CN114612501A

CN114612501A - 神经网络模型训练方法和冷冻电镜密度图分辨率估计方法

Info

Publication number: CN114612501A
Application number: CN202210116824.XA
Authority: CN
Inventors: 张强锋; 代沐芷; 徐魁
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-02-07
Filing date: 2022-02-07
Publication date: 2022-06-10
Anticipated expiration: 2042-02-07
Also published as: CN114612501B

Abstract

本申请提供了一种神经网络模型训练方法和装置、冷冻电镜密度图分辨率估计方法和装置、计算机设备，以及存储介质，解决了现有技术中冷冻电镜密度图的分辨率估计算法输入数据不易获得、计算时间长的问题。神经网络模型训练方法包括：基于第一目标冷冻电镜密度图确定掩膜值、局部分辨率波动值和全局分辨率值，第一目标冷冻电镜密度图标注有掩膜值标签、局部分辨率波动值标签和全局分辨率值标签；基于掩膜值、局部分辨率波动值和全局分辨率值对神经网络模型进行训练，以使掩膜值趋近于掩膜值标签、局部分辨率波动值趋近于局部分辨率波动值标签、全局分辨率值趋近于全局分辨率值标签。

Description

神经网络模型训练方法和冷冻电镜密度图分辨率估计方法

技术领域

本申请涉及冷冻电镜密度图的分辨率估计技术领域，具体涉及一种神经网络模型的训练方法和装置、冷冻电镜密度图分辨率估计方法和装置、计算机设备，以及存储介质。

背景技术

冷冻电镜密度图的分辨率估计是确定原子结构的关键步骤。冷冻电镜密度图的分辨率包括全局分辨率和局部分辨率。通常情况下针对全局分辨率和局部分辨率分别采用不同的算法来估计得到，同一种分辨率估计方法仅能估计一种分辨率，即全局分辨率或局部分辨率。例如，对于全局分辨率而言，可以采用傅里叶壳相关算法估计得到。对于局部分辨率而言，可以采用ResMap算法估计得到。

常规分辨率估计方法，例如Blocres方法的输入数据之一为half-maps，因此，当需要对从EMDB上下载的冷冻电镜密度图或其它途径得到的冷冻电镜密度图进行分辨率估计时，需要先获得half-maps，而half-maps不总是被提供，导致分辨率估计的输入数据难以获得，难以或需要复杂的前期准备工作得到输入数据。

发明内容

有鉴于此，本申请实施例提供了一种神经网络模型训练方法和装置、冷冻电镜密度图分辨率估计方法和装置、计算机设备，以及存储介质，以解决现有技术中冷冻电镜密度图的分辨率估计算法输入数据不易获得、计算时间长的问题。

本申请第一方面提供了一种神经网络模型的训练方法，包括：基于第一目标冷冻电镜密度图确定掩膜值、局部分辨率波动值和全局分辨率值，第一目标冷冻电镜密度图标注有掩膜值标签、局部分辨率波动值标签和全局分辨率值标签；基于掩膜值、局部分辨率波动值和全局分辨率值对神经网络模型进行训练，以使掩膜值趋近于掩膜值标签、局部分辨率波动值趋近于局部分辨率波动值标签、全局分辨率值趋近于全局分辨率值标签。

在一个实施例中，基于第一目标冷冻电镜密度图确定掩膜值、局部分辨率波动值和全局分辨率值包括：对第一目标冷冻电镜密度图进行基于残差模块的编码处理，得到m个特征图；对m个特征图进行解码，得到期望密度图；基于期望密度图确定掩膜值和局部分辨率波动值；基于m个特征图中的顶层特征图确定全局分辨率值。

在一个实施例中，基于期望密度图确定掩膜值包括：期望密度图顺次经过卷积核为3*3的卷积操作和卷积核为1*1的卷积操作，得到掩膜值。

在一个实施例中，基于期望密度图确定局部分辨率波动值包括：对期望密度图进行分类，得到多个第一类别和多个第一类别各自的权重；确定多个第一类别各自的权重和各自代表的第一预设值的乘积为局部分辨率波动值。

在一个实施例中，基于多个特征图中的顶层特征图确定全局分辨率值包括：对顶层特征图进行分类，得到多个第二类别和多个第二类别各自的权重；确定多个第二类别各自的权重和各自代表的第二预设值的乘积为全局分辨率值。

在一个实施例中，基于掩膜值、局部分辨率波动值和全局分辨率值对神经网络模型进行训练包括：基于掩膜值和掩膜值标签确定第一损失函数；基于局部分辨率波动值和局部分辨率波动值标签确定第二损失函数；基于全局分辨率值和全局分辨率值标签确定第三损失函数；基于第一损失函数、第二损失函数和第三损失函数确定总损失函数；基于总损失函数的梯度更新神经网络模型的参数。

在一个实施例中，在基于第一目标冷冻电镜密度图确定掩膜值、局部分辨率波动值和全局分辨率值之前，还包括：对冷冻电镜密度图进行切割，得到冷冻电镜密度图中的生物大分子外接立方体；对生物大分子外接立方体进行尺寸缩放，得到第一目标冷冻电镜密度图。

本申请第二方面提供了一种基于神经网络的冷冻电镜密度图分辨率估计方法，包括：基于第二目标冷冻电镜密度图确定掩膜值、局部分辨率波动值和全局分辨率值；基于掩膜值、局部分辨率波动值和全局分辨率值确定局部分辨率值。

本申请第三方面提供了一种神经网络模型的训练装置，包括：第一确定模块，基于第一目标冷冻电镜密度图确定掩膜值、局部分辨率波动值和全局分辨率值，第一目标冷冻电镜密度图标注有掩膜值标签、局部分辨率波动值标签和全局分辨率值标签；训练模块，基于掩膜值、局部分辨率波动值和全局分辨率值对神经网络模型进行训练，以使掩膜值趋近于掩膜值标签、局部分辨率波动值趋近于局部分辨率波动值标签、全局分辨率值趋近于全局分辨率值标签。

本申请第四方面提供了一种基于神经网络的冷冻电镜密度图分辨率估计装置，包括：第一确定模块，基于第二目标冷冻电镜密度图确定掩膜值、局部分辨率波动值和全局分辨率值；第二确定模块，基于掩膜值、局部分辨率波动值和全局分辨率值确定局部分辨率值。

本申请第五方面提供了一种计算机设备，包括存储器、处理器以及存储在存储器上被处理器执行的计算机程序，其特征在于，处理器执行计算机程序时实现如上述任一实施例提供的神经网络模型的训练方法的步骤或上述任一实施例提供的基于神经网络的冷冻电镜密度图分辨率检测方法。

本申请第六方面提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现上述任一实施例提供的神经网络模型的训练方法的步骤或上述任一实施例提供的基于神经网络的冷冻电镜密度图分辨率检测方法。

根据本申请提供的神经网络模型训练方法和装置、冷冻电镜密度图分辨率估计方法和装置、计算机设备，以及存储介质，可以基于一张冷冻电镜密度图同时估计出掩膜值、局部分辨率波动值和全局分辨率值。后续，可以基于掩膜值、局部分辨率波动值和全局分辨率值确定出局部分辨率值。克服了常规分辨率估计方法只能从一个维度，即全局分辨率或局部分辨率评价冷冻电镜密度图的局限性。与此同时，本实施例提供的估计方法无需提供half-maps和掩膜，也无需人为提供、调节参数。

附图说明

图1为本申请一实施例提供的训练样本的分辨率分布情况示意图。

图2为本申请一实施例提供的神经网络模型架构图。

图3为本申请一实施例提供的神经网络模型的训练方法流程图。

图4为本申请一实施例提供的步骤S310的执行过程示意图。

图5为本申请一实施例提供的步骤S320的执行过程示意图。

图6为本申请一实施例提供的基于神经网络模型的冷冻电镜密度图分辨率的估计方法的逻辑架构。

图7为本申请一实施例提供的基于神经网络模型的冷冻电镜密度图分辨率的估计方法的流程图。

图8示出了基于CryoRes方法得到的测试集中每个冷冻电镜密度图的全局分辨率和每个冷冻电镜密度图各自在EMDB上公布的全局分辨率的对比结果。

图9示出了基于ResMap方法得到的测试集中每个冷冻电镜密度图的局部分辨率的中位数与基于CryoRes方法得到的全局分辨率分别和EMDB公布的全局分辨率的比较结果。

图10示出了基于CryoRes方法得到的测试集中每个冷冻电镜密度图的掩膜与掩膜标签的IoU结果。

图11示出了掩膜与掩膜标签的IoU结果的混淆矩阵。

图12为本申请一实施例提供的神经网络模型的训练装置的结构框图。

图13为本申请一实施例提供的基于神经网络模型的冷冻电镜密度图分辨率的估计装置的结构框图。

图14是本申请一实施例提供的电子设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在介绍本申请提供的神经网络模型训练方法和装置、冷冻电镜密度图分辨率估计方法和装置、计算机设备，以及存储介质之前，先对本申请实施例中可能涉及到的专业术语或者名词进行简要介绍，以便于本领域技术人员理解。

三维全卷积网络(3D-UNet)，输入为三维图像，包含降采样、升采样和类似跳跃连接结构的全卷积网络，其特点是卷积层在降采样和升采样部分完全对称，且降采样端的特征图可以跳过深层采样，被拼接至对应的升采样端。

残差(Residual)网络，神经网络的一层通常可以看做y＝H(x)，而残差网络的一个残差块可以表示为H(x)＝F(x)+x，也就是F(x)＝H(x)-x。在单位映射中，y＝x便是观测值，而H(x)是预测值，所以F(x)便对应着残差，因此叫做残差网络。

编码-解码(Encoder-Decoder)是深度学习中的一种模型架构，一个Encoder(编码器)是一个接收输入，输出特征向量的网络。这些特征向量实际上就是输入的特征和信息的另一种表示。Decoder(解码器)同样也是一个网络(通常与编码器相同的网络结构，但方向相反)，它从编码器获取特征向量，并输出与实际输入或预期输出最近似的结果。

群组归一化(Group Normalization，GN)算法，是指先把通道维分成G组，然后针对每个组单独进行归一化处理，最后把G个组归一化后的数据合并成一张特征图。

线性整流函数(Rectified Linear Units，RELU)，又称修正线性单元，是一种人工神经网络中常用的激活函数，通常指代以斜坡函数及其变种为代表的非线性函数。激活函数是在激活神经网络中某一部分神经元运行时，将激活后的信息传入下一层，它具有非线性、可微和单调性。

冷冻电镜密度图进行三维重构的过程包括两种情况，第一种情况是对颗粒数据的整体进行三维重构，得到的结果称为single map；第二种情况是将颗粒数据随机分成两个子数据集，对该两个子数据集分别进行三维重构得到的结果称为half-maps。

示例性方法

如背景技术所述，目前用于估计冷冻电镜密度图的分辨率的算法通常只能估计局部分辨率或者全局分辨率，导致功能单一。有鉴于此，本申请提供了一种神经网络模型的训练方法，基于该训练方法得到的神经网络模型可以同时用于估计全局分辨率值和局部分辨率值。

下面按照准备训练集、搭建神经网络模型、模型训练和模型测试的顺序进行具体描述。

步一，准备训练集。

准备多张冷冻电镜密度图。在一示例中，多张冷冻电镜密度图是从电子显微镜数据库(EMDB)下载下来的真实实验数据。本次训练过程选用1523张冷冻电镜密度图，包括蛋白质的冷冻电镜密度图和核酸的冷冻电镜密度图。其中，选用1174张冷冻电镜密度图作为训练集，349张冷冻电镜密度图作为测试集，用于评估模型的估计效果。图1为本申请一实施例提供的训练集和测试集的分辨率分布情况示意图。如图1所示，1523张冷冻电镜密度图的全局分辨率均大于或等于1埃并且小于8埃。1～8埃范围被划分为6个区间段，分别为：[1.0,3.0)、[3.0,3.5)、[3.5,4.0)、[4.0,4.5)、[4.5,6.0)、[6.0,8.0)。其中，1174张训练集在各区间段的分布情况依次为：112张、279张、298张、231张、130张和124张。349张测试集在各区间段的分布情况依次为：17张、81张、98张、61张、48张和44张。

为了监督训练神经网络模型，需要为每一张冷冻电镜密度图制作标签。每一张冷冻电镜密度图包括三类标签，即全局分辨率值标签、局部分辨率波动值标签和掩膜值标签。其中，全局分辨率值为一个数值。在一示例中，选用EMDB网站上公布的全局分辨率值作为冷冻电镜密度图的全局分辨率值标签。EMDB网站上公布的全局分辨率值是目前认可的准确全局分辨率结果，因此选用EMDB网站上公布的全局分辨率值作为标签。本申请实施例采用局部分辨率波动值代替局部分辨率值作为第二类标签，这是因为，目前，较公认的估计局部分辨率的方法是Blocres方法，Blocres方法是将冷冻电镜密度图切成小块后滑窗，利用FSC的方法得到小块的分辨率，以作为这个小块中心的局部分辨率，一点点得到整个冷冻电镜密度图的局部分辨率。Blocres方法需要half-maps，难以获得较多的训练集。在一示例中，选用ResMap结果的波动值作为局部分辨率波动值标签。ResMap可以利用single map得到局部分辨率，其得到的局部分辨率存在一定误差，选用局部分辨率波动值可以减小局部分辨率的误差，从而提高标签的可靠性。ResMap得到的局部分辨率是一个三维矩阵，这个矩阵里面有一些值是100，有一些值是非100，非100的所有值取平均值后，将局部分辨率中的非100的每个值减去这个平均值就得到局部分辨率波动值。本文提到的掩膜值是一个三维矩阵，其维数和长度都和三维密度图保持一致。掩膜值后续经过阈值处理后可以得到掩膜。阈值处理是指将小于0的值置为0，表示背景区域，即无大分子信息；将大于或等于0的值置为1，表示非背景区域，即有大分子信息。这样，通过将掩膜和冷冻电镜密度图相乘，便可以将冷冻电镜密度图中的颗粒区域提取出来。在一示例中，基于密度图对应的蛋白质数据库(Protein Data Bank，PDB)文件模拟一个掩膜。该掩膜的宽度例如为4埃。

步二，搭建神经网络模型

图2为本申请一实施例提供的神经网络模型架构图。该神经网络模型包括Residual 3D-Unet模块、第一分支模块22、第二分支模块23和第三分支模块24。其中，Residual 3D-Unet模块包括编码子模块211和解码子模块212。编码子模块211的输出作为解码子模块212的输入，解码子模块212的输出作为第一分支模块22和第二分支模块23的输入。第一分支模块22用于输出掩膜值，第二分支模块23用于输出局部分辨率波动值。编码子模块211的输出还作为第三分支模块24的输入，第三分支模块24用于输出全局分辨率值。

具体而言，编码子模块211包括至少一个特征提取单元和至少一个下采样单元，至少一个特征提取单元和至少一个下采样单元按照交替方式级联。例如，如图2所示，编码子模块211包括顺次连接的第一特征提取单元、下采样单元和第二特征提取单元。在一个示例中，如图2所示，特征提取单元为一个包括三个卷积层的残差子网络。下采样单元为最大池化层。

解码子模块12包括至少一个上采样单元和至少一个特征提取单元，至少一个上采样单元和至少一个特征提取单元按照交替方式级联。例如，如图2所示，解码子模块12包括顺次连接的一个上采样单元和一个特征提取单元。在一个示例中，如图2所示，上采样单元为反卷积层，特征提取单元为一个包含三个卷积层的残差子网络。

第一分支模块22包括一个卷积核为3*3的卷积层和一个卷积核为1*1的卷积层。

第二分支模块23采用分类+回归架构。例如，如图2所示，第二分支模块23包括一个卷积核为3*3的卷积层、一个卷积核为1*1的卷积层和一个soft-Argmax层。

第三分支模块24也采用了分类+回归架构。例如，如图2所示，第三分支模块24包括三个卷积核为3*3的卷积层、两个卷积核为1*1的卷积层、一个全局平均池化层和一个soft-Argmax层。其中，前两个卷积核为3*3的卷积层之后分别设置有一个最大池化层。

步三，模型训练

图3为本申请一实施例提供的神经网络模型的训练方法流程图。如图3所示，训练方法300包括：

步骤S310，基于第一目标冷冻电镜密度图确定掩膜值、局部分辨率波动值和全局分辨率值，第一目标冷冻电镜密度图标注有掩膜值标签、局部分辨率波动值标签和全局分辨率值标签。

步骤S320，基于掩膜值、局部分辨率波动值和全局分辨率值对神经网络模型进行训练，以使掩膜值趋近于掩膜值标签、局部分辨率波动值趋近于局部分辨率波动值标签、全局分辨率值趋近于全局分辨率值标签。

在步骤S310中，第一目标冷冻电镜密度图是指上面提到的1174张训练集经过预处理后得到的。在一个实施例中，这里提到的预处理过程包括：对冷冻电镜密度图进行切割，得到冷冻电镜密度图中的生物大分子外接立方体；对生物大分子外接立方体进行尺寸缩放，得到第一目标冷冻电镜密度图。在一示例中，第一目标冷冻电镜密度图的尺寸小于或等于248*248*248。

图4为本申请一实施例提供的步骤S310的执行过程示意图。如图4所示，步骤S310具体包括：

步骤S311，对第一目标冷冻电镜密度图进行基于残差模块的编码处理，得到m个特征图。

具体而言，参阅图2，该步骤由编码子模块211执行。编码子模块211中的每个特征提取单元输出一个特征图。

首先，对第一目标冷冻电镜密度图进行特征提取，得到第一个特征图。在一示例中，基于残差模块进行特征提取处理。例如，第一目标冷冻电镜密度图先经过GN操作，再经过第一卷积操作，得到第一子特征图。第一子特征图顺次经过GN操作、第二卷积操作、GN操作和第三卷积操作，得到第二子特征图。对第一子特征图进行ReLU操作，并将经过ReLU操作后的第一子特征图和第二子特征图相加，得到第一个特征图。

其次，对第一个特征图进行下采样，得到下采样特征图。

接着，对下采样特征图进行特征提取，得到第二个特征图。该特征提取为基于残差模块进行的特征提取处理。具体过程参阅上述得到第一个特征图的过程，这里不再赘述。

应当理解，图2示出的编码子模块211仅包括两个特征提取单元和一个下采样单元，可以得到两个特征图。在其它实施例中，编码子模块211还可以包括三个特征提取单元和两个下采样单元，或者四个特征提取单元和三个下采样单元等等，本申请实施例对编码子模块211中特征提取单元和下采样单元的数量不作限定。

基于上述描述过程可知，步骤S311的执行过程可以归纳为：对于第i个特征图，在i等于1的情况下，对第一目标冷冻电镜密度图进行特征提取处理，得到第一个特征图；在i大于1的情况下，对第i-1个特征图进行下采样，得到下采样特征图。对下采样特征图进行特征提取处理，得到第i个特征图。其中，i为大于或等于1并且小于m的正整数，特征提取处理是指基于残差模块进行的特征提取处理。

步骤S312，对m个特征图进行解码，得到期望密度图。

参阅图2，该步骤由解码子模块212执行。以m等于2为例，步骤S312具体执行为，对第二个特征图顺次执行非线性整流和反卷积处理，得到上采样特征图。对第一个特征图进行非线性整流处理，得到非线性整流特征图。对上采样特征图和非线性整流特征图的加和进行特征提取处理，得到期望密度图。该特征提取为基于残差模块进行的特征提取处理。具体过程参阅上述得到第一个特征图的过程，这里不再赘述

步骤S313，基于期望密度图确定掩膜值和局部分辨率波动值。

参阅图2，基于期望密度图确定掩膜值的过程由第一分支模块22执行。具体而言，期望密度图顺次经过卷积核为3*3的卷积层和卷积核为1*1的卷积层，得到掩膜值。基于期望密度图确定局部分辨率波动值的过程由第二分支模块23执行。具体而言，首先，对期望密度图进行分类，得到多个第一类别和多个第一类别各自的权重。例如，期望密度图顺次通过卷积核为3*3的卷积操作和卷积核为1*1的卷积操作，得到多个第一类别和多个第一类别各自的权重。其次，确定多个第一类别各自的权重和各自代表的第一预设值的乘积为局部分辨率波动值。

第一预设值由人为设置，可以根据实际情况合理选取。在一个实施例中，第一类别的数量为37个，该37个第一类别各自代表的第一预设值依次为：-5,-4.5,-4,-3.5,-3,-2.5,-2,-1.5,-1,-0.9,-0.8,-0.7,-0.6,-0.5,-0.4,-0.3,0.2,-0.1,0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1,1.5,2,2.5,3,3.5,4,4.5,5。

步骤S314，基于多个特征图中的顶层特征图确定全局分辨率值。

参阅图2，步骤S314由第三分支模块24执行。对于图2所示的神经网络模型而言，顶层特征图即为第二特征图，也即编码子模块211的输出。

具体而言，首先，对顶层特征图进行分类，得到多个第二类别和多个第二类别各自的权重。例如，顶层特征图顺次经过三次卷积核为3*3的卷积操作、两次卷积核为1*1的卷积操作和全局平均池化操作，得到多个第二类别和多个第二类别各自的权重。其中，前两次卷积核为3*3的卷积操作后进行池化操作。其次，确定多个第二类别各自的权重和各自代表的第二预设值的乘积为全局分辨率值。

第二预设值由人为设置，可以根据实际情况合理选取。在一个实施例中，第二类别的数量为10个。该10个第二类别各自代表的第二预设值依次为：1,2,3,4,5,6,7,8,9,10。

图5为本申请一实施例提供的步骤S320的执行过程示意图。如图5所示，步骤S320具体包括：

步骤S321，基于掩膜值和掩膜值标签确定第一损失函数。

具体可以采用二元交叉熵被作为第一损失函数，公式为：

其中，

为网络输出，y为标签值。

步骤S322，基于局部分辨率波动值和局部分辨率波动值标签确定第二损失函数。

具体可以采用log10被作为第二损失函数，公式为：

其中，

为网络输出，y为标签值。

步骤S323，基于全局分辨率值和全局分辨率值标签确定第三损失函数。

具体可以采用MSE被用作第三损失函数，公式为：

其中，

为网络输出结果，y为标签值。

步骤S324，基于第一损失函数、第二损失函数和第三损失函数确定总损失函数。

总损失函数的公式为：Loss_all＝Loss_global+10·Loss_local+Loss_mask。

步骤S325，基于总损失函数的梯度更新神经网络模型的参数。

采用SGD优化器(动量＝0.8)确定如何使用总损失函数的梯度来更新网络参数。

根据本申请实施例提供的训练方法得到的神经网络模型，可以基于一张冷冻电镜密度图同时估计出掩膜值、局部分辨率波动值和全局分辨率值。

步四模型测试

本申请利用349个测试集对训练得到的神经网络模型进行了测试。测试结果表明，神经网络模型的局部分辨率估计和全局分辨率估计的误差均为0.44埃，掩膜值的平均交并比(Intersection over Union，IoU)为0.71。

本申请还提供了一种利用上述任一实施例提供的神经网络模型估计冷冻电镜密度图的分辨率的方法。图6为本申请一实施例提供的基于神经网络模型的冷冻电镜密度图分辨率的估计方法的逻辑架构。图7为本申请一实施例提供的基于神经网络模型的冷冻电镜密度图分辨率的估计方法(即CryoRes方法)的流程图。结合图6和图7所示，CryoRes方法700包括：

步骤S710，对冷冻电镜密度图进行预处理，得到第二目标冷冻电镜密度图。这里的冷冻电镜密度图可以是任意一张冷冻电镜密度图。

预处理过程例如为：对冷冻电镜密度图进行切割，得到冷冻电镜密度图中的生物大分子外接立方体；对生物大分子外接立方体进行尺寸缩放，得到第二目标冷冻电镜密度图。在一示例中，第二目标冷冻电镜密度图的尺寸小于或等于248*248*248。

步骤S720，基于第二目标冷冻电镜密度图确定掩膜值、局部分辨率波动值和全局分辨率值。该过程可以参阅上述神经网络模型的训练方法实施例，这里不再赘述。

步骤S730，基于掩膜值、局部分辨率波动值和全局分辨率值确定局部分辨率值。

根据局部分辨率波动值、全局分辨率值和掩膜值可以得到第二目标冷冻电镜密度图中每个体素对应的实数值，即为该体素的局部分辨率值。

具体而言，参阅图6所示，将全局分辨率值和局部分辨率波动值进行矩阵相加运算，得到第一加和。对掩膜值进行阈值处理，得到掩膜。阈值处理包括将掩膜值中小于0的值置为0，表示背景区域，即无大分子信息；将大于或等于0的值置为1，表示非背景区域，即有大分子信息。将第一加和与掩膜相乘，得到第一乘积。将掩膜乘以第一常数并加上第二常数，得到第二加和。在一示例中，第一常数为-100，第二常数为100。确定第二加和与第一乘积之和为局部分辨率值。

表一示出了图6和图7所示CryoRes方法700与几种常规的分辨率估计方法的对比结果。从表1可以看出，根据本实施例提供的冷冻电镜密度图分辨率的估计方法，可以基于一张冷冻电镜密度图同时估计出局部分辨率和全局分辨率，克服了常规分辨率估计方法只能从一个维度，即全局分辨率或局部分辨率评价冷冻电镜密度图的局限性。与此同时，本实施例提供的估计方法无需提供half-maps，也无需提供掩膜等参数。

表一CryoRes方法700与几种常规的分辨率估计方法的对比结果(表中*表示优选地，即更推荐提供)

本申请从三个方面，包括：(1)局部分辨率；(2)全局分辨率；(3)掩膜，对图6和图7所示CryoRes方法700的性能进行了评估。

对于(1)局部分辨率，选取了四个冷冻电镜密度图作为试验密度图对CryoRes方法700的性能进行评估。具体而言，第一个试验密度图为RelA与70S核糖体结合的冷冻电镜结构(EMDB：EMD-8108)。该试验密度图发表于2016年，它的维度为400*400*400，体素大小为1.34埃。EMDB官网公布的通过阈值截断(Fourier Shell Correlation，FSC)得到的全局分辨率为3.0埃，这里提到的阈值一般为0.143。CryoRes、ResMap和DeepRes分别将signal map作为输入得到局部分辨率，Blocres和MonoRes分别将half-maps作为输入得到局部分辨率。其中，基于CryoRes得到的局部分辨率的范围为3.19-3.91埃，平均值和标准差分别为3.38埃和0.14埃。基于Blocres得到的局部分辨率的范围是2.88-10.89埃，平均值和标准差分别为3.39埃和0.77埃。基于ResMap得到的局部分辨率的范围为2.9-5.9埃，平均值和标准差分别为2.9埃和0.91埃。基于MonoRes得到的局部分辨率的范围是2.68-8.93埃，平均值和标准差分别为3.67埃和1.45埃。基于DeepRes得到的局部分辨率的范围是2.68-6.64埃，平均值和标准差分别为3.41埃和0.52埃。

第二个试验密度图为ArfA和TtRF2与70S核糖体结合的冷冻电镜结构(EMDB：EMD-3492)。该试验密度图发表于2016年，它的维度为400*400*400，体素大小为1.04埃。EMDB官网公布的通过阈值截断(Fourier Shell Correlation，FSC)得到的全局分辨率为3.35埃，这里提到的阈值一般为0.143。CryoRes、ResMap和DeepRes分别将signal map作为输入得到局部分辨率，Blocres和MonoRes分别将half-maps作为输入得到局部分辨率。其中，基于CryoRes得到的局部分辨率的范围为3.37-4.07埃，平均值和标准差分别为3.57埃和0.12埃。基于Blocres得到的局部分辨率的范围是3.17-11.27埃，平均值和标准差分别为3.62埃和0.79埃。基于ResMap得到的局部分辨率的范围为2.3-4.05埃，平均值和标准差分别为2.3埃和0.26埃。基于MonoRes得到的局部分辨率的范围是2.83-8.16埃，平均值和标准差分别为4.08埃和1.1埃。基于DeepRes得到的局部分辨率的范围是2.5-6.06埃，平均值和标准差分别为2.91埃和0.49埃。

第三个试验密度图为Gasdermin A3膜孔的冷冻电镜结构(EMDB：EMD-7450)。该试验密度图发表于2018年，它的维度为380*380*380，体素大小为1.0埃。EMDB官网公布的通过阈值截断(Fourier Shell Correlation，FSC)得到的全局分辨率为4.4埃，这里提到的阈值一般为0.143。CryoRes、ResMap和DeepRes分别将signal map作为输入得到局部分辨率，Blocres和MonoRes分别将half-maps作为输入得到局部分辨率。其中，基于CryoRes得到的局部分辨率的范围为3.58-4.46埃，平均值和标准差分别为3.75埃和0.18埃。基于Blocres得到的局部分辨率的范围是3.28-4.9埃，平均值和标准差分别为3.7埃和0.31埃。基于ResMap得到的局部分辨率的范围为2.2-2.45埃，平均值和标准差分别为2.2埃和0.00埃。基于MonoRes得到的局部分辨率的范围是2.0-7.31埃，平均值和标准差分别为4.27埃和1.36埃。基于DeepRes得到的局部分辨率的范围是3.45-8.24埃，平均值和标准差分别为5.55埃和0.7埃。

第四个试验密度图为细菌30S-IF1-IF2-IF3-mRNA-tRNA翻译起始前复合体的冷冻电镜结构(EMDB：EMD-4082)。该试验密度图发表于2016年，它的维度为260*260*260，体素大小为1.34埃。EMDB官网公布的通过阈值截断(Fourier Shell Correlation，FSC)得到的全局分辨率为8.3埃，这里提到的阈值一般为0.143。CryoRes、ResMap和DeepRes分别将signalmap作为输入得到局部分辨率，Blocres和MonoRes分别将half-maps作为输入得到局部分辨率。其中，基于CryoRes得到的局部分辨率的范围为7.57-9.05埃，平均值和标准差分别为7.92埃和0.25埃。基于Blocres得到的局部分辨率的范围是6.48-33.96埃，平均值和标准差分别为9.25埃和2.47埃。基于ResMap得到的局部分辨率的范围为8.9-13.4埃，平均值和标准差分别为11.15埃和1.05埃。基于MonoRes得到的局部分辨率的范围是2.68-20.49埃，平均值和标准差分别为8.5埃和4.59埃。基于DeepRes得到的局部分辨率的范围是2.68-12.9埃，平均值和标准差分别为8.69埃和1.05埃。

对于(2)全局分辨率，基于CryoRes方法700得到测试集中的349张冷冻电镜密度图的全局分辨率。确定出基于CryoRes方法700得到的全局分辨率与该349张冷冻电镜密度图各自在EMDB上公布的全局分辨率的绝对误差平均值为0.44。

图8示出了基于CryoRes方法700得到的测试集中每个冷冻电镜密度图的全局分辨率和每个冷冻电镜密度图各自在EMDB上公布的全局分辨率的对比结果。如图8所示，对于大多数冷冻电镜密度图而言，基于CryoRes方法700得到的全局分辨率与EMDB上公布的全局分辨率接近，误差小于1埃；少数冷冻电镜密度图的误差大于1埃，但误差基本在2埃以内。

图9示出了基于ResMap方法得到的测试集中每个冷冻电镜密度图的局部分辨率的中位数与基于CryoRes方法得到的全局分辨率分别和EMDB公布的全局分辨率的比较结果。图9中的纵坐标指示ResMap方法得到的中位数和CryoRes方法得到的全局分辨率分别与EMDB公布的全局分辨率的差值，对比图8和图9可以看出，基于ResMap方法得到的中位数和EMDB上公布的全局分辨率的误差相比于基于CryoRes方法700得到的全局分辨率和EMDB上公布的全局分辨率的误差更大。与此同时，如图9所示，基于ResMap方法得到的局部分辨率的中位数与EMDB公布的全局分辨率的误差与冷冻电镜密度图的分辨率负相关，即分辨率越低，误差越大。比较而言，如图8所示的基于CryoRes方法700对应的误差的波动相对稳定，受分辨率影响较小。

对于(3)掩膜，对测试集中的冷冻电镜密度图做了评估，测试集中的349张冷冻电镜密度图的IoU平均值为0.74。

图10示出了基于CryoRes方法700得到的测试集中每个冷冻电镜密度图的掩膜与掩膜标签的IoU结果。从图10可以看出，大多数冷冻电镜密度图的IoU在0.7以上。对于IoU结果较低的冷冻电镜密度图而言，其通常存在噪声较大或存在未解析的低分辨率结构，掩膜标签依赖于其对于的PDB文件，不依赖于冷冻电镜密度图本身。而基于CryoRes方法700得到的掩膜更依赖于冷冻电镜密度图本身，导致其得到的IoU结果较低，符合对于掩膜的期望。

图11示出了掩膜与掩膜标签的IoU结果的混淆矩阵。对测试集中的349张冷冻电镜密度图的IoU结果制作混淆矩阵，用于评估CryoRes方法700得到的掩膜对生物大分子和背景部分的识别效果。从图11可以看出，对于掩膜标签提供的大分子位置识别率达到0.91，对于背景位置的识别率达到0.92。

示例性装置

本申请还提供了一种神经网络模型的训练装置。图12为本申请一实施例提供的神经网络模型的训练装置的结构框图。如图12所示，训练装置800包括第一确定模块810和训练模块820。其中，第一确定模块810用于基于第一目标冷冻电镜密度图确定掩膜值、局部分辨率波动值和全局分辨率值，第一目标冷冻电镜密度图标注有掩膜值标签、局部分辨率波动值标签和全局分辨率值标签。训练模块820用于基于掩膜值、局部分辨率波动值和全局分辨率值对神经网络模型进行训练，以使掩膜值趋近于掩膜值标签、局部分辨率波动值趋近于局部分辨率波动值标签、全局分辨率值趋近于全局分辨率值标签。

在一个实施例中，第一确定模块810包括编码子模块、解码子模块、第一分支模块、第二分支模块和第三分支模块。其中，编码子模块用于对第一目标冷冻电镜密度图进行基于残差模块的编码处理，得到m个特征图。解码子模块用于对m个特征图进行解码，得到期望密度图。第一分支模块用于基于期望密度图确定掩膜值。第二分支模块用于基于期望密度图确定局部分辨率波动值。第三分支模块用于基于m个特征图中的顶层特征图确定全局分辨率值。

在一个实施例中，训练模块820包括第一确定子模块、第二确定子模块、第三确定子模块、第四确定子模块和更新模块。其中，第一确定子模块用于基于掩膜值和掩膜值标签确定第一损失函数。第二确定子模块用于基于局部分辨率波动值和局部分辨率波动值标签确定第二损失函数。第三确定子模块用于基于全局分辨率值和全局分辨率值标签确定第三损失函数。第四确定子模块用于基于第一损失函数、第二损失函数和第三损失函数确定总损失函数。更新模块用于基于总损失函数的梯度更新神经网络模型的参数。

本实施例提供的神经网络模型的训练装置，与本申请实施例所提供的神经网络模型的训练方法属于同一申请构思，可执行本申请任意实施例所提供的神经网络模型的训练方法，具备执行神经网络模型的训练方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例提供的神经网络模型的训练方法，此处不再加以赘述。

本申请还提供了一种基于神经网络模型的冷冻电镜密度图分辨率的估计装置。图13为本申请一实施例提供的基于神经网络模型的冷冻电镜密度图分辨率的估计装置的结构框图。如图13所示，估计装置900包括预处理模块910、第二确定模块920和第三确定模块930。其中，预处理模块910用于对冷冻电镜密度图进行预处理，得到第二目标冷冻电镜密度图。第二确定模块920用于基于第二目标冷冻电镜密度图确定掩膜值、局部分辨率波动值和全局分辨率值。第三确定模块930用于基于掩膜值、局部分辨率波动值和全局分辨率值确定局部分辨率值。

根据本实施例提供的冷冻电镜密度图分辨率的估计方法，可以基于一张冷冻电镜密度图同时估计出局部分辨率值和全局分辨率值，克服了常规分辨率估计方法只能从一个维度，即全局分辨率或局部分辨率评价冷冻电镜密度图的局限性。与此同时，本实施例提供的估计方法无需提供half-maps，也无需提供掩膜等参数。

本实施例提供的基于神经网络模型的冷冻电镜密度图分辨率的估计装置，与本申请实施例所提供的基于神经网络模型的冷冻电镜密度图分辨率的估计方法属于同一申请构思，可执行本申请任意实施例所提供的基于神经网络模型的冷冻电镜密度图分辨率的估计方法，具备执行基于神经网络模型的冷冻电镜密度图分辨率的估计方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例提供的基于神经网络模型的冷冻电镜密度图分辨率的估计方法，此处不再加以赘述。

电子设备

图14是本申请一实施例提供的电子设备的结构框图。如图14所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的神经网络模型的训练方法和基于神经网络模型的冷冻电镜密度图分辨率的估计方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图14中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的神经网络模型的训练方法和基于神经网络模型的冷冻电镜密度图分辨率的估计方法中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令在被处理器运行时使得处理器11执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的神经网络模型的训练方法和基于神经网络模型的冷冻电镜密度图分辨率的估计方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

应当理解，本申请实施例描述中所用到的限定词“第一”、“第二”、“第三”、“第四”、“第五”和“第六”仅用于更清楚的阐述技术方案，并不能用于限制本申请的保护范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种神经网络模型的训练方法，其特征在于，包括：

基于第一目标冷冻电镜密度图确定掩膜值、局部分辨率波动值和全局分辨率值，所述第一目标冷冻电镜密度图标注有掩膜值标签、局部分辨率波动值标签和全局分辨率值标签；

基于所述掩膜值、所述局部分辨率波动值和所述全局分辨率值对所述神经网络模型进行训练，以使所述掩膜值趋近于所述掩膜值标签、所述局部分辨率波动值趋近于局部分辨率波动值标签、所述全局分辨率值趋近于所述全局分辨率值标签。

2.根据权利要求1所述的神经网络模型的训练方法，其特征在于，所述基于第一目标冷冻电镜密度图确定掩膜值、局部分辨率波动值和全局分辨率值包括：

对所述第一目标冷冻电镜密度图进行基于残差模块的编码处理，得到m个特征图；

对所述m个特征图进行解码，得到期望密度图；

基于所述期望密度图确定所述掩膜值和所述局部分辨率波动值；

基于所述m个特征图中的顶层特征图确定所述全局分辨率值。

3.根据权利要求2所述的神经网络模型的训练方法，其特征在于，所述基于所述期望密度图确定所述掩膜值包括：

所述期望密度图顺次经过卷积核为3*3的卷积操作和卷积核为1*1的卷积操作，得到所述掩膜值。

4.根据权利要求2所述的神经网络模型的训练方法，其特征在于，所述基于所述期望密度图确定所述局部分辨率波动值包括：

对所述期望密度图进行分类，得到多个第一类别和所述多个第一类别各自的权重；

确定所述多个第一类别各自的权重和各自代表的第一预设值的乘积为所述局部分辨率波动值。

5.根据权利要求2所述的神经网络模型的训练方法，其特征在于，基于所述多个特征图中的顶层特征图确定所述全局分辨率值包括：

对所述顶层特征图进行分类，得到多个第二类别和所述多个第二类别各自的权重；

确定所述多个第二类别各自的权重和各自代表的第二预设值的乘积为所述全局分辨率值。

6.根据权利要求1所述的神经网络模型的训练方法，其特征在于，所述基于所述掩膜值、所述局部分辨率波动值和所述全局分辨率值对所述神经网络模型进行训练包括：

基于所述掩膜值和所述掩膜值标签确定第一损失函数；

基于所述局部分辨率波动值和所述局部分辨率波动值标签确定第二损失函数；

基于所述全局分辨率值和所述全局分辨率值标签确定第三损失函数；

基于所述第一损失函数、所述第二损失函数和所述第三损失函数确定总损失函数；

基于所述总损失函数的梯度更新所述神经网络模型的参数。

7.根据权利要求1所述的神经网络模型的训练方法，其特征在于，在所述基于第一目标冷冻电镜密度图确定掩膜值、局部分辨率波动值和全局分辨率值之前，还包括：

对冷冻电镜密度图进行切割，得到冷冻电镜密度图中的生物大分子外接立方体；

对所述生物大分子外接立方体进行尺寸缩放，得到所述第一目标冷冻电镜密度图。

8.一种基于神经网络的冷冻电镜密度图分辨率估计方法，其特征在于，包括：

基于第二目标冷冻电镜密度图确定掩膜值、局部分辨率波动值和全局分辨率值；

基于所述掩膜值、所述局部分辨率波动值和所述全局分辨率值确定局部分辨率值。

9.一种神经网络模型的训练装置，其特征在于，包括：

第一确定模块，基于第一目标冷冻电镜密度图确定掩膜值、局部分辨率波动值和全局分辨率值，所述第一目标冷冻电镜密度图标注有掩膜值标签、局部分辨率波动值标签和全局分辨率值标签；

训练模块，基于所述掩膜值、所述局部分辨率波动值和所述全局分辨率值对所述神经网络模型进行训练，以使所述掩膜值趋近于所述掩膜值标签、所述局部分辨率波动值趋近于局部分辨率波动值标签、所述全局分辨率值趋近于所述全局分辨率值标签。

10.一种基于神经网络的冷冻电镜密度图分辨率估计装置，其特征在于，包括：

第一确定模块，基于第二目标冷冻电镜密度图确定掩膜值、局部分辨率波动值和全局分辨率值；

第二确定模块，基于所述掩膜值、所述局部分辨率波动值和所述全局分辨率值确定局部分辨率值。

11.一种计算机设备，包括存储器、处理器以及存储在所述存储器上被所述处理器执行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述神经网络模型的训练方法的步骤或权利要求8所述的基于神经网络的冷冻电镜密度图分辨率检测方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述神经网络模型的训练方法的步骤或权利要求8所述的基于神经网络的冷冻电镜密度图分辨率检测方法。