CN114841898B

CN114841898B - 基于深度学习的冷冻电镜三维密度图后处理方法和装置

Info

Publication number: CN114841898B
Application number: CN202210750372.0A
Authority: CN
Inventors: 黄胜友; 何佳铧; 李涛
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-09-23
Anticipated expiration: 2042-06-29
Also published as: CN114841898A

Abstract

本发明公开了一种基于深度学习的冷冻电镜三维密度图后处理方法和装置，属于结构生物学检测技术领域，所述方法包括：构建包括多个实验密度图和关联的PDB结构的训练样本集；将每个实验密度图和其对应的模拟密度图进行分割得到多个实验密度块和多个模拟密度块；将各个实验密度图对应的多个实验密度块输入基于UNet++网络模型构建的深度学习网络得到多个预测密度块；利用目标损失函数获取预测密度块与对应的模拟密度块之间的差值，反向传播差值从而训练深度学习网络；将当前冷冻电镜密度图切割为多个当前密度块，将当前密度块输入训练好的深度学习网络，将输出的密度块进行组装得到最终密度图。本发明能够提高冷冻电镜密度图的可解释性。

Description

基于深度学习的冷冻电镜三维密度图后处理方法和装置

技术领域

本发明属于结构生物学检测技术领域，更具体地，涉及一种基于深度学习的冷冻电镜三维密度图后处理方法和装置。

背景技术

由于在硬件和图像处理算法方面的不断进步，冷冻电镜(cryo-EM)已成为结构生物学中测定生物大分子结构的标准技术之一。冷冻电镜的最终目标是从密度图中获得大分子复合物的原子模型，在这个过程中，冷冻电镜密度图的质量是至关重要的。然而，由于一些固有的影响，譬如分子运动，密度异质性以及较差的成像，原始的冷冻电镜密度图往往面临高分辨率对比度损失的问题，并不能立即用于准确的结构建模。

传统的密度图锐化方法大致可以分为两类:全局锐化方法和局部锐化方法。全局锐化方法通常在密度图上确定一个B因子，并在整个密度图上应用相同的密度校正。对于大多数电镜图，密度的信噪比在整个图上是不均匀的，而全局锐化方法很容易受到这种异质性的影响，从而产生过度锐化或者欠锐化的区域。与全局锐化方法不同的是，局部锐化方法考虑了冷冻电镜密度图的异质性，在密度图锐化过程中采用与局部密度相关的校正。然而，现有的这些方法都存在一定的不足。局部锐化方法在很大程度上依赖于一些先验信息，例如需要预先提供大分子位置信息，以区分溶剂噪声和结构信号，或者需要对密度图的局部分辨率估计，有些方法甚至需要提供原子模型的结构信息。在实际情形下，这些先验信息往往是难以准确得到的。

为了解决传统锐化方法的局限性，最近提出了基于深度学习的自动冷冻电镜三维密度后处理方法，以提高其可解释性。DeepEMhancer是一种全自动的基于深度学习的方法，它模拟了LocScale算法的局部锐化效果。SuperEM是另一种基于深度学习的方法，它使用三维生成对抗网络(GAN)根据输入的密度图生成分辨率更高的密度图。尽管DeepEMhancer和SuperEM在一些密度图上表现良好，但它们都面临各自的挑战。一方面DeepEMhancer在训练过程中使用原子模型引导的锐化后的密度图作为其训练目标，因此它可能会受到训练集中密度图的准确性或噪声的限制。SuperEM试图最小化从生成网络产生的密度图的和模拟的无噪声的密度图的之间的平均差异，可能会忽略两者之间的结构相关性，从而导致密度对比度的损失。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度学习的冷冻电镜三维密度图后处理方法和装置，其目的在于，在深度学习网络的训练过程中，利用无噪声的冷冻电镜图作为模拟密度图，而不是使用原子模型引导的锐化后的密度图，能够避免DeepEMhancer中实验图的噪声和错误问题。此外，通过最小化平滑L1距离和最大化测试密度图和模拟图之间的结构相似性，使得深度学习网络能够学习到SuperEM中缺失的结构相关性，由此解决现有冷冻电镜三维密度图后处理方法中无法避免噪声和结构缺失的技术问题，能够提高冷冻电镜密度图的可解释性。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度学习的冷冻电镜三维密度图后处理方法，包括以下步骤：

S1：构建包括多个实验密度图和关联的PDB结构的训练样本集；

S2：将每个所述实验密度图和其对应的模拟密度图进行分割，分别得到多个实验密度块和多个模拟密度块；将各个所述实验密度图对应的多个实验密度块输入基于UNet++网络模型构建的深度学习网络得到多个预测密度块；利用目标损失函数获取多个所述预测密度块与对应多个所述模拟密度块之间的差值，反向传播所述差值从而训练所述深度学习网络；

其中，所述模拟密度图为所述实验密度图对应的无噪声的冷冻电镜图；所述目标损失函数包括平滑L1损失函数和结构相似性损失函数；

S3：将当前冷冻电镜密度图切割为多个当前密度块，将所有的所述当前密度块输入训练好的深度学习网络，将输出的密度块进行组装得到最终密度图。

在其中一个实施例中，所述S1包括：

S11：从EMDB数据库和PDB数据库下载满足预设分辨率的单粒子冷冻电镜图以及与之关联的PDB结构作为初始样本；

S12：对所述单粒子冷冻电镜图及其关联的PDB结构进行筛选和聚类，剔除不满足要求的初始样本；

S13：将剩余的所述初始样本中的单粒子冷冻电镜图作为所述实验密度图，将每个所述实验密度图分割成多个预设尺寸的实验密度块。

在其中一个实施例中，所述S12包括：

S121：若一所述初始样本中的单粒子冷冻电镜图具有非正交的轴或分辨率不满足FSC-0.143黄金标准或与之关联的PDB结构中仅包含骨架原子、包含未知的残基或包含缺失的链，则剔除所述初始样本；

S122：若一所述初始样本中的PDB结构对应的CC_mask值低于预设值，则剔除所述初始样本；

S123：使用贪心算法对剩余的所述初始样本中单粒子冷冻电镜图进行聚类得到多个集合，确定出各个集合中的代表样本，将所述代表样本中的单粒子冷冻电镜图作为所述训练样本。

在其中一个实施例中，所述S123包括：

若一所述初始样本中PDB结构内的任一条链与另一所述初始样本中PDB结构内任一条链有大于30%的序列相似性，则将两个初始样本放置到一个集合；

将每个所述集合中相似样本数量最多的初始样本作为所述集合的所述代表样本，然后移除该集合中其余初始样本；

将所述代表样本中的单粒子冷冻电镜图作为所述训练样本。

在其中一个实施例中，所述S2之前，所述方法还包括：

通过三次立方插值将各个所述实验密度图中密度图网格间隔进行统一，负的密度值被截断到零；

采用全局归一化策略将每个所述实验密度图的密度值进行归一化。

在其中一个实施例中，所述S2包括：

S21：将每个所述实验密度图和其对应的模拟密度图进行分割，分别得到多个实验密度块和多个模拟密度块；

S22：将各个所述实验密度图对应的多个实验密度块输入基于UNet++网络模型构建的深度学习网络得到多个预测密度块；所述UNet++网络模型包括多个编码器模块和多个解码器模块；

S23：利用所述平滑L1损失函数计算预测密度块和模拟密度块之间的密度值的第一差值；利用所述结构相似性损失函数根据预测密度块和模拟密度块的对比度相似性和结构相似性进行比较得到第二差值；将所述第一差值和所述第二差值的和作为所述差值，反向传播所述差值从而训练所述深度学习网络。

在其中一个实施例中，所述S21包括：

利用预设步长三维滑动窗口将所述实验密度图及其相应的模拟密度图分成多对预设尺寸的密度块，分别记为所述实验密度块和所述模拟密度块；其中，所述模拟密度图是从对应的实验密度图相关联的PDB结构无噪声地模拟得到的。

在其中一个实施例中，所述S23之后，所述方法还包括：

当所述目标损失函数的输出在连续多轮训练中均未降低，则学习率将降低到其当前值的1/2；

当学习率达到最小值1e-5时，停止训练，多次训练得到多个目标深度学习网络，将损失函数最小对应的目标深度学习网络作为所述训练好的深度学习网络。

按照本发明的另一方面，提供了一种基于深度学习的冷冻电镜三维密度图后处理装置，用于执行上述的基于深度学习的冷冻电镜三维密度图后处理方法，包括：

构建模块，用于构建包括多个实验密度图和关联的PDB结构的训练样本集；

训练模块，用于将每个所述实验密度图和其对应的模拟密度图进行分割，分别得到多个实验密度块和多个模拟密度块；将各个所述实验密度图对应的多个实验密度块输入基于UNet++网络模型构建的深度学习网络得到多个预测密度块；利用目标损失函数获取多个所述预测密度块与对应多个所述模拟密度块之间的差值，反向传播所述差值从而训练所述深度学习网络；

执行模块，用于将当前冷冻电镜密度图切割为多个当前密度块，将所有的所述当前密度块输入训练好的深度学习网络，将输出的密度块进行组装得到最终密度图。

按照本发明的另一方面，提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

按照本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

（1）本发明使用了UNet++的三维卷积网络架构，在深度学习网络的训练过程中，使用从与冷冻电镜图相对应的PDB结构模拟得到的无噪声的冷冻电镜图作为模拟密度图，而不是使用原子模型引导的锐化后的密度图，可以避免DeepEMhancer中实验图的噪声和错误问题。此外，通过最小化平滑L1距离和最大化处理后的密度图和模拟图之间的结构相似性(SSIM)，深度学习网络能够学习到SuperEM中缺失的结构相关性。

（2）本发明在350对密度图和对应的PDB结构的训练集上广泛训练了深度学习模型。结果表明，通过使用本发明提出的三维密度图后处理方法，密度图在各种质量指标方面都可以得到显著提升。此外，使用本发明提出的方法处理后的密度图，通过从头开始自动建模和基于模板的结构优化，都能得到更好的结构模型，这表明本发明提出的冷冻电镜三维密度图后处理方法可以真正提高冷冻电镜图的可解释性。

附图说明

图1是本发明一实施例中提供的基于深度学习的冷冻电镜三维密度图后处理方法的流程图；

图2是本发明一实施例中提供的基于深度学习的冷冻电镜三维密度图后处理方法的应用示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，为实现上述目的，按照本发明的一个方面，提供了一种基于深度学习的冷冻电镜三维密度图后处理方法，包括以下步骤：

如图2所示，本发明所使用的深度学习框架概述：

a示意构建训练数据集及分割密度块，具体的，分别从EMDB和PDB下载冷冻电镜密度图以及关联的PDB结构模型。模拟密度图通过PDB模型模拟得到。然后将实验图和模拟图切割成多个具有固定大小的实验密度块和模拟密度块。

b示意为深度学习网络的训练过程，在每一轮训练中，将一个实验密度块输入到深度学习模型中，并将处理后的密度块与相应的模拟密度快进行比较。采用平滑L1损失函数和SSIM损失函数相结合的方法通过反向传播优化深度学习模型。

c 为本发明使用的UNet++网络架构示意图。网络由嵌套的下采样卷积模块和上采样卷积模块组成。

d示意本发明的应用过程。对于给定的输入冷冻电镜密度图，首先将其切割成多个具有固定大小的密度块。所有的密度块都经过训练好的深度学习模型处理，然后将输出的密度块重新组装为处理后的密度图。

具体的，本发明使用UNet++深度学习网络框架构建的深度学习网络对冷冻电镜三维密度图进行后处理。举例来说，c描述了一个网络机构示意图：网络由多个编码器模块和多个解码器模块组成，通过跳跃路径实现了模块之间的密集连接。编码器模块和解码器模块均使用了3×3×3的三维卷积层。下采样通过步长为2的三维最大池化层实现，而上采样通过放大系数为2的三维线性插值层实现。在编码器或解码器模块中，使用了滤波响应归一化(FRN)层和阈值线性单元(TLU)激活层。网络的输入是大小为40×40×40的密度块，网格间隔为1.0Å。网络的输出与输入密度块大小相同。

在其中一个实施例中，所述S1包括：

在其中一个实施例中，所述S12包括：

具体的，为了构造训练本发明所使用的深度学习框架的训练集，我们从EMDB收集了一个无冗余的实验冷冻电镜三维密度图数据集，具体方法如下。首先，从EMDB和PDB中下载所有分辨率范围在3.0-6.0Å的具有关联PDB结构的单粒子冷冻电镜图。任何存在以下情况的冷冻电镜图和与之关联的PDB结构都被从数据集中剔除：(i)仅包含骨架原子，(ii)包含未知的残基(UNK)， (iii)包含缺失的链，(iv)三维密度图具有非正交的轴，(v)分辨率不是由FSC-0.143黄金标准给出的。为了确保有效的训练，我们进一步排除了CC_mask值小于0.75的训练样本。CC_mask值是一种相关系数，利用phenix.mtriage将冷冻电镜密度图与PDB结构进行比较计算得出。为了消除冗余，使用贪心算法对剩余的样本进行聚类得到集合，确定出各个集合中的代表样本，将所述代表样本中的单粒子冷冻电镜图作为所述训练样本。

在其中一个实施例中，所述S123包括：

将所述代表样本中的单粒子冷冻电镜图作为所述训练样本。

具体的，如果一个样本中的PDB结构中的任何一条链与另一个样本中的PDB结构中的任何一条链有大于30%的序列相似性，则将两个样本放置到同一个集合中。选择一个集合中相似样本数量最多的样本作为该集合的代表，然后移除该集合中的所有样本，保留代表。重复这个过程，直到所有集合都选出了代表。最后的无冗余数据集由每个集合的代表样本组成。最终总共得到了436对分辨率在3.0到6.0Å范围内的冷冻电镜三维密度图和关联的PDB结构。在436例样本中，随机选取了350个样本，用于训练本发明所使用的深度学习模型。

在其中一个实施例中，所述S2之前，所述方法还包括：通过三次立方插值将各个所述实验密度图中密度图网格间隔进行统一，负的密度值被截断到零；采用全局归一化策略将每个所述实验密度图的密度值进行归一化。

具体的，对于具有不同格点间距的三维密度图，本发明均通过三次立方插值将密度图网格间隔统一为1.0Å。负的密度值被截断到零。对于输入的密度图，本发明采用了全局归一化策略。也就是说，将每个密度图的密度值以99.999百分位数归一化到0-1.0的范围内。模拟密度图是从与输入的密度图相关联的PDB结构无噪声地模拟得到的。在训练中，用步长为30的三维滑动窗口将密度图及其相应的模拟图分成多对大小为60×60×60的密度块。为了进行数据增强，每次输入到网络中的密度块都是从这些60×60×60的大密度块中随机裁剪出的40×40×40的密度块，并进行了随机旋转。网络通过Pytorch1.8.1+cuda11.1实现。

在其中一个实施例中，所述S2包括：

在其中一个实施例中，所述S21包括：

在其中一个实施例中，所述S23之后，所述方法还包括：

举例来说，在训练过程中，从训练集中分离出20%的样本作为验证集。对于每个模型，深度学习网络最多训练300个epoch，单批次输入160个密度块。采用Adam优化器使损失函数最小化。采用两种不同的损失函数来计算预测密度块与模拟密度块之间的差值。一种是平滑L1损失函数，它计算预测块和模拟密度块之间的密度值的数值差。如果绝对误差低于1.0，则平滑L1损耗使用平方项，否则使用L1线性项。另一种是结构相似性(SSIM)损失函数，它根据预测密度块和模拟密度块的对比度相似性和结构相似性进行比较。我们简单地用平滑L1损失函数和SSIM损失函数之和作为训练的总损失函数。初始学习率设为1e-3；采用学习率衰减，具体来说，如果在训练集上的平均损失在连续4轮训练中都没有降低，则学习率将降低到其当前值的1/2。当学习率达到最小值1e-5时，训练程序将停止。在多轮训练中产生的多个模型，选择在验证集上损失最小的网络模型，作为本发明最终使用的模型。

训练完成后，在深度学习网络的实际应用过程中，将输入的密度块以步长为10的三维滑动窗口切割成大小为40×40×40的密度块，然后将这些密度块输入训练好的网络中。需要注意的是由于滑动窗口步长的小于密度块，因此各个输入或输出密度块之间会存在一定程度的重叠。最后，通过平均各个输出密度块之间的重叠部分，将输出的密度块重新组装成密度图。

按照本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的冷冻电镜三维密度图后处理方法，其特征在于，包括以下步骤：

S1：构建包括多个实验密度图和关联的PDB结构的训练样本集；所述S1包括：S11：从EMDB数据库和PDB数据库下载满足预设分辨率的单粒子冷冻电镜图以及与之关联的PDB结构作为初始样本；S12：对所述单粒子冷冻电镜图及其关联的PDB结构进行筛选和聚类，剔除不满足要求的初始样本；S13：将剩余的所述初始样本中的单粒子冷冻电镜图作为所述实验密度图，将每个所述实验密度图分割成多个预设尺寸的实验密度块；

其中，所述模拟密度图为所述实验密度图对应的无噪声的冷冻电镜图；所述目标损失函数为平滑L1损失函数和结构相似性损失函数之和；

2.如权利要求1所述的基于深度学习的冷冻电镜三维密度图后处理方法，其特征在于，所述S12包括：

3.如权利要求2所述的基于深度学习的冷冻电镜三维密度图后处理方法，其特征在于，所述S123包括：

将所述代表样本中的单粒子冷冻电镜图作为所述训练样本。

4.如权利要求1所述的基于深度学习的冷冻电镜三维密度图后处理方法，其特征在于，所述S2之前，所述方法还包括：

通过三次立方插值将各个所述实验密度图的网格间隔进行统一，负的密度值被截断到零；

5.如权利要求1所述的基于深度学习的冷冻电镜三维密度图后处理方法，其特征在于，所述S2包括：

6.如权利要求5所述的基于深度学习的冷冻电镜三维密度图后处理方法，其特征在于，所述S21包括：

7.如权利要求5所述的基于深度学习的冷冻电镜三维密度图后处理方法，其特征在于，所述S23之后，所述方法还包括：

8.一种基于深度学习的冷冻电镜三维密度图后处理装置，其特征在于，用于执行权利要求1-7任一项所述的基于深度学习的冷冻电镜三维密度图后处理方法，包括：

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。