CN114841898B - 基于深度学习的冷冻电镜三维密度图后处理方法和装置 - Google Patents
基于深度学习的冷冻电镜三维密度图后处理方法和装置 Download PDFInfo
- Publication number
- CN114841898B CN114841898B CN202210750372.0A CN202210750372A CN114841898B CN 114841898 B CN114841898 B CN 114841898B CN 202210750372 A CN202210750372 A CN 202210750372A CN 114841898 B CN114841898 B CN 114841898B
- Authority
- CN
- China
- Prior art keywords
- density
- blocks
- deep learning
- experimental
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000012805 post-processing Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 49
- 230000006870 function Effects 0.000 claims abstract description 46
- 230000001902 propagating effect Effects 0.000 claims abstract description 10
- 238000001000 micrograph Methods 0.000 claims description 29
- 239000002245 particle Substances 0.000 claims description 26
- 238000000386 microscopy Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 5
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 11
- 238000013136 deep learning model Methods 0.000 description 5
- 238000004088 simulation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000635 electron micrograph Methods 0.000 description 2
- 238000001493 electron microscopy Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10056—Microscopic image
- G06T2207/10061—Microscopic image from scanning electron microscope
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的冷冻电镜三维密度图后处理方法和装置,属于结构生物学检测技术领域,所述方法包括:构建包括多个实验密度图和关联的PDB结构的训练样本集;将每个实验密度图和其对应的模拟密度图进行分割得到多个实验密度块和多个模拟密度块;将各个实验密度图对应的多个实验密度块输入基于UNet++网络模型构建的深度学习网络得到多个预测密度块;利用目标损失函数获取预测密度块与对应的模拟密度块之间的差值,反向传播差值从而训练深度学习网络;将当前冷冻电镜密度图切割为多个当前密度块,将当前密度块输入训练好的深度学习网络,将输出的密度块进行组装得到最终密度图。本发明能够提高冷冻电镜密度图的可解释性。
Description
技术领域
本发明属于结构生物学检测技术领域,更具体地,涉及一种基于深度学习的冷冻电镜三维密度图后处理方法和装置。
背景技术
由于在硬件和图像处理算法方面的不断进步,冷冻电镜(cryo-EM)已成为结构生物学中测定生物大分子结构的标准技术之一。冷冻电镜的最终目标是从密度图中获得大分子复合物的原子模型,在这个过程中,冷冻电镜密度图的质量是至关重要的。然而,由于一些固有的影响,譬如分子运动,密度异质性以及较差的成像,原始的冷冻电镜密度图往往面临高分辨率对比度损失的问题,并不能立即用于准确的结构建模。
传统的密度图锐化方法大致可以分为两类:全局锐化方法和局部锐化方法。全局锐化方法通常在密度图上确定一个B因子,并在整个密度图上应用相同的密度校正。对于大多数电镜图,密度的信噪比在整个图上是不均匀的,而全局锐化方法很容易受到这种异质性的影响,从而产生过度锐化或者欠锐化的区域。与全局锐化方法不同的是,局部锐化方法考虑了冷冻电镜密度图的异质性,在密度图锐化过程中采用与局部密度相关的校正。然而,现有的这些方法都存在一定的不足。局部锐化方法在很大程度上依赖于一些先验信息,例如需要预先提供大分子位置信息,以区分溶剂噪声和结构信号,或者需要对密度图的局部分辨率估计,有些方法甚至需要提供原子模型的结构信息。在实际情形下,这些先验信息往往是难以准确得到的。
为了解决传统锐化方法的局限性,最近提出了基于深度学习的自动冷冻电镜三维密度后处理方法,以提高其可解释性。DeepEMhancer是一种全自动的基于深度学习的方法,它模拟了LocScale算法的局部锐化效果。SuperEM是另一种基于深度学习的方法,它使用三维生成对抗网络(GAN)根据输入的密度图生成分辨率更高的密度图。尽管DeepEMhancer和SuperEM在一些密度图上表现良好,但它们都面临各自的挑战。一方面DeepEMhancer在训练过程中使用原子模型引导的锐化后的密度图作为其训练目标,因此它可能会受到训练集中密度图的准确性或噪声的限制。SuperEM试图最小化从生成网络产生的密度图的和模拟的无噪声的密度图的之间的平均差异,可能会忽略两者之间的结构相关性,从而导致密度对比度的损失。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度学习的冷冻电镜三维密度图后处理方法和装置,其目的在于,在深度学习网络的训练过程中,利用无噪声的冷冻电镜图作为模拟密度图,而不是使用原子模型引导的锐化后的密度图,能够避免DeepEMhancer中实验图的噪声和错误问题。此外,通过最小化平滑L1距离和最大化测试密度图和模拟图之间的结构相似性, 使得深度学习网络能够学习到SuperEM中缺失的结构相关性,由此解决现有冷冻电镜三维密度图后处理方法中无法避免噪声和结构缺失的技术问题,能够提高冷冻电镜密度图的可解释性。
为实现上述目的,按照本发明的一个方面,提供了一种基于深度学习的冷冻电镜三维密度图后处理方法,包括以下步骤:
S1:构建包括多个实验密度图和关联的PDB结构的训练样本集;
S2:将每个所述实验密度图和其对应的模拟密度图进行分割,分别得到多个实验密度块和多个模拟密度块;将各个所述实验密度图对应的多个实验密度块输入基于UNet++网络模型构建的深度学习网络得到多个预测密度块;利用目标损失函数获取多个所述预测密度块与对应多个所述模拟密度块之间的差值,反向传播所述差值从而训练所述深度学习网络;
其中,所述模拟密度图为所述实验密度图对应的无噪声的冷冻电镜图;所述目标损失函数包括平滑L1损失函数和结构相似性损失函数;
S3:将当前冷冻电镜密度图切割为多个当前密度块,将所有的所述当前密度块输入训练好的深度学习网络,将输出的密度块进行组装得到最终密度图。
在其中一个实施例中,所述S1包括:
S11:从EMDB数据库和PDB数据库下载满足预设分辨率的单粒子冷冻电镜图以及与之关联的PDB结构作为初始样本;
S12:对所述单粒子冷冻电镜图及其关联的PDB结构进行筛选和聚类,剔除不满足要求的初始样本;
S13:将剩余的所述初始样本中的单粒子冷冻电镜图作为所述实验密度图,将每个所述实验密度图分割成多个预设尺寸的实验密度块。
在其中一个实施例中,所述S12包括:
S121:若一所述初始样本中的单粒子冷冻电镜图具有非正交的轴或分辨率不满足FSC-0.143黄金标准或与之关联的PDB结构中仅包含骨架原子、包含未知的残基或包含缺失的链,则剔除所述初始样本;
S122:若一所述初始样本中的PDB结构对应的CC_mask值低于预设值,则剔除所述初始样本;
S123:使用贪心算法对剩余的所述初始样本中单粒子冷冻电镜图进行聚类得到多个集合,确定出各个集合中的代表样本,将所述代表样本中的单粒子冷冻电镜图作为所述训练样本。
在其中一个实施例中,所述S123包括:
若一所述初始样本中PDB结构内的任一条链与另一所述初始样本中PDB结构内任一条链有大于30%的序列相似性,则将两个初始样本放置到一个集合;
将每个所述集合中相似样本数量最多的初始样本作为所述集合的所述代表样本,然后移除该集合中其余初始样本;
将所述代表样本中的单粒子冷冻电镜图作为所述训练样本。
在其中一个实施例中,所述S2之前,所述方法还包括:
通过三次立方插值将各个所述实验密度图中密度图网格间隔进行统一,负的密度值被截断到零;
采用全局归一化策略将每个所述实验密度图的密度值进行归一化。
在其中一个实施例中,所述S2包括:
S21:将每个所述实验密度图和其对应的模拟密度图进行分割,分别得到多个实验密度块和多个模拟密度块;
S22:将各个所述实验密度图对应的多个实验密度块输入基于UNet++网络模型构建的深度学习网络得到多个预测密度块;所述UNet++网络模型包括多个编码器模块和多个解码器模块;
S23:利用所述平滑L1损失函数计算预测密度块和模拟密度块之间的密度值的第一差值;利用所述结构相似性损失函数根据预测密度块和模拟密度块的对比度相似性和结构相似性进行比较得到第二差值;将所述第一差值和所述第二差值的和作为所述差值,反向传播所述差值从而训练所述深度学习网络。
在其中一个实施例中,所述S21包括:
利用预设步长三维滑动窗口将所述实验密度图及其相应的模拟密度图分成多对预设尺寸的密度块,分别记为所述实验密度块和所述模拟密度块;其中,所述模拟密度图是从对应的实验密度图相关联的PDB结构无噪声地模拟得到的。
在其中一个实施例中,所述S23之后,所述方法还包括:
当所述目标损失函数的输出在连续多轮训练中均未降低,则学习率将降低到其当前值的1/2;
当学习率达到最小值1e-5时,停止训练,多次训练得到多个目标深度学习网络,将损失函数最小对应的目标深度学习网络作为所述训练好的深度学习网络。
按照本发明的另一方面,提供了一种基于深度学习的冷冻电镜三维密度图后处理装置,用于执行上述的基于深度学习的冷冻电镜三维密度图后处理方法,包括:
构建模块,用于构建包括多个实验密度图和关联的PDB结构的训练样本集;
训练模块,用于将每个所述实验密度图和其对应的模拟密度图进行分割,分别得到多个实验密度块和多个模拟密度块;将各个所述实验密度图对应的多个实验密度块输入基于UNet++网络模型构建的深度学习网络得到多个预测密度块;利用目标损失函数获取多个所述预测密度块与对应多个所述模拟密度块之间的差值,反向传播所述差值从而训练所述深度学习网络;
其中,所述模拟密度图为所述实验密度图对应的无噪声的冷冻电镜图;所述目标损失函数包括平滑L1损失函数和结构相似性损失函数;
执行模块,用于将当前冷冻电镜密度图切割为多个当前密度块,将所有的所述当前密度块输入训练好的深度学习网络,将输出的密度块进行组装得到最终密度图。
按照本发明的另一方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
按照本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的方法的步骤。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明使用了UNet++的三维卷积网络架构,在深度学习网络的训练过程中,使用从与冷冻电镜图相对应的PDB结构模拟得到的无噪声的冷冻电镜图作为模拟密度图,而不是使用原子模型引导的锐化后的密度图,可以避免DeepEMhancer中实验图的噪声和错误问题。此外,通过最小化平滑L1距离和最大化处理后的密度图和模拟图之间的结构相似性(SSIM), 深度学习网络能够学习到SuperEM中缺失的结构相关性。
(2)本发明在350对密度图和对应的PDB结构的训练集上广泛训练了深度学习模型。结果表明,通过使用本发明提出的三维密度图后处理方法,密度图在各种质量指标方面都可以得到显著提升。此外,使用本发明提出的方法处理后的密度图,通过从头开始自动建模和基于模板的结构优化,都能得到更好的结构模型,这表明本发明提出的冷冻电镜三维密度图后处理方法可以真正提高冷冻电镜图的可解释性。
附图说明
图1是本发明一实施例中提供的基于深度学习的冷冻电镜三维密度图后处理方法的流程图;
图2是本发明一实施例中提供的基于深度学习的冷冻电镜三维密度图后处理方法的应用示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,为实现上述目的,按照本发明的一个方面,提供了一种基于深度学习的冷冻电镜三维密度图后处理方法,包括以下步骤:
S1:构建包括多个实验密度图和关联的PDB结构的训练样本集;
S2:将每个所述实验密度图和其对应的模拟密度图进行分割,分别得到多个实验密度块和多个模拟密度块;将各个所述实验密度图对应的多个实验密度块输入基于UNet++网络模型构建的深度学习网络得到多个预测密度块;利用目标损失函数获取多个所述预测密度块与对应多个所述模拟密度块之间的差值,反向传播所述差值从而训练所述深度学习网络;
其中,所述模拟密度图为所述实验密度图对应的无噪声的冷冻电镜图;所述目标损失函数包括平滑L1损失函数和结构相似性损失函数;
S3:将当前冷冻电镜密度图切割为多个当前密度块,将所有的所述当前密度块输入训练好的深度学习网络,将输出的密度块进行组装得到最终密度图。
如图2所示,本发明所使用的深度学习框架概述:
a示意构建训练数据集及分割密度块,具体的,分别从EMDB和PDB下载冷冻电镜密度图以及关联的PDB结构模型。模拟密度图通过PDB模型模拟得到。然后将实验图和模拟图切割成多个具有固定大小的实验密度块和模拟密度块。
b示意为深度学习网络的训练过程,在每一轮训练中,将一个实验密度块输入到深度学习模型中,并将处理后的密度块与相应的模拟密度快进行比较。采用平滑L1损失函数和SSIM损失函数相结合的方法通过反向传播优化深度学习模型。
c 为本发明使用的UNet++网络架构示意图。网络由嵌套的下采样卷积模块和上采样卷积模块组成。
d示意本发明的应用过程。对于给定的输入冷冻电镜密度图,首先将其切割成多个具有固定大小的密度块。所有的密度块都经过训练好的深度学习模型处理,然后将输出的密度块重新组装为处理后的密度图。
具体的,本发明使用UNet++深度学习网络框架构建的深度学习网络对冷冻电镜三维密度图进行后处理。举例来说,c描述了一个网络机构示意图:网络由多个编码器模块和多个解码器模块组成,通过跳跃路径实现了模块之间的密集连接。编码器模块和解码器模块均使用了3×3×3的三维卷积层。下采样通过步长为2的三维最大池化层实现,而上采样通过放大系数为2的三维线性插值层实现。在编码器或解码器模块中,使用了滤波响应归一化(FRN)层和阈值线性单元(TLU)激活层。网络的输入是大小为40×40×40的密度块,网格间隔为1.0Å。网络的输出与输入密度块大小相同。
在其中一个实施例中,所述S1包括:
S11:从EMDB数据库和PDB数据库下载满足预设分辨率的单粒子冷冻电镜图以及与之关联的PDB结构作为初始样本;
S12:对所述单粒子冷冻电镜图及其关联的PDB结构进行筛选和聚类,剔除不满足要求的初始样本;
S13:将剩余的所述初始样本中的单粒子冷冻电镜图作为所述实验密度图,将每个所述实验密度图分割成多个预设尺寸的实验密度块。
在其中一个实施例中,所述S12包括:
S121:若一所述初始样本中的单粒子冷冻电镜图具有非正交的轴或分辨率不满足FSC-0.143黄金标准或与之关联的PDB结构中仅包含骨架原子、包含未知的残基或包含缺失的链,则剔除所述初始样本;
S122:若一所述初始样本中的PDB结构对应的CC_mask值低于预设值,则剔除所述初始样本;
S123:使用贪心算法对剩余的所述初始样本中单粒子冷冻电镜图进行聚类得到多个集合,确定出各个集合中的代表样本,将所述代表样本中的单粒子冷冻电镜图作为所述训练样本。
具体的,为了构造训练本发明所使用的深度学习框架的训练集,我们从EMDB收集了一个无冗余的实验冷冻电镜三维密度图数据集,具体方法如下。首先,从EMDB和PDB中下载所有分辨率范围在3.0-6.0Å的具有关联PDB结构的单粒子冷冻电镜图。任何存在以下情况的冷冻电镜图和与之关联的PDB结构都被从数据集中剔除:(i)仅包含骨架原子,(ii)包含未知的残基(UNK), (iii)包含缺失的链,(iv)三维密度图具有非正交的轴,(v)分辨率不是由FSC-0.143黄金标准给出的。为了确保有效的训练,我们进一步排除了CC_mask值小于0.75的训练样本。CC_mask值是一种相关系数,利用phenix.mtriage将冷冻电镜密度图与PDB结构进行比较计算得出。为了消除冗余,使用贪心算法对剩余的样本进行聚类得到集合,确定出各个集合中的代表样本,将所述代表样本中的单粒子冷冻电镜图作为所述训练样本。
在其中一个实施例中,所述S123包括:
若一所述初始样本中PDB结构内的任一条链与另一所述初始样本中PDB结构内任一条链有大于30%的序列相似性,则将两个初始样本放置到一个集合;
将每个所述集合中相似样本数量最多的初始样本作为所述集合的所述代表样本,然后移除该集合中其余初始样本;
将所述代表样本中的单粒子冷冻电镜图作为所述训练样本。
具体的,如果一个样本中的PDB结构中的任何一条链与另一个样本中的PDB结构中的任何一条链有大于30%的序列相似性,则将两个样本放置到同一个集合中。选择一个集合中相似样本数量最多的样本作为该集合的代表,然后移除该集合中的所有样本,保留代表。重复这个过程,直到所有集合都选出了代表。最后的无冗余数据集由每个集合的代表样本组成。最终总共得到了436对分辨率在3.0到6.0Å范围内的冷冻电镜三维密度图和关联的PDB结构。在436例样本中,随机选取了350个样本,用于训练本发明所使用的深度学习模型。
在其中一个实施例中,所述S2之前,所述方法还包括:通过三次立方插值将各个所述实验密度图中密度图网格间隔进行统一,负的密度值被截断到零;采用全局归一化策略将每个所述实验密度图的密度值进行归一化。
具体的,对于具有不同格点间距的三维密度图,本发明均通过三次立方插值将密度图网格间隔统一为1.0Å。负的密度值被截断到零。对于输入的密度图,本发明采用了全局归一化策略。也就是说,将每个密度图的密度值以99.999百分位数归一化到0-1.0的范围内。模拟密度图是从与输入的密度图相关联的PDB结构无噪声地模拟得到的。在训练中,用步长为30的三维滑动窗口将密度图及其相应的模拟图分成多对大小为60×60×60的密度块。为了进行数据增强,每次输入到网络中的密度块都是从这些60×60×60的大密度块中随机裁剪出的40×40×40的密度块,并进行了随机旋转。网络通过Pytorch1.8.1+cuda11.1实现。
在其中一个实施例中,所述S2包括:
S21:将每个所述实验密度图和其对应的模拟密度图进行分割,分别得到多个实验密度块和多个模拟密度块;
S22:将各个所述实验密度图对应的多个实验密度块输入基于UNet++网络模型构建的深度学习网络得到多个预测密度块;所述UNet++网络模型包括多个编码器模块和多个解码器模块;
S23:利用所述平滑L1损失函数计算预测密度块和模拟密度块之间的密度值的第一差值;利用所述结构相似性损失函数根据预测密度块和模拟密度块的对比度相似性和结构相似性进行比较得到第二差值;将所述第一差值和所述第二差值的和作为所述差值,反向传播所述差值从而训练所述深度学习网络。
在其中一个实施例中,所述S21包括:
利用预设步长三维滑动窗口将所述实验密度图及其相应的模拟密度图分成多对预设尺寸的密度块,分别记为所述实验密度块和所述模拟密度块;其中,所述模拟密度图是从对应的实验密度图相关联的PDB结构无噪声地模拟得到的。
在其中一个实施例中,所述S23之后,所述方法还包括:
当所述目标损失函数的输出在连续多轮训练中均未降低,则学习率将降低到其当前值的1/2;
当学习率达到最小值1e-5时,停止训练,多次训练得到多个目标深度学习网络,将损失函数最小对应的目标深度学习网络作为所述训练好的深度学习网络。
举例来说,在训练过程中,从训练集中分离出20%的样本作为验证集。对于每个模型,深度学习网络最多训练300个epoch,单批次输入160个密度块。采用Adam优化器使损失函数最小化。采用两种不同的损失函数来计算预测密度块与模拟密度块之间的差值。一种是平滑L1损失函数,它计算预测块和模拟密度块之间的密度值的数值差。如果绝对误差低于1.0,则平滑L1损耗使用平方项,否则使用L1线性项。另一种是结构相似性(SSIM)损失函数,它根据预测密度块和模拟密度块的对比度相似性和结构相似性进行比较。我们简单地用平滑L1损失函数和SSIM损失函数之和作为训练的总损失函数。初始学习率设为1e-3;采用学习率衰减,具体来说,如果在训练集上的平均损失在连续4轮训练中都没有降低,则学习率将降低到其当前值的1/2。当学习率达到最小值1e-5时,训练程序将停止。在多轮训练中产生的多个模型,选择在验证集上损失最小的网络模型,作为本发明最终使用的模型。
训练完成后,在深度学习网络的实际应用过程中,将输入的密度块以步长为10的三维滑动窗口切割成大小为40×40×40的密度块,然后将这些密度块输入训练好的网络中。需要注意的是由于滑动窗口步长的小于密度块,因此各个输入或输出密度块之间会存在一定程度的重叠。最后,通过平均各个输出密度块之间的重叠部分,将输出的密度块重新组装成密度图。
按照本发明的另一方面,提供了一种基于深度学习的冷冻电镜三维密度图后处理装置,用于执行上述的基于深度学习的冷冻电镜三维密度图后处理方法,包括:
构建模块,用于构建包括多个实验密度图和关联的PDB结构的训练样本集;
训练模块,用于将每个所述实验密度图和其对应的模拟密度图进行分割,分别得到多个实验密度块和多个模拟密度块;将各个所述实验密度图对应的多个实验密度块输入基于UNet++网络模型构建的深度学习网络得到多个预测密度块;利用目标损失函数获取多个所述预测密度块与对应多个所述模拟密度块之间的差值,反向传播所述差值从而训练所述深度学习网络;
其中,所述模拟密度图为所述实验密度图对应的无噪声的冷冻电镜图;所述目标损失函数包括平滑L1损失函数和结构相似性损失函数;
执行模块,用于将当前冷冻电镜密度图切割为多个当前密度块,将所有的所述当前密度块输入训练好的深度学习网络,将输出的密度块进行组装得到最终密度图。
按照本发明的另一方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
按照本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于深度学习的冷冻电镜三维密度图后处理方法,其特征在于,包括以下步骤:
S1:构建包括多个实验密度图和关联的PDB结构的训练样本集;所述S1包括:S11:从EMDB数据库和PDB数据库下载满足预设分辨率的单粒子冷冻电镜图以及与之关联的PDB结构作为初始样本;S12:对所述单粒子冷冻电镜图及其关联的PDB结构进行筛选和聚类,剔除不满足要求的初始样本;S13:将剩余的所述初始样本中的单粒子冷冻电镜图作为所述实验密度图,将每个所述实验密度图分割成多个预设尺寸的实验密度块;
S2:将每个所述实验密度图和其对应的模拟密度图进行分割,分别得到多个实验密度块和多个模拟密度块;将各个所述实验密度图对应的多个实验密度块输入基于UNet++网络模型构建的深度学习网络得到多个预测密度块;利用目标损失函数获取多个所述预测密度块与对应多个所述模拟密度块之间的差值,反向传播所述差值从而训练所述深度学习网络;
其中,所述模拟密度图为所述实验密度图对应的无噪声的冷冻电镜图;所述目标损失函数为平滑L1损失函数和结构相似性损失函数之和;
S3:将当前冷冻电镜密度图切割为多个当前密度块,将所有的所述当前密度块输入训练好的深度学习网络,将输出的密度块进行组装得到最终密度图。
2.如权利要求1所述的基于深度学习的冷冻电镜三维密度图后处理方法,其特征在于,所述S12包括:
S121:若一所述初始样本中的单粒子冷冻电镜图具有非正交的轴或分辨率不满足FSC-0.143黄金标准或与之关联的PDB结构中仅包含骨架原子、包含未知的残基或包含缺失的链,则剔除所述初始样本;
S122:若一所述初始样本中的PDB结构对应的CC_mask值低于预设值,则剔除所述初始样本;
S123:使用贪心算法对剩余的所述初始样本中单粒子冷冻电镜图进行聚类得到多个集合,确定出各个集合中的代表样本,将所述代表样本中的单粒子冷冻电镜图作为所述训练样本。
3.如权利要求2所述的基于深度学习的冷冻电镜三维密度图后处理方法,其特征在于,所述S123包括:
若一所述初始样本中PDB结构内的任一条链与另一所述初始样本中PDB结构内任一条链有大于30%的序列相似性,则将两个初始样本放置到一个集合;
将每个所述集合中相似样本数量最多的初始样本作为所述集合的所述代表样本,然后移除该集合中其余初始样本;
将所述代表样本中的单粒子冷冻电镜图作为所述训练样本。
4.如权利要求1所述的基于深度学习的冷冻电镜三维密度图后处理方法,其特征在于,所述S2之前,所述方法还包括:
通过三次立方插值将各个所述实验密度图的网格间隔进行统一,负的密度值被截断到零;
采用全局归一化策略将每个所述实验密度图的密度值进行归一化。
5.如权利要求1所述的基于深度学习的冷冻电镜三维密度图后处理方法,其特征在于,所述S2包括:
S21:将每个所述实验密度图和其对应的模拟密度图进行分割,分别得到多个实验密度块和多个模拟密度块;
S22:将各个所述实验密度图对应的多个实验密度块输入基于UNet++网络模型构建的深度学习网络得到多个预测密度块;所述UNet++网络模型包括多个编码器模块和多个解码器模块;
S23:利用所述平滑L1损失函数计算预测密度块和模拟密度块之间的密度值的第一差值;利用所述结构相似性损失函数根据预测密度块和模拟密度块的对比度相似性和结构相似性进行比较得到第二差值;将所述第一差值和所述第二差值的和作为所述差值,反向传播所述差值从而训练所述深度学习网络。
6.如权利要求5所述的基于深度学习的冷冻电镜三维密度图后处理方法,其特征在于,所述S21包括:
利用预设步长三维滑动窗口将所述实验密度图及其相应的模拟密度图分成多对预设尺寸的密度块,分别记为所述实验密度块和所述模拟密度块;其中,所述模拟密度图是从对应的实验密度图相关联的PDB结构无噪声地模拟得到的。
7.如权利要求5所述的基于深度学习的冷冻电镜三维密度图后处理方法,其特征在于,所述S23之后,所述方法还包括:
当所述目标损失函数的输出在连续多轮训练中均未降低,则学习率将降低到其当前值的1/2;
当学习率达到最小值1e-5时,停止训练,多次训练得到多个目标深度学习网络,将损失函数最小对应的目标深度学习网络作为所述训练好的深度学习网络。
8.一种基于深度学习的冷冻电镜三维密度图后处理装置,其特征在于,用于执行权利要求1-7任一项所述的基于深度学习的冷冻电镜三维密度图后处理方法,包括:
构建模块,用于构建包括多个实验密度图和关联的PDB结构的训练样本集;
训练模块,用于将每个所述实验密度图和其对应的模拟密度图进行分割,分别得到多个实验密度块和多个模拟密度块;将各个所述实验密度图对应的多个实验密度块输入基于UNet++网络模型构建的深度学习网络得到多个预测密度块;利用目标损失函数获取多个所述预测密度块与对应多个所述模拟密度块之间的差值,反向传播所述差值从而训练所述深度学习网络;
其中,所述模拟密度图为所述实验密度图对应的无噪声的冷冻电镜图;所述目标损失函数为平滑L1损失函数和结构相似性损失函数之和;
执行模块,用于将当前冷冻电镜密度图切割为多个当前密度块,将所有的所述当前密度块输入训练好的深度学习网络,将输出的密度块进行组装得到最终密度图。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210750372.0A CN114841898B (zh) | 2022-06-29 | 2022-06-29 | 基于深度学习的冷冻电镜三维密度图后处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210750372.0A CN114841898B (zh) | 2022-06-29 | 2022-06-29 | 基于深度学习的冷冻电镜三维密度图后处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114841898A CN114841898A (zh) | 2022-08-02 |
CN114841898B true CN114841898B (zh) | 2022-09-23 |
Family
ID=82574588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210750372.0A Active CN114841898B (zh) | 2022-06-29 | 2022-06-29 | 基于深度学习的冷冻电镜三维密度图后处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114841898B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457548B (zh) * | 2022-09-19 | 2023-06-16 | 清华大学 | 冷冻电镜中的高分辨率密度图配准方法 |
CN115457024A (zh) * | 2022-10-10 | 2022-12-09 | 水木未来(杭州)科技有限公司 | 冷冻电镜图像处理方法、装置、电子设备及存储介质 |
CN116071745B (zh) * | 2023-03-06 | 2023-10-31 | 北京深势科技有限公司 | 一种电镜密度图目标识别模型的处理方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019109181A1 (en) * | 2017-12-05 | 2019-06-13 | Simon Fraser University | Methods for analysis of single molecule localization microscopy to define molecular architecture |
CN111435608B (zh) * | 2019-09-05 | 2024-02-06 | 中国海洋大学 | 一种基于深度学习的蛋白质药物结合位点预测方法 |
CN111210869B (zh) * | 2020-01-08 | 2023-06-20 | 中山大学 | 一种蛋白质冷冻电镜结构解析模型训练方法和解析方法 |
CN111968707B (zh) * | 2020-08-07 | 2022-06-17 | 上海交通大学 | 基于能量的原子结构与电子密度图多目标优化拟合预测方法 |
US20220189579A1 (en) * | 2020-12-14 | 2022-06-16 | University Of Washington | Protein complex structure prediction from cryo-electron microscopy (cryo-em) density maps |
CN113990384B (zh) * | 2021-08-12 | 2024-04-30 | 清华大学 | 一种基于深度学习的冷冻电镜原子模型结构搭建方法及系统和应用 |
-
2022
- 2022-06-29 CN CN202210750372.0A patent/CN114841898B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114841898A (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114841898B (zh) | 基于深度学习的冷冻电镜三维密度图后处理方法和装置 | |
CN107610194B (zh) | 基于多尺度融合cnn的磁共振图像超分辨率重建方法 | |
CN109685831B (zh) | 基于残差分层注意力和相关性滤波器的目标跟踪方法及系统 | |
CN113065594B (zh) | 一种基于北斗数据与遥感影像融合的路网提取方法及装置 | |
CN111652855B (zh) | 一种基于存活概率的点云精简方法 | |
CN114266939B (zh) | 一种基于ResTLU-Net模型的脑提取方法 | |
CN112598656A (zh) | 一种基于UNet++优化和权值预算的脑肿瘤分割算法 | |
CN108765445B (zh) | 一种肺气管分割方法及装置 | |
CN114663440A (zh) | 一种基于深度学习的眼底图像病灶分割方法 | |
CN112488304A (zh) | 一种卷积神经网络中的启发式滤波器剪枝方法和系统 | |
CN112750137A (zh) | 基于深度学习的肝脏肿瘤分割方法及系统 | |
CN115083513B (zh) | 基于中等分辨率冷冻电镜图构建蛋白质复合物结构的方法 | |
CN116698890A (zh) | 一种基于条件变分自编码器的变孔隙度数字岩心建模方法 | |
CN112270405A (zh) | 基于范数的卷积神经网络模型的滤波器剪枝方法和系统 | |
CN114913262B (zh) | 采样模式与重建算法联合优化的核磁共振成像方法及系统 | |
CN117496359A (zh) | 基于三维点云的植物种植布局监测方法及系统 | |
CN115035336A (zh) | 基于gasf和cnn的三电平t型逆变器故障诊断方法 | |
CN111414993B (zh) | 卷积神经网络的裁剪、卷积计算方法及装置 | |
WO2024103846A1 (zh) | 一种基于多域多维特征图的三维配准重建方法 | |
CN117274355A (zh) | 一种基于加速引导区域卷积神经网络和并行多尺度统一网络的排水管道流量智能测量方法 | |
CN112862684A (zh) | 一种深度图超分辨率重建和去噪神经网络的数据处理方法 | |
CN117474933A (zh) | 一种基于空洞卷积注意力机制的医学图像分割方法 | |
CN114580603B (zh) | 一种基于冷冻电镜数据构建单颗粒水平的能量曲面的方法 | |
CN105894029B (zh) | 一种基于费马点求解的自适应运动轨迹数据去噪方法 | |
CN114565631A (zh) | 一种基于双层卷积网络和掩码细化的植物叶片精细分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |