CN113990384A

CN113990384A - 一种基于深度学习的冷冻电镜原子模型结构搭建方法及系统和应用

Info

Publication number: CN113990384A
Application number: CN202110922906.9A
Authority: CN
Inventors: 张强锋; 徐魁; 徐静乐
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2022-01-28
Anticipated expiration: 2041-08-12
Also published as: CN113990384B

Abstract

本发明公开了一种基于深度学习的冷冻电镜原子模型结构搭建方法及系统和应用，所述方法包括步骤一：获取冷冻电镜密度图数据集，进行模型训练和模型测试；步骤二：输入冷冻电镜密度图及其相应的氨基酸序列；步骤三：对所述冷冻电镜密度图及其相应的和氨基酸序列进行特征编码和提取，搭建出原子结构模型。本发明提供的测量方法能使得生成的氨基酸原子模型具有结构生物学特征，保证了预测的氨基酸原子模型结构生物学合理性，并最终实现了端到端全可微分的氨基酸内部原子结构的准确预测，具有一定的优越性，并在多个试验预测的原子模型效果上得到了验证。另外，在中低分辨率中的模型搭建中的提升效果也十分明显。

Description

一种基于深度学习的冷冻电镜原子模型结构搭建方法及系统和应用

技术领域

本发明属于结构生物学技术领域，特别涉及一种冷冻电镜原子模型结构搭建方法及系统和应用，尤其涉及一种基于深度学习的冷冻电镜原子模型结构搭建方法及系统和应用。

背景技术

在传统机器学习中，一个任务的执行流程往往由许多个模块组成。一般分为数据的预处理、特征的提取、模型的训练、结果的后处理等多个独立的步骤整合到一起执行从而实现自动化运行。然而，每个步骤的结果的好坏会影响到的后续的每个步骤，从而对最终结果的质量造成一定的影响。另外，对于监督式学习，用于监督的标签，会对其中的每个环节都有贡献，但由于中间的步骤过于独立，导致了大量信息的丢失，使得标签并不能从全局的角度对每个步骤都做出贡献。

在A²-Net中，氨基酸检测网络及侧链回归网络和主链串联的蒙特卡洛树搜索方法，是两个独立的步骤。检测网络的输出层以及后处理过程中有许多超参设置，比如概率分数的阈值、SoftNMS的阈值等等，最终选出符合阈值条件的氨基酸，并结合蛋白序列进行主链串联并得到最终的原子模型。每个参数都会影响氨基酸候选框输出的个数，进而影响蒙特卡洛树搜索方法的搜索效率和准确率。另外，由于蒙特卡洛树搜索方法是不可微分的，因此基于序列的几何连续性打分函数不能通过梯度反向传播到氨基酸检测网络和侧链回归网络中。因此，开发一个端到端全可微分网络的模型搭建方法是非常必要的。

另外，网络可以预测出每个氨基酸内部的原子坐标，在A²-Net中，采用了一个三维栈式沙漏网络(3D Stacked Hourglass Network)，在密度图中估计氨基酸中每个原子的三维坐标，实现了直接通过网络预测全原子模型的方法。该方法在高分辨率的密度图上，取得了很好的效果。然而在分辨率较低的密度图中，由于侧链密度缺失或较低，导致基于密度特征的热图回归出来的位置偏向主链。

发明内容

本发明的目的是提供一种基于深度学习的冷冻电镜原子模型结构搭建方法及系统和应用，使得生成的氨基酸原子模型具有结构生物学特征，保证预测的氨基酸原子模型结构生物学合理性，并最终实现了端到端全可微分的冷冻电镜原子模型结构搭建方法。

为此，本发明技术方案如下：

第一方面，本发明提供一种基于深度学习的冷冻电镜原子模型结构搭建方法，包括：

步骤一：获取冷冻电镜密度图数据集，进行(1)模型训练和(2)模型测试；

步骤二：输入冷冻电镜密度图及其相应的氨基酸序列；

步骤三：对所述冷冻电镜密度图冷冻电镜密度图及其相应的和氨基酸序列进行特征编码和提取，搭建出原子结构模型。

进一步地，所述(1)模型训练包括：

步骤111)：选取冷冻电镜密度图及其对应的原子模型作为训练样本；

步骤112)：对所述冷冻电镜密度图进行预处理；

步骤113)：提取对所述预处理得到的冷冻电镜密度图数据集的区域特征；

步骤114)：对密度图的每个位置的像素进行三维空间位置编码；

步骤115)：与步骤113)同步编码和提取冷冻电镜密度图及其相应的氨基酸的序列特征，结合步骤113)输出的区域特征和步骤114)输出的三维空间位置编码，一起输入Transformer进行训练，得到氨基酸主链的氨基酸分类、二级结构分类和全原子坐标回归模型。

进一步地，所述(1)模型训练还包括：

步骤116)：对得到氨基酸主链的氨基酸分类、二级结构分类和全原子坐标回归模型进行前向运动学模型训练，得到满足氨基酸侧链的键角的保守性、L型氨基酸、侧链四面体、侧链上的共面性质回归模型。

进一步地，预处理步骤112)包括以下方法中的任意一种或至少两种的组合：

(1121)对氨基酸序列的主链和侧链原子坐标、键长、键角、二级结构进行标注；

(1122)提取基于多序列比对的进化信息谱特征；

(1123)切分冷冻电镜密度图；

(1124)对体素不同的冷冻电镜密度图进行插值放缩，生成体素大小统一的冷冻电镜密度图。

进一步地，预处理步骤112)还包括步骤1125)：对冷冻电镜密度图数据集进行扩增；

其中，所述扩增可以是以下方法中的任意一种或至少两种的组合：

(501)通过低通滤波处理密度图中分辨率为

的数据；

(502)通过模拟的方式模拟产生分辨率为

的密度图的模拟图；

(503)在模型训练，在数据加载器中对分辨率为

的密度图进行x、y、 z三个轴分别旋转90°的数据扩增。

进一步地，步骤113)中通过3DResNet训练并提取预处理得到的冷冻电镜密度图数据集的区域特征。

进一步地，当步骤一中的冷冻电镜密度图的分辨率为

时，移除步骤 116)中评价侧链的准确性的损失函数，加权基酸分类损失函数，即由原来计算全原子的位置损失，改为只计算主链原子的位置损失，以减弱存在着大量错误信息的侧链原子位置对模型的“错误”引导；见公式(3-11)。

为了增加模型对密度区域的“注意力”，对用于评价氨基酸类型的分类以及二级结构分类损失进行加权，分别为λ_a，λ_s，使得模型更加关注氨基酸类型的学习，从而使得网络进一步“看重”侧链上的密度值较弱的密度区域；见公式(3-12)。

其中n表示主链上的原子数目，i，j分别表示第i个氨基酸上的第j个原子。

进一步地，所述(2)模型测试包括：输入测试氨基酸序列；读取训练好的氨基酸主链的氨基酸类别、二级结构类别和全原子坐标参数；输入一个密度图及其所包含的氨基酸序列(所述氨基酸序列可以是一条或者多条)做前向传播，得到输入氨基酸主链的氨基酸分类、二级结构分类和全原子坐标数据。

进一步地，步骤三对所输入的冷冻电镜密度图及其相应的氨基酸序列特征编码包括氨基酸序列类型编码、序列位置编码和基于序列比对的位置特异度打分矩阵，以及对冷冻电镜密度图及其相应的氨基酸的内部原子结构信息进行提取；

其中，对冷冻电镜密度图及其相应的氨基酸的内部原子结构信息进行提取包括，提取氨基酸主链的氨基酸分类、二级结构分类和全原子坐标。

进一步地，在步骤三之后还包括步骤四：后处理和微调；

其中，后处理包括：

(1001)提取步骤三生成的氨基酸主链的二级结构分类片段，并提取二级结构分类片段的氨基酸序列；

(1002)将所有的氨基酸主链的二级结构分类片段与输入的冷冻电镜密度图相应的氨基酸序列进行比对，并将所有的片段映射到序列中的对应位置；

(1003)按照所述对应位置，根据二级结构分类片段的空间位置以及匹配相似度选取打分优秀的片段，并与全局氨基酸主链进行合并和串联，合并之后形成更长的片段；

(1004)将对于(1003)中与冷冻电镜密度图及其相应的氨基酸序列匹配的片段中20类氨基酸错误的氨基酸类别进行修正；

(1005)迭代进行(1002)、(1003)、(1004)三个步骤，直到全局氨基酸主链的路径打分无变化为止。

第二方面，本发明提供如第一方面所述的测量方法的应用，所述应用包括用于构建一种基于深度学习的冷冻电镜原子模型结构搭建系统。

第三方面，本发明提供一种基于深度学习的冷冻电镜原子模型结构搭建系统，包括：

(一)冷冻电镜密度图回归数据库获取模块：用于获取冷冻电镜密度图数据集；

(二)冷冻电镜密度图及其相应的氨基酸序列获取模块：用于接收冷冻电镜密度图及其相应的氨基酸序列；

(三)氨基酸内部原子结构计算模块：用于搭建出原子结构模型。

进一步地，氨基酸序列密度图回归数据库获取模块具体包括训练模块和测试模块。

进一步地，所述训练模块用于：

选取冷冻电镜密度图及其对应的原子模型作为训练样本；

对冷冻电镜密度图进行预处理；

提取对所述预处理得到的冷冻电镜密度图数据集的区域特征；

对密度图的每个位置的像素进行三维空间位置编码；

同步编码和提取冷冻电镜密度图及其相应的氨基酸的序列特征，结合输出的区域特征和输出的三维空间位置编码，一起输入Transformer进行训练，得到氨基酸主链的氨基酸分类、二级结构分类和全原子坐标回归模型。

进一步地，氨基酸内部原子结构计算模块用于氨基酸序列类型编码、序列位置编码和基于序列比对的位置特异度打分矩阵，以及对冷冻电镜密度图及其相应的氨基酸的内部原子结构进行提取；

其中，对冷冻电镜密度图及其相应的氨基酸的内部原子结构进行提取包括，提取氨基酸主链的氨基酸分类、二级结构分类和全原子坐标。

进一步地，在训练模块中通过3DResNet训练并提取预处理得到的冷冻电镜密度图数据集的区域特征。

进一步地，所述训练模块还用于对得到氨基酸主链的氨基酸分类、二级结构分类和全原子坐标回归模型进行前向运动学模型训练，得到满足氨基酸侧链的键角的保守性、L型氨基酸、侧链四面体、侧链上的共面性质回归模型。

进一步地，测试模块用于输入冷冻电镜密度图及其相应的氨基酸序列；读取训练好的氨基酸主链的氨基酸分类、二级结构分类和全原子坐标回归模型参数；调用一条氨基酸序列做前向传播，得到输入氨基酸主链的氨基酸分类、二级结构分类和全原子坐标数据。

进一步地，冷冻电镜密度图及其相应的氨基酸序列获取模块中密度图的分辨率为

时，移除评价侧链的准确性的损失函数，加权基酸分类损失函数。

进一步地，训练模块还包括对密度图数据库进行扩增的模块；

其中，所述扩增模块可以是以下三种系统中的任意一种或至少两种的组合：

(1)通过低通滤波处理密度图中分辨率为

的数据的系统；

(2)通过模拟的方式模拟产生分辨率为

的密度图的模拟图的系统；

(3)在模型训练，在数据加载器中对分辨率为

的密度图进行x、y、 z三个轴分别旋转90°的数据扩增的系统。

进一步地，测试模块用于输入冷冻电镜密度图及其相应的氨基酸序列；读取训练好的氨基酸主链的氨基酸类别、二级结构类别类和全原子坐标参数；输入一个密度图及其所包含的氨基酸序列做前向传播，得到输入氨基酸主链的氨基酸分类、二级结构分类和全原子坐标数据。

进一步地，氨基酸内部原子结构计算模块用于氨基酸序列类型编码、序列位置编码和基于序列比对的位置特异度打分矩阵，以及对冷冻电镜密度图及其相应的氨基酸的内部原子结构信息进行提取；

本发明的有益技术效果在于：

1、本发明基于人工智能算法设计新型深度神经网络结构从冷冻电镜密度图中直接识别出三维原子模型。同时具有人工智能算法特别是深度神经网络的优势，特征学习能力强、推理速度快、泛化能力强、全局最优解等特点。通过 Transformer将序列和密度图在全局的高维空间中进行匹配，具有全局的视角，全部的序列信息和包含三维空间结构信息的密度图在同一空间进行充分的相互匹配，没有信息损失。另外，利用本发明的方法直接生成的主链串联的结果速度非常快，300个氨基酸左右的蛋白不到1秒就能完成主链串联，同时还能获得氨基酸的类别预测、二级结构类型识别以及全原子模型的生成。

2、优选的，本发明设计出端到端识别原子模型的全可微分神经网络，克服了独立步骤对后续步骤不利影响的累加性，本发明在模型的整个训练中，从输入数据到输出结果整个过程中通过损失函数计算误差，然后通过反向传播方法进行误差反向传递到前面的每个模块，每一个模块的参数都会根据全局误差进行偏导数计算，并作参数更新，直到收敛，整个过程一步到位，颠覆了传统的先检测后搜索主链再进行串联的范式。

3、优选的，本发明通过在网络中加入带键长和键角约束的前向运动学模型，实现了更加准确的侧链的识别和生成，从而保证了诸多结构性质，如部分侧链原子共面、L型氨基酸、规范化的苯环等等化学性质，所得结果保证了预测的氨基酸原子模型结构生物学合理性，主链预测更加准确。

4、优选的，本发明还开发了支持多链的主链串联方法，该方法通过以氨基酸序列为导向，迭代地进行结构片段构建、空缺补全以及氨基酸类别的修正等步骤，进一步提升了原子模型的准确度。通过将序列特征引入进行联合学习，进一步提升了模型搭建的效果。

5、优选的，针对在中低等分辨率的蛋白质冷冻电镜密度图中，氨基酸侧链的信号通常较弱或者缺失，根据较弱的侧链密度识别出氨基酸的类型准确度较低的问题，本发明通过移除评价侧链的准确性的损失函数，并加大氨基酸分类损失函数的权重等方法，使得网络在学习过程中更加专注从较弱的密度信号中学习氨基酸的原子结构，而不被错误的侧链标注而误导，提升了在中低分辨率密度图中的效果，并通过多个角度展示各项指标，确认了性能的提升。

附图说明

图1为本发明的基于深度学习的冷冻电镜原子模型结构搭建方法的步骤示意图。

图2为模型训练的步骤示意图。

图3为本发明识别高分辨率

密度图中氨基酸的混淆矩阵。

图4(a)为CryoNet预测20类氨基酸的混淆矩阵的修正矩阵。其中值为-1的左下角阴影区域为“大”侧链氨基酸被识别为“小”侧链氨基酸的罚分。图4(b)为20 类氨基酸的侧链模型以及侧链密度图(灰色透明的表面表示)。

图5和图6为本发明的方法在高

分辨率、单链验证集上模型搭建的各项指标(Found、Seq Match、Chain Match)与Phenix的对比图。

(注：Found表示氨基酸匹配；Seq Match表示残基类型匹配；Chain Match表示链匹配)。

图7和图8为本发明的方法与MAINMAST的对比图。

图9为分辨率为

的密度图EMD。图9(a)为参考结构PDB:6n07(LD)；图9(b)为Phenix的结果；图9(c)为本发明的方法的结果；图9(d)，图9 (e)为CryoNet经过real_space_refine后，全原子模型与参考结构PDB:6n09(LD) 在密度图中效果的两个不同朝向。

图10为分辨率为

的密度图EMD:密度图EMD:9314分辨率为

图10 (a)为参考结构PDB:6n0f；图10(b)为Phenix的结果；图10(c)为CryoNet结果；图10(d)为CryoNet经过real_space_refine微调后的结果。

图11为分辨率为

的密度图EMD：密度图EMD:9314分辨率为

图11 (a)为参考结构PDB:6n0f；图11(b)为Phenix的结果；图11(c)为CryoNet结果；图11(d)为CryoNet经过real_space_refine微调后的结果。

图12为Spike蛋白(三聚体)冷冻电镜密度图和单体序列，分辨率为

其中图12(a)为本发明预测的全原子模型图，并经过real_space_refine微调。图 12(b)为预测的原子模型与密度图匹配效果。

图13中为利用本发明的方法预测的二级结构效果。输入的密度图为EMD:9313，分辨率为

图13(a)是该密度图对应的二级结构标准答案。图13(b)中的球为预测的氨基酸位置以及二级结构类型，颜色与图(a)中的一一对应。

图14为本发明与DeepTracer的预测效果对比(横轴和纵轴分别为CryoNet与DeepTracer预测出的模型在Seq Match指标上的结果图。

图15为低通滤波数据在实验数据上主链串联的提升效果图，其中图15(a)横轴为分辨率，纵轴为在单链验证集上低通滤波数据在Seq Match上提升的效果。图 15(b)横轴为分辨率，纵轴为在复合物验证集上低通滤波数据在Seq Match上提升的效果图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

下面结合附图并参考具体实施例描述本发明。如图1所示，本发明提出了一种基于深度学习的冷冻电镜原子模型结构搭建方法(以下简称CryoNet)，包括：步骤一：获取冷冻电镜密度图数据集；步骤二：输入冷冻电镜密度图及其相应的氨基酸序列；步骤三：利用所述冷冻电镜密度图数据集对所输入的冷冻电镜密度图及其相应的氨基酸序列进行特征编码和提取，计算输出氨基酸的内部原子结构。

步骤一：获取氨基酸序列的密度图数据库具体包括：(1)模型训练和(2) 模型测试。

如图2所示，对于模型训练，具体包括：

步骤112)：对所述冷冻电镜密度图进行预处理；

步骤113)：提取对所述预处理得到的冷冻电镜密度图的区域特征；

模型训练由Transformer构成，通过3DResNet(三维残差网络)训练并提取冷冻电镜密度图数据库的区域特征。通过位置编码对密度图区域特征中的每个位置的像素进行三维空间位置编码p_d，三维空间的位置编码计算方式如公式(3-1) 和(3-2)所示：

p_d＝CONCAT(PE_x,PE_y,PE_z) 公式(3-2)

其中d_m为特征维度，在本实施例中d_m＝384。pos为三维坐标(x，y，z)中某个维度位置。对于N×N×N的特征图，pos∈[O，N-1]。对于蛋白质序列，首先进行特征编码，主要有三部分：氨基酸序列类型编码

序列位置编码

基于序列比对的位置特异度打分矩阵

其中l为输入序列的长度。

Transformer由三个部分组成：密度图区域特征学习器、编码器和解码器。编码器主要负责学习所述预处理得到的冷冻电镜密度图数据库的区域特征，以及对密度图的每个位置的像素进行三维空间位置编码。密度的区域特征决定了该密度区域是否是氨基酸。如果是氨基酸，那么该氨基酸的类别、二级结构以及内部原子坐标等特征均包含在其中。解码器一是负责编码和提取冷冻电镜密度图及其相应的氨基酸的序列特征；二是负责从冷冻电镜密度图及其相应的氨基酸的序列特征和编码器中学习到的氨基酸密度区域特征以及三维空间的几何分布特征的匹配关系，从而按照主链的顺序输出氨基酸，并最终由三个输出层共同输出全原子模型。编码器和解码器的内部结构如图2所示，虚线框所包含的编码器和解码器表示各自分别有多层，第i层的输出作为第i+1层的输入，这意味着第一层的输入特征会经过N层的学习最终输出。编码器经过N层学习后输出到解码器中，解码器经过N层学习后输出到三个分支：氨基酸类别分类分支、二级结构类别分类分支、全原子坐标回归分支。

编码器和解码器中都有一个多头自注意力模型。解码器中的多头自注意力模型为传统的自注意力模型，其时间复杂度为O(n²d)，即为O(n²)其中n为输入序列的长度。编码器中的多头自注意力模型为线性多头自注意力模型，计算复杂度从 O(n²d)变为O(nkd)，即为O(n)，上述选择能保证在效果不降的情况下，节省大量的显存和训练时间。

所述输出的三个分支均为全连接层，其中氨基酸分类分支和二级结构分类分支的输出层参数分别为21和4，分别对应20类氨基酸和3类二级结构以及各有一个背景类别。全原子坐标回归分支为10×3个。

学习密度图区域特征的主干网络优选50层的三维残差神经网络(ResNet50)，Transformer中的编码器和解码器分别都是6层，每个多头注意力模型中均为8 个，输入编码(包括编码器中的密度特征图特征以及密度特征图的三维空间位置编码、解码器中的氨基酸序列特征嵌入、位置编码、基于序列比对的位置特异度打分矩阵嵌入)的维度为384，默认的最多可检测氨基酸个数为512，线性注意力模型中的线性映射的维度k为512。二级结构以及全原子模型回归损失函数的权重分别为2和0.1。背景类相对于其它20类的分类权重为0.1。

训练网络时，采用的是优化器是AdamW，其中权重衰减参数为1e-4，学习率为1e-4。在训练过程中，采用了梯度裁剪，使得梯度值不超过0.1。每个多头注意力模型后都有一个Dropout层，其中Dropout率为0.1。网络的初始化采用了 Xavier初始化。训练网络的损失函数如下：

其中L为识别为氨基酸(除了背景之外)的个数，L_a和L_s分别为氨基酸和二级结构的分类损失函数，均为交叉熵损失函数。L_c为全原子坐标的误差函数，N_a该类氨基酸对应的原子个数，如甘氨酸(GLY)是4个，色氨酸(TRP)是14 个。

冷冻电镜密度图及其相应的氨基酸的序列特征编码包括三部分：氨基酸序列类型编码嵌入(Amino Acid Embeddings)、序列位置编码(Positional Encoding)、基于序列比对的位置特异度打分矩阵嵌入(Alignment Embeddings)。其中序列位置编码的计算由位置编码公式(3-5)和(3-6)得到，直接加入到输入特征中，进行嵌入层学习。

氨基酸序列的编码嵌入和基于序列比对的位置特异度打分矩阵嵌入均进行嵌入学习，嵌入层的参数大小分别为

最终序列的编码嵌入特征为上述三部分特征嵌入的加和，然后输入规范化层进行规范化参数学习，并输入到Dropout层，Dropout率为0.15输出最终的序列嵌入特征。计算公式如下：

S＝Dropout(LayerNorm(F_aE_a+F_p+F_sE_s) 公式(3-7)

其中LayerNorm的公式如下：

其中W和b分别为可学习的规范化参数，

W初始化为1.0， b初始化为0.0。

进一步地，模型训练还包括步骤116)：对得到氨基酸主链的氨基酸分类、二级结构分类和全原子坐标回归模型进行前向运动学模型训练，得到满足氨基酸侧链的键角的保守性、L型氨基酸、侧链四面体、侧链上的共面性质回归模型。

(1)键角的保守性：为保证键角的保守性，采用回归键角与初始角度

之间的残差方法。首先，统计数据集中的结构与初始角

之间的残差分布，然后算出每个角度的残差基大小

最后会在网络输出层经过tanh后与残差基相乘并加上初始角

从而得到最终的预测角度。

其中s_ij为回归全原子的网络分支输出的角度残差。

(2)L型氨基酸：在主链上的α碳原子、氨基上的氮原子、羧基上的碳原子求解完成后，根据β碳原子与它们之间的角度以及键长等参数可以列出三元一次方程，即可通过牛顿法求解出β碳原子的坐标(x，y，z)，通常通过公式代换成为一个二元一次方程，因此有两个解，分别对应L型氨基酸和R型氨基酸。根据L 型氨基酸的性质，α碳原子、氨基上的氮原子、羧基上的碳原子构成的平面的法线与α碳原子β碳原子向量的外积应大于0：

(3)侧链四面体：侧链四面体的求解方法与(2)中通过牛顿法求解多元线性方程组是一样的，因此会产生两个解，分别对应L型氨基酸和R型氨基酸。因此需要通过网络预测是两个解中的哪一种，如果是L型氨基酸，则和(2)中的一样，选取带求解原子与其父节点原子构成的向量与其它三个原子所构成的平面的法向量外积大于0的解。如果是R型氨基酸，则选取外积小于0的解。外积等于0意味着四个原子共面。

(4)侧链原子共面：根据点共面的性质，待求原子与其父节点原子构成的向量与其它三个原子所构成平面的法向量外积等于0。通过LU分解直接求出唯一解。

对于模型测试，加载测试集中的所有冷冻电镜密度图及其相应的氨基酸序列；读取训练好的CryoNet模型；逐一输入密度图和及其相应氨基酸序列做前向传播，得到输入氨基酸主链的氨基酸分类、二级结构分类和全原子坐标数据；对结果进行评估。

步骤二：输入冷冻电镜密度图及其相应的氨基酸序列。

步骤三：利用所述氨基酸序列数据库对所输入的冷冻电镜密度图及其相应的氨基酸序列进行特征编码和提取，计算输出氨基酸的内部原子结构。

进一步地，当步骤一中密度图的分辨率为

时，移除评价侧链的准确性的损失函数，加权基酸分类损失函数，即由原来计算全原子的位置损失，改为只计算主链4个原子的位置损失，以减弱存在着大量错误信息的侧链原子位置对模型的“错误”引导；见公式(3-11)。

为了增加模型对密度区域的“注意力”，对用于评价氨基酸类型的分类以及二级结构分类损失进行加权，分别为λ_a，λ_s，使得模型更加关注氨基酸类型的学习，从而使得网络进一步”看重“侧链上的密度值较弱的密度区域；见公式(3-12)。

其中4表示主链上的4个原子，i，j分别表示第i个氨基酸上的第j个原子。

其中L为识别为氨基酸(除了背景之外)的个数，L_a和L_s分别为氨基酸和二级结构的分类损失函数，均为交叉熵损失函数。λ_a，λ_s＝4。

进一步地，本发明还包括对密度图数据库进行扩增的步骤；

其中，所述扩增可以是以下三种方法中的任意一种或至少两种的组合，从而额外产生了3倍的数据，并加到数据集中作为训练集的一部分：

(901)通过低通滤波处理密度图中分辨率为

的数据；

(902)通过模拟的方式模拟产生分辨率为

的密度图的模拟图；

(903)在模型训练，在数据加载器中对分辨率为

的密度图进行x、y、 z三个轴分别旋转90°的数据扩增。

为了扩增低分辨率密度图的数据量，本发明通过对数据较多的高分辨率

数据调用RELION的程序relion_image_handler，分别输入指定分辨率的参数(4、4.5、5、5.5、6、7、8)，进行低通滤波处理，从而产生7倍的较低分辨率的密度图(FilteredDensity)，并加到数据集中作为训练集的一部分。

另外，本发明基于PDB中的原子结构模型构建4.0、4.3、4.6、4.9、5.2、5.5、

等分辨率的模拟图(Simulated Density)用于做预训练模型，并加到数据集中作为训练集的一部分。

进一步地，在步骤三之后还包括步骤四：后处理和微调；

其中，后处理包括：

(1002)将所有的氨基酸主链的二级结构分类片段与输入的冷冻电镜密度图相应的氨基酸序列进行比对，并将所有的片段映射到序列中的对应位置；比对时，采用氨基酸的“超类”(super class)而非原始序列，当密度图分辨率较低时，细粒度的20类中结构相似的氨基酸之间难以区分，而将侧链结构和密度相似的氨基酸归6类的“超类”具有更好的容错率。

在迭代过程中，为了选出最优的主链模型，我们采用新型高阶邻居路径打分方法。该方法主要考虑了路径中的缺口以及α碳原子之间的几何距离与平均距离直接的偏差。计算公式如下：

其中K为K阶邻居，μ_k和σ_k分别为k阶相邻的氨基酸中α碳原子距离的均值和方差，m_i∈{0，1}，m_i＝1表示序列中第i位置有匹配的氨基酸，并计算其前后k个邻居的几何距离偏差。m_i＝0表示序列中第i位置没有匹配的氨基酸，即为空缺，s_gap为针对空缺的罚分s_gap＝max(d_i，j)。

后处理步骤完成后，优选使用Phenix.real_space_refine进行实空间微调：具体为输入密度图、密度图分辨率以及经过后处理生成的全原子模型。微调过程中在二级结构的约束条件下，进行5轮全局最优化迭代，每轮均进行刚性平移 (morphing)和模拟退火(simulated annealing)采样。其中模拟退火的内循环最大迭代次数为100，目标的键长根方差阈值为0.01，目标的键角根方差阈值为1.0，密度图的权重为100。

进一步地，预处理步骤包括以下方法中的任意一种或至少两种的组合：：

(1122)提取基于多序列比对的进化信息谱特征；

(1123)切分密度图；

(1124)对体素不同的密度图进行插值放缩，生成体素大小统一的密度图。

以下具体说明预处理步骤：

首先，程序通过访问EMBL-EBI(The European Bioinformatics Institute)官网的EMDB数据库的FTP列表(ftp://ftp.ebi.ac.uk/pub/databases/emdb/structures)，抓取所有的密度图编号列表，然后通过EMBL-EBI官方网站上提供的API (https://www.ebi.ac.uk/pdbe/api/emdb/entry/all/{EMD-ID})获取密度的所有信息。其中{EMD-ID}为EMD编号，如3298。包括EMD编号、基于该密度图解析的原子模型的PDB编号、该密度图所属的技术(Single Particle、Helical、subtomogram Averaging、tomography等)、对称性、密度图分辨率、密度图的密度最大值、密度最小值、密度均值、密度标准差、推荐的用于可视化的密度值、产生密度图的软件、产生密度图的时间等等信息。

然后，根据密度图所属的技术、密度图分辨率的范围以及有无原子模型的 PDB编号，选出了有PDB编号的、分辨率在

范围内的密度图。

其次，下载上一步过滤后的密度图文件和原子结构模型文件，密度图文件为 mrc格式文件。由于部分pdb格式的文件不存在，因此原子结构模型文件下载cif 格式文件。下载的地址分别为： ftp://ftp.pdbj.org/pub/emdb/structures/EMD-{EMD-ID}/map/emd_{EMD-ID}.map.gz ，https://files.rcsb.org/download/{PDB-ID}.cif.gz。其中{EMD-ID}为EMD编号， {PDB-ID}为PDB编号。

再次，解析PDB文件并计算出包含PDB中结构的外接矩形体，并切割出矩形体内的密度区域，并生成新的mrc文件中。

第五，为了消除氨基酸的像素尺度差异、统一密度图的体像素大小，基于密度图文件中的头部信息，对密度图进行了体像素大小的调整，利用scikit-image 包中的二次插值函数对密度图进行放缩，将所有的密度图的体像素大小统一到

同时相应的计算出密度图相对于PDB坐标的偏移的放缩，并存储到新的mrc格式的文件中，并作为训练集的一部分(Raw Density)。该数据集也称为复合物数据集。

第六，为了构建出了标注信息确度高、噪声少、体素归一化的数据集，根据原子模型对密度图进行切分，切分成只包含单条链的密度图(Chain-wise Density)，并移除那些类别不确定的氨基酸(UNK)超过30％的链和密度图，并加到数据集中作为训练集的一部分。

第七，基于PDB中的原子结构模型构建3、3.5、4、4.5、5、5.5、6、7、

第八，基于PDB文件计算和提取出二级结构、一维序列以及三维结构中的键长键角等信息作为训练集的标注信息，供CryoNet进行训练。

经过上述步骤后，得到原始图20倍的密度图数据，每个密度图均进行了训练集的标注。

数据集的选择以及训练集和验证集的划分

具体的，在本发明的方法中，一共选择了46293个分辨率区间在

的密度图，其中

的有16689，而

的只有267个，绝大多数都在3.0-3.5 和3.5-4.5两个区间内。20类氨基酸的分布情况显示，Trp和Cys两类氨基酸的分布非常少，大约是数量最多的Leu的实例个数的八分之一。这种不平衡会影响氨基酸检测时的分类效果，为了减小这种不平衡的影响，基于统计出的20类氨基酸实例数的计算出了类别权重，计算的方式如下公式所示：

其中μ为平衡因子，在本发明的方法中μ＝0.25。

数据集中蛋白质中单条链的长度统计结果显示，链的长度大部分处在1000 个氨基酸以内，极少的链长度超过了4000。本发明的计算复杂度为O(n²)，虽然理论上在GPU显存允许的情况下，可以支持训练更长的序列模型，但对于长度超过1000蛋白，计算空间非常大，训练的时候会产生大量的显卡资源浪费，因而我们将本发明中多头注意力模型中支持的最大长度为1024，对于长度超过1024 的序列和密度图采取的切分的方式输入到本发明的方法中进行推理，最终通过后处理得到全蛋白的原子模型。

训练集和验证集中的不同分辨率的样本分布划分方法如下：首先提取所有标注数据集中的序列，然后通过多序列比对进行聚类，然后根据聚类结果按照训练集与验证集近似9：1的比例进行划分。其中，训练集和验证集中的数据均为实验获得的数据。另外，将验证集所包含的未经链切分密度图构建成复合物实验数据验证集。复合物实验数据验证集中包含487个密度图。

性能测试

一、高分辨率

密度图中氨基酸的识别效果

图3中展示出了本发明识别高分辨率

密度图中氨基酸的混淆矩阵。从图中可以看出整体的对角线模式比较明显，无侧链、外形最小的Gly和侧链很大Trp和Arg的识别率非常高均达到了0.8以上。而外形较为相似的Val、Ser、 Thr、Cys所在的区域混淆显著，表明本发明容易混淆它们之间的类别。另外Leu、 Asp、Gln、Glu、Met以及Asn相互之间也发生了较为明显的混淆。从图4中的侧链密度图可以看出，它们的确非常相近。这反映了在高分辨率数据上，本发明的特征学习能力达到了人眼看密度图的效果。

在图4中，(a)为CryoNet预测20类氨基酸的混淆矩阵的修正矩阵。其中值为-1的左下角阴影区域为“大”侧链氨基酸被识别为“小”侧链氨基酸的罚分。(b) 为20类氨基酸的侧链模型以及侧链密度图(灰色透明的表面表示)。

二、本发明与其它内部原子结构测量方法的性能比较

在检测的氨基酸数(Found)、检测的氨基酸对应位置上类别(即残基类别) 相同的正确率(Seq Match)、以及主链串联的匹配效果(Chain Match)等三项指标上分别比较了本发明与Phenix.Map_to_Model(简称Phenix)、MAINMAST 在单链验证集和多链验证集上的效果比较。图5展示了本发明的方法在高

分辨率、单链验证集上模型搭建的各项指标(Found、Seq Match、Chain Match)与Phenix的对比。可以看出，在Found指标上本发明和Phenix差不多，说明本发明和Phenix都能准确地识别出一个区域是否有氨基酸。而对于判断该处氨基酸所属的类别，也就是氨基酸的匹配度指标上(Seq Match)，本发明几乎压倒性的优于Phenix，主链串联的匹配效果也是本发明几乎压倒性的优于Phenix，而且在多链的复合物实验数据上也可以得出类似的结论(图6)。

与MAINMAST相比，本发明效果也是具有更加明显的优势(图7和图8)。 MAINMAST通过构建最小生成树，然后利用禁忌搜索算法在最小生成树中找最长路径，最后简易的将序列贴到路径中。最长路径和序列直接贴到路径中，这两个步骤，非常依赖单条路径的正确性，一旦有一个地方的路径错误，将会对 MAINMAST的结果有重大的影响，这大概是MAINMAST效果差的主要原因。另外，对比图6和图7，图5中的y＝x线下方的那些Phenix优于本发明的样本点，在图5中变得非常少了，说明在这些样本上本发明的效果仍优于MAINMAST。

三、利用Transformer进行主链串联的效果测试

在本测试中，去掉氨基酸嵌入特征层中的顺序编码，让解码器失去了序列的顺序而无法进行主链串联。然后通过在后处理中进行片段重建和主链串联。并与 Transformer主链串联的结果进行比较，结果显示在密度图分辨率较高的情况，Transformer主链串联带来的提升非常高，而密度图分辨率差的时候，不仅没有提升，还会下降许多。从提升较多的样本来看，大部分样本的提升区间为0.1-0.4，许多样本的Seq Match原始就有0.6-0.8左右，在Transformer主链串联后进一步提升了0.2-0.4，从而使得这些样本的Seq Match接近100％。

四、预测的原子模型效果对比

图9为分辨率为

的密度图EMD。(a)为参考结构PDB:6n07(LD)； (b)为Phenix的结果；(c)为本发明的方法的结果；(d),(e)为CryoNet 经过real_space_refine后，全原子模型与参考结构PDB:6n09(LD)在密度图中效果的两个不同朝向。图中展示了9312中的一个单链的区域上预测的结果以及和Phenix的对比。其中Phenix的各项指标分别为:Found:0.989,Seq Match:0.859, Chain Match:0.685,RMSD:

本发明的各项指标分别为:Found:1.000,Seq Match:1.000,Chain Match:1.000,RMSD:

图10为分辨率为

的密度图EMD:密度图EMD:9314分辨率为

(a)为参考结构PDB:6n0f；(b)为Phenix的结果；(c)为CryoNet结果；(d) 为CryoNet经过real_space_refine微调后的结果。9314预测的结果以及与Phenix 的结果对比。图b、c、d中深色区域为氨基酸类别错误区域。其中Phenix的各项指标分别为:Found:0.938,Seq Match:0.477,Chain Match:0.019,RMSD:

本发明的各项指标分别为:Found:0.963,Seq Match:0.972,Chain Match:0.490, RMSD:

图11为分辨率为

的密度图EMD：密度图EMD:9314分辨率为

(a)为参考结构PDB:6n0f；(b)为Phenix的结果；(c)为CryoNet结果；(d) 为CryoNet经过real_space_refine微调后的结果。0379预测的结果以及与Phenix 的对比。图b、c、d中深色区域为氨基酸类别错误区域。其中Phenix的各项指标分别为:Found:0.792,Seq Match:0.162。本发明的各项指标分别为:Found:0.934, Seq Match:0.915。

其中(a)为本发明预测的全原子模型图，并经过real_space_refine微调。经验证，氨基酸匹配度大约95％。(b)为预测的原子模型与密度图匹配效果。

五、前向运动模型的结果测试

为了测试侧链前向运行学模型的效果，进行了PDB中的结构(PDB：6n09-HE 链)输出，结果显示采用侧链前向运行学模型的结果比没有采用侧链前向运行学模型的结果更好，主链更加准确。

六、二级结构预测效果测试：

图13中展示出了利用本发明的方法预测的二级结构效果。输入的密度图为 EMD:9313，分辨率为

图中左侧(a)是该密度图对应的二级结构标准答案。图中右侧(b)中的球为预测的氨基酸位置以及二级结构类型，颜色与图(a)中的一一对应。可以看出预测效果非常好，二级结构准确率为95.8％，只错了三个氨基酸。

七、全局迭代优化前后的效果对比

对密度图EMD:4850(分辨率为

)和EMD:3754(分辨率为

)在全局迭代优化前后的效果进行了对比，基于密度图EMD:4850预测模型的氨基酸类别匹配得分从0.772提升到了0.897。基于密度图EMD:3754预测模型的氨基酸类别匹配得分从0.873提升到了0.890。全局迭代优化前后详细的指标对比见表 3.1和表3.2。

表3.1密度图EMD:4850全局迭代优化前后的各项指标对比

表3.2密度图EMD:3754全局迭代优化前后的各项指标对比

八、低分辨率

下数据集上的氨基酸类型识别准确率验证测试

结果显示通过数据扩增(低通滤波扩增、密度图旋转扩增)、损失函数修正 (只回归主链原子、氨基酸分类和二级结构分类加权)等策略显著提升了氨基酸的识别准确率。低通滤波扩增、密度图旋转扩增两种数据扩增方式提升非常明显，说明密度图的数据量是低分辨率氨基酸构象特征学习的关键。大量的数据提供了侧链弱密度分布规律，本发明学习到了这些分布规律从而提升了氨基酸类型的识别率。另一方面，不学习侧链的位置信息，避免了侧链位置不准带来的网络崩溃。

图14为本发明与DeepTracer的预测效果对比(横轴和纵轴分别为CryoNet 与DeepTracer预测出的模型在Seq Match指标上的结果，点的颜色为密度图的分辨率)，可以看出本发明在大部分密度图上的识别效果优于DeepTracer，尤其在中低分辨率的数据上，表现尤为突出。

图15为低通滤波数据在实验数据上主链串联的提升效果图，其中图15(a) 横轴为分辨率，纵轴为在单链验证集上低通滤波数据在Seq Match上提升的效果。图15(b)横轴为分辨率，纵轴为在复合物验证集上低通滤波数据在Seq Match 上提升的效果。点的颜色为不采用低通滤波数据加强模型的训练的效果。从图中可以看出，大部分效果较优的样本在低通滤波数据的优化的模型上，有显著的提升效果。且在分辨率为

的数据上，具有较为稳定的提升。

为了在保证结构的一致性的前提下，测试高分辨率模型和低分辨率模型的效果，我们选取了高分辨的样本，并以降采样的方式，从已发表的用于三维重构的二维颗粒照片中采样出一部分二维颗粒照片，然后进行重构，从而获得低分辨率的密度图，然后进行模型搭建。

和

的结果显示，低分辨率模型在低分辨数据上性能更高。对于

的密度图，低通滤波数据增强的CryoNet低分辨率模型搭建出来的模型的Seq Match为0.455，而未经过低通滤波数据增强的CryoNet低分辨率模型搭建出来的模型的Seq Match为0.219。对于

的密度图，低通滤波数据增强的CryoNet低分辨率模型搭建出来的模型的SeqMatch为 0.312，而未经过低通滤波数据增强的CryoNet低分辨率模型搭建出来的模型的Seq Match为0.072。

综上所述，本发明提供的基于深度学习的冷冻电镜原子模型结构搭建方法及系统能使得生成的氨基酸原子模型具有结构生物学特征，保证了预测的氨基酸原子模型结构生物学合理性，并最终实现了端到端全可微分的氨基酸内部原子结构的准确预测，具有一定的优越性，并在多个试验预测的原子模型效果上得到了验证。另外，在中低分辨率中的模型搭建中，本发明采用了数据扩增等创新性方法，并从多个角度展示各项指标的性能提升情况，从实验结果中可以看出，提升效果明显。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

申请人声明，以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于深度学习的冷冻电镜原子模型结构搭建方法，其特征在于，包括：

步骤二：输入冷冻电镜密度图及其相应的氨基酸序列；

2.根据权利要求1所述的测量方法，其特征在于，所述(1)模型训练包括：

步骤112)：对所述冷冻电镜密度图进行预处理；

3.根据权利要求2所述的测量方法，其特征在于，所述(1)模型训练还包括：

4.根据权利要求3所述的测量方法，其特征在于，预处理步骤112)包括以下方法中的任意一种或至少两种的组合：

(1122)提取基于多序列比对的进化信息谱特征；

(1123)切分冷冻电镜密度图；

5.根据权利要求4所述的测量方法，其特征在于，预处理步骤112)还包括步骤1125)：对冷冻电镜密度图数据集进行扩增；

(501)通过低通滤波处理密度图中分辨率为

的数据；

(502)通过模拟的方式模拟产生分辨率为

的密度图的模拟图；

(503)在模型训练，在数据加载器中对分辨率为

的密度图进行x、y、z三个轴分别旋转90°的数据扩增。

6.根据权利要求5所述的测量方法，其特征在于，步骤113)中通过3DResNet训练并提取预处理得到的冷冻电镜密度图数据集的区域特征。

7.根据权利要求6所述的测量方法，其特征在于，当步骤一中冷冻电镜密度图的分辨率为

时，移除步骤116)中评价侧链的准确性的损失函数，加权基酸分类损失函数。

8.根据权利要求1-7任一所述的测量方法，其特征在于，所述(2)模型测试包括：输入测试氨基酸序列；读取训练好的氨基酸主链的氨基酸类别、二级结构类别和全原子坐标参数；输入一个密度图及其所包含的氨基酸序列做前向传播，得到输入氨基酸主链的氨基酸分类、二级结构分类和全原子坐标数据。

9.根据权利要求1-8任一所述的测量方法，其特征在于，步骤三对所输入的冷冻电镜密度图及其相应的氨基酸序列特征编码包括氨基酸序列类型编码、序列位置编码和基于序列比对的位置特异度打分矩阵，以及对冷冻电镜密度图及其相应的氨基酸的内部原子结构信息进行提取；

10.根据权利要求1-9任一所述的测量方法，其特征在于，在步骤三之后还包括：步骤四：后处理和微调；

其中，后处理包括：

11.权利要求1-10任一所述的测量方法的应用，其特征在于，所述应用包括用于构建一种基于深度学习的冷冻电镜原子模型结构搭建系统。

12.一种基于深度学习的冷冻电镜原子模型结构搭建系统，其特征在于，包括：