CN111210869A

CN111210869A - 一种蛋白质冷冻电镜结构解析模型训练方法和解析方法

Info

Publication number: CN111210869A
Application number: CN202010018788.4A
Authority: CN
Inventors: 杨跃东; 陈晟; 李雄俊; 卢宇彤
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2020-05-29
Anticipated expiration: 2040-01-08
Also published as: CN111210869B

Abstract

本发明涉及一种蛋白质冷冻电镜结构解析模型训练方法和解析方法，训练方法包括：以蛋白质电子云密度图像中像素密度高于预设密度值的像素点为中心，按预设大小框选出子图像，并将子图像根据其中心是否为C_α位点分为正样本和负样本；根据正样本和负样本对卷积神经网络模型进行训练，训练出C_α位点预测模型；根据正样本对卷积神经网络模型进行训练，训练出二级结构预测模型和氨基酸类型预测模型。通过训练好的三种模型预测蛋白质冷冻电镜图像中的C_α位点、每个C_α位点的二级结构和氨基酸类型，并将这些C_α位点与已知的蛋白质序列位点一一配对，本发明可以高效、准确地解析蛋白质冷冻电镜图像并建立该蛋白质主链结构的模型。

Description

一种蛋白质冷冻电镜结构解析模型训练方法和解析方法

技术领域

本发明涉及生物信息技术领域，更具体地，涉及一种蛋白质冷冻电镜结构解析模型训练方法和解析方法。

背景技术

冷冻电子显微镜技术，是在低温下对样品使用透射电子显微镜进行观察的显微技术。在生物大分子可视化领域，相比于广泛应用的X射线晶体衍射技术以及核磁共振技术，冷冻电镜技术不需要大量样品也无需分子结晶抑或同位素富集。因此冷冻电镜技术受到广泛关注且飞速发展，近年来越来越多的冷冻电镜图像被存放到EMDB(Electron MicroscopyData Bank，电子显微镜数据库)中，图像的分辨率也不断提升。

冷冻电镜技术的重大进展也催生了对电镜图像结构解释技术的迫切需求，其中包含了对蛋白质冷冻电镜图像进行主链建模的技术。对于一张蛋白质电子云密度图像，已知该蛋白质的氨基酸序列，主链建模技术可以通过建模得到序列上的每个氨基酸的C_α原子在图像中的对应位置，该技术的评估指标为真实位置与建模得到的预测位置的距离的平均值，即RMSD(均方误差)，另外，由于即便知道图像中有哪些像素点是C_α原子的所在位点，只要不知道其在氨基酸序列中的排列顺序，不经优化的搜索算法的时间复杂度为O(N！)，其中N为蛋白质序列长度，所以算法的耗时也是算法的评价指标之一。

传统的主链建模技术一般分为基于同源结构的建模和重头建模两种。基于同源结构的建模需要有已知的同源蛋白，而重头建模则不需要。重头建模的传统方法则主要有路径游走(Pathwalking)技术以及罗塞塔(Rosetta)软件等。其中，路径游走技术将电镜图像的像素密集点视为图论节点，通过求解旅行商人问题构建蛋白质的C_α模型，但是该技术需要人工干预来手动分配约束并确定C_α模型上蛋白质序列的方向。而罗塞塔软件则通过组装从蛋白质结构数据库中提取的片段结构来构建初始模型，然后进行全原子优化以更好地拟合冷冻电镜图像，罗塞塔软件的建模准确率同样受到人工调整参数的影响，且其模板结构数量众多，同样耗时耗力，为一个蛋白质进行建模往往要耗时上百个小时之久。

除传统的主链建模技术之外，近年出现了基于机器学习和深度学习以及图搜索算法的重头建模方法。例如基于均值漂移聚类算法(Mean Shift)以及禁忌搜索算法(TabuSearch)的MAINMAST重头建模方法，以及基于三维物体识别(3D Object Detection)和蒙特卡洛树搜索算法(Monte Carlo Tree Search)的A2-Net方法，它们可以实现超过Rosetta以及Pathwalking算法的主链建模性能，其中，A2-Net方法的建模效率比传统的Rosetta方法提高了数个数量级，但是它们的建模准确率相比传统的技术虽有所提高但仍然比较有限，算法的时间复杂度也相当高，其中时间复杂度较低的A2-Net方法完成一个蛋白的建模也往往需要10分钟左右，耗时较长。

发明内容

本发明旨在克服上述现有技术的至少一种缺陷(不足)，提供一种蛋白质冷冻电镜结构解析模型训练方法和解析方法，用于高效、准确地预测出蛋白质电子云密度图像中的蛋白质主链模型。

本发明采取的技术方案是：

一种蛋白质冷冻电镜结构解析模型训练方法，包括：

获取用于训练的蛋白质电子云密度图像；

以所述蛋白质电子云密度图像中像素密度高于预设密度值的像素点为中心，按预设大小框选出子图像，并将所述子图像根据其中心是否为C_α位点分为正样本和负样本，所述C_α位点为已知的蛋白质中氨基酸C_α原子在所述蛋白质电子云密度图像的位点；

根据所述正样本和所述负样本对卷积神经网络模型进行训练，训练出C_α位点预测模型；

根据已知每个C_α位点的蛋白质二级结构的所述正样本对卷积神经网络模型进行训练，训练出二级结构预测模型；

根据已知每个C_α位点的氨基酸类型的所述正样本对卷积神经网络模型进行训练，训练出氨基酸类型预测模型。

通过训练出C_α位点预测模型、二级结构预测模型和氨基酸类型预测模型，可以根据这些预测模型预测出蛋白质电子云密度图像的C_α位点和每个C_α位点的二级结构、氨基酸类型，由此可以解析出蛋白质主链模型。

进一步地，所述卷积神经网络模型包括依次连接的卷积单元、全连接层和损失函数层，卷积单元包括多个依次连接的卷积层。

由于子图像大小较小，所以采用较浅的卷积神经网络，不加池化层(pooling)、不设大步长(stride)、不做补齐(padding)，提高训练和预测的收敛性。

进一步地，每个所述卷积层之间还连接有批标准化层和/或非线性激活层。

批标准化层可以加速卷积神经网络模型的收敛，非线性激活层可以增加卷积神经网络模型的非线性。

进一步地，根据所述正样本和所述负样本对卷积神经网络模型进行训练，训练出C_α位点预测模型，具体为：

对于不同分辨率的所述蛋白质电子云密度图像，根据所述正样本和所述负样本对卷积神经网络模型进行不同的训练，训练出对应不同分辨率的C_α位点预测模型；

根据已知每个C_α位点的二级结构的所述正样本对卷积神经网络模型进行训练，训练出二级结构预测模型，具体为：

对于不同分辨率的所述蛋白质电子云密度图像，根据已知每个C_α位点的二级结构的所述正样本对卷积神经网络模型进行不同的训练，训练出对应不同分辨率的二级结构预测模型；

根据已知每个C_α位点的氨基酸类型的所述正样本对卷积神经网络模型进行训练，训练出氨基酸类型预测模型，具体为：

对于不同分辨率的所述蛋白质电子云密度图像，根据已知每个C_α位点的氨基酸类型的所述正样本对卷积神经网络模型进行不同的训练，训练出对应不同分辨率的氨基酸类型预测模型。

对于不同分辨率的蛋白质电子云密度图像，分别训练出不同分辨率的不同分辨率对应的C_α位点预测模型、二级结构预测模型和氨基酸类型预测模型，使得预测更加高效、准确。

进一步地，根据所述正样本和所述负样本，训练出C_α位点预测模型之前，还包括：

在所述负样本中排除邻居样本，所述邻居样本为其中心点像素坐标值与某个或某些所述正样本的中心点像素坐标值之差的绝对值小于预设差值的所述负样本。

通过排除邻居样本，减少正负样本不平衡对模型性能的影响，还可以避免所训练出的模型进行实际预测时会导致一定程度的位点预测误差。

一种蛋白质冷冻电镜结构解析方法，采用如上所述的C_α位点预测模型、二级结构预测模型和氨基酸类型预测模型，包括：

获取待预测蛋白质电子云密度图像；

以所述待预测蛋白质电子云密度图像中像素密度高于预设密度值的像素点为中心，按预设大小框选出待测子图像；

将所述待测子图像输入所述C_α位点预测模型，预测得到C_α位点，所述C_α位点为蛋白质中氨基酸C_α原子在所述蛋白质电子云密度图像的位点；

将其中心为C_α位点的所述待测子图像分别输入所述二级结构预测模型和所述氨基酸类型预测模型，预测得到对应所述C_α位点的二级结构和对应所述C_α位点的氨基酸类型；

根据所述C_α位点、所述二级结构和所述氨基酸类型，建立蛋白质主链模型。

在待预测蛋白质电子云密度图像中排除像素值低于预设密度值的像素点，然后分别以剩下的所有像素点为中心框选出待测子图像，采用C_α位点预测模型预测其中心是否为C_α位点，从而得到C_α位点。对中心为C_α位点的待测子图像，采用二级结构预测模型以及氨基酸类型预测模型预测其二级结构和氨基酸类型，根据C_α位点的预测结果，结合二级结构、氨基酸类型的预测结果，可以建立出蛋白质主链模型。

进一步地，根据所述C_α位点、每个所述C_α位点的二级结构和每个所述C_α位点的氨基酸类型，建立蛋白质主链模型，包括：

根据已知的氨基酸序列，结合所述C_α位点、每个所述C_α位点的二级结构和每个所述C_α位点的氨基酸类型，确定部分序列位点；

以确定的所述序列位点为分段点，将氨基酸序列分为多段，进行分段树搜索，根据每段搜索的结果组成C_α模型池，采用折叠识别打分方式对C_α模型池进行打分筛选，得到蛋白质主链模型。

进一步地，根据已知的氨基酸序列，结合所述C_α位点、每个所述C_α位点的二级结构和每个所述C_α位点的氨基酸类型，确定部分序列位点，包括：

根据已知的氨基酸序列得到每个序列位点的二级结构信息，将已知的氨基酸序列和所得到每个序列位点的二级结构信息与预测得到的每个所述C_α位点的氨基酸类型和每个所述C_α位点的二级结构进行匹配打分，将氨基酸类型的匹配打分与二级结构的匹配打分相乘，得到初始的打分矩阵，所述打分矩阵的行表示已知的氨基酸序列位点、列表示预测的C_α位点；

根据相邻C_α位点在空间结构上的距离约束，更新所述打分矩阵；

将更新后的所述打分矩阵中打分相对于其它元素较大的若干元素所对应的C_α位点作为序列位点。

进一步地，将所述待测子图像输入所述C_α位点预测模型，预测得到C_α位点之后，还包括：

采用非极大值抑制算法对所述C_α位点进行筛选；

将其中心为C_α位点的所述待测子图像分别输入所述二级结构预测模型和所述氨基酸类型预测模型，预测得到对应所述C_α位点的二级结构和对应所述C_α位点的氨基酸类型，具体为：

将其中心为筛选后C_α位点的所述待测子图像分别输入所述二级结构预测模型和所述氨基酸类型预测模型，预测得到对应所述C_α位点的二级结构和对应所述C_α位点的氨基酸类型；

根据所述C_α位点、所述二级结构和所述氨基酸类型，建立蛋白质主链模型，具体为：

根据筛选后C_α位点、所述二级结构和所述氨基酸类型，建立蛋白质主链模型。

通过极大值抑制算法可以提高对蛋白质电子云密度图像中C_α位点的定点准确性。

进一步地，将所述待测子图像输入所述C_α位点预测模型，预测得到C_α位点，具体为：根据所述待预测蛋白质电子云密度图像的分辨率，将所述待测子图像输入对应分辨率的所述C_α位点预测模型，预测得到C_α位点；

根据所述待预测蛋白质电子云密度图像的分辨率，将其中心为C_α位点的所述待测子图像分别输入对应分辨率的所述二级结构预测模型和对应分辨率的所述氨基酸类型预测模型，预测得到对应所述C_α位点的二级结构和对应所述C_α位点的氨基酸类型。

针对不同分辨率的蛋白质电子云密度图像，分别采用不同分辨率对应的C_α位点预测模型、二级结构预测模型和氨基酸类型预测模型，使得预测更加高效和准确。

与现有技术相比，本发明的有益效果为：

(1)本发明结合冷冻电镜的图像数据特点，化繁为简，化简为零，将整个蛋白的卷积神经网络模型训练任务分解为单个氨基酸的训练任务；

(2)本发明对训练样本的筛选和处理，适应了卷积神经网络模型对数据的敏感性，极大地提高了模型训练速度和训练完成后的模型性能；

(3)本发明针对训练样本的特点，设计出浅层的卷积神经网络，提高了训练速度，也提高了预测速度和预测准确性；

(4)相比于传统的蛋白质主链建模方法，本发明不依赖同源结构，可重头建模，在模型训练完成后即可用于自动化预测，只需获取待预测蛋白质电子云密度图像的分辨率大小，将图像输入模型中即可获得建模结果，不依赖人工干预，而且极大地节省了建模所需时间，从动辄上百小时的建模时间缩短为几分钟，提高了预测通量，所得到的C_α主链模型均方根误差有了显著下降；

(5)通过打分矩阵的形式，将卷积神经网络预测模型得到的预测结果有效地利用起来，直接完成部分蛋白质主链模型的建立，并将树搜索分为多段进行，极大地提高了蛋白质主链模型的建模效率。

附图说明

图1为本发明一个实施例的蛋白质冷冻电镜结构解析模型训练方法示意图。

图2为本发明一个实施例的卷积神经网络模型示意图。

图3为本发明一个实施例的蛋白质冷冻电镜结构解析方法示意图。

图4为本发明一个实施例的打分矩阵创建与更新、分段树搜索的流程示意图。

具体实施方式

本发明附图仅用于示例性说明，不能理解为对本发明的限制。为了更好说明以下实施例，附图某些部件会有省略；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例1

如图1所示，本实施例提供一种蛋白质冷冻电镜结构解析模型训练方法，包括：

获取用于训练的蛋白质电子云密度图像；

以蛋白质电子云密度图像中像素密度高于预设密度值的像素点为中心，按预设大小框选出子图像，并将子图像根据其中心是否为C_α位点分为正样本和负样本；

根据正样本和负样本对卷积神经网络模型进行训练，训练出C_α位点预测模型；

根据已知每个C_α位点的蛋白质二级结构的正样本对卷积神经网络模型进行训练，训练出二级结构预测模型；

根据已知每个C_α位点的氨基酸类型的正样本对卷积神经网络模型进行训练，训练出氨基酸类型预测模型。

在冷冻电镜下可以获取蛋白质电子云密度图像，所获取的蛋白质电子云密度图像是稀疏的三维图像，其每个像素点的像素值代表体积为

(

表示1×10^-10m，也即表示0.1nm，

表示0.1nm³)空间区域中冷冻电镜测得的电子云密度大小；不同的图像具有不同的分辨率，分辨率代表原子电子云的弥散范围。每张电子云密度图像对应一张同等大小的标签矩阵，其标签标注了电子云密度图像中每个C_α位点的位置及其二级结构和氨基酸类型。

具体实施过程可以是：获取用于训练的蛋白质电子云密度图像，对蛋白质电子云密度图像的像素值进行筛选，排除像素密度小于预设密度值(预设密度值可以取决于蛋白质电子云密度图像的分辨率大小，如

分辨率对应的预设密度值为1)的像素点；像素值筛选剔除了99％以上的像素点，但保留了99％以上的C_α位点。对于通过筛选的像素点，以这些像素点为中心，框选预设大小(预设大小可以取决于蛋白质电子云密度图像的分辨率大小，如

分辨率对应的预设大小为11×11×11)的子图像；根据标签矩阵给这些子图像标注，中心点不是C_α位点的子图像被标注为负样本，反之则标注为正样本，并进一步标注其二级结构和氨基酸类型，标注完后分别进行C_α位点预测模型、二级结构预测模型和氨基酸类型预测模型的训练，训练出的预测模型可以高效、准确地解析蛋白质电子云密度图像的蛋白质主链模型。

如图2所示，在本实施例中，卷积神经网络模型包括依次连接的卷积单元、全连接层(Full Connected Layer)和损失函数层(SoftMax)，卷积单元包括多个依次连接的卷积层(Convolution)。

通过训练出C_α位点预测模型、二级结构预测模型和氨基酸类型预测模型，可以根据C_α位点、结合二级结构、氨基酸类型的预测结果以及已有的蛋白质序列信息，预测出蛋白质主链模型。

为了契合预测任务的特点，需要设计卷积神经网络模型的结构。要训练出可以预测蛋白质主链结构的卷积神经网络模型，是要对一个较小的三维图像(如11×11×11的子图像)进行图像分类。而传统的图像分类，其图像大小较大，往往采用深层卷积神经网络，并辅以池化层(pooling)或大步长(stride)进行尺寸放缩，缩小到尺度为b×c×1×1×1，其中b为批大小(batch size)，c为通道数(channel size)，最后3个1对应原长宽高，可展平舍去，得到一个一维(除batch维度外)的浮点数张量，将该张量输入全连接层，最终输出长度为总类别数量的一个张量，将其输入损失函数层进行变换，得到预测图像属于每个类别的概率值。而本实施例中，需要进行分类的图像大小较小，且数量较多，因此采用较浅的卷积神经网络，不加池化层、不设大步长、不做补齐(padding)，采用多个卷积层，使得数据每经过一个卷积层，图像的大小会缩减(如大小为11×11×11的图像输入卷积核为3×3×3的卷积层，则图像大小会缩减2个像素)。卷积层的数量可以根据所输入子图像的大小而设计，使得通过多个卷积层后，最终输出尺度为b×c×1×1×1的结果。

在本实施例中，每个卷积层之间还连接有批标准化层(Batch NormalizationLayer)和/或非线性激活层(Exponential Linear Unit Activation Layer)。

在本实施例中，根据正样本和负样本对卷积神经网络模型进行训练，训练出C_α位点预测模型，具体为：

对于不同分辨率的蛋白质电子云密度图像，根据正样本和负样本对卷积神经网络模型进行不同的训练，训练出对应不同分辨率的C_α位点预测模型；

根据已知每个C_α位点的二级结构的正样本对卷积神经网络模型进行训练，训练出二级结构预测模型，具体为：

对于不同分辨率的蛋白质电子云密度图像，根据已知每个C_α位点的二级结构的正样本对卷积神经网络模型进行不同的训练，训练出对应不同分辨率的二级结构预测模型；

根据已知每个C_α位点的氨基酸类型的正样本对卷积神经网络模型进行训练，训练出氨基酸类型预测模型，具体为：

对于不同分辨率的蛋白质电子云密度图像，根据已知每个C_α位点的氨基酸类型的正样本对卷积神经网络模型进行不同的训练，训练出对应不同分辨率的氨基酸类型预测模型。

在本实施例中，根据正样本和负样本，训练出C_α位点预测模型之前，还包括：

在负样本中排除邻居样本，邻居样本为其中心点像素坐标值与某个或某些正样本的中心点像素坐标值之差的绝对值小于预设差值的负样本。

为了提高模型的训练速度，并提升在正负样本不平衡时(例如分辨率为

正样本与负样本的数量比例为1:66)的模型性能，应对样本进行筛选。由于正样本较少，故所有正样本通过筛选；而对于负样本，则可排除其中的邻居样本，也即其中心点的像素坐标值x、y、z与某正样本中心点的x’、y’、z’之差的绝对值，|x-x’|、|y-y’|、|z-z’|全部小于预设差值的负样本可以排除掉，因为这些负样本与正样本很接近，若这些负样本也用于训练，可能会降所训练出的模型性能，而且在利用所训练出的模型进行实际预测时会导致一定程度的位点预测误差。

在本实施例中，在负样本中排除邻居样本之后，还包括：

对排除邻居样本后的负样本进行随机采样，以使正样本和负样本之间的数量比例满足预设比例。

对排除邻居样本后剩余的负样本，进行随机采样，保证正样本与负样本之间的数量比例满足预设比例，可以进一步降低正负样本不平衡对模型性能的影响。

在本实施例中，在获取用于训练的蛋白质电子云密度图像之后，还包括：

选取多个角度对蛋白质电子云密度图像进行旋转形成新的蛋白质电子云密度图像，以增加用于训练的蛋白质电子云密度图像的数量。

因为卷积神经网络对用于训练的图像旋转、平移和放缩具有不变性，而且训练数据增强在图像识别领域具有强大的表现，所以对用于训练的蛋白质电子云密度图像进行多个角度的旋转而获得新的用于训练的蛋白质电子云密度图像，从而增强训练数据。

优选地，选取多个角度对蛋白质电子云密度图像进行旋转形成新的蛋白质电子云密度图像，具体为：选取9个角度对蛋白质电子云密度图像进行旋转形成新的蛋白质电子云密度图像。由此，再加上原图像可以组成一个数量上相对于原来扩大了10倍的蛋白质电子云密度图像训练集。

在对卷积神经网络模型的训练过程中，采用k折交叉验证确定卷积神经网络模型的超参数(hyper-parameter)，如学习率以及上文提到的子图像的大小、负样本随机采样比例等。以采用5折交叉验证为例，在训练C_α位点预测模型时，将正样本和负样本所形成的训练集分为5份，分5次进行训练，每次取1份为验证集，其他4份为训练集；将训练数据输入卷积神经网络模型，根据交叉熵损失函数计算其预测得分与类别标注的误差，利用随机梯度下降算法更新网络中参数的数值，直到误差收敛，训练完成，用验证集进行验证，根据评估指标计算模型得分，计算在当前超参数下，5折交叉验证的平均得分，多组超参数做对比，选出最好的超参数组合。对于不同分辨率，使用5折交叉验证确定其最好的超参数组合，使用最好的超参数组合，以及该分辨率下的整个训练集(不再分5份)，进行最终的模型训练，更新模型参数，直到误差收敛，训练完成，得到针对不同分辨率的不同C_α位点预测模型。

在训练二级结构预测模型和氨基酸类型预测模型时，要上述同理，同样用k折交叉验证确定卷积神经网络模型的超参数，同样针对不同分辨率训练多个模型。

实施例2

如图3所示，本实施例还提供一种一种蛋白质冷冻电镜结构解析方法，采用如实施例1所训练出的C_α位点预测模型、二级结构预测模型和氨基酸类型预测模型，包括：

获取待预测蛋白质电子云密度图像；

以待预测蛋白质电子云密度图像中像素密度高于预设密度值的像素点为中心，按预设大小框选出待测子图像；

将待测子图像输入C_α位点预测模型，预测得到C_α位点，C_α位点为蛋白质中氨基酸C_α原子在蛋白质电子云密度图像的位点；

将其中心为C_α位点的待测子图像分别输入二级结构预测模型和氨基酸类型预测模型，预测得到对应C_α位点的二级结构和对应C_α位点的氨基酸类型；

根据C_α位点、二级结构和氨基酸类型，建立蛋白质主链模型。

在待预测蛋白质电子云密度图像中排除像素值低于预设密度值的像素点，然后分别以剩下的所有像素点为中心框选出待测子图像，采用C_α位点预测模型预测其中心是否为C_α位点，从而得到C_α位点。对中心为C_α位点的待测子图像，采用二级结构预测模型以及氨基酸类型预测模型预测其二级结构和氨基酸类型，根据C_α位点的预测结果，结合二级结构、氨基酸类型的预测结果以及已有的蛋白质序列信息，可以建立出蛋白质主链模型。

如图4所示，在本实施例中，根据C_α位点、每个C_α位点的二级结构和每个C_α位点的氨基酸类型，建立蛋白质主链模型，包括：

根据已知的氨基酸序列，结合C_α位点、每个C_α位点的二级结构和每个C_α位点的氨基酸类型，确定部分序列位点；

以确定的序列位点为分段点，将氨基酸序列分为多段，进行分段树搜索，根据每段搜索的结果组成C_α模型池，采用折叠识别打分方式对C_α模型池进行打分筛选，得到蛋白质主链模型。

在进行分段树搜索时可以使用禁忌搜索(Tabu Search)算法，对树搜索的节点进行打分；但是由于禁忌搜索算法能跳出局部最优解的特性，打分较低的节点也可能被搜索到；由此进行的分段的、贪婪的、但是又能跳出局部最优解的树搜索，既保证了建模的高效率，又保证了建模的准确性。

分段树搜索每段搜索的结果都可能有多个，由此组成一个C_α模型池，再使用折叠识别打分(Threading Score)进行打分并筛选，得到对蛋白质电子云密度图像进行主链建模结果。

在本实施例中，根据已知的氨基酸序列，结合C_α位点、每个C_α位点的二级结构和每个C_α位点的氨基酸类型，确定序列位点，包括：

根据已知的氨基酸序列得到每个序列位点的二级结构信息，将已知的氨基酸序列和所得到每个序列位点的二级结构信息与预测得到的每个C_α位点的氨基酸类型和每个C_α位点的二级结构进行匹配打分，将氨基酸类型的匹配打分与二级结构的匹配打分相乘，得到初始的打分矩阵，打分矩阵的行表示已知的氨基酸序列位点、列表示预测的C_α位点；

根据相邻C_α位点在空间结构上的距离约束，更新打分矩阵；

将更新后的打分矩阵中打分相对于其它元素较大的若干元素所对应的C_α位点作为序列位点。

已知氨基酸序列信息，学术上可以根据氨基酸序列预测出比较准确的氨基酸序列上每个序列位点的二级结构类型。故已知氨基酸序列以及根据氨基酸序列预测的二级结构信息；又已知用C_α位点预测模型根据电子云密度图像预测出来的C_α位点，以及每个C_α位点的氨基酸种类打分，二级结构类型打分；由以上这些信息做真实序列位点和我们预测的C_α位点的两两匹配；将真实位点与预测位点的两两氨基酸种类匹配打分和两两二级结构类型匹配打分相乘，得到初始的打分矩阵。

打分矩阵的更新基于以下原理：在氨基酸序列上相邻的位点，其在空间结构上的距离应约为

该原理可简称为“相邻定理”，“相邻定理”即为相邻C_α位点在空间结构上的距离约束。打分矩阵应代表每个真实序列位点和预测的电镜中的C_α位点的匹配分数。而初始的打分矩阵只根据每个真实位点的{氨基酸类型，二级结构类型}，以及预测位点的{氨基酸打分，二级结构打分}来计算得出；初始打分矩阵缺少“相邻定理”的约束。因此，对于矩阵中每个【真实位点，预测位点】的打分，我们可以先计算得出与其预测位点空间距离小于

的预测位点的空间邻居(可能有多个)，然后根据其每个【真实位点的序列左邻居，预测位点的空间邻居】的打分的最大值，以及【真实位点的序列右邻居，预测位点的空间邻居】的打分的最大值，更新该【真实位点，预测位点】的打分：若以上两个最大值都大于一定阈值，则该【真实位点，预测位点】的打分保持不变，否则打分减小。

更新后的打分矩阵，会有在部分预测位点上的打分远高于其他预测位点，将打分相对较高的这些预测位点的坐标可以直接作为部分序列位点的预测结果。

在本实施例中，将待测子图像输入C_α位点预测模型，预测得到C_α位点之后，还包括：采用非极大值抑制算法对C_α位点进行筛选；

将其中心为C_α位点的待测子图像分别输入二级结构预测模型和氨基酸类型预测模型，预测得到对应C_α位点的二级结构和对应C_α位点的氨基酸类型，具体为：

将其中心为筛选后C_α位点的待测子图像分别输入二级结构预测模型和氨基酸类型预测模型，预测得到对应C_α位点的二级结构和对应C_α位点的氨基酸类型；

根据C_α位点、二级结构和氨基酸类型，建立蛋白质主链模型，具体为：

根据筛选后C_α位点、二级结构和氨基酸类型，建立蛋白质主链模型。

在本实施例中，将待测子图像输入C_α位点预测模型，预测得到C_α位点，具体为：

根据待预测蛋白质电子云密度图像的分辨率，将待测子图像输入对应分辨率的C_α位点预测模型，预测得到C_α位点；

根据待预测蛋白质电子云密度图像的分辨率，将其中心为C_α位点的待测子图像分别输入对应分辨率的二级结构预测模型和对应分辨率的氨基酸类型预测模型，预测得到对应C_α位点的二级结构和对应C_α位点的氨基酸类型。

针对不同分辨率的蛋白质电子云密度图像，分别采用不同分辨率对应的C_α位点预测模型、二级结构预测模型和氨基酸类型预测模型，使得预测更加高效和准确。具体地，在获取待预测蛋白质电子云密度图像后，获取该待预测蛋白质电子云密度图像的分辨率，选取对应分辨率的C_α位点预测模型、二级结构预测模型和氨基酸类型预测模型进行预测。

显然，本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例，而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种蛋白质冷冻电镜结构解析模型训练方法，其特征在于，包括：

获取用于训练的蛋白质电子云密度图像；

根据已知每个C_α位点的二级结构的所述正样本对卷积神经网络模型进行训练，训练出二级结构预测模型；

2.根据权利要求1所述的蛋白质冷冻电镜结构解析模型训练方法，其特征在于，所述卷积神经网络模型包括依次连接的卷积单元、全连接层和损失函数层，卷积单元包括多个依次连接的卷积层。

3.根据权利要求2所述的蛋白质冷冻电镜结构解析模型训练方法，其特征在于，每个所述卷积层之间还连接有批标准化层和/或非线性激活层。

4.根据权利要求1至3任一项所述的蛋白质冷冻电镜结构解析模型训练方法，其特征在于，根据所述正样本和所述负样本对卷积神经网络模型进行训练，训练出C_α位点预测模型，具体为：

5.根据权利要求1至3任一项所述的蛋白质冷冻电镜结构解析模型训练方法，其特征在于，根据所述正样本和所述负样本，训练出C_α位点预测模型之前，还包括：

6.一种蛋白质冷冻电镜结构解析方法，其特征在于，采用如权利要求1至6任一项所述的C_α位点预测模型、二级结构预测模型和氨基酸类型预测模型，包括：

获取待预测蛋白质电子云密度图像；

将其中心为C_α位点的所述待测子图像分别输入所述二级结构预测模型和所述氨基酸类型预测模型，预测得到每个所述C_α位点的二级结构和每个所述C_α位点的氨基酸类型；

根据所述C_α位点、每个所述C_α位点的二级结构和每个所述C_α位点的氨基酸类型，建立蛋白质主链模型。

7.根据权利要求6所述的蛋白质冷冻电镜结构解析方法，其特征在于，根据所述C_α位点、每个所述C_α位点的二级结构和每个所述C_α位点的氨基酸类型，建立蛋白质主链模型，包括：

8.根据权利要求7所述的蛋白质冷冻电镜结构解析方法，其特征在于，根据已知的氨基酸序列，结合所述C_α位点、每个所述C_α位点的二级结构和每个所述C_α位点的氨基酸类型，确定部分序列位点，包括：

9.根据权利要求7所述的蛋白质冷冻电镜结构解析方法，其特征在于，将所述待测子图像输入所述C_α位点预测模型，预测得到C_α位点之后，还包括：

采用非极大值抑制算法对所述C_α位点进行筛选；

将其中心为C_α位点的所述待测子图像分别输入所述二级结构预测模型和所述氨基酸类型预测模型，预测得到对应所述C_α位点的二级结构和对应所述C_α位点的氨基酸类型，具体为：将其中心为筛选后C_α位点的所述待测子图像分别输入所述二级结构预测模型和所述氨基酸类型预测模型，预测得到对应所述C_α位点的二级结构和对应所述C_α位点的氨基酸类型；根据所述C_α位点、每个所述C_α位点的二级结构和每个所述C_α位点的氨基酸类型，建立蛋白质主链模型，具体为：

根据筛选后的C_α位点、每个筛选后C_α位点的二级结构和每个筛选后C_α位点的氨基酸类型，建立蛋白质主链模型。

10.根据权利要求7所述的蛋白质冷冻电镜结构解析方法，其特征在于，将所述待测子图像输入所述C_α位点预测模型，预测得到C_α位点，具体为：

根据所述待预测蛋白质电子云密度图像的分辨率，将所述待测子图像输入对应分辨率的所述C_α位点预测模型，预测得到C_α位点；

将其中心为C_α位点的所述待测子图像分别输入所述二级结构预测模型和所述氨基酸类型预测模型，预测得到对应所述C_α位点的二级结构和对应所述C_α位点的氨基酸类型，具体为：根据所述待预测蛋白质电子云密度图像的分辨率，将其中心为C_α位点的所述待测子图像分别输入对应分辨率的所述二级结构预测模型和对应分辨率的所述氨基酸类型预测模型，预测得到对应所述C_α位点的二级结构和对应所述C_α位点的氨基酸类型。