CN110706738A

CN110706738A - 蛋白质的结构信息预测方法、装置、设备及存储介质

Info

Publication number: CN110706738A
Application number: CN201911042649.9A
Authority: CN
Inventors: 吴家祥; 郭宇智; 黄俊洲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-01-17
Anticipated expiration: 2039-10-30
Also published as: JP7291853B2; JP2022547041A; EP4009328A1; CN110706738B; WO2021082753A1; US20220093213A1; EP4009328A4

Abstract

本申请是关于一种蛋白质的结构信息预测方法、装置、设备及存储介质，涉及生物信息技术领域。该方法包括：通过对蛋白质的氨基酸序列在第一数据库中进行序列对齐查询，获得多序列对齐数据，并对多序列对齐数据进行特征提取，获得初始序列特征后，通过一个序列特征扩增模型对初始序列特征进行处理，获得蛋白质的扩增序列特征，然后根据扩增序列特征预测蛋白质的结构信息。上述方案能够在基于人工智能预测蛋白质的结构信息时，在保证蛋白质的结构信息的预测准确度的情况下，提高蛋白质的结构信息的预测效率。

Description

蛋白质的结构信息预测方法、装置、设备及存储介质

技术领域

本申请涉及生物信息技术领域，特别是涉及一种蛋白质的结构信息预测方法、装置、设备及存储介质。

背景技术

蛋白质在生物体中的实际作用与其三维结构存在密切的关系，因此，准确的确定蛋白质的三维结构具有很重要的意义。

由于蛋白质的三维结构本质上是由其对应的氨基酸序列信息决定的，因此，在相关技术中，可以通过蛋白质的氨基酸序列来确定蛋白质的结构信息。例如，在根据蛋白质的氨基酸序列来确定蛋白质的结构信息时，首先根据蛋白质的氨基酸序列，在一个氨基酸序列数据库中进行多序列对齐数据查询操作，以提取该蛋白质的氨基酸序列的序列特征，然后根据序列特征预测该蛋白质的结构信息。其中，上述序列特征提取的准确性与数据库的数据规模直接相关，氨基酸序列数据库的数据规模越大，则序列特征提取的准确性越高。

然而，在上述相关技术中，若要提取较为准确的序列特征，就需要基于数据规模较大的数据库进行查询操作，而数据规模较大的数据库会导致查询操作需要消耗较长时间，进而导致蛋白质的结构信息的预测效率较低。

发明内容

本申请实施例提供了一种蛋白质的信息结构预测方法、装置、设备及存储介质，可以在保证蛋白质的结构信息的预测准确度的情况下，提高蛋白质的结构信息的预测效率，技术方案如下：

一方面，提供了一种蛋白质的信息结构预测方法，所述方法包括：

根据蛋白质的氨基酸序列在第一数据库中进行序列对齐查询，获得多序列对齐数据；

对所述多序列对齐数据进行特征提取，获得初始序列特征；

通过序列特征扩增模型对所述初始序列特征进行处理，获得所述蛋白质的扩增序列特征；所述序列特征扩增模型是通过初始序列特征样本和扩增序列特征样本训练获得的机器学习模型；所述初始序列特征样本是根据所述氨基酸序列样本在所述第一数据库中进行序列对齐查询获得的，所述扩增序列特征样本是根据所述氨基酸序列样本在第二数据库中进行序列对齐查询获得的；所述第二数据库的数据规模大于所述第一数据库的数据规模；

通过所述扩增序列特征预测所述蛋白质的结构信息。

一方面，提供了一种蛋白质结构信息预测装置，所述装置包括：

数据获取模块，用于根据蛋白质的氨基酸序列在第一数据库中进行序列对齐查询，获得多序列对齐数据；

初始特征获取模块，用于对所述多序列对齐数据进行特征提取，获得初始序列特征；

扩增特征获取模块，用于通过序列特征扩增模型对所述初始序列特征进行处理，获得所述蛋白质的扩增序列特征；所述序列特征扩增模型是通过初始序列特征样本和扩增序列特征样本训练获得的机器学习模型；所述初始序列特征样本是根据所述氨基酸序列样本在所述第一数据库中进行序列对齐查询获得的，所述扩增序列特征样本是根据所述氨基酸序列样本在第二数据库中进行序列对齐查询获得的；所述第二数据库的数据规模大于所述第一数据库的数据规模；

结构信息预测模块，用于通过所述扩增序列特征预测所述蛋白质的结构信息。

在一种可能的实现方式中，所述序列特征扩增模型是针对一维序列数据的全卷积神经网络、由多层长短期记忆(Long Short-Term Memory，LSTM)单元构成的循环神经网络模型或者由双向LSTM单元构成的循环神经网络。

在一种可能的实现方式中，所述初始序列特征和所述扩增序列特征为位置特异性得分矩阵。

在一种可能的实现方式中，所述第一数据库和所述第二数据库之间的数据分布相似度高于相似度阈值。

在一种可能的实现方式中，所述第一数据库是在所述第二数据库的基础上随机剔除指定比例的数据后获得的数据库。

在一种可能的实现方式中，所述装置还包括：

扩增样本获取模块，用于通过所述序列特征扩增模型对所述初始序列特征样本进行处理，获得扩增后的初始序列特征样本；

模型更新模块，用于根据所述扩增后的初始序列特征样本，以及所述扩增序列特征样本，对所述序列特征扩增模型进行更新。

在一种可能的实现方式中，所述模型更新模块，包括：

损失函数获取子模块，用于根据所述扩增后的初始序列特征样本，以及所述扩增序列特征样本进行损失函数计算，获得损失函数值；

参数更新子模块，用于根据所述损失函数值对所述序列特征扩增模型中的模型参数进行更新。

在一种可能的实现方式中，所述损失函数获取子模块，包括：

误差计算单元，用于计算所述扩增后的初始序列特征样本与所述扩增序列特征样本之间的重构误差；

损失函数获取单元，用于将所述重构误差获取为所述损失函数值。

在一种可能的实现方式中，所述误差计算单元计算所述扩增后的初始序列特征样本与所述扩增序列特征样本之间的均方根重构误差。

在一种可能的实现方式中，所述模型更新模块，用于，

当根据所述损失函数值确定所述序列特征扩增模型未收敛时，根据所述损失函数值对所述序列特征扩增模型中的模型参数进行更新。

在一种可能的实现方式中，所述结构信息预测模块，包括：

结构信息获取子模块，用于通过蛋白质结构信息预测模型对所述扩增序列特征进行预测，获得所述蛋白质的结构信息；

其中，所述蛋白质结构信息预测模型是根据蛋白质样本的序列特征，以及所述蛋白质样本的结构信息训练获得的模型。

一方面，提供了一种计算机设备，该计算机设备包含处理器和存储器，存储器中存储由至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述蛋白质的结构信息预测方法。

一方面，提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述蛋白质的结构信息预测方法。

本申请提供的技术方案可以包括以下有益效果：

通过对蛋白质的氨基酸序列在第一数据库中进行序列对齐查询，获得多序列对齐数据，并对多序列对齐数据进行特征提取，获得初始序列特征后，通过一个序列特征扩增模型对初始序列特征进行处理，获得蛋白质的扩增序列特征，然后根据扩增序列特征预测蛋白质的结构信息；由于序列特征扩增模型是根据同一个氨基酸序列样本在第一数据库以及数据规模更大的第二数据库中查询得到序列特征样本训练获得的，因此，通过序列特征扩增模型处理后得到的扩增序列特征可以接近蛋白质的氨基酸序列在第二数据库中进行序列对齐查询得到的序列特征，也就是说，上述方案借助于序列特征扩增模型，只需要在数据规模较小的第一数据库进行序列对齐查询，即可以获得较高的预测准确性，同时，在数据规模较小的第一数据库进行序列对齐查询所消耗的时间更少，因此，上述方案能够在保证蛋白质的结构信息的预测准确度的情况下，提高蛋白质的结构信息的预测效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请一个示例性的实施例提供的一种模型训练及蛋白质结构信息预测框架图；

图2是本申请一个示例性的实施例提供的一种机器学习模型的模型架构图；

图3是本申请一个示例性的实施例提供的一种蛋白质的结构信息预测方法的流程示意图；

图4是本申请一个示例性的实施例提供的机器学习模型训练和蛋白质的结构信息预测方法的流程示意图；

图5是图4所示实施例涉及的一种序列特征自动扩增模型训练的示意图；

图6是图4所示实施例涉及的一种蛋白质结构信息预测的示意图；

图7是根据一示例性实施例示出的蛋白质的结构信息预测装置的结构方框图；

图8是根据一示例性实施例示出的计算机设备的结构示意图；

图9是根据一示例性实施例示出的终端的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“若干个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请提供一种蛋白质的结构信息预测方法，可以通过人工智能(ArtificialIntelligence，AI)识别蛋白质的结构信息，从而提供一种高效并且高准确率的蛋白质的结构信息预测方案。为了便于理解，下面对本申请涉及的几个名词进行解释。

1)氨基酸序列

氨基酸，是羧酸碳原子上的氢原子被氨基取代后的化合物，氨基酸分子中含有氨基和羧基两种官能团。与羟基酸类似，氨基酸可按照氨基连在碳链上的不同位置而分为α-，β-，γ-...w-氨基酸，但经蛋白质水解后得到的氨基酸都是α-氨基酸，而且仅有二十几种，他们是构成蛋白质的基本单位。20种氨基酸是指甘氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、苯丙氨酸、脯氨酸、色氨酸、丝氨酸、酪氨酸、半胱氨酸、蛋氨酸、天冬酰胺、谷氨酰胺、苏氨酸、天冬氨酸、谷氨酸、赖氨酸、精氨酸和组氨酸这20种组成人体蛋白质的氨基酸。由这20个氨基酸分子脱水缩合而成含有多个肽键的化合物叫做多肽。多肽通常呈链状结构称为肽链。肽链通过盘曲、折叠，可以形成有一定空间结构的蛋白质分子。

2)蛋白质结构

蛋白质结构是指蛋白质分子的空间结构。蛋白质主要由碳、氢、氧、氮等化学元素组成，是一类重要的生物大分子，所有蛋白质都是由20种不同氨基酸连接形成的多聚体，在形成蛋白质后，这些氨基酸又被称为残基。

蛋白质的分子结构可划分为四级，以描述其不同的方面：

一级结构：组成蛋白质多肽链的线性氨基酸序列。

二级结构：依靠不同氨基酸之间的C＝O和N-H基团间的氢键形成的稳定结构，主要为α螺旋和β折叠。

三级结构：通过多个二级结构元素在三维空间的排列所形成的一个蛋白质分子的三维结构。

四级结构：用于描述由不同多肽链(亚基)间相互作用形成具有功能的蛋白质复合物分子。

3)人工智能

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

4)机器学习(Machine Learning，ML)

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例的方案包括模型训练阶段和预测阶段。图1是根据一示例性实施例示出的一种模型训练及蛋白质结构信息预测框架图。如图1所示，在模型训练阶段，模型训练设备110通过对同一蛋白质对应的氨基酸序列在不同规模的数据库上进行多序列对齐数据查询操作以及序列特征提取操作的结果训练出机器学习模型，在预测阶段，预测设备120根据训练好的机器学习模型以及输入的氨基酸序列可以预测出该氨基酸序列对应的蛋白质的结构信息。

其中，上述模型训练设备110和预测设备120可以是具有机器学习能力的计算机设备，比如，该计算机设备可以是个人电脑、服务器以及固定式科研设备等固定式计算机设备，或者，该计算机设备也可以是平板电脑、电子书阅读器等移动式计算机设备。

可选的，上述模型训练设备110和预测设备120可以是同一个设备，或者，模型训练设备110和预测设备120也可以是不同的设备。并且，当模型训练设备110和预测设备120是不同的设备时，模型训练设备110和预测设备120可以是同一类型的设备，比如模型训练设备110和预测设备120可以都是个人电脑；或者，模型训练设备110和预测设备120也可以是不同类型的设备，比如模型训练设备110可以是服务器，而预测设备120可以是固定式科研实验设备等。本申请实施例对于模型训练设备110和预测设备120的具体类型不做限定。

图2是根据一示例性实施例实施例示出的一种机器学习模型的模型架构图。如图2所示，本申请实施例中的机器学习模型20可以包含两个模型，其中序列特征扩增模型210用于将输入的序列特征进行自动扩增，输出得到扩增后的序列特征。该序列特征扩增模型210除了输出扩增后的序列特征之外，还将扩增后的序列特征输入到蛋白质结构信息预测模型220，该蛋白质结构信息预测模型220，用于根据序列特征扩增模型210输入的扩增后的序列特征进行蛋白质结构信息预测，并输出蛋白质结构信息的预测结果。

在上述图2所示的机器学习模型中，蛋白质的结构信息预测并不是仅通过单一数据库中经过多序列对齐数据查询提取出的特征序列作为输入蛋白质结构信息预测模型中的数据，而是将经过扩增之后的序列特征作为预测蛋白质结构信息的输入数据，相比于单个数据库比对得到的序列特征来说，经过自动扩增的序列特征对蛋白质结构信息预测的准确性更高。

请参考图3，其示出了本申请一个示例性的实施例提供的蛋白质的结构信息预测方法的流程示意图。该蛋白质的结构信息预测方法可以由计算机设备执行，比如上述图1所示的预测设备120中。如图3所示，该蛋白质的结构信息预测方法可以包括如下步骤：

步骤310，根据蛋白质的氨基酸序列在第一数据库中进行序列对齐查询，获得多序列对齐数据。

在本申请实施例中，多序列对齐数据可以通过序列对齐操作来获得。

其中，序列对齐是指通过多个氨基酸序列进行对齐，并将其中的相似的结构区域突出显示，通过比较已知构成的蛋白质结构和功能的氨基酸序列与未知构成的蛋白质结构和功能的氨基酸序列之间的同源性，以便后续进行未知的氨基酸序列构成的蛋白质结构和功能的预测。

可选的，第一数据库是包含有若干种氨基酸序列的数据库。

步骤320，对该多序列对齐数据进行特征提取，获得初始序列特征。

在本申请实施例中，预测设备可以将每一条氨基酸序列通过使用特定位置的迭代基本局部对齐搜索工具(Position-Specific Iterative Basic Local Alignment SearchTool，PSI-BLAST)获取第一数据库中经过多序列对齐数据查询操作得到的同源序列，然后比对各个序列的同源信息得到位置特异性得分矩阵(Position-Specific ScoringMatrices，PSSM)，该位置特异性得分矩阵即可以作为上述序列特征。

其中，位置特异性得分矩阵可以表示为将氨基酸序列进行多序列对齐后，得到的一个在对应位置的氨基酸出现的频率值，或者是每一个对应位置上显示每种氨基酸的频率，或者是每一个对应位置上显示每种氨基酸的概率等。

步骤330，通过序列特征扩增模型对该初始序列特征进行处理，获得该蛋白质的扩增序列特征。

在本申请实施例中，预测设备可以将上述初始序列特征输入至序列特征扩增模型，由序列特征扩增模型对初始序列特征进行特征扩增，即在初始序列特征中增加新的特征，得到一个特征更为全面的扩增序列特征。

其中，该序列特征扩增模型是通过初始序列特征样本和扩增序列特征样本训练获得的机器学习模型；该初始序列特征样本是根据该氨基酸序列样本在该第一数据库中进行序列对齐查询获得的，该扩增序列特征样本是根据该氨基酸序列样本在第二数据库中进行序列对齐查询获得的；该第二数据库的数据规模大于该第一数据库的数据规模。

在本申请实施例中，在上述序列特征扩增模型的训练过程中，可以将初始序列特征样本可以作为序列特征扩增模型的输入，并将扩增序列特征样本可以作为初始序列特征样本的标注数据，对序列特征扩增模型进行训练。

在本申请实施例中，序列特征扩增模型可以是针对一维序列数据的全卷积神经网络模型(Fully Convolutional Networks for Semantic Segmentation，FCN)。

其中，卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。它包括卷积层(convolutional layer)和池化层(pooling layer)。从CNN发展到FCN，通常CNN网络在卷积层之后会接上若干个全连接层,将卷积层产生的特征图(feature map)映射成一个固定长度的特征向量。

可选的，序列特征扩增模型可以是由多层长短期记忆LSTM单元构成的循环神经网络模型或者由双向LSTM单元构成的循环神经网络模型。

其中，循环神经网络(Recurrent Neural Network,RNN)是一类以序列数据为输入，在序列的演进方向进行递归且所有节点，即循环单元按链式连接的递归神经网络。

步骤340，通过该扩增序列特征预测该蛋白质的结构信息。

在本申请实施例中，预测设备预测蛋白质的结构信息，可以包括但不限于预测蛋白质的主链二面角和/或蛋白质的二级结构信息等。

其中，二面角为两相邻酰胺平面之间，能以共同的Ca为定点而旋转，绕Ca-N键旋转的角度称为

角，绕C-Ca键旋转的角度称为ψ角。其中，

角和ψ角称作二面角。在蛋白质中，只有α-碳原子连接的两个键，即Ca-N键和C-Ca键是单键，能够自由旋转。肽链的主链可以看成是由被Ca隔开的许多平面组成的，二面角决定了两个肽平面的相对位置，也就是决定了肽链主链的位置与构象。

蛋白质二级结构是指多肽主链骨架原子沿一定的轴盘旋或折叠而形成的特定的构象，即肽链主链骨架原子的空间位置排布，不涉及氨基酸残基侧链。蛋白质二级结构的主要形式包括α-螺旋、β-折叠、β-转角和无规卷曲。由于蛋白质的分子量较大，因此，一个蛋白质分子的不同肽段可含有不同形式的二级结构。在蛋白质中，维持二级结构的主要作用力为氢键。一种蛋白质的二级结构并非单纯的α螺旋或β折叠结构，还包括这些不同类型构象的组合，不同的蛋白质中，不同类型构象的占比也可能各不相同。

综上所述，在本申请实施例所示的方案中，通过对蛋白质的氨基酸序列在第一数据库中进行序列对齐查询，获得多序列对齐数据，并对多序列对齐数据进行特征提取，获得初始序列特征后，通过一个序列特征扩增模型对初始序列特征进行处理，获得蛋白质的扩增序列特征，然后根据扩增序列特征预测蛋白质的结构信息；由于序列特征扩增模型是根据同一个氨基酸序列样本在第一数据库以及数据规模更大的第二数据库中查询得到序列特征样本训练获得的，因此，通过序列特征扩增模型处理后得到的扩增序列特征可以接近蛋白质的氨基酸序列在第二数据库中进行序列对齐查询得到的序列特征，也就是说，上述方案借助于序列特征扩增模型，只需要在数据规模较小的第一数据库进行序列对齐查询，即可以获得较高的预测准确性，同时，在数据规模较小的第一数据库进行序列对齐查询所消耗的时间更少，因此，上述方案能够在保证蛋白质的结构信息的预测准确度的情况下，提高蛋白质的结构信息的预测效率。

请参考图4，其示出了本申请一个示例性的实施例提供的机器学习模型训练和蛋白质的结构信息预测方法的流程示意图。该方案分为机器学习模型训练和蛋白质的结构信息预测两部分，该机器学习模型训练和蛋白质的结构信息预测方法可以由计算机设备执行，其中，该计算机设备可以包括上述图1所示的训练设备110和预测设备120。如图4所示，该机器学习模型训练和蛋白质的结构信息预测方法可以包括如下步骤：

步骤401，训练设备根据氨基酸序列样本在第一数据库中进行序列对齐查询，根据查询结果获得初始序列特征样本。

在本申请实施例中，训练设备可以根据氨基酸序列样本在第一数据库中进行序列对齐查询，获得多序列对齐数据，然后对多序列对齐数据进行特征提取，获得上述初始序列特征样本。

在本申请实施例中，某一蛋白质的氨基酸序列，可以由多种氨基酸(比如，由已知20种基本氨基酸)构成。上述氨基酸序列样本可以是目前已知的蛋白质的氨基酸序列，或者，上述氨基酸序列样本也可以是随机或者按照一定的规则生成的氨基酸序列。

可选的，上述氨基酸序列样本可以包括蛋白质结构信息已知的氨基酸序列，也可以包括蛋白质结构信息未知的氨基酸序列，或者，也可以同时包括蛋白质结构信息已知的氨基酸序列和蛋白质结构信息未知的氨基酸序列。

步骤402，训练设备根据氨基酸序列样本在第二数据库中进行序列对齐查询，根据查询结果获得扩增序列特征样本。

在本申请实施例中，训练设备可以根据氨基酸序列样本在第二数据库中进行序列对齐查询，获得多序列对齐数据，然后对多序列对齐数据进行特征提取，获得上述扩增序列特征样本。

其中，训练设备通过相同的氨基酸序列样本，分别从第一数据库和第二数据库中获取初始序列特征样本和扩增序列特征样本，且初始序列特征样本和扩增序列特征样本是一一对应的。

其中，上述初始序列特征样本和扩增序列特征样本可以是按照相同的特征提取算法提取出的序列特征，比如，上述初始序列特征样本和扩增序列特征样本可以都是位置特异性得分矩阵，且矩阵中的元素类型相同。

其中，上述第二数据库的数据规模大于第一数据库的数据规模。

在本申请实施例中，第一数据库和第二数据库分别是氨基酸序列数据库，每个数据库中分别包含若干条氨基酸序列，并且，第二数据库中包含的氨基酸序列的数量大于第一数据库中包含的氨基酸序列的数量。

可选的，上述第一数据库和第二数据库之间的数据分布相似度高于相似度阈值。

在本申请实施例中，为了提高后续的序列特征扩增模型的训练的准确性，上述第一数据库和第二数据库可以使用数据分布相似的数据库，也就是说，第一数据库和第二数据库之间的数据分布的相似度，需要高于预定的相似度阈值。

其中，上述相似度阈值可以是开发人员预先设置的数值。

可选的，第一数据库和第二数据库可以分别是同一种数据库的不同数据规模的数据库。例如，上述数据库可以是已有的数据分布相似的两个数据库，比如，上述第一数据库和第二数据库可以是数据规模不同的UniRef数据库；或者上述第一数据库和第二数据库可以是UniProtKB数据库中的Swiss-Prot和TrEMBL这两个数据库。

其中，UniRef数据库根据数据库的同一性可以分为三个级别:100％、90％和50％，分别为UniRef100，UniRef90和UniRef50数据库，UniRef100、UniRef90和UniRef50这三个数据库的数据量分别在完整的数据库的基础上减少10％、40％和70％。

可选的，上述第一数据库可以是UniRef50数据库，第二数据库可以是UniRef90或者UniRef100数据库(UniRef50数据库的数据规模小于UniRef90或者UniRef100数据库的数据规模)。或者，第一数据库可以是UniRef90数据库，第二数据库可以是UniRef100数据库。

在另一种可能的实现方式中，上述第一数据库是在第二数据库的基础上随机剔除指定比例的数据后获得的数据库。

其中，上述指定比例可以是开发人员预先设置的比例。

在本申请实施例中，训练设备可以在第二数据库的基础上，随机剔除指定比例(比如50％)的氨基酸序列，得到第一数据库。

比如，上述第二数据库可以是已有的数据库。例如，第二数据库可以是上述UniRef90数据库(也可以是其它已有的数据库)，训练设备在UniRef90数据库中随即剔除一般氨基酸序列，得到上述第一数据库。

步骤403，训练设备通过序列特征扩增模型对该初始序列特征样本进行处理，获得扩增后的初始序列特征样本。

在本申请实施例中，通过序列特征扩增模型对该初始序列特征样本进行处理，获得扩增后的初始序列特征样本的过程，与上述图3所示实施例中获取扩增序列特征的过程类似，此处不再赘述。

与上述图3所示的实施例不同的时，本步骤中的序列特征扩增模型可以是尚未完成训练的模型。

步骤404，训练设备根据该扩增后的初始序列特征样本，以及该扩增序列特征样本，对该序列特征扩增模型进行更新。

在本申请实施例中，训练设备根据该扩增后的初始序列特征样本，以及该扩增序列特征样本进行损失函数计算，获得损失函数值。然后，训练设备根据该损失函数值对该序列特征扩增模型中的模型参数进行更新。

在一种可能的实现方式中，训练设备可以通过计算该扩增后的初始序列特征样本与该扩增序列特征样本之间的重构误差，并将该重构误差获取为该损失函数值。

可选的，上述重构误差可以是均方根重构误差，也就是说，在获取重构误差时，训练设备可以计算扩增后的初始序列特征样本与扩增序列特征样本之间的均方根重构误差，并将均方根重构误差获取为上述损失函数值。

比如，记氨基酸序列样本长度为L，特征维度为D，自动扩增后的初始序列特征样本为x，参考序列特征(即扩增序列特征样本)为z，则x和z都是大小为L×D的矩阵。自动扩增后的初始序列特征样本与参考序列特征之间的重构误差可以通过均方根重构误差计算方式获得，其计算公式为：

其中，x_ij和z_ij分别是矩阵x和矩阵z中第i行第j列的元素。

比如，上述模型训练过程可以如图5所示。请参考图5，其示出了本申请实施例涉及的一种序列特征扩增模型训练的示意图。如图5所示，序列特征扩增模型的训练过程如下：

S51，训练设备获取一条氨基酸序列样本，并且在UniRef50数据库上进行该氨基酸序列样本的多序列对齐数据查询操作，得到多序列对齐数据结果。

S52，训练设备将S51的多序列对齐数据结果进行特征提取，获得自动扩增前的序列特征，也可以称为初始序列特征样本。

S53，训练设备将上述的氨基酸序列样本在UniRef90数据库上进行该氨基酸序列的多序列对齐数据查询操作，得到多序列对齐数据结果.

S54，训练设备将S53的多序列对齐数据结果进行特征提取，获得参考序列特征，也可以称为扩增序列特征样本。

S55，训练设备将初始序列特征样本输入到序列特征扩增模型中。

S56，序列特征扩增模型输出扩增后的序列特征，可以称为扩增后的初始序列特征样本。

S57，训练设备根据公式计算出扩增后的序列特征与参考序列特征之间的重构误差作为损失函数，根据损失函数对序列特征扩增模型进行训练更新。

可选的，当根据该损失函数值确定该序列特征扩增模型未收敛时，训练设备根据该损失函数值对该序列特征扩增模型中的模型参数进行更新。

在上述步骤404执行之前，训练设备可以根据损失函数值判断模型是否收敛，如果序列特征扩增模型已经收敛，则训练设备可以结束训练，并将序列特征扩增模型输出给预测设备进行蛋白质的结构信息的预测。

反之，如果判断出序列特征扩增模型未收敛，则训练设备可以根据该损失函数值对该序列特征扩增模型中的模型参数进行更新。

在一种可能的实现方式中，在判断模型是否收敛时，训练设备可以将上述损失函数值与预设的损失函数阈值进行比较，如果损失函数值小于损失函数阈值，则说明序列特征扩增模型输出的结果已经接近于从第二数据库中查询获得的结果，说明序列特征扩增模型能够达到较好的特征扩增效果，此时可以判定模型已经收敛；反之，如果损失函数值不小于损失函数阈值，则说明序列特征扩增模型输出的结果与从第二数据库中查询获得的结果差距较大，说明序列特征扩增模型尚未能够达到较好的特征扩增效果，此时可以判定模型未收敛。

在另一种可能的实现方式中，在判断模型是否收敛时，训练设备可以将上述损失函数值与前一轮更新过程中得到的损失函数值进行比较，如果本次获得的损失函数值与前一轮得到的损失函数值之间的差值小于差值阈值，则说明序列特征扩增模型的准确性提升较小，再继续训练也无法达到明显提升，此时，可以判定模型已经收敛；反之，如果本次获得的损失函数值与前一轮得到的损失函数值之间的差值不小于差值阈值，则说明序列特征扩增模型的准确性提升较大，再继续训练可能还有明显提升，此时，可以判定模型未收敛。

在另一种可能的实现方式中，在判断模型是否收敛时，训练设备可以将上述损失函数值与前一轮更新过程中得到的损失函数值进行比较，同时将本次获得的损失函数值与损失函数阈值进行比较，如果损失函数值小于损失函数阈值，并且本次获得的损失函数值与前一轮得到的损失函数值之间的差值小于差值阈值，则可以判定模型已经收敛。

在上述序列特征扩增模型训练完成(即模型训练至收敛后)，预测设备即可以根据该序列特征扩增模型，以及上述第一数据库，对结构未知的蛋白质进行结构信息预测。该预测过程可以参考后续步骤。

步骤405，预测设备根据蛋白质的氨基酸序列在第一数据库中进行序列对齐查询，获得多序列对齐数据。

其中，本步骤中的蛋白质可以是需要进行结构信息预测的蛋白质。

步骤406，预测设备对该多序列对齐数据进行特征提取，获得初始序列特征。

步骤407，预测设备通过序列特征扩增模型对该初始序列特征进行处理，获得该蛋白质的扩增序列特征。

其中，上述步骤405至步骤407的过程可以参考上述图3所示实施例中的描述，此处不再赘述。

步骤408，通过该扩增序列特征预测该蛋白质的结构信息。

在本申请实施例中，预测设备可以通过蛋白质结构信息预测模型对该扩增序列特征进行预测，获得该蛋白质的蛋白质结构信息；其中，该蛋白质结构信息预测模型是根据蛋白质样本的序列特征，以及该蛋白质样本的结构信息训练获得的模型。

可选的，上述蛋白质结构信息预测模型也可以是已有的，由其它计算机设备训练好的机器学习模型。

在本申请实施例中，预测蛋白质的结构信息所使用的蛋白质结构信息预测模型也可以是一个经过机器学习获得的模型。

例如，训练设备可以获取若干个结构信息已知的蛋白质样本，以及各个蛋白质样本的氨基酸序列；然后，训练设备根据蛋白质样本的氨基酸序列，在第三数据库中进行序列对齐查询，获得多序列对齐数据，并对查询获得的多序列对齐数据进行特征提取，获得蛋白质样本的序列特征；再以蛋白质样本的序列特征为输入，以蛋白质样本的结构信息作为标注信息，对上述蛋白质结构信息预测模型进行训练。在蛋白质结构信息预测模型训练完成后，即可以应用到本步骤中，由预测设备根据待预测的蛋白质的扩增序列特征以及蛋白质结构信息预测模型预测该蛋白质的结构信息。

在本申请实施例中，为了提高根据待预测的蛋白质的扩增序列特征以及蛋白质结构信息预测模型预测该蛋白质的结构信息的准确性，可以使用上述第二数据库作为蛋白质结构信息预测模型训练过程中使用的数据库(即第三数据库)，也就是说，上述第二数据库与第三数据库可以是同一个数据库。

可选的，上述第二数据库与第三数据库也可以是不同的数据，比如，第三数据库可以是数据规模比第二数据库更大的数据库，且第二数据库与第三数据库之间的数据分布相似度高于相似度阈值。比如，第二数据库可以是UniRef90数据库，第三数据库可以是UniRef100数据库。

请参考图6，其示出了本申请实施例涉及的一种蛋白质结构信息预测的示意图。如图6所示，蛋白质结构信息预测的过程如下：

S61，预测设备获取一条氨基酸序列，并且在UniRef50数据库上进行该氨基酸序列的多序列对齐数据查询操作，得到多序列对齐数据结果。

S62，预测设备将多序列对齐数据结果进行特征提取，获得自动扩增前的序列特征。

S63，预测设备将自动扩增前的序列特征输入到训练过的序列特征扩增模型中。

S64，序列特征扩增模型输出自动扩增后的序列特征。

S65，预测设备将自动扩增后的序列特征输入到蛋白质结构信息预测模型中。

S66，蛋白质结构信息预测模型输出该氨基酸序列对应的蛋白质结构信息预测结果。

在本申请实施例所示的方案中，上述训练设备和预测设备可以是同一个计算机设备，即该计算机设备先训练获得上述序列特征扩增模型，再根据序列特征扩增模型进行蛋白质的结构信息预测。

或者，上述训练设备和预测设备也可以是不同的计算机设备，即训练设备先训练获得上述序列特征扩增模型，将该序列特征扩增模型提供给预测设备，并由预测设备根据序列特征扩增模型进行蛋白质的结构信息预测。

图7是根据一示例性实施例示出的蛋白质的结构信息预测装置的结构方框图。该蛋白质的结构信息预测装置可以通过硬件或者软硬结合的方式实现为计算机设备中的全部或者部分，以执行图3或图4对应实施例所示的方法的全部或部分步骤。该蛋白质的结构信息预测装置可以包括：

数据获取模块710，用于根据蛋白质的氨基酸序列在第一数据库中进行序列对齐查询，获得多序列对齐数据；

初始特征获取模块720，用于对所述多序列对齐数据进行特征提取，获得初始序列特征；

扩增特征获取模块730，用于通过序列特征扩增模型对所述初始序列特征进行处理，获得所述蛋白质的扩增序列特征；所述序列特征扩增模型是通过初始序列特征样本和扩增序列特征样本训练获得的机器学习模型；所述初始序列特征样本是根据所述氨基酸序列样本在所述第一数据库中进行序列对齐查询获得的，所述扩增序列特征样本是根据所述氨基酸序列样本在第二数据库中进行序列对齐查询获得的；所述第二数据库的数据规模大于所述第一数据库的数据规模；

结构信息预测模块740，用于通过所述扩增序列特征预测所述蛋白质的结构信息。

在一种可能的实现方式中，所述序列特征扩增模型是针对一维序列数据的全卷积神经网络、由多层长短期记忆LSTM单元构成的循环神经网络模型或者由双向LSTM单元构成的循环神经网络。

在一种可能的实现方式中，所述装置还包括：

在一种可能的实现方式中，所述模型更新模块，包括：

在一种可能的实现方式中，所述模型更新模块，用于，

在一种可能的实现方式中，所述结构信息预测模块740，包括：

图8是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备可以实现为上述各个实施例中的训练设备或者预测设备，或者，也可以实现为训练设备和预测设备的结合。图1所示的实施环境中的服务器140。所述计算机设备800包括中央处理单元(CPU)801、包括随机存取存储器(RAM)802和只读存储器(ROM)803的系统存储器804，以及连接系统存储器804和中央处理单元801的系统总线805。所述服务器800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)806，和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。

所述基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中所述显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。所述基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。所述大容量存储设备807及其相关联的计算机可读介质为服务器800提供非易失性存储。也就是说，所述大容量存储设备807可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。

服务器800可以通过连接在所述系统总线805上的网络接口单元811连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器801通过执行该一个或一个以上程序来实现图2或4所示的路径规划方法中，由计算机设备所执行的步骤。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的方法。

图9示出了本申请一个示例性实施例提供的终端900的结构框图。该终端900可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。其中，上述终端可以实现为上述各个方法实施例中的预测设备。比如，可以实现为图1中的预测设备120。

通常，终端900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的蛋白质的结构信息的预测预测方法。

在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、触摸显示屏905、摄像头906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏905用于显示UI(UserInterface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制触摸显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或触摸显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户对终端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在触摸显示屏905的下层时，由处理器901根据用户对触摸显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制触摸显示屏905的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏905的显示亮度；当环境光强度较低时，调低触摸显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时，由处理器901控制触摸显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时，由处理器901控制触摸显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图3或图4所述的蛋白质的结构信息预测方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种蛋白质的结构信息预测方法，其特征在于，所述方法包括：

对所述多序列对齐数据进行特征提取，获得初始序列特征；

通过所述扩增序列特征预测所述蛋白质的结构信息。

2.根据权利要求1所述的方法，其特征在于，

所述序列特征扩增模型是针对一维序列数据的全卷积神经网络、由多层长短期记忆LSTM单元构成的循环神经网络模型或者由双向LSTM单元构成的循环神经网络。

3.根据权利要求1所述的方法，其特征在于，所述初始序列特征和所述扩增序列特征为位置特异性得分矩阵。

4.根据权利要求1所述的方法，其特征在于，所述第一数据库和所述第二数据库之间的数据分布相似度高于相似度阈值。

5.根据权利要求4所述的方法，其特征在于，所述第一数据库是在所述第二数据库的基础上随机剔除指定比例的数据后获得的数据库。

6.根据权利要求1至5任一所述的方法，其特征在于，所述根据蛋白质的氨基酸序列在第一数据库中进行序列对齐查询，获得多序列对齐数据之后，还包括：

通过所述序列特征扩增模型对所述初始序列特征样本进行处理，获得扩增后的初始序列特征样本；

根据所述扩增后的初始序列特征样本，以及所述扩增序列特征样本，对所述序列特征扩增模型进行更新。

7.根据权利要求6所述的方法，其特征在于，所述根据所述扩增后的初始序列特征样本，以及所述扩增序列特征样本，对所述序列特征扩增模型进行更新，包括：

根据所述扩增后的初始序列特征样本，以及所述扩增序列特征样本进行损失函数计算，获得损失函数值；

根据所述损失函数值对所述序列特征扩增模型中的模型参数进行更新。

8.根据权利要求7所述的方法，其特征在于，所述根据所述扩增后的初始序列特征样本，以及所述扩增序列特征样本进行损失函数计算，获得损失函数值，包括：

计算所述扩增后的初始序列特征样本与所述扩增序列特征样本之间的重构误差；

将所述重构误差获取为所述损失函数值。

9.根据权利要求8所述的方法，其特征在于，所述计算所述扩增后的初始序列特征样本与所述扩增序列特征样本之间的重构误差，包括：

计算所述扩增后的初始序列特征样本与所述扩增序列特征样本之间的均方根重构误差。

10.根据权利要求7所述的方法，其特征在于，所述根据所述损失函数值对所述序列特征扩增模型中的模型参数进行更新，包括：

11.根据权利要求1至5任一所述的方法，其特征在于，所述通过所述扩增序列特征预测所述蛋白质的结构信息，包括：

通过蛋白质结构信息预测模型对所述扩增序列特征进行预测，获得所述蛋白质的结构信息；

12.一种蛋白质的结构信息预测装置，其特征在于，所述装置包括：

13.根据权利要求12所述的装置，其特征在于，所述序列特征扩增模型是针对一维序列数据的全卷积神经网络、由多层长短期记忆LSTM单元构成的循环神经网络模型或者由双向LSTM单元构成的循环神经网络。

14.一种计算机设备，其特征在于，计算机设备包含处理器和存储器，所述存储器中存储由至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的蛋白质结构信息预测方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的蛋白质结构信息预测方法。