CN109147868B

CN109147868B - 蛋白质功能预测方法、装置、设备及存储介质

Info

Publication number: CN109147868B
Application number: CN201810800467.2A
Authority: CN
Inventors: 杜智华; 贺宇峰
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2022-03-22
Anticipated expiration: 2038-07-18
Also published as: CN109147868A

Abstract

本发明适用生物信息技术领域，提供了一种蛋白质功能预测方法、装置、设备及存储介质，该方法包括：获取待预测的蛋白质序列，对该蛋白质序列进行划分，获得相应的氨基酸片段，在训练好的词典中查询氨基酸片段对应的词向量，根据这些词向量生成蛋白质序列的特征值，根据蛋白质序列的特征值和训练好的机器学习模型，对蛋白质序列进行功能预测，生成并输出蛋白质序列的功能，从而通过获得蛋白质序列具有上下文特性的特征值并对这些特征值进行机器学习，有效地提高了蛋白质功能预测的准确性和效率，提高了蛋白质功能预测的效果。

Description

蛋白质功能预测方法、装置、设备及存储介质

技术领域

本发明属于生物信息技术领域，尤其涉及一种蛋白质功能预测方法、装置、设备及存储介质。

背景技术

生物信息目前主要的研究对象为基因和蛋白质，由于基因序列和蛋白质序列的杂乱无序，导致利用传统试验方法时，若未收录个体则难以判断其具体功能及其各项生化属性。在生物信息的各个研究领域中，蛋白质功能预测一直很难达到较高的准确度，主要的预测方法是利用基因本体联合会(Gene Onotology Consortium)建立的基因本体对蛋白质数据库中各项蛋白质进行注释后，再根据蛋白质本身特征化之后的属性建立预测模型，最终通过该预测模型对未收录个体进行功能预测。

目前，建立用于蛋白质功能预测的预测模型的最有效方法为机器学习的各种方法，然而现有的这些方法都有一个显著缺点：基于蛋白质序列的相关算法，均把蛋白质的序列视作自然语言，将其直接放入机器学习算法，例如卷积神经网络，任由神经网络对序列进行处理，而蛋白质并非是简单的序列-结构-功能体系，由此不能完全领会蛋白质序列中上文，影响机器学习算法的预测准确度。

发明内容

本发明的目的在于提供一种蛋白质功能预测方法、装置、设备及存储介质，旨在解决由于现有技术无法提供一种有效的蛋白质功能预测方法，导致蛋白质功能预测准确度不高的问题。

一方面，本发明提供了一种蛋白质功能预测方法，所述方法包括下述步骤：

当接收到蛋白质功能预测请求时，获取用户输入的、待预测的蛋白质序列；

对所述蛋白质序列进行划分，获得相应的氨基酸片段；

通过预先训练好的词典查询所述氨基酸片段对应的词向量，根据所述词向量生成所述蛋白质序列的特征值；

根据所述蛋白质序列的特征值和预先训练好的机器学习模型，对所述蛋白质序列进行功能预测，生成并输出所述蛋白质序列的功能。

另一方面，本发明提供了一种蛋白质功能预测装置，所述装置包括：

序列获取单元，用于当接收到蛋白质功能预测请求时，获取用户输入的、待预测的蛋白质序列；

片段划分单元，用于对所述蛋白质序列进行划分，获得相应的氨基酸片段；

特征生成单元，用于通过预先训练好的词典查询所述氨基酸片段对应的词向量，根据所述词向量生成所述蛋白质序列的特征值；以及

功能预测单元，用于根据所述蛋白质序列的特征值和预先训练好的机器学习模型，对所述蛋白质序列进行功能预测，生成并输出所述蛋白质序列的功能。

另一方面，本发明还提供了一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述蛋白质功能预测方法所述的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述蛋白质功能预测方法所述的步骤。

本发明将待预测的蛋白质序列划分为相应的氨基酸片段，在训练好的词典中查询氨基酸片段对应的词向量，根据这些词向量生成蛋白质序列的特征值，根据蛋白质序列的特征值和训练好的机器学习模型，对蛋白质序列进行功能预测，生成并输出蛋白质序列的功能，从而通过获得蛋白质序列具有上下文特性的特征值并对这些特征值进行机器学习，减少了蛋白质序列特征信息的损失，提高了蛋白质功能预测的准确性和效率，进而提高了蛋白质功能预测的效果。

附图说明

图1是本发明实施例一提供的蛋白质功能预测方法的实现流程图；

图2是本发明实施例二提供的蛋白质功能预测方法中词典和机器学习模型训练过程的实现流程图；

图3是本发明实施例三提供的蛋白质功能预测装置的结构示意图；

图4是本发明实施例四提供的蛋白质功能预测装置的结构示意图；以及

图5是本发明实施例五提供的计算设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的蛋白质功能预测方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，当接收到蛋白质功能预测请求时，获取用户输入的、待预测的蛋白质序列。

本发明实施例适用于蛋白质功能预测平台或系统。在接收到蛋白质功能预测请求时，获取用户输入的、待预测的蛋白质序列，以对该蛋白质序列进行功能预测。

在步骤S102中，对蛋白质序列进行划分，获得相应的氨基酸片段。

在本发明实施例中，通常蛋白质序列由几百个氨基酸组成，为了提高蛋白质功能预测的效率、提取蛋白质序列具有上下文特性的特征值，对蛋白质序列进行划分，获得相应的氨基酸片段，其中，不同氨基酸片段的长度可不同，也可相同。优选地，每个氨基酸片段的长度不小于3，即不少于三个氨基酸，从而提高后续蛋白质序列的特征提取效果。

在对蛋白质序列进行划分时，优选地，采用预设的窗口滑动方式将蛋白质序列划分为氨基酸片段，从而有效地降低蛋白质序列中特征值的损失。作为示例地，采用窗口滑动方式对序列MASNTVSAQ进行划分时，可获得MAS、ASNT、SNTVS、NTV、TVS、VSAQ、SAQ 7个片段。

在步骤S103中，通过预先训练好的词典查询氨基酸片段对应的词向量，根据词向量生成蛋白质序列的特征值。

在本发明实施例中，在将蛋白质序列划分为氨基酸片段后，将每个氨基酸片段视作一个词，在训练好的词典中查找这些词分别对应的词向量，根据词向量生成蛋白质序列具有上下文特性的特征值，保证了在后续蛋白质功能预测时可以跳出序列-结构-功能的传统体系。

在根据词向量生成蛋白质序列的特征值时，优选地，按照氨基酸片段在蛋白质序列中的顺序，将氨基酸片段对应的词向量组合构成蛋白质序列的特征值，从而生成蛋白质序列具有上下文特性的特征值。作为示例地，序列MASNTVSAQ被划分为MAS、ASNT、SNTVS、NTV、TVS、VSAQ、SAQ 7个片段后，假设MAS、ASNT、SNTVS、NTV、TVS、VSAQ、SAQ 7个片段的词向量分别为(0)、(1)、(2)、(3)、(4)、(5)和(6)，则序列MASNTVSAQ的特征值为(0，1，2，3，4，5，6)。

在本发明实施例中，组成蛋白质的氨基酸有20种，因此词典包含20ⁿ⁺¹个词的词向量，n为词典训练过程中氨基酸训练片段(即蛋白质训练序列被划分后得到的氨基酸片段)的最大长度，词典训练过程可参照实施例二相应步骤的详细描述，在此不再赘述。

在步骤S104中，根据蛋白质序列的特征值和预先训练好的机器学习模型，对蛋白质序列进行功能预测，生成并输出蛋白质序列的功能。

在本发明实施例中，将蛋白质序列的特征值输入训练好的机器学习模型中，以对蛋白质序列进行功能预测，获得机器学习模型预测得到的、蛋白质序列的功能并输出。优选地，机器学习模型为卷积学习神经网络，根据氨基酸片段对应的词向量的维数确定卷积神经网络中池化窗口的大小，从而有效地提高蛋白质功能预测的准确度。机器学习模型的训练过程可参照实施例二相应步骤的详细描述，在此不再赘述。

在本发明实施例中，将待预测的蛋白质序列划分为相应的氨基酸片段，在训练好的词典中查询氨基酸片段对应的词向量，以生成蛋白质序列的特征值，根据蛋白质序列的特征值和训练好的机器学习模型，预测并输出蛋白质序列的功能，从而通过获得蛋白质序列具有上下文特性的特征值并对这些特征值进行机器学习，减少了蛋白质序列特征信息的损失，提高了蛋白质功能预测的准确性和效率，进而提高了蛋白质功能预测的效果。

实施例二：

图2示出了本发明实施例二提供的蛋白质功能预测方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S201中，获取蛋白质序列集，蛋白质序列集中包括蛋白质训练序列和蛋白质训练序列的功能注释。

在本发明实施例中，蛋白质序列集为用于词典训练和机器学习模型训练的训练样本集，为了便于区分，将蛋白质序列集中的蛋白质序列称为蛋白质训练序列，蛋白质序列集中包括多个蛋白质训练序列和每个蛋白质训练序列对应的功能注释。其中，蛋白质序列集可来自UniProtKB/Swiss-Prot蛋白质数据库中。

在步骤S202中，对蛋白质训练序列进行划分，获得相应的氨基酸训练片段。

在本发明实施例中，将蛋白质训练序列划分为氨基酸片段，为了便于区分，将蛋白质训练序列的氨基酸片段称为氨基酸训练片段。优选地，采用预设的窗口滑动对蛋白质训练序列进行划分，从而有效地降低蛋白质训练序列中特征值的损失。

在步骤S203中，根据每个氨基酸训练片段在蛋白质训练序列中的出现概率，构建相应的Huffman树。

在本发明实施例中，将划分得到的每个氨基酸训练片段视作一个词，统计蛋白质训练序列中每个词的出现概率，根据这些出现概率构建Huffman树。

在步骤S204中，根据Huffman树和预设的词典训练模型，训练得到词典和氨基酸训练片段的词向量，根据氨基酸训练片段的词向量生成蛋白质训练序列的特征值。

在本发明实施例中，根据构建好的Huffman树和预设的词典训练模型，训练得到词典和氨基酸训练片段的词向量。优选地，词典训练模型为连续词袋模型(CBOW，ContinuousBag-Of-Words Model)或者Skip-gram模型，从而有效地提高词典的训练效果。优选地，按照氨基酸训练片段在蛋白质训练序列中的顺序，将氨基酸训练片段对应的词向量组合构成蛋白质训练序列的特征值，从而生成蛋白质序列具有上下文特性的特征值。

在本发明实施例中，CBOW模型没有隐含层，输入层为当前词(即当前氨基酸训练片段)周围预设数量个词的词向量，从输入层到投影层对周围预设数量个词的词向量进行求和或求平均，由投影层的值沿着先前构造的Huffman树不断地进行分类，对当前词的词向量进行不断修正，输出当前词最终的词向量。与CBOW模型不同的是，Skip-gram模型的输入为当前词的词向量，输出为周围词的词向量，即通过当前词来预测周围词的词向量。

在步骤S205中，根据蛋白质训练序列的特征值和蛋白质训练序列的功能注释，对机器学习模型进行有监督训练，获得训练好的机器学习模型。

在本发明实施例中，将蛋白质训练序列的特征值输入机器学习模型，将机器学习模型的输出与蛋白质训练序列的功能注释进行比较，以对机器学习模型进行有监督训练，获得训练好的机器学习模型，从而提高了机器学习模型的预测准确度。

在本发明实施例中，将蛋白质训练序列划分为相应的氨基酸训练片段，根据每个氨基酸训练片段在蛋白质训练序列中的出现概率，构建相应的Huffman树，根据Huffman树和词典训练模型，训练得到词典和氨基酸训练片段的词向量，根据氨基酸训练片段的词向量生成蛋白质训练序列的特征值，根据蛋白质训练序列的特征值和蛋白质训练序列的功能注释，对机器学习模型进行有监督训练，从而在词典训练过程中通过将氨基酸训练片段词向量化，有效地提取了蛋白质训练序列中具有上下文特性的特征，提高了机器学习模型的训练效果。

实施例三：

图3示出了本发明实施例三提供的蛋白质功能预测装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

序列获取单元31，用于当接收到蛋白质功能预测请求时，获取用户输入的、待预测的蛋白质序列。

在本发明实施例中，在接收到蛋白质功能预测请求时，获取用户输入的、待预测的蛋白质序列，以对该蛋白质序列进行功能预测。

片段划分单元32，用于对蛋白质序列进行划分，获得相应的氨基酸片段。

在本发明实施例中，通常蛋白质序列由几百个氨基酸组成，为了提高蛋白质功能预测的效率、提取蛋白质序列具有上下文特性的特征值，对蛋白质序列进行划分，获得相应的氨基酸片段。优选地，每个氨基酸片段的长度不小于3，即不少于三个氨基酸，从而提高后续蛋白质序列的特征提取效果。

特征生成单元33，用于通过预先训练好的词典查询氨基酸片段对应的词向量，根据词向量生成蛋白质序列的特征值。

在根据词向量生成蛋白质序列的特征值时，优选地，按照氨基酸片段在蛋白质序列中的顺序，将氨基酸片段对应的词向量组合构成蛋白质序列的特征值，从而生成蛋白质序列具有上下文特性的特征值。

在本发明实施例中，组成蛋白质的氨基酸有20种，因此词典包含20ⁿ⁺¹个词的词向量，n为词典训练过程中氨基酸训练片段的最大长度，词典训练过程可参照实施例四相应单元的详细描述，在此不再赘述。

功能预测单元34，用于根据蛋白质序列的特征值和预先训练好的机器学习模型，对蛋白质序列进行功能预测，生成并输出蛋白质序列的功能。

在本发明实施例中，将蛋白质序列的特征值输入训练好的机器学习模型中，以对蛋白质序列进行功能预测，获得机器学习模型预测得到的、蛋白质序列的功能并输出。优选地，机器学习模型为卷积学习神经网络，根据氨基酸片段对应的词向量的维数确定卷积神经网络中池化窗口的大小，从而有效地提高蛋白质功能预测的准确度。机器学习模型的训练过程可参照实施例四相应单元的详细描述，在此不再赘述。

优选地，片段划分单元32包括：

窗口滑动单元321，用于通过预设的窗口滑动方式将蛋白质序列划分为氨基酸片段。

在本发明实施例中，采用预设的窗口滑动方式将蛋白质序列划分为氨基酸片段，从而有效地降低蛋白质序列中特征值的损失。

在本发明实施例中，蛋白质功能预测装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。

实施例四：

图4示出了本发明实施例三提供的蛋白质功能预测装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

训练数据获取单元41，用于获取蛋白质序列集，蛋白质序列集中包括蛋白质训练序列和蛋白质训练序列的功能注释。

在本发明实施例中，蛋白质序列集为用于词典训练和机器学习模型训练的训练样本集，蛋白质序列集中包括多个蛋白质训练序列和每个蛋白质训练序列对应的功能注释。

训练片段划分单元42，用于对蛋白质训练序列进行划分，获得相应的氨基酸训练片段。

在本发明实施例中，将蛋白质训练序列划分为氨基酸训练片段。优选地，采用预设的窗口滑动对蛋白质训练序列进行划分，从而有效地降低蛋白质训练序列中特征值的损失。

Huffman树构建单元43，用于根据每个氨基酸训练片段在蛋白质训练序列中的出现概率，构建相应的Huffman树。

词典训练单元44，用于根据Huffman树和预设的词典训练模型，训练得到词典和氨基酸训练片段的词向量，根据氨基酸训练片段的词向量生成蛋白质训练序列的特征值。

在本发明实施例中，根据构建好的Huffman树和预设的词典训练模型，训练得到词典和氨基酸训练片段的词向量。优选地，按照氨基酸训练片段在蛋白质训练序列中的顺序，将氨基酸训练片段对应的词向量组合构成蛋白质训练序列的特征值，从而生成蛋白质序列具有上下文特性的特征值。

模型训练单元45，用于根据蛋白质训练序列的特征值和蛋白质训练序列的功能注释，对机器学习模型进行有监督训练，获得训练好的机器学习模型。

序列获取单元46，用于当接收到蛋白质功能预测请求时，获取用户输入的、待预测的蛋白质序列。

片段划分单元47，用于对蛋白质序列进行划分，获得相应的氨基酸片段。

特征生成单元48，用于通过预先训练好的词典查询氨基酸片段对应的词向量，根据词向量生成蛋白质序列的特征值。

功能预测单元49，用于根据蛋白质序列的特征值和预先训练好的机器学习模型，对蛋白质序列进行功能预测，生成并输出蛋白质序列的功能。

在本发明实施例中，序列获取单元46、片段划分单元47、特征生成单元48、功能预测单元49可参照实施例三中单元31至34的详细描述，在此不再赘述。

优选地，词典训练单元包括44包括

第一词典训练子单元441，用于根据Huffman树和CBOW模型，训练得到词典和氨基酸训练片段的词向量；或者

第二词典训练子单元442，根据Huffman树和Skip-gram模型，训练得到词典和氨基酸训练片段的词向量。

在本发明实施例中，词典训练模型为连续词袋模型(CBOW，Continuous Bag-Of-Words Model)或者Skip-gram模型，从而有效地提高词典的训练效果。CBOW模型没有隐含层，输入层为当前词周围预设数量个词的词向量，从输入层到投影层对周围预设数量个词的词向量进行求和或求平均，由投影层的值沿着先前构造的Huffman树不断地进行分类，对当前词的词向量进行不断修正，输出当前词最终的词向量。与CBOW模型不同的是，Skip-gram模型的输入为当前词的词向量，输出为周围词的词向量。

实施例五：

图5示出了本发明实施例五提供的计算设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

本发明实施例的计算设备5包括处理器50、存储器51以及存储在存储器51中并可在处理器50上运行的计算机程序52。该处理器50执行计算机程序52时实现上述各个方法实施例中的步骤，例如图1所示的步骤S101至S104。或者，处理器50执行计算机程序52时实现上述各装置实施例中各单元的功能，例如图3所示单元31至34的功能。

实施例六：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述各个方法实施例中的步骤，例如，图1所示的步骤S101至S104。或者，该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能，例如图3所示单元31至34的功能。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种蛋白质功能预测方法，其特征在于，所述方法包括下述步骤：

对所述蛋白质序列进行划分，获得相应的氨基酸片段；

通过预先训练好的词典查询所述氨基酸片段对应的词向量，根据所述词向量生成所述蛋白质序列的具有上下文特性的特征值；

根据所述蛋白质序列的特征值和预先训练好的机器学习模型，对所述蛋白质序列进行功能预测，生成并输出所述蛋白质序列的功能；

获取用户输入的、待预测的蛋白质序列的步骤之前，所述方法还包括：

获取蛋白质序列集，所述蛋白质序列集中包括蛋白质训练序列和所述蛋白质训练序列的功能注释；

对所述蛋白质训练序列进行划分，获得相应的氨基酸训练片段；

根据每个氨基酸训练片段在所述蛋白质训练序列中的出现概率，构建相应的Huffman树；

根据所述Huffman树和预设的词典训练模型，训练得到所述词典和所述氨基酸训练片段的词向量，根据所述氨基酸训练片段的词向量生成所述蛋白质训练序列的具有上下文特性的特征值；

根据所述蛋白质训练序列的特征值和所述蛋白质训练序列的功能注释，对所述机器学习模型进行有监督训练，获得训练好的所述机器学习模型。

2.如权利要求1所述的方法，其特征在于，根据所述Huffman树和预设的词典训练模型，训练得到所述词典和所述氨基酸训练片段的词向量的步骤，包括：

根据所述Huffman树和CBOW模型，训练得到所述词典和所述氨基酸训练片段的词向量；或者

根据所述Huffman树和Skip-gram模型，训练得到所述词典和所述氨基酸训练片段的词向量。

3.如权利要求1所述的方法，其特征在于，对所述蛋白质序列进行划分，获得相应的氨基酸片段的步骤，包括：

通过预设的窗口滑动方式将所述蛋白质序列划分为所述氨基酸片段。

4.一种蛋白质功能预测装置，其特征在于，所述装置包括：

特征生成单元，用于通过预先训练好的词典查询所述氨基酸片段对应的词向量，根据所述词向量生成所述蛋白质序列的具有上下文特性的特征值；以及

功能预测单元，用于根据所述蛋白质序列的特征值和预先训练好的机器学习模型，对所述蛋白质序列进行功能预测，生成并输出所述蛋白质序列的功能；

所述装置还包括：

训练数据获取单元，用于获取蛋白质序列集，所述蛋白质序列集中包括蛋白质训练序列和所述蛋白质训练序列的功能注释；

训练片段划分单元，用于对所述蛋白质训练序列进行划分，获得相应的氨基酸训练片段；

Huffman树构建单元，用于根据每个氨基酸训练片段在所述蛋白质训练序列中的出现概率，构建相应的Huffman树；

词典训练单元，用于根据所述Huffman树和预设的词典训练模型，训练得到所述词典和所述氨基酸训练片段的词向量，根据所述氨基酸训练片段的词向量生成所述蛋白质训练序列的具有上下文特性的特征值；以及

模型训练单元，用于根据所述蛋白质训练序列的特征值和所述蛋白质训练序列的功能注释，对所述机器学习模型进行有监督训练，获得训练好的所述机器学习模型。

5.如权利要求4所述的装置，其特征在于，所述词典训练单元包括：

第一词典训练子单元，用于根据所述Huffman树和CBOW模型，训练得到所述词典和所述氨基酸训练片段的词向量；或者

第二词典训练子单元，根据所述Huffman树和Skip-gram模型，训练得到所述词典和所述氨基酸训练片段的词向量。

6.如权利要求4所述的装置，其特征在于，所述片段划分单元包括：

窗口滑动单元，用于通过预设的窗口滑动方式将所述蛋白质序列划分为所述氨基酸片段。

7.一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述方法的步骤。