CN109147868B - 蛋白质功能预测方法、装置、设备及存储介质 - Google Patents

蛋白质功能预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109147868B
CN109147868B CN201810800467.2A CN201810800467A CN109147868B CN 109147868 B CN109147868 B CN 109147868B CN 201810800467 A CN201810800467 A CN 201810800467A CN 109147868 B CN109147868 B CN 109147868B
Authority
CN
China
Prior art keywords
training
protein
sequence
amino acid
protein sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810800467.2A
Other languages
English (en)
Other versions
CN109147868A (zh
Inventor
杜智华
贺宇峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201810800467.2A priority Critical patent/CN109147868B/zh
Publication of CN109147868A publication Critical patent/CN109147868A/zh
Application granted granted Critical
Publication of CN109147868B publication Critical patent/CN109147868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明适用生物信息技术领域,提供了一种蛋白质功能预测方法、装置、设备及存储介质,该方法包括:获取待预测的蛋白质序列,对该蛋白质序列进行划分,获得相应的氨基酸片段,在训练好的词典中查询氨基酸片段对应的词向量,根据这些词向量生成蛋白质序列的特征值,根据蛋白质序列的特征值和训练好的机器学习模型,对蛋白质序列进行功能预测,生成并输出蛋白质序列的功能,从而通过获得蛋白质序列具有上下文特性的特征值并对这些特征值进行机器学习,有效地提高了蛋白质功能预测的准确性和效率,提高了蛋白质功能预测的效果。

Description

蛋白质功能预测方法、装置、设备及存储介质
技术领域
本发明属于生物信息技术领域,尤其涉及一种蛋白质功能预测方法、装置、设备及存储介质。
背景技术
生物信息目前主要的研究对象为基因和蛋白质,由于基因序列和蛋白质序列的杂乱无序,导致利用传统试验方法时,若未收录个体则难以判断其具体功能及其各项生化属性。在生物信息的各个研究领域中,蛋白质功能预测一直很难达到较高的准确度,主要的预测方法是利用基因本体联合会(Gene Onotology Consortium)建立的基因本体对蛋白质数据库中各项蛋白质进行注释后,再根据蛋白质本身特征化之后的属性建立预测模型,最终通过该预测模型对未收录个体进行功能预测。
目前,建立用于蛋白质功能预测的预测模型的最有效方法为机器学习的各种方法,然而现有的这些方法都有一个显著缺点:基于蛋白质序列的相关算法,均把蛋白质的序列视作自然语言,将其直接放入机器学习算法,例如卷积神经网络,任由神经网络对序列进行处理,而蛋白质并非是简单的序列-结构-功能体系,由此不能完全领会蛋白质序列中上文,影响机器学习算法的预测准确度。
发明内容
本发明的目的在于提供一种蛋白质功能预测方法、装置、设备及存储介质,旨在解决由于现有技术无法提供一种有效的蛋白质功能预测方法,导致蛋白质功能预测准确度不高的问题。
一方面,本发明提供了一种蛋白质功能预测方法,所述方法包括下述步骤:
当接收到蛋白质功能预测请求时,获取用户输入的、待预测的蛋白质序列;
对所述蛋白质序列进行划分,获得相应的氨基酸片段;
通过预先训练好的词典查询所述氨基酸片段对应的词向量,根据所述词向量生成所述蛋白质序列的特征值;
根据所述蛋白质序列的特征值和预先训练好的机器学习模型,对所述蛋白质序列进行功能预测,生成并输出所述蛋白质序列的功能。
另一方面,本发明提供了一种蛋白质功能预测装置,所述装置包括:
序列获取单元,用于当接收到蛋白质功能预测请求时,获取用户输入的、待预测的蛋白质序列;
片段划分单元,用于对所述蛋白质序列进行划分,获得相应的氨基酸片段;
特征生成单元,用于通过预先训练好的词典查询所述氨基酸片段对应的词向量,根据所述词向量生成所述蛋白质序列的特征值;以及
功能预测单元,用于根据所述蛋白质序列的特征值和预先训练好的机器学习模型,对所述蛋白质序列进行功能预测,生成并输出所述蛋白质序列的功能。
另一方面,本发明还提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述蛋白质功能预测方法所述的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述蛋白质功能预测方法所述的步骤。
本发明将待预测的蛋白质序列划分为相应的氨基酸片段,在训练好的词典中查询氨基酸片段对应的词向量,根据这些词向量生成蛋白质序列的特征值,根据蛋白质序列的特征值和训练好的机器学习模型,对蛋白质序列进行功能预测,生成并输出蛋白质序列的功能,从而通过获得蛋白质序列具有上下文特性的特征值并对这些特征值进行机器学习,减少了蛋白质序列特征信息的损失,提高了蛋白质功能预测的准确性和效率,进而提高了蛋白质功能预测的效果。
附图说明
图1是本发明实施例一提供的蛋白质功能预测方法的实现流程图;
图2是本发明实施例二提供的蛋白质功能预测方法中词典和机器学习模型训练过程的实现流程图;
图3是本发明实施例三提供的蛋白质功能预测装置的结构示意图;
图4是本发明实施例四提供的蛋白质功能预测装置的结构示意图;以及
图5是本发明实施例五提供的计算设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的蛋白质功能预测方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,当接收到蛋白质功能预测请求时,获取用户输入的、待预测的蛋白质序列。
本发明实施例适用于蛋白质功能预测平台或系统。在接收到蛋白质功能预测请求时,获取用户输入的、待预测的蛋白质序列,以对该蛋白质序列进行功能预测。
在步骤S102中,对蛋白质序列进行划分,获得相应的氨基酸片段。
在本发明实施例中,通常蛋白质序列由几百个氨基酸组成,为了提高蛋白质功能预测的效率、提取蛋白质序列具有上下文特性的特征值,对蛋白质序列进行划分,获得相应的氨基酸片段,其中,不同氨基酸片段的长度可不同,也可相同。优选地,每个氨基酸片段的长度不小于3,即不少于三个氨基酸,从而提高后续蛋白质序列的特征提取效果。
在对蛋白质序列进行划分时,优选地,采用预设的窗口滑动方式将蛋白质序列划分为氨基酸片段,从而有效地降低蛋白质序列中特征值的损失。作为示例地,采用窗口滑动方式对序列MASNTVSAQ进行划分时,可获得MAS、ASNT、SNTVS、NTV、TVS、VSAQ、SAQ 7个片段。
在步骤S103中,通过预先训练好的词典查询氨基酸片段对应的词向量,根据词向量生成蛋白质序列的特征值。
在本发明实施例中,在将蛋白质序列划分为氨基酸片段后,将每个氨基酸片段视作一个词,在训练好的词典中查找这些词分别对应的词向量,根据词向量生成蛋白质序列具有上下文特性的特征值,保证了在后续蛋白质功能预测时可以跳出序列-结构-功能的传统体系。
在根据词向量生成蛋白质序列的特征值时,优选地,按照氨基酸片段在蛋白质序列中的顺序,将氨基酸片段对应的词向量组合构成蛋白质序列的特征值,从而生成蛋白质序列具有上下文特性的特征值。作为示例地,序列MASNTVSAQ被划分为MAS、ASNT、SNTVS、NTV、TVS、VSAQ、SAQ 7个片段后,假设MAS、ASNT、SNTVS、NTV、TVS、VSAQ、SAQ 7个片段的词向量分别为(0)、(1)、(2)、(3)、(4)、(5)和(6),则序列MASNTVSAQ的特征值为(0,1,2,3,4,5,6)。
在本发明实施例中,组成蛋白质的氨基酸有20种,因此词典包含20n+1个词的词向量,n为词典训练过程中氨基酸训练片段(即蛋白质训练序列被划分后得到的氨基酸片段)的最大长度,词典训练过程可参照实施例二相应步骤的详细描述,在此不再赘述。
在步骤S104中,根据蛋白质序列的特征值和预先训练好的机器学习模型,对蛋白质序列进行功能预测,生成并输出蛋白质序列的功能。
在本发明实施例中,将蛋白质序列的特征值输入训练好的机器学习模型中,以对蛋白质序列进行功能预测,获得机器学习模型预测得到的、蛋白质序列的功能并输出。优选地,机器学习模型为卷积学习神经网络,根据氨基酸片段对应的词向量的维数确定卷积神经网络中池化窗口的大小,从而有效地提高蛋白质功能预测的准确度。机器学习模型的训练过程可参照实施例二相应步骤的详细描述,在此不再赘述。
在本发明实施例中,将待预测的蛋白质序列划分为相应的氨基酸片段,在训练好的词典中查询氨基酸片段对应的词向量,以生成蛋白质序列的特征值,根据蛋白质序列的特征值和训练好的机器学习模型,预测并输出蛋白质序列的功能,从而通过获得蛋白质序列具有上下文特性的特征值并对这些特征值进行机器学习,减少了蛋白质序列特征信息的损失,提高了蛋白质功能预测的准确性和效率,进而提高了蛋白质功能预测的效果。
实施例二:
图2示出了本发明实施例二提供的蛋白质功能预测方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S201中,获取蛋白质序列集,蛋白质序列集中包括蛋白质训练序列和蛋白质训练序列的功能注释。
在本发明实施例中,蛋白质序列集为用于词典训练和机器学习模型训练的训练样本集,为了便于区分,将蛋白质序列集中的蛋白质序列称为蛋白质训练序列,蛋白质序列集中包括多个蛋白质训练序列和每个蛋白质训练序列对应的功能注释。其中,蛋白质序列集可来自UniProtKB/Swiss-Prot蛋白质数据库中。
在步骤S202中,对蛋白质训练序列进行划分,获得相应的氨基酸训练片段。
在本发明实施例中,将蛋白质训练序列划分为氨基酸片段,为了便于区分,将蛋白质训练序列的氨基酸片段称为氨基酸训练片段。优选地,采用预设的窗口滑动对蛋白质训练序列进行划分,从而有效地降低蛋白质训练序列中特征值的损失。
在步骤S203中,根据每个氨基酸训练片段在蛋白质训练序列中的出现概率,构建相应的Huffman树。
在本发明实施例中,将划分得到的每个氨基酸训练片段视作一个词,统计蛋白质训练序列中每个词的出现概率,根据这些出现概率构建Huffman树。
在步骤S204中,根据Huffman树和预设的词典训练模型,训练得到词典和氨基酸训练片段的词向量,根据氨基酸训练片段的词向量生成蛋白质训练序列的特征值。
在本发明实施例中,根据构建好的Huffman树和预设的词典训练模型,训练得到词典和氨基酸训练片段的词向量。优选地,词典训练模型为连续词袋模型(CBOW,ContinuousBag-Of-Words Model)或者Skip-gram模型,从而有效地提高词典的训练效果。优选地,按照氨基酸训练片段在蛋白质训练序列中的顺序,将氨基酸训练片段对应的词向量组合构成蛋白质训练序列的特征值,从而生成蛋白质序列具有上下文特性的特征值。
在本发明实施例中,CBOW模型没有隐含层,输入层为当前词(即当前氨基酸训练片段)周围预设数量个词的词向量,从输入层到投影层对周围预设数量个词的词向量进行求和或求平均,由投影层的值沿着先前构造的Huffman树不断地进行分类,对当前词的词向量进行不断修正,输出当前词最终的词向量。与CBOW模型不同的是,Skip-gram模型的输入为当前词的词向量,输出为周围词的词向量,即通过当前词来预测周围词的词向量。
在步骤S205中,根据蛋白质训练序列的特征值和蛋白质训练序列的功能注释,对机器学习模型进行有监督训练,获得训练好的机器学习模型。
在本发明实施例中,将蛋白质训练序列的特征值输入机器学习模型,将机器学习模型的输出与蛋白质训练序列的功能注释进行比较,以对机器学习模型进行有监督训练,获得训练好的机器学习模型,从而提高了机器学习模型的预测准确度。
在本发明实施例中,将蛋白质训练序列划分为相应的氨基酸训练片段,根据每个氨基酸训练片段在蛋白质训练序列中的出现概率,构建相应的Huffman树,根据Huffman树和词典训练模型,训练得到词典和氨基酸训练片段的词向量,根据氨基酸训练片段的词向量生成蛋白质训练序列的特征值,根据蛋白质训练序列的特征值和蛋白质训练序列的功能注释,对机器学习模型进行有监督训练,从而在词典训练过程中通过将氨基酸训练片段词向量化,有效地提取了蛋白质训练序列中具有上下文特性的特征,提高了机器学习模型的训练效果。
实施例三:
图3示出了本发明实施例三提供的蛋白质功能预测装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
序列获取单元31,用于当接收到蛋白质功能预测请求时,获取用户输入的、待预测的蛋白质序列。
在本发明实施例中,在接收到蛋白质功能预测请求时,获取用户输入的、待预测的蛋白质序列,以对该蛋白质序列进行功能预测。
片段划分单元32,用于对蛋白质序列进行划分,获得相应的氨基酸片段。
在本发明实施例中,通常蛋白质序列由几百个氨基酸组成,为了提高蛋白质功能预测的效率、提取蛋白质序列具有上下文特性的特征值,对蛋白质序列进行划分,获得相应的氨基酸片段。优选地,每个氨基酸片段的长度不小于3,即不少于三个氨基酸,从而提高后续蛋白质序列的特征提取效果。
特征生成单元33,用于通过预先训练好的词典查询氨基酸片段对应的词向量,根据词向量生成蛋白质序列的特征值。
在本发明实施例中,在将蛋白质序列划分为氨基酸片段后,将每个氨基酸片段视作一个词,在训练好的词典中查找这些词分别对应的词向量,根据词向量生成蛋白质序列具有上下文特性的特征值,保证了在后续蛋白质功能预测时可以跳出序列-结构-功能的传统体系。
在根据词向量生成蛋白质序列的特征值时,优选地,按照氨基酸片段在蛋白质序列中的顺序,将氨基酸片段对应的词向量组合构成蛋白质序列的特征值,从而生成蛋白质序列具有上下文特性的特征值。
在本发明实施例中,组成蛋白质的氨基酸有20种,因此词典包含20n+1个词的词向量,n为词典训练过程中氨基酸训练片段的最大长度,词典训练过程可参照实施例四相应单元的详细描述,在此不再赘述。
功能预测单元34,用于根据蛋白质序列的特征值和预先训练好的机器学习模型,对蛋白质序列进行功能预测,生成并输出蛋白质序列的功能。
在本发明实施例中,将蛋白质序列的特征值输入训练好的机器学习模型中,以对蛋白质序列进行功能预测,获得机器学习模型预测得到的、蛋白质序列的功能并输出。优选地,机器学习模型为卷积学习神经网络,根据氨基酸片段对应的词向量的维数确定卷积神经网络中池化窗口的大小,从而有效地提高蛋白质功能预测的准确度。机器学习模型的训练过程可参照实施例四相应单元的详细描述,在此不再赘述。
优选地,片段划分单元32包括:
窗口滑动单元321,用于通过预设的窗口滑动方式将蛋白质序列划分为氨基酸片段。
在本发明实施例中,采用预设的窗口滑动方式将蛋白质序列划分为氨基酸片段,从而有效地降低蛋白质序列中特征值的损失。
在本发明实施例中,将待预测的蛋白质序列划分为相应的氨基酸片段,在训练好的词典中查询氨基酸片段对应的词向量,以生成蛋白质序列的特征值,根据蛋白质序列的特征值和训练好的机器学习模型,预测并输出蛋白质序列的功能,从而通过获得蛋白质序列具有上下文特性的特征值并对这些特征值进行机器学习,减少了蛋白质序列特征信息的损失,提高了蛋白质功能预测的准确性和效率,进而提高了蛋白质功能预测的效果。
在本发明实施例中,蛋白质功能预测装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例四:
图4示出了本发明实施例三提供的蛋白质功能预测装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
训练数据获取单元41,用于获取蛋白质序列集,蛋白质序列集中包括蛋白质训练序列和蛋白质训练序列的功能注释。
在本发明实施例中,蛋白质序列集为用于词典训练和机器学习模型训练的训练样本集,蛋白质序列集中包括多个蛋白质训练序列和每个蛋白质训练序列对应的功能注释。
训练片段划分单元42,用于对蛋白质训练序列进行划分,获得相应的氨基酸训练片段。
在本发明实施例中,将蛋白质训练序列划分为氨基酸训练片段。优选地,采用预设的窗口滑动对蛋白质训练序列进行划分,从而有效地降低蛋白质训练序列中特征值的损失。
Huffman树构建单元43,用于根据每个氨基酸训练片段在蛋白质训练序列中的出现概率,构建相应的Huffman树。
在本发明实施例中,将划分得到的每个氨基酸训练片段视作一个词,统计蛋白质训练序列中每个词的出现概率,根据这些出现概率构建Huffman树。
词典训练单元44,用于根据Huffman树和预设的词典训练模型,训练得到词典和氨基酸训练片段的词向量,根据氨基酸训练片段的词向量生成蛋白质训练序列的特征值。
在本发明实施例中,根据构建好的Huffman树和预设的词典训练模型,训练得到词典和氨基酸训练片段的词向量。优选地,按照氨基酸训练片段在蛋白质训练序列中的顺序,将氨基酸训练片段对应的词向量组合构成蛋白质训练序列的特征值,从而生成蛋白质序列具有上下文特性的特征值。
模型训练单元45,用于根据蛋白质训练序列的特征值和蛋白质训练序列的功能注释,对机器学习模型进行有监督训练,获得训练好的机器学习模型。
在本发明实施例中,将蛋白质训练序列的特征值输入机器学习模型,将机器学习模型的输出与蛋白质训练序列的功能注释进行比较,以对机器学习模型进行有监督训练,获得训练好的机器学习模型,从而提高了机器学习模型的预测准确度。
序列获取单元46,用于当接收到蛋白质功能预测请求时,获取用户输入的、待预测的蛋白质序列。
片段划分单元47,用于对蛋白质序列进行划分,获得相应的氨基酸片段。
特征生成单元48,用于通过预先训练好的词典查询氨基酸片段对应的词向量,根据词向量生成蛋白质序列的特征值。
功能预测单元49,用于根据蛋白质序列的特征值和预先训练好的机器学习模型,对蛋白质序列进行功能预测,生成并输出蛋白质序列的功能。
在本发明实施例中,序列获取单元46、片段划分单元47、特征生成单元48、功能预测单元49可参照实施例三中单元31至34的详细描述,在此不再赘述。
优选地,词典训练单元包括44包括
第一词典训练子单元441,用于根据Huffman树和CBOW模型,训练得到词典和氨基酸训练片段的词向量;或者
第二词典训练子单元442,根据Huffman树和Skip-gram模型,训练得到词典和氨基酸训练片段的词向量。
在本发明实施例中,词典训练模型为连续词袋模型(CBOW,Continuous Bag-Of-Words Model)或者Skip-gram模型,从而有效地提高词典的训练效果。CBOW模型没有隐含层,输入层为当前词周围预设数量个词的词向量,从输入层到投影层对周围预设数量个词的词向量进行求和或求平均,由投影层的值沿着先前构造的Huffman树不断地进行分类,对当前词的词向量进行不断修正,输出当前词最终的词向量。与CBOW模型不同的是,Skip-gram模型的输入为当前词的词向量,输出为周围词的词向量。
在本发明实施例中,将待预测的蛋白质序列划分为相应的氨基酸片段,在训练好的词典中查询氨基酸片段对应的词向量,以生成蛋白质序列的特征值,根据蛋白质序列的特征值和训练好的机器学习模型,预测并输出蛋白质序列的功能,从而通过获得蛋白质序列具有上下文特性的特征值并对这些特征值进行机器学习,减少了蛋白质序列特征信息的损失,提高了蛋白质功能预测的准确性和效率,进而提高了蛋白质功能预测的效果。
在本发明实施例中,蛋白质功能预测装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例五:
图5示出了本发明实施例五提供的计算设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的计算设备5包括处理器50、存储器51以及存储在存储器51中并可在处理器50上运行的计算机程序52。该处理器50执行计算机程序52时实现上述各个方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,处理器50执行计算机程序52时实现上述各装置实施例中各单元的功能,例如图3所示单元31至34的功能。
在本发明实施例中,将待预测的蛋白质序列划分为相应的氨基酸片段,在训练好的词典中查询氨基酸片段对应的词向量,以生成蛋白质序列的特征值,根据蛋白质序列的特征值和训练好的机器学习模型,预测并输出蛋白质序列的功能,从而通过获得蛋白质序列具有上下文特性的特征值并对这些特征值进行机器学习,减少了蛋白质序列特征信息的损失,提高了蛋白质功能预测的准确性和效率,进而提高了蛋白质功能预测的效果。
实施例六:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述各个方法实施例中的步骤,例如,图1所示的步骤S101至S104。或者,该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能,例如图3所示单元31至34的功能。
在本发明实施例中,将待预测的蛋白质序列划分为相应的氨基酸片段,在训练好的词典中查询氨基酸片段对应的词向量,以生成蛋白质序列的特征值,根据蛋白质序列的特征值和训练好的机器学习模型,预测并输出蛋白质序列的功能,从而通过获得蛋白质序列具有上下文特性的特征值并对这些特征值进行机器学习,减少了蛋白质序列特征信息的损失,提高了蛋白质功能预测的准确性和效率,进而提高了蛋白质功能预测的效果。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,ROM/RAM、磁盘、光盘、闪存等存储器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种蛋白质功能预测方法,其特征在于,所述方法包括下述步骤:
当接收到蛋白质功能预测请求时,获取用户输入的、待预测的蛋白质序列;
对所述蛋白质序列进行划分,获得相应的氨基酸片段;
通过预先训练好的词典查询所述氨基酸片段对应的词向量,根据所述词向量生成所述蛋白质序列的具有上下文特性的特征值;
根据所述蛋白质序列的特征值和预先训练好的机器学习模型,对所述蛋白质序列进行功能预测,生成并输出所述蛋白质序列的功能;
获取用户输入的、待预测的蛋白质序列的步骤之前,所述方法还包括:
获取蛋白质序列集,所述蛋白质序列集中包括蛋白质训练序列和所述蛋白质训练序列的功能注释;
对所述蛋白质训练序列进行划分,获得相应的氨基酸训练片段;
根据每个氨基酸训练片段在所述蛋白质训练序列中的出现概率,构建相应的Huffman树;
根据所述Huffman树和预设的词典训练模型,训练得到所述词典和所述氨基酸训练片段的词向量,根据所述氨基酸训练片段的词向量生成所述蛋白质训练序列的具有上下文特性的特征值;
根据所述蛋白质训练序列的特征值和所述蛋白质训练序列的功能注释,对所述机器学习模型进行有监督训练,获得训练好的所述机器学习模型。
2.如权利要求1所述的方法,其特征在于,根据所述Huffman树和预设的词典训练模型,训练得到所述词典和所述氨基酸训练片段的词向量的步骤,包括:
根据所述Huffman树和CBOW模型,训练得到所述词典和所述氨基酸训练片段的词向量;或者
根据所述Huffman树和Skip-gram模型,训练得到所述词典和所述氨基酸训练片段的词向量。
3.如权利要求1所述的方法,其特征在于,对所述蛋白质序列进行划分,获得相应的氨基酸片段的步骤,包括:
通过预设的窗口滑动方式将所述蛋白质序列划分为所述氨基酸片段。
4.一种蛋白质功能预测装置,其特征在于,所述装置包括:
序列获取单元,用于当接收到蛋白质功能预测请求时,获取用户输入的、待预测的蛋白质序列;
片段划分单元,用于对所述蛋白质序列进行划分,获得相应的氨基酸片段;
特征生成单元,用于通过预先训练好的词典查询所述氨基酸片段对应的词向量,根据所述词向量生成所述蛋白质序列的具有上下文特性的特征值;以及
功能预测单元,用于根据所述蛋白质序列的特征值和预先训练好的机器学习模型,对所述蛋白质序列进行功能预测,生成并输出所述蛋白质序列的功能;
所述装置还包括:
训练数据获取单元,用于获取蛋白质序列集,所述蛋白质序列集中包括蛋白质训练序列和所述蛋白质训练序列的功能注释;
训练片段划分单元,用于对所述蛋白质训练序列进行划分,获得相应的氨基酸训练片段;
Huffman树构建单元,用于根据每个氨基酸训练片段在所述蛋白质训练序列中的出现概率,构建相应的Huffman树;
词典训练单元,用于根据所述Huffman树和预设的词典训练模型,训练得到所述词典和所述氨基酸训练片段的词向量,根据所述氨基酸训练片段的词向量生成所述蛋白质训练序列的具有上下文特性的特征值;以及
模型训练单元,用于根据所述蛋白质训练序列的特征值和所述蛋白质训练序列的功能注释,对所述机器学习模型进行有监督训练,获得训练好的所述机器学习模型。
5.如权利要求4所述的装置,其特征在于,所述词典训练单元包括:
第一词典训练子单元,用于根据所述Huffman树和CBOW模型,训练得到所述词典和所述氨基酸训练片段的词向量;或者
第二词典训练子单元,根据所述Huffman树和Skip-gram模型,训练得到所述词典和所述氨基酸训练片段的词向量。
6.如权利要求4所述的装置,其特征在于,所述片段划分单元包括:
窗口滑动单元,用于通过预设的窗口滑动方式将所述蛋白质序列划分为所述氨基酸片段。
7.一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述方法的步骤。
CN201810800467.2A 2018-07-18 2018-07-18 蛋白质功能预测方法、装置、设备及存储介质 Active CN109147868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810800467.2A CN109147868B (zh) 2018-07-18 2018-07-18 蛋白质功能预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810800467.2A CN109147868B (zh) 2018-07-18 2018-07-18 蛋白质功能预测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109147868A CN109147868A (zh) 2019-01-04
CN109147868B true CN109147868B (zh) 2022-03-22

Family

ID=64801181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810800467.2A Active CN109147868B (zh) 2018-07-18 2018-07-18 蛋白质功能预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109147868B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706738B (zh) * 2019-10-30 2020-11-20 腾讯科技(深圳)有限公司 蛋白质的结构信息预测方法、装置、设备及存储介质
CN111401534B (zh) * 2020-04-29 2023-12-05 北京晶泰科技有限公司 一种蛋白质性能预测方法、装置和计算设备
CN111462822B (zh) * 2020-04-29 2023-12-05 北京晶泰科技有限公司 一种蛋白质序列特征的生成方法、装置和计算设备
CN113674797B (zh) * 2020-05-15 2024-05-14 复旦大学 基于蛋白质组的数据检测系统、方法、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473483A (zh) * 2013-10-07 2013-12-25 谢华林 一种蛋白质结构与功能的在线预测方法
CN104899477B (zh) * 2015-06-18 2018-01-26 江南大学 一种使用词袋模型的蛋白质亚细胞区间预测方法
CN106372456B (zh) * 2016-08-26 2019-01-22 浙江工业大学 一种基于深度学习的蛋白质结构预测方法
CN107563150B (zh) * 2017-08-31 2021-03-19 深圳大学 蛋白质结合位点的预测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109147868A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN112668671B (zh) 预训练模型的获取方法和装置
CN109147868B (zh) 蛋白质功能预测方法、装置、设备及存储介质
CN109033068B (zh) 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN109783655B (zh) 一种跨模态检索方法、装置、计算机设备和存储介质
CN109582767B (zh) 对话系统处理方法、装置、设备及可读存储介质
CN107273503B (zh) 用于生成同语言平行文本的方法和装置
US20180158449A1 (en) Method and device for waking up via speech based on artificial intelligence
CN106557563B (zh) 基于人工智能的查询语句推荐方法及装置
US11349680B2 (en) Method and apparatus for pushing information based on artificial intelligence
CN109344242B (zh) 一种对话问答方法、装置、设备及存储介质
CN107015964B (zh) 面向智能机器人开发的自定义意图实现方法及装置
WO2022052505A1 (zh) 基于依存句法的句子主干抽取方法、设备和可读存储介质
CN113806552B (zh) 信息提取方法、装置、电子设备和存储介质
CN110570879A (zh) 基于情绪识别的智能会话方法、装置及计算机设备
JP6312467B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN112052318A (zh) 一种语义识别方法、装置、计算机设备和存储介质
CN111813923A (zh) 文本摘要方法、电子设备及存储介质
CN115293348A (zh) 一种多模态特征提取网络的预训练方法及装置
Huai et al. Zerobn: Learning compact neural networks for latency-critical edge systems
CN111563148A (zh) 一种基于词组多样性的对话生成方法
CN113761124B (zh) 文本编码模型的训练方法、信息检索方法及设备
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN114817473A (zh) 用于压缩语义理解模型的方法、装置、设备、介质和产品
CN113722436A (zh) 文本信息提取方法、装置、计算机设备及存储介质
WO2023083341A1 (en) Systems and methods for video retrieval and grounding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant