CN109215737A - 蛋白质特征提取、功能模型生成、功能预测的方法及装置 - Google Patents

蛋白质特征提取、功能模型生成、功能预测的方法及装置 Download PDF

Info

Publication number
CN109215737A
CN109215737A CN201811162692.4A CN201811162692A CN109215737A CN 109215737 A CN109215737 A CN 109215737A CN 201811162692 A CN201811162692 A CN 201811162692A CN 109215737 A CN109215737 A CN 109215737A
Authority
CN
China
Prior art keywords
amino acid
protein
acid sequence
training
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811162692.4A
Other languages
English (en)
Other versions
CN109215737B (zh
Inventor
汤凡
汤一凡
崔朝辉
赵立军
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201811162692.4A priority Critical patent/CN109215737B/zh
Publication of CN109215737A publication Critical patent/CN109215737A/zh
Application granted granted Critical
Publication of CN109215737B publication Critical patent/CN109215737B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申请实施例公开了一种蛋白质特征提取、功能模型生成、功能预测的方法及装置;该蛋白质特征提取方法包括:获取目标蛋白质的氨基酸序列和目标蛋白质的氨基酸序列上的残基作用位点,得到目标氨基酸序列和目标残基作用位点;从目标氨基酸序列上截取一个氨基酸缩写码或多个连续的氨基酸缩写码,得到包括目标残基作用位点的目标字符串;提取目标字符串在目标氨基酸序列中的文本特征,以残基作用位点在氨基酸序列上的特征作为蛋白质功能的表达,能够为后续利用机器学习算法进行蛋白质功能预测时提供高质量的特征输入,有利于摒弃耗时耗力的人工预测方法,提高蛋白质功能预测的效率和准确率。

Description

蛋白质特征提取、功能模型生成、功能预测的方法及装置
技术领域
本申请涉及生物信息技术领域,尤其涉及一种蛋白质特征提取、功能模型生成、功能预测的方法及装置。
背景技术
随着生命科学研究的不断发展,人们逐渐意识到基因组信息已经不能完全解释和预测各种生命过程及现象。蛋白质作为细胞活性和功能的执行者,越来越受到人们的关注。事先掌握蛋白质的功能将会有助于理解细胞内生化反应机理,进而指导药物设计。
蛋白质的功能,具体表达为蛋白质与蛋白质、蛋白质与糖类、蛋白质与脂质、蛋白质与脱氧核糖核酸(deoxyribonucleic acid,DNA)或核糖核酸(Ribonucleic Acid,RNA)、蛋白质与金属离子间的相互作用能力。在过去十多年中,多种生物实验技术如酵母双杂交技术(yeast two-hybrid system,Y2H)、串联亲和纯化技术(tandem affinitypurification,TAP)已经应用在识别蛋白质功能组领域并积累了大量数据。然而,利用生物实验技术对蛋白质的功能进行预测会耗费大量人力和时间,不利于成本的节约和效率的提高。
发明内容
有鉴于此,本申请实施例一方面提供了一种蛋白质特征提取的方法及装置,另一方面提供了一种蛋白质功能模型生成的方法及装置,又一方面提供了一种蛋白质功能预测的方法及装置,能够解决现有技术中利用生物实验技术对蛋白质功能进行预测会耗费大量人力和时间的问题,可以高效、准确的掌握蛋白质的功能。
本申请实施例提供的一种蛋白质特征提取的方法,所述方法包括:
获取目标蛋白质的氨基酸序列和所述目标蛋白质的氨基酸序列上的残基作用位点,得到目标氨基酸序列和目标残基作用位点;所述氨基酸序列包括多个顺序排列的氨基酸缩写码;
从所述目标氨基酸序列上截取一个氨基酸缩写码或多个连续的氨基酸缩写码,得到目标字符串;所述目标字符串包括所述目标残基作用位点;
提取所述目标字符串在所述目标氨基酸序列中的文本特征,所述文本特征用于表征所述目标蛋白质的功能。
可选的,所述提取所述目标字符串在所述目标氨基酸序列中的文本特征,具体包括:
提取所述目标字符串在所述目标氨基酸序列中的上下文信息;
利用所述上下文信息,获得所述目标字符串的特征向量作为所述文本特征。
可选的,所述利用所述上下文信息,获得所述目标字符串的特征向量作为所述文本特征,具体包括:
获取所述目标字符串的独热码、所述上下文信息的独热码以及预先构建的初始化权重矩阵;
利用所述上下文信息的独热码对所述初始化权重矩阵进行训练,得到更新矩阵;
根据所述更新矩阵和所述目标字符串的独热码,得到所述目标字符串的特征向量。
可选的,所述目标字符串还包括在所述目标氨基酸序列中与所述目标残基作用位点相邻的第一子字符串和/或第二子字符串;
所述第一子字符串位于所述目标残基作用位点的左侧,所述第二子字符串位于所述目标残基作用位点的右侧;
所述第一子字符串和所述第二子字符串均包括至少一个氨基酸缩写码。
本申请实施例提供的一种蛋白质功能模型生成的方法,所述方法包括:
获取训练蛋白质的氨基酸序列和所述训练蛋白质的氨基酸序列上的残基作用位点,得到训练氨基酸序列和训练残基作用位点;所述氨基酸序列包括多个顺序排列的氨基酸缩写码;
从所述训练氨基酸序列上截取包括所述训练残基作用位点的第一训练字符串和不包括所述训练残基作用位点的第二训练字符串;所述第一训练字符串和所述第二训练字符串包括一个或多个连续的氨基酸缩写码,且所述第一训练字符串和所述第二训练字符串中包括的氨基酸缩写码数量相等;
获得所述第一训练字符串的文本特征和所述第二训练字符串的文本特征;所述文本特征利用如上述实施例提供的蛋白质特征提取的方法中的任意一种得到;
将所述第一训练字符串的文本特征和所述第二训练字符串的文本特征作为训练数据,根据每条所述训练数据及其对应的分类标签训练预先构建的初始模型,得到蛋白质功能模型;所述分类标签是根据对应的训练数据中是否包括所述训练残基作用位点确定的,所述蛋白质功能模型用于对蛋白质的功能进行预测。
可选的,所述获得所述第一训练字符串的文本特征和所述第二训练字符串的文本特征,具体包括:
从预先构建的特征表中查找与目标训练字符串匹配的字符串,所述目标字符串为所述第一训练字符串或所述第二训练字符串;所述特征表携带多个字符串及其对应的文本特征,所述特征表中字符串对应的文本特征是预先利用上述实施例提供的蛋白质特征提取的方法中的任意一种得到的;
将匹配到的字符串所对应的文本特征确定为所述目标训练字符串的文本特征。
本申请实施例提供的一种蛋白质功能预测的方法,所述方法包括:
获取待测蛋白质的氨基酸序列,得到待测氨基酸序列;所述氨基酸序列包括多个顺序排列的氨基酸缩写码;
从所述待测氨基酸序列上截取至少一个待测字符串;所述待测字符串包括所述待测氨基酸序列上一个或多个连续的氨基酸缩写码;
利用上述实施例提供的蛋白质特征提取的方法中的任意一种,提取所述待测字符串的文本特征;
将所述待测字符串的文本特征输入预先训练得到的蛋白质功能模型;所述蛋白质功能模型是利用上述实施例提供的蛋白质功能模型生成的方法中的任意一种,得到的;
根据所述蛋白质功能模型的输出结果,获得所述待测蛋白质的功能。
可选的,所述从所述待测氨基酸序列上截取至少一个待测字符串,具体包括:
以滑窗的方式对所述待测氨基酸序列进行划分,得到多个所述待测字符串;
或者,
对所述待测氨基酸序列上的残基作用位点进行预测,提取所述待测氨基酸序列上包括预测得到的残基作用位点的一个或多个连续的氨基酸缩写码,得到所述待测字符串。
可选的,所述利用上述实施例提供的蛋白质特征提取的方法中的任意一种,提取所述待测字符串的文本特征,具体包括:
从预先构建的特征表中查找与所述待测字符串匹配的字符串;所述特征表携带多个字符串及其对应的文本特征,所述特征表中字符串对应的文本特征是预先利用上述实施例提供的蛋白质特征提取方法中的任意一种得到的;
将匹配到的字符串所对应的文本特征确定为所述待测字符串的文本特征。
本申请实施例提供的一种蛋白质特征提取的装置,所述装置包括:数据获取模块、数据处理模块和特征提取模块;
所述数据获取模块,用于获取目标蛋白质的氨基酸序列和所述目标蛋白质的氨基酸序列上的残基作用位点,得到目标氨基酸序列和目标残基作用位点;所述氨基酸序列包括多个顺序排列的氨基酸缩写码;
所述数据处理模块,用于从所述目标氨基酸序列上截取一个氨基酸缩写码或多个连续的氨基酸缩写码,得到目标字符串;所述目标字符串包括所述目标残基作用位点;
所述特征提取模块,用于提取所述目标字符串在所述目标氨基酸序列中的文本特征,所述文本特征用于表征所述目标蛋白质的功能。
可选的,所述特征提取模块,具体包括:信息提取子模块和特征获取子模块;
所述信息提取子模块,用于提取所述目标字符串在所述目标氨基酸序列中的上下文信息;
所述特征获取子模块,用于利用所述上下文信息,获得所述目标字符串的特征向量作为所述文本特征。
可选的,所述特征获取子模块,具体用于:
获取所述目标字符串的独热码、所述上下文信息的独热码以及预先构建的初始化权重矩阵;
利用所述上下文信息的独热码对所述初始化权重矩阵进行训练,得到更新矩阵;
根据所述更新矩阵和所述目标字符串的独热码,得到所述目标字符串的特征向量。
可选的,所述目标字符串还包括在所述目标氨基酸序列中与所述目标残基作用位点相邻的第一子字符串和/或第二子字符串;
所述第一子字符串位于所述目标残基作用位点的左侧,所述第二子字符串位于所述目标残基作用位点的右侧;
所述第一子字符串和所述第二子字符串均包括至少一个氨基酸缩写码。
本申请实施例提供的一种蛋白质功能模型生成的装置,所述装置包括:数据获取模块、数据处理模块、特征获取模块和模型训练模块;
所述数据获取模块,用于获取训练蛋白质的氨基酸序列和所述训练蛋白质的氨基酸序列上的残基作用位点,得到训练氨基酸序列和训练残基作用位点;所述氨基酸序列包括多个顺序排列的氨基酸缩写码;
所述数据处理模块,用于从所述训练氨基酸序列上截取包括所述训练残基作用位点的第一训练字符串和不包括所述训练残基作用位点的第二训练字符串;所述第一训练字符串和所述第二训练字符串包括一个或多个连续的氨基酸缩写码,且所述第一训练字符串和所述第二训练字符串中包括的氨基酸缩写码数量相等;
所述特征获取模块,用于获得所述第一训练字符串的文本特征和所述第二训练字符串的文本特征;所述文本特征利用上述实施例提供的蛋白质特征提取的方法中的任意一种得到;
所述模型训练模块,用于将所述第一训练字符串的文本特征和所述第二训练字符串的文本特征作为训练数据,根据每条所述训练数据及其对应的分类标签训练预先构建的初始模型,得到蛋白质功能模型;所述分类标签是根据对应的训练数据中是否包括所述训练残基作用位点确定的,所述蛋白质功能模型用于对蛋白质的功能进行预测。
可选的,所述特征获取模块,具体包括:查找子模块和确定子模块;
所述查找子模块,用于从预先构建的特征表中查找与目标训练字符串匹配的字符串,所述目标字符串为所述第一训练字符串或所述第二训练字符串;所述特征表携带多个字符串及其对应的文本特征,所述特征表中字符串对应的文本特征是预先利用上述实施例提供的蛋白质特征提取方法中任意一种得到的;
所述确定子模块,用于将匹配到的字符串所对应的文本特征确定为所述目标训练字符串的文本特征。
本申请实施例提供的一种蛋白质功能预测的装置,所述装置包括:数据获取模块、数据处理模块、特征提取模块和功能预测模块;
所述数据获取模块,用于获取待测蛋白质的氨基酸序列,得到待测氨基酸序列;所述氨基酸序列包括多个顺序排列的氨基酸缩写码;
所述数据处理模块,用于从所述待测氨基酸序列上截取至少一个待测字符串;所述待测字符串包括所述待测氨基酸序列上一个或多个连续的氨基酸缩写码;
所述特征提取模块,用于利用上述实施例提供的蛋白质特征提取的方法中任意一种,提取所述待测字符串的文本特征;
所述功能预测模块,用于将所述待测字符串的文本特征输入预先训练得到的蛋白质功能模型;根据所述蛋白质功能模型的输出结果,获得所述待测蛋白质的功能;所述蛋白质功能模型是利用上述实施例提供的蛋白质功能模型生成的方法中任意一种得到的。
可选的,所述数据处理模块,具体包括:第一处理子模块或第二处理子模块;
所述第一处理子模块,用于以滑窗的方式对所述待测氨基酸序列进行划分,得到多个所述待测字符串;
所述第二处理子模块,用于对所述待测氨基酸序列上的残基作用位点进行预测,提取所述待测氨基酸序列上包括预测得到的残基作用位点的一个或多个连续的氨基酸缩写码,得到所述待测字符串。
可选的,所述特征提取模块,具体包括:查找子模块和确定子模块;
所述查找子模块,用于从预先构建的特征表中查找与所述待测字符串匹配的字符串;所述特征表携带多个字符串及其对应的文本特征,所述特征表中字符串对应的文本特征是预先利用上述实施例提供的蛋白质特征提取方法中任意一种得到的;
所述确定子模块,用于将匹配到的字符串所对应的文本特征确定为所述待测字符串的文本特征。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时,实现如上述实施例提供的蛋白质特征提取的方法中任意一种,或者,实现如上述实施例提供的蛋白质功能模型生成的方法中任意一种,或者,实现如上述实施例提供的蛋白质功能预测的方法中任意一种。
本申请实施例还提供了一种数据处理设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器,用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器,用于根据所述程序代码中的指令,执行如上述实施例提供的蛋白质特征提取的方法中任意一种,或者,执行如上述实施例提供的蛋白质功能模型生成的方法中任意一种,或者,执行上述实施例提供的蛋白质功能预测的方法中任意一种。
与现有技术相比,本申请至少具有以下优点:
在本申请实施例中,首先确定蛋白质氨基酸序列和氨基酸序列上能够与其他生物大分子或金属离子结合的残基作用位点,再从该氨基酸序列中截取包括残基作用位点的一个或多个连续的氨基酸缩写码得到目标字符串,然后提取目标字符串在该氨基酸序列中的文本特征以表征蛋白质与其他生物大分子或金属离子结合的能力,即蛋白质的功能,以残基作用位点在氨基酸序列上的特征作为蛋白质功能的表达,能够为后续利用机器学习算法进行蛋白质功能预测时提供高质量的特征输入,有利于摒弃耗时耗力的人工预测方法,提高蛋白质功能预测的效率和准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种蛋白质特征提取方法的流程示意图;
图2为本申请实施例提供的另一种蛋白质特征提取方法的流程示意图;
图3为本申请实施例提供的一种蛋白质功能模型生成方法的流程示意图;
图4为本申请实施例提供的一种蛋白质功能预测方法的流程示意图;
图5为本申请实施例提供的一种蛋白质特征提取装置的结构示意图;
图6为本申请实施例提供的另一种蛋白质特征提取装置的结构示意图;
图7为本申请实施例提供的一种蛋白质功能模型生成装置的结构示意图;
图8为本申请实施例提供的一种蛋白质功能预测装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
为了便于理解,下面首先介绍本申请实施例涉及的多个技术术语。
蛋白质的功能:具体表达为蛋白质与蛋白质、蛋白质与糖类、蛋白质与脂质、蛋白质与DNA/RNA、蛋白质与金属离子(如铁离子、镁离子等)间的相互作用能力。
氨基酸序列:是氨基酸相互连接形成肽链(如蛋白质)或多肽的顺序。一般可以以字符串的形式存在,每个字符可以为一种氨基酸的氨基酸缩写码。氨基酸有100多种不同类型,其中20种常用于生产蛋白质。下表为20种常用于生产蛋白质的氨基酸及其对应的氨基酸缩写码:
下面举例示出了一种蛋白质的氨基酸序列片段:
“……KSAPYFLEILDKRVENKGTGVKSLADVLGI……”
氨基酸残基(简称为残基):组成多肽的氨基酸在相互结合时,由于其部分基团参与了肽键的形成而失去一分子水,因此把多肽中的氨基酸单位称为氨基酸残基。
残基作用位点:是氨基酸序列中与其他生物大分子或金属离子等物质相互作用的残基,是判断蛋白质是否具有与其他物质相互作用能力,即是否具有某些功能的重要依据。残基作用位点与其他物质相互作用的能力不仅与其本身相关,还受到该残基作用位点周围残基的影响。
N-gram:是自然语言处理(Natural Language Processing,NLP)中给定的一段文本或语音中N个项目(item)的序列。项目(item)可以是音节、字母、单词或碱基对。当N=1时,可称为unigram;当N=2时,可称为bigram;当N=3时,可称为trigram,以此类推。在本申请实施例中,项目(item)具体指的是蛋白质氨基酸序列中的氨基酸残基。
蛋白质功能模型:指的是利用蛋白质氨基酸序列的特征所构建的用于预测蛋白质功能的模型。
为了对蛋白质的功能进行预测,通常是利用多种生物实验技术实现,如酵母双杂交技术(Y2H)和串联亲和纯化技术(TAP)等,然而生物实验会耗费大量的人力和时间,成本过高。为此,随着科技的发展,机器学习技术也被应用于对蛋白质功能的预测,以待测蛋白质的氨基酸序列中单个氨基酸(unigram)或者多个相邻氨基酸(bigram、trigram等)的出现频次为依据,判断待测蛋白质的功能,其本质是判断待测蛋白质的氨基酸序列和已知功能蛋白质的氨基酸序列之间的相似性。
但一方面,单个氨基酸的频次对蛋白质功能的表达能力有限,无法区分单个氨基酸的频次相同但功能不同的两种蛋白质,对蛋白质功能的预测精度和准确度不高。另一方面,由于以多个相邻氨基酸为单位所提取出的特征向量,需要对每种不同结构的多个相邻氨基酸的出现频次进行表示,例如以氨基酸序列中3个相邻氨基酸(trigram)提取出的特征向量,氨基酸序列中3个相邻的氨基酸共存在203=8000种结构,特征向量需要对这8000种trigram的出现频次进行表示,需要8000维的特征向量来表示,特征向量的维度较高。但是,在待测蛋白质的氨基酸序列中,仅仅会包括8000种不同结构的trigram中的一部分,8000维的特征向量中仅会对氨基酸序列中出现的trigram结构的出现频次进行表示,即8000维的特征向量中仅会有少量的位数不为零,不为零的数据量稀疏,导致以多个相邻氨基酸提取出的待测蛋白质的特征向量,存在高维特征向量数据稀疏的问题,提取出的特征向量质量偏低,容易发生特征信息量的丢失。并且,以该高维特征向量构建出的蛋白质功能模型复杂度过高,存在模型过拟合的问题。因此,以氨基酸序列中多个相邻氨基酸的出现频次为依据同样对蛋白质功能的预测精度和准确度不高。
为此,本申请实施例第一方面提供了一种蛋白质特征提取的方法及装置,第二方面提供了一种蛋白质功能模型生成的方法及装置,第三方面提供了一种蛋白质功能预测的方法及装置,以蛋白质与其他分子或离子相互作用的残基作用位点作为特征提取的单位,将蛋白质功能预测的依据落在与其功能相关的残基作用位点上,通过确定待测蛋白质的氨基酸序列中是否包括与功能相关的残基作用位点,来对待测蛋白质的功能进行预测,能够提高对蛋白质功能预测的准确率和精度。并且,由于残基作用位点的类型有限,以残基作用位点提取出的特征向量维度较低,降低了模型的复杂程度,能够提高对蛋白质功能预测的准确率和精度。在实际应用中,还可以仅仅针对蛋白质某一类型的功能(如分别对蛋白质与蛋白质、蛋白质与糖类、蛋白质与脂质、蛋白质与脱氧核糖核酸DNA或RNA、蛋白质与金属离子间的相互作用能力)单独训练模型进行预测,进一步减小特征向量的维度、提高特征向量的稠密度,使得蛋白质功能预测具有更高的准确率和精度。
基于上述思想,为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请的具体实施方式做详细的说明。
参见图1,该图为本申请实施例提供的一种蛋白质特征提取方法的流程示意图。
本申请实施例提供的蛋白质特征提取的方法,用于对待测蛋白质与其他分子或离子的相互作用能力,即待测蛋白质的功能进行预测,该方法具体包括:
S101:获取目标蛋白质的氨基酸序列和目标蛋白质的氨基酸序列上的残基作用位点,得到目标氨基酸序列和目标残基作用位点。
在本申请实施例中,目标蛋白质是功能已知的蛋白质,其氨基酸序列包括多个顺序排列的氨基酸缩写码,可视为一串连续的字符串。例如,上文给出的氨基酸序列片段:
“……KSAPYFLEILDKRVENKGTGVKSLADVLGI……”
就可以是目标蛋白质氨基酸序列的一部分。这里需要说明的是,由于在实际情况中每个蛋白质的氨基酸序列中包括的氨基酸残基数量过多,为了方便说明和理解,在本申请实施例中仅以上面给出的氨基酸序列片段为例进行说明,对氨基酸序列的整体的实施方式与此类似,这里不再单独进行说明。
在实际应用中,目标蛋白质的氨基酸序列可以利用生物实验确定,还可以从已有的蛋白质数据库,如UniProt蛋白质序列库(UniProt Knowledgebase,UniProtKB)、蛋白质立体结构库(Protein Data Bank,PDB)等中获取功能已知的目标蛋白质的氨基酸序列。
由于目标蛋白质的功能已知,其氨基酸序列上能够与其他分子或离子相互作用的残基作用位点的位置是已知的,与该残基作用位点相互作用的分子或离子信息也是已知的。可以理解的是,目标残基作用位点以氨基酸缩写码表示,每个蛋白质的氨基酸序列中至少包括一个目标残基作用位点。
继续以上面给出的氨基酸序列片段为例,其上的残基作用位点以加粗加下划线的方式示出:
“……KSAPYFLEILDKRVENKGTGVKSLADVLGI……”。
类似的,目标蛋白质的残基作用位点(即目标残基作用位点)也可以是利用生物实验获得,或者从已有的蛋白质数据库中获得的。例如,在UniProtKB中给出了蛋白质的残基作用位点信息,并在注释栏标出了每个残基作用位点具体能够与哪种分子或离子相互作用。在PDB中,可以根据目标蛋白质的立体结构获知其氨基酸序列上的残基作用位点。
S102:从目标氨基酸序列上截取一个氨基酸缩写码或多个连续的氨基酸缩写码,得到目标字符串。
在本申请实施例中,从目标氨基酸序列上截取出的目标字符串中包括目标残基作用位点。实际应用中,可以将目标残基作用位点作为截取出的目标字符串,也可以将目标残基作用位点和与其相邻的一个或多个连续的氨基酸缩写码组成的连续字符串作为目标字符串,本申请实施例对此不进行限定。
在一些可能的实现方式中,目标字符串还包括在目标氨基酸序列中与目标残基作用位点相邻的第一子字符串和/或第二子字符串;第一子字符串位于目标残基作用位点的左侧,第二子字符串位于目标残基作用位点的右侧;第一子字符串和第二子字符串均包括至少一个氨基酸缩写码。
需要说明的是,第一子字符串和第二子字符串所包括的字符数量可以相同,也可以不相同;目标残基作用位点可以是目标字符串的中心,也可以不是目标字符串的中心,这里不进行限定。
以上面给出的氨基酸序列片段和其上的残基作用位点为例,
“……KSAPYFLEILDKRVENKGTGVKSLADVLGI……”。
作为一个示例,对第一个目标残基作用位点Y来说,目标字符串还可以包括与Y左侧相邻的第一子字符串P,和/或,与Y右侧相邻的第一子字符串F,即目标字符串可以是“PYF”。同理,对第二个目标残基作用位点K来说,目标字符串还可以包括与K左侧相邻的第一子字符串N,和/或,与K右侧相邻的第一子字符串G,即目标字符串可以是“NKG”。对第三个目标残基作用位点D来说,目标字符串还可以包括与D左侧相邻的第一子字符串A,和/或,与D右侧相邻的第一子字符串V,即目标字符串可以是“ADV”。
S103:提取目标字符串在目标氨基酸序列中的文本特征,文本特征用于表征目标蛋白质的功能。
在本申请实施例中,提取出的文本特征与目标字符串在目标氨基酸序列中的上下文特征相关。以该文本特征来表达目标蛋白质的功能,不仅可以将功能表达的关注点放在实际与功能相关的目标残基作用位点上,排除了目标氨基酸序列中其他残基对功能表达的误差影响,还考虑到了目标残基作用位点在目标氨基酸序列中的上下文特征,即考虑到了目标残基作用位点周边的残基,对该目标残基作用位点与其他分子或离子的相互作用能力(即目标蛋白质的功能)的影响。因此,利用目标字符串在目标氨基酸序列中的文本特征能够更加准确的对目标蛋白质的功能进行描述,进而提高了以该文本特征为依据对蛋白质的功能预测的准确性和精度。
在实际应用中,可以利用任意一种文本特征提取方法提取目标字符串在目标氨基酸序列中的文本特征,如词向量提取和任意一种关键词提取算法(例如TextRank算法、主题模型LDA等)中所用的文本特征提取方法等,本申请实施例对比不进行限定。下面将结合一个具体的例子,说明具体如何提取目标字符串在目标氨基酸序列中的文本特征,这里先不赘述。
还需要说明的是,在利用本申请实施例提供的蛋白质特征提取方法得到的文本特征对蛋白质的功能进行预测时,可以预先根据功能已知的蛋白质的氨基酸序列和残基作用位点,统计出各个不同残基作用位点所对应的文本特征得到特征表。然后在进行模型训练和应用时,直接从该特征表中获取对应的文本特征即可。
在本申请实施例中,首先确定蛋白质氨基酸序列和氨基酸序列上能够与其他生物大分子或金属离子结合的残基作用位点,再从该氨基酸序列中截取包括残基作用位点的一个氨基酸缩写码或多个连续的氨基酸缩写码得到目标字符串,然后提取目标字符串在该氨基酸序列中的文本特征以表征蛋白质与其他生物大分子或金属离子结合的能力,即蛋白质的功能,以残基作用位点在氨基酸序列上的特征作为蛋白质功能的表达,能够为后续利用机器学习算法进行蛋白质功能预测时提供高质量的特征输入,有利于摒弃耗时耗力的人工预测方法,提高蛋白质功能预测的效率和准确率。
下面以词向量为例,详细说明具体如何提取目标字符串在目标氨基酸序列中的文本特征。
参见图2,该图为本申请实施例提供的另一种蛋白质特征提取方法的流程示意图。
在本申请实施例一些可能的实现方式中,步骤S103具体可以包括:
S201:提取目标字符串在目标氨基酸序列中的上下文信息。
在本申请实施例中,上下文信息可以包括:与目标字符串左侧相邻的一个字符串或多个连续的字符串,以及,与目标字符串右侧相邻的一个字符串或多个连续的字符串,需要说明的是,该字符串与目标字符串的长度相同。实际应用中可以根据具体需要确定上下文信息的具体范围。
继续以上面给出的氨基酸序列片段为例说明,目标残基作用位点为其中加粗、下划线方式示出的氨基酸缩写码,目标字符串为“PYF”、“NKG”和“ADV”:
“……KSAPYFLEILDKRVENKGTGVKSLADVLGI……”
则,在一个例子中,目标字符串“NKG”在目标氨基酸序列中的上下文信息可以包括:左侧的“LDK”和“RVE”,以及,右侧的“TGV”和“KSL”。
S202:利用上下文信息,获得目标字符串的特征向量作为文本特征。
在本申请实施例中,特征向量与目标字符串的上下文信息相关,可以表达目标字符串在目标氨基酸序列中的文本特征。利用与目标字符串的上下文信息相关的特征向量来表征目标蛋白质的功能,可以在以目标字符串的特征向量为依据对蛋白质的功能预测时,将目标氨基酸序列中与目标残基作用位点相邻的残基,对该目标残基作用位点与其他物质相互作用能力的影响考虑在内,使得预测结果具有较高的准确性和精度。
在本申请实施例一些可能的实现方式中,步骤S202具体可以包括:
S2021:获取目标字符串的独热码、上下文信息的独热码以及预先构建的初始化权重矩阵。
独热码(One-Hot code),又称一位有效编码,直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制。在本申请实施例中,由于共有20种氨基酸常用于蛋白质的生产,即氨基酸序列中总共会出现20种不同的字符。根据目标字符串包括的字符数量,就可以确定在目标氨基酸序列中总共会出现多少种字符串状态。以上面给出的目标字符串“NKG”为例,目标字符串包括3个字符,则目标氨基酸序列中的字符串存在203种字符串状态,即8000个不同的字符串。为了表示每个字符串状态,则可以将目标字符串的独热码设置为8000维的向量(即共8000比特),以表示目标氨基酸序列中可能出现的8000种字符串状态。
为了简化说明,以上面给出的目标字符串“NKG”、上下文信息包括“LDK”、“RVE”、“TGV”和“KSL”共5种字符串状态为例,对目标字符串的独热码和上下文信息的独热码进行说明。
目标字符串“NKG”、上下文信息包括“LDK”、“RVE”、“TGV”和“KSL”对应的独热码X可以分别为:
XLDK=[1,0,0,0,0]T;XRVE=[0,1,0,0,0]T;XNKG=[0,0,1,0,0]T;XTGV=[0,0,0,1,0]T;XKSL=[0,0,0,0,1]T
需要说明的是,初始化权重矩阵的列数与字符串状态的数量相关,行数和词向量的维数相关。具体在本申请实施例中,目标氨基酸序列中的字符串存在8000种字符串状态,则构建的初始化权重矩阵需要设置为8000列;初始化权重矩阵的行数等于词向量的维数。在实际应用中,可以根据实际需要设定词向量的维数。在一些可能的设计中,为保证数据的有效性,一般将词向量设置为100-300维之间。而初始化权重矩阵中的数值可以随机生成。
为了简化说明,假设词向量的维数为3、目标氨基酸序列中的字符串存在5种字符串状态。在一个例子中,构建的初始化权重矩阵W可以为:
S2022:利用上下文信息的独热码对初始化权重矩阵进行训练,得到更新矩阵。
在本申请实施例中,可以先将每个上下文信息的独热码与初始化权重矩阵W相乘,并求得乘积结果的平均。然后,将初始权重矩阵的转置矩阵WT与求得的平均相乘利用归一化指数(Softmax)函数归一化,得到各个字符串的概率。然后,以使“NKG”对应的概率最大为目标,通过梯度迭代优化对初始化权重矩阵进行训练,得到更新矩阵。
继续以上面的例子中给出的独热码和初始化权重矩阵W为例说明,将“LDK”、“RVE”、“TGV”和“KSL的独热码与初始化权重矩阵W相乘,得到如下结果:
W*XLDK=[0,-1,1]T;W*XRVE=[1,4,2]T;W*XTGV=[3,1,2]T;W*XKSL=[0,4,3]T
上面四个乘积结果的平均XARG为XARG=[1,2,2]T
初始权重矩阵的转置矩阵WT
转置矩阵WT与平均XARG的乘积为
WT*XARG=[0,13,8,9,14]T=[zLDK,zRVE,zNKG,zTGV,zKSL]T
其中,WT*XARG的每行从上至下分别对应“LDK”、“RVE”、“NKG”、“TGV”和“KSL”。
然后,利用Softmax函数,即下式(1)计算得到“NKG”的概率σNKG
通过梯度迭代优化初始化权重矩阵W,修改初始化权重矩阵W中的数据使得“NKG”的概率最大σNKG,优化后的初始化权重矩阵即为得到的更新矩阵WN
在一个例子中,更新矩阵WN可以是
则,“NKG”的概率σNKG最大。
S2023:根据更新矩阵和目标字符串的独热码,得到目标字符串的特征向量。
在得到更新矩阵后,将更新矩阵WN与“NKG”的独热码相乘即可得到目标字符串“NKG”的特征向量[2,2,5]。
需要说明的是,以上仅是对具体如何获得目标字符串的特征向量的举例说明,实际应用中可以采用任意一种方式获得目标字符串的特征向量,本申请对此不进行限定,这里也不再一一赘述。
在本申请实施例一些可能的实现方式中,将包括残基作用位点的目标字符串的特征向量作为蛋白质功能的表达,充分考虑残基作用位点周边残基对蛋白质功能的影响,以该特征向量为依据进行蛋白质功能的预测能够提高预测的准确度和精度。
基于上述实施例提供的蛋白质特征提取的方法,本申请实施例还提供了一种蛋白质功能模型生成的方法。
参见图3,该图为本申请实施例提供的一种蛋白质功能模型生成方法的流程示意图。
本申请实施例提供的蛋白质功能模型生成的方法,包括:
S301:获取训练蛋白质的氨基酸序列和训练蛋白质的氨基酸序列上的残基作用位点,得到训练氨基酸序列和训练残基作用位点。
在本申请实施例中,训练蛋白质是功能已知的蛋白质,其氨基酸序列包括多个顺序排列的氨基酸缩写码,可视为一串连续的字符串。与上面蛋白质功能特征提取的方法实施例中所述的类似,在本申请实施例中,也可以通过相似的方式得到训练蛋白质的氨基酸序列和其上的残基作用位点,具体参见上面的相关说明即可,不再赘述。
这里需要说明的是,在利用蛋白质数据库得到训练氨基酸序列和训练残基作用位点时,由于不同的蛋白质数据库中的数据可能不全,可以综合多个蛋白质数据库中的数据,提取每个数据库中的氨基酸序列后,利用序列聚类(如BLASTCLUST)工具去除序列冗余,去冗余的相似度可以根据实际需要设定,如两个氨基酸序列的相似度超过40%则可认为这两个氨基酸序列是相同的氨基酸序列。
S302:从训练氨基酸序列上截取包括训练残基作用位点的第一训练字符串和不包括训练残基作用位点的第二训练字符串。
在本申请实施例中,第一训练字符串和第二训练字符串包括一个氨基酸缩写码或多个连续的氨基酸缩写码,且第一训练字符串和第二训练字符串中包括的氨基酸缩写码数量相等。
以下面的氨基酸序列片段和其上加粗、下划线标出的残基作用位点为例,
“……KSAPYFLEILDKRVENKGTGVKSLADVLGI……”
第一训练字符串可以是“PYF”、“NKG”和“ADV”,第二训练字符串可以是“KSA”、“LEI”、“LDK”、“RVE”、“TGV”、“KSL”和“LGI”。可以理解的是,本申请实施例中,第一训练字符串的截取方式可以与上面提供的蛋白质特征提取的方法实施例中截取目标字符串的方式类似,第二训练字符串的截取方式可以与上面提供的蛋白质特征提取的方法实施例中截取目标字符串的上下文信息的方式类似,这里不再赘述。
S303:获得第一训练字符串的文本特征和第二训练字符串的文本特征。
在本申请实施例中,可以利用上述实施例提供的蛋白质特征提取的方法中的任意一种获得第一训练字符串的文本特征和第二训练字符串的文本特征,具体实施方式这里不再赘述。
在本申请实施例一些可能的实现方式中,步骤S303具体可以包括:
从预先构建的特征表中查找与目标训练字符串匹配的字符串,将匹配到的字符串所对应的文本特征确定为目标训练字符串的文本特征。
其中,目标字符串为第一训练字符串或第二训练字符串;特征表携带多个字符串及其对应的文本特征,特征表中字符串对应的文本特征是预先利用上述实施例提供的蛋白质特征提取的方法中的任意一种得到的。
由于可以预先利用上面提供的蛋白质特征提取的方法实施例中统计出各个不同残基作用位点所对应的文本特征得到特征表,因此,可以从该特征表直接查找与第一训练字符串匹配的字符串及其对应的文本特征,获得第一训练字符串的文本特征。
需要说明的是,实际应用中,还可以利用上述实施例提供的蛋白质特征提取的方法对各种不包括残基作用位点的第二训练字符串在氨基酸序列中的文本特征进行提取,预先获得多个不包括残基作用位点的字符串及其对应的文本特征存放在该特征表中。因此,还可以从该特征表查找与第二训练字符串匹配的字符串及其对应的文本特征,获得第二训练字符串的文本特征。
S304:将第一训练字符串的文本特征和第二训练字符串的文本特征作为训练数据,根据每条训练数据及其对应的分类标签训练预先构建的初始模型,得到蛋白质功能模型。
其中,分类标签是根据对应的训练数据中是否包括训练残基作用位点确定的,例如,对第一训练字符串的文本特征,其分类标签为是;对第二训练字符串的文本特征分类标签为否。本申请实施例对初始模型的结构不进行限定,可以根据实际需要具体设定,训练得到的蛋白质功能模型用于对蛋白质的功能进行预测。
这里需要说明的是,由于蛋白质可以与多种生物大分子或金属离子等物质之间存在相互作用能力,当训练得到一个模型可以针对蛋白质的全部功能进行预测输出时,可能会存在模型复杂度过高、训练耗时长、模型输出不准确的问题。
因此,在一些可能的实现方式中,可以分别针对蛋白质不同类型的功能训练一个专用的功能模型进行预测,例如,分别针对蛋白质与蛋白质、蛋白质与糖类、蛋白质与脂质、蛋白质与DNA/RNA、蛋白质与金属离子间的相互作用能力训练一个模型进行预测。或者,还可以针对蛋白质的每个功能均训练一个专用的功能模型进行预测,例如,针对蛋白质是否具有其中一个功能(如与铁离子相互作用的能力)训练一个模型进行预测,本申请实施例对此不进行限定。
在本申请实施例中,首先确定蛋白质氨基酸序列和氨基酸序列上能够与其他生物大分子或金属离子结合的残基作用位点,再从该氨基酸序列中截取包括残基作用位点的一个氨基酸缩写码或多个连续的氨基酸缩写码得到目标字符串,然后提取目标字符串在该氨基酸序列中的文本特征以表征蛋白质与其他生物大分子或金属离子结合的能力,即蛋白质的功能,以残基作用位点在氨基酸序列上的特征作为蛋白质功能的表达,为模型训练提供高质量的特征输入,有利于摒弃耗时耗力的人工预测方法,提高蛋白质功能预测的效率和准确率。
基于上述实施例提供的蛋白质特征提取的方法和蛋白质功能模型生成的方法,本申请实施例还提供了一种蛋白质功能预测的方法。
参见图4,该图为本申请实施例提供的一种蛋白质功能预测方法的流程示意图。
本申请实施例提供的蛋白质功能预测的方法,包括:
S401:获取待测蛋白质的氨基酸序列,得到待测氨基酸序列。
在本申请实施例中,待测蛋白质的氨基酸序列可以通过实验得到,本申请实施例对其获得方式不进行限定。待测氨基酸序列包括多个顺序排列的氨基酸缩写码,可视为一串连续的字符串。
S402:从待测氨基酸序列上截取至少一个待测字符串。
在本申请实施例中,待测字符串包括待测氨基酸序列上一个或多个连续的氨基酸缩写码。这里需要说明的是,待测字符串的长度需要与训练蛋白质功能模型所用的训练字符串的长度相同,以保证利用该蛋白质功能模块对待测蛋白质功能预测的准确度。
在一些可能的实现方式中,一方面,可以用滑窗的方式对待测氨基酸序列进行划分,得到多个待测字符串,可以避免信息的遗漏,保证功能预测的准确度和精度。以如下氨基酸序列片段为例,
“……KSAPYFLEILDKRVENKGTGVKSLADVLGI……”
可以将该氨基酸序列片段划分为“KSA”、“SAP”、“APY”、“PYF”和“YFL”等待测字符串。
另一方面,也可以先对待测氨基酸序列上的残基作用位点进行预测,提取待测氨基酸序列上包括预测得到的残基作用位点的一个氨基酸缩写码或多个连续的氨基酸缩写码,得到待测字符串。
实际应用中,可以利用任意一种方式对待测氨基酸序列上的残基作用位点进行预测,预先判断待测氨基酸上可能存在的残基作用位点,再以预测出的残基作用位点为判断的依据,对待测蛋白质的功能进行预测,可以缩小计算量,提高功能预测的效率。
S403:利用上述实施例提供的蛋白质特征提取的方法中的任意一种,提取待测字符串的文本特征。
具体实现可以参见上面的蛋白质特征提取的方法实施例中的相关说明,这里不再赘述。
在本申请实施例一些可能的实现方式中,步骤S403具体可以包括:
从预先构建的特征表中查找与待测字符串匹配的字符串;将匹配到的字符串所对应的文本特征确定为待测字符串的文本特征。
其中,特征表携带多个字符串及其对应的文本特征,特征表中字符串对应的文本特征是预先利用上述实施例提供的蛋白质特征提取的方法中的任意一种得到的。
实际应用中,可以预先提取出各个字符串及其对应的文本特征得到特征表,然后从该特征表中即可根据与待测字符串匹配的字符串所对应的文本特征,确定出待测字符串的文本特征。
S404:将待测字符串的文本特征输入预先训练得到的蛋白质功能模型。
在本申请实施例中,输入的蛋白质功能模型是利用上述实施例提供的蛋白质功能模型生成的方法中的任意一种训练得到的,具体实现参见上面的相关说明,需要注意的是,模型训练用的训练字符串与待测字符串的长度相等。
S405:根据蛋白质功能模型的输出结果,获得目标蛋白质的功能。
在本申请实施例中,首先确定蛋白质氨基酸序列和氨基酸序列上能够与其他生物大分子或金属离子结合的残基作用位点,再从该氨基酸序列中截取包括残基作用位点的一个氨基酸缩写码或多个连续的氨基酸缩写码得到目标字符串,然后提取目标字符串在该氨基酸序列中的文本特征以表征蛋白质与其他生物大分子或金属离子结合的能力,即蛋白质的功能,以残基作用位点在氨基酸序列上的特征作为蛋白质功能的表达,为模型训练提供高质量的特征输入,有利于摒弃耗时耗力的人工预测方法,提高蛋白质功能预测的效率和准确率。
基于上述实施例提供的蛋白质特征提取的方法、功能模型生成的方法和功能预测的方法,本申请实施例还提供了一种蛋白质特征提取的装置。
参见图5,该图为本申请实施例提供的一种蛋白质特征提取装置的结构示意图。
本申请实施例提供的蛋白质特征提取的装置,包括:数据获取模块501、数据处理模块502和特征提取模块503;
数据获取模块501,用于获取目标蛋白质的氨基酸序列和目标蛋白质的氨基酸序列上的残基作用位点,得到目标氨基酸序列和目标残基作用位点;氨基酸序列包括多个顺序排列的氨基酸缩写码;
数据处理模块502,用于从目标氨基酸序列上截取一个氨基酸缩写码或多个连续的氨基酸缩写码,得到目标字符串;目标字符串包括目标残基作用位点;
特征提取模块503,用于提取目标字符串在目标氨基酸序列中的文本特征,文本特征用于表征目标蛋白质的功能。
在本申请实施例一些可能的实现方式中,如图6所示,特征提取模块503,具体可以包括:信息提取子模块503a和特征获取子模块503b;
信息提取子模块,用于提取目标字符串在目标氨基酸序列中的上下文信息;
特征获取子模块,用于利用上下文信息,获得目标字符串的特征向量作为文本特征。
可选的,特征获取子模块,具体可以用于:获取目标字符串的独热码、上下文信息的独热码以及预先构建的初始化权重矩阵;利用上下文信息的独热码对初始化权重矩阵进行训练,得到更新矩阵;根据更新矩阵和目标字符串的独热码,得到目标字符串的特征向量。
在本申请实施例一些可能的实现方式中,目标字符串还包括在目标氨基酸序列中与目标残基作用位点相邻的第一子字符串和/或第二子字符串;
第一子字符串位于目标残基作用位点的左侧,第二子字符串位于目标残基作用位点的右侧;
第一子字符串和第二子字符串均包括至少一个氨基酸缩写码。
在本申请实施例中,首先确定蛋白质氨基酸序列和氨基酸序列上能够与其他生物大分子或金属离子结合的残基作用位点,再从该氨基酸序列中截取包括残基作用位点的一个氨基酸缩写码或多个连续的氨基酸缩写码得到目标字符串,然后提取目标字符串在该氨基酸序列中的文本特征以表征蛋白质与其他生物大分子或金属离子结合的能力,即蛋白质的功能,以残基作用位点在氨基酸序列上的特征作为蛋白质功能的表达,能够为后续利用机器学习算法进行蛋白质功能预测时提供高质量的特征输入,有利于摒弃耗时耗力的人工预测方法,提高蛋白质功能预测的效率和准确率。
基于上述实施例提供的蛋白质特征提取的方法、功能模型生成的方法和功能预测的方法,本申请实施例还提供了一种蛋白质功能模型生成的装置。
参见图7,该图为本申请实施例提供的一种蛋白质功能模型生成装置的结构示意图。
本申请实施例提供的蛋白质功能模型生成的装置,包括:数据获取模块701、数据处理模块702、特征获取模块703和模型训练模块704;
数据获取模块701,用于获取训练蛋白质的氨基酸序列和训练蛋白质的氨基酸序列上的残基作用位点,得到训练氨基酸序列和训练残基作用位点;氨基酸序列包括多个顺序排列的氨基酸缩写码;
数据处理模块702,用于从训练氨基酸序列上截取包括训练残基作用位点的第一训练字符串和不包括训练残基作用位点的第二训练字符串;第一训练字符串和第二训练字符串包括一个或多个连续的氨基酸缩写码,且第一训练字符串和第二训练字符串中包括的氨基酸缩写码数量相等;
特征获取模块703,用于获得第一训练字符串的文本特征和第二训练字符串的文本特征;文本特征利用如上述实施例提供的蛋白质特征提取的方法中的任意一种得到;
模型训练模块704,用于将第一训练字符串的文本特征和第二训练字符串的文本特征作为训练数据,根据每条训练数据及其对应的分类标签训练预先构建的初始模型,得到蛋白质功能模型;分类标签是根据对应的训练数据中是否包括训练残基作用位点确定的,蛋白质功能模型用于对蛋白质的功能进行预测。
在本申请实施例一些可能的实现方式中,特征获取模块703,具体可以包括:查找子模块703a和确定子模块703b;
查找子模块703a,用于从预先构建的特征表中查找与目标训练字符串匹配的字符串,目标字符串为第一训练字符串或第二训练字符串;特征表携带多个字符串及其对应的文本特征,特征表中字符串对应的文本特征是预先利用权利要求1-4任意一项的蛋白质特征提取方法得到的;
确定子模块703b,用于将匹配到的字符串所对应的文本特征确定为目标训练字符串的文本特征。
在本申请实施例中,首先确定蛋白质氨基酸序列和氨基酸序列上能够与其他生物大分子或金属离子结合的残基作用位点,再从该氨基酸序列中截取包括残基作用位点的一个氨基酸缩写码或多个连续的氨基酸缩写码得到目标字符串,然后提取目标字符串在该氨基酸序列中的文本特征以表征蛋白质与其他生物大分子或金属离子结合的能力,即蛋白质的功能,以残基作用位点在氨基酸序列上的特征作为蛋白质功能的表达,为模型训练提供高质量的特征输入,有利于摒弃耗时耗力的人工预测方法,提高蛋白质功能预测的效率和准确率。
基于上述实施例提供的蛋白质特征提取的方法、功能模型生成的方法和功能预测的方法,本申请实施例还提供了一种蛋白质功能预测的装置。
参见图8,该图为本申请实施例提供的一种蛋白质功能预测装置的结构示意图。
本申请实施例提供的一种蛋白质功能预测的装置,包括:数据获取模块801、数据处理模块802、特征提取模块803和功能预测模块804;
数据获取模块801,用于获取待测蛋白质的氨基酸序列,得到待测氨基酸序列;氨基酸序列包括多个顺序排列的氨基酸缩写码;
数据处理模块802,用于从待测氨基酸序列上截取至少一个待测字符串;待测字符串包括待测氨基酸序列上一个或多个连续的氨基酸缩写码;
特征提取模块803,用于利用如上述实施例提供的蛋白质特征提取的方法中的任意一种,提取待测字符串的文本特征;
功能预测模块804,用于将待测字符串的文本特征输入预先训练得到的蛋白质功能模型;根据蛋白质功能模型的输出结果,获得待测蛋白质的功能;蛋白质功能模型是利用如上述实施例提供的蛋白质功能模型生成的方法中的任意一种得到的。
在本申请实施例一些可能的实现方式中,数据处理模块802,具体可以包括:第一处理子模块802a或第二处理子模块802b;
第一处理子模块802a,用于以滑窗的方式对待测氨基酸序列进行划分,得到多个待测字符串;
第二处理子模块802b,用于对待测氨基酸序列上的残基作用位点进行预测,提取待测氨基酸序列上包括预测得到的残基作用位点的一个或多个连续的氨基酸缩写码,得到待测字符串。
在本申请实施例一些可能的实现方式中,特征提取模块803,具体可以包括:查找子模块803a和确定子模块803b;
查找子模块803a,用于从预先构建的特征表中查找与待测字符串匹配的字符串;特征表携带多个字符串及其对应的文本特征,特征表中字符串对应的文本特征是预先利用如上述实施例提供的蛋白质特征提取方法中的任意一种得到的;
确定子模块803b,用于将匹配到的字符串所对应的文本特征确定为待测字符串的文本特征。
在本申请实施例中,首先确定蛋白质氨基酸序列和氨基酸序列上能够与其他生物大分子或金属离子结合的残基作用位点,再从该氨基酸序列中截取包括残基作用位点的一个氨基酸缩写码或多个连续的氨基酸缩写码得到目标字符串,然后提取目标字符串在该氨基酸序列中的文本特征以表征蛋白质与其他生物大分子或金属离子结合的能力,即蛋白质的功能,以残基作用位点在氨基酸序列上的特征作为蛋白质功能的表达,为模型训练提供高质量的特征输入,有利于摒弃耗时耗力的人工预测方法,提高蛋白质功能预测的效率和准确率。
基于上述实施例提供的蛋白质特征提取的方法、功能模型生成的方法和功能预测的方法,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时,实现如上述实施例提供的蛋白质特征提取的方法中的任意一种,或者,实现如上述实施例提供的蛋白质功能模型生成的方法中的任意一种,或者,实现如上述实施例提供的蛋白质功能预测的方法中的任意一种。
基于上述实施例提供的蛋白质特征提取的方法、功能模型生成的方法和功能预测的方法,本申请实施例还提供了一种数据处理设备,包括处理器以及存储器:
存储器,用于存储程序代码,并将程序代码传输给处理器;
处理器,用于根据程序代码中的指令,执行上述实施例提供的蛋白质特征提取的方法中的任意一种,或者,执行如上述实施例提供的蛋白质功能模型生成的方法中的任意一种,或者,执行如上述实施例提供的蛋白质功能预测的方法中的任意一种。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请。任何熟悉本领域的技术人员,在不脱离本申请技术方案范围情况下,都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本申请技术方案的内容,依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本申请技术方案保护的范围内。

Claims (10)

1.一种蛋白质特征提取的方法,其特征在于,所述方法包括:
获取目标蛋白质的氨基酸序列和所述目标蛋白质的氨基酸序列上的残基作用位点,得到目标氨基酸序列和目标残基作用位点;所述氨基酸序列包括多个顺序排列的氨基酸缩写码;
从所述目标氨基酸序列上截取一个氨基酸缩写码或多个连续的氨基酸缩写码,得到目标字符串;所述目标字符串包括所述目标残基作用位点;
提取所述目标字符串在所述目标氨基酸序列中的文本特征,所述文本特征用于表征所述目标蛋白质的功能。
2.根据权利要求1所述的方法,其特征在于,所述提取所述目标字符串在所述目标氨基酸序列中的文本特征,具体包括:
提取所述目标字符串在所述目标氨基酸序列中的上下文信息;
利用所述上下文信息,获得所述目标字符串的特征向量作为所述文本特征。
3.根据权利要求2所述的方法,其特征在于,所述利用所述上下文信息,获得所述目标字符串的特征向量作为所述文本特征,具体包括:
获取所述目标字符串的独热码、所述上下文信息的独热码以及预先构建的初始化权重矩阵;
利用所述上下文信息的独热码对所述初始化权重矩阵进行训练,得到更新矩阵;
根据所述更新矩阵和所述目标字符串的独热码,得到所述目标字符串的特征向量。
4.一种蛋白质功能模型生成的方法,其特征在于,所述方法包括:
获取训练蛋白质的氨基酸序列和所述训练蛋白质的氨基酸序列上的残基作用位点,得到训练氨基酸序列和训练残基作用位点;所述氨基酸序列包括多个顺序排列的氨基酸缩写码;
从所述训练氨基酸序列上截取包括所述训练残基作用位点的第一训练字符串和不包括所述训练残基作用位点的第二训练字符串;所述第一训练字符串和所述第二训练字符串包括一个或多个连续的氨基酸缩写码,且所述第一训练字符串和所述第二训练字符串中包括的氨基酸缩写码数量相等;
获得所述第一训练字符串的文本特征和所述第二训练字符串的文本特征;所述文本特征利用权利要求1-3任意一项所述的蛋白质特征提取的方法得到;
将所述第一训练字符串的文本特征和所述第二训练字符串的文本特征作为训练数据,根据每条所述训练数据及其对应的分类标签训练预先构建的初始模型,得到蛋白质功能模型;所述分类标签是根据对应的训练数据中是否包括所述训练残基作用位点确定的,所述蛋白质功能模型用于对蛋白质的功能进行预测。
5.一种蛋白质功能预测的方法,其特征在于,所述方法包括:
获取待测蛋白质的氨基酸序列,得到待测氨基酸序列;所述氨基酸序列包括多个顺序排列的氨基酸缩写码;
从所述待测氨基酸序列上截取至少一个待测字符串;所述待测字符串包括所述待测氨基酸序列上一个或多个连续的氨基酸缩写码;
利用权利要求1-3任意一项所述的蛋白质特征提取的方法,提取所述待测字符串的文本特征;
将所述待测字符串的文本特征输入预先训练得到的蛋白质功能模型;所述蛋白质功能模型是利用权利要求4所述的蛋白质功能模型生成的方法得到的;
根据所述蛋白质功能模型的输出结果,获得所述待测蛋白质的功能。
6.一种蛋白质特征提取的装置,其特征在于,所述装置包括:数据获取模块、数据处理模块和特征提取模块;
所述数据获取模块,用于获取目标蛋白质的氨基酸序列和所述目标蛋白质的氨基酸序列上的残基作用位点,得到目标氨基酸序列和目标残基作用位点;所述氨基酸序列包括多个顺序排列的氨基酸缩写码;
所述数据处理模块,用于从所述目标氨基酸序列上截取一个氨基酸缩写码或多个连续的氨基酸缩写码,得到目标字符串;所述目标字符串包括所述目标残基作用位点;
所述特征提取模块,用于提取所述目标字符串在所述目标氨基酸序列中的文本特征,所述文本特征用于表征所述目标蛋白质的功能。
7.一种蛋白质功能模型生成的装置,其特征在于,所述装置包括:数据获取模块、数据处理模块、特征获取模块和模型训练模块;
所述数据获取模块,用于获取训练蛋白质的氨基酸序列和所述训练蛋白质的氨基酸序列上的残基作用位点,得到训练氨基酸序列和训练残基作用位点;所述氨基酸序列包括多个顺序排列的氨基酸缩写码;
所述数据处理模块,用于从所述训练氨基酸序列上截取包括所述训练残基作用位点的第一训练字符串和不包括所述训练残基作用位点的第二训练字符串;所述第一训练字符串和所述第二训练字符串包括一个或多个连续的氨基酸缩写码,且所述第一训练字符串和所述第二训练字符串中包括的氨基酸缩写码数量相等;
所述特征获取模块,用于获得所述第一训练字符串的文本特征和所述第二训练字符串的文本特征;所述文本特征利用权利要求1-3任意一项所述的蛋白质特征提取的方法得到;
所述模型训练模块,用于将所述第一训练字符串的文本特征和所述第二训练字符串的文本特征作为训练数据,根据每条所述训练数据及其对应的分类标签训练预先构建的初始模型,得到蛋白质功能模型;所述分类标签是根据对应的训练数据中是否包括所述训练残基作用位点确定的,所述蛋白质功能模型用于对蛋白质的功能进行预测。
8.一种蛋白质功能预测的装置,其特征在于,所述装置包括:数据获取模块、数据处理模块、特征提取模块和功能预测模块;
所述数据获取模块,用于获取待测蛋白质的氨基酸序列,得到待测氨基酸序列;所述氨基酸序列包括多个顺序排列的氨基酸缩写码;
所述数据处理模块,用于从所述待测氨基酸序列上截取至少一个待测字符串;所述待测字符串包括所述待测氨基酸序列上一个或多个连续的氨基酸缩写码;
所述特征提取模块,用于利用权利要求1-3任意一项所述的蛋白质特征提取的方法,提取所述待测字符串的文本特征;
所述功能预测模块,用于将所述待测字符串的文本特征输入预先训练得到的蛋白质功能模型;根据所述蛋白质功能模型的输出结果,获得所述待测蛋白质的功能;所述蛋白质功能模型是利用权利要求4所述的蛋白质功能模型生成的方法得到的。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当该计算机程序被处理器执行时,实现如权利要求1-3任意一项所述的蛋白质特征提取的方法,或者,实现如权利要求4所述的蛋白质功能模型生成的方法,或者,实现如权利要求5所述的蛋白质功能预测的方法。
10.一种数据处理设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器,用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器,用于根据所述程序代码中的指令,执行如权利要求1-3任意一项所述的蛋白质特征提取的方法,或者,执行如权利要求4所述的蛋白质功能模型生成的方法,或者,执行如权利要求5所述的蛋白质功能预测的方法。
CN201811162692.4A 2018-09-30 2018-09-30 蛋白质特征提取、功能模型生成、功能预测的方法及装置 Active CN109215737B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811162692.4A CN109215737B (zh) 2018-09-30 2018-09-30 蛋白质特征提取、功能模型生成、功能预测的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811162692.4A CN109215737B (zh) 2018-09-30 2018-09-30 蛋白质特征提取、功能模型生成、功能预测的方法及装置

Publications (2)

Publication Number Publication Date
CN109215737A true CN109215737A (zh) 2019-01-15
CN109215737B CN109215737B (zh) 2021-03-02

Family

ID=64982825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811162692.4A Active CN109215737B (zh) 2018-09-30 2018-09-30 蛋白质特征提取、功能模型生成、功能预测的方法及装置

Country Status (1)

Country Link
CN (1) CN109215737B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111261223A (zh) * 2020-01-12 2020-06-09 湖南大学 一种基于深度学习的crispr脱靶效应预测方法
CN111401534A (zh) * 2020-04-29 2020-07-10 北京晶派科技有限公司 一种蛋白质性能预测方法、装置和计算设备
CN112185463A (zh) * 2020-09-21 2021-01-05 北京望石智慧科技有限公司 一种蛋白质特征提取方法、装置及计算机设备
CN113299339A (zh) * 2021-05-28 2021-08-24 平安科技(深圳)有限公司 基于深度学习的药物疗效预测方法、装置、设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1773517A (zh) * 2005-11-10 2006-05-17 上海交通大学 基于中文分词技术的蛋白质序列特征提取方法
CN103235900A (zh) * 2013-03-28 2013-08-07 中山大学 蛋白质复合体挖掘的加权组装聚类方法
CN107563150A (zh) * 2017-08-31 2018-01-09 深圳大学 蛋白质结合位点的预测方法、装置、设备及存储介质
KR20180017827A (ko) * 2016-08-11 2018-02-21 인하대학교 산학협력단 염기 프로파일과 조성을 이용하여 단백질과 결합하는 rna 서열 영역을 예측하는 방법 및 시스템
CN108009405A (zh) * 2017-12-26 2018-05-08 重庆佰诺吉生物科技有限公司 一种基于机器学习技术预测细菌外膜蛋白质的方法
CN108009154A (zh) * 2017-12-20 2018-05-08 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1773517A (zh) * 2005-11-10 2006-05-17 上海交通大学 基于中文分词技术的蛋白质序列特征提取方法
CN103235900A (zh) * 2013-03-28 2013-08-07 中山大学 蛋白质复合体挖掘的加权组装聚类方法
KR20180017827A (ko) * 2016-08-11 2018-02-21 인하대학교 산학협력단 염기 프로파일과 조성을 이용하여 단백질과 결합하는 rna 서열 영역을 예측하는 방법 및 시스템
CN107563150A (zh) * 2017-08-31 2018-01-09 深圳大学 蛋白质结合位点的预测方法、装置、设备及存储介质
CN108009154A (zh) * 2017-12-20 2018-05-08 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN108009405A (zh) * 2017-12-26 2018-05-08 重庆佰诺吉生物科技有限公司 一种基于机器学习技术预测细菌外膜蛋白质的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAGIT SHATKAY 等,: "Text as data: Using text-based features for proteins representation and for computational prediction of their characteristics", 《METHODS》 *
S. DOHKAN 等,: "Prediction of protein-protein interactions using support vector machines", 《PROCEEDINGS. FOURTH IEEE SYMPOSIUM ON BIOINFORMATICS AND BIOENGINEERING》 *
邱智军,: "蛋白质结合位点预测方法研究与应用", 《中国博士学位论文全文数据库 医药卫生科技辑》 *
郭瑞,: "基于迁移学习和词表示的蛋白质交互关系抽取", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111261223A (zh) * 2020-01-12 2020-06-09 湖南大学 一种基于深度学习的crispr脱靶效应预测方法
CN111401534A (zh) * 2020-04-29 2020-07-10 北京晶派科技有限公司 一种蛋白质性能预测方法、装置和计算设备
CN111401534B (zh) * 2020-04-29 2023-12-05 北京晶泰科技有限公司 一种蛋白质性能预测方法、装置和计算设备
CN112185463A (zh) * 2020-09-21 2021-01-05 北京望石智慧科技有限公司 一种蛋白质特征提取方法、装置及计算机设备
CN113299339A (zh) * 2021-05-28 2021-08-24 平安科技(深圳)有限公司 基于深度学习的药物疗效预测方法、装置、设备以及存储介质
CN113299339B (zh) * 2021-05-28 2024-05-07 平安科技(深圳)有限公司 基于深度学习的药物疗效预测方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN109215737B (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
CN109215737A (zh) 蛋白质特征提取、功能模型生成、功能预测的方法及装置
CN111696624B (zh) 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法
CN110192203A (zh) 用于多个自然语言处理(nlp)任务的联合多任务神经网络模型
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN112307764A (zh) 用于神经命名实体识别的共指感知表示学习
US8832139B2 (en) Associative memory and data searching system and method
CN101388012A (zh) 带有易混淆音识别的拼音检查系统和方法
CN102063508B (zh) 基于广义后缀树的中文搜索引擎模糊自动补全方法
US11016997B1 (en) Generating query results based on domain-specific dynamic word embeddings
US11532378B2 (en) Protein database search using learned representations
CN101295295A (zh) 基于线性模型的汉语词法分析方法
Alsaaran et al. Classical Arabic named entity recognition using variant deep neural network architectures and BERT
CN113095415A (zh) 一种基于多模态注意力机制的跨模态哈希方法及系统
CN114969275A (zh) 一种基于银行知识图谱的对话方法及其系统
CN116070602B (zh) 一种pdf文档智能标注与抽取方法
Xu et al. Sentence segmentation for classical Chinese based on LSTM with radical embedding
CN111737470A (zh) 文本分类方法
CN109471980A (zh) 一种基于文本匹配的搜索推荐相关度计算方法
CN115291888A (zh) 基于自注意力交互式网络的软件社区仓库挖掘方法及装置
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
Chen et al. Co-attentive span network with multi-task learning for biomedical named entity recognition
Sundaram et al. Language models for online handwritten Tamil word recognition
Žitnik et al. Extracting gene regulation networks using linear-chain conditional random fields and rules
Singh et al. EnvisionText: Enhancing Text Recognition Accuracy through OCR Extraction and NLP-based Correction
Jamjuntr et al. An improved online handwriting thai character recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant