CN109801675B - 一种确定蛋白质脂质功能的方法、装置和设备 - Google Patents

一种确定蛋白质脂质功能的方法、装置和设备 Download PDF

Info

Publication number
CN109801675B
CN109801675B CN201811603070.0A CN201811603070A CN109801675B CN 109801675 B CN109801675 B CN 109801675B CN 201811603070 A CN201811603070 A CN 201811603070A CN 109801675 B CN109801675 B CN 109801675B
Authority
CN
China
Prior art keywords
amino acid
acid sequence
protein
lipid
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811603070.0A
Other languages
English (en)
Other versions
CN109801675A (zh
Inventor
汤一凡
崔朝辉
赵立军
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201811603070.0A priority Critical patent/CN109801675B/zh
Publication of CN109801675A publication Critical patent/CN109801675A/zh
Application granted granted Critical
Publication of CN109801675B publication Critical patent/CN109801675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种确定蛋白质脂质功能的方法、装置和设备,通过获取目标蛋白质的氨基酸序列特征,并将该目标蛋白质的氨基酸序列特征输入到机器学习模型中,即可根据该机器学习模型的输出结果确定该目标蛋白质的脂质功能;其中,该机器学习模型已基于历史蛋白质的氨基酸序列特征与该历史蛋白质的已知脂质功能之间的对应关系进行了训练。这样,借助已训练的机器学习模型确定蛋白质脂质功能,替代了生物上传统的人工试验方法,节约了人工试验要耗费的耗材、时间及人力等方面成本。

Description

一种确定蛋白质脂质功能的方法、装置和设备
技术领域
本发明涉及信息处理技术领域,特别是涉及一种确定蛋白质脂质功能的方法、装置和设备。
背景技术
脂质结合蛋白(Lipid binding proteins,LBP)不仅能够用于实现细胞脂质摄取、脂质转运和脂质代谢等生理机能,而且在基因表达调控、细胞信号传导、治疗靶点等方面也起到关键作用。因此,对于各种蛋白质来说,有必要确定其在脂质结合方面所具备的脂质功能。目前,蛋白质的脂质功能主要通过人工试验验证的方式确定。但是,人工试验要耗费较多的耗材、时间及人力,因此成本较高。
发明内容
本发明所要解决的技术问题是,提供一种确定蛋白质脂质功能的方法、装置和设备,以使得蛋白质脂质功能在无需人工试验的情况下就能够确定,从而节省耗材、时间及人力等方面的成本。
第一方面,本发明实施例提供了一种确定蛋白质脂质功能的方法,包括:
获取目标蛋白质的氨基酸序列特征;
将所述目标蛋白质的氨基酸序列特征输入到机器学习模型中并根据所述机器学习模型的输出结果确定所述目标蛋白质的脂质功能;
其中,所述机器学习模型已基于历史蛋白质的氨基酸序列特征与所述历史蛋白质的已知脂质功能之间的对应关系进行了训练。
可选地,所述氨基酸序列特征为:所述氨基酸序列的位置特异性特征;
所述获取目标蛋白质的氨基酸序列特征,包括:
获取所述目标蛋白质的氨基酸序列的位置特异性得分矩阵;
根据所述位置特异性得分矩阵,确定所述目标蛋白质的氨基酸序列的位置特异性特征。
可选地,所述获取所述目标蛋白质的氨基酸序列的位置特异性得分矩阵,包括:
在蛋白质序列数据库中查找所述目标蛋白质的同源蛋白质的氨基酸序列;
将所述目标蛋白质的氨基酸序列与所述同源蛋白质的氨基酸序列进行多序列比对,得到所述目标蛋白质的氨基酸序列的位置特异性得分矩阵。
可选地,所述根据所述位置特异性得分矩阵,确定所述目标蛋白质的氨基酸序列的位置特异性特征,包括:
在所述位置特异性得分矩阵中查找每种氨基酸的最大位置特异性得分所在的行;
根据所述每种氨基酸的最大位置特异性得分所在的行形成矩阵,作为所述目标蛋白质的氨基酸序列的位置特异性特征。
可选地,该方法还包括:
获取蛋白质序列标注数据库中标注了已知脂质功能的初始样本蛋白质;
从所述初始样本蛋白质中选取出所述历史蛋白质;
通过所述历史蛋白质的氨基酸序列特征和已知脂质功能,对所述机器学习模型进行训练。
可选的,所述历史蛋白质具体为满足以下任意一个或多个条件的初始样本蛋白质:
所述历史蛋白质的氨基酸序列长度位于长度阈值范围之内;
在所述历史蛋白质中,不同蛋白质的相似度不超过相似度阈值;
在所述历史蛋白质中,不具有脂质功能的蛋白质的氨基酸序列中不存在具有脂质功能的蛋白质的氨基酸序列中的功能域。
可选地,所述机器学习模型的输出结果对应于脂质结合功能、脂质降解功能、脂质代谢功能、脂质合成功能、脂质运输功能、脂蛋白功能、脂多糖生物合成功能、脂多糖功能或不具备脂质功能。
第二方面,本发明实施例还提供了一种确定蛋白质脂质功能的装置,包括:
第一获取模块,用于获取目标蛋白质的氨基酸序列特征;
确定模块,用于将所述目标蛋白质的氨基酸序列特征输入到机器学习模型中并根据所述机器学习模型的输出结果确定所述目标蛋白质的脂质功能;
其中,所述机器学习模型已基于历史蛋白质的氨基酸序列特征与所述历史蛋白质的已知脂质功能之间的对应关系进行了训练。
可选地,所述氨基酸序列特征为:所述氨基酸序列的位置特异性特征;
所述第一获取模块,包括:
获取单元,用于获取所述目标蛋白质的氨基酸序列的位置特异性得分矩阵;
确定单元,用于根据所述位置特异性得分矩阵,确定所述目标蛋白质的氨基酸序列的位置特异性特征。
可选地,所述获取单元,包括:
第一查找子单元,用于在蛋白质序列数据库中查找所述目标蛋白质的同源蛋白质的氨基酸序列;
比对子单元,用于将所述目标蛋白质的氨基酸序列与所述同源蛋白质的氨基酸序列进行多序列比对,得到所述目标蛋白质的氨基酸序列的位置特异性得分矩阵。
可选地,所述确定单元,包括:
第二查找子单元,用于在所述位置特异性得分矩阵中查找每种氨基酸的最大位置特异性得分所在的行;
形成子单元,用于根据所述每种氨基酸的最大位置特异性得分所在的行形成矩阵,作为所述目标蛋白质的氨基酸序列的位置特异性特征。
可选地,该装置还包括:
第二获取模块,用于获取蛋白质序列标注数据库中标注了已知脂质功能的初始样本蛋白质;
选取模块,用于从所述初始样本蛋白质中选取出所述历史蛋白质;
训练模块,用于通过所述历史蛋白质的氨基酸序列特征和已知脂质功能,对所述机器学习模型进行训练。
可选的,所述历史蛋白质具体为满足以下任意一个或多个条件的初始样本蛋白质:
所述历史蛋白质的氨基酸序列长度位于长度阈值范围之内;
在所述历史蛋白质中,不同蛋白质的相似度不超过相似度阈值;
在所述历史蛋白质中,不具有脂质功能的蛋白质的氨基酸序列中不存在具有脂质功能的蛋白质的氨基酸序列中的功能域。
可选地,所述机器学习模型的输出结果对应于脂质结合功能、脂质降解功能、脂质代谢功能、脂质合成功能、脂质运输功能、脂蛋白功能、脂多糖生物合成功能、脂多糖功能或不具备脂质功能。
第三方面,本发明实施例还提供了一种确定蛋白质脂质功能的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述第一方面提供的方法。
第四方面,本发明实施例也提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行上述第一方面提供的方法。
与现有技术相比,本发明实施例具有以下优点:
在本发明实施例中,通过获取目标蛋白质的氨基酸序列特征,并将该目标蛋白质的氨基酸序列特征输入到机器学习模型中,即可根据该机器学习模型的输出结果确定该目标蛋白质的脂质功能;其中,该机器学习模型已基于历史蛋白质的氨基酸序列特征与该历史蛋白质的已知脂质功能之间的对应关系进行了训练。这样,借助已训练的机器学习模型确定蛋白质脂质功能,替代了生物上传统的人工试验方法,节约了人工试验要耗费的耗材、时间及人力等方面成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种确定蛋白质脂质功能的方法的流程示意图;
图2为本发明实施例提供的实现步骤101的一示例的流程示意图;
图3为本发明实施例提供的一种机器学习模型的训练方法的流程示意图;
图4为本发明实施例提供的机器学习模型一示例的结构示意图;
图5为本发明实施例提供的一种训练机器学习模型的方法的流程示意图;
图6为本发明实施例提供的一种确定蛋白质脂质功能的装置的结构示意图;
图7为本发明实施例提供的一种确定蛋白质脂质功能的设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,蛋白质的脂质功能主要通过人工试验验证的方式确定,该方式不仅会耗费较多的耗材,而且还需要大量的时间及人力,大大的提高了确定蛋白质在脂质结合方面所具备的脂质功能的成本。
基于此,为了节约蛋白质脂质功能的确定成本,本发明实施例提供了一种确定蛋白质脂质功能的方法,通过获取目标蛋白质的氨基酸序列特征,并将该目标蛋白质的氨基酸序列特征输入到机器学习模型中,即可根据该机器学习模型的输出结果确定该目标蛋白质的脂质功能;其中,该机器学习模型已基于历史蛋白质的氨基酸序列特征与该历史蛋白质的已知脂质功能之间的对应关系进行了训练。这样,借助已训练的机器学习模型确定蛋白质脂质功能,替代了生物上传统的人工试验方法,节约了人工试验要耗费的耗材、时间及人力等方面成本。
下面结合附图,详细说明本发明实施例中的各种非限制性实施方式。
图1为本发明实施例提供的一种确定蛋白质脂质功能的方法的流程示意图。参见图1,在本实施例中,该方法具体可以包括下述步骤101~步骤102:
步骤101,获取目标蛋白质的氨基酸序列特征。
可以理解的是,目标蛋白质,即为待确定脂质功能的蛋白质。蛋白质的基本组成单位为氨基酸,20种氨基酸之间通过不同的组合和排列组成不同的氨基酸序列,一条氨基酸序列对应于一种蛋白质。而不同的蛋白质,由于结构不同而具有不同的生物学功能,例如:脂质功能。
氨基酸序列特征,是指表征该目标蛋白质的氨基酸序列的特征。作为一个示例,该氨基酸序列特征可以是该氨基酸序列的位置特异性特征。
具体实现时,如果蛋白质的氨基酸序列特征为该氨基酸序列的位置特异性特征,那么,步骤101中获取目标蛋白质的氨基酸序列特征,如图2所示,具体可以包括步骤201和步骤202:
步骤201,获取目标蛋白质的氨基酸序列的位置特异性得分矩阵。
可以理解的是,当确定蛋白质的氨基酸序列后,该氨基酸序列上各个位置上的氨基酸也是确定的,那么,在基于氨基酸序列确定蛋白质的脂质功能的过程中,采用位置特异性得分矩阵(英文:Position Specific Scoring Matrix,简称:PSSM)进行分析和处理,可以大大的提高处理结果的准确性。
具体实现时,步骤201的实现过程具体可以包括:
步骤2011,在蛋白质序列数据库中查找该目标蛋白质的同源蛋白质的氨基酸序列;
步骤2012,将目标蛋白质的氨基酸序列与同源蛋白质的氨基酸序列进行多序列比对,得到该目标蛋白质的氨基酸序列的位置特异性得分矩阵。
其中,蛋白质序列数据库,是指指应用计算机功能分析生物学信息的数据库。应用计算机的运算法则,比较氨基酸序列而预测蛋白质的结构和功能。例如:该蛋白质序列数据库可以是美国国立生物技术信息中心(英文:National Center for BiotechnologyInformation,简称:NCBI)提供的非冗余NCBI数据库,该NCBI数据库包含95,563,598条完全解析的氨基酸序列信息,如:每条氨基酸序列的信息包括:标定好的该氨基酸序列中各个位置的氨基酸,以及该氨基酸序列是否具备脂质功能,具备的是哪种脂质功能等。
可以理解的是,同源蛋白质,是指来自不同种类生物、而对应的氨基酸序列和脂质功能类似的蛋白质。
具体实现时,获得该目标蛋白质的氨基酸序列的位置特异性得分矩阵的具体过程可以包括:首先,从蛋白质序列数据库中检索出该目标蛋白质的多个同源蛋白质,并从该蛋白质序列数据库中获取这些同源蛋白质的氨基酸序列;接着,可以将检索到的同源蛋白质的氨基酸序列和目标蛋白质的氨基酸序列进行多序列比对,得到该目标蛋白质的氨基酸序列的位置特异性得分矩阵。
作为一个示例,多序列比对具体可以采用位置特定的迭代-基本局部对齐搜索工具(英文:Position-Specific Iterated-Basic Local Alignment Search Tool,简称:PSI-BLAST)。假设PSI-BLAST设置最大迭代次数为3,E值的临界值为0.05,采用该PSI-BLAST进行多序列比对该同源蛋白质的氨基酸序列和目标蛋白质的氨基酸序列,得到的位置特异性得分矩阵例如可以如下表1所示:
表1位置特异性得分矩阵
Figure BDA0001922985670000071
其中,横向的“A、R、N、D、C、Q、E、……、V”表示组成蛋白质的氨基酸序列的20中氨基酸;纵向的“1M、2K、3I、4S、5F、6H、……”表示该类同源的蛋白质的氨基酸序列中氨基酸所处的位置;中间的位置特异性得分表示该氨基酸出现在该位置的可能性大小(也称为倾向程度或者保守程度),一般该位置特异性得分的取值范围为-13到+13。例如:上述表格中第二行和第三列交叉位置处的“-6”(字体加粗且加下划线的得分),表示该目标蛋白质的氨基酸序列中,第一个位置出现氨基酸R的可能性得分为-6;再例如:上述表格中第五行和第五列交叉位置处的“-4”(字体加粗且加下划线的得分),表示该目标蛋白质的氨基酸序列中,第四个位置出现氨基酸D的可能性得分为-4。
步骤202,根据位置特异性得分矩阵,确定该目标蛋白质的氨基酸序列的位置特异性特征。
具体实现时,步骤202的实现过程具体可以包括:
步骤2021,在位置特异性得分矩阵中查找每种氨基酸的最大位置特异性得分所在的行;
步骤2022,根据每种氨基酸的最大位置特异性得分所在的行形成矩阵,作为目标蛋白质的氨基酸序列的位置特异性特征。
作为一个示例,可以从步骤201得到的位置特异性得分矩阵中,根据下述公式1获得每种氨基酸的最大位置特异性得分所在的行:
Figure BDA0001922985670000081
其中,n表示当前处理的目标蛋白质以及其同源蛋白质的氨基酸序列的长度,即,氨基酸序列包括n个氨基酸;Si表示每个氨基酸在第i个位置处的位置特异性得分;max(Si)表示选取每个氨基酸的最大的位置特异性得分;
Figure BDA0001922985670000083
表示每个氨基酸的最大的位置特异性得分所在的行,具体而言,SA表示氨基酸A的最大的位置特异性得分所在的行;SR表示氨基酸R的最大的位置特异性得分所在的行。那么,最终得到的位置特异性特征为一个20*20的矩阵,具体可以表示为下述公式(2):
Figure BDA0001922985670000082
需要说明的是,当查找到的氨基酸的最大位置特异性得分时,存在多个相同的最大位置特异性得分,那么,可以选取多个位置的平均值作为查找到的该氨基酸的最大位置特异性得分所在的行。
以表1所得的位置特异性得分矩阵为例,步骤2021具体过程包括:查找到氨基酸A最大位置特异性得分为2,对应于1M行;查找到氨基酸R最大位置特异性得分为3,对应于4S行;查找到氨基酸A最大位置特异性得分为0,对应于2K行;依次类推,确定出20个氨基酸的最大位置特异性得分所在的20行。接着,步骤2022的具体过程包括:取1M行、4S行、2K行、……共20行位置特异性得分,形成矩阵(即,目标蛋白质的氨基酸序列的位置特异性特征),例如可以如下表2所示:
表2位置特异性特征
A 2 -6 -7 -7 -5 -5 -6 …… 2
R -2 3 -3 -4 -5 0 -2 …… -3
N -4 2 0 -2 -6 2 2 …… -6
D -4 2 0 -2 -6 2 2 …… -6
C -6 -7 -7 -8 -2 -6 -7 …… -6
Q -4 2 0 -2 -6 2 2 …… -6
…… …… …… …… …… …… …… …… …… ……
通过步骤101,得到目标蛋白质的氨基酸序列特征,为后续通过机器学习模型确定该目标蛋白质的脂质功能,提供了数据基础。
步骤102,将目标蛋白质的氨基酸序列特征输入到机器学习模型中并根据该机器学习模型的输出结果确定目标蛋白质的脂质功能;其中,该机器学习模型已基于历史蛋白质的氨基酸序列特征与历史蛋白质的已知脂质功能之间的对应关系进行了训练。
可以理解的是,该机器学习模型,是用于对输入的目标蛋白质的氨基酸序列特征进行深度学习,确定并输出与该目标蛋白质的脂质功能对应输出结果。该机器学习模型是通过对构建的机器学习模型采用大量的训练样本集进行训练得到的已训练的模型,其中,训练样本集中的每个训练样本具体可以包括一个历史蛋白质的氨基酸序列特征与该历史蛋白质的已知脂质功能。
其中,训练样本集可以从Swiss-port蛋白质序列标注数据库中提取,该Swiss-port蛋白质序列标注数据库中的蛋白质均为被标定好已知脂质功能的蛋白质。那么,每个训练样本中的历史蛋白质为该Swiss-port蛋白质序列标注数据库中的蛋白质,历史蛋白质的已知脂质功能是在该Swiss-port蛋白质序列标注数据库中为该历史蛋白质标注的脂质功能。
Swiss-port蛋白质序列标注数据库中,被标定的已知脂质功能分为:脂质结合(英文:Lipid binding,简称:LB)功能、脂质降解(英文:Lipid degradation,简称:LD)功能、脂质代谢(英文:Lipid metabolism,简称:LM)功能、脂质合成(英文:Lipid synthesis,简称:LS)功能、脂质运输(英文:Lipid transport,简称:LT)功能、脂蛋白(英文:Lipoprotein,简称:LP)功能、脂多糖生物合成(英文:Lipopolysaccharide biosynthesis,简称:LPB)功能、脂多糖(英文:lipoyl)功能或不具备脂质功能。
可以理解的是,从该Swiss-prot蛋白质序列标注数据库中提取训练样本时,获取到具有已知脂质功能标注的初始蛋白质后,为了训练样本的有效性,可以从所有的初始蛋白质中筛选出符合需求的历史蛋白质作为训练样本。
具体实现时,选取训练机器学习模型的训练样本的具体过程可以如图3所示,包括:
步骤301,获取蛋白质序列标注数据库中标注了已知脂质功能的第一初始样本蛋白质;
步骤302,从所述第一初始样本蛋白质中选取氨基酸序列的长度属于长度阈值范围之内的第二初始样本蛋白质;
步骤303,根据氨基酸序列的相似度对所述第二初始样本蛋白质进行筛选,得到第三初始样本蛋白质;其中,所述第三初始样本蛋白质中不同的蛋白质之间的氨基酸序列的相似度不超过相似度阈值;
步骤304,根据所述第三初始样本蛋白质中具有脂质功能的蛋白质的氨基酸序列中的功能域,对所述第三初始样本蛋白质中不具有脂质功能的蛋白质进行过滤,得到所述历史蛋白质;其中,不具有脂质功能的历史蛋白质的氨基酸序列中不存在所述具有脂质功能的历史蛋白质的氨基酸序列中的功能域;
步骤305,基于所述历史蛋白质的氨基酸序列特征与所述历史蛋白质的已知脂质功能之间的对应关系,对所述机器学习模型进行训练。
作为一个示例,可以根据步骤302预先设置用于筛选合格的历史蛋白质的长度阈值范围,将第一初始样本蛋白质中氨基酸序列长度太长和/或太短的历史蛋白质剔除,得到第二初始样本蛋白质。可以理解的是,氨基酸序列太长的历史蛋白质,检索与其同源的蛋白质较为困难;氨基酸序列太短的历史蛋白质,不具备良好的位置特异性,难以准确的提取其对应的氨基酸序列特征。例如:可以预设程度阈值范围为:50~5000,那么,可以将该Swiss-prot蛋白质序列标注数据库中的所有历史蛋白质中,剔除对应氨基酸序列的长度大于5000的历史蛋白质,以及剔除对应氨基酸序列的长度小于50的历史蛋白质,将剩余的对应氨基酸序列的长度在50~5000之间的历史蛋白质作为训练样本。
此外,一种情况下,对于具备脂质功能的历史蛋白质,在确保训练样本的全面性的同时,为了尽量减少重复训练样本进行多次训练,节约计算资源,可以根据步骤303,在通过氨基酸序列长度筛选后得到的第二初始样本蛋白质后,还可以使用例如:CD-HIT序列比对程序,剔除氨基酸序列相似度大于预设相似度阈值(例如:90%)的历史蛋白质。具体实现时,可以将该Swiss-prot蛋白质序列标注数据库中氨基酸序列相似度大于预设相似度阈值的多个历史蛋白质选出,并将选出的该多个历史蛋白质进行融合,得到一条可以综合代表该类相似的历史蛋白质的新的历史蛋白质的氨基酸序列。
这样,对于具备脂质功能的历史蛋白质,通过上述筛选,最后从该Swiss-prot蛋白质序列标注数据库中得到的,可以作为训练样本的8种脂质功能的历史蛋白质合计11,450例。需要说明的是,同理,也可以对不具有脂质功能的蛋白质也执行步骤303,以尽量减少重复训练样本进行多次训练,节约计算资源。需要说明的是,通过对所有第二初始样本蛋白质进行步骤303的筛选,得到第三初始样本蛋白质。
另一种情况下,对于不具备脂质功能的蛋白质,为了确保该类训练样本的准确性,即,确保不具有脂质功能的历史蛋白质的这类训练样本实质上真实的不均有脂质功能,可以通过步骤304,例如通过以下筛选方式进行进一步筛选:首先,提取已知具有脂质功能的历史蛋白质的蛋白质功能域;然后,在非脂质功能的历史蛋白质中查询是否包含了上述蛋白质功能域,如果包含,则说明该非脂质功能的历史蛋白质其实是具有脂质功能的蛋白质,那么,将该条非脂质功能的历史蛋白质移除出训练样本集。这样,对于不具备脂质功能的历史蛋白质,通过上述筛选,最后从该Swiss-prot蛋白质序列标注数据库中得到的,可以作为训练样本的非脂质功能的历史蛋白质合计56,085例。
需要说明的是,采用上述确定的训练样本集对构建的机器学习模型进行训练的过程大致为:首先,获取训练样本集中的历史蛋白质的氨基酸序列特征;然后,将历史蛋白质的氨基酸序列特征输入到构建的机器学习模型中,根据输出结果确定每个历史蛋白质的学习脂质功能;接着,根据学习脂质功能和对应的已知脂质功能之间的差异,不断的调整机器学习模型的参数,直到利用该训练样本集中的所有训练样本完成训练,或者,直到根据输出结果确定出的学习脂质功能与对应的脂质功能一致,此时,得到的机器学习模型即可作为步骤102中的机器学习模型。需要说明的是,更加详细的训练过程可以参见下述图5对应的实施例中的描述。
作为一个示例,如图4所示,该机器学习模型400可以包括:卷积层410、下采样层420和全连接层430,其中,卷积层410的输入为该机器学习模型400的输入,卷积层410的输出连接下采样层420的输入,下采样层420的输出连接全连接层430的输入,全连接层430的输出为该机器学习模型400的输出。
具体实现时,可以将目标蛋白质的氨基酸序列特征输入到机器学习模型400中,该机器学习模型400中的卷积层410先对该目标蛋白质的氨基酸序列特征进行预设卷积核的卷积运算,得到第一结果;然后,该机器学习模型400中的下采样层420对该第一结果进行预设池化尺寸的最大池化运算,得到第二结果;接着,该机器学习模型400中的全连接层430对该第二结果进行平铺展开为预设规模的向量后,与预设个数的神经元进行全连接运算,得到该机器学习模型400的输出结果;最后,基于该输出结果确定该目标蛋白质的脂质功能。
例如:对于目标蛋白质的氨基酸序列特征为根据图2对应的实现方式确定的20*20的位置特异性特征,卷积层410中的预设卷积核可以为5*5,下采样层420中的预设池化尺寸可以是2*2,全连接层430中的预设规模可以是64位,预设个数可以是16个。那么,将该20*20的矩阵输入到卷积层410中,得到16*16的特征图;将该16*16的特征图输入到下采样层420,该下采样层420对该16*16的特征图进行最大池化,得到8*8的特征图;将该8*8的特征图输入到全连接层430,该全连接层430首先将该8*8的特征图平铺展开为64位向量,再与16个神经元进行全连接,得到与该目标蛋白质的脂质功能对应的输出结果。
一种情况下,该输出结果可以是该目标蛋白质的脂质功能本身,如此,得到该机器学习模型的输出结果即为确定了该目标蛋白质的脂质功能;另一种情况下,该输出结果也可以是目标蛋白质的脂质功能对应的标识,如此,需要通过对该输出结果的分析,才可以确定出标识对应的脂质结果,例如:输出结果为数字0~8,每个数字对应一个脂质结果,如,0:不具备脂质功能、1:脂质结合功能、2:脂质降解功能、3:脂质代谢功能、4:脂质合成功能、5:脂质运输功能、6:脂蛋白功能、7:脂多糖生物合成功能、8:脂多糖功能:,该对应关系是预先设置的,那么,当该机器学习模型的输出结果为3时,通过与该预先设置的对应关系的对比可知,该目标蛋白质的脂质功能为脂质代谢功能。
需要说明的是,该机器学习模型不仅可以采用卷积神经网络、全连接网络进行搭建,还可以采用其他的网络算法,例如:随机森林网络、长短期记忆网络(英文:Long Short-Term Memory,简称:LSTM)、遗传算法网络等来构建。只要可以实现对目标蛋白质的氨基酸序列特征进行学习,输出与目标蛋白质的脂质功能对应的输出结果,均可以作为构建该机器学习模型的网络。
可见,在本发明实施例中,通过获取目标蛋白质的氨基酸序列特征,并将该目标蛋白质的氨基酸序列特征输入到机器学习模型中,即可根据该机器学习模型的输出结果确定该目标蛋白质的脂质功能;其中,该机器学习模型已基于历史蛋白质的氨基酸序列特征与该历史蛋白质的已知脂质功能之间的对应关系进行了训练。这样,借助已训练的机器学习模型确定蛋白质脂质功能,替代了生物上传统的人工试验方法,节约了人工试验要耗费的耗材、时间及人力等方面成本。
下面结合图5,以具体的场景对上述图1实施例中的机器学习模型的训练过程进行详细说明。
参见图5,假设该构建的机器学习模型的训练样本集为:从该Swiss-prot蛋白质序列标注数据库中经过筛选后提取到的8种脂质功能的历史蛋白质合计11,450例,以及非脂质功能的历史蛋白质合计56,085例。具体的训练过程可以包括:
步骤501,将非脂质功能的历史蛋白质划分为5份,每份非脂质功能的历史蛋白质分别与脂质功能的历史蛋白质组成一个训练样本子集。
可以理解的是,由于非脂质功能的历史蛋白质的数量大致为脂质功能的历史蛋白质数量的5倍,所以,为了训练每个训练样本子集的均衡性,将非脂质功能的历史蛋白质划分为5份。需要说明的是,具体划分非脂质功能的历史蛋白质还是脂质功能的历史蛋白质,划分几份,可以根据实际情况进行确定,在此不作具体限定。
例如:可以将非脂质功能的历史蛋白质划分为A、B、C、D和E5份,A与脂质功能的历史蛋白质O组成训练样本子集AO,B与O组成训练样本子集BO,C与O组成训练样本子集CO,D与O组成训练样本子集DO,E与O组成训练样本子集EO。
步骤502,分别利用5个训练样本子集,训练构建好的机器学习模型,得到5个已训练的机器学习模型。
例如:基于训练样本子集AO训练的过程为:获取其中包括的所有的历史蛋白质的氨基酸序列特征;将历史蛋白质的氨基酸序列特征输入到构建机器学习模型0,并根据机器学习模型0的输出结果,确定该历史蛋白质的学习脂质功能;计算学习脂质功能与该历史蛋白质对应的已知脂质功能之间的差异;基于该差异对机器学习模型0进行参数调整,将参数调整后的机器学习模型0重新作为机器学习模型0,并返回对该AO中的另一历史蛋白质执行“将历史蛋白质的氨基酸序列特征输入到机器学习模型0”;直到满足:参数调整次数达到预设次数阈值,或者,当前的学习脂质功能与已知脂质功能之间的差异小于预设差异阈值,此时,将当前的该机器学习模型0记作已训练的机器学习模型1。
基于相同的训练过程,基于训练样本子集BO、CO、DO和EO,对构建的机器学习模型0进行训练,分别得到已训练的机器学习模型2、已训练的机器学习模型3、已训练的机器学习模型4和已训练的机器学习模型5。
步骤503,分别获取5个已训练的机器学习模型的模型评估得分。
作为一个示例,在获得5个已训练的机器学习模型后,可以通过下述公式(3)计算该机器学习模型的模型评估得分:
Figure BDA0001922985670000151
其中,F表示模型评估得分,用于衡量训练后的模型的精确度,最大值是1,最小值是0;Precision表示准确率;Recall表示召回率。
例如:可以分别计算:已训练的机器学习模型1的模型评估分数
Figure BDA0001922985670000152
已训练的机器学习模型2的模型评估分数
Figure BDA0001922985670000153
已训练的机器学习模型3的模型评估分数
Figure BDA0001922985670000154
已训练的机器学习模型4的模型评估分数
Figure BDA0001922985670000155
已训练的机器学习模型5的模型评估分数
Figure BDA0001922985670000156
步骤504,基于5个已训练的机器学习模型的模型评估得分,确定目标机器学习模型。
作为一个示例,可以从5个已训练的机器学习模型的模型评估得分中,选择最大的模型评估得分对应的已训练的机器学习模型,作为目标机器学习模型。例如:可以通过F=max(F1,F2,F3,F4,F5),获得最大的模型评估得分F=F3,然后,将F3对应的已训练的机器学习模型3作为目标机器学习模型。
可以理解的是,该目标机器学习模型,即为图1对应的实施例中的训练好的机器学习模型,可以被用于准确的确定目标蛋白质的脂质功能。
可见,通过上述图5所示的训练方法,可以高效、准确和全面的训练出一个有效的机器学习模型,为实施上述确定蛋白质脂质功能的方法做好了准备。
相应的,本发明实施例还提供了一种确定蛋白质脂质功能的装置,如图6所示,该装置具体可以包括:
第一获取模块601,用于获取目标蛋白质的氨基酸序列特征;
确定模块602,用于将所述目标蛋白质的氨基酸序列特征输入到机器学习模型中并根据所述机器学习模型的输出结果确定所述目标蛋白质的脂质功能;
其中,所述机器学习模型已基于历史蛋白质的氨基酸序列特征与所述历史蛋白质的已知脂质功能之间的对应关系进行了训练。
可选地,所述氨基酸序列特征为:所述氨基酸序列的位置特异性特征;
所述第一获取模块601,包括:
获取单元,用于获取所述目标蛋白质的氨基酸序列的位置特异性得分矩阵;
确定单元,用于根据所述位置特异性得分矩阵,确定所述目标蛋白质的氨基酸序列的位置特异性特征。
可选地,所述获取单元,包括:
第一查找子单元,用于在蛋白质序列数据库中查找所述目标蛋白质的同源蛋白质的氨基酸序列;
比对子单元,用于将所述目标蛋白质的氨基酸序列与所述同源蛋白质的氨基酸序列进行多序列比对,得到所述目标蛋白质的氨基酸序列的位置特异性得分矩阵。
可选地,所述确定单元,包括:
第二查找子单元,用于在所述位置特异性得分矩阵中查找每种氨基酸的最大位置特异性得分所在的行;
形成子单元,用于根据所述每种氨基酸的最大位置特异性得分所在的行形成矩阵,作为所述目标蛋白质的氨基酸序列的位置特异性特征。
可选地,该装置还包括:
第二获取模块,用于获取蛋白质序列标注数据库中标注了已知脂质功能的初始样本蛋白质;
选取模块,用于从所述初始样本蛋白质中选取出所述历史蛋白质;
训练模块,用于通过所述历史蛋白质的氨基酸序列特征和已知脂质功能,对所述机器学习模型进行训练。
可选的,所述历史蛋白质具体为满足以下任意一个或多个条件的初始样本蛋白质:
所述历史蛋白质的氨基酸序列长度位于长度阈值范围之内;
在所述历史蛋白质中,不同蛋白质的相似度不超过相似度阈值;
在所述历史蛋白质中,不具有脂质功能的蛋白质的氨基酸序列中不存在具有脂质功能的蛋白质的氨基酸序列中的功能域。
可选地,所述机器学习模型的输出结果对应于脂质结合功能、脂质降解功能、脂质代谢功能、脂质合成功能、脂质运输功能、脂蛋白功能、脂多糖生物合成功能、脂多糖功能或不具备脂质功能。
上述描述为确定蛋白质脂质功能的装置的相关描述,其中,具体实现方式以及达到的效果,可以参见上述确定蛋白质脂质功能的方法实施例的描述,这里不再赘述。
此外,本发明实施例还提供了一种确定蛋白质脂质功能的设备,如图7所示,该设备包括处理器701以及存储器702:
所述存储器702用于存储程序代码,并将所述程序代码传输给所述处理器701;
所述处理器701用于根据所述程序代码中的指令执行上述确定蛋白质脂质功能的方法。
该确定蛋白质脂质功能的设备的具体实现方式以及达到的效果,可以参见上述确定蛋白质脂质功能的方法实施例的描述,这里不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对于装置和设备实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置和设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (8)

1.一种确定蛋白质脂质功能的方法,其特征在于,包括:
获取目标蛋白质的氨基酸序列特征;
将所述目标蛋白质的氨基酸序列特征输入到机器学习模型中并根据所述机器学习模型的输出结果确定所述目标蛋白质的脂质功能;
其中,所述机器学习模型已基于历史蛋白质的氨基酸序列特征与所述历史蛋白质的已知脂质功能之间的对应关系进行了训练;
所述氨基酸序列特征为:所述氨基酸序列的位置特异性特征;
所述获取目标蛋白质的氨基酸序列特征,包括:
获取所述目标蛋白质的氨基酸序列的位置特异性得分矩阵;
根据所述位置特异性得分矩阵,确定所述目标蛋白质的氨基酸序列的位置特异性特征;
所述根据所述位置特异性得分矩阵,确定所述目标蛋白质的氨基酸序列的位置特异性特征,包括:
在所述位置特异性得分矩阵中查找每种氨基酸的最大位置特异性得分所在的行;
根据所述每种氨基酸的最大位置特异性得分所在的行形成矩阵,作为所述目标蛋白质的氨基酸序列的位置特异性特征。
2.根据权利要求1所述的方法,其特征在于,所述获取所述目标蛋白质的氨基酸序列的位置特异性得分矩阵,包括:
在蛋白质序列数据库中查找所述目标蛋白质的同源蛋白质的氨基酸序列;
将所述目标蛋白质的氨基酸序列与所述同源蛋白质的氨基酸序列进行多序列比对,得到所述目标蛋白质的氨基酸序列的位置特异性得分矩阵。
3.根据权利要求1所述的方法,其特征在于,还包括:
获取蛋白质序列标注数据库中标注了已知脂质功能的初始样本蛋白质;
从所述初始样本蛋白质中选取出所述历史蛋白质;
通过所述历史蛋白质的氨基酸序列特征和已知脂质功能,对所述机器学习模型进行训练。
4.根据权利要求3所述的方法,其特征在于,所述历史蛋白质具体为满足以下任意一个或多个条件的初始样本蛋白质:
所述历史蛋白质的氨基酸序列长度位于长度阈值范围之内;
在所述历史蛋白质中,不同蛋白质的相似度不超过相似度阈值;
在所述历史蛋白质中,不具有脂质功能的蛋白质的氨基酸序列中不存在具有脂质功能的蛋白质的氨基酸序列中的功能域。
5.根据权利要求1所述的方法,其特征在于,所述机器学习模型的输出结果对应于脂质结合功能、脂质降解功能、脂质代谢功能、脂质合成功能、脂质运输功能、脂蛋白功能、脂多糖生物合成功能、脂多糖功能或不具备脂质功能。
6.一种确定蛋白质脂质功能的装置,其特征在于,包括:
第一获取模块,用于获取目标蛋白质的氨基酸序列特征;
确定模块,用于将所述目标蛋白质的氨基酸序列特征输入到机器学习模型中并根据所述机器学习模型的输出结果确定所述目标蛋白质的脂质功能;
其中,所述机器学习模型已基于历史蛋白质的氨基酸序列特征与所述历史蛋白质的已知脂质功能之间的对应关系进行了训练;
所述氨基酸序列特征为:所述氨基酸序列的位置特异性特征;
所述第一获取模块,包括:
获取单元,用于获取所述目标蛋白质的氨基酸序列的位置特异性得分矩阵;
确定单元,用于根据所述位置特异性得分矩阵,确定所述目标蛋白质的氨基酸序列的位置特异性特征;
所述确定单元,包括:
第二查找子单元,用于在所述位置特异性得分矩阵中查找每种氨基酸的最大位置特异性得分所在的行;
形成子单元,用于根据所述每种氨基酸的最大位置特异性得分所在的行形成矩阵,作为所述目标蛋白质的氨基酸序列的位置特异性特征。
7.一种确定蛋白质脂质功能的设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1至5任一项所述的方法。
8.一种存储介质,其特征在于,所述存储介质用于存储程序代码,所述程序代码用于执行权利要求1至5任一项所述的方法。
CN201811603070.0A 2018-12-26 2018-12-26 一种确定蛋白质脂质功能的方法、装置和设备 Active CN109801675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811603070.0A CN109801675B (zh) 2018-12-26 2018-12-26 一种确定蛋白质脂质功能的方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811603070.0A CN109801675B (zh) 2018-12-26 2018-12-26 一种确定蛋白质脂质功能的方法、装置和设备

Publications (2)

Publication Number Publication Date
CN109801675A CN109801675A (zh) 2019-05-24
CN109801675B true CN109801675B (zh) 2021-01-05

Family

ID=66557722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811603070.0A Active CN109801675B (zh) 2018-12-26 2018-12-26 一种确定蛋白质脂质功能的方法、装置和设备

Country Status (1)

Country Link
CN (1) CN109801675B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853704B (zh) * 2019-11-11 2020-11-06 腾讯科技(深圳)有限公司 蛋白质数据获取方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4608698B1 (ja) * 2009-09-10 2011-01-12 学校法人明治大学 Gpiアンカー型タンパク質の判定装置、判定方法及び判定プログラム
WO2016054642A1 (en) * 2014-10-03 2016-04-07 The Arizona Board Of Regents On Behalf Of The University Of Arizona Inhibitors of grb2-associated binding protein 1 (gab1) and methods of treating cancer using the same
CN106599611A (zh) * 2016-12-09 2017-04-26 中南大学 蛋白质功能标注方法及系统
CN108229102A (zh) * 2017-12-19 2018-06-29 东软集团股份有限公司 氨基酸序列特征提取方法、装置、存储介质及电子设备
CN108595909A (zh) * 2018-03-29 2018-09-28 山东师范大学 基于集成分类器的ta蛋白靶向预测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106605228B (zh) * 2014-07-07 2019-08-16 耶达研究及发展有限公司 计算蛋白质设计的方法
CN104615911B (zh) * 2015-01-12 2017-07-18 上海交通大学 基于稀疏编码及链学习预测膜蛋白beta‑barrel跨膜区域的方法
CN106951736B (zh) * 2017-03-14 2019-02-26 齐鲁工业大学 一种基于多重进化矩阵的蛋白质二级结构预测方法
CN108009405A (zh) * 2017-12-26 2018-05-08 重庆佰诺吉生物科技有限公司 一种基于机器学习技术预测细菌外膜蛋白质的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4608698B1 (ja) * 2009-09-10 2011-01-12 学校法人明治大学 Gpiアンカー型タンパク質の判定装置、判定方法及び判定プログラム
WO2016054642A1 (en) * 2014-10-03 2016-04-07 The Arizona Board Of Regents On Behalf Of The University Of Arizona Inhibitors of grb2-associated binding protein 1 (gab1) and methods of treating cancer using the same
CN106599611A (zh) * 2016-12-09 2017-04-26 中南大学 蛋白质功能标注方法及系统
CN108229102A (zh) * 2017-12-19 2018-06-29 东软集团股份有限公司 氨基酸序列特征提取方法、装置、存储介质及电子设备
CN108595909A (zh) * 2018-03-29 2018-09-28 山东师范大学 基于集成分类器的ta蛋白靶向预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Development of a computational method for lipid-binding protein prediction;K. Ueki 等,;《Research Journal of Life Sciences, Bioinformatics, Pharmaceutical and Chemical Sciences》;20160229;第2016年卷;第223-236页 *
Functional discrimination of membrane proteins using machine learning techniques;M Michael Gromiha 等,;《BMC BIOINFORMATICS》;20080303;第2008年卷;第1-8页 *
Prediction of the functional class of lipid binding proteins from sequence-derived properties irrespective of sequence similarity;Lin HH 等,;《JOURNAL OF LIPID RESEARCH》;20060430;第47卷(第4期);第824-831页 *
基于多信息融合的蛋白质结构类预测方法研究;曹佳佳,;《中国优秀硕士学位论文全文数据库 基础科学辑》;20150615;第2015年卷(第6期);第A006-16页 *

Also Published As

Publication number Publication date
CN109801675A (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
CN108805185B (zh) 人脸识别方法、装置、存储介质及计算机设备
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN110084271B (zh) 一种图片类别的识别方法和装置
CN110147551B (zh) 多类别实体识别模型训练、实体识别方法、服务器及终端
US20180165412A1 (en) Neural network architectures for linking biological sequence variants based on molecular phenotype, and systems and methods therefor
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
US20180107927A1 (en) Architectures for training neural networks using biological sequences, conservation, and molecular phenotypes
CN111933212B (zh) 一种基于机器学习的临床组学数据处理方法及装置
Quang et al. EXTREME: an online EM algorithm for motif discovery
WO2019041333A1 (zh) 蛋白质结合位点的预测方法、装置、设备及存储介质
CN111914159B (zh) 一种信息推荐方法及终端
CN108959453B (zh) 基于文本聚类的信息提取方法、装置及可读存储介质
CN111627494B (zh) 基于多维特征的蛋白质性质预测方法、装置和计算设备
CN111950728A (zh) 图像特征提取模型的构建方法、图像检索方法及存储介质
US20200175052A1 (en) Classification of electronic documents
CN110929764A (zh) 图片审核方法和装置,电子设备及存储介质
CN111325200A (zh) 图像标注方法、装置、设备及计算机可读存储介质
Yu et al. SANPolyA: a deep learning method for identifying poly (A) signals
CN109801675B (zh) 一种确定蛋白质脂质功能的方法、装置和设备
Colombo et al. FastMotif: spectral sequence motif discovery
WO2022127037A1 (zh) 一种数据分类方法、装置及相关设备
CN113066528B (zh) 基于主动半监督图神经网络的蛋白质分类方法
CN111048145B (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
Leonardi A generalization of the PST algorithm: modeling the sparse nature of protein sequences
CN113806579A (zh) 文本图像检索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant