CN111009287B - SLiMs预测模型的生成方法、装置、设备和存储介质 - Google Patents
SLiMs预测模型的生成方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN111009287B CN111009287B CN201911329667.5A CN201911329667A CN111009287B CN 111009287 B CN111009287 B CN 111009287B CN 201911329667 A CN201911329667 A CN 201911329667A CN 111009287 B CN111009287 B CN 111009287B
- Authority
- CN
- China
- Prior art keywords
- slims
- feature vector
- protein
- ith
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 101001027146 Homo sapiens Kelch domain-containing protein 10 Proteins 0.000 title claims abstract description 273
- 102100037645 Kelch domain-containing protein 10 Human genes 0.000 title claims abstract description 273
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000003860 storage Methods 0.000 title claims abstract description 9
- 239000013598 vector Substances 0.000 claims abstract description 284
- 239000012634 fragment Substances 0.000 claims abstract description 178
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 178
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 155
- 238000012549 training Methods 0.000 claims abstract description 50
- 230000009471 action Effects 0.000 claims abstract description 10
- 108010029660 Intrinsically Disordered Proteins Proteins 0.000 claims description 46
- 102100037845 Isocitrate dehydrogenase [NADP], mitochondrial Human genes 0.000 claims description 45
- 102100033070 Histone acetyltransferase KAT6B Human genes 0.000 claims description 27
- 101000944174 Homo sapiens Histone acetyltransferase KAT6B Proteins 0.000 claims description 27
- 150000001413 amino acids Chemical class 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 6
- 230000008827 biological function Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 15
- 125000003275 alpha amino acid group Chemical group 0.000 description 14
- 102100038651 Four and a half LIM domains protein 1 Human genes 0.000 description 5
- 101710127220 Four and a half LIM domains protein 1 Proteins 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000002869 basic local alignment search tool Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002887 multiple sequence alignment Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Artificial Intelligence (AREA)
- Analytical Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Genetics & Genomics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种SLiMs预测模型的生成方法、装置、设备和存储介质,该方法包括:获取多个特异性作用位点SLiMs片段和多个非SLiMs片段,每个SLiMs片段由多个第一位点组成,每个非SLiMs片段包括多个第二位点;提取每个第一位点对应的第一特征向量和每个第二位点对应的第二特征向量;利用多个第一特征向量和多个第二特征向量训练预先构建的初始预测模型,生成目标预测模型,该目标预测模型用于预测蛋白质中的位点是否属于SLiMs片段。可见,借助该目标预测模型,即可方便、快速和准确的预测出蛋白质上属于SLiMs片段的位点,从而识别出SLiMs片段。
Description
技术领域
本申请涉及生物信息技术领域,特别是涉及一种特异性作用位点(英文:ShortLinear Motifs,简称:SLiMs)的预测模型生成方法、装置、设备和存储介质。
背景技术
通常,一些蛋白质在天然条件下能够折叠缠绕形成确定的空间三维结构,可以根据该确定的空间三维结构分析和确定出该蛋白质的生物功能;而另一些蛋白质则在天然条件下无法形成确定的空间三维结构,该类蛋白质称为本征无序蛋白质(英文:Intrinsically Disordered Proteins,简称:IDPs)。该IDPs由于空间三维结构的不确定性,所以无法通过分析其空间三维结构确定对应的生物功能。
在IDPs中,能够通过其上的SLiMs和其他蛋白质结合,体现该IDPs的生物功能,所以,确定IDPs中的SLiMs对分析该IDPs的生物功能具有重要意义。基于此,目前亟待提供一种能够快速、准确的识别IDPs中SLiMs的方法,以便分析和确定IDPs的生物功能。
发明内容
为了解决上述技术问题,本申请实施例提供了一种特异性作用位点SLiMs预测模型的生成方法、装置、设备和存储介质,通过生成用于预测IDPs中SLiMs片段的预测模型,借助该预测模型,能够方便、快速和准确的识别出IDPs中的各位点是否属于SLiMs片段。
第一方面,提供了一种SLiMs预测模型的生成方法,包括:
获取多个特异性作用位点SLiMs片段和多个非SLiMs片段,每个所述SLiMs片段由多个第一位点组成,每个所述非SLiMs片段包括多个第二位点;
提取每个所述第一位点对应的第一特征向量和每个所述第二位点对应的第二特征向量;
利用所述第一特征向量和所述第二特征向量训练预先构建的初始预测模型,生成目标预测模型,所述目标预测模型用于预测蛋白质中的位点是否属于SLiMs片段。
可选地,所述第一特征向量的数量和所述第二特征向量的数量相同。
可选地,所述获取多个SLiMs片段和多个非SLiMs片段,包括:
从本征无序蛋白质IDPs序列库中,获得多个分子识别特征MoRFs片段;
基于所述MoRFs片段,筛选片段长度为大于等于3个氨基酸且小于等于10个氨基酸的多个所述SLiMs片段;
基于所述MoRFs片段,选取与各所述SLiMs片段相隔第一预设长度以外的多个所述非SLiMs片段。
可选地,所述提取每个所述第一位点对应的第一特征向量和每个所述第二位点对应的第二特征向量,包括:
对于各所述SLiMs片段,根据基因本体论获取该SLiMs片段所在蛋白质对应的第一子特征向量;并且,对于各所述非SLiMs片段,根据所述基因本体论获取该非SLiMs片段所在蛋白质对应的第二子特征向量;
利用蛋白质对比工具获得该SLiMs片段所在蛋白质对应的第一位置特异性得分矩阵PSSM;
以该SLiMs片段中的每个所述第一位点为中心,基于所述第一PSSM向外扩展第二预设长度,得到各所述第一位点对应的第三子特征向量;并且,以该非SLiMs片段中的每个所述第二位点为中心,基于所述第一PSSM向外扩展所述第二预设长度,得到各所述第二位点对应的第四子特征向量;
基于所述第一子特征向量和每个所述第一位点对应的所述第三子特征向量,获得每个所述第一位点对应的所述第一特征向量;并且,基于所述第二子特征向量和每个所述第二位点对应的所述第四子特征向量,获得每个所述第二位点对应的所述第二特征向量。
可选地,所述方法还包括:
获取待预测蛋白质,所述待预测蛋白质包括N个位点,N为大于1的整数;
提取所述待预测蛋白质的第i位点对应的第i特征向量,其中,i=1,2,…,N;
根据所述第i特征向量和所述目标预测模型,获得第i预测结果,所述第i预测结果用于表征所述第i位点是否属于SLiMs片段。
可选地,所述提取所述待预测蛋白质的第i位点对应的第i特征向量,包括:
根据所述基因本体论获取所述待预测蛋白质对应的第五子特征向量;
利用所述蛋白质对比工具获得所述待预测蛋白质对应的第二PSSM,并以所述第i位点为中心,基于所述第二PSSM向外扩展所述第二预设长度,得到所述第i位点对应的第六子特征向量;
基于所述第五子特征向量和所述第六子特征向量,获得所述第i位点对应的所述第i特征向量;
所述根据所述第i特征向量和所述目标预测模型,获得第i预测结果,具体为:
将所述第i特征向量输入所述目标预测模型,输出所述第i预测模型。
第二方面,还提供了一种SLiMs预测模型的生成装置,包括:
第一获取模块,用于获取多个特异性作用位点SLiMs片段和多个非SLiMs片段,每个所述SLiMs片段由多个第一位点组成,每个所述非SLiMs片段包括多个第二位点;
第一提取模块,用于提取每个所述第一位点对应的第一特征向量和每个所述第二位点对应的第二特征向量;
生成模块,用于利用所述第一特征向量和所述第二特征向量训练预先构建的初始预测模型,生成目标预测模型,所述目标预测模型用于预测蛋白质中的位点是否属于SLiMs片段。
可选地,所述第一特征向量的数量和所述第二特征向量的数量相同。
可选地,所述第一获取模块,包括:
第一获取单元,用于从本征无序蛋白质IDPs序列库中,获得多个分子识别特征MoRFs片段;
第二获取单元,用于基于所述MoRFs片段,筛选片段长度为大于等于3个氨基酸且小于等于10个氨基酸的多个所述SLiMs片段;
第三获取单元,用于基于所述MoRFs片段,选取与各所述SLiMs片段相隔第一预设长度以外的多个所述非SLiMs片段。
可选地,所述第一提取模块,包括:
第四获取单元,用于对于各所述SLiMs片段,根据基因本体论获取该SLiMs片段所在蛋白质对应的第一子特征向量;并且,对于各所述非SLiMs片段,根据所述基因本体论获取该非SLiMs片段所在蛋白质对应的第二子特征向量;
第五获取单元,用于利用蛋白质对比工具获得该SLiMs片段所在蛋白质对应的第一位置特异性得分矩阵PSSM;
第六获取单元,用于以该SLiMs片段中的每个所述第一位点为中心,基于所述第一PSSM向外扩展第二预设长度,得到各所述第一位点对应的第三子特征向量;并且,以该非SLiMs片段中的每个所述第二位点为中心,基于所述第一PSSM向外扩展所述第二预设长度,得到各所述第二位点对应的第四子特征向量;
第七获取单元,用于基于所述第一子特征向量和每个所述第一位点对应的所述第三子特征向量,获得每个所述第一位点对应的所述第一特征向量;并且,基于所述第二子特征向量和每个所述第二位点对应的所述第四子特征向量,获得每个所述第二位点对应的所述第二特征向量。
可选地,所述装置还包括:
第二获取模块,用于获取待预测蛋白质,所述待预测蛋白质包括N个位点,N为大于1的整数;
第二提取模块,用于提取所述待预测蛋白质的第i位点对应的第i特征向量,其中,i=1,2,…,N;
第三获取模块,用于根据所述第i特征向量和所述目标预测模型,获得第i预测结果,所述第i预测结果用于表征所述第i位点是否属于SLiMs片段。
可选地,所述第二提取模块,包括:
第八获取单元,用于根据所述基因本体论获取所述待预测蛋白质对应的第五子特征向量;
第九获取单元,用于利用所述蛋白质对比工具获得所述待预测蛋白质对应的第二PSSM,并以所述第i位点为中心,基于所述第二PSSM向外扩展所述第二预设长度,得到所述第i位点对应的第六子特征向量;
第十获取单元,用于基于所述第五子特征向量和所述第六子特征向量,获得所述第i位点对应的所述第i特征向量;
所述第三获取模块,具体用于:
将所述第i特征向量输入所述目标预测模型,输出所述第i预测模型。
第三方面,还提供了一种SLiMs预测模型的生成设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述第一方面提供的方法。
第四方面,还提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行上述第一方面提供的方法。
与现有技术相比,本申请至少具有以下优点:
在本申请实施例中,首先,获取多个特异性作用位点SLiMs片段和多个非SLiMs片段,每个SLiMs片段由多个第一位点组成,每个非SLiMs片段包括多个第二位点;然后,提取每个第一位点对应的第一特征向量和每个第二位点对应的第二特征向量;接着,利用多个第一特征向量和多个第二特征向量训练预先构建的初始预测模型,生成目标预测模型,该目标预测模型用于预测蛋白质中的位点是否属于SLiMs片段。可见,通过本申请实施例提供的方法,仅需要提取该蛋白质上各位点的特征向量,借助训练完成的该目标预测模型,即可方便、快速和准确的预测出其上属于SLiMs片段的位点,从而识别出SLiMs片段,尤其对空间三维结构不确定的IDPs,由于该IDPs上SLiMs片段能够确定出该IDPs的生物功能,所以,通过本申请实施例提供的方法为快速、准确的确定出IDPs的生物功能提供了数据基础。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种SLiMs预测模型的生成方法的流程示意图;
图2为本申请实施例提供的实现步骤101的一示例的流程示意图;
图3为本申请实施例提供的实现步骤102的一示例的流程示意图;
图4为本申请实施例提供的一种SLiMs预测方法的流程示意图;
图5为本申请实施例提供的实现步骤402的一示例的流程示意图;
图6为本申请实施例提供的一种SLiMs预测模型的生成装置的结构示意图;
图7为本申请实施例提供的一种SLiMs预测模型的生成设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,通常通过分析蛋白质的空间三维结构确定蛋白质的生物功能,但是对于空间三维结构不确定的IDPs,则无法通过对三维空间结构的分析确定出其生物功能。发明人经过研究发现,IDPs上通常存在SLiMs片段,该SLiMs片段可以体现其所在的IDPs的生物功能。可见,识别SLiMs片段对IDPs的分析、分类以及其他研究具有重要意义。
但是,由于SLiMs片段较短,通常只包括3~10个氨基酸,所以,目前还很难准确的识别出蛋白质上的SLiMs片段,基于此,本申请实施例提供了一种SLiMs预测模型的生成方法,通过获取多个特异性作用位点SLiMs片段和多个非SLiMs片段,每个SLiMs片段由多个第一位点组成,每个非SLiMs片段包括多个第二位点;并提取每个第一位点对应的第一特征向量和每个第二位点对应的第二特征向量;接着,利用多个第一特征向量和多个第二特征向量训练预先构建的初始预测模型,生成目标预测模型,该目标预测模型用于预测蛋白质中的位点是否属于SLiMs片段。这样,通过本申请实施例提供的方法,仅需要提取该蛋白质上各位点的特征向量,借助训练完成的该目标预测模型,即可方便、快速和准确的预测出其上属于SLiMs片段的位点,从而识别出SLiMs片段,尤其对空间三维结构不确定的IDPs,由于该IDPs上SLiMs片段能够确定出该IDPs的生物功能,所以,通过本申请实施例提供的方法为快速、准确的确定出IDPs的生物功能提供了数据基础。
需要说明的是,本申请实施例中,位点特指蛋白质序列上的氨基酸,即,将蛋白质序列上的每个氨基酸都称为一个位点(也可以称为一个残基)。
下面结合附图,详细说明本申请实施例中的各种非限制性实施方式。
图1为本申请实施例提供的一种SLiMs预测模型的生成方法的流程示意图。参见图1,在本实施例中,该方法具体可以包括下述步骤101~步骤103:
步骤101,获取多个特异性作用位点SLiMs片段和多个非SLiMs片段,每个SLiMs片段由多个第一位点组成,每个非SLiMs片段包括多个第二位点。
可以理解的是,可以通过分析蛋白质上的SLiMs片段确定蛋白质的生物功能,通常,一个IDPs上可以包括一个或多个SLiMs片段,每个SLiMs片段包括3-10个第一位点。多个SLiMs片段可以作为生成训练初始预测模型的训练样本的数据基础。
为了确保训练样本的全面性,除了需要有SLiMs片段上的第一位点参与训练之前,还需要有不在SLiMs片段上的其他位点参与训练。所以,步骤101中还获取了多条非SLiMs片段,非SLiMs片段是指蛋白质上除SLiMs片段以外的其他片段,该非SLiMs片段包括的位点记作第二位点。
可以理解的是,为了确保训练样本的均衡性,使得训练所得的目标预测模型鲁棒性更强,可以在步骤101中获取多个SLiMs片段和多个非SLiMs片段时,保证所有SLiMs片段包括的第一位点的总数和所有非SLiMs片段包括的第二位点的总数相同。这样,确保用于训练SLiMs预测模型的数据来源中,二分之一属于已知属于SLiMs片段的第一位点,另外二分之一属于已知不属于SLiMs片段的第二位点,一定程度上使得训练完成的SLiMs预测模型能够更加准确的完成SLiMs位点的预测。
作为一个示例,步骤101中获取多个SLiMs片段和多个非SLiMs片段,具体可以通过下述图2所示的方式实现。参见图2,例如可以包括下述步骤1011~步骤1013:
步骤1011,从本征无序蛋白质IDPs序列库中,获得多个分子识别特征MoRFs片段。
可以理解的是,由于识别SLiMs片段对IDPs尤其关键,所以,本实施例中从IDPs序列库中选取参与训练的样本。IDPs序列库例如可以是:DisProt version 8.0固有无序蛋白质序列库。
具体实现时,可以先在IDPs序列库中,通过人工实验以及生物文献校对的方式,获得IDPs;再从这些IDPs中确定出分子识别特征(英文:Molecular Recognition Features,简称:MoRFs)片段。例如:可以从DisProt version 8.0固有无序蛋白质序列库中,获得364条IDPs,并从该364条IDPs确定702个MoRFs片段,这702个MoRFs片段共包括15,542个位点。
步骤1012,基于MoRFs片段,筛选片段长度为大于等于3个氨基酸且小于等于10个氨基酸的多个SLiMs片段。
从各个MoRFs片段中,筛选出长度大于等于3个氨基酸且小于等于10个氨基酸的MoRFs片段,作为SLiMs片段。
步骤1013,基于MoRFs片段,选取与各SLiMs片段相隔第一预设长度以外的多个非SLiMs片段。
例如:假设基于步骤1011获得3个MoRFs片段:MoRFs片段1、MoRFs片段2和MoRFs片段3,其中,MoRFs片段1包括30个位点,MoRFs片段2包括100个位点,MoRFs片段3包括50个位点,其中,通过步骤1012,获得MoRFs片段1上的SLiMs片段1为第5到第12个位点,MoRFs片段2上的SLiMs片段2为第52到第60个位点,MoRFs片段3上的SLiMs片段3为第40到第45个位点。那么,假设第一预测长度为12个位点,则,通过步骤1013可以确定:对于MoRFs片段1,非SLiMs片段1为第25到第30个位点;对于MoRFs片段2,非SLiMs片段2为第1到第37个位点以及第73到第100个位点;对于MoRFs片段3,非SLiMs片段3为第1到第27个位点。这样,确定的多个SLiMs片段共包括(8+9+6)=23个第一位点,多个非SLiMs片段共包括(6+37+28+27)=98个第二位点。
其中,为了确保训练样本的均衡,还可以统计多个SLiMs片段共包括的第一位点的总数,从第二位点中随机筛选出和第一位点总数相同的位点,作为参与训练SLiMs预测模型的第二位点,并将该筛选确定的第二位点所在的片段记作步骤1013中获得的非SLiMs片段。例如,将上述例子中98个第二位点,通过随机筛选,确定23个第二位点参与SLiMs预测模型的训练。
需要说明的是,步骤1012和步骤1013的执行没有先后顺序,可以先执行步骤1012再执行步骤1013,也可以先执行步骤1013再执行步骤1012,还可以同时执行步骤1012和步骤1013,在本申请实施例中不作具体限定。
可见,通过上述图2所示的实现方式,可以实现上述步骤101,获得包括第一位点的多个SLiMs片段和包括第二位点的多个非SLiMs片段,为后续提供丰富和完善的训练样本以及训练出准确的SLiMs预测模型,提供了数据基础。
步骤102,提取每个第一位点对应的第一特征向量和每个第二位点对应的第二特征向量。
可以理解的是,第一特征向量用于表征其对应的第一位点的特征,该第一特征向量和第一位点一一对应,两者的数量相同。第二特征向量用于表征其对应的第二位点的特征,该第二特征向量和第二位点一一对应,两者的数量相同。若第一位点和第二位点的数量相同,则,第一特征向量的数量和第二特征向量的数量也相同。
具体实现时,考虑到SLiMs片段较短的特点,为了准确的描述出SLiMs片段上位点的特征,本申请实施例将融合SLiMs片段或非SLiMs所在蛋白质序列的特征以及各第一位点或第二位点的同源进化特征,获得能够更加丰富的表征各位点的特征向量,为训练SLiMs预测模型提供了具有针对性、更加丰富和完善的训练样本。
作为一个示例,步骤102具体可以通过下述图3所示的方式实现。参见图3,例如可以包括下述步骤1021~步骤1024:
步骤1021,对于各SLiMs片段,根据基因本体论获取该SLiMs片段所在蛋白质对应的第一子特征向量;并且,对于各非SLiMs片段,根据基因本体论获取该非SLiMs片段所在蛋白质对应的第二子特征向量。
对于每个SLiMs片段,都执行一次步骤1021,获得表征该SLiMs片段所在蛋白质序列特征的第一子特征向量。同理,对于每个非SLiMs片段,都执行一次步骤1021,获得表征该非SLiMs片段所在蛋白质序列特征的第二子特征向量。
可以理解的是,基因本体论(英文:Gene Ontology,简称:GO),是基因本体联合会(英文:GeneOnotologyConsortium)所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。GO作为对序列研究的重要工具,其实质可以看作一个知识图谱。其中,对于每个蛋白质,基于基因本体论获得其对应的特征向量的过程具体可以包括:第一步,通过蛋白质编号在GO中进行搜索,可以得到该蛋白质的多个注释(也称为标签),例如:蛋白质的结构注释(英文:structural annotation)、功能注释(英文:functional annotation)等;第二步,通过多个注释计算各注释对应的词向量;第三步,将多个词向量取平均值,记作该蛋白质的特征向量。
例如:假设步骤101获得SLiMs片段1、SLiMs片段2和SLiMs片段3,分别属于三个不同的蛋白质:蛋白质1、蛋白质2和蛋白质3,根据基因本体论获取SLiMs片段1所在蛋白质1对应的第一子特征向量1的过程可以包括:S11,利用蛋白质1的编号1在GO中搜索,获得蛋白质1对应的注释:注释1、注释2和注释3,S12,计算注释1对应的词向量1,计算注释2对应的词向量2,计算注释3对应的词向量3;S13,取词向量1、词向量2和词向量3的平均值,得到词向量X,并将该词向量X作为该SLiMs片段1所在蛋白质1对应的第一子特征向量1。同理,可以SLiMs片段2所在蛋白质2对应的第一子特征向量2,可以SLiMs片段3所在蛋白质3对应的第一子特征向量3。
其中,“对于各非SLiMs片段,根据基因本体论获取该非SLiMs片段所在蛋白质对应的第二子特征向量”的实现方式参见上述关于获得SLiMs片段所在蛋白质对应的第一子特征向量的相关描述,在此不再赘述。
第一子特征向量和第二子特征向量的维数相同,具体可以根据对蛋白质特征需求的不同,设置不同的维数,例如:第一子特征向量和第二子特征向量均可以是100维的特征向量。
步骤1022,利用蛋白质对比工具获得该SLiMs片段所在蛋白质对应的第一位置特异性得分矩阵(英文:Position Specific Scoring Matrix,简称:PSSM)。
可以理解的是,为了体现蛋白质的同源进化特征,采用PSSM对SLiMs片段所在蛋白质进行分析和处理,可以大大的提高处理结果的准确性。需要说明的是,由于步骤101中获取非SLiMs片段时,通常在SLiMs片段所在的MoRFs片段中进行筛选,则可以确定选取的SLiMs片段和非SLiMs片段属于同一个蛋白质,SLiMs片段所在的蛋白质涵盖了所有SLiMs片段和非SLiMs片段。
具体实现时,步骤1022的实现过程具体可以包括:S21,在蛋白质序列数据库中查找该SLiMs片段所在蛋白质的同源蛋白质;S22,将SLiMs片段所在蛋白质与同源蛋白质的氨基酸序列进行多序列比对,得到该SLiMs片段所在蛋白质的第一PSSM。
其中,蛋白质序列数据库,是指应用计算机功能分析生物学信息的数据库。应用计算机的运算法则,比较氨基酸序列而预测蛋白质的结构和功能。例如:该蛋白质序列数据库可以是非冗余蛋白质序列数据库,该数据库包含152,910,397条蛋白质,每条蛋白质对应的氨基酸序列的信息例如可以包括:标定好的该氨基酸序列中各个位置的氨基酸,以及该氨基酸序列是否具备和糖类结合的功能,是否具备和脂质结合的功能等。
可以理解的是,同源蛋白质,是指来自不同种类生物、而对应的氨基酸序列类似的蛋白质。
作为一个示例,多序列比对具体可以采用位置特定的迭代-基本局部对齐搜索工具(英文:Position-Specific Iterated-Basic Local Alignment Search Tool,简称:PSI-BLAST)。假设PSI-BLAST设置最大迭代次数为4,E值的临界值为0.001,采用该PSI-BLAST进行多序列比对该同源蛋白质的氨基酸序列和SLiMs片段所在蛋白质的氨基酸序列,得到的第一PSSM例如可以如下表1所示:
表1第一PSSM
其中,横向的“A、R、N、D、C、Q、E、……、V”表示组成蛋白质的氨基酸序列的20中氨基酸;纵向的“1M、2K、3I、4S、5F、6H、……”表示该类同源的蛋白质的氨基酸序列中每个位置的位置序号和该位置上的氨基酸;中间的数字为位置特异性得分,用于表示该氨基酸出现在该位置的可能性大小(也称为倾向程度或者保守程度),一般该位置特异性得分的取值范围为-13到+13。例如:上述表格中第二行和第三列交叉位置处的“-6”(字体加粗且加下划线的得分),表示该SLiMs片段所在蛋白质的氨基酸序列中,第一个位置出现氨基酸R的可能性得分为-6;再例如:上述表格中第五行和第五列交叉位置处的“-4”(字体加粗且加下划线的得分),表示该SLiMs片段所在蛋白质的氨基酸序列中,第四个位置出现氨基酸D的可能性得分为-4。
可以理解的是,若SLiMs片段所在蛋白质的长度为n,则,获得该SLiMs片段所在蛋白质对应的第一PSSM为n×20的矩阵。
步骤1023,以该SLiMs片段中的每个第一位点为中心,基于第一PSSM向外扩展第二预设长度,得到各第一位点对应的第三子特征向量;并且,以该非SLiMs片段中的每个第二位点为中心,基于第一PSSM向外扩展第二预设长度,得到各第二位点对应的第四子特征向量。
可以理解的是,对于每个SLiMs片段中每个第一位点,都执行一次步骤1023,获得该第一位点对应的第三子特征向量。同理,对于每个非SLiMs片段中每个第二位点,都执行一次步骤1023,获得该第二位点对应的第四子特征向量。
例如,假设SLiMs片段所在蛋白质的长度为10,第一PSSM为:第二预设长度为2,该SLiMs片段包括第三行到第五行,即,第一位点为第3行对应的位置、第4行对应的位置、第5行对应的位置,则,该第一位点为第3行对应的位置时,对应的第三子特征向量可以是以第3行为中心,向上扩展两行,向下扩展两行,具体可以表示为:[(a1,b1,c1,d1,e1),(a2,b2,c2,d2,e2),(a3,b3,c3,d3,e3),……,(a20,b20,c20,d20,e20)]。该第一位点为第4行对应的位置时,对应的第三子特征向量可以是以第4行为中心,向上扩展两行,向下扩展两行,具体可以表示为:[(b1,c1,d1,e1,f1),(b2,c2,d2,e2,f2),(b3,c3,d3,e3,f3),……,(b20,c20,d20,e20,f20)]。该第一位点为第5行对应的位置时,对应的第三子特征向量可以是以第5行为中心,向上扩展两行,向下扩展两行,具体可以表示为:[(c1,d1,e1,f1,g1),(c2,d2,e2,f2,g2),(c3,d3,e3,f3,g3),……,(c20,d20,e20,f20,g20)]。其中,各第三子特征向量均为(2*2+1)*20=100维的特征向量。
其中,第二预设长度也可以取1,那么,第三子特征向量为(1*2+1)*20=60维的特征向量。第二预设程度可以根据技术人员的经验进行设计,在本申请实施例中不作具体限定。
其中,“以该非SLiMs片段中的每个第二位点为中心,基于第一PSSM向外扩展第二预设长度,得到各第二位点对应的第四子特征向量”的实现方式参见上述关于确定第一位点对应的第三子特征向量的相关描述,在此不再赘述。
第三子特征向量和第四子特征向量的维数相同,具体可以根据对蛋白质特征需求的不同,设置不同的维数,例如:第三子特征向量和第四子特征向量均可以是60维的特征向量。
由于第一位点已知为SLiMs片段上的位点,所以,该第一位点对应的第三子特征向量,能够表现出该位点为SLiMs片段上的位点。同理,由于第二位点已知为非SLiMs片段上的位点,所以,该第二位点对应的第四子特征向量,能够表现出该位点为非SLiMs片段上的位点,不属于SLiMs片段。
步骤1024,基于第一子特征向量和每个第一位点对应的第三子特征向量,获得每个第一位点对应的第一特征向量;并且,基于第二子特征向量和每个第二位点对应的第四子特征向量,获得每个第二位点对应的第二特征向量。
对于每个SLiMs片段对应一个第一子特征向量,该SLiMs片段上的每个第一位点对应一个第三子特征向量,那么,以每个第一位点为对象,可以将其对应的第三子特征向量和所属SLiMs片段对应的第一子特征向量进行融合,获得该第一位点对应的第一特征向量。同理,对于每个非SLiMs片段对应一个第二子特征向量,该非SLiMs片段上的每个第二位点对应一个第四子特征向量,那么,以每个第二位点为对象,可以将其对应的第四子特征向量和所属非SLiMs片段对应的第二子特征向量进行融合,获得该第二位点对应的第二特征向量。
例如:对于SLiMs片段1,其上包括:第一位点1、第一位点2和第一位点3,根据步骤1021获得SLiMs片段1所在蛋白质1对应的第一子特征向量1,根据步骤1022~步骤1023分别获得第一位点1对应的第三子特征向量1、第一位点2对应的第三子特征向量2和第一位点3对应的第三子特征向量3;那么,在步骤1024中,可以将第一子特征向量1和第三子特征向量1融合,得到第一位点1对应的第一特征向量1;将第一子特征向量1和第三子特征向量2融合,得到第一位点2对应的第一特征向量2;将第一子特征向量1和第三子特征向量3融合,得到第一位点3对应的第一特征向量3。
又例如:对于非SLiMs片段2,其上包括:第二位点1、第二位点2和第二位点3,根据步骤1021获得非SLiMs片段2所在蛋白质2对应的第二子特征向量1,根据步骤1022~步骤1023分别获得第二位点1对应的第四子特征向量1、第二位点2对应的第四子特征向量2和第二位点3对应的第四子特征向量3;那么,在步骤1024中,可以将第二子特征向量1和第四子特征向量1融合,得到第二位点1对应的第二特征向量1;将第二子特征向量1和第四子特征向量2融合,得到第二位点2对应的第二特征向量2;将第二子特征向量1和第四子特征向量3融合,得到第二位点3对应的第二特征向量3。
其中,将第一子特征向量和第三子特征向量融合,获得第一特征向量,具体可以是:将第一子特征向量和第三子特征向量进行拼接,获得第一特征向量,拼接的顺序可以不作具体限定。例如:假设第一子特征向量为100维的特征向量A,第三子特征向量为60维的特征向量B,那么,第一特征向量为160维特征向量C,特征向量C可以表示为[A,B]或者[B,A]。
如此,通过上述图3所示的方式,可以提取到已知属于SLiMs片段的第一位点对应的第一特征向量,以及已知不属于SLiMs片段的第二位点对应的第二特征向量,作为训练SLiMs预测模型的训练样本,为进行后续SLiMs预测模型的训练做好了准备。
步骤103,利用第一特征向量和第二特征向量训练预先构建的初始预测模型,生成目标预测模型,目标预测模型用于预测蛋白质中的位点是否属于SLiMs片段。
可以理解的是,初始预测模型,可以预先构建的、用于预测蛋白质中位点是否属于SLiMs片段的模型。该初始预测模型具体可以是分类模型,那么,该初始预测模型的输入为蛋白质上位点对应的特征向量,输出包括两种情况,一种情况,输出用于表征该位点属于SLiMs片段,例如:输出“是”,另一种情况,输出用于表征该位点不属于SLiMs片段,例如:输出“否”。
具体实现时,可以将各第一位点对应的第一特征向量和各第二位点对应的第二特征向量,输入到该初始预测模型中,通过对比实际输出结果和目标输出结果的差异,调整该初始预测模型。需要说明的是,当采用训练样本中的下一个特征向量1进行训练时,需要将该下一个特征向量1输入至最新调整后的初始预测模型1,获得该次训练的实际输出结果,用该次训练的实际输出结果和目标输出结果的差异继续调整该最新调整后的初始预测模型1,获得最新调整后的初始预测模型2;当采用训练样本中的下一个特征向量2进行训练时,需要将该下一个特征向量2输入至最新调整后的初始预测模型2,获得该次训练的实际输出结果,用该次训练的实际输出结果和目标输出结果的差异继续调整该最新调整后的初始预测模型2,获得最新调整后的初始预测模型3;以此类推,直至训练样本中所有的特征向量(即所有的第一位点对应的第一特征向量和所有的第二位点对应的第二特征向量)都参与初始预测模型的训练为止,或者,直至最新调整后的初始预测模型的预测准确率达到预设准确率阈值(例如:98%)为止,此时,该最新调整的初始预测模型即为目标预测模型。
作为一个示例,如果将第一特征向量输入初始预测模型,已知目标输出结果为该第一位点属于SLiMs片段,若实际输出结果表征该第一位点属于SLiMs片段,则认为实际输出结果和目标输出结果一致,不调整初始预测模型;若实际输出结果表征该第一位点不属于SLiMs片段,则认为实际输出结果和目标输出结果不一致,调整初始预测模型。
作为另一个示例,如果将第二特征向量输入初始预测模型,已知目标输出结果为该第二位点不属于SLiMs片段,若实际输出结果表征该第二位点属于SLiMs片段,则认为实际输出结果和目标输出结果不一致,则调整初始预测模型;若实际输出结果表征该第二位点不属于SLiMs片段,则认为实际输出结果和目标输出结果一致,不对初始预测模型进行调整。
例如,由于支持向量机(英文:Support Vector Machine,简称:SVM),是一种按监督学习方式对数据进行二元分类的广义线性分类器,使用损失函数计算经验风险并在求解中加入了正则化项以优化结构风险,具有较强的鲁棒性,而且,SVM可以还通过核方法(英文:kernel method)进行非线性分类,准确度较高,所以,本申请实施例中的初始预测模型可以采用SVM。
为了使训练SVM的过程更加准确,训练得到的SVM的泛化能力尽可能好,防止在训练过程中SVM的过拟合,可以使用软间隔技术和核函数技术来不断优化SVM算法本身的泛化性能。可以理解的是,SVM中核函数用于解决低维数据线性不可分的问题,能够将低维数据映射到高维空间从而达到可分的目的。本申请实施例中,SVM的核函数可以采用径向基函数(英文:Radial Basis Function,简称:RBF),具体如下公式(1)所示:
其中,x和z分别为训练样本中的两个特征向量,gamma为核函数RBF自带的一个参数,决定了数据映射到新的高维空间后的分布,参数gamma主要是对低维数据进行高维空间的映射。
其中,在线性不可分问题中使用硬边距SVM将产生分类误差,因此可在最大化边距的基础上引入损失函数构造新的优化问题。SVM使用铰链损失函数,并使用松弛变量ξi处理铰链损失函数的分段取值后,沿用硬边界SVM的优化问题形式,软边距SVM的优化问题有如下表示:
s.t.,yi(wTxi+b)≥1-ξi,ξi≥0,i=1,…,n……公式(3)
公式(3)是公式(2)寻优求解的情况下的约束条件。其中,公式(2)和公式(3)中的w表示超平面的法向量;公式(3)中的b表示该超平面的截距,xi表示训练样本中的任意特征向量,yi表示该特征向量xi已知应该被分的类别,即,目标输出结果;c表示正则化系数。
可见,SVM算法参数分别为c和gamma,c越大,表示该SVM的分类越严格,不能有错误;反之,c越小,意味着有更大的错误容忍度;gamma值越大,映射到的高维空间的维度越高,表示训练的结果越好,但是,也越容易引起过拟合,即泛化能力低。
基于此,本申请实施例中,通过不断的调整gamma和c的值,不断地进行交叉验证,从而确定出合适的gamma和c的值,再进入训练样本中下一个特征向量的预测。其中,评估对初始预测模型的训练效果时,可以使用5-fold交叉验证,将训练样本集合(即包括所有的第一特征向量和第二特征向量的集合)中分为5份训练样本子集合,选取其中4份用作训练,1份用作测试,测试获得马修斯相关系数(英文:Matthews correlation coefficient,简称:MCC)评估指标得分。5份训练样本子集合得到的MCC的取平均,作为本次交叉验证的最终评估得分。
其中,MCC考虑到真阳性、假阳性、真阴性和假阴性,通常被视为一种平衡的措施,即使真阳性、假阳性、真阴性和假阴性这些类别的规模大小不同也可以使用。从混淆矩阵中计算MCC的公式如下:
其中,TP称为真阳性,即,目标输出结果表示该位点属于SLiMs片段,实际输出结果表示该位点也属于SLiMs片段;FP称为假阴性,即,目标输出结果表示该位点不属于SLiMs片段,实际输出结果表示该位点属于SLiMs片段;TN称为真阴性,即,目标输出结果表示该位点不属于SLiMs片段,实际输出结果表示该位点也不属于SLiMs片段;FN称为假阳性,即,目标输出结果表示该位点属于SLiMs片段,实际输出结果表示该位点不属于SLiMs片段。
可见,通过本申请实施例提供的SLiMs预测模型的生成方法,构建并训练完成目标预测模型(也即生成的SLiMs预测模型),该目标预测模型用于预测蛋白质上的位点是否属于SLiMs片段。这样,仅需要提取该蛋白质上各位点的特征向量,借助训练完成的该目标预测模型,即可方便、快速和准确的预测出其上属于SLiMs片段的位点,从而识别出SLiMs片段,尤其对空间三维结构不确定的IDPs,由于该IDPs上SLiMs片段能够确定出该IDPs的生物功能,所以,通过本申请实施例提供的方法为快速、准确的确定出IDPs的生物功能提供了数据基础。
在图1所示实施例的基础上,本申请实施例还提供了借助步骤103中生成的目标预测模型对蛋白质上SLiMs的预测方法。图4示出了一种SLiMs预测方法的流程示意图,参见图4,该方法例如可以包括下述步骤401~步骤403:
步骤401,获取待预测蛋白质,待预测蛋白质包括N个位点,N为大于1的整数;
步骤402,提取待预测蛋白质的第i位点对应的第i特征向量,其中,i=1,2,…,N;
步骤403,根据第i特征向量和目标预测模型,获得第i预测结果,第i预测结果用于表征第i位点是否属于SLiMs片段。
可以理解的是,对于待预测蛋白质,其上包括N个位点,若需要利用图1生成的目标预测模型预测该待预测蛋白质上各位点是否为SLiMs,则,首先,需要提取该待预测蛋白质上第i位点的第i特征向量。参见图5,步骤402具体可以包括:
步骤4021,根据基因本体论获取待预测蛋白质对应的第五子特征向量;
步骤4022,利用蛋白质对比工具获得待预测蛋白质对应的第二PSSM,并以第i位点为中心,基于第二PSSM向外扩展第二预设长度,得到第i位点对应的第六子特征向量;
步骤4023,基于第五子特征向量和第六子特征向量,获得第i位点对应的第i特征向量。
其中,蛋白质对比工具采用与图3所示实施例中相同的蛋白质对比工具,基因本体论采用与图3所示实施例中相同的基因本体论工具数据库,第二预设长度也采用与图3所示实施例中相同的第二预设长度。具体实现方式可以参见图3所示实施例的相关说明,在此不再赘述。
其中,步骤403中根据第i特征向量和目标预测模型,获得第i预测结果,具体为:将第i特征向量输入目标预测模型,输出该第i预测模型。
需要说明的是,步骤4023中“基于第五子特征向量和第六子特征向量,获得第i位点对应的第i特征向量”采用的方式,应该与步骤1024中“基于第一子特征向量和每个第一位点对应的第三子特征向量,获得每个第一位点对应的第一特征向量”以及“基于第二子特征向量和每个第二位点对应的第四子特征向量,获得每个第二位点对应的第二特征向量”的方式一致。
在一些具体的实现方式中,对于待预测蛋白质的N个位点,可以都执行上述步骤402~步骤403,即,待预测蛋白质上的每个位点,均得到一个对应的特征向量,并借助目标预测模型,均获得对应的预测结果,那么,当N个预测结果中,存在M个连续的位点对应的预测结果均表征其对应的位点属于SLiMs片段,则可以确定这M个位点组成该待预测蛋白质的一个SLiMs片段,其中,M大于等于3个位点且小于等于10个位点。
可见,通过本申请实施例提供的SLiMs预测方法,不仅可以生成目标预测模型,而且仅需要提取待预测蛋白质上各位点对应的特征向量,借助训练完成的该目标预测模型,即可准确的预测出该蛋白质上的位点是否属于SLiMs片段,从而识别出SLiMs片段,尤其对空间三维结构不确定的IDPs,由于该IDPs上SLiMs片段能够确定出该IDPs的生物功能,所以,通过本申请实施例提供的方法为快速、准确的确定出IDPs的生物功能提供了数据基础。
相应的,本申请实施例还提供了一种SLiMs预测模型的生成装置,如图6所示,该装置具体可以包括:
第一获取模块601,用于获取多个特异性作用位点SLiMs片段和多个非SLiMs片段,每个所述SLiMs片段由多个第一位点组成,每个所述非SLiMs片段包括多个第二位点;
第一提取模块602,用于提取每个所述第一位点对应的第一特征向量和每个所述第二位点对应的第二特征向量;
生成模块603,用于利用所述第一特征向量和所述第二特征向量训练预先构建的初始预测模型,生成目标预测模型,所述目标预测模型用于预测蛋白质中的位点是否属于SLiMs片段。
可选地,所述第一特征向量的数量和所述第二特征向量的数量相同。
可选地,所述第一获取模块601,包括:
第一获取单元,用于从本征无序蛋白质IDPs序列库中,获得多个分子识别特征MoRFs片段;
第二获取单元,用于基于所述MoRFs片段,筛选片段长度为大于等于3个氨基酸且小于等于10个氨基酸的多个所述SLiMs片段;
第三获取单元,用于基于所述MoRFs片段,选取与各所述SLiMs片段相隔第一预设长度以外的多个所述非SLiMs片段。
可选地,所述第一提取模块602,包括:
第四获取单元,用于对于各所述SLiMs片段,根据基因本体论获取该SLiMs片段所在蛋白质对应的第一子特征向量;并且,对于各所述非SLiMs片段,根据所述基因本体论获取该非SLiMs片段所在蛋白质对应的第二子特征向量;
第五获取单元,用于利用蛋白质对比工具获得该SLiMs片段所在蛋白质对应的第一位置特异性得分矩阵PSSM;
第六获取单元,用于以该SLiMs片段中的每个所述第一位点为中心,基于所述第一PSSM向外扩展第二预设长度,得到各所述第一位点对应的第三子特征向量;并且,以该非SLiMs片段中的每个所述第二位点为中心,基于所述第一PSSM向外扩展所述第二预设长度,得到各所述第二位点对应的第四子特征向量;
第七获取单元,用于基于所述第一子特征向量和每个所述第一位点对应的所述第三子特征向量,获得每个所述第一位点对应的所述第一特征向量;并且,基于所述第二子特征向量和每个所述第二位点对应的所述第四子特征向量,获得每个所述第二位点对应的所述第二特征向量。
可选地,所述装置还包括:
第二获取模块,用于获取待预测蛋白质,所述待预测蛋白质包括N个位点,N为大于1的整数;
第二提取模块,用于提取所述待预测蛋白质的第i位点对应的第i特征向量,其中,i=1,2,…,N;
第三获取模块,用于根据所述第i特征向量和所述目标预测模型,获得第i预测结果,所述第i预测结果用于表征所述第i位点是否属于SLiMs片段。
可选地,所述第二提取模块,包括:
第八获取单元,用于根据所述基因本体论获取所述待预测蛋白质对应的第五子特征向量;
第九获取单元,用于利用所述蛋白质对比工具获得所述待预测蛋白质对应的第二PSSM,并以所述第i位点为中心,基于所述第二PSSM向外扩展所述第二预设长度,得到所述第i位点对应的第六子特征向量;
第十获取单元,用于基于所述第五子特征向量和所述第六子特征向量,获得所述第i位点对应的所述第i特征向量;
所述第三获取模块,具体用于:
将所述第i特征向量输入所述目标预测模型,输出所述第i预测模型。
上述描述为SLiMs预测模型的生成装置的相关描述,其中,具体实现方式以及达到的效果,可以参见上述SLiMs预测模型的生成方法实施例的描述,这里不再赘述。
此外,本申请实施例还提供了一种SLiMs预测模型的生成设备,如图7所示,该设备包括处理器701以及存储器702:
所述存储器702用于存储程序代码,并将所述程序代码传输给所述处理器701;
所述处理器701用于根据所述程序代码中的指令执行上述SLiMs预测模型的生成方法。
该SLiMs预测模型的生成设备的具体实现方式以及达到的效果,可以参见上述SLiMs预测模型的生成方法实施例的描述,这里不再赘述。
此外,本申请实施例还提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行上述SLiMs预测模型的生成方法。
本申请实施例中提到的“第一位点”、“第一特征向量”等名称中的“第一”只是用来做名字标识,并不代表顺序上的第一。该规则同样适用于“第二”等。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例和设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及装置实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的优选实施方式,并非用于限定本申请的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (9)
1.一种SLiMs预测模型的生成方法,其特征在于,包括:
从本征无序蛋白质IDPs序列库中,获得多个分子识别特征MoRFs片段;
基于所述MoRFs片段,筛选片段长度为大于等于3个氨基酸且小于等于10个氨基酸的多个特异性作用位点SLiMs片段,每个所述SLiMs片段由多个第一位点组成;
基于所述MoRFs片段,选取与各所述SLiMs片段相隔第一预设长度以外的多个非SLiMs片段,每个所述非SLiMs片段包括多个第二位点;
提取每个所述第一位点对应的第一特征向量和每个所述第二位点对应的第二特征向量,所述第一特征向量融合SLiMs片段所在蛋白质序列的特征和对应的第一位点的同源进化特征,所述第二特征向量融合非SLiMs片段所在蛋白质序列的特征和对应的第二位点的同源进化特征;
利用所述第一特征向量和所述第二特征向量训练预先构建的初始预测模型,生成目标预测模型,所述目标预测模型用于预测蛋白质中的位点是否属于SLiMs片段。
2.根据权利要求1所述的方法,其特征在于,所述第一特征向量的数量和所述第二特征向量的数量相同。
3.根据权利要求1或2所述的方法,其特征在于,所述提取每个所述第一位点对应的第一特征向量和每个所述第二位点对应的第二特征向量,包括:
对于各所述SLiMs片段,根据基因本体论获取该SLiMs片段所在蛋白质对应的第一子特征向量;并且,对于各所述非SLiMs片段,根据所述基因本体论获取该非SLiMs片段所在蛋白质对应的第二子特征向量;
利用蛋白质对比工具获得该SLiMs片段所在蛋白质对应的第一位置特异性得分矩阵PSSM;
以该SLiMs片段中的每个所述第一位点为中心,基于所述第一PSSM向外扩展第二预设长度,得到各所述第一位点对应的第三子特征向量;并且,以该非SLiMs片段中的每个所述第二位点为中心,基于所述第一PSSM向外扩展所述第二预设长度,得到各所述第二位点对应的第四子特征向量;
基于所述第一子特征向量和每个所述第一位点对应的所述第三子特征向量,获得每个所述第一位点对应的所述第一特征向量;并且,基于所述第二子特征向量和每个所述第二位点对应的所述第四子特征向量,获得每个所述第二位点对应的所述第二特征向量。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取待预测蛋白质,所述待预测蛋白质包括N个位点,N为大于1的整数;
提取所述待预测蛋白质的第i位点对应的第i特征向量,其中,i=1,2,…,N;
根据所述第i特征向量和所述目标预测模型,获得第i预测结果,所述第i预测结果用于表征所述第i位点是否属于SLiMs片段。
5.根据权利要求4所述的方法,其特征在于,
所述提取所述待预测蛋白质的第i位点对应的第i特征向量,包括:
根据所述基因本体论获取所述待预测蛋白质对应的第五子特征向量;
利用所述蛋白质对比工具获得所述待预测蛋白质对应的第二PSSM,并以所述第i位点为中心,基于所述第二PSSM向外扩展所述第二预设长度,得到所述第i位点对应的第六子特征向量;
基于所述第五子特征向量和所述第六子特征向量,获得所述第i位点对应的所述第i特征向量;
所述根据所述第i特征向量和所述目标预测模型,获得第i预测结果,具体为:
将所述第i特征向量输入所述目标预测模型,输出所述第i预测模型。
6.一种SLiMs预测模型的生成装置,其特征在于,包括:
第一获取模块,用于从本征无序蛋白质IDPs序列库中,获得多个分子识别特征MoRFs片段,基于所述MoRFs片段,筛选片段长度为大于等于3个氨基酸且小于等于10个氨基酸的多个特异性作用位点SLiMs片段,基于所述MoRFs片段,选取与各所述SLiMs片段相隔第一预设长度以外的多个非SLiMs片段,每个所述SLiMs片段由多个第一位点组成,每个所述非SLiMs片段包括多个第二位点;
第一提取模块,用于提取每个所述第一位点对应的第一特征向量和每个所述第二位点对应的第二特征向量,所述第一特征向量融合SLiMs片段所在蛋白质序列的特征和对应的第一位点的同源进化特征,所述第二特征向量融合非SLiMs片段所在蛋白质序列的特征和对应的第二位点的同源进化特征;
生成模块,用于利用所述第一特征向量和所述第二特征向量训练预先构建的初始预测模型,生成目标预测模型,所述目标预测模型用于预测蛋白质中的位点是否属于SLiMs片段。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取待预测蛋白质,所述待预测蛋白质包括N个位点,N为大于1的整数;
第二提取模块,用于提取所述待预测蛋白质的第i位点对应的第i特征向量,其中,i=1,2,…,N;
第三获取模块,用于根据所述第i特征向量和所述目标预测模型,获得第i预测结果,所述第i预测结果用于表征所述第i位点是否属于SLiMs片段。
8.一种SLiMs预测模型的生成设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1至5任一项所述的方法。
9.一种存储介质,其特征在于,所述存储介质用于存储程序代码,所述程序代码用于执行权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911329667.5A CN111009287B (zh) | 2019-12-20 | 2019-12-20 | SLiMs预测模型的生成方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911329667.5A CN111009287B (zh) | 2019-12-20 | 2019-12-20 | SLiMs预测模型的生成方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111009287A CN111009287A (zh) | 2020-04-14 |
CN111009287B true CN111009287B (zh) | 2023-12-15 |
Family
ID=70117688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911329667.5A Active CN111009287B (zh) | 2019-12-20 | 2019-12-20 | SLiMs预测模型的生成方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111009287B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160084272A (ko) * | 2015-01-05 | 2016-07-13 | 삼성전자주식회사 | 디스플레이 모듈 및 이를 갖는 디스플레이 장치 |
CN106778070A (zh) * | 2017-03-31 | 2017-05-31 | 上海交通大学 | 一种人类蛋白质亚细胞位置预测方法 |
CN109817275A (zh) * | 2018-12-26 | 2019-05-28 | 东软集团股份有限公司 | 蛋白质功能预测模型生成、蛋白质功能预测方法及装置 |
CN110517729A (zh) * | 2019-09-02 | 2019-11-29 | 吉林大学 | 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3048965A4 (en) * | 2013-09-27 | 2017-05-31 | Mayo Foundation for Medical Education and Research | Analyte assessment and arrhythmia risk prediction using physiological electrical data |
CA2976593A1 (en) * | 2015-02-23 | 2016-09-01 | Seagull Therapeutics Sas | Non-natural semaphorins 3 and their medical use |
-
2019
- 2019-12-20 CN CN201911329667.5A patent/CN111009287B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160084272A (ko) * | 2015-01-05 | 2016-07-13 | 삼성전자주식회사 | 디스플레이 모듈 및 이를 갖는 디스플레이 장치 |
CN106778070A (zh) * | 2017-03-31 | 2017-05-31 | 上海交通大学 | 一种人类蛋白质亚细胞位置预测方法 |
CN109817275A (zh) * | 2018-12-26 | 2019-05-28 | 东软集团股份有限公司 | 蛋白质功能预测模型生成、蛋白质功能预测方法及装置 |
CN110517729A (zh) * | 2019-09-02 | 2019-11-29 | 吉林大学 | 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法 |
Non-Patent Citations (2)
Title |
---|
刘冰静 ; 郭红 ; .以位置特异性得分矩阵和基因本体为特征的蛋白质亚细胞定位预测.福州大学学报(自然科学版).2017,45(01),第16-21页. * |
石大宏等.序列蛋白质-GDP绑定位点预测.计算机工程与应用.2015,第52卷(第13期),第55-59页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111009287A (zh) | 2020-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210407622A1 (en) | Neural network architectures for linking biological sequence variants based on molecular phenotype, and systems and methods therefor | |
CN112256828B (zh) | 医学实体关系抽取方法、装置、计算机设备及可读存储介质 | |
CN110084271B (zh) | 一种图片类别的识别方法和装置 | |
US20180107927A1 (en) | Architectures for training neural networks using biological sequences, conservation, and molecular phenotypes | |
US11769073B2 (en) | Methods and systems for producing an expanded training set for machine learning using biological sequences | |
JP2020512651A (ja) | 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体 | |
CN109189892A (zh) | 一种基于文章评论的推荐方法及装置 | |
CN114021718A (zh) | 模型行为可解释性方法、系统、介质及设备 | |
Amilpur et al. | Edeepssp: explainable deep neural networks for exact splice sites prediction | |
CN111048145B (zh) | 蛋白质预测模型的生成方法、装置、设备和存储介质 | |
CN114154029A (zh) | 一种基于人工智能和色谱分析的样品查询方法及服务器 | |
CN111009287B (zh) | SLiMs预测模型的生成方法、装置、设备和存储介质 | |
JP6356015B2 (ja) | 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム | |
CN116861358A (zh) | 基于bp神经网络与多源数据融合的计算思维评测方法 | |
CN111091865B (zh) | MoRFs预测模型的生成方法、装置、设备和存储介质 | |
CN109801675B (zh) | 一种确定蛋白质脂质功能的方法、装置和设备 | |
CN113918471A (zh) | 测试用例的处理方法、装置及计算机可读存储介质 | |
KR102072894B1 (ko) | 인트론과 엑손 구분에 기반한 이상 서열 식별 방법 | |
CN113304485A (zh) | 大数据云游戏的操作数据处理方法、服务器及存储介质 | |
CN111026935A (zh) | 基于自适应度量融合的跨模态检索重排序方法 | |
US20220392573A1 (en) | Machine learning for amino acid chain evaluation | |
CN114927165B (zh) | 泛素化位点的识别方法、装置、系统和存储介质 | |
CN116185843B (zh) | 基于神经元覆盖率引导的两阶段神经网络测试方法及装置 | |
Altalabani et al. | Classification of Diabetes Data Set from Iraq via Different Machine Learning Techniques | |
Krieger | Explainable Classification for an Application System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |