CN114093415B - 肽段可检测性预测方法及系统 - Google Patents

肽段可检测性预测方法及系统 Download PDF

Info

Publication number
CN114093415B
CN114093415B CN202111402298.5A CN202111402298A CN114093415B CN 114093415 B CN114093415 B CN 114093415B CN 202111402298 A CN202111402298 A CN 202111402298A CN 114093415 B CN114093415 B CN 114093415B
Authority
CN
China
Prior art keywords
detectability
enzyme digestion
peptide fragment
theoretical
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111402298.5A
Other languages
English (en)
Other versions
CN114093415A (zh
Inventor
付岩
杨婧涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Academy of Mathematics and Systems Science of CAS
Original Assignee
Academy of Mathematics and Systems Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Academy of Mathematics and Systems Science of CAS filed Critical Academy of Mathematics and Systems Science of CAS
Priority to CN202111402298.5A priority Critical patent/CN114093415B/zh
Publication of CN114093415A publication Critical patent/CN114093415A/zh
Application granted granted Critical
Publication of CN114093415B publication Critical patent/CN114093415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种肽段可检测性预测方法及系统,该方法包括:对所有蛋白序列进行理论酶切,得到各理论酶切肽段;利用预先训练得到的基于肽序列的肽段可检测性预测模型确定各理论酶切肽段的第一可检测性概率,所述肽段可检测性预测模型为循环神经网络。利用本发明方案,可以提高肽段可检测性预测的准确性。

Description

肽段可检测性预测方法及系统
技术领域
本发明涉及蛋白质组学领域,具体涉及一种肽段可检测性预测方法及系统。
背景技术
目前,基于高通量生物质谱技术的蛋白质组学已经成为生物学、医学领域研究的一种前沿方法。在主流的鸟枪法蛋白质组学分析流程中,蛋白质水解产生的肽段将经由质谱仪进行检测,再通过其质谱数据完成对蛋白质的定性和定量分析。然而,由于种种原因,如普遍存在的漏切现象、肽序列本身的理化性质等,导致在常规的蛋白质组学实验中,往往只有很少一部分肽段能被检测到,从而极大地阻碍了人们对质谱数据进行高精度、大规模地解析。因此,若能准确预测各肽段的可检测性,将有助于改善蛋白质组学的实验设计和数据分析。
实际上,肽段能否被检测到并不是一个绝对的问题,而是一个概率问题。目前业界虽然已经提出了一些肽段可检测性预测的方法,但是准确率仍有待提高。
发明内容
本发明提供一种肽段可检测性预测方法及系统,可以方便、有效地实现肽段可检测性的预测。
为此,本发明提供如下技术方案:
一种肽段可检测性预测方法,所述方法包括:
对所有蛋白序列进行理论酶切,得到各理论酶切肽段;
利用预先训练得到的基于肽序列的肽段可检测性预测模型确定各理论酶切肽段的可检测性,得到各理论酶切肽段的第一可检测性概率,所述肽段可检测性预测模型为循环神经网络。
可选地,所述方法还包括按照以下方式建立基于肽序列的肽段可检测性预测模型:
从已鉴定蛋白序列中筛选出高可信蛋白序列;对所述高可信蛋白序列进行理论酶切,得到各理论酶切肽段;
确定各理论酶切肽段中的正例肽段和反例肽段,生成第一训练数据集;
利用所述第一训练数据集训练肽段可检测性预测模型。
可选地,所述从已鉴定蛋白序列中筛选出高可信蛋白序列包括:
根据所述已鉴定蛋白序列的谱图计数和序列覆盖度筛选出高可信蛋白序列。
可选地,所述对所述高可信蛋白序列进行理论酶切,得到各理论酶切肽段包括:
对所述高可信蛋白进行理论酶切,且保证所有理论酶切肽段同时满足设定条件,得到各理论酶切肽段。
可选地,所述设定条件包括:
最大漏切位点数符合鉴定参数设置;
理论酶切肽段长度在鉴定参数设置范围内;
若在位点C端发生酶切,则需去除所有蛋白N端肽;若在位点N端发生酶切,需保留所有蛋白N端肽,并将蛋白N端的氨基酸M作为一个特殊位点,同时考虑切和不切两种情况。
可选地,所述肽段可检测性预测模型包括:词嵌入层、双向长短时记忆网络层、全连接层。
可选地,所述方法还包括:
确定各理论酶切肽段的酶切概率;
利用所述理论酶切肽段的酶切概率对所述理论酶切肽段的第一可检测性概率进行修正,得到所述理论酶切肽段的第二可检测性概率。
可选地,所述确定各理论酶切肽段的酶切概率包括:
利用基于随机森林构建的酶切概率预测模型确定各理论酶切肽段的酶切概率;或者
利用基于神经网络构建的酶切概率预测模型确定各理论酶切肽段的酶切概率。
可选地,所述方法还包括按以下方式构建基于神经网络的酶切概率预测模型:
从已鉴定蛋白序列中筛选出高可信蛋白序列;
对所述高可信蛋白的所有候选酶切位点取31-连子,构建训练候选集,所述31-连子是指位点N端和C端的15位氨基酸加上位点本身所构成的序列;
计算所述高可信蛋白中所有候选位点N端、C端,及其作为漏切位点的次数之和,分别记为SCN、SCC和SCM
对所述训练候选集进行标记,将SCN>0或SCC>0,且SCM=0时的31- 连子作为正例,将SCN=SCC=0,且SCM≥0时的31-连子作为反例;
对标记后的31-连子进行编码,得到31维向量,构成第二训练数据集;
利用所述第二训练数据集训练得到基于神经网络的酶切概率预测模型。
可选地,所述利用所述理论酶切肽段的酶切概率对所述理论酶切肽段的第一可检测性概率进行修正,得到所述理论酶切肽段的第二可检测性概率包括按以下任意一种方式确定所述理论酶切肽段的第二可检测性概率 pDet
(1)
Figure BDA0003364565490000031
(2)pDet=(pBiLSTM*pDig)γ,γ>0;
(3)pDet=γ*pBiLSTM+(1-γ)*pDig,γ∈[0,1];
其中,pDig为所述理论酶切肽段的酶切概率,pBiLSTM为所述理论酶切肽段的第一可检测性概率。
一种肽段可检测性预测系统,所述系统包括:
理论计算模块,用于对所有蛋白序列进行理论酶切,得到各理论酶切肽段;
预测模块,用于利用预先训练得到的基于肽序列的肽段可检测性预测模型确定各理论酶切肽段的可检测性,得到各理论酶切肽段的第一可检测性概率,所述肽段可检测性预测模型为循环神经网络。
可选地,所述系统还包括:肽段可检测性预测模型构建模块,用于建立基于肽序列的肽段可检测性预测模型;所述肽段可检测性预测模型构建模块包括:
第一筛选单元,用于从已鉴定蛋白序列中筛选出高可信蛋白序列;
理论计算单元,用于对所述高可信蛋白序列进行理论酶切,得到各理论酶切肽段;
第一训练数据集生成单元,用于确定各理论酶切肽段中的正例肽段和反例肽段,生成第一训练数据集;
第一训练单元,用于利用所述第一训练数据集训练肽段可检测性预测模型。
可选地,所述系统还包括:
酶切概率确定模块,用于确定各理论酶切肽段的酶切概率;
修正模块,用于利用所述理论酶切肽段的酶切概率对所述理论酶切肽段的第一可检测性概率进行修正,得到所述理论酶切肽段的第二可检测性概率。
可选地,所述酶切概率确定模块,具体用于利用基于随机森林构建的酶切概率预测模型确定各理论酶切肽段的酶切概率;或者利用基于神经网络构建的酶切概率预测模型确定各理论酶切肽段的酶切概率。
可选地,所述系统还包括:酶切概率预测模型构建模块,用于构建基于神经网络的酶切概率预测模型;所述酶切概率预测模型构建模块包括:
第二筛选单元,用于从已鉴定蛋白序列中筛选出高可信蛋白序列;
候选集生成单元,用于对所述高可信蛋白的所有候选酶切位点取31- 连子,构建训练候选集,所述31-连子是指位点N端和C端的15位氨基酸加上位点本身所构成的序列;
计算单元,用于计算所述高可信蛋白中所有候选位点N端、C端,及其作为漏切位点的次数之和,分别记为SCN、SCC和SCM
标记单元,用于对所述训练候选集进行标记,将SCN>0或SCC>0,且SCM=0时的31-连子作为正例,将SCN=SCC=0,且SCM≥0时的31- 连子作为反例;
第二训练数据集生成单元,用于对标记后的31-连子进行编码,得到31 维向量,构成第二训练数据集;
第二训练单元,用于利用所述训练数据集训练得到基于神经网络的酶切概率预测模型。
本发明实施例提供的肽段可检测性预测方法及系统,考虑到肽序列本身蕴含的丰富的信息,基于肽序列的深度学习技术构建肽段可检测性预测模型。通过对所有蛋白序列进行理论酶切,得到各理论酶切肽段,然后利用肽段可检测性预测模型确定各理论酶切肽段的可检测性,得到第一可检测性概率,从而可以方便、有效地实现肽段可检测性的预测。
进一步地,本发明方案还可以综合考虑各理论酶切肽段的酶切概率,利用理论酶切肽段的酶切概率对其第一可检测性概率进行修正,得到各理论酶切肽段的第二可检测性概率,进一步提高肽段可检测性预测的准确性。
附图说明
图1是本发明实施例中建立基于肽序列的肽段可检测性预测模型的流程图;
图2是本发明实施例中基于肽序列的肽段可检测性预测模型的结构示意图;
图3是本发明实施例肽段可检测性预测方法的一种流程图;
图4是本发明实施例肽段可检测性预测方法的另一种流程图;
图5是本发明实施例中构建基于神经网络的酶切概率预测模型的流程图;
图6是本发明实施例中基于神经网络的酶切概率预测模型的一种结构示意图;
图7是本发明实施例中利用基于神经网络的酶切概率预测模型确定酶切肽段的酶切概率的流程图。
图8是本发明实施例肽段可检测性预测系统的一种结构示意图;
图9是本发明实施例肽段可检测性预测系统的另一种结构示意图。
具体实施方式
在早期的研究中,已经开发了不少基于一些理化性质判别肽段能否被检测到的工具,并发现肽段疏水性、序列氨基酸数目及等电位点这三个性质与肽段检测机制密切相关。此外,还进一步发现了蛋白质酶切对肽段可检测性预测的重要性。但是,除了这些理化性质以及蛋白质实验流程中涉及的特征,序列本身就蕴含着丰富的信息,而且通过大量的数据深入解析序列信息,可以提取包含一些重要理化性质在内的上层特征。为此,本发明提供一种肽段可检测性预测方法,采用基于序列的深度学习技术,为肽段可检测性预测问题提供更好的解决方案。
在本发明实施例中,所述肽段可检测性预测模型采用循环神经网络,并且提到的酶切可以是特异性酶切、或者半特异性酶切、或者是非特异性酶切。
下面首先对本发明实施例中建立基于肽序列的肽段可检测性预测模型的过程进行详细说明。
如图1所示,是本发明实施例中建立基于肽序列的肽段可检测性预测模型的流程图,包括以下步骤:
步骤101,从已鉴定蛋白序列中筛选出高可信蛋白序列。
具体地,可以根据所述已鉴定蛋白的谱图计数(Spectral Counts,SCs) 和序列覆盖度(sequence coverage)筛选出高可信蛋白。
其中,谱图计数是指已鉴定蛋白对应的所有鉴定肽段被匹配到的次数之和,序列覆盖度是指被鉴定到的序列占整条蛋白序列的比例。通常认为,谱图计数和序列覆盖度越高的鉴定蛋白可信度越高。因此,在一种非限制性实施例中,可以筛选谱图计数和序列覆盖度均为前50%的蛋白作为高可信蛋白。
在本发明实施例中,可以将已鉴定蛋白中蛋白的谱图数目大于设定阈值h1、且蛋白的序列覆盖度大于设定阈值h2的蛋白作为高可信蛋白;或者将已鉴定蛋白中蛋白的谱图数目和蛋白的序列覆盖度降序排序均靠前的蛋白作为高可信蛋白。
步骤102,对所述高可信蛋白序列进行理论酶切,得到各理论酶切肽段。
需要说明的是,对所述高可信蛋白进行理论酶切,并且需要保证所有理论酶切肽段同时满足设定条件。所述设定条件如下:
1)最大漏切位点数符合鉴定参数设置;
2)理论酶切肽段长度在鉴定参数设置范围内;
3)若在位点C端发生酶切,则需去除所有蛋白N端肽;若在位点N 端发生酶切,需保留所有蛋白N端肽,并将蛋白N端的氨基酸M作为一个特殊位点,同时考虑切和不切两种情况。
步骤103,确定各理论酶切肽段中的正例肽段和反例肽段,生成第一训练数据集。
在得到各理论酶切肽段后,可以从所有理论酶切肽段中去掉所有鉴定肽段,得到未鉴定肽段集。另外,对鉴定肽段进行过滤,只保留来自高可信蛋白的唯一肽段作为高可信肽段。
在本发明实施例中,可以根据高可信肽段来确定的正例肽段,然后去掉所有鉴定肽段再筛选反例肽段。具体地,正例肽段和反例肽段具体可以按照以下方式来确定:
根据已鉴定肽段的谱图计数SCs来确定正例肽段,比如,将SCs大于 1的所有高可信肽段作为正例肽段。同时,从未鉴定肽段集中随机下采样得到与正例肽段数目相同的反例肽段。然后将二者合并即可得到肽段可检测性训练集。
相似地,按照字母表顺序对常见的20种氨基酸进行编码。由于肽段长度不一,模型无法直接处理不定长的输入序列,所以通过填充(Padding) 的方法用0值进行占位,使得输入向量等长(比如默认长度为训练集中最长肽段的长度)。最终,生成肽段可检测性预测训练数据集,即所述第一训练数据集。
步骤104,利用所述第一训练数据集训练肽段可检测性预测模型。
肽段可检测性预测模型BiLSTM采用神经网络,如图2所示,是该肽段可检测性预测模型的结构示意图。肽段可检测性预测模型包括:词嵌入层(Embedding)、双向长短时记忆网络层、全连接层。
在训练时,将上述步骤103中得到的第一训练数据集输入,先通过词嵌入层将各氨基酸表示为相应的向量,并通过填充补齐序列使其等长,而在训练过程中补齐的部分会被自动隐去(Mask)。然后,分布式表示的氨基酸序列将进入一个双向长短时记忆(LongShort-Term Memory,LSTM) 网络层,由两层方向相反的LSTM层堆叠而成,每一层都将得到一个相同维度的向量,再拼接到一起作为BiLSTM层学习的特征表示。
为了避免模型过拟合,在BiLSTM中使用了Dropout技巧,即在前向传播的时候先对层中的神经元以给定的概率进行随机抽样,从而在整体上减少神经元之间复杂的共适应关系。其中,通过交叉验证实验决定Dropout 的概率。之后,再通过一个批标准化(BatchNormalization,BN)层加速训练,并进一步增强模型的泛化性能。最后,使用一个全连接层并由sigmoid 函数激活后输出肽段可检测性预测值。
训练时,先通过基于交叉验证实验的网格法搜索确定模型超参数,再使用Adam方法优化网络权重等参数,损失函数为二分类交叉熵损失 (Binary Cross-entropy),度量指标为二分类精度(Binary Accuracy)。每一批次的训练数据量大小为64,总共迭代训练比如可以是50轮。
利用上述基于肽序列的肽段可检测性预测模型,本发明实施例提供的肽段可检测性预测方法的一种流程图如图3所示,包括以下步骤:
步骤301,对所有蛋白序列进行理论酶切,得到各理论酶切肽段;
步骤302,利用预先训练得到的基于肽序列的肽段可检测性预测模型确定各理论酶切肽段的可检测性,得到第一可检测性概率。
进一步地,在本发明肽段可检测性预测方法另一实施例中,还可综合考虑酶切肽段的酶切概率,利用酶切肽段的酶切概率对上述图3所示实施例中基于肽序列的肽段可检测性预测模型得到的酶切肽段的第一可检测性概率进行修正,得到酶切肽段的第二可检测性概率,以便进一步提高肽段可检测性预测的准确性。
如图4所示,是本发明实施例肽段可检测性预测方法的另一种流程图,该实施例包括以下步骤:
步骤401,对所有蛋白序列进行理论酶切,得到各理论酶切肽段。
步骤402,确定各理论酶切肽段的酶切概率。
需要说明的是,在具体实施时,可以采用多种方式确定各理论酶切肽段的酶切概率,比如,利用基于神经网络构建的酶切概率预测模型确定各理论酶切肽段的酶切概率等,当然也可以利用其它方式构建酶切概率预测模型,对此本发明实施例不做限定。
步骤403,利用基于肽序列的肽段可检测性预测模型确定各理论酶切肽段的可检测性,得到所述理论酶切肽段的第一可检测性概率。
步骤404,利用所述理论酶切肽段的酶切概率对所述理论酶切肽段的第一可检测性概率进行修正,得到所述理论酶切肽段的第二可检测性概率。
具体地,在一种非限制性实施例中,可以对所述理论酶切肽段的酶切概率和所述理论酶切肽段的第一可检测性概率进行相应计算,得到所述理论酶切肽段的可检测性pDet,比如可以采用以下任意一种公式计算理论酶切肽段的第二可检测性概率pDet
(1)
Figure BDA0003364565490000101
(2)pDet=(pBiLSTM*pDig)γ,γ>0;
(3)pDet=γ*pBiLSTM+(1-γ)*pDig,γ∈[0,1];
其中,pDig为所述理论酶切肽段的酶切概率,pBiLSTM为所述理论酶切肽段的第一可检测性概率。
当α=0时,公式(1)为pDet=pBiLSTM,即与修正前的第一可检测性概率相等;
当α=1时,公式(1)为pDet=pBiLSTM*pDig,即简单相乘的形式;
Figure BDA0003364565490000102
时,公式(2)为
Figure BDA0003364565490000103
前面提到,可以利用基于神经网络构建的酶切概率预测模型确定各理论酶切肽段的酶切概率。相应地,本发明实施例提供了一种构建基于神经网络的酶切概率预测模型的方法。
如图5所示,是本发明实施例中构建基于神经网络的酶切概率预测模型的流程图,包括以下步骤:
步骤501,从已鉴定蛋白序列中筛选出高可信蛋白序列。
步骤502,对所述高可信蛋白的所有候选酶切位点取31-连子,构建训练候选集。
所述31-连子(包含位点)是指位点N端和C端的15位氨基酸加上位点本身所构成的序列。
步骤503,计算所述高可信蛋白中所有候选位点N端、C端,及其作为漏切位点的次数之和,分别记为SCN、SCC和SCM
需要说明的是,可根据鉴定肽段的谱图计数信息计算高可信蛋白中所有候选位点N端、C端,及其作为漏切位点的次数之和,分别记为SCN、SCC和 SCM
步骤504,对所述训练候选集进行标记,将SCN>0或SCC>0,且 SCM=0时的31-连子作为正例,将SCN=SCC=0,且SCM≥0时的31-连子作为反例。
步骤505,对标记后的31-连子进行编码,得到31维向量,构成第二训练数据集。
步骤506,利用所述第二训练数据集训练得到基于神经网络的酶切概率预测模型。
所述酶切概率预测模型的输入为经过字典编码的31-连子,通过一个词嵌入(Embedding)层学习各氨基酸字符的分布式表示,再由卷积 (Convolution)层和平均池化(Average-pooling)层操作提取序列局部特征,接下来进入一个LSTM网络学习序列中各氨基酸之间的相互依赖关系,最后使用一个全连接层经过sigmoid函数激活,输出预测的位点酶切概率。
图6示出了本发明实施例中基于神经网络的酶切概率预测模型的一种结构示意图。基于神经网络的酶切概率预测模型包括:词嵌入层、卷积层和平均池化层、长短时记忆网络层、全连接层。酶切概率预测模型的输入为编码后的31-连子,输出为位点酶切概率。
利用上述基于神经网络的酶切概率预测模型,可以得到所有相关位点的酶切概率,然后,再由给定公式计算肽段的酶切概率(Peptide Digestibility)。
如图7所示,是本发明实施例中利用基于神经网络的酶切概率预测模型确定酶切肽段的酶切概率的流程图,包括以下步骤:
步骤701,对所有蛋白序列进行理论酶切,得到各理论酶切肽段。
步骤702,对所有蛋白序列的各候选酶切位点取31-连子。
步骤703,对所述31-连子进行编码,得到31维向量。
步骤704,将所述31维向量输入酶切概率预测模型,得到所有相关位点的酶切概率。
步骤705,根据所有相关位点的酶切概率计算各理论酶切肽段的酶切概率。
特别地,从不同的角度出发,可以采用不同的计算公式,分别有:
pDig=pN*pC*∏m∈M(1-pm);
pDig=pN*pC
pDig=minm∈M(pN,pC,1-pm);
pDig=minm∈M(pN,pC,pm);
pDig=min(pN,pC);
其中,pN、pC和pm分别表示肽段N端、C端,以及序列中间(漏切) 的位点酶切概率,M表示序列中间(漏切)位点全集。
相应地,本发明实施例还提供一种肽段可检测性预测系统,如图8所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
理论计算模块801,用于对所有蛋白序列进行理论酶切,得到各理论酶切肽段;
预测模块802,用于利用预先训练得到的基于肽序列的肽段可检测性预测模型确定各理论酶切肽段的可检测性,得到各理论酶切肽段的第一可检测性概率,所述肽段可检测性预测模型为循环神经网络。
所述肽段可检测性预测模型可由相应的肽段可检测性预测模型构建模块预先构建,肽段可检测性预测模型构建模块可以作为本发明系统的一部分,也可以独立于该系统,对此本发明实施例不做限定。
肽段可检测性预测模型构建模块的一种具体结构可以包括以下各单元:
第一筛选单元,用于从已鉴定蛋白序列中筛选出高可信蛋白序列;
理论计算单元,用于对所述高可信蛋白序列进行理论酶切,得到各理论酶切肽段;
第一训练数据集生成单元,用于确定各理论酶切肽段中的正例肽段和反例肽段,生成第一训练数据集;
第一训练单元,用于利用所述第一训练数据集训练肽段可检测性预测模型。
如图9所示,是本发明肽段可检测性预测系统的另一种结构示意图。
与图8所示实施例的区别在于,在该实施例中,所述系统还包括以下各模块:
酶切概率确定模块803,用于确定各理论酶切肽段的酶切概率;
修正模块804,用于利用所述理论酶切肽段的酶切概率对所述理论酶切肽段的第一可检测性概率进行修正,得到所述理论酶切肽段的第二可检测性概率。
在具体实施时,酶切概率确定模块803可以利用基于随机森林构建的酶切概率预测模型确定各理论酶切肽段的酶切概率;或者利用基于神经网络构建的酶切概率预测模型确定各理论酶切肽段的酶切概率。
在一种非限制性实施例中,基于神经网络构建的酶切概率预测模型可以由酶切概率预测模型构建模块构建,同样地,酶切概率预测模型构建模块可以作为本发明系统的一部分,也可以独立于该系统,对此本发明实施例不做限定。
所述酶切概率预测模型构建模块的一种具体结构可以包括以下各单元:
第二筛选单元,用于从已鉴定蛋白序列中筛选出高可信蛋白序列;
候选集生成单元,用于对所述高可信蛋白的所有候选酶切位点取31- 连子,构建训练候选集,所述31-连子是指位点N端和C端的15位氨基酸加上位点本身所构成的序列;
计算单元,用于计算所述高可信蛋白中所有候选位点N端、C端,及其作为漏切位点的次数之和,分别记为SCN、SCC和SCM
标记单元,用于对所述训练候选集进行标记,将SCN>0或SCC>0,且SCM=0时的31-连子作为正例,将SCN=SCC=0,且SCM≥0时的31- 连子作为反例;
第二训练数据集生成单元,用于对标记后的31-连子进行编码,得到31 维向量,构成第二训练数据集;
第二训练单元,用于利用所述训练数据集训练得到基于神经网络的酶切概率预测模型。
本发明实施例提供的肽段可检测性预测方法及系统,考虑到肽序列本身蕴含的丰富的信息,基于肽序列的深度学习技术构建肽段可检测性预测模型。通过对所有蛋白序列进行理论酶切,此处可以是特异性酶切,也可以是半特异性酶切、或者非特异性酶切,得到各理论酶切肽段,然后利用肽段可检测性预测模型确定各理论酶切肽段的可检测性,得到第一可检测性概率,从而可以方便、有效地实现肽段可检测性的预测。
进一步地,本发明方案还可以综合考虑各理论酶切肽段的酶切概率,利用理论酶切肽段的酶切概率对其第一可检测性概率进行修正,得到各理论酶切肽段的第二可检测性概率,进一步提高肽段可检测性预测的准确性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的模块和单元可以是或者也可以不是物理上分开的,即可以位于一个网络单元上,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称的存储介质,如:ROM/RAM、磁碟、光盘等。
相应地,本发明实施例还提供一种用于肽段可检测性预测方法的装置,该装置是一种电子设备,比如,可以是移动终端、计算机、平板设备、个人数字助理等。所述电子设备可以包括一个或多个处理器、存储器;其中,所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现前面各实施例所述的方法。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/“,表示前后关联对象是一种“或”的关系。
本申请实施例中出现的“多个”是指两个或两个以上。
本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及装置,其仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围,本说明书内容不应理解为对本发明的限制。因此,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种肽段可检测性预测方法,其特征在于,所述方法包括:
对所有蛋白序列进行理论酶切,得到各理论酶切肽段;
利用预先训练得到的基于肽序列的肽段可检测性预测模型确定各理论酶切肽段的可检测性,得到各理论酶切肽段的第一可检测性概率,所述肽段可检测性预测模型为循环神经网络;
确定各理论酶切肽段的酶切概率;
利用所述理论酶切肽段的酶切概率对所述理论酶切肽段的第一可检测性概率进行修正,得到所述理论酶切肽段的第二可检测性概率,包括按以下任意一种方式确定所述理论酶切肽段的第二可检测性概率pDet
(1)
Figure FDA0003599424340000011
(2)pDet=(pBiLSTM*pDig)β,β>0;
(3)pDet=γ*pBiLSTM+(1-γ)*pDig,γ∈[0,1];
其中,pDig为所述理论酶切肽段的酶切概率,pBiLSTM为所述理论酶切肽段的第一可检测性概率。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括按照以下方式建立基于肽序列的肽段可检测性预测模型:
从已鉴定蛋白序列中筛选出高可信蛋白序列;
对所述高可信蛋白序列进行理论酶切,得到各理论酶切肽段;
根据所述理论酶切肽段生成第一训练数据集;
利用所述第一训练数据集训练肽段可检测性预测模型。
3.根据权利要求2所述的方法,其特征在于,所述从已鉴定蛋白序列中筛选出高可信蛋白序列包括:
根据所述已鉴定蛋白序列的谱图计数和序列覆盖度筛选出高可信蛋白序列。
4.根据权利要求2所述的方法,其特征在于,所述肽段可检测性预测模型包括:词嵌入层、双向长短时记忆网络层、全连接层。
5.根据权利要求1所述的方法,其特征在于,所述确定各理论酶切肽段的酶切概率包括:
利用基于随机森林构建的酶切概率预测模型确定各理论酶切肽段的酶切概率;或者
利用基于神经网络构建的酶切概率预测模型确定各理论酶切肽段的酶切概率。
6.一种肽段可检测性预测系统,其特征在于,所述系统包括:
理论酶切模块,用于对所有蛋白序列进行理论酶切,得到各理论酶切肽段;
预测模块,用于利用预先训练得到的基于肽序列的肽段可检测性预测模型确定各理论酶切肽段的可检测性,得到各理论酶切肽段的第一可检测性概率,所述肽段可检测性预测模型为循环神经网络;
酶切概率确定模块,用于确定各理论酶切肽段的酶切概率;
修正模块,用于利用所述理论酶切肽段的酶切概率对所述理论酶切肽段的第一可检测性概率进行修正,得到所述理论酶切肽段的第二可检测性概率;
所述利用所述理论酶切肽段的酶切概率对所述理论酶切肽段的第一可检测性概率进行修正,得到所述理论酶切肽段的第二可检测性概率,包括按以下任意一种方式确定所述理论酶切肽段的第二可检测性概率pDet
(1)
Figure FDA0003599424340000021
(2)pDet=(pBiLSTM*pDig)β,β>0;
(3)pDet=γ*pBiLSTM+(1-γ)*pDig,γ∈[0,1];
其中,pDig为所述理论酶切肽段的酶切概率,pBiLSTM为所述理论酶切肽段的第一可检测性概率。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括:肽段可检测性预测模型构建模块,用于建立基于肽序列的肽段可检测性预测模型;所述肽段可检测性预测模型构建模块包括:
第一筛选单元,用于从已鉴定蛋白序列中筛选出高可信蛋白序列;
理论计算单元,用于对所述高可信蛋白序列进行理论酶切,得到各理论酶切肽段;
第一训练数据集生成单元,用于确定各理论酶切肽段中的正例肽段和反例肽段,生成第一训练数据集;
第一训练单元,用于利用所述第一训练数据集训练肽段可检测性预测模型。
CN202111402298.5A 2021-11-19 2021-11-19 肽段可检测性预测方法及系统 Active CN114093415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111402298.5A CN114093415B (zh) 2021-11-19 2021-11-19 肽段可检测性预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111402298.5A CN114093415B (zh) 2021-11-19 2021-11-19 肽段可检测性预测方法及系统

Publications (2)

Publication Number Publication Date
CN114093415A CN114093415A (zh) 2022-02-25
CN114093415B true CN114093415B (zh) 2022-06-03

Family

ID=80303806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111402298.5A Active CN114093415B (zh) 2021-11-19 2021-11-19 肽段可检测性预测方法及系统

Country Status (1)

Country Link
CN (1) CN114093415B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023178480A1 (zh) * 2022-03-21 2023-09-28 中国科学院深圳理工大学(筹) 生成活性肽段的方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105814573A (zh) * 2013-09-27 2016-07-27 科德克希思公司 基于结构的预测性建模
CN109243527A (zh) * 2018-08-09 2019-01-18 中国人民解放军军事科学院军事医学研究院 一种酶切概率辅助的肽段可检测性预测方法
CN110349621A (zh) * 2019-06-04 2019-10-18 中国科学院计算技术研究所 肽段-谱图匹配可信度检验方法、系统、存储介质及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756646B2 (en) * 2006-03-31 2010-07-13 Battelle Memorial Institute Method for predicting peptide detection in mass spectrometry
CN108491690B (zh) * 2018-03-16 2020-06-05 中国科学院数学与系统科学研究院 一种蛋白质组学中肽段的肽段定量效率预测方法
CN110310706B (zh) * 2018-03-19 2020-08-18 中国人民解放军军事科学院军事医学研究院 一种蛋白质无标绝对定量方法
BR112021024915A2 (pt) * 2019-06-12 2022-01-18 Quantum Si Inc Técnicas para a identificação de proteína ao usar aprendizagem de máquina e sistemas e métodos relacionados

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105814573A (zh) * 2013-09-27 2016-07-27 科德克希思公司 基于结构的预测性建模
CN109243527A (zh) * 2018-08-09 2019-01-18 中国人民解放军军事科学院军事医学研究院 一种酶切概率辅助的肽段可检测性预测方法
CN110349621A (zh) * 2019-06-04 2019-10-18 中国科学院计算技术研究所 肽段-谱图匹配可信度检验方法、系统、存储介质及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
AP3:An Advanced Proteotypic Peptide Predictor for Targeted Proteomics by Incorporating Peptide Digestibility;Zhiqiang Gao 等;《Analytical Chemistry》;20190806;第8705-8711页 *
Integrated modeling of Peptide digestion and detection for the prediction of proteotypic peptides in targeted proteomics;Zhiqiang Gao 等;《bioRxiv》;20181211;第1-22页 *
PepFormer: End-to-End Transformer-Based Siamese Network to Predict and Enhance Peptide Detectability Based on Sequence Only;Hao Cheng 等;《Analytical Chemistry》;20210418;第B页右栏第4段-第F页右栏第1段、图1 *
The Importance of Peptide Detectability for Protein Identification,Quantification,and Experiment Design in MS/MS Proteomics;Yong Fuga Li 等;《Journal of Proteome Research》;20101011;第6288-6297页 *
蛋白质组学质谱平台肽段可检测性预测研究进展;徐长明 等;《分析化学》;20100228;第38卷(第2期);第286-292页 *
蛋白质组质谱平台实验数据仿真生成研究;刘辉;《中国博士学位论文全文数据库基础科学辑》;20170215;第A006-89页 *

Also Published As

Publication number Publication date
CN114093415A (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN111581229B (zh) Sql语句的生成方法、装置、计算机设备及存储介质
CN113312500B (zh) 一种面向大坝安全运行的事件图谱构建方法
WO2020014767A1 (en) Systems and methods for de novo peptide sequencing from data-independent acquisition using deep learning
CN111798921A (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN111063393B (zh) 基于信息融合和深度学习的原核生物乙酰化位点预测方法
CN107103205A (zh) 一种基于蛋白质质谱数据注释真核生物基因组的生物信息学方法
US11644470B2 (en) Systems and methods for de novo peptide sequencing using deep learning and spectrum pairs
CN114743020A (zh) 一种结合标签语义嵌入和注意力融合的食物识别方法
CN112084435A (zh) 搜索排序模型训练方法及装置、搜索排序方法及装置
CN112580346B (zh) 事件抽取方法、装置、计算机设备和存储介质
CN114398983A (zh) 分类预测方法、装置、设备、存储介质及计算机程序产品
CN112580483A (zh) 一种基于粗糙模糊模型的遥感影像特征离散化方法
CN114093415B (zh) 肽段可检测性预测方法及系统
CN115168541A (zh) 基于框架语义映射和类型感知的篇章事件抽取方法及系统
CN107463799B (zh) 交互融合特征表示与选择性集成的dna结合蛋白识别方法
Downey et al. alineR: An R package for optimizing feature-weighted alignments and linguistic distances
Kang et al. AFTGAN: prediction of multi-type PPI based on attention free transformer and graph attention network
YAN et al. AttentionSplice: An Interpretable Multi‐Head Self‐Attention Based Hybrid Deep Learning Model in Splice Site Prediction
CN111898339A (zh) 基于约束解码的古诗生成方法、装置、设备及介质
Schoenholz et al. Peptide-spectra matching from weak supervision
CN112908421A (zh) 肿瘤新生抗原预测方法、装置、设备及介质
CN112735532B (zh) 基于分子指纹预测的代谢物识别系统及其应用方法
CN113495964A (zh) 三元组的筛选方法、装置、设备及可读存储介质
CN111599412B (zh) 基于词向量与卷积神经网络的dna复制起始区域识别方法
CN113035175A (zh) 一种语音文本重写模型构建方法、语音识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant