CN112151109B - 用于评价生物分子交联质谱鉴定随机性的半监督学习方法 - Google Patents
用于评价生物分子交联质谱鉴定随机性的半监督学习方法 Download PDFInfo
- Publication number
- CN112151109B CN112151109B CN202010938863.9A CN202010938863A CN112151109B CN 112151109 B CN112151109 B CN 112151109B CN 202010938863 A CN202010938863 A CN 202010938863A CN 112151109 B CN112151109 B CN 112151109B
- Authority
- CN
- China
- Prior art keywords
- information
- semi
- spectrogram
- cross
- supervised learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004949 mass spectrometry Methods 0.000 title claims description 25
- 238000004132 cross linking Methods 0.000 claims abstract description 46
- 238000001819 mass spectrum Methods 0.000 claims abstract description 18
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims abstract description 8
- 108010033276 Peptide Fragments Proteins 0.000 claims description 32
- 102000007079 Peptide Fragments Human genes 0.000 claims description 32
- 150000007523 nucleic acids Chemical class 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 26
- 108090000623 proteins and genes Proteins 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 24
- 108020004707 nucleic acids Proteins 0.000 claims description 23
- 102000039446 nucleic acids Human genes 0.000 claims description 23
- 102000004169 proteins and genes Human genes 0.000 claims description 18
- 238000010382 chemical cross-linking Methods 0.000 claims description 15
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 14
- 239000003431 cross linking reagent Substances 0.000 claims description 13
- 238000012706 support-vector machine Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 125000002490 anilino group Chemical group [H]N(*)C1=C([H])C([H])=C([H])C([H])=C1[H] 0.000 claims description 5
- 238000007477 logistic regression Methods 0.000 claims description 5
- 125000003172 aldehyde group Chemical group 0.000 claims description 4
- -1 aryl azide Chemical class 0.000 claims description 4
- RWCCWEUUXYIKHB-UHFFFAOYSA-N benzophenone Chemical compound C=1C=CC=CC=1C(=O)C1=CC=CC=C1 RWCCWEUUXYIKHB-UHFFFAOYSA-N 0.000 claims description 4
- 210000000988 bone and bone Anatomy 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 4
- 125000004185 ester group Chemical group 0.000 claims description 4
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 4
- 238000003556 assay Methods 0.000 claims description 3
- 239000012965 benzophenone Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 17
- 238000013145 classification model Methods 0.000 abstract 1
- 238000010276 construction Methods 0.000 abstract 1
- 238000004088 simulation Methods 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 241000588724 Escherichia coli Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003908 quality control method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 239000012620 biological material Substances 0.000 description 2
- 125000003636 chemical group Chemical group 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012482 interaction analysis Methods 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 239000006166 lysate Substances 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 206010008342 Cervix carcinoma Diseases 0.000 description 1
- AZFKQCNGMSSWDS-UHFFFAOYSA-N MCPA-thioethyl Chemical compound CCSC(=O)COC1=CC=C(Cl)C=C1C AZFKQCNGMSSWDS-UHFFFAOYSA-N 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 201000010881 cervical cancer Diseases 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000000329 molecular dynamics simulation Methods 0.000 description 1
- 238000000302 molecular modelling Methods 0.000 description 1
- 238000012900 molecular simulation Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000000655 nuclear magnetic resonance spectrum Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000004885 tandem mass spectrometry Methods 0.000 description 1
- 238000001086 yeast two-hybrid system Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Physiology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明涉及用于评价生物分子交联质谱鉴定随机性的半监督学习方法,该评价方法,以鉴定结果中的生物分子信息、数据库检索得分情况、质谱和色谱信息作为基本特征,使用多种半监督分类模型作为框架,以基本特征或基本特征的映射组合输入框架,可以实现对交联结果中高随机性和低随机性的分类。基于本发明的评价方法,可以为后续的生物分子相互作用网络建立、生物分子结构构建模拟提供高质量的交联信息。
Description
技术领域
本发明属于计算蛋白质组学领域,具体为一种用于评价生物分子交联质谱鉴定随机性的半监督学习方法,能够为后续使用交联信息而进行的生物分子相互作用分析、生物分子结构建模提供更加可靠的依据。
背景技术
化学交联质谱技术是一种能够分析样品中生物分子相互作用以及生物分子空间信息的技术,其特点是能够有机的将相互作用信息与分子空间信息相结合;相比较于传统的生物分析结构技术(例如:冷冻电镜、核磁共振波谱),其优点在于可以高通量的分析样品中的相互作用信息;相比较于传统的生物分子相互作用技术(例如:酵母双杂交),其优点在于可以在获得相互作用信息的同时,更高分辨率的得到相互作用界面的信息。(C.Yu,L.Huang,Anal.Chem.,2018,90,144-165.)
化学交联质谱技术的技术流程是将待分析的样品与交联试剂进行混合反应,经过样品预处理步骤后,进入液相色谱-质谱系统进行分析;化学交联信息鉴定软件使用质谱数据得到其中包含的交联分子信息,现在已经有多款交联软件用于完成这个检索过程(Z.Lin,J.M.Meng.et.al,Nat.Commun.,2019,10,3404;M.R.Hoopmann,A.Zelter.et.al,J.Proteome Res.,2015,14,2190-2198;J.Dai,W.Jiang.et.al,Bioinformatics,2018,35,251-257)。然而这些软件均是基于PSM(Peptide Spectra Match)水平进行检索结果的质量控制,其关注点在于单张二级谱图所回收的交联肽段的准确度。然而在交联质谱实验中,除了相互作用蛋白间的交联外,也有相当一部分交联信息是由分子热运动,随机碰撞而产生的;由此产生的假阳性是基于PSM的质量控制策略无法控制的。到目前虽然也有工作(L.Fischer,J.Pappsiber.et.al,Anal.Chem.,2017,89,3829-3833)指出仅在PSM水平上进行质量控制的瑕疵,但是仍然缺乏一个专门设计的流程,用于解决在整体层面上评价交联生物分子间可信度的问题。
发明内容
针对以上的技术问题,本发明提出了一种用于评价生物分子交联质谱鉴定随机性的半监督学习方法,相比较于用于PSM水平的分类算法,本专利提出了一套专用的特征选择、特征处理流水线。在特征选择方面,除了基础的生物分子谱图的匹配信息外,更多的考虑了生物分子的生物学信息、生物分子与色谱系统、生物分子与质谱系统的局部环境信息。在训练过程中,为了避免机器学习模型过拟合的问题,本流程提出了相配套的特征组合与预处理的方法。
为了实现上述目的,本发明所采用的技术方案为:用于评价生物分子交联质谱鉴定随机性的半监督学习方法,其特征在于,利用半监督学习方法对化学交联的生物分子所获得的液相色谱质谱联用鉴定信息进行过滤,依据生物分子化学交联的实验要求,将生物分子与交联试剂反应后的产物进行二级质谱分析,使用数据依赖型模式进行数据采集,将得到的质谱数据利用数据检索软件鉴定后,将鉴定结果文件作为输入,使用预先训练完成的半监督学习模型,对鉴定结果依据生物分子信息、数据库检索信息、质谱信息和色谱信息这四个维度进行过滤,得到评价结果,使评价结果中不包含因为化学反应随机性而产生的化学交联信息。
用于评价生物分子交联质谱鉴定随机性的半监督学习方法,包括以下步骤:
1)将待分析的体系与交联剂混合发生交联反应;对反应后的样品进行质谱分析得到二级谱图;对二级谱图进行信息检索,得到鉴定结果;对鉴定结果中的交联信息提取得到特征信息;
2)将特征信息输入半监督学习模型进行训练,得到训练好的模型;
3)将待测物作为待分析的体系,并重复步骤1)得到特征信息;将特征信息输入至训练好的模型,得到评价结果。
所述交联试剂具有的反应活性基团包括NHS基团、补骨酯素基团、苯胺基团、醛基基团、芳基叠氮、二苯甲酮以及双吖丙啶基团中的一种或两种以上。
所述鉴定结果包含谱图的编号、生物分子的序列信息、两条生物分子的序列信息,生物分子的交联位点、两条生物分子的蛋白或基因归属信息、肽段谱图匹配得分、假发现率值、q值中的至少一种。
所述特征信息包括生物分子信息、数据库检索信息、质谱信息和色谱信息中的至少一种;
所述生物分子信息包括肽段分子的序列或核酸分子的序列、肽段分子或核酸分子的长度、肽段分子或核酸分子所发生的修饰、化学交联发生位点、肽段分子所归属的蛋白质分子的结构和序列信息、核酸分子所归属的基因的信息;
所述数据库检索信息包括每一个鉴定结果中的生物分子与单张质谱图的匹配得分、检索结果所处的假发现率值;
所述质谱信息包括质谱参数、每一个鉴定结果的二级谱图或三级谱图,鉴定结果中每一个碎片信息在谱图中的位置和谱峰强度;
所述色谱信息包括色谱参数、每一个鉴定结果在一级质谱图中重构色谱曲线的峰位置、峰高以及峰面积,鉴定结果中每一个碎片在一级质谱图中的重构色谱曲线的峰位置、峰高以及峰面积。
所述生物分子包括蛋白质分子,肽段分子以及核酸分子中的一种或两种以上。
所述半监督学习模型为逻辑斯蒂回归、贝叶斯分类器、支持向量机、随机森林、决策树、k-临近算法中的一种。
所述半监督学习模型在进行训练或预测前均需要经过预处理对特征信息进行修正,通过下式实现:
其中,为一个待判断的交联肽段样本向量,A为所选用特征的权重矩阵,g、f均为对样本向量中的特征进行映射并处理的函数;μ1,μ2,…,μn表示进行线性映射时矩阵的对角线值,dim表示计算矩阵的维度,n为样本向量的维度,Ν表示自然数,μmn表示进行线性映射时矩阵的第m行第n列矩阵元素,m表示映射值域空间的维度,Z表示整数,μij′表示经过非线性映射时计算矩阵中的元素值。
所述处理函数包括相加,归一化,中心化,sigmoid函数处理,绝对值函数处理,对数函数处理中的一种或两种以上。
所述评价结果包括鉴定谱图的编号,谱图所对应的序列信息,谱图的半监督模型打分值,该鉴定结果所对应的生物分子信息。
本发明具有以下有益效果及优点:
本发明能够较为准确的区分生物分子化学交联随机性的交联信息与非随机性的交联信息,可以为后续的生物分子建模、分子动力学模拟、生物分子相互作用网络分析提供更有质量的交联数据支撑。
附图说明
图1为基于逻辑斯蒂分类器的半监督交联鉴定结果分类图。
图2为基于支持向量机(SVM)的半监督交联鉴定结果分类图。
图3为鉴定结果中交联随机性评价的数据处理流程图。
具体实施方式
下面通过实施例对本发明提供的方法进行详述,但不以任何形式限制本发明。
如图3所示,一种基于半监督学习方法的生物分子化学交联产物中随机性交联的评价方法,是利用半监督学习方法对化学交联的生物分子所获得的液相色谱质谱联用鉴定信息进行过滤,依据生物分子化学交联的实验要求,将生物分子与交联试剂反应后的产物进行二级质谱(MS/MS)分析,使用数据依赖型模式进行数据采集(DDA),将得到的质谱数据利用数据检索软件鉴定后,将鉴定结果文件作为输入,对鉴定结果中因为化学反应随机性而产生的化学交联信息进行过滤的过程。使用预先训练完成的半监督学习模型,对鉴定结果依据生物分子信息、数据库检索得分情况、质谱信息和色谱信息这四个维度进行过滤。
交联试剂具有的反应活性基团包括NHS基团、补骨酯素基团、苯胺基团、醛基基团、芳基叠氮、二苯甲酮以及双吖丙啶基团中的一种或两种以上。
生物分子,包括蛋白质分子,肽段分子以及核酸分子中的一种或两种以上。
数据检索软件,包括了pFindStudio系列软件、xiSearch系列软件、Kojak系列软件、ECL/Xolik系列软件、XlinkX系列软件、Maxquant系列软件中的一种或两种。鉴定结果包括每一种软件所输出的文本文件结果,文本文件结果中至少包含了谱图的编号,两条生物分子的序列信息,生物分子的交联位点、两条生物分子的蛋白或基因归属信息,肽段谱图匹配得分,假发现率值,q值。
半监督学习方法包括了逻辑斯蒂回归、贝叶斯分类器、支持向量机(SVM)、随机森林、决策树、k-临近算法中的一种或两种以上。
生物分子信息,包括了肽段分子的序列或核酸分子的序列、肽段分子或核酸分子的长度、肽段分子或核酸分子所发生的修饰、化学交联发生位点、肽段分子所归属的蛋白质分子的结构和序列信息、核酸分子所归属的基因的信息。
数据库检索得分情况指的是经过交联鉴定软件检索后每一个鉴定结果中的生物分子与单张质谱图的匹配得分、该检索结果所处的假发现率(FDR)值。
质谱信息为:质谱参数、每一个鉴定结果的二级谱图或三级谱图,鉴定结果中每一个碎片信息在谱图中的位置和谱峰强度。
色谱信息为:色谱参数、每一个鉴定结果在一级质谱图中重构色谱曲线的峰位置、峰高以及峰面积,鉴定出的肽段或核酸结果在谱图中所产生的每一个碎片在一级质谱图中的重构色谱曲线的峰位置、峰高以及峰面积。
半监督学习算法模型在进行学习或预测前均需要经过预处理步骤对特征进行修正,按照公式一、公式二对所选用的特征预处理后才能够进行模型的训练与预测。在公式一中,为一个待判断的交联肽段特征向量,A为所选用特征的权重矩阵。在公式二中,展示了对于向量/>进行线性组合时,矩阵A的定义。在公式三中,展示了对于向量/>进行复杂线性组合时,矩阵A的定义。在公式四中,展示了在复杂线性组合的基础上进行进一步的权重组合的计算方法,矩阵A是在公式三的基础上,按照特征处理函数继续计算得到。
对于特征的处理函数以及权重的复杂线性组合函数作为训练或者预测模型的输入,其处理函数包括简单相加,01归一化,中心化,sigmoid函数处理,绝对值函数处理,对数函数处理中的一种或两种以上。
对于待分析的体系选择合适的交联剂,交联剂需要含有NHS基团、补骨酯素基团、苯胺基团、醛基基团、芳基叠氮、二苯甲酮以及双吖丙啶基团中的一种或两种以上,以便于生物分子发生交联反应。将反应完后的体系,按照待分析物质的样品性质选择合适的质谱样品预处理方法(O.Klykov,B.Steigenberger.et.al.Nat.Protoc.,2018,13,2964-2990)。将处理好的样品选择合适的质谱进行质谱分析,(O.Klykov,B.Steigenberger.et.al.Nat.Protoc.,2018,13,2964-2990)需要使用数据依赖的方式(DDA)进行二级谱图的采集。
1.将采集好的数据使用专业的化学交联鉴定软件进行信息检索,包括了pFindStudio系列软件、xiSearch系列软件、Kojak系列软件、ECL/Xolik系列软件、XlinkX系列软件、Maxquant系列软件中的一种或两种。例如使用XlinkX时需要设置好相应的参数(O.Klykov,B.Steigenberger.et.al.Nat.Protoc.,2018,13,2964-2990),以进行数据的检索与初级质量控制。其他软件的使用方法参考目标软件给出的使用教程。需要获取的是目标软件的输出文本文件,该文件通常具有txt或csv的格式,在该文件中包含了软件的所有鉴定结果,每一个鉴定结果包含了谱图的编号、生物分子的序列信息、两条生物分子的序列信息,生物分子的交联位点、两条生物分子的蛋白或基因归属信息,肽段谱图匹配得分,假发现率值,q值。这些信息将作为后续分析的基础。
2.对鉴定结果中的交联信息进行特征信息的提取,主要包括了生物分子信息、数据库检索信息、质谱信息和色谱信息四大类。所述的生物分子信息包括了肽段分子的序列或核酸分子的序列、肽段分子或核酸分子的长度、肽段分子或核酸分子所发生的修饰、化学交联发生位点、肽段分子所归属的蛋白质分子的结构和序列信息、核酸分子所归属的基因的信息。所述的数据库检索得分情况指的是经过交联鉴定软件检索后每一个鉴定结果中的生物分子与单张质谱图的匹配得分、该检索结果所处的假发现率(FDR)值。所述的质谱信息包括了质谱参数、每一个鉴定结果的二级谱图或三级谱图,鉴定结果中每一个碎片信息在谱图中的位置和谱峰强度。所述的色谱信息包括了色谱参数、每一个鉴定结果在一级质谱图中重构色谱曲线的峰位置、峰高以及峰面积,鉴定结果中每一个碎片在一级质谱图中的重构色谱曲线的峰位置、峰高以及峰面积。
3.在进行模型判别之前,需要对提取出来的特定信息进行加工和模型的选择。可以采用的模型包括,逻辑斯蒂回归、贝叶斯分类器、支持向量机(SVM),随机森林、决策树、k-临近算法中的一种或两种以上。按照公式一对所选用的特征预处理后才能够进行模型的训练与预测。在公式一中,为一个待判断的交联肽段特征向量,A为所选用特征的权重矩阵。在公式二中,展示了对于向量/>进行线性组合时,矩阵A的定义。在公式三中,展示了对于向量/>进行复杂线性组合时,矩阵A的定义。在公式四中,展示了在复杂线性组合的基础上进行进一步的权重组合的计算方法,矩阵A是在公式三的基础上,按照特征处理函数继续计算得到。
4.若使用对于特征或特征的组合作为训练或者预测模型的权重,其处理函数包括简单相加,sigmoid函数处理,绝对值函数处理,对数函数处理中的一种或两种以上。
经过半监督模型判断后的样本即可分为两大类,分别就包含了高随机性交联样本和低随机性交联样本。高随机样本即为本算法中认为随机性较高的交联信息,这部分信息由于可信度不高需要舍弃。低随机样本即为本算法中认为的能够真实反映交联样本相互作用信息的结果。使用低随机性交联样本即可继续后面的分析处理,针对目标的任务,可适用于分子建模、相互作用分析、分子模拟等领域。
实施例1:
使用含有双吖丙啶化学基团的光引发交联剂对人类肝癌细胞进行细胞水平蛋白质的交联,使用Thermo Scientific Q Exactive质谱采集上述样品的酶解肽段液,使用pLink2软件作为数据库检索工具,在一级谱容差10ppm、二级谱容差20ppm、FDR设定为5%的条件下进行数据库检索,得到所有交联信息的鉴定结果。
选取输出结果文件夹中的reports子文件夹下的后缀为filtered_cross-linked_spectra.csv作为原始的输入信息。使用本发明所述的方法,在原始输入的基础上,进行特征组合。选择的特征为:交联肽段所属的蛋白质鉴定总次数x1、交联肽段所属PDB数据库中所有结构中位于表面的频率x2,交联肽段的长度x3,交联肽段归属蛋白的长度x4,交联肽段与谱图匹配的得分均值x5作为特征;对特征按照公式一进行零一规划。按照公式二中的特征矩阵A进行特征向量计算。
使用逻辑斯蒂回归作为半监督分类的模型。通过本模型的训练与预测可以很明显的看出所有的鉴定结果信息可以分为两类,图一展示了经过分类后的鉴定结果。
将分类前的鉴定结果与分类后的鉴定结果分别与PDB数据库中的已知结构进行对比,可以发现分类前的匹配比例为63.3%,分类后的匹配比例为84.9%;将分类前的鉴定结果与分类后的鉴定结果分别与STRING数据库中的已知相互作用信息进行对比,可以发现分类前的匹配比例为75.3%,分类后的匹配比例为90.9%
可以从上面的结果看出经过重新分类后的交联信息可以更好地与目前已知的结构与相互作用发生匹配。而重新分类后的交联信息中未被报道的能够反映结构与相互作用的交联信息对将会具有更深的生物学意义,这也会为其后续的生物学验证提供更加可靠的信息。
实施例2:
使用含有NHS化学基团的交联剂对人类宫颈癌细胞进行细胞水平蛋白质的交联,使用Thermo Scientific Fusion Lumos质谱采集上述样品的酶解肽段液,使用pLink2软件作为数据库检索工具,在一级谱容差10ppm、二级谱容差20ppm、FDR设定为1%的条件下进行数据库检索,得到所有交联信息的鉴定结果。
选取输出结果文件夹中的reports子文件夹下的后缀为filtered_cross-linked_spectra.csv作为原始的输入信息。使用本发明所述的方法,在原始输入的基础上,进行特征组合。选择的特征为:交联肽段的色谱出峰时间x1,交联肽段所属的蛋白质鉴定总次数x2、交联肽段所属PDB数据库中所有结构中位于表面的频率x3,交联肽段的长度x4,交联肽段与谱图匹配的得分均值x5作为特征,将以上5种特征进行两两不重复组合相加,共10个特征作为使用支持向量机作为半监督分类的模型。构建特征向量时使用公式一进行处理,按照公式二中的特征矩阵A进行特征向量计算。
使用本发明所述的方法,选择的特征为:交联肽段的色谱出峰时间,交联肽段所属的蛋白质鉴定总次数、交联肽段所属PDB数据库中所有结构中位于表面的频率,交联肽段的长度,交联肽段与谱图匹配的得分均值作为特征,将以上5种特征进行两两不重复组合相加,并经过sigmoid函数处理后,共10个特征作为使用支持向量机作为半监督分类的模型。通过本模型的预测可以很明显的看出所有的鉴定结果信息可大致分为两类,图二展示了经过分类后的鉴定结果。
将分类前的鉴定结果与分类后的鉴定结果分别与PDB数据库中的已知结构进行对比,可以发现分类前的匹配比例为52.1%,分类后的匹配比例为87.8%。将分类前的鉴定结果与分类后的鉴定结果分别与STRING数据库中的已知相互作用信息进行对比,可以发现分类前的匹配比例为81.3%,分类后的匹配比例为89.9%。
可以从上面的结果看出经过重新分类后的交联信息可以更好地与目前已知的结构与相互作用发生匹配。而重新分类后的交联信息中未被报道的能够反映结构与相互作用的交联信息对将会具有更深的生物学意义,这也会为其后续的生物学验证提供更加可靠的信息。
实施例3:
使用含有苯胺基团的交联剂对E.coli大肠杆菌裂解液进行样品中的核酸交联,使用Thermo Scientific Fusion Lumos质谱使用负离子模式采集上述样品的提取液,使用xiSearch1.7.0软件作为数据库检索工具,在一级谱容差10ppm、二级谱容差20ppm、FDR设定为1%的条件下进行数据库检索,得到所有交联信息的鉴定结果。
选取输出结果文件夹中的reports子文件夹下的后缀为Xi.1.7.0csv作为原始的输入信息。使用本发明所述的方法,在原始输入的基础上,进行特征组合。选择的特征为:交联核酸片段的色谱出峰时间,交联核酸片段所属的大肠杆菌基因组中的鉴定总次数、核酸片段在基因组中的位置,核酸肽段的长度,核酸片段与谱图匹配的得分均值作为特征,将以上5种特征进行两两不重复组合相加,并经过对数函数处理后,共10个特征作为使用支持向量机作为半监督分类的模型。构建特征向量时使用公式一进行处理,按照公式二中的特征矩阵A进行特征向量计算。
通过本模型的预测可以很明显的看出所有的鉴定结果信息可大致分为两类。将分类前的鉴定结果与分类后的鉴定结果分别与核酸相互作用数据库中的已知结构进行对比,可以发现分类前的匹配比例为12.1%,分类后的匹配比例为22.8%。
可以从上面的结果看出经过重新分类后的交联信息可以更好地与目前已知的相互作用发生匹配。而重新分类后的交联信息中未被报道的能够相互作用的交联信息对将会具有更深的生物学意义,这也会为其后续的生物学验证提供更加可靠的信息。
Claims (6)
1.用于评价生物分子交联质谱鉴定随机性的半监督学习方法,其特征在于,利用半监督学习方法对化学交联的生物分子所获得的液相色谱质谱联用鉴定信息进行过滤,依据生物分子化学交联的实验要求,将待分析的体系与交联剂混合发生交联反应;对反应后的样品进行质谱分析得到二级谱图;对二级谱图进行信息检索,得到鉴定结果;对鉴定结果中的交联信息提取得到特征信息;将特征信息输入半监督学习模型进行训练,得到训练好的模型;将特征信息输入至训练好的模型,得到评价结果,使评价结果中不包含因为化学反应随机性而产生的化学交联信息;
所述交联剂具有的反应活性基团包括NHS基团、补骨酯素基团、苯胺基团、醛基基团、芳基叠氮、二苯甲酮以及双吖丙啶基团中的一种或两种以上;
所述鉴定结果包含谱图的编号、生物分子的序列信息、两条生物分子的序列信息,生物分子的交联位点、两条生物分子的蛋白或基因归属信息、肽段谱图匹配得分、假发现率值、q值中的至少一种;
所述特征信息包括生物分子信息、数据库检索信息、质谱信息和色谱信息中的至少一种;
所述生物分子信息包括肽段分子的序列或核酸分子的序列、肽段分子或核酸分子的长度、肽段分子或核酸分子所发生的修饰、化学交联发生位点、肽段分子所归属的蛋白质分子的结构和序列信息、核酸分子所归属的基因的信息;
所述数据库检索信息包括每一个鉴定结果中的生物分子与单张质谱图的匹配得分、检索结果所处的假发现率值;
所述质谱信息包括质谱参数、每一个鉴定结果的二级谱图或三级谱图,鉴定结果中每一个碎片信息在谱图中的位置和谱峰强度;
所述色谱信息包括色谱参数、每一个鉴定结果在一级质谱图中重构色谱曲线的峰位置、峰高以及峰面积,鉴定结果中每一个碎片在一级质谱图中的重构色谱曲线的峰位置、峰高以及峰面积。
2.根据权利要求1所述的用于评价生物分子交联质谱鉴定随机性的半监督学习方法,其特征在于,所述生物分子包括蛋白质分子,肽段分子以及核酸分子中的一种或两种以上。
3.根据权利要求1所述的用于评价生物分子交联质谱鉴定随机性的半监督学习方法,其特征在于,所述半监督学习模型为逻辑斯蒂回归、贝叶斯分类器、支持向量机、随机森林、决策树、k-临近算法中的一种。
4.根据权利要求1所述的用于评价生物分子交联质谱鉴定随机性的半监督学习方法,其特征在于,所述半监督学习模型在进行训练或预测前均需要经过预处理对特征信息进行修正,通过下式实现:
或/>
其中,为一个待判断的交联肽段样本向量,A为所选用特征的权重矩阵,矩阵A是在公式三的基础上,按照特征处理函数继续计算得到,g、f均为对样本向量中的特征进行映射并处理的函数;μ1,μ2,…,μn表示进行线性映射时矩阵的对角线值,dim表示计算矩阵的维度,n为样本向量的维度,N表示自然数,μmn表示进行线性映射时矩阵的第m行第n列矩阵元素,m表示映射值域空间的维度,Z表示整数,μij ′表示经过非线性映射时计算矩阵中的元素值。
5.根据权利要求4所述的用于评价生物分子交联质谱鉴定随机性的半监督学习方法,其特征在于,所述特征处理函数包括相加,归一化,中心化,sigmoid函数处理,绝对值函数处理,对数函数处理中的一种或两种以上。
6.根据权利要求1所述的用于评价生物分子交联质谱鉴定随机性的半监督学习方法,其特征在于,所述评价结果包括鉴定谱图的编号,谱图所对应的序列信息,谱图的半监督模型打分值,该鉴定结果所对应的生物分子信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010938863.9A CN112151109B (zh) | 2020-09-09 | 2020-09-09 | 用于评价生物分子交联质谱鉴定随机性的半监督学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010938863.9A CN112151109B (zh) | 2020-09-09 | 2020-09-09 | 用于评价生物分子交联质谱鉴定随机性的半监督学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112151109A CN112151109A (zh) | 2020-12-29 |
CN112151109B true CN112151109B (zh) | 2023-08-25 |
Family
ID=73890645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010938863.9A Active CN112151109B (zh) | 2020-09-09 | 2020-09-09 | 用于评价生物分子交联质谱鉴定随机性的半监督学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112151109B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7057003B1 (ja) * | 2021-02-26 | 2022-04-19 | 国立大学法人東京工業大学 | 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1516741A (zh) * | 2001-04-03 | 2004-07-28 | ����Ī�����ɷ�����˾ | 用于简化复合肽混合物的方法和试剂盒 |
CN103501859A (zh) * | 2011-03-02 | 2014-01-08 | 博格有限责任公司 | 基于细胞的探询式分析及其应用 |
CN106529204A (zh) * | 2016-10-18 | 2017-03-22 | 中国科学院计算技术研究所 | 一种基于半监督学习的交联质谱多谱排序方法 |
CN111554345A (zh) * | 2020-05-15 | 2020-08-18 | 吉林大学 | 基于特异性交联酪氨酸构建蛋白质三维结构的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2006274029B2 (en) * | 2005-07-25 | 2011-07-14 | Metanomics Gmbh | Means and methods for analyzing a sample by means of chromatography-mass spectrometry |
DE102010051810B4 (de) * | 2010-11-18 | 2013-06-27 | Bruker Daltonik Gmbh | Bilderzeugende Massenspektrometrie mit Protein-Identifizierung |
-
2020
- 2020-09-09 CN CN202010938863.9A patent/CN112151109B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1516741A (zh) * | 2001-04-03 | 2004-07-28 | ����Ī�����ɷ�����˾ | 用于简化复合肽混合物的方法和试剂盒 |
CN103501859A (zh) * | 2011-03-02 | 2014-01-08 | 博格有限责任公司 | 基于细胞的探询式分析及其应用 |
CN106529204A (zh) * | 2016-10-18 | 2017-03-22 | 中国科学院计算技术研究所 | 一种基于半监督学习的交联质谱多谱排序方法 |
CN111554345A (zh) * | 2020-05-15 | 2020-08-18 | 吉林大学 | 基于特异性交联酪氨酸构建蛋白质三维结构的方法 |
Non-Patent Citations (1)
Title |
---|
生物小分子共价组装纳米药用于肿瘤成像及光动力/光热治疗;刘亚美;《全国优秀博硕士学位论文全文数据库(博士) 医药卫生科技辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112151109A (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tran et al. | Deep learning enables de novo peptide sequencing from data-independent-acquisition mass spectrometry | |
Yasui et al. | An automated peak identification/calibration procedure for high‐dimensional protein measures from mass spectrometers | |
Marx et al. | A large synthetic peptide and phosphopeptide reference library for mass spectrometry–based proteomics | |
Cox | Prediction of peptide mass spectral libraries with machine learning | |
US9354236B2 (en) | Method for identifying peptides and proteins from mass spectrometry data | |
WO2020014767A1 (en) | Systems and methods for de novo peptide sequencing from data-independent acquisition using deep learning | |
CN110838340B (zh) | 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法 | |
US20100017356A1 (en) | Method for Identifying Protein Patterns in Mass Spectrometry | |
Yilmaz et al. | Sequence-to-sequence translation from mass spectra to peptides with a transformer model | |
CN112151109B (zh) | 用于评价生物分子交联质谱鉴定随机性的半监督学习方法 | |
CN110349621B (zh) | 肽段-谱图匹配可信度检验方法、系统、存储介质及装置 | |
Fischer et al. | Synthesizing genome regulation data with vote-counting | |
Dotan et al. | Effect of tokenization on transformers for biological sequences | |
Grinev et al. | ORFhunteR: An accurate approach to the automatic identification and annotation of open reading frames in human mRNA molecules | |
Lubeck et al. | New computational approaches for de novo peptide sequencing from MS/MS experiments | |
Shouman et al. | PROSPECT: Labeled tandem mass spectrometry dataset for machine learning in proteomics | |
CN112735532B (zh) | 基于分子指纹预测的代谢物识别系统及其应用方法 | |
Iravani et al. | An Interpretable Deep Learning Approach for Biomarker Detection in LC-MS Proteomics Data | |
CN103488913A (zh) | 一种用于利用测序数据将肽映射到蛋白质的计算方法 | |
Wilk et al. | On Stability of Feature Selection Based on MALDI Mass Spectrometry Imaging Data and Simulated Biopsy | |
Sengupta et al. | Proteome analysis using machine learning approaches and its applications to diseases | |
Xing et al. | Molecular formula discovery via bottom-up MS/MS interrogation | |
Anderson et al. | Estimating probabilities of peptide database identifications to LC-FTICR-MS observations | |
Song et al. | Alpha-Frag: a deep neural network for fragment presence prediction improves peptide identification | |
Sanders et al. | A transformer model for de novo sequencing of data-independent acquisition mass spectrometry data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |