CN112151109B

CN112151109B - 用于评价生物分子交联质谱鉴定随机性的半监督学习方法

Info

Publication number: CN112151109B
Application number: CN202010938863.9A
Authority: CN
Inventors: 张丽华; 张玮杰; 杨开广; 单亦初; 刘健慧; 张玉奎
Original assignee: Dalian Institute of Chemical Physics of CAS
Current assignee: Dalian Institute of Chemical Physics of CAS
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2023-08-25
Anticipated expiration: 2040-09-09
Also published as: CN112151109A

Abstract

本发明涉及用于评价生物分子交联质谱鉴定随机性的半监督学习方法，该评价方法，以鉴定结果中的生物分子信息、数据库检索得分情况、质谱和色谱信息作为基本特征，使用多种半监督分类模型作为框架，以基本特征或基本特征的映射组合输入框架，可以实现对交联结果中高随机性和低随机性的分类。基于本发明的评价方法，可以为后续的生物分子相互作用网络建立、生物分子结构构建模拟提供高质量的交联信息。

Description

用于评价生物分子交联质谱鉴定随机性的半监督学习方法

技术领域

本发明属于计算蛋白质组学领域，具体为一种用于评价生物分子交联质谱鉴定随机性的半监督学习方法，能够为后续使用交联信息而进行的生物分子相互作用分析、生物分子结构建模提供更加可靠的依据。

背景技术

化学交联质谱技术是一种能够分析样品中生物分子相互作用以及生物分子空间信息的技术，其特点是能够有机的将相互作用信息与分子空间信息相结合；相比较于传统的生物分析结构技术(例如：冷冻电镜、核磁共振波谱)，其优点在于可以高通量的分析样品中的相互作用信息；相比较于传统的生物分子相互作用技术(例如：酵母双杂交)，其优点在于可以在获得相互作用信息的同时，更高分辨率的得到相互作用界面的信息。(C.Yu,L.Huang,Anal.Chem.,2018,90,144-165.)

化学交联质谱技术的技术流程是将待分析的样品与交联试剂进行混合反应，经过样品预处理步骤后，进入液相色谱-质谱系统进行分析；化学交联信息鉴定软件使用质谱数据得到其中包含的交联分子信息，现在已经有多款交联软件用于完成这个检索过程(Z.Lin,J.M.Meng.et.al,Nat.Commun.,2019,10,3404；M.R.Hoopmann,A.Zelter.et.al,J.Proteome Res.,2015,14,2190-2198；J.Dai,W.Jiang.et.al,Bioinformatics,2018,35,251-257)。然而这些软件均是基于PSM(Peptide Spectra Match)水平进行检索结果的质量控制，其关注点在于单张二级谱图所回收的交联肽段的准确度。然而在交联质谱实验中，除了相互作用蛋白间的交联外，也有相当一部分交联信息是由分子热运动，随机碰撞而产生的；由此产生的假阳性是基于PSM的质量控制策略无法控制的。到目前虽然也有工作(L.Fischer,J.Pappsiber.et.al,Anal.Chem.,2017,89,3829-3833)指出仅在PSM水平上进行质量控制的瑕疵，但是仍然缺乏一个专门设计的流程，用于解决在整体层面上评价交联生物分子间可信度的问题。

发明内容

针对以上的技术问题，本发明提出了一种用于评价生物分子交联质谱鉴定随机性的半监督学习方法，相比较于用于PSM水平的分类算法，本专利提出了一套专用的特征选择、特征处理流水线。在特征选择方面，除了基础的生物分子谱图的匹配信息外，更多的考虑了生物分子的生物学信息、生物分子与色谱系统、生物分子与质谱系统的局部环境信息。在训练过程中，为了避免机器学习模型过拟合的问题，本流程提出了相配套的特征组合与预处理的方法。

为了实现上述目的，本发明所采用的技术方案为：用于评价生物分子交联质谱鉴定随机性的半监督学习方法，其特征在于，利用半监督学习方法对化学交联的生物分子所获得的液相色谱质谱联用鉴定信息进行过滤，依据生物分子化学交联的实验要求，将生物分子与交联试剂反应后的产物进行二级质谱分析，使用数据依赖型模式进行数据采集，将得到的质谱数据利用数据检索软件鉴定后，将鉴定结果文件作为输入，使用预先训练完成的半监督学习模型，对鉴定结果依据生物分子信息、数据库检索信息、质谱信息和色谱信息这四个维度进行过滤，得到评价结果，使评价结果中不包含因为化学反应随机性而产生的化学交联信息。

用于评价生物分子交联质谱鉴定随机性的半监督学习方法，包括以下步骤：

1)将待分析的体系与交联剂混合发生交联反应；对反应后的样品进行质谱分析得到二级谱图；对二级谱图进行信息检索，得到鉴定结果；对鉴定结果中的交联信息提取得到特征信息；

2)将特征信息输入半监督学习模型进行训练，得到训练好的模型；

3)将待测物作为待分析的体系，并重复步骤1)得到特征信息；将特征信息输入至训练好的模型，得到评价结果。

所述交联试剂具有的反应活性基团包括NHS基团、补骨酯素基团、苯胺基团、醛基基团、芳基叠氮、二苯甲酮以及双吖丙啶基团中的一种或两种以上。

所述鉴定结果包含谱图的编号、生物分子的序列信息、两条生物分子的序列信息，生物分子的交联位点、两条生物分子的蛋白或基因归属信息、肽段谱图匹配得分、假发现率值、q值中的至少一种。

所述特征信息包括生物分子信息、数据库检索信息、质谱信息和色谱信息中的至少一种；

所述生物分子信息包括肽段分子的序列或核酸分子的序列、肽段分子或核酸分子的长度、肽段分子或核酸分子所发生的修饰、化学交联发生位点、肽段分子所归属的蛋白质分子的结构和序列信息、核酸分子所归属的基因的信息；

所述数据库检索信息包括每一个鉴定结果中的生物分子与单张质谱图的匹配得分、检索结果所处的假发现率值；

所述质谱信息包括质谱参数、每一个鉴定结果的二级谱图或三级谱图，鉴定结果中每一个碎片信息在谱图中的位置和谱峰强度；

所述色谱信息包括色谱参数、每一个鉴定结果在一级质谱图中重构色谱曲线的峰位置、峰高以及峰面积，鉴定结果中每一个碎片在一级质谱图中的重构色谱曲线的峰位置、峰高以及峰面积。

所述生物分子包括蛋白质分子，肽段分子以及核酸分子中的一种或两种以上。

所述半监督学习模型为逻辑斯蒂回归、贝叶斯分类器、支持向量机、随机森林、决策树、k-临近算法中的一种。

所述半监督学习模型在进行训练或预测前均需要经过预处理对特征信息进行修正，通过下式实现：

其中，为一个待判断的交联肽段样本向量，A为所选用特征的权重矩阵，g、f均为对样本向量中的特征进行映射并处理的函数；μ₁,μ₂,…,μ_n表示进行线性映射时矩阵的对角线值，dim表示计算矩阵的维度，n为样本向量的维度，Ν表示自然数，μ_mn表示进行线性映射时矩阵的第m行第n列矩阵元素，m表示映射值域空间的维度，Z表示整数，μ_ij′表示经过非线性映射时计算矩阵中的元素值。

所述处理函数包括相加，归一化，中心化，sigmoid函数处理，绝对值函数处理，对数函数处理中的一种或两种以上。

所述评价结果包括鉴定谱图的编号，谱图所对应的序列信息，谱图的半监督模型打分值，该鉴定结果所对应的生物分子信息。

本发明具有以下有益效果及优点：

本发明能够较为准确的区分生物分子化学交联随机性的交联信息与非随机性的交联信息，可以为后续的生物分子建模、分子动力学模拟、生物分子相互作用网络分析提供更有质量的交联数据支撑。

附图说明

图1为基于逻辑斯蒂分类器的半监督交联鉴定结果分类图。

图2为基于支持向量机(SVM)的半监督交联鉴定结果分类图。

图3为鉴定结果中交联随机性评价的数据处理流程图。

具体实施方式

下面通过实施例对本发明提供的方法进行详述，但不以任何形式限制本发明。

如图3所示，一种基于半监督学习方法的生物分子化学交联产物中随机性交联的评价方法，是利用半监督学习方法对化学交联的生物分子所获得的液相色谱质谱联用鉴定信息进行过滤，依据生物分子化学交联的实验要求，将生物分子与交联试剂反应后的产物进行二级质谱(MS/MS)分析，使用数据依赖型模式进行数据采集(DDA)，将得到的质谱数据利用数据检索软件鉴定后，将鉴定结果文件作为输入，对鉴定结果中因为化学反应随机性而产生的化学交联信息进行过滤的过程。使用预先训练完成的半监督学习模型，对鉴定结果依据生物分子信息、数据库检索得分情况、质谱信息和色谱信息这四个维度进行过滤。

交联试剂具有的反应活性基团包括NHS基团、补骨酯素基团、苯胺基团、醛基基团、芳基叠氮、二苯甲酮以及双吖丙啶基团中的一种或两种以上。

生物分子，包括蛋白质分子，肽段分子以及核酸分子中的一种或两种以上。

数据检索软件，包括了pFindStudio系列软件、xiSearch系列软件、Kojak系列软件、ECL/Xolik系列软件、XlinkX系列软件、Maxquant系列软件中的一种或两种。鉴定结果包括每一种软件所输出的文本文件结果，文本文件结果中至少包含了谱图的编号，两条生物分子的序列信息，生物分子的交联位点、两条生物分子的蛋白或基因归属信息，肽段谱图匹配得分，假发现率值，q值。

半监督学习方法包括了逻辑斯蒂回归、贝叶斯分类器、支持向量机(SVM)、随机森林、决策树、k-临近算法中的一种或两种以上。

生物分子信息，包括了肽段分子的序列或核酸分子的序列、肽段分子或核酸分子的长度、肽段分子或核酸分子所发生的修饰、化学交联发生位点、肽段分子所归属的蛋白质分子的结构和序列信息、核酸分子所归属的基因的信息。

数据库检索得分情况指的是经过交联鉴定软件检索后每一个鉴定结果中的生物分子与单张质谱图的匹配得分、该检索结果所处的假发现率(FDR)值。

质谱信息为：质谱参数、每一个鉴定结果的二级谱图或三级谱图，鉴定结果中每一个碎片信息在谱图中的位置和谱峰强度。

色谱信息为：色谱参数、每一个鉴定结果在一级质谱图中重构色谱曲线的峰位置、峰高以及峰面积，鉴定出的肽段或核酸结果在谱图中所产生的每一个碎片在一级质谱图中的重构色谱曲线的峰位置、峰高以及峰面积。

半监督学习算法模型在进行学习或预测前均需要经过预处理步骤对特征进行修正，按照公式一、公式二对所选用的特征预处理后才能够进行模型的训练与预测。在公式一中，为一个待判断的交联肽段特征向量，A为所选用特征的权重矩阵。在公式二中，展示了对于向量/>进行线性组合时，矩阵A的定义。在公式三中，展示了对于向量/>进行复杂线性组合时，矩阵A的定义。在公式四中，展示了在复杂线性组合的基础上进行进一步的权重组合的计算方法，矩阵A是在公式三的基础上，按照特征处理函数继续计算得到。

对于特征的处理函数以及权重的复杂线性组合函数作为训练或者预测模型的输入，其处理函数包括简单相加，01归一化，中心化，sigmoid函数处理，绝对值函数处理，对数函数处理中的一种或两种以上。

对于待分析的体系选择合适的交联剂，交联剂需要含有NHS基团、补骨酯素基团、苯胺基团、醛基基团、芳基叠氮、二苯甲酮以及双吖丙啶基团中的一种或两种以上，以便于生物分子发生交联反应。将反应完后的体系，按照待分析物质的样品性质选择合适的质谱样品预处理方法(O.Klykov,B.Steigenberger.et.al.Nat.Protoc.,2018,13,2964-2990)。将处理好的样品选择合适的质谱进行质谱分析，(O.Klykov,B.Steigenberger.et.al.Nat.Protoc.,2018,13,2964-2990)需要使用数据依赖的方式(DDA)进行二级谱图的采集。

1.将采集好的数据使用专业的化学交联鉴定软件进行信息检索，包括了pFindStudio系列软件、xiSearch系列软件、Kojak系列软件、ECL/Xolik系列软件、XlinkX系列软件、Maxquant系列软件中的一种或两种。例如使用XlinkX时需要设置好相应的参数(O.Klykov,B.Steigenberger.et.al.Nat.Protoc.,2018,13,2964-2990)，以进行数据的检索与初级质量控制。其他软件的使用方法参考目标软件给出的使用教程。需要获取的是目标软件的输出文本文件，该文件通常具有txt或csv的格式，在该文件中包含了软件的所有鉴定结果，每一个鉴定结果包含了谱图的编号、生物分子的序列信息、两条生物分子的序列信息，生物分子的交联位点、两条生物分子的蛋白或基因归属信息，肽段谱图匹配得分，假发现率值，q值。这些信息将作为后续分析的基础。

2.对鉴定结果中的交联信息进行特征信息的提取，主要包括了生物分子信息、数据库检索信息、质谱信息和色谱信息四大类。所述的生物分子信息包括了肽段分子的序列或核酸分子的序列、肽段分子或核酸分子的长度、肽段分子或核酸分子所发生的修饰、化学交联发生位点、肽段分子所归属的蛋白质分子的结构和序列信息、核酸分子所归属的基因的信息。所述的数据库检索得分情况指的是经过交联鉴定软件检索后每一个鉴定结果中的生物分子与单张质谱图的匹配得分、该检索结果所处的假发现率(FDR)值。所述的质谱信息包括了质谱参数、每一个鉴定结果的二级谱图或三级谱图，鉴定结果中每一个碎片信息在谱图中的位置和谱峰强度。所述的色谱信息包括了色谱参数、每一个鉴定结果在一级质谱图中重构色谱曲线的峰位置、峰高以及峰面积，鉴定结果中每一个碎片在一级质谱图中的重构色谱曲线的峰位置、峰高以及峰面积。

3.在进行模型判别之前，需要对提取出来的特定信息进行加工和模型的选择。可以采用的模型包括，逻辑斯蒂回归、贝叶斯分类器、支持向量机(SVM)，随机森林、决策树、k-临近算法中的一种或两种以上。按照公式一对所选用的特征预处理后才能够进行模型的训练与预测。在公式一中，为一个待判断的交联肽段特征向量，A为所选用特征的权重矩阵。在公式二中，展示了对于向量/>进行线性组合时，矩阵A的定义。在公式三中，展示了对于向量/>进行复杂线性组合时，矩阵A的定义。在公式四中，展示了在复杂线性组合的基础上进行进一步的权重组合的计算方法，矩阵A是在公式三的基础上，按照特征处理函数继续计算得到。

4.若使用对于特征或特征的组合作为训练或者预测模型的权重，其处理函数包括简单相加，sigmoid函数处理，绝对值函数处理，对数函数处理中的一种或两种以上。

经过半监督模型判断后的样本即可分为两大类，分别就包含了高随机性交联样本和低随机性交联样本。高随机样本即为本算法中认为随机性较高的交联信息，这部分信息由于可信度不高需要舍弃。低随机样本即为本算法中认为的能够真实反映交联样本相互作用信息的结果。使用低随机性交联样本即可继续后面的分析处理，针对目标的任务，可适用于分子建模、相互作用分析、分子模拟等领域。

实施例1：

使用含有双吖丙啶化学基团的光引发交联剂对人类肝癌细胞进行细胞水平蛋白质的交联，使用Thermo Scientific Q Exactive质谱采集上述样品的酶解肽段液，使用pLink2软件作为数据库检索工具，在一级谱容差10ppm、二级谱容差20ppm、FDR设定为5％的条件下进行数据库检索，得到所有交联信息的鉴定结果。

选取输出结果文件夹中的reports子文件夹下的后缀为filtered_cross-linked_spectra.csv作为原始的输入信息。使用本发明所述的方法，在原始输入的基础上，进行特征组合。选择的特征为：交联肽段所属的蛋白质鉴定总次数x₁、交联肽段所属PDB数据库中所有结构中位于表面的频率x₂，交联肽段的长度x₃，交联肽段归属蛋白的长度x₄，交联肽段与谱图匹配的得分均值x₅作为特征；对特征按照公式一进行零一规划。按照公式二中的特征矩阵A进行特征向量计算。

使用逻辑斯蒂回归作为半监督分类的模型。通过本模型的训练与预测可以很明显的看出所有的鉴定结果信息可以分为两类，图一展示了经过分类后的鉴定结果。

将分类前的鉴定结果与分类后的鉴定结果分别与PDB数据库中的已知结构进行对比，可以发现分类前的匹配比例为63.3％，分类后的匹配比例为84.9％；将分类前的鉴定结果与分类后的鉴定结果分别与STRING数据库中的已知相互作用信息进行对比，可以发现分类前的匹配比例为75.3％，分类后的匹配比例为90.9％

可以从上面的结果看出经过重新分类后的交联信息可以更好地与目前已知的结构与相互作用发生匹配。而重新分类后的交联信息中未被报道的能够反映结构与相互作用的交联信息对将会具有更深的生物学意义，这也会为其后续的生物学验证提供更加可靠的信息。

实施例2：

使用含有NHS化学基团的交联剂对人类宫颈癌细胞进行细胞水平蛋白质的交联，使用Thermo Scientific Fusion Lumos质谱采集上述样品的酶解肽段液，使用pLink2软件作为数据库检索工具，在一级谱容差10ppm、二级谱容差20ppm、FDR设定为1％的条件下进行数据库检索，得到所有交联信息的鉴定结果。

选取输出结果文件夹中的reports子文件夹下的后缀为filtered_cross-linked_spectra.csv作为原始的输入信息。使用本发明所述的方法，在原始输入的基础上，进行特征组合。选择的特征为：交联肽段的色谱出峰时间x₁，交联肽段所属的蛋白质鉴定总次数x₂、交联肽段所属PDB数据库中所有结构中位于表面的频率x₃，交联肽段的长度x₄，交联肽段与谱图匹配的得分均值x₅作为特征，将以上5种特征进行两两不重复组合相加，共10个特征作为使用支持向量机作为半监督分类的模型。构建特征向量时使用公式一进行处理，按照公式二中的特征矩阵A进行特征向量计算。

使用本发明所述的方法，选择的特征为：交联肽段的色谱出峰时间，交联肽段所属的蛋白质鉴定总次数、交联肽段所属PDB数据库中所有结构中位于表面的频率，交联肽段的长度，交联肽段与谱图匹配的得分均值作为特征，将以上5种特征进行两两不重复组合相加，并经过sigmoid函数处理后，共10个特征作为使用支持向量机作为半监督分类的模型。通过本模型的预测可以很明显的看出所有的鉴定结果信息可大致分为两类，图二展示了经过分类后的鉴定结果。

将分类前的鉴定结果与分类后的鉴定结果分别与PDB数据库中的已知结构进行对比，可以发现分类前的匹配比例为52.1％，分类后的匹配比例为87.8％。将分类前的鉴定结果与分类后的鉴定结果分别与STRING数据库中的已知相互作用信息进行对比，可以发现分类前的匹配比例为81.3％，分类后的匹配比例为89.9％。

实施例3：

使用含有苯胺基团的交联剂对E.coli大肠杆菌裂解液进行样品中的核酸交联，使用Thermo Scientific Fusion Lumos质谱使用负离子模式采集上述样品的提取液，使用xiSearch1.7.0软件作为数据库检索工具，在一级谱容差10ppm、二级谱容差20ppm、FDR设定为1％的条件下进行数据库检索，得到所有交联信息的鉴定结果。

选取输出结果文件夹中的reports子文件夹下的后缀为Xi.1.7.0csv作为原始的输入信息。使用本发明所述的方法，在原始输入的基础上，进行特征组合。选择的特征为：交联核酸片段的色谱出峰时间，交联核酸片段所属的大肠杆菌基因组中的鉴定总次数、核酸片段在基因组中的位置，核酸肽段的长度，核酸片段与谱图匹配的得分均值作为特征，将以上5种特征进行两两不重复组合相加，并经过对数函数处理后，共10个特征作为使用支持向量机作为半监督分类的模型。构建特征向量时使用公式一进行处理，按照公式二中的特征矩阵A进行特征向量计算。

通过本模型的预测可以很明显的看出所有的鉴定结果信息可大致分为两类。将分类前的鉴定结果与分类后的鉴定结果分别与核酸相互作用数据库中的已知结构进行对比，可以发现分类前的匹配比例为12.1％，分类后的匹配比例为22.8％。

可以从上面的结果看出经过重新分类后的交联信息可以更好地与目前已知的相互作用发生匹配。而重新分类后的交联信息中未被报道的能够相互作用的交联信息对将会具有更深的生物学意义，这也会为其后续的生物学验证提供更加可靠的信息。

Claims

1.用于评价生物分子交联质谱鉴定随机性的半监督学习方法，其特征在于，利用半监督学习方法对化学交联的生物分子所获得的液相色谱质谱联用鉴定信息进行过滤，依据生物分子化学交联的实验要求，将待分析的体系与交联剂混合发生交联反应；对反应后的样品进行质谱分析得到二级谱图；对二级谱图进行信息检索，得到鉴定结果；对鉴定结果中的交联信息提取得到特征信息；将特征信息输入半监督学习模型进行训练，得到训练好的模型；将特征信息输入至训练好的模型，得到评价结果，使评价结果中不包含因为化学反应随机性而产生的化学交联信息；

所述交联剂具有的反应活性基团包括NHS基团、补骨酯素基团、苯胺基团、醛基基团、芳基叠氮、二苯甲酮以及双吖丙啶基团中的一种或两种以上；

所述鉴定结果包含谱图的编号、生物分子的序列信息、两条生物分子的序列信息，生物分子的交联位点、两条生物分子的蛋白或基因归属信息、肽段谱图匹配得分、假发现率值、q值中的至少一种；

2.根据权利要求1所述的用于评价生物分子交联质谱鉴定随机性的半监督学习方法，其特征在于，所述生物分子包括蛋白质分子，肽段分子以及核酸分子中的一种或两种以上。

3.根据权利要求1所述的用于评价生物分子交联质谱鉴定随机性的半监督学习方法，其特征在于，所述半监督学习模型为逻辑斯蒂回归、贝叶斯分类器、支持向量机、随机森林、决策树、k-临近算法中的一种。

4.根据权利要求1所述的用于评价生物分子交联质谱鉴定随机性的半监督学习方法，其特征在于，所述半监督学习模型在进行训练或预测前均需要经过预处理对特征信息进行修正，通过下式实现：

或/>

其中，为一个待判断的交联肽段样本向量，A为所选用特征的权重矩阵，矩阵A是在公式三的基础上，按照特征处理函数继续计算得到，g、f均为对样本向量中的特征进行映射并处理的函数；μ₁,μ₂,…,μ_n表示进行线性映射时矩阵的对角线值，dim表示计算矩阵的维度，n为样本向量的维度，N表示自然数，μ_mn表示进行线性映射时矩阵的第m行第n列矩阵元素，m表示映射值域空间的维度，Z表示整数，μ_ij ^′表示经过非线性映射时计算矩阵中的元素值。

5.根据权利要求4所述的用于评价生物分子交联质谱鉴定随机性的半监督学习方法，其特征在于，所述特征处理函数包括相加，归一化，中心化，sigmoid函数处理，绝对值函数处理，对数函数处理中的一种或两种以上。

6.根据权利要求1所述的用于评价生物分子交联质谱鉴定随机性的半监督学习方法，其特征在于，所述评价结果包括鉴定谱图的编号，谱图所对应的序列信息，谱图的半监督模型打分值，该鉴定结果所对应的生物分子信息。