CN117095743A - 一种小分子肽阿胶的多肽谱匹配数据分析方法及系统 - Google Patents
一种小分子肽阿胶的多肽谱匹配数据分析方法及系统 Download PDFInfo
- Publication number
- CN117095743A CN117095743A CN202311340093.8A CN202311340093A CN117095743A CN 117095743 A CN117095743 A CN 117095743A CN 202311340093 A CN202311340093 A CN 202311340093A CN 117095743 A CN117095743 A CN 117095743A
- Authority
- CN
- China
- Prior art keywords
- node
- scale
- edge
- value
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 105
- 229920001184 polypeptide Polymers 0.000 title claims abstract description 79
- 102000004196 processed proteins & peptides Human genes 0.000 title claims abstract description 79
- 238000001228 spectrum Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 56
- 108010010803 Gelatin Proteins 0.000 title claims abstract description 26
- 229920000159 gelatin Polymers 0.000 title claims abstract description 26
- 239000008273 gelatin Substances 0.000 title claims abstract description 26
- 235000019322 gelatine Nutrition 0.000 title claims abstract description 26
- 235000011852 gelatine desserts Nutrition 0.000 title claims abstract description 26
- 238000007405 data analysis Methods 0.000 title claims abstract description 11
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 57
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 57
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 238000010586 diagram Methods 0.000 claims description 39
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 150000003384 small molecules Chemical class 0.000 claims description 4
- 230000014759 maintenance of location Effects 0.000 claims 1
- 150000002500 ions Chemical class 0.000 description 11
- 230000003595 spectral effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000001819 mass spectrum Methods 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000004949 mass spectrometry Methods 0.000 description 2
- 108010033276 Peptide Fragments Proteins 0.000 description 1
- 102000007079 Peptide Fragments Human genes 0.000 description 1
- 101710100170 Unknown protein Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Analytical Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及蛋白质数据分析技术领域,具体涉及一种小分子肽阿胶的多肽谱匹配数据分析方法及系统。该方法适用于对多肽谱数据对应的蛋白质识别鉴定的分析。基于获取的多肽谱数据构建第一边值图和第二边值图;删除部分第一边值图的尺度,得到保留尺度;获取每个保留尺度下的最终节点类别,构建聚类节点序列,通过聚类过程中节点所属类别由类别中节点数量多变为类别中节点数量少的过程,即由整体向局部转换的过程来体现蛋白质的多级结构;拼接聚类节点序列和原始序列,得到拼接序列;将拼接序列输入神经网络得到蛋白质类别,提高了对多肽谱数据对应的蛋白质进行识别的准确度和精度。
Description
技术领域
本发明涉及蛋白质数据分析技术领域,具体涉及一种小分子肽阿胶的多肽谱匹配数据分析方法及系统。
背景技术
多肽谱数据分析是生物信息学和蛋白质组学领域关于质谱数据的处理,它在研究蛋白质的结构、功能、表达以及疾病相关蛋白质标志物的发现等方面发挥着重要的作用。其中质谱仪是用于分析多肽谱数据的关键设备。质谱仪可以通过质量-电荷比来测量样本中多肽离子的质量,并生成质谱图谱。其中,基于质谱数据进行蛋白鉴定和定量是多肽谱数据分析的主要任务之一。蛋白鉴定可以通过比较质谱数据与已知数据库的匹配情况来确定样本中存在的蛋白质。蛋白定量则是通过比较不同样本中特定质谱峰的强度或峰面积来定量不同样本中蛋白质的表达差异。
目前常见的,通过多肽谱数据与已知蛋白质数据库进行比对,对多肽谱数据中的肽段和蛋白质进行鉴定,但是由于有些多肽谱的特征峰的峰强度和峰分布相近,导致难以准确对多肽谱数据对应的蛋白质进行识别。
发明内容
为了解决通过多肽谱数据与已知蛋白质数据库进行比对时,存在难以准确对多肽谱数据对应的蛋白质进行识别的技术问题,本发明的目的在于提供一种小分子肽阿胶的多肽谱匹配数据分析方法及系统,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了一种小分子肽阿胶的多肽谱匹配数据分析方法,该方法包括以下步骤:
获取多肽谱数据;
将多肽谱数据中数据点的纵坐标作为节点值,将多肽谱数据中数据点的横坐标的差值绝对值作为边值,分别构建第一边值图和第二边值图;
基于不同尺度,分别对第一边值图和第二边值图进行聚类,得到不同尺度下的第一边值图和第二边值图的节点类别;
匹配不同尺度下得到的第一边值图和第二边值图中的节点类别,得到匹配节点对;基于匹配节点对,对第一边值图和第二边值图对应的不同尺度进行匹配,得到匹配尺度对;
基于匹配尺度对,对第一边值图的尺度进行删除,得到保留尺度;获取每个保留尺度下的最终节点类别,基于最终节点类别构建聚类节点序列;
由多肽谱数据的纵坐标构成原始序列,拼接聚类节点序列和原始序列,得到拼接序列;将拼接序列输入神经网络得到蛋白质类别。
优选的,所述分别构建第一边值图和第二边值图,包括:
对于任意一条多肽谱数据,将每个纵坐标值作为节点值,将两个纵坐标值对应的横坐标的差值绝对值作为边值,构建图结构,作为原始图结构;
将原始图结构中的节点值去除,只保留节点与边值,得到第一边值图;
将原始图结构中的一个边值对应的两个节点的节点值的最小值与最大值的比值,替代原始的边值,并去除节点值,得到为第二边值图。
优选的,基于不同尺度,分别对第一边值图和第二边值图进行聚类,得到不同尺度下的第一边值图的节点类别,包括:
对第一边值图通过格里-纽曼算法进行聚类,当该算法中去除最大介数的边产生新类别时,记为一个新尺度,得到第一边值图在该尺度下的多个节点类别。
优选的,所述匹配不同尺度下得到的第一边值图和第二边值图中的节点类别,得到匹配节点对,包括:
对于第一边值图的任意尺度a下的节点类别与第二边值图的任意尺度b下的节点类别,将第一边值图在尺度a下的多个节点类别作为左侧节点,将第二边值图在尺度b下的多个节点类别作为右侧节点,将节点对应的节点类别的交并比作为边值,利用KM匹配算法对第一边值图在尺度a下的多个节点类别和第二边值图在尺度b下的多个节点类别进行匹配,得到匹配节点对。
优选的,所述基于匹配节点对,对第一边值图和第二边值图对应的不同尺度进行匹配,得到匹配尺度对,包括:
将所有匹配节点对所对应的边值之和作为第一匹配值;
将第一边值图对应的每个尺度作为左侧节点,将第二边值图对应的每个尺度作为右侧节点,将两个节点对应的两个尺度下的类别数量中最小数量值与最大数量值的比值与第一匹配值的乘积作为边值,利用KM匹配算法对第一边值图和第二边值图对应的不同尺度进行匹配,得到匹配尺度对。
优选的,所述基于匹配尺度对,对第一边值图的尺度进行删除,得到保留尺度,包括:
对于第一边值图,将尺度数量和预设倍数的乘积作为基准尺度,将基准尺度中的节点类别称之为第一节点类别,当第一节点类别中的节点在最大尺度到基准尺度下,都属于同一类别时,将对应的尺度作为保留尺度。
优选的,所述获取每个保留尺度下的最终节点类别,包括:
基于匹配节点对,对于每个第一边值图的保留尺度下的节点类别,得到在第二边值图中对应的节点类别;计算每个第一边值图中保留尺度下的节点类别和第二边值图中对应的节点类别的交集,将非交集的节点从第一边值图中保留尺度下的节点类别和第二边值图中对应的节点类别中进行删除,得到最终节点类别。
优选的,所述基于最终节点类别构建聚类节点序列,包括:
对于每个最终节点类别,将最终节点类别中元素在原始序列中最靠前的次序位置,作为首换位置,将首换位置之后的元素值置换为最终节点类别中的元素值,得到聚类节点序列。
优选的,所述神经网络的训练集为拼接序列,神经网络的损失函数为交叉熵损失函数。
第二方面,本发明一个实施例提供了一种小分子肽阿胶的多肽谱匹配数据分析系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种小分子肽阿胶的多肽谱匹配数据分析方法。
本发明实施例至少具有如下有益效果:
本发明首先构建第一边值图和第二边值图,对第一边值图和第二边值图进行聚类,得到节点类别,实现先将边值图中的节点进行初分类,便于后续对节点类别进行分析,以体现多级蛋白质结构的目的;对第一边值图和第二边值图对应的不同尺度进行匹配,得到匹配尺度对,对第一边值图的尺度进行删除,得到保留尺度,通过聚类过程中节点所属类别由类别中节点数量多变为类别中节点数量少的过程,即由大尺度变为小尺度,整体向局部转换的过程来体现蛋白质的多级结构;获取每个保留尺度下的最终节点类别,基于最终节点类别构建聚类节点序列,通过把同一个节点类别的节点放到一块,形成聚类节点序列,使得该序列尽可能多的体现多级蛋白质结构;最后拼接聚类节点序列和原始序列得到拼接序列,将拼接序列输入神经网络得到蛋白质类别,其中拼接序列尽可能多的体现了多级蛋白质结构,进而辅助神经网络对多肽所属蛋白质类别的识别,大大提高了对多肽谱数据对应的蛋白质进行识别的准确度和精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种小分子肽阿胶的多肽谱匹配数据分析方法的方法流程图;
图2为本发明一个实施例所提供的第一边值图和第二边值图的不同尺度匹配的示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种小分子肽阿胶的多肽谱匹配数据分析方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
本发明实施例提供了一种小分子肽阿胶的多肽谱匹配数据分析方法及系统的具体实施方法,该方法适用于多肽谱匹配场景。为了解决通过多肽谱数据与已知蛋白质数据库进行比对时,存在难以准确对多肽谱数据对应的蛋白质进行识别的技术问题。本发明通过格里-纽曼算法通过逐渐移除图结构中介数(Betweenness)最大的边,直到将整个网络分解为各个节点的过程来对聚类倾向性一致的最终节点类别进行计算,通过聚类过程中节点所属类别由类别中节点数量多变为类别中节点数量少的过程,即由大尺度变为小尺度,整体向局部转换的过程来体现蛋白质的多级结构;通过把同一个节点类别的节点放到一块,形成聚类节点序列,使得该序列尽可能多的体现多级蛋白质结构,进而辅助神经网络对多肽谱所属蛋白质类别的识别,大大提高了识别准确度和精度。
下面结合附图具体的说明本发明所提供的一种小分子肽阿胶的多肽谱匹配数据分析方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种小分子肽阿胶的多肽谱匹配数据分析方法的步骤流程图,该方法包括以下步骤:
步骤S100,获取多肽谱数据。
首先获取多条多肽谱数据。其中,每条多肽谱数据的横坐标代表离子质荷比(m/z),也即为离子的质量与电荷数的比值。需要说明的是,离子质荷比表示蛋白质样品中不同离子的质量-电荷比。质荷比是质谱仪测量到的相对离子质量的一种表示,可用于区分和标识不同离子。
其中,每条多肽谱数据的纵坐标为离子的峰强度,其也即为离子的相对丰度或信号强度。离子的峰强度用于观察到每个离子在多肽谱中的丰度或强度,可以用来评估离子的相对数量或含量。
通过采集可以获得多条多肽谱数据,同时已知每条多肽谱数据的所属蛋白质类别。
步骤S200,将多肽谱数据中数据点的纵坐标作为节点值,将多肽谱数据中数据点的横坐标的差值绝对值作为边值,分别构建第一边值图和第二边值图。
当不同的多肽谱数据在质谱图上显示出相似的峰形、峰位置和强度模式时,这可能意味着不同的多肽谱数据具有相似的结构或功能。聚类分析可以帮助将这些相似的多肽谱数据聚集到同一类别中,从而揭示出潜在的蛋白质多级结构,而对于单个的质谱图而言,通过聚类分析将相似节点聚到一起,进而揭示出可能的蛋白质结构,可以大大提高神经网络对多肽的分类精度和准确度,得到属于哪种蛋白质,这里的相似节点指的是质谱图上的峰值点。
常规的谱聚类是将边值设置为节点值的差异或相似度,进而实现对节点的聚类,但当前为了保证序列中元素的相对位置信息,即对结构信息进行较好保留,不能将边值设置为节点值的距离,而是设置为多肽谱序列中的次序距离,因此常规谱聚类难以实现想要的聚类效果。基于此,通过双图聚类,边值图记为第一边值图和节点值图转化得到的图记为第二边值图,通过分别聚类,进而得到综合聚类效果。
对于任意一条多肽谱数据,将每个纵坐标值作为节点值,将两个纵坐标值对应的横坐标的差值绝对值作为边值,构建图结构,作为原始图结构。
将原始图结构中的节点值去除,只保留节点与边值,得到第一边值图。
将原始图结构中的一个边值对应的两个节点的节点值的最小值与最大值的比值,替代原始的边值,并去除节点值,得到为第二边值图。
步骤S300,基于不同尺度,分别对第一边值图和第二边值图进行聚类,得到不同尺度下的第一边值图和第二边值图的节点类别。
对于单个的质谱图而言,通过聚类分析将相似节点聚到一起,也即通过聚类分析将质谱图上的峰聚到一起,进而揭示出可能的蛋白质结构,可以大大提高神经网络对多肽的分类精度和准确度,得到属于哪种蛋白质。
通过每次的聚类迭代结果,得到对应类别,也即第一边值图中节点类别与第二边值图中类别的对应关系,通过同一边值图中节点所属类别的变化得到节点的类别序列,进而得到聚类倾向相近的节点作为一类,得到聚类节点序列。
哪些节点在第一边值图、第二边值图聚类过程中的聚类倾向相近,则这些节点为一类,同一类节点在原始图中有相近的关系,该关系是指节点与边的关系。也即在聚类过程中,节点所属类别在变化,变化类别相近,如原来在相似度小的类别,后续到了相似度大的类别,满足这种关系的节点的聚类倾向相近,同时该过程可以一定程度上体现多级蛋白质结构。将一类节点放到一起,得到聚类序列。其可以体现一定的蛋白质结构特征,进而提高神经网络对多肽所属蛋白质类别的识别精度和准确度。
格里-纽曼算法通过逐渐移除图结构中介数最大的边,直到将整个网络分解为各个节点,该过程中,在越多次的分解过程中仍能分到一起的多个节点,该多个节点的连接越紧密。本实施例中通过聚类过程中节点所属类别由大类别变为小类别的过程,即由大尺度变为小尺度,整体向局部转换的过程来体现蛋白质的多级结构,其中大类别即为类别中节点数量多的类别,小类别即为类别中节点数量少的类别。
首先对第一边值图和第二边值图分别进行聚类,具体的:基于不同尺度,分别对第一边值图和第二边值图进行聚类,得到不同尺度下的第一边值图和第二边值图的节点类别。以第一边值图为例:
对第一边值图通过格里-纽曼算法进行聚类,由于并不是每次去除最大介数的边都会产生新类别,因此当该算法中去除最大介数的边产生新类别时,记为一个新尺度,得到第一边值图在该尺度下的多个节点类别,依次类推,得到不同尺度下的节点类别。通过计算可以得到不同尺度下的节点类别,不同尺度的范围为:1-N,N表示节点数量。
对于第二边值图,按照同样的方法,获取不同尺度下的第二边值图的节点类别,具体的:对第二边值图通过格里-纽曼算法进行聚类,当该算法中去除最大介数的边产生新类别时,记为一个新尺度,得到第二边值图在该尺度下的多个节点类别,依次类推,得到不同尺度下的节点类别。
步骤S400,匹配不同尺度下得到的第一边值图和第二边值图中的节点类别,得到匹配节点对;基于匹配节点对,对第一边值图和第二边值图对应的不同尺度进行匹配,得到匹配尺度对。
需要说明的是,第一边值图和第二边值图中相同尺度下的节点类别划分情况不一定是最相近的,为了找到第一边值图中哪个尺度下的类别划分情况与第二边值图中类别划分情况相近,进一步的需要计算尺度的匹配,而每个尺度中又有多个类别,因此首先计算得到类别匹配,然后计算尺度匹配。
利用KM匹配算法,以第一边值图的尺度a下的节点类别与第二边值图的尺度b下的节点类别为例,具体的:
对于第一边值图的任意尺度a下的节点类别与第二边值图的任意尺度b下的节点类别,将第一边值图在尺度a下的多个节点类别作为左侧节点,将第二边值图在尺度b下的多个节点类别作为右侧节点,将节点对应的节点类别的交并比作为边值,利用KM匹配算法对第一边值图在尺度a下的多个节点类别和第二边值图在尺度b下的多个节点类别进行匹配,得到匹配节点对。
更具体的:KM匹配算法中采用二分图匹配,左侧节点属于一个类别,右侧节点属于另一个类别,左侧每个节点与右侧所有节点相连,形成边。在本发明实施例中将第一边值图中尺度a下的多个节点类别作为左侧节点,将第二边值图中的尺度b下的多个节点类别作为右侧节点,对于二分图中将两个相连节点对应的两个节点类别中,将节点对应的节点类别的交并比作为边值,通过最大匹配原则,得到右侧节点与左侧节点的一对一匹配关系,也即第一边值图中的尺度a下的节点类别与第二边值图中的尺度b下的节点类别的类别对应关系,将匹配的左右两侧节点所对应的两个节点类别,作为匹配节点对。将二分图中匹配的所有边值之和作为第一匹配值,也即将所有匹配节点对所对应的边值之和作为第一匹配值。一个匹配节点对包括一个第一边值图中的节点类别和一个第二边值图中的节点类别。
通过计算,可以得到第一边值图中每个尺度下的节点类别与第二边值图中每个尺度下的节点类别的第一匹配值。
进一步的,利用KM匹配算法,对第一边值图和第二边值图对应的不同尺度进行匹配,得到匹配尺度对,具体的:将第一边值图对应的每个尺度作为左侧节点,将第二边值图对应的每个尺度作为右侧节点,将二分图中两个节点对应的两个尺度下的类别数量中最小数量值与最大数量值的比值与第一匹配值的乘积作为边值,利用KM匹配算法对第一边值图和第二边值图对应的不同尺度进行匹配,得到匹配尺度对。即通过最大匹配原则,得到匹配关系,即第一边值图中每个尺度与第二边值图中每个尺度的一对一关系,一对一的两个尺度的类别划分情况相近。每个匹配尺度对中包括一个第一边值图对应的尺度和一个第二边值图对应的尺度。
步骤S500,基于匹配尺度对,对第一边值图的尺度进行删除,得到保留尺度;获取每个保留尺度下的最终节点类别,基于最终节点类别构建聚类节点序列。
需要说明的是,一对一关系只有满足尺度逐渐减小,才能满足聚类倾向,得到的节点才能体现蛋白质的多级结构。希望后续聚类序列的排列能尽可能体现多级蛋白质结构,因此要把同一个节点类别的节点放到一块,形成聚类节点序列。
请参阅图2,图2为第一边值图和第二边值图的不同尺度匹配的示意图。图2中左侧节点a1、a2和a3代表第一边值图的不同尺度对应的节点,右侧节点b1、b2和b3代表第二边值图的不同尺度对应的节点,左侧节点的尺度从上到下逐渐减小,其对应关系中只有b2、b3满足右侧尺度也逐渐减小,因此,只有(a1,b2)和(a2,b3)两个匹配关系才能体现蛋白质多级结构。
首先将第一边值图中的尺度按照从大到小的顺序排列,通过尺度的一对一关系,可以得到第二边值图中的尺度序列,将第二边值图中不满足尺度逐渐增大的尺度,以及该尺度在第一边值图中的对应尺度去除,得到保留下来的尺度一对一关系,同时可以得到第一边值图中的保留尺度和第二边值图中的保留尺度。
以第一边值图中的任意尺度下的任意节点类别中的任意节点为例,只有在不同尺度下都在一个节点类别中的节点,进而得到多个这些节点,分别放到一起,才能体现蛋白质的多级结构。同时以第一边值图和第二边值图为例,某个对应尺度下,只有该节点在第一边值图中所属的节点类别与第二边值图中所属的节点类别为对应节点类别,存在对应关系,满足该条件的多个节点,分别放到一起,才能体现蛋白质的多级结构。例如左侧的尺度a1与右侧的尺度b2是对应尺度,且a1中的节点a、b属于类别A,b2中的节点a、b属于类别B,类别A与类别B是对应类别,即二分图的计算结果中,类别A与类别B是一对一匹配关系,则节点a、b应该放到一起,可以表示蛋白质的多级结构。
具体的:以第一边值图的不同尺度下的多个类别为例,由于格里-纽曼算法是逐渐去除介数最大的边,因此下一尺度中的新增类别必然是由上一尺度中的某个类别中的节点划分为两部分得到的,称之为对应关系,不变的类别也作为对应关系,进而得到了第一边值图中相邻尺度的类别对应关系,通过相同方法,可以得到第二边值图中的类别对应关系。
对于第一边值图,将尺度数量和预设倍数的乘积作为基准尺度,将基准尺度中的节点类别称之为第一节点类别,当第一节点类别中的节点在最大尺度到基准尺度下,都属于同一类别时,将对应的尺度作为保留尺度。在本发明实施例中预设倍数为0.7,在其他实施例中由实施者根据实际情况调整该取值。也即对于第一边值图,将尺度数量*0.7得到的结果值作为基准尺度,将基准尺度中的节点类别称之为第一节点类别,第一节点类别中的节点在最大尺度到基准尺度下,都属于同一类别的节点,将这些尺度称之为保留尺度。
基于匹配节点对,对于每个第一边值图的保留尺度下的节点类别,得到在第二边值图中对应的节点类别;计算每个节点类别与对应类别中的节点的交集节点,将非交集节点从该节点类别和对应类别中删除,得到更新后的类别,将此时的基准尺度下的多个更新后的类别作为最终节点类别;也即计算每个第一边值图中保留尺度下的节点类别和第二边值图中对应的节点类别的交集,将非交集的点从第一边值图中保留尺度下的节点类别和第二边值图中对应的节点类别中进行删除,得到最终节点类别。
聚类序列的排列希望能尽可能的体现多级蛋白质结果,因此要把同一节点类别的节点放到一块,形成聚类节点序列。
将每条多肽谱数据的纵坐标值按照顺序排列得到序列,称之为原始序列,对于每个最终节点类别,将最终节点类别中元素在原始序列中最靠前的次序位置,作为首换位置,将首换位置之后的元素值置换为最终节点类别中的元素值,得到聚类节点序列,通过相同方法可以完成所有最终节点类别对原始序列中元素值的替换,将替换过程中与原始序列相比,缺少的元素放到最后面的位置,形成聚类节点序列。
步骤S600,由多肽谱数据的纵坐标构成原始序列,拼接聚类节点序列和原始序列,得到拼接序列;将拼接序列输入神经网络得到蛋白质类别。
根据步骤S500中的内容,将每条多肽谱数据的纵坐标值按照顺序排列得到序列,称之为原始序列。将原始序列和聚类节点序列拼接,形成拼接序列。所有的拼接序列形成神经网络的训练集,对训练集中每个拼接序列人为的打上蛋白质类别的标签,通过训练集训练得到神经网络,训练过程中采用交叉熵损失函数。需要说明的是,循环神经网络的训练方法是公知的,在此不再赘述具体过程。
将拼接序列输入训练好的神经网络中,输出蛋白质类别。
实现当得到一个未知蛋白质类别的多肽谱序列时,通过计算分析得到拼接序列,将拼接序列输入训练好的神经网络中,得到蛋白质类别。
综上所述,本发明涉及蛋白质数据分析技术领域。本发明基于获取的多肽谱数据构建第一边值图和第二边值图;分别对第一边值图和第二边值图聚类,得到不同尺度下的第一边值图和第二边值图的节点类别;匹配第一边值图和第二边值图对应的不同尺度,得到匹配尺度对;基于匹配尺度对,删除部分第一边值图的尺度,得到保留尺度;获取每个保留尺度下的最终节点类别,构建聚类节点序列;拼接聚类节点序列和由多肽谱数据的纵坐标构成的原始序列,得到拼接序列;将拼接序列输入神经网络得到蛋白质类别。本发明提高了对多肽谱数据对应的蛋白质进行识别的准确度和精度。
本发明实施例还提出了一种小分子肽阿胶的多肽谱匹配数据分析系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。由于一种小分子肽阿胶的多肽谱匹配数据分析方法在上述给出了详细描述,不再赘述。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (10)
1.一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,该方法包括以下步骤:
获取多肽谱数据;
将多肽谱数据中数据点的纵坐标作为节点值,将多肽谱数据中数据点的横坐标的差值绝对值作为边值,分别构建第一边值图和第二边值图;
基于不同尺度,分别对第一边值图和第二边值图进行聚类,得到不同尺度下的第一边值图和第二边值图的节点类别;
匹配不同尺度下得到的第一边值图和第二边值图中的节点类别,得到匹配节点对;基于匹配节点对,对第一边值图和第二边值图对应的不同尺度进行匹配,得到匹配尺度对;
基于匹配尺度对,对第一边值图的尺度进行删除,得到保留尺度;获取每个保留尺度下的最终节点类别,基于最终节点类别构建聚类节点序列;
由多肽谱数据的纵坐标构成原始序列,拼接聚类节点序列和原始序列,得到拼接序列;将拼接序列输入神经网络得到蛋白质类别。
2.根据权利要求1所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,所述分别构建第一边值图和第二边值图,包括:
对于任意一条多肽谱数据,将每个纵坐标值作为节点值,将两个纵坐标值对应的横坐标的差值绝对值作为边值,构建图结构,作为原始图结构;
将原始图结构中的节点值去除,只保留节点与边值,得到第一边值图;
将原始图结构中的一个边值对应的两个节点的节点值的最小值与最大值的比值,替代原始的边值,并去除节点值,得到为第二边值图。
3.根据权利要求1所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,基于不同尺度,分别对第一边值图和第二边值图进行聚类,得到不同尺度下的第一边值图的节点类别,包括:
对第一边值图通过格里-纽曼算法进行聚类,当该算法中去除最大介数的边产生新类别时,记为一个新尺度,得到第一边值图在该尺度下的多个节点类别。
4.根据权利要求1所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,所述匹配不同尺度下得到的第一边值图和第二边值图中的节点类别,得到匹配节点对,包括:
对于第一边值图的任意尺度a下的节点类别与第二边值图的任意尺度b下的节点类别,将第一边值图在尺度a下的多个节点类别作为左侧节点,将第二边值图在尺度b下的多个节点类别作为右侧节点,将节点对应的节点类别的交并比作为边值,利用KM匹配算法对第一边值图在尺度a下的多个节点类别和第二边值图在尺度b下的多个节点类别进行匹配,得到匹配节点对。
5.根据权利要求4所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,所述基于匹配节点对,对第一边值图和第二边值图对应的不同尺度进行匹配,得到匹配尺度对,包括:
将所有匹配节点对所对应的边值之和作为第一匹配值;
将第一边值图对应的每个尺度作为左侧节点,将第二边值图对应的每个尺度作为右侧节点,将两个节点对应的两个尺度下的类别数量中最小数量值与最大数量值的比值与第一匹配值的乘积作为边值,利用KM匹配算法对第一边值图和第二边值图对应的不同尺度进行匹配,得到匹配尺度对。
6.根据权利要求1所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,所述基于匹配尺度对,对第一边值图的尺度进行删除,得到保留尺度,包括:
对于第一边值图,将尺度数量和预设倍数的乘积作为基准尺度,将基准尺度中的节点类别称之为第一节点类别,当第一节点类别中的节点在最大尺度到基准尺度下,都属于同一类别时,将对应的尺度作为保留尺度。
7.根据权利要求1所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,所述获取每个保留尺度下的最终节点类别,包括:
基于匹配节点对,对于每个第一边值图的保留尺度下的节点类别,得到在第二边值图中对应的节点类别;计算每个第一边值图中保留尺度下的节点类别和第二边值图中对应的节点类别的交集,将非交集的节点从第一边值图中保留尺度下的节点类别和第二边值图中对应的节点类别中进行删除,得到最终节点类别。
8.根据权利要求1所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,所述基于最终节点类别构建聚类节点序列,包括:
对于每个最终节点类别,将最终节点类别中元素在原始序列中最靠前的次序位置,作为首换位置,将首换位置之后的元素值置换为最终节点类别中的元素值,得到聚类节点序列。
9.根据权利要求1所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,所述神经网络的训练集为拼接序列,神经网络的损失函数为交叉熵损失函数。
10.一种小分子肽阿胶的多肽谱匹配数据分析系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~9任意一项所述一种小分子肽阿胶的多肽谱匹配数据分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311340093.8A CN117095743B (zh) | 2023-10-17 | 2023-10-17 | 一种小分子肽阿胶的多肽谱匹配数据分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311340093.8A CN117095743B (zh) | 2023-10-17 | 2023-10-17 | 一种小分子肽阿胶的多肽谱匹配数据分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117095743A true CN117095743A (zh) | 2023-11-21 |
CN117095743B CN117095743B (zh) | 2024-01-05 |
Family
ID=88770126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311340093.8A Active CN117095743B (zh) | 2023-10-17 | 2023-10-17 | 一种小分子肽阿胶的多肽谱匹配数据分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117095743B (zh) |
Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050288865A1 (en) * | 2002-07-10 | 2005-12-29 | Institut Suisse De Bioinformatique | Peptide and protein identification method |
CN102411666A (zh) * | 2010-09-26 | 2012-04-11 | 中国科学院计算技术研究所 | 一种蛋白质鉴定的大规模分布式并行加速方法及其系统 |
CN104076115A (zh) * | 2014-06-26 | 2014-10-01 | 云南民族大学 | 基于峰强度识别能力的蛋白质二级质谱鉴定方法 |
CN105527359A (zh) * | 2015-11-19 | 2016-04-27 | 云南民族大学 | 基于正反库特征信息匹配的蛋白质二级质谱鉴定方法 |
CN106404878A (zh) * | 2016-08-26 | 2017-02-15 | 中山大学中山眼科中心 | 基于多组学丰度信息的蛋白质二级质谱鉴定方法 |
CN107328842A (zh) * | 2017-06-05 | 2017-11-07 | 华东师范大学 | 基于质谱谱图的无标蛋白质定量方法 |
CN107727727A (zh) * | 2017-11-13 | 2018-02-23 | 复旦大学 | 一种蛋白质鉴定方法及系统 |
WO2018122338A1 (en) * | 2016-12-30 | 2018-07-05 | Dublin Institute Of Technology | Computational selection of proteases and prediction of cleavage products |
CN108897986A (zh) * | 2018-05-29 | 2018-11-27 | 中南大学 | 一种基于蛋白质信息的基因组序列拼接方法 |
CN109273054A (zh) * | 2018-08-31 | 2019-01-25 | 南京农业大学 | 基于关系图谱的蛋白质亚细胞区间预测方法 |
CN110945594A (zh) * | 2017-10-16 | 2020-03-31 | 因美纳有限公司 | 基于深度学习的剪接位点分类 |
CN111033631A (zh) * | 2017-06-13 | 2020-04-17 | 波士顿基因公司 | 用于生成分子功能谱、对其进行可视化和分类的系统和方法 |
GB202014223D0 (en) * | 2020-09-10 | 2020-10-28 | Oxford Nanoimaging Ltd | Cell classification algorithm |
CN111916144A (zh) * | 2020-07-27 | 2020-11-10 | 西安电子科技大学 | 基于自注意力神经网络和粗化算法的蛋白质分类方法 |
CN112116947A (zh) * | 2020-08-12 | 2020-12-22 | 东北石油大学 | 基于符号网络的蛋白质交互作用识别与预测方法及其装置 |
CN112292697A (zh) * | 2018-04-13 | 2021-01-29 | 弗里诺姆控股股份有限公司 | 用于生物样品的多分析物测定的机器学习实施方式 |
CN113724787A (zh) * | 2021-07-28 | 2021-11-30 | 扬州大学 | 一种基于核心-附件结构的蛋白质复合物识别方法 |
CN116230074A (zh) * | 2022-12-14 | 2023-06-06 | 粤港澳大湾区数字经济研究院(福田) | 蛋白质结构预测方法、模型训练方法、装置、设备及介质 |
CN116319110A (zh) * | 2023-05-24 | 2023-06-23 | 保定思齐智科信息科技有限公司 | 针对工业多源异构时序数据的数据采集与治理方法 |
WO2023150883A1 (en) * | 2022-02-11 | 2023-08-17 | The Hospital For Sick Children | System and method for classifying cancer and classifying benign and malignant neoplasm |
CN116825198A (zh) * | 2023-07-14 | 2023-09-29 | 湖南工商大学 | 基于图注意机制的肽序列标签鉴定方法 |
CN116842416A (zh) * | 2023-07-18 | 2023-10-03 | 中国电建集团华东勘测设计研究院有限公司 | 一种适用珊瑚礁砂基础管桩侧摩阻力的计算方法 |
-
2023
- 2023-10-17 CN CN202311340093.8A patent/CN117095743B/zh active Active
Patent Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050288865A1 (en) * | 2002-07-10 | 2005-12-29 | Institut Suisse De Bioinformatique | Peptide and protein identification method |
CN102411666A (zh) * | 2010-09-26 | 2012-04-11 | 中国科学院计算技术研究所 | 一种蛋白质鉴定的大规模分布式并行加速方法及其系统 |
CN104076115A (zh) * | 2014-06-26 | 2014-10-01 | 云南民族大学 | 基于峰强度识别能力的蛋白质二级质谱鉴定方法 |
CN105527359A (zh) * | 2015-11-19 | 2016-04-27 | 云南民族大学 | 基于正反库特征信息匹配的蛋白质二级质谱鉴定方法 |
CN106404878A (zh) * | 2016-08-26 | 2017-02-15 | 中山大学中山眼科中心 | 基于多组学丰度信息的蛋白质二级质谱鉴定方法 |
WO2018122338A1 (en) * | 2016-12-30 | 2018-07-05 | Dublin Institute Of Technology | Computational selection of proteases and prediction of cleavage products |
CN107328842A (zh) * | 2017-06-05 | 2017-11-07 | 华东师范大学 | 基于质谱谱图的无标蛋白质定量方法 |
CN111033631A (zh) * | 2017-06-13 | 2020-04-17 | 波士顿基因公司 | 用于生成分子功能谱、对其进行可视化和分类的系统和方法 |
CN110945594A (zh) * | 2017-10-16 | 2020-03-31 | 因美纳有限公司 | 基于深度学习的剪接位点分类 |
CN107727727A (zh) * | 2017-11-13 | 2018-02-23 | 复旦大学 | 一种蛋白质鉴定方法及系统 |
CN112292697A (zh) * | 2018-04-13 | 2021-01-29 | 弗里诺姆控股股份有限公司 | 用于生物样品的多分析物测定的机器学习实施方式 |
CN108897986A (zh) * | 2018-05-29 | 2018-11-27 | 中南大学 | 一种基于蛋白质信息的基因组序列拼接方法 |
CN109273054A (zh) * | 2018-08-31 | 2019-01-25 | 南京农业大学 | 基于关系图谱的蛋白质亚细胞区间预测方法 |
CN111916144A (zh) * | 2020-07-27 | 2020-11-10 | 西安电子科技大学 | 基于自注意力神经网络和粗化算法的蛋白质分类方法 |
CN112116947A (zh) * | 2020-08-12 | 2020-12-22 | 东北石油大学 | 基于符号网络的蛋白质交互作用识别与预测方法及其装置 |
GB202014223D0 (en) * | 2020-09-10 | 2020-10-28 | Oxford Nanoimaging Ltd | Cell classification algorithm |
CN116456995A (zh) * | 2020-09-10 | 2023-07-18 | 牛津纳米成像有限公司 | 细胞分类算法及该算法告知和优化医学治疗的应用 |
CN113724787A (zh) * | 2021-07-28 | 2021-11-30 | 扬州大学 | 一种基于核心-附件结构的蛋白质复合物识别方法 |
WO2023150883A1 (en) * | 2022-02-11 | 2023-08-17 | The Hospital For Sick Children | System and method for classifying cancer and classifying benign and malignant neoplasm |
CN116230074A (zh) * | 2022-12-14 | 2023-06-06 | 粤港澳大湾区数字经济研究院(福田) | 蛋白质结构预测方法、模型训练方法、装置、设备及介质 |
CN116319110A (zh) * | 2023-05-24 | 2023-06-23 | 保定思齐智科信息科技有限公司 | 针对工业多源异构时序数据的数据采集与治理方法 |
CN116825198A (zh) * | 2023-07-14 | 2023-09-29 | 湖南工商大学 | 基于图注意机制的肽序列标签鉴定方法 |
CN116842416A (zh) * | 2023-07-18 | 2023-10-03 | 中国电建集团华东勘测设计研究院有限公司 | 一种适用珊瑚礁砂基础管桩侧摩阻力的计算方法 |
Non-Patent Citations (2)
Title |
---|
RACHEL MARTY PYKE等: "Precision Neoantigen Discovery Using Large-Scale Immunopeptidomes and Composite Modeling of MHC Peptide Presentation", 《MCP RESEARCH》, vol. 22, no. 4, pages 1 - 18 * |
付祥政: "基于序列的非编码RNA和蛋白质预测及其关联研究", 《中国博士学位论文全文数据库 基础科学辑》, vol. 2020, no. 7, pages 006 - 23 * |
Also Published As
Publication number | Publication date |
---|---|
CN117095743B (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108629365B (zh) | 分析数据解析装置以及分析数据解析方法 | |
CN107328842B (zh) | 基于质谱谱图的无标蛋白质定量方法 | |
CN110838340B (zh) | 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法 | |
Lee et al. | Megavariate data analysis of mass spectrometric proteomics data using latent variable projection method | |
US20030078739A1 (en) | Feature list extraction from data sets such as spectra | |
CN103890578B (zh) | 用于对n-连接糖肽进行高通量识别和定量的生物信息学平台 | |
US10878944B2 (en) | Methods for combining predicted and observed mass spectral fragmentation data | |
KR101958900B1 (ko) | 액체 크로마토그래프 질량 분석을 이용한 시료의 정량 분석 장치 및 방법 | |
CN106529204B (zh) | 一种基于半监督学习的交联质谱多谱排序方法 | |
GB2404194A (en) | Automated chromatography/mass spectrometry analysis | |
WO2005074481A2 (en) | Method for clustering signals in spectra | |
CN114965728A (zh) | 用数据非依赖性采集质谱分析生物分子样品的方法和设备 | |
Timm et al. | Peak intensity prediction in MALDI-TOF mass spectrometry: a machine learning study to support quantitative proteomics | |
WO2022258556A1 (en) | Method and apparatus for identifying molecular species in a mass spectrum | |
CN117095743B (zh) | 一种小分子肽阿胶的多肽谱匹配数据分析方法及系统 | |
KR101311412B1 (ko) | 당 동정을 위한 새로운 생물정보처리 분석 방법 | |
CN114858958B (zh) | 质谱数据在质量评估中的分析方法、装置和存储介质 | |
CN111508565B (zh) | 用于确定分析物中是否存在化学元素的质谱法 | |
JP2004526958A (ja) | タンパク質の大量マッチング方法 | |
CN112464804B (zh) | 一种基于神经网络框架的肽段信号匹配方法 | |
WO2000028573A2 (en) | Data analysis | |
CN112735532A (zh) | 基于分子指纹预测的代谢物识别系统及其应用方法 | |
WO2005015199A1 (en) | Methods and systems for chromatography/mass-spectrometry analysis | |
Bossenbroek | Automatic Proteoform Detection in Top-Down Mass Spectrometry | |
Ryu | Measuring Pairwise Similarity of Tandem Mass Spectra Using Pair Hidden Markov Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |