CN117095743A

CN117095743A - 一种小分子肽阿胶的多肽谱匹配数据分析方法及系统

Info

Publication number: CN117095743A
Application number: CN202311340093.8A
Authority: CN
Inventors: 邓来义; 袁绪银; 赵淑荣; 潘少杰
Original assignee: Shandong Lurun E Jiao Pharmaceutical Co ltd
Current assignee: Shandong Lurun E Jiao Pharmaceutical Co ltd
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2023-11-21
Anticipated expiration: 2043-10-17
Also published as: CN117095743B

Abstract

本发明涉及蛋白质数据分析技术领域，具体涉及一种小分子肽阿胶的多肽谱匹配数据分析方法及系统。该方法适用于对多肽谱数据对应的蛋白质识别鉴定的分析。基于获取的多肽谱数据构建第一边值图和第二边值图；删除部分第一边值图的尺度，得到保留尺度；获取每个保留尺度下的最终节点类别，构建聚类节点序列，通过聚类过程中节点所属类别由类别中节点数量多变为类别中节点数量少的过程，即由整体向局部转换的过程来体现蛋白质的多级结构；拼接聚类节点序列和原始序列，得到拼接序列；将拼接序列输入神经网络得到蛋白质类别，提高了对多肽谱数据对应的蛋白质进行识别的准确度和精度。

Description

一种小分子肽阿胶的多肽谱匹配数据分析方法及系统

技术领域

本发明涉及蛋白质数据分析技术领域，具体涉及一种小分子肽阿胶的多肽谱匹配数据分析方法及系统。

背景技术

多肽谱数据分析是生物信息学和蛋白质组学领域关于质谱数据的处理，它在研究蛋白质的结构、功能、表达以及疾病相关蛋白质标志物的发现等方面发挥着重要的作用。其中质谱仪是用于分析多肽谱数据的关键设备。质谱仪可以通过质量-电荷比来测量样本中多肽离子的质量，并生成质谱图谱。其中，基于质谱数据进行蛋白鉴定和定量是多肽谱数据分析的主要任务之一。蛋白鉴定可以通过比较质谱数据与已知数据库的匹配情况来确定样本中存在的蛋白质。蛋白定量则是通过比较不同样本中特定质谱峰的强度或峰面积来定量不同样本中蛋白质的表达差异。

目前常见的，通过多肽谱数据与已知蛋白质数据库进行比对，对多肽谱数据中的肽段和蛋白质进行鉴定，但是由于有些多肽谱的特征峰的峰强度和峰分布相近，导致难以准确对多肽谱数据对应的蛋白质进行识别。

发明内容

为了解决通过多肽谱数据与已知蛋白质数据库进行比对时，存在难以准确对多肽谱数据对应的蛋白质进行识别的技术问题，本发明的目的在于提供一种小分子肽阿胶的多肽谱匹配数据分析方法及系统，所采用的技术方案具体如下：

第一方面，本发明一个实施例提供了一种小分子肽阿胶的多肽谱匹配数据分析方法，该方法包括以下步骤：

获取多肽谱数据；

将多肽谱数据中数据点的纵坐标作为节点值，将多肽谱数据中数据点的横坐标的差值绝对值作为边值，分别构建第一边值图和第二边值图；

基于不同尺度，分别对第一边值图和第二边值图进行聚类，得到不同尺度下的第一边值图和第二边值图的节点类别；

匹配不同尺度下得到的第一边值图和第二边值图中的节点类别，得到匹配节点对；基于匹配节点对，对第一边值图和第二边值图对应的不同尺度进行匹配，得到匹配尺度对；

基于匹配尺度对，对第一边值图的尺度进行删除，得到保留尺度；获取每个保留尺度下的最终节点类别，基于最终节点类别构建聚类节点序列；

由多肽谱数据的纵坐标构成原始序列，拼接聚类节点序列和原始序列，得到拼接序列；将拼接序列输入神经网络得到蛋白质类别。

优选的，所述分别构建第一边值图和第二边值图，包括：

对于任意一条多肽谱数据，将每个纵坐标值作为节点值，将两个纵坐标值对应的横坐标的差值绝对值作为边值，构建图结构，作为原始图结构；

将原始图结构中的节点值去除，只保留节点与边值，得到第一边值图；

将原始图结构中的一个边值对应的两个节点的节点值的最小值与最大值的比值，替代原始的边值，并去除节点值，得到为第二边值图。

优选的，基于不同尺度，分别对第一边值图和第二边值图进行聚类，得到不同尺度下的第一边值图的节点类别，包括：

对第一边值图通过格里-纽曼算法进行聚类，当该算法中去除最大介数的边产生新类别时，记为一个新尺度，得到第一边值图在该尺度下的多个节点类别。

优选的，所述匹配不同尺度下得到的第一边值图和第二边值图中的节点类别，得到匹配节点对，包括：

对于第一边值图的任意尺度a下的节点类别与第二边值图的任意尺度b下的节点类别，将第一边值图在尺度a下的多个节点类别作为左侧节点，将第二边值图在尺度b下的多个节点类别作为右侧节点，将节点对应的节点类别的交并比作为边值，利用KM匹配算法对第一边值图在尺度a下的多个节点类别和第二边值图在尺度b下的多个节点类别进行匹配，得到匹配节点对。

优选的，所述基于匹配节点对，对第一边值图和第二边值图对应的不同尺度进行匹配，得到匹配尺度对，包括：

将所有匹配节点对所对应的边值之和作为第一匹配值；

将第一边值图对应的每个尺度作为左侧节点，将第二边值图对应的每个尺度作为右侧节点，将两个节点对应的两个尺度下的类别数量中最小数量值与最大数量值的比值与第一匹配值的乘积作为边值，利用KM匹配算法对第一边值图和第二边值图对应的不同尺度进行匹配，得到匹配尺度对。

优选的，所述基于匹配尺度对，对第一边值图的尺度进行删除，得到保留尺度，包括：

对于第一边值图，将尺度数量和预设倍数的乘积作为基准尺度，将基准尺度中的节点类别称之为第一节点类别，当第一节点类别中的节点在最大尺度到基准尺度下，都属于同一类别时，将对应的尺度作为保留尺度。

优选的，所述获取每个保留尺度下的最终节点类别，包括：

基于匹配节点对，对于每个第一边值图的保留尺度下的节点类别，得到在第二边值图中对应的节点类别；计算每个第一边值图中保留尺度下的节点类别和第二边值图中对应的节点类别的交集，将非交集的节点从第一边值图中保留尺度下的节点类别和第二边值图中对应的节点类别中进行删除，得到最终节点类别。

优选的，所述基于最终节点类别构建聚类节点序列，包括：

对于每个最终节点类别，将最终节点类别中元素在原始序列中最靠前的次序位置，作为首换位置，将首换位置之后的元素值置换为最终节点类别中的元素值，得到聚类节点序列。

优选的，所述神经网络的训练集为拼接序列，神经网络的损失函数为交叉熵损失函数。

第二方面，本发明一个实施例提供了一种小分子肽阿胶的多肽谱匹配数据分析系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种小分子肽阿胶的多肽谱匹配数据分析方法。

本发明实施例至少具有如下有益效果：

本发明首先构建第一边值图和第二边值图，对第一边值图和第二边值图进行聚类，得到节点类别，实现先将边值图中的节点进行初分类，便于后续对节点类别进行分析，以体现多级蛋白质结构的目的；对第一边值图和第二边值图对应的不同尺度进行匹配，得到匹配尺度对，对第一边值图的尺度进行删除，得到保留尺度，通过聚类过程中节点所属类别由类别中节点数量多变为类别中节点数量少的过程，即由大尺度变为小尺度，整体向局部转换的过程来体现蛋白质的多级结构；获取每个保留尺度下的最终节点类别，基于最终节点类别构建聚类节点序列，通过把同一个节点类别的节点放到一块，形成聚类节点序列，使得该序列尽可能多的体现多级蛋白质结构；最后拼接聚类节点序列和原始序列得到拼接序列，将拼接序列输入神经网络得到蛋白质类别，其中拼接序列尽可能多的体现了多级蛋白质结构，进而辅助神经网络对多肽所属蛋白质类别的识别，大大提高了对多肽谱数据对应的蛋白质进行识别的准确度和精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种小分子肽阿胶的多肽谱匹配数据分析方法的方法流程图；

图2为本发明一个实施例所提供的第一边值图和第二边值图的不同尺度匹配的示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种小分子肽阿胶的多肽谱匹配数据分析方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本发明实施例提供了一种小分子肽阿胶的多肽谱匹配数据分析方法及系统的具体实施方法，该方法适用于多肽谱匹配场景。为了解决通过多肽谱数据与已知蛋白质数据库进行比对时，存在难以准确对多肽谱数据对应的蛋白质进行识别的技术问题。本发明通过格里-纽曼算法通过逐渐移除图结构中介数（Betweenness）最大的边，直到将整个网络分解为各个节点的过程来对聚类倾向性一致的最终节点类别进行计算，通过聚类过程中节点所属类别由类别中节点数量多变为类别中节点数量少的过程，即由大尺度变为小尺度，整体向局部转换的过程来体现蛋白质的多级结构；通过把同一个节点类别的节点放到一块，形成聚类节点序列，使得该序列尽可能多的体现多级蛋白质结构，进而辅助神经网络对多肽谱所属蛋白质类别的识别，大大提高了识别准确度和精度。

下面结合附图具体的说明本发明所提供的一种小分子肽阿胶的多肽谱匹配数据分析方法及系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种小分子肽阿胶的多肽谱匹配数据分析方法的步骤流程图，该方法包括以下步骤：

步骤S100，获取多肽谱数据。

首先获取多条多肽谱数据。其中，每条多肽谱数据的横坐标代表离子质荷比（m/z），也即为离子的质量与电荷数的比值。需要说明的是，离子质荷比表示蛋白质样品中不同离子的质量-电荷比。质荷比是质谱仪测量到的相对离子质量的一种表示，可用于区分和标识不同离子。

其中，每条多肽谱数据的纵坐标为离子的峰强度，其也即为离子的相对丰度或信号强度。离子的峰强度用于观察到每个离子在多肽谱中的丰度或强度，可以用来评估离子的相对数量或含量。

通过采集可以获得多条多肽谱数据，同时已知每条多肽谱数据的所属蛋白质类别。

步骤S200，将多肽谱数据中数据点的纵坐标作为节点值，将多肽谱数据中数据点的横坐标的差值绝对值作为边值，分别构建第一边值图和第二边值图。

当不同的多肽谱数据在质谱图上显示出相似的峰形、峰位置和强度模式时，这可能意味着不同的多肽谱数据具有相似的结构或功能。聚类分析可以帮助将这些相似的多肽谱数据聚集到同一类别中，从而揭示出潜在的蛋白质多级结构，而对于单个的质谱图而言，通过聚类分析将相似节点聚到一起，进而揭示出可能的蛋白质结构，可以大大提高神经网络对多肽的分类精度和准确度，得到属于哪种蛋白质，这里的相似节点指的是质谱图上的峰值点。

常规的谱聚类是将边值设置为节点值的差异或相似度，进而实现对节点的聚类，但当前为了保证序列中元素的相对位置信息，即对结构信息进行较好保留，不能将边值设置为节点值的距离，而是设置为多肽谱序列中的次序距离，因此常规谱聚类难以实现想要的聚类效果。基于此，通过双图聚类，边值图记为第一边值图和节点值图转化得到的图记为第二边值图，通过分别聚类，进而得到综合聚类效果。

对于任意一条多肽谱数据，将每个纵坐标值作为节点值，将两个纵坐标值对应的横坐标的差值绝对值作为边值，构建图结构，作为原始图结构。

将原始图结构中的节点值去除，只保留节点与边值，得到第一边值图。

步骤S300，基于不同尺度，分别对第一边值图和第二边值图进行聚类，得到不同尺度下的第一边值图和第二边值图的节点类别。

对于单个的质谱图而言，通过聚类分析将相似节点聚到一起，也即通过聚类分析将质谱图上的峰聚到一起，进而揭示出可能的蛋白质结构，可以大大提高神经网络对多肽的分类精度和准确度，得到属于哪种蛋白质。

通过每次的聚类迭代结果，得到对应类别，也即第一边值图中节点类别与第二边值图中类别的对应关系，通过同一边值图中节点所属类别的变化得到节点的类别序列，进而得到聚类倾向相近的节点作为一类，得到聚类节点序列。

哪些节点在第一边值图、第二边值图聚类过程中的聚类倾向相近，则这些节点为一类，同一类节点在原始图中有相近的关系，该关系是指节点与边的关系。也即在聚类过程中，节点所属类别在变化，变化类别相近，如原来在相似度小的类别，后续到了相似度大的类别，满足这种关系的节点的聚类倾向相近，同时该过程可以一定程度上体现多级蛋白质结构。将一类节点放到一起，得到聚类序列。其可以体现一定的蛋白质结构特征，进而提高神经网络对多肽所属蛋白质类别的识别精度和准确度。

格里-纽曼算法通过逐渐移除图结构中介数最大的边，直到将整个网络分解为各个节点，该过程中，在越多次的分解过程中仍能分到一起的多个节点，该多个节点的连接越紧密。本实施例中通过聚类过程中节点所属类别由大类别变为小类别的过程，即由大尺度变为小尺度，整体向局部转换的过程来体现蛋白质的多级结构，其中大类别即为类别中节点数量多的类别，小类别即为类别中节点数量少的类别。

首先对第一边值图和第二边值图分别进行聚类，具体的：基于不同尺度，分别对第一边值图和第二边值图进行聚类，得到不同尺度下的第一边值图和第二边值图的节点类别。以第一边值图为例：

对第一边值图通过格里-纽曼算法进行聚类，由于并不是每次去除最大介数的边都会产生新类别，因此当该算法中去除最大介数的边产生新类别时，记为一个新尺度，得到第一边值图在该尺度下的多个节点类别，依次类推，得到不同尺度下的节点类别。通过计算可以得到不同尺度下的节点类别，不同尺度的范围为：1-N，N表示节点数量。

对于第二边值图，按照同样的方法，获取不同尺度下的第二边值图的节点类别，具体的：对第二边值图通过格里-纽曼算法进行聚类，当该算法中去除最大介数的边产生新类别时，记为一个新尺度，得到第二边值图在该尺度下的多个节点类别，依次类推，得到不同尺度下的节点类别。

步骤S400，匹配不同尺度下得到的第一边值图和第二边值图中的节点类别，得到匹配节点对；基于匹配节点对，对第一边值图和第二边值图对应的不同尺度进行匹配，得到匹配尺度对。

需要说明的是，第一边值图和第二边值图中相同尺度下的节点类别划分情况不一定是最相近的，为了找到第一边值图中哪个尺度下的类别划分情况与第二边值图中类别划分情况相近，进一步的需要计算尺度的匹配，而每个尺度中又有多个类别，因此首先计算得到类别匹配，然后计算尺度匹配。

利用KM匹配算法，以第一边值图的尺度a下的节点类别与第二边值图的尺度b下的节点类别为例，具体的：

更具体的：KM匹配算法中采用二分图匹配，左侧节点属于一个类别，右侧节点属于另一个类别，左侧每个节点与右侧所有节点相连，形成边。在本发明实施例中将第一边值图中尺度a下的多个节点类别作为左侧节点，将第二边值图中的尺度b下的多个节点类别作为右侧节点，对于二分图中将两个相连节点对应的两个节点类别中，将节点对应的节点类别的交并比作为边值，通过最大匹配原则，得到右侧节点与左侧节点的一对一匹配关系，也即第一边值图中的尺度a下的节点类别与第二边值图中的尺度b下的节点类别的类别对应关系，将匹配的左右两侧节点所对应的两个节点类别，作为匹配节点对。将二分图中匹配的所有边值之和作为第一匹配值，也即将所有匹配节点对所对应的边值之和作为第一匹配值。一个匹配节点对包括一个第一边值图中的节点类别和一个第二边值图中的节点类别。

通过计算，可以得到第一边值图中每个尺度下的节点类别与第二边值图中每个尺度下的节点类别的第一匹配值。

进一步的，利用KM匹配算法，对第一边值图和第二边值图对应的不同尺度进行匹配，得到匹配尺度对，具体的：将第一边值图对应的每个尺度作为左侧节点，将第二边值图对应的每个尺度作为右侧节点，将二分图中两个节点对应的两个尺度下的类别数量中最小数量值与最大数量值的比值与第一匹配值的乘积作为边值，利用KM匹配算法对第一边值图和第二边值图对应的不同尺度进行匹配，得到匹配尺度对。即通过最大匹配原则，得到匹配关系，即第一边值图中每个尺度与第二边值图中每个尺度的一对一关系，一对一的两个尺度的类别划分情况相近。每个匹配尺度对中包括一个第一边值图对应的尺度和一个第二边值图对应的尺度。

步骤S500，基于匹配尺度对，对第一边值图的尺度进行删除，得到保留尺度；获取每个保留尺度下的最终节点类别，基于最终节点类别构建聚类节点序列。

需要说明的是，一对一关系只有满足尺度逐渐减小，才能满足聚类倾向，得到的节点才能体现蛋白质的多级结构。希望后续聚类序列的排列能尽可能体现多级蛋白质结构，因此要把同一个节点类别的节点放到一块，形成聚类节点序列。

请参阅图2，图2为第一边值图和第二边值图的不同尺度匹配的示意图。图2中左侧节点a1、a2和a3代表第一边值图的不同尺度对应的节点，右侧节点b1、b2和b3代表第二边值图的不同尺度对应的节点，左侧节点的尺度从上到下逐渐减小，其对应关系中只有b2、b3满足右侧尺度也逐渐减小，因此，只有（a1,b2）和（a2,b3）两个匹配关系才能体现蛋白质多级结构。

首先将第一边值图中的尺度按照从大到小的顺序排列，通过尺度的一对一关系，可以得到第二边值图中的尺度序列，将第二边值图中不满足尺度逐渐增大的尺度，以及该尺度在第一边值图中的对应尺度去除，得到保留下来的尺度一对一关系，同时可以得到第一边值图中的保留尺度和第二边值图中的保留尺度。

以第一边值图中的任意尺度下的任意节点类别中的任意节点为例，只有在不同尺度下都在一个节点类别中的节点，进而得到多个这些节点，分别放到一起，才能体现蛋白质的多级结构。同时以第一边值图和第二边值图为例，某个对应尺度下，只有该节点在第一边值图中所属的节点类别与第二边值图中所属的节点类别为对应节点类别，存在对应关系，满足该条件的多个节点，分别放到一起，才能体现蛋白质的多级结构。例如左侧的尺度a1与右侧的尺度b2是对应尺度，且a1中的节点a、b属于类别A，b2中的节点a、b属于类别B，类别A与类别B是对应类别，即二分图的计算结果中，类别A与类别B是一对一匹配关系，则节点a、b应该放到一起，可以表示蛋白质的多级结构。

具体的：以第一边值图的不同尺度下的多个类别为例，由于格里-纽曼算法是逐渐去除介数最大的边，因此下一尺度中的新增类别必然是由上一尺度中的某个类别中的节点划分为两部分得到的，称之为对应关系，不变的类别也作为对应关系，进而得到了第一边值图中相邻尺度的类别对应关系，通过相同方法，可以得到第二边值图中的类别对应关系。

对于第一边值图，将尺度数量和预设倍数的乘积作为基准尺度，将基准尺度中的节点类别称之为第一节点类别，当第一节点类别中的节点在最大尺度到基准尺度下，都属于同一类别时，将对应的尺度作为保留尺度。在本发明实施例中预设倍数为0.7，在其他实施例中由实施者根据实际情况调整该取值。也即对于第一边值图，将尺度数量*0.7得到的结果值作为基准尺度，将基准尺度中的节点类别称之为第一节点类别，第一节点类别中的节点在最大尺度到基准尺度下，都属于同一类别的节点，将这些尺度称之为保留尺度。

基于匹配节点对，对于每个第一边值图的保留尺度下的节点类别，得到在第二边值图中对应的节点类别；计算每个节点类别与对应类别中的节点的交集节点，将非交集节点从该节点类别和对应类别中删除，得到更新后的类别，将此时的基准尺度下的多个更新后的类别作为最终节点类别；也即计算每个第一边值图中保留尺度下的节点类别和第二边值图中对应的节点类别的交集，将非交集的点从第一边值图中保留尺度下的节点类别和第二边值图中对应的节点类别中进行删除，得到最终节点类别。

聚类序列的排列希望能尽可能的体现多级蛋白质结果，因此要把同一节点类别的节点放到一块，形成聚类节点序列。

将每条多肽谱数据的纵坐标值按照顺序排列得到序列，称之为原始序列，对于每个最终节点类别，将最终节点类别中元素在原始序列中最靠前的次序位置，作为首换位置，将首换位置之后的元素值置换为最终节点类别中的元素值，得到聚类节点序列，通过相同方法可以完成所有最终节点类别对原始序列中元素值的替换，将替换过程中与原始序列相比，缺少的元素放到最后面的位置，形成聚类节点序列。

步骤S600，由多肽谱数据的纵坐标构成原始序列，拼接聚类节点序列和原始序列，得到拼接序列；将拼接序列输入神经网络得到蛋白质类别。

根据步骤S500中的内容，将每条多肽谱数据的纵坐标值按照顺序排列得到序列，称之为原始序列。将原始序列和聚类节点序列拼接，形成拼接序列。所有的拼接序列形成神经网络的训练集，对训练集中每个拼接序列人为的打上蛋白质类别的标签，通过训练集训练得到神经网络，训练过程中采用交叉熵损失函数。需要说明的是，循环神经网络的训练方法是公知的，在此不再赘述具体过程。

将拼接序列输入训练好的神经网络中，输出蛋白质类别。

实现当得到一个未知蛋白质类别的多肽谱序列时，通过计算分析得到拼接序列，将拼接序列输入训练好的神经网络中，得到蛋白质类别。

综上所述，本发明涉及蛋白质数据分析技术领域。本发明基于获取的多肽谱数据构建第一边值图和第二边值图；分别对第一边值图和第二边值图聚类，得到不同尺度下的第一边值图和第二边值图的节点类别；匹配第一边值图和第二边值图对应的不同尺度，得到匹配尺度对；基于匹配尺度对，删除部分第一边值图的尺度，得到保留尺度；获取每个保留尺度下的最终节点类别，构建聚类节点序列；拼接聚类节点序列和由多肽谱数据的纵坐标构成的原始序列，得到拼接序列；将拼接序列输入神经网络得到蛋白质类别。本发明提高了对多肽谱数据对应的蛋白质进行识别的准确度和精度。

本发明实施例还提出了一种小分子肽阿胶的多肽谱匹配数据分析系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。由于一种小分子肽阿胶的多肽谱匹配数据分析方法在上述给出了详细描述，不再赘述。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.一种小分子肽阿胶的多肽谱匹配数据分析方法，其特征在于，该方法包括以下步骤：

获取多肽谱数据；

2.根据权利要求1所述的一种小分子肽阿胶的多肽谱匹配数据分析方法，其特征在于，所述分别构建第一边值图和第二边值图，包括：

3.根据权利要求1所述的一种小分子肽阿胶的多肽谱匹配数据分析方法，其特征在于，基于不同尺度，分别对第一边值图和第二边值图进行聚类，得到不同尺度下的第一边值图的节点类别，包括：

4.根据权利要求1所述的一种小分子肽阿胶的多肽谱匹配数据分析方法，其特征在于，所述匹配不同尺度下得到的第一边值图和第二边值图中的节点类别，得到匹配节点对，包括：

5.根据权利要求4所述的一种小分子肽阿胶的多肽谱匹配数据分析方法，其特征在于，所述基于匹配节点对，对第一边值图和第二边值图对应的不同尺度进行匹配，得到匹配尺度对，包括：

将所有匹配节点对所对应的边值之和作为第一匹配值；

6.根据权利要求1所述的一种小分子肽阿胶的多肽谱匹配数据分析方法，其特征在于，所述基于匹配尺度对，对第一边值图的尺度进行删除，得到保留尺度，包括：

7.根据权利要求1所述的一种小分子肽阿胶的多肽谱匹配数据分析方法，其特征在于，所述获取每个保留尺度下的最终节点类别，包括：

8.根据权利要求1所述的一种小分子肽阿胶的多肽谱匹配数据分析方法，其特征在于，所述基于最终节点类别构建聚类节点序列，包括：

9.根据权利要求1所述的一种小分子肽阿胶的多肽谱匹配数据分析方法，其特征在于，所述神经网络的训练集为拼接序列，神经网络的损失函数为交叉熵损失函数。

10.一种小分子肽阿胶的多肽谱匹配数据分析系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1~9任意一项所述一种小分子肽阿胶的多肽谱匹配数据分析方法的步骤。