CN117133377A

CN117133377A - 一种基于代谢组学的代谢物组合模型的数据迭代处理方法

Info

Publication number: CN117133377A
Application number: CN202311403314.1A
Authority: CN
Inventors: 张钧; 谢鑫友; 于海涛; 安瑞; 王燕忠; 李国丽
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2023-11-28

Abstract

本发明涉及代谢组学与代谢物模型数据处理领域，尤其涉及一种基于代谢组学的代谢物组合模型的数据迭代处理方法，包括：S1、基于代谢组学建立代谢物组合模型的基础数据集；S2、利用所述基础数据集根据代谢物组合模型进行数据迭代处理得到实时代谢物组合模型迭代结果；S3、利用所述实时代谢物组合模型迭代结果基于代谢组学进行复验处理得到数据迭代处理结果，在代谢组学及其产物数据的基础上，使用并调整代谢物组合模型的结构与输出，实现了代谢物数据的迭代调整，并引入代谢通路图的酶作为辅助，保证数据快速迭代的同时模型输出的稳定与非离散性。

Description

一种基于代谢组学的代谢物组合模型的数据迭代处理方法

技术领域

本发明涉及代谢组学与代谢物模型数据处理领域，具体涉及一种基于代谢组学的代谢物组合模型的数据迭代处理方法。

背景技术

代谢组学是一门对某一生物或细胞所有低分子质量代谢产物（以相对分子质量<1000的有机和无机的代谢物为研究核心区）进行分析的新兴学科。生物样本通过NMR、GC-MS、LC-MS等高通量仪器分析检测后，能产生大量的数据，这些数据具有高维，少样本、高噪声等复杂特征，同时代谢物多且代谢物之间联系密切，因此从复杂的代谢组学数据中确定与所研究的现象有关的代谢物，并稳定进行产物与模型的协同迭代调整成为亟需解决的问题。

发明内容

针对现有技术的不足，本发明提供了一种基于代谢组学的代谢物组合模型的数据迭代处理方法，通过代谢组学及其延展模型，实现多种酶数据及通路图的协同调整数据迭代。

为实现上述目的，本发明提供了一种基于代谢组学的代谢物组合模型的数据迭代处理方法，包括：

S1、基于代谢组学建立代谢物组合模型的基础数据集；

S2、利用所述基础数据集根据代谢物组合模型进行数据迭代处理得到实时代谢物组合模型迭代结果；

S3、利用所述实时代谢物组合模型迭代结果基于代谢组学进行复验处理得到数据迭代处理结果。

优选的，所述基于代谢组学建立代谢物组合模型的基础数据集包括：

获取代谢物组合模型对应特征作为代谢物组合模型基准特征；

根据所述代谢物组合模型基准特征获取对应关联代谢物数据；

利用所述关联代谢物数据建立代谢物组合模型的基础数据集；

其中，所述关联代谢物数据包括当前时刻的代谢物种类与含量。

进一步的，利用所述基础数据集根据代谢物组合模型进行数据迭代处理得到实时代谢物组合模型迭代结果包括：

S2-1、利用所述基础数据集内各子集建立基础数据关联映射；

S2-2、利用所述基础数据关联映射作为迭代基准根据代谢物组合模型进行数据迭代处理得到实时代谢物组合模型迭代结果；

其中，所述基础数据关联映射为单一性映射。

进一步的，利用所述基础数据关联映射作为迭代基准根据代谢物组合模型进行数据迭代处理得到实时代谢物组合模型迭代结果包括：

S2-2-1、获取基础数据关联映射对应代谢物组合模型的输出结果作为迭代输出基准；

S2-2-2、判断当前时刻t的代谢物数据与基础数据关联映射的代谢物种类是否对应，若是，则执行S2-2-3，否则，放弃处理；

S2-2-3、利用当前时刻t的代谢物数据建立迭代起始代谢物组合模型；

S2-2-4、利用所述迭代起始代谢物组合模型得到实时代谢物组合模型迭代结果。

进一步的，利用所述迭代起始代谢物组合模型得到实时代谢物组合模型迭代结果包括：

S2-2-4-1、判断所述迭代起始代谢物组合模型的基础架构与基础数据关联映射对应代谢物组合模型是否一致，若是，则执行S2-2-4-2，否则，返回S2-2-3；

S2-2-4-2、获取相邻下一时刻代谢物数据建立迭代循环代谢物组合模型；

S2-2-4-3、判断当前迭代循环代谢物组合模型对应代谢物组分是否变化，若是，则输出t时刻至当前时刻的迭代循环代谢物组合模型作为实时代谢物组合模型迭代结果，否则，返回S2-2-4-2；

其中，所述变化为代谢物的种类或含量发生变化。

进一步的，利用所述实时代谢物组合模型迭代结果基于代谢组学进行复验处理得到数据迭代处理结果包括：

S3-1、利用所述实时代谢物组合模型迭代结果进行聚类分析得到实时代谢物组合模型迭代聚类分析结果；

S3-2、利用所述实时代谢物组合模型迭代结果获取对应实时代谢物组合模型代谢组学通路数据；

S3-3、利用所述实时代谢物组合模型迭代聚类分析结果与实时代谢物组合模型代谢组学通路数据得到数据迭代处理结果。

进一步的，利用所述实时代谢物组合模型迭代结果进行聚类分析得到实时代谢物组合模型迭代聚类分析结果包括：

S3-1-1、获取所述实时代谢物组合模型迭代结果对应迭代循环代谢物组合模型的产物输出数据作为迭代循环产物输出数据；

S3-1-2、利用所述基础数据关联映射作为聚类中心；

S3-1-3、利用所述迭代循环产物输出数据与聚类中心基于K-means聚类法得到初始迭代聚类结果；

S3-1-4、判断所述实时代谢物组合模型迭代结果对应初始迭代聚类结果与基础数据关联映射是否完全对应，若是，则保留初始迭代聚类结果作为实时代谢物组合模型迭代聚类分析结果，否则，在实时代谢物组合模型迭代结果中删除初始迭代聚类结果对应迭代循环代谢物组合模型，返回S3-1-1。

进一步的，利用所述实时代谢物组合模型迭代结果获取对应实时代谢物组合模型代谢组学通路数据包括：

利用所述实时代谢物组合模型迭代结果建立实时代谢物组合模型的代谢组学通路图；

利用所述代谢组学通路图获取实时代谢物组合模型代谢组学通路特征；

利用所述实时代谢物组合模型代谢组学通路特征作为实时代谢物组合模型代谢组学通路数据。

进一步的，利用所述代谢组学通路图获取实时代谢物组合模型代谢组学通路特征包括：

根据所述代谢组学通路图获取对应酶节点作为代谢组学通路子特征；

获取所述代谢组学通路子特征对应代谢物与化合物编号作为代谢组学通路辅助特征；

利用所述代谢组学通路子特征与代谢组学通路辅助特征作为实时代谢物组合模型代谢组学通路特征；

其中，所述化合物编号基于KEGG数据库获取。

进一步的，利用所述实时代谢物组合模型迭代聚类分析结果与实时代谢物组合模型代谢组学通路数据得到数据迭代处理结果包括：

S3-3-1、判断所述实时代谢物组合模型迭代聚类分析结果中实时代谢物组合模型与实时代谢物组合模型代谢组学通路数据的代谢组学通路子特征是否完全对应，若是，则直接输出实时代谢物组合模型迭代结果作为数据迭代处理结果，否则，执行S3-3-2；

S3-3-2、判断所述实时代谢物组合模型迭代聚类分析结果中实时代谢物组合模型对应酶种类的范围是否大于实时代谢物组合模型代谢组学通路数据的代谢组学通路子特征，若是，则输出实时代谢物组合模型中与代谢组学通路子特征对应部分作为数据迭代处理结果，否则，执行S3-3-3；

S3-3-3、判断所述实时代谢物组合模型迭代聚类分析结果中实时代谢物组合模型对应酶与实时代谢物组合模型代谢组学通路数据的代谢组学通路辅助特征是否完全对应，若是，则返回S3-1-4，否则，放弃处理。

与最接近的现有技术相比，本发明具有的有益效果：

在代谢组学及其产物数据的基础上，使用并调整代谢物组合模型的结构与输出，实现了代谢物数据的迭代调整，并引入代谢通路图的酶作为辅助，保证数据快速迭代的同时模型输出的稳定与非离散性。

附图说明

图1是本发明提供的一种基于代谢组学的代谢物组合模型的数据迭代处理方法的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：本发明提供了一种基于代谢组学的代谢物组合模型的数据迭代处理方法，如图1所示，包括：

S1、基于代谢组学建立代谢物组合模型的基础数据集；

本实施例中，一种基于代谢组学的代谢物组合模型的数据迭代处理方法，在实际医疗诊断中基于代谢组学针对某种病症建立的代谢物组合模型，进而推断病情等是较为常见的辅助医疗手段，本方案中涉及模型数据为代谢物组合模型的底层组成数据，基于现有病症的对应模型，考虑大批量数据对于组合模型的合理性进行循环处理。

S1具体包括：

S1-1、获取代谢物组合模型对应特征作为代谢物组合模型基准特征；

S1-2、根据所述代谢物组合模型基准特征获取对应关联代谢物数据；

S1-3、利用所述关联代谢物数据建立代谢物组合模型的基础数据集；

S2具体包括：

S2-1、利用所述基础数据集内各子集建立基础数据关联映射；

其中，所述基础数据关联映射为单一性映射。

S2-2具体包括：

S2-2-4具体包括：

其中，所述变化为代谢物的种类或含量发生变化。

S3具体包括：

S3-1具体包括：

S3-1-2、利用所述基础数据关联映射作为聚类中心；

本实施例中，一种基于代谢组学的代谢物组合模型的数据迭代处理方法，所述K-means聚类法为快速聚类（K-Means Cluster），在具体实施中可建立独立聚类循环流程，快速将其他个案归类到相应的类别，以实现不同代谢通路的初始迭代聚类结果同步输出。

S3-2具体包括：

S3-2-1、利用所述实时代谢物组合模型迭代结果建立实时代谢物组合模型的代谢组学通路图；

S3-2-2、利用所述代谢组学通路图获取实时代谢物组合模型代谢组学通路特征；

S3-2-3、利用所述实时代谢物组合模型代谢组学通路特征作为实时代谢物组合模型代谢组学通路数据。

S3-2-2具体包括：

S3-2-2-1、根据所述代谢组学通路图获取对应酶节点作为代谢组学通路子特征；

S3-2-2-2、获取所述代谢组学通路子特征对应代谢物与化合物编号作为代谢组学通路辅助特征；

S3-2-2-3、利用所述代谢组学通路子特征与代谢组学通路辅助特征作为实时代谢物组合模型代谢组学通路特征；

其中，所述化合物编号基于KEGG数据库获取。

本实施例中，一种基于代谢组学的代谢物组合模型的数据迭代处理方法，所述KEGG数据库中KEGG中存在两种代谢图：

1、reference pathway，根据已有的知识绘制的、概括的、详尽的具有一般参考意义的代谢图，为白色小框，在KEGG中名字以map开头，比如map00010；

2、species-specific pathway，绿色小框为该物种特有的基因或酶，只有这些绿色的框有更详细的信息。KEGG中名字为特定物种种属英文缩写，比如酵母的糖酵解通路图，sce00010；

在具体应用中，若存在对应化合物编号，则直接利用化合物编号，若不存在对应化合物编号，则采取EC编号作为化合物编号使用，其化合物编号仅为名称定义，并不作为实际编号含义解释。

S3-3具体包括：

本实施例中，一种基于代谢组学的代谢物组合模型的数据迭代处理方法，考虑到代谢通路图作为代谢组学模型的重要等效方式，其中通路上的各特征节点均可作为通路图与模型对应的筛选特征。

本实施例中，一种基于代谢组学的代谢物组合模型的数据迭代处理方法，本方案中所涉及模型或模型架构均为现有模型，其架构定义为模型中各数据节点或关键性连接特征。

本实施例中，一种基于代谢组学的代谢物组合模型的数据迭代处理方法，实际应用流程如下：

以现有技术中较为热门的功能代谢组学模型为例，所涉及数据对类型如下：

1、血清样本蛋白组（组学数据A）和转录组学（组学数据B）；

2、粪便代谢组（组学数据A）和菌群分布数据（组学数据B）；

3、血清代谢组学（组学数据A）和尿液代谢组学（组学数据B）；

4、血清样本（组学数据A）和组织样本（组学数据B）；

以上数据仅为举例说明，在实际应用中均可对代谢物具体类型进行定义或替换；

上述数据对的类型固定且数据值间存在强关联性，因此在大批量同类型数据的迭代中可依据模型初始数据对建立映射，即组学数据A与组学数据B建立基准映射；

根据以上数据可分析获得的结果如下：

两组数据间关联性判断，作为本方案中聚类后复验步骤的理论基础；

两组数据间一致信息和重要相关变量展示（KEGG下的代谢通路图或相关变量相关性系数和散点图）；

依靠代谢组学模型流程中各化合物产生与对应关系，建立并实施数据迭代精准处理。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于代谢组学的代谢物组合模型的数据迭代处理方法，其特征在于，包括：

S1、基于代谢组学建立代谢物组合模型的基础数据集；

2.如权利要求1所述的一种基于代谢组学的代谢物组合模型的数据迭代处理方法，其特征在于，所述基于代谢组学建立代谢物组合模型的基础数据集包括：

3.如权利要求2所述的一种基于代谢组学的代谢物组合模型的数据迭代处理方法，其特征在于，利用所述基础数据集根据代谢物组合模型进行数据迭代处理得到实时代谢物组合模型迭代结果包括：

S2-1、利用所述基础数据集内各子集建立基础数据关联映射；

其中，所述基础数据关联映射为单一性映射。

4.如权利要求3所述的一种基于代谢组学的代谢物组合模型的数据迭代处理方法，其特征在于，利用所述基础数据关联映射作为迭代基准根据代谢物组合模型进行数据迭代处理得到实时代谢物组合模型迭代结果包括：

5.如权利要求4所述的一种基于代谢组学的代谢物组合模型的数据迭代处理方法，其特征在于，利用所述迭代起始代谢物组合模型得到实时代谢物组合模型迭代结果包括：

其中，所述变化为代谢物的种类或含量发生变化。

6.如权利要求5所述的一种基于代谢组学的代谢物组合模型的数据迭代处理方法，其特征在于，利用所述实时代谢物组合模型迭代结果基于代谢组学进行复验处理得到数据迭代处理结果包括：

7.如权利要求6所述的一种基于代谢组学的代谢物组合模型的数据迭代处理方法，其特征在于，利用所述实时代谢物组合模型迭代结果进行聚类分析得到实时代谢物组合模型迭代聚类分析结果包括：

S3-1-2、利用所述基础数据关联映射作为聚类中心；

8.如权利要求7所述的一种基于代谢组学的代谢物组合模型的数据迭代处理方法，其特征在于，利用所述实时代谢物组合模型迭代结果获取对应实时代谢物组合模型代谢组学通路数据包括：

9.如权利要求8所述的一种基于代谢组学的代谢物组合模型的数据迭代处理方法，其特征在于，利用所述代谢组学通路图获取实时代谢物组合模型代谢组学通路特征包括：

其中，所述化合物编号基于KEGG数据库获取。

10.如权利要求9所述的一种基于代谢组学的代谢物组合模型的数据迭代处理方法，其特征在于，利用所述实时代谢物组合模型迭代聚类分析结果与实时代谢物组合模型代谢组学通路数据得到数据迭代处理结果包括：