CN112967758A

CN112967758A - 一种自组装的代谢组学数据处理系统

Info

Publication number: CN112967758A
Application number: CN202110157610.2A
Authority: CN
Inventors: 贾伟; 周迪; 陈天璐; 林景超
Original assignee: Metabo Profile Biotechnology Co ltd
Current assignee: Metabo Profile Biotechnology Co ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-06-15

Abstract

本发明公开了一种自组装的代谢组学数据处理系统，属于代谢组学技术领域。它包括：数据储存装置，用于储存原始数据；前处理装置，包括多种异常处理模块，多种标准化处理模块，以及前处理编辑模块；统计分析装置，包括多种统计分析模块，以及自定义流程模块。本发明能够有效降低代谢组学数据分析的难度和门槛，使用者无需学习代码编程即可编辑组建高度定制的统计分析流程，且调整参数时不必依次手动重运行各个模块，节约了使用者的时间，同时也减少了引入人为错误的几率。编辑流程及查看结果时，均可以对照模块组成的流程图进行查看，使得分析过程和结果的展示更加清晰直观，有助于使用者了解和展示其分析过程。

Description

一种自组装的代谢组学数据处理系统

技术领域

本发明涉及一种自组装的代谢组学数据处理系统，属于代谢组学技术领域。

背景技术

代谢组学技术是系统生物学中的重要组成部分，相比于基因组学、转录组学、蛋白质组学等，代谢组学能反映机体内当下正在发生的事情，是协助研究者揭示生命活动机制的重要工具。然而，代谢组学数据具有维度高、分析流程复杂的特点，且部分分析解读需要结合代谢物特有的功能和所属通路，使得代谢组学的数据分析同时涉及生命科学、统计分析以及计算机科学3个领域。因为代谢组学的数据分析较为复杂，一个专为处理代谢组学数据的系统是工业界和学术领域都切实需要的。

代谢组学的数据分析常具有流程较长和项目较多的特点，涉及原始数据清洗预处理，统计分析及建立模型筛选各组间显著改变的差异代谢物，对差异代谢物进行进一步的包括代谢谱转通路谱的分析、生物标志物建模及预测、以及相关性网络分析等阐释性分析。目前已经有包括MetaboAnalyst、W4M、Galaxy-M、XCMS-online、MZmine2、MetAlign、MAVEN、PiMP、MetaBox等在内的一系列系统、平台可以用于代谢组学数据处理，然而目前的工具都需要使用者依次独立运行各个分析模块完成分析流程或者仅提供固定的顺序不可变的分析流程。运行各个独立的模块需要使用者对分析流程及原理较为熟练，且会使得运行的时间成本加大，尤其在不同模块的结果会彼此影响时：例如需要根据下游分析模块结果对上游模块中的参数进行调节操作时，独立模块的操作会十分复杂。而固定顺序不可变的流程限制了使用者对数据的挖掘，难以适应对组学数据深入挖掘的个性化需求。

因此，设计一种自组装的代谢组学数据处理系统，它能够让使用者根据自身需求，将系统中的各个分析模块进行自由组合，为代谢组学数据分析定制流程，且可以编辑修改各个模块的参数、阈值，开展个性化的数据分析。同时，系统中还预先定义了一些常见的代谢组学的统计分析流程作为模板，对代谢组学或对统计分析不太擅长的使用者，可以直接使用这些模板或者基于模板修改定制新流程。系统提供了丰富全面的模块供使用者构建流程，系统部署在服务器中，使用者可以通过浏览器访问，参照示例上传数据后，即可使用，降低了代谢组学数据分析的门槛和难度。

发明内容

本发明所要解决的技术问题在于：提供一种自组装的代谢组学数据处理系统，它解决了目前代谢组学数据处理系统中，无法根据使用者不同的需求，方便地自由组合生成相适配的分析流程的问题。

本发明所要解决的技术问题采取以下技术方案来实现：

一种自组装的代谢组学数据处理系统，它包括：

数据储存装置，用于储存原始数据，原始数据类型包括但不限于：包含样本中各个代谢物水平信息的M×N数据矩阵，包含样本分组、人口学指标及临床指标信息的样本信息表，以及包含代谢物分类信息的代谢信息表；

前处理装置，包括对数据储存装置内的3种原始数据进行异常处理的多种异常处理模块，以及进行标准化处理的多种标准化处理模块，以及对多种异常处理模块和标准化处理模块进行个性化编辑操作的前处理编辑模块，前处理装置运行后得到前处理数据；

统计分析装置，包括多种对代谢物的前处理数据进行筛选的统计分析模块，以及对多种统计分析模块进行个性化编辑的自定义流程模块。

作为优选实例，所述前处理编辑模块的个性化编辑操作包括但不限于：对各个异常处理模块、标准化处理模块进行选定、参数编辑、运行排序。

作为优选实例，所述异常处理模块对原始数据进行识别和/或填充异常值。

作为优选实例，所述标准化处理模块对原始数据进行对数转换标准化操作。

作为优选实例，所述统计分析模块包括但不限于：组间参数检验、组间非参数检验、PLS-DA分析、OPLS-DA分析、相关性分析、Logistic回归分析、随机森林分析、支持向量机分析、LASSO回归分析。

作为优选实例，所述自定义流程模块的个性化编辑操作包括但不限于：对各个统计分析模块进行选定、参数编辑、运行排序。

作为优选实例，所述统计分析装置还包括用于对多种不同统计分析模块的清单数据进行取交集/取并集的整合模块。

本发明的有益效果是：

(1)本发明能够有效降低代谢组学数据分析的难度和门槛，使用者无需学习代码编程即可编辑组建高度定制的统计分析流程，且调整参数时不必依次手动重运行各个模块，节约了使用者的时间，同时也减少了引入人为错误的几率；

(2)编辑流程及查看结果时，均可以对照模块组成的流程图进行查看，使得分析过程和结果的展示更加清晰直观，有助于使用者了解和展示其分析过程，且各个模块结果分别存放，共通的内容采用相同的行列名及展示形式，使用者可以更容易的熟悉各个模块的结果；

(3)分析使用的原始数据、使用的模块及参数、分析结果都保存在同一项目中，使得整个分析过程透明，能够方便的对分析进行溯源，有利于提高分析的可重复性；

(4)本发明中模块间仅传递筛选后的代谢物清单，因此，系统的维护、新模块拓展将会相对容易，能够适应代谢组学分析领域中不断发展的分析需求。

附图说明

图1为本发明包含的各装置结构及运行流程示意图。

具体实施方式

为了对本发明的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施例，进一步阐述本发明。

如图1所示，使用流程如下：

(1)通过数据储存装置储存原始数据，本系统定义了3种原始数据类型，分别为包含样本中各个代谢物水平信息的M×N数据矩阵，包含样本分组、人口学指标及临床指标信息的样本信息表，以及包含代谢物分类信息的代谢信息表。支持txt、csv或xlsx格式的原始数据。

(2)使用者上传原始数据后，通过前处理装置对数据进行前处理，包括识别/填充异常值，对数据进行质量控制或对数据进行对数转换标准化等操作。前处理装置中的各种异常处理模块和标准化处理模块均是可编辑的，使用者可以控制是否运行这些步骤，并可以控制运行的顺序和运行使用的参数。

(3)通过统计分析装置对前处理装置输出的数据进行筛选，使用一系列可选的统计分析模块对代谢物进行筛选，这些用于筛选的统计分析模块包括：组间参数检验、组间非参数检验、PLS-DA分析、OPLS-DA分析、相关性分析、Logistic回归分析、随机森林分析、支持向量机分析、LASSO回归分析等一系列代谢组学、机器学习现有常用的统计分析方法。使用者可以对这些模块的运行顺序进行自由组合，并可以调整这些模块的运行参数，用于代谢组学研究中常见的差异改变代谢物的识别或疾病相关的生物标志物筛选。其中，自定义流程模块对多种统计分析模块进行个性化编辑，使用者可以自由调整各个模块的顺序，随后通过流程箭头连接不同模块，构建模块的上下游关系以确定运行顺序。箭头的起始点为上游模块，箭头的终点为下游模块，这些用于筛选的统计分析模块的内部参数自由设定，每个用于筛选的统计分析模块的输入数据和输出数据形式是统一的，输入为一个供筛选的代谢物清单，输出一个经过统计分析后，符合该模块内设定阈值要求的代谢物清单。上游的用于筛选的分析模块输出的代谢物清单即做为下游用于筛选的分析模块的输入清单。其中，还有专门的整合模块，对不同模块的清单进行取交集/取并集，用于整合统一多种不同模块的清单。经过用于筛选的统计分析模块定制组合筛选后，最后即可得到潜在的生物标志物或使用者关注的差异代谢物的结果清单。

基于此清单，使用者可以进一步扩展一系列的统计分析挖掘，得到生物学意义。包括：还可开展代谢通路分析、代谢富集分析查看清单代谢物对应的功能扰动；使用基于相关性的网络模块分析清单中代谢物和其他组学或临床表型、人口学指标等的联系；也可以使用建模并验证的方式分析潜在生物标志物对于疾病的早期诊断/预后评估等的应用价值。

根据本系统中的前处理编辑模块和自定义流程模块，使用者可以将上述的自原始数据前处理、筛选代谢物、挖掘结果的生物意义组合到一个流程中，实现一个流程贯通整合代谢组学分析目标，使用者可以直接使用流程模板(将常用的流程整合成多套流程模板，自动输入到前处理编辑模块和自定义流程模块中，用以调节各个模块的选定、参数编辑和运行排序)；或者在模板基础上进行编辑获取流程；也可以创建自定义流程或根据原有流程修改获取新流程。因为中间的模块间都通过相同的代谢物列表来进行信息传递，分析流程能够根据模块间的连结关系改变而进行实时自动重组，通过这种自组装设计，通过组装各个基础模块，可以实现一些复杂的代谢组学分析功能。原始数据通过流程分析处理后的结果以项目的形式保存，用户可以查看运行过的项目，查看、预览项目中的结果，或将数据下载到本地。用户也可以根据当前结果修改部分参数后重运行项目，也可以将设定好的流程及参数应用在其他原始数据中得到新项目。

本发明具有以下优点：

(4)本发明中模块间仅传递筛选后的代谢物清单(各模块严格依据“高内聚低耦合”原则设计开发)，因此，系统的维护、新模块拓展将会相对容易，能够适应代谢组学分析领域中不断发展的分析需求；

(5)此外，本发明通过浏览器即可访问，Windows、Mac OS、Linux操作系统的用户均可通过网络或在本地使用。

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解，本发明不受上述实施例的限制，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入本发明要求保护的范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种自组装的代谢组学数据处理系统，其特征在于，它包括：

2.根据权利要求1所述一种自组装的代谢组学数据处理系统，其特征在于，所述前处理编辑模块的个性化编辑操作包括但不限于：对各个异常处理模块、标准化处理模块进行选定、参数编辑、运行排序。

3.根据权利要求1所述一种自组装的代谢组学数据处理系统，其特征在于，所述异常处理模块对原始数据进行识别和/或填充异常值。

4.根据权利要求1所述一种自组装的代谢组学数据处理系统，其特征在于，所述标准化处理模块对原始数据进行对数转换标准化操作。

5.根据权利要求1所述一种自组装的代谢组学数据处理系统，其特征在于，所述统计分析模块包括但不限于：组间参数检验、组间非参数检验、PLS-DA分析、OPLS-DA分析、相关性分析、Logistic回归分析、随机森林分析、支持向量机分析、LASSO回归分析。

6.根据权利要求1所述一种自组装的代谢组学数据处理系统，其特征在于，所述自定义流程模块的个性化编辑操作包括但不限于：对各个统计分析模块进行选定、参数编辑、运行排序。

7.根据权利要求1所述一种自组装的代谢组学数据处理系统，其特征在于，所述统计分析装置还包括用于对多种不同统计分析模块的清单数据进行取交集/取并集的整合模块。