CN112967758A - 一种自组装的代谢组学数据处理系统 - Google Patents

一种自组装的代谢组学数据处理系统 Download PDF

Info

Publication number
CN112967758A
CN112967758A CN202110157610.2A CN202110157610A CN112967758A CN 112967758 A CN112967758 A CN 112967758A CN 202110157610 A CN202110157610 A CN 202110157610A CN 112967758 A CN112967758 A CN 112967758A
Authority
CN
China
Prior art keywords
analysis
data
module
modules
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110157610.2A
Other languages
English (en)
Inventor
贾伟
周迪
陈天璐
林景超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Metabo Profile Biotechnology Co ltd
Original Assignee
Metabo Profile Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Metabo Profile Biotechnology Co ltd filed Critical Metabo Profile Biotechnology Co ltd
Priority to CN202110157610.2A priority Critical patent/CN112967758A/zh
Publication of CN112967758A publication Critical patent/CN112967758A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自组装的代谢组学数据处理系统,属于代谢组学技术领域。它包括:数据储存装置,用于储存原始数据;前处理装置,包括多种异常处理模块,多种标准化处理模块,以及前处理编辑模块;统计分析装置,包括多种统计分析模块,以及自定义流程模块。本发明能够有效降低代谢组学数据分析的难度和门槛,使用者无需学习代码编程即可编辑组建高度定制的统计分析流程,且调整参数时不必依次手动重运行各个模块,节约了使用者的时间,同时也减少了引入人为错误的几率。编辑流程及查看结果时,均可以对照模块组成的流程图进行查看,使得分析过程和结果的展示更加清晰直观,有助于使用者了解和展示其分析过程。

Description

一种自组装的代谢组学数据处理系统
技术领域
本发明涉及一种自组装的代谢组学数据处理系统,属于代谢组学技术领域。
背景技术
代谢组学技术是系统生物学中的重要组成部分,相比于基因组学、转录组学、蛋白质组学等,代谢组学能反映机体内当下正在发生的事情,是协助研究者揭示生命活动机制的重要工具。然而,代谢组学数据具有维度高、分析流程复杂的特点,且部分分析解读需要结合代谢物特有的功能和所属通路,使得代谢组学的数据分析同时涉及生命科学、统计分析以及计算机科学3个领域。因为代谢组学的数据分析较为复杂,一个专为处理代谢组学数据的系统是工业界和学术领域都切实需要的。
代谢组学的数据分析常具有流程较长和项目较多的特点,涉及原始数据清洗预处理,统计分析及建立模型筛选各组间显著改变的差异代谢物,对差异代谢物进行进一步的包括代谢谱转通路谱的分析、生物标志物建模及预测、以及相关性网络分析等阐释性分析。目前已经有包括MetaboAnalyst、W4M、Galaxy-M、XCMS-online、MZmine2、MetAlign、MAVEN、PiMP、MetaBox等在内的一系列系统、平台可以用于代谢组学数据处理,然而目前的工具都需要使用者依次独立运行各个分析模块完成分析流程或者仅提供固定的顺序不可变的分析流程。运行各个独立的模块需要使用者对分析流程及原理较为熟练,且会使得运行的时间成本加大,尤其在不同模块的结果会彼此影响时:例如需要根据下游分析模块结果对上游模块中的参数进行调节操作时,独立模块的操作会十分复杂。而固定顺序不可变的流程限制了使用者对数据的挖掘,难以适应对组学数据深入挖掘的个性化需求。
因此,设计一种自组装的代谢组学数据处理系统,它能够让使用者根据自身需求,将系统中的各个分析模块进行自由组合,为代谢组学数据分析定制流程,且可以编辑修改各个模块的参数、阈值,开展个性化的数据分析。同时,系统中还预先定义了一些常见的代谢组学的统计分析流程作为模板,对代谢组学或对统计分析不太擅长的使用者,可以直接使用这些模板或者基于模板修改定制新流程。系统提供了丰富全面的模块供使用者构建流程,系统部署在服务器中,使用者可以通过浏览器访问,参照示例上传数据后,即可使用,降低了代谢组学数据分析的门槛和难度。
发明内容
本发明所要解决的技术问题在于:提供一种自组装的代谢组学数据处理系统,它解决了目前代谢组学数据处理系统中,无法根据使用者不同的需求,方便地自由组合生成相适配的分析流程的问题。
本发明所要解决的技术问题采取以下技术方案来实现:
一种自组装的代谢组学数据处理系统,它包括:
数据储存装置,用于储存原始数据,原始数据类型包括但不限于:包含样本中各个代谢物水平信息的M×N数据矩阵,包含样本分组、人口学指标及临床指标信息的样本信息表,以及包含代谢物分类信息的代谢信息表;
前处理装置,包括对数据储存装置内的3种原始数据进行异常处理的多种异常处理模块,以及进行标准化处理的多种标准化处理模块,以及对多种异常处理模块和标准化处理模块进行个性化编辑操作的前处理编辑模块,前处理装置运行后得到前处理数据;
统计分析装置,包括多种对代谢物的前处理数据进行筛选的统计分析模块,以及对多种统计分析模块进行个性化编辑的自定义流程模块。
作为优选实例,所述前处理编辑模块的个性化编辑操作包括但不限于:对各个异常处理模块、标准化处理模块进行选定、参数编辑、运行排序。
作为优选实例,所述异常处理模块对原始数据进行识别和/或填充异常值。
作为优选实例,所述标准化处理模块对原始数据进行对数转换标准化操作。
作为优选实例,所述统计分析模块包括但不限于:组间参数检验、组间非参数检验、PLS-DA分析、OPLS-DA分析、相关性分析、Logistic回归分析、随机森林分析、支持向量机分析、LASSO回归分析。
作为优选实例,所述自定义流程模块的个性化编辑操作包括但不限于:对各个统计分析模块进行选定、参数编辑、运行排序。
作为优选实例,所述统计分析装置还包括用于对多种不同统计分析模块的清单数据进行取交集/取并集的整合模块。
本发明的有益效果是:
(1)本发明能够有效降低代谢组学数据分析的难度和门槛,使用者无需学习代码编程即可编辑组建高度定制的统计分析流程,且调整参数时不必依次手动重运行各个模块,节约了使用者的时间,同时也减少了引入人为错误的几率;
(2)编辑流程及查看结果时,均可以对照模块组成的流程图进行查看,使得分析过程和结果的展示更加清晰直观,有助于使用者了解和展示其分析过程,且各个模块结果分别存放,共通的内容采用相同的行列名及展示形式,使用者可以更容易的熟悉各个模块的结果;
(3)分析使用的原始数据、使用的模块及参数、分析结果都保存在同一项目中,使得整个分析过程透明,能够方便的对分析进行溯源,有利于提高分析的可重复性;
(4)本发明中模块间仅传递筛选后的代谢物清单,因此,系统的维护、新模块拓展将会相对容易,能够适应代谢组学分析领域中不断发展的分析需求。
附图说明
图1为本发明包含的各装置结构及运行流程示意图。
具体实施方式
为了对本发明的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施例,进一步阐述本发明。
如图1所示,使用流程如下:
(1)通过数据储存装置储存原始数据,本系统定义了3种原始数据类型,分别为包含样本中各个代谢物水平信息的M×N数据矩阵,包含样本分组、人口学指标及临床指标信息的样本信息表,以及包含代谢物分类信息的代谢信息表。支持txt、csv或xlsx格式的原始数据。
(2)使用者上传原始数据后,通过前处理装置对数据进行前处理,包括识别/填充异常值,对数据进行质量控制或对数据进行对数转换标准化等操作。前处理装置中的各种异常处理模块和标准化处理模块均是可编辑的,使用者可以控制是否运行这些步骤,并可以控制运行的顺序和运行使用的参数。
(3)通过统计分析装置对前处理装置输出的数据进行筛选,使用一系列可选的统计分析模块对代谢物进行筛选,这些用于筛选的统计分析模块包括:组间参数检验、组间非参数检验、PLS-DA分析、OPLS-DA分析、相关性分析、Logistic回归分析、随机森林分析、支持向量机分析、LASSO回归分析等一系列代谢组学、机器学习现有常用的统计分析方法。使用者可以对这些模块的运行顺序进行自由组合,并可以调整这些模块的运行参数,用于代谢组学研究中常见的差异改变代谢物的识别或疾病相关的生物标志物筛选。其中,自定义流程模块对多种统计分析模块进行个性化编辑,使用者可以自由调整各个模块的顺序,随后通过流程箭头连接不同模块,构建模块的上下游关系以确定运行顺序。箭头的起始点为上游模块,箭头的终点为下游模块,这些用于筛选的统计分析模块的内部参数自由设定,每个用于筛选的统计分析模块的输入数据和输出数据形式是统一的,输入为一个供筛选的代谢物清单,输出一个经过统计分析后,符合该模块内设定阈值要求的代谢物清单。上游的用于筛选的分析模块输出的代谢物清单即做为下游用于筛选的分析模块的输入清单。其中,还有专门的整合模块,对不同模块的清单进行取交集/取并集,用于整合统一多种不同模块的清单。经过用于筛选的统计分析模块定制组合筛选后,最后即可得到潜在的生物标志物或使用者关注的差异代谢物的结果清单。
基于此清单,使用者可以进一步扩展一系列的统计分析挖掘,得到生物学意义。包括:还可开展代谢通路分析、代谢富集分析查看清单代谢物对应的功能扰动;使用基于相关性的网络模块分析清单中代谢物和其他组学或临床表型、人口学指标等的联系;也可以使用建模并验证的方式分析潜在生物标志物对于疾病的早期诊断/预后评估等的应用价值。
根据本系统中的前处理编辑模块和自定义流程模块,使用者可以将上述的自原始数据前处理、筛选代谢物、挖掘结果的生物意义组合到一个流程中,实现一个流程贯通整合代谢组学分析目标,使用者可以直接使用流程模板(将常用的流程整合成多套流程模板,自动输入到前处理编辑模块和自定义流程模块中,用以调节各个模块的选定、参数编辑和运行排序);或者在模板基础上进行编辑获取流程;也可以创建自定义流程或根据原有流程修改获取新流程。因为中间的模块间都通过相同的代谢物列表来进行信息传递,分析流程能够根据模块间的连结关系改变而进行实时自动重组,通过这种自组装设计,通过组装各个基础模块,可以实现一些复杂的代谢组学分析功能。原始数据通过流程分析处理后的结果以项目的形式保存,用户可以查看运行过的项目,查看、预览项目中的结果,或将数据下载到本地。用户也可以根据当前结果修改部分参数后重运行项目,也可以将设定好的流程及参数应用在其他原始数据中得到新项目。
本发明具有以下优点:
(1)本发明能够有效降低代谢组学数据分析的难度和门槛,使用者无需学习代码编程即可编辑组建高度定制的统计分析流程,且调整参数时不必依次手动重运行各个模块,节约了使用者的时间,同时也减少了引入人为错误的几率;
(2)编辑流程及查看结果时,均可以对照模块组成的流程图进行查看,使得分析过程和结果的展示更加清晰直观,有助于使用者了解和展示其分析过程,且各个模块结果分别存放,共通的内容采用相同的行列名及展示形式,使用者可以更容易的熟悉各个模块的结果;
(3)分析使用的原始数据、使用的模块及参数、分析结果都保存在同一项目中,使得整个分析过程透明,能够方便的对分析进行溯源,有利于提高分析的可重复性;
(4)本发明中模块间仅传递筛选后的代谢物清单(各模块严格依据“高内聚低耦合”原则设计开发),因此,系统的维护、新模块拓展将会相对容易,能够适应代谢组学分析领域中不断发展的分析需求;
(5)此外,本发明通过浏览器即可访问,Windows、Mac OS、Linux操作系统的用户均可通过网络或在本地使用。
以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解,本发明不受上述实施例的限制,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入本发明要求保护的范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种自组装的代谢组学数据处理系统,其特征在于,它包括:
数据储存装置,用于储存原始数据,原始数据类型包括但不限于:包含样本中各个代谢物水平信息的M×N数据矩阵,包含样本分组、人口学指标及临床指标信息的样本信息表,以及包含代谢物分类信息的代谢信息表;
前处理装置,包括对数据储存装置内的3种原始数据进行异常处理的多种异常处理模块,以及进行标准化处理的多种标准化处理模块,以及对多种异常处理模块和标准化处理模块进行个性化编辑操作的前处理编辑模块,前处理装置运行后得到前处理数据;
统计分析装置,包括多种对代谢物的前处理数据进行筛选的统计分析模块,以及对多种统计分析模块进行个性化编辑的自定义流程模块。
2.根据权利要求1所述一种自组装的代谢组学数据处理系统,其特征在于,所述前处理编辑模块的个性化编辑操作包括但不限于:对各个异常处理模块、标准化处理模块进行选定、参数编辑、运行排序。
3.根据权利要求1所述一种自组装的代谢组学数据处理系统,其特征在于,所述异常处理模块对原始数据进行识别和/或填充异常值。
4.根据权利要求1所述一种自组装的代谢组学数据处理系统,其特征在于,所述标准化处理模块对原始数据进行对数转换标准化操作。
5.根据权利要求1所述一种自组装的代谢组学数据处理系统,其特征在于,所述统计分析模块包括但不限于:组间参数检验、组间非参数检验、PLS-DA分析、OPLS-DA分析、相关性分析、Logistic回归分析、随机森林分析、支持向量机分析、LASSO回归分析。
6.根据权利要求1所述一种自组装的代谢组学数据处理系统,其特征在于,所述自定义流程模块的个性化编辑操作包括但不限于:对各个统计分析模块进行选定、参数编辑、运行排序。
7.根据权利要求1所述一种自组装的代谢组学数据处理系统,其特征在于,所述统计分析装置还包括用于对多种不同统计分析模块的清单数据进行取交集/取并集的整合模块。
CN202110157610.2A 2021-02-04 2021-02-04 一种自组装的代谢组学数据处理系统 Pending CN112967758A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110157610.2A CN112967758A (zh) 2021-02-04 2021-02-04 一种自组装的代谢组学数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110157610.2A CN112967758A (zh) 2021-02-04 2021-02-04 一种自组装的代谢组学数据处理系统

Publications (1)

Publication Number Publication Date
CN112967758A true CN112967758A (zh) 2021-06-15

Family

ID=76274146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110157610.2A Pending CN112967758A (zh) 2021-02-04 2021-02-04 一种自组装的代谢组学数据处理系统

Country Status (1)

Country Link
CN (1) CN112967758A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060151688A1 (en) * 2003-05-29 2006-07-13 Waters Investments Limited System and method for metabonomics directed processing of LC-MS or LC-MS/MS data
US20080091359A1 (en) * 2006-06-21 2008-04-17 Valtion Teknillinen Tutkimuskeskus Normalizing spectroscopy data with multiple internal standards
CN104615903A (zh) * 2015-02-16 2015-05-13 厦门大学 一种模型自适应的nmr代谢组学数据归一化方法
US20160019335A1 (en) * 2013-01-15 2016-01-21 Metabolon, Inc. Method, apparatus and computer program product for metabolomics analysis
CN109061020A (zh) * 2018-09-28 2018-12-21 深圳市绘云生物科技有限公司 一种基于气相/液相色谱质谱平台的数据分析系统
CN109817282A (zh) * 2019-02-25 2019-05-28 上海市第六人民医院 一种代谢物组与微生物组的数据相关分析系统及方法
KR20200046991A (ko) * 2018-10-26 2020-05-07 한국과학기술연구원 바이오마커 동정을 위한 대사체 데이터 자동 분석 장치 및 방법
CN111370067A (zh) * 2020-02-28 2020-07-03 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种面向lc/gc-ms的代谢组学数据质量控制方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060151688A1 (en) * 2003-05-29 2006-07-13 Waters Investments Limited System and method for metabonomics directed processing of LC-MS or LC-MS/MS data
US20080091359A1 (en) * 2006-06-21 2008-04-17 Valtion Teknillinen Tutkimuskeskus Normalizing spectroscopy data with multiple internal standards
US20160019335A1 (en) * 2013-01-15 2016-01-21 Metabolon, Inc. Method, apparatus and computer program product for metabolomics analysis
CN104615903A (zh) * 2015-02-16 2015-05-13 厦门大学 一种模型自适应的nmr代谢组学数据归一化方法
CN109061020A (zh) * 2018-09-28 2018-12-21 深圳市绘云生物科技有限公司 一种基于气相/液相色谱质谱平台的数据分析系统
KR20200046991A (ko) * 2018-10-26 2020-05-07 한국과학기술연구원 바이오마커 동정을 위한 대사체 데이터 자동 분석 장치 및 방법
CN109817282A (zh) * 2019-02-25 2019-05-28 上海市第六人民医院 一种代谢物组与微生物组的数据相关分析系统及方法
CN111370067A (zh) * 2020-02-28 2020-07-03 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种面向lc/gc-ms的代谢组学数据质量控制方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WENXIN JIANG等: "An automated data analysis pipelin for GC-TOF-MS metabonomics studies", JOURNAL OF PROTEOMO REREARCH, pages 5974 - 5981 *
刘月程: "质谱代谢组学数据处理的研究", 工程科技I辑, 31 May 2020 (2020-05-31), pages 014 - 587 *
梁丹丹;李忆涛;郑晓皎;陈天璐;: "代谢组学全功能软件研究进展", 上海交通大学学报(医学版), no. 07, pages 97 - 102 *

Similar Documents

Publication Publication Date Title
US10831648B2 (en) Intermittent failure metrics in technological processes
Brohée et al. Network Analysis Tools: from biological networks to clusters and pathways
CN101739390B (zh) 基于技术设计文档的数据转换
CN105096225A (zh) 辅助疾病诊疗的分析系统、装置及方法
AU2003226053A1 (en) System and method for semantics driven data processing
CN109634847A (zh) 嵌入式产品自动化测试方法和系统
EP3797420A1 (en) Condition specific sample analysis
CN105095623A (zh) 疾病生物标志物的筛选分析方法、平台、服务器及系统
CN114829928A (zh) 用于血液检查评估的自动化色谱图分析
CN114242165B (zh) 信号通路pcr芯片数据分析系统、本地计算机设备及云平台
CN112148952A (zh) 一种任务执行方法、装置、设备及计算机可读存储介质
CN107239662B (zh) 为控制产品分配操作结果的更新参数以及定制参数的方法
CN114185750A (zh) 流程监控方法、装置、设备及存储介质
CN113342692B (zh) 测试用例自动生成方法、装置、电子设备及存储介质
CN114005498A (zh) 临床试验数据逻辑核查方法和装置、设备、存储介质
CN102144221A (zh) 用于自动化测试的紧凑架构
Guzzi et al. Automatic summarisation and annotation of microarray data
Kim et al. Bioinformatics analysis of single-cell RNA-seq raw data from iPSC-derived neural stem cells
CN112967758A (zh) 一种自组装的代谢组学数据处理系统
CN113903394B (zh) 基于卷积神经网络的代谢分析中不同队列的校准方法及系统
CN114005505B (zh) 病例报告表生成方法、装置、计算机设备和存储介质
Boulesteix WilcoxCV: an R package for fast variable selection in cross-validation
Gaugel et al. Data-driven multi-objective optimization of hydraulic pump test cycles via wrapper feature selection
WO2021232150A1 (en) A multi-channel and agnostic hardware-software interface and database architecture for predictive and prescriptive materials discovery
CN114564532A (zh) 一种基于测绘数据可视化服务平台、系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Lin Jingchao

Inventor after: Zhou Di

Inventor after: Chen Tianlu

Inventor after: Jia Wei

Inventor after: Qin Cong

Inventor before: Jia Wei

Inventor before: Zhou Di

Inventor before: Chen Tianlu

Inventor before: Lin Jingchao