CN114627968A - 一种多模态组学数据管理系统 - Google Patents

一种多模态组学数据管理系统 Download PDF

Info

Publication number
CN114627968A
CN114627968A CN202210271132.2A CN202210271132A CN114627968A CN 114627968 A CN114627968 A CN 114627968A CN 202210271132 A CN202210271132 A CN 202210271132A CN 114627968 A CN114627968 A CN 114627968A
Authority
CN
China
Prior art keywords
data
metadata
module
analysis
omics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210271132.2A
Other languages
English (en)
Other versions
CN114627968B (zh
Inventor
辜永红
应志野
陈一龙
于浩澎
赵顺存
李斌杰
张凯丽
任沛
成孝禹
葛平
周梦琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Saile Gene Technology Beijing Co ltd
Huawei Technologies Co Ltd
West China Hospital of Sichuan University
Original Assignee
Saile Gene Technology Beijing Co ltd
Huawei Technologies Co Ltd
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Saile Gene Technology Beijing Co ltd, Huawei Technologies Co Ltd, West China Hospital of Sichuan University filed Critical Saile Gene Technology Beijing Co ltd
Priority to CN202210271132.2A priority Critical patent/CN114627968B/zh
Publication of CN114627968A publication Critical patent/CN114627968A/zh
Application granted granted Critical
Publication of CN114627968B publication Critical patent/CN114627968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于组学研究技术领域,具体涉及一种多模态组学数据管理系统。本发明的系统包括:采集模块、数据存储模块、数据分析模块和应用系统,其中,所述数据采集模块用于采集业务系统数据并导入到数据存储模块,设置或更新用户元数据信息并将元数据信息保存至数据存储模块;所述数据存储用于存储数据和元数据信息,提供元数据检索能力;所述数据分析模块用于提供数据分析功能。本发明基于多组学数据的海量性,提出了基于多组学数据特征和元数据标签的数据自动识别技术,具有很好的应用前景。

Description

一种多模态组学数据管理系统
技术领域
本发明属于组学研究技术领域,具体涉及一种多模态组学数据管理系统。
背景技术
组学研究向定量化,高通量的发展, 成为人们发现生命化学物质基础和深入了解其分子机制的新方向。通过对多模态组学数据的整合分析,有利于系统性地研究临床发病机理、确认疾病靶点,发现生物标志物与进行疾病早期诊断,从而对个体化治疗和用药指导发挥重要作用。
多组学方法通过将基因、mRNA、调控因子、蛋白、代谢等不同层面之间信息进行整合,构建基因调控网络,深层次理解各个分子之间的调控及因果关系。通量组学方法在生物样品分析中的使用,每天都生成万亿到千兆字节大小的数据文件,如何对这些数据进行高效采集、处理和分析是多组学数据研究的关键技术。
多组学数据分析流程包括文库制备(样本上机+数据下机)、生信分析(测序分析+报告解读)、分析后解读(报告交付+归档分发)。文件的元数据包括系统元数据(例如文件大小、文件修改时间等)和用户元数据(例如文件的扩展属性xAttr,自定义标签等)。如何设置统一的管理标签,支持用户在海量数据及复杂查询条件下快速识别符合条件的文件特征是用户高效管理数据的关键技术。然而,现有测序平台、组学分析、数据归档等多是独立系统,数据采集、数据分析、数据归档等流程相对割裂,各流程数据通常是进行人工管理及人工比对,无法有效识别垃圾数据和冗余数据等。
发明内容
针对现有技术的缺陷,本发明提供一种多模态组学数据管理系统,目的在于建立一种对多组学数据进行统一管理的系统,提出基于多组学数据特征和元数据标签的数据自动识别技术,实现对多组学元数据的快速检索、分析等功能。
一种多模态组学数据管理系统,包括:数据采集模块、数据存储模块、数据分析模块和应用系统,
其中,所述数据采集模块用于采集业务系统数据并导入到数据存储模块,设置或更新用户元数据信息并将元数据信息保存至数据存储模块;
所述数据存储用于存储数据和元数据信息,提供元数据检索能力;
所述数据分析模块用于提供数据分析功能。
优选的,所述数据采集模块的功能模块包括测序仪下机数据、外送测序数据导入和其他系统数据导入。
优选的,所述数据存储模块支持如下数据访问协议中的至少一种:NFS、CIFS、HDFS、S3或POSIX。
优选的,所述数据存储模块包括:
数据IO模块,用于前台业务IO和数据的处理
元数据管理模块,用于处理元数据变更信息并将设置或更新元数据持久化到存储资源池池;
元数据检索模块用于提供元数据检索和分析能力,用于查询符合条件的文件或对象列表。
优选的,所述数据分析模块用于提供基因比对、基因测序HPC工作流、大数据分析和AI分析。
优选的,所述元数据包括:姓氏、家族关系、样本信息和变异点位。
多组学数据具有海量性,因而其数据管理具有很大的难度。本发明通过元数据标签技术,实现数据采集、分析、归档等环节数据资产全生命周期可视化管理,通过元数据检索和数据分析技术,实现快速数据查询和分类分析及自动识别,适用于众多基于多组学数据的应用,例如,家族遗传病诊断等。因此,本发明具有很好的应用前景。
显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
图1为本发明实施例1的结构示意图。
具体实施方式
需要特别说明的是,实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法,以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。
实施例1 多模态组学数据管理系统
本实施例的多模态组学数据管理系统如图1所示,包括:数据采集模块、数据存储模块、数据分析模块和应用系统。
所述数据采集模块用于采集多模态组学数据,并将其写入数据存储模块。所述数据存储模块基于元数据标签,对元数据和数据进行存储、管理,并提供检索和分析功能。所述数据分析模块用于基因比对、变异注释等基因测序HPC工作流和大数据、AI分析等,所述应用系统通过对存储系统中的元数据进行查询、数据挖掘和数据识别等,从而满足多模态组学数据的实际应用需求。
其中,所述数据采集模块用于采集基因组学或其他组学数据,设置或更新用户元数据信息(例如姓氏、家族关系等),将数据通过数据IO模块(或元数据通过元数据管理模块)写入数据存储模块。
所述本地存储支持如下数据访问协议中的至少一种:NFS、CIFS、HDFS、S3或POSIX。所述数据存储模块包括:
数据IO模块,用于前台业务IO和数据的处理
元数据管理模块,用于处理元数据变更信息并将设置或更新元数据持久化到存储资源池池;
元数据检索模块用于提供元数据检索和分析能力,用于查询符合条件的文件或对象列表。其接到用户查询请求后,将请求发送给存储系统后台,存储系统将查询到的信息汇总并返回,支持用户在海量数据及复杂查询条件下,快速查询符合条件的文件特性,其核心价值在于辅助用户高效管理其数据。
数据分析模块包括基因测序HPC工作流和大数据、AI分析等,因存储系统支持NFS、CIFS、HDFS、S3、POSIX多种协议互通,各系统共享一份元数据,因此支持多种协议的元数据检索和分析。
应用系统包括根据实际数据分析需要开发的上层应用,例如基因测序智能解读、数据挖掘平台、数据全生命周期管理、数据治理、数据归档等。其根据实际业务定制化或者选择现有的元数据分析策略,利用存储系统元数据索引等能力进行数据挖掘和数据自动识别,如家系遗传病分析,特定病种,相同数据源关联分析,数据溯源和血缘分析等。上层应用根据存储提供的元数据接口进行相关数据集查询,相关关联关系和查询策略可在用户界面自定义。
利用本实施例的系统,可以实现数据生命周期管理、数据治理、基因测序智能解读和数据归档等具体的任务。
数据生命周期管理实现逻辑为:上层应用基于基因测序业务流程pipeline在数据采集、处理、存储、应用、消亡等不同阶段调用存储系统元数据接口对同一标识或ID的数据设置元数据标签并基于标签判断是否是相同数据或相关性数据,其中关联关系可在应用界面自定义。由此可以实现对不同测序平台下基因组、转录组、蛋白组等多组学的测序原始数据、分析解读结果数据及相关样本信息等元数据进行集中管理、展示和各类数据的查询。
数据治理可实现以下3种功能:
1)业务属性数据目录:基于元数据标签进行业务层面数据归纳分类;
2)数据血缘:基于元数据标签实现数据全流程处理中数据追踪和审计;
3)数据领域化治理:自动识别具有业务相关性的元数据标签,基于识别的元数据标签进行业务视图汇总。
基因测序智能解读则可以基于元数据标签功能完善家系解读,根据家系成员关系图进行复杂家系分析,提高家系遗传病分析的效率和准确性,同时通过数据挖掘、深度学习算法等技术提炼基因突变与疾病间的强关联关系,提升解读准确性。
数据归档则可以通过基于元数据标签通过数据生命周期管理进行无效数据自动识别和冗余数据自动删除,有效解压存储使用空间。
通过上述实施例可以看到,本发明针对多组学数据的海量性的问题,通过元数据标签技术,实现数据采集、分析、归档等环节数据资产全生命周期可视化管理,通过元数据检索和数据分析技术,实现快速数据查询和分类分析及自动识别,便于进行后端的应用分析,具有很好的应用前景。

Claims (6)

1.一种多模态组学数据管理系统,其特征在于,包括:数据采集模块、数据存储模块、数据分析模块和应用系统,
其中,所述数据采集模块用于采集业务系统数据并导入到数据存储模块,设置或更新用户元数据信息,将元数据信息保存至数据存储模块;
所述数据存储用于存储数据和元数据信息,提供元数据检索能力;
所述数据分析模块用于提供数据分析功能。
2.按照权利要求1所述的多模态组学数据管理系统,其特征在于:所述数据采集模块的功能模块包括测序仪下机数据、外送测序数据导入和其他系统数据导入。
3.按照权利要求1所述的多模态组学数据管理系统,其特征在于:所述数据存储模块支持如下数据访问协议中的至少一种:NFS、CIFS、HDFS、S3或POSIX。
4.按照权利要求1所述的多模态组学数据管理系统,其特征在于:所述数据存储模块包括:
数据IO模块,用于前台业务IO和数据的处理
元数据管理模块,用于处理元数据变更信息并将设置或更新元数据持久化到存储资源池池;
元数据检索模块用于提供元数据检索和分析能力,用于查询符合条件的文件或对象列表。
5.按照权利要求1所述的多模态组学数据管理系统,其特征在于:所述数据分析模块用于提供基因比对、基因测序HPC工作流、大数据分析和AI分析。
6.按照权利要求1所述的多模态组学数据管理系统,其特征在于:所述元数据包括:姓氏、家族关系、样本信息和变异点位。
CN202210271132.2A 2022-03-18 2022-03-18 一种多模态组学数据管理系统 Active CN114627968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210271132.2A CN114627968B (zh) 2022-03-18 2022-03-18 一种多模态组学数据管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210271132.2A CN114627968B (zh) 2022-03-18 2022-03-18 一种多模态组学数据管理系统

Publications (2)

Publication Number Publication Date
CN114627968A true CN114627968A (zh) 2022-06-14
CN114627968B CN114627968B (zh) 2023-10-20

Family

ID=81902733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210271132.2A Active CN114627968B (zh) 2022-03-18 2022-03-18 一种多模态组学数据管理系统

Country Status (1)

Country Link
CN (1) CN114627968B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118072828A (zh) * 2024-04-22 2024-05-24 北京百奥利盟软件技术有限公司 一种多组学实验过程数据的管理方法、系统和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292517A (zh) * 2017-06-20 2017-10-24 科技谷(厦门)信息技术有限公司 基于大数据分析的民航安保信息服务系统
CN107506615A (zh) * 2017-08-21 2017-12-22 为朔医学数据科技(北京)有限公司 一种基因组学数据管理方法、服务器和系统
CN108701254A (zh) * 2016-08-22 2018-10-23 甲骨文国际公司 用于动态族系跟踪、重建和生命周期管理的系统和方法
CN109903816A (zh) * 2019-01-29 2019-06-18 郑州金域临床检验中心有限公司 一种药物基因组学分析系统
CN109920484A (zh) * 2019-02-14 2019-06-21 北京安智因生物技术有限公司 一种测序仪用的基因检测数据的分析方法及系统
WO2019175570A1 (en) * 2018-03-15 2019-09-19 Arm Ltd Systems, devices, and/or processes for omic and/or behavioral content processing
CN111199777A (zh) * 2019-12-24 2020-05-26 西安交通大学 面向生物大数据的流式传输与变异实时挖掘系统及方法
CN113138973A (zh) * 2021-04-20 2021-07-20 建信金融科技有限责任公司 数据管理系统及工作方法
CN113946324A (zh) * 2021-09-10 2022-01-18 上海健康医学院 一种展示高通量测序数据结果的交互式可视化报告系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701254A (zh) * 2016-08-22 2018-10-23 甲骨文国际公司 用于动态族系跟踪、重建和生命周期管理的系统和方法
CN107292517A (zh) * 2017-06-20 2017-10-24 科技谷(厦门)信息技术有限公司 基于大数据分析的民航安保信息服务系统
CN107506615A (zh) * 2017-08-21 2017-12-22 为朔医学数据科技(北京)有限公司 一种基因组学数据管理方法、服务器和系统
WO2019175570A1 (en) * 2018-03-15 2019-09-19 Arm Ltd Systems, devices, and/or processes for omic and/or behavioral content processing
CN109903816A (zh) * 2019-01-29 2019-06-18 郑州金域临床检验中心有限公司 一种药物基因组学分析系统
CN109920484A (zh) * 2019-02-14 2019-06-21 北京安智因生物技术有限公司 一种测序仪用的基因检测数据的分析方法及系统
CN111199777A (zh) * 2019-12-24 2020-05-26 西安交通大学 面向生物大数据的流式传输与变异实时挖掘系统及方法
CN113138973A (zh) * 2021-04-20 2021-07-20 建信金融科技有限责任公司 数据管理系统及工作方法
CN113946324A (zh) * 2021-09-10 2022-01-18 上海健康医学院 一种展示高通量测序数据结果的交互式可视化报告系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DONG-GE GUO等: "CRISPR-based genomic loci labeling revealed ordered spatial organization of chromatin in living diploid human cells", 《BIOCHIMICA ET BIOPHYSICA ACTA (BBA) - MOLECULAR CELL RESEARCH》, pages 1 - 11 *
吕格: "神经元蜡样质脂褐质沉积症CLN5基因突变的研究及相关文献复习", 《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》, no. 01, pages 070 - 18 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118072828A (zh) * 2024-04-22 2024-05-24 北京百奥利盟软件技术有限公司 一种多组学实验过程数据的管理方法、系统和存储介质

Also Published As

Publication number Publication date
CN114627968B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
US10783168B2 (en) Systems and methods for probabilistic data classification
Hu et al. Building a livestock genetic and genomic information knowledgebase through integrative developments of Animal QTLdb and CorrDB
Silvester et al. The European nucleotide archive in 2017
Terzo et al. Data as a service (DaaS) for sharing and processing of large data collections in the cloud
Lam et al. Compressed indexing and local alignment of DNA
Saez-Rodriguez et al. Flexible informatics for linking experimental data to mathematical models via DataRail
US20120023145A1 (en) Policy-based computer file management based on content-based analytics
CN112100219B (zh) 基于数据库查询处理的报表生成方法、装置、设备和介质
KR20100015368A (ko) 데이터 저장 및 관리 방법
US7756823B2 (en) Dynamic reference repository
Adamczyk et al. RNAsolo: a repository of cleaned PDB-derived RNA 3D structures
Ma et al. Supporting tool suite for production proteomics
Neely et al. MetaSanity: an integrated microbial genome evaluation and annotation pipeline
CN114627968B (zh) 一种多模态组学数据管理系统
US9767222B2 (en) Information sets for data management
Ogasawara et al. BodyMap-Xs: anatomical breakdown of 17 million animal ESTs for cross-species comparison of gene expression
Puntambekar et al. Cell-level metadata are indispensable for documenting single-cell sequencing datasets
US8346739B1 (en) Segmenting documents among multiple data repositories
McGarry et al. Recent trends in knowledge and data integration for the life sciences
Gonzalez-Couto et al. The life sciences global image database (GID)
US20100100456A1 (en) Cell ontogeny information systems and methods of using the same
Howe et al. Advancing Declarative Query in the Long Tail of Science.
Hsu et al. Reconfigurable Web wrapper agents for biological information integration
Karmirantzou et al. A Web-based classification system of DNA-binding protein families
Gohn et al. DICOM data storage and retrieval with MongoDB

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant