CN114627968A - 一种多模态组学数据管理系统 - Google Patents
一种多模态组学数据管理系统 Download PDFInfo
- Publication number
- CN114627968A CN114627968A CN202210271132.2A CN202210271132A CN114627968A CN 114627968 A CN114627968 A CN 114627968A CN 202210271132 A CN202210271132 A CN 202210271132A CN 114627968 A CN114627968 A CN 114627968A
- Authority
- CN
- China
- Prior art keywords
- data
- metadata
- module
- analysis
- omics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013523 data management Methods 0.000 title claims abstract description 17
- 238000007405 data analysis Methods 0.000 claims abstract description 21
- 238000013500 data storage Methods 0.000 claims abstract description 18
- 238000004458 analytical method Methods 0.000 claims description 24
- 238000003860 storage Methods 0.000 claims description 15
- 108090000623 proteins and genes Proteins 0.000 claims description 14
- 238000012163 sequencing technique Methods 0.000 claims description 14
- 238000007726 management method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 8
- 230000008676 import Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000002085 persistent effect Effects 0.000 claims description 3
- 230000035772 mutation Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000011160 research Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 5
- 238000000034 method Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 238000007418 data mining Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 208000026350 Inborn Genetic disease Diseases 0.000 description 3
- 208000016361 genetic disease Diseases 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000010224 classification analysis Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 238000011337 individualized treatment Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 102000037983 regulatory factors Human genes 0.000 description 1
- 108091008025 regulatory factors Proteins 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于组学研究技术领域,具体涉及一种多模态组学数据管理系统。本发明的系统包括:采集模块、数据存储模块、数据分析模块和应用系统,其中,所述数据采集模块用于采集业务系统数据并导入到数据存储模块,设置或更新用户元数据信息并将元数据信息保存至数据存储模块;所述数据存储用于存储数据和元数据信息,提供元数据检索能力;所述数据分析模块用于提供数据分析功能。本发明基于多组学数据的海量性,提出了基于多组学数据特征和元数据标签的数据自动识别技术,具有很好的应用前景。
Description
技术领域
本发明属于组学研究技术领域,具体涉及一种多模态组学数据管理系统。
背景技术
组学研究向定量化,高通量的发展, 成为人们发现生命化学物质基础和深入了解其分子机制的新方向。通过对多模态组学数据的整合分析,有利于系统性地研究临床发病机理、确认疾病靶点,发现生物标志物与进行疾病早期诊断,从而对个体化治疗和用药指导发挥重要作用。
多组学方法通过将基因、mRNA、调控因子、蛋白、代谢等不同层面之间信息进行整合,构建基因调控网络,深层次理解各个分子之间的调控及因果关系。通量组学方法在生物样品分析中的使用,每天都生成万亿到千兆字节大小的数据文件,如何对这些数据进行高效采集、处理和分析是多组学数据研究的关键技术。
多组学数据分析流程包括文库制备(样本上机+数据下机)、生信分析(测序分析+报告解读)、分析后解读(报告交付+归档分发)。文件的元数据包括系统元数据(例如文件大小、文件修改时间等)和用户元数据(例如文件的扩展属性xAttr,自定义标签等)。如何设置统一的管理标签,支持用户在海量数据及复杂查询条件下快速识别符合条件的文件特征是用户高效管理数据的关键技术。然而,现有测序平台、组学分析、数据归档等多是独立系统,数据采集、数据分析、数据归档等流程相对割裂,各流程数据通常是进行人工管理及人工比对,无法有效识别垃圾数据和冗余数据等。
发明内容
针对现有技术的缺陷,本发明提供一种多模态组学数据管理系统,目的在于建立一种对多组学数据进行统一管理的系统,提出基于多组学数据特征和元数据标签的数据自动识别技术,实现对多组学元数据的快速检索、分析等功能。
一种多模态组学数据管理系统,包括:数据采集模块、数据存储模块、数据分析模块和应用系统,
其中,所述数据采集模块用于采集业务系统数据并导入到数据存储模块,设置或更新用户元数据信息并将元数据信息保存至数据存储模块;
所述数据存储用于存储数据和元数据信息,提供元数据检索能力;
所述数据分析模块用于提供数据分析功能。
优选的,所述数据采集模块的功能模块包括测序仪下机数据、外送测序数据导入和其他系统数据导入。
优选的,所述数据存储模块支持如下数据访问协议中的至少一种:NFS、CIFS、HDFS、S3或POSIX。
优选的,所述数据存储模块包括:
数据IO模块,用于前台业务IO和数据的处理
元数据管理模块,用于处理元数据变更信息并将设置或更新元数据持久化到存储资源池池;
元数据检索模块用于提供元数据检索和分析能力,用于查询符合条件的文件或对象列表。
优选的,所述数据分析模块用于提供基因比对、基因测序HPC工作流、大数据分析和AI分析。
优选的,所述元数据包括:姓氏、家族关系、样本信息和变异点位。
多组学数据具有海量性,因而其数据管理具有很大的难度。本发明通过元数据标签技术,实现数据采集、分析、归档等环节数据资产全生命周期可视化管理,通过元数据检索和数据分析技术,实现快速数据查询和分类分析及自动识别,适用于众多基于多组学数据的应用,例如,家族遗传病诊断等。因此,本发明具有很好的应用前景。
显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
图1为本发明实施例1的结构示意图。
具体实施方式
需要特别说明的是,实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法,以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。
实施例1 多模态组学数据管理系统
本实施例的多模态组学数据管理系统如图1所示,包括:数据采集模块、数据存储模块、数据分析模块和应用系统。
所述数据采集模块用于采集多模态组学数据,并将其写入数据存储模块。所述数据存储模块基于元数据标签,对元数据和数据进行存储、管理,并提供检索和分析功能。所述数据分析模块用于基因比对、变异注释等基因测序HPC工作流和大数据、AI分析等,所述应用系统通过对存储系统中的元数据进行查询、数据挖掘和数据识别等,从而满足多模态组学数据的实际应用需求。
其中,所述数据采集模块用于采集基因组学或其他组学数据,设置或更新用户元数据信息(例如姓氏、家族关系等),将数据通过数据IO模块(或元数据通过元数据管理模块)写入数据存储模块。
所述本地存储支持如下数据访问协议中的至少一种:NFS、CIFS、HDFS、S3或POSIX。所述数据存储模块包括:
数据IO模块,用于前台业务IO和数据的处理
元数据管理模块,用于处理元数据变更信息并将设置或更新元数据持久化到存储资源池池;
元数据检索模块用于提供元数据检索和分析能力,用于查询符合条件的文件或对象列表。其接到用户查询请求后,将请求发送给存储系统后台,存储系统将查询到的信息汇总并返回,支持用户在海量数据及复杂查询条件下,快速查询符合条件的文件特性,其核心价值在于辅助用户高效管理其数据。
数据分析模块包括基因测序HPC工作流和大数据、AI分析等,因存储系统支持NFS、CIFS、HDFS、S3、POSIX多种协议互通,各系统共享一份元数据,因此支持多种协议的元数据检索和分析。
应用系统包括根据实际数据分析需要开发的上层应用,例如基因测序智能解读、数据挖掘平台、数据全生命周期管理、数据治理、数据归档等。其根据实际业务定制化或者选择现有的元数据分析策略,利用存储系统元数据索引等能力进行数据挖掘和数据自动识别,如家系遗传病分析,特定病种,相同数据源关联分析,数据溯源和血缘分析等。上层应用根据存储提供的元数据接口进行相关数据集查询,相关关联关系和查询策略可在用户界面自定义。
利用本实施例的系统,可以实现数据生命周期管理、数据治理、基因测序智能解读和数据归档等具体的任务。
数据生命周期管理实现逻辑为:上层应用基于基因测序业务流程pipeline在数据采集、处理、存储、应用、消亡等不同阶段调用存储系统元数据接口对同一标识或ID的数据设置元数据标签并基于标签判断是否是相同数据或相关性数据,其中关联关系可在应用界面自定义。由此可以实现对不同测序平台下基因组、转录组、蛋白组等多组学的测序原始数据、分析解读结果数据及相关样本信息等元数据进行集中管理、展示和各类数据的查询。
数据治理可实现以下3种功能:
1)业务属性数据目录:基于元数据标签进行业务层面数据归纳分类;
2)数据血缘:基于元数据标签实现数据全流程处理中数据追踪和审计;
3)数据领域化治理:自动识别具有业务相关性的元数据标签,基于识别的元数据标签进行业务视图汇总。
基因测序智能解读则可以基于元数据标签功能完善家系解读,根据家系成员关系图进行复杂家系分析,提高家系遗传病分析的效率和准确性,同时通过数据挖掘、深度学习算法等技术提炼基因突变与疾病间的强关联关系,提升解读准确性。
数据归档则可以通过基于元数据标签通过数据生命周期管理进行无效数据自动识别和冗余数据自动删除,有效解压存储使用空间。
通过上述实施例可以看到,本发明针对多组学数据的海量性的问题,通过元数据标签技术,实现数据采集、分析、归档等环节数据资产全生命周期可视化管理,通过元数据检索和数据分析技术,实现快速数据查询和分类分析及自动识别,便于进行后端的应用分析,具有很好的应用前景。
Claims (6)
1.一种多模态组学数据管理系统,其特征在于,包括:数据采集模块、数据存储模块、数据分析模块和应用系统,
其中,所述数据采集模块用于采集业务系统数据并导入到数据存储模块,设置或更新用户元数据信息,将元数据信息保存至数据存储模块;
所述数据存储用于存储数据和元数据信息,提供元数据检索能力;
所述数据分析模块用于提供数据分析功能。
2.按照权利要求1所述的多模态组学数据管理系统,其特征在于:所述数据采集模块的功能模块包括测序仪下机数据、外送测序数据导入和其他系统数据导入。
3.按照权利要求1所述的多模态组学数据管理系统,其特征在于:所述数据存储模块支持如下数据访问协议中的至少一种:NFS、CIFS、HDFS、S3或POSIX。
4.按照权利要求1所述的多模态组学数据管理系统,其特征在于:所述数据存储模块包括:
数据IO模块,用于前台业务IO和数据的处理
元数据管理模块,用于处理元数据变更信息并将设置或更新元数据持久化到存储资源池池;
元数据检索模块用于提供元数据检索和分析能力,用于查询符合条件的文件或对象列表。
5.按照权利要求1所述的多模态组学数据管理系统,其特征在于:所述数据分析模块用于提供基因比对、基因测序HPC工作流、大数据分析和AI分析。
6.按照权利要求1所述的多模态组学数据管理系统,其特征在于:所述元数据包括:姓氏、家族关系、样本信息和变异点位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210271132.2A CN114627968B (zh) | 2022-03-18 | 2022-03-18 | 一种多模态组学数据管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210271132.2A CN114627968B (zh) | 2022-03-18 | 2022-03-18 | 一种多模态组学数据管理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114627968A true CN114627968A (zh) | 2022-06-14 |
CN114627968B CN114627968B (zh) | 2023-10-20 |
Family
ID=81902733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210271132.2A Active CN114627968B (zh) | 2022-03-18 | 2022-03-18 | 一种多模态组学数据管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114627968B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118072828A (zh) * | 2024-04-22 | 2024-05-24 | 北京百奥利盟软件技术有限公司 | 一种多组学实验过程数据的管理方法、系统和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292517A (zh) * | 2017-06-20 | 2017-10-24 | 科技谷(厦门)信息技术有限公司 | 基于大数据分析的民航安保信息服务系统 |
CN107506615A (zh) * | 2017-08-21 | 2017-12-22 | 为朔医学数据科技(北京)有限公司 | 一种基因组学数据管理方法、服务器和系统 |
CN108701254A (zh) * | 2016-08-22 | 2018-10-23 | 甲骨文国际公司 | 用于动态族系跟踪、重建和生命周期管理的系统和方法 |
CN109903816A (zh) * | 2019-01-29 | 2019-06-18 | 郑州金域临床检验中心有限公司 | 一种药物基因组学分析系统 |
CN109920484A (zh) * | 2019-02-14 | 2019-06-21 | 北京安智因生物技术有限公司 | 一种测序仪用的基因检测数据的分析方法及系统 |
WO2019175570A1 (en) * | 2018-03-15 | 2019-09-19 | Arm Ltd | Systems, devices, and/or processes for omic and/or behavioral content processing |
CN111199777A (zh) * | 2019-12-24 | 2020-05-26 | 西安交通大学 | 面向生物大数据的流式传输与变异实时挖掘系统及方法 |
CN113138973A (zh) * | 2021-04-20 | 2021-07-20 | 建信金融科技有限责任公司 | 数据管理系统及工作方法 |
CN113946324A (zh) * | 2021-09-10 | 2022-01-18 | 上海健康医学院 | 一种展示高通量测序数据结果的交互式可视化报告系统 |
-
2022
- 2022-03-18 CN CN202210271132.2A patent/CN114627968B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108701254A (zh) * | 2016-08-22 | 2018-10-23 | 甲骨文国际公司 | 用于动态族系跟踪、重建和生命周期管理的系统和方法 |
CN107292517A (zh) * | 2017-06-20 | 2017-10-24 | 科技谷(厦门)信息技术有限公司 | 基于大数据分析的民航安保信息服务系统 |
CN107506615A (zh) * | 2017-08-21 | 2017-12-22 | 为朔医学数据科技(北京)有限公司 | 一种基因组学数据管理方法、服务器和系统 |
WO2019175570A1 (en) * | 2018-03-15 | 2019-09-19 | Arm Ltd | Systems, devices, and/or processes for omic and/or behavioral content processing |
CN109903816A (zh) * | 2019-01-29 | 2019-06-18 | 郑州金域临床检验中心有限公司 | 一种药物基因组学分析系统 |
CN109920484A (zh) * | 2019-02-14 | 2019-06-21 | 北京安智因生物技术有限公司 | 一种测序仪用的基因检测数据的分析方法及系统 |
CN111199777A (zh) * | 2019-12-24 | 2020-05-26 | 西安交通大学 | 面向生物大数据的流式传输与变异实时挖掘系统及方法 |
CN113138973A (zh) * | 2021-04-20 | 2021-07-20 | 建信金融科技有限责任公司 | 数据管理系统及工作方法 |
CN113946324A (zh) * | 2021-09-10 | 2022-01-18 | 上海健康医学院 | 一种展示高通量测序数据结果的交互式可视化报告系统 |
Non-Patent Citations (2)
Title |
---|
DONG-GE GUO等: "CRISPR-based genomic loci labeling revealed ordered spatial organization of chromatin in living diploid human cells", 《BIOCHIMICA ET BIOPHYSICA ACTA (BBA) - MOLECULAR CELL RESEARCH》, pages 1 - 11 * |
吕格: "神经元蜡样质脂褐质沉积症CLN5基因突变的研究及相关文献复习", 《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》, no. 01, pages 070 - 18 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118072828A (zh) * | 2024-04-22 | 2024-05-24 | 北京百奥利盟软件技术有限公司 | 一种多组学实验过程数据的管理方法、系统和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114627968B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10783168B2 (en) | Systems and methods for probabilistic data classification | |
Hu et al. | Building a livestock genetic and genomic information knowledgebase through integrative developments of Animal QTLdb and CorrDB | |
Silvester et al. | The European nucleotide archive in 2017 | |
Terzo et al. | Data as a service (DaaS) for sharing and processing of large data collections in the cloud | |
Lam et al. | Compressed indexing and local alignment of DNA | |
Saez-Rodriguez et al. | Flexible informatics for linking experimental data to mathematical models via DataRail | |
US20120023145A1 (en) | Policy-based computer file management based on content-based analytics | |
CN112100219B (zh) | 基于数据库查询处理的报表生成方法、装置、设备和介质 | |
KR20100015368A (ko) | 데이터 저장 및 관리 방법 | |
US7756823B2 (en) | Dynamic reference repository | |
Adamczyk et al. | RNAsolo: a repository of cleaned PDB-derived RNA 3D structures | |
Ma et al. | Supporting tool suite for production proteomics | |
Neely et al. | MetaSanity: an integrated microbial genome evaluation and annotation pipeline | |
CN114627968B (zh) | 一种多模态组学数据管理系统 | |
US9767222B2 (en) | Information sets for data management | |
Ogasawara et al. | BodyMap-Xs: anatomical breakdown of 17 million animal ESTs for cross-species comparison of gene expression | |
Puntambekar et al. | Cell-level metadata are indispensable for documenting single-cell sequencing datasets | |
US8346739B1 (en) | Segmenting documents among multiple data repositories | |
McGarry et al. | Recent trends in knowledge and data integration for the life sciences | |
Gonzalez-Couto et al. | The life sciences global image database (GID) | |
US20100100456A1 (en) | Cell ontogeny information systems and methods of using the same | |
Howe et al. | Advancing Declarative Query in the Long Tail of Science. | |
Hsu et al. | Reconfigurable Web wrapper agents for biological information integration | |
Karmirantzou et al. | A Web-based classification system of DNA-binding protein families | |
Gohn et al. | DICOM data storage and retrieval with MongoDB |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |