CN112187953B - 一种基于json的基因本体映射系统及方法 - Google Patents
一种基于json的基因本体映射系统及方法 Download PDFInfo
- Publication number
- CN112187953B CN112187953B CN202011090831.4A CN202011090831A CN112187953B CN 112187953 B CN112187953 B CN 112187953B CN 202011090831 A CN202011090831 A CN 202011090831A CN 112187953 B CN112187953 B CN 112187953B
- Authority
- CN
- China
- Prior art keywords
- gene ontology
- json
- data
- metadata
- mapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/214—Database migration support
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/563—Data redirection of data network streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/565—Conversion or adaptation of application format or content
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于JSON的基因本体映射系统及方法,包括基因本体的自动识别与数据抽取,从基因本体到JSON的映射机制及基于JSON的基因本体数据存储。具体步骤为:识别基因本体中的元数据信息,获取基因本体元数据中的细胞组分(cellular component)、分子功能(molecular function)、生物过程(biological process)三个类别以及父子关系(is_a)、部分关系(part_of)和调控关系(regulates)三种关系特征;建立基因本体元数据特征与JSON模型的一一对应映射规则,采用半监督学习方法完成元数据抽取;构建基于JSON的基因本体存储模型,完成从基因本体到JSON的数据迁移。本发明建立了基因本体与JSON的映射模型,解决了基因本体数据无法自动转换成JSON数据的难题,实现了基因本体在异构Web平台间的高效数据交互与充分共享。
Description
技术领域
本发明涉及数据迁移与本体映射技术,特别涉及一种基于JSON的基因本体映射系统及方法。
背景技术
21世纪人类基因组计划完成之后,以美国为代表的世界主要发达国家纷纷启动了大量生命科学基础研究计划驱动了各种基因组学、疾病等相关生物数据库的爆炸式增长。由于各生物数据库的数据描述方法有一定差异,存在着大量的语义异构信息。为了充分利用这些生物数据库包含的知识,学术界和工业界广泛使用生物学本体来整合异构生物知识。作为一种广泛使用的生物学本体,基因本体主要用于描述基因和基因产物的属性,如细胞组分、分子功能、生物过程以及父子关系、部分关系和调控关系等。
随着Web技术的不断发展,越来越多的生物学家通过Web服务来管理和利用基因本体知识。在当前网页端和移动终端普及的情况下,迫切需要支持跨平台的高效数据交互方式以便网页端和移动端快速获取基因本体信息。作为轻量级数据交换的首选,JSON无需在客户端封装其他应用程序即可完成数据加载和解析,具有高效跨平台数据传输以及客户端和服务器端快速响应处理的特点。为了实现基因本体在异构Web平台间的高效数据交互与充分共享,需要研发基因本体与JSON的映射方法与系统,提供从基因本体到JSON的自动转换技术解决方案。
发明内容
针对缺乏有效的映射机制所造成的基因本体在异构Web平台间数据交互与共享的瓶颈问题,本发明提供了一种基于JSON的基因本体映射系统及方法。
本发明所采用方法的技术方案是:
(1)解析所述基因本体数据表示格式(Open Biomedical Ontologies,OBO格式),识别基因本体OBO格式版本(format-version)、对象类标识号(id)、名称(name)、命名空间(namespace)等元数据信息,获取基因本体元数据类别及关系特征;
(2)以基因本体术语(term)对象为划分单元,建立基因本体术语与JSON对象数组之间以及基因本体对象tag-value对与JSON对象key-value对之间的映射关系,采用半监督学习方法抽取上述元数据;
(3)将基因本体数据转换存储到JSON文件中,完成从基因本体到JSON的数据迁移。
所述系统包括以下功能模块:
(1)数据预处理模块,用于加载获取的基因本体OBO数据;
(2)数据抽取模块,用于使用半监督学习方法抽取基因本体格式版本、对象类标识号、名称、命名空间等元数据;
(3)数据转换模块,用于通过基因本体与JSON映射模型将上一步抽取获得的基因本体元数据转换成为JSON数据;
(4)数据存储模块,用于存储上一步获得的JSON迁移数据;
(5)可视化模块,用于提供映射规则筛选和管理、数据统计分析以及上述所有功能模块的可视化操作界面。
本发明的有益效果是:应用基于JSON的基因本体映射系统及方法,服务器端和客户端无需其他应用程序的支持即可加载及解析基因本体信息,减少了基因本体Web应用程序对系统资源的占用率,加快了其在服务器端和客户端的响应速度,提高了基因本体在不同Web平台间的数据传输效率,解决了基因本体与JSON的自动转换难题,提供了基因本体在异构Web平台间的高效数据交互与充分共享的解决方案。
附图说明
图 1 为本发明从基因本体到JSON的映射转换过程图;
图 2 为本发明基于JSON的基因本体映射系统结构示意图。
具体实施方式
下面结合附图对本发明进一步说明。
如图1所示,基于JSON的基因本体映射方法可按如下过程实施:
(1)基因本体抽取:获取基因本体OBO数据,基因本体术语对象为解析单元,逐层抽取基因本体层次关系、类别特征和元数据-属性值信息,层次关系包含基因本体中的父子关系、部分关系和调控关系三种关系,类别特征包含基因本体中的细胞组分、分子功能、生物过程三个类别,元数据-属性值信息包含基因本体中的tag-value对信息。
(2)基因本体映射:推理生成从基因本体到JSON的映射规则,包括:将基因本体术语映射为JSON术语对象数组、基因本体层次关系映射为JSON关系对象数组、基因本体类别特征映射成为JSON类别对象数组、基因本体tag-value对映射为与JSON对象key-value对等。
(3)生成JSON实例:将逐层抽取的基因本体数据依据映射规则迁移到JSON存储模型,生成基因本体的JSON实例,完成基因本体到JSON的数据转换,直至所有基因本体数据迁移完毕。
如图2所示,基于JSON的基因本体映射系统由基因本体数据预处理、数据抽取、数据转换、数据存储、可视化五块核心组成,操作终端包括客户网页端和移动终端。具体实施方式如下:
(1)通过操作终端,用户将基因本体通过网络上传至服务器端进行管理。
(2)数据预处理模块接收操作终端处理请求,初始化服务器端基因本体对象,加载基因本体数据,识别基因本体多粒度元数据信息。
(3)数据抽取模块将结合半监督学习方法逐层抽取基因本体层次关系、类别特征和元数据-属性值等元数据信息。
(4)数据转换模块将根据映射规则来把抽取获得的基因本体数据对象映射为JSON数据对象。
(5)数据存储模块将存储用户上传的基因本体数据对象和转换后产生的JSON数据对象。
(6)可视化模块将通过客户网页端和移动终端浏览器提供映射规则筛选和管理、数据统计分析、结果展示以及用户显示操作界面。
Claims (2)
1.一种基于JSON的基因本体映射方法,其特征在于所述方法包括:
(a)解析基因本体数据表示格式(Open Biomedical Ontologies,OBO格式),识别基因本体OBO格式版本(format-version)、对象类标识号(id)、名称(name)、命名空间(namespace)等元数据信息,获取基因本体元数据类别及关系特征,逐层抽取基因本体层次关系、类别特征和元数据-属性值信息,层次关系包含基因本体中的父子关系、部分关系和调控关系三种关系,类别特征包含基因本体中的细胞组分、分子功能、生物过程三个类别,元数据-属性值信息包含基因本体中的tag-value对信息;(b)以基因本体术语(term)对象为划分单元,建立基因本体术语与JSON对象数组之间以及基因本体对象tag-value对与JSON对象key-value对之间的映射关系,采用半监督学习方法抽取上述元数据,(c)将基因本体数据转换存储到JSON文件中,完成从基因本体到JSON的数据迁移。
2.如权利要求1所述的一种基于JSON的基因本体映射方法,其特征在于:使用基于JSON的基因本体映射系统,所述系统包括:(a)数据预处理模块,用于获取加载的原始基因本体数据;(b)数据抽取模块,用于使用半监督学习方法抽取基因本体元数据;(c)数据转换模块,用于通过基因本体与JSON映射模型将上一步抽取获得的基因本体元数据转换成为JSON数据;(d)数据存储模块,用于存储上一步获得的JSON迁移数据;(e)可视化模块,用于提供映射规则筛选和管理、数据统计分析以及上述所有功能模块的可视化操作界面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011090831.4A CN112187953B (zh) | 2020-10-13 | 2020-10-13 | 一种基于json的基因本体映射系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011090831.4A CN112187953B (zh) | 2020-10-13 | 2020-10-13 | 一种基于json的基因本体映射系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112187953A CN112187953A (zh) | 2021-01-05 |
CN112187953B true CN112187953B (zh) | 2022-05-03 |
Family
ID=73951107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011090831.4A Active CN112187953B (zh) | 2020-10-13 | 2020-10-13 | 一种基于json的基因本体映射系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112187953B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480468A (zh) * | 2017-07-06 | 2017-12-15 | 北京荣之联科技股份有限公司 | 基因样本分析方法及电子设备 |
CN110400164A (zh) * | 2019-05-13 | 2019-11-01 | 腾讯科技(北京)有限公司 | 数据确定方法和装置、存储介质及电子装置 |
CN110532492A (zh) * | 2019-08-27 | 2019-12-03 | 东北大学 | 一种论坛数据管理分类系统及方法 |
CN110618983A (zh) * | 2019-08-15 | 2019-12-27 | 复旦大学 | 基于json文档结构的工业大数据多维分析与可视化方法 |
CN111125070A (zh) * | 2019-11-19 | 2020-05-08 | 华迪计算机集团有限公司 | 一种数据交换方法及平台 |
CN111556141A (zh) * | 2020-04-26 | 2020-08-18 | 重庆市勘测院 | 基于Json数据片的智能网关数据采集系统及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2860322C (en) * | 2011-12-23 | 2017-06-27 | Amiato, Inc. | Scalable analysis platform for semi-structured data |
US9639631B2 (en) * | 2013-02-27 | 2017-05-02 | Cellco Partnership | Converting XML to JSON with configurable output |
-
2020
- 2020-10-13 CN CN202011090831.4A patent/CN112187953B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480468A (zh) * | 2017-07-06 | 2017-12-15 | 北京荣之联科技股份有限公司 | 基因样本分析方法及电子设备 |
CN110400164A (zh) * | 2019-05-13 | 2019-11-01 | 腾讯科技(北京)有限公司 | 数据确定方法和装置、存储介质及电子装置 |
CN110618983A (zh) * | 2019-08-15 | 2019-12-27 | 复旦大学 | 基于json文档结构的工业大数据多维分析与可视化方法 |
CN110532492A (zh) * | 2019-08-27 | 2019-12-03 | 东北大学 | 一种论坛数据管理分类系统及方法 |
CN111125070A (zh) * | 2019-11-19 | 2020-05-08 | 华迪计算机集团有限公司 | 一种数据交换方法及平台 |
CN111556141A (zh) * | 2020-04-26 | 2020-08-18 | 重庆市勘测院 | 基于Json数据片的智能网关数据采集系统及方法 |
Non-Patent Citations (2)
Title |
---|
"脑卒中云平台数据交互与存储研究";刘静;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20160731;文献第24-26、44-48页 * |
刘静."脑卒中云平台数据交互与存储研究".《中国优秀硕士学位论文全文数据库 医药卫生科技辑》.2016, * |
Also Published As
Publication number | Publication date |
---|---|
CN112187953A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Radanliev et al. | Digital twins: artificial intelligence and the IoT cyber-physical systems in Industry 4.0 | |
CN111444236B (zh) | 一种基于大数据的移动终端用户画像构建方法及系统 | |
US20210150372A1 (en) | Training method and system for decision tree model, storage medium, and prediction method | |
CN109033387B (zh) | 一种融合多源数据的物联网搜索系统、方法及存储介质 | |
CN111507768B (zh) | 一种潜在用户的确定方法及相关装置 | |
CN110032635B (zh) | 一种基于深度特征融合神经网络的问题对匹配方法和装置 | |
CN111562972A (zh) | 一种面向群智感知的泛在操作系统 | |
CN112000636A (zh) | 基于Flink流式处理的用户行为统计分析方法 | |
CN106951558B (zh) | 一种基于深度搜索的税务智能咨询平台的数据处理方法 | |
CN112307762B (zh) | 搜索结果的排序方法及装置、存储介质、电子装置 | |
CN109918184A (zh) | 图片处理系统、方法及相关装置和设备 | |
CN114360639A (zh) | 基于人工智能的药物靶点作用关系确定方法及装置 | |
CN115169810A (zh) | 一种面向电网调控的人工智能系统构建方法及装置 | |
CN111241301A (zh) | 一种面向知识图谱表示学习的分布式框架构建方法 | |
CN113254782A (zh) | 问答社区专家推荐方法及系统 | |
CN115101142A (zh) | 一种药物-靶点交互作用预测方法、系统及终端设备 | |
Cunha et al. | Context-aware execution migration tool for data science Jupyter Notebooks on hybrid clouds | |
CN112187953B (zh) | 一种基于json的基因本体映射系统及方法 | |
US10853429B2 (en) | Identifying domain-specific accounts | |
WO2021120177A1 (zh) | 编译神经网络模型的方法和装置 | |
CN115131052A (zh) | 一种数据处理方法、计算机设备和存储介质 | |
CN111931034A (zh) | 数据搜索方法、装置、设备及存储介质 | |
CN112052386A (zh) | 信息推荐方法、装置和存储介质 | |
CN110942139A (zh) | 深度学习神经网络部署系统及其方法 | |
Klipa et al. | Big data and artificial intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |