CN112187953A - 一种基于json的基因本体映射系统及方法 - Google Patents

一种基于json的基因本体映射系统及方法 Download PDF

Info

Publication number
CN112187953A
CN112187953A CN202011090831.4A CN202011090831A CN112187953A CN 112187953 A CN112187953 A CN 112187953A CN 202011090831 A CN202011090831 A CN 202011090831A CN 112187953 A CN112187953 A CN 112187953A
Authority
CN
China
Prior art keywords
gene ontology
json
data
mapping
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011090831.4A
Other languages
English (en)
Other versions
CN112187953B (zh
Inventor
刘健
陈娇
陈萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202011090831.4A priority Critical patent/CN112187953B/zh
Publication of CN112187953A publication Critical patent/CN112187953A/zh
Application granted granted Critical
Publication of CN112187953B publication Critical patent/CN112187953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/563Data redirection of data network streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/565Conversion or adaptation of application format or content

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于JSON的基因本体映射系统及方法,包括基因本体的自动识别与数据抽取,从基因本体到JSON的映射机制及基于JSON的基因本体数据存储。具体步骤为:识别基因本体中的元数据信息,获取基因本体元数据中的细胞组分(cellular component)、分子功能(molecular function)、生物过程(biological process)三个类别以及父子关系(is_a)、部分关系(part_of)和调控关系(regulates)三种关系特征;建立基因本体元数据特征与JSON模型的一一对应映射规则,采用半监督学习方法完成元数据抽取;构建基于JSON的基因本体存储模型,完成从基因本体到JSON的数据迁移。本发明建立了基因本体与JSON的映射模型,解决了基因本体数据无法自动转换成JSON数据的难题,实现了基因本体在异构Web平台间的高效数据交互与充分共享。

Description

一种基于JSON的基因本体映射系统及方法
技术领域
本发明涉及数据迁移与本体映射技术,特别涉及一种基于JSON的基因本体映射系统及方法。
背景技术
21世纪人类基因组计划完成之后,以美国为代表的世界主要发达国家纷纷启动了大量生命科学基础研究计划驱动了各种基因组学、疾病等相关生物数据库的爆炸式增长。由于各生物数据库的数据描述方法有一定差异,存在着大量的语义异构信息。为了充分利用这些生物数据库包含的知识,学术界和工业界广泛使用生物学本体来整合异构生物知识。作为一种广泛使用的生物学本体,基因本体主要用于描述基因和基因产物的属性,如细胞组分、分子功能、生物过程以及父子关系、部分关系和调控关系等。
随着Web技术的不断发展,越来越多的生物学家通过Web服务来管理和利用基因本体知识。在当前网页端和移动终端普及的情况下,迫切需要支持跨平台的高效数据交互方式以便网页端和移动端快速获取基因本体信息。作为轻量级数据交换的首选,JSON无需在客户端封装其他应用程序即可完成数据加载和解析,具有高效跨平台数据传输以及客户端和服务器端快速响应处理的特点。为了实现基因本体在异构Web平台间的高效数据交互与充分共享,需要研发基因本体与JSON的映射方法与系统,提供从基因本体到JSON的自动转换技术解决方案。
发明内容
针对缺乏有效的映射机制所造成的基因本体在异构Web平台间数据交互与共享的瓶颈问题,本发明提供了一种基于JSON的基因本体映射系统及方法。
本发明所采用方法的技术方案是:
(1)解析所述基因本体数据表示格式(Open Biomedical Ontologies,OBO格式),识别基因本体OBO格式版本(format-version)、对象类标识号(id)、名称(name)、命名空间(namespace)等元数据信息,获取基因本体元数据类别及关系特征;
(2)以基因本体术语(term)对象为划分单元,建立基因本体术语与JSON对象数组之间以及基因本体对象tag-value对与JSON对象key-value对之间的映射关系,采用半监督学习方法抽取上述元数据;
(3)将基因本体数据转换存储到JSON文件中,完成从基因本体到JSON的数据迁移。
所述系统包括以下功能模块:
(1)数据预处理模块,用于加载获取的基因本体OBO数据;
(2)数据抽取模块,用于使用半监督学习方法抽取基因本体格式版本、对象类标识号、名称、命名空间等元数据;
(3)数据转换模块,用于通过基因本体与JSON映射模型将上一步抽取获得的基因本体元数据转换成为JSON数据;
(4)数据存储模块,用于存储上一步获得的JSON迁移数据;
(5)可视化模块,用于提供映射规则筛选和管理、数据统计分析以及上述所有功能模块的可视化操作界面。
本发明的有益效果是:应用基于JSON的基因本体映射系统及方法,服务器端和客户端无需其他应用程序的支持即可加载及解析基因本体信息,减少了基因本体Web应用程序对系统资源的占用率,加快了其在服务器端和客户端的响应速度,提高了基因本体在不同Web平台间的数据传输效率,解决了基因本体与JSON的自动转换难题,提供了基因本体在异构Web平台间的高效数据交互与充分共享的解决方案。
附图说明
图 1 为本发明从基因本体到JSON的映射转换过程图;
图 2 为本发明基于JSON的基因本体映射系统结构示意图。
具体实施方式
下面结合附图对本发明进一步说明。
如图1所示,基于JSON的基因本体映射方法可按如下过程实施:
(1)基因本体抽取:获取基因本体OBO数据,基因本体术语对象为解析单元,逐层抽取基因本体层次关系、类别特征和元数据-属性值信息,层次关系包含基因本体中的父子关系、部分关系和调控关系三种关系,类别特征包含基因本体中的细胞组分、分子功能、生物过程三个类别,元数据-属性值信息包含基因本体中的tag-value对信息。
(2)基因本体映射:推理生成从基因本体到JSON的映射规则,包括:将基因本体术语映射为JSON术语对象数组、基因本体层次关系映射为JSON关系对象数组、基因本体类别特征映射成为JSON类别对象数组、基因本体tag-value对映射为与JSON对象key-value对等。
(3)生成JSON实例:将逐层抽取的基因本体数据依据映射规则迁移到JSON存储模型,生成基因本体的JSON实例,完成基因本体到JSON的数据转换,直至所有基因本体数据迁移完毕。
如图2所示,基于JSON的基因本体映射系统由基因本体数据预处理、数据抽取、数据转换、数据存储、可视化五块核心组成,操作终端包括客户网页端和移动终端。具体实施方式如下:
(1)通过操作终端,用户将基因本体通过网络上传至服务器端进行管理。
(2)数据预处理模块接收操作终端处理请求,初始化服务器端基因本体对象,加载基因本体数据,识别基因本体多粒度元数据信息。
(3)数据抽取模块将结合半监督学习方法逐层抽取基因本体层次关系、类别特征和元数据-属性值等元数据信息。
(4)数据转换模块将根据映射规则来把抽取获得的基因本体数据对象映射为JSON数据对象。
(5)数据存储模块将存储用户上传的基因本体数据对象和转换后产生的JSON数据对象。
(6)可视化模块将通过客户网页端和移动终端浏览器提供映射规则筛选和管理、数据统计分析、结果展示以及用户显示操作界面。

Claims (2)

1.一种基于JSON的基因本体映射系统与方法,其特征在于所述方法包括:(a)解析所述基因本体数据表示格式(Open Biomedical Ontologies,OBO格式),识别基因本体OBO格式版本(format-version)、对象类标识号(id)、名称(name)、命名空间(namespace)等元数据信息,获取基因本体元数据类别及关系特征,(b)以基因本体术语(term)对象为划分单元,建立基因本体术语与JSON对象数组之间以及基因本体对象tag-value对与JSON对象key-value对之间的映射关系,采用半监督学习方法抽取上述元数据,(c)将基因本体数据转换存储到JSON文件中,完成从基因本体到JSON的数据迁移。
2.如权利要求1所述的一种基于JSON的基因本体映射系统与方法,其特征在于所述系统包括:(a)数据预处理模块,用于获取加载的原始基因本体数据;(b)数据抽取模块,用于使用半监督学习方法抽取基因本体元数据;(c)数据转换模块,用于通过基因本体与JSON映射模型将上一步抽取获得的基因本体元数据转换成为JSON数据;(d)数据存储模块,用于存储上一步获得的JSON迁移数据;(e)可视化模块,用于提供映射规则筛选和管理、数据统计分析以及上述所有功能模块的可视化操作界面。
CN202011090831.4A 2020-10-13 2020-10-13 一种基于json的基因本体映射系统及方法 Active CN112187953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011090831.4A CN112187953B (zh) 2020-10-13 2020-10-13 一种基于json的基因本体映射系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011090831.4A CN112187953B (zh) 2020-10-13 2020-10-13 一种基于json的基因本体映射系统及方法

Publications (2)

Publication Number Publication Date
CN112187953A true CN112187953A (zh) 2021-01-05
CN112187953B CN112187953B (zh) 2022-05-03

Family

ID=73951107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011090831.4A Active CN112187953B (zh) 2020-10-13 2020-10-13 一种基于json的基因本体映射系统及方法

Country Status (1)

Country Link
CN (1) CN112187953B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130166568A1 (en) * 2011-12-23 2013-06-27 Nou Data Corporation Scalable analysis platform for semi-structured data
US20140244692A1 (en) * 2013-02-27 2014-08-28 Cellco Partnership D/B/A Verizon Wireless Converting xml to json with configurable output
CN107480468A (zh) * 2017-07-06 2017-12-15 北京荣之联科技股份有限公司 基因样本分析方法及电子设备
CN110400164A (zh) * 2019-05-13 2019-11-01 腾讯科技(北京)有限公司 数据确定方法和装置、存储介质及电子装置
CN110532492A (zh) * 2019-08-27 2019-12-03 东北大学 一种论坛数据管理分类系统及方法
CN110618983A (zh) * 2019-08-15 2019-12-27 复旦大学 基于json文档结构的工业大数据多维分析与可视化方法
CN111125070A (zh) * 2019-11-19 2020-05-08 华迪计算机集团有限公司 一种数据交换方法及平台
CN111556141A (zh) * 2020-04-26 2020-08-18 重庆市勘测院 基于Json数据片的智能网关数据采集系统及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130166568A1 (en) * 2011-12-23 2013-06-27 Nou Data Corporation Scalable analysis platform for semi-structured data
US20140244692A1 (en) * 2013-02-27 2014-08-28 Cellco Partnership D/B/A Verizon Wireless Converting xml to json with configurable output
CN107480468A (zh) * 2017-07-06 2017-12-15 北京荣之联科技股份有限公司 基因样本分析方法及电子设备
CN110400164A (zh) * 2019-05-13 2019-11-01 腾讯科技(北京)有限公司 数据确定方法和装置、存储介质及电子装置
CN110618983A (zh) * 2019-08-15 2019-12-27 复旦大学 基于json文档结构的工业大数据多维分析与可视化方法
CN110532492A (zh) * 2019-08-27 2019-12-03 东北大学 一种论坛数据管理分类系统及方法
CN111125070A (zh) * 2019-11-19 2020-05-08 华迪计算机集团有限公司 一种数据交换方法及平台
CN111556141A (zh) * 2020-04-26 2020-08-18 重庆市勘测院 基于Json数据片的智能网关数据采集系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘静: ""脑卒中云平台数据交互与存储研究"", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *

Also Published As

Publication number Publication date
CN112187953B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
Radanliev et al. Digital twins: Artificial intelligence and the IoT cyber-physical systems in Industry 4.0
CN111444236B (zh) 一种基于大数据的移动终端用户画像构建方法及系统
Rosendo et al. Distributed intelligence on the Edge-to-Cloud Continuum: A systematic literature review
CN110032635B (zh) 一种基于深度特征融合神经网络的问题对匹配方法和装置
CN111507768B (zh) 一种潜在用户的确定方法及相关装置
CN106951558B (zh) 一种基于深度搜索的税务智能咨询平台的数据处理方法
CN112000636A (zh) 基于Flink流式处理的用户行为统计分析方法
CN109918184A (zh) 图片处理系统、方法及相关装置和设备
CN115169810A (zh) 一种面向电网调控的人工智能系统构建方法及装置
CN114360639A (zh) 基于人工智能的药物靶点作用关系确定方法及装置
CN106611013A (zh) 信息查询方法及系统
Cunha et al. Context-aware execution migration tool for data science Jupyter Notebooks on hybrid clouds
CN113220951B (zh) 一种基于智能内容的医学临床支持方法和系统
CN112187953B (zh) 一种基于json的基因本体映射系统及方法
US10853429B2 (en) Identifying domain-specific accounts
WO2021120177A1 (zh) 编译神经网络模型的方法和装置
CN115131052A (zh) 一种数据处理方法、计算机设备和存储介质
CN113971455A (zh) 一种分布式模型训练方法、装置、存储介质及计算机设备
CN115809292A (zh) 数据处理方法、装置、设备及介质
CN115101142A (zh) 一种药物-靶点交互作用预测方法、系统及终端设备
Almasi et al. A new MapReduce associative classifier based on a new storage format for large-scale imbalanced data
CN110942139A (zh) 深度学习神经网络部署系统及其方法
Klipa et al. BIG DATA AND ARTIFICIAL INTELLIGENCE
CN117234694B (zh) 基于seda线程调度的数据治理方法及系统
CN114565064B (zh) 多任务学习深度网络的识别方法、系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant