CN112349424A - 心衰组学数据整合分析平台的构建方法、存储介质及系统 - Google Patents

心衰组学数据整合分析平台的构建方法、存储介质及系统 Download PDF

Info

Publication number
CN112349424A
CN112349424A CN202011228851.3A CN202011228851A CN112349424A CN 112349424 A CN112349424 A CN 112349424A CN 202011228851 A CN202011228851 A CN 202011228851A CN 112349424 A CN112349424 A CN 112349424A
Authority
CN
China
Prior art keywords
data
heart failure
omics
database
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011228851.3A
Other languages
English (en)
Inventor
何昆仑
石金龙
吴竞
贾志龙
边素艳
贾倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese PLA General Hospital
Original Assignee
Chinese PLA General Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese PLA General Hospital filed Critical Chinese PLA General Hospital
Priority to CN202011228851.3A priority Critical patent/CN112349424A/zh
Publication of CN112349424A publication Critical patent/CN112349424A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种心衰组学数据整合分析平台的构建方法、存储介质及系统。其中,所述构建方法包括:S1、根据特征关键词,在多个数据平台上收集相关数据,通过校验及数据预处理,获得与心衰相关的多组学维度的数据;S2、基于获得的数据,根据不同类型的数据构建心衰组学数据库,对构建的心衰组学数据库中基因数据进行注释;S3、建立心衰组学数据中心衰相关基因与心衰疾病的关联数据库。本发明通过收集下载并整理现有的各个平台的心力衰竭多组学数据,搭建一个规范化的、系统性的、高质量的心衰组学数据库,用户可以通过一个或者多个心衰临床特征,非常高效快速的进行样本分组,然后一键式进行标准化的分析及功能注释等。

Description

心衰组学数据整合分析平台的构建方法、存储介质及系统
技术领域
本发明涉及生物信息整合分析技术领域,尤其涉及一种心衰组学数据整合分析平台的构建方法、存储介质及系统。
背景技术
目前关于心力衰竭的组学数据量较多,但专门存储心力衰竭组学数据的资源却比较少,并且相关分析工具都比较分散和独立,缺少一种能够结合多组学数据和标准化分析工具的心力衰竭组学数据整合分析平台。
此外,各种组学数据库中的数据的储存格式不一,导致对同一种疾病的相关信息存在不一致的情况,从而给相关研究人员在信息获取和检索中造成了困扰,也浪费了大量的时间精力。
同时,由于相关数据在各个数据平台的分布较为分散,研究人员需要花费大量时间去多个数据库中检索并收集下载数据,再分别搭建流程做生信分析,严重影响工作效率。因此,针对上述问题,有必要提出进一步地解决方案。
发明内容
本发明旨在提供一种心衰组学数据整合分析平台的构建方法、存储介质及系统,以克服现有技术中存在的不足。
为解决上述技术问题,本发明的技术方案是:
一种心衰组学数据整合分析平台的构建方法,其包括:
S1、根据特征关键词,在多个数据平台上收集相关数据,通过校验及数据预处理,获得与心衰相关的多组学维度的数据;
S2、基于获得的数据,根据不同类型的数据构建心衰组学数据库,对构建的心衰组学数据库中基因数据进行注释;
S3、建立心衰组学数据中心衰相关基因与心衰疾病的关联数据库。
作为本发明的构建方法的改进,所述步骤S1具体包括:
调取数据平台的标准化接口,通过特征关键词,获取最新数据集ID信息;
定时获取最新数据集描述信息,并与上一步获取到的数据集ID信息进行关联,对选定的数据进行下载。
作为本发明的构建方法的改进,所述步骤S1具体包括:
定时获取最新数据集描述信息,使用特征关键词在最新数据库中进行检索,获取满足检索条件的数据集ID信息,同时通过数据集ID直接获取其对应的所有样本信息进行展示,对选定的数据进行下载。
作为本发明的构建方法的改进,其特征在于,通过网络爬虫算法初步收集来源于医学术语本体库中的与心衰相关的特征关键词,并对初步收集的特征关键词进行确认和筛选。
作为本发明的构建方法的改进,所述步骤S2具体包括:
根据不同类型的数据构建子数据表单,再根据不同表单之间的关键词及关联信息,构建心力衰竭组学数据数据库,并按照预设的注释方式对相关基因数据进行注释。
作为本发明的构建方法的改进,所述步骤S3具体包括:
按照与心衰疾病的关联程度,对心衰相关基因进行赋值,建立心衰相关基因与心衰疾病的关联数据库。
作为本发明的构建方法的改进,所述步骤S3还包括:
来自所述关联数据库的候选基因,能够以表达、突变、表观修饰的方式进行可视化的交互显示。
作为本发明的构建方法的改进,所述心衰组学数据整合分析平台的构建方法还包括:
根据来自于期刊文献数据库的文献信息,统计文献信息中的关键因素,反馈心衰组学数据的热点和趋势。
为解决上述技术问题,本发明的技术方案是:
一种存储介质,其上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上所述的心衰组学数据整合分析平台的构建方法的步骤。
为解决上述技术问题,本发明的技术方案是:
一种心衰组学数据整合分析平台的构建系统,其包括:
处理器;
存储器,其上存储有可供所述处理器上运行的计算机程序;
其中,所述计算机程序被所述处理器执行时实现如权利要求1-8任一项所述的心衰组学数据整合分析平台的构建方法的步骤。
与现有技术相比,本发明的有益效果是:本发明通过收集下载并整理现有的各个平台的心力衰竭多组学数据,搭建一个规范化的、系统性的、高质量的心衰组学数据库,用户可以通过一个或者多个心衰临床特征,非常高效快速的进行样本分组,然后一键式进行标准化的分析及功能注释等。
同时用户也可以对自己研中的候选基因进行验证,通过该发明的基因-疾病关联分析功能判断候选基因对研究疾病的贡献度,并且可同时查看候选基因在其他组学数据中的突变和表达情况。从而,可以帮助研究人员快速的发现并识别在心力衰竭疾病发生发展过程中的调控基因或生物标志物。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明心衰组学数据整合分析平台的构建方法一实施例的方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明一实施例提供一种心衰组学数据整合分析平台的构建方法,其包括:
S1、根据特征关键词,在多个数据平台上收集相关数据,通过校验及数据预处理,获得与心衰相关的多组学维度的数据。其中,多组学维度的数据可以包括:基因组、转录组、甲基化组等多个组学维度的数据。
步骤S1的目的在于,通过收集下载并整理现有的各个平台的心力衰竭多组学数据。考虑到来源数据平台的不同,可采用对应的数据收集方式。
一个实施方式中,对于GEO数据平台,所述步骤S1具体包括:
S11、调取数据平台的标准化接口,通过特征关键词,获取最新数据集ID信息;
S12、定时获取最新数据集描述信息,并与上一步获取到的数据集ID信息进行关联,对选定的数据进行下载。
另一个实施方式中,对于SRA数据平台,所述步骤S1具体包括:
定时获取最新数据集描述信息,使用特征关键词在最新数据库中进行检索,获取满足检索条件的数据集ID信息,同时通过数据集ID直接获取其对应的所有样本信息进行展示,对选定的数据进行下载。
上述各实施方式中,对于特征关键词的选取,可采用如下方式:通过网络爬虫算法初步收集来源于医学术语本体库中的与心衰相关的特征关键词,并对初步收集的特征关键词进行确认和筛选。
S2、基于获得的数据,根据不同类型的数据构建心衰组学数据库,对构建的心衰组学数据库中基因数据进行注释。
具体地,步骤S2包括:根据不同类型的数据构建子数据表单,再根据不同表单之间的关键词及关联信息,构建心力衰竭组学数据数据库,并按照预设的注释方式对相关基因数据进行注释。
在数据库的构建方式上,可采用现有的数据库构建手段,例如可采用Nodejs、Express、MySQL框架相结合的方式进行构建。其中,Nodejs是运行在服务端的JavaScript,是一个基于ChromeV8引擎的JavaScript运行环境。Express是一个基于Nodejs平台的极简、灵活的web应用开发框架。MySQL是一种关系数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,如此增加了速度并提高了灵活性。
S3、建立心衰组学数据中心衰相关基因与心衰疾病的关联数据库。
步骤S3的目的在于,便于用户对自己研中的候选基因进行验证,通过该发明的基因-疾病关联分析功能判断候选基因对研究疾病的贡献度。具体地,所述步骤S3具体包括:
按照与心衰疾病的关联程度,对心衰相关基因进行赋值,建立心衰相关基因与心衰疾病的关联数据库。如此,用于基于上述关联数据库,用户可以快速检验到自己候选基因对于心衰的疾病贡献度,从而缩小候选基因范围。
此外,可在建立的关联数据库中,同时针对医生用户设计表型检索入口,通过自建词库进行模糊表型的匹配,进而可以获取到相应HPO ID及表型的标准描述,进而进行疾病诊断及致病基因的推测。
此外,所述步骤S3还包括:来自所述关联数据库的候选基因,能够以表达、突变、表观修饰的方式进行可视化的交互显示。如此,用户可以查看自己的候选基因在其他数据集中的表达、突变、表观修饰等情况,从而进一步评判候选基因的可靠性。
本实施例中,所述心衰组学数据整合分析平台的构建方法还包括:
根据来自于期刊文献数据库的文献信息,统计文献信息中的关键因素,反馈心衰组学数据的热点和趋势。
例如,针对心血管领域的三大期刊(EUROPEANHEARTJOURNAL、CIRCULATION、JAMCOLLCARDIOL),收集了其2000年至今的所有文献信息,并对期刊SCI影响因子走势、中文发刊情况等关键因素进行统计和可视化。
针对文献摘要,通过pubtatorAPI实现五大类生物医学实体(疾病、药物、基因、突变、物种)的识别和展示功能。同时,针对摘要中提取到的实体进行了趋势预测模型的构建和训练,以期实现研究热点的追踪和预测。
在硬件层面上,基于相同的技术构思,本发明另一实施例提供一种存储介质,其上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上所述的心衰组学数据整合分析平台的构建方法的步骤。
在硬件层面上,基于相同的技术构思,本发明再一实施例提供一种心衰组学数据整合分析平台的构建系统,其包括:
处理器;
存储器,其上存储有可供所述处理器上运行的计算机程序;
其中,所述计算机程序被所述处理器执行时实现如上所述的心衰组学数据整合分析平台的构建方法的步骤。
综上所述,本发明通过收集下载并整理现有的各个平台的心力衰竭多组学数据,搭建一个规范化的、系统性的、高质量的心衰组学数据库,用户可以通过一个或者多个心衰临床特征,非常高效快速的进行样本分组,然后一键式进行标准化的分析及功能注释等。
同时用户也可以对自己研中的候选基因进行验证,通过该发明的基因-疾病关联分析功能判断候选基因对研究疾病的贡献度,并且可同时查看候选基因在其他组学数据中的突变和表达情况。从而,可以帮助研究人员快速的发现并识别在心力衰竭疾病发生发展过程中的调控基因或生物标志物。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (10)

1.一种心衰组学数据整合分析平台的构建方法,其特征在于,所述构建方法包括:
S1、根据特征关键词,在多个数据平台上收集相关数据,通过校验及数据预处理,获得与心衰相关的多组学维度的数据;
S2、基于获得的数据,根据不同类型的数据构建心衰组学数据库,对构建的心衰组学数据库中基因数据进行注释;
S3、建立心衰组学数据中心衰相关基因与心衰疾病的关联数据库。
2.根据权利要求1所述的心衰组学数据整合分析平台的构建方法,其特征在于,所述步骤S1具体包括:
调取数据平台的标准化接口,通过特征关键词,获取最新数据集ID信息;
定时获取最新数据集描述信息,并与上一步获取到的数据集ID信息进行关联,对选定的数据进行下载。
3.根据权利要求1所述的心衰组学数据整合分析平台的构建方法,其特征在于,所述步骤S1具体包括:
定时获取最新数据集描述信息,使用特征关键词在最新数据库中进行检索,获取满足检索条件的数据集ID信息,同时通过数据集ID直接获取其对应的所有样本信息进行展示,对选定的数据进行下载。
4.根据权利要求1至3任一项所述的心衰组学数据整合分析平台的构建方法,其特征在于,通过网络爬虫算法初步收集来源于医学术语本体库中的与心衰相关的特征关键词,并对初步收集的特征关键词进行确认和筛选。
5.根据权利要求1所述的心衰组学数据整合分析平台的构建方法,其特征在于,所述步骤S2具体包括:
根据不同类型的数据构建子数据表单,再根据不同表单之间的关键词及关联信息,构建心力衰竭组学数据数据库,并按照预设的注释方式对相关基因数据进行注释。
6.根据权利要求1所述的心衰组学数据整合分析平台的构建方法,其特征在于,所述步骤S3具体包括:
按照与心衰疾病的关联程度,对心衰相关基因进行赋值,建立心衰相关基因与心衰疾病的关联数据库。
7.根据权利要求1或6所述的心衰组学数据整合分析平台的构建方法,其特征在于,所述步骤S3还包括:
来自所述关联数据库的候选基因,能够以表达、突变、表观修饰的方式进行可视化的交互显示。
8.根据权利要求1所述的心衰组学数据整合分析平台的构建方法,其特征在于,所述心衰组学数据整合分析平台的构建方法还包括:
根据来自于期刊文献数据库的文献信息,统计文献信息中的关键因素,反馈心衰组学数据的热点和趋势。
9.一种存储介质,其特征在于,所述存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如权利要求1-8任一项所述的心衰组学数据整合分析平台的构建方法的步骤。
10.一种心衰组学数据整合分析平台的构建系统,其特征在于,所述构建系统包括:
处理器;
存储器,其上存储有可供所述处理器上运行的计算机程序;
其中,所述计算机程序被所述处理器执行时实现如权利要求1-8任一项所述的心衰组学数据整合分析平台的构建方法的步骤。
CN202011228851.3A 2020-11-06 2020-11-06 心衰组学数据整合分析平台的构建方法、存储介质及系统 Pending CN112349424A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011228851.3A CN112349424A (zh) 2020-11-06 2020-11-06 心衰组学数据整合分析平台的构建方法、存储介质及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011228851.3A CN112349424A (zh) 2020-11-06 2020-11-06 心衰组学数据整合分析平台的构建方法、存储介质及系统

Publications (1)

Publication Number Publication Date
CN112349424A true CN112349424A (zh) 2021-02-09

Family

ID=74428367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011228851.3A Pending CN112349424A (zh) 2020-11-06 2020-11-06 心衰组学数据整合分析平台的构建方法、存储介质及系统

Country Status (1)

Country Link
CN (1) CN112349424A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108335756A (zh) * 2018-01-18 2018-07-27 中山大学 鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
CN108959848A (zh) * 2018-05-30 2018-12-07 广州普世医学科技有限公司 基于基因变异与疾病表型自动关联匹配的遗传病预测系统
CN109448841A (zh) * 2018-11-09 2019-03-08 天津开心生活科技有限公司 建立数据模型方法及装置、临床辅助决策方法及装置
US20190087534A1 (en) * 2017-09-21 2019-03-21 The Penn State Research Foundation Systems, methods, and processor-readable media for detecting disease causal variants
CN110534159A (zh) * 2019-07-22 2019-12-03 中国人民解放军总医院 基因疾病关联分析系统的构建方法、装置和计算机设备
CN110555103A (zh) * 2019-07-22 2019-12-10 中国人民解放军总医院 生物医学实体展示平台的构建方法、装置和计算机设备
CN110570905A (zh) * 2019-07-22 2019-12-13 中国人民解放军总医院 组学数据分析平台的构建方法、装置和计算机设备
KR20200116801A (ko) * 2019-04-02 2020-10-13 주식회사 엘지화학 약물재창출을 이용한 질환에 대한 바이오 마커 선별 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190087534A1 (en) * 2017-09-21 2019-03-21 The Penn State Research Foundation Systems, methods, and processor-readable media for detecting disease causal variants
CN108335756A (zh) * 2018-01-18 2018-07-27 中山大学 鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
CN108959848A (zh) * 2018-05-30 2018-12-07 广州普世医学科技有限公司 基于基因变异与疾病表型自动关联匹配的遗传病预测系统
CN109448841A (zh) * 2018-11-09 2019-03-08 天津开心生活科技有限公司 建立数据模型方法及装置、临床辅助决策方法及装置
KR20200116801A (ko) * 2019-04-02 2020-10-13 주식회사 엘지화학 약물재창출을 이용한 질환에 대한 바이오 마커 선별 방법
CN110534159A (zh) * 2019-07-22 2019-12-03 中国人民解放军总医院 基因疾病关联分析系统的构建方法、装置和计算机设备
CN110555103A (zh) * 2019-07-22 2019-12-10 中国人民解放军总医院 生物医学实体展示平台的构建方法、装置和计算机设备
CN110570905A (zh) * 2019-07-22 2019-12-13 中国人民解放军总医院 组学数据分析平台的构建方法、装置和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陆国辉: "《产前遗传病诊断 第2版 上》", 上海交通大学出版社, pages: 524 - 530 *

Similar Documents

Publication Publication Date Title
CN110570905B (zh) 组学数据分析平台的构建方法、装置和计算机设备
US10275711B2 (en) System and method for scientific information knowledge management
US8756077B2 (en) Personalized health records with associative relationships
CN109686439B (zh) 遗传病基因检测的数据分析方法、系统及存储介质
US20060173663A1 (en) Methods, system, and computer program products for developing and using predictive models for predicting a plurality of medical outcomes, for evaluating intervention strategies, and for simultaneously validating biomarker causality
US20070282940A1 (en) Thread-ranking apparatus and method
CN108121896B (zh) 一种基于miRNA的疾病间关系分析方法和装置
CN108962394B (zh) 一种医疗数据决策支持方法及系统
CN110085314A (zh) 医学检验数据的智能分析方法、系统以及设备
CN114003734A (zh) 乳腺癌风险因素知识体系模型、知识图谱系统及构建方法
Benhar et al. A systematic mapping study of data preparation in heart disease knowledge discovery
US20110093448A1 (en) System method and computer program product for pedigree analysis
CN113742443A (zh) 多药共用查询方法、移动终端及存储介质
CN114255877A (zh) 靶点信息挖掘和检索方法、装置、电子设备和存储介质
CN112349424A (zh) 心衰组学数据整合分析平台的构建方法、存储介质及系统
Markowitz et al. Applying data warehouse concepts to gene expression data management
Tasdelen et al. Artificial Intelligence Research on COVID-19 Pandemic: A Bibliometric Analysis
Kurgan et al. Mining the cystic fibrosis data
Wu et al. HFIP: an integrated multi-omics data and knowledge platform for the precision medicine of heart failure
AU7110500A (en) A system and method for mining data from a database using relevance networks
US20230195763A1 (en) Systems and methods for providing health care search recommendations
Dari et al. Implementation of c4. 5 algorithm in classifying breast cancer based on menopause age
Qian et al. Comparative analysis of topical evolution patterns and temporal trends of hypertension research
Freitas et al. Mining hospital databases for management support
Ganta et al. An online analysis and information fusion platform for heterogeneous biomedical informatics data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination