CN112349424A

CN112349424A - 心衰组学数据整合分析平台的构建方法、存储介质及系统

Info

Publication number: CN112349424A
Application number: CN202011228851.3A
Authority: CN
Inventors: 何昆仑; 石金龙; 吴竞; 贾志龙; 边素艳; 贾倩
Original assignee: Chinese PLA General Hospital
Current assignee: Chinese PLA General Hospital
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-02-09

Abstract

本发明提供一种心衰组学数据整合分析平台的构建方法、存储介质及系统。其中，所述构建方法包括：S1、根据特征关键词，在多个数据平台上收集相关数据，通过校验及数据预处理，获得与心衰相关的多组学维度的数据；S2、基于获得的数据，根据不同类型的数据构建心衰组学数据库，对构建的心衰组学数据库中基因数据进行注释；S3、建立心衰组学数据中心衰相关基因与心衰疾病的关联数据库。本发明通过收集下载并整理现有的各个平台的心力衰竭多组学数据，搭建一个规范化的、系统性的、高质量的心衰组学数据库，用户可以通过一个或者多个心衰临床特征，非常高效快速的进行样本分组，然后一键式进行标准化的分析及功能注释等。

Description

心衰组学数据整合分析平台的构建方法、存储介质及系统

技术领域

本发明涉及生物信息整合分析技术领域，尤其涉及一种心衰组学数据整合分析平台的构建方法、存储介质及系统。

背景技术

目前关于心力衰竭的组学数据量较多，但专门存储心力衰竭组学数据的资源却比较少，并且相关分析工具都比较分散和独立，缺少一种能够结合多组学数据和标准化分析工具的心力衰竭组学数据整合分析平台。

此外，各种组学数据库中的数据的储存格式不一，导致对同一种疾病的相关信息存在不一致的情况，从而给相关研究人员在信息获取和检索中造成了困扰，也浪费了大量的时间精力。

同时，由于相关数据在各个数据平台的分布较为分散，研究人员需要花费大量时间去多个数据库中检索并收集下载数据，再分别搭建流程做生信分析，严重影响工作效率。因此，针对上述问题，有必要提出进一步地解决方案。

发明内容

本发明旨在提供一种心衰组学数据整合分析平台的构建方法、存储介质及系统，以克服现有技术中存在的不足。

为解决上述技术问题，本发明的技术方案是：

一种心衰组学数据整合分析平台的构建方法，其包括：

S1、根据特征关键词，在多个数据平台上收集相关数据，通过校验及数据预处理，获得与心衰相关的多组学维度的数据；

S2、基于获得的数据，根据不同类型的数据构建心衰组学数据库，对构建的心衰组学数据库中基因数据进行注释；

S3、建立心衰组学数据中心衰相关基因与心衰疾病的关联数据库。

作为本发明的构建方法的改进，所述步骤S1具体包括：

调取数据平台的标准化接口，通过特征关键词，获取最新数据集ID信息；

定时获取最新数据集描述信息，并与上一步获取到的数据集ID信息进行关联，对选定的数据进行下载。

作为本发明的构建方法的改进，所述步骤S1具体包括：

定时获取最新数据集描述信息，使用特征关键词在最新数据库中进行检索，获取满足检索条件的数据集ID信息，同时通过数据集ID直接获取其对应的所有样本信息进行展示，对选定的数据进行下载。

作为本发明的构建方法的改进，其特征在于，通过网络爬虫算法初步收集来源于医学术语本体库中的与心衰相关的特征关键词，并对初步收集的特征关键词进行确认和筛选。

作为本发明的构建方法的改进，所述步骤S2具体包括：

根据不同类型的数据构建子数据表单，再根据不同表单之间的关键词及关联信息，构建心力衰竭组学数据数据库，并按照预设的注释方式对相关基因数据进行注释。

作为本发明的构建方法的改进，所述步骤S3具体包括：

按照与心衰疾病的关联程度，对心衰相关基因进行赋值，建立心衰相关基因与心衰疾病的关联数据库。

作为本发明的构建方法的改进，所述步骤S3还包括：

来自所述关联数据库的候选基因，能够以表达、突变、表观修饰的方式进行可视化的交互显示。

作为本发明的构建方法的改进，所述心衰组学数据整合分析平台的构建方法还包括：

根据来自于期刊文献数据库的文献信息，统计文献信息中的关键因素，反馈心衰组学数据的热点和趋势。

为解决上述技术问题，本发明的技术方案是：

一种存储介质，其上存储有数据处理程序，所述数据处理程序被处理器执行时实现如上所述的心衰组学数据整合分析平台的构建方法的步骤。

为解决上述技术问题，本发明的技术方案是：

一种心衰组学数据整合分析平台的构建系统，其包括：

处理器；

存储器，其上存储有可供所述处理器上运行的计算机程序；

其中，所述计算机程序被所述处理器执行时实现如权利要求1-8任一项所述的心衰组学数据整合分析平台的构建方法的步骤。

与现有技术相比，本发明的有益效果是：本发明通过收集下载并整理现有的各个平台的心力衰竭多组学数据，搭建一个规范化的、系统性的、高质量的心衰组学数据库，用户可以通过一个或者多个心衰临床特征，非常高效快速的进行样本分组，然后一键式进行标准化的分析及功能注释等。

同时用户也可以对自己研中的候选基因进行验证，通过该发明的基因-疾病关联分析功能判断候选基因对研究疾病的贡献度，并且可同时查看候选基因在其他组学数据中的突变和表达情况。从而，可以帮助研究人员快速的发现并识别在心力衰竭疾病发生发展过程中的调控基因或生物标志物。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明心衰组学数据整合分析平台的构建方法一实施例的方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明一实施例提供一种心衰组学数据整合分析平台的构建方法，其包括：

S1、根据特征关键词，在多个数据平台上收集相关数据，通过校验及数据预处理，获得与心衰相关的多组学维度的数据。其中，多组学维度的数据可以包括：基因组、转录组、甲基化组等多个组学维度的数据。

步骤S1的目的在于，通过收集下载并整理现有的各个平台的心力衰竭多组学数据。考虑到来源数据平台的不同，可采用对应的数据收集方式。

一个实施方式中，对于GEO数据平台，所述步骤S1具体包括：

S11、调取数据平台的标准化接口，通过特征关键词，获取最新数据集ID信息；

S12、定时获取最新数据集描述信息，并与上一步获取到的数据集ID信息进行关联，对选定的数据进行下载。

另一个实施方式中，对于SRA数据平台，所述步骤S1具体包括：

上述各实施方式中，对于特征关键词的选取，可采用如下方式：通过网络爬虫算法初步收集来源于医学术语本体库中的与心衰相关的特征关键词，并对初步收集的特征关键词进行确认和筛选。

S2、基于获得的数据，根据不同类型的数据构建心衰组学数据库，对构建的心衰组学数据库中基因数据进行注释。

具体地，步骤S2包括：根据不同类型的数据构建子数据表单，再根据不同表单之间的关键词及关联信息，构建心力衰竭组学数据数据库，并按照预设的注释方式对相关基因数据进行注释。

在数据库的构建方式上，可采用现有的数据库构建手段，例如可采用Nodejs、Express、MySQL框架相结合的方式进行构建。其中，Nodejs是运行在服务端的JavaScript，是一个基于ChromeV8引擎的JavaScript运行环境。Express是一个基于Nodejs平台的极简、灵活的web应用开发框架。MySQL是一种关系数据库管理系统，关系数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，如此增加了速度并提高了灵活性。

步骤S3的目的在于，便于用户对自己研中的候选基因进行验证，通过该发明的基因-疾病关联分析功能判断候选基因对研究疾病的贡献度。具体地，所述步骤S3具体包括：

按照与心衰疾病的关联程度，对心衰相关基因进行赋值，建立心衰相关基因与心衰疾病的关联数据库。如此，用于基于上述关联数据库，用户可以快速检验到自己候选基因对于心衰的疾病贡献度，从而缩小候选基因范围。

此外，可在建立的关联数据库中，同时针对医生用户设计表型检索入口，通过自建词库进行模糊表型的匹配，进而可以获取到相应HPO ID及表型的标准描述，进而进行疾病诊断及致病基因的推测。

此外，所述步骤S3还包括：来自所述关联数据库的候选基因，能够以表达、突变、表观修饰的方式进行可视化的交互显示。如此，用户可以查看自己的候选基因在其他数据集中的表达、突变、表观修饰等情况，从而进一步评判候选基因的可靠性。

本实施例中，所述心衰组学数据整合分析平台的构建方法还包括：

例如，针对心血管领域的三大期刊(EUROPEANHEARTJOURNAL、CIRCULATION、JAMCOLLCARDIOL)，收集了其2000年至今的所有文献信息，并对期刊SCI影响因子走势、中文发刊情况等关键因素进行统计和可视化。

针对文献摘要，通过pubtatorAPI实现五大类生物医学实体(疾病、药物、基因、突变、物种)的识别和展示功能。同时，针对摘要中提取到的实体进行了趋势预测模型的构建和训练，以期实现研究热点的追踪和预测。

在硬件层面上，基于相同的技术构思，本发明另一实施例提供一种存储介质，其上存储有数据处理程序，所述数据处理程序被处理器执行时实现如上所述的心衰组学数据整合分析平台的构建方法的步骤。

在硬件层面上，基于相同的技术构思，本发明再一实施例提供一种心衰组学数据整合分析平台的构建系统，其包括：

处理器；

存储器，其上存储有可供所述处理器上运行的计算机程序；

其中，所述计算机程序被所述处理器执行时实现如上所述的心衰组学数据整合分析平台的构建方法的步骤。

综上所述，本发明通过收集下载并整理现有的各个平台的心力衰竭多组学数据，搭建一个规范化的、系统性的、高质量的心衰组学数据库，用户可以通过一个或者多个心衰临床特征，非常高效快速的进行样本分组，然后一键式进行标准化的分析及功能注释等。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种心衰组学数据整合分析平台的构建方法，其特征在于，所述构建方法包括：

2.根据权利要求1所述的心衰组学数据整合分析平台的构建方法，其特征在于，所述步骤S1具体包括：

3.根据权利要求1所述的心衰组学数据整合分析平台的构建方法，其特征在于，所述步骤S1具体包括：

4.根据权利要求1至3任一项所述的心衰组学数据整合分析平台的构建方法，其特征在于，通过网络爬虫算法初步收集来源于医学术语本体库中的与心衰相关的特征关键词，并对初步收集的特征关键词进行确认和筛选。

5.根据权利要求1所述的心衰组学数据整合分析平台的构建方法，其特征在于，所述步骤S2具体包括：

6.根据权利要求1所述的心衰组学数据整合分析平台的构建方法，其特征在于，所述步骤S3具体包括：

7.根据权利要求1或6所述的心衰组学数据整合分析平台的构建方法，其特征在于，所述步骤S3还包括：

8.根据权利要求1所述的心衰组学数据整合分析平台的构建方法，其特征在于，所述心衰组学数据整合分析平台的构建方法还包括：

9.一种存储介质，其特征在于，所述存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如权利要求1-8任一项所述的心衰组学数据整合分析平台的构建方法的步骤。

10.一种心衰组学数据整合分析平台的构建系统，其特征在于，所述构建系统包括：

处理器；

存储器，其上存储有可供所述处理器上运行的计算机程序；