CN110570905A

CN110570905A - 组学数据分析平台的构建方法、装置和计算机设备

Info

Publication number: CN110570905A
Application number: CN201910661829.9A
Authority: CN
Inventors: 何昆仑; 石金龙; 吴竞; 贾倩; 贾志龙; 赵敏; 边素艳; 白永怿
Original assignee: Chinese PLA General Hospital
Current assignee: Chinese PLA General Hospital
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2019-12-13
Anticipated expiration: 2039-07-22
Also published as: CN110570905B

Abstract

本发明涉及一种组学数据分析平台的构建方法、装置、计算机设备和存储介质，所述方法包括：获取与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息；根据与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建与预设的疾病相关的组学数据数据库；根据预设的疾病的特性，在组学数据数据库的基础上添加预设的生物信息学分析流程；根据添加的生物信息学分析流程，构建组学数据分析平台，以将组学数据数据库中的数据进行图形化展示。通过上述方法，可以构建一系统性、高质量的组学数据分析平台，通过此平台，用户可以非常直观和便捷的根据某一类疾病的临床特征对其候选的基因样本进行分组、标准化分析和功能注释。

Description

组学数据分析平台的构建方法、装置和计算机设备

技术领域

本发明涉及生物组学数据分析领域，特别是涉及一种可以用来展示一类预设的疾病与组学数据之间关联关系的组学数据分析平台的构建方法、装置、计算机设备和存储介质。

背景技术

随着高通量技术的发展，产生了大量与基因、蛋白质和代谢相关的生物组学数据。面对海量的生物组学数据，如何对其进行系统分析和深入挖掘成为了生命科学研究领域的研究热点。其中，采用生物信息学手段对某一类疾病相关的组学数据进行分析和研究，对该类疾病的基因表达分析、通用生物研究、核酸序列测定、药学研究和基因病理诊断等方面都具有重要意义和关键作用。

目前，我们只能通过人工检索的方式，在MeSH、HPO、umls等医学术语本体库中去收集和整理某一类疾病相关的医学术语，然后再通过SRA和GEO等组学数据库去下载与医学术语相对应的数据集，最后将下载的数据进行人工整理和分析，来总结疾病与基因之间的关联关系，这使得检索的效率十分低下且检索结果准确度不高。另一方面，目前国际上还未见到专门的与某一类疾病相关的专病数据库，其他相关的数据库也存在数量少、数据质量差，数据价值低等问题。

发明内容

基于此，有必要针对专病数据库数量少、数据质量差，数据价值低等问题，提供一种针对某一类疾病的数据数量多、质量好且价值高的组学数据分析平台的构建方法、装置、计算机设备和存储介质。

一种组学数据分析平台的构建方法，所述方法包括：

获取与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息；

根据与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建与预设的疾病相关的组学数据数据库；

根据预设的疾病的特性，在组学数据数据库的基础上添加预设的生物信息学分析流程；

根据添加的生物信息学分析流程，构建组学数据分析平台，以将组学数据数据库中的数据进行图形化展示。

在其中一个实施例中，获取与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，包括：

通过网络爬虫技术，在医学术语本体库中获取与预设的疾病相关的特征词汇；

根据与预设的疾病相关的特征词汇，在组学数据库中获取与预设的疾病相关的数据集数据；

对数据集数据进行校验和预处理，得到与预设的疾病相关的组学数据和临床数据；

在基因知识库中获取与预设的疾病相关的突变基因数据，在文献数据库中获取与预设的疾病相关的文献摘要信息。

在其中一个实施例中，根据与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建与预设的疾病相关的组学数据数据库，包括：

根据与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建子数据表单；

根据子数据表单中预设的关联键和关联键的键值，构建与预设的疾病相关的组学数据数据库。

在其中一个实施例中，子数据表单包括数据集表、数据集表达表、数据集样本表、突变基因信息表、基因疾病关联信息表和文献信息表；则根据与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建子数据表单，包括：

根据与预设的疾病相关的组学数据和临床数据，构建数据集表、数据集表达表和数据集样本表；

根据与预设的疾病相关的突变基因数据，构建突变基因信息表和基因疾病关联信息表；

根据与预设的疾病相关的文献摘要信息，构建文献信息表。

在其中一个实施例中，根据与预设的疾病相关的突变基因数据，构建突变基因信息表和基因疾病关联信息表，包括：

根据与预设的疾病相关的突变基因数据，通过训练好的机器学习模型，构建突变基因信息表；

根据突变基因信息表，通过疾病检索工具计算得到预设的疾病和与预设的疾病相关的基因之间的关联权重；

根据预设的疾病和与预设的疾病相关的基因之间的关联权重，构建基因疾病关联信息表。

在其中一个实施例中，生物信息学分析流程包括差异分析流程、临床分析流程、共表达分析流程、生存分析流程、miRNA靶基因分析流程、通路分析流程和突变注释流程中的一种或多种。

在其中一个实施例中，预设的疾病为心力衰竭、急性髓系白血病、高原病、性腺发育异常、前列腺癌、乳腺癌和线粒体病中的一种。

一种组学数据分析平台的构建装置，所述装置包括：

数据获取模块，用于获取与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息；

数据处理模块，用于根据与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建与预设的疾病相关的组学数据数据库；

数据分析模块，用于根据预设的疾病的特性，在组学数据数据库的基础上添加预设的生物信息学分析流程；

数据展示模块，用于根据添加的生物信息学分析流程，构建组学数据分析平台，以将组学数据数据库中的数据进行图形化展示。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述组学数据分析平台的构建方法、装置、计算机设备和存储介质，通过获取某一类疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建了针对该类疾病的组学数据数据库，进而，在此基础上根据疾病的特性添加诸多生物信息学分析流程并使之图形化展示，最终构建了一个系统性、高质量的针对某一类疾病的组学数据分析平台。通过此平台，用户可以非常直观和便捷的根据某一类疾病的一个或多个临床特征对其候选的基因样本进行分组、标准化分析和功能注释，进而发现、识别某一类疾病在发生发展过程中的调控基因或生物标志物。

附图说明

图1为一个实施例中组学数据分析平台的构建方法的应用环境图；

图2为一个实施例中组学数据分析平台的构建方法的流程示意图；

图3为一个实施例中获取组学数据、临床数据、突变基因数据和文献摘要信息的方法的流程示意图；

图4为一个实施例中构建组学数据数据库的方法的流程示意图；

图5为一个实施例中构建子数据表单的方法的流程示意图；

图6为一个实施例中构建突变基因信息表和基因疾病关联信息表的方法的流程示意图；

图7为一个实施例中组学数据分析平台的构建装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的组学数据分析平台的构建方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在本申请中，组学数据分析平台的构建方法可以应用在服务器104上，在现有技术中，我们可以通过检索得到不同类型的组学数据，但是在数据管理上还存在诸多问题。第一，在数据的存储上，目前不同类型的公共数据往往存储在不同的站点，而且同一类型的数据往往也分布在多个不同的数据库中。在针对某一类疾病进行研究时往往需要对多个不同的数据库进行检索，使得效率较低；第二，由于不同的数据库中同一疾病的数据储存标准不一样，使得对同种疾病的描述信息往往不一致，给疾病的规范化管理和研究带来挑战，也使得研究人员在信息获取和检索中发生了困难，浪费了大量的时间。因此，收集与某一类疾病相关的多组学数据，建立针对某一类疾病的组学数据管理、分析和可视化平台，为某一类疾病的研究人员提供一个更加高效便捷的组学数据整合分析途径，为他们节约大量的宝贵时间，有利于临床、科研和教学任务的顺利展开。

在一个实施例中，如图2所示，提供了一种组学数据分析平台的构建方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息。

其中，预设的疾病指的是可以根据相应的临床症状确诊为同一个名称的某一个大类的疾病(下述简称为某一类疾病)，并且，该预设的疾病包括对应的至少一种具体疾病。例如，预设的疾病可以指心力衰竭、急性髓系白血病或指高原病等疾病，而心力衰竭、急性髓系白血病或高原病等疾病即是一个大类的疾病，这些大类的疾病通常包括与其对应的多种具体疾病，例如，高原病可以包括与其对应的急性高山病、高原肺水肿和高原脑水肿等具体疾病。而本申请公开的组学数据分析平台即针对的是一个大类的疾病，即应用本方法具体可以构建一个心力衰竭组学数据分析平台、急性髓系白血病组学数据分析平台或高原病组学数据分析平台等专病组学数据分析平台。

进一步解释各类数据。其中，组学的范围十分广泛，它主要包括基因组学(Genomics)，蛋白组学(Proteinomics)，代谢组学(Metabolomics)，转录组学(transcriptomics)，脂类组学(lipidomics)，免疫组学(Immunomics)，糖组学(glycomics)，RNA组学(RNomics)，影像组学(Radiomics)，超声组学(Ultrasomics)等等。组学的英文称谓是Omics，它的词根“ome”可以英译为一些种类个体的系统集合，例如，基因组(Genome)是构成生物体所有基因的组合，而基因组学(Genomics)就是研究这些基因以及这些基因间的关系的学科，本申请中的组学数据即是指与某一类疾病相关的所有种类的组学数据的集合；临床可以直译为“直接接触病床”，即直接接触病人，因而，对病人进行实际的观察称为临床，本申请中的临床数据指的是与某一类疾病相关的所有能收集到的病人的病例数据；突变基因数据指的是能够验证某一类疾病与基因变异之间有对应关系的所有能够收集到的表格、图片、文章等信息；文献摘要信息指的是与某一类疾病相关的所有能收集到的文献的摘要。

具体地，服务器可以通过网络爬虫方式，收集了来自多个医学术语本体库中针对某一类疾病的描述词汇，针对这些描述词汇，分别在多个组学数据库中通过调取标准化官方接口，自动获取最新的数据集ID信息和最新数据集描述信息，然后，对选定的数据进行下载，以收集相关数据集数据；然后，对收集到的数据集数据进行校验和预处理后，就得到了针对某一类疾病相关的组学数据和临床数据；进一步的，针对上述描述词汇，在公共基因知识库中搜索该类疾病与基因之间的对应关系，就得到了针对某一类疾病相关的突变基因数据；最后，在文献知识库中搜索所有与该类相关的期刊，并收录其摘要信息，就得到针对某一类疾病相关的文献摘要信息。

步骤204，根据与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建与预设的疾病相关的组学数据数据库。

具体地，服务器可以根据上述不同类型的数据，分别构建不同的子数据表单，然后，根据不同子数据表单之间的关联键和关联键的键值，构建针对某一类疾病的组学数据数据库。例如，服务器可以根据与某一类疾病相关的组学数据和临床数据构建数据集表、数据集表达表和数据集样本表；也可以根据与某一类疾病相关的突变基因数据构建突变基因信息表和基因疾病关联信息表；还可以根据与某一类疾病相关的文献摘要信息，构建文献信息表等等。构建好的组学数据数据库是一种关系数据库，这种数据库可以将数据保存在不同的表单中，而不是将所有数据放在一个大仓库内，增加了数据的搜索速度，同时也提高了数据库的灵活性。

步骤206，根据预设的疾病的特性，在组学数据数据库的基础上添加预设的生物信息学分析流程。

其中，生物信息学指的是生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学；生物信息学分析流程则指的是以计算机为工具对生物信息进行储存、检索和分析的方法，这些方法通常包含多个具体步骤。例如，生物信息学分析流程中的差异分析流程就包括数据导入，预处理，质量评估和标准化，线性建模，差异表达分析和基因特征分析等多个具体步骤；预设的疾病的特性指的是某一类疾病在临床确诊和治疗方法上诸多特点的集合，其中，不同种类的疾病特性不同，添加的生物信息学分析流程自然也不同。

具体地，服务器可以根据某一类疾病的特性，在构建好的组学数据数据库的基础上添加不同的生物信息学流程，可以添加的生物信息学流程包括差异分析流程、临床分析流程、共表达分析流程、生存分析流程、miRNA靶基因分析流程、通路分析流程和突变注释流等流程中的一种或多种。例如，在心力衰竭组学数据数据库中添加的生物信息学分析流程为差异分析流程和突变注释流程，具体的，服务器可以应用Annovar等命令行工具对各基因组的遗传变异进行功能注释，并可以应用limma等R软件包实现基因表达的差异分析；在急性髓系白血病组学数据数据库中添加的生物信息学分析流程为转录组差异分析流程、转录组共表达分析流程、转录组生存分析流程、拷贝数变异差异分析流程、拷贝数变异生存分析流程、miRNA靶相互作用分析流程和通路分析流程；在高原病组学数据数据库中添加的生物信息学分析流程为临床分析流程、突变注释流程、差异分析流程和共表达分析流程。

步骤208，根据添加的生物信息学分析流程，构建组学数据分析平台，以将组学数据数据库中的数据进行图形化展示。

具体地，服务器可以根据添加的生物信息学分析流程，分别使用多种可视化工具，如canvasxpress、D3、ECharts和HCharts等，使组学数据数据库实现交互的可视化效果，从而使平台的使用者可以直观看到各个候选基因的表达情况，并查看其在其他数据集中的表达、突变和表观修饰等情况，从而验证候选基因的可靠性；在知识可视化方面，可以通过对cytoscape.js的扩展，使组学数据分析平台更加适用于知识图谱的展示，以使平台使用者了解知识网络图谱和疾病挖局等相关知识。

上述组学数据分析平台的构建方法，通过获取某一类疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建了针对该类疾病的组学数据数据库，进而，在此基础上根据疾病的特性添加诸多生物信息学分析流程并使之图形化展示，最终构建了一个系统性、高质量的针对某一类疾病的组学数据分析平台。通过此平台，用户可以非常直观和便捷的根据某一类疾病的一个或多个临床特征对其候选的基因样本进行分组、标准化分析和功能注释，进而发现、识别某一类疾病在发生发展过程中的调控基因或生物标志物。

在一个实施例中，如图3所示，获取与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息的方法，包括以下步骤：

步骤302，通过网络爬虫技术，在医学术语本体库中获取与预设的疾病相关的特征词汇。

具体的，医学术语本体库指的是国际上一些知名且权威的生物医学词汇表，例如HPO(human-phenotype-ontology，国际人类表型本体)、MeSH(Medical Subject Headings，医学主题词表)和umls(Unified Medical Language System，统一医学语言系统)等。

具体地，服务器可以在HPO、MeSH或umls等医学本体库中搜索某一类疾病，来获取与该类疾病相关的特征词汇，优选的，上述搜索出的特征词汇可以根据该类疾病专业医师的筛选和鉴别进一步缩小范围，进而精选出个数适中的特征词汇，精选出的特征词汇可以确定在50个左右。例如，在医学本体库中搜索“心力衰竭”时，可以搜索出几百个特征词汇，经过专业医师鉴别后，会精选出49个特征词汇来锁定这个疾病；而在医学本体库中搜索“高原病”时，也可以搜索出几百个特征词汇，经过专业医师鉴别后，会精选出44个特征词汇来锁定这个疾病，进一步举例说明，与高原病相关的44个特征词汇具体可以是：altitudesickness(高原病)、Altitude Hypoxia(高原低氧)、Mountain Sickness(高原病)、Plateaudiseases(高原病)、Altitude Hypoxia(高原低氧)、Sickness(虚弱)、Altitude(高原)、Mountain(高山)、unac climatization to high altitude(UAC急性高原)、chronic highaltit ude sickness(慢性高原病)、chronic high altit ude reaction(慢性高原反应)、high altitude erythroeythi mia(高原红眼病)、high altitude hypertension(高原高血压)、high altitude hypotension(高原低血压)、high altitude cardiopathy(高原心脏病)、mountain disease(山地病)、Acosta's disease(Acosta病)、altitude disease(高原病)、high altitude sickness(高原病)、high-altitude illness(高原病)、Highaltitude pulmonary edema(高原肺水肿)、high altitude pulmonary oedema(高原肺水肿)、high-altitude pulmonary oedema(高原肺水肿)、High-altitude pulmonary edema(高原肺水肿)、Obstinate highland hydropneumonia(高原顽固性高原肺炎)、High-altitude cerebral edema(高原脑水肿)、high-altitude cerebral oedema(高原e脑水肿)、altitude cerebral edema(高原脑水肿)、high altitude cerebral adema(高原脑ADEMA)、high altitude brain edema(高原脑水肿)、altitude coma(高原昏迷)、Andesdisease(安第斯病)、high altitude hypoxia(高原缺氧)、altitude adaptation(高原适应)、hypoxic stress(低氧应激)、hypoxic environment(低氧环境)、hypoxia defenses(低氧防御)、hypoxia(低氧)、reduced availability of oxygen(缺氧可用性降低)、high-altitude hypoxia(高原缺氧)、hypobaric hypoxia(低压缺氧)、Atmospheric Hypoxia(大气缺氧)、a syndrome of maladaptation to chronic hypoxia(慢性缺氧)和AltitudeOmics(高度学适应不良综合征)。

步骤304，根据与预设的疾病相关的特征词汇，在组学数据库中获取与预设的疾病相关的数据集数据。

其中，组学数据库指的是国际上一些知名且权威的基因表达数据库或原始测序数据数据库，例如SRA(Sequence ReadArchive，二代测序原始数据数据库)、GEO(GeneExpression Omnibus，基因表达数据库)和TCGA(Cancer Genome Atlas,癌症和肿瘤基因图谱)等数据库。

具体地，服务器也可以在SRA、GEO和TCGA等数据库中获取与某一类疾病相关的原始测序数据、基因表达数据、miRNA表达数据、拷贝数变异、DNA甲基化等以数据集形式存储的数据。以服务器在GEO中获取数据的过程为例进行说明，首先，服务器可以调取GEO标准化接口，使用与某一类疾病相关的特征词汇进行查询，来获取最新的数据集ID信息，然后，通过R包GEOmetadb定时获取GEO最新数据集描述信息，并与上一步获取到的数据集ID信息进行关联，最终通过R包GEOquery对选定的数据进行下载。其他获取数据的具体方法与服务器在GEO中获取数据的过程像类似，再此不再赘述。

步骤306，对数据集数据进行校验和预处理，以得到与预设的疾病相关的组学数据和临床数据。

具体地，从不同数据来源收集到的组学和临床等数据集信息可能会存在重复、低质量、信息缺失、标准不统一等情况，因而，服务器可以对从组学数据库中获取到的数据集数据进行校验和预处理，具体处理过程可以包括去除少样本量数据集、去除测序低质量数据集、去除数据集中的低质量样本和去除数据集中的重复样本等步骤，然后，可以将探针转换至基因名、并处理重复基因表达值、同一探针多基因表达值、表达缺失值、最后对部分数据进行数据分析、样本同临床数据关联等处理。

步骤308，根据与预设的疾病相关的特征词汇，在基因知识库中获取与预设的疾病相关的突变基因数据，在文献数据库中获取与预设的疾病相关的文献摘要信息。

其中，基因知识库指的是国际上一些知名且权威的收录了有关于人类基因、遗传紊乱和基因组变异等信息的数据库，例如OMIM(Online Mendelian Inheritance in Man，人类孟德尔遗传)、ClinVar(克林瓦尔数据库)和HGMD(Human gene mutation data，人类基因突变资料)等数据库；文献数据库指的是全球知名的科学和医学的文献数据库，例如SCI(Science Citation Index,科学引文索引)、PubMed(美国国家医学图书馆期刊文献检索系统)等文献数据库。

具体地，服务器可以在OMIM、ClinVar和HGMD等数据库中获取与某一类疾病预设的疾病相关的突变基因数据，如记载了基因和突变信息的文本信息及其相关参考信息、序列纪录、图谱、遗传变异-临床表型对照表等信息；服务器也可以在SCI、PubMed等全球知名的科学、医学文献数据库中专门收录针对某一类疾病的期刊。其中，以构建“心力衰竭组学数据数据分析平台”为例进行说明，服务器可以专门收集心血管领域的三大期刊EUROPEANHEART JOURNAL(欧洲心脏杂质)、CIRCULATION(心血管循环研究)和J AM COLL CARDIOL(美国心脏病学会杂志)的所有文献数据，进而自动收录其创刊至今的所有文献摘要信息。

在一个实施例中，如图4所示，根据与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建与预设的疾病相关的组学数据数据库的方法，包括以下步骤：

步骤402，根据与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建子数据表单。

具体地，服务器可以将检验和预处理后的组学数据、临床数据、突变基因数据和文献摘要信息分别导入到不同的子数据表单中，并为每一个子数据表单命名，例如数据集表、数据集表达表、数据集样本表、突变基因信息表、基因疾病关联信息表和文献信息表等。

步骤404，根据子数据表单中预设的关联键和关联键的键值，构建与预设的疾病相关的组学数据数据库。

具体地，每一个子数据表单均具有多个项目，其中，关联键指的是不同子数据表单中相同的项目，而关联键的键值则指的是项目之下具体的个体。例如，两个子数据表单中都有“基因名称”这个项目，“基因名称”这个项目下又有“insulin-like growth factor 1(胰岛素样生长因子1)”这一个个体，则“基因名称”即为两个子数据表单之间的关联键，而“insulin-like growth factor 1”则为这个关联键的键值，两个子数据表单就可以通过这个关联键和该关联键的键值联系在一起，进而，所有的表单之间均可以通过这种方式连结在一起，就构成了组学数据库，构建完成后的组学数据数据库是一种关系数据库，这种关系数据库可以将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，这样就增加了数据搜索的速度，并提高了数据库在应用上的灵活性。

在本实施例中，服务器可以采用Nodejs+Express+MySQL框架构建组学数据库。具体过程包括以下步骤：首先下载安装Node.js，在PATH环境变量中配置Node.js，然后新建本数据库express项目，继而上传项目代码到svn版本控制器上，并记录链接，最后安装MySQL数据库，并导入数据，以构建组学数据数据库。

在一个实施例中，如图5所示，根据与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建子数据表单的方法，包括以下步骤：

步骤502，根据与预设的疾病相关的组学数据和临床数据，构建数据集表、数据集表达表和数据集样本表。

步骤504，根据与预设的疾病相关的突变基因数据，构建突变基因信息表和基因疾病关联信息表。

步骤506，根据与预设的疾病相关的文献摘要信息，构建文献信息表。

具体地，子数据表单可以包括数据集表、数据集表达表、数据集样本表、突变基因信息表、基因疾病关联信息表和文献信息表等等表单。其中，数据集表包含对数据集的描述信息和分组判断信息；数据集表达表包含数据集中各样本对应各基因的表达谱信息；数据集样本表包含数据集中各样本的临床分组信息，此外，有一些种类的疾病可以也会建立其他表单，例如miRNA数据表和KEGG数据表等。在本实施例中，不同的数据构成了不同的子数据表单，不同的子数据表单通过关联键和关联键的键值相连结，构建了组学数据数据库。在本实施例中，服务器可以根据与某一类疾病相关的组学数据和临床数据，构建数据集表、数据集表达表和数据集样本表；也根据与某一类疾病相关的突变基因数据，构建突变基因信息表和基因疾病关联信息表；还可以根据与某一类疾病相关的文献摘要信息，构建文献信息表。

在一个实施例中，如图6所示，根据与预设的疾病相关的突变基因数据，构建突变基因信息表和基因疾病关联信息表的方法，包括以下步骤：

步骤602，根据与预设的疾病相关的突变基因数据，通过训练好的机器学习模型，构建突变基因信息表；

其中，与预设的疾病相关的突变基因数据指的是与某一类疾病对应的具体疾病的疾病名称、基因名称、基因ID、染色体定位等信息。机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。在本实施例中，训练好的机器学习模型指的是根据概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科得到的一组计算基因疾病关联性的数学公式。其具体公式如下：

具体地，服务器可以将从OMIM、ClinVar和HGMD等数据库获取到的与某一种预设的疾病相关的突变基因数据带入到训练好的上述机器学习模型中，通过上述机器学习模型算法，在每次发现某一种基因与该类疾病直接相关时，计算出该基因与该类疾病的相关度得分，然后通过各基因对该类疾病的相关度得分构建各基因对某一类疾病贡献度打分的自建数据库，这个自建数据库即为突变基因信息表。

步骤604，根据突变基因信息表，通过疾病检索工具计算得到预设的疾病和与预设的疾病相关的基因之间的关联权重。

其中，疾病检索工具指的是一种开源软件，这种开源软件可以对特定临床表型和疾病名称进行基因关联分析，还可以根据临床表型筛选出可能的致病基因，并对候选基因进行排序，以帮助临床医生结合基因检测结果进行诊断。

具体的，服务器可以利用phenolyzer等疾病检索工具，并通过在该类工具中添加自建数据库的方式，进一步综合计算出某一类疾病和与该类疾病相关的基因之间的关联权重，在本实施例中，phenolyzer等疾病检索工具通常带有一些底型库，从而使计算出的某一类疾病和与该类预设相关的基因之间的关联权重相比上一步骤中计算出的得分更为准确。

步骤606，根据预设的疾病和与预设的疾病相关的基因之间的关联权重，构建基因疾病关联信息表。

具体地，服务器可以根据上一步骤中计算得到的某一类疾病和与该类疾病相关的基因之间的关联权重，通过脚本自动化的方式将标准的表格形式文件导入到MySQL数据库中，从而自动化的在数据库中构建出基因疾病关联信息表。

在一个实施例中，生物信息学分析流程具体可以包括差异分析流程、临床分析流程、共表达分析流程、生存分析流程、miRNA靶基因分析流程、通路分析流程和突变注释流等多种生物分析流程中的一种或多种，并且，不同的种类的疾病对应的生物信息学分析流程也不相同。例如，在心力衰竭组学数据数据库中添加的生物信息学分析流程为差异分析流程和突变注释流程，具体的，服务器可以应用Annovar等命令行工具对各基因组的遗传变异进行功能注释，并可以应用limma等R软件包实现基因表达的差异分析；在急性髓系白血病组学数据数据库中添加的生物信息学分析流程为转录组差异分析流程、转录组共表达分析流程、转录组生存分析流程、拷贝数变异差异分析流程、拷贝数变异生存分析流程、miRNA靶相互作用分析流程和通路分析流程；在高原病组学数据数据库中添加的生物信息学分析流程为临床分析流程、突变注释流程、差异分析流程和共表达分析流程。需要说明的是，上述所有的生物信息学分析流程都是利用一些开源工具预先制作完成的，其具体制作方法在这里不再展开论述，通过在组学数据库上添加生物信息学流程可以帮助平台使用者挖掘组学数据背后的生物学知识。

在一个实施例中，预设的疾病可以包括心力衰竭、急性髓系白血病、高原病、性腺发育异常、前列腺癌、乳腺癌和线粒体病等重大疾病或罕见病中的一种。在我们的实际生活中，经常可以从电视等媒体中获知一些人因患有某类严重的疾病而无法救治的新闻，这其中就包括心力衰竭、急性髓系白血病和高原病等重大疾病或罕见病，随着人类基因组研究的深入以及测序技术的快速发展，我们知道这些严重的疾病通常与细胞遗传学变异有关，因此，收集这些类特定疾病相关的组学数据，并系统地利用生物信息分析方法，辅助研究人员识别被查询的基因是否是潜在的严重疾病的调控和驱动基因或生物标志物，可以帮助我们了解这些疾病的发病机制和防治措施，对于诊断和治疗都具有非常重要的意义。

根据上述实施例中提供的方法构建的组学数据分析平台，可以使用户通过对所要研究的组学数据进行样本分组，并进行一键式的差异分析和注释分析，还可以对基因进行体细胞突变分析、表达量展示分析、共表达分析、miRNA调控分析和通路分析。因而，平台的具体功能可包括基因相关数据集查询、分析方法选择、样本分组选择等，同时，平台也可进行数据集列表展示、转录组差异分析结果页面展示、转录组生存分析结果页面展示、转录组共表达分析结果页面展示、CNV差异分析结果页面展示、CNV生存分析结果页面展示、miRNA查询结果页面展示、KEGG查询结果页面展示等，这些数据分析功能和分析结果展示为疾病研究人员提供一个更加高效和便捷的组学数据整合分析途径，为他们节约大量的宝贵时间，有利于临床、科研和教学任务的顺利展开。

应该理解的是，虽然图2至图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种组学数据分析平台的构建装置700，包括：数据获取模块701、数据处理模块702、数据分析模块703和数据展示模块704，其中：

数据获取模块701，用于获取与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息；

数据处理模块702，用于根据与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建与预设的疾病相关的组学数据数据库；

数据分析模块703，用于根据预设的疾病的特性，在组学数据数据库的基础上添加预设的生物信息学分析流程；

数据展示模块704，用于根据添加的生物信息学分析流程，构建组学数据分析平台，以将组学数据数据库中的数据进行图形化展示。

关于组学数据分析平台的构建装置的具体限定可以参见上文中对于组学数据分析平台的构建方法的限定，在此不再赘述。上述组学数据分析平台的构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待评估商标的注册通过率的评估结果。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种组学数据分析平台的构建方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据与预设的疾病相关的文献摘要信息，构建文献信息表。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据与预设的疾病相关的文献摘要信息，构建文献信息表。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种组学数据分析平台的构建方法，其特征在于，所述组学数据分析平台用于展示预设的疾病与组学数据之间的关联关系，所述预设的疾病包括对应的至少一种具体疾病，所述方法包括：

获取与所述预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息；

根据所述与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建与所述预设的疾病相关的组学数据数据库；

根据所述预设的疾病的特性，在所述组学数据数据库的基础上添加预设的生物信息学分析流程；

根据添加的生物信息学分析流程，构建所述组学数据分析平台，以将所述组学数据数据库中的数据进行图形化展示。

2.根据权利要求1所述的组学数据分析平台的构建方法，其特征在于，所述获取与所述预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，包括：

通过网络爬虫技术，在医学术语本体库中获取与所述预设的疾病相关的特征词汇；

根据所述与预设的疾病相关的特征词汇，在组学数据库中获取与所述预设的疾病相关的数据集数据；

对所述数据集数据进行校验和预处理，得到与所述预设的疾病相关的组学数据和临床数据；

根据所述与预设的疾病相关的特征词汇，在基因知识库中获取与所述预设的疾病相关的突变基因数据，在文献数据库中获取与所述预设的疾病相关的文献摘要信息。

3.根据权利要求1所述的组学数据分析平台的构建方法，其特征在于，所述根据所述与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建与所述预设的疾病相关的组学数据数据库，包括：

根据所述与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建子数据表单；

根据所述子数据表单中预设的关联键和所述关联键的键值，构建与所述预设的疾病相关的组学数据数据库。

4.根据权利要求3所述的组学数据分析平台的构建方法，其特征在于，所述子数据表单包括数据集表、数据集表达表、数据集样本表、突变基因信息表、基因疾病关联信息表和文献信息表；则所述根据所述与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建子数据表单，包括：

根据与所述预设的疾病相关的组学数据和临床数据，构建所述数据集表、所述数据集表达表和所述数据集样本表；

根据与所述预设的疾病相关的突变基因数据，构建所述突变基因信息表和所述基因疾病关联信息表；

根据与所述预设的疾病相关的文献摘要信息，构建所述文献信息表。

5.根据权利要求4所述的组学数据分析平台的构建方法，其特征在于，所述根据与所述预设的疾病相关的突变基因数据，构建所述突变基因信息表和所述基因疾病关联信息表，包括：

根据与所述预设的疾病相关的突变基因数据，通过训练好的机器学习模型，构建所述突变基因信息表；

根据所述突变基因信息表，通过疾病检索工具计算得到所述预设的疾病和与所述预设的疾病相关的基因之间的关联权重；

根据所述预设的疾病和与所述预设的疾病相关的基因的关联权重，构建所述基因疾病关联信息表。

6.根据权利要求1所述的组学数据分析平台的构建方法，其特征在于，所述生物信息学分析流程包括差异分析流程、临床分析流程、共表达分析流程、生存分析流程、miRNA靶基因分析流程、通路分析流程和突变注释流程中的一种或多种。

7.根据权利要求1-6任一项所述的组学数据分析平台的构建方法，其特征在于，所述预设的疾病为心力衰竭、急性髓系白血病、高原病、性腺发育异常、前列腺癌、乳腺癌和线粒体病中的一种。

8.一种组学数据分析平台的构建装置，其特征在于，所述装置包括：

数据获取模块，用于获取与所述预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息；

数据处理模块，用于根据所述与预设的疾病相关的组学数据、临床数据、突变基因数据和文献摘要信息，构建与所述预设的疾病相关的组学数据数据库；

数据分析模块，用于根据所述预设的疾病的特性，在所述组学数据数据库的基础上添加预设的生物信息学分析流程；

数据展示模块，用于根据添加的生物信息学分析流程，构建所述组学数据分析平台，以将所述组学数据数据库中的数据进行图形化展示。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。