CN113160996A

CN113160996A - 一种基于实体的心血管疾病数据集成方法

Info

Publication number: CN113160996A
Application number: CN202110069524.6A
Authority: CN
Inventors: 宓开拓; 周洋; 曹彦东; 宋华珠
Original assignee: Beijing Anzhiyin Biotechnology Co ltd
Current assignee: Beijing Anzhiyin Biotechnology Co ltd
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-07-23
Anticipated expiration: 2041-01-19
Also published as: CN113160996B

Abstract

本发明属于医疗技术领域，公开了一种基于实体的心血管疾病数据集成方法，建立心血管疾病实体的双层模型并形式化所述双层模型；通过心血管疾病数据的实体建模方法建立心血管疾病实体；将建立的所述心血管疾病实体通过基于实体的心血管数据集成方法加入形式化后的所述双层模型。本发明解决了已有的疾病相关因素的数据库都只是围绕一到两种疾病相关因素进行构建，不能提供一个对于疾病的相关因素的全面视图问题。本发明以常用的医学数据源作为基础，提出的心血管疾病实体比人类疾病本体中的心血管疾病多7318种，且提高了数据质量；同时开发了一个Web系统用于该集成数据的使用，能为用户提供特定疾病所需的多因素视图。

Description

一种基于实体的心血管疾病数据集成方法

技术领域

本发明属于医疗技术领域，尤其涉及一种基于实体的心血管疾病数据集成方法。

背景技术

目前，根据生物信息学链接目录网站提供的信息，目前可以供公开使用的资源、数据库和工具的生物信息网站大约有2345个。这些信息具有分散、异质、异构等特点，使得查询获取数据的工作繁杂而又低质，且难以集成多个异构的数据库和网络资源。由NCBI提供的生物医学分析领域最重要的数据库Entrez 系统和药物设计领域中核心的化学信息学数据库PubChem都是利用借助将不同数据库间的实体关系，进行了映射集成。这些基于链接的方法在相关分析领域发挥着巨大作用，但其难以整合数据库的内部结构。

存储了人类遗传、蛋白、结构和文献数据的基因组数据库；封装仲裁体系结构来存储PDB、SWISS-PROT、SCop和dbEST数据的DataFoundry；集成了PDB、SWISS-PROT等数据，并在这些数据的基础上提供搜索功能的 BIOMOLQUEST。但这些基于数据仓库的方法不擅长处理不同的数据进行统一的存储、数据量巨大、构建全局通用的数据模式等问题。

对于疾病数据集成，生物医学探索大量的数据通常需要跨多个自治的、异构的和分布式的数据源，使用复杂的查询来完成。语义集成是数据库、信息集成和本体等多个学科交叉的一个活跃分析领域。GPKB是一个用来创建和维护基因组和蛋白质组知识库的软件架构。Jiajie Peng等人通过整合异构的知识和数据源来创建集成的生物医学网络。马静等人利用数据仓库集成方案，给用户提供统一的应用平台。隽立然等人将每个数据库的内容建立概念上的链接，提供对数据化的衡量网络中数据库之间关系与检索的方法。

Davis等人将医学主题词表和OMIM合并到MEDIC中，其融合了MeSH 中的疾病分层结构和OMIM中的详细疾病描述。Li J等人提出了一种通过 UMLS连接多种疾病相关资源的方法，并将467个基因评估与1581例疾病记录进行了对比。尽管在整合疾病资源方面取得了一些进展，但它们并没有提供用户界面来浏览数据库。

通过上述分析，现有技术存在的问题及缺陷为：已有的疾病相关因素的数据库都只是围绕一到两种疾病相关因素进行构建，不能提供一个对于疾病的相关因素的全面视图。

解决以上问题及缺陷的难度为：关于疾病的数据一般数据量大、且分散在大量不同的开源或付费网站，疾病的表示存在大量不一致等，心血管疾病也具有上述特点。同时，随着基因、蛋白质等生物信息快速发展，在心血管疾病诊断或研究时考虑的因素不全，尤其缺少将疾病病情以及基因等生物信息相融合的数据支持。

解决以上问题及缺陷的意义为：世卫报告公布的全球十大死因中心脏病仍是“头号杀手”，把与心血管疾病相关的多种数据集成后可以为心血管疾病的诊断与治疗提供从疾病基因、蛋白质、表型、药物等多种信息，方便病人更好地了解自己的病情，并为医生提供更全面的数据支持。

发明内容

针对现有技术存在的问题，本发明提供了一种基于实体的心血管疾病数据集成方法。

本发明是这样实现的，一种基于实体的心血管疾病数据集成方法，应用于信息数据处理终端，所述基于实体的心血管疾病数据集成方法包括：

建立心血管疾病实体的双层模型并形式化所述双层模型；

通过心血管疾病数据的实体建模方法建立心血管疾病实体；

将建立的所述心血管疾病实体通过基于实体的心血管数据集成方法加入形式化后的所述双层模型。

进一步，所述建立心血管疾病实体的双层模型包括：

从疾病本体、MeSH和OMIM中获取疾病术语实体，根据心血管疾病相关因素确定9个心血管疾病连接实体，并从14个心血管疾病数据源中获取16个关于单一疾病相关因素的心血管疾病数据实体；

通过实体之间的same_as关系，建立心血管疾病术语实体与16个心血管疾病数据实体之间的联系，通过实体之间的disease_related关系，建立心血管疾病术语实体与心血管疾病连接实体之间的联系；

同时，根据心血管疾病数据实体与心血管疾病连接实体之间的focus_on 关系，构建两层的心血管疾病实体关系模型；

所述两层的心血管疾病实体关系模型上层为心血管疾病术语实体与心血管疾病连接实体关系模型，由9个心血管疾病连接实体与心血管疾病术语实体之间的关系组成；下层为16个心血管疾病数据实体；上层实体和下层实体之间依据疾病数据实体所关注的疾病相关因素，将每个疾病数据实体与一个或多个疾病连接实体联系起来，并将所有疾病数据实体关联到疾病术语实体上；

当有新的疾病数据实体加入时，将新的心血管疾病数据实体加入下层中，并将心血管疾病术语实体与新疾病数据实体关联起来；新疾病数据实体包含新的疾病相关因素，则定义相应的疾病连接实体加入上层中，否则，将新疾病数据实体与已有的疾病连接实体联系起来。

所述心血管疾病实体双层模型形式化包括：

(1)疾病术语实体、疾病数据实体中的is_a关系；

(2)疾病术语实体与疾病数据实体之间的same_as关系；

(3)疾病连接实体与疾病数据实体之间的focus_on关系；

(4)疾病术语实体与疾病连接实体间的disease_related关系。

所述心血管疾病数据的实体建模方法建立心血管疾病实体包括：

(1)心血管疾病术语实体的获取，将疾病本体与MeSH、OMIM进行关联，形成疾病语集，并从中获取心血管疾病术语实体；

(2)心血管疾病数据实体获取，将获取到的14个心血管疾病数据源的原始数据中，进行数据文件格式多样化，包括编写程序对xml文件进行处理，保留其中部分有效的标签文本，将有效的标签文本转化为tsv文件；

对于txt文件，编写程序将txt文件转化为tsv文件；

对tsv、csv和xls文件分别编写程序，将所述tsv、csv和xls文件结构化处理，存入本地数据库中；对于GAD和CTD数据源的数据分拆成关于基因和关于环境分别存储。

经过上述处理后，14个疾病数据源中的原始数据被组织成为16个关于单一疾病相关因素的结构化数据；对应这些结构化数据，获取16个相应的心血管疾病数据实体，所述16个相应的心血管疾病数据实体的属性包括疾病名称、疾病相关因素的标识；

(3)心血管疾病连接实体的获取：根据所确定的心血管疾病术语实体和心血管疾病数据实体，确定基因、蛋白质、酶、单核苷酸多态性(SNP)、 microRNA、代谢物、表型、环境和药物9个因素建立心血管疾病连接实体。

进一步，所述基于实体的心血管数据集成方法包括：通过心血管疾病术语实体映射和疾病连接实体映射两阶段实现对心血管疾病数据的集成。

所述心血管疾病术语实体映射包括：

(1)直接映射：构建疾病术语的同义词表，对疾病本体中所有的疾病术语在其他疾病术语集中的同义词术语或者交叉引用，建立心血管疾病术语实体与OMIM、MeSH以及心血管疾病数据源中的疾病术语的同义词映射，将HDO与其他心血管疾病术语集直接关联起来；

(2)间接映射：在疾病术语与HDO的树形结构之间建立is_a的联系；如果MeSH、OMIM中的某个疾病术语在疾病本体中未定义，但所述某个疾病术语祖先节点中存在于疾病本体有直接映射关系的节点时，将疾病本体和其他疾病术语集通过疾病术语树形结构中的节点路径关系，建立疾病术语之间的间接推理映射，建立HDO与MeSH、OMIM之间的间接映射；

(3)注释器映射：经过直接映射和间接映射后，对于剩下的心血管疾病数据源中没有被映射到疾病本体的疾病术语，无法再通过疾病术语集自身的数据进行映射，使用现有的公共生物医学注释器对剩余的疾病术语进行注释，然后将注释后的结果集成到人类疾病本体中；

最后，对于无法进行映射的疾病术语，无法映射到HDO中，标记为待处理疾病数据。

所述心血管疾病术语实体的直接映射算法具体包括：

所述间接映射算法具体包括：

进一步，所述心血管疾病连接实体映射方法包括：

对获取的16个心血管疾病数据实体中的数据记录进行标记，在原结构化文件中添加疾病相关因素ID和疾病相关因素符号两个字段，并根据各个疾病数据实体所关注的疾病相关因素，将对应的疾病连接实体与之进行映射，更新疾病相关因素ID和疾病相关因素符号两个数据字段；

最后以统一的格式将这些疾病数据整合到一张数据表中，通过疾病本体 ID、疾病相关因素ID和疾病相关因素符号唯一确定一条疾病与其相关因素的记录，合并表中描述同一种疾病及其相关因素的记录；整合这些心血管疾病数据后形成用于索引疾病相关因素的数据表。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述基于实体的心血管疾病数据集成方法：

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述基于实体的心血管疾病数据集成方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：

本发明提出并建立了心血管疾病实体的双层模型并形式化了该模型；

提出了心血管疾病数据的实体建模方法；

提出了基于实体的心血管数据集成方法。

具体地，本发明对心血管疾病数据的集成进行了分析，提出了基于实体的心血管疾病数据集成方法。首先，通过定义和构建心血管疾病术语实体、心血管疾病数据实体和心血管疾病连接实体及其关系，建立了心血管疾病实体双层模型；然后，给出了心血管疾病术语实体映射算法和心血管疾病连接实体映射方法，并结合心血管疾病实体模型实现对心血管疾病多方面因素的疾病数据的集成。

本发明提供的基于实体的心血管疾病数据集成方法，以常用的医学数据源作为基础，提出的心血管疾病实体比人类疾病本体中的心血管疾病多7318种，且提高了数据质量；同时开发了一个Web系统用于该集成数据的使用，能为用户提供特定疾病所需的多因素视图。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的心血管疾病实体双层模型图。

图1中：心脏病术语实体(Cardiovascular disease terminology entity)；心脏病连接实体(Cardiovascular disease connecting entity)；心脏病疾病数据实体(Cardiovascular disease data entity)。

图2是本发明实施例提供的原始疾病数据处理流程图。

图3是本发明实施例提供的MeSH与人类疾病本体的间接映射实例图。

图4是本发明实施例提供的心血管疾病术语实体映射流程图。

图5是本发明实施例提供的heart disease术语实体的“is_a”关系示例图。

图6是本发明实施例提供的心血管疾病术语实体与心血管疾病数据实体的“same_as”关系示例图。

图7是本发明实施例提供的心血管疾病数据实体与心血管疾病连接实体的“focus_on”关系示例图。

图8是本发明实施例提供的心血管疾病术语实体与心血管疾病连接实体的“disease_related”关系示例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于实体的心血管疾病数据集成方法，下面结合附图对本发明技术方案作详细的描述。

本发明心血管疾病数据集成方法包括：先建立双层框架模型；然后再向里面加入实体、联系，加入时通过集成算法实现整个模型的。

具体的包括：建立心血管疾病实体的双层模型并形式化了该模型。

提出心血管疾病数据的实体建模方法建立实体；

将建立的实体通过基于实体的心血管数据集成方法加入形式化后的双层模型。

下面结合具体实施例及实验对本发明的方案做进一步描述。

1.心血管疾病实体双层模型

1.1心血管疾病实体的双层模型结构

本发明从人类疾病本体、MeSH和OMIM中获取了疾病术语实体，根据心血管疾病相关因素确定了本发明的9个心血管疾病连接实体，并从14个心血管疾病数据源中获取了16个关于单一疾病相关因素的心血管疾病数据实体。通过实体之间的“same_as”关系，本发明建立了心血管疾病术语实体与16个心血管疾病数据实体之间的联系，通过实体之间的“disease_related”关系，建立了心血管疾病术语实体与心血管疾病连接实体之间的联系。另一方面，考虑到心血管疾病数据实体与心血管疾病连接实体之间的“focus_on”关系，本发明构建了一个两层的心血管疾病实体关系模型，如图1所示.

在心血管疾病的实体双层模型中，上层是心血管疾病术语实体与心血管疾病连接实体关系模型，由9个心血管疾病连接实体与心血管疾病术语实体之间的关系组成，下层则是16个心血管疾病数据实体。上层实体和下层实体之间依据疾病数据实体所关注的疾病相关因素，将每个疾病数据实体与一个或多个疾病连接实体联系起来，并将所有疾病数据实体关联到疾病术语实体上。

随着心血管疾病数据集成的发展，当有新的疾病数据实体加入时，只需要将新的心血管疾病数据实体加入下层中，并将心血管疾病术语实体与新疾病数据实体关联起来。如果新疾病数据实体包含了新的疾病相关因素，则定义相应的疾病连接实体加入上层中，否则，将新疾病数据实体与已有的疾病连接实体联系起来。心血管疾病实体双层模型从抽象层次上指导了心血管疾病数据的集成方式，保证了各个疾病数据实体的独立性，使得心血管疾病数据的集成有了较好的可扩展性。

1.2心血管疾病实体双层模型形式化

对构建的心血管疾病实体双层模型，下面给出一种形式化方法进行抽象表述，使该实体模型有一个统一的整体表示，为后续心血管疾病数据的集成和管理提供支撑。

定义1.实体(entity)：表示实体双层模型中独立存在、可操作的对象。 entity包括{HDO,MeSH,OMIM,基因gene,环境environment,microRNA,酶 enzyme,蛋白质protein,表型phenotype,单核苷酸多态SNP,代谢物 metabolite,药物drug,GeneRIF,GAD,…,PharmGKB}。

定义2.实体间关系(relationship)：表示实体双层模型中entity之间的关系。relationship包括“is_a”关系、“same_as”关系、“focus_on”关系和“disease_related”关系，其表示如下：

①“is_a”关系

relationship(parameter₁,…,parameter_n,→)表示parameter_i继承于parameter_i+1(0<i<n且i,n∈Z)。

②“same_as”关系

relationship(parameter₁,…,parameter_n,-)表示parameter_i到 parameter_i+1到…parameter_n之间是同义关系(i,j>0且i,j∈Z)。

③“focus_on”关系

relationship(parameter₁,parameter₂,…,parameter_n,《)表示 parameter₁是parameter₂到parameter_n所关注的疾病相关因素(i,j>0且i,j ∈Z)。

④“disease_related”关系

relationship(parameter₁,parameter₂,

)表示parameter₁与parameter₂之间的生物学相关关系。

根据上面的定义，心血管疾病实体双层模型的形式化如下：

(1)疾病术语实体、疾病数据实体中的“is_a”关系

relationship(extrinsic cardiomyopathy,cardiomyopathy,heart disease,→)；

relationship(congenital heart disease,heart disease,→)；

(2)疾病术语实体与疾病数据实体之间的“same_as”关系

relationship(congestive heart failure,CHF,Cardiac Failure Congestive,-)；

relationship(heart valve disease,Valvular heart disease,-)；

(3)疾病连接实体与疾病数据实体之间的“focus_on”关系

relationship(gene,GeneRIF,OMIM,GAD,CTD,《)；

relationship(SNP,GWASdb,DistiLD,NHGRI GWAS Catalog,《)；

relationship(microRNA,miR2Disease,HMDD,《)；

relationship(protein,UniprotKB,《)；relationship(metabolite,HMDB, 《)；

relationship(enzyme,BRENDA,《)；relationship(phenotype,HPO,《)；

relationship(drug,PharmGKB,《)；relationship(environment,GAD,CTD, 《)；

(4)疾病术语实体与疾病连接实体间的“disease_related”关系

relationship(gene,disease,

)；relationship(SNP,disease,

)；

relationship(metabolite,disease,

)；relationship(phenotype, disease,

)；

relationship(microRNA,disease,

)；relationship(protein,disease,

)；

relationship(enzyme,disease,

)；relationship(drug,disease,

)；

relationship(environment,disease,

)；

2心血管疾病数据的实体建模

2.1心血管疾病实体

本发明首先提出心血管疾病实体，它包括三类：心血管疾病术语实体、心血管疾病连接实体和心血管疾病数据实体，并给出这三类实体的确定和提取过程。

2.1.1心血管疾病术语实体

从研究疾病的角度出发来集成心血管疾病数据，因此首先需要确定一个关于心血管疾病术语的实体，即心血管疾病术语实体。通过这个实体，提供一个明确、统一、且尽可能全面的心血管疾病术语集，用于心血管疾病数据的集成。

当前常用的关于疾病名称的术语集如下：

(1)OMIM

(2)MeSH

(3)SNOMED-CT

(4)NCIT

(5)MEDIC

(6)人类疾病本体(Human Disease Ontology,HDO)

在以上的6个疾病术语集中，MeSH缺乏对罕见遗传疾病的收录，而OMIM 中是针对遗传疾病所构建，只有人类疾病本体是从疾病名称出发构建的疾病术语本体，并且其中交叉引用了MeSH、NCIT、SNOMED-CT以及OMIM等。因此，人类疾病本体更适合心血管疾病数据的集成。

综上所述，本发明决定将人类疾病本体与MeSH、OMIM进行关联，形成一个覆盖范围更广的疾病语集，并从中获取心血管疾病术语实体。MeSH、OMIM 与人类疾病本体的详细关联过程将在第3部分中给出。

2.1.2心血管疾病数据实体

2.1.2.1心血管疾病数据获取

心血管疾病研究主要包括疾病的自身特征(如疾病的表型)、疾病的致病因素(如遗传因素、环境因素)，以及疾病的治疗(如药物)。为了覆盖心血管疾病的研究内容及保证集成的心血管疾病数据的完整性和准确性，本发明制定了五个用于选定待集成的心血管疾病数据源的标准，分别是：

1)数据必须与心血管疾病相关；

2)2012年之后数据有更新；

3)数据提供下载或可获取；

4)数据记录数量不低于2000；

5)数据源中的数据记录来源可靠。

基于以上的要求，本发明最终确定了14个疾病数据源用于心血管疾病数据的集成。下面给出这14个数据源的内容(为了避免因中文翻译带来的误差，所有数据源名称采用原始英文名称及缩写)。

基因研究相关的数据源包括Gene Reference Into Function(GeneRIF)、 OMIM、Genetic Association Database(GAD)、Comparative Toxicogenomics Database(CTD)

蛋白质研究相关的数据源有UniprotKB。

酶研究相关的数据源有BRaunschweig ENzyme DAtabase(BREBDA)

遗传变异研究相关的数据源包括Disease and Traits in LinkageDisequilibrium(DistiLD)Genome-Wide Association Studies database(GWASdb)、NHGRIGWAS Catalog。

microRNA研究相关的数据源包括miR2Disease、Human MicroRNA DiseaseDatabase(HMDD)。

代谢物研究相关的数据源有人类代谢数据库Human Metabolome Database(HMDB)。

药物研究相关的数据源有Pharmcogenomics Knowledge Base(PharmGKB)。

表型研究相关的数据源有Human Phenotype Ontology(HPO)。

环境研究相关的数据源描述了生活环境中可能接触到了化合物等致病因素，其包括的数据源有GAD和CTD。

这14个数据源均通过网站链接或者注册申请后获取了原始数据文件，并保存到本地。

2.1.2.2心血管疾病数据实体获取

获取到的14个心血管疾病数据源的原始数据中，数据文件格式多样，包括txt、tsv、csv、xls、xml等。同时，对于各个具体的数据文件，获取到的数据中包含了部分对于本发明来说不需要的信息。因此为了获取心血管疾病数据实体，方便后续对疾病数据的集成，需要对原始数据进行相应的预处理。

图2给出了原始疾病数据的处理流程。

tsv、csv和xls文件具有类似数据库表的结构化形式，可以比较方便地编写程序对其进行结构化处理以保存到本地数据库中。半结构化的xml文件可以通过标签获取相应的文本进行处理。对于非结构化的txt文件则需要遍历整个文件进行处理。因此，本发明首先编写程序对xml文件进行处理，保留其中部分对本发明有效的标签文本，将其转化为tsv文件。类似的，对于txt文件，编写程序将其转化为tsv文件。最后，针对tsv、csv和xls文件分别编写程序，将其结构化处理，存入本地数据库中。特别地，GAD和CTD数据源均包含了基因和环境两类疾病相关因素，为了方便区分，本发明将这两个数据源的数据分拆成关于基因和关于环境的两个部分分别存储。

经过上述处理后，14个疾病数据源中的原始数据被组织成为16个关于单一疾病相关因素的结构化数据。对应这些结构化数据，本发明获取了16个相应的心血管疾病数据实体，这些实体的属性包括疾病名称、疾病相关因素的标识等。

2.1.3心血管疾病连接实体

心血管疾病连接实体与心血管疾病相关，用于建立心血管疾病数据实体与心血管疾病术语实体的关联。根据所确定的心血管疾病术语实体和心血管疾病数据实体，本发明确定基因、蛋白质、酶、单核苷酸多态性(SNP)、microRNA、代谢物、表型、环境和药物这9个因素建立心血管疾病连接实体；同时，心血管疾病连接实体是可以根据实际情况进行扩充的，表1列出了心血管疾病连接实体中的9个实体的说明。

表1心血管疾病连接实体说明

3.基于实体的心血管疾病数据集成

通过心血管疾病数据实体建模，构建了心血管疾病实体双层模型，实体双层模型给出了各个实体之间的联系，并对心血管数据的集成方式给出了指导。基于这一实体双层模型，本发明通过心血管疾病术语实体映射和疾病连接实体映射两个阶段实现了对心血管疾病数据的集成。

3.1心血管疾病术语实体映射

基于心血管疾病实体双层模型对心血管疾病数据进行集成时，首先需要构建一个明确、统一、并尽可能全面的疾病术语集，通过这一疾病术语集与各个疾病数据源之间的疾病术语映射来统一各个疾病数据源中的疾病命名方式不一致的问题。首先将MeSH和OMIM映射到人类疾病本体中获取疾病术语实体，下面详细阐述获取疾病术语实体及建立心血管疾病术语关联的过程。

3.1.1疾病术语实体映射问题分析

由于不同的疾病术语集在不同的数据库汇中，所定义疾病名称时，标准不统一，在将MeSH、OMIM以及心血管疾病数据源的疾病术语映射到HDO时会存在如下的问题：

(1)各个疾病术语集中存在部分疾病术语描述了相同的疾病，但是疾病的命名策略却不完全相同，大致可以将同义疾病的不同表示方式归纳为六类：

1)大小写问题。在描述同一种疾病时，不同的数据库中对该疾病的术语集中，疾病名称描述可能使用大写或是小写字母，例如，HDO中的疾病术语“aortic valveinsufficiency[DOIO:57]”和MeSH中的疾病术语“Aortic Valve Insufficiency”是同一种疾病；

2)等价词问题。疾病术语中存在一些语义相同的词汇，例如，“heart”和“cardiac”，“fast”和“rapid”等；

3)单复数问题。例如，HDO中的疾病术语“cardiomyopathy [DOID:0050700]”和MeSH中的疾病术语“Cardiomyopathies”是同一种疾病；

4)词序问题。例如，HDO中的疾病术语“alcoholic cardiomyopathy [DOID:12935]”和MeSH中的“Cardiomyopathy,Alcoholic”是同一种疾病；

5)词干问题。例如，疾病术语“Marfan’s syndrome”中的“Marfan’s”和“Marfansyndrome”中的“Marfan”有共同的词干“Marfan”。

(2)HDO虽然是由疾病术语产生构建的疾病术语集，但是语集中却没有包含全部所需的疾病术语，MeSH、OMIM以及某些心血管疾病数据源中存在一些人类疾病本体中还未定义的疾病术语。例如，医学主题词中有疾病术语“Vascular Fistula”，但是HDO中没有这一术语。

针对以上问题，本发明通过三个阶段来解决MeSH、OMIM以及心血管疾病数据源的疾病术语与HDO的映射问题，过程如下：

(1)直接映射

针对各个疾病术语集中存在同义疾病术语的特点，构建疾病术语的同义词表，寻找人类疾病本体中所有的疾病术语在其他疾病术语集中的同义词术语或者交叉引用，设计算法建立心血管疾病术语实体与OMIM、MeSH以及心血管疾病数据源中的疾病术语的同义词映射，从而将HDO与其他心血管疾病术语集直接关联起来。

(2)间接映射

为了进一步扩大疾病术语实体的疾病术语范围，本发明考虑了各个疾病术语集中疾病术语之间的内在联系。HDO和MeSH中的疾病术语之间都是通过“is_a”关系进行关联，形成了疾病术语之间的继承结构。为了将MeSH、OMIM 以及疾病数据源中不存在于HDO中的疾病术语映射到HDO中，本发明在这些疾病术语与HDO的树形结构之间建立“is_a”的联系。如果MeSH、OMIM中的某个疾病术语在人类疾病本体中未定义，但是其祖先节点中存在与人类疾病本体有直接映射关系的节点时，可以将人类疾病本体和其他疾病术语集通过疾病术语树形结构中的节点路径关系，建立疾病术语之间的间接推理映射，从而建立HDO与MeSH、OMIM之间的间接映射。图3给出了MeSH与HDO进行间接映射的实例，其中圆圈代表疾病术语，箭头表示疾病术语之间的“is_a”关系，通过间接映射，MeSH中的疾病术语“CarcinoidHeart Disease[D002275]”被映射到了人类疾病本体中的“heart disease[DOID:114]”上。

(3)注释器映射

经过直接映射和间接映射后，对于剩下的心血管疾病数据源中没有被映射到人类疾病本体的疾病术语，无法再通过疾病术语集自身的数据进行映射，因此本发明使用现有的公共生物医学注释器(Open Biomedical Annotator-OBA)对剩余的疾病术语进行注释，然后将注释后的结果集成到人类疾病本体中。

最后，对于无法通过上述所有步骤进行映射的疾病术语，本发明暂时无法将其映射到HDO中，因此在本发明中，对于暂时无法进行映射的疾病术语，标记其为待处理疾病，以方便后续工作中的处理。图4给出了HDO与MeSH、OMIM 以及心血管疾病数据源中的疾病术语的映射流程。

3.1.2心血管疾病术语实体映射算法

(1)心血管疾病术语实体的直接映射算法

疾病术语实体映射第一阶段是通过疾病术语的交叉引用和同义词进行直接映射。这里给出了人类疾病本体与OMIM、MeSH以及心血管疾病数据源中疾病术语的直接映射算法。为了实现疾病术语实体的直接映射，本发明针对人类疾病本体、OMIM和MeSH分别构建了各自的疾病术语同义词表。为了比较疾病命名中是否包含相同的词干，本发明使用了波特词干提取算法来解决这一问题。设计算法1，建立人类疾病本体与OMIM、MeSH以及心血管疾病数据源中的疾病术语的直接映射。

算法1心血管疾病术语实体的直接映射算法CDirectMap

CDirectMap算法的时间复杂度：O(n³)

在直接映射过程中，如果这些疾病术语是通过交叉引用疾病术语实体中的疾病术语，或者是疾病术语实体中的疾病术语的同义词，则它们作为直接映射，通过程序映射到HDO中。

(2)间接映射

考虑到各个疾病术语集中疾病术语的内在关联，利用疾病术语之间的“is_a”关系，本发明使用间接映射对疾病术语实体进行了进一步映射。为了实现疾病术语实体的间接映射，本发明针对疾病术语实体、MeSH和OMIM分别构建了各自的疾病术语节点到根节点的路径表。这里给出了疾病术语实体与 OMIM、MeSH中疾病术语的间接映射算法。设计算法2，建立疾病术语实体与OMIM、MeSH中的疾病术语的间接映射。

算法2心血管疾病术语实体的间接映射算法CIndirectMap

CIndirectMap时间复杂度：O(n⁴)

在间接映射过程中，由于MeSH和疾病术语实体中的疾病术语都是通过“is_a”关系建立了内在联系，形成了树形层次结构，如果医学主题词中的某一个疾病术语在疾病术语实体中未定义，而其祖先节点和疾病术语实体中的疾病术语是直接映射关系，那么将这一疾病术语加入到疾病术语实体中，建立疾病术语实体与MeSH中的疾病术语之间的间接推理映射，从而扩展了疾病本体所表示的疾病术语的范围。

另一方面，对于OMIM，其中并没有通过“is_a”关系建立疾病术语间的树形层次结构，因此在本发明中使用合并的疾病词汇表MEDIC来实现疾病术语实体与OMIM中的疾病术语的间接映射。

(3)注释器映射

疾病术语实体映射的最后一步是利用现有的公共生物医学注释工具对疾病术语进行注释。经过直接映射和间接映射后，对于心血管疾病数据源中剩下的疾病术语，它们既不能通过交叉引用或者同义词与疾病术语实体建立映射，也不能使用基于疾病术语之间“is_a”关系的树形层次结构进行间接的推理映射。NCBO Annotator是一个广泛使用的基于本体的开放生物医学注释Web服务，通过使用其提供的RESTful API，可以使用生物医学本体概念来注释疾病数据^[31]。因此本发明采用NCBO Annotator来对剩下的心血管疾病数据源中的疾病术语进行注释，然后将经过注释后的疾病术语整合到疾病本体中。

例如，通过NCBO Annotator注释后，疾病术语“atherosclerotic heart disease”被映射到疾病术语实体中的“heart disease[DOID:114]”上，疾病术语“metabolicsyndrome myocardial infarct”被映射到疾病术语实体中的“myocardial infarction[DOID:5844]”上。

3.2心血管疾病连接实体映射方法

经过疾病术语实体映射后，消除了各数据源因疾病命名方式不同而带来异构问题，本发明心血管疾病数据的集成问题得到了初步解决。而集成中的另一个问题是，在不同的心血管疾病数据源中，对于相同的疾病相关因素的标识可能不一样，这使得心血管疾病数据的集成产生了事实上的冗余记录。因此在心血管疾病数据集成中需要统一疾病相关因素的标识。

在心血管疾病数据的集成过程中，不同疾病数据源中的许多疾病记录可能描述了相同的疾病相关因素与疾病之间的关系。例如，在GeneRIF、OMIM、CTD 和GAD中记录了相同的心血管疾病与基因ACTA2之间的关系。如果来自不同数据源的疾病记录对疾病相关因素的描述是相同，而通过疾病术语实体映射后其疾病术语也是相同的，则可以很容易的去除重复的记录。另一方面，来自不同数据源中的疾病记录，它们的疾病术语可能是相同的，但是疾病相关因素的标识可能不相同，而这种标识的不同分为两种情况：一是这些疾病记录是关于同一种疾病的不同类别的疾病相关因素，例如，疾病与基因，疾病与药物，疾病与环境等；另一种情况是这些疾病记录是关于同一种疾病的同一类别的疾病相关因素，但是由于不同数据源中对于同一种疾病相关因素的标识符不相同，导致这些疾病记录会被当作不同的记录，形成数据记录冗余。

疾病连接实体确定了本发明要集成的14个心血管疾病数据源所关注的9 个疾病相关因素，为了统一各数据源中对同一疾病相关因素的标识，本发明首先对每个疾病连接实体的描述进行了统一，然后通过疾病连接实体映射，将这14个心血管疾病数据源分别与对应的疾病连接实体建立映射。表2给出了疾病连接实体的统一描述方式。

表2疾病连接实体统一描述方式

注：统一的数据描述方式中的信息都源自相应数据库，不便翻译

利用上述统一的疾病连接实体描述，对之前获取的16个心血管疾病数据实体中的数据记录进行标记，在原结构化文件中添加了疾病相关因素ID(DAF ID)和疾病相关因素符号(DAF Symbol)这两个字段，并根据各个疾病数据实体所关注的疾病相关因素，将对应的疾病连接实体与之进行映射，更新这两个数据字段。

最后以统一的格式将这些疾病数据整合到一张数据表中，通过疾病本体 ID、疾病相关因素ID和疾病相关因素符号唯一确定一条疾病与其相关因素的记录，合并表中描述同一种疾病及其相关因素的记录，这样描述相同疾病及其相关因素的冗余记录在以统一格式表示之后很容易过滤了。整合这些心血管疾病数据后形成了一个可以用于索引疾病相关因素的数据表，其表结构如表3所示。

表3心血管疾病集成数据疾病相关因素索引表结构

根据研究的需要，这些心血管疾病连接实体可以自由组合，提供一元或多元的特性，从而提供对于心血管疾病相关因素的多种视图，方便研究人员更好地理解心血管疾病。

3.3心血管疾病实体关系定义

通过对上述3种实体的分析，定义的心血管疾病数据实体关系及表示如下。

(1)“is_a”关系

“is_a”关系描述了实体之间的继承关系，这是心血管疾病数据集成中实体间关系的基础。心血管疾病术语实体中的疾病通过“is_a”关系建立了疾病之间的层次关系，图5列举了心血管疾病术语实体中的部分“is_a”关系。

(2)“same_as”关系

“same_as”关系描述了实体之间的同义关系。在心血管疾病数据集成中，相同的疾病可能在不同的疾病数据实体和疾病术语实体中拥有不同的疾病名称，通过“same_as”关系，因疾病名称不同而产生语义异构的实体间可以建立联系，从而消除了这种异构问题。如图6列举了心血管疾病术语实体与心血管疾病数据实体中的部分“same_as”关系。

(3)“focus_on”关系

“focus_on”关系描述了实体之间的关注关系。在心血管疾病数据集成中，每个疾病数据实体关注了与疾病相关的某一方面的因素。本发明获取的16 个疾病数据实体分别关注于9个不同的疾病连接实体，通过“focus_on”关系，疾病数据实体和疾病连接实体间可以建立联系。图7列举了心血管疾病数据实体与心血管疾病连接实体的部分“focus_on”关系。

(4)“disease_related”关系

“disease_related”关系描述了实体间的相关关系。疾病相关因素与疾病间是一种生物学上的相互关联关系，这样的关系无法建立成上面的结构关系，因此本发明定义了“disease_related”关系来概括描述疾病术语实体与各个疾病连接实体间的关系。图8显示了疾病术语实体与疾病连接实体的“disease_related”关系。

通过定义实体之间的这四种关系，本发明理清了心血管疾病数据的实体建模中实体间的联系，为后续建立实体模型做好了准备。同时，这四种关系的定义保证了心血管疾病术语实体、心血管疾病连接实体和心血管疾病数据实体的相对独立性，使得可以更好的应对心血管疾病数据的集成与维护。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于实体的心血管疾病数据集成方法，其特征在于，应用于信息数据处理终端，所述基于实体的心血管疾病数据集成方法包括：

建立心血管疾病实体的双层模型并形式化所述双层模型；

通过心血管疾病数据的实体建模方法建立心血管疾病实体；

2.如权利要求1所述基于实体的心血管疾病数据集成方法，其特征在于，所述建立心血管疾病实体的双层模型包括：

同时，根据心血管疾病数据实体与心血管疾病连接实体之间的focus_on关系，构建两层的心血管疾病实体关系模型；

3.如权利要求1所述基于实体的心血管疾病数据集成方法，其特征在于，所述心血管疾病实体双层模型形式化包括：

(1)疾病术语实体、疾病数据实体中的is_a关系；

(2)疾病术语实体与疾病数据实体之间的same_as关系；

(3)疾病连接实体与疾病数据实体之间的focus_on关系；

(4)疾病术语实体与疾病连接实体间的disease_related关系。

4.如权利要求1所述基于实体的心血管疾病数据集成方法，其特征在于，所述心血管疾病数据的实体建模方法建立心血管疾病实体包括：

对于txt文件，编写程序将txt文件转化为tsv文件；

(3)心血管疾病连接实体的获取：根据所确定的心血管疾病术语实体和心血管疾病数据实体，确定基因(Gene)、蛋白质(Protein)、酶(Enzyme)、单核苷酸多态性(SNP)、microRNA、代谢物(Metabiolities)、表型(Phenotype)、环境(Environment)和药物(Drug)9个因素建立心血管疾病连接实体。

5.如权利要求1所述基于实体的心血管疾病数据集成方法，其特征在于，所述基于实体的心血管数据集成方法包括：通过心血管疾病术语实体映射和疾病连接实体映射两阶段实现对心血管疾病数据的集成。

6.如权利要求5所述基于实体的心血管疾病数据集成方法，其特征在于，所述心血管疾病术语实体映射包括：

7.如权利要求6所述基于实体的心血管疾病数据集成方法，其特征在于，所述心血管疾病术语实体的直接映射算法具体包括：

输入：人类疾病本体、OMIM、MeSH、心血管疾病数据源中的疾病术语

输出：人类疾病本体、OMIM、MeSH、心血管疾病数据源中的疾病术语之间的直接映射结果；

Begin

将人类疾病本体中的疾病术语存入数组do_terms中；

将OMIM、MeSH和心血管疾病数据源中的疾病术语存入数组disease_terms 中；

定义疾病术语直接映射数组term_mapping_direct；

do_terms中的疾病术语的不同形式的同义词(包括单复数、等价词、不同词序等)存入到数组do_variations中；

所述间接映射算法具体包括：

输入：人类疾病本体、MeSH、MEDIC中的疾病术语

输出：人类疾病本体与MeSH、MEDIC中疾病术语的间接映射结果

Begin

将人类疾病本体中的疾病术语存入数组do_terms；

将MeSH、MEDIC中的疾病术语存入数组disease_terms；

将MeSH、MEDIC中的从各个疾病术语节点到根节点的路径存入到数组disease_term_paths中；

将人类疾病本体、MeSH和OMIM的直接映射结果存入term_mapping_direct中；

定义疾病术语间接映射term_mapping_indirect；

。

8.如权利要求5所述基于实体的心血管疾病数据集成方法，其特征在于，所述心血管疾病连接实体映射方法包括：

最后以统一的格式将这些疾病数据整合到一张数据表中，通过疾病本体ID、疾病相关因素ID和疾病相关因素符号唯一确定一条疾病与其相关因素的记录，合并表中描述同一种疾病及其相关因素的记录；整合这些心血管疾病数据后形成用于索引疾病相关因素的数据表。

9.一种信息数据处理终端，其特征在于，所述信息数据处理终端包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～8任意一项所述基于实体的心血管疾病数据集成方法。

10.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1～8任意一项所述基于实体的心血管疾病数据集成方法。