CN110688493A

CN110688493A - 一种关联关系构建方法、装置及电子设备

Info

Publication number: CN110688493A
Application number: CN201910920283.4A
Authority: CN
Inventors: 胡玉兰
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2020-01-14
Anticipated expiration: 2039-09-26
Also published as: CN110688493B

Abstract

本发明提供了一种关联关系构建方法、装置及电子设备。所述方法包括：获取待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集；基于所述待分析疾病，获取病理信息文本；从所述病理信息文本中，获取所述疾病同义词集对应的疾病文本信息、所述基因同义词集对应的基因文本信息和所述症状同义词集对应的症状文本信息；基于所述疾病文本信息、所述基因文本信息和所述症状文本信息，构建所述疾病同义词集中的各疾病、所述基因同义词集中的各基因和所述症状同义词集中的各症状之间的关联关系。本发明能够建立医学数据之间的统一标准，且增加了医学数据之间的连通性。

Description

一种关联关系构建方法、装置及电子设备

技术领域

本发明涉及医学技术领域，特别是涉及一种关联关系构建方法、装置及电子设备。

背景技术

随着生物医学领域数据的大量积累，挖掘数据蕴含的知识或关系是生物医学领域非常重要的子课题。

生物医学知识库所含信息庞大，数据资源信息分布不均衡，没有统一的数据标准，导致数据之间的连通性缺乏，国外通过生物医学本体的构建分析数据结构特征，但每个生物医学本体所含的信息依然缺乏统一的标准。

发明内容

本发明提供一种关联关系构建方法、装置及电子设备，以解决目前医学数据没有统一的标准，导致数据之间缺乏连通性的问题。

为了解决上述问题，本发明实施例公开了一种关联关系构建方法，包括：

获取待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集；

基于所述待分析疾病，获取病理信息文本；

从所述病理信息文本中，获取所述疾病同义词集对应的疾病文本信息、所述基因同义词集对应的基因文本信息和所述症状同义词集对应的症状文本信息；

基于所述疾病文本信息、所述基因文本信息和所述症状文本信息，构建所述疾病同义词集中的各疾病、所述基因同义词集中的各基因和所述症状同义词集中的各症状之间的关联关系。

可选地，所述获取待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集，包括：

获取所述待分析疾病对应的本体数据和疾病结构化数据；

根据所述本体数据和所述疾病结构化数据，生成所述待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集。

可选地，所述基于所述待分析疾病，获取病理信息文本，包括：

采用多线程爬取技术从指定网站爬取所述待分析疾病对应的病理信息文本。

可选地，所述从所述病理信息文本中，获取所述疾病同义词集对应的疾病文本信息、所述基因同义词集对应的基因文本信息和所述症状同义词集对应的症状文本信息，包括：

对所述病理信息文本进行分词处理，生成多个病理分词文本；

根据所述疾病同义词集、所述基因同义词集和所述症状同义词集，获取相应的疾病检索词、基因检索词和症状检索词；

从所述多个病理分词文本中，获取所述疾病检索词对应的疾病分词文本、所述基因检索词对应的基因分词文本和所述症状检索词对应的症状分词文本；

基于所述疾病分词文本、所述基因分词文本和所述症状分词，分别在所述病理信息文本中所处的位置，确定所述疾病文本信息、所述基因文本信息和所述症状文本信息。

可选地，所述基于所述疾病文本信息、所述基因文本信息和所述症状文本信息，构建所述疾病同义词集中的各疾病、所述基因同义词集中的各基因和所述症状同义词集中的各症状之间的关联关系，包括：

根据所述疾病文本信息、所述基因文本信息和所述症状文本信息，构建包含疾病和症状的第一文本特征向量，包含疾病和基因的第二文本特征向量，以及包含症状和基因的第三文本特征向量；

根据所述第一文本特征向量、所述第二文本特征向量、所述第三特征向量和预先训练得到的关联关系模型，获取各所述疾病、各所述基因和各所述症状之间的关联关系。

为了解决上述问题，本发明实施例公开了一种关联关系构建装置，包括：

同义词集获取模块，用于获取待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集；

病理文本获取模块，用于基于所述待分析疾病，获取病理信息文本；

文本信息获取模块，用于从所述病理信息文本中，获取所述疾病同义词集对应的疾病文本信息、所述基因同义词集对应的基因文本信息和所述症状同义词集对应的症状文本信息；

关联关系构建模块，用于基于所述疾病文本信息、所述基因文本信息和所述症状文本信息，构建所述疾病同义词集中的各疾病、所述基因同义词集中的各基因和所述症状同义词集中的各症状之间的关联关系。

可选地，所述同义词集获取模块包括：

本体数据获取子模块，用于获取所述待分析疾病对应的本体数据和疾病结构化数据；

同义词集生成子模块，用于根据所述本体数据和所述疾病结构化数据，生成所述待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集。

可选地，所述病理文本获取模块包括：

病理文本爬取子模块，用于采用多线程爬取技术从指定网站爬取所述待分析疾病对应的病理信息文本。

可选地，所述文本信息获取模块包括：

病理分词生成子模块，用于对所述病理信息文本进行分词处理，生成多个病理分词文本；

检索词获取子模块，用于根据所述疾病同义词集、所述基因同义词集和所述症状同义词集，获取相应的疾病检索词、基因检索词和症状检索词；

分词文本获取子模块，用于从所述多个病理分词文本中，获取所述疾病检索词对应的疾病分词文本、所述基因检索词对应的基因分词文本和所述症状检索词对应的症状分词文本；

文本信息确定子模块，用于基于所述疾病分词文本、所述基因分词文本和所述症状分词，分别在所述病理信息文本中所处的位置，确定所述疾病文本信息、所述基因文本信息和所述症状文本信息。

可选地，所述关联关系构建模块包括：

特征向量构建子模块，用于根据所述疾病文本信息、所述基因文本信息和所述症状文本信息，构建包含疾病和症状的第一文本特征向量，包含疾病和基因的第二文本特征向量，以及包含症状和基因的第三文本特征向量；

关联关系获取子模块，用于根据所述第一文本特征向量、所述第二文本特征向量、所述第三文本特征向量和预先训练得到的关联关系模型，获取各所述疾病、各所述基因和各所述症状之间的关联关系。

为了解决上述问题，本发明实施例还公开了一种电子设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述的关联关系构建方法。

与现有技术相比，本发明包括以下优点：

本发明实施例提供的关联关系构建方法、装置及电子设备，通过获取待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集，基于待分析疾病，获取病理信息文本，从病理信息文本中，获取疾病同义词集对应的疾病文本信息、基因同义词集对应的基因文本信息和症状同义词集对应的症状文本信息，基于疾病文本信息、基因文本信息和症状文本信息，构建疾病同义词集中的各疾病、基因同义词集中的各基因和症状同义词集中的各症状之间的关联关系。本发明实施例基于生物本体可以有效识别文献中基因和疾病、基因和症状、以及疾病和症状之间的关联关系，能够建立医学数据之间的统一标准，且增加了医学数据之间的连通性。

附图说明

图1是本发明实施例提供的一种关联关系构建方法的步骤流程图；

图2是本发明实施例提供的一种关联关系构建方法的步骤流程图；

图3是本发明实施例提供的一种关联关系构建装置的结构示意图；

图4是本发明实施例提供的一种关联关系构建装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明实施例提供的一种关联关系构建方法的步骤流程图，具体可以包括如下步骤：

步骤101：获取待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集。

在本发明实施例中，待分析疾病是指用于建立关联关系的疾病，待分析疾病可以是如流感、肺癌等疾病，具体地，可以根据实际情况而定。

疾病同义词集是指与待分析疾病对应的同义词组成的集合，例如，以乳腺癌为例，同义词集包括有乳腺疾病、原位乳腺管癌、炎性乳腺癌、腺癌等。

基因同义词集是指待分析疾病的基因对应的同义词组成的集合，例如，以乳腺癌基因为例，同义词集包括有原位乳腺管癌基因、炎性乳腺癌基因、腺癌基因等。

症状同义词集是指待分析疾病的症状对应的同义词组成的集合，例如，在待分析疾病为感冒时，对应的症状为流涕，相应的同义词集还有打喷嚏、流鼻涕等。

可以理解地，上述示例仅是为了更好地理解本发明实施例的技术方案而列举的示例，不作为对本发明实施例的唯一限制。

在获取待分析疾病之后，可以根据待分析疾病获取本体数据和疾病结构化数据，从而根据本体数据和疾病结构化数据，获取待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集。

对于上述获取疾病同义词集、基因同义词集和症状同义词集的过程，将在下述实施例中进行详细描述，本发明实施例在此不再加以赘述。

在获取待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集之后，执行步骤102。

步骤102：基于所述待分析疾病，获取病理信息文本。

在获取待分析疾病之后，可以根据待分析疾病从指定网站(如医学网站)上获取病理信息文本，具体地，可以将待分析疾病作为检索词，从而采用网络爬虫技术，从指定网站上爬取病理信息文本。

当然，在具体实现中，还可以采用其它方式获取病理信息文本，具体地，可以根据业务需求而定，本发明实施例在此不再加以赘述。

在基于待分析疾病获取病理信息文本之后，执行步骤103。

步骤103：从所述病理信息文本中，获取所述疾病同义词集对应的疾病文本信息、所述基因同义词集对应的基因文本信息和所述症状同义词集对应的症状文本信息。

在获取待分析疾病对应的病理信息文本之后，可以对病理信息文本进行分词处理，从而可以得到多个分词文本，并根据从多个分词文本中查找与疾病同义词集中各疾病词对应的分词文本、与基因同义词集中各基因词对应的分词文本，以及与症状同义词集中各症状词对应的分词文本，进而，根据疾病词对应的分词文本、基因词对应的分词文本和症状词对应的分词文本，生成相应的疾病文本信息、基因文本信息和症状文本信息。

对于上述生成疾病文本信息、基因文本信息和症状文本信息的过程，将在下述实施例中进行详细描述，本发明实施例在此不再加以赘述。

在从病理信息文本中，获取疾病同义词集对应的疾病文本信息、基因同义词集对应的基因文本信息和症状同义词集对应的症状文本信息之后，执行步骤104。

步骤104：基于所述疾病文本信息、所述基因文本信息和所述症状文本信息，构建所述疾病同义词集中的各疾病、所述基因同义词集中的各基因和所述症状同义词集中的各症状之间的关联关系。

在得到疾病文本信息、基因文本信息和症状文本信息之后，可以根据这些信息构建疾病同义词集中的各疾病、基因同义词集中的各基因和症状同义词集中的各症状之间的关联关系，具体地，可以根据这些信息获取疾病、基因和症状两两之间的关联关系，如疾病A、基因1和症状c之间，疾病A与基因1之间的关联关系为治疗，疾病A对应的症状为症状c等。

本发明实施例基于生物本体可以有效识别文献中基因和疾病、基因和症状、以及疾病和症状之间的关联关系，能够建立医学数据之间的统一标准，且增加了医学数据之间的连通性。

本发明实施例提供的关联关系构建方法，通过获取待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集，基于待分析疾病，获取病理信息文本，从病理信息文本中，获取疾病同义词集对应的疾病文本信息、基因同义词集对应的基因文本信息和症状同义词集对应的症状文本信息，基于疾病文本信息、基因文本信息和症状文本信息，构建疾病同义词集中的各疾病、基因同义词集中的各基因和症状同义词集中的各症状之间的关联关系。本发明实施例基于生物本体可以有效识别文献中基因和疾病、基因和症状、以及疾病和症状之间的关联关系，能够建立医学数据之间的统一标准，且增加了医学数据之间的连通性。

参照图2，示出了本发明实施例提供的一种关联关系构建方法的步骤流程图，具体可以包括如下步骤：

步骤201：获取所述待分析疾病对应的本体数据和疾病结构化数据。

在本发明实施例中，本体数据可以包括基因本体(Gene Ontology，GO)，医学主题词(medical subject headings，MeSH)，疾病本体(Disease Ontology，DO)，人类表型本体(Human phenotype ontology，HPO)，孟德尔人类遗传学数据库(online mendelianinheritance in man，OMIM)，统一医学语言系统UMLS(Unified Medical LanguageSystem)，国际疾病分类ICD10(international classification of diseases)，罕见病本体(Orphanet Rare Disease Ontology，ORDO)。

疾病结构化数据可以包括癌症疾病(4615)、胎儿疾病(4544)、遗传疾病(11787)、传染病(707)、代谢疾病(2436)、罕见病(22208)，总计46297个，其字段信息包含但不限于定义、病因、临床表现、检查、诊断、治疗、预防、预后。

待分析疾病是指用于建立关联关系的疾病，待分析疾病可以是如流感、肺癌等疾病，具体地，可以根据实际情况而定。

在获取待分析疾病之后，可以从预先设置的疾病数据库中获取待分析疾病所对应的本体数据和疾病结构化数据。

在获取待分析疾病对应的本体数据和疾病结构化数据之后，执行步骤202。

步骤202：根据所述本体数据和所述疾病结构化数据，生成所述待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集。

在得到本体数据和疾病结构化数据，可以根据本体数据和结构数据，生成待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集，具体地：提取GO、DO、HPO、MeSH、OMIM、UMLS、ICD10、ORPHANET字段信息，程序匹配并加人工校对实现字段统一，形成字段映射关系表。以人类表型本体HPO为起点，对于包含xrefs(参考字段)的字段，提取xrefs中子信息id，查看xref包含的上述除GO之外的数据库，如果有未包含的数据库，则遍历每个包含的数据库，从中查找xref信息，如果遍历之后上述数据库均已包含其中，则结束，否则，使用词相似度计算该词与每个数据库中疾病的相似度，如果相似度大于设定阀值，则将该数据库词条加入到xref中。其中xref_id和Synonyms数据类型为List。这样，在概念和关联关系上解决了数据异构、歧义问题，实现了生物医学数据的集成。为了尽可能得到一个疾病的同义词全集，这里将疾病对应的同义词组成合集，去掉一些无意义的标识，例如，HPO中“breast tumor[EXACT]”后缀“[EXACT]”标识去掉，并将所有大写转换成小写，然后去重，构建症状(即表型)的同义词集，形成症状-同义词映射关系表。

上述词相似度计算使用word2vec实现，其中word2vec是一种将单词转换成向量的工具，可以将词之间相似度计算转换成向量之间的距离计算。

进而，对于基因同义词集和疾病同义词集的获取方式也可以采用上述方式进行，本发明实施例在此不再加以赘述。

在本发明的一种具体实现中，可以基于词相似度计算增加症状对疾病的贡献度分数值用于分析HPO表型与DO疾病之间的关系，可以用于辅助理解表型与疾病之间的关联关系。以”Breast Lump(乳房肿块)”为例，通过词相似度计算，可以得到如表1所示的结果，其中Term2为与Term1相关的疾病名称列表，score为Term1与Term2之间的相关度。

表1：

Term1	Term2	Score
			Breast Lump	Breast Cancer(乳腺癌)	0.83
Breast Lump	Breast Disease(乳腺疾病)	0.71
			Breast Lump	Ductal Carcinoma in Situ(原位乳腺管癌)	0.21
Breast Lump	Inflammatory Breast Carcinoma(炎性乳腺癌)	0.22
			Breast Lump	Adenocarcinoma(腺癌)	0.17

由上述表1可以得知，“乳房肿块”与“乳腺癌”的关联程度最高。

可以理解地，上述示例仅是本发明实施例提供的一种优选方案，不作为对本发明实施例的唯一限制。

在根据本体数据和疾病结构化数据，生成待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集之后，执行步骤203。

步骤203：采用多线程爬取技术从指定网站爬取所述待分析疾病对应的病理信息文本。

线程(Thread)是操作系统能够进行运算调度的最小单位，可以被包含在进程之中，是进程中的实际运作单位，一条线程指的是进程中一个单一顺序的控制流，一个进程中可以并发多个线程，每条线程并行执行不同的任务。

指定网站是指可以产生医学文本数据的网站，如医学网站等。

在本发明中，可以采用多线程爬取技术从指定网站爬取待分析疾病对应的病理信息文本，即有医学领域的人员等在指定网站发布的信息文本。

具体地，可以

在某些示例中，指定网站可以是多个网站，可以调用与指定网站对应数量的线程，调用每个线程分别从多个网站爬取待分析疾病对应的病理信息文本。

在某些示例中，在指定网站为一个网站时，可以调用多个线程分别从该网站的多个页面内爬取待分析疾病对应的病理信息文本。

在采用多线程爬取技术从指定网站爬取待分析疾病对应的病理信息文本之后，执行步骤204。

步骤204：对所述病理信息文本进行分词处理，生成多个病理分词文本。

在得到待分析疾病对应的病理信息文本，可以对将文本进行分词，从而生成多个病理分词文本。

当然，在此过程中，还可以执行去掉标点符号、虚词、代词、助词等预处理，具体地，可以根据业务需求而定，本发明实施例对此不加以限制。

在对病理信息文本进行分词处理之后，可以生成多个病理分词文本，进而执行步骤205。

步骤205：根据所述疾病同义词集、所述基因同义词集和所述症状同义词集，获取相应的疾病检索词、基因检索词和症状检索词。

在上述步骤中，得到待分析疾病对应的疾病同义词集、基因同义词即和症状同义词集之后，可以根据疾病同义词集中的至少一个疾病词得到至少一个疾病检索词，根据基因同义词集中的至少一个基因词得到至少一个基因检索词，并根据症状同义词集中的至少一个症状词得到至少一个症状检索词。

可以理解地，可以将疾病词、基因词和症状词分别作为疾病检索词、基因检索词和症状检索词。

在根据疾病同义词集、基因同义词集和症状同义词集，获取相应的疾病检索词、基因检索词和症状检索词之后，执行步骤206。

步骤206：从所述多个病理分词文本中，获取所述疾病检索词对应的疾病分词文本、所述基因检索词对应的基因分词文本和所述症状检索词对应的症状分词文本。

疾病分词文本是指病理分词文本中与疾病检索词相同的分词文本。

基因分词文本是指病理分词文本中与基因检索词相同的分词文本。

症状分词文本是指病理分词文本中与症状检索词相同的分词文本。

在获取疾病检索词、基因检索词和症状检索词之后，可以从多个病理分词文本中查找与疾病检索词相同的分词文本，以作为疾病分词文本；并从多个病理分词文本中查找与基因检索词相同的分词文本，以作为基因分词文本；进而，可以从多个病理分词文本中查找与症状检索词相同的分词文本，以作为症状分词文本。

在查找过程中，可以根据疾病分词文本、基因分词文本和症状分词文本，查询病理信息文本中疾病、基因和症状信息，并添加标注信息。比如有两个句子，句子1：“<gene>BMI1</gene>and<gene>PTEN</gene>are key determinants of<disease>breast cancer</disease>therapy:A plausible therapeutic target in<disease>breast cancer</disease>.”，这句话标注出了基因“BMI1”和“PTEN”，疾病“breast cancer”。句子2：“Overweight,<Phenotype>obesity</Phenotype>may be important risk factors of<disease>breast cancer</disease>in Chinese female population.The interventionand control activities may reduce the risk of breast cancer at populationlevel.”，这句话标注出了症状“obesity”，疾病“breast cancer”。

在从多个病理分词文本中，获取疾病检索词对应的疾病分词文本、基因检索词对应的基因分词文本和症状检索词对应的症状分词文本，进而，执行步骤207。

步骤207：基于所述疾病分词文本、所述基因分词文本和所述症状分词，分别在所述病理信息文本中所处的位置，确定所述疾病文本信息、所述基因文本信息和所述症状文本信息。

疾病文本信息是指疾病分词文本在病理信息文本中的实体、实体位置、实体之间的距离、邻域信息、语法及语义关系等信息。

基因文本信息是指基因分词文本在病理信息文本中的实体、实体位置、实体之间的距离、邻域信息、语法及语义关系等信息。

症状文本信息是指症状分词文本在病理信息文本中的实体、实体位置、实体之间的距离、邻域信息、语法及语义关系等信息。

在从多个病理分词文本中，获取疾病检索词对应的疾病分词文本、基因检索词对应的基因分词文本和症状检索词对应的症状分词文本之后，可以获取这些分词文本在病理信息文本中所处的位置，根据这些分词文本在病理信息文本中所处的位置，确定出疾病文本信息、基因文本信息和症状文本信息。

在基于疾病分词文本、基因分词文本和症状分词，分别在病理信息文本中所处的位置，确定出疾病文本信息、基因文本信息和症状文本信息之后，执行步骤208。

步骤208：根据所述疾病文本信息、所述基因文本信息和所述症状文本信息，构建包含疾病和症状的第一文本特征向量，包含疾病和基因的第二文本特征向量，以及包含症状和基因的第三文本特征向量。

第一文本特征向量是指包含疾病和症状的特征向量。

第二文本特征向量是指包含疾病和基因的特征向量。

第三文本特征向量是指包含症状和基因的特征向量。

在得到疾病文本信息、基因文本信息和症状文本信息之后，可以根据疾病文本信息和症状文本信息构建第一文本特征向量，根据疾病文本信息和基因文本信息构建第二文本特征向量，并根据症状文本信息和基因文本信息构建第三文本特征向量。

具体地，可以根据疾病分词文本和症状分词文本分别对应的实体、实体位置、实体之间的距离、邻域信息、语法及语义关系等信息，构建得到第一文本特征向量。

可以根据基因分词文本和疾病分词文本分别对应的实体、实体位置、实体之间的距离、邻域信息、语法及语义关系等信息，构建得到第二文本特征向量。

可以根据症状分词文本和基因分词文本分别对应的实体、实体位置、实体之间的距离、邻域信息、语法及语义关系等信息，构建得到第三文本特征向量。

在根据疾病文本信息、基因文本信息和症状文本信息，构建包含疾病和症状的第一文本特征向量，包含疾病和基因的第二文本特征向量，以及包含症状和基因的第三文本特征向量之后，执行步骤209。

步骤209：根据所述第一文本特征向量、所述第二文本特征向量、所述第三文本特征向量和预先训练得到的关联关系模型，获取各所述疾病、各所述基因和各所述症状之间的关联关系。

在构建得到的第一文本特征向量、第二文本特征向量和第三文本特征向量之后，可以将这些特征向量输入预先训练得到的关联关系模型(如SVM(Support VectorMachine))，从而可以进行关联关系的预测。

比如，基因分为癌基因和抑癌基因，其中癌基因为具有致癌能力或致癌潜能的基因，抑癌基因为遏制肿瘤生长或形成的基因。基因与疾病关系中，1表示基因抑制疾病的发生，0表示基因导致疾病的发生。表型(症状)与疾病关系中，1表示表型是疾病的危险因素，0表示表型与疾病无关联关系。基因与表型关系中，1表示基因与表型相关，0表示基因与表型无关。上述同义词集中各疾病词、症状词和基因词通过关系分类的结果如表2所示：

表2：

如上述表2所示，句子2可以得出基因“BMI1”与“breast cancer”之间的关系为“therapy(治疗)”，“PTEN”与“breast cancer”之间的关系也是“therapy(治疗)”。句子2可以得出表型“obesity(肥胖)”是“breast cancer(乳腺癌)”的风险因素。

参照图3，示出了本发明实施例提供的一种关联关系构建装置的结构示意图，具体可以包括如下模块：

同义词集获取模块310，用于获取待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集；

病理文本获取模块320，用于基于所述待分析疾病，获取病理信息文本；

文本信息获取模块330，用于从所述病理信息文本中，获取所述疾病同义词集对应的疾病文本信息、所述基因同义词集对应的基因文本信息和所述症状同义词集对应的症状文本信息；

关联关系构建模块340，用于基于所述疾病文本信息、所述基因文本信息和所述症状文本信息，构建所述疾病同义词集中的各疾病、所述基因同义词集中的各基因和所述症状同义词集中的各症状之间的关联关系。

本发明实施例提供的关联关系构建装置，通过获取待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集，基于待分析疾病，获取病理信息文本，从病理信息文本中，获取疾病同义词集对应的疾病文本信息、基因同义词集对应的基因文本信息和症状同义词集对应的症状文本信息，基于疾病文本信息、基因文本信息和症状文本信息，构建疾病同义词集中的各疾病、基因同义词集中的各基因和症状同义词集中的各症状之间的关联关系。本发明实施例基于生物本体可以有效识别文献中基因和疾病、基因和症状、以及疾病和症状之间的关联关系，能够建立医学数据之间的统一标准，且增加了医学数据之间的连通性。

参照图4，示出了本发明实施例提供的一种关联关系构建装置的结构示意图，具体可以包括如下模块：

同义词集获取模块410，用于获取待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集；

病理文本获取模块420，用于基于所述待分析疾病，获取病理信息文本；

文本信息获取模块430，用于从所述病理信息文本中，获取所述疾病同义词集对应的疾病文本信息、所述基因同义词集对应的基因文本信息和所述症状同义词集对应的症状文本信息；

关联关系构建模块440，用于基于所述疾病文本信息、所述基因文本信息和所述症状文本信息，构建所述疾病同义词集中的各疾病、所述基因同义词集中的各基因和所述症状同义词集中的各症状之间的关联关系。

可选地，所述同义词集获取模块410包括：

本体数据获取子模块411，用于获取所述待分析疾病对应的本体数据和疾病结构化数据；

同义词集生成子模块412，用于根据所述本体数据和所述疾病结构化数据，生成所述待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集。

可选地，所述病理文本获取模块420包括：

病理文本爬取子模块421，用于采用多线程爬取技术从指定网站爬取所述待分析疾病对应的病理信息文本。

可选地，所述文本信息获取模块430包括：

病理分词生成子模块431，用于对所述病理信息文本进行分词处理，生成多个病理分词文本；

检索词获取子模块432，用于根据所述疾病同义词集、所述基因同义词集和所述症状同义词集，获取相应的疾病检索词、基因检索词和症状检索词；

分词文本获取子模块433，用于从所述多个病理分词文本中，获取所述疾病检索词对应的疾病分词文本、所述基因检索词对应的基因分词文本和所述症状检索词对应的症状分词文本；

文本信息确定子模块434，用于基于所述疾病分词文本、所述基因分词文本和所述症状分词，分别在所述病理信息文本中所处的位置，确定所述疾病文本信息、所述基因文本信息和所述症状文本信息。

可选地，所述关联关系构建模块440包括：

特征向量构建子模块441，用于根据所述疾病文本信息、所述基因文本信息和所述症状文本信息，构建包含疾病和症状的第一文本特征向量，包含疾病和基因的第二文本特征向量，以及包含症状和基因的第三文本特征向量；

关联关系获取子模块442，用于根据所述第一文本特征向量、所述第二文本特征向量、所述第三文本特征向量和预先训练得到的关联关系模型，获取各所述疾病、各所述基因和各所述症状之间的关联关系。

在本发明的另一实施例中，还提供了一种电子设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项的关联关系构建方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种关联关系构建方法、一种关联关系构建装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种关联关系构建方法，其特征在于，包括：

基于所述待分析疾病，获取病理信息文本；

2.根据权利要求1所述的方法，其特征在于，所述获取待分析疾病对应的疾病同义词集、基因同义词集和症状同义词集，包括：

获取所述待分析疾病对应的本体数据和疾病结构化数据；

3.根据权利要求1所述的方法，其特征在于，所述基于所述待分析疾病，获取病理信息文本，包括：

4.根据权利要求1所述的方法，其特征在于，所述从所述病理信息文本中，获取所述疾病同义词集对应的疾病文本信息、所述基因同义词集对应的基因文本信息和所述症状同义词集对应的症状文本信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述疾病文本信息、所述基因文本信息和所述症状文本信息，构建所述疾病同义词集中的各疾病、所述基因同义词集中的各基因和所述症状同义词集中的各症状之间的关联关系，包括：

根据所述第一文本特征向量、所述第二文本特征向量、所述第三文本特征向量和预先训练得到的关联关系模型，获取各所述疾病、各所述基因和各所述症状之间的关联关系。

6.一种关联关系构建装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述同义词集获取模块包括：

8.根据权利要求6所述的装置，其特征在于，所述病理文本获取模块包括：

9.根据权利要求6所述的装置，其特征在于，所述文本信息获取模块包括：

10.根据权利要求6所述的装置，其特征在于，所述关联关系构建模块包括：

11.一种电子设备，其特征在于，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至6中任一项所述的关联关系构建方法。