CN109669994B

CN109669994B - 一种健康知识图谱的构建方法及系统

Info

Publication number: CN109669994B
Application number: CN201811570602.5A
Authority: CN
Inventors: 徐昊; 迟杨
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2023-03-14
Anticipated expiration: 2038-12-21
Also published as: CN109669994A

Abstract

本发明涉及一种健康知识图谱的构建方法，包括：利用html标签和正则表达式直接从网络数据源抽取结构化和半结构化数据中的属于概念化表示的用户、症候、疾病、专家、治疗方案和商品的各自的实体；利用条件随机场算法对非结构化数据抽取出属于上述六个概念化表示的实体；对同一上下文中抽取到的实体对使用Bi‑LSTM算法进行关系分类，确定实体间的关系；计算实体名称和实体描述之间的相关性，实现实体信息的消歧；利用jena工具的owl推理函数补全知识图谱关系，并利用准则捕捉歧义三元组，将判定可能有错误的三元组反馈给领域专家进行验证。本发明的有益效果为：构建中医理论的健康知识图谱，并运用知识推理技术对残缺关系加以自动补全，构建更加完善的健康图谱。

Description

一种健康知识图谱的构建方法及系统

技术领域

本发明属于健康医疗技术领域，具体涉及一种健康知识图谱的构建方法及系统

背景技术

目前大多数健康管理领域知识图谱是基于西医理论的，这些图谱更多关注的是疾病预测和康复治疗，在调理身体防治疾病方面有所欠缺，而因为在健康管理领域中医有着更丰富的理论基础，所以基于中医理论的知识图谱可以很好的弥补现有健康知识图谱的不足，然而现有的基于中医理论的知识图谱往往只关注的是有关疾病治疗方面的理论，而且由于图谱中的关系残缺太多，无法综合多个症状推荐处方，导致图谱构建的不够完善。

发明内容

为了解决现有技术存在的图谱构建不完善的问题，本发明提供了一种健康图谱的构建方法，其具有图谱构建的更加完善等特点。

本发明的目的是提供一种更加完善的健康知识图谱。

根据本发明的具体实施方式的一种健康知识图谱的构建方法，包括：

利用html标签和正则表达式直接从网络数据源抽取结构化和半结构化数据中的属于概念化表示的用户、症候、疾病、专家、治疗方案和商品的各自的实体；

利用条件随机场算法对非结构化数据抽取出属于上述六个概念化表示的实体；

对同一上下文中抽取到的实体对使用Bi-LSTM算法进行关系分类，确定实体间的关系；

计算实体名称和实体描述之间的相关性，实现实体信息的消歧；

利用jena工具的owl推理函数补全知识图谱关系，并利用准则捕捉歧义三元组，将判定可能有错误的三元组反馈给领域专家进行验证。

进一步地，利用条件随机场算法抽取属于所述六个概念化表示的实体的过程包括：

使用BIO模型对非结构化数据的每一句话进行标注，并将每句话、每句话对应的词性特征序列、字典特征序列和正确标签序列输入CRF++程序中进行训练生成标注模型，利用所述标注模型对未知的句子进行标注输出正确标签序列。

进一步地，所述实现实体信息的消歧的过程包括：

将按照所述六大实体的概念化表示抽取出的实体构建成实体对；

利用TF-IDF算法将实体名称、别名和与其有关的描述文本转化为向量，计算向量之间的相似性；

若相似性大于0.5，则输入逻辑回归分类算法，判断两个实体是否相同，并将相同实体进行整合。

进一步地，所述捕捉歧义三元组的准则包括：

若实体a和实体b相同且实体b和实体c相同，则判定实体a和实体c相同；

若实体a和实体b相同且实体b和实体c有关联关系，则判定实体a和实体c有关联关系；

若实体a通过两个不同的关联关系R1和R2分别能与实体b相关联，且关系R1和R2为一对关联关系则需领域专家对实体a和实体c的关联关系进行确定。

进一步地，所述非结构化数据包括：病例、中医药典籍以及商家提供的品类数据。

进一步地，所述概念化表示的属于用户的实体包括用户诊断的舌像信息。

根据本发明的具体实施方式的一种健康知识图谱的构建系统，包括：

实体抽取模块，所述实体抽取模块利用html标签和正则表达式直接从网络数据源抽取结构化和半结构化数据中的用户、症候、疾病、专家、治疗方案和商品的实体的概念化表示；利用条件随机场算法对非结构化数据抽取出上述六大实体的概念化表示；

实体关系分类模块，所述实体关系分类模块对同一上下文中抽取到的实体对使用Bi-LSTM算法进行关系分类，确定实体间的关系；

实体消歧模块，所述实体消歧模块用于计算实体名称和实体描述之间的相关性，实现实体信息的消歧；以及

质量评估模块，所述质量评估模块利用jena工具的owl推理函数补全知识图谱关系，并利用准则捕捉歧义三元组，将判定可能有错误的三元组反馈给领域专家进行验证。

进一步地，所述实体抽取模块使用BIO模型对非结构化数据的每一句话进行标注，并将每句话、每句话对应的词性特征序列、字典特征序列和正确标签序列输入CRF++程序中进行训练生成标注模型，利用所述标注模型对未知的句子进行标注输出正确标签序列。

进一步地，所述实体消歧模块将按照所述六大实体的概念化表示抽取出的实体构建成实体对；利用TF-IDF算法将实体名称、别名和与其有关的描述文本转化为向量，计算向量之间的相似性；若相似性大于0.5，则输入逻辑回归分类算法，判断两个实体是否相同，并将相同实体进行整合。

进一步地，所述质量评估模块捕捉歧义三元组的过程包括：

本发明的有益效果为：结合了中医理论，抽取网络和非网络信息中有关养生的健康知识，构建依托中医理论的健康知识图谱，并运用知识推理技术对残缺关系加以自动补全，构建更加完善整合健康领域知识能力更强的健康图谱。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例提供的健康知识图谱构建方法的流程图；

图2是根据一示例性实施例提供的实体消歧过程的流程图；

图3是根据一示例性实施例提供的健康图谱的逻辑架构图；

图4是根据一示例性实施例提供的健康图谱实体-关系图；

图5是根据一示例性实施例提供的Bi-LSTM算法的结构图；

图6是根据一示例性实施例提供的LSTM长短时记忆单元的结构图；

图7是根据一示例性实施例提供的健康知识图谱构建系统的结构示意图。

附图标记

1-实体抽取模块；2-实体关系分类模块；3-实体消歧模块；4-质量评估模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

参照图1所示，本发明的实施例提供了一种健康知识图谱的构建方法，其包括以下步骤：

101、利用html标签和正则表达式直接从网络数据源抽取结构化和半结构化数据中的属于概念化表示的用户、症候、疾病、专家、治疗方案和商品的各自的实体；

102、利用条件随机场算法对非结构化数据抽取出属于上述六个概念化表示的实体；

103、对同一上下文中抽取到的实体对使用Bi-LSTM算法进行关系分类，确定实体间的关系；

104、计算实体名称和实体描述之间的相关性，实现实体信息的消歧；

105、利用jena工具的owl推理函数补全知识图谱关系，并利用准则捕捉歧义三元组，将判定可能有错误的三元组反馈给领域专家进行验证。

作为上述实施例的一种可行的实现方式参照图4所示的健康知识图谱的实体关系图，根据用户A的属性以及完成的舌象、问卷等调研，捕捉用户A的主诉症状，并将其映射到知识图谱的“舌红苔黄腻”、“面目肌肤发黄”、“泌少厌食”等证候概念中，通过分析这三个证候概念拥有同一个证候上位概念“湿热中阻”，即湿热中阻包含这些体征。继续基于知识图谱进行分析，与湿热中阻相关联的疾病有“黄疸”，医生A是医生概念的实体，他擅长治疗“黄疸”，则他与“黄疸”疾病有关联关系。基于这一路径可以进行智能诊断，并为该用户推荐相关医生。此外，知识图谱中还包含了与“湿热中阻”症候相关联的中医治疗方案“清利湿热”，该治疗方案对应有一系列的食物、药品、商品和物理治疗概念的实例。例如，食用“绿豆汤”、“田螺”等食物，服用“甘露清毒丹”等方剂，接受“针灸”等物理治疗都可以起到“清利湿热”的作用，而这些食物、中药等概念又可以进一步与可购买的商品相关联。由此可以看出，知识图谱将用户的特定症候与疾病、治疗方案、医生、食物、中药、方剂、物理治疗、商品等多种概念紧密相连，同时可利用舌象诊疗模型对用户舌象信息加以提取诊断，使提高用户症状采集的准确度和可信度，使得后续的智能养生方案推荐功能推荐的养生方案更加准确这为个性化医疗服务推荐奠定了基础。

参照图3所示的健康知识图谱的逻辑架构图，实体层存储所用到的六个实体，概念层中存储的是从多个数据源中抽取的各个实体的概念化表示，本体层中存储的是预先构建好的健康领域本体，起着决定层级的作用，本体层通过概念层来进行扩充，属性层主要存储着一些属性解释和属性搭配。

在本发明的一具体实施例中，对于结构化和半结构化数据，利用html标签和正则表达式直接从网络数据源抽取，对于非结构化数据，运用命名实体识别技术中的条件随机场算法(CRF)从病例、中医药典籍、商家提供的品类数据中抽取出上述六大实体的概念化表示，将语料中的每一句话分词，标记每一个词的词性、以及是否在食物、中药、症状、身体部位的专业词典中出现，以此作为特征以提高算法准确率。

标记使用BIO模型，即待抽取词语开始的第一个字符标记B，非起始字符标记I，其他词语标记O，标点符号等非文字字符标记B-x，每一类实体取英文字母与标记相连接，例如食物实体为food，症状实体为symptom，名词为n，动词为v。例如：“金银花对风热感冒、支气管炎等病症有疗效。”正确的标签被标记为“B-food I-food I-food O B-s I-symptom I-symptom I-symptom B-x B-symptom I-symptom I-symptom I-symptom O O O O O O B-x”，词性特征被标记为“B-n I-n I-n B-p B-n I-n I-n I-n B-x B-n I-n I-n I-n B-uB-n I-n B-v B-n I-n B-x”,词典特征被标记为(假设词典中只含有“感冒”症状和“支气管”身体部位)“O O O O O O B-symptom I-symptom B-x B-body I-body I-body O O O OO O O B-x”完成标注后，将每句话、每句话对应的词性特征序列、字典特征序列和正确标签序列输入CRF++(工具)程序中进行训练，训练后的模型可以用于标注工作，标注时将正确标签序列未知的句子、词性特征和词典特征输入模型，即可输出正确标签序列。

在同一上下文中抽取到的实体对使用Bi-LSTM算法进行关系分类，从而确定实体间的关系，例如上述抽取出了“金银花”和“风热感冒”两个实体，但需要判断金银花和风热感冒之间的关系是“有益于”还是“有害于”，这就需要将“金银花对风热感冒、支气管炎等病症有疗效”，这一文本输入Bi-LSTM算法中进行文本二分类，输出每种结果的概率，从而实现关系识别。

参照图5所示的Bi-LSTM算法的结构图，使用双向循环神经网络，输入层为每一个句子中每一个汉字的初始化向量c1-cn，经过双向循环网络计算，输出为句子的向量s，后接softmax层，输出两个关系的概率。循环层网络的计算公式为：

其中f是激活函数，U和W是需要被训练的参数，X_t是第t个字符的输入向量，S_t-1是第t-1个字符的输出结果，利用梯度下降算法训练该神经网络。在循环层的每一个LSTM长短时记忆单元参照图6所示，LSTM单元由三个乘法门组成，它们控制传递到下一个时间步的信息比例，LSTM单元内的计算公式如下：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)， (1)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)， (2)

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c)， (3)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o， (4)

h_t＝o_ttanh(c_t). (5)

在公式中，σ是sigmoid函数，i，f，o和c分别是输入门，遗忘门，输出门和单元向量，权重矩阵含义可以按下标判断，如W_hi代表隐藏-输入门矩阵，W_xo是输入-输出门矩阵。

参照图2所示，在本发明的一具体实施例中，不同数据来源或同一来源中的两条信息即使名称不同也很可能是描述同一个实体，因为有一些实体可能会有别名，因此需要识别出不同的字符是否指向同一个实体，即实体的消歧包括以下步骤：

201、将按照所述六大实体的概念化表示抽取出的实体构建成实体对；

202、利用TF-IDF算法将实体名称、别名和与其有关的描述文本转化为向量，计算向量之间的相似性；

203、若相似性大于0.5，则输入逻辑回归分类算法，判断两个实体是否相同，并将相同实体进行整合。

作为上述实施例的一种可行的实现方式，通过计算实体名称和实体描述之间的相关性，实现实体信息的消歧以及知识图谱关系的补充。首先根据命名实体识别抽取出的所有的实体构建成实体对(entity1,entity2)，利用TF-IDF算法将实体名称、别名和与其有关的描述文本转化为向量，计算向量之间的相似性，若相似性大于0.5，输入逻辑回归分类算法，判断两个实体是否相同，最后将相同实体进行整合。TF-IDF算法的公式为：

TF＝该词出现的次数/文档总词数

IDF＝log(语料库的文档总数/包含该词的文档数+1)

TF-IDF＝词频(TF)*逆文档率(IDF)

计算文章中所有单词的TF-IDF值，就可以将文章以词向量的形式表示。并使用余弦相似性算法进行向量之间的相似度计算，公式如下：

其中，X_i和Y_i分别代表两篇文档的词向量，该公式计算结果取值为(0，1)，两结果越接近1代表两个向量越相似。使用逻辑回归算法进行分类，如果一个实体对的余弦相似性大于0.5，则设定为候选实体对输入分类算法。将实体对(entity1,entity2)按(实体名称是否相同，是否有相同别名，是否属于相同实体类别，是否来自同一数据源，拥有共同链接的实体数，实体名称和别名的余弦相似值，实体属性描述的余弦相似值)转化为向量若是，则数值为1，不是为0。向量归一化后输入逻辑回归算法，算法的公式如下：

f(x)＝s(wx+b)

其中w和b是待训练向量参数。

在本发明的一具体实施例中，利用jena工具将知识图谱写入owl文件，利用jena的owl推理函数进行自反性、传递性、函数性等关系的推理，补全知识图谱关系，利用规则捕捉歧义三元组，最后将判定可能有错误的三元组反馈给领域专家进行验证，其中捕捉歧义三元组的准则包括：

本发明结合了中医理论、依据舌象诊疗模型对用户舌象信息加以提取诊断并以症状为中心建立图谱，能很好的整合症状-调理方案，症状-用户，症状-疾病的关系，并运用知识推理技术对残缺关系加以自动补全，构建了更加完善整合健康领域知识能力更强的健康图谱。

参照图7所示，本发明的实施例还提供了一种健康知识图谱的构建系统，其特征在于，包括：

实体抽取模块1，实体抽取模块1利用html标签和正则表达式直接从网络数据源抽取结构化和半结构化数据中的用户、症候、疾病、专家、治疗方案和商品的实体的概念化表示；利用条件随机场算法对非结构化数据抽取出上述六大实体的概念化表示；

实体关系分类模块2，实体关系分类模块2对同一上下文中抽取到的实体对使用Bi-LSTM算法进行关系分类，确定实体间的关系；

实体消歧模块3，实体消歧模块3用于计算实体名称和实体描述之间的相关性，实现实体信息的消歧；以及

质量评估模块4，质量评估模块4利用jena工具的owl推理函数补全知识图谱关系，并利用准则捕捉歧义三元组，将判定可能有错误的三元组反馈给领域专家进行验证。

为进一步优化该技术方案，实体抽取模块1使用BIO模型对非结构化数据的每一句话进行标注，并将每句话、每句话对应的词性特征序列、字典特征序列和正确标签序列输入CRF++程序中进行训练生成标注模型，利用标注模型对未知的句子进行标注输出正确标签序列。

为进一步优化该技术方案，实体消歧模块3将按照六大实体的概念化表示抽取出的实体构建成实体对；利用TF-IDF算法将实体名称、别名和与其有关的描述文本转化为向量，计算向量之间的相似性；若相似性大于0.5，则输入逻辑回归分类算法，判断两个实体是否相同，并将相同实体进行整合。

为进一步优化该技术方案，质量评估模块4捕捉歧义三元组的过程包括：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种健康知识图谱的构建方法，其特征在于，包括：

利用jena工具的owl推理函数补全知识图谱关系，并利用准则捕捉歧义三元组，将判定可能有错误的三元组反馈给领域专家进行验证；

其中，利用条件随机场算法抽取属于所述六个概念化表示的实体的过程包括：

使用BIO模型对非结构化数据的每一句话进行标注，并将每句话、每句话对应的词性特征序列、字典特征序列和正确标签序列输入CRF++程序中进行训练生成标注模型，利用所述标注模型对未知的句子进行标注输出正确标签序列；

其中，所述实现实体信息的消歧的过程包括：

2.根据权利要求1所述的方法，其特征在于，所述捕捉歧义三元组的准则包括：

3.根据权利要求1所述的方法，其特征在于，所述非结构化数据包括：病例、中医药典籍以及商家提供的品类数据。

4.根据权利要求1所述的方法，其特征在于，所述概念化表示的属于用户的实体包括用户诊断的舌像信息。

5.一种健康知识图谱的构建系统，其特征在于，包括：

质量评估模块，所述质量评估模块利用jena工具的owl推理函数补全知识图谱关系，并利用准则捕捉歧义三元组，将判定可能有错误的三元组反馈给领域专家进行验证；

其中，所述实体抽取模块使用BIO模型对非结构化数据的每一句话进行标注，并将每句话、每句话对应的词性特征序列、字典特征序列和正确标签序列输入CRF++程序中进行训练生成标注模型，利用所述标注模型对未知的句子进行标注输出正确标签序列；

其中，所述实体消歧模块将按照所述六大实体的概念化表示抽取出的实体构建成实体对；利用TF-IDF算法将实体名称、别名和与其有关的描述文本转化为向量，计算向量之间的相似性；若相似性大于0.5，则输入逻辑回归分类算法，判断两个实体是否相同，并将相同实体进行整合。

6.根据权利要求5所述的系统，其特征在于，所述质量评估模块捕捉歧义三元组的过程包括：