CN111916216A

CN111916216A - 一种基于深度学习的医药知识图谱构建方法及系统

Info

Publication number: CN111916216A
Application number: CN202010767903.8A
Authority: CN
Inventors: 汪礼君
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-11-10

Abstract

本发明涉及一种知识图谱的技术领域，揭露了一种基于深度学习的医药知识图谱构建方法，包括：获取医药网站中的相关医药知识信息，并对医药网站内容进行解析；完成对解析内容的数据清洗；利用基于词典的切分算法对解析内容进行切分处理；设计医药知识图谱实体关系，并进行基于医药知识图谱的语义表示；基于注意力机制进行知识图谱网络的构建，并进行基于知识图谱的医药问答；将基于知识图谱的医药问答过程建模为排序问题，采用逐点训练的方式进行计算，得到问答之间的匹配分数，并根据匹配分数的分布特征进行参数精调，实现少样本下的知识图谱训练。本发明还提供了一种基于深度学习的医药知识图谱构建系统。本发明实现了知识图谱的构建。

Description

一种基于深度学习的医药知识图谱构建方法及系统

技术领域

本发明涉及知识图谱的技术领域，尤其涉及一种基于深度学习的医药知识图谱构建方法及系统。

背景技术

随着信息技术的高速发展，大数据已成为人们谈论的热点名词，随之而来的是数据量的爆发、数据形式的多样化，传统的数据存储和分析方式，已经无法应对和满足人们对大数据分析的要求，从而引发人们对新的数据表示存储方式——知识图谱的研究热潮。

知识图谱的本质是一种叫做语义网络的知识库，用来描述真实世界中那些客观存在的实体、概念和这些实体概念之间的关联关系。存储结构上为一对有向图结构，图中的结点对应着实体或是概念，图中的有向边对应着实体和概念之间的复杂的语义关系。

现有的知识存储技术在早期探索了以不同语义、句法特征为基础的特征工程方法，这些方法的优势在于具有较强的可解释性，但通常需要大量人工特征选择，特征设计的不足和底层语法工具的错误都可能导致知识存储效果较差；基于深度学习的知识存储模型将知识存储的效果提升到了新的水平，但这些模型通常只关注数据集中包含的信息，对于医药专业知识等外部信息缺乏考虑机制；基于知识和任务的方法在通用领域知识存储方面达到了不错的效果，但仍然缺乏对医药行业知识的考虑，同时，模型设计了较为复杂的机制，参数较多，在医药少样本数据上进行训练时容易造成训练难、过拟合等问题，达不到良好效果。

鉴于此，如何利用少样本数据进行模型的训练，进行知识图谱的构建，并利用所构建的知识图谱进行医药领域的知识问答，成为本领域技术人员亟待解决的问题。

发明内容

本发明提供一种基于深度学习的医药知识图谱构建方法，通过定义医药知识图谱中的实体、关系和属性，构建医药知识图谱，并结合迁移学习进行医药知识图谱的构建，同时根据所构建的知识图谱进行医药领域的知识问答。

为实现上述目的，本发明提供的一种基于深度学习的医药知识图谱构建方法，包括：

获取医药网站中的相关医药知识信息，并对医药网站内容进行解析；

完成对解析内容的数据清洗；

利用基于词典的切分算法对解析内容进行切分处理；

设计医药知识图谱实体关系，并进行基于医药知识图谱的语义表示；

基于注意力机制进行知识图谱网络的构建，并进行基于知识图谱的医药问答；

将基于知识图谱的医药问答过程建模为排序问题，采用逐点训练的方式进行计算，得到问答之间的匹配分数，并根据匹配分数的分布特征进行参数精调，实现少样本下的知识图谱训练。

可选地，所述对医药网站内容进行解析，包括：

解析出疾病的基本信息、发病原因、预防措施、检查项目、治疗信息、饮食保健信息和用药信息；

其中，单条数据的存储格式为:{‘url’:‘data’,‘basic_info’:‘data’,‘cause_info’:‘data’,‘prevent_info’:‘data’,‘symptom_info’:‘data’,‘inspect_info’:‘data’‘treat_info’:‘data’,‘food_info’:‘data’,‘drug_info’:‘data’}；

将所有的疾病名称和网站中医生评论模块中评论者姓名单独抓取存储为文本格式。

可选地，所述对所解析内容进行数据清洗，包括：

通过设置停用词表来过滤“症状信息”中包含的错误信息，停用词表的设置采用数据抓取阶段保存的网站医生评论区医生姓名信息、基本字母表“a-z”和数字表“0-9”共同构成停用词表；

对于原始信息中“检查信息”中只保存了二级页面的url和页面的html文本内容，通过调用Python的Parse软件包重新解析html内容，从html中解析出“检查名称”和“检查描述”信息以{‘name’:‘data’,‘desc’:‘data’}的格式更新数据库相关信息。

可选地，所述基于词典的切分算法的流程为：

根据所述医药知识词典分别进行前向词典最大匹配以及后向词典最大匹配，根据匹配结果进行初步分词；

将前向最大匹配的分词结果和后向最大匹配的分词结果进行比较，采用启发式规则，若正反向分词结果词数不同，那么取分词数量少的分词结果作为最终结果；若分词结果数相同，说明正反向分词结果没有歧义，返回任意分词结果。

可选地，所述进行基于医药知识图谱的语义表示，包括：

1)将实体语句中的每个词语通过词嵌入层建模为嵌入式表达v_i，并利用BiLSTM计算得出实体语句序列中的每个词语的语义表示

并通过池化机制计算得到实体语句的总体语义表示

2)通过图嵌入的方式预训练得到实体的词嵌入信息e_t，i，通过计算语句序列中的所有词汇与知识图谱实体的n元相似度，将相似度最高的k个实体信息引入到语句表示训练过程中；

3)对于序列中的第t个词语，对应的实体集合表示为e_t＝{e_1，t，...，e_k，t}，第t步的上下文相关知识表达的产生方式如下：

其中：

W_s，W_k，w_m为预设置的权重矩阵；

a_t，i为第i个实体相对于第t个词的注意力权重；

为上下文相关的知识表示；

e_t，i为实体的词嵌入信息；

m_t，i为词嵌入信息的和；

4)采用卷积神经网络处理注意力加权后的知识向量，得到局部知识信息

其中：

W_conv为卷积层的权重矩阵；

b_conv为卷积层的偏置向量；

将滤波器的输出结果在特征维度上相连接得到最终的知识向量语义表示为：

其中：

f_i为第i个卷积核的输出特征。

可选地，所述基于注意力机制进行知识图谱网络的构建，包括：

1)计算得到问答句相关性的权重矩阵

其中A_e和Q_e为问答语句基于知识图谱的语句表示；

2)针对不同的问答向量，采用如下方式计算问答的相关性矩阵：

R^A＝softmax(R)

R^Q＝softmax(R^T)

其中：

R^A为答案的相关性矩阵；

R^Q为问题的相关性矩阵；

3)整合问答两侧的矩阵表述形成新的矩阵表述：

Q_sum＝Q_eR^Q

A_sum＝A_eR^Q

其中：

A_sum为线性加权的答案侧表述；

Q_sum为线性加权的问题侧表述；

4)得到问答两侧转换后的表达后，通过剩余网络将自注意力表达映射回到较低维度空间中：

Q_self＝max(0，Q_sumU)W+Q_sum

A_self＝max(0，A_sumU)W+A_sum

其中：

U表示特征经过转换器机制后的特征维度；

W表示剩余网络的网络权重；

5)采用一次Bi LSTM对全部信息进行整合，将最后一个信息步的向量输出作为问答两侧的向量表达，进入文本匹配网络进行匹配：

Q_final＝BiLSTM_Ｑ(Q_self)

A_final＝BiLSTM_A(A_self)

6)针对问答对向量q和a的最终向量记为

和

为Q_final，A_final最后一个时间步的取值，并将

作为当前医药问题的回答；

所述基于知识图谱的医药问答模型的损失函数为：

其中：

y_i为候选答案是否符合问题的标签；

p_i为softmax层的概率输出；

θ为模型的所有参数；

λ为防止模型过拟合的参数，本发明将其设为0.2。

可选地，所述将基于知识图谱的医药问答过程建模为排序问题，采用逐点训练的方式进行计算，得到问答之间的匹配分数，包括：

根据富样本数据集进行知识图谱网络模型的预训练，得到预训练模型f_θ，通过模型f_θ后得到特征向量

将答案选择问题建模为排序问题，采用逐点训练进行计算；

在得到特征向量

后采用单层全连接网络与softmax层计算相关性匹配分数：

y_i＝softmax(W^Tf_θ(x_i))

其中：

W为单层全连接网络权重参数；

x_i为问题的特征向量；

y_i为输出的答案。

此外，为实现上述目的，本发明还提供一种基于深度学习的医药知识图谱构建系统，所述系统包括：

医药知识获取装置，用于获取医药网站中的相关医药知识信息；

医药知识处理器，用于对医药网站内容进行解析，同时完成解析内容的数据清洗，并利用基于词典的切分算法对解析内容进行切分处理；

医药知识图谱构建装置，用于设计医药知识图谱实体关系，并进行基于医药知识图谱的语义表示，同时基于注意力机制进行知识图谱网络的构建，并进行基于知识图谱的医药问答。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有医药知识图谱构建指令，所述医药知识图谱构建指令可被一个或者多个处理器执行，以实现如上所述的基于深度学习的医药知识图谱构建的实现方法的步骤。

相对于现有技术，本发明提出一种基于深度学习的医药知识图谱构建方法，该技术具有以下优势：

首先，现有知识图谱构建技术并未涉及医药领域。因此本发明利用爬虫等相关技术，抓取医疗网站原始数据，并通过数据处理和清洗转化为结构化数据存储，并通过预构建医药知识词典，本发明根据所述医药知识词典分别进行前向词典最大匹配以及后向词典最大匹配，根据匹配结果进行初步分词，将前向最大匹配的分词结果和后向最大匹配的分词结果进行比较，采用启发式规则返回字数较少的分词结果，通过对分词结果进行分析，本发明构建7种知识图谱实体类型以及7种知识图谱属性类型以完成医药知识图谱实体关系的设计。

同时，针对问答模型对医药专业知识利用不足的问题，本发明在基于知识图谱的医药问答模型中通过注意力机制将医药知识图谱上的医药知识关系引入到问答过程，首先本发明通过图嵌入的方式预训练得到实体的词嵌入信息，通过计算语句序列中的所有词汇与知识图谱实体的n元相似度，将相似度最高的k个实体信息引入到语句表示训练过程中，并利用BiLSTM模型进行上下文相关知识的表达，得到注意力加权后的知识向量，采用卷积神经网络处理注意力加权后的知识向量，得到局部知识信息。为了进一步提高模型针对问答语句的特征提取能力，本发明提出了问答语句的双向注意力交互机制，通过分别对问句和答句两侧的矩阵表述进行整合，得到线性加权的问答侧表述，并通过剩余网络将自注意力问答侧表述映射回到较低维度空间中，采用一次Bi LSTM对全部信息进行整合，将最后一个信息步的向量输出作为问答两侧的向量表达，以实现对医药知识领域的自动问答处理。

针对医药问答数据量较少的现状，本发明提出了基于迁移学习的少样本医药问答模型。模型在富样本通用问答数据集上进行预训练，再通过模型迁移、参数共享，在少样本医药问答数据集上进行精调。

附图说明

图1为本发明一实施例提供的一种基于深度学习的医药知识图谱构建方法的流程示意图；

图2为本发明一实施例提供的一种基于深度学习的医药知识图谱构建系统的结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

通过定义医药知识图谱中的实体、关系和属性，构建医药知识图谱，并结合迁移学习进行医药知识图谱的构建，同时根据所构建的知识图谱进行医药领域的知识问答。参照图1所示，为本发明一实施例提供的基于深度学习的医药知识图谱构建方法示意图。

在本实施例中，基于深度学习的医药知识图谱构建方法包括：

S1、获取医药网站中的相关医药知识信息，并对医药网站内容进行解析，同时完成解析内容的数据清洗。

首先，本发明从医药网站上抓取疾病的基本信息、发病原因、病情预防、病情症状、检查信息、治疗信息、饮食保健信息和用药信息的相关信息，在本发明一个实施例中，本发明通过使用Python语言编写爬虫脚本来抓取相关页面获取信息；

进一步地，本发明解析了疾病的基本信息、发病原因、预防措施、检查项目、治疗信息、饮食保健信息和用药信息，其中，单条数据的存储格式为:{‘url’:‘data’,‘basic_info’:‘data’,‘cause_info’:‘data’,‘prevent_info’:‘data’,‘symptom_info’:‘data’,‘inspect_info’:‘data’‘treat_info’:‘data’,‘food_info’:‘data’,‘drug_info’:‘data’}；同时本发明将所有的疾病名称和网站中医生评论模块中评论者姓名单独抓取存储为文本格式。

在本发明所述数据清洗阶段需要完成对原始数据中非格式化数据格式化操作，对原始数据中错误数据进行删除。通过对原始数据的取样分析发现，提取的原始数据中，“症状信息”包含了除症状以外的信息，如包含了不属于症状信息的医生姓名信息；原始数据的“检查信息”中，保存的是二级页面的url和抓取未解析的html文本内容；“并发症”信息中包含了疾病前缀，如“支气管肺炎肺不张”；

针对原始数据所存在的以上问题，本发明通过设置停用词表来过滤“症状信息”中包含的错误信息，停用词表的设置采用数据抓取阶段保存的网站医生评论区医生姓名信息、基本字母表“a-z”和数字表“0-9”共同构成停用词表；

对于原始信息中“检查信息”中只保存了二级页面的url和页面的html文本内容，本发明通过调用Python的Parse软件包重新解析html内容，从html中解析出“检查名称”和“检查描述”信息以{‘name’:‘data’,‘desc’:‘data’}的格式更新数据库相关信息。

S2、利用基于词典的切分算法对解析内容进行切分处理。

进一步地，对于所解析的医药内容，本发明通过预构建医药知识词典，并利用基于词典的切分算法对所述解析内容进行切分处理，所述切分算法的算法流程为：

S3、设计医药知识图谱实体关系，并进行基于医药知识图谱的语义表示。

进一步地，本发明通过构建7种知识图谱实体类型以及7种知识图谱属性类型以完成医药知识图谱实体关系的设计，所述知识图谱实体类型包括：诊断检查项目、医疗科目、症状、在售药品、药品、食物、疾病，所述知识图谱属性类型包括：疾病名称、疾病介绍、病因、治疗方式、治疗概率、预防措施、治愈概率以及疾病易感人群。

进一步地，根据所设计的医药知识图谱实体关系，本发明进行基于医药知识图谱的语义表示，所述基于医药知识图谱的语义表示流程为：

并通过池化机制计算得到实体语句的总体语义表示

其中：

W_s，W_k，w_m为预设置的权重矩阵；

a_t，i为第i个实体相对于第t个词的注意力权重；

为上下文相关的知识表示；

e_t，i为实体的词嵌入信息；

m_t，i为词嵌入信息的和；

其中：

W_conv为卷积层的权重矩阵；

b_conv为卷积层的偏置向量；

其中：

f_i为第i个卷积核的输出特征。

S4、基于注意力机制进行知识图谱网络的构建，并进行基于知识图谱的医药问答。

进一步地，为了增强问答对序列间的语义交互，本发明基于注意力机制进行基于知识图谱网络的构建，并实现了基于知识图谱的医药问答，所述知识图谱网络的的构建过程为：

1)计算得到问答句相关性的权重矩阵

其中A_e和Q_e为问答语句基于知识图谱的语句表示；

R^A＝softmax(R)

R^Q＝softmax(R^T)

其中：

R^A为答案的相关性矩阵；

R^Q为问题的相关性矩阵；

3)整合问答两侧的矩阵表述形成新的矩阵表述：

Q_sum＝Q_eR^Q

A_sum＝A_eR^Q

其中：

A_sum为线性加权的答案侧表述；

Q_sum为线性加权的问题侧表述；

Q_self＝max(0，Q_sumU)W+Q_sum

A_self＝max(0，A_sumU)W+A_sum

其中：

U表示特征经过转换器机制后的特征维度；

W表示剩余网络的网络权重；

Q_final＝BiLSTM_Q(Qse_lf)

A_final＝BiLSTM_A(A_self)

6)针对问答对向量q和a的最终向量记为

和

为Q_final，A_final最后一个时间步的取值，并将

作为当前医药问题的回答。

所述基于知识图谱的医药问答模型的损失函数为：

其中：

y_i为候选答案是否符合问题的标签；

p_i为softmax层的概率输出；

θ为模型的所有参数；

λ为防止模型过拟合的参数，本发明将其设为0.2。

S5、将基于知识图谱的医药问答过程建模为排序问题，采用逐点训练的方式进行计算，得到问答之间的匹配分数，并根据匹配分数的分布特征进行参数精调，实现少样本下的知识图谱训练。

进一步地，本发明根据富样本数据集进行知识图谱网络模型的预训练，得到预训练模型f_θ，通过模型f_θ后得到特征向量

将答案选择问题建模为排序问题，采用逐点训练进行计算；因此本发明在得到特征向量

后采用单层全连接网络与softmax层计算相关性匹配分数：

y_i＝softmax(W^Tf_θ(x_i))

其中：

W为单层全连接网络权重参数；

x_i为问题的特征向量；

y_i为输出的答案；

进一步地，本发明根据匹配分数的分布特征进行网络参数的优化，所述网络参数θ的优化过程为：

其中：

η为学习率参数，本发明将其设为0.8；

为问答模型中目标域的泛化误差；

ζ为源域和目标域之间的分布差异。

下面通过一个算法实验来说明本发明的具体实施方式，并对发明的处理方法进行测试。本发明算法的硬件测试环境部署在Pytorch深度学习框架中，处理器为Inter(R)Core(TM)i5-7300HQ CPU@2.50GHZ，显卡为GeForce GTX1040，内存为16G，开发环境为python3.6，开发工具为Anaconda科学计算库；对比算法模型为记忆网络模型，基于单词级别循环神经网络模型以及基于注意力机制的卷积神经网络模型。

在本发明所述算法实验中，数据集为主要来自于医药网站的医药数据、手工构建的问题数据和Simple Question简单问答对数据集，Simple Question简单问答对数据集是基于Free Base知识库的基准数据集，提供了一组单一关系问题，每个问题附有一个的答案，是当前大多数问答系统测试使用的基准数据集。该数据集被分为训练集(79590)、验证集(10845)和测试集(21687)。该基准测试集还提供了两个Free Base子集：FB2M和FB5M，分别包含2M和5M实体。本发明将数据集中的问题数据分别输入到训练模型中，将所生成的答案同训练集中的答案进行匹配，匹配结果记为问答模型的正确率。

根据实验结果，记忆网络模型的医药知识问答正确率为75.82％，基于单词级别循环神经网络模型的医药知识问答正确率为81.13％，基于注意力机制的卷积神经网络模型的医药知识问答正确率为84.83％，本发明所述算法的医药知识问答正确率为88.92％，相较于对比算法，本发明所提出的基于深度学习的医药知识图谱构建方法具有更高的医药知识问答正确率。

发明还提供一种基于深度学习的医药知识图谱构建系统。参照图2所示，为本发明一实施例提供的基于深度学习的医药知识图谱构建系统的内部结构示意图。

在本实施例中，所述基于深度学习的医药知识图谱构建系统1至少包括医药知识获取装置11、医药知识处理器12、医药知识图谱构建装置13，通信总线14，以及网络接口15。

其中，医药知识获取装置11可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。

医药知识处理器12至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。医药知识处理器12在一些实施例中可以是基于深度学习的医药知识图谱构建系统1的内部存储单元，例如该基于深度学习的医药知识图谱构建系统1的硬盘。医药知识处理器12在另一些实施例中也可以是基于深度学习的医药知识图谱构建系统1的外部存储设备，例如基于深度学习的医药知识图谱构建系统1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，医药知识处理器12还可以既包括基于深度学习的医药知识图谱构建系统1的内部存储单元也包括外部存储设备。医药知识处理器12不仅可以用于存储安装于基于深度学习的医药知识图谱构建系统1的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。

医药知识图谱构建装置13在一些实施例中可以是一中央处理器(CentralProcessingUnit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行医药知识处理器12中存储的程序代码或处理数据，例如医药知识图谱构建程序指令等。

通信总线14用于实现这些组件之间的连接通信。

网络接口15可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该系统1与其他电子设备之间建立通信连接。

可选地，该系统1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在基于深度学习的医药知识图谱构建系统1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-15以及基于深度学习的医药知识图谱构建系统1，本领域技术人员可以理解的是，图1示出的结构并不构成对基于深度学习的医药知识图谱构建系统1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，医药知识处理器12中存储有基于深度学习的医药知识图谱构建程序指令；医药知识图谱构建装置13执行医药知识处理器12中存储的医药知识图谱构建程序指令的步骤，与基于深度学习的医药知识图谱构建方法的实现方法相同，在此不作类述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有医药知识图谱构建程序指令，所述医药知识图谱构建程序指令可被一个或多个处理器执行，以实现如下操作：

完成对解析内容的数据清洗；

利用基于词典的切分算法对解析内容进行切分处理；

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。