CN109190113B

CN109190113B - 一种中医理论典籍的知识图谱构建方法

Info

Publication number: CN109190113B
Application number: CN201810910004.1A
Authority: CN
Inventors: 张德政; 金佩; 谢永红; 张妍; 贾麒
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2021-08-31
Anticipated expiration: 2038-08-10
Also published as: CN109190113A

Abstract

本发明提供一种中医理论典籍的知识图谱构建方法，能够提高构建的知识图谱的准确率。所述方法包括：确定中医理论典籍中的实体词表和动词词表；根据确定的实体词表，对中医理论典籍中的实体进行标注；根据已标注实体的中医理论典籍，通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别，得到中医理论典籍中的实体；根据识别出的中医理论典籍中的实体，利用结合注意力机制的双向门控循环单元神经网络进行关系抽取，获取中医理论典籍中实体之间的关系，形成实体关系表；以实体关系表中的实体为节点集，实体关系表中的关系为边集，构建中医理论典籍的知识图谱。本发明涉及知识工程领域。

Description

一种中医理论典籍的知识图谱构建方法

技术领域

本发明涉及知识工程领域，特别是指一种中医理论典籍的知识图谱构建方法。

背景技术

从古至今，中医领域积累了大量的医学理论典籍，如《黄帝内经》、《难经》、《类经》等。这些典籍采用古文言文的形式，且大多是非结构化的文本。中医是一门渊源很久的学科，古代医学大家的理论典籍对后人了解中医知识和运用前人经验至关重要。而目前没有对中医理论典籍知识的结构化认识，如何将这些蕴含在中医理论典籍中的海量资源进行梳理并利用，已成为中医领域一个关注的热点问题。

知识图谱是描述真实世界中存在的各种概念或实体，以及各种实体、概念之间的关系。本质上是将领域知识数据体系化、关系化的语义网络，是一种基于图的数据结构。通俗来说，知识图谱是基于信息系统建立的知识库，根据提取的实体间关系通过可视化技术把复杂知识领域系统地展示出来。知识图谱的应用，能够实现对知识的共建、共享及重用。

但目前中医领域的知识图谱的应用很少，尤其是针对中医理论典籍这一类描述中医认识方法和辩证论治的理论书籍的知识图谱。

发明内容

本发明要解决的技术问题是提供一种中医理论典籍的知识图谱构建方法，以解决现有技术所存在的缺少描述中医认识方法和辩证论治的理论书籍的知识图谱的问题。

为解决上述技术问题，本发明实施例提供一种中医理论典籍的知识图谱构建方法，包括：

确定中医理论典籍中的实体词表和动词词表；

根据确定的实体词表，对中医理论典籍中的实体进行标注；

根据已标注实体的中医理论典籍，通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别，得到中医理论典籍中的实体；

根据识别出的中医理论典籍中的实体，利用结合注意力机制的双向门控循环单元神经网络进行关系抽取，获取中医理论典籍中实体之间的关系，形成实体关系表；

以实体关系表中的实体为节点集，实体关系表中的关系为边集，构建中医理论典籍的知识图谱。

进一步地，所述确定中医理论典籍中的实体词表和动词词表包括：

根据中医理论典籍的语言特点，按照特殊标点符号、数字和中医理论典籍中出现的固定句式，形成实体词表，并根据形成的实体词表进行实体的分类；

利用固定句式总结中医理论典籍中的动词关系，形成动词词表，并根据形成的动词词表进行实体间关系的分类。

进一步地，所述根据中医理论典籍的语言特点，按照特殊标点符号、数字和中医理论典籍中出现的固定句式，形成实体词表包括：

根据预先设置的特殊标点符号，确定中医理论典籍中的概念和子概念，根据确定的概念和子概念进行细分，得到中医理论典籍中的实体；

按照数字，确定中医理论典籍中的概念词实体和量词实体；

按照固定句式，确定中医理论典籍句子中包含的实体；

对得到的中医理论典籍中的实体进行汇总，形成实体词表；

以中医的认识方法和辩证论治为依据，对实体词表中的实体进行分类。

进一步地，实体的分类类别包括：生理、病理、自然、认识方法、治法；

实体间关系的分类类别包括：表征、概念、因果、促进、抑制、包含、unknown，其中，unknown表示实体间有关系，但关系不明确。

进一步地，在确定中医理论典籍中的实体词表和动词词表之后，所述方法还包括：

收集预先设置的词库中与中医相关的词表；

爬取预先设置的网站中的中医术语；

根据收集的与中医相关的词表和爬取的中医术语，扩充实体词表。

进一步地，所述根据确定的实体词表，对中医理论典籍中的实体进行标注包括：

根据确定的实体词表，采用BIOES的标注方式，为中医理论典籍中包含的实体打标签；

其中，BIOES中的B表示实体的开始、I表示实体的中间、E表示实体的结尾、S表示单个字符的实体、O表示非实体。

进一步地，所述根据已标注实体的中医理论典籍，通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别，得到中医理论典籍中的实体包括：

从网络上爬取和所述中医理论典籍相关的古籍，形成训练语料，根据形成的训练语料进行训练，得到中医理论典籍的字向量；

根据已标注实体的中医理论典籍和得到的中医理论典籍的字向量，通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别，得到中医理论典籍中的实体。

进一步地，所述从网络上爬取和所述中医理论典籍相关的古籍，形成训练语料，根据形成的训练语料进行训练，得到中医理论典籍的字向量包括：

从网络爬取和所述中医理论典籍相关的古籍，形成训练语料；

将训练语料中的古籍合并成一个文本，进行数据清洗后按字分割，其中，所述数据清洗包括：乱码清除、繁简体转换；

根据分割后得到的字，利用词向量生成工具的连续词袋模型进行训练，得到中医理论典籍的字向量。

进一步地，所述根据已标注实体的中医理论典籍和得到的中医理论典籍的字向量，通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别，得到中医理论典籍中的实体包括：

A1，将已标注实体的中医理论典籍划分为训练集、验证集和测试集；

A2，根据划分得到的训练集，将中医理论典籍字向量作为基于字符的双向长短期记忆网络的预训练模型的输入，得到初始网络参数；基于得到的初始网络参数，双向长短期记忆网络进行训练，拼接字向量的上下文语义向量，输出给条件随机场进行标注，得到训练模型；

A3，利用划分得到的验证集，选择最优训练模型；

A4，利用划分得到的测试集调整已选择的最优训练模型中的网络结构和网络参数；

A5，利用已调整后的最优训练模型识别中医理论典籍中未标注的实体；

A6，根据识别出的未标注的实体，扩充实体词表。

进一步地，所述根据识别出的中医理论典籍中的实体，利用结合注意力机制的双向门控循环单元神经网络进行关系抽取，获取中医理论典籍中实体之间的关系，形成实体关系表包括：

B1，将中医理论典籍中包含实体词表中两个及以上实体的句子作为关系语料，根据实体间关系的分类结果，对关系语料进行标注，得到实体-关系数据集；

B2，将所述实体-关系数据集划分为训练集、验证集和测试集；

B3，根据划分得到的训练集，通过结合注意力机制的双向门控循环单元神经网络进行网络训练；

B4，利用划分得到的验证集，选择最优训练模型；

B5，利用划分得到的测试集调整已选择的最优训练模型中的网络结构和网络参数；

B6，利用已调整后的最优训练模型识别关系语料中未标注的句子进行关系抽取，获得实体之间可能的关系及概率；

B7，选择概率最大的关系为实体之间的关系，并扩充实体关系表形成实体关系三元组。

本发明的上述技术方案的有益效果如下：

上述方案中，确定中医理论典籍中的实体词表和动词词表；根据确定的实体词表，对中医理论典籍中的实体进行标注；根据已标注实体的中医理论典籍，通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别，得到中医理论典籍中的实体；根据识别出的中医理论典籍中的实体，利用结合注意力机制的双向门控循环单元神经网络进行关系抽取，获取中医理论典籍中实体之间的关系，形成实体关系表；以实体关系表中的实体为节点集，实体关系表中的关系为边集，构建中医理论典籍的知识图谱；这样，利用循环神经网络加条件随机场进行实体识别，并利用循环神经网络加注意力机制进行关系抽取，能够提高实体识别和关系抽取的准确率，从而提高构建的知识图谱的准确率。

附图说明

图1为本发明实施例提供的中医理论典籍的知识图谱构建方法的流程示意图；

图2为本发明实施例提供的中医理论典籍的知识图谱构建方法的详细流程示意图；

图3为本发明实施例提供的黄帝内经的知识图谱示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的描述中医认识方法和辩证论治的理论书籍的知识图谱的问题，提供一种中医理论典籍的知识图谱构建方法。

如图1所示，本发明实施例提供的中医理论典籍的知识图谱构建方法，包括：

S101，确定中医理论典籍中的实体词表和动词词表；

S102，根据确定的实体词表，对中医理论典籍中的实体进行标注；

S103，根据已标注实体的中医理论典籍，通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络(Bi-LSTM-CRF)进行实体识别，得到中医理论典籍中的实体；

S104，根据识别出的中医理论典籍中的实体，利用结合注意力机制的双向门控循环单元神经网络进行关系抽取，获取中医理论典籍中实体之间的关系，形成实体关系表；

S105，以实体关系表中的实体为节点集，实体关系表中的关系为边集，构建中医理论典籍的知识图谱。

本发明实施例所述的中医理论典籍的知识图谱构建方法，确定中医理论典籍中的实体词表和动词词表；根据确定的实体词表，对中医理论典籍中的实体进行标注；根据已标注实体的中医理论典籍，通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别，得到中医理论典籍中的实体；根据识别出的中医理论典籍中的实体，利用结合注意力机制的双向门控循环单元神经网络进行关系抽取，获取中医理论典籍中实体之间的关系，形成实体关系表；以实体关系表中的实体为节点集，实体关系表中的关系为边集，构建中医理论典籍的知识图谱；这样，利用循环神经网络加条件随机场进行实体识别，并利用循环神经网络加注意力机制进行关系抽取，能够提高实体识别和关系抽取的准确率，从而提高构建的知识图谱的准确率。

在前述中医理论典籍的知识图谱构建方法的具体实施方式中，进一步地，所述确定中医理论典籍中的实体词表和动词词表包括：

本实施例中，根据中医理论典籍的语言特点，得到中医理论典籍的实体词表和动词词表，并根据得到的词表进行实体和实体间关系的分类。

本实施例中，实体间关系主要分为以下七类：表征、概念、因果、促进、抑制、包含、unknown，其中，unknown表示实体间有关系，但关系不明确。

在前述中医理论典籍的知识图谱构建方法的具体实施方式中，进一步地，所述根据中医理论典籍的语言特点，按照特殊标点符号、数字和中医理论典籍中出现的固定句式，形成实体词表包括：

按照数字，确定中医理论典籍中的概念词实体和量词实体；

按照固定句式，确定中医理论典籍句子中包含的实体；

对得到的中医理论典籍中的实体进行汇总，形成实体词表；

本实施例中，例如，可以通过“：”“、”等特殊标点符号，确定中医理论典籍中的概念和子概念，根据确定的概念和子概念进一步进行细分，得到中医理论典籍中的实体；也可以通过“一”、“二”、“三”、“四”、“五”等数字，确定中医理论典籍中的概念词和量词等实体；还可以通过固定句式，确定中医理论典籍句子中包含的实体；然后，对得到的中医理论典籍中的实体进行汇总，形成实体词表。

本实施例中，可以以中医的认识方法和辩证论治为依据，将实体词表中的实体分为以下具体五类：生理(SL，包括五脏、六腑、奇恒之腑、气、血、津液、精、体液、外荣、形体、官窍、情志、神、经络穴位、脏腑生理功能、脏腑生理特性等概念)、病理(BL，包括疾病、病因、病机、症状等概念)、自然(ZR，包括四时、方位、时间、颜色、味道、五行、动植物等)、认识方法(FF，包括阴阳、天干地支、数字等概括总结形成的术语)、治法(ZF，包括辨证方法、证候、治则、治法、方药、性味归经等)。

在前述中医理论典籍的知识图谱构建方法的具体实施方式中，进一步地，在确定中医理论典籍中的实体词表和动词词表之后，所述方法还包括：

收集预先设置的词库中与中医相关的词表；

爬取预先设置的网站中的中医术语；

本实施例中，还可以通过爬取相关网站中的与中医相关的词表和中医术语，来扩充实体词表，具体步骤可以包括的：

收集预先设置的词库(例如，搜狗细胞词库)中的与中医相关的词表，包括：方剂、穴位等；爬取预先设置的网站(例如，百度百科和中医网站)中的中医术语，包括：穴位、概念、治法、病症等；根据收集的与中医相关的词表和爬取的中医术语，扩充实体词表。

本实施例中，通过2种途径获取词表：

1)根据中医理论典籍的语言特点(数字、特殊符号、固定句式)，确定中医理论典籍中的实体词表和动词词表，为理解中医理论典籍阐述的主要概念及其联系等提供了帮助，并可以作为未来研究中医理论典籍的资源。

需要说明的是，在确定中医理论典籍中的实体词表和动词词表时，还可以结合用户对中医(尤其是中医理论典籍)的理解。

2)从网络中获取了另一部分词表和中医术语，不仅扩充了原实体词表，且操作过程简洁、迅速。

通过1)和2)这两种方式，得到了针对中医理论典籍这一类非结构化文本整理的结构化词表。通过1)和2)这两种方式的结合，不仅增加了实体的数量，还能减少人工标注的工作量。

在前述中医理论典籍的知识图谱构建方法的具体实施方式中，进一步地，所述根据确定的实体词表，对中医理论典籍中的实体进行标注包括：

本实施例中，可以利用词典的方法，为中医理论典籍中包含的实体打标签；还可以利用词典和人工校对相结合的方法，为中医理论典籍中包含的实体打标签。

在前述中医理论典籍的知识图谱构建方法的具体实施方式中，进一步地，所述根据已标注实体的中医理论典籍，通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别，得到中医理论典籍中的实体包括：

在前述中医理论典籍的知识图谱构建方法的具体实施方式中，进一步地，所述从网络上爬取和所述中医理论典籍相关的古籍，形成训练语料，根据形成的训练语料进行训练，得到中医理论典籍的字向量包括：

根据分割后得到的字，利用词向量生成工具(word2vec)的连续词袋模型(Continuous Bag-of-Words，CBOW)进行训练，得到中医理论典籍的字向量。

本实施例中，字向量维度可以设置为200维，在实际应用中，字向量的维度可以根据实际应用场景确定。

在前述中医理论典籍的知识图谱构建方法的具体实施方式中，进一步地，所述根据已标注实体的中医理论典籍和得到的中医理论典籍的字向量，通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别，得到中医理论典籍中的实体包括：

A3，利用划分得到的验证集，选择最优训练模型；

A6，根据识别出的未标注的实体，扩充实体词表。

将已标注实体的中医理论典籍划分为训练集、验证集和测试集；

本实施例中，根据已标注实体的中医理论典籍和得到的中医理论典籍的字向量，利用Bi-LSTM-CRF的深度学习方法进行实体识别，得到中医理论典籍中的实体，其具体步骤可以包括：

例如，将已标注实体的中医理论典籍作为一数据集，可以将数据集的60％作为训练集通过Bi-LSTM-CRF进行网络训练，20％作为验证集来选择最优训练模型，20％作为测试集进行测试，字向量采用200维进行训练，查看模型的识别效果，防止过拟合，并根据测试结果来调整已选择的最优训练模型中的网络结构和网络参数(其中，防过拟合参数dropout为0.5，迭代次数为200次、批大小batch_size为10)；然后，利用已调整后的最优训练模型识别中医理论典籍中未标注的实体，根据识别出的未标注的实体，进一步扩充实体词表。

本实施例中，长短期记忆网络(Long Short Term Memory，LSTM)是一种特殊类型的循环神经网络。双向长短期记忆网络弥补了普通的循环神经网络不能记忆长距离依赖的缺点，考虑了输入字的上下文信息，条件随机场考虑了标签之间的相互作用。

本实施例中，将中医理论典籍字向量作为双向长短期记忆网络的预训练模型的输入，以得到较优的初始网络参数，防止过拟合，且可以减少分词效果不佳累积的误差，也就是说：双向长短期记忆网络加入无监督预训练，能得到较好的局部最优解；随后双向长短期记忆网络进行有监督训练，拼接字向量的上下文语义向量，输出给条件随机场进行标注，得到训练模型。

总的来说，用于预训练的字向量是作为双向长短期记忆网络的一层预训练模型，用于得到较好的初始化参数，得到较好的局部最优解，便于为后续有监督训练提供参考。

在前述中医理论典籍的知识图谱构建方法的具体实施方式中，进一步地，所述根据识别出的中医理论典籍中的实体，利用结合注意力机制的双向门控循环单元神经网络进行关系抽取，获取中医理论典籍中实体之间的关系，形成实体关系表包括：

B3，根据划分得到的训练集，通过结合注意力(Attention)机制的双向门控循环单元神经网络(Bidirectional gated recurrent unit，BiGRU)进行网络训练；

B4，利用划分得到的验证集，选择最优训练模型；

本实施例中，双向门控循环单元神经网络也是一种特殊类型的循环神经网络。

本实施例中，利用添加字、句两层注意力机制的BiGRU深度学习方法进行关系抽取，获取中医理论典籍中实体间的关系，形成实体关系三元组，其具体步骤可以包括：

将中医理论典籍中包含实体词表中两个及以上实体的句子作为关系语料，根据实体间关系的分类结果，对关系语料进行标注，得到实体-关系数据集(实体1，实体2，关系)；根据得到的实体-关系数据集，实体-关系数据集划分同步骤B2中的划分方法，利用结合Attention机制的BiGRU深度学习的方法训练模型，进行关系抽取，输入关系语料中未标注的句子进行关系抽取，获得实体1和实体2之间可能的关系及概率，选择概率最大的关系为实体之间的关系，并扩充实体关系表形成实体关系三元组。

本实施例中，Attention机制克服了传统的编码-解码(Encoder-Decoder)结构在解码过程中，对每个时刻的输出做预测的时候，用到的上下文向量相同的问题。引入Attention机制之后，预测输出时考虑了与输出对应的输入，使预测时更关注和输入相关的字。

本实施例中，通过深度学习训练模型识别中医理论典籍中新的实体和新的实体间关系，进一步扩充中医理论典籍原有的实体词表和实体关系表。

本实施例中，以实体关系表中的实体为节点集，实体关系表中的关系为边集，利用图数据库(Neo4j)的可视化技术构建中医理论典籍的知识图谱。

综上，本实施例中，利用BIOES的标注方式对中医理论典籍进行标注，并将循环神经网络加条件随机场(CRF)、循环神经网络加注意力机制分别用于实体识别和关系抽取两个任务，形成了一种针对中医理论典籍的结合词表和深度学习的知识图谱的构建方法，能够很好地完成对非结构化文本的处理。

本实施例中，以《黄帝内经》这一中医理论典籍为例，对本发明实施例所述的中医理论典籍的知识图谱构建方法进行详细说明，如图2所示，所述中医理论典籍的知识图谱构建方法具体可以包括：

S1，根据中医理论典籍的语言特点，按照特殊标点符号、数字和中医理论典籍中出现的固定句式，形成实体词表，并根据形成的实体词表进行实体的分类，利用固定句式总结中医理论典籍中的动词关系，形成动词词表，并根据形成的动词词表进行实体间关系的分类；

S2，爬取了相关网络中与中医相关的词表和术语(例如，穴位、经脉、病症、药材等)，进一步扩充实体词表；

S3，根据确定的实体词表，采用BIOES的标注方式，为中医理论典籍句子中包含的实体打标签；

S4，从网络上爬取和该中医理论典籍相关的古籍，形成训练语料，利用word2vec训练得到中医理论典籍的字向量；

S5，利用Bi-LSTM-CRF的深度学习方法进行实体识别，得到中医理论典籍中的实体；

S6，根据识别出的中医理论典籍中的实体，利用结合Attention机制的BiGRU深度学习方法进行关系抽取，获取中医理论典籍中的实体之间的关系，扩充实体关系表形成实体关系三元组；

S7，以实体关系表中的实体为节点集，实体关系表中的关系为边集，利用Neo4j的可视化技术构建中医理论典籍的知识图谱。

在S1的实施过程中，首先整理《黄帝内经》中的概念和子概念。《黄帝内经》有大量特殊标点符号，“：”“、”总结了大量概念，前后为“是”的解释关系。这一步利用标点符号，归纳了一些实体，如表1所示：

表1实体

表2实体

量词

时间

动名词

一

二

三

四

五

六

七

八

九

一升

二七

一盛

一阳

二阳

三阳

四时

五阳

六阳

七损

八远

九州

三升

二八

二盛

一阴

二阴

三阴

四气

五行

六阴

七诊

八风

九窍

一丈

五七

十二盛

一脏

二脏

三脏

四脏

五脏

六腑

九脏

三丈

五八

一夺

一候

二穴

三品

四藏

五藏

六府

七窍

八益

九候

一剂

六七

五夺

一节

二火

三水

四季

五气

六气

九气

二剂

六八

一刺

一痏

二痏

三痏

四淫

五风

六节

七节

八节

九节

四寸

七八

三刺

一经

二之气

三经

四经

五经

六经

九野

六寸

八七

五刺

十一焦

三焦

四街

五焦

六寸

七焦

八纪

九焦

一尺

一日

一逆

十四椎

三候

四极

五体

六元

八溪

九针

三尺

十三日

二逆

三椎

四椎

五脉

六椎

七椎

九分

七尺

二十日

四逆

三针

四傍

五痹

六经脉

七星

八正

九星

一斗

一夜

五逆

十二节

二十五人

三部

四肢

五形志

六律

八俞

九谊

三斗

一备

一合

十二从

二十五输

三之气

四支

五胠俞

六俞

八痏

九宫

然后，整理《黄帝内经》中的数字概念。《黄帝内经》中有大量数字，如“一”、“二”、“三”、“四”、“五”，有的属于量词，有的属于总结出来的概念词，因此这一步通过数字，对《黄帝内经》中的实体进行归纳，得到的部分实体如表2所示。总结表1、表2，形成《黄帝内经》的实体词表，实体词表中的部分内容，如表3所示：

表3实体词表中的部分内容

五脏

肝

心

脾

肺

肾

五华/五荣

爪

面/色

唇四白/唇

毛

发

五充/五合/五体

筋

血脉/脉/血

肌/肉/肌肉

皮/皮毛

骨/髓/骨髓

五方

东方

南方

中央

西方

北方

五色

青色/苍

赤色/赤

黄色/黄

白色/白

黑色/黑

五窍

目

耳

口

鼻

二阴

舌

五味

酸

苦

甘

辛

咸

五行

木

火

土

金

水

五畜

鸡

羊

牛

马

彘\猪

犬

五谷

麦

黍

稷

稻

豆

五谷

麦

黄黍

麻

糠米

大豆

五星

岁星

荧惑星

镇星

太白星

辰星

五音

角

徵/征

宫

商

羽

五数

八

七

五

九

六

五臭

臊

焦

香

腥

腐

五液

泪/泣

涕

汗

唾

涎/液

五声

呼

笑

歌

哭

呻

五变动

握

忧

哕

咳

栗

五志

怒

喜

忧

思

恐

五菜

韭

葱

薤

藿

葵

五果

李

杏

枣

桃

栗

五劳

行

视

坐

卧

立

五脉

弦

石

钩

代

毛

五气(表现)

柔

息

充

成

坚

五性

喧

暑

静兼

凉

凛

五德

和

湿

濡

清

寒

五用

动

燥

化

固

藏

五化

荣

茂

盈

敛

肃

五虫

毛

羽

倮

介

鳞

五政

散

明

谧

劲

静

五令

宣发

郁蒸

云雨

雾露

霰雪

五变

摧拉

炎烁

动注

肃杀

凝冽

五眚

为陨

燔(火芮)

淫溃

苍落

冰雹

五时

春

夏

长夏/季夏

秋

冬

天干

甲乙

丙丁

戊己

庚辛

壬癸

五炁/五神

魂

神

志

魄

精/意

五化

生

长

化

收

藏

五实

脉盛

皮热

腹胀

前后不通

闷瞀

五虚

脉细

皮寒

气少

泄利前后

饮食不入

五卫

振埃

发蒙

去爪

彻衣

解惑

六腑

胆

小肠

胃

大肠

膀胱

三焦

六气

风

热/暑

湿

燥

寒

火

按照中医的认识方法和辨证论治将《黄帝内经》中的实体分为以下具体五类，如表4所示：

表4实体的类别

类别	内容	标签
			中医认识方法	阴阳、天干地支、数字等概括总结形成的术语	FF
中医自然	四时、方位、时间、颜色、味道、五行、动植物等	ZR
			中医生理	脏腑、精气血津液、形体官窍、情志、经络穴位等	SL
中医病理	疾病、病因、病机、症状等	BL
			辨证论治	辨证方法、证候、治则、治法、方剂、药物等	ZF

最后，整理了《黄帝内经》中的固定句式，形成动词词表，动词词表中的部分动词及例句，如表5所示：

表5动词词表中的部分动词及例句

动词	例句
		主	心主脉，肺主皮，肝主筋，脾主肌，肾主骨。
胜	春胜长夏，长夏胜冬，冬胜夏，夏胜秋，秋胜春，所谓得五行时
		走	辛走气、气病无多食辛；咸走血，血病无多食咸；
藏	心藏神、肺藏魄、肝藏魂、脾藏意、肾藏志。是谓五脏所藏。
		伤	久视伤血、久卧伤气、久坐伤肉、久立伤骨、久行伤筋。
恶	心恶热、肺恶寒、肝恶风、脾恶湿、肾恶燥。是谓五恶。
		生	寒极生热，热极生寒，寒气生浊，热气生清。
归	味归形，形归气，气归精，精归化，
		食	精食气，形食味，
出	故清阳出上窍，浊阴出下窍；
		入	酸入肝、辛入肺、苦入心、咸入肾、甘入脾，是为五入。
欲	故心欲苦，肺欲辛，肝欲酸，脾欲甘，肾欲咸，此五味之所合也。
		欲	心欲软，急食咸以软之；用咸补之，甘泻之。
当	故白当皮，赤当脉，青当筋，黄当肉，黑当骨。
		应	以春应中规，夏应中矩，秋应中衡，冬应中权。
宜	黄色宜甘，青色宜酸，黑色宜咸，赤色宜苦，白色宜辛。
		禁	肝病禁辛，心病禁咸，脾病禁酸，肾病禁甘，肺病禁苦。

根据上述动词词表，将实体间关系分为以下七类，如表6所示：

表6实体间关系

编号	关系
		0	unknown
1	表征
		2	概念
3	促进
		4	抑制
5	因果
		6	包含

表6中，“促进”关系是根据动词词表中的“主”来分类的，“心主脉”的意思是心气推动和调节血液循行于脉中；“因果”关系是根据动词词表中“当、则”等来分类的，“肺被伤，则金气不行”。

在S2的实施过程中，例如，首先收集搜狗细胞词库中与中医相关的词表，主要为方剂、穴位等；其次爬取百度百科和中医网站中的中医术语，主要是穴位、概念、治法、病症等；最后将上述数据合并，进一步扩充实体词表。

在S3的实施过程中，根据确定的实体词表，采用BIOES(B表示实体的开始，I表示实体的中间，E表示实体的结尾，S表示单个字符的实体，O表示非实体)的标注方式，为句子中包含的实体打标签，比如“体液”实体为生理(SL)，“体”对应的标签“B-SL”，“液”对应的标签“E-SL”，“身热目痛”实体为病理(BL)，“身”对应“B-BL”，“热”对应“I-BL”，“目”对应“I-BL”，“痛”对应“E-BL”。共标注20000条数据。

在S4的实施过程中，首先从网络上爬取和《黄帝内经》相关的古籍，如《难经》、《伤寒》等共71本形成训练语料，然后将71本古籍合并成一个文本，按字分割，利用词向量生成工具(word2vec)的连续词袋模型(CBOW)训练得到中医典籍的字向量，字向量维度设置为200维。

在S5的实施过程中，采用Bi-LSTM-CRF进行实体识别。首先将步骤S3中已标注实体的中医理论典籍的60％作为训练集进行网络训练，20％作为验证集来选择最优模型，20％作为测试集进行测试，字向量采用步骤S4中的200维进行训练，训练3次，最后取平均值；网络参数设置：防过拟合参数dropout为0.5，迭代次数为200次、批大小batch_size为10。训练模型的好坏用F1值来评判，《黄帝内经》训练得到的最优训练模型参数如表7所示：

表7最优训练模型的参数

实体	Precision(％)	Recall(％)	F1(％)
					85.69	83.48	84.53
BL	68.47	62.81	65.52
				FF	93.86	86.99	90.30
SL	88.35	87.05	87.70
				ZF	86.36	70.37	77.55
ZR	81.58	84.94	83.19

然后利用训练好的最优训练模型对《黄帝内经》中未标注的实体进行识别，新识别出来的实体可以进一步扩充实体词表，新识别出的部分实体如表8所示：

表8新识别出的部分实体

实体名	类别	句子
			天	ZR	昔在黄帝,生而神灵,弱而能言,幼而徇齐,长而敦敏,成而登天。
长夏	ZR	病在肾,愈在春,春不愈,甚于长夏,长夏不死,持于秋,起于冬。
			飧泄	BL	此秋气之应,养收之道也；逆之则伤肺,冬为飧泄,奉藏者少。
真牙	SL	三七肾气平均,故真牙生而长极。
			厥阴	FF	取其经,太阴足太阳之外,厥阴内血者。
太阳	FF	逆夏气则太阳不长,心气内洞。
			砭石	ZF	治之以砭石,欲细而长,疏砭之,涂以豕膏,六日已,勿裹之。
兔啮	BL	发于胫,名曰兔啮,其状赤至骨,急治之,不治害人也。
			涌泉	SL	太阴之后,名曰少阴,少阴根起于涌泉,名曰阴中之少阴。
谬药	ZF	形数惊恐,筋脉不通,病生于不仁,治之以按摩谬药。
			孙络	SL	阴气不得出,审候见之在孙络盛坚而血者,皆取之。

在S6的实施过程中，首先整理《黄帝内经》中包含实体词表中两个及以上实体的句子作为关系语料，根据步骤S1中的实体间关系分类结果，标注得到700条实体-关系数据集(实体1，实体2，关系，句子)，格式为：

热火促进南方生热，热生火。

筋肝因果筋痹不已，复感于邪，内舍于肝。

心少阴概念师曰：心者火也，名少阴，其脉洪大而长，是心脉也。

火金抑制火克西方金，法当痈肿，为难治也。

胸阳气包含阳受气于胸中，胸中阳气不足，故病叉手自冒心。

然后将步骤S1中的七类实体间关系放入文档(relation.txt)，实体-关系数据集的划分同S5步骤中的划分方法，利用结合Attention机制的BiGRU深度学习的方法进行模型训练，最后输入关系语料中未标注的句子进行关系抽取，从而获得实体1和实体2之间可能的关系及概率，选择概率最大的关系为实体1和实体2之间的关系，以此来扩充实体关系表。

输入句子格式：name1name2sentence

输入句子：肾唾肾热甚则出唾。

抽取结果：

No.1:因果,Probability is 0.996217

No.2:表征,Probability is 0.00193673

No.3:unknown,Probability is 0.00128172

因此，选取概率最高的因果关系为“肾”和“唾”的关系，并将其加入到实体关系表。

得到的实体关系表的部分信息如表9所示：

表9实体关系表的部分信息

在S7的实施过程中，利用图数据库(Neo4j)的可视化技术，以步骤S6实体关系表中的实体为节点集，以实体关系表中的关系为边集，构建《黄帝内经》的知识图谱；其中，部分节点集如下：

边集中的包含关系如下：

最终构建的黄帝内经的知识图谱如图3所示。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种中医理论典籍的知识图谱构建方法，其特征在于，包括：

确定中医理论典籍中的实体词表和动词词表；

根据确定的实体词表，对中医理论典籍中的实体进行标注；

以实体关系表中的实体为节点集，实体关系表中的关系为边集，构建中医理论典籍的知识图谱；

其中，所述确定中医理论典籍中的实体词表和动词词表包括：

2.根据权利要求1所述的中医理论典籍的知识图谱构建方法，其特征在于，所述根据中医理论典籍的语言特点，按照特殊标点符号、数字和中医理论典籍中出现的固定句式，形成实体词表包括：

按照数字，确定中医理论典籍中的概念词实体和量词实体；

按照固定句式，确定中医理论典籍句子中包含的实体；

对得到的中医理论典籍中的实体进行汇总，形成实体词表；

3.根据权利要求1所述的中医理论典籍的知识图谱构建方法，其特征在于，实体的分类类别包括：生理、病理、自然、认识方法、治法；

4.根据权利要求1所述的中医理论典籍的知识图谱构建方法，其特征在于，在确定中医理论典籍中的实体词表和动词词表之后，所述方法还包括：

收集预先设置的词库中与中医相关的词表；

爬取预先设置的网站中的中医术语；

5.根据权利要求1所述的中医理论典籍的知识图谱构建方法，其特征在于，所述根据确定的实体词表，对中医理论典籍中的实体进行标注包括：

6.根据权利要求1所述的中医理论典籍的知识图谱构建方法，其特征在于，所述根据已标注实体的中医理论典籍，通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别，得到中医理论典籍中的实体包括：

7.根据权利要求6所述的中医理论典籍的知识图谱构建方法，其特征在于，所述从网络上爬取和所述中医理论典籍相关的古籍，形成训练语料，根据形成的训练语料进行训练，得到中医理论典籍的字向量包括：

8.根据权利要求6所述的中医理论典籍的知识图谱构建方法，其特征在于，所述根据已标注实体的中医理论典籍和得到的中医理论典籍的字向量，通过基于字符的双向长短期记忆网络和基于统计方法的条件随机场的循环神经网络进行实体识别，得到中医理论典籍中的实体包括：

A3，利用划分得到的验证集，选择最优训练模型；

A6，根据识别出的未标注的实体，扩充实体词表。

9.根据权利要求1所述的中医理论典籍的知识图谱构建方法，其特征在于，所述根据识别出的中医理论典籍中的实体，利用结合注意力机制的双向门控循环单元神经网络进行关系抽取，获取中医理论典籍中实体之间的关系，形成实体关系表包括：

B4，利用划分得到的验证集，选择最优训练模型；