CN109215798B

CN109215798B - 一种面向中医古文的知识库构建方法

Info

Publication number: CN109215798B
Application number: CN201811174093.4A
Authority: CN
Inventors: 谢永红; 张妍; 金佩; 贾麒; 张德政
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2023-04-07
Anticipated expiration: 2038-10-09
Also published as: CN109215798A

Abstract

本发明提供一种面向中医古文的知识库构建方法，能够快速构建面向中医古文的知识库，省时省力。所述方法包括：对中医古文语料进行关键词提取获取词频大于预设的词频阈值的实体，形成种子实体词表；根据种子实体词表，筛选出中医古文语料中具有两个及两个以上实体的句子，利用依存句法分析得到实体之间的动词关系，形成种子动词词表；根据种子动词词表，扩充种子实体词表；迭代执行形成种子动词词表和扩充种子实体词表的步骤，直到不能获取到新的实体和动词，形成实体关系三元组；根据得到的种子实体词表进行层次聚类，得到分类后的实体词表，并结合得到的实体关系三元组，构建面向中医古文知识库。本发明涉及知识工程领域。

Description

一种面向中医古文的知识库构建方法

技术领域

本发明涉及知识工程领域，特别是指一种面向中医古文的知识库构建方法。

背景技术

中医是一门渊源很久的学科，古代医学大家的一些理论知识、经验和医案以文言文的形式被记录下来，并流传至今。但这些中医古文都是文言文的形式且是非结构化文本，而且目前中医古文内容庞杂，没有统一的结构化认识，人们往往需要筛选、甄别大量的无关与错误信息之后，才能获取感兴趣的或切合需求的内容。因此，如何将这些蕴含在中医古文的海量知识进行梳理并利用，已成为中医领域一个关注的热点问题。

知识库是知识工程中结构化，易操作，易利用，全面有组织的知识集群，是针对某一领域问题求解的需要，采用某种知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合，是大数据时代知识管理和应用的重要资源。三元组是常见的一种知识表示方法，三元组的核心是实体和关系，实体和关系的快速获取和分类是构建知识库的一个需要解决的问题。

现有技术中，一般通过深度学习的方法来构建中医领域的知识库，但是，基于深度学习的方式构建知识库，实体和关系的分类是人为定义的，且实体和关系的获取需要大量标注数据集(即：需要通过手工整理词表标注或直接手工标注来获得)，因此，需要一定的领域知识和人为参与，费时费力。

发明内容

本发明要解决的技术问题是提供一种面向中医古文的知识库构建方法，以解决现有技术所存在的基于深度学习构建知识库需要一定的领域知识和人为参与，费时费力的问题。

为解决上述技术问题，本发明实施例提供一种面向中医古文的知识库构建方法，包括：

S1，获取种子实体的中医古文语料；

S2，对所述中医古文语料进行关键词提取获取词频大于预设的词频阈值的实体，形成种子实体词表；

S3，根据形成的种子实体词表，筛选出中医古文语料中具有两个及两个以上实体的句子，利用依存句法分析得到实体之间的动词关系，形成种子动词词表；

S4，根据形成的种子动词词表，扩充种子实体词表；

S5，重复执行S3和S4，迭代扩充种子实体词表和种子动词词表，直到不能获取到新的实体和动词，形成实体关系三元组；

S6，根据S5得到的种子实体词表进行层次聚类，得到分类后的实体词表，根据得到的分类后的实体词表并结合S5得到的实体关系三元组，构建面向中医古文知识库。

进一步地，所述获取种子实体的中医古文语料包括：

获取多本中医古文，并将其合并成一个文本；

对所述文本进行数据清洗、繁简转化处理，生成的由简体字体构成的文本作为获取种子实体的中医古文语料。

进一步地，对所述中医古文语料进行关键词提取获取词频大于预设的词频阈值的实体，形成种子实体词表包括：

S201，构建中医古文的词表，将其设置为结巴分词的自定义词表，对获取的中医古文语料进行分词；

S202，对得到的分词结果进行关键词提取获取词频大于预设的词频阈值的实体，形成种子实体词表。

进一步地，所述对得到的分词结果进行关键词提取获取词频大于预设的词频阈值的实体，形成种子实体词表包括：

设定关键词提取的词性为名词，并判断实体的词频是否大于预设的词频阈值；

若实体的词频大于预设的词频阈值，则提取所述实体作为关键词，由关键词构成种子实体词表。

进一步地，所述根据形成的种子实体词表，筛选出中医古文语料中具有两个及两个以上实体的句子，利用依存句法分析得到实体之间的动词关系，形成种子动词词表包括：

根据形成的种子实体词表，筛选中医古文语料，得到具有两个及两个以上实体的句子；

对得到的句子进行词性标注和依存句法分析，得到以动词为核心的中医古文的三元组，提取动词形成种子动词词表。

进一步地，所述依存句法分析，用于识别主语谓语宾语关系、定语后置动宾关系、介宾关系和主谓动补关系。

进一步地，所述根据形成的种子动词词表，扩充种子实体词表包括：

根据形成的种子动词词表，筛选中医古文语料，得到拥有种子动词的句子；

利用依存句法分析获取句子中更多的实体，扩充种子实体词表。

进一步地，所述根据S5得到的种子实体词表进行层次聚类，得到分类后的实体词表，根据得到的分类后的实体词表并结合S5得到的实体关系三元组，构建面向中医古文知识库包括：

根据S5得到的种子实体词表，基于词向量对种子实体进行层次聚类，获取分类后的实体词表；

根据得到的分类后的实体词表，为每个实体设置所属类别，并根据S5得到的实体关系三元组构建面向中医古文知识库。

进一步地，所述根据S5得到的种子实体词表，基于词向量对种子实体进行层次聚类，获取分类后的实体词表包括：

根据S201得到的分词结果，利用词向量生成工具进行训练得到词向量，并查找得到S5得到的种子实体词表中种子实体对应的词向量；

对得到的种子实体对应的词向量，利用由下到上聚合的凝聚法进行层次聚类，确定实体的类别，得到各类别对应的实体词表。

进一步地，通过调节聚类数目或者样本距离的阈值，来改变层次聚类的分类数目。

本发明的上述技术方案的有益效果如下：

上述方案中，通过关键词提取的方法来快速自动获取种子实体词表，不仅不需要太多的人工干预，而且不需要领域知识的辅助就可以获得大量的实体词表；通过依存句法分析自动获取以动词为核心的三元组，从而得到种子动词词表，将动词作为实体之间的关系，不需要人为定义关系；通过层次聚类对实体进行自动分类；这样自动获取种子知识——实体和动词的方法，不用人为定义实体种类和关系种类且不用标注大量数据集，减少了人工的干预，节约了时间，为对中医知识不了解的人提供了一种处理中医古文的方法。

附图说明

图1为本发明实施例提供的面向中医古文的知识库构建方法的流程示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的基于深度学习构建知识库需要一定的领域知识和人为参与，费时费力的问题，提供一种面向中医古文的知识库构建方法。

如图1所示，本发明实施例提供的面向中医古文的知识库构建方法，包括：

S1，获取种子实体的中医古文语料；

S4，根据形成的种子动词词表，扩充种子实体词表；

本发明实施例所述的面向中医古文的知识库构建方法，通过关键词提取的方法来快速自动获取种子实体词表，不仅不需要太多的人工干预，而且不需要领域知识的辅助就可以获得大量的实体词表；通过依存句法分析自动获取以动词为核心的三元组，从而得到种子动词词表，将动词作为实体之间的关系，不需要人为定义关系；通过层次聚类对实体进行自动分类；这样自动获取种子知识——实体和动词的方法，不用人为定义实体种类和关系种类且不用标注大量数据集，减少了人工的干预，节约了时间，为对中医知识不了解的人提供了一种处理中医古文的方法。

本实施例中，种子实体是最初从中医古文语料中获得的，所以称为种子，并不断扩充，形成种子实体词表，种子实体的本质也是实体，在种子实体词表中，是没有对其中的实体进行分类的，经过层次聚类获得的实体词表是分类后的，这时，每类实体对应一个词表；种子动词最初也是从中医古文语料中获得的，所以称为种子，种子动词的本质也是动词。

在前述面向中医古文的知识库构建方法的具体实施方式中，进一步地，所述获取种子实体的中医古文语料包括：

获取多本中医古文，并将其合并成一个文本；

获取种子实体的中医古文语料的具体步骤可以包括：

本实施例中，首先可以从网络上爬取多本(例如，1000本)中医古文，并合并成一个文本，可以是txt文本，作为获取种子实体的初始中医古文语料；然后进行数据清洗，即去掉特殊字符(替换字母A～B、_、-、空格等)，处理网络爬取数据存在着的断句等问题(例如，将“。\n”替换为“。\n”；、将“\n”替换为“”；、将“\n\n”替换为“\n”、将“\x”替换为“””)；最后因为中医古文中含有很多繁体字，因此进行繁简转化，统一为简体字体，并将生成的由简体字体构成的文本作为获取种子实体的中医古文语料。

在前述面向中医古文的知识库构建方法的具体实施方式中，进一步地，对所述中医古文语料进行关键词提取获取词频大于预设的词频阈值的实体，形成种子实体词表包括：

本实施例中，可以先从网络上下载已经存在的中医词表，并加入从《中医症侯学》、《中医药典》等医学经典中获取的实体，构建中医古文的词表，并将其设置为结巴分词的自定义词表，对1000本中医古文合并处理后的中医古文语料进行分词。因为目前没有针对中医古文的很好的分词器，而结巴分词可以加入领域词表来优化领域分词效果，因此将构建的中医古文的词表作为结巴分词的自定义词表来优化中医古文的分词效果。

本实施例中，将得到的分词结果按句号分割，并利用结巴分词的基于词频-逆文件词频(TF-IDF)算法对按句号分割后的分词结果进行关键词提取获取词频大于预设的词频阈值的实体，形成种子实体词表。

在前述面向中医古文的知识库构建方法的具体实施方式中，进一步地，所述对得到的分词结果进行关键词提取获取词频大于预设的词频阈值的实体，形成种子实体词表包括：

本实施例中，由于实体词性为名词，因此，词性设置为只提取名词(allowPOS＝('ns','n','nr','nt’,’nz’)，其中，'ns'表示地名，'n'表示名词，'nr'表示人名，'nt’表示机构团体，’nz’表示其他专名)；考虑到词频太小的词不能算作关键词，词频阈值设置为5，在具体应用中，词频阈值可以根据实际应用场景进行确定。

本实施例中，构成的种子实体词频top20如表1所示：

表1部分种子实体词频

实体	词频
		太阳	10558
阳明	9640
		阴阳	7974
少阴	5934
		少阳	5840
阳气	5212
		五脏	4409
甲乙	4359
		桂枝	4318
太阴	4224
		岐伯	4052
厥阴	3855
		邪气	3522
甘草	3466
		津液	3321
小便	3097
		仲景	2772
经脉	2662
		张云	2582
桂枝汤	2559

在前述面向中医古文的知识库构建方法的具体实施方式中，进一步地，所述根据形成的种子实体词表，筛选出中医古文语料中具有两个及两个以上实体的句子，利用依存句法分析得到实体之间的动词关系，形成种子动词词表包括：

知识库构建方法中关系的分类是一个关键问题，尤其在中医领域，需要基于对中医领域知识的理解来划分，对毫无中医知识的人来说非常难。对于关系分类，本发明实施例根据依存句法分析得到的动词种子，即可以直接对关系进行标注，不需要人工定义关系的种类，尤其是对于中医领域关系很难界定的问题提供了很大的帮助。

本实施例中，首先，根据形成的种子实体词表，筛选中医古文语料，获取中医古文语料中具有两个及两个以上实体的句子，形成关系语料库；然后将关系语料库中的句子进行词性标注和依存句法分析，得到以动词为核心的中医古文的三元组，提取动词形成种子动词词表。例如，关系语料库中句子为“甘走肉”，含有“甘”和“肉”两个实体，利用依存句法分析可以得到三元组(甘，走，肉)，这里将动词“走”作为实体“甘”和肉“之间的关系，并将动词“走”作为种子动词加入到种子动词词表。种子动词词表部分种子动词如表2所示：

表2种子动词词表部分种子动词

走	中于
		则	治于
受入	致于
		无	治以
入于	治
		出于	至为
病	至
		作	指
走于	止于
		注于	知
注入	在于
		肿于	有

在前述面向中医古文的知识库构建方法的具体实施方式中，进一步地，所述依存句法分析，用于识别主语谓语宾语关系、定语后置动宾关系、介宾关系和主谓动补关系。

本实施例中，依存句法分析的基本任务是确定句式的句法结构(短语结构)或句子中词汇之间的依存关系，由于是为关系抽取做准备，因此，只考虑动词关系，即识别主语谓语宾语关系、定语后置动宾关系、介宾关系、主谓动补关系。

在前述面向中医古文的知识库构建方法的具体实施方式中，进一步地，所述根据形成的种子动词词表，扩充种子实体词表包括：

本实施例中，首先根据形成的种子动词词表，再次筛选中医古文语料，得到拥有种子动词的中医古文句子；然后利用依存句法分析获取句子中更多的实体，并扩充种子实体词表。

接着，重复执行S3和S4，迭代地迭代扩充种子实体词表和种子动词词表，进而达到扩充实体关系三元组的目的。通过迭代的过程，避免了只执行一次S3和S4得到的知识的局限性。实体关系三元组的部分内容如表3所示：

表3实体关系三元组的部分内容

实体A	关系	实体B
			甘	走	肉
刺肉	无	伤筋
			阳	受入	六腑
阴	受入	五脏
			甘	入于	胃
少阳	病	筋痹
			经水	注于	海
阳病	治	阴
			太阴	至为	埃溽
气	止于	脑

在前述面向中医古文的知识库构建方法的具体实施方式中，进一步地，所述根据S5得到的种子实体词表进行层次聚类，得到分类后的实体词表，根据得到的分类后的实体词表并结合S5得到的实体关系三元组，构建面向中医古文知识库包括：

知识库构建方法中实体的分类是一个关键问题，尤其在中医领域，需要基于对中医领域知识的理解来划分，对毫无中医知识的人来说非常难。对于实体分类，本发明实施例提出基于层次聚类的方法，通过层次聚类，可以将实体分为预设的几类，而且本实施例只关注分类的结果，而不关心分类的类别，即这一类是哪种实体。因此，不需要太多中医知识，只需要对每类打上任意的标签即可。

在前述面向中医古文的知识库构建方法的具体实施方式中，进一步地，所述根据S5得到的种子实体词表，基于词向量对种子实体进行层次聚类，获取分类后的实体词表包括：

本实施例中，首先根据S201得到的分词结果，利用词向量生成工具(word2vec)的连续词袋模型(CBOW)训练中医古文的词向量(向量维度为200维，窗口size为5)，并迭代查找S5得到的种子实体词表中种子实体对应的词向量，种子实体对应的部分词向量如表4所示：

表4种子实体对应的部分词向量

然后，对得到的种子实体对应的词向量，利用由下到上聚合的凝聚法进行层次聚类，确定实体的类别(其中，类别可以用ABCDE等表示)，并得到各类别对应的实体词表。

在前述面向中医古文的知识库构建方法的具体实施方式中，进一步地，通过调节聚类数目或者样本距离的阈值，来改变层次聚类的分类数目。

本实施例中，对于层次聚类的分类数目，可以通过调节以下两个参数进行控制：聚类数目或者样本距离的阈值，设置样本距离的阈值为0.3时的层次聚类的结果如下：

岐伯

黄帝

雷公

伯高

闻人

----

阴阳

----

阳明

少阳

太阴

少阴

厥阴

----

五脏

六腑

胃者

经脉

经络

脏腑

络脉

孙络

大络

溪谷

十二经脉

人身

----

太阳

----

阳气

阴气

天气

地气

生气

生阳

火气

其中，“----”用来分割类。

本实施例中，假设层次聚类后最终确定的实体的类别用ABCDE等字符表示，根据上述层次聚类结果，得到的实体词表部分内容如表5所示：

表5实体词表部分内容

实体	实体类别
		岐伯	A
黄帝	A
		雷公	A
伯高	A
		闻人	A
阴阳	B
		阳明	C
少阳	C
		太阴	C
少阴	C
		厥阴	C

本实施例中，在对得到的种子实体对应的词向量，利用由下到上聚合的凝聚法进行层次聚类，确定实体的类别，得到各类别对应的实体词表之后，对得到的分类后的实体词表，为每个实体设置所属类别，并根据S5步骤得到的实体关系三元组构建面向中医古文的知识库，构建的面向中医古文的知识库的部分内容如表6所示：

表6面向中医古文的知识库的部分内容

zn_label	zn_name	relation	gn_name	gn_label
					D	甘	走	肉	E
D	苦	入于	胃	E
					D	辛	入于	胃	E
D	苦	入	心	E
					F	足厥阴	外合于	海水	Z
F	手太阳	外合于	淮水	Z
					F	手阳明	外合于	江水	Z

实体关系三元组包括：头实体、尾实体、头实体和尾实体之间的关系；表6中，zn_label表示头实体标签(类别)，zn_name表示头实体名称，relation表示关系，gn_label表示尾实体标签(类别)，gn_name表示尾实体名称。

综上，本发明实施例提出的所述面向中医古文的知识库构建方法,利用关键词提取和依存句法分析可以快速获取中医古文语料中的种子实体词表和种子动词词表，并基于词向量对种子实体进行层次聚类和依存句法分析可以自动确定实体种类和关系，不需要人为整理，阅读语料，为快速构建面向中医古文的知识库节约了大量工作。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向中医古文的知识库构建方法，其特征在于，包括：

S1，获取种子实体的中医古文语料；

S4，根据形成的种子动词词表，扩充种子实体词表；

S6，根据S5得到的种子实体词表进行层次聚类，得到分类后的实体词表，根据得到的分类后的实体词表并结合S5得到的实体关系三元组，构建面向中医古文知识库；

其中，对所述中医古文语料进行关键词提取获取词频大于预设的词频阈值的实体，形成种子实体词表包括：

S202，对得到的分词结果进行关键词提取获取词频大于预设的词频阈值的实体，形成种子实体词表；

其中，所述根据S5得到的种子实体词表进行层次聚类，得到分类后的实体词表，根据得到的分类后的实体词表并结合S5得到的实体关系三元组，构建面向中医古文知识库包括：

根据得到的分类后的实体词表，为每个实体设置所属类别，并根据S5得到的实体关系三元组构建面向中医古文知识库；

其中，所述根据S5得到的种子实体词表，基于词向量对种子实体进行层次聚类，获取分类后的实体词表包括：

根据S201得到的分词结果，利用词向量生成工具进行训练得到词向量，并查找S5得到的种子实体词表中种子实体对应的词向量；

对得到的种子实体对应的词向量，利用由下到上聚合的凝聚法进行层次聚类，确定实体的类别，得到各类别对应的实体词表；

其中，所述对得到的分词结果进行关键词提取获取词频大于预设的词频阈值的实体，形成种子实体词表包括：

若实体的词频大于预设的词频阈值，则提取所述实体作为关键词，由关键词构成种子实体词表；

其中，所述根据形成的种子实体词表，筛选出中医古文语料中具有两个及两个以上实体的句子，利用依存句法分析得到实体之间的动词关系，形成种子动词词表包括：

对得到的句子进行词性标注和依存句法分析，得到以动词为核心的中医古文的三元组，提取动词形成种子动词词表；

其中，所述根据形成的种子动词词表，扩充种子实体词表包括：

2.根据权利要求1所述的面向中医古文的知识库构建方法，其特征在于，所述获取种子实体的中医古文语料包括：

获取多本中医古文，并将其合并成一个文本；

3.根据权利要求1所述的面向中医古文的知识库构建方法，其特征在于，所述依存句法分析，用于识别主语谓语宾语关系、定语后置动宾关系、介宾关系和主谓动补关系。

4.根据权利要求1所述的面向中医古文的知识库构建方法，其特征在于，通过调节聚类数目或者样本距离的阈值，来改变层次聚类的分类数目。