CN112417161B

CN112417161B - 一种基于模式扩充及bert分类的知识图谱上下位关系识别的方法和存储设备

Info

Publication number: CN112417161B
Application number: CN202011258408.0A
Authority: CN
Inventors: 苏江文; 宋立华; 王秋琳
Original assignee: Fujian Yirong Information Technology Co Ltd
Current assignee: Fujian Yirong Information Technology Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2022-06-24
Anticipated expiration: 2040-11-12
Also published as: CN112417161A

Abstract

本发明涉及文本识别技术领域，特别涉及一种基于模式扩充及BERT分类的知识图谱上下位关系识别的方法和存储设备。所述一种基于模式扩充及BERT分类的知识图谱上下位关系识别的方法，包括步骤：基于模式扩充从外部数据中抽取潜在的上下位关系对，并结合预设资源库形成上下位关系模型训练种子语料；获取待预测上下位关系数据集，基于BERT‑Attention‑Bi‑LSTM模型对待预测数据集进行预测，得上下位关系预测结果；通过预设规则对所述上下位关系预测结果进一步处理得最终的上下位关系预测结果。该方法大大降低了规则编制的复杂性及人工投入，同时相对于另外一种主流的基于统计的上下位概念识别方法，具备更强的可实现性，能为各类专业知识图谱的构建提供技术支撑。

Description

一种基于模式扩充及BERT分类的知识图谱上下位关系识别的方法和存储设备

技术领域

本发明涉及文本识别技术领域，特别涉及一种基于模式扩充及BERT分类的知识图谱上下位关系识别的方法和存储设备。

背景技术

随着互联网软硬件相关技术的飞速发展，人们逐渐从信息时代进入智能时代。知识图谱作为承载底层海量知识并支持上层智能应用的重要载体，在智能时代中扮演了极其重要的角色。而受限于非结构化文本和结构化知识之间的巨大差异，自动化构造知识图谱以及利用知识图谱支持上层应用仍存在诸多挑战。因此对知识图谱的构建以及其核心应用基于知识图谱的自然语言问答展开研究是十分有必要的。

通常构建知识图谱需要在实体识别完成后，为每一个实体分配预定义的类型。而人工预定义的实体类型覆盖程度有限且不易更新，当涉及新的领域时，实体类别体系可能需要重新定义。通过在网络中动态的获得实体的概念类别，并自动化识别类别之间的上下位关系。上下位关系的准确识别，不但可以解决人工预定义的缺陷，还可以使知识图谱更加立体丰满，有助于上层应用。

针对知识图谱构建过程中上下位概念的自动识别，当前主要有两种技术路线：

(1)基于规则的方法

基于规则的方法使用词汇句法模式从文本中识别上下位关系。该研究领域中最早且最具影响力的是Marti Hearst教授,她手工定义了7种用来从英文语料中识别“is-a”关系的语言模式。这些模式引起了广泛关注,并且今天也经常使用。“[C]suchas[E]”、“[E]isa[C]”是典型Hearst模式,其中[C]和[E]是名词短语占位符,分别代表了在“is-a”关系(x,y)中的上位词(类)y和下位词(实体)x。Probase就是利用Hearst模式从数十亿个网页中抽取“is-a”关系构建的,它包含了256万个概念和2076万对“is-a”关系。Kozareva等也采用了相似的方法,他们利用Hearst模式从网页中提取了用来学习分类法的“is-a”关系。

基于规则的方法所定义的模式很精确,并且对英语语料中的上下位关系有很高的覆盖率,但由于自然语言的歧义性和复杂性,这些太具体的模式无法覆盖所有的语言情况,因此往往召回率很低。而且简单模式匹配常常由于惯用表达式、解析错误、不完整或无用信息的提取以及模棱两可的概念而出现错误。

(2)基于统计的方法

基于统计的方法通过对大规模语料库的统计处理发现规律，从而识别上下位关系。基于统计的方法主要分为分类及词嵌入投影。

分类方法集中在机器学习算法的研究上，机器学习也是研究成果中出现最多、应用最广泛的信息抽取技术，主要涵盖支持向量机、条件随机场、决策树、朴素贝叶斯、神经网络等。考虑到中文语言的特性，分类方法通常会结合额外的语言规则、句子结构特征、句法特征、词典以及知识库等。多种特征以及知识库的融合在一定程度上能够有效提高识别的准确率，但分类方法人面临着一些挑战，如特征构建的过程随机、难以复制且不可控，知识库的维护更新代价太高等。

另一种基于统计的中文上下位识别方法是基于词嵌入的投影模型。它们不需要利用各种相似性度量方法，而是从语料中获取词语特征来识别上下位关系。这种方法目前在多个英文数据集上取得了State-of-the-art的结果，在中文上的表现还有很大提升的空间，尚未到达工业实用水平。

综上所述，现有的解决方案主要包括基于规则抽取的方法、基于统计自动识别的方法。其中基于规则的方法虽然效果较好，但对专业知识、规则编制能力的依赖程度比较高，需要投入大量人工；而基于统计的方法，对先验知识库的需求比较高，需要借助先验知识进行机器学习模型的训练，而中文领域的公共知识库比较匮乏，这也制约了该方法的广泛应用。

发明内容

为此，需要提供一种基于模式扩充及BERT分类的知识图谱上下位关系识别的方法，用以解决现有知识图谱上下位关系识别方法对专业知识、规则编制能力的依赖程度比较高，需要投入大量人工，对先验知识库的需求比较高等问题。具体技术方案如下：

一种基于模式扩充及BERT分类的知识图谱上下位关系识别的方法，包括步骤：

基于模式扩充从外部数据中抽取潜在的上下位关系对，并结合预设资源库形成上下位关系模型训练种子语料；

获取待预测上下位关系数据集，以所述上下位关系模型训练种子语料为正例，所述待预测上下位关系数据集为负例，基于BERT-Attention-Bi-LSTM模型对待预测数据集进行预测，得上下位关系预测结果；

通过预设规则对所述上下位关系预测结果进一步处理得最终的上下位关系预测结果。

进一步的，所述“基于模式扩充从外部数据中抽取潜在的上下位关系对，并结合预设资源库形成上下位关系模型训练种子语料”，还包括步骤：

制定中文规则模板，根据所述中文规则模板获取外部数据中潜在的上下位关系对；

通过从所述预设资源库中另外获取上下位关系对，综合外部数据中获取的潜在的上下位关系对与预设资源库中获取的上下位关系形成上下位关系模型训练种子语料。

进一步的，所述中文规则模板包括以下中的一种或多种：(.*？)指的是.+的(.+)，(.*？)为.+的一种(？+)，(.*？)是.+的.*，(.*？)包含(.*？)，(.*？)是(.*？)的一种，(.*？)指.+的(.+)，(.*？)是(.*？)的术语之一。

进一步的，所述“通过预设规则对所述上下位关系预测结果进一步处理得最终的上下位关系预测结果”，还包括步骤：

对概念集的任意一对概念进行遍历和后缀匹配，加入相同或同类后缀词作为结果。

进一步的，所述“基于BERT-Attention-Bi-LSTM模型对待预测数据集进行预测，得上下位关系预测结果”，还包括步骤：

将待预测数据集中的待预测的上下位关系词对拼装为序列文本，通过BERT模型训练获取所述序列文本的语义表示，并将所述序列文本中每个字的向量表示输入到Attention-Bi-LSTM模型中进行进一步语义分析；将softmax层输出文本标签，0代表非上下文关系，1代表是上下位关系。

进一步的，所述BERT-Attention-Bi-LSTM模型还包括Attention层，所述Attention层用于生成注意力向量。

为解决上述技术问题，还提供了一种存储设备，具体技术方案如下：

一种存储设备，其中存储有指令集，所述指令集用于执行：

进一步的，所述指令集还用于执行：

所述“基于模式扩充从外部数据中抽取潜在的上下位关系对，并结合预设资源库形成上下位关系模型训练种子语料”，还包括步骤：

通过从所述预设资源库中另外获取上下位关系对，综合外部数据中获取的潜在的上下位关系对与预设资源库中获取的上下位关系形成上下位关系模型训练种子语料；

所述中文规则模板包括以下中的一种或多种：(.*？)指的是.+的(.+)，(.*？)为.+的一种(？+)，(.*？)是.+的.*，(.*？)包含(.*？)，(.*？)是(.*？)的一种，(.*？)指.+的(.+)，(.*？)是(.*？)的术语之一。

进一步的，所述指令集还用于执行：

所述“通过预设规则对所述上下位关系预测结果进一步处理得最终的上下位关系预测结果”，还包括步骤：

进一步的，所述指令集还用于执行：

所述“基于BERT-Attention-Bi-LSTM模型对待预测数据集进行预测，得上下位关系预测结果”，还包括步骤：

本发明的有益效果是：通过基于模式扩充从外部数据中抽取潜在的上下位关系对，并结合预设资源库形成上下位关系模型训练种子语料；获取待预测上下位关系数据集，以所述上下位关系模型训练种子语料为正例，所述待预测上下位关系数据集为负例，基于BERT-Attention-Bi-LSTM模型对待预测数据集进行预测，得上下位关系预测结果；通过预设规则对所述上下位关系预测结果进一步处理得最终的上下位关系预测结果。上述技术方案相对于现有主流的规则抽取方法，大大降低了规则编制的复杂性及人工投入，同时相对于另外一种主流的基于统计的上下位概念识别方法，具备更强的可实现性，能为各类专业知识图谱的构建提供技术支撑。

附图说明

图1为具体实施方式所述一种基于模式扩充及BERT分类的知识图谱上下位关系识别的方法的流程图；

图2为具体实施方式所述BERT-Attention-Bi-LSTM模型示意图；

图3为具体实施方式所述基于概念后缀词的判定的源代码示意图；

图4为具体实施方式所述上下位关系输入输出样例；

图5为具体实施方式所述一种存储设备的模块示意图。

附图标记说明：

500、存储设备。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1至图4，在本实施方式中，所述一种基于模式扩充及BERT分类的知识图谱上下位关系识别的方法可应用在一种存储设备中，所述存储设备包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端等。具体技术方案如下：

步骤S101：基于模式扩充从外部数据中抽取潜在的上下位关系对，并结合预设资源库形成上下位关系模型训练种子语料。步骤S101的主要目的在于形成少量准确的上下位关系种子(即上下位关系模型训练种子语料)，为后续步骤S102中的全量潜在上下位关系分类判断提供基础样本。具体可如下：

由背景技术可知，原始的Hearst模式给出了面向英文的抽象模式。相较于英文，从中文文本语料库中识别上下位关系更是一项艰难的挑战。从语言学的角度看，中文是表意文字的一种形式，其词的结构、语义和语法是灵活和不规则的。通过对相关语料的观察及任务提交探测，本实施方式中所述中文规则模板包括以下中的一种或多种：(.*？)指的是.+的(.+)，(.*？)为.+的一种(？+)，(.*？)是.+的.*，(.*？)包含(.*？)，(.*？)是(.*？)的一种，(.*？)指.+的(.+)，(.*？)是(.*？)的术语之一。这些中文规则模板扩充了目前普遍应用的Hearst规则模式，普遍适用于中文领域的概念上下位关系的抽取应用。

在本实施方式中，所述预设资源库为《大词林》(http://openkg.cn/dataset/hit)。即：从《大词林》(http://openkg.cn/dataset/hit)中获取上下位关系作为补充。《大词林》是一个开放域命名实体知识库自动构建系统，系统从Web搜索结果、在线百科和命名实体字面等多个信息源挖掘命名实体的类别，并从Apriori关联项、后缀上位词、分类层次化和词汇分布表示等多个角度学习获取类别之间的层次化关系。开源的《大词林》中的75万的核心实体涵盖了常见的人名、地名、物品名等术语，概念词列表则包含了细粒度的实体概念信息，可作为NLP相关任务的良好数据基础。

本实施方式中基于《大词林》全量数据，以层次遍历的方式，获得了一部分医疗实体概念上下位关系，与面向外部数据的规则匹配发现的结果整合，形成上下位关系模型训练种子语料。

步骤S102：获取待预测上下位关系数据集，以所述上下位关系模型训练种子语料为正例，所述待预测上下位关系数据集为负例，基于BERT-Attention-Bi-LSTM模型对待预测数据集进行预测，得上下位关系预测结果。

本申请依赖于BERT预训练语言模型的使用。BERT是一种深度双向的、无监督的语言表示，且仅使用纯文本语料库进行预训练的模型。上下文无关模型(如word2vec或GloVe)为词汇表中的每个单词生成一个词向量表示，因此容易出现单词的歧义问题。BERT考虑到单词出现时的上下文。例如，词“水分”的word2vec词向量在“植物需要吸收水分”和“财务报表里有水分”是相同的，但BERT根据上下文的不同提供不同的词向量，词向量与句子表达的句意有关。

步骤S102具体可如下：一是基于任务提供的待预测数据，两两匹配生成全量的待预测上下位关系数据集。二是以所述上下位关系模型训练种子语料为正例，从待预测上下位关系数据集中辅以简单规则识别出1：1的负例，基于BERT-Attention-Bi-LSTM模型开展上下位关系分类模型训练，对待预测数据集进行预测。以下结合图2对基于BERT-Attention-Bi-LSTM模型的上下位关系分类进行说明。

BERT-Attention-Bi-LSTM模型，其结构主要分为三部分：将待预测数据集中的待预测的上下位关系词对拼装为序列文本，通过BERT模型训练获取所述序列文本的语义表示，并将所述序列文本中每个字的向量表示输入到Attention-Bi-LSTM模型中进行进一步语义分析；将softmax层输出文本标签，0代表非上下文关系，1代表是上下位关系。

在本实施方式中，所述BERT-Attention-Bi-LSTM模型还包括Attention层，所述Attention层用于生成注意力向量。通过与输入向量进行相似性计算，更新各个维度的权重值，提升重点词语在句子中的价值，使模型将注意力集中在重点词上，降低其他无关词的作用，进一步提高文本分类的精度。实际评测中能提升约2个百分点的F1值。

步骤S103：通过预设规则对所述上下位关系预测结果进一步处理得最终的上下位关系预测结果。具体可如下：对概念集的任意一对概念进行遍历和后缀匹配，加入相同或同类后缀词作为结果。如图3展示了本技术方案在中文信息学会组织的CCKS2020(https://www.biendata.xyz/competition/ccks_2020_7_2/)中基于概念后缀词的判定的源代码，作为示例。

通过基于模式扩充从外部数据中抽取潜在的上下位关系对，并结合预设资源库形成上下位关系模型训练种子语料；获取待预测上下位关系数据集，以所述上下位关系模型训练种子语料为正例，所述待预测上下位关系数据集为负例，基于BERT-Attention-Bi-LSTM模型对待预测数据集进行预测，得上下位关系预测结果；通过预设规则对所述上下位关系预测结果进一步处理得最终的上下位关系预测结果。上述技术方案相对于现有主流的规则抽取方法，大大降低了规则编制的复杂性及人工投入，同时相对于另外一种主流的基于统计的上下位概念识别方法，具备更强的可实现性，能为各类专业知识图谱的构建提供技术支撑。

以下为在中文信息学会组织的CCKS2020(https://www.biendata.xyz/competition/ccks_2020_7_2/)中进行了验证，并获得评测第一名。具体实验情况如下：

(1)实验任务及评测指标

如图4所示，本任务聚焦知识图谱中概念实体的上下位关系识别。任务提供了约20000个实体、1000个概念(类型)，要求基于上下位关系，识别出实体-概念之间的类型关系，以及概念-概念之间的上下位关系，前者是后者的子概念。

任务本身的设置是无监督的，因此不提供训练集。测试集是主办方通过自动化实体类型推测和人工检验进行标注的，采用公开数据集的子集作为测试集(500左右实体，500左右概念)。任务采用精确率(Precision,P)、召回率(Recall,R)、F1值(F1-measure,F1)来评估效果。

(2)模型及参数设置

本发明最终采用BERT-Attention-Bi-LSTM模型作为上下位关系预测模型。作为实验对照，引入了BERT-Bi-LSTM模型作为比较。参数设置如下表所示。

模型	BERT-Attention-Bi-LSTM	BERT-Bi-LSTM
			句子最大长度	100	128
Batch Size	32	32
			学习率	0.00002	0.00002
迭代次数	3	3
			激活函数	gelu	gelu
隐层大小	768	768
			隐层层数	12	12
Attention层大小	100
			Attention层大小	100

(3)实验结果

按照80％/20％的比例划分训练集和测试集，BERT-Attention-Bi-LSTM模型的预测结果F1值为67.3％，BERT-Bi-LSTM模型的预测结果F1值为65.4％。提交到线上基于验证集评测的结果为0.484392619341443。

(4)实验总结

针对医疗实体概念的上下位关系自动识别问题，应用本申请的技术方案，基于模式扩充从外部数据中抽取潜在的上下位关系对，而后利用BERT-Attention-Bi-LSTM模型对潜在上下位关系对进行预测，获得主要上下位关系预测结果。最终，与基于概念后缀词的规则匹配结果扩充结果一起，合并形成提交结果，在CCKS2020：知识图谱中概念实体的上下位关系识别任务中评测的F1值为0.484392619341443，在所有提交中排名第一，验证了技术的有效性与可行性。

请参阅图2至图5，在本实施方式中，一种存储设备500的具体实施方式如下：

一种存储设备500，其中存储有指令集，所述指令集用于执行：

进一步的，所述指令集还用于执行：所述“基于模式扩充从外部数据中抽取潜在的上下位关系对，并结合预设资源库形成上下位关系模型训练种子语料”，还包括步骤：

其中所述“获取待预测上下位关系数据集，以所述上下位关系模型训练种子语料为正例，所述待预测上下位关系数据集为负例，基于BERT-Attention-Bi-LSTM模型对待预测数据集进行预测，得上下位关系预测结果”，具体可如下：

一是基于任务提供的待预测数据，两两匹配生成全量的待预测上下位关系数据集。二是以所述上下位关系模型训练种子语料为正例，从待预测上下位关系数据集中辅以简单规则识别出1：1的负例，基于BERT-Attention-Bi-LSTM模型开展上下位关系分类模型训练，对待预测数据集进行预测。以下结合图2对基于BERT-Attention-Bi-LSTM模型的上下位关系分类进行说明。

进一步的，所述指令集还用于执行：

如图3展示了本技术方案基于概念后缀词的判定的源代码，作为示例。

(1)实验任务及评测指标

(2)模型及参数设置

(3)实验结果

(4)实验总结

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种基于模式扩充及BERT分类的知识图谱上下位关系识别的方法，其特征在于，包括步骤：

通过预设规则对所述上下位关系预测结果进一步处理得最终的上下位关系预测结果；所述基于模式扩充从外部数据中抽取潜在的上下位关系对，并结合预设资源库形成上下位关系模型训练种子语料，还包括步骤：

通过从所述预设资源库中另外获取上下位关系对，综合外部数据中获取的潜在的上下位关系对与预设资源库中获取的上下位关系形成上下位关系模型训练种子语料；所述中文规则模板包括以下中的一种或多种：(.*？)指的是.+的(.+)，(.*？)为.+的一种(？+)，(.*？)是.+的.*，(.*？)包含(.*？)，(.*？)是(.*？)的一种，(.*？)指.+的(.+)，(.*？)是(.*？)的术语之一；

所述BERT-Attention-Bi-LSTM模型从输入至输出依次包括：输入层、BERT层、前向LSTM层、后向LSTM层、Attention层、Softmax层和输出层。

2.根据权利要求1所述的一种基于模式扩充及BERT分类的知识图谱上下位关系识别的方法，其特征在于，所述通过预设规则对所述上下位关系预测结果进一步处理得最终的上下位关系预测结果，还包括步骤：

3.根据权利要求1所述的一种基于模式扩充及BERT分类的知识图谱上下位关系识别的方法，其特征在于，所述基于BERT-Attention-Bi-LSTM模型对待预测数据集进行预测，得上下位关系预测结果，还包括步骤：

将待预测数据集中的待预测的上下位关系词对拼装为序列文本，通过BERT层训练获取所述序列文本的语义表示，并将所述序列文本中每个字的向量表示输入到前向LSTM层、后向LSTM层及Attention层中进行进一步语义分析；将softmax层输出文本标签，0代表非上下文关系，1代表是上下位关系。

4.根据权利要求1至3任一所述的一种基于模式扩充及BERT分类的知识图谱上下位关系识别的方法，其特征在于，所述BERT-Attention-Bi-LSTM模型中的Attention层用于生成注意力向量。

5.一种存储设备，其中存储有指令集，其特征在于，所述指令集用于执行：

通过预设规则对所述上下位关系预测结果进一步处理得最终的上下位关系预测结果；所述指令集还用于执行：

所述基于模式扩充从外部数据中抽取潜在的上下位关系对，并结合预设资源库形成上下位关系模型训练种子语料，还包括步骤：

所述中文规则模板包括以下中的一种或多种：(.*？)指的是.+的(.+)，(.*？)为.+的一种(？+)，(.*？)是.+的.*，(.*？)包含(.*？)，(.*？)是(.*？)的一种，(.*？)指.+的(.+)，(.*？)是(.*？)的术语之一；

6.根据权利要求5所述的一种存储设备，其特征在于，所述指令集还用于执行：

所述通过预设规则对所述上下位关系预测结果进一步处理得最终的上下位关系预测结果，还包括步骤：

7.根据权利要求5所述的一种存储设备，其特征在于，所述指令集还用于执行：

所述基于BERT-Attention-Bi-LSTM模型对待预测数据集进行预测，得上下位关系预测结果，还包括步骤：