CN111767368A

CN111767368A - 一种基于实体链接的问答知识图谱构建方法及存储介质

Info

Publication number: CN111767368A
Application number: CN202010462498.9A
Authority: CN
Inventors: 刘继明; 孙成; 袁野; 万晓榆
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-10-13
Anticipated expiration: 2040-05-27
Also published as: CN111767368B

Abstract

本发明请求保护一种基于实体链接的构建问答知识图谱的方法及存储介质，该方法包括以下步骤：步骤1)爬取相关业务咨询问句语料以及规范政策文本；步骤2)对预处理过后的问句语料以及规范政策文本进行结构信息抽取；步骤3)筛选得到实体候选集，筛选得到实体标准名候选集，将候选实体集中的实体与候选实体标准名进行相似度计算；步骤4)分别融合咨询语料与规范政策文本中事件的实体，链接至规范政策文本中标准事件的实体；步骤5)按照知识图谱所需结构抽取相似度在阈值范围内的规范政策文本实体及属性，构建问答知识图谱。本发明可以保证在问答系统中答案回复的准确性和高效性。

Description

一种基于实体链接的问答知识图谱构建方法及存储介质

技术领域

本发明属于自然语言处理技术领域，是一种基于实体链接的问答知识图谱构建方法，尤其涉及知识图谱的实体链接。

背景技术

问答知识图谱是在结构化网络的基础上能够解决知识问答，用户输入的自然语言问句进行解析推理，并结合知识库中的内容进行正确答案的搜索，为直接给出问句答案及相关信息起到祭奠作用。实体链接作为问答知识图谱中的关键技术,是问答知识图谱给出结果准确性的重要因素之一。

在现有的技术中，构建知识图谱方法主要分为以下几类：1、基于语义解析的方法，通过对自然语言问句语义的结构上进行分析，其中包括句子过滤、分词、依存句法分析等，并将数据信息结果通过分析算法抽取转化成能在知识图谱上查询到的结构化数据信息，最终找到答案，这种方法通常基于Lamda Dependency-Based Compositional Semantics。主要通过谓词定位事件信息，但在不同领域上的逻辑谓词会表达不同信息，局限性较大且需要大量的语料进行训练。随着深度学习发展，利用神经网络提高语义解析效果。例如使用卷积循环神经网络(Conv-RNN)的文本语义建模通用混合推理框架、层次残差的BILSTM做关系预测、通过cross-attention的机制对不同候选实体集动态表示到神经网络模型。2、基于信息抽取的方法，不同于语义解析该方法可以减少对数据语料的依赖，通过抽取信息中的主题，在知识图谱中抽取对应实体的子信息，建立匹配序列模型从而找到问题答案。提取自然语言问句的qword、qfoucs、qtopic、qverb这四种特征，依据规则或模版对信息进行抽取获得特征向量，建立分类器根据信息匹配度高的输出结果，理论上是比较理想的构建方法。但以上方法均存在无法精确的抽取实体信息，可能出现遗漏或匹配知识图谱中的信息不准确的情况。

在充分分析上述方面的不足后，本发明综合考虑语义解析与信息抽取等多方面的特点，在BERT+BILSTM+CRF模型的基础上，结合自然语言问句与规范文本抽取到的实体相似度、文本相关性进行研究，更为精确地研究构建问答知识图谱，通过实体链接的方法正确判断问句内容与能所链接到知识图谱上答案的准确性。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于实体链接的文本问答知识图谱构建方法及存储介质。本发明的技术方案如下：

一种基于实体链接的文本问答知识图谱构建方法，其包括以下步骤：

步骤1)从特定领域官方网站爬取相关业务咨询问句语料以及规范政策文本，并进行预处理；

步骤2)基于BERT+BILSTM+CRF模型对预处理过后的问句语料以及规范政策文本进行结构信息抽取；

步骤3)对抽取到的问句语料不同范围实体进行筛选得到实体候选集，对抽取到的规范文本不同范围实体进行筛选得到实体标准名候选集，将候选实体集中的实体与候选实体标准名进行相似度计算；

步骤4)分别融合咨询语料与规范文本中事件的实体，基于步骤3)计算得出的语料问句实体，链接至规范政策文本中标准事件的实体；

步骤5)基于步骤4)按照知识图谱所需结构抽取相似度在阈值范围内的规范政策文本实体及属性，构建问答知识图谱。

进一步的，所述步骤1)采用python自带的HANLP对问句语料进行会话切分、去除停用词与特殊词汇在内的预处理，对规范政策文本进行无用信息处理。

进一步的，所述步骤2)基于BERT+BILSTM+CRF模型对事件实体结构信息进行抽取，具体如下：

(1)对于从特定领域官方网站爬取相关问句语料以及规范文本，搭建好一个根据序列标注问题的BRET+BILSTM+CRF模型，BRET+BILSTM是选择BERT12层transform的基础上再次加上双向LSTM，得到向前和向后的隐向量，再加一个条件随机场CRF层作为结果输出；

(2)将过滤好的问句语料以及规范文本根据BRET+BILSTM+CRF模型，使用BIO作为每个字的序列标签进行模型训练，“B-begin，I-inside，O-outside”为每个字对应位置的含义；

(3)通过步骤(1)(2)的方法得到问句语料中的问题事件的实体和规范文本的具体事件的实体，其中事件表示文本所描述的事件或事实总称为事件；

(4)通过对步骤(3)中抽取到的实体进行融合并且分别将所有问题事件的实体传送到实体候选集，具体事件的实体传送到实体标准名候选集。

进一步的，BRET+BILSTM是选择BERT12层transform的基础上再次加上双向LSTM，得到向前和向后的隐向量，能够更好的结合上下文将抽取得到的问句以及文本数据向量输入到CRF中，其中基于CRF模型设置X与Y都是随机变量，在所有可能的输出序列上进行求和，以句子x，节点i，节点j的标签作为输入参数，局部特征函数计算公式为：

T_j(y_i-1,y_i,x,i),j＝1,2,……J (1)

其中i表示当前节点在序列的位置，J表示局部特征函数的总个数；

条件随机场模型为：

其中，Z(x)为归一化因子：

Z(x)＝∑_yexp∑_ijλ_jt_j(y_i-1,y_i,x,i)+∑_kiμ_ks_k(y_i,x,i)) (3)

其中P(y|x,λ)表示在当前输入x下标注序列为y的概率，Z(x)表示归一化因子，其中局部特征函数t_j表示的权重系数是λj，其中节点特征函数s_k的权重系数是μ_k，那么线性链条件随机场由所有的t_j、λj、μ_k、s_k共同决定。

进一步的，所述步骤3)对问句语料以及规范文本政策的实体候选集进行相似度计算，具体包括：

(1)利用字符串相似度计算所发生指代实体与实体候选集中标准实体的相似度，计算公式为：

其中m_i表示被测试的实体；e_i表示标准的候选实体；i为实体的序号；CN(e_i)表示实体e_i的标准名；Hstr(m_i,CN(e_i))表示候选集中实体与具体事件实体的字符串相似度，值越高表示相似度越大；ED(m_i,CN(e_i))表示候选集中实体与具体事件实体的编辑距离；MAX{length(m_i),length(CN(e_i))}表示候选集中实体与具体事件实体字符串长度较大者；

(2)如果候选集中实体与规范文本中具体事件实体相关，他们可能存在相同的相关实体，因此相关实体的相关度也可以用来表示实体的相关度，即候选集中存在的实体可以指向具体事件实体，相反也可以利用这些实体进行候选集中更多实体的搜索，并且候选集中实体与具体事件实体可能存在着三种关系，运用Jaccard系数表示，计算公式如下：

Freo(e_i,e_j)表示实体e_i,e_j实体的相关度，Set_oi和Set_oi分别表示e_i,e_j实体的相关度的集合，三种关系的相关实体相关度公式类似，即实体e_i和实体e_j实体的相关实体相关度由三种相关实体相关度加权平均的得到；

(3)对于规范文本，如果两个实体相关，将过滤好的规范文本实体，运用计算公式如下：

其中f_r(e_i,e_j)表示实体e_i,e_j所在规范文本的文本相关度，n表示两段规范文本所含中文字总数，V_ik表示第k个字在i篇文章中的权重，V_jk表示第k个字在j篇文章中的权重，期权中由字在文本中出现的次数表示。

进一步的，所述步骤4)选取候选实体集中相似度大于设定阈值、候选实体集与具体事件的实体相关度大于设定阈值以及规范文本中具体事件的实体相关度大于设定阈值的，分别融合咨询语料问句实体与规范文本具体事件的实体，将融合的语料问句实体链接至规范文本具体事件的标准实体名上，也就是语料问句实体相似度满足以上需求的情况下可在问答知识图谱中等同标准实体名。

进一步的，所述步骤5)相似度大于阈值的实体及属性，将其抽取的值存储在知识图谱中所需要结构的实体和属性的值中。

一种存储介质，所述存储介质为计算机可读存储介质，其存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以上任一所述的方法。

本发明的优点及有益效果如下：

本发明旨在解决以上现有技术的问题，提出了一种基于构建问答知识图谱的实体链接方法。发明具有如下优点：

(1)相比于目前大多数知识图谱构建的方式,本方法将自然语言问句语料与规范政策文本进行了结合，更好的构建了问答知识之间的图结构关系,并且利用官方网站获取自然语言问句和官方规范文本,相比于互联网整体知识图谱,内容来源更权威,数据信息更具体。(3)相比于以往的方法,本方法基于自然语言问句语料与规范政策文本中事件的实体进行链接，提高语料实体在问答知识图谱中实体的匹配度，构建的知识图谱准确率更高。(3)相比于以往的知识图谱实体链接的二分类和特征提取方法,本方法利用BERT层嵌入双向长短记忆层(BILSTM层)加上条件随机场(CRF层)模型，并在此基础上结合实体集相似度计算、规范政策文本的相关度计算，提高语料实体在问答知识图谱中实体的匹配度，构建的知识图谱准确率更高。(4)相比于信息搜索知识图谱构建技术的运用，减少信息冗余，减少人工参与，是一种高效准确的自动化方法。(5)经过实验分析证明,利用本方法构建的问答知识图谱对于相似问句与相关规范文本的答案反馈有着重要的作用,本文可从相似问句语料的事件和智能回复的准确度证明本文基于实体链接构建的问答知识图谱的重要作用。

附图说明

图1是本发明提供优选实施例基本步骤示意图；

图2是本发明方法构建逻辑图；

图3是本发明数据实体抽取模型结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1、图2、图3所示，本发明是一种基于实体链接的构建知识图谱方法，其包括以下步骤：

步骤1)从特定领域官方网站爬取相关信息业务咨询问句语料以及规范文本政策，进一步包括：

(1)中国专业服务于群众的领域官方网站信息覆盖面权威且全面，利用爬虫技术获取相关问题问句语料，以及整理相关规范文本、指南手册等。

(2)采用python自带的HANLP对问句语料进行会话切分、去除停用词与特殊词汇等预处理。抽取到问句语料例如：“你好，我想问你一下，我办社保的话，现在想办需要什么手续吗？”经过过滤得到：“我办社保要什么手续”。为满足BERT的输入，每个词在输入BERT层前需要经过分词操作，并在句子首尾分别嵌入[CLS]和[SEP]两个特殊的token。

(3)采用python自带的HANLP对获取的规范文本、指南手册进行无用信息剔除，制定主题规则做相关分类。例如规范文本、办事指南中所涉及办事流程、办理条件、办理时间、办理限制(如：性别、年龄、时间等)、政策规定等。

步骤2)基于BERT+BILSTM+CRF模型对事件实体结构信息进行抽取，进一步包括：

(1)对于从特定领域官方网站爬取相关问句语料以及规范政策文本，搭建好一个根据序列标注问题的BRET+BILSTM+CRF模型。BRET+BILSTM是选择BERT12层transform的基础上再次加上双向LSTM，得到向前和向后的隐向量，再加一个条件随机场CRF层作为结果输出；其中基于CRF模型设置X与Y都是随机变量，在所有可能的输出序列上进行求和，以句子x，节点i，节点j和节点i-1的标签作为输入参数，P(y|x)表示在当前输入x下标注序列为y的概率，局部特征函数计算公式为：

T_j(y_i-1,y_i,x,i),j＝1,2,……J (1)

其中i表示当前节点在序列的位置，J表示局部特征函数的总个数，条件随机场模型为：

其中，Z(x)为归一化因子：

Z(x)＝∑_yexp∑_ijλ_jt_j(y_i-1,y_i,x,i)+∑_kiμ_ks_k(y_i,x,i)) (3)

(2)将过滤好的问句语料以及规范文本根据BRET+BILSTM+CRF模型，使用BIO作为每个字的序列标签进行模型训练，“B-begin，I-inside，O-outside”为每个字对应位置的含义。

(3)通过步骤(1)(2)的方法得到问句语料数据中的问题事件的实体和规范文本的具体事件的实体，其中事件表示文本所描述的事件或事实总称为事件；

步骤3)对问句语料以及规范文本政策的实体候选集进行相似度计算，进一步包括：

(1)利用字符串相似度计算所发生指代实体与实体候选集中标准实体的相似度。计算公式为：

其中m_i表示被测试的实体；e_i表示标准的候选实体，i为实体的序号；CN(e_i)表示实体e_i的标准名；Hstr(m_i,CN(e_i))表示候选集中实体与具体事件实体的字符串相似度，值越高表示相似度越大；ED(V_i,CN(e_i))表示候选集中实体与具体事件实体的编辑距离；MAX{length(m_i),length(CN(e_i))}表示候选集中实体与具体事件实体字符串长度较大者。

(2)如果候选集中实体与具体事件实体相关，他们可能存在相同的相关实体，因此相关实体的相关度也可以用来表示实体的相关度，即候选集中存在的实体可以指向具体事件实体，相反也可以利用这些实体进行候选集中更多实体的搜索。并且候选集中实体与具体事件实体可能存在着三种关系，运用Jaccard系数表示，计算公式如下：

Freo(e_i,e_j)表示实体e_i,e_j实体的相关度，Set_oi和Set_oi分别表示e_i,e_j实体的相关度的集合。三种关系的相关实体相关度公式类似，即实体e_i和实体e_j实体的相关实体相关度由三种相关实体相关度加权平均的得到。

(3)对于规范文本，如果两个实体相关，那么所描述的文本也可能会存在相关实体讨论的内容，在问答知识图谱的构建中即可以提高候选实体集链接到具体事件实体所反馈的内容答案。将过滤好的规范文本实体运用计算公式如下：

进一步的，所述步骤5)抽取到事件的实体进行相似度计算，大于阈值的实体及属性，将其抽取的值存储在知识图谱中所需要结构的实体和属性的值中。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于实体链接的文本问答知识图谱构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于实体链接的文本问答知识图谱构建方法，其特征在于，所述步骤1)采用python自带的HANLP对问句语料进行会话切分、去除停用词与特殊词汇在内的预处理，对规范政策文本进行无用信息处理。

3.根据权利要求1所述的一种基于实体链接的文本问答知识图谱构建方法，其特征在于，所述步骤2)基于BERT+BILSTM+CRF模型对事件实体结构信息进行抽取，具体如下：

4.根据权利要求3所述的一种基于实体链接的文本问答知识图谱构建方法，其特征在于，BRET+BILSTM是选择BERT12层transform的基础上再次加上双向LSTM，得到向前和向后的隐向量，能够更好的结合上下文将抽取得到的问句以及文本数据向量输入到CRF中，其中基于CRF模型设置X与Y都是随机变量，在所有可能的输出序列上进行求和，以句子x，节点i，节点j的标签作为输入参数，局部特征函数计算公式为：

T_j(y_i-1,y_i,x,i),j＝1,2,……J (1)

条件随机场模型为：

其中，Z(x)为归一化因子：

Z(x)＝∑_yexp∑_ijλ_jt_j(y_i-1,y_i,x,i)+∑_kiμ_ks_k(y_i,x,i)) (3)

5.根据权利要求1所述的一种基于实体链接的文本问答知识图谱构建方法，其特征在于，所述步骤3)对问句语料以及规范文本政策的实体候选集进行相似度计算，具体包括：

6.根据权利要求1所述的一种基于实体链接的文本问答知识图谱构建方法，其特征在于，所述步骤4)选取候选实体集中相似度大于设定阈值、候选实体集与具体事件的实体相关度大于设定阈值以及规范文本中具体事件的实体相关度大于设定阈值的，分别融合咨询语料问句实体与规范文本具体事件的实体，将融合的语料问句实体链接至规范文本具体事件的标准实体名上，也就是语料问句实体相似度满足以上需求的情况下可在问答知识图谱中等同标准实体名。

7.根据权利要求6所述的一种基于实体链接的文本问答知识图谱构建方法，其特征在于，所述步骤5)相似度大于阈值的实体及属性，将其抽取的值存储在知识图谱中所需要结构的实体和属性的值中。

8.一种存储介质，所述存储介质为计算机可读存储介质，其存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行如权1-7任一所述的方法。