CN111259653B

CN111259653B - 基于实体关系消歧的知识图谱问答方法、系统以及终端

Info

Publication number: CN111259653B
Application number: CN202010039884.7A
Authority: CN
Inventors: 周政; 邓蔚; 胡峰; 韩雨亭
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2022-06-24
Anticipated expiration: 2040-01-15
Also published as: CN111259653A

Abstract

本发明涉及信息技术领域，涉及一种基于实体关系消歧的知识图谱问答方法、系统以及终端；所述方法包括获取用户终端输入的问句文本，识别出所述问句文本中的实体提及词、属性提及词和特定关系；将实体提及词和属性提及词链接到预先构建的知识图谱中，并根据所链接到的每个实体的二度关系子图建立出语义超图；利用从所述语义超图中包含出的每个实体的多粒度上下文特征，使用极端梯度提升算法进行二分类线性回归对实体和关系进行联合消歧；本发明通过一度关系子树和二度关系子树的评价得分，本发明避免的问句中隐式表达的信息被遗漏的问题。通过多粒度特征大大提升了实体和关系的消岐能力，大大提高了系统回答问题的准确率。

Description

基于实体关系消歧的知识图谱问答方法、系统以及终端

技术领域

本发明涉及信息技术领域，特别是自然语言处理子领域，具体涉及一种基于语义超图联合消岐与评价的知识库问答方法、装置及终端。

背景技术

随着互联网的飞速发展，各种知识日渐丰富甚至呈爆炸式增长；而知识图谱则能够很好的存储海量的知识，是人工智能领域中的一个重要方向，而如何利用好知识图谱来满足人们对于知识获取的需求也越来越需要被重视。所以能够通过自然语言问句去查询知识图谱获得问题的答案变得十分重要。知识库问答的目的是为人们提供有力的知识获取工具。而自然语言问句不能被计算机直接利用，所以需要先对问句进行问句理解，目前问句理解的方法包含语义解析、信息抽取以及向量建模等不同的方式。

但目前多数的问答系统主要针对单一的、孤立的、事实性的问题，在答案的精准度以及问题的复杂度上受限于现有的计算模型复杂性和知识库完善程度，虽然许多研究机构和企业在开展智能问答研究，但其技术水平还有待进一步提高，且多数问答系统如果涉及到语义理解、复杂逻辑推理以及篇章层面语言分析等问题，一般也无法做出满意的回答。

中国专利CN 110334272 A提出的基于知识图谱的智能问答方法、装置及计算机可读存储介质使用知识图谱对文本数据中的信息进行筛选，从而可以直接对其中的知识进行处理，且相似度是通过词频、逆向频率值和欧式距离计算而出，故而可以更直观的表现出问题之间的相似度。该专利可以实现精准的基于知识图谱的智能问答功能。

但在知识图谱中，相同名称的实体可能有多个，仅仅通过问题中的语义理解将很难明确用户究竟想询问的是哪一个具体的实体；而中国专利CN 110580284 A提出了一种实体消歧方法、装置、计算机设备及存储介质，该方案通过植入于知识图谱问答对话系统之中，不断地根据用户使用来更新其用户画像子树，以有效挖掘用户的关注点和喜好，并根据用户画像子树与用户目标问题中涉及的实体子树之间的距离来精简消歧过程，当判断用户本次目标问题所涉及的实体子树与用户画像子树之间的距离小于预设长度，则选取所述实体子树中层级最低且与所述用户画像子树距离最近的实体，作为用户本次目标问题的回答实体，从而有效利用所挖掘用户的关注点和喜好进行实体消歧，避免了用户多次重复输入已提供信息的情况，降低了问答对话系统交互轮数，提升了用户在使用问答系统时的便捷性。

但是，现有的实体消岐方法大多利用提及词和实体本身的信息进行消岐，而忽略了利用知识图谱和问句所带有的信息。而查询关系消岐方面，现有的技术是通过人工设计的模板和规则把所有的可能结果都生成出来然后再评价排序，导致效率较低。

发明内容

基于现有技术存在的问题，本发明针对实体消歧方法进行了改进，其能够充分的利用问句信息和知识图谱的信息，对问句进行更充分的理解，信息抽取方法带入的大量有歧义的信息，能够利用多粒度上下文特征进行消岐，提升本发明的精度，得到更加准确的结果。

本发明所采用的技术方案包括：

在本发明的第一方面，一种基于实体关系消歧的知识图谱问答方法，包括以下步骤：

S1、获取用户终端输入的问句文本，识别出所述问句文本中的实体提及词、属性提及词和特定关系，并抽取出候选实体；

S2、将实体提及词和属性提及词链接到预先构建的知识图谱中，并根据链接到知识图谱中的候选实体的二度关系子图建立出语义超图；

S3、从所述语义超图中提取每个实体的多粒度上下文特征，使用极端梯度提升算法进行二分类线性回归对实体和关系进行联合消歧；

S4、在联合消歧后的语义超图中，将每个实体顶点的一度关系子图中各个一度关系子树的实体及其实体关系按顺序拼接为第一字符串，计算出生成第一字符串的字符集合与问句字符集合的第一字面相似度，以及第一字符串与问句的第一语义相似度；

S5、计算出各个一度关系子树中的实体关系集合与步骤S1抽取出的特定关系集合的第一交集数；根据所述第一交集数、所述第一语义相似度以及所述第一字面相似度计算出各个一度关系子树的评价得分；选择评价得分较高的作为第一候选答案子树；

S6、对第一候选答案子树进行拓展，将扩展后的二度关系子树中的实体及其实体关系按顺序拼接为第二字符串，计算生成第二字符串的字符集合与问句字符集合的第二字面相似度；若该第二字面相似度小于步骤S5所计算的第一字面相似度，则去掉该二度关系子树；否则继续计算第二字符串与问句的第二语义相似度；

S7、计算出各个二度关系子树中的实体关系集合与步骤S1抽取出的特定关系集合的第二交集数；根据所述第二交集数、所述第二语义相似度以及所述第二字面相似度计算出各个二度关系子树的评价得分；并将各个二度关系子树作为第二候选答案子树；

S8、获得在第一候选答案子树与第二候选答案子树中评价得分最高的候选答案查询子树，用该评价得分最高的候选答案查询子树生成查询语句在对应的图数据库中查询答案。

在本发明的第二方面，一种基于实体关系消歧的知识图谱问答系统，所述系统包括：

识别抽取模块：用于识别出用户终端输入的问句文本中的实体提及词、属性提及词和特定关系，并抽取出候选实体；

语义超图构建模块：用于根据每个实体的二度关系子图，建立出用于问句理解的语义超图；

特征抽取模块：用于提取每个实体顶点的多粒度上下文特征；

联合消岐模块：用于通过二分类线性回归对语义超图中的实体和关系进行联合消歧；

一度关系子图构建模块：用于构建语义超图的一度关系子图；

第一候选答案子树选择模块：用于通过第一交集数、第一语义相似度以及第一字面相似度计算出一度关系子图中各个一度关系子树的评价得分，选择评分较高的一度关系子树作为第一候选答案子树；

二度关系子树构建模块：用于对第一候选答案子树进行扩展，形成二度关系子树；

第二候选答案子树选择模块：用于通过第二交集数、第二语义相似度以及第二字面相似度计算出各个二度关系子树中实体的评价得分，选择评分较高的二度关系子树作为第二候选答案子树；

回归查询模块：通过二分类线性回归，获得评分最高的候选答案查询子图，将最终答案查询子图生成查询语句在所构建好的知识图谱中查询答案。

在本发明的第三方面，本发明还提出了一种基于实体关系消歧的知识图谱问答终端，所述终端包括处理器和存储器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的一种基于实体关系消歧的知识图谱问答方法。

本发明的有益效果：

本发明充分利用知识图谱中的信息对问句文本进行理解，避免的问句中隐式表达的信息被遗漏的问题。同时通过多粒度特征大大提升了实体和关系的消岐能力，提升了知识库问答系统过滤错误信息的能力，大大提高了系统回答问题的准确率。

附图说明

图1为本发明实施例提供的一种基于实体关系消歧的知识图谱问答方法的流程图；

图2为本发明实施例提供的一种实体关系联合抽取模型示意图；

图3是本发明实施例提供的一种文本相似度匹配评价模型示意图；

图4为本发明实施例提供的另一种基于实体关系消歧的知识图谱问答方法的流程图；

图5是本发明实施例提供的一种基于语义超图联合消岐与评价的知识库问答装置。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

在一个实施例中，如图1所示，一种基于实体关系消歧的知识图谱问答方法包括：

S1、获取用户终端输入的问句文本，识别出所述问句文本中的实体提及词、属性提及词和特定关系；

S2、将实体提及词和属性提及词链接到预先构建的知识图谱中，并根据每个实体的二度关系子图建立出语义超图；

S3、利用从所述语义超图中提取出的每个实体顶点的多粒度上下文特征，使用极端梯度提升算法进行二分类线性回归对实体和关系进行联合消歧；

其中，每个实体顶点的一度关系子图中，包含有该实体顶点的所有相邻实体，以及与所有相邻实体顶点间的关系；而一度关系子树则是指的该实体顶点的其中一个相邻实体顶点，以及与其中一个相邻实体顶点间的关系。

本实施例对第一候选答案子树进行一次拓展，即只需拓展一层，拓展后的二度关系子树则为原实体顶点的其中一个二度关系实体，例如在步骤S4中的实体顶点为A，其一度关系子图可以为包含有多个一度关系的A-B，A-D，A-E等等；而第一候选答案子树可以为A-B，对第一候选答案子树进行扩展，其二度关系子树则可以为A-B-C，A-B-E。

在一些可行的实施方式中，请参阅图2，为本申请提供的一种文本相似度匹配评价模型示意图，主要包括：

输入问句字符W＝{W⁽⁰⁾,W⁽¹⁾...W⁽ⁿ⁾}，将这些字符输入到BERT双向长短期记忆网络层；采用条件随机场层，提取出词语特征，将这些词语特征输入至卷积神经网络汇总，产生特征图，利用表卷积神经网络进行处理，利用softmax层输出问句中所包含的特定关系。通过图2所提出的神经网络模型可以对问句中的实体提及词进行抽取，并同时抽取出问句中所包含的特定关系。

在抽取实体关系时，可以利用基于神经网络的实体关系联合抽取模型，抽取问句中的实体提及词和特定关系；使用实体提及词典、属性提及词典抽取问句文本中的实体提及词和属性提及词，并进行扩充，形成候选实体和属性值提及词集合；对识别出的候选实体和属性值提及词集合进行无效字符和词性的过滤；使用正则表达式过滤掉提及词中的无效字符和特定的无效词组；利用词性标注工具包对实体提及词和属性提及词进行词性标注，将特定词性的提及词过滤掉。

在一个实施例中，本实施例采用的文本相似度评价匹配模型主要针对三个特征，包括字面相似度、语义相似度以及交集数；并且，一度关系查询子图和二度关系查询子图所采用的文本相似度评价匹配模型均为相同模型。

针对语义相似度，本实施例优选基于BERT的文本相似度匹配模型计算而得；具体的，第一语义相似度是通过基于BERT的文本相似度匹配模型计算出各个一度关系子图中字符集合与问句字符集合的相似程度；第二义相似度是通过基于BERT的文本相似度匹配模型计算出二度关系子图中实体字符集合与问句字符集合相似程度。

针对字面相似度，本实施例优选采用杰卡德距离(Jaccard Distance)进行计算，具体的，第一字面相似度是通过计算一度关系子图关系集合与特定关系集合的相似程度；第二字面相似度是通过计算二度关系子图中字符集合与问句字符集合的相似程度。

针对交集数，本发明中包括两个交集数，具体为第一交集数和第二交集数；第一交集数指的是一度关系子图中实体所包含的关系集合与步骤S1抽取出的特定关系集合的交集个数；第二交集数指的是二度关系子图所包含的关系集合与步骤S1抽取出的特定关系集合的交集个数。

如图3所示，例如将问句和生成的字符串通过BERT神经网络向量化，形成对应的向量；例如分割字符对应的向量为T_[sep]；T₁是输入的第一个字符串的第一个字符的向量表示，T_1'是输入的第二个字符串的第一个字符的向量表示；从而计算出问句与字符串之间的余弦相似度或者语义相似度评价得分。

在本发明的一个优选实施例中，本发明的多粒度上下文特征包括每个实体顶点的词语级特征，知识图谱上下文特征以及自然语言问句级特征；使用极端梯度提升算法进行二分类线性回归进行初步的联合消岐，保留语义超图中得分前五的实体顶点和这些实体顶点附带的连接关系；其中词语级特征包括实体的长度特征f_e-length，提及词与问句的词重叠数f_m-overlap，实体与问句的词重叠数f_e-overlap，提及词的词频逆文本频率f_m-tf-idf，提及词的句中位置f_m-position以及提及词的长度f_m-length；知识图谱子图上下文特征包括实体的一度关系数目f_1-hop-num，实体的二度关系数目f_2-hop-num,一度关系与问句的相似度f_{1-hop-similarity},二度关系与问句的相似度f_{2-hop-similarity}；自然语言问句级特征包括自然语言问句级特征包括问句的长度f_s-length。

作为一个可实现方式，将最终答案子图生成语句在语义超图中查询答案包括生成Cypher语句在neo4j图数据库中查询答案。

在另一个优选实施例中，本发明还提供了另外一种基于实体关系消歧的知识图谱问答方法，如图4所示，本实施例可以不通过超图的形式对问句文本进行处理。所述方法包括：

S101、获取用户终端输入的问句文本，识别出所述问句文本中的实体提及词、属性提及词和特定关系；并抽取出实体间的关系；

S201、将实体提及词和属性提及词链接到预先构建的知识图谱中，并根据每个实体的邻居关系建立出语义查询路由链路集/数据集/数据库；

其中，实体的邻居关系包括该邻居实体以及实体与该邻居实体的路由关系。

S301、利用从所述语义查询路由链路集/数据集/数据库中提取出的每个实体的多粒度上下文特征，使用极端梯度提升算法进行二分类线性回归对实体和关系进行联合消歧；

S401、在联合消歧后的语义查询路由链路集/数据集/数据库中，将每个实体的邻居实体及其路由关系按顺序拼接为字符串，计算出该字符串对应的字符集合与问句字符集合的第一语义相似度，以及该字符串与问句的第一字面相似度；

S501、计算出各个邻居实体所包含的路由关系集合与步骤S101抽取出的特定关系集合的第一交集数；根据所述第一交集数、所述第一语义相似度以及所述第一字面相似度计算出各个邻居关系(路由链路)的评价得分；选择评价得分较高的路由链路作为第一候选答案链路；

S601、将第一候选答案链路中各个实体的邻居实体及其路由关系作为第二候选答案链路；将第一候选答案链路中各个实体的邻居实体及其路由关系按顺序拼接为字符串，计算出该字符串与问句的第二字面相似度；若该第二字面相似度小于步骤S501所计算的第一字面相似度，则去掉该第一候选答案链路的邻居实体及其路由关系；否则继续计算出该字符串对应的字符集合与问句字符集合的第二语义相似度；

S701、计算出第二候选答案链路中各个邻居实体所包含的路由关系集合与步骤S1抽取出的特定关系集合的第二交集数；根据所述第二交集数、所述第二语义相似度以及所述第二字面相似度计算出各个第二候选答案链路中邻居实体的评价得分；

S801、获得在第一候选答案链路与第二候选答案链路中评价得分最高的候选答案链路，将该评价得分最高的候选答案链路作为最终答案链路；利用该最终答案链路，产生查询语句在数据库中查询答案。

具体的，如用户输入问句为“姚明的老婆叶莉是什么星座？”，抽取到的实体和属性提及词集合为(姚明，叶莉)，特定关系集合为(老婆，星座)。将“姚明”和“叶莉”与知识图谱进行实体链接，获得所有与提及词“姚明”、“叶莉”相关的实体，以及以这些实体为中心的二度关系子图构建为语义超图。

对于所得的语义超图中的每个实体提取多粒度上下文特征，如对提及词“姚明”所链接的实体<姚明_中职联主席兼总经理>提取其多粒度上下文特征。对所有实体通过多粒度上下文特征，使用极端梯度提升算法进行二分类线性回归，对实体和其关联的关系进行联合消歧，保留评价得分前五的实体及其二度关系子图。如实体<姚明_中职联主席兼总经理>得以保留，则将该实体一度关系子图中包含的每一条三元组信息(如(<姚明_中职联主席兼总经理>，老婆，<叶莉_中国知名篮球运动员>))作为一个一度关系子树，将其中的实体和关系按顺序拼接生成字符串“姚明的老婆叶莉”，计算所生成字符串与问句的第一字面相似度，第一语义相似度，第一交集数。

其他实体照此进行。通过此三个评价特征，包括所述第一交集数、所述第一语义相似度以及所述第一字面相似度计算出各个一度关系子树的评价得分；选择评价得分较高的一度关系子树作为第一候选答案子树；并通过与第一候选答案子树所连接的二度关系来生成二度关系子树，如(<姚明_中职联主席兼总经理>，老婆，<叶莉_中国知名篮球运动员>，星座，<天蝎座>)，将其中所包含的实体和关系按顺序拼接生成字符串“姚明的老婆叶莉的星座天蝎座”与问句计算第二字面相似度评价得分，若相比于第一候选答案子树所生成的字符串“姚明的老婆叶莉”与问句的第一字面相似度评价得分没有提升，则去掉该二度关系子树，否则继续计算字符串“姚明的老婆叶莉的星座天蝎座”与问句的第二语义相似度评价得分，以及(<姚明_中职联主席兼总经理>，老婆，<叶莉_中国知名篮球运动员>，星座，<天蝎座>)中所包含关系(老婆，星座)与特定关系集合的第二交集数。

对于各个第二候选答案子树按此操作进行。通过此三个评价特征，包括所述第二交集数、所述第二语义相似度以及所述第二字面相似度计算出各个二度关系子树的评价得分。选择所有候选答案查询子树中评分最高的作为最终的答案查询子树(如(<姚明_中职联主席兼总经理>，老婆，<叶莉_中国知名篮球运动员>，星座，<天蝎座>))，生成查询语句到知识图谱中查询答案，获得最终答案<天蝎座>。

另外，在本发明的第二方面，如图5所示，一种基于实体关系消歧的知识图谱问答系统，所述系统包括：

可以理解的是，在本专利的实体关系消歧的知识图谱问答方法中，本专利的实体消岐的主要改进部分有两个方法，一部分是主要针对实体的，也即多粒度上下文特征，现有的实体消岐方法大多利用提及词和实体本身的信息进行消岐，而忽略了利用知识图谱和问句所带有的信息。另一部分则是候选答案查询子图的评价消岐，现有的技术是通过人工设计的模板和规则把所有的可能结果都生成出来然后再评价排序，而本发明则是采用逐步推理的，也即是优先从一度关系入手，选择出评价得分较大的一度关系，再从选择出的一度关系中进行二度关系扩展；可以有效的提高搜索的效率，并且排除噪声提高最后准确率。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于实体关系消歧的知识图谱问答方法，其特征在于，包括以下步骤：

S5、计算出各个一度关系子树中的实体关系集合与步骤S1抽取出的特定关系集合的第一交集数；根据所述第一交集数、所述第一语义相似度以及所述第一字面相似度计算出各个一度关系子树的评价得分；选择高评价得分的作为第一候选答案子树；

2.根据权利要求1所述的一种基于实体关系消歧的知识图谱问答方法，其特征在于，所述步骤S1中包括利用基于神经网络的实体关系联合抽取模型，抽取问句中的实体提及词和特定关系；使用实体提及词典、属性提及词典抽取问句文本中的实体提及词和属性提及词，并进行扩充，形成候选实体和属性值提及词集合。

3.根据权利要求1所述的一种基于实体关系消歧的知识图谱问答方法，其特征在于，所述步骤S3包括从所述语义超图中提取每个实体顶点的词语级特征，知识图谱上下文特征以及自然语言问句级特征；使用极端梯度提升算法进行二分类线性回归进行初步的联合消岐，保留语义超图中得分前五的实体顶点以及所述实体顶点的连接关系；其中词语级特征包括实体的长度特征f_e-length，提及词与问句的词重叠数f_m-overlap，实体与问句的词重叠数f_e-overlap，提及词的词频逆文本频率f_m-tf-idf，提及词的句中位置f_m-position以及提及词的长度f_m-length；知识图谱上下文特征包括实体的一度关系数目f_1-hop-num，实体的二度关系数目f_2-hop-num,一度关系与问句的相似度f_{1-hop-similarity},二度关系与问句的相似度f_{2-hop-similarity}；自然语言问句级特征包括问句的长度f_s-length。

4.根据权利要求1所述的一种基于实体关系消歧的知识图谱问答方法，其特征在于，所述评价得分的计算方法包括将语义相似度、字面相似度以及交集数通过二分类线性回归，从而获得第一候选答案子树的评价得分或/和第二候选答案子树的评价得分。

5.根据权利要求1所述的一种基于实体关系消歧的知识图谱问答方法，其特征在于，所述第一语义相似度以及第二语义相似度均采用基于BERT的文本相似度匹配模型计算而得。

6.根据权利要求1所述的一种基于实体关系消歧的知识图谱问答方法，其特征在于，所述第一字面相似度以及第二字面相似度均通过杰卡德距离计算而得。

7.一种基于实体关系消歧的知识图谱问答系统，其特征在于，所述系统包括：

识别抽取模块：用于获取用户终端输入的问句文本，识别出用户终端输入的问句文本中的实体提及词、属性提及词和特定关系，并抽取出候选实体；

语义超图构建模块：用于将实体提及词和属性提及词链接到预先构建的知识图谱中，并根据每个实体的二度关系子图，建立出用于问句理解的语义超图；

特征抽取模块：用于所述语义超图中提取每个实体的多粒度上下文特征；

联合消岐模块：用于通过极端梯度提升算法进行二分类线性回归对语义超图中的实体和关系进行联合消歧；

一度关系子图构建模块：用于构建语义超图的一度关系子图，并在联合消歧后的语义超图中，将每个实体顶点的一度关系子图中各个一度关系子树的实体及其实体关系按顺序拼接为第一字符串，计算出生成第一字符串的字符集合与问句字符集合的第一字面相似度，以及第一字符串与问句的第一语义相似度；

第一候选答案子树选择模块：用于计算出各个一度关系子树中的实体关系集合与抽取出的特定关系集合的第一交集数；根据所述第一交集数、所述第一语义相似度以及第一字面相似度计算出一度关系子图中各个一度关系子树的评价得分，选择高评价得分的一度关系子树作为第一候选答案子树；

二度关系子图构建模块：用于对第一候选答案子树进行扩展，将扩展后的二度关系子树中的实体及其实体关系按顺序拼接为第二字符串，计算生成第二字符串的字符集合与问句字符集合的第二字面相似度；若该第二字面相似度小于所计算的第一字面相似度，则去掉该二度关系子树；否则继续计算第二字符串与问句的第二语义相似度；

第二候选答案子树选择模块：用于计算出各个二度关系子树中的实体关系集合与抽取出的特定关系集合的第二交集数；通过所述第二交集数、第二语义相似度以及所述第二字面相似度计算出各个二度关系子树的评价得分，并将各个二度关系子树作为第二候选答案子树；

回归查询模块：获得在第一候选答案子树与第二候选答案子树中评价得分最高的候选答案查询子树，用该评价得分最高的候选答案查询子树生成查询语句在对应的图数据库中查询答案。

8.一种基于实体关系消歧的知识图谱问答终端，其特征在于，包括处理器和存储器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1～6任一所述的方法。