CN112214590A

CN112214590A - 一种基于知识图谱的子图匹配自然问答方法

Info

Publication number: CN112214590A
Application number: CN202011128379.6A
Authority: CN
Inventors: 蒋畅江; 李鹏华; 王琴; 张宇航
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-01-12

Abstract

本发明涉及一种基于知识图谱的子图匹配自然问答方法，属于计算机技术领域。当得到自然语言问题的一个正确匹配的查询子图时，歧义问题也同时解决；本发明不需要事先人工设立模板，且对复杂问句分析非常有效。本发明大致分为两个阶段：其一为问题理解，即将问题转换为逻辑形式；其二为查询评分，即对产生的结构化查询进行置信度评分。本发明为了将自然语言转换为查询图，提出了点优先(node‑first)的方法，首先从问句中抽取实体，再填充实体之间的边，来构成超语义查询图。该方法不需要事先人工设立模板，且对复杂问句分析非常有效。最终本发明能够完成子图匹配问答方法。

Description

一种基于知识图谱的子图匹配自然问答方法

技术领域

本发明属于计算机技术领域，涉及一种基于知识图谱的子图匹配自然问答方法。

背景技术

大规模知识图谱的构建与应用需要多种技术的支持。通过知识提取技术，可以从一些公开的半结构化、非结构化和第三方结构化数据库的数据中提取出实体、关系、属性等知识要素。知识表示则通过一定有效手段对知识要素表示，便于进一步处理使用。然后通过知识融合，可消除实体、关系、属性等指称项与事实对象之间的歧义，形成高质量的知识库。知识推理则是在已有的知识库基础上进一步挖掘隐含的知识，从而丰富、扩展知识库。分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。现有技术的缺点：1.基于规则的实现只能理解一小部分的问题。2.基于关键词或同义词的实现不能完整地理解问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于知识图谱的子图匹配自然问答方法。

为达到上述目的，本发明提供如下技术方案：

一种基于知识图谱的子图匹配自然问答方法，该方法如下步骤：

S1：节点识别；

S2：结构建立；

S3：得到超语义查询图Q^U；

S4：短语映射；

S5：查找超语义查询图Q^U的近似匹配。

可选的，所述S1具体为：用已有的方法识别出所有的实体指称，并且将所有wh-词和不能匹配到任何实体的名词作为通配符。

可选的，所述S2具体为：利用句法依存树，当两个节点之间没有其余节点存在，那么这两个节点之间即认为是有边或路径相连，即为一个关系指称，且路径上所有边的label组合为这个关系指称；

当两个节点之间的指称没有label时，若两个节点都为实体、类，那么在知识图谱中将这两个节点间的关系填入；若其中一个节点为通配符，则在知识图谱中定位另外一个节点，取与其连接频数最高的那些谓词作为候选关系填入。

可选的，所述S3具体为：首先将关系提到和节点短语分别映射到候选谓词/谓词路径和实体/类；其次考虑如何将未标记的边映射到知识图谱中的谓词；

如果两个节点都是常数，即实体或类，则将两个节点定位在知识图谱中并找出它们之间的谓词；

如果一个节点v_i是一个通配符，另一个v_j是一个实体或类，在知识图谱中定位v_j，并选择最频繁的相邻谓词作为匹配边缘的候选谓词。

可选的，所述S4具体为：给出一个超语义查询图Q^U，讨论如何在知识图谱上找到具有top-k匹配分数的近似匹配；在Q^U中的一些边允许不匹配，而Q^U应该匹配所有节点，但以不同边连接所有节点的子图以S_i表示；最后，收集每个S_i的所有top-k匹配项，形成答案集，并报告答案集中匹配得分最高的k个匹配项。

本发明的有益效果在于：

1.本申请提出基于子图匹配的方法，将解决歧义问题与查询评分这两个阶段融合在一起，即当得到自然语言问题的一个正确匹配的查询子图时，歧义问题也同时解决；

2.本申请不需要事先人工设立模板，且对复杂问句分析非常有效。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为基于节点优先框架的自然问答系统示意图；

图2为语义解析树模型示意图；

图3为构建超语义查询图的示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1所示，本发明各部分具体实施细节如下：

(1)节点识别。用已有的方法识别出所有的实体指称，并且将所有wh-词和不能匹配到任何实体的名词作为通配符。

(2)结构建立。利用句法依存树，当两个节点之间没有其余节点存在，那么这两个节点之间即认为是有边或路径相连。当两个节点之间的指称没有label时，若两个节点都为实体、类，那么在知识图谱中将这两个节点间的关系填入；若其中一个节点为通配符，则在知识图谱中定位另外一个节点，取与其连接频数最高的那些谓词作为候选关系填入。

(3)得到超语义查询图Q^U。

(4)短语映射。首先将关系提到和节点短语分别映射到候选谓词/谓词路径和实体/类。其次考虑如何将未标记的边映射到知识图谱中的谓词。如果两个节点都是常数(即，实体或类)，则我们将两个节点定位在知识图谱中并找出它们之间的谓词。如果一个节点v_i是一个通配符，另一个v_j是一个实体或类，在知识图谱中定位v_j，并选择最频繁的相邻谓词作为匹配边缘的候选谓词。

(5)查找超语义查询图Q^U的近似匹配。给出一个超语义查询图Q^U，讨论如何在知识图谱上找到具有top-k匹配分数的近似匹配。在Q^U中的一些边允许不匹配，而Q^U应该匹配所有节点，但以不同边连接所有节点的子图以S_i表示。最后，我们收集每个S_i的所有top-k匹配项，形成答案集，并报告答案集中匹配得分最高的k个匹配项。

如图2所示，对自然语言问句“What is the budget ofthe film directed byPaul Anderson？”解析，即一个寻找与关系指称相关的主/宾语节点的示例。如图1，已知的关系指称为“budget of”与“direct by”，由于“film”是匹配于实体或类，且“of”与子节点“film”之间以边pobj相连，所以“film”是关系指称“budget of”的宾语。此外，虽然“is”与“budget”由subject-like的边相连，但是“is”并不是一个可以匹配到实体/类的节点，所以“is”不是“budget of”的主语。根据前面所述，与“budget of”最相近的wh-词是“what”，那么它就是“budget of”的主语。

如图3所示，点“film”与点“Paul Anderson”、“actor”之间都没有其余节点存在，所以“film”与“Paul Anderson”存在关系，关系指称为“directedby”；“film”与“actor”存在关系，关系指称为“directed starred by”，由此得到节点间的关系指称。当两个节点之间的指称没有label时，如图3的“Chinese”和“actor”，那么若两个节点都为实体/类，那么在知识图谱中将这两个节点间的关系填入；若其中一个节点为通配符，则在知识图谱中定位另外一个节点，取与其连接频数最高的那些谓词作为候选关系填入。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于知识图谱的子图匹配自然问答方法，其特征在于：该方法如下步骤：

S1：节点识别；

S2：结构建立；

S3：得到超语义查询图Q^U；

S4：短语映射；

S5：查找超语义查询图Q^U的近似匹配。

2.根据权利要求1所述的一种基于知识图谱的子图匹配自然问答方法，其特征在于：所述S1具体为：用已有的方法识别出所有的实体指称，并且将所有wh-词和不能匹配到任何实体的名词作为通配符。

3.根据权利要求2所述的一种基于知识图谱的子图匹配自然问答方法，其特征在于：所述S2具体为：利用句法依存树，当两个节点之间没有其余节点存在，那么这两个节点之间即认为是有边或路径相连，即为一个关系指称，且路径上所有边的label组合为这个关系指称；

4.根据权利要求3所述的一种基于知识图谱的子图匹配自然问答方法，其特征在于：所述S3具体为：首先将关系提到和节点短语分别映射到候选谓词/谓词路径和实体/类；其次考虑如何将未标记的边映射到知识图谱中的谓词；

5.根据权利要求4所述的一种基于知识图谱的子图匹配自然问答方法，其特征在于：所述S4具体为：给出一个超语义查询图Q^U，讨论如何在知识图谱上找到具有top-k匹配分数的近似匹配；在Q^U中的一些边允许不匹配，而Q^U应该匹配所有节点，但以不同边连接所有节点的子图以S_i表示；最后，收集每个S_i的所有top-k匹配项，形成答案集，并报告答案集中匹配得分最高的k个匹配项。