CN115640391A

CN115640391A - 一种基于语义联合建模的中文知识图谱问答系统的方法及系统

Info

Publication number: CN115640391A
Application number: CN202211547037.7A
Authority: CN
Inventors: 孙祥娥; 郝慧斌; 任睿杰; 黄培哲; 聂冰霞
Original assignee: Yangtze University
Current assignee: Yangtze University
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-01-24

Abstract

本发明提出了一种基于语义联合建模的中文知识图谱问答系统的方法及系统,属于知识图谱问答技术领域，所述方法包括：对知识库进行数据清洗及修正，消除噪声；通过问句中识别的实体提及，在Neo4j图数据库中进行模糊匹配，得到候选实体‑关系对，然后使用实体链接词典对其进行过滤，只保留词典实体提及对应的候选实体及其关系，来构成候选实体‑关系对集合；将问句和候选实体‑关系对分别转换为高纬度的向量表示，计算它们的余弦相似度并进行排序；选取相似度最高的候选实体‑关系对，转换成CQL查询语句在Neo4j图数据库中查询答案返回给用户。本发明方法解决了现有问答系统将实体消歧和关系匹配作为独立子任务产生的误差传递问题，并充分利用了实体和关系之间的语义信息，提高了知识图谱问答系统的准确性。

Description

一种基于语义联合建模的中文知识图谱问答系统的方法及系统

技术领域

本发明属于中文知识图谱问答系统领域，具体为一种基于语义联合建模的中文知识图谱问答系统的方法及系统。

背景技术

近年来，为了优化搜索引擎提供的结果，并增强用户搜索质量及体验，促使了知识图谱的快速发展，可以知识图谱为自然言语问题提供准确的答案。

比较知名的英文知识图谱有Freebase、DBpedia、YAGO等，中文知识图谱有百度知心、北大的PKUBase和NLPCC中文知识库等。知识图谱问答系统中最常见的是简单问题，其问句中包含一个主题实体提及，可以链接到知识图谱中的实体，并可使用单个关系事实来回答。虽然近几年来英文知识图谱问答系统领域取得了很多不错的进展，但相应方法在开放域中文知识图谱问答系统领域实现过程中效果并不理想。在中文知识图谱问答系统领域中，实体消歧的过程为准确找到问句中实体提及对应的知识库中的实体，但是由于中文中同名实体过多并且问句中对实体描述较少，同时实体中出现嵌套、缩写、别名等情况导致找到知识图谱中正确对应的实体变得更困难。

并且自然语言问题与知识库中结构化语义之间的差距，中文拥有非常丰富的语言表达形式，这使得计算机很难准确的理解自然语言问题的语义，在关系匹配任务中尤为突出。当前常用的方法将中文知识图谱问答系统中实体消歧和关系匹配任务划分为两个独立的子任务来解决上述问题。但是这种方法的缺点为会导致误差的传递，以及忽略了候选实体提及和关系之间的相关性，无法充分利用句子和知识图谱提供的信息。最终导致整体的中文知识图谱问答系统准确率不理想。

发明内容

鉴于此，本发明提供了一种基于语义联合建模的中文知识图谱问答系统的方法及系统，将实体消歧和关系匹配任务联合建模，充分考虑实体消歧和关系匹配之间的相关性，并利用对比损失优化训练过程，以得到更有区分度的语义向量表示。所述方法及系统包括以下步骤：：（1）前期准备，对知识库进行数据清洗，去除噪声；（2）从输入的自然语言问句中识别包含信息的主题实体提及；（3）通过问句中识别的实体提及，在Neo4j图数据库中进行模糊匹配，得到候选实体-关系对，然后使用实体链接词典对其进行过滤，只保留词典实体提及对应的候选实体及其关系，来构成候选实体-关系对集合；（4）分别将问句和候选实体-关系对集合的文本信息转换为高维空间中的向量表示；（5）使用通过计算问句和候选实体-关系对向量表示的余弦值得到他们的余弦相似度，并进行排序，选取相似度最高的实体-关系对；（6）将相似度最高的实体-关系对转化成CQL查询语句，从Neo4j图数据库中获取对应的答案进行回答。进一步的，所述步骤（1）的前期准备包括使用BIO标准策略表示主题实体提及标签，构建实体提及识别数据集，以及根据在提及在Neo4j图数据库中进行模糊匹配，得到候选实体-关系对，构建联合任务数据集。对知识库的清洗包括去除空格和无意义字符、将英文大写改成小写以及将成对的括号的左括号改成@字符。进一步的，所述步骤（2）首先利用BERT模型对问句中每一个字编码，再利用双向LSTM提取特征，最后使用CRF作为分类器得到每个字符对应BIO标签的概率。选取概率最大的标签作为字符的标签，将标签为B和I的字段作为主题实体提及输出。进一步的，所述步骤（4）中候选实体-关系对使用[AND]字符进行连接，并且将对问句和候选实体-关系对中实体提及进行mask操作，具体为将实体提及的字符替换成‘entity’字符，最后将[AND]和‘entity’字符加入预训练模型的词汇表中。问句和候选实体-关系对输入进使用对比损失微调训练过的两个共享参数的孪生BERT模型，分别得到它们语义向量表示。与现有技术相比，本发明的有益效果是： 1）将知识图谱问答系统中实体消歧和关系匹配任务进行联合建模，解决了误差传递的问题； 2）充分利用了问句中实体和关系互相提供的语义信息，从而能够回复更为准确的答案； 3）分别将问句和候选实体-关系对转化成向量表示，再进行余弦相似度计算，提升了预测语义相似度的速度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图图1为本发明流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。请参阅图1，本发明提供一种技术方案：一种基于语义联合建模的中文知识图谱问答系统的方法及系统，包括以下步骤：、（1）前期准备，使用BIO标准策略表示主题实体提及标签，构建实体提及识别数据集，以及根据在提及在Neo4j图数据库中进行模糊匹配，得到候选实体-关系对，构建联合任务数据集。对知识库的清洗包括去除空格和无意义字符、将英文大写改成小写以及将成对的括号的左括号改成@字符；（2）从输入的自然语言问句中识别包含信息的主题实体提及，具体为首先利用BERT模型对问句中每一个字编码，再利用双向LSTM提取特征，最后使用CRF作为分类器得到每个字符对应BIO标签的概率。选取概率最大的标签作为字符的标签，将标签为B和I的字段作为主题实体提及输出；（3）通过问句中识别的实体提及，在Neo4j图数据库中进行模糊匹配，得到候选实体-关系对，然后使用实体链接词典对其进行过滤，只保留词典实体提及对应的候选实体及其关系，来构成候选实体-关系对集合；（4）分别将问句和候选实体-关系对集合的文本信息转换为高维空间中的向量表示，具体为将候选实体-关系对使用[AND]字符进行连接，并且将对问句和候选实体-关系对中实体提及的字符替换成‘entity’字符，最后将[AND]和‘entity’字符加入预训练模型的词汇表中。问句和候选实体-关系对输入进使用对比损失微调训练过的两个共享参数的孪生BERT模型，分别得到它们语义向量表示。（5）使用通过计算问句和候选实体-关系对向量表示的余弦值得到他们的余弦相似度，并进行排序，选取相似度最高的实体-关系对；（6）将相似度最高的实体-关系对转化成CQL查询语句，从Neo4j图数据库中获取对应的答案进行回答。综上，本发明将中文知识图谱问答系统中实体消歧和关系匹配子任务视为一个高度相关的联合任务，集成到统一的语义联合模型框架中。该方法充分利用了实体和关系的相关性，提供了更多的语义信息，能够更准确的找到知识图谱中的正确实体和关系，并返回问句的答案。同时，使用对比损失训练的孪生网络框架构建的语义联合模型，将问句和候选实体-关系对分别表示成等长的语义向量，并进行余弦相似度计算，提升了预测相似度是速度和准确率。尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于语义联合建模的中文知识图谱问答系统的方法及系统，其特征在于，包括以下步骤：（1）前期准备，对知识库进行数据清洗，去除噪声；（2）从输入的自然语言问句中识别包含信息的主题实体提及；（3）通过问句中识别的实体提及，在Neo4j图数据库中进行模糊匹配，得到候选实体-关系对，然后使用实体链接词典对其进行过滤，只保留词典实体提及对应的候选实体及其关系，来构成候选实体-关系对集合；（4）分别将问句和候选实体-关系对集合的文本信息转换为高维空间中的向量表示；（5）使用通过计算问句和候选实体-关系对向量表示的余弦值得到他们的余弦相似度，并进行排序，选取相似度最高的实体-关系对；（6）将相似度最高的实体-关系对转化成CQL查询语句，从Neo4j图数据库中获取对应的答案进行回答。

2.根据权利要求1所述的一种基于语义联合建模的中文知识图谱问答系统的方法及系统，其特征在于：所述步骤（1）的前期准备包括使用BIO标准策略表示主题实体提及标签，构建实体提及识别数据集，以及根据在提及在Neo4j图数据库中进行模糊匹配，得到候选实体-关系对，构建联合任务数据集。

3.对知识库的清洗包括去除空格和无意义字符、将英文大写改成小写以及将成对的括号的左括号改成@字符。

4.根据权利要求1所述的一种基于语义联合建模的中文知识图谱问答系统的方法及系统，其特征在于：所述步骤（2）首先利用BERT模型对问句中每一个字编码，再利用双向LSTM提取特征，最后使用CRF作为分类器得到每个字符对应BIO标签的概率。

5.选取概率最大的标签作为字符的标签，将标签为B和I的字段作为主题实体提及输出。

6.根据权利要求1所述的一种基于语义联合建模的中文知识图谱问答系统的方法及系统，其特征在于：所述步骤（4）中候选实体-关系对使用[AND]字符进行连接，并且将对问句和候选实体-关系对中实体提及进行mask操作，具体为将实体提及的字符替换成‘entity’字符，最后将[AND]和‘entity’字符加入预训练模型的词汇表中。

7.将问句和候选实体-关系对输入进使用对比损失微调训练过的共享参数的孪生BERT模型，分别得到它们语义向量表示。