CN116821312A

CN116821312A - 一种基于学科领域知识图谱的复杂问答方法

Info

Publication number: CN116821312A
Application number: CN202311100523.9A
Authority: CN
Inventors: 闫阳; 王佳坤; 李华昱
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-09-29
Anticipated expiration: 2043-08-30
Also published as: CN116821312B

Abstract

本发明公开了一种基于学科领域知识图谱的复杂问答方法，涉及智能问答领域，包括以下步骤：首先基于已有的计算机学科知识图谱设计了一种构建复杂问句集的方法，并通过BERT‑BiLSTM‑CRF模型对问句进行实体识别和关键路径预测，通过BERT‑DPCNN模型对问句进行答案实体类型预测和问句分类。然后针对多跳问句和多主体实体问句分别提出了Multi‑hop Pruning和Multi‑entity Pruning两种复杂问句的查询图剪枝算法。本发明解决了目前知识图谱问答方法缺乏被认可的公开问句数据集，以及现有方法难以处理聚合、比较和多跳等复杂情况的问题。

Description

一种基于学科领域知识图谱的复杂问答方法

技术领域

本发明涉及智能问答领域，特别是涉及一种基于学科领域知识图谱的复杂问答方法。

背景技术

随着科学技术的进步和人工智能的快速发展，各种信息技术正在不断地改变着我们的日常生活，人们获取信息的需求也在不断向自然交互的形式演化。一方面我们希望通过更自然的方式与搜索引擎进行交互，另一方面希望可以直接获取问题的答案，因此知识图谱问答技术应运而生。

知识图谱问答是以知识图谱为知识源来回答自然语言问题的任务。目前知识图谱问答有两种主流方法：基于语义解析的方法和基于信息检索的方法。基于语义解析的方法以符号逻辑的形式表示问题，将自然语言转换成对应的完整结构化查询语言，在知识图谱中搜索最终答案。基于信息检索的方法首先识别问题中的主题实体，然后从知识图谱中提取特定查询图进行推理，并通过问题的约束信息对查询图中所有相关实体进行排名，最后选择排名靠前的实体作为问题答案。

然而目前知识图谱问答方法仍存在一些不足：（1）在中文知识图谱问答领域目前还没有出现被认可的公开问句数据集，大部分工作是基于某领域知识库，在各自构建的领域问句集中进行研究，问句数据集规模较小，并且问题多样性差；（2）现有知识图谱问答方法仅能回答一些简单的问题，难以处理聚合、比较和多跳等复杂问题。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于学科领域知识图谱的复杂问答方法解决了目前知识图谱问答方法缺乏被认可的公开问句数据集，以及现有方法难以处理聚合、比较和多跳等复杂情况的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于学科领域知识图谱的复杂问答方法，包括以下步骤：

S1：基于计算机学科知识图谱设计复杂问句集；

S2：基于复杂问句集，通过多任务问答模型识别出问句中的主题实体和谓词，并对问句类型和答案实体类型进行分类和预测；

S3：将主题实体送入计算机学科知识图谱中生成包含实体的查询图；

S4：对于多跳问句，通过Multi-hop pruning算法对问句进行依存句法分析, 筛选路径中的中间实体，并结合谓词所在的关键路径，分别计算问句中的主题实体和谓词与查询图中的中间实体和关系的语义相似度，根据语义相似度对查询图中的中间实体和关系所在的路径进行剪枝；

S5：对于多主题实体问句，通过Multi-entity pruning算法生成各个主题实体的查询子图，并相互作为约束条件进行剪枝；

S6：对剪枝后的查询图通过预测的答案实体类型沿路径搜索答案，生成候选答案集；

S7：针对不同类型的复杂问句，对候选答案集进行不同的逻辑处理，得到问题的最终答案，完成基于学科领域知识图谱的复杂问答。

上述方案的有益效果是：本发明提出了一种构建复杂问句集的方法，同时通过BERT-BiLSTM-CRF模型对复杂问句进行实体识别和关键路径预测，通过BERT-DPCNN模型对复杂问句进行答案实体类型预测和问句分类。然后针对多跳问句提出了一种关键路径预测和依存句法分析相结合的Multi-hop pruning算法，针对多主题实体问句提出了一种将多个查询子图融合剪枝的Multi-entity pruning算法。通过两种剪枝算法，缩小了答案搜索范围，减少了复杂问句逻辑处理的计算量，提高了答案返回效率，解决了目前知识图谱问答方法缺乏被认可的公开问句数据集，以及现有方法难以处理聚合、比较和多跳等复杂情况的问题。

进一步地，S1中设计复杂问句集包括以下分步骤：

S1-1：利用数据准备阶段获取计算机学科知识图谱中的各类实体和与实体相连的两跳内实体集和关系集；

S1-2：利用问句生成阶段根据数据准备阶段获取的实体集和关系集，结合生成策略使用少量模板生成大规模的问句集；

S1-3：对问句集中的谓词、名词和连词进行自动化替换，并人工调整问句结构，获得表达相同含义的不同问句；

S1-4：对不同问句进行问句标注，用于训练模型和测试问答效果，完成复杂问句集的设计。

上述进一步方案的有益效果是：通过上述技术方案，实现复杂问句集的设计，主要将设计过程分为两个阶段：数据准备阶段和问句生成阶段，在问句生成阶段，根据上一阶段得到的实体集和关系集，结合生成策略可以用少量模板生成大规模、多样化的问题，在得到生成的问句集后，对问句中的谓词、名词、连词等进行自动化替换，并人工调整问句结构，得到表达相同含义的不同问句，进一步丰富复杂问句集。

进一步地，数据准备阶段中采样策略包括单三元组采用策略、第一双三元组采用策略、第二双三元组采用策略、三三元组采用策略和多三元组采用策略；

分别对知识图谱中的单三元组、第一双三元组、第二双三元组、三三元组和多三元组进行采样，并填充模板占位符对目标实体进行描述，采样涉及的三元组越多，生成问句中包含的限定条件越复杂。

上述进一步方案的有益效果是：在数据准备阶段设计了5种采样策略，同时提供了每一种采样策略对应的模板和样例。

进一步地，问句生成阶段中问句生成策略包括简单类生成策略、聚合类生成策略、计数类生成策略、比较类生成策略和多跳类生成策略。

上述进一步方案的有益效果是：对于问句生成阶段，设计了5种问句生成策略，用于与数据准备阶段中的样例组合生成简单类、聚合类、计数类、比较类以及多跳类问句。

进一步地，通过问句生成策略和数据准备阶段中的样例获得简单类问句、聚合类问句、计数类问句、比较类问句和多跳类问句；

所述简单类问句根据单三元组生成的样例与生成的模板组合得到；

所述计数类问句根据单三元组生成的样例和部分双三元组生成的样例，与生成模板组合得到；

所述比较类问句、多跳类问句和聚合类问句根据第一双三元组生成的样例、第二双三元组生成的样例、三三元组生成的样例和多三元组生成的样例，与生成模板组合得到。

上述进一步方案的有益效果是：通过上述技术方案，提供了简单类问句、聚合类问句、计数类问句、比较类问句和多跳类问句的具体获取方法。

进一步地，S2中包括以下分步骤：

S2-1：将BERT模型作为编码器进行词向量表示，并提取计算机学科语料中标注的领域信息；

S2-2：基于领域信息，利用BiLSTM模型的上下文特征学习和CRF模型的最大标签序列，识别出问句中的主题实体和谓词；

S2-3：基于问句中的主题实体和谓词，以计算机学科语料训练的参数为基础，以问句和问句类型以及问句和答案实体类型分别拼接成序列作为输入，通过BERT模型提取序列特征后送入DPCNN模型，增强相邻字之间的信息融合，获得语义信息，完成问句分类和答案实体类型识别；

S2-4：将获取的语义信息输入至全连接层和RELU层，获得各类别的概率值，并输出概率值最大的类别，完成问句类型和答案实体类型的分类和预测。

上述进一步方案的有益效果是：为了在查询子图中更精准的沿路径推理答案，本发明又引入了谓词识别和答案实体类型预测两项任务。谓词识别是为了识别问句中用来描述或判定实体性质的动词或形容词，提取问句中的谓词有助于在查询子图中沿路径搜索答案时能够结合更多的问句语义信息。同样地，预测问句答案实体类型也有助于在推理答案的过程中提高答案准确度。

进一步地，DPCNN模型中等长卷积操作公式为

其中，为等长卷积结果，/>为非线性激活函数，/>为卷积核，/>为第一参数，为参与运算的词向量范围为第/>个到第/>个，/>为卷积核的大小，/>为偏置值，/>为最终特征，/>为词向量间拼接操作符，/>分别为各部分等长卷积的结果。

上述进一步方案的有益效果是：DPCNN层的片段嵌入使用卷积核进行横向等长卷积操作，得到融合相邻字向量信息的问句特征向量。

进一步地，S4中语义相似度公式为

其中，为问句中的非命名实体或谓词，/>为查询图中的中间实体或关系，/>和为字向量的维度。

上述进一步方案的有益效果是：相似度计算是基于模型中实体谓词识别模块训练得到的参数，通过多次相似度计算实验，设置判断是否相似的阈值，将相似度低于该阈值的实体和关系所在的路径进行剪枝处理。

附图说明

图1为一种基于学科领域知识图谱的复杂问答方法流程图。

图2为多任务模型结构图。

图3为依存句法分析过程示例图。

图4为多主题实体查询子图示例图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

如图1所示，一种基于学科领域知识图谱的复杂问答方法，其特征在于，包括以下步骤：

S1：基于计算机学科知识图谱设计复杂问句集；

S1中设计复杂问句集包括以下分步骤：

数据准备阶段中采样策略，如表1所示，包括单三元组采用策略、第一双三元组采用策略、第二双三元组采用策略、三三元组采用策略和多三元组采用策略；

表1知识图谱采样策略

问句生成阶段中问句生成策略，如表2所示，包括简单类生成策略、聚合类生成策略、计数类生成策略、比较类生成策略和多跳类生成策略。

表2问句生成策略

通过所述问句生成策略和数据准备阶段中的样例获得简单类问句、聚合类问句、计数类问句、比较类问句和多跳类问句；

如图2所示，S2中包括以下分步骤：

在多任务模型中，每个字分割成一个token，编码器的输入对应的向量表示为/>（模型左边和右边的/>都是对应文字的词向量），通过堆叠的Transformer层对/>进行训练，生成融合计算机学科信息的字向量，之后将字向量/>作为BiLSTM层的输入，由BiLSTM层输入门、输出门和遗忘门相结合的门控机制选择性的保留状态值，输出由正向和反向隐藏序列拼接成的完整隐藏序列/>。/>和/>表示先进行一次等长卷积后在进入循环模块。

DPCNN模型中等长卷积操作公式为

在步骤S4中，使用依存句法分析工具DDParser得到非命名实体的主语或宾语，分析过程如图3所示。

S4中语义相似度公式为

在步骤S5中，针对聚合等多主题实体问句，采用多个查询子图融合的Multi-entity prune算法进行相互剪枝，如图4所示，本实施例中，问句“王丽华老师和王珏老师发表过哪些深度学习领域的文章？”，通过识别出“王丽华”、“王珏”和“深度学习”生成的三个查询子图(由于查询子图中实体关系太多, 这里只列出部分)。对每个主题实体分别生成两跳范围内查询子图，将每个查询子图看作其他查询子图的约束条件进行相互剪枝，最终融合成一个查询图。例如图中三个主题实体的查询子图在融合的过程中，将无关的职位、组织机构和非深度学习领域论文等路径进行剪枝，得到与所有主题实体相关的查询图。

在本发明的一个实施例中，计算机学科知识图谱共包含13532个节点和27547个关系。复杂问句数据集包含简单、多跳、聚合、计数和比较5类问句，共20352条。每条问句对应5种元素，包括问题、命名实体与谓词、问句类型、答案实体类型以及答案。

将问句数据集按7:2:1的比例随机划分为训练集、验证集和测试集。计算机学科数据集规模如表3所示：

表3计算机学科问句集规模

多任务问答模型实验环境如表4所示：

表4 问答模型实验环境说明表

BERT-BiLSTM-CRF使用的主要参数包括：BERT包含12层Transformer，隐藏层维度设置为768，最大序列长度设置为128，学习率设置为1E-3，batch_size设置为64。

BERT-DPCNN使用的主要参数包括：BERT包含12层Transformer，隐藏层维度设置为768，最大序列长度设置为128，学习率设置为5E-4，batch_size设置为32。

在识别任务中，BERT-BiLSTM-CRF的实体谓词识别结果如表5所示。平均识别精确率达到92.31%、平均召回率达到92.26%、F1平均值达到92.28%。

表5实体谓词识别实验结果

其中，职位类和职务类实体识别效果与其他实体类型识别效果相比较差，经过分析训练数据后发现是由于包含职位类和职务类信息的训练语料较少，导致这两类实体识别效果不理想。

在分类预测任务中，BERT-DPCNN的答案实体类型预测实验结果和问句类型分类实验结果分别如表6和表7所示。

表6答案实体类型预测实验结果

表7问句类型分类实验结果

本发明基于Flask框架搭建了计算机学科问答可视化系统。系统采用B/S前后端分离的结构模式实现，前端使用ECharts工具实现数据的图形显示效果，通过文本和力导向图对问答结果和中间过程进行可视化显示。

为了验证复杂问答算法对提高问答正确率和减少答案返回时间的真实作用，本发明对结合Multi-hop pruning算法和Multi-entity pruning算法的问答过程进行了消融实验。实验结果如表8所示。分析可知，消融Multi-hop pruning过程和Multi-entity pruning过程都会降低问答的正确率，增加平均答案返回时间。

表8复杂问答算法消融实验结果

本发明构建了计算机学科知识图谱，实现了一种根据知识图谱构建问句集的方案。通过多任务问答模型实现了实体谓词识别、问句分类和答案实体类型预测，并在此基础上提出了针对多种复杂问句的知识问答方法，在减少复杂问答过程中的推理计算量、缩短答案返回时间以及提高复杂问答准确率上都取得了良好的效果。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在发明的保护范围内。

Claims

1.一种基于学科领域知识图谱的复杂问答方法，其特征在于，包括以下步骤：

S1：基于计算机学科知识图谱设计复杂问句集；

2.根据权利要求1所述的基于学科领域知识图谱的复杂问答方法，其特征在于，所述S1中设计复杂问句集包括以下分步骤：

3.根据权利要求2所述的基于学科领域知识图谱的复杂问答方法，其特征在于，所述数据准备阶段中采样策略包括单三元组采用策略、第一双三元组采用策略、第二双三元组采用策略、三三元组采用策略和多三元组采用策略；

4.根据权利要求3所述的基于学科领域知识图谱的复杂问答方法，其特征在于，所述问句生成阶段中问句生成策略包括简单类生成策略、聚合类生成策略、计数类生成策略、比较类生成策略和多跳类生成策略。

5.根据权利要求4所述的基于学科领域知识图谱的复杂问答方法，其特征在于，通过所述问句生成策略和数据准备阶段中的样例获得简单类问句、聚合类问句、计数类问句、比较类问句和多跳类问句；

6.根据权利要求1所述的基于学科领域知识图谱的复杂问答方法，其特征在于，所述S2中包括以下分步骤：

7.根据权利要求6所述的基于学科领域知识图谱的复杂问答方法，其特征在于，所述DPCNN模型中等长卷积操作公式为

其中，为等长卷积结果，/>为非线性激活函数，/>为卷积核，/>为第一参数，/>为参与运算的词向量范围为第/>个到第/>个，/>为卷积核的大小，/>为偏置值，/>为最终特征，/>为词向量间拼接操作符，/>分别为各部分等长卷积的结果。

8.根据权利要求1所述的基于学科领域知识图谱的复杂问答方法，其特征在于，所述S4中语义相似度公式为

其中，为问句中的非命名实体或谓词，/>为查询图中的中间实体或关系，/>和/>为字向量的维度。