CN112528005A

CN112528005A - 基于知识检索图和预训练模型的中文对话知识检索方法

Info

Publication number: CN112528005A
Application number: CN202011568524.2A
Authority: CN
Inventors: 戴斯铭; 潘嵘; 毛明志
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-03-19
Anticipated expiration: 2040-12-25
Also published as: CN112528005B

Abstract

本发明针对现有技术处理多轮对话之间的话题切换时性能不佳的技术问题，提出了一种基于知识检索图和预训练模型的中文对话知识检索方法，通过利用预训练模型建模了文本语义信息以及利用知识检索图结构信息建模了知识之间的联系，可以更加准确地检索出与当前对话后续回复相关的知识三元组，从而让后续生成的知识对话可以更好的满足多轮对话之间的话题切换，得到更好的对话效果。

Description

基于知识检索图和预训练模型的中文对话知识检索方法

技术领域

本发明涉及自然语言处理的技术领域，具体涉及自然语言处理在人机对话上的应用，更具体地，涉及一种基于知识检索图和预训练模型的中文对话知识检索方法、系统、储存介质及计算机设备。

背景技术

自然语言处理技术一直都致力于让机器可以做到像人一样流畅、自如地沟通，这也是市面上的许多语音助手，如Siri、小度等产品设计出来的初衷；然而，人们也希望机器在流畅对话的同时，其产出的对话回复能够带有知识的丰富性，而不仅仅是单纯地响应对话内容。所以，在为机器提供训练语料时，除了提供相应的历史对话信息，同时也需要提供相应的对话知识，让机器在获取知识的前提下生成富有知识性的对话回复。

公开时间为2020-07-28，公开号为CN111462749A的中国申请专利：基于对话状态导向和知识库检索的端到端对话系统及方法，其具有对话状态与知识库两步检索机制结合的知识库访问结构，以期通过知识库库间检索的方式维护知识库一致性，从而减少知识库检索错误的问题。但上述专利在内的现有技术在处理多轮对话之间的话题切换时，由于对话和知识的语义信息变得更加复杂，对话效果并不好。

发明内容

针对现有技术的局限，本发明提出一种基于知识检索图和预训练模型的中文对话知识检索方法、系统、储存介质及计算机设备，本发明采用的技术方案是：

一种基于知识检索图和预训练模型的中文对话知识检索方法，包括以下步骤：

创建知识检索数据集；所述知识检索数据集包括样本对数据集以及知识检索图；所述样本对数据集包括正样本对，所述正样本对由样本对话内容以及与所述样本对话内容对应的知识三元组构成；所述知识检索图根据所述样本对数据集的知识三元组构建；

以知识增强语义理解模型构建用于获取特征表示的预训练模型；

通过按预设的批尺寸在所述样本对数据集内抽取正样本对以及随机构造负样本对，构建训练数据包，根据所述训练数据包中出现的知识三元组在所述知识检索图基础上分别构建正、负知识子图；运用所述训练数据包以及正、负知识子图对所述预训练模型进行训练；

运用训练后的预训练模型获取所述样本对数据集的各知识三元组的特征表示；获取待处理对话内容，运用训练后的预训练模型获取所述待处理对话内容的特征表示；根据所述正检索项的特征表示以及所述待处理对话内容的特征表示检索出所述待处理对话内容对应的知识三元组。

相较于现有技术，本发明通过利用预训练模型建模了文本语义信息以及利用知识检索图结构信息建模了知识之间的联系，可以更加准确地检索出与当前对话后续回复相关的知识三元组，从而让后续生成的知识对话可以更好的满足多轮对话之间的话题切换，得到更好的对话效果。

作为一种优选方案，创建知识检索数据集包括以下步骤：

以由样本对话内容以及与所述样本对话内容对应的知识三元组构成的正样本对构建样本对数据集；

根据所述样本对数据集的知识三元组构建知识检索图；

对所述样本对数据集以及知识检索图的数据进行字符级切分，并将切分得到的字符分别映射为对应的字典ID；

按预设的句子长度阈值对所述样本对数据集以及知识检索图的数据进行截断；

以经过所述切分、映射以及截断操作的所述样本对数据集以及知识检索图作为知识检索数据集。

作为一种优选方案，所述预训练模型按以下公式获取样本对话内容或者待处理对话内容的特征表示：

query_feature＝ERNIE_cls_embedding(query)；

其中，query为由样本对话内容或者待处理对话内容构成的查询项，feature 为特征表示，ERNIE_cls_embedding表示利用知识增强语义理解模型获取分类 Token对应的特征表示；

所述预训练模型按以下公式获取知识三元组的特征表示：

item_cls＝ERNIE_cls_embedding(item)；

item_feature＝[item_cls|Sum(Neighbor(item)]；

其中，item为知识三元组构成的检索项；Neighbor(item)为所述检索项在所述知识检索图或正知识子图或负知识子图中的邻居节点的分类Token对应的特征表示，Sum为加法聚合操作，[A|B]为“|”将两侧向量相连接的操作。

进一步的，所述预训练模型在所述预训练模型的训练过程中通过预设的优化器计算、更新所述预训练模型的网络参数，使训练过程中产生的合页损失函数的值最小化。

更进一步的，所述合页损失函数的值按以下公式计算：

HingeLoss＝max(0，Δ-neg_score+pos_score)；

其中，Δ为需要人工调整的超参数，pos_score为正样本匹配得分，neg_score为负样本匹配得分；

pos_score＝∑query_feature*pos_feature；

其中，pos_feature为所述训练数据包的正样本对的知识三元组的特征表示，neg_feature为所述训练数据包的负样本对的知识三元组的特征表示，T表示矩阵的转置。

作为一种可选方案，所述步骤S03中根据所述训练数据包中出现的知识三元组在所述知识检索图基础上分别构建正、负知识子图，采用GraphSage采样方法或PinSage采样方法实现。

作为一种优选方案，所述步骤S04中根据所述正检索项的特征表示以及所述待处理对话内容的特征表示检索出所述待处理对话内容对应的知识三元组，采用 ANN算法实现。

本发明还提供以下内容：

一种基于知识检索图和预训练模型的中文对话知识检索系统，包括知识检索数据集创建模块、预训练模型构建模块、预训练模型训练模块以及待处理对话内容获取检索模块；所述预训练模型训练模块连接所述知识检索数据集创建模块以及预训练模型构建模块，所述待处理对话内容获取检索模块连接所述检索库创建模块以及预训练模型训练模块，其中：

所述知识检索数据集创建模块用于创建知识检索数据集；所述知识检索数据集包括样本对数据集以及知识检索图；所述样本对数据集包括正样本对，所述正样本对由样本对话内容以及与所述样本对话内容对应的知识三元组构成；所述知识检索图根据所述样本对数据集的知识三元组构建；

所述预训练模型构建模块用于以知识增强语义理解模型构建用于获取特征表示的；

所述预训练模型训练模块用于通过按预设的批尺寸在所述样本对数据集内抽取正样本对以及随机构造负样本对，构建训练数据包，根据所述训练数据包中出现的知识三元组在所述知识检索图基础上分别构建正、负知识子图；运用所述训练数据包以及正、负知识子图对所述预训练模型进行训练；

所述待处理对话内容获取检索模块用于运用训练后的预训练模型获取所述样本对数据集的各知识三元组的特征表示；获取待处理对话内容，运用训练后的预训练模型获取所述待处理对话内容的特征表示；根据所述正检索项的特征表示以及所述待处理对话内容的特征表示检索出所述待处理对话内容对应的知识三元组。

一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现前述的基于知识检索图和预训练模型的中文对话知识检索方法的步骤。

一种计算机设备，包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现前述基于知识检索图和预训练模型的中文对话知识检索方法的步骤。

附图说明

图1为本发明实施例提供的基于知识检索图和预训练模型的中文对话知识检索方法的步骤流程图；

图2为本发明实施例提供的子图生成示例；

图3为本发明实施例提供的步骤S01的流程图；

图4为本发明实施例提供的基于知识检索图和预训练模型的中文对话知识检索系统示意图；

附图标记说明：1、知识检索数据集创建模块；2、预训练模型构建模块；3、预训练模型训练模块；4、待处理对话内容获取检索模块。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、 “第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。 “和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A 和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/” 一般表示前后关联对象是一种“或”的关系。以下结合附图和实施例对本发明做进一步的阐述。

为了解决现有技术的局限性，本实施例提供了一种技术方案，下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

请参考图1，一种基于知识检索图和预训练模型的中文对话知识检索方法，包括以下步骤：

S01，创建知识检索数据集；所述知识检索数据集包括样本对数据集以及知识检索图；所述样本对数据集包括正样本对，所述正样本对由样本对话内容以及与所述样本对话内容对应的知识三元组构成；所述知识检索图根据所述样本对数据集的知识三元组构建；

S02，以知识增强语义理解模型构建用于获取特征表示的预训练模型；

S03，通过按预设的批尺寸在所述样本对数据集内抽取正样本对以及随机构造负样本对，构建训练数据包，根据所述训练数据包中出现的知识三元组在所述知识检索图基础上分别构建正、负知识子图；运用所述训练数据包以及正、负知识子图对所述预训练模型进行训练；

S04，运用训练后的预训练模型获取所述样本对数据集的各知识三元组的特征表示；获取待处理对话内容，运用训练后的预训练模型获取所述待处理对话内容的特征表示；根据所述正检索项的特征表示以及所述待处理对话内容的特征表示检索出所述待处理对话内容对应的知识三元组。

具体的，在本实施例中，样本对话内容或者待处理对话内容可以视为查询项，知识三元组可以视为检索项，本实施例的目的在于通过所述查询项检索到正确的检索项。例如：

对话信息1：“知道重庆森林这部电影吗？”

对话信息1需要检索出的知识信息：["重庆森林(1994年王家卫执导电影) ","导演","王家卫"]

对话信息2：“知道重庆森林这部电影吗？知道呀，是一部由王家卫导演的片子。”

对话信息2需要检索出的知识信息：["重庆森林(1994年王家卫执导电影) ","主演","王菲"]

所述样本对数据集可基于给定原始的中文多轮对话数据集KdConv。中文多轮对话数据集KdConv中对于给定的对话内容，提供了句子级别的知识标注信息。因此，可以将其原本已提供的对话内容作为样本对话内容，并与数据集KdConv 中已经对应标注好的知识三元组作为正样本对。

知识三元组为包括实体、关系、尾实体的知识信息。在所述构建知识检索图时，所述知识检索图中的节点分别对应一组知识三元组，存在相同实体的知识三元组的节点相互之间连边。

所述知识增强语义理解模型指ERNIE(Enhanced Representation throughKnowledge Integration)。ERNIE的模型结构由多层的Transformer结构堆叠而成，而Transformer结构主要由输入Embedding层、位置编码层、多头自注意力层、 LayerNormalization层以及前馈神经网络等部分构成。在利用ERNIE提取特征的时候，直接提取输入的CLS token即分类token在最后一层的输出向量即可。整个ERNIE模型参数在训练阶段仍然是需要更新的。在一种优选实施例中，使用ERNIE模型，具体使用PaddlePaddle深度学习框架，并且搭配propeller的实现机制，能够快速搭建整个模型的训练和测试流程。

在所述步骤S03中，所述批尺寸batch_size决定每次从所述样本对数据集内抽取正样本的数量；所述训练数据包随着训练的进行而更新，在训练时，除了需要有对话内容与知识三元组正确对应的样本对，即除了正样本对之外，还需要负样本对。所述负样本对通过边训练边随机构造同等数量的负样本对即可，假设 batch_size的数量为N。在本实施例中，构造负样本对的方法是在当前训练数据包中选择最后一个正样本对的查询项作为负样本对的查询项，同时在知识检索图中任意选取N个不同的检索项，构成N个负样本对。而正、负知识子图的构建目的主要是由于GPU资源的限制，将原有的完整知识检索图一次性输入到 GPU中参与训练将难以进行，因此需要对原来的图进行采样，构建子图。子图的构造过程可参阅附图2，实线圈数字代表子图的节点，虚线圈代表邻居节点采样层，箭头连线代表采样方向；假设在当前只有一个检索项，也就是中间的

号节点，它的邻居节点分别为①、②、③、④、⑤号节点。基于邻居采样的方式，可随机选择②、④、⑤作为采样子图中

号节点的邻居节点。如果要继续往下一层进行邻居采样子图的话，则需要继续沿着②、④、⑤号节点重复进行邻居采样的步骤，例如对于⑤号节点，它的邻居节点有

则采样其中的两个节点

和

作为它在子图中的邻居节点。具体的，邻居节点采样个数和邻居采样层数为可以调整的超参数。

作为一种优选实施例，请参阅图3，所述步骤S01包括以下步骤：

S011，以由样本对话内容以及与所述样本对话内容对应的知识三元组构成的正样本对构建样本对数据集；

S012，根据所述样本对数据集的知识三元组构建知识检索图；

S013，对所述样本对数据集以及知识检索图的数据进行字符级切分，并将切分得到的字符分别映射为对应的字典ID；

S014，按预设的句子长度阈值对所述样本对数据集以及知识检索图的数据进行截断；

S015，以经过所述切分、映射以及截断操作的所述样本对数据集以及知识检索图作为知识检索数据集。

具体的，例如其中一个句子，在经过所述步骤S013后将转化为该句子中的各个字符的ID组成的序列。而在所述步骤S014中，对于对话内容也就是查询项而言，如果该文本内容超过句子长度阈值，就从右往左截断以此保留更加靠后的内容；这是由于通常而言，最新的对话信息对于当前查询而言更加重要；而对于检索项而言，则从左往右进行截断即可。

作为一种优选实施例，所述预训练模型按以下公式获取样本对话内容或者待处理对话内容的特征表示：

query_feature＝ERNIE_cls_embedding(query)；

所述预训练模型按以下公式获取知识三元组的特征表示：

item_cls＝ERNIE_cls_embedding(item)；

item_feature＝[item_cls|Sum(Neighbor(item)]；

进一步的，所述预训练模型在所述步骤S04的训练过程中通过预设的优化器计算、更新所述预训练模型的网络参数，使训练过程中产生的合页损失函数的值最小化。

具体的，所述优化器采用自适应动量(Adaptive momentum，Adam)优化器，在训练过程中主要通过进行梯度计算和回传来计算、更新所述预训练模型的网络参数。

更进一步的，所述合页损失函数的值按以下公式计算：

HingeLoss＝max(0，Δ-neg_score+pos_score)；

pos_score＝∑query_feature*pos_feature；

作为一种可选实施例，所述步骤S03中根据所述训练数据包中出现的知识三元组在所述知识检索图基础上分别构建正、负知识子图，采用GraphSage采样方法或PinSage采样方法实现。

具体的，GraphSage(Graph SAmple and aggreGatE)采样方法是一种已经在工业界得到广泛采纳的图神经网络方法，具有较好的分布式实施特性；而PinSage 采样方法主要通过采样一个节点周围的邻域并从这个采样的邻域动态构造一个计算图来执行高效的局部卷积。

作为一种优选实施例，所述步骤S04中根据所述正检索项的特征表示以及所述待处理对话内容的特征表示检索出所述待处理对话内容对应的知识三元组，采用实现。

具体的，ANN(Approximate Nearest Neighbor)算法为一种近似最近邻搜索算法，在本实施例中，ANN库可以直接使用python包Annoy来实现，Annoy 是由Spotify开源的高维空间求近似最近邻的库。利用Annoy包计算对话文本和知识三元组之间的得分，分值越高，则越有可能被检索到。

实施例2

一种基于知识检索图和预训练模型的中文对话知识检索系统，请参阅图4，包括知识检索数据集创建模块1、预训练模型构建模块2、预训练模型训练模块 3以及待处理对话内容获取检索模块4；所述预训练模型训练模块3连接所述知识检索数据集创建模块1以及预训练模型构建模块2，所述待处理对话内容获取检索模块4连接所述检索库创建模块1以及预训练模型训练模块3，其中：

所述知识检索数据集创建模块1用于创建知识检索数据集；所述知识检索数据集包括样本对数据集以及知识检索图；所述样本对数据集包括正样本对，所述正样本对由样本对话内容以及与所述样本对话内容对应的知识三元组构成；所述知识检索图根据所述样本对数据集的知识三元组构建；

所述预训练模型构建模块2用于以知识增强语义理解模型构建用于获取特征表示的；

所述预训练模型训练模块3用于通过按预设的批尺寸在所述样本对数据集内抽取正样本对以及随机构造负样本对，构建训练数据包，根据所述训练数据包中出现的知识三元组在所述知识检索图基础上分别构建正、负知识子图；运用所述训练数据包以及正、负知识子图对所述预训练模型进行训练；

所述待处理对话内容获取检索模块4用于运用训练后的预训练模型获取所述样本对数据集的各知识三元组的特征表示；获取待处理对话内容，运用训练后的预训练模型获取所述待处理对话内容的特征表示；根据所述正检索项的特征表示以及所述待处理对话内容的特征表示检索出所述待处理对话内容对应的知识三元组。

实施例3

一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现实施例1中的基于知识检索图和预训练模型的中文对话知识检索方法的步骤。

实施例4

一种计算机设备，包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现实施例1中的基于知识检索图和预训练模型的中文对话知识检索方法的步骤。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于知识检索图和预训练模型的中文对话知识检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于知识检索图和预训练模型的中文对话知识检索方法，其特征在于，所述步骤S01包括以下步骤：

S012，根据所述样本对数据集的知识三元组构建知识检索图；

3.根据权利要求1所述的基于知识检索图和预训练模型的中文对话知识检索方法，其特征在于，所述预训练模型按以下公式获取样本对话内容或者待处理对话内容的特征表示：

query_feature＝ERNIE_cls_embedding(query)；

其中，query为由样本对话内容或者待处理对话内容构成的查询项，feature为特征表示，ERNIE_cls_embedding表示利用知识增强语义理解模型获取分类Token对应的特征表示；

所述预训练模型按以下公式获取知识三元组的特征表示：

item_cls＝ERNIE_cls_embedding(item)；

item_feature＝[item_cls|Sum(Neighbor(item)]；

4.根据权利要求3所述的基于知识检索图和预训练模型的中文对话知识检索方法，其特征在于，所述预训练模型在所述步骤S04的训练过程中通过预设的优化器计算、更新所述预训练模型的网络参数，使训练过程中产生的合页损失函数的值最小化。

5.根据权利要求4所述的基于知识检索图和预训练模型的中文对话知识检索方法，其特征在于，所述合页损失函数的值按以下公式计算：

HingeLoss＝max(0，Δ-neg_score+pos_score)；

pos_score＝∑query_feature*pos_feature；

6.根据权利要求1所述的基于知识检索图和预训练模型的中文对话知识检索方法，其特征在于，所述步骤S03中根据所述训练数据包中出现的知识三元组在所述知识检索图基础上分别构建正、负知识子图，采用GraphSage采样方法或PinSage采样方法实现。

7.根据权利要求1所述的基于知识检索图和预训练模型的中文对话知识检索方法，其特征在于，所述步骤S04中根据所述正检索项的特征表示以及所述待处理对话内容的特征表示检索出所述待处理对话内容对应的知识三元组，采用ANN算法实现。

8.一种基于知识检索图和预训练模型的中文对话知识检索系统，其特征在于，包括知识检索数据集创建模块(1)、预训练模型构建模块(2)、预训练模型训练模块(3)以及待处理对话内容获取检索模块(4)；所述预训练模型训练模块(3)连接所述知识检索数据集创建模块(1)以及预训练模型构建模块(2)，所述待处理对话内容获取检索模块(4)连接所述检索库创建模块(1)以及预训练模型训练模块(3)，其中：

所述知识检索数据集创建模块(1)用于创建知识检索数据集；所述知识检索数据集包括样本对数据集以及知识检索图；所述样本对数据集包括正样本对，所述正样本对由样本对话内容以及与所述样本对话内容对应的知识三元组构成；所述知识检索图根据所述样本对数据集的知识三元组构建；

所述预训练模型构建模块(2)用于以知识增强语义理解模型构建用于获取特征表示的；

所述预训练模型训练模块(3)用于通过按预设的批尺寸在所述样本对数据集内抽取正样本对以及随机构造负样本对，构建训练数据包，根据所述训练数据包中出现的知识三元组在所述知识检索图基础上分别构建正、负知识子图；运用所述训练数据包以及正、负知识子图对所述预训练模型进行训练；

所述待处理对话内容获取检索模块(4)用于运用训练后的预训练模型获取所述样本对数据集的各知识三元组的特征表示；获取待处理对话内容，运用训练后的预训练模型获取所述待处理对话内容的特征表示；根据所述正检索项的特征表示以及所述待处理对话内容的特征表示检索出所述待处理对话内容对应的知识三元组。

9.一种储存介质，其上储存有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于知识检索图和预训练模型的中文对话知识检索方法的步骤。

10.一种计算机设备，其特征在于：包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于知识检索图和预训练模型的中文对话知识检索方法的步骤。