CN113486160B

CN113486160B - 基于跨语言知识的对话方法及系统

Info

Publication number: CN113486160B
Application number: CN202110577065.2A
Authority: CN
Inventors: 任昭春; 任鹏杰; 陈竹敏; 孙维纬; 孟川; 马军
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2023-04-11
Anticipated expiration: 2041-05-26
Also published as: CN113486160A

Abstract

本发明属于跨语言对话领域，提供了一种基于跨语言知识的对话方法及系统。其中，该方法包括获取对话问题并经多语言编码器得到对话问题表示向量；在预先存储多语言知识表示向量库中，检索出与对话问题表示向量最近的知识表示向量；将对话问题表示向量与检索出的知识表示向量进行拼接；将拼接后的向量输入至跨语言seq2seq模型，得到对话问题所对应的回复。

Description

基于跨语言知识的对话方法及系统

技术领域

本发明属于对话系统领域，尤其涉及一种基于跨语言知识的对话方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

近年来，闲聊式的对话系统得到了很大的发展。基于seq2seq结构的模型，可以根据对话的历史，生成流畅的回复。但人们在与这样的系统交互的时候，仍然可以感受到和与真人聊天的差距。导致这一问题的一个重要的原因是，聊天系统在生成回复的时候由于缺乏相关知识，很难深入一个特定的主题。为了解决这一问题，基于知识的对话(KGC)被提出，利用外部知识来增强对话系统。

但是，现有的KGC相关的研究，都使用了大规模的本语言知识。然而，发明人发现，不同语言下可获取的知识数量是很不平衡的，比如英文的维基知识库是中文的6倍，而世界上使用人数第七的孟加拉语，可获取的知识只有英语的约1/60。而由于极高的资源开销，为每个语言构建足够大的知识库是不现实的。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于跨语言知识的对话方法及系统，其能够提升对话系统的话题丰富度，避免重复构建单语言知识库的开销。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于跨语言知识的对话方法。

一种基于跨语言知识的对话方法，包括：

获取对话问题并经多语言编码器得到对话问题表示向量；

在预先存储多语言知识表示向量库中，检索出与对话问题表示向量最近的知识表示向量；

将对话问题表示向量与检索出的知识表示向量进行拼接；

将拼接后的向量输入至跨语言seq2seq模型，得到对话问题所对应的回复。

本发明的第二个方面提供一种基于跨语言知识的对话系统。

一种基于跨语言知识的对话系统，其包括：

对话问题编码模块，其用于获取对话问题并经多语言编码器得到对话问题表示向量；

知识表示向量检索模块，其用于在预先存储多语言知识表示向量库中，检索出与对话问题表示向量最近的知识表示向量；

向量拼接模块，其用于将对话问题表示向量与检索出的知识表示向量进行拼接；

对话问题回复模块，其用于将拼接后的向量输入至跨语言seq2seq模型，得到对话问题所对应的回复。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于跨语言知识的对话方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于跨语言知识的对话方法中的步骤。

与现有技术相比，本发明的有益效果是：

(1)本发明首次提出了基于跨语言知识的对话方法及系统，将获取的对话问题并经多语言编码器得到对话问题表示向量；在预先存储多语言知识表示向量库中，检索出与对话问题表示向量最近的知识表示向量；将对话问题表示向量与检索出的知识表示向量进行拼接；将拼接后的向量输入至跨语言seq2seq模型，得到对话问题所对应的回复，使得对于那些资源匮乏的语言，也可以在直接使用丰富的外语知识库来构建对话系统，提升了对话系统的话题丰富度，并避免了重复构建单语言知识库的开销。

(3)本发明为了在缺少知识标注的情况下，使用大量的外语对话来学习模型的知识选择和知识表达能力，并通过自我知识蒸馏的方法将这一能力蒸馏到目标语言上，优化了多语言编码器及跨语言seq2seq模型，提高了对话回复的准确性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的基于跨语言知识的对话方法流程图；

图2是本发明实施例的知识检索与回复生成部分；

图3是本发明实施例自我知识蒸馏的训练方法。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本实施例提供了一种基于跨语言知识的对话方法，其具体包括如下步骤：

步骤S101：获取对话问题并经多语言编码器得到对话问题表示向量。

步骤S102：在预先存储多语言知识表示向量库中，检索出与对话问题表示向量最近的知识表示向量。

步骤S103：将对话问题表示向量与检索出的知识表示向量进行拼接。

步骤S104：将拼接后的向量输入至跨语言seq2seq模型，得到对话问题所对应的回复。

具体地，步骤S101和步骤S102检索部分，步骤S103和步骤S104为生成部分。

在检索部分，训练一个多语言的编码器。首先使用编码器对外语知识库中的每一条知识进行编码得到表示向量，并将向量存储。对于给定的一段对话历史，拼接对话历史的句子，使用编码器编码得到表示向量，再使用基于FAISS加速的向量检索模块，在预先存储的知识表示向量中，检索出与之cosine距离最近的一个，作为被选择的知识。其中，FAISS加速的向量检索模块的输入是：一条query和多个document。该模块会计算query和每个document之间的相关性，并输出：相关性最高的K个document。

具体来说，给定一段对话(C，R)，和一个大的知识库

其中C和R分别代表对话的历史和对应的回复。首先使用一个Transformer-Encoder编码对话历史

其中

代表d维的句子表示。我们使用相同的方法将

中的每条知识进行编码得到

接下来，使用最近邻(KNN)算法构建C的知识池(Knowledge Pool)：

使用FAISS加速这一过程。接下来，在知识池中，进一步细粒度的选择一条知识，作为本段对话所使用的知识：

在生成部分，训练一个跨语言的seq2seq模型。首先将对话的历史，以及上一步检索到的外语的知识进行拼接，作为模型的输入。接下来，依次生成回复中的每一个字。

具体来说，对于给定的对话历史C以及上一步所选的一条知识K，我们首先将其拼接作为一个mBART模型的输入I＝{C；[SEP]；K}，其中[SEP]是拼接符。接下来，使用mBART生成回复R，并使用语言指示符[LANG]表示所要生成的回复的语言。其中，mBART是由Facebook公司提出的一种预训练的语言模型，属于seq2seq模型。

为了在缺少训练数据的情况下，训练上述的检索以及生成模型，提出了CSKD(curriculum self-knowledge distillation)方案，总的来说，方案利用大规模的外语对话数据，来提升模型在本语言上的跨语言检索与生成的能力。

假定我们有来自目标语言的对话数据

来自辅助语言的知识库

以及大量的来自辅助语言的对话数据

具体地，给定一段来自辅助语言对话(C^A，R^A)，其中A代表辅助语言。首先使用标准IR(信息检索)模型(基于BM25)基于回复来构建知识池，并使用IR模型所预测的知识作为标签，使用MLE(最大似然法)优化知识检索部分的多语言编码器模型以及回复生成。接下来，使用生成模型计算reward，进一步使用强化学习优化知识检索模型。强化学习目标是：

其中

其中P(K|·)是P(K|C^A，KP)的简写，|R^A|是回复的长度；b是用于降低梯度方差的基准；ε是温度系数。

从两种语言的对话数据中，提取平行对话数据

为了无监督的提取平行对话，首先使用mBART-Encoder，如检索部分一样编码两种语言所有的对话，得到

和

接下来，对于每一个来自目标语言的对话，我们都使用KNN算法在辅助语言中提取cosine距离最近的一段对话，得到一组平行对话(C^T，R^T)-(C^A，R^A)。接下来，使用ratio margin function定义这两段对话之间的语义相似度。

其中NN(·)代表基于cosine距离的N个最近邻。

基于所提取的平行对话，使用自我知识蒸馏的方法将多语言编码器及跨语言seq2seq模型在辅助语言上预训练得到的知识选择和知识表达能力，蒸馏到目标语言上。对于给定的一组平行对话(C^T，R^T)-(C^A，R^A)，使用两个知识蒸馏的目标：

其中，KP是KP(R^A)的简写，代表使用辅助语言的回复构建的知识池；l代表一个n层的mBART-Decoder的第l层；

代表Decoder的第l层中，回复R对输入知识K的注意力矩阵，表示每一个R中的词是根据知识中的那一部分生成的；KL代表Kullback-Leibler散度。除此之外，通过NLL loss优化对于目标语言的回复生成：

其中K～P(K|R^A，KP(R^A))是根据R^A所选择的一条知识。

为了解决自动的平行对话检索所带来的噪声，将课程学习的方法结合进了知识蒸馏。具体来说，我们首先定义了每组平行对话的难度函数：

d＝S(C^T,R^T,C^A,R^A)P(K_best|R^A,KP(R^A))

其中K_best代表获得选择概率最高的那一条知识。接下来，根据困难度d对训练数据进行升序排序，在训练的第m步，使用在前f(m)部分的数据中采样的batch进行训练。对f(m)的定义是：

其中

代表了在初始阶段使用多少比例的数据进行训练，M代表最大训练步数。在训练过程中，模型会先使用容易的数据进行训练，并逐渐增加困难数据的比例，直到使用全部数据。

实施例二

本实施例提供了一种基于跨语言知识的对话系统，其包括：

需要说明的是，本实施例中的各个模块，与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于跨语言知识的对话方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于跨语言知识的对话方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于跨语言知识的对话方法，其特征在于，包括：

获取对话问题并经多语言编码器得到对话问题表示向量；

将对话问题表示向量与检索出的知识表示向量进行拼接；所述对话问题表示向量与其最近的知识表示向量为两种不同语言；

将拼接后的向量输入至跨语言seq2seq模型，得到对话问题所对应的回复；

训练检索模型和跨语言seq2seq模型，使用标准信息检索模型基于回复构建知识池，预先存储多语言知识表示向量作为知识池，使用标准信息检索模型所预测的知识作为标签，使用最大似然估计优化多语言编码器及回复生成；使用自我知识蒸馏的方法将多语言编码器及跨语言seq2seq模型在辅助语言上预训练得到的知识选择和知识表达能力，蒸馏到目标语言上；将课程学习的方法结合进知识蒸馏。

2.如权利要求1所述的基于跨语言知识的对话方法，其特征在于，在训练检索模型过程中，使用KNN算法在辅助语言中提取cosine距离最近的一段对话，检索得到一组平行对话向量。

3.如权利要求1所述的基于跨语言知识的对话方法，其特征在于，知识表示向量与对话问题表示向量的距离采用cosine距离来表示。

4.如权利要求1所述的基于跨语言知识的对话方法，其特征在于，对于给定的一段对话历史，拼接对话历史的句子，使用编码得到表示向量，再使用基于FAISS加速的向量检索模块，在预先存储多语言知识表示向量库中，检索出与编码得到的表示向量最近的一个知识表示向量，作为被选择的知识。

5.一种基于跨语言知识的对话系统，其特征在于，包括：

对话问题编码模块，其用于获取对话问题并经多语言编码器得到对话问题表示向量；将外语知识库中的每条知识进行编码得到知识表示向量；使用最近邻算法构建对话问题的知识池；

向量拼接模块，其用于将对话问题表示向量与检索出的知识表示向量进行拼接；所述对话问题表示向量与其最近的知识表示向量为两种不同语言；

对话问题回复模块，其用于将拼接后的向量输入至跨语言seq2seq模型，得到对话问题所对应的回复；

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的基于跨语言知识的对话方法中的步骤。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一项所述的基于跨语言知识的对话方法中的步骤。