CN113919368B

CN113919368B - 一种基于多语言建模的低资源对话生成方法及系统

Info

Publication number: CN113919368B
Application number: CN202111181497.8A
Authority: CN
Inventors: 赵东岩; 仇立松; 贾爱霞
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2024-05-24
Anticipated expiration: 2041-10-11
Also published as: CN113919368A

Abstract

本申请提供一种基于多语言建模的低资源对话生成方法及系统，涉及自然语言处理技术领域，对于不同语言的对话问询进行编码，通过降噪自编码器与反向翻译模块将不同语言的嵌入表示约束在同一空间，并利用单一语言对话映射与跨语言对话映射方法来学习并共享不同语言对话的共性特征；训练算法包括一个基于多目标优化算法的多任务学习框架及其相应的梯度更新方式：通过对偶问题平衡多语言表示对齐任务与多语言对话映射任务，获得两个任务目标的权重系数，并对于回传的梯度进行加权，使得模型能够收敛到更好的结果；输入包括不同语言的对话问询；输出包括对话系统生成的各个问询所对应的回复。

Description

一种基于多语言建模的低资源对话生成方法及系统

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于多语言建模的低资源对话生成方法及系统。

背景技术

人机对话系统一直以来是人工智能与自然语言处理领域的长期目标。从最早的图灵测试，到如今业界例如Apple Siri,Microsoft XiaoIce和Alime助手等对话产品的应用，对话系统在学术界和工业界有着非常广泛的研究与应用价值。从方法上来说，对话系统可分为两大类：生成式对话模型，即系统根据用户输入的对话问询，通过条件语言模型生成对应的回复；检索式对话模型，即系统通过匹配当前对话上下文与预先构建好的回复集合，从中检索出最合适的语句作为当前的回复。

现有的生成式对话系统，大多是基于序列到序列的文本生成技术，首先通过文本编码器理解用户输入的对话问询，并由此通过解码器生成对应的回复。不过，目前的人机对话系统方法，往往仅局限于单一语言，即模型的训练语料与测试场景，均由同一种语言的对话问询与回复对组成。因为深度模型的训练往往需要大规模的训练语料，这种单一语言数据的限制，往往使得这类方法在缺乏对话语料的低资源语言场景下(例如小语种、低频对话场景等)，难以取得预期的效果。

因此，突破现有的基于单一语言的对话生成方法，对于低资源语言场景下对话系统的构建与应用具有重要意义，而对于该问题的研究，在前人的工作鲜被涉及。所以一种有效的低资源对话生成方法与系统，是目前亟待解决的一个需求。

发明内容

本发明的目的是提供一种基于多语言建模的低资源对话生成方法及系统，通过建模不同语言之间的关联，实现利用高资源语言的对话语料来辅助构建低资源语言的对话系统，并提升最终对话回复模型的效果。

为实现上述目的，本发明采用以下技术方案：

一种基于多语言建模的低资源对话生成方法，包括以下步骤：

构建编码器和解码器，该解码器包括表示对齐解码器和对话映射解码器，二者共享所述编码器，表示对齐解码器包括降噪自编码器和反向翻译模块，对话映射解码器包括单语言对话映射模块和跨语言对话映射模块；

构建多语言的对话样本训练数据，该对话样本包括自然语言的对话问询-回复语句，输入到编码器，编码器通过词向量嵌入将输入的对话样本编码为对应的词向量，然后利用自注意力机制构建词与词之间的语义关联，得到对话样本的向量表示，输入到表示对齐解码器和对话映射解码器；

表示对齐解码器利用降噪自编码器对输入的单一语言的对话样本的向量表示加入噪声进行扰动，再重构对话样本，根据输入的对话样本和重建的对话样本计算重构损失；利用反向翻译软件将输入的一源语言的对话样本的向量表示翻译为目标语言，再由目标语言翻译回源语言的对话样本，根据输入的源语言和翻译的源语言的对话样本计算翻译损失；

对话映射解码器利用单语言对话映射模块对输入的对话样本的对话问询语句进行处理，生成相同语言的对话回复语句，根据原对话回复语句和生成的对话回复语句计算单语言映射损失；对于多种语言的对话样本，通过多任务学习方法进行交替学习训练，共享同一套编解码参数；将一种语言对话问询语句经对齐解码器翻译成其他语言的对话问询语句，利用跨语言对话映射模对翻译的对话问询语句进行处理生成跨语言对话回复语句，根据原对话回复语句和生成的跨语言对话回复语句计算跨语言映射损失；

将重构损失与翻译损失相加得到表示对齐损失，通过单语言映射损失与跨语言映射损失相加得到对话映射损失；对解码器进行训练，通过优化表示对齐解码器和对话映射解码器的参数，使得表示对齐损失与对话映射损失的整体损失最小，得到训练好的解码器；

将待处理的多语言的对话问询语句输入到编码器，生成对话问询语句的向量表示并输入到训练好的解码器中进行处理，生成指定语言的对话回复语句。

进一步地，编码器为基于自注意力机制的Transformer模型。

进一步地，在对解码器进行训练时，通过计算词粒度的交叉熵损失函数进行梯度更新。

进一步地，跨语言对话映射模块通过输入回复的开始符来指定生成的目标语言。

进一步地，降噪自编码器通过噪声函数进行扰动，噪声函数通过随机交换相邻词或者随机掩码的方法来实现。

进一步地，通过梯度反向传播更新表示对齐解码器，将不同语言的语句向量表示对齐到同一向量空间。

进一步地，对解码器进行训练时，通过求解原多目标问题KKT条件的对偶问题，得到对齐表示损失函数和对话映射损失函数的权重系数，用来对回传梯度进行加权，更新解码器参数，实现训练。

进一步地，对解码器进行训练时，采用基于对话样本数目的多项式分布批采样方法，通过超参数来增加低资源语言数据的采样权重，并降低高资源语言数据的采样权重，实现不同种语言数据的平衡。

一种基于多语言建模的低资源对话生成系统，包括编码器和解码器，其中解码器包括表示对齐解码器和对话映射解码器，表示对齐解码器与对话映射解码器共享所述编码器；

编码器用于通过词向量嵌入方法将输入的自然语言的对话文本编码为对应的词向量，然后利用自注意力机制构建词与词之间的语义关联，得到对话文本的向量表示；

表示对齐解码器用于处理所述对话文本的向量表示，将向量表示对齐到同一向量空间；该表示对齐解码器包括降噪自编码器和反向翻译模块，其中降噪自编码器用于将输入的单一语言的对话文本的向量表示加入噪声进行扰动，再重构对话样本，通过降低重构损失学习编解码；反向翻译模块用于将输入的一源语言的对话文本的向量表示翻译为目标语言，再由目标语言翻译回源语言的对话样本，根据输入的源语言和翻译的源语言的对话样本计算翻译损失；

对话映射解码器，包括单语言对话映射模块和跨语言对话映射模块，其中单语言对话映射模块用于对输入的对话样本的对话问询语句进行处理，生成相同语言的对话回复语句，根据原对话回复语句和生成的对话回复语句计算单语言映射损失；对于多种语言的对话样本，通过多任务学习方法进行交替学习训练，共享同一套编解码参数；将一种语言对话问询语句经对齐解码器翻译成其他语言的对话问询语句，利用跨语言对话映射模对翻译的对话问询语句进行处理生成跨语言对话回复语句，根据原对话回复语句和生成的跨语言对话回复语句计算跨语言映射损失；

其中，将重构损失与翻译损失相加得到表示对齐损失，通过单语言映射损失与跨语言映射损失相加得到对话映射损失；对解码器进行训练，通过优化表示对齐解码器和对话映射解码器的参数，使得表示对齐损失与对话映射损失的整体损失最小，得到训练好的解码器；将待处理的多语言的对话问询语句输入到编码器，生成对话问询语句的向量表示并输入到训练好的解码器中进行处理，生成指定语言的对话回复语句。

本发明对于不同语言的对话问询进行编码，通过降噪自编码器与反向翻译模块将不同语言的嵌入表示约束在同一空间，并利用单一语言对话映射与跨语言对话映射方法来学习并共享不同语言对话的共性特征；训练算法包括一个基于多目标优化算法的多任务学习框架及其相应的梯度更新方式：通过对偶问题平衡多语言表示对齐任务与多语言对话映射任务，获得两个任务目标的权重系数，并对于回传的梯度进行加权，使得模型能够收敛到更好的结果；输入包括不同语言的对话问询；输出包括对话系统生成的各个问询所对应的回复。本申请提高了低资源语言对话回复生成模型的效果。

附图说明

图1为多语言对话生成结果示例图；

图2为本发明提出的一种基于多语言建模的低资源对话生成系统示意图；

图3为本发明提出的表示对齐解码器与对话映射解码器处理数据的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面通过实施例将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述。

示例性的，图1为多语言对话系统中闲聊式对话记录的示意图。构建基于深度学习的对话系统，需要众多成对的对话问询到回复的训练语料，而这在一些低资源语言的场景下往往是难以满足的。为此，本发明构建基于多语言建模的低资源对话生成系统，以此通过高资源语言的对话数据来辅助实现低资源语言场景下的对话生成。为此，需要考虑不同语言的差异，并在多语言场景下建模对话问询到回复的映射问题。

在本发明所研究的多语言对话生成任务场景下，每个语言的对话数据均由对话问询-回复的语料组成，不同语言之间的数据并不互相匹配。为了构建目标语言t的对话模型，本系统会通过辅助语言a的数据进行增强：表示目标语言的对话数据，表示辅助语言的对话数据，其中Q表示对话问询语句，R表示对话回复语句，t表示目标语言，a表示辅助语言，i表示第i个训练语料对，N表示训练集大小。

图2为本发明所提出的基于多语言建模的低资源对话生成系统。模型依照序列到序列的文本生成模型架构，由一个共享的编码器与两个独立的解码器组成，其中表示对齐解码器用于执行多语言文本表示对齐任务，对话映射解码器用于执行多语言对话映射任务。为了能够处理不同语言的文本，并在不同语言之间实现特征的共享与迁移，本发明通过表示对齐解码器下的降噪自编码器与反向翻译模块保证了不同种语言文本表示的一致性。为了在不同语言之间共享对话映射的共通特征，本发明基于参数共享的方式，通过对话映射解码器下的单语言对话映射模块与跨语言对话映射模块来学习多语言的对话问询到回复的映射过程。在训练过程中，为了缓解直接优化上述两个解码器带来的参数冲突问题，本发明提出了一种基于解耦的多目标训练算法，以此动态地平衡两个解码器的权重，并使得系统模型能够收敛到更好的结果。

以下将分别针对本系统中的编码器、表示对齐解码器、对话映射解码器以及基于解耦的多目标训练算法的具体细节进行介绍。

编码器：

编码器是由表示对齐解码器和对话映射解码器这两个单独的解码器所共享，是用来将输入的自然语言形式的对话问询语句编码为连续的特征向量。具体而言，本发明采用基于自注意力机制的Transformer模型作为编码器，对于输入的l语言的对话问询Q＝(q₁,q₂,…,q_m)，编码器会首先将其中的每个词映射到词向量空间，再通过自注意力机制建模词与词之间的语义关联，得到编码后的向量表示Z＝(z₁,z₂,…,z_m)，其中Q表示对话问询语句，其中每一个q表示语句中的每一个词/字，l∈{t,a}表示文本所述的语言，t(target)表示想要最终增强的目标语言(一般情况下即对应的低资源语言)，a(auxiliary)表示用于辅助构建本系统的辅助语言，m代表文本的长度，Z表示编码后的由连续向量表示的对话问询语句整体，而z表示语句中每一个词的向量表示。θ_enc表示编码器的可训练参数。

解码器：

解码器基于编码得到的向量表示Z通过链式法则生成目标文本：并在训练过程中通过计算词粒度的交叉熵损失函数进行梯度更新。如图3所示，在上述过程中，本系统针对多语言表示对齐任务与多语言对话映射任务会单独设置有各自的解码器，即表示对齐解码器和对话映射解码器，对应可训练参数/>与/>并分别用于文本翻译与对话回复生成。而不同语言之间的回复生成则享有同一套解码器参数，并通过输入回复的开始符(<bos>)来指定生成的目标语言。

表示对齐解码器：

直接通过多任务学习的方式交替训练不同语言的对话数据实际上忽略了不同语言之间的差异，并由此为后续对话知识的迁移带来困难。对此，表示对齐解码器基于降噪自编码器与反向翻译模块实现多语言表示对齐。如图3所示，降噪自编码器会将单一语言的文本通过编码器映射为连续的向量表示，并基于此通过解码器去重构原输入的文本，由此使得模型通过重构损失函数学习离散文本的编解码方法。为了增强模型编码的鲁棒性，降噪自编码器在这一过程中会对输入文本通过噪声函数C(·)进行扰动，继而学习从扰动后的文本恢复原有输入。这一过程可形式化为：

其中，表示降噪自编码器训练的损失函数(即重构损失)；E是数据符号，表示数据分布的期望；d_rep为表示对齐解码器，e表示上文中提到的两模块共享的编码器；/>表示通过降噪自编码器生成的文本，/>表示/>是从噪声文本C(u)中重构的文本，u表示从数据集D^t∪D^a中的对话问询与回复所采样获得的文本，而Δ表示对两个文本之间距离的度量。在实际应用中，噪声函数C(·)可通过随机交换相邻词或者随机掩码的方法来实现。

在多语言场景下，为了缓减不同语言之间的差异以方便后续的对话映射特征的迁移与共享，本发明进一步通过反向翻译模块将不同语言的文本表示约束到同一向量空间。具体而言，对于输入的特定语言的对话文本，反向翻译模块会首先翻译到目标语言，继而将得到的文本作为输入进行翻译任务的训练，反向翻译模块将翻译为目标语言的对话问询语句的向量表示再反向翻译回源语言，其中源语言的输入文本被作为训练目标从而计算翻译损失函数。这一过程可如下式所示：

其中，表示反向翻译模块训练的损失函数(即翻译损失)，l∈{t,a}表示u所对应的语言，l′＝{t,a}-l表示另一个语言。/>是反向翻译模块的输出结果，/>表示从u翻译得到的伪平行语料。

值得注意的是，在此过程中，解码使用的是表示对齐解码器，并且翻译的过程是即时进行的(on-the-fly)。

综合上述降噪自编码器模块与反向翻译模块，多语言表示对齐的任务目标即为：

其中，为表示对齐解码器训练的整体损失函数(即表示对齐损失)，/>与/>定义如公式(1)与公式(2)。

对话映射解码器：

为了通过高资源语言的对话数据来辅助构建低资源语言的对话生成系统，本发明在表示对齐解码器的基础上，提出了一种基于单语言对话映射模块与跨语言对话映射模块的对话映射解码器，以此在不同语言之间共享和迁移对话问询-回复的映射知识。如图3所示，单语言对话映射模块形式上同传统的单语对话生成任务类似，不过在多语言场景下，不同语言的训练数据是通过多任务学习的方式交替进行学习，并共享同一套编解码器参数。对于数据样本(Q,R)，单语言对话映射模块即想要基于输入问询Q生成目标回复R，这一过程可以形式化为：

其中，表示单语言对话映射模块训练的损失函数(即单语言映射损失)，Δ表示基于词粒度的交叉熵损失函数，而d_diag(·)表示了跨语言对话映射模块的解码器，对应训练参数/>

为了进一步增强不同语言之间对话知识的迁移，本发明在上述基于参数共享的多任务学习的单语言对话映射模块之外，提出了一种跨语言对话映射模块，以此进一步建模多个语言对话映射的相关性。具体而言，对于输入的单一语言l的对话样本(Q,R)，首先通过前述表示对齐解码器将输入对话问询翻译为其它语言，并由此构建出了跨语言的伪平行语料之后，跨语言对话映射模块会基于输入问询/>预测生成跨语言的目标回复/>这一过程可以形式化如下式：

其中，表示跨语言对话映射模块的损失函数(即跨语言映射损失)，/>表示通过模型翻译得到的另一种语言的对话问询语句(即由输入对话问询Q通过模型翻译得到)，表示通过表示对齐解码器d_rep(·)翻译得到的对话问询，而d_diag(·)同公式(4)中单语言对话映射模块一致，共享解码器参数，但是会通过指定解码器的开始符来指定生成回复的语言。

综合上述单语言对话映射模块与跨语言对话映射模块，多语言对话映射模块的任务目标即为：

其中，是多语言对话映射模块训练的整体损失函数，/>与/>定义如公式(4)与公式(5)。

解码器训练：

在模型训练过程中，直接联合优化上述表示对齐解码器与对话映射解码器只能产生次优的结果，因为共享编码器的参数会同时受到表示对齐和对话映射这两个任务的更新而由此产生冲突。为此，本发明针对所提出的系统设计了一种基于多目标优化的训练算法，即在训练过程中，引入了一种基于解耦思想的多目标优化算法，通过求解原目标Karush-Kuhn-Tucker(KKT)条件的对偶问题，可以获得由闭式二次优化问题求解得到的两个子任务目标的权重系数，并以此对于两部分梯度进行加权与梯度回传，以此对于两个子任务进行解耦，削减相互之间的影响。为了缓解不同语言样本数目的不一致而导致的训练偏差问题，本发明在训练过程中采用了一种基于样本数目的多项式分布批采样方法，以此来增加低资源语言数据的采样权重，并降低高资源语言数据的采样权重。通过控制上述分布中的超参数系数，便可以在训练过程中自由调节采样的比重。而对于多语言对话系统而言，输入与输出的对话语句可以来自不同种语言。这些多语言的对话语料，虽然以不同语言的形式呈现，但是对话的回复内容与映射逻辑在不同语言之间却是相通的。因此，可以通过建模不同语言之间的关联，实现利用高资源语言的对话语料来辅助构建低资源语言的对话系统，并提升最终对话回复模型的效果。

具体而言，如以下所示一种针对多语言对话系统的训练方法的伪代码：

通过计算原问题，即公式(3)与公式(6)的Karush-Kuhn-Tucker(KKT)条件，可以得到：

使得/>

且/>

其中，与/>表示基于多语言对齐任务计算得到的对于编码器和解码器的梯度，类似地/>与/>表示基于多语言对话映射任务计算得到的对于编码器与解码器的梯度。通过求解上述KKT条件，可以得到梯度的优化方向即为：

s.t. 0≤α≤1 (8)

其中，s.t.是数学符号，表示在后续条件(这里即0≤α≤1)的限制下。

上述问题即为一个二次优化问题，并有闭式解。由此可以在每次梯度更新前计算得到两个子任务梯度的权重系数，对于编码器梯度加权并更新模型参数，以此达到动态平衡两个子任务的效果，具体算法可参见图2。

此外，在多语言场景下，因为不同语言的训练数据是不成对的，所以会存在数量的差异，使得系统的训练会出现更倾向于特定语言的问题。因此，为了缓解由于数据规模造成的训练偏差，本发明采用了一种基于多项式分布的批采样方法。具体而言，不同于传统方法是直接对数据做均匀采样，本发明会对于不同语言的样本进行加权，并以此通过超参数λ控制不同语言样本的权重，如下式所示：

其中，t表示目标(target)语言，a表示辅助(auxiliary)语言，N^t与N^a分别表示两种语言对话数据的样本数目，而P^t与P^a则代表了采样的多项式概率。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于多语言建模的低资源对话生成方法，其特征在于，包括以下步骤：

构建编码器和解码器，该解码器包括表示对齐解码器和对话映射解码器，二者共享所述编码器，通过梯度反向传播更新表示对齐解码器，将不同语言的对话样本向量表示对齐到同一向量空间；表示对齐解码器包括降噪自编码器和反向翻译模块，对话映射解码器包括单语言对话映射模块和跨语言对话映射模块；降噪自编码器通过噪声函数进行扰动，噪声函数通过随机交换相邻词或者随机掩码的方法来实现；

表示对齐解码器利用降噪自编码器对输入的单一语言的对话样本的向量表示加入噪声进行扰动，再重构对话样本，根据输入的对话样本和重建的对话样本计算重构损失；利用反向翻译模块将输入的一源语言的对话样本的向量表示翻译为目标语言，再由目标语言翻译回源语言的对话样本，根据输入的源语言和翻译的源语言的对话样本计算翻译损失；

将重构损失与翻译损失相加得到表示对齐损失，通过单语言映射损失与跨语言映射损失相加得到对话映射损失；对解码器进行训练，通过优化表示对齐解码器和对话映射解码器的参数，使得表示对齐损失与对话映射损失的整体损失最小，得到训练好的解码器；对解码器进行训练时，通过求解原多目标问题KKT条件的对偶问题，得到对齐表示损失函数和对话映射损失函数的权重系数，用来对回传梯度进行加权，更新解码器参数，实现训练；对解码器进行训练时，采用基于对话样本数目的多项式分布批采样方法，通过超参数来增加低资源语言数据的采样权重，并降低高资源语言数据的采样权重，实现不同种语言数据的平衡；

2.如权利要求1所述的方法，其特征在于，编码器为基于自注意力机制的Transformer模型。

3.如权利要求1所述的方法，其特征在于，在对解码器进行训练时，通过计算词粒度的交叉熵损失函数进行梯度更新。

4.如权利要求1所述的方法，其特征在于，跨语言对话映射模块通过输入回复的开始符来指定生成的目标语言。

5.一种基于多语言建模的低资源对话生成系统，实现权利要求1所述的方法，其特征在于，包括编码器和解码器，其中解码器包括表示对齐解码器和对话映射解码器，表示对齐解码器与对话映射解码器共享所述编码器；