CN116932726A

CN116932726A - 一种基于可控多空间特征解耦的开放域对话生成方法

Info

Publication number: CN116932726A
Application number: CN202310977148.XA
Authority: CN
Inventors: 王烨; 廖靖波; 于洪; 黄昌豪; 杨峻杰; 卞政轩
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-10-24
Anticipated expiration: 2043-08-04
Also published as: CN116932726B

Abstract

本发明属于开放域聊天技术领域，具体涉及一种基于可控多空间特征解耦的开放域对话生成方法；M‑CVAE模型的预训练过程包括：获取问题文本序列和回复文本序列并将其嵌入到词空间中，将得到的词向量分别对应输入到输入编码器和输出编码器，得到问题文本特征表示和回复文本特征表示；将两种特征表示输入到识别网络和先验网络中进行计算，得到隐变量；采用解码器根据隐变量对参考回复进行处理，生成回复文本；将问题文本特征表示输入到分类器中，得到问题分类类别概率；预训练后进行再训练和测试，获得训练好的模型；将问题文本输入到训练好的M‑CVAE模型中，生成对应的回复文本；本发明能够生成高质量，可解释，一对多的可控对话文本。

Description

一种基于可控多空间特征解耦的开放域对话生成方法

技术领域

本发明属于开放域聊天技术领域，具体涉及一种基于可控多空间特征解耦的开放域对话生成方法。

背景技术

随着深度学习的快速崛起，对话系统也得到了迅速的发展。学术研究中将对话系统分为任务型对话系统和非任务型对话系统。任务型对话系统一般是pipeline模式的多模块模型，这种模式被广泛应用，并且具有很强的可解释性，即对话生成的过程清晰，逻辑性强。非任务型对话系统也叫开放领域对话系统，一般是端到端的生成模型。端到端模型与多模块模型相比，能够减少网络的复杂度，并且避免了多模块模型中不同模块训练目标不一致的缺陷。端到端模型一般由编码器和解码器组成，其通过编码器将对话上文编码为固定的向量，然后解码这个特征向量来生成对话下文。这样纯数据驱动训练的方法是黑盒模型，对话生成的逻辑难以让人理解，也无法让人预测生成的下文，缺乏可解释性。并且模型将文本编码为固定向量会导致相同的输入生成相同的回复，然而这种回复的单一性限制了基于开放领域的对话生成。为了解决这种单一性问题，需要增加对话生成的多样性，这也有利于提高人机交互的积极性，同时对于开放领域对话系统的发展非常重要。

对话的可解释性，多样性和可控性是对话系统中几个需要解决的关键问题。如果能够控制对话生成，可以提高生成质量。深度潜变量模型十分适合开放领域的对话系统。深度潜变量模型中最具代表性的就是变分自编码器(VAEs)和条件变分自编码器(CVAEs)。相比于变分自编码器的输入只有对话的上文，条件变分自编码器多了一个条件编码器。此外，条件变分自编码器中的条件可以是由问题，情感，语法等先验知识来做引导，可以更容易控制条件来生成指定的对话。由于缺乏外部先验知识的引导，CVAE隐空间中的所有语义杂糅在一起，并且都是隐性的，导致我们并不清楚语义具体的表征，所以仍然是一个深度学习的黑盒模型。这种耦合的特征容易造成生成过程不可解释和生成语义不准确的对话下文。为了理解杂糅隐空间的隐性语义，达到明确隐变量语义的目的，目前主流的方法就是解耦。现有的解耦方式虽明确了隐变量的语义，但是仍然存在两个问题。1)虽然解耦了隐空间，但是我们并不能控制隐变量在隐空间中采样的位置；2)CVAE倾向于在隐空间分布中心周围采样，所以很多距离较远的点并不能采样到，这导致了生成的对话文本有较多的通用回复。这两个问题正对应着对话生成中的可控性和多样性。

发明内容

针对现有技术存在的不足，本发明提出了一种基于可控多空间特征解耦的开放域对话生成方法，该方法包括：将问题文本输入到训练好的M-CVAE模型中，生成对应的回复文本；M-CVAE模型包括编码器、识别网络、先验网络、解码器、分类器和可控语义生成器；

M-CVAE模型的训练过程分为预训练阶段、训练阶段和测试阶段；其中，预训练过程具体包括：

S1：获取问题文本序列和回复文本序列并将其嵌入到词空间中，得到问题词向量和回复词向量；

S2：将问题词向量输入到输入编码器，得到问题文本特征表示；将回复词向量输入到输出编码器，得到回复文本特征表示；

S3：将问题文本特征表示和回复文本特征表示输入到识别网络以及先验网络中进行计算，得到隐变量；

S4：将隐变量作为解码器的初始隐状态并将参考回复输入到解码器中进行处理，生成回复文本；

S5：将问题文本特征表示输入到分类器中，得到问题分类类别概率；

S6：计算模型总损失并根据总损失调整模型参数，得到预训练好的M-CVAE模型。

优选的，所述输入编码器和输出编码器均为双向LSTM。

优选的，得到隐变量的过程包括：将问题文本特征表示和回复文本特征表示输入到识别网络中计算得到近似后验分布隐空间的分布参数μ和σ；从后验分布隐空间采样并使用重参数化操作，得到隐变量，表示为：

其中，z表示隐变量，ε表示随机参数。

优选的，预训练阶段的模型总损失包括生成的回复文本与参考回复文本之间的期望、近似后验分布和先验分布之间的KL散度和分类任务的交叉熵损失三部分。

优选的，M-CVAE模型在训练阶段的训练过程中，固定预训练阶段的编码器和分类器的参数；根据分类器输出的问题的各分类类别概率和各类别的语义向量计算加权类别语义向量；拼接加权类别语义向量和参考回复，将拼接结果作为解码器的输入。

优选的，M-CVAE模型在训练阶段的模型总损失包括近似后验分布和先验分布之间的KL散度和分类任务的交叉熵损失两部分。

优选的，M-CVAE模型在测试阶段中，将问题文本特征表示输入到识别网络中计算得到先验分布隐空间的分布参数μ′和σ′；从先验分布隐空间采样并使用重参数化操作，得到隐变量。

优选的，M-CVAE模型在测试阶段中，解码器下一步的输入为上一步的解码结果。

本发明的有益效果为：本发明提出的一种基于可控多空间特征解耦的开放域对话生成方法设计了M-CVAE模型。M-CVAE通过为每个类别的对话构造单独的隐空间来解决这些问题。首先通过构造多隐空间，变相的解耦了隐空间，明确了隐变量的语义，从而增强了文本生成的可解释性。同时选择不同的隐空间能生成不同类别的一对多文本。最后，本发明引入了加权语义变量来控制文本生成；本发明能够生成高质量，可解释，一对多的可控对话文本。

附图说明

图1为本发明中M-CVAE模型结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于可控多空间特征解耦的开放域对话生成方法，如图1所示，所述方法包括以下内容：

本发明设计的模型是基于条件变分自编码器的，名字叫做M-CVAE。该模型基本思想是为每个类别的对话数据构造对于的隐空间和解码器。这样可以避免多个类别的数据映射到一个杂糅的隐空间中，同时也达到了解耦的效果。而通过隐空间的选择，可以得到对应类别的隐变量，从而实现隐变量采样的可控性。最后通过分类器的权重来加权语义向量，这个语义向量不仅是对单一隐空间信息的补充，同时也是一个控制变量，可以控制文本的生成。

M-CVAE模型包括编码器、识别网络、先验网络、解码器、分类器和可控语义生成器六个模块。其中编码器分为输入编码器Enc_in(·)，输出编码器Enc_out(·)。每一个类别的隐空间都有对应的识别网络RecogNetq_φ(z|X，C)，先验网络和解码器Dec(·)。分类器Clf(·)用于选择隐空间和生成可控语义向量的权重。可控语义生成器Control(·)用于加权语义向量，从而生成可控语义向量。数据集中的输入分为问题文本序列C＝{C₁，C₂，…，C_n}和回复文本序列X＝{X₁，X₂，…，X_n}。e(W)定义为将词w嵌入到语义向量空间。文本序列都需要先进行词嵌入操作，然后再作为编码器Enc(·)的输入。模型分为预训练，训练和测试三个部分。预训练用于预训练编码器和分类器。训练则是训练各个类别的隐空间和解码器。测试则是模型在测试集的生成过程。

虽然要为每个类别的对话数据生成不同的隐空间和解码器，但是编码器却是所有隐空间共用的。同时最后需要使用分类器来选择隐空间。所以编码器和分类器需要在预训练阶段训练好。在训练阶段需要固定编码器和分类器的参数。

预训练阶段：

S1：获取问题文本序列和回复文本序列并将其嵌入到词空间中，得到问题词向量和回复词向量。

在预训练阶段，本发明是在传统CVAE模型上加了一个分类任务。首先使用e(W)将问题文本序列和回复文本序列嵌入到词空间中，得到问题词向量和回复词向量；表示为e(C)＝{e(C₁)，e(C₂)，…，e(C_n)}和e(X)＝{e(X₁)，e(X2)，…，e(X_n)}。

S2：将问题词向量输入到输入编码器，得到问题文本特征表示h_c；将回复词向量输入到输出编码器，得到回复文本特征表示h_x。

h_ci，c_ci＝Enc_ci(e(C_i)，(h_ci-，c_ci-)) (1)

h_xi，c_xi＝Enc_out(e(X_i)，(h_xi-1，c_xi-1)) (2)

其中，C_i表示问题文本中第i个词，h_ci-1和c_ci-1分别表示输入编码器第i-1步的隐状态和细胞状态，作为第i步编码的输入。

优选的，输入编码器和输出编码器均为双向LSTM(长短期记忆递归神经网络)。

S3：将问题文本特征表示和回复文本特征表示输入到识别网络以及先验网络中进行计算，得到隐变量。

在CVAE中并不是直接使用编码器的输出来解码，而是将编码后的文本特征信息通过识别网络RecogNetq_φ(z|X，C)和先验网络映射为隐空间的分布参数，然后从隐空间分布中采样隐变量来作为解码器的初始输入。如公式(3)所示，Enc_in(·)的输出h_c和Enc_out(·)的输出h_x作为RecogNetq_φ(z|X，C)的输入，计算得到近似后验分布隐空间的分布参数μ和σ；如公式(4)所示，Enc_in(·)的输出h_c作为/>的输入，计算得到先验分布隐空间的分布参数μ′和σ′。

μ，σ＝RecogNetq_φ(z|X,C)(h_c，h_x) (3)

近似后验分布q_φ(z|X，C)和先验分布p_θ(X|z，C)都是多维高斯分布，即和/>在训练的时候隐变量从近似后验分布中采样，而测试的时候，由于没有回复文本，所以从先验分布中采样隐变量。但是隐变量的采样过程不可导，所以会导致反向传播失败。为了解决这个问题，在采样的过程中使用了重参数化的技巧，如公式(5)所示，重参数化之后，可以求导，从而成功反向传播，进而优化参数。

其中，z表示隐变量，ε表示随机参数，其从标准正态分布中随机采样得到。

S4：将隐变量作为解码器的初始隐状态并将参考回复输入到解码器中进行处理，生成回复文本。

采样的隐变量z将作为解码的的初始隐状态，解码器第一步的输入是start ofsentence令牌<SOS>和隐变量z，中间每一步输入是参考回复的单词和上一步输出的隐藏状态，如公式(6)所示；然后将解码器的每一步输出output_i通过MLP映射到词表空间中，然后softMax选出概率最大的词作为生成文本，如公式(7)所示；拼接所有解码得到的单词，得到回复文本。

output_i(h_i，c_i)＝Dec(e(X_i-1)，(h_i-1，c_i-1)) (6)

其中，output_i表示解码器第i步的输出，表示解码器第i步生成的单词。

S5：将问题文本特征表示输入到分类器中，得到问题分类类别概率。

本发明在预训练阶段还需要预训练好分类器Clf(·)，分类器是一个多层感知机。选择输入编码器的输出h_c作为分类器的输入，因为分类器最终是在测试的时候使用，而测试是没有参考回复文本的，所以分类器主要是分类上文问题文本C。这里本发明也没有选择隐变量z作为分类器的输入，是因为在训练的时候本发明会为每一个类别的对话数据构造不同的隐空间，所以为了保证分类器的通用性，选择所有隐空间公用的输入编码器的输出即问题文本特征表示作为分类器的输入。分类器计算方法如公式(8)(9)所示，其中P(E)表示问题文本被分类到各个类别的概率，这个概率也将作为加权类别语义向量的权重。

P(E)＝Clf(h_c) (8)

Clf(h_c)＝Softmax(MLP(h_c)) (9)

S6：计算模型总损失并根据总损失调整参数，得到预训练好的M-CVAE模型。

为了优化模型，本发明的目标是最大化条件概率分布P(X|C)。在隐变量模型中，引入了隐变量z，条件概率分布分解为P(X|C)＝∫_zP(z|C)P(X|z，C)dz。但是这样的积分难于求解，为此引入了近似后验分布q_φ(z|X，C)，通过变分推断的方法将积分分解为最大证据下界(ELBO)近似解。所以可以通过优化ELBO来近似优化本发明的模型，如公式(10)所示。其中第一项为生成文本与参考回复文本之间的期望；第二项为近似后验分布和先验分布之间的KL散度，通过最小化KL值可以逼近两个分布之间的距离，达到测试的时候使用先验分布来代替近似后验分布的目的。

分类任务使用的交叉熵损失，如公式(11)所示，其中label为真实类别。

通过最小化交叉熵来优化分类任务的参数。

综上所述，模型的整体优化损失(模型总损失)为分类损失加上期望和KL距离，如公式(12)所示。其中，β为权重，避免KL塌陷问题。

训练阶段：

训练阶段首先固定两个编码器和分类器的参数，然后为每个类别的对话数据构造不同的隐空间和解码器。

和Dec_i(·)分别表示第i个类别的识别网络，先验网络和解码器。训练过程中，每批训练数据只通过对应的隐空间和解码器，不会优化其他的隐空间和解码器。同时解码的过程与预训练阶段不同，预训练阶段解码器的输入为隐变量z和参考回复X。在训练阶段本发明加入了加权类别语义向量，可控语义生成器根据分类器输出的问题的各分类类别概率和各类别的语义向量计算加权类别语义向量，如公式(13)所示。

其中，label_i表示第i个类别，e(label_i)表示第i个类别的语义向量，P(E_i)表示对话被分类为第i类的归一化概率，S表示加权类别语义向量。

加权类别语义向量也将作为解码器的输入，将S与参考回复X_i拼接，并通过多层感知机映射为解码器输入的维度，如公式(14)所示，其中Input_i表示解码器的输入，[：]表示拼接操作。

Input_i＝MLP([e(X_i)：S]) (14)

训练阶段的损失函数只有期望和KL散度，KL散度为每个类别的近似后验分布q_iφ(z|X，C)和先验分布的KL距离，如公式(15)所示。

测试阶段：

测试阶段与训练阶段有两个不同的地方。首先，在测试阶段，由于不能使用参考回复，所以不能从近似后验分布中采样隐变量，需要从先验分布中采样隐变量，即最后解码的时候，输入不再是参考回复。解码器第一步解码输入为开始令牌<SOS>，然后上一步的解码结果/>作为下一步解码的输入，如公式(16)、(17)、(18)所示。直到解码出的文本为End of sentence的令牌<EOS>或达到预设置的最大解码长度。

output_i(h_i，c_i)＝Dec(Input_i，(h_i-1，c_i-1)) (17)

通过对M-CVAE模型的训练，保存最优参数的模型即训练好的M-CVAE模型；将问题文本输入到训练好的M-CVAE模型中，可生成对应的回复文本。

本发明设计的M-CVAE模型将不同类别的对话编码到不同的隐空间中，使得不同类别的对话在隐空间中完全解耦开来，没有模糊的数据点。同时由于构造了多个隐空间，可以直接控制隐空间的选择，来达到控制对话文本在不同类别的隐空间中采样的效果，从而增强对话生成的可解释性。隐空间的可控性是以前的解耦方法所不能达到的，也就是说以前的工作只是解耦了隐空间，但是无法控制它的采样位置。通过相关实验，其结果表明本发明能够生成高质量，可解释，一对多的可控对话文本。

综上所述，本发明提出了多隐空间和多解码器的条件变分自编码器来解决文本生成的一对多，可解释性和可控性问题。首先，通过选择对应的隐空间可以生成更准确的隐变量。其次，通过改变隐空间的选择，可以控制隐变量的采样，从而生成可控文本。但是这样的隐空间只包含了单一类别语义的信息。为了补充丰富的语义信息，提出了可控语义向量来丰富特征表达。这个可控语义变量是使用分类器的权重与各个类别语义向量加权求和，它不仅丰富了隐变量的语义信息，同时可以通过控制权重来控制文本的生成。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于可控多空间特征解耦的开放域对话生成方法，其特征在于，包括：将问题文本输入到训练好的M-CVAE模型中，生成对应的回复文本；M-CVAE模型包括编码器、识别网络、先验网络、解码器、分类器和可控语义生成器；

2.根据权利要求1所述的一种基于可控多空间特征解耦的开放域对话生成方法，其特征在于，所述输入编码器和输出编码器均为双向LSTM。

3.根据权利要求1所述的一种基于可控多空间特征解耦的开放域对话生成方法，其特征在于，得到隐变量的过程包括：将问题文本特征表示和回复文本特征表示输入到识别网络中计算得到近似后验分布隐空间的分布参数μ和σ；从后验分布隐空间采样并使用重参数化操作，得到隐变量，表示为：

其中，z表示隐变量，ε表示随机参数。

4.根据权利要求1所述的一种基于可控多空间特征解耦的开放域对话生成方法，其特征在于，预训练阶段的模型总损失包括生成的回复文本与参考回复文本之间的期望、近似后验分布和先验分布之间的KL散度和分类任务的交叉熵损失三部分。

5.根据权利要求1所述的一种基于可控多空间特征解耦的开放域对话生成方法，其特征在于，M-CVAE模型在训练阶段的训练过程中，固定预训练阶段的编码器和分类器的参数；根据分类器输出的问题的各分类类别概率和各类别的语义向量计算加权类别语义向量；拼接加权类别语义向量和参考回复，将拼接结果作为解码器的输入。

6.根据权利要求1所述的一种基于可控多空间特征解耦的开放域对话生成方法，其特征在于，M-CVAE模型在训练阶段的模型总损失包括近似后验分布和先验分布之间的KL散度和分类任务的交叉熵损失两部分。

7.根据权利要求1所述的一种基于可控多空间特征解耦的开放域对话生成方法，其特征在于，M-CVAE模型在测试阶段中，将问题文本特征表示输入到识别网络中计算得到先验分布隐空间的分布参数μ′和σ′；从先验分布隐空间采样并使用重参数化操作，得到隐变量。

8.根据权利要求1所述的一种基于可控多空间特征解耦的开放域对话生成方法，其特征在于，M-CVAE模型在测试阶段中，解码器下一步的输入为上一步的解码结果。