CN118153584A

CN118153584A - 基于对比隐变量和风格前缀的混合对话方法

Info

Publication number: CN118153584A
Application number: CN202211563725.2A
Authority: CN
Inventors: 邱锡鹏; 李世民; 周雅倩
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2024-06-07

Abstract

本发明提供了一种基于对比隐变量和风格前缀的混合对话方法，具有这样的特征，以变分编解码器VED作为基础架构，以编码器‑解码器架构的预训练模型T5作为主干模型，构建得到混合对话模型Hy‑Dialog，包括：根据训练数据中的所有历史用户输入和历史系统回复基于整体训练损失训练混合对话模型Hy‑Dialog；将多轮对话中用户的所有历史用户输入和混合对话模型Hy‑Dialog的的所有历史系统回复，输入训练完成的混合对话模型Hy‑Dialog中，获得系统回复。总之，本方法在有无显式文本风格标签的情况下都能够很好地进行不同风格的回复生成。

Description

基于对比隐变量和风格前缀的混合对话方法

技术领域

本发明涉及深度学习与自然语言处理，具体涉及一种基于对比隐变量和风格前缀的混合对话方法。

背景技术

现有的对话系统根据其用途被显著地区分为任务导向型对话系统(TOD)和开放域对话系统(ODD)。任务导向型对话系统用于成功地完成用户的特定目标和指令。开放域对话系统则与用户进行任意主题的开放式闲聊。为了更好地完成特定的对话任务，不同对话系统在回复的文本风格上也有所区别，任务导向型对话系统使用精炼的话语以期望精准和正确的完成用户任务，而开放式对话系统则生成更加多样的文本回复来提高用户参与度和趣味度。

随着对话系统的发展以及预训练模型在下游任务上表现出的良好可迁移性和泛化性，不同功能的对话系统之间出现了逐步融合的趋势，也出现了一些融合不同对话任务的数据集。现有的混合对话系统通过多任务的方式或构造统一数据模式来学习不同的对话任务。然而，这些混合对话系统忽略了任务导向型对话回复与开放域对话回复在文本风格上的显著不一致现象，导致混合对话系统中的不同对话任务发生负迁移现象，即使编码器端可以很好地识别两种对话的类型，但解码器在生成阶段仍无法灵活地生成特定风格的话语。现有的混合对话系统中任务型对话的风格识别准确率很高，但任务成功率下降且开放域对话出现低信息量的通用回复。此外，部分数据集并未提供显式的文本风格标签或相关的指示信息，使得对混合对话系统中文本风格的建模更加困难。

发明内容

本发明是为了解决上述问题而进行的，目的在于提供一种基于对比隐变量和风格前缀的混合对话方法。

本发明提供了一种基于对比隐变量和风格前缀的混合对话方法，具有这样的特征，以变分编解码器VED作为基础架构，以编码器-解码器架构的预训练模型T5作为主干模型，构建得到混合对话模型Hy-Dialog，将多轮对话中用户的所有历史用户输入和混合对话模型Hy-Dialog的的所有历史系统回复，输入混合对话模型Hy-Dialog生成对该用户的本轮对话的系统回复，包括以下步骤：步骤S1：混合对话模型Hy-Dialog对训练数据中的所有历史用户输入和历史系统回复进行拼接，得到历史轮对话C_t；步骤S2：根据历史轮对话C_t，基于混合对话模型Hy-Dialog中的生成式预训练模型，得到由槽位-槽值对构成的本轮对话的信仰状态B_t；步骤S3：根据信仰状态B_t的槽位-槽值对的信息，检索含有槽位-槽值对及其对应的其他属性信息的数据库，得到信仰状态B_t对应的属性信息作为检索结果D_t；步骤S4：将历史轮对话C_t、信仰状态B_t和检索结果D_t进行拼接，基于生成式预训练模型，得到决策行为A_t；步骤S5：将历史轮对话C_t、信仰状态B_t、检索结果D_t和决策行为A_t进行聚合，得到对话信息序列Dial-INFO；步骤S6：根据预训练模型T5的编码器，对对话信息序列Dial-INFO进行编码，得到句子表征h；步骤S7：根据句子表征h，基于映射函数得到分布p_θ(z|h)，对分布p_θ(z|h)采样得到隐变量z；步骤S8：根据隐变量z，基于生成式预训练模型，得到根据句子表征h和隐变量z生成回复R^s的概率分布p_θ(R^s|h,z)；步骤S9：根据隐变量z、回复R^s和句子表征h，计算得到优化先验分布和后验分布q_φ(z|h,R^s)之间的KL散度的和生成回复的最大似然估计步骤S10：根据是否存在文本风格标签信息，由显式文本风格标签信息或后验分布q_φ(z|h,R^s)构造三元组(z_a,z_p,z_n)，根据三元组(z_a,z_p,z_n)计算得到对比损失/>步骤S11：根据优化先验分布和后验分布之间的KL散度的/>生成回复的最大似然估计/>和对比损失/>计算得到整体训练损失/>整体训练损失/>收敛，则混合对话模型Hy-Dialog训练完成；步骤S12：将多轮对话中用户的所有历史用户输入和混合对话模型Hy-Dialog的的所有历史系统回复，输入训练完成的混合对话模型Hy-Dialog中，得到句子表征h’和隐变量z’；步骤S13：对句子表征h’和隐变量z’进行拼接，得到注意力计算的注意力头的键K和值V；步骤S14：对注意力头的键K和值V，分别拼接可训练向量P^K和P^V，计算多头注意力MultiHeadAtten；步骤S15：根据句子表征h’、隐变量z’和之前预训练模型T5的解码器生成的所有隐状态/>得到第j个隐状态/>步骤S16：根据第j个隐状态/>基于Softmax函数，生成第j个词元r_j，根据本轮对话中生成的所有词元，获得系统回复/>

在本发明提供的基于对比隐变量和风格前缀的混合对话方法中，还可以具有这样的特征：其中，在步骤S7中，分布p_θ(z|h)的公式为：式中μ(h)为句子表征h的均值，σ(h)为句子表征h的协方差，/>为均值为μ协方差为σ的正态分布且由两个结构相同但变分参数为θ1和θ2的多层前馈网络获得，θ为两个变分参数θ1和θ2的和。

在本发明提供的基于对比隐变量和风格前缀的混合对话方法中，还可以具有这样的特征：其中，在步骤S9中，计算优化先验分布和后验分布之间的KL散度的和生成回复的最大似然估计/>的公式为：/>式中p_θ(R^s|h)为根据句子表征h生成回复R^s的概率分布，KL[]为计算KL散度的函数，/>表示期望。

在本发明提供的基于对比隐变量和风格前缀的混合对话方法中，还可以具有这样的特征：其中，在步骤S10中，根据显示文本风格标签信息对三元组(z_a,z_p,z_n)进行如下操作：若存在显式文本风格标签信息，则根据显式文本风格标签信息构造三元组(z_a,z_p,z_n)，z_a为充当锚点的隐变量，z_p为与锚点文本风格相同的正例隐变量，z_n为文本风格不同的负例隐变量，若不存在显式文本风格标签信息，则对后验分布q_φ(z|H,R^s)进行两次重参数化采样，得到采样结果z和z_a为充当锚点的隐变量，z_p为与锚点在批量/>中索引位置相同的正例隐变量，z_n为与锚点在批量/>中索引位置不同的负例隐变量，从而构造三元组(z_a,z_p,z_n)。

在本发明提供的基于对比隐变量和风格前缀的混合对话方法中，还可以具有这样的特征：其中，在步骤S10中，对比损失的计算公式为：/>dis＝d(z_a,z_p)-d(z_a,z_n)，/>式中|triplet|为一个批量数据中所有的三元组个数，max()函数为取最大值的函数，λ为控制隐变量相对距离的参数，d()函数为衡量两个隐变量之间余弦距离的函数。

在本发明提供的基于对比隐变量和风格前缀的混合对话方法中，还可以具有这样的特征：其中，在步骤S14中，计算多头注意力MultiHeadAtten的公式为： MultiHeadAtten(Q,K,V)＝Concat(head₁,…,head_n)W^O，式中head_i为第i个注意力头，Attention()为注意力计算函数，Q为查询向量，即上一层网络的输出，/>为第i个注意力头的可训练的参数矩阵，/>为第i个注意力头的键的可训练向量，/>为第i个注意力头的键的可训练权重矩阵，/>为第i个注意力头的值的可训练向量，/>为第i个注意力头的值的可训练权重矩阵，Concat()为合并函数，head_n为第n个注意力头，W^O为可训练权重矩阵。

在本发明提供的基于对比隐变量和风格前缀的混合对话方法中，还可以具有这样的特征：其中，在步骤S16中，生成词元的公式为：式中r_j-1为第j-1个词元，W_d为将隐状态/>映射为词典分布的参数矩阵。

发明的作用与效果

根据本发明所涉及的基于对比隐变量和风格前缀的混合对话方法，因为根据文本风格标签信息或后验分布q_φ(z|H,R^s)得到三元组(z_a,z_p,z_n)，根据三元组(z_a,z_p,z_n)计算对比损失从而对表示不同文本风格的隐变量，在保留主题和领域一致性的基础上进行一定的区分，根据区分后的隐变量和可训练向量P^K和P^V，基于多头注意力机制生成对话文本，所以可以灵活地生成特定风格的文本，本发明的基于对比隐变量和风格前缀的混合对话方法在有显式文本风格标签或无显式文本风格标签的情况下都能够很好地进行不同风格的回复生成。

附图说明

图1是本发明的实施例中混合对话模型Hy-Dialog总体框架的示意图；

图2是本发明的实施例中基于对比隐变量和风格前缀的混合对话方法的流程示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下实施例结合附图对本发明基于对比隐变量和风格前缀的混合对话方法作具体阐述。

以变分编解码器VED作为基础架构，以编码器-解码器架构的预训练模型T5作为主干模型，构建得到混合对话模型Hy-Dialog。

图1是本发明的实施例中混合对话模型Hy-Dialog总体框架的示意图。

如图1所示，混合对话模型Hy-Dialog将批量中的对话输入，即话语1、话语2、话语3、话语4、话语5、话语6等，经由预训练模型T5的编码器编码得到对应的编码器隐状态，通过将编码器隐状态映射在隐空间中，从而计算KL散度和采样得到对应话语的风格隐变量z₁、z₂、z₃、z₃、z₄、z₅、z₆等，通过隐变量对比学习即计算对比损失，使不同风格的隐变量间距离增大，再将隐变量和隐状态输入由L层Transformer模块堆叠而成的预训练模型T5的解码器，经由风格前缀自注意力操作、层归一化操作得到查询向量Q，根据句子表征h和隐变量z拼接得到注意力头的键K和值V，对注意力头的键K和值V、查询向量Q、注意力头的可训练的参数矩阵W_q、注意力头的键的可训练权重矩阵W_k、注意力头的值的可训练权重矩阵W_v、注意力头的键的可训练向量P_k和注意力头的值的可训练向量P_v进行Attention操作，即计算多头注意力，从而实现风格前缀的跨注意力，再经由层归一化操作、线性层操作和层归一化操作，通过L层Transformer模块的处理，从而生成不同风格的回复，即回复1、回复2、回复3、回复4、回复5和回复6等，通过不同风格的回复可以计算得到生成损失用于训练混合对话模型Hy-Dialog。

如图2所示，本发明的实施例中基于对比隐变量和风格前缀的混合对话方法，当一个用户与混合对话模型Hy-Dialog进行多轮对话时，将本次多轮对话中该用户的所有历史用户输入和混合对话模型Hy-Dialog的所有历史系统回复，输入混合对话模型Hy-Dialog生成对该用户的本轮对话的系统回复，包括以下步骤：

步骤S1：混合对话模型Hy-Dialog对训练数据中的所有历史用户输入和历史系统回复进行拼接，得到历史轮对话C_t，

其中，历史轮对话式中U₀为第0轮对话的用户输入，/>为第0轮对话的系统回复，/>为第t-1轮对话的系统回复，U_t为第t轮对话即本轮对话的用户输入。

训练数据中包括多个用户的多组历史用户输入和对应的历史系统回复，历史用户输入为本轮对话的用户输入和本轮对话之前的所有用户输入，历史系统回复为本轮对话之前的所有系统回复。

步骤S2：根据历史轮对话C_t，基于混合对话模型Hy-Dialog中的生成式预训练模型，得到由槽位-槽值对构成的本轮对话的信仰状态B_t。

步骤S3：根据信仰状态B_t的槽位-槽值对的信息，检索含有槽位-槽值对及其对应的其他属性信息的数据库，得到信仰状态B_t对应的属性信息作为检索结果D_t，本实施例中使用的数据库的数据来源于MultiWOZ数据集。

步骤S4：将历史轮对话C_t、信仰状态B_t和检索结果D_t进行拼接，基于生成式预训练模型，得到决策行为A_t。

步骤S5：将历史轮对话C_t、信仰状态B_t、检索结果D_t和决策行为A_t进行聚合，得到对话信息序列Dial-INFO，Dial-INFO＝[C_t,B_t,D_t,A_t]。

步骤S6：根据预训练模型T5的编码器，对对话信息序列Dial-INFO进行编码，得到句子表征h。

步骤S7：根据句子表征h，基于映射函数得到分布p_θ(z|h)，对分布p_θ(z|h)采样得到隐变量z，隐变量z由分布p_θ(z|h)所定义的因空间中采样获得。

其中，分布p_θ(z|h)的公式为：

式中μ(h)为句子表征h的均值，σ(h)为句子表征h的协方差，为均值为μ协方差为σ的正态分布且由两个结构相同但变分参数为θ1和θ2的多层前馈网络获得，θ为两个变分参数θ1和θ2的和。

步骤S8：根据隐变量z，基于生成式预训练模型，得到根据句子表征h和隐变量z生成回复R^s的概率分布p_θ(R^s|h,z)。

步骤S9：根据隐变量z、回复R^s和句子表征h，计算得到优化先验分布和后验分布q_φ(z|h,R^s)之间的KL散度的和生成回复的最大似然估计/>

其中，计算优化先验分布和后验分布之间的KL散度的和生成回复的最大似然估计/>的公式为：

式中p_θ(R^s|h)为根据句子表征h生成回复R^s的概率分布，KL[]为计算KL散度的函数，表示期望。

步骤S10：根据是否存在显式文本风格标签信息，由显式文本风格标签信息或后验分布q_φ(z|h,R^s)构造三元组(z_a,z_p,z_n)，根据三元组(z_a,z_p,z_n)计算得到对比损失

其中，根据显式文本风格标签信息对三元组(z_a,z_p,z_n)进行如下操作：

若存在显式文本风格标签信息，则根据显式文本风格标签信息构造三元组(z_a,z_p,z_n)，z_a为充当锚点的隐变量，z_p为与锚点文本风格相同的正例隐变量，z_n为文本风格不同的负例隐变量，

若不存在显式文本风格标签信息，则对后验分布q_φ(z|H,R^s)进行两次重参数化采样，得到采样结果z和z_a为充当锚点的隐变量，z_p为与锚点在批量/>中索引位置相同的正例隐变量，z_n为与锚点在批量/>中索引位置不同的负例隐变量，从而构造三元组(z_a,z_p,z_n)。

对比损失的计算公式为：

dis＝d(z_a,z_p)-d(z_a,z_n)，

式中|triplet|为一个批量数据中所有的三元组个数，max()函数为取最大值的函数，λ为控制隐变量相对距离的参数，d()函数为衡量两个隐变量之间余弦距离的函数，z_i、z_j指代任意两个隐变量。

步骤S11：根据优化先验分布和后验分布之间的KL散度的生成回复的最大似然估计/>和对比损失/>计算得到整体训练损失/>整体训练损失/>收敛，则混合对话模型Hy-Dialog训练完成。

其中，混合对话模型Hy-Dialog仅需要根据训练数据进行一次训练，至整体训练损失收敛则训练完成，用户可以与本实施例中训练好的混合对话模型Hy-Dialog直接进行多轮对话，而不需要在与该用户的多轮对话过程中反复训练混合对话模型Hy-Dialog。

步骤S12：将多轮对话中用户的所有历史用户输入和混合对话模型Hy-Dialog的的所有历史系统回复，输入训练完成的混合对话模型Hy-Dialog中，得到句子表征h’和隐变量z’。

其中，训练完成的混合对话模型Hy-Dialog根据多轮对话中用户的所有历史用户输入和混合对话模型Hy-Dialog的的所有历史系统回复依次得到历史轮对话、信仰状态、信仰状态对应的检索结果、决策行为，通过拼接得到对话信息序列Dial-INFO，经由编码器和隐射函数分别得到本轮对话的句子表征h’和隐变量z’，具体操作过程与步骤S1～步骤S7相同。

步骤S13：对句子表征h’和隐变量z’进行拼接，得到注意力计算的注意力头的键K和值V。

步骤S14：对注意力头的键K和值V，分别拼接可训练向量P^K和P^V，计算多头注意力MultiHeadAtten。

其中，计算多头注意力MultiHeadAtten的公式为：

MultiHeadAtten(Q,K,V)＝Concat(head₁,…,head_n)W^O，

式中head_i为第i个注意力头，Attention()为注意力计算函数，Q为查询向量，即上一层网络的输出，为第i个注意力头的可训练的参数矩阵，/>为第i个注意力头的键的可训练向量，/>为第i个注意力头的键的可训练权重矩阵，/>为第i个注意力头的值的可训练向量，/>为第i个注意力头的值的可训练权重矩阵，Concat()为合并函数，head_n为第n个注意力头，W^O为可训练权重矩阵。

步骤S15：根据句子表征h’、隐变量z’和之前预训练模型T5的解码器生成的所有隐状态得到第j个隐状态/>

本实施例中，当j＝0时，之前预训练模型T5的解码器生成的所有隐状态为符号“</s>”的嵌入。

步骤S16：根据第j个隐状态基于Softmax函数，生成第j个词元r_j，根据本轮对话中生成的所有词元，获得系统回复/>

其中，生成词元的公式为：

式中r_j-1为第j-1个词元，W_d为将隐状态映射为词典分布的参数矩阵。

实施例的作用与效果

根据本实施例所涉及的基于对比隐变量和风格前缀的混合对话方法，根据文本风格标签信息或后验分布q_φ(z|H,R^s)得到三元组(z_a,z_p,z_n)，根据三元组(z_a,z_p,z_n)计算对比损失从而对表示不同文本风格的隐变量，在保留主题和领域一致性的基础上进行一定的区分，根据区分后的隐变量和可训练向量P^K和P^V，基于多头注意力机制，从而灵活地生成特定风格的文本。总之，本方法在有显式文本风格标签或无显式文本风格标签的情况下都能够很好地进行不同风格的回复生成。

上述实施方式为本发明的优选案例，并不用来限制本发明的保护范围。

Claims

1.一种基于对比隐变量和风格前缀的混合对话方法，其特征在于，以变分编解码器VED作为基础架构，以编码器-解码器架构的预训练模型T5作为主干模型，构建得到混合对话模型Hy-Dialog，将多轮对话中用户的所有历史用户输入和混合对话模型Hy-Dialog的的所有历史系统回复，输入所述混合对话模型Hy-Dialog生成对该用户的本轮对话的系统回复，包括以下步骤：

步骤S1：所述混合对话模型Hy-Dialog对训练数据中的所有历史用户输入和历史系统回复进行拼接，得到历史轮对话C_t；

步骤S2：根据所述历史轮对话C_t，基于所述混合对话模型Hy-Dialog中的生成式预训练模型，得到由槽位-槽值对构成的本轮对话的信仰状态B_t；

步骤S3：根据所述信仰状态B_t的所述槽位-槽值对的信息，检索含有所述槽位-槽值对及其对应的其他属性信息的数据库，得到所述信仰状态B_t对应的属性信息作为检索结果D_t；

步骤S4：将所述历史轮对话C_t、所述信仰状态B_t和所述检索结果D_t进行拼接，基于所述生成式预训练模型，得到决策行为A_t；

步骤S5：将所述历史轮对话C_t、所述信仰状态B_t、所述检索结果D_t和所述决策行为A_t进行聚合，得到对话信息序列Dial-INFO；

步骤S6：根据所述预训练模型T5的编码器，对所述对话信息序列Dial-INFO进行编码，得到句子表征h；

步骤S7：根据所述句子表征h，基于映射函数得到分布p_α(z|h)，对所述分布p_θ(z|h)采样得到隐变量z；

步骤S8：根据所述隐变量z，基于所述生成式预训练模型，得到根据所述句子表征h和所述隐变量z生成回复R^s的概率分布p_θ(R^s|h，z)；

步骤S9：根据所述隐变量z、所述回复R^s和所述句子表征h，计算得到优化先验分布和后验分布q_φ(z|h，R^s)之间的KL散度的和生成回复的最大似然估计/>

步骤S10：根据是否存在显式文本风格标签信息，由所述显式文本风格标签信息或所述后验分布q_φ(z|h，R^s)构造三元组(z_a，z_p，z_n)，根据所述三元组(z_a，z_p，z_n)计算得到对比损失

步骤S11：根据所述优化先验分布和后验分布之间的KL散度的所述生成回复的最大似然估计/>和所述对比损失/>计算得到整体训练损失/>所述整体训练损失/>收敛，则所述混合对话模型Hy-Dialog训练完成；

步骤S12：将所述多轮对话中用户的所有历史用户输入和混合对话模型Hy-Dialog的的所有历史系统回复，输入训练完成的所述混合对话模型Hy-Dialog中，得到句子表征h’和隐变量z’；

步骤S13：对所述句子表征h’和所述隐变量z’进行拼接，得到注意力计算的注意力头的键K和值V；

步骤S14：对所述注意力头的所述键K和所述值V，分别拼接可训练向量P^K和P^V，计算多头注意力MultiHeadAtten；

步骤S15：根据所述句子表征h’、所述隐变量z’和之前所述预训练模型T5的解码器生成的所有隐状态得到第j个隐状态/>

步骤S16：根据所述第j个隐状态基于Softmax函数，生成第j个词元r_j，根据所述本轮对话中生成的所有词元，获得所述系统回复/>

2.根据权利要求1所述的基于对比隐变量和风格前缀的混合对话方法，其特征在于：

其中，在所述步骤S7中，所述分布p_θ(z|h)的公式为：

式中μ(h)为句子表征h的均值，σ(h)为句子表征h的协方差，为均值为μ协方差为σ的正态分布且由两个结构相同但变分参数为θ1和α2的多层前馈网络获得，α为两个变分参数θ1和α2的和。

3.根据权利要求1所述的基于对比隐变量和风格前缀的混合对话方法，其特征在于：

其中，在所述步骤S9中，所述计算优化先验分布和后验分布之间的KL散度的和生成回复的最大似然估计/>的公式为：

式中p_θ(R^s|h)为根据所述句子表征h生成回复R^s的概率分布，KL[]为计算KL散度的函数，表示期望。

4.根据权利要求1所述的基于对比隐变量和风格前缀的混合对话方法，其特征在于：

其中，在所述步骤S10中，根据所述显式文本风格标签信息对所述三元组(z_a，z_p，z_n)进行如下操作：

若存在所述显式文本风格标签信息，则根据所述显式文本风格标签信息构造所述三元组(z_a，z_p，z_n)，z_a为充当锚点的隐变量，z_p为与锚点文本风格相同的正例隐变量，z_n为文本风格不同的负例隐变量，

若不存在所述显式文本风格标签信息，则对所述后验分布q_φ(z|H，R^s)进行两次重参数化采样，得到采样结果z和z_a为充当锚点的隐变量，z_p为与锚点在批量/>中索引位置相同的正例隐变量，z_n为与锚点在批量/>中索引位置不同的负例隐变量，从而构造所述三元组(z_a，z_p，z_n)。

5.根据权利要求1所述的基于对比隐变量和风格前缀的混合对话方法，其特征在于：

其中，在所述步骤S10中，所述对比损失的计算公式为：

dis＝d(z_a，z_p)-d(z_a，z_n)，

式中|triplet|为一个批量数据中所有的三元组个数，max()函数为取最大值的函数，λ为控制隐变量相对距离的参数，d()函数为衡量两个隐变量之间余弦距离的函数。

6.根据权利要求1所述的基于对比隐变量和风格前缀的混合对话方法，其特征在于：

其中，在所述步骤S14中，所述计算多头注意力MultiHeadAtten的公式为：

MultiHeadAtten(Q，K，V)＝Concat(head₁，...，head_n)W^O，

7.根据权利要求1所述的基于对比隐变量和风格前缀的混合对话方法，其特征在于：

其中，在所述步骤S16中，生成所述词元的公式为：