CN118153584A - 基于对比隐变量和风格前缀的混合对话方法 - Google Patents
基于对比隐变量和风格前缀的混合对话方法 Download PDFInfo
- Publication number
- CN118153584A CN118153584A CN202211563725.2A CN202211563725A CN118153584A CN 118153584 A CN118153584 A CN 118153584A CN 202211563725 A CN202211563725 A CN 202211563725A CN 118153584 A CN118153584 A CN 118153584A
- Authority
- CN
- China
- Prior art keywords
- dialogue
- dialog
- model
- mixed
- hidden
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 45
- 239000011159 matrix material Substances 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000007476 Maximum Likelihood Methods 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 230000000052 comparative effect Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 20
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 102200050839 rs386833792 Human genes 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种基于对比隐变量和风格前缀的混合对话方法,具有这样的特征,以变分编解码器VED作为基础架构,以编码器‑解码器架构的预训练模型T5作为主干模型,构建得到混合对话模型Hy‑Dialog,包括:根据训练数据中的所有历史用户输入和历史系统回复基于整体训练损失训练混合对话模型Hy‑Dialog;将多轮对话中用户的所有历史用户输入和混合对话模型Hy‑Dialog的的所有历史系统回复,输入训练完成的混合对话模型Hy‑Dialog中,获得系统回复。总之,本方法在有无显式文本风格标签的情况下都能够很好地进行不同风格的回复生成。
Description
技术领域
本发明涉及深度学习与自然语言处理,具体涉及一种基于对比隐变量和风格前缀的混合对话方法。
背景技术
现有的对话系统根据其用途被显著地区分为任务导向型对话系统(TOD)和开放域对话系统(ODD)。任务导向型对话系统用于成功地完成用户的特定目标和指令。开放域对话系统则与用户进行任意主题的开放式闲聊。为了更好地完成特定的对话任务,不同对话系统在回复的文本风格上也有所区别,任务导向型对话系统使用精炼的话语以期望精准和正确的完成用户任务,而开放式对话系统则生成更加多样的文本回复来提高用户参与度和趣味度。
随着对话系统的发展以及预训练模型在下游任务上表现出的良好可迁移性和泛化性,不同功能的对话系统之间出现了逐步融合的趋势,也出现了一些融合不同对话任务的数据集。现有的混合对话系统通过多任务的方式或构造统一数据模式来学习不同的对话任务。然而,这些混合对话系统忽略了任务导向型对话回复与开放域对话回复在文本风格上的显著不一致现象,导致混合对话系统中的不同对话任务发生负迁移现象,即使编码器端可以很好地识别两种对话的类型,但解码器在生成阶段仍无法灵活地生成特定风格的话语。现有的混合对话系统中任务型对话的风格识别准确率很高,但任务成功率下降且开放域对话出现低信息量的通用回复。此外,部分数据集并未提供显式的文本风格标签或相关的指示信息,使得对混合对话系统中文本风格的建模更加困难。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种基于对比隐变量和风格前缀的混合对话方法。
本发明提供了一种基于对比隐变量和风格前缀的混合对话方法,具有这样的特征,以变分编解码器VED作为基础架构,以编码器-解码器架构的预训练模型T5作为主干模型,构建得到混合对话模型Hy-Dialog,将多轮对话中用户的所有历史用户输入和混合对话模型Hy-Dialog的的所有历史系统回复,输入混合对话模型Hy-Dialog生成对该用户的本轮对话的系统回复,包括以下步骤:步骤S1:混合对话模型Hy-Dialog对训练数据中的所有历史用户输入和历史系统回复进行拼接,得到历史轮对话Ct;步骤S2:根据历史轮对话Ct,基于混合对话模型Hy-Dialog中的生成式预训练模型,得到由槽位-槽值对构成的本轮对话的信仰状态Bt;步骤S3:根据信仰状态Bt的槽位-槽值对的信息,检索含有槽位-槽值对及其对应的其他属性信息的数据库,得到信仰状态Bt对应的属性信息作为检索结果Dt;步骤S4:将历史轮对话Ct、信仰状态Bt和检索结果Dt进行拼接,基于生成式预训练模型,得到决策行为At;步骤S5:将历史轮对话Ct、信仰状态Bt、检索结果Dt和决策行为At进行聚合,得到对话信息序列Dial-INFO;步骤S6:根据预训练模型T5的编码器,对对话信息序列Dial-INFO进行编码,得到句子表征h;步骤S7:根据句子表征h,基于映射函数得到分布pθ(z|h),对分布pθ(z|h)采样得到隐变量z;步骤S8:根据隐变量z,基于生成式预训练模型,得到根据句子表征h和隐变量z生成回复Rs的概率分布pθ(Rs|h,z);步骤S9:根据隐变量z、回复Rs和句子表征h,计算得到优化先验分布和后验分布qφ(z|h,Rs)之间的KL散度的和生成回复的最大似然估计步骤S10:根据是否存在文本风格标签信息,由显式文本风格标签信息或后验分布qφ(z|h,Rs)构造三元组(za,zp,zn),根据三元组(za,zp,zn)计算得到对比损失/>步骤S11:根据优化先验分布和后验分布之间的KL散度的/>生成回复的最大似然估计/>和对比损失/>计算得到整体训练损失/>整体训练损失/>收敛,则混合对话模型Hy-Dialog训练完成;步骤S12:将多轮对话中用户的所有历史用户输入和混合对话模型Hy-Dialog的的所有历史系统回复,输入训练完成的混合对话模型Hy-Dialog中,得到句子表征h’和隐变量z’;步骤S13:对句子表征h’和隐变量z’进行拼接,得到注意力计算的注意力头的键K和值V;步骤S14:对注意力头的键K和值V,分别拼接可训练向量PK和PV,计算多头注意力MultiHeadAtten;步骤S15:根据句子表征h’、隐变量z’和之前预训练模型T5的解码器生成的所有隐状态/>得到第j个隐状态/>步骤S16:根据第j个隐状态/>基于Softmax函数,生成第j个词元rj,根据本轮对话中生成的所有词元,获得系统回复/>
在本发明提供的基于对比隐变量和风格前缀的混合对话方法中,还可以具有这样的特征:其中,在步骤S7中,分布pθ(z|h)的公式为:式中μ(h)为句子表征h的均值,σ(h)为句子表征h的协方差,/>为均值为μ协方差为σ的正态分布且由两个结构相同但变分参数为θ1和θ2的多层前馈网络获得,θ为两个变分参数θ1和θ2的和。
在本发明提供的基于对比隐变量和风格前缀的混合对话方法中,还可以具有这样的特征:其中,在步骤S9中,计算优化先验分布和后验分布之间的KL散度的和生成回复的最大似然估计/>的公式为:/>式中pθ(Rs|h)为根据句子表征h生成回复Rs的概率分布,KL[]为计算KL散度的函数,/>表示期望。
在本发明提供的基于对比隐变量和风格前缀的混合对话方法中,还可以具有这样的特征:其中,在步骤S10中,根据显示文本风格标签信息对三元组(za,zp,zn)进行如下操作:若存在显式文本风格标签信息,则根据显式文本风格标签信息构造三元组(za,zp,zn),za为充当锚点的隐变量,zp为与锚点文本风格相同的正例隐变量,zn为文本风格不同的负例隐变量,若不存在显式文本风格标签信息,则对后验分布qφ(z|H,Rs)进行两次重参数化采样,得到采样结果z和za为充当锚点的隐变量,zp为与锚点在批量/>中索引位置相同的正例隐变量,zn为与锚点在批量/>中索引位置不同的负例隐变量,从而构造三元组(za,zp,zn)。
在本发明提供的基于对比隐变量和风格前缀的混合对话方法中,还可以具有这样的特征:其中,在步骤S10中,对比损失的计算公式为:/>dis=d(za,zp)-d(za,zn),/>式中|triplet|为一个批量数据中所有的三元组个数,max()函数为取最大值的函数,λ为控制隐变量相对距离的参数,d()函数为衡量两个隐变量之间余弦距离的函数。
在本发明提供的基于对比隐变量和风格前缀的混合对话方法中,还可以具有这样的特征:其中,在步骤S14中,计算多头注意力MultiHeadAtten的公式为: MultiHeadAtten(Q,K,V)=Concat(head1,…,headn)WO,式中headi为第i个注意力头,Attention()为注意力计算函数,Q为查询向量,即上一层网络的输出,/>为第i个注意力头的可训练的参数矩阵,/>为第i个注意力头的键的可训练向量,/>为第i个注意力头的键的可训练权重矩阵,/>为第i个注意力头的值的可训练向量,/>为第i个注意力头的值的可训练权重矩阵,Concat()为合并函数,headn为第n个注意力头,WO为可训练权重矩阵。
在本发明提供的基于对比隐变量和风格前缀的混合对话方法中,还可以具有这样的特征:其中,在步骤S16中,生成词元的公式为:式中rj-1为第j-1个词元,Wd为将隐状态/>映射为词典分布的参数矩阵。
发明的作用与效果
根据本发明所涉及的基于对比隐变量和风格前缀的混合对话方法,因为根据文本风格标签信息或后验分布qφ(z|H,Rs)得到三元组(za,zp,zn),根据三元组(za,zp,zn)计算对比损失从而对表示不同文本风格的隐变量,在保留主题和领域一致性的基础上进行一定的区分,根据区分后的隐变量和可训练向量PK和PV,基于多头注意力机制生成对话文本,所以可以灵活地生成特定风格的文本,本发明的基于对比隐变量和风格前缀的混合对话方法在有显式文本风格标签或无显式文本风格标签的情况下都能够很好地进行不同风格的回复生成。
附图说明
图1是本发明的实施例中混合对话模型Hy-Dialog总体框架的示意图;
图2是本发明的实施例中基于对比隐变量和风格前缀的混合对话方法的流程示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下实施例结合附图对本发明基于对比隐变量和风格前缀的混合对话方法作具体阐述。
以变分编解码器VED作为基础架构,以编码器-解码器架构的预训练模型T5作为主干模型,构建得到混合对话模型Hy-Dialog。
图1是本发明的实施例中混合对话模型Hy-Dialog总体框架的示意图。
如图1所示,混合对话模型Hy-Dialog将批量中的对话输入,即话语1、话语2、话语3、话语4、话语5、话语6等,经由预训练模型T5的编码器编码得到对应的编码器隐状态,通过将编码器隐状态映射在隐空间中,从而计算KL散度和采样得到对应话语的风格隐变量z1、z2、z3、z3、z4、z5、z6等,通过隐变量对比学习即计算对比损失,使不同风格的隐变量间距离增大,再将隐变量和隐状态输入由L层Transformer模块堆叠而成的预训练模型T5的解码器,经由风格前缀自注意力操作、层归一化操作得到查询向量Q,根据句子表征h和隐变量z拼接得到注意力头的键K和值V,对注意力头的键K和值V、查询向量Q、注意力头的可训练的参数矩阵Wq、注意力头的键的可训练权重矩阵Wk、注意力头的值的可训练权重矩阵Wv、注意力头的键的可训练向量Pk和注意力头的值的可训练向量Pv进行Attention操作,即计算多头注意力,从而实现风格前缀的跨注意力,再经由层归一化操作、线性层操作和层归一化操作,通过L层Transformer模块的处理,从而生成不同风格的回复,即回复1、回复2、回复3、回复4、回复5和回复6等,通过不同风格的回复可以计算得到生成损失用于训练混合对话模型Hy-Dialog。
图2是本发明的实施例中基于对比隐变量和风格前缀的混合对话方法的流程示意图。
如图2所示,本发明的实施例中基于对比隐变量和风格前缀的混合对话方法,当一个用户与混合对话模型Hy-Dialog进行多轮对话时,将本次多轮对话中该用户的所有历史用户输入和混合对话模型Hy-Dialog的所有历史系统回复,输入混合对话模型Hy-Dialog生成对该用户的本轮对话的系统回复,包括以下步骤:
步骤S1:混合对话模型Hy-Dialog对训练数据中的所有历史用户输入和历史系统回复进行拼接,得到历史轮对话Ct,
其中,历史轮对话式中U0为第0轮对话的用户输入,/>为第0轮对话的系统回复,/>为第t-1轮对话的系统回复,Ut为第t轮对话即本轮对话的用户输入。
训练数据中包括多个用户的多组历史用户输入和对应的历史系统回复,历史用户输入为本轮对话的用户输入和本轮对话之前的所有用户输入,历史系统回复为本轮对话之前的所有系统回复。
步骤S2:根据历史轮对话Ct,基于混合对话模型Hy-Dialog中的生成式预训练模型,得到由槽位-槽值对构成的本轮对话的信仰状态Bt。
步骤S3:根据信仰状态Bt的槽位-槽值对的信息,检索含有槽位-槽值对及其对应的其他属性信息的数据库,得到信仰状态Bt对应的属性信息作为检索结果Dt,本实施例中使用的数据库的数据来源于MultiWOZ数据集。
步骤S4:将历史轮对话Ct、信仰状态Bt和检索结果Dt进行拼接,基于生成式预训练模型,得到决策行为At。
步骤S5:将历史轮对话Ct、信仰状态Bt、检索结果Dt和决策行为At进行聚合,得到对话信息序列Dial-INFO,Dial-INFO=[Ct,Bt,Dt,At]。
步骤S6:根据预训练模型T5的编码器,对对话信息序列Dial-INFO进行编码,得到句子表征h。
步骤S7:根据句子表征h,基于映射函数得到分布pθ(z|h),对分布pθ(z|h)采样得到隐变量z,隐变量z由分布pθ(z|h)所定义的因空间中采样获得。
其中,分布pθ(z|h)的公式为:
式中μ(h)为句子表征h的均值,σ(h)为句子表征h的协方差,为均值为μ协方差为σ的正态分布且由两个结构相同但变分参数为θ1和θ2的多层前馈网络获得,θ为两个变分参数θ1和θ2的和。
步骤S8:根据隐变量z,基于生成式预训练模型,得到根据句子表征h和隐变量z生成回复Rs的概率分布pθ(Rs|h,z)。
步骤S9:根据隐变量z、回复Rs和句子表征h,计算得到优化先验分布和后验分布qφ(z|h,Rs)之间的KL散度的和生成回复的最大似然估计/>
其中,计算优化先验分布和后验分布之间的KL散度的和生成回复的最大似然估计/>的公式为:
式中pθ(Rs|h)为根据句子表征h生成回复Rs的概率分布,KL[]为计算KL散度的函数,表示期望。
步骤S10:根据是否存在显式文本风格标签信息,由显式文本风格标签信息或后验分布qφ(z|h,Rs)构造三元组(za,zp,zn),根据三元组(za,zp,zn)计算得到对比损失
其中,根据显式文本风格标签信息对三元组(za,zp,zn)进行如下操作:
若存在显式文本风格标签信息,则根据显式文本风格标签信息构造三元组(za,zp,zn),za为充当锚点的隐变量,zp为与锚点文本风格相同的正例隐变量,zn为文本风格不同的负例隐变量,
若不存在显式文本风格标签信息,则对后验分布qφ(z|H,Rs)进行两次重参数化采样,得到采样结果z和za为充当锚点的隐变量,zp为与锚点在批量/>中索引位置相同的正例隐变量,zn为与锚点在批量/>中索引位置不同的负例隐变量,从而构造三元组(za,zp,zn)。
对比损失的计算公式为:
dis=d(za,zp)-d(za,zn),
式中|triplet|为一个批量数据中所有的三元组个数,max()函数为取最大值的函数,λ为控制隐变量相对距离的参数,d()函数为衡量两个隐变量之间余弦距离的函数,zi、zj指代任意两个隐变量。
步骤S11:根据优化先验分布和后验分布之间的KL散度的生成回复的最大似然估计/>和对比损失/>计算得到整体训练损失/>整体训练损失/>收敛,则混合对话模型Hy-Dialog训练完成。
其中,混合对话模型Hy-Dialog仅需要根据训练数据进行一次训练,至整体训练损失收敛则训练完成,用户可以与本实施例中训练好的混合对话模型Hy-Dialog直接进行多轮对话,而不需要在与该用户的多轮对话过程中反复训练混合对话模型Hy-Dialog。
步骤S12:将多轮对话中用户的所有历史用户输入和混合对话模型Hy-Dialog的的所有历史系统回复,输入训练完成的混合对话模型Hy-Dialog中,得到句子表征h’和隐变量z’。
其中,训练完成的混合对话模型Hy-Dialog根据多轮对话中用户的所有历史用户输入和混合对话模型Hy-Dialog的的所有历史系统回复依次得到历史轮对话、信仰状态、信仰状态对应的检索结果、决策行为,通过拼接得到对话信息序列Dial-INFO,经由编码器和隐射函数分别得到本轮对话的句子表征h’和隐变量z’,具体操作过程与步骤S1~步骤S7相同。
步骤S13:对句子表征h’和隐变量z’进行拼接,得到注意力计算的注意力头的键K和值V。
步骤S14:对注意力头的键K和值V,分别拼接可训练向量PK和PV,计算多头注意力MultiHeadAtten。
其中,计算多头注意力MultiHeadAtten的公式为:
MultiHeadAtten(Q,K,V)=Concat(head1,…,headn)WO,
式中headi为第i个注意力头,Attention()为注意力计算函数,Q为查询向量,即上一层网络的输出,为第i个注意力头的可训练的参数矩阵,/>为第i个注意力头的键的可训练向量,/>为第i个注意力头的键的可训练权重矩阵,/>为第i个注意力头的值的可训练向量,/>为第i个注意力头的值的可训练权重矩阵,Concat()为合并函数,headn为第n个注意力头,WO为可训练权重矩阵。
步骤S15:根据句子表征h’、隐变量z’和之前预训练模型T5的解码器生成的所有隐状态得到第j个隐状态/>
本实施例中,当j=0时,之前预训练模型T5的解码器生成的所有隐状态为符号“</s>”的嵌入。
步骤S16:根据第j个隐状态基于Softmax函数,生成第j个词元rj,根据本轮对话中生成的所有词元,获得系统回复/>
其中,生成词元的公式为:
式中rj-1为第j-1个词元,Wd为将隐状态映射为词典分布的参数矩阵。
实施例的作用与效果
根据本实施例所涉及的基于对比隐变量和风格前缀的混合对话方法,根据文本风格标签信息或后验分布qφ(z|H,Rs)得到三元组(za,zp,zn),根据三元组(za,zp,zn)计算对比损失从而对表示不同文本风格的隐变量,在保留主题和领域一致性的基础上进行一定的区分,根据区分后的隐变量和可训练向量PK和PV,基于多头注意力机制,从而灵活地生成特定风格的文本。总之,本方法在有显式文本风格标签或无显式文本风格标签的情况下都能够很好地进行不同风格的回复生成。
上述实施方式为本发明的优选案例,并不用来限制本发明的保护范围。
Claims (7)
1.一种基于对比隐变量和风格前缀的混合对话方法,其特征在于,以变分编解码器VED作为基础架构,以编码器-解码器架构的预训练模型T5作为主干模型,构建得到混合对话模型Hy-Dialog,将多轮对话中用户的所有历史用户输入和混合对话模型Hy-Dialog的的所有历史系统回复,输入所述混合对话模型Hy-Dialog生成对该用户的本轮对话的系统回复,包括以下步骤:
步骤S1:所述混合对话模型Hy-Dialog对训练数据中的所有历史用户输入和历史系统回复进行拼接,得到历史轮对话Ct;
步骤S2:根据所述历史轮对话Ct,基于所述混合对话模型Hy-Dialog中的生成式预训练模型,得到由槽位-槽值对构成的本轮对话的信仰状态Bt;
步骤S3:根据所述信仰状态Bt的所述槽位-槽值对的信息,检索含有所述槽位-槽值对及其对应的其他属性信息的数据库,得到所述信仰状态Bt对应的属性信息作为检索结果Dt;
步骤S4:将所述历史轮对话Ct、所述信仰状态Bt和所述检索结果Dt进行拼接,基于所述生成式预训练模型,得到决策行为At;
步骤S5:将所述历史轮对话Ct、所述信仰状态Bt、所述检索结果Dt和所述决策行为At进行聚合,得到对话信息序列Dial-INFO;
步骤S6:根据所述预训练模型T5的编码器,对所述对话信息序列Dial-INFO进行编码,得到句子表征h;
步骤S7:根据所述句子表征h,基于映射函数得到分布pα(z|h),对所述分布pθ(z|h)采样得到隐变量z;
步骤S8:根据所述隐变量z,基于所述生成式预训练模型,得到根据所述句子表征h和所述隐变量z生成回复Rs的概率分布pθ(Rs|h,z);
步骤S9:根据所述隐变量z、所述回复Rs和所述句子表征h,计算得到优化先验分布和后验分布qφ(z|h,Rs)之间的KL散度的和生成回复的最大似然估计/>
步骤S10:根据是否存在显式文本风格标签信息,由所述显式文本风格标签信息或所述后验分布qφ(z|h,Rs)构造三元组(za,zp,zn),根据所述三元组(za,zp,zn)计算得到对比损失
步骤S11:根据所述优化先验分布和后验分布之间的KL散度的所述生成回复的最大似然估计/>和所述对比损失/>计算得到整体训练损失/>所述整体训练损失/>收敛,则所述混合对话模型Hy-Dialog训练完成;
步骤S12:将所述多轮对话中用户的所有历史用户输入和混合对话模型Hy-Dialog的的所有历史系统回复,输入训练完成的所述混合对话模型Hy-Dialog中,得到句子表征h’和隐变量z’;
步骤S13:对所述句子表征h’和所述隐变量z’进行拼接,得到注意力计算的注意力头的键K和值V;
步骤S14:对所述注意力头的所述键K和所述值V,分别拼接可训练向量PK和PV,计算多头注意力MultiHeadAtten;
步骤S15:根据所述句子表征h’、所述隐变量z’和之前所述预训练模型T5的解码器生成的所有隐状态得到第j个隐状态/>
步骤S16:根据所述第j个隐状态基于Softmax函数,生成第j个词元rj,根据所述本轮对话中生成的所有词元,获得所述系统回复/>
2.根据权利要求1所述的基于对比隐变量和风格前缀的混合对话方法,其特征在于:
其中,在所述步骤S7中,所述分布pθ(z|h)的公式为:
式中μ(h)为句子表征h的均值,σ(h)为句子表征h的协方差,为均值为μ协方差为σ的正态分布且由两个结构相同但变分参数为θ1和α2的多层前馈网络获得,α为两个变分参数θ1和α2的和。
3.根据权利要求1所述的基于对比隐变量和风格前缀的混合对话方法,其特征在于:
其中,在所述步骤S9中,所述计算优化先验分布和后验分布之间的KL散度的和生成回复的最大似然估计/>的公式为:
式中pθ(Rs|h)为根据所述句子表征h生成回复Rs的概率分布,KL[]为计算KL散度的函数,表示期望。
4.根据权利要求1所述的基于对比隐变量和风格前缀的混合对话方法,其特征在于:
其中,在所述步骤S10中,根据所述显式文本风格标签信息对所述三元组(za,zp,zn)进行如下操作:
若存在所述显式文本风格标签信息,则根据所述显式文本风格标签信息构造所述三元组(za,zp,zn),za为充当锚点的隐变量,zp为与锚点文本风格相同的正例隐变量,zn为文本风格不同的负例隐变量,
若不存在所述显式文本风格标签信息,则对所述后验分布qφ(z|H,Rs)进行两次重参数化采样,得到采样结果z和za为充当锚点的隐变量,zp为与锚点在批量/>中索引位置相同的正例隐变量,zn为与锚点在批量/>中索引位置不同的负例隐变量,从而构造所述三元组(za,zp,zn)。
5.根据权利要求1所述的基于对比隐变量和风格前缀的混合对话方法,其特征在于:
其中,在所述步骤S10中,所述对比损失的计算公式为:
dis=d(za,zp)-d(za,zn),
式中|triplet|为一个批量数据中所有的三元组个数,max()函数为取最大值的函数,λ为控制隐变量相对距离的参数,d()函数为衡量两个隐变量之间余弦距离的函数。
6.根据权利要求1所述的基于对比隐变量和风格前缀的混合对话方法,其特征在于:
其中,在所述步骤S14中,所述计算多头注意力MultiHeadAtten的公式为:
MultiHeadAtten(Q,K,V)=Concat(head1,...,headn)WO,
式中headi为第i个注意力头,Attention()为注意力计算函数,Q为查询向量,即上一层网络的输出,为第i个注意力头的可训练的参数矩阵,/>为第i个注意力头的键的可训练向量,/>为第i个注意力头的键的可训练权重矩阵,/>为第i个注意力头的值的可训练向量,/>为第i个注意力头的值的可训练权重矩阵,Concat()为合并函数,headn为第n个注意力头,WO为可训练权重矩阵。
7.根据权利要求1所述的基于对比隐变量和风格前缀的混合对话方法,其特征在于:
其中,在所述步骤S16中,生成所述词元的公式为:
式中rj-1为第j-1个词元,Wd为将隐状态映射为词典分布的参数矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211563725.2A CN118153584A (zh) | 2022-12-07 | 2022-12-07 | 基于对比隐变量和风格前缀的混合对话方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211563725.2A CN118153584A (zh) | 2022-12-07 | 2022-12-07 | 基于对比隐变量和风格前缀的混合对话方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118153584A true CN118153584A (zh) | 2024-06-07 |
Family
ID=91297300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211563725.2A Pending CN118153584A (zh) | 2022-12-07 | 2022-12-07 | 基于对比隐变量和风格前缀的混合对话方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118153584A (zh) |
-
2022
- 2022-12-07 CN CN202211563725.2A patent/CN118153584A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | On adaptive decision rules and decision parameter adaptation for automatic speech recognition | |
CN110297887B (zh) | 基于云平台的服务机器人个性化对话系统及方法 | |
CN114168749A (zh) | 一种基于知识图谱和疑问词驱动的问题生成系统 | |
CN111897944B (zh) | 基于语义空间共享的知识图谱问答系统 | |
CN111274375A (zh) | 一种基于双向gru网络的多轮对话方法及系统 | |
CN114818703B (zh) | 基于BERT语言模型和TextCNN模型的多意图识别方法及系统 | |
CN112417884A (zh) | 一种基于知识增强和知识迁移的句子语义相关度判断方法 | |
CN112115242A (zh) | 一种基于朴素贝叶斯分类算法的智能客服问答系统 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN116561251A (zh) | 一种自然语言处理方法 | |
CN117033602A (zh) | 一种多模态的用户心智感知问答模型的构建方法 | |
CN117648469A (zh) | 一种基于对比学习的交叉双塔结构答案选择方法 | |
CN117290491A (zh) | 基于聚合检索增强的大模型多轮对话方法、系统及设备 | |
CN117370516A (zh) | 一种基于层级对比学习知识增强对话系统训练的方法 | |
CN116108856B (zh) | 基于长短回路认知与显隐情感交互的情感识别方法及系统 | |
CN118153584A (zh) | 基于对比隐变量和风格前缀的混合对话方法 | |
CN115495566A (zh) | 一种增强文本特征的对话生成方法和系统 | |
CN113792120B (zh) | 图网络的构建方法及装置、阅读理解方法及装置 | |
CN115238705A (zh) | 语义解析结果重排序方法及系统 | |
CN114742073A (zh) | 一种基于深度学习的对话情绪自动识别方法 | |
Kreyssig | Deep learning for user simulation in a dialogue system | |
CN113158062A (zh) | 一种基于异构图神经网络的用户意图识别方法及装置 | |
CN112052685A (zh) | 一种基于二维时序网络的端到端文本实体关系识别方法 | |
Fan et al. | Nlp final project: A dialogue system | |
Ding et al. | SDSK2BERT: Explore the specific depth with specific knowledge to compress BERT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |