CN115062115A - 一种在对话策略中响应情感类别预测方法 - Google Patents

一种在对话策略中响应情感类别预测方法 Download PDF

Info

Publication number
CN115062115A
CN115062115A CN202210761098.7A CN202210761098A CN115062115A CN 115062115 A CN115062115 A CN 115062115A CN 202210761098 A CN202210761098 A CN 202210761098A CN 115062115 A CN115062115 A CN 115062115A
Authority
CN
China
Prior art keywords
dialog
emotion
response
distribution
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210761098.7A
Other languages
English (en)
Other versions
CN115062115B (zh
Inventor
王振宇
张睿
徐恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210761098.7A priority Critical patent/CN115062115B/zh
Publication of CN115062115A publication Critical patent/CN115062115A/zh
Application granted granted Critical
Publication of CN115062115B publication Critical patent/CN115062115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种在对话策略中响应情感类别预测方法。所述方法包括以下步骤:知识增强的对话上下文编码模块通过分层Transformer网络将前M‑1轮的对话历史信息V1:M‑1编码为上下文向量表示X1:M‑1,并融合对话中的对话特征;潜在情感响应学习模块采用变分网络学习语料中从上下文向量表示X1:M‑1到情感响应的映射,从而建模得到潜在分布z;交互情感预测模块将对话上下文编码模块输出的上下文向量表示X1:M‑1和潜在分布z作为输入,预测响应情感E′Y。本发明提出的方法实现响应情感类别的预测,赋予对话代理自适应地进行多样化情感表达的能力,缓解目标文本缺失导致的推断合理性问题。

Description

一种在对话策略中响应情感类别预测方法
技术领域
本发明涉及自然语言处理中的人机对话领域,具体涉及一种在对话策略中响应情感类别预测方法。
技术背景
随着人工智能等技术的发展,国家建设数字化建设的提出,各行各业对智能人机对话的需求持续增长。自然语言处理的研究是实现数字化、智能化生活与服务不可或缺的环节。研究富有情感的任务型对话系统是能够为智能化的人机交互系统带来更加实用的价值。
目前,任务型对话代理在帮助客户解决特定的任务时缺乏情感的响应。具备多样化情感表达能力的对话代理需要根据当前任务的需求自适应地切换不同的情感风格与用户进行对话,从而提高对话的成功率和用户满意度。先前,许多模型通过人工设置特定的触发规则来选取预先定义的情感表达模板。然而,这样的模型通常需要构建庞大的规则库以适应复杂的对话场景,该过程往往费时费力。随着近年来深度学习技术的发展,基于深度神经网络的情感人机对话生成模型大量涌现。然而,目前基于端到端形式的情感对话生成方法往往忽略了响应情感类别的预测问题。这些对话生成模型旨在根据给定的响应情感类型和特定的对话上下文生成与该响应情感类型一致的情感回复。也就是说,这些方法通常假定对话生成时,其响应情感的类别是已知的。该假设导致这些模型仅能够在特定的标注数据集上进行训练和测试,而无法被部署到线上对话系统中,因为在线上运行时,用户不会主动告知对话代理应该用哪种情感来进行回复,此时响应情感类别的标签是缺失的。
自适应的响应情感类别任务可以看成做一项存在目标文本缺失问题的特殊文本分类任务。经典的文本情感分类任务是从已知的文本片段中提取相应的语义信息并对其类型进行判别;而在响应情感类别预测任务中,模型无法获得尚未生成的情感响应内容,而需要直接根据对话上下文信息对响应的情感类型进行推断。这种目标文本缺失的现象也称为“鸿沟”问题,该现象导致现有的对话情感分类方法在这一任务上无法取得很好的效果,因为这些模型不具备对未来的响应进行推断的能力。
现有技术中,情感分类的方法和情感分类模型的训练方法、装置,只根据输入的文本进行情感分类,而不能解决目标文本缺失的问题(杨哲,卓泽城,龚建,黄强,潘旭.情感分类的方法和情感分类模型的训练方法、装置[P].北京市:CN113806541A,2021-12-17.)。
发明内容
为了实现响应情感类别的预测,并缓解该任务所面临的目标文本缺失问题,本发明提出面向任务型对话的响应情感类别预测方法。由于直接根据对话上下文历史预测合理的响应情感类型非常困难,该方法结合对话中的任务相关知识实现多轮对话编码,并引入变分网络将潜在的合理响应建模为语义空间上的分布,利用该分布强化响应情感的类别进行推断的能力。
本发明至少通过如下技术方案之一实现。
一种在对话策略中响应情感类别预测方法,包括以下步骤:
S1、知识增强的对话上下文编码模块通过分层Transformer网络将前M-1轮的对话历史信息V1:M-1编码为上下文向量表示X1:M-1,并融合对话中的对话特征,提升上下文编码模块的语义表征能力;
S2、潜在情感响应学习模块采用变分网络学习语料中从上下文向量表示X1:M-1到情感响应的映射,从而建模得到潜在分布z,潜在分布z能够从语料中学习到情感对话的交互模式;
S3、交互情感预测模块通过一个带有softmax激活的线性网络实现;交互情感预测模块将对话上下文编码模块输出的上下文向量表示X1:M-1和潜在分布z作为输入,预测响应情感E′Y
进一步地,步骤S1中,对于前M-1轮的对话历史信息V1:M-1中的每一轮对话,融合对话文本、任务相关知识和属性三种对话特征,每一种对话特征的表示形式均为向量化表示;
所述对话文本是对话的上下文;
所述任务相关知识为任务型对话中的用户意图和槽值信息,通过查询数据库得到;
所述属性信息为用户角色类型和用户角色的情感信息,用户角色类型包括对话代理和客户。
进一步地,步骤S1具体包括以下步骤:
S1.1、对于第k轮对话中由用户或对话代理产生的对话文本
Figure BDA0003724076350000031
Figure BDA0003724076350000032
使用BERT模型将对话文本Vk编码为对话文本向量vk
Figure BDA0003724076350000033
为第k轮中第i个用户或对话代理产生的对话文本;
S1.2、对于第k轮对话中包括的任务相关知识
Figure BDA0003724076350000034
采用BERT模型进行知识编码得到任务相关知识向量uk,其中,
Figure BDA0003724076350000035
为第k轮第i个用户的任务相关知识,任务相关知识的编码同样采用BERT模型进行参数初始化;
S1.3、对于第k轮对话中的属性信息,将用户角色类型和第k轮对话的情感类别表示为独热向量,并采用一个线性的属性编码网络将该独热向量表示为第k轮对话中的属性信息向量attk
S1.4、对于第k轮对话,通过一个线性前馈网络和一个分层池化操作融合对话文本向量vk、任务相关知识向量uk和属性信息向量attk并得到句子级的编码向量sk
sk=Hierarchical_pooling(Ws·[vk;Mean(uk);attk]+bs)
其中,Mean(·)表示平均池化操作,Ws和bs分别为线性前馈网络的权重和偏置;sk是第k轮对话中的经过分层池化操作Hierarchical_Pooling(·)处理后得到的句子级的编码向量;分层池化操作首先对原有的句子向量进行n-gram窗口的最大池化操作,再进行平均池化得到最终的句子编码结果;
S1.5、采用分层Transformer网络通过多头自注意力机制将前M-1轮对话中的句子级的编码向量sk转换为前M-1轮的上下文向量表示X1:M-1
X1:M-1=Encoder(s1:M-1)
对话级编码网络中的多头注意力机制能够忽略对话的时序关系,捕捉到多轮对话中的长程依赖,从而能够更加有效地提取到与当前响应情感类别预测任务有关的对话历史信息;s1:M-1表示前M-1轮对话的句子级的编码向量,s1:M-1=s1,s2,…sk,…,sM-1
进一步地,步骤S2具体包括以下步骤:
S2.1、采用先验网络构建情感类别的预测条件c,该先验网络记为pθ,将编码前M-1轮的上下文向量表示X1:M-1、当前第M轮对话中对话代理的响应动作
Figure BDA0003724076350000041
以及查询结果的任务相关知识向量uM,构建情感类别预测的条件c,其中任务相关知识向量σM是根据用户对话匹配的用户意图和对话槽值信息的编码,具体如下:
Figure BDA0003724076350000042
其中,FF(·)表示前馈网络;假设潜在分布z服从具有对数协方差矩阵的多元高斯分布,则可表示为pθ(z|c)~N(μ,σ2),含义为条件c下潜在分布z的概率满足高斯分布均值μ和方差σ;
采用多头注意力机制计算潜在分布z的均值μ和方差σ,具体如下:
h=Hierarchical_Pooling(MH(c,c,c))
Figure BDA0003724076350000043
其中,MH(·)表示多头自注意力网络,Hierarchical_Pooling为分层池化操作,Wp和bp分别为多头注意力网络的权重和偏置值,可通过神经网络的线性层学习得到;
S2.2、将第M轮对话中的对话代理的响应YM视为对话代理的响应目标yM,采用BERT模型将对话代理的响应YM编码得到目标句子的向量vM,vM表示第M轮对话中的对话文本向量,根据前M-1轮对话预测得到;根据条件c和响应目标yM引入分布z′,令分布z′服从
Figure BDA0003724076350000051
在条件c和响应目标yM的情况下分布z′满足均值μ′和方差σ′的高斯分布;
Figure BDA0003724076350000052
记为该识别网络。该做法的目的是为了让响应目标yM的分布z′和潜在分布z的分布相接近,分布z′的均值μ′和方差σ′的计算方式为:
c′=Linear([c;vM])
h′=Hierarchical_Pooling(MH(c′,c′,c′))
Figure BDA0003724076350000053
其中,Wq和bq分别是h′的权重和偏置值,h′表示分层池化操作的结果;可以利用重参数技巧根据μ和σ采样出潜在分布z,或从识别网络
Figure BDA0003724076350000054
中根据μ′和σ′采样出分布z′,并将潜在分布z或分布z′应用到解码器中进行对话代理的响应Y的重构;
S2.3、根据分布z′进行采样,基于Transformer的解码器网络以向量拼接的形式将潜在分布特征和采样的特征进行融合,具体如下:
基于Transformer的解码器网络将条件c和对对话代理的响应YM进行位移和掩盖操作后得到的向量化表示Ymask作为输入,通过Transformer解码块计算后得到输出Tout
Tout=Decoder(Ymask,c)
解码器网络将分布z′的向量与输出Tout进行拼接,通过一个带有Softmax激活的线性层对对话代理的响应YM进行重构,得到预测的响应文本Y′M
Y′M=softmax(Linear([z′;Tout]))
S2.4、通过预测的词语分布y′n与真实分布yn之间的交叉熵损失
Figure BDA0003724076350000055
训练解码器网络,其中n是词语的索引,y′n∈Y′M,yn∈YM
Figure BDA0003724076350000056
分布z′通过随机梯度变分贝叶斯框架,经由最大化以下的变分下界进行学习得到,具体如下:
Figure BDA0003724076350000061
Figure BDA0003724076350000062
的作用是利用KL散度迫使模型保持两个分布相接近;
其中,所述变分下界利用KL散度迫使潜在分布z和分布z′相接近;通过联合损失函数
Figure BDA0003724076350000063
Figure BDA0003724076350000064
进行训练。
进一步地,步骤S3中,预测响应情感E′Y的学习函数为:
E′Y=softmax(Linear([Mean(X1:M-1);z]))
损失函数
Figure BDA0003724076350000065
为:
Figure BDA0003724076350000066
其中,K表示情感类型的数量,n是词语的索引,en是预测的响应情感,p(en)∈[0,1]表示所预测的响应情感E′Y的标签概率分布,on∈{0,1}表示情感EY的真实值;
最后,利用损失函数
Figure BDA0003724076350000067
通过反向梯度传播对交互情感预测模块中的参数进行调整优化,得到训练好的交互情感预测模块。
本发明与现有技术相比,具有如下优点和有益效果:
1.利用分层Transformer实现对话级文本的特征编码,克服多轮对话编码过程中的文本过长问题;
2.在对话编码中引入知识编码网络,对任务型对话中涉及到的意图、槽以及知识库查询结果进行编码,通过融合这些知识丰富对话特征,提升模型的预测效果;
3.提出潜在情感响应学习网络,利用变分推断从语料中学习潜在的情感响应模式,赋予模型推断合理响应的能力,从而缓解目标文本缺失问题。
附图说明
图1为本发明实施例中一种在对话策略中响应情感类别预测方法流程图。
图2为本发明实施例中知识增强的对话上下文编码模块的网络结构图。
图3为本发明实施例中潜在情感响应学习模块的网络结构图。
具体实施方式
下面结合本发明实施例中的附图对本发明的技术方案进行描述。需要说明的是,在不冲突的情况下,本发明中的实施例以及实施例中的特征可以相互结合。
实施例1:
一种在对话策略中响应情感类别预测方法,如图1、图2和图3所示,包括以下步骤:
S1、知识增强的对话上下文编码模块通过分层Transformer网络将前M-1轮的对话历史信息V1:M-1编码为上下文向量表示X1:M-1,并融合对话中的对话特征,提升上下文编码模块的语义表征能力;
对于前M-1轮的对话历史信息V1:M-1中的每一轮对话,融合对话文本、任务相关知识和属性三种对话特征,每一种对话特征的表示形式均为向量化表示;
所述对话文本是对话的上下文;
所述任务相关知识为任务型对话中的用户意图和槽值信息,通过查询数据库得到;
所述属性信息为用户角色类型和用户角色的情感信息,用户角色类型包括对话代理和客户。
步骤S1具体包括以下步骤:
S1.1、对于第k轮对话中由用户或对话代理产生的对话文本
Figure BDA0003724076350000071
Figure BDA0003724076350000072
使用BERT模型将对话文本Vk编码为对话文本向量vk
Figure BDA0003724076350000073
为第k轮中第i个用户或对话代理产生的对话文本;
S1.2、对于第k轮对话中包括的任务相关知识
Figure BDA0003724076350000074
采用BERT模型进行知识编码得到任务相关知识向量uk,其中,
Figure BDA0003724076350000075
为第k轮第i个用户的任务相关知识,任务相关知识的编码同样采用BERT模型进行参数初始化;
S1.3、对于第k轮对话中的属性信息,将用户角色类型和第k轮对话的情感类别表示为独热向量,并采用一个线性的属性编码网络将该独热向量表示为第k轮对话中的属性信息向量attk
S1.4、对于第k轮对话,通过一个线性前馈网络和一个分层池化操作融合对话文本向量vk、任务相关知识向量uk和属性信息向量attk并得到句子级的编码向量sk
sk=Hierarchical_pooling(Ws·[vk;Mean(uk);attk]+bs)
其中,Mean(·)表示平均池化操作,Ws和bs分别为线性前馈网络的权重和偏置;sk是第k轮对话中的经过分层池化操作Hierarchical_Pooling(·)处理后得到的句子级的编码向量;分层池化操作首先对原有的句子向量进行n-gram窗口的最大池化操作,再进行平均池化得到最终的句子编码结果;
S1.5、采用分层Transformer网络通过多头自注意力机制将前M-1轮对话中的句子级的编码向量sk转换为前M-1轮的上下文向量表示X1:M-1
X1:M-1=Encoder(s1:M-1)
对话级编码网络中的多头注意力机制能够忽略对话的时序关系,捕捉到多轮对话中的长程依赖,从而能够更加有效地提取到与当前响应情感类别预测任务有关的对话历史信息;s1:M-1表示前M-1轮对话的句子级的编码向量,s1:M-1=s1,s2,…sk,…,sM-1
S2、潜在情感响应学习模块采用变分网络学习语料中从上下文向量表示X1:M-1到情感响应的映射,从而建模得到潜在分布z,潜在分布z能够从语料中学习到情感对话的交互模式,具体包括以下步骤:
S2.1、采用先验网络构建情感类别的预测条件c,该先验网络记为pθ,将编码前M-1轮的上下文向量表示X1:M-1、当前第M轮对话中对话代理的响应动作
Figure BDA0003724076350000081
以及查询结果的任务相关知识向量uM,构建情感类别预测的条件c,其中任务相关知识向量uM是根据用户对话匹配的用户意图和对话槽值信息的编码,具体如下:
Figure BDA0003724076350000091
其中,FF(·)表示前馈网络;假设潜在分布z服从具有对数协方差矩阵的多元高斯分布,则可表示为pθ(z|c)~N(μ,σ2),含义为条件c下潜在分布z的概率满足高斯分布均值μ和方差σ;
采用多头注意力机制计算潜在分布z的均值μ和方差σ,具体如下:
h=Hierarchical_Pooling(MH(c,c,c))
Figure BDA0003724076350000092
其中,MH(·)表示多头自注意力网络,Hierarchical_Pooling为分层池化操作,Wp和bp分别为多头注意力网络的权重和偏置值,可通过神经网络的线性层学习得到;
本实施例中,前馈网络为循环神经网络,多头自注意力网络为transformer网络。
S2.2、将第M轮对话中的对话代理的响应YM视为对话代理的响应目标yM,采用BERT模型将对话代理的响应YM编码得到目标句子的向量vM,vM表示第M轮对话中的对话文本向量,根据前M-1轮对话预测得到;根据条件c和响应目标yM引入分布z′,令分布z′服从
Figure BDA0003724076350000093
在条件c和响应目标yM的情况下分布z′满足均值μ′和方差σ′的高斯分布;
Figure BDA0003724076350000094
记为该识别网络。该做法的目的是为了让响应目标yM的分布z′和潜在分布z的分布相接近,分布z′的均值μ′和方差σ′的计算方式为:
c′=Linear([c;vM])
h′=Hierarchical_Pooling(MH(c′,c′,c′))
Figure BDA0003724076350000095
其中,Wq和bq分别是h′的权重和偏置值,h′表示分层池化操作的结果;可以利用重参数技巧根据μ和σ采样出潜在分布z,或从识别网络
Figure BDA0003724076350000096
中根据μ′和σ′采样出分布z′,并将潜在分布z或分布z′应用到解码器中进行对话代理的响应Y的重构;
S2.3、根据分布z′进行采样,基于Transformer的解码器网络以向量拼接的形式将潜在分布特征和采样的特征进行融合,具体如下:
基于Transformer的解码器网络将条件c和对对话代理的响应YM进行位移和掩盖操作后得到的向量化表示Ymask作为输入,通过Transformer解码块计算后得到输出Tout
Tout=Decoder(Ymask,c)
解码器网络将分布z′的向量与输出Tout进行拼接,通过一个带有Softmax激活的线性层对对话代理的响应YM进行重构,得到预测的响应文本Y′M
Y′M=softmax(Linear([z′;Tout]))
S2.4、通过预测的词语分布y′n与真实分布yn之间的交叉熵损失
Figure BDA0003724076350000101
训练解码器网络,其中n是词语的索引,y′n∈Y′M,yn∈YM
Figure BDA0003724076350000102
分布z′通过随机梯度变分贝叶斯框架,经由最大化以下的变分下界进行学习得到,具体如下:
Figure BDA0003724076350000103
Figure BDA0003724076350000104
的作用是利用KL散度迫使模型保持两个分布相接近;
其中,所述变分下界利用KL散度迫使潜在分布z和分布z′相接近;通过联合损失函数
Figure BDA0003724076350000105
Figure BDA0003724076350000106
进行训练。
S3、交互情感预测模块通过一个带有softmax激活的线性网络实现;交互情感预测模块将对话上下文编码模块输出的上下文向量表示X1:M-1和潜在分布z作为输入,预测响应情感E′Y
预测响应情感E′Y的学习函数为:
E′Y=softmax(Linear([Mean(X1:M-1);z]))
损失函数
Figure BDA0003724076350000111
为:
Figure BDA0003724076350000112
其中,K表示情感类型的数量,n是词语的索引,en是预测的响应情感,p(en)∈[0,1]表示所预测的响应情感E′Y的标签概率分布,on∈{0,1}表示情感EY的真实值;
最后,利用损失函数
Figure BDA0003724076350000113
通过反向梯度传播对交互情感预测模块中的参数进行调整优化,得到训练好的交互情感预测模块。
实施例2:
本实施例中,与实施例1的不同之处具体如下:
步骤S1中,融合对话文本、任务相关知识和属性三种对话特征的向量,属性特征向量不包括用户角色。
步骤S2.1中,多头自注意力网络的头设置并没有限制,本实施例中多头个数设置为6。
步骤S2.3中,基于Transformer的解码器网络以向量相加(而非拼接)的形式将潜在分布特征和采样的特征进行融合。
步骤S3中,交互情感预测模块将对话上下文编码模块输出的上下文向量表示X1:M-1和分布z′和z的平均作为输入,预测响应情感E′Y
预测响应情感E′Y的学习函数为:
E′Y=softmax(Linear([Mean(X1:M-1);z]))
其中用与分类的softmax将情感分类为特定个数K,K在此实施列中为7个情感类别。
实施例3:
本实施例中,与实施例1的不同之处具体如下:
步骤S1中,融合对话文本、任务相关知识和属性三种对话特征的向量,相关知识特征向量只包含用户意图。
步骤S2.1中,多头自注意力网络的头设置并没有限制,本实施例中多头个数设置为12。
步骤S2.3中,解码器网络将条件c和对目标输出Y进行直接拼接和掩盖操作后得到的向量化表示Ymask
步骤S3中,交互情感预测模块将对话上下文编码模块输出的上下文向量表示X1:M-1和分布z′作为输入,预测响应情感E′Y
预测响应情感E′Y的学习函数为:
E′Y=softmax(Linear([Mean(X1:M-1);z]))
其中用与分类的softmax将情感分类为特定个数K,K在此实施列中为22个情感类别。
尽管已经示出和描述了本发明的实施例,对于本领域普通技术人员而言,可以理解的是,在不脱离本发明原理和精神的情况下可以对这些实施例进行多种等效的变换、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。

Claims (10)

1.一种在对话策略中响应情感类别预测方法,其特征在于,包括以下步骤:
S1、知识增强的对话上下文编码模块通过分层Transformer网络将前M-1轮的对话历史信息V1:M-1编码为上下文向量表示X1:M-1,并融合对话中的对话特征,提升上下文编码模块的语义表征能力;
S2、潜在情感响应学习模块采用变分网络学习语料中从上下文向量表示X1:M-1到情感响应的映射,从而建模得到潜在分布z,潜在分布z能够从语料中学习到情感对话的交互模式;
S3、交互情感预测模块通过一个带有softmax激活的线性网络实现;交互情感预测模块将对话上下文编码模块输出的上下文向量表示X1:M-1和潜在分布z作为输入,预测响应情感E′Y
2.根据权利要求1所述的一种在对话策略中响应情感类别预测方法,其特征在于,步骤S1中,对于前M-1轮的对话历史信息V1:M-1中的每一轮对话,融合对话文本、任务相关知识和属性三种对话特征,每一种对话特征的表示形式均为向量化表示。
3.根据权利要求2所述的一种在对话策略中响应情感类别预测方法,其特征在于,所述对话文本是对话的上下文。
4.根据权利要求2所述的一种在对话策略中响应情感类别预测方法,其特征在于,所述任务相关知识为任务型对话中的用户意图和槽值信息,通过查询数据库得到。
5.根据权利要求2所述的一种在对话策略中响应情感类别预测方法,其特征在于,所述属性信息为用户角色类型和用户角色的情感信息,用户角色类型包括对话代理和客户。
6.根据权利要求2所述的一种在对话策略中响应情感类别预测方法,其特征在于,步骤S1具体包括以下步骤:
S1.1、对于第k轮对话中由用户或对话代理产生的对话文本
Figure FDA0003724076340000011
Figure FDA0003724076340000021
使用BERT模型将对话文本Vk编码为对话文本向量vk
Figure FDA0003724076340000022
为第k轮中第i个用户或对话代理产生的对话文本;
S1.2、对于第k轮对话中包括的任务相关知识
Figure FDA0003724076340000023
采用BERT模型进行知识编码得到任务相关知识向量uk,其中,
Figure FDA0003724076340000024
为第k轮第i个用户的任务相关知识,任务相关知识的编码同样采用BERT模型进行参数初始化;
S1.3、对于第k轮对话中的属性信息,将用户角色类型和第k轮对话的情感类别表示为独热向量,并采用一个线性的属性编码网络将该独热向量表示为第k轮对话中的属性信息向量attk
S1.4、对于第k轮对话,通过一个线性前馈网络和一个分层池化操作融合对话文本向量vk、任务相关知识向量uk和属性信息向量attk并得到句子级的编码向量sk
sk=Hierarchical_pooling(Ws·[vk;Mean(uk);attk]+bs)
其中,Mean(·)表示平均池化操作,Ws和bs分别为线性前馈网络的权重和偏置;sk是第k轮对话中的经过分层池化操作Hierarchical_Pooling(·)处理后得到的句子级的编码向量;分层池化操作首先对原有的句子向量进行n-gram窗口的最大池化操作,再进行平均池化得到最终的句子编码结果;
S1.5、采用分层Transformer网络通过多头自注意力机制将前M-1轮对话中的句子级的编码向量sk转换为前M-1轮的上下文向量表示X1:M-1
X1:M-1=Encoder(s1:M-1)
对话级编码网络中的多头注意力机制能够忽略对话的时序关系,捕捉到多轮对话中的长程依赖,从而能够更加有效地提取到与当前响应情感类别预测任务有关的对话历史信息;s1:M-1表示前M-1轮对话的句子级的编码向量,s1:M-1=s1,s2,…sk,…,sM-1
7.根据权利要求6所述的一种在对话策略中响应情感类别预测方法,其特征在于,步骤S2具体包括以下步骤:
S2.1、采用先验网络构建情感类别的预测条件c,该先验网络记为pθ,具体如下:
将编码前M-1轮的上下文向量表示X1:M-1、当前第M轮对话中对话代理的响应动作
Figure FDA0003724076340000031
以及查询结果的任务相关知识向量uM,构建情感类别预测的条件c,其中,任务相关知识向量uM是根据用户对话匹配的用户意图和对话槽值信息的编码,具体如下:
Figure FDA0003724076340000032
其中,FF(·)表示前馈网络;假设潜在分布z服从具有对数协方差矩阵的多元高斯分布,则可表示为pθ(z|c)~N(μ,σ2),含义为条件c下潜在分布z的概率满足高斯分布均值μ和方差σ;
采用多头注意力机制计算潜在分布z的均值μ和方差σ,具体如下:
h=Hierarchical_Pooling(MH(c,c,c))
Figure FDA0003724076340000033
其中,MH(·)表示多头自注意力网络,Hierarchical_Pooling为分层池化操作,Wp和bp分别为多头注意力网络的权重和偏置值,可通过神经网络的线性层学习得到;
S2.2、将第M轮对话中的对话代理的响应YM视为对话代理的响应目标yM,采用BERT模型将对话代理的响应YM编码得到目标句子的向量vM,vM表示第M轮对话中的对话文本向量,根据前M-1轮对话预测得到;根据条件c和响应目标yM引入分布z′,令分布z′服从
Figure FDA0003724076340000034
在条件c和响应目标yM的情况下分布z′满足均值μ′和方差σ′的高斯分布,
Figure FDA0003724076340000035
记为识别网络;该做法的目的是为了让响应目标yM的分布z′和潜在分布z的分布相接近,分布z′的均值μ′和方差σ′的计算方式为:
c′=Linear([c;vM])
h′=Hierarchical_Pooling(MH(c′,c′,c′))
Figure FDA0003724076340000036
其中,Wq和bq分别是h′的权重和偏置值,h′表示分层池化操作的结果;可以利用重参数技巧根据μ和σ采样出潜在分布z,或从识别网络
Figure FDA0003724076340000041
中根据μ′和σ′采样出分布z′,并将潜在分布z或分布z′应用到解码器中进行对话代理的响应Y的重构;
S2.3、根据分布z′进行采样,基于Transformer的解码器网络以向量拼接的形式将潜在分布特征和采样的特征进行融合,具体如下:
基于Transformer的解码器网络将条件c和对对话代理的响应YM进行位移和掩盖操作后得到的向量化表示Ymask作为输入,通过Transformer解码块计算后得到输出Tout
Tout=Decoder(Ymask,c)
解码器网络将分布z′的向量与输出Tout进行拼接,通过一个带有Softmax激活的线性层对对话代理的响应YM进行重构,得到预测的响应文本Y′M
Y′M=softmax(Linear([z′;Tout]))
S2.4、通过预测的词语分布y′n与真实分布yn之间的交叉熵损失
Figure FDA0003724076340000042
训练解码器网络,其中n是词语的索引,y′n∈Y′M,yn∈YM
Figure FDA0003724076340000043
分布z′通过随机梯度变分贝叶斯框架,经由最大化以下的变分下界进行学习得到,具体如下:
Figure FDA0003724076340000044
Figure FDA0003724076340000045
的作用是利用KL散度迫使模型保持两个分布相接近。
8.根据权利要求7所述的一种在对话策略中响应情感类别预测方法,其特征在于,所述变分下界利用KL散度迫使潜在分布z和分布z′相接近;通过联合损失函数
Figure FDA0003724076340000046
Figure FDA0003724076340000047
进行训练。
9.根据权利要求7所述的一种在对话策略中响应情感类别预测方法,其特征在于,步骤S3中,预测响应情感E′Y的学习函数为:
E′Y=softmax(Linear([Mean(X1:M-1);z]))
损失函数
Figure FDA0003724076340000051
为:
Figure FDA0003724076340000052
其中,K表示情感类型的数量,n是词语的索引,en是预测的响应情感,p(en)∈[0,1]表示所预测的响应情感E′Y类别的概率分布,on∈{0,1}表示情感EY的真实值。
10.根据权利要求1~9任一项所述的一种在对话策略中响应情感类别预测方法,其特征在于,利用损失函数
Figure FDA0003724076340000053
通过反向梯度传播对交互情感预测模块中的参数进行调整优化,得到训练好的交互情感预测模块。
CN202210761098.7A 2022-06-30 2022-06-30 一种在对话策略中响应情感类别预测方法 Active CN115062115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210761098.7A CN115062115B (zh) 2022-06-30 2022-06-30 一种在对话策略中响应情感类别预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210761098.7A CN115062115B (zh) 2022-06-30 2022-06-30 一种在对话策略中响应情感类别预测方法

Publications (2)

Publication Number Publication Date
CN115062115A true CN115062115A (zh) 2022-09-16
CN115062115B CN115062115B (zh) 2024-06-21

Family

ID=83204456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210761098.7A Active CN115062115B (zh) 2022-06-30 2022-06-30 一种在对话策略中响应情感类别预测方法

Country Status (1)

Country Link
CN (1) CN115062115B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400492A (zh) * 2020-02-17 2020-07-10 合肥工业大学 基于sfm-dcnn的层次特征文本分类方法和系统
CN113204674A (zh) * 2021-07-05 2021-08-03 杭州一知智能科技有限公司 基于局部-整体图推理网络的视频-段落检索方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400492A (zh) * 2020-02-17 2020-07-10 合肥工业大学 基于sfm-dcnn的层次特征文本分类方法和系统
CN113204674A (zh) * 2021-07-05 2021-08-03 杭州一知智能科技有限公司 基于局部-整体图推理网络的视频-段落检索方法及系统

Also Published As

Publication number Publication date
CN115062115B (zh) 2024-06-21

Similar Documents

Publication Publication Date Title
CN109670035B (zh) 一种文本摘要生成方法
CN108681610B (zh) 生成式多轮闲聊对话方法、系统及计算机可读存储介质
CN107357838B (zh) 基于多任务学习的对话策略在线实现方法
CN111897941A (zh) 对话生成方法、网络训练方法、装置、存储介质及设备
CN111930914B (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN114722838A (zh) 基于常识感知和层次化多任务学习的对话情感识别方法
CN115964467A (zh) 一种融合视觉情境的富语义对话生成方法
CN113239167A (zh) 一种可自动生成对话策略的任务型对话管理方法和系统
CN112100350B (zh) 一种用于强化回复个性化表达的开放域对话方法
CN111666400A (zh) 消息获取方法、装置、计算机设备及存储介质
CN113988086A (zh) 对话处理方法及装置
CN116975288A (zh) 文本处理方法及文本处理模型训练方法
CN114444481B (zh) 一种新闻评论的情感分析与生成方法
CN113177113B (zh) 任务型对话模型预训练方法、装置、设备及存储介质
CN112417125B (zh) 基于深度强化学习的开放域对话回复方法及系统
CN114239607A (zh) 一种对话答复方法及装置
CN114281954A (zh) 一种基于关系图注意力网络的多轮对话回复生成系统及方法
CN116863920B (zh) 基于双流自监督网络的语音识别方法、装置、设备及介质
CN111522923A (zh) 一种多轮任务式对话状态追踪方法
CN111414466A (zh) 一种基于深度模型融合的多轮对话建模方法
CN115062115A (zh) 一种在对话策略中响应情感类别预测方法
Dai et al. Dialogue response generation via contrastive latent representation learning
CN116150334A (zh) 基于UniLM模型和Copy机制的中文共情语句训练方法及系统
CN114860908A (zh) 一种融合槽位关联和语义关联的任务型对话状态跟踪方法
Gupta A review of generative AI from historical perspectives

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant