CN114416948A - 一种基于语义感知的一对多对话生成方法及装置 - Google Patents

一种基于语义感知的一对多对话生成方法及装置 Download PDF

Info

Publication number
CN114416948A
CN114416948A CN202210052665.1A CN202210052665A CN114416948A CN 114416948 A CN114416948 A CN 114416948A CN 202210052665 A CN202210052665 A CN 202210052665A CN 114416948 A CN114416948 A CN 114416948A
Authority
CN
China
Prior art keywords
decoder
dialogue
training
distribution
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210052665.1A
Other languages
English (en)
Inventor
王烨
廖靖波
于洪
冷佳旭
刘立
林安琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210052665.1A priority Critical patent/CN114416948A/zh
Publication of CN114416948A publication Critical patent/CN114416948A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及对话系统领域,特别涉及一种基于语义感知的一对多对话生成方法及装置,包括获取实时输入问题并送入训练好的对话生成模型,对话生成模型根据输入问题得到多样性的回复,对话生成模型包括输入编码器、输出编码器、识别网络、先验网络、分类器、no emotion解码器、positive解码器、negative解码器;本发明的模型分为预训练和训练两个训练过程,本发明在模型中引入一个能识别出对话的情感或动作的可控变量,通过该可控件变量来选择不同类别的解码器并在训练过程中迫使隐空间特征解耦成不同语义类别的子空间,让相同语义类别的对话能映射到隐空间的相近的位置,进而生成个性化、高质量、可解释、多样性的文本。

Description

一种基于语义感知的一对多对话生成方法及装置
技术领域
本发明涉及对话系统领域,特别涉及一种基于语义感知的一对多对话生成方法及装置。
背景技术
对话系统主要分为以任务为导向的对话系统和开放式的对话系统。随着近年来神经网络的快速发展,对话系统从早期的统计语言模型的模型逐渐转向了基于深度序列模型的生成模型。
虽然生成模型提高了开放型对话系统的性能,但这样的黑盒模型仍存在预测结果可信度低、可解释性差的问题。针对上述问题,现有技术利用无监督模型生成更具解释性和可控性的对话,进而提出了基于潜在空间能量耦合了密集向量与符号向量的先验模型,而后通过引入指数混合分布捕获混合成分和数据之间的隐藏语义关系,得到一个更具有可解释性的隐空间。然而上述的对话模型仍然无法有效捕捉不同情绪的隐特征对解码器不同的生成逻辑,无法很好的解决解码器回复单一性的问题,因此在进行人机对话时,生成的高频无意义的回复,导致用户体验不佳。
发明内容
为解决传统开放领域对话生成模型中将不同的情感动作混合在一起,倾向生成高频无意义回复的问题。本发明提供了一种基于语义感知的一对多对话生成方法,获取实时输入问题,将实时输入问题送入训练好的对话生成模型,对话生成模型根据输入问题得到多样性的回复,对话生成模型包括输入编码器、输出编码器、识别网络、先验网络、分类器、no emotion解码器、positive解码器、negative解码器;
对话生成模型的训练过程包括预训练和训练两个过程,具体表示为:
101、获取多组对话样本对输入编码器、输出编码器、识别网络、先验网络、分类器、预训练解码器进行预训练,预训练过程包括:
S11.对多组对话样本进行预处理,每组对话样本包括问题、回复和问题的情感标签;
S12.从多组预处理后的对话样本中抽取一组对话样本,将对话样本中预处理后的问题和回复分别送入输入编码器和输出编码器进行编码,得到问题向量表示和回复向量表示;
S13.将问题向量表示送入先验网络得到先验分布的参数,将回复向量表示送入识别网络得到近似后验分布的参数,计算先验分布和近似后验分布的KL散度并计算KL散度损失;
S14.根据近似后验分布的参数得到隐变量,将隐变量输入分类器计算当前对话样本属于各类别的归一化概率,取最大的归一化概率的类别作为分类结果,并计算分类损失;
S15.将隐变量作为预训练解码器的初始状态,将回复输入预训练解码器得到输出结果,并根据输出结果计算重构期望损失;
S16.将KL散度损失、分类损失和重构期望损失相加,通过梯度反向传播更新对话生成模型的参数,参数更新后返回步骤S12进行迭代,直到参数收敛完成对话生成模型的预训练;
102、完成预训练后,固定输入编码器、输出编码器、识别网络、先验网络和分类器的参数,将对话样本按照无情感、积极情感和消极情感分为三种类型的对话数据,分别用于no emotion解码器、positive解码器、negative解码器,采用重构损失函数依次训练三种解码器,直到三种解码器的参数收敛完成对话生成模型的训练。
进一步的,对多组对话样本采用Word2vec进行预处理包括,得到问题词嵌入序列{e(C1),e(C2),...,e(Cn)}和回复词嵌入序列{e(X1),e(X2),...,(Xn)},e(·)表示对对话样本中的单词做词嵌入,{C1,C2,...,Cn}为对话样本中的问题,{X1,X2,...,Xn}为对话样本中的回复。
进一步的,计算KL散度的公式为:
Figure BDA0003474926870000031
其中,μ、σ为近似后验分布的参数,μ'、σ'为先验分布的参数,dz是隐变量维度,qφ表示近似后验分布,
Figure BDA0003474926870000032
表示先验分布,j表示当前维度数。
进一步的,步骤S14中,根据近似后验分布的参数重参数化得到隐变量,重参数化表示为:
z=μ+σε;
其中,ε从标准高斯分布中采样得到,z为隐变量,μ、σ为近似后验分布的高斯分布参数。
进一步的,步骤S15中将隐变量通过多层感知机mlp转化成和预训练解码器相同维度的张量,从而将其作为预训练解码器的初始化隐状态h0和初始化细胞状态c0
进一步的,步骤S16中由KL散度损失、分类损失和重构期望损失构成的预训练损失函数为:
Figure BDA0003474926870000033
其中,-Eqφ(z|X,C)[·]表示重构期望损失,KL(·)表示KL散度损失,NLLLoss(·)表示分类损失,X表示回复,C表示问题,z表示隐变量,label表示问题的emotion标签,P(E)表示当前对话样本属于各类别的归一化概率,Pθ(X|z,C)表示条件概率分布,qφ(z|X,C)表示近似后验分布,
Figure BDA0003474926870000034
表示先验分布,φ、
Figure BDA0003474926870000035
θ为概率分布的参数。
进一步的,通过分类器得到归一化概率P(E),分类器包括一个多层感知机和softmax层,隐变量为多层感知机的输入,多层感知机的输出作为softmax层的输入,softmax层的输出即为P(E),其表示为:
p(E)=Clf(z);
Clf(z)=softmax(o);
o=MLP(z);
其中,Clf(·)表示分类器,MLP(·)表示多层感知机,softmax(·)表示softmax层,o表示多层感知机的输出。
一种基于语义感知的一对多对话生成装置,包括:
获取模块,用于实时获取输入语句;
编码器模块,用于对获取模块的输入语句进行编码,得到输入语句的向量表示;
识别模块,用于拟合编码器模块得到的向量表示,得到包含对话类别信息的隐变量;
分类模块,用于根据隐变量确定输入语句的语义分类结果;
生成模块,用于根据语义分类结果确定对应的解码器,根据解码器生成相应语义的回复。
本发明的有益效果:
本发明在模型中引入一个能识别出对话的情感或动作的可控变量,通过该可控件变量来选择不同类别的解码器并在训练过程中迫使隐空间特征解耦成不同语义类别的子空间,让相同语义类别的对话能映射到隐空间的相近的位置,进而生成个性化、高质量、可解释、多样性的文本。
本发明构建的对话生成模型通过分类器的结果来选择解码器,在文本生成质量的各项指标上都要比其他只用单种类型的解码器或预训练时的解码器模型更好,本发明的模型能生成更高质量的、多样性的对话。
附图说明
图1为本发明的对话生成模型结构图;
图2为带情感标签的数据集隐变量可视结果;
图3为带行为标签的数据集隐变量可视结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于语义感知的开放领域一对多对话生成方法,基于条件变分自编码器(CVAE)提出的优化方案SCVAE。通过引入一个显式可控变量来迫使隐空间解耦,将不同类别的对话映射到隐空间的不同位置,隐空间表示为一个按类别分开的多维高斯分布。如图1所示,包括获取实时输入问题,将实时输入问题送入训练好的对话生成模型,对话生成模型根据输入问题得到多样性的回复,对话生成模型包括输入编码器、输出编码器、识别网络、先验网络、分类器、no emotion解码器、positive解码器、negative解码器。
本发明构建的对话生成模型可以由一个问题生成多种不同的回复,多种不同的回复取决于对隐空间的采样,每次采样所生成的对话都是不同的。多个解码器的作用是不同的解码器生成的对话,其携带的情感不同,所以叫语义感知的一对多对话。具体运用过程就是,模型编码问题后,对对话语义分类,根据分类结果选择对应的解码器来生成对应语义的不同对话。
解码器在训练过程中生成的回答文本具有个性化、高质量、可解释、多样性的特点,在一实施例中,对话生成模型的训练过程包括预训练和训练两个过程,具体表示为:
101、获取多组对话样本对对话生成模型进行预训练,其中,预训练过程不对noemotion解码器、positive解码器、negative解码器进行训练,并加入了一个预训练解码器,由于训练的时候不同类别的对话都是使用的同一个编码器和分类器,所以需要在预训练阶段以普通对话生成任务和分类任务来预训练得到一个比较好的分类器和能编码不同语义对话的编码器。在训练阶段会固定编码器和分类器的参数,使得在训练阶段编码器和分类器不会发生改变。预训练解码器在预训练之后不会再用到,只有预训练阶段的分类任务会用到。
预训练过程包括:
S11.对多组对话样本进行预处理,每组对话样本包括问题、回复和问题的情感标签;
S12.从多组预处理后的对话样本中抽取一组对话样本,将对话样本中预处理后的问题和回复分别送入输入编码器和输出编码器进行编码,得到问题向量表示和回复向量表示;
S13.将问题向量表示送入先验网络得到先验分布的参数,将回复向量表示送入识别网络得到近似后验分布的参数,计算先验分布和近似后验分布的KL散度并计算KL散度损失;
S14.根据近似后验分布的参数得到隐变量,将隐变量输入分类器计算当前对话样本属于各类别的归一化概率,取最大的归一化概率的类别作为分类结果,并计算分类损失;
S15.将隐变量作为预训练解码器的初始状态,将回复输入预训练解码器得到输出结果,并根据输出结果计算重构期望损失;
S16.将KL散度损失、分类损失和重构期望损失相加,通过梯度反向传播更新对话生成模型的参数,参数更新后返回步骤S12进行迭代,直到参数收敛完成对话生成模型的预训练;
102、完成预训练后,固定输入编码器、输出编码器、识别网络、先验网络和分类器的参数,将对话样本按照无情感、积极情感和消极情感三个类别进行分类,分别用于训练noemotion解码器、positive解码器、negative解码器。
优选地,no emotion解码器的训练过程包括:
S21.对无情感对话数据对进行预处理,无情感对话数据对包括问题、回复和问题的无情感标签;
S22.从多组预处理后的无情感对话数据对中抽取一组,将该组中无情感对话数据对分别送入输入编码器和输出编码器进行编码,得到第一问题向量表示和第一回复向量表示;
S23.将第一问题向量表示送入先验网络得到先验分布的第一参数,将第一回复向量表示和第一问题向量表示送入识别网络得到近似后验分布的第一参数;
S24.根据近似后验分布的第一参数得到第一隐变量,将第一隐变量输入解码器得到第一输出结果,并根据第一输出结果计算第一重构损失;通过梯度反向传播更新noemotion解码器的参数,参数更新后返回步骤S22进行迭代,直到参数收敛完成no emotion解码器的训练。
积极情感对话数据对包括问题、回复和问题的积极情感标签;消极情感对话数据对包括问题、回复和问题的消极情感标签;按照no emotion解码器的训练过程训练positive解码器、negative解码器。
在一实施例中,预训练过程就是优化输入编码器、输出编码器、识别网络、先验网络、分类器、预训练解码器的过程,使用的数据为多组带情感标签的对话样本(C,X,E),其中C是对话样本中的问题文本序列{C1,C2,...,Cn},X是对话样本中的回复文本序列{X1,X2,...,Xn},E是问题文本的情感标签,采用问题文本的标签是为了生成对应问题文本情感的回复。
采用Word2vec对对话样本进行词嵌入,问题词嵌入序列表示为{e(C1),e(C2),...,e(Cn)},回复词嵌入序列表示为{e(X1),e(X2),...,(Xn)},e(·)表示对文本单词做词嵌入,e(Xi),e(Ci)∈RD,D=300。
输入编码器和输出编码器均采用双向LSTM实现,输入编码器将问题词嵌入编码为稠密的问题向量表示,输出编码器将回复词嵌入编码为稠密的回复向量表示;得到问题向量表示和回复向量表示后,需要将其拟合成潜在空间高斯分布的高斯参数,本实施例采用两个多层感知机实现,即识别网络和先验网络。
识别网络用于拟合近似后验分布的高斯分布参数μ、σ,先验网络用于拟合先验分布的高斯分布参数μ'、σ',计算得到近似后验分布和先验分布的高斯参数μ、σ、μ'、σ'后,为了实现将隐空间特征解耦成不同语义类别的子空间,利用高斯参数计算近似后验分布和先验分布的KL散度,通过KL散度逼近近似后验分布和先验分布,其中,KL散度的计算公式为:
Figure BDA0003474926870000081
其中,μ、σ为近似后验分布的参数,μ'、σ'为先验分布的参数,dz是隐变量维度,qφ表示近似后验分布(识别网络),
Figure BDA0003474926870000082
表示先验分布(先验网络),j表示当前维度数。
因为采样过程不可逆,若直接从隐空间采样会导致优化失败,故重参数化隐变量z,z=μ+σε,ε从标准高斯分布中采样得到;训练的时候,同样从近似后验分布中采样得到隐变量z,测试的时候,由于回复不能使用,只能使用问题,所以从先验分布中重参数化得到隐变量z=μ'+σ'ε。
在预训练过程中,隐变量z是分类器的输入和解码器的初始隐藏状态,分类器包括一个多层感知机和softmax层,隐变量为多层感知机的输入,多层感知机的输出作为softmax层的输入,softmax层的输出即为当前对话样本属于各类别的归一化概率P(E),其表示为:
p(E)=Clf(z);
Clf(z)=softmax(o);
o=MLP(z);
其中,Clf(·)表示分类器,MLP(·)表示多层感知机,softmax(·)表示softmax层,o表示多层感知机的输出。
分类器按照如上有监督的训练,最后训练好的模型就会按照类别将不同的数据映射到隐空间不同的位置,相同类别的对话数据会映射到比较相近的位置,不同类别的数据会映射到距离较远的位置。
由于潜变量的维度和解码器隐状态的维度不同,故在解码前先将隐变量通过多层感知机mlp转化成和解码器相同维度的张量,从而作为解码器的初始化隐状态h0和初始化细胞状态c0
将隐变量作为预训练解码器的初始状态,训练时,解码器每一个单元的输入为回复文本对应的单词。测试时解码器的第一个单元的输入为开始标签<SOS>(Start ofsentence),下一个单元的输入为上一个单元的输出,直到生成结束标签<EOS>(End ofsentence)。
最后将解码器每个单元生成的单词按顺序组合起来并去掉开始标签和结束标签,得到的就是生成的对话回复。
预训练过程中,由KL散度损失、分类损失和重构期望损失构成的预训练损失函数为:
Figure BDA0003474926870000091
其中,-Eqφ(z|X,C)[logPθ(X|z,C)]表示重构期望损失,
Figure BDA0003474926870000092
表示KL散度损失,NLLLoss(P(E),label)表示分类损失,X表示回复,C表示问题,z表示隐变量,label表示问题的emotion标签,P(E)表示当前对话样本属于各类别的归一化概率,Pθ(X|z,C)表示条件概率分布,qφ(z|X,C)表示近似后验分布,
Figure BDA0003474926870000093
表示先验分布,φ、
Figure BDA0003474926870000094
θ为概率分布的参数。
训练过程采用的重构损失函数为预训练过程中的重构期望损失,表示为:
Figure BDA0003474926870000096
X1表示所属类别的对话样本中的回复,C1表示所属类别的对话样本中的问题,z1表示某一解码器训练过程的隐变量,Pθ(X1|z1,C1)表示条件概率分布,φ、
Figure BDA0003474926870000095
θ为概率分布的参数。
优选地,图2是隐空间中可视结果,记录了带情感标签的数据分别在隐空间中的原始分布与右图在使用了本发明模型后的解耦分布,表明本发明模型能够将对话按类别编码到隐空间不同的位置
图3是隐空间中可视结果,记录了带行为标签的数据分别在隐空间中的原始分布与右图在使用了本发明模型后的解耦分布,表明本发明模型能够将对话按类别编码到隐空间不同的位置。
对比了优化模型与其他对话生成的模型在几个评价指标(BLEU、METEOR、ROUGE、Distinct-2、ACC)上的文本的生成质量,指标结果如表1和2所示。
表1是带有情感标签的评价指标结果,表中记录了在带有情感标签的数据集下,本发明模型中每个类别的解码器(no emotion、positive、negative、pretrain预训练时的解码器)生成对话的效果以及本发明模型与其他模型在5个评价指标上的结果,本发明模型在BLEU、METEOR上比其他模型都要高,在ROUGE上比Seq2seq、Transformer低,在DIST-2中只比Transformer低,表明本发明模型是优于其他模型的。
表1带有情感标签的评价指标结果
Figure BDA0003474926870000101
表2是带有行为标签的评价指标结果,表中记录了在带有行为标签的数据集下本发明模型中每个类别的解码器(no emotion、positive、negative、pretrain预训练时的解码器)生成对话的效果以及本发明模型与其他模型在5个评价指标上的结果,本发明模型在评价指标BLEU、METEOR、ROUGE都比其他模型效果好,只在Dist-2中低于Transformer。所以本发明模型通过分类器的结果来选择解码器在文本生成的质量在各项指标上都要比其他只用单种类型的解码器或预训练时的解码器模型更好。
表2带有行为标签的评价指标结果
Figure BDA0003474926870000102
表1和表2的结果也说明对话的情感和行为标签对文本的生成是有一定程度的影响的,在BLEU、METEOR、ROUGE这三个基于词重叠率的指标上,本发明的模型效果都更好,说明本发明的模型能生成更高质量的对话,而在Dist-2指标上本发明也优于大部分模型,这说明本发明的模型能生成多样性的对话。当本发明的模型正确识别对话中的情感与行为标签时能提高对话回复的各项性能,取得较好的效果且具有泛化能力。
一种基于语义感知的一对多对话生成装置,包括:
获取模块,用于实时获取输入语句;
编码器模块,用于对获取模块的输入语句进行编码,得到输入语句的向量表示;
识别模块,用于拟合编码器模块得到的向量表示,得到包含对话类别信息的隐变量;
分类模块,用于根据隐变量确定输入语句的语义分类结果;
生成模块,用于根据语义分类结果确定对应的解码器,根据解码器生成相应语义的回复。
具体地,生成模块根据输入句子的分类结果选择对应的解码器来生成正确语义的回复。同一个问题每次生成的句子是不同的,这是由于z=μ+σε这一步中的ε是从标准高斯分布中随机采样得到的。由于预训练时的分类任务,使得不同类别的句子在隐空间采样的位置不同,如图2中解耦的隐空间分布所示,不同类别的对话编码到了隐空间的不同位置。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于语义感知的一对多对话生成方法,其特征在于,获取实时输入问题,将实时输入问题送入训练好的对话生成模型,对话生成模型根据输入问题得到多样性的回复,对话生成模型包括输入编码器、输出编码器、识别网络、先验网络、分类器、no emotion解码器、positive解码器、negative解码器;
对话生成模型的训练过程包括预训练和训练两个过程,具体表示为:
101、获取多组对话样本对输入编码器、输出编码器、识别网络、先验网络、分类器、预训练解码器进行预训练,预训练过程包括:
S11.对多组对话样本进行预处理,每组对话样本包括问题、回复和问题的情感标签;
S12.从多组预处理后的对话样本中抽取一组对话样本,将对话样本中预处理后的问题和回复分别送入输入编码器和输出编码器进行编码,得到问题向量表示和回复向量表示;
S13.将问题向量表示送入先验网络得到先验分布的参数,将回复向量表示送入识别网络得到近似后验分布的参数,计算先验分布和近似后验分布的KL散度并计算KL散度损失;
S14.根据近似后验分布的参数得到隐变量,将隐变量输入分类器计算当前对话样本属于各类别的归一化概率,取最大的归一化概率的类别作为分类结果,并计算分类损失;
S15.将隐变量作为预训练解码器的初始状态,将回复输入预训练解码器得到输出结果,并根据输出结果计算重构期望损失;
S16.将KL散度损失、分类损失和重构期望损失相加,通过梯度反向传播更新对话生成模型的参数,参数更新后返回步骤S12进行迭代,直到参数收敛完成对话生成模型的预训练;
102、完成预训练后,固定输入编码器、输出编码器、识别网络、先验网络和分类器的参数,将对话样本按照无情感、积极情感和消极情感分为三种类型的对话数据,分别用于noemotion解码器、positive解码器、negative解码器,采用重构损失函数依次训练三种解码器,直到三种解码器的参数收敛完成对话生成模型的训练。
2.根据权利要求1所述的一种基于语义感知的一对多对话生成方法,其特征在于,对多组对话样本采用Word2vec进行预处理包括,得到问题词嵌入序列{e(C1),e(C2),...,e(Cn)}和回复词嵌入序列{e(X1),e(X2),...,(Xn)},e(·)表示对对话样本中的单词做词嵌入,{C1,C2,...,Cn}为对话样本中的问题,{X1,X2,...,Xn}为对话样本中的回复。
3.根据权利要求1所述的一种基于语义感知的一对多对话生成方法,其特征在于,计算KL散度的公式为:
Figure FDA0003474926860000021
其中,μ、σ为近似后验分布的参数,μ'、σ'为先验分布的参数,dz是隐变量维度,qφ表示近似后验分布,
Figure FDA0003474926860000022
表示先验分布,j表示当前维度数。
4.根据权利要求1所述的一种基于语义感知的一对多对话生成方法,其特征在于,步骤S14中,根据近似后验分布的参数重参数化得到隐变量,重参数化表示为:
z=μ+σε;
其中,ε从标准高斯分布中采样得到,z为隐变量,μ、σ为近似后验分布的高斯分布参数。
5.根据权利要求1所述的一种基于语义感知的一对多对话生成方法,其特征在于,步骤S15中将隐变量通过多层感知机mlp转化成和预训练解码器相同维度的张量,从而将其作为预训练解码器的初始化隐状态h0和初始化细胞状态c0
6.根据权利要求1所述的一种基于语义感知的一对多对话生成方法,其特征在于,步骤S16中由KL散度损失、分类损失和重构期望损失构成的预训练损失函数为:
Figure FDA0003474926860000031
其中,-Eqφ(z|X,C)[·]表示重构期望损失,KL(·)表示KL散度损失,NLLLoss(·)表示分类损失,X表示回复,C表示问题,z表示隐变量,label表示问题的emotion标签,P(E)表示当前对话样本属于各类别的归一化概率,Pθ(X|z,C)表示条件概率分布,qφ(z|X,C)表示近似后验分布,
Figure FDA0003474926860000032
表示先验分布,φ、
Figure FDA0003474926860000033
θ为概率分布的参数。
7.根据权利要求6所述的一种基于语义感知的一对多对话生成方法,其特征在于,通过分类器得到归一化概率P(E),分类器包括一个多层感知机和softmax层,隐变量为多层感知机的输入,多层感知机的输出作为softmax层的输入,softmax层的输出即为P(E),其表示为:
p(E)=Clf(z);
Clf(z)=softmax(o);
o=MLP(z);
其中,Clf(·)表示分类器,MLP(·)表示多层感知机,softmax(·)表示softmax层,o表示多层感知机的输出。
8.一种基于语义感知的一对多对话生成装置,其特征在于,包括:
获取模块,用于实时获取输入语句;
编码器模块,用于对获取模块的输入语句进行编码,得到输入语句的向量表示;
识别模块,用于拟合编码器模块得到的向量表示,得到包含对话类别信息的隐变量;
分类模块,用于根据隐变量确定输入语句的语义分类结果;
生成模块,用于根据语义分类结果确定对应的解码器,根据解码器生成相应语义的回复。
CN202210052665.1A 2022-01-18 2022-01-18 一种基于语义感知的一对多对话生成方法及装置 Pending CN114416948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210052665.1A CN114416948A (zh) 2022-01-18 2022-01-18 一种基于语义感知的一对多对话生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210052665.1A CN114416948A (zh) 2022-01-18 2022-01-18 一种基于语义感知的一对多对话生成方法及装置

Publications (1)

Publication Number Publication Date
CN114416948A true CN114416948A (zh) 2022-04-29

Family

ID=81274326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210052665.1A Pending CN114416948A (zh) 2022-01-18 2022-01-18 一种基于语义感知的一对多对话生成方法及装置

Country Status (1)

Country Link
CN (1) CN114416948A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116629272A (zh) * 2023-07-24 2023-08-22 山东大学 自然语言控制的文本生成方法及系统
CN116932726A (zh) * 2023-08-04 2023-10-24 重庆邮电大学 一种基于可控多空间特征解耦的开放域对话生成方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1475779A1 (en) * 2003-05-01 2004-11-10 Microsoft Corporation System with composite statistical and rules-based grammar model for speech recognition and natural language understanding
US20170344884A1 (en) * 2016-05-25 2017-11-30 Adobe Systems Incorporated Semantic class localization in images
CN108154172A (zh) * 2017-12-21 2018-06-12 重庆邮电大学 基于三支决策的图像识别方法
CN110263150A (zh) * 2019-03-05 2019-09-20 腾讯科技(深圳)有限公司 文本生成方法、装置、计算机设备及存储介质
CN110347792A (zh) * 2019-06-25 2019-10-18 腾讯科技(深圳)有限公司 对话生成方法及装置、存储介质、电子设备
CN111046668A (zh) * 2019-12-04 2020-04-21 北京信息科技大学 多模态文物数据的命名实体识别方法与装置
CN111143509A (zh) * 2019-12-09 2020-05-12 天津大学 一种基于静态-动态注意力变分网络的对话生成方法
CN111782788A (zh) * 2020-07-03 2020-10-16 电子科技大学 一种面向开放域对话系统的情感回复自动生成方法
CN112256829A (zh) * 2020-10-21 2021-01-22 东南大学 一种可控情感与风格的古诗生成方法
CN112257393A (zh) * 2020-12-22 2021-01-22 北京百度网讯科技有限公司 实现文本生成的方法、装置、设备和介质
US20210097387A1 (en) * 2019-09-26 2021-04-01 Naver Corporation Semi-Supervised Variational Autoencoder for Indoor Localization
US20210150151A1 (en) * 2019-01-08 2021-05-20 Institute Of Automation, Chinese Academy Of Sciences Autonomous evolution intelligent dialogue method, system, and device based on a game with a physical environment
US20210200957A1 (en) * 2019-12-27 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating dialogue model
CN113688843A (zh) * 2021-08-06 2021-11-23 之江实验室 一种基于Transformer-VAE的零样本目标识别方法
CN113919906A (zh) * 2021-10-08 2022-01-11 湖南大学 商品评论数据的推送方法、装置及存储介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1475779A1 (en) * 2003-05-01 2004-11-10 Microsoft Corporation System with composite statistical and rules-based grammar model for speech recognition and natural language understanding
US20170344884A1 (en) * 2016-05-25 2017-11-30 Adobe Systems Incorporated Semantic class localization in images
CN108154172A (zh) * 2017-12-21 2018-06-12 重庆邮电大学 基于三支决策的图像识别方法
US20210150151A1 (en) * 2019-01-08 2021-05-20 Institute Of Automation, Chinese Academy Of Sciences Autonomous evolution intelligent dialogue method, system, and device based on a game with a physical environment
CN110263150A (zh) * 2019-03-05 2019-09-20 腾讯科技(深圳)有限公司 文本生成方法、装置、计算机设备及存储介质
CN110347792A (zh) * 2019-06-25 2019-10-18 腾讯科技(深圳)有限公司 对话生成方法及装置、存储介质、电子设备
US20210097387A1 (en) * 2019-09-26 2021-04-01 Naver Corporation Semi-Supervised Variational Autoencoder for Indoor Localization
CN111046668A (zh) * 2019-12-04 2020-04-21 北京信息科技大学 多模态文物数据的命名实体识别方法与装置
CN111143509A (zh) * 2019-12-09 2020-05-12 天津大学 一种基于静态-动态注意力变分网络的对话生成方法
US20210200957A1 (en) * 2019-12-27 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating dialogue model
CN111782788A (zh) * 2020-07-03 2020-10-16 电子科技大学 一种面向开放域对话系统的情感回复自动生成方法
CN112256829A (zh) * 2020-10-21 2021-01-22 东南大学 一种可控情感与风格的古诗生成方法
CN112257393A (zh) * 2020-12-22 2021-01-22 北京百度网讯科技有限公司 实现文本生成的方法、装置、设备和介质
US20210286934A1 (en) * 2020-12-22 2021-09-16 Beijing Baidu Netcom Science And Technology Co., Ltd. Implementing text generation
CN113688843A (zh) * 2021-08-06 2021-11-23 之江实验室 一种基于Transformer-VAE的零样本目标识别方法
CN113919906A (zh) * 2021-10-08 2022-01-11 湖南大学 商品评论数据的推送方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YE WANG等: "Semantic-aware conditional variational autoencoder for one-to-many dialogue generation", 《NEURAL COMPUTING AND APPLICATIONS》, vol. 34, 1 April 2022 (2022-04-01), pages 13683 - 13695, XP037910377, DOI: 10.1007/s00521-022-07182-9 *
包笑明: "支持情感与多样性的对话生成方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 1, 15 January 2022 (2022-01-15), pages 138 - 3558 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116629272A (zh) * 2023-07-24 2023-08-22 山东大学 自然语言控制的文本生成方法及系统
CN116629272B (zh) * 2023-07-24 2023-10-10 山东大学 自然语言控制的文本生成方法及系统
CN116932726A (zh) * 2023-08-04 2023-10-24 重庆邮电大学 一种基于可控多空间特征解耦的开放域对话生成方法
CN116932726B (zh) * 2023-08-04 2024-05-10 重庆邮电大学 一种基于可控多空间特征解耦的开放域对话生成方法

Similar Documents

Publication Publication Date Title
US12067006B2 (en) Machine learning system for digital assistants
Zhou et al. Converting anyone's emotion: Towards speaker-independent emotional voice conversion
Zhang et al. Advanced data exploitation in speech analysis: An overview
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN110321418A (zh) 一种基于深度学习的领域、意图识别和槽填充方法
CN114416948A (zh) 一种基于语义感知的一对多对话生成方法及装置
CN111859954A (zh) 目标对象识别方法、装置、设备及计算机可读存储介质
CN114357976B (zh) 基于信息增强的多轮对话生成方法和系统
CN114550703A (zh) 语音识别系统的训练方法和装置、语音识别方法和装置
Merboldt et al. An Analysis of Local Monotonic Attention Variants.
CN115495566A (zh) 一种增强文本特征的对话生成方法和系统
Elgaar et al. Multi-speaker and multi-domain emotional voice conversion using factorized hierarchical variational autoencoder
Sahu et al. Modeling feature representations for affective speech using generative adversarial networks
CN114743539A (zh) 语音合成方法、装置、设备及存储介质
Kim et al. Enclap: Combining neural audio codec and audio-text joint embedding for automated audio captioning
Li et al. Acted vs. improvised: Domain adaptation for elicitation approaches in audio-visual emotion recognition
CN117592564A (zh) 问答交互方法、装置、设备及介质
Chatziagapi et al. Audio and ASR-based filled pause detection
CN116842150A (zh) 基于对比学习的变分自编码器回复生成方法
Bhavani et al. A survey on various speech emotion recognition techniques
CN112951270A (zh) 语音流利度检测的方法、装置和电子设备
Gündogdu et al. Vector Quantized Temporally-Aware Correspondence Sparse Autoencoders for Zero-Resource Acoustic Unit Discovery.
Pascual De La Puente Efficient, end-to-end and self-supervised methods for speech processing and generation
CN114492464B (zh) 一种基于双向异步序列的对话生成方法及系统
CN116486786B (zh) 一种融合方言和小语种的语音识别控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination