CN114416948A - 一种基于语义感知的一对多对话生成方法及装置 - Google Patents
一种基于语义感知的一对多对话生成方法及装置 Download PDFInfo
- Publication number
- CN114416948A CN114416948A CN202210052665.1A CN202210052665A CN114416948A CN 114416948 A CN114416948 A CN 114416948A CN 202210052665 A CN202210052665 A CN 202210052665A CN 114416948 A CN114416948 A CN 114416948A
- Authority
- CN
- China
- Prior art keywords
- decoder
- dialogue
- training
- distribution
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000008447 perception Effects 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 63
- 230000008451 emotion Effects 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 31
- 238000005070 sampling Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000009471 action Effects 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及对话系统领域,特别涉及一种基于语义感知的一对多对话生成方法及装置,包括获取实时输入问题并送入训练好的对话生成模型,对话生成模型根据输入问题得到多样性的回复,对话生成模型包括输入编码器、输出编码器、识别网络、先验网络、分类器、no emotion解码器、positive解码器、negative解码器;本发明的模型分为预训练和训练两个训练过程,本发明在模型中引入一个能识别出对话的情感或动作的可控变量,通过该可控件变量来选择不同类别的解码器并在训练过程中迫使隐空间特征解耦成不同语义类别的子空间,让相同语义类别的对话能映射到隐空间的相近的位置,进而生成个性化、高质量、可解释、多样性的文本。
Description
技术领域
本发明涉及对话系统领域,特别涉及一种基于语义感知的一对多对话生成方法及装置。
背景技术
对话系统主要分为以任务为导向的对话系统和开放式的对话系统。随着近年来神经网络的快速发展,对话系统从早期的统计语言模型的模型逐渐转向了基于深度序列模型的生成模型。
虽然生成模型提高了开放型对话系统的性能,但这样的黑盒模型仍存在预测结果可信度低、可解释性差的问题。针对上述问题,现有技术利用无监督模型生成更具解释性和可控性的对话,进而提出了基于潜在空间能量耦合了密集向量与符号向量的先验模型,而后通过引入指数混合分布捕获混合成分和数据之间的隐藏语义关系,得到一个更具有可解释性的隐空间。然而上述的对话模型仍然无法有效捕捉不同情绪的隐特征对解码器不同的生成逻辑,无法很好的解决解码器回复单一性的问题,因此在进行人机对话时,生成的高频无意义的回复,导致用户体验不佳。
发明内容
为解决传统开放领域对话生成模型中将不同的情感动作混合在一起,倾向生成高频无意义回复的问题。本发明提供了一种基于语义感知的一对多对话生成方法,获取实时输入问题,将实时输入问题送入训练好的对话生成模型,对话生成模型根据输入问题得到多样性的回复,对话生成模型包括输入编码器、输出编码器、识别网络、先验网络、分类器、no emotion解码器、positive解码器、negative解码器;
对话生成模型的训练过程包括预训练和训练两个过程,具体表示为:
101、获取多组对话样本对输入编码器、输出编码器、识别网络、先验网络、分类器、预训练解码器进行预训练,预训练过程包括:
S11.对多组对话样本进行预处理,每组对话样本包括问题、回复和问题的情感标签;
S12.从多组预处理后的对话样本中抽取一组对话样本,将对话样本中预处理后的问题和回复分别送入输入编码器和输出编码器进行编码,得到问题向量表示和回复向量表示;
S13.将问题向量表示送入先验网络得到先验分布的参数,将回复向量表示送入识别网络得到近似后验分布的参数,计算先验分布和近似后验分布的KL散度并计算KL散度损失;
S14.根据近似后验分布的参数得到隐变量,将隐变量输入分类器计算当前对话样本属于各类别的归一化概率,取最大的归一化概率的类别作为分类结果,并计算分类损失;
S15.将隐变量作为预训练解码器的初始状态,将回复输入预训练解码器得到输出结果,并根据输出结果计算重构期望损失;
S16.将KL散度损失、分类损失和重构期望损失相加,通过梯度反向传播更新对话生成模型的参数,参数更新后返回步骤S12进行迭代,直到参数收敛完成对话生成模型的预训练;
102、完成预训练后,固定输入编码器、输出编码器、识别网络、先验网络和分类器的参数,将对话样本按照无情感、积极情感和消极情感分为三种类型的对话数据,分别用于no emotion解码器、positive解码器、negative解码器,采用重构损失函数依次训练三种解码器,直到三种解码器的参数收敛完成对话生成模型的训练。
进一步的,对多组对话样本采用Word2vec进行预处理包括,得到问题词嵌入序列{e(C1),e(C2),...,e(Cn)}和回复词嵌入序列{e(X1),e(X2),...,(Xn)},e(·)表示对对话样本中的单词做词嵌入,{C1,C2,...,Cn}为对话样本中的问题,{X1,X2,...,Xn}为对话样本中的回复。
进一步的,计算KL散度的公式为:
进一步的,步骤S14中,根据近似后验分布的参数重参数化得到隐变量,重参数化表示为:
z=μ+σε;
其中,ε从标准高斯分布中采样得到,z为隐变量,μ、σ为近似后验分布的高斯分布参数。
进一步的,步骤S15中将隐变量通过多层感知机mlp转化成和预训练解码器相同维度的张量,从而将其作为预训练解码器的初始化隐状态h0和初始化细胞状态c0。
进一步的,步骤S16中由KL散度损失、分类损失和重构期望损失构成的预训练损失函数为:
其中,-Eqφ(z|X,C)[·]表示重构期望损失,KL(·)表示KL散度损失,NLLLoss(·)表示分类损失,X表示回复,C表示问题,z表示隐变量,label表示问题的emotion标签,P(E)表示当前对话样本属于各类别的归一化概率,Pθ(X|z,C)表示条件概率分布,qφ(z|X,C)表示近似后验分布,表示先验分布,φ、θ为概率分布的参数。
进一步的,通过分类器得到归一化概率P(E),分类器包括一个多层感知机和softmax层,隐变量为多层感知机的输入,多层感知机的输出作为softmax层的输入,softmax层的输出即为P(E),其表示为:
p(E)=Clf(z);
Clf(z)=softmax(o);
o=MLP(z);
其中,Clf(·)表示分类器,MLP(·)表示多层感知机,softmax(·)表示softmax层,o表示多层感知机的输出。
一种基于语义感知的一对多对话生成装置,包括:
获取模块,用于实时获取输入语句;
编码器模块,用于对获取模块的输入语句进行编码,得到输入语句的向量表示;
识别模块,用于拟合编码器模块得到的向量表示,得到包含对话类别信息的隐变量;
分类模块,用于根据隐变量确定输入语句的语义分类结果;
生成模块,用于根据语义分类结果确定对应的解码器,根据解码器生成相应语义的回复。
本发明的有益效果:
本发明在模型中引入一个能识别出对话的情感或动作的可控变量,通过该可控件变量来选择不同类别的解码器并在训练过程中迫使隐空间特征解耦成不同语义类别的子空间,让相同语义类别的对话能映射到隐空间的相近的位置,进而生成个性化、高质量、可解释、多样性的文本。
本发明构建的对话生成模型通过分类器的结果来选择解码器,在文本生成质量的各项指标上都要比其他只用单种类型的解码器或预训练时的解码器模型更好,本发明的模型能生成更高质量的、多样性的对话。
附图说明
图1为本发明的对话生成模型结构图;
图2为带情感标签的数据集隐变量可视结果;
图3为带行为标签的数据集隐变量可视结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于语义感知的开放领域一对多对话生成方法,基于条件变分自编码器(CVAE)提出的优化方案SCVAE。通过引入一个显式可控变量来迫使隐空间解耦,将不同类别的对话映射到隐空间的不同位置,隐空间表示为一个按类别分开的多维高斯分布。如图1所示,包括获取实时输入问题,将实时输入问题送入训练好的对话生成模型,对话生成模型根据输入问题得到多样性的回复,对话生成模型包括输入编码器、输出编码器、识别网络、先验网络、分类器、no emotion解码器、positive解码器、negative解码器。
本发明构建的对话生成模型可以由一个问题生成多种不同的回复,多种不同的回复取决于对隐空间的采样,每次采样所生成的对话都是不同的。多个解码器的作用是不同的解码器生成的对话,其携带的情感不同,所以叫语义感知的一对多对话。具体运用过程就是,模型编码问题后,对对话语义分类,根据分类结果选择对应的解码器来生成对应语义的不同对话。
解码器在训练过程中生成的回答文本具有个性化、高质量、可解释、多样性的特点,在一实施例中,对话生成模型的训练过程包括预训练和训练两个过程,具体表示为:
101、获取多组对话样本对对话生成模型进行预训练,其中,预训练过程不对noemotion解码器、positive解码器、negative解码器进行训练,并加入了一个预训练解码器,由于训练的时候不同类别的对话都是使用的同一个编码器和分类器,所以需要在预训练阶段以普通对话生成任务和分类任务来预训练得到一个比较好的分类器和能编码不同语义对话的编码器。在训练阶段会固定编码器和分类器的参数,使得在训练阶段编码器和分类器不会发生改变。预训练解码器在预训练之后不会再用到,只有预训练阶段的分类任务会用到。
预训练过程包括:
S11.对多组对话样本进行预处理,每组对话样本包括问题、回复和问题的情感标签;
S12.从多组预处理后的对话样本中抽取一组对话样本,将对话样本中预处理后的问题和回复分别送入输入编码器和输出编码器进行编码,得到问题向量表示和回复向量表示;
S13.将问题向量表示送入先验网络得到先验分布的参数,将回复向量表示送入识别网络得到近似后验分布的参数,计算先验分布和近似后验分布的KL散度并计算KL散度损失;
S14.根据近似后验分布的参数得到隐变量,将隐变量输入分类器计算当前对话样本属于各类别的归一化概率,取最大的归一化概率的类别作为分类结果,并计算分类损失;
S15.将隐变量作为预训练解码器的初始状态,将回复输入预训练解码器得到输出结果,并根据输出结果计算重构期望损失;
S16.将KL散度损失、分类损失和重构期望损失相加,通过梯度反向传播更新对话生成模型的参数,参数更新后返回步骤S12进行迭代,直到参数收敛完成对话生成模型的预训练;
102、完成预训练后,固定输入编码器、输出编码器、识别网络、先验网络和分类器的参数,将对话样本按照无情感、积极情感和消极情感三个类别进行分类,分别用于训练noemotion解码器、positive解码器、negative解码器。
优选地,no emotion解码器的训练过程包括:
S21.对无情感对话数据对进行预处理,无情感对话数据对包括问题、回复和问题的无情感标签;
S22.从多组预处理后的无情感对话数据对中抽取一组,将该组中无情感对话数据对分别送入输入编码器和输出编码器进行编码,得到第一问题向量表示和第一回复向量表示;
S23.将第一问题向量表示送入先验网络得到先验分布的第一参数,将第一回复向量表示和第一问题向量表示送入识别网络得到近似后验分布的第一参数;
S24.根据近似后验分布的第一参数得到第一隐变量,将第一隐变量输入解码器得到第一输出结果,并根据第一输出结果计算第一重构损失;通过梯度反向传播更新noemotion解码器的参数,参数更新后返回步骤S22进行迭代,直到参数收敛完成no emotion解码器的训练。
积极情感对话数据对包括问题、回复和问题的积极情感标签;消极情感对话数据对包括问题、回复和问题的消极情感标签;按照no emotion解码器的训练过程训练positive解码器、negative解码器。
在一实施例中,预训练过程就是优化输入编码器、输出编码器、识别网络、先验网络、分类器、预训练解码器的过程,使用的数据为多组带情感标签的对话样本(C,X,E),其中C是对话样本中的问题文本序列{C1,C2,...,Cn},X是对话样本中的回复文本序列{X1,X2,...,Xn},E是问题文本的情感标签,采用问题文本的标签是为了生成对应问题文本情感的回复。
采用Word2vec对对话样本进行词嵌入,问题词嵌入序列表示为{e(C1),e(C2),...,e(Cn)},回复词嵌入序列表示为{e(X1),e(X2),...,(Xn)},e(·)表示对文本单词做词嵌入,e(Xi),e(Ci)∈RD,D=300。
输入编码器和输出编码器均采用双向LSTM实现,输入编码器将问题词嵌入编码为稠密的问题向量表示,输出编码器将回复词嵌入编码为稠密的回复向量表示;得到问题向量表示和回复向量表示后,需要将其拟合成潜在空间高斯分布的高斯参数,本实施例采用两个多层感知机实现,即识别网络和先验网络。
识别网络用于拟合近似后验分布的高斯分布参数μ、σ,先验网络用于拟合先验分布的高斯分布参数μ'、σ',计算得到近似后验分布和先验分布的高斯参数μ、σ、μ'、σ'后,为了实现将隐空间特征解耦成不同语义类别的子空间,利用高斯参数计算近似后验分布和先验分布的KL散度,通过KL散度逼近近似后验分布和先验分布,其中,KL散度的计算公式为:
因为采样过程不可逆,若直接从隐空间采样会导致优化失败,故重参数化隐变量z,z=μ+σε,ε从标准高斯分布中采样得到;训练的时候,同样从近似后验分布中采样得到隐变量z,测试的时候,由于回复不能使用,只能使用问题,所以从先验分布中重参数化得到隐变量z=μ'+σ'ε。
在预训练过程中,隐变量z是分类器的输入和解码器的初始隐藏状态,分类器包括一个多层感知机和softmax层,隐变量为多层感知机的输入,多层感知机的输出作为softmax层的输入,softmax层的输出即为当前对话样本属于各类别的归一化概率P(E),其表示为:
p(E)=Clf(z);
Clf(z)=softmax(o);
o=MLP(z);
其中,Clf(·)表示分类器,MLP(·)表示多层感知机,softmax(·)表示softmax层,o表示多层感知机的输出。
分类器按照如上有监督的训练,最后训练好的模型就会按照类别将不同的数据映射到隐空间不同的位置,相同类别的对话数据会映射到比较相近的位置,不同类别的数据会映射到距离较远的位置。
由于潜变量的维度和解码器隐状态的维度不同,故在解码前先将隐变量通过多层感知机mlp转化成和解码器相同维度的张量,从而作为解码器的初始化隐状态h0和初始化细胞状态c0。
将隐变量作为预训练解码器的初始状态,训练时,解码器每一个单元的输入为回复文本对应的单词。测试时解码器的第一个单元的输入为开始标签<SOS>(Start ofsentence),下一个单元的输入为上一个单元的输出,直到生成结束标签<EOS>(End ofsentence)。
最后将解码器每个单元生成的单词按顺序组合起来并去掉开始标签和结束标签,得到的就是生成的对话回复。
预训练过程中,由KL散度损失、分类损失和重构期望损失构成的预训练损失函数为:
其中,-Eqφ(z|X,C)[logPθ(X|z,C)]表示重构期望损失,表示KL散度损失,NLLLoss(P(E),label)表示分类损失,X表示回复,C表示问题,z表示隐变量,label表示问题的emotion标签,P(E)表示当前对话样本属于各类别的归一化概率,Pθ(X|z,C)表示条件概率分布,qφ(z|X,C)表示近似后验分布,表示先验分布,φ、θ为概率分布的参数。
训练过程采用的重构损失函数为预训练过程中的重构期望损失,表示为:
优选地,图2是隐空间中可视结果,记录了带情感标签的数据分别在隐空间中的原始分布与右图在使用了本发明模型后的解耦分布,表明本发明模型能够将对话按类别编码到隐空间不同的位置
图3是隐空间中可视结果,记录了带行为标签的数据分别在隐空间中的原始分布与右图在使用了本发明模型后的解耦分布,表明本发明模型能够将对话按类别编码到隐空间不同的位置。
对比了优化模型与其他对话生成的模型在几个评价指标(BLEU、METEOR、ROUGE、Distinct-2、ACC)上的文本的生成质量,指标结果如表1和2所示。
表1是带有情感标签的评价指标结果,表中记录了在带有情感标签的数据集下,本发明模型中每个类别的解码器(no emotion、positive、negative、pretrain预训练时的解码器)生成对话的效果以及本发明模型与其他模型在5个评价指标上的结果,本发明模型在BLEU、METEOR上比其他模型都要高,在ROUGE上比Seq2seq、Transformer低,在DIST-2中只比Transformer低,表明本发明模型是优于其他模型的。
表1带有情感标签的评价指标结果
表2是带有行为标签的评价指标结果,表中记录了在带有行为标签的数据集下本发明模型中每个类别的解码器(no emotion、positive、negative、pretrain预训练时的解码器)生成对话的效果以及本发明模型与其他模型在5个评价指标上的结果,本发明模型在评价指标BLEU、METEOR、ROUGE都比其他模型效果好,只在Dist-2中低于Transformer。所以本发明模型通过分类器的结果来选择解码器在文本生成的质量在各项指标上都要比其他只用单种类型的解码器或预训练时的解码器模型更好。
表2带有行为标签的评价指标结果
表1和表2的结果也说明对话的情感和行为标签对文本的生成是有一定程度的影响的,在BLEU、METEOR、ROUGE这三个基于词重叠率的指标上,本发明的模型效果都更好,说明本发明的模型能生成更高质量的对话,而在Dist-2指标上本发明也优于大部分模型,这说明本发明的模型能生成多样性的对话。当本发明的模型正确识别对话中的情感与行为标签时能提高对话回复的各项性能,取得较好的效果且具有泛化能力。
一种基于语义感知的一对多对话生成装置,包括:
获取模块,用于实时获取输入语句;
编码器模块,用于对获取模块的输入语句进行编码,得到输入语句的向量表示;
识别模块,用于拟合编码器模块得到的向量表示,得到包含对话类别信息的隐变量;
分类模块,用于根据隐变量确定输入语句的语义分类结果;
生成模块,用于根据语义分类结果确定对应的解码器,根据解码器生成相应语义的回复。
具体地,生成模块根据输入句子的分类结果选择对应的解码器来生成正确语义的回复。同一个问题每次生成的句子是不同的,这是由于z=μ+σε这一步中的ε是从标准高斯分布中随机采样得到的。由于预训练时的分类任务,使得不同类别的句子在隐空间采样的位置不同,如图2中解耦的隐空间分布所示,不同类别的对话编码到了隐空间的不同位置。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种基于语义感知的一对多对话生成方法,其特征在于,获取实时输入问题,将实时输入问题送入训练好的对话生成模型,对话生成模型根据输入问题得到多样性的回复,对话生成模型包括输入编码器、输出编码器、识别网络、先验网络、分类器、no emotion解码器、positive解码器、negative解码器;
对话生成模型的训练过程包括预训练和训练两个过程,具体表示为:
101、获取多组对话样本对输入编码器、输出编码器、识别网络、先验网络、分类器、预训练解码器进行预训练,预训练过程包括:
S11.对多组对话样本进行预处理,每组对话样本包括问题、回复和问题的情感标签;
S12.从多组预处理后的对话样本中抽取一组对话样本,将对话样本中预处理后的问题和回复分别送入输入编码器和输出编码器进行编码,得到问题向量表示和回复向量表示;
S13.将问题向量表示送入先验网络得到先验分布的参数,将回复向量表示送入识别网络得到近似后验分布的参数,计算先验分布和近似后验分布的KL散度并计算KL散度损失;
S14.根据近似后验分布的参数得到隐变量,将隐变量输入分类器计算当前对话样本属于各类别的归一化概率,取最大的归一化概率的类别作为分类结果,并计算分类损失;
S15.将隐变量作为预训练解码器的初始状态,将回复输入预训练解码器得到输出结果,并根据输出结果计算重构期望损失;
S16.将KL散度损失、分类损失和重构期望损失相加,通过梯度反向传播更新对话生成模型的参数,参数更新后返回步骤S12进行迭代,直到参数收敛完成对话生成模型的预训练;
102、完成预训练后,固定输入编码器、输出编码器、识别网络、先验网络和分类器的参数,将对话样本按照无情感、积极情感和消极情感分为三种类型的对话数据,分别用于noemotion解码器、positive解码器、negative解码器,采用重构损失函数依次训练三种解码器,直到三种解码器的参数收敛完成对话生成模型的训练。
2.根据权利要求1所述的一种基于语义感知的一对多对话生成方法,其特征在于,对多组对话样本采用Word2vec进行预处理包括,得到问题词嵌入序列{e(C1),e(C2),...,e(Cn)}和回复词嵌入序列{e(X1),e(X2),...,(Xn)},e(·)表示对对话样本中的单词做词嵌入,{C1,C2,...,Cn}为对话样本中的问题,{X1,X2,...,Xn}为对话样本中的回复。
4.根据权利要求1所述的一种基于语义感知的一对多对话生成方法,其特征在于,步骤S14中,根据近似后验分布的参数重参数化得到隐变量,重参数化表示为:
z=μ+σε;
其中,ε从标准高斯分布中采样得到,z为隐变量,μ、σ为近似后验分布的高斯分布参数。
5.根据权利要求1所述的一种基于语义感知的一对多对话生成方法,其特征在于,步骤S15中将隐变量通过多层感知机mlp转化成和预训练解码器相同维度的张量,从而将其作为预训练解码器的初始化隐状态h0和初始化细胞状态c0。
7.根据权利要求6所述的一种基于语义感知的一对多对话生成方法,其特征在于,通过分类器得到归一化概率P(E),分类器包括一个多层感知机和softmax层,隐变量为多层感知机的输入,多层感知机的输出作为softmax层的输入,softmax层的输出即为P(E),其表示为:
p(E)=Clf(z);
Clf(z)=softmax(o);
o=MLP(z);
其中,Clf(·)表示分类器,MLP(·)表示多层感知机,softmax(·)表示softmax层,o表示多层感知机的输出。
8.一种基于语义感知的一对多对话生成装置,其特征在于,包括:
获取模块,用于实时获取输入语句;
编码器模块,用于对获取模块的输入语句进行编码,得到输入语句的向量表示;
识别模块,用于拟合编码器模块得到的向量表示,得到包含对话类别信息的隐变量;
分类模块,用于根据隐变量确定输入语句的语义分类结果;
生成模块,用于根据语义分类结果确定对应的解码器,根据解码器生成相应语义的回复。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210052665.1A CN114416948A (zh) | 2022-01-18 | 2022-01-18 | 一种基于语义感知的一对多对话生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210052665.1A CN114416948A (zh) | 2022-01-18 | 2022-01-18 | 一种基于语义感知的一对多对话生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114416948A true CN114416948A (zh) | 2022-04-29 |
Family
ID=81274326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210052665.1A Pending CN114416948A (zh) | 2022-01-18 | 2022-01-18 | 一种基于语义感知的一对多对话生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114416948A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116629272A (zh) * | 2023-07-24 | 2023-08-22 | 山东大学 | 自然语言控制的文本生成方法及系统 |
CN116932726A (zh) * | 2023-08-04 | 2023-10-24 | 重庆邮电大学 | 一种基于可控多空间特征解耦的开放域对话生成方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1475779A1 (en) * | 2003-05-01 | 2004-11-10 | Microsoft Corporation | System with composite statistical and rules-based grammar model for speech recognition and natural language understanding |
US20170344884A1 (en) * | 2016-05-25 | 2017-11-30 | Adobe Systems Incorporated | Semantic class localization in images |
CN108154172A (zh) * | 2017-12-21 | 2018-06-12 | 重庆邮电大学 | 基于三支决策的图像识别方法 |
CN110263150A (zh) * | 2019-03-05 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、计算机设备及存储介质 |
CN110347792A (zh) * | 2019-06-25 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 对话生成方法及装置、存储介质、电子设备 |
CN111046668A (zh) * | 2019-12-04 | 2020-04-21 | 北京信息科技大学 | 多模态文物数据的命名实体识别方法与装置 |
CN111143509A (zh) * | 2019-12-09 | 2020-05-12 | 天津大学 | 一种基于静态-动态注意力变分网络的对话生成方法 |
CN111782788A (zh) * | 2020-07-03 | 2020-10-16 | 电子科技大学 | 一种面向开放域对话系统的情感回复自动生成方法 |
CN112256829A (zh) * | 2020-10-21 | 2021-01-22 | 东南大学 | 一种可控情感与风格的古诗生成方法 |
CN112257393A (zh) * | 2020-12-22 | 2021-01-22 | 北京百度网讯科技有限公司 | 实现文本生成的方法、装置、设备和介质 |
US20210097387A1 (en) * | 2019-09-26 | 2021-04-01 | Naver Corporation | Semi-Supervised Variational Autoencoder for Indoor Localization |
US20210150151A1 (en) * | 2019-01-08 | 2021-05-20 | Institute Of Automation, Chinese Academy Of Sciences | Autonomous evolution intelligent dialogue method, system, and device based on a game with a physical environment |
US20210200957A1 (en) * | 2019-12-27 | 2021-07-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating dialogue model |
CN113688843A (zh) * | 2021-08-06 | 2021-11-23 | 之江实验室 | 一种基于Transformer-VAE的零样本目标识别方法 |
CN113919906A (zh) * | 2021-10-08 | 2022-01-11 | 湖南大学 | 商品评论数据的推送方法、装置及存储介质 |
-
2022
- 2022-01-18 CN CN202210052665.1A patent/CN114416948A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1475779A1 (en) * | 2003-05-01 | 2004-11-10 | Microsoft Corporation | System with composite statistical and rules-based grammar model for speech recognition and natural language understanding |
US20170344884A1 (en) * | 2016-05-25 | 2017-11-30 | Adobe Systems Incorporated | Semantic class localization in images |
CN108154172A (zh) * | 2017-12-21 | 2018-06-12 | 重庆邮电大学 | 基于三支决策的图像识别方法 |
US20210150151A1 (en) * | 2019-01-08 | 2021-05-20 | Institute Of Automation, Chinese Academy Of Sciences | Autonomous evolution intelligent dialogue method, system, and device based on a game with a physical environment |
CN110263150A (zh) * | 2019-03-05 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、计算机设备及存储介质 |
CN110347792A (zh) * | 2019-06-25 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 对话生成方法及装置、存储介质、电子设备 |
US20210097387A1 (en) * | 2019-09-26 | 2021-04-01 | Naver Corporation | Semi-Supervised Variational Autoencoder for Indoor Localization |
CN111046668A (zh) * | 2019-12-04 | 2020-04-21 | 北京信息科技大学 | 多模态文物数据的命名实体识别方法与装置 |
CN111143509A (zh) * | 2019-12-09 | 2020-05-12 | 天津大学 | 一种基于静态-动态注意力变分网络的对话生成方法 |
US20210200957A1 (en) * | 2019-12-27 | 2021-07-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating dialogue model |
CN111782788A (zh) * | 2020-07-03 | 2020-10-16 | 电子科技大学 | 一种面向开放域对话系统的情感回复自动生成方法 |
CN112256829A (zh) * | 2020-10-21 | 2021-01-22 | 东南大学 | 一种可控情感与风格的古诗生成方法 |
CN112257393A (zh) * | 2020-12-22 | 2021-01-22 | 北京百度网讯科技有限公司 | 实现文本生成的方法、装置、设备和介质 |
US20210286934A1 (en) * | 2020-12-22 | 2021-09-16 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Implementing text generation |
CN113688843A (zh) * | 2021-08-06 | 2021-11-23 | 之江实验室 | 一种基于Transformer-VAE的零样本目标识别方法 |
CN113919906A (zh) * | 2021-10-08 | 2022-01-11 | 湖南大学 | 商品评论数据的推送方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
YE WANG等: "Semantic-aware conditional variational autoencoder for one-to-many dialogue generation", 《NEURAL COMPUTING AND APPLICATIONS》, vol. 34, 1 April 2022 (2022-04-01), pages 13683 - 13695, XP037910377, DOI: 10.1007/s00521-022-07182-9 * |
包笑明: "支持情感与多样性的对话生成方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 1, 15 January 2022 (2022-01-15), pages 138 - 3558 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116629272A (zh) * | 2023-07-24 | 2023-08-22 | 山东大学 | 自然语言控制的文本生成方法及系统 |
CN116629272B (zh) * | 2023-07-24 | 2023-10-10 | 山东大学 | 自然语言控制的文本生成方法及系统 |
CN116932726A (zh) * | 2023-08-04 | 2023-10-24 | 重庆邮电大学 | 一种基于可控多空间特征解耦的开放域对话生成方法 |
CN116932726B (zh) * | 2023-08-04 | 2024-05-10 | 重庆邮电大学 | 一种基于可控多空间特征解耦的开放域对话生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12067006B2 (en) | Machine learning system for digital assistants | |
Zhou et al. | Converting anyone's emotion: Towards speaker-independent emotional voice conversion | |
Zhang et al. | Advanced data exploitation in speech analysis: An overview | |
CN111966800B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN110321418A (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
CN114416948A (zh) | 一种基于语义感知的一对多对话生成方法及装置 | |
CN111859954A (zh) | 目标对象识别方法、装置、设备及计算机可读存储介质 | |
CN114357976B (zh) | 基于信息增强的多轮对话生成方法和系统 | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
Merboldt et al. | An Analysis of Local Monotonic Attention Variants. | |
CN115495566A (zh) | 一种增强文本特征的对话生成方法和系统 | |
Elgaar et al. | Multi-speaker and multi-domain emotional voice conversion using factorized hierarchical variational autoencoder | |
Sahu et al. | Modeling feature representations for affective speech using generative adversarial networks | |
CN114743539A (zh) | 语音合成方法、装置、设备及存储介质 | |
Kim et al. | Enclap: Combining neural audio codec and audio-text joint embedding for automated audio captioning | |
Li et al. | Acted vs. improvised: Domain adaptation for elicitation approaches in audio-visual emotion recognition | |
CN117592564A (zh) | 问答交互方法、装置、设备及介质 | |
Chatziagapi et al. | Audio and ASR-based filled pause detection | |
CN116842150A (zh) | 基于对比学习的变分自编码器回复生成方法 | |
Bhavani et al. | A survey on various speech emotion recognition techniques | |
CN112951270A (zh) | 语音流利度检测的方法、装置和电子设备 | |
Gündogdu et al. | Vector Quantized Temporally-Aware Correspondence Sparse Autoencoders for Zero-Resource Acoustic Unit Discovery. | |
Pascual De La Puente | Efficient, end-to-end and self-supervised methods for speech processing and generation | |
CN114492464B (zh) | 一种基于双向异步序列的对话生成方法及系统 | |
CN116486786B (zh) | 一种融合方言和小语种的语音识别控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |