CN116932726A - 一种基于可控多空间特征解耦的开放域对话生成方法 - Google Patents
一种基于可控多空间特征解耦的开放域对话生成方法 Download PDFInfo
- Publication number
- CN116932726A CN116932726A CN202310977148.XA CN202310977148A CN116932726A CN 116932726 A CN116932726 A CN 116932726A CN 202310977148 A CN202310977148 A CN 202310977148A CN 116932726 A CN116932726 A CN 116932726A
- Authority
- CN
- China
- Prior art keywords
- text
- reply
- hidden
- model
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000009826 distribution Methods 0.000 claims description 41
- 238000005070 sampling Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明属于开放域聊天技术领域,具体涉及一种基于可控多空间特征解耦的开放域对话生成方法;M‑CVAE模型的预训练过程包括:获取问题文本序列和回复文本序列并将其嵌入到词空间中,将得到的词向量分别对应输入到输入编码器和输出编码器,得到问题文本特征表示和回复文本特征表示;将两种特征表示输入到识别网络和先验网络中进行计算,得到隐变量;采用解码器根据隐变量对参考回复进行处理,生成回复文本;将问题文本特征表示输入到分类器中,得到问题分类类别概率;预训练后进行再训练和测试,获得训练好的模型;将问题文本输入到训练好的M‑CVAE模型中,生成对应的回复文本;本发明能够生成高质量,可解释,一对多的可控对话文本。
Description
技术领域
本发明属于开放域聊天技术领域,具体涉及一种基于可控多空间特征解耦的开放域对话生成方法。
背景技术
随着深度学习的快速崛起,对话系统也得到了迅速的发展。学术研究中将对话系统分为任务型对话系统和非任务型对话系统。任务型对话系统一般是pipeline模式的多模块模型,这种模式被广泛应用,并且具有很强的可解释性,即对话生成的过程清晰,逻辑性强。非任务型对话系统也叫开放领域对话系统,一般是端到端的生成模型。端到端模型与多模块模型相比,能够减少网络的复杂度,并且避免了多模块模型中不同模块训练目标不一致的缺陷。端到端模型一般由编码器和解码器组成,其通过编码器将对话上文编码为固定的向量,然后解码这个特征向量来生成对话下文。这样纯数据驱动训练的方法是黑盒模型,对话生成的逻辑难以让人理解,也无法让人预测生成的下文,缺乏可解释性。并且模型将文本编码为固定向量会导致相同的输入生成相同的回复,然而这种回复的单一性限制了基于开放领域的对话生成。为了解决这种单一性问题,需要增加对话生成的多样性,这也有利于提高人机交互的积极性,同时对于开放领域对话系统的发展非常重要。
对话的可解释性,多样性和可控性是对话系统中几个需要解决的关键问题。如果能够控制对话生成,可以提高生成质量。深度潜变量模型十分适合开放领域的对话系统。深度潜变量模型中最具代表性的就是变分自编码器(VAEs)和条件变分自编码器(CVAEs)。相比于变分自编码器的输入只有对话的上文,条件变分自编码器多了一个条件编码器。此外,条件变分自编码器中的条件可以是由问题,情感,语法等先验知识来做引导,可以更容易控制条件来生成指定的对话。由于缺乏外部先验知识的引导,CVAE隐空间中的所有语义杂糅在一起,并且都是隐性的,导致我们并不清楚语义具体的表征,所以仍然是一个深度学习的黑盒模型。这种耦合的特征容易造成生成过程不可解释和生成语义不准确的对话下文。为了理解杂糅隐空间的隐性语义,达到明确隐变量语义的目的,目前主流的方法就是解耦。现有的解耦方式虽明确了隐变量的语义,但是仍然存在两个问题。1)虽然解耦了隐空间,但是我们并不能控制隐变量在隐空间中采样的位置;2)CVAE倾向于在隐空间分布中心周围采样,所以很多距离较远的点并不能采样到,这导致了生成的对话文本有较多的通用回复。这两个问题正对应着对话生成中的可控性和多样性。
发明内容
针对现有技术存在的不足,本发明提出了一种基于可控多空间特征解耦的开放域对话生成方法,该方法包括:将问题文本输入到训练好的M-CVAE模型中,生成对应的回复文本;M-CVAE模型包括编码器、识别网络、先验网络、解码器、分类器和可控语义生成器;
M-CVAE模型的训练过程分为预训练阶段、训练阶段和测试阶段;其中,预训练过程具体包括:
S1:获取问题文本序列和回复文本序列并将其嵌入到词空间中,得到问题词向量和回复词向量;
S2:将问题词向量输入到输入编码器,得到问题文本特征表示;将回复词向量输入到输出编码器,得到回复文本特征表示;
S3:将问题文本特征表示和回复文本特征表示输入到识别网络以及先验网络中进行计算,得到隐变量;
S4:将隐变量作为解码器的初始隐状态并将参考回复输入到解码器中进行处理,生成回复文本;
S5:将问题文本特征表示输入到分类器中,得到问题分类类别概率;
S6:计算模型总损失并根据总损失调整模型参数,得到预训练好的M-CVAE模型。
优选的,所述输入编码器和输出编码器均为双向LSTM。
优选的,得到隐变量的过程包括:将问题文本特征表示和回复文本特征表示输入到识别网络中计算得到近似后验分布隐空间的分布参数μ和σ;从后验分布隐空间采样并使用重参数化操作,得到隐变量,表示为:
其中,z表示隐变量,ε表示随机参数。
优选的,预训练阶段的模型总损失包括生成的回复文本与参考回复文本之间的期望、近似后验分布和先验分布之间的KL散度和分类任务的交叉熵损失三部分。
优选的,M-CVAE模型在训练阶段的训练过程中,固定预训练阶段的编码器和分类器的参数;根据分类器输出的问题的各分类类别概率和各类别的语义向量计算加权类别语义向量;拼接加权类别语义向量和参考回复,将拼接结果作为解码器的输入。
优选的,M-CVAE模型在训练阶段的模型总损失包括近似后验分布和先验分布之间的KL散度和分类任务的交叉熵损失两部分。
优选的,M-CVAE模型在测试阶段中,将问题文本特征表示输入到识别网络中计算得到先验分布隐空间的分布参数μ′和σ′;从先验分布隐空间采样并使用重参数化操作,得到隐变量。
优选的,M-CVAE模型在测试阶段中,解码器下一步的输入为上一步的解码结果。
本发明的有益效果为:本发明提出的一种基于可控多空间特征解耦的开放域对话生成方法设计了M-CVAE模型。M-CVAE通过为每个类别的对话构造单独的隐空间来解决这些问题。首先通过构造多隐空间,变相的解耦了隐空间,明确了隐变量的语义,从而增强了文本生成的可解释性。同时选择不同的隐空间能生成不同类别的一对多文本。最后,本发明引入了加权语义变量来控制文本生成;本发明能够生成高质量,可解释,一对多的可控对话文本。
附图说明
图1为本发明中M-CVAE模型结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于可控多空间特征解耦的开放域对话生成方法,如图1所示,所述方法包括以下内容:
本发明设计的模型是基于条件变分自编码器的,名字叫做M-CVAE。该模型基本思想是为每个类别的对话数据构造对于的隐空间和解码器。这样可以避免多个类别的数据映射到一个杂糅的隐空间中,同时也达到了解耦的效果。而通过隐空间的选择,可以得到对应类别的隐变量,从而实现隐变量采样的可控性。最后通过分类器的权重来加权语义向量,这个语义向量不仅是对单一隐空间信息的补充,同时也是一个控制变量,可以控制文本的生成。
M-CVAE模型包括编码器、识别网络、先验网络、解码器、分类器和可控语义生成器六个模块。其中编码器分为输入编码器Encin(·),输出编码器Encout(·)。每一个类别的隐空间都有对应的识别网络RecogNetqφ(z|X,C),先验网络和解码器Dec(·)。分类器Clf(·)用于选择隐空间和生成可控语义向量的权重。可控语义生成器Control(·)用于加权语义向量,从而生成可控语义向量。数据集中的输入分为问题文本序列C={C1,C2,…,Cn}和回复文本序列X={X1,X2,…,Xn}。e(W)定义为将词w嵌入到语义向量空间。文本序列都需要先进行词嵌入操作,然后再作为编码器Enc(·)的输入。模型分为预训练,训练和测试三个部分。预训练用于预训练编码器和分类器。训练则是训练各个类别的隐空间和解码器。测试则是模型在测试集的生成过程。
虽然要为每个类别的对话数据生成不同的隐空间和解码器,但是编码器却是所有隐空间共用的。同时最后需要使用分类器来选择隐空间。所以编码器和分类器需要在预训练阶段训练好。在训练阶段需要固定编码器和分类器的参数。
预训练阶段:
S1:获取问题文本序列和回复文本序列并将其嵌入到词空间中,得到问题词向量和回复词向量。
在预训练阶段,本发明是在传统CVAE模型上加了一个分类任务。首先使用e(W)将问题文本序列和回复文本序列嵌入到词空间中,得到问题词向量和回复词向量;表示为e(C)={e(C1),e(C2),…,e(Cn)}和e(X)={e(X1),e(X2),…,e(Xn)}。
S2:将问题词向量输入到输入编码器,得到问题文本特征表示hc;将回复词向量输入到输出编码器,得到回复文本特征表示hx。
hci,cci=Encci(e(Ci),(hci-,cci-)) (1)
hxi,cxi=Encout(e(Xi),(hxi-1,cxi-1)) (2)
其中,Ci表示问题文本中第i个词,hci-1和cci-1分别表示输入编码器第i-1步的隐状态和细胞状态,作为第i步编码的输入。
优选的,输入编码器和输出编码器均为双向LSTM(长短期记忆递归神经网络)。
S3:将问题文本特征表示和回复文本特征表示输入到识别网络以及先验网络中进行计算,得到隐变量。
在CVAE中并不是直接使用编码器的输出来解码,而是将编码后的文本特征信息通过识别网络RecogNetqφ(z|X,C)和先验网络映射为隐空间的分布参数,然后从隐空间分布中采样隐变量来作为解码器的初始输入。如公式(3)所示,Encin(·)的输出hc和Encout(·)的输出hx作为RecogNetqφ(z|X,C)的输入,计算得到近似后验分布隐空间的分布参数μ和σ;如公式(4)所示,Encin(·)的输出hc作为/>的输入,计算得到先验分布隐空间的分布参数μ′和σ′。
μ,σ=RecogNetqφ(z|X,C)(hc,hx) (3)
近似后验分布qφ(z|X,C)和先验分布pθ(X|z,C)都是多维高斯分布,即和/>在训练的时候隐变量从近似后验分布中采样,而测试的时候,由于没有回复文本,所以从先验分布中采样隐变量。但是隐变量的采样过程不可导,所以会导致反向传播失败。为了解决这个问题,在采样的过程中使用了重参数化的技巧,如公式(5)所示,重参数化之后,可以求导,从而成功反向传播,进而优化参数。
其中,z表示隐变量,ε表示随机参数,其从标准正态分布中随机采样得到。
S4:将隐变量作为解码器的初始隐状态并将参考回复输入到解码器中进行处理,生成回复文本。
采样的隐变量z将作为解码的的初始隐状态,解码器第一步的输入是start ofsentence令牌<SOS>和隐变量z,中间每一步输入是参考回复的单词和上一步输出的隐藏状态,如公式(6)所示;然后将解码器的每一步输出outputi通过MLP映射到词表空间中,然后softMax选出概率最大的词作为生成文本,如公式(7)所示;拼接所有解码得到的单词,得到回复文本。
outputi(hi,ci)=Dec(e(Xi-1),(hi-1,ci-1)) (6)
其中,outputi表示解码器第i步的输出,表示解码器第i步生成的单词。
S5:将问题文本特征表示输入到分类器中,得到问题分类类别概率。
本发明在预训练阶段还需要预训练好分类器Clf(·),分类器是一个多层感知机。选择输入编码器的输出hc作为分类器的输入,因为分类器最终是在测试的时候使用,而测试是没有参考回复文本的,所以分类器主要是分类上文问题文本C。这里本发明也没有选择隐变量z作为分类器的输入,是因为在训练的时候本发明会为每一个类别的对话数据构造不同的隐空间,所以为了保证分类器的通用性,选择所有隐空间公用的输入编码器的输出即问题文本特征表示作为分类器的输入。分类器计算方法如公式(8)(9)所示,其中P(E)表示问题文本被分类到各个类别的概率,这个概率也将作为加权类别语义向量的权重。
P(E)=Clf(hc) (8)
Clf(hc)=Softmax(MLP(hc)) (9)
S6:计算模型总损失并根据总损失调整参数,得到预训练好的M-CVAE模型。
为了优化模型,本发明的目标是最大化条件概率分布P(X|C)。在隐变量模型中,引入了隐变量z,条件概率分布分解为P(X|C)=∫zP(z|C)P(X|z,C)dz。但是这样的积分难于求解,为此引入了近似后验分布qφ(z|X,C),通过变分推断的方法将积分分解为最大证据下界(ELBO)近似解。所以可以通过优化ELBO来近似优化本发明的模型,如公式(10)所示。其中第一项为生成文本与参考回复文本之间的期望;第二项为近似后验分布和先验分布之间的KL散度,通过最小化KL值可以逼近两个分布之间的距离,达到测试的时候使用先验分布来代替近似后验分布的目的。
分类任务使用的交叉熵损失,如公式(11)所示,其中label为真实类别。
通过最小化交叉熵来优化分类任务的参数。
综上所述,模型的整体优化损失(模型总损失)为分类损失加上期望和KL距离,如公式(12)所示。其中,β为权重,避免KL塌陷问题。
训练阶段:
训练阶段首先固定两个编码器和分类器的参数,然后为每个类别的对话数据构造不同的隐空间和解码器。
和Deci(·)分别表示第i个类别的识别网络,先验网络和解码器。训练过程中,每批训练数据只通过对应的隐空间和解码器,不会优化其他的隐空间和解码器。同时解码的过程与预训练阶段不同,预训练阶段解码器的输入为隐变量z和参考回复X。在训练阶段本发明加入了加权类别语义向量,可控语义生成器根据分类器输出的问题的各分类类别概率和各类别的语义向量计算加权类别语义向量,如公式(13)所示。
其中,labeli表示第i个类别,e(labeli)表示第i个类别的语义向量,P(Ei)表示对话被分类为第i类的归一化概率,S表示加权类别语义向量。
加权类别语义向量也将作为解码器的输入,将S与参考回复Xi拼接,并通过多层感知机映射为解码器输入的维度,如公式(14)所示,其中Inputi表示解码器的输入,[:]表示拼接操作。
Inputi=MLP([e(Xi):S]) (14)
训练阶段的损失函数只有期望和KL散度,KL散度为每个类别的近似后验分布qiφ(z|X,C)和先验分布的KL距离,如公式(15)所示。
测试阶段:
测试阶段与训练阶段有两个不同的地方。首先,在测试阶段,由于不能使用参考回复,所以不能从近似后验分布中采样隐变量,需要从先验分布中采样隐变量,即最后解码的时候,输入不再是参考回复。解码器第一步解码输入为开始令牌<SOS>,然后上一步的解码结果/>作为下一步解码的输入,如公式(16)、(17)、(18)所示。直到解码出的文本为End of sentence的令牌<EOS>或达到预设置的最大解码长度。
outputi(hi,ci)=Dec(Inputi,(hi-1,ci-1)) (17)
通过对M-CVAE模型的训练,保存最优参数的模型即训练好的M-CVAE模型;将问题文本输入到训练好的M-CVAE模型中,可生成对应的回复文本。
本发明设计的M-CVAE模型将不同类别的对话编码到不同的隐空间中,使得不同类别的对话在隐空间中完全解耦开来,没有模糊的数据点。同时由于构造了多个隐空间,可以直接控制隐空间的选择,来达到控制对话文本在不同类别的隐空间中采样的效果,从而增强对话生成的可解释性。隐空间的可控性是以前的解耦方法所不能达到的,也就是说以前的工作只是解耦了隐空间,但是无法控制它的采样位置。通过相关实验,其结果表明本发明能够生成高质量,可解释,一对多的可控对话文本。
综上所述,本发明提出了多隐空间和多解码器的条件变分自编码器来解决文本生成的一对多,可解释性和可控性问题。首先,通过选择对应的隐空间可以生成更准确的隐变量。其次,通过改变隐空间的选择,可以控制隐变量的采样,从而生成可控文本。但是这样的隐空间只包含了单一类别语义的信息。为了补充丰富的语义信息,提出了可控语义向量来丰富特征表达。这个可控语义变量是使用分类器的权重与各个类别语义向量加权求和,它不仅丰富了隐变量的语义信息,同时可以通过控制权重来控制文本的生成。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于可控多空间特征解耦的开放域对话生成方法,其特征在于,包括:将问题文本输入到训练好的M-CVAE模型中,生成对应的回复文本;M-CVAE模型包括编码器、识别网络、先验网络、解码器、分类器和可控语义生成器;
M-CVAE模型的训练过程分为预训练阶段、训练阶段和测试阶段;其中,预训练过程具体包括:
S1:获取问题文本序列和回复文本序列并将其嵌入到词空间中,得到问题词向量和回复词向量;
S2:将问题词向量输入到输入编码器,得到问题文本特征表示;将回复词向量输入到输出编码器,得到回复文本特征表示;
S3:将问题文本特征表示和回复文本特征表示输入到识别网络以及先验网络中进行计算,得到隐变量;
S4:将隐变量作为解码器的初始隐状态并将参考回复输入到解码器中进行处理,生成回复文本;
S5:将问题文本特征表示输入到分类器中,得到问题分类类别概率;
S6:计算模型总损失并根据总损失调整模型参数,得到预训练好的M-CVAE模型。
2.根据权利要求1所述的一种基于可控多空间特征解耦的开放域对话生成方法,其特征在于,所述输入编码器和输出编码器均为双向LSTM。
3.根据权利要求1所述的一种基于可控多空间特征解耦的开放域对话生成方法,其特征在于,得到隐变量的过程包括:将问题文本特征表示和回复文本特征表示输入到识别网络中计算得到近似后验分布隐空间的分布参数μ和σ;从后验分布隐空间采样并使用重参数化操作,得到隐变量,表示为:
其中,z表示隐变量,ε表示随机参数。
4.根据权利要求1所述的一种基于可控多空间特征解耦的开放域对话生成方法,其特征在于,预训练阶段的模型总损失包括生成的回复文本与参考回复文本之间的期望、近似后验分布和先验分布之间的KL散度和分类任务的交叉熵损失三部分。
5.根据权利要求1所述的一种基于可控多空间特征解耦的开放域对话生成方法,其特征在于,M-CVAE模型在训练阶段的训练过程中,固定预训练阶段的编码器和分类器的参数;根据分类器输出的问题的各分类类别概率和各类别的语义向量计算加权类别语义向量;拼接加权类别语义向量和参考回复,将拼接结果作为解码器的输入。
6.根据权利要求1所述的一种基于可控多空间特征解耦的开放域对话生成方法,其特征在于,M-CVAE模型在训练阶段的模型总损失包括近似后验分布和先验分布之间的KL散度和分类任务的交叉熵损失两部分。
7.根据权利要求1所述的一种基于可控多空间特征解耦的开放域对话生成方法,其特征在于,M-CVAE模型在测试阶段中,将问题文本特征表示输入到识别网络中计算得到先验分布隐空间的分布参数μ′和σ′;从先验分布隐空间采样并使用重参数化操作,得到隐变量。
8.根据权利要求1所述的一种基于可控多空间特征解耦的开放域对话生成方法,其特征在于,M-CVAE模型在测试阶段中,解码器下一步的输入为上一步的解码结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310977148.XA CN116932726B (zh) | 2023-08-04 | 2023-08-04 | 一种基于可控多空间特征解耦的开放域对话生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310977148.XA CN116932726B (zh) | 2023-08-04 | 2023-08-04 | 一种基于可控多空间特征解耦的开放域对话生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116932726A true CN116932726A (zh) | 2023-10-24 |
CN116932726B CN116932726B (zh) | 2024-05-10 |
Family
ID=88377178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310977148.XA Active CN116932726B (zh) | 2023-08-04 | 2023-08-04 | 一种基于可控多空间特征解耦的开放域对话生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116932726B (zh) |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106448670A (zh) * | 2016-10-21 | 2017-02-22 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话系统 |
CN106484664A (zh) * | 2016-10-21 | 2017-03-08 | 竹间智能科技(上海)有限公司 | 一种短文本间相似度计算方法 |
JP2018206307A (ja) * | 2017-06-09 | 2018-12-27 | エヌ・ティ・ティ レゾナント株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US10169315B1 (en) * | 2018-04-27 | 2019-01-01 | Asapp, Inc. | Removing personal information from text using a neural network |
CN109460459A (zh) * | 2018-10-31 | 2019-03-12 | 神思电子技术股份有限公司 | 一种基于日志学习的对话系统自动优化方法 |
CN110069612A (zh) * | 2019-04-28 | 2019-07-30 | 河北省讯飞人工智能研究院 | 一种回复生成方法及装置 |
CN111563148A (zh) * | 2020-04-17 | 2020-08-21 | 华南理工大学 | 一种基于词组多样性的对话生成方法 |
CN112699688A (zh) * | 2021-01-08 | 2021-04-23 | 北京理工大学 | 一种篇章关系可控的文本生成方法和系统 |
CN113590803A (zh) * | 2021-02-24 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、存储介质和计算机设备 |
CN114139553A (zh) * | 2021-11-29 | 2022-03-04 | 平安科技(深圳)有限公司 | 对话文本生成方法、装置、电子设备及存储介质 |
CN114153953A (zh) * | 2021-10-12 | 2022-03-08 | 北京交通大学 | 对话回复的生成方法、装置、设备及存储介质 |
CN114398904A (zh) * | 2021-11-22 | 2022-04-26 | 重庆邮电大学 | 一种基于多粒度特征解耦的开放领域对话生成方法 |
CN114416948A (zh) * | 2022-01-18 | 2022-04-29 | 重庆邮电大学 | 一种基于语义感知的一对多对话生成方法及装置 |
CN114547261A (zh) * | 2022-01-13 | 2022-05-27 | 北京理工大学 | 针对请求和情感标签生成的带有指定情感的机器回复方法 |
WO2022107955A1 (ko) * | 2020-11-23 | 2022-05-27 | 한국과학기술원 | 의미역 결정 기반 신경망 연산 방법 및 장치 |
CN114627868A (zh) * | 2022-03-03 | 2022-06-14 | 平安普惠企业管理有限公司 | 意图识别方法、装置、模型及电子设备 |
CN115345169A (zh) * | 2022-07-22 | 2022-11-15 | 临沂中科好孕智能技术有限公司 | 一种基于知识增强的文本生成模型及其训练方法 |
CN115495566A (zh) * | 2022-10-11 | 2022-12-20 | 重庆邮电大学 | 一种增强文本特征的对话生成方法和系统 |
CN115795011A (zh) * | 2022-11-24 | 2023-03-14 | 北京工业大学 | 一种基于改进生成对抗网络的情感对话生成方法 |
CN116226344A (zh) * | 2023-02-20 | 2023-06-06 | 湖北星纪时代科技有限公司 | 对话生成方法、对话生成装置和存储介质 |
-
2023
- 2023-08-04 CN CN202310977148.XA patent/CN116932726B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106448670A (zh) * | 2016-10-21 | 2017-02-22 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话系统 |
CN106484664A (zh) * | 2016-10-21 | 2017-03-08 | 竹间智能科技(上海)有限公司 | 一种短文本间相似度计算方法 |
JP2018206307A (ja) * | 2017-06-09 | 2018-12-27 | エヌ・ティ・ティ レゾナント株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US10169315B1 (en) * | 2018-04-27 | 2019-01-01 | Asapp, Inc. | Removing personal information from text using a neural network |
CN109460459A (zh) * | 2018-10-31 | 2019-03-12 | 神思电子技术股份有限公司 | 一种基于日志学习的对话系统自动优化方法 |
CN110069612A (zh) * | 2019-04-28 | 2019-07-30 | 河北省讯飞人工智能研究院 | 一种回复生成方法及装置 |
CN111563148A (zh) * | 2020-04-17 | 2020-08-21 | 华南理工大学 | 一种基于词组多样性的对话生成方法 |
WO2022107955A1 (ko) * | 2020-11-23 | 2022-05-27 | 한국과학기술원 | 의미역 결정 기반 신경망 연산 방법 및 장치 |
CN112699688A (zh) * | 2021-01-08 | 2021-04-23 | 北京理工大学 | 一种篇章关系可控的文本生成方法和系统 |
CN113590803A (zh) * | 2021-02-24 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、存储介质和计算机设备 |
CN114153953A (zh) * | 2021-10-12 | 2022-03-08 | 北京交通大学 | 对话回复的生成方法、装置、设备及存储介质 |
CN114398904A (zh) * | 2021-11-22 | 2022-04-26 | 重庆邮电大学 | 一种基于多粒度特征解耦的开放领域对话生成方法 |
CN114139553A (zh) * | 2021-11-29 | 2022-03-04 | 平安科技(深圳)有限公司 | 对话文本生成方法、装置、电子设备及存储介质 |
CN114547261A (zh) * | 2022-01-13 | 2022-05-27 | 北京理工大学 | 针对请求和情感标签生成的带有指定情感的机器回复方法 |
CN114416948A (zh) * | 2022-01-18 | 2022-04-29 | 重庆邮电大学 | 一种基于语义感知的一对多对话生成方法及装置 |
CN114627868A (zh) * | 2022-03-03 | 2022-06-14 | 平安普惠企业管理有限公司 | 意图识别方法、装置、模型及电子设备 |
CN115345169A (zh) * | 2022-07-22 | 2022-11-15 | 临沂中科好孕智能技术有限公司 | 一种基于知识增强的文本生成模型及其训练方法 |
CN115495566A (zh) * | 2022-10-11 | 2022-12-20 | 重庆邮电大学 | 一种增强文本特征的对话生成方法和系统 |
CN115795011A (zh) * | 2022-11-24 | 2023-03-14 | 北京工业大学 | 一种基于改进生成对抗网络的情感对话生成方法 |
CN116226344A (zh) * | 2023-02-20 | 2023-06-06 | 湖北星纪时代科技有限公司 | 对话生成方法、对话生成装置和存储介质 |
Non-Patent Citations (2)
Title |
---|
MD. RAFIUZZAMAN BHUIYAN等: "An Approach for Bengali Automatic Question Answering System using Attention Mechanism", 《IEEE》, 3 July 2020 (2020-07-03), pages 1 - 5, XP033841734, DOI: 10.1109/ICCCNT49239.2020.9225264 * |
苑浩等: "SCT-CVAE:基于分离Context机制与CVAE的Transformer对话模型", 《中文信息学报》, 15 September 2021 (2021-09-15), pages 123 - 131 * |
Also Published As
Publication number | Publication date |
---|---|
CN116932726B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763504B (zh) | 一种基于强化双通道序列学习的对话回复生成方法及系统 | |
US11663483B2 (en) | Latent space and text-based generative adversarial networks (LATEXT-GANs) for text generation | |
CN109992657B (zh) | 一种基于强化动态推理的对话式问题生成方法 | |
Li et al. | Fusing asr outputs in joint training for speech emotion recognition | |
Sojasingarayar | Seq2seq ai chatbot with attention mechanism | |
US11194973B1 (en) | Dialog response generation | |
CN110737764A (zh) | 一种个性化对话内容生成方法 | |
Liu et al. | Reinforcement learning for emotional text-to-speech synthesis with improved emotion discriminability | |
Denisov et al. | Pretrained semantic speech embeddings for end-to-end spoken language understanding via cross-modal teacher-student learning | |
CN111966800A (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN112364148B (zh) | 一种基于深度学习方法的生成型聊天机器人 | |
CN114091478A (zh) | 基于有监督对比学习与回复生成辅助的对话情感识别方法 | |
CN112967739A (zh) | 一种基于长短期记忆网络的语音端点检测方法及系统 | |
Carcassi et al. | Monotone quantifiers emerge via iterated learning | |
CN114416948A (zh) | 一种基于语义感知的一对多对话生成方法及装置 | |
Zhao et al. | Knowledge-aware bayesian co-attention for multimodal emotion recognition | |
CN113656569B (zh) | 一种基于上下文信息推理的生成式对话方法 | |
Li et al. | 3M: Multi-style image caption generation using Multi-modality features under Multi-UPDOWN model | |
CN113342947A (zh) | 能感知对话上下文相对位置信息的多轮对话文本生成方法 | |
Riou et al. | Online adaptation of an attention-based neural network for natural language generation | |
CN116932726B (zh) | 一种基于可控多空间特征解耦的开放域对话生成方法 | |
Masumura et al. | End-to-end automatic speech recognition with deep mutual learning | |
CN111046157A (zh) | 一种基于平衡分布的通用英文人机对话生成方法和系统 | |
Ruan et al. | Condition-transforming variational autoencoder for conversation response generation | |
CN115495566A (zh) | 一种增强文本特征的对话生成方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |