CN112434143B - 基于gru单元隐藏状态约束的对话方法、存储介质及系统 - Google Patents

基于gru单元隐藏状态约束的对话方法、存储介质及系统 Download PDF

Info

Publication number
CN112434143B
CN112434143B CN202011315173.4A CN202011315173A CN112434143B CN 112434143 B CN112434143 B CN 112434143B CN 202011315173 A CN202011315173 A CN 202011315173A CN 112434143 B CN112434143 B CN 112434143B
Authority
CN
China
Prior art keywords
emotion
hidden state
gru
constraint
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011315173.4A
Other languages
English (en)
Other versions
CN112434143A (zh
Inventor
赵国帅
毛艺钧
许文雄
钱学明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202011315173.4A priority Critical patent/CN112434143B/zh
Publication of CN112434143A publication Critical patent/CN112434143A/zh
Application granted granted Critical
Publication of CN112434143B publication Critical patent/CN112434143B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于GRU单元隐藏状态约束的对话方法、存储介质及系统,将带有情感标注的对话数据转换为单轮对话形式的数据构建数据集;建立一个基于多层GRU单元的神经网络模型,利用数据集中的情感信息对神经网络模型的GRU单元隐藏状态进行情感约束,得到情感约束后的隐藏状态;对情感约束后多层GRU单元中的隐藏状态使用上下层继承机制,得到信息融合的GRU单元隐藏状态;使用信息融合的GRU单元隐藏状态生成下一个字的概率分布,然后使用反向传播算法最小化损失值优化神经网络模型的参数,生成带有对应情感的回复信息,实现基于GRU单元隐藏状态约束的对话。本发明根据用户输入生成符合特定情感类别的回复,兼顾了内容上的一致性和情感表达的准确性。

Description

基于GRU单元隐藏状态约束的对话方法、存储介质及系统
技术领域
本发明属于对话系统技术领域,具体涉及一种基于GRU单元隐藏状态约束的对话方法、存储介质及系统。
背景技术
近年来,对话系统由于其巨大的潜力、广泛的商业应用场景而备受关注。一方面,自然语言处理技术的不断发展,如循环神经网络(RNN)及其变种(GRU等)、Seq2seq模型、Attention技术等,为对话系统的建立提供了技术基础;另一方面,互联网的极大繁荣也带来了大量的数据集,使得基于数据驱动的、开放领域的对话系统构建成为可能。然而,构建一个语法正确、内容连贯,并且能人机共情、回复合理的对话系统仍然是一个极具难度性的挑战。
有研究表明,在对话系统中识别、感知用户情感并生成适当回复可以改善用户体验。在实际应用中,让机器人感知到情感面临的困难主要有:
一,优质语料库的构建。虽然互联网上有大量的语料,但是这些语料常常含有大量的噪音,语料清洗、标注耗费代价较大。这在一定程度上制约了情感对话系统的发展。
二,生成的回复难以兼顾内容上的一致性与情感上上的合理性。
三,简单地将情感信息融入模型中并不能带来令人满意的效果,需要精炼、提取情感的手段,等等。
对于对话系统来说,缺少情感因素,会造成以下影响:首先,用户体验大大降低,比如‘今天好难过啊’(Sad),如果回复‘但是我今天心情很好!’(Happy)很有可能造成对话终止等情况。其次,由于不能提出让用户满意的回答,下一轮次对话系统的输入接收到意外输入的可能性大大增加,导致对话系统崩溃的可能性升高,健壮性降低;最后,用户可能不会再次使用该系统,直接导致服务提供方利益受损等一系列严重后果。因此,需要在对话中引入情感因素,以减少上述情况发生。
近年来,已经有一些关于在对话中引入情感因素的方法被陆续提出。但是这些方法大多是受到心理学启发,或者基于语法规则进行约束,并且不能应用于大规模的语料库。这些方法要么注重于对话内容的一致性,要么没有考虑到情感类别的多样性,都不能提供令人满意的结果。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于GRU单元隐藏状态约束的对话方法、存储介质及系统,使用情感提取器和多层GRU继承机制来生成符合特定情感类别的回复信息。
本发明采用以下技术方案:
基于GRU单元隐藏状态约束的对话方法,包括以下步骤:
S1、对带有情感标注的对话数据进行预处理,将对话数据转换为单轮对话形式的数据构建数据集;
S2、建立一个基于多层GRU单元的神经网络模型,利用步骤S1构建数据集中的情感信息对神经网络模型的GRU单元隐藏状态进行情感约束,得到情感约束后的隐藏状态;
S3、对步骤S2情感约束后多层GRU单元中的隐藏状态使用上下层继承机制,对前一层的情感信息进行继承,得到信息融合的GRU单元隐藏状态;
S4、使用步骤S3信息融合的GRU单元隐藏状态生成文字的概率分布,然后使用反向传播算法最小化损失值优化神经网络模型的参数,生成带有对应情感的回复信息,实现基于GRU单元隐藏状态约束的对话。
具体的,步骤S1中,预处理具体为:通过Emotion Embedding将每一种情感标签都转为向量,并在训练之初对向量进行初始化,得到ve∈V,ve表示某种情感对应的特征向量,V表示情感特征向量的集合。
具体的,步骤S1中,数据集包括多个完整的数据元组,数据元组包括一个Post序列和一个Response序列,Post序列X={x1,x2,…,xn}表示长度为n的输入序列,Response序列Y={y1,y2,…,ym,e}表示长度为m的回复序列,拥有一个情感标签e∈E,代表当前这一数据元组的情感标签,E为数据集的情感标签集合。
具体的,步骤S2的情感约束过程中,在编码阶段,基于多层GRU单元的神经网络模型接收输入并不断更新隐藏状态;在解码阶段,使用情感提取器在每次解码时从输入GRU单元的隐藏状态中提取当前的情感特征,依次计算解码阶段一个时间步的隐藏状态,对第t步解码步骤,从当前输入的隐藏状态,即上一步得到的隐藏状态st-1中提取情感特征
Figure BDA0002791122900000031
使用当前给定的情感向量对情感特征进行约束,并将计算得到的约束量情感状态与上一步的隐藏状态,内容向量和上一步输出值一起传入GRU单元,更新隐藏状态,对GRU单元隐藏状态进行情感约束。
具体的,步骤S3中,对步骤S2情感约束后的多层GRU单元使用上下层继承机制,对前一层的情感信息进行继承,得到继承向量,使用继承向量对隐藏状态进行更新,使用
Figure BDA0002791122900000032
控制上一层的情感信息在新的隐藏状态中占比的大小,Lmax为GRU单元的最大层数。
进一步的,上一层的情感信息在新的隐藏状态中占比的大小
Figure BDA0002791122900000041
具体为:
Figure BDA0002791122900000042
其中,
Figure BDA0002791122900000043
为继承向量,
Figure BDA0002791122900000044
为第i层的第t-1步隐藏状态。
进一步的,在第t步解码步骤中,对第i层的GRU单元,将第i-1层的第t-1步隐藏状态和第i-1层的情感状态融合,得到继承向量
Figure BDA0002791122900000045
如下:
Figure BDA0002791122900000046
其中,WI(·)是继承向量提取器。
具体的,步骤S4中,使用反向传播算法最小化损失值如下:
Figure BDA0002791122900000047
其中,P(t|X,e)为生成回复序列中第t个词的条件预测概率分布,Q(t|X,e)为真实的分布,m为生成回复信息的长度。
本发明的另一个技术方案是,一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述的方法中的任一方法。
本发明的另一个技术方案是,一种对话设备,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。
与现有技术相比,本发明至少具有以下有益效果:
本发明基于GRU单元隐藏状态约束的对话方法,根据用户输入生成符合特定情感类别的回复,通过使用数据集中的情感信息约束GRU单元隐藏状态以及GRU上下层继承机制有效加强了情感信息的表达,兼顾了内容上的一致性和情感表达的准确性,使得生成的回复与人类回复更加相近,从而提升了用户体验,减小了对话系统崩溃的可能性。
进一步的,在模型训练之前,将情感标签用稠密的特征向量进行表示,通过高维向量来更好地表达情感信息。
进一步的,将数据转换为模型能够接收的数据形式,以便高效地进行模型训练。
进一步的,通过在解码阶段每个时间步对隐藏状态进行情感约束,使每个时间步的输出都带有更多的情感信息。
进一步的,通过多层继承机制,允许模型在约束GRU单元隐藏状态的基础上更加强烈地表达情感信息,让生成回复的情感特征更加明显。
进一步的,引入一个参数
Figure BDA0002791122900000051
用来平衡生成回复内容上的一致性和情感表达的准确性。
进一步的,通过融合上一层的隐藏状态和上一层的情感状态,得到继承向量,在包含上一层隐藏状态的语义信息的情况下,更强烈地表达目标情感信息。
进一步的,根据
Figure BDA0002791122900000052
反向传播优化神经网络模型参数,来生成符合目标情感类别的回复。
综上所述,本发明可以根据用户输入,对特定情感进行信息提取以约束GRU单元隐藏状态,并使用多层继承机制来增进情感信息表达,最终生成符合特定情感类别的回复,兼顾了内容上的一致性和情感表达的准确性。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明流程图;
图2为本发明GRU单元隐藏状态进行情感约束示意图;
图3为本发明多层GRU中继承机制示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于GRU单元隐藏状态约束的对话方法、存储介质及系统,获取带有情感标注的对话数据进行预处理,将数据转换为单轮对话形式的数据,即一句话以及其对应的回复,其中回复需要带有情感标签,来表明当前的回复可以被认为是哪种情感的,并用此数据集来进行模型的训练;对GRU单元隐藏状态进行情感约束;多层GRU中使用上下层继承机制增强情感表达;使用反向传播算法最小化损失值来优化模型;基于GRU单元隐藏状态约束的情感个性化对话系统有效性检验;本发明创新性地提出了一种对GRU单元隐藏状态进行情感约束来表达不同情感以实现情感个性化对话的方法,在NLPCC2017和DailyDialogue数据集上的实验结果表明,基于GRU单元隐藏状态约束方法相比对其它模型系统在情感个性化对话任务上的表现更好。
请参阅图1,本发明一种基于GRU单元隐藏状态约束的对话方法,包括以下步骤:
S1、获取带有情感标注的对话数据进行预处理,将数据转换为单轮对话形式的数据,即一句话以及其对应的回复,其中回复需要带有情感标签,来表明当前的回复可以被认为是哪种情感的,并用此数据集来进行模型的训练;
数据集包括多个完整的数据元组,数据元组包括一个Post序列和一个Response序列,Post序列X={x1,x2,…,xn}表示长度为n的输入序列,Response序列Y={y1,y2,…,ym,e}表示长度为m的回复序列,拥有一个情感标签e∈E,代表当前这一数据元组的情感标签,E为数据集的情感标签集合。
通过Emotion Embedding将每一种情感标签都转为向量,并在训练之初对向量进行初始化,得到ve∈V;
S2、建立一个基于多层GRU单元的神经网络模型,利用步骤S1构建数据集中的情感信息对神经网络模型的GRU单元隐藏状态进行情感约束,得到情感约束后的隐藏状态;
请参阅图2所示,在encoding阶段,基于多层GRU单元的神经网络模型接收输入并不断更新隐藏状态;在decoding阶段,使用一个情感提取器,在每次decoding时从输入GRU单元的隐藏状态中提取当前的情感特征;依次计算decoding阶段一个时间步的隐藏状态,对第t步decoding步骤,从当前输入的隐藏状态,即上一步得到的隐藏状态st-1中提取情感特征
Figure BDA0002791122900000071
如下:
Figure BDA0002791122900000072
其中,WE(·)是可学习的情感提取器。
进一步的,在提取到情感特征后,使用当前给定的情感向量对这个情感特征进行约束,并将计算得到的约束量情感状态与上一步的隐藏状态,内容向量和上一步输出值一起传入GRU单元,更新隐藏状态。
对第t步decoding步骤,情感状态
Figure BDA0002791122900000073
由状态重建器Wp(·)计算得出
Figure BDA0002791122900000074
其中,ve是当前的目标情感的向量。
得到情感状态后,更新隐藏状态:
Figure BDA0002791122900000081
其中,ct是内容向量,yt-1是上一步输出。
S3、多层GRU中中的隐藏状态使用上下层继承机制增强情感表达,对前一层的情感信息进行继承,得到信息融合的GRU单元隐藏状态;
请参阅图3所示,对于多层GRU单元,使用继承机制,对前一层的情感信息进行继承,以使当前层的隐藏状态中的给定情感倾向更加强烈,使输出更具给定情感的特征。
在第t步decoding步骤中,对第i层的GRU单元,将第i-1层的第t-1步隐藏状态和第i-1层的情感状态融合,得到继承向量:
Figure BDA0002791122900000082
其中,WI(·)是继承向量提取器。
之后,使用继承向量来对隐藏状态进行更新,并使用
Figure BDA0002791122900000083
来控制上一层的情感信息在新的隐藏状态中占比的大小:
Figure BDA0002791122900000084
若只有一层GRU,则不适合使用继承机制。
S4、使用步骤S3信息融合的GRU单元隐藏状态生成下一个字的概率分布,然后使用反向传播算法最小化损失值来优化神经网络模型的参数,生成带有对应情感的回复信息,实现基于GRU单元隐藏状态约束的对话;
对于一组数据组元{X,Y},利用信息融合的GRU单元隐藏状态生成下一个字的概率分布,使用交叉熵作为损失函数,通过梯度反向传播算法最小化损失函数,继而更新神经网络的参数;多次迭代更新之后,模型模型完成,最终模型可以生成带有对应情感的回复信息,实现基于GRU单元隐藏状态约束的对话。
损失的计算公式为:
Figure BDA0002791122900000091
Figure BDA0002791122900000092
Q(t|X,e)=Q(yt|y1,y2,...,yt-1,X,e)
其中,P(t|X,e)表示生成回复序列中第t个词的条件预测概率分布,Q(t|X,e)表示真实的分布;
S5、基于GRU单元隐藏状态约束的情感个性化对话系统有效性检验,生成文本质量评估和生成文本情感评估。
使用BLEU和Perplexity对文本质量进行评估;通过训练一个基于BERT模型的情感分类器,对生成回复测试其准确率,来对生成文本情感进行评估。同时,还和其它的相关方法进行结果比较,以此来验证所提出的方法的有效性。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于基于GRU单元隐藏状态约束对话的操作,包括:对带有情感标注的对话数据进行预处理,将对话数据转换为单轮对话形式的数据构建数据集,然后对数据集进行模型训练;利用训练生成的数据集对GRU单元隐藏状态进行情感约束,得到约束后的隐藏状态模型;对情感约束后多层GRU单元中的隐藏状态使用上下层继承机制,对前一层的情感信息进行继承,得到信息融合的GRU单元隐藏状态模型;使用反向传播算法最小化损失值对建立的模型进行优化,生成带有对应情感的回复信息,实现基于GRU单元隐藏状态约束的对话。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关电网中长期检修计划的校核方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:对带有情感标注的对话数据进行预处理,将对话数据转换为单轮对话形式的数据构建数据集,然后对数据集进行模型训练;利用训练生成的数据集对GRU单元隐藏状态进行情感约束,得到约束后的隐藏状态模型;对情感约束后多层GRU单元中的隐藏状态使用上下层继承机制,对前一层的情感信息进行继承,得到信息融合的GRU单元隐藏状态模型;使用反向传播算法最小化损失值对建立的模型进行优化,生成带有对应情感的回复信息,实现基于GRU单元隐藏状态约束的对话。
本发明以ECM、CakeChat、CVAE作为基准方法进行实验,同时,为了展示生成文本的文本质量,添加不能加入情感因素的Seq2Seq方法作为对比试验。
以上方法都是在NLPCC2017和DailyDialogue两种开源数据集上进行实现,其中NLPCC2017是中文对话数据集,DailyDialogue是英文对话数据集。本实验中设置的GRU单元层数为2。
比较结果如表1所示。
表1方法对比实验结果
Figure BDA0002791122900000111
综上所述,本发明一种基于GRU单元隐藏状态约束的对话方法、存储介质及系统,采用了神经网络的方式,并对隐藏状态进行情感约束,在NLPCC2017和DailyDialogue上的实验结果表明,基于GRU单元隐藏状态约束方法相比对其它模型系统在情感个性化对话任务上的表现更好。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (6)

1.基于GRU单元隐藏状态约束的对话方法,其特征在于,包括以下步骤:
S1、对带有情感标注的对话数据进行预处理,将对话数据转换为单轮对话形式的数据构建数据集;
S2、建立一个基于多层GRU单元的神经网络模型,利用步骤S1构建数据集中的情感信息对神经网络模型的GRU单元隐藏状态进行情感约束,得到情感约束后的隐藏状态,步骤S2的情感约束过程中,在编码阶段,基于多层GRU单元的神经网络模型接收输入并不断更新隐藏状态;在解码阶段,使用情感提取器在每次解码时从输入GRU单元的隐藏状态中提取当前的情感特征,依次计算解码阶段一个时间步的隐藏状态,对第t步解码步骤,从当前输入的隐藏状态,即上一步得到的隐藏状态st-1中提取情感特征
Figure FDA0003883161680000011
使用当前给定的情感向量对情感特征进行约束,并将计算得到的约束量情感状态与上一步的隐藏状态,内容向量和上一步输出值一起传入GRU单元,更新隐藏状态,对GRU单元隐藏状态进行情感约束;
S3、对步骤S2情感约束后多层GRU单元中的隐藏状态使用上下层继承机制,对前一层的情感信息进行继承,得到信息融合的GRU单元隐藏状态,对步骤S2情感约束后的多层GRU单元使用上下层继承机制,对前一层的情感信息进行继承,得到继承向量,使用继承向量对隐藏状态进行更新,使用
Figure FDA0003883161680000012
控制上一层的情感信息在新的隐藏状态中占比的大小,Lmax为GRU单元的最大层数,上一层的情感信息在新的隐藏状态中占比的大小
Figure FDA0003883161680000013
具体为:
Figure FDA0003883161680000014
其中,
Figure FDA0003883161680000015
为继承向量,
Figure FDA0003883161680000016
为第i层的第t-1步隐藏状态,在第t步解码步骤中,对第i层的GRU单元,将第i-1层的第t-1步隐藏状态和第i-1层的情感状态融合,得到继承向量
Figure FDA0003883161680000017
如下:
Figure FDA0003883161680000018
其中,WI(·)是继承向量提取器,
Figure FDA0003883161680000021
为第i-1层的情感状态;
S4、使用步骤S3信息融合的GRU单元隐藏状态生成文字的概率分布,然后使用反向传播算法最小化损失值优化神经网络模型的参数,生成带有对应情感的回复信息,实现基于GRU单元隐藏状态约束的对话。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,预处理具体为:通过EmotionEmbedding将每一种情感标签都转为向量,并在训练之初对向量进行初始化,得到ve∈V,ve表示某种情感对应的特征向量,V表示情感特征向量的集合。
3.根据权利要求1所述的方法,其特征在于,步骤S1中,数据集包括多个完整的数据元组,数据元组包括一个Post序列和一个Response序列,Post序列X={x1,x2,…,xn}表示长度为n的输入序列,Response序列Y={y1,y2,…,ym,e}表示长度为m的回复序列,拥有一个情感标签e∈E,代表当前这一数据元组的情感标签,E为数据集的情感标签集合。
4.根据权利要求1所述的方法,其特征在于,步骤S4中,使用反向传播算法最小化损失值如下:
Figure FDA0003883161680000022
其中,P(t|X,e)为生成回复序列中第t个词的条件预测概率分布,Q(t|X,e)为真实的分布,m为生成回复信息的长度。
5.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至4所述的方法中的任一方法。
6.一种对话系统,其特征在于,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至4所述的方法中的任一方法的指令。
CN202011315173.4A 2020-11-20 2020-11-20 基于gru单元隐藏状态约束的对话方法、存储介质及系统 Active CN112434143B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011315173.4A CN112434143B (zh) 2020-11-20 2020-11-20 基于gru单元隐藏状态约束的对话方法、存储介质及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011315173.4A CN112434143B (zh) 2020-11-20 2020-11-20 基于gru单元隐藏状态约束的对话方法、存储介质及系统

Publications (2)

Publication Number Publication Date
CN112434143A CN112434143A (zh) 2021-03-02
CN112434143B true CN112434143B (zh) 2022-12-09

Family

ID=74693424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011315173.4A Active CN112434143B (zh) 2020-11-20 2020-11-20 基于gru单元隐藏状态约束的对话方法、存储介质及系统

Country Status (1)

Country Link
CN (1) CN112434143B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114519353B (zh) * 2022-02-22 2023-07-25 平安科技(深圳)有限公司 模型的训练方法、情感消息生成方法和装置、设备、介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165387A (zh) * 2018-09-20 2019-01-08 南京信息工程大学 一种基于gru神经网络的中文评论情感分析法
CN109472031A (zh) * 2018-11-09 2019-03-15 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN110427490A (zh) * 2019-07-03 2019-11-08 华中科技大学 一种基于自注意力机制的情感对话生成方法与装置
CN110717334A (zh) * 2019-09-10 2020-01-21 上海理工大学 基于bert模型和双通道注意力的文本情感分析方法
CN111274375A (zh) * 2020-01-20 2020-06-12 福州大学 一种基于双向gru网络的多轮对话方法及系统
CN111522936A (zh) * 2020-04-24 2020-08-11 上海智臻智能网络科技股份有限公司 一种包含情感的智能客服对话回复生成方法、装置及电子设备
CN111859978A (zh) * 2020-06-11 2020-10-30 南京邮电大学 一种基于深度学习的情感文本生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726207B2 (en) * 2018-11-27 2020-07-28 Sap Se Exploiting document knowledge for aspect-level sentiment classification

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165387A (zh) * 2018-09-20 2019-01-08 南京信息工程大学 一种基于gru神经网络的中文评论情感分析法
CN109472031A (zh) * 2018-11-09 2019-03-15 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN110427490A (zh) * 2019-07-03 2019-11-08 华中科技大学 一种基于自注意力机制的情感对话生成方法与装置
CN110717334A (zh) * 2019-09-10 2020-01-21 上海理工大学 基于bert模型和双通道注意力的文本情感分析方法
CN111274375A (zh) * 2020-01-20 2020-06-12 福州大学 一种基于双向gru网络的多轮对话方法及系统
CN111522936A (zh) * 2020-04-24 2020-08-11 上海智臻智能网络科技股份有限公司 一种包含情感的智能客服对话回复生成方法、装置及电子设备
CN111859978A (zh) * 2020-06-11 2020-10-30 南京邮电大学 一种基于深度学习的情感文本生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Trang Uyen Tran ; Ha Thanh Thi Hoang ; Hiep Xuan Huynh.Aspect Extraction with Bidirectional GRU and CRF.《IEEE》.2019,第1-5页. *

Also Published As

Publication number Publication date
CN112434143A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
JP2021192298A (ja) 機械翻訳システム及び方法
CN112214604A (zh) 文本分类模型的训练方法、文本分类方法、装置及设备
Sojasingarayar Seq2seq ai chatbot with attention mechanism
CN108256066B (zh) 端到端层次解码任务型对话系统
CN112214591B (zh) 一种对话预测的方法及装置
CN110083702B (zh) 一种基于多任务学习的方面级别文本情感转换方法
CN111666756B (zh) 一种基于主题融合的序列模型文本摘要生成方法
CN109948160B (zh) 短文本分类方法及装置
CN111581970B (zh) 一种网络语境的文本识别方法、装置及存储介质
CN110069611B (zh) 一种主题增强的聊天机器人回复生成方法及装置
CN112767910A (zh) 音频信息合成方法、装置、计算机可读介质及电子设备
CN107463928A (zh) 基于ocr和双向lstm的文字序列纠错算法、系统及其设备
WO2023231513A1 (zh) 对话内容的生成方法及装置、存储介质、终端
CN112131888A (zh) 分析语义情感的方法、装置、设备及存储介质
CN110263147A (zh) 推送信息的生成方法及装置
CN112560456A (zh) 一种基于改进神经网络的生成式摘要生成方法和系统
CN108363685B (zh) 基于递归变分自编码模型的自媒体数据文本表示方法
CN113836866A (zh) 文本编码方法、装置、计算机可读介质及电子设备
CN110298046B (zh) 一种翻译模型训练方法、文本翻译方法及相关装置
Mathur et al. A scaled‐down neural conversational model for chatbots
CN112434143B (zh) 基于gru单元隐藏状态约束的对话方法、存储介质及系统
CN110955765A (zh) 智能助理的语料构建方法、装置、计算机设备和存储介质
Wei et al. Past is important: Improved image captioning by looking back in time
CN116432663B (zh) 基于要素简图的可控多样性专业文本生成方法及系统
CN115525743B (zh) 基于自学习白化网络的人机交互方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant