CN112541063B - 一种基于自学习对话模型的人机对话方法及系统 - Google Patents

一种基于自学习对话模型的人机对话方法及系统 Download PDF

Info

Publication number
CN112541063B
CN112541063B CN202011422486.XA CN202011422486A CN112541063B CN 112541063 B CN112541063 B CN 112541063B CN 202011422486 A CN202011422486 A CN 202011422486A CN 112541063 B CN112541063 B CN 112541063B
Authority
CN
China
Prior art keywords
model
learning
role information
dialogue
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011422486.XA
Other languages
English (en)
Other versions
CN112541063A (zh
Inventor
刘培玉
徐富永
朱振方
丁琦
王元英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN202011422486.XA priority Critical patent/CN112541063B/zh
Publication of CN112541063A publication Critical patent/CN112541063A/zh
Application granted granted Critical
Publication of CN112541063B publication Critical patent/CN112541063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种基于自学习对话模型的人机对话方法及系统;所述方案利用预定义的角色信息训练一个角色信息记忆网络,预测回复时首先利用角色信息记忆网络生成与当前语境相关程度最高的角色信息,并将角色信息输入到对话生成网络中;通过适当地融入角色信息更符合用户之间的对话习惯,使模型生成的回复更加具有个性和多样性;同时,本公开所述方案将基于马尔可夫决策过程的强化学习方式融入模型的学习过程中,对模型的参数进行微调和优化,利用对话生成的模型初始化两个学习体,让它们进行多轮的对话探索;随着学习体的探索,每个学习体的角色信息记忆选择网络会完善对对方的印象描述,一组成功的对话可以让对话双方通过对话的内容和对话者的特点增强对对方的了解。

Description

一种基于自学习对话模型的人机对话方法及系统
技术领域
本公开属于自然语言处理和强化学习技术领域,尤其涉及一种基于自学习对话模型的人机对话方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
现有的对话系统分为基于检索方式的对话系统和基于生成方式的对话系统。基于检索的对话系统所产生的回复通常是预先存储和事先定义的数据,输入的内容通常是一段上下文文本和一个候选回复,模型的输出则是候选答案的得分,寻找最优回复的过程为先对多个候选回复进行打分及排序,选出分值最高的回复最为最终回复。基于检索的对话系统生成的回复答案相对固定,灵活性不足,在一些闲聊的场景应用起来非常困难。基于生成式的对话系统在对话流畅度、回复的单一重复率方面还存在一定的问题。
通过在感知科学相关领域的研究发现,对话的两个人在对话的时候大脑会产生相似的活动映射,故分析对话者双方的角色信息以及感情信息在双方交流的过程中就显得格外重要。为了将对话者的角色信息充分融入到对话生成的过程中,提高闲聊机器人回复的多样性,研究人员做了许多的尝试。初期,研究人员将用户预定义的角色信息转换成一个稠密向量用于后续的对话生成任务,并且采用MMI替换最大似然估计作为新的损失函数,有效地减少了通用回复的数量,增加了生成回复的多样性;随着闲聊机器人的发展,接着就有研究人员在该领域提出了一个基于角色信息的对话数据集,并且基于该数据集提出了两种生成式的模型,Per-Seq2Seq模型和生成式的角色信息记忆网络,Per-Seq2Seq模型是基于用户的角色信息,采用序列到序列的方式对系统回复进行预测。
对话系统指的是通过智能算法让计算机进行自然语言理解,并在一定程度上模仿人类的对话习惯与用户进行对话,通过图灵测试一直都是人工智能的长期目标。因此在开放领域对话系统的研究中,提高系统生成回复的多样性,增强多轮对话的可持续性成为了研究与应用的热点。闲聊机器人在应用过程中不仅要有能生成多样性回复的能力,并且具有可以在对话过程中建立与对话用户之间的情感状态联系的能力也显得格外重要。由于许多开放领域对话数据集的发布,传统的Sequenceto Sequence(Seq2Seq)模型被广泛用于对话生成模型的建模。Seq2seq模型开始是在机器翻译领域中被提出,随后被广泛应用于自然语言处理的各个领域。在对话系统领域,Seq2Seq可以充分结合对话的文本信息,充分解决了RNN输出数据维度固定的问题,有利于提高对话系统预测回复的多样性。
然而,发明人发现,尽管Seq2Seq模型已经被广泛应用于对话系统,但是距离让对话系统理解用户的自然语言并通过图灵测试还有很长的一段路需要走,使用Seq2Seq模型去完成对话生成的任务仍存在生成的回复个性化程度不高、相关程度低、长距离依赖等问题,Seq2Seq神经网络模型用于对话生成的模型倾向于生成安全、常见的回复。产生上述问题最重要的一个原因为没有将与对话用户相关的角色信息融入到对话生成的过程中。然而如何提取用户的角色信息以及将所提取的对话信息融合到对话生成的过程中仍然是一个挑战。传统的方法是通过将用户的角色信息输入到神经网络中对角色信息做一个抽象表示,探索对话文本与用户角色信息之间的潜在关系,通过一个自动编码器结构生成多样性的回复。然而在一些语境下,系统产生的回复不需要表现出用户的角色信息,回复需要在充分结合对话历史信息的基础上适当地融合角色信息,这样才更符合人类的对话习惯。
发明内容
本公开为了解决上述问题,提出了一种基于自学习对话模型的人机对话方法及系统;所述方案利用预定义的角色信息训练一个角色信息记忆网络,预测回复时首先利用角色信息记忆网络生成与当前语境相关程度最高的角色信息,并将角色信息输入到对话生成网络中;通过适当地融入角色信息更符合用户之间的对话习惯,使模型生成的回复更加具有个性和多样性。
根据本公开实施例的第一个方面,提供了一种基于自学习对话模型的人机对话方法,包括:
在接受到用户的提问时,利用所述自学习对话模型中的角色信息记忆网络选择与当前语境最相关的用户角色信息;
将筛选出的用户角色信息与对话历史信息进行拼接,作为所述自学习对话模型中对话生成网络的输入,并通过所述对话生成网络对用户的提问进行回复预测,生成个性化回复。
进一步的,在所述自学习对话模型的学习过程中,为了让模型有更优异的表现,将基于马尔可夫决策过程的强化学习方式融入模型的学习过程中,对模型的参数进行微调和优化,利用对话生成的模型初始化两个学习体,让它们进行多轮的对话探索;随着学习体的探索,每个学习体的角色信息记忆网络会完善对对方的印象描述。
根据本公开实施例的第二个方面,提供了一种基于自学习对话模型的人机对话系统,包括:
角色信息确定单元,其用于在接受到用户的提问时,利用所述自学习对话模型中的角色信息记忆网络选择与当前语境最相关的用户角色信息;
回复预测单元,其用于将筛选出的用户角色信息与对话历史信息进行拼接,作为所述自学习对话模型中对话生成网络的输入,并通过所述对话生成网络对用户的提问进行回复预测,生成个性化回复。
根据本公开实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于自学习对话模型的人机对话方法。
根据本公开实施例的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于自学习对话模型的人机对话方法。
与现有技术相比,本公开的有益效果是:
(1)本公开所述方案通过将用户的角色信息输入到角色信息记忆选择网络中去预测与当前对话相关程度最高的角色信息,并将角色信息融入到对话生成的部分,使模型生成的回复更加具有个性化的特点;
(2)为了加快所述自学习对话模型在学习过程中的收敛速度,让模型有更优异的表现,本公开所述方案将基于马尔可夫决策过程的强化学习方式融入模型的学习过程中,对模型的参数进行微调和优化,利用对话生成的模型初始化两个学习体,让它们进行多轮的对话探索;随着学习体的探索,每个学习体的角色信息记忆选择网络会完善对对方的印象描述,一组成功的对话可以让对话双方通过对话的内容和对话者的特点增强对对方的了解。
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,并不构成对本公开的不当限定。
图1为本公开实施例一中所述的对话生成方法概述图;
图2为本公开实施例一中所述的对话生成方法流程图;
图3为本公开实施例一中所述的角色信息记忆选择网络结构图;
图4为本公开实施例一中所述的对话生成网络结构图;
图5为本公开实施例一中所述的自学习以及参数微调的过程。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一:
本实施例的目的是提供一种基于自学习对话模型的人机对话方法。
一种基于自学习对话模型的人机对话方法,包括:
在接受到用户的提问时,利用所述自学习对话模型中的角色信息记忆网络选择与当前语境最相关的用户角色信息;
将筛选出的用户角色信息与对话历史信息进行拼接,作为所述自学习对话模型中对话生成网络的输入,并通过所述对话生成网络对用户的提问进行回复预测,生成个性化回复。
具体的,为了在对话生成任务中可以更有效地融入对话者的角色信息,本公开首先提出一种角色信息记忆选择网络(PMSN),利用预定义的角色信息训练一个角色信息记忆网络,预测回复时首先利用角色信息记忆网络生成与当前语境相关程度最高的角色信息,并将角色信息输入到对话生成网络中。
如图1所示,为本公开所述的对话生成方法的概述图,其对我们所提出的观点进行了简略的说明,用户A和用户B的角色信息WA和WB分别由L条对用户描述的轮廓信息
Figure GDA0003556418230000061
组成。当我们跟其他人进行交流的时候首先会思考对方是个什么样的人,有什么样的性格特点等等,这些信息会通过PMSN根据预定义的角色信息进行生成,形成对话生成的先验知识。在对话生成过程中采用对话历史信息
Figure GDA0003556418230000062
的同时也会采用与当前语境程度最高的角色信息,利用角色信息记忆网络去辅助对话的个性化生成。对话过程中并不是所有的回复都需要融入对话者的角色信息,质量高的对话过程是在充分利用对话者对话历史信息的基础上,适当地融入角色信息才更符合用户之间的对话习惯;故此处我们将用户的角色信息输入到角色信息记忆选择网络中去预测与当前对话相关程度最高的角色信息,并将角色信息融入到对话生成的部分,使模型生成的回复更加具有个性化的特点。
角色信息记忆网络采用MLP的方式对角色信息进行记忆,并利用所得的模型去选择与当前语境匹配程度最高的角色信息W*=MLP(W,x),利用角色信息记忆网络去辅助个性化回复的生成。对话生成网络则是利用对话历史信息与角色信息记忆网络的输出进行一个序列预测的任务,使系统给用户生成的回复更加具有个性,更加多样化。对话生成网络通过一个条件概率
Figure GDA0003556418230000071
对用户A提问的序列进行预测,其中
Figure GDA0003556418230000072
表示预测的目标,WA表示用户A的人设信息,W*表示与当前对话相关程度最高的人设信息,
Figure GDA0003556418230000073
则表示的是前n-1轮的对话历史信息。
同时,为了所述自学习对话模型在学习过程中为了加快模型的收敛,让模型有更优异的表现,我们将基于马尔可夫决策过程的强化学习方式融入模型的学习过程中,对模型的参数进行微调和优化,利用对话生成的模型初始化两个学习体,让它们进行多轮的对话探索。随着学习体的探索,每个学习体的角色信息记忆选择网络会完善对对方的印象描述,一组成功的对话可以让对话双方通过对话的内容和对话者的特点增强对对方的了解。
为了便于理解,以下是对本公开所述的角色信息记忆选择网络、对话生成网络以及模型的自学习以及参数的微调过程的具体说明:
(一)角色信息记忆选择网络
为了将角色信息更好地融入到对话生成的过程中,在对话开始之前会先将角色信息输入到角色记忆网络进行记忆的过程,为了尽量减少记忆角色信息过程中的误差,记忆的过程采用多跳注意力的思想,多次计算角色信息的注意力。采用两个变量去描述角色信息的记忆的过程,对话文本信息C={c1,c2…cn}、角色信息W={w1,w2…wk},例如,对话文本C={“Hi”,“Hello!How are you today?”,“Iam good thank you,how are you.”…},角色信息W={“I like to ski”,“My wife does not like me anymore”,“I have went toMexico 4times this year”…}。其计算过程为:
受到注意力机制的影响,模型在接收到ht后,计算ht与每个wi之间的注意力得分:
Figure GDA0003556418230000081
使用softmax函数对注意力得分进行归一化处理,得到每条角色信息对应的权重:
Figure GDA0003556418230000082
其中
Figure GDA0003556418230000083
用注意力权重去度量当前对话语境与角色信息的匹配程度;同时每条角色信息wi都会通过权重矩阵Wc产生一个ci,将注意力权重ati和其对应的ci加权求和作为第t个对话序列的注意力输出,其计算公式如下:
Figure GDA0003556418230000084
计算注意力的部分本质上是一个加权求和的函数,如果仅仅采用单层的注意力会存在一定的误差,自然语言处理任务中涉及到复杂的语义信息,计算注意力输出的部分本质上是一个加权求和函数,如果仅仅采用单层的注意力会出现一定的误差,计算出的注意力矩阵不能很好地表示出目标语句与当前语境的关联程度,注意力部分采用多跳注意力的结构,其中第i跳的注意力输出为:
mi=mi-1+Attentioni-1
m0=ht,经过测试得知经过对角色信息的三次抽象表示后可使得人设记忆网络到最优秀的表现,即i=3,m3即为角色信息记忆网络的输出。
在选择跟当前对话信息有关的角色信息表示时,通过对多跳注意力的输出做一个线性变换得出与当前语境相关程度最高的角色信息:
W*=softmax(Wp[m3])=MLP([m3])
其中,Wp为角色信息选择过程的权重矩阵,所挑选出的角色信息W*用于后续对话生成部分。
在训练角色信息记忆网络之前需要对语料库中的对话信息进行标注,采用TF-IDF的方式计算每条对话信息与角色信息之间的相似度,每个词的逆向文件频率:
Figure GDA0003556418230000091
其中,tfi是Glove词表中的索引,词表中的排序方式按照齐夫定律进行排序,设置一个相似度的上限,若高于上限则认为该对话不需要反映用户的角色信息,此时将W*设置成空;对标注好的语料采用MLP的方式训练角色信息记忆网络。
m3为对角色信息三次注意力的输出,MLP的输出W*为预测的与当前语境最相关的角色信息,用W*与真实的p作损失:
Figure GDA0003556418230000092
(二)对话生成网络Transferrer
在对话生成部分我们将对话生成的任务看成序列预测的任务,采用预训练的语言模型GPT2初始化我们的模型,相比较于GPT模型,GPT2增加了训练的数据量,使预训练模型内容更加丰富,它们都是基于Transformer模型,在训练GPT2预训练模型的同时也验证了无监督学习的有效性。
Transferrer采用12层Transformer模型中的编码器结构编码与对话相关的文本信息和生成回复,与对话相关的文本信息包括角色信息WA、对话历史信息
Figure GDA0003556418230000101
与当前语境相关程度最高的角色信息
Figure GDA0003556418230000102
采用最大似然估计预测回复序列中的下个单词,损失函数为:
Figure GDA0003556418230000103
其中,θ为对话生成网络的参数,
Figure GDA0003556418230000104
表示第n轮中的第t个词的向量表示,WA为用户A的角色信息,
Figure GDA0003556418230000105
表示A的角色信息中与当前语境相关程度最高的角色信息,
Figure GDA0003556418230000106
表示对话者A的对话历史信息,
Figure GDA0003556418230000107
表示第n轮对话中第t个词之前词的向量表示。
在预测的过程中,使用贪心搜索的方法选出候选回复的集合
Figure GDA0003556418230000108
对各个候选回复计算得分,选择得分最高的回复作为最终回复:
Figure GDA0003556418230000109
为提高模型的泛化能力,找到一个更强大、更具有鲁棒性的特征表示,让最终的对话生成的部分受益,此处我们设置一个辅助任务(NextUtterancePredicting)去优化对话预测的部分,除了训练对话生成模型生成更合适的回复外,在生成序列的最后添加一个[CLS]标志,在模型的最后一层添加一个分类器区分系统所生成的回复是否是合适的回复,其分类的方法是随机选定一个干扰项数据,训练分类器可以区分出正常回复和干扰项,对上述公式进行扩展:
Figure GDA00035564182300001010
其中,θ为对话生成任务与辅助任务的共享参数,yn=1表示所预测的回复,
Figure GDA0003556418230000111
为当前时间步的回复,PA指的是与角色A相关的角色信息,
Figure GDA0003556418230000112
指的是角色A中与当前语境相关程度最高的角色信息,
Figure GDA0003556418230000113
表示的是对话角色A的对话历史信息,α是超参。
(三)模型的自学习以及参数的微调
尽管Model-Base的个性化对话生成网络可以根据训练数据很好地模仿用户做出个性化的回复,但还不能充分地让机器去进行充分地自然语言理解。因此,我们在随机配对的两个Transferrer之间进行对话,通过强化学习的方式鼓励Transferrer学习一个可以获得最大奖励的策略。我们对模型采用微调的方式进行更进一步的优化。对模型的训练采用自学习的方式,在预训练模型GPT2的基础上初始化两个对话生成模型,让两个模型去互相对话,利用对话历史信息和对话者的角色信息进行充分探索。
我们将两个对话的个体分成用户和学习体,自学习的过程就是学习体优化参数θ的过程。让用户
Figure GDA0003556418230000114
从文本数据库中随机选择文本先开始对话,
Figure GDA0003556418230000115
作为学习体进行回复。
接下来说明一下针对我们的任务,应用强化学习的三个要素(策略、收益信号、价值函数),策略定义了学习体在特定时间的行为方式,公式表示为
Figure GDA0003556418230000116
即在某个状态下所采取某种行动的条件概率,策略负责将状态信息映射成动作信息。收益信号定义了学习体学习的目标,在每个时间步,学习体采取了某种动作之后,环境向学习体发送一个收益。价值函数则是从长远角度来看哪个状态更好,表示接下来可能状态的长期期望。下面说明其他的一些必要的公式表达。状态包括用户总体的角色信息、与当前语境最相关的角色信息、对话历史信息,此处的我们把状态信息定义成一个三元组,即:s=(W,h,W*),对于学习体B在第n轮的状态信息表示为
Figure GDA0003556418230000121
动作则是学习体按照某种策略所采取的动作,在我们的对话生成任务中,我们把动作看作学习体
Figure GDA0003556418230000122
针对用户
Figure GDA0003556418230000123
的问题所做出的回复,动作定义成
Figure GDA0003556418230000124
对于每个时间步t=1,…,T,学习体观察对话历史,并且从K个动作
Figure GDA0003556418230000125
中选择一个动作(回复);执行完该动作之后,学习体接收到一个环境所给的奖励并且将它作为下一个隐层状态ht+1,接着学习体被赋予一个新的动作集合:
Figure GDA0003556418230000126
学习过程如图3至图5所示。在轮到学习体
Figure GDA0003556418230000127
回复时,学习体
Figure GDA0003556418230000128
根据当前的状态信息和策略,选择合适的动作,做出恰当的回复。对于用户
Figure GDA0003556418230000129
来说,接收到
Figure GDA00035564182300001210
的回复后,当前的状态信息得到更新,采用个性化生成部分的方法生成回复。经过多轮对之后对话结束(设置一个对话轮数的上限),优化过程通过策略梯度的方式进行修正优化,采用策略梯度可以让神经网络直接输出策略函数,即确定在当前状态下应该采取的策略,也可以表示连续动作。
将学习体在探索过程中的序列定义成τ={s1,a1,s2,a2…sT,aT},其中,
Figure GDA00035564182300001211
学习体A和B交替与环境进行交互更新状态。根据马尔科夫决策过程得某个序列τi发生的概率:
Figure GDA00035564182300001212
每个episode序列都有一个Reward的期望值,通过动作价值[8]的方式进行估计每个序列收益的期望值,其计算方式见下文中的奖励重塑机制:
Figure GDA0003556418230000131
其中,R(τ)为实际探索过程中的收益值,优化的目标为最大化收益的期望值,优化的方式采用策略梯度的方式进行优化,为获得收益的最大期望值,采用似然比率的技巧,通过梯度上升的方法更新参数θ,其中收益期望值的梯度为:
Figure GDA0003556418230000132
参数θ的更新方式为:
Figure GDA0003556418230000133
由前文可知,探索序列τ中的动作的选择具有随机性,动作空间是无限的。在实践过程中,通过强化算法去近似公式梯度。学习体通过多样性抽样随机抽样确定τ,相比较于贪心搜索抽样,多样性抽样会使序列具有更高的多样性。
高质量的个性化对话生成的模型应该重视模仿用户的对话模型的建模和对话者之间的互相的角色感知。在强化学习过程中,当环境中的奖励过于稀疏的时候,单纯靠学习体进行探索学习找到问题的解决方案可能会很慢,故可以将经验融入到对奖励的设计过程中可以更有效地进行求解,加快收敛。我们设计了两种奖励的处理方案。
在个性化对话生成任务中,系统所生成的回复必须要符合人类的语言特点和对话规则,这样生成的回复才会有意义,这种规则可以通过预训练模型中的语言特点来对其进行评估衡量,因此我们基于预训练模型(GPT2)而提出了一种奖励机制,对于τ中的学习体B所采取的动作获得的奖励为:
Figure GDA0003556418230000141
语言模型的得分评估是单独进行的,没有充分考虑上下文的连贯性,因此一个合理的对话生成模型应该需要充分结合对话历史信息,才可以生成更加有意义的回复。利用前文所提出的辅助任务来设计奖励形式:
Figure GDA0003556418230000142
综上,最终的奖励为:
R=β1R12R2
其中,β1和β2为超参。
实施例二:
本实施例的目的是提供一种基于自学习对话模型的人机对话系统。
一种基于自学习对话模型的人机对话系统,包括:
角色信息确定单元,其用于在接受到用户的提问时,利用所述自学习对话模型中的角色信息记忆网络选择与当前语境最相关的用户角色信息;
回复预测单元,其用于将筛选出的用户角色信息与对话历史信息进行拼接,作为所述自学习对话模型中对话生成网络的输入,并通过所述对话生成网络对用户的提问进行回复预测,生成个性化回复。
实施例三:
本实施例的目的是提供一种电子设备。
一种电子设备,包括、存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:
在接受到用户的提问时,利用所述自学习对话模型中的角色信息记忆网络选择与当前语境最相关的用户角色信息;
将筛选出的用户角色信息与对话历史信息进行拼接,作为所述自学习对话模型中对话生成网络的输入,并通过所述对话生成网络对用户的提问进行回复预测,生成个性化回复。
实施例四:
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤,
在接受到用户的提问时,利用所述自学习对话模型中的角色信息记忆网络选择与当前语境最相关的用户角色信息;
将筛选出的用户角色信息与对话历史信息进行拼接,作为所述自学习对话模型中对话生成网络的输入,并通过所述对话生成网络对用户的提问进行回复预测,生成个性化回复。
上述实施例提供的一种基于自学习对话模型的人机对话方法及系统完全可以实现,具有广阔应用前景。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (9)

1.一种基于自学习对话模型的人机对话方法,其特征在于,包括:
在接受到用户的提问时,利用所述自学习对话模型中的角色信息记忆网络选择与当前语境最相关的用户角色信息;其中,通过对多跳注意力的输出进行线性变换得出与当前语境相关程度最高的角色信息,所述线性变换表示为:
W*=softmax(Wp[m3])=MLP([m3])
其中,Wp为角色信息选择过程的权重矩阵,所挑选出的角色信息W*用于后续对话生成部分;m3为对角色信息三次注意力的输出;
将筛选出的用户角色信息与对话历史信息进行拼接,作为所述自学习对话模型中对话生成网络的输入,并通过所述对话生成网络对用户的提问进行回复预测,生成个性化回复;
其中,所述对话生成网络采用12层Transformer模型中的编码器结构编码与对话相关的文本信息和生成回复,与对话相关的文本信息包括角色信息、对话历史信息、与当前语境相关程度最高的角色信息;
采用最大似然估计预测回复序列中的下个单词,损失函数为:
Figure FDA0003556418220000011
其中,θ为对话生成网络的参数,
Figure FDA0003556418220000012
表示第n轮中的第t个词的向量表示,WA为用户A的角色信息,
Figure FDA0003556418220000013
表示A的角色信息中与当前语境相关程度最高的角色信息,
Figure FDA0003556418220000014
表示对话者A的对话历史信息,
Figure FDA0003556418220000015
表示第n轮对话中第t个词之前词的向量表示;
在预测的过程中,使用贪心搜索的方法选出候选回复的集合
Figure FDA0003556418220000016
对各个候选回复计算得分,选择得分最高的回复作为最终回复,其中:
Figure FDA0003556418220000021
2.如权利要求1所述的一种基于自学习对话模型的人机对话方法,其特征在于,在对话开始之前先将角色信息输入到所述角色记忆网络进行记忆;记忆的过程采用多跳注意力的思想,多次计算角色信息的注意力。
3.如权利要求1所述的一种基于自学习对话模型的人机对话方法,其特征在于,所述角色信息的注意力计算利用注意力权重和其对应的语义向量进行加权求和来实现。
4.如权利要求1所述的一种基于自学习对话模型的人机对话方法,其特征在于,在训练角色信息记忆网络前,需要对语料库中的对话信息进行标注,采用TF-IDF的方式计算每条对话信息与角色信息之间的相似度,每个词的逆向文件频率:
Figure FDA0003556418220000022
其中,tfi是Glove词表中的索引,词表中的排序方式按照齐夫定律进行排序,设置一个相似度的上限,若高于上限则认为该对话不需要反映用户的角色信息,此时将W*设置成空;对标注好的语料采用MLP的方式训练角色信息记忆网络。
5.如权利要求1所述的一种基于自学习对话模型的人机对话方法,其特征在于,在所述自学习对话模型的学习过程中,将基于马尔可夫决策过程的强化学习方式融入模型的学习过程中,对模型的参数进行微调和优化,利用对话生成的模型初始化两个学习体,让它们进行多轮的对话探索;随着学习体的探索,每个学习体的角色信息记忆网络会完善对对方的印象描述。
6.如权利要求1所述的一种基于自学习对话模型的人机对话方法,其特征在于,所述方法将对话生成过程看成序列预测的任务,同时,所述方法设置了一个辅助任务去优化对话预测的部分,除了训练对话生成模型生成更合适的回复外,在生成序列的最后添加一个标志,在模型的最后一层添加一个分类器区分系统所生成的回复是否是合适的回复。
7.如权利要求6所述的一种基于自学习对话模型的人机对话方法,其特征在于,所述分类器分类的方法是随机选定一个干扰项数据,训练后的分类器可以区分出正常回复和干扰项。
8.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于自学习对话模型的人机对话方法。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于自学习对话模型的人机对话方法。
CN202011422486.XA 2020-12-08 2020-12-08 一种基于自学习对话模型的人机对话方法及系统 Active CN112541063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011422486.XA CN112541063B (zh) 2020-12-08 2020-12-08 一种基于自学习对话模型的人机对话方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011422486.XA CN112541063B (zh) 2020-12-08 2020-12-08 一种基于自学习对话模型的人机对话方法及系统

Publications (2)

Publication Number Publication Date
CN112541063A CN112541063A (zh) 2021-03-23
CN112541063B true CN112541063B (zh) 2022-06-24

Family

ID=75019355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011422486.XA Active CN112541063B (zh) 2020-12-08 2020-12-08 一种基于自学习对话模型的人机对话方法及系统

Country Status (1)

Country Link
CN (1) CN112541063B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139042B (zh) * 2021-04-25 2022-04-29 内蒙古工业大学 一种利用微调和重排序策略的情感可控回复生成方法
CN113220851A (zh) * 2021-04-28 2021-08-06 山东师范大学 一种基于推理对话模型的人机个性化对话方法及系统
CN113360610A (zh) * 2021-05-19 2021-09-07 山东师范大学 基于Transformer模型的对话生成方法及系统
JP7329585B2 (ja) * 2021-05-24 2023-08-18 ネイバー コーポレーション ペルソナチャットボット制御方法及びシステム
CN113220856A (zh) * 2021-05-28 2021-08-06 天津大学 一种基于中文预训练模型的多轮对话系统
CN113239170B (zh) * 2021-06-01 2023-11-28 平安科技(深圳)有限公司 基于相互角色感知的对话生成方法、装置、设备及介质
CN113378583A (zh) * 2021-07-15 2021-09-10 北京小米移动软件有限公司 对话回复方法及装置、对话模型训练方法及装置、存储介质
CN116662520A (zh) * 2023-07-21 2023-08-29 六合熙诚(北京)信息科技有限公司 一种适应于心理角色场景模拟的多轮对话生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018133761A1 (zh) * 2017-01-17 2018-07-26 华为技术有限公司 一种人机对话的方法和装置
CN108363690A (zh) * 2018-02-08 2018-08-03 北京十三科技有限公司 基于神经网络的对话语义意图预测方法及学习训练方法
CN110083693A (zh) * 2019-04-28 2019-08-02 腾讯科技(深圳)有限公司 机器人对话回复方法及装置
CN111353029A (zh) * 2020-02-22 2020-06-30 杭州电子科技大学 一种基于语义匹配的多轮对话口语理解方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018133761A1 (zh) * 2017-01-17 2018-07-26 华为技术有限公司 一种人机对话的方法和装置
CN108363690A (zh) * 2018-02-08 2018-08-03 北京十三科技有限公司 基于神经网络的对话语义意图预测方法及学习训练方法
CN110083693A (zh) * 2019-04-28 2019-08-02 腾讯科技(深圳)有限公司 机器人对话回复方法及装置
CN111353029A (zh) * 2020-02-22 2020-06-30 杭州电子科技大学 一种基于语义匹配的多轮对话口语理解方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Reinforcement Learning Based Personalized Neural Dialogue Generation;Tulika Saha;《International Conference on Neural Information Processing》;20201117;全文 *
基于双向长短期记忆网络和标签嵌入的文本分类模型;董彦如等;《山东大学学报( 理学版)》;20201130;第55卷(第11期);全文 *

Also Published As

Publication number Publication date
CN112541063A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN112541063B (zh) 一种基于自学习对话模型的人机对话方法及系统
CN108734276B (zh) 一种基于对抗生成网络的模仿学习对话生成方法
CN108681610B (zh) 生成式多轮闲聊对话方法、系统及计算机可读存储介质
CN111897941B (zh) 对话生成方法、网络训练方法、装置、存储介质及设备
Thomson Statistical methods for spoken dialogue management
CN106448670A (zh) 基于深度学习和强化学习的自动回复对话系统
CN111159368A (zh) 一种个性化对话的回复生成方法
CN111966800A (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN112559706B (zh) 对话生成模型的训练方法、对话方法、设备以及存储介质
CN110334196B (zh) 基于笔画和自注意力机制的神经网络中文问题生成系统
CN116150338A (zh) 一种基于多轮对话的智能客服方法及系统
CN113360618B (zh) 一种基于离线强化学习的智能机器人对话方法及系统
CN110597968A (zh) 一种回复选择方法及装置
Guo et al. Learning to query, reason, and answer questions on ambiguous texts
CN110297894B (zh) 一种基于辅助网络的智能对话生成方法
CN112000788A (zh) 一种数据处理方法、装置以及计算机可读存储介质
Bunga et al. Developing a complete dialogue system using long short-term memory
CN114328866A (zh) 应答流畅准确的强拟人化智能对话机器人
Wu et al. End-to-end recurrent entity network for entity-value independent goal-oriented dialog learning
CN111046157B (zh) 一种基于平衡分布的通用英文人机对话生成方法和系统
CN113779224A (zh) 一种基于用户对话历史的个性化对话生成方法与系统
Nishimoto et al. Dialogue management with deep reinforcement learning: Balancing exploration and exploitation
CN113535911B (zh) 奖励模型处理方法、电子设备、介质和计算机程序产品
Chien et al. Stochastic curiosity maximizing exploration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant