CN116431780A

CN116431780A - 一种人机对话方法、系统、电子设备及存储介质

Info

Publication number: CN116431780A
Application number: CN202310280216.7A
Authority: CN
Inventors: 曹娟; 齐笑甜; 宋卿; 温宇俊; 张鹏洲
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-07-14

Abstract

本发明公开一种人机对话方法、系统、电子设备及存储介质，涉及人机对话技术领域，所述方法包括：获取当前对话；当前对话包括目标问题和历史数据；历史数据包括角色信息和历史对话；将历史数据输入至对话类型选择模型中，得到当前对话的对话类型；对话类型为角色信息无关的对话或角色信息相关的对话；当当前对话的对话类型为角色信息无关的对话时，将目标问题输入至角色信息无关对话模型中，得到目标问题的角色无关的回复；当当前对话的对话类型为角色信息相关的对话时，将目标问题输入至角色信息相关对话模型中，得到目标问题的角色相关的回复。本发明提升了对话的拟人性和人机交互的可持续性。

Description

一种人机对话方法、系统、电子设备及存储介质

技术领域

本发明涉及人机对话技术领域，特别是涉及一种人机对话方法、系统、电子设备及存储介质。

背景技术

构建类人的对话系统一直是自然语言处理(Natural Language Processing，NLP)行业追求的目标，其中一个主要的挑战是如何让对话系统在多次对话中呈现出一致的个性，即对话系统应该对于语义相同或者类似的问题生成在角色上一致的回复。例如，当用户输入“你多大了？”时，系统可能会回复“18岁”，而当用户问“你今年几岁？”，系统却回答“我今年65岁”。造成这种现象的原因是对话系统的训练语料来源复杂，有的语料为“我今年65岁”，而有的语料显示“18岁”，因此当用户以不同的方式进行提问时，系统就会出现不一致的回复，而这种前后角色不一致的情况会极大地影响用户的体验感。

近些年，技术发展和市场需求激发了学界和工业界对于研究面向角色一致性的对话系统的兴趣，随着虚拟人和元宇宙概念的兴起，角色化对话技术有望赋予赋能IP形象，虚拟偶像，智能客服，游戏NPC，智慧教育等多个领域，角色化对话技术的研究在学术研究方面和实际应用方面都有着重要意义。

最早研究角色化对话技术的是2016年斯坦福博士Li等人所做的工作，他基于seq2seq架构提出了用于学习角色特征对角色进行嵌入的说话者模型Speakermodel和根据对话者的不同来调整说话者的风格的说话者-对话者模型Speaker-Addressee model。这项研究训练数据中并没有显示包含每个用户的角色信息，而是通过其角色向量在空间中的相似度来进行判断，因此，这种方式无法显示修改角色信息，较难进行实际落地。2018年，为解决角色化对话中角色一致性问题，Zhang等人提出了一个人工标注的角色化对话数据集Persona-Chat。该数据集由标注人员首先进行角色信息的编写，之后再将角色信息分配给不同的标注员，让他们扮演角色进行对话。Thomas Wolf等人基于GPT2提出了TransferTransfo模型，在角色信息嵌入方面，TransferTransfo采用了简单的拼接方式，并用状态嵌入state embedding区分不同内容。另外，TransferTransfo的微调过程也有些许不同，除了常规的一个语言模型损失外，还有新增的下一句的分类损失，即将预测生成的回复和随机选择的回复都分别拼接到历史对话然后用分类器去预测哪个回复更加合适。将这两部分损失加到一起去联合优化模型。Golovanov等人采用了编码解码(Encoder Decoder)框架，Encoder分别对角色信息(Persona Information)和对话历史记录(Dialog History)进行编码，然后在Decoder中将编码信息和输出做自注意力机制(self attention)，通过这种方式引入persona信息。

ConvA12比赛激发了研究者们对角色化对话技术研究的兴趣。此后，学者们开始从多方面研究角色化对话技术。Sean Welleck等人将角色一致性问题转化为自然语言推理问题，即判断当前回复与角色信息之间的逻辑关系并基于Persona-Chat数据集提出了对话自然语言推理(Dialogue Natural Language Inference，DNLI)数据集。Song等人于2020在此基础上将角色一致性回复生成问题与强化学习(Reinforcement learning)结合，强化了生成回复的角色信息属性，提出了生成-删除-重写框架，即首先利用DNLI数据集预训练得到用于判断角色一致性的模块，再使用该模块对回复中角色不一致单词进行检测及遮蔽操作，最后对遮蔽后的回复进行重写以提升角色信息一致性。此后的2021年Song等人将基于角色的对话生成任务分解为一致性理解和对话生成两个子任务。提出了一个基于BERT的生成框架BoB，用于从有限数据中训练基于角色的对话模型。并引入基于非对话推理数据的非似然训练法(unlikelihood training)解决对人物角色一致性的理解。Chen等人基于transformer模型提出P2BOT模型，通过对话者相互之间的角色感知提高我们的聊天质量，建模对话者在对话过程中相互的理解。此外，还有学者尝试使用copy机制来解决角色一致性的问题，Yavuz等人提出DeepCopy使用copy机制从角色信息中拷贝生成回复所需的信息，作者提出了一种分层指针生成(hierarchical pointer-generator)机制，实现同时从历史对话和角色信息两个来源拷贝。

但目前关于角色化对话的研究仍存在一些尚未解决的问题：

1.角色一致性问题。模型在有限的个性化数据上训练的模型不能充分理解角色的一致性，生成的回复有时会出现与预设的角色信息不一致的情况，无法给清晰的认识到自身的定位。

2.角色背景知识匮乏问题。目前研究大都只是针对知识增强回复和角色一致性其中之一进行研究，或者研究在角色化对话模型中引入常识知识。但是目前的研究大多忽略了一个问题：固定的角色自身生活背景不同，所以不能通过简单的注入现实世界中的常识性知识解决，这导致了角色背景知识匮乏的问题。

3.大规模预训练语言模型角色幻觉问题。对话生成预训练模型在开放域对话获得了非常好的表现。但是预训练模型的角色化对话能力较差，因为预训练过程中用到的大量对话数据会使模型混淆自己的角色信息，难以对自身角色保持一致的认知。

4.大规模预训练语言模型能力难以利用到角色化对话任务中问题。预训练模型开放域对话能力强但是角色化对话能力差，角色化对话小模型在有限的数据资源下很难获得流畅的对话能力，缺少一种结合两者能力的架构。

发明内容

本发明的目的是提供一种人机对话方法、系统、电子设备及存储介质，赋予对话时维护自身角色信息的同时了解对话背景知识的能力，提升了对话的拟人性和人机交互的可持续性。

为实现上述目的，本发明提供了如下方案：

一种人机对话方法，所述方法包括：

获取当前对话；所述当前对话包括目标问题和历史数据；所述历史数据包括角色信息和历史对话；

将所述历史数据输入至对话类型选择模型中，得到所述当前对话的对话类型；所述对话类型为角色信息无关的对话或角色信息相关的对话；所述对话类型选择模型是基于Chinese-BERT-wwm得到的；

当所述当前对话的对话类型为角色信息无关的对话时，将所述目标问题输入至角色信息无关对话模型中，得到所述目标问题的角色无关的回复；所述角色信息无关对话模型是基于大规模预训练模型得到的；

当所述当前对话的对话类型为角色信息相关的对话时，将所述目标问题输入至角色信息相关对话模型中，得到所述目标问题的角色相关的回复；所述角色信息相关对话模型是基于transformer模型得到的。

可选地，所述对话类型选择模型的训练过程，具体包括：

获取第一训练数据集；所述第一训练数据集包括：多个第一训练用角色的角色信息和历史对话；

对每个所述训练用角色添加第一标签，得到带有第一标签的第一训练数据集；当所述训练用角色的角色信息和历史对话相关时，所述第一标签为角色相关标签，当所述训练用角色的角色信息和历史对话无关时，所述第一标签为角色无关标签；

利用所述带有标签的第一训练数据集对所述Chinese-BERT-wwm进行训练，得到所述对话类型选择模型。

可选地，所述角色信息无关对话模型的训练过程，具体包括：

获取第二训练数据集；所述第二训练数据集包括：多个第二训练用角色的角色信息和历史对话；

将所述第二训练数据集中的问题输入至所述大规模预训练模型中，得到每个问题的模型回复；

计算每个所述问题的模型回复与所述第二训练数据集中的每个所述问题对应的真实回复的损失，得到第一损失；

利用RoBERTa模型，根据每个所述问题的模型回复和角色信息确定第二损失；

基于所述第一损失和所述第二损失对所述大规模预训练模型进行训练，得到所述角色信息无关对话模型。

可选地，所述角色信息相关对话模型的训练过程，具体包括：

获取第三训练数据集；所述第三训练数据集包括：多个第三训练用角色的角色信息和历史对话；

利用知识选择模型将对所述第三训练数据集进行数据清洗，得到包含背景信息的第三训练数据集；

利用所述包含背景信息的第三训练数据集对所述transformer模型进行训练，得到所述角色信息相关对话模型。

可选地，所述第一损失的计算公式为：

其中，Loss1为所述第一损失，n为所述第二训练数据集中问题的数量，i为所述第二训练数据集中问题的序号，y_i为第i个问题的真实回复，

为第i个问题的模型回复。

一种人机对话系统，所述系统包括：

数据获取模块，用于获取当前对话；所述当前对话包括目标问题和历史数据；所述历史数据包括角色信息和历史对话；

对话类型确定模块，用于将所述历史数据输入至对话类型选择模型中，得到所述当前对话的对话类型；所述对话类型为角色信息无关的对话或角色信息相关的对话；所述对话类型选择模型是基于Chinese-BERT-wwm得到的；

第一回复模块，用于当所述当前对话的对话类型为角色信息无关的对话时，将所述目标问题输入至角色信息无关对话模型中，得到所述目标问题的角色无关的回复；所述角色信息无关对话模型是基于大规模预训练模型得到的；

第二回复模块，用于当所述当前对话的对话类型为角色信息相关的对话时，将所述目标问题输入至角色信息相关对话模型中，得到所述目标问题的角色相关的回复；所述角色信息相关对话模型是基于transformer模型得到的。

一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述所述的人机对话方法。

一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如上述所述的人机对话方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种人机对话方法、系统、电子设备及存储介质，首先确定当前对话的对话类型；当当前对话的对话类型为角色信息无关的对话时，将目标问题输入至角色信息无关对话模型中，得到目标问题的角色无关的回复；当当前对话的对话类型为角色信息相关的对话时，将目标问题输入至角色信息相关对话模型中，得到目标问题的角色相关的回复，赋予对话时维护自身角色信息的同时了解对话背景知识的能力，提升了对话的拟人性和人机交互的可持续性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的人机对话方法流程示意图；

图2为修改前的CDConv数据集格式示意图；

图3为CDConv-persona数据集格式示意图；

图4为对大规模预训练模型进行微调得到角色信息无关对话模型的过程示意图；

图5为对transformer模型进行微调得到角色信息相关对话模型的过程示意图；

图6为角色化对话系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种人机对话方法、系统、电子设备及存储介质，旨在赋予对话时维护自身角色信息的同时了解对话背景知识的能力，提升对话的拟人性和人机交互的可持续性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

图1为本发明实施例1提供的人机对话方法流程示意图。如图1所示，本实施例中的人机对话方法，包括：

步骤101：获取当前对话；当前对话包括目标问题和历史数据；历史数据包括角色信息和历史对话。

步骤102：将历史数据输入至对话类型选择模型中，得到当前对话的对话类型；对话类型为角色信息无关的对话或角色信息相关的对话。

其中，对话类型选择模型是基于Chinese-BERT-wwm得到的。

步骤103：当当前对话的对话类型为角色信息无关的对话时，将目标问题输入至角色信息无关对话模型中，得到目标问题的角色无关的回复。

其中，角色信息无关对话模型是基于大规模预训练模型得到的。

步骤104：当当前对话的对话类型为角色信息相关的对话时，将目标问题输入至角色信息相关对话模型中，得到目标问题的角色相关的回复。

其中，角色信息相关对话模型是基于transformer模型得到的。

作为一种可选的实施方式，对话类型选择模型的训练过程，具体包括：

获取第一训练数据集；第一训练数据集包括：多个第一训练用角色的角色信息和历史对话。

对每个训练用角色添加第一标签，得到带有第一标签的第一训练数据集；当训练用角色的角色信息和历史对话相关时，第一标签为角色相关标签，当训练用角色的角色信息和历史对话无关时，第一标签为角色无关标签。

具体的，由于目前没有开源的对话类型判别数据集，本发明提出一种对中文对话一致性检测数据集CDConv进行预处理得到用于角色化对话类型判别的数据集CDConv-persona，即第一训练数据集，处理思路如下：

其中，如图2所示，修改前的CDConv数据集中label表示矛盾类型标注(0：无矛盾，1：b2句内矛盾，2：b2角色混淆，3：b2与对话历史矛盾)，persona表示从人设角度，对对话历史矛盾进行了矛盾内容的标注(1：人物属性，2：人物观点和偏好，3：人物经历，0：其他)。当label为3时才有persona项。

如图3所示，在处理修改前的CDConv数据集时首先删除错误回复，之后将角色混淆错误的标签修改为角色背景相关对话标签，角色背景相关则label标注为1(即角色相关标签)，角色背景无关则label标注为0(即角色无关标签)，同时删除persona标签，从而得到CDConv-persona数据集即带有第一标签的第一训练数据集。

利用带有标签的第一训练数据集对Chinese-BERT-wwm进行训练，得到对话类型选择模型。

具体的，使用CDConv-persona数据集对基于全词Mask的中文预训练模型Chinese-BERT-wwm微调得到对话类型选择模型，对话类型选择模型具体参数为：24层、1024隐藏层、16注意力头和330M参数量。在使用时，对话类型选择模型的输入为角色信息和历史对话，输出结构为1或0，其中1代表角色信息相关的对话，0代表角色信息无关的对话。

作为一种可选的实施方式，角色信息无关对话模型的训练过程，具体包括：

获取第二训练数据集；第二训练数据集包括：多个第二训练用角色的角色信息和历史对话。

将第二训练数据集中的问题输入至大规模预训练模型中，得到每个问题的模型回复。

计算每个问题的模型回复与第二训练数据集中的每个问题对应的真实回复的损失，得到第一损失。

利用RoBERTa模型，根据每个问题的模型回复和角色信息确定第二损失。

基于第一损失和第二损失对大规模预训练模型进行训练，得到角色信息无关对话模型。

具体的，对大规模预训练模型进行微调得到角色信息无关对话模型的过程为：

大规模预训练模型的输入为角色信息和对话历史，输出为对话机器人针对角色无关对话的回复。

针对大模型的角色幻觉问题，提出双loss联合微调的训练方式如4图所示，旨在减少预训练模型先验知识丰富导致其在角色化对话任务中角色信息混淆的情况，更好地控制和挖掘大规模预训练模型的能力。

其中，双loss微调的方式首先需要借助一个对话一致性判别模型，对话一致性判别模型选用RoBERTa模型，进行一致性的判别，即通过第二训练数据集对RoBERTa进行微调，判别当前的模型生成的回复和给定的角色信息是否一致。并将判别结果即分数作为loss2，其中loss2代表着生成的回复与角色信息之间的损失。计算大规模预训练模型生成结果(即模型回复)与真实结果(即真实回复)之间差距作为loss1。之后将loos1与loss2相加作为大规模预训练模型微调的loss，以此解决大模型容易出现的角色混淆问题，从而得到角色信息无关对话模型。

作为一种可选的实施方式，角色信息相关对话模型的训练过程，具体包括：

获取第三训练数据集；第三训练数据集包括：多个第三训练用角色的角色信息和历史对话。

利用知识选择模型将对第三训练数据集进行数据清洗，得到包含背景信息的第三训练数据集。

利用包含背景信息的第三训练数据集对transformer模型进行训练，得到角色信息相关对话模型。

具体的，针对角色化对话机器人的背景知识不能简单地引入常识知识而导致的角色背景知识匮乏问题，将知识增强技术与角色一致性技术融合，拟提高对话机器人的角色一致性和知识丰富性，提出角色化对话模型架构如图5所示。

在角色知识增强方面，选用一个角色知识信息选择模型，其具体的实现方式如下：

首先，知识选择模型拟对第三训练数据集进行预处理得到HPD-knowledge数据集。处理方法为，首先，对话背景进行清洗，去除其中包含的对话信息，并构建背景知识库。之后保留数据集中的角色信息与历史对话，在训练时，模型的输入为角色信息和当前对话，预测目标为对应的背景知识。通过这种有监督的训练方式，让模型学习到在知识库中根据当前对话选择对应的背景知识的能力。

作为一种可选的实施方式，第一损失的计算公式为：

其中，Loss1为第一损失，n为第二训练数据集中问题的数量，i为第二训练数据集中问题的序号，y_i为第i个问题的真实回复，

为第i个问题的模型回复。

如图6所示，下面提供一种角色化对话系统，用于实现实施例1中的方法。

角色化对话系统包括输入部分(Input)、对话类型选择模块(Choose)、对话生成模块(Generate)和输出部分(Output)。

输入部分用于输入角色信息和历史对话。

对话类型选择模块用于根据角色信息和历史对话确定对话类型，从而选择角色信息无关对话模型或角色信息相关对话模型。

对话生成模块中包括角色信息无关对话模型和角色信息相关对话模型，用于得到问题的回复。

输出部分用于输出问题的回复。

实施例2

本实施例中的人机对话系统，包括：

数据获取模块，用于获取当前对话；当前对话包括目标问题和历史数据；历史数据包括角色信息和历史对话。

对话类型确定模块，用于将历史数据输入至对话类型选择模型中，得到当前对话的对话类型；对话类型为角色信息无关的对话或角色信息相关的对话；对话类型选择模型是基于Chinese-BERT-wwm得到的。

第一回复模块，用于当当前对话的对话类型为角色信息无关的对话时，将目标问题输入至角色信息无关对话模型中，得到目标问题的角色无关的回复；角色信息无关对话模型是基于大规模预训练模型得到的。

第二回复模块，用于当当前对话的对话类型为角色信息相关的对话时，将目标问题输入至角色信息相关对话模型中，得到目标问题的角色相关的回复；角色信息相关对话模型是基于transformer模型得到的。

实施例3

一种电子设备，包括：

一个或多个处理器。

存储装置，其上存储有一个或多个程序。

当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如实施例1中的人机对话方法。

实施例4

一种存储介质，其上存储有计算机程序，其中，计算机程序被处理器执行时实现如实施例1中的人机对话方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人机对话方法，其特征在于，所述方法包括：

2.根据权利要求1所述的人机对话方法，其特征在于，所述对话类型选择模型的训练过程，具体包括：

3.根据权利要求1所述的人机对话方法，其特征在于，所述角色信息无关对话模型的训练过程，具体包括：

4.根据权利要求1所述的人机对话方法，其特征在于，所述角色信息相关对话模型的训练过程，具体包括：

5.根据权利要求3所述的人机对话方法，其特征在于，所述第一损失的计算公式为：

为第i个问题的模型回复。

6.一种人机对话系统，其特征在于，所述系统包括：

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至5中任意一项所述的人机对话方法。

8.一种存储介质，其特征在于，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的人机对话方法。