CN117112742A

CN117112742A - 一种对话模型优化方法、装置、计算机设备和存储介质

Info

Publication number: CN117112742A
Application number: CN202310910513.5A
Authority: CN
Inventors: 罗建刚; 王申领
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-11-24

Abstract

本申请涉及一种对话模型优化方法、装置、计算机设备和存储介质。所述方法包括：通过应用程序接口采集预训练对话模型中输入的问题数据，并将所述问题数据按照预设比例分为第一数据、第二数据以及第三数据；设置第一损失函数，并基于标注答案的第一数据对所述预训练对话模型进行训练，获得训练后的对话模型；将所述第二数据输入所述训练后的对话模型，获得对应的若干条回复并标注序号；设置差值函数，并基于标注序号的对应的若干条回复对所述预训练奖励模型进行训练，获得训练后的奖励模型；设置第二损失函数，并基于所述第三数据通过强化学习算法获得优化后的对话模型。采用本方法能够提高对话模型的对话质量，避免输出畸形结果。

Description

一种对话模型优化方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种对话模型优化方法、装置、计算机设备和存储介质。

背景技术

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术，也有软件层面的技术。人工智能基础技术一般包括例如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的学科。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括：人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

关于智能客服，由于设计人员的思维局限性以及数据、存储、计算能力的限制，智能对话系统无法完全考虑到用户提出的各式各样的问题。当智能对话系统遇到设计之初未考虑到的问题时，针对上述问题的应答动作可以被看作是随机应答，往往无法正确回应用户提出的问题，使用户感到答非所问。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高对话模型的对话质量，避免输出畸形结果的对话模型优化方法、装置、计算机设备和存储介质。

第一方面，提供一种对话模型优化方法，所述方法包括：

通过应用程序接口采集预训练对话模型中输入的问题数据，并将所述问题数据按照预设比例分为三部分，分别为第一数据、第二数据以及第三数据；

在所述预训练对话模型中设置第一损失函数，并基于标注答案的第一数据对所述预训练对话模型进行训练，获得训练后的对话模型，使得第一损失函数值最小；

将所述第二数据输入所述训练后的对话模型，获得对应的若干条回复并标注序号；

在所述预训练奖励模型中设置差值函数，并基于标注序号的对应的若干条回复对所述预训练奖励模型进行训练，获得训练后的奖励模型，使得差值函数值最大；

根据所述训练后的对话模型设置第二损失函数，并基于所述第三数据通过强化学习算法获得优化后的对话模型。

在其中一个实施例中，所述获得对应的若干条回复并标注序号，包括：

根据预设规则，将所述对应的若干条回复根据正确程度按照从高到低的顺序进行排序，并标注上对应的序号；

其中，所述正确程度指的是与答案的接近程度。

在其中一个实施例中，所述根据所述训练后的对话模型设置第二损失函数，并基于所述第三数据通过强化学习算法获得优化后的对话模型，包括：

根据所述训练后的奖励模型，获得对应的奖励值函数；

根据所述训练后的对话模型设置第二损失函数，并根据所述第二损失函数对所述对应的奖励值函数进行调整，获得调整后的奖励值函数；

根据所述调整后的奖励值函数，获得调整后的奖励模型；

将所述第三数据输入所述训练后的对话模型，输出回复结果；

将所述回复结果输入所述调整后的奖励模型，并根据所述调整后的奖励值函数输出奖励值；

根据所述奖励值对所述训练后的对话模型进行更新，获得优化后的对话模型；

其中，所述第二损失函数表示所述优化后的对话模型与所述训练后的对话模型之间的相似程度。

在其中一个实施例中，所述第一损失函数表示所述第一数据输入预训练对话模型获得的回复与所述第一数据标注的答案之间的相似程度。

在其中一个实施例中，所述根据所述奖励值对所述训练后的对话模型进行更新，获得优化后的对话模型，包括：

根据所述奖励值的大小，通过梯度下降法对所述训练后的对话模型进行更新，获得优化后的对话模型。

在其中一个实施例中，所述第二损失函数包括相对熵散度，所述强化学习算法包括近端策略优化算法。

在其中一个实施例中，所述预训练对话模型包括多头注意力层以及前馈神经网络层，所述前馈神经网络层对所述多头注意力层的输出进行非线性变换。

第二方面，提供了一种对话模型优化装置，所述装置包括：

采集划分模块，所述采集划分模块用于通过应用程序接口采集预训练对话模型中输入的问题数据，并将所述问题数据按照预设比例分为三部分，分别为第一数据、第二数据以及第三数据；

第一设置训练模块，所述第一设置训练模块用于在所述预训练对话模型中设置第一损失函数，并基于标注答案的第一数据对所述预训练对话模型进行训练，获得训练后的对话模型，使得第一损失函数值最小；

输入获取模块，所述输入获取模块用于将所述第二数据输入所述训练后的对话模型，获得对应的若干条回复并标注序号；

第二设置训练模块，所述第二设置训练模块用于在所述预训练奖励模型中设置差值函数，并基于标注序号的对应的若干条回复对所述预训练奖励模型进行训练，获得训练后的奖励模型，使得差值函数值最大；

设置获取模块，所述设置获取模块用于根据所述训练后的对话模型设置第二损失函数，并基于所述第三数据通过强化学习算法获得优化后的对话模型。

第三方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行如上述第一方面任意一项所述对话模型优化方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，执行如上述第一方面任意一项所述对话模型优化方法的步骤。

上述对话模型优化方法、装置、计算机设备和存储介质，通过设置第一损失函数和差值函数，并基于标注答案的第一数据和标准序号的若干条回复，分别对预训练对话模型和预训练奖励模型进行训练，获得训练后的对话模型和奖励模型，根据设置的第二损失函数和第三数据，通过强化学习算法获得优化后的对话模型，实现提高智能客服对话模型对话质量同时，避免产生畸形结果。

附图说明

图1为一个实施例中对话模型优化方法的流程示意图；

图2为一个实施例中对话模型优化装置的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

强化学习和深度学习有所不同，强化学习(reinforcement learning，RL)讨论的问题是智能体(agent)怎么在复杂、不确定的环境(environment)中最大化它能获得的奖励。强化学习由两部分组成：智能体和环境。在强化学习过程中，智能体与环境一直在交互。智能体在环境中获取某个状态后，它会利用该状态输出一个动作(action)，这个动作也称为决策(decision)。然后这个动作会在环境中被执行，环境会根据智能体采取的动作，输出下一个状态以及当前这个动作带来的奖励。智能体的目的就是尽可能多地从环境中获取奖励。下面以打电子游戏为例来进行说明。假设有一个电子游戏，你要控制一个小球从一端到达另一端，并躲避障碍物。你可以把这个问题看作是一个强化学习任务，在这个任务中，小球是智能代理，游戏地图是环境，小球从其中一点移动到终点的过程中，可以获得奖励或惩罚。游戏的规则和目标为：

-小球的起始位置是固定的，每次移动的方向有4个可选项，分别为向上、向下、向左、向右。

-如果小球碰到了障碍物，那么它会受到惩罚，以此来鼓励它避免撞到障碍物。

-如果小球从起点走到了终点，那么它就会获得奖励，以此来鼓励它走到终点。

为了训练小球完成这个任务，我们可以使用强化学习方法。在强化学习中，智能代理通过与环境交互采取行动，尝试最大化累积奖励，以此来学习最佳的策略。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

实施例一

在一个实施例中，如图1所示，提供了一种对话模型优化方法，所述方法包括以下步骤：

S10、通过应用程序接口采集预训练对话模型中输入的问题数据，并将所述问题数据按照预设比例分为三部分，分别为第一数据、第二数据以及第三数据；

进一步地，预设比例为第一数据：第二数据：第三数据＝4:2:4，通过大量的数据对预训练对话模型进行训练以及通过强化学习算法获得最终的优化后的对话模型，使得对话质量得到提高。

进一步地，所述预训练对话模型包括多头注意力层以及前馈神经网络层，所述前馈神经网络层对所述多头注意力层的输出进行非线性变换。

更进一步地，预训练对话模型包括源1.0模型，在源1.0模型中，基础模型结构由嵌入层、多头注意力层和前馈神经网络层组成。多头注意力层允许模型在不同位置的输入之间进行交互和关注，前馈神经网络层则对多头注意力层输出进行非线性变换。在每个子层之间，还添加了残差连接和层归一化，其中在多头注意力层中，输入序列被分为多个头，每个头都学习一种不同的表示方式。然后，每个头都应用了一个类似于多头注意力层的加权函数，以确定每个位置对其他位置的重要性。这种方式可以让模型对长序列进行高效的处理。在前馈神经网络层中，模型将多头注意力层的输出输入到一个全连接神经网络中，以学习特征表示之间的非线性关系。最终输出由多个层级组合而成，通过解码器生成目标序列或作为分类或回归任务的输出。

并且，在源1.0模型中我们使用了多种并行算法，包括数据并行、张量并行和流水并行等，在超大型服务器上取得了良好的并行效率。同时由于模型参数量越来越大，单个服务器已经无法存放体量如此之大的模型，因此良好的模型并行策略是不可或缺的。

S11、在所述预训练对话模型中设置第一损失函数，并基于标注答案的第一数据对所述预训练对话模型进行训练，获得训练后的对话模型，使得第一损失函数值最小；

具体地，训练后的对话模型在进行智能对话时，可以生成更高质量的回答。

进一步地，所述第一损失函数表示所述第一数据输入预训练对话模型获得的回复与所述第一数据标注的答案之间的相似程度。

具体地，通过对预训练对话模型进行训练，使得对话模型输出的回复更接近答案。

S12、将所述第二数据输入所述训练后的对话模型，获得对应的若干条回复并标注序号；

进一步地，对应的若干条回复一般指4-9条真实的回复。

S13、在所述预训练奖励模型中设置差值函数，并基于标注序号的对应的若干条回复对所述预训练奖励模型进行训练，获得训练后的奖励模型，使得差值函数值最大；

具体地，训练后的奖励模型对输出回复的打分结果，即奖励值，更加接近人工的评分标准。

进一步地，所述获得对应的若干条回复并标注序号，包括：

其中，所述正确程度指的是与答案的接近程度

具体地，根据回复与答案的接近程度，按照从高到低的顺序进行排序，并在对应的答复上面标上序号，使得训练后的奖励模型输出的奖励值接近人工评分标准，其中所述序号为正整数。

进一步地，预设规则包括是否符合事实、格式规范是否正确以及回答的详细程度，将最好的回复结果标注序号1，第二好的回复结果标注序号2，以此类推。

更进一步地，所述差值函数表示序号为1的回复结果与序号为2的回复结果之间的相似程度，可以用奖励值来衡量。

S14、根据所述训练后的对话模型设置第二损失函数，并基于所述第三数据通过强化学习算法获得优化后的对话模型。

进一步地，在经过2个epoch(一次完整训练)后完成强化学习，也可以为其他预设次数，实现提高优化后对话模型的对话质量的同时，避免因为过拟合导致输出的回复单一化。

进一步地，所述第二损失函数包括相对熵散度，所述强化学习算法包括近端策略优化算法。

进一步地，所述根据所述训练后的对话模型设置第二损失函数，并基于所述第三数据通过强化学习算法获得优化后的对话模型，包括：

根据所述训练后的奖励模型，获得对应的奖励值函数；

根据所述调整后的奖励值函数，获得调整后的奖励模型；

进一步地，所述根据所述奖励值对所述训练后的对话模型进行更新，获得优化后的对话模型，包括：

即，若是奖励值结果偏低，通过偏移调整训练后的对话模型，偏移可以采用梯度下降法。

具体地，通过第二损失函数和强化学习算法，获得优化后的对话模型，实现提高对话模型的对话质量，并且避免优化后的对话模型与训练后的对话模型相似程度过大，产生畸形的结果。

进一步地，将对应的奖励值函数减去相对熵散度，获得调整后的奖励值函数，具体表示为：

其中，由于针对一个问题，对话模型输出的回复是逐一输出的，因此指的是获得完整回复结果的奖励值，x和y表示相邻的两个输出字符，x先于y输出，E_(x,y)指的是获得完整回复结果的期望值，r_θ(x,y)表示既输出x又输出y的奖励值，β为预先设置的参数，可以根据具体情况进行调整，π指的是事件的概率，RL指的是优化后的对话模型，SFT指的是训练后的对话模型，y|x指的是在输出x基础上输出y的情况，π^RL(y|x)为优化后的对话模型在输出x的基础上输出y的概率，π^SFT(y|x)为训练后的对话模型在输出x的基础上输出y的概率。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

实施例二

在一个实施例中，如图2所示，提供了一种对话模型优化装置，所述装置包括：

采集划分模块20，所述采集划分模块用于通过应用程序接口采集预训练对话模型中输入的问题数据，并将所述问题数据按照预设比例分为三部分，分别为第一数据、第二数据以及第三数据；

第一设置训练模块21，所述第一设置训练模块用于在所述预训练对话模型中设置第一损失函数，并基于标注答案的第一数据对所述预训练对话模型进行训练，获得训练后的对话模型，使得第一损失函数值最小；

输入获取模块22，所述输入获取模块用于将所述第二数据输入所述训练后的对话模型，获得对应的若干条回复并标注序号；

第二设置训练模块23，所述第二设置训练模块用于在所述预训练奖励模型中设置差值函数，并基于标注序号的对应的若干条回复对所述预训练奖励模型进行训练，获得训练后的奖励模型，使得差值函数值最大；

进一步地，所述第二设置训练模块还用于：

其中，所述正确程度指的是与答案的接近程度。

设置获取模块24，所述设置获取模块用于根据所述训练后的对话模型设置第二损失函数，并基于所述第三数据通过强化学习算法获得优化后的对话模型。

进一步地，所述设置获取模块还用于：

根据所述训练后的奖励模型，获得对应的奖励值函数；

根据所述调整后的奖励值函数，获得调整后的奖励模型；

进一步地，所述设置获取模块还用于：

关于对话模型优化装置的具体限定可以参见上文中对于对话模型优化方法的限定，在此不再赘述。上述对话模型优化装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

实施例三

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

所述程序指令在被所述一个或多个处理器读取执行时，还可以执行与上述方法实施例中的各个步骤对应的操作，可以参考上文中的描述，此处不再赘述。参考图3，其示例性的展示出了计算机设备的架构，具体可以包括处理器310，视频显示适配器311，磁盘驱动器312，输入/输出接口313，网络接口314，以及存储器320。上述处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314，与存储器320之间可以通过通信总线330进行通信连接。

其中，处理器310可以采用通用的中央处理器(Central Processing Unit，CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器320可以采用只读存储器(Read Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、静态存储设备，动态存储设备等形式实现。存储器320可以存储用于控制计算机设备300运行的操作系统321，用于控制计算机设备300的低级别操作的基本输入输出系统(BIOS)322。另外，还可以存储网页浏览器323，数据存储管理324，以及图标字体处理系统325等等。上述图标字体处理系统325就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器320中，并由处理器310来调用执行。

输入/输出接口313用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口314用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线330包括一通路，在设备的各个组件(例如处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314，与存储器320)之间传输信息。

另外，该计算机设备300还可以从虚拟资源对象领取条件信息数据库341中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述计算机设备300仅示出了处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314，存储器320，总线330等，但是在具体实施过程中，该计算机设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，云服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

实施例四

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种对话模型优化方法，其特征在于，所述方法包括：

2.根据权利要求1所述方法，其特征在于，所述获得对应的若干条回复并标注序号，包括：

其中，所述正确程度指的是与答案的接近程度。

3.根据权利要求1所述方法，其特征在于，所述根据所述训练后的对话模型设置第二损失函数，并基于所述第三数据通过强化学习算法获得优化后的对话模型，包括：

根据所述训练后的奖励模型，获得对应的奖励值函数；

根据所述调整后的奖励值函数，获得调整后的奖励模型；

4.根据权利要求2所述方法，其特征在于，所述第一损失函数表示所述第一数据输入预训练对话模型获得的回复与所述第一数据标注的答案之间的相似程度。

5.根据权利要求3所述方法，其特征在于，所述根据所述奖励值对所述训练后的对话模型进行更新，获得优化后的对话模型，包括：

6.根据权利要求1所述方法，其特征在于，所述第二损失函数包括相对熵散度，所述强化学习算法包括近端策略优化算法。

7.根据权利要求1所述方法，其特征在于，所述预训练对话模型包括多头注意力层以及前馈神经网络层，所述前馈神经网络层对所述多头注意力层的输出进行非线性变换。

8.一种对话模型优化装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述对话模型优化方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述对话模型优化方法的步骤。