CN117633184A

CN117633184A - 一种模型构建和智能回复方法、设备及介质

Info

Publication number: CN117633184A
Application number: CN202311651699.3A
Authority: CN
Inventors: 吴晨; 杜陈诚
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-03-01

Abstract

本发明公开了一种模型构建和智能回复方法、设备及介质。该方法包括：将每个金融提示样本分别输入至初始语言模型和目标语言模型，得到对应的第一金融文本样本和第二金融文本样本；基于第一金融文本样本、第二金融文本样本和惩罚因子确定初始语言模型与目标语言模型之间的实际偏离程度；基于实际偏离程度，以及通过目标奖励模型对第二金融文本样本计算得到的第二理论文本质量评估值对目标语言模型进行迭代调整，得到更新后的目标语言模型。本发明解决了现有技术中等待回复时间过长导致用户满意度大大降低的技术问题，大大降低了目标语言模型的出错率，进而提升了用户满意度以及缩短了回复时长。

Description

一种模型构建和智能回复方法、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种模型构建和智能回复方法、设备及介质。

背景技术

客服行业历经了电话呼叫中心、多渠道呼叫中心、全渠道云客服和全场景智能客服这四个发展阶段，向着多渠道互通、多场景互联的方向发展。随着大数据、人工智能等技术的迅猛发展，各行各业都在进行数字化、智能化转型，智能客服机器人市场迅速壮大，不同领域、不同场景对智能客服的功能与需求也各不相同。

金融领域作为创新和变革的中坚力量，也对智能和高效提出进一步的要求和期望。当前国内银行的智能客服所提供的服务功能主要体现在简单的聊天会话与业务查询方面，所采用的技术主要有NLP自然语言处理算法、知识图谱技术、AI语音智能外呼技术、用户需求智能提取技术等。NLP算法是支持客服机器人实现准确意图识别和相应业务脚本的能力的基石，它通过识别客户服务表达式内容的文本语义，快速判断用户想要突出文本表达式的意图，并结合内容中提到的属性进行准确的咨询类别区分，以达到准确回复的效果。

银行场景众多，业务复杂，很多情况下银行智能客服并不能理解客户准确的意图从而提供正确的答复。客户仅能通过特定的名词来查询相关业务信息，稍微复杂场景下的问题仍需依靠人工客服进行回复，这对于智能化要求比较高的智能客服产品来说是不够的。这不仅延长了客户的等待时间，影响了客户的满意度，也提升了人工工作量和维护成本。

发明内容

本发明提供了一种模型构建和智能回复方法、设备及介质，以解决现有技术中等待回复时间过长导致用户满意度大大降低的技术问题。

根据本发明的一方面，提供了一种模型构建方法，包括：

将金融语料数据库中的每个金融提示样本分别输入至预先创建的初始语言模型和目标语言模型，得到对应的第一金融文本样本和第二金融文本样本；

基于所述第一金融文本样本、所述第二金融文本样本和预先配置的惩罚因子确定所述初始语言模型与所述目标语言模型之间的实际偏离程度；

基于所述实际偏离程度，以及通过预先创建的目标奖励模型对所述第二金融文本样本计算得到的第二理论文本质量评估值对所述目标语言模型进行迭代调整，得到更新后的目标语言模型。

根据本发明的另一方面，提供了一种智能回复方法，包括：

获取目标用户的实际金融提示信息；

将所述实际金融提示信息输入至如上述任一实施例所述的更新之后的目标语言模型，得到对应的实际金融文本。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的模型构建方法或智能回复方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的模型构建方法或智能回复方法。

本发明实施例的技术方案，通过将金融语料数据库中的每个金融提示样本分别输入至预先创建的初始语言模型和目标语言模型，得到对应的第一金融文本样本和第二金融文本样本；基于第一金融文本样本、第二金融文本样本和预先配置的惩罚因子确定初始语言模型与目标语言模型之间的实际偏离程度；基于实际偏离程度，以及通过预先创建的目标奖励模型对第二金融文本样本计算得到的第二理论文本质量评估值对目标语言模型进行迭代调整，得到更新后的目标语言模型，解决了现有技术中解决现有技术中等待回复时间过长导致用户满意度大大降低的技术问题，通过实际偏移程度有效限制目标语言模型的学习跑偏，加强了目标语言模型在学习过程中的稳定性，大大降低了目标语言模型的出错率，进而提升了用户满意度以及缩短了回复时长。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种模型构建方法的流程图；

图2是本发明实施例提供的另一种模型构建方法的流程图；

图3是本发明实施例提供的一种智能回复方法的流程图；

图4是本发明实施例提供的一种目标语言模型的构建示意图；

图5是本发明实施例提供的一种初始语言模型的构建示意图；

图6是本发明实施例提供的一种目标奖励模型的构建示意图；

图7是本发明实施例提供的一种对目标语言模型进行强化学习循环的实现示意图；

图8是本发明实施例提供的一种模型构建装置的结构示意图；

图9是本发明实施例提供的一种智能回复装置的结构示意图；

图10是本发明实施例提供的一种电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于对方案的理解，对本发明实施例涉及到的术语进行解释。

银行智能客服：银行智能客服以各种人工智能技术、大规模知识管理等技术为基础，实现银行金融企业与海量用户之间的交流沟通，有利于提升企业的智能化服务能力。

自然语言处理(Natural Language Processing,NLP)：是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

神经网络(Neural Network，NN)：当代人工智能与深度学习的基础技术，它由成千上万个神经元组成，每个神经元有其独特的权重，可以完成一组复杂计算和非线性映射，最终的神经网络作为一个函数映射器，能够完成输入数据输出目标结果的任务。

模型训练(Model Training)：模型训练也可以称为模型学习，模型也可以称为学习器(Learner)。神经网络的初始参数是随机的，我们通过使用大量的数据集以及相对应的标签(理想输出)来对其结构参数进行训练，基于梯度反向传播算法神经网络的权重得到不断优化和调整，其输出结果不断向我们给予的理想输出靠近，最终训练完成的神经网络模型可以实现输入数据，输出接近于对应理想输出的任务。

语言模型(Language Model,LM)：NLP中经过海量语言数据训练完成的特殊神经网络模型，它可以完成输入激励(Prompt)到输出文本(Text)的任务，其常用场景是浏览器搜索、智能翻译、机器聊天、语音助手、智能推荐等互联网应用。

强化学习(Reinforcement Learning,RL)：强化学习是一种特殊的机器学习技术，其讨论的问题是一个智能体(Agent)怎么在一个复杂环境(Environment)里去极大化它能够获得的奖励。通过感知所处环境(Observation)，做出动作(Action)，并获得奖励(Reward)，以此来指导Agent作出奖励更多的动作，从而获得最大的收益(Return)，这被称为在交互中学习，这样的学习方法就被称作强化学习。

基于人类反馈对语言模型进行强化学习(Reinforcement Learning from HumanFeedback,RLHF)：强化学习的关键是建立合适的奖励模型(Reward Model,RM)，RLHF是根据人类反馈来建立奖励模型的强化学习，将人类反馈纳入训练过程中来增强强化学习中Agent的训练,可以获得更人性化和更符合人类价值观的语言模型。

预训练(Pre-trained)与迁移学习(Transfer Learning,TL)：预训练指的是将大量低成本收集的训练数据放在一起，通过某种预训方法来学习其中的共性。迁移学习是一种机器学习的方法，指的是将已有问题的解决模型迁移到其他不同但相关的问题上。在人工智能领域，有许多类似的场景以及其特有的已有完备模型，例如图像识别中的Image Net模型以及NLP领域中的GPT-2/3模型。当需要处理类似问题时，机器学习往往可以直接使用已有的著名模型(称为预训练模型)并根据待解决问题的特殊性再进行微调，这往往可以节省极大的训练成本。

如今信息技术发展迅速，人工智能已应用在各个行业。随着客户数量和业务增多，银行智能客服逐渐成为银行金融业不可或缺的智能化服务窗口，它能够促进银行业务有效开展，拓展服务方式和范围，降低人工客服的工作量，提高银行公众服务的工作效率，以适应新的社会经济发展，满足现代人们的生活工作需要。基于人类反馈对语言模型进行强化学习RLHF是近期人工智能领域的新秀技术，它将人类反馈纳入训练过程，为机器提供了一种自然的、人性化的互动学习过程。本发明提出了一种基于RLHF的银行智能客服方法，该方法可以实现一种比传统客服机器人更加人性化、更加智能的银行智能客服，能够为客户提供高效、便捷、完备的银行服务。

本发明提出了一种基于RLHF的银行智能客服方法，将人类反馈引入到银行客服训练的奖励模型中，让银行智能客服的语义逻辑更贴合人类思维习惯，能够更好理解客户真实意图，解决更复杂的业务咨询问题，并生成更符合客户偏好的句式进行回复，从而提升客户粘性，提高工作效率。

在一实施例中，图1是本发明实施例提供的一种模型构建方法的流程图，本实施例可适用于金融智能客服所对应模型进行构建的情况，该方法可以由模型构建装置来执行，该模型构建装置可以采用硬件和/或软件的形式实现，该模型构建装置可配置于电子设备中。如图1所示，该方法包括：

S110、将金融语料数据库中的每个金融提示样本分别输入至预先创建的初始语言模型和目标语言模型，得到对应的第一金融文本样本和第二金融文本样本。

其中，金融语料数据库指的是银行客服的语言材料的数据库。在金融语料数据库中包括一些金融产品或金融业务的相关语言材料，并用于对语言模型进行迭代训练的样本数据库。金融提示样本指的是金融语料数据库中用于对语言模型进行训练所对应的输入参数；初始语言模型指的是金融语料数据库训练得到的符合金融场景的语言模型；目标语言模型指的是对初始语言模型进行不断迭代训练得到的符合金融场景的语言模型。一般来说，语言模型已经学习过大量[Prompt(输入激励),Text(输出文本)]对，作为一个映射网络，在输入一个金融提示样本至初始语言模型和目标语言模型之后，通过初始语言模型输出对应的第一金融文本样本，以及通过目标语言模型输出对应的第二金融文本样本。

S120、基于第一金融文本样本、第二金融文本样本和预先配置的惩罚因子确定初始语言模型与目标语言模型之间的实际偏离程度。

其中，惩罚因子用于避免迭代训练得到的更新之后的目标语言模型与初始语言模型之间的偏离程度过大。在实际的强化学习过程中，目标语言模型可以通过找到一条捷径最大化目标奖励模型给出的理论文本质量评估值，但这种模型可以存在不符合语法或逻辑一致性的缺陷，进而影响智能客服的功能，即影响目标语言模型输出实际金融文本的有效性。可以通过惩罚因子对迭代训练得到的更新后的目标语言模型与初始语言模型之间的偏移程度进行限制，进而可以保证目标语言模型输出的实际金融文本更加稳定以及出错率较低。

其中，实际偏离程度指的是在一次强化学习之后，目标语言模型与初始语言模型之间的偏离程度。

在一实施例中，基于第一金融文本样本、第二金融文本样本和预先配置的惩罚因子确定初始语言模型与目标语言模型之间的实际偏离程度，包括：基于第一金融文本和第二金融文本确定初始语言模型与目标语言模型之间的模型差异值；基于模型差异值和预先配置的惩罚因子确定初始语言模型与目标语言模型之间的实际偏移程度。

在一实施例中，基于第一金融文本和第二金融文本确定初始语言模型与目标语言模型之间的模型差异值，包括：基于第一金融文本和第二金融文本确定初始语言模型对应的第一t分布概率，以及目标语言模型对应的第二t分布概率；确定第一t分布概率和第二t分布概率之间的概率比值的对数的加权平均值；基于加权平均值和第一t分布概率确定初始语言模型与目标语言模型之间的模型差异值。在实施例中，第一金融文本和第二金融文本符合t分布，则基于第一金融文本的t分布确定初始语言模型对应的第一t分布概率，以及基于第二金融文本的t分布确定目标语言模型对应的第二t分布概率；然后确定第一t分布概率和第二t分布概率之间的概率比值的对数的加权平均值，并基于加权平均值和第一t分布概率之间的乘积值作为初始语言模型与目标语言模型之间的模型差异值；然后将模型差异值与惩罚因子之间的比值作为初始语言模型与目标语言模型之间的实际偏移程度。其中，惩罚因子可以为一个负数因子。

S130、基于实际偏离程度，以及通过预先创建的目标奖励模型对第二金融文本样本计算得到的第二理论文本质量评估值对目标语言模型进行迭代调整，得到更新后的目标语言模型。

其中，第二理论文本质量评估值指的是对第二金融文本进行质量评估的数值，可以为一个评估分数；目标奖励模型是为了刻画目标语言模型输出的金融文本是否在人类看来表现不错；可以将实际偏离程度引入至更新目标语言模型的梯度中，可以避免迭代调整得到的更新后的目标语言模型与初始语言模型之间的偏移程度过大，从而保证最终得到的目标语言模型所输出的实际金融文本更加稳定，以及出错率较低。

在一实施例中，基于实际偏离程度，以及通过预先创建的目标奖励模型对第二金融文本样本计算得到的理论文本质量评估值对目标语言模型进行迭代调整，得到更新后的目标语言模型，包括：将实际偏移程度和第二金融文本样本输入至预先创建的目标奖励模型，得到对应的第二理论文本质量评估值；基于第二理论文本质量评估值和预先确定的第二实际文本质量评估值对目标语言模型进行迭代调整，得到更新后的目标语言模型。在实施例中，可以将实际偏移程度引入至更新目标语言模型的梯度中，并将第二金融文本样本输入预先创建的目标奖励模型，以得到对应的第二理论文本质量评估值，并基于第二理论文本质量评估值和第二实际文本质量评估值对目标语言模型进行迭代训练，得到更新后的目标语言模型。

本实施例的技术方案，通过将金融语料数据库中的每个金融提示样本分别输入至预先创建的初始语言模型和目标语言模型，得到对应的第一金融文本样本和第二金融文本样本；基于第一金融文本样本、第二金融文本样本和预先配置的惩罚因子确定初始语言模型与目标语言模型之间的实际偏离程度；基于实际偏离程度，以及通过预先创建的目标奖励模型对第二金融文本样本计算得到的第二理论文本质量评估值对目标语言模型进行迭代调整，得到更新后的目标语言模型，解决了现有技术中等待回复时间过长导致用户满意度大大降低的技术问题，通过实际偏移程度有效限制目标语言模型的学习跑偏，加强了目标语言模型在学习过程中的稳定性，大大降低了目标语言模型的出错率，进而提升了用户满意度以及缩短了回复时长。

在一实施例中，图2是本发明实施例提供的另一种模型构建方法的流程图，本实施例在上述实施例的基础上，对目标语言模型的构建过程作进一步的说明。如图2所示，该方法包括：

S210、采用金融语料数据库中的金融提示样本对预先创建的基准语言模型进行模型参数微调，得到对应的初始语言模型。

其中，基准语言模型指的是机器学习领域中的经典语言模型，其中，经典语言模型也可以称为对照模型。比如，NLP中经典的GPT-2，GPT-3，Struct BERT模型。在经典语言模型中输入一个金融提示样本，可以输出一个对应的金融文本样本。在实施例中，对基准语言模型输入金融领域的金融语料数据库中的所有金融提示样本，以对基准语言模型终端额模型参数进行微调，可以得到符合金融场景的初始语言模型。

S220、将金融语料数据库中的每个金融提示样本分别输入至预先创建的初始语言模型和目标语言模型，得到对应的第一金融文本样本和第二金融文本样本。

S230、将第一金融文本样本输入至预先创建的初始奖励模型，得到对应的第一理论文本质量评估值。

其中，初始奖励模型指的是未考虑人为评估的奖励模型；第一理论文本质量评估值指的是通过初始奖励模型对第一金融文本的质量进行评估的数值。在实施例中，将第一金融文本样本输入至预先创建的初始奖励模型，得到第一金融文本对应的第一理论文本质量评估值。

S240、基于金融提示样本信息、第一金融文本样本和第一实际文本质量评估值构成对应的质量标记文本数据库。

其中，质量标识文本数据库指的是由每个金融提示样本信息、对应的第一金融文本样本，以及对应的第一实际文本质量评估值所构成的一个质量标识文本数据对的集合；第一实际文本质量评估值指的是采用人为对金融提示样本信息与对应第一金融文本样本之间的输入输出质量进行评估的数值，一般可以采用一个评估分数进行表征。在质量标识文本数据库中可以包括多个质量标识文本数据对，即由每个金融提示样本信息、对应的第一金融文本样本，以及对应的第一实际文本质量评估值构成得到。

S250、基于第一理论文本质量评估值与预先生成的质量标记文本数据库对初始奖励模型进行训练，得到对应的目标奖励模型。

在一实施例中，基于第一理论文本质量评估值与第一实际文本质量评估值之间的实际评估差异值确定对应的用户偏好信息；基于用户偏好信息对初始奖励模型进行迭代训练，直至实际评估差异值在预设评估差异阈值内，得到对应的目标奖励模型。在实施例中，可以基于第一理论文本质量评估值与第一实际文本质量评估值之间的实际评估差异值确定用户的偏好信息，若实际评估差异值在预设评估差异阈值之内，则表示目标奖励模型给出的第一理论文本质量评估值在人类看来表现不错；反之，则需要对初始奖励模型进行迭代训练，直至实际评估差异值在预设评估差异阈值内，得到对应的目标奖励模型。

S260、基于第一金融文本样本、第二金融文本样本和预先配置的惩罚因子确定初始语言模型与目标语言模型之间的实际偏离程度。

S270、基于实际偏离程度，以及通过预先创建的目标奖励模型对第二金融文本样本计算得到的第二理论文本质量评估值对目标语言模型进行迭代调整，得到更新后的目标语言模型。

本实施例的技术方案，在上述实施例的基础上，采用配置人类反馈的目标奖励模型，可以使得目标语言模型可以更符号人类偏好的方向进行迭代，进而可以更加贴合实际的使用场景，进而提升了用户的满意度。

在一实施例中，图3是本发明实施例提供的一种智能回复方法的流程图。本实施例采用上述任一实施例得到的更新后的目标语言模型，实现智能客服的实现过程。如图3所示，本实施例中的智能回复方法包括如下步骤：

S310、获取目标用户的实际金融提示信息。

其中，实际金融提示信息指的是在实际金融场景中用户所要问到的一个金融问题。

S320、将实际金融提示信息输入至更新之后的目标语言模型，得到对应的实际金融文本。

其中，实际金融文本指的是对实际金融提示信息输出的回复信息。在实施例中，可以将实际金融提示信息输入至更新之后的目标语言模型中，以使目标语言模型根据实际金融提示信息输出对应的实际金融文本，实现了智能地回复用户的相关金融问题，进而缩短了用户的等待时长以及提升了用户的满意度。

在下述实施例中，以优选实施例对模型构建的过程进行说明。本实施例中，以金融语料数据库为银行客服语料数据库为例，对目标语言模型的构建过程进行说明。

本发明提出一种基于RLHF的语言模型的构建方法，针对现有银行智能客服缺乏人类偏好设计、智能化不足和沟通效率低等限制，采用RLHF技术将人类反馈纳入客服的目标语言模型的训练过程，让目标语言模型可以基于人类反馈进行互动学习，学习人类偏好，生成符合人类价值观的目标语言模型，该方法可以实现一种比传统客服机器人更加人性化、更加智能的银行智能客服，能够高效地为客户提供便捷、完备的高质量服务。

图4是本发明实施例提供的一种目标语言模型的构建示意图。如图4所示，首先对基准语言模型进行训练，得到对应的初始语言模型，然后，引入人类反馈，对奖励模型进行训练，得到对应的目标奖励模型；最后，对目标奖励模型和初始语言模型进行强化学习循环，得到对应的目标语言模型。

在机器学习领域，选择一个经典语言模型来进行迁移学习是一种高效解决现有问题的方式。假设选取一个经典语言模型作为基准语言模型，或称为对照模型。例如NLP中经典的GPT-2，GPT-3，Struct BERT模型。这些语言模型已经学习过大量[Prompt(输入激励),Text(输出文本)]对，作为一个映射网络，然后输入一个Prompt，通过语言模型输出对应的一段文本(作为对照)。这些模型经过经典的人类语言数据库训练，在一般问答场景中具有可观性能。图5是本发明实施例提供的一种初始语言模型的构建示意图。如图5所示，对该基准语言模型投以特殊设计的银行客服相关的银行客服语料数据库中的语言数据对其进行再训练，对模型参数进行微调，以获取符合金融场景的初始语言模型，即银行客服机器人。如有已有的银行客服语言模型作为初始模型即可一定程度上节省微调成本。奖励模型是初始语言模型进行强化学习的关键组分，它用于描述语言模型LM输出结果的好坏程度。例如，对RM输入一次LM的映射情况即[Prompt,Text]对，RM会输出一个刻画输出Text质量的标量数字(即第一理论文本质量评估值或第二理论文本质量评估值)。图6是本发明实施例提供的一种目标奖励模型的构建示意图，如图6所示，为了训练这样一个RM，首先要创建一个由LM生成的质量标记文本数据库：在生成每个RM的训练样本时，可以从的银行客服语料数据集中获取金融提示样本信息，并作为LM中的Prompt，以生成对应的输出Text(即第一金融文本样本)，接下来对每一次对照模型LM的输入输出质量进行人为评估，得到的评估结果作为该[Prompt，Text]对的对应标记分数(即第一理论文本质量评估值)，于是可以获得一个([Prompt，Text]，人类评估分数)(即质量标识文本数据对)的质量标识文本数据数据库，该部分工作可以用社会调查以及客户反馈来完成。然后，采用质量标识文本数据数据库训练初始奖励模型预测LM文本的评估分数。由此奖励模型RM创建了客户偏好的数学表示。相比于传统的客服模型，RLHF的奖励模型在语言模型输出的评估中引入了较强的人类反馈引导训练，使它能够刻画模型输出是否符合人类的偏好预期。

在最后阶段，获得了一个作为优化对象的客服专家模型LM(即目标语言模型)以及引入了人类反馈的奖励模型RM(即目标奖励模型)。LM即为强化学习要素中的“策略”，指的是智能客服针对外部激励(Prompt)所做的动作(Action)的来源，随后对于每一次智能客服的Action，可以采用奖励模型RM对其输出Text进行人类偏好标准的好坏评估，即评估其与人类偏好的一致性。在这一强化学习过程中，“策略”LM可以进行自我调整以创建在奖励模型RM上得分更高的输出。

在这一强化学习中需要注意的一个问题是，“策略”LM(即目标语言模型)可能会找到一条捷径来最大化RM给出的奖励，但是这种模型通常违反语法或逻辑一致性，这将严重影响智能客服的功能。于是对LM模型的学习过程加以限制是必要的。需要说明的是，在未对目标语言模型进行强化学习循环之前，目标语言模型即为初始语言模型。图7是本发明实施例提供的一种对目标语言模型进行强化学习循环的实现示意图。如图7所示，对于“策略”LM，生成其副本(即未进行强化学习循环之前的初始语言模型)，并且将这一Copy的所有模型参数“冻结”，即在学习过程中不参与结构更新，仅仅作为一个映射器。在强化学习过程中，可以将分别向“策略”LM与其Copy模型输入客服预料数据库中提取的Prompt，用它们的输出的计算KL散度△_KL，以表示“策略”LM的输出与Copy模型(即一般客服模型)输出之间的实际偏移程度：

其中，P_LM(^t)与P_Copy(t)分别为“策略”LM与其Copy的输出t的分布的概率，即P_LM(t)为第一t分布概率，以及P_Copy(t)为第二t分布概率；-λ_KL为惩罚因子。这一实际偏离程度将被引入到更新LM模型的梯度中，这样“策略”LM的学习过程就受到限制而不会偏离初始语言模型太远，可以让最终完成的目标语言模型更稳定，以及出错率更低。

完成RLHF的银行智能客服模型的使用方式与传统客服机器人没有差别，可以对客户的提问和反映作出分解、检索与应答，相比于传统客服机器人，基于RLHF的银行智能客服将具有更加智能化的思维，可以提供完备妥善且完全不输人工客服的高质量客户服务，并让客户拥有更好的银行客服体验，从而提升客户粘性和银行获客率。

本发明实施例，使用已有的银行智能客服模型作为基准语言模型，并加以人工设计的银行客服语料数据库对基准语言模型进行再训练，得到初始语言模型，以完成对原有的基准语言模型的升级和优化。此外，采用加入了人类反馈的奖励模型RM来对银行智能客服模型的输出结果进行评估，由此奖励模型RM创建了客户偏好的数学表示。相比于传统的客服模型，RLHF的奖励模型在语言模型输出的评估中引入了较强的人类反馈引导训练，使它能够刻画模型输出是否符合人类的偏好预期。

基于加入了人类反馈的奖励模型RM进行强化学习，相当于让智能客服在与客户交互的过程中不断自我优化，去贴合用户偏好，理解客户的真实需求并进行解答，有利于提升智能客服的智能水平和服务质量，同时在迭代更新中加入了与副本LM输出的KL散度的限制，进一步加强了银行智能客服强化学习过程的稳定性，可以让最终完成的客服模型更少出错。

在一实施例中，图8是本发明实施例提供的一种模型构建装置的结构示意图。如图8所示，该装置包括：样本确定模块810、偏离程度确定模块820和目标语言模型构建模块830。

样本确定模块810，用于将金融语料数据库中的每个金融提示样本分别输入至预先创建的初始语言模型和目标语言模型，得到对应的第一金融文本样本和第二金融文本样本；

偏离程度确定模块820，用于基于第一金融文本样本、第二金融文本样本和预先配置的惩罚因子确定初始语言模型与目标语言模型之间的实际偏离程度；

目标语言模型构建模块830，用于基于实际偏离程度，以及通过预先创建的目标奖励模型对第二金融文本样本计算得到的第二理论文本质量评估值对目标语言模型进行迭代调整，得到更新后的目标语言模型。

在一实施例中，模型构建装置，还包括：

评估值确定模块，用于将第一金融文本样本输入至预先创建的初始奖励模型，得到对应的第一理论文本质量评估值；

奖励模型构建模块，用于基于第一理论文本质量评估值与预先生成的质量标记文本数据库对初始奖励模型进行训练，得到对应的目标奖励模型。

在一实施例中，模型构建装置，还包括：

数据库构建模块，用于基于金融提示样本信息、第一金融文本样本和第一实际文本质量评估值构成对应的质量标记文本数据库；

相应的，奖励模型构建模块，包括：

偏好信息确定单元，用于基于第一理论文本质量评估值与第一实际文本质量评估值之间的实际评估差异值确定对应的用户偏好信息；

奖励模型构建单元，用于基于用户偏好信息对初始奖励模型进行迭代训练，直至实际评估差异值在预设评估差异阈值内，得到对应的目标奖励模型。

在一实施例中，模型构建装置，还包括：

初始语言模型构建模块，用于采用金融语料数据库中的金融提示样本对预先创建的基准语言模型进行模型参数微调，得到对应的初始语言模型。

在一实施例中，偏离程度确定模块820，包括：

模型差异值确定单元，用于基于第一金融文本和第二金融文本确定初始语言模型与目标语言模型之间的模型差异值；

偏移程度确定单元，用于基于模型差异值和预先配置的惩罚因子确定初始语言模型与目标语言模型之间的实际偏移程度。

在一实施例中，模型差异值确定单元，包括：

分布概率确定子单元，用于基于第一金融文本和第二金融文本确定初始语言模型对应的第一t分布概率，以及目标语言模型对应的第二t分布概率；

加权平均值确定子单元，用于确定第一t分布概率和第二t分布概率之间的概率比值的对数的加权平均值；

模型差异值确定子单元，用于基于加权平均值和第一t分布概率确定初始语言模型与目标语言模型之间的模型差异值。

在一实施例中，目标语言模型构建模块830，包括：

评估值确定单元，用于将实际偏移程度和第二金融文本样本输入至预先创建的目标奖励模型，得到对应的第二理论文本质量评估值；

目标语言模型构建单元，用于基于第二理论文本质量评估值和预先确定的第二实际文本质量评估值对目标语言模型进行迭代调整，得到更新后的目标语言模型。

本发明实施例所提供的模型构建装置可执行本发明任意实施例所提供的模型构建方法，具备执行方法相应的功能模块和有益效果。

在一实施例中，图9是本发明实施例提供的一种智能回复装置的结构示意图。如图9所示，该装置包括：提示信息获取模块910和文本确定模块920。

提示信息获取模块910，用于获取目标用户的实际金融提示信息；

文本确定模块920，用于将实际金融提示信息输入至更新之后的目标语言模型，得到对应的实际金融文本。

本发明实施例所提供的智能回复装置可执行本发明任意实施例所提供的智能回复方法，具备执行方法相应的功能模块和有益效果。

在一实施例中，图10是本发明实施例提供的一种电子设备的结构框图，如图10所示，示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图10所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如模型构建方法。

在一些实施例中，模型构建方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的模型构建方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型构建方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种模型构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法，还包括：

将第一金融文本样本输入至预先创建的初始奖励模型，得到对应的第一理论文本质量评估值；

基于所述第一理论文本质量评估值与预先生成的质量标记文本数据库对所述初始奖励模型进行训练，得到对应的目标奖励模型。

3.根据权利要求2所述的方法，其特征在于，所述方法，还包括：

基于所述金融提示样本信息、所述第一金融文本样本和第一实际文本质量评估值构成对应的质量标记文本数据库；

相应的，所述基于所述第一理论文本质量评估值与预先生成的质量标记文本数据库对所述初始奖励模型进行训练，得到对应的目标奖励模型，包括：

基于所述第一理论文本质量评估值与所述第一实际文本质量评估值之间的实际评估差异值确定对应的用户偏好信息；

基于所述用户偏好信息对所述初始奖励模型进行迭代训练，直至所述实际评估差异值在预设评估差异阈值内，得到对应的目标奖励模型。

4.根据权利要求1所述的方法，其特征在于，所述方法，还包括：

采用金融语料数据库中的金融提示样本对预先创建的基准语言模型进行模型参数微调，得到对应的初始语言模型。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一金融文本样本、所述第二金融文本样本和预先配置的惩罚因子确定所述初始语言模型与所述目标语言模型之间的实际偏离程度，包括：

基于所述第一金融文本和所述第二金融文本确定所述初始语言模型与所述目标语言模型之间的模型差异值；

基于所述模型差异值和预先配置的惩罚因子确定所述初始语言模型与所述目标语言模型之间的实际偏移程度。

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一金融文本和所述第二金融文本确定所述初始语言模型与所述目标语言模型之间的模型差异值，包括：

基于所述第一金融文本和所述第二金融文本确定所述初始语言模型对应的第一t分布概率，以及所述目标语言模型对应的第二t分布概率；

确定所述第一t分布概率和所述第二t分布概率之间的概率比值的对数的加权平均值；

基于所述加权平均值和所述第一t分布概率确定所述初始语言模型与所述目标语言模型之间的模型差异值。

7.根据权利要求1所述的方法，其特征在于，所述基于所述实际偏离程度，以及通过预先创建的目标奖励模型对所述第二金融文本样本计算得到的理论文本质量评估值对所述目标语言模型进行迭代调整，得到更新后的目标语言模型，包括：

将所述实际偏移程度和所述第二金融文本样本输入至预先创建的目标奖励模型，得到对应的第二理论文本质量评估值；

基于所述第二理论文本质量评估值和预先确定的第二实际文本质量评估值对所述目标语言模型进行迭代调整，得到更新后的目标语言模型。

8.一种智能回复方法，其特征在于，包括：

获取目标用户的实际金融提示信息；

将所述实际金融提示信息输入至如权利要求1-7任一项所述的更新之后的目标语言模型，得到对应的实际金融文本。

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的模型构建方法或执行权利要求8所述的智能回复方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的模型构建方法或执行权利要求8所述的智能回复方法。