CN115017288A

CN115017288A - 模型训练方法、模型训练装置、设备及存储介质

Info

Publication number: CN115017288A
Application number: CN202210689674.1A
Authority: CN
Inventors: 李鹏宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-09-06

Abstract

本申请涉及人工智能技术领域，尤其涉及模型训练方法、模型训练装置、计算机设备及存储介质。所述方法包括：获取训练样本数据；获取待训练的回复生成模型，并将目标对话输入至回复生成模型中，得到模型回复信息；基于预训练的鉴别器，根据参考回复信息对模型回复信息进行回复质量评估，得到模型回复信息的第一信息评估结果；根据历史对话数据集对模型回复信息进行回复质量评估，得到模型回复信息的第二信息评估结果；根据第一信息评估结果和第二信息评估结果对回复生成模型进行风格迁移训练，得到目标回复生成模型。本申请实施例旨在训练得到能够根据不同语境生成对应对话风格的回复文本的回复生成模型。

Description

模型训练方法、模型训练装置、设备及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及模型训练方法、模型训练装置、计算机设备及存储介质。

背景技术

如今，回复生成模型是人工智能领域的一个重要研究方向，该模型能够实现让人与机器通过自然语言进行交互。回复生成模型可以自动输出符合对话内容的回复内容，因此回复生成模型可以广泛应用各种对话场景下。

现有的回复生成模型主要关注的是系统回复文本的通顺程度、合理程度以及与用户对话的匹配程度，但是，现有的系统回复文本一般都没有考虑到对话风格，从而导致生成的系统回复文本一般比较系统化，无法在特定语境下生成对应对话风格的回复文本。

发明内容

本申请提供了一种模型训练方法、模型训练装置、计算机设备及存储介质，旨在训练得到能够根据不同语境生成对应对话风格的回复文本的回复生成模型。

为实现上述目的，本申请提供一种模型训练方法，所述方法包括：

获取训练样本数据，所述训练样本数据包括目标对话及所述目标对话对应的参考回复信息和历史对话数据集；

获取待训练的回复生成模型，并将所述目标对话输入至所述回复生成模型中，得到模型回复信息；

基于预训练的鉴别器，根据所述参考回复信息对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第一信息评估结果；

根据所述历史对话数据集对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第二信息评估结果；

根据所述第一信息评估结果和所述第二信息评估结果对所述回复生成模型进行风格迁移训练，得到目标回复生成模型。

为实现上述目的，本申请还提供一种模型训练装置，所述模型训练装置包括：

数据获取模块，用于获取训练样本数据，所述训练样本数据包括目标对话及所述目标对话对应的参考回复信息和历史对话数据集；

回复生成模块，用于获取待训练的回复生成模型，并将所述目标对话输入至所述回复生成模型中，得到模型回复信息；

信息鉴别模块，用于基于预训练的鉴别器，根据所述参考回复信息对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第一信息评估结果；

信息评估模块，用于根据所述历史对话数据集对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第二信息评估结果；

模型生成模块，用于根据所述第一信息评估结果和所述第二信息评估结果对所述回复生成模型进行风格迁移训练，直至所述回复生成模型收敛，得到目标回复生成模型。

此外，为实现上述目的，本申请还提供一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于执行所述的计算机程序并在执行所述的计算机程序时实现本申请实施例提供的任一项所述的模型训练方法。

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现本申请实施例提供的任一项所述的模型训练方法。

本申请实施例公开的模型训练方法、模型训练装置、设备及存储介质，通过获取训练样本数据，并利用训练样本数据和回复生成模型生成模型回复信息，再利用训练样本数据对模型回复信息进行鉴别以及回复质量评估，得到第一信息评估结果和第二信息评估结果，最后通过第一信息评估结果和第二信息评估结果对回复生成模型进行风格迁移训练，得到目标回复生成模型。由此可以训练得到能够根据不同语境生成对应对话风格的回复文本的回复生成模型，使得生成的回复生成模型能够生成具有语言风格的回复文本，提高用户的使用体验。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种模型训练方法的场景示意图；

图2是本申请实施例提供的一种模型训练方法的流程示意图；

图3是本申请一实施例提供的一种模型训练装置的示意性框图；

图4是本申请一实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。

在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

目前，随着移动互联网的发展，越来越多的用户通过智能终端设备进行互联网访问。以社交服务、即时消息为代表的移动互联网应用的发展，带来了远高于传统的输入需求。现有的回复生成模型主要关注的是系统回复文本的通顺程度、合理程度以及与用户对话的匹配程度，但是，现有的回复生成模型生成的回复文本并没有考虑到“拟人化程度”、“娱乐能力”等方面因素，即现有的系统回复文本一般都没有考虑到对话风格，从而导致生成的系统回复文本一般比较系统化，无法在特定语境下生成对应对话风格的回复文本。

为解决上述问题，本申请提供了一种模型训练方法，应用在服务器，由此可以训练得到能够根据不同语境生成对应对话风格的回复文本的回复生成模型，该生成的回复生成模型能够生成具有语言风格的回复文本。

其中，服务器例如可以为单独的服务器或服务器集群。但为了便于理解，以下实施例将以应用于服务器的模型训练方法进行详细介绍。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

如图1所示，本申请实施例提供的模型训练方法，可以应用于如图1所示的应用环境中。该应用环境中包含有客户端110和服务器120，其中，客户端110可以通过网络与服务器120进行通信。具体地，服务器120获取训练样本数据，并利用训练样本数据和回复生成模型生成模型回复信息，再利用训练样本数据对模型回复信息进行鉴别以及回复质量评估，得到第一信息评估结果和第二信息评估结果，最后通过第一信息评估结果和第二信息评估结果对回复生成模型进行风格迁移训练，得到目标回复生成模型并发送给客户端110。其中，服务器120可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

请参阅图2，图2是本申请实施例提供的一种模型训练方法的示意流程图。其中，该模型训练方法可以应用在服务器中，由此可以训练得到能够根据不同语境生成对应对话风格的回复文本的回复生成模型，使得生成的回复生成模型能够生成具有语言风格的回复文本，提高用户的使用体验。

如图2所示，该模型训练方法包括步骤S101至步骤S105。

S101、获取训练样本数据，所述训练样本数据包括目标对话及所述目标对话对应的参考回复信息和历史对话数据集。

其中，所述训练样本数据，所述训练样本数据包括目标对话及所述目标对话对应的参考回复信息和历史对话数据集。所述目标对话为待生成回复的对话，示例性的，可以为对话数据集中的其中一个query。所述参考回复信息为目标对话所对应的推荐回复，具体为带有对应风格标签的回复信息。所述历史对话数据集包括目标对话以及其上下文对应的对话数据集。

具体地，所述历史对话数据集记录了两个对话者展开的一个完整的对话过程。一个完整的对话过程被称为session(会话)。一个会话可以表示为，由两个讲话者交替产生的文本序列，即session＝(u₁,u₂,…,u_t,…)。其中u_t表示第t次发言的内容文本。可以通过直接收集或购买已有的历史对话数据集；或基于剧本台词、评论列表等半结构化的数据构造历史对话数据集；或人工标注生成历史对话数据集。

其中，可以将历史对话数据集的描述信息存储在训练语料库中的结构化数据库中，将数据集文件存储在训练语料库中的文件系统中。用户可以在录入新的历史对话数据集时，填写对历史对话数据集的语言风格标签。系统会将没有收录的风格标签添加到语言风格标签体系中。数据集文件是一个文本文件，其中的每一行为一个样本。一个样本的数据被存储在一个json串中。该json串的结构可以为:[{"speaker":"牛群","text":"同意"},{"speaker":"冯巩","text":"啊"},......]等。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在一些实施例中，获取对话风格需求，并根据所述对话风格需求确定训练语料库中对应的风格标签；根据所述风格标签，遍历所述训练语料库，得到所述训练样本数据。由此可以从训练语料库中遍历得到对话风格需求对应的训练样本数据，以对回复生成模型进行训练。

其中，所述对话风格需求包括搞笑场景、正规场景对应的风格需求，所述训练语料库包括各种对话风格对应的训练语料，用于对回复生成模型进行训练，所述风格标签包括幽默、平淡和含蓄对应的风格。具体地，可以通过收集、标注、保存若干份带有不同语言风格的训练数据集来构建训练语料库。

需要说明的是，对话风格指的是人们在交流时使用的不同语言素材和方式。不同的人产出的文本语言风格是有差异的。因此使用不同风格标签对应的训练样本数据训练出来的回复生成模型也是具有不同的对话风格的。

具体地，可以获取目标对话所处的对话场景，或识别得到目标对话所处的对话场景，并根据对话场景确定对话风格需求，并根据所述对话风格需求确定训练语料库中对应的风格标签；根据所述风格标签，遍历所述训练语料库，得到所述训练样本数据。由此可以从训练语料库中遍历得到对话风格需求对应的训练样本数据，以对回复生成模型进行训练。

示例性的，比如获取到目标对话所处的对话场景为朋友聚会，则根据对话场景确定对话风格需求为搞笑、轻松等风格需求，从而确定训练语料库中对应的风格标签为幽默、风趣等风格标签，再根据所述风格标签，遍历所述训练语料库，得到所述训练样本数据。

示例性的，比如根据环境或历史对话识别得到目标对话所处的对话场景为办公场所，则根据对话场景确定对话风格需求为正经、严谨对应的风格需求，从而确定训练语料库中对应的风格标签为平淡和含蓄等风格标签，再根据所述风格标签，遍历所述训练语料库，得到所述训练样本数据。

S102、获取待训练的回复生成模型，并将所述目标对话输入至所述回复生成模型中，得到模型回复信息。

其中，所述待训练的回复生成模型为需要进行风格迁移训练的回复生成模型，所述待训练的回复生成模型一般已经具有较好的回复能力，只是缺少生成的回复信息缺少对话风格。

具体地，可以将目标对话先输入到未经风格迁移训练的回复生成模型中，生成模型回复信息，由于该回复生成模型未经过风格迁移训练，因此生成的模型回复信息虽然已经具有较好的回复能力了，但并未具有对话风格，从而为后续对回复生成模型进行风格迁移训练作准备。

S103、基于预训练的鉴别器，根据所述参考回复信息对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第一信息评估结果。

其中，所述鉴别器用于生成模型回复信息的第一信息评估结果。所述第一信息评估结果用于表示模型回复信息的第一得分。具体地，可以对鉴别器进行训练，从而提高鉴别器生成模型回复信息的第一信息评估结果的准确性。鉴别器会判断模型回复信息是否为带有目标风格推荐回复。鉴别器可以为二分类器(输出头为线性变换和softmax)。

在一些实施例中，对所述模型回复信息进行分析，得到所述模型回复信息的语义分析结果和风格评估结果；根据所述语义分析结果和所述风格评估结果确定所述模型回复信息和所述参考回复信息的相似度；根据所述相似度生成所述模型回复信息的第一信息评估结果。

其中，所述语义分析结果为所述模型回复信息中每个分词对应的词义所组合反应的词义信息，，所述风格评估结果为所述模型回复信息中每个分词对应的风格。需要说明的是，语义分析结果和所述风格评估结果可以通过得分或其它形式体现。

具体地，可以利用对应的语义分析模型对所述模型回复信息进行语义分析，从而准确地得到所述模型回复信息的语义分析结果，接着利用对应的风格评估模型对所述模型回复信息进行风格评估，从而准确地得到所述模型回复信息的风格评估结果；根据所述语义分析结果和所述风格评估结果确定所述模型回复信息和所述参考回复信息的相似度；根据所述相似度生成所述模型回复信息的第一信息评估结果。

示例性的，可以将语义分析结果和所述风格评估结果输入到鉴别器中，从而确定所述模型回复信息和所述参考回复信息的相似度；最后根据所述相似度生成所述模型回复信息的第一信息评估结果。

确定模型回复信息和参考回复信息的得分的公式如下：

J_DA＝y*log(D(query,参考回复信息,历史对话数据集))+(1-y)log(1-D(query,模型回复信息，历史对话数据集))

其中，J_DA为参考回复信息或模型回复信息的得分，y＝1表示输入为参考回复信息，从而计算得到参考回复信息的得分，y＝0表示输入为模型回复信息，从而计算得到模型回复信息的得分。最后根据参考回复信息的得分和模型回复信息的得分确定模型回复信息和参考回复信息的相似度。

示例性的，参考回复信息的得分和模型回复信息的得分可以反映参考回复信息的得分和模型回复信息对应的语义分析结果和风格评估结果，从而确定模型回复信息和参考回复信息的相似度，根据相似度生成模型回复信息的第一得分。比如若模型回复信息和参考回复信息的相似度为80％，则模型回复信息的第一得分为80分，若模型回复信息和参考回复信息的相似度为20％，则模型回复信息的第一得分为20分，从而使第一信息评估结果能够准确地反馈模型回复信息和参考回复信息的相似度，体现模型回复信息与参考回复信息表现出的对话风格差距。

在一些实施例中，对所述模型回复信息进行分词处理，并预测分词处理之后的每个分词对应的词义；对每个分词对应的词义进行修正以及组合，得到所述模型回复信息的语义分析结果；对每个分词对应的词义进行风格评估，得到每个分词对应的风格评估结果。由此可以准确地确定每个分词对应的词义以及风格，从而更准确地分析得到模型回复信息的语义分析结果和风格评估结果。

具体地，可以将模型回复信息进行分词处理，处理成各个独立的分词，并利用预训练的词义预测模型对每个分词进行预测，得到每个分词对应的词义，对每个分词对应的词义进行修正以及组合，从而准确地得到模型回复信息的语义分析结果，再利用预训练的风格评估模型对每个分词对应的词义进行风格评估，得到每个分词对应的风格评估结果，从而能够准确地得到模型回复信息的风格评估结果。

S104、根据所述历史对话数据集对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第二信息评估结果。

其中，所述第二信息评估结果用于表示模型回复信息的第二得分。由于考虑到历史对话数据集中，直接表现出对应的对话风格需求的文本比较稀疏，因此还采用强化学习的方法，通过对模型回复信息进行回复质量评估，以计算宏观视角下回复生成模型的回复质量为奖励，从而得到模型回复信息的第二得分。

在一些实施例中，遍历所述历史对话数据集，确定所述目标对话的位置；根据所述位置对所述历史对话数据集进行筛选，得到目标历史对话数据集；根据所述目标历史对话数据集对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第二信息评估结果。由此可以确定更准确地得到模型回复信息的第二信息评估结果。

具体地，遍历所述历史对话数据集，确定目标对话在历史对话数据集的位置，确定目标对话在历史对话数据集的位置的前后的n个对话，其中，n可以为10，20等任何数值，并将这些对话数据集作为目标历史对话数据集，由于目标历史对话数据集属于目标对话的上下文，因此更具有风格评估的参考意义。最后根据所述目标历史对话数据集对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第二信息评估结果。

在一些实施例中，对所述模型回复信息和所述目标历史对话数据集进行风格评估，得到所述模型回复信息和所述目标历史对话数据集对应的风格标签；根据所述模型回复信息和所述目标历史对话数据集对应的风格标签对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第二信息评估结果。

具体地，分别对所述模型回复信息和所述目标历史对话数据集进行风格评估，从而得到所述模型回复信息和所述目标历史对话数据集对应的风格标签，再将所述模型回复信息和所述目标历史对话数据集对应的风格标签输入到预训练的鉴别器以对所述模型回复信息进行回复质量评估，从而准确地得到所述模型回复信息的第二信息评估结果。

示例性的，假设目标对话是目标历史对话数据集中的第t个对话，计算模型回复信息的回复质量奖励的公式如下：

p_j＝D(u_t+j,response_t+j,history′_t+j)

其中，p_j为模型回复信息即response_t+j的回复质量奖励，u_t+j为目标历史对话数据集中的第t+j个对话，response_t+j为目标历史对话数据集中的第t+j个对话的回复信息，history′_t+j＝(u_t,response_t,…,u_t+j-1,response_t+j-1)，为目标历史对话数据集。

计算模型回复信息的第二信息评价结果的公式如下：

v_j＝p_j+γp_j+1

其中，v_j为模型回复信息的第二得分，γ为折现率，用于表现若干个回个内的模型回复信息的回复质量奖励。γ默认为0.9，取值范围是(0,1)。表示在强化学习环节，对对话回复模型在若干回合里对话表现出目标风格的能力的重视程度。取值越大，表示模型倾向于在未来表现出目标风格。目标历史对话数据集中，带有目标风格的文本比较稀疏时，推荐使用较大的γ。

具体地，强化学习的目标就是最大化

使得(u_t，u_t+1)即(目标回复，模型回复信息)及其后续对话表现出对话风格需求的概率尽可能高或在之后的若干个回个内表现出对话风格需求。

S105、根据所述第一信息评估结果和所述第二信息评估结果对所述回复生成模型进行风格迁移训练，得到目标回复生成模型。

其中，所述目标回复生成模型为进行风格迁移训练的回复生成模型，可以生成具有语言风格的回复文本，示例性的，若对话风格需求为幽默，目标对话为“你吃饭了吗？”，一般的回复生成模型生成的模型回复信息可能为“吃了”或“没吃”，而本申请实施例中的目标回复生成模型生成的模型回复信息可能为“现在都几点了，肯定吃了呀”或“还没吃呢，等着跟你吃呢”等带有幽默风格的回复文本。

在一些实施例中，获取训练参数和所述回复生成模型的损失函数；根据所述训练参数、所述第一信息评估结果和所述第二信息评估结果对所述损失函数进行风格迁移训练，直至所述损失函数最大化，得到目标回复生成模型。

其中，所述训练参数包括训练轮数、学习率、考虑历史对话轮数、考虑未来对话轮数、强化学习子任务权重α和强化学习的折现率γ等。

具体地，可以综合训练参数、所述第一信息评估结果和所述第二信息评估结果，从而对对话回复模型的损失函数进行风格迁移训练，从而得到对话回复模型的完整徐侧吸目标，即最大化损失函数。

其中，最大化损失函数的公式为：

J_G＝αv₀-(1-α)log(1-D(目标对话,模型回复信息，历史对话数据集))

其中，α是一个超参数，取值范围为(0,1)，具体可以通过用户设定，最大化损失函数即使J_G最大化，从而得到目标回复生成模型。

生成目标回复生成模型后，可以将目标回复生成模型存为与任务名称同名的参数文件，方便后续调用。

请参阅图3，图3是本申请一实施例提供的一种模型训练装置的示意性框图，该模型训练装置可以配置于服务器中，用于执行前述的模型训练方法。

如图3所示，该模型训练装置200包括：数据获取模块201、回复生成模块202、信息鉴别模块203、信息评估模块204和模型生成模块205。

数据获取模块201，用于获取训练样本数据，所述训练样本数据包括目标对话及所述目标对话对应的参考回复信息和历史对话数据集；

回复生成模块202，用于获取待训练的回复生成模型，并将所述目标对话输入至所述回复生成模型中，得到模型回复信息；

信息鉴别模块203，用于基于预训练的鉴别器，根据所述参考回复信息对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第一信息评估结果；

信息评估模块204，用于根据所述历史对话数据集对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第二信息评估结果；

模型生成模块205，用于根据所述第一信息评估结果和所述第二信息评估结果对所述回复生成模型进行风格迁移训练，直至所述回复生成模型收敛，得到目标回复生成模型。

数据获取模块201，还用于获取对话风格需求，并根据所述对话风格需求确定训练语料库中对应的风格标签；根据所述风格标签，遍历所述训练语料库，得到所述训练样本数据。

信息鉴别模块203，还用于对所述模型回复信息进行分析，得到所述模型回复信息的语义分析结果和风格评估结果；根据所述语义分析结果和所述风格评估结果确定所述模型回复信息和所述参考回复信息的相似度；根据所述相似度生成所述模型回复信息的第一信息评估结果。

信息鉴别模块203，还用于对所述模型回复信息进行分词处理，并预测分词处理之后的每个分词对应的词义；对每个分词对应的词义进行修正以及组合，得到所述模型回复信息的语义分析结果；对每个分词对应的词义进行风格评估，得到每个分词对应的风格评估结果。

信息评估模块204，还用于遍历所述历史对话数据集，确定所述目标对话的位置；根据所述位置对所述历史对话数据集进行筛选，得到目标历史对话数据集；根据所述目标历史对话数据集对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第二信息评估结果。

信息评估模块204，还用于对所述模型回复信息和所述目标历史对话数据集进行风格评估，得到所述模型回复信息和所述目标历史对话数据集对应的风格标签；根据所述模型回复信息和所述目标历史对话数据集对应的风格标签对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第二信息评估结果。

模型生成模块205，用于获取训练参数和所述回复生成模型的损失函数；根据所述训练参数、所述第一信息评估结果和所述第二信息评估结果对所述损失函数进行风格迁移训练，直至所述损失函数最大化，得到目标回复生成模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费终端设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

示例性的，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本申请实施例提供的一种计算机设备的示意图。该计算机设备可以是服务器。

如图4所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括易失性存储介质、非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种模型训练方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种模型训练方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，该计算机设备的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一些实施方式中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：获取训练样本数据，所述训练样本数据包括目标对话及所述目标对话对应的参考回复信息和历史对话数据集；获取待训练的回复生成模型，并将所述目标对话输入至所述回复生成模型中，得到模型回复信息；基于预训练的鉴别器，根据所述参考回复信息对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第一信息评估结果；根据所述历史对话数据集对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第二信息评估结果；根据所述第一信息评估结果和所述第二信息评估结果对所述回复生成模型进行风格迁移训练，得到目标回复生成模型。

在一些实施例中，所述处理器还用于：获取对话风格需求，并根据所述对话风格需求确定训练语料库中对应的风格标签；根据所述风格标签，遍历所述训练语料库，得到所述训练样本数据。

在一些实施例中，所述处理器还用于：对所述模型回复信息进行分析，得到所述模型回复信息的语义分析结果和风格评估结果；根据所述语义分析结果和所述风格评估结果确定所述模型回复信息和所述参考回复信息的相似度；根据所述相似度生成所述模型回复信息的第一信息评估结果。

在一些实施例中，所述处理器还用于：对所述模型回复信息进行分词处理，并预测分词处理之后的每个分词对应的词义；对每个分词对应的词义进行修正以及组合，得到所述模型回复信息的语义分析结果；对每个分词对应的词义进行风格评估，得到每个分词对应的风格评估结果。

在一些实施例中，所述处理器还用于：遍历所述历史对话数据集，确定所述目标对话的位置；根据所述位置对所述历史对话数据集进行筛选，得到目标历史对话数据集；根据所述目标历史对话数据集对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第二信息评估结果。

在一些实施例中，所述处理器还用于：对所述模型回复信息和所述目标历史对话数据集进行风格评估，得到所述模型回复信息和所述目标历史对话数据集对应的风格标签；根据所述模型回复信息和所述目标历史对话数据集对应的风格标签对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第二信息评估结果。

在一些实施例中，所述处理器还用于：获取训练参数和所述回复生成模型的损失函数；根据所述训练参数、所述第一信息评估结果和所述第二信息评估结果对所述损失函数进行风格迁移训练，直至所述损失函数最大化，得到目标回复生成模型。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时实现本申请实施例提供的任一种模型训练方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链语言模型的存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取训练样本数据，包括：

获取对话风格需求，并根据所述对话风格需求确定训练语料库中对应的风格标签；

根据所述风格标签，遍历所述训练语料库，得到所述训练样本数据。

3.根据权利要求1所述的方法，其特征在于，所述基于预训练的鉴别器，根据所述参考回复信息对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第一信息评估结果，包括：

对所述模型回复信息进行分析，得到所述模型回复信息的语义分析结果和风格评估结果；

根据所述语义分析结果和所述风格评估结果确定所述模型回复信息和所述参考回复信息的相似度；

根据所述相似度生成所述模型回复信息的第一信息评估结果。

4.根据权利要求3所述的方法，其特征在于，所述对所述模型回复信息进行分析，得到所述模型回复信息的语义分析结果和风格评估结果，包括：

对所述模型回复信息进行分词处理，并预测分词处理之后的每个分词对应的词义；

对每个分词对应的词义进行修正以及组合，得到所述模型回复信息的语义分析结果；

对每个分词对应的词义进行风格评估，得到每个分词对应的风格评估结果。

5.根据权利要求1所述的方法，其特征在于，所述根据所述历史对话数据集对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第二信息评估结果，包括：

遍历所述历史对话数据集，确定所述目标对话的位置；

根据所述位置对所述历史对话数据集进行筛选，得到目标历史对话数据集；

根据所述目标历史对话数据集对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第二信息评估结果。

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标历史对话数据集对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第二信息评估结果，包括：

对所述模型回复信息和所述目标历史对话数据集进行风格评估，得到所述模型回复信息和所述目标历史对话数据集对应的风格标签；

根据所述模型回复信息和所述目标历史对话数据集对应的风格标签对所述模型回复信息进行回复质量评估，得到所述模型回复信息的第二信息评估结果。

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一信息评估结果和所述第二信息评估结果对所述回复生成模型进行风格迁移训练，直至所述回复生成模型收敛，得到目标回复生成模型，包括：

获取训练参数和所述回复生成模型的损失函数；

根据所述训练参数、所述第一信息评估结果和所述第二信息评估结果对所述损失函数进行风格迁移训练，直至所述损失函数最大化，得到目标回复生成模型。

8.一种模型训练装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述的计算机程序并在执行所述的计算机程序时实现：

如权利要求1-7任一项所述的模型训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的模型训练方法。