CN117540825A

CN117540825A - 基于强化学习的预训练模型的构建方法及装置和电子设备

Info

Publication number: CN117540825A
Application number: CN202311577060.5A
Authority: CN
Inventors: 陈豪
Original assignee: Ant Blockchain Technology Shanghai Co Ltd
Current assignee: Ant Blockchain Technology Shanghai Co Ltd
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-02-09

Abstract

基于强化学习的预训练模型的构建方法及装置和电子设备。该预训练模型包括作为强化学习的智能体的第一预训练的语言模型和作为强化学习的环境的第二预训练的语言模型。该方法包括：将第一预训练的语言模型生成的提示文本作为动作，将第二预训练的语言模型对提示文本进行推理生成的响应文本作为状态反馈，将基于响应文本的风险检测结果计算出的与提示文本对应的回报值作为回报，以最大化回报值为优化目标，对第一预训练的语言模型进行强化学习训练；将该风险提示文本作为训练样本，将预期响应文本作为样本标签，对第二预训练的语言模型进行有监督的优化训练，以引导第二预训练的语言模型基于输入的风险提示文本生成不具有风险的响应文本。

Description

基于强化学习的预训练模型的构建方法及装置和电子设备

技术领域

本说明书实施例涉及计算机技术领域，尤其涉及一种基于强化学习的预训练模型的构建方法及装置和电子设备。

背景技术

基于预训练的语言模型由于具有强大的语言理解和生成能力，被广泛应用于各种场景。然而，语言模型也存在被误导生成一些具有风险的内容。因此，有必要发现可能引导语言模型产生风险信息的输入文本，以便对语言模型进行风险控制。

发明内容

本说明书实施例提供的一种基于强化学习的预训练模型的构建方法及装置和电子设备。

根据本说明书实施例的第一方面，提供一种基于强化学习的预训练模型的构建方法，所述预训练模型包括作为强化学习的智能体的第一预训练的语言模型，和作为强化学习的环境的第二预训练的语言模型，所述方法包括：

将所述第一预训练的语言模型生成的提示文本作为与所述强化学习对应的动作，将所述第二预训练的语言模型针对输入的所述提示文本进行推理生成的响应文本作为与所述强化学习对应的状态反馈，以及将基于所述响应文本的风险检测结果计算出的与所述提示文本对应的回报值作为与所述强化学习对应的回报，以最大化所述回报值为优化目标，针对所述第一预训练的语言模型进行强化学习训练，以引导所述第一预训练的语言模型生成风险提示文本；其中，如果针对所述响应文本的风险检测结果指示所述响应文本为风险信息，所述回报值为正回报值；

在针对所述第一预训练的语言模型进行强化学习训练的过程中，获取由所述第一预训练的语言模型生成的风险提示文本，以及为所述风险提示文本配置的不具有风险的预期响应文本；其中，所述风险提示文本为计算出的所述回报值为正回报值的响应文本对应的提示文本；

将该风险提示文本作为训练样本，将为该风险提示文本配置的预期响应文本作为样本标签，针对所述第二预训练的语言模型进一步进行有监督的优化训练，以引导所述第二预训练的语言模型基于输入的风险提示文本生成不具有风险的响应文本。

可选的，所述将所述第一预训练的语言模型生成的提示文本作为与所述强化学习对应的动作，将所述第二预训练的语言模型针对输入的所述提示文本进行推理生成的响应文本作为与所述强化学习对应的状态反馈，以及将基于所述响应文本的风险检测结果计算出的与所述提示文本对应的回报值作为与所述强化学习对应的回报，以最大化所述回报值为优化目标，针对所述第一预训练的语言模型进行强化学习训练，包括：

迭代如下的训练过程，以最大化所述回报值为优化目标，对所述第一预训练的语言模型进行训练：

获取所述第一预训练的语言模型生成的提示文本，将所述提示文本输入至所述第二预训练的语言模型，并获取所述第二预训练的语言模型针对所述提示文本进行推理得到的响应文本；

针对所述响应文本进行风险检测，以确定所述响应文本是否为风险信息，并运行回报函数基于所述风险检测的风险检测结果计算与所述提示文本对应的回报值；

运行强化学习算法基于所述回报值更新所述第一预训练的语言模型的模型参数。

可选的，所述针对所述响应文本进行风险检测，以确定所述响应文本是否为风险信息，包括：

将所述响应文本与预设数据库中存储的风险信息进行匹配；

响应于所述响应文本与任一风险信息匹配成功，确定所述响应文本为风险信息。

可选的，如果针对所述响应文本的风险检测结果指示所述响应文本不为风险信息，所述回报值为负回报值或零回报值。

可选的，在针对所述第一预训练的语言模型进行强化学习训练的过程中，所述第二预训练的语言模型的模型参数保持不变。

可选的，所述第一预训练的语言模型包括问答式的语言模型，所述问答式的语言模型用于针对输入的对话发起文本生成对应的不具有风险的对话响应文本。

根据本说明书实施例的第二方面，提供一种基于强化学习的预训练模型的构建装置，所述预训练模型包括作为强化学习的智能体的第一预训练的语言模型，和作为强化学习的环境的第二预训练的语言模型，所述装置包括：

强化学习单元，将所述第一预训练的语言模型生成的提示文本作为与所述强化学习对应的动作，将所述第二预训练的语言模型针对输入的所述提示文本进行推理生成的响应文本作为与所述强化学习对应的状态反馈，以及将基于所述响应文本的风险检测结果计算出的与所述提示文本对应的回报值作为与所述强化学习对应的回报，以最大化所述回报值为优化目标，针对所述第一预训练的语言模型进行强化学习训练，以引导所述第一预训练的语言模型生成风险提示文本；其中，如果针对所述响应文本的风险检测结果指示所述响应文本为风险信息，所述回报值为正回报值；

文本获取单元，在针对所述第一预训练的语言模型进行强化学习训练的过程中，获取由所述第一预训练的语言模型生成的风险提示文本，以及为所述风险提示文本配置的不具有风险的预期响应文本；其中，所述风险提示文本为计算出的所述回报值为正回报值的响应文本对应的提示文本；

模型优化单元，将该风险提示文本作为训练样本，将为该风险提示文本配置的预期响应文本作为样本标签，针对所述第二预训练的语言模型进一步进行有监督的优化训练，以引导所述第二预训练的语言模型基于输入的风险提示文本生成不具有风险的响应文本。

可选的，所述强化学习单元，包括：

迭代执行以下各子单元，以最大化所述回报值为优化目标，对所述第一预训练的语言模型进行训练：

获取子单元，获取所述第一预训练的语言模型生成的提示文本，将所述提示文本输入至所述第二预训练的语言模型，并获取所述第二预训练的语言模型针对所述提示文本进行推理得到的响应文本；

检测子单元，针对所述响应文本进行风险检测，以确定所述响应文本是否为风险信息，并运行回报函数基于所述风险检测的风险检测结果计算与所述提示文本对应的回报值；

更新子单元，运行强化学习算法基于所述回报值更新所述第一预训练的语言模型的模型参数。

根据本说明书实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为上述任一项基于强化学习的预训练模型的构建方法。

根据本说明书实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述任一项基于强化学习的预训练模型的构建方法。

本说明书实施例，提供了一种基于强化学习的预训练模型的构建方案，一方面，通过引入强化学习的思想，可以让第一预训练的语言模型和第二预训练的语言模型之间进行对抗，从而可以引导第一预训练的语言模型生成风险提示文本。另一方面，通过为第一预训练的语言模型生成的风险提示文本，配置不具有风险的预期响应文本，并将该风险提示文本作为训练样本，将为该风险提示文本配置的预期响应文本作为样本标签，对第二预训练的语言模型进行有监督的优化训练，以进一步引导第二预训练的语言模型基于输入的风险提示文本生成不具有风险的响应文本。如此，可以避免第二预训练的语言模型产生具有风险的响应文本，从而实现对第二预训练的语言模型的风险控制。

附图说明

图1是本说明书一实施例提供的强化学习的架构示意图；

图2是本说明书一实施例提供的基于强化学习的预训练模型的构建方法的流程图；

图3是本说明书一实施例提供的基于强化学习的思想训练预训练的语言模型的系统架构图；

图4是本说明书一实施例提供的基于强化学习的预训练模型的构建装置的硬件结构图；

图5是本说明书一实施例提供的基于强化学习的预训练模型的构建装置的模块。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本说明书所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

基于预训练的语言模型(也称之为大语言模型)，由于其强大的语言理解和生成能力，被广泛应用于各种场景。然而，在实际应用中，这些模型可能被误导生成一些具有风险的内容；例如，一些违反道德、法律和社会准则的内容。

在相关技术中，目前对基于预训练的语言模型所采用的监管手段，通常都是依靠人工方式来完成；例如，采用人工审核的方式，利用制定的规则库，对模型生成的内容进行审核和过滤。

然而，人工审核的方式，不仅效率低，监管力度较弱，而且只能对模型生成的风险内容进行事后监管，并不能提前发现那些误导模型生成风险内容的提示文本(即prompt)，这就可能导致用户向模型输入了提示文本后，因为模型生成的内容违规，而无法得到用户自己想要的回答的问题，从而会影响用户体验。

基于此，本说明书提出一种采用强化学习的思想来引导预训练的语言模型提前产生包含风险内容的提示文本，并基于这些提示文本对另一预训练的语言模型进行优化训练，来引导该预训练的语言模型基于用户输入的风险提示文本生成不具有风险的响应文本的技术方案。

请参见图1，图1是本说明书示出的一种强化学习的系统架构图。

强化学习是一种机器学习的范式，基于强化学习的思想，描述的是一个智能体(agent)，如何在一个复杂不确定的环境(environment)里面，去极大化能够获得的回报(也称之为奖励)的问题。

在强化学习过程中，agent可以与environment一直进行交互，通过环境的状态反馈输出一个动作(action)作为决策。然后，这个决策会再次反馈给环境，环境会根据agent采取的决策，输出下一个状态，并通过运行回报函数向agent输出一个与当前的这个决策对应的回报。而Agent的目的就是尽可能多地从环境中获取回报，以最大化获取到的回报作为优先目标，不断的对模型的参数进行优化调整。

在本说明书中，可以采用图1示出的强化学习的思想，来引导预训练的语言模型提前产生包含风险内容的提示文本。

下面请结合图2介绍本说明书提供的基于强化学习的预训练模型的构建方法实施例，该方法可以应用于前述图1所示的强化学习的系统，所述方法包括：

步骤210，将所述第一预训练的语言模型生成的提示文本作为与所述强化学习对应的动作，将所述第二预训练的语言模型针对输入的所述提示文本进行推理生成的响应文本作为与所述强化学习对应的状态反馈，以及将基于所述响应文本的风险检测结果计算出的与所述提示文本对应的回报值作为与所述强化学习对应的回报，以最大化所述回报值为优化目标，针对所述第一预训练的语言模型进行强化学习训练，以引导所述第一预训练的语言模型生成风险提示文本；其中，如果针对所述响应文本的风险检测结果指示所述响应文本为风险信息，所述回报值为正回报值。

其中，上述第一预训练的语言模型，可以用于生成提示文本(即prompt)。上述第二预训练的语言模型，可以用于对输入的提示文本进行推理生成对应的响应文本。

在本说明中，可以采用强化学习的思想来引导第一预训练的语言模型提前产生包含风险内容的提示文本，并基于这些提示文本对第二预训练的语言模型进行优化训练，来引导该第二预训练的语言模型基于用户输入的风险提示文本生成不具有风险的响应文本的技术方案。

请参见图3，图3是本说明书示出的一种基于强化学习的思想训练预训练的语言模型的系统架构图。

如图3所示，在采用强化学习的方式，对上述第一预训练的语言模型进行训练时，上述第一预训练的语言模型可以作为强化学习的智能体(Agent)，该第一预训练的语言模型生成的提示文本，可以作为强化学习的动作(action)。该第一预训练的语言模型生成的提示文本，可以继续输入到上述第二预训练的语言模型中。

上述第二预训练的语言模型，可以作为强化学习的环境(Environment)。该第二预训练的语言模型生成的与输入的提示文本对应的响应文本，可以作为强化学习的状态反馈。

除此之外，在上述第二预训练的语言模型上，还可以配置一个回报函数。当第二预训练的语言模型生成了与输入的提示文本对应的响应文本之后，可以运行该回报函数，为输入的该提示文本计算出一个对应的回报值，并将该回报值反馈给上述第一预训练的语言模型。

其中，上述回报值可以在针对响应文本进行风险检测，以确定所述响应文本是否为风险信息后进一步计算得到。

示例性的，所述针对所述响应文本进行风险检测，以确定所述响应文本是否为风险信息，可以包括：

将所述响应文本与预设数据库中存储的风险信息进行匹配；

在实现时，通过将已识别的风险信息存储于预设数据库，从而利用该预设数据库来确定第二预训练的语言模型生成的响应文本是否是具有风险的信息。

示例性的，可以通过计算响应文本与预设数据库中存储的风险信息之间的文本相似度，如果文本相似度大于阈值，则可以确定响应文本为风险信息；反之如果文本相似度小于或等于阈值，则可以确定响应文本不是风险信息或者确定响应文本是非风险信息。其中，计算文本相似度的方式可以包括余弦相似度算法、欧式距离算法等。

本说明书中，上述回报函数针对风险信息和非风险信息的响应文本，可以输出不同的回报值。如果针对所述响应文本的风险检测结果指示所述响应文本为风险信息，则所述回报值为正回报值；而如果针对所述响应文本的风险检测结果指示所述响应文本不为风险信息，所述回报值为负回报值或零回报值。

通过将基于所述响应文本的风险检测结果计算出的与所述提示文本对应的回报值作为与所述强化学习对应的回报，以最大化所述回报值为优化目标，针对所述第一预训练的语言模型进行强化学习训练，以引导所述第一预训练的语言模型生成风险提示文本.

在上述第一预训练的语言模型上，还可以配置用于对模型参数进行优化更新的强化学习算法，当第一预训练的语言模型接收到上述第一预训练的语言模型反馈的回报值后，可以运行该强化学习算法，基于该回报值更新该第一预训练的语言模型的模型参数。

其中，上述强化学习算法的具体类型，在本说明书中不进行特别限定；例如，可以包括PPO(Proximal Policy Optimizat ion)算法、DQN(Deep Q-Network)算法或Actor-Crit ic等。通过强化学习算法更新作为智能体的第一预训练的语言模型的模型参数，使其更倾向于生成能获得正回报值的提示文本，即引导第一预训练的语言模型生成风险提示文本。

在示出的一种实施方式中，在采用强化学习的方式，对上述第一预训练的语言模型进行训练时，具体可以通过迭代如下的训练过程，以最大化所述回报值为优化目标，对所述第一预训练的语言模型进行训练：

如图3所示，第一预训练的语言模型作为智能体生成的提示信息可以输入到第二预训练的语言模型；第二预训练的语言模型对输入的提示文本进行推理以生成响应文本，并且对生成的响应文本进行风险检测、基于风险检测结果运行回报函数计算回报值，再将响应文本和回报值反馈给第一预训练的语言模型。

在强化学习过程中，以最大化每个响应文本的回报值的累加值为优化目标，对所述第一预训练的语言模型进行多轮迭代训练，从而引导第一预训练的语言模型生成风险提示文本。

在示出的一种实施方式中，在针对所述第一预训练的语言模型进行强化学习训练的过程中，所述第二预训练的语言模型的模型参数可以保持不变。

需要说明的是，上述第一预训练的语言模型和上述第二预训练的语言模型的具体形态，在本说明书中也不需要特别限定。例如，在示出的一种实施方式中，上述第一预训练的语言模型和第二预训练的语言模型，可以包括问答式的语言模型。在这种场景下，按照以上描述的强化学习的过程，训练完成的上述第一预训练的语言模型，则可以是一个针对输入的对话发起文本生成对应的不具有风险的对话响应文本。

步骤220，在针对所述第一预训练的语言模型进行强化学习训练的过程中，获取由所述第一预训练的语言模型生成的风险提示文本，以及为所述风险提示文本配置的不具有风险的预期响应文本；其中，所述风险提示文本为计算出的所述回报值为正回报值的响应文本对应的提示文本。

步骤230，将该风险提示文本作为训练样本，将为该风险提示文本配置的预期响应文本作为样本标签，针对所述第二预训练的语言模型进一步进行有监督的优化训练，以引导所述第二预训练的语言模型基于输入的风险提示文本生成不具有风险的响应文本。

一般的，大模型的训练可以包括预训练阶段和微调阶段。通常经过预训练阶段和微调阶段的组合训练，可以使得大模型能够学到广泛的语言知识和上下文理解能力，并且能够产生连贯、有逻辑性的回答。

在预训练阶段，可以使用大规模的文本语料库对大模型进行无监督学习。该文本语料库可以包括来自互联网的网页、文章、书籍、论坛帖子等多种来源的文本数据。预选了任务可以使用遮盖(masking)的方式，将输入的文本中的某些词汇遮盖住，然后让大模型预测这些被遮盖的词汇。这样的预测任务有助于大模型理解上下文和语言的概念。

在微调阶段，可以使用人工创建的对话数据集对预训练的大模型进行有监督学习。这个数据集可以包含对话对，所述对会对可以包括用户输入的问题和模型回复的回答。通过将问题作为输入，让大模型生成合适的回答来进行训练。优化过程中还可以以结合一些强化学习技术，对生成的回答进行评估和调整，以提高大模型输出回答的表现。

常规的大模型在完成预训练阶段加微调阶段后就可以使用了。在此基础上，还可以再引入一个“指令微调”的阶段，对大模型的性能(响应速度，输出结果的准确度等)进行优化，这个阶段也称之为性能优化调整。性能优化，可以是通过训练的方式来优化，也可以不是。可以通过一些指令集，直接对模型参数进行调整；也可以输入一些标注数据，通过有监督训练的方式，对模型参数进行调整，具体的优化方式包括上面提到的两种。

在本说明书中，当采用图3示出的强化学习的方式，对第一预训练的语言模型训练完成后，此时已经通过强化学习的方式引导第一预训练的语言模型提前产生包含风险内容的风险提示文本，在这一基础之上，可以进一步为每个风险提示文本配置不具有风险的预期响应文本。

然后，将风险提示文本作为训练样本，将为风险提示文本配置的预期响应文本作为样本标签，进一步利用这些训练样本和样本标签来对第二预训练的语言模型进行有监督的优化训练。优化训练的目标是为了使第二预训练的语言模型为输入的风险提示文本生成不具有风险的响应文本。

如此，可以避免第二预训练的语言模型产生具有风险的响应文本，从而实现对第二预训练的语言模型的风险控制。

与前述基于强化学习的预训练模型的构建方法实施例相对应，本说明书还提供了基于强化学习的预训练模型的构建装置的实施例。所述装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将非易失性存储器中对应的计算机程序读取到内存中运行形成的。从硬件层面而言，如图4所示，为本说明书基于强化学习的预训练模型的构建装置所在设备的一种硬件结构图，除了图4所示的处理器、网络接口、内存以及非易失性存储器之外，实施例中装置所在的设备通常根据基于强化学习的预训练模型的构建实际功能，还可以包括其他硬件，对此不再赘述。

请参见图5，为本说明书一实施例提供的基于强化学习的预训练模型的构建装置的模块图，所述装置对应了图2所示实施例。

所述预训练模型包括作为强化学习的智能体的第一预训练的语言模型，和作为强化学习的环境的第二预训练的语言模型，所述装置包括：

强化学习单元410，将所述第一预训练的语言模型生成的提示文本作为与所述强化学习对应的动作，将所述第二预训练的语言模型针对输入的所述提示文本进行推理生成的响应文本作为与所述强化学习对应的状态反馈，以及将基于所述响应文本的风险检测结果计算出的与所述提示文本对应的回报值作为与所述强化学习对应的回报，以最大化所述回报值为优化目标，针对所述第一预训练的语言模型进行强化学习训练，以引导所述第一预训练的语言模型生成风险提示文本；其中，如果针对所述响应文本的风险检测结果指示所述响应文本为风险信息，所述回报值为正回报值；

文本获取单元420，在针对所述第一预训练的语言模型进行强化学习训练的过程中，获取由所述第一预训练的语言模型生成的风险提示文本，以及为所述风险提示文本配置的不具有风险的预期响应文本；其中，所述风险提示文本为计算出的所述回报值为正回报值的响应文本对应的提示文本；

模型优化单元430，将该风险提示文本作为训练样本，将为该风险提示文本配置的预期响应文本作为样本标签，针对所述第二预训练的语言模型进一步进行有监督的优化训练，以引导所述第二预训练的语言模型基于输入的风险提示文本生成不具有风险的响应文本。

可选的，所述强化学习单元410，包括：

可选的，所述强化学习单元410执行针对所述响应文本进行风险检测，以确定所述响应文本是否为风险信息，进一步包括：

将所述响应文本与预设数据库中存储的风险信息进行匹配；响应于所述响应文本与任一风险信息匹配成功，确定所述响应文本为风险信息。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上图5描述了基于强化学习的预训练模型的构建装置的内部功能模块和结构示意，其实质上的执行主体可以为一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述任一基于强化学习的预训练模型的构建方法的实施例。

在上述电子设备的实施例中，应理解，该处理器可以是CPU，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，而前述的存储器可以是只读存储器(英文：read-only memory，缩写：ROM)、随机存取存储器(英文：random access memory，简称：RAM)、快闪存储器、硬盘或者固态硬盘。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为服务器系统。当然，本说明书不排除随着未来计算机技术的发展，实现上述实施例功能的计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。例如若使用到第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本发明是参照根据本说明书实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储、石墨烯存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书一个或多个实施例的实施例而已，并不用于限制本本说明书一个或多个实施例。对于本领域技术人员来说，本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在权利要求范围之内。

Claims

1.一种基于强化学习的预训练模型的构建方法，所述预训练模型包括作为强化学习的智能体的第一预训练的语言模型，和作为强化学习的环境的第二预训练的语言模型；所述方法包括：

2.根据权利要求1所述的方法，所述将所述第一预训练的语言模型生成的提示文本作为与所述强化学习对应的动作，将所述第二预训练的语言模型针对输入的所述提示文本进行推理生成的响应文本作为与所述强化学习对应的状态反馈，以及将基于所述响应文本的风险检测结果计算出的与所述提示文本对应的回报值作为与所述强化学习对应的回报，以最大化所述回报值为优化目标，针对所述第一预训练的语言模型进行强化学习训练，包括：

3.根据权利要求2所述的方法，所述针对所述响应文本进行风险检测，以确定所述响应文本是否为风险信息，包括：

将所述响应文本与预设数据库中存储的风险信息进行匹配；

4.根据权利要求1所述的方法，如果针对所述响应文本的风险检测结果指示所述响应文本不为风险信息，所述回报值为负回报值或零回报值。

5.根据权利要求1所述的方法，在针对所述第一预训练的语言模型进行强化学习训练的过程中，所述第二预训练的语言模型的模型参数保持不变。

6.根据权利要求1所述的方法，所述第一预训练的语言模型包括问答式的语言模型，所述问答式的语言模型用于针对输入的对话发起文本生成对应的不具有风险的对话响应文本。

7.一种基于强化学习的预训练模型的构建装置，所述预训练模型包括作为强化学习的智能体的第一预训练的语言模型，和作为强化学习的环境的第二预训练的语言模型，所述装置包括：

8.根据权利要求7所述的装置，所述强化学习单元，包括：

9.一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1-6中任一项所述的方法。