CN117743696A

CN117743696A - 基于反馈强化学习的信息发布方法、装置及存储介质

Info

Publication number: CN117743696A
Application number: CN202410179128.2A
Authority: CN
Inventors: 廖可欣; 钟岚; 黄云; 邓剑峰; 赵文; 罗博文; 陈大胜; 董晓尚; 张豪; 欧阳�; 杨子豪
Original assignee: Sichuan Daily Network Media Development Co ltd
Current assignee: Sichuan Daily Network Media Development Co ltd
Priority date: 2024-02-18
Filing date: 2024-02-18
Publication date: 2024-03-22
Anticipated expiration: 2044-02-18
Also published as: CN117743696B

Abstract

本发明公开了一种基于反馈强化学习的信息发布方法、装置及存储介质，本发明可大幅减少高准确度的标注数据的数据量以及对领域标注专家的需求，且通过基于奖励模型的强化学习，可在不设计具体判定规则的情况下，使模型最大程度地学习到人类对内容的质量分类，从而大幅提高模型对内容质量分类的准确性；因此，本发明非常适用于在信息发布领域的大规模应用与推广。

Description

基于反馈强化学习的信息发布方法、装置及存储介质

技术领域

本发明属于信息数据处理技术领域，具体涉及一种基于反馈强化学习的信息发布方法、装置及存储介质。

背景技术

互联网已经成为许多人的文化生活的核心，通过BBS、博客、播客等互联网平台，人们不但成为了互联网内容的分享者，更成为了互联网内容的创造者，互联网以信息资源传播为特色，通过互联网媒介，实现关于新闻，影视剧、教育、餐饮、休闲、娱乐等内容的信息播放及互动。

同时，为了避免低质量内容在互联网的传播，业内做法通常是在内容审核和内容推荐平台中加入智能审核机制，即通过分析内容（文本、图片、音频、视频）的质量（是否含有不允许传播的违规内容），对内容进行过滤，从而在实现过滤低质量内容的同时，提升高质量内容的传播。

目前，量化内容质量的现有方法通常是通过分类或者回归任务来实现，对于分类任务，首先需要通过人工标注数据来获得训练集（即人工根据数据内容主观标注，或根据是否含有低质量关键词，来进行标注），最后采用有监督的方式来训练模型；类似地，在回归任务中也需要人工对内容进行标注来获得训练集合，最后同样采用有监督的方式来训练模型；如此，前述现有方法则存在以下不足：（1）对标注数据质量和质量标注员的要求很高，需要大量的高质量人工标注数据才能在真实世界分布中获得比较好的准确率，且人工标注通常带有主观性，容易影响模型结果；（2）现有模型对内容质量分类不够准确，判定效果不佳；基于此，如何提供一种无需大量人工标注数据，且准确率高的信息质量分类方法，已成为一个亟待解决的问题。

发明内容

本发明的目的是提供一种基于反馈强化学习的信息发布方法、装置及存储介质，用以解决现有技术中需要大量人工标注数据，以及质量分类准确率低的问题。

为了实现上述目的，本发明采用以下技术方案：

第一方面，提供了一种基于反馈强化学习的信息发布方法，包括：

获取信息分类模型，其中，所述信息分类模型是利用第一训练集内的若干训练数据中各个训练数据的反馈标注数据，来训练奖励模型，并基于训练后的奖励模型以及第二训练集对调整后的语言模型进行强化训练而得到的，其中，任一训练数据的反馈标注数据是将该任一训练数据输入多个目标分类模型后，根据各个目标分类模型的输出来对比得到的，多个目标分类模型中包括所述调整后的语言模型，所述第一训练集中包含有高质量语料数据集和低质量语料数据集，所述调整后的语言模型是利用第三训练集对预训练语言模型进行模型调整后所得到的，所述第三训练集包含有从第一训练集中采样的若干语料数据，所述第二训练集中包括有高质量语料数据集中的若干高质量语料数据以及第三训练集，且任一低质量语料数据中含有指定关键词集中的至少一个指定关键词，任一高质量语料数据中不含有指定关键词集中任一指定关键词；

获取目标信息，并将所述目标信息输入至所述信息分类模型，以得到目标信息的分类结果；

基于所述分类结果，得到所述目标信息的发布处理结果，以便基于所述发布处理结果，对所述目标信息进行发布，其中，所述发布处理结果包括过滤目标信息或推荐目标信息。

基于上述公开的内容，本发明预先训练有信息分类模型，其中，该信息分类模型主要是利用第一训练集中各个训练数据的反馈标注数据，来训练奖励模型，并基于奖励模型以及第二训练集来对调整后的语言模型进行强化训练而得到的；其中，任一训练数据的反馈标注数据是利用从第一训练集中采样的若干数据，对预训练语言模型进行模型调整后所得到的；基于此，在训练初期，本发明则不使用未训练的语言模型，而是使用预训练语言模型，如此，可减少训练数据的标注阶段，且模型调整实质是监督微调，也就是用第一训练集中的测试数据（第三训练集相当于测试数据）来完成，因此，整个训练过程只需对测试数据进行标注即可，从而可大幅降低人工标注数据的数据量，进而避免传统技术中需要大量的高质量人工标注数据以及因大量人工标注数据所带来人为主观经验对模型训练存在不利影响的问题；同时，在调整预训练语言模型后，利用反馈标注数据来训练奖励模型，并基于奖励模型来训练调整后的语言模型；基于此，利用奖励模型来强化训练该调整后的语言模型，可使模型尽可能像领域专家一样准确地对内容做出质量分类，从而可提高模型输出的准确性。

通过上述设计，在实际应用时，将目标信息直接输入至训练得到的信息分类模型，即可得到该目标信息对应的质量分类结果，从而完成对目标信息的过滤和/或推荐；由此，本发明可大幅减少高准确度标注数据的数据量以及对领域标注专家的需求，且通过基于奖励模型的强化学习，可在不设计具体判定规则的情况下，使模型最大程度地学习到人类对内容的质量分类，从而大幅提高模型对内容质量分类的准确性；因此，本发明非常适用于在信息发布领域的大规模应用与推广。

在一个可能的设计中，在获取信息分类模型前，所述方法还包括：

获取第一训练集，其中，所述第一训练集中包括有高质量语料数据集和低质量语料数据集；

从高质量语料数据集和低质量语料数据集中抽取若干第一语料数据，组成第三训练集；

利用所述第三训练集，调整预训练语言模型，以得到调整后的语言模型；

获取多个目标分类模型，其中，多个目标分类模型中包括所述调整后的语言模型；

从所述第一训练集中选取若干第二语料数据，作为训练数据，并将各个训练数据输入至每个目标分类模型，以得到每个训练数据对应的对比数据，其中，任一训练数据对应的对比数据为该任一训练数据输入至每个目标分类模型后，各个目标分类模型的输出；

基于每个训练数据对应的对比数据，确定出每个训练数据对应的反馈标注数据；

利用每个训练数据对应的反馈标注数据，训练奖励模型，以得到训练后的奖励模型；

从所述高质量语料数据集中随机选取若干高质量语料数据，并利用选取的若干高质量语料数据以及所述第三训练集，组成第二训练集；

基于所述第二训练集和所述训练后的奖励模型，来强化训练调整后的语言模型，以在训练完成后，得到所述信息分类模型，其中，在任一次训练所述调整后的语言模型时，模型的输入包括第二训练集中的一高质量语料数据以及所述第三训练集中的一个第一语料数据。

在一个可能的设计中，基于每个训练数据对应的对比数据，确定出每个训练数据对应的反馈标注数据，包括：

对于任一训练数据，将该任一训练数据对应的对比数据按照分类准确度从高到低的顺序进行排序，得到排序数据序列；

将所述排序数据序列，作为所述任一训练数据对应的反馈标注数据。

在一个可能的设计中，任一训练数据对应的反馈标注数据包括该任一训练数据对应的对比数据，且所述任一训练数据对应的反馈标注数据中的对比数据按照分类准确度从高到低的顺序进行排序；

其中，所述奖励模型的损失函数为：

（1）；

公式（1）中，表示所述奖励模型的损失函数，/>表示期望，/>表示每个训练数据对应的反馈标注数据所组成的数据集，/>表示输入样本集中的一个输入样本，所述输入样本集中包括有各个反馈标注数据对应的训练数据，/>表示/>对应反馈标注数据中的两个数据，/>为0或1，/>的准确度大于/>的准确度，/>表示所述奖励模型的标量输出，/>表示sigmod函数。

在一个可能的设计中，所述信息分类模型的损失函数为：

（2）；

公式（2）中，表示所述信息分类模型的损失函数，/>表示所述信息分类模型的模型参数，/>表示在训练过程中，以所述第二训练集中的若干高质量语料数据以及所述训练后的奖励模型来训练所述信息分类模型时的第一损失函数，/>表示在训练过程中，以所述第二训练集中的第三训练集来训练所述信息分类模型时的第二损失函数，其中，在任一次训练过程中，所述第二训练集中若干高质量语料数据中的任一高质量语料数据以及所述第三训练集中的任一第一语料数据，组成所述任一次训练时的信息分类模型的输入数据。

在一个可能的设计中，所述第一损失函数为：

（3）；

公式（3）中，表示所述第二训练集中若干高质量语料数据组成的数据集，/>为/>中的一个高质量语料数据，/>表示第一损失函数的期望，/>表示所述第一损失函数的期望，符合第二训练集中若干高质量语料数据组成的数据集的数据分布，表示以/>为输入时，所述训练后的奖励模型的输出，/>表示以/>为输入时，所述预训练语言模型的输出，/>表示以/>为输入时，所述调整后的语言模型的输出，表示以/>为输入时，所述信息分类模型的输出，/>表示惩罚系数。

在一个可能的设计中，所述第二损失函数为：

（4）；

公式（4）中，表示所述第二训练集中的第三训练集，/>表示/>中的一个第一语料数据，/>表示以/>为输入时，所述信息分类模型的输出，/>表示所述第二损失函数的期望，/>表示所述第二损失函数的期望，符合第二训练集中的第三训练集的数据分布，/>表示强化训练中的折扣率。

第二方面，提供了一种基于反馈强化学习的信息发布装置，用于执行如第一方面或第一方面中任意一种可能设计的所述基于反馈强化学习的信息发布方法，且装置包括：

模型获取单元，用于获取信息分类模型，其中，所述信息分类模型是利用第一训练集内的若干训练数据中各个训练数据的反馈标注数据，来训练奖励模型，并基于训练后的奖励模型以及第二训练集对调整后的语言模型进行强化训练而得到的，其中，任一训练数据的反馈标注数据是将该任一训练数据输入多个目标分类模型后，根据各个目标分类模型的输出来对比得到的，多个目标分类模型中包括所述调整后的语言模型，所述第一训练集中包含有高质量语料数据集和低质量语料数据集，所述调整后的语言模型是利用第三训练集对预训练语言模型进行模型调整后所得到的，所述第三训练集包含有从第一训练集中采样的若干语料数据，所述第二训练集中包括有高质量语料数据集中的若干高质量语料数据以及第三训练集，且任一低质量语料数据中含有指定关键词集中的至少一个指定关键词，任一高质量语料数据中不含有指定关键词集中任一指定关键词；

分类单元，用于获取目标信息，并将所述目标信息输入至所述信息分类模型，以得到所述目标信息的分类结果；

发表单元，用于基于所述分类结果，得到所述目标信息的发布处理结果，以便基于所述发布处理结果，对所述目标信息进行发布，其中，所述发布处理结果包括过滤目标信息或推荐目标信息。

第三方面，提供了另一种基于反馈强化学习的信息发布装置，以装置为电子设备为例，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面或第一方面中任意一种可能设计的所述基于反馈强化学习的信息发布方法。

第四方面，提供了一种存储介质，所述存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面或第一方面中任意一种可能设计的所述基于反馈强化学习的信息发布方法。

第五方面，提供了一种包含指令的计算机程序产品，当指令在计算机上运行时，使所述计算机执行如第一方面或第一方面中任意一种可能设计的所述基于反馈强化学习的信息发布方法。

有益效果：

（1）本发明可大幅减少高准确度标注数据的数据量以及对领域标注专家的需求，且通过基于奖励模型的强化学习，可在不设计具体判定规则的情况下，使模型最大程度地学习到人类对内容的质量分类，从而大幅提高模型对内容质量分类的准确性；因此，本发明非常适用于在信息发布领域的大规模应用与推广。

附图说明

图1为本发明实施例提供的基于反馈强化学习的信息发布方法的步骤流程示意图；

图2为本发明实施例提供的基于反馈强化学习的信息发布装置的结构示意图；

图3为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍，显而易见地，下面关于附图结构的描述仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。

应当理解，尽管本文可能使用术语第一、第二等等来描述各种单元，但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

实施例：

参见图1所示，本实施例所提供的基于反馈强化学习的信息发布方法，可大幅减少高准确度的标注数据的数据量以及对领域标注专家的需求，且通过基于奖励模型的强化学习，可在不设计具体判定规则的情况下，使模型最大程度地学习到人类对内容的质量判定，从而大幅提高模型对内容质量分类的准确性；因此，本方法非常适用于在信息发布领域的大规模应用与推；其中，举例本方法可以但不限于在信息发布端侧运行，可选的，信息发布端可以但不限于为个人电脑（personal computer，PC）、平板电脑或智能手机，可以理解的，前述执行主体并不构成对本申请实施例的限定，相应的，本方法的运行步骤可以但不限于如下述步骤S1～S3所示。

S1. 获取信息分类模型，其中，所述信息分类模型是利用第一训练集内的若干训练数据中各个训练数据的反馈标注数据，来训练奖励模型，并基于训练后的奖励模型以及第二训练集对调整后的语言模型进行强化训练而得到的，其中，任一训练数据的反馈标注数据是将该任一训练数据输入多个目标分类模型后，根据各个目标分类模型的输出来对比得到的，多个目标分类模型中包括所述调整后的语言模型，所述第一训练集中包含有高质量语料数据集和低质量语料数据集，所述调整后的语言模型是利用第三训练集对预训练语言模型进行模型调整后所得到的，所述第三训练集包含有从第一训练集中采样的若干语料数据，所述第二训练集中包括有高质量语料数据集中的若干高质量语料数据以及第三训练集，且任一低质量语料数据中含有指定关键词集中的至少一个指定关键词，任一高质量语料数据中不含有指定关键词集中任一指定关键词；在本实施例中指定关键词集中则包含有用于表征低质量语料的关键词，如互联网平台上所限制的违规词语，以及与各个违规词语具有相同或近似语义的词语；当然，前述指定关键词可通过大数据进行爬取获得。

在本实施例中，是通过获取预训练语言模型，然后依次对预训练语言模型进行监督微调、反馈标注、奖励模型训练以及强化学习；如此，经过前述处理后，即可得到准确率高的信息分类模型；其中，下述公开前述信息分类模型的其中一种训练方法，可以但不限于如下述步骤A～I所示。

获取第一训练集，其中，所述第一训练集中包括有高质量语料数据集和低质量语料数据集；在本实施例中，高质量语料数据集和低质量语料数据集可从已知数据库或互联网平台中爬取；同时，在获取到第一训练集后，需要对部分高质量语料数据进行人工标注，标注的样本格式可以但不限于为：（文本内容，质量分类（采用1表示，1表示高质量）），更进一步的，也需要对低质量语料数据进行人工标注（当然，用0表示低质量），从而便于后续对预训练语言模型进行监督微调；另外，在本实施例中，举例高质量语料数据的总数量可以但不限于为15K-100K，而低质量语料数据的总数据量则可以但不限于为1K-10K；当然，前述语料数据的数据量大小，可根据实际使用而具体设定，在此不作限定。同时，举例人工标注可以但不限于为：将需要标注的语料数据在标注页面进行展示，其中，每页标注页面展示10条语料数据；而后，响应于人工交互操作时，得到标注页面中每条语料数据的质量分类结果；如此，重复前述步骤，即可完成所有待标注语料数据的标注。

在得到第一训练集后，则可从该第一训练集中选取出若干语料数据，来进行预训练语言模型的监督微调；其中，监督微调过程如下述步骤B和步骤C所示。

从高质量语料数据集和低质量语料数据集中抽取若干第一语料数据，组成第三训练集；在本实施例中，是从高质量预料数据集中进行标注了的若干高质量语料数据中提取出若干第一语料数据，以及从低质量语料数据集中抽取若干第一语料数据，来组成第三训练集；而在得到第三训练集后，则可使用第三训练集来对预训练模型进行监督微调，其中，模型调整过程如下述步骤C所示。利用所述第三训练集，调整预训练语言模型，以得到调整后的语言模型；在本实施例中，第三训练集相当于为第一训练集中的测试数据，即使用测试数据，来对预训练语言模型进行监督微调；其中，利用测试数据来进行模型监督微调，为模型调参中的常用技术手段，其原理不再赘述；同时，举例预训练语言模型可以但不限于采用Bert模型、GPT3模型或Ernie 3.0模型等；当然，前述预训练语言模型可根据实际使用而选择，在此不限定于前述举例。在完成预训练语言模型的监督微调后，则可进行反馈标注，其中，反馈标注过程可以但不限于如下述步骤D～F所示。

获取多个目标分类模型，其中，多个目标分类模型中包括所述调整后的语言模型；在具体应用时，多个目标分类模型可以但不限于包括有前述调整后的语言模型，以及外部开源模型，如ChatGPT模型和ChatGLM模型等。在得到各个目标分类模型后，即可从第一训练集中选取若干第二语料数据，来输入各个目标分类模型中，以得到多个语言模型（即目标分类模型）生成的对同一内容的分类结果；而后，即可基于同一内容的多个分类结果，来得出该同一内容的反馈标注数据，其中，反馈标注数据的具体获取过程如下述步骤E和步骤F所示。

从所述第一训练集中选取若干第二语料数据，作为训练数据，并将各个训练数据输入至每个目标分类模型，以得到每个训练数据对应的对比数据，其中，任一训练数据对应的对比数据为该任一训练数据输入至每个目标分类模型后，各个目标分类模型的输出，且任一训练数据输入至任一目标分类模型后，该任一目标分类模型的输出为所述任一训练数据的质量分类结果量化值，即1或0；如此，前述各个目标分类模型相当于是提取出各个训练数据中的关键词，并基于关键词来进行语义特征提取；而后，根据提取的语义特征，来进行质量分类；通俗理解则是：若任一训练数据中包含有指定关键词中至少一个指定关键词和/或包含与各个指定关键词具有相同语义的关键词，则分类为低质量，也就是输出结果为0。基于每个训练数据对应的对比数据，确定出每个训练数据对应的反馈标注数据；在本实施例中，以任一训练数据为例，来阐述其对应反馈标注数据的获取过程，即对于任一训练数据，先将该任一训练数据对应的对比数据按照分类准确度从高到低的顺序进行排序，得到排序数据序列；而后，则可将所述排序数据序列，作为所述任一训练数据对应的反馈标注数据；更进一步的，可将该任一训练数据对应的对比数据进行可视化展示，以便领域专家对该任一训练数据对应的对比数据进行准确度排序；如此，信息发布端在响应于领域专家的人机交互操作时，则可获取前述任一训练数据的排序数据序列。如此，通过前述步骤E和F，则可得出每个训练数据的反馈标注数据；在得到各个训练数据的反馈标注数据后，即可用各个反馈标注数据，来训练奖励模型，以便后续基于奖励模型，来强化训练调整后的语言模型；其中，奖励模型的训练过程如下述步骤G所示。

利用每个训练数据对应的反馈标注数据，训练奖励模型，以得到训练后的奖励模型；在本实施例中，为了使奖励模型具备基本的内容理解能力，其采用了与预训练语言模型相同的模型结构，且在预训练语言模型的基础上，增加了单层线性层，以输出奖励得分。具体的，举例所述奖励模型的损失函数可以但不限于如下述公式（1）所示。

（1）；

公式（1）中，表示所述奖励模型的损失函数，/>表示期望，/>表示每个训练数据对应的反馈标注数据所组成的数据集，/>表示输入样本集中的一个输入样本，所述输入样本集中包括有各个反馈标注数据对应的训练数据，/>表示/>对应反馈标注数据中的两个数据，/>为0或1，/>的准确度大于/>的准确度，/>表示所述奖励模型的标量输出，表示sigmod函数。

如此，相当于用各个训练数据的反馈标注数据（即多个目标分类模型的输出排序结果）作为训练数据，通过公式（1）来训练出一个奖励模型，如此，该训练后的奖励模型相当于就学习到了人类的质量判定准则，从而用于后续的强化学习环节。

在具体实施时，举例利用奖励模型，来对调整后的语言模型进行强化学习的过程，可以但不限于如下述步骤H和步骤I所示。

从所述高质量语料数据集中随机选取若干高质量语料数据，并利用选取的若干高质量语料数据以及所述第三训练集，组成第二训练集；在本实施例中，相当于强化学习时所使用的训练集包括有监督微调环节时所使用的数据，以及随机选取的若干高质量语料数据；可选的，举例可从高质量语料数据集中选取10K的数据，来用于调整后的语言模型的强化学习。在得到用于强化学习的训练集后，则可结合训练后的奖励模型，来进行调整后的语言模型的强化学习，如下述步骤I所示。

基于所述第二训练集和所述训练后的奖励模型，来强化训练调整后的语言模型，以在训练完成后，得到所述信息分类模型，其中，在任一次训练所述调整后的语言模型时，模型的输入包括第二训练集中的一高质量语料数据以及所述第三训练集中的一个第一语料数据；在本实施例中，该步骤的目的是训练强化学习中的策略（policy），即调整后的语言模型，目的是让策略模型尽可能地像人类（领域专家）一样准确地对内容做出质量判定。在本实施例中，一次训练具备有两个输入，即第二训练集中的一高质量语料数据以及所述第三训练集中的一个第一语料数据；因此，本实施例所提供的信息分类模型的损失函数则由两部分构成，其中，举例信息分类模型的损失函数可以但不限于如下述公式（2）所示。

（2）；

公式（2）中，表示信息分类模型的损失函数，/>表示所述信息分类模型的模型参数，/>表示在训练过程中，以所述第二训练集中的若干高质量语料数据以及所述训练后的奖励模型来训练所述信息分类模型时的第一损失函数，/>表示在训练过程中，以所述第二训练集中的第三训练集来训练所述信息分类模型时的第二损失函数，其中，在任一次训练过程中，所述第二训练集中若干高质量语料数据中的任一高质量语料数据以及所述第三训练集中的任一第一语料数据，组成所述任一次训练时的信息分类模型的输入数据。

可选的，举例所述第一损失函数可以但不限于如下述公式（3）所示。

（3）；

公式（3）中，表示所述第二训练集中若干高质量语料数据组成的数据集，/>为/>中的一个高质量语料数据，/>表示第一损失函数的期望，/>表示所述第一损失函数的期望，符合第二训练集中若干高质量语料数据组成的数据集的数据分布，表示以/>为输入时，所述训练后的奖励模型的输出，/>表示以/>为输入时，所述预训练语言模型的输出，/>表示以/>为输入时，所述信息分类模型的输出，/>表示惩罚系数。

第一损失函数的期望，计算的其实是所有训练数据（即前述第二训练集中若干高质量语料数据组成的数据集中的各个数据）的损失函数，也叫代价函数，其是对所有训练数据的损失函数求和，再取均值。

同理，举例第二损失函数则可以但不限于如下述公式（4）所示。

（4）；

如此，即可利用该损失函数，来对调整后的语言模型进行强化学习，从而在训练完成后，得到信息分类模型。

由此通过前述步骤A～I，完成预训练语言模型的监督微调、反馈标注、奖励模型训练以及强化学习，得到信息分类模型后，即可进行目标信息的质量分类，以便后续基于分类结果，来对目标信息进行发布处理；其中，分类过程如下述步骤S2所示。

S2. 获取目标信息，并将所述目标信息输入至所述信息分类模型，以得到所述目标信息的分类结果；在本实施例中，目标信息的分类结果也是一个量化值，即0或1,1表示目标信息为高质量内容，0则表示为低质量内容；同时，信息分类模型与前述目标分类模型的工作原理相同，均是提取出目标信息中的关键词，并基于关键词来进行语义特征提取；而后，根据提取的语义特征，来进行质量分类的。

在得到目标信息的分类结果后，则可进行目标信息的发布处理，如下述步骤S3所示。

S3. 基于所述分类结果，得到所述目标信息的发布处理结果，以便基于所述发布处理结果，对所述目标信息进行发布，其中，所述发布处理结果包括过滤目标信息或推荐目标信息；在本实施例中，若目标信息的分类结果为1，则生成发布处理结果为推荐目标信息发表；反之，为0，则生成发布处理结果为过滤目标信息。

由此通过前述步骤S1～S3所详细描述的基于反馈强化学习的信息发布方法，本发明可大幅减少高准确度的标注数据的数据量以及对领域标注专家的需求，且通过基于奖励模型的强化学习，可在不设计具体判定规则的情况下，使模型最大程度地学习到人类对内容的质量分类，从而大幅提高模型对内容质量分类的准确性；因此，本发明非常适用于在信息发布领域的大规模应用与推广。

在一个可能的设计中，本实施例第二方面提供实施例第一方面的信息分类模型的另一种应用场景，即进行主流价值观判定。

具体的，高质量语料数据则变为价值观符合规定的语料数据，而低质量语料数据则是价值观不符合规定的语料数据；高质量语料数据集和低质量语料数据集可从已知数据库中爬取，即爬取现有互联网平台对价值审核通过的数据，以及价值审核不通过的数据；当然，需要对部分高质量语料数据进行人工标注，标注的样本格式可以但不限于为：（文本内容，价值分数），分数越高，代表价值越大；更进一步的，也需要对低质量语料数据进行人工标注，从而便于后续对预训练语言模型进行监督微调。

在得到前述高质量预料数据集和低质量语料数据集后，则可进行信息分类模型的训练，其训练过程可参见前述步骤A～I所示，其原理不再赘述。

最后，将待发布内容输入至信息分类模型中，即可得到待发布内容的价值观评分，该价值管评分也是一个量化值，其取值范围为0-100；当然，分数越高，价值越大；如此，即可根据模型输出的评分，来进行待发布内容的过滤，从而在实现过滤低主流价值内容的同时，提升高主流价值内容的传播。

由此通过前述模型在主流价值判定领域的应用，可大幅减少价值观高质量标注数据的数据量以及对价值观领域标注专家的需求，且通过基于奖励模型的强化学习，可在不设计具体判定规则的情况下，使模型最大程度地学习到人类对内容的价值判定，从而大幅提高模型对内容价值评价的准确性。

如图2所示，本实施例第三方面提供了一种实现实施例第一方面中所述的基于反馈强化学习的信息发布方法的硬件装置，包括：

模型获取单元，用于获取信息分类模型，其中，所述信息分类模型是利用第一训练集内的若干训练数据中各个训练数据的反馈标注数据，来训练奖励模型，并基于训练后的奖励模型以及第二训练集对调整后的语言模型进行强化训练而得到的，其中，任一训练数据的反馈标注数据是将该任一训练数据输入多个目标分类模型后，根据各个目标分类模型的输出来对比得到的，多个目标分类模型中包括所述调整后的语言模型，所述第一训练集中包含有高质量语料数据集和低质量语料数据集，所述调整后的语言模型是利用第三训练集对预训练语言模型进行模型调整后所得到的，所述第三训练集包含有从第一训练集中采样的若干语料数据，所述第二训练集中包括有高质量语料数据集中的若干高质量语料数据以及第三训练集，且任一低质量语料数据中含有指定关键词集中的至少一个指定关键词，任一高质量语料数据中不含有指定关键词集中任一指定关键词。

分类单元，用于获取目标信息，并将所述目标信息输入至所述信息分类模型，以得到所述目标信息的分类结果。

本实施例提供的装置的工作过程、工作细节和技术效果，可以参见实施例第一方面，于此不再赘述。

如图3所示，本实施例第四方面提供了另一种基于反馈强化学习的信息发布装置，以装置为电子设备为例，包括：依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如实施例第一方面所述的基于反馈强化学习的信息发布方法。

具体举例的，所述存储器可以但不限于包括随机存取存储器（random accessmemory，RAM）、只读存储器（Read Only Memory ，ROM）、闪存（Flash Memory）、先进先出存储器（First Input First Output，FIFO）和/或先进后出存储器（First In Last Out，FILO）等等；具体地，处理器可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现，同时，处理器也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。

在一些实施例中，处理器可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制，例如，所述处理器可以不限于采用型号为STM32F105系列的微处理器、精简指令集计算机（reduced instruction setcomputer,RISC）微处理器、X86等架构处理器或集成嵌入式神经网络处理器（neural-network processing units，NPU）的处理器；所述收发器可以但不限于为无线保真（WIFI）无线收发器、蓝牙无线收发器、通用分组无线服务技术（General Packet Radio Service，GPRS）无线收发器、紫蜂协议（基于IEEE802.15.4标准的低功耗局域网协议，ZigBee）无线收发器、3G收发器、4G收发器和/或5G收发器等。此外，所述装置还可以但不限于包括有电源模块、显示屏和其它必要的部件。

本实施例提供的电子设备的工作过程、工作细节和技术效果，可以参见实施例第一方面，于此不再赘述。

本实施例第五方面提供了一种存储包含有实施例第一方面所述的基于反馈强化学习的信息发布方法的指令的存储介质，即所述存储介质上存储有指令，当所述指令在计算机上运行时，执行如实施例第一方面所述的基于反馈强化学习的信息发布方法。

其中，所述存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

本实施例提供的存储介质的工作过程、工作细节和技术效果，可以参见实施例第一方面，于此不再赘述。

本实施例第六方面提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如实施例第一方面所述的基于反馈强化学习的信息发布方法，其中，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于反馈强化学习的信息发布方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在获取信息分类模型前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，基于每个训练数据对应的对比数据，确定出每个训练数据对应的反馈标注数据，包括：

4.根据权利要求2所述的方法，其特征在于，任一训练数据对应的反馈标注数据包括该任一训练数据对应的对比数据，且所述任一训练数据对应的反馈标注数据中的对比数据按照分类准确度从高到低的顺序进行排序；

其中，所述奖励模型的损失函数为：

（1）；

5.根据权利要求2所述的方法，其特征在于，所述信息分类模型的损失函数为：

（2）；

公式（2）中，表示所述信息分类模型的损失函数，/>表示所述信息分类模型的模型参数，/>表示在训练过程中，以第二训练集中的若干高质量语料数据以及所述训练后的奖励模型来训练所述信息分类模型时的第一损失函数，/>表示在训练过程中，以所述第二训练集中的第三训练集来训练所述信息分类模型时的第二损失函数，其中，在任一次训练过程中，所述第二训练集中若干高质量语料数据中的任一高质量语料数据以及所述第三训练集中的任一第一语料数据，组成所述任一次训练时的信息分类模型的输入数据。

6.根据权利要求5所述的方法，其特征在于，所述第一损失函数为：

（3）；

公式（3）中，表示所述第二训练集中若干高质量语料数据组成的数据集，/>为/>中的一个高质量语料数据，/>表示第一损失函数的期望，/>表示所述第一损失函数的期望，符合第二训练集中若干高质量语料数据组成的数据集的数据分布，/>表示以为输入时，所述训练后的奖励模型的输出，/>表示以/>为输入时，所述预训练语言模型的输出，/>表示以/>为输入时，所述调整后的语言模型的输出，/>表示以/>为输入时，所述信息分类模型的输出，/>表示惩罚系数。

7.根据权利要求5所述的方法，其特征在于，所述第二损失函数为：

（4）；

8.一种基于反馈强化学习的信息发布装置，用于执行如权利要求1～7任意一项所述的基于反馈强化学习的信息发布方法，其特征在于，包括：

发表单元，用于基于所述分类结果，得到所述目标信息的发布处理结果，以便基于所述发布处理结果，对所述目标信息进行发发布，其中，所述发布处理结果包括过滤目标信息或推荐目标信息。

9.一种基于反馈强化学习的信息发布装置，其特征在于，包括：依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如权利要求1～7任意一项所述的基于反馈强化学习的信息发布方法。

10.一种存储介质，其特征在于，所述存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～7任意一项所述的基于反馈强化学习的信息发布方法。