CN117035074B

CN117035074B - 基于反馈强化的多模态知识生成方法及装置

Info

Publication number: CN117035074B
Application number: CN202311286288.9A
Authority: CN
Inventors: 漆舒汉; 曹正英; 张加佳; 王轩
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date: 2023-10-08
Filing date: 2023-10-08
Publication date: 2024-02-13
Anticipated expiration: 2043-10-08
Also published as: CN117035074A

Abstract

本发明公开了一种基于反馈强化的多模态知识生成方法及装置，包括：构建多模态模型，在多模态知识生成任务中将人类反馈引入所述多模态模型，形成的监督数据用于训练预先设立的奖励回报模型；将所述监督数据输入奖励回报模型进行训练，使得奖励回报模型从所述监督数据中学习到人类的理解；利用内外探索相结合的强化学习方法微调所述多模态模型，使得多模态模型能够学习到人类偏好，生成更自然的知识；本发明具有人类反馈知识的强化学习方法应用于多模态知识生成任务中，解决了多模态知识生成任务缺乏人类反馈监督的不足，并引入基于内外探索相结合的强化学习微调技术，有效缓解多奖励稀疏问题。

Description

基于反馈强化的多模态知识生成方法及装置

技术领域

本发明属于知识生成任务的技术领域，具体涉及一种基于反馈强化的多模态知识生成方法及装置。

背景技术

目前基于人类反馈的模型微调方法主要为基于人类反馈的强化学习的单模态语言模型微调方法。基于人类反馈的强化学习的单模态语言模型微调方法目前只针对语言模型，将人工偏好的知识融入语言模型的训练之中，以此构造一个带有人类偏好的文本生成模型。在微调的过程中，采用强化学习的方法，通过对模型的输出结果进行评估，以及对人类反馈信息的分析，来指导语言模型的优化和调整。这种方法可以提高模型的性能和稳定性，同时也可以加强语言模型对人类语言的理解。基于人类反馈的强化学习的单模态语言模型微调方法可以学习语言模态的人类反馈信息，但是语言模型只能接受文本输出，生成文本知识，具有模态唯一的限制。而为了更加贴合人类的感知方式，要求模型同时接受语言和视觉的输入。此外，为了符合人类的需求，特定的领域任务中，需要模型生成语言知识和视觉知识。多模态知识生成旨在将不同模态的信息进行融合，并按照任务需求生成图像和文本内容。在多模态模型知识生成任务中引入人类反馈，并设计强化学习算法对模型进行微调是一项还待解决的难题。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于反馈强化的多模态知识生成方法及装置，在多模态模型知识生成任务中，引入关于多模态知识的人类反馈，设计训练奖励回报模型学习人类反馈，再使用内外探索的强化学习算法对多模态预训练模型进行微调，通过学习能够使其生成内容与人类偏好对齐。

为了达到上述目的，本发明采用以下技术方案：

第一方面，本发明提供了一种基于反馈强化的多模态知识生成方法，包括下述步骤：

构建多模态模型，所述多模态模型的输入为文本信息和图像信息；在多模态知识生成任务中将人类反馈引入所述多模态模型，所述人类反馈为基于排序的人工打分机制，即为多模态模型的输出结果排序打分并进行标注，形成的监督数据用于训练预先设立的奖励回报模型；

将所述监督数据输入奖励回报模型进行训练，使得奖励回报模型从所述监督数据中学习到人类的理解，进而学习到符合人类需求的奖励信号用于训练更优的奖励回报模型；基于多模态排序的排序损失、模态间的分布损失及对比学习的相似度损失更新所述奖励回报模型；所述多模态排序的排序损失用于表征奖励回报模型对于多模态模型输出的k个答案在排序打分中靠前的答案给出更高的分数值；所述对比学习的相似度损失用于表征生成的同一组图-文多模态数据之间的相似性；所述模态间的分布损失用于表征多模态模型的多个输出在标注排序中位序的一致性；

利用内外探索相结合的强化学习方法微调所述多模态模型，使得多模态模型能够学习到人类偏好，生成更自然的知识；所述内外探索具体为：对于图像信息，使用内在奖励对于图像的生成进行激励，对于文本信息则采用样本层面的外在奖励，使得文本信息匹配图像信息；所述强化学习方法是在每一步生成过程中，根据当前的状态和策略，选择一个动作并执行，然后根据执行后的结果获得一个奖励信号，所述奖励信号用于调整多模态模型的策略。

作为优先的技术方案，所述多模态模型包括第一文本编码器、第一图像编码器、第一文本解码器和第一图像解码器，将文本信息和图像信息作为多模态模型的输入，第一文本编码器提取文本特征，得到第一文本编码，第一图像编码器提取图像特征，得到第一图像编码，再通过融合模型对齐文本和图像空间，最后通过第一图像解码器和第一文本解码器分别生成图像和文本。

作为优先的技术方案，所述奖励回归模型包括第二文本编码器和第二图像编码器，将多模态模型生成的图像和文本作为奖励回归模型的输入，经过第二图像编码器得到第二图像编码，经过第二文本编码器得到第二文本编码，然后在RM Linear处引入人类反馈，得到最终的奖励回报模型的损失。

作为优先的技术方案，所述基于多模态排序的排序损失函数定义如下：

；

其中，x代表从微调数据集中采样出来的Prompt，y代表图像打分分布，z代表文本打分分布，代表对于该Prompt打分人员给出的排序序列中更好的答案，/>则代表排序序列中排序低的答案，/>代表奖励回报模型，其中θ是模型参数，D是数据集，K是每个batch中样本的数目；

所述基于模态间的分布损失函数定义如下：

；

其中，y代表图像打分分布，z代表文本打分分布，由于优化目标是最小化图像标注序列分布与文本标注序列分布之间的差异，所以这分布损失与目标优化方向一致；

所述对比学习的相似度损失函数定义如下：

；

其中s(q _i ,k _i)是图像q _i和文本k _i的匹配分数，(q _i ,k _i)是匹配的图文对，s(q _i ,k _m)是图像q _i和文本k _m的匹配分数，在实现中把奖励模型分数最高的一对数据作为匹配的图文对。

作为优先的技术方案，所述奖励回报模型的训练过程如下：

从预训练数据集中采样Prompt样本输入进预训练多模态模型，输出k个答案的文本和图像；

打分人员分别为文本和图像进行排序打分，形成排序标签数据用于训练奖励回报模型；

利用打分人员的标注数据，以回归监督的方式训练奖励回报模型，使得奖励回报模型对于图像与文本输出的奖励值序列与打分人员标注的排序序列一致。

作为优先的技术方案，所述利用强化学习微调多模态模型，具体为：

构建分布式强化学习训练框架，包括行动者、工作者、经验缓冲池和全局学习者，所述行动者负责与奖励回报模型交互，决策则由工作者负责，不同的行动者交互的奖励回报模型完全独立，工作者负责一定数量的行动者，当从行动者处获得信息后，工作者内置的前向智能体决策网络进行决策后将动作传递给行动者从而让行动者与奖励回报模型进行下一步的交互；但是，工作者中的前向智能体决策网络并不参与训练，而是定期从全局学习者中的训练网络中同步参数；所述经验缓冲池用于将行动者与奖励回报模型完成一轮交互后产生的轨迹数据存放，以用于给全局学习者训练使用；所述经验缓冲池内置的选择模块用于计算外在奖励的产生，即为每个轨迹数据计算优先级以及重要性因子；所述全局学习者不断的从中采样批量数据进行训练，并定期的将最近的网络参数通过共享内存同步给工作者中的智能体决策网络；

所述外在奖励是基于样本数据在探索空间内的优先级和样本数据的重要性因子计算得到；所述优先级用于计算样本数据在探索空间内的优先等级，优先级越大则说明样本数据的可利用价值越高，越应该多使用该样本训练模型从而加强模型的拟合能力；所述重要性因子则代表了该样本的重要性程度，从多方面权衡了样本的重要性，具体为利用次数、产生轮数差、累积折扣分数和文本长度；

所述内在奖励用于使得设立的内在奖励模型在图像空间中产生更多样的奖励信号丰富的图像内容。

作为优先的技术方案，所述内在奖励模型包括目标模块和预测模块；

所述目标模块是一个随机初始化并且固定参数的神经网络，接收图像输入后，输出一个分数奖励值，并且在确保图像输入不变的情况下，输出值是固定的；

所述预测模块用于计算当前图像输入的不确定性程度，即预测模块接收和目标模块相同的图像输入，输出一个分数奖励值，该分数奖励值随着神经网络的训练会发生变化。

第二方面，本发明提供了一种基于反馈强化的多模态知识生成系统，应用于所述的基于反馈强化的多模态知识生成方法，包括多模态模型构建模块、奖励回报模型训练模块以及多模态模型微调模块；

所述多模态模型构建模块，用于构建多模态模型，所述多模态模型的输入为文本信息和图像信息；在多模态知识生成任务中将人类反馈引入所述多模态模型，所述人类反馈为基于排序的人工打分机制，即为多模态模型的输出结果排序打分并进行标注，形成的监督数据用于训练预先设立的奖励回报模型；

所述奖励回报模型训练模块，用于将所述监督数据输入奖励回报模型进行训练，使得奖励回报模型从所述监督数据中学习到人类的理解，进而学习到符合人类需求的奖励信号用于训练更优的奖励回报模型；基于多模态排序的排序损失、模态间的分布损失及对比学习的相似度损失更新所述奖励回报模型；所述多模态排序的排序损失用于表征奖励回报模型对于多模态模型输出的k个答案在排序打分中靠前的答案给出更高的分数值；所述对比学习的相似度损失用于表征生成的同一组图-文多模态数据之间的相似性；所述模态间的分布损失用于表征多模态模型的多个输出在标注排序中位序的一致性；

所述多模态模型微调模块，用于利用内外探索相结合的强化学习方法微调所述多模态模型，使得多模态模型能够学习到人类偏好，生成更自然的知识；所述内外探索具体为：对于图像信息，使用内在奖励对于图像的生成进行激励，对于文本信息则采用样本层面的外在奖励，使得文本信息匹配图像信息；所述强化学习方法是在每一步生成过程中，根据当前的状态和策略，选择一个动作并执行，然后根据执行后的结果获得一个奖励信号，所述奖励信号用于调整多模态模型的策略。

第三方面，本发明提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的基于反馈强化的多模态知识生成方法。

第四方面，本发明提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现所述的基于反馈强化的多模态知识生成方法。

本发明与现有技术相比，具有如下优点和有益效果：

本发明首次将具有人类反馈知识的强化学习方法应用于多模态知识生成任务中，解决了多模态知识生成任务缺乏人类反馈监督的不足，并引入基于内外探索相结合的强化学习微调技术，有效缓解多奖励稀疏问题。在面向特定领域的多模态生成任务中，首先引入人类对生成内容的评估信息，训练奖励回报模型，然后通过强化学习微调多模态模型，引导模型学习人类偏好，生成符合人类需求的结果。

本发明设计基于人类反馈的强化学习的多模态模型微调方法，在多模态模型知识生成任务中，引入关于多模态知识的人类反馈，设计训练奖励回报模型学习人类反馈，再使用内外探索的强化学习算法对多模态预训练模型进行微调。本方法主要尝试解决多模态模型引入人类反馈的强化学习算法的研究空缺，提升多模态模型知识生成的自然性、有效性和无害性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例面向特定领域的内容生成技术整体框架图；

图2为本发明实施例基于反馈强化的多模态知识生成方法的流程图；

图3为本发明实施例多模态模型网络结构设计图；

图4为本发明实施例奖励回报模型网络结构设计图；

图5为本发明实施例奖励回报模型训练流程图；

图6为本发明实施例分布式训练框架图；

图7为本发明实施例有意义结构示意图；

图8为本发明实施例基于反馈强化的多模态知识生成系统的方框图。

图9为本发明实施例电子设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

本发明是应用在知识生成任务中的一种基于反馈强化的多模态知识生成技术。本方法在多模态模型知识生成任务中，引入关于多模态知识的人类反馈，设计训练奖励回报模型学习人类反馈，再使用内外探索的强化学习算法对多模态预训练模型进行微调，使得多模态模型经过学习能够使其生成内容与人类偏好对齐，具备有用、真实和无害的特性。

如图1所示，本发明整体的训练流程分为三部分：人工排序打分机制、奖励回报模型训练阶段以及强化学习微调阶段。

本发明引入基于排序的人工打分机制；具体来说，从预训练数据集中随机采样提示，在模型输出图像数据与文本数据后，令专业的打分人员为这些生成数据进行排序打分，从而使得数据的排序结果基于人类的理解与偏好。

奖励回报模型的训练阶段在基于人工打分机制的基础上，将具有人类标注的排序数据输入奖励回报模型中，使得奖励回报模型能够从这些数据中学习到人类的理解，进而学习到符合人类需求的奖励信号用于训练更优的模型。

最后在强化学习微调阶段，本项目拟引入基于内外探索相结合的强化学习的知识生成技术，使用内外探索强化学习算法以及奖励回报模型对预训练模型进行微调，从而使得模型向更符合人类标准与需求的方向优化，最终生成一个足够优秀的模型来满足面向特定领域的内容生成与知识生成任务。

示例性的，图1中鸟儿图像的打分从高到低依次为：A＞D＞C＞B；而文本的打分从高到低依次为：A＞B＞C＞D，将排序打分的结果引入奖励回报模型中。奖励回报模型将奖励信号反馈到强化学习训练阶段，对文本和图像进行进一步得的处理，最终输出鸟儿和文本的信息。

如图2所示，本实施例一种基于反馈强化的多模态知识生成方法，包括下述步骤：

S1、构建多模态模型，所述多模态模型的输入为文本信息和图像信息；在多模态知识生成任务中将人类反馈引入所述多模态模型，所述人类反馈为基于排序的人工打分机制，即为多模态模型的输出结果排序打分并进行标注，形成的监督数据用于训练预先设立的奖励回报模型。

可选的，所述多模态模型网络结构设计如图3所示，多模态模型的输入可以为图像和文本两个模态的信息，输出为模型的生成的图像和文本。多模态模型的CLIP 文本编码器提取文本特征，得到文本编码Ic，CLIP 图像编码器提取图像特征，得到图像编码Tc，再通过Fusion Model对齐文本和图像空间，最后通过图像解码器和文本解码器分别生成图像和文本。

多模态模型各个模块的具体设置如下表1所示，本发明追求能充分的对齐模型的图像和文本。

表1

可选的，所述奖励回报模型网络结构设计如图4所示，该模型的输入为多模态模型生成的图像和文本，经过图像编码器得到图像编码，经过文本编码器得到文本编码，然后在RM Linear处引入人类反馈，得到最终的奖励回报模型的loss。

奖励回报模型各个模块的具体设置如下表2所示，奖励回报模型是为了更好的融合人类反馈信息到多模态模型生成的知识中。

表2

进一步的，基于排序的人工打分机制具体如下：

为了使预训练模型能够获得一定的人类的理解与偏好、理解生成式任务、生成符合人类价值观和道德标准的多模态内容，本项目拟通过邀请专业的打分人员来为模型的输出结果，包括图像数据和文本数据进行打分，从而形成监督数据用于训练奖励回报模型，进而使用强化学习方法对预训练模型进行微调，得到符合人类需求的模型。

由于每个打分人员具有不同的偏好以及不同的经验和知识储备，所以即便是商讨出了统一的打分标准，对于同一条数据不会出现一个打分人员给出很高的分数而另一个打分人员给出很低的分数这种极端情况，但是还是会出现打分的数值会有差值的普遍情况。同时，对于打分人员来说，直接给出分数值这样的标注任务是很困难的，尤其是在多模态领域，图像和文本之间具有关联性，很难直接给出一个标量值从而界定多模态数据的好坏。

为了避免上述情况对于模型训练的负面影响，本项目拟采用排序打分机制，而不是直接进行数值打分。例如对于五条数据样本，打分人员会给出一个统一的排序，排序在最前的则说明打分人员认为这条数据样本是这五个中最好的样本，排在最后的样本则是最差的样本。这样做的好处是对于已经有统一的打分标准的打分人员们来说，几乎可以形成完全一致的标注答案。同时这样做也极大的降低了标注任务的难度，在相同的人力资源下可以标注更多的人类反馈数据，进而增强奖励回报模型对人类信号的拟合能力。

值得注意的是，为了解决不同模态之间内容之间的差异难以直接评估的问题，并且降低打分人员标注任务的难度，本项目拟采取独立假设，即只需要对单一模态的生成内容进行单独排序打分，例如单独对图像模态进行排序打分，单独对文本模态进行排序打分。不同模态之间的关联则是通过奖励回报模型的学习得出，并将模态间的差异作为损失信号反馈给模型，在不忽略模态间差异化与关联性的基础之上，最大化简化打分标注任务。

S2、将所述监督数据输入奖励回报模型进行训练，使得奖励回报模型从所述监督数据中学习到人类的理解，进而学习到符合人类需求的奖励信号用于训练更优的奖励回报模型；基于多模态排序的排序损失、模态间的分布损失及对比学习的相似度损失更新所述奖励回报模型；所述多模态排序的排序损失用于表征奖励回报模型对于多模态模型输出的k个答案在排序打分中靠前的答案给出更高的分数值；所述对比学习的相似度损失用于表征生成的同一组图-文多模态数据之间的相似性；所述模态间的分布损失用于表征多模态模型的多个输出在标注排序中位序的一致性。

可以理解的是，奖励回报模型（Reward Model，RM）是来自于强化学习中的重要概念。奖励回报模型是指在智能体与环境交互的过程中，环境根据智能体的行为反馈的数值信号，这个信号叫做奖励或回报，用来评价智能体行为的好坏，指示智能体在未来采取哪些行动可以达到最大化奖励或回报的目标。

为了从人类反馈的打分数据中学习到人类的理解与偏好、价值取向知识等，这里拟采用监督回归学习方式，建立泛化奖励回报模型以给更多的多模态内容生成任务打分，从而为后续的强化学习微调阶段产生持续而符合人类标准的奖励信号。

奖励回报模型的损失函数考虑如下三方面：基于多模态排序的排序损失、基于模态间的分布损失以及基于对比学习的相似度损失，具体为：

S21、基于多模态排序的排序损失

这里奖励回报模型拟对于每个Prompt数据生成k对（图像，文本）答案，为了使得预训练奖励回报模型对于同一样本给出的k个答案有所区别，奖励回报模型应该对于那些打分人员在排序打分中靠前的答案给出更高的分数值，为此拟定义如下损失函数：

（1）；

其中，x代表从微调数据集中采样出来的Prompt，y代表图像打分分布，z代表文本打分分布，代表对于该Prompt打分人员给出的排序序列中更好的答案，/>则代表排序序列中排序低的答案，/>代表奖励回报模型，其中θ是模型参数，D是数据集，K是每个batch中样本的数目。

为了更好的得到归一化的分数值，对于不同答案之间的奖励差值，用sigmoid激活函数将数值映射到0至1之间，同时取对数为了更好的非线性拟合。并且为了防止模型的过拟合，每次进行批量梯度下降时，只从k个答案中选取2个进行运算，而非将k个答案同时运算。最后，由于奖励函数的最终目标是最大化好的答案的分数值，而梯度下降的目标则是最小化损失值，所以这部分的损失值应是奖励值取负数。

S2、基于模态间的分布损失；

对于每一个Prompt数据，都有k对模型生成的图像和文本输出以及打分人员对于它们的排序序列打分标签。对于一个好的多模态生成内容样例来说，图像模态的特质与文本模态的特征缺一不可。例如对于商品宣传海报生成任务来说，一个商品海报样图非常精美，像素高清，对比度清晰以及显著对象明确，但是它对应的宣传标语却没有涵盖海报的最精彩的特性，那么这个商品海报生成是失败的，即这是一条不够好的样本。

为了避免这种情况的出现，奖励回报模型必须能够同时识别出一个样本的图像以及文本的好坏程度，即该图像在图像标注排序序列中的位序与其相应的文本在文本标注序列中的位序要尽量的一致。为此拟定义了图像标注序列与文本标注序列的相似度测量：

（2）；

其中，y代表图像打分分布，z代表文本打分分布，由于优化目标是最小化图像标注序列分布与文本标注序列分布之间的差异，所以这分布损失与目标优化方向一致。

S23、基于对比学习的相似度损失；

最后是基于对比学习的相似性损失，迎来衡量生成的同一组图-文多模态数据之间的相似性，得相似度损失为，公式如下：

（3）；

设计多模态数据的相似性主要是为了使图和文字的内容尽量接近，避免出现图文质量都很高，但是描述的内容差异却很大的情况。

S24、奖励回报模型总体损失；

综上所述，基于三方面的损失，奖励回报模型的总体损失如下：

（4）；

其中为权重参数，取值范围为0至1，且/>。

S25、奖励回报模型的训练过程；

奖励回报模型训练整体流程如图5所示，这里以商品海报宣传内容生成任务为例，主要分为三个步骤；

S251、从预训练数据集中采样Prompt样本输入进预训练模型中，模型给出k个输出；

S252、令打分人员分别为海报图像与宣传文本进行排序打分，形成排序标签数据用于训练奖励回报模型；

S253、利用打分人员的标注数据，以回归监督的方式训练奖励回报模型，目的是使得奖励回报模型对于图像与文本输出的奖励值序列与打分人员标注的排序序列一致。

S3、利用内外探索相结合的强化学习方法微调所述多模态模型，使得多模态模型能够学习到人类偏好，生成更自然的知识；所述内外探索具体为：对于图像信息，使用内在奖励对于图像的生成进行激励，对于文本信息则采用样本层面的外在奖励，使得文本信息匹配图像信息；所述强化学习方法是在每一步生成过程中，根据当前的状态和策略，选择一个动作并执行，然后根据执行后的结果获得一个奖励信号，所述奖励信号用于调整多模态模型的策略。

在多模态内容生成任务中，通常需要生成多个模态的内容。然而，由于生成过程中的奖励信号非常稀疏，模型很难在生成过程中及时调整自己的行为，以达到最优的结果。这是因为奖励信号只能在整个生成任务结束之后才能得到，而且正向的奖励信息往往非常稀疏。

因此，为了解决这个问题，强化探索成为了一种常用的方法。强化探索可以让模型在生成过程中不断尝试新的生成方向，以获得更多的奖励信号。具体而言，强化探索会在每一步生成过程中，根据当前的状态和策略，选择一个动作并执行，然后根据执行后的结果获得一个奖励信号，用于调整模型的策略。

探索一般都是在生成样本的过程中进行，但是由于多模态任务的模态多的特性，这里拟采用内外探索相结合的强化学习方法。具体来说，对于图像通道，使用内在奖励探索机制对于图像的生成进行合理的激励；对于文本通道则采用样本层面的外部探索机制，使得文本可以更大程度上匹配图像特征。

具体来说，内外探索结合强化学习的知识探索的重点技术分为以下三个部分：

S31、分布式框架；

所采用的分布式强化学习训练框架如图6所示，其主要包括四个部分：行动者、工作者、经验缓冲池、学习者。行动者负责与其所在的环境（奖励模型）进行交互，决策则由工作者负责，不同的行动者交互的环境完全独立。工作者负责一定数量的行动者，当从行动者处获得信息后，其内的前向智能体决策网络进行决策后将动作传递给行动者从而让行动者与环境进行下一步的交互。但是，工作者中的网络并不参与训练，而是定期从全局学习者中的训练网络中同步参数。经验缓冲池用于将行动者与环境完成一轮交互后产生的轨迹数据存放，以用于给全局学习者训练使用。其中内置的选择模块用于计算外在奖励的产生，具体来说需要为每个轨迹数据计算其优先级以及重要性因子。全局学习者不断的从中采样批量数据进行训练，并定期的将最近的网络参数通过共享内存同步给工作者中的智能体决策网络。

S32、外在奖励；

由于文本数据通常是具有一定长度的，不像图像数据仅仅只是输出最后的生成图像，文本数据要在过程中不断的输出每一个合理的单词，并且在上述单词生成的历史前提下，根据上下文关系输出当前单词。所以在文本通道上的探索任务更加繁重。

其次由于文本的长度以及单词匹配的灵活多样性，使得训练需要海量的文本才能使得模型较好的拟合，但是打分人员标注的监督数据量是有限的，如何在有限的监督数据上进行合理的探索泛化，以点到线的探索更多未知的样本空间从而使得模型的拟合能力增强也是本发明的重点之一。

基于上述需求，本发明使用外在样本层面的奖励来鼓励模型在文本通道上进行探索，其中优先级用于计算样本数据在探索空间内的优先等级，优先级越大则说明该样本的可利用价值越高，越应该多使用该样本训练模型从而加强模型的拟合能力。重要性因子则代表了该样本的重要性程度，它从多方面权衡了样本的重要性，具体分为利用次数、产生轮数差、累积折扣分数、文本长度。

优先级计算如下：

（5）；

其中为联合动作值函数，τ为历史文本信息，α为当前选取的文本输出，/>分别为动作值网络的参数和目标网络的参数，l代表目标文本的长度，m代表当前文本长度。

重要性因子计算如下：

（6）；

其中中代表累积折扣分数，C是一个小的负数常数，δ是一个常数超参数用于控制轮数差值的影响，N代表利用次数。

最终外在奖励计算如下：

（7）；

基于上述外在奖励IS，模型可以在样本空间中进行大量的样本探索，对于已经探索的到的样本，根据其被用于训练模型的次数、文本长度以及轮数差等多方面因素生成重要性因子，用于权衡样本的重要性程度；同时使用神经网络推理出样本的优先级，表明该样本应该在当前用于模型训练的优先程度。进而利用外在奖励丰富模型的训练集，从而增强模型的拟合能力与知识表达。

S33、内在奖励；

在强化学习中，内在奖励是指来自于模型自身的反馈信号，而不是外在的奖励信号。与外在奖励相比，内在奖励具有以下优势与好处：

1）自我驱动性：内在奖励可以激励模型自我驱动，而不需要外在的奖励来引导行为。这使得模型可以在没有外在奖励的情况下，最大化自主地探索和学习新的知识和技能。

2）丰富多样性：内在奖励可以包括多种类型的奖励信号，如探索新样本、学习新知识、提高技能水平等。这使得模型可以获得更加丰富多样的学习体验，从而更好地适应不同的多模态任务。

3）持续性：内在奖励可以在模型与外在脱离联系的情况下持续存在，因此可以在任务中间阶段提供反馈信号，帮助模型及时调整策略和行为。

4）自适应性：内在奖励可以根据多模态间任务的不同，自适应地改变形式和大小。这使得模型可以根据不同任务的特点，灵活地调整学习策略和行为。

为了鼓励在图像通道进行内容生成，本项目拟使用内在奖励鼓励模型在图像空间中产生更多样的奖励信号丰富的图像内容。具体在奖励模型为一个内置的小的前向神经网络，其中包含两个模块：预测模块和目标模块。

目标模块是一个随机初始化并且固定参数的神经网络，它接收图像输入后，输出一个分数奖励值，并且在确保图像输入不变的情况下，输出值是固定的。

预测模块负责计算当前图像输入的不确定性程度，具体来说预测模块接收和目标模块相同的图像输入，输出一个分数奖励值，但是这个分数奖励值随着神经网络的训练会发生变化。变化的预测奖励值与固定的目标奖励值之差很好的表达了当前图像数据的不确定性程度。

内在奖励计算如下：

（8）；

其中，为预测网络，/>为目标值网络，/>为当前输入状态。

由于打分人员只能给图像进行排序打分，从而对于图像无论是清晰度还是目标对象裁定等因素都无法完美的考虑，而由于内在奖励具有多样性和持续性，可以持续的为不同的图像中不同的特征建立打分模型，从而解决奖励信号稀疏的问题。

基于上述内在奖励，本项目拟在图像通道上建立内在奖励网络，从而更加丰富图像的奖励信号，进而提升模型在图像通道上的拟合能力。并且结合文本通道上的外在奖励，解决强化学习模型中奖励信号稀疏的问题，从而训练得到符合人类反馈的模型。

为了体现出本方法在知识生成任务上引入人类反馈的优势，评估微调之后的多模态模型是否能保持诚实和无害的知识，不制造信息或误导用户，不产生有害或攻击性的内容，更符合人类认知并对人类有帮助的内容。本方法邀请了许多志愿测试人员，从不同方面进行了广泛的人工评估。具体来说，本方法邀请了17名志愿者，包括两组：20名专家（计算机领域从业者）和30名业余爱好者（非计算机领域从业者）。本方法设计的人工评估方案包括三种类型的评估，使用不同的查询格式或测试组。

（1）专家文本模态帮助性测试（Text-Helpfulness-Expert），在专家组测试。每个测试人员都需要执行一系列测试，每个测试包含一对文本答案(一个来自本方法的模型，另一个来自VL-T5)。测试人员需要确定哪个文本答案具有的帮助性更大。

（2）业余文本模态帮助性测试（Text-Helpfulness-Amateur），在业余组测试。每个测试人员都需要执行一系列测试，每个测试包含一对文本答案（一个来自本方法的模型，另一个来自VL-T5）。测试人员需要确定哪个文本答案具有的帮助性更大。

（3）专家图像模态合理性测试（Image-Reasonableness-Expert），在专家组测试。每个测试人员都需要执行一系列测试，每个测试包含一对图片答案（一个来自本方法的模型，另一个来自Clip-Gen）。测试人员需要确定哪个图像答案更符合人类认识，更加具有合理性。

（4）业余图像模态合理性测试（Image-Reasonableness-Amateur），在专家组测试。每个测试人员都需要执行一系列测试，每个测试包含一对图片答案（一个来自本方法的模型，另一个来自Clip-Gen）。测试人员需要确定哪个图像答案更符合人类认识，更加具有合理性。

对于所有测试，我们报告测试人员选择本方法微调的模型生成的答案的比例，即认为本方法微调的模型生成的答案更具备帮助性和合理性。帮助性和合理性是非常主观的度量标准，它可能受到许多因素的影响，包括情绪、测试者的个性、个人偏好等。具体结果如下表3、表4所示。

表3

表4

通过上表的对比结果可知，本发明的方法相比于其他的知识生成模型更加符合人类的偏好。

示例性的，图7展示了本发明一个实施例的有意义结果，human对应的框代表实验的数据，model对应的框代表模型生成的图像和文本，可以看出模型具有优秀的生成的能力，其输出内容符合人类认知。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

基于与上述实施例中的基于反馈强化的多模态知识生成方法相同的思想，本发明还提供了基于反馈强化的多模态知识生成系统，该系统可用于执行上述基于反馈强化的多模态知识生成方法。为了便于说明，基于反馈强化的多模态知识生成系统实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图8，在本申请的另一个实施例中，提供了一种基于反馈强化的多模态知识生成系统100，该系统包括多模态模型构建模块101、奖励回报模型训练模块102以及多模态模型微调模块103；

所述多模态模型构建模块101，用于构建多模态模型，所述多模态模型的输入为文本信息和图像信息；在多模态知识生成任务中将人类反馈引入所述多模态模型，所述人类反馈为基于排序的人工打分机制，即为多模态模型的输出结果排序打分并进行标注，形成的监督数据用于训练预先设立的奖励回报模型；

所述奖励回报模型训练模块102，用于将所述监督数据输入奖励回报模型进行训练，使得奖励回报模型从所述监督数据中学习到人类的理解，进而学习到符合人类需求的奖励信号用于训练更优的奖励回报模型；基于多模态排序的排序损失、模态间的分布损失及对比学习的相似度损失更新所述奖励回报模型；所述多模态排序的排序损失用于表征奖励回报模型对于多模态模型输出的k个答案在排序打分中靠前的答案给出更高的分数值；所述对比学习的相似度损失用于表征生成的同一组图-文多模态数据之间的相似性；所述模态间的分布损失用于表征多模态模型的多个输出在标注排序中位序的一致性；

所述多模态模型微调模块103，用于利用内外探索相结合的强化学习方法微调所述多模态模型，使得多模态模型能够学习到人类偏好，生成更自然的知识；所述内外探索具体为：对于图像信息，使用内在奖励对于图像的生成进行激励，对于文本信息则采用样本层面的外在奖励，使得文本信息匹配图像信息；所述强化学习方法是在每一步生成过程中，根据当前的状态和策略，选择一个动作并执行，然后根据执行后的结果获得一个奖励信号，所述奖励信号用于调整多模态模型的策略。

需要说明的是，本发明的基于反馈强化的多模态知识生成系统与本发明的基于反馈强化的多模态知识生成方法一一对应，在上述基于反馈强化的多模态知识生成方法的实施例阐述的技术特征及其有益效果均适用于基于反馈强化的多模态知识生成的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。

此外，上述实施例的基于反馈强化的多模态知识生成系统的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述基于反馈强化的多模态知识生成系统的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

如图9，在一个实施例中，提供了一种实现基于反馈强化的多模态知识生成方法的电子设备，所述电子设备200可以包括第一处理器201、第一存储器202和总线，还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运行的计算机程序，如多模态知识生成程序203。

其中，所述第一存储器202至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元，例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备，例如电子设备200上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述第一存储器202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202不仅可以用于存储安装于电子设备200的应用软件及各类数据，例如多模态知识生成程序203的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述第一处理器201在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述第一存储器202内的程序或者模块，以及调用存储在所述第一存储器202内的数据，以执行电子设备200的各种功能和处理数据。

图9仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图9示出的结构并不构成对所述电子设备200的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

所述电子设备200中的所述第一存储器202存储的多模态知识生成程序203是多个指令的组合，在所述第一处理器201中运行时，可以实现：

进一步地，所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM (DRAM)、同步DRAM (SDRAM)、双数据率SDRAM (DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于反馈强化的多模态知识生成方法，其特征在于，包括下述步骤：

2.根据权利要求1所述基于反馈强化的多模态知识生成方法，其特征在于，所述多模态模型包括第一文本编码器、第一图像编码器、第一文本解码器和第一图像解码器，将文本信息和图像信息作为多模态模型的输入，第一文本编码器提取文本特征，得到第一文本编码，第一图像编码器提取图像特征，得到第一图像编码，再通过融合模型对齐文本和图像空间，最后通过第一图像解码器和第一文本解码器分别生成图像和文本。

3.根据权利要求2所述基于反馈强化的多模态知识生成方法，其特征在于，所述奖励回报模型包括第二文本编码器和第二图像编码器，将多模态模型生成的图像和文本作为奖励回报模型的输入，经过第二图像编码器得到第二图像编码，经过第二文本编码器得到第二文本编码，然后在RM Linear处引入人类反馈，得到最终的奖励回报模型的损失。

4.根据权利要求1所述基于反馈强化的多模态知识生成方法，其特征在于，所述多模态排序的排序损失函数定义如下：

；

所述模态间的分布损失函数定义如下：

；

所述对比学习的相似度损失函数定义如下：

；

5.根据权利要求1所述基于反馈强化的多模态知识生成方法，其特征在于，所述奖励回报模型的训练过程如下：

6.根据权利要求1所述基于反馈强化的多模态知识生成方法，其特征在于，所述利用强化学习微调多模态模型，具体为：

7.根据权利要求6所述基于反馈强化的多模态知识生成方法，其特征在于，所述，所述内在奖励模型包括目标模块和预测模块；

8.基于反馈强化的多模态知识生成系统，其特征在于，应用于权利要求1-7中任一项所述的基于反馈强化的多模态知识生成方法，包括多模态模型构建模块、奖励回报模型训练模块以及多模态模型微调模块；

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-7中任意一项所述的基于反馈强化的多模态知识生成方法。

10.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-7任一项所述的基于反馈强化的多模态知识生成方法。