CN117057413A

CN117057413A - 强化学习模型微调方法、装置、计算机设备及存储介质

Info

Publication number: CN117057413A
Application number: CN202311259451.2A
Authority: CN
Inventors: 甘家旭; 豆泽阳; 蒋阳
Original assignee: Zhugao Intelligent Technology Shenzhen Co ltd
Current assignee: Chuanshen Intelligent Technology (Jiaxing) Co.,Ltd.
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-11-14
Anticipated expiration: 2043-09-27
Also published as: CN117057413B

Abstract

本发明实施例公开了强化学习模型微调方法、装置、计算机设备及存储介质。所述方法包括：获取设备缺陷检测、环境隐患监测、人员违规监测相关的训练数据；构建模型框架，以得到初始模型；对所述训练数据进行垂直领域的数据标注，以得到标注结果；对所述初始模型采用基于人类反馈的强化学习技术进行微调，以得到微调后的模型；对微调后的模型进行模型蒸馏，以得到目标模型；对所述目标模型进行测试和预测。通过实施本发明实施例的方法可实现解决传统微调方法带来的性能下降、特征丢失、设计困难、稳定性较差等问题。

Description

强化学习模型微调方法、装置、计算机设备及存储介质

技术领域

本发明涉及模型微调方法，更具体地说是指强化学习模型微调方法、装置、计算机设备及存储介质。

背景技术

近年来，多模态生成式大模型在科技领域取得了迅猛发展，为各行各业带来了革命性的突破。这些大模型结合了自然语言处理和计算机视觉等多种模态的信息，能够实现更加丰富多样的任务和应用。然而，当前所部署的生成式大模型主要以通用型为主，即通过在大规模公开数据集上的训练，使其具备了相对严密的逻辑推理能力和语言表达能力。尽管它们在逻辑推理和语言生成方面表现出色，却缺乏对于垂直领域的专业知识。为了使这些生成式大模型真正适用于垂直领域，通常需要进行领域微调。

目前多模态大模型常用的微调方法包括以下三种，第一种是将预训练的部分网络层固定，只微调某些特定的层，以便保留模型的通用特征；该方法可能会导致部分特征的丢失，尤其是那些需要根据特定任务微调的低级特征；选择哪些层应该被冻结，哪些应该被微调，需要一些试错和调整。不正确的层选择可能会导致模型性能下降或微调效果不佳。第二种是通过对生成式模型的Prompt（机器学习预测优化，PRedictive OPTimization withMachine Learning）参数进行调整来实现特定任务的微调。设计一个有效的Prompt可能并不容易，特别是在涉及复杂领域知识或多样化任务的情况下。生成式模型在不同的初始化和微调设置下可能表现不稳定，某些Prompt的微调结果可能在不同的试验中有所不同。第三种事引入低秩矩阵来近似大模型的高维结构，通过微调低秩矩阵来适应特定的任务，虽然低秩矩阵降低了微调的复杂度，但也引入来一些近似误差。

综上所述，现有的微调方法存在模型性能下降、垂直领域专业能力不足、设计困难、稳定性较差等问题。

因此，有必要设计一种新的方法，实现解决传统微调方法带来的性能下降、特征丢失、设计困难、稳定性较差等问题。

发明内容

本发明的目的在于克服现有技术的缺陷，提供强化学习模型微调方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用以下技术方案：强化学习模型微调方法，包括：

获取设备缺陷检测、环境隐患监测、人员违规监测相关的训练数据；

构建模型框架，以得到初始模型；

对所述训练数据进行垂直领域的数据标注，以得到标注结果；

对所述初始模型采用基于人类反馈的强化学习技术进行微调，以得到微调后的模型；

对微调后的模型进行模型蒸馏，以得到目标模型；

对所述目标模型进行测试和预测。

其进一步技术方案为：所述构建模型框架，以得到初始模型，包括：

确定视觉大模型；

确定语言大模型；

采用视觉特征的映射方式对所述视觉大模型的输出与所述语言大模型的输入进行对齐，以得到初始模型。

其进一步技术方案为：所述对所述训练数据进行垂直领域的数据标注，以得到标注结果，包括：

对所述训练数据中出现的设定目标进行目标框标注和多边形分割标注，以得到第一标注结果；

对所述训练数据图片进行描述性标注，以得到第二标注结果；

将所述第一标注结果以及所述第二标注结果组合形成标注结果。

其进一步技术方案为：所述对所述初始模型采用基于人类反馈的强化学习技术进行微调，以得到微调后的模型，包括：

采用所述标注结果对所述初始模型进行微调，以得到第一微调结果；

根据所述第一微调结果构建并训练奖励模型；

利用所述奖励模型所输出的标量奖励采用强化学习方式微调所述第一微调结果，以得到微调后的模型。

其进一步技术方案为：所述根据所述第一微调结果构建并训练奖励模型，包括：

获取从问题库中选择的问题，并使用所述第一微调结果输出多个答案；

对多个答案进行排序，以得到排序结果；

将所述第一微调结果中的最后一层结构修改为线性层，利用所述排序结果来进行反向传播训练修改后的第一微调结果，以得到奖励模型。

其进一步技术方案为：所述利用所述奖励模型所输出的标量奖励采用强化学习方式微调所述第一微调结果，以得到微调后的模型，包括：

利用所述奖励模型所输出的标量奖励采用PPO算法微调所述第一微调结果，以得到微调后的模型。

其进一步技术方案为：所述对微调后的模型进行模型蒸馏，以得到目标模型，包括：

将所述标注结果输入至初始模型中进行前向传递，输出的向量经过softmax处理，以得到软化后的类别概率；

将所述标注结果输入至微调后的模型，并输出向量升高与所述初始模型相同的温度后，经过softmax处理，并将得到的目标与软化后的类别概率进行KL散度计算，以得到第一损失值；

将所述标注结果输入至微调后的模型，输出向量，经过softmax处理，并将得到的目标与标注结果中的标注内容进行交叉熵计算，以得到第二损失值；

将微调后的模型的总损失函数确定为第一损失值与第二损失值的加权求和结果。

本发明还提供了强化学习模型微调装置，包括：

数据获取单元，用于获取设备缺陷检测、环境隐患监测、人员违规监测相关的训练数据；

初始模型构建单元，用于构建模型框架，以得到初始模型；

标注单元，用于对所述训练数据进行垂直领域的数据标注，以得到标注结果；

微调单元，用于对所述初始模型采用基于人类反馈的强化学习技术进行微调，以得到微调后的模型；

模型蒸馏单元，用于对微调后的模型进行模型蒸馏，以得到目标模型；

测试与预测单元，用于对所述目标模型进行测试和预测。

本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

本发明与现有技术相比的有益效果是：本发明通过获取训练数据，并构建初始模型，对垂直领域的训练数据进行标注，并基于人类反馈的强化学习微调，可以让初始模型学习到垂直领域的专业知识，使得初始模型在垂直领域的专业性更强，输出的内容更符合设定的观点，此后，再引入知识蒸馏对微调后的模型进行处理，可以有效降低微调带来的模型性能下降问题，让微调后的模型学习到垂直领域的专业知识，同时保留初始模型的性能，实现解决传统微调方法带来的性能下降、特征丢失、设计困难、稳定性较差等问题。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的强化学习模型微调方法的应用场景示意图；

图2为本发明实施例提供的强化学习模型微调方法的流程示意图；

图3为本发明实施例提供的强化学习模型微调方法的子流程示意图；

图4为本发明实施例提供的强化学习模型微调方法的子流程示意图；

图5为本发明实施例提供的强化学习模型微调方法的子流程示意图；

图6为本发明实施例提供的强化学习模型微调方法的子流程示意图；

图7为本发明实施例提供的强化学习模型微调方法的子流程示意图；

图8为本发明实施例提供的强化学习模型微调装置的示意性框图；

图9为本发明实施例提供的强化学习模型微调装置的初始模型构建单元的示意性框图；

图10为本发明实施例提供的强化学习模型微调装置的标注单元的示意性框图；

图11为本发明实施例提供的强化学习模型微调装置的微调单元的示意性框图；

图12为本发明实施例提供的强化学习模型微调装置的奖励模型训练子单元的示意性框图；

图13为本发明实施例提供的强化学习模型微调装置的模型蒸馏单元的示意性框图；

图14为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的强化学习模型微调方法的应用场景示意图。图2为本发明实施例提供的强化学习模型微调方法的示意性流程图。该强化学习模型微调方法应用于服务器中。该服务器与终端进行数据交互，通过从终端获取设备缺陷检测、环境隐患监测、人员违规监测相关的训练数据，构建模型框架，并对垂直领域的数据进行标注后，通过专家知识，构建一个奖励模型，输出一个标量奖励，利用奖励模型输出的奖励，用强化学习方式微调优化LLM，让模型学习到什么样的输出是符合该垂直领域标准的，此后通过模型蒸馏的方法，让微调后的大模型也能保留预训练具备的逻辑推理能力和语言表达能力，构建出满足要求的目标模型，进行测试和预测。

图2是本发明实施例提供的强化学习模型微调方法的流程示意图。如图2所示，该方法包括以下步骤S110至S160。

S110、获取设备缺陷检测、环境隐患监测、人员违规监测相关的训练数据。

在本实施例中，获取的训练数据可以是设备缺陷检测相关的正常和异常图像、环境隐患监测相关的正常和异常图像、人员违规监测相关的正常和异常图像；每个不同监测的训练数据经过后续的处理都可以得到对应的目标模型。

S120、构建模型框架，以得到初始模型。

在本实施例中，初始模型是视觉大模型与语言大模型对齐后形成的模型。

在一实施例中，请参阅图3，上述的步骤S120可包括步骤S121~S123。

S121、确定视觉大模型。

在本实施例中，视觉大模型是作为图像编码的部分，本实施例中以SAM-VIT作为视觉大模型。

S122、确定语言大模型。

在本实施例中，语言大模型用来接收用户的问题以及输出答案，本实施例中以Llama2作为语言大模型。

S123、采用视觉特征的映射方式对所述视觉大模型的输出与所述语言大模型的输入进行对齐，以得到初始模型。

在本实施例中，通过视觉大模型得到ViT Patch Embedding。将ViT PatchEmbedding和可学习的问题送入特征映射模块，该模块主要包括自注意力机制和交叉注意力机制，得到一个映射后的特征Project Feature。最后将特征Project Feature通过一个FC层，作为语言大模型输入的问题部分，与问题一起送入到语言大模型中，对语言大模型进行训练，由此形成初始模型。

S130、对所述训练数据进行垂直领域的数据标注，以得到标注结果。

在本实施例中，标注结果是指根据实际的业务要求制定设备缺陷检测、环境隐患监测、人员违规监测相关的标注规范，对训练数据进行垂直领域的数据标注后形成的结果。

举个例子，根据实际的业务要求制定输电设施外破隐患监测的标注规范，对训练数据进行垂直领域的数据标注后形成的结果。

在一实施例中，请参阅图4，上述的步骤S130可包括步骤S131~S133。

S131、对所述训练数据中出现的设定目标进行目标框标注和多边形分割标注，以得到第一标注结果。

在本实施例中，第一标注结果是指对训练数据中设定目标进行目标所在位置的标注以及位置对应的框的多边形分割标注形成的结果。

举个例子：对训练数据中的图片出现的吊车、塔吊进行目标框标注和多边形分割标注。

S132、对所述训练数据图片进行描述性标注，以得到第二标注结果。

在本实施例中，第二标注结果是指对训练数据图片进行特定场景的文字描述性标注形成的结果，比如描述的内容包括图片中是否出现吊车、塔吊、输电设施，以及各自的位置和状态，并根据图片中吊车、塔吊与输电设施的距离，判断是否可能对输电设施造成影响，形成对应的标注内容，从而构成第二标注结果。

举个例子，按照标注规范对不存在吊车、塔吊等影响输电设施的图片和存在影响输电设施的图片进行标注。

S133、将所述第一标注结果以及所述第二标注结果组合形成标注结果。

在本实施例中，这两个标注结果共同组合形成最终的标注结果。

S140、对所述初始模型采用基于人类反馈的强化学习技术进行微调，以得到微调后的模型。

在本实施例中，微调后的模型是指采用基于人类反馈的强化学习技术对初始模型进行参数调整之后形成的模型。

具体地，通过专家知识，构建一个奖励模型，输出一个标量奖励，利用奖励模型输出的奖励，用强化学习方式微调优化初始模型，让初始模型学习到什么样的输出是符合该垂直领域标准的。

在一实施例中，请参阅图5，上述的步骤S140可包括步骤S141~S143。

S141、采用所述标注结果对所述初始模型进行微调，以得到第一微调结果。

在本实施例中，采用标注结果对所述初始模型进行微调通过LoRA等方法对初始模型进行微调形成第一微调结果。

具体地，使用已经标注好的输电设施外破隐患检查数据集，通过LoRA等方法对与视觉大模型对齐后的Llama2进行微调，不仅提高了大型语言模型的效率和准确性，还有助于减少偏差，并确保模型输出与任务的预期结果一致。

S142、根据所述第一微调结果构建并训练奖励模型。

在本实施例中，奖励模型是指一个能够通过接收文本序列并产生出符合人类偏好的标量奖励的模型或系统。

在一实施例中，请参阅图6，上述的步骤S142可包括步骤S1421~S1423。

S1421、获取从问题库中选择的问题，并使用所述第一微调结果输出多个答案；

S1422、对多个答案进行排序，以得到排序结果。

在本实施例中，准备奖励模型的训练集，从问题库中选择问题，将问题输入至第一微调结果中，使得第一微调结果输出多个版本的答案，对这些答案进行排序，可以按照准确性的高低进行排序。

S1423、将所述第一微调结果中的最后一层结构修改为线性层，利用所述排序结果来进行反向传播训练修改后的第一微调结果，以得到奖励模型。

在本实施例中，将第一微调结果的最后一层修改为线性层，然后模型最终的输出为一个标量。奖励模型就是利用训练集中排序的结果来进行反向传播训练。奖励模型的损失函数采用Pairwise Ranking Loss。

S143、利用所述奖励模型所输出的标量奖励采用强化学习方式微调所述第一微调结果，以得到微调后的模型。

在本实施例中，利用所述奖励模型所输出的标量奖励采用PPO算法微调所述第一微调结果，以得到微调后的模型。

具体地，强化学习方式对应的是强化学习模型执行的方法，微调中训练强化学习模型采用的优化算法是PPO（近似策略优化，Proximal Policy Optimization）算法，即对设定的目标函数通过随机梯度下降进行优化。强化学习模型的起始模型采用经过微调的大型语言模型。在训练强化学习模型的过程中，只需收集一个问题集，无需对这些问题进行繁琐的标注工作。这些问题集被送入强化学习模型，以生成相应的答案文本。将生成的答案文本与对应的问题一同输入之前经过训练的奖励模型。对这些输入进行评分，以衡量生成的文本质量。这个评分过程的目标是评估生成的文本与人类喜好的吻合度，以及其在语义准确性和表达流畅性方面的表现。

在训练强化学习模型的过程中，最终目标是通过优化模型参数，使得生成的文本在奖励模型上获得尽可能高的分数，以确保生成的答案不仅符合人类喜好，还能够达到高标准的自然语言表达要求。通过这一方式，强化学习模型逐渐学习如何根据问题生成更高质量的答案，为各类实际应用场景提供更精准、可靠的输出结果。

S150、对微调后的模型进行模型蒸馏，以得到目标模型。

在本实施例中，目标模型是指微调后的模型经过模型蒸馏后形成的模型。

经过人类反馈的强化学习微调后，微调后的大模型在逻辑推理能力和语言表达能力可能会出现性能下降，通过模型蒸馏可以让微调后的大模型既迎合垂直领域的要求，也保留预训练模型的性能。

在一实施例中，请参阅图7，上述的步骤S150可包括步骤S151~ S154。

S151、将所述标注结果输入至初始模型中进行前向传递，输出的向量经过softmax处理，以得到软化后的类别概率。

在本实施例中，将标注结果输入初始模型中，初始模型只参与前向传递，输出logits经升温（/T）后，经过softmax，得到软化后的soft target。

S152、将所述标注结果输入至微调后的模型，并输出向量升高与所述初始模型相同的温度后，经过softmax处理，并将得到的目标与软化后的类别概率进行KL散度计算，以得到第一损失值。

在本实施例中，将标注结果输入到微调后的大模型，输出logits升高和初始模型相同的温度（/T）后，经过softmax，与软化后的soft target进行KL 散度计算，得到第一损失值distillation loss。

S153、将所述标注结果输入至微调后的模型，输出向量，经过softmax处理，并将得到的目标与标注结果中的标注内容进行交叉熵计算，以得到第二损失值。

在本实施例中，将标注结果输入到微调后的大模型，输出logits，经过softmax，与标注结果中的标注内容hard target进行交叉熵计算，得到第二损失值student loss。

S154、将微调后的模型的总损失函数确定为第一损失值与第二损失值的加权求和结果。

在本实施例中，微调后的模型的总损失函数是distillation loss和studentloss的加权求和，公式如下：；其中，，表示distillation loss和student loss相加的权重。

S160、对所述目标模型进行测试和预测。

具体地，使用蒸馏后的输电设施外破隐患的目标模型进行测试和推理。

本实施例的方法基于人类反馈的强化学习微调，可以让初始模型学习到垂直领域的专业知识，使得初始模型在垂直领域的专业性更强，输出的内容更符合人类的观点，引入知识蒸馏可以有效降低微调带来的模型性能下降问题，让微调后的模型学习到垂直领域的专业知识，同时保留初始模型的性能。

上述的强化学习模型微调方法，通过获取训练数据，并构建初始模型，对垂直领域的训练数据进行标注，并基于人类反馈的强化学习微调，可以让初始模型学习到垂直领域的专业知识，使得初始模型在垂直领域的专业性更强，输出的内容更符合设定的观点，此后，再引入知识蒸馏对微调后的模型进行处理，可以有效降低微调带来的模型性能下降问题，让微调后的模型学习到垂直领域的专业知识，同时保留初始模型的性能，实现解决传统微调方法带来的性能下降、特征丢失、设计困难、稳定性较差等问题。

图8是本发明实施例提供的一种强化学习模型微调装置300的示意性框图。如图8所示，对应于以上强化学习模型微调方法，本发明还提供一种强化学习模型微调装置300。该强化学习模型微调装置300包括用于执行上述强化学习模型微调方法的单元，该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地，请参阅图8，该强化学习模型微调装置300包括数据获取单元301、初始模型构建单元302、标注单元303、微调单元304、模型蒸馏单元305以及测试与预测单元306。

数据获取单元301，用于获取设备缺陷检测、环境隐患监测、人员违规监测相关的训练数据；初始模型构建单元302，用于构建模型框架，以得到初始模型；标注单元303，用于对所述训练数据进行垂直领域的数据标注，以得到标注结果；微调单元304，用于对所述初始模型采用基于人类反馈的强化学习技术进行微调，以得到微调后的模型；模型蒸馏单元305，用于对微调后的模型进行模型蒸馏，以得到目标模型；测试与预测单元306，用于对所述目标模型进行测试和预测。

在一实施例中，如图9所示，所述初始模型构建单元302包括第一确定子单元3021、第二确定子单元3022以及对齐子单元3023。

第一确定子单元3021，用于确定视觉大模型；第二确定子单元3022，用于确定语言大模型；对齐子单元3023，用于采用视觉特征的映射方式对所述视觉大模型的输出与所述语言大模型的输入进行对齐，以得到初始模型。

在一实施例中，如图10所示，所述标注单元303包括第一标注子单元3031、第二标注子单元3032以及组合子单元3033。

第一标注子单元3031，用于对所述训练数据中出现的设定目标进行目标框标注和多边形分割标注，以得到第一标注结果；第二标注子单元3032，用于对所述训练数据图片进行描述性标注，以得到第二标注结果；组合子单元3033，用于将所述第一标注结果以及所述第二标注结果组合形成标注结果。

在一实施例中，如图11所示，所述微调单元304包括第一微调子单元3041、奖励模型训练子单元3042以及第二微调子单元3043。

第一微调子单元3041，用于采用所述标注结果对所述初始模型进行微调，以得到第一微调结果；奖励模型训练子单元3042，用于根据所述第一微调结果构建并训练奖励模型；第二微调子单元3043，用于利用所述奖励模型所输出的标量奖励采用强化学习方式微调所述第一微调结果，以得到微调后的模型。

在一实施例中，如图12所示，所述奖励模型训练子单元3042包括问题获取模块30421、排序模块30422以及训练模块30423。

问题获取模块30421，用于获取从问题库中选择的问题，并使用所述第一微调结果输出多个答案；排序模块30422，用于对多个答案进行排序，以得到排序结果；训练模块30423，用于将所述第一微调结果中的最后一层结构修改为线性层，利用所述排序结果来进行反向传播训练修改后的第一微调结果，以得到奖励模型。

在一实施例中，第二微调子单元3043，用于利用所述奖励模型所输出的标量奖励采用PPO算法微调所述第一微调结果，以得到微调后的模型。

在一实施例中，如图13所示，所述模型蒸馏单元305包括第一处理子单元3051、第二处理子单元3052、第三处理子单元3053以及求和子单元3054。

第一处理子单元3051，用于将所述标注结果输入至初始模型中进行前向传递，输出的向量经过softmax处理，以得到软化后的类别概率；第二处理子单元3052，用于将所述标注结果输入至微调后的模型，并输出向量升高与所述初始模型相同的温度后，经过softmax处理，并将得到的目标与软化后的类别概率进行KL散度计算，以得到第一损失值；第三处理子单元3053，用于将所述标注结果输入至微调后的模型，输出向量，经过softmax处理，并将得到的目标与标注结果中的标注内容进行交叉熵计算，以得到第二损失值；求和子单元3054，用于将微调后的模型的总损失函数确定为第一损失值与第二损失值的加权求和结果。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述强化学习模型微调装置300和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述强化学习模型微调装置300可以实现为一种计算机程序的形式，该计算机程序可以在如图14所示的计算机设备上运行。

请参阅图14，图14是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图14，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种强化学习模型微调方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种强化学习模型微调方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

获取设备缺陷检测、环境隐患监测、人员违规监测相关的训练数据；构建模型框架，以得到初始模型；对所述训练数据进行垂直领域的数据标注，以得到标注结果；对所述初始模型采用基于人类反馈的强化学习技术进行微调，以得到微调后的模型；对微调后的模型进行模型蒸馏，以得到目标模型；对所述目标模型进行测试和预测。

在一实施例中，处理器502在实现所述构建模型框架，以得到初始模型步骤时，具体实现如下步骤：

确定视觉大模型；确定语言大模型；采用视觉特征的映射方式对所述视觉大模型的输出与所述语言大模型的输入进行对齐，以得到初始模型。

在一实施例中，处理器502在实现所述对所述训练数据进行垂直领域的数据标注，以得到标注结果步骤时，具体实现如下步骤：

对所述训练数据中出现的设定目标进行目标框标注和多边形分割标注，以得到第一标注结果；对所述训练数据图片进行描述性标注，以得到第二标注结果；将所述第一标注结果以及所述第二标注结果组合形成标注结果。

在一实施例中，处理器502在实现所述对所述初始模型采用基于人类反馈的强化学习技术进行微调，以得到微调后的模型步骤时，具体实现如下步骤：

采用所述标注结果对所述初始模型进行微调，以得到第一微调结果；根据所述第一微调结果构建并训练奖励模型；利用所述奖励模型所输出的标量奖励采用强化学习方式微调所述第一微调结果，以得到微调后的模型。

在一实施例中，处理器502在实现所述根据所述第一微调结果构建并训练奖励模型步骤时，具体实现如下步骤：

获取从问题库中选择的问题，并使用所述第一微调结果输出多个答案；对多个答案进行排序，以得到排序结果；将所述第一微调结果中的最后一层结构修改为线性层，利用所述排序结果来进行反向传播训练修改后的第一微调结果，以得到奖励模型。

在一实施例中，处理器502在实现所述利用所述奖励模型所输出的标量奖励采用强化学习方式微调所述第一微调结果，以得到微调后的模型步骤时，具体实现如下步骤：

在一实施例中，处理器502在实现所述对微调后的模型进行模型蒸馏，以得到目标模型步骤时，具体实现如下步骤：

将所述标注结果输入至初始模型中进行前向传递，输出的向量经过softmax处理，以得到软化后的类别概率；将所述标注结果输入至微调后的模型，并输出向量升高与所述初始模型相同的温度后，经过softmax处理，并将得到的目标与软化后的类别概率进行KL散度计算，以得到第一损失值；将所述标注结果输入至微调后的模型，输出向量，经过softmax处理，并将得到的目标与标注结果中的标注内容进行交叉熵计算，以得到第二损失值；将微调后的模型的总损失函数确定为第一损失值与第二损失值的加权求和结果。

应当理解，在本申请实施例中，处理器502可以是中央处理单元 (CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路 (Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述构建模型框架，以得到初始模型步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述训练数据进行垂直领域的数据标注，以得到标注结果步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述初始模型采用基于人类反馈的强化学习技术进行微调，以得到微调后的模型步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据所述第一微调结果构建并训练奖励模型步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述利用所述奖励模型所输出的标量奖励采用强化学习方式微调所述第一微调结果，以得到微调后的模型步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对微调后的模型进行模型蒸馏，以得到目标模型步骤时，具体实现如下步骤：

所述存储介质可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，终端，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.强化学习模型微调方法，其特征在于，包括：

构建模型框架，以得到初始模型；

对微调后的模型进行模型蒸馏，以得到目标模型；

对所述目标模型进行测试和预测。

2.根据权利要求1所述的强化学习模型微调方法，其特征在于，所述构建模型框架，以得到初始模型，包括：

确定视觉大模型；

确定语言大模型；

3.根据权利要求1所述的强化学习模型微调方法，其特征在于，所述对所述训练数据进行垂直领域的数据标注，以得到标注结果，包括：

4.根据权利要求1所述的强化学习模型微调方法，其特征在于，所述对所述初始模型采用基于人类反馈的强化学习技术进行微调，以得到微调后的模型，包括：

根据所述第一微调结果构建并训练奖励模型；

5.根据权利要求4所述的强化学习模型微调方法，其特征在于，所述根据所述第一微调结果构建并训练奖励模型，包括：

对多个答案进行排序，以得到排序结果；

6.根据权利要求4所述的强化学习模型微调方法，其特征在于，所述利用所述奖励模型所输出的标量奖励采用强化学习方式微调所述第一微调结果，以得到微调后的模型，包括：

7.根据权利要求1所述的强化学习模型微调方法，其特征在于，所述对微调后的模型进行模型蒸馏，以得到目标模型，包括：

8.强化学习模型微调装置，其特征在于，包括：

初始模型构建单元，用于构建模型框架，以得到初始模型；

测试与预测单元，用于对所述目标模型进行测试和预测。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。