CN117057443A

CN117057443A - 视觉语言模型的提示学习方法及电子设备

Info

Publication number: CN117057443A
Application number: CN202311300751.0A
Authority: CN
Inventors: 陈斌斌; 陈伟杰; 杨世才
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2023-11-14
Anticipated expiration: 2043-10-09
Also published as: CN117057443B

Abstract

本申请实施例提供一种视觉语言模型的提示学习方法及电子设备，电子设备可以将第一图像、第二图像、第一文本提示信息及第二文本提示信息输入模型，得到第一检测结果和第二检测结果；基于第一检测结果确定伪标签，基于伪标签与第二检测结果，计算预设损失函数；根据损失值，调整第一文本提示信息和第二文本提示信息，直到预设损失函数收敛，基于第一文本提示信息，确定模型的文本提示信息。由于第一检测结果表示第一图像中目标类别及位置，且第一图像和第二图像由同一图像做不同变换得到，包含目标相同，因此第一检测结果标识第二图像中目标类别及位置。可以基于第一检测结果确定伪标签，可以实现不依赖于人工打标签的无监督提示学习。

Description

视觉语言模型的提示学习方法及电子设备

技术领域

本申请涉及目标检测技术领域，特别是涉及视觉语言模型的提示学习方法及电子设备。

背景技术

随着模型变大、数据变多、算力变强，视觉语言模型得到了快速的发展，并展现出了非常优越的性能。视觉语言模型基于预先确定的文本信息，对输入图像进行处理，可以确定输入图像包括的目标的类别和位置，从而完成对目标的检测。其中，文本信息基于所要识别的类别的文本确定，用于表征所要从输入图像中识别出的目标的类别。得益于文本信息的灵活性，视觉语言模型可以通过调整文本信息来适配不同的下游任务的类别，以及提高识别质量。

文本信息的调整通过视觉语言模型的提示学习实现，在提示学习过程中，视觉语言模型的参数固定不变，通过微调文本信息对应的表征来提升视觉语言模型在指定任务上面的性能。在目前的提示学习方式中，需要人工对任务场景的样本图像进行标定得到标定标签，进而利用标定标签进行有监督训练，必须依赖于人工打标签才能进行提示学习。

发明内容

本申请实施例的目的在于提供视觉语言模型的提示学习方法及电子设备，以实现视觉语言模型的无监督提示学习。具体技术方案如下：

第一方面，本申请实施例提供了一种视觉语言模型的提示学习方法，所述方法包括：

获取每个样本图像对应的第一图像以及第二图像，其中，所述第一图像和所述第二图像为对所述样本图像进行不同变换处理得到的；

针对每个样本图像，将该样本图像对应的第一图像、第二图像、第一文本提示信息以及第二文本提示信息输入视觉语言模型，得到所述视觉语言模型基于所述第一图像以及所述第一文本提示信息输出的第一检测结果，以及所述视觉语言模型基于所述第二图像以及所述第二文本提示信息输出的第二检测结果，其中，所述第一文本提示信息和所述第二文本提示信息均用于表征所要从所述样本图像中识别出的目标的类别；

基于所述第一检测结果确定所述第二图像对应的伪标签，并基于所述伪标签与所述第二检测结果之间的差异，计算预设损失函数的损失值；

根据所述损失值，按照第一调整方式调整所述第一文本提示信息，并按照第二调整方式调整所述第二文本提示信息，直到所述预设损失函数达到收敛条件，基于调整后的所述第一文本提示信息，确定所述视觉语言模型的文本提示信息。

可选的，所述第二文本提示信息为学生提示信息，所述第一文本提示信息包括对偶的在线教师提示信息和离线教师提示信息，所述离线教师提示信息为预先基于所要从所述样本图像中识别出的目标的类别确定的；

所述根据所述损失值，按照第一调整方式调整所述第一文本提示信息，并按照第二调整方式调整所述第二文本提示信息，直到所述预设损失函数达到收敛条件，基于调整后的所述第一文本提示信息，确定所述视觉语言模型的文本提示信息的步骤，包括：

根据所述损失值，按照第一调整方式调整所述在线教师提示信息，并保持所述离线教师提示信息不变；

根据所述损失值，按照第二调整方式调整所述学生提示信息；

直到所述预设损失函数达到收敛条件，将调整后的所述在线教师提示信息，确定为所述视觉语言模型的文本提示信息。

可选的，所述学生提示信息对应的第二图像为对所述样本图像进行第一强增广处理得到的，所述在线教师提示信息对应的第一图像为对所述样本图像进行第二强增广处理得到的，所述离线教师提示信息对应的第一图像为对所述样本图像进行弱增广处理得到的。

可选的，所述第一调整方式为对调整后的学生提示信息进行加权处理，以使所述第一调整方式的调整速度小于所述第二调整方式的调整速度。

可选的，所述基于所述第一检测结果确定所述第二图像对应的伪标签的步骤，包括：

将所述第一检测结果作为所述第二图像对应的初始伪标签，并基于所述初始伪标签与所述第二检测结果之间的差异，计算所述预设损失函数的初始损失值；

根据所述初始损失值，按照第一调整方式调整所述第一文本提示信息，并按照第二调整方式调整所述第二文本提示信息，直到调整次数达到预设次数，得到调整后的第一文本提示信息，作为目标文本提示信息；

将所述目标文本提示信息以及所述第一图像输入所述视觉语言模型，得到所述视觉语言模型基于所述第一图像以及所述目标文本提示信息输出的检测结果，将所述检测结果确定为所述第二图像对应的伪标签。

可选的，所述视觉语言模型包括文本编码器和图像编码器；

所述将该样本图像对应的第一图像、第二图像、第一文本提示信息以及第二文本提示信息输入视觉语言模型，得到所述视觉语言模型基于所述第一图像以及所述第一文本提示信息输出的第一检测结果，以及所述视觉语言模型基于所述第二图像以及所述第二文本提示信息输出的第二检测结果的步骤，包括：

将该样本图像对应的第一图像和第二图像输入所述图像编码器，得到所述第一图像对应的第一图像特征向量以及所述第二图像对应的第二图像特征向量；

将该样本图像对应的第一文本提示信息和第二文本提示信息输入所述文本编码器，得到所述第一文本提示信息对应的第一文本特征向量以及所述第二文本提示信息对应的第二文本特征向量；

基于所述第一图像特征向量与所述第一文本特征向量之间的相似度，输出第一检测结果，并基于所述第二图像特征向量与所述第二文本特征向量之间的相似度，输出第二检测结果。

可选的，所述第一图像特征向量为所述第一图像中的每个图像区域对应的图像特征向量，所述第二图像特征向量为所述第二图像中的每个图像区域对应的图像特征向量，所述图像区域为按照预设划分方式对图像进行划分得到的；

所述基于所述第一图像特征向量与所述第一文本特征向量之间的相似度，输出第一检测结果，并基于所述第二图像特征向量与所述第二文本特征向量之间的相似度，输出第二检测结果的步骤，包括：

针对所述第一图像包括的每个图像区域，计算该图像区域对应的第一图像特征向量与所述第一文本特征向量之间的第一相似度；

根据所述第一相似度与预设阈值之间的大小关系，确定该图像区域对应的分类值，得到所述第一图像对应的第一分类矩阵，其中，所述第一分类矩阵中的每个元素为一个分类值，每个分类值用于标识对应的图像区域是否属于该元素对应的类别；

基于所述第一分类矩阵所表示的每个图像区域对应的分类值，确定所述第一图像所包括的目标的第一检测框位置，输出包括所述第一分类矩阵和所述第一检测框位置的第一检测结果；

针对所述第二图像包括的每个图像区域，计算该图像区域对应的第二图像特征向量与所述第二文本特征向量之间的第二相似度；

根据所述第二相似度确定该图像区域对应的分类值，得到所述第二图像对应的第二分类矩阵，其中，所述第二分类矩阵中的每个元素为一个分类值，每个分类值用于标识对应的图像区域属于该元素对应的类别的概率；

基于所述第二分类矩阵所表示的每个图像区域对应的分类值，确定所述第二图像所包括的目标的第二检测框位置，输出包括所述第二分类矩阵和所述第二检测框位置的第二检测结果。

可选的，所述基于所述第一检测结果确定所述第二图像对应的伪标签，并基于所述伪标签与所述第二检测结果之间的差异，计算预设损失函数的损失值的步骤，包括：

分别根据所述第一图像对应的变换处理方式以及所述第二图像对应的变换处理方式，确定所述第一图像与所述样本图像之间的第一变换关系以及所述第二图像与所述样本图像之间的第二变换关系；

将所述第一分类矩阵和所述第一检测框位置按照所述第一变换关系进行处理，得到变换后的第一分类矩阵和变换后的第一检测框位置；

将所述第二分类矩阵和所述第二检测框位置按照所述第二变换关系进行处理，得到变换后的第二分类矩阵和变换后的第二检测框位置；

基于所述变换后的第一分类矩阵与所述变换后的第二分类矩阵之间的差异，计算得到分类损失值，并基于所述变换后的第一检测框位置与所述变换后的第二检测框位置之间的差异，计算得到回归损失值。

可选的，所述方法还包括：

获取待检测图像；

将所述待检测图像输入所述视觉语言模型，得到所述视觉语言模型基于所述文本提示信息以及所述待检测图像输出的检测结果。

第二方面，本申请实施例提供了一种电子设备，包括：

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面任一所述的方法。

本申请实施例有益效果：

本申请实施例提供的方案中，电子设备可以获取每个样本图像对应的第一图像以及第二图像，其中，第一图像和第二图像为对样本图像进行不同变换处理得到的；针对每个样本图像，将该样本图像对应的第一图像、第二图像、第一文本提示信息以及第二文本提示信息输入视觉语言模型，得到视觉语言模型基于第一图像以及第一文本提示信息输出的第一检测结果，以及视觉语言模型基于第二图像以及第二文本提示信息输出的第二检测结果，其中，第一文本提示信息和第二文本提示信息均用于表征所要从样本图像中识别出的目标的类别；基于第一检测结果确定第二图像对应的伪标签，并基于伪标签与第二检测结果之间的差异，计算预设损失函数的损失值；根据损失值，按照第一调整方式调整第一文本提示信息，并按照第二调整方式调整第二文本提示信息，直到预设损失函数达到收敛条件，基于调整后的第一文本提示信息，确定视觉语言模型的文本提示信息。由于第一检测结果是基于第一文本提示信息和第一图像得到的，因此第一检测结果可以表示第一图像中各目标所属的类别以及目标所在位置。第一图像和第二图像是对同一张样本图像进行不同变换处理得到的，第二图像与第一图像中包含的目标相同，这样，第一检测结果也就可以标识第二图像中各目标所属的类别以及目标所在位置，因此，可以基于第一检测结果确定第二图像对应的伪标签，进而基于该伪标签与第二检测结果之间的差异，进行提示学习。不需要人工打标签，可以实现不依赖于人工打标签的无监督提示学习。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1为本申请实施例所提供的一种视觉语言模型的提示学习方法的流程图；

图2为图1所示实施例中步骤S104的一种具体流程图；

图3为图1所示实施例中步骤S103的一种具体流程图；

图4（a）为基于图1所示实施例的目标文本提示信息的确定方式的一种示意图；

图4（b）为基于图1所示实施例的目标文本提示信息的确定方式的另一种示意图；

图5为图1所示实施例中步骤S102的一种具体流程图；

图6为图5所示实施例中步骤S503的一种具体流程图；

图7为图1所示实施例中步骤S103的一种具体流程图；

图8为基于图1所示实施例的对待检测图像进行目标检测的一种流程图；

图9为基于图1所示实施例的视觉语言模型的提示学习方法的一种示意图；

图10为本申请实施例所提供的一种视觉语言模型的提示学习装置的结构示意图；

图11为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本申请保护的范围。

为了实现视觉语言模型的无监督提示学习。本申请实施例提供了一种视觉语言模型的提示学习方法、装置、电子设备、计算机可读存储介质以及计算机程序产品。下面首先对本申请实施例所提供的一种视觉语言模型的提示学习方法进行介绍。

本申请实施例所提供的一种视觉语言模型的提示学习方法可以应用于任意需要对视觉语言模型进行提示学习的电子设备，例如，可以为模型训练设备、深度学习平台、处理设备等，在此不做具体限定。为了描述清楚，本文中后续称为电子设备。

如图1所示，一种视觉语言模型的提示学习方法，所述方法包括：

S101，获取每个样本图像对应的第一图像以及第二图像；

其中，所述第一图像和所述第二图像为对所述样本图像进行不同变换处理得到的。

S102，针对每个样本图像，将该样本图像对应的第一图像、第二图像、第一文本提示信息以及第二文本提示信息输入视觉语言模型，得到所述视觉语言模型基于所述第一图像以及所述第一文本提示信息输出的第一检测结果，以及所述视觉语言模型基于所述第二图像以及所述第二文本提示信息输出的第二检测结果；

其中，所述第一文本提示信息和所述第二文本提示信息均用于表征所要从所述样本图像中识别出的目标的类别。

S103，基于所述第一检测结果确定所述第二图像对应的伪标签，并基于所述伪标签与所述第二检测结果之间的差异，计算预设损失函数的损失值；

S104，根据所述损失值，按照第一调整方式调整所述第一文本提示信息，并按照第二调整方式调整所述第二文本提示信息，直到所述预设损失函数达到收敛条件，基于调整后的所述第一文本提示信息，确定所述视觉语言模型的文本提示信息。

可见，本申请实施例中，电子设备可以获取每个样本图像对应的第一图像以及第二图像，其中，第一图像和第二图像为对样本图像进行不同变换处理得到的；针对每个样本图像，将该样本图像对应的第一图像、第二图像、第一文本提示信息以及第二文本提示信息输入视觉语言模型，得到视觉语言模型基于第一图像以及第一文本提示信息输出的第一检测结果，以及视觉语言模型基于第二图像以及第二文本提示信息输出的第二检测结果，其中，第一文本提示信息和第二文本提示信息均用于表征所要从样本图像中识别出的目标的类别；基于第一检测结果确定第二图像对应的伪标签，并基于伪标签与第二检测结果之间的差异，计算预设损失函数的损失值；根据损失值，按照第一调整方式调整第一文本提示信息，并按照第二调整方式调整第二文本提示信息，直到预设损失函数达到收敛条件，基于调整后的第一文本提示信息，确定视觉语言模型的文本提示信息。由于第一检测结果是基于第一文本提示信息和第一图像得到的，因此第一检测结果可以表示第一图像中各目标所属的类别以及目标所在位置。第一图像和第二图像是对同一张样本图像进行不同变换处理得到的，第二图像与第一图像中包含的目标相同，这样，第一检测结果也就可以标识第二图像中各目标所属的类别以及目标所在位置，因此，可以基于第一检测结果确定第二图像对应的伪标签，进而基于该伪标签与第二检测结果之间的差异，进行提示学习。不需要人工打标签，可以实现不依赖于人工打标签的无监督提示学习。

在步骤S101中，电子设备可以获取每个样本图像对应的第一图像以及第二图像。其中，样本图像为针对视觉语言模型的应用场景采集的包括所要检测的目标的图像，第一图像和第二图像为对样本图像进行不同变换处理得到的。

上述变换处理可以为弱增广（Weakly-augmented）、强增广（Strongly-augmented）等，具体可以包括旋转处理、色彩变换处理、纹理变化处理等，在此不做具体限定。例如，第一图像可以为对样本图像进行弱增广得到的，第二图像可以为对样本图像进行强增广得到的。对样本图像进行不同变换处理的执行主体可以为上述电子设备，也可以为图像处理设备等除电子设备外的其它设备。

为了确定出第一图像和第二图像所包含的目标的类别，电子设备可以将第一图像、第二图像、第一文本提示信息以及第二文本提示信息输入视觉语言模型。视觉语言模型可以基于图像以及文本提示信息，确定出图像中各目标属于文本提示信息所表征的类别的概率，以及图像所包括的目标的检测框位置。

其中，第一文本提示信息和第二文本提示信息均用于表征所要从样本图像中识别出的目标的类别，第一文本提示信息和第二文本提示信息可以为类别文本对应的词特征向量，类别可以根据用户需求进行设定，可以为视觉语言模型所要检测的目标的类别。例如，视觉语言模型应用于检测猫、狗和人，那么第一文本提示信息和第二文本提示信息可以为“猫”、“狗”以及“人”对应的词特征向量。

这样，视觉语言模型便可以基于第一图像以及第一文本提示信息输出第一检测结果，并且基于第二图像以及第二文本提示信息输出第二检测结果。电子设备可以得到第一检测结果和第二检测结果，即执行步骤S102。其中，初始的第一文本提示信息和初始的第二文本提示信息可以相同，均为预设的各类别对应的文本提示信息。

在确定第一检测结果和第二检测结果后，电子设备可以基于第一检测结果确定第二图像对应的伪标签。具体来说，伪标签可以通过下述四种实施方式确定：

在第一种实施方式中，电子设备可以将第一检测结果作为第二图像对应的伪标签。在第二种实施方式中，电子设备可以将多次迭代后的第一检测结果作为第二图像对应的伪标签。具体来说，电子设备可以将第一检测结果作为第二图像对应的初始伪标签，基于初始伪标签与第二检测结果之间的差异，计算预设损失函数的初始损失值。

由于经过多轮调整后的第一文本提示信息的准确度更高，因此基于经过多轮调整后的第一文本提示信息与第一图像得到的检测结果的准确度更高，进而基于该检测结果确定的伪标签的准确度更高。

为了得到准确度更高的伪标签，电子设备可以根据初始损失值，按照第一调整方式，以使得初始损失值下降的方向调整第一文本提示信息，并按照第二调整方式，以使得初始损失值下降的方向调整第二文本提示信息，并基于调整后的第一文本提示信息和调整后的第二文本提示信息继续进行迭代，然后进行下一个样本图像的训练，直到调整次数达到预设次数，得到调整后的第一文本提示信息，作为目标文本提示信息。其中，第一调整方式的调整速度可以小于第二调整方式的调整速度。预设次数可以为1次、3次或5次等，在此不做具体限定。

接下来，电子设备可以将目标文本提示信息以及第一图像输入视觉语言模型，得到视觉语言模型基于第一图像以及目标文本提示信息输出的检测结果，将该检测结果确定为第二图像对应的伪标签。

在第三种实施方式和第四种实施方式中，第一文本提示信息可以包括在线提示信息和离线提示信息，其中，离线提示信息在提示学习过程中保持不变。第一图像包括第一子图像和第二子图像。第一子图像与第二子图像可以为对样本图像进行不同变换处理得到的，也可以为对样本图像进行相同变换处理得到的，但是第一子图像和第二子图像对应的变换处理与第二图像对应的变换处理均不同。

在第三种实施方式中，电子设备可以根据在线提示信息以及第一子图像确定在线提示信息对应的检测结果，并根据离线提示信息以及第二子图像确定离线提示信息对应的检测结果。基于在线提示信息对应的检测结果以及离线提示信息对应的检测结果，确定第一检测结果。电子设备可以将第一检测结果作为第二图像对应的伪标签。

在第四种实施方式中，电子设备可以将多次迭代后的第一检测结果作为第二图像对应的伪标签，其中，第一检测结果的确定方式与第三种实施方式相同，迭代方式与上述第二种实施方式相同。这样，可以得到准确度更高的伪标签。

在确定第二图像对应的伪标签后，电子设备便可以基于伪标签与第二检测结果之间的差异，计算预设损失函数的损失值，即执行步骤S103。其中，损失值可以包括分类损失值以及回归损失值。

计算得到预设损失函数的损失值后，电子设备便可以根据上述损失值，按照第一调整方式调整第一文本提示信息，并按照第二调整方式调整第二文本提示信息，然后进行下一个样本图像的训练，直到预设损失函数达到收敛条件，基于调整后的第一文本提示信息，确定视觉语言模型的文本提示信息。在一种实施方式中，电子设备可以将调整后的第一文本提示信息作为视觉语言模型的文本提示信息，从而完成视觉语言模型的无监督提示学习。

其中，第一调整方式对应的调整速度可以小于第二调整方式对应的调整速度。收敛条件可以为调整次数达到预设的调整次数，或者预设损失函数的损失值达到收敛。

可见，本申请实施例中，由于第一检测结果是基于第一文本提示信息和第一图像得到的，因此第一检测结果可以表示第一图像中各目标所属的类别以及目标所在位置。第一图像和第二图像是对同一张样本图像进行不同变换处理得到的，第二图像与第一图像中包含的目标相同，这样，第一检测结果也就可以标识第二图像中各目标所属的类别以及目标所在位置，因此，可以基于第一检测结果确定第二图像对应的伪标签，进而基于该伪标签与第二检测结果之间的差异，进行提示学习。不需要人工打标签，可以实现不依赖于人工打标签的无监督提示学习。

作为本申请实施例的一种实施方式，第二文本提示信息可以为学生提示信息，第一文本提示信息可以包括对偶的在线教师提示信息和离线教师提示信息，离线教师提示信息可以为预先基于所要从样本图像中识别出的目标的类别确定的。

在这种情况下，如图2所示，上述根据所述损失值，按照第一调整方式调整所述第一文本提示信息，并按照第二调整方式调整所述第二文本提示信息，直到所述预设损失函数达到收敛条件，基于调整后的所述第一文本提示信息，确定所述视觉语言模型的文本提示信息的步骤，可以包括：

S201，根据所述损失值，按照第一调整方式调整所述在线教师提示信息，并保持所述离线教师提示信息不变；

由于伪标签是基于第一检测结果确定的，并且第一检测结果可以基于在线教师提示信息确定。因此在线教师提示信息在迭代的过程中不断发生改变，可能会导致伪标签发生偏移，使得视觉语言模型发生灾难性遗忘。

为了避免基于经过调整后的第一文本提示信息生成的伪标签与基于初始的第一文本提示信息生成的伪标签之间的偏移量过大。电子设备可以基于损失值，按照第一调整方式，以损失值减小的方向，仅调整在线教师提示信息，并保持离线教师提示信息不变。

上述在线教师提示信息和离线教师提示信息的初始值相同，离线教师提示信息为预先确定的能够准确标识所要从样本图像中识别出的目标的类别的提示信息，例如，目标的类别包括人、车辆、狗，那么离线教师提示信息可以为人、车辆、狗分别对应的词向量。

在每次迭代的过程中，离线教师提示信息保持不变，在线教师提示信息按照一定的方式进行微调，由于二者初始值相同，可以认为在线教师提示信息是在离线教师提示信息的基础上进行微调得到的，所以二者可以称为对偶教师提示信息。

这样，由于第一文本提示信息包括不变的离线教师提示信息，并且是能够准确标识所要从样本图像中识别出的目标的类别的，因此经过调整后的第一文本信息与初始的第一文本信息之间的偏移量较小，进而基于经过调整后的第一文本信息生成的伪标签与基于初始的第一文本信息生成的伪标签之间的偏移量较小，可以避免视觉语言模型发生灾难性遗忘。

S202，根据所述损失值，按照第二调整方式调整所述学生提示信息；返回获取每个样本图像对应的第一图像以及第二图像的步骤，直到所述预设损失函数达到收敛条件，执行步骤S203；

为了提高学生提示信息的准确度，电子设备可以根据损失值，按照第二调整方式，以损失值下降的方向调整学生提示信息。返回所述获取每个样本图像对应的第一图像以及第二图像的步骤，在预设损失函数达到收敛条件的情况下，执行步骤S203。

其中，学生提示信息、在线教师提示信息和离线教师提示信息的初始值均可以相同，在每次迭代的过程中，离线教师提示信息保持不变，在线教师提示信息和学生提示信息进行微调。在一种实施方式中，在每次迭代的过程中，根据上述损失值，按照第二调整方式调整学生提示信息，在线教师提示信息对应的第二调整方式为对调整后的学生提示信息进行加权处理得到，例如，可以为指数递减加权平均处理等，这样，可以使得在线教师提示信息的调整速度小于学生提示信息的调整速度，得到的在线教师提示信息的精确度也就更高一些。

S203，将调整后的所述在线教师提示信息，确定为所述视觉语言模型的文本提示信息。

由于第一调整方式对应的调整速度小于第二调整方式对应的调整速度，因此按照第一调整方式进行调整的在线教师提示信息的准确度大于按照第二调整方式进行调整的学生提示信息的准确度。因此，电子设备可以将调整后的在线教师提示信息，确定为视觉语言模型的文本提示信息。

作为一种实施方式，学生提示信息对应的第二图像可以为对样本图像进行第一强增广处理得到的，在线教师提示信息对应的第一图像为对样本图像进行第二强增广处理得到的，离线教师提示信息对应的第一图像为对样本图像进行弱增广处理得到的。

其中，第一强增广处理和第二强增广处理均为强增广处理，但是，具体来说，第一强增广处理和第二强增广处理包括的旋转程度、色彩变化程度、纹理变化程度等可以不同，以使第二图像与在线教师提示信息对应的第一图像呈现不同的处理效果。经过试验测试证明，基于这样的变化处理方式得到的第一图像和第二图像进行提示学习，学习效果更佳，文本提示信息更佳准确。

可见，本申请实施例中，电子设备可以根据损失值，按照第一调整方式调整在线教师提示信息，并保持离线教师提示信息不变；根据损失值，按照第二调整方式调整学生提示信息；直到预设损失函数达到收敛条件，将调整后的在线教师提示信息，确定为视觉语言模型的文本提示信息。由于第一文本提示信息包括不变的离线教师提示信息，因此经过调整后的第一文本信息与初始的第一文本信息之间的偏移量较小，进而基于经过调整后的第一文本信息生成的伪标签与基于初始的第一文本信息生成的伪标签之间的偏移量较小，可以避免伪标签在调整过程中发生过大的偏移，避免发生灾难性遗忘。

作为本申请实施例的一种实施方式，如图3所示，上述基于所述第一检测结果确定所述第二图像对应的伪标签的步骤，可以包括：

S301，将所述第一检测结果作为所述第二图像对应的初始伪标签，并基于所述初始伪标签与所述第二检测结果之间的差异，计算所述预设损失函数的初始损失值；

在第一文本提示信息包括在线教师提示信息和离线教师提示信息的情况下，电子设备可以根据在线教师提示信息和第一子图像确定在线教师提示信息对应的检测结果，并根据离线教师提示信息和第二子图像确定离线教师提示信息对应的检测结果。其中，在线教师提示信息对应的检测结果以及离线教师提示信息对应的检测结果包括目标所属的类别以及检测框位置。

如果在线教师提示信息对应的检测结果以及离线教师提示信息对应的检测结果中，至少一个检测结果表征目标属于某类别，那么可以在第一检测结果中确定目标属于该类别。如果两个检测结果均表征目标不属于任何一个类别，那么可以在第一检测结果中确定目标不属于任何类别。

在确定初始伪标签后，为了确定第二检测结果与伪标签之间的偏差，电子设备可以基于初始伪标签与第二检测结果之间的差异，计算预设损失函数的初始损失值。

S302，根据所述初始损失值，按照第一调整方式调整所述第一文本提示信息，并按照第二调整方式调整所述第二文本提示信息，直到调整次数达到预设次数，得到调整后的第一文本提示信息，作为目标文本提示信息；

由于经过多轮调整后的第一文本提示信息的准确度更高，因此基于经过多轮调整后的第一文本提示信息与第一图像得到的检测结果的准确度更高，进而基于该检测结果确定的伪标签的准确度更高。为了得到准确度更高的伪标签，可以预先确定预设次数。其中，预设次数可以为1次、3次或5次等，在此不做具体限定。

在确定初始损失值后，电子设备可以根据初始损失值，按照第一调整方式调整第一文本提示信息，并按照第二调整方式调整第二文本提示信息，返回获取每个样本图像对应的第一图像以及第二图像的步骤，直到调整次数达到预设次数，得到调整后的第一文本提示信息，作为目标文本提示信息。

S303，将所述目标文本提示信息以及所述第一图像输入所述视觉语言模型，得到所述视觉语言模型基于所述第一图像以及所述目标文本提示信息输出的检测结果，将所述检测结果确定为所述第二图像对应的伪标签。

在确定目标文本提示信息后，电子设备可以将目标文本提示信息以及第一图像输入视觉语言模型，得到视觉语言模型基于第一图像以及目标文本提示信息输出的检测结果。由于检测结果是基于经过预设次数调整后的目标文本提示信息生成的，因此该检测结果的准确度相较于基于未经过调整的第一文本提示信息生成的检测结果的准确度更高。为了提高伪标签的准确度，电子设备可以将基于第一图像以及目标文本提示信息输出的检测结果，确定为所述第二图像对应的伪标签。

作为本申请实施例的一种实施方式，确定目标文本提示信息的示意图可以如图4（a）和图4（b）所示。下面将结合图4（a）和图4（b）所对目标文本提示信息的确定方式进行说明：

在图4（a）中，S_n表示经过第n轮迭代得到的学生提示信息，T_n表示经过第n轮迭代得到的在线教师提示信息，X_n表示经过第n轮迭代中的样本图像。同一轮迭代中的学生提示信息与在线教师提示信息之间满足EMA（Exponential Moving Average，指数加权平均法）的关系，并且当前迭代轮次之后K轮得到在线教师指示对应的检测结果为当前迭代轮次中学生提示信息的PL（Pseudo Label，伪标签）。

以第t轮迭代为例，样本图像为X_t，学生提示信息和教师提示信息分别为S_t和T_t。电子设备可以分别对X_t进行两种不同变换处理，得到第一图像X'_t以及第二图像X''_t。将第一图像X'_t、第二图像X''_t、在线教师提示信息T_t以及学生提示信息S_t输入视觉语言模型，得到视觉语言模型基于第一图像X'_t以及在线教师提示信息T_t输出的第一检测结果，以及基于第二图像X''_t以及学生提示信息S_t输出的第二检测结果。

将第一检测结果作为第二图像X''_t对应的初始伪标签，并基于初始伪标签与第二检测结果之间的差异，计算预设损失函数的初始损失值。根据初始损失值，按照第一调整方式调整在线教师提示信息T_t，并按照第二调整方式调整学生提示信息S_t，返回针对每个样本图像，将该样本图像对应的第一图像、第二图像、第一文本提示信息以及第二文本提示信息输入视觉语言模型的步骤，直到调整次数达到预设次数K，得到调整后的在线教师提示信息T'_t+K，以及调整后的调整学生提示信息S'_t+K。

将调整后的在线教师提示信息T'_t+K，以及第一图像第一图像X'_t输入视觉语言模型，得到视觉语言模型基于第一图像X'_t以及调整后的在线教师提示信息T'_t+K输出的检测结果，将检测结果确定为第二图像X''_t对应的伪标签。

基于伪标签与第二检测结果之间的差异，计算预设损失函数的损失值。根据损失值，按照第一调整方式调整学生提示信息S_t，并按照第二调整方式调整在线教师提示信息T_t，返回针对每个样本图像，将该样本图像对应的第一图像、第二图像、第一文本提示信息以及第二文本提示信息输入视觉语言模型的步骤。直到损失函数达到收敛条件，得到第t+1个迭代轮次对应的在线教师提示信息T_t+1以及学生提示信息S_t+1，并获取第t+1个迭代轮次对应的样本图像X_t+1。

在第t+1轮迭代中，样本图像为X_t+1，学生提示信息和教师提示信息分别为S_t+1和T_t+1。电子设备可以分别对X_t+1进行两种不同变换处理，得到第一图像X'_t+1以及第二图像X''_t+1。将第一图像X'_t+1、第二图像X''_t+1、在线教师提示信息T_t+1以及学生提示信息S_t+1输入视觉语言模型，得到视觉语言模型基于第一图像X'_t+1以及在线教师提示信息T_t+1输出的第一检测结果，以及基于第二图像X''_t+1以及学生提示信息S_t+1输出的第二检测结果。

将第一检测结果作为第二图像X''_t+1对应的初始伪标签，并基于初始伪标签与第二检测结果之间的差异，计算预设损失函数的初始损失值。根据初始损失值，按照第一调整方式调整在线教师提示信息T_t+1，并按照第二调整方式调整学生提示信息S_t+1，返回针对每个样本图像，将该样本图像对应的第一图像、第二图像、第一文本提示信息以及第二文本提示信息输入视觉语言模型的步骤，直到调整次数达到预设次数K，得到调整后的在线教师提示信息T'_（t+1）+K，以及调整后的调整学生提示信息S'_（t+1）+K。

将调整后的在线教师提示信息T'_（t+1）+K，以及第一图像第一图像X'_t+1输入视觉语言模型，得到视觉语言模型基于第一图像X'_t+1以及调整后的在线教师提示信息T'_（t+1）+K输出的检测结果，将检测结果确定为第二图像X''_t+1对应的伪标签。

基于伪标签与第二检测结果之间的差异，计算预设损失函数的损失值。根据损失值，按照第一调整方式调整学生提示信息S_t+1，并按照第二调整方式调整在线教师提示信息T_t+1，返回针对每个样本图像，将该样本图像对应的第一图像、第二图像、第一文本提示信息以及第二文本提示信息输入视觉语言模型的步骤。直到损失函数达到收敛条件，得到第t+2个迭代轮次对应的在线教师提示信息T_t+2以及学生提示信息S_t+2，并获取第t+2个迭代轮次对应的样本图像X_t+2。

如图4（a）下半部分的虚线框中所示为，第t+2轮迭代中经过K轮调整后得到的目标文本提示信息的一种示意图。下述生成经过K轮调整后得到的目标文本提示信息的过程均为虚拟进行的。将第t+2轮迭代中的学生提示信息S_t+2和在线教师提示信息T_t+2作为S'_t+2和T'_t+2。基于第t+2轮迭代中的样本图像X_t+2，对学生提示信息S'_t+2和在线教师提示信息T'_t+2进行调整，得到调整后的学生提示信息S'_（t+2）+1和在线教师提示信息T'_（t+2）+1。将该迭代过程重复进行K轮，得到调整后的学生提示信息S'_（t+2）+K和在线教师提示信息T'_（t+2）+K。其中，在线教师提示信息T'_（t+2）+K即为第t+2轮迭代中经过K轮调整后得到的目标文本提示信息。通过与之前轮次的迭代相同的方式，计算损失值，并根据损失值，按照第一调整方式调整学生提示信息S_t+2，并按照第二调整方式调整在线教师提示信息T_t+2，返回针对每个样本图像，将该样本图像对应的第一图像、第二图像、第一文本提示信息以及第二文本提示信息输入视觉语言模型的步骤。直到损失函数达到收敛条件，得到第t+3个迭代轮次对应的在线教师提示信息T_t+3以及学生提示信息S_t+3，并获取第t+3个迭代轮次对应的样本图像X_t+3。

图4（b）为相邻两次迭代过程中，均经过K轮虚拟的迭代生成目标文本提示信息，并基于目标文本提示信息生成伪标签，基于伪标签计算损失值，进而基于损失值调整当轮的学生提示信息和在线教师提示信息的一种示意图。

在第t轮迭代中，（S_t，T_t）表示第t轮迭代的学生提示信息S_t和在线教师提示信息T_t，经过K轮虚拟的迭代生成（S'_t+K,T'_t+K），即经过K轮虚拟的迭代的学生提示信息S'_t+K和在线教师提示信息T'_t+K。其中，在线教师提示信息T'_t+K为目标文本提示信息。基于目标文本提示信息与当轮样本图像X_t生成检测结果，将检测结果作为伪标签。基于伪标签与第t轮迭代的学生提示信息S_t对应的检测结果之间的差异，计算损失值。根据损失值，调整第t轮迭代的学生提示信息S_t和在线教师提示信息T_t，得到调整后的（S_t+1，T_t+1），即第t+1轮迭代的学生提示信息S_t+1和在线教师提示信息T_t+1。

接下来，在第t+1轮迭代中，生成（S'_（t+1）+K,T'_（t+1）+K），即经过K轮虚拟的迭代的学生提示信息S'_（t+1）+K和在线教师提示信息T'_（t+1）+K。将在线教师提示信息T'_（t+1）+K作为目标文本提示信息，重复第t轮迭代中的调整过程，得到调整后的（S_t+2，T_t+2），即第t+2轮迭代的学生提示信息S_t+2和在线教师提示信息T_t+2。在第t+2轮迭代中，生成（S'_（t+2）+K,T'_（t+2）+K），即经过K轮虚拟的迭代的学生提示信息S'_（t+2）+K和在线教师提示信息T'_（t+2）+K。将在线教师提示信息T'_（t+2）+K作为目标文本提示信息，重复第t轮迭代中调整过程，得到调整后的（S_t+3，T_t+3），即第t+3轮迭代的学生提示信息S_t+3和在线教师提示信息T_t+3。

可见，本申请实施例中，电子设备可以将第一检测结果作为第二图像对应的初始伪标签，并基于初始伪标签与第二检测结果之间的差异，计算预设损失函数的初始损失值；根据初始损失值，按照第一调整方式调整第一文本提示信息，并按照第二调整方式调整第二文本提示信息，直到调整次数达到预设次数，得到调整后的第一文本提示信息，作为目标文本提示信息；将目标文本提示信息以及第一图像输入视觉语言模型，得到视觉语言模型基于第一图像以及目标文本提示信息输出的检测结果，将检测结果确定为第二图像对应的伪标签。由于经过多轮调整后的第一文本提示信息的准确度更高，因此基于经过多轮调整后的第一文本提示信息与第一图像得到的检测结果的准确度更高，进而基于该检测结果确定的伪标签的准确度更高，可以提高伪标签的准确度。

作为本申请实施例的一种实施方式，上述视觉语言模型可以包括文本编码器和图像编码器。

在这种情况下，如图5所示，上述将该样本图像对应的第一图像、第二图像、第一文本提示信息以及第二文本提示信息输入视觉语言模型，得到所述视觉语言模型基于所述第一图像以及所述第一文本提示信息输出的第一检测结果，以及所述视觉语言模型基于所述第二图像以及所述第二文本提示信息输出的第二检测结果的步骤，可以包括：

S501，将该样本图像对应的第一图像和第二图像输入所述图像编码器，得到所述第一图像对应的第一图像特征向量以及所述第二图像对应的第二图像特征向量；

由于图像特征向量可以反映目标所具备的特征，因此电子设备可以确定第一图像和第二图像分别对应的图像特征向量。具体的，电子设备可以将该样本图像对应的第一图像和第二图像输入图像编码器，得到第一图像对应的第一图像特征向量以及第二图像对应的第二图像特征向量。其中，图像编码器为预先训练得到的，其用于提取图像对应的图像特征向量。

如果第一图像包括第一子图像和第二子图像，那么可以将第一子图像和第二子图像分别输入图像编码器，得到第一子图像对应的图像特征向量，以及第二子图像对应的图像特征向量。

S502，将该样本图像对应的第一文本提示信息和第二文本提示信息输入所述文本编码器，得到所述第一文本提示信息对应的第一文本特征向量以及所述第二文本提示信息对应的第二文本特征向量；

由于文本特征向量可以反映类别文本的语义特征，因此电子设备可以确定第一文本提示信息和第二文本提示信息分别对应的文本特征向量。具体的，电子设备可以将该样本图像对应的第一文本提示信息和第二文本提示信息输入所述文本编码器，得到第一文本提示信息对应的文本特征向量以及第二文本提示信息对应的第二文本特征向量。其中，文本编码器为预先训练得到的，其用于提取文本提示信息对应的文本特征向量。

如果第一文本提示信息包括在线教师提示信息和离线教师提示信息，那么可以将在线教师提示信息和离线教师提示信息分别输入文本编码器，得到在线教师提示信息以及离线教师提示信息分别对应的文本特征向量。

S503，基于所述第一图像特征向量与所述第一文本特征向量之间的相似度，输出第一检测结果，并基于所述第二图像特征向量与所述第二文本特征向量之间的相似度，输出第二检测结果。

上述图像编码器输出的图像特征向量与文本编码器输出的文本特征向量可以位于同一特征空间。由于图像特征向量可以反映目标具备的图像特征，文本特征向量可以反映类别文本具备的语义特征，因此如果图像特征向量与文本特征向量之间的相似度较高，说明图像特征向量对应的目标属于文本特征向量对应的类别。这样，电子设备可以基于第一图像特征向量与第一文本特征向量之间的相似度，输出第一检测结果，并基于第二图像特征向量与第二文本特征向量之间的相似度，输出第二检测结果。

可见，本申请实施例中，电子设备可以将该样本图像对应的第一图像和第二图像输入图像编码器，得到第一图像对应的第一图像特征向量以及第二图像对应的第二图像特征向量；将该样本图像对应的第一文本提示信息和第二文本提示信息输入文本编码器，得到第一文本提示信息对应的第一文本特征向量以及第二文本提示信息对应的第二文本特征向量；基于第一图像特征向量与第一文本特征向量之间的相似度，输出第一检测结果，并基于第二图像特征向量与第二文本特征向量之间的相似度，输出第二检测结果。由于文本特征向量与图像特征向量之间的相似度可以准确表征图像特征向量对应的目标是否属于文本特征向量对应的类别，所以可以快速准确地对第一图像和第二图像进行目标检测。

作为本申请实施例的一种实施方式，上述第一图像特征向量可以为第一图像中的每个图像区域对应的图像特征向量，第二图像特征向量可以为第二图像中的每个图像区域对应的图像特征向量，图像区域可以为按照预设划分方式对图像进行划分得到的。

在这种情况下，如图6所示，上述基于所述第一图像特征向量与所述第一文本特征向量之间的相似度，输出第一检测结果，并基于所述第二图像特征向量与所述第二文本特征向量之间的相似度，输出第二检测结果的步骤，可以包括：

S601，针对所述第一图像包括的每个图像区域，计算该图像区域对应的第一图像特征向量与所述第一文本特征向量之间的第一相似度；

为了确定第一图像中每个图像区域所包括的目标所属的类别，电子设备可以针对第一图像包括的每个图像区域，计算该图像区域对应的第一图像特征向量与第一文本特征向量之间的第一相似度。

例如，假设第一图像包括图像区域1-图像区域N，第一文本特征向量包括“人”、“狗”以及“猫”对应的文本特征向量。那么电子设备可以分别针对每个图像区域，计算该图像区域对应的第一图像特征向量分别与第一文本特征向量之间的相似度。以图像区域1为例，图像区域1对应的第一图像特征向量分别与“人”、“狗”以及“猫”对应的文本特征向量之间的相似度。

如果第一文本提示信息为在线教师提示信息和离线教师提示信息，电子设备可以分别针对第一子图像包括的每个图像区域，以及第二子图像包括的每个图像区域，计算该图像区域对应的图像特征向量与文本特征向量之间的相似度。

S602，根据所述第一相似度与预设阈值之间的大小关系，确定该图像区域对应的分类值，得到所述第一图像对应的第一分类矩阵；

为了确定第一图像对应的各图像区域是否属于第一文本特征信息对应的类别，可以预先设置预设阈值。例如，预设阈值可以为90%、95%或98%等。如果第一相似度大于预设阈值，说明目标对应的图像特征向量与类别文本对应的文本特征向量之间的相似度较高，可以确定目标属于该类别。电子设备可以根据第一相似度与预设阈值之间的大小关系，在第一相似度大于预设阈值的情况下，将分类值设为第一分类值；在第一相似度不大于预设阈值的情况下，将分类值设为第二分类值。针对各个图像区域，确定该图像区域对应的分类值，得到第一图像对应的第一分类矩阵。

其中，第一分类矩阵中的每个元素为一个分类值，每个分类值用于标识对应的图像区域是否属于该元素对应的类别。例如，第一分类矩阵的列可以表示第一图像对应的各个图像区域，行可以表示第一提示文本信息对应的类别，上述第一分类矩阵的行和列所表示的内容可以交换。

在一种实施方式中，第一分类值可以为1，第二分类值可以为0。例如，假设第一分类矩阵的第一行-第四行依次表示图像区域1-图像区域4，第一列、第二列…第N列依次表示类别“人”、“狗”以及“猫”。如果图像区域1对应的图像特征向量与上述三个类别对应的文本特征向量之间的相似度分别为90%、4%以及6%；图像区域2对应的图像特征向量与上述三个类别对应的文本特征向量之间的相似度分别为5%、4%以及96%；图像区域3对应的图像特征向量与上述三个类别对应的文本特征向量之间的相似度分别为5%、94%以及6%。在预设阈值为85%的情况下，第一分类矩阵可以如下所示：

如果第一文本提示信息包括在线教师提示信息和离线教师提示信息，电子设备可以根据在线教师提示信息对应的相似度与第一预设阈值之间的大小关系，确定第一子图像中的图像区域对应的分类值，得到第一子图像对应的分类矩阵。并且可以根据离线教师提示信息对应的相似度与第二预设阈值之间的大小关系，确定第二子图像中的图像区域对应的分类值，得到第二子图像对应的分类矩阵。

S603，基于所述第一分类矩阵所表示的每个图像区域对应的分类值，确定所述第一图像所包括的目标的第一检测框位置，输出包括所述第一分类矩阵和所述第一检测框位置的第一检测结果；

针对第一图像中的每个图像区域，电子设备可以基于第一分类矩阵中各元素的分类值所表征的该图像区域的目标是否属于对应的类别。如果分类值表征目标属于该类别，可以将该分类值对应的图像区域确定为第一检测框位置。进而输出包括第一分类矩阵和第一检测框位置的第一检测结果。

如果第一文本提示信息包括在线教师提示信息和离线教师提示信息，电子设备可以针对在线教师提示信息和离线教师提示信息对应的分类矩阵所表示的每个图像区域对应的分类值，分别确定第一子图像和第二子图像所包括的目标的检测框位置，输出包括第一分类矩阵和第一检测框位置的第一检测结果。

例如，第一图像中的图像区域1-图像区域9对应的分类值表征的图像区域1-图像区域9中的目标是否属于人，电子设备可以将图像区域1-图像区域9的位置基于目标的特定进行一定的偏移，得到目标人的第一检测框位置。

S604，针对所述第二图像包括的每个图像区域，计算该图像区域对应的第二图像特征向量与所述第二文本特征向量之间的第二相似度；

为了确定第二图像中每个图像区域所包括的目标所属的类别，电子设备可以针对第二图像包括的每个图像区域，计算该图像区域对应的第二图像特征向量与第二文本特征向量之间的第二相似度。

例如，假设第二图像包括图像区域1-图像区域N，第二文本特征向量包括“人”、“狗”以及“猫”对应的文本特征向量。那么电子设备可以分别针对每个图像区域，计算该图像区域对应的第二图像特征向量与第二文本特征向量之间的相似度。以图像区域1为例，图像区域1对应的第二图像特征向量分别与“人”、“黄色的狗”以及“猫”对应的文本特征向量之间的相似度。

S605，根据所述第二相似度确定该图像区域对应的分类值，得到所述第二图像对应的第二分类矩阵；

其中，所述第二分类矩阵中的每个元素为一个分类值，每个分类值用于标识对应的图像区域属于该元素对应的类别的概率；

由于相似度可以反映目标与类别之间的符合程度，因此电子设备可以将第二相似度作为分类值，得到第二图像对应的第二分类矩阵。其中，第二分类矩阵的行可以表示第二图像对应的各个图像区域，列可以表示第二提示文本信息对应的类别，上述第二分类矩阵的行和列所表示的内容可以交换。

例如，假设第二分类矩阵的第一行-第四行依次表示图像区域1-图像区域4，第一列、第二列…第N列依次表示类别“人”、“狗”以及“猫”。如果图像区域1对应的图像特征向量与上述三个类别对应的文本特征向量之间的相似度分别为80%、4%以及5%；图像区域2对应的图像特征向量与上述三个类别对应的文本特征向量之间的相似度分别为5%、4%以及96%；图像区域3对应的图像特征向量与上述三个类别对应的文本特征向量之间的相似度分别为6%、96%以及8%。第二分类矩阵可以如下所示：

第一分类矩阵和第二分类矩阵中相同位置的分类值所表征的图像区域与类别之间的对应关系相同。例如，第一分类矩阵和第二分类矩阵中第一行第三列的元素均表示图像区域1与类别“人”之间的关系。

S606，基于所述第二分类矩阵所表示的每个图像区域对应的分类值，确定所述第二图像所包括的目标的第二检测框位置，输出包括所述第二分类矩阵和所述第二检测框位置的第二检测结果。

针对第二图像中的每个图像区域，电子设备可以基于该图像区域对应的各元素的分类值的大小，将最大的分类值对应的类别确定为该目标所属类别，并且将该图像区域作为第二检测框位置。进而输出包括第二分类矩阵和第二检测框位置的第二检测结果。

可见，本申请实施例中，由于相似度可以反映目标与类别之间的符合程度，因此电子设备可以将相似度作为分类值，进而基于分类值将对应的图像区域作为检测框位置。因此，电子设备可以快速准确地确定包括分类矩阵和检测框位置的检测结果。

作为本申请实施例的一种实施方式，如图7所示，上述基于所述第一检测结果确定所述第二图像对应的伪标签，并基于所述伪标签与所述第二检测结果之间的差异，计算预设损失函数的损失值的步骤，可以包括：

S701，分别根据所述第一图像对应的变换处理方式以及所述第二图像对应的变换处理方式，确定所述第一图像与所述样本图像之间的第一变换关系以及所述第二图像与所述样本图像之间的第二变换关系；

为了确定同一目标在第一图像中的检测框位置与在第二图像中的检测框位置之间的差异，电子设备可以将该目标在第一图像中的检测框位置与在第二图像中的检测框位置映射到同一图像中。其中，上述同一图像可以为样本图像、第一图像或第二图像。

在上述同一图像为样本图像的情况下，由于第一图像和第二图像为对样本图像进行不同变换处理得到的，因此电子设备可以将第一图像对应的变换处理方式的逆处理方式作为第一变换关系，将第二图像对应的变换处理方式的逆处理方式作为第二变换关系。

在上述同一图像为第一图像的情况下，电子设备可以基于第一图像与样本图像之间的变换处理方式以及第二图像与样本图像之间的变换处理方式，确定第二图像与第一图像之间的变换关系。在上述同一图像为第二图像的情况下，第一图像与第二图像之间的变换关系与上述第二图像与第一图像之间的变换关系的确定方式相同。

如果第一文本提示信息包括在线教师提示信息和离线教师提示信息，那么电子设备可以分别根据第一子图像对应的变换处理方式以及第二子图像对应的变换处理方式，确定第一子图像与样本图像之间的变换关系，以及第二子图像与样本图像之间的变换关系。

S702，将所述第一分类矩阵和所述第一检测框位置按照所述第一变换关系进行处理，得到变换后的第一分类矩阵和变换后的第一检测框位置；

由于第一图像和样本图像之间的转换关系为第一变换关系，并且第一检测框位置和第一分类矩阵均为基于第一图像得到的，因此为了确定第一检测框位置和第一分类矩阵映射到样本图像后的位置，电子设备可以将第一分类矩阵和第一检测框位置按照第一变换关系进行处理，得到变换后的第一分类矩阵和变换后的第一检测框位置。

如果第一文本提示信息包括在线教师提示信息和离线教师提示信息，电子设备可以分别将在线教师提示信息和离线教师提示信息对应的分类矩阵和检测框位置，按照对应的变换关系进行处理，得到变换后的在线教师提示信息和离线教师提示信息对应的分类矩阵和检测框位置。

S703，将所述第二分类矩阵和所述第二检测框位置按照所述第二变换关系进行处理，得到变换后的第二分类矩阵和变换后的第二检测框位置；

由于第二图像和样本图像之间的转换关系为第二变换关系，并且第二检测框位置和第二分类矩阵均为基于第二图像得到的，因此为了确定第二检测框位置和第二分类矩阵映射到样本图像后的位置，电子设备可以将第二分类矩阵和第二检测框位置按照第二变换关系进行处理，得到变换后的第二分类矩阵和变换后的第二检测框位置。

S704，基于所述变换后的第一分类矩阵与所述变换后的第二分类矩阵之间的差异，计算得到分类损失值，并基于所述变换后的第一检测框位置与所述变换后的第二检测框位置之间的差异，计算得到回归损失值。

由于变换后的第一分类矩阵和变换后的第二分类矩阵均表征样本图像中目标与类别之间的对应关系，并且变换后的第一检测框位置和变换后的第二检测框位置均位于样本图像中。因此，电子设备可以基于变换后的第一分类矩阵与变换后的第二分类矩阵之间的差异，计算得到分类损失值，并基于变换后的第一检测框位置与变换后的第二检测框位置之间的差异，计算得到回归损失值。

在一种实施方式中，计算分类损失值的方式可以为，将第一分类矩阵与第二分类矩阵中位于同一位置的元素进行比较。分类损失值可以用于表征基于学生提示信息所检测出的类别的准确程度。

在一种实施方式中，计算回归损失值的方式可以为，基于同一目标对应的变换后的第一检测框位置与变换后的第二检测框位置之间的偏差，确定回归损失值。回归损失值可以用于表征基于学生提示信息所得到的检测框位置的准确程度。

可见，本申请实施例中，由于变换后的第一分类矩阵和变换后的第二分类矩阵均表征样本图像中目标与类别之间的对应关系，因此电子设备可以基于变换后的第一分类矩阵与变换后的第二分类矩阵之间的差异，计算得到分类损失值。由于变换后的第一检测框位置和变换后的第二检测框位置均位于样本图像中，因此电子设备可以基于变换后的第一检测框位置与变换后的第二检测框位置之间的差异，计算得到回归损失值。这样，可以快速准确地确定分类损失值和回归损失值。

作为本申请实施例的一种实施方式，如图8所示，上述方法还可以包括：

S801，获取待检测图像；

待检测图像可以为从视觉语言模型的检测场景中获取的图像。

S802，将所述待检测图像输入所述视觉语言模型，得到所述视觉语言模型基于所述文本提示信息以及所述待检测图像输出的检测结果。

由于文本提示信息已经训练完成，因此为了对待检测图像进行目标检测，电子设备可以将待检测图像输入视觉语言模型，得到视觉语言模型基于文本提示信息以及待检测图像输出的检测结果。其中，检测结果包括待检测图像中各目标的检测框位置以及类别。

可见，本申请实施例中，电子设备可以获取待检测图像；将待检测图像输入视觉语言模型，得到视觉语言模型基于文本提示信息以及待检测图像输出的检测结果。由于文本提示信息已经训练完成，因此电子设备可以将待检测图像输入视觉语言模型，得到视觉语言模型基于文本提示信息以及待检测图像输出的检测结果。这样，可以快速准确地对待检测图像进行目标检测。

作为本申请实施例的一种实施方式，视觉语言模型的提示学习方法的示意图可以如图9所示。黑色实线箭头表示学生提示信息901对应的处理流程，灰色箭头表示在线教师提示信息902对应的处理流程，虚线箭头表示离线教师提示信息903对应的处理流程。电子设备可以分别将学生提示信息901、在线教师提示信息902以及离线教师提示信息903输入文本编码器904，得到学生提示信息901、在线教师提示信息902以及离线教师提示信息903对应的文本特征向量。学生提示信息901与在线教师提示信息902之间满足EMA的关系。

电子设备可以将样本图像905分别进行第一变换处理、第二变换处理以及第三变换处理，分别得到在线教师提示信息902对应的第一图像、学生提示信息901对应的第二图像以及离线教师提示信息903对应的第三图像。电子设备可以将第一图像、第二图像以及第三图像分别输入图像编码器906，得到第一图像、第二图像以及第三图像对应的图像特征向量。

电子设备可以计算在线教师提示信息902对应的文本特征向量与第一图像对应的图像特征向量之间的相似度，以及离线教师提示信息903对应的文本特征向量与第三图像对应的图像特征向量之间的相似度。基于在线教师提示信息902对应的相似度与预设阈值τ₁之间的大小关系，以及离线教师提示信息903对应的相似度与预设阈值τ₂之间的大小关系，确定出第一分类矩阵907。其中，第一分类矩阵907的行为目标对应的检测框位置，列为类别文本。根据第一分类矩阵907可见，第一行的检测框位置所属的类别为“人”，第二行的检测框位置和末行的检测框位置所属的类别均为“狗”。

电子设备可以计算学生提示信息901对应的文本特征向量与第二图像对应的图像特征向量之间的相似度。针对类别文本“人”、“狗”以及“猫”，第二分类矩阵908中第一行的检测框位置与各类别文本之间的相似度分别为53%、1%、2%，第二行的检测框位置与各类别文本之间的相似度分别为1%、71%、1%，末行的检测框位置与各类别文本之间的相似度分别为0%、68%、0%，进而得到第二分类矩阵908。其中，第二分类矩阵908中的元素为目标与对应的类别之间的相似度。

本申请实施例可以针对视觉语言模型在下游任务上面进行无监督指示微调。目前相关技术中的指示微调均为有监督的方式，而本申请则将其扩展到无监督的方式，极大拓展了此类方法的运用边界。为了避免无监督指示微调过程中出现的灾难性遗忘问题，本申请提出了对偶教师的概念，在每次迭代的过程中，离线教师提示信息保持不变，在线教师提示信息按照一定的方式进行微调，由于二者初始值相同，可以认为在线教师提示信息是在离线教师提示信息的基础上进行微调得到的，这样，由于第一文本提示信息包括不变的离线教师提示信息，并且是能够准确标识所要从样本图像中识别出的目标的类别的，所以可以有效的缓解指示微调过程中存在的退化问题。此外，为了有效提升无监督过程中产生伪标签的质量，本申请采用了嵌套学习的方式，利用未来在线教师提示信息的伪标签来指导当前的学生提示信息，能够有效地提升视觉语言模型的性能。其中，未来在线教师提示信息为经过多轮迭代后的在线教师提示信息。

针对视觉语言模型的无监督指示微调能够适配不同的下游任务，用户可以自定义待检测目标，然后视觉语言模型直接利用下游场景的图像来更新自身的文本指示，就能够有效提升在下游任务上面的性能，具备强大的自主学习的潜力。同时也给自主学习提供了一种新的解决方案和范式，未来能够和现在的自主学习方法进行互补等。

本申请的技术方案中，所涉及的用户个人信息的获取、存储、使用、加工、传输、提供和公开等操作，均是在已取得用户授权的情况下进行的。

相应于上述视觉语言模型的提示学习方法，本申请实施例还提供了一种视觉语言模型的提示学习装置，下面对本申请实施例所提供的视觉语言模型的提示学习装置进行介绍。

如图10所示，一种视觉语言模型的提示学习装置，所述装置包括：

图像获取模块1001，用于获取每个样本图像对应的第一图像以及第二图像，其中，所述第一图像和所述第二图像为对所述样本图像进行不同变换处理得到的；

结果获取模块1002，用于针对每个样本图像，将该样本图像对应的第一图像、第二图像、第一文本提示信息以及第二文本提示信息输入视觉语言模型，得到所述视觉语言模型基于所述第一图像以及所述第一文本提示信息输出的第一检测结果，以及所述视觉语言模型基于所述第二图像以及所述第二文本提示信息输出的第二检测结果，其中，所述第一文本提示信息和所述第二文本提示信息均用于表征所要从所述样本图像中识别出的目标的类别；

损失值计算模块1003，用于基于所述第一检测结果确定所述第二图像对应的伪标签，并基于所述伪标签与所述第二检测结果之间的差异，计算预设损失函数的损失值；

信息调整模块1004，用于根据所述损失值，按照第一调整方式调整所述第一文本提示信息，并按照第二调整方式调整所述第二文本提示信息，直到所述预设损失函数达到收敛条件，基于调整后的所述第一文本提示信息，确定所述视觉语言模型的文本提示信息。

可见，本申请实施例提供的方案中，电子设备可以获取每个样本图像对应的第一图像以及第二图像，其中，第一图像和第二图像为对样本图像进行不同变换处理得到的；针对每个样本图像，将该样本图像对应的第一图像、第二图像、第一文本提示信息以及第二文本提示信息输入视觉语言模型，得到视觉语言模型基于第一图像以及第一文本提示信息输出的第一检测结果，以及视觉语言模型基于第二图像以及第二文本提示信息输出的第二检测结果，其中，第一文本提示信息和第二文本提示信息均用于表征所要从样本图像中识别出的目标的类别；基于第一检测结果确定第二图像对应的伪标签，并基于伪标签与第二检测结果之间的差异，计算预设损失函数的损失值；根据损失值，按照第一调整方式调整第一文本提示信息，并按照第二调整方式调整第二文本提示信息，直到预设损失函数达到收敛条件，基于调整后的第一文本提示信息，确定视觉语言模型的文本提示信息。由于第一检测结果是基于第一文本提示信息和第一图像得到的，因此第一检测结果可以表示第一图像中各目标所属的类别以及目标所在位置。第一图像和第二图像是对同一张样本图像进行不同变换处理得到的，第二图像与第一图像中包含的目标相同，这样，第一检测结果也就可以标识第二图像中各目标所属的类别以及目标所在位置，因此，可以基于第一检测结果确定第二图像对应的伪标签，进而基于该伪标签与第二检测结果之间的差异，进行提示学习。不需要人工打标签，可以实现不依赖于人工打标签的无监督提示学习。

作为本申请实施例的一种实施方式，所述第二文本提示信息为学生提示信息，所述第一文本提示信息包括对偶的在线教师提示信息和离线教师提示信息，所述离线教师提示信息为预先基于所要从所述样本图像中识别出的目标的类别确定的。

在这种情况下，上述信息调整模块1004，可以包括：

第一调整子模块，用于根据所述损失值，按照第一调整方式调整所述在线教师提示信息，并保持所述离线教师提示信息不变；

第二调整子模块，用于根据所述损失值，按照第二调整方式调整所述学生提示信息；

信息确定子模块，用于直到所述预设损失函数达到收敛条件，将调整后的所述在线教师提示信息，确定为所述视觉语言模型的文本提示信息。

作为本申请实施例的一种实施方式，上述学生提示信息对应的第二图像为对所述样本图像进行第一强增广处理得到的，所述在线教师提示信息对应的第一图像为对所述样本图像进行第二强增广处理得到的，所述离线教师提示信息对应的第一图像为对所述样本图像进行弱增广处理得到的。

作为本申请实施例的一种实施方式，上述第一调整方式为对调整后的学生提示信息进行加权处理，以使所述第一调整方式的调整速度小于所述第二调整方式的调整速度。

作为本申请实施例的一种实施方式，上述损失值计算模块1003，可以包括：

损失值计算子模块，用于将所述第一检测结果作为所述第二图像对应的初始伪标签，并基于所述初始伪标签与所述第二检测结果之间的差异，计算所述预设损失函数的初始损失值；

目标信息获取子模块，用于根据所述初始损失值，按照第一调整方式调整所述第一文本提示信息，并按照第二调整方式调整所述第二文本提示信息，直到调整次数达到预设次数，得到调整后的第一文本提示信息，作为目标文本提示信息；

伪标签确定子模块，用于将所述目标文本提示信息以及所述第一图像输入所述视觉语言模型，得到所述视觉语言模型基于所述第一图像以及所述目标文本提示信息输出的检测结果，将所述检测结果确定为所述第二图像对应的伪标签。

作为本申请实施例的一种实施方式，上述视觉语言模型包括文本编码器和图像编码器。

在这种情况下，上述结果获取模块1002，可以包括：

特征向量获取子模块，用于将该样本图像对应的第一图像和第二图像输入所述图像编码器，得到所述第一图像对应的第一图像特征向量以及所述第二图像对应的第二图像特征向量；

文本特征向量获取子模块，用于将该样本图像对应的第一文本提示信息和第二文本提示信息输入所述文本编码器，得到所述第一文本提示信息对应的第一文本特征向量以及所述第二文本提示信息对应的第二文本特征向量；

检测结果获取子模块，用于基于所述第一图像特征向量与所述第一文本特征向量之间的相似度，输出第一检测结果，并基于所述第二图像特征向量与所述第二文本特征向量之间的相似度，输出第二检测结果。

作为本申请实施例的一种实施方式，上述第一图像特征向量为所述第一图像中的每个图像区域对应的图像特征向量，所述第二图像特征向量为所述第二图像中的每个图像区域对应的图像特征向量，所述图像区域为按照预设划分方式对图像进行划分得到的。

在这种情况下，上述检测结果获取子模块，可以包括：

第一相似度计算单元，用于针对所述第一图像包括的每个图像区域，计算该图像区域对应的第一图像特征向量与所述第一文本特征向量之间的第一相似度；

第一分类矩阵确定单元，用于根据所述第一相似度与预设阈值之间的大小关系，确定该图像区域对应的分类值，得到所述第一图像对应的第一分类矩阵，其中，所述第一分类矩阵中的每个元素为一个分类值，每个分类值用于标识对应的图像区域是否属于该元素对应的类别；

第一检测结果确定单元，用于基于所述第一分类矩阵所表示的每个图像区域对应的分类值，确定所述第一图像所包括的目标的第一检测框位置，输出包括所述第一分类矩阵和所述第一检测框位置的第一检测结果；

第二相似度计算单元，用于针对所述第二图像包括的每个图像区域，计算该图像区域对应的第二图像特征向量与所述第二文本特征向量之间的第二相似度；

第二分类矩阵确定单元，用于根据所述第二相似度确定该图像区域对应的分类值，得到所述第二图像对应的第二分类矩阵，其中，所述第二分类矩阵中的每个元素为一个分类值，每个分类值用于标识对应的图像区域属于该元素对应的类别的概率；

第二检测结果确定单元，用于基于所述第二分类矩阵所表示的每个图像区域对应的分类值，确定所述第二图像所包括的目标的第二检测框位置，输出包括所述第二分类矩阵和所述第二检测框位置的第二检测结果。

变换关系确定子模块，用于分别根据所述第一图像对应的变换处理方式以及所述第二图像对应的变换处理方式，确定所述第一图像与所述样本图像之间的第一变换关系以及所述第二图像与所述样本图像之间的第二变换关系；

第一检测框位置确定子模块，用于将所述第一分类矩阵和所述第一检测框位置按照所述第一变换关系进行处理，得到变换后的第一分类矩阵和变换后的第一检测框位置；

第二检测框位置确定子模块，用于将所述第二分类矩阵和所述第二检测框位置按照所述第二变换关系进行处理，得到变换后的第二分类矩阵和变换后的第二检测框位置；

损失值确定子模块，用于基于所述变换后的第一分类矩阵与所述变换后的第二分类矩阵之间的差异，计算得到分类损失值，并基于所述变换后的第一检测框位置与所述变换后的第二检测框位置之间的差异，计算得到回归损失值。

作为本申请实施例的一种实施方式，上述装置还可以包括：

待检测图像获取模块，用于获取待检测图像；

检测结果获取模块，用于将所述待检测图像输入所述视觉语言模型，得到所述视觉语言模型基于所述文本提示信息以及所述待检测图像输出的检测结果。

作为本申请实施例的一种实施方式，上述第一调整方式的调整速度小于所述第二调整方式的调整速度。

本申请实施例还提供了一种电子设备，如图11所示，包括：

存储器1101，用于存放计算机程序；

处理器1102，用于执行存储器1101上所存放的程序时，实现上述任一实施例所述的视觉语言模型的提示学习方法步骤。

并且上述电子设备还可以包括通信总线和/或通信接口，处理器1102、通信接口、存储器1101通过通信总线完成相互间的通信。

上述电子设备提到的通信总线可以是外设部件互连标准（Peripheral ComponentInterconnect，PCI）总线或扩展工业标准结构（Extended Industry StandardArchitecture，EISA）总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器（Random Access Memory，RAM），也可以包括非易失性存储器（Non-Volatile Memory，NVM），例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital SignalProcessor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一视觉语言模型的提示学习方法的步骤。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一视觉语言模型的提示学习方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者固态硬盘(Solid StateDisk，SSD）等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、系统、电子设备、计算机可读存储介质以及计算机程序产品而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种视觉语言模型的提示学习方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第二文本提示信息为学生提示信息，所述第一文本提示信息包括在对偶的线教师提示信息和离线教师提示信息，所述离线教师提示信息为预先基于所要从所述样本图像中识别出的目标的类别确定的；

3.根据权利要求2所述的方法，其特征在于，所述学生提示信息对应的第二图像为对所述样本图像进行第一强增广处理得到的，所述在线教师提示信息对应的第一图像为对所述样本图像进行第二强增广处理得到的，所述离线教师提示信息对应的第一图像为对所述样本图像进行弱增广处理得到的。

4.根据权利要求2所述的方法，其特征在于，所述第一调整方式为对调整后的学生提示信息进行加权处理，以使所述第一调整方式的调整速度小于所述第二调整方式的调整速度。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一检测结果确定所述第二图像对应的伪标签的步骤，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述视觉语言模型包括文本编码器和图像编码器；

7.根据权利要求6所述的方法，其特征在于，所述第一图像特征向量为所述第一图像中的每个图像区域对应的图像特征向量，所述第二图像特征向量为所述第二图像中的每个图像区域对应的图像特征向量，所述图像区域为按照预设划分方式对图像进行划分得到的；

8.根据权利要求6所述的方法，其特征在于，所述基于所述第一检测结果确定所述第二图像对应的伪标签，并基于所述伪标签与所述第二检测结果之间的差异，计算预设损失函数的损失值的步骤，包括：

9.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

获取待检测图像；

10.一种电子设备，其特征在于，包括：

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-9任一所述的方法。