CN114419374A

CN114419374A - 模型训练及图像处理方法、装置、设备、存储介质

Info

Publication number: CN114419374A
Application number: CN202210067225.3A
Authority: CN
Inventors: 李朝闻; 朱优松; 杨帆; 李韡; 赵朝阳; 陈志扬; 吴立威; 赵瑞; 唐明; 王金桥
Original assignee: Institute of Automation of Chinese Academy of Science; Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Institute of Automation of Chinese Academy of Science; Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-04-29

Abstract

本申请实施例公开了一种模型训练及图像处理方法、装置、设备、存储介质及计算机程序产品，其中该方法包括：基于第一图像样本，确定第一场景图像和第二场景图像；第一场景图像与第二场景图像之间具有重叠区域；利用待训练的第一模型，对第一场景图像和第二场景图像分别进行特征提取，得到第一场景图像的第一场景特征和所述第二场景图像的第二场景特征，并利用第二模型，对第一场景图像和第二场景图像分别进行特征提取，得到第一场景图像的第三场景特征和第二场景图像的第四场景特征；基于第一场景特征和第二场景特征、第三场景特征和第四场景特征，确定目标损失值；基于目标损失值，对第一模型的模型参数进行至少一次更新，得到训练后的第一模型。

Description

模型训练及图像处理方法、装置、设备、存储介质

技术领域

本申请涉及但不限人工智能领域，尤其涉及一种模型训练及图像处理方法、装置、设备、存储介质及计算机程序产品。

背景技术

伴随着计算机视觉的技术不断发展，无标签数据的获取越来越容易。然而，对于计算机视觉领域海量的无标签数据集，使用人工的方式进行标注，会存在漏标的问题，并且消耗大量人工成本。相关技术中，可以采用自监督训练算法，对神经网络模型进行训练。自监督训练算法不需要提供带标签的数据也能训练模型，并为计算机视觉领域各类任务提供预训练后的模型。相比于有监督训练算法，自监督训练算法在减少有监督偏见、长尾问题、以及拟合海量业务数据集等方面有着明显优势。

但是，相关技术中的自监督训练算法仅能在单目标图像上进行模型训练，而无法适用于多目标图像上的模型训练，通用性较差。

发明内容

有鉴于此，本申请实施例提供一种模型训练及图像处理方法、装置、设备、存储介质及计算机程序产品。

本申请实施例的技术方案是这样实现的：

一方面，本申请实施例提供一种模型训练方法，所述方法包括：

基于第一图像样本，确定第一场景图像和第二场景图像；所述第一场景图像与所述第二场景图像之间具有重叠区域；

利用待训练的第一模型，对所述第一场景图像和所述第二场景图像分别进行特征提取，得到所述第一场景图像的第一场景特征和所述第二场景图像的第二场景特征，并利用第二模型，对所述第一场景图像和所述第二场景图像分别进行特征提取，得到所述第一场景图像的第三场景特征和所述第二场景图像的第四场景特征；

基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征，确定目标损失值；

基于所述目标损失值，对所述第一模型的模型参数进行至少一次更新，得到训练后的所述第一模型。

另一方面，本申请实施例提供一种图像处理方法，所述方法包括：

获取待处理图像；

利用已训练的第四模型，对所述待处理图像进行处理，得到处理结果；其中，所述第四模型包括以下至少之一：采用上述模型训练方法得到的第一模型，采用上述模型训练方法得到的第三模型。

再一方面，本申请实施例提供一种模型训练装置，所述装置包括：

第一确定模块，用于基于第一图像样本，确定第一场景图像和第二场景图像；所述第一场景图像与所述第二场景图像之间具有重叠区域；

第一提取模块，用于利用待训练的第一模型，对所述第一场景图像和所述第二场景图像分别进行特征提取，得到所述第一场景图像的第一场景特征和所述第二场景图像的第二场景特征，并利用第二模型，对所述第一场景图像和所述第二场景图像分别进行特征提取，得到所述第一场景图像的第三场景特征和所述第二场景图像的第四场景特征；

第二确定模块，用于基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征，确定目标损失值；

第一更新模块，用于基于所述目标损失值，对所述第一模型的模型参数进行至少一次更新，得到训练后的所述第一模型。

再一方面，本申请实施例提供一种图像处理装置，所述装置包括：

第三获取模块，用于获取待处理图像；

第二检测模块，用于利用已训练的第四模型，对所述待处理图像进行目标检测，得到检测结果；其中，所述第四模型包括以下至少之一：采用上述模型训练方法得到的第一模型，采用上述模型训练方法得到的第三模型。

又一方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的部分或全部步骤。

又一方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。

又一方面，本申请实施例提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算机设备中运行时，所述展示设备中的处理器执行用于实现上述方法中的部分或全部步骤。

又一方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。

本申请实施例中，基于第一图像样本，确定第一场景图像和第二场景图像；由于第一场景图像与第二场景图像之间具有重叠区域；利用待训练的第一模型，对第一场景图像和第二场景图像分别进行特征提取，得到第一场景图像的第一场景特征和第二场景图像的第二场景特征，并利用第二模型，对第一场景图像和第二场景图像分别进行特征提取，得到第一场景图像的第三场景特征和第二场景图像的第四场景特征；基于第一场景特征和第二场景特征、以及第三场景特征和第四场景特征，确定目标损失值；基于目标损失值，对第一模型的模型参数进行至少一次更新，得到训练后的第一模型。这样，由于第一场景图像与第二场景图像之间具有重叠区域，因而可以提高第一场景图像与第二场景图像之间的全局相似性，进而通过保持第一模型和第二模型分别对第一场景图像与第二场景图像处理后得到的第一场景特征和第二场景特征、以及第三场景特征和第四场景特征之间的一致性，可以实现在第一图像样本上的自监督训练过程，提高训练后的第一模型的性能，并且对于单目标图像以及多目标图像上的模型训练均能适用，可以大大降低训练过程中对于样本数据质量的高要求和高依赖性，具有更好的通用性。

附图说明

图1为本申请实施例提供的一种模型训练方法的实现流程示意图；

图2为本申请实施例提供的一种模型训练方法的实现流程示意图；

图3为本申请实施例提供的一种模型训练方法的实现流程示意图；

图4为本申请实施例提供的一种模型训练方法的实现流程示意图；

图5为本申请实施例提供的一种图像处理方法的实现流程示意图；

图6A为本申请实施例提供的一种自监督预训练方法的实现流程示意图；

图6B为本申请实施例提供的一种确定第一场景图像和第二场景图像的示意图；

图6C为本申请实施例提供的一种自监督预训练方法的实现架构示意图；

图7为本申请实施例提供的一种模型训练装置的组成结构示意图；

图8为本申请实施例提供的一种图像处理装置的组成结构示意图；

图9为本申请实施例提供的一种计算机设备的硬件实体示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图和实施例对本申请的技术方案进一步详细阐述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。所涉及的术语“第一/第二/第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请的目的，不是旨在限制本申请。

相关技术中，一方面，在训练数据层面，当前的自监督训练算法的基础假设是单目标图像的任意视角都是同一个物体，然而该假设不能扩展到具有多目标的自然图像(也即多目标图像)，因此相关技术中的自监督训练算法仅能在单目标图像上进行训练，而对于最容易获取的多目标图像上的训练无法适用，导致通用性较差；另一方面，在适用任务层面，当前的自监督训练算法仅考虑单一粒度的表征学习，通常过拟合于分类任务(如图像与图像之间的分类、场景与场景之间的分类等)，从而在迁移至各类下游任务后得到的迁移后的模型通常性能不如有监督训练的模型，导致泛化能力较差。

本申请实施例提供一种模型训练方法，该方法可以由计算机设备的处理器执行。其中，计算机设备指的可以是服务器、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备数据处理能力的设备。图1为本申请实施例提供的一种模型训练方法的实现流程示意图，如图1所示，该方法包括如下步骤S101至步骤S104：

步骤S101，基于第一图像样本，确定第一场景图像和第二场景图像；所述第一场景图像与所述第二场景图像之间具有重叠区域。

这里，第一图像样本可以是任意合适的图像，包括但不限于多目标的自然图像、单目标图像等中的至少之一。在一些实施方式中，第一样本图像中可以包含一个或两个以上的实例。第一图像样本中包含的实例可以根据实际应用场景确定，例如可以包括但不限于人、人体部位、动物、动物肢体、植物、花朵、树叶、石头、云朵、围栏、电视机、冰箱等实例中的至少一种。

在第一图像样本中可以包括至少一个场景区域，第一场景图像和第二场景图像可以分别对应第一图像样本中的一个场景区域，并且第一场景图像和第二场景图像分别对应场景区域可以是存在重叠的，也即第一场景图像与第二场景图像之间具有重叠区域。在实施时，第一场景图像和第二场景图像可以是直接从第一图像样本中提取得到的，也可以是对第一图像样本进行图像增广处理后，从第一图像样本中提取得到的，还可以是对第一图像样本中提取得到的对应两个场景区域的图像分别进行图像增广处理后得到的，这里并不限定。

在一些实施方式中，可以随机确定第一图像样本中占该第一图像样本面积一半以上的两个场景区域，从而得到分别对应于这两个场景区域的第一场景图像和第二场景图像。

步骤S102，利用待训练的第一模型，对所述第一场景图像和所述第二场景图像分别进行特征提取，得到所述第一场景图像的第一场景特征和所述第二场景图像的第二场景特征，并利用第二模型，对所述第一场景图像和所述第二场景图像分别进行特征提取，得到所述第一场景图像的第三场景特征和所述第二场景图像的第四场景特征。

这里，第一模型可以是任意合适的能进行图像特征提取的模型，例如可以包括但不限于基于特征工程的目标检测模型、图像分类模型、图像分割模型等中的至少之一，也可以是特定的特征提取网络模型，这里并不限定。在实施时，第一模型中采用的特征提取的算法可以包括但不限于基于卷积神经网络的特征提取、基于转换器(Transformer)的特征提取等至少之一。本领域技术人员可以根据实际业务场景在第一模型中采用合适的特征提取算法，这里并不限定。

第二模型也可以是任意合适的能进行图像特征提取的模型。在实施时，第二模型可以与第一模型具有相同的网络结构，也可以与第一模型具有不同的网络结构，第二模型中采用的特征提取算法可以与第一模型相同，也可以不同，这里并不限定。

利用第一模型，可以对第一场景图像和第二场景图像分别进行特征提取，其中，对第一场景图像进行特征提取可以得到第一场景特征，对第二场景图像进行特征提取可以得到第二场景特征。利用第二模型，也可以对第一场景图像和第二场景图像分别进行特征提取，其中，对第一场景图像进行特征提取可以得到第三场景特征，对第二场景图像进行特征提取可以得到第四场景特征。

在一些实施方式中，第一模型的网络结构可以包括骨干网络、投影头和预测头，第二模型的网络结构可以包括骨干网络和投影头。这样，可以增加第一模型与第二模型的输出差异，从而可以减少模型训练坍缩的情况。

步骤S103，基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征，确定目标损失值。

这里，第一场景特征和第二场景特征分别是第一模型从第一场景图像和第二场景图像中提取的特征，是第一模型学习到的第一场景图像的表征和第二场景图像的表征；第三场景特征和第四场景特征分别是第二模型从第一场景图像和第二场景图像中提取的特征，是第二模型学习到的第一场景图像的表征和第二场景图像的表征。

在一些实施方式中，目标损失值中可以包含第一场景图像的表征与第二场景图像的表征之间的损失。第一场景图像的表征与第二场景图像的表征之间的损失可以包括但不限于第一场景特征和第二场景特征之间的损失、第一场景特征与第四场景特征之间的损失、第二场景特征与第三场景特征之间的损失、第三场景特征与第四场景特征之间的损失、第一场景特征和第三场景特征的组合与第二场景特征和第四场景特征的组合之间的损失等中的至少一种。在实施时，本领域技术人员可以根据实际情况采用合适的方式基于第一场景特征、第二场景特征、第三场景特征和第四场景特征确定目标损失值，这里并不限定。例如，可以基于第一场景特征与第三场景特征之间的相似度、以及第二场景特征与第四场景特征之间的相似度，确定目标损失值；也可以基于第一场景特征与第四场景特征之间的相似度、以及第二场景特征与第三场景特征之间的相似度，确定目标损失值。

在一些实施方式中，目标损失值中可以包含第一场景图像的表征与第二场景图像的表征之间的损失、第一场景图像中的至少一个实例的表征与第二场景图像中的至少一个实例的表征之间的损失、第一场景图像或第二场景图像中的至少一个实例的表征与第一场景图像的表征之间的损失、第一场景图像或第二场景图像中的至少一个实例的表征与第二场景图像的表征之间的损失等中的至少之一。

步骤S104，基于所述目标损失值，对所述第一模型的模型参数进行至少一次更新，得到训练后的所述第一模型。

这里，在一些实施方式中，可以基于目标损失值，确定是否需要对第一模型的模型参数进行更新。在需要对第一模型的模型参数进行更新的情况下，采用合适的参数更新算法对第一模型的模型参数进行更新，并在更新后重新确定目标损失值，以基于重新确定的目标损失值，确定是否需要对第一模型的模型参数进行继续更新。在确定不需要对第一模型的模型参数进行继续更新的情况下，将最终更新后的第一模型确定为训练后的第一模型。在实施时，在对第一模型的模型参数进行一次更新后，可以基于下一第一图像样本，确定更新后的第一场景图像和更新后的第二场景图像；利用更新后的第一模型，对更新后的第一场景图像和更新后的第二场景图像分别进行特征提取，得到更新后的第一场景特征和更新后的第二场景特征，并利用第二模型，对更新后的第一场景图像和更新后的第二场景图像分别进行特征提取，得到更新后的第三场景特征和更新后的第四场景特征；基于更新后的第一场景特征和更新后的第二场景特征、以及更新后的第三场景特征和更新后的第四场景特征，确定更新后的目标损失值。每次更新过程中使用的第一图像样本可以是相同的也可以是不同的，这里并不限定。

例如，可以在目标损失值不满足预设条件的情况下，对第一模型的模型参数进行更新，在目标损失值满足预设条件或对第一模型的模型参数进行更新的次数达到设定阈值的情况下，停止对第一模型的模型参数进行更新，并将最终更新后的第一模型确定为训练后的第一模型。预设条件可以包括但不限于目标损失值小于设定的损失阈值、目标损失值变化收敛等至少之一。

在一些实施例中，上述步骤S103可以包括如下步骤S111至步骤S112：

步骤S111，基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征，确定目标场景损失值。

这里，目标场景损失值可以表示第一场景图像的表征与第二场景图像的表征之间的损失。在实施时，本领域技术人员可以根据实际情况采用合适的方式基于第一场景特征、第二场景特征、第三场景特征和第四场景特征确定目标场景损失值，这里并不限定。例如，可以基于第一场景特征与第三场景特征之间的相似度、以及第二场景特征与第四场景特征之间的相似度，确定目标场景损失值；也可以基于第一场景特征与第四场景特征之间的相似度、以及第二场景特征与第三场景特征之间的相似度，确定目标场景损失值，还可以对第一场景特征和第三场景特征进行组合，得到第一组合特征，对第二场景特征和第四场景特征进行组合，得到第二组合特征，并基于第一组合特征与第二组合特征之间的相似度，确定目标场景损失值。

步骤S112，基于所述目标场景损失值，确定目标损失值。

这里，在一些实施方式中，可以将目标场景损失值确定为目标损失值。

在另一些实施方式中，也可以综合考虑目标场景损失值与其他损失值，确定目标损失值，其他损失值可以包括但不限于第一场景图像中的至少一个实例的表征与第二场景图像中的至少一个实例的表征之间的损失、第一场景图像或第二场景图像中的至少一个实例的表征与第一场景图像的表征之间的损失、第一场景图像或第二场景图像中的至少一个实例的表征与第二场景图像的表征之间的损失等中的至少之一。

在实施时，本领域技术人员可以根据实际情况采用合适的方式基于目标场景损失值确定目标损失值，这里并不限定。

在一些实施例中，上述步骤S111可以包括如下步骤S121至步骤S123：

步骤S121，基于所述第一场景特征和所述第四场景特征之间的相似度，确定第一场景损失值。

步骤S122，基于所述第二场景特征和所述第三场景特征之间的相似度，确定第二场景损失值。

这里，可以采用任意合适的相似度损失函数基于第一场景特征和第四场景特征之间的相似度，确定第一场景损失值，以及基于第二场景特征和第三场景特征之间的相似度，确定第二场景损失值，这里并不限定。相似度损失函数可以包括但不限于绝对值损失函数、最小平方误差损失函数、余弦损失函数等中的至少一种。在实施时，确定第一场景损失值和第二场景损失值的过程中可以采用相同的相似度损失函数，也可以采用不同的相似度损失函数。

步骤S123，基于所述第一场景损失值和所述第二场景损失值，确定所述目标场景损失值。

这里，可以根据实际情况采用合适的方式基于第一场景损失值和第二场景损失值确定目标场景损失值，本申请实施例并不限定。例如，可以将第一场景损失值和第二场景损失值之和确定为目标场景损失值，也可以将第一场景损失值和第二场景损失值的平均值确定为目标场景损失值，还可以采用不同的权重对第一场景损失值和第二场景损失值进行加权求和得到目标场景损失值。

上述实施例中，基于第一场景特征和第四场景特征之间的相似度，确定第一场景损失值；基于第二场景特征和第三场景特征之间的相似度，确定第二场景损失值；基于第一场景损失值和第二场景损失值，确定目标场景损失值。这样，可以保持第一模型学习到的第一场景图像的表征与第二模型学习到的第二场景图像的表征之间的一致性，以及第一模型学习到的第二场景图像的表征与第二模型学习到的第一场景图像的表征之间的一致性，从而可以提高训练后的第一模型提取通用的场景表征的能力，进而可以提高训练后的第一模型的性能。

在一些实施例中，上述步骤S121可以包括：基于所述第一场景特征和所述第四场景特征之间的负余弦相似度，确定第一场景损失值；

上述步骤S122可以包括：基于所述第二场景特征和所述第三场景特征之间的负余弦相似度，确定第二场景损失值。

在一些实施方式中，可以采用如下公式1所示的方法，基于第一场景特征和所述第四场景特征之间的负余弦相似度，确定第一场景损失值

其中，x₁表示第一场景图像，x₂表示第一场景图像，f_θ(x₁)表示利用第一模型得到的第一场景图像的第一场景特征，g_ξ(x₂)表示利用第二模型得到的第二场景图像的第四场景特征，<f_θ(x₁),g_ξ(x₂)>表示f_θ(x₁)与g_ξ(x₂)的内积，

表示的向量的长度。此外，基于第二场景特征和第三场景特征之间的负余弦相似度确定第二场景损失值的方式可以参考基于第一场景特征和所述第四场景特征之间的负余弦相似度确定第一场景损失值的方式。

在一些实施例中，所述重叠区域内包括至少一个候选实例；上述步骤S112可以包括：

步骤S131，基于所述目标场景损失值和目标实例损失值，确定目标损失值；其中，所述目标实例损失值包括以下至少之一：第一实例损失值和第二实例损失值。

这里，目标实例损失值为考虑第一样本图像中实例粒度的表征确定的损失值，可以包括第一实例损失值和第二实例损失值中的至少之一。

第一实例损失值可以表示第一样本图像中场景的表征与实例的表征之间的损失，可以包括但不限于第一场景图像或第二场景图像中的至少一个实例的表征与第一场景图像的表征之间的损失、第一场景图像或第二场景图像中的至少一个实例的表征与第二场景图像的表征之间的损失等中的至少一种。

第二实例损失值可以表示第一样本图像中两个场景的重叠区域中各实例在两个场景中的表征之间的损失，例如，第一场景图像中的至少一个实例的表征与第二场景图像中的至少一个实例的表征之间的损失。

在实施时，可以根据实际情况采用合适的方式基于目标场景损失值和目标实例损失值确定目标损失值，本申请实施例并不限定。例如，可以将目标场景损失值和目标实例损失值之和确定为目标损失值，也可以将目标场景损失值和目标实例损失值的平均值确定为目标损失值，还可以采用不同的权重对目标场景损失值和目标实例损失值进行加权求和得到目标损失值。

在一些实施方式中，可以基于所述目标场景损失值、第一实例损失值和第二实例损失值，确定目标损失值。在实施时，可以根据实际情况采用合适的方式基于目标场景损失值、第一实例损失值和第二实例损失值确定目标损失值，本申请实施例并不限定。例如，可以将目标场景损失值、第一实例损失值和第二实例损失值之和确定为目标损失值，也可以将目标场景损失值、第一实例损失值和第二实例损失值的平均值确定为目标损失值，还可以采用不同的权重对目标场景损失值、第一实例损失值和第二实例损失值进行加权求和得到目标损失值。

上述步骤S103还可以包括如下步骤S132至步骤S133：

步骤S132，在所述目标实例损失值包括所述第一实例损失值的情况下，基于所述第三场景特征和所述第四场景特征、以及每一所述候选实例在所述第一场景图像中的第一实例特征，确定所述第一实例损失值；每一所述第一实例特征是利用所述第一模型提取的。

这里，在第一场景图像与第二场景图像的重叠区域内可以包括至少一个候选实例。每一候选实例在第一场景图像中的第一实例特征可以是预先利用第一模型提取得到的，也可以是在第一实例损失值的过程中实时提取的，这里并不限定。在实施时，可以采用任意合适的方式利用第一模型提取每一候选实例在第一场景图像中的第一实例特征。例如，可以确定每一候选实例在第一场景图像中的位置信息，利用第一模型，基于每一位置信息，对第一场景图像进行特征提取，可以得到每一候选实例在第一场景图像中的第一实例特征。又如，可以从第一场景图像中裁剪出每一候选实例对应的第一实例图像，利用第一模型，对每一第一实例图像进行特征提取，可以得到每一候选实例在第一场景图像中的第一实例特征。

第一实例损失值可以表示第一样本图像中场景的表征与实例的表征之间的损失，因此，基于第三场景特征和第四场景特征、以及每一候选实例在第一场景图像中的第一实例特征，可以确定第一实例损失值。在实施时，可以根据实际情况采用合适的方式基于第三场景特征和第四场景特征、以及每一候选实例在第一场景图像中的第一实例特征，确定第一实例损失值，这里并不限定。例如，可以将每一第一实例特征映射至第三场景特征的维度，得到映射后的第一实例特征，基于映射后的每一第一实例特征与第三场景特征之间的相似度、以及映射后的每一第一实例特征与第四场景特征之间的相似度，确定第一实例损失值。又如，可以将各第一实例特征进行连接后映射至第三场景特征的维度，得到映射特征，基于该映射特征与第三场景特征之间的相似度、以及该映射特征与第四场景特征之间的相似度，确定第一实例损失值。

步骤S133，在所述目标实例损失值包括所述第二实例损失值的情况下，基于每一所述第一实例特征和每一所述候选实例在所述第二场景图像中的第二实例特征，确定所述第二实例损失值；每一所述第二实例特征是利用所述第二模型提取的。

这里，每一候选实例在第二场景图像中的第二实例特征可以是预先利用第二模型提取得到的，也可以是在确定第二实例损失值的过程中实时提取的，这里并不限定。在实施时，可以采用任意合适的方式利用第二模型提取每一候选实例在第二场景图像中的第二实例特征。例如，可以确定每一候选实例在第二场景图像中的位置信息，利用第二模型，基于每一位置信息，对第二场景图像进行特征提取，可以得到每一候选实例在第二场景图像中的第二实例特征。又如，可以从第二场景图像中裁剪出每一候选实例对应的第二实例图像，利用第二模型，对每一第二实例图像进行特征提取，可以得到每一候选实例在第二场景图像中的第二实例特征。

第二实例损失值可以表示第一样本图像中两个场景的重叠区域中各实例在两个场景中的表征之间的损失，因此，基于每一候选实例在第二场景图像中的第一实例特征和每一候选实例在第二场景图像中的第二实例特征，可以确定第二实例损失值。在实施时，可以根据实际情况采用合适的方式基于每一第一实例特征和每一第二实例特征，确定第二实例损失值，这里并不限定。例如，可以基于各第一实例特征与各第二实例特征之间的传输成本确定第二实例损失值，也可以基于各第一实例特征与各第二实例特征之间的相似度确定第二实例损失值。

在上述实施例中，在确定目标损失值时除了考虑目标场景损失值，还考虑第一样本图像中场景的表征与实例的表征之间的损失和/或第一样本图像中两个场景的重叠区域中各实例在两个场景中的表征之间的损失，这样，可以提高训练后的第一模型对多粒度表征的学习能力，从而可以提高训练后的第一模型的泛化能力，使得训练后的第一模型可以泛化至多类下游任务。

在一些实施例中，所述第三场景特征和所述第四场景特征维度相同；上述步骤S132中所述的基于所述第三场景特征和所述第四场景特征、以及每一所述候选实例在所述第一场景图像中的第一实例特征，确定所述第一实例损失值，可以包括如下步骤S141至步骤S143：

步骤S141，将每一所述第一实例特征进行连接，得到连接特征。

这里，可以将每一第一实例特征任意合适的方式连接在一起，得到连接后的连接特征。在实施时，可以按照每一候选实例在第一场景图像中的位置，确定每一候选实例对应的第一实例特征的连接顺序，并按该连接顺序将每一第一实例特征进行连接，得到连接特征；也可以按照随机的连接顺序将每一第一实例特征进行连接，得到连接特征，这里并不限定。

例如，在第一实例特征的数量为4，且每个第一实例特征为64维的向量的情况下，可以将每个第一实例特征进行连接，得到的连接特征为256维的向量。

步骤S142，将所述连接特征映射至所述第三场景特征的维度，得到映射特征。

这里，可以根据第三场景特征的维度对连接特征进行映射，得到与第三场景特征维度相同的映射特征。在实施时，可以采用任意合适的映射方式对连接特征进行映射，这里并不限定。

例如，可以采用如下公式2所示的方式，对每一第一实例特征进行连接，得到连接特征，并将连接特征线性映射至第三场景特征的维度，得到映射特征：

I＝f_linear(concat(o₁,o₂,……,o_k)) (2)；

其中，concat(o₁,o₂,……,o_k)表示对第一实例特征o₁,o₂,……,o_k进行连接，f_linear()表示线性映射，I即为映射特征。

步骤S143，基于所述第三场景特征、所述第四场景特征和所述映射特征，确定第一实例损失值。

这里，基于第三场景特征、第四场景特征和映射特征，可以确定第一样本图像中场景的表征与实例的表征之间的损失，也即第一实例损失值。在实施时，可以根据实际情况采用任意合适的方式基于第三场景特征、第四场景特征和映射特征，确定第一实例损失值，这里并不限定。

上述实施例中，对每一第一实例特征进行连接，得到连接特征，并将连接特征映射至第三场景特征的维度，得到映射特征，基于第三场景特征、第四场景特征和映射特征，确定第一实例损失值。这样，由于场景与场景内的实例之间是存在相关性的，因而在确定目标损失值时基于第三场景特征、第四场景特征和映射特征确定第一实例损失值，可以以近似场景视图的语义指导模型学习实例的表征，从而有效保持第一样本图像中场景的表征与实例的表征之间的一致性，提高训练后的第一模型对场景与实例之间的语义亲和力的学习能力，进而可以进一步提高训练后的第一模型的泛化能力。

在一些实施例中，上述步骤S143可以包括如下步骤S151至步骤S153：

步骤S151，基于所述第三场景特征和所述映射特征之间的相似度，确定第一子损失值。

这里，可以采用任意合适的相似度损失函数基于第三场景特征和映射特征之间的相似度，确定第一子损失值，这里并不限定。

步骤S152，基于所述第四场景特征和所述映射特征之间的相似度，确定第二子损失值。

这里，可以采用任意合适的相似度损失函数基于第四场景特征和映射特征之间的相似度，确定第二子损失值，这里并不限定。在实施时，确定第二子损失值所采用的相似度损失函数与确定第二子损失值所采用的相似度损失函数可以相同，也可以不同。

步骤S153，基于所述第一子损失值和所述第二子损失值，确定第一实例损失值。

这里，可以根据实际情况采用合适的方式基于第一子损失值和第二子损失值确定第一实例损失值，本申请实施例并不限定。例如，可以将第一子损失值和第二子损失值之和确定为第一实例损失值，也可以将第一子损失值和第二子损失值的平均值确定为第一实例损失值，还可以采用不同的权重对第一子损失值和第二子损失值进行加权求和得到第一实例损失值。

在一些实施方式中，上述步骤S151可以包括：基于所述第三场景特征和所述映射特征之间的负余弦相似度，确定第一子损失值；上述步骤S152可以包括：基于所述第四场景特征和所述映射特征之间的负余弦相似度，确定第二子损失值。

在实施时，可以采用如下公式3所示的方法，基于第三场景特征和映射特征之间的负余弦相似度，确定第一子损失值

其中，s₁表示第一场景图像，I表示映射特征，g_ξ(s₁)表示利用第二模型得到的第一场景图像的第三场景特征。此外，基于第四场景特征和映射特征之间的负余弦相似度确定第二损失值的方式，可以参考基于第三场景特征和映射特征之间的负余弦相似度，确定第一子损失值的方式。

在一些实施例中，上述步骤S133中所述的基于每一所述第一实例特征和每一所述候选实例在所述第二场景图像中的第二实例特征，包括如下步骤S161至步骤S162：

步骤S161，对每一所述第一实例特征和每一所述第二实例特征进行匹配，得到至少一对具有目标匹配关系的第一实例特征和第二实例特征。

这里，具有目标匹配关系的第一实例特征和第二实例特征可以是具有相似性的两个实例特征。在实施时，每一第一实例特征和每一第二实例特征之间的匹配可以是一对一的，也可以是一对多、多对一或多对多的，本领域技术人员可以根据实际情况采用任意合适的匹配方式对每一第一实例特征和每一第二实例特征进行匹配，这里并不限定。

在一些实施方式中，可以确定每一第一实例特征与每一第二实例特征之间的相似度，将相似度大于相似度阈值的第一实例特征与第二实例特征确定为具有目标匹配关系的一对第一实例特征和第二实例特征。

在一些实施方式中，可以基于最优传输算法，确定至少一对具有目标匹配关系的第一实例特征和第二实例特征。

步骤S162，基于每一对具有目标匹配关系的第一实例特征和第二实例特征，确定第二实例损失值。

这里，可以采用任意合适的相似度损失函数确定每一对具有目标匹配关系的第一实例特征和第二实例特征之间的相似度损失，基于每一相似度损失，可以确定目标损失值。

上述实施例中，对每一第一实例特征和每一第二实例特征进行匹配，得到至少一对具有目标匹配关系的第一实例特征和第二实例特征，基于每一对具有目标匹配关系的第一实例特征和第二实例特征，确定第二实例损失值。这样，可以对场景中不同的实例进行区分，通过保持每一对具有目标匹配关系的第一实例特征和第二实例特征之间的一致性，可以提升训练后的第一模型对场景中不同实例的区别表征进行学习的能力，从而可以提高训练后的第一模型对场景中不同实例的区分能力，进而可以进一步提高训练后的第一模型的泛化能力。

在一些实施例中，上述步骤S161可以包括：

步骤S171，基于最优传输算法，对每一所述第一实例特征和每一所述第二实例特征进行匹配，得到至少一对具有目标匹配关系的第一实例特征和第二实例特征。

这里，在最优传输算法中，假设需要M个供应方将货物运输到N个需求方，第m个供应方持有b_m个单位的货物，而第n个需求方需要a_n个单位的货物，从第m个供应方运输货物到第n个需求方的单位成本用c_mn表示。最优运输算法的目标是找到一个最优运输计划

根据该最优运输计划，可以将来自M个供应方的所有货物以最小的运输成本运输到N个需求方，其中，M和N均为正整数，m为大于0且小于等于M的正整数，n为大于0且小于等于N的正整数。例如，最优运输计划可以满足如下公式4所示的约束：

其中，b_m和a_n分别被称为第m个供应方的边际权重和第n个需求方的边际权重。

在一些实施方式中，基于最优传输算法，对每一第一实例特征和每一第二实例特征进行匹配的过程中，可以基于各第一实例特征构建第一特征向量集O＝[o₁,o₂,...,o_k]，基于各第二实例特征构建第二特征向量集T＝[t₁,t₂,...,t_k]，其中，第一实例特征的数量为k，第二实例特征的数量也为k，可以将第一特征向量集中的每一个节点o_m作为供应方，将第二特征向量集中的每一个节点t_n作为需求方。由于具有相似表示的节点往往会在彼此之间产生较少的传输成本，而具有不相关表示的节点往往会产生更多的传输成本，因此可以将o_m与t_n之间的距离作为o_m与t_n之间的单位传输成本c_mn，其中，m和n均为不超过k的正整数。例如，可以参见如下公式5：

其中，o_m与t_n之间的传输成本c_mn可以是o_m与t_n之间的余弦距离。

节点o_m的边际权重b_m和节点t_n的边际权重a_n可以采用如下公式6所示的方式确定：

其中，max{}可以确保边际权重为非负数。

基于最优传输算法，可以确定每一第一实例特征和每一第二实例特征之间的最优传输计划

最优传输计划

中可以包括每一第一实例特征分别与每一第二实例特征之间的传输分配量。在实施时，可以采用任意合适的方式确定最优运输计划

这里并不限定。例如，可以采用Sinkhorn-Knopp算法快速迭代上述公式4得到最优运输计划

在一些实施方式中，可以将传输成本满足预设成本条件的第一实例特征和第二实例特征确定为具有目标匹配关系的第一实例特征和第二实例特征。例如，可以将传输成本小于设定的成本阈值的第一实例特征和第二实例特征确定为具有目标匹配关系的第一实例特征和第二实例特征。

在一些实施方式中，可以将传输分配量满足预设分配量条件的第一实例特征和第二实例特征确定为具有目标匹配关系的第一实例特征和第二实例特征。例如，可以将传输分配量大于设定的分配量阈值的第一实例特征和第二实例特征确定为具有目标匹配关系的第一实例特征和第二实例特征。

上述步骤S162可以包括：

步骤S172，基于每一对具有目标匹配关系的第一实例特征和第二实例特征之间的传输成本，确定第二实例损失值。

这里，每一对具有目标匹配关系的第一实例特征和第二实例特征之间的传输成本可以是基于该第一实例特征与第二实例特征之间的单位传输成本和传输分配量确定的。

在一些实施方式中，针对每一对具有目标匹配关系的第一实例特征和第二实例特征，可以基于该第一实例特征与第二实例特征之间的单位传输成本与传输分配量之间的乘积，确定该第一实例特征与第二实例特征之间的传输成本。

在实施时，可以根据实际情况采用合适的方式基于每一对具有目标匹配关系的第一实例特征和第二实例特征之间的传输成本，确定第二实例损失值，本申请实施例并不限定。例如，可以将每一对具有目标匹配关系的第一实例特征和第二实例特征之间的传输成本之和确定为第二实例损失值，也可以将每一对具有目标匹配关系的第一实例特征和第二实例特征之间的传输成本的平均值确定为第二实例损失值，还可以采用不同的权重对每一对具有目标匹配关系的第一实例特征和第二实例特征之间的传输成本进行加权求和得到第二实例损失值，还可以将每一对具有目标匹配关系的第一实例特征和第二实例特征之间的传输成本之和，按照特定的偏移值进行偏移后，得到第二实例损失值。

例如，可以采用如下公式7所示的方式确定第二实例损失值：

其中，可以将o_m与t_n之间的负余弦相似度

作为o_m与t_n之间的单位传输成本，

为最优传输计划

中第一实例特征o_m与第二实例特征t_n之间的传输分配量，将第一实例特征o_m与第二实例特征t_n之间的单位传输成本

与传输分配量

相乘，得到第一实例特征o_m和第二实例特征t_n之间的传输成本，通过累加对每一对具有目标匹配关系的第一实例特征和第二实例特征之间的传输成本，即可得到第二实例损失值

上述实施例中，基于最优传输算法，对每一第一实例特征和每一第二实例特征进行匹配，得到至少一对具有目标匹配关系的第一实例特征和第二实例特征，基于每一对具有目标匹配关系的第一实例特征和第二实例特征之间的传输成本，确定第二实例损失值。这样，可以将场景中不同实例的区分转化为第一场景图像与第二场景图像的重叠区域中所有候选实例的表征之间的最优传输匹配问题，从而可以快速准确地确定至少一对具有目标匹配关系的第一实例特征和第二实例特征，并保持具有目标匹配关系的第一实例特征和第二实例特征之间的一致性，且由于在每个实例的表征与自身相似且与其他实例的表征不同的情况下可以达到最优传输匹配，从而可以指导模型对共现的不同实例之间的表征进行区分学习，进而可以进一步提高训练后的第一模型对场景中不同实例的区分能力。

在一些实施例中，所述方法还可以包括如下步骤S181a至步骤S182a：

步骤S181a，从所述第一场景图像中获取所述重叠区域内每一候选实例对应的第一实例图像。

这里，在第一场景图像与第二场景图像的重叠区域内可以包括至少一个候选实例，每一候选实例在第一场景图像中可以对应一个候选区域，每一候选实例对应的第一实例图像即为该候选实例对应的候选区域的图像。在实施时，可以从第一场景图像中提取每一候选实例对应的候选区域的图像，得到每一候选实例对应的第一实例图像，也可以在从第一场景图像中提取得到每一候选实例对应的候选区域的图像后，对每一候选区域的图像进行尺寸调整、旋转、灰度转换等增强处理后，得到每一候选实例对应的第一实例图像，这里并不限定。

步骤S182a，利用所述第一模型，对每一所述第一实例图像进行特征提取，得到每一所述第一实例特征。

这里，在一些实施方式中，可以针对每一第一实例图像，利用第一模型对该第一实例图像进行特征提取得到，该第一实例图像的第一实例特征。

在一些实施方式中，可以将各第一实例图像进行叠加后得到一个叠加图像，利用第一模型对该叠加图像进行特征提取，可以得到一个该叠加图像的特征，叠加图像的特征中可以包括每一第一实例图像的第一实例特征。这样，将各第一实例图像叠加后作为一个整体进行特征提取，可以使得提取到的各第一实例图像的第一实例特征之间包含更多共性特征。

在一些实施例中，上述步骤S181a可以包括如下步骤S191a至步骤S192a：

步骤S191a，从所述第一场景图像中获取所述重叠区域内每一候选实例对应的第一候选区域图像；

步骤S192a，将每一所述第一候选区域图像的尺寸调整至目标尺寸，得到每一所述候选实例对应的第一实例图像。

这里，目标尺寸可以是预先设定的，也可以是根据第一图像样本和/或第一场景图像的尺寸确定的，这里并不限定。例如，目标尺寸可以是96*96像素。

在一些实施例中，在所述目标实例损失值包括所述第二实例损失值的情况下，所述方法还包括如下步骤S181b至步骤S182b：

步骤S181b，从所述第二场景图像中获取所述重叠区域内每一候选实例对应的第二实例图像；

步骤S182b，利用所述第二模型，对每一所述第二实例图像进行特征提取，得到每一所述第二实例特征。

这里，上述步骤S181b至步骤S182b分别对应于前述实施例中的步骤S181a至步骤S182a，在实施时可以参照前述步骤S181a至步骤S182a的实施方式。

在一些实施例中，上述步骤S181b可以包括如下步骤S191b至步骤S192b：

步骤S191b，从所述第二场景图像中获取所述重叠区域内每一候选实例对应的第二候选区域图像；

步骤S192b，将每一所述第二候选区域图像的尺寸调整至目标尺寸，得到每一所述候选实例对应的第二实例图像。

这里，上述步骤S191b至步骤S192b分别对应于前述实施例中的步骤S191a至步骤S192a，在实施时可以参照前述步骤S191a至步骤S192a的实施方式。

在一些实施例中，所述方法还包括：在所述重叠区域内包括的候选实例的数量小于设定数量的情况下，在所述重叠区域内确定至少一个新增的候选实例，使得所述重叠区域内包括所述设定数量的候选实例。

这里，在第一场景图像和第二场景图像的重叠区域内可能包括至少一个候选实例，也可能不包括候选实例。在重叠区域内包括的候选实例的数量小于设定数量的情况下，可以在重叠区域内确定至少一个新增的候选实例，使得该重叠区域内包括的候选实例的数量达到设定数量。

在实施时，设定数量可以是根据实际情况确定的，这里并不限定。例如，设定数量可以是2、4或8等。

在一些实施方式中，可以在重叠区域内生成至少一个候选实例框，并基于生成的候选实例框确定至少一个新增的候选实例。在实施时，可以采用任意合适的方式生成至少一个候选实例框，这里并不限定。例如，可以采用一种朴素策略在重叠区域内随机生成至少一个候选实例框，该朴素策略可以包括将候选实例框的最小规模设置为64像素，宽高比范围设置在1/3与3/1之间，候选实例框之间的最大交并比设置为0.5。

在上述实施例中，在重叠区域内包括的候选实例的数量小于设定数量的情况下，在该重叠区域内确定至少一个新增的候选实例，使得该重叠区域内包括该设定数量的候选实例。这样，可以使得第一场景图像与第二场景图像的重叠区域中至少包括设定数量的候选实例，从而可以进一步提高第一场景图像与第二场景图像之间的相关性，进而可以进一步提高训练后的第一模型的性能。此外，还可以进一步提高提高训练后的第一模型对场景与实例之间的语义亲和力的学习能力，以及对场景中不同实例的区分能力，这样，可以进一步提高训练后的第一模型对多粒度表征的学习能力，从而可以提高训练后的第一模型的泛化能力。

本申请实施例提供一种模型训练方法，该方法可以由计算机设备的处理器执行。图2为本申请实施例提供的一种模型训练方法的实现流程示意图，如图2所示，该方法包括如下步骤S201至步骤S204：

步骤S201，基于第一图像样本，确定第一场景图像和第二场景图像；所述第一场景图像与所述第二场景图像之间具有重叠区域。

步骤S202，利用待训练的第一模型，对所述第一场景图像和所述第二场景图像分别进行特征提取，得到所述第一场景图像的第一场景特征和所述第二场景图像的第二场景特征，并利用第二模型，对所述第一场景图像和所述第二场景图像分别进行特征提取，得到所述第一场景图像的第三场景特征和所述第二场景图像的第四场景特征。

步骤S203，基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征，确定目标损失值。

步骤S204，在所述目标损失值不满足预设条件的情况下，对所述第一模型的模型参数进行更新，得到更新后的第一模型。

这里，预设条件可以包括但不限于目标损失值小于设定的损失值阈值、目标损失值变化收敛等。在实施时，预设条件可以根据实际情况设定，这里并不限定。

对第一模型的模型参数进行更新的方式可以是根据实际情况确定的，可以包括但不限于梯度下降法、动量更新法、牛顿动量法等中的至少一种，这里并不限定。

在一些实施方式中，上述方法还可以包括如下步骤S211至步骤S214：

步骤S211，将基于下一第一图像样本确定的第一场景图像和第二场景图像分别确定为当前场景图像和当前第二场景图像。

这里，下一第一图像样本可以是与当前的第一图像样本相同的图像，也可以是与当前的第一图像样本不同的图像。

步骤S212，利用当前更新后的第一模型，对当前第一场景图像和当前第二场景图像分别进行特征提取，得到当前第一场景图像的第一场景特征和当前第二场景图像的第二场景特征，并利用第二模型，对当前第一场景图像和当前第二场景图像分别进行特征提取，得到当前第一场景图像的第三场景特征和当前第二场景图像的第四场景特征。

步骤S213，基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征，确定当前目标损失值。

步骤S214，在所述目标损失值满足所述预设条件或对所述第一模型的模型参数进行更新的次数达到次数阈值的情况下，将当前更新后的第一模型确定为训练后的所述第一模型。

在一些实施例中，上述步骤S204中所述的对所述第一模型的模型参数进行更新，得到更新后的第一模型，可以包括：

步骤S221，分别对所述第一模型的模型参数和所述第二模型的模型参数进行更新，得到更新后的第一模型和更新后的第二模型。

在一些实施方式中，可以在目标损失值不满足预设条件的情况下，分别对第一模型的模型参数和第二模型的模型参数进行更新，得到更新后的第一模型和更新后的第二模型，基于更新后的第一模型和更新后的第二模型，确定新的目标损失值，并通过判断该新的目标损失值是否满足预设条件，来确定是否对更新后的第一模型以及更新后的第二模型继续进行更新。在新的目标损失值满足预设条件的情况下，可以确定不对更新后的第一模型以及更新后的第二模型继续进行更新，可以将该更新后的第一模型确定为训练后的第一模型；在新的目标损失值不满足预设条件或者对所述第一模型的模型参数进行更新的次数达到次数阈值的情况下，可以对更新后的第一模型以及更新后的第二模型继续进行更新，并将最终更新后的第一模型确定为训练后的第一模型。

上述实施例中，在对第一模型的模型参数进行更新的过程中，也对第二模型的模型参数进行更新，从而可以使得第一模型和第二模型的学习能力可以互相增强，进而可以进一步提高训练后的第一模型的性能。

在一些实施方式中，上述步骤S221可以包括如下步骤S231至步骤S232：

步骤S231，基于所述第一模型当前的模型参数，对所述第二模型的模型参数进行动量更新，得到更新后的第二模型。

这里，本领域技术人员可以在实施时根据实际情况采用任意合适的动量更新方式基于第一模型当前的模型参数对第二模型的模型参数进行动量更新，本申请实施例并不限定。

在一些实施方式中，可以基于设定的权重，对第一模型当前的模型参数和第二模型当前的模型参数进行加权求和，得到更新后的第二模型。例如，可以采用如下公式8所示的方式对第二模型的模型参数进行动量更新：

ξ_j+1＝m*ξ_j+(1-m)*θ_j (8)；

其中，ξ_j和θ_j分别为第二模型当前的模型参数和第一模型当前的模型参数，ξ_j+1为更新后的第二模型的模型参数，m为设定的动量系数。在一些实施方式中，m可以是大于或等于0.99且小于1的值，例如，m为0.995。

步骤S232，采用梯度更新的方式，对所述第一模型当前的模型参数进行更新，得到更新后的第一模型。

这里，可以采用任意合适的梯度更新算法，对第一模型当前的模型参数进行更新，本申请实施例并不限定。例如，梯度更新算法可以包括但不限定于批量梯度下降、随机梯度下降、小批量梯度下降等中的至少一种。

上述实施例中，基于第一模型当前的模型参数，对第二模型的模型参数进行动量更新，得到更新后的第二模型，并采用梯度更新的方式，对第一模型当前的模型参数进行更新，得到更新后的第一模型。这样，可以使得第一模型和第二模型以不同的速率进行更新，可以减少模型坍缩的情况，进一步提高训练后的第一模型的性能。

本申请实施例提供一种模型训练方法，该方法可以由计算机设备的处理器执行。图3为本申请实施例提供的一种模型训练方法的实现流程示意图，如图3所示，该方法包括如下步骤S301至步骤S306：

步骤S301，获取所述第一图像样本中的至少一个候选实例。

这里，第一图像样本中的至少一个候选实例可以是随机确定的，也可以是通过任意合适的无监督算法对第一图像样本进行目标检测得到的，还可以人工标注的，这里并不限定。例如，无监督检测算法可以包括但不限于滑动窗口法、候选区域算法、选择性搜索算法等中的至少一种。

步骤S302，从至少一个所述候选实例中，确定至少一个目标候选实例。

这里，可以采用任意合适的方式从至少一个候选实例中，确定至少一个目标候选实例，这里并不限定。

在一些实施方式中，可以预先设定候选实例筛选条件，基于该候选实例筛选条件，可以从至少一个候选实例中筛选出满足该候选实例筛选条件的至少一个目标候选实例。在实施时，可以根据实际情况设置合适的候选实例筛选条件，这里并不限定。例如，每一候选实例可以对应第一图像样本中的一个候选区域，候选实例筛选条件可以包括但不限于候选实例对应的候选区域的最小规模、宽高比范围和最大交并比等至少之一。这样，可以得到满足候选实例筛选条件的目标候选实例，并能在一定程度上减少模型训练的计算量，提高模型训练的效率。

在一些实施方式中，可以从至少一个所述候选实例中，确定设定数量的目标候选实例。在实施时，设定数量可以是根据实际情况确定的，这里并不限定。例如，设定数量可以是2、4或8等。

步骤S303，基于所述第一图像样本和所述至少一个目标候选实例，确定具有重叠区域的第一场景图像和第二场景图像，所述重叠区域中包括所述至少一个目标候选实例。

这里，可以从第一图像样本中确定两个分别包括该至少一个目标候选实例的场景区域，根据第一图像样本中这两个场景区域的图像可以分别确定第一场景图像和第二场景图像。由于第一场景图像和第二场景图像对应的场景区域中均包括该至少一个目标候选实例，从而第一场景图像和第二场景图像之间具有重叠区域，且该重叠区域中包括该至少一个目标候选实例。

在一些实施方式中，可以从第一图像样本中随机确定两个分别包括该至少一个目标候选实例的场景区域，并根据第一图像样本中这两个场景区域的图像分别确定第一场景图像和第二场景图像。

步骤S304，利用待训练的第一模型，对所述第一场景图像和所述第二场景图像分别进行特征提取，得到所述第一场景图像的第一场景特征和所述第二场景图像的第二场景特征，并利用第二模型，对所述第一场景图像和所述第二场景图像分别进行特征提取，得到所述第一场景图像的第三场景特征和所述第二场景图像的第四场景特征。

步骤S305，基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征，确定目标损失值。

步骤S306，基于所述目标损失值，对所述第一模型的模型参数进行至少一次更新，得到训练后的所述第一模型。

这里，上述步骤S304至步骤S306分别对应于前述步骤S102至步骤S104，在实施时可以参照前述步骤S102至步骤S104的实施方式。

本申请实施例中，获取第一图像样本中的至少一个候选实例，从至少一个候选实例中，确定至少一个目标候选实例，基于第一图像样本和至少一个目标候选实例，确定具有重叠区域的第一场景图像和第二场景图像，该重叠区域中包括该至少一个目标候选实例。这样，可以快速地确定具有重叠区域的第一场景图像和第二场景图像。

在一些实施例中，上述步骤S301可以包括：

步骤S311，采用无监督方式，对所述第一图像样本进行目标检测，得到至少一个候选实例。

这里，可以采用任意合适的无监督算法实现对第一图像样本进行的无监督方式的目标检测。这样，可以减少模型训练过程中的人工成本。

在一些实施例中，上述步骤S303可以包括如下步骤S321至步骤S323：

步骤S321，对所述第一图像样本分别进行第一图像增广处理和第二图像增广处理，得到第一增广图像和第二增广图像。

这里，第一图像增广处理和第二图像增广处理均可以包括但不限于随机缩放、随机裁剪、随机翻转、随机调整尺寸、颜色抖动、灰度处理、高斯模糊、随机擦除等中的至少一种。第一图像增广处理和第二图像增广处理采用的增广方式可以是相同的，也可以是不同的。在实施时，本领域技术人员可以根据实际情况，选择合适的方式对第一图像样本进行的进行第一增广处理以及第二增广处理，本申请实施例并不限定。

步骤S322，从所述第一增广图像中获取包括所述至少一个目标候选实例的第一场景图像。

步骤S323，从所述第二增广图像中获取包括所述至少一个目标候选实例的第二场景图像。

这里，可以根据实际情况采用合适的方式分别从第一增广图像和第二增广图像中获取包括至少一个目标候选实例的第一场景图像和第二场景图像，这里并不限定。例如，可以根据设定的场景图像尺寸，分别从第一增广图像和第二增广图像中裁剪得到包括至少一个目标候选实例的第一场景图像和第二场景图像。场景图像尺寸可以包括但不限于图像的面积、宽高比等。

上述实施例中，通过对第一图像样本分别进行第一图像增广处理和第二图像增广处理，得到第一增广图像和第二增广图像，并分别从第一增广图像和第二增广图像中获取包括至少一个目标候选实例的第一场景图像和第二场景图像，这样，可以使得第一场景图像和第二场景图像之间存在差异，从而可以使得第一模型与第二模型学习能力差异化，以减少模型训练坍缩的情况，并能提升训练得到的第一模型的学习能力。

本申请实施例提供一种模型训练方法，该方法可以由计算机设备的处理器执行。图4为本申请实施例提供的一种模型训练方法的实现流程示意图，如图4所示，该方法包括如下步骤S401至步骤S406：

步骤S401，基于第一图像样本，确定第一场景图像和第二场景图像；所述第一场景图像与所述第二场景图像之间具有重叠区域。

步骤S402，利用待训练的第一模型，对所述第一场景图像和所述第二场景图像分别进行特征提取，得到所述第一场景图像的第一场景特征和所述第二场景图像的第二场景特征，并利用第二模型，对所述第一场景图像和所述第二场景图像分别进行特征提取，得到所述第一场景图像的第三场景特征和所述第二场景图像的第四场景特征。

步骤S403，基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征，确定目标损失值。

步骤S404，基于所述目标损失值，对所述第一模型的模型参数进行至少一次更新，得到训练后的所述第一模型。

这里，上述步骤S401至步骤S404分别对应于前述步骤S101至步骤S104，在实施时可以参照前述步骤S101至步骤S104的实施方式。

步骤S405，基于训练后的所述第一模型，确定初始的第三模型。

这里，在一些实施方式中，可以根据实际业务场景对训练后的第一模型中的输出层进行调整，并将调整后的第一模型确定为初始的第三模型。例如，在当前业务场景中的任务为图像分类任务的情况下，可以将第一模型中的输出层替换为用于进行图像分类的前馈神经网络；在当前业务场景中的任务为图像分割任务的情况下，可以将第一模型中的输出层替换为用于进行图像分割的前馈神经网络。

步骤S406，基于至少一个第二图像样本，对所述第三模型的模型参数进行更新，得到训练后的所述第三模型。

这里，第二图像样本可以具有标注信息，也可以是无标注信息的，可以是单目标图像，也可以是多目标图像。在实施时，本领域技术人员可以根据实际业务场景确定合适的第二图像样本，这里并不限定。

在一些实施方式中，可以基于至少一个第二图像样本，对所述第三模型的模型参数进行微调训练，得到训练后的所述第三模型。

本申请实施例中，基于训练后的第一模型，确定初始的第三模型，并基于至少一个第二图像样本，对第三模型的模型参数进行更新，得到训练后的第三模型。这样，可以将训练后的第一模型的模型参数迁移至用于进行其他任务的模型中，以应用至多种业务场景，并能提高第三模型的训练效率以及训练后的第三模型的性能。

本申请实施例提供一种图像处理方法，该方法可以由计算机设备的处理器执行。图5为本申请实施例提供的一种模型训练方法的实现流程示意图，如图5所示，该方法包括如下步骤S501至步骤S502：

步骤S501，获取待处理图像；

步骤S502，利用已训练的第四模型，对所述待处理图像进行处理，得到处理结果；其中，所述第四模型包括以下至少之一：采用上述实施例中所述的模型训练方法得到的第一模型，采用上述实施例中所述的模型训练方法得到的第三模型。

这里，待处理图像可以是任意合适的图像，在实施时，本领域技术人员可以根据实际应用场景选择合适的待处理图像，本申请实施例并不限定。

利用第四模型对待处理图像进行的处理可以是根据实际应用场景确定的，可以包括但不限于分类处理、目标检测处理、图像分割处理等中的至少一种。例如，在工业缺陷检测场景中，目标检测处理可以包括但不限于螺母缺陷检测处理、螺栓缺陷检测处理、开口销缺陷检测处理等。

在一些实施方式中，上述步骤S502可以包括：利用已训练的第四模型，对所述待处理图像进行以下至少一种处理：分类处理、目标检测处理、图像分割处理，得到处理结果。

本申请实施例中，由于上述实施例中所述的模型训练方法可以通过保持第一模型和第二模型分别对具有重叠区域的第一场景图像与第二场景图像处理后得到的第一场景特征和第二场景特征、以及第三场景特征和第四场景特征之间的一致性，实现在第一图像样本上的自监督训练过程，提高训练后的第一模型的性能，并且对于单目标图像以及多目标图像上的模型训练均能适用，可以大大降低训练过程中对于样本数据质量的高要求和高依赖性，具有更好的通用性，因此，基于采用上述实施例中所述的模型训练方法得到的第一模型和/或第三模型对待处理图像进行分类处理、目标检测处理和/或图像分割处理等，可以提高处理结果的准确性。

本申请实施例提供一种通用视觉模型的自监督预训练方法，该方法可以实现利用单目标图像和/或多目标图像进行的多粒度视觉表征的自监督学习过程。该方法可以使用任意类型的图像数据进行训练，从而可以提高自监督训练的鲁棒性，并且训练出来的模型具有更好的性能表现，可以适用于多种应用场景任务。图6A为本申请实施例提供的一种自监督预训练方法的实现流程示意图，如图6A所示，该方法可以包括如下步骤S601至步骤S610：

步骤S601，从第一图像样本中确定至少一个候选实例。

在实施时，可以采用任意合适的无监督检测算法对第一图像样本中的目标实例进行检测，得到至少一个候选实例。例如，可以采用选择性搜索算法从第一图像样本中无监督地获得高召回率的至少一个候选实例。

步骤S602，从第一图像样本中随机确定具有重叠区域的第一场景区域和第二场景区域，并基于该第一场景区域和该第二场景区域分别确定第一场景图像和第二场景图像；其中，该重叠区域中包括设定数量的候选实例。

这里，第一场景图像和第二场景图像之间具有重叠区域。图6B为本申请实施例提供的一种确定第一场景图像和第二场景图像的示意图，如图6B所示，从第一图像样本p中随机确定具有重叠区域的第一场景区域s₁和第二场景区域s₂，并基于该第一场景区域s₁和该第二场景区域s₂分别确定第一场景图像s₁'和第二场景图像s₂'，第一场景图像s₁'和第二场景图像s₂'中均包含候选实例b₁和b₂，并且第一场景图像s₁'与第二场景图像s₂'之间是具有相似性的。相比于采用完全随机的方式从第一图像样本中确定两个场景图像，在第一图像样本为多目标图像的情况下，完全随机的方式确定的两个场景图像之间可能会由于相距较远导致语义不一致，从而导致模型无法学习，而本申请实施例提供的自监督预训练方法中确定的第一场景图像与第二场景图像之间是具有全局相似性的，可以适用于对单目标图像和/或多目标图像的学习。

步骤S603，利用待训练的第一模型，对所述第一场景图像和所述第二场景图像分别进行特征提取，得到所述第一场景图像的第一场景特征和所述第二场景图像的第二场景特征，并利用第二模型，对所述第一场景图像和所述第二场景图像分别进行特征提取，得到所述第一场景图像的第三场景特征和所述第二场景图像的第四场景特征。

步骤S604，从第一场景图像中获取该重叠区域内每一候选实例对应的第一实例图像，从第二场景图像中获取该重叠区域内每一候选实例对应的第二实例图像。

例如，继续参见图6B，可以从第一场景图像s₁'中获取该重叠区域内的候选实例b₂对应的第一实例图像b₂'，从第二场景图像s₂'中获取该重叠区域内候选实例b₁对应的第二实例图像b₁'，该第一实例图像b₂'与第二实例图像b₁'对应的是共现但不同的实例，并且，第一场景图像s₁'与第一实例图像b₂'之间、以及第二场景图像s₂'与第二实例图像b₁'之间均是相关的，从而在训练过程中可以利用自然场景和场景中实例之间的语义亲和力，并能区分图像中共现但不同的实例。

步骤S605，利用第一模型，对每一第一实例图像进行特征提取，得到每一候选实例在第一场景图像中的第一实例特征，并利用第二模型，对每一第二实例图像进行特征提取，得到每一候选实例在第二场景图像中的第二实例特征。

步骤S606，基于第一场景特征和第四场景特征之间的相似度、第二场景特征和第三场景特征之间的相似度，确定目标场景损失值。

步骤S607，将每一第一实例特征连接在一起后进行线性映射，得到与第一场景图像维度相同的映射特征，并基于第三场景特征和该映射特征之间的相似度、第四场景特征和该映射特征之间的相似度，确定第一实例损失值。

步骤S608，基于最优传输算法，确定每一第一实例特征和每一第二实例特征之间的最优传输损失，并将该最优传输损失确定为第二实例损失值。

步骤S609，基于目标场景损失值、第一实例损失值和第二实例损失值，确定目标损失值。

步骤S610，基于所述目标损失值，对第一模型和第二模型进行至少一次更新，得到训练后的第一模型。

图6C为本申请实施例提供的一种自监督预训练方法的实现架构示意图，如图6C所示，该方法的实现包括场景实例提取10、特征提取20和损失计算30；其中：

通过场景实例提取10，可以从第一图像样本p中确定至少一个候选实例i，并从第一图像样本p中随机确定具有重叠区域的第一场景区域s₃和第二场景区域s₄，并基于该第一场景区域s₃和该第二场景区域s₄分别确定第一场景图像s₃'和第二场景图像s₄'，第一场景图像s₃'和第二场景图像s₄'中均包含候选实例i₁和i₂，从第一场景图像s₃'中提取候选实例i₁和i₂分别对应的第一实例图像i₁'和i₂'，从第二场景图像s₄'中提取候选实例i₁和i₂分别对应的第二实例图像i₁”和i₂”；

通过特征提取20，可以将第一场景图像s₃'和第二场景图像s₄'均分别输入第一模型M1和第二模型M2，得到第一模型M1输出的第一场景图像s₃'的第一场景特征f_o1和第二场景图像s₄'的第二场景特征f_o2，以及第二模型M2输出的第一场景图像s₃'的第三场景特征f_t1和第二场景图像s₄'的第四场景特征f_t2；

通过特征提取20，还可以将第一实例图像i₁'和i₂'输入第一模型M1，得到候选实例i₁和i₂分别在第一场景图像中的第一实例特征o₁和o₂，将第二实例图像i₁”和i₂”输入第二模型M2，得到候选实例i₁和i₂分别在第二场景图像中的第二实例特征t₁和t₂；

通过损失计算30，可以基于第一场景特征f_o1和第四场景特征f_t2之间的相似度、第二场景特征f_o2和第三场景特征f_t1之间的相似度，确定目标场景损失值L_s-s；将每一第一实例特征o₁和o₂连接在一起后进行线性映射，得到与第一场景图像维度相同的映射特征f_c，并基于第三场景特征f_t1和该映射特征f_c之间的相似度、第四场景特征f_t2和该映射特征f_c之间的相似度，确定第一实例损失值L_s-i；基于最优传输算法，确定第一实例特征o₁和o₂、与第二实例特征t₁和t₂之间的最优传输损失，并将该最优传输损失确定为第二实例损失值L_i-i；将目标场景损失值L_s-s、第一实例损失值L_s-i和第二实例损失值L_i-i相加，得到目标损失值。

在一些实施方式中，本申请实施例提供的自监督预训练方法可以应用在工业视觉缺陷检测任务中，一方面不需要对训练数据进行标注，另一方面还极大地提升了工业视觉缺陷检测的准确性，为后期维修人员管理故障部件提供有效的帮助。

本申请实施例中，可以利用自监督算法对大量无标签数据进行训练，能够大大降低自监督训练对于训练数据质量的高要求和高依赖性，并能使得训练后的模型能够具备提取多粒度的特征的能力，从而可以提高模型的泛化能力，使得训练后的模型参数可以迁移至多种下游任务的模型中。此外，通过引入两个场景区域的重叠区域内的实例与场景之间的语义亲和力进行表征学习，可以使得对场景的表征能够专注于场景中的实例，忽略背景，从而可以提高训练后的模型的性能。

图7为本申请实施例提供的一种模型训练装置的组成结构示意图，如图7所示，模型训练装置700包括：第一确定模块710、第一提取模块720、第二确定模块730和第一更新模块740，其中：

第一确定模块710，用于基于第一图像样本，确定第一场景图像和第二场景图像；所述第一场景图像与所述第二场景图像之间具有重叠区域；

第一提取模块720，用于利用待训练的第一模型，对所述第一场景图像和所述第二场景图像分别进行特征提取，得到所述第一场景图像的第一场景特征和所述第二场景图像的第二场景特征，并利用第二模型，对所述第一场景图像和所述第二场景图像分别进行特征提取，得到所述第一场景图像的第三场景特征和所述第二场景图像的第四场景特征；

第二确定模块730，用于基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征，确定目标损失值；

第一更新模块740，用于基于所述目标损失值，对所述第一模型的模型参数进行至少一次更新，得到训练后的所述第一模型。

在一些实施例中，所述第二确定模块还用于：基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征，确定目标场景损失值；基于所述目标场景损失值，确定目标损失值。

在一些实施例中，所述第二确定模块还用于：基于所述第一场景特征和所述第四场景特征之间的相似度，确定第一场景损失值；基于所述第二场景特征和所述第三场景特征之间的相似度，确定第二场景损失值；基于所述第一场景损失值和所述第二场景损失值，确定所述目标场景损失值。

在一些实施例中，所述重叠区域内包括至少一个候选实例；所述第二确定模块还用于：基于所述目标场景损失值和目标实例损失值，确定目标损失值；其中，所述目标实例损失值包括以下至少之一：第一实例损失值和第二实例损失值；在所述目标实例损失值包括所述第一实例损失值的情况下，基于所述第三场景特征和所述第四场景特征、以及每一所述候选实例在所述第一场景图像中的第一实例特征，确定所述第一实例损失值；每一所述第一实例特征是利用所述第一模型提取的；在所述目标实例损失值包括所述第二实例损失值的情况下，基于每一所述第一实例特征和每一所述候选实例在所述第二场景图像中的第二实例特征，确定所述第二实例损失值；每一所述第二实例特征是利用所述第二模型提取的。

在一些实施例中，所述第三场景特征和所述第四场景特征维度相同；所述第二确定模块还用于：将每一所述第一实例特征进行连接，得到连接特征；将所述连接特征映射至所述第三场景特征的维度，得到映射特征；基于所述第三场景特征、所述第四场景特征和所述映射特征，确定第一实例损失值。

在一些实施例中，所述第二确定模块还用于：基于所述第三场景特征和所述映射特征之间的相似度，确定第一子损失值；基于所述第四场景特征和所述映射特征之间的相似度，确定第二子损失值；基于所述第一子损失值和所述第二子损失值，确定第一实例损失值。

在一些实施例中，所述第二确定模块还用于：对每一所述第一实例特征和每一所述第二实例特征进行匹配，得到至少一对具有目标匹配关系的第一实例特征和第二实例特征；基于每一对具有目标匹配关系的第一实例特征和第二实例特征，确定第二实例损失值。

在一些实施例中，所述第二确定模块还用于：基于最优传输算法，对每一所述第一实例特征和每一所述第二实例特征进行匹配，得到至少一对具有目标匹配关系的第一实例特征和第二实例特征；基于每一对具有目标匹配关系的第一实例特征和第二实例特征之间的传输成本，确定第二实例损失值。

在一些实施例中，所述装置还包括：第一获取模块，用于：从所述第一场景图像中获取所述重叠区域内每一候选实例对应的第一实例图像；第二提取模块，用于：利用所述第一模型，对每一所述第一实例图像进行特征提取，得到每一所述第一实例特征。

在一些实施例中，第一获取模块还用于：从所述第一场景图像中获取所述重叠区域内每一候选实例对应的第一候选区域图像；将每一所述第一候选区域图像的尺寸调整至目标尺寸，得到每一所述候选实例对应的第一实例图像。

在一些实施例中，在所述目标实例损失值包括所述第二实例损失值的情况下，所述装置还包括：第二获取模块，用于：从所述第二场景图像中获取所述重叠区域内每一候选实例对应的第二实例图像；第三提取模块，用于：利用所述第二模型，对每一所述第二实例图像进行特征提取，得到每一所述第二实例特征。

在一些实施例中，所述装置还包括：新增模块，用于在所述重叠区域内包括的候选实例的数量小于设定数量的情况下，在所述重叠区域内确定至少一个新增的候选实例，使得所述重叠区域内包括所述设定数量的候选实例。

在一些实施例中，所述第一更新模块还用于在所述目标损失值不满足预设条件的情况下，对所述第一模型的模型参数进行更新，得到更新后的第一模型。

在一些实施例中，所述第一更新模块还用于分别对所述第一模型的模型参数和所述第二模型的模型参数进行更新，得到更新后的第一模型和更新后的第二模型。

在一些实施例中，所述第一更新模块还用于：基于所述第一模型当前的模型参数，对所述第二模型的模型参数进行动量更新，得到更新后的第二模型；采用梯度更新的方式，对所述第一模型当前的模型参数进行更新，得到更新后的第一模型。

在一些实施例中，所述第一确定模块还用于：获取所述第一图像样本中的至少一个候选实例；从至少一个所述候选实例中，确定至少一个目标候选实例；基于所述第一图像样本和所述至少一个目标候选实例，确定具有重叠区域的第一场景图像和第二场景图像，所述重叠区域中包括所述至少一个目标候选实例。

在一些实施例中，所述第一确定模块还用于：采用无监督方式，对所述第一图像样本进行目标检测，得到至少一个候选实例。

在一些实施例中，所述第一确定模块还用于：对所述第一图像样本分别进行第一图像增广处理和第二图像增广处理，得到第一增广图像和第二增广图像；从所述第一增广图像中获取包括所述至少一个目标候选实例的第一场景图像；从所述第二增广图像中获取包括所述至少一个目标候选实例的第二场景图像。

在一些实施例中，所述装置还包括：第三确定模块，用于基于训练后的所述第一模型，确定初始的第三模型；第二更新模块，用于基于至少一个第二图像样本，对所述第三模型的模型参数进行更新，得到训练后的所述第三模型。

图8为本申请实施例提供的一种图像处理装置的组成结构示意图，如图8所示，图像处理装置800包括：第三获取模块810和处理模块820，其中：

第三获取模块810，用于获取待处理图像；

处理模块820，用于利用已训练的第四模型，对所述待处理图像进行处理，得到处理结果；其中，所述第四模型包括以下至少之一：采用上述实施例中所述的模型训练方法得到的第一模型，采用上述实施例中所述的模型训练方法得到的第三模型。

在一些实施例中，所述处理模块还用于利用已训练的第四模型，对所述待处理图像进行以下至少一种处理：分类处理、目标检测处理、图像分割处理，得到处理结果。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的模型训练方法或图像处理方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的步骤。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的步骤。所述计算机可读存储介质可以是瞬时性的，也可以是非瞬时性的。

本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

这里需要指出的是：以上存储介质、计算机程序产品和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质、计算机程序产品和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，图9为本申请实施例中计算机设备的一种硬件实体示意图，如图9所示，该计算机设备900的硬件实体包括：处理器901、通信接口902和存储器903，其中：

处理器901通常控制计算机设备900的总体操作。

通信接口902可以使计算机设备通过网络与其他终端或服务器通信。

存储器903配置为存储由处理器901可执行的指令和应用，还可以缓存待处理器901以及计算机设备900中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory，RAM)实现。处理器901、通信接口902和存储器903之间可以通过总线904进行数据传输。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征，确定目标损失值，包括：

基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征，确定目标场景损失值；

基于所述目标场景损失值，确定目标损失值。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征，确定目标场景损失值，包括：

基于所述第一场景特征和所述第四场景特征之间的相似度，确定第一场景损失值；

基于所述第二场景特征和所述第三场景特征之间的相似度，确定第二场景损失值；

基于所述第一场景损失值和所述第二场景损失值，确定所述目标场景损失值。

4.根据权利要求2或3所述的方法，其特征在于，所述重叠区域内包括至少一个候选实例；

所述基于所述目标场景损失值，确定目标损失值，包括：

基于所述目标场景损失值和目标实例损失值，确定目标损失值；其中，所述目标实例损失值包括以下至少之一：第一实例损失值和第二实例损失值；

所述基于所述第一场景特征和所述第二场景特征、以及所述第三场景特征和所述第四场景特征，确定目标损失值，还包括：

在所述目标实例损失值包括所述第一实例损失值的情况下，基于所述第三场景特征和所述第四场景特征、以及每一所述候选实例在所述第一场景图像中的第一实例特征，确定所述第一实例损失值；每一所述第一实例特征是利用所述第一模型提取的；

在所述目标实例损失值包括所述第二实例损失值的情况下，基于每一所述第一实例特征和每一所述候选实例在所述第二场景图像中的第二实例特征，确定所述第二实例损失值；每一所述第二实例特征是利用所述第二模型提取的。

5.根据权利要求4所述的方法，其特征在于，所述第三场景特征和所述第四场景特征维度相同；所述基于所述第三场景特征和所述第四场景特征、以及每一所述候选实例在所述第一场景图像中的第一实例特征，确定所述第一实例损失值，包括：

将每一所述第一实例特征进行连接，得到连接特征；

将所述连接特征映射至所述第三场景特征的维度，得到映射特征；

基于所述第三场景特征、所述第四场景特征和所述映射特征，确定第一实例损失值。

6.根据权利要求5所述的方法，其特征在于，所述基于所述第三场景特征、所述第四场景特征和所述映射特征，确定第一实例损失值，包括：

基于所述第三场景特征和所述映射特征之间的相似度，确定第一子损失值；

基于所述第四场景特征和所述映射特征之间的相似度，确定第二子损失值；

基于所述第一子损失值和所述第二子损失值，确定第一实例损失值。

7.根据权利要求4至6中任一项所述的方法，其特征在于，所述基于每一所述第一实例特征和每一所述候选实例在所述第二场景图像中的第二实例特征，确定所述第二实例损失值，包括：

对每一所述第一实例特征和每一所述第二实例特征进行匹配，得到至少一对具有目标匹配关系的第一实例特征和第二实例特征；

基于每一对具有目标匹配关系的第一实例特征和第二实例特征，确定第二实例损失值。

8.根据权利要求7所述的方法，其特征在于，所述对每一所述第一实例特征和每一所述第二实例特征进行匹配，得到至少一对具有目标匹配关系的第一实例特征和第二实例特征，包括：

基于最优传输算法，对每一所述第一实例特征和每一所述第二实例特征进行匹配，得到至少一对具有目标匹配关系的第一实例特征和第二实例特征；

所述基于每一对具有目标匹配关系的第一实例特征和第二实例特征，确定第二实例损失值，包括：

基于每一对具有目标匹配关系的第一实例特征和第二实例特征之间的传输成本，确定第二实例损失值。

9.根据权利要求4至8中任一项所述的方法，其特征在于，所述方法还包括：

从所述第一场景图像中获取所述重叠区域内每一候选实例对应的第一实例图像；

利用所述第一模型，对每一所述第一实例图像进行特征提取，得到每一所述第一实例特征。

10.根据权利要求9所述的方法，其特征在于，所述从所述第一场景图像中获取所述重叠区域内每一候选实例对应的第一实例图像，包括：

从所述第一场景图像中获取所述重叠区域内每一候选实例对应的第一候选区域图像；

将每一所述第一候选区域图像的尺寸调整至目标尺寸，得到每一所述候选实例对应的第一实例图像。

11.根据权利要求4至10中任一项所述的方法，其特征在于，在所述目标实例损失值包括所述第二实例损失值的情况下，所述方法还包括：

从所述第二场景图像中获取所述重叠区域内每一候选实例对应的第二实例图像；

利用所述第二模型，对每一所述第二实例图像进行特征提取，得到每一所述第二实例特征。

12.根据权利要求4至11中任一项所述的方法，其特征在于，所述方法还包括：

在所述重叠区域内包括的候选实例的数量小于设定数量的情况下，在所述重叠区域内确定至少一个新增的候选实例，使得所述重叠区域内包括所述设定数量的候选实例。

13.根据权利要求1至12中任一项所述的方法，其特征在于，所述基于所述目标损失值，对所述第一模型的模型参数进行至少一次更新，得到训练后的所述第一模型，包括：

在所述目标损失值不满足预设条件的情况下，对所述第一模型的模型参数进行更新，得到更新后的第一模型。

14.根据权利要求13所述的方法，其特征在于，所述对所述第一模型的模型参数进行更新，得到更新后的第一模型，包括：

分别对所述第一模型的模型参数和所述第二模型的模型参数进行更新，得到更新后的第一模型和更新后的第二模型。

15.根据权利要求14所述的方法，其特征在于，所述分别对所述第一模型的模型参数和所述第二模型的模型参数进行更新，得到更新后的第一模型和更新后的第二模型，包括：

基于所述第一模型当前的模型参数，对所述第二模型的模型参数进行动量更新，得到更新后的第二模型；

采用梯度更新的方式，对所述第一模型当前的模型参数进行更新，得到更新后的第一模型。

16.根据权利要求1至15中任一项所述的方法，其特征在于，所述基于第一图像样本，确定第一场景图像和第二场景图像，包括：

获取所述第一图像样本中的至少一个候选实例；

从至少一个所述候选实例中，确定至少一个目标候选实例；

基于所述第一图像样本和所述至少一个目标候选实例，确定具有重叠区域的第一场景图像和第二场景图像，所述重叠区域中包括所述至少一个目标候选实例。

17.根据权利要求16所述的方法，其特征在于，所述获取所述第一图像样本中的至少一个候选实例，包括：

采用无监督方式，对所述第一图像样本进行目标检测，得到至少一个候选实例。

18.根据权利要求17所述的方法，其特征在于，所述基于所述第一图像样本和所述至少一个目标候选实例，确定具有重叠区域的第一场景图像和第二场景图像，所述重叠区域中包括所述至少一个目标候选实例，包括：

对所述第一图像样本分别进行第一图像增广处理和第二图像增广处理，得到第一增广图像和第二增广图像；

从所述第一增广图像中获取包括所述至少一个目标候选实例的第一场景图像；

从所述第二增广图像中获取包括所述至少一个目标候选实例的第二场景图像。

19.根据权利要求1至18中任一项所述的方法，其特征在于，所述方法还包括：

基于训练后的所述第一模型，确定初始的第三模型；

基于至少一个第二图像样本，对所述第三模型的模型参数进行更新，得到训练后的所述第三模型。

20.一种图像处理方法，其特征在于，所述方法包括：

获取待处理图像；

利用已训练的第四模型，对所述待处理图像进行处理，得到处理结果；其中，所述第四模型包括以下至少之一：采用如权利要求1至18中任一项所述的模型训练方法得到的第一模型，采用如权利要求19所述的模型训练方法得到的第三模型。

21.根据权利要求20所述的方法，其特征在于，所述利用已训练的第四模型，对所述待处理图像进行处理，得到处理结果，包括：

利用已训练的第四模型，对所述待处理图像进行以下至少一种处理：分类处理、目标检测处理、图像分割处理，得到处理结果。

22.一种模型训练装置，其特征在于，包括：

23.一种图像处理装置，其特征在于，包括：

第三获取模块，用于获取待处理图像；

第二检测模块，用于利用已训练的第四模型，对所述待处理图像进行目标检测，得到检测结果；其中，所述第四模型包括以下至少之一：采用如权利要求1至18中任一项所述的模型训练方法得到的第一模型，采用如权利要求19所述的模型训练方法得到的第三模型。

24.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至21中任一项所述方法中的步骤。

25.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至21中任一项所述方法中的步骤。

26.一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现权利要求1至21中任一项所述方法中的步骤。