CN114648701A

CN114648701A - 目标检测方法、系统及计算机设备

Info

Publication number: CN114648701A
Application number: CN202210345786.5A
Authority: CN
Inventors: 李军
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-06-21

Abstract

本发明公开了一种目标检测方法、系统及计算机设备，方法包括：将第一输入图像输入第一编码器获取第一输出数据并将第二输入图像输入第二编码器获取第二输出数据；第一编码器为Query编码器，第二编码器为Key编码器；基于第一输出数据与第二输出数据计算第一损失与第二损失，第一损失为第一编码器与第二编码器的信息噪音对比估计损失，第二损失为第一编码器与第二编码器的融合对比学习损失；基于第一损失与第二损失生成联合损失函数；基于联合损失联合函数进行预训练获得目标检测模型；基于目标检测模型执行目标检测任务；基于Query与Key编码器构成的MoCo自监督学习框架，计算由InfoNCE损失与Mixco损失构成的联合损失函数预训练模型，有效提升目标检测任务的性能。

Description

目标检测方法、系统及计算机设备

技术领域

本发明涉及目标检测领域，具体涉及一种目标检测方法、系统及计算机设备。

背景技术

大多数目标检测器如Faster RCNN、Mask RCNN都采用“预训练+微调”的方式。在预训练阶段，目标检测器需要依赖于如VOC、COCO数据集等大型的监督目标检测数据集，这些大型数据集当中的每个目标类别都有超过成百上千的注释示例，而目标检测任务需要进行密集的图像标记，这导致目标检测任务极为昂贵和耗时。

目前通常采用自监督算法避免上述标记带来的问题，自监督算法旨在从未标记的数据中进行视觉特征学习，然后将视觉特征表示迁移至下游的目标检测任务。对比学习是自监督学习主流的一种学习范式，具体指的是从给定的相似样本对或者不相似样本对学习到相似表示或者不相似表示，并利用对比学习框架进行表示对比学习。但最近一些研究表明，视觉表示在目标检测下游任务的性能并不是正相关，换句话而言，较高的ImageNetTop-1(图片检测准确率的标准)精度并不一定能够保证有较高的目标检测性能。造成上述现象的原因主要有两个，第一个原因是预训练使用的图像识别数据库Imagenet中大部分是单目标数据(iconic-object)，单目标数据适合进行以对比学习的方式进行非监督模型学习，但目标检测这种下游任务使用的微调的数据集都是多目标图像集，并不适用于直接进行数据增强的对比学习；第二个原因是这种视觉表示特征应用全局池化层生成向量嵌入，容易破坏图像空间结构并丢失局部信息，导致不能完整保留原有的物体目标空间，而不能满足目标检测器对空间定位的敏感度需求。

当然，目前也出现了提升目标检测任务效果的方法，其一是针对目标检测任务提出了一种称为实例定位的自监督辅助任务，通过引入实例定位的这种辅助任务可以在进行实例可辨别性表示学习的同时，对图像中物体位置信息进行建模学习；其二是提出了融合对比学习Mixco(Mix-up Contrast Learning)，对输入的样本进行融合(mix-up)操作,并将融合之后的样本称之为半正样本，原因是融合之前的样本互为负样本，然后进行对比学习，以提升对比学习的视觉表示能力。但实例定位的自监督辅助任务并不能增强视觉表示学习的泛化性，导致预训练的视觉表示在下游目标检测任务性能受限，而融合对比学习Mixco虽然能够学到更好的视觉表示特征，但是并没有考虑目标检测的特有结构特性，对于下游目标检测任务的性能提升十分有限。

综上所述，目前仍然需要一种目标检测方法，不需要数据标注的同时提升目标检测任务的性能。

发明内容

本发明目的是：提供一种目标检测方法、系统及计算机设备。

本发明的技术方案是：第一方面，本发明提供一种目标检测方法，所述方法包括：

将第一输入图像输入第一编码器获取第一输出数据并将第二输入图像输入第二编码器获取第二输出数据；所述第一编码器为Query编码器，所述第二编码器为Key编码器；

基于所述第一输出数据与所述第二输出数据计算第一损失与第二损失，所述第一损失为所述第一编码器与所述第二编码器的信息噪音对比估计损失，所述第二损失为所述第一编码器与所述第二编码器的融合对比学习损失；

基于所述第一损失与所述第二损失生成联合损失函数；

基于所述联合损失联合函数进行视觉表示的预训练获得目标检测模型；

基于所述目标检测模型执行目标检测任务。

在一种较佳的实施方式中，所述将第一输入图像输入第一编码器获取第一输出数据并将第二输入图像输入第二编码器获取第二输出数据之前，所述方法还包括:

基于图片数据集生成第一输入图像与第二输入图像。

在一种较佳的实施方式中，所述基于图片数据集生成第一输入图像与第二输入图像包括:

从所述图片数据集中选取M个第一图像块、M张第一背景图像、N个第二图像块以及N张第二背景图像，M、N均为大于1的自然数；

一一对应粘贴所述第一图像块与所述第一背景图像生成第一粘贴图像，并一一对应粘贴所述第二图像块与所述第二背景图像生成第二粘贴图像；

基于所述第一粘贴图像生成第一输入图像并基于所述第二粘贴图像生成第二输入图像。

在一种较佳的实施方式中，所述第一编码器为Query编码器，所述M个第一图像块为大小相同的图像块；

所述一一对应粘贴所述第一图像块与所述第一背景图像生成第一粘贴图像包括：

一一对应粘贴所述第一图像块至所述第一背景图像的相同位置，生成具有目标位置信息的第一粘贴图像。

在一种较佳的实施方式中，所述基于所述第一粘贴图像生成第一输入图像包括：

对所述第一粘贴图像进行数据增强操作获得第一增强图像；

保存所述第一增强图像副本并将所述副本进行图像融合生成融合图像，所述第一输入图像包括所述第一增强图像与所述融合图像。

在一种较佳的实施方式中，所述将所述副本进行图像融合生成融合图像包括：

以凸组合方式融合所述副本生成融合图像。

在一种较佳的实施方式中，所述第二编码器为Key编码器，所述N个第一图像块为大小不同的图像块；

所述一一对应粘贴所述第二图像块与所述第二背景图像生成第二粘贴图像包括：

一一对应粘贴所述第二图像块至所述第二背景图像的不同位置，生成具有目标位置信息的第二粘贴图像。

在一种较佳的实施方式中，所述基于所述第二粘贴图像生成第二输入图像包括：

对所述第二粘贴图像进行数据增强操作获得第二增强图像，所述第二输入图像包括所述第二增强图像。

第二方面，本发明还提供一种目标检测系统，所述系统包括：

获取模块，用于将第一输入图像输入第一编码器获取第一输出数据并将第二输入图像输入第二编码器获取第二输出数据；

计算模块，用于基于所述第一输出数据与所述第二输出数据计算第一损失与第二损失，所述第一损失为所述第一编码器与所述第二编码器的信息噪音对比估计损失，所述第二损失为所述第一编码器与所述第二编码器的融合对比学习损失；

第一生成模块，用于基于所述第一损失与所述第二损失生成联合损失函数；

预训练模块，用于基于所述联合损失联合函数进行视觉表示的预训练获得目标检测模型；

检测模块，用于基于所述目标检测模型执行目标检测任务。

第三方面，本发明提供一种计算机设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行根据第一方面中任一所述的方法。

本发明的优点是：提供一种目标检测方法、系统及计算机设备，方法包括：将第一输入图像输入第一编码器获取第一输出数据并将第二输入图像输入第二编码器获取第二输出数据；第一编码器为Query编码器，第二编码器为Key编码器；基于第一输出数据与第二输出数据计算第一损失与第二损失，第一损失为第一编码器与第二编码器的信息噪音对比估计损失，第二损失为第一编码器与第二编码器的融合对比学习损失；基于第一损失与第二损失生成联合损失函数；基于联合损失联合函数进行视觉表示的预训练获得目标检测模型；基于目标检测模型执行目标检测任务；基于Query编码器与Key编码器构成的MoCo自监督学习框架，计算获取由InfoNCE损失与Mixco损失构成的联合损失函数进行预训练，有效提升了目标检测任务的性能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中实例定位的自监督辅助任务框架流程图；

图2为现有技术中融合对比学习Mixco示意图；

图3为本发明实施例一所提供的目标检测方法流程图；

图4为本发明实施例二所提供的目标检测方法流程图；

图5为本发明实施例二所提供的目标检测方法技术框图；

图6为本发明实施例三所提供的目标检测系统结构图；

图7为本发明实施例四所提供的计算机设备架构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如背景技术中所述，目前出现的提升目标检测任务效果的方法，其一是实例定位的自监督辅助任务，参照图1所示，InsLoc方法(Instance localization实例定位方法)借助MoCo自监督框架，将前景目标以不同大小随机粘贴于不同背景图像构造具有位置信息的粘贴图像，然后将粘贴图像和边框位置作为MoCo(MoCo Momentum Contrast动量对比学习框架)网络的输入，利用边框位置信息抽取相应的RoI(Region of Interest感兴趣的区域)特征，并对其进行InfoNCE(Information Noise Contrastive Estimation信息噪音对比估计)对比学习，构造图像的前景图像块是随机从ImageNet选取的图像块，将这种图像块直接作为对比学习的输入，并不能增强视觉表示学习的泛化性。从而导致预训练的视觉表示在下游目标检测任务性能受限。其二是融合对比学习Mixco(Mix-up Contrast Learning融合对比学习)，参照图2所示，对于Query编码器的不同输入view(A₁，B₁，C₁，D₁)，进行两两融合操作之后输入给网络得到相对应的两个特征表示，而对于Key编码器的不同输入view(A₂，B₂，C₂，D₂)，直接输入到网络得到4个对应的特征表示，在特征表示的相似性学习阶段，融合之后图像的特征表示分别与原先两个融合的图像进行相似性度量学习。虽然此融合对比学习能够学到更好的视觉表示特征，但是并没有考虑目标检测的特有结构特性，对于下游目标检测任务的性能提升十分有限。

为解决上述问题，本发明创造性地提出了一种目标检测方法、系统及计算机设备，在基于Query编码器与Key编码器构成的MoCo自监督学习框架，计算获取由InfoNCE损失与Mixco损失构成的联合损失函数进行预训练，将MoCo自监督学习框架与实例定位结合，有效提升了目标检测任务的性能。

实施例一：本实施例介绍一种目标检测方法，参照图3所示，该方法包括：

S310、将第一输入图像输入第一编码器获取第一输出数据并将第二输入图像输入第二编码器获取第二输出数据；第一编码器为Query编码器，第二编码器为Key编码器。

S320、基于第一输出数据与第二输出数据计算第一损失与第二损失，第一损失为第一编码器与所述第二编码器的信息噪音对比估计损失，第二损失为第一编码器与第二编码器的融合对比学习损失。

S330、基于第一损失与第二损失生成联合损失函数。

S340、基于联合损失联合函数进行视觉表示的预训练获得目标检测模型。

S350、基于目标检测模型执行目标检测任务。

本实施例提供的目标检测方法，包括：将第一输入图像输入第一编码器获取第一输出数据并将第二输入图像输入第二编码器获取第二输出数据；第一编码器为Query编码器，第二编码器为Key编码器；基于第一输出数据与第二输出数据计算第一损失与第二损失，第一损失为第一编码器与第二编码器的信息噪音对比估计损失即InfoNCE损失，第二损失为第一编码器与第二编码器的融合对比学习损失即Mixco损失；基于第一损失与第二损失生成联合损失函数；基于联合损失联合函数进行视觉表示的预训练；基于Query编码器与Key编码器构成的MoCo自监督学习框架，计算获取由InfoNCE损失与Mixco损失构成的联合损失函数进行预训练，有效提升了目标检测任务的性能。

实施例二：本实施例在实施例一的基础上，介绍一种更优化的目标检测方法，借助MoCo自监督学习框架进行视觉表示的学习，选取的编码器网络为Resnet-50-FPN，负样本队列大小为65536，以ImageNet数据集为例分析，参照图4所示，该方法包括：

S410、基于图片数据集生成第一输入图像与第二输入图像。

示例性的，于本实施例中，图片数据集选用计算机视觉数据集ImageNet数据集，当然，图片数据集还可以是其他的图像识别数据库，本发明对此并不限定，仅在本实施例中以ImageNet数据集为例。

优选的，本步骤包括：

S411、从图片数据集中选取M个第一图像块、M张第一背景图像、N个第二图像块以及N张第二背景图像，M、N均为大于1的自然数。

示例性的，参照图5所示，从ImageNet数据集中随机挑选出两个第一图像块、两张第一背景图像、两个第二图像块以及两张第二背景图像。由于随机挑选，第一图像块可以是相同的也可以是不同的，第一背景图像可以是相同的也可以是不同的，以及第一图像块与第二图像块、第一背景图像与第二背景图像也可以是相同的、也可以是不同的，本实施例对此并不限定。

优选的，第一图像块大小相同、第二图像块大小不同。

S412、一一对应粘贴第一图像块与所述第一背景图像生成第一粘贴图像，并一一对应粘贴第二图像块与第二背景图像生成第二粘贴图像。

具体的，第一图像块大小相同，一一对应粘贴第一图像块至第一背景图像的相同位置，即一个第一图像块粘贴到一张第一背景图像上，并且每个第一图像块粘贴位置均位于第一背景图像相同位置，生成具有目标位置信息的第一粘贴图像。

第二图像块大小不同，一一对应粘贴第二图像块至第二背景图像的不同位置，即一个第二像块粘贴到一张第二背景图像上，并且每个第二图像块粘贴位置均位于第二背景图像不同位置，生成具有目标位置信息的第二粘贴图像。

S413、基于第一粘贴图像生成第一输入图像并基于第二粘贴图像生成第二输入图像。

具体的，本步骤包括：

S4131、对第一粘贴图像进行数据增强操作获得第一增强图像。

具体的，数据增强操作有多种方法，于本实施例中，选择对第一粘贴图像进行随机反转数据增强操作。

S4132、保存第一增强图像副本并将副本进行图像融合生成融合图像，第一输入图像包括第一增强图像与所述融合图像。

优选的，以凸组合方式融合副本生成融合图像。

具体的，图像X_i、X_k为第一增强图像，融合图像表示X_mixi，k如下所示：

第一输入图像包括：第一增强图像X_i、X_k、以及融合图像X_mixi，k。

S4133、对第二粘贴图像进行数据增强操作获得第二增强图像，第二输入图像包括所述第二增强图像。

图像X_i′、X_k′为第二增强图像。

S420、将第一输入图像输入第一编码器获取第一输出数据并将第二输入图像输入第二编码器获取第二输出数据；第一编码器为Query编码器，第二编码器为Key编码器。

具体的，借助MoCo自监督学习框架进行图像编码学习，将第一输入图像——增强图像X_i、X_k、以及融合图像X_mixi，k输入Query编码器中，将第二输入图像——第二增强图像X_i′、X_k′输入Key编码器中，Query编码器分支和Key编码器分支分别对各自的输入图像进行特征表示学习，v_i，v_k，

分别表示Query编码器的输出，v′_i，v′_k分别表示Key编码器的输出。

v_i＝f_encoder(x_i)

v_k＝f_encoder(x_k)

v′_i＝f_encoder(x′_i)

v′_k＝f_encoder(x′_k)

S430、基于第一输出数据与第二输出数据计算第一损失与第二损失，第一损失为第一编码器与所述第二编码器的信息噪音对比估计损失，第二损失为第一编码器与第二编码器的融合对比学习损失。

具体的，计算Query编码器与Key编码器的信息噪音对比估计损失即InfoNCE损失，试图使正样本对之间的空间距离尽可能小，使得正样本与负样本对的空间距离尽可能大。

计算融合对比学习损失即Mixco损失，类似于InfoNCE损失，使得半正样本与混合之前的样本空间距离都尽可能相近。其中λ为相似度超参数。

S440、基于第一损失与第二损失生成联合损失函数。

具体的，整个网络的损失约束函数由InfoNCE损失和Mixco损失两部分构成。将此联合损失函数作为MoCo框架的训练目标进行视觉表示的预训练，通过此联合损失函数使得预训练阶段学习的视觉表示更具有泛化性。

L_total＝L_Contrast+L_Mixco

S450、基于联合损失联合函数进行视觉表示的预训练获得目标检测模型。

具体的，借助detectron2框架将预训练权重加载到Mask-RCNN检测器进行网络微调和/或在标准的COCO数据集上进行目标检测网络性能的测试，获得目标检测模型。

S460、基于目标检测模型执行目标检测任务。

本实施例所提供的目标检测方法，是基于MoCo自监督学习框架、结合实例定位和图像融合对检测模型预训练获得目标检测模型，MoCo自监督学习框架采用动量更新的方式，即在query上进行反向传播也在key上进行动量更新，极大地缩小了自监督模型和监督模型在效果上的距离，结合实例定位和图像融合，该方法最终生成的预训练视觉表示能够更匹配于目标检测任务，不需要数据标注的同时提升目标检测任务的性能，并且生成的视觉表示更具有泛化能力与鲁棒性，兼顾了视觉特征表示的泛化性与有效性，该方法对提高自监督视觉表示、目标检测，语义分割等相关领域研究等具有重要科学意义及潜在应用价值。

实施例三：与上述实施例一与实施例二相对应的，下面将结合图6，对本申请提供的目标检测系统进行介绍。其中，该系统可以通过硬件或软件的方式实现，也可以通过软硬件结合的方式实现，本申请并不限定。

在一个示例中如图6所示，本申请提供了一种目标检测系统，所述系统包括：

获取模块610，用于将第一输入图像输入第一编码器获取第一输出数据并将第二输入图像输入第二编码器获取第二输出数据；所述第一编码器为Query编码器，所述第二编码器为Key编码器；

计算模块620，用于基于所述第一输出数据与所述第二输出数据计算第一损失与第二损失，所述第一损失为所述第一编码器与所述第二编码器的InfoNCE损失，所述第二损失为所述第一编码器与所述第二编码器的Mixco损失；

第一生成模块630，用于基于所述第一损失与所述第二损失生成联合损失函数；

预训练模块640，用于基于所述联合损失联合函数进行视觉表示的预训练获得目标检测模型；

检测模块650，用于基于所述目标检测模型执行目标检测任务。

在一种具体的实施方式中，该系统还包括：

第二生成模块660，用于在获取模块610将第一输入图像输入第一编码器获取第一输出数据并将第二输入图像输入第二编码器获取第二输出数据之前，基于图片数据集生成第一输入图像与第二输入图像。

优选的，第二生成模块660包括：

选取单元661，用于从所述图片数据集中选取M个第一图像块、M张第一背景图像、N个第二图像块以及N张第二背景图像，M、N均为大于1的自然数；

粘贴单元662，用于一一对应粘贴所述第一图像块与所述第一背景图像生成第一粘贴图像，并一一对应粘贴所述第二图像块与所述第二背景图像生成第二粘贴图像；

生成单元663，用于基于所述第一粘贴图像生成第一输入图像并基于所述第二粘贴图像生成第二输入图像。

更优选的，所述M个第一图像块为大小相同的图像块；所述粘贴单元662包括：

第一粘贴子单元6621，用于一一对应粘贴所述第一图像块至所述第一背景图像的相同位置，生成具有目标位置信息的第一粘贴图像。

更优选的，所述生成单元663包括：

第一增强子单元6631，用于对所述第一粘贴图像进行数据增强操作获得第一增强图像；

保存融合子单元6632，用于保存所述第一增强图像副本并将所述副本进行图像融合生成融合图像，所述第一输入图像包括所述第一增强图像与所述融合图像。

更优选的，保存融合子单元6632用于以凸组合方式融合所述副本生成融合图像。

优选的，所述N个第一图像块为大小不同的图像块；所述粘贴单元662还包括：

第二粘贴子单元6622，用于一一对应粘贴所述第二图像块至所述第二背景图像的不同位置，生成具有目标位置信息的第二粘贴图像；

更优选的，所述生成单元663还包括：

第二增强子单元6633，用于对所述第二粘贴图像进行数据增强操作获得第二增强图像，所述第二输入图像包括所述第二增强图像。

实施例四：与上述实施例一至实施例三相对应的，下面将结合图7，对本申请提供的计算机设备进行介绍。在一个示例如图7所示，本申请提供了一种计算机设备，该计算机设备包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

基于所述第一输出数据与所述第二输出数据计算第一损失与第二损失，所述第一损失为所述第一编码器与所述第二编码器的InfoNCE损失，所述第二损失为所述第一编码器与所述第二编码器的Mixco损失；

基于所述第一损失与所述第二损失生成联合损失函数；

基于所述联合损失联合函数进行视觉表示的预训练。

其中，图7示例性的展示出了计算机设备的架构，具体可以包括处理器710，视频显示适配器711，磁盘驱动器712，输入/输出接口713，网络接口714，以及存储器720。上述处理器710、视频显示适配器711、磁盘驱动器712、输入/输出接口713、网络接口714，与存储器720之间可以通过通信总线730进行通信连接。

其中，处理器710可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器720可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器720可以存储用于控制计算机设备700运行的操作系统721，用于控制计算机设备700的低级别操作的基本输入输出系统(BIOS)722。另外，还可以存储网页浏览器723，数据存储管理724，以及图标字体处理系统725等等。上述图标字体处理系统725就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器720中，并由处理器710来调用执行。

输入/输出接口713用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口714用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线730包括一通路，在设备的各个组件(例如处理器710、视频显示适配器711、磁盘驱动器712、输入/输出接口713、网络接口714，与存储器720)之间传输信息。

另外，该计算机设备700还可以从虚拟资源对象领取条件信息数据库741中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述计算机设备700仅示出了处理器710、视频显示适配器711、磁盘驱动器712、输入/输出接口713、网络接口714，存储器720，总线730等，但是在具体实施过程中，该计算机设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，云服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

另外需要说明的是：本申请中术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

当然上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明主要技术方案的精神实质所做的修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

基于所述第一损失与所述第二损失生成联合损失函数；

基于所述目标检测模型执行目标检测任务。

2.根据权利要求1所述的目标检测方法，其特征在于，所述将第一输入图像输入第一编码器获取第一输出数据并将第二输入图像输入第二编码器获取第二输出数据之前，所述方法还包括:

基于图片数据集生成第一输入图像与第二输入图像。

3.根据权利要求2所述的目标检测方法，其特征在于，所述基于图片数据集生成第一输入图像与第二输入图像包括:

4.根据权利要求3所述的目标检测方法，其特征在于，所述M个第一图像块为大小相同的图像块；

5.根据权利要求4所述的目标检测方法，其特征在于，所述基于所述第一粘贴图像生成第一输入图像包括：

对所述第一粘贴图像进行数据增强操作获得第一增强图像；

6.根据权利要求5所述的目标检测方法，其特征在于，所述将所述副本进行图像融合生成融合图像包括：

以凸组合方式融合所述副本生成融合图像。

7.根据权利要求3所述的目标检测方法，其特征在于，所述N个第一图像块为大小不同的图像块；

8.根据权利要求7所述的目标检测方法，其特征在于，所述基于所述第二粘贴图像生成第二输入图像包括：

9.一种目标检测系统，其特征在于，所述系统包括：

获取模块，用于将第一输入图像输入第一编码器获取第一输出数据并将第二输入图像输入第二编码器获取第二输出数据；所述第一编码器为Query编码器，所述第二编码器为Key编码器；

检测模块，用于基于所述目标检测模型执行目标检测任务。

10.一种计算机设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行根据权利要求1-8中任一所述的方法。