CN114898111A

CN114898111A - 预训练模型生成方法和装置、目标检测方法和装置

Info

Publication number: CN114898111A
Application number: CN202210449093.0A
Authority: CN
Inventors: 陈松; 张滨; 王云浩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-08-12
Anticipated expiration: 2042-04-26
Also published as: CN114898111B

Abstract

本公开提供了一种预训练模型生成方法和装置，涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉等技术领域，可应用于OCR等场景。具体实现方案为：对获取的样本图像进行处理，得到不同视角下的第一图像和第二图像；将第一图像和第二图像输入在线网络进行特征提取，得到第一图像上目标候选区域的第一特征向量集合和第二图像上目标候选区域的第二特征向量集合；将第二图像输入目标网络进行特征预测，得到第二图像上目标候选区域的第三特征向量集合；计算所有目标候选区域的总体对比学习损失；根据总体对比学习损失，训练在线网络和目标网络，得到对应在线网络的预训练模型。该实施方式提高了预训练模型生成的准确性。

Description

预训练模型生成方法和装置、目标检测方法和装置

技术领域

本公开涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉等技术领域，可应用于OCR等场景，尤其涉及一种预训练模型生成方法和装置、目标检测方法和装置、目标检测模型训练方法和装置、电子设备、计算机可读介质以及计算机程序产品。

背景技术

目标检测是一种基础的、计算机视觉任务之一，目前的目标检测方法主要通过大量的标注数据进行训练，当目标检测想要应用在下游特定任务时，就需要在该任务上标注数据，然后进行微调训练，得到目标检测模型。其中，标注数据需要非常大的标注成本，并且会导致整个任务从数据标注，到模型训练完成后的落地部署严重的延长了项目的时间。

发明内容

提供了一种预训练模型生成方法和装置、电子设备、计算机可读介质以及计算机程序产品。

根据第一方面，提供了一种预训练模型生成方法，该方法包括：对获取的样本图像进行处理，得到不同视角下的第一图像和第二图像，样本图像上具有至少两个目标候选区域，每个目标候选区域对应一个目标；将第一图像和第二图像输入在线网络进行特征提取，得到第一图像上目标候选区域的第一特征向量集合和第二图像上目标候选区域的第二特征向量集合；将第二图像输入目标网络进行特征预测，得到第二图像上目标候选区域的第三特征向量集合，目标网络、在线网络均包括相同的骨架网络；基于以下至少一项计算所有目标候选区域的总体对比学习损失：第一特征向量集合、第三特征向量集合、第二特征向量集合；根据总体对比学习损失，训练在线网络和目标网络，得到对应在线网络的预训练模型。

根据第二方面，提供了一种目标检测方法，该方法包括：获取待检测图像；将待检测图像输入第一方面任一实现方式描述的方法生成的预训练模型中，得到待检测图像的目标检测结果。

根据第三方面，提供了一种目标检测模型训练方法，该方法包括：接收目标检测任务；基于第一方面任一实现方式描述的方法生成的预训练模型，训练得到与目标检测任务对应的目标检测模型。

根据第四方面，提供了一种预训练模型生成装置，该装置包括：处理单元，被配置成对获取的样本图像进行处理，得到不同视角下的第一图像和第二图像，样本图像上具有至少两个目标候选区域，每个目标候选区域对应一个目标；在线检测单元，被配置成将第一图像和第二图像输入在线网络进行特征提取，得到第一图像上目标候选区域的第一特征向量集合和第二图像上第二候选区域的目标特征向量集合；目标检测单元，被配置成将第二图像输入目标网络，得到第二图像上目标候选区域的第三特征向量集合，目标网络、在线网络均包括相同的骨架网络；计算单元，被配置成基于以下至少一项计算所有目标候选区域的总体对比学习损失：第一特征向量集合、第三特征向量集合、第二特征向量集合；训练单元，被配置成根据总体对比学习损失，训练在线网络和目标网络，得到对应在线网络的预训练模型。

根据第五方面，提供了一种目标检测装置，该装置包括：获取单元，被配置成获取待检测图像；得到单元，被配置成将待检测图像输入第四方面任一实现方式描述的装置生成的预训练模型中，得到待检测图像的目标检测结果。

根据第六方面，提供了一种目标检测模型训练装置，该装置包括：接收单元，被配置成接收目标检测任务；生成单元，被配置成基于第四方面任一实现方式描述的装置生成的预训练模型，训练得到与目标检测任务对应的目标检测模型。

根据第七方面，提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面任一实现方式描述的方法。

根据第八方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面任一实现方式描述的方法。

根据第九方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面任一实现方式描述的方法。

本公开的实施例提供的预训练模型生成方法和装置，首先，对获取的样本图像进行处理，得到不同视角下的第一图像和第二图像，样本图像上具有至少两个目标候选区域，每个目标候选区域对应一个目标；其次，将第一图像和第二图像输入在线网络进行特征提取，得到第一图像上目标候选区域的第一特征向量集合和第二图像上目标候选区域的第二特征向量集合；再次，将第二图像输入目标网络进行特征预测，得到第二图像上目标候选区域的第三特征向量集合，目标网络、在线网络均包括相同的骨架网络；从次，基于以下至少一项计算所有目标候选区域的总体对比学习损失：第一特征向量集合、第三特征向量集合、第二特征向量集合；最后，根据总体对比学习损失，训练在线网络和目标网络，得到对应在线网络的预训练模型。由此，在生成目标检测任务的预训练模型时，无需对图像进行标注，降低了标注成本；通过在线网络和目标网络学习各种目标任务通用视觉向量表示，并在训练过程中对比不同目标候选区域中视觉向量的区别，提升了预训练模型的泛化性以及模型在任务中的表现。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开预训练模型生成方法的一个实施例的流程图；

图2是本公开实施例中采用第一图像、第一子图、第二子图训练预训练模型的一种结构示意图；

图3是根据本公开目标检测方法的一个实施例的流程图；

图4是本公开实施例中对待检测图像进行目标检测的一种结构示意图；

图5是根据本公开目标检测模型训练方法的一个实施例的流程图；

图6是根据本公开预训练模型生成装置的实施例的结构示意图；

图7是根据本公开目标检测装置的实施例的结构示意图；

图8是根据本公开目标检测模型训练装置的结构示意图；

图9是用来实现本公开实施例的预训练模型生成方法、目标检测方法、目标检测模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本实施例中，“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

图1示出了根据本公开预训练模型生成方法的一个实施例的流程100，上述预训练模型生成方法包括以下步骤：

步骤101，对获取的样本图像进行处理，得到不同视角下的第一图像和第二图像。

本实施例中，样本图像为预训练模型生成方法运行于其上的执行主体获取的训练预训练模型的图像，样本图像上具有至少一个目标，每个目标具有一个目标候选区域。其中，样本图像可以是从数据库中获取的图像，可选地，样本图像还可以是从终端中实时获取的图像。

本实施例中，目标候选区域是预先提取的图像区域，该目标候选区域也是目标所在的区域，通过对目标候选区域中目标进行检测，得到目标特征。

在预训练模型训练时，目标候选区域可以采用边界框b_i＝{x,y,w,h}进行表示，其中，i＝[1,K](K为大于零的自然数，K为目标获选区域的数量)b_i还表示图像中的第i个目标候选区域，(x,y)表示边界框中心坐标，w和h分别是对应的宽度和高度。

本实施例中，样本图像上具有至少两个目标候选区域，每个目标候选区域对应一个目标。对获取的样本图像进行处理是指对图像进行视角构建处理，得到不同视角下的图像，需要说明的是，对获取的样本图像进行处理，不会影响图像中的目标候选区域的标注，由此，第一图像和第二图像可以均具有样本图像中的目标候选区域，并且每个目标候选区域对应一个目标。

本实施例中，目标候选区域还可以从预先生成多个候选区域中随机选取的多个区域，每个区域对应一个目标。

步骤102，将第一图像和第二图像输入在线网络进行特征提取，得到第一图像上目标候选区域的第一特征向量集合和第二图像上目标候选区域的第二特征向量集合。

其中，在线网络用于提取图像上所有目标候选区域的目标特征，并将目标特征生成目标特征向量，对应第一图像中各个目标的目标特征向量为第一特征向量，多个目标的第一特征向量组合成第一特征向量集合；对应第二图像中各个目标的目标特征向量为第二特征向量，多个目标的第二特征向量组合成第二特征向量集合。

本实施例中，在线网络包括具有特征金字塔网络模块的骨干网络。可选地，在线网络还可以包括处理模块，其中处理模块用于对骨干网络提取的特征进行向量计算。

如图2所示，在线网络包括：特征金字塔网络FPN模块、ROI Align、Head，其中，特征金字塔网络模块FPN为骨架网络，ROI Align、Head、均为处理模块，利用ROI Align、Head提取特征，可以得到目标级别的向量表示h。

本实施例中，FPN(Feature Pyramid Network，特征金字塔网络)同时利用低层特征高分辨率和高层特征的高语义信息，通过融合这些不同层的特征达到预测的效果，并且预测是在每个融合后的特征层上单独进行的，这和传统的特征融合方式不同。

步骤103，将第二图像输入目标网络进行特征预测，得到第二图像上目标候选区域的第三特征向量集合。

本实施例中，目标网络、在线网络均包括相同的骨架网络，目标网络用于提取图像上所有目标候选区域进行特征预测，并将预测得到的特征生成预测特征向量，对应第二图像中各个目标候选区域的预测特征向量为第三特征向量，多个目标的第三特征向量组合成第三特征向量集合。

本实施例中，在线网络和目标网络均是神经网络，在线网络和目标网络共享相同的骨架网络，骨架网络可以包括：FPN模块，在线网络和目标网络的网络参数不同。

步骤104，基于以下至少一项计算所有目标候选区域的总体对比学习损失：第一特征向量集合、第三特征向量集合、第二特征向量集合。

本实施例中，可以仅考虑不同图像中同一个目标候选区域的对比学习损失，即仅考虑目标候选区域内部的关系，此时对比同一目标候选区域是一种正样本对比方式，上述基于以下至少一项计算所有目标候选区域的总体对比学习损失：第一特征向量集合、第三特征向量集合、第二特征向量集合，包括：

基于第一特征向量集合、第三特征向量集合，计算所有目标候选区域的总体对比学习损失。其中，上述基于第一特征向量集合、第三特征向量集合，计算所有目标候选区域的总体对比学习损失，包括：

将第一特征向量集合、第三特征向量集合中各个第一特征向量和第三特征向量输入对比学习损失公式中，得到目标候选区域的总体对比学习损失。对比学习损失公式为第一特征向量和第三特征向量共同作用得到的公式。

步骤105，根据总体对比学习损失，训练在线网络和目标网络，得到对应在线网络的预训练模型。

本实施例中，总体对比学习损失是一种对比两个架构相同的两个网络的向量之间距离的损失，通过该总体对比学习损失，可以得到由在线网络和目标网络组成整体网络的整体损失，在得到整体损失之后，利用误差反向传播的方式迭代调整目标网络的参数，进一步，由目标网络的参数得到在线网络的参数，再进一步计算整体损失，再调整体网络的参数，直至整体损失收敛或者整体网络的迭代次数达到预设的次数阈值为止，停止调整整体网络的参数，得到整体网络中的在线网络作为预训练模型。

本公开的实施例提供的预训练模型生成方法，首先，对获取的样本图像进行处理，得到不同视角下的第一图像和第二图像，样本图像上具有至少两个目标候选区域，每个目标候选区域对应一个目标；其次，将第一图像和第二图像输入在线网络进行特征提取，得到第一图像上目标候选区域的第一特征向量集合和第二图像上目标候选区域的第二特征向量集合；再次，将第二图像输入目标网络进行特征预测，得到第二图像上目标候选区域的第三特征向量集合，目标网络、在线网络均包括相同的骨架网络；从次，基于以下至少一项计算所有目标候选区域的总体对比学习损失：第一特征向量集合、第三特征向量集合、第二特征向量集合；最后，根据总体对比学习损失，训练在线网络和目标网络，得到对应在线网络的预训练模型。由此，在生成目标检测任务的预训练模型时，无需对图像进行标注，降低了标注成本；通过在线网络和目标网络学习各种目标任务通用视觉向量表示，并在训练过程中对比不同目标候选区域中视觉向量的区别，提升了预训练模型的泛化性以及模型在任务中的表现。

本实施例中，上述对比学习损失公式可以采用公式(1)：

在式(1)中，K是目标候选区域的数量，i＝[1,K]，v_i为第一图像第i个目标候选区域的第一特征向量，v′_i为第二图像第i个目标候选区域的第三特征向量，<v_i,v′_i>表示第一图像第i个目标候选区域的第一特征向量与第二图像第i个目标候选区域的第三特征向量的夹角，‖‖₂表示向量的2范数。

本实施例中，上述对获取的样本图像进行处理，得到不同视角下的第一图像和第二图像，可以包括：对样本图像进行数据增强操作，得到第一图像；对第一图像进行数据增强操作，得到第二图像。本实施例中，不同视角下的第一图像和第二图像，都会独立的、随机的进行数据增强操作，数据增强操作包括：随机裁剪和空间变换等。

可选地，上述对获取的样本图像进行处理，得到不同视角下的第一图像和第二图像，还可以包括：对样本图像进行缩放，得到第一图像；对样本图像进行裁剪缩放到与第一图像相同的大小，得到第二图像。

可选地，上述对获取的样本图像进行处理，得到不同视角下的第一图像和第二图像，还可以包括：对样本图像进行缩放，得到第一图像；对第一图像进行空间变换，得到第二图像。

在本实施例的一些可选实现方式中，在线网络包括：FPN、ROI Align以及Head，如图2所示，在线网络中记带有FPN模块的骨架网络提取的图像特征为

FPN模块的输出为{P₂,P₃,P₄,P₅}。对于一组候选区域表示{b_i}，利用ROI Align提取特征。除此之外，还引入了一个RCNN(Regions with CNN features)结构的Head，记为

得到图像V的目标级别的表示h可以由以下公式(2)计算：

h＝f^H(RoIAlign(f^I(V),b_i)) (2)

可选地，在线网络还可以包括：投影器Projection、预测器Prediction，通过投影器Projection可以得到投影向量g_θ，预测器Prediction进一步对投影向量g_θ进行预测得到目标特征向量q_θ。

本实施例中，目标特征向量集合包括两个以上目标特征向量，每个目标特征向量对应一个目标，各个目标特征向量反应目标的特征，可选地，目标特征向量还可以包括多个子特征向量。

在本实施例的一些可选实现方式中，目标网络包括：FPN、ROI Align以及Head，如图2所示，目标网络的参数

是通过在线网络参数

计算得到(例如平均)。对于一张样本图像，可以利用选择性搜索算法可以生成样本图像上的一组候选区域的表示{b_i}。式(3)中，h_i是第一图像T₁被在线网络提取的表示，式(4)中h′_i是第二图像T₂被目标网络提取的表示：

对于在线网络，如图2所示，还可以添加了一个投影器以及预测器。目标网络仅仅添加了投影器，该投影器得到预测特征为g_ξ。式(5)v_i以及式(6)中v′_i分别为目标级别的表示h_i,h′_i的预测特征向量：

v_i＝q_θ(g_θ(h_i))； (5)

v′_i＝g_ξ(h′_i))； (6)

本实施例中，预测特征向量集合包括两个以上预测特征向量，每个预测特征向量对应一个目标，各个预测特征向量反应目标的特征，可选地，预测特征向量还可以包括多个子特征向量。

在本实施例的一些可选实现方式中，第二图像可以是一张与第一图像在视角上不同的图像，上述对获取的样本图像进行处理，得到不同视角下的第一图像和第二图像，包括：采用选择性搜索算法对获取的样本图像进行处理，得到具有至少两个目标候选区域的输入图像；将输入图像缩放到预设大小，得到第一图像；在预设尺度范围内，对第一图像进行裁剪，并缩放到预设大小，得到第二图像。

本可选实现方式中，选择性搜索是经典目标检测框架R-CNN和FastR-CNN中用来提取目标候选区域的算法。它是一种无监督的算法，主要考虑颜色相似性、纹理相似性、区域大小和区域之间的相似性来为每张图像生成一组目标候选区域。

本可选实现方式中，可以保留满足以下要求的候选区域：1)1/3≤w/h≤3；

作为目标候选区域，其中W和H表示样本图像的宽度和高度。1)对于目标候选区域的长宽比例进行限制，由于图像中的目标，比如人，长宽比例会有一个范围；2)是对目标候选区域占整张图像的面积比例的限制，比例太大或者太小的区域往往也不会是待检测目标，通过对比例进行限制可以得到的候选目标区域。

需要说明的是，目标候选区域生成步骤是离线执行的，不参与预训练模型的训练过程，以及在预训练模型的每次训练迭代中，可以为每个样本图像随机选择K(K为大于零的自然数)个候选区域。

本可选实现方式中，第一图像与第二图像是大小相同，但是图像内容不同的图像，通过对获取的样本图像进行离线的选择性搜索，可以使生成的第一图像和第二图像均具有目标所在的目标候选区域，通过上述第一图像和第二图像的得到方式，为预训练模型的训练提供了可靠的样本基础。

在本实施例的一些可选实现方式中，上述基于以下至少一项计算所有目标候选区域的总体对比学习损失：第一特征向量集合、第三特征向量集合、第二特征向量集合，包括：

针对所有目标候选区域中的各个目标候选区域，将第一图像中各个目标候选区域的第一特征向量分别与第二图像的所有目标候选区域的第二特征向量进行对比学习，计算得到所有目标候选区域的负样本对比损失；针对所有目标候选区域中的各个目标候选区域，将第一图像中各个目标候选区域的第一特征向量与该目标候选区域的第三特征向量进行对比学习，计算得到所有目标候选区域的正样本对比损失；根据正样本对比损失和负样本对比损失，计算得到总体对比学习损失。

本可选实现方式中，总体对比学习损失包括：负样本对比损失和正样本对比损失，其中，负样本对比损失为第一图像中当前目标候选区域与第二图像中所有目标候选区域之间相比对之后的损失，正样本对比损失为第一图像中各个目标候选区域与第二图像中相应目标候选区域之间相比对之后的损失。

其中，正样本损失

可以采用式(7)计算：

在式(7)中，K是目标候选区域的数量，i＝[1,K]，x_1i为第一图像第i个目标候选区域的第一特征向量，y_2i为第二图像第i个目标候选区域的第三特征向量，<x_1i,y_2i>表示第一图像第i个目标候选区域的第一特征向量与第二图像第i个目标候选区域的第三特征向量的夹角，‖‖₂表示向量的2范数。

本实施例中，负样本损失

可以采样式(8)计算：

在式(8)中，x_2i为第二图像第i个目标候选区域的第二特征向量，τ表示温度系数，用于缩放两个向量分布之间的距离，τ是一种超参数。

上述根据正样本对比损失和负样本对比损失，计算得到所有目标候选区域的总体对比学习损失，包括：将正样本对比损失和负样本对比损失求和，得到所有目标候选区域的总体对比学习损失。

可选地，还可以基于在线网络和目标网络训练需求，分别为正样本对比损失和负样本对比损失设置第一权重和第二权重，则上述根据正样本对比损失和负样本对比损失，计算得到所有目标候选区域的总体对比学习损失，包括：将正样本对比损失乘以第一权重，加上负样本对比损失乘以第二权重，得到所有目标候选区域的总体对比学习损失。

本可选实现方式中，通过设置负样本对比损失，在训练预训练模型过程中，可以使不同视角图像相同目标候选区域之间的距离可以远大于不同视角图像不同目标候选区域之间的距离，从而重点突出不同视角下图像中的相同的目标候选区域之间的距离，是预训练模型更加关注不同视角图像下相同的目标候选区域，提升了训练得到的预训练模型的识别精度。

本公开的实施例中，如图2所示，第二图像还可以包括至少两张视角不同的图像，第二图像中的各个图像(如图2中的第一子图V₂、第二子图V₃)相对于第一图像可以均包括相同的目标候选区域(如图2中的目标候选区域Q1、目标候选区域Q2)，在本实施例的一些可选实现方式中，第二图像包括不同视角下的第一子图V₂和第二子图V₃，上述对获取的样本图像进行处理，得到不同的第一图像和第二图像，包括：采用选择性搜索算法对获取的样本图像进行处理，得到具有至少两个目标候选区域的输入图像；将输入图像缩放到预设大小，得到第一图像；在预设尺度范围内，对第一图像进行裁剪，并缩放到预设大小，得到第一子图；对第一子图进行下采样，得到第二子图。

本实施例中，设计了三个参与对比学习损失函数计算的不同视角的图像，分别记为第一图像V₁，第一子图V₂，第二子图V₃。首先将样本图像缩放到224*224大小，得到第一图像V₁。然后，我们对V₁在尺度范围[0.5,1.0]区间内进行随机裁剪然后缩放到224*224，得到第一子图V₂。对第一子图V₂进行下采样得到第二子图V₃。最后，每个视角的图像都会独立的、随机的进行数据增强操作，包括随机裁剪以及空间变换等。

本可选实现方式中，第一图像与第二图像是大小相同，但是图像内容不同的图像，通过对获取的样本图像进行离线的选择性搜索，可以使生成的第一图像和第二图像均具有目标所在的目标候选区域，通过上述第一图像、第一子图、第二子图的得到方式，可以为预训练模型提供多种图像样本，丰富了图像样本的种类，提升了数据的多样性，提高了预训练模型训练的可靠性。

在本实施例的一些可选实现方式中，当第二图像包括不同视角下的第一子图和第二子图时，上述第二特征向量集合包括：第一子图的第四特征向量集合和第二子图的第五特征向量集合，第三特征向量集合包括：第一子图的第六特征向量集合和第二子图的第七特征向量集合，上述基于以下至少一项计算所有目标候选区域的总体对比学习损失：第一特征向量集合、第三特征向量集合、第二特征向量集合，包括：

针对所有目标候选区域中的各个目标候选区域，将第一图像中各个目标候选区域的第一特征向量分别与第一子图的所有目标候选区域的第四特征向量进行对比学习，计算得到所有目标候选区域的第一负样本对比损失。

针对所有目标候选区域中的各个目标候选区域，将第一图像中各个目标候选区域的目标特征向量分别与第二子图的所有目标候选区域的第五特征向量进行对比学习，计算得到所有目标候选区域的第二负样本对比损失。

针对所有目标候选区域中的各个目标候选区域，将第一图像中各个目标候选区域的目标特征向量与该目标候选区域的第六特征向量进行对比学习，计算得到所有目标候选区域的第一正样本对比损失。

针对所有目标候选区域中的各个目标候选区域，将第一图像中各个目标候选区域的第一特征向量与该目标候选区域的第七特征向量进行对比学习，计算得到所有目标候选区域的第二正样本对比损失。

根据第一正样本对比损失、第二正样本对比损失、第一负样本对比损失和第二负样本对比损失，计算得到所有目标候选区域的总体对比学习损失(如图2中的Loss)。

本可选实现方式中，总体正样本对比损失如式(9)所示：

在式(9)中，K是目标候选区域的数量，v_1i为第一图像第i个目标候选区域的第一特征向量，v″_u为第一子图第i个目标候选区域的第六特征向量，v″′_i为第二子图第i个目标候选区域的第七特征向量。

本可选实现方式中，总体负样本对比损失如式(10)所示：

在式(10)中，v_2i为第一子图第i个目标候选区域的第四特征向量，v_3i为第二子图第i个目标候选区域的第五特征向量，τ表示温度系数，用于缩放两个向量分布之间的距离，τ是一种超参数。

本实施例中，上述根据第一正样本对比损失、第二正样本对比损失、第一负样本对比损失和第二负样本对比损失，计算得到所有目标候选区域的总体对比学习损失，包括：将第一正样本对比损失、第二正样本对比损失、第一负样本对比损失和第二负样本对比损失相加，得到所有目标候选区域的总体对比学习损失。

可选地，上述根据第一正样本对比损失、第二正样本对比损失、第一负样本对比损失和第二负样本对比损失，计算得到所有目标候选区域的总体对比学习损失，包括：分别为第一正样本对比损失、第二正样本对比损失、第一负样本对比损失和第二负样本对比损失设置第一损失权重、第二损失权重、第三损失权重、第四损失权重；将第一正样本对比与第一损失权重乘积、第二正样本对比损失与第二损失权重、第一负样本对比损失与第三损失权重乘积、第二负样本对比损失与第四损失权重乘积四者相加，得到所有目标候选区域的总体对比学习损失。

本可选实现方式中，在第二图像包括不同视角下的第一子图和第二子图时，分别计算第一负样本对比损失、第二负样本对比损失、第一正样本对比损失、第二正样本对比损失，并基于第一负样本对比损失、第二负样本对比损失、第一正样本对比损失、第二正样本对比损失计算总体对比学习损失，不同视角下的子图像，增加了样本数据的多样性，得到的预训练模型的识别效果更好，提高了预训练模型训练的可靠性。

在本实施例的一些可选实现方式，上述根据总体对比学习损失，训练在线网络和目标网络，包括：根据总体对比学习损失，计算预训练模型损失值；根据预训练模型损失值生成在线网络的参数；根据在线网络的参数以指数移动平均值的方式更新目标网络的参数。

本可选实现方式中，指数移动平均值通过指数移动平均方法计算得到的值，而指数移动平均(Exponential Moving Average，简称EMA)也叫权重移动平均(WeightedMoving Average)，是一种给予近期数据更高权重的平均方法，如有n(n为大于零的自然数)个数据[θ1、θ2…、θn]，则指数移动平均值EMA:v_t＝β·v_t-1+(1-β)·θ_t，其中，v_t表示前t条的平均值，β是加权权重值(一般为0.9-0.999)。

本实施例中，总体对比学习损失用于反映预训练模型的损失值，并且总体对比学习损失与预训练模型的损失值具有固定对应关系，例如，总体对比学习损失与预训练模型的损失值之间成正比，在预训练模型训练过程中，通过总体对比学习损失乘以预先计算的正比系数，得到预训练模型的损失值。

本可选实现方式中，在得到预训练模型的损失值之后，利用误差反向传播的方式迭代调整在线网络的参数，使总体对比学习损失逐步缩小，当多次迭代调整之后，若总体对比学习损失收敛至一定的范围内或在线网络的迭代的次数达到预设的次数阈值可以停止调整在线网络的参数，此时调整完成的在线网络即为预训练模型。

本可选实现方式中，在每次迭代调整在线网络的参数之后，可以通过指数移动平均值的方式更新目标网络的参数，并再次得到新的总体对比学习损失，通过判断总体对比学习损失是否收敛到一定的范围确定预训练模型是否训练完成。

本可选实现方式提供的训练在线网络和目标网络的方法，可以使在线网络和目标网络有效同步，提升了预训练模型损失收敛速度，提高了预训练模型训练的效率。

图3示出了本公开目标检测方法的一个实施例的流程图300，上述目标检测方法包括以下步骤：

步骤301，获取待检测图像。

在本实施例中，目标检测方法的执行主体可以通过多种方式来获取待检测图像。例如，执行主体可以通过有线连接方式或无线连接方式，从数据库服务器中获取存储于其中的待检测图像。再例如，执行主体也可以接收终端或其他设备实时采集的待检测图像。

在本实施例中，待检测图像可以是彩色图像和/或灰度图像等等。且该待检测图像的格式在本公开中也不限制。

步骤302，将待检测图像输入采用预训练模型生成方法生成的预训练模型中，得到待检测图像的目标检测结果。

在本实施例中，执行主体可以将步骤601中获取的待检测图像输入预训练模型中，从而得到预训练模型输出的目标检测结果。

在本实施例中，预训练模型可以是采用如上述图1实施例所描述的方法而生成的。具体生成过程可以参见图1实施例的相关描述，在此不再赘述。本实施例中，预训练模型输出的目标检测结果包括：图像中的至少一个感兴趣区域，以及各个感兴趣区域中的目标的置信度。可选地，目标检测结果还可以包括：目标类型。

本实施例中，预训练模型是对在线网络和目标网络共同训练完成之后，得到的对应在线网络的模型，如图4所示，待检测图像D输入预训练模型中，得到目标检测结果G。

需要说明的是，本实施例目标检测方法可以用于测试上述各实施例所生成的预训练模型，进而根据预训练模型输出的图像的目标检测结果可以不断地优化预训练模型，其中，目标检测结果可以包括目标所在图像中的区域信息以及目标类型，目标可以是图像中人、物、景色等。该方法也可以是上述各实施例所生成的预训练模型的实际应用方法。采用上述各实施例所生成的预训练模型，对比图像中不同区域中视觉向量的区别进行的图像目标检测，可以精确地定位图像中的目标所在区域，并且有效地确定目标的目标类型，有助于提高图像的目标检测的性能。

本实施例提供的目标检测方法，获取待检测图像，将待检测图像输入预训练完成的预训练模型，可以有效识别待检测图像中的目标，提高了目标识别效率。

图5示出了本公开目标检测模型训练方法的一个实施例的流程图500，上述目标检测方法包括以下步骤：

步骤501，接收目标检测任务。

在本实施例中，目标检测任务可以基于检测需求确定，例如，检测需求为检测图像中的植物，则目标检测任务检测图像中的植物。针对不同的目标检测任务，需要获取不同目标检测任务的样本，通过不同目标检测任务的样本训练目标检测模型。

在本实施例中，目标检测模型训练方法的执行主体可以通过多种方式获取目标检测任务，例如，从数据库服务器中获取，或者从终端中实时获取。

步骤502，基于预训练模型生成方法生成的预训练模型，训练得到与目标检测任务对应的目标检测模型。

在本实施例中，预训练模型是一种目标检测网络通用的基础模型，可以采用预训练模型进行初步的目标检测，针对不同目标检测任务，还可以基于预训练模型训练不同目标检测任务对应的目标检测模型。

需要说明的是，在训练不同目标检测任务对应的目标检测模型之前，可以仅仅使用当前的预训练模型作为目标检测网络(也是骨干网络)，也可以对预训练模型进行改进得到当前目标检测任务的目标检测网络。

可选地，对预训练模型进行改进得到目标检测网络包括以下任一项：在预训练模型之后增加对应目标检测任务的模块；在预训练模型之后增加输出层。

本实施例中，上述基于预训练模型生成方法生成的预训练模型，训练得到与目标检测任务对应的目标检测模型，包括：获取目标检测任务的训练样本集，训练样本集包括至少一个样本；获取目标检测网络；执行以下训练步骤：从训练样本集中选取样本，得到选取样本；将选取样本依次输入目标检测网络，得到目标检测网络输出的目标结果；响应于目标检测网络满足训练完成条件，得到目标检测模型。

本实施例中，训练样本集基于目标检测任务得到，例如，在对行人检测时，训练样本集为包括多个行人的图像。目标检测网络的训练完成条件包括：目标检测网络的训练迭代次数达到设定次数或者目标检测网络的损失得到损失阈值，其中，目标检测网络的损失是针对目标检测任务预先设置的损失函数得到。

本实施例提供的目标检测模型训练方法，基于预先得到的预训练模型，训练与目标检测任务对应的目标检测模型，以预训练模型为基础进行训练，无需从头初始开始训练，提高了目标检测模型训练的效率，提升了目标检测的可靠性。

进一步参考图6，作为对上述各图所示方法的实现，本公开提供了预训练模型生成装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可应用于各种电子设备中。

如图6所示，本实施例提供的预训练模型生成装置600包括：处理单元601，在线检测单元602，目标检测单元603，计算单元604，训练单元605。其中，上述处理单元601，可以被配置成对获取的样本图像进行处理，得到不同视角下的第一图像和第二图像，样本图像上具有至少两个目标候选区域，每个目标候选区域对应一个目标。上述在线检测单元602，可以被配置成将第一图像和第二图像输入在线网络进行特征提取，得到第一图像上目标候选区域的第一特征向量集合和第二图像上目标候选区域的第二特征向量集合。上述目标检测单元603，可以被配置成将第二图像输入目标网络进行特征预测，得到第二图像上目标候选区域的第三特征向量集合，目标网络、在线网络均包括相同的骨架网络。上述计算单元604，可以被配置成基于以下至少一项计算所有目标候选区域的总体对比学习损失：第一特征向量集合、第三特征向量集合、第二特征向量集合。上述训练单元605，可以被配置成根据总体对比学习损失，训练在线网络和目标网络，得到对应在线网络的预训练模型。

在本实施例中，预训练模型生成装置600中：处理单元601，在线检测单元602，目标检测单元603，计算单元604，训练单元605的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103、步骤104、步骤105的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述处理单元601进一步被配置成：采用选择性搜索算法对获取的样本图像进行处理，得到具有至少两个目标候选区域的输入图像；将输入图像缩放到预设大小，得到第一图像；在预设尺度范围内，对第一图像进行裁剪，并缩放到预设大小，得到第二图像。

在本实施例的一些可选的实现方式中，上述第二图像包括不同视角下的第一子图和第二子图，上述处理单元601进一步被配置成：在预设尺度范围内，对第一图像进行裁剪，并缩放到预设大小，得到第一子图；对第一子图进行下采样，得到第二子图。

在本实施例的一些可选的实现方式中，上述计算单元604进一步被配置成：针对所有目标候选区域中的各个目标候选区域，将第一图像中各个目标候选区域的第一特征向量分别与第二图像的所有目标候选区域的第二特征向量进行对比学习，计算得到所有目标候选区域的负样本对比损失；针对所有目标候选区域中的各个目标候选区域，将第一图像中各个目标候选区域的目标特征向量与该目标候选区域的第三特征向量进行对比学习，计算得到所有目标候选区域的正样本对比损失；根据正样本对比损失和负样本对比损失，计算得到总体对比学习损失。

在本实施例的一些可选的实现方式中，上述第二图像包括不同视角下的第一子图和第二子图，第二特征向量集合包括：第一子图的第四特征向量集合和第二子图的第五特征向量集合，第三特征向量集合包括：第一子图的第六特征向量集合和第二子图的第七特征向量集合，上述计算单元604进一步被配置成：针对所有目标候选区域中的各个目标候选区域，将第一图像中各个目标候选区域的第一特征向量分别与第一子图的所有目标候选区域的第四特征向量进行对比学习，计算得到所有目标候选区域的第一负样本对比损失；针对所有目标候选区域中的各个目标候选区域，将第一图像中各个目标候选区域的第一特征向量分别与第二子图的所有目标候选区域的第五特征向量进行对比学习，计算得到所有目标候选区域的第二负样本对比损失；针对所有目标候选区域中的各个目标候选区域，将第一图像中各个目标候选区域的目标特征向量与该目标候选区域的第六特征向量进行对比学习，计算得到所有目标候选区域的第一正样本对比损失；针对所有目标候选区域中的各个目标候选区域，将第一图像中该目标候选区域的目标特征向量与该目标候选区域的第七特征向量进行对比学习，计算得到所有目标候选区域的第二正样本对比损失；根据第一正样本对比损失、第一正样本对比损失、第一负样本对比损失和第二负样本对比损失，计算得到所有目标候选区域的总体对比学习损失。

在本实施例的一些可选的实现方式中，上述训练单元605进一步配置成：根据总体对比学习损失，计算预训练模型损失值；根据预训练模型损失值生成在线网络的参数；根据在线网络的参数以指数移动平均值的方式更新目标网络的参数。

本公开的实施例提供的预训练模型生成装置，首先，处理单元601对获取的样本图像进行处理，得到不同视角下的第一图像和第二图像，样本图像上具有至少两个目标候选区域，每个目标候选区域对应一个目标；其次，在线检测单元602将第一图像和第二图像输入在线网络进行特征提取，得到第一图像上目标候选区域的第一特征向量集合和第二图像上目标候选区域的第二特征向量集合；再次，目标检测单元603将第二图像输入目标网络进行特征预测，得到第二图像上目标候选区域的第三特征向量集合，目标网络、在线网络均包括相同的骨架网络；从次，计算单元604基于以下至少一项计算所有目标候选区域的总体对比学习损失：第一特征向量集合、第三特征向量集合、第二特征向量集合计算所有目标候选区域的总体对比学习损失；最后，训练单元605根据总体对比学习损失，训练在线网络和目标网络，得到对应在线网络的预训练模型。由此，在生成目标检测任务的预训练模型时，无需对图像进行标注，降低了标注成本；通过在线网络和目标网络学习各种目标任务通用视觉向量表示，并在训练过程中对比不同目标候选区域中视觉向量的区别，提升了预训练模型的泛化性以及模型在任务中的表现。

继续参见图7，作为对上述图3所示方法的实现，本申请提供了一种目标检测装置的一个实施例。该装置实施例与图3所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的目标检测装置700可以包括：获取单元701，被配置成获取待检测图像。得到单元702，被配置成将待检测图像输入如上述图3实施例所描述的方法生成的预训练模型中，得到待检测图像的目标检测结果。

可以理解的是，该装置700中记载的诸单元与参考图3描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置700及其中包含的单元，在此不再赘述。

继续参见图8，作为对上述图5所示方法的实现，本申请提供了一种目标检测模型训练装置的一个实施例。该装置实施例与图5所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，本实施例的目标检测模型训练装置800可以包括：接收单元801，被配置成接收目标检测任务。生成单元802，被配置成基于如上述图5实施例所描述的方法生成的预训练模型，训练得到与目标检测任务对应的目标检测模型。

可以理解的是，该装置800中记载的诸单元与参考图5描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置800及其中包含的单元，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如预训练模型生成方法、目标检测方法、目标检测模型训练方法。例如，在一些实施例中，预训练模型生成方法、目标检测方法、目标检测模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的预训练模型生成方法、目标检测方法、目标检测模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行预训练模型生成方法、目标检测方法、目标检测模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程预训练模型生成装置、目标检测装置、目标检测模型训练装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种预训练模型生成方法，所述方法包括：

对获取的样本图像进行处理，得到不同视角下的第一图像和第二图像，所述样本图像上具有至少两个目标候选区域，每个目标候选区域对应一个目标；

将所述第一图像和所述第二图像输入在线网络进行特征提取，得到所述第一图像上目标候选区域的第一特征向量集合和所述第二图像上目标候选区域的第二特征向量集合；

将所述第二图像输入目标网络进行特征预测，得到所述第二图像上目标候选区域的第三特征向量集合，所述目标网络、所述在线网络均包括相同的骨架网络；

基于以下至少一项计算所有目标候选区域的总体对比学习损失：所述第一特征向量集合、所述第三特征向量集合、所述第二特征向量集合；

根据所述总体对比学习损失，训练所述在线网络和所述目标网络，得到对应所述在线网络的预训练模型。

2.根据权利要求1所述的方法，其中，所述对获取的样本图像进行处理，得到不同视角下的第一图像和第二图像，包括：

采用选择性搜索算法对获取的样本图像进行处理，得到具有至少两个目标候选区域的输入图像；

将所述输入图像缩放到预设大小，得到所述第一图像；

在预设尺度范围内，对所述第一图像进行裁剪，并缩放到所述预设大小，得到所述第二图像。

3.根据权利要求2所述的方法，其中，所述第二图像包括不同视角下的第一子图和第二子图；

所述在预设尺度范围内，对所述第一图像进行裁剪，并缩放到所述预设大小，得到所述第二图像，包括：

在预设尺度范围内，对所述第一图像进行裁剪，并缩放到所述预设大小，得到所述第一子图；

对所述第一子图进行下采样，得到所述第二子图。

4.根据权利要求1所述的方法，其中，所述基于以下至少一项计算所有目标候选区域的总体对比学习损失：所述第一特征向量集合、所述第三特征向量集合、所述第二特征向量集合，包括：

针对所有目标候选区域中的各个目标候选区域，将所述第一图像中各个目标候选区域的第一特征向量分别与所述第二图像的所有目标候选区域的第二特征向量进行对比学习，计算得到所有目标候选区域的负样本对比损失；

针对所有目标候选区域中的各个目标候选区域，将所述第一图像中各个目标候选区域的第一特征向量与该目标候选区域的第三特征向量进行对比学习，计算得到所有目标候选区域的正样本对比损失；

根据所述正样本对比损失和所述负样本对比损失，计算得到所述总体对比学习损失。

5.根据权利要求1所述的方法，其中，所述第二图像包括不同视角下的第一子图和第二子图，所述第二特征向量集合包括：第一子图的第四特征向量集合和第二子图的第五特征向量集合，所述第三特征向量集合包括：第一子图的第六特征向量集合和第二子图的第七特征向量集合；

所述基于以下至少一项计算所有目标候选区域的总体对比学习损失：所述第一特征向量集合、所述第三特征向量集合、所述第二特征向量集合，包括：

针对所有目标候选区域中的各个目标候选区域，将所述第一图像中各个目标候选区域的第一特征向量分别与所述第一子图的所有目标候选区域的第四特征向量进行对比学习，计算得到所有目标候选区域的第一负样本对比损失；

针对所有目标候选区域中的各个目标候选区域，将所述第一图像中各个目标候选区域的第一特征向量分别与所述第二子图的所有目标候选区域的第五特征向量进行对比学习，计算得到所有目标候选区域的第二负样本对比损失；

针对所有目标候选区域中的各个目标候选区域，将所述第一图像中各个目标候选区域的第一特征向量与该目标候选区域的第六特征向量进行对比学习，计算得到所有目标候选区域的第一正样本对比损失；

针对所有目标候选区域中的各个目标候选区域，将所述第一图像中各个目标候选区域的第一特征向量与该目标候选区域的第七特征向量进行对比学习，计算得到所有目标候选区域的第二正样本对比损失；

根据所述第一正样本对比损失、所述第二正样本对比损失、所述第一负样本对比损失和所述第二负样本对比损失，计算得到所有目标候选区域的总体对比学习损失。

6.根据权利要求1所述的方法，其中，所述根据所述总体对比学习损失，训练所述在线网络和所述目标网络，包括：

根据所述总体对比学习损失，计算预训练模型损失值；

根据所述预训练模型损失值生成所述在线网络的参数；

根据所述在线网络的参数以指数移动平均值的方式更新所述目标网络的参数。

7.一种目标检测方法，所述方法包括：

获取待检测图像；

将所述待检测图像输入采用权利要求1-6任一项所述的方法生成的预训练模型中，得到所述待检测图像的目标检测结果。

8.一种目标检测模型训练方法，所述方法包括：

接收目标检测任务；

基于权利要求1-6任一项所述的方法生成的预训练模型，训练得到与所述目标检测任务对应的目标检测模型。

9.一种预训练模型生成装置，所述装置包括：

处理单元，被配置成对获取的样本图像进行处理，得到不同视角下的第一图像和第二图像，所述样本图像上具有至少两个目标候选区域，每个目标候选区域对应一个目标；

在线检测单元，被配置成将所述第一图像和所述第二图像输入在线网络进行特征提取，得到所述第一图像上目标候选区域的第一特征向量集合和所述第二图像上目标候选区域的第二特征向量集合；

目标检测单元，被配置成将所述第二图像输入目标网络进行特征预测，得到所述第二图像上目标候选区域的第三特征向量集合，所述目标网络、所述在线网络均包括相同的骨架网络；

计算单元，被配置成基于以下至少一项计算所有目标候选区域的总体对比学习损失：所述第一特征向量集合、所述第三特征向量集合、所述第二特征向量集合；

训练单元，被配置成根据所述总体对比学习损失，训练所述在线网络和所述目标网络，得到对应所述在线网络的预训练模型。

10.根据权利要求9所述的装置，所述处理单元进一步被配置成：

将所述输入图像缩放到预设大小，得到所述第一图像；

11.根据权利要求10所述的装置，其中，所述第二图像包括不同视角下的第一子图和第二子图，所述处理单元进一步被配置成：

对所述第一子图进行下采样，得到所述第二子图。

12.根据权利要求9所述的装置，其中，所述计算单元进一步被配置成：针对所有目标候选区域中的各个目标候选区域，将所述第一图像中各个目标候选区域的第一特征向量分别与所述第二图像的所有目标候选区域的第二特征向量进行对比学习，计算得到所有目标候选区域的负样本对比损失；

针对所有目标候选区域中的各个目标候选区域，将所述第一图像中各个目标候选区域的目标特征向量与该目标候选区域的第三特征向量进行对比学习，计算得到所有目标候选区域的正样本对比损失；

13.根据权利要求9所述的装置，其中，所述第二图像包括不同视角下的第一子图和第二子图，所述第二特征向量集合包括：第一子图的第四特征向量集合和第二子图的第五特征向量集合，所述第三特征向量集合包括：第一子图的第六特征向量集合和第二子图的第七特征向量集合，所述计算单元进一步被配置成：

针对所有目标候选区域中的各个目标候选区域，将所述第一图像中各个目标候选区域的目标特征向量与该目标候选区域的第六特征向量进行对比学习，计算得到所有目标候选区域的第一正样本对比损失；

针对所有目标候选区域中的各个目标候选区域，将所述第一图像中各个目标候选区域的目标特征向量与该目标候选区域的第七特征向量进行对比学习，计算得到所有目标候选区域的第二正样本对比损失；

根据所述第一正样本对比损失、所述第一正样本对比损失、所述第一负样本对比损失和所述第二负样本对比损失，计算得到所有目标候选区域的总体对比学习损失。

14.根据权利要求9所述的装置，其中，所述训练单元进一步配置成：

根据所述总体对比学习损失，计算预训练模型损失值；根据所述预训练模型损失值生成所述在线网络的参数；

15.一种目标检测装置，所述装置包括：

获取单元，被配置成获取待检测图像；

得到单元，被配置成将所述待检测图像输入采用权利要求9-14任一项所述的装置生成的预训练模型中，得到所述待检测图像的目标检测结果。

16.一种目标检测模型训练装置，所述装置包括：

接收单元，被配置成接收目标检测任务；

生成单元，被配置成基于权利要求9-14任一项所述的装置生成的预训练模型，训练得到与所述目标检测任务对应的目标检测模型。

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-8中任一项所述的方法。