CN116563665B

CN116563665B - 目标检测模型的训练方法、目标检测方法、装置及设备

Info

Publication number: CN116563665B
Application number: CN202310457098.2A
Authority: CN
Inventors: 陈阳; 李弼; 希滕; 张刚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2024-07-02
Anticipated expiration: 2043-04-25
Also published as: CN116563665A

Abstract

本公开提供了目标检测模型的训练方法、目标检测方法、装置及设备。本公开涉及人工智能技术领域，具体为计算机视觉、图像识别、深度学习等技术领域。具体方案为：获取每个样本图像的多个可用未掩码区域以及多个可用未掩码区域的位置信息和对应的目标标签；将每个样本图像的多个可用未掩码区域以及位置信息输入待训练模型，得到每个样本图像的多个可用未掩码区域的特征图；基于每个样本图像的多个可用未掩码区域的特征图得到每个样本图像的目标特征图；基于每个样本图像的目标特征图以及多个可用未掩码区域对应的目标标签对待训练模型进行训练，得到目标检测模型。根据本公开的方案，能够在降低算力成本和时间成本的同时，提升目标检测的准确性。

Description

目标检测模型的训练方法、目标检测方法、装置及设备

技术领域

本公开涉及人工智能技术领域，具体为计算机视觉、图像识别、深度学习等技术领域。

背景技术

近几年，深度学习技术在人工智能领域不断发展，在图像分类、目标检测、语义分割等领域均展现出卓越的性能。随着大模型技术的兴起，基于转换器(Transformer)模型的下游视觉任务更是取得突破性的进展。然而，大模型技术伴随而来的是计算量的急剧增加，这无疑增大了训练目标检测等下游视觉任务的算力成本和时间成本。因此，亟需一种更高效的模型设计来对算力成本和时间成本进行优化。

发明内容

本公开提供了一种目标检测模型的训练方法、目标检测方法、装置及设备。

根据本公开的第一方面，提供了一种目标检测模型的训练方法，包括：

获取每个样本图像的多个可用未掩码区域以及多个可用未掩码区域的位置信息；

获取每个样本图像的多个可用未掩码区域对应的目标标签；

将每个样本图像的多个可用未掩码区域以及位置信息输入待训练模型，得到每个样本图像的多个可用未掩码区域的特征图；

基于每个样本图像的多个可用未掩码区域的特征图得到每个样本图像的目标特征图；

基于每个样本图像的目标特征图以及多个可用未掩码区域对应的目标标签对待训练模型进行训练，得到目标检测模型。

根据本公开的第二方面，提供了一种目标检测方法，包括：

获取待检测图像；

将待检测图像输入目标检测模型，得到目标检测模型输出的待检测图像的目标检测结果；

其中，目标检测模型基于第一方面的目标检测模型的训练方法训练得到。

根据本公开的第三方面，提供了一种目标检测模型的训练装置，包括：

第一获取模块，用于获取每个样本图像的多个可用未掩码区域以及多个可用未掩码区域的位置信息；

第二获取模块，用于获取每个样本图像的多个可用未掩码区域对应的目标标签；

第一输入模块，用于将每个样本图像的多个可用未掩码区域以及位置信息输入待训练模型，得到每个样本图像的多个可用未掩码区域的特征图；

第三获取模块，用于基于每个样本图像的多个可用未掩码区域的特征图得到每个样本图像的目标特征图；

训练模块，用于基于每个样本图像的目标特征图以及多个可用未掩码区域对应的目标标签对待训练模型进行训练，得到目标检测模型。

根据本公开的第四方面，提供了一种目标检测装置，包括：

第五获取模块，用于获取待检测图像；

第二输入模块，用于将待检测图像输入目标检测模型，得到目标检测模型输出的待检测图像的目标检测结果；

根据本公开的第五方面，提供了一种电子设备，包括：至少一个处理器；与至少一个处理器通信连接的存储器；存储器存储有可以被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面提供的目标检测模型的训练方法和/或第二方面提供的目标检测方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行第一方面提供的目标检测模型的训练方法和/或第二方面提供的目标检测方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括存储在存储介质上的计算机程序，该计算机程序在被处理器执行时实现第一方面提供的目标检测模型的训练方法和/或第二方面提供的目标检测方法。

根据本公开的技术方案，能够通过掩码技术直接从输入源头解决图像的冗余性，从而在降低了大模型的算力成本和时间成本的同时，提升了目标检测模型的准确度。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1是根据本公开实施例的目标检测模型的训练方法的流程示意图；

图2是根据本公开实施例的针对样本图像进行目标检测的处理流程示意图；

图3是根据本公开实施例的样本图像的获取示意图；

图4是根据本公开实施例的交叠面积的示意图；

图5是根据本公开实施例的在原始图像包括多个待检测目标的情况下，确定样本图像的示意图；

图6是根据本公开实施例的目标检测方法的流程示意图；

图7是根据本公开实施例的目标检测模型的应用示意图；

图8是根据本公开实施例的目标检测模型的训练装置的结构示意图；

图9是根据本公开实施例的目标检测装置的结构示意图；

图10是根据本公开实施例的目标检测模型的训练方法的场景示意图；

图11是根据本公开实施例的目标检测方法的场景示意图；

图12是用来实现本公开实施例的目标检测模型的训练方法和/或目标检测方法的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的说明书实施例和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关技术中，大模型包括多个任务，例如目标检测、图像分类和图像分割等。相关技术中，掩码技术已经广泛应用于图像识别、自监督预训练等领域。但是，因为大模型中目标检测任务复杂性的问题，没有将掩码技术应用于目标检测任务。

相关技术中，掩码技术具体是指将输入图像划分为图像块(patch)，随机生成一部分掩码，将掩码保留部分(即未掩码部分)作为Transformer模型的输入。但是，将该掩码技术直接应用于目标检测模型会对模型的指标产生较大的负面影响，例如目标检测的准确度较低。因此，需要一种高效的针对于目标检测任务的掩码方式。

本公开为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，提出了一种基于掩码的大模型目标检测加速训练方案，能够通过掩码技术直接从输入源头解决图像的冗余性，从而在降低了大模型的算力成本和时间成本的同时，提升了目标检测模型的准确度。

本公开实施例提供了一种目标检测模型的训练方法，图1是根据本公开实施例的目标检测模型的训练方法的流程示意图，该目标检测模型的训练方法可以应用于目标检测模型的训练装置。该目标检测模型的训练装置位于电子设备。该电子设备包括但不限于固定设备和/或移动设备。例如，固定设备包括但不限于服务器，服务器可以是云服务器或普通服务器。例如，移动设备包括但不限于：手机、平板电脑、车载终端。在一些可能的实现方式中，该目标检测模型的训练方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，该目标检测模型的训练方法包括：

S101：获取每个样本图像的多个可用未掩码区域以及多个可用未掩码区域的位置信息；

S102：获取每个样本图像的多个可用未掩码区域对应的目标标签；

S103：将每个样本图像的多个可用未掩码区域以及位置信息输入待训练模型，得到每个样本图像的多个可用未掩码区域的特征图；

S104：基于每个样本图像的多个可用未掩码区域的特征图得到每个样本图像的目标特征图；

S105：基于每个样本图像的目标特征图以及多个可用未掩码区域对应的目标标签对待训练模型进行训练，得到目标检测模型。

这里，目标检测模型为大模型或大模型的一部分，该大模型是以Transformer模型为初始模型进行训练的。

本公开实施例中，该样本图像是具有待检测目标和目标标签的图像，其中，样本图像的待检测目标可以有一个或多个；对应地，样本图像的目标标签可以有一个或多个。具体地，该样本图像是基于原始图像得到的。示例性地，该样本图像为一张插在花瓶中的玫瑰花的图像，该样本图像的待检测目标为玫瑰花和花瓶，目标标签为玫瑰花和花瓶。

本公开实施例中，该位置信息既可以是未掩码区域在原始图像中的位置信息，也可以是未掩码区域之间的相对位置关系。该位置信息可采用多种方式进行表示，例如通过行列数值进行表示；又例如，通过向量的方式进行表示。以上仅为示例性说明，不作为对未掩码区域的位置信息包括的全部可能的表示方法的限定，只是这里不做穷举。

本公开实施例中，该未掩码区域对应的目标标签为未掩码区域涉及的待检测目标的标签。示例性地，一张哈士奇宠物狗的图像，该目标标签为狗。一张样本图像可以有多个待检测目标，也可以有多个目标标签。示例性地，一张含有猫、狗、鹦鹉的图像，其未掩码区域包括狗和鹦鹉，则该图像的目标标签为狗和鹦鹉。

本公开实施例中，将每个样本图像的多个可用未掩码区域以及位置信息输入待训练模型中的骨干网络(backbone)，得到每个样本图像的多个可用未掩码区域的特征图。其中，基于未掩码区域在原始图像中的位置为该特征图的获取顺序。图2示出了针对样本图像进行目标检测的处理流程示意图，如图2所示，一张样本图像被分为5×5的25个图像块，对该样本图像进行随机掩码，得到未掩码区域1(H1，L3)、未掩码区域2(H2，L2)、未掩码区域3(H2，L5)、未掩码区域4(H3，L1)、未掩码区域5(H3，L3)、未掩码区域6(H4，L1)、未掩码区域7(H4，L5)和未掩码区域8(H5，L3)。将上述8个未掩码区域按照顺序输入至骨干网络，得到顺序排列的特征图。基于该顺序排列的特征图以及预设特征图得到每个样本图像的目标特征图。将目标特征图输入至待训练模型中的检测头(head)，由检测头基于目标特征图预测得到目标类型和位置。

本公开实施例中，该目标特征图为原始图像的多个图像块的特征图组成的特征图。基于每个样本图像的多个可用未掩码区域的位置信息，将每个样本图像的多个可用未掩码区域的特征图填充到对应样本图像的第一位置；将预设特征图填充到对应样本图像的第二位置，第二位置是第一位置之外的位置；基于每个样本图像的第一位置的特征图和第二位置的预设特征图，得到每个样本图像的目标特征图。

本公开实施例中，将目标特征图输入给检测头。将目标特征图输入至待训练模型中的检测头(head)，由检测头基于目标特征图预测得到目标类型和位置。

本公开实施例的技术方案，获取每个样本图像的多个可用未掩码区域以及多个可用未掩码区域的位置信息；获取每个样本图像的多个可用未掩码区域对应的目标标签；将每个样本图像的多个可用未掩码区域以及位置信息输入待训练模型，得到每个样本图像的多个可用未掩码区域的特征图；基于每个样本图像的多个可用未掩码区域的特征图得到每个样本图像的目标特征图；基于每个样本图像的目标特征图以及多个可用未掩码区域对应的目标标签对待训练模型进行训练，得到目标检测模型。通过掩码技术直接从输入源头解决图像的冗余性，从而在降低了大模型的算力成本和时间成本的同时，提升了目标检测模型的准确度。

在一些实施例中，该目标检测模型的训练方法，还包括：获取多个原始图像；对每个原始图像进行随机掩码，得到每个原始图像的多个未掩码区域；将多个未掩码区域满足预设条件的原始图像，确定为样本图像。

本公开实施例中，可采用任何可行的实现方式来获取原始图像。例如，通过在网络上进行抓取，得到原始图像。又例如，通过图像数据库中获取原始图像。以上仅为示例性说明，不作为对原始图像全部可能的获取方式的限定，只是这里不做穷举。

本公开实施例中，对每个原始图像进行随机掩码，得到每个原始图像的多个未掩码区域。该随机掩码是将原始图像分为若干个图像块，随机将该若干个图像块进行掩码，得到多个未掩码区域和多个掩码区域。为减小输入图像的冗余性，将掩码区域对应的图像块丢弃。

本公开实施例中，将每个原始图像分成N×M个图像块，并对每个原始图像中的K个图像块进行随机掩码。因此，对于每个原始图像，有N×M-K个图像块属于未掩码区域，同时有K个图像块属于掩码区域。

本公开的实施例中，将多个未掩码区域满足预设条件的原始图像，确定为样本图像。该预设条件为待检测目标的区域和未掩码区域的交叠面积的量化值不小于预设阈值。示例性地，一张“插在花瓶中的玫瑰花”的原始图像，该原始图像的待检测目标为玫瑰花和花瓶，目标标签为玫瑰花和花瓶。对该原始图像进行随机掩码，得到未掩码区域。若待检测目标“玫瑰花”的区域与“玫瑰花”的未掩码区域的交叠面积大于预设阈值时，将该原始图像作为样本图像，将样本图像的目标标签“玫瑰花”保留。若待检测目标“花瓶”的区域与“花瓶”的未掩码区域的交叠面积小于预设阈值时，将样本图像的目标标签“花瓶”剔除，将“花瓶”的未掩码区域剔除。

图3示出了样本图像的获取示意图，如图3所示，将原始图像分成4×5个图像块，并对原始图像中的12个图像块进行随机掩码。因此，原始图像中有8个图像块属于未掩码区域，有12个图像块属于掩码区域。若原始图像中待检测目标所在区域面积和8个未掩码图像块的区域面积的量化值不小于预设阈值，则将该原始图像确定为样本图像，否则舍弃该原始图像。

本公开实施例的技术方案，对原始图像进行随机掩码，将满足预设条件的图像作为样本图像。从输入源头上解决了图像的冗余性，从而节省了算力成本和人力成本，进而提高了目标检测的准确性。

在一些实施例中，将多个未掩码区域满足预设条件的原始图像，确定为样本图像，包括：确定每个原始图像中待检测目标所在区域和多个未掩码区域的交叠面积的量化值；将量化值不小于预设阈值的原始图像，确定为样本图像。

本公开实施例中，该待检测目标所在区域为待检测目标所在的未掩码区域。其中，一张原始图像可能具有多个待检测目标，一个未掩码图像块可能包括一个或多个待检测对象，那么该未掩码图像块可作为多个待检测目标的待检测目标区域。

本公开实施例中，该多个未掩码区域的交叠面积的量化值为待检测目标区域与未掩码区域的交叠面积。

本公开实施例中，确定每个原始图像中待检测目标所在区域和多个未掩码区域的交叠面积的量化值；将量化值不小于预设阈值的原始图像，确定为样本图像。示例性地，对一张哈士奇宠物狗的原始图像进行随机掩码，得到未掩码区域。若哈士奇宠物狗所在区域和多个未掩码区域的交叠面积的量化值不小于预设阈值，将该张原始图像确定为样本图像。

本公开实施例的技术方案，通过确定每个原始图像中待检测目标所在区域和多个未掩码区域的交叠面积的量化值；将量化值不小于预设阈值的原始图像，确定为样本图像，降低了人工成本和时间成本，从而提高了目标检测模型的训练方法的效率。

图4示出了交叠面积的示意图，如图4所示，量化值等于待检测目标所在区域的第一面积和多个未掩码区域的第二面积的交集，与第一面积的比值。

本公开实施例中，对原始图像进行随机掩码，得到掩码区域和未掩码区域。输入时会将掩码区域剔除，但是掩码部分也存在待检测对象的内容，如果不考虑这部分，可能会出现样本图像的未掩码区域没有待检测目标的信息，导致目标检测模型无法根据未掩码区域识别出待检测目标。或是，由于未掩码区域缺失了待检测目标的重要特征信息，导致目标检测模型识别错误。因此，可以通过指标因子(Intersection Over Anchor，IOA)对原始图像进行筛选。该指标因子IOA通过公式(1)进行求解：

其中，MaskArea为未掩码区域面积，AnchorArea为待检测目标区域的面积。

本公开实施例的技术方案，创新性地提出新的指标因子IOA，通过计算未掩码区域与待检测目标区域的交叠面积对原始图像和原始图像的目标标签进行筛选，有助于提高目标检测模型的训练效率和准确性。

图5示出了在原始图像包括多个待检测目标的情况下，确定样本图像的示意图，如图5所示，在原始图像包括多个待检测目标的情况下，将量化值不小于预设阈值的原始图像，确定为样本图像，还包括：响应于检测到原始图像中存在量化值小于预设阈值的多个第一未掩码区域，去除原始图像中多个第一未掩码区域以及原始图像的多个第一未掩码区域对应的第一待检测目标的目标标签；保留原始图像中量化值不小于预设阈值的多个第二未掩码区域以及原始图像的多个第二未掩码区域对应的第二待检测目标的目标标签。

本公开实施例中，一张原始图像具有多个待检测目标和目标标签。响应于检测到该原始图像中存在量化值小于预设阈值的多个第一未掩码区域，则去除该原始图像中多个第一未掩码区域以及该原始图像的多个第一未掩码区域对应的第一待检测目标的目标标签。保留原始图像中量化值不小于预设阈值的多个未掩码区域和多个未掩码区域对应的目标标签。

本公开实施例中，一张水果篮子的原始图像，该原始图像的待检测目标为樱桃和苹果，该原始图像的目标标签为樱桃和苹果。响应于检测到该原始图像中，待检测目标苹果的区域与未掩码区域的交叠面积小于预设阈值，则将包括目标苹果的未掩码区域和目标标签“苹果”去除。响应于检测到该原始图像中，待检测目标樱桃的区域与未掩码区域的交叠面积大于预设阈值，则将包括待检测目标樱桃的未掩码区域和目标标签“樱桃”保留。

本公开实施例的技术方案，通过将不满足预设阈值的原始图像中目标标签去除，能够减小目标检测的复杂性，从而降低时间成本，进而提高目标检测模型训练的准确性。

本公开实施例中，获取每个样本图像的多个可用未掩码区域，可包括：将每个样本图像的量化值不小于预设阈值的多个第二未掩码区域，作为每个样本图像的多个可用未掩码区域。对应地，获取每个样本图像的多个可用未掩码区域对应的目标标签，可包括：将每个样本图像的多个第二未掩码区域对应的第二待检测目标的目标标签，作为每个样本图像的多个可用未掩码区域的目标标签。

本公开实施例中，将每个样本图像的量化值不小于预设阈值的多个未掩码区域，作为每个样本图像的可用未掩码区域；将每个样本图像的多个未掩码区域对应的待检测目标的目标标签，作为样本图像的多个可用未掩码区域的目标标签。

本公开实施例中，一张水果篮子的原始图像，该原始图像的待检测目标为樱桃和苹果，该原始图像的目标标签为樱桃和苹果。响应于检测到该原始图像中，待检测目标苹果的区域与未掩码区域的交叠面积小于预设阈值，则将包括目标苹果的未掩码区域和目标标签“苹果”去除。响应于检测到该原始图像中，待检测目标樱桃的区域与未掩码区域的交叠面积大于预设阈值，则将包括待检测目标樱桃的未掩码区域和目标标签“樱桃”保留。其中，当某一图像块中既有待检测目标“苹果”，又有待检测目标“樱桃”，则可以根据计算顺序对该图像块进行处理。示例性的，当先响应于待检测目标“苹果”小于预设阈值，则将该图像块去除，在响应于待检测目标“樱桃”时，该图像块已被去除，不参与待检测目标“樱桃”的计算。当待检测目标“苹果”与“樱桃”同时计算时，比较该图像块中两个待检测目标的所占面积，将该图像块放到待检测目标占面积较大的一方。例如，待检测目标“樱桃”占该图像块的面积较大，则该图像块仅参与待检测目标“樱桃”的计算。

本公开实施例的技术方案，有效地区分了可用未掩码区域和可用目标标签。降低了目标检测模型训练的时间成本和人力成本，从而有助于提高目标检测模型训练的效率和准确性。

本公开实施例中，基于每个样本图像的多个可用未掩码区域的特征图得到每个样本图像的目标特征图，可包括：基于每个样本图像的多个可用未掩码区域的位置信息，将每个样本图像的多个可用未掩码区域的特征图填充到对应样本图像的第一位置；将预设特征图填充到对应样本图像的第二位置，第二位置是第一位置之外的位置；基于每个样本图像的第一位置的特征图和第二位置的预设特征图，得到每个样本图像的目标特征图。

本公开实施例中，多个可用未掩码区域的特征图包括每一个未掩码图像块各自对应的特征图。基于每个样本图像的多个可用未掩码区域的位置信息，将每个样本图像的多个可用未掩码区域的特征图填充到对应样本图像的第一位置。

本公开实施例中，该第一位置是基于多个未掩码区域在原始图像的位置确定的。基于每个样本图像的多个可用未掩码区域的位置信息，将每个样本图像的多个可用未掩码区域的特征图填充到对应样本图像的第一位置。即，在目标检测模型训练阶段，对未掩码区域的输入叠加相对位置编码向量。使得目标检测模型在面对不同位置分布的输入，既能获知位置信息，同时在编码上处于连续的空间，缩小了训练测试的差异，进而提升目标检测模型的精度。

本公开实施例中，该预设特征图为共享的随机特征编码。该共享的随机特征编码是指填充的若干个随机特征编码是相同的。

本公开实施例中，该第二位置为在原始图像进行随机掩码时，掩码图像块的位置。基于每个样本图像的多个可用未掩码区域的位置信息，将每个样本图像的多个可用未掩码区域的特征图填充到对应样本图像的第一位置。将预设特征图填充到对应样本图像的第二位置，第二位置是第一位置之外的位置；基于每个样本图像的第一位置的特征图和第二位置的预设特征图，得到每个样本图像的目标特征图，即将缺失的部分填充为共享的随机特征编码，再输入给检测头。

本公开实施例的技术方案，基于每个样本图像的多个可用未掩码区域的位置信息，将每个样本图像的多个可用未掩码区域的特征图填充到对应样本图像的第一位置；将预设特征图填充到对应样本图像的第二位置，第二位置是第一位置之外的位置；基于每个样本图像的第一位置的特征图和第二位置的预设特征图，得到每个样本图像的目标特征图。能够使得目标检测模型在面对不同位置分布的输入，既能获知位置信息，同时在编码上处于连续的空间，缩小了训练测试的差异，进而提升目标检测模型的精度。

本公开实施例中，目标检测模型包括骨干网络和头网络；骨干网络用于基于每个样本图像的多个可用未掩码区域得到每个样本图像的多个可用未掩码区域的特征图，待训练模型包括骨干网络；头网络用于基于每个样本图像的目标特征图输出每个样本图像的目标检测结果。这里，头网络也可以称为检测头。

本公开实施例中，基于掩码技术对目标检测模型做出了特殊的设计，即仅在骨干网络加入掩码，检测头不加入掩码。目标检测模型的检测头设计千变万化，若在检测头加入掩码设计，可能会破坏原有检测头中的位置拓扑关系，对目标检测模型的收敛造成一定困难，从而导致目标检测模型的精度下降。因此，仅在模型的骨干网络中加入掩码技术。

本公开实施例的技术方案，通过采用在骨干网络加入掩码，检测头不加入掩码的特殊设计，能够从输入源头解决图像的冗余性，减小算力成本和人工成本，从而提高目标检测模型训练的准确性，进而提高目标检测模型的准确性。

本公开实施例提供了一种目标检测方法，图6是根据本公开实施例的目标检测方法的流程示意图，该目标检测方法可以应用于目标检测装置。该目标检测方法可以应用于电子设备。该电子设备包括但不限于固定设备和/或移动设备。例如，固定设备包括但不限于服务器，服务器可以是云服务器或普通服务器。例如，移动设备包括但不限于：手机、平板电脑、扫描设备。在一些可能的实现方式中，该目标检测方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图6所示，该目标检测方法包括：

S601：获取待检测图像；

S602：将待检测图像输入目标检测模型，得到目标检测模型输出的待检测图像的目标检测结果。

其中，目标检测模型根据上述的目标检测模型的训练方法训练得到。

本公开实施例中，待检测图像可以从图像数据库获取，也可以由用户输入，还可以通过摄像头等电子设备采集得到。需要说明的是，本公开不对待检测图像的来源进行限定。

本公开实施例中，将待检测图像输入目标检测模型，得到目标检测模型输出的待检测图像的目标检测结果。示例性地，获取待检测图片为一张“插在花瓶中的玫瑰花”的图像，将该图像输入至目标检测模型，得到目标检测结果花瓶和玫瑰花。图7示出了目标检测模型的应用示意图，如图7所示，获取待检测图像为猫和兔子的图像，将该待检测图像输入目标检测模型，得到输出的目标检测结果是猫和兔子。

本公开实施例的技术方案，获取待检测图像；将待检测图像输入目标检测模型，得到目标检测模型输出的待检测图像的目标检测结果，采用上述目标检测模型的训练方法训练得到的目标检测模型进行目标检测，能够提升目标检测的准确度。

应理解，图2、图3、图4、图5和图7所示的示意图仅仅是示例性而不是限制性的，并且其是可扩展的，本领域技术人员可以基于图2、图3、图4、图5和图7的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开实施例提供了一种目标检测模型的训练装置，如图8所示，该目标检测模型的训练装置包括：第一获取模块801，用于获取每个样本图像的多个可用未掩码区域以及多个可用未掩码区域的位置信息；第二获取模块802，用于获取每个样本图像的多个可用未掩码区域对应的目标标签；第一输入模块803，用于将每个样本图像的多个可用未掩码区域以及位置信息输入待训练模型，得到每个样本图像的多个可用未掩码区域的特征图；第三获取模块804，用于基于每个样本图像的多个可用未掩码区域的特征图得到每个样本图像的目标特征图；训练模块805，用于基于每个样本图像的目标特征图以及多个可用未掩码区域对应的目标标签对待训练模型进行训练，得到目标检测模型。

在一些实施例中，该目标检测模型的训练装置，还包括：第四获取模块806(图8中未示出)，用于获取多个原始图像；随机掩码模块807(图8中未示出)，用于对每个原始图像进行随机掩码，得到每个原始图像的多个未掩码区域；确定模块808(图8中未示出)，用于将多个未掩码区域满足预设条件的原始图像，确定为样本图像。

在一些实施例中，该确定模块808(图8中未示出)，包括：第一确定子模块，用于确定每个原始图像中待检测目标所在区域和多个未掩码区域的交叠面积的量化值；第二确定子模块，用于将量化值不小于预设阈值的原始图像，确定为样本图像。

在一些实施例中，该目标检测模型的训练装置中，量化值等于待检测目标所在区域的第一面积和多个未掩码区域的第二面积的交集，与第一面积的比值。

在一些实施例中，在原始图像包括多个待检测目标的情况下，第二确定子模块，还用于：响应于检测到原始图像中存在量化值小于预设阈值的多个第一未掩码区域，去除原始图像中多个第一未掩码区域以及原始图像的多个第一未掩码区域对应的第一待检测目标的目标标签；保留原始图像中量化值不小于预设阈值的多个第二未掩码区域以及原始图像的多个第二未掩码区域对应的第二待检测目标的目标标签。

在一些实施例中，该第一获取模块801，包括：第三确定子模块，用于将每个样本图像的量化值不小于预设阈值的多个第二未掩码区域，作为每个样本图像的多个可用未掩码区域。该第二获取模块，包括：第四确定子模块，用于将每个样本图像的多个第二未掩码区域对应的第二待检测目标的目标标签，作为每个样本图像的多个可用未掩码区域的目标标签。

在一些实施例中，该第三获取模块804，包括：第一填充子模块，用于基于每个样本图像的多个可用未掩码区域的位置信息，将每个样本图像的多个可用未掩码区域的特征图填充到对应样本图像的第一位置；第二填充子模块，用于将预设特征图填充到对应样本图像的第二位置，第二位置是第一位置之外的位置；获取子模块，用于基于每个样本图像的第一位置的特征图和第二位置的预设特征图，得到每个样本图像的目标特征图。

在一些实施例中，目标检测模型包括骨干网络和头网络；骨干网络用于基于每个样本图像的多个可用未掩码区域得到每个样本图像的多个可用未掩码区域的特征图，待训练模型包括骨干网络；头网络用于基于每个样本图像的目标特征图输出每个样本图像的目标检测结果。

本领域技术人员应当理解，本公开实施例的目标检测模型的训练装置中各处理模块的功能，可参照前述的目标检测模型的训练方法的相关描述而理解，本公开实施例的目标检测模型的训练装置中各处理模块，可通过实现本公开实施例所述的功能的模拟电路而实现，也可以通过执行本公开实施例所述的功能的软件在电子设备上的运行而实现。

本公开实施例的目标检测模型的训练装置，能够通过掩码技术直接从输入源头解决图像的冗余性，从而在降低了大模型的算力成本和时间成本的同时，提升了目标检测模型的准确度。

本公开实施例提供了一种目标检测装置，如图9所示，该目标检测装置，包括：第五获取模块901，用于获取待检测图像；第二输入模块902，用于将待检测图像输入目标检测模型，得到目标检测模型输出的待检测图像的目标检测结果。其中，目标检测模型通过上文所述的目标检测模型的训练方法训练得到。

本领域技术人员应当理解，本公开实施例的目标检测装置中各处理模块的功能，可参照前述的目标检测方法的相关描述而理解，本公开实施例的目标检测装置中各处理模块，可通过实现本公开实施例所述的功能的模拟电路而实现，也可以通过执行本公开实施例所述的功能的软件在电子设备上的运行而实现。

本公开实施例的目标检测装置，能够提升目标检测的准确度。

本公开实施例提供了一种目标检测模型的训练方法的场景示意图，如图10所示。如前所述的，本公开实施例提供的目标检测模型的训练方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

具体地，电子设备可具体执行以下操作：

获取每个样本图像的多个可用未掩码区域对应的目标标签；

其中，每个样本图像的多个可用未掩码区域以及多个可用未掩码区域的位置信息、每个样本图像的多个可用未掩码区域对应的目标标签，均可以从图像数据源获取。图像数据源可以是各种形式的数据存储设备，例如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。图像数据源还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。此外，图像数据源与用户终端可以是同一设备。

应理解，图10所示的场景图仅仅是示意性而非限制性的，本领域技术人员可以基于图10的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开实施例还提供了一种目标检测方法的场景示意图，如图11所示。如前所述的，本公开实施例提供的目标检测方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

具体地，电子设备可具体执行以下操作：

获取待检测图像；

其中，目标检测模型通过上文所述的目标检测模型的训练方法训练得到。

其中，待检测图像可以从图像数据源获取。图像数据源可以是各种形式的数据存储设备，例如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。图像数据源还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。此外，图像数据源与用户终端可以是同一设备。

应理解，图11所示的场景图仅仅是示意性而非限制性的，本领域技术人员可以基于图11的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质、一种计算机程序产品。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系，以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(Read-Only Memory，ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RandomAccess Memory，RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM1203通过总线1204彼此相连。输入/输出(Input/Output，I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processor，DSP)，以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如目标检测模型的训练方法/目标检测方法。例如，在一些实施例中，目标检测模型的训练方法/目标检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的目标检测模型的训练方法/目标检测方法的一个或多个步骤。备选的，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行目标检测模型的训练方法/目标检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(Application-Specific Standard Products，ASSP)、芯片上系统的系统(System on Chip，SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的，或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disk Read Only Memory，CD-ROM)、光学储存设备、磁储存设备，或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)或者液晶显示器(Liquid Crystal Display，LCD)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈，或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入，或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)，或者包括中间件部件的计算系统(例如，应用服务器)，或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)，或者包括这种后台部件、中间件部件，或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端和服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种目标检测模型的训练方法，包括：

获取每个样本图像的多个可用未掩码区域以及所述多个可用未掩码区域的位置信息；

获取每个样本图像的所述多个可用未掩码区域对应的目标标签；

将每个样本图像的所述多个可用未掩码区域以及所述位置信息输入待训练模型，得到每个样本图像的所述多个可用未掩码区域的特征图；

基于每个样本图像的所述多个可用未掩码区域的特征图得到每个样本图像的目标特征图；

基于每个样本图像的所述目标特征图以及所述多个可用未掩码区域对应的目标标签对所述待训练模型进行训练，得到目标检测模型；

其中，所述基于每个样本图像的所述多个可用未掩码区域的特征图得到每个样本图像的目标特征图，包括：

基于每个样本图像的所述多个可用未掩码区域的位置信息，将每个样本图像的所述多个可用未掩码区域的特征图填充到对应样本图像的第一位置，所述第一位置是基于多个未掩码区域在原始图像的位置确定的；

将预设特征图填充到对应样本图像的第二位置，所述第二位置是所述第一位置之外的位置，所述预设特征图为共享的随机特征编码；

基于每个样本图像的所述第一位置的特征图和所述第二位置的所述预设特征图，得到每个样本图像的所述目标特征图。

2.根据权利要求1所述的方法，还包括：

获取多个原始图像；

对每个原始图像进行随机掩码，得到每个原始图像的多个未掩码区域；

将所述多个未掩码区域满足预设条件的原始图像，确定为所述样本图像。

3.根据权利要求2所述的方法，其中，所述将所述多个未掩码区域满足预设条件的原始图像，确定为所述样本图像，包括：

确定每个原始图像中待检测目标所在区域和所述多个未掩码区域的交叠面积的量化值；

将所述量化值不小于预设阈值的原始图像，确定为所述样本图像。

4.根据权利要求3所述的方法，其中，所述量化值等于所述待检测目标所在区域的第一面积和所述多个未掩码区域的第二面积的交集，与所述第一面积的比值。

5.根据权利要求3所述的方法，其中，在所述原始图像包括多个待检测目标的情况下，所述将所述量化值不小于预设阈值的原始图像，确定为所述样本图像，还包括：

响应于检测到所述原始图像中存在所述量化值小于所述预设阈值的多个第一未掩码区域，去除所述原始图像中所述多个第一未掩码区域以及所述原始图像的所述多个第一未掩码区域对应的第一待检测目标的目标标签；

保留所述原始图像中所述量化值不小于所述预设阈值的多个第二未掩码区域以及所述原始图像的所述多个第二未掩码区域对应的第二待检测目标的目标标签。

6.根据权利要求5所述的方法，其中，所述获取每个样本图像的多个可用未掩码区域，包括：

将每个样本图像的所述量化值不小于所述预设阈值的所述多个第二未掩码区域，作为每个样本图像的所述多个可用未掩码区域；

其中，所述获取每个样本图像的所述多个可用未掩码区域对应的目标标签，包括：

将每个样本图像的所述多个第二未掩码区域对应的第二待检测目标的目标标签，作为每个样本图像的所述多个可用未掩码区域的目标标签。

7.根据权利要求1至6任一项所述的方法，其中，所述目标检测模型包括骨干网络和头网络；所述骨干网络用于基于每个样本图像的所述多个可用未掩码区域得到每个样本图像的所述多个可用未掩码区域的特征图，所述待训练模型包括所述骨干网络；所述头网络用于基于每个样本图像的所述目标特征图输出每个样本图像的目标检测结果。

8.一种目标检测方法，包括：

获取待检测图像；

将所述待检测图像输入目标检测模型，得到所述目标检测模型输出的所述待检测图像的目标检测结果；

其中，所述目标检测模型基于权利要求1至7任一项所述的目标检测模型的训练方法训练得到。

9.一种目标检测模型的训练装置，包括：

第一获取模块，用于获取每个样本图像的多个可用未掩码区域以及所述多个可用未掩码区域的位置信息；

第二获取模块，用于获取每个样本图像的所述多个可用未掩码区域对应的目标标签；

第一输入模块，用于将每个样本图像的所述多个可用未掩码区域以及所述位置信息输入待训练模型，得到每个样本图像的所述多个可用未掩码区域的特征图；

第三获取模块，用于基于每个样本图像的所述多个可用未掩码区域的特征图得到每个样本图像的目标特征图；

训练模块，用于基于每个样本图像的所述目标特征图以及所述多个可用未掩码区域对应的目标标签对所述待训练模型进行训练，得到目标检测模型；

其中，所述第三获取模块，包括：

第一填充子模块，用于基于每个样本图像的所述多个可用未掩码区域的位置信息，将每个样本图像的所述多个可用未掩码区域的特征图填充到对应样本图像的第一位置，所述第一位置是基于多个未掩码区域在原始图像的位置确定的；

第二填充子模块，用于将预设特征图填充到对应样本图像的第二位置，所述第二位置是所述第一位置之外的位置，所述预设特征图为共享的随机特征编码；

获取子模块，用于基于每个样本图像的所述第一位置的特征图和所述第二位置的所述预设特征图，得到每个样本图像的所述目标特征图。

10.根据权利要求9所述的装置，还包括：

第四获取模块，用于获取多个原始图像；

随机掩码模块，用于对每个原始图像进行随机掩码，得到每个原始图像的多个未掩码区域；

确定模块，用于将所述多个未掩码区域满足预设条件的原始图像，确定为所述样本图像。

11.根据权利要求10所述的装置，其中，所述确定模块，包括：

第一确定子模块，用于确定每个原始图像中待检测目标所在区域和所述多个未掩码区域的交叠面积的量化值；

第二确定子模块，用于将所述量化值不小于预设阈值的原始图像，确定为所述样本图像。

12.根据权利要求11所述的装置，其中，所述量化值等于所述待检测目标所在区域的第一面积和所述多个未掩码区域的第二面积的交集，与所述第一面积的比值。

13.根据权利要求11所述的装置，其中，在所述原始图像包括多个待检测目标的情况下，所述第二确定子模块，还用于：

14.根据权利要求13所述的装置，其中，所述第一获取模块，包括：

第三确定子模块，用于将每个样本图像的所述量化值不小于所述预设阈值的所述多个第二未掩码区域，作为每个样本图像的所述多个可用未掩码区域；

其中，所述第二获取模块，包括：

第四确定子模块，用于将每个样本图像的所述多个第二未掩码区域对应的第二待检测目标的目标标签，作为每个样本图像的所述多个可用未掩码区域的目标标签。

15.根据权利要求9至14任一项所述的装置，其中，所述目标检测模型包括骨干网络和头网络；所述骨干网络用于基于每个样本图像的所述多个可用未掩码区域得到每个样本图像的所述多个可用未掩码区域的特征图，所述待训练模型包括所述骨干网络；所述头网络用于基于每个样本图像的所述目标特征图输出每个样本图像的目标检测结果。

16.一种目标检测装置，包括：

第五获取模块，用于获取待检测图像；

第二输入模块，用于将所述待检测图像输入目标检测模型，得到所述目标检测模型输出的所述待检测图像的目标检测结果；

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括存储在存储介质上的计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。