CN115330998A

CN115330998A - 一种目标检测模型训练方法、装置、目标检测方法及装置

Info

Publication number: CN115330998A
Application number: CN202210785322.6A
Authority: CN
Inventors: 李纪为; 董博; 曲徽; 黄旭辉
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-11-11

Abstract

本申请公开了一种目标检测模型训练方法、装置、目标检测方法及装置，属于图像目标检测领域。该方法包括利用超过第一预设数量的无标注图像数据自监督训练目标检测模型，得到自监督目标检测模型；利用不超过第二预设数量的目标检测标注数据训练自监督目标检测模型，得到自训练目标检测模型；将无标注图像数据输入到自训练目标检测模型中，得到对应的伪标注数据；利用伪标注数据有监督地训练自训练目标检测模型，得到最终目标检测模型。本申请在通过结合自监督与自训练实现大规模高质量目标检测领域的数据扩增，从而提升目标检测模型的效果。

Description

一种目标检测模型训练方法、装置、目标检测方法及装置

技术领域

本申请涉及图像目标检测领域，特别涉及一种目标检测模型训练方法、装置、目标检测方法及装置。

背景技术

近几年，大规模自监督学习已经在自然语言处理领域取得了突破性的成果，但是在图像的目标检测领域却缺少相关研究。所谓自监督学习，就是让模型在海量的无标注数据上训练，让模型习得无标注数据中通用的领域知识的过程。而与之相对的是有监督学习，就是直接在标注好的数据上训练模型，让模型直接能够用于某个具体的任务。自监督学习的优势是，能够利用海量的无标注数据，从数据中获取知识，而有标注的数据往往需要人工参与，无论是数据量还是数据类型，都是远远不如无标注数据广泛。目标检测领域则存在标注数据稀缺的问题。

自训练是一种比较常用的实现标注数据扩增的技术，它的过程是：首先用标注数据训练一个目标检测模型，然后再把未标注的数据送入目标检测模型中得到目标检测模型中的预测结果，最后把目标检测模型的预测结果当作这个数据真实的标注值，从而形成了“伪”标注数据。但是传统的自训练往往不能得到高质量的伪标注数据，因为在初始标注数据量很小的情况下，目标检测模型没有足够好的泛化性，因此不能产生正确的预测值。

发明内容

针对现有技术存在目标检测领域存在标注数据稀缺，目标检测效果不好的问题，本申请主要提供一种目标检测模型训练方法、装置、目标检测方法及装置。

为了实现上述目的，本申请采用的一个技术方案是：提供一种目标检测模型训练方法，其包括：

利用超过第一预设数量的无标注图像数据自监督训练目标检测模型，得到自监督目标检测模型；

利用不超过第二预设数量的目标检测标注数据训练自监督目标检测模型，得到自训练目标检测模型；

将无标注图像数据输入到自训练目标检测模型中，得到对应的伪标注数据；

利用伪标注数据有监督地训练自训练目标检测模型，得到最终目标检测模型。

本申请采用的另一个技术方案是：提供一种目标检测模型训练装置，其包括：

用于利用超过第一预设数量的无标注图像数据自监督训练目标检测模型，得到自监督目标检测模型的模块；

用于利用不超过第二预设数量的目标检测标注数据训练自监督目标检测模型，得到自训练目标检测模型的模块；

用于将无标注图像数据输入到自训练目标检测模型中，得到对应的伪标注数据的模块；

用于利用伪标注数据有监督地训练自训练目标检测模型，得到最终目标检测模型的模块。

本申请采用的另一个技术方案是：提供一种目标检测方法，其包括，利用方案一中的目标检测模型训练方法训练得到的最终目标检测模型，对给定图像进行目标检测，找到给定图像中的目标，并定位目标在给定图像中的位置坐标。

本申请采用的另一个技术方案是：提供一种目标检测装置，其包括，用于利用方案一中的目标检测模型训练方法训练得到的最终目标检测模型，对给定图像进行目标检测，找到给定图像中的目标，并定位目标在给定图像中的位置坐标的模块。

本申请采用的另一个技术方案是：提供一种计算机可读存储介质，其存储有计算机指令，该计算机指令被操作以执行方案一或方案三中的方法。

本申请采用的另一个技术方案是：提供一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，该计算机指令被操作以执行方案一或方案三中的方法。

本申请的技术方案可以达到的有益效果是：本申请设计了一种目标检测模型训练方法、装置、目标检测方法及装置。该方法通过结合自监督与自训练实现大规模高质量目标检测领域的数据扩增，从而提升目标检测模型的效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的关于目标检测定位图；

图2是本申请一种目标检测模型训练方法的一个具体实施方式的示意图；

图3是本申请一种目标检测模型训练方法的具体实施流程图；

图4是本申请一种目标检测模型训练方法的图像式自监督学习的示意图；

图5是本申请一种目标检测模型训练方法的块式自监督学习的示意图；

图6是本申请一种目标检测模型训练方法的剪切式自监督学习的示意图；

图7是本申请一种目标检测模型训练装置的一个具体实施方式的示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

下面结合附图对本申请的较佳实施例进行详细阐述，以使本申请的优点和特征能更易于被本领域技术人员理解，从而对本申请的保护范围做出更为清楚明确的界定。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

目标检测是指对给定的一张图像，从中找到感兴趣的物体，并定位物体在图像中的位置，如图1所示，目标检测模型定位到图像中有三种感兴趣的物体，分别是上方的三个大象和下方的人、石头，它们的位置都在图1中用方框表示了出来。

本方案旨在通过结合自监督与自训练实现大规模高质量目标检测领域的数据扩增，从而提升目标检测模型的效果。

本方案首先使用自监督学习，在海量的无标注图像数据上训练一个目标检测模型，得到自监督目标检测模型，这一步能够使模型从海量数据中习得通用的图像与目标检测知识。本方案采用三种不同形式的自监督学习方法，让目标检测模型从不同层级、不同角度学习知识。

然后，使用自训练，用少量的有标注目标检测数据训练自监督目标检测模型，得到自训练目标检测模型，这一步能够使目标检测模型结合通用知识与目标检测的专用领域知识，提升目标检测模型对目标检测这个任务的感知泛化能力。

其次，将无标注图像输入到自训练目标检测模型中，得到自训练目标检测模型关于输入的无标注图像的标注图像，将输入的无标注图像与输出的标注图像进行配对，形成了一对伪标注目标检测数据，实现数据增广。

最后，在得到了大量的上述伪标注目标检测数据之后，用这些数据训练一个新的目标检测模型，应用增广的数据。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2示出了本申请一种目标检测模型训练方法的一个具体实施方式。在图1所示的具体实施方式中，目标检测模型训练方法主要包括：

步骤S201，利用超过第一预设数量的无标注图像数据自监督训练目标检测模型，得到自监督目标检测模型。

本实施方式中，第一预设数量优先取值为1GB。超过第一预设数量的无标注图像数据指的是1GB以上的无标注图像数据，具体包含1GB以上的原始图像。本方案中的无标注图像数据易于获取，并且使用自监督训练方法能够让目标检测模型习得无标注图像数据中通用的领域知识。

在本申请的一个具体实施例中，利用超过第一预设数量的无标注图像数据自监督训练目标检测模型，包括：将无标注图像数据中的每一原始图像经过多种变换，得到第三预设数量张图像，其中第三预设数量为变换次数；将第三预设数量张图像分别经过目标检测模型，分别得到目标检测模型对应的第三预设数量个第一预测值；将第三预设数量个第一预测值进行对比学习，进而自监督训练目标检测模型。

本实施例中，原始图像每经过一次变换，就会得到一张新的图像，变换次数为多少，第三预设数量的数值就取值多少。每一张图像经过目标检测模型会得到一个关于该图像的高维特征向量，即上述第一预测值，对第三预设数量个第一预测值进行对比学习，使得目标检测模型不依赖标注数据，可以直接从无标注图像中自己学习知识。该方法为图像式自监督学习，这是在整个图像这一层级进行操作的，并不关心图像的具体各个部分是什么，这有助于目标检测模型学习图像更加高层次的特征。

另外，本申请不对第三预设数量的取值以及变换次数作限制。

在本申请的一个具体实施例中，利用超过第一预设数量的无标注图像数据自监督训练目标检测模型，还包括：将无标注图像数据中的每一原始图像切分为第四预设数量张图像分块；将第四预设数量张图像分块按照图像分块的原始位置和顺序进行排列，得到第一变换图像；将第四预设数量张图像分块的位置和顺序进行随机调换，得到第二变换图像；将第一变换图像和第二变换图像分别经过目标检测模型，分别得到目标检测模型对应的第一变换图像的第二预测值和第二变换图像的第三预测值；将第二预测值和第三预测值进行对比学习，进而自监督训练目标检测模型。

本实施例中，将一张原始图像切分为第四预设数量张图像分块，第四预设数量的取值至少大于等于2，其切分可以均等切分，也可以不均等切分，本申请不作具体限制。第四预设数量张图像分块按照原始排列和随机排列分为两组，分别组成第一变换图像和第二变换图像，将其输入目标检测模型后，得到变换图像各自的高维特征向量，即第二预测值和第三预测值，对第二预测值和第三预测值进行对比学习，使得目标检测模型不依赖标注数据，可以直接从无标注图像中自己学习知识。该方法为块式自监督学习，将一个图像分为若干块，从而帮助目标检测模型学习图像更加低层次的特征。

在本申请的一个具体实施例中，利用超过第一预设数量的无标注图像数据自监督训练目标检测模型，还包括：将无标注图像数据中的每一原始图像作为前景图像，并将剪切的目标任一区域随机地置于背景图像上，得到组合图像；目标检测模型从组合图像中检测属于前景图像中的目标，进而自监督训练目标检测模型。

本实施例中，剪切的尺寸是可以获知的，背景图像中的随机指定的位置坐标也是可以获知的，目标检测模型需要识别的目标区域可以通过计算学习获得。该方法为剪切式自监督学习，剪切式自监督学习与目标检测的过程和目的完全符合，且不需要标注数据，是一种高效的自监督目标检测模型学习方法。

在本申请一个具体实例中，已知前景图像和背景图像的尺寸，首先在前景图像中剪切一目标区域，且剪切的目标区域的长为x1，目标区域的宽为y1，即x1和y1为目标区域的大小；其次在背景图像上随机选定一个位置，假设位置坐标为(x,y)，这个位置是已知的；然后把目标区域的中心位置放在坐标(x,y)处，通过简单计算就可以得到前景图像在背景图像中的目标区域为[x-x1/2,x+x1/2]*[y-y1/2,y+y1/2]，即目标区域在x轴的范围为x-x1/2到x+x1/2处，在y轴的范围为y-y1/2到y+y1/2处；当组合图像输入到目标检测模型时，目标检测模型需要识别的目标的区域很容易获得。

在图2所示的具体实施方式中，目标检测模型训练方法还包括：

步骤S202，利用不超过第二预设数量的目标检测标注数据训练自监督目标检测模型，得到自训练目标检测模型。

本实施方式中，第二预设数量优先取值为1MB。不超过第二预设数量的目标检测标注数据指的是1MB以下的目标检测标注数据。使用目标检测标注数据是为了让目标检测模型能够学习与目标检测这个具体任务相关的知识，而非自监督过程习得的较为通用的知识。利用目标检测标注数据训练能够使目标检测模型结合通用知识与目标检测的专用领域知识，提升目标检测模型对目标检测这个任务的感知泛化能力。

步骤S203，将无标注图像数据输入到自训练目标检测模型中，得到对应的伪标注数据。

本实施方式中，将无标注原始图像输入到自训练目标检测模型中，得到已标注图像，将无标注原始图像与已标注图像配对，形成了一对伪标注数据，实现了数据的增广。

在本申请的一个具体实施例中，将无标注图像数据输入到自训练目标检测模型中，得到对应的伪标注数据，包括：将无标注图像数据中的每一原始图像都输入到自训练目标检测模型中，得到关于每一原始图像的预测结果，预测结果包括识别出每一原始图像中的目标及其位置坐标；将预测结果与每一原始图像进行配对，得到对应的伪标注数据。

本实施例中，每一原始图像经过自训练目标检测模型后，自训练目标检测模型都能识别出每一原始图像中的目标及目标的位置坐标，具体体现在输出的图像中利用方框将目标标识出来。原始图像和自训练目标检测模型标识的结果完成了配对，构成了标注数据，得到大量的伪标注数据，实现目标检测领域的数据扩增，提升最终目标检测模型的泛化性。

步骤S204，利用伪标注数据有监督地训练自训练目标检测模型，得到最终目标检测模型。

本实施方式中，用大量的伪标注数据训练一个新的目标检测模型，应用增广的数据，提升目标检测模型的效果。

目标检测模型训练方法的具体实施流程详见图3，具体来说，分为以下几个步骤：

使用海量的无标注数据D_U自监督训练目标检测模型，得到自监督目标检测模型。本方案采用三种不同的自监督学习方法，能够从不同维度、方面习得不同的知识。具体方法有：

如图4所示的图像式自监督学习。在图4所示的具体实例中，将原始图片经过旋转、去色这两种变换之后形成的两张图像分别经过目标检测模型，得到两个预测值，即高维特征向量H1和高维特征向量H2，(然后使用对比学习对两个预测值进行对比，进而自监督训练目标检测模型。本方案在整个图像这一层级进行操作，有助于目标检测模型学习图像更加高层次的特征。

如图5所示的块式自监督学习。在图5所示的具体实例中，将原始图片分为若干小块，变换1表示按照原来的位置和顺序排列这些小块，变换2表示随机调换其中的若干小块。将两个变换后的组合图像分别经过目标检测模型，得到两个预测值，即高维特征向量H3和高维特征向量H4，然后使用对比学习对两个预测值进行对比，进而自监督训练目标检测模型。本方案将一个图像分为若干块，从而帮助目标检测模型学习图像更加低层次的特征。

如图6所示的剪切式自监督学习。如图6所示的具体实例中，该方法将前景图像随机地置于背景图像上，然后令目标检测模型从中检测前景目标，训练目标检测模型。这种方法与目标检测的过程与目的完全符合，且不需要标注数据，是一种高效的自监督目标检测模型学习方法。

使用少量的目标检测标注数据D_L训练自监督目标检测模型，得到自训练目标检测模型，这是为了让目标检测模型能够学习与目标检测这个具体任务相关的知识，而非自监督过程习得的较为通用的知识。

基于自训练目标检测模型与无标注数据D_U生成伪标注数据D_L’，具体方法使将D_U中的每一张图像都输入到自训练目标检测模型中，目标检测模型得到关于该图像的目标及其位置坐标的预测结果，将该预测结果与输入的原始图像进行配对，就形成了一条经过目标检测模型标注的数据。在整个无标注数据D_U上执行上述操作，可以得到大量高质量的伪标注数据，实现数据扩增。

使用伪标注数据D_L’有监督地训练自训练目标检测模型，得到最终的目标检测模型。

本方案首次将自监督与自训练相结合用于目标检测领域，充分利用了自监督学习能够在大量无标注数据上学习的优势，与通过自训练实现大量标注数据扩增的方法，使得仅需要使用少量的有标注数据，就能得到大量的伪标注数据，实现目标检测领域的数据扩增，提升最终模型的泛化性。

本方案提出三种不同的自监督学习方案：图像式自监督学习、块式自监督学习和剪切式自监督学习，能够从不同的层级、角度、方面让目标检测模型习得不同的知识，提升后续目标检测模型在目标检测这一特定任务上的学习能力。

结合自监督与自训练的数据扩增与学习方法可以推广到其他图像任务上，比如图像分类、语义分割等等，具有很强的可扩展性与延伸性。

图7示出了本申请一种目标检测模型训练装置的具体实施方式。

在该具体实施方式中，目标检测模型训练装置主要包括：

本申请提供的目标检测模型训练装置，可用于执行上述任一实施例描述的目标检测模型训练方法，其实现原理和技术效果类似，在此不再赘述。

在本申请的一个具体实施例中，本申请一种目标检测模型训练装置中各功能模块可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。

软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器，使得处理器可从存储介质读取信息和向存储介质写入信息。

处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)、现场可编程门阵列(英文：Field Programmable Gate Array，简称：FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中，存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中，处理器和存储介质可作为离散组件驻留在用户终端中。

在本申请的另一个具体实施方式中，一种目标检测方法，其包括，利用任一实施例中的目标检测模型训练方法训练得到的最终目标检测模型，对给定图像进行目标检测，找到给定图像中的目标，并定位目标在给定图像中的位置坐标。

在本申请的另一个具体实施方式中，一种目标检测装置，其包括，用于利用任一实施例中的目标检测模型训练方法训练得到的最终目标检测模型，对给定图像进行目标检测，找到给定图像中的目标，并定位目标在给定图像中的位置坐标的模块。

在本申请的另一个具体实施方式中，一种计算机可读存储介质，其存储有计算机指令，计算机指令被操作以执行任一实施例中的方法。

在本申请的另一个具体实施方式中，一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，该计算机指令被操作以执行任一实施例中的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种目标检测模型训练方法，其特征在于，包括：

利用不超过第二预设数量的目标检测标注数据训练所述自监督目标检测模型，得到自训练目标检测模型，其中所述第一预设数量远大于所述第二预设数量；

将所述无标注图像数据输入到所述自训练目标检测模型中，得到对应的伪标注数据；

利用所述伪标注数据有监督地训练所述自训练目标检测模型，得到最终目标检测模型。

2.如权利要求1所述的目标检测模型训练方法，其特征在于，所述利用超过第一预设数量的无标注图像数据自监督训练目标检测模型，包括：

将所述无标注图像数据中的每一原始图像经过多种变换，得到第三预设数量张图像，其中所述第三预设数量为变换次数；

将所述第三预设数量张图像分别经过所述目标检测模型，分别得到所述目标检测模型对应的第三预设数量个第一预测值；

将所述第三预设数量个第一预测值进行对比学习，进而自监督训练所述目标检测模型。

3.如权利要求1所述的目标检测模型训练方法，其特征在于，所述利用超过第一预设数量的无标注图像数据自监督训练目标检测模型，还包括：

将所述无标注图像数据中的每一原始图像切分为第四预设数量张图像分块；

将所述第四预设数量张图像分块按照所述图像分块的原始位置和顺序进行排列，得到第一变换图像；

将所述第四预设数量张图像分块的位置和顺序进行随机调换，得到第二变换图像；

将所述第一变换图像和所述第二变换图像分别经过所述目标检测模型，分别得到所述目标检测模型对应的所述第一变换图像的第二预测值和所述第二变换图像的第三预测值；

将所述第二预测值和所述第三预测值进行对比学习，进而自监督训练所述目标检测模型。

4.如权利要求3所述的目标检测模型训练方法，其特征在于，所述利用超过第一预设数量的无标注图像数据自监督训练目标检测模型，还包括：

将所述无标注图像数据中的每一原始图像作为前景图像，并将剪切的目标任一区域随机地置于背景图像上，得到组合图像；

所述目标检测模型从所述组合图像中检测属于所述前景图像中的所述目标，进而自监督训练所述目标检测模型。

5.如权利要求1所述的目标检测模型训练方法，其特征在于，所述将所述无标注图像数据输入到所述自训练目标检测模型中，得到对应的伪标注数据，包括：

将所述无标注图像数据中的每一原始图像都输入到所述自训练目标检测模型中，得到关于所述每一原始图像的预测结果，所述预测结果包括识别出所述每一原始图像中的目标及其位置坐标；

将所述预测结果与所述每一原始图像进行配对，得到对应的伪标注数据。

6.一种目标检测模型训练装置，其特征在于，

用于利用不超过第二预设数量的目标检测标注数据训练所述自监督目标检测模型，得到自训练目标检测模型的模块；

用于将所述无标注图像数据输入到所述自训练目标检测模型中，得到对应的伪标注数据的模块；

用于利用所述伪标注数据有监督地训练所述自训练目标检测模型，得到最终目标检测模型的模块。

7.一种目标检测方法，其特征在于，包括，利用权利要求1-5任一所述的目标检测模型训练方法训练得到的最终目标检测模型，对给定图像进行目标检测，找到所述给定图像中的目标，并定位所述目标在所述给定图像中的位置坐标。

8.一种目标检测装置，其特征在于，包括，用于利用权利要求1-5任一所述的目标检测模型训练方法训练得到的最终目标检测模型，对给定图像进行目标检测，找到所述给定图像中的目标，并定位所述目标在所述给定图像中的位置坐标的模块。

9.一种计算机可读存储介质，其存储有计算机指令，其特征在于，所述计算机指令被操作以执行权利要求1-5或7中任一项所述的方法。

10.一种计算机设备，其包括处理器和存储器，所述存储器存储有计算机指令，其中所述处理器操作所述计算机指令以执行权利要求1-5或7中任一项所述的方法。