CN111860494A

CN111860494A - 图像目标检测的优化方法、装置、电子设备和存储介质

Info

Publication number: CN111860494A
Application number: CN202010548365.3A
Authority: CN
Inventors: 李甲; 侯芦苇; 付奎; 谷大鑫; 赵沁平
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-10-30
Anticipated expiration: 2040-06-16
Also published as: CN111860494B

Abstract

本申请提供了一种图像目标检测的优化方法、装置、电子设备和存储介质，通过获取待检测图像，然后利用域间损失函数与域内损失函数对目标检测模型进行训练，最后再用目标检测模型对待检测图像进行检测，得到检测结果。实现了利用特征分组的方式通过域间损失函数防止目标检测模型训练当中的过矫正，并同时利用域内损失函数确保两个分类器从不同角度对特征进行分类检测，提高目标检测模型的训练效果。达到了对目标检测模型的跨域知识迁移，降低了目标检测模型的重训练成本，提高了目标检测模型的泛化能力的技术效果。

Description

图像目标检测的优化方法、装置、电子设备和存储介质

技术领域

本申请涉及图像目标检测领域，尤其涉及一种图像目标检测的优化方法、装置、电子设备和存储介质。

背景技术

图像目标检测是指，给定一张图像，将图像中所包含的目标进行正确的分类并用矩形框形式将其标注出来。

现有的图像目标检测算法一般是通过已经过人工标注的训练图像来对用于检测的神经网络进行迭代训练，风格相近的训练图像及其标注构成了一个完整的数据集。

然而在实际的应用场景中，用于训练的图像的标注不全，或者是标注数据不够详细，并且待检测图像的风格也很难与已参与过训练的图像保持足够的相似度，这就导致了如下问题：一方面标注数据需要耗费大量的人力物力，而且重新训练一个神经网络需要消耗大量资源和时间，重训练成本较高；另一方面，已经训练好的神经网络对于不同风格的数据，其泛化性能不佳，即不能高准确度检测多种不同风格的图像。因为不同风格的图像，其深层语义特征分布不一致，这种问题被称为语义鸿沟。综合来说，以上两个方面通常被称为域迁移问题。

发明内容

本申请提供一种图像目标检测的优化方法、装置、电子设备和存储介质，以解决现有技术中图像目标检测模型重训练成本高，且重训练模型泛化性能不佳的问题。

第一方面，本申请提供一种图像目标检测的优化方法，包括：

获取待检测图像；

利用目标检测模型对所述待检测图像进行检测，以确定检测结果，其中，所述目标检测模型在训练时所依据的损失函数是根据训练图像与预检测框进行确定，所述训练图像包括源域图像以及目标域图像，所述预检测框用于标识所述训练图像中的待检测目标。

可选的，在所述利用目标检测模型对所述待检测图像进行检测，以确定检测结果之前，还包括：

根据所述预检测框以及所述训练图像，确定所述损失函数，所述训练图像包括图像、标注以及域标识，所述域标识用区分所述源域图像以及所述目标域图像；

利用所述损失函数以及所述训练图像训练待训练检测模型，以得到所述目标检测模型，所述待训练检测模型包括：特征提取子模型、判别子模型、分类子模型以及回归子模型。

在一种可能的设计中，所述根据所述预检测框以及所述训练图像，确定所述损失函数，包括：

利用所述特征提取子模型从所述训练图像中提取特征，所述特征为至少一个尺度的特征的集合；

根据所述判别子模型以及所述特征，确定域置信度；

根据所述域置信度以及所述域标识，确定域间损失函数；

根据所述特征以及所述域标识，确定域内损失函数；

根据所述预检测框、所述特征、所述域标识以及所述标注，确定检测损失函数；

根据所述域间损失函数，所述域内损失函数，所述检测损失函数以及预设权重，确定所述损失函数。

在一种可能的设计中，所述根据所述判别子模型以及所述特征，确定域置信度，包括：

在尺寸维度上，对所述特征进行分组，确定多个特征组；

利用所述判别子模型以及所述特征组，确定每个所述特征组中的特征的域置信度；

所述域间损失函数为每个所述特征组的域间损失函数之和。

可选的，所述根据所述特征以及所述域标识，确定域内损失函数，包括：

利用所述分类子模型，根据所述特征，确定分类置信度；

根据所述分类置信度，确定所述域内损失函数。

可选的，所述分类子模型包括第一分类子模型以及第二分类子模型；

所述分类置信度包括第一分类置信度以及第二分类置信度；

利用转换算法，根据所述第一分类置信度以及第二分类置信度，确定第一分类向量以及第二分类向量；

根据所述第一分类向量以及所述第二分类向量，确定所述域内损失函数。

在一种可能的设计中，所述根据所述预检测框、所述特征、所述域标识以及所述标注，确定检测损失函数，包括：

根据所述特征以及所述分类子模型，确定分类置信度；

根据所述预检测框以及所述回归子模型，确定目标检测框；

根据所述域标识确定训练图像为目标域图像时，将所述目标检测框以及所述分类置信度补充到所述目标域图像对应的所述标注中；

根据所述目标检测框、所述标注以及所述分类置信度，确定所述检测损失函数。

第二方面，本申请提供一种图像目标检测的优化装置，包括：

获取模块，用于获取待检测图像；

处理模块，用于利用目标检测模型对所述待检测图像进行检测，以确定检测结果，其中，所述目标检测模型在训练时所依据的损失函数是根据训练图像与预检测框进行确定，所述训练图像包括源域图像以及目标域图像，所述预检测框用于标识所述源域图像中的待检测目标。

可选的，所述装置，还包括：

训练模块，用于根据所述预检测框以及所述训练图像，确定所述损失函数，所述训练图像包括图像、标注以及域标识，所述域标识用区分所述源域图像以及所述目标域图像；

所述训练模块，还用于利用所述损失函数以及所述训练图像训练待训练检测模型，以得到所述目标检测模型，所述待训练检测模型包括：特征提取子模型、判别子模型、分类子模型以及回归子模型。；

可选的，所述训练模块，用于根据所述预检测框以及所述训练图像，确定所述损失函数，包括：

所述训练模块，用于利用所述特征提取子模型从所述训练图像中提取特征，所述特征为至少一个尺度的特征的集合；

所述训练模块，还用于根据所述判别子模型以及所述特征，确定域置信度；

所述训练模块，还用于根据所述域置信度以及所述域标识，确定域间损失函数；

所述训练模块，还用于根据所述特征以及所述域标识，确定域内损失函数；

所述训练模块，还用于根据所述预检测框、所述特征、所述域标识以及所述标注，确定检测损失函数；

所述训练模块，还用于根据所述域间损失函数，所述域内损失函数，所述检测损失函数以及预设权重，确定所述损失函数。

可选的，所述训练模块，还用于所述根据所述判别子模型以及所述特征，确定域置信度，包括：

所述训练模块，还用于在尺寸维度上，对所述特征进行分组，确定多个特征组；

所述训练模块，还用于利用所述判别子模型以及所述特征组，确定每个所述特征组中的特征的域置信度；

所述训练模块，还用于所述域间损失函数为每个所述特征组的域间损失函数之和。

可选的，所述训练模块，还用于所述根据所述特征以及所述域标识，确定域内损失函数，包括：

所述训练模块，还用于利用所述分类子模型，根据所述特征，确定分类置信度；

所述训练模块，还用于根据所述分类置信度，确定所述域内损失函数。

所述分类置信度包括第一分类置信度以及第二分类置信度；

所述训练模块，还用于利用转换算法，根据所述第一分类置信度以及第二分类置信度，确定第一分类向量以及第二分类向量；

所述训练模块，还用于根据所述第一分类向量以及所述第二分类向量，确定所述域内损失函数。

可选的，所述训练模块，还用于根据所述预检测框、所述特征、所述域标识以及所述标注，确定检测损失函数，包括：

所述训练模块，还用于根据所述特征以及所述分类子模型，确定分类置信度；

所述训练模块，还用于根据所述预检测框以及所述回归子模型，确定目标检测框；

所述训练模块，还用于根据所述域标识确定训练图像为目标域图像时，将所述目标检测框以及所述分类置信度补充到所述目标域图像对应的所述标注中；

所述训练模块，还用于根据所述目标检测框、所述标注以及所述分类置信度，确定所述检测损失函数。

第三方面，本申请提供一种电子设备，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行所述存储器中的程序指令，执行第一方面所提供的任意一种可能的图像目标检测的优化方法。

第四个方面，本申请提供一种存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序用于执行第一方面所提供的任意一种可能的图像目标检测的优化方法。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种图像目标检测的优化方法的流程示意图；

图2为本申请实施例提供的目标检测模型的训练流程示意图；

图3为本申请实施例提供的目标检测模型的训练场景示意图；

图4a-4d为本申请实施例提供的目标检测模型的训练过程示意图；

图5为本申请提供的一种图像目标检测的优化装置的结构示意图；

图6为本申请提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，包括但不限于对多个实施例的组合，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在现有的图像目标检测或者目标检测领域中，由于目标检测模型的可检测范围往往受到预先训练的数据的影响，使得目标检测模型的应用范围较小即模型的泛化性能不佳，这就导致对模型的重训练成为基于神经网络的图像目标检测技术经常要面对的问题。为了对目标感知模型进行训练，就必须利用人工来准备大量的训练素材，越是高的检测要求或者标准越高所需要训练成本也就越高，甚至影响到了训练是否可以实现。

并且现有的图像目标检测技术在实际的应用场景中，用于训练的图像的标注不全，或者是标注数据不够详细，并且训练图像的风格也很难保持足够的相似度，导致需要花费大量人工来完善标注数据，消耗大量时间以及资源，重新训练成本较高；并且对于一个已经训练好的图像目标检测模型，在面对不同于训练图像风格的新图像时，其检测准确度不高即模型的泛化性能不佳，又需要再次重新训练，形成了恶性循环。

为解决上述问题，本申请提供了一种图像目标检测的优化方法，装置，电子设备以及存储介质，具体如下述各实施例的描述。

为了便于理解，首先对本申请涉及到的重要概念进行说明解释。

基于神经网络的图像特征提取：将特定尺寸的图像进行区域网格划分，在某个网格区域内，利用卷积算法将该区域的特征汇聚到一个像素点当中，这个像素点也叫特征点，这个特征点就与该图像区域形成了一个映射关系。一般特征点的坐标位于所映射的区域的中心。所有网格区域提取的特征点，组成了特征图(feature map)，通过根据卷积深度的不同，特征图能够检测的特征含义也不相同。通过不同网格尺寸的划分方式，就能够得到相邻特征点间距离即尺度不同的特征图。

感受野(Receptive Field)：卷积神经网络每一层输出的特征图上的像素点在输入图片上映射的区域大小。

语义：可以理解为数据所对应的现实世界中的事物所代表的概念的含义，以及这些含义之间的关系，是数据在某个领域上的解释和逻辑表示。

特征对齐：特征点所映射的范围即感受野是特征点的有效检测区域，为了能够准确检测输入图像的语义，感受野理论上应该尽可能的覆盖图像中的完整检测对象。例如：需要检测的是一辆汽车，则感受野应当覆盖整辆汽车，而不是只有其中的一部分。然而实际上基于神经网络的图像目标检测是一个先预测感受野位置，然后再进行分类判别的过程，这样就会造成所提取到的特征所对应的感受野与待检测的目标的范围不能完全覆盖或者说是不能完全对齐的问题。即“特征对齐”简单来说就是经过卷积处理后的特征点所映射的感受野能够刚好覆盖完整个待检测目标，感受野既不大也不小。这就需要利用特定的方法来改变神经网络的参数使得感受野的位置以及区域大小调节到合适的范围，这种调节的过程在本领域中简称“特征对齐”。

图1为本申请提供的一种图像目标检测的优化方法的流程示意图，如图1所示，该方法的具体步骤包括：

S101、获取待检测图像。

通过摄像头进行拍照或者截取视频文件中的图像作为待检测图像。还可以直接从网络或者数据库中提取待检测图像。

S102、利用目标检测模型对待检测图像进行检测，以确定检测结果，其中，目标检测模型在训练时所依据的损失函数是根据训练图像与预检测框进行确定。

在本步骤中，训练图像包括源域图像以及目标域图像，预检测框用于标识训练图像中的待检测目标。源域图像是指能够被待训练目标检测模型准确检测的图像。目标域图像是指不能被待训练目标检测模型准确检测的图像，或者是检测准确度不够高。

通过设置预检测框的数目、位置以及尺寸大小等属性，可以加快待训练目标检测模型对训练图像的特征提取以及检测速度。

通过对特征进行分组，并且对每组特征利用域间损失函数对待训练检测模型进行域间矫正，域间损失函数是利用图像标注中的分类信息与待训练检测模型检测出的分类信息的差别评价指标。

同时利用域内损失函数对待训练检测模型进行域内矫正，域内损失函数的具体实现，是通过构建两个分类器，求解两个分类器分类结果的余弦相似度，通过优化问题的求解使得该余弦相似度最小。

通过域间损失函数与域内损失函数的共同作用，对待训练目标检测模型进行训练，得到目标检测模型。然后再用训练好的目标检测模型对待检测图像进行检测，得到检测结果。

本实施例提供的图像目标检测的优化方法，通过获取待检测图像，然后利用域间损失函数与域内损失函数对目标检测模型进行训练，最后再用目标检测模型对待检测图像进行检测，得到检测结果。实现了利用特征分组的方式通过域间损失函数防止目标检测模型训练当中的过矫正，并同时利用域内损失函数确保两个分类器从不同角度对特征进行分类检测，提高目标检测模型的训练效果。达到了对目标检测模型的跨域知识迁移，降低了目标检测模型的重训练成本，提高了目标检测模型的泛化能力的技术效果。

为了更清楚地说明目标检测模型的训练过程，结合图2、图3以及图4a～4d，用以下实施例来进行详细说明。

图2为本申请实施例提供的目标检测模型的训练流程示意图。如图2所示，该训练过程的具体步骤包括：

S201、确定训练图像以及预检测框。

图3为本申请实施例提供的目标检测模型的训练场景示意图。如图3所示，训练图像包括两类：源域图像和目标域图像。两类图像的具体含义参见S102中的介绍，这里不再赘述。

需要说明的是，训练用的源域图像还包括实例级标注，实例级标注包括：源域图像中所包含的有效检测目标及其类别，以及将有效检测目标包围起来的几何图框。几何图框携带着相对于源域图像的定位信息以及几何图框的尺寸大小信息。可以理解的是，几何图框可以是多边形框(矩形、六边形、八边形等)，也可以是曲线框(圆、椭圆、不规则轮廓曲线等)。

目标域图像还包括图像级标注，图像级标注包括：目标域图像中所包含的有效检测目标及其类别。

图像级标注与实例级标注的区别在于是否对有效检测目标在图中的位置及范围进行了标注。

可选的，训练图像可以选取一些成熟的训练图像数据集以减小人工标注的成本，例如：PASCAL_VOC(PASCAL Visual Object Classes帕斯卡可视化对象类集)、COCO(CommonObjects in Context上下文公共对象集)等图像数据集。

预检测框是指在确定尺寸的训练图像范围内，建立至少一个几何图框，作为待训练目标检测模型进行目标检测的优先检测区，由于传统的图像目标检测是将检测区沿着固定预设路线在图像范围内滑动检测，这样就会导致当有效目标在预设路线末尾时，检测的效率较低。为了提高检测效率，可以预先根据待检测图像目标分布的统计学规律，在有效目标出现较多的位置，设置预检测框，使得检测区域滑动的路线尽可能减少，或者是实现不连续地跳跃检测，这样就能够提高检测效率。预检测框的数目及位置可以由用户预先自定义，也可以在多套已经设置好的预检测框方案中选用。

需要说明的是，预检测框的形状包括：圆形，多边形(矩形，三角形，六边形等)，椭圆形等，本申请不对预检测框的形状做出限定，本领域技术人员可以根据具体情况选择合适的形状，并且根据形状来确定定位信息和尺寸信息，例如预检测框为矩形，则预检测框信息中包含：矩形左上角或矩形中心的横纵坐标值，矩形的长和宽。

图4a-4d为本申请实施例提供的目标检测模型的训练过程示意图。如图4a所示，预检测框是多个几何图框形成的集合，可以通过设置预检测框的数目、位置、大小等来提高训练图像的检测效率。

在本步骤中，如图4a所示，在选定训练图像的同时，也确定一套对应的预检测框。

S202、利用特征提取子模型从训练图像中提取特征，在尺寸维度上对特征进行分组，确定多个特征组。

如图3以及图4a所示，待训练目标检测模型的特征提取子模型，即图3中的“基础特征提取器”，对训练图像进行特征提取，得到不同尺度大小的多个特征图及训练图像的特征。

为便于理解，本实施例采用SSD(Single Shot MultiBox Detector)一阶段多目标框检测器作为待训练目标检测模型来进行说明，但是需要说明的是，本申请的待训练目标检测模型并不局限于SSD模型，本领域技术人员可以根据具体情况选用待训练目标检测模型。

具体地，如图3所示的“基础特征提取器”中，首先将每幅图像经过几个浅层卷积，得到的特征再经过深层卷积，在SSD模型中，有六个卷积层的步长为2即对特征进行了下采样，这六个卷积层分别为：卷积4_3,卷积7,卷积8_2,卷积9_2,卷积10_2,卷积11_2。这样就对应得到了六个不同尺寸大小的特征图即待训练图像的特征。如图3所示，六个尺寸分别为：38*38*512,19*19*1024,10*10*512,5*5*256,3*3*256,1*1*256。

由于上述六个尺寸维度的特征其处于卷积层的不同深度，因此感受野和语义的丰富性不同，处在更深层的特征感受野越大，语义更加丰富，但是感受野变大会造成对微小目标检测不利的情况，感受野变小又不利于大目标的检查。

现有技术为了减少运算的复杂性，一般需要选定一个特定的感受野或者是将所有尺寸维度的特征对应的感受野进行一致性对齐，以达到一个综合的目标检测的能力。

但是本申请发明人在实践中发现，如果对六个尺寸维度的特征进行一致性对齐会造成检测精度的降低。即感受野变大了不利于微小目标的检测。为了实现提高目标检测网络的检测精度及适用范围的同时，不大幅增加运算复杂度，本申请创造性地提出了将不同尺寸维度即尺度的特征，根据尺度的大小来进行分组，所分组数越多，检测精度及适用范围越广，但是运算也就越复杂。

如图3所示，本申请实施例，在“域间矫正”部分将特征分成了三组，即：大尺度特征，中尺度特征，小尺度特征。可以理解的是，本领域技术人员可以根据具体情况选择分组数目，本申请不对分组数目进行限定。

具体地，分组的实现可以用公式(1)来表示，公式(1)如下所示：

其中，P_i为语义特征图即特征，δ表示对特征的上采样操作，

表示对特征按通道进行连接操作，f_gr为梯度反转层。

如图4b所示，将三组不同尺度的特征通过训练不断微调最后达到特征图的尺寸维度对齐，使得目标检测模型对大目标以及小目标都具备较好的检测能力。

需要说明的是，本实施例中的特征就是经神经网络卷积层特征提取后由特征点组成的特征图。

S203、根据判别子模型以及分组后的特征，确定域置信度。

如图3“域间矫正”部分所示，对于每个组中的特征，将其输入判别器即判别子模型当中，经过一系列的卷积层得到域置信度，域置信度是用来评价判别结果所检测的语义特征准确度的指标。

S204、根据域置信度以及域标识，确定域间损失函数。

在本步骤中，域置信度根据其对应的特征的来源不同，可以分成两类，分别为源域特征分类置信度以及目标域特征分类置信度。域标识可以用l来表示，域标识是用来区分输入的图像来自于源域还是目标域，我们可以定义，当图像来自源域时l＝0，当图像来自目标域时l＝1。则域间损失函数可以用公式(2)来表示，公式(2)如下所示：

其中，

为域间损失函数，

为源域特征分类置信度，

为目标域特征分类置信度，λ为适应性权重。

当特征来源于目标域图像时，适应性权重λ的具体计算方法如下：

首先利用分类器即分类子模型对预检测框所对应的特征即特征图的范围进行分类检测，得到每个预检测框对所有分类的检测结果，例如，某个预检测框对“人”的分类检测结果是0.1，对“马”的分类检测结果是0.8。可选的，预检测框的分类检测结果可以是多个分类器得到的检测结果的平均值。

其次，对于某个分类，例如“马”，在所有的预检测框对于“马”的检测结果中，选取检测结果最大的。则对于预设的N个分类，可以得到一个N维置信度向量，上述过程可以用公式(3)来表示，公式(3)如下所示：

其中，N为图像类别总数，

为N维置信度向量，

为第m个预检测框的分类结果，N_box为预检测框总数。当m＝0时，代表的是训练图像的背景。

最后，利用置信度向量与图像级标注计算余弦距离即适应性权重，具体可以用公式(4)来表示，公式(4)如下所示：

其中，

为N维置信度向量，

为N维的目标域图像类别标注。

当λ较大时加强源域与目标域的特征对齐，反之则减弱。

当计算完每一组特征的域间损失函数后，将各组的域间损失函数进行叠加，得到综合后的域间损失函数，如公式(5)所示：

其中，L_inter为综合后的域间损失函数，N_group为分组数，

为各组的域间损失函数。在本实施例中，N_group＝3。

通过构建域间损失函数使得目标检测模型提高判别能力，同时使得特征提取子模型对源域和目标域提取的特征分布相似即特征对齐。

对比于现有的目标检测模型的训练方法，由于现有技术对目标检测模型的微调的方式会造成目标检测模型在目标域上的过拟合，即使得检测的准确率在目标域上提升的同时，却在源域上有很大损失。

本申请采用对特征分组，分别进行对齐的方式解决了在对齐多尺度特征时造成的检测精度降低的问题。同时为了降低强制性特征对齐造成在目标域上的过拟合，本申请利用对目标域预检测框的分类结果对特征对齐进行约束。

总的来说本步骤达到了两个方面的技术效果：首先，将语义特征进行多尺度分组对齐，有利于检测不同尺度的目标；其次，利用分类结果对特征对齐进行约束，提高了网络的鲁棒性。

S205、设置第一和第二分类子模型，根据特征，确定分类置信度。

由于上述特征对齐容易造成分类子模型在分类时不易区分相近似的类别，导致这一问题的原因是相似类别的语义特征分布基本一致。为解决该问题造成的影响，本申请提出构造两个分类器即第一分类子模型和第二分类子模型，对特征检测结果进行打分，然后综合两个分类器的检测结果对其取均值。

具体来说，如图3“域内矫正”部分所示，将从训练图像中提取到的多个尺寸维度的特征分别输入到分类器1即第一分类子模型和分类器2即第二分类子模型当中，两个分类子模型分别利用多尺度特征进行分类检测，得到每个预检测框对每个类别的检测结果，即分类置信度，分类置信度可以用一个矩阵表示，矩阵的行数及列数分别为预检测框总数和目标类别总数。可以理解的是，分类置信度也可以用一个表格来表示。

S206、根据分类置信度，确定域内损失函数。

本申请为了避免单个分类器即分类子模型提取到的特征所能表达的语义过于单一，即当相似类别之间的特征分布接近时，造成错分类。所以引入了两个分类子模型，第一分类子模型与第二分类子模型需要从不同的角度对特征进行学习即分类检测，而为了保证两个分类子模型学习的角度差异足够大，如图3“域内矫正”所示，需要用域内损失函数对两个分类子模型进行约束。

两个分类子模型都要根据提取到的特征的分布相似度进行正则化，并受域内损失函数的约束。每个分类子模型输出一个置信矩阵

其中N_A为预检测框数量，C为目标类别数量(包含背景)。将每个分类子模型的输出矩阵压即第一分类置信度和第二分类置信度，缩成向量形式即第一分类向量和第二分类向量，即将矩阵写成一行N_A×C列的行向量模式，分别表示为

和

计算两个分类向量之间的余弦相似度，通过求解优化问题的方式，使得该相似度最小，即可完成对两个分类子模型的约束。具体地，我们用公式(6)表示域内损失函数L_intra的最优化求解问题，公式(6)如下所示：

其中，L_intra为域内损失函数，

为第一分类向量，

为第二分类向量。

最小化公式(6)就能够保证两个分类子模型互斥地学习特征。两个互斥分类子模型得到的分类结果将用于生成目标域图像的伪标记，即把目标域的图像级标注补充完整，达到实例级标注的详细程度，但是由于这是非人工标注的内容，在本领域中称为伪标记。图像级与实例级标注的介绍请参见S201中的内容，在此不再赘述。

如图4c所示，训练图像的特征输入到第一分类子模型4c_1和第二分类子模型4c_2中，这两个分类子模型由于受到域内损失函数的约束，从不同的角度对特征进行分类检测，得到的两个分类结果分别为“马：0.96”和“马0.98”，然后取这两个分类结果的均值作为分类结果的输出值即“马：0.97”。

S207、根据预检测框、特征、域标识以及训练图像的标注，确定检测损失函数。

在本步骤中，首先，如图4c所示，将训练图像的特征分别输入第一分类子模型4c_1和第二分类子模型4c_2，针对每个分类子模型输出的置信矩阵即第一分类置信度和第二分类置信度，取两者的均值得到预检测框的分类置信度，即预检测框的分类置信度也是一个与置信矩阵维度数相同的矩阵。预检测框的分类置信度可以用于域间损失函数的适应性权重λ的计算。这里的分类置信度可以理解为S205中计算的分类置信度，一次计算的结果可以用在不同的步骤当中。

然后，如图4c所示，利用回归子模型对每个预检测框的位置以及尺寸进行调整，生成与预检测框对应的目标检测框。

需要说明的是，理论上目标检测框刚好完全覆盖待检测对象，但是由于目标检测模型的检测能力的影响，实际上会与理论情况有差别，即目标检测模型生成的目标检测框与人工标注的目标对象框选范围会有差别，则可以利用这个差别来计算损失函数，以对目标检测模型进行检测能力的训练。待训练目标检测模型经过多次训练就可以使得检测能力达到要求，得到目标检测模型。这就是基于神经网络的目标检测模型的训练原理。

在本步骤中，根据训练图像的域标识，对源域图像和目标域图像采取不同的处理方式。由于目标域图像只包含图像级标注，即目标域图像没有人工标注出刚好围住待检测目标的检测框。因此对于目标域图像，利用软非极大值抑制算法，对待训练目标检测模型生成的每个目标检测框，进行筛选，最终得到的目标检测框即可当作上述训练原理中的人工标注的目标对象框选范围，即给目标域图像增加伪标记，如图4c所示，将目标框4c_3作为目标域图像的伪标记添加到目标域图像的标注信息当中，以保证目标域图像可以按照神经网络训练原理进行训练。而源域图像则直接采用其实例级标注中含有的人工标注框选范围即真实标记进行训练即可。

如图3“域内矫正”部分所示，采用软非极大值抑制算法生成目标域图像的伪标记参与训练，能够进一步提高目标检测模型的检测性能。

需要说明的是，图3中的回归器即为回归子模型，其作用就是对预检测框的位置和尺寸进行调整得到目标检测框。

最后，根据目标检测框与训练图像中标注的待检测对象的框选范围的差值，还有标注的分类信息与目标检测模型计算的分类置信度的差值，就可以计算出检测损失函数L_det。检测损失函数L_det的具体实现方式可以参考现有的目标检测模型，例如SSD模型的损失函数计算方法，在此不作赘述。本申请不对检测损失函数的计算进行具体限定，本领域技术人员可以根据实际情况选择合适的实现方式进行计算。

在本步骤中，测损失函数L_det能够进一步有效降低待训练目标检测模型在目标域图像目标检测训练中的参数微调过拟合，提高目标检测模型的检测精确度。

需要说明的是，S205～S207与S202～S204可以同步进行，本申请并不限制其先后次序，其所达到的效果是一样的。

S208、根据域间损失函数，域内损失函数，检测损失函数以及预设权重，确定损失函数。

将上述步骤中得到的域间损失函数，域内损失函数，检测损失函数通过配置不同的权重，最终得到综合后的损失函数，损失函数可以用公式(7)来表示，公式(7)如下所示：

L＝aL_inter+bL_intra+cL_det (7)

其中，a为域间损失函数L_inter的权重，b为域内损失函数L_intra的权重，c为检测损失函数L_det的权重。

S209、利用损失函数以及训练图像训练待训练检测模型，以得到目标检测模型。

在本步骤中，将S208中得到的损失函数L进行反向传播，对待训练检测模型的各个卷积层的参数进行调整，经过多次迭代训练，就可以得到目标检测模型。

如图4d所示，源域图像和目标域图像分别经过目标检测模型的两个分类子模型，从不同角度对预检测框对应的区域进行分类检测，然后取两者的均值作为分类子模型的输出，然后将预检测框进行回归处理，最终得到目标检测框的位置，以及分类结果。在图4d中对于源域图像中的“马”以及目标域图像中的“马”，目标检测模型的分类结果都是0.5，这是本申请蕴含的对抗训练所预计的理想结果，为的是使得目标检测模型能够在源域图像和目标域图像上得到近似或者相同的分类结果，这样就能够提高目标检测模型的泛化能力，实现从源域到目标域的知识迁移。

本实施例提供的图像目标检测的优化方法，通过对训练图像的特征进行分组，对不同尺度特征通过域间损失函数进行分组对齐约束，防止过拟合提高检测精确度，同时还设立了两个分类子模型通过域内损失函数约束，使得两个分类子模型从不同角度对特征进行分类检测，提高目标检测模型对于比较相似的类别的检测能力，并通过检测损失函数进一步提高检测精确度。实现了以低人工和低训练成本，完成目标检测模型从源域到目标域的域知识迁移的技术效果。减少了人工标注的工作量以及重训练所需消耗的时间和资源。

为了便于对比本申请提供的图像目标检测的优化方法的技术效果，下面列举采用本申请图像目标检测的优化方法与现有技术的图像目标检测优化方法在PASCAL_VOC(PASCAL Visual Object Classes帕斯卡可视化对象类集)上检测效果对比。

表1为在帕斯卡水彩数据集上的检测精度对比结果。如表1所示，相比于“基线标准”即仅在源域上训练然后在目标域上进行图像目标检测，本申请的检测精度有了9.9％的提升。相比于“跨域弱监督方法”，本申请的检测精度有了2.3％的提升。

表1

表2为在帕斯卡动漫数据集上的检测精度对比结果。如表2所示，相比于“基线标准”本申请的检测精度有了20.5％的提升。相比于“跨域弱监督方法”，本申请的检测精度有了5.1％的提升。

表2

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图5为本申请提供的一种图像目标检测的优化装置的结构示意图。该图像目标检测的优化装置可以通过软件、硬件或者两者的结合实现。

如图5所示，本实施例提供的图像目标检测的优化装置500，包括：

获取模块501，用于获取待检测图像；

处理模块502，用于利用目标检测模型对所述待检测图像进行检测，以确定检测结果，其中，所述目标检测模型在训练时所依据的损失函数是根据训练图像与预检测框进行确定，所述训练图像包括源域图像以及目标域图像，所述预检测框用于标识所述源域图像中的待检测目标。

可选的，所述装置500，还包括：

训练模块503，用于根据所述预检测框以及所述训练图像，确定所述损失函数，所述训练图像包括图像、标注以及域标识，所述域标识用区分所述源域图像以及所述目标域图像；

所述训练模块503，还用于利用所述损失函数以及所述训练图像训练待训练检测模型，以得到所述目标检测模型，所述待训练检测模型包括：特征提取子模型、判别子模型、分类子模型以及回归子模型。；

可选的，所述训练模块503，用于根据所述预检测框以及所述训练图像，确定所述损失函数，包括：

所述训练模块503，用于利用所述特征提取子模型从所述训练图像中提取特征，所述特征为至少一个尺度的特征的集合；

所述训练模块503，还用于根据所述判别子模型以及所述特征，确定域置信度；

所述训练模块503，还用于根据所述域置信度以及所述域标识，确定域间损失函数；

所述训练模块503，还用于根据所述特征以及所述域标识，确定域内损失函数；

所述训练模块503，还用于根据所述预检测框、所述特征、所述域标识以及所述标注，确定检测损失函数；

所述训练模块503，还用于根据所述域间损失函数，所述域内损失函数，所述检测损失函数以及预设权重，确定所述损失函数。

可选的，所述训练模块503，还用于所述根据所述判别子模型以及所述特征，确定域置信度，包括：

所述训练模块503，还用于在尺寸维度上，对所述特征进行分组，确定多个特征组；

所述训练模块503，还用于利用所述判别子模型以及所述特征组，确定每个所述特征组中的特征的域置信度；

所述训练模块503，还用于所述域间损失函数为每个所述特征组的域间损失函数之和。

可选的，所述训练模块503，还用于所述根据所述特征以及所述域标识，确定域内损失函数，包括：

所述训练模块503，还用于利用所述分类子模型，根据所述特征，确定分类置信度；

所述训练模块503，还用于根据所述分类置信度，确定所述域内损失函数。

所述分类置信度包括第一分类置信度以及第二分类置信度；

所述训练模块503，还用于利用转换算法，根据所述第一分类置信度以及第二分类置信度，确定第一分类向量以及第二分类向量；

所述训练模块503，还用于根据所述第一分类向量以及所述第二分类向量，确定所述域内损失函数。

可选的，所述训练模块503，还用于根据所述预检测框、所述特征、所述域标识以及所述标注，确定检测损失函数，包括：

所述训练模块503，还用于根据所述特征以及所述分类子模型，确定分类置信度；

所述训练模块503，还用于根据所述预检测框以及所述回归子模型，确定目标检测框；

所述训练模块503，还用于根据所述域标识确定训练图像为目标域图像时，将所述目标检测框以及所述分类置信度补充到所述目标域图像对应的所述标注中；

所述训练模块503，还用于根据所述目标检测框、所述标注以及所述分类置信度，确定所述检测损失函数。

值得说明的是，图5所示实施例提供的图像目标检测的优化装置，可以执行上述任一方法实施例所提供的一种图像目标检测的优化方法，其具体实现原理、技术特征、专业名词解释以及技术效果类似，在此不再赘述。

图6为本申请提供的一种电子设备的结构示意图。如图6所示，该电子设备600可以包括：至少一个处理器601和存储器602。图6示出的是以一个处理器为例的电子设备。

存储器602，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。

存储器602可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器601用于执行存储器602存储的计算机执行指令，以实现以上各方法实施例所述的图像目标检测的优化方法。

其中，处理器601可能是一个中央处理器(central processing unit，简称为CPU)，或者是特定集成电路(application specific integrated circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

可选地，存储器602既可以是独立的，也可以跟处理器501集成在一起。当所述存储器602是独立于处理器601之外的器件时，所述电子设备600，还可以包括：

总线603，用于连接所述处理器601以及所述存储器602。总线可以是工业标准体系结构(industry standard architecture，简称为ISA)总线、外部设备互连(peripheralcomponent，PCI)总线或扩展工业标准体系结构(extended industry standardarchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器602和处理器601集成在一块芯片上实现，则存储器602和处理器601可以通过内部接口完成通信。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random accessmemory，RAM)、磁盘或者光盘等各种可以存储程序代码的介质，具体的，该计算机可读存储介质中存储有程序指令，程序指令用于上述各实施例中的图像目标检测的优化方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种图像目标检测的优化方法，其特征在于，包括：

获取待检测图像；

2.根据权利要求1所述的图像目标检测的优化方法，其特征在于，在所述利用目标检测模型对所述待检测图像进行检测，以确定检测结果之前，还包括：

3.根据权利要求2所述的图像目标检测的优化方法，其特征在于，所述根据所述预检测框以及所述训练图像，确定所述损失函数，包括：

根据所述判别子模型以及所述特征，确定域置信度；

根据所述域置信度以及所述域标识，确定域间损失函数；

根据所述特征以及所述域标识，确定域内损失函数；

4.根据权利要求3所述的图像目标检测的优化方法，其特征在于，所述根据所述判别子模型以及所述特征，确定域置信度，包括：

在尺寸维度上，对所述特征进行分组，确定多个特征组；

所述域间损失函数为每个所述特征组的域间损失函数之和。

5.根据权利要求3或4所述的图像目标检测的优化方法，其特征在于，所述根据所述特征以及所述域标识，确定域内损失函数，包括：

利用所述分类子模型，根据所述特征，确定分类置信度；

根据所述分类置信度，确定所述域内损失函数。

6.根据权利要求5所述的图像目标检测的优化方法，其特征在于，所述分类子模型包括第一分类子模型以及第二分类子模型；

所述分类置信度包括第一分类置信度以及第二分类置信度；

7.根据权利要求3或4所述的图像目标检测的优化方法，其特征在于，所述根据所述预检测框、所述特征、所述域标识以及所述标注，确定检测损失函数，包括：

根据所述特征以及所述分类子模型，确定分类置信度；

根据所述预检测框以及所述回归子模型，确定目标检测框；

8.一种图像目标检测的优化装置，其特征在于，包括：

获取模块，用于获取待检测图像；

9.一种电子设备，其特征在于，包括：

处理器；以及，

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的图像目标检测的优化方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的图像目标检测的优化方法。