CN111401376A

CN111401376A - 目标检测方法、装置、电子设备以及存储介质

Info

Publication number: CN111401376A
Application number: CN202010169155.3A
Authority: CN
Inventors: 陈然; 刘永; 张梦丹; 刘枢; 戴宇榮; 余备
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-07-10
Anticipated expiration: 2040-03-12
Also published as: CN111401376B

Abstract

本发明实施例公开了一种目标检测方法、装置、电子设备以及存储介质，包括：采集包含目标对象区域的图像样本；根据图像样本的图像特征对图像样本中各像素点进行分类，得到各像素点属于样本对象的分类结果；根据图像特征构建图像样本中各像素点对应的样本对象的参考区域；根据目标对象区域与参考区域的每个边界之间的相对位置信息，对多个参考区域进行重组；通过目标对象区域、各像素点对应的参考区域和重组后参考区域预测所述样本对象在图像样本中的区域，得到预测区域；基于各像素点的分类结果、预测区域以及目标对象区域对预设检测模型进行训练，得到目标检测模型，以通过目标检测模型对图像进行目标检测，该方案可以目标检测的准确率。

Description

目标检测方法、装置、电子设备以及存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种目标检测方法、装置、电子设备以及存储介质。

背景技术

目标检测是很多计算机视觉任务的基础，目标检测的任务是找出图像中所有感兴趣的目标物体，确定它们的位置和大小，是机器视觉领域的核心问题之一。由于各类物体有不同的外观、形状以及姿态，加上成像时光照和/或遮挡等因素的干扰，目标检测一直是机器视觉领域最具有挑战性的问题。

现有的目标检测技术所利用的信息维度单一，降低了目标检测的准确率。

发明内容

本发明实施例提供一种目标检测方法、装置、电子设备以及存储介质，可以提高目标检测的准确率。

本发明实施例提供了一种目标检测方法，包括：

采集包含目标对象区域的图像样本，所述目标对象区域包括样本对象；

根据所述图像样本的图像特征对所述图像样本中各像素点进行分类，得到各像素点属于所述样本对象的分类结果；

根据所述图像特征构建图像样本中各像素点对应的样本对象的参考区域，所述参考区域包括至少一个边界；

根据所述目标对象区域与参考区域的每个边界之间的相对位置信息，对多个参考区域进行重组，得到各像素点的重组后参考区域；

通过所述目标对象区域、各像素点对应的参考区域和重组后参考区域预测所述样本对象在图像样本中的区域，得到预测区域；

基于各像素点的分类结果、预测区域以及目标对象区域对预设检测模型进行训练，得到目标检测模型，以通过所述目标检测模型对图像进行目标检测。

相应的，本发明实施例还提供了一种目标检测装置，包括：

采集模块，用于采集包含目标对象区域的图像样本，所述目标对象区域包括样本对象；

分类模块，用于根据所述图像样本的图像特征对所述图像样本中各像素点进行分类，得到各像素点属于所述样本对象的分类结果；

构建模块，用于根据所述图像特征构建图像样本中各像素点对应的样本对象的参考区域，所述参考区域包括至少一个边界；

重组模块，用于根据所述目标对象区域与参考区域的每个边界之间的相对位置信息，对多个参考区域进行重组，得到各像素点的重组后参考区域；

预测模块，用于通过所述目标对象区域、各像素点对应的参考区域和重组后参考区域预测所述样本对象在图像样本中的区域，得到预测区域；

训练模块，用于基于各像素点的分类结果、预测区域以及目标对象区域对预设检测模型进行训练，得到目标检测模型，以通过所述目标检测模型对图像进行目标检测。

可选的，在本发明的一些实施例中，所述预测模块包括：

构建单元，用于根据各像素点对应的参考区域和重组后参考区域，构建用于样本对象所在位置的候选区域集合；

预测单元，用于通过所述目标对象区域以及候选区域集合预测所述样本对象在图像样本中的区域，得到预测区域。

可选的，在本发明的一些实施例中，所述构建单元具体用于：

分别计算各像素点对应的参考区域与目标对象区域之间的交并比，以及；

分别计算各像素点对应的重组后参考区域与目标对象区域之间的交并比；

将交并比大于第一预设阈值的区域确定为候选区域；

基于确定的候选区域构建用于预测所述样本对象所在位置的候选区域集合。

可选的，在本发明的一些实施例中，还包括处理单元，所述处理单元具体用于：

将交并比小于等于第一预设阈值的区域确定为待选区域；

检测所述待选区域中每个边界的交并比是否大于对应的候选区域的交并比；

将大于对应的候选区域的交并比的边界确定为参考边界；

根据所述参考边界对所述候选区域集合进行非最大抑制处理，得到处理后的候选区域集合；

所述预测单元具体用于：通过所述目标对象区域以及处理后的候选区域集合预测所述样本对象在图像样本中的区域，得到预测区域。

可选的，在本发明的一些实施例中，所述重组模块具体用于：

分别检测各参考区域中的每个边界到目标对象区域的距离；

根据各参考区域的检测结果、以及所述目标对象区域与参考区域的每个边界之间的相对位置信息对各参考区域进行重组，得到各像素点的重组后参考区域。

可选的，在本发明的一些实施例中，所述训练模块包括：

分割单元，用于根据所述图像特征对所述预测区域进行语义分割；

确定单元，用于基于语义分割结果确定所述样本对象在目标对象区域中的位置，得到目标区域；

分析单元，用于根据分类结果对目标区域进行语义分析，并基于分析结果对目标区域进行调整，得到调整后的目标区域；

返回单元，用于返回执行根据所述图像特征对所述预测区域进行语义分割的步骤，直到调整后的目标区域满足预设条件为止；

训练单元，用于基于各像素点的分类结果、调整后的目标区域、预测区域以及目标对象区域对检测模型进行训练，得到目标检测模型，以通过所述目标检测模型对图像进行目标检测。

可选的，在本发明的一些实施例中，所述训练单元具体用于：

第一生成子单元，用于根据所述样本对象的属性值以及各像素点属于目标对象区域的概率，生成各像素点的分类误差；

第二生成子单元，用于根据所述预测区域在图像样本中的位置以及所述目标对象区域在图像样本中的位置，生成所述预测区域与目标对象区域之间的位置误差；

第三生成子单元，用于根据所述对象区域以及调整后的目标区域，生成所述调整后的目标区域对应的语义误差；

训练子单元，用于基于所述分类误差、位置误差以及语义误差对检测模型进行训练，得到目标检测模型。

可选的，在本发明的一些实施例中，所述训练子单元具体用于：

根据所述分类误差计算检测模型的损失函数，得到第一损失函数；

根据所述位置误差计算检测模型的损失函数，得到第二损失函数；

根据所述语义误差计算检测模型的损失函数，得到第三损失函数；

将所述第一损失函数、第二损失函数以及第三损失函数进行叠加，得到检测模型的目标损失函数；

通过所述目标损失函数对检测模型进行修正，得到目标检测模型。

本发明实施例在采集包含目标对象区域的图像样本后，所述目标对象区域包括样本对象，根据所述图像样本的图像特征对所述图像样本中各像素点进行分类，得到各像素点属于所述样本对象的分类结果，然后，根据所述图像特征构建图像样本中各像素点对应的样本对象的参考区域，所述参考区域包括至少一个边界，接着，根据所述目标对象区域以及与参考区域的每个边界之间的相对位置信息，对多个参考区域进行重组，得到各像素点的重组后参考区域，再然后，通过所述目标对象区域、各像素点对应的参考区域和重组后参考区域预测所述样本对象在图像样本中的区域，得到预测区域，最后，基于各像素点的分类结果、预测区域以及目标对象区域对预设检测模型进行训练，得到目标检测模型，以通过所述目标检测模型对图像进行目标检测。因此，该方案可以提高目标检测的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的目标检测方法的场景示意图；

图1b是本发明实施例提供的目标检测方法的流程示意图；

图1c是本发明实施例提供的目标检测方法中参考区域重组的示意图；

图2a是本发明实施例提供的目标检测方法的另一流程示意图；

图2b是本发明实施例提供的目标检测方法的另一场景示意图；

图2c是本发明实施例提供的目标检测方法中分类与回归子网络的示意图；

图2d是本发明实施例提供的目标检测方法中调整正负样本采样的示意图；

图3是本发明实施例提供的目标检测装置的结构示意图；

图4是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种目标检测方法、装置、电子设备和存储介质。

其中，该目标检测装置具体可以集成在服务器或者终端中，服务器可以包括一个独立运行的服务器或者分布式服务器，也可以包括由多个服务器组成的服务器集群，终端可以包括手机、平板电脑或个人计算机(PC，Personal Computer)。

例如，请参阅图1a，该目标检测装置集成在服务器上，服务器可以采集多个包含目标对象区域的图像样本，图像样本可以为人脸图像样本、人体图像样本和/或车辆图像样本，具体根据实际需求进行选择，以下以服务器采集一个包含目标对象区域的图像样本为例，其中，目标对象区域包括样本对象，该样本对象为人体，并且在该样本对象中标注了人体各部件的属性值，如头部的属性值、手臂的属性值以及腿部的属性值等等，然后，服务器根据图像样本的图像特征对图像样本中各像素点进行分类，得到各像素点属于样本对象的分类结果，接着，服务器根据图像特征构建图像样本中各像素点对应的样本对象的参考区域，其中，参考区域包括至少一个边界，再然后，服务器根据目标对象区域与参考区域的每个边界之间的相对位置信息，对多个参考区域进行重组，得到各像素点的重组后参考区域，紧接着，通过目标对象区域、各像素点对应的参考区域和重组后区域预测样本对象在图像中的区域，得到预测区域，最后，基于各像素点的分类结果、预测区域以及目标对象区域对预设检测模型进行训练，得到目标检测模型，以通过目标检测模型对图像进行目标检测，比如，可以检测到图像中包括两个行人。

本发明提供的目标检测方案利用图像特征构建各像素点对应的样本对象的参考区域后，根据目标对象区域与参考区域的每个边界之间的相对位置信息，对参考区域进行重组，在预测样本对象在图像样本中的区域时，可以参考到更多的区域，使得预测区域更加准确，因此，提高目标检测模型的检测能力，进而提高了目标检测的准确率。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

一种目标检测方法，包括：采集包含目标对象区域的图像样本，根据图像样本的图像特征对图像样本中各像素点进行分类，得到各像素点属于样本对象的分类结果，根据图像特征构建图像样本中各像素点对应的样本对象的参考区域，根据目标对象区域与参考区域的每个边界之间的相对位置信息，对多个参考区域进行重组，得到各像素点的重组后参考区域，通过目标对象区域、各像素点对应的参考区域和重组后参考区域，基于各像素点的分类结果、预测区域以及目标对象区域对预设检测模型进行训练，得到目标检测模型，以通过所述目标检测模型对图像进行目标检测。

请参阅图1b，图1b为本发明实施例提供的目标检测方法的流程示意图。该目标检测方法的具体流程可以如下：

101、采集包含目标对象区域的图像样本。

其中，目标对象区域包括样本对象，为了便于后续对预设检测模型进行训练，通常会对图像样本进行标注，在本发明中，标注是指标记图像样本中样本对象在图像样本中的区域和标记样本对象所对应的类别，图像样本可以为人脸图像样本、人体图像样本和/或车辆图像样本，并且，图像样本可以是预先保存在本地的，也可以是通过访问网络接口拉取得到的，还可以是通过摄像头实时拍摄得到的，具体根据实际情况而定。

以车辆图像样本为例，该车辆图像样本包括目标车辆以及其他物体，可以将目标车辆所在的区域确定为目标对象区域，并对该目标车辆进行标注，并且，可以标注该目标车辆每个部件所属的类别，车头、轮毂以及车尾等等。

102、根据图像样本的图像特征对图像样本中各像素点进行分类，得到各像素点属于样本对象的分类结果。

例如，具体的，可以根据特征金字塔神经网络对图像样本进行特征提取，并基于提取到的图像特征对图像样本中的像素点进行分类，可选的，在一些实施例中，可以预测图像样本中各像素点属于样本对象的概率，然后，基于预测结果对图像样本中各像素点进行分类，比如，当像素点A属于样本对象的概率为60％，像素点B属于样本对象的概率为30％，预设概率阈值为50％，那么可以预测像素点A为样本对象的像素点，预测像素点B不为样本对象的像素点，即，将图像样本中各像素点分为两类，其中，预设概率阈值可以根据实际情况进行设置。

103、根据图像特征构建图像样本中各像素点对应的样本对象的参考区域。

其中，参考区域包括至少一个边界，参考区域可以为圆形区域、矩形区域以及三角形区域等等，具体根据实际情况进行设置，需要说明的是，由于传统的目标检测通常采用传统的密集滑窗的方式或者铺设锚点框的检测方式，但不管哪种方式都不可避免地需要针对特定数据集设计甚至优化滑窗或锚点框超参数，从而增加了训练难度同时还限制了检测器的通用性。

因此，本发明根据图像特征对图像样本进行逐像素检测，并基于检测模型为每个像素点预测一个尺度，其中，该尺度可以尺度为高度和/或宽度，在行人检测的场景下，通常采用人体中轴线标注方式对图像样本中的行人进行标注，也即确定行人的上顶点和下顶点并形成连线得到目标对象区域的高度，然后，将确定的高度乘以0.41得到目标对象区域的宽度。基于此，检测模型可以为每个像素点预测每个像素点对应的边界框的高度，然后，将预测的高度乘以0.41得到边界框的宽度。当然，检测模型分别为每个像素点预测其对应的边界框的高度和宽度，具体根据实际情况进行设置。

104、根据目标对象区域与参考区域的每个边界之间的相对位置信息，对多个参考区域进行重组，得到各像素点的重组后参考区域。

例如，具体的，可以检测参考区域的每个边界到目标对象区域，然后，根据检测结果、以及目标对象区域与参考区域的每个边界之间的相对位置信息对各参考区域进行重组，得到各像素点的重组后参考区域，即，可选的，在一些实施例中，步骤“根据目标对象区域与参考区域的每个边界之间的相对位置信息，对多个参考区域进行重组，得到各像素点的重组后参考区域”，具体可以包括：

(11)分别检测各参考区域中的每个边界到目标对象区域的距离；

(12)根据各参考区域的检测结果、以及目标对象区域与参考区域的每个边界之间的相对位置信息对各参考区域进行重组，得到各像素点的重组后参考区域。

比如，以参考区域为矩形区域为例，可以检测各参考区域中的每个边界到目标对象区域的距离，并按照距离从小到大的顺序依次排列各参考区域中的边界，然后，再根据目标对象区域与参考区域的每个边界之间的相对位置信息对各参考区域进行重组，按照排列的顺序依次组合各参考区域中的每个边界，得到重组后参考区域，请参阅图1c，图中包括参考区域S0、参考区域S1以及参考区域S2，分别检测参考区域S0、参考区域S1以及参考区域S2到目标对象区域的距离，检测结果为：参考区域S2的右侧边界到目标对象区域的距离为1，参考区域S0的右侧边界到目标对象区域的距离为2，参考区域S1的右侧边界到目标对象区域的距离为3，参考区域S1的左侧边界到目标对象区域的距离为1，参考区域S0的左侧边界到目标对象区域的距离为2，参考区域S2的左侧边界到目标对象区域的距离为3，此时，可以将排名相同的边界进行组合，以得到重组后参考区域，需要说明的是，在本实施例中，“左”和“右”为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

105、通过目标对象区域、各像素点对应的参考区域和重组后参考区域预测样本对象在图像样本中的区域，得到预测区域。

例如，具体的，可以根据各像素点对应的参考区域以及各像素点对应的重组后参考区域，构建用于样本对象所在位置的候选区域集合，然后，通过目标对象区域以及候选区域集合预测样本对象在图像样本中的区域，得到预测区域，即，可选的，在一些实施例中，步骤“通过目标对象区域、各像素点对应的参考区域和重组后参考区域预测样本对象在图像样本中的区域，得到预测区域”，具体可以包括：

(21)根据各像素点对应的参考区域和重组后参考区域，构建用于样本对象所在位置的候选区域集合；

(22)通过目标对象区域以及候选区域集合预测样本对象在图像样本中的区域，得到预测区域。

其中，可以分别计算各参考区域与目标对象区域之间的交并比、以及分别计算各重组后参考区域与目标对象区域之间的交并比，然后，基于计算结果，在所有参考区域以及所有重组后参考区域中选择交并比大于第一预设阈值的区域，接着，根据选择到的区域构建用于预测样本对象所在位置的候选区域集合，最后，通过目标对象区域以及候选区域集合预测样本对象在图像样本中的区域，得到预测区域，即，可选的，在一些实施例中，步骤“根据各像素点对应的参考区域和重组后参考区域，构建用于样本对象所在位置的候选区域集合”，具体可以包括：

(31)分别计算各像素点对应的参考区域与目标对象区域之间的交并比，以及；

(32)分别计算各像素点对应的重组后参考区域与目标对象区域之间的交并比；

(33)将交并比大于第一预设阈值的区域确定为候选区域；

(34)基于确定的候选区域构建用于预测样本对象所在位置的候选区域集合

在此，需要介绍一些交并比的概念，交并比(Intersection-over-Union，IoU)是目标检测中使用的一个概念，是产生的候选框(即参考区域或重组后参考区域)与原标记框(目标对象区域)的交叠率，即它们的交集与并集的比值。最理想情况是完全重叠，即比值为1。

由于重组后参考区域是基于目标对象区域与参考区域的各边界之间的相对位置信息进行构建得到的，当重组后参考区域的每个边界均来自于不同的参考区域时，会存在重组后的边界框的交并比低于原边界框的交并比的情况，因此，需要根据交并比在参考区域以及重组后参考区域中选择满足条件的区域。

比如，第一预设阈值为0.5，参考区域A与目标对象区域之间的交并比为0.3，重组后参考区域A’与目标对象区域之间的交并比为0.6，参考区域B与目标对象区域之间的交并比为0.7，重组后参考区域B’与目标对象区域之间的交并比为0.3，那么将重组后参考区域A’以及参考区域B确定为候选区域。

进一步的，在交并比小于等于第一预设阈值的区域中，可能会出现这些区域的某些边界的交并比大于其对应区域的交并比的情况，为了进一步提高目标检测的准确率，还可以根据这边边界对候选区域集合进行非最大抑制处理，即，可选的，在一些实施例中，具体还可以包括：

(41)将交并比小于等于第一预设阈值的区域确定为待选区域；

(42)检测待选区域中每个边界的交并比是否大于对应的候选区域的交并比；

(43)将大于对应的候选区域的交并比的边界确定为参考边界；

(44)根据参考边界对候选区域集合进行非最大抑制处理，得到处理后的候选区域集合。

传统的非最大抑制处理就是抑制不是极大值的元素，可以理解为局部最大搜索。这个局部代表的是一个邻域，邻域有两个参数可变，一是邻域的维数，二是邻域的大小，例如在行人检测中，滑动窗口经提取特征，经分类器分类识别后，每个窗口都会得到一个分数。但是滑动窗口会导致很多窗口与其他窗口存在包含或者大部分交叉的情况。这时就需要用到非最大抑制处理来选取那些邻域里分数最高(是行人的概率最大)，并且抑制那些分数低的窗口，而在本发明中，是将交并比纳入到传统非最大抑制处理当中，具体的，首先选取所有预测框中类别置信度最大的那一个，记为box_best，并保留box_best；然后计算box_best与其余的预测框的IOU，如果这个IOU大于设置的阈值，则舍弃这个预测框；最后从剩下的预测框(不包含前一个box_best)中找到下一个box_best，如此循环往复，可以通过如下代码实现：

而在本实施例中，交并比纳入到传统非最大抑制处理当中，与传统的非最大抑制处理相比，将交并比低于第一预设阈值的区域中质量较高的边界(即大于对应区域的交并比的边界)考虑进来，使得对物体的定位更加的准确。

比如，待选区域k的交并比为0.3，该待选区域K的边界a的交并比为0.6，预设阈值为0.5，那么可以将待选区域K的边界a确定为参考边界，然后，根据参考边分别对多个候选区域进行非最大抑制处理，最后，基于处理结果预测所述样本对象在图像样本中的区域，得到预测区域，即，可选的，在一些实施例中，步骤“通过目标对象区域以及候选区域集合预测样本对象在图像样本中的区域，得到预测区域”，具体可以包括：通过目标对象区域以及处理后的候选区域集合预测样本对象在图像样本中的区域，得到预测区域，需要说明的是，在本发明中为了叙述方便，仅以一个边界为例进行解释说明，并不作为对本发明的限制。

106、基于各像素点的分类结果、预测区域以及目标对象区域对预设检测模型进行训练，得到目标检测模型，以通过目标检测模型对图像进行目标检测。

为了避免在训练过程中，预测区域受到中心假设的影响，忽略了物体的非中心区域的特征导致目标检测的准确率下降，因此，可以根据图像特征对预测区域进行语义分割，基于语义分割结果确定样本对象在目标对象区域中的位置，得到目标区域，然后，再对目标区域进行语义分析，并基于语义分析结果对目标区域进行调整，即，在训练的过程中不断地调整目标区域的位置，使得模型能够更关注目标区域的语义，进而提高目标检测的准确性，也即，在一些实施例中，步骤“基于各像素点的分类结果、预测区域以及目标对象区域对预设检测模型进行训练，得到目标检测模型，以通过目标检测模型对图像进行目标检测”，具体可以包括：

(51)根据图像特征对预测区域进行语义分割；

(52)基于语义分割结果确定样本对象在目标对象区域中的位置，得到目标区域；

(53)根据分类结果对目标区域进行语义分析，并基于分析结果对目标区域进行调整，得到调整后的目标区域；

(54)返回执行根据图像特征对预测区域进行语义分割的步骤，直到调整后的目标区域满足预设条件为止；

(55)基于各像素点的分类结果、调整后的目标区域、预测区域以及目标对象区域对检测模型进行训练，得到目标检测模型，以通过目标检测模型对图像进行目标检测。

比如，调整后的目标区域与目标对象区域之间的语义匹配度大于50％，则认为调整后的目标区域满足预设条件，在得到调整后的目标区域后，基于各像素点的分类结果、调整后的目标区域、预测区域以及目标对象区域对检测模型进行训练，得到目标检测模型，以通过目标检测模型对图像进行目标检测。

例如，可以根据像素点的分类误差、调整后目标区域与样本对象之间的语义误差、以及预测区域和目标对象区域之间的位置误差对检测模型进行训练，得到目标检测模型，即，在一些实施例中，步骤“基于各像素点的分类结果、调整后的目标区域、预测区域以及目标对象区域对检测模型进行训练，得到目标检测模型”，具体可以包括：

(61)根据样本对象的属性值以及各像素点属于目标对象区域的概率，生成各像素点的分类误差；

(62)根据预测区域在图像样本中的位置以及目标对象区域在图像样本中的位置，生成所述预测区域与目标对象区域之间的位置误差；

(63)根据对象区域以及调整后的目标区域，生成所述调整后的目标区域对应的语义误差；

(64)基于分类误差、位置误差以及语义误差对检测模型进行训练，得到目标检测模型。

例如，具体的，可以根据基于分类误差、位置误差以及语义误差分别计算相应的损失函数，然后，基于计算得到的损失函数对检测模型进行修正，得到目标检测模型，即，可选的，在一些实施例中，步骤“基于分类误差、位置误差以及语义误差对检测模型进行训练，得到目标检测模型”，具体可以包括：

(71)根据分类误差计算检测模型的损失函数，得到第一损失函数；

(72)根据位置误差计算检测模型的损失函数，得到第二损失函数；

(73)根据语义误差计算检测模型的损失函数，得到第三损失函数；

(74)将第一损失函数、第二损失函数以及第三损失函数进行叠加，得到检测模型的目标损失函数；

(75)通过目标损失函数对检测模型进行修正，得到目标检测模型。

其中，该目标检测模型可以包括：

卷积层：主要用于对输入的图像(比如训练样本或需要识别的图像)进行特征提取，其中，卷积核大小以及卷积核的数量可以根据实际应用而定，比如，从第一层卷积层至第四层卷积层的卷积核大小依次可以为(7，7)，(5，5)，(3，3)，(3，3)；可选的，为了降低计算的复杂度，提高计算效率，在本实施例中，这四层卷积层的卷积核大小可以都设置为(3，3)，激活函数均采用“relu(线性整流函数，Rectified Linear Unit)”，而padding(padding，指属性定义元素边框与元素内容之间的空间)方式均设置为“same”，“same”填充方式可以简单理解为以0填充边缘，左边(上边)补0的个数和右边(下边)补0的个数一样或少一个。可选的，卷积层与卷积层之间可以通过直连的方式连接，从而加快网络收敛速度，为了进一步减少计算量，还可以在第二至第四层卷积层中的所有层或任意1～2层进行下采样(pooling)操作，该下采样操作与卷积的操作基本相同，只不过下采样的卷积核为只取对应位置的最大值(max pooling)或平均值(average pooling)等，为了描述方便，在本发明实施例中，将均以在第二层卷积层和第三次卷积层中进行下采样操作，且该下采样操作具体为maxpooling为例进行说明。

需说明的是，为了描述方便，在本发明实施例中，将激活函数所在层和下采样层(也称为池化层)均归入卷积层中，应当理解的是，也可以认为该结构包括卷积层、激活函数所在层、下采样层(即池化层)和全连接层，当然，还可以包括用于输入数据的输入层和用于输出数据的输出层，在此不再赘述。

全连接层：可以将学到的特征映射到样本标记空间，其在整个卷积神经网络中主要起到“分类器”的作用，全连接层的每一个结点都与上一层(如卷积层中的下采样层)输出的所有结点相连，其中，全连接层的一个结点即称为全连接层中的一个神经元，全连接层中神经元的数量可以根据实际应用的需求而定，比如，在该文本检测模型中，全连接层的神经元数量可以均设置为512个，或者，也可以均设置为128个，等等。与卷积层类似，可选的，在全连接层中，也可以通过加入激活函数来加入非线性因素，比如，可以加入激活函数sigmoid(S型函数)。

在得到目标检测模型后，可以通过目标检测模型对图像进行目标检测，例如，具体的，当接收到目标检测请求时，可以提取目标检测请求所携带的待检测图像，然后，基于该目标检测模型对待检测图像进行目标检测，并生成相应的检测结果。

本发明实施例在采集包含目标对象区域的图像样本后，目标对象区域包括样本对象，根据图像样本的图像特征对图像样本中各像素点进行分类，得到各像素点属于样本对象的分类结果，然后，根据图像特征构建图像样本中各像素点对应的样本对象的参考区域，其中，参考区域包括至少一个边界，接着，根据目标对象区域与参考区域的每个边界之间的相对位置信息，对多个参考区域进行重组，得到各像素点的重组后参考区域，再然后，通过目标对象区域、各像素点对应的参考区域和重组后参考区域预测样本对象在图像样本中的区域，得到预测区域，最后，基于各像素点的分类结果、预测区域以及目标对象区域对预设检测模型进行训练，得到目标检测模型，以通过目标检测模型对图像进行目标检测。本发明提供的目标检测方案利用图像特征构建各像素点对应的样本对象的参考区域后，根据目标对象区域与参考区域的每个边界之间的相对位置信息，对参考区域进行重组，在预测样本对象在图像样本中的区域时，可以参考到更多的区域，使得预测区域更加准确，因此，提高目标检测模型的检测能力，进而提高了目标检测的准确率。

根据实施例所述的方法，以下将举例进一步详细说明。

在本实施例中将以该目标检测装置具体集成在服务器中为例进行说明。

请参阅图2a，一种目标检测方法，具体流程可以如下：

201、服务器采集包含目标对象区域的图像样本。

其中，目标对象区域包括样本对象，图像样本可以为人脸图像样本、人体图像样本和/或车辆图像样本，并且，图像样本可以是服务器通过网络接口从互联网中拉取的图像，也可以是保存在本地数据库中的图像，具体可以根据实际应用的需求而定。

202、服务器根据图像样本的图像特征对图像样本中各像素点进行分类，得到各像素点属于样本对象的分类结果。

例如，具体的，服务器可以根据特征金字塔神经网络对图像样本进行特征提取，并基于提取到的图像特征对图像样本中的像素点进行分类。

203、服务器根据图像特征构建图像样本中各像素点对应的样本对象的参考区域。

其中，参考区域包括至少一个边界服务器可以根据图像特征对图像样本进行逐像素检测，并基于检测模型为每个像素点预测一个尺度，从而构建图像样本中各像素点对应的样本对象的参考区域。

204、服务器根据目标对象区域与参考区域的每个边界之间的相对位置信息，对多个参考区域进行重组，得到各像素点的重组后参考区域。

比如，以参考区域为矩形区域为例，服务器可以检测各参考区域中的每个边界到目标对象区域的距离，并按照距离从小到大的顺序依次排列各参考区域中的边界，然后，服务器再根据目标对象区域与参考区域的每个边界之间的相对位置信息对各参考区域进行重组，按照排列的顺序依次组合各参考区域中的每个边界，得到重组后参考区域。

205、服务器通过目标对象区域、各像素点对应的参考区域和重组后参考区域预测样本对象在图像样本中的区域，得到预测区域。

例如，具体的，服务器可以根据各像素点对应的参考区域以及各像素点对应的重组后参考区域，构建用于样本对象所在位置的候选区域集合，然后，通过目标对象区域以及候选区域集合预测样本对象在图像样本中的区域，得到预测区域。

206、服务器基于各像素点的分类结果、预测区域以及目标对象区域对预设检测模型进行训练，得到目标检测模型，以通过目标检测模型对图像进行目标检测。

为了避免在训练过程中，预测区域受到中心假设的影响，忽略了物体的非中心区域的特征导致目标检测的准确率下降，在一些实施例中，请参阅图1b，服务器可以根据图像特征对预测区域进行语义分割，然后，服务器基于语义分割结果确定样本对象在目标对象区域中的位置，得到目标区域，然后，再对目标区域进行语义分析，并基于语义分析结果对目标区域进行调整，即，在训练的过程中不断地调整目标区域的位置，使得模型能够更关注目标区域的语义，进而提高目标检测的准确性。

可选的，在一些实施例中，服务器可以基于各像素点的分类结果、调整后的目标区域、预测区域以及目标对象区域对检测模型进行训练，得到目标检测模型。

例如，服务器可以根据像素点的分类误差、调整后目标区域与样本对象之间的语义误差、以及预测区域和目标对象区域之间的位置误差对检测模型进行训练，得到目标检测模型。

例如，具体的，服务器当接收到目标检测请求时，服务器可以提取目标检测请求所携带的待检测图像的图像特征，然后，服务器基于该目标检测模型对提取到的图像特征进行目标检测，并生成相应的检测结果。

为了便于对本发明实施例提供的目标检测方法的理解，请参阅图2b，以检测对象是人体为例，在本发明提供的目标检测模型中，包括特征提取子网络、特征金字塔子网络以及分类与回归子网络，在分类与回归子网络中具体可以包括如下模块：分解与重组模块、语义一致性模块以及基于边界融合的非最大抑制模块，如图2c所示，其中，像素点的分类损失函数为Lc，损失函数Lc可以为交叉熵函数，或者为集合相似度度量函数，具体根据实际情况进行选择。

分解与重组模块：用于计算各像素点对应的参考区域与目标对象区域之间的交并比，并对每个参考区域进行分解，根据各参考区域的每个边界到目标对象区域之间的距离进行排序，基于各边界的位置信息以及排序对参考区域进行重组，得到重组后参考区域，然后，再计算重组后参考区域与目标对象区域之间的交并比，因此，所有参考区域的边都具有两个交并比C1’和C1，由于存在重组后参考区域的交并比低于原参考区域的交并比的情况，因此，可以选择交并比大于原参考区域的重组后参考区域进行训练，其对应的损失函数可以表示为：

其中，L_IoU为基于交并比的损失回归函数，K_IoU(B_I，T_I)为参考区域Bi与目标对象区域Ti之间的损失，K_IoU(B_I’，T_I)为参考区域Bi’与目标对象区域Ti之间的损失，N为每个批次中交并比大于预设阈值的参考区域和/或重组后参考区域的数量，f为指示函数，在数学中，指示函数是定义在某集合X上的函数，表示其中有哪些元素属于某一子集。

语义一致性模块：该模块脱离了中心假设的思想，让神经网络在训练过程中自发的动态调整正负样本的采样，其即，对目标区域进行调整，其损失函数为Lb，损失函数Lb可以为交叉熵函数，或者为集合相似度度量函数，请参阅图2d，图2d中(1)为样本中标注的目标对象区域，(2)为分类的正样本，(3)为回归的正样本，(4)结合分类与回归得到的正样本，其中，在本实施例中，正样本指的是人体区域，负样本指的是样本区域中除人体之外的区域，可以用下式表示：

其中，

代表每个物体中低于分类均值的像素交集，

代表每个物体中低于回归均值的像素交集，

代表每个物体中高于分类均值的像素补集，

代表每个物体中高于回归均值的像素补集，对于每个像素的分类结果，取最大的值，可以用该式表示：

其中，c表示该像素属于类别j的概率，g表示类别数，对应以下损失函数：

在该式中，Npos表示正样本的数量，ri为预测张量，IoU(pi，pi*)为预测区域pi与目标对象区域pi*之间的交并比。

非最大抑制模块：该模块将训练过程中的边界预测分数纳入到传统非最大抑制处理当中，与传统的非最大抑制处理相比，将分数较低的区域中质量较高的边考虑了进来，使得对物体的定位更加的准确，其中，通过在COCO检测数据集上进行了对比消融实验，三大模块分别在基线的基础上有了较大的提升，如下表所示：

表1

其中，打勾表示采用本实施例所提供的模块，AP表示IoU大于预设阈值的平均准确率，如预设阈值为0.5，那么IoU大于0.5的平均准确率称为AP50，在COCO数据集中，有更多的小物体，具体地说，41％的物体面积很小(面积<322)，则确定为小物体(S)，34％是中等(322<面积<962)则确定为中物体(M)，24％大(面积>962)，则确定为大物体(L)，其中，测量的面积是分割掩码中的像素数量，AR是在每个图像中检测到固定数量的最大召回，在类别和IoU上平均。

此外，对比与现有的目标检测方案而言，本方案在平均准确率和最大召回率中均有较大的提升，请参阅表2，表2如下所示。

表2

本发明实施例的服务器在采集包含目标对象区域的图像样本后，目标对象区域包括样本对象，服务器根据图像样本的图像特征对图像样本中各像素点进行分类，得到各像素点属于样本对象的分类结果，然后，服务器根据图像特征构建图像样本中各像素点对应的样本对象的参考区域，其中，参考区域包括至少一个边界，接着，服务器根据目标对象区域与参考区域的每个边界之间的相对位置信息，对多个参考区域进行重组，得到各像素点的重组后参考区域，再然后，服务器通过目标对象区域、各像素点对应的参考区域和重组后参考区域预测样本对象在图像样本中的区域，得到预测区域，最后，服务器基于各像素点的分类结果、预测区域以及目标对象区域对预设检测模型进行训练，得到目标检测模型，以通过目标检测模型对图像进行目标检测。本发明提供的服务器利用图像特征构建各像素点对应的样本对象的参考区域后，根据目标对象区域与参考区域的每个边界之间的相对位置信息，对参考区域进行重组，在预测样本对象在图像样本中的区域时，可以参考到更多的区域，使得预测区域更加准确，因此，提高目标检测模型的检测能力，进而提高了目标检测的准确率。

为便于更好的实施本发明实施例的目标检测方法，本发明实施例还提供一种基于上述目标检测装置(简称检测装置)。其中名词的含义与上述目标检测方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图3，图3为本发明实施例提供的目标检测装置的结构示意图，其中该检测装置可以包括采集模块301、分类模块302、构建模块303、重组模块304、预测模块305以及训练模块306，具体可以如下：

采集模块301，用于采集包含目标对象区域的图像样本。

其中，目标对象区域包括样本对象，图像样本可以为人脸图像样本、人体图像样本和/或车辆图像样本，并且，可以是采集模块301通过访问网络接口拉取得到的，还可以是采集模块301通过摄像头实时拍摄得到的，具体根据实际情况而定。

分类模块302，用于根据图像特征对所述图像样本中各像素点进行分类，得到各像素点属于样本对象的分类结果。

例如，具体的，分类模块302可以根据特征金字塔神经网络对图像样本进行特征提取，并基于提取到的图像特征对图像样本中的像素点进行分类

构建模块303，用于根据图像特征构建图像样本中各像素点对应的样本对象的参考区域。

其中，参考区域包括至少一个边界，构建模块303可以根据图像特征对图像样本进行逐像素检测，并基于检测模型为每个像素点预测一个尺度，从而构建图像样本中各像素点对应的样本对象的参考区域。

重组模块304，用于用于通过目标对象区域、各像素点对应的参考区域和重组后参考区域预测样本对象在图像样本中的区域，得到预测区域。

例如，重组模块304可以检测各参考区域中的每个边界到目标对象区域的距离，然后，重组模块304可以根据各参考区域的检测结果、以及目标对象区域与参考区域的每个边界之间的相对位置信息对各参考区域进行重组，得到各像素点的重组后参考区域，即，可选的，在一些实施例中，重组模块304具体可以用于：分别检测各参考区域中的每个边界到目标对象区域的距离，根据各参考区域的检测结果、以及目标对象区域与参考区域的每个边界之间的相对位置信息对各参考区域进行重组，得到各像素点的重组后参考区域。

预测模块305，用于通过目标对象区域、各像素点对应的参考区域和重组后参考区域预测样本对象在图像样本中的区域，得到预测区域。

例如，具体的，预测模块305可以根据各像素点对应的参考区域以及各像素点对应的重组后参考区域，构建用于样本对象所在位置的候选区域集合，然后，通过目标对象区域以及候选区域集合预测样本对象在图像样本中的区域，得到预测区域，即，可选的，在一些实施例中，预测模块305具体可以包括：

预测单元，用于通过目标对象区域以及候选区域集合预测样本对象在图像样本中的区域，得到预测区域。

可选的，在一些实施例中，构建单元具体可以用于：分别计算各像素点对应的参考区域与目标对象区域之间的交并比，以及分别计算各像素点对应的重组后参考区域与目标对象区域之间的交并比，将交并比大于第一预设阈值的区域确定为候选区域，基于确定的候选区域构建用于预测所述样本对象所在位置的候选区域集合。

可选的，在一些实施例中，还包括处理单元，处理单元具体可以用于：将交并比小于等于第一预设阈值的区域确定为待选区域，检测待选区域中每个边界的交并比是否大于对应的候选区域的交并比，将大于对应的候选区域的交并比的边界确定为参考边界，根据参考边界对候选区域集合进行非最大抑制处理，得到处理后的候选区域集合。

预测单元具体可以用于：通过目标对象区域以及处理后的候选区域集合预测所述样本对象在图像样本中的区域，得到预测区域。

训练模块306，用于基于各像素点的分类结果、预测区域以及目标对象区域对预设检测模型进行训练，得到目标检测模型，以通过所述目标检测模型对图像进行目标检测。

为了避免在训练过程中，预测区域受到中心假设的影响，忽略了物体的非中心区域的特征导致目标检测的准确率下降，训练模块306可以根据图像特征对预测区域进行语义分割，然后，训练模块306基于语义分割结果确定样本对象在目标对象区域中的位置，得到目标区域，然后，再对目标区域进行语义分析，并基于语义分析结果对目标区域进行调整，即，在训练的过程中不断地调整目标区域的位置，使得模型能够更关注目标区域的语义，进而提高目标检测的准确性，也即，可选的，在一些实施例中，训练模块306具体可以包括：

分割单元，用于根据图像特征对预测区域进行语义分割；

确定单元，用于基于语义分割结果确定样本对象在目标对象区域中的位置，得到目标区域；

返回单元，用于返回执行根据图像特征对所述预测区域进行语义分割的步骤，直到调整后的目标区域满足预设条件为止；

训练单元，用于基于各像素点的分类结果、调整后的目标区域、预测区域以及目标对象区域对检测模型进行训练，得到目标检测模型，以通过目标检测模型对图像进行目标检测。

可选的，在一些实施例中，训练单元可以包括：

第一生成子单元，用于根据样本对象的属性值以及各像素点属于目标对象区域的概率，生成各像素点的分类误差；

第二生成子单元，用于根据预测区域在图像样本中的位置以及目标对象区域在图像样本中的位置，生成预测区域与目标对象区域之间的位置误差；

第三生成子单元，用于根据对象区域以及调整后的目标区域，生成调整后的目标区域对应的语义误差；

训练子单元，用于基于分类误差、位置误差以及语义误差对检测模型进行训练，得到目标检测模型。

可选的，在一些实施例中，训练子单元具体可以用于：根据所述分类误差计算检测模型的损失函数，得到第一损失函数，根据位置误差计算检测模型的损失函数，得到第二损失函数，根据语义误差计算检测模型的损失函数，得到第三损失函数，将第一损失函数、第二损失函数以及第三损失函数进行叠加，得到检测模型的目标损失函数，通过目标损失函数对检测模型进行修正，得到目标检测模型。

本发明实施例的采集模块301采集包含目标对象区域的图像样本后，目标对象区域包括样本对象，分类模块302根据图像样本的图像特征对图像样本中各像素点进行分类，得到各像素点属于样本对象的分类结果，然后，构建模块303根据图像特征构建图像样本中各像素点对应的样本对象的参考区域，其中，参考区域包括至少一个边界，接着，重组模块304根据目标对象区域与参考区域的每个边界之间的相对位置信息，对多个参考区域进行重组，得到各像素点的重组后参考区域，再然后，预测模块305通过目标对象区域、各像素点对应的参考区域和重组后参考区域预测样本对象在图像样本中的区域，得到预测区域，最后，训练模块306基于各像素点的分类结果、预测区域以及目标对象区域对预设检测模型进行训练，得到目标检测模型，以通过目标检测模型对图像进行目标检测。本发明提供的目标检测方案利用图像特征构建各像素点对应的样本对象的参考区域后，根据目标对象区域与参考区域的每个边界之间的相对位置信息，对参考区域进行重组，在预测样本对象在图像样本中的区域时，可以参考到更多的区域，使得预测区域更加准确，因此，提高目标检测模型的检测能力，进而提高了目标检测的准确率。

此外，本发明实施例还提供一种电子设备，如图4所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

采集包含目标对象区域的图像样本，根据图像样本的图像特征对图像样本中各像素点进行分类，得到各像素点属于样本对象的分类结果，根据图像特征构建图像样本中各像素点对应的样本对象的参考区域，根据目标对象区域与参考区域的每个边界之间的相对位置信息，对多个参考区域进行重组，得到各像素点的重组后参考区域，通过目标对象区域、各像素点对应的参考区域和重组后参考区域，基于各像素点的分类结果、预测区域以及目标对象区域对预设检测模型进行训练，得到目标检测模型，以通过所述目标检测模型对图像进行目标检测。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种目标检测方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种目标检测方法中的步骤，因此，可以实现本发明实施例所提供的任一种目标检测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种目标检测方法、装置、电子设备以及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过所述目标对象区域、各像素点对应的参考区域和重组后参考区域预测所述样本对象在图像样本中的区域，得到预测区域，包括：

根据各像素点对应的参考区域和重组后参考区域，构建用于样本对象所在位置的候选区域集合；

通过所述目标对象区域以及候选区域集合预测所述样本对象在图像样本中的区域，得到预测区域。

3.根据权利要求2所述的方法，其特征在于，所述根据各像素点对应的参考区域和重组后参考区域，构建用于预测所述样本对象所在位置的候选区域集合，包括：

将交并比大于第一预设阈值的区域确定为候选区域；

4.根据权利要求3所述的方法，其特征在于，还包括：

将交并比小于等于第一预设阈值的区域确定为待选区域；

将大于对应的候选区域的交并比的边界确定为参考边界；

所述通过所述目标对象区域以及候选区域集合预测所述样本对象在图像样本中的区域，得到预测区域，包括：通过所述目标对象区域以及处理后的候选区域集合预测所述样本对象在图像样本中的区域，得到预测区域。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述目标对象区域与参考区域的每个边界之间的相对位置信息，对多个参考区域进行重组，得到各像素点的重组后参考区域，包括：

分别检测各参考区域中的每个边界到目标对象区域的距离；

6.根据权利要求1至4任一项所述的方法，其特征在于，所述基于各像素点的分类结果、预测区域以及目标对象区域对预设检测模型进行训练，得到用于对图像进行目标检测的目标检测模型，包括：

根据所述图像特征对所述预测区域进行语义分割；

基于语义分割结果确定所述样本对象在目标对象区域中的位置，得到目标区域；

根据分类结果对目标区域进行语义分析，并基于分析结果对目标区域进行调整，得到调整后的目标区域；

返回执行根据所述图像特征对所述预测区域进行语义分割的步骤，直到调整后的目标区域满足预设条件为止；

基于各像素点的分类结果、调整后的目标区域、预测区域以及目标对象区域对检测模型进行训练，得到目标检测模型，以通过所述目标检测模型对图像进行目标检测。

7.根据权利要求6所述的方法，其特征在于，所述基于各像素点的分类结果、调整后的目标区域、预测区域以及目标对象区域对检测模型进行训练，得到目标检测模型，包括：

根据所述样本对象的属性值以及各像素点属于目标对象区域的概率，生成各像素点的分类误差；

根据所述预测区域在图像样本中的位置以及所述目标对象区域在图像样本中的位置，生成所述预测区域与目标对象区域之间的位置误差；

根据所述目标对象区域以及调整后的目标区域，生成所述调整后的目标区域对应的语义误差；

基于所述分类误差、位置误差以及语义误差对检测模型进行训练，得到用目标检测模型。

8.根据权利要求7所述的方法，其特征在于，所述基于所述分类误差、位置误差以及语义误差对检测模型进行训练，得到目标检测模型，包括：

9.一种目标检测装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述预测模块包括：

11.根据权利要求10所述的装置，其特征在于，所述构建单元具体用于：

将交并比大于第一预设阈值的区域确定为候选区域；

12.根据权利要求11所述的装置，其特征在于，还包括处理单元，所述处理单元具体用于：

将交并比小于等于第一预设阈值的区域确定为待选区域；

将大于对应的候选区域的交并比的边界确定为参考边界；

13.根据权利要求9至12任一项所述的装置，其特征在于，所述重组模块具体用于：

分别检测各参考区域中的每个边界到目标对象区域的距离；

14.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1-8任一项所述目标检测方法的步骤。

15.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-8任一项所述目标检测方法的步骤。