CN113836977A

CN113836977A - 目标检测方法、装置、电子设备及存储介质

Info

Publication number: CN113836977A
Application number: CN202010584346.6A
Authority: CN
Inventors: 喻雨峰
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2021-12-24
Anticipated expiration: 2040-06-24
Also published as: CN113836977B

Abstract

本申请提供一种目标检测方法、装置、电子设备及计算机可读存储介质。该目标检测方法包括：获取包含目标物体的待检测图像；对所述待检测图像进行特征提取处理，得到所述待检测图像的目标特征图；根据所述目标特征图，预测所述目标物体的目标中心点区域数据、以及所述目标物体的目标偏移量数据，其中，所述目标偏移量数据是指所述目标物体的边框顶点与所述目标物体的中心点区域之间的坐标差值的数据；根据所述目标中心点区域数据和所述目标偏移量数据，生成所述目标物体的目标检测框。本申请中可以提高目标检测的精确度。

Description

目标检测方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，具体涉及一种目标检测方法、装置、电子设备及计算机可读存储介质。

背景技术

随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对目标进行实时跟踪研究越来越热门，对目标进行动态实时跟踪定位在各个领域具有广泛的应用价值。

在计算机视觉技术领域中，目标检测对于后续的视觉处理任务(如分类任务)具有重大的指导意义。目标检测，也叫目标提取，是一种基于目标几何和统计特征的图像分割，它将目标的分割和识别合二为一，其准确性和实时性是整个系统的一项重要能力。

现有技术中，主要是通过目标检测算法(如Anchor-based算法、Anchor-free算法)进行目标检测。

然而，在实际应用中发现，在图像的物体存在透视(例如，斜视角度下拍摄物体)、成像较小、遮掩等情况下，较难精准地检测物体。可见，现有的目标检测算法的检测精度较低。

发明内容

本申请提供一种目标检测方法、装置、电子设备及计算机可读存储介质，旨在解决现有的目标检测算法检测精度低的问题。

第一方面，本申请提供一种目标检测方法，所述方法包括：

获取包含目标物体的待检测图像，其中，所述目标物体是指待检测的物体；

对所述待检测图像进行特征提取处理，得到所述待检测图像的目标特征图；

根据所述目标特征图，预测所述目标物体的目标中心点区域数据、以及所述目标物体的目标偏移量数据，其中，所述目标偏移量数据是指所述目标物体的边框顶点与所述目标物体的中心点区域之间的坐标差值的数据；

根据所述目标中心点区域数据和所述目标偏移量数据，生成所述目标物体的目标检测框。

第二方面，本申请提供一种目标检测装置，所述目标检测装置包括：

获取单元，用于获取包含目标物体的待检测图像，其中，所述目标物体是指待检测的物体；

提取单元，用于对所述待检测图像进行特征提取处理，得到所述待检测图像的目标特征图；

预测单元，用于根据所述目标特征图，预测所述目标物体的目标中心点区域数据、以及所述目标物体的目标偏移量数据，其中，所述目标偏移量数据是指所述目标物体的边框顶点与所述目标物体的中心点区域之间的坐标差值的数据；

生成单元，用于根据所述目标中心点区域数据和所述目标偏移量数据，生成所述目标物体的目标检测框。

在本申请一种可能的实现方式中，所述提取单元具体还用于：

调用预设的下采样层，提取所述待检测图像的图像特征，得到所述待检测图像的多个采样特征图；

对所述多个采样特征图进行特征融合处理，得到所述待检测图像的目标特征图。

在本申请一种可能的实现方式中，所述预测单元具体还用于：

将所述目标特征图输入训练好的预测网络，以输出所述目标物体的目标中心点区域数据、以及所述目标物体的目标偏移量数据。

在本申请一种可能的实现方式中，所述目标检测装置还包括训练单元，在所述将所述目标特征图输入训练好的预测网络，以输出所述目标物体的目标中心点区域数据、以及所述目标物体的目标偏移量数据步骤之前，所述训练单元具体用于：

获取样本图像，并获取所述样本图像的中心点区域标签和偏移量标签，其中，所述中心点区域标签用于指示与所述样本图像中的样本物体的中心点的距离处于预设距离范围内的各点，所述偏移量标签用于指示所述样本图像中的样本物体的边框顶点与所述样本图像中的样本物体的中心点区域之间的坐标差值；

调用预设网络模型的特征提取层，对所述样本图像进行特征提取处理，得到所述样本图像的样本特征图；

调用预设网络模型的预测输出层，根据所述样本特征图，输出所述样本图像的预测中心点区域数据和预测偏移量数据；

根据所述预测中心点区域数据、所述预测偏移量数据、所述中心点区域标签和所述偏移量标签，确定所述预设网络模型的模型参数，得到训练好的预测网络。

在本申请一种可能的实现方式中，所述训练单元具体还用于：

根据所述预测中心点区域数据和所述中心点区域标签，确定所述预设网络模型的中心点预测损失值；并根据所述预测偏移量数据和所述偏移量标签，确定所述预设网络模型的偏移量预测损失值；

根据所述中心点预测损失值和所述偏移量预测损失值，确定所述预设网络模型的总损失值；

根据所述总损失值，更新所述预设网络模型的模型参数，直至所述预设网络模型收敛，得到训练好的预测网络。

获取所述样本图像的分类标签，其中，所述分类标签用于指示所述样本图像中的样本物体的目标类别；

调用预设网络模型的分类输出层，根据所述样本特征图，输出所述样本图像的预测分类信息；

根据所述预测分类信息和所述分类标签，确定所述预设网络模型的分类预测损失值；

根据所述中心点预测损失值和所述偏移量预测损失值，确定所述预设网络模型的总损失值，包括：

根据所述中心点预测损失值、所述偏移量预测损失值、以及所述分类预测损失值，确定所述预设网络模型的总损失值。

在本申请一种可能的实现方式中，所述目标检测装置还包括第一分类单元，所述第一分类单元具体用于：

将所述目标特征图输入训练好的预测网络，以输出所述目标物体的目标类别。

在本申请一种可能的实现方式中，所述生成单元具体还用于：

根据所述目标中心点区域数据和所述目标偏移量数据，确定所述目标物体的边框顶点数据；

根据所述边框顶点数据，生成确定所述目标物体的目标边框目标检测框。

在本申请一种可能的实现方式中，所述目标检测装置还包括第二分类单元，所述第二分类单元具体用于：

根据所述目标边框目标检测框，确定所述目标物体在所述待检测图像中的目标区域；

对所述目标区域进行特征提取处理，得到所述目标物体的特征信息；

根据所述特征信息，对所述目标物体进行分类，得到所述目标物体的目标类别。

第三方面，本申请还提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行本申请提供的任一种目标检测方法中的步骤。

第四方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行所述的目标检测方法中的步骤。

本申请通过对含有目标物体的待检测图像进行特征提取处理得到待检测图像的目标特征图；根据目标特征图，预测目标物体的目标中心点区域数据、以及目标物体的目标偏移量数据；根据目标中心点区域数据和目标偏移量数据，确定目标物体的目标检测框。第一方面，由于可以预测目标偏移量数据(即目标物体的目标检测框的顶点数据)来进行目标检测，因此在图像存在透视、物体成像较小等情况下，也可以实现目标检测。

第二方面，由于可以预测并根据目标偏移量数据(即目标物体的边框顶点与目标物体的中心点区域之间的坐标差值的数据)、目标中心点区域数据进行目标检测，因此无需限定检测框的形状为矩形或者旋转的矩阵，故而可以根据物体的形状设计和物体形状贴合的检测框。从而避免了现有技术检测算法中需要采用矩形或旋转的矩形的检测框进行目标检测的问题，进而避免了由于采用矩形检测框或旋转的矩形检测框而导致目标检测不精准的问题。

第三方面，由于通过预测出目标中心点区域数据和目标偏移量数据，即可根据目标中心点区域数据和目标偏移量数据，确定目标物体的目标检测框的顶点，进而确定目标物体的目标检测框，中途不会产生大量的检测框。因此无需像现有的目标检测算法(如Anchor-based算法、EAST算法)一样采用极大值抑制的方法，对大量的检测框进行融合处理，进而减少了数据处理量，提高了处理效率。

第四方面，由于检测过程围绕了目标物体的目标中心点区域数据，由于区域数据比点数据相对不易丢失，因此通过预测目标物体的目标中心点区域数据，可以避免点数据丢失的问题。从而避免由于点数据丢失而导致后续所确定的边框顶点误差大、进而导致目标检测框的检测精度低的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的行车视角下的街景门头的一种场景示意图；

图2是本申请实施例中提供的目标检测方法的一个实施例流程示意图；

图3是本申请实施例提供的目标物体的中心点区域的一种场景示意图；

图4是本申请实施例提供的行车视角下的街景门头的检测框的一种场景示意图；

图5是本申请实施例中提供的目标检测方法的另一个实施例流程示意图；

图6是本申请实施例中提供的目标检测装置的一个实施例结构示意图；

图7是本申请实施例中提供的电子设备的一个实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

为了使本领域任何技术人员能够实现和使用本申请，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本申请。在其它实例中，不会对公知的过程进行详细阐述，以避免不必要的细节使本申请实施例的描述变得晦涩。因此，本申请并非旨在限于所示的实施例，而是与符合本申请实施例所公开的原理和特征的最广范围相一致。

本申请实施例提供一种目标检测方法、装置、电子设备和计算机可读存储介质。其中，该目标检测装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

首先，在介绍本申请实施例之前，先介绍下本申请实施例关于应用背景的相关内容。

在行车视角下，街面上的门头(即店面的店名牌匾)都位于路面两侧的上方，是一系列呈现为大透视角度的四边形，由近至远逐渐变小，总体而言在图片上门头一般较小，而且经常被道路两旁的树木遮挡，如图1所示，图1是本申请实施例提供的行车视角下的街景门头的一种场景示意图。

目前还没有针对行车视角下街景门头的专门算法，通常采用一般的目标检测算法(如Anchor-based算法、Anchor-based算法等)进行处理。

但是，一般的Anchor-based算法需要手工设计一系列的预设的锚点框，设计不佳的锚点会带来很大的精度损失，同时Anchor的匹配机制使得极端尺度(特别大和特别小的对象)被匹配到的频率相对于大小适中的对象被匹配到的频率更低，DNN(Deep NeuralNetworks，深度神经网络)在学习的时候不太容易学习好这些极端样本，还有Anchor的庞大数量也使得存在严重的不平衡采样问题。最后Anchor-based的检测框一般是正矩形框或旋转矩形框，对于行车视角下的四边形街景门头不能够检测精准。

Anchor-free算法由于抛弃了预设锚点框，设计好后可以输出任意形状的检测框，可以精准检测。然而Anchor-free算法基于关键点检测和连接关系预测的方法带来了对整体稳定性和鲁棒性的损害——任意一个核心关键点的漏检或者连接关系的误判都会导致目标漏检。同时，关键点和连接关系的匹配筛选往往会消耗非常多的时间。

基于EAST算法的目标检测方法，似乎完美地规避了上述两类模型的弊端：基于图像分割的方法避免了Anchor的使用、以及由此带来的一系列问题。同时，由于前景目标较大，比关键点更不易丢失，更加稳定和鲁棒。因此，相对于(四边形)目标检测框，各顶点的偏移量预测在保证较好的检测精度的同时后处理更加简单高效。但是，行车视角下的街景门头非常容易与宣传条幅、广告牌，车牌、车上广告等混淆，而且单就其本身特征来看，较难区分；并且，还存在被树木遮挡导致的非完整门头问题，是否判断为前景(完整门头)受多方面(很多是细小因素)的影响。如果采用现有图像分割的方法，在预测分割数据时损失函数会存在较大的震荡，导致模型最终较难优化。

基于现有的相关技术存在的上述缺陷，本申请实施例提供了目标检测方法，至少在一定程度上克服现有的相关技术所存在的缺陷。

本申请实施例目标检测方法的执行主体可以为本申请实施例提供的目标检测装置，或者集成了该目标检测装置的服务器设备、物理主机或者用户设备(User Equipment，UE)等不同类型的电子设备，其中，目标检测装置可以采用硬件或者软件的方式实现，UE具体可以为智能手机、平板电脑、笔记本电脑、掌上电脑、台式电脑或者个人数字助理(Personal Digital Assistant，PDA)等终端设备。

该电子设备可以采用单独运行的工作方式，或者也可以采用设备集群的工作方式，通过应用本申请实施例提供的目标检测方法，可以提高目标检测的精确度。

下面，开始介绍本申请实施例提供的目标检测方法，本申请实施例中以电子设备作为执行主体，为了简化与便于描述，后续方法实施例中将省略该执行主体。

参照图2，图2为本申请实施例提供的目标检测方法的一种流程示意图。需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。该目标检测方法包括步骤S10～S40，其中：

S10、获取包含目标物体的待检测图像。

其中，目标物体是指待检测的物体。例如，为了检测行车视角下的街景门头，则目标物体是指街景门头(对应地，待检测图像为行车视角下所拍摄的街景门头的图像)。又如，为了检测图片中办公室的电脑显示屏，则目标物体是指电脑显示屏。

S20、对所述待检测图像进行特征提取处理，得到所述待检测图像的目标特征图。

其中，目标特征图是指对待检测图像进行特征提取处理后，所得到的待检测图像的图像特征。

在一些实施例中，步骤S20可以通过卷积神经网络(如MobileNet网络的主干部分)来实现。

在一些实施例中，步骤S20具体可以包括：调用预设的下采样层，提取所述待检测图像的图像特征，得到所述待检测图像的多个采样特征图；对所述多个采样特征图进行特征融合处理，得到所述待检测图像的目标特征图。

例如，首先，预设多个下采样层，如通过一个由卷积层、非线性激活层、池化层、批归一化层等通过逐层顺序连接，以及层间跳跃连接组成的卷积神经网络，设定N个(如6个)下采样层，每个下采样层的倍率为x(如倍率为2)。然后，分别获取每个下采样层对待检测图像进行图像特征提取后所得到的N个(6个)采样特征图。最后，将N个(6个)采样特征图进行特征融合处理，得到待检测图像的目标特征图。

由以上内容可以看出，通过多个不同倍率的预设的下采样层分别进行下采样来提取待检测图像的图像特征，再将所提取图像特征进行融合，从而可以提取更全面的图像特征，为后续的目标检测提供了更全面的特征数据，进而提高了目标检测的精度。

S30、根据所述目标特征图，预测所述目标物体的目标中心点区域数据、以及所述目标物体的目标偏移量数据。

其中，物体的中心点是指图像中物体的检测框的对角线交点(记为Pc)，可以理解的是，物体的检测框可以是矩形、四边形、六边形、八边形等任意形状。

在一些实施例中，目标物体的中心点区域是指目标物体的中心点(如街景门头的外边框所构成的四边形的对角线交点)。目标中心点区域数据是指目标物体的中心点的坐标值。

在一些实施例中，目标物体的中心点区域是指与目标物体的中心点(Pc)的距离处于预设距离范围内的各点。例如，目标物体的中心点区域是指以目标物体的中心点(Pc)为圆心、R(R的具体取值可以根据具体需求而设置，如可以R取值为1、2或4个像素点，在此对R的具体取值不作限定)为半径所构成的圆。目标物体的中心点区域数据是指目标物体的中心点区域内各点的坐标值。

如，以R取值为2、目标物体为街景门头为例，则以街景门头的外边框所构成的四边形的对角线交点为街景门头的中心点(即目标物体的中心点)，并以街景门头的中心点为圆心、半径R为2所构成的圆，作为街景门头的中心点区域(即目标物体的中心点区域)，如图3所示。图3是本申请实施例提供的目标物体的中心点区域的一种场景示意图，图3中实线构成的四边形表示行车视角下的街景门头，对角线的交点表示街景门头的中心点，虚线构成的圆表示街景门头的中心点区域。

由于区域数据比点数据相对不易丢失，因此通过以目标物体的中心点(Pc)为圆心、R为半径所构成的圆作为目标物体的中心点区域，可以避免点数据丢失的问题，进而避免由于点数据丢失而导致后续所确定的边框顶点误差大、进而导致目标检测框的检测精度低的问题。

其中，边框顶点是指目标物体的目标检测框的各个顶点，例如目标检测框为四边形，则边框顶点指四边形的四个顶点。

其中，目标偏移量数据是指目标物体的边框顶点(如四边形的四个顶点)与目标物体的中心点区域之间的坐标差值的数据。

其中，步骤S10～S30可以通过深度学习模型来实现。用于实现步骤S10～S30的深度学习模型可以通过以下步骤A1～A4训练得到，该深度学习模型具体可以包括数据输入层、特征提取层、预测输出层。

例如，数据输入层(主要实现步骤S10)，是待检测图像输入神经网络模型的入口，采用RGB的三通道输入，长宽均设定为一个32的倍数值，如512，待检测图像输入时采用等比例放缩和填充0的方式变换为设定尺寸。

特征提取层(主要用于实现步骤S20)，以数据输入层为输入、以待检测图像的目标特征图为输出。特征提取层主要是卷积神经网络，它由卷积层、非线性激活层、池化层、批归一化层等通过逐层顺序连接以及层间跳跃连接组成。所有下采样层(包括带步长的卷积层和池化层)的倍率均为2，共设N个(如5个)下采样层。下采样层以数据输入层为输入、以5个倍率不同的下采样特征图为输出。首先，经过5个下采样层后输出5个不同倍率的下采样特征图，依次命名为p1-p5，即p1-p5的长宽尺寸为原始输入(即所输入的待检测图像)的1/2、1/4、1/8、1/16、1/32。然后，以p1的长宽尺寸(即原始输入的1/2)为标准，将5个不同倍率的下采样特征图p1-p5进行特征融合处理，得到待检测图像的目标特征图(记为f1)。

预测输出层(主要用于实现步骤S30)，以目标特征图(f1)为输入，以目标物体的目标中心点区域数据(记为Fc)、目标物体的目标偏移量数据(记为Fe)为输出。

S40、根据所述目标中心点区域数据和所述目标偏移量数据，生成所述目标物体的目标检测框。

其中，目标检测框可以是四边形、六边形、八边形等各种形状，一般情况下目标检测的边框为四边形，因此本申请实施例中以目标检测框为四边形为例。可以理解的是，本申请实施例中的目标检测方法对于形状为六边形、八边形等多边形的目标检测框同样适用。当检测框为任意多边形时，物体的中心点可以是物体的检测框中任意的两条对角线交点。

在一种实施方式中，目标物体的中心点区域是指以目标物体的中心点(Pc)为圆心、R为半径所构成的圆。步骤S40具体可以包括：根据所述目标中心点区域数据和所述目标偏移量数据，确定所述目标物体的边框顶点数据；根据所述边框顶点数据，生成所述目标物体的目标检测框。

例如，首先，从目标中心点区域数据中，获取任意一个点的坐标值，作为目标中心点的数据(记为Pcⁱ，Pcⁱ＝(xⁱ,yⁱ))。或者，首先，从目标中心点区域数据中，获取响应值最大的点的坐标值，作为目标中心点的数据(记为Pcⁱ，Pcⁱ＝(xⁱ,yⁱ))。

然后，从目标偏移量数据中，获取与目标中心点(Pcⁱ)对应的最终目标偏移量数据(记为[e¹,e²,e³,e⁴,e⁵,e⁶,e⁷,e⁸]，其中，e¹、e²、e³、e⁴、e⁵、e⁶、e⁷、e⁸分别表示顶点1的横坐标与xⁱ之间的坐标差值、顶点1的纵坐标与yⁱ之间的坐标差值、顶点2的横坐标与xⁱ之间的坐标差值、顶点2的纵坐标与yⁱ之间的坐标差值、顶点3的横坐标与xⁱ之间的坐标差值、顶点3的纵坐标与yⁱ之间的坐标差值、顶点4的横坐标与xⁱ之间的坐标差值、顶点4的纵坐标与yⁱ之间的坐标差值)。

接着，根据目标中心点的数据、最终目标偏移量数据，确定目标物体的目标检测框的各个顶点(即边框顶点)坐标值(各个顶点坐标值分别为：(xⁱ+e¹,yⁱ+e²)、(xⁱ+e³,yⁱ+e⁴)、(xⁱ+e⁵,yⁱ+e⁶)、(xⁱ+e⁷,yⁱ+e⁸))。

最后，根据目标检测框的各个顶点坐标值，确定构成目标检测框的各个线段，即生成了目标物体的目标检测框。

由以上内容可以看出，通过根据目标中心点区域数据和目标偏移量数据，可以准确、快速地确定目标物体的边框顶点数据；从而可以根据边框顶点数据，确定构成目标检测框的各个线段，进而准确、快速地确定目标物体的目标检测框。

在另一种实施方式中，目标物体的中心点区域是指目标物体的中心点(如街景门头的外边框所构成的四边形的对角线交点)。例如，首先，从目标偏移量数据中，获取与目标物体的中心点区域(记为Pcⁱ，Pcⁱ＝(xⁱ,yⁱ))对应的最终目标偏移量数据(记为[e¹,e²,e³,e⁴,e⁵,e⁶,e⁷,e⁸])。然后，根据中心点区域数据、最终目标偏移量数据，确定目标物体的目标检测框的各个顶点坐标值(各个顶点坐标值分别为：(xⁱ+e¹,yⁱ+e²)、(xⁱ+e³,yⁱ+e⁴)、(xⁱ+e⁵,yⁱ+e⁶)、(xⁱ+e⁷,yⁱ+e⁸))，即确定目标物体的边框顶点数据。最后，根据目标检测框的各个顶点坐标值，确定构成目标检测框的各个线段，即生成了目标物体的目标检测框。

由以上内容可以看出，通过对含有目标物体的待检测图像进行特征提取处理得到待检测图像的目标特征图；根据目标特征图，预测目标物体的目标中心点区域数据、以及目标物体的目标偏移量数据；根据目标中心点区域数据和目标偏移量数据，确定目标物体的目标检测框。第一方面，由于可以预测目标偏移量数据(即目标物体的目标检测框的顶点数据)来进行目标检测，因此在图像存在透视、物体成像较小等情况下，也可以实现目标检测。

在本申请的一些实施例中，步骤S30可以基于回归模型(例如xgboost模型)来实现，也即上述步骤S30中所提及的预测输出层可以是xgboost模型等回归模型，步骤S30具体包括：将所述目标特征图输入训练好的预测网络，以输出所述目标物体的目标中心点区域数据、以及所述目标物体的目标偏移量数据。

其中，训练好的预测网络(若没有特别说明，后续所提及的预测网络是指训练好的预测网络)可以是如xgboost模型等回归模型，训练好的预测网络结构也可以根据具体需求而设置。预测网络通过预先训练得到，预测网络的训练方法具体可以参照一下步骤A1～A4，在此不再赘述。

例如，训练好的预测网络以目标特征图(记为f1)为输入，以目标物体的目标中心点区域数据(记为Fc)、以及目标偏移量数据(记为Fe)为输出。

其中，目标特征图(f1)输入训练好的预标物体测模型后，首先，目标特征图(f1)经过一层N*N(如3*3)的卷积层，并采用激活函数(如Relu函数)进行激活后，输出激活后的特征图(记为fh)。

然后，一方面，将激活后的特征图(fh)经过一个1*1的卷积层，并采用激活函数(如sigmoid函数)进行激活后，输出目标物体的目标中心点区域数据(Fc)。另一方面，将激活后的特征图(fh)经过一个1*1的卷积层，不采用激活函数激活，输出目标物体的目标偏移量数据(Fe)。

由以上内容可以看出，由于预测网络由预先训练得到，因此通过调用训练好的预测网络根据目标特征图预测目标物体的目标中心点区域数据、以及目标物体的目标偏移量数据，可以准确、快速地回归目标物体的目标中心点区域数据、以及目标物体的目标偏移量数据。

在本申请的一些实施例中，“将所述目标特征图输入训练好的预测网络，以输出所述目标物体的目标中心点区域数据、以及所述目标物体的目标偏移量数据”中所采用的预测网络，通过以下步骤A1～A4的训练过程得到，其中：

A1、获取样本图像，并获取所述样本图像的中心点区域标签和偏移量标签。

其中，中心点区域标签用于指示与样本图像中的样本物体的中心点(记为Pc)的距离处于预设距离范围内的各点。如，以样本图像中的样本物体的中心点(Pc)为圆心、半径为R(如半径为9)的圆内的各个点。

样本图像中的样本物体的中心点是指样本图像中的样本物体的检测框(如街景门头的外边框所构成的四边形)的对角线交点。

偏移量标签用于指示样本图像中的样本物体的边框顶点与样本图像中的样本物体的中心点区域之间的坐标差值。

例如，以行车视角下的街景门头图片作为样本图像，如图4所示，图4为本申请实施例提供的行车视角下的街景门头的检测框的一种场景示意图，图4是图1所示的行车视角下的街景门头的局部放大图，图4中虚线框表示街景门头的检测框，检测框的边框顶点如图中黑点所示。然后，忽略太小、不完整、遮挡或难以辨清的门头，使用四条闭合线段框(即四边形边框)描绘完整的街景门头外延，作为样本图像的样本物体的检测框标注；其中，行车视角下的街景门头图片中，通常存在多个门头，每个门头通过一个四边形边框标注。并通过以下方式获取样本图像的中心点区域标签和偏移量标签。

1、获取样本图像的中心点区域标签。首先，通过样本图像中标注的四边形边框(样本物体的检测框标注)，获得样本图像中四边形边框的对角线交点(记为Pc)的坐标值。然后，新建一个和样本图像同尺寸的浮点二维矩阵(记为Mc)，在Mc中以每个Pc为圆心，半径为R(如半径为9)作圆，圆内(记为Rc)用1填充。最后，使用核为11的高斯算子，对Mc作卷积，并对Mc进行2倍下采样。其中，Mc即为样本图像的中心点区域标签，Rc为样本图像的中心点区域。

2、获取样本图像的偏移量标签。首先，新建和样本图像同尺寸的浮点三维矩阵(记为Me)，通道数为8，Me用来记录：样本图像中标注的四边形边框的四个顶点(按顺序分别为左上、右上、左下、右下，四个顶点坐标值依次设为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4))，分别与中心点区域(Rc)中各像素点(设为(x,y))的坐标差值(包括横坐标差值、纵坐标差值)，即样本图像中标注的四边形边框的四个顶点，分别与中心点区域(Rc)中各像素点的偏移量(记为[xi-x,yi-y]，i＝1,2,3,4)。然后，对Me进行2倍下采样。其中，Me即为样本图像的偏移量标签。

例如，第1个通道，Me用于记录左上顶点的横坐标(x1)与中心点区域(Rc)中各像素点的横坐标(x)之间的坐标差值；第2个通道，Me用于记录左上顶点的纵坐标(y1)与中心点区域(Rc)中各像素点的纵坐标(y)之间的坐标差值；...；如此类推，第8个通道，Me用于记录右下顶点的纵坐标(y4)与中心点区域(Rc)中各像素点的纵坐标(y)之间的坐标差值。

进一步地，可以对原始的样本图像进行数据增广。通过数据增广，可以提高预测网络的泛化能力，从一定程度上提高预测网络预测的准确度。其中，数据增广的方式有多种，例如，采用透视变换、高斯模糊、加噪和HSV通道颜色变换这四种方式，通过随机选取和组合，获得原始数据量(即原始的样本图像)的十倍的数据。

A2、调用预设网络模型的特征提取层，对所述样本图像进行特征提取处理，得到所述样本图像的样本特征图。

与步骤S30中所举例子的深度学习模型类似，预设网络模型可以包括数据输入层、特征提取层、预测输出层。

其中，数据输入层，是样本图像输入预设网络模型的入口，采用RGB的三通道输入，长宽均设定为一个32的倍数值，如512，样本图像输入时采用等比例放缩和填充0的方式变换为设定尺寸。

特征提取层，以数据输入层为输入、以样本图像的样本特征图为输出。

预测输出层，以样本图像的样本特征图为输入，以样本图像的预测中心点区域数据、预测偏移量数据为输出。

具体地，在一些实施例中，在将样本图像输入预设网络模型的数据输入层后，调用预设网络模型的特征提取层，对样本图像进行特征提取处理，得到样本图像的样本特征图。其中，步骤A2中“样本图像的样本特征图”的确定，与步骤S20中“待检测图像的目标特征图”的确定类似，具体可以参照以上“待检测图像的目标特征图”确定的相关实施方式，在此不再赘述。

A3、调用预设网络模型的预测输出层，根据所述样本特征图，输出样本图像的预测中心点区域数据和预测偏移量数据。

其中，预测中心点区域数据是指通过预设网络模型预测得到的、与样本图像中的样本物体的中心点的距离处于预设距离范围内的各点的坐标值。

预测偏移量数据是指通过预设网络模型预测得到的、样本物体的边框顶点(如四边形的四个顶点)与样本物体的中心点区域之间的坐标差值的数据。

具体地，在预设网络模型的特征提取层输出样本图像的样本特征图后，调用预设网络模型的预测输出层，根据样本图像的样本特征图，输出样本图像的预测中心点区域数据、预测偏移量数据。其中，步骤A3中“样本图像的预测中心点区域数据、预测偏移量数据”的确定，与步骤S30中“目标物体的目标中心点区域数据、目标物体的目标偏移量数据”的确定类似，具体可以参照以上“目标物体的目标中心点区域数据、目标物体的目标偏移量数据”确定的相关实施方式，在此不再赘述。

A4、根据所述预测中心点区域数据、所述预测偏移量数据、所述中心点区域标签和所述偏移量标签，确定所述预设网络模型的模型参数，得到训练好的预测网络。

具体地，根据预测中心点区域数据和中心点区域标签对应的实际中心点区域数据，确定预设网络模型的中心点预测损失值。并根据预测偏移量数据和偏移量标签对应的实际偏移量数据，确定预设网络模型的偏移量预测损失值。最后，根据中心点预测损失值和偏移量预测损失值，确定预设网络模型的总损失值。并根据总损失值更新预设网络模型的模型参数，直至预设网络模型收敛，此时，将预设网络模型作为训练好的预测网络。

与预设网络模型对应，训练好的预测网络可以包括数据输入层、特征提取层、预测输出层。

预测网络的数据输入层、特征提取层、预测输出层的工作原理，与步骤S30中所举例子的深度学习模型的数据输入层、特征提取层、预测输出层的工作原理相类似，在此不再赘述。

由以上内容可以看出，通过针对样本图像的实际中心点区域数据、实际偏移量数据对预设网络模型进行训练，得到训练好的预测网络，以使得训练好的预测网络可以根据图像，准确预测出图像的中心点区域数据、偏移量数据。

在本申请的一些实施例中，步骤A4具体可以包括以下步骤A41～A43，其中：

A41、根据所述预测中心点区域数据和所述中心点区域标签，确定所述预设网络模型的中心点预测损失值；并根据所述预测偏移量数据和所述偏移量标签，确定所述预设网络模型的偏移量预测损失值。

例如，一方面，根据中心点区域标签对应的中心点区域数据、预测中心点区域数据，确定预设网络模型的中心点预测损失值。具体地，可以根据以下公式(1)确定中心点预测损失值，其中公式为：

其中，HuberLoss表示中心点预测损失值，Fc表示预测中心点区域数据，Mc表示中心点区域标签对应的中心点区域数据。

另一方面，根据偏移量标签对应的偏移量数据、预测偏移量数据，确定预设网络模型的偏移量预测损失值。具体地，可以根据以下公式(2)确定偏移量预测损失值，其中公式为：

其中，SmoothLoss表示偏移量预测损失值，Fe表示预测偏移量数据，Me表示偏移量标签对应的偏移量数据。

A42、根据所述中心点预测损失值和所述偏移量预测损失值，确定所述预设网络模型的总损失值。

例如，根据以下公式(3)确定预设网络模型的总损失值，其中公式为：

Loss＝HuberLoss+SmoothLoss 公式(3)

其中，Loss表示预设网络模型的总损失值，HuberLoss表示中心点预测损失值，SmoothLoss表示偏移量预测损失值。

A43、根据所述总损失值，更新所述预设网络模型的模型参数，直至所述预设网络模型收敛，得到训练好的预测网络。

具体地，不断地根据每次训练的总损失值对预设网络模型的模型参数进行调整，直至满足预设的停止训练条件时(即预设网络模型收敛时)，将参数更新后的预设网络模型作为训练好的预测网络。此时，可将训练好的预测网络应用于预测图像对应的物体的中心点区域数据、以及物体的偏移量数据。

其中，预设的停止训练条件可以根据实际需求而设置。例如，可以是当总损失值小于预设值时，或者是总损失值基本不再变化时，即相邻多次训练对应的总损失值的差值小于预设值；或者是预设网络模型训练的迭代次数达到最大迭代次数时。

由以上内容可以看出，通过结合中心点预测损失值和偏移量预测损失值，作为预设网络模型的总损失值，训练预设网络模型，可以使得训练好的预测网络在中心点区域数据、偏移量数据两方面的预测精度相对较高。

在某些场景下，训练好的预测网络，除了可以应用于预测图像对应的物体的中心点区域数据、以及物体的偏移量数据外，还可以进一步应用于分类处理任务。

为此，在本申请的一些实施例中，该目标检测方法还包括：将所述目标特征图输入训练好的预测网络，以输出所述目标物体的目标类别。

具体地，该训练好的预测网络除了包括数据输入层、特征提取层、预测输出层，还可以包括分类输出层。

其中，预测网络的数据输入层、特征提取层、预测输出层等的工作原理上面已经详细阐述，在此不再赘述。

分类输出层，以待检测图像的目标特征图为输入，以待检测图像中的目标物体的分类结果为输出。例如，以行车视角下的街景门头图片作为待检测图像，待检测图像在依次经过预测网络的数据输入层、特征提取层、分类输出层后，最终在分类输出层输出待检测图像的目标物体(即某街景门头)的类别，如某街景门头为XX营业厅、XX连锁店、或XX银行。

由以上内容可以看出，通过调用训练好的预测网络，可以根据目标特征图确定目标物体的目标类别，进而使得预测网络也能实现分类处理任务。

为了使得训练好的预测网络可以进一步应用于分类处理任务，进一步地，在本申请的一些实施例中，预测网络的训练过程还包括：获取所述样本图像的分类标签；调用预设网络模型的分类输出层，根据所述样本特征图，输出所述样本图像的预测分类信息；根据所述预测分类信息和所述分类标签，确定所述预设网络模型的分类预测损失值。

其中，分类标签用于指示样本图像中的样本物体的目标类别。

在一些实施方式中，首先，在步骤A1中获取样本图像、中心点区域标签、偏移量标签的同时，获取样本图像的分类标签。例如，新建一个和样本图像同尺寸的整型二维矩阵(记为Mw)，用来记录样本物体的目标类别，并对Mw进行2倍下采样。并将Mw作为输入数据输入至数据输入层。

然后，在步骤A2中得到了样本图像的样本特征图后，将样本图像的样本特征图输入预设网络模型的分类输出层，以使得预设网络模型的分类输出层根据样本特征图，输出样本图像的预测分类信息。

最后，根据分类标签对应的目标类别、预测分类信息，确定预设网络模型的分类预测损失值。具体地，可以根据以下公式(4)确定分类预测损失值，其中公式为：

其中，CrossLoss表示分类预测损失值，Fw表示预测分类信息，Mw表示分类标签对应的目标类别，

为Mw的分量，

为Fw的分量，Mc表示中心点区域标签对应的中心点区域数据。

对应地，“根据所述中心点预测损失值和所述偏移量预测损失值，确定所述预设网络模型的总损失值”的步骤可以包括(即步骤A42可以包括)：根据所述中心点预测损失值、所述偏移量预测损失值、以及所述分类预测损失值，确定所述预设网络模型的总损失值。

例如，根据以下公式(5)确定预设网络模型的总损失值，其中公式为：

Loss＝HuberLoss+SmoothLoss+CrossLoss 公式(5)

其中，Loss表示预设网络模型的总损失值，HuberLoss表示中心点预测损失值，SmoothLoss表示偏移量预测损失值，CrossLoss表示分类预测损失值。

由以上内容可以看出，通过联合中心点预测损失值、偏移量预测损失值和分类预测损失值，作为预设网络模型的总损失值，训练预设网络模型，可以使得训练好的预测网络在中心点区域数据、偏移量数据、分类预测损失值等方面的检测精度相对较高。

在检测出图像中的目标物体的目标检测框后，可以利用所检测到的目标检测框作进一步的视觉处理任务，例如，可以进一步根据所检测到的目标检测框对目标物体进行分类。

为此，在本申请的一些实施例中，请参照图5，图5为本申请实施例中提供的目标检测方法的另一个实施例流程示意图，该目标检测方法还可以包括以下步骤S50～S70，其中：

S50、根据所述目标检测框，确定所述目标物体在所述待检测图像中的目标区域。

S60、对所述目标区域进行特征提取处理，得到所述目标物体的特征信息。

S70、根据所述特征信息，对所述目标物体进行分类，得到所述目标物体的目标类别。

其中，步骤S50～S70也可以通过神经网络实现。例如，将标注了目标检测框的待检测图像输入至训练后的分类网络模型，以使得分类网络模型根据目标检测框，确定目标物体在待检测图像中的目标区域，并从待检测图像中分割出目标区域；对目标区域进行特征提取处理得到目标物体的特征信息；并根据目标物体的特征信息，对目标物体进行分类，得到目标物体的目标类别。

例如，在检测出行车视角下的街景门头图片中的门头边框(即待检测图像中的目标物体的目标检测框)后，将标注了门头边框的街景门头图片输入至分类网络模型，以使得分类网络模型从街景门头图片的门头边框区域内，提取门头的特征信息；并根据门头的特征信息对门头进行分类，得到门头的目标类别(如某门头为XX营业厅、XX连锁店、或XX银行)。

由以上内容可以看出，通过根据以上步骤S10～S40所确定的目标物体目标检测框，确定目标物体在待检测图像中的目标区域；再针对目标区域提取目标物体的特征信息，进行根据目标物体的特征信息对目标物体进行分类。一方面，可以实现分类处理任务。另一方面，由于通过步骤S10～S40可以精准地检测目标物体的目标检测框，因此针对目标检测框内的区域进行特征提取处理，可以准确地提取目标物体的特征信息，进而提高所确定目标类别的分类精确度。

为了更好实施本申请实施例中目标检测方法，在目标检测方法基础之上，本申请实施例中还提供一种目标检测装置，如图6所示，为本申请实施例中目标检测装置的一个实施例结构示意图，该目标检测装置600包括：

获取单元601，用于获取包含目标物体的待检测图像，其中，所述目标物体是指待检测的物体；

提取单元602，用于对所述待检测图像进行特征提取处理，得到所述待检测图像的目标特征图；

预测单元603，用于根据所述目标特征图，预测所述目标物体的目标中心点区域数据、以及所述目标物体的目标偏移量数据，其中，所述目标偏移量数据是指所述目标物体的边框顶点与所述目标物体的中心点区域之间的坐标差值的数据；

生成单元604，用于根据所述目标中心点区域数据和所述目标偏移量数据，生成所述目标物体的目标检测框。

在本申请一种可能的实现方式中，所述提取单元602具体还用于：

在本申请一种可能的实现方式中，所述预测单元603具体还用于：

在本申请一种可能的实现方式中，所述目标检测装置还包括训练单元(图中未示出)，在所述将所述目标特征图输入训练好的预测网络，以输出所述目标物体的目标中心点区域数据、以及所述目标物体的目标偏移量数据步骤之前，所述训练单元具体用于：

在本申请一种可能的实现方式中，所述目标检测装置还包括第一分类单元(图中未示出)，所述第一分类单元具体用于：

在本申请一种可能的实现方式中，所述生成单元604具体还用于：

在本申请一种可能的实现方式中，所述目标检测装置还包括第二分类单元(图中未示出)，所述第二分类单元具体用于：

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由于该目标检测装置可以执行本申请如图1至图5对应任意实施例中目标检测方法中的步骤，因此，可以实现本申请如图1至图5对应任意实施例中目标检测方法所能实现的有益效果，详见前面的说明，在此不再赘述。

此外，为了更好实施本申请实施例中目标检测方法，在目标检测方法基础之上，本申请实施例还提供一种电子设备，参阅图7，图7示出了本申请实施例电子设备的一种结构示意图，具体的，本申请实施例提供的电子设备包括处理器701，处理器701用于执行存储器702中存储的计算机程序时实现如图1至图5对应任意实施例中目标检测方法的各步骤；或者，处理器701用于执行存储器702中存储的计算机程序时实现如图6对应实施例中各单元的功能。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器702中，并由处理器701执行，以完成本申请实施例。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

电子设备可包括，但不仅限于处理器701、存储器702。本领域技术人员可以理解，示意仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如电子备还可以包括输入输出设备、网络接入设备、总线等，处理器701、存储器702、输入输出设备以及网络接入设备等通过总线相连。

处理器701可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分。

存储器702可用于存储计算机程序和/或模块，处理器701通过运行或执行存储在存储器702内的计算机程序和/或模块，以及调用存储在存储器702内的数据，实现计算机装置的各种功能。存储器702可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的目标检测装置、电子设备及其相应单元的具体工作过程，可以参考如图1至图5对应任意实施例中目标检测方法的说明，具体在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请如图1至图5对应任意实施例中目标检测方法中的步骤，具体操作可参考如图1至图5对应任意实施例中目标检测方法的说明，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请如图1至图5对应任意实施例中目标检测方法中的步骤，因此，可以实现本申请如图1至图5对应任意实施例中目标检测方法所能实现的有益效果，详见前面的说明，在此不再赘述。

以上对本申请实施例所提供的一种目标检测方法、装置、电子设备及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的目标检测方法，其特征在于，所述对所述待检测图像进行特征提取处理，得到所述待检测图像的目标特征图，包括：

3.根据权利要求1所述的目标检测方法，其特征在于，所述根据所述目标特征图，预测所述目标物体的目标中心点区域数据、以及所述目标物体的目标偏移量数据，包括：

4.根据权利要求3所述的目标检测方法，其特征在于，所述将所述目标特征图输入训练好的预测网络，以输出所述目标物体的目标中心点区域数据、以及所述目标物体的目标偏移量数据，之前还包括：

5.根据权利要求4所述的目标检测方法，其特征在于，所述根据所述预测中心点区域数据、所述预测偏移量数据、所述中心点区域标签和所述偏移量标签，确定所述预设网络模型的模型参数，得到训练好的预测网络，包括：

6.根据权利要求5所述的目标检测方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的目标检测方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的目标检测方法，其特征在于，所述根据所述目标中心点区域数据和所述目标偏移量数据，生成所述目标物体的目标检测框，包括：

根据所述边框顶点数据，生成所述目标物体的目标检测框。

9.根据权利要求1所述的目标检测方法，其特征在于，所述方法还包括：

根据所述目标检测框，确定所述目标物体在所述待检测图像中的目标区域；

10.一种目标检测装置，其特征在于，所述目标检测装置包括：

11.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行如权利要求1至9任一项所述的目标检测方法。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1至9任一项所述的目标检测方法中的步骤。