CN110222780B

CN110222780B - 物体检测方法、装置、设备和存储介质

Info

Publication number: CN110222780B
Application number: CN201910507035.7A
Authority: CN
Inventors: 高晨昊; 赵鹏昊; 李曙鹏; 施恩; 谢永康; 喻友平; 吴甜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2021-06-11
Anticipated expiration: 2039-06-12
Also published as: CN110222780A

Abstract

本发明实施例公开了一种物体检测方法、装置、设备和存储介质。该方法包括：获取待检测图像；将所述待检测图像输入至物体检测模型中，确定所述待检测图像中的物体属性信息；其中，所述物体检测模型是通过采用根据样本图像集信息所确定的超参数，对初始网络模型进行训练得到的；所述超参数包括样本标注框在初始网络模型中特征图上的尺度权重。本发明实施例的方案以实现降低训练得到的物体检测模型的检测误差，提高物体检测效率和准确性。

Description

物体检测方法、装置、设备和存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种物体检测方法、装置、设备和存储介质。

背景技术

随着神经网络技术的发展，基于计算机视觉的物体检测方法已经广泛应用于新零售、泛安防等领域。物体检测是指根据待检测图像，确定待检测图像中包含的物体的位置和类别等物体属性信息。

目前，基于视觉的物体检测所采用的物体检测模型通常是基于包括公共数据图集及图集中各图像对应的物体属性信息作为训练样本，对初始网络模型进行训练得到的。但是，仅根据初始网络模型中的原有参数训练得到的物体检测模型，精度不高，在检测待测图像时，存在检测效率和准确度较低等缺陷。亟需改进。

发明内容

本发明实施例提供了一种物体检测方法、装置、设备和存储介质，以提高物体检测效率和准确性。

第一方面，本发明实施例提供了一种物体检测方法，该方法包括：

获取待检测图像；

将所述待检测图像输入至物体检测模型中，确定所述待检测图像中的物体属性信息；

其中，所述物体检测模型是通过采用根据样本图像集信息所确定的超参数，对初始网络模型进行训练得到的；

所述超参数包括样本标注框在初始网络模型中特征图上的尺度权重。

第二方面，本发明实施例还提供了一种物体检测装置，该装置包括：

图像获取模块，用于获取待检测图像；

信息确定模块，用于将所述待检测图像输入至物体检测模型中，确定所述待检测图像中的物体属性信息；

第三方面，本发明实施例还提供了一种设备，该设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的物体检测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的物体检测方法。

本发明实施例的技术方案，通过根据样本图像信息确定样本标注框在初始网络模型中特征图上的尺度权重，采用该尺度权重对初始网络模型进行训练得物体检测模型，进而基于该物体检测模型对获取的待检测图像进行检测，得到待检测图像中的物体属性信息。本发明实施例的技术方案，在训练物体检测模型时引入初始网络模型中特征图上的尺度权重作为超参数，解决了现有技术中训练物体检测模型时，标注框与特征图的尺寸不匹配不仅不能学习到这些标注框信息，反而会抑制对与其匹配的标注框的学习的问题，实现在训练物体检测模型时，对于与特征图尺度匹配的标注框，增大其对特征图的损失函数的影响；反之，对于与特征图尺度不匹配的标注框，减小其对特征图的损失函数的影响，进而降低了训练得到的物体检测模型的检测误差，提高了物体检测效率和准确性。

附图说明

图1A是本发明实施例一提供的一种物体检测方法的流程图；

图1B是本发明实施例一提供的初始网络模型的内部结构示意图；

图2A是本发明实施例二提供的一种物体检测方法的流程图；

图2B是本发明实施例二提供的一种物体检测模型的训练过程示意图；

图3是本发明实施例三提供的一种物体检测装置的结构框图；

图4是本发明实施例四提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1A是本发明实施例一提供的一种物体检测方法的流程图，图1B是本发明实施例一提供的初始网络模型的内部结构示意图；本实施例可适用于基于训练好的物体检测模型对任意待检测图像进行图像检测的情况。该方法可以由本发明实施例提供的物体检测装置或设备来执行，该装置可以采用软件和/或硬件的方式实现，该方法具体包括如下步骤：

S101，获取待检测图像。

其中，待检测图像可以是本发明实施例中需要进行物体检测的图像。本步骤中获取的待检测图像可以是一个，也可以是多个。

可选的，本发明实施例中，获取待检测图像的方法可以有很多，对此本发明实施例不进行限定。例如，可以是用户想要进行物体检测时，通过物体检测设备上传待检测图像，并触发物体检测指令(如点击检测按键)，当物体检测设备接收到用户触发的物体检测指令后，获取用户上传的待检测图像。还可以是在物体检测设备存在物体检测需求时(如用户点击检测按钮)，通过其上配置的摄像头或扫描仪等采集装置主动获取待检测图像等。

S102，将待检测图像输入至物体检测模型中，确定待检测图像中的物体属性信息。

其中，物体属性信息可以是待检测图像所包含的物体的相关信息，例如，可以包括但不限于：物体的位置、物体的类别、物体的大小等等。物体检测模型是预先训练好的专门用来解析图像中所包含的图像属性信息的模型。

可选的，本发明实施例中的物体检测模型可以是通过采用根据样本图像集信息所确定的超参数，对初始网络模型进行训练得到的。其中，样本图像集信息可以是构成样本集的各图像所包含的相关信息，如可以包括但不限于：图像的标识、采集时间以及图像中包含的标注框的信息等，进一步的，标注框的信息又可以包括：标注框的位置坐标信息、个数、标识以及所属样本图像等标签信息等。其中，样本标注框可以是在样本图像中设置一些不同形状和大小的边框，该边框用于框选样本图像中包含的物体。对于每个样本图像来说，其都对应有至少一个样本标注框。超参数可以是在对初始网络模型进行训练之前设置的参数，而不是通过训练得到的参数数据。本发明实施例在对初始网络模型进行训练之前引入超参数，基于超参数对初始网络模型进行训练，以提高学习训练的性能和效果，从而提高了训练好的物体检测模型的精准性。

可选的，本发明实施例中的超参数包括样本标注框在初始网络模型中特征图上的尺度权重。其中，本发明实施例中的初始网络模型可以是由至少一个卷积层组和多个不同尺度(如不同尺度比和宽高比)的特征图构成，可选的，一个特征图其可以作为至少一个卷积层组的输出参数，也可以作为至少一个卷积层组的输入参数。对于初始网络模型中的各特征图，其用途也一定不同，如有的特征图属于检测型特征图，主要用于检测物体的相关特征，有的特征图属于训练型特征图，主要用于训练初始网络模型。例如，图1B所示的初始网络模型中输入的原图尺寸是W×H，该模型中包括三个尺度的特征图(即W/2×H/2尺度的特征图1，W/4×H/4尺度的特征图2以及W/8×H/8尺度的特征图3)和三个卷积层组(即卷积层组1至卷积层组3)，其中，特征图1为卷积层组2(Conv2)的输入参数，特征图2为卷积层组2(Conv2)的输出参数，且特征图1为训练型特征图，特征图2和特征图3为检测型特征图。需要说明的是，对于一个初始网络模型来说，其特征图具体属于哪个类型，可以是由初始网络模型根据实际情况预先确定的。

其中，尺度权重可以是指针对初始网络模型中的每一个特征图，为其设置的各标样本注框的尺度在该特征图上对应的权重值。例如，若样本标注框为50个，针对特征图1，可以为这50个样本标注框设置其在特征图1上对应的尺度权重。如可以是为尺度与特征图尺度匹配(例如，相等或接近)的样本标注框设置较大的尺度权重，为尺度与特征图尺度不匹配的样本标注框设置较小的尺度权重。

可选的，本发明实施例中根据样本图像集信息，确定样本标注框在初始网络模型中特征图上的尺度权重的过程可以包括：根据样本标注框的尺度，以及初始网络模型中特征图的基础尺度，确定样本标注框在特征图上的尺度权重。具体的，可以通过下述公式，来确定样本标注框在特征图上的尺度权重：

其中，scale_weight_qr是指第q个样本标注框在第r个特征图上的尺度权重，s_q是第q个样本标注框的尺度，bs_r是指第r个特征图的基础尺度，max()是取最大值函数，||||是取范数。可选的，上述公式中的各样本标注框的尺度可以是在对样本图像集进行数据预处理阶段时计算得到的，具体计算方法后续实施例进行详细介绍；初始网络模型的各特征图的基础尺度是初始网络模型的固有参数，可以在构建初始网络模型后得到。

可选的，在基于样本图像集信息训练初始网络模型的过程中，通常会通过计算该模型的损失函数来判断训练后的模型精度是否达到要求，进而确定该模型是否训练完成。本发明实施例中的尺度权重可以是在训练初始网络模型的过程中，输入到初始网络模型的损失函数中，对初始网络模型的损失函数的计算公式进行优化。具体的，可以在训练初始网络模型的过程中，基于添加了尺度权重的损失函数来计算本次训练对应的损失数值，损失数值越小，说明训练得到的物体检测模型准确性越高。可以当计算得到的损失数值小于预设阈值时，说明该初始网络模型已经训练完成，得到物体检测模型。本发明实施例通过将尺度权重添加到损失函数的计算过程中，极大的提高了物体检测模型的训练效率，因为某些标注框只在与其尺度相匹配的特征图上进行分类和回归才是合理的，对尺度不匹配的标注框不仅不能使得该特征图学习到这些标注框的信息，反而会抑制该特征图对与尺度匹配的标注框的学习。而本实施例通过将尺度权重添加到损失函数的计算过程中，并为各样本标注框在不同的特征图上设置不同的尺度权重，将尺度不匹配的标注框的尺度权重设置的小些，将尺度匹配的标注框的尺度权重设置的大些，从而使得与当前特征图尺度匹配的标注框对该特征图的损失函数影响较大，而对于不匹的标注框对该特征图的损失函数影响较小，从而很好的解决了上述问题。

可选的，本发明实施例在训练物体检测模型的过程中，所涉及的超参数并不限于尺度权重，还可以包括：锚框的尺寸信息、初始网络模型的最大检测框数量值和初始网络模型的交并比阈值中的至少一项。本发明实施例中，通过设置不同维度的超参数训练物体检测模型，可以进一步提高训练得到的物体检测模型的准确性。具体如何基于多维度的超参数来训练物体检测模型的方法，将在后续实施例进行详细介绍。

可选的，本发明实施例中用于训练物体检测模型的样本图像集可以是公共图像集。但是考虑到公共图像集虽然数量庞大，但涵盖类型有限的问题，导致待检测图像的标注框的尺寸信息在分布上和公共数据集有偏离。所以本发明实施例在训练物体检测模型时，还可以选择大量的历史待检测对象作为样本图像集。

可选的，本发明实施例中，可以将S101中获取的待检测图像输入至预先基于超参数训练好的物体检测模型中，该物体检测模型会依据训练时的算法，对输入的待检测图像进行分析，从而确定出待检测图像中包含的物体的属性信息。

可选的，若待检测图像中包含的物体较多时，本发明实施例训练的物体检测模型还可以实现从图像中包含的多个物体中准确识别到目标物体，再检测目标物体所包含的物体的属性信息。例如，若S101中获取的待检测图像是护照图像，对于护照图像其上包含的物体有很多，如包括护照持有者的照片、护照信息以及条形码等，本发明实施例训练的物体检测模型就可以实现对护照图像中的条形码进行属性信息检测，如可以是将该护照图像输入训练好的物体检测模型中，该模型可以对输入的护照图像进行分析，先识别到护照图像中的条形码，进而确定并输出该条形码的位置信息、条形码的类别信息，以及条形码内部包含的信息等。

本发明实施例的物体检测方法，通过根据样本图像信息确定样本标注框在初始网络模型中特征图上的尺度权重，采用该尺度权重对初始网络模型进行训练得物体检测模型，进而基于该物体检测模型对获取的待检测图像进行检测，得到待检测图像中的物体属性信息。本发明实施例的技术方案，在训练物体检测模型时引入初始网络模型中特征图上的尺度权重作为超参数，解决了现有技术中训练物体检测模型时，标注框与特征图的尺寸不匹配不仅不能学习到这些标注框信息，反而会抑制对与其匹配的标注框的学习的问题，实现在训练物体检测模型时，对于与特征图尺度匹配的标注框，增大其对特征图的损失函数的影响；反之，对于与特征图尺度不匹配的标注框，减小其对特征图的损失函数的影响，进而降低了训练得到的物体检测模型的检测误差，提高了物体检测效率和准确性。

实施例二

图2A是本发明实施例二提供的一种物体检测方法的流程图，图2B是本发明实施例二提供的一种物体检测模型的训练过程示意图。本实施例在上述实施例的基础上，进行了进一步的优化，本发明实施例中训练初始网络模型所需的超参数不仅包括上述实施例所说的尺度权重，还可以包括：初始网络模型中锚框的尺寸信息、初始网络模型的最大检测框数量值和初始网络模型的交并比阈值中的至少一项。接下来，基于图2A-2B来介绍如何基于上述多维度的超参数训练得到物体检测模型的。

可选的，如图2B所示，本发明实施例训练物体检测模型分为两个阶段：模型训练阶段和数据预处理阶段。数据预处理阶段主要用于确定各超参数(如S201-S204)，模型训练阶段主要是基于确定的各超参数进行模型的训练(如S205)。可选的，在执行本发明实施例各步骤之前，可以预先计算样本图像集中包含的各样本标注框的尺寸信息(如可以包括但不限于各样本标注框的宽度、高度、宽高比和尺度等)，以便后续确定各超参数时使用。可选的，样本标注框的尺寸信息可以是通过样本图像信息中的各标注框信息确定。具体的，可以通过标注框信息中的位置坐标信息来确定。可选的，样本图像信息中的每一个标注框信息都可以由5个元素信息构成，即(x₁，x₂，y₁，y₂，label)，其中x₁和x₂为该标注框在x轴上的坐标，y₁和y₂为该标注框在y轴上的坐标，lable为该标注框的标签信息。则可以通过如下公式计算该标注框的宽度w，高度h，宽高比aspect_ratio以及尺度scale：

w＝x₂-x₁ (1)

h＝y₂-y₁ (2)

aspect_ratio＝(x₂-x₁)/(y₂-y₁) (3)

其中，W为标注框对应的样本图像原图的宽度；H为标注框对应的样本图像原图的高度。

具体的，如图2A-2B所示，该方法具体包括：

S201，根据样本标注框的尺度，以及初始网络模型中特征图的基础尺度，确定样本标注框在特征图上的尺度权重，作为超参数。

示例性的，在本步骤中，可以通过下述公式，来确定样本标注框在特征图上的尺度权重：

其中，scale_weight_qr是指第q个样本标注框在第r个特征图上的尺度权重，s_q是第q个样本标注框的尺度，bs_r是指第r个特征图的基础尺度，max()是取最大值函数，||||是取范数。可选的，上述公式(5)中的各样本标注框的尺度可以通过前述公式(4)确定。初始网络模型的各特征图的基础尺度可以是在构建初始网络后，就确定的该初始网络模型的固有参数。

S202，根据样本图像集信息，确定初始网络模型中锚框的尺寸信息作为超参数。

其中，所谓锚框就是在训练物体检测模型的过程中，常用的一种给定先验信息的方法，具体来说就是在图像的不同位置预先指定一些不同形状和大小的边框作为初始框，后续的模型训练就是在这些初始框的基础上进行长度和宽度上的回归和分类。这些初始框被称为锚框。锚框的尺寸信息可以包括锚框的宽高比值和尺度值。

可选的，在本发明实施例中，根据样本图像信息，确定初始网络模型中锚框的尺寸信息包括如下子步骤：

S2021，对样本图像集中包括的样本标注框的宽高比进行聚类，得到至少两个宽高比簇，并将至少两个宽高比簇的宽高比均值作为初始网络模型中锚框的宽高比值。

具体的，通过上述公式(3)计算各样本标注框的宽高比，然后对计算得到的所有样本标注框的宽高比进行聚类处理，如可以采用kmeans算法对所有的样本标注框的宽高比进行聚类处理，得到至少两个宽高比簇，然后对各宽高比簇中包含的宽高比求均值，将各宽高比簇对应的宽高比均值作为初始网络模型中的锚框的宽高比值。

S2022，对样本图像集中包括的样本标注框的尺度进行聚类，得到至少两个尺度簇，并将至少两个尺度簇的尺度均值作为初始网络模型中锚框的尺度值。

具体的，通过上述公式(4)计算各样本标注框的尺度，然后对计算得到的所有样本标注框的尺度进行聚类处理，如可以采用kmeans算法对所有的样本标注框的尺度进行聚类处理，得到至少两个尺度簇，然后对各尺度簇中包含的尺度求均值，将各尺度簇对应的尺度值均值作为初始网络模型中的锚框的尺度值。

示例性的，假设样本图像集中包括的样本标注框的宽高比集合为D₁＝{as₁,as₂,as₃...,as_N}，尺度集合为D₂＝{s₁,s₂,s₃...,s_N}，通过聚类算法对样本标注框的宽高比集合中的各宽高比进行聚类后，得到的宽高比簇目为M₁，对样本标注框的尺度集合中的各尺度进行聚类后，得到的尺度簇为M₂。则对各宽高比簇内的宽高比求均值，输出初始网络模型中锚框的宽高比值

对各尺度簇内的尺度求均值，输出初始网络模型中的锚框的尺度值

其中，as_i为第i个样本标注框的宽高比；s_i为第i个样本标注框的尺度；

为第i个宽高比簇的宽高比均值；

为第i个尺度簇的尺度均值。

需要说明的是，在实际操作中，需要考虑各种边界情况，当样本标注框的数量少于预设个数(如50个)时，需要做一定的标注增强，可以是增加样本标注框的宽高比集合以及尺度集合中的元素数量，如可以将(0.2，0.5，1，2，5)这5个宽高比加入样本标注框的宽高比集合中，再次进行聚类操作。在某些情况下，多次迭代聚类，会因为增加的随机宽高比或尺度处于循环状态，此时可以重新设置增加的随机宽高比或尺度。

S203，根据样本图像集信息，确定初始网络模型的最大检测框数量值作为超参数。

其中，检测框可以是在检测待检测图像时，预先设置的一些不同形状和大小的边框，该边框用于检测待测图像中的物体。初始网络模型的最大检测框数量值可以是指对于任意一张待检测图像，该模型可以检测的最大检测框数量值。例如，若初始网络模型的最大检测框数量值为100，则基于该初始网络模型训练得到的物体检测模型对于一张待检测图像最多可以检测其中的100个检测框。

可选的，本发明实施例为了避免一张图像中包含的物体较多，使得检测框数量过多，超过了初始网络模型的初始检测框数量阈值，从而导致无法检测出目标物体的情况发生，可以根据样本图像集，对初始网络模型的最大检测框数量进行调整。具体的，对于样本图像集中的每一个样本图像，其中都包含有至少一个样本标注框，所以初始网络模型的最大检测框数量可以是根据样本图像集中样本图像的标注框数量，确定样本图像集的最大标注框数量，并将其作为最大检测框数量。如可以是通过如下公式确定出初始网络模型的最大检测框数量并将其输入初始检测模型中：

detection_num_output＝max(detection_num) (6)

其中detection_num_output为初始网络模型的最大检测框数量；detection_num为各样本图像中包含的最大检测框数量；max()是取最大值函数。

可选的，对于每一个初始网络模型，其通常会对应一个原有的初始检测框数量阈值(如100)，为了保证本步骤确定的初始网络模型的最大检测框数量值能够检测尽可能多的待检测图像，本发明实施例在确定最大检测框数量时，还可以是根据样本图像集中样本图像的标注框数量，确定样本图像集的最大标注框数量；若样本图像集的最大标注框数量大于初始网络模型的初始检测框数量阈值，则将所述样本图像集的最大标注框数量作为初始网络模型的最大检测框数量值；若样本图像集的最大标注框数量小于或等于初始网络模型的初始检测框数量阈值，则将初始检测框数量阈值作为初始网络模型的最大检测框数量值。如可以是通过下述公式确定初始网络模型的最大检测框数量：

detection_num_output＝max(初始检测框数量阈值，detection_num) (7)

其中，detection_num_output为初始网络模型的最大检测框数量；detection_num为各样本图像中包含的最大检测框数量；max()是取最大值函数。

需要说明的是，对于样本图像的检测框数量可以是样本图像集信息中就包含的，直接从各样本图像信息中获取即可。

S204，根据样本图像集信息，确定初始网络模型的交并比阈值作为超参数。

其中，交并比(Intersection-over-Union，IoU)可以是目标检测中使用的一个概念，是样本图像中的标注框之间的交叠率，即它们的交集与并集的比值。最理想情况是完全重叠，即比值为1。

可选的，在本步骤中，根据样本图像集信息，确定初始网络模型的交并比阈值的过程可以包括如下两个子步骤：

S2041，根据样本图像中标注框之间的交并比值，确定样本图像集的最大交并比值。

示例性的，对于任意一张样本图像中包含的两个标注框：即标注框A和标注框B，其对应的交并比IoU为：

本发明实施例可以是针对每一个样本图像，都对其中的标注框两两计算交并比，对样本图像集中的所有样本图像都计算完成后，假设一共计算得到了K个IoU值，则在这K个IoU值中选择数值最大的IoU值作为样本图像集的最大交并比值IoU_max。

S2042，将样本图像集的最大交并比值与第一数值之和，作为第二数值；若第二数值小于初始网络模型的初始交并比阈值，则将第二数值作为初始网络模型的交并比阈值。

示例性的，在初始网络模型中的卷积神经网络的后处理过程中，例如在卷积神经网络的NMS(Non Maximum Suppression，非极大值抑制)处理中，会根据一个阈值过滤过于接近的标注框，如这个阈值可以为0.5，但在某些样本图像集中，如果交并比IoU_max很小，那么在NMS网络后处理过程中太大的阈值就会失去价值，为了保证无论是在预测还是训练阶段，所有的标注框或预测框之间能够平均IoU值，满足训练的分布，本发明实施例可以通过如下公式来确定初始网络模型的交并比阈值IoU_threshold：

IoU_threshold＝min(第二数值,IoU_max+第一数值) (8)

可选的，第一数值是初始网络模型的交互比下限值，第一数值小于第二数值，例如第一数值可以预设为0.1，第二数值可以预设为0.45，即

IoU_threshold＝min(0.45,IoU_max+0.1) (9)

S205，基于各超参数，对初始网络模型进行训练得到训练好物体检测模型。

示例性的，在基于超参数对初始网络模型进行训练阶段，不同样本标注框在特征图上的尺度权重不同，此时可以如2B所示，将基于预处理阶段S201计算得到的样本标注框在特征图上的尺度权重插入到损失函数中，对分类或回归损失函数的计算公式进行优化。具体的，可以是根据样本标注框在特征图上的尺度权重，对各样本标注框在特征图上的损失函数进行加权求和，得到初始网络模型的损失函数。

如以SSD中分类损失函数(conf loss)为例，分类损失函数为：

其中，

是第i个锚框在类别p上的置信度，

是第i个锚框与第j个标注框在类别p上的匹配度，L_conf(x,c)是分类损失函数；

为基础类别的损失函数。

在上述公式中加入尺度权重(即scale_weight)后，假设第i个锚框所在的特征图尺度为r，其对应的scale_weight为scale_weight_r，则上述分类损失函数可以优化为：

其中，

是第i个锚框在类别p上的置信度，

为基础类别的损失函数；scale_weight_ir是第i个锚框在尺度为r的特征图上的尺度权重。

可选的，在得到上述初始网络模型的损失函数之后，可以是根据数据预处理阶段S202得到的初始网络模型中锚框的尺度值，生产先验锚框，并在训练初始网络模型过程中，对生产的先验锚框进行回归和分类处理。具体的，在一个神经网络特征图

上，一般会生成w_T×h_T×(M₁×M₂)个锚框，其中w_T和h_T分别为该特征图的宽度和高度；M₁为对样本标注框的宽高比值集合进行聚类后得到的宽高比簇目；M₂为对样本标注框的尺度值集合进行聚类后得到的尺度簇目。

对于某个宽高比均值

与某个尺度均值

的组合，生成的锚框在某一层特征图上具有如下的高度和宽度：

其中，W和H为模型输入图像的宽度和高度。

可选的，目前常用的物体检测方法，如RetinaNet算法和SSD算法，在生成锚框的时候都需要传入不同尺度神经网络特征图对应锚框的参数。现有的方法在处理这些超参数时，使用的是经验性选择的方法，并没有针对特殊数据集做优化。而实际进行训练的样本图像集是纷繁多样的，不同样本图像集有着不同的标注框分布，利用预处理阶段生成的超参，可以直接传入训练模型生成不同宽高的锚框。这些锚框在分布上是符合原始图像集的。

可选的，对先验锚框进行回归与分类后，在模型输出阶段，可以使用数据预处理阶段S203确定的初始网络模型的最大检测框数量值作为输出层的超参数，避免一张图中因为检测框过多而无法检测出来的情况。

最后在NMS的后处理阶段，使用数据预处理阶段S204中确定初始网络模型的交并比阈值作为超参数，带入NMS后处理计算中，进而完成对模型的训练。当对初始网络模型完成一次训练后，可以通过添加了尺度权重的损失函数，计算损失函数的数值是否小于预设阈值，如果小于则说明训练完成，得到物体检测模型，否则需要选择下一组样本图像集对该模型继续训练，直到最后损失函数的数组小于预设阈值为止。

S206，获取待检测图像。

S207，将待检测图像输入至物体检测模型中，确定待检测图像中的物体属性信息。

需要说明的是，上述训练物体识别模型时所对应的超参数，其中，尺度权重仅用于物体检测模型训练节点，而对于锚框的尺寸信息、初始网络模型的最大检测框数量值和初始网络模型的交并比阈值中的至少一项即用于物体检测模型训练时，又用于待检测图像的预测的图像。此外，S201-S204确定的四种超参数可以单独存在一种，或多种同时存在，存在的超参数种类越多，最终训练得到的物体检测模型越准确。

需要说明的是，由于对图像中的物体进行检测的过程是先通过选框框选图像的不同区域，进而判断该区域是否存在需要识别和检测的物体，该选框在物体检测过程的不同阶段，对应的命名也不同。例如，在样本数据处理阶段，各样本图像中的选框称为标注框，在物体检测模型训练阶段，为各特征图设置的选框称为锚框，在物体检测阶段，为待检测图像设置的选框称为检测框。

本发明实施例的区域兴趣点的物体检测方法，通过在训练初始网络模型前，基于样本图像集信息确定多维度的超参数，如尺度权重、初始网络模型中锚框的尺寸信息、初始网络模型的最大检测框数量值和初始网络模型的交并比阈值等，基于多维度的超参数和样本图像集训练初始网络模型，获取待检测图像，基于训练好的网络模型检测该图像的物体属性信息。本发明实施例在训练物体检测模型时，增加超参数尺度权重和锚框的尺寸信息，来对初始网络模型进行训练，极大的提高了训练得到的物体检测模型的准确性；增加超参数初始网络模型的最大检测框数量值，避免了对包含检测框较多的图像无法检测出物体属性信息的情况出现；增加超参数初始网络模型的交并比阈值，显著提高了NMS后处理效率，进而提高了物体检测效率和准确性。

实施例三

图3是本发明实施例三提供的一种物体检测装置的结构框图，该装置可执行本发明上述任意实施例所提供的物体检测方法，具体执行方法相应的功能模块和有益效果。如图3所示，该装置包括：

图像获取模块301，用于获取待检测图像；

信息确定模块302，用于将所述待检测图像输入至物体检测模型中，确定所述待检测图像中的物体属性信息；

本发明实施例的物体检测装置，通过根据样本图像信息确定样本标注框在初始网络模型中特征图上的尺度权重，采用该尺度权重对初始网络模型进行训练得物体检测模型，进而基于该物体检测模型对获取的待检测图像进行检测，得到待检测图像中的物体属性信息。本发明实施例的技术方案，在训练物体检测模型时引入初始网络模型中特征图上的尺度权重作为超参数，解决了现有技术中训练物体检测模型时，标注框与特征图的尺寸不匹配不仅不能学习到这些标注框信息，反而会抑制对与其匹配的标注框的学习的问题，实现在训练物体检测模型时，对于与特征图尺度匹配的标注框，增大其对特征图的损失函数的影响；反之，对于与特征图尺度不匹配的标注框，减小其对特征图的损失函数的影响，进而降低了训练得到的物体检测模型的检测误差，提高了物体检测效率和准确性。

进一步的，上述装置还包括：

尺度权重确定模块，用于根据样本标注框的尺度，以及初始网络模型中特征图的基础尺度，确定样本标注框在特征图上的尺度权重。

进一步的，上述尺度权重确定模块通过如下公式，确定样本标注框在特征图上的尺度权重：

其中，scale_weight_qr是指第q个样本标注框在第厂个特征图上的尺度权重，s_q是第q个样本标注框的尺度，bs_r是指第厂个特征图的基础尺度，max()是取最大值函数，||||是取范数。

进一步的，上述装置还包括：

损失函数确定模块，用于根据样本标注框在特征图上的尺度权重，对所述样本标注框在特征图上的损失函数进行加权求和，得到初始网络模型的损失函数。

进一步的，所述超参数还包括初始网络模型中锚框的尺寸信息、初始网络模型的最大检测框数量值和初始网络模型的交并比阈值中的至少一项。

进一步的，上述装置还包括锚框尺寸确定模块，该模块具体用于：

对样本图像集中包括的样本标注框的宽高比进行聚类，得到至少两个宽高比簇，并将所述至少两个宽高比簇的宽高比均值作为初始网络模型中锚框的宽高比值；

对样本图像集中包括的样本标注框的尺度进行聚类，得到至少两个尺度簇，并将所述至少两个尺度簇的尺度均值作为初始网络模型中锚框的尺度值。

进一步的，上述装置还包括检测框数值确定模块，该模块具体用于：

根据样本图像集中样本图像的标注框数量，确定样本图像集的最大标注框数量；

若所述样本图像集的最大标注框数量大于初始网络模型的初始检测框数量阈值，则将所述样本图像集的最大标注框数量作为初始网络模型的最大检测框数量值。

进一步的，上述装置还包括交并比确定模块，该模块具体用于：

根据样本图像中标注框之间的交并比值，确定样本图像集的最大交并比值；

将所述样本图像集的最大交并比值与第一数值之和，作为第二数值；

若所述第二数值小于初始网络模型的初始交并比阈值，则将所述第二数值作为初始网络模型的交并比阈值。

实施例四

图4是本发明实施例四提供的一种设备的结构示意图，图4示出了适于用来实现本发明实施例实施方式的示例性设备的框图。图4显示的设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，设备400以通用计算设备的形式表现。设备400的组件可以包括但不限于：一个或者多个处理器或者处理单元416，存储器428，连接不同系统组件(包括存储器428和处理单元416)的总线418。

总线418表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备400典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备400访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器428可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)430和/或高速缓存存储器432。设备400可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储器428可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明实施例各实施例的功能。

具有一组(至少一个)程序模块442的程序/实用工具440，可以存储在例如存储器428中，这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明实施例所描述的实施例中的功能和/或方法。

设备400也可以与一个或多个外部设备414(例如键盘、指向设备、显示器424等)通信，还可与一个或者多个使得用户能与该设备400交互的设备通信，和/或与使得该设备400能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且，设备400还可以通过网络适配器420与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图4所示，网络适配器420通过总线418与设备400的其它模块通信。应当明白，尽管图4中未示出，可以结合设备400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元416通过运行存储在存储器428中的程序，从而执行各种功能应用以及数据处理，本发明实施例的设备可以实现本发明任一实施例所提供的物体检测方法。

实施例五

本发明实施例五还提供一种计算机可读存储介质，其上存储有计算机程序(或称为计算机可执行指令)，该程序被处理器执行时可以用于执行一种物体检测方法，该方法包括：

获取待检测图像；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或设备上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明实施例进行了较为详细的说明，但是本发明实施例不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种物体检测方法，其特征在于，所述方法包括：

获取待检测图像；

所述超参数包括样本标注框在初始网络模型中特征图上的尺度权重；

其中，根据样本图像集信息，确定样本标注框在初始网络模型中特征图上的尺度权重包括：

在对所述初始网络模型训练之前，根据样本标注框的尺度，以及初始网络模型中特征图的基础尺度，确定样本标注框在特征图上的尺度权重；所述特征图的基础尺度是所述初始网络模型的固有参数。

2.根据权利要求1所述的方法，其特征在于：根据样本标注框的尺度，以及初始网络模型中特征图的基础尺度，确定样本标注框在特征图上的尺度权重，包括：

通过如下公式，确定样本标注框在特征图上的尺度权重：

其中，scale_weight_qr是指第q个样本标注框在第r个特征图上的尺度权重，s_q是第q个样本标注框的尺度，bs_r是指第r个特征图的基础尺度，max()是取最大值函数，||||是取范数。

3.根据权利要求1所述的方法，其特征在于，还包括：

根据样本标注框在特征图上的尺度权重，对所述样本标注框在特征图上的损失函数进行加权求和，得到初始网络模型的损失函数。

4.根据权利要求1所述的方法，其特征在于，所述超参数还包括初始网络模型中锚框的尺寸信息、初始网络模型的最大检测框数量值和初始网络模型的交并比阈值中的至少一项。

5.根据权利要求4所述的方法，其特征在于，根据样本图像集信息，确定初始网络模型中锚框的尺寸信息包括：

6.根据权利要求4所述的方法，其特征在于，根据样本图像集信息，确定初始网络模型的最大检测框数量值包括：

7.根据权利要求4所述的方法，其特征在于，根据样本图像集信息，确定初始网络模型的交并比阈值，包括：

8.一种物体检测装置，其特征在于，所述装置包括：

图像获取模块，用于获取待检测图像；

其中，所述装置还包括：尺度权重确定模块，用于在对所述初始网络模型训练之前，根据样本标注框的尺度，以及初始网络模型中特征图的基础尺度，确定样本标注框在特征图上的尺度权重；所述特征图的基础尺度是所述初始网络模型的固有参数。

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的物体检测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的物体检测方法。