CN116188789A

CN116188789A - 目标检测方法、检测装置及计算机可读存储介质

Info

Publication number: CN116188789A
Application number: CN202211545485.3A
Authority: CN
Inventors: 王科洋; 邵明
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-05-30

Abstract

本申请公开了一种目标检测方法、检测装置及计算机可读存储介质，该方法包括：获取对目标图像进行特征提取的目标特征图；根据目标区域中至少一个第一像素点各自对应的预测类别，确定目标区域对应的目标类别，其中，目标区域是滑窗在目标特征图上滑动时，滑窗每次所框选的区域；根据目标区域中至少一个第二像素点各自到目标检测框的预测距离以及至少一个第二像素点的位置，确定目标区域对应的目标检测框，其中，任意第一像素点与任意第二像素点不重合；根据目标区域对应的目标类别以及目标检测框，确定目标图像中目标对象的类别以及位置。本申请的目标检测方法能够提高目标检测的准确率。

Description

目标检测方法、检测装置及计算机可读存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种目标检测方法、检测装置及计算机可读存储介质。

背景技术

目标检测技术作为计算机视觉领域中非常重要的上游任务之一，其发展为计算机下游任务奠定了基础。目标检测任务主要是找出图像或视频中人们感兴趣的目标的位置，并正确地对这些目标进行分类。目前虽然目标检测技术已经被广泛应用到日常生活和工业生产等各个领域，如智能交通、智能家居、智能医疗、自动驾驶等，但是其检测的准确率还有待进一步提高。

发明内容

本申请提供一种目标检测方法、检测装置及计算机可读存储介质，能够提高目标检测的准确率。

本申请实施例第一方面提供一种目标检测方法，所述方法包括：获取对目标图像进行特征提取的目标特征图；根据目标区域中至少一个第一像素点各自对应的预测类别，确定所述目标区域对应的目标类别，其中，所述目标区域是滑窗在所述目标特征图上滑动时，所述滑窗每次所框选的区域；根据所述目标区域中至少一个第二像素点各自到目标检测框的预测距离以及所述至少一个第二像素点的位置，确定所述目标区域对应的所述目标检测框，其中，任意所述第一像素点与任意所述第二像素点不重合；根据所述目标区域对应的所述目标类别以及所述目标检测框，确定所述目标图像中目标对象的类别以及位置。

本申请实施例第二方面提供一种目标检测装置，所述目标检测装置包括处理器、存储器以及通信电路，所述处理器分别耦接所述存储器、所述通信电路，所述存储器中存储有程序数据，所述处理器通过执行所述存储器内的所述程序数据以实现上述任一项方法中的步骤。

本申请实施例第三方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序能够被处理器执行以实现上述方法中的步骤。

有益效果是：本申请针对目标区域进行分类检测以及定位检测所基于的像素点不同，将分类检测和定位检测进行了解耦处理，能够缓解分类和定位任务的特征冲突问题，进而能够提高目标检测的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1是本申请目标检测方法一实施方式的流程示意图；

图2是现有技术像素点与目标检测框的示意图；

图3是本申请像素点与目标检测框的示意图；

图4是本申请目标神经网络的结构示意图；

图5是本申请目标检测装置一实施方式的结构示意图；

图6是本申请目标检测装置另一实施方式的结构示意图；

图7是本申请计算机可读存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

需要说明的是，本申请中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

参阅图1，图1是本申请目标检测方法一实施方式的流程示意图，该方法包括：

S110：获取对目标图像进行特征提取的目标特征图。

具体地，预先对目标图像进行特征提取，得到目标特征图，其中在对目标图像进行特征提取时，可以对目标图像进行多层特征提取，每层提取得到一张目标特征图。

也就是说，对目标图像进行特征提取得到的目标特征图可以是一张，也可以是多张，但是不管目标特征图是一张，还是多张，针对每张目标特征图都进行相同的处理。其中，本申请以对一张目标特征图进行处理进行示意说明。

S120：根据目标区域中至少一个第一像素点各自对应的预测类别，确定目标区域对应的目标类别，其中，目标区域是滑窗在目标特征图上滑动时，滑窗每次所框选的区域。

具体地，利用预设尺寸的滑窗在目标特征图上进行滑动，以遍历目标特征图，其中将滑窗每次在目标特征图上所框选的区域定义为目标区域。滑窗的尺寸可以是2×2、3×3或者4×4等，在此不做限制，且滑窗每次滑动的步长可以是1个像素点、2个像素点或者3个像素点等。可以理解的是，当滑窗滑动的步长为1个像素点时，滑窗的中心点依次与目标特征图上的每个像素点都重合，从而得到的目标区域与目标特征图上的像素点一一对应。

其中针对滑窗每次所框选的目标区域，都进行分类检测以及定位检测，即执行每个目标区域都执行步骤S120以及步骤S130，下面以针对一个目标区域进行处理进行说明。其中，对目标区域进行分类检测的目的就是确定目标区域对应的目标类别，对目标区域进行定位检测的目的就是确定目标区域对应的目标检测框。

其中在得到每个目标区域对应的目标类别以及目标检测框后，最终根据所有目标特征图中所有目标区域对应的目标类别，确定目标图像中各个目标对象的类别，根据所有目标特征图中所有目标区域对应的目标检测框，确定目标图像中各个目标对象的检测框，也就是各个目标对象的位置。

同时目标区域中存在至少一个第一像素点，在对目标区域进行分类检测时，对目标区域中的至少一个第一像素点进行类别预测，得到每个第一像素点的预测类别，然后根据每个第一像素点的预测类别，得到目标区域对应的目标类别。

其中，当第一像素点的数量是一个时，可以直接将第一像素点的预测类别确定为目标区域对应的目标类别，当第一像素点的数量为多个时，可以综合多个第一像素点的预测类别，得到目标区域对应的目标类别。例如，如果第一像素点的数量为3个，其中2个第一像素点的预测类别均是类别A，1个第一像素点的预测类别是类别B，则确定目标区域对应的目标类别是类别A。

其中，本申请在进行类别预测时，可以进行多类别预测，例如类别数量为3个，分别为动物、人、车辆，在对第一像素点进行类别预测时，确定该第一像素点对应的概率值1、概率值2以及概率值3，概率值1、概率值2以及概率值3分别表示该第一像素点对应的类别是动物、人、车辆的概率。因此第一像素点对应的预测类别可以具体是一个向量，该向量包括该第一像素点对应各个类别的概率值。相应地，目标区域的目标类别也可以是向量，该向量包括该目标区域对应各个类别的概率值。

S130：根据目标区域中至少一个第二像素点各自到目标检测框的预测距离以及至少一个第二像素点的位置，确定目标区域对应的目标检测框，其中，任意第一像素点与任意第二像素点不重合。

具体地，目标区域所包括的第二像素点可以是一个，也可以是多个。当目标区域中第二像素点的数量为一个时，预测第二像素点到目标检测框各个边框的距离，然后根据预测得到的距离以及该第二像素点的位置，确定目标检测框各个边框的位置，最终确定目标区域对应的目标检测框；当第二像素点的数量是多个时，预测多个第二像素点到目标检测框相应边框的距离，然后根据预测得到的距离以及各个第二像素点的位置，确定目标检测框各个边框的位置，最终确定目标区域对应的目标检测框，例如，第二像素点的数量为两个，其中预测一个第二像素点到目标检测框上边框的距离1以及到左边框的距离2，并根据距离1、距离2以及该第二像素点的位置，可以确定目标检测框的上边框位置以及左边框位置，同时预测另一个第二像素点到目标检测框右边框的距离3以及到下边框的距离4，并根据距离3、距离4以及该第二像素点的位置，可以确定目标检测框的右边框位置以及下边框位置，从而根据上边框位置、左边框位置、右边框位置以及下边框位置，可以确定目标检测框。

总之，第一像素点的数量可以是一个，也可以是多个，具体可以根据实际需求进行设置，在此不做限制。

在本实施方式中，在目标区域中，任何一个第一像素点与任何一个第二像素点均不重合，也就是说，针对目标区域进行分类检测以及定位检测所基于的像素点不同。

如图2所示，在现有技术中，在预测目标区域的目标类别以及目标检测框时，均是基于目标区域的中心像素点进行，对于中心像素点，预测其对应的类别而得到目标区域的目标类别，以及预测其与对应的目标检测四个边框的距离，然后基于这四个距离以及中心像素点的位置得到目标检测框的位置，现有技术忽略了类别检测和定位检测所需要的特征响应点存在空间上的冲突，没有考虑到定位特征和类别特征通常分布在不同的像素点上，因此现有技术进行目标检测的准确率有待进一步提高。

但是从本申请的上述内容可以看出，本申请针对目标区域进行分类检测以及定位检测所基于的像素点不同，将分类检测和定位检测进行了解耦处理，能够缓解分类和定位任务的特征冲突问题，因此本申请的方法可以提高目标检测的准确率。

S140：根据目标区域对应的目标类别以及目标检测框，确定目标图像中目标对象的类别以及位置。

具体地，最终根据所有目标特征图中所有目标区域对应的目标类别，确定目标图像中各个目标对象的类别，根据所有目标特征图中所有目标区域对应的目标检测框，确定目标图像中各个目标对象的检测框，也就是各个目标对象的位置。其中，步骤S140的具体过程属于现有技术，在此不做具体介绍。

在本实施方式中，至少一个第一像素点包括目标区域的中心像素点；至少一个第二像素点包括分布在中心像素点周边的多个像素点。

具体地，结合图3，考虑到类别检测所需要的信息一般是分布在物体中心、具有判别性的语义信息，而目标区域的中心像素点含有丰富的语义信息，因此对中心像素点进行类别预测，得到中心像素点的预测类别，然后根据中心像素点的预测类别，得到目标区域的目标类别，例如，将中心像素点的预测类别，确定为目标区域的目标类别。

而进行定位检测所需要的信息一般是分布在物体边缘、反映物体边界的细节信息，因此设置对应的至少一个第二像素点包括分布在中心像素点周边的多个像素点。该多个像素点分布在中心像素点的周围，且该多个像素点到中心像素点之间的距离可以相等，也可以不等，同时在该多个像素点中，任意相邻的两个像素点的间距可以相等，也可以不等，在此不做限制。继续参阅图3，在本实施方式中，至少一个第二像素点包括分别位于中心像素点的左上角、右上角、左下角以及右上角的第一目标像素点、第二目标像素点、第三目标像素点以及第四目标像素点，第一目标像素点、第二目标像素点、第三目标像素点以及第四目标像素点均与中心像素点相邻，此时步骤S130具体包括：

S131：根据第一目标像素点到目标检测框左边框的第一预测距离L以及第一目标像素点的位置，确定目标检测框的左边框。

具体地，第一目标像素点位于中心像素点的左上角，而考虑到位于中心像素点左上角的像素点更加能够反映目标的左边界情况，因此预测第一目标像素点到目标检测框左边框的第一预测距离L，然后根据第一预测距离L以及第一目标像素点的位置，得到目标检测框的左边框。

S132：根据第二目标像素点到目标检测框上边框的第二预测距离T以及第二目标像素点的位置，确定目标检测框的上边框。

具体地，第二目标像素点位于中心像素点的右上角，而考虑到位于中心像素点右上角的像素点更加能够反映目标的上边界情况，因此预测第二目标像素点到目标检测框上边框的第二预测距离T，然后根据第二预测距离T以及第二目标像素点的位置，确定目标检测框的上边框。

S133：根据第三目标像素点到目标检测框下边框的第三预测距离D以及第三目标像素点的位置，确定目标检测框的下边框。

具体地，第三目标像素点位于中心像素点的左下角，而考虑到位于中心像素点左下角的像素点更加能够反映目标的下边界情况，因此预测第三目标像素点到目标检测框下边框的第三预测距离D，然后根据第三预测距离D以及第三目标像素点的位置，得到目标检测框的下边框。

S134：根据第四目标像素点到目标检测框右边框的第四预测距离R以及第四目标像素点的位置，确定目标检测框的右边框。

具体地，第四目标像素点位于中心像素点的右下角，而考虑到位于中心像素点右下角的像素点更加能够反映目标的右边界情况，因此预测第四目标像素点到目标检测框右边框的第四预测距离R，然后根据第四预测距离R以及第四目标像素点的位置，得到目标检测框的右边框。

需要说明的是，本申请对第二像素点并不做限制，例如，在其他实施方式中，至少一个第二像素点可以仅仅包括第一目标像素点以及第四目标像素点，然后根据第一目标像素点到目标检测框左边框的预测距离、到目标检测框上边框的预测距离以及第一目标像素点的位置，确定目标检测框的左边框以及上边框，根据第四目标像素点到目标检测框下边框的预测距离、到目标检测框右边框的预测距离以及第四目标像素点的位置，确定目标检测框的下边框以及右边框。

或者其他实施方式中，第二像素点还可以是不同于第一目标像素点、第二目标像素点、第三目标像素点、第四目标像素点的其他任意像素点，第一像素点也可以是除了中心像素点之外的其他任意像素点，只要保证第一像素点、第二像素点处于目标区域中且第二像素点与第一像素点不重合即可。

在本实施方式中，当至少一个第二像素点包括分布在中心像素点周边的多个像素点时，如果目标区域的中心像素点分布在目标特征图的边界上，则此时分布在中心像素点周围的多个像素点可能无法同时存在于目标特征图上，而此时如果再基于多个第二像素点进行定位检测则毫无意义，因此在本实施方式中，在步骤S130之前，还包括：

S150：判断目标区域的中心像素点是否处于目标特征图的边界上；

其中，如果中心像素点处于目标特征图的边界上，则执行步骤S160，但是如果中心像素点不处于目标特征图的边界上，则执行步骤S130。

S160：根据中心像素点到目标检测框各个边框的预测距离以及中心像素点的位置，确定目标检测框。

具体地，如果目标区域的中心像素点处于目标特征图的边界上，则直接预测中心像素点到目标检测框4个边框的预测距离，然后根据该4个预测距离以及中心像素点的位置，确定目标检测框，但是如果中心像素点不处于目标特征图的边界上，则直接执行步骤S130。

结合图4，为了提高对目标特征图进行处理的准确率以及效率，利用目标神经网络100对目标特征图进行处理，具体地，步骤S120中利用目标神经网络100中的分类分支110预测目标区域中至少一个第一像素点各自的预测类别，同时利用分类分支110根据至少一个第一像素点各自的预测类别，确定目标区域的目标类别；步骤S130中利用目标神经网络100中的定位分支120预测目标区域中至少一个第二像素点各自到目标检测框的预测距离；同时在定位分支120输出预测值之后，根据至少一个第二像素点各自到目标检测框的预测距离以及至少一个第二像素点的位置，确定目标检测框。

具体地，在将目标图像送入骨架网络中后，骨架网络对目标图像进行多层特征提取，每层得到一张目标特征图，然后将每一层提取到的目标特征图都输入目标神经网络100进行处理。其中目标神经网络100对每张目标特征图都进行相同的处理，下面以处理一张目标特征图为例进行说明：

目标神经网络100在接收到目标特征图后，一方面利用分类分支110对目标特征图进行预测，得到每个目标区域对应的目标类别，其中每个目标区域对应的目标类别可以是一个向量，该向量包括该目标区域对应各个类别的概率值。

另一方面利用定位分支120对目标特征图进行预测，得到每个目标区域中每个第二像素点到所处目标区域对应的目标检测框的距离。例如，当目标区域中的至少一个第二像素点包括第一目标像素点、第二目标像素点、第三目标像素点以及第四目标像素点时，针对每个目标区域，定位分支120能够得到第一目标像素点对应的第一预测距离，第二目标像素点对应的第二预测距离，第三目标像素点对应的第三预测距离以及第四目标像素点对应的第四预测距离。

其中，分类分支110对每个目标区域的预测过程相同，定位分支120对每个目标区域的预测过程相同，为了便于说明，以分类分支110以及定位分支120对一个目标区域进行预测进行示意说明。

在定位分支120输出目标区域中每个第二像素点对应的预测距离后，后续根据每个第二像素点对应的预测距离以及每个第二像素点的位置，确定每个目标区域对应的目标检测框。

下面介绍目标神经网络100的训练过程：

S210：获取对样本图像进行特征提取的样本特征图。

S220：利用分类分支110预测样本区域中至少一个第三像素点各自的预测类别，同时利用分类分支110根据至少一个第三像素点各自的预测类别，确定样本区域的样本类别，其中，样本区域是滑窗在样本特征图上滑动时，滑窗每次所框选的区域。

具体地，分类分支110对样本特征图处理的过程，与上述分类分支110对目标特征图处理的过程相同。

S230：利用定位分支120预测样本区域中至少一个第四像素点各自到样本检测框的预测距离，其中，样本检测框与样本区域对应，任意第三像素点与任意第四像素点不重合。

具体地，定位分支120对样本特征图处理的过程，与上述定位分支120对目标特征图处理的过程相同。

其中，至少一个第三像素点在样本区域中的分布情况，与至少一个第一像素点在目标区域中的分布情况相同，至少一个第四像素点在样本区域中的分布情况，与至少一个第二像素点在样本区域中的分布情况相同，以及至少一个第四像素点相对至少一个第三像素点的位置，和至少一个第二像素点相对至少一个第一像素点的位置关系相同。

例如，如果目标区域中的第一像素点为目标区域的中心像素点且第二像素点的数量为4个，4个第二像素点分别位于在第一像素点的左上角、右上角、左下角以及右下角，则样本区域中的第三像素点也为样本区域的中心像素点且第四像素点的数量也为4个，4个第四像素点也分别位于第三像素点的左上角、右上角、左下角以及右下角。

S240：根据样本区域对应的样本类别以及标签类别，得到第一损失值。

具体地，在训练过程中，样本区域对应的类别是已知的，也就是样本区域的标签类别，因此根据样本区域对应的样本类别以及标签类别，能够得到第一损失值，可以理解的是，第一损失值为定位损失值。

其中，步骤S240具体可以是根据每个样本区域对应的样本类别以及标签类别，得到第一损失值。

其中可以使用任何一种损失函数计算第一损失值，本申请并不做限制。

S250：根据每个第四像素点到样本检测框的预测距离，以及每个第四像素点到样本检测框的第一标签距离，得到第二损失值。

具体地，在训练过程中，样本区域对应的样本检测框的距离是已知的，因而每个第四像素点到样本检测框的距离是已知的，也就是第四像素点到样本检测框的第一标签距离。

因此根据每个第四像素点对应的预测距离，以及对应的第一标签距离，能够得到第二损失值，可以理解的是，第二损失值为定位损失值。

其中，步骤S250具体可以是：根据所有目标区域中各个第四像素点对应的预测距离以及第四像素点各自对应的第一标签距离，计算整个目标特征图的第二损失值。

其中可以使用例如smoothL1损失函数或者交并比损失函数等任何一种损失函数计算第二损失值，本申请不做具体限制。

其中，样本区域对应的样本检测框指的是，样本区域的中心像素点所属目标对象的检测框。在此结合例子进行说明：如果样本区域的中心像素点是目标A(例如是一个人，或者一辆车等)上的像素点，则样本区域对应的检测框就是目标A的真实检测框。

而如果样本区域的中心像素点不是任何一个目标上的像素点，则不对样本区域进行定位损失的计算。也就是说，如果样本区域的中心像素点不是任何一个目标上的像素点，则在计算整个目标特征图的定位损失值，不用考虑样本区域。

其中，考虑到通常已知的是样本区域的中心像素点到样本检测框的第二标签距离，因此可以根据中心像素点到样本检测框的第二标签距离以及中心像素点与第四像素点之间的目标距离，确定样本区域中每个第四像素点对应的第一标签距离。

具体地，为了便于理解，在此结合实例进行说明：

在该实例中，目标区域中的第一像素点为目标区域的中心像素点且第二像素点的数量为4个，4个第二像素点包括上述的第一目标像素点、第二目标像素点、第三目标像素点以及第四目标像素点，相应地，样本区域中的第三像素点也为样本区域的中心像素点，第四像素点的数量为4个，4个第四像素点分别位于第三像素点的左上角、右上角、左下角以及右下角，同时4个第四像素点与第三像素点相邻，则在训练过程中，首先分别确定样本区域的中心像素点到样本检测框左边框、上边框、下边框以及右边框的距离，分别为L1、T1、D1以及R1，进而对于位于该中心像素点左上角的像素点而言，其对应的第一标签距离等于(L1-1)，对于位于该中心像素点右上角的像素点而言，其对应的第一标签距离等于(T1-1)，对于位于该中心像素点左下角的像素点而言，其对应的第一标签距离等于(D1-1)，对于位于该中心像素点右下角的像素点而言，其对应的第一标签距离等于(R1-1)。

S260：根据第一损失值以及第二损失值，生成总损失值。

具体地，可以将第一损失值与第二损失值进行各种运算，例如直接求和处理、加权求和处理或者求平均值处理等，从而得到总损失值。

S270：根据总损失值，对目标神经网络100进行训练。

具体地，按照上述步骤可以得到每个目标特征图对应的总损失值，最终将所有目标特征图对应的总损失值进行运算，可以得到目标损失值，然后根据该目标损失值，对目标神经网络100进行训练。

继续参阅图4，在本实施方式中，分类分支110包括分类特征提取器111以及分类器112，定位分支120包括定位特征提取器121以及回归器122。

分类分支110对目标特征图进行处理的过程包括：利用分类特征提取器111对样本特征图进行分类特征提取，得到分类特征图；利用分类器112对分类特征图进行分类预测，得到样本区域中至少一个第三像素点各自的预测类别，同时分类器112根据至少一个第三像素点各自的预测类别，确定样本区域的样本类别。

具体地，分类特征提取器111具体可以包括多个级联的卷积层，利用多个级联的卷积层对目标特征图进行处理，得到分类特征图。在本实施方式中，目标特征图的维度为H×W，分类特征图的维度为H×W×256(表示分类特征图包括H×W个像素点，每个像素点具有256个通道的像素值)。其中，本申请对分类特征提取器111的具体处理过程不做限制。

分类特征提取器111输出分类特征图后，该分类特征图被送入分类器112，该分类器112对分类特征图进行分类预测。其中分类器112在对分类特征图进行分类预测时，利用滑窗在分类特征图上进行滑动，利用滑窗在分类特征图上依次框选多个样本区域，其中，当滑窗滑动的步长为1时，样本区域的个数与分类特征图所包括的像素点的个数相等，且样本区域与分类特征图中的像素点一一对应。也就是说，如果分类特征图的维度为H×W×256，且如果滑窗的移动步长等于1，以及目标神经网络100110能够同时对C个类别进行检测时，分类器112输出H×W个向量，每个向量包括C个概率值，且H×W个向量可以组成维度为H×W×C的特征图，其中，该特征图的同一通道上的值表示的是每个样本区域对应同一个类别的概率值。该特征图中某一个像素点的各个通道值分别表示，分类特征图中相同位置的像素点对应各个类别的概率值。

同时定位分支120对目标特征图的进行处理的过程包括：利用定位特征提取器121对样本特征图进行定位特征提取，得到定位特征图；利用回归器122对定位特征图进行回归预测，得到至少一个第四像素点到样本检测框的预测距离。

具体地，与分类特征提取器111类似，定位特征提取器121具体可以包括多个级联的卷积层，利用多个级联的卷积层对目标特征图进行处理，得到定位特征图。在本实施方式中，目标特征图的维度为H×W，定位特征图的维度为H×W×256(表示定位特征图包括H×W个像素点，每个像素点具有256个通道的像素值)。其中，本申请对定位特征提取器121的具体处理过程不做限制。

定位特征提取器121输出定位特征图后，该定位特征图被送入回归器122，该分类器122对定位特征图进行回归预测。其中，当滑窗滑动的步长为1时，样本区域的个数与定位特征图所包括的像素点的个数相等，样本区域与定位特征图中的像素点一一对应。也就是说，如果定位特征图的维度为H×W×256，且如果滑窗的移动步长等于1，以及在每个样本区域中，第四像素点的数量为4个，分布在第三像素点的左上角、右上角、左下角以及右下角且与第三像素点均相邻，则此时回归器122输出H×W个向量，每个向量均包括4个距离值，且H×W个向量可以组成维度为H×W×4的特征图，其中，该特征图的同一通道上的值表示的是每个样本区域中同一位置的第四像素点对应的预测距离值。该特征图中某一个像素点的各个通道值分别表示，定位特征图中相同位置的像素点对应的样本区域中各个第四像素点对应的距离值，其中像素点对应的样本区域指的是滑窗的中心点与该像素点重合时所框选的区域。

在本实施方式中，结合图4步骤S260具体包括：

S261：将分类特征图输入特征判别器130，以得到分类特征图中每个第一像素点对应的第一判定向量，其中，第一判定向量包括第一概率值以及第二概率值，第一概率值、第二概率值分别表示第一像素点来自分类特征图、定位特征图的概率。

S262：将定位特征图输入特征判别器130，以得到定位特征图中每个第二像素点来对应的第二判定向量，其中，第二判定向量包括第三概率值以及第四概率值，第三概率值、第四概率值分别表示第二像素点来自分类特征图、定位特征图的概率。

S263：根据每个第一像素点对应的第一判定向量以及第一监督标签、每个第二像素点对应的第二判定向量以及第二监督标签，确定第三损失值，其中，第一监督标签、第二监督标签分别表示第一像素点、第二像素点来自分类特征图还是定位特征图。

S264：根据第一损失值、第二损失值以及第三损失值，得到总损失值。

具体地，为了进一步实现分类任务和定位任务的解耦，本申请还设置特征判别器130，利用特征判别器130判断分类特征图中的第一像素点是来自于分类分支110，还是来自于定位分支120。其中，在将分类特征图输入特征判别器130后，特征判别器130对应分类特征图上的每一个第一像素点，输出一个通道数为2的向量，即第一像素点对应的第一判定向量，其中该向量的第一维表示第一像素点来自分类分支110的概率值，向量的第二维表示第一像素点来自定位分支120的概率值，即第一判定向量包括第一概率值以及第二概率值，第一概率值、第二概率值分别表征第一像素点来自分类特征图、定位特征图的概率。

同样地，将定位特征图也输入特征判别器130，利用特征判别器130判定定位特征图中的第二像素点是来自于分类分支110，还是来自于定位分支120。其中，在将定位特征图输入特征判别器130后，特征判别器130对应定位特征图上的每一个第二像素点，输出一个通道数为2的向量，即第二像素点对应的第二判定向量，其中该向量的第一维表示第二像素点来自分类分支110的概率值，向量的第二维表示第二像素点来自定位分支120的概率值，即第二判定向量包括第三概率值以及第四概率值，第三概率值、第四概率值分别表征第二像素点来自分类特征图、定位特征图的概率。

在本实施方式中，由于是解耦两个任务的特征，即只要判定像素点是来自分类分支110还是定位分支120，因此本申请设计了一个简单的监督标签：如果第一像素点来自分类特征图，则将第一像素点的第一监督标签设置为1，否则设置为0，同样地，如果第二像素点来自分类特征图，则将第二像素点的第二监督标签设置为1，否则设置为0。

经过上述步骤，每个第一像素点都对应一个第一判定向量以及一个第一监督标签(第一判定向量与第一监督标签之间也形成了一一对应关系)，每个第二像素点都对应一个第二判定向量以及一个第二监督标签(第二判定向量与第二监督标签之间也形成了一一对应关系)，从而可以进行损失的计算，得到第三损失值。

其中，可以使用例如Focal loss等任何一种损失函数计算第三损失值，在此不做限制。

最后结合第一损失值、第二损失值以及第三损失值，可以得到总损失值。其中，可以对第一损失值、第二损失值以及第三损失值进行例如直接求和处理、加权求和或者求平均值等任何一种计算，得到总损失值。

其中为了避免在训练过程中特征判别器130出现过拟合的现象，在计算第三损失值时，先把所有第一判定向量以及所有第二判定向量混合在一起并打乱排列顺序，然后再计算第三损失值。

具体地，可以按照预设规则进行打乱，也可以随机进行打乱，本申请均不做限制。为了理解，在此结合实例进行说明：

假设有8个第一像素点以及8个第二像素点，这8个第一像素点对应的第一判定向量分别记为A1、A2、A3、A4、A5、A6、A7以及A8，这8个第二像素点对应的第二判定向量分别记为B1、B2、B3、B4、B5、B6、B7以及B8，在经过混合并打乱顺序后，所有判定向量的排列顺序可以是A1、A2、B1、B2、B3、B4、A3、A4、A5、B5、B6、A6、A7、B7、A8以及B8，也可以是B1、B2、A1、A2、B3、A3、B4、B5、A4、B6、A5、B7、A6、A7、B8、A8。

在打乱顺序的过程中，第一判定向量与第一监督标签之间的对应关系维持不变，第二判定向量与第二监督标签之间的对应关系维持不变，也就是说，对应的第一判定向量与第一监督标签始终同时与一个第一像素点对应，对应的第二判定向量与第二监督标签始终同时与一个第二像素点对应。

本实施方式打乱第一判定向量与第二判定向量之间的排列顺序，可以避免训练目标神经网络100的过程中，特征判别器130出现过拟合。但是在其他实施方式中，也可以不打乱第一判定向量与第二判定向量之间的排列顺序。

从上述内容可以看出，本申请在目标神经网络100中设置特征判别器130，利用特征判别器130判断每一个像素点的特征是分类感知的特征，还是定位感知的特征，从而使得目标神经网络100在像素层级上能够解耦出分类特征和定位特征，从而进一步解耦出分类任务和定位任务，保证训练出的目标神经网络100检测的准确率。

为了便于进一步理解本申请目标神经网络100的结构，下面结合实例详细介绍目标神经网络100对目标特征图的处理过程：

首先在该实例中，第一像素点为目标区域的中心像素点，至少一个第二像素点包括第一目标像素点、第二目标像素点、第三目标像素点以及第四目标像素点。其中针对每个目标区域，将中心像素点的预测类别直接确定为目标区域的目标类别，同时假设滑窗的滑动步长为1个像素点。

在将维度为H×W的目标特征图输入目标神经网络100之后，分类特征提取器111对目标特征图进行特征提取，得到维度为H×W×256的分类特征图，接着分类器112对分类特征图进行分类预测，其中在预测的过程中，分类器112利用滑窗在分类特征图上进行滑动，利用滑窗在分类特征图上依次框选多个目标区域，此时框选的多个目标区域与分类特征图上的像素点一一对应，最终分类器112输出H×W个C维的向量，其中，该向量的第一维表示目标区域对应C₁类别的概率，第二维表示目标区域对应C₂类别的概率，以此类推，第C维表示目标区域对应C_C类别的概率。也就是说，目标神经网络100能够进行多类别预测，类别的数量为C个。

在将维度为H×W的目标特征图输入目标神经网络100之后，定位特征提取器121对目标特征图进行特征提取，得到维度为H×W×256的定位特征图，接着回归器122对定位特征图进行回归预测，其中在预测的过程中，回归器122利用滑窗在定位特征图上进行滑动，利用滑窗在定位特征图上依次框选多个目标区域，此时框选的多个目标区域与定位特征图上的像素点一一对应，最终回归器122输出H×W个4维的向量，其中，该向量的第一维表示目标区域中第一目标像素点到目标检测框左边框的第一预测距离，向量的第二维表示目标区域中第二目标像素点到目标检测框上边框的第二预测距离，向量的第三维表示目标区域中第三目标像素点到目标检测框下边框的第三预测距离，向量的第四维表示目标区域中第四目标像素点到目标检测框右边框的第四预测距离。

最终根据针对每个目标区域，根据所包括的各个第二目标像素点的位置以及对应的预测距离，能够确定每个目标区域对应的目标检测框。

从而经过上述步骤能够得到目标特征图上每个样本区域对应的目标类别以及目标检测框。从而在将每层的目标特征图都输入目标神经网络100后，能够得到每个目标特征图中，每个样本区域对应的目标类别以及目标检测框，最后根据所有目标特征图中每个样本区域对应的目标类别以及目标检测框，能够得到目标图像中的各个目标对象的类别以及位置，同时实现分类任务和定位任务。

参阅图5，图5是本申请目标检测装置一实施方式的结构示意图，该目标检测装置200包括处理器210、存储器220以及通信电路230，处理器210分别耦接存储器220、通信电路230，存储器220中存储有程序数据，处理器210通过执行存储器220内的程序数据以实现上述任一项实施方式方法中的步骤，其中详细的步骤可参见上述实施方式，在此不再赘述。

其中，目标检测装置200可以是电脑、手机等任一项具有图像处理能力的装置，在此不做限制。

参阅图6，图6是本申请目标检测装置另一实施方式的结构示意图，该目标检测装置300包括依次连接的获取模块310、第一确定模块320、第二确定模块330以及第三确定模块340。

获取模块310用于获取对目标图像进行特征提取的目标特征图。

第一确定模块320用于根据目标区域中至少一个第一像素点各自对应的预测类别，确定所述目标区域对应的目标类别，其中，所述目标区域是滑窗在所述目标特征图上滑动时，所述滑窗每次所框选的区域。

第二确定模块330用于根据所述目标区域中至少一个第二像素点各自到目标检测框的预测距离以及所述至少一个第二像素点的位置，确定所述目标区域对应的所述目标检测框，其中，任意所述第一像素点与任意所述第二像素点不重合。

第三确定模块340用于根据所述目标区域对应的所述目标类别以及所述目标检测框，确定所述目标图像中目标对象的类别以及位置。

其中，目标检测装置300可以是电脑、手机等任一项具有图像处理能力的装置，在此不做限制。

其中，目标检测装置300在工作时执行上述任一项实施方式中的方法步骤，详细的步骤可参见上述相关内容，在此不再赘述。

参阅图7，图7是本申请计算机可读存储介质一实施方式的结构示意图。该计算机可读存储介质400存储有计算机程序410，计算机程序410能够被处理器执行以实现上述任一项方法中的步骤。

其中，计算机可读存储介质400具体可以为U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等可以存储计算机程序410的装置，或者也可以为存储有该计算机程序410的服务器，该服务器可将存储的计算机程序410发送给其他设备运行，或者也可以自运行该存储的计算机程序410。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

获取对目标图像进行特征提取的目标特征图；

根据目标区域中至少一个第一像素点各自对应的预测类别，确定所述目标区域对应的目标类别，其中，所述目标区域是滑窗在所述目标特征图上滑动时，所述滑窗每次所框选的区域；

根据所述目标区域中至少一个第二像素点各自到目标检测框的预测距离以及所述至少一个第二像素点的位置，确定所述目标区域对应的所述目标检测框，其中，任意所述第一像素点与任意所述第二像素点不重合；

根据所述目标区域对应的所述目标类别以及所述目标检测框，确定所述目标图像中目标对象的类别以及位置。

2.根据权利要求1所述的方法，其特征在于，所述至少一个第一像素点包括所述目标区域的中心像素点；所述至少一个第二像素点包括分布在所述中心像素点周边的多个像素点。

3.根据权利要求2所述的方法，其特征在于，所述至少一个第二像素点包括分别位于所述中心像素点的左上角、右上角、左下角以及右上角的第一目标像素点、第二目标像素点、第三目标像素点以及第四目标像素点，且所述第一目标像素点、第二目标像素点、第三目标像素点以及第四目标像素点与所述中心像素点相邻；

所述根据所述目标区域中至少一个第二像素点各自到目标检测框的预测距离以及所述至少一个第二像素点的位置，确定所述目标区域对应的所述目标检测框的步骤，包括：

根据所述第一目标像素点到所述目标检测框左边框的第一预测距离以及所述第一目标像素点的位置，确定所述目标检测框的左边框；

根据所述第二目标像素点到所述目标检测框上边框的第二预测距离以及所述第二目标像素点的位置，确定所述目标检测框的上边框；

根据所述第三目标像素点到所述目标检测框下边框的第三预测距离以及所述第三目标像素点的位置，确定所述目标检测框的下边框；

根据所述第四目标像素点到所述目标检测框右边框的第四预测距离以及所述第四目标像素点的位置，确定所述目标检测框的右边框。

4.根据权利要求2所述的方法，其特征在于，在所述根据所述目标区域中至少一个第二像素点各自到目标检测框的预测距离以及所述至少一个第二像素点的位置，确定所述目标区域对应的所述目标检测框之前，还包括：

判断所述目标区域的中心像素点是否处于所述目标特征图的边界上；

若处于，则根据所述中心像素点到所述目标检测框各个边框的预测距离以及所述中心像素点的位置，确定所述目标检测框；

否则，执行所述根据所述目标区域中至少一个第二像素点各自到目标检测框的预测距离以及所述至少一个第二像素点的位置，确定所述目标区域对应的所述目标检测框的步骤。

5.根据权利要求1所述的方法，其特征在于，所述根据目标区域中至少一个第一像素点各自对应的预测类别，确定所述目标区域对应的目标类别的步骤，包括：

利用目标神经网络中的分类分支预测所述目标区域中所述至少一个第一像素点各自的预测类别，同时利用所述分类分支根据所述至少一个第一像素点各自的预测类别，确定所述目标区域的所述目标类别；

利用所述目标神经网络中的定位分支预测所述目标区域中所述至少一个第二像素点各自到所述目标检测框的预测距离；

根据所述至少一个第二像素点各自到所述目标检测框的预测距离以及所述至少一个第二像素点的位置，确定所述目标检测框。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取对样本图像进行特征提取的样本特征图；

利用所述分类分支预测样本区域中至少一个第三像素点各自的预测类别，同时利用所述分类分支根据所述至少一个第三像素点各自的预测类别，确定所述样本区域的样本类别，其中，所述样本区域是所述滑窗在所述样本特征图上滑动时，所述滑窗每次所框选的区域；

利用所述定位分支预测所述样本区域中至少一个第四像素点各自到样本检测框的预测距离，其中，所述样本检测框与所述样本区域对应，任意所述第三像素点与任意所述第四像素点不重合；

根据所述样本区域对应的所述样本类别以及标签类别，得到第一损失值；

根据每个所述第四像素点到所述样本检测框的预测距离，以及每个所述第四像素点到所述样本检测框的第一标签距离，得到第二损失值；

根据所述第一损失值以及所述第二损失值，生成总损失值；

根据所述总损失值，对所述目标神经网络进行训练。

7.根据权利要求6所述的方法，其特征在于，所述分类分支包括分类特征提取器以及分类器；所述定位分支包括定位特征提取器以及回归器；

所述利用所述分类分支预测样本区域中至少一个第三像素点各自的预测类别，并根据所述至少一个第三像素点各自的预测类别，确定所述样本区域的样本类别的步骤，包括：

利用所述分类特征提取器对所述样本特征图进行分类特征提取，得到分类特征图；

利用所述分类器对所述分类特征图进行分类预测，得到所述样本区域中所述至少一个第三像素点各自的预测类别，同时所述分类器根据所述至少一个第三像素点各自的预测类别，确定所述样本区域的样本类别；

所述利用所述定位分支预测所述样本区域中至少一个第四像素点各自到样本检测框的预测距离的步骤，包括：

利用所述定位特征提取器对所述样本特征图进行定位特征提取，得到定位特征图；

利用所述回归器对所述定位特征图进行回归预测，得到所述至少一个第四像素点到所述样本检测框的预测距离。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一损失值以及所述第二损失值，生成总损失值的步骤，包括：

将所述分类特征图输入特征判别器，以得到所述分类特征图中每个第一像素点对应的第一判定向量，其中，所述第一判定向量包括第一概率值以及第二概率值，所述第一概率值、所述第二概率值分别表示所述第一像素点来自所述分类特征图、所述定位特征图的概率；

将所述定位特征图输入所述特征判别器，以得到所述定位特征图中每个第二像素点来对应的第二判定向量，其中，所述第二判定向量包括第三概率值以及第四概率值，所述第三概率值、所述第四概率值分别表示所述第二像素点来自所述分类特征图、所述定位特征图的概率；

根据每个所述第一像素点对应的所述第一判定向量以及第一监督标签、每个所述第二像素点对应的所述第二判定向量以及第二监督标签，确定第三损失值，其中，所述第一监督标签、所述第二监督标签分别表示所述第一像素点、所述第二像素点来自所述分类特征图还是所述定位特征图；

根据所述第一损失值、所述第二损失值以及所述第三损失值，得到所述总损失值。

9.根据权利要求8所述的方法，其特征在于，在所述根据每个所述第一像素点对应的所述第一判定向量以及第一监督标签、每个所述第二像素点对应的所述第二判定向量以及第二监督标签，确定第三损失值之前，还包括：

将所有所述第一判定向量以及所有所述第二判定向量排列在一起后，打乱排列顺序。

10.根据权利要求6所述的方法，其特征在于，在所述根据每个所述第四像素点到所述样本检测框的预测距离，以及每个所述第四像素点到所述样本检测框的第一标签距离，得到第二损失值之前，还包括：

获取所述样本区域的中心像素点到所述样本检测框的第二标签距离，其中，所述滑窗框选所述样本区域时，所述滑窗的中心点与所述样本区域的中心像素点重合；

根据所述第二标签距离以及所述第四像素点对应的目标距离，确定所述第四像素点到所述样本检测框的所述第一标签距离，其中，所述第四像素点对应的所述目标距离是所述第四像素点到所述样本区域的中心像素点之间的距离。

11.一种目标检测装置，其特征在于，所述目标检测装置包括处理器、存储器以及通信电路，所述处理器分别耦接所述存储器、所述通信电路，所述存储器中存储有程序数据，所述处理器通过执行所述存储器内的所述程序数据以实现如权利要求1-10任一项所述方法中的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序能够被处理器执行以实现如权利要求1-10任一项所述方法中的步骤。