CN111488766A

CN111488766A - 目标检测方法和装置

Info

Publication number: CN111488766A
Application number: CN201910078317.XA
Authority: CN
Inventors: 刘武; 梅涛; 周博言
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2020-08-04

Abstract

本公开提供了一种目标检测方法和装置，涉及目标检测领域。该方法包括：将待识别图片输入至特征提取网络，获取待识别图片的图片特征；将待识别图片的图片特征输入至区域候选网络，获取候选区域信息；将候选区域信息输入至级联分类回归网络中的第一级分类回归网络，级联分类回归网络包括级联的多个分类回归网络，每个分类回归网络获取输入的区域信息对应的图片特征，并根据获取的图片特征进行分类和回归处理输出目标区域信息；将级联分类回归网络中的最后一级分类回归网络输出的目标区域信息作为目标检测结果。本公开能够提高目标检测的精确度。

Description

目标检测方法和装置

技术领域

本公开涉及目标检测领域，尤其涉及一种目标检测方法和装置。

背景技术

人体检测(Pedestrian Detection)一直是计算机视觉研究领域的热点和难点问题。人体检测技术有很强的使用价值，它可以与人体跟踪、人体重识别等技术结合，应用于汽车无人驾驶系统、智能机器人、智能视频监控、人体行为分析、客流统计系统、智能交通等领域。

人体检测要解决的问题是找出图像或视频帧中所有的人体，包括位置和大小，一般用矩形框表示。但由于人体具有相当的柔性，因此会有各种姿态和形状，其外观受穿着、姿态、视角等影响非常大，另外还面临着遮挡、光照等因素的影响，这使得人体检测成为计算机视觉领域中一个极具挑战性的课题。

发明内容

本公开要解决的一个技术问题是提供一种目标检测方法和装置，能够提高目标检测的精确度。

根据本公开一方面，提出一种目标检测方法，包括：将待识别图片输入至特征提取网络，获取待识别图片的图片特征；将待识别图片的图片特征输入至区域候选网络，获取候选区域信息；将候选区域信息输入至级联分类回归网络中的第一级分类回归网络，级联分类回归网络包括级联的多个分类回归网络，每个分类回归网络获取输入的区域信息对应的图片特征，并根据获取的图片特征进行分类和回归处理输出目标区域信息；将级联分类回归网络中的最后一级分类回归网络输出的目标区域信息作为目标检测结果。

在一个实施例中，级联分类回归网络中每一级分类回归网络在训练时的损失函数根据定位损失函数、定位损失函数的系数和分类损失函数确定，其中，后一级分类回归网络的定位损失函数的系数大于前一级分类回归网络的定位损失函数的系数。

在一个实施例中，定位损失函数的系数与交并比IOU阈值相关，其中，后一级分类回归网络的IOU阈值大于前一级分类回归网络的IOU阈值。

在一个实施例中，该方法还包括：基于通道域的注意力模块生成通道域注意力向量；将通道域注意力向量与图片特征的各个通道特征相乘得到基于通道域注意力的图片特征。

在一个实施例中，该方法还包括：对特征提取网络中每个卷积层输出的待识别图片的图片特征按照通道进行分组，对每组的图片特征进行标准化处理。

在一个实施例中，对每组的图片特征进行标准化处理包括：对每组的图片特征进行通道、特征图高度和特征图宽度维度的标准化处理。

在一个实施例中，将待识别图片输入至特征提取网络，获取待识别图片的图片特征包括：将待识别图片输入至特征提取网络获得多个卷积结果；采用特征金字塔结构对卷积结果进行特征提取，得到不同尺度的图片特征。

在一个实施例中，该方法还包括：候选区域网络在训练时的窗口的初始比例和尺寸分别根据待训练的目标检测数据集的标注窗口的比例统计结果和尺寸统计结果确定。

根据本公开的另一方面，还提出一种目标检测装置，包括：特征提取网络，被配置为提取待识别图片的图片特征；区域候选网络，被配置为根据待识别图片的图片特征获取候选区域信息；级联分类回归网络，包括级联的多个分类回归网络，其中，级联分类回归网络中的第一级分类回归网络被配置为获取候选区域信息对应的图片特征，并根据获取的图片特征进行分类处理输出目标区域信息，级联分类回归网络中的除第一级分类回归网络外的每一级分类回归网络被配置为获取前一级分类回归网络输出的目标区域信息对应的图片特征，并根据获取的图片特征进行分类处理输出目标区域信息；级联分类回归网络中的最后一级分类回归网络输出的目标区域作为目标检测结果。

在一个实施例中，级联分类回归网络中每一级分类回归网络在训练时的损失函数，根据定位损失函数、定位损失函数的系数和分类损失函数确定，其中，后一级分类回归网络的定位损失函数的系数大于前一级分类回归网络的定位损失函数的系数。

根据本公开的另一方面，还提出一种目标检测装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器的指令执行如上述的目标检测方法。

根据本公开的另一方面，还提出一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述的目标检测方法的步骤。

与相关技术相比，本公开实施例通过设置多级联的分类回归网络，将前一级分类回归网络输出的目标区域信息作为下一级分类回归网络的输入参数，使得后一级分类回归网络输出的目标区域信息比前一级分类回归网络输出的目标区域信息更加贴近于目标的真实区域信息，提高了目标检测的精确度。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开目标检测方法的一个实施例的流程示意图。

图2为本公开目标检测方法的另一个实施例的流程示意图。

图3为本公开目标检测装置的一个实施例的结构示意图。

图4为本公开目标检测装置的另一个实施例的结构示意图。

图5为本公开目标检测装置的再一个实施例的结构示意图。

图6为本公开目标检测装置的又一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

视角、姿态、服饰、附着物、光照和成像距离等因素都会对人体外观产生较大影响。例如，从不同的角度看过去，人体外观差异很大；处于不同姿态的人体，人体外观差异也很大；由于人穿的衣服不同，以及打伞、戴帽子、戴围巾、提行李等附着物的影响，人体外观差异也非常大；远距离的人体和近距离的人体，在外观上差别也非常大；光照的差异也导致人体外观差异。人体检测时需要克服人体外观差异大的问题。

在很多应用场景中，例如人体非常密集、存在严重的遮挡时，摄像头只能拍摄人体的一部分，这对检测算法带来了严重的挑战。

另外，无论是室内还是室外，人体检测一般面临的背景都非常复杂，例如有些物体的外观和形状、颜色、纹理很像人体，导致算法无法准确的区分人体和背景。

再者，在部分应用场景中，常出现只有十几个甚至几个像素的小目标，反应在特征图上可能只是一个像素点，这为检测算法带来了极大的困难。

图1为本公开目标检测方法的一个实施例的流程示意图。

在步骤110，将待识别图片输入至特征提取网络，获取待识别图片的图片特征。待识别图片中包含待检测的目标，例如该目标为人体。

在步骤120，将待识别图片的图片特征输入至区域候选网络，获取候选区域信息。该候选区域信息例如为能粗略识别出人体的矩形框的坐标。其中，区域候选网络在训练时的窗口的初始比例和尺寸分别根据待训练的目标检测数据集的标注窗口的比例统计结果和尺寸统计结果确定。

在步骤130，将候选区域信息输入至级联分类回归网络中的第一级分类回归网络，级联分类回归网络包括级联的多个分类回归网络，每个分类回归网络获取输入的区域信息对应的图片特征，并根据获取的图片特征进行分类和回归处理输出目标区域信息。其中，若分类回归网络为第一级分类回归网络，则输入的区域信息为候选区域信息，若分类回归网络为其他级分类回归网络，则输入的区域信息为前一级分类回归网络输出的目标区域信息，目标区域信息例如为人体矩形框的坐标。

例如，级联分类回归网络为三级联分类回归网络。第一级分类回归网络根据候选区域信息确定候选区域信息对应的图片特征，对该候选区域信息对应的图片特征进行分类和回归处理输出第一目标区域信息，第一目标区域信息作为第二级分类回归网络的输入参数；第二级分类回归网络根据第一目标区域信息确定第一目标区域信息对应的图片特征，对该第一目标区域信息对应的图片特征进行分类和回归处理输出第二目标区域信息，第二目标区域信息作为第三级分类回归网络的输入参数；第三级分类回归网络根据第二目标区域信息确定第二目标区域信息对应的图片特征，对该第二目标区域信息对应的图片特征进行分类和回归处理输出第三目标区域信息。

在步骤140，将级联分类回归网络中的最后一级分类回归网络输出的目标区域信息作为目标检测结果。通过步骤130-140能够输出高精度的人体矩形框的坐标。例如，通过三级联分类回归网络，第三目标区域信息比第二目标区域信息更加贴近与目标真实区域信息，第二目标区域信息比第一目标区域信息更加贴近与目标真实区域信息。

在该实施例中，通过设置多级联的分类回归网络，将前一级分类回归网络输出的目标区域信息作为下一级分类回归网络的输入参数，使得后一级分类回归网络输出的目标区域信息比前一级分类回归网络输出的目标区域信息更加贴近于目标的真实区域信息，提高了目标检测的精确度。

在一个实施例中，可以设置后一级分类回归网络的IOU(Intersection overUnion，并较比)阈值大于前一级分类回归网络的IOU阈值，每一次级联都提高了判断为正样本的阈值。在利用分类回归网络进行分类和回归处理时，通过分类可以识别矩形框是否为检测出人体的矩形框，通过回归可以使得检测到人体的矩形框更加精确。在识别矩形框是否为检测出人体的矩形框时，可以在输出的矩形框与标注矩形框的重叠度大于IOU阈值时，判断出该矩形框为检测出人体的矩形框。

在一个实施例中，级联分类回归网络中每一级分类回归网络在训练时的损失函数根据定位损失函数、定位损失函数的系数和分类损失函数确定，其中，后一级分类回归网络的定位损失函数的系数大于前一级分类回归网络的定位损失函数的系数。级联分类回归网络中，在不断级联的过程中，分类回归网络的分类损失和定位损失会出现不平衡。例如，越下一级分类回归网络的定位情况越来越好，即定位损失函数越来越小，使得分类损失和定位损失出现不平衡，所以需要依次提高下一级分类回归网络的定位损失函数的系数。其中，定位损失函数的系数与IOU阈值正相关。例如，可以设置每一级分类回归网络的损失函数为分类损失函数+[(IOU-0.5)*10+1]*定位损失函数。

在一个实施例中，级联分类回归网络中的每一级分类回归网络可以包括区域池化层和分类回归层，区域池化层能够根据候选区域信息或目标区域信息提取区域信息对应的图片特征，分类池化层对图片特征进行分类回归处理，能够输出更加精确的目标区域信息。

在本公开的另一个实施例中，基于通道域的注意力模块生成通道域注意力向量，将通道域注意力向量与图片特征的各个通道特征相乘得到基于通道域注意力的图片特征。

图片不同通道的特征反映了人体不同部位的响应信息，为了更好地处理人体检测中的遮挡问题，可以在训练好的目标检测网络中加入基于通道的注意力模块，对不同通道的重要性加以利用。该注意力模块例如为Squeeze-and-excitation block(SE Block，压缩奖惩网络模块)，将注意力模块例如加入到特征提取网络的第四层和第五层卷积层。原图片特征通过SE Block得到一个全连接层，该全连接层的参数个数与原图片特征的通道数一致，代表着不同通道的重要性，使用该全连接层的参数分别与原图片特征的对应通道相乘，从而得到最终添加了注意力机制的特征，该模块能够有效利用图片特征中各通道的重要性，从而提高人体检测精度。

在本公开的另一个实施例中，对特征提取网络中每个卷积层输出的待识别图片的图片特征按照通道进行分组，对每组的图片特征进行标准化处理。例如，对每组的图片特征进行通道、特征图高度和特征图宽度维度的标准化处理，标准化处理即归一化处理。

在人体检测中训练的批(Batch)尺寸往往都很小，BN(Batch Normalization，批标准化)并不适用于人体检测。而在该实施例中，利用组标准化(Group Normalization，GN)替代BN。以一个批中的图片特征为例，其维度共有N(批大小)、C(通道数)、H(特征图高度)、W(特征图宽度)四个维度，BN会在N、H、W这三个维度对图片特征进行标准化，而GN则会在部分特定通道、H、W三个维度对图片特征进行标准化。显然BN与批大小有关，而GN与批大小无关，GN更适合用来进行人体检测。通过设置GN大大提高了模型的收敛速度，并提升了人体检测的精度。

在本公开的另一个实施例中，将待识别图片输入至特征提取网络获得多个卷积结果；采用特征金字塔结构对卷积结果进行特征提取，得到不同尺度的图片特征。

小目标人体检测是一个很困难的问题，例如，Faster R-CNN(更快区域卷积神经网络)经过多次下采样后的卷积特征图过小，不宜用来检测小物体。而在该实施例中，对多个卷积层加入特征金字塔结构，对多级特征进行利用。例如，针对不同尺度的特征图，小尺度特征图逐级上采样，并与上一层经过了1×1卷积的大尺度特征图相加从而得到新的融合特征，使用每一个新的融合特征来进行区域候选网络和Faster R-CNN的多级预测，该结构大大提高了多尺度、小目标人体的检测精度。

在一个实施例中，特征提取网络、区域候选网络和级联分类回归网络构成目标检测骨干网络，考虑到人体的特性，为了生成高质量的检测窗口，该目标检测网络可以在现有Faster R-CNN的基础上进行改进，可以使得该目标检测网络适用于高精度人体检测。

图2为本公开目标检测方法的另一个实施例的流程示意图。

在步骤210，确定待训练的人体检测数据集。该人体检测数据集可以是Caltech，ETH，Cityscape等共有数据集，也可以是自行采集获得的数据集。

在步骤220，对人体检测数据集已有标注窗口的比例和大小进行统计，将统计结果分别作为获得区域候选网络最佳的Anchor(锚点框)初始化比例和大小。

在步骤230，基于最佳的Anchor初始化比例和大小对区域候选网络进行初始化。

在步骤240，在分类数据集上进行网络预训练，获得人体检测骨干网络的初始模型。例如，在ImageNet等大型分类数据集上进行网络的预训练，预训练网络中使用BN结构，获得人体检测骨干网络的初始模型。

在步骤250，在人体检测骨干网络的初始模型中增加基于通道域的注意力模块、特征金字塔模块、加入级联分类回归网络，以及对输出的图片特征使用组标准化处理，使用端到端的训练方法来对改进后的人体检测骨干网络进行反复迭代和训练。

该人体检测骨干网络的初始模型例如为Faster R-CNN，在Faster R-CNN的卷积层中增加基于通道域的注意力模块、特征金字塔模块，卷积层会输出多尺度的、能够反映重要通道信息的图片特征。对该图片特征进行组标准化处理，并将处理后的图片特征输入至区域候选网络。该区域候选网络会输出候选区域信息，该候选区域信息会输入至Faster R-CNN中的级联分类回归网络；其中，在训练网络时，可以在各级分类回归网络使用一个更加平衡的损失函数，该损失函数可以用分类损失函数+[(IOU-0.5)*10+1]*定位损失函数表示；整个网络进行反复迭代和训练，可以训练好适用于人体检测的网络模型。

将待检测的图片输入至该训练好的适用于人体检测的网络模型，可以检测出图片中的人体，该实施例能够提高人体外观差异大、人体多姿态变化多、人体之间的相互遮挡严重、人体目标较小等情况下的人体检测精度。

在本公开的另一个实施例中，适用于人体检测的网络模型还可以采用Fast R-CNN(Fast Region-Based Convolutional Neural Networks，快速区域卷积神经网络)、SSD(Single Shot Multibox Detector，单次多框检测器)、YOLO(You Only Look Once，只看一次)等目标检测算法。

图3为本公开目标检测装置的一个实施例的结构示意图。该目标检测装置包括特征提取网络310、区域候选网络320和级联分类回归网络330，其中，级联分类回归网络330包括级联的多个分类回归网络。

特征提取网络310被配置为提取待识别图片的图片特征。待识别图片中包含待检测的目标，例如该目标为人体。

区域候选网络320被配置为根据待识别图片的图片特征获取候选区域信息。该候选区域信息例如为能粗略识别出人体的矩形框的坐标。其中，区域候选网络在训练时的窗口的初始比例和尺寸分别根据待训练的目标检测数据集的标注窗口的比例统计结果和尺寸统计结果确定。

级联分类回归网络330中的第一级分类回归网络被配置为获取候选区域信息对应的图片特征，并根据获取的图片特征进行分类处理输出目标区域信息，级联分类回归网络中的除第一级分类回归网络外的每一级分类回归网络被配置为获取前一级分类回归网络输出的目标区域信息对应的图片特征，并根据获取的图片特征进行分类处理输出目标区域信息；级联分类回归网络中的最后一级分类回归网络输出的目标区域作为目标检测结果。

例如，级联分类回归网络为三级联分类回归网络。第一级分类回归网络根据候选区域信息确定候选区域信息对应的图片特征，对该候选区域信息对应的图片特征进行分类和回归处理输出第一目标区域信息，第一目标区域信息作为第二级分类回归网络的输入参数；第二级分类回归网络根据第一目标区域信息确定第一目标区域信息对应的图片特征，对该第一目标区域信息对应的图片特征进行分类和回归处理输出第二目标区域信息，第二目标区域信息作为第三级分类回归网络的输入参数；第三级分类回归网络根据第二目标区域信息确定第二目标区域信息对应的图片特征，对该第二目标区域信息对应的图片特征进行分类和回归处理输出第三目标区域信息。通过三级联分类回归网络，第三目标区域信息比第二目标区域信息更加贴近与目标真实区域信息，第二目标区域信息比第一目标区域信息更加贴近与目标真实区域信息。

在一个实施例中，特征提取网络310、区域候选网络320和级联分类回归网络330可以为实现相应功能的模块。

在一个实施例中，可以设置后一级分类回归网络的IOU阈值大于前一级分类回归网络的IOU阈值，每一次级联都提高了判断为正样本的阈值。在利用分类回归网络进行分类和回归处理时，通过分类可以识别矩形框是否为检测出人体的矩形框，通过回归可以使得检测到人体的矩形框更加精确。在识别矩形框是否为检测出人体的矩形框时，可以在输出的矩形框与标注矩形框的重叠度大于IOU阈值时，判断出该矩形框为检测出人体的矩形框。

在一个实施例中，级联分类回归网络中每个分类回归网络在训练时的损失函数根据定位损失函数、定位损失函数的系数和分类损失函数确定，其中，后一级分类回归网络的定位损失函数的系数大于前一级分类回归网络的定位损失函数的系数。级联分类回归网络中，在不断级联的过程中，分类回归网络的分类损失和定位损失会出现不平衡，例如，越下一级分类回归网络的定位情况越来越好，即定位损失函数越来越小，使得分类损失和定位损失出现不平衡，所以需要依次提高下一级分类回归网络的定位损失函数的系数。其中，定位损失函数的系数与IOU阈值正相关。例如，可以设置每一级分类回归网络的损失函数为分类损失函数+[(IOU-0.5)*10+1]*定位损失函数。

在本公开的另一个实施例中，特征提取网络310中包括基于通道域的注意力模块410，被配置为生成通道域注意力向量，特征提取网络将通道域注意力向量与图片特征的各个通道特征相乘得到基于通道域注意力的图片特征。图片不同通道的特征反映了人体不同部位的响应信息，为了更好地处理人体检测中的遮挡问题，可以在训练好的目标检测网络中加入基于通道的注意力模块，对不同通道的重要性加以利用。能够有效利用图片特征中各通道的重要性，从而提高人体检测精度。

在本公开的另一个实施例中，特征提取网络310中包括组标准化模块420，被配置为对特征提取网络中每个卷积层输出的待识别图片的图片特征按照通道进行分组，对每组的图片特征进行标准化处理。例如，对每组的图片特征进行通道、特征图高度和特征图宽度维度的标准化处理，标准化处理即归一化处理。通过设置组标准化模块大大提高了模型的收敛速度，并提升了人体检测的精度。

在本公开的另一个实施例中，特征提取网络310中包括特征金字塔模块430，采用特征金字塔结构对卷积层输出的多个卷积结果进行特征提取，得到不同尺度的图片特征。通过设置特征金字塔结构，能够提高多尺度、小目标人体的检测精度。

在一个实施例中，特征提取网络、区域候选网络和级联分类回归网络构成目标检测骨干网络，考虑到人体的特性，为了生成高质量的检测窗口，该目标检测网络可以在现有Faster R-CNN的基础上进行改进，可以使得该目标检测网络适用于高精度人体检测。当然本公开的特征提取网络、区域候选网络和级联分类回归网络还可以适用于Fast R-CNN、SSD、YOLO等目标检测网络。

图5为本公开目标检测装置的再一个实施例的结构示意图。该目标检测装置包括存储器510和处理器520，其中：

存储器510可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1、2所对应实施例中的指令。处理器520耦接至存储器510，可以作为一个或多个集成电路来实施，例如微处理器或微控制器。该处理器520用于执行存储器中存储的指令。

在一个实施例中，还可以如图6所示，该目标检测装置600包括存储器610和处理器620。处理器620通过BUS总线630耦合至存储器610。该目标检测网络600还可以通过存储接口640连接至外部存储装置650以便调用外部数据，还可以通过网络接口660连接至网络或者另外一台计算机系统(未标出)，此处不再进行详细介绍。

在该实施例中，通过存储器存储数据指令，再通过处理器处理上述指令，提高了目标检测的精确度。

在另一个实施例中，一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现图1、2所对应实施例中的方法的步骤。本领域内的技术人员应明白，本公开的实施例可提供为方法、装置、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此，已经详细描述了本公开。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

1.一种目标检测方法，包括：

将待识别图片输入至特征提取网络，获取所述待识别图片的图片特征；

将所述待识别图片的图片特征输入至区域候选网络，获取候选区域信息；

将所述候选区域信息输入至级联分类回归网络中的第一级分类回归网络，所述级联分类回归网络包括级联的多个分类回归网络，每个分类回归网络获取输入的区域信息对应的图片特征，并根据获取的图片特征进行分类和回归处理输出目标区域信息；

将所述级联分类回归网络中的最后一级分类回归网络输出的目标区域信息作为目标检测结果。

2.根据权利要求1所述的目标检测方法，其中，

所述级联分类回归网络中每一级分类回归网络在训练时的损失函数根据定位损失函数、定位损失函数的系数和分类损失函数确定，其中，后一级分类回归网络的定位损失函数的系数大于前一级分类回归网络的定位损失函数的系数。

3.根据权利要求2所述的目标检测方法，其中，

所述定位损失函数的系数与交并比IOU阈值相关，其中，后一级分类回归网络的IOU阈值大于前一级分类回归网络的IOU阈值。

4.根据权利要求1所述的目标检测方法，还包括：

基于通道域的注意力模块生成通道域注意力向量；

将所述通道域注意力向量与所述图片特征的各个通道特征相乘得到基于通道域注意力的图片特征。

5.根据权利要求1所述的目标检测方法，还包括：

对所述特征提取网络中每个卷积层输出的所述待识别图片的图片特征按照通道进行分组，对每组的图片特征进行标准化处理。

6.根据权利要求5所述的目标检测方法，其中，对每组的图片特征进行标准化处理包括：

对每组的图片特征进行通道、特征图高度和特征图宽度维度的标准化处理。

7.根据权利要求1-6任一所述的目标检测方法，其中，将待识别图片输入至特征提取网络，获取所述待识别图片的图片特征包括：

将所述待识别图片输入至所述特征提取网络获得多个卷积结果；

采用特征金字塔结构对所述卷积结果进行特征提取，得到不同尺度的图片特征。

8.根据权利要求1-6任一所述的目标检测方法，还包括：

所述候选区域网络在训练时的窗口的初始比例和尺寸分别根据待训练的目标检测数据集的标注窗口的比例统计结果和尺寸统计结果确定。

9.一种目标检测装置，包括：

特征提取网络，被配置为提取待识别图片的图片特征；

区域候选网络，被配置为根据所述待识别图片的图片特征获取候选区域信息；

级联分类回归网络，包括级联的多个分类回归网络，其中，所述级联分类回归网络中的第一级分类回归网络被配置为获取所述候选区域信息对应的图片特征，并根据获取的图片特征进行分类处理输出目标区域信息，所述级联分类回归网络中的除第一级分类回归网络外的每一级分类回归网络被配置为获取前一级分类回归网络输出的目标区域信息对应的图片特征，并根据获取的图片特征进行分类处理输出目标区域信息，所述级联分类回归网络中的最后一级分类回归网络输出的目标区域作为目标检测结果。

10.根据权利要求9所述的目标检测装置，其中，

所述级联分类回归网络中每一级分类回归网络在训练时的损失函数，根据定位损失函数、定位损失函数的系数和分类损失函数确定，其中，后一级分类回归网络的定位损失函数的系数大于前一级分类回归网络的定位损失函数的系数。

11.一种目标检测装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至8任一项所述的目标检测方法。

12.一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现权利要求1至8任一项所述的目标检测方法的步骤。