CN110751134B

CN110751134B - 目标检测方法、装置、存储介质及计算机设备

Info

Publication number: CN110751134B
Application number: CN201911333161.1A
Authority: CN
Inventors: 谢伟; 黄倩倩; 连春燕; 胡荣东
Original assignee: Changsha Intelligent Driving Research Institute Co Ltd
Current assignee: Xidi Intelligent Driving Hunan Co ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-05-12
Anticipated expiration: 2039-12-23
Also published as: WO2021129691A1; CN110751134A

Abstract

本申请涉及一种目标检测方法、存储介质及计算机设备，本申请在对不同层级的图像特征进行第一次检测的基础上，通过进行空洞卷积处理，并根据第一检测结果对处理后特征再次进行目标检测，由于的空洞卷积处理可以提升低层级特征的感受野，从而可以增强对图像中的小目标的检测能力，提高图像中小目标检测结果的准确性。

Description

目标检测方法、装置、存储介质及计算机设备

技术领域

本申请涉及图像处理技术领域，特别是涉及一种目标检测方法、存储介质及计算机设备。

背景技术

目标检测，也叫目标提取，是一种基于目标几何和统计特征的图像分割，它将目标的分割和识别合二为一，其准确性和实时性是整个系统的一项重要能力。尤其是在复杂场景中，例如智能驾驶领域，需要对多个目标进行实时处理时，目标自动提取和识别就显得特别重要。

在驾驶场景中，图像中的目标呈现“近大远小”的特征，现有的目标检测方法虽然能对近处的大目标进行检测，但是对远处的小目标检测能力有限，从而，对于驾驶场景等目标变化速度较快的场景，现有技术存在小目标检测结果准确率低的问题。

发明内容

基于此，有必要针对现有技术存在的问题，提供一种可以提高小目标检测结果准确性的目标检测方法、存储介质及计算机设备。

一种目标检测方法，包括：

获取待处理图像的不同层级的图像特征；

通过初始目标框分别对所述不同层级的图像特征进行目标检测，得到各所述图像特征的第一检测结果，所述第一检测结果包括所述初始目标框以及对应的第一回归位置参数；

对各所述图像特征分别进行图像处理，得到各所述图像特征对应的处理后特征，所述图像处理包括空洞卷积处理；

基于各所述图像特征对应的所述初始目标框以及所述第一回归位置参数确定各所述图像特征对应的候选目标框，通过所述候选目标框对对应的处理后特征进行目标检测，得到各所述图像特征对应的第二检测结果，所述第二检测结果包括所述候选目标框以及对应的目标分类信息以及第二回归位置参数；

基于各所述图像特征对应的候选目标框、候选目标框对应的目标分类信息以及第二回归位置参数，得到所述待处理图像的目标检测信息。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

上述目标检测方法、存储介质及计算机设备，获取待处理图像的不同层级的图像特征；通过初始目标框分别对不同层级的图像特征进行目标检测，得到各图像特征的第一检测结果，第一检测结果包括初始目标框以及对应的第一回归位置参数；对各图像特征分别进行图像处理，得到各图像特征对应的处理后特征，图像处理包括空洞卷积处理；基于各图像特征对应的初始目标框以及第一回归位置参数确定各图像特征对应的候选目标框，通过候选目标框对对应的处理后特征进行目标检测，得到各图像特征对应的第二检测结果，第二检测结果包括候选目标框以及对应的目标分类信息以及第二回归位置参数；基于各图像特征对应的候选目标框、候选目标框对应的目标分类信息以及第二回归位置参数，得到待处理图像的目标检测信息。本申请在对不同层级的图像特征进行第一次检测的基础上，通过进行包括空洞卷积处理的图像处理得到处理后特征，并根据第一检测结果对处理后特征再次进行目标检测，由于空洞卷积处理可以提升感受野，从而可以增强对图像中的小目标的检测能力，提高图像中小目标检测结果的准确性。

附图说明

图1为一个实施例中目标检测方法的流程示意图；

图2为一个实施例中空洞卷积处理的示意图；

图3为一个实施例中获取待处理图像的不同层级的图像特征的流程示意图；

图4为一个实施例中计算回归位置参数的示意图；

图5为一个实施例中得到各图像特征的第一检测结果的流程示意图；

图6为一个实施例中得到各图像特征对应的处理后特征的流程示意图；

图7为一个实施例中得到各图像特征的第二检测结果的流程示意图；

图8为一个实施例中得到各图像特征对应的融合后特征的流程示意图；

图9为一个实施例中计算交并比分数的示意图；

图10为一个实施例为根据IOU进行候选目标框筛选的示意图；

图11为一个实施例中基于各图像特征的第二检测结果得到待处理图像的目标检测信息的流程示意图；

图12为一个实施例中用于进行目标检测的网络模型的结构示意图；

图13为一个实施例中网络模型的多模块空洞卷积层的示意图；

图14为一个实施例中网络模型的特征融合层的示意图；

图15为一个实施例中网络模型的目标检测单元的示意图；

图16为一个实施例中目标检测装置的结构示意图；

图17为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供一种目标检测方法，以该方法应用于可以进行目标检测的处理器为例进行解释说明，该方法包括步骤S100至步骤S500：

步骤S100，获取待处理图像的不同层级的图像特征。

其中，待处理图像是指需要进行目标检测的图像，当应用在驾驶场景中时，待处理图像具体可以是车载拍摄装置（例如车载摄像头等）拍摄到的车辆行驶路径上的图像。不同层级的图像特征为多尺度不同层级特征，具体是指通过待处理图像得到的两张以上、层级各不相同的图像特征，不同层级的图像特征至少包括第一层级图像特征以及第二层级图像特征，其中，第一层级高于第二层级。例如，第一层级可以是全局特征，第二层级可以是局部特征等。

处理器在进行目标检测时，首先获取待处理图像对应的图像特征，具体可以是先获取待处理图像，然后根据待处理图像得到不同层级的图像特征；也可以是直接获取已得到的不同层级的图像特征，在此不做限定。

步骤S200，通过初始目标框分别对不同层级的图像特征进行目标检测，得到各图像特征的第一检测结果。

其中，初始目标框是指预设大小的矩形框（anchors），预设大小具体例如16x16、32x32、48x48、60x60（单位：像素）等，可以根据实际情况进行调整。处理器在得到不同层级的图像特征后，首先通过初始目标框对各图像特征进行目标检测，该目标检测可以理解是第一次目标检测，从而得到各图像特征中各初始目标框以及对应的第一回归位置参数。其中，第一回归位置参数具体可以包括目标框中心点的坐标差值以及目标框的大小差值。

步骤S300，对各图像特征分别进行图像处理，得到各图像特征对应的处理后特征。

处理器在得到不同层级的图像特征后，还包括对各图像特征进行图像处理，图像处理包括空洞卷积处理。如图2所示，为空洞卷积处理的示意图，其中，图a为原图，从原图角度，所谓空洞是指在原图上做采样。采样的频率是根据膨胀率（rate）来设置的，当rate为1时候，原图不丢失任何信息采样，此时卷积处理就是标准的卷积处理，当rate>1，比如2的时候，在原图上每隔1（rate-1=2-1=1）个像素采样，即如图b所示，图b中的圆点可以理解为在原图上的采样点，然后将采样后的图像与卷积核（kernel）做卷积，从而起到变相增大感受野的目的。同理，图c为对原图进行rate为4的空洞卷积处理的过程中，通过对原图进行采用得到的图像。

本步骤中，处理器通过对各图像特征分别进行包括空洞卷积处理的图像处理，可以起到扩大感受野的作用，即得到的处理后特征的感受野大于对应的图像特征的感受野，从而提高小目标的检测能力。

可选地，处理器可以对各图像特征进行不同膨胀率的空洞卷积处理，也就是说，在对不同层级的图像特征进行空洞卷积处理的过程中，其对应的膨胀率不同。例如，对于第一层级的图像特征，对应的rate可以取i；对于第二层级的图像特征，对应的rate可以取j。

进一步地，低层级的图像特征的膨胀率可以大于高层级的图像特征的膨胀率，通过提高低层级的图像特征的感受野，可以获取更准确的局部信息，从而进一步提高对小目标的检测能力。例如，第一层级的图像特征的膨胀率为i，第二层级的图像特征的膨胀率为j，若第一层级高于第二层级，则可以设定膨胀率i小于膨胀率j。

步骤S400，基于各图像特征对应的初始目标框以及第一回归位置参数确定各图像特征对应的候选目标框，通过候选目标框对对应的处理后特征进行目标检测，得到各图像特征对应的第二检测结果。

其中，候选目标框是指再次进行目标检测时所使用的目标框。处理器通过对各图像特征进行第一次目标检测，得到各图像特征对应的初始目标框以及第一回归位置参数后，基于第一检测结果确定各图像特征对应的候选目标框（refine anchors），由于第一回归位置参数包括目标框中心点的坐标差值以及目标框的大小差值，从而基于初始目标框以及第一回归位置参数可以确定候选目标框的位置以及大小，继而根据候选目标框对对应的处理后特征进行目标检测，得到各图像特征对应的第二检测结果。

其中，第二检测结果包括：候选目标框以及对应的目标分类信息以及第二回归位置参数。其中，目标分类信息具体可以是指候选目标框内图像的分类信息，具体地，目标分类信息的形式可以是N+1个分类类别以及对应的概率值，N是指预设的目标分类种类的数量，1指的是背景。例如，预设的目标分类种类包括A、B、C、D、E五种，则分类信息的形式具体可以是：

其中，

为候选目标框内图像属于类别A的概率值，同理，

分别对应为候选目标框内图像属于类别B、C、D、E以及背景的概率值。

另外，关于第二回归位置参数的定义可以参考对第一回归位置参数的解释，在此不再赘述。

步骤S500，基于各图像特征对应的候选目标框、候选目标框对应的目标分类信息以及第二回归位置参数，得到待处理图像的目标检测信息。

处理器在得到各图像特征的第二检测结果后，基于所有图像特征各自对应的候选目标框、候选目标框对应的目标分类信息以及第二回归位置参数，得到待处理图像的目标检测信息。目标检测信息可以是包含有检测目标的目标框以及该检测目标的分类信息等。

本实施例在对不同层级的图像特征进行第一次检测的基础上，通过对图像特征进行包括空洞卷积处理的图像处理，并根据第一检测结果对处理后特征再次进行目标检测，由于空洞卷积处理可以提升特征的感受野，从而可以增强对图像中的小目标的检测能力，提高图像中小目标检测结果的准确性。

在一个实施例中，如图3所示，步骤S100获取待处理图像的不同层级的图像特征，包括步骤S120至步骤S140：

步骤S120，根据待处理图像得到初始图像特征；

步骤S140，对初始特征进行卷积处理以及池化处理，得到待处理图像的不同层级的图像特征。

其中，初始图像特征是指通过将待处理图像输入特征提取基础网络而输出得到的图像特征，例如，可以是通过Xception39网络结构对待处理图像进行特征提取，得到初始图像特征，从而可以在能够有效提取特征的前提下，利用Xception39分组卷积结构对模型进行加速，保证图像特征提取的实时性。可选地，步骤S120也可以是通过VGG（VisualGeometry Group Network）、ResNet、SENet等可以进行特征提取的网络结果实现，在此不做限定。

在根据初始图像特征得到不同层级的图像特征时，可以是采用多次卷积处理以及全局池化处理。通过卷积处理可以进一步提取图像中的特征，低层卷积可以提取到图像的边缘、线条、角等特征，高层卷积能够从低层卷积中提取到更复杂的特征，从而便于进行目标检测。例如，本实施例可以是在Xception39的基础上，添加4个额外卷积层（ExtrConv1,ExtrConv2, ExtrConv3, ExtrConv4）和1个全局池化层(Glob Pooling)，其中，4个额外卷积层采用步长为2的卷积运算，特征大小逐步减小；通过全局池化层可以有效获取图像的全局语义信息，从而增强目标检测的上下文信息。

在一个实施例中，如图4所示，图中较大的矩形框K1为初始目标框，椭圆形物体为框内检测目标，较小的矩形框K2为与框内检测目标相对应的实际匹配目标框（groundtruth bound），K1的中心点为O1（x1,y1），长为H1，宽为W1；K2的中心点为O2（x2,y2），长为H2，宽为W2，则初始目标框对应的第一回归位置参数可以通过以下公式计算得到：

通过计算得到的第一回归位置参数包括中心点O1与中心点O2的x坐标的差值△x以及y坐标的差值△y，初始目标框K1与实际匹配目标框K2长的差值△H以及目标框的宽的差值△W。

如图5所示，步骤S200通过初始目标框分别对不同层级的图像特征进行目标检测，得到各图像特征的第一检测结果，包括步骤S220至步骤S260：

步骤S220，在不同层级的图像特征上分别添加多个初始目标框；

步骤S240，对各初始目标框的框内区域进行目标检测，得到第一目标检测信息，第一目标检测信息包括检测目标的第一位置信息；

步骤S260，基于第一目标检测信息中检测目标的第一位置信息以及对应的初始目标框位置信息，确定各初始目标框对应的第一回归位置参数。

具体地，对于不同层级的图像特征，可以是在每张图像特征上都分别添加多个初始目标框，从而通过初始目标框对每张图像特征都进行目标检测。初始目标框的添加方式包括随机添加以及按照预设规则添加，在此不做限定。在添加初始目标框后，对初始目标框内的图像区域进行检测，若检测到目标，则获取框内检测目标的第一位置信息，进而确定与框内检测目标对应的实际匹配目标框，最后根据该实际匹配目标框，通过上述计算方法确定各初始目标框对应的第一回归位置参数。

本实施例通过初始目标框进行目标检测，该检测过程包括对初始目标框进行回归处理，可以使得目标框的位置更加接近框内检测目标的真实位置，提高目标检测结果的准确性。

在一个实施例中，对各图像特征分别进行图像处理，得到各图像特征对应的处理后特征，包括：对各图像特征分别进行卷积处理以及空洞卷积处理，得到各图像特征对应的处理后特征。

具体地，如图6所示，对各图像特征分别进行卷积处理以及空洞卷积处理，得到各图像特征对应的处理后特征，包括：对每张图像特征分别进行步骤S310至步骤S350所描述的处理：

步骤S310，对图像特征进行预设步长的卷积处理，得到降维特征处理结果；

步骤S320，对降维特征处理结果进行空洞卷积处理，得到空洞卷积处理结果；

步骤S330，使用分解后的卷积核分别对空洞卷积处理结果进行第一卷积处理以及第二卷积处理，得到第一卷积处理结果以及第二卷积处理结果；

步骤S340，对第一卷积处理结果以及第二卷积处理结果进行残差连接处理，得到残差连接处理结果；

步骤S350，根据降维特征处理结果以及残差连接处理结果，得到图像特征对应的处理后特征。

其中，（1）预设步长的卷积处理是指利用较小的卷积核（例如1*1）对图像特征进行降维，以减少计算量，得到降维特征处理结果，预设步长的取值可以是2或者其他值。（2）在降维卷积之后，将得到的结果分别进行空洞卷积处理，以增大感受野，在对降维特征处理结果进行空洞卷积处理时，不同层级的图像特征对应的膨胀率不同。（3）分解后的卷积核是指对于采用大小为a*b的卷积核进行卷积的处理过程，可以分解为采用a*1和1*b两个卷积核进行卷积处理，即使用大小为a*1的卷积核对空洞卷积处理结果进行第一卷积处理以得到第一卷积处理结果，以及使用大小为1*b的卷积核对空洞卷积处理结果进行第二卷积处理以得到第二卷积处理结果。（4）对第一卷积处理结果以及第二卷积处理结果进行残差连接处理，以防止网络难以收敛，得到残差连接处理结果。（5）根据降维特征处理结果、残差连接处理结果，具体可以是将二者相加，从而得到图像特征对应的处理后特征。

在一个实施例中，通过候选目标框对对应的处理后特征进行目标检测之前，还包括：按照预设规则对各图像特征的处理后特征进行特征融合，得到各图像特征对应的融合后特征。对应地，通过候选目标框对对应的处理后特征进行目标检测包括：通过候选目标框对融合后特征进行目标检测。

具体地，对于不同层级的图像特征对应的处理后特征，可以先按照预设规则进行特征融合，得到各图像特征对应的融合后特征，预设规则可以是将低层级的处理后特征进行上采样处理后融合至高层级的处理后特征。通过进行图像特征融合，得到的融合后特征可以认为是融合了多层级特征的图像特征，即，融合后特征更加丰富，从而可以提高目标检测的准确性。

在一个实施例中，如图7所示，通过候选目标框对融合后特征进行目标检测，得到各图像特征的第二检测结果，包括步骤S420至步骤S480：

步骤S420，获取图像特征、处理后特征以及融合后特征之间的对应关系；

步骤S440，基于对应关系，通过候选目标框对融合后特征进行目标检测，得到各候选目标框内检测目标对应的目标分类信息以及第二位置信息；

步骤S460，基于检测目标的第二位置信息以及对应的候选目标框的位置信息，确定各候选目标框对应的第二回归位置参数；

步骤S480，确定候选目标框以及候选目标框对应的目标分类信息以及第二第二回归位置参数为融合后特征对应的图像特征的第二检测结果。

具体地，对应关系是指某一层级的图像特征、通过对该图像特征进行图像处理所得到的处理后特征、通过对该处理后特征进行特征融合所得到的的融合后特征之间的对应关系。通过候选目标框对处理后特征对应的融合后特征进行目标检测，得到各候选目标框内检测目标对应的目标分类信息以及第二位置信息。最后，根据与第一回归位置参数相同的计算原理，计算得到各候选目标框对应的第二回归位置参数。本实施例通过候选目标框进行目标检测，从而可以得到目标分类信息，另外该检测过程包括对候选目标框进行回归处理，可以使得目标框的位置更加接近框内检测目标的真实位置，提高目标检测结果的准确性。

在一个实施例中，如图8所示，按照预设规则对各图像特征的处理后特征进行特征融合，得到各图像特征对应的融合后特征，包括：对每张处理后特征分别进行步骤S412至步骤S414所描述的处理：

步骤S412，基于当前处理后特征，对其他待融合的处理后特征进行上采样处理，得到与当前处理后特征的矩阵维度大小相同的上采样特征；

步骤S414，对当前处理后特征以及其他待融合的处理后特征的上采样特征进行特征融合，得到当前处理后特征对应的融合后特征。

其中，其他待融合的处理后特征具体是指层级高于当前处理后特征的层级的图像特征。基于当前处理后特征的当前层级，可以首先对层级高于当前层级的其他待融合的处理后特征进行上采样，使得上采样之后的高层级特征的矩阵维度与当前处理后特征的矩阵维度在大小上相同，再将上采样特征与当前处理后特征进行特征融合，从而可以使得得到的融合后特征的信息更加丰富，提高目标检测结果的准确性。

在一个实施例中，对其他待融合的处理后特征进行上采样处理，包括：当其他待融合的处理后特征为通过卷积处理得到的特征时，上采样处理包括反卷积处理；当其他待融合的处理后特征为通过全局池化处理得到的特征时，上采样处理包括双线性插值处理。

其中，反卷积处理可以认为是卷积处理的逆过程，从而实现图像的上采样处理。另外，对于全局池化处理图像，由于双线性差值处理可以实现任意图像大小变化，因此可以通过双线性差值处理进行上采样。本实施例通过对不同类型的图像采取不同的上采样处理策略，可以尽可能地保留上采样图形的图像特征，便于进行图像融合。

在一个实施例中，第二检测结果还包括：候选目标框对应的交并比分数。

具体地，如图9所示，在目标检测中，交并比（Intersection-over-Union，IOU）是候选目标框与框内检测目标对应的实际匹配目标框的交叠率，即二者的交集与并集的比值。IOU可以通过以下计算公式得到：

其中，C为候选目标框，G为框内检测目标对应的实际匹配目标框，

表示目标框i对应的框内区域。

在第一次目标检测的过程中，通过添加预设数量的初始目标框以进行目标检测，然而，在最后的检测结果中，最终的框的数量要远远低于该预设数量，因此，可以通过计算每个候选目标框的交并比分数来对候选目标框进行筛选，从而保留符合预设要求的候选目标框，去除不满足预设要求的候选目标框。预设要求具体可以是IOU大于某一预设值，或者其他要求，在此不做限定。另外，采用IOU来辅助目标框的筛选，可以防止目标分类信息与位置信息脱离，提升目标框的回归精度，。

如图10所示，为根据IOU进行候选目标框筛选的示意图，C1和C2为都包含有同一框内检测目标，然而，根据图10可以明显看出，C1的交并比分数要远远大于C2的交并比分数，因此，对于图中的两个候选目标框，可以选择保留C1，去掉C2。

可选地，在进行候选目标框筛选时，也可以是分别根据不同的目标种类进行筛选。例如，对于目标A，将包含目标A的候选目标框按照IOU大小排序依次为：C1、C3、C4、C5…、C2；对于目标B，将包含目标B的候选目标框按照IOU大小排序依次为：C2、C3、C4、C5…、C8。设定筛选候选目标框的预设要求为保留前三个，则根据目标A保留的候选目标框为C1、C3、C4,根据目标B保留的候选目标框为C2、C3、C4。由此可以看出，虽然C2对于目标A的IOU最小，但是，对于目标B，C2的IOU最大，因此，通过根据不同的目标种类进行筛选，可以防止将某些较好的候选目标框误去除，使得最终保留的候选目标框更加准确可靠。

在一个实施例中，如图11所示，步骤S500基于各图像特征的候选目标框、候选目标框对应的目标分类信息以及第二回归位置参数，得到待处理图像的目标检测信息，包括步骤S510至步骤S560：

步骤S510，将各图像特征对应的候选目标框进行融合，得到融合候选目标框；

步骤S520，将各图像特征中候选目标框对应的目标分类信息进行信息融合，得到融合目标分类信息；

步骤S530，将各图像特征中候选目标框对应的第二回归位置参数进行信息融合，得到融合回归位置参数；

步骤S540，将各图像特征中候选目标框对应的交并比分数进行信息融合，得到融合交并比分数；

步骤S550，根据融合交并比分数对各融合候选目标框进行筛选，得到筛选后候选目标框；

步骤S560，根据筛选后候选目标框以及对应的融合回归位置参数，确定最终标记框。

待处理图像的目标检测信息包括最终标记框以及最终标记框对应的融合目标分类信息。具体地，对于不同层级的图像特征，可以首先将候选目标框、目标分类信息、第二回归位置参数、交并比分数分别进行融合，然后根据得到的融合交并比分数对各融合候选目标框进行筛选，得到筛选后候选目标框，并根据筛选后候选目标框的融合回归位置参数确定最终标记框，从而，最终标记框以及对应的融合目标分类信息即为待处理图像的目标检测信息。

对于不同的图像特征，区别可以认为是仅在于层级的不同，各图像特征所包含的检测目标可以认为是一样的。例如，原始输入图像里面有一辆车，在经过特征提取以及卷积处理以后，虽然得到的是多张图像特征，各图像特征里面包含的检测目标还是这辆车，不同的图像特征对应的目标检测信息可能存在一定的差异，但是会使得总体得到的目标检测信息更加全面具体。因此，本实施例中，对候选目标框、目标分类信息、第二回归位置参数、交并比分数等信息分别进行融合的目的在于将通过不同层级的图像特征得到的目标对象（例如上述举例中的车）的各检测信息进行融合汇总，从而使得目标检测信息更加全面准确，提高目标检测精度。

在一个实施例中，根据融合交并比分数对各融合候选目标框进行筛选，得到筛选后候选目标框，包括：根据融合交并比分数对各融合候选目标框进行非极大值抑制，得到筛选后候选目标框。

具体地，非极大值抑制（Non-Maximum Suppression，NMS）是指抑制不是极大值的元素，可以理解为局部最大搜索，通过非极大值可以去除融合候选目标框中冗余的目标框，而保留效果最好的目标框。例如，对于某一目标，包含该目标的融合候选目标框有6个（A、B、C、D、E、F），根据对应的融合目标分类信息，将该6个融合候选目标框属于该目标的概率按照从小到大的顺序排列依次为A、B、C、D、E、F，则非极大值抑制的处理流程依次包括以下步骤：

(1)从概率最大的融合候选目标框F开始，分别判断A~E与F的IOU是否大于某一预设阈值;

(2)假设B、D与F的IOU超过该预设阈值，则去掉B、D；并标记F，标记的融合候选目标框为保留下来的目标框；

(3)从剩下的A、C、E中，选择概率最大的E，然后分别判断E与A、E与C的IOU是否大于预设阈值，若是，则去掉，并标记E；

在实际处理过程中，可以通过重复上述流程对所有的融合候选目标框进行筛选，直至找到所有被保留下来的融合候选目标框，得到筛选后候选目标框。

在一个实施例中，提供一种目标检测方法的应用实例。本实施例主要是通过训练好的网络模型对输入图像进行目标检测。如图12所示，为本实施例中所使用的网络模型的结构示意图，该网络模型主要包括第一检测结构、特征提取结构以及第二检测结构。

参考图12，本实施例中，原始输入图像尺寸为768x448x3，其中，768x448为分辨率大小，3为通道数（其他图像的图形尺寸含义对应相同）。通过基础网络Xception39提取的初始图像特征的尺寸为192x112x1024，本实施例对初始图像特征进行了4次卷积处理以及1次全局池化处理，通过额外卷积层1、2、3、4得到的图像特征的尺寸分别为96x56x512、48x28x512、24x14x512、12x7x512，通过全局池化层得到的图像特征的尺寸为1x1x512。通常来说，图像一般包括单通道以及3通道，而此时提取得到的特征的通道远远超过了3个，例如，初始图像特征的通道数为1024，不同分辨率的图像特征的通道数为512，严格意义上来讲，此时的特征不能再被称为图像了，因此称为图像特征。

为了增强网络低层的感受野，本实施例提出多模块空洞卷积层（Multi DilateConvolution，MDC）模型，多模块空洞卷积层由多个卷积层和不同膨胀率的空洞卷积层组成，例如，具体可以是由1x1的卷积层、3x3的卷积层和不同膨胀率的空洞卷积层组成。

如图13所示，为多模块空洞卷积层的一个示意图，多模块空洞卷积层首先利用1x1的卷积层对图像特征进行预设步长的卷积处理，并将处理结果接入不同膨胀率的空洞卷积层，具体地，对于低层级的图像特征，可以采用膨胀率较大的空洞卷积层，随着层级的提高，膨胀率逐渐减小。例如，对于图12中的额外卷积层1，其对应的多模块空洞卷积层1的膨胀率可以设为7；额外卷积层2、额外卷积层3、额外卷积层4以及全局池化层，其对应的膨胀率可以依次设为5、3、2、1。

另外，为了进一步扩大感受野，在空洞卷积层之后还包括由1x5,5x1组合而成的一维的分解卷积层，分解卷积层可以大量减少计算量，分解卷积层通过连接层进行残差连接。

参考图12，多模块空洞卷积层与特征融合层连接，图12中的5个多模块空洞卷积层从高层级的图像特征往低层级的图像特征融合，相邻的多模块空洞卷积层通过上采样处理以使得不同层级的图像特征的矩阵维度大小相同，其中，多模块空洞卷积层5对应的上采样方法为双线性插值处理，多模块空洞卷积层4、3、2、1对应的上采样方法为反卷积处理。具体地，特征融合层的结构如图14所示。

如图15所示，为目标检测单元的示意图，当为第一目标检测单元时，对应的输入图像为不同层级的图像特征；当为第二目标检测单元时，对应的输入图像为不同层级的融合后特征。目标检测单元的输出包括目标分类信息分支、回归位置参数分支、交并比分数分支，上述三个分支分别用于输出该输入图像对应的目标分类信息、回归位置参数以及交并比分数。

需要说明的是，通过第一检测结构中的各第一目标检测单元得到的各图像特征的第一检测结果，需要对应使用到对应层级的图像特征进行第二次目标检测的过程中（图中未示出该处理过程）。

在一个实施例中，对上述网络模型的训练过程进行解释说明。参考图12，可以理解，对网络模型的训练主要是对网络模型中第一检测结构以及第二检测结构的参数的训练。

在构建好网络模型的基础架构后，可以使用带有标签（label）的样本图像对网络模型进行训练，标签包括标注框（ground truth）以及对应的目标分类信息和交并比分数。首先通过网络模型中的特征提取结构得到样本图像的不同层级的图像特征，然后按照本申请前实施例中描述的处理策略，对样本图像的不同层级的图像特征分别进行目标检测，继而根据各目标检测单元的输出结果以及对应的标签数据，对目标检测单元的参数进行优化，从而得到训练好的网络模型。可以理解，训练过程中的图像处理过程与本申请前实施例中所描述的过程相同，在此不再赘述。

可选地，在对模型参数进行优化的过程中，可以使用平滑的L1损失函数(SmoothL1Loss）进行目标框的边框回归，使用交叉熵代价函数(Cross Entropy Loss)进行目标框的目标分类。另外，通过在第一检测结构以及第二检测结构中引入IOU网络分支，对每个目标框输出的IOU进行拟合，其同样可以采用L1损失函数。通过IOU可以对目标框进行筛选，得到最终保留的目标框。

具体地，对于第一检测结构，目标分类信息对应的损失函数

为：

其中，

表示第一检测结构的正样本数量，分类

代价函数定义为：

其中，x表示输入，

表示分类的标签。

回归位置参数对应的损失函数

为：

其中，

表示L1SmoothLoss代价函数，

表示回归位置参数分支的网络输出，

表示对应的坐标标签。

交并比分数对应的损失函数

为：

其中，

表示得分分支的网络输出，

表示IOU标签。其定义为：

其中，

表示输出和anchors的交集，

表示输出和anchors的并集。

对于第二检测结构，对应的损失函数为：

其中，

表示第一检测结构的回归位置参数分支的输出。

表示各个LOSS的权重系数，本实施例设置为

。

网络的最终输出的拟合是利用总损失函数LOSS，总损失函数为是两个检测结构的损失函数之和，具体为：

其中

是平衡第一检测结构和第二检测结构的系数，本实施例设置

=1。

需要说明的是，在网络模型参数训练的推理阶段，目标框的筛选仍然可以以目标分类信息的置信度进行筛选；在去除冗余目标框的阶段，可以主要通过交并比分数确定需要去除的冗余目标框。

在合理条件下应当理解，虽然前文各实施例涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图16所示，提供一种目标检测装置，该目标检测装置包括以下模块：

图像特征获取模块100，用于获取待处理图像的不同层级的图像特征；

第一目标检测模块200，用于通过初始目标框分别对不同层级的图像特征进行目标检测，得到各图像特征的第一检测结果，第一检测结果包括初始目标框以及对应的第一回归位置参数；

图像特征处理模块300，用于对各图像特征分别进行图像处理，得到各图像特征对应的处理后特征，图像处理包括空洞卷积处理；

第二目标检测模块400，用于基于各图像特征对应的初始目标框以及第一回归位置参数确定各图像特征对应的候选目标框，通过候选目标框对对应的处理后特征进行目标检测，得到各图像特征对应的第二检测结果，所述第二检测结果包括所述候选目标框以及对应的目标分类信息以及第二回归位置参数；

检测信息确定模块500，用于基于各图像特征对应的候选目标框、候选目标框对应的目标分类信息以及第二回归位置参数，得到待处理图像的目标检测信息。

关于目标检测装置的具体限定可以参见上文中对于目标检测方法的限定，在此不再赘述。上述目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各实施例所描述的目标检测方法的处理步骤。

图17示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端（或服务器）。如图17所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现目标检测方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行目标检测方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图17中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各实施例所描述的目标检测方法的处理步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种目标检测方法，其特征在于，包括：

获取待处理图像的不同层级的图像特征，所述待处理图像为单独一张图像；

对各所述图像特征分别进行图像处理，得到各所述图像特征对应的处理后特征，所述图像处理包括空洞卷积处理，所述图像处理具体包括：对每张图像特征分别进行以下处理：对所述图像特征进行预设步长的卷积处理，得到降维特征处理结果；对所述降维特征处理结果进行空洞卷积处理，得到空洞卷积处理结果；使用分解后的卷积核分别对所述空洞卷积处理结果进行第一卷积处理以及第二卷积处理，得到第一卷积处理结果以及第二卷积处理结果；对所述第一卷积处理结果以及所述第二卷积处理结果进行残差连接处理，得到残差连接处理结果；根据所述降维特征处理结果以及所述残差连接处理结果，得到所述图像特征对应的处理后特征；

其中，在对各所述图像特征对应的降维特征处理结果分别进行空洞卷积处理时，低层级的图像特征对应的膨胀率大于高层级的图像特征对应的膨胀率；

2.根据权利要求1所述的方法，其特征在于，获取待处理图像的不同层级的图像特征，包括：

根据所述待处理图像得到初始图像特征；

对所述初始图像特征进行卷积处理以及池化处理，得到所述待处理图像的不同层级的图像特征。

3.根据权利要求1所述的方法，其特征在于，通过初始目标框分别对所述不同层级的图像特征进行目标检测，得到各所述图像特征的第一检测结果，包括：

在所述不同层级的图像特征上分别添加多个初始目标框，所述初始目标框的添加方式包括随机添加以及按照预设规则添加；

对各所述初始目标框的框内区域进行目标检测，得到第一目标检测信息，所述第一目标检测信息包括检测目标的第一位置信息；

基于所述第一目标检测信息中检测目标的第一位置信息以及对应的初始目标框位置信息，确定各所述初始目标框对应的第一回归位置参数。

4.根据权利要求1所述的方法，其特征在于，通过所述候选目标框对对应的处理后特征进行目标检测之前，还包括：

按照预设规则对各所述图像特征的处理后特征进行特征融合，得到各所述图像特征对应的融合后特征；

所述通过所述候选目标框对对应的处理后特征进行目标检测包括：

通过所述候选目标框对所述融合后特征进行目标检测。

5.根据权利要求4所述的方法，其特征在于，通过所述候选目标框对所述融合后特征进行目标检测，得到各所述图像特征对应的第二检测结果包括：

获取所述图像特征、所述处理后特征以及所述融合后特征之间的对应关系；

基于所述对应关系，通过所述候选目标框对融合后特征进行目标检测，得到各所述候选目标框内检测目标对应的目标分类信息以及第二位置信息；

基于所述检测目标的第二位置信息以及对应的候选目标框位置信息，确定各所述候选目标框对应的第二回归位置参数；

确定所述候选目标框以及所述候选目标框对应的目标分类信息以及第二第二回归位置参数为所述融合后特征对应的图像特征的第二检测结果。

6.根据权利要求4所述的方法，其特征在于，按照预设规则对各所述图像特征的处理后特征进行特征融合，得到各所述图像特征对应的融合后特征，包括：

对每张处理后特征分别进行以下处理：

基于当前处理后特征，对其他待融合的处理后特征进行上采样处理，得到与所述当前处理后特征的矩阵维度大小相同的上采样特征，所述其他待融合的处理后特征的层级高于所述当前处理后特征的层级；

对所述当前处理后特征以及所述其他待融合的处理后特征的上采样特征进行特征融合，得到所述当前处理后特征对应的融合后特征。

7.根据权利要求6所述的方法，其特征在于，对其他待融合的处理后特征进行上采样处理，包括：

当所述其他待融合的处理后特征为通过卷积处理得到的特征时，所述上采样处理包括反卷积处理；

当所述其他待融合的处理后特征为通过全局池化处理得到的特征时，所述上采样处理包括双线性插值处理。

8.根据权利要求1所述的方法，其特征在于，所述第二检测结果还包括：所述候选目标框对应的交并比分数；

基于各所述图像特征的候选目标框、候选目标框对应的目标分类信息以及第二回归位置参数，得到所述待处理图像的目标检测信息，包括：

将各所述图像特征对应的候选目标框进行融合，得到融合候选目标框；

将各所述图像特征中候选目标框对应的目标分类信息进行信息融合，得到融合目标分类信息；

将各所述图像特征中候选目标框对应的第二回归位置参数进行信息融合，得到融合回归位置参数；

将各所述图像特征中候选目标框对应的交并比分数进行信息融合，得到融合交并比分数；

根据所述融合交并比分数对各所述融合候选目标框进行筛选，得到筛选后候选目标框；

根据所述筛选后候选目标框以及对应的融合回归位置参数，确定最终标记框；

所述待处理图像的目标检测信息包括所述最终标记框以及所述最终标记框对应的融合目标分类信息。

9.一种目标检测装置，其特征在于，包括：

图像特征获取模块，用于获取待处理图像的不同层级的图像特征，所述待处理图像为单独一张图像；

第一目标检测模块，用于通过初始目标框分别对所述不同层级的图像特征进行目标检测，得到各所述图像特征的第一检测结果，所述第一检测结果包括所述初始目标框以及对应的第一回归位置参数；

图像特征处理模块，用于对各所述图像特征分别进行图像处理，得到各所述图像特征对应的处理后特征，所述图像处理包括空洞卷积处理，所述图像处理具体包括：对每张图像特征分别进行以下处理：对所述图像特征进行预设步长的卷积处理，得到降维特征处理结果；对所述降维特征处理结果进行空洞卷积处理，得到空洞卷积处理结果；使用分解后的卷积核分别对所述空洞卷积处理结果进行第一卷积处理以及第二卷积处理，得到第一卷积处理结果以及第二卷积处理结果；对所述第一卷积处理结果以及所述第二卷积处理结果进行残差连接处理，得到残差连接处理结果；根据所述降维特征处理结果以及所述残差连接处理结果，得到所述图像特征对应的处理后特征；

第二目标检测模块，用于基于各所述图像特征对应的所述初始目标框以及所述第一回归位置参数确定各所述图像特征对应的候选目标框，通过所述候选目标框对对应的处理后特征进行目标检测，得到各所述图像特征对应的第二检测结果，所述第二检测结果包括所述候选目标框以及对应的目标分类信息以及第二回归位置参数；

检测信息确定模块，用于基于各所述图像特征对应的候选目标框、候选目标框对应的目标分类信息以及第二回归位置参数，得到所述待处理图像的目标检测信息。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。