CN112446378B

CN112446378B - 目标检测方法及装置、存储介质、终端

Info

Publication number: CN112446378B
Application number: CN202011373448.XA
Authority: CN
Inventors: 陈圣卫
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2022-09-16
Anticipated expiration: 2040-11-30
Also published as: WO2022111352A1; CN112446378A

Abstract

一种目标检测方法及装置、存储介质、终端，所述方法包括：获取样本图像；提取所述样本图像的初始特征图，并对所述初始特征图进行语义信息增强处理，以得到所述样本图像的第一预测图，所述第一预测图用于指示所述样本图像的目标区域和背景区域，所述目标区域为包含所述预设目标的区域，所述背景区域为未包含所述预设目标的区域；根据所述第一预测图和第二预测图对检测网络模型进行训练，以得到训练后的检测网络模型，采用训练后的检测网络模型检测待测图像，以得到所述待测图像中所述预设目标的检测结果。通过本发明的技术方案，能够高效准确地检测出待测图像中的预设目标。

Description

目标检测方法及装置、存储介质、终端

技术领域

本发明涉及一种计算机视觉领域，尤其涉及一种目标检测方法及装置、存储介质和终端

背景技术

当前目标检测是计算机视觉领域中一个富有挑战性的课题，广泛应用于机器人导航、智能视频监控、工业检测、航空航天、自动驾驶等诸多领域。由于相关技术的发展和产业的需要，当前对目标检测的效率和准确度的要求越来越高。

随着深度学习技术的高速发展，越来越多的目标检测采用卷积神经网络(Convolutional Neural Networks，CNN)来完成，卷积神经网络逐渐取代了传统的图像处理算法。在目标检测任务中，卷积神经网络的检测准确率虽然屡创新高，但其对于小尺寸目标(例如：不超过预设尺寸的目标，也可以是尺寸占其所属图像的尺寸的比例不超过预设比例的目标)的检测准确率并不高，现有的小尺寸目标的检测准确率通常只有正常尺寸目标的检测准确率的一半。

因此，亟需提出一种高效、准确的目标检测方法，以提高小尺寸目标的检测准确率。

发明内容

本发明解决的技术问题是提供一种高效、准确的目标检测方法，以提高小尺寸目标的检测准确率。

为解决上述技术问题，本发明实施例提供一种目标检测方法，所述方法包括：获取样本图像，所述样本图像包括预设目标；提取所述样本图像的初始特征图，并对所述初始特征图进行语义信息增强处理，以得到所述样本图像的第一预测图，所述第一预测图用于指示所述样本图像的目标区域和背景区域，所述目标区域为包含所述预设目标的区域，所述背景区域为未包含所述预设目标的区域；根据所述第一预测图和第二预测图对检测网络模型进行训练，以得到训练后的检测网络模型，其中，所述第二预测图是根据所述初始特征图对所述样本图像进行计算得到的，所述第二预测图用于指示所述预设目标的边界框；采用训练后的检测网络模型检测待测图像，以得到所述待测图像中所述预设目标的检测结果。

可选的，所述初始特征图的每个像素点包括多个通道，所述初始特征图是通过对所述样本图像进行下采样得到的，则对所述初始特征图进行语义信息增强处理包括：步骤一：对所述初始特征图进行2倍上采样，以得到第一特征图；步骤二：根据通道注意力机制对所述第一特征图进行处理，以得到第二特征图；步骤三：将所述第二特征图作为新的初始特征图；重复执行步骤一至步骤三，直至所述上采样倍数与所述下采样倍数相等；步骤四：对所述初始特征图进行第一卷积运算，以得到所述第一预测图，其中，所述第一预测图的通道数量为2。

可选的，根据通道注意力机制对所述第一特征图进行处理之前，所述方法还包括：对所述第一特征图进行多次第二卷积运算，每次第二卷积运算采用1×1的卷积核；将多次第二卷积运算的结果与所述第一特征图相加，以得到新的第一特征图。

可选的，根据通道注意力机制对所述第一特征图进行处理之前，所述方法还包括：对所述第一特征图进行多次第三卷积运算，多次第三卷积运算中至少一次采用3×3的卷积核；将多次第三卷积运算的结果与所述第一特征图相加，以得到新的第一特征图。

可选的，对所述第一特征图进行多次第二卷积运算包括：第一次第二卷积运算之外的其他第二卷积运算中，均先对所述第一特征图进行批标准化处理，再使用relu激活函数。

可选的，所述检测网络模型的损失函数为Loss＝λ_semantic L_semantic+ λ_model L_model，其中，Loss为所述检测网络模型的损失函数，L_semantic为第一损失函数，L_model为第二损失函数，λ_semantic为第一损失函数的权重系数，λ_model为第二损失函数的权重系数；则根据所述第一预测图对所述检测网络模型进行训练包括：步骤A：根据所述第一预测图、所述样本图像和所述第一损失函数计算第一损失函数值，并根据所述第二预测图、所述样本图像和所述第二损失函数计算第二损失函数值；步骤B：根据所述第一损失函数值和所述第二损失函数值计算所述检测网络模型的损失函数值；步骤C：判断所述损失函数值超过预设阈值，如果是，则调整所述检测网络模型中用于提取所述初始特征图的模块的参数，如果不是，则结束所述检测网络模型的训练；步骤D：采用调整参数后的检测网络模型提取所述样本图像的初始特征图，对所述初始特征图进行语义信息增强处理，以得到所述第一预测图，并根据所述初始特征图对所述样本图像进行预测，以得到所述第一预测图；重复执行步骤A至步骤E，直至步骤C中判断所述损失函数值未超过预设阈值。

可选的，所述第一损失函数为FocalLoss函数。

可选的，所述第一损失函数的权重系数由所述样本图像中所述预设目标占所有目标的比例决定，所述预设目标占所有目标的比例越大，则所述第一损失函数的权重系数越大。

可选的，在提取所述样本图像的初始特征图之前，所述方法还包括：对所述样本图像进行数据增强，所述数据增强包括以下一项或多项：调整所述样本图像的亮度和/或对比度、将所述样本图像旋转预设角度、为所述样本图像增加噪声。

可选的，所述检测网络模型为单步检测网络模型。

为了解决上述技术问题，本发明实施例还提供一种目标检测装置，所述装置包括：获取模块，用于获取样本图像，所述样本图像包括预设目标；处理模块，用于提取所述样本图像的初始特征图，并对所述初始特征图进行语义信息增强处理，以得到所述样本图像的第一预测图，所述第一预测图用于指示所述样本图像的目标区域和背景区域，所述目标区域为包含所述预设目标的区域，所述背景区域为未包含所述预设目标的区域；训练模块，用于根据所述第一预测图和第二预测图对检测网络模型进行训练，以得到训练后的检测网络模型，其中，所述第二预测图是根据所述初始特征图对所述样本图像进行计算得到的，所述第二预测图用于指示所述预设目标的边界框；检测模块，用于采用训练后的检测网络模型检测待测图像，以得到所述待测图像中所述预设目标的检测结果。

本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述目标检测方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述目标检测方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例提供一种目标检测方法，所述方法包括：获取样本图像，所述样本图像包括预设目标；提取所述样本图像的初始特征图，并对所述初始特征图进行语义信息增强处理，以得到所述样本图像的第一预测图，所述第一预测图用于指示所述样本图像的目标区域和背景区域，所述目标区域为包含所述预设目标的区域，所述背景区域为未包含所述预设目标的区域；根据所述第一预测图和第二预测图对检测网络模型进行训练，以得到训练后的检测网络模型，其中，所述第二预测图是根据所述初始特征图对所述样本图像进行计算得到的，所述第二预测图用于指示所述预设目标的边界框；采用训练后的检测网络模型检测待测图像，以得到所述待测图像中所述预设目标的检测结果。本发明实施例的方案中，采用样本图像训练检测网络模型时，首先提取样本图像的初始特征图，然后对初始特征图进行语义信息增强处理，得到能够指示样本图像中的目标区域和背景区域的第一预测图，再根据第一预测图和能够指示预设目标边界框的第二预测图训练检测网络模型，以得到训练后的检测网络模型。由于第一预测图能够指示样本图像中的目标区域和背景区域，因此，第一预测图能够包含较多的样本图像中预设目标的语义信息，采用第一预测图训练检测网络模型，可以使得该检测网络模型很好地学习到预设目标的语义信息，在后续检测待测图像时，能够更准确地得到预设目标的检测结果，而且检测效率更高。

进一步，本发明实施例中，对初始特征图进行语义信息增强处理时，对初始特征图进行上采样并根据通道注意力机制对其进行处理，直至上采样倍数与提取初始特征图时下采样的倍数相同。通过上采样处理，可以使得第一预测图的大小与样本图像相同，以便后续根据第一预测图和样本图像训练损失函数。初始特征图中每个像素点包含多个通道，采用通道注意力机制进行语义信息增强处理，强化与预设目标相关性大的通道，弱化与预设目标相关性小的通道，最后对初始特征图进行卷积运算，将第一预测图的通道数调整为2，使得第一预测图能够采用二分类的方式(也即，指示目标区域和背景区域)直观地体现预设目标的语义信息。

进一步，本发明实施例中，第一损失函数的权重系数由预设目标占样本图像中所有目标的比例确定，预设目标的占比越大，第一损失函数的权重系数越大，也即，经过语义信息增强处理得到的第一预测图在训练检测网络模型时的作用越大，使得检测网络模型在检测预设目标时具有良好的性能。

附图说明

图1是本发明实施例中一种目标检测方法的流程示意图。

图2是本发明实施例中一种目标检测方法适用的检测网络模型的结构示意图。

图3是图2中语义信息增强模块的结构示意图。

图4是图3中第一残差模块的结构示意图。

图5是本发明实施例中第一预测图的示意图。

图6是本发明实施例中一种目标检测装置的结构示意图。

具体实施方式

如背景技术所述，亟需提出一种高效、准确的目标检测方法，以提高小尺寸目标的检测准确率。

本发明的发明人经过研究发现，现有技术中，用于小尺寸目标检测的卷积神经网络主要有特征金字塔网络(Feature Pyramid Networks，FPN)、采用生成式对抗网络(Generative Adversarial Networks，GAN)或者是采用图像金字塔尺寸归一化网络(ScaleNormalization for Image Pyramids，SNIP)等。其中，FPN通过融合不同尺度的特征以获取图像中小尺寸目标的更多信息，GAN 则通过复原小目标图像信息来提升检测精度，而SNIP是在多尺度训练的基础上只对与预训练尺度相匹配的目标进行梯度回传，以提高检测精度。

不论采用何种结构的卷积神经网络，为了提高对于小尺寸目标的检测性能，在网络训练的过程中，都需要使该网络充分学习到小尺寸目标的语义信息。但由于小尺寸目标在图像中占比较小，图像模糊，分辨率较低，卷积神经网络在学习图像中小尺寸目标的特征信息的过程中，能提取到的小尺寸目标的语义信息非常有限。因此，卷积神经网络模型对于小尺寸目标的特征信息的表达能力较弱。

为了使卷积神经网络获得更多小尺寸目标的语义信息，通常采用加深网络深度的方式，也即通过提高卷积层数量，使网络在训练过程中获得更多小尺寸目标的语义信息，但这种方法需要大幅度增加卷积神经网络中卷积层的数量，会导致网络结构复杂，深度较深，在后续检测小尺寸目标时耗费时间较长，导致卷积神经网络在实际检测小尺寸目标的应用中性能不高。

为了解决上述技术问题，本发明实施例提供一种目标检测方法，所述方法包括：获取样本图像，所述样本图像包括预设目标；提取所述样本图像的初始特征图，并对所述初始特征图进行语义信息增强处理，以得到所述样本图像的第一预测图，所述第一预测图用于指示所述样本图像的目标区域和背景区域，所述目标区域为包含所述预设目标的区域，所述背景区域为未包含所述预设目标的区域；根据所述第一预测图和第二预测图对检测网络模型进行训练，以得到训练后的检测网络模型，其中，所述第二预测图是根据所述初始特征图对所述样本图像进行计算得到的，所述第二预测图用于指示所述预设目标的边界框；采用训练后的检测网络模型检测待测图像，以得到所述待测图像中所述预设目标的检测结果。本发明实施例的方案中，采用样本图像训练检测网络模型时，首先提取样本图像的初始特征图，然后对初始特征图进行语义信息增强处理，得到能够指示样本图像中的目标区域和背景区域的第一预测图，再根据第一预测图和能够指示预设目标边界框的第二预测图训练检测网络模型，以得到训练后的检测网络模型。由于第一预测图能够指示样本图像中的目标区域和背景区域，因此，第一预测图能够包含较多的样本图像中预设目标的语义信息，采用第一预测图训练检测网络模型，可以使得该检测网络模型很好地学习到预设目标的语义信息，在后续检测待测图像时，能够快速、准确地得到预设目标的检测结果。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

参照图1，图1是本发明实施例中一种目标检测方法的流程示意图。所述目标检测方法可以由终端执行，所述终端可以是各种恰当的终端，例如手机、电脑、物联网设备等，但并不限于此。所述方法可以用于检测待测图像中是否包含预设目标，也可以用于检测待测图像中预设目标的具体位置和类别，但并不限于此。所述待测图像可以是终端实时采集到的图像，也可以是预先存储在终端上的图像，还可以是终端从外部接收到的图像，但并不限于此。所述预设目标可以是终端根据预先从外部接收到的指令来确定的，也可以是终端通过各种恰当的模型对样本图像进行识别来确定的。

图1所示的目标检测方法具体可以包括如下步骤：

步骤S101：获取样本图像，所述样本图像包括预设目标；

步骤S102：提取所述样本图像的初始特征图，并对所述初始特征图进行语义信息增强处理，以得到所述样本图像的第一预测图，所述第一预测图用于指示所述样本图像的目标区域和背景区域，所述目标区域为包含所述预设目标的区域，所述背景区域为未包含所述预设目标的区域；

步骤S103：根据所述第一预测图和第二预测图对检测网络模型进行训练，以得到训练后的检测网络模型，其中，所述第二预测图是根据所述初始特征图对所述样本图像进行计算得到的，所述第二预测图用于指示所述预设目标的边界框；

步骤S104：采用训练后的检测网络模型检测待测图像，以得到所述待测图像中所述预设目标的检测结果。

在步骤S101的具体实施中，终端可以从外部获取样本图像，也可以从存储在本地的训练集中选取至少一部分作为样本图像，所述样本图像可以包括预设目标。

进一步地，所述预设目标是指特定的目标对象，例如，交通标志牌、车牌、人脸等，该预设目标可以是终端根据预先从外部接收到的指令来确定，也可以是终端通过各种恰当的模型对样本图像进行识别来确定的。

此外，所述预设目标还可以额外增加其他条件，例如在特定的目标对象基础上，可以是尺寸不超过预设尺寸，也可以是尺寸占其所述图像的尺寸不超过预设比例，但并不限于此。所述预设尺寸、预设比例可以是预先设置的。

进一步地，样本图像中可以包括标识图形，标识图形用于指示样本图像中预设目标的位置，也可以用于指示样本图像中预设目标的类别。例如，在多目标检测(也即，预设目标有多个)的场景下，可以采用不同形状的标识图形来表示不同类别的预设目标。

在步骤S102的具体实施中，训练检测网络模型之前，需要先构建检测网络模型，该检测网络模型可以具有各种适当的结构。

参考图2，图2是本发明实施例中一种目标检测方法适用的检测网络模型的结构示意图。下面结合图2对本发明实施例中一种目标检测方法适用的检测网络模型进行非限制性的说明。

图2示出的检测网络模型可以包括特征提取模块21、预测模块22、语义信息增强模块23。

进一步地，所述检测网络模型可以是单步检测网络模型(单步检测网络模型是指，仅需要将待测图像送入网络后，不需要经过候选区域建议阶段，可以通过单个阶段直接得到预设目标的检测结果的网络模型)，也可以是两步检测网络模型(两步检测网络模型是指，先基于输入的待测图像生成多个候选区域，再对候选区域进行分类的网络模型)，还可以是其他任何恰当的网络模型，在此不做任何限制。作为一个非限制性实施例，检测网络模型为单步检测网络模型。

进一步地，特征提取模块21可以用于提取样本图像中的特征，以得到样本图像的初始特征图。初始特征图可以包括预设目标在样本图像中的位置信息，也可以包括预设目标的语义信息。

进一步地，特征提取模块21可以通过对样本图像进行多次下采样，以得到初始特征图。例如，特征提取模块21对样本图像进行2ⁿ倍下采样，得到初始特征图，n为正整数。

进一步地，特征提取模块21提取到的初始特征图可以传输至预测模块22，预测模块22可以根据初始特征图进行计算，以得到第二预测图。由于初始特征图中包含预设目标在样本图像中的位置信息和语义信息，第二预测图可以用于指示样本图像中预设目标的边界框。具体而言，预测模块22可以根据初始特征图计算出样本图像中预设目标的关键点位置、偏移量和预设目标尺寸等，但并不限于此。

进一步地，特征提取模块21提取到的初始特征图还可以输入至语义信息增强模块23，语义信息增强模块23对初始特征图进行语义信息增强处理，以得到第一预测图。其中，语义信息增强模块23中包括至少一个子模块以及二分类预测模块，其中，所述子模块用于对初始特征图进行上采样以及提取初始特征图中预设目标的语义信息，所述二分类预测模块用于通过二分类的方法指示出第二预测图中的目标区域和背景区域，其中，目标区域是指包含目标的区域，背景区域是指未包含目标的区域，以便增强第二预测图的语义信息。

进一步地，在构建检测网络模型时，还需要确定所述子模块的数量，所述子模块的数量由上述下采样倍数决定。具体而言，特征提取模块21在提取样本图像的初始特征图时，对样本图像进行了2ⁿ倍下采样，则子模块的数量即为n，n为正整数。

参考图3，图3示出了图2中语义信息增强模块23的结构示意图。下面结合图3对图2中的语义增强模块进行非限制性的说明。

图3示出了特征提取模块21对样本图像进行4倍下采样时的语义信息增强模块的结构示意图，其包括第一子模块31、第二子模块32和二分类预测模块33。

进一步地，第一子模块31和第二子模块32均包括上采样模块34，第一残差模块35、第二残差模块36、通道注意力模块37。

进一步地，所述上采样模块34可以用于对初始特征图进行上采样，使得经过语义信息增强模块得到的第一预测图的尺寸与样本图像的尺寸一致，以便后续用于训练损失函数。

进一步地，所述第一残差模块35可以用于提取更多上采样模块34输出的图像中预设目标的特征信息，还可以在提取特征信息的同时，避免梯度消失。所述第一残差模块35中可以包括多个卷积层，如果第一残差模块35中每个卷积层均采用1×1的卷积核，因此，第一残差模块35可以更好地提取每个像素点本身的特征。

图4示出了图3中第一残差模块35的结构示意图。下面结合图4对图3 中的第一残差模块进行非限制性的说明。

第一残差模块35包括第一卷积层41、第二卷积层42和第三卷积层43，上采样模块34输出的图像可以输入至第一卷积层41，第一卷积层41可以采用1×1的卷积核。第一卷积层41输出的图像可以输入至第二卷积层42，第二卷积层42可以采用1×1的卷积核。作为一个非限制性实施例，第二卷积层42可以是分组卷积层。第二卷积层42输出的图像可以输入至第三卷积层 43，第三卷积层43可以采用1×1的卷积核。

进一步地，第三卷积层43的输出可以与第一卷积层41的输出相加，以得到第一残差模块35的输出，可以避免在检测网络模型中出现梯度消失的问题。

进一步地，继续参考图3，第二残差模块36也可以用于提取更多上采样模块34输出的图像中预设目标的特征信息，还可以在提取更多的特征信息的同时，避免梯度消失。所述第二残差模块36中可以包括多个卷积层，其中，至少一个卷积层包括3×3的卷积核，因此，第二残差模块36可以更好地提取每个像素点对应的感受野的特征。在一个非限制性实施例中，第二残差模块36可以包括第四卷积层、第五卷积层和第六卷积层。其中，上采样模块34输出的图像可以输入至第四卷积层，第四卷积层可以采用1×1的卷积核。第四卷积层输出的图像可以输入至第五卷积层，第五卷积层可以采用3×3的卷积核。作为一个非限制性实施例，第五卷积层可以是分组卷积层。第五卷积层输出的图像可以输入至第六卷积层，第六卷积层可以采用1×1的卷积核。

进一步地，第六卷积层的输出可以与第四卷积层的输出相加，以得到第二残差模块36的输出，可以避免在检测网络模型中出现梯度消失的问题。

进一步地，通道注意力模块37可以用于根据通道注意力机制对上采样模块34输出的图像进行处理。具体而言，对于图像中的每个像素点，可以采用激活函数确定各个通道的权重值，通道与预设目标越相关，该通道的权重值越大，然后基于各个通道的权重值对上采样模块34输出的图像进行加权计算处理，以使得通道注意力模块37输出的图像能够很好地表征预设目标的语义信息，指向性更强。

需要说明的是，上述第一残差模块35和第二残差模块36是可选的，也即，第一子模块31或第二子模块32中可以只包括上采样模块34和通道注意力模块37，也可以包括上采样模块34、通道注意力模块37、和/或第一残差模块35、和/或第二残差模块36，但并不限于此。

进一步地，二分类预测模块33可以用于将图像的通道值调整为2，二分类预测模块可以包含第七卷积层，第七卷积层的滤波器的数量为2，使得二分类预测模块输出的第一预测图可以用于指示目标区域和背景区域，其中，目标区域为包含预设目标的区域，所述背景区域为未包含预设目标的区域。

继续参考图1，检测网络模型构建后，终端可以将样本图像输入至检测网络模型，检测网络模型可以提取样本图像的初始特征图，例如，可以采用对样本图像进行下采样，以提取初始特征图。其中，所述初始特征图的每个像素点包括多个通道。初始特征图可以包括预设目标在样本图像中的位置信息，也可以包括预设目标的语义信息。

需要说明的是，下采样倍数是由提取初始特征图的模块的结构决定的，其对样本图像的下采样倍数与对待测图像的下采样倍数相同。又例如，可以采用图2中的特征提取模块21提取该初始特征图。

进一步地，在提取样本图像的初始特征图之前，还可以对所述样本图像进行数据增强，所述数据增强包括以下一项或多项：调整所述样本图像的亮度和/或对比度、将所述样本图像旋转预设角度、为所述样本图像增加噪声，但并不限于此。

进一步地，终端可以根据样本图像的初始特征图计算样本图像中预设目标的关键点位置、偏移量和预设目标尺寸等，以得到样本图像的第二预测图，第二预测图可以用于指示样本图像中预设目标的边界框。

进一步地，可以对初始特征图进行语义信息增强处理，以得到样本图像的第一预测图。例如，可以将初始特征图传输至图2中的语义信息增强模块 23进行语义信息增强处理。

在一个非限制性实施例中，所述初始特征图是通过对所述样本图像进行下采样得到的，则对所述初始特征图进行语义信息增强处理可以包括：步骤一：对所述初始特征图进行2倍上采样，以得到第一特征图；步骤二：根据通道注意力机制对所述第一特征图进行处理，以得到第二特征图；步骤三：将所述第二特征图作为新的初始特征图；重复执行步骤一至步骤三，直至所述上采样倍数与所述下采样倍数相等；步骤四：对所述初始特征图进行第一卷积运算，以得到所述第一预测图，其中，所述第一预测图的通道数量为2。

具体而言，对于每次上采样得到的图像，均采用通道注意力机制进行处理，直至对初始特征图进行上采样的倍数与对样本图像进行下采样的倍数相同。上采样的次数或者根据通道注意力机制进行处理的次数由下采样的倍数决定，如果下采样倍数为2ⁿ，则上采样的次数或者采用通道注意力机制进行处理的次数即为n，n为正整数。

进一步地，采用注意力通道机制对第一特征图进行处理时，对于第一特征图中每个像素点，可以采用激活函数确定像素点的各个通道的权重值，通道与预设目标越相关，该通道的权重值越大，然后基于各个通道的权重值对第一特征图进行加权计算处理，以得到第二特征图，由此，第二特征图能够清晰地表征预设目标的语义信息，指向性更强。

进一步地，当所述上采样倍数与所述下采样倍数相等时，可以对所述初始特征图进行第一卷积运算，例如，可以采用图3中的二分类预测模块33进行第一卷积运算。在进行第一卷积运算过程中，采用的滤波器的数量为2，得到的第一预测图的通道为2，因此，第一预测图能够指示目标区域和背景区域，所述目标区域是指样本图像中包含预设目标的区域，背景区域是指样本图像中未包括预设目标的区域。参考图5，图5是本发明实施例中第一预测图的示意图，其中，目标区域51和目标区域52即为包含预设目标的区域，而背景区域53中未包含预设目标。

由此，通过语义信息增强处理，可以在将初始特征图的尺寸还原为样本图像的尺寸的同时，可以筛选出每个像素中重要的通道，所述重要的通道是指与预设目标相关性较大的通道，然后通过第一卷积运算以得到第一预测图，使得第一预测图能够采用二分类的方式直观地体现样本图像中的目标区域和背景区域，使得第一预测图能够包括丰富的语义信息。

进一步地，继续参考图1，根据通道注意力机制对所述第一特征图进行处理之前，还可以对第一特征图进行多次第二卷积运算，其中，每次第二卷积运算可以采用1×1的卷积核；将多次第二卷积运算的最终结果与所述第一特征图相加，以得到新的第一特征图。

进一步地，第一次第二卷积运算之外的其他第二卷积运算中，均先对第一特征图进行批标准化处理，再使用relu激活函数。以使得检测网络模型更加优化。

在一个非限制性实施例中，第二卷积运算的次数为3。其中，对第一特征图进行第二次第二卷积运算时，可以采用分组卷积的方式进行计算。

在另一个非限制性实施例中，可以采用图4所示的第一残差模块35进行多次第二卷积运算。

进一步地，根据通道注意力机制对所述第一特征图进行处理之前，还可以对第一特征图进行多次第三卷积运算，多次第三卷积运算中至少一次采用3 ×3的卷积核；将多次第三卷积运算的最终结果与所述第一特征图相加，以得到新的第一特征图。

进一步地，进行多次第三卷积运算的过程中，第一次第三卷积运算之外的其他第二卷积运算可以均采用relu激活函数，并进行批标准化处理，以使得检测网络模型更加优化。

在一个非限制性实施例中，第三卷积运算的次数为3，其中，第二次第三卷积运算采用3×3的卷积核，第二次第三卷积运算以外的其他第三卷积运算采用1×1的卷积核。此外，第二次第三卷积运算采用分组卷积的方式进行计算，第二次第三卷积运算以外的其他第三卷积运算采用普通卷积的方式进行计算。

在另一个非限制性实施例中，可以采用图3所示的第二残差模块36进行多次第三卷积运算。

在步骤S103的具体实施中，根据第一预测图和第二预测图对检测网络模型进行训练，以得到训练后的检测网络模型。

具体而言，所述检测网络模型的损失函数由第一损失函数和第二损失函数构成。具体而言，可以采用以下公式表示所述检测网络模型的损失函数：

Loss＝λ_semantic L_semantic+λ_model L_model，

其中，Loss为所述检测网络模型的损失函数，L_semantic为第一损失函数，L_model为第二损失函数，λ_semantic为第一损失函数的权重系数，λ_model为第二损失函数的权重系数；其中，λ_semantic+λ_model＝1。

进一步地，训练所述检测网络模型可以包括以下步骤：步骤A：根据所述第一预测图、所述样本图像和所述第一损失函数计算第一损失函数值，并根据所述第二预测图、所述样本图像和所述第二损失函数计算第二损失函数值；步骤B：根据所述第一损失函数值和所述第二损失函数值计算所述检测网络模型的损失函数值；步骤C：判断所述损失函数值超过预设阈值，如果是，则调整所述检测网络模型中用于提取所述初始特征图的模块的参数，如果不是，则结束所述检测网络模型的训练；步骤D：采用调整参数后的检测网络模型提取所述样本图像的初始特征图，对所述初始特征图进行语义信息增强处理，以得到所述第一预测图，并根据所述初始特征图对所述样本图像进行预测，以得到所述第一预测图；

重复执行步骤A至步骤E，直至步骤C中判断所述损失函数值未超过预设阈值，也即，直至步骤C中跳转至结束所述检测网络模型的训练。所述预设阈值可以是终端从外部接收的，也可以是终端计算确定的。由此可知，在训练检测图像的过程中，通过多次调整所述检测网络模型中用于提取所述初始特征图的模块(例如图2中的特征提取模块21)的参数，可以使得检测网络模型学习到充分的预设目标的语义信息。由于第一预测图通过二分类的方式指示出目标区域和背景区域，其包含丰富的语义信息，在根据第一预测图和样本图像计算第一损失函数值时，无需通过加深检测网络模型的深度来使检测网络模型学习到更多的语义信息。

作为一个非限制性实施例，所述第一损失函数可以为FocalLoss函数，也即，

其中，y＝1表示样本图像为正样本，也即，该样本图像中包含预设目标， y＝0表示样本图像为负样本，也即，该样本图像中未包含预设目标；p为检测网络模型对于预设目标的预测概率。需要说明的是，第一损失函数为FocalLoss函数时，可以解决样本图像中正负样本不平衡的问题。当预设目标为小尺寸目标时，由于样本图像中小尺寸目标的数量一般较少，采用FocalLoss函数作为第一训练函数，则可以避免因小尺寸目标数量较少而训练不充分的问题。

进一步地，第一损失函数的权重系数由所述样本图像中所述预设目标占所有目标的比例决定，所述预设目标占所有目标的比例越大，则所述第一损失函数的权重系数越大，也即，经过语义信息增强处理得到的第一预测图在训练检测网络模型时的作用越大，使得检测网络模型在检测预设目标时具有良好的性能。在一个非限制性实施例中，预设目标为尺寸小于32×32的目标，该预设目标在样本图像中的占比为10％，则λ_semantic＝0.1，λ_model＝0.9。

在步骤S104的具体实施中，终端可以先获取待测图像，所述待测图像可以是终端实时采集到的待测图像，也可以是实时从外部接收到的待测图像，还可以是预先存储在本地的待测图像，但并不限于此。

进一步地，采用训练后的检测网络模型检测待测图像，如果检测到所述待测图像中包含所述预设目标，则可以输出预设目标的位置和范围，例如，在待测图像中用边界框(Bounding Box)标注出所述预设目标的位置和范围。

进一步地，当进行多目标检测时，也即预设目标有多个类别时，终端还可以同时识别出预设目标的类别信息。

由于训练后的检测网络模型能够充分学习到预设目标的语义信息，在检测待测图像时，提取到的特征图(例如，可以采用图2中特征提取模块21提取)能够包含丰富的语义信息，从而根据待测图像的特征图进行计算(例如，可以采用图2中预测模块22进行计算)，即可得到预设目标的检测结果。

需要说明的是，在检测待测图像时，并不对待测图像的特征图进行语义信息增强处理，也即，直接将根据特征图计算得到用于指示所述预设目标的边界框的预测图即可。

参照图6，图6是本发明实施例中一种目标检测装置，本发明实施例中的目标检测装置可以包括：获取模块61、处理模块62、训练模块63、检测模块 64。

其中，获取模块61，用于获取样本图像，所述样本图像包括预设目标；处理模块62，用于提取所述样本图像的初始特征图，并对所述初始特征图进行语义信息增强处理，以得到所述样本图像的第一预测图，所述第一预测图用于指示所述样本图像的目标区域和背景区域，所述目标区域为包含所述预设目标的区域，所述背景区域为未包含所述预设目标的区域；训练模块63，用于根据所述第一预测图和第二预测图对检测网络模型进行训练，以得到训练后的检测网络模型，其中，所述第二预测图是根据所述初始特征图对所述样本图像进行计算得到的，所述第二预测图用于指示所述预设目标的边界框；检测模块64，用于采用训练后的检测网络模型检测待测图像，以得到所述待测图像中所述预设目标的检测结果。

关于本发明实施例中的目标检测装置的工作原理、工作方式、有益效果的更多内容，可以参照上述图1至图5的相关描述，在此不再赘述。

本发明实施例还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述图1所述的目标检测方法的步骤。所述存储介质可以是计算机可读存储介质，例如可以包括非挥发性存储器 (non-volatile)或者非瞬态(non-transitory)存储器，还可以包括光盘、机械硬盘、固态硬盘等。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述图1所述的目标检测方法的步骤。所述终端可以是计算机、平板电脑、手机等终端设备，但并不限于此。

具体地，在本发明实施例中，所述处理器可以为中央处理单元(centralprocessing unit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，简称DSP)、专用集成电路(application specificintegrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器 (programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器 (DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称 ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称SLDRAM) 和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

获取样本图像，所述样本图像包括预设目标；

提取所述样本图像的初始特征图，并对所述初始特征图进行语义信息增强处理，以得到所述样本图像的第一预测图，所述第一预测图用于指示所述样本图像的目标区域和背景区域，所述目标区域为包含所述预设目标的区域，所述背景区域为未包含所述预设目标的区域；

根据所述第一预测图和第二预测图对检测网络模型进行训练，以得到训练后的检测网络模型，其中，所述第二预测图是根据所述初始特征图对所述样本图像进行计算得到的，所述第二预测图用于指示所述预设目标的边界框；

采用训练后的检测网络模型检测待测图像，以得到所述待测图像中所述预设目标的检测结果；

其中，所述检测网络模型的损失函数为Loss＝λ_semantic L_semantic+λ_model L_model，其中，Loss为所述检测网络模型的损失函数，L_semantic为第一损失函数，L_model为第二损失函数，λ_semantic为第一损失函数的权重系数，λ_model为第二损失函数的权重系数；

其中，第一损失函数值是由所述第一预测图、所述样本图像和所述第一损失函数计算得到，第二损失函数值是由所述第二预测图、所述样本图像和所述第二损失函数计算得到。

2.根据权利要求1所述的目标检测方法，其特征在于，所述初始特征图的每个像素点包括多个通道，所述初始特征图是通过对所述样本图像进行下采样得到的，则对所述初始特征图进行语义信息增强处理包括：

步骤一：对所述初始特征图进行2倍上采样，以得到第一特征图；

步骤二：根据通道注意力机制对所述第一特征图进行处理，以得到第二特征图；

步骤三：将所述第二特征图作为新的初始特征图；

重复执行步骤一至步骤三，直至所述上采样倍数与所述下采样倍数相等；

步骤四：对所述初始特征图进行第一卷积运算，以得到所述第一预测图，其中，所述第一预测图的通道数量为2。

3.根据权利要求2所述的目标检测方法，其特征在于，根据通道注意力机制对所述第一特征图进行处理之前，所述方法还包括：

对所述第一特征图进行多次第二卷积运算，每次第二卷积运算采用1×1的卷积核；

将多次第二卷积运算的结果与所述第一特征图相加，以得到新的第一特征图。

4.根据权利要求2或3所述的目标检测方法，其特征在于，根据通道注意力机制对所述第一特征图进行处理之前，所述方法还包括：

对所述第一特征图进行多次第三卷积运算，多次第三卷积运算中至少一次采用3×3的卷积核；

将多次第三卷积运算的结果与所述第一特征图相加，以得到新的第一特征图。

5.根据权利要求3所述的目标检测方法，其特征在于，对所述第一特征图进行多次第二卷积运算包括：

第一次第二卷积运算之外的其他第二卷积运算中，均先对所述第一特征图进行批标准化处理，再使用relu激活函数。

6.根据权利要求1所述的目标检测方法，其特征在于，

根据所述第一预测图对所述检测网络模型进行训练包括：

步骤A：根据所述第一预测图、所述样本图像和所述第一损失函数计算第一损失函数值，并根据所述第二预测图、所述样本图像和所述第二损失函数计算第二损失函数值；

步骤B：根据所述第一损失函数值和所述第二损失函数值计算所述检测网络模型的损失函数值；

步骤C：判断所述损失函数值超过预设阈值，如果是，则调整所述检测网络模型中用于提取所述初始特征图的模块的参数，如果不是，则结束所述检测网络模型的训练；

步骤D：采用调整参数后的检测网络模型提取所述样本图像的初始特征图，对所述初始特征图进行语义信息增强处理，以得到所述第一预测图，并根据所述初始特征图对所述样本图像进行预测，以得到所述第二预测图；

重复执行步骤A至步骤D，直至步骤C中判断所述损失函数值未超过预设阈值。

7.根据权利要求6所述的目标检测方法，其特征在于，所述第一损失函数为FocalLoss函数。

8.根据权利要求6所述的目标检测方法，其特征在于，所述第一损失函数的权重系数由所述样本图像中所述预设目标占所有目标的比例决定，所述预设目标占所有目标的比例越大，则所述第一损失函数的权重系数越大。

9.根据权利要求1所述的目标检测方法，其特征在于，在提取所述样本图像的初始特征图之前，所述方法还包括：

对所述样本图像进行数据增强，所述数据增强包括以下一项或多项：调整所述样本图像的亮度和/或对比度、将所述样本图像旋转预设角度、为所述样本图像增加噪声。

10.根据权利要求1所述的目标检测方法，其特征在于，所述检测网络模型为单步检测网络模型。

11.一种目标检测装置，其特征在于，所述装置包括：

获取模块，用于获取样本图像，所述样本图像包括预设目标；

处理模块，用于提取所述样本图像的初始特征图，并对所述初始特征图进行语义信息增强处理，以得到所述样本图像的第一预测图，所述第一预测图用于指示所述样本图像的目标区域和背景区域，所述目标区域为包含所述预设目标的区域，所述背景区域为未包含所述预设目标的区域；

训练模块，用于根据所述第一预测图和第二预测图对检测网络模型进行训练，以得到训练后的检测网络模型，其中，所述第二预测图是根据所述初始特征图对所述样本图像进行计算得到的，所述第二预测图用于指示所述预设目标的边界框；

检测模块，用于采用训练后的检测网络模型检测待测图像，以得到所述待测图像中所述预设目标的检测结果；

12.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至10任一项所述目标检测方法的步骤。

13.一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至10任一项所述目标检测方法的步骤。