CN114078204A

CN114078204A - 目标检测方法、装置、电子设备及存储介质

Info

Publication number: CN114078204A
Application number: CN202010842418.2A
Authority: CN
Inventors: 赵超; 鲁静; 张龙
Original assignee: Lumi United Technology Co Ltd
Current assignee: Lumi United Technology Co Ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2022-02-22

Abstract

本申请实施例公开了一种目标检测方法、装置、电子设备及存储介质，涉及智能家居技术领域。该方法包括：获取待检测图像；将待检测图像输入预先训练好的网络模型，网络模型用于按照对应尺度融合待检测图像的多尺度传统特征和多尺度深度特征，并根据融合后的多尺度传统特征和多尺度深度特征，输出待检测图像中对待检测目标的检测结果；获得网络模型输出的对待检测目标的检测结果。本申请实施例在网络模型中引入了多尺度传统特征引导注意力，可以提升网络模型对待检测图像的目标检测精度。

Description

目标检测方法、装置、电子设备及存储介质

技术领域

本申请涉及涉及计算机视觉技术领域，更具体地，涉及一种目标检测方法、装置、电子设备及存储介质。

背景技术

目标检测是计算机视觉领域中的一个非常重要的研究方向，其可以对图像和视频中物体进行精准识别和定位，使计算机理解周围环境，实现良好的人机交互。且目标检测拥有极高的应用价值及广阔的应用前景，其在自动驾驶、环境监测、交通安防等领域都得到了广泛的应用。然而，现有目标检测方法仍存在一定的缺陷，需要进行优化。

发明内容

本申请实施例提供一种目标检测方法、装置、电子设备及存储介质，可以提高目标检测的精度。

第一方面，本申请实施例提供了一种目标检测方法，该方法包括：获取待检测图像；将所述待检测图像输入预先训练好的网络模型，所述网络模型用于按照对应尺度融合所述待检测图像的多尺度传统特征和多尺度深度特征，并根据融合后的所述多尺度传统特征和多尺度深度特征输出所述待检测图像中对待检测目标的检测结果；获得所述网络模型输出的对所述待检测目标的检测结果。

第二方面，本申请实施例提供了一种目标检测装置，该装置包括：图像获取模块，用于获取待检测图像；图像输入模块，用于将所述待检测图像输入预先训练好的网络模型，所述网络模型用于按照对应尺度融合所述待检测图像的多尺度传统特征和多尺度深度特征，并根据融合后的所述多尺度传统特征和多尺度深度特征输出所述待检测图像中对待检测目标的检测结果；图像检测模块，用于获得所述网络模型输出的对所述待检测目标的检测结果。

第三方面，本申请实施例提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述第一方面所述的目标检测方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的目标检测方法的步骤。

在本申请实施例中，通过获取待检测图像，将该待检测图像输入预先训练好的网络模型，以获得该网络模型输出的对待检测目标的检测结果。其中，网络模型用于按照对应尺度融合所述待检测图像的多尺度传统特征和多尺度深度特征，并根据融合后的所述多尺度传统特征和多尺度深度特征，输出所述待检测图像中对待检测目标的检测结果。由此，本申请在网络模型中引入了更具可解释性的传统图像特征，用于引导特征融合，实现注意力机制，优化了网络模型的特征提取，增加了网络模型的可解释性，提升了提升网络模型对待检测图像的目标检测精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的目标检测网络的结构示意图。

图2示出了本申请一个实施例提供的目标检测方法流程图。

图3示出了本申请另一个实施例提供的目标检测方法流程图。

图4示出了本申请实施例的图3中步骤S220的流程图。

图5示出了本申请实施例提供的利用第一融合模块进行特征融合的一种流程示意框图。

图6示出了本申请实施例提供的利用第一融合模块进行特征融合的另一种流程示意框图。

图7示出了本申请实施例提供的利用第一融合模块进行特征融合的又一种流程示意框图。

图8示出了本申请实施例提供的利用第二融合模块进行特征融合的一种流程示意框图。

图9示出了本申请实施例的图4中步骤S225的流程图。

图10示出了本申请实施例提供的利用第三融合模块进行特征融合的一种流程示意框图。

图11示出了本申请实施例提供的利用第三融合模块进行特征融合的另一种流程示意框图。

图12示出了本申请实施例提供的利用第三融合模块进行特征融合的又一种流程示意框图。

图13示出了适用于本申请实施例的目标检测方法的网络模型的整体结构示意图。

图14示出了本申请实施例提供的一种网络模型的训练方法的流程示意图。

图15示出了本申请一个实施例提供的目标检测装置的框图。

图16是本申请实施例的一种电子设备的硬件结构框图。

图17是本申请实施例的一种计算机可读存储介质。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

虽然随着深度学习的发展，目标检测的精度得到很大的提升，但在现有的目标检测网络SSD(single shot multibox detector，单镜头多盒检测器)中，通常是使用VGG(Visual Geometry Group，视觉几何组)的backbone(骨干网络，用于从图像中提取特征的网络部分)。如图1所示，通过6层卷积层对300*300*3(宽*高*深)的原图进行特征提取，从而分别得到38*38、19*19、10*10、5*5、3*3、1*1尺度大小的特征图(feature map)，并分别在38*38、19*19、10*10、5*5、3*3、1*1分支上进行预测，每个分支之间是独立没有融合的，backbone的特征提取也是没有选择性和解释性。因此现有的目标检测网络仍存在一定的缺陷，需要进行优化。

发明人在研究中发现，虽然使用卷积神经网络提取的特征没有很好的解释性，但如果使用传统图像特征引导卷积神经网络提取特征，针对特定的任务可以很好的提升检测精度，传统图像特征(即手工图像特征)也具有很好的解释性。并且，众所周知，高层的语义信息适合分类，底层的语义信息适合定位。因此，发明人经过长期研究提出了一种目标检测方法、装置、电子设备及存储介质，可以基于SSD的框架，融合底层和高层的语义特征，并在检测分支上引入了传统图像特征引导注意力，可以优化检测分支上的卷积神经网络特征提取，增加了系统的可解释性，提升了网络的目标检测精度。

下面将结合附图具体描述本申请中的各实施例。

请参阅图2，图2示出了本申请一个实施例提供的目标检测方法的流程示意图，在具体的实施例中，该目标检测方法可应用于电子设备。电子设备可以是手机、笔记本电脑、智能穿戴设备、智能电视、车载终端等终端设备，也可以是本地服务器、云服务器等服务器。下面将针对图2所示的流程进行详细的阐述，所示目标检测方法具体可以包括以下步骤：

步骤S110：获取待检测图像。

在本申请实施例中，在需要进行目标检测时，电子设备可以先获取待检测图像。其中，待检测图像可以是需要进行目标检测任务的图像，该图像可以是视频中的视频帧图像，此处并不作限定。在一些实施例中，待检测图像中可以包括各种物体和各种生物等的图像或者照片，此处并不作限定。例如，可以是包含有宠物或人的图像，也可以是包含有各种家居设备的客厅图像。

在一些实施方式中，电子设备可以通过自带的图像采集装置(如摄像头)从周围环境中实时采集环境图像。可选的，可以将采集到的环境图像作为获取到的待检测图像；也可以是对采集到的环境图像进行一系列处理后得到的处理图像作为获取到的待检测图像，此处并不作限定。

在另一些实施方式中，电子设备也可以从其他设备处获取到的待检测图像。例如，作为一种方式，可以是外设的图像采集装置采集到环境图像后，将该环境图像发送至电子设备，从而电子设备获取到该待检测图像。

当然，可以理解的是，上述待检测图像以及待检测图像的获取方式仅为举例，并不代表对本申请实施例中的待检测图像以及待检测图像的获取方式的限定。例如，电子设备也可以是从服务器中下载得到待检测图像。电子设备也可以将下载得到的待检测图像保存至电子设备的存储空间，从而电子设备也可以从本地存储获取到该待检测图像。

步骤S120：将所述待检测图像输入预先训练好的网络模型，所述网络模型用于按照对应尺度融合所述待检测图像的多尺度传统特征和多尺度深度特征，并根据融合后的所述多尺度传统特征和多尺度深度特征输出所述待检测图像中对待检测目标的检测结果。

传统的目标检测网络SSD，通常仅是分别在38*38、19*19、10*10、5*5、3*3、1*1尺度大小的特征图上进行预测，且每个分支之间独立，提取的特征也不具备选择性和解释性，网络的目标检测精度并不高。因此，在本申请实施例中，采用了一种融合了多尺度传统特征和多尺度深度特征的网络模型来对待检测图像进行目标检测。具体地，电子设备可以将获取到的待检测图像输入预先训练好的网络模型，在该预先训练好的网络模型中，可以按照对应尺度融合待检测图像的多尺度传统特征和多尺度深度特征，并根据融合后的多尺度传统特征和多尺度深度特征，输出待检测图像中对待检测目标的检测结果。其中，传统特征可以理解为基于待检测图像本身，通过简单操作就能提取出的特征。例如，可以是图像的颜色、纹理、形状、梯度等底层特征，也可以是在底层特征基础上进行多特征融合处理获得的特征，如颜色和纹理的多样性融合。深度特征可以理解为通过深度神经网络模型来挖掘提取图像更深、更为抽象的特征。网络模型中各个尺度的特征(包括传统特征和深度特征)可以理解为由一组向量构成的特征图(feature map)。

在本申请实施例中，上述预先训练好的网络模型可以预先根据大量训练样本对神经网络模型进行训练得到。在一些实施例中，训练样本可以包括图像样本以及与该图像样本对应的目标标注样本，其中，目标标注样本可以是对图像样本中物体、生物等已经进行标注的数据样本。从而预先训练好的预设模型可以用于根据获取到的待检测图像，输出该待检测图像中对待检测目标的检测结果。其中，对待检测目标的检测结果可以是在该待检测图像中对待检测目标的标注。该标注可以是在该待检测图像中以边界框(具备边界的四边形框)的形式对待检测目标进行标注，可确定出该待检测目标于待检测图像中的位置。在一些实施例中，也可以同时显示出该待检测目标被识别出的类别属性。例如，在待检测图像中用红色的框框出待检测目标“人”和“车”，以及待检测目标所对应的属性，如“人”、“车”。

在本申请实施例中，网络模型可以根据待检测图像的多尺度传统特征和多尺度深度特征，按照对应尺度进行融合。其中，按照对应尺度进行融合可以理解为将相同尺度的传统特征和深度特征进行融合。例如，将38*38尺度的传统特征和38*38尺度的深度特征进行融合；将19*19尺度的传统特征和19*19尺度的深度特征进行融合。通过按照对应尺度进行融合可以保证特征融合运算的正确合理，也可以使各个尺度上的特征图具备对应尺度的解释性。

在一些实施例中，待检测图像的多尺度传统特征可以是由网络模型外的传统特征提取模块提取出，并输入至网络模型中，与网络模型中利用卷积神经网络提取的多尺度深度特征进行融合。在一些实施例中，该传统特征提取模块也可以置于网络模型中，以通过网络模型中的传统特征提取模块提取出待检测图像的多尺度传统特征，通过网络模型中的卷积神经网络提取出待检测图像的多尺度深度特征，并进行多尺度传统特征和多尺度深度特征的融合，这样，对于网络模型而言，可仅需输入待检测图像，降低了网络模型的输入参数的复杂度。

在一些实施例中，待检测图像的多尺度深度特征可以是由网络模型中的卷积神经网络提取出，该卷积神经网络包括多层卷积层，每层卷积层输出的具有一定尺度的特征图即为一定尺度的深度特征。其中，该卷积神经网络可以是现有的SSD网络中的卷积神经网络，也可以是根据具体目标检测场景合理设置的卷积神经网络。同理，上述待检测图像的多尺度深度特征可以是利用现有的SSD网络所能提取的多个尺度的深度特征，也可以是对现有的SSD网络进行改变后，能提取的更多或更少尺度的深度特征。也即，在本申请实施例并不对传统特征和深度特征的尺度数量、尺度大小进行限定。

相比现有的目标检测网络仅根据单一独立地尺度分支上的深度特征信息进行目标预测，本申请的网络模型，可以融合多个尺度的传统特征和深度特征，且可以按照对应尺度进行结合，以将各个尺度的传统特征信息和深度特征信息关联起来进行目标预测，优化了特征提取，增加了网络模型的可解释性，使网络模型具备较好的目标检测能力。

在一些实施例中，电子设备可以将获取到的待检测图像进行预处理，以得到满足预先训练好的网络模型的输入标准的图像。其中，预处理可以包括去重、裁剪、拼接、边缘融合、降噪、旋转和/或翻转等操作。譬如，以预先设定网络模型的输入参数的大小为“300*300*3(宽*高*深)”为例，可以将原始数据集里的待检测图像裁剪为“300*300*3”尺寸大小，当然，还可以进一步对这些待检测图像进行其他的预处理操作。

步骤S130：获得所述网络模型输出的对待检测目标的检测结果。

在本申请实施例中，将待检测图像输入预先训练好的网络模型之后，可以获得网络模型输出的对待检测目标的检测结果。

在一些实施例中，待检测目标也可以是网络模型于待检测图像中所能识别预测出的所有目标，如输出待检测图像中的所有物体标注结果。可以理解的是，网络模型所能识别的目标可根据训练样本决定，当训练样本涉及的数量越多，类型越多时，根据训练样本训练得到的网络模型自动学习到的检测目标数据和类型就多。

在另一些实施例中，待检测目标也可以是预先设定的检测目标任务，如，需要检测某一张或一批图片中是否存在人脸图像，网络模型可以仅输出待检测图像中对人类图像的标注结果，其中人脸图像即为待检测目标。

可以理解的是，本实施例中上述的各个步骤，可以均由上述终端设备在本地进行，也可以均在上述服务器中进行，还可以由终端设备与服务器分工进行，根据实际应用场景的不同，可以按照需求进行任务的分配，以实现最优化的目标检测方法，在此并不作限定。例如，由于网络模型的运算量大，可以在服务器上部署网络模型，终端设备在获取到待检测图像后，将该待检测图像上传至服务器，服务器通过网络模型得到对待检测图像中待检测目标的检测结果时，可将该检测结果返回至终端设备。便于终端设备进行后续利用。

本申请实施例提供的一种目标检测方法，获取待检测图像，将该待检测图像输入预先训练好的网络模型，以获得该网络模型输出的对待检测目标的检测结果。其中，网络模型用于按照对应尺度融合所述待检测图像的多尺度传统特征和多尺度深度特征，并根据融合后的所述多尺度传统特征和多尺度深度特征，输出所述待检测图像中对待检测目标的检测结果，其中，该网络模型根据训练样本对神经网络模型训练得到。本申请在网络模型中引入了更具可解释性的传统图像特征，用于引导特征融合，实现注意力机制，优化了网络模型的特征提取，增加了网络模型的可解释性，提升了网络模型对待检测图像的目标检测精度。

请参阅图3，图3示出了本申请另一个实施例提供的目标检测方法的流程示意图，该方法可应用于上述电子设备。下面将针对图3所示的流程进行详细的阐述，所示目标检测方法具体可以包括以下步骤：

步骤S210：获取待检测图像。

步骤S220：将所述待检测图像输入预先训练好的网络模型，所述网络模型用于按照对应尺度融合所述待检测图像的多尺度传统特征和多尺度深度特征，并根据融合后的所述多尺度传统特征和多尺度深度特征，输出所述待检测图像中对待检测目标的检测结果，其中，所述网络模型根据训练样本对神经网络模型训练得到。

在本申请实施例中，步骤S210以及步骤S220可以参阅前述实施例的内容，在此不再赘述。

在一些实施例中，本申请涉及到的传统特征可以包括但不限于：Harris角点特征、SIFT尺度不变特征、HOG方向梯度直方图特征以及LBP局部二值化特征中的任意一种或多种。在一些实施例中，可以根据对于特定的检测任务，直接选择使用研究很久的传统特征。如行人检测中利用HOG方向梯度直方图特征，人脸检测中利用Harr哈尔特征。在一些实施例中，也可以对待检测图像进行滤波降噪、锐化、边缘检测、灰度映射、颜色变换等处理，甚至是使用不同插值方式对待检测图像进行缩放，以得到符合网络模型标准的待检测图像。

由于提取出的高层的语义特征(通常是对应的小尺度特征)适合分类，底层的细节特征(通常是对应的大尺度特征)适合定位，因此，可以将高层的特征向下传到底层与底层特征进行结合，使得低阶的特征图也可适合于分类，从而可提升网络模型的预测准确率。具体地，在一些实施例中，网络模型可以先对多尺度的传统特征进行融合，以提高各个尺度的传统特征的特征信息量，避免底层特征由于信息单一而导致分类不准确。然后再按照对应尺度融合将融合后的多尺度传统特征与待检测图像的多尺度深度特征进行融合。这样，通过先融合多尺度传统特征，再与待检测图像的多尺度深度特征进行融合，提高了传统特征提取的准确性，可使网络模型具备较好的特征识别能力。

其中，网络模型可以包括第一融合模块、第二融合模块和预测模块。第一融合模块可以用于将高层传统特征与低层传统特征进行融合，得到融合后的第一融合特征，也即融合后的多尺度传统特征；第二融合模块用于按照对应尺度将融合后的多尺度传统特征与多尺度深度特征进行融合，得到融合后的第二融合特征，也即融合后的多尺度深度特征；预测模块用于对融合后的多尺度深度特征进行预测处理，以输出待检测图像中对待检测目标的检测结果。

具体地，请参阅图4，步骤S220可以包括：

步骤S221：获取所述待检测图像的第n层传统特征，所述第n层为所述多尺度传统特征中的任一层尺度，所述n为正整数。

步骤S222：获取所述第n层传统特征对应的高层传统特征，所述高层传统特征为尺度高于所述第n层尺度的任一传统特征。

步骤S223：将所述第n层传统特征与所述高层传统特征输入所述第一融合模块进行特征融合，获得所述第一融合模块输出的融合后的第n层对应的第一融合特征。

在一些实施例中，网络模型可包括卷积神经网络，该卷积神经网络可包括用于提取多尺度深度特征的多层次的卷积层。比如，当网络模型中的卷积神经网络包括6个层次的卷积层时，可通过该6个层次的卷积层来进行多尺度深度特征的提取。具体地，将待检测图像输入至第一层次的卷积层进行特征提取，可以得到第一层尺度的深度特征图；然后再将第一层尺度的深度特征图输入至第二层次的卷积层进行特征提取，可以得到第二层尺度的深度特征图；然后再将第二层尺度的深度特征图输入至第三层次的卷积层进行特征提取，可以得到第三层尺度的深度特征图；然后再将第三层尺度的深度特征图输入至第四层次的卷积层进行特征提取，可以得到第四层尺度的深度特征图，继续将第四层尺度的深度特征图输入至第五层次的卷积层进行特征提取，可以得到第五层尺度的深度特征图；继续将第五层尺度的深度特征图输入至第六层次的卷积层进行特征提取，可以得到第六层尺度的特征。从而通过多个层次的卷积层的特征提取，可以得到多尺度的深度特征图。可以理解的是，经历的卷积层越多，提取出的特征就越抽象，特征的语义信息就越丰富。

需要说明的是，进行特征提取的卷积层的层次可以根据实际应用来设定，在此并不作限定。每个层次卷积层的参数也可以根据实际应用来设定，可以是3×3，也可以是5×5，7×7，在此也并不作限定。可以理解的是，由于经过的卷积层的层次不限定，卷积层的参数不显得，因此，经过卷积神经网络提取的深度特征的尺度也不作限定。

在一些实施例中，待检测图像的多尺度传统特征的尺度参数可以与多尺度深度特征的尺度参数对应。其中，尺度参数对应可以是传统特征图的大小与深度特征图的大小一致。例如，在经过卷积神经网络处理的深度特征图像5*5*256与经过传统特征处理得到的传统特征图像5*5*1中，尺度大小都为5*5。

作为一种实施方式，可以根据已经提取出的深度特征的尺度大小，对应生成相同尺度大小的传统特征图像。例如，若经过卷积神经网络提取到的深度特征图分别为38*38，19*19，10*10尺度大小，对应的，可以根据待检测图像分别生成38*38，19*19，10*10尺度大小的传统特征图。

在一些实施例中，由于基本难以提取到尺度太小的传统特征，因此，多尺度传统特征的尺度层数可以小于多尺度深度特征的尺度层数。例如，若经过卷积神经网络提取到的深度特征图分别为38*38，19*19，10*10，5*5，3*3，1*1尺度大小，则对应的，可以根据待检测图像分别生成38*38，19*19，10*10，5*5尺度大小的传统特征图，而对于3*3，1*1的尺度太小，未进行传统特征图的生成处理，因为如果处理的话基本难以提取到传统特征。

在本申请实施例中，当获取到待检测图像的多尺度传统特征和多尺度深度特征时，为了提高目标检测的准确性和解释性，可以将多尺度传统特征和多尺度深度特征进行融合。

在一些实施例中，在将多尺度传统特征和多尺度深度特征进行融合之前，可以先对多尺度传统特征之间进行融合，以进一步提高各个尺度的传统特征提取的准确性，从而提高多尺度传统特征和多尺度深度特征融合后的特征的准确性。在一些实施方式中，多尺度传统特征之间的融合可以是将高层传统特征下传至低层传统特征，使高层传统特征融合进低层传统特征，以使低层传统特征也具备高层传统特征的语义信息，丰富了低层传统特征的特征信息量，从而将低层传统特征与低层深度特征进行融合后，融合后的低层深度特征可具备较强的解释性。

具体地，可以通过获取待检测图像的第n层传统特征，以及获取该第n层传统特征对应的高层传统特征，并将该第n层传统特征与高层尺度传统特征输入第一融合模块进行特征融合，从而可以获得第一融合模块输出的融合后的第n层对应的第一融合特征，从而实现了上述高层传统特征与低层传统特征的结合。其中，第一融合模块可以是将第n层传统特征与其对应的高层尺度传统特征进行相加融合，即两个特征图中对应像素映射值进行相加求和。

其中，第n层可以理解为上述多尺度传统特征中的任一层尺度，n为正整数，高层传统特征可以理解为上述多尺度传统特征中，尺度高于该第n层尺度的任一传统特征。由于经过的卷积层数越多，提取到的尺度特征就越高层、越抽象，因此，尺度高于该第n层尺度也可以理解为尺度对应的卷积层数大于第n层尺度对应的卷积层数。例如，若第n层传统特征为第一层尺度38*38的传统特征，其对应的高层传统特征可以是第二层尺度19*19的传统特征，也可以是第三层尺度10*10的传统特征，还可以是第四层尺度5*5的传统特征。特征融合可以是将38*38的传统特征与19*19的传统特征进行融合，也可以是将38*38的传统特征与10*10的传统特征进行融合。

在一些实施例中，由于需要融合的传统特征的尺度不一样，因此需要对不同尺度对应的传统特征的尺度进行调整。作为一种方式，可以在多尺度传统特征中确定一个目标传统特征为第n层传统特征，获取该目标传统特征的尺度，并根据该目标传统特征的尺度去调整其对应的高层传统特征的尺度，以调整到尺度和目标传统特征的尺度一致。比如，目标传统特征为38*38尺度的传统特征，则可以将其对应的高层传统特征，19*19尺度的传统特征，调整至38*38尺度。

在一些实施例中，可以通过上采样(Upsampling)方法对高层传统特征的尺度进行调整。也即第一融合模块可以包括上采样层(Upsampling层)，该上采样层可用于将高层传统特征的尺度大小调整至第n层传统特征的尺度大小。

其中，上采样方法可以是指在小尺度特征图(如高层传统特征)的原有图像像素基础上，在像素点之间采用合适的插值算法插入新的元素，扩大小尺度特征图的尺度。比如，作为一种方式，原有的小尺度特征图的尺度为2×2，且小尺度特征图中有4个像素映射值S1、S2、S3和S4，可以在S1、S2、S3和S4四个值的四周进行填充0，从而可得到尺度为4×4的扩大的小尺度特征图。需要说明的是，上述上采样方法仅为举例，具体的上采样方法在本申请实施例中并不作限定。

例如，请参阅图5，图5示出了一种利用第一融合模块进行特征融合的流程示意框图，其中，第n层传统特征的尺度大小为N*N*1，第n层传统特征对应的高层传统特征的尺度大小为N/2*N/2*1。从图5可以看出，将第n层传统特征和第n层传统特征对应的高层传统特征输入至第一融合模块后，尺度大小为N/2*N/2*1的高层传统特征经过第一融合模块中的上采样层后，可扩展为N*N*1尺度大小的高层传统特征，然后与尺度大小为N*N*1的第n层传统特征进行相加融合，从而输出融合后的尺度大小为N*N*1的第n层对应的第一融合特征。其中，相加融合可以理解为对应像素值相加。例如，尺度特征图A中有4个像素映射值S1、S2、S3和S4，尺度特征图B中对应位置也有4个像素映射值Y1、Y2、Y3和Y4，尺度特征图A和尺度特征图B相加融合后，对应位置的像素映射值为S1+Y1、S2+Y2、S3+Y3和S4+Y4。

进一步地，在一些实施例中，多尺度传统特征的融合可以是从高层到低层级的逐级融合。具体地，上述步骤S222中获取的高层传统特征，可以是融合后的第n+1层对应的第一融合特征，其中，第n+1层对应的第一融合特征为第n+1层传统特征与第n+1层传统特征对应的高层传统特征输入第一融合模块后输出的融合后的特征。也就是说，第n层传统特征对应的高层传统特征，可以是已经融合了更高层级传统特征的第n+1层传统特征，从而第n层传统特征在与融合了更高层级传统特征的第n+1层传统特征进行特征融合后，除了得到第n+1层传统特征原本的语义信息以外，也可以得到更高层级传统特征的语义信息。

示例性的，当根据待检测图像分别生成38*38，19*19，10*10，5*5等多尺度大小的传统特征时，进行的多尺度传统特征的融合可以是，将尺度大小为5*5的最高层传统特征(即第四层传统特征)与尺度大小为10*10的低一层的传统特征(即第三层传统特征)进行融合，从而得到融合了高层传统特征的第三层传统特征，即尺度大小为10*10的第一融合特征，也即第三层对应的第一融合特征；然后再将融合了高层传统特征的第三层传统特征与尺度大小为19*19的再低一层的传统特征(即第二层传统特征)进行融合，从而得到融合了高层传统特征的第二层传统特征，即尺度大小为19*19的第一融合特征，也即第二层对应的第一融合特征；然后再将融合了高层传统特征的第二层传统特征与尺度大小为38*38的最底层传统特征(即第一层传统特征)进行融合，从而得到融合了高层传统特征的第一层传统特征，即尺度大小为38*38的第一融合特征，也即第一层对应的第一融合特征。

例如，请参阅图6，图6示出了另一种利用第一融合模块进行特征融合的流程示意框图，其中，第n层传统特征的尺度大小为N*N*1，第n+1层传统特征的尺度大小为N/2*N/2*1，第n+1层传统特征对应的高层传统特征的尺度大小为N/4*N/4*1。从图6可以看出，将第n+1层传统特征和第n+1层传统特征对应的高层传统特征输入至第一融合模块后，尺度大小为N/4*N/4*1的高层传统特征经过第一融合模块中的上采样层后，可扩展为N/2*N/2*1尺度大小的高层传统特征，然后与尺度大小为N/2*N/2*1的第n+1层传统特征进行相加融合，从而输出融合后的尺度大小为N/2*N/2*1的第n+1层对应的第一融合特征，该第n+1层对应的第一融合特征也可以理解为融合了高层传统特征的语义信息的第n+1层的传统特征。

然后可以进一步将经过第一融合模块融合后的第n+1层的传统特征与第n传统特征进行再次融合，以实现第n传统特征也可以融合高层传统特征的语义信息。具体地，可以将得到的第n+1层对应的第一融合特征和第n层传统特征输入第一融合模块，然后尺度大小为N/2*N/2*1的第n+1层对应的第一融合特征经过第一融合模块中的上采样层后，可扩展为N*N*1尺度大小的第n+1层对应的第一融合特征，然后再与尺度大小为N*N*1的第n层传统特征进行相加融合，从而输出融合后的尺度大小为N*N*1的第n层对应的第一融合特征，也即得到了融合了高层传统特征的语义信息的第n层的传统特征，其中该高层传统特征的语义信息包括了第n+1层的传统特征的语义信息，以及第n+1层传统特征对应的更高层传统特征的语义信息。

在另一些实施例中，多尺度传统特征的融合也可以是将所有的高层特征都下传到低层特征进行融合。具体地，上述步骤S222中获取的高层传统特征，也可以是获取第n层传统特征对应的所有高层传统特征。这样，通过将所有高层传统特征直接下传到低层传统特征，由于是直接连接到低层，高层传统特征中的语义信息未被更改，使得每个尺度上融合后的第一融合特征都可以包含原本的高层传统特征，保证了每个尺度上的第一融合特征的语义信息质量，有效提高了网络模型的检测精度。

例如，请参阅图7，图7示出了又一种利用第一融合模块进行特征融合的流程示意框图，其中，第n层传统特征的尺度大小为N*N*1，第n+1层传统特征的尺度大小为N/2*N/2*1，第n+2层传统特征的尺度大小为N/4*N/4*1。从图7可以看出，可以是将第n层传统特征和第n+1层传统特征、第n+2层传统特征……输入至第一融合模块，其中，输入至第一融合模块后，尺度大小为N/2*N/2*1的第n+1层传统特征经过第一融合模块中的上采样层后，可扩展为N*N*1尺度大小的第n+1层传统特征，尺度大小为N/4*N/4*1的第n+2层传统特征经过第一融合模块中的上采样层后，也可扩展为N*N*1尺度大小的第n+2层传统特征……，然后扩展为N*N*1尺度大小的第n+1层传统特征、第n+2层传统特征……与尺度大小为N*N*1的第n层传统特征进行相加融合，从而输出融合后的尺度大小为N*N*1的第n层对应的第一融合特征，该第n层对应的第一融合特征也可以理解为融合了所有高层传统特征的语义信息的第n层的传统特征。

在一些实施例中，可以是将所有的高层传统特征与低层传统特征进行融合，也可以是仅将部分的高层传统特征与低层传统特征进行融合，在此并不作限定。例如，可以根据运算量和检测精度，来合理选择融合哪些高层传统特征。

步骤S224：将所述第一融合特征与第n层深度特征输入所述第二融合模块进行特征融合，获得所述第二融合模块输出的融合后的第n层的第二融合特征，所述第n层深度特征为所述多尺度深度特征中与所述第n层传统特征的尺度对应的深度特征。

在一些实施例中，在对多尺度传统特征之间进行融合后，可以将融合后的多尺度传统特征和多尺度深度特征进行融合，以使融合后的多尺度深度特征可具备较强的解释性。具体地，在获取到第n层传统特征与其对应的高层传统特征融合后的第n层对应的第一融合特征之后，可以将融合后的第一融合特征与第n层深度特征输入第二融合模块进行特征融合。其中，第n层深度特征为多尺度深度特征中与第n层传统特征的尺度对应的深度特征，也即第n层深度特征的尺度大小与第n层传统特征的尺度大小一致。从而实现了前述按照对应尺度融合多尺度深度特征和多尺度传统特征。其中，第二融合模块可以是将融合后的第一融合特征与第n层深度特征进行相乘融合。

在一些实施例中，由于卷积神经网络中各个卷积层输入输出所需的通道数很可能并不相同，其中，通道数可以理解为特征图的个数，也即尺度参数中的深度值。如300*300*3(宽*高*深)中的深度值3。因此，需要融合的第一融合特征(融合后的多尺度传统特征)和深度特征的尺度很可能不一样，从而需要对第一融合特征的尺度进行调整，以使第一融合特征的尺度与深度特征的尺度一种。具体地，可以根据第n层深度特征的尺度大小，调整第n层对应的第一融合特征的尺度大小，以使第n层对应的第一融合特征的尺度与第n层深度特征的尺度一致。比如，当第n层深度特征的尺度大小为38*38*512尺度时，则可以将尺度大小为38*38*1的第n层对应的第一融合特征，调整至38*38*512尺度。

在一些实施例中，可以通过卷积对第一融合特征的尺度进行调整。也即第二融合模块可以包括卷积层，该卷积层可以包括多个卷积核，用于将第一融合特征的尺度大小调整至第n层深度特征的尺度大小。其中，卷积核的个数可以根据第n层深度特征的特征图个数(尺度参数中的深度值)确定，卷积核的参数可以是3*3，当然具体的卷积核个数和卷积核的参数在本申请实施例中并不作限定，仅需。例如，当第n层深度特征的尺度大小为38*38*512尺度时，则尺度大小为38*38*1的第n层对应的第一融合特征，可以通过512个卷积核卷积得到38*38*512尺度大小的第一融合特征。

在一些实施例中，在通过卷积对第一融合特征的尺度进行调整后，第二融合模块还可以用于将尺度调整后的第一融合特征与第n层深度特征做乘法，然后经过ReLU(Rectified Linear Unit，线性整流函数)层(ReLU层可用于增强网络模型的非线性特征的提取能力，也即可对提取的特征进行非线性表达)和3*3的卷积核，即可得到融合后的第n层对应的第二融合特征。其中，融合后的第n层对应的第二融合特征的尺度大小与第n层深度特征的尺度大小相同。从而可得到加入多尺度传统特征引导注意力后的第n层深度特征分支上的最终特征图，进而可根据该最终特征图进行目标预测，从而得到更为准确的预测结果。

例如，请参阅图8，图8示出了一种利用第二融合模块进行特征融合的流程示意框图，其中，第n层对应的第一融合特征的尺度大小为N*N*1，第n层深度特征的尺度大小为N*N*M。从图5可以看出，将第n层对应的第一融合特征和第n层深度特征输入至第二融合模块后，尺度大小为N*N*1的第一融合特征经过M个3*3的卷积核卷积得到N*N*M尺度大小的第一融合特征，然后与N*N*M大小的第n层深度特征做乘法，得到N*N*M尺度大小的融合特征，再经过ReLU层和3*3的卷积核对相乘的特征图进行卷积操作，可得到与第n层原来N*N*M尺度相同大小的第二融合特征。

步骤S225：将所述第二融合特征输入所述预测模块，所述预测模块用于根据所述第二融合特征，输出所述待检测图像中对待检测目标的检测结果。

在一些实施例中，在得到第一融合特征与第n层深度特征融合后的第n层尺度对应的第二融合特征后，可以对该第n层尺度的第二融合特征进行预测。具体地，可以将将该第二融合特征输入预测模块，该预测模块用于根据第二融合特征，输出待检测图像中对待检测目标的检测结果。

可以理解的是，对多尺度深度特征和多尺度传统特征的每个尺度都重复前述特征融合过程，可以得到多尺度的第二融合特征，从而可以将多尺度的第二融合特征输入预测模块，使得预测模块可根据各个尺度的第二融合特征，输出各个尺度上的预测结果，并综合考虑各个尺度上的预测结果，输出最终的待检测图像中对待检测目标的检测结果。

在一些实施例中，预测模块可以预先根据检测任务分配各尺度的第二融合特征分支的权重。

由于待检测图像经过的卷积层数越多，生成的特征图尺度就越小，对于较小的目标而言，越高层的特征图越易丢失小目标的特征信息，如果利用高层特征图进行预测，预测结果准确率不高，因此，通常是利用比较大的特征图(低层特征)来检测相对较小的目标，利用较小的特征图来检测相对较大的目标。因此，作为一种方式，可以根据待检测目标的大小，设置各尺度对应的第二融合特征对应的特征图的权重。例如，检测较小目标时，可以增加低层的第二融合特征(通常是较大尺度，如38*38)分支的权重，以使预测结果主要被该分支影响，提高预测的准确性。

在一些实施例中，预测模块也可以预先根据目标分类任务和目标位置检测任务的重要性分配预测结果中分类和检测的权重，如优先检测时可将检测权重设为0.6，分类分支设为0.4，使得检测分支权重大于分类分支。

在一些实施例中，在得到多尺度传统特征和多尺度深度特征融合后的多尺度第二融合特征后，在预测路径上，还可以对多尺度的第二融合特征进行再一次的融合，并根据融合后的预测路径进行目标检查。因此，在一些实施例中，网络模型还可以包括第三融合模块。第三融合模块可以用于将高层的第二融合特征与低层的第二融合特征进行融合，得到融合后的多尺度第二融合特征。

具体地，请参阅图9，上述步骤S225也可以包括：

步骤S2251：获取第m层的第二融合特征，所述第m层为多尺度的第二融合特征中的任一层尺度，所述m为正整数。

步骤S2252：获取所述第m层的第二融合特征所对应的高层融合特征，所述高层融合特征为尺度高于所述第m层尺度的任一第二融合特征。

步骤S2253：将所述第m层的第二融合特征与所述高层融合特征输入所述第三融合模块进行特征融合，获得所述第三融合模块输出的融合后的第m层的第二融合特征。

在一些实施例中，在根据融合了多尺度传统特征和多尺度深度特征的第二融合特征进行目标预测之前，还可以先对多尺度的第二融合特征之间进行融合，以进一步提高各个尺度的特征提取的准确性，从而提高各个尺度分支上的预测准确性。在一些实施方式中，多尺度的第二融合特征之间的融合可以是将高层的第二融合特征下传至低层的第二融合特征，使高层的第二融合特征融进低层的第二融合特征，以使低层的第二融合特征也具备高层的第二融合特征的语义信息和解释性，丰富了低层的第二融合特征的特征信息量和解释性，也提高了各个尺度分支上的预测准确性。

具体地，可以通过获取待检测图像的第m层的第二融合特征，以及获取该第m层的第二融合特征所对应的高层融合特征，并将该第m层的第二融合特征与高层融合特征输入第三融合模块进行特征融合，从而可以获得第三融合模块输出的融合后的第m层的第二融合特征，从而实现了上述高层的第二融合特征与低层的第二融合特征的结合。其中，第三融合模块可以是将第m层对应的第二融合特征与其对应的高层融合特征进行相加融合，即两个特征图中对应像素映射值进行相加求和。

其中，第m层可以理解为上述多尺度的第二融合特征中的任一层尺度，m为正整数，高层融合特征可以理解为在多尺度的第二融合特征中，尺度高于该第m层尺度的任一第二融合特征。例如，若第m层传统特征为第一层尺度38*38对应的第二融合特征，其对应的高层融合特征可以是第二层尺度19*19对应的第二融合特征，也可以是第三层尺度10*10对应的第二融合特征，还可以是第四层尺度5*5对应的第二融合特征。特征融合可以是将38*38对应的第二融合特征与19*19对应的第二融合特征进行融合，也可以是将38*38对应的第二融合特征与10*10对应的第二融合特征进行融合。

在一些实施例中，由于需要融合的第二融合特征的尺度不一样，因此需要对不同尺度对应的第二融合特征的尺度进行调整。作为一种方式，可以在多尺度传统特征中确定一个目标第二融合特征为第m层对应的第二融合特征，获取该目标第二融合特征的尺度，并根据该目标第二融合特征的尺度去调整其对应的高层融合特征的尺度，以调整到尺度和目标第二融合特征的尺度一致。比如，目标第二融合特征为38*38*512尺度对应的第二融合特征，则可以将其对应的高层融合特征，19*19*1024尺度对应的第二融合特征，调整至38*38*512尺度。

在一些实施例中，可以通过卷积和上采样(Upsampling)方法对高层融合特征的尺度进行调整。也即第一融合模块可以包括上采样层(Upsampling层)和卷积层。其中，该上采样层可用于将高层融合特征的尺度大小中的宽高值调整至第m层对应的第二融合特征的尺度大小中的宽高值，该卷积层可用于将高层融合特征的尺度大小中的深度值(即特征图的个数)的调整至第m层对应的第二融合特征的尺度大小中的深度值。

例如，请参阅图10，图10示出了一种利用第三融合模块进行特征融合的流程示意框图，其中，第m层对应的第二融合特征的尺度大小为N*N*M，第m层对应的第二融合特征对应的高层融合特征的尺度大小为N/2*N/2*P。从图10可以看出，将第m层对应的第二融合特征和其对应的高层融合特征输入至第三融合模块后，尺度大小为N/2*N/2*P的高层融合特征经过第三融合模块中的多个3*3的卷积核和上采样层(上采样层图中未画出)后，可扩展为N*N*M尺度大小的高层融合特征，以和第m层对应的第二融合特征分支具备相同的尺度大小，然后扩展为N*N*M尺度大小的高层融合特征与尺度大小为N*N*M的第m层对应的第二融合特征进行相加融合，从而输出融合后的尺度大小为N*N*M的第m层对应的第二融合特征，该融合后的第m层的第二融合特征融合了高层的第二融合特征的语义信息和解释性。

与前述多尺度传统特征的融合类似，在一些实施例中，多尺度的第二融合特征的融合也可以是将所有的高层融合特征都下传到低层的第二融合特征进行融合。具体地，上述步骤S2252中获取高层融合特征，可以是获取第m层的第二融合特征所对应的所有高层融合特征。这样，通过将所有高层融合特征直接下传到低层融合特征，由于是直接连接到低层，高层融合特征中的语义信息未被更改，使得每个尺度上融合后的第二融合特征都可以包含原本的高层融合特征，保证了每个尺度上的融合后的第二融合特征的语义信息质量，有效提高了网络模型的检测精度。

示例性的，当根据待检测图像分别得到多尺度传统特征和多尺度深度特征融合后的38*38*512，19*19*1024，10*10*512，5*5*256等多尺度大小的第二融合特征时，进行的多尺度是第二融合特征的融合可以是，将尺度大小为5*5*256、10*10*512、19*19*1024对应的第二融合特征与尺度大小为38*38*512的最底层对应的第二融合特征(即第一层对应的第二融合特征)进行融合，从而该第一层对应的第二融合特征融合了所有高层融合特征，得到融合后的第一层的第二融合特征，也即得到融合后尺度大小为38*38*512的第二融合特征；然后再将尺度大小为5*5*256、10*10*512对应的第二融合特征与尺度大小为19*19*1024对应的第二融合特征(即第二层对应的第二融合特征)进行融合，从而该第二层对应的第二融合特征融合了其所有的高层融合特征，得到融合后的第二层的第二融合特征，也即得到融合后尺度大小为19*19*1024的第二融合特征；然后再将尺度大小为5*5*256对应的第二融合特征与尺度大小为10*10*512对应的第二融合特征(即第三层对应的第二融合特征)进行融合，从而该第三层对应的第二融合特征融合了其所有的高层融合特征，得到融合后的第三层的第二融合特征，也即得到融合后尺度大小为10*10*512的第二融合特征。

例如，请参阅图11，图11示出了一种利用第三融合模块进行特征融合的流程示意框图，其中，第m+1层对应的第二融合特征的尺度大小为N/2*N/2*P，第m+2层对应的第二融合特征的尺度大小为N/4*N/4*Q，第m层对应的第二融合特征的尺度大小为N*N*M。从图11可以看出，可以是将第m层对应的第二融合特征和第m+1层对应的第二融合特征、第m+2层对应的第二融合特征……输入至第三融合模块，其中，输入至第三融合模块后，尺度大小为N/2*N/2*P的第m+1层对应的第二融合特征经过第三融合模块中的3*3的卷积核和上采样层(上采样层图中未画出)后，可扩展为N*N*M尺度大小的第m+1层对应的第二融合特征，尺度大小为N/4*N/4*Q的第m+2层对应的第二融合特征经过第三融合模块中的3*3的卷积核和上采样层(上采样层图中未画出)后，也可扩展为N*N*M尺度大小的第m+2层对应的第二融合特征……，然后将扩展为N*N*M尺度大小的第m+1层对应的第二融合特征、第m+2层对应的第二融合特征……与尺度大小为N*N*M的第m层对应的第二融合特征进行相加融合，从而输出融合后的尺度大小为N*N*M的第m层对应的第二融合特征，该第m层对应的第二融合特征也可以理解为融合了所有高层融合特征的语义信息和解释性信息的第m层的第二融合特征。

与前述多尺度传统特征的融合类似，在另一些实施例中，多尺度传统特征的融合也可以是从高层到低层级的逐级融合。具体地，上述步骤S2252中获取高层融合特征，也可以是获取第m+1层融合后的第二融合特征。其中，所述第m+1层融合后的第二融合特征为第m+1层的第二融合特征与所述第m+1层的第二融合特征所对应的高层融合特征输入所述第三融合模块后输出的融合后的特征。也就是说，第m层的第二融合特征所对应的高层融合特征，可以是已经融合了更高层级融合特征的第m+1层的第二融合特征，从而第m层的第二融合特征在与融合了更高层级融合特征的第m+1层的第二融合特征进行特征融合后，除了得到第m+1层的第二融合特征原本的语义信息和解释性以外，也可以得到更高层级的第二融合特征的语义信息和解释性。

示例性的，当根据待检测图像分别得到多尺度传统特征和多尺度深度特征融合后的38*38*512，19*19*1024，10*10*512，5*5*256等多尺度大小的第二融合特征时，进行的多尺度是第二融合特征的融合可以是，将尺度大小为5*5*256的第二融合特征(即第四层的第二融合特征)与尺度大小为10*10*512的低一层的第二融合特征(即第三层的第二融合特征)进行融合，从而得到融合了高层融合特征的第三层的第二融合特征，也即得到融合后尺度大小为10*10*512的第二融合特征；然后再将融合了高层融合特征的第三层的第二融合特征与尺度大小为19*19*1024的再低一层的第二融合特征(即第二层的第二融合特征)进行融合，从而得到融合了高层融合特征的第二层的第二融合特征，即得到融合后尺度大小为19*19*1024的第二融合特征；然后再将融合了高层融合特征的第二层的第二融合特征与尺度大小为38*38*512的最底层的第二融合特征(即第一层的第二融合特征)进行融合，从而得到融合了高层融合特征的第一层的第二融合特征，也即得到融合后尺度大小为38*38*512的第二融合特征。

例如，请参阅图12，图12示出了另一种利用第三融合模块进行特征融合的流程示意框图，其中，第m+1层对应的第二融合特征的尺度大小为N/2*N/2*P，第m+1层对应的第二融合特征所对应的高层融合特征的尺度大小为N/4*N/4*Q，第m层对应的第二融合特征的尺度大小为N*N*M。

从图12可以看出，可以先将第m+1层对应的第二融合特征和第m+1层对应的高层融合特征进行融合，然后再根据第m+1层融合后的第二融合特征，与第m层对应的第二融合特征进行融合，从而得到第m层融合后的第二融合特征。实现了上述第二融合特征从高层到低层级的的逐级融合。

具体地，将第m+1层对应的第二融合特征和第m+1层对应的第二融合特征所对应的高层融合特征输入至第三融合模块后，尺度大小为N/4*N/4*Q的高层融合特征经过第三融合模块中的3*3的卷积核和上采样层(上采样层图中未画出)后，可扩展为N/2*N/2*P尺度大小的高层融合特征(实现了与第m+1层的第二融合特征为相同尺度)，然后与尺度大小为N/2*N/2*P的第m+1层对应的第二融合特征进行相加融合，从而输出融合后的尺度大小为N/2*N/2*P的第m+1层的第二融合特征，该融合后的第m+1层的第二融合特征也可以理解为第m+1层的第二融合特征融合了高层融合特征的语义信息。

然后可以进一步将经过第三融合模块融合后的第m+1层的第二融合特征与第m层的第二融合特征进行再次融合，以实现第m层的第二融合特征也可以融合高层融合特征的语义信息。具体地，可以将得到的第m+1层的融合后的第二融合特征和第m层的第二融合特征输入第三融合模块，然后尺度大小为N/2*N/2*P的第m+1层的融合后的第二融合特征经过第三融合模块中的3*3的卷积核和上采样层(上采样层图中未画出)后，可扩展为N*N*M尺度大小的第m+1层的融合后的第二融合特征(实现了与第m层的第二融合特征为相同尺度)，然后再与尺度大小为N*N*M的第m层的第二融合特征进行相加融合，从而输出融合后的尺度大小为N*N*M的第m层的第二融合特征，也即得到了融合了高层融合特征的语义信息的第m层的第二融合特征，其中该高层融合特征的语义信息包括了第m+1层的第二融合特征的语义信息，以及第m+1层的第二融合特征所对应的更高层融合特征的语义信息。

在一些实施例中，可以是将所有的高层第二融合特征与低层第二融合特征进行融合，也可以是仅将部分的高层第二融合特征与低层第二融合特征进行融合，在此并不作限定。例如，可以根据运算量和检测精度，来合理选择融合哪些高层的第二融合特征。

步骤S2254：将所述融合后的第m层的第二融合特征输入所述预测模块，所述预测模块用于根据所述融合后的第m层的第二融合特征，输出所述待检测图像中对待检测目标的检测结果。

在一些实施例中，在得到融合后的第m层对应的第二融合特征后，可以对该融合后的第m层尺度的第二融合特征进行预测。具体地，可以将将该融合后的第m层的第二融合特征输入预测模块，该预测模块用于根据融合后的第m层的第二融合特征，输出待检测图像中对待检测目标的检测结果。

可以理解的是，对每个尺度的第二融合特征都重复前述特征融合过程，可以得到多尺度融合后的第二融合特征，从而可以将多尺度融合后的第二融合特征输入预测模块，使得预测模块可根据各个尺度上融合的第二融合特征，输出各个尺度上的预测结果，并综合考虑各个尺度上的预测结果，输出最终的待检测图像中对待检测目标的检测结果。

步骤S230：获得所述网络模型输出的对待检测目标的检测结果。

在本申请实施例中，步骤S230可以参阅前述实施例的内容，在此不再赘述。

由此，通过在传统特征提取部分以及传统特征和深度特征融合后的第二融合特征的预测部分，都采用了将高阶特征引入低阶特征的方式，可以优化现有的目标检测网络。且由于高阶特征适合分类，低阶特征适合定位，经过高阶特征引入低阶特征的处理，也可以使得低阶的图像也适合于分类。从而提高网络模型的精确度。

例如，请参阅图13，图13示出了适用于本申请实施例的目标检测方法的网络模型的整体结构示意图。其中，图中的C模块为上述的第一融合模块，图中的A模块为上述的第二融合模块，图中的F模块为上述的第三融合模块。从图13可以看出，先根据待检测图像300*300*3的原图，经过卷积神经网络提取特征可以得到38*38*512，19*19*1024，10*10*512，5*5*256，3*3*256，1*1*256尺度大小的深度特征图，然后再根据300*300*3的原图分别生成38*38*1，19*19*1，10*10*1，5*5*1尺度大小的传统特征图。然后通过C模块对多尺度的传统特征图实现从高层到低层的逐级融合，再将融合后的各个尺度的传统特征图通过A模块与对应尺度的深度特征图进行融合，得到融合后的各个尺度的深度特征图。然后在预测路径上，通过F模块将融合后的所有高层尺度的深度特征图引入到融合后的低层尺度的深度特征图进行融合，得到各个尺度的预测路径上的最终深度特征图，最后通过预测模块对各个尺度的预测路径上的最终深度特征图分别进行预测，并最终输出对待检测图像的检测结果。

具体地，可以是先将5*5*1的传统图像图和卷积神经网络提取的5*5*256的深度特征图经过A模块进行融合，将5*5*1传统图像图与10*10*1传统图像图经过C模块融合然后与卷积神经网络提取的10*10*512的深度特征图经过A模块进行融合，将经过C模块融合后的10*10*1传统图像图与19*19*1传统图像特征经过经过C模块融合然后与卷积神经网络提取的19*19*1024的深度特征图经过A模块进行融合，将经过C模块融合后的19*19*1传统图像图与38*38*1的传统图像图特征经过C模块融合然后与卷积神经网络提取的38*38*512的深度特征图经过A模块进行融合。从而实现在各个尺度的深度特征图分支上加入多尺度传统特征引导注意力。然后接下来可对经过A模块融合后的特征图再次进行多尺度的融合，具体地，将19*19*1024、10*10*512、5*5*256的特征图分支与38*38*512的特征图分支经过F模块进行融合，将10*10*512、5*5*256的特征图分支与19*19*1024的特征图分支经过F模块进行融合，将5*5*256的特征图分支与10*10*512的特征图分支经过F模块进行融合，从而得到各个尺度的预测路径上的最终深度特征图。最后接下来对融合后的38*38*512、19*19*1024、10*10*512、5*5*256分支和原始3*3*256、1*1*256分支分别进行预测，输出最终的预测结果。

在一些实施例中，请参阅图14，上述预先训练好的网络模型可以通过如下方法训练得到：

步骤S310：获取初始检测模型，所述初始检测模型包括卷积神经网络。

其中，卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，网络中可以包括多层次的卷积层。在一些实施例中，可以直接重新构建初始检测模型进行训练，也可以获取直接对现有的网络模型进行改进后，再进行训练。在此不作限定。在一些实施例中，获取到的初始检测模型可以包括卷积神经网络，其至少包括6个卷积层，以实现多尺度深度特征的提取。

可以理解的是，设计初始检测模型时，可以采用各种卷积神经网络进行设计并训练，以得到学习效果最优的模型。可以理解的是，增加卷积神经网络中卷积层结构的个数的同时，模型的学习效果也会有所提升，但相对应地计算量也会增加。

步骤S320：获取训练样本集合，所述训练样本集合包括图像样本以及与所述图像样本对应的目标标注样本。

在一些实施例中，可以先从数据库或服务器等获取到原始数据集，然后对该原始数据集的图像进行预处理，以得到满足初始检测模型的输入标准的图像样本，然后，对这些预处理后的图像样本进行检测目标的标注，如标注出物体的坐标信息、类别信息及其置信度等信息，即可得到多张标注检测结果的目标标注样本。其中，一个图像样本和该图像样本对应的目标标注样本，为一组训练样本，多组训练样本可以构建出训练样本集合。其中，预处理可以包括去重、裁剪、旋转和/或翻转等操作，还可以进一步对这些图像进行其他的预处理操作。

步骤S330：将所述图像样本作为所述初始检测模型的输入，将所述目标标注样本作为所述初始检测模型的期望输出，对所述初始检测模型进行训练，得到所述预先训练好的网络模型。

在本申请实施例中，将上述图像样本作为初始检测模型的输入，将该图像样本对应的目标标注样本作为初始检测模型的期望输出(即学习目标)，从而可通过模型的实际输出和期望输出，对初始检测模型进行训练，得到前述预先训练好的网络模型。

具体地，在得到图像样本之后，可以将该图像样本输入初始检测模型进行前向计算，得到初始检测模型的实际输出，该实际输出为初始检测模型预测的目标检测结果。由于将图像样本对应的目标标注样本作为初始检测模型的期望输出，因此，可以根据预测的目标检测结果与期望输出的误差进行模型参数的更新，通过大量的迭代训练，从而得到前述预先训练好的网络模型。

可以理解的是，本实施例中上述的各个步骤，可以均由上述终端设备在本地进行，也可以均在上述服务器中进行，还可以由终端设备与服务器分工进行，根据实际应用场景的不同，可以按照需求进行任务的分配，以实现最优化的语音控制家居设备，在此并不作限定。

本申请实施例提供的一种目标检测方法，通过获取待检测图像的第n层传统特征，以及第n层传统特征对应的高层传统特征，以将第n层传统特征与高层传统特征输入所述第一融合模块进行特征融合，获得第一融合模块输出的融合后的第n层对应的第一融合特征。这样，通过将高阶传统图像特征引入低阶传统图像特征，可以丰富低阶的传统图像特征的语义信息，实现了多尺度传统特征的融合，提高了传统特征提取的准确性。通过将第一融合特征与第n层深度特征输入第二融合模块进行特征融合，获得第二融合模块输出的融合后的第n层的第二融合特征。这样，通过在多尺度深度特征上引入多尺度传统图像特征引导注意力，优化了检测分支上的卷积神经网络特征提取，增加了系统的可解释性，提升了网络的目标检测精度。通过获取第m层的第二融合特征，以及第m层的第二融合特征所对应的高层融合特征，将第m层的第二融合特征与高层融合特征输入第三融合模块进行特征融合，获得第三融合模块输出的融合后的第m层的第二融合特征，并将融合后的第m层的第二融合特征输入预测模块，预测模块用于根据融合后的第m层的第二融合特征，输出待检测图像中对待检测目标的检测结果。这样，通过将高阶的融合特征引入低阶的融合特征，由于高阶特征适合分类，低阶特征适合定位，因此经过处理后，可以使得低阶的融合特征也适合于分类，提高了目标检测网络的精确度。

请参阅图15，图15示出了本申请提供的一种目标检测装置500的结构框图，该装置可以包括：图像获取模块510、图像输入模块520以及图像检测模块530。其中，图像获取模块510，用于获取待检测图像；图像输入模块520，用于将所述待检测图像输入预先训练好的网络模型，所述网络模型用于按照对应尺度融合所述待检测图像的多尺度传统特征和多尺度深度特征，并根据融合后的所述多尺度传统特征和多尺度深度特征，输出所述待检测图像中对待检测目标的检测结果；图像检测模块530，用于获得所述网络模型输出的对待检测目标的检测结果。

在一些实施例中，上述网络模型包括第一融合模块、第二融合模块和预测模块，图像输入模块520可以包括：特征获取单元、高层特征获取单元、第一融合单元、第二融合单元以及预测单元。其中，特征获取单元用于获取所述待检测图像的第n层传统特征，所述第n层为所述多尺度传统特征中的任一层尺度，所述n为正整数；高层特征获取单元用于获取所述第n层传统特征对应的高层传统特征，所述高层传统特征为尺度高于所述第n层尺度的任一传统特征；第一融合单元用于将所述第n层传统特征与所述高层传统特征输入所述第一融合模块进行特征融合，获得所述第一融合模块输出的融合后的第n层对应的第一融合特征；第二融合单元用于将所述第一融合特征与第n层深度特征输入所述第二融合模块进行特征融合，获得所述第二融合模块输出的融合后的第n层的第二融合特征，所述第n层深度特征为所述多尺度深度特征中与所述第n层传统特征的尺度对应的深度特征；预测单元用于将所述第二融合特征输入所述预测模块，所述预测模块用于根据所述第二融合特征，输出所述待检测图像中对待检测目标的检测结果。

在一些实施例中，上述高层特征获取单元中的高层传统特征可以为融合后的第n+1层对应的第一融合特征，其中，所述第n+1层对应的第一融合特征为第n+1层传统特征与所述第n+1层传统特征对应的高层传统特征输入所述第一融合模块后输出的融合后的特征。

在一些实施例中，网络模型还包括第三融合模块，上述预测单元可以包括：融合特征获取单元、高层融合特征获取单元、第三融合单元以及融合预测单元。其中，融合特征获取单元用于获取第m层的第二融合特征，所述第m层为多尺度的第二融合特征中的任一层尺度，所述m为正整数；高层融合特征获取单元用于获取所述第m层的第二融合特征所对应的高层融合特征，所述高层融合特征为尺度高于所述第m层尺度的任一第二融合特征；第三融合单元用于将所述第m层的第二融合特征与所述高层融合特征输入所述第三融合模块进行特征融合，获得所述第三融合模块输出的融合后的第m层的第二融合特征；融合预测单元用于将所述融合后的第m层的第二融合特征输入所述预测模块，所述预测模块用于根据所述融合后的第m层的第二融合特征，输出所述待检测图像中对待检测目标的检测结果。

进一步地，在一些实施例中，上述高层融合特征获取单元可以具体用于：获取所述第m层的第二融合特征所对应的所有高层融合特征。

在一些实施例中，上述预先训练好的网络模型可以通过如下步骤训练得到：获取初始检测模型，所述初始检测模型包括卷积神经网络；获取训练样本集合，所述训练样本集合包括图像样本以及与所述图像样本对应的目标标注样本；将所述图像样本作为所述初始检测模型的输入，将所述目标标注样本作为所述初始检测模型的期望输出，对所述初始检测模型进行训练，得到所述预先训练好的网络模型。

在一些实施例中，上述传统特征可以包括Harris角点特征、SIFT尺度不变特征、HOG方向梯度直方图特征以及LBP局部二值化特征中的任意一种或多种。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的目标检测装置能够实现图2、图3、图4、图5、图6、图7、图8、图9、图10、图11、图12、图13和图14任一的方法实施例中的各个过程，为描述的方便和简洁，上述描述装置、模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上，本申请实施例提供的一种目标检测装置，该装置包括：图像获取模块510、图像输入模块520以及图像检测模块530。其中，图像获取模块510，用于获取待检测图像；图像输入模块520，用于将所述待检测图像输入预先训练好的网络模型，所述网络模型用于按照对应尺度融合所述待检测图像的多尺度传统特征和多尺度深度特征，并根据融合后的所述多尺度传统特征和多尺度深度特征输出所述待检测图像中对待检测目标的检测结果；图像检测模块530，用于获得所述网络模型输出的对待检测目标的检测结果。这样，通过在网络模型中引入了更具可解释性的传统图像特征，用于引导特征融合，实现注意力机制，优化了网络模型的特征提取，增加了网络模型的可解释性，提升了提升网络模型对待检测图像的目标检测精度。

本申请实施例提供了一种电子设备，电子设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的如图2、图3、图4、图5、图6、图7、图8、图9、图10、图11、图12、图13和图14任一的目标检测方法。本实施例中，电子设备可以是手机、笔记本电脑、智能穿戴设备、智能电视、智能音箱、车载终端、网关等等能够运行应用程序的终端设备。也可以是本地服务器、云服务器等服务器。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

图16是本申请一个实施例提供的一种电子设备1200的硬件结构框图。具体的，电子设备在无线网络系统中作为电子设备时可以执行并实现如上述方法实施例所提供的如图2、图3、图4、图5、图6、图7、图8、图9、图10、图11、图12、图13和图14任一的目标检测方法，其中，电子设备可以是图像采集设备、服务器等能够运行应用程序的电子设备。

如图16所示，该电子设备1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器1210(处理器1210可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1230，一个或一个以上存储应用程序1223或数据1222的存储介质1220(例如一个或一个以上海量存储设备)。其中，存储器1230和存储介质1220可以是短暂存储或持久存储。存储在存储介质1220的程序可以包括一个或一个以上模块，每个模块可以包括对电子设备1200中的一系列指令操作。更进一步地，处理器1210可以设置为与存储介质1220通信，在电子设备1200上执行存储介质1220中的一系列指令操作。电子设备1200还可以包括一个或一个以上电源1260，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1240，和/或，一个或一个以上操作系统1221，例如WindowsServerTM，MacOSXTM，UnixTM,LinuxTM，FreeBSDTM等等。

需要说明的是，电源1260可以是包含独立电源模块以向电子设备1200供电，也可以是用于连接外部电源以向电子设备1200供电。

输入输出接口1240可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备1200的通信供应商提供的无线网络。在一个实例中，输入输出接口1240包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口1240可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图16所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，电子设备1200还可包括比图16中所示更多或者更少的组件，或者具有与图16所示不同的配置。

综上，本申请实施例提供的一种电子设备，该电子设备执行以下步骤：获取待检测图像；将所述待检测图像输入预先训练好的网络模型，所述网络模型用于按照对应尺度融合所述待检测图像的多尺度传统特征和多尺度深度特征，并根据融合后的所述多尺度传统特征和多尺度深度特征，输出所述待检测图像中对待检测目标的检测结果，其中，所述网络模型根据训练样本对神经网络模型训练得到；获得所述网络模型输出的对待检测目标的检测结果。这样，通过在网络模型中引入了更具可解释性的传统图像特征，用于引导特征融合，实现注意力机制，优化了网络模型的特征提取，增加了网络模型的可解释性，提升了提升网络模型对待检测图像的目标检测精度。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述目标检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，的计算机可读存储介质，如只读存储器(Read-OnlyMemory，简称ROM)、随机存取存储器(RandomAccessMemory，简称RAM)、磁碟或者光盘等。

图17是本申请实施例提供的一种计算机可读存储介质800的结构框图。该计算机可读存储介质800中存储有程序代码，程序代码可被处理器调用执行上述方法实施例所提供的如图2、图3、图4、图5、图6、图7、图8、图9、图10、图11、图12、图13和图14任一的目标检测方法。计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或ROM之类的电子存储器。可选地，计算机可读存储介质800包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

获取待检测图像；

将所述待检测图像输入预先训练好的网络模型，所述网络模型用于按照对应尺度融合所述待检测图像的多尺度传统特征和多尺度深度特征，并根据融合后的所述多尺度传统特征和多尺度深度特征输出所述待检测图像中对待检测目标的检测结果；

获得所述网络模型输出的对所述待检测目标的检测结果。

2.根据权利要求1所述的方法，其特征在于，所述网络模型包括第一融合模块、第二融合模块和预测模块，在所述将所述待检测图像输入预先训练好的网络模型之后，所述方法还包括：

获取所述待检测图像的第n层传统特征，所述第n层为所述多尺度传统特征中的任一层尺度，所述n为正整数；

获取所述第n层传统特征对应的高层传统特征，所述高层传统特征为尺度高于所述第n层尺度的任一传统特征；

将所述第n层传统特征与所述高层传统特征输入所述第一融合模块进行特征融合，获得所述第一融合模块输出的融合后的第n层对应的第一融合特征；

将所述第一融合特征与第n层深度特征输入所述第二融合模块进行特征融合，获得所述第二融合模块输出的融合后的第n层的第二融合特征，所述第n层深度特征为所述多尺度深度特征中与所述第n层传统特征的尺度对应的深度特征；

将所述第二融合特征输入所述预测模块，所述预测模块用于根据所述第二融合特征，输出对所述待检测目标的检测结果。

3.根据权利要求2所述的方法，其特征在于，所述高层传统特征为融合后的第n+1层对应的第一融合特征，其中，所述第n+1层对应的第一融合特征为第n+1层传统特征与所述第n+1层传统特征对应的高层传统特征输入所述第一融合模块后输出的融合后的特征。

4.根据权利要求2所述的方法，其特征在于，所述网络模型还包括第三融合模块，在所述将所述第二融合特征输入所述预测模块，所述预测模块用于根据所述第二融合特征，输出对所述待检测目标的检测结果之前，所述方法还包括：

获取第m层的第二融合特征，所述第m层为多尺度的第二融合特征中的任一层尺度，所述m为正整数；

获取所述第m层的第二融合特征所对应的高层融合特征，所述高层融合特征为尺度高于所述第m层尺度的任一第二融合特征；

将所述第m层的第二融合特征与所述高层融合特征输入所述第三融合模块进行特征融合，获得所述第三融合模块输出的融合后的第m层的第二融合特征；

所述将所述第二融合特征输入所述预测模块，所述预测模块用于根据所述第二融合特征，输出对所述待检测目标的检测结果，包括：

将所述融合后的第m层的第二融合特征输入所述预测模块，所述预测模块用于根据所述融合后的第m层的第二融合特征，输出对所述待检测目标的检测结果。

5.根据权利要求4所述的方法，其特征在于，所述获取所述第m层的第二融合特征所对应的高层融合特征，包括：

获取所述第m层的第二融合特征所对应的所有高层融合特征。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述预先训练好的网络模型通过如下方法训练得到：

获取初始检测模型，所述初始检测模型包括卷积神经网络；

获取训练样本集合，所述训练样本集合包括图像样本以及与所述图像样本对应的目标标注样本；

将所述图像样本作为所述初始检测模型的输入，将所述目标标注样本作为所述初始检测模型的期望输出，对所述初始检测模型进行训练，得到所述预先训练好的网络模型。

7.根据权利要求1-5任一项所述的方法，其特征在于，所述传统特征包括Harris角点特征、SIFT尺度不变特征、HOG方向梯度直方图特征以及LBP局部二值化特征中的任意一种或多种。

8.一种目标检测装置，其特征在于，所述装置包括：

图像获取模块，用于获取待检测图像；

图像输入模块，用于将所述待检测图像输入预先训练好的网络模型，所述网络模型用于按照对应尺度融合所述待检测图像的多尺度传统特征和多尺度深度特征，并根据融合后的所述多尺度传统特征和多尺度深度特征输出所述待检测图像中对待检测目标的检测结果；

图像检测模块，用于获得所述网络模型输出的对所述待检测目标的检测结果。

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的目标检测方法的步骤。

10.一种计算机可读取存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的目标检测方法的步骤。