CN112085088A

CN112085088A - 图像处理方法、装置、设备及存储介质

Info

Publication number: CN112085088A
Application number: CN202010925743.5A
Authority: CN
Inventors: 李剑; 罗泽坤; 王昌安; 彭瑾龙; 王亚彪; 汪铖杰; 李季檩; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-12-15

Abstract

本发明实施例公开了一种图像处理方法、装置、设备及存储介质，其中方法可包括：获取待检测图像；对待检测图像进行特征提取处理，得到N个目标特征图，N个目标特征图中各个目标特征图是按照每个目标特征图被提取到的顺序由前向后排列的；按照N个目标特征图中各个目标特征图的排列顺序由后向前将各个目标特征图进行融合处理得到N个候选特征图；根据N个候选特征图得到N个增强特征图，并基于N个增强特征图进行目标物体检测，并在待检测图像上标记待检测图像包括的目标物体。采用本发明实施例，可以提高目标物体检测的准确性。

Description

图像处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能中的计算机视觉领域，尤其涉及一种图像处理方法、装置、设备及存储介质。

背景技术

随着人工智能技术的发展，人脸识别逐渐成为一种方便快捷的身份认证方式，这是由于人的面部结构特征比较明显，五官呈对称性分布，而且受先天基因和后天环境的影响，不同个体的人脸具有较大的区分度。

人脸检测作为人脸识别的一个过程出现，是指对于任意一幅给定的图像，采用一定的策略对其进行搜索以确定其中是否含有人脸，如果是则返回人脸的位置、大小和姿态。在人脸识别过程中，若能准确地识别出图像中人脸，可在一定程度上提高人脸识别的准确性，因此，在人脸识别领域中，如何准确地进行人脸检测成为研究的热点问题。

发明内容

本发明实施例提供了一种图像处理方法、装置、设备以及存储介质，可以提高对图像中目标物体检测的准确性。

一方面，本发明实施例提供了一种图像处理方法，包括：

获取待检测图像；

对所述待检测图像进行特征提取处理，得到N个目标特征图，N为大于1的整数，所述N个目标特征图中各个目标特征图是按照每个目标特征图被提取到的顺序由前向后排列的；

按照所述N个目标特征图中各个目标特征图的排列顺序由后向前将所述N个目标特征图中各个目标特征图进行融合处理，得到N个增强特征图；其中，第N个增强特征图是根据第N个目标特征图确定的，所述N个候选特征图中第i个候选特征图是通过对第i+1个目标特征图和第i个目标特征图融合得到的；或者，所述N个候选特征图中第i个候选特征图是通过对第i+1个候选特征图和第i个目标特征图融合得到的，i为大于等于1且小于等于N-1的整数；

根据所述N个候选特征图得到N个增强特征图，并基于所述N个增强特征图进行目标物体检测，并在所述待检测图像上标记所述待检测图像包括的所述目标物体。

一方面，本发明实施例提供了一种图像处理装置，其特征在于，包括：

获取单元，用于获取待检测图像；

处理单元，用于对所述待检测图像进行特征提取处理，得到N个目标特征图，N为大于1的整数，所述N个目标特征图中各个目标特征图是按照每个目标特征图被提取到的顺序由前向后排列的；

融合单元，按照所述N个目标特征图中各个目标特征图的排列顺序由后向前将所述N个目标特征图中各个目标特征图进行融合处理，得到N个增强特征图；其中，第N个增强特征图是根据第N个目标特征图确定的，所述N个候选特征图中第i个候选特征图是通过对第i+1个目标特征图和第i个目标特征图融合得到的，或者，所述N个候选特征图中第i个候选特征图是通过对第i+1个候选特征图和第i个目标特征图融合得到的，i为大于等于1且小于等于N-1的整数；

所述处理单元，还用于根据所述N个候选特征图得到N个增强特征图；

检测单元，用于基于N个所述增强特征图进行目标物体检测，并在所述待检测图像上标记所述待检测图像包括的所述目标物体。

一方面，本发明实施例提供了一种图像处理设备，其特征在于，包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

获取待检测图像；对所述待检测图像进行特征提取处理，得到N个目标特征图，N为大于1的整数，所述N个目标特征图中各个目标特征图是按照每个目标特征图被提取到的顺序由前向后排列的；

按照所述N个目标特征图中各个目标特征图的排列顺序由后向前将所述N个目标特征图中各个目标特征图进行融合处理，得到N个增强特征图；其中，第N个增强特征图是根据第N个目标特征图确定的，所述N个候选特征图中第i个候选特征图是通过对第i+1个目标特征图和第i个目标特征图融合得到的，或者，所述N个候选特征图中第i个候选特征图是通过对第i+1个候选特征图和第i个目标特征图融合得到的，i为大于等于1且小于等于N-1的整数；

根据N个候选特征图得到N个增强特征图，并基于所述N个增强特征图进行目标物体检测，并在所述待检测图像上标记所述待检测图像包括的所述目标物体。

一方面，本发明实施例提供了一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行：

一方面，本发明实施例提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中；图像处理设备的处理器从所述计算机存储介质中读取所述计算机指令，所述处理器执行所述计算机指令执行：

本发明实施例中，图像处理设备在获取到需要检测的待检测图像后，对待检测图像进行特征提取处理，得到N个目标特征图，N个目标特征图中各个目标特征图是按照每个目标特征图被提取到的顺序由前向后的顺序排列的；按照所述N个目标特征图中各个目标特征图的排列顺序由后向前将所述N个目标特征图中各个目标特征图进行融合处理，得到N个候选特征图；进一步的，根据N个候选特征图得到N个增强特征图。其中，第N个候选特征图是根据第N个目标特征图确定的，第i个候选特征图是通过对第i+1个候选特征图和第i个目标特征图融合得到的；或者，第i个候选特征图是通过对第i+1个目标特征图和第i个目标特征图融合得到的，i为大于等于1且小于等于N-1的整数；最后，基于N个增强特征图进行目标物体检测，并在所述待检测图像上标记所述待检测图像包括的所述目标物体。在上述图像处理过程中，每个增强特征图中包括更为丰富以及更为细致的待检测图像的图像信息，在基于增强特征图进行目标物体检测时，可提高检测的准确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种单步检测法的结构示意图；

图2是本发明实施例提供的一种图像检测模型的结构示意图；

图3a是本发明实施例提供的一种激活层工作原理的示意图；

图3b是本发明实施例提供的一种特征提取网络的结构示意图；

图4是本发明实施例提供的一种图像处理方法的流程示意图；

图5a是本发明实施例提供的一种特征增强处理的示意图；

图5b是本发明实施例提供的一种两个特征图进行融合的示意图；

图5c是本发明实施例提供的另一种特征增强处理的示意图；

图5d是本发明实施例提供的一种根据候选特征图得到增强特征图的示意图；

图6是本发明实施例提供的另一种图像处理方法的流程示意图；

图7a是本发明实施例提供的一种图像处理方法的应用场景图；

图7b是本发明实施例提供的一种对待检测图像检测的示意图；

图8是本发明实施例提供的一种图像处理装置的结构示意图；

图9是本发明实施例提供的一种图像处理设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以与人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，计算机视觉技术(Computer Vision,CV)作为人工智能的主要研究方向之一，其可以理解为一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

人脸检测作为人脸识别技术中的一个主要过程，越来越受到更多的关注。人脸检测是指对于任意一幅给定的图像，采用一定的策略对其进行搜索以确定其中是否含有人脸，如果是则返回人脸的位置、大小和姿态。目前，常用的人脸检测方法主要分为两类，分别为one-stage face detector(单步检测法)和two-stage face detector(两步检测法)。

在一个实施例中，单步检测法的主要代表算法包括单镜头比例不变人脸检测器(Single Shot Scale-invariant Face Detector，S3FD)、以及PyramidBox。单步检测法是指通过几个特征图直接输出人脸的坐标和置信度。例如，典型的S3FD算法的结构可如图1所示，S3FD算法可包括两部分，分别为特征提取网络(或称为主干网络)101和检测头102。特征提取网络101负责对待检测图像进行特征提取处理，得到多个特征图；检测头102对多个特征图进行目标人脸检测，并输出待检测图像中包括的人脸的位置和置信度。

其中，主干网络可以为任意一种用于图像特征提取的神经网络比如VGG分类网络。主干网络101可包括基础卷积层组1011和附加卷积层组1012，基础卷积层组1011可以是基于VGG16的网络结构，使用的是VGG16的conv1_1(第一个卷积层的第一子卷积)到pool5(第五池化层)的结构，即去掉了原VGG16的三个全连接层。附加卷积层组1012是由原VGG16的全连接层fc6和全连接层fc7，以及其他卷积层集合成的，其他两个卷积层可以看做是主干网络中的第六个卷积层和第七个卷积层。其中，convx_y表示第x个卷积层中的第y个子卷积。可选的，将VGG16的全连接层fc6和fc7作为转变为卷积层可以减少参数数量。应当理解的，VGG16的网络中第一个卷积层和第二个卷积层均包括2个子卷积层，第三个卷积层、第四个卷积层以及第5个卷积层均包括3个子卷积层，图1中只示出每个卷积层的最后一个子卷积层，比如conv1_2表示第一个卷积层的最后一个子卷积层，conv3_3表示第三个卷积层的最后一个子卷积层。

在一个实施例中，由于人脸拥有不同尺寸，为了更好的检测人脸，主干网络101对待检测图像进行特征提取后，可以选取多个不同尺寸的特征图输入到检测头102中。可选的，本发明实施例中可以选取6个不同尺寸的特征图输入到检测头102中，这6个特征图可以分别为以下各个卷积层输出的特征图：conv3_3、conv4_3、conv5_3、conv_fc7(表示原VGG16的第七层，也即第二个全连接层)、conv6_2以及conv7_2。

在一个实施例中，S3FD算法还可以包括归一化层103，上述conv3_3、conv4_3、conv5_3输出的特征图具有不同的特征大小，在将这三个特征图输入到检测头102之前，可以将这三个特征图通过归一化层103进行归一化处理，将归一化处理后的特征图与其他特征图一同输入到检测头102中。

在一个实施例中，检测头102可以包括预测卷积层1021和多任务损失函数层1022，多任务损失函数层1022主要用在S3FD算法的训练阶段，预测卷积层1021主要根据主干网络101输入的多个特征图进行人脸检测。

在一个实施例中，两步检测法的主要算法可包括Face R-CNN算法，Face R-CNN算法主要包括两个步骤，第一步通过区域候选网络(Region Proposal Network，RPN)得到多个候选人脸(proposal)，然后通过R-CNN网络对多个候选人脸进行精细识别和坐标调整，得到最终的结果。

目前，在人脸检测领域使用最多的检测方法是单步检测法，但是现有的单步检测法中主干网络参数量较大，特征提取速度慢，影响对待检测图像的检测速度。为了解决上述问题，本发明实施例提供了一种图像检测模型，所述图像检测模型中采用轻量级的特征提取网络，可提高特征提取速度，并且所述图像检测模型中包括了特征增强模块，该特征增强模块对特征提取网络得到的多个特征图进行特征增强，使得图像检测模型基于更为明显的特征图进行目标物体识别，从而提高目标物体检测的准确性。下面具体介绍本发明实施例提出的图像检测模型。

参见图2，为本发明实施例提供的一种图像检测模型的示意图。图2所示的图像检测模型中可包括特征提取网络201。其中，特征提取网络可包括基础卷积层组2011和附加卷积层组2012，本发明实施例中基础卷积层组2011使用的可以是基于VGG16的conv1_1(第一个卷积层的第一子卷积)到pool5(第五池化层)的结构确定的，附加卷积层组2012包括VGG16的全连接层fc6和fc7以及其他卷积层，但是基础卷积层2011和附件卷积层2012与S3FD算法不同，下面将具体介绍。

在一个实施例中，特征提取网络201属于轻量级的主干网络，这种轻量级的主干网络在设计上主要包括以下三点：

(1)特征提取网络201的前几层使用不同尺寸的卷积核来提取待检测图像中的特征，比如在特征提取网络201的基础卷积层组2021中第一个卷积层和第二个卷积层分别采用尺寸为7x7和5x5的卷积核，基础卷积层组2021中的后几层以及附加卷积层组2022中的各个卷积层采用尺寸为3x3的卷积核。这种多种尺度的卷积核组合的方式进行特征提取，一方面能够高效的提取图像中的语义信息，另一方面能够提升提取语义信息的效率。

(2)特征提取网络201中的前4个卷积层的降采样步长分别设置为[4,2,2,2]，因此特征提取网络201的整体降采样率为4x2x2x2＝32，这种快速对待检测图像进行降采样的方式能够很好的减轻图像检测模型的参数量，从而提升图像检测模型的运行速度。

(3)在特征提取网络201中，在每个卷积层之后跟随一个改进的激活层，每个卷积层进行卷积运算后输出的特征图，经过与其相连接的改进的激活层处理后输入到下一个卷积层中。这种改进的激活层通过减少输出通道的通道数量来进一步使得特征提取网络更加轻量化。所述改进的激活层的工作原理可如下图3a所示：对于任意一个卷积层输出的特征图，通过该卷积层对应的激活层中的归一化层对该特征图进行归一化处理；进一步的，激活层对归一化处理后的特征图进行取负操作；将取负操作后的特征图和归一化处理后的特征图进行拼接，拼接后输入到激活函数RELU中进行处理，激活函数RELU处理后输入到下一个卷积层。

基于上述，轻量级的特征提取网络的结构图可为图3b所示，图3b中以特征提取网络中的前两个卷积层为例，第一个卷积层的卷积核尺寸k＝7x7，降采样步长为s＝4，第二个卷积层的卷积核尺寸k＝5x5，降采样步长为s＝2。第一个卷积层通过一个改进的激活层与第一个卷积层对应的降采样层(也可以称为池化层)相连，第一个卷积层对应的池化层进行降采样处理时使用的卷积核的尺寸为k＝3x3，降采样步长为s＝2；第一个卷积层对应的降采样层与第二个卷积层相连接，第一个卷积层输出的特征图经过一个改进的激活层处理后输入到降采样层(也可以称为池化层)中进行降采样处理，降采样处理后的特征图作为第二个卷积层的输入，第二个卷积层对输入的特征图进行卷积处理。第二个卷积层卷积处理后输入的特征图经过一个激活层以及一个降采样层，降采样层进行降采样处理后的特征图输入到第三个卷积层中。第二个卷积层对应的将采样层中采用的卷积核尺寸为k＝3x3，步长为s＝4。对于特征提取网络中的其他卷积层的工作流程与图3b中示出的流程相同，在此不再赘述。

在一个实施例中，图2所示的图像检测模型还包括特征增强模块202。上述特征提取网络201对待检测图像200进行特征提取后，通过不断的堆叠和归一化处理，可以得到N个特征图，这N个特征图称为原始特征图。通过特征增强模块202对N个原始特征图进行特征增强处理，得到N个融合后的特征图。这两组特征图构成了两个特征图分支，分别称为第一个分支和第二个分支。每个分支对应一个损失函数，如图2中2A表示第一个分支对应的第一分支损失函数，2B表示第二个分支对应的第二分支损失函数。在对图像检测模型训练时，在第一个分支上加上辅助损失进行监督训练，但是在模型应用时，第一分支会被忽略掉，不会输出检测结果。可选的，特征增强模块202对N个原始特征图进行特征增强处理的实施方式，以及图像检测模型的优化训练的实施方式将在后面的实施例中详细介绍。

在一个实施例中，图2所示的图像检测模型还包括图像检测模块(又可以称为检测头)203，N个融合的特征图输入至图像检测模块203中进行目标物体检测。若检测到待检测图像中包括目标物体，则可输出目标物体的位置信息和置信度。

由上述可见，本发明实施例提供的图像检测模型，采用轻量级的特征提取网络进行特征提取，可提高特征提取速度。并且经过特征提取网络得到的特征图不是直接输入到图像检测模块中进行检测，而是通过特征增强模块进行特征增强处理，将特征增强处理后的特征图输入到图像检测模块中进行检测，可以提高了目标物体检测的准确性。

基于上述的图像检测模型，本发明实施例提供了一种图像处理方法。参见图4，为本发明实施例提供的一种图像处理方法的流程示意图，图4所述的图像处理方法可由图像处理设备执行，具体可由图像处理设备的处理器执行。所述图像处理设备可以包括终端和服务器中的任意一种或多种，其中，所述终端可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等设备中的任意一种或多种；所述服务器可以为独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。图4所示的图像处理方法可包括如下步骤：

步骤S401、获取待检测图像。

在一个实施例中，所述待检测图像可以指任意一种图像，所述待检测图像中可包括或者不包括目标物体，所述目标物体可以指任意一种需要检测的物体，比如人脸、猫、狗以及其他物体等。

在一个实施例中，所述待检测图像可以是图像处理设备本地中存储的图像。可选的，图像处理设备本地存储的图像可以是图像处理设备调用其中配置的图像采集装置对拍摄对象进行拍摄得到的。例如，图像处理设备为手机，手机中配置有相机，相机对拍摄对象进行拍摄得到的图像存储在手机中。

可选的，图像处理设备本地存储的图像也可以在历史时刻接受到其他设备发送的。例如图像处理设备中安装有社交应用程序，图像处理设备通过社交应用程序接受其他设备中社交应用程序发送的图像，并在接收到用户对图像的保存操作时，将接收到的图像存储在本地。或者，图像处理设备和其他设备之间也可以通过其他方式传输图像，比如蓝牙等。

在其他实施例中，所述待检测图像可以图像处理设备实时接收到的其他设备传输的图像。

步骤S402、对待检测图像进行特征提取处理，得到N个目标特征图。

其中，N为大于1的整数，所述对待检测图像进行特征提取处理，得到N个目标特征图是图像处理设备调用图像检测模型执行的。此处所述图像检测模型的可以为图2所示的图像检测模型。所述图像检测模型可包括特征提取网络和特征增强模块。

在一个实施例中，所述特征提取网络可包括基础卷积层组和附加卷积层组组，每个卷积层组均包括至少一个卷积层，可以根据基础卷积层组和附加卷积层组中包括的各个卷积层中卷积核的大小，将多个卷积层划分为至少两个卷积层集合。由前述可知，基础卷积层组中的前两个卷积层中卷积核的尺寸不同，基础卷积层组中其他卷积层和附加卷积层组中的多个卷积层的卷积核尺寸相同，因此可以将基础卷积层组中前两个卷积层划分为一个卷积层集合，将基础卷积层组中其他卷积层以及附加卷积层组中的至少一个卷积层划分为一个卷积层集合。

基于此，所述特征提取网络包括至少两个卷积层集合，每个卷积层集合包括至少一个卷积层，所述至少两个卷积层集合包括第一个卷积层集合和第二个卷积层集合，所述第一个卷积层集合中各个卷积层的卷积核尺寸不相同，所述第二个卷积层集合中各个卷积层的卷积核尺寸相同。

在一个实施例中，所述N个目标特征图是从所述至少两个卷积层集合中各个卷积层输出的特征图中选择的。可选的，至少两个卷积层集合中各个卷积层对待检测图像进行处理的原理是：前一个卷积层的输出作为后一个卷积层的输入，第一个卷积层的输入为待检测图像。例如，假设所述第一个卷积层集合包括第一个卷积层和第二个卷积层，所述各个卷积层输出的特征图中包括第一个卷积层输出的第一特征图和第二个卷积层输出的第二特征图，第一个卷积层和第二个卷积层对待检测图像所述方法还包括：通过所述第一个卷积层对所述待检测图像进行卷积运算，得到第一特征图；将所述第一特征图输入所述第二个卷积层进行卷积运算，得到第二特征图。

在一个实施例中，由前述实施例可知特征提取网络还可以包括至少两个激活层，每个卷积层对应一个激活层，假设所述至少两个激活层中包括与第一个卷积层对应的第一个激活层，则上述将所述第一特征图输入所述第二个卷积层进行卷积运算得到第二特征图，包括：通过所述第一个激活层对所述第一特征图进行归一化处理；对所述归一化处理后的第一特征图进行取负操作，并将取负操作后的第一特征图和归一化处理后的第一特征图进行拼接处理；将拼接处理结果输入到所述第二卷积层进行卷积运算得到第二特征图。

在一个实施例中，按照上述方法得到各个卷积层输出的特征图后，从多个特征图中选择N个特征图作为目标特征图。可选的，所述N个目标特征图中各个目标特征图按照每个目标特征图来自的卷积层的序号由小到大排列的。

在一个实施例中，假设N为6，由于目标物体尤其是人脸是具有不同尺寸的，为了提高目标物体检测的准确性，可以从多个特征图中选取6个尺寸不同的特征图作为目标特征图。例如，图像检测模型的特征提取网络的结构如图3a中301所示，其包括七个卷积层，一个尺寸为640的待检测图像300输入到第一个卷积层和第二个卷积层中进行卷积处理后输出的特征图的尺寸为640，第三个卷积层进行卷积处理后输出的特征图表示为of_1，其尺寸为160，第四个卷积层进行卷积处理后输出的特征图表示为of_2，其尺寸为80，依次类推，后面每两个卷积层输出的特征图之间的尺寸相差2倍。图像处理设备可以依次选取of_1、of_2、of_3、of_4、of_5以及of_6作为目标特征图。可见，这6个目标特征图按照各个目标特征图被提取到的顺序由前向后排列的。

步骤S403、按照N个目标特征图中各个目标特征图的排列顺序由后向前将N个目标特征图中各个目标特征图进行融合处理，得到N个候选特征图。

在一个实施例中，步骤S403可以是图像处理设备调用图像检测模型中的特征增强模块执行的。其中，特征增强模块是一种特征金字塔网络结构，用来将高层的特征图和低层的特征图进行融合，其中N个特征图中越靠近待检测图像的卷积层输出的特征图越是低层特征图，且特征图的尺寸越大，越远离待检测图像的卷积层输出的特征图越是高层特征图，且特征图的尺寸越小。例如，假设N个目标特征图像为of_1、of_2、of_3、of_4、of_5以及of_6，在这N个目标特征图中，of_6为最高层的特征图，尺寸最小，of_1为最低层的特征图，尺寸最大。

在一个实施例中，所述N个目标特征图中第N个候选特征图是根据第N个目标特征图确定的，所述N个候选特征图中第i个候选特征图是通过对第i+1个目标特征图和第i个目标特征图融合得到的。具体实现中，调用特征增强模块按照N个目标特征图中各个目标特征图的排列顺序由后向前将N个目标特征图中各个目标特征图进行融合处理，得到N个候选特征图，可以包括：按照N个目标特征图中各个目标特征图的排列顺序由后向前依次选取第i个目标特征图；若i等于N，则将第i个目标特征图作为一个候选特征图；若i大于等于1小于N，则将第i个目标特征图与上一次生成的候选特征图进行融合，生成一个新的候选特征图；将生成的各个候选特征图按照生成的顺序由先到后排列，得到N个候选特征图。

由前述可知，各个目标特征图来组不同的卷积层，不同卷积层具有不同的通道数，因此各个目标特征图像之间的通道数也不相同，特征融合模块在将N个目标特征图像进行融合之前，需要对各个目标特征图进行通道统一化处理，以使得各个目标特征图具有相同的通道数。可选的，特征增强模块可以采用通道数为C，尺寸为1x1的卷积核对各个目标特征图进行卷积处理，得到的各个目标特征图为具有相同通道数C的特征图。通道数C可以控制图像检测模型的参数量，当C越小时，图像检测模型的参数数量越少。

在上述的N个目标特征融合模块进行融合过程中，第N个目标特征图具有最高层的特征，因此可以将通道统一化处理后的第N个目标特征图直接作为第N个候选特征图；对于剩余的N-1个目标特征图需要结合已生成的候选特征图进行递归融合得到N-1个候选特征图。举例来说，假设剩余的N-1个目标特征图中包括第N-1个目标特征图和第N-2个目标特征图，所述递归融合是指将所述第N-1个目标特征图和所述第N个候选特征图进行融合处理得到第N-1个候选特征图；将所述N-1个候选特征图与所述第N-2个目标特征图进行融合处理，得到第N-2个候选特征图。以此类推，可以得到N-1个候选特征图。

参见图5a，为本发明实施例提供的一种特征增强处理的示意图，假设N为6，6个目标特征图按照其被提取到的顺序由前向后排列依次为of_1、of_2、of_3、of_4、of_5以及of_6，对6个目标特征图进行通道统一化处理后，将第6个目标特征图of_6作为第6个候选特征图pf_6；将第6个目标特征图of_6和第5个目标特征图of_5进行融合处理得到第5个候选特征图pf_5；将第5个候选特征图pf_5和第4个目标特征图进行融合处理得到第4个候选特征图pf_4，依次类推，得到6个候选特征图分别为pf_1、pf_2、pf_3、pf_4、pf_5以及pf_6。

在一个实施例中，所述将第i个目标特征图与上一次生成的候选特征图进行融合，包括：将上一次生成的候选特征图进行上采样处理，使其尺寸与第i个目标特征图的尺寸相同；将上采样处理后的上一次生成的候选特征图与第i个目标特征图进行融合处理。

举例来说，假设第i个目标特征图是指第N-1个目标特征图，由于第N个候选特征图是由第N个目标特征图直接确定的，因此第N个候选特征图的尺寸与第N个目标特征图的尺寸相同；在将第N-1个目标特征图与第N个候选特征图进行融合时，需要先对第N个候选特征图进行上采样处理，使其尺寸与第N-1个目标特征图的尺寸相同，然后将上采样处理后的第N个候选特征图与第N-1个目标特征图进行融合。对于其他任意两个特征图的融合也采用相同方式，也即将小尺寸的特征图进行上采样处理，使其尺寸等于大尺寸的特征图，然后将两者进行融合处理，本发明实施例不一一介绍。

参见图5b，为本发明实施例提供的一种两个特征图进行融合的示意图，假设图5b示出第6个候选特征图和第5个目标特征图之间的融合，显然，第5个目标特征图的尺寸大于第6个候选特征图的尺寸，则在将两个特征图经过1x1的卷积核进行通道统一化处理后，在将这两个特征图进行融合之前，可以将第6个候选特征图进行上采样处理，使上采样处理后的第6个增强特征图的尺寸变为与第5个目标特征图的尺寸相同，进一步的，将第5个目标特征图与上采样处理后的第6个候选特征图进行融合处理，得到第5个候选特征图。

在其他实施例中，步骤S403中得到的N个候选特征图中，第i个候选特征图也可以是通过对第i+1个目标特征图和第i个目标特征图进行融合得到的。具体实现中：调用特征增强模块按照N个目标特征图中各个目标特征图的排列顺序由后向前将N个目标特征图进行融合处理，得到N个候选特征图，包括：按照N个目标特征图中各个目标特征图的排列顺序由后向前依次选取第i个目标特征图；若i等于N，则将第i个目标特征图作为一个候选特征图；若i大于等于1小于N，则将第i个目标特征图与第i+1个目标特征图进行融合，生成一个新的候选特征图；将生成的各个候选特征图按照生成的顺序由先到后排列，得到N个候选特征图。

应当理解的，此实施例中对N个目标特征图进行融合之前，也需要将N个目标特征图进行通道统一化处理，对N个目标特征图进行通道统一化处理的实施方式与上述实施例相同；以及将第i个目标特征图与第i+1个目标特征图进行融合之前，需要对第i个目标特征图进行上采样处理，其中，对第i个目标特征图进行上采样处理的实施方式与上个实施例中对第i个候选特征图像进行上采样处理的方式相同，在此不再赘述。

参考图5c，为本发明实施例提供的另一种特征增强的示意图，6个目标特征图按照其被提取到的顺序由前向后排列依次为of_1、of_2、of_3、of_4、of_5以及of_6，对6个目标特征图进行融合得到候选特征图的步骤如下：将第6个目标特征图采用1x1conv进行通道统一化处理，通道统一化处理后的目标特征图of_6直接作为候选特征图pf_6；将第5个目标特征图of_5采用1x1conv进行通道统一化处理，将通道统一化处理后的第6个目标特征图of_6进行上采样处理，上采样处理后与通道统一化处理后的第5个目标特征图of_5进行融合处理，得到一个候选特征图pf_5；以此类推，得到6个候选特征图，并将得到的6个候选特征图按照生成顺序进行排列。

步骤S404、根据N个候选特征图得到N个增强特征图，并基于N个增强特征图进行目标物体检测，并在待检测图像上标记待检测图像包括的所述目标物体。

在一个实施例中，所述根据N个候选特征图得到N个增强特征图，可包括：将N个候选特征图作为N个增强特征图。比如，将图5a和图5c得到的pf_1、pf_2、pf_3、pf_4、pf_5以及pf_6直接作为N个增强特征图。

在其他实施例中，所述根据N个候选特征图得到N个增强特征图，可包括：按照所述N个候选特征图中各个候选特征图的生成顺序由后到前对所述N个候选特征图进行融合处理，得到N个增强特征图，所述第1个增强特征图是根据第1个候选特征图确定的，所述第N个增强特征图中的第j个增强特征图是根据第j-1个增强特征图和第j个候选特征图进行融合得到的，其中，j为大于等于2且小于等于N的整数。

可选的，所述按照所述N个候选特征图中各个候选特征图的生成顺序由后到前对所述N个候选特征图进行融合处理，得到N个增强特征图，可包括：从N个候选特征图中选取第j个候选特征图；若j等于1，则可以将第j个候选特征图作为一个增强特征图；若j大于1小于等于N，则可以将第j-1个候选特征图和第j个候选特征图进行融合得到一个新的增强特征图。

举例来说，参考图5d，为本发明实施例提供的一种根据N个候选特征图确定N个增强特征图的示意图。假设N等于6，6个候选特征图表示为pf_1、pf_2、pf_3、pf_4、pf_5以及pf_6；将pf_1直接作为第一个增强特征图，表示为ef_1；将pf_1和pf_2进行融合处理得到第二个增强特征图，表示为ef_2；将pf_2和pf_3进行融合处理得到第三个增强特征图，表示为ef_3，以此类推可得到第四个增强特征图ef_4、第五个增强特征图ef_5以及第六个增强特征图ef_6。

在一个实施例中，图像处理设备可以根据图像处理设备的资源使用情况以及运算能力，从上述根据N个候选特征图确定N个增强特征图的方法中选择任意一种。比如，如果图像处理设备的资源使用较少或者运算能力较好，可以选择按照所述N个候选特征图中各个候选特征图由前到后的顺序将各个候选特征图进行融合处理得到N个增强特征图；如果图像处理设备的资源使用较多以及运算能力较差，可以选取直接将N个候选特征图作为N个增强特征图。

在一个实施例中，所述基于N个增强特征图进行目标物体检测，包括：如果图像检测模型中包括图像检测模块，则调用所述图像检测模型中的图像检测模块基于N个增强特征图像进行目标物体检测。简单来说，如果图像检测模型中包括图像检测模块，则图像处理设备图像检测模型中的图像检测模块对N个增强特征图像进行目标物体检测，最后输出给图像处理设备检测结果。若待检测图像中包括目标物体，则所述检测结果可以指在待检测图像上标记出待检测图像包括的目标物体。具体实现中，图像处理设备可以通过标注框标记出待检测图像中的目标物体，该标注框的大小可以反映待检测图像中目标物体的大小，标注框的位置表示待检测图像中目标物体的位置。若待检测图像中不包括目标物体，则所述检测结果可以指输出待检测图像不包括目标物体的提示信息。

在其他实施例中，所述基于N个目标特征图进行目标物体检测，包括：如果图像检测模型中不包括图像检测模块，则获取图像检测模块输出的N个增强特征图；将N个增强特征图输入到其他具有目标物体检测功能的模型中进行目标物体检测。

本发明实施例中，图像处理设备在获取到需要检测的待检测图像后，对待检测图像进行特征提取处理，得到N个目标特征图，N个目标特征图中各个目标特征图是按照每个目标特征图被提取到的顺序由前向后排列的；按照N个目标特征图中各个目标特征图的排列顺序由后向前将N个目标特征图中各个目标特征图进行融合处理，得到N个候选特征图；进一步的，根据N个候选特征图确定N个增强特征图，并基于N个增强特征图进行目标物体检测，并在待检测图像上标记所述待检测图像包括的所述目标物体。

在上述过程中，第N个候选特征图是根据第N个目标特征图确定的，所述N个候选特征图中第i个候选特征图是通过对第i+1个目标特征图和第i个目标特征图融合得到的，或者，所述N个候选特征图中第i个候选特征图是通过对第i+1个候选特征图和第i个目标特征图融合得到的。通过对N个目标特征进行融合处理，得到N个候选特征图，并且基于N个候选特征图确定N个增强特征图，那么每个增强特征图中包括更为丰富以及更为明显的待检测图像的特征，在基于增强特征图进行目标物体检测时，可提高检测的准确性。

基于上述的图像处理方法的实施例，本发明实施例提供了另一种图像处理方法。参见图6，为本发明实施例提供的另一种图像处理方法的流程示意图。图6所述的图像处理方法可由图像处理设备执行，具体可由图像处理设备的处理器执行，所述图像处理设备可以包括终端或者服务器中的任意一个或多个。其中，所述终端可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等设备中的任意一种或多种；所述服务器可以为独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。图6所示的图像处理方法可包括如下步骤：

步骤S601、获取样本图像以及样本图像对应的标注信息。

由前述可知，所述图像检测模型是预先优化训练的，具体地，本发明实施例采用监督训练的方式训练图像检测模型。所谓监督训练是指利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程。本发明实施例中所述监督训练可以指利用一组已标注出目标物体的训练样本对图像检测模型的模型参数进行调整，使其能够从任意一张待检测图像中识别出目标物体的概率大于概率阈值。

在一个实施例中，为了提高图像检测模型的准确性，图像处理设备可以同时选取大量的正样本图像和大量的负样本图像对图像检测模型进行训练。简单理解，正样本图像就是包括图像检测模型所要检测的目标物体的图像，比如目标物体为人脸，正样本图像为包括以下内容的图像：不同种族年龄的人脸、不同表情的人脸、佩戴不同装饰的人脸等等；负样本图像可以是包括目标物体所处的不同背景的图像，比如人脸会出现在不同环境中，如街道、室内。

在一个实施例中，步骤S601中所述的样本图像可以为任意一个正样本图像或者任意一个负样本图像，如果步骤S601中所述样本图像为正样本图像，则所述样本图像对应的标注信息可以是一个标注框，标注框的尺寸信息用于反映训练样本中目标物体的大小，标注框的位置信息用于反映目标物体在训练样本中的位置；如果步骤S601中所述样本图像为负样本图像，则样本图像对应的标注信息用于指示该样本图像不包括目标物体。

步骤S602、调用图像检测模型根据预先生成的锚点框对样本图像进行裁剪得到训练图像，并基于样本图像对应的标注信息确定训练图像的监督标注信息。

在一个实施例中，标注信息可以包括标注框，图像检测模型预先生成的锚点框的数量可以为至少一个，则基于锚点框对样本图像进行裁剪到的训练图像的数量也为至少一个。

应当理解的，一个样本图像中可以包括多个目标物体，样本图像的标注信息也包括多个。每个标注信息可以用一个标注框表示，每个标注框用于标注一个目标物体。所述根据预先生成的锚点框对样本图像进行裁剪得到训练图像，包括：按照锚点框的尺寸信息和位置信息从样本图像中裁剪得到多个子图像；确定各个子图像与样本图像上各个标注框之间的交并值，将与任意一个标注框之间的交并值大于阈值的子图像确定为正训练图像；可以将其他子图像确定为负训练图像。也就是说每个训练图像对应一个锚点框，从每一个样本图像上可以裁剪得到至少一个正训练图像和/或至少一个负训练图像。上述只是本发明实施例列举的一种确定训练图像的实施方式，对于具体的确定训练图像的方式不做限定。

在一个实施例中，所述基于样本图像对应的标注信息确定训练图像的监督标注信息，包括：将与训练图像对应的锚点框之间的交并值大于阈值的标注框确定为该训练图像对应的监督标注信息。

步骤S603、通过特征提取网络对训练图像进行特征提取处理，得到N个目标训练特征图。

在一个实施例中，所述训练图像可以指至少一个正训练图像和/或至少一个负训练图像中的任意一个，步骤S603的实施方式与图4实施例中步骤S402的实施方式相同，具体可参见步骤S402部分的描述，此处不再赘述。

步骤S604、通过特征增强模块对N个目标训练特征图得到N个增强训练特征图。

在一个实施例中，步骤S604包括的实施方式可参见图4实施例中相关步骤的描述，在此不再赘述。

步骤S605、基于监督标注信息、训练图像对应的锚点框的位置信息、N个目标训练特征图以及N个增强训练特征图对图像检测模型进行优化训练。

在一个实施例中，所述基于监督标注信息、锚点框的信息、N个目标训练特征图以及N个增强训练特征图对所述图像检测模型进行优化训练，包括：S1:通过所述图像检测模块基于所述N个目标训练特征图进行目标物体检测，得到第一预测标注信息，所述第一预测标注信息包括第一预测标注框的尺寸信息和位置信息；S2：通过所述图像检测模型基于所述N个增强训练特征图进行目标物体检测，得到第二预测标注信息，所述第二预测标注信息包括第二预测标注框的尺寸信息和位置信息；S3：基于所述第一预测标注信息、所述锚点框的信息以及所述监督标注信息确定第一损失函数，并基于所述第二预测标注信息、所述锚点框的信息和所述监督标注信息确定第二损失函数；S4：根据所述第一损失函数的权重值和所述第二损失函数的权重值对所述第一损失函数和所述第二损失函数进行预设运算，得到目标损失函数；按照减小所述目标损失函数的值的方向优化所述图像识别模型。

由前述可知，训练图像的数量可以为至少一个，假设为M个，M为大于1的整数，这M个训练图像中既包括正训练图像又包括负训练图像。步骤S603和步骤S604中所述的训练图像可以是M个训练图像中的任意一个，也就是说对M个训练图像中的每个训练图像采用步骤S603和步骤S604处理后可得到M个目标训练特征图集合，每个目标训练特征图集合中均包括N个目标训练特征图。

通过S1可知，将一个目标训练特征图集合中的N个目标训练特征图输入到图像检测模块，可以得到一个第一预测标注信息，那么将M个目标训练特征图集合中的每个目标训练特征图集合包括的N个目标训练特征图输入到图像检测模块中，可以得到M个第一预测标注信息；同理的，对每个目标训练特征图集合中的N个目标训练特征图进行融合处理，可以得到M个增强训练特征图集合，每个增强训练特征图集合中包括N个增强训练特征图。通过S2可知，将每个增强训练特征图集合中的N个增强训练特征图像输入到图像检测模块后，得到M个第二预测标注信息。

因此，上述第一预测标注框信息的数量为至少一个，上述第二预测标注框信息的数量为至少一个，在S3中基于所述第一预测标注信息、所述训练图像对应的锚点框的位置信息和所述监督标注信息确定第一损失函数时，实质上是指将多个训练图像中每个训练图像对应的第一预测标注信息、多个训练图像中每个训练图像对应的锚点框的位置信息以及多个训练图像中每个训练图像的监督标注信息进行预设运算得到第一损失函数。具体实现中，上述确定第一损失函数的过程可以通过如下公式(1)表示：

其中，i表示第i个训练图像，

表示第一损失函数，p_i表示第i个训练图像对应的锚点框输出的概率，

表示第i个训练图像为正训练图像的概率，当第i个训练图像为正训练图像时

为1，当第i个训练图像为负训练图像时

为0。t_1i表示第i个训练图像对应的第一预测标注信息包括的位置信息，g_i表示第i个训练图像对应的监督标注信息包括的位置信息，a_i表示第i个训练图像对应的锚点框的坐标，sa_i为更小的锚点框的坐标，其长宽为a_i的一半，β是分类和回归的权重，N_conf表示正训练图像的数量，N_loc表示负训练图像的数量。

在一个实施例中，基于上述描述可知，所述第二预测标注框信息的数量为至少一个，在基于所述第二预测标注信息、所述训练图像对应的锚点框的位置信息和所述监督标注信息确定第二损失函数时，实质上是指将多个训练图像在中每个训练图像对应的第二预测标注信息、多个训练图像中每个训练图像对应的锚点框的位置信息以及多个训练图像中每个训练图像的监督标注信息进行预设运算得到第二损失函数。具体实现中，上述确定第二损失函数的过程可以通过如下公式(2)表示：

其中，

表示第二损失函数，t_2i表示第i个训练图像对应的第二预测标注信息包括的位置信息。

在一个实施例中，确定出第一损失函数和第二损失函数后，进一步确定第一损失函数对应的权重值和第二损失函数对应的权重值，并在S4中根据所述第一损失函数的权重值和所述第二损失函数的权重值对所述第一损失函数和所述第二损失函数进行预设运算，得到目标损失函数。其中，预设运算可以包括加权求和，可选的，步骤S4可通过下述公式(3)表示：

其中，

表示目标损失函数，

表示第一损失函数，

表示第二损失函数，λ表示第二损失函数的权重，第一损失函数的权重为1。

确定出目标损失函数后，在S5中按照减少目标损失函数的值的方向调整图像检测模型的模型参数，以实现对图像检测模型的优化。

步骤S606、获取待检测图像，并调用图像检测模型对待检测图像进行分析处理，得到N个增强特征图。

在一个实施例中，所述调用图像检测模型对待检测图像进行分析处理，得到N个增强图像可以是通过图4实施例中步骤S402和步骤S403实的，具体实现方式可参见步骤S402和步骤S403的相关描述，在此不再赘述。

步骤S607、基于N个增强特征图进行目标物体检测，并在待检测图像上标记待检测图像包括的目标物体。

在一个实施例中，步骤S606和步骤S607中包括的一些可行的实施方式可参见图4实施例中相关步骤的描述，在此不再赘述。

本发明实施例中，在对图像检测模型训练时，获取样本图像以及样本图像对应的标注信息，调用图像检测模型根据预先生成的锚点框对样本图像进行裁剪得到训练图像，并基于样本图像对应的标注信息确定样本图像的监督标注信息；进一步的，通过图像检测模型的特征提取网络对训练图像进行特征提取处理，得到N个目标训练特征图，并通过图像检测模型中的特征增强模块对N个目标训练特征图进行特征增强处理，得到N个增强训练特征图；进而，基于所述监督标注信息、所述N个目标训练特征图以及所述N个增强训练特征图对所述图像检测模型进行优化训练。在上述图像检测模型的训练过程中，不仅参考了目标训练特征图，还联合使用了对目标训练特征图增强处理后的增强训练特征图，基于两组特征图对图像检测模型进行训练有利于图像检测模型学习更多的特征，从而不仅可以加快模型的学习效率还可以提高图像检测模型的准确性。

另外，对图像检测模型训练完成后，获取到待检测图像后，调用图像检测模型对待检测图像进行分析处理得到N个增强特征图，并基于N个增强特征图像进行物体检测，N个增强特征图是基于N个目标特征图得到的，对图像检测模型输入的原始特征图进行增强后得到的增强特征图中包括了更为丰富的图像信息，从而在基于增强特征图进行目标物体检测时可以提高检测的准确性。

基于上述的实施例，本发明实施例提供了一种图像处理方法的应用场景图，参见图7a所示，在图7a中假设待检测图像是在购物场景中采集到的，比如在商场中采集到，目标物体指人脸。商场中设置有一个或多个图像采集设备701，图像采集设备701与图像处理设备702连接，701对商场中售卖商品的售卖区域进行拍摄，得到待检测图像703；图像采集设备701通过与图像处理设备702之间的连接，将采集到的待检测图像703传输至图像处理设备702。

图像处理设备702接收到待检测图像703后，调用预先训练的图像检测模型对待检测图像进行人脸检测，参考图7b为本发明实施例提供的一种对待检测图像进行人脸识别的示意图。具体实现中，图像处理设备将待检测图像703输入到图像检测模型704中，图像检测模型704通过特征提取网络7040和特征增强模块7041对待检测图像703进行分析处理得到多个增强特征图，比如ef_1、ef_2、ef_3、ef_4、ef_5以及ef_6。进一步的，通过图像检测模型704中的图像检测模块7042基于多个增强特征图对待检测图像703进行人脸检测；若检测到待检测图像703中包括有人脸，则可以在待检测图像上标记其包括人脸。可选的，在待检测图像上标记人脸可以是指将待检测图像上包括的人脸用标记框标记，如图7b中705和706所示。

进一步的，确定出待检测图像中包括人脸后，图像处理设备702可以获取目标用户的参考特征数据，并基于所述目标用户的参考特征数据确定待检测图像中是不是包括目标用户；若检测到所述待检测图像中包括目标用户人脸，则将待检测图像对应的售卖区域内目标商品与目标用户进行关联；当存在与所述目标商品相关的推送消息时，基于目标商品与目标用户的关联关系，向所述目标用户发送所述推送信息。

其中，目标用户可以指在商场中注册了会员的用户，目标用户对应的人脸特征数据可以是指目标用户在注册会员时录入的参考人脸图像；或者，所述目标用户对应的人脸特征数据是指对目标用户在注册会员时录入的参考人脸图像进行特征提取得到的；与目标商品关联的推送信息可以指目标商品的降价信息或者目标商品上新信息，或者其他与目标商品相似的商品的推送信息等等。

假设在图7a中采集到待检测图像的售卖区域内目标商品为商品A，则将商品A与目标用户关联。当商品A降价了，则可以基于目标用户在注册会员时的联系方式向目标用户发送推送消息。

在其他实施例中，图7a和图7b只是列举了本发明实施例所述的图像处理方法的一种应用场景，对于上述图像处理方法的具体应用场景不做限定。比如上述图像处理方法还可以应用在人脸支付业务中，当目标用户启动人脸支付业务时，终端采集到的人脸图像中不仅包括目标用户，还包括背景以及其他物品，终端可以采用上述的图像处理方法从待检测图像中标记出目标用户的人脸。进一步的基于人脸支付业务对应的身份数据库中存储的多个人脸特征数据对标记出的目标用户人脸进行匹配，若匹配成功，则确定对目标用户的身份验证通过，进而执行人脸支付业务。

基于上述的实施例，本发明实施例提供了一种图像处理装置。参见图8，为本发明实施例提供的一种图像处理装置的结构示意图，图8所示的图像处理装置可运行如下单元：

获取单元801，用于获取待检测图像；

处理单元802，用于对所述待检测图像进行特征提取处理，得到N个目标特征图，N为大于1的整数，所述N个目标特征图中各个目标特征图是按照每个目标特征图被提取到的顺序由前向后排列的；

融合单元803，还用于按照所述N个目标特征图中各个目标特征图的排列顺序由后向前将所述N个目标特征图中各个目标特征图进行融合处理，得到N个候选特征图；其中，第N个候选特征图是根据第N个目标特征图确定的，所述N个候选特征图中第i个候选特征图是通过对第i+1个目标特征图和第i个目标特征图融合得到的，或者，所述N个候选特征图中第i个候选特征图是通过对第i+1个候选特征图和第i个目标特征图融合得到的，i为大于等于1且小于等于N-1的整数；

所述处理单元802，还用于根据所述N个候选特征图得到N个增强特征图；

检测单元804，用于基于所述N个增强特征图进行目标物体检测；

所述处理单元802，还用于在所述待检测图像上标记所述待检测图像包括的所述目标物体。

在一个实施例中，所述处理单元802在用于对所述待检测图像进行特征提取处理得到N个目标特征图时执行如下步骤：调用图像检测模型中的特征提取网络对所述待检测图像进行特征提取处理得到N个目标特征图；所述特征提取网络包括至少两个卷积层集合，每个卷积层集合包括至少一个卷积层，所述至少两个卷积层集合包括第一个卷积层集合和第二个卷积层集合，所述第一个卷积层集合中各个卷积层的卷积核尺寸不相同，所述第二个卷积层集合中各个卷积层的卷积核尺寸相同；所述N个目标特征图是从所述至少两个卷积层集合中各个卷积层输出的特征图中选择的；所述第一个卷积层集合包括第一个卷积层和第二个卷积层，所述各个卷积层输出的特征图中包括第一个卷积层输出的第一特征图和第二个卷积层输出的第二特征图；

所述处理单元802还用于：通过所述第一个卷积层对所述待检测图像进行卷积运算得到第一特征图；将所述第一特征图输入所述第二个卷积层进行卷积运算得到第二特征图。

在一个实施例中，所述特征提取网络还包括至少两个激活层，每个卷积层对应一个激活层，所述至少两个激活层包括与所述第一个卷积层对应的第一个激活层，所述处理单元802在将所述第一特征图输入所述第二个卷积层进行卷积运算得到第二特征图时，执行如下步骤：

通过所述第一个激活层对所述第一特征图进行归一化处理；对归一化处理后的第一特征图进行取负操作，并将取负操作后的第一特征图和归一化处理后的第一特征图进行拼接处理；将拼接处理结果输入到所述第二卷积层进行卷积运算得到第二特征图。

在一个实施例中，所述获取单元801，还用于获取样本图像以及所述样本图像对应的标注信息；

所述处理单元802，还用于调用所述图像检测模型根据预先生成的锚点框对所述样本图像进行裁剪得到训练图像，并基于所述样本图像对应的标注信息确定所述训练图像的监督标注信息，一个训练图像与一个锚点框对应；通过所述特征提取网络对所述训练图像进行特征提取处理，得到N个目标训练特征图；通过所述特征增强模块对所述N个目标训练特征图进行特征增强处理，得到N个增强训练特征图；基于所述监督标注信息、所述N个目标训练特征图以及所述N个增强训练特征图对所述图像检测模型进行优化训练。

在一个实施例中，所述图像检测模型还包括图像检测模块，所述监督标注信息包括监督标注框的尺寸信息和所述监督标注框的位置信息，所述监督标注框的位置信息用于指示所述训练样本中目标物体的位置，所述监督标注框的尺寸信息用于反映所述训练样本中目标物体的大小，所述处理单元802在基于所述监督标注信息、所述N个目标训练特征图以及所述N个增强训练特征图对所述图像检测模型进行优化训练时，执行如下步骤：

通过所述图像检测模块基于所述N个目标训练特征图进行目标物体检测，得到第一预测标注信息，所述第一预测标注信息包括第一预测标注框的尺寸信息和位置信息；通过所述图像检测模型基于所述N个增强训练特征图进行目标物体检测，得到第二预测标注信息，所述第二预测标注信息包括第二预测标注框的尺寸信息和位置信息；基于所述第一预测标注信息、所述训练图像对应的锚点框的位置信息和所述监督标注信息确定第一损失函数，并基于所述第二预测标注信息、所述训练图像对应的锚点框的位置信息和所述监督标注信息确定第二损失函数；根据所述第一损失函数的权重值和所述第二损失函数的权重值对所述第一损失函数和所述第二损失函数进行预设运算，得到目标损失函数；按照减小所述目标损失函数的值的方向优化所述图像识别模型。

在一个实施例中，所述目标物体包括人脸，所述待检测图像是在购物场景中采集到的；所述获取单元801，还用于获取目标用户对应的人脸特征数据，并基于所述目标用户对应的人脸特征数据检测所述待检测图像中是否包括目标用户；

所述处理单元802，还用于若检测到所述待检测图像中包括所述目标用户，则将所述待检测图像对应的售卖区域内目标商品与所述目标用户进行关联；当存在与所述目标商品相关的推送信息时，基于所述目标商品与所述目标用户的关联关系，向所述目标用户发送所述推送信息。

在一个实施例中，所述处理单元802在基于所述目标用户对应的人脸特征数据检测所述待检测图像中是否包括目标用户时，执行如下步骤：对标记了所述目标物体的待检测图像进行裁剪处理，得到至少一个人脸图像；分别对所述至少一个人脸图像中的每个人脸图像进行人脸识别，得到至少一个用户特征数据；若所述至少一个用户特征数据中存在与所述人脸特征数据，则确定所述待检测图像中包括目标用户。

在一个实施例中，所述处理单元802在根据所述N个候选特征图得到N个增强特征图时，执行如下步骤：将所述N个候选特征图作为N个增强特征图；或者，按照所述N个候选特征图中各个候选特征图的生成顺序由后到前对所述N个候选特征图进行融合处理，得到N个增强特征图，所述第1个增强特征图是根据第1个候选特征图确定的，所述第N个增强特征图中的第j个增强特征图是根据第j-1个增强特征图和第j个候选特征图进行融合得到的，其中，j为大于等于2且小于等于N的整数。

根据本发明的一个实施例，图4和图6所示的图像处理方法所涉及各个步骤可以是由图8所示的图像处理装置中各个单元来执行的。例如，图4所述的步骤S401可由图8中所述的图像处理装置的获取单元801来执行，步骤S402可由图8所述的图像处理装置中的处理单元802来执行，步骤S403可由图8所述的图像处理装置中的融合单元803来执行，步骤S404可由图8所示的图像处理装置中的处理单元802和检测单元804来执行；再如，图6所示的图像处理方法中步骤S601可由图8所示的图像处理装置中获取单元801来执行，步骤S602-步骤S605可由图8所述的图像处理装置中处理单元802来执行，步骤S606可由图8所示的图像处理装置中获取单元801和处理装单元802来执行，步骤S607可由图8所述的图像处理装置中处理单元802和检测单元8043来执行。

根据本发明的另一个实施例，图8所示的图像处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于图像处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本发明的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2和图6所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8中所示的图像处理装置，以及来实现本发明实施例图像处理方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算设备中，并在其中运行。

基于上述的方法实施例以及装置实施例，本发明实施例还提供了一种图像处理设备，参考图9，为本发明实施例提供的一种图像处理设备的结构示意图。图9所示的图像处理设备可至少包括处理器901、输入接口902、输出接口903以及计算机存储介质904。其中，处理器901、输入接口902、输出接口903以及计算机存储介质904可通过总线或其他方式连接。

计算机存储介质904可以存储在图像处理设备的存储器中，所述计算机存储介质904用于存储计算机程序，所述计算机程序包括程序指令，所述处理器901用于执行所述计算机存储介质904存储的程序指令。处理器901(或称CPU(Central Processing Unit，中央处理器))是图像处理设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。在一个实施例中，本发明实施例所述的处理器901可用于执行：

获取待检测图像；对所述待检测图像进行特征提取处理，得到N个目标特征图，N为大于1的整数，所述N个目标特征图中各个目标特征图是按照每个目标特征图被提取到的顺序由前向后排列的；按照所述N个目标特征图中各个目标特征图的排列顺序由后向前将所述N个目标特征图中各个目标特征图进行融合处理，得到N个候选特征图；其中，第N个候选特征图是根据第N个目标特征图确定的，所述N个候选特征图中第i个候选特征图是通过对第i+1个目标特征图和第i个目标特征图融合得到的，或者，所述N个候选特征图中第i个候选特征图是通过对第i+1个候选特征图和第i个目标特征图融合得到的，i为大于等于1且小于等于N-1的整数；

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是图像处理设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括图像处理设备中的内置存储介质，当然也可以包括图像处理设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了图像处理设备的操作系统。并且，在该存储空间中还存放了适于被处理器901加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器901加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关图4和图6所示的图像处理方法实施例中的方法的相应步骤，具体实现中，计算机存储介质中的一条或多条指令由处理器901加载并执行如下步骤：

获取待检测图像；对所述待检测图像进行特征提取处理，得到N个目标特征图，N为大于1的整数，所述N个目标特征图中各个目标特征图是按照每个目标特征图被提取到的顺序由前向后排列的；按照所述N个目标特征图中各个目标特征图的排列顺序由后向前将所述N个目标特征图中各个目标特征图进行融合处理，得到N个候选特征图；其中，第N个候选特征图是根据第N个目标特征图确定的，所述N个候选特征图中第i个候选特征图是通过对第i+1个目标特征图和第i个目标特征图融合得到的，或者，所述N个候选特征图中第i个候选特征图是通过对第i+1个候选特征图和第i个目标特征图融合得到的，i为大于等于1且小于等于N-1的整数；根据所述N个候选特征图得到N个增强特征图，并基于所述N个增强特征图进行目标物体检测，并在所述待检测图像上标记所述待检测图像包括的所述目标物体。

在一个实施例中，所述对所述待检测图像进行特征提取处理得到N个目标特征图是所述处理器901调用图像检测模型中的特征提取网络执行的，特征提取网络包括至少两个卷积层集合，每个卷积层集合包括至少一个卷积层，所述至少两个卷积层集合包括第一个卷积层集合和第二个卷积层集合，所述第一个卷积层集合中各个卷积层的卷积核尺寸不相同，所述第二个卷积层集合中各个卷积层的卷积核尺寸相同；所述N个目标特征图是从所述至少两个卷积层集合中各个卷积层输出的特征图中选择的；所述第一个卷积层集合包括第一个卷积层和第二个卷积层，所述各个卷积层输出的特征图中包括第一个卷积层输出的第一特征图和第二个卷积层输出的第二特征图，

所述处理器901，还用于通过所述第一个卷积层对所述待检测图像进行卷积运算得到第一特征图；将所述第一特征图输入所述第二个卷积层进行卷积运算得到第二特征图。

在一个实施例中，所述特征提取网络还包括至少两个激活层，每个卷积层对应一个激活层，所述至少两个激活层包括与所述第一个卷积层对应的第一个激活层，所述处理器901在将所述第一特征图输入所述第二个卷积层进行卷积运算得到第二特征图时，执行如下步骤：

在一个实施例中，所述处理器901，还用于：获取样本图像以及所述样本图像对应的标注信息；调用所述图像检测模型根据预先生成的锚点框对所述样本图像进行裁剪得到训练图像，并基于所述样本图像对应的标注信息确定所述训练图像的监督标注信息，一个训练图像与一个锚点框对应；通过所述特征提取网络对所述训练图像进行特征提取处理，得到N个目标训练特征图；通过所述特征增强模块对所述N个目标训练特征图进行特征增强处理，得到N个增强训练特征图；基于所述监督标注信息、所述N个目标训练特征图以及所述N个增强训练特征图对所述图像检测模型进行优化训练。

在一个实施例中，所述图像检测模型还包括图像检测模块，所述监督标注信息包括监督标注框的尺寸信息和所述监督标注框的位置信息，所述监督标注框的位置信息用于指示所述训练样本中目标物体的位置，所述监督标注框的尺寸信息用于反映所述训练样本中目标物体的大小；

所述处理器901在基于所述监督标注信息、所述N个目标训练特征图以及所述N个增强训练特征图对所述图像检测模型进行优化训练时，执行如下操作：通过所述图像检测模块基于所述N个目标训练特征图进行目标物体检测，得到第一预测标注信息，所述第一预测标注信息包括第一预测标注框的尺寸信息和位置信息；通过所述图像检测模型基于所述N个增强训练特征图进行目标物体检测，得到第二预测标注信息，所述第二预测标注信息包括第二预测标注框的尺寸信息和位置信息；基于所述第一预测标注信息、所述训练图像对应的锚点框的位置信息和所述监督标注信息确定第一损失函数，并基于所述第二预测标注信息、所述训练图像对应的锚点框的位置信息和所述监督标注信息确定第二损失函数；根据所述第一损失函数的权重值和所述第二损失函数的权重值对所述第一损失函数和所述第二损失函数进行预设运算，得到目标损失函数；按照减小所述目标损失函数的值的方向优化所述图像识别模型。

在一个实施例中，所述目标物体包括人脸，所述待检测图像是在购物场景中采集到的，所述在所述待检测图像上标记所述待检测图像包括的所述目标物体后，所述处理器901还用于：获取目标用户对应的人脸特征数据，并基于所述目标用户对应的人脸特征数据检测所述待检测图像中是否包括目标用户；若检测到所述待检测图像中包括所述目标用户，则将所述待检测图像对应的售卖区域内目标商品与所述目标用户进行关联；当存在与所述目标商品相关的推送信息时，基于所述目标商品与所述目标用户的关联关系，向所述目标用户发送所述推送信息。

在一个实施例中，所述处理器901在基于所述目标用户对应的人脸特征数据检测所述待检测图像中是否包括目标用户时，执行如下步骤：对标记了所述目标物体的待检测图像进行裁剪处理，得到至少一个人脸图像；分别对所述至少一个人脸图像中的每个人脸图像进行人脸识别，得到至少一个用户特征数据；若所述至少一个用户特征数据中存在与所述人脸特征数据，则确定所述待检测图像中包括目标用户。

在一个实施例中，所述处理器901在根据所述N个候选特征图得到N个增强特征图时，执行如下步骤：将所述N个候选特征图作为N个增强特征图；或者，按照所述N个候选特征图中各个候选特征图的生成顺序由后到前对所述N个候选特征图进行融合处理，得到N个增强特征图，所述第1个增强特征图是根据第1个候选特征图确定的，所述第N个增强特征图中的第j个增强特征图是根据第j-1个增强特征图和第j个候选特征图进行融合得到的，其中，j为大于等于2且小于等于N的整数。

根据本申请的一个方面，本发明实施例还提供了一种计算机产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。处理器901从计算机可读存储介质读取该计算机指令，处理器901执行该计算机指令，使得该图像处理设备执行图4和图6所示的图像处理方法，具体地：

以上所揭露的仅为本发明部分实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待检测图像；

按照所述N个目标特征图中各个目标特征图的排列顺序由后向前将各个目标特征图进行融合处理，得到N个候选特征图；其中，第N个候选特征图是根据第N个目标特征图确定的，所述N个候选特征图中第i个候选特征图是通过对第i+1个目标特征图和第i个目标特征图融合得到的；或者，所述N个候选特征图中第i个候选特征图是通过对第i+1个候选特征图和第i个目标特征图融合得到的，i为大于等于1且小于等于N-1的整数；

2.如权利要求1所述的方法，其特征在于，所述对所述待检测图像进行特征提取处理得到N个目标特征图是调用图像检测模型中的特征提取网络执行的，所述特征提取网络包括至少两个卷积层集合，每个卷积层集合包括至少一个卷积层，所述至少两个卷积层集合包括第一个卷积层集合和第二个卷积层集合，所述第一个卷积层集合中各个卷积层的卷积核尺寸不相同，所述第二个卷积层集合中各个卷积层的卷积核尺寸相同；所述N个目标特征图是从所述至少两个卷积层集合中各个卷积层输出的特征图中选择的；所述第一个卷积层集合包括第一个卷积层和第二个卷积层，所述各个卷积层输出的特征图中包括第一个卷积层输出的第一特征图和第二个卷积层输出的第二特征图，所述方法还包括：

通过所述第一个卷积层对所述待检测图像进行卷积运算得到第一特征图；

将所述第一特征图输入所述第二个卷积层进行卷积运算得到第二特征图。

3.如权利要求2所述的方法，其特征在于，所述特征提取网络还包括至少两个激活层，每个卷积层对应一个激活层，所述至少两个激活层包括与所述第一个卷积层对应的第一个激活层，所述将所述第一特征图输入所述第二个卷积层进行卷积运算得到第二特征图，包括：

通过所述第一个激活层对所述第一特征图进行归一化处理；

对归一化处理后的第一特征图进行取负操作，并将取负操作后的第一特征图和归一化处理后的第一特征图进行拼接处理；

将拼接处理结果输入到所述第二卷积层进行卷积运算得到第二特征图。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取样本图像以及所述样本图像对应的标注信息；

调用所述图像检测模型根据预先生成的锚点框对所述样本图像进行裁剪得到训练图像，并基于所述样本图像对应的标注信息确定所述训练图像的监督标注信息，一个训练图像与一个锚点框对应；

通过所述特征提取网络对所述训练图像进行特征提取处理，得到N个目标训练特征图；

通过所述特征增强模块对所述N个目标训练特征图进行特征增强处理，得到N个增强训练特征图；

基于所述监督标注信息、所述N个目标训练特征图以及所述N个增强训练特征图对所述图像检测模型进行优化训练。

5.如权利要求4所述的方法，其特征在于，所述图像检测模型还包括图像检测模块，所述监督标注信息包括监督标注框的尺寸信息和所述监督标注框的位置信息，所述监督标注框的位置信息用于指示所述训练样本中目标物体的位置，所述监督标注框的尺寸信息用于反映所述训练样本中目标物体的大小，所述基于所述监督标注信息、所述N个目标训练特征图以及所述N个增强训练特征图对所述图像检测模型进行优化训练，包括：

通过所述图像检测模块基于所述N个目标训练特征图进行目标物体检测，得到第一预测标注信息，所述第一预测标注信息包括第一预测标注框的尺寸信息和位置信息；

通过所述图像检测模型基于所述N个增强训练特征图进行目标物体检测，得到第二预测标注信息，所述第二预测标注信息包括第二预测标注框的尺寸信息和位置信息；

基于所述第一预测标注信息、所述训练图像对应的锚点框的位置信息和所述监督标注信息确定第一损失函数，并基于所述第二预测标注信息、所述训练图像对应的锚点框的位置信息和所述监督标注信息确定第二损失函数；

根据所述第一损失函数的权重值和所述第二损失函数的权重值对所述第一损失函数和所述第二损失函数进行预设运算，得到目标损失函数；

按照减小所述目标损失函数的值的方向优化所述图像识别模型。

6.如权利要求1所述的方法，其特征在于，所述目标物体包括人脸，所述待检测图像是在购物场景中采集到的，所述在所述待检测图像上标记所述待检测图像包括的所述目标物体后，所述方法还包括：

获取目标用户对应的人脸特征数据，并基于所述目标用户对应的人脸特征数据检测所述待检测图像中是否包括目标用户；

若检测到所述待检测图像中包括所述目标用户，则将所述待检测图像对应的售卖区域内目标商品与所述目标用户进行关联；

当存在与所述目标商品相关的推送信息时，基于所述目标商品与所述目标用户的关联关系，向所述目标用户发送所述推送信息。

7.如权利要求6所述的方法，其特征在于，所述基于所述目标用户对应的人脸特征数据检测所述待检测图像中是否包括目标用户，包括：

对标记了所述目标物体的待检测图像进行裁剪处理，得到至少一个人脸图像；

分别对所述至少一个人脸图像中的每个人脸图像进行人脸识别，得到至少一个用户特征数据；

若所述至少一个用户特征数据中存在与所述人脸特征数据，则确定所述待检测图像中包括目标用户。

8.如权利要求1所述的方法，其特征在于，所述根据所述N个候选特征图得到N个增强特征图，包括：

将所述N个候选特征图作为N个增强特征图；或者，

按照所述N个候选特征图中各个候选特征图的生成顺序由后到前对所述N个候选特征图进行融合处理，得到N个增强特征图，所述第1个增强特征图是根据第1个候选特征图确定的，所述第N个增强特征图中的第j个增强特征图是根据第j-1个增强特征图和第j个候选特征图进行融合得到的，其中，j为大于等于2且小于等于N的整数。

9.一种图像处理装置，其特征在于，包括：

获取单元，用于获取待检测图像；

融合单元，用于按照所述N个目标特征图中各个目标特征图的排列顺序由后向前将各个目标特征图进行融合处理，得到N个增强特征图；其中，第N个增强特征图是根据第N个目标特征图确定的，所述N个增强特征图中第i个增强特征图是通过对第i+1个增强特征图和第i个目标特征图融合得到的，i为大于等于1且小于等于N-1的整数；

检测单元，用于基于所述N个增强特征图进行目标物体检测；

所述处理单元，还用于在所述待检测图像上标记所述待检测图像包括的所述目标物体。

10.一种图像处理设备，其特征在于，包括：

处理器，适于实现一条或多条指令；以及

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-8任一项所述的图像处理方法。

11.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1-8任一项所述的图像处理方法。