CN114359819A

CN114359819A - 图像处理方法、装置、设备、存储介质及计算机程序产品

Info

Publication number: CN114359819A
Application number: CN202210032795.9A
Authority: CN
Inventors: 王星星; 李佳禧; 李敉琦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-04-15

Abstract

本申请提出了一种图像处理方法、装置、设备、存储介质及计算机程序产品，可以应用于云技术、人工智能技术、物体类别识别、物体陈列识别等各种领域或场景，其中方法包括：对待处理图像进行特征提取，得到待处理图像的初始特征图，待处理图像中包括待识别物体；基于初始特征图获取待识别物体对应的区域特征图；将区域特征图拆分成M个子特征图，并调用特征融合模型对M个子特征图进行特征融合处理得到融合特征；基于融合特征确定待识别物体的识别结果。采用本申请实施例，一方面可以实现物体的自动识别，提高物体识别的效率；另一方面可以提高对被遮挡物体的识别准确率。

Description

图像处理方法、装置、设备、存储介质及计算机程序产品

技术领域

本申请涉及图像处理技术领域，尤其涉及图像处理方法、图像处理装置、计算机设备、计算机存储介质及计算机程序产品。

背景技术

对于to B(即to business，即企业创业是面向企业，为企业提供服务)商家，通常需要针对其线下门店是否按照要求放置商品进行检查，例如检查是否在诸如自动售货柜、自助售货柜以及商品展柜等货架上放置指定的商品，还可以检查货架上的商品陈列是否合格等等。由于到店巡视成本高，且耗时长，所以通常是采用线上检查的方式，即由线下门店工作人员针对货架进行拍照，然后将货架照片发送至后台，然后由线上检查工作人员对上传的照片中的商品进行人工识别，以确定线下门店是否按照要求放置商品。但人工识别也存在效率低，耗时长的问题。

发明内容

本申请实施例提供了一种图像处理方法、装置、计算机设备及存储介质，一方面可以实现物体的自动识别，提高物体识别的效率；另一方面可以提高对被遮挡物体的识别准确率。

一方面，本申请实施例提供了一种图像处理方法，该方法包括：

对待处理图像进行特征提取，得到所述待处理图像的初始特征图，所述待处理图像中包括待识别物体；

基于所述初始特征图获取所述待识别物体对应的区域特征图；

将所述区域特征图拆分成M个子特征图，并调用特征融合模型对所述M个子特征图进行特征融合处理得到融合特征；M为大于1的正整数；

基于所述融合特征确定所述待识别物体的识别结果；

其中，所述特征融合模型包括特征融合网络，所述特征融合网络包括并行连接的第一子网络和第二子网络，所述第一子网络对应第一权重和第一激活函数，所述第二子网络对应第二权重和第二激活函数；所述第一子网络用于基于所述第一权重和第一激活函数对输入数据进行处理得到激活结果，所述第二子网络用于基于所述第二权重和第二激活函数对输入数据进行处理得到激活结果；所述特征融合网络的输出结果是基于所述第一子网络和第二子网络输出的激活结果确定的融合结果，所述融合特征是基于所述特征融合网络的输出结果确定的。

另一方面，本申请实施例提供了一种图像处理装置，该装置包括：

提取模块，用于对待处理图像进行特征提取，得到所述待处理图像的初始特征图，所述待处理图像中包括待识别物体；

获取模块，用于基于所述初始特征图获取所述待识别物体对应的区域特征图；

融合模块，用于将所述区域特征图拆分成M个子特征图，并调用特征融合模型对所述M个子特征图进行特征融合处理得到融合特征，M为大于1的正整数；

确定模块，用于基于所述融合特征确定所述待识别物体的识别结果。

在一种可能的实施方式中，

所述确定模块，还用于调用所述第一特征融合网络的第一子网络和第二子网络分别对第一子特征图和第二子特征图进行处理，并基于处理得到的所述第一子特征图和第二子特征图分别对应的激活结果，确定第一融合结果；所述第一子特征图和第二子特征图为所述M个子特征图中的任意两个不同的子特征图；

所述确定模块，还用于调用所述第二特征融合网络的第一子网络和第二子网络分别对第三子特征图和第四子特征图进行处理，并基于处理得到的所述第三子特征图和第四子特征图分别对应的激活结果，确定第二融合结果；所述第三子特征图和第四子特征图为所述M个子特征图中的任意两个不同的子特征图；

所述融合模块，还用于将所述第一融合结果和第二融合结果输入所述第三特征融合网络中进行处理，得到中间融合结果；

所述确定模块，还用于基于所述中间融合结果确定所述M个子特征图的融合特征。

在一种可能的实施方式中，

所述确定模块，还用于当所述第一特征融合网络处理的所述第一子特征图和第二子特征图，与所述第二特征融合网络处理的所述第三子特征图和第四子特征图相同时，所述第一特征融合网络和第二特征融合网络将同一子特征图输入不同的子网络中进行处理。

在一种可能的实施方式中，

所述确定模块，还用于调用所述第四特征融合网络的一个子网络对所述中间融合结果进行处理，得到所述中间融合结果对应的激活结果；

所述确定模块，还用于调用所述第四特征融合网络的另一个子网络对所述区域特征图进行处理，得到所述区域特征图对应的激活结果；

所述确定模块，还用于基于所述中间融合结果和所述区域特征图分别对应的激活结果，确定目标融合结果，并基于所述目标融合结果确定所述M个子特征图的融合特征。

在一种可能的实施方式中，

所述确定模块，还用于调用所述特征提取网络的第K个卷积处理子网络，对所述待处理图像或所述待处理图像的中间特征图进行卷积处理，得到处理后的中间特征图；K为设定数值中的任意一个，所述设定数值为1至X-1中的部分或全部正整数；

所述确定模块，还用于从所述处理后的中间特征图中确定第一部分特征和第二部分特征；

所述提取模块，还用于将所述第一部分特征输出至所述特征提取网络的第K+1个卷积处理子网络进行卷积处理，将所述第二部分特征输出至所述特征拼接子网络；

所述确定模块，还用于调用所述特征拼接子网络基于所述第K个卷积处理子网络的所述第二部分特征和第X个卷积处理子网络的输出结果，确定所述待处理图像的初始特征图。

在一种可能的实施方式中，

所述确定模块，还用于确定各个所述特征提取网络对应的初始特征图中所述待识别物体对应的参考区域；

所述提取模块，还用于基于确定的多个所述参考区域确定目标区域，并基于所述目标区域和各个所述特征提取网络对应的初始特征图，获取所述待识别物体对应的的区域特征图。

在一种可能的实施方式中，

所述确定模块，还用于基于识别出的各个所述待识别物体的物体类别和放置位置，确定所述待处理图像中的待识别物体的放置情况。

再一方面，本申请实施例提供了一种计算机设备，该计算机设备包括：处理器、存储器以及网络接口；处理器与存储器、网络接口相连，其中，网络接口用于提供网络通信功能，存储器用于存储程序代码，处理器用于调用程序代码，以执行本申请实施例中的图像处理方法。

相应地，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行本申请实施例中的图像处理方法。

相应地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现本申请实施例提供的图像处理方法的步骤。

相应地，本申请实施例还提供了一种计算机程序，所述计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行本申请实施例提供的图像处理方法。

本申请实施例首先提取待处理图像的初始特征图，然后根据该初始特征图得到待识别物体的区域特征图，再对该区域特征图进行区域划分，得到多个子特征图。然后将该多个子特征图进行特征融合得到区域特征图对应的融合特征，最后根据该融合特征对待识别物体进行识别，得到识别结果。一方面实现了物体的自动识别，从而可以提高物体识别的效率；另一方面因为对区域特征图进行区域划分，并且将划分区域带权重进行特征融合，从而还可以提高被遮挡物体的识别准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的待处理图像的示意图；

图1b是本申请实施例提供的图像处理系统的架构示意图；

图2是本申请实施例提供的图像处理方法的流程示意图；

图3示出了本申请实施例提供的两种特征提取网络的网络结构；

图4示出了图3中的两种特征提取网络分别对应的特征提取模型的结构；

图5示出了本申请实施例提供的用于提取待识别物体的区域特征图的网络结构；

图6示出了对区域特征图进行拆分以及将拆分后的各部分特征图进行融合的处理方式；

图7是本申请实施例提供的查重处理方式的流程示意图；

图8示出了对特征图进行降维处理的方式；

图9是本申请实施例提供的图像处理装置的结构示意图；

图10是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种图像处理方法，以实现对物体的自动识别，提高物体识别的效率。本申请实施例提供的图像处理方法可以是基于人工智能(ArtificialIntelligence，AI)技术实现。其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，其主要通过了解智能的实质，生产出一种新的能以人类智能相似的方式做出反应的智能机器，使得智能机器具有感知、推理与决策等多种功能。

AI技术是一门综合学科，其主要包括机器学习(Machine Learning，ML)、计算机视觉技术(Computer Vision，CV)、语音处理技术、自然语言处理技术以及深度学习等几大方向。本申请实施例提供的方案涉及人工智能技术下属的计算机视觉和机器学习等技术，下面将对计算机视觉技术和机器学习技术进行叙述。

AI技术中的计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)技术、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维动画(Three Dimensional，3D)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请主要涉及机器学习技术中的人工神经网络，具体来说，终端设备通过人工神经网络自动对采集到的图像数据和视频数据进行特征提取，自动识别检测对象的活体检测结果，使得活体检测更加智能化，提了升活体检测的准确率。

在可行的实施例中，本申请实施例提供的图像处理方法还可以基于云技术(Cloudtechnology)和/或区块链技术实现。具体可以涉及云技术中的云存储(Cloud storage)、云数据库(Cloud Database)、大数据(Big data)中的一种或者多种。例如，从云数据库中获取执行该图像处理方法所需要的数据(例如图像数据等)。又例如，执行该图像处理方法所需要的数据可以是以区块的形式存储在区块链上；可以将执行该图像处理方法所产生的数据(例如初始特征图、区域特征图、子特征图等)以区块的形式存储到区块链上；另外，执行该图像处理方法的数据处理设备可以是区块链网络中的节点设备。

物体类别识别技术是一种基于图像识别技术，并且可以应用于线下商家督查商品陈列摆放是否合格的技术。物体类别识别技术可以有效的节约人力成本和时间成本，尤其在应用于线下商家时，对于线下门店数量多的商家，相比于人工肉眼核查，物体类别识别技术可以大幅度地减小核验陈列的周期，从而使得核查结果更具有实时性，并且物体类别识别技术还可以提高核查效率与准确率，让店家更方便快捷地了解线下门店商品的陈列动态。

当本申请应用于督查商品陈列时，通过终端设备获取待识别物体的图像数据(例如员工手机的摄像头拍摄的店内陈列图片、门店内的实时监测摄像头拍摄的店内陈列图片等)，根据该获取到的图像数据进行陈列识别后，得到识别结果。再根据该识别结果判断该门店内的物体陈列是否符合店家要求(例如商品是否摆放在对应的位置，近期活动的宣传图是否摆放等)。从而有效的节约了核查门店物体陈列情况的时间。例如图1a所示，1a为一张由门店内店员拍摄上传的货架陈列图片，对该货架陈列图片进行识别后得到货架上摆放的物品类别(如图1a中的饮料，促销牌等)以及摆放情况，根据该物品类别以及摆放情况判断出该货架上的物品是否按照要求摆放正确。在应用于核查商品陈列时，本申请对货架上被遮挡的物体以及小体积的物体也能够进行识别，从而确保了对物体陈列识别的准确性，进而可以更准确地判断物体摆放是否正确。

当本申请应用于路况分析场景时，通过终端设备获取待识别物体的图像数据(例如车载的摄像头拍摄的该车辆附近路况图片等)，根据该获取到的图片对路况中包含的物体进行识别得到识别结果(例如附近的行人、前方道路上的障碍物等)，根据该识别结果对路况进行分析。在应用于车载互联网场景时，本申请对路况上被遮挡的物体以及小体积的物体也能够进行识别，从而确保了对路况分析的准确性，进而提高了驾驶的安全系数。

需要说明的是，上述提及的员工手机的摄像头拍摄的店内陈列图片、门店内的实时监测摄像头拍摄的店内陈列图片、车载的摄像头拍摄的该车辆附近路况图片等相关数据，均为获得相关拥有者许可或者同意后获取的。

请参见图1b，图1b是本申请实施例提供的图像处理系统的架构示意图，该图像处理系统主要包括图像处理装置101和终端设备102。

终端设备102为提供图像处理功能平台的客户端所在设备，是具有通信功能的设备，包括但不限于：智能手机、平板电脑、笔记本电脑、智能家电、车载终端等设备。图像处理装置101包括图像处理芯片，该图像处理芯片可以对图像进行识别处理。其中，该图像处理装置101可以内嵌在终端设备102内，也可以是区别于终端设备102的独立设备，在本申请实施例中不做限定。而在该图像处理装置101为独立设备时，该图像处理设备101可以为独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，图1b所示的场景中终端设备102和图像处理设备101的数量可以为一个或者多个，本申请不做限制。

可选的，当图像处理装置101与终端设备102为独立存在的两个设备时，操作对象可以通过操作终端设备102选择进行识别的图像(例如操作对象拍摄的图片、操作对象相册集内的图片等)，并将该图像发送给图像处理装置101。图像处理装置101接收到操作对象发送的图片之后，对该图片进行特征提取，得到该图片对应的初始特征图。然后图像处理装置101基于该初始特征图获取该图片中待识别物体对应的区域特征图。图像处理装置101再将该区域特征图拆分为多个子特征图，并将该多个子特征图对应的多个子特征融合后得到该区域特征图对应的融合特征。最后，图像处理装置101根据该融合特征确定该图片包含的待识别物体对应的识别结果。

下面将结合图2至图8对本申请实施例提供的图像处理方法进行详细说明。

请参见图2，图2为本申请实施例提供的图像处理方法的流程示意图。该图像处理方法包括步骤S201～S204。

S201、对待处理图像进行特征提取，得到待处理图像的初始特征图，待处理图像中包括待识别物体。

其中，待处理图像为进行图像处理的图像数据，初始特征图为待处理图像对应的特征，待识别物体为待处理图像中进行识别的物体。示例性的，如图1a所示，1a可以为一待处理图像，1a中的一个饮料可以为一待识别物体，1a中的一个价格标签可以为另一待识别物体。

可选的，每张图像都是一个个像素值组成的矩阵，可以包含多种图像信息，这里的图像信息可以包含图像的固有参数信息(例如图像曝光度、图像灰度、图像尺寸等)，基于这些固有参数信息提取图像特征(例如通过检测算子对图像的参数信息进行图像特征提取)，可以得到图像的图像特征(例如图像边缘特征、图像纹理特征、图像空间关系特征等)。这里的图像信息也可以包含用来标识图像特征的特征信息(例如图片中商品的特征等)，基于这些特征信息提取图像特征(例如通过卷积神经网络对特征信息进行图像特征提取)，可以得到图像的图像特征。

基于上述内容可以总结出，图像的特征提取方法有两类：一类是基于先验知识的特征提取方法，该特征提取方法的检测算子一般是提前设计好的，是经过大量的先验知识总结得到的；另一类是基于深度学习的特征提取方法，该特征提取方法包含卷积神经网络(Convolutional Neural Networks,CNN)。CNN特征提取相当于在训练一个个filter(过滤器、卷积核)，这些filter就如基于先验知识的特征提取方法中的检测算子，也就是说，CNN特征提取是利用神经网络的自主学习得到的。本实施例主要采用基于深度学习的特征提取方法，获取待处理图像对应的初始特征图以及待识别物体的特征信息，为后续基于处理图像对应的初始特征图获取识别物体对应的区域特征图提供数据基础，便于进行后续的图像处理操作。需要说明的，本实施例也可以采用基于先验知识的特征提取方法，在此不做限制。

下面针对基于深度学习的特征提取方法进行详细说明：基于深度学习的特征提取方法可以使得提取的特征更加准确，利于后续基于提取得到的特征对待识别物体进行识别。深度学习的特征提取方法基于的CNN主要包含以下关键结构：卷积层。其中，卷积层由一组卷积单元(过滤器、卷积核)组成，也可以将这些卷积单元理解为过滤器，每一个过滤器提取该待处理图像包含的一种特定的特征，不同的卷积单元提取不同的特征。例如，输入一张人脸的图像，使用某一卷积单元提取眼睛的特征，使用另一卷积单元提取嘴巴的特征等。在卷积层的提取流程可以是单一特征传递(卷积单元→卷积单元→卷积单元→卷积单元)，也可以是将部分卷积单元输出的特征图拆分为两部分，一部分流转到下一个卷积单元，另一部分跳跃流转到底层卷积单元。

在一种可能的实施例中，待处理图像的初始特征图是调用特征提取网络对待处理图像或待处理图像的中间特征图进行特征提取得到的，特征提取网络包括特征拼接子网络和串行连接的X个卷积处理子网络，X为大于1的正整数；其中，调用特征提取网络对待处理图像或待处理图像的中间特征图进行特征提取得到待处理图像的初始特征图，具体为：首先调用特征提取网络的第K个卷积处理子网络，对待处理图像或待处理图像的中间特征图进行卷积处理，得到处理后的中间特征图；K为设定数值中的任意一个，设定数值为1至X-1中的部分或全部正整数；然后从处理后的中间特征图中确定第一部分特征和第二部分特征；再然后将第一部分特征输出至特征提取网络的第K+1个卷积处理子网络进行卷积处理，将第二部分特征输出至特征拼接子网络；最后调用特征拼接子网络基于第K个卷积处理子网络的第二部分特征和第X个卷积处理子网络的输出结果，确定待处理图像的初始特征图。可选的，卷积处理子网络为上述提及的CNN包含的卷积层中的卷积单元。可理解的，卷积处理子网络用于提取待处理图像包含的某种特征。

可选的，如图3所示，上述特征提取网络可以采用如图3左侧所示的网络结构，即特征提取网络中的卷积单元(或者说卷积处理子网络)之间的传递方式为单一特征传递(卷积单元→卷积单元→卷积单元→卷积单元)。

可选的，如图3所示，上述特征提取网络可以采用如图3右侧所示的网络结构。该网络结构改进了CrossStagePartial(简称CSP)。该CSP如图4中右侧中的CrossStagePartial所示。经过实验验算，改进后的CSP结构可以减少40％的计算量，从而实现更高效的对图像特征进行提取。

可选的，待处理图像的中间特征图为某一层卷积处理子网络的输出(例如第三层卷积处理子网络输出的特征图就为一个中间特征图)。该中间特征图包含一个或多个待处理图像的特征(例如第三层卷积处理子网络输出的中间特征图包含第一层卷积处理子网络提取的中间特征图、第二层卷积处理子网络提取的中间特征图以及第三层卷积处理子网络提取的中间特征图)。第一部分特征和第二部分特征为某一非底层卷积处理子网络(非第X层卷积处理子网络)输出的中间特征图的部分。

可选的，特征拼接子网络用于融合各卷积处理子网络的第二部分特征以及底层卷积处理子网络的输出结果。该特征拼接子网络可以为CNN中的全连接层，该全连接层用来把卷积单元提取到的特征综合起来，可以整个卷积层中具有类别区分性的局部信息。

示例性的，特征提取网络包含4层卷积处理子网络，这4层卷积处理子网络分别为：卷积处理子网络1、卷积处理子网络2、卷积处理子网络3以及卷积处理子网络4(底层卷积处理子网络)。将某图像输入该特征提取网络后的，首先由卷积处理子网络1对该图像进行特征提取，得到中间特征图1，将该中间特征图1拆分为两个部分：第一部分特征1和第二部分特征1。然后将第一部分特征1输出至卷积处理子网络2，将第二部分特征1输出至卷积处理子网络4。卷积处理子网络2将第一部分特征1作为输入后进行特征提取，得到中间特征图2，将该中间特征图2拆分为两个部分：第一部分特征2和第二部分特征2。然后将第一部分特征2输出至卷积处理子网络3，将第二部分特征2输出至卷积处理子网络4。卷积处理子网络3将第一部分特征2作为输入后进行特征提取，得到中间特征图3，将该中间特征图3输出至卷积处理子网络4。需要说明的是，中间特征图3可以进行拆分后再输入卷积处理子网络4，也可以不做拆分，直接输入卷积处理子网络4。同理，中间特征图1和/或中间特征图2也可以不拆分直接输入下一卷积处理子网络。

可选的，卷积层的提取流程为单一特征传递时，将每一层卷积处理子网络输出的中间特征图输出至下一层卷积处理子网络，如图4中左边的流程图所示，层层传递。示例性的，特征提取网络包含4层卷积处理子网络，这4层卷积处理子网络分别为：卷积处理子网络1、卷积处理子网络2、卷积处理子网络3以及卷积处理子网络4(底层卷积处理子网络)。将某图像输入该特征提取网络后的，首先由卷积处理子网络1对该图像进行特征提取，得到中间特征图1，将该中间特征图输出至卷积处理子网络2。然后由卷积处理子网络2对该中间特征图1进行特征提取，得到中间特征图2，将该中间特征图输出至卷积处理子网络3。然后由卷积处理子网络3对该中间特征图2进行特征提取，得到中间特征图3，将该中间特征图输出至卷积处理子网络4。最后由卷积处理子网络4对中间特征图3处理得到最后的卷积层提取特征图结果。

基于上述内容可以总结出，卷积层的提取方法有两种：一种是层层递进的传递提取方式；另一种是将输出拆分后分流传递的提取方式。相比与层层递进的传递提取方法，将输出拆分后分流传递的提取方式可以在不影响识别精度的情况下，减少计算能耗及计算时间。

S202、基于初始特征图获取待识别物体对应的区域特征图。

其中，待识别物体对应的区域特征图可以为基于该待识别物体生成的候选框所包括的图像。初始特征图为卷积层的输出。基于初始特征图获取待识别物体对应的区域特征图：基于卷积层的输出，分别针对待识别物体生成区域特征图。也就是说，通过卷积层中的不同卷积处理子网络(卷积单元)从待处理图像中提取出不同的特征，每一个卷积处理子网络的输出对应该待处理图像的一个特征，多个卷积处理子网络提取得到该待处理图像的多个特征。然后根据这些特征生成待识别物体对应的候选框。示例性的，如图1a所示，通过某一个卷积处理子网络对1a所示的图像(此时1a为待处理图像)进行特征提取，得到位于最左侧的水瓶(待识别物体)的特征，根据该水瓶的特征为该水瓶生成候选框(区域特征图)；通过另一个卷积处理子网络再对1a所示的图像进行特征提取，得到促销立牌(待识别物体)的特征，根据该促销立牌的特征为该促销立牌生成候选框(区域特征图)。

在一种可能的实施例中，特征提取网络包含于特征提取模型中，特征提取模型包括串行连接的多个特征提取网络，第Y个特征提取网络的输入数据为第Y-1个特征提取网络的输出结果，Y为大于1的正整数，每一个特征提取网络对输入数据进行处理完成后得到待处理图像的一个初始特征图，且各个特征提取网络对应的初始特征图的特征尺度不同；其中，基于初始特征图获取待识别物体对应的区域特征图，具体为：首先确定各个特征提取网络对应的初始特征图中待识别物体对应的参考区域；然后基于确定的多个参考区域确定目标区域，并基于目标区域和各个特征提取网络对应的初始特征图，获取待识别物体对应的的区域特征图。

可选的，特征尺度可以表示为感受野。深层网络的感受野比较大，但是特征图分辨率低，相反的低层网络的感受野小，但是特征图分辨率高。可以将该感受野理解为人眼的视野，当距离物体远的时候，可以看全物体的全貌，但是无法看清物体的细节；当距离物体近的时候，只能看到物体的局部，但是可以看清该局部的细节。该特征尺度也可以表示为维度、描述细节等。同理，深层网络的描述细节差，相对的低层网络的描述细节更好。

可选的，参考区域为根据特征提取网络中多层卷积处理子网络提取出来的特征对应的与待识别物体相关的区域。

可选的，区域特征图是基于初始特征图获取的，而各个特征提取网络对应的初始特征图的特征尺度不同，基于上述对特征尺度的解释内容，可以得出细节越丰富的特征图提取的区域越小(即感受野小)，细节越不丰富的特征图提取的区域可能越大(即感受野大)，从而使得基于不同特征尺度确定区域特征图可以更准确的获取区域特征图。

在一种可能的实施例中，根据多个特征提取网络的输出，从所有初始特征图中确定出与待识别物体相关的初始特征图，根据多个相关的初始特征图确定在待处理图像中与待识别物体相关的多个区域，该多个区域为待识别物体对应的多个参考区域。例如，待处理图像包含多个物体：桌子、凳子、小猫。待识别物体为小猫，有三个特征提取网络对应的初始特征图为小猫的头、小猫的身体以及小猫的尾巴。把这三个特征提取网络对应的三个初始特征图选择出来，根据这三个初始特征图在待处理图像中的位置，确定与小猫相关的区域，也就是小猫对应的参考区域。

在一种可能的实施例中，基于多个参考区域确定目标区域可以是从多个参考区域中选择一个参考区域作为目标区域，然后根据该目标区域的在待处理图像的位置，从所有初始特征图中确定该目标区域对应的区域特征图。示例性的，待处理图像包含多个物体：桌子、凳子、小猫。待识别物体为小猫，现有三个参考区域：参考区域1：只包含整只小猫、参考区域2：包含部分小猫、参考区域3：不仅包含整只小猫，还包含桌子。从这三个参考区域中选择只并且完整包含小猫的参考区域1作为目标区域，然后根据该目标区域在待处理图像中的位置，从所有初始特征图中确定该目标区域对应的区域特征图，也就是一只完整小猫对应的区域特征图。

可选的，获取区域特征图还可以是通过将多个参考区域的特征图进行融合后得到的。也就是将每个初始特征图中包含待识别物体的多个参考区域的特征进行融合，以得到一个包含待识别物体的区域特征图。实例性的，待处理图像包含多个物体：桌子、凳子、小猫。待识别物体为小猫，现有三个参考区域：参考区域1：包含小猫的头部、参考区域2：包含小猫的尾巴、参考区域3：不包含小猫的尾巴身体。待处理图像中的待识别物体(小猫)是由这三个区域组成的。参考区域1对应的特征为参考区域特征1、参考区域2对应的特征为参考区域特征2、参考区域3对应的特征为参考区域特征3，将参考区域特征1、参考区域特征2、参考区域特征3进行特征融合后预测得到区域特征图。

为了更好的理解上述特征融合，下面对特征融合做进一步的解释。首先，融合不同尺度的特征可以提高分割性能，也就是将分辨率更高的低层特征(即包含更多位置以及细节信息)与更强的语义信息的高层特征(即分辨率低，细节感知能力差)高效融合。特征融合按照融合与预测的先后顺序分为：早融合和晚融合。其中，早融合为先融合多层的特征，然后再在融合的特征上训练预测器，也就是说，在完全融合之后，才统一进行检测；晚融合为尚未完成最终的融合之前，在部分融合的层上开始进行检测，从而会有多层的检测，最终将多个检测结果(特征图)进行融合。其中，晚融合有两种代表思路：第一种为特征不融合，多尺度的特征分别进行预测，然后对预测结果进行综合，如单射多箱探测器(Single ShotMultiBox Detector，SSD)，多尺度卷积神经网络(Multiscale-Convolutional NeuralNetwork，MS-CNN)；第二种为特征进行金字塔融合，先进行融合后再进行预测，如特征金字塔网络(Feature Pyramid Network，FPN)。

可选的，本实施例采用将特征金字塔网络FPN与空间金字塔池(Spatial PyramidPooling，SPP)结合的方式对特征进行融合，然后预测待识别物体对应的区域特征图。相比与其他的预测算法(只采用顶层特征做预测)特征金字塔网络FPN将顶层特征通过上采样和底层特征做融合。因为底层的特征信息虽然少(前文以及的感受野小)，但是细节更多(如位置更准确)，因此特征金字塔网络FPN将底层特征与顶层特征进行融合后做预测，可以使得对于待处理图像中包含的微小物体以及被遮挡的物体也能进行预测识别。而空间金字塔池SPP为一种池化层，池化层也叫做下采样层(即特征降维)，其主要用于在保证图像特征不变的情况下缩减图像，压缩数据。相比与其他的池化层(直接将图像裁剪为CNN能够处理的固定大小)，空间金字塔池SPP可以移除CNN对于固定输入的要求，也就是不用再将图像裁剪为CNN能够处理的固定大小，可以保留完整的图像，从而使得预测结果更加准确。

基于上述内容可以总结出，特征金字塔网络FPN进行向上采样，以使得得到图像更多的细节，而空间金字塔池SPP进行下采样，移除CNN对于固定输入的要求，使得特征金字塔网络FPN的输出可以输入CNN。如图5所示，图5中501所标记的流程为特征金字塔网络FPN进行的上采样过程，图5中502所标记的流程为空间金字塔池SPP进行的下采样过程。

S203、将区域特征图拆分成M个子特征图，并调用特征融合模型对M个子特征图进行特征融合处理得到融合特征；M为大于1的正整数。

其中，子特征图可以理解为将区域特征图拆分为多个区域，每一个区域就是一个子特征图。例如图6中603标记的区域为一个区域特征图，将该区域特征图划分为四个区域(上区域、下区域、左区域以及右区域)，这四个区域为四个子特征图。

其中，特征融合模型包括特征融合网络，特征融合网络包括并行连接的第一子网络和第二子网络，第一子网络对应第一权重和第一激活函数，第二子网络对应第二权重和第二激活函数；第一子网络用于基于第一权重和第一激活函数对输入数据进行处理得到激活结果，第二子网络用于基于第二权重和第二激活函数对输入数据进行处理得到激活结果；特征融合网络的输出结果是基于第一子网络和第二子网络输出的激活结果确定的融合结果，融合特征是基于特征融合网络的输出结果确定的。

可选的，激活函数用于引入非线性因素，使得神经网络可以任意毕竟任何非线性函数。第一权重与第二权重为不相同的两个权重，这两个权重可以是人为预设的，也可以是计算机根据前验经验生成的，在此不做限制。如图6中，601标记的区域为一个特征融合网络的内部架构，该特征融合网络包络两路流程，这两路流程也就是两个子网络。示例性的，将两个特征图：特征图1和特征图2，输入图6中的该特征融合网络后，第一子网络对特征图1进行卷积后带上权重1再做一次卷积，然后输入激活函数，得到激活结果1；第二子网络对特征图2进行卷积后带上权重2再做一次卷积，然后输入激活函数，得到激活结果2，最后根据激活结果1和激活结果2得到输出结果。需要说明的是，特征融合网络包含的两个激活函数可以是一样的激活函数(例如两个激活函数都是Mish函数)，两个激活函数也可以是不同的激活函数(例如一个激活函数是Mish，另一个激活函数为Tanh函数)，在此不做限制。

在一种可能的实施例中，特征融合模型包括多个特征融合网络，多个特征融合网络包括第一特征融合网络、第二特征融合网络和第三特征融合网络，第一特征融合网络和第二特征融合网络并行连接，第三特征融合网络的输入端与第一特征融合网络和第二特征融合网络的输出端连接；其中，调用特征融合模型对M个子特征图进行特征融合处理得到融合特征，具体为：首先调用第一特征融合网络的第一子网络和第二子网络分别对第一子特征图和第二子特征图进行处理，并基于处理得到的第一子特征图和第二子特征图分别对应的激活结果，确定第一融合结果；然后第一子特征图和第二子特征图为M个子特征图中的任意两个不同的子特征图；再然后调用第二特征融合网络的第一子网络和第二子网络分别对第三子特征图和第四子特征图进行处理，并基于处理得到的第三子特征图和第四子特征图分别对应的激活结果，确定第二融合结果；再然后第三子特征图和第四子特征图为M个子特征图中的任意两个不同的子特征图；最后将第一融合结果和第二融合结果输入第三特征融合网络中进行处理，得到中间融合结果；基于中间融合结果确定M个子特征图的融合特征。

其中，第一子特征图可以为M个子特征图中的任意一个，第二子特征图为M个子特征图中除了第一子特征图之外的任意一个。用特征融合网络可以实现：基于处理得到的第一子特征图和第二子特征图分别对应的激活结果，确定第一融合结果。也就是说，将第一子特征图和第二子特征图一同输入特征融合网络，可以得到第一融合结果。

为了更好的理解特征融合模型，下面结合图6举例对特征融合模型做进一步解释。图6中602标记的区域为一个特征融合模型，602中的区域组装块(Region Assembly Block，RAB)为一个特征融合网络。该特征融合模型602包括多个RAB。第一特征融合网络为特征融合模型602中最左侧两个并联的RAB，第一特征融合网络包含的第一子网络和第二子网络分别对应这两个并联的RAB、第二特征融合网络可以理解为特征融合模型602中间的一个RAB、第三特征融合网络可以理解为特征融合模型602中最右边的一个RAB。需要说明的，第一特征融合网络也可以只有一个RAB，或者有多个两个的RAB；第二特征融合网络和第三特征融合网络也可以有大于一个的RAB。为了后续方便描述，以图6中第一特征融合网络有两个并联RAB、第二特征融合网络有一个RAB、第三特征融合网络有一个RAB为例进行描述。

下面结合图6举例对该步骤做进一步解释。图6中的603为区域特征图，将该区域特征图603划分为四个部分子特征图：上部分(图6中603中的Partial top)、下部分(图6中603中的Partial bottom)、左部分(图6中603中的Partial left)、右部分(图6中603中的Partial right)。将左部分与右部分输入第一特征融合网络(最左边的两个RAB中上面的一个RAB)的第一子网络(如图6中601中的上部分路线)和第二子网络(如图6中601中的下部分路线)，得到融合结果1；同理将左部分与上部分输入第二特征融合网络(最左边的两个RAB中下面的一个RAB)，得到融合结果2、将左部分与下部分输入第二特征融合网络，得到融合结果3、将右部分与上部分输入第一特征融合网络，得到融合结果4、将右部分与下部分输入第二特征融合网络，得到融合结果5、将上部分与下部分输入第二特征融合网络，得到融合结果6。将这六个融合结果如上述两两组合的方式(例如融合结果1与融合结果2、融合结果3与融合结果6等)输入第三特征融合网络(图6中602中间的RAB)，得到多个中间融合结果。然后根据该多个中间融合结果确定M个子特征图的融合特征。从而使得对被遮挡的物体以及微小的问题也可以进行准确的识别，降低被遮挡区域对识别结果的影响。

在一种可能的实施例中，当第一特征融合网络处理的第一子特征图和第二子特征图，与第二特征图融合网络处理的第三子特征图和第四子特征图相同时，第一特征融合网络和第二特征融合网络将同一子特征图输入不同的子网络中进行处理。

当第一特征融合网络处理的第一子特征图和第二子特征图，与第二特征融合网络处理的第三子特征图和第四子特征图相同时，第一特征融合网络和第二特征融合网络让同一子特征图携带不同的权重进行融合处理。

示例性的，当子特征图1第一次输入第一特征融合网络的第一子网络，子特征图2第一输入第一特征融合网络的第二子网络之后，当子特征图1和子特征图2再一次输入第一特征融合网络时，子特征图1输入第一特征融合网络的第二子网络，子特征图2输入第一特征融合网络的第一子网络。也就是说，子特征图1携带权重1与子特征图2携带权重2进行融合后，当子特征图1和子特征图2再一次进行融合时，子特征图1携带权重2与子特征图2携带权重1进行融合。同理对于第二特征融合网络输入的第三子特征图和第四子特征图，在第二次同时输入第二特征融合网络时，两次输入携带的权重不同，也就是两次输入的子网络不同。

可选的，对于并行的第一特征融合网络和第二特征融合网络，为了节约处理时间，提高处理效率，可以采用以下方式对子特征图进行处理：首先将子特征图两两分为一组。然后按照分组情况同时将同一组输入第一特征融合网络和第二特征融合网络，此时第一特征融合网络和第二特征融合网络为相同的特征融合网络。同组中的一个子特征图进入两个特征融合网络时，输入第一特征融合网络时是作为第一子网络的输入，输入第二特征融合网络时是作为第二子网络的输入；同组中的另一个子特征图进入两个特征融合网络时，输入第一特征融合网络时是作为第二子网络的输入，输入第二特征融合网络时是作为第以子网络的输入。

示例性的，有四个子特征图：子特征图1、子特征图2、子特征图3以及子特征图4。将这四个子特征图两两分为一组，一共分为五组：子特征图1和子特征图2分为一组、子特征图1和子特征图3分为一组、子特征图1和子特征图4分为一组、子特征图2和子特征图3分为一组、子特征图3和子特征图4分为一组。以子特征图1和子特征图2分为的一组为例进行说明。将该组同时输入第一特征融合网络和第二特征融合网络，其中子特征图1分别输入第一特征融合网络的第一子网络和第二特征融合网络的第二子网络；子特征图2分别输入第一特征融合网络的第二子网络和第二特征融合网络的第以子网络。然后进行融合处理，以得到中间融合结果。同理，其他四组也是同样的方式输入第一特征融合网络和第二特征融合网络进行融合处理。需要说明的是，子特征图1也可以输入第一特征融合网络的第二子网络，输入第二特征融合网络的第一子网络，只要同一子特征图示输入的两个特征融合网络的不同子网络即可，其他四组的处理方式不再赘述。

在一种可能的实施例中，多个特征融合网络还包括第四特征融合网络，第四特征融合网络的输入端与第三特征融合网络的输出端连接；基于中间融合结果确定M个子特征图的融合特征，具体为：首先调用第四特征融合网络的一个子网络对中间融合结果进行处理，得到中间融合结果对应的激活结果；调用第四特征融合网络的另一个子网络对区域特征图进行处理，得到区域特征图对应的激活结果；然后基于中间融合结果和区域特征图分别对应的激活结果，确定目标融合结果，并基于目标融合结果确定M个子特征图的融合特征。

其中，第四特征融合网络用于融合中间融合结果与区域特征图，从而得到融合特征，以实现确定待识别物体之间的位置关系，从而判断待识别物体的摆放情况。

在一种可能的实施例中，特征融合网络还可以包括一个特征融合模块(如图6中601中的Max)，该特征融合模块将两个激活结果进行融合。如图6所示，图6中602标记的特征融合模型包含4个RAB(特征融合网络)，每个RAB中均包含一个MAX(特征融合模块)。

在一种可能的实施例中，特征融合模块的融合方式可以是：从输入的两个激活结果中选择出数值较大的一个激活结果作为输出。两个子特征图分别输入特征融合网络的两个子网络进行处理，在两个子网络中，两个子特征图分别乘以对应的权重。然后再进行激活，以得到两个子特征图分别对应的两个激活结果，从两个激活结果中选择出较大的一个激活结果作为目标融合结果。需要说明的是，目标融合结果可以是M个子特征图的融合特征，也可以是M个子特征图中部分子特征图的融合特征，还可以是M个子特征图与区域特征图的融合特征。如图6中特征融合网络602所示，最右侧的RAB输出的目标融合结果为M个子特征图与区域特征图的融合特征，最左侧的RAB输出的目标融合结果为M个子特征图中部分子特征图的融合特征，中间的RAB为M个子特征图的融合特征。示例性的，两个子特征图分别为：子特征图1和子特征图2；两个权重分别为权重1和权重2。将子特征图1输入特征融合网络的第一子网络后进行卷积处理，然后乘权重1再进行一次卷积处理后输入激活函数得到激活结果1；将子特征图2输入特征融合网络的第二子网络后进行卷积处理，然后乘权重2再进行一次卷积处理后输入激活函数得到激活结果2。将激活结果1和激活结果2输入特征融合模块，特征融合模块将激活结果1和激活结果2进行大小比较，选择出数值较大的激活结果作为输出。

S204、基于融合特征确定待识别物体的识别结果。

其中，识别结果可以包括待识别物体的物体类别(如待识别物体为xx品牌的饮料)，还可以包括待识别物体的位置信息(在待处理图像中的位置)等。

可选的，将融合特征输入一个特征分类网络，可以得到待识别物体与多种类别标签之间的匹配概率，再根据该匹配概率确定待识别物体的识别结果。其中，多种类别标签可以是商家自行设定的，例如类别标签可以是商店设定的货号等，也可以是模型默认的。

在一种可能的实施例中，为了获取待识别物体与多种识别标签之间的匹配概率，将融合特征输出到特征分类网络的全连接层，然后经过归一化指数函数输出预设尺度的二分类概率向量，根据选取规则(例如选取概率值最大者的类别)确定类别标签。示例性的，将融合特征通过特征分类网络输出的待识别物体与“饮料”标签对应的概率为0.7，该待识别物体与除“饮料”标签以外的标签对应的概率都小于0.7，则判断该待识别物体为饮料。其中，上述提及的归一化指数函数用于对有限项离散概率分布的梯度对数归一化。该归一化指数函数包括多项逻辑回归，多项线性判别分析。

在一种可能的实施例中，获取待识别物体的位置信息：可以根据待识别物体对应的区域特征图中包含的图像空间关系特征获取得到的。也可以根据待识别物体对应的区域特征图在待处理图像对应的初始特征图中的位置关系获取得到的。

在一种可能的实施例中，待处理图像中的待识别物体为一个或多个，各个待识别物体的识别结果包括物体类别和放置位置；所以判断物体放置情况的方式可以为：基于识别出的各个待识别物体的物体类别和放置位置，确定待处理图像中的待识别物体的放置情况。

可选的，待处理图像是针对待识别物体位于的搁置架拍摄得到的。放置情况包括待识别物体在该搁置架放置的位置是否正确、该待识别物体的摆放朝向是否正确等。

示例性的，如图1a所示，图1a为一张拍摄的某一搁置架图像(待处理图像)，以任意一个货品(如图中的饮料)为例，将该货品作为待识别物品。通过上述步骤，可以确定该待识别物品为一瓶xx品牌饮料，并且该瓶xx品牌饮料放置的位置在该搁置架的右侧。根据搁置架上的标识牌，确定标识牌上的标识也为“xx品牌饮料”，则判断该瓶xx品牌饮料放置的位置是正确的。并且根据该瓶xx品牌饮料对应的区域特征图，可以确定该瓶xx品牌饮料的摆放朝向与预设期望摆放的朝向是相同的，从而可以判断瓶xx品牌饮料的摆放朝向是正确的。

本申请实施例还提供了一种针对上传的待处理图像查重算法。该查重算法将上传的待处理图像对应的初始特征与图片特征库中的特征进行匹配，以判断该上传的待处理图像是否为历史上传过的图像。示例性的，商户可以通过接口创建一个图片特征库，该图片特征库用于保存该商户历史上传的图片。当该商户有新上传的图片时，可以发起查重申请，提交查重时间段以及需要查重的特征库进行查重。该查重算法的主要流程如图7所示。其中，一个商户可以根据需求创建多个该商户对应的图片特征库，例如某商户的线下店铺遍布全国，该商户可以根据线下店铺位于的地区分别建立多个图片特征库。

可选的，为了使得图片特征库可以存放更多的图片特征以及为了减少查重耗费的时间，在将上传的图像存入图片特征库之前，对该图片做特征提取，并且针对提取得到的图像特征进行降维。采用的降维方式可以为基于全局描述符表(Global Descriptor Table，GDT)，结合主成分分析(Principal Component Analysis，PCA)的方式。PCA主要用于提取数据的主要特征分量，从而达到降维的目的。示例性的，上述特征提取过程参见图8所示，其中图8中的GD-1至GD-N表示全局特征描述算子(global descriptor，GD)，FC(1)至FC(n)是利用全连接网络层分别对GD-1至GD-N进行处理得到的，X-w1至X-wn是利用残差网络分别对FC(1)至FC(n)进行处理得到的，如X-w1，是将FC(1)输入Conv-1进行处理后与FC(1)进行融合得到的。图8中最左边的图片为输入图片(即待处理图像)，对该输入的图片进行多次特征提取(包括下采样、池化处理等)以得到多个全局特征描述算子(图8中的CD1至CD-N)，然后将该多个全局特征描述算子分别输入相应的全连接网络层以及残差网络中进行处理后得到多个输出结果(图8中的X-w1至X-wn)，将多个输出结果进行合并即可得到降维后的输出特征。最后将这些特征数据存储到特征库中作为历史上传特征，以便后续查重使用。

参见图9，图9是本申请实施例提供的图像处理装置的结构示意图。本申请实施例提供的图像处理装置包括：

如图9所示的901为提取模块901，用于对待处理图像进行特征提取，得到待处理图像的初始特征图，待处理图像中包括待识别物体；902为获取模块902，用于基于初始特征图获取待识别物体对应的区域特征图；903为融合模块903，用于将区域特征图拆分成M个子特征图，并调用特征融合模型对M个子特征图进行特征融合处理得到融合特征，M为大于1的正整数；904为确定模块904，用于基于融合特征确定待识别物体的识别结果；其中，特征融合模型包括特征融合网络，特征融合网络包括并行连接的第一子网络和第二子网络，第一子网络对应第一权重和第一激活函数，第二子网络对应第二权重和第二激活函数；第一子网络用于基于第一权重和第一激活函数对输入数据进行处理得到激活结果，第二子网络用于基于第二权重和第二激活函数对输入数据进行处理得到激活结果；特征融合网络的输出结果是基于第一子网络和第二子网络输出的激活结果确定的融合结果，融合特征是基于特征融合网络的输出结果确定的。

在另一种实现中，确定模块904，还用于调用第一特征融合网络的第一子网络和第二子网络分别对第一子特征图和第二子特征图进行处理，并基于处理得到的第一子特征图和第二子特征图分别对应的激活结果，确定第一融合结果；第一子特征图和第二子特征图为M个子特征图中的任意两个不同的子特征图；确定模块904，还用于调用第二特征融合网络的第一子网络和第二子网络分别对第三子特征图和第四子特征图进行处理，并基于处理得到的第三子特征图和第四子特征图分别对应的激活结果，确定第二融合结果；第三子特征图和第四子特征图为M个子特征图中的任意两个不同的子特征图；融合模块903，还用于将第一融合结果和第二融合结果输入第三特征融合网络中进行处理，得到中间融合结果；确定模块904，还用于基于中间融合结果确定M个子特征图的融合特征。

在另一种实现中，确定模块904，还用于当第一特征融合网络处理的第一子特征图和第二子特征图，与第二特征融合网络处理的第三子特征图和第四子特征图相同时，第一特征融合网络和第二特征融合网络将同一子特征图输入不同的子网络中进行处理。

在另一种实现中，确定模块904，还用于调用第四特征融合网络的一个子网络对中间融合结果进行处理，得到中间融合结果对应的激活结果；确定模块904，还用于调用第四特征融合网络的另一个子网络对区域特征图进行处理，得到区域特征图对应的激活结果；确定模块904，还用于基于中间融合结果和区域特征图分别对应的激活结果，确定目标融合结果，并基于目标融合结果确定M个子特征图的融合特征。

在另一种实现中，确定模块904，还用于调用特征提取网络的第K个卷积处理子网络，对待处理图像或待处理图像的中间特征图进行卷积处理，得到处理后的中间特征图；K为设定数值中的任意一个，设定数值为1至X-1中的部分或全部正整数；确定模块904，还用于从处理后的中间特征图中确定第一部分特征和第二部分特征；提取模块901，还用于将第一部分特征输出至特征提取网络的第K+1个卷积处理子网络进行卷积处理，将第二部分特征输出至特征拼接子网络；确定模块904，还用于调用特征拼接子网络基于第K个卷积处理子网络的第二部分特征和第X个卷积处理子网络的输出结果，确定待处理图像的初始特征图。

在另一种实现中，确定模块904，还用于确定各个特征提取网络对应的初始特征图中待识别物体对应的参考区域；提取模块901，还用于基于确定的多个参考区域确定目标区域，并基于目标区域和各个特征提取网络对应的初始特征图，获取待识别物体对应的的区域特征图。

在另一种实现中，确定模块904，还用于基于识别出的各个待识别物体的物体类别和放置位置，确定待处理图像中的待识别物体的放置情况。

可以理解的是，本申请实施例提供的图像处理装置的各功能单元的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例中的相关描述，此处不再赘述。

在其它可行的实施例中，本申请实施例提供的图像处理装置也可以采用软硬件结合的方式实现，作为示例，本申请实施例提供的图像处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的图像处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑器件(Programmable Logic Device，PLD)、复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或其他电子元件。

请参见图10，是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备100可以包括处理器1001、存储器1002、网络接口1003和至少一个通信总线1004。其中，处理器1001用于调度计算机程序，可以包括中央处理器、控制器、微处理器；存储器1002用于存储计算机程序，可以包括高速随机存取存储器RAM，非易失性存储器，例如磁盘存储器件、闪存器件；网络接口1003可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，提供数据通信功能，通信总线1004负责连接各个通信元件。该计算机设备100可以对应于前文的数据处理装置100。存储器1002用于存储计算机程序，该计算机程序包括程序指令，处理器1001用于执行存储器1002存储的程序指令，以执行上述实施例中步骤S301至步骤S304中描述的过程，执行如下操作：

在一种实现中，处理器1001对待处理图像进行特征提取，得到待处理图像的初始特征图，待处理图像中包括待识别物体；基于初始特征图获取待识别物体对应的区域特征图；将区域特征图拆分成M个子特征图，并调用特征融合模型对M个子特征图进行特征融合处理得到融合特征；M为大于1的正整数；基于融合特征确定待识别物体的识别结果；

在一种实现中，处理器1001调用第一特征融合网络的第一子网络和第二子网络分别对第一子特征图和第二子特征图进行处理，并基于处理得到的第一子特征图和第二子特征图分别对应的激活结果，确定第一融合结果；第一子特征图和第二子特征图为M个子特征图中的任意两个不同的子特征图；调用第二特征融合网络的第一子网络和第二子网络分别对第三子特征图和第四子特征图进行处理，并基于处理得到的第三子特征图和第四子特征图分别对应的激活结果，确定第二融合结果；第三子特征图和第四子特征图为M个子特征图中的任意两个不同的子特征图；将第一融合结果和第二融合结果输入第三特征融合网络中进行处理，得到中间融合结果；基于中间融合结果确定M个子特征图的融合特征；其中，特征融合模型包括特征融合网络，特征融合网络包括并行连接的第一子网络和第二子网络，第一子网络对应第一权重和第一激活函数，第二子网络对应第二权重和第二激活函数；第一子网络用于基于第一权重和第一激活函数对输入数据进行处理得到激活结果，第二子网络用于基于第二权重和第二激活函数对输入数据进行处理得到激活结果；特征融合网络的输出结果是基于第一子网络和第二子网络输出的激活结果确定的融合结果，融合特征是基于特征融合网络的输出结果确定的。

在一种实现中，处理器1001当第一特征融合网络处理的第一子特征图和第二子特征图，与第二特征融合网络处理的第三子特征图和第四子特征图相同时，第一特征融合网络和第二特征融合网络将同一子特征图输入不同的子网络中进行处理。

在一种实现中，处理器1001调用第四特征融合网络的一个子网络对中间融合结果进行处理，得到中间融合结果对应的激活结果；调用第四特征融合网络的另一个子网络对区域特征图进行处理，得到区域特征图对应的激活结果；基于中间融合结果和区域特征图分别对应的激活结果，确定目标融合结果，并基于目标融合结果确定M个子特征图的融合特征。

在一种实现中，处理器1001调用特征提取网络的第K个卷积处理子网络，对待处理图像或待处理图像的中间特征图进行卷积处理，得到处理后的中间特征图；K为设定数值中的任意一个，设定数值为1至X-1中的部分或全部正整数；从处理后的中间特征图中确定第一部分特征和第二部分特征；将第一部分特征输出至特征提取网络的第K+1个卷积处理子网络进行卷积处理，将第二部分特征输出至特征拼接子网络；调用特征拼接子网络基于第K个卷积处理子网络的第二部分特征和第X个卷积处理子网络的输出结果，确定待处理图像的初始特征图。

在一种实现中，处理器1001确定各个特征提取网络对应的初始特征图中待识别物体对应的参考区域；基于确定的多个参考区域确定目标区域，并基于目标区域和各个特征提取网络对应的初始特征图，获取待识别物体对应的的区域特征图。

在一种实现中，处理器1001基于识别出的各个待识别物体的物体类别和放置位置，确定待处理图像中的待识别物体的放置情况。

具体实现中，上述计算机设备可通过其内置的各个功能模块执行如上述图1a至图7中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图2中各个步骤所提供的图像处理方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的推荐模型训练装置或者上述终端设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smart media card,SMC)，安全数字(secure digital,SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请的具体实施方式中，涉及到操作对象信息(如待处理图像等)相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

基于所述融合特征确定所述待识别物体的识别结果；

2.根据权利要求1所述的方法，其特征在于，所述特征融合模型包括多个特征融合网络，所述多个特征融合网络包括第一特征融合网络、第二特征融合网络和第三特征融合网络，所述第一特征融合网络和第二特征融合网络并行连接，所述第三特征融合网络的输入端与所述第一特征融合网络和第二特征融合网络的输出端连接；其中，所述调用特征融合模型对所述M个子特征图进行特征融合处理得到融合特征，包括：

调用所述第一特征融合网络的第一子网络和第二子网络分别对第一子特征图和第二子特征图进行处理，并基于处理得到的所述第一子特征图和第二子特征图分别对应的激活结果，确定第一融合结果；所述第一子特征图和第二子特征图为所述M个子特征图中的任意两个不同的子特征图；

调用所述第二特征融合网络的第一子网络和第二子网络分别对第三子特征图和第四子特征图进行处理，并基于处理得到的所述第三子特征图和第四子特征图分别对应的激活结果，确定第二融合结果；所述第三子特征图和第四子特征图为所述M个子特征图中的任意两个不同的子特征图；

将所述第一融合结果和第二融合结果输入所述第三特征融合网络中进行处理，得到中间融合结果；

基于所述中间融合结果确定所述M个子特征图的融合特征。

3.根据权利要求2所述的方法，其特征在于，当所述第一特征融合网络处理的所述第一子特征图和第二子特征图，与所述第二特征融合网络处理的所述第三子特征图和第四子特征图相同时，所述第一特征融合网络和第二特征融合网络将同一子特征图输入不同的子网络中进行处理。

4.根据权利要求2所述的方法，其特征在于，所述多个特征融合网络还包括第四特征融合网络，所述第四特征融合网络的输入端与所述第三特征融合网络的输出端连接；所述基于所述中间融合结果确定所述M个子特征图的融合特征，包括：

调用所述第四特征融合网络的一个子网络对所述中间融合结果进行处理，得到所述中间融合结果对应的激活结果；

调用所述第四特征融合网络的另一个子网络对所述区域特征图进行处理，得到所述区域特征图对应的激活结果；

基于所述中间融合结果和所述区域特征图分别对应的激活结果，确定目标融合结果，并基于所述目标融合结果确定所述M个子特征图的融合特征。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述待处理图像的初始特征图是调用特征提取网络对所述待处理图像或所述待处理图像的中间特征图进行特征提取得到的，所述特征提取网络包括特征拼接子网络和串行连接的X个卷积处理子网络，X为大于1的正整数；

其中，调用特征提取网络对所述待处理图像或所述待处理图像的中间特征图进行特征提取得到所述待处理图像的初始特征图，包括：

调用所述特征提取网络的第K个卷积处理子网络，对所述待处理图像或所述待处理图像的中间特征图进行卷积处理，得到处理后的中间特征图；K为设定数值中的任意一个，所述设定数值为1至X-1中的部分或全部正整数；

从所述处理后的中间特征图中确定第一部分特征和第二部分特征；

将所述第一部分特征输出至所述特征提取网络的第K+1个卷积处理子网络进行卷积处理，将所述第二部分特征输出至所述特征拼接子网络；

调用所述特征拼接子网络基于所述第K个卷积处理子网络的所述第二部分特征和第X个卷积处理子网络的输出结果，确定所述待处理图像的初始特征图。

6.根据权利要求5所述的方法，其特征在于，所述特征提取网络包含于特征提取模型中，所述特征提取模型包括串行连接的多个所述特征提取网络，第Y个特征提取网络的输入数据为第Y-1个特征提取网络的输出结果，Y为大于1的正整数，每一个特征提取网络对输入数据进行处理完成后得到所述待处理图像的一个初始特征图，且各个特征提取网络对应的初始特征图的特征尺度不同；

其中，所述基于所述初始特征图获取所述待识别物体对应的区域特征图，包括：

确定各个所述特征提取网络对应的初始特征图中所述待识别物体对应的参考区域；

基于确定的多个所述参考区域确定目标区域，并基于所述目标区域和各个所述特征提取网络对应的初始特征图，获取所述待识别物体对应的的区域特征图。

7.根据权利要求1所述的方法，其特征在于，所述待处理图像中的待识别物体为一个或多个，各个所述待识别物体的识别结果包括物体类别和放置位置；所述方法还包括：

基于识别出的各个所述待识别物体的物体类别和放置位置，确定所述待处理图像中的待识别物体的放置情况。

8.一种图像处理装置，其特征在于，所述装置包括：

确定模块，用于基于所述融合特征确定所述待识别物体的识别结果；

9.一种计算机设备，其特征在于，包括：处理器、通信接口和存储器，所述处理器、所述通信接口和所述存储器相互连接，其中，所述存储器存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，实现如权利要求1-7中任一项所述的图像处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机实现如权利要求1-7中任一项所述的图像处理方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现如权利要求1-7中任一项所述的图像处理方法。