CN111291819B

CN111291819B - 图像识别方法、装置、电子设备及存储介质

Info

Publication number: CN111291819B
Application number: CN202010101876.0A
Authority: CN
Inventors: 高斌斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2023-09-15
Anticipated expiration: 2040-02-19
Also published as: CN111291819A

Abstract

本发明提供了一种图像识别方法、装置、电子设备及存储介质；方法包括：对待识别图像进行全局化的信息处理，得到待识别图像的激活图；对激活图进行全局池化处理获得全局特征表示，用含参的线性层转换该全局特征表示，得到待识别图像的全局分类得分；使用含参的线性转换层作用于激活图，生成有类别信息的特征图，对有类别信息的特征图使用全局得分排序，得到图像包含的主要类别特征图，再利用类特征图的空间分布定位潜在的目标位置，得到待识别图像中潜在目标的局部区域；对各局部区域进行分类，得到各局部区域的分类得分；综合全局分类得分、以及局部区域的分类得分，确定多个局部区域中包括目标的目标局部区域、以及目标局部区域中目标的类别。

Description

图像识别方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术，尤其涉及一种图像识别方法、装置、电子设备及存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

图像识别系统是人工智能领域的重要应用之一，图像识别系统是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的系统。图像识别系统在行人识别系统、车辆识别系统等中都有广泛的应用，即图像识别系统是这些复杂系统的基础组件。

但是，传统的图像识别系统需要对待识别图像中所有的局部信息进行目标识别，使得识别过程计算量大、效率低。

发明内容

本发明实施例提供一种图像识别方法、装置、电子设备及存储介质，能够融合待识别图像的全局信息以及局部信息，降低识别的计算量、提高识别的准确率。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种图像识别方法，包括：

对待识别图像进行全局信息提取处理，得到对应所述待识别图像的激活图；

对所述激活图进行分类处理，得到所述待识别图像的全局分类信息；

根据所述激活图，对所述待识别图像进行区域划分处理，得到所述待识别图像中的多个局部区域，且所述多个局部区域中的部分局部区域包括目标对象；

对各所述局部区域进行分类处理，得到各所述局部区域的分类信息；

遍历所述多个局部区域中的每个局部区域，以进行以下处理：

当所述局部区域的分类信息和所述全局分类信息满足候选类别的条件时，将所述局部区域确定为所述待识别图像中包括所述目标对象的目标局部区域，并

将所述候选类别确定为所述目标局部区域中所述目标对象所属的类别。

本发明实施例提供一种图像识别装置，包括：

提取模块，用于对待识别图像进行全局信息提取处理，得到对应所述待识别图像的激活图；

第一分类模块，用于对所述激活图进行分类处理，得到所述待识别图像的全局分类信息；

划分模块，用于根据所述激活图，对所述待识别图像进行区域划分处理，得到所述待识别图像中的多个局部区域，且所述多个局部区域中的部分局部区域包括目标对象；

第二分类模块，用于对各所述局部区域进行分类处理，得到各所述局部区域的分类信息；

确定模块，用于

上述技术方案中，所述提取模块还用于对所述待识别图像进行卷积处理，得到对应所述待识别图像的特征图；

对所述特征图进行特征提取处理，得到所述待识别图像的特征；

对所述特征进行非线性组合处理，得到对应所述待识别图像的激活图。

上述技术方案中，所述第一分类模块还用于对所述激活图进行池化处理，得到所述待识别图像的深度特征；

对所述深度特征进行卷积线性映射处理，得到对应所述待识别图像的各类别特征；

对所述各类别特征进行非线性映射处理，得到所述待识别图像的全局分类信息。

上述技术方案中，所述划分模块还用于对所述激活图进行分类处理，得到对应所述待识别图像的类特征图；

对所述类特征图进行筛选处理，将筛选后的类特征图确定为对应所述待识别图像的候选类特征图；

根据所述候选类特征图，对所述待识别图像进行定位处理，得到所述待识别图像中的多个局部区域。

上述技术方案中，所述划分模块还用于根据图像识别模型中的类别向量，对所述激活图进行卷积处理，得到卷积结果；

将所述卷积结果与可学习参数的加和，确定为对应各类别的所述待识别图像的类特征图。

上述技术方案中，所述划分模块还用于对所述全局分类信息中对应各类别的概率进行降序排序，将前N个概率对应的类别确定为候选类别，并

将所述候选类别对应的类特征图，确定为对应所述待识别图像的候选类特征图；

其中，N为大于零的自然数。

上述技术方案中，所述划分模块还用于对所述候选类特征图进行归一化处理，得到归一化的候选类特征图；

将所述归一化的候选类特征图的尺寸扩展至所述待识别图像的尺寸，得到扩展后的候选类特征图；

对所述扩展后的候选类特征图的概率分布进行映射处理，得到所述待识别图像中的多个局部区域。

上述技术方案中，所述划分模块还用于对所述扩展后的候选类特征图进行分解处理，得到所述候选类特征图的二维边际概率分布；

对所述二维边际概率分布进行归一化处理，得到归一化后的二维边际概率分布；

当所述归一化后的二维边际概率分布中的二维概率峰值大于或者等于概率阈值时，将所述二维边际概率分布中满足概率阈值条件的多个二维坐标约束的区域，确定为所述待识别图像中的局部区域。

上述技术方案中，所述划分模块还用于当所述归一化后的二维边际概率分布中的多个二维概率峰值大于或者等于概率阈值时，确定最大峰值对应的峰当中满足概率阈值条件的区间，并将所述区间对应的多个二维坐标所约束的区域、确定为所述待识别图像中的局部区域；或者，

当所述归一化后的二维边际概率分布中的多个二维概率峰值大于或者等于概率阈值、且所述多个二维概率峰值相同时，确定所述多个二维概率峰值对应的峰当中满足概率阈值条件的区间，并将最大区间对应的多个二维坐标所约束的区域、确定为所述待识别图像中的局部区域。

上述技术方案中，所述第二分类模块还用于将各所述局部区域的尺寸扩展至所述待识别图像的尺寸，得到各扩展后的局部区域；

对所述扩展后的局部区域进行池化处理，得到所述局部区域的深度特征；

对所述深度特征进行卷积线性映射处理，得到对应所述局部区域的多类别特征；

对所述多类别特征进行非线性映射处理，得到所述局部区域的分类信息。

上述技术方案中，所述确定模块还用于

对所述全局分类信息、以及所述局部区域的分类信息进行最大池化处理，得到所述局部区域的融合信息；

对应所述局部区域遍历多个候选类别中的每个候选类别，以进行以下处理：

当所述融合信息中对应所述候选类别的得分大于融合概率阈值、且所述局部区域分类信息中对应所述候选类别的得分大于局部概率阈值时，将所述局部区域分类信息对应的局部区域、确定为所述待识别图像中包括目标对象的目标局部区域；

将遍历到的得分大于局部概率阈值的候选类别、确定为所述目标局部区域中所述目标对象所属的类别。

上述技术方案中，所述装置还包括：

训练模块，用于通过图像识别模型对图像样本进行全局信息提取处理，得到对应所述图像样本的激活图；

对所述激活图进行分类处理，得到所述图像样本的全局分类信息；

根据所述激活图，对所述图像样本进行区域划分处理，得到所述图像样本中的多个局部区域；

基于所述图像样本的全局分类信息、所述局部区域的分类信息、以及所述图像样本的标签，构建所述图像识别模型的损失函数；

更新所述图像识别模型的参数直至所述损失函数收敛。

上述技术方案中，所述训练模块还用于基于所述图像样本的全局分类信息、以及所述图像样本的标签，构建全局损失函数；

基于所述局部区域的分类信息、以及所述图像样本的标签，构建局部损失函数；

将所述全局损失函数与所述局部损失函数的加和，确定为所述图像识别模型的损失函数。

本发明实施例提供一种用于图像识别的电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的图像识别方法。

本发明实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的图像识别方法。

本发明实施例具有以下有益效果：

通过对待识别图像进行全局分类，得到待识别图像的全局分类信息，并根据待识别图像的激活图，对待识别图像进行区域划分处理，得到待识别图像中潜在包括目标的多个局部区域，并对各局部区域进行分类处理，得到各局部区域的分类信息，从而综合全局分类信息和各局部区域的分类信息，确定多个局部区域中包括目标的目标局部区域、以及目标局部区域中目标的类别，实现图像目标识别，由于对少量的局部区域进行分类、识别，从而降低识别的计算量、提高识别效率；目标局部区域、以及目标局部区域中目标的类别是综合全局分类信息和各局部区域的分类信息得到的，即综合了待识别图像的全局信息以及局部信息，从而提高了图像目标识别的准确性。

附图说明

图1是本发明实施例提供的图像识别系统10的应用场景示意图；

图2是本发明实施例提供的图像识别的电子设备500的结构示意图；

图3A-3C是本发明实施例提供的图像识别方法的流程示意图；

图4是本发明实施例提供的图像识别方法的流程示意图；

图5是本发明实施例提供的边际分布定位局部区域的示意图；

图6是本发明实施例提供的单峰示意图；

图7A-7B是本发明实施例提供的多峰示意图；

图8是本发明实施例提供的图像目标识别方法的流程示意图；

图9是本发明实施例提供的效果对比示意图；

图10A是本发明实施例提供的MobileNetv2-MCAR关于N的消融研究示意图；

图10B是本发明实施例提供的ResNet50-MCAR关于N的消融研究示意图；

图11A是本发明实施例提供的MobileNetv2-MCAR关于τ的消融研究示意图；

图11B是本发明实施例提供的ResNet50-MCAR关于τ的消融研究示意图；

图12本发明实施例提供的图像识别的结果示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)激活图：通过神经网络模型中的各层(包括卷积层、池化层、全连接层等)对输入图像进行一系列的处理，将输入图像转换为另一个空间维度上的图像，该另一个空间维度上的图像即为激活图，例如通过卷积层对输入数据进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector)，类似于一个前馈神经网络的神经元(neuron)，池化层对卷积层输出的特征图进行特征选择和信息过滤，全连接层对提取的特征进行非线性组合以得到输出，即全连接层本身不具有特征提取能力，而是利用高阶特征完成学习目标。本发明实施例中的激活图用于进行后续的分类的处理，即将待识别图像转换为另一个空间维度的激活图，该空间维度下的激活图适用于后续分类操作。

2)卷积神经网络(CNN，Convolutional Neural Networks)：一类包含卷积计算且具有深度结构的前馈神经网络(FNN，Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入图像进行平移不变分类(shift-invariantclassification)。

3)多目标识别：多个特殊目标(多种类别的目标)从图像中被区分出来的过程。例如，识别出某一图像中的行人、动物、以及树木，并通过标记框对该图像中行人、动物、以及树木进行标记。

本发明实施例提供一种图像识别方法、装置、电子设备和存储介质，能够融合待识别图像的全局信息以及局部信息，确定待识别图像中包括目标的目标局部区域、以及目标局部区域中目标的类别。下面说明本发明实施例提供的图像识别的电子设备的示例性应用，本发明实施例提供的图像识别的电子设备可以是服务器，例如部署在云端的服务器，根据其他设备或者用户提供的待识别图像，对该待识别图像进行一系列处理，确定该待识别图像中包括目标对象(目标)的目标局部区域、以及目标局部区域中目标对象的类别，并向用户展示该目标局部区域、以及目标局部区域中目标对象的类别，例如，服务器根据其他设备获得待识别图像，通过图像识别模型对该待识别图像进行提取、分类、区域划分等处理，确定该待识别图像中包括目标对象的目标局部区域、以及目标局部区域中目标对象的类别；也可是笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，个人数字助理)等各种类型的用户终端，例如手持终端，根据用户在手持终端上输入的待识别图像，获得准确的包括目标对象的目标局部区域、以及目标局部区域中目标对象的类别，并显示在手持终端的显示界面上。

作为示例，参见图1，图1是本发明实施例提供的图像识别系统10的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

终端200可以被用来获取文本，例如，当用户通过输入界面输入待识别图像，输入完成后，终端自动获取用户输入的待识别图像。

在一些实施例中，终端200本地执行本发明实施例提供的图像识别方法来完成根据用户输入的待识别图像，得到待识别图像中包括目标对象的目标局部区域、以及目标局部区域中目标对象的类别，例如，在终端200上安装图像目标识别助手，用户在图像识别助手中，输入待识别图像，终端200根据输入的待识别，通过图像目标识别模型对该待识别图像进行提取、分类、区域划分等处理，得到待识别图像中准确的目标局部区域、以及目标局部区域中目标对象的类别，并将目标局部区域、以及目标局部区域中目标对象的类别显示在终端200的显示界面210上。

在一些实施例中，终端200也可以通过网络300向服务器100发送用户在终端100上输入的待识别图像，并调用服务器100提供的图像目标识别功能，服务器100通过本发明实施例提供的图像识别方法获得目标局部区域、以及目标局部区域中目标的类别，例如，在终端200上安装图像目标识别助手，用户在图像目标识别助手中，输入待识别图像，终端通过网络300向服务器100发送待识别图像，服务器100接收到该待识别图像后，通过图像识别模型对该待识别图像进行提取、分类、区域划分等处理，得到待识别图像中准确的目标局部区域、以及目标局部区域中目标对象的类别，并将目标局部区域、以及目标局部区域中目标对象的类别返回至图像目标识别助手，将目标局部区域、以及目标局部区域中目标的类别显示在终端200的显示界面210上，或者，服务器100直接给出目标局部区域、以及目标局部区域中目标的类别。

该图像识别系统10可以应用于行人识别中，即将识别出来的目标局部区域、以及目标局部区域中目标的类别应用于行人识别应用中，以便对目标局部区域进行进一步的行人识别，从而准确地确定出行人；该图像识别系统10还可以应用于车辆识别中，即将识别出来的目标局部区域、以及目标局部区域中目标的类别应用于行人识别应用中，以便对目标局部区域进行进一步的车辆识别，从而准确地确定出车辆。

继续说明本发明实施例提供的图像识别的电子设备的结构，图像识别的电子设备可以是各种终端，例如手机、电脑等，也可以是如图1示出的服务器100。

参见图2，图2是本发明实施例提供的图像识别的电子设备500的结构示意图，图2所示的图像识别的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。图像识别的电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

显示模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的图像识别装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的图像识别装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的图像识别方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Progra mmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在另一些实施例中，本发明实施例提供的图像识别装置可以采用软件方式实现，图2示出了存储在存储器550中的图像识别装置555，其可以是程序和插件等形式的软件，并包括一系列的模块，包括提取模块5551、第一分类模块5552、划分模块5553、第二分类模块5554、确定模块5555、以及训练模块5556；其中，提取模块5551、第一分类模块5552、划分模块5553、第二分类模块5554、确定模块5555用于实现本发明实施例提供的图像识别方法，训练模块5556用于实现本发明实施例对图像识别模型的训练过程，以便通过训练后的图像识别模型实现图像识别过程。

根据上文可以理解，本发明实施例提供的图像识别方法可以由各种类型的图像识别的电子设备实施，例如智能终端和服务器等。

下面结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的图像识别方法。参见图3A，图3A是本发明实施例提供的图像识别方法的流程示意图，结合图3A示出的步骤进行说明。

在步骤101中，对待识别图像进行全局信息提取处理，得到对应待识别图像的激活图。

用户可以在终端的输入界面上输入待识别图像，当输入完成后，终端可以将待识别图像转发至服务器，服务器接收到待识别图像后，可以提取待识别图像的全局信息，从而得到对应待识别图像的激活图，以便后续根据该激活图得到全局分类得分以及局部区域得分。

在一些实施例中，对待识别图像进行全局信息提取处理，得到对应待识别图像的激活图，包括：对待识别图像进行卷积处理，得到对应待识别图像的特征图；对特征图进行特征提取处理，得到待识别图像的特征；对特征进行非线性组合处理，得到对应待识别图像的激活图。

作为示例，服务器接收到待识别图像后，可以通过卷积神经网络对待识别图像进行空间维度转换，将待识别图像进行转换至适用于进行后续分类的激活图，例如，可以通过卷积神经网络的卷积层对待识别图像进行卷积处理，得到对应待识别图像的特征图，通过池化层对特征图进行特征提取处理，并去除冗余的特征，得到待识别图像的特征，通过全连接层对特征进行非线性组合处理，从而得到对应待识别图像的激活图。

在步骤102中，对激活图进行分类处理，得到待识别图像的全局分类信息。

在服务器得到激活图后，需要先对激活图进行全局的分类，从而得到待识别图像的全局分类信息(全局分类得分)，该全局分类得分是根据整个待识别图像的全局信息进行分类，得到的对应各类别的概率。该待识别图像的全局分类得分表示对待识别图像的粗略分类，起到引导的作用。

在一些实施例中，对激活图进行分类处理，得到待识别图像的全局分类信息，包括：对激活图进行池化处理，得到待识别图像的深度特征；对深度特征进行卷积线性映射处理，得到对应待识别图像的各类别特征；对各类别特征进行非线性映射处理，得到待识别图像的全局分类信息。

作为示例，在服务器得到激活图A后，其中A∈R^{h′×w′×d′}，h′表示激活图A的高、w′表示激活图A的宽、d′表示激活图A的深度，通过一个全局池化函数将激活图A编码到单一维度的深度特征向量f∈R^1×1×d′。为了得到该待识别图像对应的多类别标签的全局分类得分，通过1×1卷积层对向量f进行卷积线性映射处理，从而得到类别特征x，并通过激活函数(sigmoid函数)对各类别特征进行非线性映射处理，从而得到待识别图像的全局分类得分。

在步骤103中，根据激活图，对待识别图像进行区域划分处理，得到待识别图像中的多个局部区域，且多个局部区域中的部分局部区域包括目标对象。

在服务器得到激活图后，还可以根据激活图以及各类别标签，对待识别图像进行有目的的区域划分处理，从而得到待识别图像中可能包括有目标的局部区域，以便后续根据少量的局部区域，对待识别图像进行识别处理，从而减小计算量，例如待识别图像中有四个区域(区域1、区域2、区域3、区域4)，根据激活图，对待识别图像进行区域划分，确定区域1、区域2可能存在目标，从而得到待识别图像中的区域1、区域2。

参见图3B，图3B是本发明实施例提供的一个可选的流程示意图，在一些实施例中，图3B示出图3A中步骤103可以通过图3B示出的步骤1031-1013实现。在步骤1031中，对激活图进行分类处理，得到对应待识别图像的类特征图；在步骤1032中，对类特征图进行筛选处理，将筛选后的类特征图确定为对应待识别图像的候选类特征图；在步骤1033中，根据候选类特征图，对待识别图像进行定位处理，得到待识别图像中的多个局部区域。

在服务器获得激活图后，可以通过三个步骤，即可获得待识别图像中的局部区域，首先需要通过卷积层对激活图进行分类，从而得到对应各类别的类特征图，由于并不是所有的类特征图都有用，大部分的类特征图是多余的、没有意义的，因此，对类特征图进行筛选处理，将筛选留下的类特征图确定为有用的候选类特征图，从而减小类特征图的数量。最后，对根据候选类特征图，对待识别图像进行定位，从而得到待识别图像中可能存在目标的局部区域，该目标的类别可能是对应类特征图的类别。

在一些实施例中，对激活图进行分类处理，得到对应待识别图像的类特征图，包括：根据图像识别模型中的类别向量，对激活图进行卷积处理，得到卷积结果；将卷积结果与可学习参数的加和，确定为对应各类别的待识别图像的类特征图。

为了得到对应各类别的类特征图，需要通过图像识别模型对激活图进行卷积操作，即先对激活图进行卷积处理，得到卷积结果，并将卷积结果与可学习参数的加和确定为对应各类别的待识别图像的类特征图，即计算公式为F＝w*A+b，其中，A表示激活图，w表示类别向量，b表示可学习参数。

在一些实施例中，对类特征图进行筛选处理，将筛选后的类特征图确定为对应待识别图像的候选类特征图，包括：对全局分类得分中对应各类别的概率进行降序排序，将前N个概率对应的类别确定为候选类别，并将候选类别对应的类特征图，确定为对应待识别图像的候选类特征图；其中，N为大于零的自然数。

承接上述示例，在服务器得到类特征图后，可以先对全局分类得分中对应各类别的概率进行降序排序，由于只有待识别图像中可能只存在少量的类别，因此，将前N个概率对应的类别确定为候选类别，并将候选类别对应的类特征图确定为对应待识别图像的候选类特征图，从而得到少量对获取局部区域有用的类特征图。

在一些实施例中，对待识别图像进行定位处理，得到待识别图像中的多个局部区域，包括：对候选类特征图进行归一化处理，得到归一化的候选类特征图；将归一化的候选类特征图的尺寸扩展至待识别图像的尺寸，得到扩展后的候选类特征图；对扩展后的候选类特征图的概率分布进行映射处理，得到待识别图像中的多个局部区域。

承接上述示例，在服务器得到类特征图后，可以根据类特征图对待识别图像进行定位，从而得到可能存在目标的局部区域，首先可以对候选类特征图进行归一化处理，将候选类特征图中的所有元素都归一化到[0，1]区间，即得到归一化的候选类特征图，再将归一化的候选类特征图的尺寸扩展至待识别图像的尺寸，以便后续直接根据扩展后的候选类特征图的坐标直接确定待识别图像中局部区域的坐标。最后，对扩展后的候选类特征图的概率分布进行映射处理，直接得到待识别图像中潜在包括目标的多个局部区域。

在一些实施例中，对扩展后的候选类特征图的概率分布进行映射处理，得到待识别图像中的多个局部区域，包括：对扩展后的候选类特征图进行分解处理，得到候选类特征图的二维边际概率分布；对二维边际概率分布进行归一化处理，得到归一化后的二维边际概率分布；当归一化后的二维边际概率分布中的二维概率峰值大于或者等于概率阈值时，将二维边际概率分布中满足概率阈值条件的多个二维坐标约束的区域，确定为待识别图像中的局部区域。

由于扩展后的候选类特征图的概率分布包括x轴的边际概率分布和y轴的边际概率分布，因此，需要先对扩展后的候选类特征图进行行和列两个方向的分解处理，得到候选类特征图的x轴的边际概率分布和y轴的边际概率分布，并对x轴的边际概率分布和y轴的边际概率分布分别进行最大-最小归一化，将x轴的边际概率分布和y轴的边际概率分布中的概率归一化到[0，1]区间。当归一化后的x轴的边际概率分布和y轴的边际概率分布中的概率峰值大于或者等于概率阈值时，将x轴的边际概率分布和y轴的边际概率分布中满足概率阈值条件的多个x、y坐标约束的区域，确定为待识别图像中潜在包括目标的局部区域，例如归一化后的x轴的边际概率分布中峰值大于概率阈值0.5，则在该峰值对应的峰中x坐标[10，20]的概率大于概率阈值0.5，归一化后的y轴的边际概率分布中峰值大于概率阈值0.5，则在该峰值对应的峰中y坐标[20，30]的概率大于概率阈值0.5，则将待识别图像中x坐标[10，20]和y坐标[20，30]所包围的区域确定为潜在包括目标的局部区域。

在一些实施例中，当归一化后的二维边际概率分布中的二维概率峰值大于或者等于概率阈值时，将二维边际概率分布中满足概率阈值条件的多个二维坐标约束的区域，确定为待识别图像中的局部区域，包括：当归一化后的二维边际概率分布中的多个二维概率峰值大于或者等于概率阈值时，确定最大峰值对应的峰当中满足概率阈值条件的区间，并将区间对应的多个二维坐标所约束的区域、确定为待识别图像中的局部区域。

当需要识别出待识别图像中的某类别的一个目标时，而待识别图像中存在某类别的多个目标，即归一化后的x轴的边际概率分布和y轴的边际概率分布中多个概率峰值大于或者等于概率阈值时，确定多个概率峰值中的最大峰值，并确定最大峰值对应的峰当中满足概率阈值条件的区间，将该区间对应的多个二维坐标所约束的区域、确定为待识别图像中潜在包括目标的局部区域，例如归一化后的y轴的边际概率分布中最大峰值为0.9，该最大峰值对应的峰中x坐标[10，20]的概率大于概率阈值0.5，归一化后的y轴的边际概率分布中最大峰值为0.9，该最大峰值对应的峰中y坐标[20，30]的概率大于概率阈值0.5，则将待识别图像中x坐标[10，20]和y坐标[20，30]所包围的区域确定为潜在包括目标的局部区域。

在一些实施例中，当归一化后的二维边际概率分布中的二维概率峰值大于或者等于概率阈值时，将二维边际概率分布中满足概率阈值条件的多个二维坐标约束的区域，确定为待识别图像中的局部区域，包括：当归一化后的二维边际概率分布中的多个二维概率峰值大于或者等于概率阈值、且多个二维概率峰值相同时，确定多个二维概率峰值对应的峰当中满足概率阈值条件的区间，并将最大区间对应的多个二维坐标所约束的区域、确定为待识别图像中的局部区域。

当需要识别出待识别图像中的某类别的一个目标时，而待识别图像中存在某类别的多个目标，即归一化后的x轴的边际概率分布和y轴的边际概率分布中多个概率峰值大于或者等于概率阈值、且多个二维概率峰值相同时，确定多个二维概率峰值对应的峰当中满足概率阈值条件的区间，并将最大区间对应的多个二维坐标所约束的区域、确定为待识别图像中潜在包括目标的局部区域，例如归一化后的y轴的边际概率分布中两个最大峰值为0.9，该最大峰值对应的峰1中x坐标[10，20]的概率大于概率阈值0.5，该最大峰值对应的峰2中x坐标[10，30]的概率大于概率阈值0.5，归一化后的y轴的边际概率分布中最大峰值为0.9，该最大峰值对应的峰1中y坐标[20，30]的概率大于概率阈值0.5，归一化后的y轴的边际概率分布中最大峰值为0.9，该最大峰值对应的峰1中y坐标[20，40]的概率大于概率阈值0.5，由于x坐标[10，30]和y坐标[20，40]所包围的区域比x坐标[10，20]和y坐标[20，30]所包围的区域大，则将待识别图像中x坐标[10，30]和y坐标[20，40]所包围的区域确定为潜在包括目标的局部区域。

在步骤104中，对各局部区域进行分类处理，得到各局部区域的分类信息。

当服务器得到局部区域后，可以依据类似于全局分类的方式，再次对各局部区域进行分类处理，得到各局部区域的分类信息(分类得分)。该局部区域的分类得分相对于全局分类得到会更加精确，以便后续根据精确的局部区域的分类得分，识别出待识别图像中的目标。

在一些实施例中，对各局部区域进行分类处理，得到各局部区域的分类信息，包括：将各局部区域的尺寸扩展至待识别图像的尺寸，得到各扩展后的局部区域；对扩展后的局部区域进行池化处理，得到局部区域的深度特征；对深度特征进行卷积线性映射处理，得到对应局部区域的多类别特征；对多类别特征进行非线性映射处理，得到局部区域的分类信息。

示例性地，将各局部区域输入到共享的卷积神经网络中，先将各局部区域的尺寸扩展至待识别图像的尺寸，得到与待识别图像同尺寸的局部区域，即扩展后的局部区域，通过一个全局池化函数将扩展后的局部区域编码到单一维度的深度特征向量，再通过1×1卷积层对向量f进行卷积线性映射处理，从而得到类别特征，并通过激活函数(sigmoid函数)对各类别特征进行非线性映射处理，从而得到局部区域的分类得分。

在步骤105中，遍历多个局部区域中的每个局部区域，当局部区域的分类信息和全局分类信息满足候选类别的条件时，将局部区域确定为待识别图像中包括目标对象的目标局部区域，并将候选类别确定为目标局部区域中目标对象所属的类别。

在服务器得到全局分类得分、以及局部区域的分类得分后，可以融合全局分类得分、以及局部区域的分类得分，准确地得到局部区域中包括目标的目标局部区域、以及目标局部区域中目标的类别。

在一些实施例中，当局部区域的分类信息和全局分类信息满足候选类别的条件时，将局部区域确定为待识别图像中包括目标对象的目标局部区域，并将候选类别确定为目标局部区域中目标对象所属的类别，包括：对全局分类信息、以及局部区域的分类信息进行最大池化处理，得到局部区域的融合信息；对应局部区域遍历多个候选类别中的每个候选类别，以进行以下处理：当融合信息中对应候选类别的得分大于融合概率阈值、且局部区域分类信息中对应候选类别的得分大于局部概率阈值时，将局部区域分类信息对应的局部区域、确定为待识别图像中包括目标对象的目标局部区域；将遍历到的得分大于局部概率阈值的候选类别、确定为目标局部区域中目标对象所属的类别。

在服务器得到全局分类得分、以及局部区域的分类得分后，需要对全局分类得分、以及局部区域的分类得分进行最大池化处理，即选取全局分类得分、以及局部区域的分类得分的最大值，得到待识别图像的融合信息(融合得分)。对应每个局部区域遍历多个候选类别中的每个候选类别，以进行以下处理：当融合得分中对应候选类别的得分大于融合概率阈值(该融合概率阈值可以设置为0.1)、且局部区域分类得分中对应候选类别的得分大于局部概率阈值(该局部概率阈值乐意设置为0.5)时，将局部区域分类得分对应的局部区域、确定为待识别图像中包括目标的目标局部区域，并将遍历到的得分大于局部概率阈值的候选类别、确定为目标局部区域中目标的类别。

在一些实施例中，针对图像识别模型的训练进行说明，参见图3C，基于图3A，图3C是本发明实施例提供的图像识别方法的流程示意图，在步骤106中，通过图像识别模型对图像样本进行全局信息提取处理，得到对应图像样本的激活图；对激活图进行分类处理，得到图像样本的全局分类信息；根据激活图，对图像样本进行区域划分处理，得到图像样本中的多个局部区域；对各局部区域进行分类处理，得到各局部区域的分类信息；基于图像样本的全局分类信息、局部区域的分类信息、以及图像样本的标签，构建图像识别模型的损失函数；更新图像识别模型的参数直至损失函数收敛。

在一些实施例中，基于图像样本的全局分类信息、局部区域的分类信息、以及图像样本的标签，构建图像识别模型的损失函数，包括：基于图像样本的全局分类信息、以及图像样本的标签，构建全局损失函数；基于局部区域的分类信息、以及图像样本的标签，构建局部损失函数；将全局损失函数与局部损失函数的加和，确定为图像识别模型的损失函数。

通过交叉熵损失方法，建立全局损失函数和局部损失函数，并基于全局损失函数和局部损失函数构建图像识别模型的损失函数。

其中，步骤106与步骤101至步骤105并无明显的先后顺序。当服务器基于图像样本的全局分类得分、局部区域的分类得分，确定图像识别模型的损失函数的值后，可以判断损失函数的值是否超出预设阈值，当损失函数的值超出预设阈值时，基于损失函数确定图像识别模型的误差信号，将误差信息在图像识别模型中反向传播，并在传播的过程中更新各个层的模型参数。

这里，对反向传播进行说明，将训练样本数据输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值；不断迭代上述过程，直至收敛，其中，图像识别模型属于神经网络模型。

至此已经结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的图像识别方法，下面继续说明本发明实施例提供的图像识别装置555中各个模块配合实现图像识别的方案。

提取模块5551，用于对待识别图像进行全局信息提取处理，得到对应所述待识别图像的激活图；第一分类模块5552，用于对所述激活图进行分类处理，得到所述待识别图像的全局分类信息；划分模块5553，用于根据所述激活图，对所述待识别图像进行区域划分处理，得到所述待识别图像中的多个局部区域，且所述多个局部区域中的部分局部区域包括目标对象；第二分类模块5554，用于对各所述局部区域进行分类处理，得到各所述局部区域的分类信息；确定模块5555，用于遍历所述多个局部区域中的每个局部区域，以进行以下处理：当所述局部区域的分类信息和所述全局分类信息满足候选类别的条件时，将所述局部区域确定为所述待识别图像中包括所述目标对象的目标局部区域，并将所述候选类别确定为所述目标局部区域中所述目标对象所属的类别。

在一些实施例中，所述提取模块5551还用于对所述待识别图像进行卷积处理，得到对应所述待识别图像的特征图；对所述特征图进行特征提取处理，得到所述待识别图像的特征；对所述特征进行非线性组合处理，得到对应所述待识别图像的激活图。

在一些实施例中，所述第一分类模块5552还用于对所述激活图进行池化处理，得到所述待识别图像的深度特征；对所述深度特征进行卷积线性映射处理，得到对应所述待识别图像的各类别特征；对所述各类别特征进行非线性映射处理，得到所述待识别图像的全局分类信息。

在一些实施例中，所述划分模块5553还用于对所述激活图进行分类处理，得到对应所述待识别图像的类特征图；对所述类特征图进行筛选处理，将筛选后的类特征图确定为对应所述待识别图像的候选类特征图；根据所述候选类特征图，对所述待识别图像进行定位处理，得到所述待识别图像中的多个局部区域。

在一些实施例中，所述划分模块5553还用于根据图像识别模型中的类别向量，对所述激活图进行卷积处理，得到卷积结果；将所述卷积结果与可学习参数的加和，确定为对应各类别的所述待识别图像的类特征图。

上述技术方案中，所述划分模块5553还用于对所述全局分类信息中对应各类别的概率进行降序排序，将前N个概率对应的类别确定为候选类别，并将所述候选类别对应的类特征图，确定为对应所述待识别图像的候选类特征图；其中，N为大于零的自然数。

在一些实施例中，所述划分模块5553还用于对所述候选类特征图进行归一化处理，得到归一化的候选类特征图；将所述归一化的候选类特征图的尺寸扩展至所述待识别图像的尺寸，得到扩展后的候选类特征图；对所述扩展后的候选类特征图的概率分布进行映射处理，得到所述待识别图像中的多个局部区域。

在一些实施例中，所述划分模块5553还用于对所述扩展后的候选类特征图进行分解处理，得到所述候选类特征图的二维边际概率分布；对所述二维边际概率分布进行归一化处理，得到归一化后的二维边际概率分布；当所述归一化后的二维边际概率分布中的二维概率峰值大于或者等于概率阈值时，将所述二维边际概率分布中满足概率阈值条件的多个二维坐标约束的区域，确定为所述待识别图像中的局部区域。

在一些实施例中，所述划分模块5553还用于当所述归一化后的二维边际概率分布中的多个二维概率峰值大于或者等于概率阈值时，确定最大峰值对应的峰当中满足概率阈值条件的区间，并将所述区间对应的多个二维坐标所约束的区域、确定为所述待识别图像中潜在包括目标的局部区域；或者，当所述归一化后的二维边际概率分布中的多个二维概率峰值大于或者等于概率阈值、且所述多个二维概率峰值相同时，确定所述多个二维概率峰值对应的峰当中满足概率阈值条件的区间，并将最大区间对应的多个二维坐标所约束的区域、确定为所述待识别图像中的局部区域。

在一些实施例中，所述第二分类模块5554还用于将各所述局部区域的尺寸扩展至所述待识别图像的尺寸，得到各扩展后的局部区域；对所述扩展后的局部区域进行池化处理，得到所述局部区域的深度特征；对所述深度特征进行卷积线性映射处理，得到对应所述局部区域的多类别特征；对所述多类别特征进行非线性映射处理，得到所述局部区域的分类信息。

在一些实施例中，所述确定模块5555还用于对所述全局分类信息、以及所述局部区域的分类信息进行最大池化处理，得到所述局部区域的融合信息；对应所述局部区域遍历多个候选类别中的每个候选类别，以进行以下处理：当所述融合信息中对应所述候选类别的得分大于融合概率阈值、且所述局部区域分类信息中对应所述候选类别的得分大于局部概率阈值时，将所述局部区域分类信息对应的局部区域、确定为所述待识别图像中包括目标对象的目标局部区域；将遍历到的得分大于局部概率阈值的候选类别、确定为所述目标局部区域中所述目标对象所属的类别。

在一些实施例中，所述图像识别装置555还包括：训练模块5556，用于通过图像识别模型对图像样本进行全局信息提取处理，得到对应所述图像样本的激活图；对所述激活图进行分类处理，得到所述图像样本的全局分类信息；根据所述激活图，对所述图像样本进行区域划分处理，得到所述图像样本中的多个局部区域；对各所述局部区域进行分类处理，得到各所述局部区域的分类信息；基于所述图像样本的全局分类信息、所述局部区域的分类信息、以及所述图像样本的标签，构建所述图像识别模型的损失函数；更新所述图像识别模型的参数直至所述损失函数收敛。

在一些实施例中，所述训练模块5556还用于基于所述图像样本的全局分类信息、以及所述图像样本的标签，构建全局损失函数；基于所述局部区域的分类信息、以及所述图像样本的标签，构建局部损失函数；将所述全局损失函数与所述局部损失函数的加和，确定为所述图像识别模型的损失函数。

这里需要指出的是：以上涉及装置的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述，对于本发明实施例所述装置中未披露的技术细节，请参照本发明方法实施例的描述。

本发明实施例还提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的图像识别方法，例如，如图3A-3C示出的图像识别方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

本发明实施例可以应用于多目标识别中，例如相册识别、即对相册中的每一个照片进行识别，如图1所示，终端200通过网络300连接部署在云端的服务器100，在终端上安装相册应用，相册应用会自动将相册通过网络300同步到服务器100，服务器100执行本发明实施例提供的图像识别方法，对该相册中的每一个照片进行识别(提取、分类、区域划分等处理)，识别出每一个照片的目标局部区域、以及目标局部区域中目标的类别，并将每一个照片的目标局部区域、以及目标局部区域中目标的类别反馈至终端200的相册应用。相册应用根据每一个照片中的目标局部区域中目标的类别，对相册中的照片归类，例如，将相册中有人物的照片集合归为一类，并在相册应用中为“人物”类别的照片集合建立新的文件夹(“人物”文件夹)。当用户打开相册应用后，原本会看到杂乱无章的照片被自动归类，以便用户可以根据归类后的照片快速查找用户所需要的照片。

另外，该相册应用还支持用户对归类的相册进行进一步调整，例如，当用户想要对“人物”类别的照片集合作进一步的细分，用户可以在“人物”文件夹下再次建立新的子文件夹，例如“本人”文件夹，则相册应用根据“人物”文件夹中每一个照片中的目标局部区域中目标的类别，对“人物”文件夹中的照片归类，将“人物”文件夹中有本人的照片都归类到“本人”文件夹，从而对归类的相册作进一步细分。并且，相册应用还支持用户对归类的相册进行不同类别之间的相片迁移，例如，将“人物”类别的照片迁移至“风景”类别的照片。

对照片进行识别涉及多标签图像识别技术、即识别图像中的多个标签，多标签图像识别(图像识别)是一项实际且具有挑战性的计算机视觉任务。相关技术中，基于多候选区域方法使用BING(一种目标区域提取的算法)或EdgeBoxes等一些目标候选区域生成的方法，对每幅图像生成数千个候选区域，为了减少重复和冗余的候选区域，根据这些候选区域的空间位置进行聚类，从而选择出数百个代表性的候选区域，并将所有选择出的候选区域的预测得分汇总，以获得最终的预测。该基于多候选区域方法尽管可以有效提升识别的性能，但大量的候选区域带来巨大的计算成本；基于注意力方法通过在模型中引入循环强化学习或空间转换模块来定位主要目标的区域，根据这些区域的特征来预测整张图像的类别分布，该基于注意力方法虽然可以用很少的区域就可以达到较好的分类性能，但是区域定位模块引入了非常复杂的计算模块，而且需要额外的参数，可解释性差；基于标签依赖方法直接使用图卷积神经网络对所有标签之间的标签依赖性进行建模，来改善多标签的图像识别性能。

因此，相关技术使用大量的候选区域或者复杂的注意力区域生成模块存在高昂的计算代价，或者严重依赖于标签关系的信息。为了解决上述问题，本发明实施例提出了一种简单而有效的双流卷积神经网络框架(图像识别方法)，以人类感知的方式从全局图像到局部区域，识别待识别图像中的多类别目标。为实现从全局到局部的信息流通，本发明实施例提出了一个多类注意力区域模块(图像识别模型)，该多类注意力区域模块可以使注意力区域的数量尽可能少，并保持这些注意力区域的多样性尽可能高，该图像识别方法能够以可承受的计算成本和无参区域定位模块高效地识别图像中的多类目标。

为了充分地利用图像的语义信息，本发明实施例学习人类识别图像中的多个目标的机制。人们可能首先看一眼给定的待识别图像，以便在全局范围内发现一些可能的目标区域。然后，这些可能的目标区域将指引眼睛的移动，使得眼睛按照一个区域接一个区域的方式做出类别判定。换句话说，人类不能只看一眼就识别出多种目标，而是从全局视角到局部区域两步来完成多个目标的识别。因此，可以让机器学习人类识别目标的学习能力，以从全局视角到局部区域的方式做出多类别目标的识别。

为了实现相册识别，终端200上安装的相册应用会预先自动将相册通过网络300同步到服务器100，服务器100执行本发明实施例提供的图像识别方法，可以先通过本发明实施例中的图像识别方法对相册中的每一个照片进行识别，识别出每个照片中的目标后，再针对每个照片中的目标进行分类，从而实现相册分类，并建立对应类别的照片集合，以便后续用户根据对应的照片集合快速查看照片。本发明实施例中图像识别方法主要是由两部分组成：1)双流卷积神经网络；2)全局到局部区域，如图4所示，图4是本发明实施例提供的图像识别方法的流程示意图。下面将具体说明本发明实施例的方案：

1)双流卷积神经网络

双流卷积神经网络包括全局图像流和局部区域流。首先依次将相册中的一个照片(待识别图像)输入到深度CNN模型，通过全局图像流(整个待识别图像)提取其全局特征表示。然后，通过集成来自全局流的信息，定位类别的局部区域。最后，将这些局部区域并行馈送到共享的CNN，通过局部区域流获得其预测的类别分布。在预测阶段，使用类别导向的最大池化聚合来自全局和局部流的预测，并生成最终预测分布。

全局图像流：给定输入图像I(相册中的一个照片、即待识别图像)，输入一个CNN网络，提取与类别无关的激活图A＝CNN(I；θ)，其中θ表示该CNN网络的参数，通过该CNN网络对待识别图像I进行卷积、池化、激活等处理，得到激活图A，其中A∈R^{h′×w′×d′}，h′表示激活图A的高、w′表示激活图A的宽、d′表示激活图A的深度；然后通过一个全局池化函数将激活图A编码到单一维度的向量f∈R^1×1×d′(深度特征)；为了得到该图像对应的多类别标签的预测得分，通过1×1卷积层将向量f线性转换到x(对应输入图像I的类别特征)，其计算公式如公式(1)所示：

x＝w*f+b (1)

其中，w、b表示可学习参数。

然后对x使用激活函数(sigmoid函数)，获得输入图像I的全局流的预测得分(全局分类得分)，归一化x到区间[0，1]，其计算公式如公式(2)所示：

其中，表示全局流的预测得分分布(全局分类得分)，例如/>中属于人的概率为0.2，属于山的概率为0.3等。

局部区域流：假设输入图像I的N个局部区域表示为{L₁,L₂,...,L_N}，缩放这些局部区域到全局输入尺寸，然后并行输送缩放后的局部区域到共享的CNN网络，进行类似全局图像流的计算方式，得到N个局部区域的预测得分(局部区域的分类得分)，最终这些局部区域的预测得分通过一个类别导向的最大池化操作得到局部区域流得分分布，其计算公式如公式(3)所示：

其中，为局部区域流预测得分分布/>的第i个类别的得分，例如/>为局部区域流预测得分分布/>中属于人的概率为0.5，属于植物的概率为0.3等。

值得注意的是，全局流和局部流共享同一CNN网络，而无需引入其它额外的参数。在训练阶段，这两个流使用二分类的交叉熵损失函数共同训练；在预测阶段，使用类别导向的最大池化操作对全局流预测得分分布和局部流预测得分分布/>融合，并作为图像I最终的预测分布。/>

2)全局到局部区域

潜在目标的候选区域必须以一种有效的方式生成。期望候选的局部区域应满足一些基本原则：第一，候选的局部区域的多样性应尽可能高，以使可以覆盖给定输入图像的所有可能的目标；第二，候选的局部区域的数量应尽可能少，以提高计算的效率，由于更多的候选区域需要更多的计算资源，这些区域需要同时馈送给共享的CNN；第三，生成候选的局部区域的结构应具有简单的网络架构和少量参数，以减轻计算成本和存储开销。

生成局部区域包括三个部分：A)生成类特征图、B)类特征图的选择、C)局部区域的定位。下面具体说明生成局部区域的过程：

A)生成类特征图

类激活映射方法直观地显示了判别性的图像注意力区域，即生成类特征图，帮助人们理解CNN如何识别特定的目标类别，对输入图像生成类激活的热力图，表示每个位置对该类别的重要程度，有助于了解图像的哪个部分可以使得卷积神经网络做出最终的决策，还可以定位图像中特定的目标。为了获得类特征图，直接将1×1卷积层应用于与类无关的激活图A，从而得到类特征图，其计算公式如公式(4)所示：

F＝w*A+b (4)

其中，F∈R^{h′×w′×C}，C表示类别的总数量，第i类别的类特征图表示为Fⁱ∈R^h′×w′，Fⁱ直接表示了在图像空间上图像分类为i类的重要程度。

在所有可能的类特征图中，对应的注意力区域区是显著不同的。如果使用类特征图Fⁱ来定位潜在的局部区域，那么很容易满足第一个原则：候选的局部区域的多样性。

B)类特征图的选择

类特征图的数量等于与数据集关联的所有类别的数量。例如，常见的多标签数据分类数据集，PASCAL VOC和MS-COCO分别有20和80个类别。如果使用所有类特征图，则会导致两个问题：第一，生成的区域数量太多无法确保效率；第二，由于图像中通常仅包括几个目标，因此大多数局部区域是多余的或无意义的。

由于采用全监督的分类学习范式，随着网络的学习预测的分布将接近于真实分布。因此高类别置信度意味着相应的目标将会以较高的概率呈现在对应的图像上。本发明实施例对预测分数(其维度等于类别的数量)进行降序排序，然后选择前N个类注意力特征图(类特征图)。当N是一个很小的数字，例如2或4，其远远小于所有类别的数目，就可以取得令人满意的性能。另外，考虑到局部流也受到真实标签分布的监督，因此当选择类注意特征区域无法完全覆盖图像中呈现的所有目标类别时，则可以强制网络隐式学习标签相关性。

C)局部区域的定位

本发明实施例将选择出的前N个类注意力特征图(类特征图)表示为利用sigmoid激活函数将每个Fⁱ中的所有元素都归一化到[0，1]区间。此外，为了对齐在Fⁱ与输入图像I之间的空间语义信息，对Fⁱ进行双线性插值上采样，将Fⁱ扩展到图像I的尺寸，其中，Fⁱ(x,y)表示在图像I在空间位置(x,y)上属于第i类的概率，例如Fⁱ(x,y)为图像I在空间位置(x,y)上属于人的概率为0.8。

为了有效地定位目标的区域，将每个类注意力特征图Fⁱ分解为行和列的两个边际分布，其几何意义表示相应坐标轴中目标呈现的概率分布，如图5所示，图5是本发明实施例提供的边际分布定位局部区域的示意图，图5中两个曲线图表示候选的局部区域的两个边际分布，满足约束条件的坐标所约束的区域为局部区域。基于类注意力特征图Fⁱ分别计算在水平轴(x轴)和竖直轴(y轴)的边际分布(二维边际概率分布)，其计算公式如公式(5)、(6)所示：

p′_x＝max_1≤y≤hFⁱ(x,y) (5)

p′_y＝max_1≤x≤wFⁱ(x,y) (6)

其中，p′_x表示x轴的边际分布，p′_y表示y轴的边际分布，h表示图像I的高，w表示图像I的宽。

然后，对p′_x和p′_y实施最小-最大归一化，使其对应的分布在[0，1]区间，即计算公式如公式(7)、(8)所示：

其中，p_x表示归一化后的x轴的边际分布，p_y表示归一化后的y轴的边际分布。

为确定一个判别性的类别的局部区域位置，需要满足以下约束条件，其约束条件的公式如公式(9)、(10)所示：

p_x≥τ,s.t.x＝{1,2,...,w} (9)

p_y≥τ,s.t.y＝{1,2,...,h} (10)

其中，τ∈(0,1)是一个恒定的概率阈值，本发明实施例τ可以取0.5。以上不等式的解可能是一个区间或多个区间的并集，每个区间分别对应于目标的局部区域的空间位置。

事实上，当输入图像I仅包含一个局部区域时，p_x和p_y可能仅有一个峰，如图6所示，图6是本发明实施例提供的单峰示意图，而当输入图像I包含同一类别的多个目标出现在不同空间位置时，p_x和p_y可能有多个峰值，如图7A-7B所示，图7A-7B是本发明实施例提供的多峰示意图。为了识别给定图像中的多个目标的类别，因此一个类别只需要选择一个局部区域即可。为了当有多个可行解出现时，能够获得唯一的解，必须添加一些约束条件。为了实现这个目标，可以给出以下两个约束：

(1)当边际分布中出现多个局部最大峰时，选择全局最大峰中包含的区间作为最终解，如图7A所示；

(2)当出现多个相同的最大峰时，选择区间最宽的最大峰所对应区间做为最终唯一解，如图7B所示。

对于所有选定的前N个类注意力特征图，通过求解以上述约束条件的不等式可以生成N个局部区域，并将该N个局部区域并行馈送到共享的CNN(与输入图像I的全局流共享)，通过局部区域流获得其预测的类别分布，并使用类别导向的最大池化聚合来自全局和局部流的预测，并生成最终预测分布，根据最终预测分布得到输入图像I的多目标识别结果，例如图像I在空间位置(x₁,y₁)上有属于人的目标，在空间位置(x₂,y₂)上有属于植物的目标。

如图8所示，图8是本发明实施例提供的图像目标识别方法的流程示意图，在步骤201中，对输入待识别图像(相册中的照片)进行全局化的信息处理，得到对应待识别图像的激活图；在步骤202-203中，对激活图进行全局池化处理获得全局特征表示，并用含参的线性层转换该全局特征表示，得到待识别图像的全局分类得分；在步骤205-206中，使用含参的线性转换层作用于激活图，生成具有类别信息的特征图，并对带有类别信息的特征图使用全局得分排序，选择出图像所包含的主要类别特征图，再利用选择出的类特征图的空间分布定位潜在的目标位置，得到待识别图像中潜在多个目标的局部区域；在步骤207中，对各局部区域进行分类处理，得到各局部区域的分类得分；在步骤208中，综合全局分类得分、以及局部区域的分类得分，确定多个局部区域中包括目标的目标局部区域、以及目标局部区域中目标的类别。

对于模型的训练，使用二分类的交叉熵损失函数对两个流(全局流和局部流)共同训练，得到训练后的多类注意力区域模块(图像识别模型)。

给定一个训练数据集其中I_i是第i个图像样本，/>代表相应的类别标签。通过以端到端的方式共同学习全局流和局部流来训练图像识别模型参数(包括θ、w和b)。因此，图像识别模型的损失函数被模拟为两个流的加权和，其计算公式如公式(11)所示：

L＝L_g+L_l (11)

其中，L_g表示全局损失函数，L_l表示局部损失函数。其中，对全局流和局部流可以采用二元交叉熵损失，从而得到全局损失函数L_g和局部损失函数L_l，其计算公式如公式(12)、(13)所示：

其中，表示是来自全局流的第i个图像样本的第j类别的预测得分，/>表示是来自局部流的第i图像样本的第j类别的预测得分。

最后，可以使用随机梯度下降(SGD，Stochastic Gradient Descent)和标准反向传播进行训练。

本发明实施例通过三个基准多标签数据集(PASCAL VOC 2007、PASCAL VOC 2012和MS-COCO)进行实验，以验证图像识别模型的有效性。

本发明实施例使用功能强大的ResNet-101模型，将本发明实施例所提出的图像识别方法与现有的方法进行比较。一些轻量级模型，如MobileNet-v2和ResNet-50也可用于进一步评估本发明实施例的所提出的图像识别方法。对于每一个网络，在最终输出之前移除全连接层，并用全局池化、1×1卷积层和sigmoid层替换全连接层。

在训练期间，所有输入图像都被调整到固定大小(即256×256或448×448)，具有随机水平翻转和颜色抖动，用于数据增强。

本发明实施例主要采用两个度量标准，即每个类别的平均精度和所有类别的平均精度。使用AP和mAP来评估所有的方法，还可以采用精确度、召回率和F1-测量比较各模型的性能。其中，总精度(OP)、召回率(OR)、F1-测量值(OF1)和每个类别的精度(CP)、召回率(CR)、F1-测量值(CF1)计算公式如公式(14)、(15)、(16)、(17)、(18)、(19):

其中，表示正确预测第i类别的图像数，/>表示的预测第i类别的图像数，/>表示第i类别的真实图像数。

本发明实施例通过在数据集PASCAL VOC 2007和PASCAL VOC 2012进行实验，将本发明实施例所提出的图像识别方法与现有的方法进行比较，并确定本发明实施例所提出的图像识别方法相对于现有的方法，在总精度(OP)、召回率(OR)、F1-测量值(OF1)和每个类别的精度(CP)、召回率(CR)、F1-测量值(CF1)都有明显的优势。

本发明实施例通过在数据集MS-COCO进行实验，将本发明实施例所提出的图像识别模型与现有的基线模型(ResNet-101)进行比较，如图9所示，图9是本发明实施例提供的效果对比示意图，根据图9可知，本发明实施例所提出的图像识别模型的AP相对于标准的ResNet-101的AP更高。

本发明实施例从两个方面进行消融研究：对局部区域的数目(N的数量)和概率阈值(τ的取值)。关于N的影响，将τ固定为0.5，并从给定集合{0，1，2，4，6，8}中选择N的值，其中，N＝0表示只使用全局流来训练模型(例如基于MobileNetv2的图像识别(MobileNetv2-MCAR)和基于ResNet50的图像识别(ResNet50-MCAR))，如图10A所示，图10A是本发明实施例提供的MobileNetv2-MCAR关于N的消融研究示意图，如图10B所示，图10B是本发明实施例提供的ResNet50-MCAR关于N的消融研究示意图，由图10A-10B可知，只需要少量的局部区域即可取得满意的性能；关于τ的影响，当τ过低或过高时，性能会下降，如果τ太低，局部区域包含更多的上下文信息，因为所有局部区域都接近原始输入图像，因此缺乏辨别特征，当τ太高时，导致局部区域可能只包含对象的辨别部分，并且容易发生过拟合。如图11A所示，图11A是本发明实施例提供的MobileNetv2-MCAR关于τ的消融研究示意图，如图11B所示，图11B是本发明实施例提供的ResNet50-MCAR关于τ的消融研究示意图，由图11A-11B可知，当τ值在[0.5，0.7]时，可取得满意的性能。

本发明实施例提出了一种双流卷积神经网络的图像识别框架，该框架以全局到局部的方式有效地识别图像中多类别的目标。通过一个简单而有效的多类注意力区域模块，该模块包括三个部分：类特征图生成，类特征图的选择和局部区域的定位。该模块不依赖复杂的强化学习或长短时记忆网络，随着网络的学习，可以动态生成少量的候选区域，同时保持尽可能高的多样性。仅使用单个模型就可以在三个基准数据(PASCAL VOC 2007，PASCALVOC 2012和MS-COCO)上获得很好的结果。本发明实施例可以以可承受的计算成本，不需要额外的参数，在多类别标签图像识别任务上具有很强大的优势。如图12所示，图12本发明实施例提供的图像识别的结果示意图，对于尺度较小的和遮挡的目标，若仅仅使用全局流很难准确预测，通过本发明实施例融合全局流和局部流能够有效识别尺度较小的和遮挡的目标，图12中的每个区域框包括一个预测的类别标签(c)，全局流得分和双流融合得分只有当区域框满足显示条件为/>才可以在对应的图像上显示区域框，根据图12可以看出本发明实施例可以识别各种尺度的目标，尤其对小型或遮挡的目标，例如图12中第1行第2列中的汽车、第1行第4列中的猫、第2行第1列中的狗、第2行第5列中的盆栽、第3行第2列中的椅子、第3行第3列中的人等。

当服务器识别出相册中所有照片中的多目标后，将每一个照片的目标局部区域、以及目标局部区域中目标的类别反馈至终端200的相册应用。相册应用根据每一个照片中的目标局部区域中目标的类别，对相册中的照片归类，从而实现相册分类，并建立对应类别的照片集合，如图12所示，例如为图12中第1行第3列、第1行第6列、第2行第2-6列、第3行第1-6列的照片在相册应用中新建一个“人物”的文件夹，为图12中第1行第1-4列、第2行第1列、第3行第1列、第3行第3列、第3行第6列的照片在相册应用中新建一个“动物”的文件夹，当在相册应用中建立各文件夹后，用户后续可以根据各文件夹快速查看想要的照片。当用户打开相册应用后，原本会看到杂乱无章的照片被自动归类。

综上，为了减轻大量候选区域并行前向计算带来的巨大计算量，本发明实施例可以尽可能地减小候选区域的数量；本发明实施例提出一种简单有效的局部区域定位方法，增强图像识别模型的可解释性，能有效减轻计算代价，提升多目标识别中因为目标尺度过小、遮挡等引起的识别不准的问题。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

根据所述激活图，对所述待识别图像进行区域划分，得到所述待识别图像中的多个局部区域，且所述多个局部区域中的部分局部区域包括目标对象；

将所述候选类别确定为所述目标局部区域中所述目标对象所属的类别；

其中，所述当所述局部区域的分类信息和所述全局分类信息满足候选类别的条件时，将所述局部区域确定为所述待识别图像中包括所述目标对象的目标局部区域，包括：对所述全局分类信息、以及所述局部区域的分类信息进行最大池化处理，得到所述局部区域的融合信息；对应所述局部区域遍历多个候选类别中的每个候选类别，以进行以下处理：当所述融合信息中对应所述候选类别的得分大于融合概率阈值、且所述局部区域分类信息中对应所述候选类别的得分大于局部概率阈值时，将所述局部区域分类信息对应的局部区域、确定为所述待识别图像中包括目标对象的目标局部区域。

2.根据权利要求1所述的方法，其特征在于，所述对待识别图像进行全局信息提取处理，得到对应所述待识别图像的激活图，包括：

对所述待识别图像进行卷积处理，得到对应所述待识别图像的特征图；

3.根据权利要求1所述的方法，其特征在于，所述对所述激活图进行分类处理，得到所述待识别图像的全局分类信息，包括：

对所述激活图进行池化处理，得到所述待识别图像的深度特征；

4.根据权利要求1所述的方法，其特征在于，所述根据所述激活图，对所述待识别图像进行区域划分处理，得到所述待识别图像中的多个局部区域，包括：

对所述激活图进行分类处理，得到对应所述待识别图像的类特征图；

5.根据权利要求4所述的方法，其特征在于，所述对所述激活图进行分类处理，得到对应所述待识别图像的类特征图，包括：

根据图像识别模型中的类别向量，对所述激活图进行卷积处理，得到卷积结果；

6.根据权利要求4所述的方法，其特征在于，所述对所述类特征图进行筛选处理，将筛选后的类特征图确定为对应所述待识别图像的候选类特征图，包括：

对全局分类得分中对应各类别的概率进行降序排序，将前N个概率对应的类别确定为候选类别，并

其中，N为大于零的自然数。

7.根据权利要求4所述的方法，其特征在于，所述对所述待识别图像进行定位处理，得到所述待识别图像中的多个局部区域，包括：

对所述候选类特征图进行归一化处理，得到归一化的候选类特征图；

8.根据权利要求7所述的方法，其特征在于，所述对所述扩展后的候选类特征图的概率分布进行映射处理，得到所述待识别图像中的多个局部区域，包括：

对所述扩展后的候选类特征图进行分解处理，得到所述候选类特征图的二维边际概率分布；

9.根据权利要求8所述的方法，其特征在于，所述当所述归一化后的二维边际概率分布中的二维概率峰值大于或者等于概率阈值时，将所述二维边际概率分布中满足概率阈值条件的多个二维坐标约束的区域，确定为所述待识别图像中的局部区域，包括：

当所述归一化后的二维边际概率分布中的多个二维概率峰值大于或者等于概率阈值时，确定最大峰值对应的峰当中满足概率阈值条件的区间，并将所述区间对应的多个二维坐标所约束的区域、确定为所述待识别图像中的局部区域；或者，

10.根据权利要求1所述的方法，其特征在于，所述对各所述局部区域进行分类处理，得到各所述局部区域的分类信息，包括：

将各所述局部区域的尺寸扩展至所述待识别图像的尺寸，得到各扩展后的局部区域；

11.根据权利要求1所述的方法，其特征在于，所述将所述候选类别确定为所述目标局部区域中所述目标对象所属的类别，包括：

12.根据权利要求1-11任一项所述的方法，其特征在于，所述方法还包括：

通过图像识别模型对图像样本进行全局信息提取处理，得到对应所述图像样本的激活图；

更新所述图像识别模型的参数直至所述损失函数收敛。

13.根据权利要求12所述的方法，其特征在于，所述基于所述图像样本的全局分类信息、所述局部区域的分类信息、以及所述图像样本的标签，构建所述图像识别模型的损失函数，包括：

基于所述图像样本的全局分类信息、以及所述图像样本的标签，构建全局损失函数；

14.一种图像识别装置，其特征在于，所述装置包括：

确定模块，用于遍历所述多个局部区域中的每个局部区域，以进行以下处理：当所述局部区域的分类信息和所述全局分类信息满足候选类别的条件时，将所述局部区域确定为所述待识别图像中包括所述目标对象的目标局部区域，并将所述候选类别确定为所述目标局部区域中所述目标对象所属的类别；

所述确定模块，还用于对所述全局分类信息、以及所述局部区域的分类信息进行最大池化处理，得到所述局部区域的融合信息；对应所述局部区域遍历多个候选类别中的每个候选类别，以进行以下处理：当所述融合信息中对应所述候选类别的得分大于融合概率阈值、且所述局部区域分类信息中对应所述候选类别的得分大于局部概率阈值时，将所述局部区域分类信息对应的局部区域、确定为所述待识别图像中包括目标对象的目标局部区域。

15.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至13任一项所述的图像识别方法。

16.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至13任一项所述的图像识别方法。