CN109271878B

CN109271878B - 图像识别方法、图像识别装置和电子设备

Info

Publication number: CN109271878B
Application number: CN201810973554.8A
Authority: CN
Inventors: 汪成; 张骞; 黄畅
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2020-04-21
Anticipated expiration: 2038-08-24
Also published as: CN109271878A

Abstract

公开了一种图像识别方法、图像识别装置和电子设备。该方法包括：通过第一卷积神经网络从输入图像获得第一特征图；通过第一注意力模块获得与所述第一特征图相同形状的第一掩码，所述第一掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；将所述第一特征图与所述第一掩码进行向量相乘后的第一向量乘积进行池化以获得第一特征向量；以及，通过第一全连接层基于所述第一特征向量进行分类以识别所述输入图像。这样，可以使得神经网络能够获得所述待识别对象在输入图像中的准确位置，从而提高图像识别率。

Description

图像识别方法、图像识别装置和电子设备

技术领域

本申请涉及图像识别领域，且更具体地，涉及一种图像识别方法、图像识别装置和电子设备。

背景技术

图像识别是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术。

随着人工智能技术的快速发展，图像识别成为人工智能技术的一个重要领域。例如，行人再识别(Person re-identification)指的是从来源于非交叠的多个摄像机视场的行人图像库或视频流中识别出目标行人。这里，不同于单摄像头下普通的行人跟踪，行人再识别可以在不同的背景环境以及多摄像头设置下实现对特定行人的长期跟踪与监视，因此其在监控领域有着非常大的应用前景。目前该技术广泛应用于智能视频监控、智能安保等领域。

通常，在通过人工智能技术进行图像识别时，通过例如神经网络从输入图像提取特征以进行图像识别，但是，由于待识别对象在输入图像中的位置并不一定在图像中央，可能对图像识别造成困难。

因此，期望提供改进的图像识别方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种图像识别方法、图像识别装置和电子设备，其通过注意力模块加强待识别对象的区域的响应，以使得神经网络能够获得所述待识别对象在输入图像中的准确位置，从而提高图像识别率。

根据本申请的一个方面，提供了一种图像识别方法，包括：通过第一卷积神经网络从输入图像获得第一特征图；通过第一注意力模块获得与所述第一特征图相同形状的第一掩码，所述第一掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；将所述第一特征图与所述第一掩码进行向量相乘后的第一向量乘积进行池化以获得第一特征向量；以及，通过第一全连接层基于所述第一特征向量进行分类以识别所述输入图像。

在上述图像识别方法中，通过第一注意力模块获得与所述第一特征图相同形状的第一掩码包括：使用大小为一的卷积核对所述第一特征图进行卷积滤波以获得卷积结果；以及，对所述卷积结果通过激活函数进行激活以获得所述第一掩码。

在上述图像识别方法中，使用大小为一的卷积核对所述第一特征图进行卷积滤波以获得卷积结果包括：使用大小为一的第一卷积核对所述第一特征图进行降维卷积滤波以获得中间结果；对所述中间结果通过线性整流函数进行激活；以及，使用大小为一的第二卷积核对激活后的所述中间结果进行升维卷积滤波以获得所述卷积结果。

在上述图像识别方法中，进一步包括：将所述第一特征图与所述第一向量乘积进行向量相加后通过第二卷积神经网络获得第二特征图；通过第二注意力模块获得与所述第二特征图相同形状的第二掩码，所述第二掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；将所述第二特征图与所述第二掩码进行向量相乘后的第二向量乘积进行池化以获得第二特征向量；以及，通过第一全连接层基于级联的所述第一特征向量和所述第二特征向量进行分类以识别所述输入图像。

在上述图像识别方法中，进一步包括：将所述第二特征图与所述第二向量乘积进行向量相加后通过第三卷积神经网络获得第三特征图；通过第三注意力模块获得与所述第三特征图相同形状的第三掩码，所述第三掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；将所述第三特征图与所述第三掩码进行向量相乘后的第三向量乘积进行池化以获得第三特征向量；以及，通过第一全连接层基于级联的所述第一特征向量、所述第二特征向量和所述第三特征向量进行分类以识别所述输入图像。

在上述图像识别方法中，通过第一卷积神经网络从输入图像获得第一特征图包括：通过第一卷积层对所述第一特征图进行降维卷积滤波并池化以获得中间特征图；以及，通过第二卷积层对所述中间特征图进行升维卷积滤波以获得所述第一特征图。

在上述图像识别方法中，通过第一全连接层基于所述第一特征向量进行分类以识别所述输入图像包括：通过第一子全连接层对所述第一特征向量进行嵌入操作；以及，通过第二子全连接层对嵌入后的第一特征向量进行分类以识别所述输入图像。

在上述图像识别方法中，通过与所述第一全连接层的第一分类结果对应的注意力损失函数训练所述卷积神经网络和所述注意力模块。

在上述图像识别方法中，通过与所述第一全连接层的第一分类结果对应的注意力损失函数训练所述卷积神经网络和所述注意力模块包括：将所述第三特征图与所述第三向量乘积进行向量相加后通过第四卷积神经网络获得第四特征图；对所述第四特征图进行池化以获得第四特征向量；以及，通过与所述第一全连接层的第一分类结果对应的注意力损失函数和与所述第四特征向量对应的三元损失函数训练所述卷积神经网络和所述注意力模块。

在上述图像识别方法中，通过与所述全连接层的第一分类结果对应的注意力损失函数和与所述第四特征向量对应的三元损失函数训练所述卷积神经网络和所述注意力模块包括：通过第二全连接层基于所述第四特征向量进行分类以获得第二分类结果；以及，通过与所述第一全连接层的第一分类结果对应的注意力损失函数、与所述第四特征向量对应的三元损失函数和与所述第二分类结果对应的聚焦损失函数训练所述卷积神经网络和所述注意力模块。

在上述图像识别方法中，所述输入图像是包括行人的图像。

根据本申请的另一方面，提供了一种图像识别装置，包括：第一卷积单元，用于通过第一卷积神经网络从输入图像获得第一特征图；第一注意力单元，用于通过第一注意力模块获得与所述第一特征图相同形状的第一掩码，所述第一掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；第一池化单元，用于将所述第一特征图与所述第一掩码进行向量相乘后进行池化以获得第一特征向量；以及，第一全连接单元，用于通过第一全连接层基于所述第一特征向量进行分类以识别所述输入图像。

在上述图像识别装置中，所述第一注意力单元用于：使用大小为一的卷积核对所述第一特征图进行卷积滤波以获得卷积结果；以及，对所述卷积结果通过激活函数进行激活以获得所述第一掩码。

在上述图像识别装置中，所述第一注意力单元使用大小为一的卷积核对所述第一特征图进行卷积滤波以获得卷积结果包括：使用大小为一的第一卷积核对所述第一特征图进行降维卷积滤波以获得中间结果；对所述中间结果通过线性整流函数进行激活；以及，使用大小为一的第二卷积核对激活后的所述中间结果进行升维卷积滤波以获得所述卷积结果。

在上述图像识别装置中，进一步包括：第二卷积单元，用于将所述第一特征图与所述第一向量乘积进行向量相加后通过第二卷积神经网络获得第二特征图；第二注意力单元，用于通过第二注意力模块获得与所述第二特征图相同形状的第二掩码，所述第二掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；第二池化单元，用于将所述第二特征图与所述第二掩码进行向量相乘后的第二向量乘积进行池化以获得第二特征向量；以及所述第一全连接单元用于通过第一全连接层基于级联的所述第一特征向量和所述第二特征向量进行分类以识别所述输入图像。

在上述图像识别装置中，进一步包括：第三卷积单元，用于将所述第二特征图与所述第二向量乘积进行向量相加后通过第三卷积神经网络获得第三特征图；第三注意力单元，用于通过第三注意力模块获得与所述第三特征图相同形状的第三掩码，所述第三掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；第三池化单元，用于将所述第三特征图与所述第三掩码进行向量相乘后的第三向量乘积进行池化以获得第三特征向量；以及所述第一全连接单元用于通过第一全连接层基于级联的所述第一特征向量、所述第二特征向量和所述第三特征向量进行分类以识别所述输入图像。

在上述图像识别装置中，所述第一卷积单元用于：通过第一卷积层对所述第一特征图进行降维卷积滤波并池化以获得中间特征图；以及，通过第二卷积层对所述中间特征图进行升维卷积滤波以获得所述第一特征图。

在上述图像识别装置中，所述第一全连接单元用于：通过第一子全连接层对所述第一特征向量进行嵌入操作；以及，通过第二子全连接层对嵌入后的第一特征向量进行分类以识别所述输入图像。

在上述图像识别装置中，进一步包括：训练单元，用于通过与所述第一全连接层的第一分类结果对应的注意力损失函数训练所述卷积神经网络和所述注意力模块。

在上述图像识别装置中，进一步包括：第四卷积单元，用于将所述第三特征图与所述第三向量乘积进行向量相加后通过第四卷积神经网络获得第四特征图；第四池化单元，用于对所述第四特征图进行池化以获得第四特征向量；以及所述训练单元用于通过与所述第一全连接层的第一分类结果对应的注意力损失函数和与所述第四特征向量对应的三元损失函数训练所述卷积神经网络和所述注意力模块。

在上述图像识别装置中，进一步包括：第二全连接单元，用于通过第二全连接层基于所述第四特征向量进行分类以获得第二分类结果；以及所述训练单元用于通过与所述第一全连接层的第一分类结果对应的注意力损失函数、与所述第四特征向量对应的三元损失函数和与所述第二分类结果对应的聚焦损失函数训练所述卷积神经网络和所述注意力模块。

在上述图像识别装置中，所述输入图像是包括行人的图像。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的图像识别方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的图像识别方法。

与现有技术相比，本申请提供的图像识别方法、图像识别装置和电子设备可以通过第一卷积神经网络从输入图像获得第一特征图；通过第一注意力模块获得与所述第一特征图相同形状的第一掩码，所述第一掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；将所述第一特征图与所述第一掩码进行向量相乘后的第一向量乘积进行池化以获得第一特征向量；以及，通过第一全连接层基于所述第一特征向量进行分类以识别所述输入图像。这样，可以使得神经网络能够获得所述待识别对象在输入图像中的准确位置，从而提高图像识别率。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的图像识别方法的应用场景的示意图。

图2图示了根据本申请实施例的图像识别方法的流程图。

图3图示了根据本申请实施例的图像识别模型的第一示例的示意图。

图4图示了根据本申请实施例的图像识别模型的第二示例的示意图。

图5图示了根据本申请实施例的图像识别模型的第三示例的示意图。

图6图示了根据本申请实施例的图像识别模型的训练示例的示意图。

图7图示了根据本申请实施例的图像识别装置的框图。

图8图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，在人工智能领域中，为了对输入图像中的待识别对象进行识别，需要通过神经网络提取待识别对象的特征。

例如，为了对行人进行识别，需将采集到的行人数据作为训练集，通过神经网络(Neural Network，NN)训练出行人重识别模型。例如，在行人重识别模型的训练过程中，一般是选取三张图像作为一个三元组。然后，使用已训练出来的行人重识别模型对行人图片提取特征，并基于所述行人图片特征与目标行人图片特征的相似度，从相应行人数据库中识别目标行人。

但是，由于输入图像并非标准图像，在这些图像中，所述待识别对象可处于图像中的各个位置。例如，由于摄像头视角以及行人检测器的原因，不同的行人图片中，行人在图片中所处位置差异很大，如部分图片中行人处在下半部分，部分图片中行人处在上半部分。这样，由于待识别对象没有在输入图像中对齐，神经网络可能无法有效地提取待识别对象的特征。

针对上述技术问题，本申请的基本构思是对神经网络进行改进，采用注意力机制来强化待识别对象的响应，从而能够获得待识别对象在输入图像中的准确位置。

具体地，本申请提供了一种图像识别方法、图像识别装置和电子设备，首先通过第一卷积神经网络从输入图像获得第一特征图，然后通过第一注意力模块获得与所述第一特征图相同形状的第一掩码，所述第一掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应，并将所述第一特征图与所述第一掩码进行向量相乘后的第一向量乘积进行池化以获得第一特征向量；最后通过第一全连接层基于所述第一特征向量进行分类以识别所述输入图像。这样，可以使得神经网络能够获得所述待识别对象在输入图像中的准确位置，从而提高图像识别率。

这里，本领域技术人员可以理解，根据本申请实施例的输入图像可以是包含各种待识别对象，例如，行人、车辆、特定物品等的图像。并且，相应地，图像识别模型从所述输入图像中识别上述待识别对象，而不仅限于前述的行人重识别模型。但是，无论对于用于识别何种对象的图像识别模型，都可以采用根据本申请实施例的图像识别方案来使得神经网络能够确定图像中对象的准确位置。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性系统

如图1所示，根据本申请实施例的图像识别方法通过图像识别模型100来从输入图像中识别出特定对象。

具体地，在训练阶段，针对图像识别模型100，选取三张图像101、102和103作为一个三元组对所述图像识别模型100进行训练。

然后，在识别阶段，所述图像识别模型100对输入图像104进行识别，并输出图像识别结果。

下面，将具体说明根据本申请实施例的图像识别方法。

示例性方法

图2图示了根据本申请实施例的图像识别方法的流程图。

如图2所示，根据本申请实施例的图像识别方法包括：S210，通过第一卷积神经网络从输入图像获得第一特征图；S220，通过第一注意力模块获得与所述第一特征图相同形状的第一掩码，所述第一掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；S230，将所述第一特征图与所述第一掩码进行向量相乘后的第一向量乘积进行池化以获得第一特征向量；以及S240，通过第一全连接层基于所述第一特征向量进行分类以识别所述输入图像。

在步骤S210中，通过第一卷积神经网络从输入图像获得第一特征图。下面，将参考图3来具体说明根据本申请实施例的图像识别方法。图3图示了根据本申请实施例的图像识别模型的第一示例的示意图。如图3所示，第一卷积神经网络301从输入图像获得第一特征图F1。

这里，本领域技术人员可以理解，所述第一卷积神经网络可以直接从所述输入图像获得所述第一特征图。但是，为了减小计算量，也可以首先对输入图像进行降维，再进行升维以获得所述第一特征图。如图3所示，第一卷积神经网络301包括第一卷积层301-1和池化层301-2，以从输入图像得到缩小的特征图F1’，再通过第二卷积层301-3从缩小的特征图F1’得到第一特征图F1。

也就是，在根据本申请实施例的图像识别方法中，通过第一卷积神经网络从输入图像获得第一特征图包括：通过第一卷积层对所述第一特征图进行降维卷积滤波并池化以获得中间特征图；以及，通过第二卷积层对所述中间特征图进行升维卷积滤波以获得所述第一特征图。

例如，针对大小为256×128的输入图像，可以首先通过第一卷积层进行降维卷积滤波并池化以获得大小为64×64×32的中间特征图，再通过第二卷积层进行升维卷积滤波以获得大小为256×64×32的第一特征图。

在步骤S220中，通过第一注意力模块获得与所述第一特征图相同形状的第一掩码，所述第一掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应。

具体地，所述第一注意力模块首先使用大小为一的卷积核对所述第一特征图进行卷积滤波以获得卷积结果，在对所述卷积结果通过激活函数，例如Sigmoid函数进行激活以获得所述第一掩码。

另外，在所述第一注意力模块中，为了减小计算量，也可以首先对第一特征图进行降维，再从降维后的特征图得到第一掩码。

如图3所示，第一注意力模块302通过大小为一的卷积核302-1对所述第一特征图F1进行卷积滤波，并使用线性整流函数302-2，例如ReLU函数进行激活以获得缩小的特征图F1/r，其中r是缩小倍率。然后，通过大小为一的卷积核302-3对缩小的特征图F1/r进行卷积滤波，最后通过激活函数302-4进行激活以获得第一掩码M1。

这里，通常的注意力模块仅能够获得特征图里每个通道的权值，而根据本申请实施例的注意力模块能够获得特征图里每个通道里每个点的权值，从而抑制待识别对象以外的区域的响应，并加强待识别对象的区域的响应。

也就是，在根据本申请实施例的图像识别方法中，通过第一注意力模块获得与所述第一特征图相同形状的第一掩码包括：使用大小为一的卷积核对所述第一特征图进行卷积滤波以获得卷积结果；以及，对所述卷积结果通过激活函数进行激活以获得所述第一掩码。

并且，在根据本申请实施例的图像识别方法中，使用大小为一的卷积核对所述第一特征图进行卷积滤波以获得卷积结果包括：使用大小为一的第一卷积核对所述第一特征图进行降维卷积滤波以获得中间结果；对所述中间结果通过线性整流函数进行激活；以及，使用大小为一的第二卷积核对激活后的所述中间结果进行升维卷积滤波以获得所述卷积结果。

在步骤S230中，将所述第一特征图与所述第一掩码进行向量相乘后的第一向量乘积进行池化以获得第一特征向量。如图3所示，将所述第一特征图M1和所述第一掩码F1通过乘法器303进行向量相乘，再通过池化层304进行池化，例如平均值池化，以获得第一特征向量V1。例如，针对如上所述256×64×32的第一特征图，获得长度为256的第一特征向量。

在步骤S240，通过第一全连接层基于所述第一特征向量进行分类以识别所述输入图像。这里，本领域技术人员可以理解，第一全连接层305可以仅包含一个全连接层，以对所述第一特征向量进行分类进行图像识别。另外，如图3所示，所述第一全连接层305也可以包括第一子全连接层305-1和第二子全连接层305-2。其中，所述第一子全连接层305-1对所述第一特征向量进行嵌入操作，且所述第二子子全连接层305-2对嵌入后的第一特征向量进行分类以识别所述输入图像。

也就是，在根据本申请实施例的图像识别方法中，通过第一全连接层基于所述第一特征向量进行分类以识别所述输入图像包括：通过第一子全连接层对所述第一特征向量进行嵌入操作；以及，通过第二子全连接层对嵌入后的第一特征向量进行分类以识别所述输入图像。

图4图示了根据本申请实施例的图像识别模型的第二示例的示意图。如图4所示，与图3相同，首先通过第一卷积神经网络301从输入图像获得第一特征图F1，通过第一注意力模块302获得与第一特征图F1相同形状的第一掩码M1，通过乘法器303将第一特征图F1与第一掩码M1进行向量相乘以获得第一向量乘积，再通过池化层304将所述第一向量乘积进行池化以获得第一特征向量V1。

在如图4所示的第二示例中，进一步将第一特征图F1与所述第一向量乘积通过加法器306相加，然后通过第二卷积神经网络307获得第二特征图F2。这里，第二卷积神经网络307与第一卷积神经网络301类似，只是改变第一特征图F1的大小，例如，第一特征图F1的大小为256×64×32，第二特征图F2的大小为512×32×16。

然后，与第一特征图F1类似，通过第二注意力模块308获得与所述第二特征图F2相同形状的第二掩码M2，然后，将所述第二特征图F2与所述第二掩码M2通过乘法器309相乘以获得第二向量乘积，再通过池化层310对所述第二向量乘积进行池化，例如平均池化以获得第二特征向量V2。这里，由于第二特征图F2的大小为512×32×16，所获得的第二特征向量为长度是512的向量。

之后，将所述第一特征向量V1和所述第二特征向量V2通过级联模块311进行级联，例如，获得长度为768的特征向量，再通过第一全连接层305进行分类以识别所述输入图像。

与如图3所示的第一示例相比，如图4所示的第二示例通过第二卷积神经网络307、第二注意力模块308、乘法器309、池化层310得到第二特征向量，可以得到不同层级的信息。这样，通过将第一特征向量和第二特征向量级联后进行图像识别，可以提高图像识别的准确度。

也就是，在根据本申请实施例的图像识别方法中，进一步包括：将所述第一特征图与所述第一向量乘积进行向量相加后通过第二卷积神经网络获得第二特征图；通过第二注意力模块获得与所述第二特征图相同形状的第二掩码，所述第二掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；将所述第二特征图与所述第二掩码进行向量相乘后的第二向量乘积进行池化以获得第二特征向量；以及，通过第一全连接层基于级联的所述第一特征向量和所述第二特征向量进行分类以识别所述输入图像。

图5图示了根据本申请实施例的图像识别模型的第三示例的示意图。与如图4所示的第二示例相比，进一步将第二特征图F2与所述第二向量乘积通过加法器312相加，然后通过第三卷积神经网络313获得第三特征图F3。这里，第三卷积神经网络313与第一卷积神经网络301和第二卷积神经网络307类似，只是进一步改变第二特征图F1的大小，例如，第二特征图F2的大小为512×32×16，第三特征图F3的大小为1024×32×16。

然后，与第一特征图F1和第二特征图F2类似，通过第三注意力模块314获得与所述第三特征图F3相同形状的第三掩码M3，然后，将所述第三特征图F3与所述第三掩码M3通过乘法器315相乘以获得第三向量乘积，再通过池化层316对所述第三向量乘积进行池化，例如平均池化以获得第三特征向量V3。这里，由于第三特征图F3的大小为1024×32×16，所获得的第三特征向量为长度是1024的向量。

之后，将所述第一特征向量V1、所述第二特征向量V2和所述第三特征向量V3通过级联模块311进行级联，例如，获得长度为1792的特征向量，再通过第一全连接层305进行分类以识别所述输入图像。

类似地，与如图4所示的第二示例相比，如图5所示的第三示例通过第三卷积神经网络313、第三注意力模块314、乘法器315、池化层316得到第三特征向量，可以得到不同层级的信息。这样，通过将第一特征向量、第二特征向量和第三特征向量级联后进行图像识别，可以进一步提高图像识别的准确度。

也就是，在根据本申请实施例的图像识别方法中，进一步包括：将所述第二特征图与所述第二向量乘积进行向量相加后通过第三卷积神经网络获得第三特征图；通过第三注意力模块获得与所述第三特征图相同形状的第三掩码，所述第三掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；将所述第三特征图与所述第三掩码进行向量相乘后的第三向量乘积进行池化以获得第三特征向量；以及，通过第一全连接层基于级联的所述第一特征向量、所述第二特征向量和所述第三特征向量进行分类以识别所述输入图像。

这里，本领域技术人员可以理解，在根据本申请实施例的图像识别模型中，卷积神经网络和注意力模块均可以通过训练得到。

具体地，在根据本申请实施例的图像识别方法中，通过与所述第一全连接层的第一分类结果对应的注意力损失函数训练所述卷积神经网络和所述注意力模块。

此外，除通过注意力损失函数训练所述卷积神经网络和所述注意力模块，还可以基于多任务的思想，通过其它函数训练所述卷积神经网络和所述注意力模块，以增加训练后的图像识别模型的鲁棒性。

在一个示例中，除通过注意力损失函数训练所述卷积神经网络和所述注意力模块之后，进一步通过三元损失函数训练所述卷积神经网络和所述注意力模块。

图6图示了根据本申请实施例的图像识别模型的训练示例的示意图。这里，图6沿用了图5中的图像识别模型的结构。但是，本领域技术人员可以理解，图6所示的图像识别模型的训练示例也可以应用于如图3或者图4所示的图像识别模型的示例。如图6所示，将所述第三特征图F3和所述第三特征图F3与所述第三掩码M3的第三向量乘积通过加法器317进行向量相加后，通过第四卷积神经网络318获得第四特征图F4。所述第四特征图F4可以相对于所述第三特征图F3进一步改变大小，例如，在所述第三特征图F3的尺寸为1024×32×16的情况下，所述第四特征图F4的尺寸可以为2048×8×4。然后，通过池化层319对所述第四特征图F4进行池化以获得第四特征向量V4。这里，在所述第四特征图F4的尺寸为2048×8×4的情况下，所述第四特征向量V4的长度是2048。然后，通过与所述第四特征向量V4对应的三元损失函数训练所述卷积神经网络和所述注意力模块。

也就是，在根据本申请实施例的图像识别方法中，通过与所述第一全连接层的第一分类结果对应的注意力损失函数训练所述卷积神经网络和所述注意力模块包括：将所述第三特征图与所述第三向量乘积进行向量相加后通过第四卷积神经网络获得第四特征图；对所述第四特征图进行池化以获得第四特征向量；以及，通过与所述第一全连接层的第一分类结果对应的注意力损失函数和与所述第四特征向量对应的三元损失函数训练所述卷积神经网络和所述注意力模块。

在另一示例中，除通过注意力损失函数和三元损失函数训练所述卷积神经网络和所述注意力模块之后，进一步通过聚焦损失函数训练所述卷积神经网络和所述注意力模块。

同样参考图6，针对所述第四特征向量V4，通过第二全连接层320进行分类以获得第二分类结果，并进一步通过与所述第二分类结果对应的聚焦损失函数训练所述卷积神经网络和所述注意力模块。

也就是，在根据本申请实施例的图像识别方法中，通过与所述全连接层的第一分类结果对应的注意力损失函数和与所述第四特征向量对应的三元损失函数训练所述卷积神经网络和所述注意力模块包括：通过第二全连接层基于所述第四特征向量进行分类以获得第二分类结果；以及，通过与所述第一全连接层的第一分类结果对应的注意力损失函数、与所述第四特征向量对应的三元损失函数和与所述第二分类结果对应的聚焦损失函数训练所述卷积神经网络和所述注意力模块。

示例性装置

图7图示了根据本申请实施例的图像识别装置的框图。

如图7所示，根据本申请实施例的图像识别装置400包括：第一卷积单元410，用于通过第一卷积神经网络从输入图像获得第一特征图；第一注意力单元420，用于通过第一注意力模块获得与所述第一特征图相同形状的第一掩码，所述第一掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；第一池化单元430，用于将所述第一特征图与所述第一掩码进行向量相乘后进行池化以获得第一特征向量；以及第一全连接单元440，用于通过第一全连接层基于所述第一特征向量进行分类以识别所述输入图像。

在一个示例中，在上述图像识别装置400中，所述第一注意力单元420用于：使用大小为一的卷积核对所述第一特征图进行卷积滤波以获得卷积结果；以及，对所述卷积结果通过激活函数进行激活以获得所述第一掩码。

在一个示例中，在上述图像识别装置400中，所述第一注意力单元420使用大小为一的卷积核对所述第一特征图进行卷积滤波以获得卷积结果包括：使用大小为一的第一卷积核对所述第一特征图进行降维卷积滤波以获得中间结果；对所述中间结果通过线性整流函数进行激活；以及，使用大小为一的第二卷积核对激活后的所述中间结果进行升维卷积滤波以获得所述卷积结果。

在一个示例中，在上述图像识别装置400中，进一步包括：第二卷积单元，用于将所述第一特征图与所述第一向量乘积进行向量相加后通过第二卷积神经网络获得第二特征图；第二注意力单元，用于通过第二注意力模块获得与所述第二特征图相同形状的第二掩码，所述第二掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；第二池化单元，用于将所述第二特征图与所述第二掩码进行向量相乘后的第二向量乘积进行池化以获得第二特征向量；以及所述第一全连接单元用于通过第一全连接层基于级联的所述第一特征向量和所述第二特征向量进行分类以识别所述输入图像。

在一个示例中，在上述图像识别装置400中，进一步包括：第三卷积单元，用于将所述第二特征图与所述第二向量乘积进行向量相加后通过第三卷积神经网络获得第三特征图；第三注意力单元，用于通过第三注意力模块获得与所述第三特征图相同形状的第三掩码，所述第三掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；第三池化单元，用于将所述第三特征图与所述第三掩码进行向量相乘后的第三向量乘积进行池化以获得第三特征向量；以及所述第一全连接单元用于通过第一全连接层基于级联的所述第一特征向量、所述第二特征向量和所述第三特征向量进行分类以识别所述输入图像。

在一个示例中，在上述图像识别装置400中，所述第一卷积单元410用于：通过第一卷积层对所述第一特征图进行降维卷积滤波并池化以获得中间特征图；以及，通过第二卷积层对所述中间特征图进行升维卷积滤波以获得所述第一特征图。

在一个示例中，在上述图像识别装置400中，所述第一全连接单元440用于：通过第一子全连接层对所述第一特征向量进行嵌入操作；以及，通过第二子全连接层对嵌入后的第一特征向量进行分类以识别所述输入图像。

在一个示例中，在上述图像识别装置400中，进一步包括：训练单元，用于通过与所述第一全连接层的第一分类结果对应的注意力损失函数训练所述卷积神经网络和所述注意力模块。

在一个示例中，在上述图像识别装置400中，进一步包括：第四卷积单元，用于将所述第三特征图与所述第三向量乘积进行向量相加后通过第四卷积神经网络获得第四特征图；第四池化单元，用于对所述第四特征图进行池化以获得第四特征向量；以及所述训练单元用于通过与所述第一全连接层的第一分类结果对应的注意力损失函数和与所述第四特征向量对应的三元损失函数训练所述卷积神经网络和所述注意力模块。

在一个示例中，在上述图像识别装置400中，进一步包括：第二全连接单元，用于通过第二全连接层基于所述第四特征向量进行分类以获得第二分类结果；以及所述训练单元用于通过与所述第一全连接层的第一分类结果对应的注意力损失函数、与所述第四特征向量对应的三元损失函数和与所述第二分类结果对应的聚焦损失函数训练所述卷积神经网络和所述注意力模块。

在一个示例中，在上述图像识别装置400中，所述输入图像是包括行人的图像。

这里，本领域技术人员可以理解，上述图像识别装置400中的各个单元和模块的具体功能和操作已经在上面参考图2到图6描述的图像识别方法中详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的图像识别装置400可以实现在各种终端设备中，例如识别行人的自动驾驶辅助系统中。一个示例中，根据本申请实施例的图像识别装置400可以作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如，该装置400可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该装置400同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该图像识别装置400与该终端设备也可以是分立的设备，并且该装置400可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图8来描述根据本申请实施例的电子设备。

图8图示了根据本申请实施例的电子设备的框图。

如图8所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的图像识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入图像、特征图、特征向量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以是图像采集装置，用于采集包括行人的图像。此外，该输入装置13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括识别出的对象信息等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的图像识别方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的图像识别方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种图像识别方法，包括：

通过第一卷积神经网络从输入图像获得第一特征图；

通过第一注意力模块获得与所述第一特征图相同形状的第一掩码，所述第一掩码用于加强待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；

将所述第一特征图与所述第一掩码进行向量相乘后的第一向量乘积进行池化以获得第一特征向量；以及

通过第一全连接层基于所述第一特征向量进行分类以识别所述输入图像。

2.如权利要求1所述的图像识别方法，其中，通过第一注意力模块获得与所述第一特征图相同形状的第一掩码包括：

使用大小为一的卷积核对所述第一特征图进行卷积滤波以获得卷积结果；以及

对所述卷积结果通过激活函数进行激活以获得所述第一掩码。

3.如权利要求2所述的图像识别方法，其中，使用大小为一的卷积核对所述第一特征图进行卷积滤波以获得卷积结果包括：

使用大小为一的第一卷积核对所述第一特征图进行降维卷积滤波以获得中间结果；

对所述中间结果通过线性整流函数进行激活；以及

使用大小为一的第二卷积核对激活后的所述中间结果进行升维卷积滤波以获得所述卷积结果。

4.如权利要求1所述的图像识别方法，进一步包括：

将所述第一特征图与所述第一向量乘积进行向量相加后通过第二卷积神经网络获得第二特征图；

通过第二注意力模块获得与所述第二特征图相同形状的第二掩码，所述第二掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；

将所述第二特征图与所述第二掩码进行向量相乘后的第二向量乘积进行池化以获得第二特征向量；以及

通过第一全连接层基于级联的所述第一特征向量和所述第二特征向量进行分类以识别所述输入图像。

5.如权利要求4所述的图像识别方法，进一步包括：

将所述第二特征图与所述第二向量乘积进行向量相加后通过第三卷积神经网络获得第三特征图；

通过第三注意力模块获得与所述第三特征图相同形状的第三掩码，所述第三掩码用于加强所述待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；

将所述第三特征图与所述第三掩码进行向量相乘后的第三向量乘积进行池化以获得第三特征向量；以及

通过第一全连接层基于级联的所述第一特征向量、所述第二特征向量和所述第三特征向量进行分类以识别所述输入图像。

6.如权利要求1所述的图像识别方法，其中，通过第一卷积神经网络从输入图像获得第一特征图包括：

通过第一卷积层对所述第一特征图进行降维卷积滤波并池化以获得中间特征图；以及

通过第二卷积层对所述中间特征图进行升维卷积滤波以获得所述第一特征图。

7.如权利要求1所述的图像识别方法，其中，通过第一全连接层基于所述第一特征向量进行分类以识别所述输入图像包括：

通过第一子全连接层对所述第一特征向量进行嵌入操作；以及

通过第二子全连接层对嵌入后的第一特征向量进行分类以识别所述输入图像。

8.如权利要求5所述的图像识别方法，其中，通过与所述第一全连接层的第一分类结果对应的注意力损失函数训练所述卷积神经网络和所述注意力模块。

9.如权利要求8所述的图像识别方法，其中，通过与所述第一全连接层的第一分类结果对应的注意力损失函数训练所述卷积神经网络和所述注意力模块包括：

将所述第三特征图与所述第三向量乘积进行向量相加后通过第四卷积神经网络获得第四特征图；

对所述第四特征图进行池化以获得第四特征向量；以及

通过与所述第一全连接层的第一分类结果对应的注意力损失函数和与所述第四特征向量对应的三元损失函数训练所述卷积神经网络和所述注意力模块。

10.如权利要求9所述的图像识别方法，其中，通过与所述全连接层的第一分类结果对应的注意力损失函数和与所述第四特征向量对应的三元损失函数训练所述卷积神经网络和所述注意力模块包括：

通过第二全连接层基于所述第四特征向量进行分类以获得第二分类结果；以及

通过与所述第一全连接层的第一分类结果对应的注意力损失函数、与所述第四特征向量对应的三元损失函数和与所述第二分类结果对应的聚焦损失函数训练所述卷积神经网络和所述注意力模块。

11.如权利要求1到10中任意一项所述的图像识别方法，其中，所述输入图像是包括行人的图像。

12.一种图像识别装置，包括：

第一卷积单元，用于通过第一卷积神经网络从输入图像获得第一特征图；

第一注意力单元，用于通过第一注意力模块获得与所述第一特征图相同形状的第一掩码，所述第一掩码用于加强待识别对象的区域的响应并抑制所述输入图像中待识别对象以外区域的响应；

第一池化单元，用于将所述第一特征图与所述第一掩码进行向量相乘后进行池化以获得第一特征向量；以及

第一全连接单元，用于通过第一全连接层基于所述第一特征向量进行分类以识别所述输入图像。

13.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-11中任一项所述的图像识别方法。

14.一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1-11中的任一项所述的图像识别方法。