CN109871909B

CN109871909B - 图像识别方法及装置

Info

Publication number: CN109871909B
Application number: CN201910304829.3A
Authority: CN
Inventors: 王婷婷; 李月
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2021-10-01
Anticipated expiration: 2039-04-16
Also published as: CN109871909A; US11100320B2; US20200334457A1

Abstract

本发明提出一种图像识别方法及装置，其中方法包括：获取待识别的图像；将图像输入残差神经网络的第一预设块，获取图像对应的第一图像特征；将第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层，得到具有位置表征和通道表征的表征图像特征，以及对应的第一标签信息；将第一图像特征输入依次排列的第二卷积层和双向神经网络，得到具有标签相关性表征的第二标签信息；根据第一标签信息和第二标签信息，确定图像对应的标签信息，从而能够结合标签之间的位置关系以及相关性来对图像进行多标签识别，能够准确识别出图像中的多个标签，提高图像识别效率。

Description

图像识别方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像识别方法及装置。

背景技术

目前的图像识别方法，在进行多标签识别时，是将每个标签看作独立的，互不相关的，对每个标签单独进行识别，而图像的多标签之间一般具有固定的位置关系和相关性，例如“天空”标签一般在图像上方，“草地”标签一般在图像下方，且“天空”标签和“白云”标签之间的相关性比较大，经常会同时出现。而上述的图像识别方法在进行多标签识别时并不涉及标签之间的位置关系和相关性，难以准确识别出图像中的多个标签，图像识别效率差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种图像识别方法，用于解决现有技术中图像识别效率差的问题。

本发明的第二个目的在于提出一种图像识别装置。

本发明的第三个目的在于提出另一种图像识别装置。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种图像识别方法，包括：

获取待识别的图像；

将所述图像输入残差神经网络的第一预设块，获取所述图像对应的第一图像特征；

将所述第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层，得到具有位置表征和通道表征的表征图像特征，以及对应的第一标签信息；

将所述第一图像特征输入依次排列的第二卷积层和双向神经网络，得到具有标签相关性表征的第二标签信息；

根据所述第一标签信息和所述第二标签信息，确定所述图像对应的标签信息。

可选地，所述注意力模型包括：位置注意力模块和通道注意力模块；

所述将所述第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层，得到具有位置表征和通道表征的表征图像特征，以及对应的第一标签信息，包括：

将所述第一图像特征输入残差神经网络的第二预设块，得到第二图像特征；

将所述第二图像特征分别输入位置注意力模块和通道注意力模块，获取具有位置表征的图像特征和具有通道表征的图像特征；

对具有位置表征的图像特征和具有通道表征的图像特征进行融合，得到所述表征图像特征；

将所述表征图像特征输入第一卷积层和池化层，得到所述第一标签信息。

可选地，所述将所述第一图像特征输入依次排列的第二卷积层和双向神经网络，得到具有标签相关性表征的第二标签信息，包括：

将所述第一图像特征输入第二卷积层，得到类别注意力图，所述类别注意力图中包括：所述图像中各个类别对应的图像特征；

将所述类别注意力图输入所述双向神经网络，获取具有标签相关性表征的第二标签信息。

可选地，所述根据所述第一标签信息和所述第二标签信息，确定所述图像对应的标签信息，包括：

对所述第一标签信息和所述第二标签信息进行加权求和，得到所述图像对应的标签信息。

可选地，所述将所述图像输入残差神经网络的第一预设块，获取所述图像对应的第一图像特征之前，还包括：

获取训练数据，所述训练数据中包括：大于预设数量的图像以及对应的真实标签信息；

根据所述训练数据，对所述残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络进行训练。

可选地，所述根据所述训练数据，对所述残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络进行训练，包括：

针对所述训练数据中的每个图像，获取所述图像对应的第一标签信息；根据所述图像对应的第一标签信息以及真实标签信息，计算第一交叉熵，根据第一交叉熵对残差神经网络、注意力模型、第一卷积层和池化层的系数进行调整，直至第一交叉熵处于稳定状态；

固定所述残差神经网络的第一预设块的系数，针对所述训练数据中的每个图像，获取所述图像对应的第二标签信息，根据所述图像对应的第二标签信息以及真实标签信息，计算第二交叉熵，根据第二交叉熵对所述第二卷积层以及所述双向神经网络的系数进行调整，直至第二交叉熵处于稳定状态。

可选地，所述根据第二交叉熵对所述第二卷积层以及所述双向神经网络的系数进行调整之后，还包括：

针对所述训练数据中的每个图像，重新获取所述图像对应的第一标签信息和第二标签信息；

根据重新获取的第一标签信息、第二标签信息以及真实标签信息，重新计算第一交叉熵和第二交叉熵；

根据重新计算的第一交叉熵和重新计算的第二交叉熵对所述残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络的系数进行微调，直至重新计算的第一交叉熵和重新计算的第二交叉熵的和处于稳定状态。

可选地，所述双向神经网络为双向长短期记忆网络或者双向循环神经网络。

可选地，所述残差神经网络包括：5个残差块；

所述第一预设块为所述残差神经网络中的前4个残差块；

所述第二预设块为所述残差神经网络中的第5个残差块。

本发明实施例的图像识别方法，通过获取待识别的图像；将图像输入残差神经网络的第一预设块，获取图像对应的第一图像特征；将第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层，得到具有位置表征和通道表征的表征图像特征，以及对应的第一标签信息；将第一图像特征输入依次排列的第二卷积层和双向神经网络，得到具有标签相关性表征的第二标签信息；根据第一标签信息和第二标签信息，确定图像对应的标签信息，从而能够结合标签之间的位置关系以及相关性来对图像进行多标签识别，能够准确识别出图像中的多个标签，提高图像识别效率。

为达上述目的，本发明第二方面实施例提出了一种图像识别装置，包括：

获取模块，用于获取待识别的图像；

输入模块，用于将所述图像输入残差神经网络的第一预设块，获取所述图像对应的第一图像特征；

所述输入模块，还用于将所述第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层，得到具有位置表征和通道表征的表征图像特征，以及对应的第一标签信息；

所述输入模块，还用于将所述第一图像特征输入依次排列的第二卷积层和双向神经网络，得到具有标签相关性表征的第二标签信息；

确定模块，用于根据所述第一标签信息和所述第二标签信息，确定所述图像对应的标签信息。

本发明实施例的图像识别装置，通过获取待识别的图像；将图像输入残差神经网络的第一预设块，获取图像对应的第一图像特征；将第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层，得到具有位置表征和通道表征的表征图像特征，以及对应的第一标签信息；将第一图像特征输入依次排列的第二卷积层和双向神经网络，得到具有标签相关性表征的第二标签信息；根据第一标签信息和第二标签信息，确定图像对应的标签信息，从而能够结合标签之间的位置关系以及相关性来对图像进行多标签识别，能够准确识别出图像中的多个标签，提高图像识别效率。

为达上述目的，本发明第三方面实施例提出了另一种图像识别装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上所述的图像识别方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令被处理器执行时，实现如上所述的方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的一种图像识别方法的流程示意图；

图2为所采用的网络模型的示意图；

图3为位置注意力模块的结构图；

图4为通道注意力模块的结构图；

图5为本发明实施例提供的另一种图像识别方法的流程示意图；

图6为本发明实施例提供的一种图像识别装置的结构示意图；

图7为本发明实施例提供的另一种图像识别装置的结构示意图；

图8为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的图像识别方法及装置。

图1为本发明实施例提供的一种图像识别方法的流程示意图。如图1所示，该图像识别方法包括以下步骤：

S101、获取待识别的图像。

本发明提供的图像识别方法的执行主体为图像识别装置，图像识别装置具体可以为移动终端、服务器等硬件设备，或者为硬件设备上安装的软件。本实施例中，待识别的图像例如可以为具有多个标签的图像。其中，标签例如天空、草地、白云、人物、马等。

S102、将图像输入残差神经网络的第一预设块，获取图像对应的第一图像特征。

本实施例中，残差神经网络可以包括：5个残差块。其中，第一预设块为残差神经网络中的前4个残差块；第二预设块为残差神经网络中的第5个残差块。本实施例中，将图像输入残差神经网络，依次通过残差神经网络的前4个残差块，第4个残差块的输出为第一图像特征。本实施例中，残差神经网络可以为经过预训练的残差神经网络。需要说明的是，本实施例中涉及的图像特征都是以矩阵的形式表示。对图像特征的处理，指的是对矩阵的运算处理。

S103、将第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层，得到具有位置表征和通道表征的表征图像特征，以及对应的第一标签信息。

本实施例中，注意力模型可以包括：位置注意力模块和通道注意力模块。对应的，图像识别装置执行步骤103的过程具体可以为，将第一图像特征输入残差神经网络的第二预设块，得到第二图像特征；将第二图像特征分别输入位置注意力模块和通道注意力模块，获取具有位置表征的图像特征和具有通道表征的图像特征；对具有位置表征的图像特征和具有通道表征的图像特征进行融合，得到表征图像特征；将表征图像特征输入第一卷积层和池化层，得到第一标签信息。

其中，位置注意力模块和通道注意力模块可以如图2所示，图2为所采用的网络模型的示意图。在图2中，残差神经网络的第一预设块之后连接有一个主干网和一个支路网；主干网中包括：残差神经网络的第二预设块、位置注意力模块和通道注意力模块组成的注意力模型、第一卷积层以及池化层；支路网中包括：第二卷积层和双向神经网络。

本实施例中，位置注意力模块PAM用于在第二图像特征中融合多个标签的位置关系，得到具有位置表征的图像特征。其中，位置注意力模块的结构图可以如图3所示，在图3中，首先计算出第二图像特征中任意两点特征之间的关联强度矩阵，即第二图像特征A经过卷积降维获得表征空间远程上下文信息的新特征B和C以及表征各点特征的特征D，改变特征B和特征C的维度，然后对特征B和特征C进行矩阵乘积获得任意两点特征之间的关联强度矩阵；然后通过softmax操作对关联强度矩阵进行归一化获得每个位置对其他位置的注意力图S，其中越相似的两点特征之间，其响应值越大；接着通过位置之间的注意力图S对特征D加权进行融合，使得各个位置之间产生全局的关联；然后将加权融合后的特征与第二图像特征A进行求和运算，获得具有位置表征的图像特征。

本实施例中，通道注意力模块CAM用于在第二图像特征中融合多个标签之间的相关性，得到具有通道表征的图像特征。其中，通道注意力模块的结构图可以如图4所示，在图4中，首先计算出第二图像特征中任意两个通道之间的关联强度矩阵；然后通过softmax操作获得通道间的注意力图；最后通过通道之间的注意力图加权进行融合，使得各个通道之间产生全局的关联，获得具有通道表征的图像特征。

其中，具有位置表征的图像特征和具有通道表征的图像特征为矩阵，对具有位置表征的图像特征和具有通道表征的图像特征进行融合，指的是将两个矩阵对应维度相加的过程。本实施例中，第一卷积层和池化层具体用于对表征图像特征进行降维处理，得到第一标签信息。其中，第二卷积层可以为1层卷积，该层卷积的卷积核大小为3﹡3﹡2048。

S104、将第一图像特征输入依次排列的第二卷积层和双向神经网络，得到具有标签相关性表征的第二标签信息。

本实施例中，图像识别装置执行步骤104的过程具体可以为，将第一图像特征输入第二卷积层，得到类别注意力图，类别注意力图中包括：图像中各个类别对应的图像特征；将类别注意力图输入双向神经网络，获取具有标签相关性表征的第二标签信息。

其中，以第一图像特征的大小为14﹡14﹡1024为例，第二卷积层可以为3层卷积，3层卷积的卷积核大小分别为1﹡1﹡1024，3﹡3﹡512，1﹡1﹡K；通过采用3层卷积对第一图像特征进行降维处理，得到类别注意力图。其中，类别注意力图的大小为14﹡14﹡K，K为类别总数，14﹡14为每个类别对应的图像特征的维度。

本实施例中，双向神经网络可以为双向长短期记忆网络(Bi-directional Long-Short Term Memory，Bi-LSTM)或者双向循环神经网络(Bi-directional RecurrentNeural Network，Bi-RNN)。其中，双向长短期记忆网络是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。而类别注意力图中各个类别对应的图像特征之间的相关的，具有依赖性，采用双向长短期记忆网络能够识别这种依赖性，得到具有标签相关性表征的第二标签信息。

S105、根据第一标签信息和第二标签信息，确定图像对应的标签信息。

本实施例中，图像识别装置执行步骤105的过程具体可以为，对第一标签信息和第二标签信息进行加权求和，得到图像对应的标签信息。其中，加权求和可以为根据第一标签信息的权重和第二标签信息的权重进行加权求和，或者，可以为对第一标签信息和第二标签信息求平均值，得到图像对应的标签信息。

图5为本发明实施例提供的另一种图像识别方法的流程示意图，如图5所示，在图1所示实施例的基础上，步骤101之前，所述的方法还可以包括以下步骤：

S106、获取训练数据，训练数据中包括：大于预设数量的图像以及对应的真实标签信息。

S107、根据训练数据，对残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络进行训练。

本实施例中，图像识别装置执行步骤107的过程具体可以为，针对训练数据中的每个图像，获取图像对应的第一标签信息；根据图像对应的第一标签信息以及真实标签信息，计算第一交叉熵，根据第一交叉熵对残差神经网络、注意力模型、第一卷积层和池化层的系数进行调整，直至第一交叉熵处于稳定状态；固定残差神经网络的第一预设块的系数，针对训练数据中的每个图像，获取图像对应的第二标签信息，根据图像对应的第二标签信息以及真实标签信息，计算第二交叉熵，根据第二交叉熵对第二卷积层以及双向神经网络的系数进行调整，直至第二交叉熵处于稳定状态。其中，交叉熵的计算公式例如可以如以下公式(1)所示。

其中，Loss表示交叉熵；p^l为真实标签信息中第l个类别的标签的真实概率；

为第一标签信息或第二标签信息中第l个类别的标签的预测概率；K表示标签类别总数。

进一步地，在上述实施例的基础上，根据第二交叉熵对第二卷积层以及双向神经网络的系数进行调整之后，所述的方法还可以包括以下步骤：针对训练数据中的每个图像，重新获取图像对应的第一标签信息和第二标签信息；根据重新获取的第一标签信息、第二标签信息以及真实标签信息，重新计算第一交叉熵和第二交叉熵；根据重新计算的第一交叉熵和重新计算的第二交叉熵对残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络的系数进行微调，直至重新计算的第一交叉熵和重新计算的第二交叉熵的和处于稳定状态。

本实施例中，先结合训练数据，对残差神经网络以及主干网进行训练；固定残差神经网络第一预设块的系数，对支路网进行训练；然后对整个网络模型的系数进行微调，相对于对整个网络模型采用训练数据进行整体训练来说，能够大大提高整个网络模型的准确度，进而提高图像识别的准确度。

图6为本发明实施例提供的一种图像识别装置的结构示意图。如图6所示，包括：获取模块61、输入模块62和确定模块63。

其中，获取模块61，用于获取待识别的图像；

输入模块62，用于将所述图像输入残差神经网络的第一预设块，获取所述图像对应的第一图像特征；

所述输入模块62，还用于将所述第一图像特征输入依次排列的残差神经网络的第二预设块、注意力模型、第一卷积层以及池化层，得到具有位置表征和通道表征的表征图像特征，以及对应的第一标签信息；

所述输入模块62，还用于将所述第一图像特征输入依次排列的第二卷积层和双向神经网络，得到具有标签相关性表征的第二标签信息；

确定模块63，用于根据所述第一标签信息和所述第二标签信息，确定所述图像对应的标签信息。

本发明提供的图像识别装置具体可以为移动终端、服务器等硬件设备，或者为硬件设备上安装的软件。本实施例中，待识别的图像例如可以为具有多个标签的图像。其中，标签例如天空、草地、白云、人物、马等。

本实施例中，注意力模型可以包括：位置注意力模块和通道注意力模块。对应的，输入模块62具体可以用于，将第一图像特征输入残差神经网络的第二预设块，得到第二图像特征；将第二图像特征分别输入位置注意力模块和通道注意力模块，获取具有位置表征的图像特征和具有通道表征的图像特征；对具有位置表征的图像特征和具有通道表征的图像特征进行融合，得到表征图像特征；将表征图像特征输入第一卷积层和池化层，得到第一标签信息。

其中，位置注意力模块和通道注意力模块可以如图2所示，图2为所采用的网络模型的示意图。在图2中，残差神经网络的第一预设块之后连接有一个主干网和一个支路网；主干网中包括：残差神经网络的第二预设块、位置注意力模块和通道注意力模块组成的注意力模型、第一卷积层以及池化层。

本实施例中，位置注意力模块PAM用于在第二图像特征中融合多个标签的位置关系，得到具有位置表征的图像特征。通道注意力模块CAM用于在第二图像特征中融合多个标签之间的相关性，得到具有通道表征的图像特征。

进一步地，在上述实施例的基础上，所述输入模块62具体可以用于，将第一图像特征输入第二卷积层，得到类别注意力图，类别注意力图中包括：图像中各个类别对应的图像特征；将类别注意力图输入双向神经网络，获取具有标签相关性表征的第二标签信息。

本实施例中，双向神经网络可以为双向长短期记忆网络或者双向RNN网络。其中，双向长短期记忆网络是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。而类别注意力图中各个类别对应的图像特征之间的相关的，具有依赖性，采用双向长短期记忆网络能够识别这种依赖性，得到具有标签相关性表征的第二标签信息。

本实施例中，确定模块63具体可以用于，对第一标签信息和第二标签信息进行加权求和，得到图像对应的标签信息。其中，加权求和可以为根据第一标签信息的权重和第二标签信息的权重进行加权求和，或者，可以为对第一标签信息和第二标签信息求平均值，得到图像对应的标签信息。

图7为本发明实施例提供的另一种图像识别装置的结构示意图，如图7所示，在图6所示实施例的基础上，所述的装置还可以包括：训练模块64；

其中，所述获取模块61，还用于获取训练数据，训练数据中包括：大于预设数量的图像以及对应的真实标签信息；

所述训练模块64，用于根据训练数据，对残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络进行训练。

本实施例中，训练模块64具体可以用于，针对训练数据中的每个图像，获取图像对应的第一标签信息；根据图像对应的第一标签信息以及真实标签信息，计算第一交叉熵，根据第一交叉熵对残差神经网络、注意力模型、第一卷积层和池化层的系数进行调整，直至第一交叉熵处于稳定状态；固定残差神经网络的第一预设块的系数，针对训练数据中的每个图像，获取图像对应的第二标签信息，根据图像对应的第二标签信息以及真实标签信息，计算第二交叉熵，根据第二交叉熵对第二卷积层以及双向神经网络的系数进行调整，直至第二交叉熵处于稳定状态。

进一步地，在上述实施例的基础上，根据第二交叉熵对第二卷积层以及双向神经网络的系数进行调整之后，训练模块64具体还可以用于，针对训练数据中的每个图像，重新获取图像对应的第一标签信息和第二标签信息；根据重新获取的第一标签信息、第二标签信息以及真实标签信息，重新计算第一交叉熵和第二交叉熵；根据重新计算的第一交叉熵和重新计算的第二交叉熵对残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络的系数进行微调，直至重新计算的第一交叉熵和重新计算的第二交叉熵的和处于稳定状态。

本发明还提供一种图像识别装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的图像识别方法。

图8示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图8显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器52。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统54可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块72的程序/实用工具50，可以存储在例如存储器28中，这样的程序模块72包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

本发明还提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的图像识别方法。

本发明还提供一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如上所述的图像识别方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种图像识别方法，其特征在于，包括：

获取待识别的图像；

根据所述第一标签信息和所述第二标签信息，确定所述图像对应的标签信息；

其中，所述双向神经网络为双向长短期记忆网络或者双向循环神经网络；

所述残差神经网络包括：5个残差块；

所述第一预设块为所述残差神经网络中的前4个残差块；

所述第二预设块为所述残差神经网络中的第5个残差块。

2.根据权利要求1所述的方法，其特征在于，所述注意力模型包括：位置注意力模块和通道注意力模块；

3.根据权利要求1所述的方法，其特征在于，所述将所述第一图像特征输入依次排列的第二卷积层和双向神经网络，得到具有标签相关性表征的第二标签信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一标签信息和所述第二标签信息，确定所述图像对应的标签信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述图像输入残差神经网络的第一预设块，获取所述图像对应的第一图像特征之前，还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述训练数据，对所述残差神经网络、注意力模型、第一卷积层、池化层、第二卷积层以及双向神经网络进行训练，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据第二交叉熵对所述第二卷积层以及所述双向神经网络的系数进行调整之后，还包括：

8.一种图像识别装置，其特征在于，包括：

获取模块，用于获取待识别的图像；

确定模块，用于根据所述第一标签信息和所述第二标签信息，确定所述图像对应的标签信息；

所述残差神经网络包括：5个残差块；

所述第一预设块为所述残差神经网络中的前4个残差块；

所述第二预设块为所述残差神经网络中的第5个残差块。

9.一种图像识别装置，其特征在于，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的图像识别方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的图像识别方法。