CN108171268A

CN108171268A - 一种图像处理方法及电子设备

Info

Publication number: CN108171268A
Application number: CN201810001078.3A
Authority: CN
Inventors: 刘景贤; 徐霄
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2018-01-02
Filing date: 2018-01-02
Publication date: 2018-06-15

Abstract

本发明公开了一种图像处理方法，方法包括：将目标图像经过CNN后得到目标图像的特征图，将每一个时刻输入的标签信息经过RNN后，输出标签信息之间的依赖关系，将特征图以及依赖关系基于注意力机制，得到内容向量，基于内容向量与依赖关系输出目标图像当前时刻t的分类标签。本发明由于加入了注意力机制，CNN的特征与RNN的不同时刻输出结合更加紧密，因此提高了图像多标签分类的准确率。本发明还公开了一种电子设备。

Description

一种图像处理方法及电子设备

技术领域

本发明涉及电子技术领域，尤其涉及一种图像处理方法及电子设备。

背景技术

随着电子技术以及人工智能的不断发展，通常需要对图像进行标签分类，并且随着图像中内容的多元化，需要对图像进行多标签分类。

目前，在对图像进行多标签分类时，主要由CNN(Convolutional Neural Network，卷积神经网络)和RNN(Recurrent neural Network，循环神经网络)构建的模型进行分类。分类主要由两路组成，一路在图像信息输入时，通过CNN提取出关于图像信息的特征向量，另一路将输入的标签信息经过词嵌入编码成标签向量，然后通过RNN学习不同标签之间的依赖关系，最后通过投影层将两路输出映射到相同的低维空间，得出当前时刻图像的预测标签。

由此可以看出，现有技术在对图像进行多标签分类时，对于在不同时刻预测某个标签时，得到的关于图像的特征信息都是固定的，不能在预测不同标签时，自适应的根据不同标签关注图像的不同区域，使得图像多标签的分类准确率较低。

发明内容

有鉴于此，本发明提供一种图像处理方法，能够提高图像多标签分类的准确率。

本发明提供了一种图像处理方法，所述方法包括：

将目标图像经过CNN后得到所述目标图像的特征图；

将每一个时刻输入的标签信息经过RNN后，输出所述标签信息之间的依赖关系；

将所述特征图以及所述依赖关系基于注意力机制，得到内容向量；

基于所述内容向量与所述依赖关系输出所述目标图像当前时刻t的分类标签。

优选地，所述将每一个时刻输入的标签信息经过RNN后，输出所述标签信息之间的依赖关系包括：

将每一个时刻t输入的标签信息e_k(t)编码为具有一定语义的向量w_k(t)；

基于RNN对每个向量w_k(t)进行学习，输出每个向量w_k(t)之间的依赖关系o(t)。

优选地，所述将所述特征图以及所述依赖关系基于注意力机制，得到内容向量包括：

将所述特征图M和所述依赖关系o(t)映射到相同的空间，并得到注意力关于k个位置的注意力分布状态α_t；

将所述注意力分布状态α_t加权到所述目标图像不同的位置，得到内容向量c(t)。

优选地，所述将每一个时刻t输入的标签信息e_k(t)编码为具有一定语义的向量w_k(t)包括：

将每一个时刻t输入的标签信息e_k(t)通过词嵌入编码为具有一定语义的向量w_k(t)。

优选地，所述将所述特征图M和所述依赖关系o(t)映射到相同的空间，并得到注意力关于k个位置的注意力分布状态α_t包括：

基于公式Z_t＝W×tanh(W_oO(t)+W_mM)将所述特征图M和所述依赖关系o(t)映射到相同的空间，其中：w，W_o，W_m为参数矩阵，tanh(·)为激活函数；

基于公式α_t＝softmax(Z_t)得到注意力关于k个位置的注意力分布状态α_t，其中：softmax(·)为常用的归一化函数。

优选地，将所述注意力分布状态α_t加权到所述目标图像不同的位置，得到内容向量c(t)包括：

基于公式将所述注意力分布状态α_t加权到所述目标图像不同的位置，得到内容向量c(t)，其中：m_ti为时刻t中所述特征图M的第i项。

优选地，所述基于所述内容向量c(t)与所述依赖关系o(t)输出所述目标图像当前时刻t的分类标签包括：

将所述内容向量c(t)与所述依赖关系o(t)通过投影层映射到相同的低维空间；

基于所述映射层的输出，通过预测层输出所述目标图像当前时刻t的分类标签。

一种电子设备，包括：

存储器，用于存储应用程序与应用程序运行所产生的数据；

处理器，用于运行所述应用程序以将目标图像经过CNN后得到所述目标图像的特征图；

所述处理器，还用于将每一个时刻输入的标签信息经过RNN后，输出所述标签信息之间的依赖关系；

所述处理器，还用于将所述特征图以及所述依赖关系基于注意力机制，得到内容向量；

所述处理器，还用于基于所述内容向量与所述依赖关系输出所述目标图像当前时刻t的分类标签。

优选地，所述处理器在将每一个时刻输入的标签信息经过RNN后，输出所述标签信息之间的依赖关系时，具体用于：

优选地，所述处理器在将所述特征图以及所述依赖关系基于注意力机制，得到内容向量时，具体用于：

从上述技术方案可以看出，本申请公开的一种图像处理方法，当需要对图像进行多标签分类时，首先将目标图像经过CNN后得到目标图像的特征图，同时，将每一个时刻输入的标签信息经过RNN后，输出标签信息之间的依赖关系，然后将特征图以及依赖关系基于注意力机制，得到内容向量，最后基于内容向量与依赖关系输出目标图像当前时刻t的分类标签。由于加入了注意力机制，CNN的特征与RNN的不同时刻输出结合更加紧密，因此提高了图像多标签分类的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种图像处理方法实施例1的方法流程图；

图2为本发明公开的一种图像处理方法实施例2的方法流程图；

图3为本发明公开的一种电子设备实施例1的结构示意图；

图4为本发明公开的一种电子设备实施例2的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明公开的一种图像处理方法实施例1的方法流程图，所述方法可以包括以下步骤：

S101、将目标图像经过CNN后得到目标图像的特征图；

当需要图像进行多标签分类时，首先对目标图像，即待进行多标签分类的图像，通过深层卷积神经网络进行处理，输出目标图像的特征图。其中，输出的目标图像的特征图是一个三维数组，形状是(w，h，d)，特征图的空间分辨率为k＝w×h。

S102、将每一个时刻输入的标签信息经过RNN后，输出标签信息之间的依赖关系；

同时，在每一个时刻输入一个标签信息，例如，每隔时间间隔t输入一个新的标签信息。然后，将输入的所有标签信息通过递归神经网络，学习不同标签信息之间的依赖关系。

S103、将特征图以及依赖关系基于注意力机制，得到内容向量；

当获取到目标图像的特征图以及标签信息之间的依赖关系后，引入注意力机制。其中，注意力机制对从图像得到的特征图分配权重系数，例如，分辨率为10x10的特征图，就有100个权重系数。目的是希望模型在预测标签的时候，图像中的相应区域会有更大的权重，无关的区域有小的权重，达到“注意”的效果。例如，一张有猫和狗的图，模型预测猫的时候，图像中跟猫有关的部分区域的特征响应会增强，预测狗也是类似。采用注意力机制后，根据特征图以及依赖关系，得到内容向量。

S104、基于内容向量与依赖关系输出目标图像当前时刻t的分类标签。

最后，将得到的内容向量以及依赖关系输入预测层，预测输出目标图像当前时刻t的分类标签。

综上所述，在上述实施例中，当需要对图像进行多标签分类时，首先将目标图像经过CNN后得到目标图像的特征图，同时，将每一个时刻输入的标签信息经过RNN后，输出标签信息之间的依赖关系，然后将特征图以及依赖关系基于注意力机制，得到内容向量，最后基于内容向量与依赖关系输出目标图像当前时刻t的分类标签。由于加入了注意力机制，CNN的特征与RNN的不同时刻输出结合更加紧密，因此提高了图像多标签分类的准确率。

如图2所示，为本发明公开的一种图像处理方法实施例2的方法流程图，所述方法可以包括以下步骤：

S201、将目标图像经过CNN后得到目标图像的特征图M；

当需要图像进行多标签分类时，首先对目标图像，即待进行多标签分类的图像，通过深层卷积神经网络进行处理，输出目标图像的特征图M。其中，输出的目标图像的特征图是一个三维数组，形状是(w，h，d)，特征图的空间分辨率为k＝w×h。

S202、将每一个时刻t输入的标签信息e_k(t)编码为具有一定语义的向量w_k(t)；

同时，在每一个时刻输入一个标签信息e_k(t)，例如，每隔时间间隔t输入一个新的标签信息e_k(t)。然后，将输入的所有标签信息，分别编码为具有一定语义的向量w_k(t)。

具体的，可以将每一个时刻t输入的标签信息e_k(t)通过词嵌入编码为具有一定语义的向量w_k(t)。

S203、基于RNN对每个向量w_k(t)进行学习，输出每个向量w_k(t)之间的依赖关系o(t)；

然后对每个具有一定语义的向量w_k(t)通过递归神经网络进行学习，输出每个向量w_k(t)之间的依赖关系o(t)。

S204、将特征图M和依赖关系o(t)映射到相同的空间，并得到注意力关于k个位置的注意力分布状态α_t；

当获取到目标图像的特征图M以及标签信息之间的依赖关系o(t)后，引入注意力机制。其中，注意力机制对从图像得到的特征图分配权重系数，例如，分辨率为10x10的特征图，就有100个权重系数。目的是希望模型在预测标签的时候，图像中的相应区域会有更大的权重，无关的区域有小的权重，达到“注意”的效果。例如，一张有猫和狗的图，模型预测猫的时候，图像中跟猫有关的部分区域的特征响应会增强，预测狗也是类似。将特征图M和依赖关系o(t)映射到相同的空间，并得到注意力关于k个位置的注意力分布状态α_t。

具体的，在将特征图M和所述依赖关系o(t)映射到相同的空间，并得到注意力关于k个位置的注意力分布状态α_t时，可以基于公式Z_t＝W×tanh(W_oO(t)+W_mM)将特征图M和依赖关系o(t)映射到相同的空间，其中：w，W_o，W_m为参数矩阵，tanh(·)为激活函数，然后基于公式α_t＝softmax(Z_t)得到注意力关于k个位置的注意力分布状态α_t，其中：softmax(·)为常用的归一化函数。

S205、将注意力分布状态α_t加权到目标图像不同的位置，得到内容向量c(t)；

当得到注意力关于k个位置的注意力分布状态α_t后，将注意力分布状态α_t加权到目标图像不同的位置，得到内容向量c(t)。

具体的，在将注意力分布状态α_t加权到目标图像不同的位置，得到内容向量c(t)时，可以基于公式将注意力分布状态α_t加权到目标图像不同的位置，得到内容向量c(t)，其中：m_ti为时刻t中所述特征图M的第i项。

直观理解就是，在t时刻，对k＝w×h个位置分配的权重α_t与特征图的对应项相乘。达到的效果就是，在不同时刻t，特征图会有不同的相应。例如，预测猫的时候，特征图跟猫相关的区域得到加强，其他区域减弱。

S206、将内容向量c(t)与依赖关系o(t)通过投影层映射到相同的低维空间；

当获取到内容向量c(t)以及依赖关系o(t)后，将内容向量c(t)与依赖关系o(t)通过投影层，基于公式x'(t)＝tanh(W_p(o(t)+c(t)))映射到相同的低维空间。其中，其中W_p是参数矩阵。跟以前的模型对比，x’(t)中跟图像相关分布c(t)会随着时刻t变化，而不是一个固定的I；可以达到预测不同物体的时候，加强图像相应部分特征的效果，从而提高预测的准确率。

S207、基于映射层的输出，通过预测层输出目标图像当前时刻t的分类标签。

最后，基于映射层的输出x’(t)，通过预测层输出目标图像当前时刻t的分类标签。

如图3所示，为本发明公开的一种电子设备实施例1的结构示意图，所述电子设备可以包括：

存储器301，用于存储应用程序与应用程序运行所产生的数据；

处理器302，用于运行所述应用程序以将目标图像经过CNN后得到目标图像的特征图；

处理器302，还用于将每一个时刻输入的标签信息经过RNN后，输出标签信息之间的依赖关系；

处理器302，还用于将特征图以及依赖关系基于注意力机制，得到内容向量；

处理器302，还用于基于内容向量与依赖关系输出目标图像当前时刻t的分类标签。

如图4所示，为本发明公开的一种电子设备实施例2的结构示意图，所述电子设备可以包括：

存储器401，用于存储应用程序与应用程序运行所产生的数据；

处理器402，用于运行所述应用程序以将目标图像经过CNN后得到目标图像的特征图M；

处理器402，还用于将每一个时刻t输入的标签信息e_k(t)编码为具有一定语义的向量w_k(t)；

处理器402，还用于基于RNN对每个向量w_k(t)进行学习，输出每个向量w_k(t)之间的依赖关系o(t)；

处理器402，还用于将特征图M和依赖关系o(t)映射到相同的空间，并得到注意力关于k个位置的注意力分布状态α_t；

处理器402，还用于将注意力分布状态α_t加权到目标图像不同的位置，得到内容向量c(t)；

处理器402，还用于将内容向量c(t)与依赖关系o(t)通过投影层映射到相同的低维空间；

处理器402，还用于基于映射层的输出，通过预测层输出目标图像当前时刻t的分类标签。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

将目标图像经过CNN后得到所述目标图像的特征图；

2.根据权利要求1所述的方法，其特征在于，所述将每一个时刻输入的标签信息经过RNN后，输出所述标签信息之间的依赖关系包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述特征图以及所述依赖关系基于注意力机制，得到内容向量包括：

4.根据权利要求3所述的方法，其特征在于，所述将每一个时刻t输入的标签信息e_k(t)编码为具有一定语义的向量w_k(t)包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述特征图M和所述依赖关系o(t)映射到相同的空间，并得到注意力关于k个位置的注意力分布状态α_t包括：

6.根据权利要求5所述的方法，其特征在于，将所述注意力分布状态α_t加权到所述目标图像不同的位置，得到内容向量c(t)包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述内容向量c(t)与所述依赖关系o(t)输出所述目标图像当前时刻t的分类标签包括：

8.一种电子设备，其特征在于，包括：

存储器，用于存储应用程序与应用程序运行所产生的数据；

9.根据权利要求8所述的电子设备，其特征在于，所述处理器在将每一个时刻输入的标签信息经过RNN后，输出所述标签信息之间的依赖关系时，具体用于：

10.根据权利要求9所述的电子设备，其特征在于，所述处理器在将所述特征图以及所述依赖关系基于注意力机制，得到内容向量时，具体用于：