CN108171268A - 一种图像处理方法及电子设备 - Google Patents
一种图像处理方法及电子设备 Download PDFInfo
- Publication number
- CN108171268A CN108171268A CN201810001078.3A CN201810001078A CN108171268A CN 108171268 A CN108171268 A CN 108171268A CN 201810001078 A CN201810001078 A CN 201810001078A CN 108171268 A CN108171268 A CN 108171268A
- Authority
- CN
- China
- Prior art keywords
- dependence
- target image
- characteristic pattern
- attention
- label information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像处理方法,方法包括:将目标图像经过CNN后得到目标图像的特征图,将每一个时刻输入的标签信息经过RNN后,输出标签信息之间的依赖关系,将特征图以及依赖关系基于注意力机制,得到内容向量,基于内容向量与依赖关系输出目标图像当前时刻t的分类标签。本发明由于加入了注意力机制,CNN的特征与RNN的不同时刻输出结合更加紧密,因此提高了图像多标签分类的准确率。本发明还公开了一种电子设备。
Description
技术领域
本发明涉及电子技术领域,尤其涉及一种图像处理方法及电子设备。
背景技术
随着电子技术以及人工智能的不断发展,通常需要对图像进行标签分类,并且随着图像中内容的多元化,需要对图像进行多标签分类。
目前,在对图像进行多标签分类时,主要由CNN(Convolutional Neural Network,卷积神经网络)和RNN(Recurrent neural Network,循环神经网络)构建的模型进行分类。分类主要由两路组成,一路在图像信息输入时,通过CNN提取出关于图像信息的特征向量,另一路将输入的标签信息经过词嵌入编码成标签向量,然后通过RNN学习不同标签之间的依赖关系,最后通过投影层将两路输出映射到相同的低维空间,得出当前时刻图像的预测标签。
由此可以看出,现有技术在对图像进行多标签分类时,对于在不同时刻预测某个标签时,得到的关于图像的特征信息都是固定的,不能在预测不同标签时,自适应的根据不同标签关注图像的不同区域,使得图像多标签的分类准确率较低。
发明内容
有鉴于此,本发明提供一种图像处理方法,能够提高图像多标签分类的准确率。
本发明提供了一种图像处理方法,所述方法包括:
将目标图像经过CNN后得到所述目标图像的特征图;
将每一个时刻输入的标签信息经过RNN后,输出所述标签信息之间的依赖关系;
将所述特征图以及所述依赖关系基于注意力机制,得到内容向量;
基于所述内容向量与所述依赖关系输出所述目标图像当前时刻t的分类标签。
优选地,所述将每一个时刻输入的标签信息经过RNN后,输出所述标签信息之间的依赖关系包括:
将每一个时刻t输入的标签信息ek(t)编码为具有一定语义的向量wk(t);
基于RNN对每个向量wk(t)进行学习,输出每个向量wk(t)之间的依赖关系o(t)。
优选地,所述将所述特征图以及所述依赖关系基于注意力机制,得到内容向量包括:
将所述特征图M和所述依赖关系o(t)映射到相同的空间,并得到注意力关于k个位置的注意力分布状态αt;
将所述注意力分布状态αt加权到所述目标图像不同的位置,得到内容向量c(t)。
优选地,所述将每一个时刻t输入的标签信息ek(t)编码为具有一定语义的向量wk(t)包括:
将每一个时刻t输入的标签信息ek(t)通过词嵌入编码为具有一定语义的向量wk(t)。
优选地,所述将所述特征图M和所述依赖关系o(t)映射到相同的空间,并得到注意力关于k个位置的注意力分布状态αt包括:
基于公式Zt=W×tanh(WoO(t)+WmM)将所述特征图M和所述依赖关系o(t)映射到相同的空间,其中:w,Wo,Wm为参数矩阵,tanh(·)为激活函数;
基于公式αt=softmax(Zt)得到注意力关于k个位置的注意力分布状态αt,其中:softmax(·)为常用的归一化函数。
优选地,将所述注意力分布状态αt加权到所述目标图像不同的位置,得到内容向量c(t)包括:
基于公式将所述注意力分布状态αt加权到所述目标图像不同的位置,得到内容向量c(t),其中:mti为时刻t中所述特征图M的第i项。
优选地,所述基于所述内容向量c(t)与所述依赖关系o(t)输出所述目标图像当前时刻t的分类标签包括:
将所述内容向量c(t)与所述依赖关系o(t)通过投影层映射到相同的低维空间;
基于所述映射层的输出,通过预测层输出所述目标图像当前时刻t的分类标签。
一种电子设备,包括:
存储器,用于存储应用程序与应用程序运行所产生的数据;
处理器,用于运行所述应用程序以将目标图像经过CNN后得到所述目标图像的特征图;
所述处理器,还用于将每一个时刻输入的标签信息经过RNN后,输出所述标签信息之间的依赖关系;
所述处理器,还用于将所述特征图以及所述依赖关系基于注意力机制,得到内容向量;
所述处理器,还用于基于所述内容向量与所述依赖关系输出所述目标图像当前时刻t的分类标签。
优选地,所述处理器在将每一个时刻输入的标签信息经过RNN后,输出所述标签信息之间的依赖关系时,具体用于:
将每一个时刻t输入的标签信息ek(t)编码为具有一定语义的向量wk(t);
基于RNN对每个向量wk(t)进行学习,输出每个向量wk(t)之间的依赖关系o(t)。
优选地,所述处理器在将所述特征图以及所述依赖关系基于注意力机制,得到内容向量时,具体用于:
将所述特征图M和所述依赖关系o(t)映射到相同的空间,并得到注意力关于k个位置的注意力分布状态αt;
将所述注意力分布状态αt加权到所述目标图像不同的位置,得到内容向量c(t)。
从上述技术方案可以看出,本申请公开的一种图像处理方法,当需要对图像进行多标签分类时,首先将目标图像经过CNN后得到目标图像的特征图,同时,将每一个时刻输入的标签信息经过RNN后,输出标签信息之间的依赖关系,然后将特征图以及依赖关系基于注意力机制,得到内容向量,最后基于内容向量与依赖关系输出目标图像当前时刻t的分类标签。由于加入了注意力机制,CNN的特征与RNN的不同时刻输出结合更加紧密,因此提高了图像多标签分类的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种图像处理方法实施例1的方法流程图;
图2为本发明公开的一种图像处理方法实施例2的方法流程图;
图3为本发明公开的一种电子设备实施例1的结构示意图;
图4为本发明公开的一种电子设备实施例2的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明公开的一种图像处理方法实施例1的方法流程图,所述方法可以包括以下步骤:
S101、将目标图像经过CNN后得到目标图像的特征图;
当需要图像进行多标签分类时,首先对目标图像,即待进行多标签分类的图像,通过深层卷积神经网络进行处理,输出目标图像的特征图。其中,输出的目标图像的特征图是一个三维数组,形状是(w,h,d),特征图的空间分辨率为k=w×h。
S102、将每一个时刻输入的标签信息经过RNN后,输出标签信息之间的依赖关系;
同时,在每一个时刻输入一个标签信息,例如,每隔时间间隔t输入一个新的标签信息。然后,将输入的所有标签信息通过递归神经网络,学习不同标签信息之间的依赖关系。
S103、将特征图以及依赖关系基于注意力机制,得到内容向量;
当获取到目标图像的特征图以及标签信息之间的依赖关系后,引入注意力机制。其中,注意力机制对从图像得到的特征图分配权重系数,例如,分辨率为10x10的特征图,就有100个权重系数。目的是希望模型在预测标签的时候,图像中的相应区域会有更大的权重,无关的区域有小的权重,达到“注意”的效果。例如,一张有猫和狗的图,模型预测猫的时候,图像中跟猫有关的部分区域的特征响应会增强,预测狗也是类似。采用注意力机制后,根据特征图以及依赖关系,得到内容向量。
S104、基于内容向量与依赖关系输出目标图像当前时刻t的分类标签。
最后,将得到的内容向量以及依赖关系输入预测层,预测输出目标图像当前时刻t的分类标签。
综上所述,在上述实施例中,当需要对图像进行多标签分类时,首先将目标图像经过CNN后得到目标图像的特征图,同时,将每一个时刻输入的标签信息经过RNN后,输出标签信息之间的依赖关系,然后将特征图以及依赖关系基于注意力机制,得到内容向量,最后基于内容向量与依赖关系输出目标图像当前时刻t的分类标签。由于加入了注意力机制,CNN的特征与RNN的不同时刻输出结合更加紧密,因此提高了图像多标签分类的准确率。
如图2所示,为本发明公开的一种图像处理方法实施例2的方法流程图,所述方法可以包括以下步骤:
S201、将目标图像经过CNN后得到目标图像的特征图M;
当需要图像进行多标签分类时,首先对目标图像,即待进行多标签分类的图像,通过深层卷积神经网络进行处理,输出目标图像的特征图M。其中,输出的目标图像的特征图是一个三维数组,形状是(w,h,d),特征图的空间分辨率为k=w×h。
S202、将每一个时刻t输入的标签信息ek(t)编码为具有一定语义的向量wk(t);
同时,在每一个时刻输入一个标签信息ek(t),例如,每隔时间间隔t输入一个新的标签信息ek(t)。然后,将输入的所有标签信息,分别编码为具有一定语义的向量wk(t)。
具体的,可以将每一个时刻t输入的标签信息ek(t)通过词嵌入编码为具有一定语义的向量wk(t)。
S203、基于RNN对每个向量wk(t)进行学习,输出每个向量wk(t)之间的依赖关系o(t);
然后对每个具有一定语义的向量wk(t)通过递归神经网络进行学习,输出每个向量wk(t)之间的依赖关系o(t)。
S204、将特征图M和依赖关系o(t)映射到相同的空间,并得到注意力关于k个位置的注意力分布状态αt;
当获取到目标图像的特征图M以及标签信息之间的依赖关系o(t)后,引入注意力机制。其中,注意力机制对从图像得到的特征图分配权重系数,例如,分辨率为10x10的特征图,就有100个权重系数。目的是希望模型在预测标签的时候,图像中的相应区域会有更大的权重,无关的区域有小的权重,达到“注意”的效果。例如,一张有猫和狗的图,模型预测猫的时候,图像中跟猫有关的部分区域的特征响应会增强,预测狗也是类似。将特征图M和依赖关系o(t)映射到相同的空间,并得到注意力关于k个位置的注意力分布状态αt。
具体的,在将特征图M和所述依赖关系o(t)映射到相同的空间,并得到注意力关于k个位置的注意力分布状态αt时,可以基于公式Zt=W×tanh(WoO(t)+WmM)将特征图M和依赖关系o(t)映射到相同的空间,其中:w,Wo,Wm为参数矩阵,tanh(·)为激活函数,然后基于公式αt=softmax(Zt)得到注意力关于k个位置的注意力分布状态αt,其中:softmax(·)为常用的归一化函数。
S205、将注意力分布状态αt加权到目标图像不同的位置,得到内容向量c(t);
当得到注意力关于k个位置的注意力分布状态αt后,将注意力分布状态αt加权到目标图像不同的位置,得到内容向量c(t)。
具体的,在将注意力分布状态αt加权到目标图像不同的位置,得到内容向量c(t)时,可以基于公式将注意力分布状态αt加权到目标图像不同的位置,得到内容向量c(t),其中:mti为时刻t中所述特征图M的第i项。
直观理解就是,在t时刻,对k=w×h个位置分配的权重αt与特征图的对应项相乘。达到的效果就是,在不同时刻t,特征图会有不同的相应。例如,预测猫的时候,特征图跟猫相关的区域得到加强,其他区域减弱。
S206、将内容向量c(t)与依赖关系o(t)通过投影层映射到相同的低维空间;
当获取到内容向量c(t)以及依赖关系o(t)后,将内容向量c(t)与依赖关系o(t)通过投影层,基于公式x'(t)=tanh(Wp(o(t)+c(t)))映射到相同的低维空间。其中,其中Wp是参数矩阵。跟以前的模型对比,x’(t)中跟图像相关分布c(t)会随着时刻t变化,而不是一个固定的I;可以达到预测不同物体的时候,加强图像相应部分特征的效果,从而提高预测的准确率。
S207、基于映射层的输出,通过预测层输出目标图像当前时刻t的分类标签。
最后,基于映射层的输出x’(t),通过预测层输出目标图像当前时刻t的分类标签。
综上所述,在上述实施例中,当需要对图像进行多标签分类时,首先将目标图像经过CNN后得到目标图像的特征图,同时,将每一个时刻输入的标签信息经过RNN后,输出标签信息之间的依赖关系,然后将特征图以及依赖关系基于注意力机制,得到内容向量,最后基于内容向量与依赖关系输出目标图像当前时刻t的分类标签。由于加入了注意力机制,CNN的特征与RNN的不同时刻输出结合更加紧密,因此提高了图像多标签分类的准确率。
如图3所示,为本发明公开的一种电子设备实施例1的结构示意图,所述电子设备可以包括:
存储器301,用于存储应用程序与应用程序运行所产生的数据;
处理器302,用于运行所述应用程序以将目标图像经过CNN后得到目标图像的特征图;
当需要图像进行多标签分类时,首先对目标图像,即待进行多标签分类的图像,通过深层卷积神经网络进行处理,输出目标图像的特征图。其中,输出的目标图像的特征图是一个三维数组,形状是(w,h,d),特征图的空间分辨率为k=w×h。
处理器302,还用于将每一个时刻输入的标签信息经过RNN后,输出标签信息之间的依赖关系;
同时,在每一个时刻输入一个标签信息,例如,每隔时间间隔t输入一个新的标签信息。然后,将输入的所有标签信息通过递归神经网络,学习不同标签信息之间的依赖关系。
处理器302,还用于将特征图以及依赖关系基于注意力机制,得到内容向量;
当获取到目标图像的特征图以及标签信息之间的依赖关系后,引入注意力机制。其中,注意力机制对从图像得到的特征图分配权重系数,例如,分辨率为10x10的特征图,就有100个权重系数。目的是希望模型在预测标签的时候,图像中的相应区域会有更大的权重,无关的区域有小的权重,达到“注意”的效果。例如,一张有猫和狗的图,模型预测猫的时候,图像中跟猫有关的部分区域的特征响应会增强,预测狗也是类似。采用注意力机制后,根据特征图以及依赖关系,得到内容向量。
处理器302,还用于基于内容向量与依赖关系输出目标图像当前时刻t的分类标签。
最后,将得到的内容向量以及依赖关系输入预测层,预测输出目标图像当前时刻t的分类标签。
综上所述,在上述实施例中,当需要对图像进行多标签分类时,首先将目标图像经过CNN后得到目标图像的特征图,同时,将每一个时刻输入的标签信息经过RNN后,输出标签信息之间的依赖关系,然后将特征图以及依赖关系基于注意力机制,得到内容向量,最后基于内容向量与依赖关系输出目标图像当前时刻t的分类标签。由于加入了注意力机制,CNN的特征与RNN的不同时刻输出结合更加紧密,因此提高了图像多标签分类的准确率。
如图4所示,为本发明公开的一种电子设备实施例2的结构示意图,所述电子设备可以包括:
存储器401,用于存储应用程序与应用程序运行所产生的数据;
处理器402,用于运行所述应用程序以将目标图像经过CNN后得到目标图像的特征图M;
当需要图像进行多标签分类时,首先对目标图像,即待进行多标签分类的图像,通过深层卷积神经网络进行处理,输出目标图像的特征图M。其中,输出的目标图像的特征图是一个三维数组,形状是(w,h,d),特征图的空间分辨率为k=w×h。
处理器402,还用于将每一个时刻t输入的标签信息ek(t)编码为具有一定语义的向量wk(t);
同时,在每一个时刻输入一个标签信息ek(t),例如,每隔时间间隔t输入一个新的标签信息ek(t)。然后,将输入的所有标签信息,分别编码为具有一定语义的向量wk(t)。
具体的,可以将每一个时刻t输入的标签信息ek(t)通过词嵌入编码为具有一定语义的向量wk(t)。
处理器402,还用于基于RNN对每个向量wk(t)进行学习,输出每个向量wk(t)之间的依赖关系o(t);
然后对每个具有一定语义的向量wk(t)通过递归神经网络进行学习,输出每个向量wk(t)之间的依赖关系o(t)。
处理器402,还用于将特征图M和依赖关系o(t)映射到相同的空间,并得到注意力关于k个位置的注意力分布状态αt;
当获取到目标图像的特征图M以及标签信息之间的依赖关系o(t)后,引入注意力机制。其中,注意力机制对从图像得到的特征图分配权重系数,例如,分辨率为10x10的特征图,就有100个权重系数。目的是希望模型在预测标签的时候,图像中的相应区域会有更大的权重,无关的区域有小的权重,达到“注意”的效果。例如,一张有猫和狗的图,模型预测猫的时候,图像中跟猫有关的部分区域的特征响应会增强,预测狗也是类似。将特征图M和依赖关系o(t)映射到相同的空间,并得到注意力关于k个位置的注意力分布状态αt。
具体的,在将特征图M和所述依赖关系o(t)映射到相同的空间,并得到注意力关于k个位置的注意力分布状态αt时,可以基于公式Zt=W×tanh(WoO(t)+WmM)将特征图M和依赖关系o(t)映射到相同的空间,其中:w,Wo,Wm为参数矩阵,tanh(·)为激活函数,然后基于公式αt=softmax(Zt)得到注意力关于k个位置的注意力分布状态αt,其中:softmax(·)为常用的归一化函数。
处理器402,还用于将注意力分布状态αt加权到目标图像不同的位置,得到内容向量c(t);
当得到注意力关于k个位置的注意力分布状态αt后,将注意力分布状态αt加权到目标图像不同的位置,得到内容向量c(t)。
具体的,在将注意力分布状态αt加权到目标图像不同的位置,得到内容向量c(t)时,可以基于公式将注意力分布状态αt加权到目标图像不同的位置,得到内容向量c(t),其中:mti为时刻t中所述特征图M的第i项。
直观理解就是,在t时刻,对k=w×h个位置分配的权重αt与特征图的对应项相乘。达到的效果就是,在不同时刻t,特征图会有不同的相应。例如,预测猫的时候,特征图跟猫相关的区域得到加强,其他区域减弱。
处理器402,还用于将内容向量c(t)与依赖关系o(t)通过投影层映射到相同的低维空间;
当获取到内容向量c(t)以及依赖关系o(t)后,将内容向量c(t)与依赖关系o(t)通过投影层,基于公式x'(t)=tanh(Wp(o(t)+c(t)))映射到相同的低维空间。其中,其中Wp是参数矩阵。跟以前的模型对比,x’(t)中跟图像相关分布c(t)会随着时刻t变化,而不是一个固定的I;可以达到预测不同物体的时候,加强图像相应部分特征的效果,从而提高预测的准确率。
处理器402,还用于基于映射层的输出,通过预测层输出目标图像当前时刻t的分类标签。
最后,基于映射层的输出x’(t),通过预测层输出目标图像当前时刻t的分类标签。
综上所述,在上述实施例中,当需要对图像进行多标签分类时,首先将目标图像经过CNN后得到目标图像的特征图,同时,将每一个时刻输入的标签信息经过RNN后,输出标签信息之间的依赖关系,然后将特征图以及依赖关系基于注意力机制,得到内容向量,最后基于内容向量与依赖关系输出目标图像当前时刻t的分类标签。由于加入了注意力机制,CNN的特征与RNN的不同时刻输出结合更加紧密,因此提高了图像多标签分类的准确率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种图像处理方法,其特征在于,所述方法包括:
将目标图像经过CNN后得到所述目标图像的特征图;
将每一个时刻输入的标签信息经过RNN后,输出所述标签信息之间的依赖关系;
将所述特征图以及所述依赖关系基于注意力机制,得到内容向量;
基于所述内容向量与所述依赖关系输出所述目标图像当前时刻t的分类标签。
2.根据权利要求1所述的方法,其特征在于,所述将每一个时刻输入的标签信息经过RNN后,输出所述标签信息之间的依赖关系包括:
将每一个时刻t输入的标签信息ek(t)编码为具有一定语义的向量wk(t);
基于RNN对每个向量wk(t)进行学习,输出每个向量wk(t)之间的依赖关系o(t)。
3.根据权利要求2所述的方法,其特征在于,所述将所述特征图以及所述依赖关系基于注意力机制,得到内容向量包括:
将所述特征图M和所述依赖关系o(t)映射到相同的空间,并得到注意力关于k个位置的注意力分布状态αt;
将所述注意力分布状态αt加权到所述目标图像不同的位置,得到内容向量c(t)。
4.根据权利要求3所述的方法,其特征在于,所述将每一个时刻t输入的标签信息ek(t)编码为具有一定语义的向量wk(t)包括:
将每一个时刻t输入的标签信息ek(t)通过词嵌入编码为具有一定语义的向量wk(t)。
5.根据权利要求4所述的方法,其特征在于,所述将所述特征图M和所述依赖关系o(t)映射到相同的空间,并得到注意力关于k个位置的注意力分布状态αt包括:
基于公式Zt=W×tanh(WoO(t)+WmM)将所述特征图M和所述依赖关系o(t)映射到相同的空间,其中:w,Wo,Wm为参数矩阵,tanh(·)为激活函数;
基于公式αt=softmax(Zt)得到注意力关于k个位置的注意力分布状态αt,其中:softmax(·)为常用的归一化函数。
6.根据权利要求5所述的方法,其特征在于,将所述注意力分布状态αt加权到所述目标图像不同的位置,得到内容向量c(t)包括:
基于公式将所述注意力分布状态αt加权到所述目标图像不同的位置,得到内容向量c(t),其中:mti为时刻t中所述特征图M的第i项。
7.根据权利要求6所述的方法,其特征在于,所述基于所述内容向量c(t)与所述依赖关系o(t)输出所述目标图像当前时刻t的分类标签包括:
将所述内容向量c(t)与所述依赖关系o(t)通过投影层映射到相同的低维空间;
基于所述映射层的输出,通过预测层输出所述目标图像当前时刻t的分类标签。
8.一种电子设备,其特征在于,包括:
存储器,用于存储应用程序与应用程序运行所产生的数据;
处理器,用于运行所述应用程序以将目标图像经过CNN后得到所述目标图像的特征图;
所述处理器,还用于将每一个时刻输入的标签信息经过RNN后,输出所述标签信息之间的依赖关系;
所述处理器,还用于将所述特征图以及所述依赖关系基于注意力机制,得到内容向量;
所述处理器,还用于基于所述内容向量与所述依赖关系输出所述目标图像当前时刻t的分类标签。
9.根据权利要求8所述的电子设备,其特征在于,所述处理器在将每一个时刻输入的标签信息经过RNN后,输出所述标签信息之间的依赖关系时,具体用于:
将每一个时刻t输入的标签信息ek(t)编码为具有一定语义的向量wk(t);
基于RNN对每个向量wk(t)进行学习,输出每个向量wk(t)之间的依赖关系o(t)。
10.根据权利要求9所述的电子设备,其特征在于,所述处理器在将所述特征图以及所述依赖关系基于注意力机制,得到内容向量时,具体用于:
将所述特征图M和所述依赖关系o(t)映射到相同的空间,并得到注意力关于k个位置的注意力分布状态αt;
将所述注意力分布状态αt加权到所述目标图像不同的位置,得到内容向量c(t)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810001078.3A CN108171268A (zh) | 2018-01-02 | 2018-01-02 | 一种图像处理方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810001078.3A CN108171268A (zh) | 2018-01-02 | 2018-01-02 | 一种图像处理方法及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108171268A true CN108171268A (zh) | 2018-06-15 |
Family
ID=62516941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810001078.3A Pending CN108171268A (zh) | 2018-01-02 | 2018-01-02 | 一种图像处理方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108171268A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046949A (zh) * | 2019-12-10 | 2020-04-21 | 东软集团股份有限公司 | 一种图像分类方法、装置及设备 |
CN111767727A (zh) * | 2020-06-24 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 数据处理方法及装置 |
CN112328823A (zh) * | 2020-11-25 | 2021-02-05 | Oppo广东移动通信有限公司 | 多标签分类模型的训练方法、装置、电子设备及存储介质 |
CN112580614A (zh) * | 2021-02-25 | 2021-03-30 | 之江实验室 | 一种基于注意力机制的手绘草图识别方法 |
CN112766330A (zh) * | 2021-01-07 | 2021-05-07 | 济南浪潮高新科技投资发展有限公司 | 图像多标签分类方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
CN107220667A (zh) * | 2017-05-24 | 2017-09-29 | 北京小米移动软件有限公司 | 图像分类方法、装置及计算机可读存储介质 |
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
-
2018
- 2018-01-02 CN CN201810001078.3A patent/CN108171268A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
CN107220667A (zh) * | 2017-05-24 | 2017-09-29 | 北京小米移动软件有限公司 | 图像分类方法、装置及计算机可读存储介质 |
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
Non-Patent Citations (2)
Title |
---|
JIANG WANG 等: "CNN-RNN: A Unified Framework for Multi-label Image Classification", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
JIASEN LU 等: "Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046949A (zh) * | 2019-12-10 | 2020-04-21 | 东软集团股份有限公司 | 一种图像分类方法、装置及设备 |
CN111767727A (zh) * | 2020-06-24 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 数据处理方法及装置 |
CN111767727B (zh) * | 2020-06-24 | 2024-02-06 | 北京奇艺世纪科技有限公司 | 数据处理方法及装置 |
CN112328823A (zh) * | 2020-11-25 | 2021-02-05 | Oppo广东移动通信有限公司 | 多标签分类模型的训练方法、装置、电子设备及存储介质 |
CN112766330A (zh) * | 2021-01-07 | 2021-05-07 | 济南浪潮高新科技投资发展有限公司 | 图像多标签分类方法和装置 |
CN112766330B (zh) * | 2021-01-07 | 2022-06-28 | 山东浪潮科学研究院有限公司 | 图像多标签分类方法和装置 |
CN112580614A (zh) * | 2021-02-25 | 2021-03-30 | 之江实验室 | 一种基于注意力机制的手绘草图识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108171268A (zh) | 一种图像处理方法及电子设备 | |
Wu et al. | Object detection based on RGC mask R‐CNN | |
TWI690191B (zh) | 圖結構模型訓練、垃圾帳戶識別方法、裝置以及設備 | |
Ali et al. | An improved class of real-coded Genetic Algorithms for numerical optimization✰ | |
Kwakkel et al. | Developing dynamic adaptive policy pathways: a computer-assisted approach for developing adaptive strategies for a deeply uncertain world | |
Sun et al. | A global search strategy of quantum-behaved particle swarm optimization | |
Lee et al. | Retracted: A hybrid artificial intelligence sales‐forecasting system in the convenience store industry | |
Song | Robust visual tracking via online informative feature selection | |
CN111581046A (zh) | 数据异常检测方法、装置、电子设备及存储介质 | |
CN109977861A (zh) | 离线手写体数学公式识别方法 | |
CN112801706B (zh) | 一种游戏用户行为数据挖掘方法及系统 | |
KR102284356B1 (ko) | 컴퓨터 네트워크 시스템의 생성적 대립 네트워크를 이용한 데이터의 불균형 해결방법 | |
CN111160555A (zh) | 基于神经网络的处理方法、装置及电子设备 | |
CN109522970A (zh) | 图像分类方法、装置及系统 | |
CN108596255A (zh) | 兼顾公平性的上下文感知学习的结果预测分类器 | |
Lin et al. | Few-shot learning approach with multi-scale feature fusion and attention for plant disease recognition | |
CN113255747B (zh) | 量子多通道卷积神经分类方法、系统、终端及存储介质 | |
CN108470212B (zh) | 一种能利用事件持续时间的高效lstm设计方法 | |
Pelikan et al. | Getting the best of both worlds: Discrete and continuous genetic and evolutionary algorithms in concert | |
Kumar et al. | Study of Hopfield neural network with sub-optimal and random GA for pattern recalling of English characters | |
Valenzuela et al. | A percentile multi-verse optimizer algorithm applied to the knapsack problem | |
CN114036306A (zh) | 模型训练方法、装置、计算机设备及计算机可读存储介质 | |
CN107203585A (zh) | 一种基于深度学习的茄类图像检索方法和设备 | |
Liu et al. | Transfer Learning and Identification Method of Cross‐View Target Trajectory Utilizing HMM | |
Zhengfeng | Accurate recognition method of continuous sports action based on deep learning algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180615 |
|
RJ01 | Rejection of invention patent application after publication |