CN110210572A - 图像分类方法、装置、存储介质及设备 - Google Patents
图像分类方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN110210572A CN110210572A CN201910498386.6A CN201910498386A CN110210572A CN 110210572 A CN110210572 A CN 110210572A CN 201910498386 A CN201910498386 A CN 201910498386A CN 110210572 A CN110210572 A CN 110210572A
- Authority
- CN
- China
- Prior art keywords
- classification
- image
- characteristic pattern
- operation result
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Abstract
本申请实施例公开了一种图像分类方法、装置、存储介质及设备,属于计算机技术领域。所述方法包括:获取待分类的图像;根据所述图像生成特征图;根据每个类别在所述特征图中对应的注意力区域对所述特征图进行聚合,得到每个类别的特征向量;根据每个类别的特征向量确定所述图像所属的类别。本申请实施例可以提高图像分类的准确率。
Description
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种图像分类方法、装置、存储介质及设备。
背景技术
对图像进行分类后,可以对图像设置类别标签,从而可以通过类别标签来实现对图像的检索。近年来,如何对图像进行分类成为人们关注的热点。
相关技术中,在获取到图像后,先根据该图像得到特征图;再基于最大池化或平均池化对该特征图进行聚合,得到特征向量;最后根据该特征向量确定该图像所属的类别。
基于最大池化的聚合方式往往考虑的是图像中的一小块区域,而忽略了其它区域对分类的影响,从而影响图像分类的准确率;并且,图像中往往包含与类别无关的杂乱背景,基于平均池化的聚合方式会在特征向量中引入噪声,从而影响图像分类的准确率。
发明内容
本申请实施例提供了一种图像分类方法、装置、存储介质及设备,用于解决基于最大池化和平均池化进行特征聚合时,图像分类的准确率较低的问题。所述技术方案如下:
一方面,提供了一种图像分类方法,所述方法包括:
获取待分类的图像;
根据所述图像生成特征图;
根据每个类别在所述特征图中对应的注意力区域对所述特征图进行聚合,得到每个类别的特征向量;
根据每个类别的特征向量确定所述图像所属的类别。
一方面,提供了一种图像分类装置,所述装置包括:
获取模块,用于获取待分类的图像;
生成模块,用于根据所述获取模块得到的所述图像生成特征图;
聚合模块,用于根据每个类别在所述特征图中对应的注意力区域对所述特征图进行聚合,得到每个类别的特征向量;
确定模块,用于根据所述聚合模块得到的每个类别的特征向量确定所述图像所属的类别。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的图像分类方法。
一方面,提供了一种图像分类设备,所述图像分类设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上所述的图像分类方法。
本申请实施例提供的技术方案的有益效果至少包括:
由于每个类别在图像中所关注的区域是不同的,所以,通过确定每个类别在特征图中的注意力区域,再根据该注意力区域对该特征图进行聚合,这样,得到的每个类别的特征向量与其所关注的注意力区域相关,再根据该特征向量确定图像所属的分类,可以避免基于最大池化或平均池化进行聚合时,图像分类的准确率低的问题,从而提高了图像分类的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据部分示例性实施例示出的一种图像的示意图;
图2是根据部分示例性实施例示出的一种机器学习模型的结构示意图;
图3是本申请一个实施例提供的图像分类方法的方法流程图;
图4是本申请另一实施例提供的图像分类方法的方法流程图;
图5是本申请另一实施例提供的机器学习模型的结构示意图;
图6是本申请另一实施例提供的根据特征向量对图像进行分类的示意图;
图7是本申请一个实施例提供的图像分类装置的结构框图;
图8是本申请再一实施例提供的服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请应用于对图像进行分类的应用场景中。在对图像进行分类后,可以为图像设置类别标签,这样,可以通过给定的关键词搜索相匹配的类别标签,将具有该类别标签的图像作为检索结果提供给用户,从而可以在大量的备选图像中快速选择用户感兴趣的图像,而不必用户手动浏览所有图像来筛选感兴趣的图像,从而可以实现高效的图像检索。
类别标签可以是一个词汇或多个词汇的组合,这里所说的词汇可以是任意一种自然语言中的词汇。请参考图1所示的一张自然图像,该图像中包含人、自行车、摩托车和商店,则对该图像设置的类别标签可以包括人、自行车、摩托车和商店。
值得注意的是,本申请实施例可以实现在图像分类设备中,该图像分类设备可以是终端,也可以是服务器,本申请实施例对此不加以限定。
示意性的,图像分类设备中存储有用于图像分类的机器学习模型,图像分类设备可以从图像库中读取每张待分类的图像,通过该机器学习模型对每张图像进行分类,总而得到每个图像的至少一个类别标签。
请参考图2,本实施例中的机器学习模型200包括三个部分,第一部分是卷积神经网络21,用于对图像进行特征提取,得到特征图;第二部分是特征聚合模块22,用于基于类别的注意力机制对特征图进行特征聚合,得到每个类别的特征向量;第三部分是分类模块23,用于根据每个类别的特征向量对图像进行分类。其中,机器学习模型200的训练和算法实现详见下文中的描述。
请参考图3,其示出了本申请一个实施例提供的图像分类方法的方法流程图。该图像分类方法,包括:
步骤301,获取待分类的图像。
待分类的图像可以是一张自然图像。
步骤302,根据图像生成特征图。
特征图可以是对图像进行特征提取得到的。
本实施例中,可以将图像输入卷积神经网络中,并将该卷积神经网络中卷积层的输出结果称为特征图。其中,卷积神经网络包括卷积层、池化层、批归一化层、非线性层、全连接层等等,且除了全连接层之外,其它网络层都可以处理任意尺寸的图像。
在一个可选的实施方式中,卷积神经网络可以是ImageNet数据集上预先训练好的ResNet-50模型。假设待分类的图像的尺寸是3×H×W,将该图像输入ResNet-50模型后,将该ResNet-50模型中最后一个卷积层的输出作为特征图,该特征图的尺寸为其中,3表示图像的通道数,H表示图像的高度,W表示图像的宽度。
步骤303,根据每个类别在特征图中对应的注意力区域对特征图进行聚合,得到每个类别的特征向量。
在解释本步骤之前,先对注意力机制进行解释。注意力机制是对人类视觉机制的模仿。人类视觉机制通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一目标区域投入更多的注意力资源,以获取更多所需要关注目标的细节信息,而抑制其它无用信息。可见,注意力机制是一种将内部经验和外部感觉对齐从而增加目标区域的观察精细度的机制,其可以快速提取稀疏数据的重要特征,因而被广泛应用。
以图1为例,图1所示的图像中包含人、自行车、摩托车和商店,在将图像分类为人的类别时,我们需要关注图像中包含人的区域,而忽略其它区域;在将图像分类为自行车的类别时,我们需要关注图像中包含自行车的区域,而忽略其它区域;在将图像分类为摩托车的类别时,我们需要关注图像中包含摩托车的区域,而忽略其它区域;在将图像分类为商店的类别时,我们需要关注图像中包含商店的区域,而忽略其它区域。
所以,在将图像分类到不同的类别时,我们需要关注图像中的不同区域。即,在对图像进行分类时,需要确定每个类别在特征图中对应的注意力区域,再基于该注意力区域对特征图进行聚合,得到每个类别的特征向量。这样,相比于相关技术中每个类别都关注在同样的区域来说,可以提高图像特征的判别能力。其中,类别对应的注意力区域是指:将图像分类为该类别时,需要在图像中关注的区域。
步骤304,根据每个类别的特征向量确定图像所属的类别。
对于每个类别,可以根据该类别的特征向量来计算图像属于该类别的分数,再根据该分数的大小来确定该图像是否属于该类别。
综上所述,本申请实施例提供的图像分类方法,由于每个类别在图像中所关注的区域是不同的,所以,通过确定每个类别在特征图中的注意力区域,再根据该注意力区域对该特征图进行聚合,这样,得到的每个类别的特征向量与其所关注的注意力区域相关,再根据该特征向量确定图像所属的分类,可以避免基于最大池化或平均池化进行聚合时,图像分类的准确率低的问题,从而提高了图像分类的准确率。
请参考图4,其示出了本申请另一实施例提供的图像分类方法的方法流程图。该图像分类方法,包括:
步骤401,获取待分类的图像。
步骤402,根据图像生成特征图。
其中,步骤401-402的实现流程详见步骤301-302中的描述,此处不作赘述。
在得到图像的特征图之后,可以基于注意力机制,根据该特征图计算每个类别的特征向量。其中,对于每个类别,可以执行步骤403-408来得到该类别的特征向量。这些类别可以是预设的类别,本实施例不作限定。
步骤403,对于每个类别,获取该类别对应的卷积层。
其中,每个类别对应的卷积层不同。
这里所说的卷积层可以是一个卷积层,也可以是多个卷积层,本实施例不作限定。另外,该卷积层可以是线性的卷积层,也可以是非线性的卷积层,本实施例也不作限定。当然,该卷积层还可以通过其它注意力机制实现,如自注意力机制,本实施例不作限定。
为了减少计算量,本实施例以每个类别对应于一个1×1的卷积层为例进行说明,假设预设有C个类别,则预设有C个1×1的卷积层,C为大于等于2的正整数。
步骤404,将特征图输入该卷积层中。
步骤405,将卷积层的输出确定为该类别的注意力响应图。
其中,该注意力响应图用于表示注意力区域。
仍然以步骤302中的特征图为例,假设卷积层输出的注意力响应图为Ac,且则表示输入卷积层中的特征图的尺寸为卷积层输出的注意力响应图的尺寸为其中,C为预定的类别总数,c为C个类别中的第c个类别。
需要说明的是,C个类别中每个类别会对应于一个注意力响应图,则可以得到一个注意力响应图集合{A1,A2,…,AC},该注意力响应图集合中的所有注意力响应图一起构成了所有类别对应的注意力区域。
步骤406,在空间位置上,对该类别的注意力响应图中的每个元素进行归一化运算,得到第一运算结果。
由于注意力响应图的尺寸为待分类的图像的尺寸为3×H×W,所以,注意力响应图中每一维的元素都与图像中空间位置上的一个32×32的区域对应,则可以在空间位置上对每个元素进行归一化运算。
在一个可选的实施方式中,可以使用Softmax函数进行归一化运算,则归一化运算的公式为
其中,为Ac在空间位置(h,w)上的特征,c为C个类别中的第c个类别,h和h’的取值范围为1到w和w’的取值范围为1到
本实施例中,将上述各个数据带入公式(1)中箭头右侧的部分,即可计算得到箭头左侧的部分,即得到第一运算结果Ac。
步骤407,将第一运算结果与该特征图进行元素积运算,得到第二运算结果。
在一个可选的实施方式中,将第一运算结果与特征图进行元素积运算,得到第二运算结果,可以包括:对特征图进行降维运算,得到第三运算结果;将第一运算结果与第三运算结果进行元素积运算,得到第二运算结果。
在对特征图进行降维运算时,一个可选的实施方式是将该特征图与一个1×1的卷积层进行卷积运算,得到第三运算结果。假设特征图的尺寸为且降维运算后得到的第三运算结果则表示特征图的通道数从2048降为128。
由于降维后的第三运算结果的维数与第一运算结果的维数相同,所以,可以将第一运算结果与第三运算结果进行元素积运算,即,将第一运算结果与第三运算结果通过逐元素乘来进行加权,得到第二运算结果。
在一个可选的实施方式中,假设第二运算结果为Xc,则元素积运算的计算公式为Xc=Ac e X。 (2)
其中,且e为元素积操作(也称为逐元素乘操作)。
步骤408,对该第二运算结果进行求和池化运算,得到该类别的特征向量。
本实施例中,可以使用求和池化运算来对第二运算结果中的特征进行聚合,得到该类别的特征向量。
在一个可选的实施方式中,假设特征向量为Fc,则求和池化运算的计算公式为
其中,Fc∈R128×1。
需要说明的是,C个类别中每个类别会对应于一个特征向量,则可以得到一个特征向量集合{F1,F2,…,FC}。
需要说明的是,通过元素积运算和求和池化运算,可以抑制特征图上与类别无关区域的响应,从而使特征更加关注在类别相关的区域上,这样,得到的特征向量更具有判别力。
步骤409,对于每个类别,对该类别的特征向量进行全连接运算,得到第四运算结果。
相关技术中,一张图像对应于一个特征向量,因此,可以使用一个简单的全连接层来对图像进行分类。而本实施例中,由于每个类别对应于一个特征向量,所以,每个类别的特征向量都需要与一个全连接层相连,以进行全连接运算,得到第四运算结果。其中,第四运算结果中每一维的元素表示该图像属于该元素对应的类别的参数。
在一个可选的实施方式中,全连接运算的计算公式为WcTFc+bc。 (4)
其中,Wc∈R128×1,bc为将图像分类第c个类别的全连接层参数,且Wc和bc可以通过训练得到。
请参考图5,图5的左侧表示特征向量,图5的右侧表示第四运算结果,且每个特征向量对应于第四运算结果中一维的元素。比如,图5中的特征向量1对应于第四运算结果中第一维的元素,特征向量2对应于第四运算结果中第二维的元素,特征向量C对应于第四运算结果中第C维的元素。
本实施例中,可以预先设置预定阈值,并将该第四运算结果中每一维的元素与该预定阈值进行比较。当该元素大于该预定阈值时,执行步骤410;当该元素小于或等于该预定阈值时,执行步骤411。
步骤410,当第四运算结果大于预定阈值时,确定图像属于该类别。
步骤411,当第四运算结果小于或等于预定阈值时,确定图像不属于该类别。
需要说明的是,本实施例中第四运算结果中每一维的元素是一个分数,当然,还可以对该分数进行预定变换,得到图像属于该类别的概率,相应的,预定阈值也需要变换为对应的概率阈值。
在一个可选的实施方式中,预定变换的变换公式可以是
其中,x为第四运算结果中一维的元素。
请参考图6,其示出了图像分类算法的流程示意图。在将图像501输入卷积神经网络后,可以得到特征图502;对于每个类别,将特征图502与该类别对应的卷积层进行卷积运算,得到注意力响应图503;对特征图502进行降维运算,得到降维后的特征图504;将每个注意力响应图503分别与降维后的特征图504进行元素积运算,得到每个类别的第二运算结果505;分别对每个第二运算结果505进行求和池化运算,得到每个类别的特征向量506;对所有类别的特征向量506进行全连接运算,得到第四运算结果507;根据第四运算结果507对图像进行分类。
综上所述,本申请实施例提供的图像分类方法,由于每个类别在图像中所关注的区域是不同的,所以,通过确定每个类别在特征图中的注意力区域,再根据该注意力区域对该特征图进行聚合,这样,得到的每个类别的特征向量与其所关注的注意力区域相关,再根据该特征向量确定图像所属的分类,可以避免基于最大池化或平均池化进行聚合时,图像分类的准确率低的问题,从而提高了图像分类的准确率。
通过对特征图进行降维运算,可以减少数据的计算量,从而提高图像分类的效率。
上述方法可以通过一个用于图像分类的机器学习模型实现,该机器学习模型尝试以端到端的方式对图像进行分类。下面对该机器学习模型在训练过程中的损失函数进行介绍。
其中,该损失函数定义为
其中,C为预设的类别总数,c为C个类别中的第c个类别,yc的取值为0或1,且yc=0表示该图像不属于该类别,yc=1表示该图像属于该类别,x为公式(4)的输出。
需要说明的是,本申请的一个实现难点在于机器学习模型的参数的调整,这和训练的学习率、训练方法的选择、训练论述的设置密切相关,且这些参数的选择需要观察训练损失的变化,再利用经验基于该变化调整参数。
请参考图7,其示出了本申请一个实施例提供的图像分类装置的结构框图。该图像分类装置,包括:
获取模块710,用于获取待分类的图像;
生成模块720,用于根据获取模块710得到的图像生成特征图;
聚合模块730,用于根据每个类别在特征图中对应的注意力区域对特征图进行聚合,得到每个类别的特征向量;
确定模块740,用于根据聚合模块730得到的每个类别的特征向量确定图像所属的类别。
在一个可选的实施方式中,聚合模块730,还用于:
对于每个类别,在特征图中确定类别的注意力响应图,该注意力响应图用于表示注意力区域;
根据该类别的注意力响应图对特征图进行聚合,得到该类别的特征向量。
在一个可选的实施方式中,聚合模块730,还用于:
获取该类别对应的卷积层,其中,每个类别对应的卷积层不同;
将特征图输入该卷积层中;
将该卷积层的输出确定为该类别的注意力响应图。
在一个可选的实施方式中,聚合模块730,还用于:
在空间位置上,对该类别的注意力响应图中的每个元素进行归一化运算,得到第一运算结果;
将第一运算结果与特征图进行元素积运算,得到第二运算结果;
对第二运算结果进行求和池化运算,得到该类别的特征向量。
在一个可选的实施方式中,聚合模块730,还用于:
对特征图进行降维运算,得到第三运算结果;
将第一运算结果与第三运算结果进行元素积运算,得到第二运算结果。
在一个可选的实施方式中,确定模块740,还用于:
对于每个类别,对类别的特征向量进行全连接运算,得到第四运算结果;
当第四运算结果大于预定阈值时,确定图像属于该类别;
当第四运算结果小于或等于预定阈值时,确定图像不属于该类别。
综上所述,本申请实施例提供的图像分类装置,由于每个类别在图像中所关注的区域是不同的,所以,通过确定每个类别在特征图中的注意力区域,再根据该注意力区域对该特征图进行聚合,这样,得到的每个类别的特征向量与其所关注的注意力区域相关,再根据该特征向量确定图像所属的分类,可以避免基于最大池化或平均池化进行聚合时,图像分类的准确率低的问题,从而提高了图像分类的准确率。
通过对特征图进行降维运算,可以减少数据的计算量,从而提高图像分类的效率。
本申请还提供了一种服务器,该服务器包括处理器和存储器,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的图像分类方法。需要说明的是,该服务器可以是如下图8所提供的服务器。
请参考图8,其示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲:所述服务器800包括中央处理单元(CPU)801、包括随机存取存储器(RAM)802和只读存储器(ROM)803的系统存储器804,以及连接系统存储器804和中央处理单元801的系统总线805。所述服务器800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)806,和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。
所述基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中所述显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。所述基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。所述大容量存储设备807及其相关联的计算机可读存储介质为服务器800提供非易失性存储。也就是说,所述大容量存储设备807可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读存储介质(未示出)。
不失一般性,所述计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元801执行,一个或多个程序包含用于实现上述语句编码或语句解码方法的指令,中央处理单元801执行该一个或多个程序实现上述各个方法实施例提供的图像分类方法。
根据本发明的各种实施例,所述服务器800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器800可以通过连接在所述系统总线805上的网络接口单元811连接到网络812,或者说,也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本发明实施例提供的图像分类方法中由服务器所执行的步骤。
本申请实施例还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器810加载并执行以实现如上所述的图像分类方法。
本申请还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述各个方法实施例提供的图像分类方法。
本申请一个实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的图像分类方法。
本申请一个实施例提供了一种图像分类设备,所述图像分类设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上所述的图像分类方法。
需要说明的是:上述实施例提供的图像分类装置在进行图像分类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将图像分类装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像分类装置与图像分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请实施例的保护范围之内。
Claims (10)
1.一种图像分类方法,其特征在于,所述方法包括:
获取待分类的图像;
根据所述图像生成特征图;
根据每个类别在所述特征图中对应的注意力区域对所述特征图进行聚合,得到每个类别的特征向量;
根据每个类别的特征向量确定所述图像所属的类别。
2.根据权利要求1所述的方法,其特征在于,所述根据每个类别在所述特征图中对应的注意力区域对所述特征图进行聚合,得到每个类别的特征向量,包括:
对于每个类别,在所述特征图中确定所述类别的注意力响应图,所述注意力响应图用于表示所述注意力区域;
根据所述类别的注意力响应图对所述特征图进行聚合,得到所述类别的特征向量。
3.根据权利要求2所述的方法,其特征在于,所述在所述特征图中确定所述类别的注意力响应图,包括:
获取所述类别对应的卷积层,其中,每个类别对应的卷积层不同;
将所述特征图输入所述卷积层中;
将所述卷积层的输出确定为所述类别的注意力响应图。
4.根据权利要求2所述的方法,其特征在于,所述根据所述类别的注意力响应图对所述特征图进行聚合,得到所述类别的特征向量,包括:
在空间位置上,对所述类别的注意力响应图中的每个元素进行归一化运算,得到第一运算结果;
将所述第一运算结果与所述特征图进行元素积运算,得到第二运算结果;
对所述第二运算结果进行求和池化运算,得到所述类别的特征向量。
5.根据权利要求4所述的方法,其特征在于,所述将所述第一运算结果与所述特征图进行元素积运算,得到第二运算结果,包括:
对所述特征图进行降维运算,得到第三运算结果;
将所述第一运算结果与所述第三运算结果进行元素积运算,得到所述第二运算结果。
6.根据权利要求1至5任一所述的方法,其特征在于,所述根据每个类别的特征向量确定所述图像所属的类别,包括:
对于每个类别,对所述类别的特征向量进行全连接运算,得到第四运算结果;
当所述第四运算结果大于预定阈值时,确定所述图像属于所述类别;
当所述第四运算结果小于或等于所述预定阈值时,确定所述图像不属于所述类别。
7.一种图像分类装置,其特征在于,所述装置包括:
获取模块,用于获取待分类的图像;
生成模块,用于根据所述获取模块得到的所述图像生成特征图;
聚合模块,用于根据每个类别在所述特征图中对应的注意力区域对所述特征图进行聚合,得到每个类别的特征向量;
确定模块,用于根据所述聚合模块得到的每个类别的特征向量确定所述图像所属的类别。
8.根据权利要求7所述的装置,其特征在于,所述聚合模块,还用于:
对于每个类别,在所述特征图中确定所述类别的注意力响应图,所述注意力响应图用于表示所述注意力区域;
根据所述类别的注意力响应图对所述特征图进行聚合,得到所述类别的特征向量。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至6任一所述的图像分类方法。
10.一种图像分类设备,其特征在于,所述图像分类设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至6任一所述的图像分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910498386.6A CN110210572B (zh) | 2019-06-10 | 2019-06-10 | 图像分类方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910498386.6A CN110210572B (zh) | 2019-06-10 | 2019-06-10 | 图像分类方法、装置、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110210572A true CN110210572A (zh) | 2019-09-06 |
CN110210572B CN110210572B (zh) | 2023-02-07 |
Family
ID=67791714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910498386.6A Active CN110210572B (zh) | 2019-06-10 | 2019-06-10 | 图像分类方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110210572B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898658A (zh) * | 2020-07-15 | 2020-11-06 | 北京字节跳动网络技术有限公司 | 图像分类方法、装置和电子设备 |
CN113569934A (zh) * | 2021-07-20 | 2021-10-29 | 上海明略人工智能(集团)有限公司 | Logo分类模型构建方法、系统、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778856A (zh) * | 2016-12-08 | 2017-05-31 | 深圳大学 | 一种物体识别方法及装置 |
CN107577983A (zh) * | 2017-07-11 | 2018-01-12 | 中山大学 | 一种循环发现关注区域识别多标签图像的方法 |
US20180157743A1 (en) * | 2016-12-07 | 2018-06-07 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Multi-Label Classification |
CN108229519A (zh) * | 2017-02-17 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像分类的方法、装置及系统 |
CN108596070A (zh) * | 2018-04-18 | 2018-09-28 | 北京市商汤科技开发有限公司 | 人物识别方法、装置、存储介质、程序产品和电子设备 |
CN109086779A (zh) * | 2018-07-28 | 2018-12-25 | 天津大学 | 一种基于卷积神经网络的注意力目标识别方法 |
CN109376757A (zh) * | 2018-09-06 | 2019-02-22 | 北京飞搜科技有限公司 | 一种多标签分类方法及系统 |
CN109754015A (zh) * | 2019-01-02 | 2019-05-14 | 京东方科技集团股份有限公司 | 用于画作多标签识别的神经网络及相关方法、介质和设备 |
CN109800737A (zh) * | 2019-02-02 | 2019-05-24 | 深圳市商汤科技有限公司 | 面部识别方法及装置、电子设备和存储介质 |
-
2019
- 2019-06-10 CN CN201910498386.6A patent/CN110210572B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180157743A1 (en) * | 2016-12-07 | 2018-06-07 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Multi-Label Classification |
CN106778856A (zh) * | 2016-12-08 | 2017-05-31 | 深圳大学 | 一种物体识别方法及装置 |
CN108229519A (zh) * | 2017-02-17 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像分类的方法、装置及系统 |
CN107577983A (zh) * | 2017-07-11 | 2018-01-12 | 中山大学 | 一种循环发现关注区域识别多标签图像的方法 |
CN108596070A (zh) * | 2018-04-18 | 2018-09-28 | 北京市商汤科技开发有限公司 | 人物识别方法、装置、存储介质、程序产品和电子设备 |
CN109086779A (zh) * | 2018-07-28 | 2018-12-25 | 天津大学 | 一种基于卷积神经网络的注意力目标识别方法 |
CN109376757A (zh) * | 2018-09-06 | 2019-02-22 | 北京飞搜科技有限公司 | 一种多标签分类方法及系统 |
CN109754015A (zh) * | 2019-01-02 | 2019-05-14 | 京东方科技集团股份有限公司 | 用于画作多标签识别的神经网络及相关方法、介质和设备 |
CN109800737A (zh) * | 2019-02-02 | 2019-05-24 | 深圳市商汤科技有限公司 | 面部识别方法及装置、电子设备和存储介质 |
Non-Patent Citations (4)
Title |
---|
HELIANG ZHENG 等: "Learning Multi-Attention Convolutional Neural Network for Fine-Grained Image Recognition", 《ICCV 2017》 * |
ZHOUXIA WANG 等: "Multi-label Image Recognition by Recurrently Discovering Attentional Regions", 《ICCV 2017》 * |
徐美香 等: "主动学习的多标签图像在线分类", 《中国图象图形学报》 * |
王培森 等: "基于多通道视觉注意力的细粒度图像分类", 《数据采集与处理》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898658A (zh) * | 2020-07-15 | 2020-11-06 | 北京字节跳动网络技术有限公司 | 图像分类方法、装置和电子设备 |
CN113569934A (zh) * | 2021-07-20 | 2021-10-29 | 上海明略人工智能(集团)有限公司 | Logo分类模型构建方法、系统、电子设备及存储介质 |
CN113569934B (zh) * | 2021-07-20 | 2024-01-23 | 上海明略人工智能(集团)有限公司 | Logo分类模型构建方法、系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110210572B (zh) | 2023-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Deep visual attention prediction | |
Hsu et al. | Cnn-based joint clustering and representation learning with feature drift compensation for large-scale image data | |
Zhang et al. | A gated peripheral-foveal convolutional neural network for unified image aesthetic prediction | |
Yu et al. | Adaptive hypergraph learning and its application in image classification | |
Cho et al. | Large-margin classification in infinite neural networks | |
Kang et al. | Shakeout: A new approach to regularized deep neural network training | |
Kucer et al. | Leveraging expert feature knowledge for predicting image aesthetics | |
Esmaeili et al. | Fast-at: Fast automatic thumbnail generation using deep neural networks | |
Haider et al. | Deepgender: real-time gender classification using deep learning for smartphones | |
CN109063719B (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
CN111079639A (zh) | 垃圾图像分类模型构建的方法、装置、设备及存储介质 | |
CN107679546A (zh) | 人脸图像数据采集方法、装置、终端设备及存储介质 | |
CN106156163B (zh) | 文本分类方法以及装置 | |
EP3138058A1 (en) | Method and apparatus for classifying object based on social networking service, and storage medium | |
Yang et al. | Prototype-based image search reranking | |
CN107622072A (zh) | 一种针对网页操作行为的识别方法及服务器、终端 | |
Shamsolmoali et al. | High-dimensional multimedia classification using deep CNN and extended residual units | |
CN113761359B (zh) | 数据包推荐方法、装置、电子设备和存储介质 | |
Hanmandlu et al. | Fuzzy model based recognition of handwritten hindi numerals using bacterial foraging | |
CN110210572A (zh) | 图像分类方法、装置、存储介质及设备 | |
Escalante et al. | Evolving weighting schemes for the bag of visual words | |
Marrone et al. | Effects of hidden layer sizing on CNN fine-tuning | |
Siddiqi | Fruit-classification model resilience under adversarial attack | |
CN111737576B (zh) | 应用功能个性化推荐方法和装置 | |
Ching et al. | Learning image aesthetics by learning inpainting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |