CN109753983A - 图像分类方法、装置和计算机可读存储介质 - Google Patents

图像分类方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN109753983A
CN109753983A CN201711084085.6A CN201711084085A CN109753983A CN 109753983 A CN109753983 A CN 109753983A CN 201711084085 A CN201711084085 A CN 201711084085A CN 109753983 A CN109753983 A CN 109753983A
Authority
CN
China
Prior art keywords
layer
neural network
network model
diagram data
feature diagram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711084085.6A
Other languages
English (en)
Inventor
张立成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Qianshi Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201711084085.6A priority Critical patent/CN109753983A/zh
Publication of CN109753983A publication Critical patent/CN109753983A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种图像分类方法、装置和计算机可读存储介质,涉及图像处理技术领域。图像分类方法包括:根据输入神经网络模型SqueezeNet的图像数据以及神经网络模型的参数,计算神经网络模型第N层的不相邻层输出的第一特征图数据和第N层的相邻层输出的第二特征图数据;根据第一特征图数据和第二特征图数据确定第N层的输入数据,并将第N层的输入数据输入到神经网络模型的第N层进行计算;根据神经网络模型的第N层的输出结果以及神经网络模型的参数计算神经网络模型的输出结果;根据神经网络模型的输出结果对图像进行分类。从而可以在进行梯度下降时,获得相邻层的梯度以及不相邻层的梯度,避免了梯度消失的问题,提高了图像分类和识别的精确度。

Description

图像分类方法、装置和计算机可读存储介质
技术领域
本发明涉及图像处理技术领域,特别涉及一种图像分类方法、装置和计算机可读存储介质。
背景技术
目前,神经网络技术被应用于图像处理技术中。神经网络技术往往分为训练和预测两个阶段。在训练阶段,向模型中输入若干图像,每张图像会对应相应的类别标签,神经网络在采用输入的若干图像进行训练后,通过对输出的误差的迭代学习来优化网络参数。最终模型误差收敛于一个较小的区间时,训练完成。在预测阶段,将待测图像的数据输入到完成训练的神经网络模型中,神经网络的每一层根据自身参数对上一层的输入数据进行计算,神经网络输出数据。根据输出数据,可以获得图像的分类结果。
目前,在红绿灯识别等图像分类场景中,采用神经网络模型SqueezeNet进行识别。SqueezeNet由神经网络模型AlexNet改进得到,其特点是参数数量少,使其在前向计算时所用时间较少,从而可以应用于一些实时性较高的场景。
然而,根据目前SqueezeNet会出现准确率较低的情况。
发明内容
发明人分析后发现,随着网络层数的增加,会出现梯度消失的问题。例如,神经网络模型SqueezeNet有26个卷积层。由于卷积层数量较多,在进行训练时,越靠近输入层,该层的梯度越小,甚至等于0,导致该层的参数无法学习,网络得不到优化,使得模型的准确率下降。
本发明实施例所要解决的一个技术问题是:如何提高神经网络模型SqueezeNet的准确率。
根据本发明一些实施例的第一个方面,提供一种图像分类方法,包括:根据输入神经网络模型SqueezeNet的图像数据以及神经网络模型的参数,计算神经网络模型中预设的第N层的不相邻层输出的第一特征图数据和第N层的相邻层输出的第二特征图数据,其中,N为正整数,第一特征图数据和第二特征图数据具有相同的图像尺寸;根据第一特征图数据和第二特征图数据确定第N层的输入数据,并将第N层的输入数据输入到神经网络模型的第N层进行计算;根据神经网络模型的第N层的输出结果以及神经网络模型的参数计算神经网络模型的输出结果;根据神经网络模型的输出结果对图像进行分类。
在一些实施例中,将第一特征图数据和第二特征图数据的和或者均值作为第N层的输入数据。
在一些实施例中,第N层的不相邻层为第N-M层,第N层的相邻层为第N-1层,其中M为正整数且1<M<N;根据第N-M层的一个或多个卷积算子输出的特征图数据确定第一特征图数据;根据第N-1层的一个或多个卷积算子输出的特征图数据确定第二特征图数据。
在一些实施例中,将第N-M层的多个卷积算子输出的特征图的通道信息共同作为第一特征图数据的通道信息,将第N-M层输出的每个特征图的图像尺寸作为第一特征图数据的图像尺寸,第N-M层的每个卷积算子输出的特征图的尺寸相同;和/或,将第N-1层的多个卷积算子输出的特征图的通道信息共同作为第二特征图数据的通道信息,将第N-1层输出的每个特征图的图像尺寸作为第二特征图数据的图像尺寸,第N-1层的每个卷积算子输出的特征图的尺寸相同。
在一些实施例中,神经网络模型的最后一层的卷积核数量是根据分类数量确定的。
在一些实施例中,根据神经网络模型的输出结果对图像进行分类包括:将神经网络模型的最后一层输出的特征图进行下采样,获得维度数为分类数的向量;将向量中数值最大的维度所对应的类别确定为图像的分类结果。
在一些实施例中,图像分类方法还包括:根据输入神经网络模型SqueezeNet的训练图像数据以及神经网络模型的参数,计算神经网络模型中预设的第N层的不相邻层输出的第一特征图数据和第N层的相邻层输出的第二特征图数据,其中,N为正整数,第一特征图数据和第二特征图数据具有相同的图像尺寸;根据第一特征图数据和第二特征图数据确定第N层的输入数据,并将第N层的输入数据输入到神经网络模型的第N层进行计算;根据神经网络模型的第N层的输出结果以及神经网络模型的参数计算神经网络模型的输出结果;根据神经网络模型的输出结果和训练图像的标记值,对神经网络模型的参数进行调整。
根据本发明一些实施例的第二个方面,提供一种图像分类装置,包括:特征图数据获取模块,被配置为根据输入神经网络模型SqueezeNet的图像数据以及神经网络模型的参数,计算神经网络模型中预设的第N层的不相邻层输出的第一特征图数据和第N层的相邻层输出的第二特征图数据,其中,N为正整数,第一特征图数据和第二特征图数据具有相同的图像尺寸;数据合并模块,被配置为根据第一特征图数据和第二特征图数据确定第N层的输入数据,并将第N层的输入数据输入到神经网络模型的第N层进行计算;输入数据计算模块,被配置为根据神经网络模型的第N层的输出结果以及神经网络模型的参数计算神经网络模型的输出结果;分类结果确定模块,被配置为根据神经网络模型的输出结果对图像进行分类。
在一些实施例中,数据合并模块进一步被配置为将第一特征图数据和第二特征图数据的和或者均值作为第N层的输入数据。
在一些实施例中,第N层的不相邻层为第N-M层,第N层的相邻层为第N-1层,其中M为正整数且1<M<N;特征图数据获取模块包括:第一特征图数据确定单元,被配置为根据第N-M层的一个或多个卷积算子输出的特征图数据确定第一特征图数据;第二特征图数据确定单元,被配置为根据第N-1层的一个或多个卷积算子输出的特征图数据确定第二特征图数据。
在一些实施例中,第一特征图数据确定单元进一步被配置为将第N-M层的多个卷积算子的输出的特征图的通道信息共同作为第一特征图数据的通道信息,将第N-M层的每个卷积算子输出的特征图的图像尺寸作为第一特征图数据的图像尺寸,第N-M层的每个卷积算子输出的特征图的尺寸相同;和/或,所述第二特征图数据确定单元进一步被配置为将第N-1层的多个卷积算子的输出的特征图的通道信息共同作为第二特征图数据的通道信息,将第N-1层的每个卷积算子输出的特征图的图像尺寸作为第二特征图数据的图像尺寸,第N-1层的每个卷积算子输出的特征图的尺寸相同。
在一些实施例中,神经网络模型的最后一层的卷积核数量是根据分类数量确定的。
在一些实施例中,分类结果确定模块进一步被配置为将神经网络模型的最后一层输出的特征图进行下采样,获得维度数为分类数的向量;将向量中数值最大的维度所对应的类别确定为图像的分类结果。
在一些实施例中,图像分类装置还包括训练模块,被配置为:根据输入神经网络模型SqueezeNet的训练图像数据以及神经网络模型的参数,计算神经网络模型中预设的第N层的不相邻层输出的第一特征图数据和第N层的相邻层输出的第二特征图数据,其中,N为正整数,第一特征图数据和第二特征图数据具有相同的图像尺寸;根据第一特征图数据和第二特征图数据确定第N层的输入数据,并将第N层的输入数据输入到神经网络模型的第N层进行计算;根据神经网络模型的第N层的输出结果以及神经网络模型的参数计算神经网络模型的输出结果;根据神经网络模型的输出结果和训练图像的标记值,对神经网络模型的参数进行调整。
根据本发明一些实施例的第三个方面,提供一种图像分类装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行前述任意一种图像分类方法。
根据本发明一些实施例的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任意一种图像分类方法。
上述发明中的一些实施例具有如下优点或有益效果:本发明能够令神经网络模型中的层不仅接收上一层输出的数据、还接收不相邻的层输出的数据,从而可以在进行梯度下降时,获得相邻层的梯度以及不相邻层的梯度,避免了梯度消失的问题,提高了图像分类和识别的精确度。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明一些实施例的图像分类方法的流程图。
图2为本发明的一些实施例的数据输入过程示意图。
图3为SqueezeNet网络的局部示意图。
图4为SqueezeNet网络的数据处理流程的示意图。
图5为根据本发明另一些实施例的图像分类方法的流程图。
图6为根据本发明一些实施例的神经网络模型训练方法的流程图。
图7为根据本发明一些实施例的图像分类装置的结构图。
图8为根据本发明另一些实施例的图像分类装置的结构图。
图9为根据本发明又一些实施例的图像分类装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为根据本发明一些实施例的图像分类方法的流程图。如图1所示,该实施例的图像分类方法包括步骤S102~S108。
在步骤S102中,根据输入神经网络模型SqueezeNet的图像数据以及神经网络模型的参数,计算神经网络模型中预设的第N层的不相邻层输出的第一特征图数据、第N层的相邻层输出的第二特征图数据,其中,N为正整数,第一特征图数据和第二特征图数据具有相同的图像尺寸。
在本发明中,相邻层是指直接连接、并且连接关系唯一的两个卷积层,每一层中可以包括一个或多个卷积算子以对输入数据进行卷积计算,每个卷积算子中可以包括一个或多个卷积核。第N层可以为根据需要而设定的任意层,只要该层具有在先的相邻层和不相邻层即可。
神经网络模型的每一层输出的特征图数据表示该层所输出的特征图的相关信息。例如,特征图数据可以包括特征图的多个通道的信息和尺寸信息,其中,通道的数量为输出特征图数据的层的神经元的数量。在卷积神经网络中,通道的数量为该层的卷积核的数量。
在步骤S104中,根据第一特征图数据和第二特征图数据确定第N层的输入数据,并将第N层的输入数据输入到神经网络模型的第N层进行计算。
在一些实施例中,可以将第一特征图数据和第二特征图数据的和或者均值作为第N层的输入数据。
在现有的神经网络技术中,每一层的输出数据直接输入到下一层中、每一层也仅接受上一层输出的数据。而在本发明中,第N层不仅接收相邻的上一层输出的数据,还接收第N层之前的层中不相邻的层输出的数据。
步骤S104这种输入方式可以在神经网络模型的多处进行。即,在神经网络模型中,可以有一层或多层的输入是来自于该层的相邻层和不相邻层的。
在步骤S106中,根据神经网络模型的第N层的输出结果以及神经网络模型的参数计算神经网络模型的输出结果。
在第N层输出数据后,第N层之后的层可以继续进行计算过程,直到神经网络模型输出结果。
在步骤S108中,根据神经网络模型的输出结果对图像进行分类。
通过上述实施例的方法,本发明能够令神经网络模型中的层不仅接收上一层输出的数据、还接收不相邻的层输出的数据,从而可以在进行梯度下降时,获得相邻层的梯度以及不相邻层的梯度,避免了梯度消失的问题,提高了图像分类和识别的精确度。
下面参考图2,示例性地介绍本发明的一种数据输入过程。如图2所示,第N-M层与第N层不相邻,第N-1层与第N层相邻,其中M为正整数且1<M<N。以a*b*c的形式表示各层的输出数据的维度数,其中a表示通道数,b*c表示图像尺寸。设第N-M层输出的第一特征图数据的维度数为128*62*62,第N-1层输出的第二特征图数据的维度数为128*62*62,则第N层的输入数据的维度数也为128*62*62。
在进行合并时,可以将第一特征图数据和第二特征图数据在图像的同一位置的通道信息的和或者均值作为第N层的输入数据的同一位置的通道信息。例如,可以将第一特征图数据在位置[x,y]上的第一通道信息t11和第二特征图数据在同一位置[x,y]上的第一通道信息t21的和作为第N层的输入数据在同一位置[x,y]上的第一通道信息t01,即t01=0.5*(t11+t21)。
上述实施例中,神经网络模型第N层具有一个卷积算子、第N层的相邻层也具有一个卷积算子。而上述实施例仅为本发明诸多实施例中的一部分,在一些实施例中,神经网络模型的同一层中可以包括多个卷积算子。
例如,在神经网络模型SqueezeNet中,存在比较特殊的结构,如图3所示。图3为SqueezeNet网络的局部示意图,其中,设卷积算子2所在层为第N-4层,与第N-4层相邻的第N-3层包括卷积算子3和卷积算子4,卷积算子3和卷积算子4在计算后将结果输入到相邻的第N-2层的卷积算子5,依次类推,第N-1层的卷积算子6和卷积算子7将输出结果输入到与卷积算子6和卷积算子7相邻的第N层的卷积算子8。
在本发明的一些实施例中,可以根据第N-M层的一个或多个卷积算子输出的特征图数据确定第一特征图数据、根据第N-1层的一个或多个卷积算子输出的特征图数据确定第二特征图数据。其中M为正整数且1<M<N。
例如,在图3中,M=3,第N层的卷积算子8除了接收第N-1层的卷积算子6和卷积算子7的输出以外,还接收第N-3层的卷积算子3和卷积算子4的输出。
在将不同层的输出数据进行合并生成第一特征图数据和第二特征图数据时,可以按照通道信息将不同层的输出数据进行连接(concat操作)。即,将第N-M层的多个卷积算子输出的特征图的通道信息共同作为第一特征图数据的通道信息,将第N-M层输出的每个特征图的图像尺寸作为第一特征图数据的图像尺寸,第N-M层的每个卷积算子输出的特征图的尺寸相同;和/或,将第N-1层的多个卷积算子输出的特征图的通道信息共同作为第二特征图数据的通道信息,将第N-1层输出的每个特征图的图像尺寸作为第二特征图数据的图像尺寸,第N-1层的每个卷积算子输出的特征图的尺寸相同。
例如,卷积算子6和卷积算子7的输出维度数均为64*62*62,则第二特征图数据的维度数为(64+64)*62*62=128*62*62。
在一些实施例中,可以令SqueezeNet的卷积算子8、14、20、26中的任意一个或多个卷积算子所在的层接收进行数据合并后的输入数据,即这些层既接收相邻层输出的数据、也接收不相邻层输出的数据。该实施例的数据处理流程可以参考图4的示例。在图4中,M=3。
从而,可以在神经网络模型的多处避免梯度消失的问题,进一步提高模型的准确率。
在一些实施例中,还可以对神经网络模型进行进一步的结构改进,以适应各种不同的分类和识别问题。下面参考图5描述本发明图像分类方法的实施例。
图5为根据本发明另一些实施例的图像分类方法的流程图。如图5所示,该实施例的图像分类方法包括步骤S502~S516。
在步骤S502中,向神经网络模型SqueezeNet中输入图像数据。
在步骤S504中,计算SqueezeNet第N层的不相邻层输出的第一特征图数据,其中,N为正整数。
在步骤S506中,计算SqueezeNet第N层的相邻层输出的第二特征图数据,其中,第一特征图数据和第二特征图数据具有相同的图像尺寸。
在步骤S508中,根据第一特征图数据和第二特征图数据确定第N层的输入数据。
在步骤S510中,将第N层的输入数据输入到神经网络模型的第N层进行计算。
在步骤S512中,根据神经网络模型的第N层的输出结果以及神经网络模型的参数计算神经网络模型最后一层的输出结果。
在步骤S514中,将神经网络模型的最后一层输出的特征图进行下采样,获得维度数为分类数的向量,其中,神经网络模型的最后一层的卷积核数量是根据分类数量确定的。
例如,神经网络模型的最后一层的卷积核数量可以等于分类数量。如果最后一层输出数据的维度数为3*15*15,则进行下采样后得到的数据为3*1*1。
分类数可以根据需要确定。如果进行图像分类的目的是识别图像中的红绿灯,即将图像分为红灯、绿灯、无红绿灯几种情况,则分类数为3。
在步骤S516中,将向量中数值最大的维度所对应的类别确定为图像的分类结果。
向量中的每个维度代表相应类别的概率。因此,可以根据向量中各个维度的数值大小确定分类结果。
通过上述实施例的方法,可以令神经网络模型适应各种不同的分类需求、并且能够提供较高的准确率。
在神经网络技术中,训练过程和使用过程往往是对应的。因此,本发明也可以采用类似的方法对神经网络模型SqueezeNet进行训练。下面参考图6描述本发明神经网络模型训练方法的实施例。
图6为根据本发明一些实施例的神经网络模型训练方法的流程图。如图6所示,该实施例的神经网络模型训练方法包括步骤S602~S608。
在步骤S602中,根据输入神经网络模型SqueezeNet的训练图像数据以及神经网络模型的参数,计算神经网络模型中预设的第N层的不相邻层输出的第一特征图数据和第N层的相邻层输出的第二特征图数据,其中,N为正整数,第一特征图数据和第二特征图数据具有相同的图像尺寸。
在步骤S604中,根据第一特征图数据和第二特征图数据确定第N层的输入数据,并将第N层的输入数据输入到神经网络模型的第N层进行计算。
在步骤S606中,根据神经网络模型的第N层的输出结果以及神经网络模型的参数计算神经网络模型的输出结果。
在步骤S608中,根据神经网络模型的输出结果和训练图像的标记值,对神经网络模型的参数进行调整。
从而,可以避免SqueezeNet在训练过程中的梯度消失问题,使训练完成的模型能够更准确地进行预测。
下面参考图7描述本发明图像分类装置的实施例。
图7为根据本发明一些实施例的图像分类装置的结构图。如图7所示,该实施例的图像分类装置70包括:特征图数据获取模块710,被配置为根据输入神经网络模型SqueezeNet的图像数据以及神经网络模型的参数,计算神经网络模型中预设的第N层的不相邻层输出的第一特征图数据和第N层的相邻层输出的第二特征图数据,其中,N为正整数,第一特征图数据和第二特征图数据具有相同的图像尺寸;数据合并模块720,被配置为根据第一特征图数据和第二特征图数据确定第N层的输入数据,并将第N层的输入数据输入到神经网络模型的第N层进行计算;输入数据计算模块730,被配置为根据神经网络模型的第N层的输出结果以及神经网络模型的参数计算神经网络模型的输出结果;分类结果确定模块740,被配置为根据神经网络模型的输出结果对图像进行分类。
在一些实施例中,数据合并模块720可以进一步被配置为将第一特征图数据和第二特征图数据的和或者均值作为第N层的输入数据。
在一些实施例中,第N层的不相邻层为第N-M层,第N层的相邻层为第N-1层,其中M为正整数且1<M<N。特征图数据获取模块710还可以包括:第一特征图数据确定单元7110,被配置为根据第N-M层的一个或多个卷积算子输出的特征图数据确定第一特征图数据;第二特征图数据确定单元7120,被配置为根据第N-1层的一个或多个卷积算子输出的特征图数据确定第二特征图数据。
在一些实施例中,第一特征图数据确定单元7110可以进一步被配置为将第N-M层的多个卷积算子的输出的特征图的通道信息共同作为第一特征图数据的通道信息,将第N-M层的每个卷积算子输出的特征图的图像尺寸作为第一特征图数据的图像尺寸,第N-M层的每个卷积算子输出的特征图的尺寸相同;和/或,第二特征图数据确定单元7120可以进一步被配置为将第N-1层的多个卷积算子的输出的特征图的通道信息共同作为第二特征图数据的通道信息,将第N-1层的每个卷积算子输出的特征图的图像尺寸作为第二特征图数据的图像尺寸,第N-1层的每个卷积算子输出的特征图的尺寸相同。
在一些实施例中,神经网络模型的最后一层的卷积核数量是根据分类数量确定的。例如,神经网络模型的最后一层的卷积核数量等于分类数量。
在一些实施例中,分类结果确定模块740可以进一步被配置为将神经网络模型的最后一层输出的特征图进行下采样,获得维度数为分类数的向量;将向量中数值最大的维度所对应的类别确定为图像的分类结果。
在一些实施例中,图像分类装置70还可以包括训练模块750,被配置为:根据输入神经网络模型SqueezeNet的训练图像数据以及神经网络模型的参数,计算神经网络模型中预设的第N层的不相邻层输出的第一特征图数据和第N层的相邻层输出的第二特征图数据,其中,N为正整数,第一特征图数据和第二特征图数据具有相同的图像尺寸;根据第一特征图数据和第二特征图数据确定第N层的输入数据,并将第N层的输入数据输入到神经网络模型的第N层进行计算;根据神经网络模型的第N层的输出结果以及神经网络模型的参数计算神经网络模型的输出结果;根据神经网络模型的输出结果和训练图像的标记值,对神经网络模型的参数进行调整。
图8为根据本发明另一些实施例的图像分类装置的结构图。如图8所示,该实施例的图像分类装置800包括:存储器810以及耦接至该存储器810的处理器820,处理器820被配置为基于存储在存储器810中的指令,执行前述任意一个实施例中的图像分类方法。
其中,存储器810例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
图9为根据本发明又一些实施例的图像分类装置的结构图。如图9所示,该实施例的图像分类装置900包括:存储器910以及处理器920,还可以包括输入输出接口930、网络接口940、存储接口950等。这些接口930,940,950以及存储器910和处理器920之间例如可以通过总线960连接。其中,输入输出接口930为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口940为各种联网设备提供连接接口。存储接口950为SD卡、U盘等外置存储设备提供连接接口。
本发明的实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任意一种图像分类方法。
本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种图像分类方法,包括:
根据输入神经网络模型SqueezeNet的图像数据以及神经网络模型的参数,计算神经网络模型中预设的第N层的不相邻层输出的第一特征图数据和第N层的相邻层输出的第二特征图数据,其中,N为正整数,第一特征图数据和第二特征图数据具有相同的图像尺寸;
根据第一特征图数据和第二特征图数据确定第N层的输入数据,并将所述第N层的输入数据输入到神经网络模型的第N层进行计算;
根据神经网络模型的第N层的输出结果以及神经网络模型的参数计算所述神经网络模型的输出结果;
根据神经网络模型的输出结果对图像进行分类。
2.根据权利要求1所述的图像分类方法,其中,将第一特征图数据和第二特征图数据的和或者均值作为第N层的输入数据。
3.根据权利要求1所述的图像分类方法,其中,所述第N层的不相邻层为第N-M层,所述第N层的相邻层为第N-1层,其中M为正整数且1<M<N;
根据第N-M层的一个或多个卷积算子输出的特征图数据确定第一特征图数据;
根据第N-1层的一个或多个卷积算子输出的特征图数据确定第二特征图数据。
4.根据权利要求3所述的图像分类方法,其中,
将第N-M层的多个卷积算子输出的特征图的通道信息共同作为第一特征图数据的通道信息,将第N-M层输出的每个特征图的图像尺寸作为第一特征图数据的图像尺寸,第N-M层的每个卷积算子输出的特征图的尺寸相同;和/或,
将第N-1层的多个卷积算子输出的特征图的通道信息共同作为第二特征图数据的通道信息,将第N-1层输出的每个特征图的图像尺寸作为第二特征图数据的图像尺寸,第N-1层的每个卷积算子输出的特征图的尺寸相同。
5.根据权利要求1所述的图像分类方法,其中,神经网络模型的最后一层的卷积核数量是根据分类数量确定的。
6.根据权利要求1或5所述的图像分类方法,其中,所述根据神经网络模型的输出结果对图像进行分类包括:
将神经网络模型的最后一层输出的特征图进行下采样,获得维度数为分类数的向量;
将所述向量中数值最大的维度所对应的类别确定为图像的分类结果。
7.根据权利要求1所述的图像分类方法,还包括:
根据输入神经网络模型SqueezeNet的训练图像数据以及神经网络模型的参数,计算神经网络模型中预设的第N层的不相邻层输出的第一特征图数据和第N层的相邻层输出的第二特征图数据,其中,N为正整数,第一特征图数据和第二特征图数据具有相同的图像尺寸;
根据第一特征图数据和第二特征图数据确定第N层的输入数据,并将所述第N层的输入数据输入到神经网络模型的第N层进行计算;
根据神经网络模型的第N层的输出结果以及神经网络模型的参数计算所述神经网络模型的输出结果;
根据神经网络模型的输出结果和所述训练图像的标记值,对所述神经网络模型的参数进行调整。
8.一种图像分类装置,包括:
特征图数据获取模块,被配置为根据输入神经网络模型SqueezeNet的图像数据以及神经网络模型的参数,计算神经网络模型中预设的第N层的不相邻层输出的第一特征图数据和第N层的相邻层输出的第二特征图数据,其中,N为正整数,第一特征图数据和第二特征图数据具有相同的图像尺寸;
数据合并模块,被配置为根据第一特征图数据和第二特征图数据确定第N层的输入数据,并将所述第N层的输入数据输入到神经网络模型的第N层进行计算;
输入数据计算模块,被配置为根据神经网络模型的第N层的输出结果以及神经网络模型的参数计算所述神经网络模型的输出结果;
分类结果确定模块,被配置为根据神经网络模型的输出结果对图像进行分类。
9.根据权利要求8所述的图像分类装置,其中,所述数据合并模块进一步被配置为将第一特征图数据和第二特征图数据的和或者均值作为第N层的输入数据。
10.根据权利要求8所述的图像分类装置,其中,所述第N层的不相邻层为第N-M层,所述第N层的相邻层为第N-1层,其中M为正整数且1<M<N;
所述特征图数据获取模块包括:
第一特征图数据确定单元,被配置为根据第N-M层的一个或多个卷积算子输出的特征图数据确定第一特征图数据;
第二特征图数据确定单元,被配置为根据第N-1层的一个或多个卷积算子输出的特征图数据确定第二特征图数据。
11.根据权利要求10所述的图像分类装置,其中,
所述第一特征图数据确定单元进一步被配置为将第N-M层的多个卷积算子的输出的特征图的通道信息共同作为第一特征图数据的通道信息,将第N-M层的每个卷积算子输出的特征图的图像尺寸作为第一特征图数据的图像尺寸,第N-M层的每个卷积算子输出的特征图的尺寸相同;和/或,
所述第二特征图数据确定单元进一步被配置为将第N-1层的多个卷积算子的输出的特征图的通道信息共同作为第二特征图数据的通道信息,将第N-1层的每个卷积算子输出的特征图的图像尺寸作为第二特征图数据的图像尺寸,第N-1层的每个卷积算子输出的特征图的尺寸相同。
12.根据权利要求8所述的图像分类装置,其中,所述神经网络模型的最后一层的卷积核数量是根据分类数量确定的。
13.根据权利要求8或12所述的图像分类装置,其中,所述分类结果确定模块进一步被配置为将神经网络模型的最后一层输出的特征图进行下采样,获得维度数为分类数的向量;将所述向量中数值最大的维度所对应的类别确定为图像的分类结果。
14.根据权利要求8所述的图像分类装置,还包括训练模块,被配置为:
根据输入神经网络模型SqueezeNet的训练图像数据以及神经网络模型的参数,计算神经网络模型中预设的第N层的不相邻层输出的第一特征图数据和第N层的相邻层输出的第二特征图数据,其中,N为正整数,第一特征图数据和第二特征图数据具有相同的图像尺寸;
根据第一特征图数据和第二特征图数据确定第N层的输入数据,并将所述第N层的输入数据输入到神经网络模型的第N层进行计算;
根据神经网络模型的第N层的输出结果以及神经网络模型的参数计算所述神经网络模型的输出结果;
根据神经网络模型的输出结果和所述训练图像的标记值,对所述神经网络模型的参数进行调整。
15.一种图像分类装置,其中:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1~7中任一项所述的图像分类方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~7中任一项所述的图像分类方法。
CN201711084085.6A 2017-11-07 2017-11-07 图像分类方法、装置和计算机可读存储介质 Pending CN109753983A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711084085.6A CN109753983A (zh) 2017-11-07 2017-11-07 图像分类方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711084085.6A CN109753983A (zh) 2017-11-07 2017-11-07 图像分类方法、装置和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109753983A true CN109753983A (zh) 2019-05-14

Family

ID=66401035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711084085.6A Pending CN109753983A (zh) 2017-11-07 2017-11-07 图像分类方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109753983A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796177A (zh) * 2019-10-10 2020-02-14 温州大学 一种有效减少图像分类任务中神经网络过拟合的方法
CN111444365A (zh) * 2020-03-27 2020-07-24 Oppo广东移动通信有限公司 图像分类方法、装置、电子设备及存储介质
CN112270343A (zh) * 2020-10-16 2021-01-26 苏州浪潮智能科技有限公司 一种图像分类方法、装置及相关组件

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203330A (zh) * 2016-07-08 2016-12-07 西安理工大学 一种基于卷积神经网络的车辆分类方法
CN106960214A (zh) * 2017-02-17 2017-07-18 北京维弦科技有限责任公司 基于图像的物体识别方法
CN107316286A (zh) * 2017-07-07 2017-11-03 北京邮电大学 一种图像中雨雾同步合成、去除的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203330A (zh) * 2016-07-08 2016-12-07 西安理工大学 一种基于卷积神经网络的车辆分类方法
CN106960214A (zh) * 2017-02-17 2017-07-18 北京维弦科技有限责任公司 基于图像的物体识别方法
CN107316286A (zh) * 2017-07-07 2017-11-03 北京邮电大学 一种图像中雨雾同步合成、去除的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FORREST N. IANDOLA等: "S QUEEZE N ET : A LEX N ET - LEVEL ACCURACY WITH 50 X FEWER PARAMETERS AND <0.5MB MODEL SIZE", 《ARXIV》 *
JIE HU等: "Squeeze-and-Excitation Networks", 《ARXIV》 *
SHENXIAOLU1984: "网络优化超轻量级网络SqueezeNet算法详解", 《百度HTTP://WWW.ITKEYWORD.COM/DOC/9544754800422014194》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796177A (zh) * 2019-10-10 2020-02-14 温州大学 一种有效减少图像分类任务中神经网络过拟合的方法
CN111444365A (zh) * 2020-03-27 2020-07-24 Oppo广东移动通信有限公司 图像分类方法、装置、电子设备及存储介质
CN111444365B (zh) * 2020-03-27 2023-12-05 Oppo广东移动通信有限公司 图像分类方法、装置、电子设备及存储介质
CN112270343A (zh) * 2020-10-16 2021-01-26 苏州浪潮智能科技有限公司 一种图像分类方法、装置及相关组件

Similar Documents

Publication Publication Date Title
CN106778705B (zh) 一种行人个体分割方法及装置
Bulat et al. Hierarchical binary CNNs for landmark localization with limited resources
CN106156791A (zh) 业务数据分类方法和装置
CN108898086A (zh) 视频图像处理方法及装置、计算机可读介质和电子设备
CN104573742B (zh) 医学图像分类方法和系统
CN107067045A (zh) 数据聚类方法、装置、计算机可读介质和电子设备
CN109325538A (zh) 目标检测方法、装置和计算机可读存储介质
CN109753983A (zh) 图像分类方法、装置和计算机可读存储介质
WO2020244075A1 (zh) 手语识别方法、装置、计算机设备及存储介质
CN108280455A (zh) 人体关键点检测方法和装置、电子设备、程序和介质
CN110245579A (zh) 人流密度预测方法及装置、计算机设备及可读介质
US20150193656A1 (en) Performing hand gesture recognition using 2d image data
US11756199B2 (en) Image analysis in pathology
CN109145841A (zh) 一种基于视频监控的异常事件的检测方法及装置
CN110309010B (zh) 用于电力设备相位分辩的局放网络训练方法及装置
CN112418387A (zh) 量子数据处理方法及设备
CN113379059B (zh) 用于量子数据分类的模型训练方法以及量子数据分类方法
CN107886110A (zh) 人脸检测方法、装置及电子设备
CN110533119A (zh) 标识识别方法及其模型的训练方法、装置及电子系统
CN109657711A (zh) 一种图像分类方法、装置、设备及可读存储介质
CN109977834A (zh) 从深度图像中分割人手与交互物体的方法和装置
CN109949306A (zh) 反射面角度偏差检测方法、终端设备及存储介质
CN115457364A (zh) 一种目标检测知识蒸馏方法、装置、终端设备和存储介质
CN103810408B (zh) 一种权限对象的生成方法及装置
CN108520532A (zh) 识别视频中物体运动方向的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210226

Address after: Room a1905, 19 / F, building 2, No. 18, Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Beijing Jingdong Qianshi Technology Co.,Ltd.

Address before: 101, 1st floor, building 2, yard 20, Suzhou street, Haidian District, Beijing 100080

Applicant before: Beijing Jingbangda Trading Co.,Ltd.

Effective date of registration: 20210226

Address after: 101, 1st floor, building 2, yard 20, Suzhou street, Haidian District, Beijing 100080

Applicant after: Beijing Jingbangda Trading Co.,Ltd.

Address before: 100195 Beijing Haidian Xingshikou Road 65 West Cedar Creative Garden 4 District 11 Building East 1-4 Floor West 1-4 Floor

Applicant before: BEIJING JINGDONG SHANGKE INFORMATION TECHNOLOGY Co.,Ltd.

Applicant before: BEIJING JINGDONG CENTURY TRADING Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190514