CN114091648A - 基于卷积神经网络的图像分类方法、装置及卷积神经网络 - Google Patents

基于卷积神经网络的图像分类方法、装置及卷积神经网络 Download PDF

Info

Publication number
CN114091648A
CN114091648A CN202010746150.2A CN202010746150A CN114091648A CN 114091648 A CN114091648 A CN 114091648A CN 202010746150 A CN202010746150 A CN 202010746150A CN 114091648 A CN114091648 A CN 114091648A
Authority
CN
China
Prior art keywords
neural network
sub
layer
data
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010746150.2A
Other languages
English (en)
Inventor
吴进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010746150.2A priority Critical patent/CN114091648A/zh
Publication of CN114091648A publication Critical patent/CN114091648A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种基于卷积神经网络的图像分类方法、装置、卷积神经网络、电子设备及计算机可读存储介质,所述方法包括:获取第一数据,所述第一数据表征为多个图像和与每个图像对应的类别信息;基于所述第一数据对所述卷积神经网络进行训练;利用基于所述第一数据训练得到的所述卷积神经网络,对待识别图像进行识别,得到与所述待识别图像对应的类别信息;卷积神经网络包括依次连接的第一处理层、两个以上并行的子卷积神经网络层及第二处理层;本申请提出了全新的卷积神经网络,通过两个以上并行的子卷积神经网络层能够提高特征值的提取数量,并降低数据处理过程中的运算量,提高数据处理的效率。

Description

基于卷积神经网络的图像分类方法、装置及卷积神经网络
技术领域
本申请涉及图像分类技术,尤其涉及一种基于卷积神经网络的图像分类方法、装置、卷积神经网络、电子设备及计算机存储介质。
背景技术
当前卷积神经网络的结构主要朝两个方向变化,一种是网络的深度越来越深。经典的卷积神经网络LeNet5只有2个卷积层和2个将采样层提取特征,再连接全连接层实现图像分类,虽然取得了很高的识别率,但是仍然存在很多问题。首先它的成功是基于小型的数据集,图像的尺寸很小,以同样的训练模型不能应用在其他较大型的数据集和其他更加复杂的识别任务上。当时的计算机计算性能落后,不能满足大型计算需求,之后很长一段时间卷积神经网络没有取得很大的成功。针对这个问题,Krizhevsky等人提出了新的卷积神经网络结构AlexNet,整个网络的结构更宽更深,成功的运用了激活函数、正则化和数据增强等方法,将卷积神经网络应用到包括一百二十万张图片的大型数据集ImageNet上,利用强大的GPU并行计算并达到了较其他算法最高的识别率。序贯结构模型VGGNet将卷积神经网络的深度扩展,使用较小的卷积核将卷积层叠加,将ImageNet的识别率达到了更好的水平。
另一种是结构的变化。一味地增加卷积神经网络的深度会增加参数和计算量,模型难以优化,AlexNet的参数量达到了60M,增加深度对计算机的计算性能要求更高。2013年提出了NIN结构,通过1x1的小型卷积核减少了卷积层的参数,并且针对卷积神经网络的参数集中在全连接层的问题提出了全局平均池化Global average pooling,大大地减少了网络的参数。Inception模块,不同的卷积层作用在同一特征图上,提取的特征多样,泛化能力较强。卷积层深度的增加会导致准确率上升,但是持续增加会导致准确率不变甚至下降,针对这个问题,残差网络ResNet使用了和VGGNet相同的小型卷积层连续堆叠增加卷积神经网络深度的策略,但是使用了残差模块,虽然网络的深度达到了152层,但是参数数量却比VGGNet更少,准确率更高。
随着识别任务的要求越来越高,浅层卷积神经网络已经不能满足需求。同时越来越多的研究者优化卷积神经网络,但是仍存在如下不足:
深度卷积神经网络的复杂度和运算量较大;
卷积神经网络的深度的逐渐加深,虽然达到的精度也越来越高,伴随而来的是网络的参数越来越庞大,会出现识别精度先随着网络的深度增加而逐渐增加,然后逐渐达到饱和,之后再继续增加网络深度会导致精度不变,甚至下降;
卷积神经网络结构的结构类型单一,提取的特征较少。随着人工智能应用范围的不断提升,人机交互的手段也在不断地复杂化。
发明内容
本申请提供了一种基于卷积神经网络的图像分类方法、装置、卷积神经网络、电子设备及计算机存储介质。
本申请实施例提供一种基于卷积神经网络的图像分类方法,所述卷积神经网络包括:第一处理层、两个以上并行的子卷积神经网络层及第二处理层;所述第一处理层的输出端分别与所述两个以上并行的子卷积神经网络层的输入端连接,所述两个以上并行的子卷积神经网络层的输出端分别与所述第二处理层的输入端连接;输入所述第一处理层的数据经所述第一处理层处理后,能够分别通过所述两个以上并行的子卷积神经网络层进行处理,处理得到的两个以上的子处理结果能够在所述第二处理层叠加得到处理结果;所述方法包括:
获取第一数据,所述第一数据表征为多个图像和与每个图像对应的类别信息;
基于所述第一数据对所述卷积神经网络进行训练;
利用基于所述第一数据训练得到的所述卷积神经网络,对待识别图像进行识别,得到与所述待识别图像对应的类别信息。
在一些实施例中,所述子卷积神经网络层包括混合卷积层;其中,所述混合卷积层包括:子输入层、子处理层和并行的五个子卷积分支;所述子输入层的输出端分别与所述并行的五个子卷积分支的输入端连接,所述并行的五个子卷积分支的输出端分别与所述子处理层的输入端连接;通过所述子输入层输入所述混合卷积层的数据能够分别通过所述并行的五个子卷积分支进行处理,处理得到的五个子卷积分支处理结果能够在所述子处理层叠加得到混合卷积层处理结果。
在一些实施例中,所述并行的五个子卷积分支包括:第一子卷积分支、第二子卷积分支、第三子卷积分支、第四子卷积分支和第五子卷积分支;其中;
所述第一子卷积分支包括依次连接的一个第一卷积核和两个第二卷积核;
所述第二子卷积分支包括依次连接的一个第一卷积核和两个扩展卷积核;
所述第三子卷积分支包括一个第一卷积核;
所述第四子卷积分支包括依次连接一个平均池和一个第一卷积核;
所述第五子卷积分支包括依次连接的一个第一卷积核和两个并行的第二卷积核。
在一些实施例中,所述第一处理层包括依次连接的两个卷积层、一个池化层和一个卷积层;
所述第二处理层包括依次连接的一个卷积层、一个池化层和两个卷积层。
在一些实施例中,所述基于所述第一数据对所述卷积神经网络进行训练,包括:
依据所述第一数据进行训练数据的构建;
对构建的训练数据进行预处理,得到目标训练数据;
基于所述目标训练数据对所述卷积神经网络进行训练。
在一些实施例中,所述对构建的训练数据进行预处理,得到目标训练数据,包括:
将所述图像的尺寸压缩为预设尺寸。
本申请实施例提供一种基于卷积神经网络的图像分类装置,所述卷积神经网络包括第一处理层、两个以上并行的子卷积神经网络层及第二处理层;所述第一处理层的输出端分别与所述两个以上并行的子卷积神经网络层的输入端连接,所述两个以上并行的子卷积神经网络层的输出端分别与所述第二处理层的输入端连接;输入所述第一处理层的数据经所述第一处理层处理后,能够分别通过所述两个以上并行的子卷积神经网络层进行处理,处理得到的两个以上的子处理结果能够在所述第二处理层叠加得到处理结果;所述装置包括:
数据处理单元,用于获取第一数据,所述第一数据表征为多个图像和与每个图像对应的类别信息;
训练单元,用于基于所述第一数据对所述卷积神经网络进行训练;
识别单元,用于利用基于所述第一数据训练得到的所述卷积神经网络,对待识别图像进行识别,得到与所述待识别图像对应的类别信息。
本申请实施例提供一种卷积神经网络,所述卷积神经网络包括:输入层、输出层及两个以上并行的子卷积神经网络层;所述输入层的输出端分别与所述两个以上并行的子卷积神经网络层的输入端连接;所述输出层的输入端分别与所述两个以上并行的子卷积神经网络层的输出端连接;输入所述输入层的数据能够分别通过所述两个以上并行的子卷积神经网络层进行处理,处理得到的两个以上的子处理结果能够在所述输入层叠加得到处理结果。
本申请实施例一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器执行上述实施例中任一基于卷积神经网络的图像分类方法的步骤。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述实施例中任一基于卷积神经网络的图像分类方法的步骤。
本申请实施例的手势识别的方法,通过获取第一数据,所述第一数据表征为多个图像和与每个图像对应的类别信息;基于所述第一数据对所述卷积神经网络进行训练;利用基于所述第一数据训练得到的所述卷积神经网络,对待识别图像进行识别,得到与所述待识别图像对应的类别信息;卷积神经网络包括依次连接的第一处理层、两个以上并行的子卷积神经网络层及第二处理层;本申请提出了全新的卷积神经网络,通过两个以上并行的子卷积神经网络层能够提高特征值的提取数量,并降低数据处理过程中的运算量,提高数据处理的效率。
附图说明
附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。
图1为本申请实施例一种基于卷积神经网络的图像分类方法流程示意图;
图2为本申请实施例中卷积神经网络的结构示意图;
图3为本申请一些实施例中卷积神经网络的结构示意图;
图4为本申请实施例中混合卷积层的结构示意图;
图5为本申请一些实施例的手势识别方法的系统流程示意图;
图6为本申请一些实施例的手势图片处理后的效果示意图。
图7为本申请一些实施例的图像分类方法的系统流程示意图;
图8为本申请一些实施例的实测结果示意图;
图9为本申请一些实施例的实测结果示意图;
图10为本申请实施例一种基于卷积神经网络的图像分类装置结构示意图;
图11为本申请实施例的电子设备的硬件结构示意图。
具体实施方式
为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。
在本申请实施例记载中,需要说明的是,除非另有说明和限定,术语“连接”应做广义理解,例如,可以是电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
需要说明的是,本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本申请的实施例可以除了在这里图示或描述的那些以外的顺序实施。
图1为本申请实施例一种基于卷积神经网络的图像分类方法流程示意图,如图1所示,本申请实施例的基于卷积神经网络的图像分类方法包括:
步骤101,获取第一数据,第一数据表征为多个图像和与每个图像对应的类别信息。
在一些实施例中,第一数据表征的多个图像可以包括手势的图像,对应地,每个图像对应的类别信息可以包括手势对应的含义;例如:伸出一根手指的手势图像可以对应类别信息为“1”,伸出两个手指的手势图像可以对应类别信息为“2”等;这里只是对第一数据表征的图像及对应类别信息的举例说明,并非是对于本申请实施例的具体限定;在实际应用中,具体的图像对应的类别信息可以根据用户需要进行设置。
步骤102,基于第一数据对卷积神经网络进行训练。
在一些实施例中,基于第一数据对卷积神经网络进行训练,包括:
依据第一数据进行训练数据的构建;
对构建的训练数据进行预处理,得到目标训练数据;
基于目标训练数据对卷积神经网络进行训练。
其中,在一些实施例中,对构建的训练数据进行预处理,得到目标训练数据,包括:将图像的尺寸压缩为预设尺寸。
在一些实施例中,依据第一数据进行训练数据的构建,包括:基于第一数据表征的多个图像进行处理,得到训练集,并将图像对应的类别信息进行处理,得到与训练集中图片对应的标签。
在一些实施例中,对构建的训练数据进行预处理,得到目标训练数据,还包括:按照预设的一次训练所选取的样本数批大小batch size,将训练数据中的训练集和对应的标签分组,得到多个由训练集和对应的标签组成的样本数为batch size的batch。
基于目标训练数据对卷积神经网络进行训练,包括:将多个由训练集和对应的标签组成的样本数为batch size的batch依次输入卷积神经网络进行训练。
把训练集和标签组合成一个batch一是可以提高训练效率,很好的利用GPU,提高训练速度,二是batch_size结合梯度下降算法,训练的模型准确率更高;避免了将所有数据一次性输入到网络中训练,从而造成的计算梯度反向传播所导致的梯度值各个方向上的差异巨大;提高了全局学习效率,并且减少单次训练的内存资源占用。
步骤103,利用基于第一数据训练得到的卷积神经网络,对待识别图像进行识别,得到与待识别图像对应的类别信息。
可见,本申请实施例中,获取第一数据,第一数据表征为多个图像和与每个图像对应的类别信息;基于第一数据对卷积神经网络进行训练;利用基于第一数据训练得到的卷积神经网络,对待识别图像进行识别,得到与待识别图像对应的类别信息;结合对训练数据的预处理,得到目标训练数据,能够提高卷积神经网络的训练效率,可使训练得到的卷积神经网络对待识别图像对应类别信息的分辨更加准确。
针对不断增加卷积神经网络结构的深度导致准确率上升缓慢,甚至准确率不上升反而下降的问题,本申请研究了卷积神经网络结构的进展方向,设计出一种并联结构的卷积神经网络模型,与通过增加卷积层的输出通道数来拓宽网络宽度不同的是,而是将数据分别输入到独立的卷积神经网络分别进行特征学习,再将得到的特征图融合。并联结构的神经网络的基础模块是一种拓扑结构的卷积模型。
图2为本申请实施例中卷积神经网络的结构示意图,如图2所示,在本申请实施例中,卷积神经网络包括:第一处理层21、两个以上并行的子卷积神经网络层22及第二处理层23;其中,
第一处理层21的输出端分别与两个以上并行的子卷积神经网络层22的输入端连接,两个以上并行的子卷积神经网络层22的输出端分别与第二处理层23的输入端连接;输入第一处理层21的数据经第一处理层21处理后,能够分别通过两个以上并行的子卷积神经网络层22进行处理,处理得到的两个以上的子处理结果能够在第二处理层23叠加得到处理结果。
本申请实施例中对于多个处理结果的叠加,包括:将多个处理结果在第三维度上叠加。以图像数据的处理为例,图像数据经过卷积神经网络处理后得到的特征图,相对于原图像数据增加了一个维度,本申请中将并行的多个处理结果增加的的这一个维度上进行叠加;这里,第三维度即图像数据通过卷积神经网络处理得到的特征图中所增加的维度,即通道数对应的维度。对应地,特征图的尺寸可以表示为宽度、高度和通道数的乘积。
本申请实施例中,特征图包括图像数据经过卷积神经网络处理后得到的包含特征的处理结果。
图3为本申请一些实施例中卷积神经网络的结构示意图,在一些实施例中,具体地,如图3所示,第一处理层21包括依次连接的两个卷积层Conv、一个池化层maxpool和一个Conv。每个batch数据输入之后经过两个卷积层、一个池化层和一个卷积层,主要作用是在经过两个分支前先初步提取特征,并且增加特征图的通道数。
在一些实施例中,第一处理层21能够增加特征图的通道数,从3增加到64;以提高
在本申请一些实施例中,如图3所示,卷积神经网络中的卷积层Conv采用3×3的卷积核,即Conv3×3;相比采用5×5、7×7和11×11的大卷积核,3×3的卷积核明显地减少了参数量,进而提高卷积神经网络的运算性能。
在一些实施例中,第二处理层23包括依次连接的一个Conv、一个maxpool和两个Conv。第二处理层23能够将上述两个以上并行的子卷积神经网络层22进行处理得到的两个以上的子处理结果在第三维度上叠加,第二处理层23的最后两个Conv代替参数过多的全连接层,内核尺寸逐渐缩小、填充padding=VALID的卷积,正好将特征图的宽度和高度缩小到1x1,这样计算量更小,收敛更快,参数量更少。
在移动端部署深度学习模型,不仅要考虑模型的准确率,更要注重模型的参数数量。
在一些实施例中,子卷积神经网络层22包括依次连接的一个混合卷积层Conv-mixed、两个Conv、一个Conv-mixed、两个Conv、一个Conv-mixed和一个Conv。
其中,混合卷积层Conv-mixed为本申请中提出的一种全新的卷积层,具体地,图4为本申请实施例中混合卷积层的结构示意图,如图4所示,混合卷积层包括:子输入层41(Previous layer)、子处理层42(Concatenation)和并行的五个子卷积分支401至405;子输入层41的输出端分别与并行的五个子卷积分支401至405的输入端连接,并行的五个子卷积分支401至405的输出端分别与子处理层42的输入端连接;通过子输入层42输入混合卷积层的数据能够分别通过并行的五个子卷积分支401至405进行处理,处理得到的五个子卷积分支401至405处理结果能够在子处理层42叠加得到混合卷积层处理结果。
本申请实施例中对于多个处理结果的叠加,包括:将多个处理结果在第三维度上叠加。以图像数据的处理为例,图像数据经过卷积神经网络处理后得到的特征图,相对于原图像数据增加了一个维度,本申请中将并行的多个处理结果增加的的这一个维度上进行叠加;这里,第三维度即图像数据通过卷积神经网络处理得到的特征图中所增加的维度,即通道数对应的维度。对应地,特征图的尺寸可以表示为宽度、高度和通道数的乘积。
在一些实施例中,如图4所示,并行的五个子卷积分支401至405包括:第一子卷积分支401、第二子卷积分支402、第三子卷积分支403、第四子卷积分支404和第五子卷积分支405;其中;
第一子卷积分支401包括依次连接的一个第一卷积核和两个第二卷积核;
第二子卷积分支402包括依次连接的一个第一卷积核和两个扩展卷积核dilatedconv;
第三子卷积分支403包括一个第一卷积核;
第四子卷积分支404包括依次连接一个平均池Avg_pool和一个第一卷积核;
第五子卷积分支405包括依次连接的一个第一卷积核和两个并行的第二卷积核。
在一些实施例中,第一卷积核包括conv(k:1×1,s:1),第二卷积核包括conv(k:3×3,s:1),扩展卷积核包括dilated conv(k:3×3,s:2,r:2),平均池包括Avg_pool(k:3×3,s:1)。
需要说明的是,图4中的C0至C10编号为本申请一些具体实施例中为了便于分辨混合卷积层Conv-mixed中各子卷积分支中的各部分功能模块,仅作编号理解,而非对于各子卷积分支中功能模块的名称限定。
在移动端部署深度学习模型,不仅要考虑模型的准确率,更要注重模型的参数数量。图5为本申请一些实施例方案卷积神经网络中卷积层的参数图,其中每个卷积层的具体参数在图5中的feature map栏中。每个分支都使用了小型卷积核来增加通道数,这种分支拓扑结构的参数量和计算量仅有传统的线性结构的1/3,能够进一步提高卷积神经网络的运算性能。
在一些实施例中,为了研究独立分支结构的卷积神经网络与传统神经网络的性能,本申请实施例提出了如图3所示的卷积神经网络结构,每个batch数据输入之后经过两个卷积层、一个池化层和一个卷积层,主要作用是在经过两个分支前先初步提取特征,并且增加特征图的通道数,从3增加到64,然后经过两个分支组成的并联结构。分支结束后得到2个特征图在第三维度上叠加,最后的两个卷积主要作用是代替参数过多的全连接层,内核尺寸逐渐缩小、padding=VALID的卷积,正好将特征图的宽度和高度缩小到1x1,这样计算量更小,收敛更快,参数量更少。卷积神经网络的参数如图5所示,图5中介绍了conv、maxpool和Conv-mixed的详细参数,如第三列是每一层输出尺寸的宽度、高度和通道数的乘积;第四列Filter size/Stride表示普通卷积和最大池化的内核尺寸和步长;Conv-mixed的基本参数在第五列Feature maps(Conv-mixed)中;最后一列中的x2表示并联结构,而且并联结构中的参数一致。
假设卷积神经网络中输入为x,中间的各种卷积、正则化,池化等操作可以看成一个复杂的函数F(x),当只有单分支结构时,得到的期望结果可以描述成:
H(x)=F(x)
当分支数量增加时,期望结果可以描述成:
Figure BDA0002608413960000111
其中i表示并联结构的分支个数,虽然F(x)可以拟合成
Figure BDA0002608413960000112
的函数形式,但是实验表明训练模型要达到和前者一样的效果,所需要的时间和迭代次数要多很多,且网络收敛得更慢。
上述并联结构的卷积神经网络参数数量计算方式为:
Figure BDA0002608413960000113
其中kl和kd表示当前卷积核的宽度和高度,Ni-1表示输入的当前卷积层输入,即上一层的输出特征图深度,b表示偏置,n表示并联结构中分支的深度,N表示并联结构中的分支数。
为了说明本申请实施例卷积神经网络的图像分类方法的效果,本申请提供了一些手势图像分类实测的实施例。具体地,
数据集经过前期的预处理包括:数据增强、压缩,组合成batch之后,在深度卷积神经网络中训练。图像压缩时,不能只是单纯的直接将图片的尺寸,这样会使图片失真,训练集的质量严重下降,导致测试效果极差。这里使用面积插值法将图片调整为64×64×3的大小,处理后的手势图片效果如图6所示。
整个系统的流程如图7所示。虽然Tensorflow支持手机端训练,但是移动端的计算能力有限,训练时间过长,所以训练的过程可以在服务端进行。在训练如图3所示的卷积神经网络时,bacth_size是一个重要的参数,表示神经网络进行一次迭代所需要的样本数,如果不用batch_size,而是将所有数据一次性输入到网络中训练,从而计算梯度进行反向传播,那么得到的梯度值在各个方向上的差异巨大,就很难事先用一个很好的全局学习率,而且一次输入的数据量巨大,占用的内存的资源需求也很难满足。把训练集和标签组合成一个batch一是可以提高训练效率,很好的利用GPU,提高训练速度,而是batch_size结合梯度下降算法,训练的模型准确率更高。
模型训练完成后,将模型进行持久化操作并保存为.pb文件,然后将模型文件和标签文件放到项目相应的位置。程序运行时,开启移动端的摄像头拍摄图片,使用面积插值法压缩并组合成batch,使用库函数调用模型并将batch数据输入到模型,使用Fetch()函数得到输出结果,显示在前台界面上,调用训练好的模型时使用相应的库函数直接调用,实测结果如图8、图9所示。
轻量级深度卷积神经网络具有参数量少、计算量小的特点,仅有相比于传统深度卷积神经网络结构1/3,并且能够达到更好的结果。相比于现有的卷积神经网络算法收敛性更强。
当前已有的卷积神经网络结构参数量大、计算量高,不利于部署在移动平台上,本申请提出了轻量级深度卷积神经网络的手势识别算法参数量少、计算量小,收敛性强、可移植性高,易于训练。
图10为本申请实施例一种基于卷积神经网络的图像分类装置结构示意图,如图10所示,所述装置基于本申请实施例中所述的卷积神经网络,对于前述的本申请实施例的卷积神经网络此处不再赘述;所述装置包括:数据处理单元31、训练单元32和识别单元33。其中,
数据处理单元31,用于获取第一数据,所述第一数据表征为多个图像和与每个图像对应的类别信息。
训练单元32,用于基于所述第一数据对所述卷积神经网络进行训练。
在一些实施例中,所述基于所述第一数据对所述卷积神经网络进行训练,包括:
依据所述第一数据进行训练数据的构建;
对构建的训练数据进行预处理,得到目标训练数据;
基于所述目标训练数据对所述卷积神经网络进行训练。
其中,在一些实施例中,所述对构建的训练数据进行预处理,得到目标训练数据,包括:将所述图像的尺寸压缩为预设尺寸。
识别单元33,用于利用基于所述第一数据训练得到的所述卷积神经网络,对待识别图像进行识别,得到与所述待识别图像对应的类别信息。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时至少用于实现前述实施例基于卷积神经网络的图像分类方法所述步骤。所述计算机可读存储介质具体可以为存储器。所述存储器可以为如图11所示的存储器82。
本申请实施例还提供了一种电子设备。图11为本申请实施例的电子设备的硬件结构示意图,如图11所示,包括:用于进行数据传输的通信组件83、至少一个处理器81和用于存储能够在处理器81上运行的计算机程序的存储器82。终端中的各个组件通过总线系统84耦合在一起。可理解,总线系统84用于实现这些组件之间的连接通信。总线系统84除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图11中将各种总线都标为总线系统84。
其中,所述处理器81执行所述计算机程序时至少执行前述实施例基于卷积神经网络的图像分类方法所述步骤。
可以理解,存储器82可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器82旨在包括但不限于这些和任意其它适合类型的存储器。
上述本申请实施例揭示的方法可以应用于处理器81中,或者由处理器81实现。处理器81可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器81中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器81可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器81可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器82,处理器81读取存储器82中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,相关设备或分类系统可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、FPGA、通用处理器、控制器、MCU、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述的分类模型的训练方法和/或分类方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于卷积神经网络的图像分类方法,其特征在于,所述卷积神经网络包括:第一处理层、两个以上并行的子卷积神经网络层及第二处理层;所述第一处理层的输出端分别与所述两个以上并行的子卷积神经网络层的输入端连接,所述两个以上并行的子卷积神经网络层的输出端分别与所述第二处理层的输入端连接;输入所述第一处理层的数据经所述第一处理层处理后,能够分别通过所述两个以上并行的子卷积神经网络层进行处理,处理得到的两个以上的子处理结果能够在所述第二处理层叠加得到处理结果;所述方法包括:
获取第一数据,所述第一数据表征为多个图像和与每个图像对应的类别信息;
基于所述第一数据对所述卷积神经网络进行训练;
利用基于所述第一数据训练得到的所述卷积神经网络,对待识别图像进行识别,得到与所述待识别图像对应的类别信息。
2.根据权利要求1所述的方法,其特征在于,所述子卷积神经网络层包括混合卷积层;其中,所述混合卷积层包括:子输入层、子处理层和并行的五个子卷积分支;所述子输入层的输出端分别与所述并行的五个子卷积分支的输入端连接,所述并行的五个子卷积分支的输出端分别与所述子处理层的输入端连接;通过所述子输入层输入所述混合卷积层的数据能够分别通过所述并行的五个子卷积分支进行处理,处理得到的五个子卷积分支处理结果能够在所述子处理层叠加得到混合卷积层处理结果。
3.根据权利要求2所述的方法,其特征在于,所述并行的五个子卷积分支包括:第一子卷积分支、第二子卷积分支、第三子卷积分支、第四子卷积分支和第五子卷积分支;其中;
所述第一子卷积分支包括依次连接的一个第一卷积核和两个第二卷积核;
所述第二子卷积分支包括依次连接的一个第一卷积核和两个扩展卷积核;
所述第三子卷积分支包括一个第一卷积核;
所述第四子卷积分支包括依次连接一个平均池和一个第一卷积核;
所述第五子卷积分支包括依次连接的一个第一卷积核和两个并行的第二卷积核。
4.根据权利要求2所述的方法,其特征在于,所述第一处理层包括依次连接的两个卷积层、一个池化层和一个卷积层;
所述第二处理层包括依次连接的一个卷积层、一个池化层和两个卷积层。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一数据对所述卷积神经网络进行训练,包括:
依据所述第一数据进行训练数据的构建;
对构建的训练数据进行预处理,得到目标训练数据;
基于所述目标训练数据对所述卷积神经网络进行训练。
6.根据权利要求5所述的方法,其特征在于,所述对构建的训练数据进行预处理,得到目标训练数据,包括:
将所述图像的尺寸压缩为预设尺寸。
7.一种基于卷积神经网络的图像分类装置,其特征在于,所述卷积神经网络包括第一处理层、两个以上并行的子卷积神经网络层及第二处理层;所述第一处理层的输出端分别与所述两个以上并行的子卷积神经网络层的输入端连接,所述两个以上并行的子卷积神经网络层的输出端分别与所述第二处理层的输入端连接;输入所述第一处理层的数据经所述第一处理层处理后,能够分别通过所述两个以上并行的子卷积神经网络层进行处理,处理得到的两个以上的子处理结果能够在所述第二处理层叠加得到处理结果;所述装置包括:
数据处理单元,用于获取第一数据,所述第一数据表征为多个图像和与每个图像对应的类别信息;
训练单元,用于基于所述第一数据对所述卷积神经网络进行训练;
识别单元,用于利用基于所述第一数据训练得到的所述卷积神经网络,对待识别图像进行识别,得到与所述待识别图像对应的类别信息。
8.一种卷积神经网络,其特征在于,所述卷积神经网络包括:输入层、输出层及两个以上并行的子卷积神经网络层;所述输入层的输出端分别与所述两个以上并行的子卷积神经网络层的输入端连接;所述输出层的输入端分别与所述两个以上并行的子卷积神经网络层的输出端连接;输入所述输入层的数据能够分别通过所述两个以上并行的子卷积神经网络层进行处理,处理得到的两个以上的子处理结果能够在所述输入层叠加得到处理结果。
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器中存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至6任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法的步骤。
CN202010746150.2A 2020-07-29 2020-07-29 基于卷积神经网络的图像分类方法、装置及卷积神经网络 Pending CN114091648A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010746150.2A CN114091648A (zh) 2020-07-29 2020-07-29 基于卷积神经网络的图像分类方法、装置及卷积神经网络

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010746150.2A CN114091648A (zh) 2020-07-29 2020-07-29 基于卷积神经网络的图像分类方法、装置及卷积神经网络

Publications (1)

Publication Number Publication Date
CN114091648A true CN114091648A (zh) 2022-02-25

Family

ID=80294889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010746150.2A Pending CN114091648A (zh) 2020-07-29 2020-07-29 基于卷积神经网络的图像分类方法、装置及卷积神经网络

Country Status (1)

Country Link
CN (1) CN114091648A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419380A (zh) * 2022-03-31 2022-04-29 苏州浪潮智能科技有限公司 一种图像识别方法、装置及电子设备和存储介质
CN116503635A (zh) * 2022-10-26 2023-07-28 湖南省中医药研究院 一种基于机器学习的肺炎ct图像分类识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419380A (zh) * 2022-03-31 2022-04-29 苏州浪潮智能科技有限公司 一种图像识别方法、装置及电子设备和存储介质
CN116503635A (zh) * 2022-10-26 2023-07-28 湖南省中医药研究院 一种基于机器学习的肺炎ct图像分类识别方法

Similar Documents

Publication Publication Date Title
Li et al. Neural architecture search for lightweight non-local networks
CN109522874B (zh) 人体动作识别方法、装置、终端设备及存储介质
CN110309837B (zh) 基于卷积神经网络特征图的数据处理方法及图像处理方法
CN110188768B (zh) 实时图像语义分割方法及系统
CN110084274B (zh) 实时图像语义分割方法及系统、可读存储介质和终端
CN110111334A (zh) 一种裂缝分割方法、装置、电子设备及存储介质
WO2023174098A1 (zh) 一种实时手势检测方法及装置
CN107610146A (zh) 图像场景分割方法、装置、计算设备及计算机存储介质
CN111831844A (zh) 图像检索方法、图像检索装置、图像检索设备及介质
CN112712546A (zh) 一种基于孪生神经网络的目标跟踪方法
CN113673613B (zh) 基于对比学习的多模态数据特征表达方法、装置及介质
CN114091648A (zh) 基于卷积神经网络的图像分类方法、装置及卷积神经网络
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
US20230135109A1 (en) Method for processing signal, electronic device, and storage medium
KR102305575B1 (ko) 이미지 간 유사도를 이용한 유사 영역 강조 방법 및 시스템
CN115222581A (zh) 图像生成方法、模型训练方法、相关装置及电子设备
Li et al. NDNet: Spacewise multiscale representation learning via neighbor decoupling for real-time driving scene parsing
CN116468902A (zh) 图像的处理方法、装置和非易失性计算机可读存储介质
CN115830633A (zh) 基于多任务学习残差神经网络的行人重识别方法和系统
CN112801045B (zh) 一种文本区域检测方法、电子设备及计算机存储介质
CN116433686A (zh) 基于Transformer上下文信息融合的医学图像分割方法及相关设备
CN115620017A (zh) 图像的特征提取方法、装置、设备及存储介质
CN112580772B (zh) 卷积神经网络的压缩方法及装置
CN114549857A (zh) 图像信息识别方法、装置、计算机设备和存储介质
CN113496228A (zh) 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination