CN112001479B - 基于深度学习模型的处理方法、系统及电子设备 - Google Patents
基于深度学习模型的处理方法、系统及电子设备 Download PDFInfo
- Publication number
- CN112001479B CN112001479B CN202010694871.3A CN202010694871A CN112001479B CN 112001479 B CN112001479 B CN 112001479B CN 202010694871 A CN202010694871 A CN 202010694871A CN 112001479 B CN112001479 B CN 112001479B
- Authority
- CN
- China
- Prior art keywords
- layer
- convolution
- deep learning
- dimensional filters
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013136 deep learning model Methods 0.000 title claims abstract description 93
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 84
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000001514 detection method Methods 0.000 claims description 9
- 235000019580 granularity Nutrition 0.000 claims description 9
- 230000009467 reduction Effects 0.000 abstract description 10
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000011176 pooling Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本公开关于一种基于深度学习模型的处理方法、系统及电子设备,涉及深度学习技术领域,其中,方法包括:在卷积层的一个或多个输入通道接收用于卷积层的多个输入信息后,一个或多个三维滤波器对多个输入信息进行卷积处理,以生成多个中间量,一个或多个一维滤波器接收到多个中间量后,对多个中间量进行卷积处理,生成多个输出信息。该方法通过一个或多个三维滤波器从两个空间维度和一个时间维度上分别对多个输入信息进行卷积处理,以提取具有更多特征的中间量,有利于提高模型处理的准确度,进而采用一维滤波器进行降维处理,以降低深度学习模型处理的计算量的目的,从而实现了在保持较低计算量的同时,提高了深度学习模型处理的实时性和准确度。
Description
技术领域
本公开涉及深度学习技术领域,尤其涉及一种基于深度学习模型的处理方法、系统及电子设备。
背景技术
目前深度学习模型中,主要包括全连接层和卷积层,其中,常用的卷积层包括深度模块和标准卷积模块,标准卷积模块主要应用于计算能力足够的硬件,例如云端、服务器端等,深度模块主要应用于资源受限制的硬件,例如手机端、移动端等。深度模块相较于标准卷积模块而言,其实时性高,但其计算能力和准确度不够高。
相关技术中,由于电子设备的硬件资源的限制,往往通过降低模型的计算量来提高计算结果的实时性,但是现有的深度学习模型在降低计算量的同时,也会导致模型计算的准确率大幅下降。
发明内容
本公开提供一种基于深度学习模型的处理方法、系统及电子设备,以至少解决相关技术中深度学习模型在降低计算量的同时,导致模型计算的准确率大幅下降的问题。
本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种基于深度学习模型的处理方法,应用于电子设备,所述深度学习模型包括多个卷积层和连接层,所述方法包括:
接收用于所述卷积层的多个输入信息;其中,所述卷积层包括一个或多个输入通道,以及一个或多个输出通道;
所述卷积层通过一个或多个三维滤波器对所述多个输入信息进行卷积处理,以生成多个中间量,其中,所述一个或多个三维滤波器的数量是基于所述电子设备的计算能力确定的;
所述卷积层通过一个或多个一维滤波器对所述多个中间量进行卷积处理,以生成多个输出信息,其中,所述一个或多个一维滤波器通过一个或多个中间通道从所述一个或多个三维滤波器之中接收所述多个中间量。
作为本公开实施例的第一种可能的情况,所述三维滤波器的大小是基于所述卷积层的输入信息数量和预设大小确定的,其中,所述预设大小是基于当前卷积层检测特征的大小确定的。
作为本公开实施例的第二种可能的情况,所述方法,还包括:所述卷积层将所述输出信息通过连接层发送至所述深度学习模型的后续层。
作为本公开实施例的第三种可能的情况,所述一维滤波器的数量与所述输出通道的数量相同。
作为本公开实施例的第四种可能的情况,所述多个三维滤波器具备不同的参数,其中,具备不同参数的所述三维滤波器用于识别不同粒度的图像特征。
作为本公开实施例的第五种可能的情况,所述多个输入信息为上一层卷积层输出的特征图。
根据本公开实施例的第二方面,提供一种基于深度学习模型的处理系统,所述系统包括处理器,所述处理器被配置为加载深度学习模型,所述深度学习模型包括多个卷积层和连接层,其中,每一个卷积层包括:
一个或多个输入通道,被配置为接收用于所述卷积层的多个输入信息;
一个或多个输出通道;
三维滤波器,所述三维滤波器的个数为一个或多个,被配置为对所述多个输入信息进行卷积处理,以生成多个中间量,其中,所述一个或多个三维滤波器的数量是基于所述电子设备的计算能力确定的;
一维滤波器,所述一维滤波器的个数为一个或多个,被配置为对所述多个中间量进行卷积处理,以生成多个输出信息,其中,所述一个或多个一维滤波器通过一个或多个中间通道从所述一个或多个三维滤波器之中接收所述多个中间量。
作为本公开实施例的第一种可能的情况,所述三维滤波器的大小是基于所述卷积层的输入信息数量和预设大小确定的,其中,所述预设大小是基于当前卷积层检测特征的大小确定的。
作为本公开实施例的第二种可能的情况,所述卷积层,被配置为将所述输出信息通过连接层发送至所述深度学习模型的后续层。
作为本公开实施例的第三种可能的情况,所述一维滤波器的数量与所述输出通道的数量相同。
作为本公开实施例的第四种可能的情况,所述多个三维滤波器具备不同的参数,其中,具备不同参数的所述三维滤波器用于识别不同粒度的图像特征。
作为本公开实施例的第五种可能的情况,所述多个输入信息为上一层卷积层输出的特征图。
根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现本公开实施例的基于深度学习模型的处理方法。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得电子设备能够执行本公开实施例的基于深度学习模型的处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:在卷积层的一个或多个输入通道接收用于卷积层的多个输入信息后,卷积层通过一个或多个三维滤波器对多个输入信息进行卷积处理,以生成多个中间量,进一步地,一个或多个一维滤波器从一个或多个三维滤波器之中接收多个中间量后,对多个中间量进行卷积处理,以生成多个输出信息。该方法通过一个或多个三维滤波器从两个空间维度和一个时间维度上分别对卷积层接收到的多个输入信息进行卷积处理,以提取具有更多特征的中间量,有利于提高深度学习模型处理的准确度,进而采用一维滤波器进行降维处理,以通过降低卷积计算的复杂度来达到降低深度学习模型处理的计算量的目的,由此基于三维滤波器和一维滤波器对输入信息进行卷积处理,实现了在保持较低计算量的同时,提高了深度学习模型处理的实时性和准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种深度学习模型的结构示意图;
图2是根据一示例性实施例示出的一种卷积层的结构示意图;
图3是根据一示例性实施例示出的一种基于深度学习模型的处理方法的流程示意图;
图4是根据一示例性实施例示出的另一种基于深度学习模型的处理方法的流程示意图;
图5是根据一示例性实施例示出的一种基于深度学习模型的处理方法的示例图;
图6是根据一示例性实施例示出的一种用于基于深度学习模型的处理的电子设备200的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
可以理解的是,深度学习源于神经网络的研究,可以理解为深层的神经网络,通过它可以获取深层次的特征表示,免除人工选取特征的繁复冗杂和高维数据的维度灾难问题。深度学习模型,既有生成模式,也有判别模式。其中,最常用的深度学习模型可以包括:卷积神经网络(Convolutional Neural Network,简称CNN)、循环神经网络(RecurrentNeural Network,简称RNN)、深度信念网络(Deep Belief Network,简称DBN)、生成式对抗网络(Generative Adversarial Network,简称GAN)等等。
本公开实施例中,深度学习模型可以包括多个卷积层、池化层和连接层。
其中,卷积层,可以由一个或多个滤波器叠加而成,通过卷积操作对输入信息进行降维和特征提取。卷积运算的目的是提取输入信息的不同局部特征,第一层卷积层可能只能提取一些低级的特征,如边缘、线条和角等层级,后续更多层的卷积层能从低级特征中迭代提取更复杂的特征。
需要说明的是,卷积层包含的多个滤波器的维度可以不相同,例如,可以包含有一维滤波器、二维滤波器、三维滤波器,等等。这些滤波器是一个矩阵,用于识别卷积层的多个输入信息的特定的某些特征,并且,不同的滤波器具有不同的参数。例如,一些用于检测特定特征的滤波器,可以为水平滤波器、垂直滤波器等等。
本公开实施例中,卷积层对输入信息进行降维和特征提取得到特征图像后,为了避免特征图像的维数很高,导致存在计算耗时,且容易导致过拟合的缺点。可以采用池化层对卷积操作得到的特征图像进行分块,图像被划分成不相交块,进而计算这些块内的最大值或平均值,以得到池化后的图像。由此,通过池化层对卷积得到的特征图像进行降维处理,从而缩减量深度学习模型的大小,减小了模型的计算量,不仅降低了过拟合概率,还提升了特征提取的鲁棒性。
本公开实施例中,连接层在深度学习模型中起到分类器的作用,连接层的作用是根据卷积层提取的特征进行分类,以减小特征位置对分类带来的影响。
以深度学习模型为CNN为例,图1是根据一示例性实施例示出的一种深度学习模型的结构示意图;如图1所示,该深度学习模型100,可以包括输入层、多个卷积层、池化层、连接层。
在深度学习模型100中,输入层110接收到输入信息后,对输入信息进行预处理,防止了输入数据单位不一样,导致深度学习模型处理速度慢,时间长的问题。输入层110对多个输入信息进行预处理,以发送给卷积层120,卷积层120对接收到的预处理后的多个输入信息进行卷积操作后,生成多个输出信息;卷积层120通过多个输出通道将多个输出信息发送至下一层卷积层130,卷积层130对接收到的多个输入信息进行卷积处理,生成卷积层130的多个输出信息;进一步地,卷积层130通过多个输出通道将多个输出信息发送至卷积层140,卷积层140对接收到的多个输入信息进行卷积处理,生成卷积层140的多个输出信息。
若卷积层140为该深度学习模型的最后一层卷积层,则可以将多个输出信息提供给池化层150。池化层150可以接收到卷积层140进行卷积操作后生成的多个输出信息作为输入,并执行下采样或者其他操作以减小输入的大小。例如,池化层150可以在时空体积上执行全局平均池。一个或多个连接层160可以接收池化层150的输出作为输入,并基于到一个或多个连接层160的输入来生成最终的分类预测。
在深度学习模型100中,每一个卷积层可以包括一个或多个三维滤波器和一个或多个一维滤波器,卷积层中的每一个三维滤波器分别对接收到的多个输入信息进行卷积操作,以生成多个中间量,一个或多个一维滤波器对多个中间量进行卷积处理,以生成该卷积层的多个输出信息。
需要解释的是,图1中的深度学习模型100的结构仅作为一种示例性描述,其中,卷积层中三维滤波器和一维滤波器的数量可以基于电子设备的计算能力确定,在此不做限定。在其他示例中,深度学习模型100中的各卷积层,可以为包含有一个或多个三维滤波器和一个或多个一维滤波器的卷积层,也可以为深度卷积层(Depth Wise,简称DW),也可以为标准卷积模块,等等,在此不做限定。
作为一种示例,图2是根据一示例性实施例示出的一种卷积层的结构示意图,如图2所示,该卷积层可以包含有x个三维滤波器和y个一维滤波器,且具有n个输入通道和m个输出通道,其中,x、y、n和m均为正整数。
本公开实施例中,图2中的卷积层的输入通道接收到上一卷积层发送的输入信息后,x个三维滤波器分别对输入信息进行卷积处理,生成多个中间量,进而,y个一维滤波器对多个中间量进行卷积处理,以生成该卷积层的多个输出信息。
例如,假设x为3,y为1,则该卷积层可以包括3个三维滤波器和1个一维滤波器,该卷积层接收到上一卷积层输入的多个输入信息后,3个三维滤波器分别对多个输入信息进行卷积处理,以生成多个中间量,1个一维滤波器对多个中间量进行处理,以生成该卷积层的多个输出信息。
在实际的应用时,假设输入信息为视频帧或者图像帧,可以基于深度学习模型对多个输入图像进行卷积处理,作为一种示例,图3是根据一示例性实施例示出的一种基于深度学习模型的处理方法的流程图,如图3所示,该基于深度学习模型的处理方法,可以包括以下步骤:
在步骤S310中,深度学习模型接收输入图像。
本公开实施例中,深度学习模型的输入层接收输入图像后,可以对输入图像进行预处理,例如,可以对输入图像进行去噪处理、模糊处理、图像增强处理,等等。输入层对输入图像进行预处理后,可以将预处理的图像发送至深度学习模型的第一层卷积层。
在步骤S320中,第一层卷积层对输入层输入的图像进行卷积处理,以生成第一特征图,并通过输出通道将第一特征图发送至第二层卷积层。
在步骤S330中,第二层卷积层对接收到的第一特征图进行卷积处理,以生成第二特征图,并通过输出通道将第二特征图发送至第三层卷积层。
在步骤S340中,第三层卷积层对接收到的第二特征图进行卷积处理,以生成第三特征图,并通过输出通道将第三特征图发送至第四层卷积层。
在步骤S350中,最后一层卷积层对接收到的上一卷积层发送的特征图进行卷积处理,并将生成特征图发送至池化层。
在步骤S360中,池化层对接收到最后一层卷积层的输出进行下采样处理,并将处理后的特征图发送至连接层,以得到输出图像。
本公开实施例中,深度学习模型可以包括多个卷积层,每一层卷积层对接收到的上一卷积层发送的特征图执行卷积操作,直至最后一层卷积层对接收到的上一卷积层发送的特征图进行卷积处理后,将生成的特征图发送至池化层。
进一步地,池化层对接收到的特征图进行下采样处理,以达到压缩图像的目的,并将下采样处理后的特征图发送至连接层,连接层对接收到的特征图进行卷积处理,以得到输出图像。
作为一种示例,在图3中深度学习模型的输入也可以为多个输入信息,卷积层对多个输入信息进行处理时,可以通过一个或多个三维滤波器对上一层卷积层进行卷积操作的输出进行卷积处理,以生成多个中间量,进一步地,卷积层通过一个或多个一维滤波器对多个中间量进行卷积处理,以生成多个输出信息,进一步地,采用连接层将卷积层的输出信息作为输入发送至深度学习模型的后续层。
图4是根据一示例性实施例示出的一种基于深度学习模型的处理方法的流程图,如图4所示,该基于深度学习模型的处理方法可以应用于电子设备中,可以包括以下步骤:
在步骤S410中,接收用于卷积层的多个输入信息;其中,卷积层包括一个或多个输入通道,以及一个或多个输出通道。
本公开实施例以该基于深度学习模型的处理方法被配置于基于深度学习模型的处理装置中来举例说明,该基于深度学习模型的处理装置可以应用于任一电子设备中,以使该电子设备可以执行基于深度学习模型的处理功能。
其中,电子设备,可以为个人电脑(Personal Computer,简称PC)、云端设备、移动设备等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统的硬件设备。
其中,输入信息,可以图像数据,例如,可以为图像帧或视频帧,可以是一维的,例如一个或多个数字的向量;也可以是二维的,例如,数字的二维矩阵;还可以是三维的,例如,数字的三维矩阵,等等,本实施例中在此不做限定。
本公开实施例中,卷积层可以包括一个或多个输入通道,以及一个或多个输出通道。其中,卷积层包括的输入通道的个数与输入该卷积层的特征图相关,例如若输入卷积层的特征图为一维的,则该卷积层的输入通道可以为1,若输入卷积层的特征图为三维的,则该卷积层的输入通道为3。卷积层完成卷积操作后的输出通道与该卷积层包含的卷积核的个数相关,例如,若卷积层包括三个卷积核,则该卷积层完成卷积操作后的输出通道为3个。
在一种可能的情况下,当输入卷积层的输入信息为一维时,用于对输入信息进行特征提取的卷积层可以包括一个输入通道和一个输出通道。
在另一种可能的情况下,当卷积层包括多个输入通道时,可以对各个输入通道的结果进行了累加,使得不论输入通道数是多少,输出通道总是为1。
在又一种可能的情况下,卷积层的输入可以包括多个通道,当卷积核含有多个输入通道时,需要构造一个通道数与输入信息的通道数相同的卷积核,从而能够与含有多通道的输入信息做互相关运算。假设输入信息的通道数为Ci,卷积核形状为Kh*Kw,为每个输入通道各分配一个形状为Kh*Kw的核数组,将Ci个互相关运算的二维输出按通道相加,得到一个二维数组作为输出。把Ci个核数组在通道维上连结,即得到一个形状为Ci*Kh*Kw的卷积核。卷积层的输出也可以包含多个通道,假设卷积核输入通道数和输出通道数分别为Ci和Co,高和宽分别为Kh和Kw,可以为每个输出通道分别创建形状为Ci*Kh*Kw的核数组,将它们在输出通道维上连结,以建立多个输出通道,其中,卷积核的形状为Co*Ci*Kh*Kw。
对于输出通道的卷积核,可以理解为,一个Ci*Kh*Kw的核数组可以提取某种局部特征,但是输入可能具有相当丰富的特征,需要有多个核数组,以采用不同的核数组提取得到不同的特征。
需要解释的是,上述卷积层的输入通道和输出通道的个数仅作为示例性描述,本公开实施例中在此不做限定。
本公开实施例中,电子设备的处理器可以接收用于多个卷积层的多个输入信息,以使得多个卷积层分别对多个输入信息进行卷积操作。在多个卷积层对多个输入信息进行卷积操作时,每一层卷积层的输出信息均可以作为后续卷积层的输入信息。
作为本公开实施例的一种可能的情况,当卷积层为深度学习模型的第一层卷积层时,输入第一层卷积层的输入信息可以为经过预处理后的图像数据,例如,可以为降噪、平滑处理后的图像。电子设备的处理器可以接收到用于第一层卷积层的多个输入图像。
作为本公开实施例的另一种可能的情况,当卷积层为深度学习模型中除第一层之外的后续多层卷积层时,输入卷积层的多个输入信息可以为上一层卷积层输出的特征图,电子设备可以接收用于卷积层的上一层卷积层输出的特征图。例如,第三层卷积层的输入信息,可以为第二层卷积层执行卷积操作后输出的特征图。
在步骤S420中,卷积层通过一个或多个三维滤波器对多个输入信息进行卷积处理,以生成多个中间量。
其中,一个或多个三维滤波器的数量是基于电子设备的计算能力确定的。三维滤波器的维度,可以是输入图像帧或者视频帧的高度、宽度和时间维度。
图像在计算机中的数字信号可以是M*N*3大小的矩阵,若只考虑图像的灰度,不考虑RGB,那么图像的大小可以为M*N,其中,M和N均为正整数。某一个滤波器对图像进行滤波时,就是将滤波器分别与图像的同大小区域进行点乘,每次滤波器依次从左往右从上往下滑过该图像所有的区域,让该滤波器对图像的某一个与滤波器尺寸同大小的图像区域进行点乘,进而对各个乘积求和得到新的过滤后的图像。图像某一部分与滤波器点乘后求和操作就是卷积神经网络中的卷积操作,由此,可以得到经过滤波器过滤后的图像。
本公开实施例中,卷积层可以包括一个或多个三维滤波器,每一层卷积层包括的三维滤波器的数量可以是基于电子设备的计算能力确定的。也就是说,在电子设备的计算能力较强的情况下,卷积层可以包括多个三维滤波器,以识别得到不同粒度的图像特征,从而有利于提高度学习模型的处理的准确度;在电子设备的计算能力较弱时,卷积层可以包括少数三维滤波器,甚至可以包括一个三维滤波器,以通过降低计算量的方式,来提高深度学习模型的处理速度。
在一种可能的情况下,当根据电子设备的计算能力确定卷积层可以包括多个三维滤波器时,每一个三维滤波器可以具备不同的参数,且具备不同参数的三维滤波器可以用于识别不同粒度的图像特征。也就是说,本公开实施例中,卷积层包括多个三维滤波器时,具备不同参数的三维滤波器可以分别用于识别多个输入信息的不同粒度的图像特征。
需要解释的是,根据粒度由粗到细,可以将图像识别分为通用图像识别(如图像分类、目标检测、分割等)、细粒度图像识别(如车型识别等)以及更细粒度的图像识别(如人脸识别等)。例如,图像分类可以识别出图像特征是否属于人类,细粒度图像分类可以识别出图像中的人类属于哪种人,更细粒度的图像识别可以识别出具体是哪个人。
本公开实施例中,每一个三维滤波器的大小是基于卷积层的输入信息数据和预设大小确定的,其中,预设大小是基于当前卷积层检测特征的大小确定的。可以理解为,当前卷积层的输入信息的数量较多,且检测特征较大时,可以将三维滤波器设置大一些;而当前卷积层的输入信息的数量较少,且检测特征较小时,可以将三维滤波器设置小一些。例如,假设某一卷积层的多个输入信息为上一层卷积层输出的特征图,当上一层卷积层输出的特征图很小时,则不需要太大的三维滤波器对输入信息进行卷积处理,然而,当上一层卷积层输出的特征图较大时,往往需要较大的三维滤波器对输入信息进行卷积处理。
需要说明的时,三维滤波器的大小还可以与深度学习模型计算的复杂度、训练难度、模型参数的数量等因素相关,本公开实施例中在此不做限定。
本公开实施例中,卷积层通过一个或多个三维滤波器对多个输入信息进行卷积处理,可以从三个维度(x,y,z)来计算多个输入信息的特征,以输出得到多个三维的中间量。
其中,三维滤波器对多个输入信息进行卷积处理,生成的中间量可以是三维滤波器对上一层卷积层输出的特征图进行进一步的特征提取后得到的图像特征。
在步骤S430中,卷积层通过一个或多个一维滤波器对多个中间量进行卷积处理,以生成多个输出信息。
其中,一个或多个一维滤波器通过一个或多个中间通道从一个或多个三维滤波器之中接收多个中间量。
需要解释的是,本公开实施例中的一维滤波器可以为1*1的卷积核,1*1的卷积核可以在不改变特征图的空间结构的前提下对接收的多个中间量进行降维处理,还可以实现跨通道的交互和信息整合。卷积层通过一个或多个三维滤波器对多个输入信息进行卷积处理时,当输入通道和输出通道的数量较多时,卷积处理会使得滤波器参数变的很大,进而采用一维滤波器进行进一步的卷积处理,不仅可以降低输入通道的数量,同时也降低了滤波器参数和运算复杂度。
在本公开实施例的一种可能的情况下,还可以在包含有三维滤波器的卷积层前面设置有一维滤波器,以通过跨通道线性组合来实现通道间信息交互。
本公开实施例中,输出信息,可以为一维滤波器对中间量进行卷积处理后得到的特征图。
需要解释的是,卷积层包括的三维滤波器的数量与中间通道的数量相同,例如,某一卷积层包括3个三维滤波器,则该卷积层的输出通道是3,也就是说中间通道为3。
本公开实施例中,一维滤波器的数量可以基于输出通道的数量而设计,对于每个输出通道可以有不同的一维滤波器,并且每个一维滤波器可以用于生成与对应的输出通道相关联的输出值。也就是说,一维滤波器的数量可以与卷积层包含的输出通道的数量相同。其中,输出通道可以基于电子设备的计算能力确定。
本公开实施例中,卷积层通过一个或多个三维滤波器对多个输入信息进行卷积处理,生成多个中间量后,可以通过一个或多个中间通道将多个中间量输入下一卷积层,以使得下一卷积层包含的一个或多个一维滤波器接收到多个中间量后,对多个中间量进行卷积处理,以生成多个输出信息。
需要解释的是,上述卷积层中包括的三维滤波器和一维滤波器的个数仅作为示例性描述,本公开实施例中在此不做限定。
在步骤S440,卷积层将输出信息通过连接层发送至深度学习模型的后续层。
其中,连接层是指深度学习模型的全连接层,全连接层的作用可以为将卷积层的多个输出信息展开成向量之后对每个特征图进行分类。
卷积层通过一个或多个一维滤波器对多个中间量进行卷积处理,生成多个输出信息之后,可以将多个输出信息发送至深度学习模型的后续层,以使得后续的卷积层对多个输出信息进行进一步处理,从而有利于提高深度学习模型处理的准确度。
本公开实施例中,全连接层的每一个节点都与上一层的每个节点连接,可以把前一层卷积层的输出信息都综合成向量,进而对这个向量做乘法,以降低其维度,进而发送至深度学习模型的后续层。例如,连接层可以对多个输出信息进行处理后,将处理后的多个输出信息输入到softmax层以进行分类。
例如,卷积层可以通过一个或多个输出通道将多个输出信息传输至连接层,连接层接收到多个输出信息后,可以将多个输出信息展开成向量,以发送至深度学习模型的后续层进行卷积处理。
本公开实施例的基于深度学习模型的处理方法,卷积层的一个或多个输入通道在接收用于卷积层的多个输入信息后,卷积层通过一个或多个三维滤波器对多个输入信息进行卷积处理,以生成多个中间量,进一步地,一个或多个一维滤波器从一个或多个三维滤波器之中接收多个中间量后,对多个中间量进行卷积处理,以生成多个输出信息。该方法通过一个或多个三维滤波器从两个空间维度和一个时间维度上分别对卷积层接收到的多个输入信息进行卷积处理,以提取得到具有更多图像特征的中间量,有利于提高深度学习模型处理的准确度,进而采用一维滤波器进行降维处理,通过降低卷积计算的复杂度来达到降低深度学习模型处理的计算量的目的,由此基于三维滤波器和一维滤波器对输入信息进行卷积处理,实现了在保持较低计算量的同时,提高了深度学习模型处理的实时性和准确度。
作为一种示例,参见图5,卷积层包括X个三维滤波器,当有多个输入信息输入卷积层时,通过X个三维滤波器对多个输入信息分别进行卷积处理,生成多个中间量后,下一层卷积层包括的Y个一维滤波器通过中间通道从三维滤波器接收到多个中间量后,X个一维滤波器对多个中间量进行卷积处理,以生成多个输出信息,卷积层可以通过多个输出通道将多个输出信息传输至连接层,连接层接收到多个输出信息后,可以将多个输出信息展开成向量,以发送至深度学习模型的后续层进行分类处理。其中,X、Y均为正整数,
需要解释的是,一维滤波器的数量可以与三维滤波器的数量相同,也可以与三维滤波器的数量不相同,具体的三维滤波器和一维滤波器的数量可以根据实际需求而定。例如,可以根据电子设备的计算能力或者产品需求等因素,确定三维滤波器和一维滤波器的个数。图5中仅作为一种示例性描述,本公开实施例中对此不做限定。
为了实现上述实施例,本公开实施例提出了一种基于深度学习模型的处理系统。
作为一种示例,基于深度学习模型的处理系统可以包括处理器,处理器被配置为加载深度学习模型,深度学习模型可以包括多个卷积层和连接层,其中,每一个卷积层可以包括输入通道,输出通道,三维滤波器和一维滤波器。
其中,一个或多个输入通道,被配置为加载深度学习模型。
一个或多个输出通道。
三维滤波器,三维滤波器的个数可以为一个或多个,一个或多个三维滤波器被配置为对多个输入信息进行卷积处理,以生成多个中间量,其中,一个或多个三维滤波器的数量是基于电子设备的计算能力确定的。
一维滤波器,一维滤波器的个数可以为一个或多个,一个或多个一维滤波器被配置为对多个中间量进行卷积处理,以生成多个输出信息,其中,一个或多个一维滤波器通过一个或多个中间通道从一个或多个三维滤波器之中接收多个中间量。
作为本公开实施例的一种可能的情况,三维滤波器的大小的是基于卷积层的输入信息数量和预设大小确定的,其中,预设大小是基于当前卷积层检测特征的大小确定的。
作为本公开实施例的另一种可能的情况,卷积层,被配置为将输出信息通过连接层发送至深度学习模型的后续层。
作为本公开实施例的另一种可能的情况,一维滤波器的数量与输出通道的数量相同。
作为本公开实施例的另一种可能的情况,多个三维滤波器具备不同的参数,其中,具备不同参数的三维滤波器用于识别不同粒度的图像特征。
作为本公开实施例的另一种可能的情况,多个输入信息为上一层卷积层输出的特征图。
关于上述实施例中的系统,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开实施例的基于深度学习模型的处理系统,卷积层的一个或多个输入通道在接收用于卷积层的多个输入信息后,卷积层通过一个或多个三维滤波器对多个输入信息进行卷积处理,以生成多个中间量,进一步地,一个或多个一维滤波器从一个或多个三维滤波器之中接收多个中间量后,对多个中间量进行卷积处理,以生成多个输出信息。该方法通过一个或多个三维滤波器从两个空间维度和一个时间维度上分别对卷积层接收到的多个输入信息进行卷积处理,以提取得到具有更多图像特征的中间量,有利于提高深度学习模型处理的准确度,进而采用一维滤波器进行降维处理,通过降低卷积计算的复杂度来达到降低深度学习模型处理的计算量的目的,由此基于三维滤波器和一维滤波器对输入信息进行卷积处理,实现了在保持较低计算量的同时,提高了深度学习模型处理的实时性和准确度。
为了实现上述实施例,本公开实施例还提出了一种电子设备。
其中,电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如前所述的基于深度学习模型的处理方法。
作为一种示例,图6是根据一示例性实施例示出的一种用于基于深度学习模型的处理的电子设备200的框图。如图6所示,上述电子设备200,还可以包括:
存储器210及处理器220,连接不同组件(包括存储器210和处理器220)的总线230,存储器210存储有计算机程序,当处理器220执行所述程序时实现本公开实施例所述的图像压缩方法。
总线230表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备200典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备200访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器210还可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)240和/或高速缓存存储器250。服务器200可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统260可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线230相连。存储器210可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本公开各实施例的功能。
具有一组(至少一个)程序模块270的程序/实用工具280,可以存储在例如存储器210中,这样的程序模块270包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块270通常执行本公开所描述的实施例中的功能和/或方法。
电子设备200也可以与一个或多个外部设备290(例如键盘、指向设备、显示器291等)通信,还可与一个或者多个使得用户能与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口292进行。并且,电子设备200还可以通过网络适配器293与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器293通过总线230与电子设备200的其它模块通信。应当明白,尽管图6中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器220通过运行存储在存储器210中的程序,从而执行各种功能应用以及数据处理。
需要说明的是,本实施例的电子设备的实施过程和技术原理参见前述对本公开实施例的基于深度学习模型的处理方法的解释说明,此处不再赘述。
本公开实施例提供的电子设备,卷积层的一个或多个输入通道在接收用于卷积层的多个输入信息后,卷积层通过一个或多个三维滤波器对多个输入信息进行卷积处理,以生成多个中间量,进一步地,一个或多个一维滤波器从一个或多个三维滤波器之中接收多个中间量后,对多个中间量进行卷积处理,以生成多个输出信息。该方法通过一个或多个三维滤波器从两个空间维度和一个时间维度上分别对卷积层接收到的多个输入信息进行卷积处理,以提取得到具有更多图像特征的中间量,有利于提高深度学习模型处理的准确度,进而采用一维滤波器进行降维处理,通过降低卷积计算的复杂度来达到降低深度学习模型处理的计算量的目的,由此基于三维滤波器和一维滤波器对输入信息进行卷积处理,实现了在保持较低计算量的同时,提高了深度学习模型处理的实时性和准确度。
为了实现上述实施例,本公开实施例还提出了一种存储介质。
其中,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如前所述的基于深度学习模型的处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种基于深度学习模型的处理方法,应用于电子设备,其特征在于,所述深度学习模型包括多个卷积层和连接层,所述方法包括:
接收用于所述卷积层的多个输入信息;其中,所述卷积层包括一个或多个输入通道,以及一个或多个输出通道;
所述卷积层通过一个或多个三维滤波器对所述多个输入信息进行卷积处理,以生成多个中间量,其中,所述一个或多个三维滤波器的数量是基于所述电子设备的计算能力确定的;
所述卷积层通过一个或多个一维滤波器对所述多个中间量进行卷积处理,以生成多个输出信息,其中,所述一个或多个一维滤波器通过一个或多个中间通道从所述一个或多个三维滤波器之中接收所述多个中间量;
其中,所述多个三维滤波器具备不同的参数,其中,具备不同参数的所述三维滤波器用于识别不同粒度的图像特征,图像识别包括通用图像识别和细粒度图像识别。
2.根据权利要求1所述的方法,其特征在于,所述三维滤波器的大小是基于所述卷积层的输入信息数量和预设大小确定的,其中,所述预设大小是基于当前卷积层检测特征的大小确定的。
3.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
所述卷积层将所述输出信息通过连接层发送至所述深度学习模型的后续层。
4.根据权利要求1所述的方法,其特征在于,所述一维滤波器的数量与所述输出通道的数量相同。
5.根据权利要求1所述的方法,其特征在于,所述多个输入信息为上一层卷积层输出的特征图。
6.一种基于深度学习模型的处理系统,其特征在于,所述系统包括处理器,所述处理器被配置为加载深度学习模型,所述深度学习模型包括多个卷积层和连接层,其中,每一个卷积层包括:
一个或多个输入通道,被配置为接收用于所述卷积层的多个输入信息;
一个或多个输出通道;
三维滤波器,所述三维滤波器的个数为一个或多个,被配置为对所述多个输入信息进行卷积处理,以生成多个中间量,其中,所述一个或多个三维滤波器的数量是基于电子设备的计算能力确定的;
一维滤波器,所述一维滤波器的个数为一个或多个,被配置为对所述多个中间量进行卷积处理,以生成多个输出信息,其中,所述一个或多个一维滤波器通过一个或多个中间通道从所述一个或多个三维滤波器之中接收所述多个中间量;
其中,所述多个三维滤波器具备不同的参数,其中,具备不同参数的所述三维滤波器用于识别不同粒度的图像特征,图像识别包括通用图像识别和细粒度图像识别。
7.根据权利要求6所述的系统,其特征在于,所述三维滤波器的大小是基于所述卷积层的输入信息数量和预设大小确定的,其中,所述预设大小是基于当前卷积层检测特征的大小确定的。
8.根据权利要求6所述的系统,其特征在于,所述卷积层,被配置为将所述输出信息通过连接层发送至所述深度学习模型的后续层。
9.根据权利要求6所述的系统,其特征在于,所述一维滤波器的数量与所述输出通道的数量相同。
10.根据权利要求6所述的系统,其特征在于,所述多个输入信息为上一层卷积层输出的特征图。
11.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-5中任一项所述的基于深度学习模型的处理方法。
12.一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-5中任一项所述的基于深度学习模型的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010694871.3A CN112001479B (zh) | 2020-07-18 | 2020-07-18 | 基于深度学习模型的处理方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010694871.3A CN112001479B (zh) | 2020-07-18 | 2020-07-18 | 基于深度学习模型的处理方法、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112001479A CN112001479A (zh) | 2020-11-27 |
CN112001479B true CN112001479B (zh) | 2024-04-16 |
Family
ID=73468110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010694871.3A Active CN112001479B (zh) | 2020-07-18 | 2020-07-18 | 基于深度学习模型的处理方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001479B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240312196A1 (en) * | 2021-11-30 | 2024-09-19 | Intel Corporation | Apparatus and method for dynamic quadruple convolution in 3d cnn |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717571A (zh) * | 2018-06-01 | 2018-10-30 | 阿依瓦(北京)技术有限公司 | 一种用于人工智能的加速方法和装置 |
CN109905624A (zh) * | 2019-03-01 | 2019-06-18 | 北京大学深圳研究生院 | 一种视频帧插值方法、装置及设备 |
CN111291647A (zh) * | 2020-01-21 | 2020-06-16 | 陕西师范大学 | 基于多尺度卷积核和超事件模块的单阶段动作定位方法 |
US10706350B1 (en) * | 2017-08-11 | 2020-07-07 | Facebook, Inc. | Video analysis using convolutional networks |
-
2020
- 2020-07-18 CN CN202010694871.3A patent/CN112001479B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10706350B1 (en) * | 2017-08-11 | 2020-07-07 | Facebook, Inc. | Video analysis using convolutional networks |
CN108717571A (zh) * | 2018-06-01 | 2018-10-30 | 阿依瓦(北京)技术有限公司 | 一种用于人工智能的加速方法和装置 |
CN109905624A (zh) * | 2019-03-01 | 2019-06-18 | 北京大学深圳研究生院 | 一种视频帧插值方法、装置及设备 |
CN111291647A (zh) * | 2020-01-21 | 2020-06-16 | 陕西师范大学 | 基于多尺度卷积核和超事件模块的单阶段动作定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112001479A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
Cho et al. | Weakly-and self-supervised learning for content-aware deep image retargeting | |
US20190311223A1 (en) | Image processing methods and apparatus, and electronic devices | |
CN111680678B (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
CN107977661B (zh) | 基于fcn与低秩稀疏分解的感兴趣区域检测方法 | |
CN112990219B (zh) | 用于图像语义分割的方法和装置 | |
CN111738344A (zh) | 一种基于多尺度融合的快速目标检测方法 | |
US20230252605A1 (en) | Method and system for a high-frequency attention network for efficient single image super-resolution | |
CN113344110B (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
CN111696038A (zh) | 图像超分辨率方法、装置、设备及计算机可读存储介质 | |
CN117581232A (zh) | 基于NeRF的机器学习模型的加速训练 | |
CN114998756A (zh) | 一种基于yolov5的遥感图像检测方法、装置及存储介质 | |
CN116205927A (zh) | 一种基于边界增强的图像分割方法 | |
CN116071309A (zh) | 元器件的声扫缺陷检测方法、装置、设备和存储介质 | |
CN112001479B (zh) | 基于深度学习模型的处理方法、系统及电子设备 | |
Qin et al. | Face inpainting network for large missing regions based on weighted facial similarity | |
CN116071625B (zh) | 深度学习模型的训练方法、目标检测方法及装置 | |
CN114863132B (zh) | 图像空域信息的建模与捕捉方法、系统、设备及存储介质 | |
CN115439848A (zh) | 一种场景识别方法、装置、设备和存储介质 | |
CN116883770A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
CN114387489A (zh) | 电力设备识别方法、装置和终端设备 | |
CN114495132A (zh) | 文字识别方法、装置、设备及存储介质 | |
CN111435448B (zh) | 图像显著性物体检测方法、装置、设备及介质 | |
CN113763313A (zh) | 文本图像的质量检测方法、装置、介质及电子设备 | |
CN110688511A (zh) | 细粒度图像检索方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |