CN113361693B - 生成卷积神经网络的方法和装置、图像识别方法和装置 - Google Patents

生成卷积神经网络的方法和装置、图像识别方法和装置 Download PDF

Info

Publication number
CN113361693B
CN113361693B CN202110735236.XA CN202110735236A CN113361693B CN 113361693 B CN113361693 B CN 113361693B CN 202110735236 A CN202110735236 A CN 202110735236A CN 113361693 B CN113361693 B CN 113361693B
Authority
CN
China
Prior art keywords
function
neural network
convolutional neural
optimized
activation function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110735236.XA
Other languages
English (en)
Other versions
CN113361693A (zh
Inventor
尚方信
杨叶辉
李乾
黄海峰
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110735236.XA priority Critical patent/CN113361693B/zh
Publication of CN113361693A publication Critical patent/CN113361693A/zh
Application granted granted Critical
Publication of CN113361693B publication Critical patent/CN113361693B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本公开提供了一种图像识别方法和装置,涉及计算机视觉、深度学习等技术领域。具体实现方案为:获取待识别图像;将待识别图像输入优化卷积神经网络,得到由优化卷积神经网络输出的对待识别图像中目标的分类结果;其中,优化卷积神经网络基于如下步骤得到:获取初始卷积神经网络以及初始卷积神经网络的原始激活函数;响应于检测到原始激活函数为预设的函数,基于原始激活函数,得到优化激活函数,优化激活函数通过拼接的负值的预设的函数将初始卷积神经网络的卷积层的输出的通道特征进行四倍或四倍以上扩充;基于优化激活函数,对初始卷积神经网络进行改进,得到优化卷积神经网络。该实施方式减少了生成的卷积神经网络的运算量。

Description

生成卷积神经网络的方法和装置、图像识别方法和装置
技术领域
本公开涉及计算机技术领域,具体涉及计算机视觉、深度学习等技术领域,尤其涉及一种生成卷积神经网络的方法和装置、图像识别方法和装置、电子设备、计算机可读介质以及计算机程序产品。
背景技术
近年来,深度学习(Deep Learning,DL)和卷积神经网络(Convolutional neuralnetworks,CNNs)被广泛应用。但卷积神经网络模型,尤其是3D卷积神经模型,在模型训练阶段对于计算机内存有着较高的需求,使得一些性能优异、但运算量较大的模型,难以被应用于输入数据量较大的影像分析任务。
发明内容
提供了一种生成卷积神经网络的方法和装置、图像识别方法和装置、电子设备、计算机可读介质以及计算机程序产品。
根据第一方面,提供了一种生成卷积神经网络的方法,该方法包括:获取初始卷积神经网络以及初始卷积神经网络的原始激活函数;响应于检测到原始激活函数为预设的函数,基于原始激活函数,得到优化激活函数,优化激活函数通过拼接的负值的预设的函数将初始卷积神经网络的卷积层的输出的通道特征进行四倍或四倍以上扩充;基于优化激活函数,对初始卷积神经网络进行改进,得到优化卷积神经网络。
根据第二方面,提供了一种图像识别方法,该方法包括:获取待识别图像;将待识别图像输入优化卷积神经网络,得到由优化卷积神经网络输出的对待识别图像中目标的分类结果,优化卷积神经网络基于如第一方面任一实现方式描述的方法得到。
根据第三方面,提供了一种生成卷积神经网络的装置,该装置包括:获取单元,被配置成获取初始卷积神经网络以及初始卷积神经网络的原始激活函数;得到单元,被配置成响应于检测到原始激活函数为预设的函数,基于原始激活函数,得到优化激活函数,优化激活函数通过拼接的负值的预设的函数将初始卷积神经网络的卷积层的输出的通道特征进行四倍或四倍以上扩充;改进单元,被配置成基于优化激活函数,对初始卷积神经网络进行改进,得到优化卷积神经网络。
根据第四方面,又提供了一种图像识别装置,该装置包括:获取单元,被配置成获取待识别图像;得到单元,被配置成将待识别图像输入优化卷积神经网络,得到由优化卷积神经网络输出的对待识别图像中目标的分类结果;其中,优化卷积神经网络基于如第一方面任一实现方式描述的方法得到。
根据第五方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第二方面任一实现方式描述的方法。
根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面或第二方面任一实现方式描述的方法。
根据第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面或第二方面任一实现方式描述的方法。
本公开的实施例提供的生成卷积神经网络的方法和装置,首先,获取初始卷积神经网络以及初始卷积神经网络的原始激活函数;其次,响应于检测到原始激活函数为预设的函数,基于原始激活函数,得到优化激活函数,优化激活函数通过拼接的负值的预设的函数将初始卷积神经网络的卷积层的输出的通道特征进行四倍或四倍以上扩充;最后,基于优化激活函数,对初始卷积神经网络进行改进,得到优化卷积神经网络。由此,采用可以扩充卷积层的输出通道特征的优化激活函数,可以在不改变卷积神经网络拓扑结构的前提下,扩充初始卷积神经网络的卷积层的输出的通道特征,提升了优化卷积神经网络的速度并节省了内存。
本公开的实施例提供的图像识别方法和装置,获取待识别图像;将待识别图像输入采用本实施例的生成卷积神经网络的方法生成的优化卷积神经网络,得到优化卷积神经网络输出的对待识别图像中目标的分类结果。由此,采用优化卷积神经网络对待识别图像的处理可以提升图像处理速度并节省内存,保障了图像识别效果。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开生成卷积神经网络的方法的一个实施例的流程图;
图2是本公开实施例中优化卷积神经网络的一种结构示意图;
图3是根据本公开图像识别方法的一个实施例的流程图;
图4是根据本公开生成卷积神经网络的装置的一个实施例的结构示意图;
图5是根据本公开图像识别装置的一个实施例的结构示意图;
图6是用来实现本公开实施例的生成卷积神经网络的方法或图像识别方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1示出了根据本公开生成卷积神经网络的方法的一个实施例的流程100,上述生成卷积神经网络的方法包括以下步骤:
步骤101,获取初始卷积神经网络以及初始卷积神经网络的原始激活函数。
本实施例中,生成卷积神经网络的方法运行于其上的执行主体可以通过多种方式得到初始卷积神经网络的信息,例如,通过与服务器或终端通信,或上述执行主体的本地得到。初始卷积神经网络的信息可以包括:初始卷积神经网络的源码、初始卷积神经网络编译完成的程序、初始卷积神经网络的开发说明(初始卷积神经网络的运行日志、编程说明)等信息,再通过分析初始卷积神经网络的信息,得到初始卷积神经网络以及初始卷积神经网络中的各个层的信息。
本实施例中,初始卷积神经网络和优化卷积神经网络均是一种卷积神经网络,相对于初始卷积神经网络,优化卷积神经网络是通过改进初始卷积神经网络内部的初始激活函数,得到的卷积神经网络。
由于标识初始卷积神经网络的形式不同,可以通过多种不同手段获取初始卷积神经网络的原始激活函数。例如,获取搭建初始卷积神经网络的源码,将该源码分别与不同类型的卷积网络代码进行匹配,确定初始卷积神经网络的类型。进一步地,在确定初始卷积神经网络的类型之后,在当前类型下的初始卷积神经网络中将该源码与不同类型的激活函数的代码进行匹配,确定初始卷积神经网络的各个层是否含有激活函数以及各个层中原始激活函数的类型。
可选地,还可以基于获取的初始卷积神经网络的编译完成的程序,在该程序中埋入监控代码,该监控代码用于监控初始卷积神经网络中的初始激活函数。
步骤102,响应于检测到原始激活函数为预设的函数,基于原始激活函数,得到优化激活函数。
其中,优化激活函数通过拼接的负值的预设的函数将初始卷积神经网络的卷积层的输出的通道特征进行四倍或四倍以上扩充。
本实施例中,可以将原始激活函数转换为代码形式,通过匹配原始激活函数的代码与预设的函数的代码检测原始激活函数是否为预设的函数,原始激活函数与预设的函数的代码的匹配过程为:将原始激活函数的代码与预设的函数的代码进行相似度计算;响应于确定原始激活函数的代码与预设的函数的代码相似度大于90%,确定原始激活为预设的函数。
本实施例中,卷积神经网络中需要通过激活函数进行非线性变换运算,预设的函数可以是一种舍弃了输入数据中,数值为负数的部分所包含信息的初态函数,预设的函数也可以是对所述初态函数中被抛弃进行召回后得到的函数。
本实施例中,优化激活函数对负值的预设的函数的拼接可以是对全部的预设的函数的负值的拼接,也可以是将预设的函数进行处理后(比如对输入数据求负值后进行预设的函数的变换)再取负值。
本实施例中,预设的函数可以是Rectified Linear Unit(Relu)函数,Relu函数采用如下式(1)所示的非线性变换:
Relu(x)=max(0,x) (1)
Relu函数是一种被广泛应用的激活函数,由式(1)可知,在实施操作中Relu函数操作实质上抛弃了输入数据x中的数值为负数的部分所包含的信息。
基于上述Relu函数,可以得到的优化激活函数如式(2)所示,
QRelu(x)=concat[a1QRelu(x),a2QRelu(x)…anQRelu(x)] (2)
在式(2)中,a1、a2…an(n>1)为随机数或者预设的系数,在式(2)中QRelu(x)=concat[Relu(x),Relu(-x),-Relu(x),-Relu(-x)]。
可选地,预设的函数还可以是通过对Relu函数进行变换后的函数,如Crelu函数。
Crelu(x)=concat(Relu(x),Relu(-x)) (3)
参见Crelu函数的式(3)可知,Crelu函数一种可以扩增输入数据x的特征通道数的激活函数。对于一个传统卷积神经网络中常见的三元运算组合:卷积层-池化层-激活函数层,控制三元运算组合的输出通道数不变,使用Crelu函数可以将卷积层的输出通道数减半,即节省了一半的卷积运算量。实验表明,使用Crelu函数替代Relu函数的卷积神经网络,其性能指标未出现显著下降。
基于上述Crelu函数,可以得到的优化激活函数QCrelu(x),具体如式(4)所示,
QCrelu(x)=concat([b1Crelu(x),-b1Crelu(x),b2Crelu(x),-b2Crelu(x)…bnCrelu(x),-bnCrelu(x)])(4)
在式(4)中,b1、b2…bn(n>1)为随机数或者预设的系数。
本实施例中,通过采用优化激活拼接的负值的预设的函数,可以增加卷积层输出的特征图的表征能力,并且拼接的负值的预设的函数与原预设的函数两者的效果相互抵消,除了可以增加卷积层输出的通道特征之外不会对优化卷积神经网络产生影响。需要说明的是,卷积神经网络的卷积层的输出的通道数等于卷积核的个数,卷积层各个通道输出的通道特征是卷积层输出端输出的特征向量,例如,特征图。
可选地,由于初始卷积神经网络的可以由多种激活函数层组成,原始激活函数还可以是由Crelu函数和Relu函数共同组成的混合函数。针对该混合函数中的Crelu函数可以采用式(4)作为第一优化激活函数,针对混合函数中的Relu函数可以采用式(2)作为第二优化激活函数,第一优化激活函数和第二优化激活函数相加得到整个初始卷积神经网络的优化激活函数。
如图2所示,为优化卷积神经网络的一种结构示意图,在原始激活函数是Relu函数时,得到图2中激活函数层的优化激活函数,从而使该优化卷积神经网络中卷积层输出的通道特征被优化激活函数扩充了四倍,4路通道特征在激活函数层进行拼接,得到激活函数层最终的输出。在卷积层输入数据x经过与卷积核的卷积运算,得到卷积层的输出。
步骤103,基于优化激活函数,对初始卷积神经网络进行改进,得到优化卷积神经网络。
本实施例中,优化激活函数与初始卷积神经网络的卷积层相对应,基于初始卷积神经网络中卷积层的数量以及布置结构不同,采用优化激活函数对初始卷积神经网络进行改进的方式可以不同,例如,初始卷积神经网络由多个卷积单元依次连接构成,每个卷积单元包括依次连接的卷积层、归一化层、激活函数层,通过采用优化激活函数代替第T个(T>1)卷积单元中激活函数层中的原始激活函数,得到优化卷积神经网络。
可选地,在预设的函数的函数表示式不同时,优化卷积神经网络中的卷积层输出的通道特征被优化激活函数扩充的数量还可以是四倍以上的四的倍数个,例如,扩充8倍、16倍、32倍等。
为了最大化提高整个初始卷积神经网络的性能,提高所有卷积层的输出的通道的数量,在本实施例的一些可选实现方式中,基于优化激活函数,对初始卷积神经网络进行改进,得到优化卷积神经网络,包括:采用优化激活函数替换原始激活函数,得到优化卷积神经网络。
本可选实现方式中,在初始卷积神经网络中所有卷积层后连接的原始激活函数层的原始激活函数均被优化激活函数替换,可以将整个初始卷积神经网络的卷积层的输出的通道提高到原来的四倍或四倍以上,同时将卷积神经网络的所有卷积层的输出的通道特征进行四倍或四倍以上的扩充。
本实施例中,初始卷积神经网络可以是GhostNet,GhostNet一种轻量化卷积神经网络模型结构,其核心思想是,使用名为GhostModule的模块,取代经典卷积网络的卷积模块。在实践中,GhostNet一般使用3x3卷积实现线性变换。然而,3x3卷积的运算量仍然较高。基于优化激活函数对GhostNet进行优化之后,可以扩增卷积层的输出的通道特征,将原始激活函数抛弃的部分重新召回,还可以使卷积通道数的缩减不对优化后的GhostNet造成负面影响。
可选地,初始卷积神经网络也可以是深度残差网络(Deep residual network,以下简称ResNet),ResNet引入了残差网络结构,通过这种残差网络结构,可以深化深度残差网络的网络层,并且提高深度残差网络的分类效果。
本公开的实施例提供的生成卷积神经网络的方法,首先,获取初始卷积神经网络以及初始卷积神经网络的原始激活函数;其次,响应于检测到原始激活函数为预设的函数,基于原始激活函数,得到优化激活函数,优化激活函数通过拼接的负值的预设的函数将初始卷积神经网络的卷积层的输出的通道特征进行四倍或四倍以上扩充;最后,基于优化激活函数,对初始卷积神经网络进行改进,得到优化卷积神经网络。由此,采用可以扩充卷积层的输出通道特征的优化激活函数,可以在不改变卷积神经网络拓扑结构的前提下,扩充初始卷积神经网络的卷积层的输出的通道特征,提升了优化卷积神经网络的速度并节省内存。
本实施例中,当减少卷积层的输出的通道特征时,卷积层的输出通道数由原来减少了1/4,优化激活函数可以弥补卷积层输出通道减少带来的特征图的表征能力下降。本实施的一些可选实现方式中,基于优化激活函数,对初始卷积神经网络进行改进,得到优化卷积神经网络,包括:将初始卷积神经网络的卷积核的个数减少至原卷积核个数的1/4倍;采用优化激活函数替换原始激活函数,得到优化卷积神经网络。
本可选实现方式中,可以在GhostNet网络的卷积层中使用低成本卷积运算(去除卷积层1/4个的卷积核),通过优化激活函数扩增特征图通道,从而在预设的函数为Relu函数时,可以将当前主流方案中被Relu函数抛弃的一部分信息重新召回,使得卷积通道数的缩减不对模型性能造成显著负面影响。
在图形处理器上,基于一种数据集和ResNet34网络,以128张样本图片/每步迭代进行实验,方案对比表格如下:
方案 准确度 遍历数据集一次的耗时(秒)
标准ResNet34 0.7676 56.0±0.5
优化卷积神经网络 0.7533 34.5±0.4
可以发现,本实施例提供生成卷积神经网络的方法对ResNet34网络中的激活函数层的激活函数进行改进,得到优化卷积神经网络,在降低运算成本的同时,对初始卷积神经网络和优化卷积神经网络的性能指标(如上,准确度、遍历数据集一次的耗时)无显著影响。
在本实施例的一些可选实现方式中,获取初始卷积神经网络以及初始卷积神经网络的原始激活函数,包括:获取初始卷积神经网络的源码;解析源码,得到初始卷积神经网络的原始激活函数对应的代码;基于原始激活函数对应的代码,确定原始激活函数。
本可选实现方式中,在获取到初始卷积神经网络的源码之后,便可以确定初始卷积神经网络的结构、类型等,进一步解析得到初始卷积神经网络的原始激活函数对应的代码,为确定原始激活函数提供了可靠地获取手段,保证了获取初始卷积神经网络和原始激活函数的可靠性。
针对优化激活函数将初始卷积神经网络的卷积层的输出的通道特征进行四倍扩充的方法,在本实施例的一些可选实现方式中,预设的函数为Relu函数,响应于检测到原始激活函数为预设的函数,基于原始激活函数,得到优化激活函数,包括:对Relu函数的输入值取负,得到第一函数;对Relu函数的输出值取负,得到第二函数;对第一函数的输出值取负,得到第三函数;并列连接Relu函数、第一函数、第二函数、第三函数,得到优化激活函数。
当输入数据x形如(N,C,H,W)时,其中N是样本数,C是通道数,H是输入数据(可以是输入图像)的高,W是输入数据的宽,该优化激活函数具体定义如式(5):
y=QRelu(x)=concat([Relu(x),Relu(-x),-Relu(x),-Relu(-x)]) (5)
即将输入数据x复制为四份,其中两份进行Relu函数变换,另两份取负数后进行Relu函数变换,并对Relu(x)和Relu(-x)取负数。四份处理结果沿卷积层的通道方向进行拼接。容易理解,输出结果y形如(N,4C,H,W)。因此,可以将前置的卷积运算输出通道数减为原先的四分之一,即卷积运算量和参数量减为原先四分之一。
本可选实现方式中,通过上述式(5)可知,优化激活函数用于:复制四份原始卷积神经网络的卷积层输出的通道特征;将四份通道特征中的两份通道特征均进行Relu函数变换,得到并列的两份第一变换特征;并对其中一个第一变换特征取负,得到第二变换特征;将四份通道特征中的另两份通道特征分别取负数后进行Relu函数变换,得到两个并列的第三变换特征;并对其中一个第三变换特征取负,得到第四变换特征;将第一变换特征、第二变换特征、第三变换特征、第四变换特征沿卷积层通道方向进行并列拼接。
本可选实现方式中,在预设的函数为Relu函数时,通过对Relu函数进行扩充拼接等运算,得到优化激活函数,从而使优化激活函数可以将卷积层的输出的通道特征扩充四倍,为实现优化激活函数提供了可选的方式,保证了优化激活函数的可靠性。
针对优化激活函数将初始卷积神经网络的卷积层的输出的通道特征进行四倍扩充的方法,在本实施例的一些可选实现方式中,预设的函数为Crelu函数,上述响应于检测到原始激活函数为预设的函数,基于原始激活函数,得到优化激活函数,包括:对Crelu函数的输出值取负,得到取负函数;并列连接Crelu函数、取负函数,得到优化激活函数。
当输入数据x形如(N,C,H,W)时,该优化激活函数具体定义如式(6):
y=QCrelu(x)=concat([Crelu(x),-Crelu(x)]) (6)
通过式(6)可知,将输入数据x复制为两份,其中一份进行Crelu函数变换,另一份进行Crelu函数变换后取负数。两份处理结果沿卷积层的通道方向进行拼接。容易理解,输出结果y形如(N,4C,H,W)。因此,可以将前置的卷积运算输出通道数减为原先的四分之一,即卷积运算量和参数量减为原先四分之一。
本实施例中,优化激活函数用于:复制两份原始卷积神经网络的卷积层输出的通道特征;将两份通道特征中的一份通道特征进行Crelu函数变换,得到第一分支变换特征;两份通道特征中的另一份通道特征取负数后进行Crelu函数变换,并再次取负数,得到第二分支变换特征;将第一分支变换特征与第二分支变换特征沿卷积层通道方向进行并列拼接。
本可选实现方式中,在预设的函数为Crelu函数时,通过对Crelu函数进行取负、拼接等运算,得到优化激活函数,从而使优化激活函数可以将卷积层的输出的通道特征扩充四倍,为实现优化激活函数提供了可选的方式,保证了优化激活函数的可靠性。
进一步地,基于上述实施例提供的生成卷积神经网络的方法,本公开还提供了一种图像识别方法的一个实施例,本公开的图像识别方法结合了计算机视觉、深度学习等人工智能领域。
参见图3,示出了根据本公开图像识别方法的一个实施例的流程300,本实施例提供的图像识别方法包括以下步骤:
步骤301,获取待识别图像。
本实施例中,获取待识别图像为优化卷积神经网络的即将识别的图像。待识别图像可以包括目标,也可以不包括目标;该待识别图像可以包括多种目标,与可以仅包括一种目标。
本实施中,目标可以为多种场景中的目标,比如目标为人脸识别场景的人脸图像,或者目标为文本行检测场景中的文本行等。
步骤302,将待识别图像输入优化卷积神经网络,得到由优化卷积神经网络输出的对待识别图像中目标的分类结果。
本实施例中,优化卷积神经网络可以基于上述实施例的可选实现方式中生成卷积神经网络的方法得到,可选地,优化卷积神经网络可以是2D卷积神经网络,也可以是3D卷积神经网络。
本实施例中,优化卷积神经网络可用于对待识别图像中的目标进行识别,并对目标进行分类。例如,优化卷积神经网络用于对待识别图像中的人脸进行识别,并对识别到的人脸进行分类得到人脸的类别,例如,向优化卷积神经网络输入一张人物图像,优化卷积神经网络输出为人脸位置坐标,或者输出为小孩、大人等人脸类型。
本实施例提供的图像识别方法,获取待识别图像;将待识别图像输入采用本实施例的生成卷积神经网络的方法生成的优化卷积神经网络,得到优化卷积神经网络输出的对待识别图像中目标的分类结果。由此,采用优化卷积神经网络对待识别图像的处理可以提升图像处理速度并节省内存,保障了图像识别效果。
进一步参考图4,作为对上述各图所示方法的实现,本公开提供了生成卷积神经网络的装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可应用于各种电子设备中。
如图4所示,本实施例提供的生成卷积神经网络的装置400包括:获取单元401,得到单元402,改进单元403。其中,上述获取单元401,可以被配置成获取初始卷积神经网络以及初始卷积神经网络的原始激活函数。上述得到单元402,可以被配置成响应于检测到原始激活函数为预设的函数,基于原始激活函数,得到优化激活函数,优化激活函数通过拼接的负值的预设的函数将初始卷积神经网络的卷积层的输出的通道特征进行四倍或四倍以上扩充。上述改进单元403,可以被配置成基于优化激活函数,对初始卷积神经网络进行改进,得到优化卷积神经网络。
在本实施例中,生成卷积神经网络的装置400中:获取单元401,得到单元402,改进单元403的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述改进单元403包括:缩减模块(图中未示出)、替换模块(图中未示出)。上述缩减模块,可以被配置成将初始卷积神经网络的卷积核的个数减少至原卷积核个数的1/4倍。上述替换模块,可以被配置成采用优化激活函数替换原始激活函数,得到优化卷积神经网络。
在本实施例的一些可选的实现方式中,上述改进单元403进一步被配置成采用优化激活函数替换原始激活函数,得到优化卷积神经网络。
在本实施例的一些可选的实现方式中,上述获取单元401包括:获取模块(图中未示出),解析模块(图中未示出),确定模块(图中未示出)。其中,上述获取模块,可以被配置成被配置成获取初始卷积神经网络的源码。上述解析模块,可以被配置成解析源码,得到初始卷积神经网络的原始激活函数对应的代码。上述确定模块,可以被配置成基于原始激活函数对应的代码,确定原始激活函数。
在本实施例的一些可选的实现方式中,上述预设的函数为Relu函数,上述得到单元402包括:第一取负模块(图中未示出),第二取负模块(图中未示出),第三取负模块(图中未示出),并列连接模块(图中未示出)。其中,上述第一取负模块,可以被配置成对Relu函数的输入值取负,得到第一函数。上述第二取负模块,可以被配置成对Relu函数的输出值取负,得到第二函数。上述第三取负模块,可以被配置成对第一函数的输出值取负,得到第三函数。上述并列连接模块,可以被配置成并列连接Relu函数、第一函数、第二函数、第三函数,得到优化激活函数。
在本实施例的一些可选实现方式中,上述预设的函数为Crelu函数,上述得到单元402包括:得到模块(图中未示出),优化模块(图中未示出)。其中,上述得到模块,可以被配置成对Crelu函数的输出值取负,得到取负函数。上述优化模块,可以被配置成并列连接Crelu函数、取负函数,得到优化激活函数。
本公开的实施例提供的生成卷积神经网络的装置,首先,获取单元401获取初始卷积神经网络以及初始卷积神经网络的原始激活函数;其次,得到单元402响应于检测到原始激活函数为预设的函数,基于原始激活函数,得到优化激活函数,优化激活函数通过拼接的负值的预设的函数将初始卷积神经网络的卷积层的输出的通道特征进行四倍或四倍以上扩充;最后,改进单元403基于优化激活函数,对初始卷积神经网络进行改进,得到优化卷积神经网络。由此,采用可以扩充卷积层的输出通道特征的优化激活函数,可以在不改变卷积神经网络拓扑结构的前提下,扩充初始卷积神经网络的卷积层的输出的通道特征,提升了优化卷积神经网络的速度并节省了内存。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了图像识别装置的一个实施例,该装置实施例与图3所示的方法实施例相对应,该装置具体可应用于各种电子设备中。
如图5所示,本实施例提供的图像识别装置500包括:获取单元501,得到单元502。其中,上述获取单元501,可以被配置成获取待识别图像。上述得到单元502,可以被配置成将待识别图像输入优化卷积神经网络,得到由优化卷积神经网络输出的对待识别图像中目标的分类结果。
其中,优化卷积神经网络基于本实施例的生成卷积神经网络的方法得到。
在本实施例中,图像识别装置500中:获取单元501,得到单元502的具体处理及其所带来的技术效果可分别参考图3对应实施例中的步骤301、步骤302的相关说明,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如生成卷积神经网络的方法或图像识别方法。例如,在一些实施例中,生成卷积神经网络的方法或图像识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的生成卷积神经网络的方法或图像识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行生成卷积神经网络的方法或图像识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程生成卷积神经网络的装置、图像识别装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (15)

1.一种图像识别方法,所述方法包括:获取待识别图像;
将所述待识别图像输入优化卷积神经网络,得到由所述优化卷积神经网络输出的对所述待识别图像中目标的分类结果;
其中,所述优化卷积神经网络基于如下步骤得到:
获取初始卷积神经网络以及所述初始卷积神经网络的原始激活函数;
响应于检测到所述原始激活函数为预设的函数,基于所述原始激活函数,得到优化激活函数,所述优化激活函数通过拼接的负值的预设的函数将所述初始卷积神经网络的卷积层的输出的通道特征进行四倍或四倍以上扩充;
基于所述优化激活函数,对所述初始卷积神经网络进行改进,得到优化卷积神经网络。
2.根据权利要求1所述的方法,其中,所述基于所述优化激活函数,对所述初始卷积神经网络进行改进,得到优化卷积神经网络,包括:
将所述初始卷积神经网络的卷积核的个数减少至原卷积核个数的1/4倍;
采用所述优化激活函数替换所述原始激活函数,得到优化卷积神经网络。
3.根据权利要求1所述的方法,其中,所述基于所述优化激活函数,对所述初始卷积神经网络进行改进,得到优化卷积神经网络,包括:
采用所述优化激活函数替换所述原始激活函数,得到优化卷积神经网络。
4.根据权利要求1-3之一所述的方法,其中,所述获取初始卷积神经网络以及所述初始卷积神经网络的原始激活函数,包括:
获取初始卷积神经网络的源码;
解析所述源码,得到所述初始卷积神经网络的原始激活函数对应的代码;
基于所述原始激活函数对应的代码,确定原始激活函数。
5.根据权利要求1-3之一所述的方法,其中,所述预设的函数为Relu函数,所述响应于检测到所述原始激活函数为预设的函数,基于所述原始激活函数,得到优化激活函数,包括:
对所述Relu函数的输入值取负,得到第一函数;
对所述Relu函数的输出值取负,得到第二函数;
对所述第一函数的输出值取负,得到第三函数;
并列连接所述Relu函数、所述第一函数、所述第二函数、所述第三函数,得到优化激活函数。
6.根据权利要求1-3之一所述的方法,其中,所述预设的函数为Crelu函数,所述响应于检测到所述原始激活函数为预设的函数,基于所述原始激活函数,得到优化激活函数,包括:
对所述Crelu函数的输出值取负,得到取负函数;
并列连接所述Crelu函数、所述取负函数,得到优化激活函数。
7.一种图像识别装置,所述装置被配置成:获取待识别图像;将所述待识别图像输入优化卷积神经网络,得到由所述优化卷积神经网络输出的对所述待识别图像中目标的分类结果;其中,所述优化卷积神经网络基于以下单元得到:
获取单元,被配置成获取初始卷积神经网络以及所述初始卷积神经网络的原始激活函数;
得到单元,被配置成响应于检测到所述原始激活函数为预设的函数,基于所述原始激活函数,得到优化激活函数,所述优化激活函数通过拼接的负值的预设的函数将所述初始卷积神经网络的卷积层的输出的通道特征进行四倍或四倍以上扩充;
改进单元,被配置成基于所述优化激活函数,对所述初始卷积神经网络进行改进,得到优化卷积神经网络。
8.根据权利要求7所述的装置,其中,所述改进单元包括:
缩减模块,被配置成将所述初始卷积神经网络的卷积核的个数减少至原卷积核个数的1/4倍;
替换模块,被配置成采用所述优化激活函数替换所述原始激活函数,得到优化卷积神经网络。
9.根据权利要求7所述的装置,其中,所述改进单元进一步被配置成采用所述优化激活函数替换所述原始激活函数,得到优化卷积神经网络。
10.根据权利要求7-9之一所述的装置,其中,所述获取单元包括:
获取模块,被配置成获取初始卷积神经网络的源码;
解析模块,被配置成解析所述源码,得到所述初始卷积神经网络的原始激活函数对应的代码;
确定模块,被配置成基于所述原始激活函数对应的代码,确定原始激活函数。
11.根据权利要求7-9之一所述的装置,其中,所述预设的函数为Relu函数,所述得到单元包括:
第一取负模块,被配置成对所述Relu函数的输入值取负,得到第一函数;
第二取负模块,被配置成对所述Relu函数的输出值取负,得到第二函数;
第三取负模块,被配置成对所述第一函数的输出值取负,得到第三函数;
并列连接模块,被配置成并列连接所述Relu函数、所述第一函数、所述第二函数、所述第三函数,得到优化激活函数。
12.根据权利要求7-9之一所述的装置,其中,所述预设的函数为Crelu函数,所述得到单元包括:
得到模块,被配置成对所述Crelu函数的输出值取负,得到取负函数;
优化模块,被配置成并列连接所述Crelu函数、所述取负函数,得到优化激活函数。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-6中任一项所述的方法。
CN202110735236.XA 2021-06-30 2021-06-30 生成卷积神经网络的方法和装置、图像识别方法和装置 Active CN113361693B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110735236.XA CN113361693B (zh) 2021-06-30 2021-06-30 生成卷积神经网络的方法和装置、图像识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110735236.XA CN113361693B (zh) 2021-06-30 2021-06-30 生成卷积神经网络的方法和装置、图像识别方法和装置

Publications (2)

Publication Number Publication Date
CN113361693A CN113361693A (zh) 2021-09-07
CN113361693B true CN113361693B (zh) 2022-10-25

Family

ID=77537351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110735236.XA Active CN113361693B (zh) 2021-06-30 2021-06-30 生成卷积神经网络的方法和装置、图像识别方法和装置

Country Status (1)

Country Link
CN (1) CN113361693B (zh)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110663971B (zh) * 2018-07-02 2022-03-29 天津工业大学 基于双分支深度融合卷积神经网络的红枣品质分类方法
CN110084215A (zh) * 2019-05-05 2019-08-02 上海海事大学 一种二值化三元组孪生网络模型的行人重识别方法及系统
CN110543901A (zh) * 2019-08-22 2019-12-06 阿里巴巴集团控股有限公司 图像识别方法、装置及设备
CN111563846B (zh) * 2019-10-23 2021-10-26 哈尔滨理工大学 一种基于压缩神经网络的图像去噪方法
CN111680781B (zh) * 2020-04-20 2023-07-25 北京迈格威科技有限公司 神经网络处理方法、装置、电子设备及存储介质
CN111523616B (zh) * 2020-05-14 2021-01-29 中国铁道科学研究院集团有限公司铁道建筑研究所 基于卷积神经网络的粗粒土填料级配识别方法及应用系统
CN112116076A (zh) * 2020-09-21 2020-12-22 深兰人工智能芯片研究院(江苏)有限公司 激活函数的优化方法和优化装置
CN112258537B (zh) * 2020-10-27 2022-08-26 重庆邮电大学 一种基于卷积神经网络的监督暗视觉图像边缘检测方法
CN112257800A (zh) * 2020-10-30 2021-01-22 南京大学 一种基于深度卷积神经网络模型-重生网络的视觉识别方法
CN112801266B (zh) * 2020-12-24 2023-10-31 武汉旷视金智科技有限公司 神经网络构建方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113361693A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN112861885B (zh) 图像识别方法、装置、电子设备及存储介质
CN113657395B (zh) 文本识别方法、视觉特征提取模型的训练方法及装置
CN113343803A (zh) 模型训练方法、装置、设备和存储介质
CN115861462B (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN115082920A (zh) 深度学习模型的训练方法、图像处理方法和装置
CN113360711A (zh) 视频理解任务的模型训练和执行方法、装置、设备及介质
CN114092963A (zh) 关键点检测及模型训练方法、装置、设备和存储介质
EP4057283A2 (en) Method for detecting voice, method for training, apparatuses and smart speaker
CN113205041A (zh) 结构化信息提取方法、装置、设备和存储介质
CN113127365A (zh) 确定网页质量的方法、装置、电子设备和计算机可读存储介质
CN113361693B (zh) 生成卷积神经网络的方法和装置、图像识别方法和装置
CN114399513B (zh) 用于训练图像分割模型和图像分割的方法、装置
CN115457365A (zh) 一种模型的解释方法、装置、电子设备及存储介质
CN114842541A (zh) 模型的训练及人脸识别方法、装置、设备以及存储介质
CN114707638A (zh) 模型训练、对象识别方法及装置、设备、介质和产品
CN114782771A (zh) 训练方法、图像检索方法、图像处理方法、装置及设备
CN114724144A (zh) 文本识别方法、模型的训练方法、装置、设备及介质
CN114998649A (zh) 图像分类模型的训练方法、图像分类方法及装置
CN114119972A (zh) 模型获取及对象处理方法、装置、电子设备及存储介质
CN113903071A (zh) 人脸识别方法、装置、电子设备和存储介质
CN114078274A (zh) 人脸图像检测方法、装置、电子设备以及存储介质
CN114299522B (zh) 图像识别方法装置、设备和存储介质
CN113553407B (zh) 事件追溯方法、装置、电子设备及存储介质
CN115482443A (zh) 图像特征融合及模型训练方法、装置、设备以及存储介质
CN116895001A (zh) 目标检测模型的训练方法及装置、目标检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant