CN111414990A - 卷积神经网络处理方法、装置、电子设备及存储介质 - Google Patents
卷积神经网络处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111414990A CN111414990A CN202010105457.4A CN202010105457A CN111414990A CN 111414990 A CN111414990 A CN 111414990A CN 202010105457 A CN202010105457 A CN 202010105457A CN 111414990 A CN111414990 A CN 111414990A
- Authority
- CN
- China
- Prior art keywords
- convolutional neural
- neural network
- sub
- target
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 362
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 230000009466 transformation Effects 0.000 claims abstract description 158
- 238000012545 processing Methods 0.000 claims abstract description 146
- 238000010845 search algorithm Methods 0.000 claims abstract description 89
- 238000013528 artificial neural network Methods 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000012216 screening Methods 0.000 claims description 31
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 230000002787 reinforcement Effects 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 230000000717 retained effect Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/086—Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Physiology (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种卷积神经网络处理方法、装置、电子设备及存储介质,所述方法包括:创建目标卷积神经网络,所述目标卷积神经网络的每一层的输入端与输出端之间设置有恒等变换分支和卷积处理分支,其中,所述恒等变换分支的输出与输入相同;为所述目标卷积神经网络的各个层中的恒等变换分支和卷积处理分支分别分配相应的权重,得到多个子卷积神经网络;以多个子卷积神经网络中至少部分子卷积神经网络为搜索空间,按照预设的模型搜索算法进行搜索,得到目标子卷积神经网络;根据目标子卷积神经网络的层数,确定预设的模型搜索算法的性能参数值。
Description
技术领域
本发明涉及深度学习技术领域,特别是涉及一种卷积神经网络处理方法、装置、电子设备及存储介质。
背景技术
近年来,随着深度学习技术的发展,卷积神经网络在各种视觉识别、语音识别任务中都取得了突破性的进展。例如,在语音识别任务中,向一个卷积神经网络中输入一段音频,经过卷积神经网络的输出,便可以识别出该段音频所属的用户的身份。
其中,卷积神经网络的模型结构对于识别任务的完成精度有着重要的影响,合适的模型结构可以显著提高识别任务的精确度。一般可以通过人工设计卷积神经网络的模型结构,但是此种方式消耗的人力成本过大,误差也不可避免。
相关技术中,提出了自动化模型结构设计的方案,以替代人工设计模型结构。具体是设计好一个具备一定深度的卷积神经网络作为搜索空间,利用搜索方法在该搜索空间中搜索出最佳的模型结构。因此,只需要设计搜索空间、搜索算法以及对模型结构的评价指标,便可以设计出合适的模型结构。
但是,上述方式对于一个固定的搜索空间而言,其搜索出的模型结构的性能较差。在采用的搜索算法不同时,搜索出来的模型结构也可能不同,而对于搜索算法的性能目前并没有一个评价标准。换言之,相关技术中搜索出来的模型结构的性能较差,也无法准确衡量一个搜索算法的搜索性能,相关技术中的自动化模型结构设计有待改进。
发明内容
鉴于上述问题,提出了本发明实施例提出了一种卷积神经网络处理方法、装置、电子设备及存储介质,以便克服上述问题或者至少部分地解决上述问题。
本发明实施例的第一方面,提供了一种卷积神经网络处理方法,所述方法包括:
创建目标卷积神经网络,所述目标卷积神经网络的每一层的输入端与输出端之间设置有恒等变换分支和卷积处理分支,其中,所述恒等变换分支的输出与输入相同;
为所述目标卷积神经网络的各个层中的恒等变换分支和卷积处理分支分别分配相应的权重,得到多个子卷积神经网络;
以所述多个子卷积神经网络中至少部分子卷积神经网络为搜索空间,按照预设的模型搜索算法进行搜索,得到目标子卷积神经网络;
根据所述目标子卷积神经网络的层数,确定所述预设的模型搜索算法的性能参数值。
可选地,创建目标卷积神经网络,包括:
在原始卷积神经网络中的每一层中增加恒等变换单元,得到卷积处理分支,其中,所述恒等变换单元的输出与输入相同;
在原始卷积神经网络中每一层的输入端与输出端之间具有的卷积处理分支的基础上,增加恒等变换分支,得到所述目标卷积神经网络。
可选地,原始卷积神经网络中的每一层至少包括:卷积处理单元和批归一化单元;在原始卷积神经网络中的每一层中增加恒等变换单元,得到卷积处理分支,包括:
在原始卷积神经网络中每一层具有的卷积处理单元的基础上,增加恒等变换单元,得到卷积处理分支;
其中,所述卷积处理单元的输出与所述恒等变换单元的输出之和,为批归一化单元的输入。
可选地,以所述多个子卷积神经网络中至少部分子卷积神经网络为搜索空间,按照预设的模型搜索算法进行搜索,得到目标子卷积神经网络,包括:
从所述多个子卷积神经网络中筛选完成目标任务的参数值大于预设参数值的候选子卷积神经网络;
根据所述候选子卷积神经网络的各个层中的恒等变换分支的权重,保留或丢弃所述目标子卷积神经网络的各个层中的恒等变换分支,得到与所述目标任务适配的目标子卷积神经网络。
可选地,所述预设的模型搜索算法为基于进化算法的模型搜索算法;为所述目标卷积神经网络的各个层中的恒等变换分支和卷积处理分支分别分配相应的权重,得到多个子卷积神经网络,包括:
以预设概率保留或丢弃所述目标卷积神经网络的各个层中的恒等变换分支,得到多个子卷积神经网络;
以所述多个子卷积神经网络中至少部分子卷积神经网络为搜索空间,按照预设的模型搜索算法进行搜索,得到目标子卷积神经网络,包括:
从所述多个子卷积神经网络中筛选完成目标任务的参数值排序靠前的K个子卷积神经网络;
以所述K个子卷积神经网络作为初始化种群,根据完成目标任务的参数值,采用进化算法进行多次筛选,得到目标子卷积神经网络。
可选地,所述预设的模型搜索算法为基于强化学习模型的模型搜索算法;为所述目标卷积神经网络的各个层中的恒等变换分支和卷积处理分支分别分配相应的权重,得到多个子卷积神经网络,包括:
以预设概率保留或丢弃所述目标卷积神经网络的各个层中的恒等变换分支,得到多个子卷积神经网络;
以所述多个子卷积神经网络中至少部分子卷积神经网络为搜索空间,按照预设的模型搜索算法进行搜索,得到目标子卷积神经网络,包括:
对所述多个子卷积神经网络进行多次采样,将多次采样得到的子卷积神经网络的各个层中的恒等变换分支和卷积处理分支的权重为训练样本,对强化学习模型进行多次训练;
根据完成目标任务的参数值,采用训练结束的强化学习模型对所述多个子卷积神经网络进行筛选,得到目标子卷积神经网络。
可选地,所述预设的模型搜索算法为基于端到端模型的模型搜索算法;以所述多个子卷积神经网络中至少部分子卷积神经网络为搜索空间,按照预设的模型搜索算法进行搜索,得到目标子卷积神经网络,包括:
根据所述目标卷积神经网络完成目标任务的参数值,对为所述目标卷积神经网络的各个层中的恒等变换分支和卷积处理分支分别分配的权重进行多次更新;
根据经过多次更新后的目标卷积神经网络的各个层中的恒等变换分支的权重,保留或丢弃经过多次更新后的目标卷积神经网络的各个层中的恒等变换分支,得到目标子卷积神经网络。
可选地,所述目标卷积神经网络的层数是第一预设层数;在根据所述目标子卷积神经网络的层数,确定所述预设的模型搜索算法的性能参数值之前,所述方法还包括:
从最大层数为所述第一预设层数的各个原始卷积神经网络中,筛选完成所述目标任务的参数值大于所述预设参数值的目标原始卷积神经网络;
根据所述目标子卷积神经网络的层数,确定所述预设的模型搜索算法的性能参数值,包括:
将所述目标子卷积神经网络的层数,与所述目标原始卷积神经网络的层数比较;
根据比较结果,确定所述预设的模型搜索算法的性能参数值。
本发明实施例的第二方面,提供了一种卷积神经网络处理装置,包括:
网络构建模块,用于创建目标卷积神经网络,所述目标卷积神经网络的每一层的输入端与输出端之间设置有恒等变换分支和卷积处理分支,其中,所述恒等变换分支的输出与输入相同;
子网络构建模块,用于为所述目标卷积神经网络的各个层中的恒等变换分支和卷积处理分支分别分配相应的权重,得到多个子卷积神经网络;
目标网络确定模块,用于以所述多个子卷积神经网络中至少部分子卷积神经网络为搜索空间,按照预设的模型搜索算法进行搜索,得到目标子卷积神经网络;
性能验证模块,用于根据所述目标子卷积神经网络的层数,确定所述预设的模型搜索算法的性能参数值。
可选地,所述网络构建模块包括:
第一变换单元,用于在原始卷积神经网络中的每一层中增加恒等变换单元,得到卷积处理分支,其中,所述恒等变换单元的输出与输入相同;
第二变换单元,用于在原始卷积神经网络中每一层的输入端与输出端之间具有的卷积处理分支的基础上,增加恒等变换分支,得到所述目标卷积神经网络。
可选地,原始卷积神经网络中的每一层至少包括:卷积处理单元和批归一化单元;所述第一变换单元,具体用于在原始卷积神经网络中每一层具有的卷积处理单元的基础上,增加恒等变换单元,得到卷积处理分支;
其中,所述卷积处理单元的输出与所述恒等变换单元的输出之和,为批归一化单元的输入。
可选地,所述目标网络确定模块,包括:
第一筛选单元,用于从所述多个子卷积神经网络中筛选完成目标任务的参数值大于预设参数值的候选子卷积神经网络;
第一网络保留单元,用于根据所述候选子卷积神经网络的各个层中的恒等变换分支的权重,保留或丢弃所述目标子卷积神经网络的各个层中的恒等变换分支,得到与所述目标任务适配的目标子卷积神经网络。
可选地,所述预设的模型搜索算法为基于进化算法的模型搜索算法;所述子网络构建模块,具体用于以预设概率保留或丢弃所述目标卷积神经网络的各个层中的恒等变换分支,得到多个子卷积神经网络;
所述目标网络确定模块,包括:
第二筛选单元,用于从所述多个子卷积神经网络中筛选完成目标任务的参数值排序靠前的K个子卷积神经网络;
第二保留单元,用于以所述K个子卷积神经网络作为初始化种群,根据完成目标任务的参数值,采用进化算法进行多次筛选,得到目标子卷积神经网络。
可选地,所述预设的模型搜索算法为基于强化学习模型的模型搜索算法;所述子网络构建模块,具体用于以预设概率保留或丢弃所述目标卷积神经网络的各个层中的恒等变换分支,得到多个子卷积神经网络;
所述目标网络确定模块,包括:
模型训练单元,用于对所述多个子卷积神经网络进行多次采样,将多次采样得到的子卷积神经网络的各个层中的恒等变换分支和卷积处理分支的权重为训练样本,对强化学习模型进行多次训练;
第三筛选单元,用于根据完成目标任务的参数值,采用训练结束的强化学习模型对所述多个子卷积神经网络进行筛选,得到目标子卷积神经网络。
可选地,所述预设的模型搜索算法为基于端到端模型的模型搜索算法;所述目标网络确定模块,包括:
权重更新单元,用于根据所述目标卷积神经网络完成目标任务的参数值,对为所述目标卷积神经网络的各个层中的恒等变换分支和卷积处理分支分别分配的权重进行多次更新;
第四筛选单元,用于根据经过多次更新后的目标卷积神经网络的各个层中的恒等变换分支的权重,保留或丢弃经过多次更新后的目标卷积神经网络的各个层中的恒等变换分支,得到目标子卷积神经网络。
可选地,所述目标卷积神经网络的层数是第一预设层数;所述装置还包括:
原始网络获得模块,用于从最大层数为所述第一预设层数的各个原始卷积神经网络中,筛选完成所述目标任务的参数值大于所述预设参数值的目标原始卷积神经网络;
所述性能验证模块,包括:
层数比较单元,用于将所述目标子卷积神经网络的层数,与所述目标原始卷积神经网络的层数比较;
结果确定单元,用于根据比较结果,确定所述预设的模型搜索算法的性能参数值。
本发明实施例的第三方面,还公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本实施例第一方面所述的卷积神经网络处理方法。
本发明实施例的第四方面,还公开了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如本发明实施例第一方面所述的卷积神经网络处理方法。
本发明实施例包括以下优点:
在本发明实施例中,创建的目标卷积神经网络的每一层的输入端与输出端之间设置有恒等变换分支和卷积处理分支,其中,所述恒等变换分支的输出与输入相同;之后,为各个层中的恒等变换分支和卷积处理分支分别分配相应的权重,得到了多个子卷积神经网络;在再以多个子卷积神经网络中至少部分子卷积神经网络为搜索空间,在该搜索空间中按照预设的模型搜索算法进行搜索,得到目标子卷积神经网络;最后,根据目标子卷积神经网络的层数,确定预设的模型搜索算法的性能参数值。
采用本发明实施例,一方面,通过确定模型搜索算法的性能参数值,使得模型搜索算法能被衡量,实现了可以对搜索算法的性能进行评价,进而可以通过评价搜索算法评估基于该搜素算法搜索出的模型结构的优异性。另一方面,由于可以为各个层中的恒等变换分支和卷积处理分支分别分配相应的权重,不同的权重可以得到不同的子卷积神经网络,进而构建了一个动态变化的搜索空间,提高了在该动态变化的搜索空间中搜索出的模型结构的优异性,由于搜索出的模型结构具有较高的优异性,因此,又提高了对搜索算法进行评价的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中卷积神经网络处理方法的总体流程示意图;
图2是本发明一实施例中对目标卷积神经网络进行处理的步骤流程图;
图3是本发明一实施例中目标卷积神经网络的一层网络结构的结构示意图;
图4是本发明一实施例中又一目标卷积神经网络中每一层的结构示意图;
图5是本发明一实施例中一种卷积神经网络处理装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参照图1所示,示出了本申请一实施例的卷积神经网络处理方法的总体流程示意图。如图1所示,包括以下流程:针对目标任务枚举获得最佳网络模型结构、创建目标卷积神经网络、在目标卷积神经网络中构建多个不同深度的子卷积神经网络、采用模型搜索算法对多个不同深度的子卷积神经网络进行搜索得到目标子卷积神经网络,根据最佳网络模型结构和目标子卷积神经网络验证模型搜索算法的性能。
本实施例中,卷积神经网络CNN是深度神经网络中的一个类别,其中,该卷积神经网络的模型结构可以包括但不限于:LeNet、AlexNet、VGG、GoogleNet、ResNet以及DenseNet。本申请实施例的卷积神经网络处理方法,对任一种结构的卷积神经网络都适用。
本实施例中,创建的目标卷积神经网络的层数可以是第一预设层数,该第一预设层数可以根据实际情况进行设置,其中,目标卷积神经网络的层数的多寡表征了该目标卷积神经网络的深度,例如,目标卷积神经网有100层,则表征该目标卷积神经网络的深度为100。
其中,可以先确定一个目标任务,该目标任务可以是图像分类任务、语音识别任务等,进而可以通过枚举得到完成目标任务的最佳深度的原始卷积神经网络结构。该最佳深度的原始卷积神经网络结构,便可以作为评价模型搜索算法的基准结构。
在本实施例中,可以先枚举获得最佳的原始卷积神经网络结构,具体包括以下步骤:
步骤S11:从最大层数为所述第一预设层数的各个原始卷积神经网络中,筛选完成所述目标任务的参数值大于所述预设参数值的目标原始卷积神经网络。
本实施例中,最大层数为第一预设层数的各个原始卷积神经网络中,不同的原始卷积神经网络的层数不一致。例如,第一预设层数为100层,则可以具有80个原始卷积神经网络,该80原始卷积神经网络的层数最小为20层、最大为100层。
具体实施时,可以在ImageNet数据集上,以最大层数为第一预设层数的各个原始卷积神经网络为搜索空间,枚举训练不同深度的原始卷积神经网络,以找到ImageNet数据集上对应的最优深度,该最优深度下的原始卷积神经网络便是完成目标任务最佳的目标原始卷积神经网络。其中,最优深度即是最优层数,例如,最优层数是25层,在目标原始卷积神经网络便是25层的原始卷积神经网络。其中,ImageNet数据集是一个用于视觉对象识别软件研究的大型可视化数据库。
本实施例中,在得到最佳的目标原始卷积神经网络之后或同时或之前,可以创建目标卷积神经网络,并对该目标卷积神经网络进行处理,以搜索出完成目标任务的目标子卷积神经网络,以对模型搜索算法进行评价。参照图2所示,示出了对目标卷积神经网络进行处理的的步骤流程图,如图2所示,可以包括以下步骤:
步骤S12:创建目标卷积神经网络,所述目标卷积神经网络的每一层的输入端与输出端之间设置有恒等变换分支和卷积处理分支。
其中,所述恒等变换分支的输出与输入相同。
参照图3所示,示出了目标卷积神经网络的一层网络结构,如图3所示,第i层网络表示目标卷积神经网络中的任一层网络,其在每一层网络的输入端与输出端之间包括了恒等变换分支301和卷积处理分支302。其中,恒等变换分支301与卷积处理分支302是每一层中并列的两个分支。
以信息S为例,在将信息S输入到目标卷积神经网络中的第i层网络时,该信息S在被输入到恒等变换分支301时,由恒等变换分支301输出的信息仍是信息S。在该信息S被输入到卷积处理分支302时,由卷积处理分支302输出的信息是经过卷积处理后的信息S'。
步骤S13:为所述目标卷积神经网络的各个层中的恒等变换分支和卷积处理分支分别分配相应的权重,得到多个子卷积神经网络。
本实施例中,恒等变换分支的权重可以表示该恒等变换分支的输出所占的比例,同理,卷积处理分支的权重可以表示该卷积处理分支的输出所占的比例。其中,恒等变换分支的权重和卷积处理分支的权重之和可以为1。
例如,当一层中的恒等变换分支的权重为0、卷积处理分支的权重为1时,表示保留了该恒等变换分支的输出为0,卷积处理分支的输出被全部保留;当一层中的恒等变换分支的权重为0.2、卷积处理分支的权重为0.8时,表示恒等变换分支的输出仅占20%,卷积处理分支的输出仅占80%。
具体实施时,可以多次为所述目标卷积神经网络的各个层中的恒等变换分支和卷积处理分支分别分配相应的权重,每次分配的权重的值可以不同,这样,便可以得到多个不同的子卷积神经网络。即,第n次为目标卷积神经网络的各个层的恒等变换分支和卷积处理分支分别分配的权重,与第n+1次为目标卷积神经网络的各个层的恒等变换分支和卷积处理分支分别分配的权重可以不同。这样,第n次得到的子卷积神经网络与第n+1次得到的子卷积神经网络是不同的。
步骤S14:以所述多个子卷积神经网络中至少部分子卷积神经网络为搜索空间,按照预设的模型搜索算法进行搜索,得到目标子卷积神经网络。
本实施例中,当选择的部分子卷积神经网络的数量变化时,意味着搜索空间发生了相应变化。这样,使得搜索空间具有可变化性,而通过对可变化的搜索空间中进行搜索,便可以提高得到最优的网络模型结构的概率,即,可在变化的搜索空间中搜索得到的网络模型结构是最优的网络结构的可能性更高。
具体实施时,可以以完成目标任务的精确度最高为目标,采用预设的模型搜索算法从至少部分子卷积神经网络中搜索出目标子卷积神经网络,这样,得到的目标子卷积神经网络便是完成目标任务的最佳卷积神经网络。
其中,预设的模型搜索算法可以是基于端到端的模型搜索算法、基于强化学习模型的模型搜索算法或基于进化学习的模型搜索算法。
步骤S15:根据所述目标子卷积神经网络的层数,确定所述预设的模型搜索算法的性能参数值。
由于,通过枚举获得了最佳网络模型结构,则在确定所述预设的模型搜索算法的性能参数值时,可以包括以下步骤:
步骤S15-1:将所述目标子卷积神经网络的层数,与所述目标原始卷积神经网络的层数比较。
其中,目标子卷积神经网络的层数便可以是包括的被保留的卷积处理分支的数量,例如,目标子卷积神经网络包括20个被保留的卷积处理分支,则目标子卷积神经网络的层数为20。
具体实施时,可以确定目标子卷积神经网络的层数与目标原始卷积神经网络的层数之差的绝对值,将该绝对值作为比较结果。例如,目标子卷积神经网络的层数为20,目标原始卷积神经网络的层数为22,则层数的差的绝对值为2。
步骤S15-2:根据比较结果,确定所述预设的模型搜索算法的性能参数值。
本实施例中,可以将目标子卷积神经网络的层数与目标原始卷积神经网络的层数之差的绝对值,作为预设的模型搜索算法的性能参数值。由于目标原始卷积神经网络是基于枚举得出的最佳的卷积神经网络,相当于一个标准答案,因此,性能参数值可以反映搜索出的目标卷积神经网络与最佳的卷积神经网络之间的差距,可以用于评价预设的模型搜索算法的搜索性能。
其中,当性能参数值为目标子卷积神经网络的层数与目标原始卷积神经网络的层数之差的绝对值时,性能参数值越大,表示预设的模型搜索算法的搜索性能越差,即该预设的模型搜索算法不能较准确地搜索出最佳的网络模型结构。反之,性能参数值越小,表示预设的模型搜索算法的搜索性能越高,即该预设的模型搜索算法可以准确地搜索出最佳的网络模型结构。
采用本发明实施例时,由于可以为各个层中的恒等变换分支和卷积处理分支分别分配相应的权重,不同的权重可以得到不同的卷积神经网络,使得搜索空间可以动态变化,进而提高了在该动态变化的搜索空间中搜索出的模型结构的优异性。由于搜索出是模型结构具有较高的优异性,因此,又提高了对搜索算法进行评价的准确性。另一方面,由于可以确定模型搜索算法的性能参数值,使得模型搜索算法能被衡量,实现了可以对搜索算法的性能进行评价,进而可以通过评价搜索算法评估基于该搜素算法搜索出的模型结构的优异性。
结合以上实施例,以下面一种实施方式A具体阐述如何以所述多个子卷积神经网络中至少部分子卷积神经网络为搜索空间,按照预设的模型搜索算法进行搜索,得到目标子卷积神经网络的过程。
在该实施方式A中,不同的子卷积神经网络中各层的恒等变换分支和卷积处理分支相应的权重不同,则得到目标子卷积神经网络的过程可以是如下所述:
步骤S14-1:从所述多个子卷积神经网络中筛选完成目标任务的参数值大于预设参数值的候选子卷积神经网络。
本实施方式A中,可以分别确定多个子卷积神经网络各自完成目标任务的参数值,其中,该参数值可以用于反映子卷积神经网络预测目标任务的精确度,例如,目标任务是对一个图片中的物体进行分别的任务,则参数值可以反映子卷积神经网络对物体分类的精确度。
具体实施时,可以将完成目标任务的参数值大于预设参数值的子卷积神经网络作为候选子卷积神经网络。实际中,目标任务的参数值将大于预设参数值的子卷积神经网络的数量可以是一个也可以是多个,在为多个时,可以将完成目标任务的参数值最大的子卷积神经网络作为候选子卷积神经网络。
步骤S14-2:根据所述候选子卷积神经网络的各个层中的恒等变换分支的权重,保留或丢弃所述候选子卷积神经网络的各个层中的恒等变换分支,得到与所述目标任务适配的目标子卷积神经网络。
本实施方式A中,由于候选子卷积神经网络中各层的恒等变换分支和卷积处理分支具有相应的权重,该权重可以作为是否保留恒等变换分支或丢弃恒等变换分支的依据。进而,可以将最终被保留的各个卷积处理分支构建为一个目标子卷积神经网络,在该目标子卷积神经网络中的每层便是卷积处理分支,该目标子卷积神经网络的层数便是卷积处理分支的数量。
具体实施时,当恒等变换分支的权重大于卷积处理分支的权重时,便可以保留该恒等变换分支,进而相应地便可以丢弃该卷积处理分支,使得该层网络的输入与输出相同。当恒等变换分支的权重小于卷积处理分支的权重时,便可以丢弃该恒等变换分支,进而保留了卷积处理分支,使得该层网络的输入要经过卷积处理分支的处理后再输出,最终得到了与目标任务适配的目标子卷积神经网络。
结合以上实施例,在一种实施方式B中,可以根据采取的模型搜索算法,通过相应的处理过程实现步骤S13,即通过相应的步骤得到多个子卷积神经网络,以及通过不同的处理过程实现步骤S14,以得到目标子卷积神经网络。
具体地,在一种实施方式B1中,所采取的模型搜索算法为基于进化算法的模型搜索算法。在采用该模型搜索算法时,首先需要得到多个不同深度的子卷积神经网络,即本实施方式B1中的多个子卷积神经网络具有不同的深度。则上述步骤S13可以是以下步骤:
步骤S13':以预设概率保留或丢弃所述目标卷积神经网络的各个层中的恒等变换分支,得到多个子卷积神经网络。
其中,预设概率可以理解为是预设采样概率,该预设概率可以是0.5。具体实施时,可以每次迭代通过P=0.5的伯努利分布随机丢弃所述目标卷积神经网络的各个层中的恒等变换分支,以使得每一层中的恒等变换分支的权重为0或1。其中,当丢弃恒等变换分支时,便使得恒等变换分支的权重为0,继而卷积处理分支的权重为1,表示保留了卷积处理分支。但保留恒等变换分支时,便使得恒等变换分支的权重为1,继而卷积处理分支的权重为0,表示丢弃了卷积处理分支。
具体实施时,经过多次迭代后,便形成了多个具有不同层数的子卷积神经网络。例如,在100层的目标卷积神经网络中,第一次迭代时,保留了20个卷积处理分支,则该20个卷积处理分支形成了一个子卷积神经网络1。第二次迭代时,保留了40个卷积处理分支,则该40个卷积处理分支又形成了一个子卷积神经网络2。子卷积神经网络1的层数便是20,子卷积神经网络2的层数便是40。
相应地,便可以采用基于进化算法的模型搜索算法对多个具有不同层数的子卷积神经网络进行搜索,以得到目标子卷积神经网络。具体过程可以如下步骤所述:
步骤S14-1:从所述多个子卷积神经网络中筛选完成目标任务的参数值排序靠前的K个子卷积神经网络。
其中,目标任务的参数值可以用于反映子卷积神经网络预测目标任务的精确度,例如,目标任务是对一个图片中的物体进行分类的任务,则参数值可以反映子卷积神经网络对物体分类的精确度。
本实施方式中,可以按照参数值从大到小的顺序,对各个子卷积神经网络进行排序,进而筛选出排列在前的K个子卷积神经网络。
步骤S14-2:以所述K个子卷积神经网络作为初始化种群,根据完成目标任务的参数值,采用进化算法进行多次筛选,得到目标子卷积神经网络。
具体实施时,可以K个子卷积神经网络作为初始化种群,按照各自完成目标任务的参数值,通过交叉和变异,淘汰掉适应能力差(即完成目标任务的性能参数值小)的子卷积神经网络,保留适应能力强(即完成目标任务的性能参数值大)的子卷积神经网络,并将最后保留的子卷积神经网络作为目标子卷积神经网络。
具体地,在另一种具体实施方式B2中,可以采用基于强化学习模型的模型搜索算法对搜索空间内的多个子卷积神经网络进行搜索,以得到目标子卷积神经网络,在采用该模型搜索算法时,也需要得到多个不同深度的子卷积神经网络,即本实施方式B2中的多个子卷积神经网络具有不同的深度。则上述步骤S13可以是以下步骤:
步骤S13':以预设概率保留或丢弃所述目标卷积神经网络的各个层中的恒等变换分支,得到多个子卷积神经网络。
该步骤S13'与上述实施方式B1中的步骤S13'的过程类似,在此不再赘述。
相应地,可以采用基于强化学习模型的模型搜索算法对多个具有不同层数的子卷积神经网络进行搜索,以得到目标子卷积神经网络。具体过程可以如下步骤所述:
步骤S14-1':对所述多个子卷积神经网络进行多次采样,将多次采样得到的子卷积神经网络的各个层中的恒等变换分支和卷积处理分支的权重为训练样本,对强化学习模型进行多次训练。
具体实施时,可以定义一个LSTM(Long Short-Term Memory,长短期记忆模型)来构建强化学习模型,LSTM的第一个时间步长输入为全0向量,其他时间步长为上一个时间步长的输出。其中,以各个层中的恒等变换分支和卷积处理分支的权重为训练样本,输入到强化学习模型。该强化学习模型可以对所述多个子卷积神经网络进行多次采样,在每次采样时,可以采样一个子卷积神经网络,并根据该子卷积网神经络在验证数据集上的准确率以及子网络模型计算复杂度设计奖赏函数,再使用策略梯度算法对学习模型进行更新,以达到对强化学习模型进行训练的目的。如此往复,直至强化学习模型收敛。
步骤S14-2':根据完成目标任务的参数值,采用训练结束的强化学习模型对所述多个子卷积神经网络进行筛选,得到目标子卷积神经网络。
在该强化学习模型被训练好后,便决定了神经网络模型的深度,之后,可以采用该训练好的强化学习模型,从所述多个子卷积神经网络中搜索出目标子卷积神经网络。
具体地,在又一种具体实施方式B3中,可以采用基于端到端模型的模型搜索算法直接对目标卷积神经网络进行搜索,以得到目标子卷积神经网络,其中,在对目标卷积神经网络进行搜索,以得到目标子卷积神经网络的中间过程中,可以得到多个处于中间状态的子卷积神经网络。即,在采用本实施方式B3时,步骤S13中的多个子卷积神经网络是在基于端到端模型的模型搜索算法对目标卷积神经网络进行搜索的过程中得到的。具体包括以下步骤:
步骤S14-1”:根据所述目标卷积神经网络完成目标任务的参数值,对为所述目标卷积神经网络的各个层中的恒等变换分支和卷积处理分支分别分配的权重进行多次更新。
具体实施时,可以按如下过程进行:
首先,可以定义端到端模型的模型结构参数,以及根据目标任务构建目标函数,该模型参数通过softmax函数计算得到目标卷积神经网络中各层中的恒等变换分支和卷积处理分支分别分配的权重。
接着,根据各层中的恒等变换分支和卷积处理分支分别分配的权重,对恒等变换分支的输出和卷积处理分支的输出进行加权求和。具体地,加权求和是指:计算恒等变换分支的输出与恒等变换分支的权重的乘积,与,卷积处理分支的权重与卷积处理分支的输出的乘积之和。
之后,根据加权求和的值,更新目标函数并反向传递更新模型结构参数、更新每一层恒等变换分支的权重和更新卷积处理分支的权重。
步骤S14-2”:根据经过多次更新后的目标卷积神经网络的各个层中的恒等变换分支的权重,保留或丢弃经过多次更新后的目标卷积神经网络的各个层中的恒等变换分支,得到目标子卷积神经网络。
本实施方式中,可以对目标卷积神经网络的各个层中的恒等变换分支的权重进行多次更新,直至目标函数收敛,可以得到最终的目标卷积神经网络,在该最终的目标卷积神经网络中各层的恒等变换分支和卷积处理分支也分别具有最终的权重,该权重可以作为是否保留卷积处理分支或丢弃卷积处理分支的依据。
具体实施时,将最终的目标卷积神经网络中各层权重较大的分支进行保留,即,在每层中将恒等变换分支的权重和卷积处理分支的权重进行比较,在恒等变换分支的权重大于卷积处理分支的权重时,便保留该恒等变换分支,反之,便丢弃该恒等变换分支。
由于恒等变换分支的输入和输出相同,保留一层的恒等变换分支便表示将给该层的输入直接作为下一层的输入(即该层没有对输入进行处理),表示该目标神经网络中的该层去除,丢弃该恒等变换分支便表示该目标神经网络中的卷积处理分支被保留,进而得到目标子卷积神经网络,在目标子卷积神经网络中,便包括多个被保留的卷积处理分支。
例如,以目标卷积神经网络为100层为例,最终得到的目标卷积神经网络中包括第i层和第j层。其中,第i层的恒等变换分支的权重为0.4、卷积处理分支的权重为0.6,第j层的恒等变换分支的权重为0.8、卷积处理分支的权重为0.2,则可以丢弃第i层的恒等变换分支,而保留第j层的恒等变换分支,实际中,最终的目标子卷积神经网络中保保留了第i层的卷积处理分支,而没有第j层,即,目标子卷积神经网络减少了一层。
采用本实施方式时,由于得到子卷积神经网络的过程包括在搜索的过程中,因此,可以提高获得目标子卷积神经网络的效率。
结合以上实施例,在一种实施方式中,在创建目标卷积神经网络时,该目标卷积神经网络的卷积处理分支中还可以包括一个恒等变化单元,具体地创建目标卷积神经网络可以包括以下步骤:
步骤S12-1:在原始卷积神经网络中的每一层中增加恒等变换单元,得到卷积处理分支,其中,所述恒等变换单元的输出与输入相同。
本实施例中,在目标卷积神经网络中的每一层网络中可以包括两个恒等变换,其中,除恒等变换分支处的恒等变换外,在卷积处理分支中还可以包括一个恒等变换单元。
在一种实施方式中,对该卷积处理分支中的恒等变换单元被添加的位置进行详细介绍。其中,原始卷积神经网络中的每一层至少包括:卷积处理单元和批归一化单元。则得到卷积处理分支的步骤可以是如下步骤:
步骤S12-1':在原始卷积神经网络中每一层具有的卷积处理单元的基础上,增加恒等变换单元,得到卷积处理分支。
其中,所述卷积处理单元的输出与所述恒等变换单元的输出之和,为批归一化单元的输入。
本实施例中,原始卷积神经网络中的每一层网络可以包括:卷积处理单元、批归一化单元以及ReLU(Rectified Linear Unit,修正线性单元)。其中,在每一层的输入与批归一化单元的输入之间增加恒等变换单元,该恒等变换单元可以是与卷积处理单元并列的单元,该恒等变换单元的输入和输出相同。其中,每一层批归一化单元的输入为卷积处理单元的输出与所述恒等变换单元的输出之和。
以信息S为输入为例,当S输入到卷积处理分支时,该S分别输入到卷积处理单元和恒等变换单元,这样,卷积处理单元输出S1,恒等变换单元仍然输出S,之后,S和S1之和便输入到批归一化层。
步骤S12-2:在原始卷积神经网络中每一层的输入端与输出端之间具有的卷积处理分支的基础上,增加恒等变换分支,得到所述目标卷积神经网络。
参照图4,示出了又一目标卷积神经网络中每一层的结构示意图,如图4所示,第i层网络表示目标卷积神经网络中的任一层网络,其包括恒等变换分支402及卷积处理分支,其中,卷积处理分支中包括卷积处理单元、批归一化层、ReLU以及与卷积处理单元并列的恒等变换单元401。可以看出,恒等变换分支402将输入直接输出,卷积处理分支中的恒等变换单元401的输出与卷积处理单元的输出按元素相加后再输入到批归一化层。
采用上述实施方式时,由于在卷积处理分支中具有与卷积处理单元并列的恒等变换单元,因此,缓解了在深度较深时对浅层处的网络的参数无法更新而造成的模型训练不动的问题,可以避免目标卷积神经网络变成残差网络。提高了目标卷积神经网络的深度,即可以使得目标卷积神经网络的层数增加到较高的层数,这样,层数在较高时,可以扩大搜索空间,进而使得搜索出来的目标子卷积神经网络是最佳的网络结构的概率提高,即,在较大的搜索空间中更能准确得到最佳的目标子卷积神经网络。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
基于同一发明构思,参考图5,示出了本发明实施例的一种卷积神经网络处理装置的框架示意图,所述装置可以包括如下模块:
网络构建模块501,用于创建目标卷积神经网络,所述目标卷积神经网络的每一层的输入端与输出端之间设置有恒等变换分支和卷积处理分支,其中,所述恒等变换分支的输出与输入相同;
子网络构建模块502,用于为所述目标卷积神经网络的各个层中的恒等变换分支和卷积处理分支分别分配相应的权重,得到多个子卷积神经网络;
目标网络确定模块503,用于以所述多个子卷积神经网络中至少部分子卷积神经网络为搜索空间,按照预设的模型搜索算法进行搜索,得到目标子卷积神经网络;
性能验证模块504,用于根据所述目标子卷积神经网络的层数,确定所述预设的模型搜索算法的性能参数值。
可选地,所述网络构建模块501具体可以包括以下单元:
第一变换单元,用于在原始卷积神经网络中的每一层中增加恒等变换单元,得到卷积处理分支,其中,所述恒等变换单元的输出与输入相同;
第二变换单元,用于在原始卷积神经网络中每一层的输入端与输出端之间具有的卷积处理分支的基础上,增加恒等变换分支,得到所述目标卷积神经网络。
可选地,原始卷积神经网络中的每一层至少包括:卷积处理单元和批归一化单元;所述第一变换单元,具体用于在原始卷积神经网络中每一层具有的卷积处理单元的基础上,增加恒等变换单元,得到卷积处理分支;
其中,所述卷积处理单元的输出与所述恒等变换单元的输出之和,为批归一化单元的输入。
可选地,所述目标网络确定模块503具体可以包括以下单元:
第一筛选单元,用于从所述多个子卷积神经网络中筛选完成目标任务的参数值大于预设参数值的候选子卷积神经网络;
第一网络保留单元,用于根据所述候选子卷积神经网络的各个层中的恒等变换分支的权重,保留或丢弃所述目标子卷积神经网络的各个层中的恒等变换分支,得到与所述目标任务适配的目标子卷积神经网络。
可选地,所述预设的模型搜索算法为基于进化算法的模型搜索算法;所述子网络构建模块,具体用于以预设概率保留或丢弃所述目标卷积神经网络的各个层中的恒等变换分支,得到多个子卷积神经网络;
所述目标网络确定模块503具体可以包括以下单元:
第二筛选单元,用于从所述多个子卷积神经网络中筛选完成目标任务的参数值排序靠前的K个子卷积神经网络;
第二保留单元,用于以所述K个子卷积神经网络作为初始化种群,根据完成目标任务的参数值,采用进化算法进行多次筛选,得到目标子卷积神经网络。
可选地,所述预设的模型搜索算法为基于强化学习模型的模型搜索算法;所述子网络构建模块,具体用于以预设概率保留或丢弃所述目标卷积神经网络的各个层中的恒等变换分支,得到多个子卷积神经网络;
所述目标网络确定模块503具体可以包括以下单元:
模型训练单元,用于对所述多个子卷积神经网络进行多次采样,将多次采样得到的子卷积神经网络的各个层中的恒等变换分支和卷积处理分支的权重为训练样本,对强化学习模型进行多次训练;
第三筛选单元,用于根据完成目标任务的参数值,采用训练结束的强化学习模型对所述多个子卷积神经网络进行筛选,得到目标子卷积神经网络。
可选地,所述预设的模型搜索算法为基于端到端模型的模型搜索算法;所述目标网络确定模块503具体可以包括以下单元:
权重更新单元,用于根据所述目标卷积神经网络完成目标任务的参数值,对为所述目标卷积神经网络的各个层中的恒等变换分支和卷积处理分支分别分配的权重进行多次更新;
第四筛选单元,用于根据经过多次更新后的目标卷积神经网络的各个层中的恒等变换分支的权重,保留或丢弃经过多次更新后的目标卷积神经网络的各个层中的恒等变换分支,得到目标子卷积神经网络。
可选地,所述目标卷积神经网络的层数是第一预设层数;所述装置还可以包括以下模块:
原始网络获得模块,用于从最大层数为所述第一预设层数的各个原始卷积神经网络中,筛选完成所述目标任务的参数值大于所述预设参数值的目标原始卷积神经网络;
所述性能验证模块504具体可以包括以下单元:
层数比较单元,用于将所述目标子卷积神经网络的层数,与所述目标原始卷积神经网络的层数比较;
结果确定单元,用于根据比较结果,确定所述预设的模型搜索算法的性能参数值。
对于卷积神经网络处理装置实施例而言,由于其与卷积神经网络处理方法实施例基本相似,所以描述的比较简单,相关之处参见卷积神经网络处理方法实施例的部分说明即可。
本发明实施例还提供了一种电子设备,可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行如本发明实施例所述的一个或多个的卷积神经网络处理方法。
本发明实施例还提供了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如本发明实施例所述的卷积神经网络处理方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种卷积神经网络处理方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (11)
1.一种卷积神经网络处理方法,其特征在于,包括:
创建目标卷积神经网络,所述目标卷积神经网络的每一层的输入端与输出端之间设置有恒等变换分支和卷积处理分支,其中,所述恒等变换分支的输出与输入相同;
为所述目标卷积神经网络的各个层中的恒等变换分支和卷积处理分支分别分配相应的权重,得到多个子卷积神经网络;
以所述多个子卷积神经网络中至少部分子卷积神经网络为搜索空间,按照预设的模型搜索算法进行搜索,得到目标子卷积神经网络;
根据所述目标子卷积神经网络的层数,确定所述预设的模型搜索算法的性能参数值。
2.根据权利要求1所述的方法,其特征在于,创建目标卷积神经网络,包括:
在原始卷积神经网络中的每一层中增加恒等变换单元,得到卷积处理分支,其中,所述恒等变换单元的输出与输入相同;
在原始卷积神经网络中每一层的输入端与输出端之间具有的卷积处理分支的基础上,增加恒等变换分支,得到所述目标卷积神经网络。
3.根据权利要求2所述的方法,其特征在于,原始卷积神经网络中的每一层至少包括:卷积处理单元和批归一化单元;在原始卷积神经网络中的每一层中增加恒等变换单元,得到卷积处理分支,包括:
在原始卷积神经网络中每一层具有的卷积处理单元的基础上,增加恒等变换单元,得到卷积处理分支;
其中,所述卷积处理单元的输出与所述恒等变换单元的输出之和,为批归一化单元的输入。
4.根据权利要求1所述的方法,其特征在于,以所述多个子卷积神经网络中至少部分子卷积神经网络为搜索空间,按照预设的模型搜索算法进行搜索,得到目标子卷积神经网络,包括:
从所述多个子卷积神经网络中筛选完成目标任务的参数值大于预设参数值的候选子卷积神经网络;
根据所述候选子卷积神经网络的各个层中的恒等变换分支的权重,保留或丢弃所述候选子卷积神经网络的各个层中的恒等变换分支,得到与所述目标任务适配的目标子卷积神经网络。
5.根据权利要求1所述的方法,其特征在于,所述预设的模型搜索算法为基于进化算法的模型搜索算法;为所述目标卷积神经网络的各个层中的恒等变换分支和卷积处理分支分别分配相应的权重,得到多个子卷积神经网络,包括:
以预设概率保留或丢弃所述目标卷积神经网络的各个层中的恒等变换分支,得到多个子卷积神经网络;
以所述多个子卷积神经网络中至少部分子卷积神经网络为搜索空间,按照预设的模型搜索算法进行搜索,得到目标子卷积神经网络,包括:
从所述多个子卷积神经网络中筛选完成目标任务的参数值排序靠前的K个子卷积神经网络;
以所述K个子卷积神经网络作为初始化种群,根据完成目标任务的参数值,采用进化算法进行多次筛选,得到目标子卷积神经网络。
6.根据权利要求1所述的方法,其特征在于,所述预设的模型搜索算法为基于强化学习模型的模型搜索算法;为所述目标卷积神经网络的各个层中的恒等变换分支和卷积处理分支分别分配相应的权重,得到多个子卷积神经网络,包括:
以预设概率保留或丢弃所述目标卷积神经网络的各个层中的恒等变换分支,得到多个子卷积神经网络;
以所述多个子卷积神经网络中至少部分子卷积神经网络为搜索空间,按照预设的模型搜索算法进行搜索,得到目标子卷积神经网络,包括:
对所述多个子卷积神经网络进行多次采样,将多次采样得到的子卷积神经网络的各个层中的恒等变换分支和卷积处理分支的权重为训练样本,对强化学习模型进行多次训练;
根据完成目标任务的参数值,采用训练结束的强化学习模型对所述多个子卷积神经网络进行筛选,得到目标子卷积神经网络。
7.根据权利要求1所述的方法,其特征在于,所述预设的模型搜索算法为基于端到端模型的模型搜索算法;以所述多个子卷积神经网络中至少部分子卷积神经网络为搜索空间,按照预设的模型搜索算法进行搜索,得到目标子卷积神经网络,包括:
根据所述目标卷积神经网络完成目标任务的参数值,对为所述目标卷积神经网络的各个层中的恒等变换分支和卷积处理分支分别分配的权重进行多次更新;
根据经过多次更新后的目标卷积神经网络的各个层中的恒等变换分支的权重,保留或丢弃经过多次更新后的目标卷积神经网络的各个层中的恒等变换分支,得到目标子卷积神经网络。
8.根据权利要求4-7任一所述的方法,其特征在于,所述目标卷积神经网络的层数是第一预设层数;在根据所述目标子卷积神经网络的层数,确定所述预设的模型搜索算法的性能参数值之前,所述方法还包括:
从最大层数为所述第一预设层数的各个原始卷积神经网络中,筛选完成所述目标任务的参数值大于所述预设参数值的目标原始卷积神经网络;
根据所述目标子卷积神经网络的层数,确定所述预设的模型搜索算法的性能参数值,包括:
将所述目标子卷积神经网络的层数,与所述目标原始卷积神经网络的层数比较;
根据比较结果,确定所述预设的模型搜索算法的性能参数值。
9.一种卷积神经网络处理装置,其特征在于,包括:
网络构建模块,用于创建目标卷积神经网络,所述目标卷积神经网络的每一层的输入端与输出端之间设置有恒等变换分支和卷积处理分支,其中,所述恒等变换分支的输出与输入相同;
子网络构建模块,用于为所述目标卷积神经网络的各个层中的恒等变换分支和卷积处理分支分别分配相应的权重,得到多个子卷积神经网络;
目标网络确定模块,用于以所述多个子卷积神经网络中至少部分子卷积神经网络为搜索空间,按照预设的模型搜索算法进行搜索,得到目标子卷积神经网络;
性能验证模块,用于根据所述目标子卷积神经网络的层数,确定所述预设的模型搜索算法的性能参数值。
10.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如权利要求1-8任一所述的卷积神经网络处理方法。
11.一种计算机可读存储介质,其特征在于,其存储的计算机程序使得处理器执行如权利要求1-8任一项所述的卷积神经网络处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010105457.4A CN111414990B (zh) | 2020-02-20 | 2020-02-20 | 卷积神经网络处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010105457.4A CN111414990B (zh) | 2020-02-20 | 2020-02-20 | 卷积神经网络处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111414990A true CN111414990A (zh) | 2020-07-14 |
CN111414990B CN111414990B (zh) | 2024-03-19 |
Family
ID=71494119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010105457.4A Active CN111414990B (zh) | 2020-02-20 | 2020-02-20 | 卷积神经网络处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414990B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021151311A1 (zh) * | 2020-08-24 | 2021-08-05 | 平安科技(深圳)有限公司 | 一种组卷积数目搜索方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408610A (zh) * | 2015-04-16 | 2017-02-15 | 西门子公司 | 用边缘空间深度神经网络进行解剖对象检测的方法和系统 |
CN107636659A (zh) * | 2015-05-11 | 2018-01-26 | 西门子保健有限责任公司 | 使用深度神经网络检测医学图像中的地标的方法和系统 |
US20180075581A1 (en) * | 2016-09-15 | 2018-03-15 | Twitter, Inc. | Super resolution using a generative adversarial network |
WO2019020075A1 (zh) * | 2017-07-28 | 2019-01-31 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、存储介质、计算机程序和电子设备 |
US20190188537A1 (en) * | 2017-12-14 | 2019-06-20 | Robert Bosch Gmbh | Effective building block design for deep convolutional neural networks using search |
CN110197258A (zh) * | 2019-05-29 | 2019-09-03 | 北京市商汤科技开发有限公司 | 神经网络搜索方法、图像处理方法及装置、设备和介质 |
CN110782010A (zh) * | 2019-10-18 | 2020-02-11 | 北京小米智能科技有限公司 | 一种神经网络的构建方法及装置、存储介质 |
-
2020
- 2020-02-20 CN CN202010105457.4A patent/CN111414990B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408610A (zh) * | 2015-04-16 | 2017-02-15 | 西门子公司 | 用边缘空间深度神经网络进行解剖对象检测的方法和系统 |
CN107636659A (zh) * | 2015-05-11 | 2018-01-26 | 西门子保健有限责任公司 | 使用深度神经网络检测医学图像中的地标的方法和系统 |
US20180075581A1 (en) * | 2016-09-15 | 2018-03-15 | Twitter, Inc. | Super resolution using a generative adversarial network |
WO2019020075A1 (zh) * | 2017-07-28 | 2019-01-31 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、存储介质、计算机程序和电子设备 |
US20190188537A1 (en) * | 2017-12-14 | 2019-06-20 | Robert Bosch Gmbh | Effective building block design for deep convolutional neural networks using search |
CN110197258A (zh) * | 2019-05-29 | 2019-09-03 | 北京市商汤科技开发有限公司 | 神经网络搜索方法、图像处理方法及装置、设备和介质 |
CN110782010A (zh) * | 2019-10-18 | 2020-02-11 | 北京小米智能科技有限公司 | 一种神经网络的构建方法及装置、存储介质 |
Non-Patent Citations (2)
Title |
---|
林封笑;陈华杰;姚勤炜;张杰豪;: "基于混合结构卷积神经网络的目标快速检测算法", 计算机工程, no. 12 * |
陈以;万梅芳;: "基于RBF神经网络的最经济控制研究", 微计算机信息, no. 02 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021151311A1 (zh) * | 2020-08-24 | 2021-08-05 | 平安科技(深圳)有限公司 | 一种组卷积数目搜索方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111414990B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073568B (zh) | 关键词提取方法和装置 | |
CN111126564B (zh) | 一种神经网络结构搜索方法、装置及设备 | |
JP6483667B2 (ja) | ベイズの最適化を実施するためのシステムおよび方法 | |
CN109978060B (zh) | 一种自然语言要素抽取模型的训练方法及装置 | |
JP6807909B2 (ja) | データ評価方法、装置、機器及び読み取り可能な記憶媒体 | |
CN112183620B (zh) | 基于图卷积神经网络的小样本分类模型的发育方法及系统 | |
CN109472318A (zh) | 为构建的机器学习模型选取特征的方法及装置 | |
CN110659311B (zh) | 题目推送方法、装置、电子设备及存储介质 | |
CN109657792A (zh) | 构建神经网络的方法、装置和计算机可读介质 | |
JPWO2018062265A1 (ja) | 音響モデル学習装置、その方法、及びプログラム | |
CN114781611A (zh) | 自然语言处理方法、语言模型训练方法及其相关设备 | |
CN111210017B (zh) | 确定布局顺序及数据处理的方法、装置、设备及存储介质 | |
CN112380421A (zh) | 简历的搜索方法、装置、电子设备及计算机存储介质 | |
CN111414990B (zh) | 卷积神经网络处理方法、装置、电子设备及存储介质 | |
CN113592008A (zh) | 一种基于自编码器的图神经网络机制解决小样本图像分类的系统、方法、设备及存储介质 | |
CN112508177A (zh) | 一种网络结构搜索方法、装置、电子设备及存储介质 | |
CN111783936A (zh) | 卷积神经网络构建方法、装置、设备及介质 | |
CN113223622B (zh) | 基于元路径的miRNA-疾病关联预测方法 | |
CN114139636A (zh) | 异常作业处理方法及装置 | |
JP6993250B2 (ja) | コンテンツ特徴量抽出装置、方法、及びプログラム | |
JP2011210063A (ja) | 逐次クラスタリング装置、方法およびプログラム | |
CN109308565B (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN112613525A (zh) | 目标框预测方法、装置、设备及介质 | |
CN113591781B (zh) | 基于服务机器人云平台的图像处理方法及系统 | |
CN112580804B (zh) | 一种目标图像处理模型的确定方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |