CN116167413A - 深度卷积神经网络量化剪枝联合优化的方法及系统 - Google Patents
深度卷积神经网络量化剪枝联合优化的方法及系统 Download PDFInfo
- Publication number
- CN116167413A CN116167413A CN202310422590.6A CN202310422590A CN116167413A CN 116167413 A CN116167413 A CN 116167413A CN 202310422590 A CN202310422590 A CN 202310422590A CN 116167413 A CN116167413 A CN 116167413A
- Authority
- CN
- China
- Prior art keywords
- neural network
- parameters
- pruning
- quantization
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 238000013138 pruning Methods 0.000 title claims abstract description 102
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 76
- 238000005457 optimization Methods 0.000 title claims abstract description 62
- 238000013139 quantization Methods 0.000 claims abstract description 124
- 238000003062 neural network model Methods 0.000 claims abstract description 117
- 238000011156 evaluation Methods 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 43
- 230000002787 reinforcement Effects 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 238000004821 distillation Methods 0.000 claims abstract description 23
- 238000010586 diagram Methods 0.000 claims description 87
- 230000009471 action Effects 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 21
- 230000005540 biological transmission Effects 0.000 claims description 17
- 230000007547 defect Effects 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 16
- 230000009191 jumping Effects 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 7
- 238000003475 lamination Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 8
- 230000001133 acceleration Effects 0.000 abstract description 5
- 230000006835 compression Effects 0.000 abstract description 5
- 238000007906 compression Methods 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 6
- 238000010587 phase diagram Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 241000669618 Nothes Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种深度卷积神经网络量化剪枝联合优化的方法及系统,属于图像处理技术领域,方法包括:获取待处理对象图像的数据集;利用所述数据集训练待优化神经网络模型,并初始化神经网络模型参数,神经网络模型参数包括评价网络、执行网络、目标评价网络和目标执行网络参数;使用基于强化学习的量化剪枝策略学习方法得到神经网络模型最优的权重剪枝率、权重量化率、输入特征量化率;使用基于蒸馏和量化熵正则后训练方法重新训练神经网络,得到优化后的神经网络模型参数;利用最优的权重剪枝率、权重量化率、输入特征量化率对神经网络模型进行优化,得到最终的神经网络模型。本发明使深度卷积神经网络提升了模型性能,实现了加速与压缩。
Description
技术领域
本发明涉及一种深度卷积神经网络量化剪枝联合优化的方法及系统,属于图像处理技术领域。
背景技术
近几年来,随着全球人工智能学科的蓬勃发展,深度卷积神经网络已经被广泛地应用在了在计算机视觉、信息检索、语音识别、语义理解,知识图谱、强化学习等众多热门领域,在工业界和学术界掀起了一股又一股神经网络研究的浪潮,解决了很多计算机认知和推理上的难题,并推动了互联网、金融、医疗健康、交通运输等行业的发展。
目前,深度卷积神经网络向着多模态、大模型、大数据的趋势发展,模型的网络层数和总的参数量都飞速增长,这使得许多超大规模的网络模型只能够在高性能的计算集群上进行训练和测试,并且训练部署的成本高昂。随着移动互联网技术的普及,人们更加倾向于在移动互联设备上运行深度卷积神经网络的测试过程。但是现有移动设备的运算能力和存储能力都非常有限。这就向我们提出了两个挑战:如何降低卷积神经网络的测试用时,以及如何压缩网络模型的存储开销。
针对卷积神经网络的加速与压缩问题,已有一些有效的算法被提出。然而,这些算法大多数都是对卷积神经网络进行单独的量化优化或剪枝优化,并没有考虑卷积神经网络的量化剪枝联合优化,并且只在网络的少数几层上进行了测试,所以神经网络模型全层数的量化剪枝联合优化问题亟待研究。
发明内容
为了解决上述问题,本发明提出了一种深度卷积神经网络量化剪枝联合优化的方法及系统,能够实现深度卷积神经网络的加速与压缩。
本发明解决其技术问题采取的技术方案是:
第一方面,本发明实施例提供的一种深度卷积神经网络量化剪枝联合优化的方法,包括以下步骤:
获取待处理对象图像的数据集;
利用所述数据集训练待优化神经网络模型,并初始化神经网络模型参数,所述神经网络模型参数包括评价网络参数、执行网络参数、目标评价网络参数和目标执行网络参数;
使用基于强化学习的量化剪枝策略学习方法得到神经网络模型最优的权重剪枝率、权重量化率、输入特征量化率;
使用基于蒸馏和量化熵正则后训练方法重新训练神经网络,得到优化后的神经网络模型参数;
利用最优的权重剪枝率、权重量化率、输入特征量化率对神经网络模型进行优化,得到最终的神经网络模型。
作为本实施例一种可能的实现方式,所述使用基于强化学习的量化剪枝策略学习方法得到神经网络模型最优的权重剪枝率、权重量化率、输入特征量化率,包括:
初始化随机噪声、模型观测状态和时间步计数;
基于DDPG算法的策略学习;
重复执行上述步骤处理,当所述评价网络参数和执行网络参数收敛时,跳出循环,得到最优的评价网络和执行网络。
作为本实施例一种可能的实现方式,所述基于DDPG算法的策略学习,包括:
使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码,将重新编码后的当前时间步的观测状态和噪声输入到执行网络中,得到当前时间步动作;
使用当前时间步动作的剪枝参数优化神经网络模型,训练神经网络模型一个轮次,使用当前时间步动作的量化参数优化神经网络模型,前向传播网络模型,获得动作奖励和新的观测状态;
通过最小化Q值损失函数来更新参数评价网络参数;
使用策略梯度更新执行网络参数;
更新目标评价网络参数、目标执行网络参数和时间步计数;
重复执行上述步骤处理,当深度卷积神经网络所有层都被遍历完成时,跳出循环。
作为本实施例一种可能的实现方式,所述使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码,包括:
当遍历至K阶段图第0层时,初始化K阶段图的子网编码,即每个网络层状态信息的编码;
将当前网络层上上层的K阶段图的子网编码和当前网络层上层K阶段图节点的隐藏状态输入到K阶段图的图卷积层当中,得到当前层节点的隐藏状态;
将当前层节点的隐藏状态输入到K阶段图的可学习池化层当中,得到上层的K阶段图的子网编码;
重复执行上述步骤处理,当K阶段图所有层都被遍历完成时,跳出循环,得到第K层的K阶段图的子网编码,将第K层的K阶段图的子网编码和当前时间步计数连接组成重新编码后的当前时间步的观测状态。
作为本实施例一种可能的实现方式,所述使用基于蒸馏和量化熵正则后训练方法重新训练神经网络,得到优化后的神经网络模型参数,包括:
使用执行网络的量化参数对神经网络模型进行量化;
计算包含蒸馏和量化熵正则两项的损失函数;
计算神经网络模型参数的梯度并对神经网络模型的参数值进行更新;
重复执行上述步骤处理,当所述神经网络模型的参数收敛时,跳出循环,得到优化后的神经网络模型参数。
作为本实施例一种可能的实现方式,所述待处理对象包括输电线路隐患分析数据或/和变电站缺陷检测数据。
作为本实施例一种可能的实现方式,所述深度卷积神经网络为包含多个卷积层的神经网络。
第一方面,本发明实施例提供的一种深度卷积神经网络量化剪枝联合优化的系统,包括:
数据采集模块,用于获取待处理对象图像的数据集;
模型训练模块,用于利用所述数据集训练待优化神经网络模型,并初始化神经网络模型参数,所述神经网络模型参数包括评价网络参数、执行网络参数、目标评价网络参数和目标执行网络参数;
强化学习模块,用于使用基于强化学习的量化剪枝策略学习方法得到神经网络模型最优的权重剪枝率、权重量化率、输入特征量化率;
参数优化模块,用于使用基于蒸馏和量化熵正则后训练方法重新训练神经网络,得到优化后的神经网络模型参数;
模型优化模块,用于利用最优的权重剪枝率、权重量化率、输入特征量化率对神经网络模型进行优化,得到最终的神经网络模型。
作为本实施例一种可能的实现方式,所述强化学习模块,包括:
初始化模块,用于初始化随机噪声、模型观测状态和时间步计数;
策略学习模块,用于基于DDPG算法的策略学习;
第一重复执行模块,用于重复执行上述步骤处理,当所述评价网络参数和执行网络参数收敛时,跳出循环,得到最优的评价网络和执行网络。
作为本实施例一种可能的实现方式,所述策略学习模块,具体用于:
使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码,将重新编码后的当前时间步的观测状态和噪声输入到执行网络中,得到当前时间步动作;
使用当前时间步动作的剪枝参数优化神经网络模型,训练神经网络模型一个轮次,使用当前时间步动作的量化参数优化神经网络模型,前向传播网络模型,获得动作奖励和新的观测状态;
通过最小化Q值损失函数来更新参数评价网络参数;
使用策略梯度更新执行网络参数;
更新目标评价网络参数、目标执行网络参数和时间步计数;
重复执行上述步骤处理,当深度卷积神经网络所有层都被遍历完成时,跳出循环。
作为本实施例一种可能的实现方式,所述策略学习模块使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码的具体过程为:
当遍历至K阶段图第0层时,初始化K阶段图的子网编码,即每个网络层状态信息的编码;
将当前网络层上上层的K阶段图的子网编码和当前网络层上层K阶段图节点的隐藏状态输入到K阶段图的图卷积层当中,得到当前层节点的隐藏状态;
将当前层节点的隐藏状态输入到K阶段图的可学习池化层当中,得到上层的K阶段图的子网编码;
重复执行上述步骤处理,当K阶段图所有层都被遍历完成时,跳出循环,得到第K层的K阶段图的子网编码,将第K层的K阶段图的子网编码和当前时间步计数连接组成重新编码后的当前时间步的观测状态。
作为本实施例一种可能的实现方式,所述参数优化模块,具体用于:
使用执行网络的量化参数对神经网络模型进行量化;
计算包含蒸馏和量化熵正则两项的损失函数;
计算神经网络模型参数的梯度并对神经网络模型的参数值进行更新;
重复执行上述步骤处理,当所述神经网络模型的参数收敛时,跳出循环,得到优化后的神经网络模型参数。
作为本实施例一种可能的实现方式,所述待处理对象包括输电线路隐患分析数据或/和变电站缺陷检测数据。
作为本实施例一种可能的实现方式,所述深度卷积神经网络为包含多个卷积层的神经网络。
第三方面,本发明实施例提供的一种上述任一所述深度卷积神经网络量化剪枝联合优化的方法在输电线路隐患分析场景或变电站缺陷检测场景实中的应用,用于对隐患进行检测。
作为本实施例一种可能的实现方式,所述的深度卷积神经网络量化剪枝联合优化的方法在输电线路隐患分析场景或变电站缺陷检测场景实中的应用过程为:
采集待检测数据作为数据集,所述数据集分为输电线路隐患分析数据集和变电站缺陷检测数据集,均在真实场景下采集并人工标注;输电线路隐患分析数据集和变电站缺陷检测数据集的训练集均为10000张,验证集均为1000张,测试集均为2000张;
设置优化器为SGD,设置优化器的动量为0.9,设置优化器的衰减率为0.0005;
状态空间参数设定,所述状态空间包括卷积层和全连接层,其中,所述卷积层包括:卷积核大小为1的卷积层、卷积核大小为3的卷积层、卷积核大小为5的卷积层、卷积核大小为7的卷积层、卷积核大小为3的深度可分离卷积层、卷积核大小为5的深度可分离卷积层、卷积核大小为7的深度可分离卷积层、卷积核大小为3的深度可分离空洞卷积层、卷积核大小为5的深度可分离空洞卷积层和卷积核大小为7的深度可分离空洞卷积层;
动作空间参数设定:量化上界为8,量化下界为2,剪枝上界为1,剪枝下界为0;
首先,按照以上参数设定初始化整个算法;
训练待优化神经网络模型M;
随机初始化评价网络和执行网络/>,初始化目标评价网络/>和目标执行网络/>,并另/>,/>,初始化回放缓存/>,其中,/>表示观测状态,/>表示动作,/>表示评价网络参数,/>表示执行网络参数,/>表示目标执行网络参数,/>表示目标执行网络参数;
在测试数据集上前向传播网络模型M,获得动作奖励和新的观测状态/>,其中,/>表示t层的量化参数,/>表示截断参数,/>表示模型M的权重参数,/>表示KL散度,/>模型M在第t层的权重参数,/>表示截断参数,clamp表示阶段函数,round表示近似函数,/>表示指数滑动平均因子;
重复执行以下两个步骤直至模型M的参数收敛:
,其中,/>,/>,/>表示全精度教师网络,/>表示量化学生网络,/>表示全精度教师网络在,/>表示量化学生网络,/>表示神经网络权重的真实值,/>表示神经网络权重的量化值,/>表示输入特征的的真实值,/>表示输入特征的的量化值,/>代表量化箱,/>代表均值计算,/>代表方差计算;
第四方面,本发明实施例提供的一种计算机设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述任意深度卷积神经网络量化剪枝联合优化的方法的步骤。
第五方面,本发明实施例提供的一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述任意深度卷积神经网络量化剪枝联合优化的方法的步骤。
本发明实施例的技术方案可以具有的有益效果如下:
本发明采用了基于强化学习的量化剪枝策略学习方法和基于蒸馏和量化熵正则的后训练方法,其中基于强化学习的量化剪枝策略学习方法又分为两个子方法,分别是基于K阶段图的观测状态生成方法和基于DDPG算法的策略学习方法。本发明通过使用强化学习算法不断从模型的实际性能指标中学习量化剪枝联合优化策略,得到神经网络模型最优的权重剪策略、权重量化策略、输入特征量化策略,最后使用基于蒸馏和量化熵正则的后训练方法提升深度卷积神经网络模型的性能,从而实现深度卷积神经网络的加速与压缩。
附图说明
图1是根据一示例性实施例示出的一种深度卷积神经网络量化剪枝联合优化的方法的流程图;
图2是根据一示例性实施例示出的一种深度卷积神经网络量化剪枝联合优化的系统的示意图;
图3是根据一示例性实施例示出的一种深度卷积神经网络量化剪枝联合优化的具体流程图;
图4是根据一示例性实施例示出的一种基于K阶段图的观测状态生成过程示意图;
图5是根据一示例性实施例示出的一种使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码的示意图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明:
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明实施例提供的一种深度卷积神经网络量化剪枝联合优化的方法,包括以下步骤:
获取待处理对象图像的数据集;
利用所述数据集训练待优化神经网络模型,并初始化神经网络模型参数,所述神经网络模型参数包括评价网络参数、执行网络参数、目标评价网络参数和目标执行网络参数;
使用基于强化学习的量化剪枝策略学习方法得到神经网络模型最优的权重剪枝率、权重量化率、输入特征量化率;
使用基于蒸馏和量化熵正则后训练方法重新训练神经网络,得到优化后的神经网络模型参数;
利用最优的权重剪枝率、权重量化率、输入特征量化率对神经网络模型进行优化,得到最终的神经网络模型。
本发明采用了基于强化学习的量化剪枝策略学习方法和基于蒸馏和量化熵正则的后训练方法,通过使用强化学习算法不断从模型的实际性能指标中学习量化剪枝联合优化策略,得到神经网络模型最优的权重剪策略、权重量化策略、输入特征量化策略,最后使用基于蒸馏和量化熵正则的后训练方法提升深度卷积神经网络模型的性能,从而实现深度卷积神经网络的加速与压缩。
作为本实施例一种可能的实现方式,所述使用基于强化学习的量化剪枝策略学习方法得到神经网络模型最优的权重剪枝率、权重量化率、输入特征量化率,包括:
初始化随机噪声、模型观测状态和时间步计数;
基于DDPG算法的策略学习;
重复执行上述步骤处理,当所述评价网络参数和执行网络参数收敛时,跳出循环,得到最优的评价网络和执行网络。
作为本实施例一种可能的实现方式,所述基于DDPG算法的策略学习,包括:
使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码,将重新编码后的当前时间步的观测状态和噪声输入到执行网络中,得到当前时间步动作;
使用当前时间步动作的剪枝参数优化神经网络模型,训练神经网络模型一个轮次,使用当前时间步动作的量化参数优化神经网络模型,前向传播网络模型,获得动作奖励和新的观测状态;
通过最小化Q值损失函数来更新参数评价网络参数;
使用策略梯度更新执行网络参数;
更新目标评价网络参数、目标执行网络参数和时间步计数;
重复执行上述步骤处理,当深度卷积神经网络所有层都被遍历完成时,跳出循环。
作为本实施例一种可能的实现方式,所述使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码,包括:
当遍历至K阶段图第0层时,初始化K阶段图的子网编码,即每个网络层状态信息的编码;
将当前网络层上上层的K阶段图的子网编码和当前网络层上层K阶段图节点的隐藏状态输入到K阶段图的图卷积层当中,得到当前层节点的隐藏状态;
将当前层节点的隐藏状态输入到K阶段图的可学习池化层当中,得到上层的K阶段图的子网编码;
重复执行上述步骤处理,当K阶段图所有层都被遍历完成时,跳出循环,得到第K层的K阶段图的子网编码,将第K层的K阶段图的子网编码和当前时间步计数连接组成重新编码后的当前时间步的观测状态。
作为本实施例一种可能的实现方式,所述使用基于蒸馏和量化熵正则后训练方法重新训练神经网络,得到优化后的神经网络模型参数,包括:
使用执行网络的量化参数对神经网络模型进行量化;
计算包含蒸馏和量化熵正则两项的损失函数;
计算神经网络模型参数的梯度并对神经网络模型的参数值进行更新;
重复执行上述步骤处理,当所述神经网络模型的参数收敛时,跳出循环,得到优化后的神经网络模型参数。
作为本实施例一种可能的实现方式,所述待处理对象包括输电线路隐患分析数据或/和变电站缺陷检测数据。
作为本实施例一种可能的实现方式,所述深度卷积神经网络为包含多个卷积层的神经网络。
如图2所示,本发明实施例提供的一种深度卷积神经网络量化剪枝联合优化的系统,包括:
数据采集模块,用于获取待处理对象图像的数据集;
模型训练模块,用于利用所述数据集训练待优化神经网络模型,并初始化神经网络模型参数,所述神经网络模型参数包括评价网络参数、执行网络参数、目标评价网络参数和目标执行网络参数;
强化学习模块,用于使用基于强化学习的量化剪枝策略学习方法得到神经网络模型最优的权重剪枝率、权重量化率、输入特征量化率;
参数优化模块,用于使用基于蒸馏和量化熵正则后训练方法重新训练神经网络,得到优化后的神经网络模型参数;
模型优化模块,用于利用最优的权重剪枝率、权重量化率、输入特征量化率对神经网络模型进行优化,得到最终的神经网络模型。
作为本实施例一种可能的实现方式,所述强化学习模块,包括:
初始化模块,用于初始化随机噪声、模型观测状态和时间步计数;
策略学习模块,用于基于DDPG算法的策略学习;
第一重复执行模块,用于重复执行上述步骤处理,当所述评价网络参数和执行网络参数收敛时,跳出循环,得到最优的评价网络和执行网络。
作为本实施例一种可能的实现方式,所述策略学习模块,具体用于:
使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码,将重新编码后的当前时间步的观测状态和噪声输入到执行网络中,得到当前时间步动作;
使用当前时间步动作的剪枝参数优化神经网络模型,训练神经网络模型一个轮次,使用当前时间步动作的量化参数优化神经网络模型,前向传播网络模型,获得动作奖励和新的观测状态;
通过最小化Q值损失函数来更新参数评价网络参数;
使用策略梯度更新执行网络参数;
更新目标评价网络参数、目标执行网络参数和时间步计数;
重复执行上述步骤处理,当深度卷积神经网络所有层都被遍历完成时,跳出循环。
作为本实施例一种可能的实现方式,所述策略学习模块使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码的具体过程为:
当遍历至K阶段图第0层时,初始化K阶段图的子网编码,即每个网络层状态信息的编码;
将当前网络层上上层的K阶段图的子网编码和当前网络层上层K阶段图节点的隐藏状态输入到K阶段图的图卷积层当中,得到当前层节点的隐藏状态;
将当前层节点的隐藏状态输入到K阶段图的可学习池化层当中,得到上层的K阶段图的子网编码;
重复执行上述步骤处理,当K阶段图所有层都被遍历完成时,跳出循环,得到第K层的K阶段图的子网编码,将第K层的K阶段图的子网编码和当前时间步计数连接组成重新编码后的当前时间步的观测状态。
作为本实施例一种可能的实现方式,所述参数优化模块,具体用于:
使用执行网络的量化参数对神经网络模型进行量化;
计算包含蒸馏和量化熵正则两项的损失函数;
计算神经网络模型参数的梯度并对神经网络模型的参数值进行更新;
重复执行上述步骤处理,当所述神经网络模型的参数收敛时,跳出循环,得到优化后的神经网络模型参数。
作为本实施例一种可能的实现方式,所述待处理对象包括输电线路隐患分析数据或/和变电站缺陷检测数据。
作为本实施例一种可能的实现方式,所述深度卷积神经网络为包含多个卷积层的神经网络。
本发明实施例提供的一种上述任一所述深度卷积神经网络量化剪枝联合优化的方法在输电线路隐患分析场景或变电站缺陷检测场景实中的应用,用于对隐患进行检测。
作为本实施例一种可能的实现方式,所述的深度卷积神经网络量化剪枝联合优化的方法在输电线路隐患分析场景或变电站缺陷检测场景实中的应用过程为:
采集待检测数据作为数据集,所述数据集分为输电线路隐患分析数据集和变电站缺陷检测数据集,均在真实场景下采集并人工标注;输电线路隐患分析数据集和变电站缺陷检测数据集的训练集均为10000张,验证集均为1000张,测试集均为2000张;
设置优化器为SGD,设置优化器的动量为0.9,设置优化器的衰减率为0.0005;
状态空间参数设定,所述状态空间包括卷积层和全连接层,其中,所述卷积层包括:卷积核大小为1的卷积层、卷积核大小为3的卷积层、卷积核大小为5的卷积层、卷积核大小为7的卷积层、卷积核大小为3的深度可分离卷积层、卷积核大小为5的深度可分离卷积层、卷积核大小为7的深度可分离卷积层、卷积核大小为3的深度可分离空洞卷积层、卷积核大小为5的深度可分离空洞卷积层和卷积核大小为7的深度可分离空洞卷积层;
动作空间参数设定:量化上界为8,量化下界为2,剪枝上界为1,剪枝下界为0;
首先,按照以上参数设定初始化整个算法;
训练待优化神经网络模型M;
随机初始化评价网络和执行网络/>,初始化目标评价网络/>和目标执行网络/>,并另/>,/>,初始化回放缓存/>,其中,/>表示观测状态,/>表示动作,/>表示评价网络参数,/>表示执行网络参数,/>表示目标执行网络参数,/>表示目标执行网络参数;
b1.重复执行以下7个步骤,直至t等于网络层数L;
2.使用的剪枝参数优化神经网络模型M,在训练数据集和验证数据集上训练模型M一个轮次后,使用/>的量化参数优化神经网络模型M,量化公式如下,,,在测试数据集上前向传播网络模型M,获得动作奖励/>和新的观测状态/>,其中,/>表示t层的量化参数,/>表示截断参数,/>表示模型M的权重参数,/>表示KL散度,/>模型M在第t层的权重参数,/>表示截断参数,clamp表示阶段函数,round表示近似函数,/>表示指数滑动平均因子;
重复执行以下两个步骤直至模型M的参数收敛:
b2.使用来对模型M的参数进行更新,其中每一层的量化策略由执行网络得到,其中/>,/>,/>,其中,,/>,/>表示全精度教师网络,/>表示量化学生网络,/>表示全精度教师网络在,/>表示量化学生网络,/>表示神经网络权重的真实值,/>表示神经网络权重的量化值,/>表示输入特征的的真实值,/>表示输入特征的的量化值,/>代表量化箱,/>代表均值计算,/>代表方差计算。
本发明实施例提供的基于强化学习的深度卷积神经网络量化剪枝联合优化方法的结构图,该方法分为四个模块。如图3所示,模块M1是基于强化学习的量化剪枝策略学习模块,分为M1.1和M1.2两个子模块,模块M1.1是基于K阶段图的观测状态生成模块,模块M1.2是基于DDPG算法的策略学习模块;模块M2是基于蒸馏和量化熵正则的后训练模块。
基于强化学习的深度卷积神经网络量化剪枝策略学习过程可以分为基于K阶段图的观测状态生成和基于DDPG算法的策略学习两个步骤交叉迭代运行,其中基于K阶段图的观测状态生成是基于强化学习的深度卷积神经网络量化剪枝策略学习过程的核心,强化学习算法的观测状态是由K+1阶段网络拓扑结构的节点隐藏状态计算得到,如图4所示。
强化学习算法的动作空间包含深度卷积神经网络每一层的权重剪枝率、每一层的权重量化率、每一层的输入特征量化率,使用连续的动作空间来得到更好的深度卷积神经网络量化剪枝联合优化效果,其中负责学习量化策略的DDPG智能体由执行网络和评价网络组成,如图5所示。
下面结合图3至图5对本发明基于强化学习的深度卷积神经网络量化剪枝联合优化方法进行详细描述。
一、该方法整体流程如下:
输出:优化后的神经网络模型,神经网络模型每层权重的剪枝策略,神经网络模型每层权重的量化策略,神经网络模型每层特征的量化策略。
二、该方法步骤如下:
步骤1:训练待优化神经网络模型M;
步骤2:随机初始化评价网络和执行网络/>,初始化目标评价网络/>和目标执行网络/>,并另/>,/>,初始化回放缓存/>,其中,/>表示观测状态,/>表示动作,/>表示评价网络参数,/>表示执行网络参数,/>表示目标执行网络参数,表示目标执行网络参数;
步骤3.2:重复执行以下7个步骤,直至t等于网络层数L:
步骤3.2.2:使用的剪枝参数优化神经网络模型M,训练模型M一个轮次后,使用的量化参数优化神经网络模型M,量化公式如下,,,前向传播网络模型M,获得动作奖励/>和新的观测状态/>,其中,/>表示t层的量化参数,/>表示截断参数,/>表示模型M的权重参数,/>表示KL散度,/>模型M在第t层的权重参数,/>表示截断参数,clamp表示阶段函数,round表示近似函数,/>表示指数滑动平均因子;
步骤5:重复执行以下步骤直至模型M的参数收敛:
步骤5.2:使用来对模型M的参数进行更新,其中每一层的量化策略由执行网络得到,其中/>,/>,, 其中,,/>,/>表示全精度教师网络,/>表示量化学生网络,/>表示全精度教师网络在,/>表示量化学生网络,/>表示神经网络权重的真实值,/>表示神经网络权重的量化值,/>表示输入特征的的真实值,/>表示输入特征的的量化值,/>代表量化箱,/>代表均值计算,/>代表方差计算;/>
三、该方法详细描述:
强化学习算法的状态空间细节描述:
其中,K阶段图的GraphEncoder分为两个部分:
当第层为卷积层时,/>,每个参数分别代表网络层数索引,输入通道数,输出通道数,核大小,步长,输入特征尺寸,卷积层参数量,卷积类型索引,第/>-1时间步的动作;当第/>层为全连接层时,,每个参数分别代表网络层数索引,输入隐藏单元数,输出隐藏单元数,固定参数1,固定参数0,输入特征尺寸,全连接层参数量,固定参数0,第/>-1时间步的动作。
强化学习算法的动作空间细节描述:
表示权重参数第/>层的量化率,/>表示输入特征第/>层的量化率,取值范围为[0,1],取值范围为[0,1],/>表示权重参数第/>层的剪枝率,取值范围为[0,1)。实际权重参数第/>层的量化率/>和实际输入特征第/>层的量化率/>的计算公式如下:
强化学习算法的奖励函数细节描述:
基于蒸馏和量化熵正则的后训练方法细节描述:
蒸馏部分损失函数计算方法如下:
量化熵正则部分损失函数计算方法如下:
本发明实施例提供的一种计算机设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述装置运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述任意深度卷积神经网络量化剪枝联合优化的方法的步骤。
具体地,上述存储器和处理器能够为通用的存储器和处理器,这里不做具体限定,当处理器运行存储器存储的计算机程序时,能够执行上述深度卷积神经网络量化剪枝联合优化的方法。
本领域技术人员可以理解,所述计算机设备的结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。
在一些实施例中,该计算机设备还可以包括触摸屏可用于显示图形用户界面(例如,应用程序的启动界面)和接收用户针对图形用户界面的操作(例如,针对应用程序的启动操作)。具体的触摸屏可包括显示面板和触控面板。其中显示面板可以采用LCD(LiquidCrystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置。触控面板可收集用户在其上或附近的接触或者非接触操作,并生成预先设定的操作指令,例如,用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作。另外,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位、姿势,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成处理器能够处理的信息,再送给处理器,并能接收处理器发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板,也可以采用未来发展的任何技术实现触控面板。进一步的,触控面板可覆盖显示面板,用户可以根据显示面板显示的图形用户界面,在显示面板上覆盖的触控面板上或者附近进行操作,触控面板检测到在其上或附近的操作后,传送给处理器以确定用户输入,随后处理器响应于用户输入在显示面板上提供相应的视觉输出。另外,触控面板与显示面板可以作为两个独立的部件来实现也可以集成而来实现。
对应于上述应用程序的启动方法,本发明实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述任意深度卷积神经网络量化剪枝联合优化的方法的步骤。
本申请实施例所提供的应用程序的启动装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (17)
1.一种深度卷积神经网络量化剪枝联合优化的方法,其特征在于,包括以下步骤:
获取待处理对象图像的数据集;
利用所述数据集训练待优化神经网络模型,并初始化神经网络模型参数,所述神经网络模型参数包括评价网络参数、执行网络参数、目标评价网络参数和目标执行网络参数;
使用基于强化学习的量化剪枝策略学习方法得到神经网络模型最优的权重剪枝率、权重量化率、输入特征量化率;
使用基于蒸馏和量化熵正则后训练方法重新训练神经网络,得到优化后的神经网络模型参数;
利用最优的权重剪枝率、权重量化率、输入特征量化率对神经网络模型进行优化,得到最终的神经网络模型。
2.根据权利要求1所述的深度卷积神经网络量化剪枝联合优化的方法,其特征在于,所述使用基于强化学习的量化剪枝策略学习方法得到神经网络模型最优的权重剪枝率、权重量化率、输入特征量化率,包括:
初始化随机噪声、模型观测状态和时间步计数;
基于DDPG算法的策略学习;
重复执行上述步骤处理,当所述评价网络参数和执行网络参数收敛时,跳出循环,得到最优的评价网络和执行网络。
3.根据权利要求2所述的深度卷积神经网络量化剪枝联合优化的方法,其特征在于,所述基于DDPG算法的策略学习,包括:
使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码,将重新编码后的当前时间步的观测状态和噪声输入到执行网络中,得到当前时间步动作;
使用当前时间步动作的剪枝参数优化神经网络模型,训练神经网络模型一个轮次,使用当前时间步动作的量化参数优化神经网络模型,前向传播网络模型,获得动作奖励和新的观测状态;
通过最小化Q值损失函数来更新参数评价网络参数;
使用策略梯度更新执行网络参数;
更新目标评价网络参数、目标执行网络参数和时间步计数;
重复执行上述步骤处理,当深度卷积神经网络所有层都被遍历完成时,跳出循环。
4.根据权利要求3所述的深度卷积神经网络量化剪枝联合优化的方法,其特征在于,所述使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码,包括:
当遍历至K阶段图第0层时,初始化K阶段图的子网编码,即每个网络层状态信息的编码;
将当前网络层上上层的K阶段图的子网编码和当前网络层上层K阶段图节点的隐藏状态输入到K阶段图的图卷积层当中,得到当前层节点的隐藏状态;
将当前层节点的隐藏状态输入到K阶段图的可学习池化层当中,得到上层的K阶段图的子网编码;
重复执行上述步骤处理,当K阶段图所有层都被遍历完成时,跳出循环,得到第K层的K阶段图的子网编码,将第K层的K阶段图的子网编码和当前时间步计数连接组成重新编码后的当前时间步的观测状态。
5.根据权利要求1所述的深度卷积神经网络量化剪枝联合优化的方法,其特征在于,所述使用基于蒸馏和量化熵正则后训练方法重新训练神经网络,得到优化后的神经网络模型参数,包括:
使用执行网络的量化参数对神经网络模型进行量化;
计算包含蒸馏和量化熵正则两项的损失函数;
计算神经网络模型参数的梯度并对神经网络模型的参数值进行更新;
重复执行上述步骤处理,当所述神经网络模型的参数收敛时,跳出循环,得到优化后的神经网络模型参数。
6.根据权利要求1-5任意一项所述的深度卷积神经网络量化剪枝联合优化的方法,其特征在于,所述待处理对象包括输电线路隐患分析数据或/和变电站缺陷检测数据。
7.根据权利要求1-5任意一项所述的深度卷积神经网络量化剪枝联合优化的方法,其特征在于,所述深度卷积神经网络为包含多个卷积层的神经网络。
8.一种深度卷积神经网络量化剪枝联合优化的系统,其特征在于,包括:
数据采集模块,用于获取待处理对象图像的数据集;
模型训练模块,用于利用所述数据集训练待优化神经网络模型,并初始化神经网络模型参数,所述神经网络模型参数包括评价网络参数、执行网络参数、目标评价网络参数和目标执行网络参数;
强化学习模块,用于使用基于强化学习的量化剪枝策略学习方法得到神经网络模型最优的权重剪枝率、权重量化率、输入特征量化率;
参数优化模块,用于使用基于蒸馏和量化熵正则后训练方法重新训练神经网络,得到优化后的神经网络模型参数;
模型优化模块,用于利用最优的权重剪枝率、权重量化率、输入特征量化率对神经网络模型进行优化,得到最终的神经网络模型。
9.根据权利要求8所述的深度卷积神经网络量化剪枝联合优化的系统,其特征在于,所述强化学习模块,包括:
初始化模块,用于初始化随机噪声、模型观测状态和时间步计数;
策略学习模块,用于基于DDPG算法的策略学习;
第一重复执行模块,用于重复执行上述步骤处理,当所述评价网络参数和执行网络参数收敛时,跳出循环,得到最优的评价网络和执行网络。
10.根据权利要求9所述的深度卷积神经网络量化剪枝联合优化的系统,其特征在于,所述策略学习模块,具体用于:
使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码,将重新编码后的当前时间步的观测状态和噪声输入到执行网络中,得到当前时间步动作;
使用当前时间步动作的剪枝参数优化神经网络模型,训练神经网络模型一个轮次,使用当前时间步动作的量化参数优化神经网络模型,前向传播网络模型,获得动作奖励和新的观测状态;
通过最小化Q值损失函数来更新参数评价网络参数;
使用策略梯度更新执行网络参数;
更新目标评价网络参数、目标执行网络参数和时间步计数;
重复执行上述步骤处理,当深度卷积神经网络所有层都被遍历完成时,跳出循环。
11.根据权利要求10所述的深度卷积神经网络量化剪枝联合优化的系统,其特征在于,所述策略学习模块使用基于K阶段图的观测状态生成方法将当前时间步的观测状态进行重新编码的具体过程为:
当遍历至K阶段图第0层时,初始化K阶段图的子网编码,即每个网络层状态信息的编码;
将当前网络层上上层的K阶段图的子网编码和当前网络层上层K阶段图节点的隐藏状态输入到K阶段图的图卷积层当中,得到当前层节点的隐藏状态;
将当前层节点的隐藏状态输入到K阶段图的可学习池化层当中,得到上层的K阶段图的子网编码;
重复执行上述步骤处理,当K阶段图所有层都被遍历完成时,跳出循环,得到第K层的K阶段图的子网编码,将第K层的K阶段图的子网编码和当前时间步计数连接组成重新编码后的当前时间步的观测状态。
12.根据权利要求8所述的深度卷积神经网络量化剪枝联合优化的系统,其特征在于,所述参数优化模块,具体用于:
使用执行网络的量化参数对神经网络模型进行量化;
计算包含蒸馏和量化熵正则两项的损失函数;
计算神经网络模型参数的梯度并对神经网络模型的参数值进行更新;
重复执行上述步骤处理,当所述神经网络模型的参数收敛时,跳出循环,得到优化后的神经网络模型参数。
13.根据权利要求8-12任意一项所述的深度卷积神经网络量化剪枝联合优化的系统,其特征在于,所述待处理对象包括输电线路隐患分析数据或/和变电站缺陷检测数据。
14.根据权利要求8-12任意一项所述的深度卷积神经网络量化剪枝联合优化的系统,其特征在于,所述深度卷积神经网络为包含多个卷积层的神经网络。
15.一种深度卷积神经网络量化剪枝联合优化的方法在输电线路隐患分析场景或变电站缺陷检测场景实中的应用,用于对隐患进行检测,所述深度卷积神经网络量化剪枝联合优化的方法采用权利要求1~7任一项所述的一种深度卷积神经网络量化剪枝联合优化的方法。
16.一种计算机设备,其特征在于,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-7任一所述的深度卷积神经网络量化剪枝联合优化的方法的步骤。
17.一种存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1-7任一所述的深度卷积神经网络量化剪枝联合优化的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310422590.6A CN116167413A (zh) | 2023-04-20 | 2023-04-20 | 深度卷积神经网络量化剪枝联合优化的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310422590.6A CN116167413A (zh) | 2023-04-20 | 2023-04-20 | 深度卷积神经网络量化剪枝联合优化的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116167413A true CN116167413A (zh) | 2023-05-26 |
Family
ID=86414907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310422590.6A Pending CN116167413A (zh) | 2023-04-20 | 2023-04-20 | 深度卷积神经网络量化剪枝联合优化的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116167413A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912637A (zh) * | 2023-09-13 | 2023-10-20 | 国网山东省电力公司济南供电公司 | 输变电缺陷识别的方法、装置、计算机设备和存储介质 |
CN116992945A (zh) * | 2023-09-27 | 2023-11-03 | 之江实验室 | 一种基于贪心策略反向通道剪枝的图像处理方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635936A (zh) * | 2018-12-29 | 2019-04-16 | 杭州国芯科技股份有限公司 | 一种基于重训练的神经网络剪枝量化方法 |
CN111652366A (zh) * | 2020-05-09 | 2020-09-11 | 哈尔滨工业大学 | 一种基于通道剪枝和量化训练的联合神经网络模型压缩方法 |
-
2023
- 2023-04-20 CN CN202310422590.6A patent/CN116167413A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635936A (zh) * | 2018-12-29 | 2019-04-16 | 杭州国芯科技股份有限公司 | 一种基于重训练的神经网络剪枝量化方法 |
CN111652366A (zh) * | 2020-05-09 | 2020-09-11 | 哈尔滨工业大学 | 一种基于通道剪枝和量化训练的联合神经网络模型压缩方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912637A (zh) * | 2023-09-13 | 2023-10-20 | 国网山东省电力公司济南供电公司 | 输变电缺陷识别的方法、装置、计算机设备和存储介质 |
CN116912637B (zh) * | 2023-09-13 | 2023-12-22 | 国网山东省电力公司济南供电公司 | 输变电缺陷识别的方法、装置、计算机设备和存储介质 |
CN116992945A (zh) * | 2023-09-27 | 2023-11-03 | 之江实验室 | 一种基于贪心策略反向通道剪枝的图像处理方法及装置 |
CN116992945B (zh) * | 2023-09-27 | 2024-02-13 | 之江实验室 | 一种基于贪心策略反向通道剪枝的图像处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110582784B (zh) | 使用先行搜索来训练动作选择神经网络 | |
CN116167413A (zh) | 深度卷积神经网络量化剪枝联合优化的方法及系统 | |
CN112668128B (zh) | 联邦学习系统中终端设备节点的选择方法及装置 | |
CN110476172B (zh) | 用于卷积神经网络的神经架构搜索 | |
CN110503192A (zh) | 资源有效的神经架构 | |
EP3046053B1 (en) | Method and apparatus for training language model | |
CN108805259A (zh) | 神经网络模型训练方法、装置、存储介质及终端设备 | |
CN110647920A (zh) | 机器学习中的迁移学习方法及装置、设备与可读介质 | |
CN110175628A (zh) | 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法 | |
JP2020191080A (ja) | 増分学習のためのデータ認識方法 | |
JP7287397B2 (ja) | 情報処理方法、情報処理装置及び情報処理プログラム | |
CN113312925B (zh) | 一种基于自强化学习的遥感影像文本生成及优化方法 | |
CN114261400B (zh) | 一种自动驾驶决策方法、装置、设备和存储介质 | |
CN114358257A (zh) | 神经网络剪枝方法及装置、可读介质和电子设备 | |
CN111352419A (zh) | 基于时序差分更新经验回放缓存的路径规划方法及系统 | |
CN115798711A (zh) | 基于反事实对比学习的慢性肾病诊疗决策支持系统 | |
CN113792753A (zh) | 动态超图神经网络分类方法和系统 | |
CN115620147B (zh) | 深度卷积神经网络的可微架构搜索方法及装置 | |
CN112949433B (zh) | 视频分类模型的生成方法、装置、设备和存储介质 | |
CN116920411B (zh) | 一种数据处理方法及相关装置 | |
CN112052865A (zh) | 用于生成神经网络模型的方法和装置 | |
CN112819152B (zh) | 一种神经网络训练方法及装置 | |
US11074317B2 (en) | System and method for cached convolution calculation | |
CN116754231A (zh) | 一种基于RegNet-SES的快速诊断滚动轴承故障方法 | |
CN115345303A (zh) | 卷积神经网络权重调优方法、装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230526 |