CN115620147B - 深度卷积神经网络的可微架构搜索方法及装置 - Google Patents

深度卷积神经网络的可微架构搜索方法及装置 Download PDF

Info

Publication number
CN115620147B
CN115620147B CN202211502842.8A CN202211502842A CN115620147B CN 115620147 B CN115620147 B CN 115620147B CN 202211502842 A CN202211502842 A CN 202211502842A CN 115620147 B CN115620147 B CN 115620147B
Authority
CN
China
Prior art keywords
neural network
architecture
time domain
frequency domain
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211502842.8A
Other languages
English (en)
Other versions
CN115620147A (zh
Inventor
胥明凯
任志刚
李琮
杨杰
陈显达
王淑颖
王思源
杨宁
高飞
胡旭冉
刘昭
刘一男
胡庆浩
高翔
邵帅
郑义斌
张雨薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Power Supply Co of State Grid Shandong Electric Power Co Ltd
Original Assignee
Jinan Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Power Supply Co of State Grid Shandong Electric Power Co Ltd filed Critical Jinan Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority to CN202211502842.8A priority Critical patent/CN115620147B/zh
Publication of CN115620147A publication Critical patent/CN115620147A/zh
Application granted granted Critical
Publication of CN115620147B publication Critical patent/CN115620147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

本发明公开了一种深度卷积神经网络的可微架构搜索方法及装置,应用于输电线路隐患分析场景或变电站缺陷检测场景,属于神经网络架构搜索技术领域,方法包括以下步骤:采集待检测数据,所述待检测数据包括输电线路隐患分析数据集或变电站缺陷检测数据;计算神经网络权重和神经网络架构参数,得到神经网络的最优架构;采用与任务无关的模型中间层特征的最大编码率缩减作为网络架构性能标准进行搜索;采用与任务相关的模型中间层时域特征和频域特征的最大编码率缩减作为网络架构性能标准进行搜索。本发明能够实现深度卷积神经网络的加速与压缩,解决输电线路隐患分析场景和变电站缺陷检测场景中是隐患问题。

Description

深度卷积神经网络的可微架构搜索方法及装置
技术领域
本发明涉及一种面向输电线路隐患分析场景和变电站缺陷检测场景的深度卷积神经网络的可微架构搜索方法及装置,属于神经网络架构搜索技术领域。
背景技术
近几年来,深度卷积神经网络被广泛地应用在了在计算机视觉、自然语言处理、语音处理、强化学习等众多热门应用领域,解决了很多计算机认知和推理上的难题,并推动了医疗健康、互联网、金融、交通等行业的发展。
随着深度卷积神经网络向着多模态、大模型、大数据的趋势日益明显,网络层数和模型参数量也都飞速增长,这就对训练神经网络所需的算力和对神经网络模型的存储能力有着更高的要求,较大的卷积神经网络模型的训练与测试只能在高性能的计算集群上进行。另一方面,随着移动互联网技术的普及,人们对于在移动互联设备上运行深度卷积神经网络的测试过程的需求日益增长。但是目前,无论是手机还是平板电脑,其运算能力和存储能力都非常有限。这就向我们提出了两个挑战:如何降低卷积神经网络的测试用时,以及如何压缩网络模型的存储开销。
针对卷积神经网络的加速与压缩问题,已有一些有效的算法被提出,可微网络架构搜索是当前的热门研究方向之一,可以利用较少的计算资源来搜索性能比较好的网络架构。然而,这类方法一般只使用模型在验证集上的最终性能作为网络架构性能的预测标准,在对神经网络权重和神经网络架构参数联合优化的时候,很容易落在一个局部最优值上面,所以亟待研究更加合理的预测标准。
发明内容
为了解决上述问题,本发明提出了一种深度卷积神经网络的可微架构搜索方法及装置,能够实现深度卷积神经网络的加速与压缩,解决输电线路隐患分析场景和变电站缺陷检测场景中隐患问题。
本发明解决其技术问题采取的技术方案是:
第一方面,本发明实施例提供的一种深度卷积神经网络的可微架构搜索方法,应用于输电线路隐患分析场景或变电站缺陷检测场景,所述深度卷积神经网络为包含多个卷积层的神经网络,所述的方法包括以下步骤:
采集待检测数据,所述待检测数据包括输电线路隐患分析数据集或变电站缺陷检测数据集;
计算神经网络权重和神经网络架构参数,得到神经网络的最优架构;
采用与任务无关的模型中间层特征的最大编码率缩减作为网络架构性能标准进行搜索;
采用与任务相关的模型中间层时域特征的最大编码率缩减作为网络架构性能标准进行搜索;
采用与任务相关的模型中间层频域特征的最大编码率缩减作为网络架构性能标准进行搜索。
作为本实施例一种可能的实现方式,所述计算神经网络权重和神经网络架构参数,得到神经网络的最优架构,包括:
在神经网络权重被固定的前提下,计算模型在验证集上的最终性能、任务无关的模型中间层特征的最大编码率缩减、任务相关的模型中间层时域特征的最大编码率缩减、任务相关的模型中间层频域特征的最大编码率缩减,并将这4种损失函数相加作为对于神经网络架构参数的优化目标函数,进而使用梯度下降算法来更新神经网络架构参数;
在神经网络架构参数被固定的前提下,计算模型在训练集上的最终性能作为对于神经网络架构参数的优化目标函数,进而使用梯度下降算法来更新神经网络权重;
重复执行上述步骤,当神经网络权重和神经网络架构参数收敛时,跳出循环,并根据每层神经网络架构参数的最大值得到神经网络的最优架构。
作为本实施例一种可能的实现方式,所述采用与任务无关的模型中间层特征的最大编码率缩减作为网络架构性能标准进行搜索,包括:
根据每一层特征图的最大编码率缩减计算公式,利用神经网络每一层的特征图和特征向量所属类别的分类矩阵得到每一层特征图的最大编码率缩减;
重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
将所有层特征图的最大编码率缩减相加并取相反数,作为对于神经网络架构参数的优化目标函数;
利用优化目标函数进行可微架构搜索。
作为本实施例一种可能的实现方式,所述采用与任务相关的模型中间层时域特征的最大编码率缩减作为网络架构性能标准进行搜索,包括:
使用神经网络权重和神经网络架构参数进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图一;
使用在训练集上得到的任务相关的时域空间的最大编码率缩减扩张和压缩算子进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图二;
计算当前层时域特征图一与当前层时域特征图二之间的相似度;
重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
将神经网络所有层的时域特征图之间的相似度相加,将此作为对于神经网络架构参数的优化目标函数;
利用优化目标函数进行可微架构搜索。
作为本实施例一种可能的实现方式,所述任务相关的时域空间的最大编码率缩减扩张和压缩算子的计算过程,包括:
在训练集数据上,将当前层时域特征图和特征图的分类对角矩阵带入到时域空间的最大编码率缩减扩张和压缩算子的计算公式中,得到当前层的时域空间的减扩张和压缩算子;
利用在每一个类别上的压缩算子与时域特征图中的每一个特征向量的乘积得到时域特征图中每一个特征向量在所有类别上的概率分布;
将扩张和压缩算子作用在当前层时域特征图上,得到下一层时域特征图;
重复执行上述步骤,直至所述神经网络所有层都被遍历为止。
作为本实施例一种可能的实现方式,所述采用与任务相关的模型中间层频域特征的最大编码率缩减作为网络架构性能标准进行搜索,包括:
使用神经网络权重和神经网络架构参数进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图,然后对当前层时域特征图做离散傅里叶变换,得到当前层频域特征图一;
使用在训练集上得到的任务相关的频域空间的最大编码率缩减扩张和压缩算子进行神经网络模型的前向传播,得到在验证集数据上当前层频域特征图二;
计算当前层频域特征图一和当前层频域特征图二之间的相似度;
重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
将神经网络所有层的频域特征图之间的相似度相加,将此作为对于神经网络架构参数的优化目标函数;
利用优化目标函数进行可微架构搜索。
作为本实施例一种可能的实现方式,所述任务相关的频域空间的最大编码率缩减扩张和压缩算子的计算过程,包括:
在训练集数据上,将当前层频域特征图和特征图的分类对角矩阵带入到频域空间的最大编码率缩减扩张和压缩算子的计算公式中,得到当前层的频域空间的减扩张和压缩算子;
利用在每一个类别上的压缩算子与频域特征图中的每一个特征向量的乘积得到频域特征图中每一个特征向量在所有类别上的概率分布;
将扩张和压缩算子作用在当前层频域特征图上,得到下一层频域特征图;
重复执行上述步骤,直至所述神经网络所有层都被遍历为止。
第二方面,本发明实施例提供的一种深度卷积神经网络的可微架构搜索装置,应用于输电线路隐患分析场景或变电站缺陷检测场景,所述深度卷积神经网络为包含多个卷积层的神经网络,所述装置包括:
数据采集模块,用于采集待检测数据,所述待检测数据包括输电线路隐患分析数据集或变电站缺陷检测数据集;
最优架构计算模块,用于计算神经网络权重和神经网络架构参数,得到神经网络的最优架构;
第一标准搜索模块,用于采用与任务无关的模型中间层特征的最大编码率缩减作为网络架构性能标准进行搜索;
第二标准搜索模块,用于采用与任务相关的模型中间层时域特征的最大编码率缩减作为网络架构性能标准进行搜索;
第三标准搜索模块,用于采用与任务相关的模型中间层频域特征的最大编码率缩减作为网络架构性能标准进行搜索。
作为本实施例一种可能的实现方式,所述最优架构计算模块包括:
架构参数更新模块,用于在神经网络权重被固定的前提下,计算模型在验证集上的最终性能、任务无关的模型中间层特征的最大编码率缩减、任务相关的模型中间层时域特征的最大编码率缩减、任务相关的模型中间层频域特征的最大编码率缩减,并将这4种损失函数相加作为对于神经网络架构参数的优化目标函数,进而使用梯度下降算法来更新神经网络架构参数;
权重更新模块,用于在神经网络架构参数被固定的前提下,计算模型在训练集上的最终性能作为对于神经网络架构参数的优化目标函数,进而使用梯度下降算法来更新神经网络权重;
最优架构确定模块,用于重复执行上述步骤,当神经网络权重和神经网络架构参数收敛时,跳出循环,并根据每层神经网络架构参数的最大值得到神经网络的最优架构。
作为本实施例一种可能的实现方式,所述第一标准搜索模块包括:
编码率缩减计算模块,用于根据每一层特征图的最大编码率缩减计算公式,利用神经网络每一层的特征图和特征向量所属类别的分类矩阵得到每一层特征图的最大编码率缩减;
第一遍历模块,用于重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
第一目标函数模块,用于将所有层特征图的最大编码率缩减相加并取相反数,作为对于神经网络架构参数的优化目标函数;
第一可微架构搜索模块,用于利用优化目标函数进行可微架构搜索。
作为本实施例一种可能的实现方式,所述第二标准搜索模块包括:
时域特征图一计算模块,用于使用神经网络权重和神经网络架构参数进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图一;
时域特征图二计算模块,用于模块,用于使用在训练集上得到的任务相关的时域空间的最大编码率缩减扩张和压缩算子进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图二;
时域特征相似度计算模块,用于计算当前层时域特征图一与当前层时域特征图二之间的相似度;
第二遍历模块,用于重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
第二目标函数模块,用于将神经网络所有层的时域特征图之间的相似度相加,将此作为对于神经网络架构参数的优化目标函数;
第二可微架构搜索模块,用于利用优化目标函数进行可微架构搜索。
作为本实施例一种可能的实现方式,所述时域特征图二计算模块计算任务相关的时域空间的最大编码率缩减扩张和压缩算子的具体过程为:
在训练集数据上,将当前层时域特征图和特征图的分类对角矩阵带入到时域空间的最大编码率缩减扩张和压缩算子的计算公式中,得到当前层的时域空间的减扩张和压缩算子;
利用在每一个类别上的压缩算子与时域特征图中的每一个特征向量的乘积得到时域特征图中每一个特征向量在所有类别上的概率分布;
将扩张和压缩算子作用在当前层时域特征图上,得到下一层时域特征图;
重复执行上述步骤,直至所述神经网络所有层都被遍历为止。
作为本实施例一种可能的实现方式,所述第三标准搜索模块包括:
频域特征图一计算模块,用于使用神经网络权重和神经网络架构参数进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图,然后对当前层时域特征图做离散傅里叶变换,得到当前层频域特征图一;
频域特征图二计算模块,用于使用在训练集上得到的任务相关的频域空间的最大编码率缩减扩张和压缩算子进行神经网络模型的前向传播,得到在验证集数据上当前层频域特征图二;
频域特征相似度计算模块,用于计算当前层频域特征图一和当前层频域特征图二之间的相似度;
第三遍历模块,用于重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
第三目标函数模块,用于将神经网络所有层的频域特征图之间的相似度相加,将此作为对于神经网络架构参数的优化目标函数;
第三可微架构搜索模块,用于利用优化目标函数进行可微架构搜索。
作为本实施例一种可能的实现方式,所述频域特征图二计算模块计算任务相关的频域空间的最大编码率缩减扩张和压缩算子的具体过程为:
在训练集数据上,将当前层频域特征图和特征图的分类对角矩阵带入到频域空间的最大编码率缩减扩张和压缩算子的计算公式中,得到当前层的频域空间的减扩张和压缩算子;
利用在每一个类别上的压缩算子与频域特征图中的每一个特征向量的乘积得到频域特征图中每一个特征向量在所有类别上的概率分布;
将扩张和压缩算子作用在当前层频域特征图上,得到下一层频域特征图;
重复执行上述步骤,直至所述神经网络所有层都被遍历为止。
第三方面,本发明实施例提供的一种深度卷积神经网络的可微架构搜索方法应用,应用了如上述任意一种深度卷积神经网络的可微架构搜索方法,应用于输电线路隐患分析场景或变电站缺陷检测场景实行对隐患检测任务:
采集待检测数据作为数据集,所述数据集为输电线路隐患分析数据集或变电站缺陷检测数据集,均在真实场景下采集并标注;所述的输电线路隐患分析数据集和变电站缺陷检测数据集的训练集为10000张,验证集均为1000张,测试集均为2000张;
初始化每个类别的分类对角矩阵:将每个类别的分类对角矩阵设置为全零阵,找到分类对角矩阵所属类别的特征向量的行位置,将分类对角矩阵所对应行位置的对角元素设置为1;设置λ为500;设置ε为0.3;设置η为0.5,设置网络层数为100,设置mini-batch为1000,设置优化器为SGD,设置优化器的动量为0.9,设置优化器的衰减率为0.0003;
设置搜索空间:所述搜索空间包括卷积层、池化层、全连接层、残差连接和直接连接;
初始化网络结构变量α为全零矩阵;
参数设定:最大卷积核尺寸为7,最大全连接神经元数量为1024,全连接输出层神经元数量20,卷积层均为ReLU-Conv-Conv-BN的组合形式,本方法所提出的四个损失函数所对应的权重分别为0.1,0.1,0.4,0.4;
首先,按照以上网络搜索空间设定及参数设置构建可微深度卷积神经网络,并在训练数据集和验证数据集上进行前向传播,分别计算如下四种损失函数值;
第一种损失函数是将模型在验证集上的最终性能作为网络架构性能的预测标准,公式如下:
第二种损失函数是将任务无关的模型中间层特征的最大编码率缩减作为网络架构性能的预测标准,公式如下:
第三种损失函数是将任务相关的模型中间层时域特征的最大编码率缩减作为网络架构性能的预测标准,公式如下:
第四种损失函数是将任务相关的模型中间层频域特征的最大编码率缩减作为网络架构性能的预测标准,公式如下:
将上述四种损失函数进行加权求和,计算得到总体损失函数值loss,公式如下:
根据总体损失函数loss,计算可微深度卷积神经网络反向传播后各参数的梯度,根据梯度和步长设定来更新α和ω;
不断在训练数据集和验证数据集上训练网络,直到α和ω收敛为止;
使用上式得到最佳的候选操作α;
按照网络结构变量α、网络权重ω、网络搜索空间设定及参数设置,构建面向输电线路隐患分析场景的深度卷积神经网络模型或面向变电站缺陷检场景的深度卷积神经网络模型;
将深度卷积神经网络模型重新在训练集和验证集上面进行训练来微调参数,得到最终的面向输电线路隐患分析场景的深度卷积神经网络模型或面向变电站缺陷检场景的深度卷积神经网络模型;
实时采集输电线路隐患分析数据,利用最终的面向输电线路隐患分析场景的深度卷积神经网络模型或面向变电站缺陷检场景的深度卷积神经网络模型进行可微架构搜索,进行输电线路隐患判断。
第四方面,本发明实施例提供的一种计算机设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述任意深度卷积神经网络的可微架构搜索方法的步骤。
第五方面,本发明实施例提供的一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述任意深度卷积神经网络的可微架构搜索方法的步骤。
本发明实施例的技术方案可以具有的有益效果如下:
本发明通过使用任务无关的模型中间层特征的最大编码率缩减、任务相关的模型中间层时域特征的最大编码率缩减、任务相关的模型中间层频域特征的最大编码率缩减作为网络架构性能的预测标准,在模型网络层数被限制为较小的数值时,通过搜索不同的网络架构,得到与大模型性能接近的小模型,从而实现深度卷积神经网络的加速与压缩。
附图说明
图1是根据一示例性实施例示出的一种深度卷积神经网络的可微架构搜索方法的流程图;
图2是根据一示例性实施例示出的一种基于最大化编码率缩减的深度卷积神经网络的可微架构搜索框架示意图;
图3是根据一示例性实施例示出的一种基于最大编码率缩减的神经网络扩张和压缩算子工作方式的示意图;
图4是根据一示例性实施例示出的一种深度卷积神经网络的可微架构搜索装置的示意图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明:
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明实施例提供的一种深度卷积神经网络的可微架构搜索方法,应用于输电线路隐患分析场景或变电站缺陷检测场景,所述深度卷积神经网络为包含多个卷积层的神经网络,所述的方法包括以下步骤:
采集待检测数据,所述待检测数据包括输电线路隐患分析数据集或变电站缺陷检测数据集;
计算神经网络权重和神经网络架构参数,得到神经网络的最优架构;
采用与任务无关的模型中间层特征的最大编码率缩减作为网络架构性能标准进行搜索;
采用与任务相关的模型中间层时域特征的最大编码率缩减作为网络架构性能标准进行搜索;
采用与任务相关的模型中间层频域特征的最大编码率缩减作为网络架构性能标准进行搜索。
作为本实施例一种可能的实现方式,所述计算神经网络权重和神经网络架构参数,得到神经网络的最优架构,包括:
在神经网络权重被固定的前提下,计算模型在验证集上的最终性能、任务无关的模型中间层特征的最大编码率缩减、任务相关的模型中间层时域特征的最大编码率缩减、任务相关的模型中间层频域特征的最大编码率缩减,并将这4种损失函数按照一定的比例相加作为对于神经网络架构参数的优化目标函数,进而使用梯度下降算法来更新神经网络架构参数;
在神经网络架构参数被固定的前提下,计算模型在训练集上的最终性能作为对于神经网络架构参数的优化目标函数,进而使用梯度下降算法来更新神经网络权重;
重复执行上述步骤,当神经网络权重和神经网络架构参数收敛时,跳出循环,并根据每层神经网络架构参数的最大值得到神经网络的最优架构。
作为本实施例一种可能的实现方式,所述采用与任务无关的模型中间层特征的最大编码率缩减作为网络架构性能标准进行搜索,包括:
根据每一层特征图的最大编码率缩减计算公式,利用神经网络每一层的特征图和特征向量所属类别的分类矩阵得到每一层特征图的最大编码率缩减;
重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
将所有层特征图的最大编码率缩减相加并取相反数,作为对于神经网络架构参数的优化目标函数;
利用优化目标函数进行可微架构搜索。
作为本实施例一种可能的实现方式,所述采用与任务相关的模型中间层时域特征的最大编码率缩减作为网络架构性能标准进行搜索,包括:
使用神经网络权重和神经网络架构参数进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图一;
使用在训练集上得到的任务相关的时域空间的最大编码率缩减扩张和压缩算子进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图二;
计算当前层时域特征图一与当前层时域特征图二之间的相似度;
重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
将神经网络所有层的时域特征图之间的相似度相加,将此作为对于神经网络架构参数的优化目标函数;
利用优化目标函数进行可微架构搜索。
作为本实施例一种可能的实现方式,所述任务相关的时域空间的最大编码率缩减扩张和压缩算子的计算过程,包括:
在训练集数据上,将当前层时域特征图和特征图的分类对角矩阵带入到时域空间的最大编码率缩减扩张和压缩算子的计算公式中,得到当前层的时域空间的减扩张和压缩算子;
利用在每一个类别上的压缩算子与时域特征图中的每一个特征向量的乘积得到时域特征图中每一个特征向量在所有类别上的概率分布;
将扩张和压缩算子作用在当前层时域特征图上,得到下一层时域特征图;
重复执行上述步骤,直至所述神经网络所有层都被遍历为止。
作为本实施例一种可能的实现方式,所述采用与任务相关的模型中间层频域特征的最大编码率缩减作为网络架构性能标准进行搜索,包括:
使用神经网络权重和神经网络架构参数进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图,然后对当前层时域特征图做离散傅里叶变换,得到当前层频域特征图一;
使用在训练集上得到的任务相关的频域空间的最大编码率缩减扩张和压缩算子进行神经网络模型的前向传播,得到在验证集数据上当前层频域特征图二;
计算当前层频域特征图一和当前层频域特征图二之间的相似度;
重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
将神经网络所有层的频域特征图之间的相似度相加,将此作为对于神经网络架构参数的优化目标函数;
利用优化目标函数进行可微架构搜索。
作为本实施例一种可能的实现方式,所述任务相关的频域空间的最大编码率缩减扩张和压缩算子的计算过程,包括:
在训练集数据上,将当前层频域特征图和特征图的分类对角矩阵带入到频域空间的最大编码率缩减扩张和压缩算子的计算公式中,得到当前层的频域空间的减扩张和压缩算子;
利用在每一个类别上的压缩算子与频域特征图中的每一个特征向量的乘积得到频域特征图中每一个特征向量在所有类别上的概率分布;
将扩张和压缩算子作用在当前层频域特征图上,得到下一层频域特征图;
重复执行上述步骤,直至所述神经网络所有层都被遍历为止。
如图2所示,基于最大化编码率缩减的深度卷积神经网络的可微架构搜索框架包括:
M1,使用模型在验证集上的最终性能作为网络架构性能的预测标准;
M2,使用任务无关的模型中间层特征的最大编码率缩减作为网络架构性能的预测标准;
M3,使用任务相关的模型中间层时域特征的最大编码率缩减作为网络架构性能的预测标准;
M4,使用任务相关的模型中间层频域特征的最大编码率缩减作为网络架构性能的预测标准。
深度卷积神经网络的可微架构搜索过程可以分为对网络权重优化和神经网络架构参数优化两个步骤交叉迭代运行,其中对神经网络架构参数的优化是深度卷积神经网络的可微架构搜索过程的核心,网络的每一层特征变换都被看作是搜索空间内的候选算子按神经网络架构参数所设定的概率的叠加。
如图3所示,基于最大编码率缩减的神经网络扩张和压缩算子组合在一起时可以分别表示对神经网络每一层的特征的扩张和压缩作用,当在训练集数据上不断学习到更好的扩张和压缩算子时,神经网络每一层特征图的编码率缩减也就不断加大。
其中表示第层的特征图,,N表示神经网络的层数,是所有候选操作的集合,节点对( a,b)内的操作混合权重被参数化为,该维度为,
重复执行以下过程直至收敛:
步骤1∶使用公式更新
步骤2:使用公更新
收敛后,使用如下公式得到最佳的候选操作。
符号说明:
本发明的损失函数由四个部分组成:
第一部分是使用模型在验证集上的最终性能作为网络架构性能的预测标准,公式定义如下:
表示权重为,网络结构为的模型在训练集上的损失函数,为学习率,为模型在训练集上的损失函数。
第二部分是使用任务无关的模型中间层特征的最大编码率缩减作为网络架构性能的预测标准,公式定义如下:
其中代表模型第层的特征图, 表示分类任务的个类别, 代表编码的精度, m和n分别表示特征图Z包含m个特征向量,每个特征向量的维度为n,通道数为 C,即,是用来表示对Z分类的对角矩阵,并满足
第三部分是使用任务相关的模型中间层时域特征的最大编码率缩减作为网络架构性能的预测标准,公式定义如下:
其中为相似度函数,代表特征的标准化, 表示第层的第个特征向量,是通过在训练集数据上的计算得到的,分别表示时域空间内的扩张和压缩算子,表示特征向量被分类为第 j类的概率。的计算方法如下:
输入: ,,学习率。初始化参数设置,
设置
时,依次执行以下两个步骤:
步骤1:计算 ,
步骤2:当时,分别计算
输出:,学习到的算子
第四部分是使用任务相关的模型中间层频域特征的最大编码率缩减作为网络架构性能的预测标准,公式定义如下:
其中为相似度函数,代表特征的标准化,表示第层的第个在频率 处的特征向量,是通过在训练集数据上的计算得到的,分别表示频域空间内的扩张和压缩算子,表示第层的第个特征向量被分类为第类的概率。
的计算方法如下:
输入:,,学习率;
初始化参数设置
设置
时,依次执行以下三个步骤:
步骤1:计算
时,按照如下两个公式分别计算:
步骤2:当时,依次计算
时,计算
从而得到
计算
时,计算
步骤3 :计算
输出:,学习到的算子
其中的计算复杂度为要小于 ,所以当算力有限的时候,可以只使用作为作为网络架构性能的预测标准。如果算力充足的话,也可以将,,加入到步骤2的当中。
第2种网络架构性能预测标准是对任务无关的,不需要利用训练集数据来得到特定任务的最大编码率缩减的扩张算子和压缩算子,只需要将每一层特征的最大化编码率缩减作为优化目标。而第3种和第4种网络架构性能预测标准是对任务相关的,需要分别利用训练集数据来得到特定任务的时域内和频域内的扩张压缩算子。
如图4所示,本发明实施例提供的一种深度卷积神经网络的可微架构搜索装置,应用于输电线路隐患分析场景或变电站缺陷检测场景,所述深度卷积神经网络为包含多个卷积层的神经网络,所述装置包括:
数据采集模块,用于采集待检测数据,所述待检测数据包括输电线路隐患分析数据集或变电站缺陷检测数据集;
最优架构计算模块,用于计算神经网络权重和神经网络架构参数,得到神经网络的最优架构;
第一标准搜索模块,用于采用与任务无关的模型中间层特征的最大编码率缩减作为网络架构性能标准进行搜索;
第二标准搜索模块,用于采用与任务相关的模型中间层时域特征的最大编码率缩减作为网络架构性能标准进行搜索;
第三标准搜索模块,用于采用与任务相关的模型中间层频域特征的最大编码率缩减作为网络架构性能标准进行搜索。
作为本实施例一种可能的实现方式,所述最优架构计算模块包括:
架构参数更新模块,用于在神经网络权重被固定的前提下,计算模型在验证集上的最终性能、任务无关的模型中间层特征的最大编码率缩减、任务相关的模型中间层时域特征的最大编码率缩减、任务相关的模型中间层频域特征的最大编码率缩减,并将这4种损失函数按照一定的比例相加作为对于神经网络架构参数的优化目标函数,进而使用梯度下降算法来更新神经网络架构参数;
权重更新模块,用于在神经网络架构参数被固定的前提下,计算模型在训练集上的最终性能作为对于神经网络架构参数的优化目标函数,进而使用梯度下降算法来更新神经网络权重;
最优架构确定模块,用于重复执行上述步骤,当神经网络权重和神经网络架构参数收敛时,跳出循环,并根据每层神经网络架构参数的最大值得到神经网络的最优架构。
作为本实施例一种可能的实现方式,所述第一标准搜索模块包括:
编码率缩减计算模块,用于根据每一层特征图的最大编码率缩减计算公式,利用神经网络每一层的特征图和特征向量所属类别的分类矩阵得到每一层特征图的最大编码率缩减;
第一遍历模块,用于重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
第一目标函数模块,用于将所有层特征图的最大编码率缩减相加并取相反数,作为对于神经网络架构参数的优化目标函数;
第一可微架构搜索模块,用于利用优化目标函数进行可微架构搜索。
作为本实施例一种可能的实现方式,所述第二标准搜索模块包括:
时域特征图一计算模块,用于使用神经网络权重和神经网络架构参数进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图一;
时域特征图二计算模块,用于模块,用于使用在训练集上得到的任务相关的时域空间的最大编码率缩减扩张和压缩算子进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图二;
时域特征相似度计算模块,用于计算当前层时域特征图一与当前层时域特征图二之间的相似度;
第二遍历模块,用于重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
第二目标函数模块,用于将神经网络所有层的时域特征图之间的相似度相加,将此作为对于神经网络架构参数的优化目标函数;
第二可微架构搜索模块,用于利用优化目标函数进行可微架构搜索。
作为本实施例一种可能的实现方式,所述时域特征图二计算模块计算任务相关的时域空间的最大编码率缩减扩张和压缩算子的具体过程为:
在训练集数据上,将当前层时域特征图和特征图的分类对角矩阵带入到时域空间的最大编码率缩减扩张和压缩算子的计算公式中,得到当前层的时域空间的减扩张和压缩算子;
利用在每一个类别上的压缩算子与时域特征图中的每一个特征向量的乘积得到时域特征图中每一个特征向量在所有类别上的概率分布;
将扩张和压缩算子作用在当前层时域特征图上,得到下一层时域特征图;
重复执行上述步骤,直至所述神经网络所有层都被遍历为止。
作为本实施例一种可能的实现方式,所述第三标准搜索模块包括:
频域特征图一计算模块,用于使用神经网络权重和神经网络架构参数进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图,然后对当前层时域特征图做离散傅里叶变换,得到当前层频域特征图一;
频域特征图二计算模块,用于使用在训练集上得到的任务相关的频域空间的最大编码率缩减扩张和压缩算子进行神经网络模型的前向传播,得到在验证集数据上当前层频域特征图二;
频域特征相似度计算模块,用于计算当前层频域特征图一和当前层频域特征图二之间的相似度;
第三遍历模块,用于重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
第三目标函数模块,用于将神经网络所有层的频域特征图之间的相似度相加,将此作为对于神经网络架构参数的优化目标函数;
第三可微架构搜索模块,用于利用优化目标函数进行可微架构搜索。
作为本实施例一种可能的实现方式,所述频域特征图二计算模块计算任务相关的频域空间的最大编码率缩减扩张和压缩算子的具体过程为:
在训练集数据上,将当前层频域特征图和特征图的分类对角矩阵带入到频域空间的最大编码率缩减扩张和压缩算子的计算公式中,得到当前层的频域空间的减扩张和压缩算子;
利用在每一个类别上的压缩算子与频域特征图中的每一个特征向量的乘积得到频域特征图中每一个特征向量在所有类别上的概率分布;
将扩张和压缩算子作用在当前层频域特征图上,得到下一层频域特征图;
重复执行上述步骤,直至所述神经网络所有层都被遍历为止。
本发明实施例提供的一种深度卷积神经网络的可微架构搜索方法应用,应用了如上述任意一种深度卷积神经网络的可微架构搜索方法,应用于输电线路隐患分析场景或变电站缺陷检测场景实行对隐患检测任务:
采集待检测数据作为数据集,所述数据集为输电线路隐患分析数据集或变电站缺陷检测数据集,均在真实场景下采集并标注;所述的输电线路隐患分析数据集和变电站缺陷检测数据集的训练集为10000张,验证集均为1000张,测试集均为2000张;
初始化每个类别的分类对角矩阵:将每个类别的分类对角矩阵设置为全零阵,找到分类对角矩阵所属类别的特征向量的行位置,将分类对角矩阵所对应行位置的对角元素设置为1;设置λ为500;设置ε为0.3;设置η为0.5,设置网络层数为100,设置mini-batch为1000,设置优化器为SGD,设置优化器的动量为0.9,设置优化器的衰减率为0.0003;
设置搜索空间:所述搜索空间包括卷积层、池化层、全连接层、残差连接和直接连接;其中,卷积层:{‘conv_1x1’,‘conv_3x3’,‘conv_5x5’,‘conv_7x7’,‘conv_separable_3x3’,‘conv_separable_5x5’,‘conv_separable_7x7’,‘conv_separable_dilated_3x3’,‘conv_separable_dilated_5x5’,‘conv_separable_dilated_7x7’},池化层:{‘max_pool_3x3’,‘max_pool_5x5’,‘avg_pool_3x3’,‘avg_pool_5x5’},全连接层:{‘linear’},残差连接:{‘identity’},直接连接{‘zero’};
初始化网络结构变量α为全零矩阵;
参数设定:最大卷积核尺寸为7,最大全连接神经元数量为1024,全连接输出层神经元数量20,卷积层均为ReLU-Conv-Conv-BN的组合形式,本方法所提出的四个损失函数所对应的权重分别为0.1,0.1,0.4,0.4;
首先,按照以上网络搜索空间设定及参数设置构建可微深度卷积神经网络,并在训练数据集和验证数据集上进行前向传播,分别计算如下四种损失函数值;
第一种损失函数是将模型在验证集上的最终性能作为网络架构性能的预测标准,公式如下:
第二种损失函数是将任务无关的模型中间层特征的最大编码率缩减作为网络架构性能的预测标准,公式如下:
第三种损失函数是将任务相关的模型中间层时域特征的最大编码率缩减作为网络架构性能的预测标准,公式如下:
第四种损失函数是将任务相关的模型中间层频域特征的最大编码率缩减作为网络架构性能的预测标准,公式如下:
将上述四种损失函数进行加权求和,计算得到总体损失函数值loss,公式如下:
根据总体损失函数loss,计算可微深度卷积神经网络反向传播后各参数的梯度,根据梯度和步长设定来更新α和ω;
不断在训练数据集和验证数据集上训练网络,直到α和ω收敛为止;
使用上式得到最佳的候选操作α;
按照网络结构变量α、网络权重ω、网络搜索空间设定及参数设置,构建面向输电线路隐患分析场景的深度卷积神经网络模型或面向变电站缺陷检场景的深度卷积神经网络模型;
将深度卷积神经网络模型重新在训练集和验证集上面进行训练来微调参数,得到最终的面向输电线路隐患分析场景的深度卷积神经网络模型或面向变电站缺陷检场景的深度卷积神经网络模型;
实时采集输电线路隐患分析数据,利用最终的面向输电线路隐患分析场景的深度卷积神经网络模型或面向变电站缺陷检场景的深度卷积神经网络模型进行可微架构搜索,进行输电线路隐患判断。
本发明实施例提供的一种计算机设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述装置运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述任意深度卷积神经网络的可微架构搜索方法的步骤。
具体地,上述存储器和处理器能够为通用的存储器和处理器,这里不做具体限定,当处理器运行存储器存储的计算机程序时,能够执行上述深度卷积神经网络的可微架构搜索方法。
本领域技术人员可以理解,所述计算机设备的结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。
在一些实施例中,该计算机设备还可以包括触摸屏可用于显示图形用户界面(例如,应用程序的启动界面)和接收用户针对图形用户界面的操作(例如,针对应用程序的启动操作)。具体的触摸屏可包括显示面板和触控面板。其中显示面板可以采用LCD(LiquidCrystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置。触控面板可收集用户在其上或附近的接触或者非接触操作,并生成预先设定的操作指令,例如,用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作。另外,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位、姿势,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成处理器能够处理的信息,再送给处理器,并能接收处理器发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板,也可以采用未来发展的任何技术实现触控面板。进一步的,触控面板可覆盖显示面板,用户可以根据显示面板显示的图形用户界面,在显示面板上覆盖的触控面板上或者附近进行操作,触控面板检测到在其上或附近的操作后,传送给处理器以确定用户输入,随后处理器响应于用户输入在显示面板上提供相应的视觉输出。另外,触控面板与显示面板可以作为两个独立的部件来实现也可以集成而来实现。
对应于上述应用程序的启动方法,本发明实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述任意深度卷积神经网络的可微架构搜索方法的步骤。
本申请实施例所提供的应用程序的启动装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (15)

1.一种深度卷积神经网络的可微架构搜索方法,其特征在于,应用于输电线路隐患分析场景或变电站缺陷检测场景,所述深度卷积神经网络为包含多个卷积层的神经网络,所述的方法包括以下步骤:
采集待检测数据,所述待检测数据包括输电线路隐患分析数据集或变电站缺陷检测数据集;
计算神经网络权重和神经网络架构参数,得到神经网络的最优架构;
采用与任务无关的模型中间层特征的最大编码率缩减作为网络架构性能标准进行搜索;
采用与任务相关的模型中间层时域特征的最大编码率缩减作为网络架构性能标准进行搜索;
采用与任务相关的模型中间层频域特征的最大编码率缩减作为网络架构性能标准进行搜索;
所述计算神经网络权重和神经网络架构参数,得到神经网络的最优架构,包括:
在神经网络权重被固定的前提下,计算模型在验证集上的最终性能、任务无关的模型中间层特征的最大编码率缩减、任务相关的模型中间层时域特征的最大编码率缩减、任务相关的模型中间层频域特征的最大编码率缩减,并将这4种损失函数相加作为对于神经网络架构参数的优化目标函数,进而使用梯度下降算法来更新神经网络架构参数;
在神经网络架构参数被固定的前提下,计算模型在训练集上的最终性能作为对于神经网络架构参数的优化目标函数,进而使用梯度下降算法来更新神经网络权重;
重复执行上述步骤,当神经网络权重和神经网络架构参数收敛时,跳出循环,并根据每层神经网络架构参数的最大值得到神经网络的最优架构。
2.根据权利要求1所述的深度卷积神经网络的可微架构搜索方法,其特征在于,所述采用与任务无关的模型中间层特征的最大编码率缩减作为网络架构性能标准进行搜索,包括:
根据每一层特征图的最大编码率缩减计算公式,利用神经网络每一层的特征图和特征向量所属类别的分类矩阵得到每一层特征图的最大编码率缩减;
重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
将所有层特征图的最大编码率缩减相加并取相反数,作为对于神经网络架构参数的优化目标函数;
利用优化目标函数进行可微架构搜索。
3.根据权利要求1所述的深度卷积神经网络的可微架构搜索方法,其特征在于,所述采用与任务相关的模型中间层时域特征的最大编码率缩减作为网络架构性能标准进行搜索,包括:
使用神经网络权重和神经网络架构参数进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图一;
使用在训练集上得到的任务相关的时域空间的最大编码率缩减扩张和压缩算子进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图二;
计算当前层时域特征图一与当前层时域特征图二之间的相似度;
重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
将神经网络所有层的时域特征图之间的相似度相加,将此作为对于神经网络架构参数的优化目标函数;
利用优化目标函数进行可微架构搜索。
4.根据权利要求3所述的深度卷积神经网络的可微架构搜索方法,其特征在于,所述任务相关的时域空间的最大编码率缩减扩张和压缩算子的计算过程,包括:
在训练集数据上,将当前层时域特征图和特征图的分类对角矩阵带入到时域空间的最大编码率缩减扩张和压缩算子的计算公式中,得到当前层的时域空间的减扩张和压缩算子;
利用在每一个类别上的压缩算子与时域特征图中的每一个特征向量的乘积得到时域特征图中每一个特征向量在所有类别上的概率分布;
将扩张和压缩算子作用在当前层时域特征图上,得到下一层时域特征图;
重复执行上述步骤,直至所述神经网络所有层都被遍历为止。
5.根据权利要求1所述的深度卷积神经网络的可微架构搜索方法,其特征在于,所述采用与任务相关的模型中间层频域特征的最大编码率缩减作为网络架构性能标准进行搜索,包括:
使用神经网络权重和神经网络架构参数进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图,然后对当前层时域特征图做离散傅里叶变换,得到当前层频域特征图一;
使用在训练集上得到的任务相关的频域空间的最大编码率缩减扩张和压缩算子进行神经网络模型的前向传播,得到在验证集数据上当前层频域特征图二;
计算当前层频域特征图一和当前层频域特征图二之间的相似度;
重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
将神经网络所有层的频域特征图之间的相似度相加,将此作为对于神经网络架构参数的优化目标函数;
利用优化目标函数进行可微架构搜索。
6.根据权利要求5所述的深度卷积神经网络的可微架构搜索方法,其特征在于,所述任务相关的频域空间的最大编码率缩减扩张和压缩算子的计算过程,包括:
在训练集数据上,将当前层频域特征图和特征图的分类对角矩阵带入到频域空间的最大编码率缩减扩张和压缩算子的计算公式中,得到当前层的频域空间的减扩张和压缩算子;
利用在每一个类别上的压缩算子与频域特征图中的每一个特征向量的乘积得到频域特征图中每一个特征向量在所有类别上的概率分布;
将扩张和压缩算子作用在当前层频域特征图上,得到下一层频域特征图;
重复执行上述步骤,直至所述神经网络所有层都被遍历为止。
7.一种深度卷积神经网络的可微架构搜索装置,其特征在于,应用于输电线路隐患分析场景或变电站缺陷检测场景,所述深度卷积神经网络为包含多个卷积层的神经网络,所述装置包括:
数据采集模块,用于采集待检测数据,所述待检测数据包括输电线路隐患分析数据集或变电站缺陷检测数据集;
最优架构计算模块,用于计算神经网络权重和神经网络架构参数,得到神经网络的最优架构;
第一标准搜索模块,用于采用与任务无关的模型中间层特征的最大编码率缩减作为网络架构性能标准进行搜索;
第二标准搜索模块,用于采用与任务相关的模型中间层时域特征的最大编码率缩减作为网络架构性能标准进行搜索;
第三标准搜索模块,用于采用与任务相关的模型中间层频域特征的最大编码率缩减作为网络架构性能标准进行搜索;
所述最优架构计算模块包括:
架构参数更新模块,用于在神经网络权重被固定的前提下,计算模型在验证集上的最终性能、任务无关的模型中间层特征的最大编码率缩减、任务相关的模型中间层时域特征的最大编码率缩减、任务相关的模型中间层频域特征的最大编码率缩减,并将这4种损失函数相加作为对于神经网络架构参数的优化目标函数,进而使用梯度下降算法来更新神经网络架构参数;
权重更新模块,用于在神经网络架构参数被固定的前提下,计算模型在训练集上的最终性能作为对于神经网络架构参数的优化目标函数,进而使用梯度下降算法来更新神经网络权重;
最优架构确定模块,用于重复执行上述步骤,当神经网络权重和神经网络架构参数收敛时,跳出循环,并根据每层神经网络架构参数的最大值得到神经网络的最优架构。
8.根据权利要求7所述的深度卷积神经网络的可微架构搜索装置,其特征在于,所述第一标准搜索模块包括:
编码率缩减计算模块,用于根据每一层特征图的最大编码率缩减计算公式,利用神经网络每一层的特征图和特征向量所属类别的分类矩阵得到每一层特征图的最大编码率缩减;
第一遍历模块,用于重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
第一目标函数模块,用于将所有层特征图的最大编码率缩减相加并取相反数,作为对于神经网络架构参数的优化目标函数;
第一可微架构搜索模块,用于利用优化目标函数进行可微架构搜索。
9.根据权利要求7所述的深度卷积神经网络的可微架构搜索装置,其特征在于,所述第二标准搜索模块包括:
时域特征图一计算模块,用于使用神经网络权重和神经网络架构参数进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图一;
时域特征图二计算模块,用于模块,用于使用在训练集上得到的任务相关的时域空间的最大编码率缩减扩张和压缩算子进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图二;
时域特征相似度计算模块,用于计算当前层时域特征图一与当前层时域特征图二之间的相似度;
第二遍历模块,用于重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
第二目标函数模块,用于将神经网络所有层的时域特征图之间的相似度相加,将此作为对于神经网络架构参数的优化目标函数;
第二可微架构搜索模块,用于利用优化目标函数进行可微架构搜索。
10.根据权利要求9所述的深度卷积神经网络的可微架构搜索装置,其特征在于,所述时域特征图二计算模块计算任务相关的时域空间的最大编码率缩减扩张和压缩算子的具体过程为:
在训练集数据上,将当前层时域特征图和特征图的分类对角矩阵带入到时域空间的最大编码率缩减扩张和压缩算子的计算公式中,得到当前层的时域空间的减扩张和压缩算子;
利用在每一个类别上的压缩算子与时域特征图中的每一个特征向量的乘积得到时域特征图中每一个特征向量在所有类别上的概率分布;
将扩张和压缩算子作用在当前层时域特征图上,得到下一层时域特征图;
重复执行上述步骤,直至所述神经网络所有层都被遍历为止。
11.根据权利要求7所述的深度卷积神经网络的可微架构搜索装置,其特征在于,所述第三标准搜索模块包括:
频域特征图一计算模块,用于使用神经网络权重和神经网络架构参数进行神经网络模型的前向传播,得到在验证集数据上当前层时域特征图,然后对当前层时域特征图做离散傅里叶变换,得到当前层频域特征图一;
频域特征图二计算模块,用于使用在训练集上得到的任务相关的频域空间的最大编码率缩减扩张和压缩算子进行神经网络模型的前向传播,得到在验证集数据上当前层频域特征图二;
频域特征相似度计算模块,用于计算当前层频域特征图一和当前层频域特征图二之间的相似度;
第三遍历模块,用于重复执行上述步骤,当神经网络所有层都被遍历完成时,跳出循环;
第三目标函数模块,用于将神经网络所有层的频域特征图之间的相似度相加,将此作为对于神经网络架构参数的优化目标函数;
第三可微架构搜索模块,用于利用优化目标函数进行可微架构搜索。
12.根据权利要求11所述的深度卷积神经网络的可微架构搜索装置,其特征在于,所述频域特征图二计算模块计算任务相关的频域空间的最大编码率缩减扩张和压缩算子的具体过程为:
在训练集数据上,将当前层频域特征图和特征图的分类对角矩阵带入到频域空间的最大编码率缩减扩张和压缩算子的计算公式中,得到当前层的频域空间的减扩张和压缩算子;
利用在每一个类别上的压缩算子与频域特征图中的每一个特征向量的乘积得到频域特征图中每一个特征向量在所有类别上的概率分布;
将扩张和压缩算子作用在当前层频域特征图上,得到下一层频域特征图;
重复执行上述步骤,直至所述神经网络所有层都被遍历为止。
13.一种深度卷积神经网络的可微架构搜索方法应用,应用了权利要求1~6任一项所述的一种深度卷积神经网络的可微架构搜索方法,其特征在于,应用于输电线路隐患分析场景或变电站缺陷检测场景实行对隐患检测任务:
采集待检测数据作为数据集,所述数据集为输电线路隐患分析数据集或变电站缺陷检测数据集,均在真实场景下采集并标注;所述的输电线路隐患分析数据集和变电站缺陷检测数据集的训练集为10000张,验证集均为1000张,测试集均为2000张;
初始化每个类别的分类对角矩阵:将每个类别的分类对角矩阵设置为全零阵,找到分类对角矩阵所属类别的特征向量的行位置,将分类对角矩阵所对应行位置的对角元素设置为1;设置λ为500;设置ε为0.3;设置η为0.5,设置网络层数为100,设置mini-batch为1000,设置优化器为SGD,设置优化器的动量为0.9,设置优化器的衰减率为0.0003;
设置搜索空间:所述搜索空间包括卷积层、池化层、全连接层、残差连接和直接连接;
初始化网络结构变量α为全零矩阵;
参数设定:最大卷积核尺寸为7,最大全连接神经元数量为1024,全连接输出层神经元数量20,卷积层均为ReLU-Conv-Conv-BN的组合形式,本方法所提出的四个损失函数所对应的权重分别为0.1,0.1,0.4,0.4;
首先,按照以上网络搜索空间设定及参数设置构建可微深度卷积神经网络,并在训练数据集和验证数据集上进行前向传播,分别计算如下四种损失函数值;
第一种损失函数是将模型在验证集上的最终性能作为网络架构性能的预测标准,公式如下:
式中,表示权重为,网络结构为的模型在训练集上的损失函数,为学习率,为模型在训练集上的损失函数;
第二种损失函数是将任务无关的模型中间层特征的最大编码率缩减作为网络架构性能的预测标准,公式如下:
式中,代表模型第层的特征图, 表示分类任务的个类别, 代表编码的精度, m和n分别表示特征图Z包含m个特征向量,每个特征向量的维度为n,通道数为C,即,是用来表示对Z分类的对角矩阵,并满足
第三种损失函数是将任务相关的模型中间层时域特征的最大编码率缩减作为网络架构性能的预测标准,公式如下:
式中,为相似度函数,代表特征的标准化, 表示第层的第个特征向量,是通过在训练集数据上的计算得到的,分别表示时域空间内的扩张和压缩算子,表示特征向量被分类为第j类的概率;
第四种损失函数是将任务相关的模型中间层频域特征的最大编码率缩减作为网络架构性能的预测标准,公式如下:
式中,为相似度函数,代表特征的标准化,表示第层的第个在频率处的特征向量,是通过在训练集数据上的计算得到的,分别表示频域空间内的扩张和压缩算子,表示第层的第个特征向量被分类为第类的概率
将上述四种损失函数进行加权求和,计算得到总体损失函数值loss,公式如下:
根据总体损失函数loss,计算可微深度卷积神经网络反向传播后各参数的梯度,根据梯度和步长设定来更新α和ω;
不断在训练数据集和验证数据集上训练网络,直到α和ω收敛为止;
使用上式得到最佳的候选操作α;
按照网络结构变量α、网络权重ω、网络搜索空间设定及参数设置,构建面向输电线路隐患分析场景的深度卷积神经网络模型或面向变电站缺陷检场景的深度卷积神经网络模型;
将深度卷积神经网络模型重新在训练集和验证集上面进行训练来微调参数,得到最终的面向输电线路隐患分析场景的深度卷积神经网络模型或面向变电站缺陷检场景的深度卷积神经网络模型;
实时采集输电线路隐患分析数据,利用最终的面向输电线路隐患分析场景的深度卷积神经网络模型或面向变电站缺陷检场景的深度卷积神经网络模型进行可微架构搜索,进行输电线路隐患判断。
14.一种计算机设备,其特征在于,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-6任一所述的深度卷积神经网络的可微架构搜索方法的步骤。
15.一种存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1-6任一所述的深度卷积神经网络的可微架构搜索方法的步骤。
CN202211502842.8A 2022-11-29 2022-11-29 深度卷积神经网络的可微架构搜索方法及装置 Active CN115620147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211502842.8A CN115620147B (zh) 2022-11-29 2022-11-29 深度卷积神经网络的可微架构搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211502842.8A CN115620147B (zh) 2022-11-29 2022-11-29 深度卷积神经网络的可微架构搜索方法及装置

Publications (2)

Publication Number Publication Date
CN115620147A CN115620147A (zh) 2023-01-17
CN115620147B true CN115620147B (zh) 2023-04-07

Family

ID=84880606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211502842.8A Active CN115620147B (zh) 2022-11-29 2022-11-29 深度卷积神经网络的可微架构搜索方法及装置

Country Status (1)

Country Link
CN (1) CN115620147B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912637B (zh) * 2023-09-13 2023-12-22 国网山东省电力公司济南供电公司 输变电缺陷识别的方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508104A (zh) * 2020-12-08 2021-03-16 浙江工业大学 一种基于快速网络架构搜索的跨任务图像分类方法
CN112784140A (zh) * 2021-02-03 2021-05-11 浙江工业大学 一种高能效神经网络架构的搜索方法
CN113780146A (zh) * 2021-09-06 2021-12-10 西安电子科技大学 基于轻量化神经架构搜索的高光谱图像分类方法及系统
CN114600127A (zh) * 2019-09-10 2022-06-07 辉达公司 一种用于神经网络的基于机器学习的架构搜索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11443162B2 (en) * 2019-08-23 2022-09-13 Google Llc Resource constrained neural network architecture search

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114600127A (zh) * 2019-09-10 2022-06-07 辉达公司 一种用于神经网络的基于机器学习的架构搜索方法
CN112508104A (zh) * 2020-12-08 2021-03-16 浙江工业大学 一种基于快速网络架构搜索的跨任务图像分类方法
CN112784140A (zh) * 2021-02-03 2021-05-11 浙江工业大学 一种高能效神经网络架构的搜索方法
CN113780146A (zh) * 2021-09-06 2021-12-10 西安电子科技大学 基于轻量化神经架构搜索的高光谱图像分类方法及系统

Also Published As

Publication number Publication date
CN115620147A (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN110599557B (zh) 图像描述生成方法、模型训练方法、设备和存储介质
WO2022068623A1 (zh) 一种模型训练方法及相关设备
CN110503192A (zh) 资源有效的神经架构
CN110009052A (zh) 一种图像识别的方法、图像识别模型训练的方法及装置
CN110782015A (zh) 神经网络的网络结构优化器的训练方法、装置及存储介质
CN108805259A (zh) 神经网络模型训练方法、装置、存储介质及终端设备
US11423884B2 (en) Device with convolutional neural network for acquiring multiple intent words, and method thereof
US20190138929A1 (en) System and method for automatic building of learning machines using learning machines
CN115620147B (zh) 深度卷积神经网络的可微架构搜索方法及装置
CN113326852A (zh) 模型训练方法、装置、设备、存储介质及程序产品
CN116167413A (zh) 深度卷积神经网络量化剪枝联合优化的方法及系统
CN113065633A (zh) 一种模型训练方法及其相关联设备
CN111160049B (zh) 文本翻译方法、装置、机器翻译系统和存储介质
CN113627163A (zh) 一种注意力模型、特征提取方法及相关装置
CN113065997A (zh) 一种图像处理方法、神经网络的训练方法以及相关设备
CN115564017A (zh) 模型数据处理方法、电子设备及计算机存储介质
CN115034379A (zh) 一种因果关系确定方法及相关设备
Zhao et al. Unbalanced fault diagnosis of rolling bearings using transfer adaptive boosting with squeeze-and-excitation attention convolutional neural network
CN112052865A (zh) 用于生成神经网络模型的方法和装置
CN108509179B (zh) 用于检测人脸的方法、用于生成模型的装置
Sun et al. Digital-twin-enhanced metal tube bending forming real-time prediction method based on multi-source-input MTL
CN111652349A (zh) 一种神经网络的处理方法及相关设备
CN115618065A (zh) 一种数据处理方法及相关设备
CN114707070A (zh) 一种用户行为预测方法及其相关设备
CN110826726B (zh) 目标处理方法、目标处理装置、目标处理设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant