CN114692830A - 晋级网络自强化的图像语音深度学习模型 - Google Patents
晋级网络自强化的图像语音深度学习模型 Download PDFInfo
- Publication number
- CN114692830A CN114692830A CN202210298215.0A CN202210298215A CN114692830A CN 114692830 A CN114692830 A CN 114692830A CN 202210298215 A CN202210298215 A CN 202210298215A CN 114692830 A CN114692830 A CN 114692830A
- Authority
- CN
- China
- Prior art keywords
- network
- promotion
- self
- layer
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005728 strengthening Methods 0.000 title claims abstract description 87
- 238000013136 deep learning model Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 92
- 238000013528 artificial neural network Methods 0.000 claims abstract description 74
- 238000011176 pooling Methods 0.000 claims abstract description 71
- 238000012549 training Methods 0.000 claims abstract description 42
- 230000008569 process Effects 0.000 claims abstract description 41
- 238000013461 design Methods 0.000 claims abstract description 33
- 238000013135 deep learning Methods 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 238000013145 classification model Methods 0.000 claims abstract description 13
- 230000009466 transformation Effects 0.000 claims description 67
- 230000000877 morphologic effect Effects 0.000 claims description 47
- 230000001737 promoting effect Effects 0.000 claims description 40
- 238000013527 convolutional neural network Methods 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000000354 decomposition reaction Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000014509 gene expression Effects 0.000 claims description 11
- 238000012986 modification Methods 0.000 claims description 10
- 230000004048 modification Effects 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 238000003709 image segmentation Methods 0.000 claims description 7
- 230000009977 dual effect Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000010304 firing Methods 0.000 claims description 4
- 230000002401 inhibitory effect Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000011065 in-situ storage Methods 0.000 claims description 3
- 230000035772 mutation Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims description 2
- 230000002787 reinforcement Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 10
- 238000002474 experimental method Methods 0.000 description 18
- 238000010801 machine learning Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000011960 computer-aided design Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
晋级网络自强化的图像语音深度学习模型。本申请将晋级方案与神经网络结构融合设计出一种可实现网络参数和模块自主学习,兼容线性与非线性的深度学习架构,系统稳定性提高;通过松散和紧凑分别将线性和非线性晋级方案与神经网络分类模型相结合构造深度学习分类模型,泛化能力强;网络结构方面对卷积和池化层进行自主联合,实现全晋级网络,分级处理在分类和估计推理任务上有更好效果;网络运算方面用晋级实现卷积运算和池化运算,实现线性与非线性的统一,计算复杂度低;网络训练过程采用分层低熵来加速网络训练,不仅使网络保留卷积的可学习性,还使得池化层变得可学习,模型学习能力强,误差比现有技术方法的都小,图像语音识别分类的准确性和鲁棒性更好。
Description
技术领域
本申请涉及一种自强化图像语音深度学习模型,特别涉及一种晋级网络自强化的图像语音深度学习模型,属于图像语音深度学习技术领域。
背景技术
机器学习是人工智能的一个重要研究领域,最基本的做法是运用各种算法让计算机从数据中学习获取所需的知识,并能够加以推广解决与之相关的问题,机器学习从模型的层次结构上看经历了两个阶段:浅层学习和深度学习。在应用机器学习算法建立复杂模型解决问题的时候,影响其性能的一个重要因素是数据表达形式。现有技术通过人工设计特征的方法寻找合适的数据特征来提高模型准确度以及从原始数据中获取信息的方法,不仅对设计特征的经验和技术要求极高,也需要大量的时间成本,研发方向是设计一种能自主从海量数据中学习有用信息的方法,能自主学习数据特征而不是简单的学习特征到结果的映射,作为机器学习的一个新领域,深度学习的出现就是为了让机器学习更加智能。
传统的浅层机器学习模型在结构上不含或含较少的隐层节点,浅层网络中通过图像和滤波器的卷积操作只能得到样本的一些边缘和简单纹理特征。而由多层非线性运算单元组合的深度神经网络,通过将浅层网络的底层特征加以组合可以得到更为复杂的图像特征,这与人类视觉所能感知的物体特征更为接近。总的来说,(1)深度学习模型具有更深的层次结构,包含五层以上的隐层节点;(2)深度学习强调模型的自主学习能力,不仅学习输入输出之间的映射关系,还学习原始数据的特征表达,顺着网络结构不断深入,在各层之间进行特征的变换。相比于浅层学习,深度学习具有明显的优越性,具体表现为:一是浅层神经网络结构中局部估计器泛化能力很差,难以实现对复杂目标函数的表征;二是如果目标函数能用一个k+1层网络紧凑表示出来,当网络深度为k时,表达该函数所需的计算单元将成指数倍增长,计算复杂度大大增加;由于网络计算单元参数调整依靠训练样本,在样本量一定的情况下,计算单元的增加使网络泛化能力下降;三是深度学习模型利用分级处理思想,在不同空间上获取对输入数据不同层次的特征表达,在分类和估计推理任务上有更好效果。
现阶段,深度学习已广泛深入到语音识别、图像理解和自然语言处理等领域并颇有成效,目前主要集中在对网络结构和网络优化算法两方面。神经网络不仅功能强大且设计灵活,在图像、语音和自然语言理解等许多具有挑战性的学习任务中得到了应用。但神经网络的设计依然是个难题。典型的CNN架构通过组合卷积层、池化层和全连接层得到,卷积和池化交替出现,然后加入全连接层最后得到输出。在构建CNN的同时,网络设计者必须做出许多设计选择:每种类型的层数及顺序,归一化操作中的指数以及每种类型的层的超参数包括感受野大小、步长和卷积核数量等。这使得CNN架构的设计空间非常大,很多模型实例无法实现,因此完全的手动搜索是不可行的。
基于卷积神经网络的深度学习,包括网络结构、基本运算和训练技巧等。尽管网络变得越来越高效,但架构设计却更加复杂,需要具有很丰富的专业知识和经验,并耗费大量时间成本,当前神经网络的设计依然是一个大难题。目前CNN架构主要通过实验手工制作或从少数现有的网络中修改,这对专业技术知识有很高的要求且工作量巨大。所以神经网络的自动化及计算机辅助设计极具研发和应用价值。
现有技术的深度神经网络结构:正向和反馈的网络结构使其具有很强的学习能力,通过不断的迭代和调整网络神经元之间的权值得到一个非线性的回归函数使其能够在分类问题上发挥巨大作用。为了学习可以表示高级抽象(例如在视觉,语言和其它AI级任务)的复杂函数的类型,需要深层架构,目前三种神经网络架构是深度置信网络、层叠自动编码机、和卷积神经网络。深度卷积神经网络在诸如语音图像识别和机器翻译等人工智能任务中取得了巨大的成功。随之而来的是从特征设计到架构设计的一个模式转变,尽管在自动化和计算机辅助神经网络设计方面已有一些卓有成效的工作,但新的CNN架构和网络设计元素仍主要由研发人员使用从实验中获得的新的理论见解或凭直觉,对于自动学习网络结构的研究问题亟待解决。
现有技术的深度神经网络训练:对深度神经网络尤其是卷积神经网络训练算法以及实现技巧细分为预处理方法、初始化方法、激活函数的选择、正则化方法四个方面。
综上所述,现有技术的图像语音机器学习仍然存在问题,本申请的难点和待解决的问题主要集中在以下方面:
第一,现有技术通过人工设计特征的方法寻找合适的数据特征来提高模型准确度以及从原始数据中获取信息的方法,不仅对设计特征的经验和技术要求极高,也需要大量的时间成本,缺少一种能自主从海量图像语音数据中学习有用信息的方法,能自主学习数据特征而不是简单的学习特征到结果的映射,浅层网络中通过图像和滤波器的卷积操作只能得到样本的一些边缘和简单纹理特征,层次结构少,模型没有自主学习能力,不仅无法学习输入输出之间的映射关系,也无法学习原始数据的特征表达,无法在各层之间进行特征的变换,局部估计器泛化能力很差,难以实现对复杂目标函数的表征,计算复杂度大,特别是在分类和估计推理任务上还不够成熟,计算速度慢,抗噪能力差,准确度还无法满足要求;
第二,现有技术在构建CNN的同时,网络设计者必须做出许多设计选择:每种类型的层数及顺序,归一化操作中的指数以及每种类型的层的超参数包括感受野大小、步长和卷积核数量等,使得CNN架构的设计空间非常大,很多模型实例无法实现,完全的手动搜索是不可行的;基于卷积神经网络的深度学习架构设计更加复杂,需要具有很丰富的专业知识和经验,并耗费大量时间成本,当前神经网络的设计依然是一个大难题,目前CNN架构主要通过实验手工制作或从少数现有的网络中修改,这对专业技术知识有很高的要求且工作量巨大,无法实现神经网络的自动化及计算机辅助设计,无法满足语音识别、图像理解和自然语言处理等等大部分应用场景的需求;
第三,现有技术无法实现自动化CNN架构的选择过程,缺少将晋级方案与神经网络结构融合的可实现网络参数和模块自主学习,兼容线性与非线性的深度学习架构;缺少非线性形态晋级自强化网络包括的最大形态晋级和中值形态晋级两种方案,无法通过松散型和紧凑型两种方式分别将线性和非线性晋级方案与神经网络分类模型相结合构造深度学习分类模型;网络结构方面缺少自强化网络晋级方案生成神经网络层架构,无法对卷积和池化层自主联合,无法用自适应卷积核代替估计推理算子和改造算子实现全晋级网络;网络运算方面,无法用晋级操作实现卷积运算和池化运算,实现线性与非线性的统一;在神经网络的训练过程中,缺少加速网络训练,不仅网络保留卷积不具有可学习性,池化层也不可学习;图像语音学习实际应用价值大打折扣;
第四,现有技术针对CNN层结构包括层顺序和层类型的灵活选择问题没有可靠的解决方法,无法构建不同的晋级框架来实现对神经网络不同模块的拟合,缺少分别实现CNN线性卷积和非线性池化构建融合型网络;现有技术无法解决图像分类网络的训练过程中内部变量漂移现象,未考虑到感受野大小对网络性能的影响,估计推理和改造算子涉及不够合理,缺少分层低熵方法,模型学习效率低,速度慢,图像语音分类精度较低。
发明内容
本申请通过基于自强化网络晋级方案的元模型来自动化CNN架构的构建过程,将晋级方案与神经网络结构融合设计出一种可实现网络参数和模块自主学习,兼容线性与非线性的深度学习架构,系统稳定性提高;通过松散和紧凑分别将线性和非线性晋级方案与神经网络分类模型相结合构造深度学习分类模型,泛化能力强;网络结构方面提出自强化网络晋级方案生成神经网络层架构的方法,对卷积和池化层进行自主联合,实现全晋级网络,分级处理在分类和估计推理任务上有更好效果;网络运算方面用晋级操作来实现卷积运算和池化运算,实现线性与非线性的统一,计算复杂度低;神经网络的训练过程采用分层低熵来加速网络训练,不仅使网络保留卷积的可学习性,还使得池化层变得可学习,模型学习能力强,误差比现有技术方法的都小,图像语音识别分类的准确性和鲁棒性更好。
为实现以上技术优势,本申请所采用的技术方案如下:
晋级网络自强化的图像语音深度学习模型,通过基于自强化网络晋级方案的元模型来自动化CNN架构的选择过程,将晋级方案与神经网络结构融合设计出一种可实现网络参数和模块自主学习,兼容线性与非线性的深度学习架构;采用非线性形态晋级自强化网络,包括最大形态晋级和中值形态晋级两种方案,然后通过两种松散型和紧凑型两种方式,分别将线性和非线性晋级方案与神经网络分类模型相结合构造深度学习分类模型;在网络结构方面,提出自强化网络晋级方案生成神经网络层架构的方法,对卷积和池化层进行自主联合,用自适应卷积核代替估计推理算子和改造算子,分别替换卷积和池化,进而实现全晋级网络;在网络运算方面,用晋级操作来实现卷积运算和池化运算,实现线性与非线性的统一;在神经网络的训练过程中,采用分层低熵来加速网络训练,将改进的晋级架构与神经网络的紧凑型结合,不仅使网络保留卷积的可学习性,还使得池化层变得可学习;
第一,针对CNN层结构包括层顺序和层类型的灵活选择问题,提出一种改进的自强化网络晋级方案作为元模型来对网络中的线性和非线性模块进行自主联合实现,基础网络是将LeNet-5与晋级自强化网络相结合,构造的一个具有五层结构的松散型神经网络,通过构建不同的晋级框架来实现对神经网络不同模块的拟合,采用改进的晋级框架分别实现CNN线性卷积和非线性池化构建融合型网络;
第二,针对图像分类网络的训练过程中容易产生内部变量漂移现象,采用调整改进的神经网络优化算法,考虑到感受野大小对网络性能的影响,对改进的晋级方案中的估计推理和改造算子进行修改优化,网络中的晋级和改造滤波的窗口大小为3×3,使用分层低熵方法后,分类精度大幅提高。
优选地,晋级网络自强化的深度学习框架:基于晋级框架的深度学习模型,基于自强化网络晋级方案自身的设计灵活性和自适应特征,将晋级方案与神经网络结构融合设计出一种可实现网络参数和模块自主学习,兼容线性与非线性的深度学习架构,上部分是卷积神经网络架构,下部分是拟实现的全晋级网络模型,整个框架实现分为三个步骤:(1)晋级实现线卷积;(2)晋级实现池化;(3)晋级实现其它非线性模块;
通过一个参数化、可学习的架构实现卷积神经网络的包括卷积、池化、softmax在内的多个基元,并将这些模块都参数化,最终将BP算法传递的可学性从卷积系数扩充到架构类型和模块选择,实现自主学习的全晋级网络。
优选地,晋级方案驱动的线性自强化网络:采用二维离散强化网络、图像强化网络和语音强化网络构造晋级自强化网络;
(1)二维离散强化网络的滤波器组的Z变换为:
P(z)为互补滤波器组(h,g)的多相矩阵,对偶滤波器组(h*,g*)的多相矩阵为P*(z),x={x[n]|n∈Z}表示输入序列,c={c[n]|n∈Z}和d={d[n]|n∈Z}分别表示x[n]经过滤波器组(h,g)并下采样后得到的序列,则应用欧氏范数算法,其多相矩阵可表示为:
则分析多相矩阵为;
得二维离散强化网络的晋级自强化正变换为:
逆变换只需改变对应的符号,如下:
通过上述方法对二维离散强化网络进行晋级构造就得到二维离散晋级自强化网络;
(2)对于图像强化网络,其分析多相矩阵表示为:
则相应的晋级过程如下:
图像分割:
d[n](0)=x[2n+1],c[n](0)=x[2n] 式7
估计推理1:
d[n](1)=d[n](0)+α(c[n](0)+c[n+1](0)) 式8
图像改造1:
c[n](1)=c[n](0)+β(d[n](1)+d[n-1](1)) 式8
估计推理2:
d[n](2)=d[n](1)+γ(c[n](1)+c[n+1](1)) 式9
图像改造2:
c[n](2)=c[n](1)+δ(d[n](2)+d[n+l](2)) 式10
收缩因子:
其中,α,β,δ,γ,K均为无理数,近似值为:
由上述晋级过程得到图像强化网络晋级方案,增加一组估计推理和图像改造步骤,并基于原位计算,计算所需内存较少,不增加运算成本,对运算速度也无影响;
(3)语音强化网络变换的算法表示如下:
语音分割:采用惰性自强化网络变换实现;
估计推理:
语音改造:
得到语音强化网络变换晋级方案。
优选地,形态晋级自强化网络:
(1)最大晋级格形态自强化网络
采用最大值算子作为估计推理算子和改造算子来构造形态晋级自强化网络,假设原始信号分解采用自强化网络分解,即:
估计推理算子P和改造算子U分别采用:
P(xe[n])=xe[n]∨xe[n+1]
U(d[n])=-(0∨d[n-l]∨d[n]) 式16
其中,∨为表示上确界的符号,xe[n]∨xe[n+1表示集合{xe[n],xe[n+1]}的上确界;
晋级过程表示为:
估计推理:
d[n]=xo[n]-(xe[n]∨xe[n+l])=x[2n+1]-(x[2n]∨x[2n+2]) 式17
改造融合:
c[n]=xe[n]+(0∨d[n-1]vd[n])=
x[2n]+(0v(x[2n-2]-(x[2n-2]∨x[2H]))∨(x[2n+1]-(x[2n]∨x[2n+2]))) 式18
最大晋级方法选择偶部分信号xe[n]的两个邻域值xe(n)与xe(n+1)的最大值作为xo(n)的估计推理,改造晋级中同样将xe[n]的局部最大值映射为尺度信号xe[n],如果x(n)≥x(n±1),则信号x在点n具有局部最大值x(n);
(2)中值晋级自强化网络
原始信号分解采用惰性自强化网络分解,利用中值算子作为改造算子来构造形态晋级自强化网络,估计推理和改造算子分别为:
P(xe[n])=xe[n]
U(d[n])=-median(0,d[n-1],d[n]) 式19
其中,median()函数返回给定数值的中值,按照上述方法得到一个非对偶自强化网络晋级方案,表示如下:
图像分割:
xe[n]=x[2n]
xo[n]=x[2n+1] 式20
估计推理:
d[n]=xo[n]-P(xe[n])=x[2n+1]-x[2n] 式21
改造融合:
c[n]=xe[n]+U(d[n])=x[2n]-median(0,d[n-1],d[n]) 式22
分析用的偶部信号通过对输入信号x[n]的局部估计推理误差进行改造融合,如果d[n-1]=x[2n-1]-x[2n-2]与d[n]=x[2n+1]-x[2n]的值异号,则x[2n]保持不变,当x[2n]是一个局部极值时,x[2n]的值保持不变,否则x[2n]按照x[2n-1]-x[2n-2]和x[2n+1]-x[2n]的最小差值完成自动调整。
优选地,晋级网络自强化的自强化网络特征提取:图像语音噪声为孤立像素点的灰度突变,带有高频特性且空间不相关,经晋级自强化网络处理后的图像语音被分解为包含图像语音细节和混入噪声的高频估计推理误差和体现图像语音轮廓的低频分量,利用晋级自强化网络进行图像语音特征提取,将改造融合得到的平滑分量作为卷积神经网络的输入,自强化网络与卷积神经网络采用松散融合方式,模型采用[conv+ReLU+pool]×N-conv-ReLU-[fullconnect]×M-softmax形式,将该网络记为LSQ-1,在该网络模型中,Li代表晋级层,Ci表示卷积层,FCi表示全连接层;
晋级模块的具体实现过程为:对输入图像语音的每行和每列分别进行晋级,针对不同的自强化网络,其晋级方案不同,采用二维离散强化网络、图像强化网络和语音强化网络,利用估计推理误差改造得到的平滑分量输入到下层卷积神经网络,提取的晋级自强化网络特征图大小是输入的四分之一。
优选地,晋级网络自强化的神经网络模型:利用自强化网络变换的空间域,提出估计推理误差解释,提供用于设计定制变换的框架,使用任何线性、非线性或空间变化的估计推理器和改造器以匹配给定信号的特性;
本申请基于晋级网络提出一种自适应自强化网络变换晋级框架,通过估计推理器和改造器的自适应来对信号进行分析处理,通过优化基于数据的估计推理误差准则来自适应的将这种晋级结构的处理调谐到期望的信号;
新变换利用更好的估计推理变量获得更有效的信号表示,即获取更好的特征表达,改进的晋级方案将原晋级方案的估计推理和改造算子用卷积核来代替。
优选地,(一)从晋级到卷积:
在LSQ-1模型中,晋级模块的L1层并没有参数化,在训练过程中不可学,这相当于对输入图像语音的前置处理操作,为将晋级自强化网络与神经网络紧密结合,对晋级方案做进一步改进,通过对神经网络的训练,让该晋级层的估计推理算子和改造算子实现自主学习,从而自适应的调整来匹配输入信号,并且更好的进行特征提取,晋级方案与网络的采用交融结合方式。
改进后的模型记为LSQ-2,它是将LSQ-1中的晋级层换成改进后的晋级结构并加入到神经网络结构内部,采用的形式是:(conv+ReLU+pool)×N-lifting×Z-(conv+ReLU)×M-full connect-softmax;
具体实现:⑴将原晋级方案的估计推理改造算子设计成卷积核,训练实现自适应性以克服其固定结构对特征提取结果的影响;(2)对输入进行惰性自强化网络变换,得到的奇偶部分按照估计推理和改造进行处理,P、U采取与卷积基元相同的局部连接与权值共享结构,改造所得的特征值组合成一张晋级特征图,输入到下层卷积神经网络中。
优选地,(二)晋级网络:
将模型LSQ-2中的卷积层全部用晋级结构来实现得到的网络记为LSQ-3,采用的形式是:lifting×M-full connect×N-softmax;
在该模型结构中,晋级层后接的池化层和激活层都没有作为单独的网络层画出来,填充的边缘也没有在图上体现。晋级层的处理过程与LSQ-2相同,大小为32×32的输入数据进入网络后,每过一个晋级层大小都变为该层输入的四分之一,这样经过第三个晋级层的处理之后,就进入全连接层,最后通过softmax层输出进行判别分类。
优选地,(三)晋级实现池化:
形态晋级自强化网络不仅保留多分辨率分析的特征还具有良好的细节保留和抑制图像语音噪声的能力,并且集成晋级方案的灵活性,其局部极值保持的特征,对信号特征提取极为重要,将模型LSQ-1中的池化层分别用晋级结构实现,将原始晋级框架中的线性估计推理算子和改造算子替换成非线性形态滤波器;
(1)晋级实现max pooling。
按照最大晋级格形态自强化网络,将估计推理算子P和改造算子U分别设置成最大值算子来构造形态晋级方案,并将该晋级模块嵌进神经网络替换max pooling层,将LSQ-1网络中第一层卷积后面的max pooling层替换掉,第三层和第四层卷积后面的averagepooling层保留。
(2)晋级实现average pooling
将估计推理算子P和改造算子U分别设置成常数1和中值算子,即构造一个中值形态晋级框架,然后用该晋级模块替换掉LSQ-1网络中第三层和第四层卷积后面的averagepooling层,第一层卷积后面的max pooling层保留;
(3)晋级实现池化
将LSQ-1网络中第一层卷积后面的max pooling层用最大晋级格形态自强化网络替换,第三层和第四层卷积后面的average pooling层用中值形态晋级框架来实现,得到的新模型记作LSQ-4。
与现有技术相比,上述技术方案具有以下创新点和优势:
第一,本申请由多层非线性运算单元组合的深度神经网络,将浅层网络的底层特征加以组合得到更为复杂的图像特征,与人类视觉所能感知的物体特征更为接近,模型具有更深的层次结构,包含五层以上的隐层节点,自主学习能力增强,不仅学习输入输出之间的映射关系,还学习原始数据的特征表达,网络结构深入各层之间进行特征变换,泛化能力强,实现对复杂目标函数的表征,计算单元控制在合理范围,计算复杂度合理;利用分级处理思想,在不同空间上获取对输入数据不同层次的特征表达,在分类和估计推理任务上有更好效果;每种类型的层数及顺序,归一化操作中的指数以及每种类型的层的超参数包括感受野大小、步长和卷积核数量等自适应设计,通过神经网络的自动化及计算机辅助设计,在语音识别、图像理解和自然语言处理等领域具有重大作用和巨大实用价值;
第二,本申请通过基于自强化网络晋级方案的元模型来自动化CNN架构的选择过程,将晋级方案与神经网络结构融合设计出一种可实现网络参数和模块自主学习,兼容线性与非线性的深度学习架构,系统稳定性提高;采用非线性形态晋级包括最大形态晋级和中值形态晋级两种方案,通过松散和紧凑分别将线性和非线性晋级方案与神经网络分类模型相结合构造深度学习分类模型,泛化能力强;网络结构方面提出自强化网络晋级方案生成神经网络层架构的方法,对卷积和池化层进行自主联合,实现全晋级网络,分级处理在分类和估计推理任务上有更好效果;网络运算方面用晋级操作来实现卷积运算和池化运算,实现线性与非线性的统一,计算复杂度低;神经网络的训练过程采用分层低熵来加速网络训练,不仅使网络保留卷积的可学习性,还使得池化层变得可学习,模型学习能力强,误差比现有技术方法的都小,图像语音识别分类的准确性和鲁棒性更好;
第三,针对CNN层结构包括层顺序和层类型的灵活选择问题,本申请提出一种改进的自强化网络晋级方案作为元模型来对网络中的线性和非线性模块进行自主联合实现,基础网络是将LeNet-5与晋级自强化网络相结合,构造的一个具有五层结构的松散型神经网络,通过构建不同的晋级框架来实现对神经网络不同模块的拟合,采用改进的晋级框架分别实现CNN线性卷积和非线性池化构建融合型网络;晋级方案多一组估计推理和改造步骤,有效避免图像语音重建误差扩大,提高了整个系统的稳定性,晋级模块可学习的融合型网络模型LSQ-2和LSQ-3的分类精度分别比松散型网络模型LSQ-1高出了3.9%和6.5%,晋级模块在特征提取上实用高效,对卷积层的替换有很好的效果,方案实现池化的效果好;
第四,针对图像分类网络的训练过程中容易产生内部变量漂移现象,本申请采用调整改进的神经网络优化算法,考虑到感受野大小对网络性能的影响,对改进的晋级方案中的估计推理和改造算子进行修改优化,网络中的晋级和改造滤波的窗口大小为3×3,使用分层低熵方法后,加快收敛,防止过拟合,分类精度大幅提高,估计推理和改造结构的感受野好,在不同信噪比下,图像语音深度学习估算都比较准确,在图像语音分类识别和智能应用中竞争力强。
附图说明
图1是晋级网络自强化的深度学习框架图。
图2是二维离散自强化网络晋级结构图。
图3是图像自强化网络晋级结构图。
图4是图像语音深度学习模型改进前后的晋级方案对比图。
图5是从晋级到卷积处理时晋级层分类示意图。
图6是模型LSQ-1的结构参数示意图。
图7是模型LSQ-3的结构参数示意图。
图8是三种前置处理晋级网络学习结果对比图。
图9是替换池化层的各对比试验的平均分类精度示意图。
图10是改进模型实验在CIFAR-10数据集上的分类结果图。
图11是改进模型实验在MNIST数据集上的分类结果图。
图12是本申请不同感受野大小的分类结果示意图。
具体实施方法
为了使本申请的目的、特征优势和创新点能够更为明显易懂和便于实施,下面结合附图对具体实施方式做详细的说明。本领域技术人员可以在不违背本申请内涵时做类似推广,因此本申请不受下面公开的具体实施方式的限制。
基于卷积神经网络的深度学习,包括网络结构、基本运算和训练技巧等。尽管网络变得越来越高效,但架构设计却更加复杂,需要具有很丰富的专业知识和经验,并耗费大量时间成本,当前神经网络的设计依然是一个大难题。
目前CNN架构主要通过实验手工制作或从少数现有的网络中修改,这对专业技术知识有很高的要求且工作量巨大。所以神经网络的自动化及计算机辅助设计极具研发和应用价值。
本申请通过基于自强化网络晋级方案的元模型来自动化CNN架构的选择过程,将晋级方案与神经网络结构融合设计出一种可实现网络参数和模块自主学习,兼容线性与非线性的深度学习架构。
(1)针对CNN层结构包括层顺序和层类型的灵活选择问题,提出一种改进的自强化网络晋级方案作为元模型来对网络中的线性和非线性模块进行自主联合实现,基础网络是将LeNet-5与晋级自强化网络相结合,构造的一个具有五层结构的松散型神经网络,然后在CIFAR-10数据库和MNIST数据库的分类任务中,采用改进的晋级框架分别实现CNN线性卷积和非线性池化构建融合型网络,来验证本申请方法的有效性。
(2)针对图像分类网络的训练过程中容易产生内部变量漂移现象,采用调整改进的神经网络优化算法,来进行对比试验,另外考虑到感受野大小对网络性能的影响,对改进的晋级方案中的估计推理和改造算子进行修改优化,并在两个数据库上进行分类对比试验。结果表明,网络中的晋级和改造滤波的窗口大小为3×3,使用分层低熵方法后,分类精度大幅提高。
本申请在卷积神经网络LeNet-5模型的基础上,利用自强化网络的晋级方案设计新的网络架构,并在CIFAR-10数据集和MNIST数据集上验证其有效性,先将自强化网络引入神经网络,对输入图像语音提取不同晋级自强化网络特征输入神经网络训练,晋级操作相当于对网络输入的前置处理。提出自强化网络晋级方案生成神经网络层架构的方法,对卷积和池化层进行自主联合,用自适应卷积核代替估计推理算子和改造算子,分别替换卷积和池化,进而实现全晋级网络,并采用分层低熵来加速网络训练,将改进的晋级架构嵌进神经网络,作为其可学习的部分。
一、晋级网络自强化的深度学习框架
卷积神经网络目前参数可学习的部分只存在于线性运算,也即卷积核的学习,包括池化层和激活函数在内的非线性模块参数都是靠人为设置,并且对于网络层数、网络层类别都需要人工判定,这使得卷积神经网络架构的设计空间非常大,很多模型实例无法涉及,因此对于完全的手动搜索是不可行的。本申请基于晋级框架的深度学习模型,基于自强化网络晋级方案自身的设计灵活性和自适应特征,将晋级方案与神经网络结构融合设计出一种可实现网络参数和模块自主学习,兼容线性与非线性的深度学习架构。
在图1中,下部分是卷积神经网络架构,上部分是拟实现的全晋级网络模型,整个框架实现分为三个步骤:(1)晋级实现线卷积;(2)晋级实现池化;(3)晋级实现其它非线性模块。
现有技术不管是架构设计还是模块选择都需要人为设置。但本申请通过一个参数化、可学习的架构来实现卷积神经网络的包括卷积、池化、softmax在内的多个基元,并将这些模块都参数化,最终达到将BP算法传递的可学性从卷积系数扩充到架构类型和模块选择,实现自主学习的全晋级网络。
二、晋级网络自强化的线性和非线性自强化网络
基于晋级自强化网络在信号处理方面的优势,尤其是在图像语音压缩和编码应用中的优越性能,本申请将晋级网络与深度学习方法相结合,对神经网络的结构进行优化,构建图像语音分类模型。
(一)晋级方案驱动的线性自强化网络
采用二维离散强化网络、图像强化网络和语音强化网络构造晋级自强化网络。
(1)二维离散强化网络的滤波器组的Z变换为:
P(z)为互补滤波器组(h,g)的多相矩阵,对偶滤波器组(h*,g*)的多相矩阵为P*(z),x={x[n]|n∈Z}表示输入序列,c={c[n]|n∈Z}和d={d[n]|n∈Z}分别表示x[n]经过滤波器组(h,g)并下采样后得到的序列,则应用欧氏范数算法,其多相矩阵可表示为:
则分析多相矩阵为;
得二维离散强化网络的晋级自强化正变换为:
逆变换只需改变对应的符号,如下:
通过上述方法对传统二维离散强化网络进行晋级构造就得到二维离散晋级自强化网络,其晋级结构图表示如图2。
(2)对于图像强化网络,其分析多相矩阵表示为:
则相应的晋级过程如下:
图像分割:
d[n](0)=x[2n+1],c[n](0)=x[2n] 式7
估计推理1:
d[n](1)=d[n](0)+α(c[n](0)+c[n+l](0)) 式8
图像改造1:
c[n](1)=c[n](0)+β(d[n](1)+d[n-1](1)) 式8
估计推理2:
d[n](2)=d[n](1)+γ(c[n](1)+c[n+1](1)) 式9
图像改造2:
c[n](2)=c[n](1)+δ(d[n](2)+d[n-l](2)) 式10
收缩因子:
其中,α,β,δ,γ,K均为无理数,近似值为:
由上述晋级过程得到图像强化网络晋级方案,如图3所示.
从图3看出图像强化网络晋级方案增加一组估计推理和图像改造步骤,并基于原位计算,计算所需内存较少,不会增加运算成本,对运算速度也不会有影响。
(3)语音强化网络变换的算法表示如下:
语音分割:采用惰性自强化网络变换实现;
估计推理:
语音改造:
得到语音强化网络变换晋级方案。
(二)形态晋级自强化网络
(1)最大晋级格形态自强化网络
采用最大值算子作为估计推理算子和改造算子来构造形态晋级自强化网络,假设原始信号分解采用自强化网络分解,即:
估计推理算子P和改造算子U分别采用:
P(xe[n])=xe[n]∨xe[n+1]
U(d[n])=-(0∨d[n-l]∨d[n]) 式16
其中,∨为表示上确界的符号,xe[n]∨xe[n+1]表示集合{xe[n],xe[n+1]}的上确界;
晋级过程表示为:
估计推理:
d[n]=xo[n]-(xe[n]∨xe[n+1])=x[2n+1]-(x[2n]∨x[2n+2]) 式17
改造融合:
c[n]=xe[n]+(0∨d[n-1]∨d[n])=
x[2n]+(0∨(x[2n-2]-(x[2n-2]∨x[2n]))∨(x[2n+1]-(x[2n]∨x[2n+2]))) 式18
最大晋级方法选择偶部分信号xe[n]的两个邻域值xe(n)与xe(n+1)的最大值作为xo(n)的估计推理,改造晋级中同样将xe[n]的局部最大值映射为尺度信号xe[n],如果x(n)≥x(n±1),则信号x在点n具有局部最大值x(n)。
(2)中值晋级自强化网络
原始信号分解采用惰性自强化网络分解,利用中值算子作为改造算子来构造形态晋级自强化网络,估计推理和改造算子分别为:
P(xe[n])=xe[n]
U(d[n])=-median(0,d[n-1],d[n]) 式19
其中,median()函数返回给定数值的中值,按照上述方法得到一个非对偶自强化网络晋级方案,表示如下:
图像分割:
xe[n]=x[2n]
xo[n]=x[2n+1] 式20
估计推理:
d[n]=xo[n]-P(xe[n])=x[2n+1]-x[2n] 式21
改造融合:
c[n]=xe[n]+U(d[n])=x[2n]-median(0,d[n-1],d[n]) 式22
分析用的偶部信号通过对输入信号x[n]的局部估计推理误差进行改造融合,如果d[n-1]=x[2n-1]-x[2n-2]与d[n]=x[2n+1]-x[2n]的值异号,则x[2n]保持不变,当x[2n]是一个局部极值时,x[2n]的值保持不变,否则x[2n]按照x[2n-1]-x[2n-2]和x[2n+1]-x[2n]的最小差值完成自动调整。
三、晋级网络自强化的自强化网络特征提取
图像语音噪声的一种表现形式为孤立像素点的灰度突变,带有高频特性并且空间不相关,经晋级自强化网络处理后的图像语音被分解为包含图像语音细节和混入噪声的高频估计推理误差和体现图像语音轮廓的低频分量,利用晋级自强化网络进行图像语音特征提取,将改造融合得到的平滑分量作为卷积神经网络的输入,自强化网络与卷积神经网络采用松散融合方式,模型设计采用[conv+ReLU+pool]×N-conv-ReLU-[full connect]×M-softmax形式,将该网络记为LSQ-1。
在该网络模型中,Li代表晋级层,Ci表示卷积层,FCi表示全连接层,池化层和激活层都没有作为单独的网络层列出,默认为包含于卷积层,填充的边缘也未体现,本申请中的网络模型都采用此种画法,不是所有的卷积层后面都接有池化层。
晋级模块的具体实现过程为:对输入图像语音的每行和每列分别进行晋级,针对不同的自强化网络,其晋级方案不同,采用二维离散强化网络、图像强化网络和语音强化网络,利用估计推理误差改造得到的平滑分量输入到下层卷积神经网络,提取的晋级自强化网络特征图大小是输入的四分之一。
四、晋级网络自强化的神经网络模型
利用自强化网络变换的空间域,提出估计推理误差解释,提供用于设计定制变换的框架,这种设计具有非常大的灵活性,可以使用任何线性、非线性或空间变化的估计推理器和改造器以匹配给定信号的特性。
本申请基于晋级网络提出一种自适应自强化网络变换晋级框架,通过估计推理器和改造器的自适应来对信号进行分析处理,通过优化基于数据的估计推理误差准则来自适应的将这种晋级结构的处理调谐到期望的信号。
新变换利用更好的估计推理变量获得更有效的信号表示,即获取更好的特征表达。
改进前后的晋级方案对比图如图4所示。由图4可知,改进的晋级方案将原晋级方案的估计推理和改造算子用卷积核来代替。
(一)从晋级到卷积
在LSQ-1模型中,晋级模块的L1层并没有参数化,在训练过程中不可学,这相当于对输入图像语音的前置处理操作,为将晋级自强化网络与神经网络紧密结合,对晋级方案做如图4(b)的进一步改进,通过对神经网络的训练,让该晋级层的估计推理算子和改造算子实现自主学习,从而自适应的调整来匹配输入信号,并且更好的进行特征提取,晋级方案与网络的采用交融结合方式。
改进后的模型记为LSQ-2,它是将LSQ-1中的晋级层换成改进后的晋级结构并加入到神经网络结构内部,采用的形式是:(conv+ReLU+pool)×N-lifting×Z-(conv+ReLU)×M-full connect-softmax。
具体实现:(⑴)将原晋级方案的估计推理改造算子设计成卷积核,训练实现自适应性以克服其固定结构对特征提取结果的影响;(2)对输入进行惰性自强化网络变换,得到的奇偶部分按照图5中的估计推理和改造进行处理,P、U采取与卷积基元相同的局部连接与权值共享结构,改造所得的特征值组合成一张晋级特征图,输入到下层卷积神经网络中。
(二)晋级网络
将模型LSQ-2中的卷积层全部用晋级结构来实现得到的网络记为LSQ-3,采用的形式是:lifting×M-full connect×N-softmax。
在该模型结构中,晋级层后接的池化层和激活层都没有作为单独的网络层画出来,填充的边缘也没有在图上体现。晋级层的处理过程与LSQ-2相同,大小为32×32的输入数据进入网络后,每过一个晋级层大小都变为该层输入的四分之一,这样经过第三个晋级层的处理之后,就进入全连接层,最后通过softmax层输出进行判别分类。
(三)晋级实现池化
相比如传统的线性强化网络,形态晋级自强化网络不仅保留了多分辨率分析的特征还具有良好的细节保留和抑制图像语音噪声的能力,并且集成了晋级方案的灵活性,其局部极值保持的特征,对信号特征提取极为重要,将模型LSQ-1中的池化层分别用晋级结构实现,将原始晋级框架中的线性估计推理算子和改造算子替换成非线性形态滤波器。
(1)晋级实现max pooling。
按照最大晋级格形态自强化网络,将估计推理算子P和改造算子U分别设置成最大值算子来构造形态晋级方案,并将该晋级模块嵌进神经网络替换max pooling层,将LSQ-1网络中第一层卷积后面的max pooling层替换掉,第三层和第四层卷积后面的averagepooling层保留。
(2)晋级实现average pooling。
将估计推理算子P和改造算子U分别设置成常数1和中值算子,即构造一个中值形态晋级框架,然后用该晋级模块替换掉LSQ-1网络中第三层和第四层卷积后面的averagepooling层,第一层卷积后面的max pooling层保留。
(3)晋级实现池化
将LSQ-1网络中第一层卷积后面的max pooling层用最大晋级格形态自强化网络替换,第三层和第四层卷积后面的average pooling层用中值形态晋级框架来实现,得到的新模型记作LSQ-4。
五、实验结果及分析
一、实验设置
(1)网络架构
每个网络的输入图像大小固定为32×32,唯一的前置处理就是去均值操作(每个像素减去在训练集上计算的平均RGB值)。
(2)实验参数设置
各网络模型的训练采用具有动量的批量随机梯度下降的方法,批量大小设置为256,学习动量是0.9,权重衰减设置为0.0005,这个微小的权重衰减对于模型的学习至关重要,不仅作为一种正则化策略,还减少了模型的训练误差,权重系数w的改造公式为:
wi+1:=wt+vi+1 式23
对所有层使用相等的学习速率,然后在整个训练过程中手动调整,在测试错误率停止改善时将学习速率除以10,学习速率初始化为0.01,并在迭代完之前减小三次,设置的最大迭代次数是300。
另外,在训练网络时,首先对图像进行pad=2的填充处理,使得网络输入固定为32×32的大小,如图6。
A.晋级方案自强化网络的各个部分详细为:
输入层Input:模型网络的输入数据的尺寸是32×32,是输入图像像素值;
晋级层L1:输入数据经过晋级层处理后,只留下大小为原图四分之一的平滑分量,即卷积神经网络的输入大小是16×16;
卷积层C1:第一个卷积层用64个大小为5×5的卷积核对其输入进行处理,步长stride=1,填充pad=2,按照卷积层输出公式计算16-5+2×2+1=16,C1的输出为16×16,经过池化大小为3×3,得到8×8大小的输出,也即第二卷积层C2的输入。
C2、C3、C4都经过相同的处理,只是卷积层后面跟的池化层有差异,第三、四卷积层后面都采用均值池化average pooling,池化区域都为3×3,得到C4层输出大小是2×2,全连接层FC6有64个神经元,最后的softmax层则是作为分类器对图像语音的特征表达做判别分类。
B.从晋级到卷积
第一层的处理与LSQ-1相同,大小为32×32的输入数据在经过第一层的卷积和池化后得到16×16大小的输出,也即晋级层L2的输入,输入特征图经过晋级层的估计推理和改造滤波处理后,最终得到大小为8×8的低频输出,输入到感受野为3×3的池化层进行均值池化得到4×4大小的晋级特征输出,即第三层卷积层C3的输入大小是4×4,第三层卷积又以64个大小为4×4的卷积核对其输入进行处理,得到的输出经过全连接层FC4处理后被送到softmax层进行分类评判。
晋级层的具体实现过程为:将上一层的输出进行奇偶图像分割得到奇部分和偶部分,大小都是8×8,先对奇部分进行估计推理得到高频误差:将估计推理算子P设置为大小为5×5的卷积核,以步长stride=1和填充pad=2的方式对偶部分进行卷积处理,输出即为奇部分的预测值,将其与奇部分做减法,差值就是高频误差;晋级方案的第二步是通过更新奇部分得到平滑的输出分量:改造算子U设置成5x5大小的卷积核,以步长stride=1和填充pad=2的方式估计推理的高频误差进行卷积处理,输出再与前面的偶部分相加,其和作为偶部分的改造值,得到大小为8×8的晋级层特征图,然后输入到下层网络中。
C.晋级网络
图7为模型LSQ-3的结构参数图。在网络模型LSQ-3中,将LSQ-1中的卷积层全部用晋级模块代替得到了一个晋级网络,具体信息如图7所示,考虑到每经过一个晋级处理输出就缩小为四分之一,但网络输入尺寸不是很大,所以在前两个晋级层后都做上采样处理,经过该晋级层后得到的是跟该层输入同等大小的特征图,在经过L1后得到大小为32×32的输出,经激活层之后进入max pooling层,输出16×16大小的池化特征,Layer 2的输出尺寸为8×8,经过第二个average pooling之后得到的输出特征图大小为2×2,全连接层FC4有64×2×2=256个神经元。
D.从晋级到池化
网络模型LSQ-4是用形态晋级模块分别实现max pooling和average pooling,其具体结构是将LSQ-1的卷积网络前面的晋级层去掉,然后max pooling层和averagepooling层分别用最大格形态晋级框架和中值形态晋级框架来替换。卷积核个数,感受野大小等参数同图6。
(3)优化算法
在训练过程中随着迭代次数的增加,分类网络在训练集上的错误率逐渐减小,而在测试集上的分类误差却在增加,这是因为网络过度拟合了训练数据,而对其它数据集不能起到很好的建模效果。为提高模型的泛化能力,防止过拟合现象,本申请采用分层低熵优化方法,也即在网络架构中插入分层低熵层来调节包括卷积核个数、尺寸,学习速率,正则化强度在内的网络参数。
(4)对比试验设置
为评估模型在目标检测中的性能,进行了两组对比试验。
a基础模型选择
在LSQ-1模型的晋级模块中分别采用二维离散强化网络、图像强化网络和语音强化网络,分别在CIFAR-10数据集和MNIST数据集上进行分类实验。根据实验结果选取效果最好的晋级模块加入到网络中构建本申请实验的基础模型。
b晋级实现卷积。
分别采用晋级模块+卷积神经网络的模型LSQ-1,晋级+卷积的神经网络的模型LSQ-2和全晋级网络模型LSQ-3进行对比实验,形式上从松散到紧凑,参数上从人为设定到可学习,网络结构上从卷积神经网络到晋级网络,该晋级框架能够代替卷积,主要是因为,在结构上它有两个滤波器结构,本身实现的就是卷积运算,在特征提取这一功能上跟神经网络中卷积层无异;另外,卷积神经网络中的卷积层的处理是一定尺寸的卷积核在整个输入特征图上进行处理,而本申请提出的框架是在最开始先对输入特征图做惰性自强化网络变换(即图像分割成奇偶部分),然后针对每一部分做完卷积处理后又基于整张图进行自适应调整,这是该框架的一个明显优势。
c晋级实现pooling。
目前实现了利用非线性的最大晋级格形态自强化网络和中值形态晋级自强化网络来分别代替maxpooling和averagepooling。在这部分实验中,我们编写程序实现sortinglayer完成对averagepooling和maxpooling层的替换来进行对比实验。
二、实验结果分析
(1)基础模型选择
如图8,图像强化网络晋级方案多一组估计推理和改造步骤,有效避免图像语音重建误差扩大,提高了整个系统的稳定性,所以在基础模型LSQ-1的晋级模块中采用图像强化晋级网络,以下基础模型LSQ-1是指晋级模块采用图像强化晋级网络。
(2)晋级结构实现卷积
在CIFAR-10数据集上训练和测试模型,得到的分类结果,通过对实验结果的比较,在CIFAR-10上,晋级模块可学习的融合型网络模型LSQ-2和LSQ-3的分类精度分别比松散型网络模型LSQ-1高出了3.9%和6.5%。在MNIST上的分类实验,融合型网络也比松散型网络的性能要好,另外模型LSQ-2与模型LSQ-3的区别在于,前者只替换了一层卷积层,而后者的所有卷积层都是用晋级模块来实现的,正确率比前者高,说明晋级模块在特征提取上的有效性,以及对卷积层的替换有很好的效果。
(3)代替池化层
晋级方案分别实现max pooling、average pooling,编写sorting层替换maxpooling、average pooling和基础网络模型LSQ-1的对比实验,结果如图9所示。
通过对比图9中的实验结果,用晋级方案实现pooling层的网络模型LSQ-4分类精度比sortinglayer实现pooling层以及基础网络模型LSQ-1的分类精度都要高,充分说明晋级方案实现池化的有效性。
(4)策略选择的实验和分析
1)分层低熵优化技巧的使用
为进一步提高模型的分类准确率,对模型LSQ-1、LSQ-2、LSQ-3和模型LSQ-4分别使用分层低熵的优化策略进行训练,加快收敛,防止过拟合。在两个数据集上的实验结果如图10和图11。
通过图10和图11的实验结果可以得出,加了分层低熵层后松散型网络模型LSQ-1和融合型的网络模型LSQ-2、LSQ-3的正确率均有明显提高,晋级方案实现池化的模型LSQ-4的分类精度也有很大改善,这说明分层低熵对抑制网络过拟合,晋级网络分类精度有很好的效果。
2)感受野大小的选择
为了确定感受野大小对晋级模块性能的影响,在LSQ-3+BN模型的基础上调整设计几种不同的结构,保持模型的网络层次和其它因素不变,将三个晋级模块的改造和估计推理结构的感受野大小调整为2×2、3×3、5×5、7×7,并在CIFAR-10数据库和MNIST数据库上进行试验,结果如图12。
通过上述实验对比可知,晋级实现卷积时,估计推理和改造结构的感受野越小越好。
实验在深度卷积神经网络的基础上提出几种模型的变换,实现晋级模块对卷积网络的线性和非线性模块的统一,本申请在CIFAR-10数据集上对本申请提出的模型进行验证,首先通过一组对比实验证明本申请提出的晋级模块实现卷积结构的有效性;其次设置对比算法证明了晋级模块实现非线性池化层具有良好效果;改进模型与基础模型的对比证明了本申请提出的网络结构学习算法的有效性。
Claims (9)
1.晋级网络自强化的图像语音深度学习模型,其特征在于,通过基于自强化网络晋级方案的元模型来自动化CNN架构的选择过程,将晋级方案与神经网络结构融合设计出一种可实现网络参数和模块自主学习,兼容线性与非线性的深度学习架构;采用非线性形态晋级自强化网络,包括最大形态晋级和中值形态晋级两种方案,然后通过两种松散型和紧凑型两种方式,分别将线性和非线性晋级方案与神经网络分类模型相结合构造深度学习分类模型;在网络结构方面,提出自强化网络晋级方案生成神经网络层架构的方法,对卷积和池化层进行自主联合,用自适应卷积核代替估计推理算子和改造算子,分别替换卷积和池化,进而实现全晋级网络;在网络运算方面,用晋级操作来实现卷积运算和池化运算,实现线性与非线性的统一;在神经网络的训练过程中,采用分层低熵来加速网络训练,将改进的晋级架构与神经网络的紧凑型结合,不仅使网络保留卷积的可学习性,还使得池化层变得可学习;
第一,针对CNN层结构包括层顺序和层类型的灵活选择问题,提出一种改进的自强化网络晋级方案作为元模型来对网络中的线性和非线性模块进行自主联合实现,基础网络是将LeNet-5与晋级自强化网络相结合,构造的一个具有五层结构的松散型神经网络,通过构建不同的晋级框架来实现对神经网络不同模块的拟合,采用改进的晋级框架分别实现CNN线性卷积和非线性池化构建融合型网络;
第二,针对图像分类网络的训练过程中容易产生内部变量漂移现象,采用调整改进的神经网络优化算法,考虑到感受野大小对网络性能的影响,对改进的晋级方案中的估计推理和改造算子进行修改优化,网络中的晋级和改造滤波的窗口大小为3×3,使用分层低熵方法后,分类精度大幅提高。
2.根据权利要求1所述晋级网络自强化的图像语音深度学习模型,其特征在于,晋级网络自强化的深度学习框架:基于晋级框架的深度学习模型,基于自强化网络晋级方案自身的设计灵活性和自适应特征,将晋级方案与神经网络结构融合设计出一种可实现网络参数和模块自主学习,兼容线性与非线性的深度学习架构,上部分是卷积神经网络架构,下部分是拟实现的全晋级网络模型,整个框架实现分为三个步骤:(1)晋级实现线卷积;(2)晋级实现池化;(3)晋级实现其它非线性模块;
通过一个参数化、可学习的架构实现卷积神经网络的包括卷积、池化、softmax在内的多个基元,并将这些模块都参数化,最终将BP算法传递的可学性从卷积系数扩充到架构类型和模块选择,实现自主学习的全晋级网络。
3.根据权利要求1所述晋级网络自强化的图像语音深度学习模型,其特征在于,晋级方案驱动的线性自强化网络:采用二维离散强化网络、图像强化网络和语音强化网络构造晋级自强化网络;
(1)二维离散强化网络的滤波器组的Z变换为:
P(z)为互补滤波器组(h,g)的多相矩阵,对偶滤波器组(h*,g*)的多相矩阵为P*(z),x={x[n]|n∈Z}表示输入序列,c={c[n]|n∈Z}和d={d[n]|n∈Z}分别表示x[n]经过滤波器组(h,g)并下采样后得到的序列,则应用欧氏范数算法,其多相矩阵可表示为:
则分析多相矩阵为;
得二维离散强化网络的晋级自强化正变换为:
逆变换只需改变对应的符号,如下:
通过上述方法对二维离散强化网络进行晋级构造就得到二维离散晋级自强化网络;
(2)对于图像强化网络,其分析多相矩阵表示为:
则相应的晋级过程如下:
图像分割:
d[n](0)=x[2n+1],c[n](0)=x[2n] 式7
估计推理1:
d[n](1)=d[n](0)+α(c[n](0)+c[n+1](0)) 式8
图像改造1:
c[n](1)=c[n](0)+β(d[n](1)+d[n-1](1)) 式8
估计推理2:
d[n](2)=d[n](1)+γ(c[n](1)+c[n+1](1)) 式9
图像改造2:
c[n](2)=c[n](1)+δ(d[n](2)+d[n-1](2)) 式10
收缩因子:
其中,α,β,δ,γ,K均为无理数,近似值为:
由上述晋级过程得到图像强化网络晋级方案,增加一组估计推理和图像改造步骤,并基于原位计算,计算所需内存较少,不增加运算成本,对运算速度也无影响;
(3)语音强化网络变换的算法表示如下:
语音分割:采用惰性自强化网络变换实现;
估计推理:
语音改造:
得到语音强化网络变换晋级方案。
4.根据权利要求1所述晋级网络自强化的图像语音深度学习模型,其特征在于,形态晋级自强化网络:
(1)最大晋级格形态自强化网络
采用最大值算子作为估计推理算子和改造算子来构造形态晋级自强化网络,假设原始信号分解采用自强化网络分解,即:
估计推理算子P和改造算子U分别采用:
P(xe[n])=xe[n]∨xe[n+1]
U(d[n])=-(0∨d[n-1]∨d[n]) 式16
其中,∨为表示上确界的符号,xe[n]∨xe[n+1]表示集合{xe[n],xe[n+1]}的上确界;
晋级过程表示为:
估计推理:
d[n]=xo[n]-(xe[n]∨xe[n+1])=x[2n+1]-(x[2n]∨x[2n+2]) 式17
改造融合:
c[n]=xe[n]+(0∨d[n-1]∨d[n])=
x[2n]+(0∨(x[2n-2]-(x[2n-2]∨x[2H]))∨(x[2n+1]-(x[2n]∨x[2n+2]))) 式18
最大晋级方法选择偶部分信号xe[n]的两个邻域值xe(n)与xe(n+1)的最大值作为xo(n)的估计推理,改造晋级中同样将xe[n]的局部最大值映射为尺度信号xe[n],如果x(n)≥x(n±1),则信号x在点n具有局部最大值x(n);
(2)中值晋级自强化网络
原始信号分解采用惰性自强化网络分解,利用中值算子作为改造算子来构造形态晋级自强化网络,估计推理和改造算子分别为:
P(xe[n])=xe[n]
U(d[n])=-median(0,d[n-1],d[n]) 式19
其中,median()函数返回给定数值的中值,按照上述方法得到一个非对偶自强化网络晋级方案,表示如下:
图像分割:
xe[n]=x[2n]
xo[n]=x[2n+1] 式20
估计推理:
d[n]=xo[n]-P(xe[n])=x[2n+1]-x[2n] 式21
改造融合:
c[n]=xe[n]+U(d[n])=x[2n]-median(0,d[n-1],d[n]) 式22
分析用的偶部信号通过对输入信号x[n]的局部估计推理误差进行改造融合,如果d[n-1]=x[2n-1]-x[2n-2]与d[n]=x[2n+1]-x[2n]的值异号,则x[2n]保持不变,当x[2n]是一个局部极值时,x[2n]的值保持不变,否则x[2n]按照x[2n-1]-x[2n-2]和x[2n+1]-x[2n]的最小差值完成自动调整。
5.根据权利要求1所述晋级网络自强化的图像语音深度学习模型,其特征在于,晋级网络自强化的自强化网络特征提取:图像语音噪声为孤立像素点的灰度突变,带有高频特性且空间不相关,经晋级自强化网络处理后的图像语音被分解为包含图像语音细节和混入噪声的高频估计推理误差和体现图像语音轮廓的低频分量,利用晋级自强化网络进行图像语音特征提取,将改造融合得到的平滑分量作为卷积神经网络的输入,自强化网络与卷积神经网络采用松散融合方式,模型采用[conv+ReLU+pool]×N-conv-ReLU-[full connect]×M-softmax形式,将该网络记为LSQ-1,在该网络模型中,Li代表晋级层,Ci表示卷积层,FCi表示全连接层;
晋级模块的具体实现过程为:对输入图像语音的每行和每列分别进行晋级,针对不同的自强化网络,其晋级方案不同,采用二维离散强化网络、图像强化网络和语音强化网络,利用估计推理误差改造得到的平滑分量输入到下层卷积神经网络,提取的晋级自强化网络特征图大小是输入的四分之一。
6.根据权利要求1所述晋级网络自强化的图像语音深度学习模型,其特征在于,晋级网络自强化的神经网络模型:利用自强化网络变换的空间域,提出估计推理误差解释,提供用于设计定制变换的框架,使用任何线性、非线性或空间变化的估计推理器和改造器以匹配给定信号的特性;
本申请基于晋级网络提出一种自适应自强化网络变换晋级框架,通过估计推理器和改造器的自适应来对信号进行分析处理,通过优化基于数据的估计推理误差准则来自适应的将这种晋级结构的处理调谐到期望的信号;
新变换利用更好的估计推理变量获得更有效的信号表示,即获取更好的特征表达,改进的晋级方案将原晋级方案的估计推理和改造算子用卷积核来代替。
7.根据权利要求6所述晋级网络自强化的图像语音深度学习模型,其特征在于,(一)从晋级到卷积:
在LSQ-1模型中,晋级模块的L1层并没有参数化,在训练过程中不可学,这相当于对输入图像语音的前置处理操作,为将晋级自强化网络与神经网络紧密结合,对晋级方案做进一步改进,通过对神经网络的训练,让该晋级层的估计推理算子和改造算子实现自主学习,从而自适应的调整来匹配输入信号,并且更好的进行特征提取,晋级方案与网络的采用交融结合方式;
改进后的模型记为LSQ-2,它是将LSQ-1中的晋级层换成改进后的晋级结构并加入到神经网络结构内部,采用的形式是:(conv+ReLU+pool)×N-lifting×Z-(conv+ReLU)×M-full connect-softmax;
具体实现:⑴将原晋级方案的估计推理改造算子设计成卷积核,训练实现自适应性以克服其固定结构对特征提取结果的影响;(2)对输入进行惰性自强化网络变换,得到的奇偶部分按照估计推理和改造进行处理,P、U采取与卷积基元相同的局部连接与权值共享结构,改造所得的特征值组合成一张晋级特征图,输入到下层卷积神经网络中。
8.根据权利要求6所述晋级网络自强化的图像语音深度学习模型,其特征在于,(二)晋级网络:
将模型LSQ-2中的卷积层全部用晋级结构来实现得到的网络记为LSQ-3,采用的形式是:lifting×M-full connect×N-softmax;
晋级层的处理过程与LSQ-2相同,大小为32×32的输入数据进入网络后,每过一个晋级层大小都变为该层输入的四分之一,这样经过第三个晋级层的处理之后,就进入全连接层,最后通过softmax层输出进行判别分类。
9.根据权利要求6所述晋级网络自强化的图像语音深度学习模型,其特征在于,(三)晋级实现池化:
形态晋级自强化网络不仅保留多分辨率分析的特征还具有良好的细节保留和抑制图像语音噪声的能力,并且集成晋级方案的灵活性,其局部极值保持的特征,对信号特征提取极为重要,将模型LSQ-1中的池化层分别用晋级结构实现,将原始晋级框架中的线性估计推理算子和改造算子替换成非线性形态滤波器;
(1)晋级实现max pooling
按照最大晋级格形态自强化网络,将估计推理算子P和改造算子U分别设置成最大值算子来构造形态晋级方案,并将该晋级模块嵌进神经网络替换max pooling层,将LSQ-1网络中第一层卷积后面的max pooling层替换掉,第三层和第四层卷积后面的average pooling层保留;
(2)晋级实现average pooling
将估计推理算子P和改造算子U分别设置成常数1和中值算子,即构造一个中值形态晋级框架,然后用该晋级模块替换掉LSQ-1网络中第三层和第四层卷积后面的averagepooling层,第一层卷积后面的max pooling层保留;
(3)晋级实现池化
将LSQ-1网络中第一层卷积后面的max pooling层用最大晋级格形态自强化网络替换,第三层和第四层卷积后面的average pooling层用中值形态晋级框架来实现,得到的新模型记作LSQ-4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210298215.0A CN114692830A (zh) | 2022-03-25 | 2022-03-25 | 晋级网络自强化的图像语音深度学习模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210298215.0A CN114692830A (zh) | 2022-03-25 | 2022-03-25 | 晋级网络自强化的图像语音深度学习模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114692830A true CN114692830A (zh) | 2022-07-01 |
Family
ID=82139828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210298215.0A Pending CN114692830A (zh) | 2022-03-25 | 2022-03-25 | 晋级网络自强化的图像语音深度学习模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114692830A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115828831A (zh) * | 2023-02-14 | 2023-03-21 | 之江实验室 | 基于深度强化学习的多芯粒芯片算子放置策略生成方法 |
CN117763399A (zh) * | 2024-02-21 | 2024-03-26 | 电子科技大学 | 一种自适应变长信号输入的神经网络分类方法 |
-
2022
- 2022-03-25 CN CN202210298215.0A patent/CN114692830A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115828831A (zh) * | 2023-02-14 | 2023-03-21 | 之江实验室 | 基于深度强化学习的多芯粒芯片算子放置策略生成方法 |
CN117763399A (zh) * | 2024-02-21 | 2024-03-26 | 电子科技大学 | 一种自适应变长信号输入的神经网络分类方法 |
CN117763399B (zh) * | 2024-02-21 | 2024-05-14 | 电子科技大学 | 一种自适应变长信号输入的神经网络分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cai et al. | Path-level network transformation for efficient architecture search | |
CN109711426B (zh) | 一种基于gan和迁移学习的病理图片分类装置及方法 | |
CN113905391B (zh) | 集成学习网络流量预测方法、系统、设备、终端、介质 | |
CN114692830A (zh) | 晋级网络自强化的图像语音深度学习模型 | |
CN109829541A (zh) | 基于学习自动机的深度神经网络增量式训练方法及系统 | |
Cherabier et al. | Learning priors for semantic 3d reconstruction | |
CN107729999A (zh) | 考虑矩阵相关性的深度神经网络压缩方法 | |
CN107123089A (zh) | 基于深度卷积网络的遥感图像超分辨重建方法及系统 | |
CN111986075B (zh) | 一种目标边缘清晰化的风格迁移方法 | |
CN112183742A (zh) | 基于渐进式量化和Hessian信息的神经网络混合量化方法 | |
CN111986085A (zh) | 一种基于深度反馈注意力网络系统的图像超分辨率方法 | |
Chen et al. | Controllable image processing via adaptive filterbank pyramid | |
CN113379655A (zh) | 一种基于动态自注意力生成对抗网络的图像合成方法 | |
CN114897690A (zh) | 一种基于串行高频注意力的轻量化图像超分辨率方法 | |
CN111967528B (zh) | 基于稀疏编码的深度学习网络结构搜索的图像识别方法 | |
CN113962262B (zh) | 一种基于连续学习的雷达信号智能分选方法 | |
CN116432053A (zh) | 基于模态交互深层超图神经网络的多模态数据表示方法 | |
CN115063597A (zh) | 一种基于类脑学习的图像识别方法 | |
CN114862733A (zh) | 结合光谱解混先验和可学习退化约束的高光谱图像融合方法 | |
CN114118357A (zh) | 计算机视觉神经网络中替换激活函数的重训练方法及系统 | |
CN112598115A (zh) | 一种基于非局部邻关系学习的深度神经网络层次分析方法 | |
CN114820326B (zh) | 基于可调节核稀疏化的高效单帧图像超分方法 | |
CN114584150B (zh) | 一种利用深度神经网络实现的传感器网络信号补全方法 | |
CN116030257B (zh) | 一种基于NesT模型的语义分割方法 | |
Kotb et al. | AutoDLCon: An Approach for Controlling the Automated Tuning for Deep Learning Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |