CN110765704A

CN110765704A - 一种应用于微波器件的新型深层神经网络自动建模方法

Info

Publication number: CN110765704A
Application number: CN201911210240.3A
Authority: CN
Inventors: 那伟聪; 张万荣; 谢红云; 金冬月
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-02-07
Anticipated expiration: 2039-11-28
Also published as: CN110765704B

Abstract

本发明涉及一种应用于微波器件的新型深层神经网络自动建模方法，属于微波器件建模领域，用于解决现有的浅层神经网络建模方法不能满足微波器件建模领域面临的模型维度高、工作范围大、可靠性高等新需求的问题。本发明具体提出了一种新型的包含Batch Normalization(BN，批量归一化)层和Sigmoid隐藏层的混合型深层神经网络结构及其训练方法，能够解决由于神经网络层数增多而引起的梯度消失和训练被阻止的问题；并采用自适应算法自动确定深层神经网络中BN层和Sigmoid隐藏层的层数，实现训练过程自动化。采用本发明得到的深层神经网络模型能够精确表示微波器件复杂、连续、高度非线性的器件特性，计算速度快，能有效代替原始器件进行后续电路或系统的仿真与设计。

Description

一种应用于微波器件的新型深层神经网络自动建模方法

技术领域

本发明涉及微波器件建模领域，尤其涉及人工神经网络技术在微波器件建模领域的应用。

背景技术

随着通讯技术的快速发展，微波电路的设计越来越依赖于计算机辅助设计技术，精确高效的微波器件模型在微波电路仿真和设计中至关重要。基于人工神经网络的建模方法被公认为是一种代替传统建模技术的有效方法^[1]。神经网络模型不但能精确表示微波器件的非线性输入输出关系，而且从输入到输出的计算速度极快，能大大缩短微波电路或系统的仿真周期。

然而近几年随着微波技术的不断发展，电路规模、性能指标和工作频段不断提高，新工艺、新材料、新结构的电子器件不断涌现，现有的浅层神经网络建模方法已不能满足微波器件建模领域面临的模型维度高、工作范围大、可靠性高等新需求。目前，国内外科研人员普遍采用分解建模法来解决这类复杂的建模问题。分解建模法主要包括对器件复杂结构的分解^[2]、对模型输入变量的分解^[3]和对建模区域的分解^[4]，生成多个子模型，从而把单个复杂建模问题转化成多个简单建模问题。但是，分解建模法具有一定的应用局限性，采用该方法建立的神经网络模型普遍无法有效地保证各个子模型之间的数值连续和导数连续，导致模型在后续的电路设计和仿真优化过程中的可靠性降低。因此，仍需要开发新的神经网络建模方法来解决这类复杂的建模问题。

近年来，在浅层神经网络的基础上，含有更多(三个及三个以上)隐藏层的深层神经网络和深度学习概念已经逐渐引起学术界和工业界的关注。深层神经网络被认为在大数据、复杂关系建模等方面非常有效^[5]，已经在许多具有挑战性的领域获得了成功，例如图像识别^[6]、语音识别^[7]、语言处理^[8]等。实验表明^[9]，在具有相同数目的神经网络训练参数的情况下，深层神经网络比浅层神经网络具有更高的精确度和更好的预测性能，更适合处理具有高复杂度的非线性建模问题。因此，深层神经网络技术为解决微波器件建模领域高维度、大范围、高度非线性的微波器件建模问题提供了一种可行性方案。

本发明结合深层神经网络的优点和微波器件建模问题的特点，提出一种新型的包含Batch Normalization(BN，批量归一化)层和Sigmoid隐藏层的混合型深层神经网络结构及其训练方法，并采用自适应算法自动确定深层神经网络中BN层和Sigmoid隐藏层的层数，实现训练过程自动化。训练好的深层神经网络模型精度高，计算速度快，能有效代替原始器件进行后续电路或系统的仿真与设计。

参考文献：

[1]Q.J.Zhang,K.C.Kupta.Neural networks for RF and microwave design[M].Norwood,MA:Artech House,2000.

[2]Y.Cao,S.Reitzinger,Q.J.Zhang.Simple and efficient high-dimensionalparametric modeling for microwave cavity filters using modular neural network[J].IEEE Microwave Wireless Component Letters,2011,21(5):258-260.

[3]V.M.R.Gongal-Reddy,F.Feng,C.Zhang,et al.Parallel decompositionapproach to gradient-based EM optimization[J].IEEE Transactions on MicrowaveTheory and Techniques,2016,64(11):3380-3399.

[4]W.Zhang,F.Feng,J.Zhang,et al.Space mapping approach toelectromagnetic centric Multiphysics parametric modeling of microwavecomponents[J].IEEE Transactions on Microwave Theory and Techniques,2018,66(7):3169-3185.

[5]Y.LeCun,Y.Bengio,G.Hinton.Deep learning[J].Nature,2015,521:436-444.

[6]C.Farabet,C.Couprie,L.Najman,et al.Learning hierarchical featuresfor scene labeling[J].IEEE Transactions on Pattern Analysis and MachineIntelligence,2013,35(8):1915-1929.

[7]D.Chen,B.K.Mak.Multitasking learning of deep neural networks forlow-resource speech recognition[J].IEEE Transactions on Audio,Speech,andLanguage Processing,2015,23(7):1172-1183.

[8]R.Collobert,J.Weston.A unified architecture for natural languageprocessing:Deep neural networks with multitask learning[C].InternationalConference on Machine Learning.2008:160-167.

[9]F.Seide,G.Li,D.Yu.Conversational speech transcription usingcontext-dependent deep neural networks[C].Conference of the InternationalSpeech Communication Association.2011:437-440.

发明内容

本发明提出一种应用于微波器件的结合批量归一化的新型深层神经网络自动建模方法。具体包括提出了一种新型的包含Batch Normalization(BN，批量归一化)层和Sigmoid隐藏层的混合型深层神经网络结构及其训练方法，并采用自适应算法自动确定深层神经网络中BN层和Sigmoid隐藏层的层数，实现训练过程自动化。本发明能够满足微波器件建模领域面临的模型维度高、工作范围大、可靠性高等新需求，同时有效解决现有的深层神经网络结构及神经元激活函数在微波器件建模过程中存在的以下问题：(1)在图像处理领域深层神经网络常用的Rectified Linear Unit(ReLU)激活函数及其一阶导数不连续，无法被直接用来表示微波器件建模问题中连续的输入输出响应；(2)浅层神经网络常用的Sigmoid激活函数在深层神经网络训练中会出现梯度消失的现象，导致训练被阻止。本发明所提出的建模方法能够有效解决以上问题，得到的深层神经网络模型能够精确表示微波器件复杂、连续、高度非线性的器件特性，计算速度快，能有效代替原始器件进行后续电路或系统的仿真与设计。

本发明提出的一种应用于微波器件的结合批量归一化的新型深层神经网络自动建模方法，主要包括以下步骤：

步骤1：根据实际的微波建模问题，确定深层神经网络模型中输入变量x和输出变量y的数目，构建结合批量归一化的混合型深层神经网络结构。该深层神经网络包含1个输入层，L个BN层，L个Sigmoid隐藏层(L≥3)和1个输出层，其中每个Sigmoid隐藏层前均连接一个BN层，该BN层相当于一个归一化器，用于对其后连接的Sigmoid隐藏层的输入数值进行归一化处理。每个BN层和Sigmoid隐藏层中神经元的数目是根据建模问题的难易程度预先确定的，且在训练过程中固定不变：如果建模范围大、输入变量多，则每层神经元的数目大；反之，则每层神经元的数目小；建议其数量范围在50到150之间。

步骤2：初始化计数k＝1。通过测量或者仿真，获取建模所需的训练数据和验证数据，分别用于深层神经网络的训练和验证。

步骤3：k＝k+1。初始化深层神经网络的权重参数，采用结合BN层和Sigmoid隐藏层的混合型神经网络反向传播算法，分别输入训练数据和验证数据对深层神经网络进行训练和验证，得到当前阶段(即第k个阶段)神经网络的训练误差

和验证误差

步骤4：采用自适应算法确定深层神经网络中BN层和Sigmoid隐藏层的层数：如果当前深层神经网络的训练误差

大于用户期望的测试误差阈值E_d，说明当前深层神经网络欠学习，在原有深层神经网络结构中增加一个BN层和一个Sigmoid隐藏层，然后返回步骤3；如果当前深层神经网络的训练误差

小于等于用户期望的测试误差阈值E_d，但测试误差

大于用户期望的测试误差阈值E_d，说明当前深层神经网络过度学习，增加训练数据，然后返回步骤3；如果当前深层神经网络的训练误差

小于等于用户期望的测试误差阈值E_d，且测试误差

小于等于用户期望的测试误差阈值E_d，说明当前深层神经网络良好学习，训练结束。

该过程为自适应训练算法，自动确定深层神经网络中BN层和Sigmoid隐藏层的层数，实现训练过程自动化。

步骤5：得到模型，训练好的深层神经网络模型可代替原始器件进行后续电路或系统的仿真与设计。

本发明区别于现有技术的发明点有以下几点：

1.本发明步骤1中，提出了一种全新的包含BN层和Sigmoid隐藏层的混合型深层神经网络结构，该结构是首次应用在微波器件建模领域。本发明在传统的全连接Sigmoid隐藏层中加入BN层，每个BN层相当于一个归一化器，对每个Sigmoid隐藏层的输入进行归一化处理，从而解决了传统的全连接Sigmoid隐藏层的深层神经网络在使用反向传播算法进行训练过程中会出现梯度消失的问题，使深层神经网络模型能够准确反映微波器件的特性。

该结构中第l个BN层的第i个神经元输出

第l个Sigmoid隐藏层的第i个神经元输出

以及输出层的第i个神经元输出y_i分别为

其中n表示输入变量的个数，N_l-1表示第l-1个Sigmoid隐藏层神经元的个数(l＝2,3,…,L)，f(·)表示Sigmoid激活函数，

表示深层神经网络第l个Sigmoid隐藏层中第j个神经元与第l+1个BN层中第i个神经元之间的权值，

表示第l个Sigmoid隐藏层中第j个神经元的偏差，

和

分别表示第l个BN层中i个神经元输出的缩放量和平移量，

和

分别表示通过所有训练数据计算得到的第l个BN层中第i个神经元输出的期望值和方差。

2.本发明步骤3中，将传统的基于梯度的反向传播算法推广到本发明提出的混合型深层神经网络训练中，具体的发明点如下：

误差函数相对于神经网络的第i个输出y_i的局部梯度

以及误差函数相对于第l个BN层中第i个神经元的局部梯度

的计算公式分别为

其中y_i表示深层神经网络对训练数据x的第i个输出的预测值，d_i表示训练数据中x对应的第i个输出的实际值。由于批量归一化是一种可微变换，本发明保证了基于梯度反向传播的深层神经网络训练能够顺利进行，并通过批量归一化使Sigmoid激活函数的输入分布趋近于Sigmoid函数的非线性饱和区域，从而有效解决深层神经网络梯度消失的问题。

3.本发明步骤4中，提出了适用于微波器件深层神经网络模型的自适应算法，自动确定深层神经网络中BN层和Sigmoid隐藏层的层数，自动调用深层神经网络训练工具，从而实现训练过程自动化。本发明的自适应算法中，深层神经网络的BN层和Sigmoid隐藏层的初始层数L≥3。根据微波器件建模问题的复杂程度，每个BN层和Sigmoid隐藏层的神经元数目是预先确定的。微波器件建模问题复杂度高，每个BN层和Sigmoid隐藏层的神经元数目大；微波器件建模问题复杂度高，每个BN层和Sigmoid隐藏层的神经元数目少；建议每个BN层和Sigmoid隐藏层的神经元数目的取值在50至150之间。

有益效果

综上所述，本发明提出的应用于微波器件的结合批量归一化的新型深层神经网络自动建模方法能够有效解决微波器件建模领域不断涌现的高复杂度的建模问题，在避免深层神经网络训练中梯度消失问题的同时，自动确定模型结构，最终得到的深层神经网络模型能够精确表示微波器件复杂、连续、高度非线性的器件特性，计算速度快，能有效代替原始器件进行后续电路或系统的仿真与设计。

附图说明

图1是本发明提出的结合批量归一化的混合型深层神经网络结构图；

图2是本发明提出的应用于微波器件的深层神经网络自动建模算法流程图；

图3是本发明实施例(波导滤波器)的器件结构；

图4是本发明实施例(波导滤波器)的验证数据和模型输出特性曲线。

具体实施方式

本发明提出的新型深层神经网络自动建模方法可应用于各种微波器件的建模与设计，如微波滤波器的参数化建模、天线的电磁优化设计、晶体管建模等。为使本发明的目的、技术方案和优点更加清楚明确，下面将结合附图对本发明的实施例(波导滤波器建模)作详细描述。

如图1所示，本发明提出一种新型的包含BN层和Sigmoid隐藏层的混合型深层神经网络结构。采用该结构对如图3所示的波导滤波器建模时，深层神经网络的输入变量x是滤波器的几何参数h₁，h₂，h₃，h_c1，h_c2和频率ω，记为x＝[h₁ h₂ h₃ h_c1 h_c2ω]^T；输出变量y是S₁₁的实部和虚部，记为y＝[RS₁₁ IS₁₁]^T。

采用如图2所示的深层神经网络自动建模算法对该波导滤波器进行建模，建模范围是h₁＝3.08～3.824mm，h₂＝3.96～4.704mm，h₃＝3.63～4.374mm，h_c1＝2.82～3.564mm，h_c2＝2.65～3.394mm，ω＝10.5～11.5GHz，训练数据和验证数据是在该建模范围中通过Design of Experiment(DoE，试验设计)采样方法获得的两组不同的数据集，其中训练数据用于训练模型，验证数据用于检验模型。该建模问题由于建模范围较大，如果采用只包含一个或两个隐藏层的浅层神经网络进行建模，无法得到能够满足用户期望的测试误差阈值的模型。因此，需要采用本发明提出的深层神经网络建模方法。此实施例中用户期望的测试误差阈值为1％到2％。在模型开发过程中，利用各阶段的模型训练误差和测试误差与用户期望的测试误差阈值之间的关系，来确定深层神经网络中BN层和Sigmoid隐藏层的层数。通过自适应算法，最终得到该实施例的深层神经网络模型包含1个输入层、9个BN层、9个Sigmoid隐藏层和1个输出层，其中每个BN层和Sigmoid隐藏层均包含100个神经元。

图4为利用本发明建模方法建立模型输出特性(|S₁₁|)曲线与验证数据比较图，可以看出深层神经网络模型的输出曲线与验证数据拟合度良好。

Claims

1.一种应用于微波器件的新型深层神经网络自动建模方法，其特征在于：

步骤1：根据实际的微波建模问题，确定深层神经网络模型中输入变量x和输出变量y的数目，构建混合型深层神经网络结构，所述的混合型深层神经网络结构包含1个输入层，L个Batch Normalization(BN)层，L个Sigmoid隐藏层(L≥3)和1个输出层，其中每个Sigmoid隐藏层前均连接一个BN层，该BN层相当于一个归一化器，用于对其后连接的Sigmoid隐藏层的输入数值进行归一化处理，每个BN层和Sigmoid隐藏层中神经元的数目是根据建模问题的难易程度预先确定的，且在训练过程中固定不变，其数量范围在50到150之间；

步骤2：初始化计数k＝1，通过测量或者仿真，获取建模所需的训练数据和验证数据，分别用于深层神经网络的训练和验证；

步骤3：k＝k+1，初始化深层神经网络的权重参数，采用结合BN层和Sigmoid隐藏层的混合型神经网络反向传播算法，分别输入训练数据和验证数据对深层神经网络进行训练和验证，得到当前阶段(即第k个阶段)神经网络的训练误差