CN110414565B

CN110414565B - 一种用于功率放大器的基于Group Lasso的神经网络裁剪方法

Info

Publication number: CN110414565B
Application number: CN201910582403.4A
Authority: CN
Inventors: 于翠屏; 唐珂; 刘元安; 黎淑兰; 苏明; 吴永乐; 王卫民; 唐碧华
Original assignee: Beijing University of Posts and Telecommunications; China Academy of Space Technology CAST
Current assignee: Beijing University of Posts and Telecommunications; China Academy of Space Technology CAST
Priority date: 2019-05-06
Filing date: 2019-06-28
Publication date: 2021-06-08
Anticipated expiration: 2039-06-28
Also published as: CN110414565A

Abstract

本发明公开了一种用于功率放大器的基于Group Lasso的神经网络裁剪方法，属于通信技术领域。首先对原始神经网络结构，将除了输出层以外的其余层中连接在同一个神经元的所有输出权重分为一组；分组后对每组权重分别执行L₂范数约束；然后将原始神经网络结构中所有组的权重的L₂范数之和作为Group Lasso罚项

添加到原损失函数Loss₁之后，得到新的损失函数Loss₂；通过BP算法对Loss₂进行极小化训练，寻找收敛接近于0的权重组，并去掉这些权重组连接的神经元，得到简化后的神经网络，采用BP算法对原始损失函数Loss₁进行训练，得到训练完成的简化后的神经网络模型，在利用该模型对功率放大器进行建模或预失真。本发明可抑制训练过程中的过拟合，提高预失真效果，降低计算量，便于工程应用。

Description

一种用于功率放大器的基于Group Lasso的神经网络裁剪方法

技术领域

本发明属于通信技术领域，具体是一种用于功率放大器的基于Group Lasso的神经网络裁剪方法。

背景技术

随着通信技术的不断发展，为了更高效的利用有限的频谱资源，新的具有高频谱效率的调制技术被用于通信标准。然而这些新的调制方式使信号峰均比变高，包络波动变大，导致信号经过射频功率放大器后会产生严重失真；不仅导致信号输出前后的EVM恶化严重，同时会产生严重的带外失真。

为了校正信号通过功率放大器产生的失真，需要对功率放大器进行线性化。目前线性化技术中，预失真技术以其实现复杂度低，稳定性高，带宽宽和线性化性能好等特点被广泛应用。

预失真技术就是在功率放大器前端加入一个与功率放大器特性相反的预失真器，信号先通过预失真器进行预先失真处理，将预处理之后的信号再通过功率放大器，由于预失真器特性和功率放大器特性互相补偿，使得最终功率放大器的输出信号与原始输入信号呈线性关系。如图1所示，V_i是输入的原始信号，函数F(·)是预失真器的传递函数，函数G(·)是功率放大器的传递函数，原始信号通过预失真器再通过功率放大器得到输出信号G(F(x))，这个输出信号与原始输入V_i呈线性关系。

预失真技术需要构建功率放大器的行为模型以及其逆模型。数字预失真系统结构如图2 所示，该电路主要包括：预失真器，数模转换器(D/A)，功率放大器，衰减器和模数转换器(A/D)。信号的预失真处理是在数字域完成的：输入信号x(n)通过预失真器，得到预失真信号z(n)，该预失真信号z(n)经过D/A转换，调制和上变频后，成为射频功率放大器的输入信号Z_RF(n)，再经由功率放大器放大后得到输出信号y_RF(t)，y_RF(t)经过增益为1/k的衰减器(k为功率放大器的期望增益)后形成反馈，该反馈信号经过下变频，解调和A/D转换后，成为预失真器的另一路输入信号y(n)/k，预失真器根据x(n)和y(n)/k计算更新预失真模型的系数。需要为功率放大器和预失真器进行行为建模，可以将功率放大器的输入z(n)作为数学模型输入，功率放大器的输出y(n)作为数学模型输出来得到功率放大器的行为模型G(·)，预失真器与功率放大器具有逆特性，可以通过两种方法求解预失真器模型，一种是依据功率放大器的行为模型，求解其逆模型，另外一种可以用y(n)/k作为系统输入，x(n)作为系统输出来得到一个数学模型，这个数学模型特性与功率放大器特性相反，可作为预失真器模型函数F(·)。

现有的功率放大器预失真行为模型有基于Volterra级数的与基于神经网络的实数型多层神经网络结构。如图3所示，每个神经元的输入都由上一层神经元的输出和上一层神经元的输出权重以及自身偏置决定，每层神经元都遵循相同的传播方式，例如对于Layer3中神经元，其输入为

其中

分别代表神经网络模型第二层神经元的输入，

代表第二层每个神经元连接到第三层的权重，

s代表第三层神经元的偏置，第三层神经元输出为

其中f(·)代表神经网络的激活函数。模型训练通过最小化损失函数

的基于梯度的后向传播算法 (BP算法)完成，其中y^j _p代表通过神经网络的第j轮输出向量，y^j代表原始样本的第j轮输出向量，通过训练使得损失函数最小化，也就是通过优化神经网络模型参数，使神经网络预测输出与实际输出最接近，从而来完成模型的训练。

但是这种基于神经网络的前向建模与预失真方法存在如下问题：其一，神经网络结构复杂，人工调试困难；其二，增加神经网络规模虽然可以增强神经网络拟合能力，但是往往会导致过拟合，并无法获得更好的效果；其三，未得到简化的神经网络，由于结构复杂，会增加工程实现的难度。

发明内容

本发明为了克服现有技术中神经网络难以人工调试，容易过拟合，鲁棒性弱，难以工程实现以及硬件资源开销大等缺点，提供了一种用于功率放大器的基于Group Lasso的神经网络裁剪方法，可以对实数型多层神经网络的神经网络结构进行裁剪或者直接进行训练，从而抑制过拟合，易于工程实现。

具体步骤如下：

步骤一、构建原始神经网络；

原始神经网络为实数型多层神经网络结构，即该神经网络的输入是由功率放大器原始当前输入与其时延输入的正交和同向分量组成的基函数构成，神经网络的输出是由功率放大器的当前输出的正交和同向分量构成，神经网络的输入、输出及其内部权重等所有量都只包含实数。

原始神经网络包含偏置，神经元输出为：f(o₁a₁+o₂a₂+...+o_na_n+bias)；

其中o₁,o₂...o_n为上一层神经元输出，a₁,a₂...a_n为上一层神经元连接到当前层神经元的权重，f(·)为神经元激活函数。

原始神经网络的损失函数为

y_p为当前神经网络模型输出，y为实际功率放大器输出，其中N代表数据量即样本的输入输出向量对数。

步骤二、去掉原始神经网络中的偏置，改写原始神经网络激活函数，并将输出层以外的其余层中连接在同一个神经元的所有输出权重分为一组。

针对原始的神经网络，将训练参数去掉偏置，仅保留权重，得到新的神经元输出为：

f(o₁a₁+o₂a₂+...+o_na_n)；

神经网络隐藏层激活函数为奇次多项式函数f(x)＝p₁x-p₂x³+p₃x⁵-p₄x⁷+...，参数p自由调节；在对功率放大器建模或预失真过程中，对原始神经网络结构，将除了输出层以外的其余层中连接在同一个神经元的所有输出权重分为一组；

步骤三、分组后对每组权重分别执行L₂范数约束；

针对某神经元，对应的权重组施加L₂范数约束如下：

其中w_i代表连接在第i个神经元的所有输出权重组成的向量，称为第i个权重组，该神经元共有n个输出权重，w_i是该神经元的第i个输出权重，i＝1,2,3…,n；

步骤四、将原始神经网络结构中所有权重组的L₂范数之和作为Group Lasso罚项

添加到原损失函数之后，得到新的损失函数Loss₂；

新的损失函数Loss₂公式如下：

λ代表控制神经网络的被简化程度的系数，λ越大，神经网络被简化程度越高；

为所有权重组的L₂范数之和；

步骤五、通过基于后向传播(BP)算法对新的损失函数Loss₂进行极小化训练；

BP算法即误差反向传播算法，由信号的正向传播和误差的反向传播两个过程组成。

正向传播时，输入样本从输入层进入网络，经隐藏层逐层传递至输出层，判断输出层的实际输出与期望输出之间的误差是否在接受范围内，如果是，直接进行功率放大器建模或预失真，结束学习算法。否则，转至误差反向传播；

反向传播时，将输出误差按原通路反传计算，通过隐藏层反向直至输入层，在反传过程中使用BP算法法将误差分摊给各层的各个单元，获得各层各单元的误差信号，并将其作为修正各单元权重的根据，不停地调整各层神经元的权重和阈值后，使误差信号减小到最低限度。

信号正向传播与误差反向传播，使得权重和阈值反复进行调整，直至达到预先设定的学习训练次数，或输出误差减小到允许的程度。

训练时对于

的求导，定义原点处导数为0，避免导数不存在的情况；

步骤六、在极小化训练完成的神经网络中，寻找收敛几乎接近于0的权重组，并去掉这些权重组连接的神经元，得到裁剪后的基于Group Lasso的神经网络模型；

具体为：训练完成后，输出每一组的

保存为一个变量，共k个，保存在命名为H₁…H_k的k个变量中；

k为除了输出层外的所有神经元个数，寻找k个变量H₁…H_k中几乎接近于0的权重组，即寻找小于设定阈值的神经元，裁剪掉这些神经元得到简化后的神经网络，通常阈值设定为 10-³，阈值大小根据需求自行设定，阈值越大，去掉的神经元越多；

步骤七、将简化后的神经网络，采用BP算法最小化原始损失函数Loss₁进行训练，得到训练完成的简化后的神经网络，进行功率放大器建模或预失真。

本发明的优点在于：

1)一种基于Group Lasso损失函数的神经网络优化方法，可以用来抑制训练过程的过拟合，提高预失真效果。

2)一种基于Group Lasso损失函数的神经网络优化方法，根据简化方法去掉不必要的神经元重新进行建模或预失真，简化神经网络结构，减少硬件开销，方便人工调试。

3)一种基于Group Lasso损失函数的神经网络优化方法，将Group Lasso罚项引入神经网络损失函数，在建模和预失真过程中可以抑制过拟合，提高神经网络拟合性能和精度，并简化网络结构。

4)一种基于Group Lasso损失函数的神经网络优化方法，向神经网络损失函数引入Group Lasso正则，通过人为控制参数λ，控制神经网络的简化程度，有效的对原复杂模型结构进行裁剪，使神经网络人工简化调试更为便捷，不需对每一层神经元个数反复进行调试，大大降低计算量，便于工程应用。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1(a)为预失真实现原理的电路框图；

图1(b)为预失真实现的机理图。

图2为功放前向建模以及数字预失真器后向建模过程的电路结构图；

图3为传统的原始多层神经网络模型。

图4为本发明去掉去偏置之后的多层神经网络模型。

图5为本发明引入Group Lasso后的功率放大器神经网络模型。

图6为本发明除隐藏层外的所有权重组示意图。

图7为本发明一种基于Group Lasso损失函数的神经网络优化方法的流程图。

图5中1为某一神经元被Group Lasso约束的权重，2为引入Group Lasso后神经网络输入的同向分量，3为引入Group Lasso后神经网络输入的正交分量，4为神经网络输出的同向分量，5为神经网络输出的正交分量，6为神经网络权重组。

具体实施方式

为使本发明的目的，技术方案和优点更加清楚，下面结合附图为本发明作进一步的详细描述。

在现有的神经网络功率放大器模型中，为了使神经网络对功率放大器实现准确建模，需要构造一个损失函数对神经网络模型和真实功率放大器模型之间的误差进行评估，原始神经网络损失函数如下

其中y_p为当前神经网络模型输出，y为实际功率放大器输出，N代表数据量即样本的输入输出向量对数，之前利用BP算法通过最小化损失函数Loss₁来求得神经网络模型，使y_p最接近y。在通信技术中需要对功率放大器使用神经网络前向建模或者使用功率放大器的神经网络模型进行预失真线性化，需求一种用于神经网络功率放大器数学建模的优化技术。本发明对功率放大器及其逆模型进行神经网络建模的优化，用于优化的神经网络结构为只含有实数的多层神经网络结构，这种优化算法不局限于具体某一种结构的神经网络，可以对此一类的神经网络结构进行优化，最终目的为了使神经网络得到简化，抑制过拟合，加快计算速度，方便工程实现，减少硬件开销等。

本发明是一种用于功率放大器的基于Group Lasso的神经网络裁剪方法，采用的模型框架为实数型多层神经网络模型，即神经网络具有多层结构且网络中只包含实数，在神经网络的损失函数将原始损失函数

改为

其中

即取连接在所有除隐藏层外的神经元上的权重组的L₂范数之和。最终通过 BP算法极小化Loss₂，从而完成对神经网络的训练。在神经网络的训练完毕后，观察发现连接到某些神经元上的某些组的权重将收敛至0，这说明这些权重是不必要的，因此这些神经元可以被裁剪掉。

此外也可以使用原来的神经网络结构，将损失函数替换为带有Group Lasso约束的

进行直接训练，这样训练完成的模型，可以抑制模型的过拟合，鲁棒性更强。

如图7所示，具体步骤如下：

步骤一、构建原始神经网络；

原始神经网络为实数型多层神经网络结构，即该神经网络的输入是由功率放大器原始当前输入与其时延输入的正交同向分量组成的基函数构成，神经网络的输出是由功率放大器的当前输出的正交与同向分量构成，神经网络的输入输出及其内部权重等所有量都只包含实数。

神经网络结构如图3所示，原始神经网络包含偏置，神经元输出为：

f(o₁a₁+o₂a₂+...+o_na_n+bias)

原始神经网络的损失函数为

在“功率放大器建模或者预失真过程”中，Group Lasso算法所应用的实数型多层神经网络模型中的偏置是不必要的，去掉偏置之后的神经网络不仅不会损失精度，而且由于参数量减少，加快了训练速度，减少了硬件开销，和Group Lasso算法的目的一致，因此神经网络结构如图4所示，针对原始的神经网络，将训练参数去掉偏置，仅保留权重，得到新的神经元输出为：f(o₁a₁+o₂a₂+...+o_na_n)；

神经网络隐藏层激活函数为奇数次多项式函数f(x)＝p₁x+p₂x³+p₃x⁵+p₄x⁷+...；

参数p自由调节(不同的p，训练效果略有差异，但基本不影响Group Lasso的筛选性能，即收敛为0的权重组)，建议设定为双曲函数的泰勒展开形式：

如图6所示，在对功率放大器建模或预失真过程中，对原始神经网络结构，将除了输出层以外的其余层中连接在同一个神经元的所有输出权重分为一组；

步骤三、分组后对每组权重分别执行L₂范数约束；

针对某神经元，对应的权重组施加L₂范数约束如下：

其中w_i代表连接在该神经元的所有输出权重组成的向量，称为一个权重组，该神经元共有n个输出权重，w_i是该神经元的第i个输出权重，i＝1,2,3…,n；

步骤四、将原始神经网络结构中所有组的权重的L₂范数之和作为Group Lasso罚项

添加到原损失函数之后，得到新的损失函数Loss₂；

新的损失函数Loss₂公式如下：

为所有权重组的L₂范数之和，其中w_i代表第i个神经元输出的所有权重组成的向量，即第i个权重组；

步骤五、通过后向传播(BP)算法对新的损失函数Loss₂进行极小化训练以完成神经网络的训练。

BP算法即误差反向传播(Error Back Propagation,BP)算法，例如GD，SGD和Gradient descent with Momentum等。BP算法由信号的正向传播和误差的反向传播两个过程组成。

误差在接受范围内满足：损失函数＜u；u是人为设定的阈值，N为样本数，u越小拟合精度越高，当损失函数小于u的时候，算法结束。

反向传播时，将输出误差(期望输出与实际输出之差)按原通路反传计算，通过隐藏层反向，直至输入层，在反传过程中使用BP算法将误差分摊给各层的各个单元，获得各层各单元的误差信号，并将其作为修正各单元权重的根据。在不停地调整各层神经元的权重和阈值后，使误差信号减小到最低限度。

权重和阈值不断调整的过程，就是网络的学习与训练过程，经过信号正向传播与误差反向传播，权重和阈值的调整反复进行，一直进行到预先设定的学习训练次数，或输出误差减小到允许的程度。

训练时会遇到原点处求导的情况，对于

的求导，当w位于原点处数学上是不存在导数的，为了解决原点求导问题，采取定义原点处导数为0的方法。

步骤六、在极小化训练完成的神经网络中，寻找收敛几乎接近于0的权重组，并去掉这些权重组连接的神经元，得到简化后的神经网络；

训练完成后，即继续迭代训练损失函数并不会继续变小或已经达到设定阈值的u时候，输出每一组的

保存为一个变量，共k组，保存在命名为 H₁…H_k的k个变量中；

k为除了输出层外的所有神经元个数，寻找k个变量H₁…H_k中几乎接近于0的权重组，即寻找小于设定阈值的神经元，裁剪掉这些神经元得到简化后的神经网络，通常阈值设定为， 10-³，阈值大小根据需求自行设定，阈值越大，去掉的神经元越多。；

步骤七、将简化后的神经网络，采用BP算法最小化原始损失函数进行训练，得到训练完成的简化后的神经网络，进行功率放大器建模或预失真。

然后将裁减后的神经网络使用原始损失函数

对样本进行再训练，同样利用BP算法实现，最终完成建模与预失真任务。这样最终神经网络结构就得到了简化，新的神经网络具有更少的神经元，因此计算量将大大减少，硬件资源也将大大节约。

另外也可以本算法不去掉无用神经元，而直接使用训练后的神经网络进行建模或者预失真，虽然这样不能对网络进行简化，但是由于Group Lasso的特性，也能对模型过拟合起到抑制作用，方便模型的训练。

实施例：如图5所示，输入信号的实部和虚部分别为x_r(n)与x_i(n)，将输入信号以及其时延信号作为神经网络的输入，当前输出信号的实部与虚部分别为y_r(n)与y_i(n)作为神经网络的参考输出(图5仅仅为了说明本发明在某一种网络中的应用，对于不同的具有不同的输入输出形式以及不同结构的多层实数型网络，本算法仍然可以用来简化网络结构，因为本算法将网络的权重做一个约束并通过BP实现训练，与网络的输入输出类型无关)，将连接到同一个神经元上的权重分为一组，用Group Lasso的思想将权重组记为w，如图6所示，然后将损失函数改写为，

对这个神经网络的训练也就是对加入了 Group Lasso约束的Loss函数的最小化，其中

代表各个w分组的权重的L₂范数之和，λ为调节控制参数，用于调节神经网络模型的被简化程度，在训练过程中λ越大神经网络的被简化程度越高。

本发明公开了一种基于Group Lasso损失函数的功率放大器的神经网络前向建模与神经网络求取逆向模型的预失真优化方法，通过对神经网络神经元的输出权重添加Group Lasso 约束，对神经网络损失函数添加Group Lasso罚项，训练时利用基于BP算法，对包括此罚项的损失函数进行极小化，从而使神经网络中不重要的权重收敛至0，最后不仅可以通过去掉这些不重要的权重，实现原始网络的简化，也可以直接使用训练完成后的神经网络进行建模与预失真。

本发明已经进行了多次实验，对于目前提出的大多数神经网络结构的功率放大器及其预失真模型的试验是成功的，运用本发明方法可以快速，准确地对神经网络结构的功率放大器行简化。