CN111970072A

CN111970072A - 基于深度强化学习的宽带抗干扰系统及抗干扰方法

Info

Publication number: CN111970072A
Application number: CN202010621567.6A
Authority: CN
Inventors: 徐煜华; 李洋洋; 徐以涛; 刘鑫; 汪西明; 李文
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-11-20
Anticipated expiration: 2040-07-01
Also published as: CN111970072B

Abstract

一种基于深度强化学习的宽带抗干扰系统及抗干扰方法，其考虑一组发射机和接收机对为一个通信用户，当用户进行通信时，多个干扰机对用户进行恶意干扰，用户利用频谱感知信息智能地从宽频段选择通信频率，上述用户决策过程建模为一个马尔可夫决策过程，优化用户频率决策来最大化用户吞吐量。算法为：设计了分层深度强化学习算法，然后根据频段决策控制二维窗，选取对应频段的频谱瀑布图，设计频率选择网络学习得到最优的频率决策。本发明模型完备，设计算法合理有效，相比于传统深度强化学习抗干扰算法，在保证优越的抗干扰效果同时，有效地减少了迭代时间和计算复杂度。

Description

基于深度强化学习的宽带抗干扰系统及抗干扰方法

技术领域

本发明涉及无线通信技术领域，具体涉及一种基于深度强化学习的宽带抗干扰系统及抗干扰方法，尤其涉及一种宽带抗干扰模型及基于分层深度强化学习抗干扰算法。

背景技术

在通信领域中，信号是表示消息的物理量，如电信号可以通过幅度、频率、相位的变化来表示不同的消息。干扰是指对有用信号的接收造成损伤。随着无线通信技术的迅速发展，干扰尤其是智能干扰正给我国的信息及其相关领域的安全带来巨大威胁。在军事通信领域，随着人工智能和通信对抗技术的深度融合，具备感知、学习和决策能力的智能干扰设备，将成为我军在通信对抗中所面临的强劲对手。在民用通信领域，无线通信的安全性和可靠性也面临这前所未有的严峻挑战。近年来干扰设备的智能性不断提升，传统抗干扰技术将难以达到理想对抗效果，为保证无线通信的安全性和可靠性，开展新型抗干扰技术研究意义重大。针对新型的干扰环境特性，人工智能技术将是一种有效的方案。用户采用各种智能学习的方法，对干扰规律等进行有效的分析和学习，并以此为基础智能地选取对抗决策，将有效地提升其抗干扰能力。

而深度强化学习在抗干扰领域已有初步研究成果，实现了深度强化学习和抗干扰问题的简单融合，但是目前大部分基于深度强化学习的抗干扰研究考虑的决策量较少，只适合于窄带信道选择，无法应用于宽带信道选择中。

发明内容

为解决上述问题，本发明提供了一种基于深度强化学习的宽带抗干扰系统及抗干扰方法，能很好地刻画基于深度强化学习算法的宽带抗干扰场景，有效避免了现有技术中大部分基于深度强化学习的抗干扰研究考虑的决策量较少、只适合于窄带信道选择、无法应用于宽带信道选择中的缺陷。

为了克服现有技术中的不足，本发明提供了一种基于深度强化学习的宽带抗干扰系统及抗干扰方法的解决方案，具体如下：

一种基于深度强化学习的宽带抗干扰系统，包括宽带抗干扰模型，

所述宽带抗干扰模型包括作为发射端的一发射机和与之通信的作为接收端的一接收机构成的一组发射端和接收端对，该组发射端和接收端对为一个用户，当用户的发射端和接收端进行宽带通信时，多个干扰机对用户进行恶意干扰，包括有分层深度强化学习网络模型的智能体通过用户利用频谱感知信息智能地从宽频段中决策选择通信频率。

所述决策过程建模为一个马尔可夫决策过程，以此优化用户频率来决策出最大化的用户宽带通信的吞吐量。

所述用户的接收机的信干噪比SINR表示为如公式(1)所示的 β(f_t)：

其中，f_t表示用户所选的通信频率，t表示当前时刻；p_u表示用户的发射机的发射功率，g_u表示用户的发射机到用户的接收机的功率信道增益，b_u表示用户的发射机通信带宽，n(f)表示噪声的功率谱密度函数，J表示进行干扰的干扰机的数量，

表示第i个干扰机在当前时刻到用户的接收机的功率信道增益，J_i表示第i个干扰机的功率谱密度函数，f_t ⁱ表示第i个干扰机在当前时刻选择的信道，i为正整数。

用β_th表示用户的接收机成功接收所需要的信干噪比门限，定义归一化门限μ(f_t)如公式(2)所示：

用户的接收机处的功率谱密度函数S_t(f)如公式(3)所示：

其中U(f)表示用户的发射机的功率谱密度；

所述宽带抗干扰模型中的离散频谱采样值s_i,t定义为如公式(4) 所示：

其中，Δf表示频谱分辨率；i为正整数且表示采样数，S(f+f_L)为公式(3)所述功率谱密度函数、f表示采样频率、f_L为所选频率的下界；用户的发射机侧的智能体感知当前时刻的频谱向量s_t＝{s_1,t,s_2,t,...,s_N,t} 并选择下一时刻的通信频率f_t，其中

F表示用户可选频段范围。

所述建模为一个马尔可夫决策过程的环境状态S_t定义为 S_t＝{s_t,s_t-1,...,s_t-T+1}，其中，T表示回溯的历史状态数目，S_t表示一个 T×N的二维矩阵，由矩阵S_t构建出时刻t的频谱瀑布图；状态转移概率P表示为P:(S,f)→S′，其中S′表示在状态S下选择频率f后的下一状态；用户的回报值函数F定义为

用户决策的目标为最大化长期累积回报值，该最大化长期累积回报值表示为如公式(5) 所示：

一种基于深度强化学习的宽带抗干扰系统的抗干扰方法，包括以下步骤：

步骤1，设计带宽选择网络和频率选择网络，并初始化带宽选择网络的网络参数θ_b和频率选择网络的网络参数θ_f，带宽选择网络的样本重放单元D_b和频率选择网络的样本重放单元D_f以及折扣因子γ；

步骤2，首先基于全频段感知的频谱瀑布图信息，对其进行池化处理，得到频段的信号强度分布，根据ε-贪婪策略选择频段策略a_b；

步骤3，根据频段选择策略选取对应的部分频谱瀑布，利用ε- 贪婪策略选择频率策略a_f；

步骤4，用户分别计算频段选择策略和频率选择策略带来的回报，并观察执行策略后的下一状态变化；

步骤5，针对频段选择网络，根据频段策略的回报值和下一时刻环境状态行样本训练，并将训练经验e_b储存到D_b中，判断D_b中样本是否大于设定的门限m，如果是，随机选择m个样本计算损失函数L_b，接着计算梯度并更新权值θ_b，否则进入步骤6；

步骤6，针对频率选择网络，根据频率策略的回报值和下一时刻环境状态行样本训练，并将训练经验e_f储存到D_f中，判断D_f中样本是否大于设定的门限m，如果是，随机选择m个样本计算损失函数L_f，接着计算梯度并更新权值θ_f，否则进入步骤7，其中，m是正整数；

步骤7，循环执行步骤2～步骤6，直至达到最大迭代次数，就让基于深度强化学习的宽带抗干扰系统的抗干扰方法结束。

所述步骤1中的设计带宽选择网络和频率选择网络，具体如表1 所示：

表1

所述步骤2中的基于全频段感知的频谱瀑布图信息，对其进行池化处理，得到频段的信号强度分布，根据ε-贪婪策略选择频段策略a_b，其具体包括如下方式：

感知获得的当前频谱瀑布图S_t送入所设计的频段选择网络，首先经过一个池化处理，将当前频谱瀑布图S_t中的宽带频谱信息进行降采样，获得压缩后的频谱瀑布图C；然后使用深度卷积神经网络CNN 对Q函数进行拟合Q^b(C,a_b)，以设定的概率ε选择使得当前Q值最大的动作

否则随机选择一个动作a_b。

所述步骤3中的根据频段选择策略选取对应的部分频谱瀑布，利用ε-贪婪策略选择频率策略a_f，其包括如下方式：

提取出步骤2中选择的频段策略a_b的范围S^d，将该范围S^d对应的频谱瀑布图送入到频率选择网络中对Q函数进行拟合Q^f(C,a_f)，然后以概率ε选择使得当前Q值最大的动作

否则随机选择一个动作a_f；最后用户发射频点所在位置f为公式(6)所示：

f＝B(a_b-1)+a_f (6)

其中B表示子频段范围。

所述步骤4中用户分别计算频段选择策略和频率选择策略带来的回报，并观察执行策略后的下一状态变化，具体如下：

用户在选择频段策略a_b和频率策略a_f后，执行上述动作后获得对应的回报值；频段选择和频率选择的回报值函数F(f_t)是相同的，该回报值函数F(f_t)表示为如公式(7)所示：

其中，α为折扣因子，f_t和f_t-1分别表示当前时刻和上一时刻频率选择，u(f_t)的定义在公式(2)中，当用户改变选择的频率时，额外的频率切换开销使得用户回报值变小，在获得回报值之后，感知当前环境的频谱状态，基于深度强化学习的宽带抗干扰系统的状态就进入下一状态S_t+1。

进一步地，所述步骤5中的针对频段选择网络，根据频段策略的回报值和下一时刻环境状态行样本训练，并将训练经验e_b储存到D_b中，判断D_b中样本是否大于门限m，如果是，随机选择m个样本计算损失函数L_b，接着计算梯度并更新权值θ_b，否则进入步骤6，其包括如下方式：

采用经验回放机制，用e^b＝(C,a^b,F(f),C′)表示用户的决策样本，将其存放在经验重放单元D_b中；当样本经验池足够大时，从中随机选取若干样本计算损失函数

其定义为公式(8)所示：

其中，

表示第i次迭代的网络参数，网络目标值

为

i为正整数，然后依据梯度下降法，对损失函数求微分，求得损失函数的梯度，从而更新频段选择网络的参数θ_b。

进一步地，所述步骤6中的针对频率选择网络，根据频率策略的回报值和下一时刻环境状态行样本训练，并将训练经验e_f储存到D_f中，判断D_f中样本是否大于门限m，如果是，随机选择m个样本计算损失函数L_f，接着计算梯度并更新权值θ_f，否则进入步骤7，其包括如下方式：

采用经验回放机制，用e^f＝(S^d,a^f,F(f),S^d′)表示用户的决策样本，将其存放在经验重放单元D_f中；当样本经验池足够大时，从中随机选取若干样本计算损失函数L_f，定义为：

其中，

表示第i次迭代的网络参数，网络目标值

为

然后依据梯度下降法，对损失函数求微分，求得损失函数的梯度，从而更新频段选择网络的参数θ_b。

本发明的有益效果为：

(1)利用分层神经网络结构和池化处理，在不影响性能的情况下，降低了计算复杂度，加速了算法收敛时间；

(2)模型完备，物理意义清晰，提出的基于分层深度强化学习的宽带抗干扰算法，实现对提出模型的有效求解，求出用户的抗干扰宽带信道接入策略；

(3)所提算法具有强化学习能力，能够有效地应对各种干扰，为解决宽带抗干信道选择问题提供了很好的思路。

附图说明

图1是本发明宽带抗干扰模型的模型图。

图2是本发明所提分层深度强化学习网络结构的示意图。

图3是本发明实施例1中对抗多种干扰模式的频谱瀑布图。

图4是本发明实施例1中对抗宽带多种干扰模式的吞吐量变化图。

具体实施方式

本发明所提出的基于分层深度强化学习的宽带抗干扰算法，旨在提供方案以解决高频率决策维度的抗干扰问题。本发明基于分层深度强化学习算法，构建带宽选择网络和频率选择网络，将接收端的频谱瀑布池化处理后作为带宽选择网络的输入状态，然后将选出子频段的瀑布图作为频率选择网络的输入状态，分别设计神经网络结构对状态的Q值函数进行拟合，并将其作为决策依据；接着，通过决策带来的回报值，计算输出的误差函数，反向传递更新网络参数，从而影响用户的频率选择策略。

下面将结合附图和实施例对本发明做进一步地说明。

基于深度强化学习的宽带抗干扰系统，包括宽带抗干扰模型，如图1所示，图1是宽带抗干扰模型的示意图。该模型中，作为发射端的一发射机和与之通信的作为接收端的一接收机构成一组发射端和接收端对，该组发射端和接收端对为一个用户，一个用户的发射端和接收端进行通信，作为智能模块的智能体可以帮助用户进行选频，而基于深度强化学习的宽带抗干扰系统中存在一个或多个干扰机对用户通信实施干扰。所述智能体与用户的发射端和接收端保持通信连接。

而所述智能体包括分层深度强化学习网络模型，如图2所示，图 2是分层深度强化学习网络模型的示意图。该网络模型包括两个网络，该两个网络分别为频带选择神经网络和频率选择神经网络，首先通过频谱感知获得当前频谱瀑布图，然后当前频谱瀑布图经过一次池化处理，得到压缩后的频谱瀑布图，将其作为频带选择网络的输入，然后根据相应的决策算法获得当前状态下的频带选择策略；根据频带选择策略和当前频谱瀑布图，选择出子频带瀑布图作为频率选择网络的输入，然后通过相应的决策算法即可得到当前状态下的最优频率策略。作为两个深度神经网络的频带选择神经网络和频率选择神经网络的参数的更新，是通过实时记录输入状态、所选决策、立即回报和下一步环境状态进行训练予以实现。

对该所述宽带抗干扰模型做如下刻画：其包括作为发射端的一发射机和与之通信的作为接收端的一接收机构成的一组发射端和接收端对，该组发射端和接收端对为一个用户，当用户的发射端和接收端进行宽带通信时，多个干扰机对用户进行恶意干扰，包括有分层深度强化学习网络模型的智能体通过用户利用频谱感知信息智能地从宽频段中决策选择通信频率。

所述决策过程建模为一个马尔可夫决策过程，以此优化用户频率来决策出最大化的用户宽带通信的吞吐量。所述智能体与用户的发射端和接收端保持通信连接。所述分层深度强化学习网络模型包括两个网络，该两个网络分别为频带选择神经网络和频率选择神经网络。

本发明基于传统深度强化学习算法，结合智能抗干扰问题，主要考虑干扰学习决策空间庞大、干扰模式复杂等因素，采用分层选择的思想，利用两个神经网络对其对应Q值函数进行拟合，并对神经网络状态更新，通过相应决策算法，得出最优抗干扰频率决策。

进一步地，所述用户的接收机的信干噪比SINR表示为如公式(1) 所示的β(f_t)：

此外，用β_th表示用户的接收机成功接收所需要的信干噪比门限，定义归一化门限μ(f_t)如公式(2)所示：

用户的接收机处的功率谱密度函数S_t(f)如公式(3)所示：

其中U(f)表示用户的发射机的功率谱密度；

F表示用户可选频段范围。

进一步地，所述建模为一个马尔可夫决策过程的环境存在的复杂干扰模式与历史信息有关，因此所述建模为一个马尔可夫决策过程的环境状态S_t定义为S_t＝{s_t,s_t-1,...,s_t-T+1}，其中，T表示回溯的历史状态数目，S_t表示一个T×N的二维矩阵，由矩阵S_t构建出时刻t的频谱瀑布图；状态转移概率P表示为P:(S,f)→S′，其中S′表示在状态S下选择频率f后的下一状态；用户的回报值函数F定义为

用户决策的目标为最大化长期累积回报值，该最大化长期累积回报值表示为如公式(5)所示：

步骤1，设计带宽选择网络和频率选择网络，并初始化带宽选择网络的网络参数θ_b和频率选择网络的网络参数θ_f，带宽选择网络的样本重放单元D_b和频率选择网络的样本重放单元D_f以及折扣因子γ；可以把带宽选择网络的网络参数θ_b和频率选择网络的网络参数θ_f，带宽选择网络的样本重放单元D_b和频率选择网络的样本重放单元D_f以及折扣因子γ初始化为空值。

进一步地，所述步骤1中的设计带宽选择网络和频率选择网络，具体如表1所示：

表1

进一步地，所述步骤2中的基于全频段感知的频谱瀑布图信息，对其进行池化处理，得到频段的信号强度分布，根据ε-贪婪策略选择频段策略a_b，其具体包括如下方式：

否则随机选择一个动作a_b。

其中a 表示用户决策，否则随机选择一个动作a_f；最后用户发射频点所在位置f为公式(6)所示：

f＝B(a_b-1)+a_f (15)

其中B表示子频段范围。

进一步地，所述步骤4中用户分别计算频段选择策略和频率选择策略带来的回报，并观察执行策略后的下一状态变化，具体如下：

其定义为公式(8)所示：

其中，

表示第i次迭代的网络参数，网络目标值

为

采用经验回放机制，用e^f＝(S^d,a^f,F(f),S^d′)表示用户的决策样本，其中S^d表示是频段选择后提取的频谱瀑布图，a^f表示用户频点f选择策略，将其存放在经验重放单元D_f中；当样本经验池足够大时，从中随机选取若干样本计算损失函数L_f，定义为：

其中，

表示第i次迭代的网络参数，网络目标值

为

下面根据实施例来对本发明作进一步说明：

本发明的实施例具体描述如下，系统仿真采用C++语言，基于Caffe 深度学习框架，参数的设定不影响一般性。图3验证在宽带和多种干扰存在下抗干扰的有效性。参数设置为，可选频谱频率范围为 100-200MHz，用户的传输带宽为1MHz，用户的传输功率为0dBm。接收端解调的信噪比门限为0dB，用户的基带脉冲信号采用升余弦滚降，系数为0.4，频谱感知的频率分辨率为1kHz，每1ms进行一次频段感知，并将感知到的频谱数据保持200ms，因此S_t的大小为1000*200。如图3所示，考虑多个干扰模式分布在不同的频段范围内。不同的干扰模式来自不同的干扰机，且每个干扰机的发送功率不同，具体如下：

1)全频段干扰：干扰功率为70dBm，干扰机随机时间干扰全频段；

2)扫频干扰：干扰功率为80dBm，扫频速度为0.5GHz/s；

3)随机干扰：干扰功率为90dBm，干扰随机频点，干扰带宽为 5MHz；

4)梳状干扰：干扰功率为90dBm，干扰机每隔1MHz释放干扰，每100ms切换一次中心频率；

5)追随干扰：干扰功率为90dBm，干扰的中心频率与用户上次传输频率一致，干扰带宽为5MHz。如果用户选择频率不在追随干扰频带范围内，其选择随机频率干扰。

图3是本发明实施例对抗多种干扰模式的频谱瀑布图，从图中可以看出，全频段干扰在100-120MHz，扫频干扰在120-140MHz，随机干扰在140-160MHz，梳状干扰在160-180MHz，追随干扰在 180-200MHz。

图4是本发明中实施例所提分层深度强化学习算法和传统深度强化学习算法对抗宽带多干扰模式的网络吞吐量变化图，从图中可以看出，随着迭代次数的增加，网络的吞吐量不断提高，有效地避开了干扰，最终达到吞吐量的稳定值。同时，在保证抗干扰性能前提下，所提分层深度强化学习算法较已有算法收敛次数少了大约3000次，同时减少大约97％的计算量。

综上所述，本发明提出的分层深度强化学习抗干扰模型，充分考虑了抗干扰问题中干扰模式复杂、干扰决策估计困难、学习决策空间庞大的问题，比传统模型更有实际意义；提出的基于分层深度强化学习宽带抗干扰算法，能够实现对提出模型的有效求解，求出用户最优的抗干扰频率策略，有效地应对干扰模式复杂和决策空间庞大问题。以上以用实施例说明的方式对本发明作了描述，本领域的技术人员应当理解，本公开不限于以上描述的实施例，在不偏离本发明的范围的情况下，可以做出各种变化、改变和替换。

Claims

1.一种基于深度强化学习的宽带抗干扰系统，其特征在于，包括宽带抗干扰模型，

2.根据权利要求1所述的基于深度强化学习的宽带抗干扰系统，其特征在于，所述决策过程建模为一个马尔可夫决策过程，以此优化用户频率来决策出最大化的用户宽带通信的吞吐量。

3.根据权利要求1所述的基于深度强化学习的宽带抗干扰系统，其特征在于，所述用户的接收机的信干噪比SINR表示为如公式(1)所示的β(f_t)：

中，f_t表示用户所选的通信频率，t表示当前时刻；p_u表示用户的发射机的发射功率，g_u表示用户的发射机到用户的接收机的功率信道增益，b_u表示用户的发射机通信带宽，n(f)表示噪声的功率谱密度函数，J表示进行干扰的干扰机的数量，

4.根据权利要求1所述的基于深度强化学习的宽带抗干扰系统，其特征在于，用β_th表示用户的接收机成功接收所需要的信干噪比门限，定义归一化门限μ(f_t)如公式(2)所示：

用户的接收机处的功率谱密度函数S_t(f)如公式(3)所示：

其中U(f)表示用户的发射机的功率谱密度；

所述宽带抗干扰模型中的离散频谱采样值s_i,t定义为如公式(4)所示：

其中，Δf表示频谱分辨率；i为正整数且表示采样数，S(f+f_L)为公式(3)所述功率谱密度函数、f表示采样频率、f_L为所选频率的下界；用户的发射机侧的智能体感知当前时刻的频谱向量s_t＝{s_1,t,s_2,t,...,s_N,t}并选择下一时刻的通信频率f_t，其中

F表示用户可选频段范围。

5.根据权利要求2所述的基于深度强化学习的宽带抗干扰系统，其特征在于，所述建模为一个马尔可夫决策过程的环境状态S_t定义为S_t＝{s_t,s_t-1,...,s_t-T+1}，其中，T表示回溯的历史状态数目，S_t表示一个T×N的二维矩阵，由矩阵S_t构建出时刻t的频谱瀑布图；状态转移概率P表示为P:(S,f)→S′，其中S′表示在状态S下选择频率f后的下一状态；用户的回报值函数F定义为F:

6.一种基于深度强化学习的宽带抗干扰系统的抗干扰方法，其特征在于，包括以下步骤：

步骤3，根据频段选择策略选取对应的部分频谱瀑布，利用ε-贪婪策略选择频率策略a_f；

7.根据权利要求6所述的基于深度强化学习的宽带抗干扰系统的抗干扰方法，其特征在于，所述步骤1中的设计带宽选择网络和频率选择网络，具体如表1所示：

表1

8.根据权利要求6所述的基于深度强化学习的宽带抗干扰系统的抗干扰方法，其特征在于，所述步骤2中的基于全频段感知的频谱瀑布图信息，对其进行池化处理，得到频段的信号强度分布，根据ε-贪婪策略选择频段策略a_b，其具体包括如下方式：

感知获得的当前频谱瀑布图S_t送入所设计的频段选择网络，首先经过一个池化处理，将当前频谱瀑布图S_t中的宽带频谱信息进行降采样，获得压缩后的频谱瀑布图C；然后使用深度卷积神经网络CNN对Q函数进行拟合Q^b(C,a_b)，以设定的概率ε选择使得当前Q值最大的动作

否则随机选择一个动作a_b。

9.根据权利要求6所述的基于深度强化学习的宽带抗干扰系统的抗干扰方法，其特征在于，所述步骤3中的根据频段选择策略选取对应的部分频谱瀑布，利用ε-贪婪策略选择频率策略a_f，其包括如下方式：

f＝B(a_b-1)+a_f (6)

其中B表示子频段范围。

10.根据权利要求6所述的基于深度强化学习的宽带抗干扰系统的抗干扰方法，其特征在于，所述步骤4中用户分别计算频段选择策略和频率选择策略带来的回报，并观察执行策略后的下一状态变化，具体如下：

其中，α为折扣因子，f_t和f_t-1分别表示当前时刻和上一时刻频率选择，u(f_t)的定义在公式(2)中，当用户改变选择的频率时，额外的频率切换开销使得用户回报值变小，在获得回报值之后，感知当前环境的频谱状态，基于深度强化学习的宽带抗干扰系统的状态就进入下一状态S_t+1；

所述步骤5中的针对频段选择网络，根据频段策略的回报值和下一时刻环境状态行样本训练，并将训练经验e_b储存到D_b中，判断D_b中样本是否大于门限m，如果是，随机选择m个样本计算损失函数L_b，接着计算梯度并更新权值θ_b，否则进入步骤6，其包括如下方式：

其定义为公式(8)所示：

其中，

表示第i次迭代的网络参数，网络目标值

为

i为正整数，然后依据梯度下降法，对损失函数求微分，求得损失函数的梯度，从而更新频段选择网络的参数θ_b；

所述步骤6中的针对频率选择网络，根据频率策略的回报值和下一时刻环境状态行样本训练，并将训练经验e_f储存到D_f中，判断D_f中样本是否大于门限m，如果是，随机选择m个样本计算损失函数L_f，接着计算梯度并更新权值θ_f，否则进入步骤7，其包括如下方式：

其中，

表示第i次迭代的网络参数，网络目标值

为