CN113784353A

CN113784353A - 用于状态更新系统的方法、装置及存储介质

Info

Publication number: CN113784353A
Application number: CN202110984822.8A
Authority: CN
Inventors: 李保罡; 王宇; 刘涛; 戴志辉
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2021-12-10
Anticipated expiration: 2041-08-24
Also published as: CN113784353B

Abstract

本发明提供一种用于状态更新系统的方法、装置及存储介质。该方法包括：获取设定时间内基站与用户之间以及窃听者与用户之间的信息传输速率；根据所述信息传输速度确定网络系统的平均保密年龄和保密年龄中断概率；将所述网络系统的平均保密年龄和保密年龄中断概率转化为系统状态空间，以反射元件反射波束成形系数建立动作空间，并以基站的状态更新信息传输概率为奖励函数，建立安全波束成形模型；利用学习算法对所述奖励函数进行解析获得全局最优解，并根据全局最优解和所述安全波速成形模型确定安全波束成形策略。本发明根据确定的安全波束成形策略，在优化系统安全性同时考虑合法用户的QoS要求。

Description

用于状态更新系统的方法、装置及存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种用于状态更新系统的方法、装置及存储介质。

背景技术

目前，针对无线通信系统中的物理层安全(PLS，physical layer security)改善提出了智能反射面(IRS，intelligent reflecting surface)的新技术，以克服现有PLS改善方案协作中继策略、人工噪声辅助波束成形、协同干扰等需要额外功率的引入的问题。在此基础上，对IRS应用到传统的无线网络中以提高安全性进行了大量的研究。IRS通过扩大窃听信道和合法信道差距从而起到主动防御的作用，符合了“内聚而治”“自主以生”的内生安全理念，因此，IRS有望在第六代(6G)和无线通信系统之外可以实现更高的频谱效率和能源效率。与此同时，6G和物联网的新兴应用需要及时可靠的状态更新系统，因此，需要提供一种提高系统安全性的方案。

发明内容

本发明实施例提供了一种用于状态更新系统的方法、装置及存储介质，以解决如何提高网络更新系统安全性的问题。

第一方面，本发明实施例提供了一种用于状态更新系统的方法，包括：

获取设定时间内基站与用户之间以及窃听者与用户之间的信息传输速率；

根据所述信息传输速度确定网络系统的平均保密年龄和保密年龄中断概率；

将所述网络系统的平均保密年龄和保密年龄中断概率转化为系统状态空间，以反射元件反射波束成形系数建立动作空间，并以基站的状态更新信息传输概率为奖励函数，建立安全波束成形模型；

利用学习算法对所述奖励函数进行解析获得全局最优解，并根据全局最优解和所述安全波速成形模型确定安全波束成形策略。

在一种可能的实现方式中，根据所述信息传输速度确定网络系统的平均保密年龄包括：

根据所述信息传输速率确定用户成功接收到基站状态更新信息的概率和窃听者接收到基站状态更新信息的概率，并确定网络系统的瞬时保密年龄；

根据所述网络系统的瞬时保密年龄确定所述网络系统的平均保密年龄。

在一种可能的实现方式中，所述网络系统的平均保密年龄为：

其中，所述E[μ_s]为所述网络系统的平均保密年龄；所述μ_s和所述max[μ_m-μ_k]为网络系统的瞬时保密年龄；所述K为用户的数量；所述M为窃听者的数量。

在一种可能的实现方式中，用户成功接收到基站状态更新信息的概率、窃听者接收到基站状态更新信息的概率与所述网络系统的瞬时保密年龄之间具有如下关系：

其中，所述max[μ_m-μ_k]为网络系统的瞬时保密年龄；所述μ_m为窃听者的瞬时信息年龄；所述μ_k为用户的瞬时信息年龄；所述p_k为用户成功接收到基站状态更新信息的概率；所述q_m为窃听者成功接收到基站状态更新信息的概率；所述p_tx为基站在每一个时隙发送新的状态更新信息的概率。

在一种可能的实现方式中，所述瞬时信息年龄为：

其中，所述μ_x(t+1)为时间t+1内的瞬时信息年龄；所述

为用户或窃听者在时间t内接收到来自基站的状态更新信息；所述

表示成功收到状态更新信息；所述

表示未接收到状态更新信息。

在一种可能的实现方式中，所述网络系统的保密年龄中断概率为：

其中，所述

为所述网络系统的保密年龄中断概率；所述σ_th为网络系统所能容忍的最大保密年龄阈值；所述max[μ_m-μ_k]为所述网络系统的瞬时保密年龄。

在一种可能的实现方式中，所述网络系统的平均保密年龄、保密年龄中断概率和所述系统状态空间具有如下关系：

其中，所述s为所述系统状态空间；所述y_k为第k个用户和第m个窃听者的信道信息；所述y_m为第m个窃听者的信道信息；所述μ_x(t)为时间t内的瞬时信息年龄；所述E[μ_s]为所述网络系统的平均保密年龄；所述

为所述网络系统的保密年龄中断概率。

在一种可能的实现方式中，所述学习算法为改进强化学习(Double DQN，DDQN)算法。

第二方面，本发明实施例提供了一种用于状态更新系统的装置，包括：

速率获取模块，用于获取设定时间内基站与用户之间以及窃听者与用户之间的信息传输速率；

计算模块，用于根据所述信息传输速度确定网络系统的平均保密年龄和保密年龄中断概率；

模型建立模块，用于将所述网络系统的平均保密年龄和保密年龄中断概率转化为系统状态空间，以反射元件反射波束成形系数建立动作空间，并以基站的状态更新信息传输概率为奖励函数，建立安全波束成形模型；

解析模块，用于利用强化学习算法对所述奖励函数进行解析获得全局最优解；

确定模块，用于根据全局最优解和所述安全波速成形模型确定安全波束成形策略。

第三方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。

本发明实施例提供一种用于状态更新系统的方法、装置及存储介质，通过获取设定时间内基站与用户之间以及窃听者与用户之间的信息传输速率，根据信息传输速度确定网络系统的平均保密年龄和保密年龄中断概率，以基于平均保密年龄和保密年龄中断概率分别反映通信的安全性和QoS要求。将网络系统的平均保密年龄和保密年龄中断概率转化为系统状态空间，以反射元件反射波束成形系数建立动作空间，并以基站的状态更新信息传输概率为奖励函数，建立安全波束成形模型，利用学习算法对奖励函数进行解析获得全局最优解，并根据全局最优解和安全波速成形模型确定安全波束成形策略。基于安全波束成形策略进行状态更新，可以实现最大化系统安全性，同时考虑合法用户的QoS要求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的状态更新系统的场景图；

图2是本发明一实施例提供的用于状态更新系统的方法的实现流程图；

图3是本发明实施例提供的DQN的神经网络流程示意图；

图4是本发明实施例提供的DDQN的神经网络流程示意图；

图5是本发明实施例提供的用于状态更新系统的装置的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

作为基于加密的安全通信技术的有力补充，PLS备受关注。PLS基于无线信道的特点，利用信号处理设计和信道编码来支持安全通信服务，而不依赖于共享密钥。到目前为止，已公开多种方法用于改善无线通信系统中的PLS，如协作中继策略、人工噪声辅助波束成形、协同干扰等。然而这些方案需要额外功率的引入，为了克服这一弊端，提出了IRS，通过扩大窃听信道和合法信道差距从而起到主动防御的作用，符合了“内聚而治”“自主以生”的内生安全理念，有望在第六代(6G)和无线通信系统之外可以实现更高的频谱效率和能源效率。

具体来说，IRS是一种由多个低成本的无源反射单元组成的均匀平面阵列，每个单元自适应地调整其反射幅度和/或相位，以控制电磁波的强度和方向。因此，IRS能够增强和/或减弱不同用户的反射信号。IRS反射的信号可以增加合法用户接收到的信号，同时抑制窃听者的信号。基于IRS的上述特征最近有一些创新的研究致力于IRS辅助安全通信的性能优化。其中，将IRS应用到传统的无线网络或无线系统中，以提高安全性已经得到了大量的研究，如IRS辅助MISO(multiple input single output)通信系统、IRS辅助MIMO(multiple input multiple output)通信系统、IRS辅助NOMA(non othogonal multipleaccess)通信系统、IRS辅助SWIPT(simultaneous wireless information and powertransfer)通信系统。

与以前的研究方向如传统反射面、放大转发(AF)中继、有源智能面、后向散射通信等现有相关技术相比，IRS具有以下优点：

首先，由于近年来微电子机械系统(Micro-Electro-Mechanical System，MEMS)和复合材料的突破，IRS可以实时地重新配置反射系数，而传统反射面只有固定的反射系数；

其次，IRS是一种绿色、节能的技术，它被动地反映入射信号而不增加额外的能量消耗，而AF中继和有源智能表面需要有源射频(RF)组件；

第三，虽然IRS和后向散射通信都使用无源通信，但是IRS可以配备大量反射单元，而后向散射设备由于其复杂性和成本的限制，通常配备单/几根天线。此外，IRS仅试图辅助目标收发对之间的信号传输，而不考虑自身的信息传输，而后向散射通信需要支持后向散射设备的信息传输。

与此同时，6G和物联网的新兴应用需要及时可靠的状态更新系统，它与传统系统有两个主要区别。一是状态信息具有独特的特征，称为马尔可夫特征，即旧的(或现有的)状态包可以完全被新接收的(或更新的)状态信息所替代，或者系统性能只依赖于最新的状态信息。二是时效性要求与传统通信时延要求不同，时效性要求从状态信息的生成纪元开始计算，因此包括更新(或采样)时延、调度时延、以及通过网络的通信延迟。我们将及时性要求称为后续中的信息延迟，可以认为是通信延迟的延伸。为了描述信息延迟，引入了一个称为信息年龄(AoI，age of information)的新度量标准，它定义为从接收到的最新数据包的生成纪元以来经过的时间。一般来说，AoI越小，状态信息越清晰，因此信息延迟越小。因此，人们对AoI的研究付出了大量的努力。一些研究集中在分析平均AoI，通过考虑周期性或随机的采样和传输，能量收集终端，多传输路径和包阻塞，而另一些研究多接入网络的采样和传输调度，能量收集源，随机延迟系统。如何在AoI系统中实现通信安全仍然是一个具有挑战性的问题，现已有文献研究了如何在主动干扰攻击下保持信息的新鲜度，包括讨论了存在被动窃听者场景下AoI概念的应用。而将AoI的概念和指标应用于具体的通信系统模型尚未得到研究。

本发明实施例针对如图1所示的IRS辅助的带有主动窃听者的通信系统，该通信系统工作原理如下：基站向用户发送状态更新信息，窃听者企图窃听基站的传输来掌握最新的状态更新信息，而IRS用于辅助基站向用户发送状态更新信息。

其中，IRS配备了一个控制器，用于控制IRS的两种工作模式：用于信道估计的接收模式和用于数据传输的反射模式。IRS接收到的信道状态信息由控制器来反馈。IRS可以接收到来自基站的多通道信号并且将信号通过反射元件反射到接收机，本发明将IRS的反射波束成形用于提高用户侧的数据安全性。此时，用户和窃听者接收到的信号分别由两部分组成，用户接收到信号包括：基站到用户的直接连接信号和基站到用户的间接连接信号；窃听者接收到信号包括：基站到窃听者的直接连接信号和基站到窃听者的间接连接信号。

如图1所示的本发明实施例的通信系统，不同于其他IRS辅助的无线通信系统只是将单个的向用户发送信息。本发明实施例的通信系统以广播的形式向多个用户发送信息，适用于如车联网等场景下的使用，提出了存在多个窃听者且信道系数是时变的情况下的安全问题，使场景更加复杂且贴近实际。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图通过具体实施例来进行说明。

图2为本发明实施例提供的用于状态更新系统的方法的流程示意图，如图2所示，包括如下步骤：

S201，获取设定时间内基站与用户之间以及窃听者与用户之间的信息传输速率。

其中，数据传输速率由测量装置测量。状态更新系统的控制器直接获取数据传输速率。

S202，根据信息传输速度确定网络系统的平均保密年龄和保密年龄中断概率。

S203，将网络系统的平均保密年龄和保密年龄中断概率转化为系统状态空间，以反射元件反射波束成形系数建立动作空间，并以基站的状态更新信息传输概率为奖励函数，建立安全波束成形模型。

S204，利用学习算法对奖励函数进行解析获得全局最优解，并根据全局最优解和安全波速成形模型确定安全波束成形策略。

在本发明实施例中，通过获取设定时间内基站与用户之间以及窃听者与用户之间的信息传输速率，根据信息传输速度确定网络系统的平均保密年龄和保密年龄中断概率，以基于平均保密年龄和保密年龄中断概率分别反映通信的安全性和QoS要求。将网络系统的平均保密年龄和保密年龄中断概率转化为系统状态空间，以反射元件反射波束成形系数建立动作空间，并以基站的状态更新信息传输概率为奖励函数，建立安全波束成形模型，利用学习算法对奖励函数进行解析获得全局最优解，并根据全局最优解和安全波速成形模型确定安全波束成形策略。基于安全波束成形策略进行状态更新，可以实现最大化系统安全性，同时考虑合法用户的QoS要求。

在一种可能的实现方式中，根据信息传输速度确定网络系统的平均保密年龄包括：

根据信息传输速率确定用户成功接收到基站状态更新信息的概率和窃听者接收到基站状态更新信息的概率，并确定网络系统的瞬时保密年龄；

根据网络系统的瞬时保密年龄确定网络系统的平均保密年龄。

在理论上，设用户集为K＝{1,2,……,k}，窃听者集为M＝{1,2,……,m}和IRS反射元件集为L＝{1,2,……,l}，而基站具有N个天线。

设从基站到IRS的信道系数为Hbr∈C^L×1，从基站到第k个用户的信道系数为

从IRS到第k个用户的信道系数为

从基站到第m个窃听者的信道系数为

和从IRS到第m个窃听者的信道系数为

假设系统中所有的信道系数都是小尺度衰落，且路径损耗遵循瑞利衰落模型。IRS与有效相移相关的反射系数矩阵为Θ＝diag(x₁e^jθ1,x₂e^jθ2,…,x_Le^jθL)b，其中，反射信号上的振幅反射系数为x_i∈[0,1]，反射信号上的相移系数为θ_i∈[0,2π]。考虑到实际实现，我们将每个元件都设计成完全反射，所以在本发明实施例中对于

x_i＝1。

在基站处，对于第k个用户的波束成形向量被表示为

即连续线性编码。因此，基站处所有用户的反射信号记为

其中，s_k为第k个用户的传送符号，可以被建模为均值为零、单位方差为零的独立同分布的随机变量。基站的总发射功率受最大功率约束为：

E[||x||²]＝Tr(VV^H)≤P_max (1)

其中，E[||x||²]为总发射功率，

且P_max是基站的最大发射功率。

当基站向第k个用户发送状态更新时，用户将收到基站的信号和IRS的反射信号。因此，第k个用户收到的信号可以表示为：

其中，

n_k为第k个用户处的噪声，是均值为零方差为

的加性复高斯噪声；G_ks_k为期望信号，

为用户内部干扰。

同理，第m个窃听者接收到的信号被表示为

其中，

nm为第m个窃听者处的噪声，是均值为零方差为

的加性复高斯噪声，

为期望信号，

为窃听者内部干扰。

第k个用户的数据传输速率可以表示为：

如果第m个窃听者试图窃听第k个用户的信号，则窃听到的数据传输速率可以表示为：

本发明将时间分为持续时间相同的时隙，且每个时隙长度为D_n，每个状态更新信息的传输占用一个时隙。我们选择用AoI来度量用户和窃听者接收的状态更新系统的时效性和新鲜度，在每个时隙开始时基站生成一个新的状态更新信息。但是，基站可能会根据不同的传输策略，来选择丢弃新生成的状态信息。我们假设基站知道用户和窃听者能成功接收到其状态更新的概率，用p和q表示，具体的p和q的值可以由上述通信信道链路的数据传输速率推导得出，如下：

其中，p_k为第k个用户成功接收到基站状态更新信息的概率；q_m为第m个窃听者成功接收到基站状态更新信息的概率；R_s为一个时隙t内用户或成功者成功接收一个状态更新信息的最小信息传输速率；假设每一个状态更新包大小恒定为F则

p_tx为基站在每一个时隙开始的时候发送新的状态更新信息的概率。

我们考虑基站的传输策略，首先我们假设基站不知道自身到用户和窃听者的瞬时信道状态信息，且用户和窃听者并没有向基站反馈瞬时的信息年龄。因此，针对这种特殊情况，我们假设基站在每个时隙都新生成一个状态更新信息且以一个随机平稳策略发送状态更新信息，即p_tx是固定的。

此处，用μ_x(t)(x∈m，k)来表示第t个时隙用户和窃听者的瞬时信息年龄，则在t+1个时隙的瞬时年龄可以表示为：

其中，

表示用户或窃听者在第t个时隙是否收到来自基站的状态更新信息；“1”表示成功收到信息；“0”表示没有接收到信道状态更新信息。我们引用两个适用于状态更新系统的两个安全性能指标：瞬时保密年龄和保密年龄中断概率，其定义如下：

瞬时保密年龄μ_s为：

μ_s＝max[μ_m-μ_k] (9)

保密年龄中断概率p_out为：

p_out＝P(max[μ_m-μ_k]≤σ_th) (10)

其中，μ_m来表示第m个窃听者的瞬时信息年龄；μ_k来表示第k个用户的瞬时信息年龄；σ_th为保证用户的信息安全所能容忍的最大保密年龄阈值。

为了评价随机平稳策略的平均保密性能，我们采用二维Markov链来表征用户和窃听者的状态转移。其中，状态(i,j)表示用户当前的信息年龄为i，窃听者当前的信息年龄为j。此时，这个Markov链是不可约的，因此，它允许唯一的稳态分布。d表示系统执行随机平稳策略后的稳态分布，d_k,m(i,j)表示对于第k个用户和第m个窃听者状态为(i,j)的稳态概率。

首先，我们需要注意到，当基站传输时，系统可以从任何状态转变为状态(1,1)，并且信息传输能被用户和窃听者成功接收，即

因为

p_txp_kq_m＝d_k,m(1,1)，通过正向归纳，进一步可以得出：

其中，j>i，根据上述公式可以推导出平均保密年龄和保密年龄中断概率的封闭表达式。

平均保密年龄的表达式为：

其中，E[μ_s]为网络系统的平均保密年龄；μ_s和max[μ_m-μ_k]为网络系统的瞬时保密年龄；K为用户的数量；M为窃听者的数量。

用户成功接收到基站状态更新信息的概率、窃听者接收到基站状态更新信息的概率与网络系统的瞬时保密年龄之间具有如下关系：

其中，max[μ_m-μ_k]为网络系统的瞬时保密年龄；μ_m为窃听者的瞬时信息年龄；μ_k为用户的瞬时信息年龄；p_k为用户成功接收到基站状态更新信息的概率；q_m为窃听者成功接收到基站状态更新信息的概率；p_tx为基站在每一个时隙发送新的状态更新信息的概率。

保密年龄中断概率的封闭表达式为：

其中，

为网络系统的保密年龄中断概率；σ_th为网络系统所能容忍的最大保密年龄阈值；max[μ_m-μ_k]为网络系统的瞬时保密年龄。

由于本发明研究系统中各用户和窃听者的信道空间相关性较低，因此，我们假设任意两条信道相干性ρ＝0，公式(15)推导出了本系统多用户和多窃听者下的平均保密年龄，而公式(16)表达了第k个用户在存在m个窃听者的情况下的保密年龄中断概率。

从公式(15)、(16)可以看出当p_tx变大时，整个系统的平均信息年龄在变小，但是这会导致更高的保密年龄中断概率(保密中断概率)且用户成功接收到基站状态更新的概率p和窃听者成功接收到基站状态更新的概率q也会引起平均信息年龄和保密中断概率的变化。为了在提高上述IRS辅助状态更新系统在物理层的安全性的同时兼顾QoS，我们需要联合优化BS处的波束成形矩阵V、IRS的反射波束成形矩阵Θ以及基站处的状态更新信息传输概率p_tx来达到二者的均衡。我们提出以下优化问题：

其中，约束(a)被设置为满足基站的最大功率约束；约束(b)为IRS的反射元件的约束，约束(c)被设置为BS的传输概率约束。

显然，由于式(17)中的目标函数对于V或Θ都是非凹的，且优化变量V和Θ与(17)中的单位范数约束之间的耦合是非凸的，因此要获得优化的最优解是具有挑战性的。此外，在现实的IRS辅助状态更新系统中，用户的能力、信道质量和服务应用程序都将动态变化。此外，式(22)中的问题是针对多用户多窃听者下的单时隙优化问题，由于忽略系统的历史状态和长期收益，可能收敛到次优解，获得类似贪婪搜索的性能。因此，应用传统的优化技术(AO、SDP和MM)来实现不确定动态环境下有效的安全波束成形策略通常是不可行的。

无模型RL是一种动态规划工具，可以在动态环境中通过学习最优解来解决决策问题。因此，我们利用无模型RL来解决本申请优化决策问题。本发明实施例中，在RL中将IRS辅助的状态更新系统视为一个环境，将基站的中央控制器视为一个学习代理。RL的关键元素定义如下：

状态空间:用S表示系统状态空间。当前系统状态s∈S包括所有用户的信道信息、所有用户的信息年龄和保密年龄中断概率，系统状态s的定义为：

其中，s为系统状态空间；y_k为第k个用户和第m个窃听者的信道信息；y_m为第m个窃听者的信道信息；μ_x(t)为时间t内的瞬时信息年龄；E[μ_s]为网络系统的平均保密年龄；

为网络系统的保密年龄中断概率。

动作空间：设A表示系统动作空间。根据观测到的系统状态s，中心控制器在基站处选择波束成形向量{v_k},k∈K，在IRS处选择反射波束成形系数{θ_i},i∈L，以及基站处的状态更新传输概率p_tx。因此，动作a∈A可以定义为

a＝{{v_k,k∈K},{θ_l,l∈L},{p_tx}} (19)

转移概率：假设τ(s'|s,a)表示转移概率，即给定状态s中执行的动作a，转移到新状态s'∈S的概率。

奖励函数:在RL中，奖励作为一个信号，用来评估代理在当前状态下执行一个动作时的安全波束策略和传输概率有多好。当每个学习步骤的奖励功能与预期目标相关联时，系统性能将得到提高。因此，设计一个有效的奖励函数来提高QoS满意度是非常重要的。

我们以奖励函数为优化目标，在平衡系统安全性和可靠性的同时，使二者能够最大化，提出的奖励函数表示为：

其中，

学习代理的目的是寻找一个最优政策π(π是一个映射从状态空间S中选择一个动作a的概率:π(S):S→A)最大化长期预期的折扣奖励,和累积折扣回报函数可以定义为：

其中，γ(0,1)为折扣因子。在一定策略π下，具有状态-动作对(s,a)的代理的状态-动作函数为：

Q^π(s_t,a_t)＝E_π[U_t|s_t＝s,a_t＝a] (23)

在一种可能的实现方式中，学习算法为DDQN算法。

可选的，可以采用传统的Q-Learning算法学习最优策略。Q-Learning的关键目标是利用Bellman方程更新Q-table，如下所示：

公式(24)中的最优动作值函数等价Bellman最优方程，其表达式为：

状态值函数实现如下：

另外，Q值更新如下：

Q_t+1(s_t,a_t)＝(1-α_t)Q_t(s_t,a_t)+α_t(r_t+γV_t(s_t+1)) (27)

其中。a为学习率。通常，根据(27)构造一个Q表来存储所有可能的Q(s,a)。然而，问题在于当状态-动作空间增长时Q表的收敛性。这个问题被称为维数的诅咒。为了克服维数的问题，一个更好的估计方案是采用一种称为DQN的神经网络。

如图3所示为DQN的神经网络流程示意图，其中，θ为神经网络权值的向量，定义两个Q网络即在线Q网络Q(s,a；θ(t))与目标Q网络Q(s,a；θ'(t))。更准确地说，Q(s,a；θ'(t))的训练方法是在时隙t调整θ(t)相对于目标值y(t)的权重为：

其中，

在前几次迭代中从参数θ_i复制，这种被称为网络克隆的技术消除了观察序列中的相关性。其中，这两个网络都起源于同一个神经网络，尽管存在时间延迟。结合依赖于过去经验的随机样本的经验回放，可以进一步提高学习稳定性。从存储的样本集合中收集一组样本，其中小批次的梯度下降可以方便地使损失函数相对于(28)中的目标值y(t)最小。

在许多尝试中，DQN的表现已经超过了很多算法的水平。然而，DQN使用单一最大数学估计器来选择和评估一个动作。因此，学习主体有时在选择或评价行动时感到困惑，导致行动价值过于乐观。这些过高估计是由于DQN中用于更新Q值函数的最大数学估计器的正偏差造成的。为解决动作值高估问题，提出了双Q学习方法。

如图4所示为DQN的神经网络流程示意图，在DDQN中，动作选择和动作评估解耦成两个分离的最大函数估计。这种双重估计方法给出了更公平的价值，不会导致高估行动值。对于DDQN，公式(28)中的目标值可写成：

y(t)＝r_t+(s',argmaxQ(s',a；θ_i)；θ_i-1) (29)

在时隙t里，采用一组加权参数θ来更新ε贪婪策略而其他一组加权参数θ'决定策略值。ε贪婪策略表示代理采取促进探索的随机行动的概率，而不是由下一个状态的Q值的最大值决定的行动。DDQN第1次迭代更新Q值函数与公式(28)相同；但是目标值变化为：

注意，DDQN和DQN中的目标网络都使用前面的迭代_i-1参数。然而，对于泛化，目标网络可以使用任何之前的迭代(i-k)^th参数。然后通过网络参数的在线副本定期更新目标网络的参数。

具体的，基于DDQN的波束成形算法包括：

设时隙t＝1，初始化经验记忆单元N_D，并利用τ进行软更新；

初始化主网络，使其权值随机且误差为θ，将目标网络初始化为一个原始网络权值的副本，并将误差也初始化为θ；

对每一个episode初始化状态s_t为公式(18)中的状态，episode表示增强学习智能体在环境中执行某个策略从开始到结束这一过程；

对每一个时隙选择一个基于ε贪婪策略的动作a_t,获得及时奖励r_k(s_t,a_t)，并观察下一个状态s'，得到损失函数L(θ)并得到最优波束成形解。然后将经验(s_t,a_t,r_k(s_t,a_t),s'_t)存入N_D，从N_D中随机抽样一些小批次(s_t,a_t,r_k(s_t,a_t),s'_t),计算目标深度网络中的目标Q值；

运用DDQN算法，设置目标值为公式(30)；如果运用DQN算法，设置目标值为公式(29)；

训练主网络使损失函数L(θ)最小：L(θ)＝E[(y(t)-Q(s_t,a_t；θ))²]；

执行梯度下降步骤:(y(t)-Q(s_t,a_t；θ(t)))；

一段时间后更新目标深层网络:θ'(t)＝τθ(t)+(1-τ)θ'(t)；

若s_t+1是终止状态，则结束本轮迭代过程

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

以下为本发明的装置实施例，对于其中未详尽描述的细节，可以参考上述对应的方法实施例。

图5示出了本发明实施例提供的用于状态更新系统的装置的结构示意图，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

如图5所示，用于状态更新系统的装置包括：速率获取模块501、计算模块502、模型建立模块503、解析模块504和确定模块505。

速率获取模块501，用于获取设定时间内基站与用户之间以及窃听者与用户之间的信息传输速率。

计算模块502，用于根据信息传输速度确定网络系统的平均保密年龄和保密年龄中断概率。

模型建立模块503，用于将网络系统的平均保密年龄和保密年龄中断概率转化为系统状态空间，以反射元件反射波束成形系数建立动作空间，并以基站的状态更新信息传输概率为奖励函数，建立安全波束成形模型。

解析模块504，用于利用强化学习算法对奖励函数进行解析获得全局最优解。

确定模块505，用于根据全局最优解和安全波速成形模型确定安全波束成形策略。

在本实施例中，通过获取设定时间内基站与用户之间以及窃听者与用户之间的信息传输速率，根据信息传输速度确定网络系统的平均保密年龄和保密年龄中断概率，以基于平均保密年龄和保密年龄中断概率分别反映通信的安全性和QoS要求。将网络系统的平均保密年龄和保密年龄中断概率转化为系统状态空间，以反射元件反射波束成形系数建立动作空间，并以基站的状态更新信息传输概率为奖励函数，建立安全波束成形模型，利用学习算法对奖励函数进行解析获得全局最优解，并根据全局最优解和安全波速成形模型确定安全波束成形策略。基于安全波束成形策略进行状态更新，可以实现最大化系统安全性，同时考虑合法用户的QoS要求。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个用于状态更新系统的方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。