CN114553662A

CN114553662A - 一种雾物联网物理层安全的资源分配方法及装置

Info

Publication number: CN114553662A
Application number: CN202210143052.9A
Authority: CN
Inventors: 左珮良; 李姗; 孙国伟; 赵洪; 李兆斌; 魏占帧
Original assignee: BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE
Current assignee: BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-05-27
Anticipated expiration: 2042-02-16
Also published as: CN114553662B

Abstract

本发明提供了一种雾物联网物理层安全的资源分配方法及装置，涉及通信技术领域。包括：构建系统网络通信模型；通过对雾层和用户层之间的通信信道进行优化，对通信信道中的不可信节点信号进行削弱干扰，重建信号；根据重建信号，构建系统网络通信模型中的资源分配优化问题；根据资源分配优化问题，对雾节点的状态、动作与奖励元素进行参数设置；根据设置好的雾节点的状态、动作与奖励元素参数，结合深度Q网络，完成雾物联网物理层安全的资源分配。本发明不需要对感知终端进行任何的改动，通过在雾节点层通过构建深度强化学习神经网络，以及进行合理的状态、动作与奖励元素设计，实现雾物联网资源的合理高效分配，确保场景中感知数据的快速安全上传。

Description

一种雾物联网物理层安全的资源分配方法及装置

技术领域

本发明涉及通信技术领域，特别是指一种雾物联网物理层安全的资源分配方法及装置。

背景技术

物联网和云计算极大地便利我们的日常生活，如智能家居、智慧交通、智慧医疗保健等。随着底层物联网设备收集的数据量呈爆炸式增长，需要在数据产生地附近处理数据以最大限度地减少响应时延，并有效地分配网络负载。雾计算将大量通信、控制、存储和管理置于网络边缘，而不是建立到更集中的远程云，这种方法有效减少了服务延迟，提高了服务质量。然而，由于接近物联网设备、分散式体系结构和瞬时支持，雾物联网存在着其自身的隐私和安全挑战。雾物联网应用于生活的各个领域，互联的智能设备本质上是远程的，并使用无线连接进行通信，由于其广播性质容易受到各种网络攻击，如窃听、中间人攻击、篡改等。因此，雾物联网感知数据的安全传输受到研究者广泛关注。

基于密码学的算法实现的物联网感知数据安全传输虽然能够从计算层面上防止攻击者(不可信第三方)窃听或掌握感知数据内容，但该类型方法一般具备庞大的运算量需求，这对于由廉价低成本的终端所组成的物联网感知层来说具备很大的挑战，感知终端的运算、存储和通信能力一般较为薄弱，与此同时，频繁的加解密等运算对网关设备也提出了很大的性能要求。相比而言，依靠无线信道物理层特征所实现的安全防护技术则可以达到对感知终端较低的硬件要求，例如通过由配置一定自干扰消除能力的网关设备发送干扰信号，破坏窃听信道或降低窃听信道的质量，即可以实现终端感知数据的保密传输目的。值得说明的是，物理层安全手段与密码学加密手段相互兼容，前者既可以在某些场景下实现对后者的替代，也可以与后者一道，提升针对网络数据的安全防护能力。

物理层安全防护技术对于物联网感知层数据安全有着不可忽视的作用，基于物理层特征的安全防护技术虽然能够通过发送人工噪声、依靠同时同频全双工自干扰消除技术实现感知数据上传业务信道保密容量水平的提升，但是对于一定规模的雾物联网场景，其中多个感知终端与几个雾节点相连，每对潜在的信道连接存在不可信的第三方进行感知数据窃听，在面临业务信道、窃听信道和干扰信道状态组合多样，涉及无线信道资源划分、人工噪声干扰功率分配的情况。

综上所述，物理层防护技术无法直观有效的进行应用，这极大的限制了雾物联网整体的保密吞吐量。

发明内容

针对现有技术中物理层防护技术无法直观有效的进行应用，这极大的限制了雾物联网整体的保密吞吐量的问题，本发明提出了一种雾物联网物理层安全的资源分配方法及装置。

为解决上述技术问题，本发明提供如下技术方案：

一方面，提供了一种雾物联网物理层安全的资源分配方法，该方法应用于电子设备，该方法包括：

S1：构建系统网络通信模型，所述系统网络模型包括云层、雾层和用户层；所述雾层包括多个雾节点；

S2：通过所述雾节点对所述雾层和用户层之间的通信信道进行优化，对所述通信信道中的不可信节点信号进行削弱干扰，重建信号；

S3：根据所述重建信号，构建所述系统网络通信模型中的资源分配优化问题；

S4：根据所述资源分配优化问题，对所述雾节点的状态、动作与奖励元素进行参数设置；

S5：根据所述设置好的雾节点的状态、动作与奖励元素参数，结合深度Q网络DQN，形成基于深度强化学习的物理层安全资源分配算法DQN-SRA，完成雾物联网物理层安全的资源分配。

可选地，用户层包括u个不同类型的合法用户，所述合法用户被k个重叠的所述雾节点覆盖，则k>u，K＝{1,2,3,…k}表示雾节点的集合，U＝{1,2,3,…u}表示合法用户集合。

可选地，步骤S2中，通过所述雾节点对所述雾层和用户层之间的通信信道进行优化，对所述通信信道中的不可信节点信号进行削弱干扰，重建信号，包括：

S21：雾节点通过通信测量得到不可信节点的噪声方差相关参数；

S22：雾节点从合法用户接收所需信号的同时发送人工噪声至所述雾层和用户层之间通信信道；

S23：雾节点根据所述不可信节点的噪声方差相关参数、所述从合法用户接收所需信号以及所述人工噪声，构建如下述公式(1)和公式(2)的离散时间系统模型：

z(i)＝g_u,kx(i)+g_k,kw(i)+n(i) (1)

y(i)＝g_u,ex(i)+g_k,ew(i)+e(i) (2)

其中，i＝1，2，3，…n；x(i)表示方差为p_u的发射信号，w(i)表示功率等于p_k,u的雾节点发送的人工噪声；z(i)，y(i)分别是雾节点不可信节点的接收信号，g_u,k是合法用户与雾节点之间的信道增益；g_u,e是合法用户和不可信节点之间的信道增益；g_k,e是雾节点与不可信节点之间的信道增益；n(i)是功率为

的高斯白噪声；e(i)是功率为

的高斯白噪声；

S24：根据下述公式(3)，通过数字干扰消除技术来消除和重建信号：

z′(i)＝z(i)-g_k,kw(i)＝g_u,kx(i)+n(i) (3)。

可选地，步骤S3中，根据所述重建信号，构建所述系统网络通信模型中的资源分配优化问题，包括：

根据所述重建信号，构建如下述公式(4.1)-公式(4.4)的资源分配优化问题：

且

其中，P_k为每个雾节点用于发送干扰噪声的可用功率；

表示t时隙用户u与雾节点k的连接表示，若二者存在连接，则该标识为1，否则取值为0；公式(4.3)表明t时隙所有的合法用户与多个雾节点间有且仅有一个连接。

可选地，步骤S4中，对所述雾节点的状态进行参数设置，包括：

在时隙t时，s_t∈S的状态空间表示为：s_t＝{SNR,Z_u,g_u,e,g_k,e}，其中SNR表示用户与雾节点之间的信噪比；Z_u表示用户请求发送服务内容的大小；g_u,e表示合法用户u与不可信第三方e之间的信道增益；g_k,e表示雾节点k与不可信第三方e之间的信道增益。

可选地，步骤S4中，对所述雾节点的动作进行参数设置，包括：

在时隙t，a_t∈A的动作空间表示为：a_t＝{c_k,u,p_k,u}；其中，c_k,u表示为用户提供服务的雾节点标识，即若当雾节点k为用户u提供服务时，取值为1，否则取值为0；p_k,u是雾节点接收到合法用户u消息的同时发送出人工噪声的功率。

可选地，步骤S4中，对所述雾节点的奖励元素进行参数设置，包括：

所述优化目标是在约束条件下最小化安全保密通信中的服务延迟，则设置奖励参数为下述公式(8)：

可选地，步骤S5中，根据所述设置好的雾节点的状态、动作与奖励元素参数，结合深度Q网络DQN，形成基于深度强化学习的物理层安全资源分配算法DQN-SRA，完成雾物联网物理层安全的资源分配，包括：

将所述设置好的雾节点的状态、动作与奖励元素参数应用于深度Q网络DQN中，形成基于深度强化学习的物理层安全资源分配DQN-SRA算法，完成雾物联网物理层安全的资源分配；所述DQN-SRA算法的输入为状态或观测值；输出则对应于每个动作的值函。

一方面，提供了一种雾物联网物理层安全的资源分配装置，该装置应用于电子设备，该装置包括：

系统网络通信模型构建模块，用于构建系统网络通信模型，所述系统网络模型包括云层、雾层和用户层；所述雾层包括多个雾节点；

信道优化模块，用于对所述雾层和用户层之间的通信信道进行优化，对所述通信信道中的不可信节点信号削弱干扰；

优化问题归纳模块，用于归纳所述系统网络通信模型中的待优化问题；

参数设置模块，用于通过所述待优化问题，对所述雾节点的状态、动作与奖励元素进行参数设置；

资源分配模块，用于根据所述设置好的雾节点的状态、动作与奖励元素参数，结合深度Q网络DQN，形成基于深度强化学习的物理层安全资源分配算法DQN-SRA，完成雾物联网物理层安全的资源分配。

可选地，系统网络通信模型构建模块，还用于所述用户层包括多个不同类型的合法用户，所述合法用户被多个重叠的所述雾节点覆盖。

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述雾物联网物理层安全的资源分配方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述雾物联网物理层安全的资源分配方法。

本发明实施例的上述技术方案至少具有如下有益效果：

上述方案中，本发明重点关注于雾物联网场景中物理层安全的资源分配问题，优势性主要体现在三方面：一是相比于使用传统的密码学算法保障物联网数据安全的方式，本专利关注于使用轻量化的物理层安全手段实现雾物联网数据的安全传输；二是目前还未有相关研究考虑雾物联网场景中协同物理层安全技术手段的综合资源划分问题，以确保实现网络场景在保密通信前提下的通信时延最小化；三是本专利提出使用深度强化学习方法去求解目标资源优化问题，所提方法有效可靠，相比于多种启发式算法具备明显更优的性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种雾物联网物理层安全的资源分配的方法流程图；

图2是本发明实施例提供的一种雾物联网物理层安全的资源分配的方法流程图；

图3是本发明实施例提供的一种雾物联网物理层安全的资源分配方法的存在不可信节点的雾物联网系统模型图；

图4是本发明实施例提供的一种雾物联网物理层安全的资源分配方法的保密通信示意图；

图5是本发明实施例提供的一种雾物联网物理层安全的资源分配方法的不同训练次数下的收敛情况对比图；

图6是本发明实施例提供的一种雾物联网物理层安全的资源分配方法的不同优化参数时的收敛性能对比图；

图7是本发明实施例提供的一种雾物联网物理层安全的资源分配方法的时延性能对比图；

图8是本发明实施例提供的一种雾物联网物理层安全的资源分配的装置框图；

图9是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种雾物联网物理层安全的资源分配的方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。如图1所示的雾物联网物理层安全的资源分配的方法流程图，该方法的处理流程可以包括如下的步骤：

S101：构建系统网络通信模型，所述系统网络模型包括云层、雾层和用户层；所述雾层包括多个雾节点；

S102：通过所述雾节点对所述雾层和用户层之间的通信信道进行优化，对所述通信信道中的不可信节点信号进行削弱干扰，重建信号；

S103：根据所述重建信号，构建所述系统网络通信模型中的资源分配优化问题；

S104：根据所述资源分配优化问题，对所述雾节点的状态、动作与奖励元素进行参数设置；

S105：根据所述设置好的雾节点的状态、动作与奖励元素参数，结合深度Q网络DQN，形成基于深度强化学习的物理层安全资源分配算法DQN-SRA，完成雾物联网物理层安全的资源分配。

优选地，用户层包括u个不同类型的合法用户，所述合法用户被k个重叠的所述雾节点覆盖，则k>u，K＝{1,2,3,…k}表示雾节点的集合，U＝{1,2,3,…u}表示合法用户集合。

优选地，步骤S102中，通过所述雾节点对所述雾层和用户层之间的通信信道进行优化，对所述通信信道中的不可信节点信号进行削弱干扰，重建信号，包括：

S121：雾节点通过通信测量得到不可信节点的噪声方差相关参数；

S122：雾节点从合法用户接收所需信号的同时发送人工噪声至所述雾层和用户层之间通信信道；

S123：雾节点根据所述不可信节点的噪声方差相关参数、所述从合法用户接收所需信号以及所述人工噪声，构建如下述公式(1)和公式(2)的离散时间系统模型：

z(i)＝g_u,kx(i)+g_k,kw(i)+n(i) (1)

y(i)＝g_u,ex(i)+g_k,ew(i)+e(i) (2)

的高斯白噪声；e(i)是功率为

的高斯白噪声；

S124：根据下述公式(3)，通过数字干扰消除技术来消除和重建信号：

z′(i)＝z(i)-g_k,kw(i)＝g_u,kx(i)+n(i) (3)。

优选地，步骤S103中，根据重建信号，构建所述系统网络通信模型中的资源分配优化问题，包括：

且

其中，P_k为每个雾节点用于发送干扰噪声的可用功率；

可选地，步骤S104中，对所述雾节点的状态进行参数设置，包括：

可选地，步骤S104中，对所述雾节点的动作进行参数设置，包括：

可选地，步骤S104中，对所述雾节点的奖励元素进行参数设置，包括：

可选地，步骤S105中，根据所述设置好的雾节点的状态、动作与奖励元素参数，结合深度Q网络DQN，形成基于深度强化学习的物理层安全资源分配算法DQN-SRA，完成雾物联网物理层安全的资源分配，包括：

将所述设置好的雾节点的状态、动作与奖励元素参数应用于深度Q网络DQN中，形成基于深度强化学习的物理层安全资源分配算法DQN-SRA，完成雾物联网物理层安全的资源分配；所述DQN-SRA算法的输入为状态或观测值；输出则对应于每个动作的值函。

本发明实施例中，本发明在考虑物联网感知层存在不可信节点的现实情况下，关注于雾物联网场景下物理层安全的资源分配问题。基于雾节点接收机(物联网网关)具备同时同频全双工自干扰消除技术的假定，专利提出一种轻量级的具备物理层安全特性的无线资源智能划分方法，该方法不需要对感知终端进行任何的改动，在雾节点层通过构建深度强化学习神经网络，以及进行合理的状态、动作与奖励元素设计，实现雾物联网资源的合理高效分配，确保场景中感知数据的快速安全上传。

本发明实施例提供了一种雾物联网物理层安全的资源分配的方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。如图2所示的雾物联网物理层安全的资源分配的方法流程图，该方法的处理流程可以包括如下的步骤：

S201：构建系统网络通信模型，系统网络模型包括云层、雾层和用户层；雾层包括多个雾节点；

一种可行的实施方式中，用户层包括u个不同类型的合法用户，所述合法用户被k个重叠的所述雾节点覆盖，则k>u，K＝{1,2,3,…k}表示雾节点的集合，U＝{1,2,3,…u}表示合法用户集合。

一种可行的实施方式中，如图3所示，为存在不可信节点的雾物联网系统模型图。系统模型由云层、雾层和用户层组成。用户层不同类型的合法用户(User Equipment，UE)被多个重叠的雾节点覆盖，这些节点对应于无线接入点(物联网网关)。雾节点通过无线方式将用户流量转发到边缘路由器，接着边缘路由器通过有线回程链路将聚合的流量转发至核心网络，核心网络与云服务器连接，为UEs提供了邻近计算和交付服务。在边缘路由器的管理区域内有K个雾节点和U个用户终端，令K＝{1,2,3,…k}表示雾节点的集合，U＝{1,2,3,…u}表示用户集合。本发明关注的请求服务是基于上行链路的，假设每个用户UE一次仅发起一个服务请求，用表示请求集。每个具有服务请求的UE需要被分配一个服务雾节点。与常见的边缘计算场景保持一致，本专利设定由边缘路由器负责做出调度决策。

S202：雾节点通过通信测量得到不可信节点的噪声方差相关参数；

S203：雾节点从合法用户接收所需信号的同时发送人工噪声至所述雾层和用户层之间通信信道。

一种可行的实施方式中，由于无线媒介的广播性质，无线通信本质上是不安全的。怀纳引入了物理层信息安全的框架、窃听通道和相关的保密能力概念。保密问题涉及三个节点:发送者(即合法用户)、接收者(即雾节点)和不可信第三方(即窃听者)。保密容量被定义为从发送者到合法接收者的最大可实现速率，同时确保窃听者完全不知道传输的信息。雾节点只要有一个比不可信节点更好的渠道，不需要任何密钥就可以实现完美的保密。如图4所示，本专利设定雾节点具备一定的高斯噪声发送能力，可用来削弱不可信节点的信道，而雾节点则可利用同时同频全双工自干扰消除技术抵消它，以便获取有效信息。

S204：雾节点根据不可信节点的噪声方差相关参数、从合法用户接收所需信号以及人工噪声，构建如下述公式(1)和公式(2)的离散时间系统模型：

z(i)＝g_u,kx(i)+g_k,kw(i)+n(i) (1)

y(i)＝g_u,ex(i)+g_k,ew(i)+e(i) (2)

的高斯白噪声；e(i)是功率为

的高斯白噪声。

一种可行的实施方式中，假设合法用户使用一根收发共用天线，雾节点的接收天线和发射天线分离，而不可信节点使用一根收发共用天线进行数据接收。同时认为不可信节点的噪声方差相关参数是已知的(雾节点可事先通过通信测量得到)。

S205：根据下述公式(3)，通过数字干扰消除技术来消除和重建信号：

z′(i)＝z(i)-g_k,kw(i)＝g_u,kx(i)+n(i) (3)。

一种可行的实施方式中，本发明假设与同一个雾节点相关联的终端设备被分配正交信道。因此，不同雾节点之间不存在干扰，并且在一个雾节点的覆盖范围内没有干扰。在时隙t期间，用户设备u和雾节点k之间的平均信噪比(SNR)为：

在时隙t期间(令时隙t时长为1)，用户u与其服务的雾节点k之间无线链路的可实现数据发送率为：

其中,B为信道带宽，r_u,k(t)为t时隙合法用户在确定信息不被窃取条件下的数据发送速率，等价于t时隙保密容量C_bm，即发送者到雾节点的最大可实现速率；C_u,k(t)为t时隙合法用户与雾节点，C_u,e(t)为合法用户与不可信节点的信道容量；p_u(t)是在时隙t期间合法用户对雾节点的发送功率；

为高斯白噪声。值得说明的是，保密容量C_bm仅在取正值时才有意义，若合法信道容量低于窃听信道容量，则意味着此时无法进行保密通信，保密容量取值为零。假设t时隙每个用户需要的发送的流量内容大小为Z_u，在保密通信要求下，其传输时延为：

其中，p_k,u(t)为时隙t雾节点接收到合法用户u消息的同时，发送出功率大小为p_k,u(t)的人工噪声，p_k(t)为雾节点的总功率。

S206：根据重建信号，构建如下述公式(4.1)-公式(4.4)的资源分配优化问题：

且

其中，P_k为每个雾节点用于发送干扰噪声的可用功率；

一种可行的实施方式中，雾物联网物理层安全的待优化资源分配问题是典型的NP困难问题，普通的优化方法难以快速有效的求解，有鉴于待优化问题的复杂性，本发明提出使用深度强化学习的人工智能手段进行问题求解。

S207：根据所述资源分配优化问题，对所述雾节点的状态、动作与奖励元素进行参数设置；

一种可行的实施方式中，对所述雾节点的状态进行参数设置，包括：

一种可行的实施方式中，对所述雾节点的动作进行参数设置，包括：

一种可行的实施方式中，对所述雾节点的奖励元素进行参数设置，包括：

所述优化目标是在约束条件下最小化安全保密通信中的服务延迟，则设置奖励参数为下述公式(5)：

本发明实施例中，强化学习(Reinforcement Learning，RL)是机器学习的一个分支，强调如何基于环境而行动，以获得最大化的预期收益。强化学习任务通常用马尔可夫决策过程(Markov Decision Process，MDP)来描述：智能体处于环境E中，状态空间为X,其中的每个状态是智能体感知到的环境描述，智能体可以采取的动作集合构成了动作空间A，若某个动作a∈A作用在当前状态x上，则潜在转移函数P将使得环境从当前状态按某种概率转移到另一个状态，在转移到另一个状态的同时，环境会根据奖励函数反馈给智能体一个奖赏，综合起来，强化学习任务对应了四元组E＝<S,A,P,R>,其中P:

指定了状态转移概率，R:

指定了奖励。在强化学习任务中，学习的目的就是要找到能使长期累积奖赏最大的策略。也就是说，智能体引用最优策略π^*执行操作时，可以获得最大化奖赏：

其中，γ^t表示在时隙t时未来奖励的衰减值，r_t+1表示在时隙t时的瞬时奖励。

Q-learning是一种基于值函数的强化学习算法，即通过判断动作的Q值来进行下一步动作。状态动作值函数Q^π(s,a)指的是在当前状态s下执行动作a，并一直遵循策略π到情节结束，这一过程智能体所获得的累积回报表示为：

Q^π(s,a)＝E[R_t|s_t＝s,a_t＝a,π] (6)

最优状态动作值函数是对所有决策采取最佳行动时可达到的最大值。通过不断迭代使状态动作值函数最终收敛，从而得到最优策略：

具体来说，可以通过式(11)对状态动作值函数存储到Q表中，并不断更新Q表：

其中，r(s,a)表示使用动作a时当前状态s下的奖励，α表示学习速率，

表示状态s′下的最大Q值。ε-贪婪策略为基于一个概率来平衡探索和利用：每次尝试时，以ε的概率选择随机动作，以(1-ε)的概率选择当前最优动作，表示为max_a∈AQ^π(s,a)。

对于强化学习来说，在使用状态动作值函数迭代时，枚举状态和动作空间的时间和内存成本非常高，每一种环境都单独列出来，会使得Q表非常大，在此利用深度神经网络等非线性函数逼近器去近似表示值函数或策略：

Q^*(s,a)≈Q(s,a|θ)

S208：根据所述设置好的雾节点的状态、动作与奖励元素参数，结合深度Q网络(deep Q-network，DQN)，形成DQN-SRA(deep Q-network-Secure Resource Allocation，基于深度强化学习的物理层安全资源分配算法)，完成雾物联网物理层安全的资源分配。

本发明实施例中，深度Q网络与Q-learning最大的不同就是，DQN在初始化的时候不再生成一个完整的Q表，每一个观测环境的Q值都是通过神经网络生成的，即通过输入当前环境的特征来得到当前环境每个动作的Q值(Q-Value)，并且以这个Q-Value为基准进行动作选择。深度神经网络(Deep Neural Networks，DNN)通过迭代最小化损失函数：

L(θ)＝E[R_t+γmax_a′Q_θ(s′,a′)-Q_θ(s,a)]²

其中，目标网络生成Q值为：

target Q＝R_t+γmax_a′Q_θ(s′,a′)。

一种可行的实施方式中，将所述设置好的雾节点的状态、动作与奖励元素参数应用于深度Q网络DQN中，形成基于深度强化学习的物理层安全资源分配算法DQN-SRA，完成雾物联网物理层安全的资源分配；所述DQN-SRA算法的输入为状态或观测值；输出则对应于每个动作的值函。

一种可行的实施方式中，将DQN-SRA算法总结于算法1中，则算法1可表示为：

算法1.基于深度强化学习的物理层安全资源分配算法(DQN-SRA)

其中y_i＝E_s,a～ρ(.)[r+γmaxQ(s,a|θ_i-1)|s,a]，在循环过程中每一次都是通过使用上一次网络更新的参数θ_i-1来计算y_i。

下面通过性能仿真评估与对比来对本发明进行说明。

I.仿真参数设定。

本发明模拟多信道接入无线网络环境建立模型，选取2个雾节点以及5个合法用户组成10条潜在的通信链路，即对于每个用户来说具备2个可选择信道。方案构建的仿真模型和深度强化学习均由Python实现，并且基于数据流编程的符号数学系统TensorFlow和开源人工神经网络库Keras设计和训练DQN算法。仿真的网络参数和深度强化学习算法参数取值如表1和表2所示。训练所使用的神经网络为全连接神经网络，包含6个隐含层，每个隐含层都有64个神经元。每个神经元使用的激活函数为修正线性单元(Linear rectificationfunction，ReLU)。其余仿真参数详见表1和表2。其中，表1为无线网络参数取值；表2为DQN算法参数取值。

表1

表2

基于对上述雾物联网无线网络的场景模拟，仿真实验对10条通信链路进行了1000回合的信道和功率分配。设置服务时延的负值作为奖励，取每个回合的平均奖励值作为本回合的决策值作为性能指标。与此同时，本发明选用以下方法进行性能仿真和对比：

1)DQN-P，表示使用本发明所提DQN-SRA方法，在固定信道条件下分配功率的方法；P(power)表示功率；用于展现所提方法在多参数优化方面的必要性和优势性。

2)DQN-C，表示使用本发明所提DQN-SRA方法，在平均分配干扰噪声功率条件下分配信道的方法，C(Channels)表示信道用于展现所提方法在多参数优化方面的必要性和优势性。

3)O-SRA(Optimum-Secure Resource Allocation,最优安全资源分配)，表示最优安全资源分配法，通过遍历所有组合得到最优性能的资源分配，O(Optimum)表示最优，用于展现所提方法的性能水平，以及与最优性能的性能差距。

4)R-SRA(RandomSecure Resource Allocation,随机安全资源分配)，表示随机安全资源分配法，随机的选定链路和干扰噪声发送功率进行资源分配，R(Random)表示随机，用于对比展现所提方法的性能水平。

II.方法性能呈现。

首先，对不同方法在每个训练轮数中不同的训练次数情况下的收敛性能进行了验证。如图5所示，经过反复的迭代更新，随着训练轮数的增加，所提方法均能够实现收敛，然而，不同次数情况下的收敛图表现出了不同的平滑程度，从图中可以看出，随着训练次数的增加，收敛曲线变得更加平滑，此外，各训练次数情况下的最终收敛值分别为：(a)-62.13；(b)-62.09；(c)-61.97；(d)-61.93；(e)-60.27；(f)-59.14，而通过遍历所得的最优值应为-53.50，这表明随着训练的增加，方法能够逐步的取得接近于最优的收敛值，同时，各收敛过程的最终收敛值相差不是很大，有鉴于此，本发明选定每轮的训练次数为200次。

其次，本发明对不同方法在不同优化参数情况下的性能进行了仿真验证工作，仿真结果如图6所示，从图6中可以看出，虽然仅优化一种参数能够如本文所提方法一样随着训练轮数的增加而逐步收敛，但其最终收敛值却与同时优化干扰噪声功率及信道连接的DQN-SRA算法有着明显的差距，这证明了所提方法的合理性和优势性。

最后，对不同方法在不同测试状态下的性能进行了验证，各方法在随机产生的10个测试状态下的奖励(即时延负值)情况如图5所示。由于参数进行随机的选定，随机法R-SRA在大多数的情况下具有最差的性能，毫无疑问，遍历法O-SRA所得的时延值情况具备最优的性能，而本专利所提方法DQN-SRA虽然与最优性能有一定的差距，大概在相对值10左右，但所提方法却明显的优于仅分配干扰功率法DQN-P和随机法，这体现了所提方法的性能优势性。

本发明实施例中，本发明提出了雾物联网高效保密通信的实现技术。传统保护无线通信过程数据安全的手段一般是密码加密或是物理层安全保障，本专利所提技术相比前者来说对于感知终端来说不需要加密操作即可提升数据的安全性，并且还可以前者一并使用提升网络的安全防护能力，与此同时，后者无法直观的在场景中进行应用，且相关的诸多参数有待优化，换言之，本专利解决了后者在雾物联网多节点场景中的合理融合与可靠应用的问题。

本发明又提出了雾物联网安全资源分配的实现方法。本专利提出使用深度强化学习解决关注场景中的雾节点干扰噪声功率、频率信道的资源优化问题，通过一系列合理的与场景密切相关的状态、动作、奖励以及网络等参数的设计，总结并验证了所提出的行之有效的方法，所提方法具备高效智能、稳定可靠的诸多优点。

本发明重点关注于雾物联网场景中物理层安全的资源分配问题，优势性主要体现在三方面：一是相比于使用传统的密码学算法保障物联网数据安全的方式，本专利关注于使用轻量化的物理层安全手段实现雾物联网数据的安全传输；二是目前还未有相关研究考虑雾物联网场景中协同物理层安全技术手段的综合资源划分问题，以确保实现网络场景在保密通信前提下的通信时延最小化；三是本专利提出使用深度强化学习方法去求解目标资源优化问题，所提方法有效可靠，相比于多种启发式算法具备明显更优的性能。

图8是根据一示例性实施例示出的一种雾物联网物理层安全的资源分配装置框图。参照图8，该装置包括：

系统网络通信模型构建模块310，用于构建系统网络通信模型，所述系统网络模型包括云层、雾层和用户层；所述雾层包括多个雾节点；

信道优化模块320，用于对所述雾层和用户层之间的通信信道进行优化，对所述通信信道中的不可信节点信号削弱干扰；

优化问题归纳模块330，用于归纳所述系统网络通信模型中的待优化问题；

参数设置模块340，用于通过所述待优化问题，对所述雾节点的状态、动作与奖励元素进行参数设置；

资源分配模块350，用于根据所述设置好的雾节点的状态、动作与奖励元素参数，结合安全资源分配算法DQN-SRA完成雾物联网物理层安全的资源分配。

可选地，系统网络通信模型构建模块310，还用于所述用户层包括多个不同类型的合法用户，所述合法用户被多个重叠的所述雾节点覆盖。

可选地，信道优化模块320，还用于雾节点通过通信测量得到不可信节点的噪声方差相关参数；

雾节点从合法用户接收所需信号的同时发送人工噪声至所述雾层和用户层之间通信信道；

雾节点根据所述不可信节点的噪声方差相关参数、所述从合法用户接收所需信号以及所述人工噪声，构建如下述公式(1)和公式(2)的离散时间系统模型：

z(i)＝g_u,kx(i)+g_k,kw(i)+n(i) (1)

y(i)＝g_u,ex(i)+g_k,ew(i)+e(i) (2)

的高斯白噪声；e(i)是功率为

的高斯白噪声；

根据下述公式(3)，通过数字干扰消除技术来消除和重建信号：

z′(i)＝z(i)-g_k,kw(i)＝g_u,kx(i)+n(i) (3)。

可选地，优化问题归纳模块330，还用于根据所述重建信号，构建如下述公式(4.1)-公式(4.4)的资源分配优化问题：

且

其中，P_k为每个雾节点用于发送干扰噪声的可用功率；

可选地，参数设置模块340，还用于在时隙t时，s_t∈S的状态空间表示为：s_t＝{SNR,Z_u,g_u,e,g_k,e}，其中SNR表示用户与雾节点之间的信噪比；Z_u表示用户请求发送服务内容的大小；g_u,e表示合法用户u与不可信第三方e之间的信道增益；g_k,e表示雾节点k与不可信第三方e之间的信道增益。

可选地，参数设置模块340，还用于在时隙t，a_t∈A的动作空间表示为：a_t＝{c_k,u,p_k,u}；其中，c_k,u表示为用户提供服务的雾节点标识，即若当雾节点k为用户u提供服务时，取值为1，否则取值为0；p_k,u是雾节点接收到合法用户u消息的同时发送出人工噪声的功率。

可选地，参数设置模块340，还用于优化目标是在约束条件下最小化安全保密通信中的服务延迟，则设置奖励参数为下述公式(8)：

可选地，资源分配模块350，还用于将设置好的雾节点的状态、动作与奖励元素参数应用于基于深度强化学习的物理层安全资源分配算法DQN-SRA算法中，完成雾物联网物理层安全的资源分配；DQN-SRA算法的输入为状态或观测值；输出则对应于每个动作的值函。

图9是本发明实施例提供的一种电子设备400的结构示意图，该电子设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)401和一个或一个以上的存储器402，其中，所述存储器402中存储有至少一条指令，所述至少一条指令由所述处理器401加载并执行以实现下述一种雾物联网物理层安全的资源分配方法的步骤：

S5：根据所述设置好的雾节点的状态、动作与奖励元素参数，结合基于深度强化学习的物理层安全资源分配算法DQN-SRA，完成雾物联网物理层安全的资源分配。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述一种雾物联网物理层安全的资源分配方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种雾物联网物理层安全的资源分配方法，其特征在于，包括：

2.根据权利要求1所述雾物联网物理层安全的资源分配方法，其特征在于，所述用户层包括u个不同类型的合法用户，所述合法用户被k个重叠的所述雾节点覆盖，则k＞u，K＝{1,2,3,…k}表示雾节点的集合，U＝{1,2,3,…u}表示合法用户集合。

3.根据权利要求2所述的雾物联网物理层安全的资源分配方法，其特征在于，所述S2中，通过所述雾节点对所述雾层和用户层之间的通信信道进行优化，对所述通信信道中的不可信节点信号进行削弱干扰，重建信号，包括：

z(i)＝g_u,kx(i)+g_k,kw(i)+n(i) (1)

y(i)＝g_u,ex(i)+g_k,ew(i)+e(i) (2)

其中，i＝1，2，3，…n；x(i)表示方差为p_u的发射信号，w(i)表示功率等于p_k,u的雾节点发送的人工噪声；z(i)表示雾节点的接收信号，y(i)表示不可信节点的接收信号；g_u,k是合法用户与雾节点之间的信道增益；g_u,e是合法用户和不可信节点之间的信道增益；g_k,e是雾节点与不可信节点之间的信道增益；g_k,k是雾节点与雾节点之间的信道增益；n(i)是功率为

的高斯白噪声；e(i)是功率为

的高斯白噪声；

z′(i)＝z(i)-g_k,kw(i)＝g_u,kx(i)+n(i) (3)

其中，z′(i)表示重建后的雾节点的接收信号。

4.根据权利要求3所述的雾物联网物理层安全的资源分配方法，其特征在于，所述步骤S3中，根据所述重建信号，构建所述系统网络通信模型中的资源分配优化问题，包括：

且

其中，P_k为每个雾节点用于发送干扰噪声的可用功率；

表示t时隙用户u与雾节点k的连接表示，若二者存在连接，则该标识为1，否则取值为0；P_k,u(t)表示时隙t时雾节点接收到合法用户u消息的同时发送出功率大小为P_k,u(t)的人工噪声；Z_u(t)表示t时隙每个用户需要的发送的流量内容大小；公式(4.3)表明t时隙所有的合法用户与多个雾节点间有且仅有一个连接。

5.根据权利要求4所述的雾物联网物理层安全的资源分配方法，其特征在于，所述步骤S4中，对所述雾节点的状态进行参数设置，包括：

6.根据权利要求5所述的方法，其特征在于，所述步骤S4中，对所述雾节点的动作进行参数设置，包括：

7.根据权利要求6所述的方法，其特征在于，所述步骤S4中，对所述雾节点的奖励元素进行参数设置，包括：

8.根据权利要求6所述的方法，其特征在于，所述步骤S5中，根据所述设置好的雾节点的状态、动作与奖励元素参数，结合深度Q网络DQN，形成基于深度强化学习的物理层安全资源分配算法DQN-SRA，完成雾物联网物理层安全的资源分配，包括：

9.一种雾物联网物理层安全的资源分配装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述系统网络通信模型构建模块，还用于所述用户层包括多个不同类型的合法用户，所述合法用户被多个重叠的所述雾节点覆盖。