CN113747442B

CN113747442B - 基于irs辅助的无线通信传输方法、装置、终端及存储介质

Info

Publication number: CN113747442B
Application number: CN202110975618.XA
Authority: CN
Inventors: 李保罡; 石泰; 张珂; 韩东升
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2023-06-06
Anticipated expiration: 2041-08-24
Also published as: CN113747442A

Abstract

本发明提供一种基于IRS辅助的无线通信传输方法、装置、终端及存储介质。该方法包括：获取基站和智能攻击者发送的传输信号，传输信号包括基站直传链路的信息信号、基站直传链路的干扰信号、经过智能反射面反射的信息信号、经过智能反射面反射的干扰信号和智能攻击者发送的干扰信号中的一个或多个信号；基于传输信号、智能反射面的反射系数矩阵、信道矩阵、基站发射功率、基站波束赋形向量，构建无线通信系统的系统保密速率模型；根据强化学习算法，以基站的传输代价和智能攻击者的攻击代价为约束条件，对系统保密速率模型进行迭代处理，确定基站的发射功率和基站发射干扰信号的功率分配系数。本发明能够使系统的安全性能大大提高。

Description

基于IRS辅助的无线通信传输方法、装置、终端及存储介质

技术领域

本发明涉及无线通信技术领域，尤其涉及一种基于IRS辅助的无线通信传输方法、装置、终端及存储介质。

背景技术

智能反射面(Intelligent Reflecting Surfaces，IRS)技术是通过在平面上集成大量低成本的无源反射元件，智能地重新配置无线传播环境，从而提高无线通信的性能，是一种可以极大地提高频谱和能量效率的技术。

在基于智能反射面技术的无线通信系统中，无线通信系统的安全性除了受到窃听者的影响外，还会受到攻击者发送的干扰信号的影响。随着人工智能的不断发展，智能攻击者也变的越来越多。一些智能可编程无线电设备经常被攻击者用来攻击无线通信系统。这些智能攻击者可以灵活地选择攻击类型。当它们靠近发送方时，可以选择窃听信息；当它们靠近接收方时，可以选择发送干扰或欺骗信号来阻碍信息的传输，从而达到攻击效果。

然而，目前基于智能反射面技术的无线通信系统的安全性的研究都是基于攻击者只能窃听信息的基础上进行的研究。当接收方受到智能攻击者的攻击时，如何提高无线通信系统的安全性，成为亟需解决的技术问题。

发明内容

本发明实施例提供了一种基于IRS辅助的无线通信传输方法、装置、终端及存储介质，以解决目前无线通信系统中安全性较低的问题。

第一方面，本发明实施例提供了一种基于IRS辅助的无线通信传输方法，包括：

获取基站和智能攻击者发送的传输信号，传输信号包括基站直传链路的信息信号、基站直传链路的干扰信号、经过智能反射面反射的信息信号、经过智能反射面反射的干扰信号和智能攻击者发送的干扰信号中的一个或多个信号；

基于传输信号、智能反射面的反射系数矩阵、信道矩阵、基站发射功率、基站波束赋形向量，构建无线通信系统的系统保密速率模型；

根据强化学习算法，以基站的传输代价和智能攻击者的攻击代价为约束条件，对系统保密速率模型进行迭代处理，确定基站的发射功率和基站发射干扰信号的功率分配系数。

在一种可能的实现方式中，基于传输信号、智能反射面的反射系数矩阵、信道矩阵、基站发射功率、基站波束赋形向量，构建无线通信系统的系统保密率模型，包括：

基于传输信号、智能反射面的反射系数矩阵、信道矩阵、基站发射功率、基站波束赋形向量，生成接收到的最小信息速率和智能攻击者的最大信息速率；

基于接收到的最小信息速率和智能攻击者的最大信息速率之差，构建无线通信系统的系统保密率模型。

在一种可能的实现方式中，智能攻击者有三种攻击模式，分别为保持沉默模式、窃听模式和发送干扰信息模式；基站在智能攻击者处于保持沉默模式和发送干扰信息模式时，基站只发送信息信号；基站在智能攻击者处于窃听模式时，基站在发送信息信号的同时，还同时发送干扰信号。

在一种可能的实现方式中，根据强化学习算法，以基站的传输代价和智能攻击者的攻击代价为约束条件，对系统保密速率模型进行迭代处理，包括：

根据基站的传输代价、智能攻击者的攻击代价和系统保密速率模型，生成系统保密速率模型的纳什均衡点；

基于纳什均衡点和强化学习算法，对系统保密率模型进行迭代处理。

在一种可能的实现方式中，系统保密速率模型R_t为：

其中，当攻击者处于保持沉默模式时，系统保密速率模型R_t为：

当攻击者处于窃听模式时，系统保密速率模型R_t为：

当攻击者处于发送干扰信息模式时，系统保密速率模型R_t为：

h_br为基站和IRS之间的信道矩阵，

为基站和用户之间的信道矩阵，/>

为IRS和用户之间的信道矩阵，/>

为智能攻击者和用户之间的信道矩阵，/>

为基站和智能攻击者之间的信道矩阵，/>

为IRS和智能攻击者之间的信道矩阵，Φ为IRS的反射系数矩阵，w为基站的波束赋形向量，P_q为第q个用户接收到的基站发射的功率，P_i为第i个用户接收到的基站发射的功率，α为基站分配给噪声的功率分配系数，/>

为瞬时信道状态向量g_bu,q确定的归一化预码向量，v^⊥为v的标准正交向量。

在一种可能的实现方式中，纳什均衡点为：

其中，x^*为基站的发射功率，C_a为基站发送单位功率的成本。

在一种可能的实现方式中，根据强化学习算法，以基站的传输代价和智能攻击者的攻击代价为约束条件，对系统保密速率模型进行迭代处理，确定基站的发射功率和基站发射干扰信号的功率分配系数，包括：

根据强化学习算法，以基站的传输代价和智能攻击者的攻击代价为约束条件，构建系统保密率模型的状态空间、动作空间和奖励值；其中，状态空间为信道状态信息和上一状态的奖励值；动作空间为基站的发射功率和基站发射干扰信号的功率分配系数；奖励值为基站的传输代价；奖励值r为

r＝ln2R_t-C_aP；

R_t为系统保密速率，C_a为基站发送单位功率的成本，P基站的发射功率；

基于贪婪算法和纳什均衡点，对系统保密率模型的状态空间、动作空间和奖励值进行迭代处理，得到基站的发射功率和基站发射干扰信号的功率分配系数。

第二方面，本发明实施例提供了一种基于IRS辅助的无线通信传输装置，包括：

获取信号模块，用于获取基站和智能攻击者发送的传输信号，传输信号包括基站直传链路的信息信号、基站直传链路的干扰信号、经过智能反射面反射的信息信号、经过智能反射面反射的干扰信号和智能攻击者发送的干扰信号中的一个或多个信号；

构建模型模块，用于基于传输信号、智能反射面的反射系数矩阵、信道矩阵、基站发射功率、基站波束赋形向量，构建无线通信系统的系统保密速率模型；

确定系数模块，用于根据强化学习算法，以基站的传输代价和智能攻击者的攻击代价为约束条件，对系统保密速率模型进行迭代处理，确定基站的发射功率和基站发射干扰信号的功率分配系数。

在一种可能的实现方式中，构建模型模块，还用于基于传输信号、智能反射面的反射系数矩阵、信道矩阵、基站发射功率、基站波束赋形向量，生成接收到的最小信息速率和智能攻击者的最大信息速率；

在一种可能的实现方式中，确定系数模块，还用于

在一种可能的实现方式中，系统保密速率模型R_t为：

当攻击者处于窃听模式时，系统保密速率模型R_t为：

h_br为基站和IRS之间的信道矩阵，

为基站和用户之间的信道矩阵，/>

为IRS和用户之间的信道矩阵，/>

为智能攻击者和用户之间的信道矩阵，/>

为基站和智能攻击者之间的信道矩阵，/>

在一种可能的实现方式中，纳什均衡点为：

在一种可能的实现方式中，确定系数模块，还用于

r＝ln2R_t-C_aP；

第三方面，本发明实施例提供了一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。

本发明实施例提供一种基于IRS辅助的无线通信传输方法、装置、终端及存储介质，首先，获取基站和智能攻击者发送的传输信号，然后，基于传输信号、智能反射面的反射系数矩阵、信道矩阵、基站发射功率、基站波束赋形向量，构建无线通信系统的系统保密速率模型。最后，根据强化学习算法，以基站的传输代价和智能攻击者的攻击代价为约束条件，对系统保密速率模型进行迭代处理，确定基站的发射功率和基站发射干扰信号的功率分配系数。如此，基站可以智能的根据智能攻击者的行为，最大化系统保密速率，从而确定基站的发射功率和基站发射干扰信号的功率分配系数，增强用户接收到的信号，从而提高无线通信传输的安全性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于IRS辅助的无线通信传输方法的应用场景图；

图2是本发明实施例提供的基于IRS辅助的无线通信传输方法的实现流程图；

图3是本发明实施例提供的基于IRS辅助的无线通信传输装置的结构示意图；

图4是本发明实施例提供的终端的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图通过具体实施例来进行说明。

随着信息技术的不断发展，智能攻击者越来越多，智能攻击者不仅可以利用窃听的方式降低系统的安全性，而且还可以发送干扰信号来干扰基站发送的信号的正常传输降低系统的安全性。智能攻击者对无线通信系统的安全性的威胁性更大。

然而，目前无线通信系统的安全性方面，只是单纯考虑窃听者存在的情况下的IRS辅助的无线通信安全问题，而涉及到攻击者的其他攻击方式或者是可以灵活选择攻击类型的智能攻击者却很少，无法满足无线通信系统在安全性方面的需求。

如图1所示，提供了一种基于IRS辅助的无线通信传输方法的应用场景图，无线通信系统中包括基站101、智能反射面102、多个用户103和多个智能攻击者104。当无线通信系统中出现智能攻击者104时，当智能攻击者104向用户103发送干扰信息时，基站101无法采取相应措施保证系统的安全性。故而，目前亟需一种在无线通信系统中存在智能攻击者的情况下，保证无线通信系统的安全性的方法。

为了解决现有技术问题，本发明实施例提供了一种基于IRS辅助的无线通信传输方法、装置、终端及存储介质。下面首先对本发明实施例所提供的IRS辅助的无线通信传输方法进行介绍。

参见图2，其示出了本发明实施例提供的基于IRS辅助的无线通信传输方法的实现流程图，详述如下：

步骤S210、获取基站和智能攻击者发送的传输信号。

具体的，传输信号包括基站直传链路的信息信号、基站直传链路的干扰信号、经过智能反射面反射的信息信号、经过智能反射面反射的干扰信号和智能攻击者发送的干扰信号中的一个或多个信号。

在一些实施例中，传输信号根据智能攻击者和基站的工作模式，接收方会接收到不同的传输信号。

具体的，智能攻击者有三种攻击模式，分别为保持沉默模式、窃听模式和发送干扰信息模式。其中，当智能攻击者处于保持沉默模式时，智能攻击者不窃听信息也不向用户发送干扰信息。当智能攻击者处于窃听模式时，会窃听基站发送给用户的信息。当智能攻击者处于发送干扰信息模式时，智能攻击者会向用户发送干扰信号或欺骗信号。

当智能攻击者靠近基站时，可以选择窃听模式来窃听信息；当智能攻击者靠近接收方时，智能攻击者可以选择发送干扰信息模式，发送干扰信号或欺骗信号来阻碍基站发送的信息的传输，从而达到更好的攻击效果。智能攻击者可以利用自己的学习能力，根据不断变化的信道矩阵环境，学习选择不同的攻击类型，从而实现自身利益的最大化。为了保证无线通信系统传输的安全性，基站也需要根据智能攻击者的相应攻击模式选择合适的工作方式，提高基站发送信息的安全性。相应的，基站在智能攻击者处于窃听模式时，基站在发送信息信号的同时，还同时发送干扰信号。基站在智能攻击者处于保持沉默模式和发送干扰信息模式时，基站只发送信息信号，不加入干扰信号，从而提高无线通信系统的功率利用率。

步骤S220、基于传输信号、智能反射面的反射系数矩阵、信道矩阵、基站发射功率、基站波束赋形向量，构建无线通信系统的系统保密速率模型。

具体的，在本发明中，无线通信系统中有K个智能攻击者(Eve)、一个基站(BS)、一个IRS和Q个合法接收器(Bob)组成，其中带有N个天线的基站BS向带有单个天线的合法用户Bob发送合法信息。

相应的，IRS反射单元集为M＝{1,2,...,m}，Q个合法接收器(Bob)的用户集为Q＝{1,2,...,q}，K个智能攻击者(Eve)的合集为K＝{1,2,...,k}。h_br∈C^M×N为基站和IRS之间的信道矩阵，

为基站和用户之间的信道矩阵，/>

为IRS和用户之间的信道矩阵，/>

为智能攻击者和用户之间的信道矩阵，/>

为基站和智能攻击者之间的信道矩阵，/>

为IRS和智能攻击者之间的信道矩阵，Φ＝diag(Φ₁,Φ₂,...,Φ_M)∈C^1×M为IRS的反射系数矩阵，w∈C^M×1为基站的波束赋形向量，其中‖w‖²＝1，s为发送信息的符号。E{s}＝0，E{|s²|}＝1。P_q为第q个用户接收到的基站发射的功率，P_i为第i个用户接收到的基站发射的功率，α为基站分配给噪声的功率分配系数α∈(0,1)，/>

基于上述已经指出的攻击者有三种攻击模式，

当攻击者保持沉默模式时，第q个用户接收到的信号可以表示为：

其中n_q为第q个用户处均值和方差均为零的高斯噪声。

当攻击者处于窃听模式，窃听合法信息时，基站会发出人工噪声信号，因此第q个用户接收到的信号可以表示为：

第k个攻击者接收到的信号为：

其中n_k第k个攻击者处均值和方差均为零的高斯噪声。

当攻击者进行干扰时，第q个用户接收到的信号可以表示为：

其中

表示干扰信号的发射功率，e∈C^L×1表示第k个攻击者发出的干扰信号。

在一些实施例中，基于传输信号、智能反射面的反射系数矩阵、信道矩阵、基站发射功率、基站波束赋形向量，生成接收到的最小信息速率和智能攻击者的最大信息速率；基于接收到的最小信息速率和智能攻击者的最大信息速率之差，构建无线通信系统的系统保密率模型。

可选的，根据香农定理，信号速率的表达式为:R＝log₂(1+SINR)。SINR为接收信号的信噪比。在本发明中，有多个合法的接收者和多个智能攻击者，可将接收者接收到的最小信息率与智能攻击者的最大信息率之差作为系统保密率。

具体的，系统保密速率模型R_t为：

第一种模式、当智能攻击者处于保持沉默模式时，第q个用户的SINR和信号速率可以表示为:

当攻击者保持沉默模式时，

所以系统保密率可以表示为:

第二种模式、当智能攻击者处于窃听模式时，当第k个攻击者窃听第q个合法用户时，第q个用户的SINR和信号速率可以表示为:

攻击者的SINR和信号速率可以表示为:

系统保密速率模型R_t为：

第三种模式、当智能攻击者处于发送干扰信息模式时，当第k个攻击者向第q个suer发送干扰信号时，q-user处的SINR和信号速率可以表示为:

就像智能攻击者保持沉默模式一样，智能攻击者在发送干扰信号时没有接收到任何信息。系统保密速率模型R_t为：

步骤S230、根据强化学习算法，以基站的传输代价和智能攻击者的攻击代价为约束条件，对系统保密速率模型进行迭代处理，确定基站的发射功率和基站发射干扰信号的功率分配系数。

在一些实施例中，根据基站的传输代价、智能攻击者的攻击代价和系统保密速率模型，生成系统保密速率模型的纳什均衡点；基于纳什均衡点和强化学习算法，对系统保密率模型进行迭代处理。

具体的，在本发明中将系统保密速率定义为一个非合作博弈。基站从[0,Pmax]中选择能量P来发送信息，然后Eve选择攻击模式。设t表示智能攻击者的攻击方法：当t＝0时，智能攻击者保持沉默模式；当t＝1时，智能攻击者窃听合法信息，处于窃听模式；当t＝2时，智能攻击者发送干扰信号，处于发送干扰信息模式。用函数f(t)来表示智能攻击者发动不同攻击模式的攻击代价，我们得到了：

基站的传输代价可以表示为：

u_a(p，t)＝ln2R_t-C_aP；

其中C_a为基站发送单位功率的成本。为了便于后续的推导计算，将系统保密速率乘以ln2系数。同样的，根据系统的安全能力和成本选择不同的攻击方式，智能攻击者的利益函数可以表示为:

u_Eve(P，t)＝-ln2R_t-f(t)

使(P^*,t^*)为博弈的纳什均衡点，则有:

u_a(P^*,t^*)≥u_a(P,t^*),

u_Eve(P^*,t^*)≥u_Eve(P^*,t)，

上述2个公式是纳什平衡点的定义条件。基站和智能攻击者都没有动机打破这个平衡，因此他们无法获得更高的回报。

可选的，根据以上纳什均衡点的条件，定义博弈有纳什均衡点

第一种情况：定义NE(x^*,0)，上述的纳什均衡点需要满足的条件有：

由上式可知，如果基站的传输代价小于智能攻击者的攻击代价，则智能攻击者的攻击动机会被抑制。反之，如果无线电信道环境遭到破坏或出现严重的信息泄露，则基站将停止发送信息。

第二种情况：定义NE(P_max，0)，上述的纳什均衡点需要满足的条件有：

由上式可知，当智能攻击代价高或传输代价低时，基站会选择最大传输功率来发送信息。

可选的，在上述的博弈中，基站很难及时估计攻击者的行动，因此本发明采用强化学习来解决这一常见的非凸问题。首先，基站为其行动选择一种发射功率，然后攻击者通过观察基站的行为选择自己的攻击模式。在强化学习中，以IRS辅助通信系统为环境，以基站和攻击者为两个学习主体。除了环境和agent,强化学习还包括一组系统状态S、一组可用动作a和奖励函数r。

具体的，状态空间为信道状态信息和上一状态的奖励值；动作空间为基站的发射功率和基站发射干扰信号的功率分配系数；奖励值为基站的传输代价；奖励值r为

r＝ln2R_t-C_aP；

R_t为系统保密速率，C_a为基站发送单位功率的成本，P基站的发射功率

强化学习是一个迭代过程，每次迭代都是为了解决两个问题:给定一个策略评价函数，并根据值函数来更新策略。DQN利用神经网络逼近值函数，通过压缩Q-learning的状态动作空间来加速学习。通过神经网络计算值函数后，DQN采用ε-greedy策略输出相应的动作。环境接受带有奖励和下一个观察值的行动。这里有一个步骤，根据奖励函数更新价值函数网络的参数，然后进行下一步。一直这样做，直到训练出一个良好的价值函数网络。

首先定义损失函数，然后利用梯度下降法更新参数：

L(ω)＝E[(R+γ·max_a′Q(s′，a′；ω^-)-Q(s，a；ω))²]；

其中，Q(s,a；ω)为预测值，为神经网络的输出。ω为神经网络的权重，γ∈[0,1]是表示基站对未来收益的不确定性的折扣因子。

具体的，基站首先选择一个随机的发射功率，然后基站以该设定的功率发送信号，智能攻击者会选择他的攻击模式，在执行完最开始的这一步之后。基站再次发送信号之前会根据上一状态的奖励和现在的信道状态信息去预测攻击者这一步的行为，并选择是否加入人工噪声，如果加入人工噪声，就再根据贪婪策略去分配一定的功率加入人工噪声信号，然后依次循环。此处对比过程不再赘述。

本发明通过大量的数据集对基站进行训练，使得基站可以进行智能化地预测攻击者的下一步的行为，并智能化选择性地在发送信号中加入人工噪声，使得系统的安全性能和功率效率都大大提高。通过利用强化学习算法，智能化加入人工噪声来抵抗智能攻击者的不同攻击类型，以最大化系统安全速率和最大化功率利用率为目标，对基站波束形成和IRS波束形成进行联合优化。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在本发明实施例中，首先，获取基站和智能攻击者发送的传输信号，然后，基于传输信号、智能反射面的反射系数矩阵、信道矩阵、基站发射功率、基站波束赋形向量，构建无线通信系统的系统保密速率模型。最后，根据强化学习算法，以基站的传输代价和智能攻击者的攻击代价为约束条件，对系统保密速率模型进行迭代处理，确定基站的发射功率和基站发射干扰信号的功率分配系数。如此，基站可以智能的根据智能攻击者的行为，最大化系统保密速率，从而确定基站的发射功率和基站发射干扰信号的功率分配系数，增强用户接收到的信号，从而提高无线通信传输的安全性。

基于上述实施例提供的基于IRS辅助的无线通信传输方法，相应地，本发明还提供了应用于该基于IRS辅助的无线通信传输方法的基于IRS辅助的无线通信系统的传输装置的具体实现方式。请参见以下实施例。

如图3所示，提供了一种基于IRS辅助的无线通信系统的传输装置300，该装置包括：

获取信号模块310，用于获取基站和智能攻击者发送的传输信号，传输信号包括基站直传链路的信息信号、基站直传链路的干扰信号、经过智能反射面反射的信息信号、经过智能反射面反射的干扰信号和智能攻击者发送的干扰信号中的一个或多个信号；

构建模型模块320，用于基于传输信号、智能反射面的反射系数矩阵、信道矩阵、基站发射功率、基站波束赋形向量，构建无线通信系统的系统保密速率模型；

确定系数模块330，用于根据强化学习算法，以基站的传输代价和智能攻击者的攻击代价为约束条件，对系统保密速率模型进行迭代处理，确定基站的发射功率和基站发射干扰信号的功率分配系数。

在一种可能的实现方式中，构建模型模块320，还用于基于传输信号、智能反射面的反射系数矩阵、信道矩阵、基站发射功率、基站波束赋形向量，生成接收到的最小信息速率和智能攻击者的最大信息速率；

在一种可能的实现方式中，确定系数模块330，还用于

在一种可能的实现方式中，系统保密速率模型R_t为：

当攻击者处于窃听模式时，系统保密速率模型R_t为：

h_br为基站和IRS之间的信道矩阵，

为基站和用户之间的信道矩阵，/>

为IRS和用户之间的信道矩阵，/>

为智能攻击者和用户之间的信道矩阵，/>

为基站和智能攻击者之间的信道矩阵，/>

在一种可能的实现方式中，纳什均衡点为：

在一种可能的实现方式中，确定系数模块330，还用于

r＝ln2R_t-C_aP；

图4是本发明实施例提供的终端的示意图。如图4所示，该实施例的终端4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个IRS辅助的无线通信传输方法实施例中的步骤，例如图2所示的步骤210至步骤230。或者，所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块的功能，例如图3所示模块310至330的功能。

示例性的，所述计算机程序42可以被分割成一个或多个模块，所述一个或者多个模块/单元被存储在所述存储器41中，并由所述处理器40执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序42在所述终端4中的执行过程。例如，所述计算机程序42可以被分割成图3所示的模块310至330。

所述终端4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端4可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是终端4的示例，并不构成对终端4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端还可以包括输入输出设备、网络接入设备、总线等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述终端4的内部存储单元，例如终端4的硬盘或内存。所述存储器41也可以是所述终端4的外部存储设备，例如所述终端4上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器41还可以既包括所述终端4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个基于IRS辅助的无线通信传输方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于IRS辅助的无线通信传输方法，其特征在于，包括：

获取基站和智能攻击者发送的传输信号；所述传输信号包括基站直传链路的信息信号、基站直传链路的干扰信号、经过智能反射面反射的信息信号、经过智能反射面反射的干扰信号和所述智能攻击者发送的干扰信号中的一个或多个信号；

基于所述传输信号、智能反射面的反射系数矩阵、信道矩阵、基站发射功率、基站波束赋形向量，构建无线通信系统的系统保密速率模型；

根据强化学习算法，以基站的传输代价和智能攻击者的攻击代价为约束条件，对所述系统保密速率模型进行迭代处理，以确定所述基站的发射功率和所述基站发射干扰信号的功率分配系数；

其中，所述基于所述传输信号、智能反射面的反射系数矩阵、信道矩阵、基站发射功率、基站波束赋形向量，构建无线通信系统的系统保密速率模型，包括：基于所述传输信号、智能反射面的反射系数矩阵、信道矩阵、基站发射功率、基站波束赋形向量，生成接收到的最小信息速率和智能攻击者的最大信息速率；基于所述接收到的最小信息速率和智能攻击者的最大信息速率之差，构建所述无线通信系统的系统保密速率模型；

所述系统保密速率模型R_t为：

当攻击者处于窃听模式时，系统保密速率模型R_t为：

h_br为基站和IRS之间的信道矩阵，

为基站和用户之间的信道矩阵，/>

为IRS和用户之间的信道矩阵，/>

为智能攻击者和用户之间的信道矩阵，/>

为基站和智能攻击者之间的信道矩阵，/>

为瞬时信道状态向量g_bu,确定的归一化预码向量，v^⊥为v的标准正交向量。

2.如权利要求1所述的基于IRS辅助的无线通信传输方法，其特征在于，所述智能攻击者有三种攻击模式，分别为保持沉默模式、窃听模式和发送干扰信息模式；所述基站在所述智能攻击者处于保持沉默模式和发送干扰信息模式时，所述基站只发送信息信号；所述基站在所述智能攻击者处于窃听模式时，所述基站在发送信息信号的同时，还同时发送干扰信号。

3.如权利要求1所述的基于IRS辅助的无线通信传输方法，其特征在于，所述根据强化学习算法，以基站的传输代价和智能攻击者的攻击代价为约束条件，对所述系统保密速率模型进行迭代处理，包括：

根据所述基站的传输代价、所述智能攻击者的攻击代价和所述系统保密速率模型，生成所述系统保密速率模型的纳什均衡点；

基于所述纳什均衡点和所述强化学习算法，对所述系统保密速率模型进行迭代处理。

4.如权利要求3所述的基于IRS辅助的无线通信传输方法，其特征在于，所述纳什均衡点为：

5.如权利要求4所述的基于IRS辅助的无线通信传输方法，其特征在于，所述根据强化学习算法，以基站的传输代价和智能攻击者的攻击代价为约束条件，对所述系统保密速率模型进行迭代处理，确定所述基站的发射功率和所述基站发射干扰信号的功率分配系数，包括：

根据强化学习算法，以基站的传输代价和智能攻击者的攻击代价为约束条件，构建所述系统保密速率模型的状态空间、动作空间和奖励值；其中，所述状态空间为信道状态信息和上一状态的奖励值；所述动作空间为基站的发射功率和基站发射干扰信号的功率分配系数；所述奖励值为基站的传输代价；所述奖励值r为

r＝ln2R_t-C_aP；

基于贪婪算法和所述纳什均衡点，对所述系统保密速率模型的状态空间、动作空间和奖励值进行迭代处理，得到所述基站的发射功率和所述基站发射干扰信号的功率分配系数。

6.一种基于IRS辅助的无线通信传输装置，其特征在于，包括：

获取信号模块，用于获取基站和智能攻击者发送的传输信号，所述传输信号包括基站直传链路的信息信号、基站直传链路的干扰信号、经过智能反射面反射的信息信号、经过智能反射面反射的干扰信号和所述智能攻击者发送的干扰信号中的一个或多个信号；

构建模型模块，用于基于所述传输信号、智能反射面的反射系数矩阵、信道矩阵、基站发射功率、基站波束赋形向量，构建无线通信系统的系统保密速率模型；

确定系数模块，用于根据强化学习算法，以基站的传输代价和智能攻击者的攻击代价为约束条件，对所述系统保密速率模型进行迭代处理，确定所述基站的发射功率和所述基站发射干扰信号的功率分配系数；

构建模型模块，用于基于所述传输信号、智能反射面的反射系数矩阵、信道矩阵、基站发射功率、基站波束赋形向量，生成接收到的最小信息速率和智能攻击者的最大信息速率；基于所述接收到的最小信息速率和智能攻击者的最大信息速率之差，构建所述无线通信系统的系统保密速率模型；

所述系统保密速率模型R_t为：

当攻击者处于窃听模式时，系统保密速率模型R_t为：

h_br为基站和IRS之间的信道矩阵，

为基站和用户之间的信道矩阵，/>

为IRS和用户之间的信道矩阵，/>

为智能攻击者和用户之间的信道矩阵，/>

为基站和智能攻击者之间的信道矩阵，/>

7.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。