CN110753329A

CN110753329A - 蜂窝网络中d2d中继通信的功率控制与中继选择方法

Info

Publication number: CN110753329A
Application number: CN201911034781.5A
Authority: CN
Inventors: 王雪; 金涛; 钱志鸿; 蒙武杰; 许多; 王嘉麟; 胡良帅
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-02-04
Anticipated expiration: 2039-10-29
Also published as: CN110753329B

Abstract

本发明公开了一种蜂窝网络中D2D中继通信的功率控制与中继选择方法，先建立系统模型，在保证D2D用户和蜂窝用户最小传输速率的情况下，将功率控制与中继选择问题转化为混合整数非线性规划问题，并将其拆分为对D2D发射端、中继和蜂窝用户的功率控制以及D2D用户的中继选择两个子问题进行求解；随后分别求出给定某个中继下，D2D发射端、中继和蜂窝用户的最优传输功率；最后采用Q学习解决中继选择问题，在保证第一跳以及第二跳D2D链路的能效条件下，为D2D用户分配合适的中继以最大化系统总能效。解决D2D中继通信的功率控制和中继选择问题，实现了系统总能效的最大化。

Description

蜂窝网络中D2D中继通信的功率控制与中继选择方法

技术领域

本发明属于无线通信技术领域，特别是涉及一种蜂窝网络中D2D中继通信的功率控制与中继选择方法。

背景技术

作为5G的关键技术之一D2D(Device-to-Device)通信技术是指通信网络中邻近设备不通过基站直接交换信息的技术。当D2D用户之间距离较远或者链路质量差时，引入中继不仅可以提高用户的信道增益，还能提升网络频谱效率，扩大小区覆盖范围，保证信息的有效传输。但是，随着用户设备的大量增长以及终端设备有限的电池容量限制，怎样有效提高能量效率，实现绿色通信，是未来无线通信发展的关键。

在D2D中继通信中，仅仅考虑功率的控制而忽略中继的选择对于能效的提高是微乎其微的。并且，选择合适的中继也有利于增加系统的吞吐量。一般地，中继可采用的模式有放大转发(Amplify and Forward)和解码转发(Decode and Forward)，放大转发模式的优点是复杂度低于解码转发方式，解码转发模式的优点是可以保证通信链路的质量。通常，D2D通信可选用的中继有多个，基于提高系统能效的目的，如何选择合适的中继最大化能效是值得考虑的。随着中继数目的增加，计算复杂度也是成倍地增加，如何限制备选中继的数量以及选用合适的算法也是需要考虑的。

在D2D通信中引入中继的同时，也给系统内原有蜂窝用户的通信质量造成了干扰，降低了用户的服务质量，增大了功率的消耗，如何为D2D中继通信设定最优的传输功率，选择最合适的中继是实现绿色通信的关键。

发明内容

为实现上述目的，本发明提供一种蜂窝网络中D2D中继通信的功率控制与中继选择方法，在多个备选中继的情况下，解决D2D中继通信的功率控制与中继选择问题，实现了系统能效的最大化。

本发明所采用的技术方案是，蜂窝网络中D2D中继通信的功率控制与中继选择方法，按照以下步骤进行：

步骤S1，建立系统模型，系统内N个D2D用户对与K个蜂窝用户共存，D2D用户对用集合I＝{1,2,...,N}表示，D2D发射端、D2D接收端以及蜂窝用户分别用集合S＝{1,2,...,N}，D＝{1,2,...,N}和C＝{1,2,...,K}表示；假设系统中存在M个理想用户作为中继，用集合表示为R＝{1,2,...,M}；

若一个D2D用户对m＝(s,d)通过某一中继r进行通信，其中m∈I,s∈S,d∈D，r∈R，D2D通信第一跳链路中继以及基站的信干噪比为

和第二跳链路中D2D接收端及基站的信干噪比为和

D2D发射端到D2D接收端的能效为EE(P_s,P_r,P_c,)，P_s、P_r、P_c分别表示D2D发射端、中继、蜂窝用户的传输功率；

步骤S2，在保证蜂窝网络中D2D用户和蜂窝用户的最小传输速率条件下，首先将D2D中继通信的功率控制与中继选择问题转化为混合整数非线性规划问题，并将其拆分为D2D发射端、中继以及蜂窝用户的功率控制与D2D中继选择两个子问题逐步进行求解；

步骤S2.1：定义矩阵X为中继选择矩阵，第m行、第r列的元素表示为中继因子x_mr，当某一D2D用户对m通过某一中继r进行通信时x_mr＝1，否则x_mr＝0；

以及

分别表示D2D发射端、中继以及蜂窝用户的功率分配矩阵，其中

分别表示D2D发射端1,2,...,N的传输功率，

分别表示中继1,2,...,M的传输功率，

分别表示蜂窝用户1,2,...,K的传输功率；

步骤S2.2：引入中继复用因子x_mr之后，将D2D中继通信的功率控制与中继选择问题转化为如下混合整数非线性规划问题：

U^(r1)(P_s,P_c)≥U_min； (8e)

U^(r2)(P_r,P_c)≥U_min； (8f)

其中，P_max为传输功率的阈值，U_min和R_min为D2D链路和蜂窝链路最小传输速率,W表示信道的带宽，U、T表示函数符号；

步骤S3，分别求出D2D发射端、中继和蜂窝用户的最优传输功率；

步骤S4，最后提出一种基于强化学习中的Q学习算法的中继选择策略，最大化系统中D2D用户对的能效。

进一步的，步骤S1中所述D2D通信第一跳链路中继以及基站的信干噪比

和

具体求解过程如下：

其中，G_sr、G_sb、G_cr和G_cb分别表示D2D发射端到中继、D2D发射端到基站、蜂窝用户到中继以及蜂窝用户到基站的信道增益，N₀表示加性高斯白噪声；

所述第二跳链路中D2D接收端及基站的信干噪比为

和

具体求解过程如下：

以及

其中，P_r表示中继的传输功率，G_rd、G_rb、G_cd和G_cb分别表示中继到D2D接收端、中继到基站、蜂窝用户到D2D接收端和蜂窝用户到基站的信道增益。

进一步的，步骤S1中所述D2D发射端到D2D接收端的能效具体求解过程如下：

D2D用户通信第一跳链路的能效表达式为：

D2D用户通信第二跳链路的能效表达式为：

D2D发射端到D2D接收端的能效可表示为D2D发射端到D2D接收端的传输速率比上总功率消耗，基于式(5)、式(6)，具体为：

其中，P_cir表示电路功率损耗，η表示功率放大系数。

进一步的，步骤S3中所述D2D发射端、中继和蜂窝用户的最优传输功率具体求解步骤如下：

步骤3.1：假设给定一个中继，则x_mr＝1；通过所述公式(8)可以将功率分配问题表示为：

步骤S3.2：求出蜂窝用户的最优传输功率，想要最大化公式(9)，那么蜂窝功率

必须取最小值，由(8g)可得：

可以明显看出公式(9)的分子不是一个确定的表达式，为了保证D2D用户对在第一跳链路和第二跳链路的传输速率，将公式(9)分成问题I和问题II，其中问题I为最大化D2D用户在第一跳链路的能效

问题II为最大化D2D用户在第二跳链路的能效

问题I和问题II分别表示为：

问题I:

问题II:

步骤S3.3：利用Dinkelbach方法和拉格朗日对偶分解求解问题I；首先，将问题I转化成等价的减式形式，可得：

其中，用q₁表示为D2D反射端到中继的能效，则

为D2D发射端到中继的最大能效；假设第n次迭代中得到D2D发射端的传输功率P_s(n)，第n-1次迭代中得到D2D反射端到中继的能效q₁(n-1)，则优化问题公式(13)的增广拉格朗日式为：

其中，δ_r1(n)和θ_r1(n)是第一跳链路约束条件的拉格朗日算子；由对偶分解可得式(14)可分解为如下最大化最小问题，即：

步骤S3.4：使用Karush-Kuhn-Tucker条件，可得第n次迭代时得到的最优D2D发射端的传输功率

θ_r1(n,τ+1)＝{θ_r1(n,τ)-α[U^(r1)(n,τ)-U_min]}⁺； (18)

同理可得：

θ_r2(n,τ+1)＝{θ_r2(n,τ)-α[U^(r2)(n,τ)-U_min]}⁺； (21)

其中，δ_r2(n)，θ_r2(n)表示第二跳链路约束条件的拉格朗日算子，q₂表示中继到D2D接收端的能效，τ表示内部迭代的次数、α表示迭代的步长，e表示自然对数；通过多次迭代之后，求出合适的D2D发射端、中继的传输功率。

进一步的，步骤S4中所述提出一种基于强化学习中的Q学习算法的中继选择策略，最大化系统中D2D用户对的能效，具体过程如下：

步骤S4.1：首先定义Q学习中的几个要素：

智能体：智能体为D2D用户对；

动作：动作集合表示为：

A＝(a₁,a₂,...,a_M)； (22)

其中，a₁,a₂,...,a_M分别表示中继1,2,...,M的动作；

设定以D2D发射端到D2D接收端的距离为半径，分别以D2D发射端和D2D接收端为圆心做出两个相交的圆，而辅助通信的中继只能从相交区域中选出；

状态：智能体在t时刻所处的状态用S_t表示，智能体的状态取决于D2D用户在第一跳链路和第二跳链路的能效，具体地：

其中，EE^th代表D2D链路的最低能效要求，EE^(r1)、EE^(r2)分别表示第一跳链路和第二跳链路的能效，s₁，s₂，s₃，s₄表示智能体可能处于的四个状态；

回报函数：回报函数Reward表示执行动作后的报酬，当回报函数为正值时表示所选动作有益，当回报函数为负值时表示所选的动作对于最终结果有负面影响，具体表达式为：

其中，C是折扣因子，EE表示D2D发射端到D2D接收端的能效；

步骤S4.2：初始化状态，然后从多个备选中继中随机选择一个中继进行通信，通过式(5)、式(6)计算出EE^(r1)(P_s,P_c)和EE^(r2)(P_r,P_c)；

步骤S4.3：根据Q学习算法，依次遍历所有的备选中继，利用Q学习更新D2D用户对的Q表，在经过多次迭代后Q表收敛，根据Q表选择最佳中继。

本发明的有益效果：将蜂窝网络中D2D功率控制与中继选择过程分为两个阶段，第一阶段为D2D发射端、中继和蜂窝用户的功率控制阶段，分别获取给定某个中继下D2D发射端、中继和蜂窝用户的最优发射功率，第二阶段为中继选择阶段，在分别获取给定某个中继下D2D发射端、中继和蜂窝用户的最优传输功率，计算出能效，提出一种基于Q学习的中继选择方法，以系统能效最大化为准则，为D2D用户对选择合适的中继，提升系统的能效。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的蜂窝网络中D2D中继通信的功率控制与中继选择的系统模型图。

图2是本发明实施例中功率控制及中继选择方法执行的流程图。

图3是本发明实施例中系统总能效随网络内D2D用户数变化的曲线示意图。

图4是本发明实施例中系统总能效随网络内中继数变化的曲线示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例首先建立系统模型，在保证蜂窝网络中D2D用户与蜂窝用户的最小传输速率的条件下，将D2D中继通信的功率控制与中继选择问题转化为混合整数非线性规划问题，并将其拆分为D2D发射端、中继和蜂窝用户的功率控制以及D2D用户的中继选择两个子问题进行求解，随后分别求出D2D发射端、中继以及蜂窝用户的最优传输功率，最后采用基于Q学习的中继选择方法，以实现系统总能效的最大化。具体地，按照以下步骤进行：

步骤S1，首先建立系统模型。系统模型如图1所示，该系统有一个基站(BS)，系统内N个D2D用户对与K个蜂窝用户共存，D2D用户对包括一个D2D发射端以及与之对应的一个D2D接收端，并且用集合I＝{1,2,...,N}表示D2D用户对。D2D发射端、D2D接收端以及蜂窝用户分别用集合S＝{1,2,...,N}，D＝{1,2,...,N}和C＝{1,2,...,K}表示。假设系统中存在M个理想用户作为中继，用集合表示为R＝{1,2,...,M}。D2D发射端与D2D接收端之间由于链路质量较差，不能直连通路，只能通过多个备选中继中的某一个通信，而中继均采用放大转发协议。

若一个D2D用户对m＝(s,d)(m∈I，s∈S,d∈D)通过某一中继r(r∈R)进行通信，在D2D通信第一跳链路中，D2D发射端对所复用频谱资源的蜂窝用户传输链路产生干扰，同时中继也会受到蜂窝用户的干扰，设第一跳链路中继以及基站的信干噪比为

和

以及

其中，P_s、P_c分别表示D2D发射端和蜂窝用户的传输功率，G_sr、G_sb、G_cr和G_cb分别表示D2D发射端到中继、D2D发射端到基站、蜂窝用户到中继以及蜂窝用户到基站的信道增益，N₀表示加性高斯白噪声。

在D2D通信第二跳链路中，采用放大转发协议的中继会对所复用频谱资源的蜂窝用户传输链路产生干扰，同时D2D接收端受到蜂窝用户的干扰，设第二跳链路中D2D接收端及基站的信干噪比为

和

以及

D2D用户通信第一跳链路的能效表达式为：

D2D用户通信第二跳链路的能效表达式为：

其中，P_cir表示电路功率损耗，η表示功率放大系数，W表示信道的带宽，U、T表示函数符号，无实际含义。

步骤S2，在保证蜂窝网络中D2D用户和蜂窝用户的最小传输速率条件下，首先将D2D中继通信的功率控制与中继选择问题转化为混合整数非线性规划问题，并将其拆分为D2D发射端、中继以及蜂窝用户的功率控制与D2D中继选择两个子问题逐步进行求解。

步骤S2.1：定义矩阵X为中继选择矩阵，第m行、第r列的元素表示为中继因子x_mr，当D2D用户对m通过中继r进行通信时x_mr＝1，否则x_mr＝0；

以及

分别表示D2D发射端、中继以及蜂窝用户的功率分配矩阵。

U^(r1)(P_s,P_c)≥U_min； (8e)

U^(r2)(P_r,P_c)≥U_min； (8f)

其中，P_max为传输功率的阈值，U_min和R_min为D2D链路和蜂窝链路最小传输速率。约束条件(8a)和(8b)保证一个中继最多只能辅助一个D2D用户对；约束条件(8c)和(8d)是对于D2D发射端和中继的传输功率限制；约束条件(8e)和(8f)保证D2D第一跳链路以及第二跳链路的最小传输速率需求；约束条件(8g)保证了蜂窝用户的最小传输速率要求。

步骤S3，分别求出D2D发射端、中继和蜂窝用户的最优传输功率。

步骤3.1：假设给定一个中继，则x_mr＝1。通过所述公式(8)可以将功率分配问题表示为：

步骤S3.2：求出蜂窝用户的最优传输功率，公式(9)是蜂窝功率的减函数，想要最大化公式(9)，那么蜂窝功率必须取最小值，由(8g)可得：

在得到蜂窝用户的功率之后，还需求解D2D发射端、中继的最优传输功率。并且，可以明显看出公式(9)的分子不是一个确定的表达式，为了保证D2D用户对在第一跳链路和第二跳链路的传输速率，将公式(9)分成问题I和问题II。其中，问题I为最大化D2D用户在第一跳链路的能效；问题II为最大化D2D用户在第二跳链路的能效，问题I和问题II分别表示为：

问题I:

问题II:

步骤S3.3：问题I和问题II表达式类似，可用相同的方法求解。具体地，利用Dinkelbach方法和拉格朗日对偶分解求解问题I。首先，将问题I转化成等价的减式形式，可得：

其中，用q₁表示为D2D反射端到中继的能效，则

为D2D发射端到中继的最大能效。假设第n次迭代中得到D2D发射端的传输功率P_s(n)，第n-1次迭代中得到D2D反射端到中继的能效q₁(n-1)，则优化问题公式(13)的增广拉格朗日式为：

其中，δ_r1(n)和θ_r1(n)是第一跳链路约束条件的拉格朗日算子。由对偶分解可得式(14)可分解为如下最大化最小问题，即：

步骤S3.4：使用Karush-Kuhn-Tucker(KKT)条件，可得第n次迭代时得到的最优D2D发射端的传输功率

θ_r1(n,τ+1)＝{θ_r1(n,τ)-α[U^(r1)(n,τ)-U_min]}⁺； (18)

同理可得：

θ_r2(n,τ+1)＝{θ_r2(n,τ)-α[U^(r2)(n,τ)-U_min]}⁺； (21)

其中，δ_r2(n)，θ_r2(n)表示第二跳链路约束条件的拉格朗日算子。q₂表示中继到D2D接收端的能效。τ表示内部迭代的次数、α表示迭代的步长，e表示自然对数。

由此，通过多次迭代之后，求出合适的D2D发射端、中继的传输功率。

步骤S4.1：首先定义Q学习中的几个要素：

智能体：对于动作决策的执行以及Q表的更新，本实施例中智能体为D2D用户对。

动作：智能体所执行动作即为选择中继，所以动作数和中继数相等。动作集合表示为：

A＝(a₁,a₂,...,a_M)； (22)

其中，a₁,a₂,...,a_M分别表示中继1,2,...,M的动作；

为了降低计算的复杂度，我们设定以D2D发射端到D2D接收端的距离为半径，分别以D2D发射端和D2D接收端为圆心做出两个相交的圆，而辅助通信的中继只能从相交区域中选出。

状态：智能体在t时刻所处的状态用S_t表示。智能体的状态取决于D2D用户在第一跳链路和第二跳链路的能效，具体地：

其中，EE^th代表D2D链路的最低能效要求，EE^(r1)、EE^(r2)分别表示第一跳链路和第二跳链路的能效，s₁，s₂，s₃，s₄表示智能体可能处于的四个状态。

回报函数：回报函数Reward表示执行动作后的报酬，当回报函数为正值时表示所选动作有益；当回报函数为负值时表示所选的动作对于最终结果有负面影响。具体表达式为：

其中，C是折扣因子，EE表示D2D发射端到D2D接收端的能效。

步骤S4.3：根据Q学习算法，依次遍历所有的备选中继，利用Q学习更新D2D用户对的Q表。在经过多次迭代后，Q表收敛。根据Q表，选择最佳中继。如图2所示，经过Q学习过程之后，D2D用户对通过Q表进行中继选择。

图3所示是系统总能效随网络内D2D用户数变化的曲线示意图，从图中可以看出，系统总能效随网络内D2D用户数的增加而呈现递增的趋势。仿真结果表明本发明实施例的总能效网络优于“能效-中继选择算法”，“匹配-功率控制算法”和“能效-功率控制算法”。

图4所示是系统总能效随网络内中继数变化的曲线示意图，从图中可以看出，随着中继数的增加，采用本发明实施例的系统总能效呈现递增的趋势。这是因为当中继数增加之后，本发明实施例所述方法可以选择更优的中继进行辅助通信，并且该方法的优化性能优于“能效-中继选择算法”，“匹配-功率控制算法”和“能效-功率控制算法”。而“能效-功率控制算法”的总能效曲线是平缓的，原因是其方法中不包含中继选择，所以当中继数增加对于系统总能效影响不大。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。