CN109787696B

CN109787696B - 基于案例推理与合作q学习的认知无线电资源分配方法

Info

Publication number: CN109787696B
Application number: CN201811511217.3A
Authority: CN
Inventors: 徐琳; 赵知劲; 楼巧巧; 占锦敏; 王琳
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2021-05-11
Anticipated expiration: 2038-12-11
Also published as: CN109787696A

Abstract

本发明公开了一种基于案例推理与合作Q学习的认知无线电资源分配方法。本发明结合了案例推理技术、合作算法与Q学习算法，实现信道和功率的联合分配。首先确定奖赏函数，对若干个随机资源分配案例利用传统Q学习算法进行学习，构建案例库以存储案例的特征值、Q值和效用值；然后通过匹配检索出与当前案例最相似案例，提取其Q值并归一化后作为新案例的初始Q值；接着根据奖赏值大小，采用合作算法融合Q值，通过借鉴其他用户的经验来进行学习。本发明针对传统Q学习收敛速度慢的问题，引入案例推理技术来加快算法的初始寻优速度，同时通过用户间合作加快整体的学习效率。

Description

基于案例推理与合作Q学习的认知无线电资源分配方法

技术领域

本发明属于认知无线电领域，具体涉及一种基于案例推理与合作 Q学习的认知无线电资源分配算法。

背景技术

针对传统频谱管理方案存在的频谱利用率低的问题，已提出了一种认知无线电技术。认知无线电允许认知用户在不干扰主用户通信的前提下，动态地接入空闲信道，因而能有效地提高频谱利用率。动态资源分配是认知无线电的一种关键技术，是通过信道、功率和调制方式等传输参数的优化来提高系统性能。

强化学习通过奖惩原则来优化决策，是一种人工智能算法。Q学习是一种使用最广泛的强化学习算法，已经成功应用于认知无线电网络的动态资源分配。认知无线电领域中，常用的Q学习分为单Agent Q学习和多Agent Q学习。多Agent Q学习算法又包括多Agent Q独立学习和多Agent Q合作学习，其算法通常将Q值初始化为0或较小的随机数，这将会影响算法的寻优效率。而相较于多Agent Q合作学习，多Agent Q独立学习算法的性能也较差。

案例推理也是一种人工智能技术，通过与历史案例的匹配，借鉴历史案例的经验来指导新问题的解决。现有的案例推理与Q学习结合算法的研究大多是单独考虑信道或功率的分配，在信道和功率联合分配中的应用未见报道。因此，本发明提出基于案例推理与合作Q 学习的认知无线电资源分配算法。

发明内容

本发明是针对传统Q学习算法中存在的收敛速度慢的问题，提供一种基于案例推理与合作Q学习算法，实现分布式认知无线电网络的信道和功率分配。

本发明采用的算法具体包括以下步骤：

步骤1、随机初始化若干案例，给定学习速率α、折扣因子γ、初始温度参数T₀和总迭代次数I，利用传统Q学习算法进行学习，构建成案例库；

步骤2、当前新案例和案例库中历史案例进行匹配，检索出最相似案例的Q值，对该Q值归一化后作为迭代的初始Q值；

步骤3、认知用户感知当前状态s_t，根据动作策略选择动作a_t，执行后得到奖赏值r_t和下一状态s_t+1；

步骤4、比较当前时刻所有认知用户的奖赏值总和

和前一次迭代时刻的总奖赏值

的大小，若

则各Agent进行独立学习；若

则Agent间进行合作学习；

步骤5、根据不同的学习方式进行Q值更新，并更新温度参数

步骤6、重复步骤3～5，直到达到总迭代次数。

步骤1具体包括如下内容：

案例库构建：随机初始化若干案例C_k，进行传统的Q学习，得到最终状态-动作函数Q值和认知系统的能量效率；将每个案例的环境因子保存为特征向量V_k，可表示为：

其中，n表示案例的特征个数；将最终Q值保存为解决方案Y_k，将认知系统的能量效率保存为案例效用值E_k，从而构建成案例库。

步骤2具体如下：

假设新案例的特征向量为

采用欧式距离作为衡量案例间的相似度函数，新案例与历史案例C_k的相似函数值为：

其中，ξ_l为第l个特征的权值，∑

ξ_l＝1；从而可得匹配案例

其中，

为案例库中历史案例总个数。

步骤3具体如下：

4-1.动作选择策略：利用Boltzmann机制计算动作的选择概率

然后采用轮盘赌算法进行动作的选择；其中， T为温度参数，当T较大时指数较小，则得到的各动作概率大致相同；随着T值的减少，则概率P的取值对Q值的依赖增大，即Q值大的动作概率相对越大；

4-2.奖赏函数：资源分配算法旨在保证主用户正常通信的前提下，追求认知系统能量效率的最大化；因此，系统中若有用户的通信产生冲突，奖赏值为“-3”；若认知用户的信干噪比SINR_i小于阈值，则奖赏值为“0”，其中，

n₀为高斯白噪声功率；p_i为认知用户选择的功率；h_ji(m)为在信道m上，认知用户j到认知用户i的信道增益；

为主用户功率；g_ki(m)为在信道 m上，主用户k到认知用户i的信道增益；若认知用户能正常通信，则奖赏值为“能量效率Φ_i”，

W为信道带宽。

步骤4和步骤5具体如下：

合作Q学习算法考虑多Agent系统的整体收益，若

则Agent间进行合作学习，即将自身Q值与其他具有更大奖赏值的 Agent Q值的加权和作为当前学习的Q更新值，其计算式如下所示，

其中，ω_ij为折扣权值，表明其他Agent的经验对当前Agent学习的影响程度，其计算式如下所示，

其中，δ为较接近1的常数，r_j为Agentj当前时刻的奖赏值。

本发明与现有技术相比，有以下明显优点：

(1)利用案例推理技术通过匹配历史案例，得到最相似案例的 Q值来初始化新问题的Q值，使得合作Q学习在迭代初期就靠近最优解，加快寻优的速度。

(2)针对多Agent独立Q学习不能实现信息共享的缺点，引入合作算法，Agent通过融合表现更好的Agent的Q值来借鉴学习经验，以加快自身的学习。

附图说明

图1为本发明流程框图。

具体实施方式

如图1所示，一种基于案例推理与合作Q学习的认知无线电资源分配方法，具体步骤如下：

步骤1、随机初始化若干案例，给定学习速率α、折扣因子γ、初始温度参数T₀和总迭代次数I，利用传统Q学习算法进行学习，构建成案例库。

具体如下：

案例库构建：随机初始化若干案例C_k，进行传统的Q学习迭代，得到最终状态-动作函数Q值和认知系统的能量效率。将每个案例的环境因子保存为特征向量V_k，可表示为：

其中，n表示案例的特征个数。将最终Q值保存为解决方案，将认知系统的能量效率保存为案例效用值，从而构建成案例库。

步骤2、当前新案例和案例库中历史案例进行匹配，检索出最相似案例的Q值，对其归一化后作为迭代的初始Q值。

具体如下：

假设新案例的特征向量为

其中，ξ_l为第l个特征的权值，∑

ξ_l＝1。从而可得匹配案例

步骤3、认知用户感知当前状态s_t，根据动作策略选择动作a_t，执行后得到奖赏值r_t和下一状态s_t+1。

具体如下：

3-1.动作选择策略：利用Boltzmann机制计算动作的选择概率

然后采用轮盘赌算法进行动作的选择。其中， T为温度参数，当T较大时，所有动作被选择的概率大致相同；随着 T值的减少，Q值较大的动作被选择的概率越大。

3-2.奖赏函数：资源分配算法旨在保证主用户正常通信的前提下，追求分布式认知网络系统能量效率的最大化。因此，系统中若有用户的通信产生冲突，奖赏值为“-3”；若认知用户的信干噪比SINR_i小于阈值，则奖赏值为“0”，其中，

n₀为高斯白噪声功率；p_i为认知用户选择的功率；h_ji(m)为在信道m 上，认知用户j到认知用户i的信道增益；

为主用户功率；g_ki(m)为在信道m上，主用户k到认知用户i的信道增益；若认知用户能正常通信，则奖赏值为能量效率

W为信道带宽。

步骤4、比较当前时刻所有认知用户的奖赏值总和

和前一次迭代时刻的总奖赏值

的大小，若

则各Agent进行独立学习；若

则Agent间进行合作学习；

步骤5、根据不同的学习方式进行Q值更新，并更新温度参数

具体如下：

合作Q学习算法考虑多Agent系统的整体收益，若

其中，δ为较接近1的常数，r_j为Agentj当前时刻的奖赏值。

步骤6、重复步骤3～5，直到达到总迭代次数。

至此，整个基于案例推理与合作Q学习的认知无线电资源分配算法到此结束，其流程如图所示。

Claims

1.基于案例推理与合作Q学习的认知无线电资源分配方法，其特征在于该方法的具体内容为：

步骤4、比较当前时刻所有认知用户的奖赏值总和

和前一次迭代时刻的总奖赏值

的大小，若

则各Agent进行独立学习；若

则Agent间进行合作学习；

步骤5、根据不同的学习方式进行Q值更新，并更新温度参数

步骤6、重复步骤3～5，直到达到总迭代次数；

步骤1具体包括如下内容：

其中，n表示案例的特征个数；将最终Q值保存为解决方案Y_k，将认知系统的能量效率保存为案例效用值E_k，从而构建成案例库；

步骤2具体如下：

假设新案例的特征向量为

其中，ξ_l为第l个特征的权值，∑ξ_l＝1；从而可得匹配案例

其中，L为案例库中历史案例总个数。

2.根据权利要求1所述的基于案例推理与合作Q学习的认知无线电资源分配方法，其特征在于步骤3具体如下：

4-1.动作选择策略：利用Boltzmann机制计算动作的选择概率

然后采用轮盘赌算法进行动作的选择；其中，T为温度参数，当T较大时指数较小，则得到的各动作概率大致相同；随着T值的减少，则概率P的取值对Q值的依赖增大，即Q值大的动作概率相对越大；

为主用户功率；g_ki(m)为在信道m上，主用户k到认知用户i的信道增益；若认知用户能正常通信，则奖赏值为“能量效率Φ_i”，

W为信道带宽。

3.根据权利要求1所述的基于案例推理与合作Q学习的认知无线电资源分配方法，其特征在于步骤4和步骤5具体如下：

合作Q学习算法考虑多Agent系统的整体收益，若

则Agent间进行合作学习，即将自身Q值与其他具有更大奖赏值的Agent Q值的加权和作为当前学习的Q更新值，其计算式如下所示，

其中，δ为较接近1的常数，r_j为Agentj当前时刻的奖赏值。