CN112188539B

CN112188539B - 一种基于深度强化学习的干扰抵消调度码设计方法

Info

Publication number: CN112188539B
Application number: CN202011076918.6A
Authority: CN
Inventors: 俞汉清; 石泽; 康雅洁; 邵郁林; 林艳; 张一晋
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2022-11-11
Anticipated expiration: 2040-10-10
Also published as: CN112188539A

Abstract

本发明公开了一种基于深度强化学习的干扰抵消调度码设计方法，包括初始化方法，调度码的构造方式，评价及奖励函数，神经网络的训练方式。本发明可以针对各种超帧长度、总用户数、最大活跃用户数的多址接入情形，设计相应码长、码字数和码强度的干扰抵消调度码，从而在物理层连续干扰消除技术下保障短时间内接入的超高可靠性。

Description

一种基于深度强化学习的干扰抵消调度码设计方法

技术领域

本发明属于无线通信技术领域，具体为一种基于深度强化学习的干扰抵消调度码设计方法。

背景技术

超高可靠低时延通信(Ultra-Reliable Low-Latency Communication,URLLC)作为5G系统的三大应用场景之一，广泛存在于工业控制、智能交通、远程医疗等各种行业。针对URLLC，3GPP R16制定了各用户无需进行接入请求和等待接入授权，而是直接选择通信单元进行信道接入的免授权接入机制。借助所设计的各用户调度码之间的特殊数学性质，确定性免授权接入可以用于保障短时间内的超高可靠性，因此能够有效应对5G超高可靠低时延通信这一重大挑战。近年来，针对物理层连续干扰消除技术提出的干扰抵消调度码成为确定性接入的研究热点，但其难以使用数学工具构造，也难以使用传统搜索算法获得。

发明内容

本发明旨在提供一种基于深度强化学习的干扰抵消调度码设计方法，可以获得以往算法难以搜索的干扰抵消调度码，摆脱数学工具的构造限制，同时也能优化通信网络的接入性能，保障短时间内的超高可靠性。实现本发明目的的技术方案为：基于深度强化学习的干扰抵消调度码设计方法，具体步骤为：

步骤1：初始化，设置调度码及算法的参数，所述参数包括：码长n(n≥1)、码字数N(N≥2)、码强度M(M≤N)、构造步长l(取值4～6)、更新周期G(取值100～400)、蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)模拟次数q(取值400～1600)、最大回合限制g_max(取值8000～20000)；

步骤2：智能体基于MCTS与深度神经网络(Deep Neural Network,DNN)构造调度码

步骤3：根据评价及奖励函数计算奖励

步骤4：根据之前构造完成的

所有中间状态和最终状态、相应的MCTS输出π以及奖励

训练DNN；

步骤5：重复步骤2、步骤3和步骤4，直到超出最大回合限制g_max。

本发明与现有技术相比，其显著优点为：通过本发明能够设计出不同参数下的干扰抵消调度码，能保障系统中用户通信的超高可靠性，比现有搜索方法更高效。

附图说明

图1示出了本发明的方法设计流程图。

图2示出了本发明设计的干扰抵消调度码的接入性能，其中n＝11，N＝23，M＝4。

具体实施方式

标识用于确定性接入的构造完成的调度码为

包含N个长度为n的码字，即

标识

中的第i个码字为

对任意一个长为n的码字c_i，定义其特征集为：

可见，

中共包含有nN个位置，每个位置可用0或1表示。另外，设定尚未构造的

全部位置取值为-1，需要在构造过程中不断将其取值为0或1。本发明提供了一种基于深度强化学习的干扰抵消调度码构造方法，在构造过程中按逐个码字逐个位置的顺序根据MCTS给出的概率分布π确定正在构造的

的每个位置的0或1取值(一次确定l个取值)。在本发明中，智能体将构造多个调度码

通过不断试错最终构造出满足要求的干扰抵消调度码。构造一个调度码

的过程称作一个回合，回合中确定l个位置取值称作一个时间步，可见，一个回合共包含了

个时间步。本方法的具体步骤如下：

步骤1：初始化，设置调度码及算法的参数，所述参数包括：码长n(n≥1)、码字数N(N≥2)、码强度M(M≤N)、构造步长l(取值4～6)、更新周期G(取值100～400)、蒙特卡洛树搜索模拟次数q(取值400～1600)、最大回合限制g_max(取值8000～20000)；

步骤1-1：初始化神经网络参数θ，设置当前回合g＝0；

步骤1-2：根据参数决定DNN结构。DNN的输入为一个n×N×3的矩阵，由三个特征平面组成。特征平面X₁表示了正在构造的码

中1的位置，当c_i[j]＝1时，X_i(i,j)＝1；否则X_i(i,j)＝0。特征平面X₂表示正在构造的码

中-1的位置，特征平面X₃表示正在构造的码

中0的位置。DNN的输出是基于正在构造的码

和神经网络参数θ得到的奖励估计r'和概率分布P，记为(P,r′)，其中P＝{P(j):j＝0,1,2,...,2^l-1}。

步骤2：智能体基于MCTS与DNN构造调度码

具体步骤如下：

步骤2-1：执行当前回合，开始构造一个码长n、码字数N的调度码

设置其所有位置的初始值为-1；

步骤2-2：智能体在当前回合的每个时间步通过MCTS确定下一步动作的概率分布π，并根据π执行下一步动作，即在

中确定l个位置的取值。若

中的所有-1都被0和1替换，则当前回合结束，即调度码

构造完成。通过MCTS确定下一步动作的概率分布π的具体步骤如下：

步骤2-2-1：构建一个搜索树，将

的当前状态作为该树的根节点，初始时搜索树只有该根节点。树中的每个中间节点都将有2^l条边，每条边对应的Q值为：

其中v_i是第i个节点，a_j是第j个动作，(v_i,a_j)表示在节点v_i执行动作a_j所对应的边，W(v_i,a_j)是沿该边搜索获得的累计奖励，K(v_i,a_j)是该边的访问次数；

步骤2-2-2：执行q次步骤2-2-3到步骤2-2-5；

步骤2-2-3、节点选择：从根节点开始，根据(3)式不断选择要访问的边j^*，沿着边j^*访问下一个节点，直到未访问过的节点；

其中，c_p是用于权衡探索与利用的常数，取值为0.5～2，P(v_i,a_j)为DNN输出P(j)；

步骤2-2-4、节点扩展与评估：当访问到未访问过的节点v_L时，使用DNN评估v_L，获得DNN输出(P_L,r_L′)，其中，P_L＝{P_L(j):j＝0,1,2,...,2^l-1}。将节点v_L加入搜索树中，并初始化节点v_L对应的所有边的数据，即令K(v_L,a_j)＝0，W(v_L,a_j)＝0，P(v_L,a_j)＝P_L(j)，其中j＝0,1,2,...,2^l-1；

步骤2-2-5、更新：从v_L开始，返回根节点，根据(4)式和(5)式更新路径上所有边的信息；

K(v_i,a_j)＝K(v_i,a_j)+1 (4)

W(v_i,a_j)＝W(v_i,a_j)+r′ (5)

步骤2-2-6：根据(6)式计算从根节点v₀开始的下一步动作的概率分布π；

其中，τ是温度参数，在前三分之一的时间步中，τ＝1；在之后的时间步中，τ＝10^-4。

步骤3：根据评价及奖励函数计算奖励

步骤3-1：计算此回合构造完成的调度码

的评价函数

过程如下：

步骤3-1-1：设置迭代参数s＝1，设置

的初始值为0；

步骤3-1-2：从

中取出s个码字的所有组合，即存在

个组合，每种组合中的元素为

步骤3-1-3：遍历每种组合，若式(7)在该组合中的码字

中不成立，则令

加一；

步骤3-1-4：设置s＝s+1，若s≤M，返回步骤3-1-2；否则停止迭代，

计算完成；

步骤3-2：根据(8)式计算r(C)：

其中m_u是评价函数

的允许取值上限。开始训练时，将m_u设置得较大，使

随着

增加的下降速率较小；随着训练的进行，将m_u设置得较小，使

随着

增加的下降速率较大。按此不断增加此下降速率，可以有效地加速训练，从而更高效地获得干扰抵消调度码；

步骤3-3：存储此回合构造完成的

所有中间状态和最终状态、MCTS输出π以及

用于训练DNN；

步骤3-4：设置g＝g+1，若g mod G＝0，跳转至步骤4，反之跳转到步骤2-1构造下一个调度码。

步骤4：根据之前构造完成的

所有中间状态和最终状态、相应的MCTS输出π以及奖励

训练DNN；

步骤4-1：神经网络根据如式(9)所示损失函数更新参数θ。

步骤5：若g<g_max，跳转到步骤2-1进行下一个回合，否则构造结束。

实施例1

本发明采用Python和C++软件对所述方法进行实施，设置码长n＝11，码字数N＝23，码强度M＝4，构造步长l＝5，更新周期G＝200，MCTS模拟次数q＝800,最大回合限制g_max＝10000，采用本发明可搜索出如下所示的干扰抵消调度码，其中的第i行代表码字c_i。

c₁＝0 0 1 1 0 0 0 1 0 0 1,

c₂＝1 1 0 0 0 1 0 0 0 0 0,

c₃＝0 0 1 0 0 1 1 1 0 0 0,

c₄＝0 0 0 0 1 0 0 1 0 0 0,

c₅＝0 0 0 0 0 0 0 1 1 1 0,

c₆＝0 0 0 1 1 0 1 1 0 1 1,

c₇＝1 0 0 0 1 1 1 0 1 1 0,

c₈＝1 0 0 1 1 0 1 0 0 0 0,

c₉＝0 0 0 0 0 0 0 0 0 1 0,

c₁₀＝0 1 0 0 0 1 1 0 1 0 1,

c₁₁＝0 0 1 0 1 0 0 0 1 1 0,

c₁₂＝1 0 0 1 0 0 1 0 0 1 0,

c₁₃＝0 1 0 0 1 0 1 0 0 0 1,

c₁₄＝1 1 0 0 0 1 1 1 0 0 0,

c₁₅＝1 1 0 1 0 0 1 0 1 0 0,

c₁₆＝0 1 1 0 1 0 0 1 0 0 1,

c₁₇＝0 0 1 0 0 1 0 0 1 0 0,

c₁₈＝1 0 0 1 0 0 0 0 0 0 0,

c₁₉＝0 0 0 0 0 0 1 0 0 0 1,

c₂₀＝1 0 0 0 0 0 0 0 0 0 0,

c₂₁＝0 0 0 0 0 0 0 0 0 0 1,

c₂₂＝0 0 0 0 0 1 0 0 0 1 0,

c₂₃＝0 0 1 1 0 0 0 0 0 0 0。

仿真场景考虑无线网络中存在23个用户需要向可以使用干扰抵消技术对数据包进行迭代解码的中央基站发送数据。将上述干扰抵消调度码的码字c_i分配给用户i。信道时间划分为若干个超帧，每个超帧由11个时隙组成。每个用户与中央基站均能够保持时钟同步，在每个超帧的开始时刻服从泊松到达过程产生一个占时为1时隙的数据包的发送需求。如果一个用户在一个超帧开始时刻产生一个待发送数据包，则在此超帧的第t个时隙，当且仅当c_i[t]＝1，用户i重复发送此数据包。为了达到公平比较，假设随机接入要求用户在一个超帧内平均且独立地选择最优相同数目的时隙发送相同的数据包以达到最低传输失败率。对上述示例的干扰抵消调度码与随机接入的传输失败率进行比较，如图2所示，可见使用本发明设计的干扰抵消调度码可以在物理层干扰抵消技术下明显改善通信的可靠性。

Claims

1.一种基于深度强化学习的干扰抵消调度码设计方法，其特征在于，具体步骤为：

步骤1：初始化，设置调度码及算法的参数，所述参数包括：码长n，n≥1、码字数N，N≥2、码强度M，M≤N、构造步长l，取值4～6、更新周期G，取值100～400、蒙特卡洛树搜索模拟次数q，取值400～1600、最大回合限制g_max，取值8000～20000；

步骤1-1：初始化神经网络参数θ，设置当前回合g＝0；

步骤1-2：标识用于确定性接入的构造完成的调度码为

包含N个长度为n的码字，即

标识

中的第i个码字为

对任意一个长为n的码字c_i，定义其特征集为：

其中，

步骤1-3：根据参数决定神经网络结构；神经网络的输入为一个n×N×3的矩阵，由三个特征平面组成；特征平面X₁表示了正在构造的调度码

中1的位置，当c_i[j]＝1时，X_i(i,j)＝1；否则X_i(i,j)＝0；特征平面X₂表示正在构造的调度码

中-1的位置，特征平面X₃表示正在构造的调度码

中0的位置；神经网络的输出是基于正在构造的调度码

和神经网络参数θ得到的奖励估计r'和概率分布P，记为(P,r′)，其中P＝{P(j):j＝0,1,2,...,2^l-1}；

步骤2：智能体基于蒙特卡洛树搜索与深度神经网络构造调度码

设置其所有位置的初始值为-1；

步骤2-2：智能体在当前回合的每个时间步通过蒙特卡洛树搜索确定下一步动作的概率分布π，并根据π执行下一步动作，即在

中确定l个位置的取值；若

中的所有-1都被0和1替换，则当前回合结束，即调度码

构造完成；通过蒙特卡洛树搜索确定下一步动作的概率分布π的具体步骤如下：

步骤2-2-1：构建一个搜索树，将

的当前状态作为该树的根节点，初始时搜索树只有该根节点；树中的每个中间节点都将有2^l条边，每条边对应的Q值为

步骤2-2-2：执行q次步骤2-2-3到步骤2-2-5；

步骤2-2-3：进行节点选择，从根节点开始，根据(3)式不断选择要访问的边j^*，沿着边j^*访问下一个节点，直到未访问过的节点；

其中，c_p是用于权衡探索与利用的常数，取值为0.5～2，P(v_i,a_j)为神经网络输出P(j)；

步骤2-2-4：对节点进行扩展与评估，当访问到未访问过的节点v_L时，使用神经网络评估v_L，获得神经网络输出(P_L,r′_L)，其中，P_L＝{P_L(j):j＝0,1,2,...,2^l-1}，r′_L是当前状态的估计奖励；将节点v_L加入搜索树中，并初始化节点v_L对应的所有边的数据，即令K(v_L,a_j)＝0，W(v_L,a_j)＝0，P(v_L,a_j)＝P_L(j)，其中j＝0,1,2,...,2^l-1；

步骤2-2-5：进行更新，从v_L开始，返回根节点，根据(4)式和(5)式更新路径上所有边的信息；

K(v_i,a_j)＝K(v_i,a_j)+1 (4)

W(v_i,a_j)＝W(v_i,a_j)+r′ (5)