CN112188539B - 一种基于深度强化学习的干扰抵消调度码设计方法 - Google Patents
一种基于深度强化学习的干扰抵消调度码设计方法 Download PDFInfo
- Publication number
- CN112188539B CN112188539B CN202011076918.6A CN202011076918A CN112188539B CN 112188539 B CN112188539 B CN 112188539B CN 202011076918 A CN202011076918 A CN 202011076918A CN 112188539 B CN112188539 B CN 112188539B
- Authority
- CN
- China
- Prior art keywords
- code
- node
- neural network
- scheduling
- scheduling code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/20—Control channels or signalling for resource management
- H04W72/23—Control channels or signalling for resource management in the downlink direction of a wireless link, i.e. towards a terminal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0446—Resources in time domain, e.g. slots or frames
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Noise Elimination (AREA)
Abstract
本发明公开了一种基于深度强化学习的干扰抵消调度码设计方法,包括初始化方法,调度码的构造方式,评价及奖励函数,神经网络的训练方式。本发明可以针对各种超帧长度、总用户数、最大活跃用户数的多址接入情形,设计相应码长、码字数和码强度的干扰抵消调度码,从而在物理层连续干扰消除技术下保障短时间内接入的超高可靠性。
Description
技术领域
本发明属于无线通信技术领域,具体为一种基于深度强化学习的干扰抵消调度码设计方法。
背景技术
超高可靠低时延通信(Ultra-Reliable Low-Latency Communication,URLLC)作为5G系统的三大应用场景之一,广泛存在于工业控制、智能交通、远程医疗等各种行业。针对URLLC,3GPP R16制定了各用户无需进行接入请求和等待接入授权,而是直接选择通信单元进行信道接入的免授权接入机制。借助所设计的各用户调度码之间的特殊数学性质,确定性免授权接入可以用于保障短时间内的超高可靠性,因此能够有效应对5G超高可靠低时延通信这一重大挑战。近年来,针对物理层连续干扰消除技术提出的干扰抵消调度码成为确定性接入的研究热点,但其难以使用数学工具构造,也难以使用传统搜索算法获得。
发明内容
本发明旨在提供一种基于深度强化学习的干扰抵消调度码设计方法,可以获得以往算法难以搜索的干扰抵消调度码,摆脱数学工具的构造限制,同时也能优化通信网络的接入性能,保障短时间内的超高可靠性。实现本发明目的的技术方案为:基于深度强化学习的干扰抵消调度码设计方法,具体步骤为:
步骤1:初始化,设置调度码及算法的参数,所述参数包括:码长n(n≥1)、码字数N(N≥2)、码强度M(M≤N)、构造步长l(取值4~6)、更新周期G(取值100~400)、蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)模拟次数q(取值400~1600)、最大回合限制gmax(取值8000~20000);
步骤5:重复步骤2、步骤3和步骤4,直到超出最大回合限制gmax。
本发明与现有技术相比,其显著优点为:通过本发明能够设计出不同参数下的干扰抵消调度码,能保障系统中用户通信的超高可靠性,比现有搜索方法更高效。
附图说明
图1示出了本发明的方法设计流程图。
图2示出了本发明设计的干扰抵消调度码的接入性能,其中n=11,N=23,M=4。
具体实施方式
可见,中共包含有nN个位置,每个位置可用0或1表示。另外,设定尚未构造的全部位置取值为-1,需要在构造过程中不断将其取值为0或1。本发明提供了一种基于深度强化学习的干扰抵消调度码构造方法,在构造过程中按逐个码字逐个位置的顺序根据MCTS给出的概率分布π确定正在构造的的每个位置的0或1取值(一次确定l个取值)。在本发明中,智能体将构造多个调度码通过不断试错最终构造出满足要求的干扰抵消调度码。构造一个调度码的过程称作一个回合,回合中确定l个位置取值称作一个时间步,可见,一个回合共包含了个时间步。本方法的具体步骤如下:
步骤1:初始化,设置调度码及算法的参数,所述参数包括:码长n(n≥1)、码字数N(N≥2)、码强度M(M≤N)、构造步长l(取值4~6)、更新周期G(取值100~400)、蒙特卡洛树搜索模拟次数q(取值400~1600)、最大回合限制gmax(取值8000~20000);
步骤1-1:初始化神经网络参数θ,设置当前回合g=0;
步骤1-2:根据参数决定DNN结构。DNN的输入为一个n×N×3的矩阵,由三个特征平面组成。特征平面X1表示了正在构造的码中1的位置,当ci[j]=1时,Xi(i,j)=1;否则Xi(i,j)=0。特征平面X2表示正在构造的码中-1的位置,特征平面X3表示正在构造的码中0的位置。DNN的输出是基于正在构造的码和神经网络参数θ得到的奖励估计r'和概率分布P,记为(P,r′),其中P={P(j):j=0,1,2,...,2l-1}。
步骤2-2:智能体在当前回合的每个时间步通过MCTS确定下一步动作的概率分布π,并根据π执行下一步动作,即在中确定l个位置的取值。若中的所有-1都被0和1替换,则当前回合结束,即调度码构造完成。通过MCTS确定下一步动作的概率分布π的具体步骤如下:
其中vi是第i个节点,aj是第j个动作,(vi,aj)表示在节点vi执行动作aj所对应的边,W(vi,aj)是沿该边搜索获得的累计奖励,K(vi,aj)是该边的访问次数;
步骤2-2-2:执行q次步骤2-2-3到步骤2-2-5;
步骤2-2-3、节点选择:从根节点开始,根据(3)式不断选择要访问的边j*,沿着边j*访问下一个节点,直到未访问过的节点;
其中,cp是用于权衡探索与利用的常数,取值为0.5~2,P(vi,aj)为DNN输出P(j);
步骤2-2-4、节点扩展与评估:当访问到未访问过的节点vL时,使用DNN评估vL,获得DNN输出(PL,rL′),其中,PL={PL(j):j=0,1,2,...,2l-1}。将节点vL加入搜索树中,并初始化节点vL对应的所有边的数据,即令K(vL,aj)=0,W(vL,aj)=0,P(vL,aj)=PL(j),其中j=0,1,2,...,2l-1;
步骤2-2-5、更新:从vL开始,返回根节点,根据(4)式和(5)式更新路径上所有边的信息;
K(vi,aj)=K(vi,aj)+1 (4)
W(vi,aj)=W(vi,aj)+r′ (5)
步骤2-2-6:根据(6)式计算从根节点v0开始的下一步动作的概率分布π;
其中,τ是温度参数,在前三分之一的时间步中,τ=1;在之后的时间步中,τ=10-4。
步骤3-2:根据(8)式计算r(C):
其中mu是评价函数的允许取值上限。开始训练时,将mu设置得较大,使随着增加的下降速率较小;随着训练的进行,将mu设置得较小,使随着增加的下降速率较大。按此不断增加此下降速率,可以有效地加速训练,从而更高效地获得干扰抵消调度码;
步骤3-4:设置g=g+1,若g mod G=0,跳转至步骤4,反之跳转到步骤2-1构造下一个调度码。
步骤4-1:神经网络根据如式(9)所示损失函数更新参数θ。
步骤5:若g<gmax,跳转到步骤2-1进行下一个回合,否则构造结束。
实施例1
本发明采用Python和C++软件对所述方法进行实施,设置码长n=11,码字数N=23,码强度M=4,构造步长l=5,更新周期G=200,MCTS模拟次数q=800,最大回合限制gmax=10000,采用本发明可搜索出如下所示的干扰抵消调度码,其中的第i行代表码字ci。
c1=0 0 1 1 0 0 0 1 0 0 1,
c2=1 1 0 0 0 1 0 0 0 0 0,
c3=0 0 1 0 0 1 1 1 0 0 0,
c4=0 0 0 0 1 0 0 1 0 0 0,
c5=0 0 0 0 0 0 0 1 1 1 0,
c6=0 0 0 1 1 0 1 1 0 1 1,
c7=1 0 0 0 1 1 1 0 1 1 0,
c8=1 0 0 1 1 0 1 0 0 0 0,
c9=0 0 0 0 0 0 0 0 0 1 0,
c10=0 1 0 0 0 1 1 0 1 0 1,
c11=0 0 1 0 1 0 0 0 1 1 0,
c12=1 0 0 1 0 0 1 0 0 1 0,
c13=0 1 0 0 1 0 1 0 0 0 1,
c14=1 1 0 0 0 1 1 1 0 0 0,
c15=1 1 0 1 0 0 1 0 1 0 0,
c16=0 1 1 0 1 0 0 1 0 0 1,
c17=0 0 1 0 0 1 0 0 1 0 0,
c18=1 0 0 1 0 0 0 0 0 0 0,
c19=0 0 0 0 0 0 1 0 0 0 1,
c20=1 0 0 0 0 0 0 0 0 0 0,
c21=0 0 0 0 0 0 0 0 0 0 1,
c22=0 0 0 0 0 1 0 0 0 1 0,
c23=0 0 1 1 0 0 0 0 0 0 0。
仿真场景考虑无线网络中存在23个用户需要向可以使用干扰抵消技术对数据包进行迭代解码的中央基站发送数据。将上述干扰抵消调度码的码字ci分配给用户i。信道时间划分为若干个超帧,每个超帧由11个时隙组成。每个用户与中央基站均能够保持时钟同步,在每个超帧的开始时刻服从泊松到达过程产生一个占时为1时隙的数据包的发送需求。如果一个用户在一个超帧开始时刻产生一个待发送数据包,则在此超帧的第t个时隙,当且仅当ci[t]=1,用户i重复发送此数据包。为了达到公平比较,假设随机接入要求用户在一个超帧内平均且独立地选择最优相同数目的时隙发送相同的数据包以达到最低传输失败率。对上述示例的干扰抵消调度码与随机接入的传输失败率进行比较,如图2所示,可见使用本发明设计的干扰抵消调度码可以在物理层干扰抵消技术下明显改善通信的可靠性。
Claims (1)
1.一种基于深度强化学习的干扰抵消调度码设计方法,其特征在于,具体步骤为:
步骤1:初始化,设置调度码及算法的参数,所述参数包括:码长n,n≥1、码字数N,N≥2、码强度M,M≤N、构造步长l,取值4~6、更新周期G,取值100~400、蒙特卡洛树搜索模拟次数q,取值400~1600、最大回合限制gmax,取值8000~20000;
步骤1-1:初始化神经网络参数θ,设置当前回合g=0;
步骤1-3:根据参数决定神经网络结构;神经网络的输入为一个n×N×3的矩阵,由三个特征平面组成;特征平面X1表示了正在构造的调度码中1的位置,当ci[j]=1时,Xi(i,j)=1;否则Xi(i,j)=0;特征平面X2表示正在构造的调度码中-1的位置,特征平面X3表示正在构造的调度码中0的位置;神经网络的输出是基于正在构造的调度码和神经网络参数θ得到的奖励估计r'和概率分布P,记为(P,r′),其中P={P(j):j=0,1,2,...,2l-1};
步骤2-2:智能体在当前回合的每个时间步通过蒙特卡洛树搜索确定下一步动作的概率分布π,并根据π执行下一步动作,即在中确定l个位置的取值;若中的所有-1都被0和1替换,则当前回合结束,即调度码构造完成;通过蒙特卡洛树搜索确定下一步动作的概率分布π的具体步骤如下:
其中vi是第i个节点,aj是第j个动作,(vi,aj)表示在节点vi执行动作aj所对应的边,W(vi,aj)是沿该边搜索获得的累计奖励,K(vi,aj)是该边的访问次数;
步骤2-2-2:执行q次步骤2-2-3到步骤2-2-5;
步骤2-2-3:进行节点选择,从根节点开始,根据(3)式不断选择要访问的边j*,沿着边j*访问下一个节点,直到未访问过的节点;
其中,cp是用于权衡探索与利用的常数,取值为0.5~2,P(vi,aj)为神经网络输出P(j);
步骤2-2-4:对节点进行扩展与评估,当访问到未访问过的节点vL时,使用神经网络评估vL,获得神经网络输出(PL,r′L),其中,PL={PL(j):j=0,1,2,...,2l-1},r′L是当前状态的估计奖励;将节点vL加入搜索树中,并初始化节点vL对应的所有边的数据,即令K(vL,aj)=0,W(vL,aj)=0,P(vL,aj)=PL(j),其中j=0,1,2,...,2l-1;
步骤2-2-5:进行更新,从vL开始,返回根节点,根据(4)式和(5)式更新路径上所有边的信息;
K(vi,aj)=K(vi,aj)+1 (4)
W(vi,aj)=W(vi,aj)+r′ (5)
步骤2-2-6:根据(6)式计算从根节点v0开始的下一步动作的概率分布π;
其中,τ是温度参数,在前三分之一的时间步中,τ=1;在之后的时间步中,τ=10-4;
步骤3-4:设置g=g+1,若g mod G=0,跳转至步骤4,否则跳转到步骤2-1构造下一个调度码;
其中a是控制L2正则化的权重;
步骤5:重复步骤2、步骤3和步骤4,若g<gmax,跳转到步骤2-1,否则构造结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011076918.6A CN112188539B (zh) | 2020-10-10 | 2020-10-10 | 一种基于深度强化学习的干扰抵消调度码设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011076918.6A CN112188539B (zh) | 2020-10-10 | 2020-10-10 | 一种基于深度强化学习的干扰抵消调度码设计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112188539A CN112188539A (zh) | 2021-01-05 |
CN112188539B true CN112188539B (zh) | 2022-11-11 |
Family
ID=73948049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011076918.6A Active CN112188539B (zh) | 2020-10-10 | 2020-10-10 | 一种基于深度强化学习的干扰抵消调度码设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112188539B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113766669B (zh) * | 2021-11-10 | 2021-12-31 | 香港中文大学(深圳) | 一种基于深度学习网络的大规模随机接入方法 |
CN114362773B (zh) * | 2021-12-29 | 2022-12-06 | 西南交通大学 | 一种面向光学射频对消的实时自适应追踪决策方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110691422B (zh) * | 2019-10-06 | 2021-07-13 | 湖北工业大学 | 一种基于深度强化学习的多信道智能接入方法 |
CN111182644B (zh) * | 2019-12-24 | 2022-02-08 | 北京邮电大学 | 基于深度强化学习的联合重传urllc资源调度方法 |
-
2020
- 2020-10-10 CN CN202011076918.6A patent/CN112188539B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112188539A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112188539B (zh) | 一种基于深度强化学习的干扰抵消调度码设计方法 | |
CN111867139B (zh) | 基于q学习的深度神经网络自适应退避策略实现方法及系统 | |
Cui et al. | A game-theoretic framework for medium access control | |
CN112491818B (zh) | 基于多智能体深度强化学习的电网输电线路防御方法 | |
CN113543176A (zh) | 基于智能反射面辅助的移动边缘计算系统的卸载决策方法 | |
Yu et al. | Asynchronous hybrid reinforcement learning for latency and reliability optimization in the metaverse over wireless communications | |
Hao et al. | Efficient and robust emergence of norms through heuristic collective learning | |
CN116744311B (zh) | 基于per-ddqn的用户组频谱接入方法 | |
Li et al. | GASTO: A fast adaptive graph learning framework for edge computing empowered task offloading | |
CN117098189A (zh) | 一种基于gat混合动作多智能体强化学习的计算卸载和资源分配方法 | |
CN114158105B (zh) | 应用于综合能源系统的无线传感器网络的路由方法及装置 | |
CN115134778A (zh) | 一种基于多用户博弈与联邦学习的车联网计算卸载方法 | |
CN112672359B (zh) | 基于双向长短时记忆网络的动态频谱接入方法 | |
CN114599115A (zh) | 一种无人机自组织网络信道接入方法 | |
KR102308799B1 (ko) | 사물 인터넷 네트워크 환경에서 mac 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
Song et al. | Analysis of EIED backoff algorithm for the IEEE 802.11 DCF | |
CN110505681B (zh) | 基于遗传方法的非正交多址接入场景用户配对方法 | |
Wu et al. | Solving optimum TDMA broadcast scheduling in mobile ad hoc networks: a competent permutation genetic algorithm approach | |
CN109561129B (zh) | 一种基于光纤-无线网络的协同计算卸载方法 | |
Sharma et al. | Feel-enhanced edge computing in energy constrained uav-aided iot networks | |
CN101335538A (zh) | 一种扩频序列生成的方法和装置 | |
Kabashima et al. | A BP-based algorithm for performing Bayesian inference in large perceptron-type networks | |
Li et al. | Dynamic multi-channel access in wireless system with deep reinforcement learning | |
Wang et al. | Multi-granularity fusion resource allocation algorithm based on dual-attention deep reinforcement learning and lifelong learning architecture in heterogeneous IIoT | |
Horák et al. | Dynamic programming for one-sided partially observable pursuit-evasion games |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |