CN110267338B - 一种d2d通信中联合资源分配和功率控制方法 - Google Patents

一种d2d通信中联合资源分配和功率控制方法 Download PDF

Info

Publication number
CN110267338B
CN110267338B CN201910609855.7A CN201910609855A CN110267338B CN 110267338 B CN110267338 B CN 110267338B CN 201910609855 A CN201910609855 A CN 201910609855A CN 110267338 B CN110267338 B CN 110267338B
Authority
CN
China
Prior art keywords
power
channel
user
intelligent agent
cellular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910609855.7A
Other languages
English (en)
Other versions
CN110267338A (zh
Inventor
宋彬
许珂
王丹
秦浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910609855.7A priority Critical patent/CN110267338B/zh
Publication of CN110267338A publication Critical patent/CN110267338A/zh
Application granted granted Critical
Publication of CN110267338B publication Critical patent/CN110267338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/241TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/26TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service]
    • H04W52/267TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service] taking into account the information rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/30TPC using constraints in the total amount of available transmission power
    • H04W52/36TPC using constraints in the total amount of available transmission power with a discrete range or set of values, e.g. step size, ramping or offsets
    • H04W52/367Power values between minimum and maximum limits, e.g. dynamic range
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/541Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种D2D通信中联合资源分配和功率控制方法,克服了现有资源分配方案会导致频谱资源浪费同时无法满足系统容量最大化的问题。本发明含有以下步骤,一、离散划分信道资源块和功率等级;二、对D2D通信场景基于深度强化学习建模;三、设计深度Q网络中的用于训练的Behavior网络和用于计算的Target网络的网络结构;四、基于设置好的系统模型,利用深度强化学习的算法使智能体和环境交互进行1000次迭代学习输出最优结果;五、输出学习到的最优策略。本发明采用深度Q网络代替Q表来指导智能体更新策略解决了交互序列具有相关性会使得模型不稳定的问题和场景状态空间和动作空见过大的问题。

Description

一种D2D通信中联合资源分配和功率控制方法
技术领域
本发明涉及通信技术领域,特别是涉及一种D2D通信中联合资源分配和功率控制方法。
背景技术
在混合蜂窝通信和D2D通信场景中,主要存在三种干扰:D2D链路对蜂窝链路的干扰、蜂窝链路对D2D链路的干扰和D2D链路之间的干扰。控制系统上述三种干扰的手段主要有三个方面,即模式选择,资源分配和功率控制。在传统通信的研究中,提出了一种混合蜂窝和D2D系统的干扰避免机制,通过用户模式选择减轻了蜂窝传输对D2D通信的干扰。在此之上,专家学者研究了联合模式选择和资源分配方案的方法以提高用户的吞吐量,这同时可以通过促进D2D和蜂窝链路之间的频谱资源的复用来延长用户设备的电池寿命。除了传统的通信方法外,强化学习方法也已成为解决无线通信中干扰管理问题的新兴方法。现有的基于强化学习的干扰控制方法主要针对信道资源分配或功率控制问题来展开,采用集中式Q学习或分布式Q学习,以实现最小化系统干扰。
尽管强化学习在解决通信网络中的一些问题方面具有一些优势,但它仍然具有局限性。由于通信场景的复杂性和用户业务请求的不确定性,目前采用的基于Q学习的强化学习方法进行通信场景建模简化了很多实际的场景条件,如在解决用户干扰的问题时,仅单一考虑功率选择或信道资源分配技术,这不足以最大化利用频谱资源和能量资源。若联合频谱资源分配和功率控制技术时,采用现有的Q学习方法进行问题建模,会面临状态动作空间大,强化学习性能较差并且其收敛速度可能迟缓、学习结果不稳定等严峻问题。因而导致系统阻塞率较高、吞吐量低的情况,难以满足实际通信需求。另外,目前现有的方法都是针对单一干扰问题提出相应的解决方案,本发明提出了一种基于深度强化学习的联合信道资源分配和功率控制方法,可用于解决现有技术难以解决的高维状态空间以及复杂离散动作空间的问题,进一步提高系统容量。
发明内容
本发明主要针对在D2D通信场景中现有资源分配方案会导致频谱资源浪费同时无法满足系统容量最大化的的问题,提供一种保证蜂窝用户服务质量的D2D通信中联合资源分配和功率控制方法。
本发明的技术解决方案是,提供一种具有以下步骤的D2D通信中联合资源分配和功率控制方法:含有以下步骤,
步骤一、离散划分信道资源块和功率等级;
步骤二、对D2D通信场景基于深度强化学习建模;
步骤三、设计深度Q网络中的用于训练的Behavior网络和用于计算的Target网络的网络结构;
步骤四、基于设置好的系统模型,利用深度强化学习的算法使智能体和环境交互进行1000次迭代学习输出最优结果;
步骤五、输出学习到的最优策略,即所有用户的信道资源和功率等级的分配情况。
所述步骤一中,假设同一小区内共有M个蜂窝用户和N个D2D用户对,即有M个蜂窝链路、N个D2D发射机及N个D2D链路,将连续信道带宽离散化分为K个资源块,每个信道资源块带宽都相同,相邻的信道资源是总频谱中的相邻部分;将功率分为L个功率级供基站选择,每个D2D发射机和蜂窝用户均选择已划分好的信道资源,并在信道资源上选择特定的功率级来传输数据。
所述步骤二包含以下分步骤,
步骤2.1、将D2D发射机设置为智能体,则同一小区内有N个D2D对,即N个智能体,形成多智能体场景,针对每一个智能体,环境是M个蜂窝用户和其他N-1个D2D用户发射机;
步骤2.2、定义智能体状态为一个三维矩阵,包括智能体占用信道的状态,选择功率级别的状态和智能体的数量信息;对所有智能体和信道资源块进行编号,每个智能体都有占用信道资源和其选择功率等级的信息,智能体对信道资源的占用情况用二值函数表示;若某一智能体对某一信道资源占用时取值为1,否则为0,该智能体在选择的特定信道上的发射功率用实际选择的功率级别表示,若智能体未选择该信道,则功率为0;
步骤2.3、定义智能体某时刻的动作包括智能体在该时刻选择的信道和功率等级;智能体选择信道的信息包括智能体的编号和所选择信道的编号,用二值函数表示,智能体选择信道并占用表示为1,否则为0,智能体在所选信道上选择功率等级的信息由所选实际功率等级表示;
步骤2.4.奖励函数与系统容量和约束有关,定义系统容量为奖励函数,定义D2D用户复用蜂窝用户频谱资源的约束条件为:
约束条件一、蜂窝用户的信噪比大于正常通信需求的最低门限值τC
约束条件二、蜂窝用户传输数据满足当前业务的最低传输速率要求;
约束条件三、D2D用户传输数据满足当前业务的最低传输速率要求;
约束条件四、D2D用户所选的发射功率级不可超过其在信道上传输的最大功率;
当某时刻所选择的动作满足以上四个约束条件时,奖励函数设置为混合蜂窝通信和D2D通信系统总容量,否则为系统容量的的X倍给予处罚,其中X为-0.01到-0.1,系统容量依据香农公式计算。
所述步骤三中:用于训练的Behavior网络和用于计算的Target网络共有五层,其中三层卷积层用于提取特征和两层全连接层,最后一层分为两个向量,分别表示两个输出值,即可选信道的Q值和可选功率级的Q值。
所述步骤四包含以下分步骤,
步骤4.1、DQN算法初始化,
步骤4.1.1、初始化样本回放缓存区的容量为D,得到一个长度为D的空队列,用来存储智能体与环境交互得到的序列,样本回放缓存区用于存储智能体和环境交互获得的状态、动作、奖励和下一状态的样本信息的;
步骤4.1.2、初始化智能体的状态模型和动作模型,得到相应状态矩阵和动作矩阵;
步骤4.1.3、随机设置Behavior网络参数θ和Target网络参数θ-使网络可用;
步骤4.2、环境参数初始化,
步骤4.2.1、初始化用户距离,设置小区半径为R,基站在小区中心位置,D2D用户和蜂窝用户在小区内随机分布,得到所有用户到基站和用户之间的距离;
步骤4.2.2、创建初始状态矩阵,为初始化后得到的状态矩阵和动作矩阵赋值,占用信道为1不占用为0且每个用户只能占用一个信道,即在矩阵的K维度上对应于每个用户只能有一个1值,在状态矩阵的1维度上在L个功率等级上随机选择一个功率等级值;
步骤4.3、迭代学习最优策略,
步骤4.3.1、将当前状态输入Behavior网络,经过三层卷积层提取特征和两层全连接层,得到两个输出向量分别表示所有可选信道资源动作和可选功率等级动作的Q值;
步骤4.3.2、每个智能体根据贪心算法(ε-greedy)来平衡探索和利用,选择信道资源和功率等级,即智能体以概率ε选取Q值最大的动作,以概率1-ε随机选择,更新当前动作矩阵;
步骤4.3.3、执行所选动作,得到新一轮的状态;
步骤4.3.4、计算智能体的信噪比:该智能体占用信道传输数据的功率与链路增益的乘积视为该智能体的信号功率,与该用户选择同一信道资源传输数据的其它D2D用户发射机的功率与链路增益乘积之和,加上蜂窝用户的功率与链路增益乘积,以及加性高斯白噪声和邻近小区的干扰功率视为该智能体的总干扰功率,信号功率除以总干扰功率即为该智能体的信噪比;
步骤4.3.5、计算蜂窝用户的信噪比:该蜂窝用户占用信道传输数据的功率与链路增益的乘积视为该蜂窝用户的信号功率,与该用户选择同一信道资源传输数据的D2D用户发射机的功率与链路增益乘积之和,加上邻近小区的干扰功率,以及加性高斯白噪声视为该蜂窝用户的总干扰功率,信号功率除以总干扰功率即为该蜂窝用户的信噪比;
步骤4.3.6、计算当前选择动作后更新的状态的系统容量:根据用户选择的信道资源带宽以及用户信噪比,利用香农公式分别计算蜂窝用户通信系统容量和D2D用户通信系统容量,二者之和即为混合蜂窝通信和D2D通信系统总容量;
步骤4.3.7、检查蜂窝用户信噪比和容量是否满足四个约束条件,求得基于上一状态所选动作的奖励值;
步骤4.3.8、将更新前的状态、所选择的动作、奖励值、更新后的状态作为一组序列存储到样本回放缓存区中;
步骤4.3.9、从样本回放缓存区中采样一批样本,将采样的样本的状态分别送入Behavior网络和Target网络分别计算所选信道资源动作和所选功率等级动作的估计Q值和实际Q值;
步骤4.3.10、根据目标函数(信道资源动作实际Q值-信道资源动作估计Q值)2和(功率等级动作实际Q值-功率等级动作估计Q值)2的平均值进行梯度下降法求解更新Behavior网络参数θ;
步骤4.3.11、将更新后的状态设置为当前状态进行下一次迭代直到学习结束;
步骤4.3.12、每隔固定的迭代次数更新Target网络参数θ-直到学习结束。
与现有技术相比,本发明D2D通信中联合资源分配和功率控制方法具有以下优点:
1、利用深度强化学习算法使D2D发射机自适应的选择信道和功率资源,同时采用深度Q网络代替Q表来指导智能体更新策略解决了交互序列具有相关性会使得模型不稳定的问题和场景状态空间和动作空见过大的问题。
2、在多任务联合分配的场景下,深度强化学习模块的网络部分采用卷积神经网络(CNN)导出近似Q值来提取学习三维矩阵的特征,并且三层卷积层和两层全连接层后输出两个向量,分别表示两个输出值,这是现有的强化学习Q学习方法难以实现的。
3、将奖励函数定义为系统容量的函数,直观反映智能体的学习状态和优化目标之间的关系。
4、本发明不仅可以确保蜂窝用户的正常通信,还可以最大化信道资源的利用率和系统容量。
附图说明
图1是本发明D2D通信中联合资源分配和功率控制方法中神经网络结构示意图;
图2是本发明D2D通信中联合资源分配和功率控制方法的实现流程示意图;
图3是本发明D2D通信中联合资源分配和功率控制方法中仿真实验针对语音服务和音频电话业务资源分配性能的结果示意图。
具体实施方式
下面结合附图和具体实施方式对本发明D2D通信中联合资源分配和功率控制方法作进一步说明:主体技术思路是:在D2D场景中将D2D发射机看作智能体,智能体通过与环境交互,获取当前状态,并采取行动,包括选择信道和选择功率等级的动作,根据环境的奖励反馈来更新策略,获取一种最优的资源分配方案,使得系统容量最大化。智能体与环境交互,然后对环境执行动作,选择信道资源和功率等级,依照状态转移概率改变状态同时环境给出奖励或惩罚反馈。
在某一时刻,一智能体发送通信请求,当该智能体与蜂窝用户或其他智能体共享相同的信道时,它们之间可能存在干扰问题。本发明结合了信道选择和功率选择,其中智能体的动作空间由两种不同的动作组成。因此,在智能体的学习过程中,状态空间和动作空间都是非常复杂的。巨大的状态空间和动作空间使得通过Q学习获取最优策略的方法变得困难,因此本发明采用深度Q网络(Deep Q Network:DQN)来学习在高维输入的情况下,智能体获取最优策略的方案。
如图2所示,本发明的具体实现步骤如下。
步骤一:离散划分信道资源块和功率等级;
在D2D通信场景中,每个小区既有蜂窝用户,又有D2D用户,在同一小区中,每个蜂窝用户发起业务请求的上行信道资源可以被多个D2D用户非正交复用。本发明假设在同一小区内共有M个蜂窝用户和N个D2D用户对,即有M个蜂窝链路、N个D2D发射机及N个D2D链路,本发明将连续信道带宽离散化分为K个资源块,每个信道资源块带宽都相同,相邻的信道资源是总频谱中的相邻部分;将功率分为L个功率级供基站选择,每个D2D用户发射机和蜂窝用户均可选择已划分好的信道资源,并在这些信道资源上选择特定的功率级来传输数据,用户选择的功率级可以相同,也可以不同。
步骤二:对D2D通信场景基于深度强化学习建模。
步骤2.1、在本发明提出的模型中,将D2D发射机设置为智能体,同一小区内有N个D2D对,即N个智能体,该场景为多智能体场景。针对每一个智能体,环境是M个蜂窝用户和其他N-1个D2D用户发射机。智能体通过与环境交互,获取当前状态,并采取行动,包括选择信道和选择功率等级,根据环境的反馈来更新策略。
步骤2.2、本发明定义智能体状态为一个三维矩阵,包括智能体占用信道的状态,选择功率级别的状态和智能体的数量信息;对所有智能体和信道资源块进行编号,每个智能体都有占用信道资源和其选择功率等级的信息。智能体对信道资源的占用情况用二值函数表示,若某一智能体对某一信道资源占用时取值为1,否则为0。另外,该智能体在选择的特定信道上的发射功率用实际选择的功率级别表示,若智能体未选择该信道,则功率为0。
步骤2.3、本发明定义智能体某时刻的动作包括智能体在该时刻选择的信道和功率等级。智能体选择信道的信息包括智能体的编号和所选择信道的编号,用二值函数表示。智能体选择信道并占用表示为1,否则为0。智能体在所选信道上选择功率等级的信息由所选实际功率等级表示。
步骤2.4、奖励函数是实现智能体的学习目标的关键。本发明的学习目标是使智能体自主学习选择信道和功率级获取最优分配策略以达到优化总系统容量的目的。奖励函数与系统容量和约束有关,因此,本发明将系统容量定义为奖励函数,同时为了保证蜂窝链路的通信质量,满足业务的资源需求,本发明考虑D2D用户复用频谱资源时对蜂窝用户信噪比的影响,每次不同服务请求到达时,带宽要求都不同等因素,定义以下D2D用户复用蜂窝用户频谱资源的约束条件:
约束条件一:蜂窝用户的信噪比要大于正常通信需求的最低门限值τC
约束条件二:蜂窝用户传输数据满足当前业务的最低传输速率要求,比如语音服务和音频电话业务成功传输的最小传输速率要求为30kbps,每个蜂窝用户的传输速率计算如下;
RateC=Bc log2(1+SINRC)
RateC代表蜂窝用户的传输速率,Bc代表该蜂窝用户占用的信道资源带宽,SINRC代表该蜂窝用户此时的信噪比;
约束条件三:D2D用户传输数据满足当前业务的最低传输速率要求,每个D2D用户的传输速率计算如下;
RateD=BD log2(1+SINRD)
RateD代表D2D用户的传输速率,BD代表该蜂窝用户占用的信道资源带宽,SINRD代表该D2D用户此时的信噪比;
约束条件四:D2D用户发射机所选的发射功率级不可超过其在信道上传输的最大功率。
当某时刻所选择的动作满足以上四个约束条件时,奖励函数设置为混合蜂窝通信和D2D通信系统总容量,否则为系统容量的的X倍给予处罚,其中X为-0.01到-0.1,系统容量依据香农公式计算。
步骤三:设计深度Q网络(DQN:Deep Q network)中的用于训练的Behavior网络和用于计算的Target网络的网络结构.
本发明设计DQN中的用于训练的Behavior网络和用于计算的Target网络采用卷积神经网络(CNN),共有五层,包括三层卷积层用于提取特征和两层全连接层,最后一层分为两个向量,分别表示两个输出值,即可选信道的Q值和可选功率级的Q值,避免现有Q网络的单输出层造成动作信息紊乱的情况。网络结构如图1所示。
步骤四:基于设置好的系统模型,利用深度强化学习的算法使智能体和环境交互进行800-1500次迭代学习输出最优结果,迭代次数对于不同数量级的系统模型是不一样,量级更大的系统模型的次数会更多,即环境越复杂学习时间会越长;
步骤4.1、DQN算法初始化
步骤4.1.1、初始化样本回放缓存区(Replay Buffer)的容量为D,得到一个长度为D的空队列,用来存储智能体与环境交互得到的序列,样本回放缓存区(Replay Buffer)用于存储智能体和环境交互获得的状态、动作、奖励和下一状态的样本信息的,以便于之后从中采样计算误差并训练网络,避免神经网络输入数据的相关性导致整体学习效果不稳定的问题;
步骤4.1.2、依据步骤二对状态动作的设计,初始化智能体的状态、动作模型,得到相应状态、动作矩阵。本发明假设在同一小区内共有M个蜂窝用户和N个D2D用户对,传输功率分为L级,存在K个信道资源块,则初始化的状态矩阵为(M+N)*K*1的三维全零矩阵。每个智能体的可选动作有K*L个为(K+1)*1的二维矩阵;
步骤4.1.3、随机设置Behavior网络参数θ和Target网络参数θ-使网络可用;
步骤4.2、环境参数初始化
步骤4.2.1、初始化用户距离,设置小区半径为R,基站在小区中心位置,D2D用户和蜂窝用户在小区内随机分布,得到所有用户到基站和用户之间的距离;
步骤4.2.2、创建初始状态矩阵,根据步骤二对智能体状态表示的描述为步骤2.2中初始化的状态矩阵和动作矩阵赋值,占用信道为1不占用为0且每个用户只能占用一个信道,即在矩阵的K维度上对应于每个用户只能有一个1值,在状态矩阵的1维度上在L个功率等级上随机选择一个功率等级值;
步骤4.3、迭代学习最优策略
步骤4.3.1、将当前状态输入Behavior网络,经过三层卷积层提取特征和两层全连接层,得到两个输出向量分别表示所有可选信道资源动作和可选功率等级动作的估计Q值
步骤4.3.2、每个智能体根据贪心算法(ε-greedy)来平衡探索和利用,选择信道资源和功率等级,即智能体以概率ε选取Q值最大的动作,以概率1-ε随机选择,更新当前动作矩阵;
步骤4.3.3、执行所选动作,得到新一轮的状态;
步骤4.3.4、计算D2D用户(智能体)的信噪比:该智能体占用信道传输数据的功率与链路增益的乘积视为该智能体的信号功率,与该用户选择同一信道资源传输数据的其它D2D用户的功率与链路增益乘积之和,加上蜂窝用户的功率与链路增益乘积,以及加性高斯白噪声和邻近小区的干扰功率视为该智能体的总干扰功率,信号功率除以总干扰功率即为该智能体的信噪比,其中,邻近小区的干扰功率与邻近小区内用户的发射功率和距离有关,功率越小,距离越远,干扰越小;
步骤4.3.5、计算蜂窝用户的信噪比:该蜂窝用户占用信道传输数据的功率与链路增益的乘积视为该蜂窝用户的信号功率,与该用户选择同一信道资源传输数据的D2D用户的功率与链路增益乘积之和,加上邻近小区的干扰功率,以及加性高斯白噪声视为该蜂窝用户的总干扰功率,信号功率除以总干扰功率即为该蜂窝用户的信噪比;
步骤4.3.6、计算当前选择动作后更新的状态的系统容量:根据用户选择的信道资源带宽以及用户信噪比,利用香农公式分别计算蜂窝用户通信系统容量D2D用户通信系统容量,二者之和即为混合蜂窝通信和D2D通信系统总容量;
步骤4.3.7、检查蜂窝用户信噪比和容量是否满足四个约束条件,求得基于上一状态所选动作的奖励值;
步骤4.3.8、将更新前的状态、所选择的动作、奖励值、更新后的状态作为一组序列存储到Replay Buffer中;
步骤4.3.9、从Replay Buffer中采样一批样本,将采样的样本的状态分别送入Behavior网络和Target网络分别计算所选信道资源动作和所选功率等级动作的估计Q值和实际Q值;
步骤4.3.10、根据目标函数(信道资源动作实际Q值-信道资源动作估计Q值)2和(功率等级动作实际Q值-功率等级动作估计Q值)2的平均值进行梯度下降法求解更新Behavior网络参数θ;
步骤4.3.11、将更新后的状态设置为当前状态进行下一次迭代直到学习结束;
步骤4.3.12、每隔固定的迭代次数更新Target网络参数θ-直到学习结束;
步骤五:输出学习到的最优策略,即所有用户的信道资源和功率等级的分配情况。
上述步骤主要说明了资源分配和功率控制的过程和利用DQN进行更新的步骤。在训练更新网络参数部分,DQN使用步骤三设计的CNN来近似所选信道和功率的Q值函数。无论选择信道还是功率等级,都可以通过上一步更新的网络参数计算所得的动作集的Q值来学习策略从而选择当前状态下的最优动作。D2D发射机通过与环境的不断交互学习选择信道和功率等级的策略,最终可以保证蜂窝用户正常通信并最大化系统容量。
下面结合仿真实验对本发明作进一步说明,针对一个小区进行具体实验验证。本案例假设有6个D2D用户对随机分布在同一小区内,这些D2D用户复用一个蜂窝用户的频谱资源,总频谱带宽为180kHz,被分为10个信道资源块,每个用户可选2个信道资源,功率被分为[0,4.8,9.6,14.4,19.2,24](dB)5个功率级,每个D2D用户发射机仅可选一个功率级来发送数据,蜂窝用户发射功率固定。
深度神经网络如图1所示。主要仿真参数如表1所示。蜂窝用户对不同的服务有不同的信道资源需求,以语音服务和音频电话业务为例,该业务成功传输的最小带宽要求为30kbps。
本发明的硬件平台为:Intel Core i7-6700 CPU@3.40GHz、8GB RAM、NvidiaQuadro P2000 GPU,软件平台:Linux16.04操作系统、Python3.6,Pytorch0.4.0。
表1实施案例实验参数
参数名称
小区半径 500m
D2D通信距离 50m
噪声功率/RB -116dB
蜂窝用户发射功率 23dB
基站到用户的路径损耗模型 15.3+37.6log(d(km))(dB)
用户到用户的路径损耗模型 28+40log10(d(km))(dB)
卷积神经网络学习率 0.2
折扣因子 0.99
图3显示了在折扣因子为0.99的情况下,蜂窝用户针对语音服务和音频电话业务的资源分配收敛性能。由于累积奖赏是系统容量的函数,与系统容量正相关,从图3中可以看出随着迭代次数增加,容量逐渐提高,大约在500次达到稳定值。而在不同的服务中,智能体学习得到最终的期望奖励值不同,收敛速度也不尽相同。当服务所需带宽要求较大时,期望奖励值会相应减小,这是因为当蜂窝用户的带宽需求较大时,D2D可复用的信道资源就会相应减少,反之亦然。因此,对频谱需求更少的电子邮件,寻呼和传真服务就会比语音服务和音频电话业务有更好的收敛性能。

Claims (4)

1.一种D2D通信中联合资源分配和功率控制方法,其特征在于:含有以下步骤,
步骤一、离散划分信道资源块和功率等级;
步骤二、对D2D通信场景基于深度强化学习建模;
步骤三、设计深度Q网络中的用于训练的Behavior网络和用于计算的Target网络的网络结构;
步骤四、基于设置好的系统模型,利用深度强化学习的算法使智能体和环境交互进行800-1500次迭代学习输出最优结果;包含以下分步骤,
步骤4.1、DQN算法初始化,
步骤4.1.1、初始化样本回放缓存区的容量为D,得到一个长度为D的空队列,用来存储智能体与环境交互得到的序列,样本回放缓存区用于存储智能体和环境交互获得的状态、动作、奖励和下一状态的样本信息的;
步骤4.1.2、初始化智能体的状态模型和动作模型,得到相应状态矩阵和动作矩阵;
步骤4.1.3、随机设置Behavior网络参数θ和Target网络参数θ-使网络可用;
步骤4.2、环境参数初始化,
步骤4.2.1、初始化用户距离,设置小区半径为R,基站在小区中心位置,D2D用户和蜂窝用户在小区内随机分布,得到所有用户到基站和用户之间的距离;
步骤4.2.2、创建初始状态矩阵,为初始化后得到的状态矩阵和动作矩阵赋值,占用信道为1不占用为0且每个用户只能占用一个信道,即在矩阵的K维度上对应于每个用户只能有一个1值,在状态矩阵的1维度上在L个功率等级上随机选择一个功率等级值;
步骤4.3、迭代学习最优策略,
步骤4.3.1、将当前状态输入Behavior网络,经过三层卷积层提取特征和两层全连接层,得到两个输出向量分别表示所有可选信道资源动作和可选功率等级动作的Q值;
步骤4.3.2、每个智能体根据贪心算法(ε-greedy)来平衡探索和利用,选择信道资源和功率等级,即智能体以概率ε选取Q值最大的动作,以概率1-ε随机选择,更新当前动作矩阵;
步骤4.3.3、执行所选动作,得到新一轮的状态;
步骤4.3.4、计算智能体的信噪比:该智能体占用信道传输数据的功率与链路增益的乘积视为该智能体的信号功率,与该D2D用户选择同一信道资源传输数据的其它D2D用户的功率与链路增益乘积之和,加上蜂窝用户的功率与链路增益乘积,以及加性高斯白噪声和邻近小区的干扰功率视为该智能体的总干扰功率,信号功率除以总干扰功率即为该智能体的信噪比;
步骤4.3.5、计算蜂窝用户的信噪比:该蜂窝用户占用信道传输数据的功率与链路增益的乘积视为该蜂窝用户的信号功率,与该用户选择同一信道资源传输数据的D2D用户的功率与链路增益乘积之和,加上邻近小区的干扰功率,以及加性高斯白噪声视为该蜂窝用户的总干扰功率,信号功率除以总干扰功率即为该蜂窝用户的信噪比;
步骤4.3.6、计算当前选择动作后更新的状态的系统容量:根据用户选择的信道资源带宽以及用户信噪比,利用香农公式分别计算蜂窝用户通信系统容量D2D用户通信系统容量,二者之和即为混合蜂窝通信和D2D通信系统总容量;
步骤4.3.7、检查蜂窝用户信噪比和容量是否满足四个约束条件,求得基于上一状态所选动作的奖励值;
步骤4.3.8、将更新前的状态、所选择的动作、奖励值、更新后的状态作为一组序列存储到样本回放缓存区中;
步骤4.3.9、从样本回放缓存区中采样一批样本,将采样的样本的状态分别送入Behavior网络和Target网络分别计算所选信道资源动作和所选功率等级动作的估计Q值和实际Q值;
步骤4.3.10、根据目标函数(信道资源动作实际Q值-信道资源动作估计Q值)2和(功率等级动作实际Q值-功率等级动作估计Q值)2的平均值进行梯度下降法求解更新Behavior网络参数θ;
步骤4.3.11、将更新后的状态设置为当前状态进行下一次迭代直到学习结束;
步骤4.3.12、每隔固定的迭代次数更新Target网络参数8-直到学习结束;
步骤五、输出学习到的最优策略,即所有用户的信道资源和功率等级的分配情况。
2.根据权利要求1所述的D2D通信中联合资源分配和功率控制方法,其特征在于:所述步骤一中,假设同一小区内共有M个蜂窝用户和N个D2D用户对,即有M个蜂窝链路、N个D2D发射机及N个D2D链路,将连续信道带宽离散化分为K个资源块,每个信道资源块带宽都相同,相邻的信道资源是总频谱中的相邻部分;将功率分为L个功率级供基站选择,每个D2D用户发射机和蜂窝用户均选择已划分好的信道资源,并在信道资源上选择特定的功率级来传输数据。
3.根据权利要求1所述的D2D通信中联合资源分配和功率控制方法,其特征在于:所述步骤二包含以下分步骤,
步骤2.1、将D2D发射机设置为智能体,则同一小区内有N个D2D对,即N个智能体,形成多智能体场景,针对每一个智能体,环境是M个蜂窝用户和其他N-1个D2D用户发射机;
步骤2.2、定义智能体状态为一个三维矩阵,包括智能体占用信道的状态,选择功率级别的状态和智能体的数量信息;对所有智能体和信道资源块进行编号,每个智能体都有占用信道资源和其选择功率等级的信息,智能体对信道资源的占用情况用二值函数表示;若某一智能体对某一信道资源占用时取值为1,否则为0,该智能体在选择的特定信道上的发射功率用实际选择的功率级别表示,若智能体未选择该信道,则功率为0;
步骤2.3、定义智能体某时刻的动作包括智能体在该时刻选择的信道和功率等级;智能体选择信道的信息包括智能体的编号和所选择信道的编号,用二值函数表示,智能体选择信道并占用表示为1,否则为0,智能体在所选信道上选择功率等级的信息由所选实际功率等级表示;
步骤2.4.奖励函数与系统容量和约束有关,定义系统容量为奖励函数,定义D2D用户复用蜂窝用户频谱资源的约束条件为:
约束条件一、蜂窝用户的信噪比大于正常通信需求的最低门限值τC
约束条件二、蜂窝用户传输数据满足当前业务的最低传输速率要求;
约束条件三、D2D用户传输数据满足当前业务的最低传输速率要求;
约束条件四、D2D用户所选的发射功率级不可超过其在信道上传输的最大功率;
当某时刻所选择的动作满足以上四个约束条件时,奖励函数设置为混合蜂窝通信和D2D通信系统总容量,否则为系统容量的X倍给予处罚,其中X为-0.01到-0.1,系统容量依据香农公式计算。
4.根据权利要求1所述的D2D通信中联合资源分配和功率控制方法,其特征在于:所述步骤三中:用于训练的Behavior网络和用于计算的Target网络共有五层,其中三层卷积层用于提取特征和两层全连接层,最后一层分为两个向量,分别表示两个输出值,即可选信道的Q值和可选功率级的Q值。
CN201910609855.7A 2019-07-08 2019-07-08 一种d2d通信中联合资源分配和功率控制方法 Active CN110267338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910609855.7A CN110267338B (zh) 2019-07-08 2019-07-08 一种d2d通信中联合资源分配和功率控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910609855.7A CN110267338B (zh) 2019-07-08 2019-07-08 一种d2d通信中联合资源分配和功率控制方法

Publications (2)

Publication Number Publication Date
CN110267338A CN110267338A (zh) 2019-09-20
CN110267338B true CN110267338B (zh) 2020-05-22

Family

ID=67924885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910609855.7A Active CN110267338B (zh) 2019-07-08 2019-07-08 一种d2d通信中联合资源分配和功率控制方法

Country Status (1)

Country Link
CN (1) CN110267338B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111148256B (zh) * 2020-01-02 2022-04-12 国网安徽省电力有限公司电力科学研究院 基于NB-IoT协议的智能电网上行信道的资源分配方法
CN111181618B (zh) * 2020-01-03 2022-05-10 东南大学 一种基于深度强化学习的智能反射表面相位优化方法
CN111324167B (zh) * 2020-02-27 2022-07-01 上海电力大学 一种光伏发电最大功率点跟踪控制方法
CN113613207A (zh) * 2020-06-12 2021-11-05 南京理工大学 一种基于多智能体强化学习的车联网频谱共享方法
CN111930501B (zh) * 2020-07-23 2022-08-26 齐齐哈尔大学 一种面向多小区网络的基于无监督学习的无线资源分配方法
CN112153617B (zh) * 2020-09-15 2022-07-12 南京信息工程大学滨江学院 一种基于集成神经网络的终端设备传输功率的控制方法
CN112153616B (zh) * 2020-09-15 2022-07-08 南京信息工程大学滨江学院 一种基于深度学习的毫米波通信系统中的功率控制方法
CN112153744B (zh) * 2020-09-25 2022-08-02 哈尔滨工业大学 一种icv网络中物理层安全资源分配方法
CN112533237B (zh) * 2020-11-16 2022-03-04 北京科技大学 工业互联网中支持大规模设备通信的网络容量优化方法
CN112601284B (zh) * 2020-12-07 2023-02-28 南京邮电大学 基于多智能体深度强化学习的下行多小区ofdma资源分配方法
CN112822781B (zh) * 2021-01-20 2022-04-12 重庆邮电大学 一种基于q学习的资源分配方法
CN112954651B (zh) * 2021-03-12 2022-04-08 南京航空航天大学 一种基于深度强化学习的低时延高可靠性v2v资源分配方法
CN113316154B (zh) * 2021-05-26 2022-06-21 重庆邮电大学 一种授权和免授权d2d通信资源联合智能分配方法
CN113543271B (zh) * 2021-06-08 2022-06-07 西安交通大学 一种面向有效容量的资源分配方法及系统
CN113411785A (zh) * 2021-06-22 2021-09-17 西安超越申泰信息科技有限公司 一种Overlay D2D网络系统的最小能耗控制方法及装置
CN113438723B (zh) * 2021-06-23 2023-04-28 广东工业大学 一种高额奖励惩罚的竞争深度q网络功率控制方法
CN113613332B (zh) * 2021-07-14 2023-06-09 广东工业大学 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和系统
CN113645700A (zh) * 2021-07-15 2021-11-12 中国移动通信集团广东有限公司广州分公司 基于深度学习的提升scma系统性能的资源分配方法及装置
CN113923605B (zh) * 2021-10-25 2022-08-09 浙江大学 一种面向工业互联网的分布式边缘学习系统和方法
WO2023097666A1 (zh) * 2021-12-03 2023-06-08 Oppo广东移动通信有限公司 无线通信的方法、终端设备和网络设备
CN114205791A (zh) * 2021-12-13 2022-03-18 西安电子科技大学 一种基于深度q学习的社交感知d2d协同缓存方法
CN114553662B (zh) * 2022-02-16 2023-11-24 北京电子科技学院 一种雾物联网物理层安全的资源分配方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392308A (zh) * 2017-06-20 2017-11-24 中国科学院计算技术研究所 一种基于可编程器件的卷积神经网络加速方法与系统
CN108521673A (zh) * 2018-04-09 2018-09-11 湖北工业大学 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2632223A1 (en) * 2012-02-24 2013-08-28 NTT DoCoMo, Inc. Apparatus and method for scheduling transmission resources to users served by a base station using a prediction of rate regions
CN109862610B (zh) * 2019-01-08 2020-07-10 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392308A (zh) * 2017-06-20 2017-11-24 中国科学院计算技术研究所 一种基于可编程器件的卷积神经网络加速方法与系统
CN108521673A (zh) * 2018-04-09 2018-09-11 湖北工业大学 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Resource Allocation in Information-Centric Wireless Networking With D2D-Enabled MEC: A Deep Reinforcement Learning Approach》;DAN WANG等;《IEEE Access》;20190815;全文 *

Also Published As

Publication number Publication date
CN110267338A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
CN110267338B (zh) 一种d2d通信中联合资源分配和功率控制方法
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN109905918B (zh) 一种基于能效的noma蜂窝车联网动态资源调度方法
CN106454700B (zh) 基于社交网络的d2d通信内容分发方法
CN110492955B (zh) 基于迁移学习策略的频谱预测切换方法
CN106792451B (zh) 一种基于多种群遗传算法的d2d通信资源优化方法
CN114205791A (zh) 一种基于深度q学习的社交感知d2d协同缓存方法
CN116456493A (zh) 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质
CN104254130A (zh) D2d用户链接与蜂窝用户共享资源的分配方法、装置及系统
CN114189870A (zh) 基于多智能体深度强化学习的多小区多业务资源分配方法
CN116582860A (zh) 一种基于信息年龄约束的链路资源分配方法
CN116347635A (zh) 一种基于NOMA和多智能体强化学习的NB-IoT无线资源分配方法
CN113795050B (zh) 一种基于Sum Tree采样的深度双Q网络动态功率控制方法
Gao et al. Reinforcement learning based resource allocation in cache-enabled small cell networks with mobile users
CN105530203B (zh) D2d通信链路的接入控制方法及系统
CN116744311B (zh) 基于per-ddqn的用户组频谱接入方法
CN110753365B (zh) 异构蜂窝网络干扰协调方法
CN109561129B (zh) 一种基于光纤-无线网络的协同计算卸载方法
CN108601083B (zh) D2d通信中基于非合作博弈的资源管理方法
CN116567843A (zh) 一种无线资源分配优化装置及方法
Liu et al. A deep reinforcement learning based adaptive transmission strategy in space-air-ground integrated networks
CN115915454A (zh) Swipt辅助的下行资源分配方法及装置
CN114928857A (zh) 蜂窝通信网络移动设备直连抗干扰配置方法
Song et al. Adaptive Generalized Proportional Fair Scheduling with Deep Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant