CN115515101A - 一种用于scma-v2x系统的解耦q学习智能码本选择方法 - Google Patents

一种用于scma-v2x系统的解耦q学习智能码本选择方法 Download PDF

Info

Publication number
CN115515101A
CN115515101A CN202211167893.XA CN202211167893A CN115515101A CN 115515101 A CN115515101 A CN 115515101A CN 202211167893 A CN202211167893 A CN 202211167893A CN 115515101 A CN115515101 A CN 115515101A
Authority
CN
China
Prior art keywords
user
codebook
users
learning
decoupled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211167893.XA
Other languages
English (en)
Inventor
赵波
行增
王明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202211167893.XA priority Critical patent/CN115515101A/zh
Publication of CN115515101A publication Critical patent/CN115515101A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于移动通信技术领域,公开了一种用于SCMA‑V2X系统的解耦Q学习智能码本选择方法,在学习初始阶段V2I用户和V2V用户的Q表格中的所有Q值均被初始化为0;V2I用户和V2V用户随机从码本池中选择码本,并根据接收的到回报更新Q表格中的Q值;在每一次学习过程,V2I用户和V2V用户均按照ε‑greedy策略选择新动作并根据接收到的回报继续更新表格中Q值,直至收敛;最终确定V2I用户和V2V用户的最优用户‑码本选择策略。通过本发明提供的解耦Q学习智能码本选择方法,每一个V2I用户和V2V用户均能找到唯一的码本,从而解决了码本碰撞问题,极大地提高了系统性能,降低了用户接入时延,同时有效避免了用户间的干扰。

Description

一种用于SCMA-V2X系统的解耦Q学习智能码本选择方法
技术领域
本发明属于移动通信技术领域,尤其涉及一种用于SCMA-V2X系统的解耦Q学习智能码本选择方法。
背景技术
目前,SCMA是一种码域非正交多址接入技术,具有高频谱利用效率,能有效增强V2X的系统容量。在传统的SCMA-V2X系统中,常用的码本选择方式是基站给用户分配码本,因此会导致传输时延增加同时会产生一定的信令开销。另外,V2I(vehicle-to-infrastructure)用户和V2V(vehicle-to-vehicle)用户共享相同的信道和码本,从而导致V2I用户和V2V用户相互干扰。
近年来,SCMA作为码域的非正交多址接入技术受到广泛关注。由于其高频谱利用效率,在增强V2X通信性能上具有很大潜力。SCMA通过引入稀疏码本使得多个用户复用相同的无线通信资源(包括时域、频域等资源),接收端采用先进的消息传递译码算法能够实现多个用户联合译码,实现了无线频谱资源利用效率的提升。在SCMA-V2X系统中,核心问题是码本的分配方式。传统的方式通常采用基站调度的形式,也就是用户首先需要向基站发出接入请求,基站接收到请求后给用户分配相应的码本。这种方式尽管能避免用户码本冲突问题,但会极大的增加用户的接入时延,降低接入效率。同时,当前的SCMA-V2X系统中V2I用户和V2V用户通常共享一个信道,会造成严重的用户间干扰。为此,亟需提出一种有效的SCMA-V2X系统码本分配方式。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有码本选择方式会极大的增加用户的接入时延,降低接入效率。
(2)当前的SCMA-V2X系统中V2I用户和V2V用户通常共享一个信道,会造成严重的用户间干扰。
发明内容
针对现有技术存在的问题,本发明提供了一种用于SCMA-V2X系统的解耦Q学习智能码本选择方法,尤其涉及一种解耦Q学习智能码本选择方法、系统、介质、设备及终端。
本发明是这样实现的,首先为了避免V2I用户和V2V用户相互干扰,通过正交信道资源划分的方式将V2I用户和V2V用户分离;然后为了解决V2I用户和V2V用户在上行传输时的码本碰撞问题,利用解耦Q学习实现自适应的用户-码本选择策略,用户通过不断学习和调整自己码本选择策略,最终实现每一个用户找到一个唯一的码本,解决了用户上行传输时的码本碰撞问题,提高了系统上行接入效率。
进一步,所述解耦Q学习智能码本选择方法还包括:
在学习初始阶段V2I用户和V2V用户的Q表格中的所有Q值均被初始化为0;V2I用户和V2V用户随机从码本池中选择码本,并根据接收的到回报更新Q表格中的Q值;在每一次学习过程,V2I用户和V2V用户均按照ε-greedy策略选择新动作并根据接收到的回报继续更新表格中Q值,直至收敛;最终V2I用户和V2V用户的最优用户-码本选择策略根据如下公式得到:
Figure BDA0003862368360000021
Figure BDA0003862368360000022
进一步,所述解耦Q学习智能码本选择方法包括以下步骤:
步骤一,构建状态空间S和动作空间A;
步骤二,设置回报函数rm,1和rn,2
步骤三,计算Q函数Qm,1和Qn,2
进一步,所述步骤一中的状态空间S的构建包括:状态空间被定义为码本的集合,并且每一个码本被视为一个状态。由于V2I用户和V2V用户总是从相同的码本池中选取码本,故V2I用户和V2V用户的码本空间是相同的,状态空间被表示为S={s1,s2,...,sJ};对于任意的V2I用户um,1和V2V用户un,2,在时刻t的状态分别表示为
Figure BDA0003862368360000031
Figure BDA0003862368360000032
所述动作空间A的构建包括:智能体所做出的判断被视为一个动作,所有可能的动作构成动作空间,所述动作表示智能体去选择码本;对于V2I用户和V2V用户,动作空间是相同的,表示为A={a1,a2,...,aJ};对于任意的V2I用户um,1和V2V用户un,2,在时刻t的动作分别表示为
Figure BDA0003862368360000033
Figure BDA0003862368360000034
进一步,所述步骤二中的设置回报函数rm,1和rn,2包括:
回报被用于评估智能体采取动作的好坏。对于V2I用户um,1,如果选择唯一的码本而没有被其他V2I用户选择,回报值为rm,1=+1。如果存在多个V2I用户选择相同的码本,则指定一个特定用户使用所述码本,剩余用户则重新选择码本;所述指定用户将确定为具有最大传输信噪比的用户。当V2I用户um,1当前的状态和动作分别为
Figure BDA0003862368360000035
Figure BDA0003862368360000036
此时V2I用户um,1在当前状态-动作对
Figure BDA0003862368360000037
的回报函数表示为:
Figure BDA0003862368360000038
其中,μm,1表示V2I用户um,1的接收SNR,Γ1,j表示所有选择码本cj的V2I用户的SNR集合;同理,V2V用户与V2I用户有相同的奖惩机制,故V2V用户un,2在当前状态-动作对
Figure BDA0003862368360000039
的回报函数表示为:
Figure BDA00038623683600000310
其中,μn,2表示V2V用户un,2的接收SNR,Γ2,j表示所有选择码本cj的V2V用户的SNR集合。
进一步,所述步骤三中的计算Q函数Qm,1和Qn,2包括:
每一个V2I用户和V2V用户都有一个Q表格,用于存储状态-动作对的Q值;对于V2I用户um,1和V2V用户un,2,Q值按如下准则更新:
Figure BDA0003862368360000041
Figure BDA0003862368360000042
其中,αm,1n,2∈(0,1]分别表示V2I用户um,1和V2V用户un,2的学习速率,γm,1n,2∈[0,1]分别表示V2I用户um,1和V2V用户un,2的折扣因子。
本发明的另一目的在于提供一种应用所述的解耦Q学习智能码本选择方法的解耦Q学习智能码本选择系统,所述解耦Q学习智能码本选择系统包括:
初始化模块,用于在学习初始阶段V2I用户和V2V用户的Q表格中的所有Q值均被初始化为0;
码本选择模块,用于V2I用户和V2V用户随机从码本池中选择码本,并根据接收的到回报更新Q表格中的Q值;
Q值更新模块,用于在每一次学习过程,V2I用户和V2V用户均按照ε-greedy策略选择新动作并根据接收到的回报继续更新表格中Q值,直至收敛;
最优策略确定模块,用于确定V2I用户和V2V用户最优用户-码本选择策略。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述的解耦Q学习智能码本选择方法的步骤。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述的解耦Q学习智能码本选择方法的步骤。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的解耦Q学习智能码本选择系统。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
第一,针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
为了克服现有技术的问题,本发明提出了一种随机码本选择方案,并通过一种新的用于稀疏码多址接入车联网(SCMA-V2X)系统的解耦Q学习智能码本选择方法解决了随机码本选择引起的冲突问题。具体而言,V2I用户和V2V用户采用频分多址方式传输数据,可有效避免V2I用户和V2V用户之间的干扰;而后,V2I用户和V2V用户从共享码本池中随机选择码本并根据选择的码本传输数据。由于随机码本选择势必会导致码本冲突问题,为此本发明提出了解耦Q学习来解决V2I用户和V2V用户的码本冲突问题,大幅度提升了系统容量。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
SCMA技术是5G通信中的关键技术,在V2X通信中仍然具有很广泛的应用,本发明提出的用于SCMA-V2X网络的解耦Q学习智能码本选择方法涉及移动通信领域的关键技术。通过本发明提供的解耦Q学习智能码本选择方法,每一个V2I用户和V2V用户均能找到唯一的码本,从而解决了码本碰撞问题,极大地提高了系统性能。本发明降低了用户接入时延,同时有效避免了用户间的干扰,这对SCMA-V2X系统从理论走向应用具有重要的指导意义。
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
(1)本发明的技术方案转化后的预期收益和商业价值为:
本发明的主要应用背景为V2X网络,用于解决大规模V2X网络中车载用户的上行接入难题,旨在通过智能化的方式实现自适应车-基站以及车-车之间的通信。本发明的技术方案转化后的预期收益与目前V2X发展的成熟度息息相关,目前来看V2X发展仍处于上升期,预期收益也将随V2X发展的成熟度逐年上升。成果转化后可应用于大规模V2X通信,提高车-基站以及车-车通信效率和智能化水平。
(2)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题:
目前来看,在面向SCMA-V2X网络的上行传输中,主要的技术难题有两个,即:1)V2I用户与V2V用户的互干扰问题;2)用户上行传输时的码本碰撞问题。本发明提出了解耦Q学习智能码本选择方法,先解决了V2V用户与V2I用户共享频谱时的互干扰问题,同时为了提高面向SCMA-V2X网络的通信效率和容量,又采用解耦Q学习以智能化的方式解决了用户上行接入时的码本碰撞问题,极大地提高了系统的容量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的解耦Q学习智能码本选择方法流程图;
图2是本发明实施例提供的码本映射方案示意图;
图3是本发明实施例提供的解耦Q学习算法收敛性示意图;(a)为未发生码本碰撞的V2V用户数目示意图,(b)为V2I用户和速率示意图;
图4是本发明实施例提供的中断概率对V2I用户和速率的影响示意图,M=15,Rmin=2.06bps/Hz,v=60km/h;
图5是本发明实施例提供的有码本冲突解决和无码本冲突解决的RMA-SCMA性能对比示意图,Pout=10-2,Rmin=2.06bps/Hz,v=60km/h。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种解耦Q学习智能码本选择方法、系统、介质、设备及终端,下面结合附图对本发明作详细的描述。
一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
如图1所示,本发明实施例提供的解耦Q学习智能码本选择方法包括以下步骤:
S101,在学习初始阶段V2I用户和V2V用户Q表格中所有Q值初始化为0;
S102,V2I用户和V2V用户随机从码本池中选择码本,并根据接收的到回报更新Q表格中的Q值;
S103,在每一次学习过程,V2I用户和V2V用户均按照ε-greedy策略选择新动作并根据接收到的回报继续更新表格中Q值,直至收敛;
S104,确定V2I用户和V2V用户的最优用户-码本选择策略。
作为优选实施例,本发明实施例提供的解耦Q学习智能码本选择方法具体包括以下步骤:
1.码本映射方案
在当前接入机会,假设有L个时隙资源,每个码本仅占用L个时隙中的K个时隙,那么存在可用的码本数目为
Figure BDA0003862368360000071
码本集合可以表示为
Figure BDA0003862368360000072
其中cj=[c1,j,...,cl,j,...,cL,j]并且cl,j∈{0,1},|cj|=K。为了避免V2I用户和V2V用户间相互干扰,总带宽被分为两部分,也就是βB和(1-β)B,其中β为带宽分配系数,这里考虑为一个常数。βB带宽用于V2I用户传输,(1-β)B带宽用于V2V用户传输。V2I用户和V2V用户从相同的码本集合
Figure BDA0003862368360000073
中随机选取一个码本并根据选择的码本在对应时隙中传输数据。为了表示方便,本发明实施例引入两个因子am,j和bn,j分别表示V2I用户-码本选择关系和V2V用户-码本选择关系,并且如果V2I用户um,1和V2V用户un,2选择了码本cj,则有am,j=1,bn,j=1,否则am,j=0,bn,j=0。由于采用的随机码本选择方案,当两个或更多个V2I用户或V2V用户选择了相同的码本时,就会发生码本碰撞,此时会影响多用户译码,从而使系统性能恶化。当没有发生码本碰撞时,可以利用先进的消息传递算法成功译码多个用户。图2展示了一种随机码本映射方案。从图中可以看出,由于V2I用户和V2V用户在频域上采用正交的方式传输,即使选择了相同的码本,仍然不会发生码本碰撞,这可以有效避免用户间相互干扰。相反,同一类用户选了相同的码本则会发生码本碰撞,从而影响系统性能。
2.SCMA信号传输模型
假设V2I用户um,1和V2V用户un,2均已选择了码本cj,为了表示方便,重新记为
Figure BDA0003862368360000081
Figure BDA0003862368360000082
并且
Figure BDA0003862368360000083
基于以上定义,V2I用户在时隙l中的接收信号可以表示为:
Figure BDA0003862368360000084
其中,P是用户的发送功率并且假设所有V2I用户的发送功率相同。
Figure BDA0003862368360000085
表示用户um,1的信道增益,
Figure BDA0003862368360000086
表示信道系数,G是路损常数,dm,1是用户到基站的传输距离,α是路损指数。xm,l,1表示用户um,1在时隙l中的传输信号且E[|xm,l,1|2]=1。nl,1是均值为0,方差为σ2的加性高斯白噪声(AWGN)。同理,V2V用户在时隙l中的接收信号可以表示为:
Figure BDA0003862368360000087
其中,P是用户的发送功率并且假设V2V用户的发送功率与V2I用户相同。
Figure BDA0003862368360000088
表示用户un,2的信道增益,
Figure BDA0003862368360000089
表示信道系数,G是路损常数,dn,2是用户到用户的传输距离,α是路损指数。xn,l,2表示用户un,2在时隙l中的传输信号且E[|xn,l,2|2]=1。nl,2是均值为0,方差为σ2的AWGN。
3.构建和速率最大化问题
由方程(1)和(2)可知,V2I用户um,1的传输速率可以表示为:
Figure BDA0003862368360000091
其中,Im,l,1表示用户um,1受到的来自其它用户的干扰,值得注意的是,该干扰只会产生在相同码本之间,也就是该干扰是由与V2I用户um,1选择相同码本的用户产生的。该干扰可以表示为:
Figure BDA0003862368360000092
同理,V2V用户un,2的传输速率可以表示为:
Figure BDA0003862368360000093
同理,In,l,2表示用户un,2受到的来自其它用户的干扰,它可以表示为:
Figure BDA0003862368360000094
一般来说,V2X通信通常对V2I用户要求高传输数据速率,对V2V用户要求高可靠性。为了保证V2V可靠性的同时最大化V2I用户的和速率,本发明实施例构建了如下用户-码本选择最优化问题,即:
Figure BDA0003862368360000101
其中,约束C1中Rmin表示V2V用户最小可允许的传输数据速率,Pout表示中断概率,且该约束用于保证V2V用户的可靠性要求。约束C2用于保证每一个码本最多仅被一个V2I用户选择。约束C3用于保证每一个码本仅被一个V2V用户选择。约束C4,C5是优化变量自身的取值范围。为了保证V2V用户的可靠性要求,也就是满足约束C1,V2V用户的传输带宽应该足够大,该约束可以通过选取合适带宽分配系数β来实现。从(7)中可以看出,该优化问题是一个离散优化问题,通过传统的穷尽搜索方法可以得到最优解,然而实现复杂度非常高,显然是不实际的。直观上来看,为了最大化V2I用户的和速率,用户选择的码本碰撞应该尽可能小。最理想的情况是每一个V2I用户或V2V用户都可以选取一个唯一的码本,然而在随机码本选择条件下,势必会发生码本碰撞。为了实现每一个用户可以选择一个唯一的码本,本发明实施例引入了智能学习策略,也就是用户通过不断尝试与调整自己的码本选择策略,逐渐选到一个唯一的码本,具体实现方法请见下节。
4.解耦Q学习智能码本选择方法
为了实现V2I用户和速率最大化的目标,本发明实施例提出了一种解耦Q学习智能码本选择方法。该技术将V2I用户和V2V用户分离,使V2I用户和V2V用户分别利用Q学习实现自适应的用户-码本选择策略,通过不断学习和调整自己码本选择策略,最终实现每一个用户找到一个唯一的码本,从而避免了码本碰撞问题。在码本碰撞完全避免的情况下,优化问题(7)也就实现了最大化。具体实现步骤如下:
(1)构建状态空间S:状态空间被定义为码本的集合,并且每一个码本可以被视为一个状态。V2I用户和V2V用户的码本空间是相同的,因为它们总是从相同的码本池中选取码本,状态空间可以被表示为S={s1,s2,...,sJ}。对于任意的V2I用户um,1和V2V用户un,2,它们在时刻t的状态可以分别表示为
Figure BDA0003862368360000111
Figure BDA0003862368360000112
(2)构建动作空间A:智能体所做出的判断被视为一个动作,所有可能的动作构成了动作空间。这里的动作表示智能体去选择码本,对于V2I用户和V2V用户来说,动作空间也是相同的,可以表示为A={a1,a2,...,aJ}。对于任意的V2I用户um,1和V2V用户un,2,它们在时刻t的动作可以分别表示为
Figure BDA0003862368360000113
Figure BDA0003862368360000114
(3)设置回报函数rm,1和rn,2:回报被用于评估智能体采取动作的好坏。对于V2I用户um,1来说,如果它选择了一个唯一的码本(也就是没有被其他V2I用户选择),它的回报值为rm,1=+1。如果存在多个V2I用户选择了相同的码本,此时需要指定一个特定用户来使用该码本,剩余用户则重新选择码本。这个指定用户将确定为具有最大传输信噪比(SNR)的用户。假设V2I用户um,1当前的状态和动作分别为
Figure BDA0003862368360000115
Figure BDA0003862368360000116
此时V2I用户um,1在当前状态-动作对
Figure BDA0003862368360000117
的回报函数可以表示为:
Figure BDA0003862368360000118
其中,μm,1表示V2I用户um,1的接收SNR,Γ1,j表示所有选择码本cj的V2I用户的SNR集合。同理,V2V用户与V2I用户有相同的奖惩机制。因此V2V用户un,2在当前状态-动作对
Figure BDA0003862368360000119
的回报函数可以表示为:
Figure BDA00038623683600001110
其中,μn,2表示V2V用户un,2的接收SNR,Γ2,j表示所有选择码本cj的V2V用户的SNR集合。
(4)计算Q函数Qm,1和Qn,2:每一个V2I用户和V2V用户都有一个Q表格,用于存储状态-动作对的Q值。对于V2I用户um,1和V2V用户un,2,它们的Q值可以按如下准则更新:
Figure BDA0003862368360000121
Figure BDA0003862368360000122
其中,αm,1n,2∈(0,1]分别表示V2I用户um,1和V2V用户un,2的学习速率,γm,1n,2∈[0,1]分别表示V2I用户um,1和V2V用户un,2的折扣因子。
解耦Q学习智能码本选择过程如下,首先,在学习初始阶段V2I用户和V2V用户的Q表格中的所有Q值均被初始化为0。然后,V2I用户和V2V用户随机从码本池中选择码本,并根据接收的到回报按照公式(10)和(11)更新Q表格中的Q值。在接下来的每一次学习过程,V2I用户和V2V用户均按照ε-greedy策略选择新动作并根据接收到的回报继续更新表格中Q值,直至收敛。最终,V2I用户和V2V用户的最优用户-码本选择策略可以更加如下公式得到:
Figure BDA0003862368360000123
Figure BDA0003862368360000124
值得注意的是,由于考虑非过载场景(也就是用户数目不超过码本数目),因此最终学习过程会收敛。通过以上解耦Q学习智能码本选择方法,每一个V2I用户和V2V用户均能找到唯一的码本,从而解决了码本碰撞问题,极大地提高了系统性能。
本发明实施例提供的解耦Q学习智能码本选择系统包括:
初始化模块,用于在学习初始阶段V2I用户和V2V用户的Q表格中的所有Q值均被初始化为0;
码本选择模块,用于V2I用户和V2V用户随机从码本池中选择码本,并根据接收的到回报更新Q表格中的Q值;
Q值更新模块,用于在每一次学习过程,V2I用户和V2V用户均按照ε-greedy策略选择新动作并根据接收到的回报继续更新表格中Q值,直至收敛;
最优策略确定模块,用于确定V2I用户和V2V用户最优用户-码本选择策略。
二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
本应用实施例阐述了将本发明提出的解耦Q学习智能码本选择方法应用于SCMA-V2X网络,可用于解决车联网、自动驾驶等应用领域中的车-基站通信以及车-车通信时的互干扰问题以及用户上行接入时的码本碰撞问题,提高V2X网络的系统容量。
三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。
仿真验证:本发明实施例接下来将呈现一系列仿真结果评估提出的解耦Q学习智能码本选择方法的性能。考虑郊区V2X通信场景,V2V的平均距离设置为2.5s×v,其中v(m/s)是车辆行驶速度。总时隙数目和码本占用的时隙数目分别为L=6,K=2,因此码本池中的码本数目为J=15。传输信道模型和其他关键参数根据3GPP确定,详细参数取值如表1所示。
表1 V2X系统仿真参数
参数 取值
传输带宽,B 10MHz
噪声功率谱密度 -174dBm/Hz
用户发送功率,P 15dBm
V2V用户最小接收SNR 3-9dB
V2V用户最小数据传输速率 1.58-3.16bps/Hz
用户路损模型 128.1+37.6log10(d)(km)
学习速率 0.1
折扣因子 0.95
车辆平均行驶速度 10-80km/h
图3(a)和(b)分别展示了未发生码本碰撞的V2V用户的数目与解耦Q学习次数的关系以及V2I用户和速率与解耦Q学习次数的关系。由图3(a)可以看出,当V2V用户数目N=6,9时,解耦Q学习迭代2次即可收敛,而当N=12,15时,解耦Q学习迭代3次即可收敛。很容易可得到随着V2V用户数目的增加,解耦Q学习收敛速度逐渐变慢。由图3(b)可以得到与图3(a)类似的结论,随着V2I用户数目的增多,解耦Q学习收敛速度也逐渐变慢,但从图3(a)和(b)可以看出,解耦Q学习收敛速度较快,经过很少次迭代即可收敛,这展示了提出的解耦Q学习高效的学习效率。
图4展示了中断概率对V2I用户和速率的影响,从图中可以看出,随着中断概率的减小,V2I用户的和速率也逐渐减小。这是因为中断概率越小对V2V用户的可靠性要求越高,这也要求V2V用户的传输带宽越大,因此V2I用户的传输带宽会减小,从而导致V2I用户的和速率减小。因此在实际应用中,需要根据V2V用户的可靠性要求,确定合适的中断概率。
图5展示了利用解耦Q学习智能码本选择解决码本冲突与没有利用解耦Q学习解决码本冲突的RMA-SCMA的性能。从图中可以看出,当V2I用户数目较小了,两者的性能接近,随着V2I用户数目的增加,利用解耦Q学习智能码本选择,可以有效避免码本冲突,因此性能会线性增加,而没有利用解耦Q学习解决码本冲突时,会导致码本冲突,从而影响系统性能,因此两者的性能差异逐渐增大。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种解耦Q学习智能码本选择方法,其特征在于,所述解耦Q学习智能码本选择方法包括:将V2I用户和V2V用户分离,使V2I用户和V2V用户分别利用Q学习实现自适应的用户-码本选择策略,通过不断学习和调整自己码本选择策略,最终实现每一个用户找到一个唯一的码本。
2.如权利要求1所述的解耦Q学习智能码本选择方法,其特征在于,所述解耦Q学习智能码本选择方法还包括:
在学习初始阶段V2I用户和V2V用户的Q表格中的所有Q值均被初始化为0;V2I用户和V2V用户随机从码本池中选择码本,并根据接收的到回报更新Q表格中的Q值;在每一次学习过程,V2I用户和V2V用户均按照ε-greedy策略选择新动作并根据接收到的回报继续更新表格中Q值,直至收敛;最终V2I用户和V2V用户的最优用户-码本选择策略根据如下公式得到:
Figure FDA0003862368350000011
Figure FDA0003862368350000012
3.如权利要求1所述的解耦Q学习智能码本选择方法,其特征在于,所述解耦Q学习智能码本选择方法包括以下步骤:
步骤一,构建状态空间S和动作空间A;
步骤二,设置回报函数rm,1和rn,2
步骤三,计算Q函数Qm,1和Qn,2
4.如权利要求3所述的解耦Q学习智能码本选择方法,其特征在于,所述步骤一中的状态空间S的构建包括:状态空间被定义为码本的集合,并且每一个码本被视为一个状态;由于V2I用户和V2V用户总是从相同的码本池中选取码本,故V2I用户和V2V用户的码本空间是相同的,状态空间被表示为S={s1,s2,...,sJ};对于任意的V2I用户um,1和V2V用户un,2,在时刻t的状态分别表示为
Figure FDA0003862368350000013
Figure FDA0003862368350000014
所述动作空间A的构建包括:智能体所做出的判断被视为一个动作,所有可能的动作构成动作空间,所述动作表示智能体去选择码本;对于V2I用户和V2V用户,动作空间是相同的,表示为A={a1,a2,...,aJ};对于任意的V2I用户um,1和V2V用户un,2,在时刻t的动作分别表示为
Figure FDA0003862368350000021
Figure FDA0003862368350000022
5.如权利要求3所述的解耦Q学习智能码本选择方法,其特征在于,所述步骤二中的设置回报函数rm,1和rn,2包括:
回报被用于评估智能体采取动作的好坏;对于V2I用户um,1,如果选择唯一的码本而没有被其他V2I用户选择,回报值为rm,1=+1;如果存在多个V2I用户选择相同的码本,则指定一个特定用户使用所述码本,剩余用户则重新选择码本;所述指定用户将确定为具有最大传输信噪比的用户;当V2I用户um,1当前的状态和动作分别为
Figure FDA0003862368350000023
Figure FDA0003862368350000024
此时V2I用户um,1在当前状态-动作对
Figure FDA0003862368350000025
的回报函数表示为:
Figure FDA0003862368350000026
其中,μm,1表示V2I用户um,1的接收SNR,Γ1,j表示所有选择码本cj的V2I用户的SNR集合;同理,V2V用户与V2I用户有相同的奖惩机制,故V2V用户un,2在当前状态-动作对
Figure FDA0003862368350000027
的回报函数表示为:
Figure FDA0003862368350000028
其中,μn,2表示V2V用户un,2的接收SNR,Γ2,j表示所有选择码本cj的V2V用户的SNR集合。
6.如权利要求3所述的解耦Q学习智能码本选择方法,其特征在于,所述步骤三中的计算Q函数Qm,1和Qn,2包括:
每一个V2I用户和V2V用户都有一个Q表格,用于存储状态-动作对的Q值;对于V2I用户um,1和V2V用户un,2,Q值按如下准则更新:
Figure FDA0003862368350000031
Figure FDA0003862368350000032
其中,αm,1n,2∈(0,1]分别表示V2I用户um,1和V2V用户un,2的学习速率,γm,1n,2∈[0,1]分别表示V2I用户um,1和V2V用户un,2的折扣因子。
7.一种应用如权利要求1~6任意一项所述的解耦Q学习智能码本选择方法的解耦Q学习智能码本选择系统,其特征在于,所述解耦Q学习智能码本选择系统包括:
初始化模块,用于在学习初始阶段V2I用户和V2V用户的Q表格中的所有Q值均被初始化为0;
码本选择模块,用于V2I用户和V2V用户随机从码本池中选择码本,并根据接收的到回报更新Q表格中的Q值;
Q值更新模块,用于在每一次学习过程,V2I用户和V2V用户均按照ε-greedy策略选择新动作并根据接收到的回报继续更新表格中Q值,直至收敛;
最优策略确定模块,用于确定V2I用户和V2V用户最优用户-码本选择策略。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1~6任意一项所述的解耦Q学习智能码本选择方法的步骤。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1~6任意一项所述的解耦Q学习智能码本选择方法的步骤。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求7所述的解耦Q学习智能码本选择系统。
CN202211167893.XA 2022-09-23 2022-09-23 一种用于scma-v2x系统的解耦q学习智能码本选择方法 Pending CN115515101A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211167893.XA CN115515101A (zh) 2022-09-23 2022-09-23 一种用于scma-v2x系统的解耦q学习智能码本选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211167893.XA CN115515101A (zh) 2022-09-23 2022-09-23 一种用于scma-v2x系统的解耦q学习智能码本选择方法

Publications (1)

Publication Number Publication Date
CN115515101A true CN115515101A (zh) 2022-12-23

Family

ID=84506137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211167893.XA Pending CN115515101A (zh) 2022-09-23 2022-09-23 一种用于scma-v2x系统的解耦q学习智能码本选择方法

Country Status (1)

Country Link
CN (1) CN115515101A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117176213A (zh) * 2023-11-03 2023-12-05 中国人民解放军国防科技大学 基于深度预测q网络的scma码本选择和功率分配方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010023145A1 (en) * 2008-08-26 2010-03-04 Nokia Siemens Networks Oy Adaptive codebook with compressed feedback
US20130107915A1 (en) * 2011-10-27 2013-05-02 Ntt Docomo, Inc. Low-complexity, rank extendable, codebook design and method for supporting precoding matrix feedback for multi-user and single-user mimo systems
CN108282238A (zh) * 2018-01-29 2018-07-13 厦门大学 一种基于网络编码技术的中继选择方法及装置
WO2020024170A1 (zh) * 2018-08-01 2020-02-06 东莞理工学院 连续动作空间上的纳什均衡策略及社交网络舆论演变模型
CN111556572A (zh) * 2020-04-21 2020-08-18 北京邮电大学 一种基于强化学习的频谱资源和计算资源联合分配方法
CN112205063A (zh) * 2018-05-31 2021-01-08 高通股份有限公司 用于蜂窝式v2x通信中的介质访问的参考信号设计
CN112292612A (zh) * 2018-06-25 2021-01-29 高通股份有限公司 用于多雷达共存的调频连续波(fmcw)波形参数的选择
CN112995951A (zh) * 2021-03-12 2021-06-18 南京航空航天大学 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法
CN113316154A (zh) * 2021-05-26 2021-08-27 重庆邮电大学 一种授权和免授权d2d通信资源联合智能分配方法
US20220124543A1 (en) * 2021-06-30 2022-04-21 Oner Orhan Graph neural network and reinforcement learning techniques for connection management
CN114827947A (zh) * 2022-03-15 2022-07-29 西安电子科技大学 车联网安全计算卸载及资源分配方法、计算机设备及终端

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010023145A1 (en) * 2008-08-26 2010-03-04 Nokia Siemens Networks Oy Adaptive codebook with compressed feedback
US20130107915A1 (en) * 2011-10-27 2013-05-02 Ntt Docomo, Inc. Low-complexity, rank extendable, codebook design and method for supporting precoding matrix feedback for multi-user and single-user mimo systems
CN108282238A (zh) * 2018-01-29 2018-07-13 厦门大学 一种基于网络编码技术的中继选择方法及装置
CN112205063A (zh) * 2018-05-31 2021-01-08 高通股份有限公司 用于蜂窝式v2x通信中的介质访问的参考信号设计
CN112292612A (zh) * 2018-06-25 2021-01-29 高通股份有限公司 用于多雷达共存的调频连续波(fmcw)波形参数的选择
WO2020024170A1 (zh) * 2018-08-01 2020-02-06 东莞理工学院 连续动作空间上的纳什均衡策略及社交网络舆论演变模型
CN111556572A (zh) * 2020-04-21 2020-08-18 北京邮电大学 一种基于强化学习的频谱资源和计算资源联合分配方法
CN112995951A (zh) * 2021-03-12 2021-06-18 南京航空航天大学 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法
CN113316154A (zh) * 2021-05-26 2021-08-27 重庆邮电大学 一种授权和免授权d2d通信资源联合智能分配方法
US20220124543A1 (en) * 2021-06-30 2022-04-21 Oner Orhan Graph neural network and reinforcement learning techniques for connection management
CN114827947A (zh) * 2022-03-15 2022-07-29 西安电子科技大学 车联网安全计算卸载及资源分配方法、计算机设备及终端

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
JINGRUI SU: "An SCMA-Based Decoupled Distributed Q-Learning Random Access Scheme for Machine-Type Communication", 《 IEEE WIRELESS COMMUNICATIONS LETTERS》, 10 May 2021 (2021-05-10) *
MENGCHEN ZHANG等: "Resource Allocation for SCMA Based D2D Underlaid Cellular System", 《 2019 IEEE 2ND INTERNATIONAL CONFERENCE ON ELECTRONICS TECHNOLOGY (ICET)》, 19 September 2019 (2019-09-19) *
WG1_RL1: ""TDoc_List_Meeting_RAN1#84-BIS (final)"", 3GPP TSG_RAN\\WG1_RL1, 22 May 2016 (2016-05-22) *
杜艾芊;赵海涛;刘南杰;: "车载通信中基于Q学习的信道接入技术研究", 计算机技术与发展, no. 03, 31 March 2017 (2017-03-31) *
王宇鹏;何丽;李玉峰;张宇;: "车联网中基于自适应阈值的物理层安全身份认证方法", 沈阳航空航天大学学报, no. 04, 25 August 2020 (2020-08-25) *
王明伟;李立欣;张会生;谢文姣;: "基于定向天线和最佳中继选择AF策略的协作通信系统", 华南理工大学学报(自然科学版), no. 09, 15 September 2016 (2016-09-15) *
章扬;周正;石磊;李斌;: "基于格拉斯曼码本的分布式干扰对齐算法", 北京邮电大学学报, no. 04, 15 August 2013 (2013-08-15) *
蒋涛涛;朱江;: "CNR中基于多用户Q学习的联合信道选择和功率控制", 计算机应用研究, no. 08, 31 December 2020 (2020-12-31) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117176213A (zh) * 2023-11-03 2023-12-05 中国人民解放军国防科技大学 基于深度预测q网络的scma码本选择和功率分配方法
CN117176213B (zh) * 2023-11-03 2024-01-30 中国人民解放军国防科技大学 基于深度预测q网络的scma码本选择和功率分配方法

Similar Documents

Publication Publication Date Title
Liu et al. Distributed Q-learning aided uplink grant-free NOMA for massive machine-type communications
CN111935722B (zh) 基于用户在线学习与低开销合作的动态频谱共享方法
CN111050413B (zh) 一种基于自适应调整策略的无人机csma接入方法
KR102178880B1 (ko) 디바이스 클러스터링에 기반한 로라 통신 네트워크 시스템 및 데이터 전송 방법
CN111511028B (zh) 一种多用户资源分配方法、装置、系统及存储介质
CN112911555B (zh) 基于信息年龄的无线网络通信资源调度方法和系统
Huang et al. Q-learning-based spectrum access for multimedia transmission over cognitive radio networks
CN115515101A (zh) 一种用于scma-v2x系统的解耦q学习智能码本选择方法
CN113423110B (zh) 基于深度强化学习的多用户多信道动态频谱接入方法
Şahin et al. Reinforcement learning scheduler for vehicle-to-vehicle communications outside coverage
CN114554498A (zh) 一种车联网资源的分配方法及系统
da Silva et al. D2d assisted q-learning random access for noma-based mtc networks
CN115086964A (zh) 一种基于多维向量空间优化的动态频谱分配方法及系统
CN114173421B (zh) 基于深度强化学习的LoRa逻辑信道及功率分配方法
CN113543065B (zh) 一种基于强化学习的通信资源分配方法及其相关设备
Xie et al. Multi-armed bandit based task offloading by probabilistic V2X communication in vehicle edge cloud system
CN115038182A (zh) 结合编码域非正交的集中式多址调度方法
CN111866979B (zh) 基于多臂老虎机在线学习机制的基站与信道动态分配方法
CN111343722B (zh) 边缘计算中基于认知无线电的能效优化方法
Li et al. Maximal scheduling in a hypergraph model for wireless networks
Jiang et al. SMART: Situationally-aware multi-agent reinforcement learning-based transmissions
CN108337690B (zh) 一种应用于分布式综合接入系统的多制式网络资源分配方法
Fan et al. Price-based power allocation with rate proportional fairness constraint in downlink non-orthogonal multiple access systems
CN110800364A (zh) 改进或相关于基于用户调度的动态通道自相关
Chen et al. Energy‐Efficient Resource Allocation for NOMA‐Enabled Internet of Vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination