CN115515101A

CN115515101A - 一种用于scma-v2x系统的解耦q学习智能码本选择方法

Info

Publication number: CN115515101A
Application number: CN202211167893.XA
Authority: CN
Inventors: 赵波; 行增; 王明
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2022-12-23

Abstract

本发明属于移动通信技术领域，公开了一种用于SCMA‑V2X系统的解耦Q学习智能码本选择方法，在学习初始阶段V2I用户和V2V用户的Q表格中的所有Q值均被初始化为0；V2I用户和V2V用户随机从码本池中选择码本，并根据接收的到回报更新Q表格中的Q值；在每一次学习过程，V2I用户和V2V用户均按照ε‑greedy策略选择新动作并根据接收到的回报继续更新表格中Q值，直至收敛；最终确定V2I用户和V2V用户的最优用户‑码本选择策略。通过本发明提供的解耦Q学习智能码本选择方法，每一个V2I用户和V2V用户均能找到唯一的码本，从而解决了码本碰撞问题，极大地提高了系统性能，降低了用户接入时延，同时有效避免了用户间的干扰。

Description

一种用于SCMA-V2X系统的解耦Q学习智能码本选择方法

技术领域

本发明属于移动通信技术领域，尤其涉及一种用于SCMA-V2X系统的解耦Q学习智能码本选择方法。

背景技术

目前，SCMA是一种码域非正交多址接入技术，具有高频谱利用效率，能有效增强V2X的系统容量。在传统的SCMA-V2X系统中，常用的码本选择方式是基站给用户分配码本，因此会导致传输时延增加同时会产生一定的信令开销。另外，V2I(vehicle-to-infrastructure)用户和V2V(vehicle-to-vehicle)用户共享相同的信道和码本，从而导致V2I用户和V2V用户相互干扰。

近年来，SCMA作为码域的非正交多址接入技术受到广泛关注。由于其高频谱利用效率，在增强V2X通信性能上具有很大潜力。SCMA通过引入稀疏码本使得多个用户复用相同的无线通信资源(包括时域、频域等资源)，接收端采用先进的消息传递译码算法能够实现多个用户联合译码，实现了无线频谱资源利用效率的提升。在SCMA-V2X系统中，核心问题是码本的分配方式。传统的方式通常采用基站调度的形式，也就是用户首先需要向基站发出接入请求，基站接收到请求后给用户分配相应的码本。这种方式尽管能避免用户码本冲突问题，但会极大的增加用户的接入时延，降低接入效率。同时，当前的SCMA-V2X系统中V2I用户和V2V用户通常共享一个信道，会造成严重的用户间干扰。为此，亟需提出一种有效的SCMA-V2X系统码本分配方式。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有码本选择方式会极大的增加用户的接入时延，降低接入效率。

(2)当前的SCMA-V2X系统中V2I用户和V2V用户通常共享一个信道，会造成严重的用户间干扰。

发明内容

针对现有技术存在的问题，本发明提供了一种用于SCMA-V2X系统的解耦Q学习智能码本选择方法，尤其涉及一种解耦Q学习智能码本选择方法、系统、介质、设备及终端。

本发明是这样实现的，首先为了避免V2I用户和V2V用户相互干扰，通过正交信道资源划分的方式将V2I用户和V2V用户分离；然后为了解决V2I用户和V2V用户在上行传输时的码本碰撞问题，利用解耦Q学习实现自适应的用户-码本选择策略，用户通过不断学习和调整自己码本选择策略，最终实现每一个用户找到一个唯一的码本，解决了用户上行传输时的码本碰撞问题，提高了系统上行接入效率。

进一步，所述解耦Q学习智能码本选择方法还包括：

在学习初始阶段V2I用户和V2V用户的Q表格中的所有Q值均被初始化为0；V2I用户和V2V用户随机从码本池中选择码本，并根据接收的到回报更新Q表格中的Q值；在每一次学习过程，V2I用户和V2V用户均按照ε-greedy策略选择新动作并根据接收到的回报继续更新表格中Q值，直至收敛；最终V2I用户和V2V用户的最优用户-码本选择策略根据如下公式得到：

进一步，所述解耦Q学习智能码本选择方法包括以下步骤：

步骤一，构建状态空间S和动作空间A；

步骤二，设置回报函数r_m,1和r_n,2；

步骤三，计算Q函数Q_m,1和Q_n,2。

进一步，所述步骤一中的状态空间S的构建包括：状态空间被定义为码本的集合，并且每一个码本被视为一个状态。由于V2I用户和V2V用户总是从相同的码本池中选取码本，故V2I用户和V2V用户的码本空间是相同的，状态空间被表示为S＝{s₁,s₂,...,s_J}；对于任意的V2I用户u_m,1和V2V用户u_n,2，在时刻t的状态分别表示为

和

所述动作空间A的构建包括：智能体所做出的判断被视为一个动作，所有可能的动作构成动作空间，所述动作表示智能体去选择码本；对于V2I用户和V2V用户，动作空间是相同的，表示为A＝{a₁,a₂,...,a_J}；对于任意的V2I用户u_m,1和V2V用户u_n,2，在时刻t的动作分别表示为

和

进一步，所述步骤二中的设置回报函数r_m,1和r_n,2包括：

回报被用于评估智能体采取动作的好坏。对于V2I用户u_m,1，如果选择唯一的码本而没有被其他V2I用户选择，回报值为r_m,1＝+1。如果存在多个V2I用户选择相同的码本，则指定一个特定用户使用所述码本，剩余用户则重新选择码本；所述指定用户将确定为具有最大传输信噪比的用户。当V2I用户u_m,1当前的状态和动作分别为

和

此时V2I用户u_m,1在当前状态-动作对

的回报函数表示为：

其中，μ_m,1表示V2I用户u_m,1的接收SNR，Γ_1,j表示所有选择码本c_j的V2I用户的SNR集合；同理，V2V用户与V2I用户有相同的奖惩机制，故V2V用户u_n,2在当前状态-动作对

的回报函数表示为：

其中，μ_n,2表示V2V用户u_n,2的接收SNR，Γ_2,j表示所有选择码本c_j的V2V用户的SNR集合。

进一步，所述步骤三中的计算Q函数Q_m,1和Q_n,2包括：

每一个V2I用户和V2V用户都有一个Q表格，用于存储状态-动作对的Q值；对于V2I用户u_m,1和V2V用户u_n,2，Q值按如下准则更新：

其中，α_m,1,α_n,2∈(0,1]分别表示V2I用户u_m,1和V2V用户u_n,2的学习速率，γ_m,1,γ_n,2∈[0,1]分别表示V2I用户u_m,1和V2V用户u_n,2的折扣因子。

本发明的另一目的在于提供一种应用所述的解耦Q学习智能码本选择方法的解耦Q学习智能码本选择系统，所述解耦Q学习智能码本选择系统包括：

初始化模块，用于在学习初始阶段V2I用户和V2V用户的Q表格中的所有Q值均被初始化为0；

码本选择模块，用于V2I用户和V2V用户随机从码本池中选择码本，并根据接收的到回报更新Q表格中的Q值；

Q值更新模块，用于在每一次学习过程，V2I用户和V2V用户均按照ε-greedy策略选择新动作并根据接收到的回报继续更新表格中Q值，直至收敛；

最优策略确定模块，用于确定V2I用户和V2V用户最优用户-码本选择策略。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述的解耦Q学习智能码本选择方法的步骤。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述的解耦Q学习智能码本选择方法的步骤。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的解耦Q学习智能码本选择系统。

结合上述的技术方案和解决的技术问题，请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为：

第一，针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

为了克服现有技术的问题，本发明提出了一种随机码本选择方案，并通过一种新的用于稀疏码多址接入车联网(SCMA-V2X)系统的解耦Q学习智能码本选择方法解决了随机码本选择引起的冲突问题。具体而言，V2I用户和V2V用户采用频分多址方式传输数据，可有效避免V2I用户和V2V用户之间的干扰；而后，V2I用户和V2V用户从共享码本池中随机选择码本并根据选择的码本传输数据。由于随机码本选择势必会导致码本冲突问题，为此本发明提出了解耦Q学习来解决V2I用户和V2V用户的码本冲突问题，大幅度提升了系统容量。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

SCMA技术是5G通信中的关键技术，在V2X通信中仍然具有很广泛的应用，本发明提出的用于SCMA-V2X网络的解耦Q学习智能码本选择方法涉及移动通信领域的关键技术。通过本发明提供的解耦Q学习智能码本选择方法，每一个V2I用户和V2V用户均能找到唯一的码本，从而解决了码本碰撞问题，极大地提高了系统性能。本发明降低了用户接入时延，同时有效避免了用户间的干扰，这对SCMA-V2X系统从理论走向应用具有重要的指导意义。

第三，作为本发明的权利要求的创造性辅助证据，还体现在以下几个重要方面：

(1)本发明的技术方案转化后的预期收益和商业价值为：

本发明的主要应用背景为V2X网络，用于解决大规模V2X网络中车载用户的上行接入难题，旨在通过智能化的方式实现自适应车-基站以及车-车之间的通信。本发明的技术方案转化后的预期收益与目前V2X发展的成熟度息息相关，目前来看V2X发展仍处于上升期，预期收益也将随V2X发展的成熟度逐年上升。成果转化后可应用于大规模V2X通信，提高车-基站以及车-车通信效率和智能化水平。

(2)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题：

目前来看，在面向SCMA-V2X网络的上行传输中，主要的技术难题有两个，即：1)V2I用户与V2V用户的互干扰问题；2)用户上行传输时的码本碰撞问题。本发明提出了解耦Q学习智能码本选择方法，先解决了V2V用户与V2I用户共享频谱时的互干扰问题，同时为了提高面向SCMA-V2X网络的通信效率和容量，又采用解耦Q学习以智能化的方式解决了用户上行接入时的码本碰撞问题，极大地提高了系统的容量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的解耦Q学习智能码本选择方法流程图；

图2是本发明实施例提供的码本映射方案示意图；

图3是本发明实施例提供的解耦Q学习算法收敛性示意图；(a)为未发生码本碰撞的V2V用户数目示意图，(b)为V2I用户和速率示意图；

图4是本发明实施例提供的中断概率对V2I用户和速率的影响示意图，M＝15，R_min＝2.06bps/Hz，v＝60km/h；

图5是本发明实施例提供的有码本冲突解决和无码本冲突解决的RMA-SCMA性能对比示意图，P_out＝10^-2，R_min＝2.06bps/Hz，v＝60km/h。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种解耦Q学习智能码本选择方法、系统、介质、设备及终端，下面结合附图对本发明作详细的描述。

一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现，该部分是对权利要求技术方案进行展开说明的解释说明实施例。

如图1所示，本发明实施例提供的解耦Q学习智能码本选择方法包括以下步骤：

S101，在学习初始阶段V2I用户和V2V用户Q表格中所有Q值初始化为0；

S102，V2I用户和V2V用户随机从码本池中选择码本，并根据接收的到回报更新Q表格中的Q值；

S103，在每一次学习过程，V2I用户和V2V用户均按照ε-greedy策略选择新动作并根据接收到的回报继续更新表格中Q值，直至收敛；

S104，确定V2I用户和V2V用户的最优用户-码本选择策略。

作为优选实施例，本发明实施例提供的解耦Q学习智能码本选择方法具体包括以下步骤：

1.码本映射方案

在当前接入机会，假设有L个时隙资源，每个码本仅占用L个时隙中的K个时隙，那么存在可用的码本数目为

码本集合可以表示为

其中c_j＝[c_1,j,...,c_l,j,...,c_L,j]并且c_l,j∈{0,1},|c_j|＝K。为了避免V2I用户和V2V用户间相互干扰，总带宽被分为两部分，也就是βB和(1-β)B，其中β为带宽分配系数，这里考虑为一个常数。βB带宽用于V2I用户传输，(1-β)B带宽用于V2V用户传输。V2I用户和V2V用户从相同的码本集合

中随机选取一个码本并根据选择的码本在对应时隙中传输数据。为了表示方便，本发明实施例引入两个因子a_m,j和b_n,j分别表示V2I用户-码本选择关系和V2V用户-码本选择关系，并且如果V2I用户u_m,1和V2V用户u_n,2选择了码本c_j，则有a_m,j＝1,b_n,j＝1，否则a_m,j＝0,b_n,j＝0。由于采用的随机码本选择方案，当两个或更多个V2I用户或V2V用户选择了相同的码本时，就会发生码本碰撞，此时会影响多用户译码，从而使系统性能恶化。当没有发生码本碰撞时，可以利用先进的消息传递算法成功译码多个用户。图2展示了一种随机码本映射方案。从图中可以看出，由于V2I用户和V2V用户在频域上采用正交的方式传输，即使选择了相同的码本，仍然不会发生码本碰撞，这可以有效避免用户间相互干扰。相反，同一类用户选了相同的码本则会发生码本碰撞，从而影响系统性能。

2.SCMA信号传输模型

假设V2I用户u_m,1和V2V用户u_n,2均已选择了码本c_j，为了表示方便，重新记为

和

并且

基于以上定义，V2I用户在时隙l中的接收信号可以表示为：

其中，P是用户的发送功率并且假设所有V2I用户的发送功率相同。

表示用户u_m,1的信道增益，

表示信道系数，G是路损常数，d_m,1是用户到基站的传输距离，α是路损指数。x_m,l,1表示用户u_m,1在时隙l中的传输信号且E[|x_m,l,1|²]＝1。n_l,1是均值为0，方差为σ²的加性高斯白噪声(AWGN)。同理，V2V用户在时隙l中的接收信号可以表示为：

其中，P是用户的发送功率并且假设V2V用户的发送功率与V2I用户相同。

表示用户u_n,2的信道增益，

表示信道系数，G是路损常数，d_n,2是用户到用户的传输距离，α是路损指数。x_n,l,2表示用户u_n,2在时隙l中的传输信号且E[|x_n,l,2|²]＝1。n_l,2是均值为0，方差为σ²的AWGN。

3.构建和速率最大化问题

由方程(1)和(2)可知，V2I用户u_m,1的传输速率可以表示为：

其中，I_m,l,1表示用户u_m,1受到的来自其它用户的干扰，值得注意的是，该干扰只会产生在相同码本之间，也就是该干扰是由与V2I用户u_m,1选择相同码本的用户产生的。该干扰可以表示为：

同理，V2V用户u_n,2的传输速率可以表示为：

同理，I_n,l,2表示用户u_n,2受到的来自其它用户的干扰，它可以表示为：

一般来说，V2X通信通常对V2I用户要求高传输数据速率，对V2V用户要求高可靠性。为了保证V2V可靠性的同时最大化V2I用户的和速率，本发明实施例构建了如下用户-码本选择最优化问题，即：

其中，约束C1中R_min表示V2V用户最小可允许的传输数据速率，P_out表示中断概率，且该约束用于保证V2V用户的可靠性要求。约束C2用于保证每一个码本最多仅被一个V2I用户选择。约束C3用于保证每一个码本仅被一个V2V用户选择。约束C4，C5是优化变量自身的取值范围。为了保证V2V用户的可靠性要求，也就是满足约束C1，V2V用户的传输带宽应该足够大，该约束可以通过选取合适带宽分配系数β来实现。从(7)中可以看出，该优化问题是一个离散优化问题，通过传统的穷尽搜索方法可以得到最优解，然而实现复杂度非常高，显然是不实际的。直观上来看，为了最大化V2I用户的和速率，用户选择的码本碰撞应该尽可能小。最理想的情况是每一个V2I用户或V2V用户都可以选取一个唯一的码本，然而在随机码本选择条件下，势必会发生码本碰撞。为了实现每一个用户可以选择一个唯一的码本，本发明实施例引入了智能学习策略，也就是用户通过不断尝试与调整自己的码本选择策略，逐渐选到一个唯一的码本，具体实现方法请见下节。

4.解耦Q学习智能码本选择方法

为了实现V2I用户和速率最大化的目标，本发明实施例提出了一种解耦Q学习智能码本选择方法。该技术将V2I用户和V2V用户分离，使V2I用户和V2V用户分别利用Q学习实现自适应的用户-码本选择策略，通过不断学习和调整自己码本选择策略，最终实现每一个用户找到一个唯一的码本，从而避免了码本碰撞问题。在码本碰撞完全避免的情况下，优化问题(7)也就实现了最大化。具体实现步骤如下：

(1)构建状态空间S：状态空间被定义为码本的集合，并且每一个码本可以被视为一个状态。V2I用户和V2V用户的码本空间是相同的，因为它们总是从相同的码本池中选取码本，状态空间可以被表示为S＝{s₁,s₂,...,s_J}。对于任意的V2I用户u_m,1和V2V用户u_n,2，它们在时刻t的状态可以分别表示为

和

(2)构建动作空间A：智能体所做出的判断被视为一个动作，所有可能的动作构成了动作空间。这里的动作表示智能体去选择码本，对于V2I用户和V2V用户来说，动作空间也是相同的，可以表示为A＝{a₁,a₂,...,a_J}。对于任意的V2I用户u_m,1和V2V用户u_n,2，它们在时刻t的动作可以分别表示为

和

(3)设置回报函数r_m,1和r_n,2：回报被用于评估智能体采取动作的好坏。对于V2I用户u_m,1来说，如果它选择了一个唯一的码本(也就是没有被其他V2I用户选择)，它的回报值为r_m,1＝+1。如果存在多个V2I用户选择了相同的码本，此时需要指定一个特定用户来使用该码本，剩余用户则重新选择码本。这个指定用户将确定为具有最大传输信噪比(SNR)的用户。假设V2I用户u_m,1当前的状态和动作分别为

和

此时V2I用户u_m,1在当前状态-动作对

的回报函数可以表示为：

其中，μ_m,1表示V2I用户u_m,1的接收SNR，Γ_1,j表示所有选择码本c_j的V2I用户的SNR集合。同理，V2V用户与V2I用户有相同的奖惩机制。因此V2V用户u_n,2在当前状态-动作对

的回报函数可以表示为：

(4)计算Q函数Q_m,1和Q_n,2：每一个V2I用户和V2V用户都有一个Q表格，用于存储状态-动作对的Q值。对于V2I用户u_m,1和V2V用户u_n,2，它们的Q值可以按如下准则更新：

解耦Q学习智能码本选择过程如下，首先，在学习初始阶段V2I用户和V2V用户的Q表格中的所有Q值均被初始化为0。然后，V2I用户和V2V用户随机从码本池中选择码本，并根据接收的到回报按照公式(10)和(11)更新Q表格中的Q值。在接下来的每一次学习过程，V2I用户和V2V用户均按照ε-greedy策略选择新动作并根据接收到的回报继续更新表格中Q值，直至收敛。最终，V2I用户和V2V用户的最优用户-码本选择策略可以更加如下公式得到：

值得注意的是，由于考虑非过载场景(也就是用户数目不超过码本数目)，因此最终学习过程会收敛。通过以上解耦Q学习智能码本选择方法，每一个V2I用户和V2V用户均能找到唯一的码本，从而解决了码本碰撞问题，极大地提高了系统性能。

本发明实施例提供的解耦Q学习智能码本选择系统包括：

二、应用实施例。为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。

本应用实施例阐述了将本发明提出的解耦Q学习智能码本选择方法应用于SCMA-V2X网络，可用于解决车联网、自动驾驶等应用领域中的车-基站通信以及车-车通信时的互干扰问题以及用户上行接入时的码本碰撞问题，提高V2X网络的系统容量。

三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果，和现有技术相比的确具备很大的优势，下面内容结合试验过程的数据、图表等进行描述。

仿真验证：本发明实施例接下来将呈现一系列仿真结果评估提出的解耦Q学习智能码本选择方法的性能。考虑郊区V2X通信场景，V2V的平均距离设置为2.5s×v，其中v(m/s)是车辆行驶速度。总时隙数目和码本占用的时隙数目分别为L＝6，K＝2，因此码本池中的码本数目为J＝15。传输信道模型和其他关键参数根据3GPP确定，详细参数取值如表1所示。

表1 V2X系统仿真参数

参数	取值
		传输带宽，B	10MHz
噪声功率谱密度	-174dBm/Hz
		用户发送功率，P	15dBm
V2V用户最小接收SNR	3-9dB
		V2V用户最小数据传输速率	1.58-3.16bps/Hz
用户路损模型	128.1+37.6log10(d)(km)
		学习速率	0.1
折扣因子	0.95
		车辆平均行驶速度	10-80km/h

图3(a)和(b)分别展示了未发生码本碰撞的V2V用户的数目与解耦Q学习次数的关系以及V2I用户和速率与解耦Q学习次数的关系。由图3(a)可以看出，当V2V用户数目N＝6，9时，解耦Q学习迭代2次即可收敛，而当N＝12，15时，解耦Q学习迭代3次即可收敛。很容易可得到随着V2V用户数目的增加，解耦Q学习收敛速度逐渐变慢。由图3(b)可以得到与图3(a)类似的结论，随着V2I用户数目的增多，解耦Q学习收敛速度也逐渐变慢，但从图3(a)和(b)可以看出，解耦Q学习收敛速度较快，经过很少次迭代即可收敛，这展示了提出的解耦Q学习高效的学习效率。

图4展示了中断概率对V2I用户和速率的影响，从图中可以看出，随着中断概率的减小，V2I用户的和速率也逐渐减小。这是因为中断概率越小对V2V用户的可靠性要求越高，这也要求V2V用户的传输带宽越大，因此V2I用户的传输带宽会减小，从而导致V2I用户的和速率减小。因此在实际应用中，需要根据V2V用户的可靠性要求，确定合适的中断概率。

图5展示了利用解耦Q学习智能码本选择解决码本冲突与没有利用解耦Q学习解决码本冲突的RMA-SCMA的性能。从图中可以看出，当V2I用户数目较小了，两者的性能接近，随着V2I用户数目的增加，利用解耦Q学习智能码本选择，可以有效避免码本冲突，因此性能会线性增加，而没有利用解耦Q学习解决码本冲突时，会导致码本冲突，从而影响系统性能，因此两者的性能差异逐渐增大。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种解耦Q学习智能码本选择方法，其特征在于，所述解耦Q学习智能码本选择方法包括：将V2I用户和V2V用户分离，使V2I用户和V2V用户分别利用Q学习实现自适应的用户-码本选择策略，通过不断学习和调整自己码本选择策略，最终实现每一个用户找到一个唯一的码本。

2.如权利要求1所述的解耦Q学习智能码本选择方法，其特征在于，所述解耦Q学习智能码本选择方法还包括：

3.如权利要求1所述的解耦Q学习智能码本选择方法，其特征在于，所述解耦Q学习智能码本选择方法包括以下步骤：

步骤一，构建状态空间S和动作空间A；

步骤二，设置回报函数r_m,1和r_n,2；

步骤三，计算Q函数Q_m,1和Q_n,2。

4.如权利要求3所述的解耦Q学习智能码本选择方法，其特征在于，所述步骤一中的状态空间S的构建包括：状态空间被定义为码本的集合，并且每一个码本被视为一个状态；由于V2I用户和V2V用户总是从相同的码本池中选取码本，故V2I用户和V2V用户的码本空间是相同的，状态空间被表示为S＝{s₁,s₂,...,s_J}；对于任意的V2I用户u_m,1和V2V用户u_n,2，在时刻t的状态分别表示为

和

和

5.如权利要求3所述的解耦Q学习智能码本选择方法，其特征在于，所述步骤二中的设置回报函数r_m,1和r_n,2包括：

回报被用于评估智能体采取动作的好坏；对于V2I用户u_m,1，如果选择唯一的码本而没有被其他V2I用户选择，回报值为r_m,1＝+1；如果存在多个V2I用户选择相同的码本，则指定一个特定用户使用所述码本，剩余用户则重新选择码本；所述指定用户将确定为具有最大传输信噪比的用户；当V2I用户u_m,1当前的状态和动作分别为

和

此时V2I用户u_m,1在当前状态-动作对

的回报函数表示为：

的回报函数表示为：

6.如权利要求3所述的解耦Q学习智能码本选择方法，其特征在于，所述步骤三中的计算Q函数Q_m,1和Q_n,2包括：

7.一种应用如权利要求1～6任意一项所述的解耦Q学习智能码本选择方法的解耦Q学习智能码本选择系统，其特征在于，所述解耦Q学习智能码本选择系统包括：

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1～6任意一项所述的解耦Q学习智能码本选择方法的步骤。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1～6任意一项所述的解耦Q学习智能码本选择方法的步骤。

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求7所述的解耦Q学习智能码本选择系统。