CN109905165B

CN109905165B - 基于q学习算法的卫星物联网异步随机接入方法

Info

Publication number: CN109905165B
Application number: CN201910224916.8A
Authority: CN
Inventors: 任光亮; 王灵杰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-03-24
Filing date: 2019-03-24
Publication date: 2020-12-08
Anticipated expiration: 2039-03-24
Also published as: CN109905165A

Abstract

本发明提出了一种基于Q学习算法的卫星物联网异步随机接入方法，用于解决现有技术中存在的低吞吐量导致信道资源利用率较低的问题。实现步骤为：卫星向用户端发送信道区间信息；用户端初始化Q学习算法的参数；用户端向卫星发送接入数据包；卫星将接收到的所有接入数据包转发至地面网关；地面网关向卫星发送奖惩因子r；卫星通过广播将已赋值的奖惩因子r发送至用户端；每个用户利用奖惩因子r对信道区间的Q评估值分别进行更新；直至所有用户全部完成发送数据包。本发明通过学习用户发送数据包的信道区间，降低了数据包冲突概率，提高了系统吞吐量，进而提升了信道资源利用率。

Description

基于Q学习算法的卫星物联网异步随机接入方法

技术领域

本发明属于通信技术领域，涉及一种卫星物联网异步随机接入方法，具体涉及一种基于Q学习算法的卫星物联网异步随机接入方法。

背景技术

随着卫星通信的迅速发展，卫星物联网通信技术已经成为近几年的研究热点。卫星物联网是在具有物联网业务的卫星网络中，地面的物联网终端与卫星网络连接的网络，具有海量用户节点、低功耗、低带宽、低成本等特点，这决定了面向未来卫星物联网业务对大容量用户的需求，新一代的卫星通信系统迫切需要高吞吐量的随机接入方法来实现海量卫星物联网终端的有效接入。

卫星物联网接入是指地面的物联网节点向卫星发送接入数据包请求接入的过程，通常使用信道资源利用率来表征接入的性能，资源利用率越高表示接入性能越好，吞吐量可以直接反映信道资源利用的程度，吞吐量越高则资源利用率越高。卫星物联网中常用的接入方式分为多址接入和随机接入，多址接入分为时分多址、频分多址和码分多址接入三种方案；随机接入是指用户通过卫星信道中随机位置向卫星发送数据包，包含用户，卫星和地面网关的参与，分为异步随机接入和同步随机接入两种方案。高吞吐量的随机接入是提升信道资源利用率的有效途径。

异步随机接入是随机接入中一个重要分支，上个世纪70年代Abramson N等人提出的ALOHA是最早最简单的异步随机接入，具有不需要时隙同步、设备终端复杂度较低的优点，但是其峰值吞吐量仅为0.18，不能满足大容量接入的需求。因此为了进一步提升吞吐量，Clazzer F在论文“Enhanced Contention Resolution Aloha-ECRA”(SCC 2013；1-6)中提出增强型竞争决议ALOHA(ECRA,Enhanced Contention Resolution Aloha)方法，用户发送数据包至卫星，卫星转发数据包至地面网关，地面网关采用迭代干扰消除算法和分组片段最大信干噪比合并算法解调数据包，将峰值吞吐量提升至0.41左右。该方法有效地提升了吞吐量，但是因为用户发送接入数据包位置的选择原则均为随机选择，随机性导致数据包位置分布不均匀，有的数据帧位置存在多个数据包，数据包冲突概率增大，有的较长一段数据帧区间内没有数据包，所以吞吐量提升的不够高，导致信道资源没有被充分利用。

Q学习算法是机器学习中强化学习中的一种算法，Q学习把学习看做试探评价过程，智能体首先选择一个动作作用于环境，环境接受该动作后状态发生变化，同时产生一个奖赏因子反馈给智能体，智能体根据奖赏因子再选择下一个动作，选择的原则是使受到奖励的概率增大。Q学习在多领域多学科中有着广泛的应用，其中在通信领域卫星物联网同步随机接入中可以用来解决用户选择发送位置随机性的问题，用户根据实际环境进行自主学习，不断修改其接入策略，实现吞吐量的提升。Yi Chu等人的论文“ALOHA and Q-Learningbased medium access control for wireless sensor networks”(WirelessCommunication System(ISWCS),2012International Symposium on,pp.511-515,28-31,Aug 2012)在同步随机接入中的时隙ALOHA(SA,Slotted ALOHA)基础上引入了Q学习算法，通过Q评估函数确定每个数据包传输的最佳时隙，并在传输阶段不断地更新，在最终的稳态下，所有节点都能找到“专属”的时隙，从而不会引发冲突。

基于Q学习的方法虽然在同步随机接入中一定程度上提升了吞吐量，但并未在异步随机接入场景中出现。

发明内容

本发明的目的在于克服上述已有技术的缺陷，提出一种基于Q学习的卫星物联网异步随机接入方法，用于解决现有技术中存在的低吞吐量导致信道资源利用率较低的技术问题。

为了实现上述目的，本发明采取的技术方案包括如下步骤：

(1)卫星向用户端发送信道区间信息：

卫星将自己信道的多个连续数据帧分别划分为k个均匀信道区间，并将k发送给用户端的M个用户，k≥2，M≥1；

(2)用户端初始化Q学习算法的参数：

用户端创建由M×k个Q评估值组成的Q评估表，并将每个Q评估值初始化为0，将第m个用户在第i个信道区间上的Q评估值表示为Q_m(i)，1≤m≤M，1≤i≤k；

(3)用户端向卫星发送接入数据包：

(3a)用户端的每个用户对接入信息进行编码，得到编码数据，并对该编码数据进行交织，得到交织数据，对交织数据进行调制，得到净荷数据，再将该净荷数据与用户自己的导频序列组合成接入数据包，其中各用户的导频序列相同；

(3b)每个用户通过随机选择的当前时刻卫星信道数据帧中Q评估值最大的两个信道区间的任意位置，分别向卫星发送接入数据包；

(4)卫星将接收到的所有接入数据包转发至地面网关；

(5)地面网关向卫星发送Q学习算法的奖惩因子r：

(5a)地面网关对每个接入数据包与该每个接入数据包包含的导频序列进行相关运算，得到2M个互相关序列，并检测每个互相关序列中大于预定阈值γ^*的相关值的数目l，将l＝1的互相关序列对应的接入数据包作为未受其他数据包干扰的接入数据包，将其余互相关序列对应的接入数据包作为受其他数据包干扰的接入数据包，l≥1；

(5b)地面网关采用迭代干扰消除算法对未受其他接入数据包干扰的接入数据包进行解调，采用分组片段最大信干噪比合并算法对受其他接入数据包干扰的接入数据包进行解调，得到2M个包括净荷数据的解调结果；

(5c)地面网关通过每个接入数据包的CRC校验码对该每个接入数据包解调结果中的净荷数据进行校验，若校验通过，则对Q学习算法的奖惩因子r赋值1，否则，则对Q学习算法的奖惩因子r赋值-1，并将已赋值的r发送至卫星；

(6)卫星通过广播将已赋值的奖惩因子r发送至用户端；

(7)用户端的每个用户利用其对应的已赋值的奖惩因子r对该用户发送接入数据包的两个信道区间的Q评估值分别进行更新，更新公式为：

Q_m(i)←Q_m(i)+α(r-Q_m(i))

其中，α表示Q学习算法中的学习速率，0≤α≤1；

(8)判断每个用户的所有用户包是否全部发送至卫星，若是，卫星物联网异步随机接入完成，否则，每个用户通过两个信道区间更新后的Q评估值替换当前时刻卫星信道数据帧中Q评估值，并重复执行步骤(3)～(7)。

本发明与现有技术相比，具有以下优点：

本发明由于采用将数据帧均匀划分为多个信道区间，利用Q学习算法更新数据帧中信道区间的Q评估值，并选择Q评估值最大的两个信道区间的任意位置，通过Q学习算法实现了对异步随机接入中用户接入数据包在数据帧中有限个信道区间进行学习，同时避免了用户接入数据包选择数据帧中发送位置的随机性的问题，用户根据实际环境进行自主学习，不断修改其接入策略，降低了接入数据包冲突的概率，大幅提升了系统的吞吐量，进而提高了信道资源利用率。

附图说明

图1是本发明的实现流程图；

图2是本发明中的Q评估值更新的实现流程图；

图3是本发明与现有技术在信噪比为10dB下吞吐量性能曲线对比图；

图4是本发明与现有技术在信噪比为2dB下吞吐量性能曲线对比图；

具体实施方式

下面结合附图和具体实例，对本发明作进一步描述。

参照图1，一种基于Q学习算法的卫星物联网异步随机接入方法，实现步骤为：

步骤1)卫星向用户端发送信道区间信息：

卫星信道为连续的多个数据帧，用户在数据帧内发送接入数据包，当信道区间时间长度和用户数据包时间长度相等时，信道区间数目比较合适。本实例中k为100，M为50；将数据帧划分为均匀信道区间是为了在后续步骤中利用Q学习算法对信道区间进行Q学习，信道区间均匀划分保证每个信道区间时间长度相同。

步骤2)用户端初始化Q学习算法的参数：

用户端创建由50×100个Q评估值组成的Q评估表，并将每个Q评估值初始化为0，将第m个用户在第i个信道区间上的Q评估值表示为Q_m(i)，其中m＝1,2,...,50，i＝1,2,...,100；

步骤3)用户端向卫星发送接入数据包：

步骤3a)用户端的每个用户选择卷积编码、turbo编码和分组编码中的任意一种对接入信息进行编码，得到编码数据，并采用线性交织、块交织和伪随机交织中的任意一种对该编码数据进行交织，得到交织数据，对交织数据进行BPSK或QPSK调制，得到净荷数据，再将该净荷数据与Zadoff-chu序列组合成接入数据包。本实例中采用卷积编码，块交织和QPSK调制。

步骤3b)每个用户通过随机选择的当前时刻卫星信道数据帧中Q评估值最大的两个信道区间的任意位置，分别向卫星发送接入数据包。

步骤4)卫星作为一个转发器，将接收到的所有接入数据包转发至地面网关；

步骤5)地面网关向卫星发送Q学习算法的奖惩因子r：

步骤5a)地面网关对每个接入数据包与该每个接入数据包包含的导频序列进行相关运算，得到100个互相关序列，并检测每个互相关序列中大于预定阈值γ^*的相关值的数目l，将l＝1的互相关序列对应的接入数据包作为未受其他数据包干扰的接入数据包，将其余互相关序列对应的接入数据包作为受其他数据包干扰的接入数据包，l≥1；

步骤5b)地面网关采用迭代干扰消除算法对未受其他接入数据包干扰的接入数据包进行解调，采用分组片段最大信干噪比合并算法对受其他接入数据包干扰的接入数据包进行解调，得到100个包括净荷数据的解调结果；

步骤5c)地面网关通过每个接入数据包的CRC校验码对该每个接入数据包解调结果中的净荷数据进行校验，若校验通过，则对Q学习算法的奖惩因子r赋值1，否则，则对Q学习算法的奖惩因子r赋值-1，并将已赋值的r发送至卫星；

步骤6)卫星通过广播将已赋值的奖惩因子r发送至用户端；

步骤7)用户端的每个用户利用其对应的已赋值的奖惩因子r对该用户发送接入数据包的两个信道区间的Q评估值分别进行更新，更新公式为：

Q_m(i)←Q_m(i)+α(r-Q_m(i))

其中，α表示Q学习算法中的学习速率，设为0.1；

对Q评估值更新的实现流程如图2所示，第一次传输时用户1选择在信道区间1和3传输数据包，用户2和用户3均选择在信道区间2和4传输数据包，用户1的数据包成功传输，所以用户1增大信道区间1和3的Q评估值，而用户2和用户3的数据包由于发生碰撞传输失败，所以用户2和用户3减小信道区间2和4的Q评估值，下次传输时用户2和用户3将重新选择两个Q评估值最大的信道区间传输数据包。

每个用户不断选择数据帧中Q评估值最大的两个信道区间，Q评估值越大说明该用户在这个Q评估值对应的信道区间内发送数据包的成功率越高，用户趋向于选择该用户发送接入数据包成功率最高的两个固定信道区间内位置，降低了数据包的冲突概率，提高了吞吐量。

步骤8)判断每个用户的所有用户包是否全部发送至卫星，若是，卫星物联网异步随机接入完成，否则，每个用户通过两个信道区间更新后的Q评估值替换当前时刻卫星信道数据帧中Q评估值，并重复执行步骤(3)～(7)。

下面通过仿真实验对本发明的效果作进一步说明。

1.仿真条件：

本发明的仿真实验使用Matlab R2014a仿真软件，帧长T_F＝10ms，每个用户接入数据包长度T_S＝0.1ms，信道区间数目k＝100，学习速率α＝0.1。

2.仿真内容及其结果分析：

仿真1，仿真对比本发明与现有技术ECRA方法在信噪比为10dB下吞吐量性能曲线对比图，结果如图3所示，横轴表示负载，单位是比特/符号，纵轴表示吞吐量，单位是比特/符号。由图3可见，负载小于1时，本发明的吞吐量始终与负载保持着线性增长的关系。在现有ECRA方法中，吞吐量与负载的线性区只持续到负载为0.7左右，而本发明大大延长了线性区，将峰值吞吐量提升至1，相比现有ECRA方法的峰值吞吐量0.77提升了30％。

仿真2，仿真对比本发明与现有技术ECRA方法在信噪比为10dB下吞吐量性能曲线对比图，结果如图4所示，横轴表示负载，单位是比特/符号，纵轴表示吞吐量，单位是比特/符号。由图4可见，与信噪比为10dB情况对比，当信噪比降至2dB时，本发明的吞吐量有所降低，负载小于0.6时，本发明的吞吐量始终与负载保持着线性增长的关系，但仍然比ECRA的线性区要高，ECRA吞吐量与负载的线性区只持续到负载为0.4。ECRA的峰值吞吐量为0.47，本发明负载为0.65时，其峰值吞吐量达到0.63，高出ECRA峰值吞吐量32％。这说明本发明吞吐量优于现有的ECRA方法，进而提高了信道资源利用率。

Claims

1.一种基于Q学习算法的卫星物联网异步随机接入方法，其特征在于，包括如下步骤：

(1)卫星向用户端发送信道区间信息：

(2)用户端初始化Q学习算法的参数：

(3)用户端向卫星发送接入数据包：

(3b)用户端的每个用户通过随机选择的当前时刻卫星信道数据帧中Q评估值最大的两个信道区间的任意位置，分别向卫星发送接入数据包；

(4)卫星将接收到的所有接入数据包转发至地面网关；

(5)地面网关向卫星发送Q学习算法的奖惩因子r：

(6)卫星通过广播将已赋值的奖惩因子r发送至用户端；

Q_m(i)←Q_m(i)+α(r-Q_m(i))

其中，α表示Q学习算法中的学习速率，0≤α≤1；

2.根据权利要求1所述的基于Q学习算法的卫星物联网异步随机接入方法，其特征在于，步骤(1)中所述的卫星将自己信道的多个连续数据帧分别划分为k个均匀信道区间，其中的k按如下公式确定：

其中，T_F为数据帧的时间长度，T_s为信道区间的时间长度，且与用户接入数据包的时间长度相等。

3.根据权利要求1所述的基于Q学习算法的卫星物联网异步随机接入方法，其特征在于，步骤(3a)中所述的对接入信息进行编码，采用卷积编码、turbo编码和分组编码中的任意一种；所述的对编码数据进行交织，采用线性交织、块交织和伪随机交织中的任意一种；所述的导频序列，采用Zadoff-chu序列。