CN112152638A

CN112152638A - 一种基于Q学习算法的Spinal码编译码交织策略及装置

Info

Publication number: CN112152638A
Application number: CN202011066122.2A
Authority: CN
Inventors: 敖珺; 李娜; 马春波
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2020-12-29
Anticipated expiration: 2040-09-30
Also published as: CN112152638B

Abstract

本发明公开了一种基于Q学习算法的Spinal码编译码交织策略及装置，所述编译码策略结构的发射端包括通过Q学习策略确定发送的编码符号数目W，然后由Spinal码编码端生成W个编码符号，接着3GPP标准交织器对W个编码符号进行交织，最后经过调制后发送到传输信道；接收端包括解调，3GPP标准交织器解交织得到W个编码符号，Spinal码译码端对W个编码符号逐一译码，判断译码是否成功，如果译码成功，则进入下一信息比特序列的传输，如果译码不成功，则根据Q学习算法继续发送编码符号，直到达到最大传输次数。本发明适用于自由空间光通信，太赫兹通信，毫米波通信，微波通信，光（电磁）声融合通信等无线电磁波通信系统的应用场景，用于保障通信的稳定性和可靠性。

Description

一种基于Q学习算法的Spinal码编译码交织策略及装置

技术领域

本发明涉及自由空间光通信，太赫兹通信，毫米波通信，微波通信，光(电磁)声融合通信等无线电磁波通信系统中的前向差错控制技术领域，具体涉及一种基于Q学习算法的Spinal码编译码交织策略及装置。

背景技术

在大气，水下，空水跨介质等复杂的无线通信环境中，传输的调制信号会因为受到湍流、散射、吸收、干扰等因素的影响而衰减，使得信息波束在传输过程中受到干扰，严重影响通信质量。因此需要采取有效的差错控制技术来保障无线电磁波通信系统的稳定性和可靠性。

数字喷泉码是一种无编码速率约束码，由于其前向递增冗余特性使其无需反馈便可以自动适应链路动态变化，使其成为恶劣信道条件下充分利用信道容量的前向差错控制技术。无速率码的发送端通过编码源源不断地产生编码符号并将其发送，接收端对收到的编码符号进行译码，直到译码成功。理论上只要译码器收到足够多的编码符号即可译码成功。由于这种链路自适应信道状态的属性，无速率码的传输速率随信道状况而自适应地变化。

Spinal码是一种灵活的、小码长的无速率编码方式。Spinal码的编译码结构简单，在编码过程中引入Hash函数对输入信息比特序列进行随机编码，并通过随机数生成器(Random Numeral Generator，RNG)源源不断地产生编码符号；在译码过程中，通过复现编码端的编码方式来构造译码树，使用最大似然译码算法选择译码算法开销最小的比特序列作为正确的译码结果，译码复杂度低。与Raptor码等其他限制最大编码符号数量的无速率码相比，它可以生成无限数量的编码符号，具有真正的无速率特性。基于以上特点，Spinal码更适合作为无线电磁波通信中的差错控制编码技术。

虽然Spinal码可以源源不断地产生编码符号并逐一发送，但在实际应用中，为了减少译码等待时间，通常将一定数量的编码符号组成一个数据包发送。接收端继而对数据包中的编码符号进行逐一译码，直到译码成功；否则发送端将继续发送包含若干个编码符号的数据包，如此往复，直到译码成功。在不同的信道条件下达到一定的误码率标准所需的编码符号数量是不同的，如何确定每次应发送的编码符号数量，成为当前充分发挥Spinal码的优势的重要问题。

现有的数字喷泉码，包括Spinal码都是基于信道差错满足统计独立特性设计。而在复杂介质环境下的无线电磁波通信中，由于受湍流、海浪、水、云、雾等环境因素的影响，导致了长串突发差错的产生。这种情况下仅依靠差错控制编码技术无法纠正长串的突发错误，从而影响信息的正确传输。

发明内容

为了无线通信的稳定性和可靠性，本发明提供一种基于Q学习算法的Spinal码编译码交织策略及装置。

本发明解决其技术问题所采用的技术方案如下：

一种基于Q学习算法的Spinal码编译码交织策略，包括如下步骤：

步骤S1，初始化Spinal码的编码参数和译码参数；初始化高斯学习算法参数；初始化交织器参数；初始化Q表等Q学习算法参数；

步骤S2，设置编码符号初始值W＝N₁，W指编码符号数量，N₁表示设置的初始值；

步骤S3，发送端编码生成W个编码符号，编码的过程为：首先，将一段长度为n bits的信息比特序列M划分为

组，即

n表示信息比特序列的长度，k表示每组的长度，即每组长度为k bits；然后，将随机数种子s₀和M₀经过hash函数，根据式(1)依次类推计算：

s_i＝Hash(s_i-1,M_i-1) (1)

得到每组信息比特对应的值s_i，即：

其中i为每个值的标号，

每个值s_i的大小为v bits，最后，将

个s_i分别作为随机数生成器(Random NumeralGenerator，简称RNG)的输入，得到

个x_i，x_i表示每一个随机数生成器的输出，随机数生成器每一批次的编码输出

组成一个Spinal码的编码符号，对于每一信息比特序列，发送端可通过随机数生成器源源不断地生成编码符号；

步骤S4，确定交织深度K，

c表示每一个随机数生成器输出的长度，将W个编码符号作为输入信息序列逐行写入到大小为R×C的矩阵中，具体步骤为：

步骤S4-1，根据式(2)确定矩阵行数R：

其行号依次为0，1…，R-1；

步骤S4-2，确定矩阵列数C和行内交织质数p：

若481≤K≤530，则p＝53，C＝p；否则使p满足K≤R×(p+1)，根据式(3)确定C：

其列号依次为0，1…，C-1；

步骤S4-3，将输入信息序列按行写入R×C的矩阵中，若R×C>K，则在剩余位置上填入0或者1；

步骤S5，对R×C矩阵进行行内交织，具体步骤如下：

步骤S5-1，根据得到的行内交织质数p，查表1获得v，v表示与p相关的原始根，表1来自于3GPPTS45.003标准：

表1，p和v对应列表

p	v	p	v	p	v	p	v	p	v
										7	3	47	5	101	2	157	5	223	3
11	2	53	2	103	5	163	2	227	2
										13	2	59	2	107	2	167	5	229	6
17	3	61	2	109	6	173	2	233	3
										19	2	67	2	113	3	179	2	239	7
23	5	71	7	127	3	181	2	241	7
										29	2	73	5	131	2	191	19	251	6
31	3	79	3	137	3	193	5	257	3
										37	2	83	2	139	2	197	2
41	6	89	3	149	2	199	3
										43	3	97	5	151	6	211	2

步骤S5-2，获取行内交织所需的基本序列：<f(j)>_{j∈(0,1,…,p-2)}，其中，f(j)表示交织的基本序列，f(j)＝(v×f(j-1))mod p，j表示交织矩阵中列号的索引，j＝1,2,…(p-2)，且f(0)＝1；

步骤S5-3，令q₀＝1，选取符合下述条件的最小质数序列〈q_i>_{i∈(0,1,…,R-1)}(i＝1,2,…R-1),g·c·d(q_i,p-1)＝1，其中g.c.d表示最大公约数；q_i＞6；q_i＞q_(i-1)，q_i表示最小质数的整数，i表示p的索引，i∈(0,1,…,R-1)；

步骤S5-4，将<q_i>_{i∈(0,1,…,R-1)}按r_T(i)＝q_i(i＝0,1,…,R-1)重新排序得到<r_i>_{i∈(0,1,…,R-1)}，其中，T(i)为表2所示的置换模型，r_T(i)表示重新排序前的序列，r_i表示重新排序后的序列，i表示每一行的索引，i∈(0,1,…,R-1)，如表2所示；

表2，行间交织置换模型

步骤S5-5，对第i行(i＝1,2,…,R-1)做行内交织：

如果C＝p，那么U_i(j)＝f((j×r_i)mod(p-1)),j＝0,1,…,p-2，且U_i(p-1)＝0；

如果C＝p+1，那么U_i(j)＝f((j×r_i)mod(p-1)),j＝0,1,…,p-2

且U_i(p-1)＝0,U_i(p)＝p；

如果C＝p-1，那么U_i(j)＝f((j×r_i)mod(p-1)),j＝0,1,…,p-2，其中U_i(j)是进行行内交织的序列，它表示被改变顺序的第i行中第j个信息所对应的原始位置；

步骤S6，将得到的U_i(j)按照T(i)进行行间交织，其中T(i)为表2所示的行间交织置换模型，具体参数根据交织深度K和矩阵行数R选取，得到交织后的新矩阵；

步骤S7，通过裁剪新矩阵并按列读取得到输出信息序列，把新矩阵中的数据按列从左至右读出，然后删去交织前在矩阵尾部填充的虚拟位，即可得到交织结果；

步骤S8，将得到的交织后的输出信息序列作为一个数据包发送；

步骤S9，接收端对收到的数据包解交织，解交织过程为交织的逆过程，得到W个Spinal码编码符号；

步骤S10，对W个编码符号进行逐一译码，直到译码成功，或W个编码符号均译码失败；译码过程为：使用与编码端相同的s₀、Hash函数以及随机数生成器在译码端重建译码树，以s₀为根节点，按顺序考虑

的可能取值，然后从根节点遍历至叶子节点，从译码树的第d级开始，d表示译码时开始裁剪译码树的级数，每级译码树只保留译码开销最小的B个节点，B表示译码时每次删减保留的节点数，接着，从B·2^k条路径中选出译码开销最小的路径，即为最终译码结果；最后，对译码结果进行CRC(Cyclic Redundancy Check，循环冗余校验码，简称CRC)校验，若CRC校验通过，则译码成功；否则译码失败；

步骤S11，判断当前译码状况，若对其中一个编码符号译码成功，表示对这一段信息比特序列译码成功，本轮译码结束；若对W个编码符号均译码失败，R_etranstime次数累加1次，判断当前是否达到最大允许传输次数R_{etranstimemax}；记本轮参与译码的编码符号数目为M_orepass，当前信息段的传输次数为R_etranstime；

步骤S12，计算回报函数Reward，在发送端，根据上一步译码的编码符号数目M_orepass和传输次数R_etranstime计算回报函数Reward，

其中，γ(0≤γ≤1)为权衡因子；M_orepassmax为允许发送的最大累计编码符号数目；R_{etranstimemax}表示最大允许的传输次数；

步骤S13，通过高斯学习确定方差σ²，均值μ，偏度σ³，发送端根据接收端的反馈，利用高斯学习算法计算当前信道的译码累计分布函数，得到信道新状态参数：方差σ²，均值μ，偏度σ³，计算方法为：

Q_sample＝Q_α·Q_sample+1，Q_sumq＝Q_α·Q_sumq+Q_sample，Q_sumsq＝Q_α·Q_sumsq+Q_sample ²，Q_sumtq＝Q_α·Q_sumtq+Q_sample ³，

Q_α表示高斯学习因子，其取值越大，之前时刻的译码累积分布函数对当前时刻的译码累计分布函数的估计的影响就越大；Q_sample、Q_sumq、Q_sumsq和Q_sumtq为高斯学习算法参数，Q_sample表示与高斯学习因子相乘得到的折扣后的样值，Q_sumq表示与高斯学习因子相乘得到的折扣后的累加和、Q_sumsq表示与高斯学习因子相乘得到的折扣后的平方和、Q_sumtq表示与高斯学习因子相乘得到的折扣后的立方和，在步骤S1中进行初始化；

步骤S14，在发送端，根据信道状态参数σ²，均值μ确定当前状态State(μ,σ²)，找到步骤S1初始化Q学习参数时建立的Q表中对应的行Q(State,:)，找出这一行中最大的元素Q_max(State,A)；得到下一步执行的最优动作A；

步骤S15，在发送端，根据最优动作A和偏度σ³确定当前需要编码产生的编码符号N，σ³的正负及大小用来衡量译码累计分布函数的不对称性，偏度为正代表分布为右偏态，即右侧的尾部更长，分布的主体集中在左侧，此时应减少编码符号的数量；偏度为负代表分布为左偏态，即左侧的尾部更长，分布的主体集中在右侧，此时应增加编码符号的数量，具体计算方法为：

步骤S16，设置探索因子β_Q的值，产生一个0到1的随机数Q_rand，若β_Q＞Q_rand，则spinal码编码端生成的编码符号数量为W＝N；若β_Q≤Q_rand，则实际发送的编码符号数量为W＝N-δ，δ表示探索值；

步骤S17，根据Reward和Q_max(State,A)更新Q表，更新公式为：Q_new(State,A)＝Reward+η·Q_max(State,A)，η为Q学习因子，Q_new(State,A)表示Q表的更新值；

步骤S18，编码端根据步骤S11的译码情况，若译码成功，则按照步骤S16得到的W，回到步骤S3，进入下一信息比特序列的传输；若译码失败，判断是否达到最大传输次数：若是，丢弃这一信息比特序列，按照步骤S16得到的W，回到步骤S3，进入下一信息比特序列的传输；若否，按照步骤S16得到的W，回到步骤S3，继续这一信息比特序列的传输。

实现上述方法的基于Q学习算法和交织技术的Spinal码编译码装置，包括

Q学习装置，用于通过Q学习算法确定当前应编码产生的Spinal码编码符号数目W；

Spinal码编码器，与Q学习装置相连，用于将信息比特序列经过Spinal码编码器生成W个Spinal码编码符号；

3GPP标准交织器，与Spinal码编码器连接，用于将从Spinal码编码器生成的W个编码符号进行交织，然后组帧并发送到激光信道；

3GPP标准解交织器，用于将从自由空间光信道中接收的W个Spinal码编码符号进行解帧，然后解交织，得到W个Spinal码编码符号；

Spinal码译码器，与3GPP标准解交织器连接，用于将解交织后的W个Spinal码编码符号进行逐一译码，直到译码成功或W个均译码失败。

通过本装置可实现上述方法。

为了尽量避免传输不必要的编码符号，尽量减少传输的次数，从而达到控制开销、减少译码等待时间，提高信息传输效率的目的，Spinal码需要一种策略协调收发双方，该策略结合具体信道状况，首先在发送端估计译码端成功译码所需的编码符号数量，然后将这些编码符号组成数据包发送。在发送端采用强化学习中的Q学习算法估计译码端成功译码所需的编码符号数量，可以在不同的信道状态下通过学习的方式动态确定当前应发送的编码符号数量，并随着学习经验的累加不断提高系统的整体性能。

交织技术可以将长串的突发错误分散开来，将其转变为容易得到纠正的随机差错，以达到对抗突发错误的目的，从而提高译码成功概率。

本发明中，在发送端采用3GPP标准交织器对Q学习策略确定的数据包中的编码符号进行比特交织；在接收端相应地进行解交织，将本来不可译的成串误码转换成可以纠正的随机错误，然后再逐一对编码符号进行译码，提高译码成功概率，最终提高系统的整体性能。

本发明涉及但不仅限于自由空间光通信，太赫兹通信，毫米波通信，微波通信，光(电磁)声融合通信等无线电磁波通信系统中的前向差错控制技术领域，针对信号强度由于受湍流、海浪、水、云、雾等环境因素的影响，使光束在传输过程中受到干扰，严重影响通信质量的情况，用于保障如卫星对地、卫星对卫星等长距离自由空间光通信的稳定性和可靠性。

本发明的优点或有益效果：

1、本发明在发送端采用Q学习算法对Spinal码发送的编码符号数量进行动态调整，在不同的信道状态下通过学习的方式动态确定当前应发送的编码符号数量，并随着学习经验的累加不断提高系统的整体性能。与目前已有的策略(如固定每次发送的编码符号数目)相比，通过在发送端使用该Q学习策略可根据信道条件动态确定当前应发送的编码符号数量，具备了很好的灵活性。同时避免传输不必要的编码符号并减少传输的次数，从而控制开销、减少译码等待时间，提高信息传输效率；

2、本发明在发送端利用3GPP标准交织器对即将发送的数据包中的编码符号进行比特交织；在接收端相应地进行解交织，将长距离自由光通信中出现的本来不可译的成串误码转换成可以纠正的随机错误，提高Spinal码的译码成功概率；最终提高系统的整体性能；

3、本发明针对信道状态波动较大时，Spinal码成功译码所需编码符号数目的动态范围过大导致的高斯学习译码累计分布函数不对称的问题，引入偏度σ³，通过σ³确定当前Spinal码译码所需的编码符号数量的分布。σ³的正负及大小用来衡量译码累计分布函数的不对称性，偏度为正代表分布为右偏态，分布的主体集中在左侧，此时应减少编码符号的数量；偏度为负代表分布为左偏态，分布的主体集中在右侧，此时应增加编码符号的数量，据此进行调整，从而提高译码性能。

附图说明

图1为实施例中基于Q学习算法的Spinal码编译码交织策略结构图；

图2为实施例中基于Q学习算法的Spinal码编译码交织策略实现流程图；

图3为实施例中基于Q学习算法的Spinal码编译码装置的方框示意图。

具体实施方式

下面结合实施例和附图对本发明内容作进一步的阐述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

下面根据附图1、图2、图3来描述本发明提出的一种应用交织技术和Q学习算法的Spinal码编译码策略及装置的基本过程。

如图1所示，基于Q学习算法的Spinal码编译码交织策略结构，包括发射端和接收端，

所述发射端包括信息比特序列通过Q学习策略确定发送的编码符号数目W，然后由Spinal码编码端生成W个编码符号，接着3GPP标准交织器对W个编码符号进行交织，最后经过调制后发送至传输信道；

所述接收端包括解调，3GPP标准交织器解交织得到W个编码符号，Spinal码译码端对W个编码符号逐一译码，判断译码是否成功，如果译码成功，则进入下一信息比特序列的传输，如果译码不成功，则根据Q学习算法继续发送编码符号，直到达到最大传输次数。

如图2所示，一种基于Q学习算法的Spinal码编译码交织策略，包括如下步骤：

步骤S1，初始化Spinal码的编码参数和译码参数，设置spinal码编码端信息比特序列的分段长度k＝8bits，随机数生成器输出的每一批次长度c＝16bits，译码时每次删减保留的节点数B＝3；最大允许传输次数R_{etranstimemax}＝3，每次最大允许的编码符号数量M_orepassmax＝500；初始化高斯学习算法参数；设置Q_sample＝1，Q_sumq＝5，Q_sumsq＝Q_sumq+10²，Q_sumtq＝Q_sumsq+10³，取高斯学习因子Q_α＝0.8，初始化值也可设置为其它值；Q_sample表示与高斯学习因子相乘得到的折扣后的样值，Q_sumq表示与高斯学习因子相乘得到的折扣后的累加和、Q_sumsq表示与高斯学习因子相乘得到的折扣后的平方和、Q_sumtq表示与高斯学习因子相乘得到的折扣后的立方和；

初始化交织器参数；

初始化Q学习算法参数，初始化一个4行4列的Q表，其中行代表信道状态，通过高斯学习得到的σ²和μ来划分，分别为State₀,State₁,State₂,State₃，当σ²∈(0,100],μ∈(0,10]，为State₀；当σ²∈(100,200],μ∈(10,20]，为State₁；当σ²∈(200,300],μ∈(20,30]，为State₂；当σ²∈(300,+∞),μ∈(30,+∞)，为State₃；列代表动作A₀,A₁,A₂,A₃，分别取1、2、3、4，代表计算编码通道数量时的系数因子，每一行的Q值依次初始化为1、2、3、4，Q学习算法中探索因子β_Q＝0.8，Q学习因子η＝0.4，权衡因子γ＝0.1；探索值δ＝10；

步骤S2，设置编码符号初始值W＝N₁＝20，W指编码符号数量，N₁表示设置的初始值；

步骤S3，发送端编码生成W个编码符号，编码的基本过程为：首先，将一段长度为n＝64bits的信息比特序列M划分为

组，即M₀,M₁,...,M₇，每组长度为k＝8bits；然后，将随机数种子s₀和M₀经过Hash函数，根据式(1)依次类推计算：

s_i＝Hash(s_i-1,M_i-1) (1)

s₁＝Hash(s₀,M₀)

s₂＝Hash(s₁,M₁)

s₃＝Hash(s₂,M₂)

s₈＝Hash(s₇,M₇)

得到每组信息比特对应的值s_i，即；s₁,s₂...s₈，其中i为每个值的标号，1≤i≤8，每个值s_i的大小为16bits，最后，将8个值s_i分别作为随机数生成器(RNG)的输入，得到8个x_i，每一批次的编码输出x_i:{x₁,...,x₈}组成一个Spinal码的编码符号，对于每一信息比特序列，编码端可通过随机数生成器(RNG)源源不断地生成编码符号；

步骤S4，确定交织深度K，

c表示每一个随机数生成器输出的长度，将W个编码符号作为输入信息序列逐行写入到大小为R×C的矩阵中，将20个编码符号作为输入信息序列逐行写入到大小为R×C的矩阵中，具体步骤为：

步骤S4-1，根据式(2)确定矩阵的行数R：

得R＝20,其行号依次为0，1…，19；

步骤S4-2，确定矩阵列数C和行内交织质数p：

得p＝127，C＝128，其列号依次为0，1…，127；

步骤S4-3，将输入信息序列按行写入R×C＝20×128的矩阵中，本例中R×C＝20×128＝2560＝K，因此无需再补0；

步骤S5，对R×C＝20×128矩阵进行行内交织，具体步骤如下：

步骤S5-1，根据得到的p＝127，查表1获得v＝3，表1来自于3GPP TS 45.003标准：

表1，p和v对应列表

步骤S5-2，获取行内交织所需的基本序列：<f(j)>_{j∈(0,1,…,125}}，其中，f(j)表示交织的基本序列，f(j)＝(v×f(j-1))mod127,j＝1,2,…125，且s(0)＝1，j表示交织矩阵中列号的索引；

步骤S5-3，令q₀＝1，选取符合下述条件的最小质数序列<q_i>_{i∈(0,1,…,19}}(i＝1,2,…19),g·c·d(q_i,126)＝1，其中g.c.d表示最大公约数；q_i＞6；q_i＞q_(i-1)，q_i表示最小质数的整数，i表示p的索引，i∈(0,1,…,R-1)；

步骤S5-4，将<q_i>_{i∈{0,1,…,19}}按r_T(i)＝q_i(i＝0,1,…,19)重新排序得到<r_i>_{i∈{0,1,…,19}}，其中T(i)为表2所示的重新排序置换模型，r_T(i)表示置换前的序列，r_i表示置换后的序列，i表示每一行的索引，i∈(0,1,…,R-1)，如表2所示；由K＝2560，则T(i)＝<19,9,14,4,0,2,5,7,12,18,10,8,13,17,3,1,16,6,15,11>

表2，行间交织置换模型

步骤S5-5，对第i行(i＝0,2,…,19)做行内交织：

由C＝p+1＝127+1＝128,U_i(j)＝f((j×r_i)mod(126)),j＝0,1,…,125，

且U_i(126)＝0,U_i(127)＝127；其中U_i(j)是进行行内交织得序列，它表示被改变顺序的第i行中第j个信息所对应的原始位置；

步骤S6，将得到的U_i(j)按照T(i)进行行间交织，其中T(i)为行间交织模型，具体参数根据交织的深度K和行数R选取，由K＝2560，R＝20，选择T(i)＝＜19,9,14,4,0,2,5,7,12,18,10,8,13,17,3,1,16,6,15,11＞，得到交织后的新矩阵；

步骤S7，通过裁剪新矩阵并按列读取得到输出信息序列，本例中R×C＝20×128＝2560＝K，因此无需再裁剪；

步骤S9，接收端对收到的数据包解交织，解交织过程为交织的逆过程，得到20个Spinal码编码符号；

步骤S10，对20个编码符号进行逐一译码，直到译码成功，或20个编码符号均译码失败，译码过程为：使用与编码端相同的s₀、Hash函数以及随机数生成器在译码端重建译码树，以s₀为根节点，按顺序考虑M₀,M₁,...,M₇的可能取值，然后从根节点遍历至叶子节点，从译码树的第d级开始，d表示译码时开始裁剪译码树的级数，每级译码树只保留译码开销最小的3个节点，接着，从B·2^k＝3·2⁸条路径中选出译码开销最小的路径，即为最终译码结果；最后，对译码结果进行CRC校验，若CRC校验通过，则译码成功；否则译码失败；

步骤S11，判断当前译码状况，若对其中一个编码符号译码成功，表示对这一段信息比特序列译码成功，本轮译码结束；若对20个编码符号均译码失败，R_etranstime次数累加1次，判断当前是否达到最大允许传输次数R_{etranstimemax}＝3次；记本轮参与译码的编码符号数目为M_orepass(1≤M_orepass≤20)，当前信息段的传输次数为R_etranstime(1≤R_etranstime≤3)，假设本轮参与译码的编码符号数目M_orepass＝20，传输次数为R_etranstime＝1，即第一次译码失败；

步骤S12，计算回报函数Reward，在发送端，根据上一步译码的编码符号数目M_orepass＝20和传输次数R_etranstime＝1计算回报函数Reward，

其中，γ(0≤γ≤1)为权衡因子，这里取γ＝0.8，表示更倾向于节约编码符号数目；

Q_sample＝Q_α×Q_sample+1＝0.8×1+1＝1.8，

Q_sumq＝Q_α×Q_sumq+Q_sample＝0.8×5+1.8＝5.8，

Q_sumsq＝Q_α×Q_sumsq+Q_sample ²＝0.8×125+1.8²＝103.24，

Q_sumtq＝Q_α×Q_sumtq+Q_sample ³＝0.8×1025+1.8³＝825.8，

Q_α表示高斯学习因子，其取值越大，之前时刻的译码累积分布函数对当前时刻的译码累计分布函数的估计的影响就越大；Q_sample、Q_sumq、Q_sumsq和Q_sumtq为高斯学习算法参数，Q_sample表示与高斯学习因子相乘得到的折扣后的样值，Q_sumq表示与高斯学习因子相乘得到的折扣后的累加和、Q_sumsq表示与高斯学习因子相乘得到的折扣后的平方和、Q_sumtq表示与高斯学习因子相乘得到的折扣后的立方和；

步骤S14，在发送端，根据信道状态参数σ²，均值μ确定当前状态State(3.2,47.1)，找到步骤S1中Q表中对应的行Q(State,:)，这里为第1行，找出这一行中最大的元素Q_max(State,A)＝Q(State₀,A₃)＝4，根据初始化结果，得A＝4，得到下一步执行的最优动作A＝4，若计算的当前状态不在Q表划分范围内，则按State＝State₀计算；

步骤S15，在发送端，根据最优动作A＝4和偏度σ³＝99.1确定当前应编码产生的编码通道符号N，因为σ³＞0，代表分布为右偏态，即右侧的尾部更长，分布的主体集中在左侧，应减少发送的编码符号数目，具体计算方法为：

步骤S16，设置探索因子β_Q＝0.8，产生一个0到1的随机数Q_rand，若β_Q＞Q_rand，则Spinal码编码端生成的编码符号数量为W＝N＝135；若β_Q≤Q_rand，则实际发送的编码符号数量为W＝N-δ＝125，δ表示探索值，取δ＝10，设产生的Q_rand＝0.4，则W＝135；

步骤S17，根据Reward和Q(State₀,A₃)更新Q表，更新公式为：Q_new(State₀,A₃)＝Reward+η·Q_max(State₀,A₃)＝0.1+0.4×4＝1.7，η＝0.4为Q学习因子，此时，Q表的Q(State₀,A₃)更新为1.7，其余位置Q值不变；

步骤S18，编码端根据步骤S11的译码情况，当前译码失败且未达到最大传输次数，则按照步骤S16得到的W＝135，回到步骤S3，Spinal码编码生成W＝135个编码符号，继续这一信息比特序列的传输。

如图3所示，实现上述方法的基于Q学习算法的Spinal码编译码交织策略装置，包括：

3GPP标准交织器，与Spinal码编码器连接，用于将从Spinal码编码器生成的W个编码符号进行交织，然后调制并发送到自由空间光信道；

3GPP标准解交织器，用于将从自由空间光信道中接收的的W个Spinal码编码符号进行解调，然后解交织，得到W个Spinal码编码符号；

Spinal码译码器，与3GPP标准解交织器连接，用于将解交织后的W个Spinal码编码符号进行逐一译码，直到译码成功或W个编码符号均译码失败。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于Q学习算法的Spinal码编译码交织策略，包括如下步骤：

步骤S1，初始化Spinal码的编码参数和译码参数；初始化高斯学习算法参数；初始化交织器参数；初始化Q学习算法参数；

组，即

n表示信息比特序列的长度，k表示划分后每组的长度，即每组长度为k bits；然后，将随机数种子s₀和M₀经过Hash函数，根据式(1)依次类推计算：

s_i＝Hash(s_i-1,M_i-1) (1)

得到每组信息比特对应的值s_i，即：

其中i为每个值的标号，

每个值s_i的大小为v bits，最后，将

个值s_i分别作为随机数生成器(RNG)的输入，得到

步骤S4，确定交织深度K，

c表示每一个随机数生成器输出的长度，将W个编码符号作为输入信息序列逐行写入到大小为R×C的矩阵中；

步骤S5，对R×C矩阵进行行内交织，得到行内交织的序列U_i(j)，它表示被改变顺序的第i行中第j个信息所对应的原始位置；

步骤S6，将得到的U_i(j)按照T(i)进行行间交织，其中T(i)为行间交织模型，具体参数根据交织的深度K和行数R选取，得到交织后的新矩阵；

步骤S7，通过裁剪新矩阵并按列读取得到输出信息序列；

步骤S10，对W个编码符号进行逐一译码，直到译码成功，或W个编码符号均译码失败，译码过程为：使用与编码端相同的s₀、Hash函数以及随机数生成器在译码端重建译码树，以s₀为根节点，按顺序考虑

的可能取值，然后从根节点遍历至叶子节点，从译码树的第d级开始，d表示译码时开始裁剪译码树的级数，每级译码树只保留译码开销最小的B个节点，B表示译码时每次删减保留的节点数；接着，从B·2^k条路径中选出译码开销最小的路径，即为最终译码结果；最后，对译码结果进行CRC校验，若CRC校验通过，则译码成功；否则译码失败；

步骤S15，在发送端，根据最优动作A和偏度σ³确定当前应编码产生的编码符号N，σ³的正负及大小用来衡量译码累计分布函数的不对称性，偏度为正代表分布为右偏态，即右侧的尾部更长，分布的主体集中在左侧，此时应减少编码符号的数量；偏度为负代表分布为左偏态，即左侧的尾部更长，分布的主体集中在右侧，此时应增加编码符号的数量，具体计算方法为：

2.根据权利要求1所述的基于Q学习算法的Spinal码编译码交织策略，其特征在于，步骤S4中，将W个编码符号作为输入信息序列逐行写入到大小为R×C的矩阵中，包括如下步骤：

步骤S4-1，根据式(2)确定矩阵行数R：

其行号依次为0，1…，R-1；

步骤S4-2，确定矩阵列数C和行内交织质数p：

若481≤K≤530，则p＝53,C＝p；否则使p满足K≤R×(p+1)，根据式(3)确定C：

其列号依次为0，1…，C-1；

步骤S4-3，将输入信息序列按行写入R×C的矩阵中，若R×C>K，则在剩余位置上填入0或者1。

3.根据权利要求1所述的基于Q学习算法的Spinal码编译码交织策略，其特征在于，步骤S5中对R×C矩阵进行行内交织，包括如下步骤：

表1，p和v对应列表

步骤S5-2，获取行内交织所需的基本序列：<f(j)>_{j∈(0,1,…,p-2)}，

其中，f(j)表示交织的基本序列，f(j)＝(v×f(j-1))modp，j表示交织矩阵中列号的索引，j＝1,2,…(p-2)，且f(0)＝1；

步骤S5-3，令q₀＝1，选取符合下述条件的最小质数序列<q_i>_{i∈(0,1,…,R-1)}(i＝1,2,…R-1),g·c·d(q_i,p-1)＝1，其中g.c.d表示最大公约数；q_i＞6；q_i＞q_(i-1)，q_i表示最小质数的整数，i表示p的索引，i∈(0,1,…,R-1)；

步骤S5-4，将<q_i>_{i∈(0,1,…,R-1)}按r_T(i)＝q_i(i＝0,1,…,R-1)重新排序得到<r_i>_{i∈(0,1,…,R-1)}，其中，T(i)为重新排序的置换模型，r_T(i)表示置换前的序列，r_i表示置换后的序列，i表示每一行的索引，i∈(0,1,…,R-1)，如表2所示；

表2，行间交织置换模型

步骤S5-5，对第i行(i＝1,2,…,R-1)做行内交织：

如果C＝p+1，那么U_i(j)＝f((j×r_i)mod(p-1)),j＝0,1,…,p-2，

且U_i(p-1)＝0,U_i(p)＝p；

如果C＝p-1，那么U_i(j)＝f((j×r_i)mod(p-1)),j＝0,1,…,p-2，其中U_i(j)是进行行内交织的序列，它表示被改变顺序的第i行中第j个信息所对应的原始位置。

4.一种基于Q学习算法的Spinal码编译码交织装置，包括