CN104168087B

CN104168087B - 无速率编码传输系统中基于q学习的传输帧长主动自适应调整方法

Info

Publication number: CN104168087B
Application number: CN201410389314.5A
Authority: CN
Inventors: 张朝阳; 张婧; 屠坤; 张华滋; 杨潇翔; 付攀玉
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-08-08
Filing date: 2014-08-08
Publication date: 2017-05-24
Anticipated expiration: 2034-08-08
Also published as: CN104168087A

Abstract

本发明公开了一种无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法。即利用ACK反馈信息以估计信道状态，通过一张策略表，决定在当前信道状态下所应采用的策略，从而使发送端能够随信道变化主动自适应地调整传输帧长。在无速率编码传输中，该方法先通过之前传输的情况估计当前信道所处状态，再根据信道状态输出策略，决定此次发送端需要连续发送的编码包数目。发送端将编码包发送出去以后检测信道，将是否收到ACK这一信息反馈给该方法，使其更新对当前信道情况的估计并对下一次发送策略做出不同的调整。该方法充分利用了信道反馈信息，使传输帧长随信道环境的变化而主动自适应地变化，从而充分发挥了无速率码的信道自适应性。

Description

无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法

技术领域

本发明涉及通信领域的信道编码和传输技术，具体涉及一种无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法。

背景技术

通信系统的基本目的在于将信息由信源高效、可靠、安全地传送到信宿。有扰通信信道中的噪声会不可避免地对传输信息产生不同程度的干扰，从而可能降低通信可靠性。所以通信系统设计的核心问题就是在存在随机噪声的信道中如何克服干扰，减小信息传输的差错，同时又保证信息传输的效率。为了克服信道中各种噪声的干扰，人们提出了纠错编码的方法以实现可靠传输。在香农以前，人们都认为增加信道的信息传输速率总要引起错误概率的增加，认为要使错误概率为零，则传输速率只能为零。1948年，香农建立了信息论，为纠错编码的研究指明了方向。香农提出，对每个信道可以根据它的噪声干扰特性计算出它的容量C，所有低于信道容量C的速率R均是可达的，即当R<C时，总存在一系列码，当码长n→∞时，最大误码概率趋于0。这一理论创造性的颠覆了关于人们对于通信的认识，而寻找能够实际应用的逼近香农极限的编码方案也就成了纠错编码理论的最终目标。

自信道编码定理提出以来，如何构造一个逼近信道容量限的实用编码成了众多研究学者竟相研究的课题，并逐渐形成信息论的一个重要分支——信道编码理论。几十多年来，通过众多学者，特别是有关数学和信息论学术界的研究人员五十多年的共同努力，目前已经取得了很多成果。如已经相当成熟的线性分组码，编码器有记忆的卷积码，1993年由Berror，Glavieux和Thitimajashia提出的与香农极限只差几个分贝的Turbo码，之后出现的另一种可以逼近香农极限的低密度校验码LDPC码等。

然而这些信道编码在设计时，通常先根据信道状态信息估计信道参数，根据信道参数设计一个码率固定为R的信道纠错编码(由k个输入符号得到n个输出符号，则码率为R＝k/n)。当估计的信道参数大于实际的信道参数时，虽然可以实现可靠传输，但是造成了传输的浪费，因为此时可以使用更高码率的信道纠错编码；当估计的信道参数小于实际的信道参数时，不能实现可靠传输，此时需要更低码率的信道纠错编码。而且很多时候，信道还是随时变化或者无法提前判断的，这个时候这些传统的编码就显得难以应付。于是出现了码率可变的无速率码。对于无速率码，由原始数据产生的编码数据包是随着编码过程而源源不断产生的，根据译码的需要可多可少，只要保证能成功译码即可。实际传输的码率取决于实际发送的编码包数目，而需要发送的编码包数目则取决于当时的信道状况。

无速率码具有三个重要属性：1)自适应链路速率适配：其最终速率决定于信道特性，不需要在传输前估计信道特性而固定码率，实际传输的码率取决于当时的信道状况。2)无速率属性(流属性)：发送端可以源源不断的输出编码包，形成一个可以无限延续的编码包流，而没有任何速率约束；3)桶积水效应：接收端不断收集编码包，收集到足够多的编码包即能恢复出所有原始数据包。正是由于无速率码的三个重要属性，使其在广播信道，认知，网络传输，反馈代价较大的通信场合等各个方面具有广泛的应用前景。

目前关于无速率码在实际系统中的应用，主要集中在物理层以上的传输。而对于在物理层采用无速率编码传输的应用几乎是一片空白，尤其是在信道不断变化的通信环境下。虽然无速率码具有信道自适应性，但是在传输中也会受到信道资源和传输时延的限制。从接收端的角度来讲，无速率码的译码复杂度随着码长的增加而非线性增长，因此参与译码的不同码长会导致不同的译码延迟。当接收端正处于一轮译码期间，那么新收到的编码符号并不能立即参与译码，而是只有在此轮译码不成功的情况下才能够参与下一轮译码。如果此次译码成功，则多收到的编码符号造成了信道资源的浪费，降低了传输效率。也即尽管无速率码具有信道自适应性，为保证充分利用信道资源，减少不必要的译码延时，在无速率码的传输过程中，需要尽量避免发送冗余的情况。

因此，如果接收端接收到的编码码长过短，由于其译码成功的概率较低，难以避免发送一定数量的新的编码符号，这样就导致上述弊端。然而，如果发送端连续发送的编码码字长度过长，虽然可以保证译码成功的概率，但同样会导致译码延时增大，造成传输机会的浪费以及系统有效吞吐率的降低。故而在无速率码传输中仍需要一种调节机制以主动调整传输码率，从而充分地发挥无速率码的信道自适应性。

解决上述调节机制的问题可以借鉴机器学习的理论。无线通信中有很多问题可以转化为需要学习控制策略以使累积回报最大化的问题，而适当的模型转换会使得机器学习领域的算法在无线通信与传输问题上获得很好的效果。其中，Q学习是机器学习领域的一种增强学习方法，着重解决的是一个能够感知环境的自治机器人，怎样通过学习选择能达到其目标的最优动作。当机器人在其环境中做出每一个动作时，会接收到惩罚或者奖励信息，而机器人的任务就是从这个非直接的，有延迟的回报中学习以便后续的动作产生最大的累计回报。Q学习算法则用于在机器人未知其动作和对应的回报的先验知识的情况下，从延迟的回报中获得最优控制策略。

Q学习算法可以类比于一个策略函数逼近问题，这个函数将状态映射到动作。然而该算法与其他函数逼近问题不同之处在于：1)延迟回报：在增强学习中，训练信息并不是直接可得，而是通过执行一个动作获得一个立即回报值来间接学习的，因此策略学习过程中要进行时间信用分配。2)探索：学习过程经常会面临一个权衡问题，为了保证学习的全面性，需要以一定概率探索未知信息。3)终生学习：与分离的策略函数逼近不同，终生学习可以利用时间和状态上的冗余来减小样本复杂度。

目前的调节码率的算法包括传输码率预先可选的ARQ和减小了随机性的修正后的ARQ，以及线性滤波算法和动态规划算法。其中线性滤波算法的基本原理是在发送端维持一个相对稳定的变量，减少信道的变化对发送端连续发送子帧数目的策略的影响以保证收敛；动态规划算法则是在当前接收端译码性能已知的情况下选择能使估计系统效率最佳的选项。

发明内容

本发明的目的是根据无速率码的自适应链路速率适配属性、流属性和桶积水效应，设计一种具有较高的吞吐率效率的无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法。

本发明的目的是通过以下技术方案来实现的。

无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法为：先根据接收端的反馈信息获取当前信道信息并判断信道所属状态s，再根据策略函数π(s)决定下一次连续发送的子帧数目，假设在发送端发送新的数据包之前估计信道状态为s′，其中发送端的处理步骤如下：

1)发送端取数据包，进行无速率编码产生数量充足的编码包，然后将编码包拆分并分别封装成子帧；

2)根据Q学习策略函数的输出，得到应该连续发送的子帧数目π(s′)，并将π(s′)个子帧连续发送出去；

3)进入CS状态检测信道信号，如果接收到ACK则进入步骤4)；如果检测ACK超时则进入步骤5)；

4)根据记录下来的π(s′)和是否收到ACK反馈，得到更新后的信道状态为s，并对在信道状态s′下连续发送π(s′)个子帧进行Q学习，准备下一次数据包的发送，返回步骤1)；

5)发送该数据包的Δ个冗余子帧，得到更新后的信道状态为s，并对在信道状态s′下连续发送π(s′)个子帧进行Q学习，更新策略值π(s′)←π(s′)+Δ，返回步骤3)；

接收端的处理步骤如下：

6)接收端在接收到数据包的子帧后，对数据包进行无速率译码，若译码成功，则检测到信道空闲时反馈ACK；否则，等待新的子帧加入译码。

无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法中的步骤4)、步骤5)中所述的更新后的信道状态为s包括：利用ACK信号是否超时的信息来更新对信道状态的估计，通过调整相关参数以进一步逼近实际信道情况；

由于无速率码的桶积水效应，接收端在收集到超过译码门限数目的编码包之后即可恢复出原始数据包，设接收端连续接收到的子帧数目为n，在固定的信道状态下，不同大小的n对应着不同大小的成功译码概率，并且这个概率随着n的增大而单调递增。因此，在某个特定信道状态下，接收端的译码性能用一个函数来表示。将子帧数目n看作一个随机变量，那么这个函数就表征为这个随机变量的累积分布函数f(n)，即，对一个特定的n＝N，f(N)表示当接收端收到的子帧数目n≤N时能够译码成功的概率，用加权重的高斯随机变量累积分布函数g(n)来逼近f(n)，其中权重因子由α来表示，则f(n)用g(n)的均值μ和方差σ来完全表征。不同的信道状态对应不同的累积分布函数f(n)，也即不同的信道状态s用不同的μ和σ来区分，就得到一个状态函数利用ACK是否超时的信息对信道进行学习这个问题就可以转化为用加权重的高斯随机变量累积分布函数来近似当前信道状态下接收端的译码性能。

假设有内部变量count，sumq，sumsq以及权重因子α，sample为更新信道状态的算法输入，则更新信道状态的算法运行步骤如下：

1)初始化μ和σ，可赋以任意正数，初始化内部变量，权重因子α＝0.8，count＝1，sumq＝μ，sumsq＝sumq²+μ²；

2)发送端连续发送π(s′)个子帧后，进入CS状态检测ACK。如果检测到ACK信号，则算法输入sample＝π(s′)；如果检测超时，赋值sample＝π(s′)+1；

3)对内部变量进行更新count＝α·count+1

sumq＝α·sumq+sample,sumsq＝α·sumsq+sample²；

4)μ′＝sumq/count，σ′²＝sumsq/count-μ′²

5)则新的信道状态可根据来确定。进行下一次发送时，更新s′←s，返回步骤2)。

无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法中步骤2)、步骤4)、步骤5)中所述的Q学习方法以及策略输出包括：发送端在发送一个新的数据包之前会利用Q学习的策略来决定需要连续发送的子帧数目，以及根据ACK信号是否超时对当前信道状态进行Q学习，在当前信道状态下，以概率p选择在该状态下能够使接收端成功译码的最佳子帧数目，同时也以概率1-p择比较小的子帧数目，以保证更加准确地估计信道状态，以及更有效地利用信道资源。

在状态可区分的前提下，根据Q学习的基本原理，根据不同状态存储一张策略表Q(s,n)，表的行表示状态s，列表示所有可取的子帧数目n，表项的值表示在状态s下连续发送n个子帧所收到的回报，这个回报由两部分组成，一个是发送一定数目子帧以后的即时回报r，一个是经过折算因子γ折算过的累计回报，而算法的目标之一就是最大化累计回报以期整个传输获得最大吞吐量。

假设p为介于(0,1)的值，表示在一次策略选择中选取已知状态下的最佳子帧数目的概率，则Q学习方法以及策略输出的运行步骤如下：

1)初始化Q(s,n)的表项为0，s′为任意状态，由确定，其中μ′,σ′可赋值任意正数在此例中，μ′＝5,σ′＝0.5；

2)根据信道状态s′，找到表Q(s,n)中s′对应的行；

3)生成一个介于(0,1)的随机数random，如果random≤p，进入步骤4)；否则进入步骤5)；

4)将表Q(s,n)中s′对应的行中存有最大值的表项对应的n记为a_max，并作为策略输出值π(s′)给发送端；进入步骤6)；

5)设表Q(s,n)中s′对应的行中存有最大值的表项对应的n为a_max，选取a_max-1作为策略值π(s′)给发送端；

6)发送端连续发送π(s′)个子帧；

7)发送端进入CS状态检测ACK。如果检测到ACK信号，赋值内部变量r＝100,fail_flag＝0；如果检测超时，赋值r＝0，fail_flag＝1；

8)学习当前信道状态，由s＝δ(s′,π(s′))确定信道当前所处的状态s，找到表Q(s,n)中s对应的行，对表项Q(s′,π(s′))进行更新，赋值为r+γmaxQ(s,:)；

9)如果fail_flag＝1，发送端继续发送Δ个冗余，并更新s′←s，

π(s′)←π(s′)+Δ，返回步骤7)；否则s′←s，返回步骤2)。

本发明与现有技术相比具有的有益效果：

本发明针对无速率码的信道自适应性，发明了一种无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法。该调整方法利用Q学习算法的特点对信道情况进行跟踪学习，并为发送端提供适应当前信道的最佳传输码率的信息，主动自适应调整发送端发送的子帧数目，与其他现有技术相比，基于Q学习的传输帧长主动自适应调整方法能够充分利用信道，具有更高的吞吐率效率和更低的系统开销。

说明书附图

图1是无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法在无速率编码传输中的示意图；

图2是用高斯分布随机变量累积分布函数来逼近无速率码传输的接收端译码性能的示意图；

图3是无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法的算法流程图；

图4是无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法与其他传输码率自适应调整方法的性能比较示意图，包括ARQ算法，修正后的ARQ算法，以及线性滤波算法；

图5是无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法与其他算法在平稳信道下收敛情况的比较示意图，包括线性滤波算法和动态规划算法；

图6是时变信道下无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法与线性滤波算法的性能比较示意图；

图7是时变信道下无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法与动态规划算法的性能比较示意图；

具体实施方式

以下结合附图进一步说明本发明。

无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法为：如图1所示，发送端先根据接收端的反馈信息获取当前信道信息并判断信道所属状态s，再根据策略函数π(s)决定下一次连续发送的子帧数目，假设在发送端发送新的数据包之前估计信道状态为s′，其中发送端的处理步骤如下：

接收端的处理步骤如下：

由于无速率码的桶积水效应，接收端在收集到超过译码门限数目的编码包之后即可恢复出原始数据包，设接收端连续接收到的子帧数目为n，在固定的信道状态下，不同大小的n对应着不同大小的成功译码概率，并且这个概率随着n的增大而单调递增。因此，在某个特定信道状态下，接收端的译码性能用一个函数来表示。将子帧数目n看作一个随机变量，那么这个函数就表征为这个随机变量的累积分布函数f(n)，即，对一个特定的n＝N，f(N)表示当接收端收到的子帧数目n≤N时能够译码成功的概率，用加权重的高斯随机变量累积分布函数g(n)来逼近f(n)，其中权重因子由α来表示，则f(n)用g(n)的均值μ和方差σ来完全表征。如图2所示，用参数μ＝8.3，σ＝0.5的高斯随机变量的累积分布函数g(n)逼近f(n)，能够充分表述接收端的译码性能。不同的信道状态对应不同的累积分布函数f(n)，也即不同的信道状态s用不同的μ和σ来区分，就得到一个状态函数利用ACK是否超时的信息对信道进行学习这个问题就可以转化为用加权重的高斯随机变量累积分布函数来近似当前信道状态下接收端的译码性能。

3)对内部变量进行更新count＝α·count+1

sumq＝α·sumq+sample,sumsq＝α·sumsq+sample²；

4)μ′＝sumq/count，σ′²＝sumsq/count-μ′²

假设p为介于(0,1)的值，表示在一次策略选择中选取已知状态下的最佳子帧数目的概率，在此例中取p＝0.7，则Q学习方法以及策略输出的运行步骤如下：

2)根据信道状态s′，找到表Q(s,n)中s′对应的行；

6)发送端连续发送π(s′)个子帧；

9)如果fail_flag＝1，发送端继续发送Δ个冗余，并更新s′←s，

π(s′)←π(s′)+Δ，返回步骤7)；否则s′←s，返回步骤2)。

将以上算法以流程图表示见图3。

图4是无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法与其他传输码率自适应调整方法的性能比较示意图，包括ARQ算法，修正后的ARQ算法，以及线性滤波算法。可以看出基于Q学习的传输帧长主动自适应调整方法优于其他方法，将系统开销降低到10％以内，从而将系统性能提高到90％以上，尤其是在时变信道下，性能尤佳。

图5是无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法与其他方法在平稳信道下收敛情况的比较示意图，包括线性滤波算法和动态规划算法，可见在平稳信道下三种算法都能收敛，产生较低的系统开销，相较线性滤波算法，基于Q学习的传输帧长主动自适应算法和动态规划算法具有更快的收敛速度。

图6是时变信道下无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法与线性滤波算法的性能比较示意图，图7是时变信道下该方法与动态规划算法的性能比较示意图，可以得出在时变信道下该方法与其他方法相较具有较优的收敛速度和较低的系统开销，从而充分利用了信道，具有极高的吞吐率效率。

Claims

1.一种无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法，其特征在于，先根据接收端的反馈信息获取当前信道信息并判断信道所属状态s，再根据策略函数π(s)决定下一次连续发送的子帧数目，假设在发送端发送新的数据包之前估计信道状态为s′，其中发送端的处理步骤如下：

接收端的处理步骤如下：

6)接收端在接收到数据包的子帧后，对数据包进行无速率译码，若译码成功，则检测到信道空闲时反馈ACK；否则，等待新的子帧加入译码；

所述的Q学习的方法如下：

在状态可区分的前提下，根据Q学习的基本原理，根据不同状态存储一张策略表Q(s,n)，表的行表示状态s，列表示所有可取的子帧数目n，表项的值表示在状态s下连续发送n个子帧所收到的回报，这个回报由两部分组成，一个是发送一定数目子帧以后的即时回报r，一个是经过折算因子γ折算过的累计回报，而算法的目标之一就是最大化累计回报以期整个传输获得最大吞吐量；

1)初始化Q(s,n)的表项为0，s′为任意状态，由确定，其中μ′,σ′可赋值任意正数；

2)根据信道状态s′，找到表Q(s,n)中s′对应的行；

6)发送端连续发送π(s′)个子帧；

7)发送端进入CS状态检测ACK；如果检测到ACK信号，赋值内部变量r＝100,fail_flag＝0；如果检测超时，赋值r＝0，fail_flag＝1；

9)如果fail_flag＝1，发送端继续发送Δ个冗余，并更新s′←s，

π(s′)←π(s′)+Δ，返回步骤7)；否则s′←s，返回步骤2)。