CN104168087B - 无速率编码传输系统中基于q学习的传输帧长主动自适应调整方法 - Google Patents

无速率编码传输系统中基于q学习的传输帧长主动自适应调整方法 Download PDF

Info

Publication number
CN104168087B
CN104168087B CN201410389314.5A CN201410389314A CN104168087B CN 104168087 B CN104168087 B CN 104168087B CN 201410389314 A CN201410389314 A CN 201410389314A CN 104168087 B CN104168087 B CN 104168087B
Authority
CN
China
Prior art keywords
channel
subframes
learning
state
channel state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410389314.5A
Other languages
English (en)
Other versions
CN104168087A (zh
Inventor
张朝阳
张婧
屠坤
张华滋
杨潇翔
付攀玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201410389314.5A priority Critical patent/CN104168087B/zh
Publication of CN104168087A publication Critical patent/CN104168087A/zh
Application granted granted Critical
Publication of CN104168087B publication Critical patent/CN104168087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法。即利用ACK反馈信息以估计信道状态,通过一张策略表,决定在当前信道状态下所应采用的策略,从而使发送端能够随信道变化主动自适应地调整传输帧长。在无速率编码传输中,该方法先通过之前传输的情况估计当前信道所处状态,再根据信道状态输出策略,决定此次发送端需要连续发送的编码包数目。发送端将编码包发送出去以后检测信道,将是否收到ACK这一信息反馈给该方法,使其更新对当前信道情况的估计并对下一次发送策略做出不同的调整。该方法充分利用了信道反馈信息,使传输帧长随信道环境的变化而主动自适应地变化,从而充分发挥了无速率码的信道自适应性。

Description

无速率编码传输系统中基于Q学习的传输帧长主动自适应调 整方法
技术领域
本发明涉及通信领域的信道编码和传输技术,具体涉及一种无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法。
背景技术
通信系统的基本目的在于将信息由信源高效、可靠、安全地传送到信宿。有扰通信信道中的噪声会不可避免地对传输信息产生不同程度的干扰,从而可能降低通信可靠性。所以通信系统设计的核心问题就是在存在随机噪声的信道中如何克服干扰,减小信息传输的差错,同时又保证信息传输的效率。为了克服信道中各种噪声的干扰,人们提出了纠错编码的方法以实现可靠传输。在香农以前,人们都认为增加信道的信息传输速率总要引起错误概率的增加,认为要使错误概率为零,则传输速率只能为零。1948年,香农建立了信息论,为纠错编码的研究指明了方向。香农提出,对每个信道可以根据它的噪声干扰特性计算出它的容量C,所有低于信道容量C的速率R均是可达的,即当R<C时,总存在一系列码,当码长n→∞时,最大误码概率趋于0。这一理论创造性的颠覆了关于人们对于通信的认识,而寻找能够实际应用的逼近香农极限的编码方案也就成了纠错编码理论的最终目标。
自信道编码定理提出以来,如何构造一个逼近信道容量限的实用编码成了众多研究学者竟相研究的课题,并逐渐形成信息论的一个重要分支——信道编码理论。几十多年来,通过众多学者,特别是有关数学和信息论学术界的研究人员五十多年的共同努力,目前已经取得了很多成果。如已经相当成熟的线性分组码,编码器有记忆的卷积码,1993年由Berror,Glavieux和Thitimajashia提出的与香农极限只差几个分贝的Turbo码,之后出现的另一种可以逼近香农极限的低密度校验码LDPC码等。
然而这些信道编码在设计时,通常先根据信道状态信息估计信道参数,根据信道参数设计一个码率固定为R的信道纠错编码(由k个输入符号得到n个输出符号,则码率为R=k/n)。当估计的信道参数大于实际的信道参数时,虽然可以实现可靠传输,但是造成了传输的浪费,因为此时可以使用更高码率的信道纠错编码;当估计的信道参数小于实际的信道参数时,不能实现可靠传输,此时需要更低码率的信道纠错编码。而且很多时候,信道还是随时变化或者无法提前判断的,这个时候这些传统的编码就显得难以应付。于是出现了码率可变的无速率码。对于无速率码,由原始数据产生的编码数据包是随着编码过程而源源不断产生的,根据译码的需要可多可少,只要保证能成功译码即可。实际传输的码率取决于实际发送的编码包数目,而需要发送的编码包数目则取决于当时的信道状况。
无速率码具有三个重要属性:1)自适应链路速率适配:其最终速率决定于信道特性,不需要在传输前估计信道特性而固定码率,实际传输的码率取决于当时的信道状况。2)无速率属性(流属性):发送端可以源源不断的输出编码包,形成一个可以无限延续的编码包流,而没有任何速率约束;3)桶积水效应:接收端不断收集编码包,收集到足够多的编码包即能恢复出所有原始数据包。正是由于无速率码的三个重要属性,使其在广播信道,认知,网络传输,反馈代价较大的通信场合等各个方面具有广泛的应用前景。
目前关于无速率码在实际系统中的应用,主要集中在物理层以上的传输。而对于在物理层采用无速率编码传输的应用几乎是一片空白,尤其是在信道不断变化的通信环境下。虽然无速率码具有信道自适应性,但是在传输中也会受到信道资源和传输时延的限制。从接收端的角度来讲,无速率码的译码复杂度随着码长的增加而非线性增长,因此参与译码的不同码长会导致不同的译码延迟。当接收端正处于一轮译码期间,那么新收到的编码符号并不能立即参与译码,而是只有在此轮译码不成功的情况下才能够参与下一轮译码。如果此次译码成功,则多收到的编码符号造成了信道资源的浪费,降低了传输效率。也即尽管无速率码具有信道自适应性,为保证充分利用信道资源,减少不必要的译码延时,在无速率码的传输过程中,需要尽量避免发送冗余的情况。
因此,如果接收端接收到的编码码长过短,由于其译码成功的概率较低,难以避免发送一定数量的新的编码符号,这样就导致上述弊端。然而,如果发送端连续发送的编码码字长度过长,虽然可以保证译码成功的概率,但同样会导致译码延时增大,造成传输机会的浪费以及系统有效吞吐率的降低。故而在无速率码传输中仍需要一种调节机制以主动调整传输码率,从而充分地发挥无速率码的信道自适应性。
解决上述调节机制的问题可以借鉴机器学习的理论。无线通信中有很多问题可以转化为需要学习控制策略以使累积回报最大化的问题,而适当的模型转换会使得机器学习领域的算法在无线通信与传输问题上获得很好的效果。其中,Q学习是机器学习领域的一种增强学习方法,着重解决的是一个能够感知环境的自治机器人,怎样通过学习选择能达到其目标的最优动作。当机器人在其环境中做出每一个动作时,会接收到惩罚或者奖励信息,而机器人的任务就是从这个非直接的,有延迟的回报中学习以便后续的动作产生最大的累计回报。Q学习算法则用于在机器人未知其动作和对应的回报的先验知识的情况下,从延迟的回报中获得最优控制策略。
Q学习算法可以类比于一个策略函数逼近问题,这个函数将状态映射到动作。然而该算法与其他函数逼近问题不同之处在于:1)延迟回报:在增强学习中,训练信息并不是直接可得,而是通过执行一个动作获得一个立即回报值来间接学习的,因此策略学习过程中要进行时间信用分配。2)探索:学习过程经常会面临一个权衡问题,为了保证学习的全面性,需要以一定概率探索未知信息。3)终生学习:与分离的策略函数逼近不同,终生学习可以利用时间和状态上的冗余来减小样本复杂度。
目前的调节码率的算法包括传输码率预先可选的ARQ和减小了随机性的修正后的ARQ,以及线性滤波算法和动态规划算法。其中线性滤波算法的基本原理是在发送端维持一个相对稳定的变量,减少信道的变化对发送端连续发送子帧数目的策略的影响以保证收敛;动态规划算法则是在当前接收端译码性能已知的情况下选择能使估计系统效率最佳的选项。
发明内容
本发明的目的是根据无速率码的自适应链路速率适配属性、流属性和桶积水效应,设计一种具有较高的吞吐率效率的无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法。
本发明的目的是通过以下技术方案来实现的。
无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法为:先根据接收端的反馈信息获取当前信道信息并判断信道所属状态s,再根据策略函数π(s)决定下一次连续发送的子帧数目,假设在发送端发送新的数据包之前估计信道状态为s′,其中发送端的处理步骤如下:
1)发送端取数据包,进行无速率编码产生数量充足的编码包,然后将编码包拆分并分别封装成子帧;
2)根据Q学习策略函数的输出,得到应该连续发送的子帧数目π(s′),并将π(s′)个子帧连续发送出去;
3)进入CS状态检测信道信号,如果接收到ACK则进入步骤4);如果检测ACK超时则进入步骤5);
4)根据记录下来的π(s′)和是否收到ACK反馈,得到更新后的信道状态为s,并对在信道状态s′下连续发送π(s′)个子帧进行Q学习,准备下一次数据包的发送,返回步骤1);
5)发送该数据包的Δ个冗余子帧,得到更新后的信道状态为s,并对在信道状态s′下连续发送π(s′)个子帧进行Q学习,更新策略值π(s′)←π(s′)+Δ,返回步骤3);
接收端的处理步骤如下:
6)接收端在接收到数据包的子帧后,对数据包进行无速率译码,若译码成功,则检测到信道空闲时反馈ACK;否则,等待新的子帧加入译码。
无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法中的步骤4)、步骤5)中所述的更新后的信道状态为s包括:利用ACK信号是否超时的信息来更新对信道状态的估计,通过调整相关参数以进一步逼近实际信道情况;
由于无速率码的桶积水效应,接收端在收集到超过译码门限数目的编码包之后即可恢复出原始数据包,设接收端连续接收到的子帧数目为n,在固定的信道状态下,不同大小的n对应着不同大小的成功译码概率,并且这个概率随着n的增大而单调递增。因此,在某个特定信道状态下,接收端的译码性能用一个函数来表示。将子帧数目n看作一个随机变量,那么这个函数就表征为这个随机变量的累积分布函数f(n),即,对一个特定的n=N,f(N)表示当接收端收到的子帧数目n≤N时能够译码成功的概率,用加权重的高斯随机变量累积分布函数g(n)来逼近f(n),其中权重因子由α来表示,则f(n)用g(n)的均值μ和方差σ来完全表征。不同的信道状态对应不同的累积分布函数f(n),也即不同的信道状态s用不同的μ和σ来区分,就得到一个状态函数利用ACK是否超时的信息对信道进行学习这个问题就可以转化为用加权重的高斯随机变量累积分布函数来近似当前信道状态下接收端的译码性能。
假设有内部变量count,sumq,sumsq以及权重因子α,sample为更新信道状态的算法输入,则更新信道状态的算法运行步骤如下:
1)初始化μ和σ,可赋以任意正数,初始化内部变量,权重因子α=0.8,count=1,sumq=μ,sumsq=sumq22
2)发送端连续发送π(s′)个子帧后,进入CS状态检测ACK。如果检测到ACK信号,则算法输入sample=π(s′);如果检测超时,赋值sample=π(s′)+1;
3)对内部变量进行更新count=α·count+1
sumq=α·sumq+sample,sumsq=α·sumsq+sample2
4)μ′=sumq/count,σ′2=sumsq/count-μ′2
5)则新的信道状态可根据来确定。进行下一次发送时,更新s′←s,返回步骤2)。
无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法中步骤2)、步骤4)、步骤5)中所述的Q学习方法以及策略输出包括:发送端在发送一个新的数据包之前会利用Q学习的策略来决定需要连续发送的子帧数目,以及根据ACK信号是否超时对当前信道状态进行Q学习,在当前信道状态下,以概率p选择在该状态下能够使接收端成功译码的最佳子帧数目,同时也以概率1-p择比较小的子帧数目,以保证更加准确地估计信道状态,以及更有效地利用信道资源。
在状态可区分的前提下,根据Q学习的基本原理,根据不同状态存储一张策略表Q(s,n),表的行表示状态s,列表示所有可取的子帧数目n,表项的值表示在状态s下连续发送n个子帧所收到的回报,这个回报由两部分组成,一个是发送一定数目子帧以后的即时回报r,一个是经过折算因子γ折算过的累计回报,而算法的目标之一就是最大化累计回报以期整个传输获得最大吞吐量。
假设p为介于(0,1)的值,表示在一次策略选择中选取已知状态下的最佳子帧数目的概率,则Q学习方法以及策略输出的运行步骤如下:
1)初始化Q(s,n)的表项为0,s′为任意状态,由确定,其中μ′,σ′可赋值任意正数在此例中,μ′=5,σ′=0.5;
2)根据信道状态s′,找到表Q(s,n)中s′对应的行;
3)生成一个介于(0,1)的随机数random,如果random≤p,进入步骤4);否则进入步骤5);
4)将表Q(s,n)中s′对应的行中存有最大值的表项对应的n记为amax,并作为策略输出值π(s′)给发送端;进入步骤6);
5)设表Q(s,n)中s′对应的行中存有最大值的表项对应的n为amax,选取amax-1作为策略值π(s′)给发送端;
6)发送端连续发送π(s′)个子帧;
7)发送端进入CS状态检测ACK。如果检测到ACK信号,赋值内部变量r=100,fail_flag=0;如果检测超时,赋值r=0,fail_flag=1;
8)学习当前信道状态,由s=δ(s′,π(s′))确定信道当前所处的状态s,找到表Q(s,n)中s对应的行,对表项Q(s′,π(s′))进行更新,赋值为r+γmaxQ(s,:);
9)如果fail_flag=1,发送端继续发送Δ个冗余,并更新s′←s,
π(s′)←π(s′)+Δ,返回步骤7);否则s′←s,返回步骤2)。
本发明与现有技术相比具有的有益效果:
本发明针对无速率码的信道自适应性,发明了一种无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法。该调整方法利用Q学习算法的特点对信道情况进行跟踪学习,并为发送端提供适应当前信道的最佳传输码率的信息,主动自适应调整发送端发送的子帧数目,与其他现有技术相比,基于Q学习的传输帧长主动自适应调整方法能够充分利用信道,具有更高的吞吐率效率和更低的系统开销。
说明书附图
图1是无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法在无速率编码传输中的示意图;
图2是用高斯分布随机变量累积分布函数来逼近无速率码传输的接收端译码性能的示意图;
图3是无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法的算法流程图;
图4是无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法与其他传输码率自适应调整方法的性能比较示意图,包括ARQ算法,修正后的ARQ算法,以及线性滤波算法;
图5是无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法与其他算法在平稳信道下收敛情况的比较示意图,包括线性滤波算法和动态规划算法;
图6是时变信道下无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法与线性滤波算法的性能比较示意图;
图7是时变信道下无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法与动态规划算法的性能比较示意图;
具体实施方式
以下结合附图进一步说明本发明。
无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法为:如图1所示,发送端先根据接收端的反馈信息获取当前信道信息并判断信道所属状态s,再根据策略函数π(s)决定下一次连续发送的子帧数目,假设在发送端发送新的数据包之前估计信道状态为s′,其中发送端的处理步骤如下:
1)发送端取数据包,进行无速率编码产生数量充足的编码包,然后将编码包拆分并分别封装成子帧;
2)根据Q学习策略函数的输出,得到应该连续发送的子帧数目π(s′),并将π(s′)个子帧连续发送出去;
3)进入CS状态检测信道信号,如果接收到ACK则进入步骤4);如果检测ACK超时则进入步骤5);
4)根据记录下来的π(s′)和是否收到ACK反馈,得到更新后的信道状态为s,并对在信道状态s′下连续发送π(s′)个子帧进行Q学习,准备下一次数据包的发送,返回步骤1);
5)发送该数据包的Δ个冗余子帧,得到更新后的信道状态为s,并对在信道状态s′下连续发送π(s′)个子帧进行Q学习,更新策略值π(s′)←π(s′)+Δ,返回步骤3);
接收端的处理步骤如下:
6)接收端在接收到数据包的子帧后,对数据包进行无速率译码,若译码成功,则检测到信道空闲时反馈ACK;否则,等待新的子帧加入译码。
无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法中的步骤4)、步骤5)中所述的更新后的信道状态为s包括:利用ACK信号是否超时的信息来更新对信道状态的估计,通过调整相关参数以进一步逼近实际信道情况;
由于无速率码的桶积水效应,接收端在收集到超过译码门限数目的编码包之后即可恢复出原始数据包,设接收端连续接收到的子帧数目为n,在固定的信道状态下,不同大小的n对应着不同大小的成功译码概率,并且这个概率随着n的增大而单调递增。因此,在某个特定信道状态下,接收端的译码性能用一个函数来表示。将子帧数目n看作一个随机变量,那么这个函数就表征为这个随机变量的累积分布函数f(n),即,对一个特定的n=N,f(N)表示当接收端收到的子帧数目n≤N时能够译码成功的概率,用加权重的高斯随机变量累积分布函数g(n)来逼近f(n),其中权重因子由α来表示,则f(n)用g(n)的均值μ和方差σ来完全表征。如图2所示,用参数μ=8.3,σ=0.5的高斯随机变量的累积分布函数g(n)逼近f(n),能够充分表述接收端的译码性能。不同的信道状态对应不同的累积分布函数f(n),也即不同的信道状态s用不同的μ和σ来区分,就得到一个状态函数利用ACK是否超时的信息对信道进行学习这个问题就可以转化为用加权重的高斯随机变量累积分布函数来近似当前信道状态下接收端的译码性能。
假设有内部变量count,sumq,sumsq以及权重因子α,sample为更新信道状态的算法输入,则更新信道状态的算法运行步骤如下:
1)初始化μ和σ,可赋以任意正数,初始化内部变量,权重因子α=0.8,count=1,sumq=μ,sumsq=sumq22
2)发送端连续发送π(s′)个子帧后,进入CS状态检测ACK。如果检测到ACK信号,则算法输入sample=π(s′);如果检测超时,赋值sample=π(s′)+1;
3)对内部变量进行更新count=α·count+1
sumq=α·sumq+sample,sumsq=α·sumsq+sample2
4)μ′=sumq/count,σ′2=sumsq/count-μ′2
5)则新的信道状态可根据来确定。进行下一次发送时,更新s′←s,返回步骤2)。
无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法中步骤2)、步骤4)、步骤5)中所述的Q学习方法以及策略输出包括:发送端在发送一个新的数据包之前会利用Q学习的策略来决定需要连续发送的子帧数目,以及根据ACK信号是否超时对当前信道状态进行Q学习,在当前信道状态下,以概率p选择在该状态下能够使接收端成功译码的最佳子帧数目,同时也以概率1-p择比较小的子帧数目,以保证更加准确地估计信道状态,以及更有效地利用信道资源。
在状态可区分的前提下,根据Q学习的基本原理,根据不同状态存储一张策略表Q(s,n),表的行表示状态s,列表示所有可取的子帧数目n,表项的值表示在状态s下连续发送n个子帧所收到的回报,这个回报由两部分组成,一个是发送一定数目子帧以后的即时回报r,一个是经过折算因子γ折算过的累计回报,而算法的目标之一就是最大化累计回报以期整个传输获得最大吞吐量。
假设p为介于(0,1)的值,表示在一次策略选择中选取已知状态下的最佳子帧数目的概率,在此例中取p=0.7,则Q学习方法以及策略输出的运行步骤如下:
1)初始化Q(s,n)的表项为0,s′为任意状态,由确定,其中μ′,σ′可赋值任意正数在此例中,μ′=5,σ′=0.5;
2)根据信道状态s′,找到表Q(s,n)中s′对应的行;
3)生成一个介于(0,1)的随机数random,如果random≤p,进入步骤4);否则进入步骤5);
4)将表Q(s,n)中s′对应的行中存有最大值的表项对应的n记为amax,并作为策略输出值π(s′)给发送端;进入步骤6);
5)设表Q(s,n)中s′对应的行中存有最大值的表项对应的n为amax,选取amax-1作为策略值π(s′)给发送端;
6)发送端连续发送π(s′)个子帧;
7)发送端进入CS状态检测ACK。如果检测到ACK信号,赋值内部变量r=100,fail_flag=0;如果检测超时,赋值r=0,fail_flag=1;
8)学习当前信道状态,由s=δ(s′,π(s′))确定信道当前所处的状态s,找到表Q(s,n)中s对应的行,对表项Q(s′,π(s′))进行更新,赋值为r+γmaxQ(s,:);
9)如果fail_flag=1,发送端继续发送Δ个冗余,并更新s′←s,
π(s′)←π(s′)+Δ,返回步骤7);否则s′←s,返回步骤2)。
将以上算法以流程图表示见图3。
图4是无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法与其他传输码率自适应调整方法的性能比较示意图,包括ARQ算法,修正后的ARQ算法,以及线性滤波算法。可以看出基于Q学习的传输帧长主动自适应调整方法优于其他方法,将系统开销降低到10%以内,从而将系统性能提高到90%以上,尤其是在时变信道下,性能尤佳。
图5是无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法与其他方法在平稳信道下收敛情况的比较示意图,包括线性滤波算法和动态规划算法,可见在平稳信道下三种算法都能收敛,产生较低的系统开销,相较线性滤波算法,基于Q学习的传输帧长主动自适应算法和动态规划算法具有更快的收敛速度。
图6是时变信道下无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法与线性滤波算法的性能比较示意图,图7是时变信道下该方法与动态规划算法的性能比较示意图,可以得出在时变信道下该方法与其他方法相较具有较优的收敛速度和较低的系统开销,从而充分利用了信道,具有极高的吞吐率效率。

Claims (1)

1.一种无速率编码传输系统中基于Q学习的传输帧长主动自适应调整方法,其特征在于,先根据接收端的反馈信息获取当前信道信息并判断信道所属状态s,再根据策略函数π(s)决定下一次连续发送的子帧数目,假设在发送端发送新的数据包之前估计信道状态为s′,其中发送端的处理步骤如下:
1)发送端取数据包,进行无速率编码产生数量充足的编码包,然后将编码包拆分并分别封装成子帧;
2)根据Q学习策略函数的输出,得到应该连续发送的子帧数目π(s′),并将π(s′)个子帧连续发送出去;
3)进入CS状态检测信道信号,如果接收到ACK则进入步骤4);如果检测ACK超时则进入步骤5);
4)根据记录下来的π(s′)和是否收到ACK反馈,得到更新后的信道状态为s,并对在信道状态s′下连续发送π(s′)个子帧进行Q学习,准备下一次数据包的发送,返回步骤1);
5)发送该数据包的Δ个冗余子帧,得到更新后的信道状态为s,并对在信道状态s′下连续发送π(s′)个子帧进行Q学习,更新策略值π(s′)←π(s′)+Δ,返回步骤3);
接收端的处理步骤如下:
6)接收端在接收到数据包的子帧后,对数据包进行无速率译码,若译码成功,则检测到信道空闲时反馈ACK;否则,等待新的子帧加入译码;
所述的Q学习的方法如下:
在状态可区分的前提下,根据Q学习的基本原理,根据不同状态存储一张策略表Q(s,n),表的行表示状态s,列表示所有可取的子帧数目n,表项的值表示在状态s下连续发送n个子帧所收到的回报,这个回报由两部分组成,一个是发送一定数目子帧以后的即时回报r,一个是经过折算因子γ折算过的累计回报,而算法的目标之一就是最大化累计回报以期整个传输获得最大吞吐量;
假设p为介于(0,1)的值,表示在一次策略选择中选取已知状态下的最佳子帧数目的概率,则Q学习方法以及策略输出的运行步骤如下:
1)初始化Q(s,n)的表项为0,s′为任意状态,由确定,其中μ′,σ′可赋值任意正数;
2)根据信道状态s′,找到表Q(s,n)中s′对应的行;
3)生成一个介于(0,1)的随机数random,如果random≤p,进入步骤4);否则进入步骤5);
4)将表Q(s,n)中s′对应的行中存有最大值的表项对应的n记为amax,并作为策略输出值π(s′)给发送端;进入步骤6);
5)设表Q(s,n)中s′对应的行中存有最大值的表项对应的n为amax,选取amax-1作为策略值π(s′)给发送端;
6)发送端连续发送π(s′)个子帧;
7)发送端进入CS状态检测ACK;如果检测到ACK信号,赋值内部变量r=100,fail_flag=0;如果检测超时,赋值r=0,fail_flag=1;
8)学习当前信道状态,由s=δ(s′,π(s′))确定信道当前所处的状态s,找到表Q(s,n)中s对应的行,对表项Q(s′,π(s′))进行更新,赋值为r+γmaxQ(s,:);
9)如果fail_flag=1,发送端继续发送Δ个冗余,并更新s′←s,
π(s′)←π(s′)+Δ,返回步骤7);否则s′←s,返回步骤2)。
CN201410389314.5A 2014-08-08 2014-08-08 无速率编码传输系统中基于q学习的传输帧长主动自适应调整方法 Active CN104168087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410389314.5A CN104168087B (zh) 2014-08-08 2014-08-08 无速率编码传输系统中基于q学习的传输帧长主动自适应调整方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410389314.5A CN104168087B (zh) 2014-08-08 2014-08-08 无速率编码传输系统中基于q学习的传输帧长主动自适应调整方法

Publications (2)

Publication Number Publication Date
CN104168087A CN104168087A (zh) 2014-11-26
CN104168087B true CN104168087B (zh) 2017-05-24

Family

ID=51911743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410389314.5A Active CN104168087B (zh) 2014-08-08 2014-08-08 无速率编码传输系统中基于q学习的传输帧长主动自适应调整方法

Country Status (1)

Country Link
CN (1) CN104168087B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108476084B (zh) * 2016-12-02 2020-05-08 华为技术有限公司 Q学习中调整状态空间边界的方法和装置
CN109039531B (zh) * 2018-04-20 2021-06-01 电子科技大学 一种基于机器学习调整lt码编码长度的方法
CN110752901B (zh) * 2018-07-24 2022-05-03 中兴通讯股份有限公司 一种无线帧中符号的搬迁方法及装置
CN117097438B (zh) * 2023-08-23 2024-12-20 华能伊敏煤电有限责任公司 一种基于无速率码的无帧结构随机接入方法
CN118659816A (zh) * 2024-06-28 2024-09-17 北京邮电大学 一种星地激光链路自适应帧长的方法、系统和存储介质
CN118890125B (zh) * 2024-09-25 2025-01-28 浙江由由科技有限公司 一种自学习智能秤的数据传输提升方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286192A (zh) * 2008-06-05 2008-10-15 复旦大学 适用于动态环境的时隙aloha防碰撞算法
CN102647773A (zh) * 2012-05-02 2012-08-22 哈尔滨工业大学 基于q学习的异构网络接入控制优化选择方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286192A (zh) * 2008-06-05 2008-10-15 复旦大学 适用于动态环境的时隙aloha防碰撞算法
CN102647773A (zh) * 2012-05-02 2012-08-22 哈尔滨工业大学 基于q学习的异构网络接入控制优化选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
No symbol left behind: a link-layer protocol for rateless codes;Peter Anthony Iannucci,Jonathan Perry,Hari Balakrishnan;《Proceedings of the 18th annual international conference on Mobile computing and networking》;20120826;17-28 *
Q-learning;Christopher JCH Watkins,Peter Dayan;《Machine learning》;19920501;第8卷(第3期);279-292 *

Also Published As

Publication number Publication date
CN104168087A (zh) 2014-11-26

Similar Documents

Publication Publication Date Title
CN104168087B (zh) 无速率编码传输系统中基于q学习的传输帧长主动自适应调整方法
KR101751497B1 (ko) 행렬 네트워크 코딩을 사용하는 장치 및 방법
CN106803759A (zh) 基于高斯构造的Polar码有效自适应译码方法
JP2020109972A5 (zh)
EP1518327A4 (en) METHOD FOR ESTABLISHING A RAPID H-ARQ RECEPTION ACCOUNT BASED ON THE USE OF AN INTERRUPT RULE FOR TURBO DECODING
CN103944674B (zh) 适合物理层无速率编码传输的数据拆分封装方法
CN103297197B (zh) 一种面向移动容迟网络的分布式中继纠删编码方法
CN107911195A (zh) 一种基于cva的咬尾卷积码信道译码方法
CN107911841B (zh) 一种传感网时延优化的可靠传输方法
CN103944689B (zh) 一种适合物理层无速率编码传输的流水线传输方法
CN109889308A (zh) 物联网中联合极化编译码的混合自动重传请求方法
CN113595692B (zh) 一种基于动态阈值门限优化设计的amc-harq方法
US9793944B2 (en) System and apparatus for decoding tree-based messages
Angelopoulos et al. Harnessing partial packets in wireless networks: throughput and energy benefits
CN106160943B (zh) 基于无率码和高阶qam自适应解调的速率自适应方法
CN117956586A (zh) 一种基于强化学习的时延敏感网络发射功率自适应分配方法
CN103259629A (zh) 一种短波速率自适应通信方法
CN109417432A (zh) 数据编解码
CN103944675B (zh) 适合物理层无速率编码传输的自适应流水线传输方法
CN101807400B (zh) 一种基于擦除编码的自适应语音多播传输方法
CN116094656A (zh) 基于极化码增量冗余混合自动重传请求的信息年龄优化法
CN102684843B (zh) Type-II型HARQ重传系统中最优生成多项式的获取方法及应用该方法的重传系统
CN115733583B (zh) 一种基于信息年龄的电力感知信息自适应短码分配方法
CN110212924B (zh) 一种lt码编解码方法及系统
Shirazinia et al. Anytime source transmission using UEP-LT channel coding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant