CN101674482B - 部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法 - Google Patents

部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法 Download PDF

Info

Publication number
CN101674482B
CN101674482B CN 200910196540 CN200910196540A CN101674482B CN 101674482 B CN101674482 B CN 101674482B CN 200910196540 CN200910196540 CN 200910196540 CN 200910196540 A CN200910196540 A CN 200910196540A CN 101674482 B CN101674482 B CN 101674482B
Authority
CN
China
Prior art keywords
packet
state
centerdot
dispatching
observe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200910196540
Other languages
English (en)
Other versions
CN101674482A (zh
Inventor
邹君妮
范凤军
彭兵
汪敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN 200910196540 priority Critical patent/CN101674482B/zh
Publication of CN101674482A publication Critical patent/CN101674482A/zh
Application granted granted Critical
Publication of CN101674482B publication Critical patent/CN101674482B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法,该方法针对无线广播下的环境进行简化,在用户状态不确定或部分可观测条件下,对可伸缩视频流进行调度,采用部分可观测马尔可夫决策过程建立数据包调度优化模型,它包括状态集合、行动集合、状态转移函数、报酬函数、观察集合、观察概率,给出调度过程,其步骤:(1)假设一个无线广播传输环境模型;(2)对可伸缩视频流的每一帧数据分为层,每层打包为一个数据包,每一帧的数据包集合记为,设立数据包调度优化模型;(3)对可伸缩视频流优化调度。该方法建立可伸缩视频流的数据包调度优化模型,能提高视频流的平均PSNR值,以实现用户整体视频接收质量最佳化。

Description

部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法
技术领域
本发明涉及的是一种部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法。
背景技术
伴随视频编码与通信技术的飞速发展,在无线网络上传输视频流已经成为多媒体应用的一个非常重要的发展方向。基于H.264/AVC的可伸缩扩展标准(Scalable Video Coding,SVC)于2007年正式形成,它实现了单一码流同时在时间、空间和质量多维尺度上的可伸缩性。在无线网络中传输可伸缩视频流,异构用户根据信道实时状况和接收能力得到同一内容在不同尺度组合下的视频图像,可以进一步提高传输可靠性和接收质量。
数据包调度是可伸缩视频流传输中的一个关键问题,调度策略的优异将直接影响用户整体接收质量以及网络资源的合理利用。传统的调度算法包括排序优先型(sorted-priority)和帧结构型(framed-based)两大类都是基于公平性的调度原则,要求节点必须公平地为每个视频流提供服务,链路带宽必须在不同的视频流之间进行公平分配。然而,可伸缩视频流不同层次码流之间存在严格的隶属依赖关系,公平性调度方法无法实现视频流的最优化质量接收。Dong Nguyen等人探讨了在无线单播和广播环境下,AP(无线接入点)进行通讯等数据交换操作,采用马尔可夫决策过程(Markov decision process,MDP)进行数据包优化调度,随后提出了基于随机网络编码的调度算法。两种算法均假设用户的状态信息是完全可知的,在现实世界中难以实现。S.H.Kang提出了一种基于数据包优先级的调度算法,仅仅考虑了数据包的不同重要性,而忽略了调度性能的整体优化问题。对于系统状态信息部分可知的情况,Dihong Tian等人提出了点对点通信模型下的数据包调度策略。对于多描述编码视频流,Ali C.Begen等人提出了多点对单点的数据包调度算法。
发明内容
本发明的目的是针对现有技术存在的不足,提供一种部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法,该方法能提高视频流的平均PSNR值,进而以实现用户整体视频接收质量的最佳化。
为达到上述目的,本发明的构思是:上述部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法,针对无线广播下的环境进行假设简化,在用户状态不确定或部分可观测的条件下,对可伸缩视频流进行调度,采用部分可观测马尔可夫决策过程建立数据包调度优化模型,该模型包括状态集合、行动集合、状态转移概率、报酬函数、观察集合、观察概率,给出具体调度过程,其步骤如下:
(1)、假设一个无线广播传输环境模型,其具体如下:
(1-1)、AP需要将视频流发送给M个接收者r1,r2,…,rM
(1-2)、AP需要在N个时隙内将L个包的集合L={l1,l2,…,lL}发送给接收者;
(1-3)、每一帧数据(L个包)的最大发送时间均为N个时隙。N个时隙结束之后,AP转向下一帧数据的发送;
(1-4)、AP转发1个数据包的时间是一个时隙;
(1-5)、假设无线信道的丢包率服从参数为pi的伯努利分布,
(2)、分别对可伸缩视频流的每一帧数据分为L层,每层打包为一个数据包,每一帧的数据包集合记为L={l1,l2,…,lL},设立数据包调度优化模型,它包括如下:
(2-1)、状态集合
在任一给定的时间节点,假设接收者rm收到了若干数据包,它是L的一个子集。该子集可以用L位矢量表示,即(b1 m,b2 m,…,bL m)T,其中b∈{0,1}。bi=1表示rm拥有数据包li,否则bi=0。共有M个接收者,系统的状态s用一个矩阵来表示: s = b 1 1 b 1 2 · · · b 1 M · · · · · · · · · · · · b L 1 b L 2 · · · b L M , 系统一共有2M×L个状态。
S = { s 1 , s 2 , · · · , s 2 M × L } 表示M个用户拥有的数据包的状态集合, b = [ p 1 , p 2 , · · · , p 2 M × L ] 表示对应状态的概率分布 Σ i = 1 2 M × L p i = 1 .
(2-2)、行动集合
A={a1,a2,…,aL}表示M个用户拥有的数据包的行动集合,在每一个时隙内AP选择一个需要发送的数据包,al表示“发送第l个数据包”;
(2-3)、状态转移概率
在给定参数为pi的伯努利丢包模型下,直接计算出状态转移概率P(st+1=s′|st=s,at=a)。例如,发送两个包到两个接收者,M=2,L=2。假设 s = 1 0 0 1 , s ′ = 1 0 1 1 . 在t时刻,系统处在s状态,即r1拥有数据包l1,r2拥有数据包l2。此时,AP选择行动a1=“发送l1”,那么转移到状态s′的概率是P(st+1=s′|st=s,at=a)=0;如果选择行动a2=“发送l2”,那么转移到的概率是P(st+1=s′|st=s,at=a)=1-p1
(2-4)、报酬函数
报酬的选择必须使每一时间节点下的瞬时报酬r(s,a)的总和能准确地反应既定目标——视频流质量的最优化。把接收者接收到每一个特定数据包所减少的失真作为瞬时报酬,视频质量最优等价于所有M个用户的视频失真总和最小。
事实上,在状态s下采取行动a后,并不会提供一个很明确的瞬时报酬。但是,可以很明确地知道当系统从s转移到s′后的回报值。举例来说,给定一个SVC分层视频流,并且接收到每一层后相应的失真减少值已经给出。如果状态s表示一个接收者拥有第一层和第二层视频流,状态s′表示接收者拥有第一层、第二层和第三层视频流,则从状态s转移到s′的瞬时报酬值是r(s′,s),该值等于第三层贡献的失真减少值。采取行动a后的状态转移概率已知,瞬时报酬r(s,a)可以通过下式计算
r ( s , a ) = Σ j ∈ S P ( j | s , a ) r ( j , s ) .
(2-5)、观察集合
O表示AP能观察到的观察集合,O={ACK,NAK},o(t)={o1(t),o2(t),…,oM(t)}表示在t时刻M个用户的联合观察,oi(t)∈{ACK,NAK},其中
ACK:确认收到数据包的反馈
NAK:没有收到数据包的反馈
(2-6)、观察概率
由于观察结果的不确定性,观察结果o在状态s下采取行动a后,用一个条件概率函数Z(s,a,o)=pr(o|s,a)来给出。
(3)、对可伸缩视频流优化调度
一个H帧的视频流,每一帧由L层组成,每一层打成一个包,假设初始信念状态为
Figure G2009101965400D00032
设定第2M×L个状态为所有接收者成功接收到所有数据包的目标状态,针对某一帧数据包的具体调度步骤如下:
(3-1)、部分可观测马尔可夫决策过程参数输入:初始信念状态 b t 0 = [ p 1 t 0 , p 2 t 0 , · · · , p 2 M × L t 0 ] ;
(3-2)、选择需要发送的数据包:在每一个时隙内AP通过下式选择需要发送的最优数据包,
Π 1 ( b 0 , t 0 ) = arg max k ∈ Ω ( t 0 ) { R 1 1 [ k | s i , b 0 , t 0 ] + R 1 2 [ k | s i , b 0 , t 0 ] + · · · R 1 M [ k | s i , b 0 , t 0 ] }
其中∏1(b0,t0)表示一步部分可观测马尔可夫决策过程需要发送的最优数据包;R1 m[k|si,b0,t0]表示t0时刻在初始信念为b0的情况下,发送第k个数据包后第m个用户获得的一步失真减少;Ω(t)表示在t时刻需要发送的数据包的集合,初始时刻的Ω(t0)={1,2,…,L};
(3-3)、信念状态更新一次:每发送一个数据包,进行一次联合观察o,o(t)={o1(t),o2(t),…,oM(t)},其中oi(t)∈{ACK,NAK},系统发生状态转移,从状态si转移到状态sj,根据接收到的反馈的不同,sj的取值一共有2M种情况,即 的一次更新过程如下:
(3-3-1)、
Figure G2009101965400D00045
p i t 1 = p i t 0 p j 00 · · · 01 t 1 = p j 00 · · · 01 t 0 · · · p j 11 · · · 11 t 1 = p j 11 · · · 11 t 0
(3-3-2)、
Figure G2009101965400D00047
p i t 1 = 0 p j 00 · · · 01 t 1 = p j 00 · · · 01 t 0 + p i t 0 · · · p j 11 · · · 11 t 1 = p j 11 · · · 11 t 0
(3-3-2M)、
Figure G2009101965400D00049
p i t 1 = 0 p j 00 · · · 01 t 1 = p j 00 · · · 01 t 0 · · · p j 11 · · · 11 t 1 = p j 11 · · · 11 t 0 + p i t 0
收益值为:
H 1 ( b 0 , t 0 ) = max k ∈ Ω ( t 0 ) { R 1 1 [ k | s i , b 0 , t 0 ] + R 1 2 [ k | s i , b 0 , t 0 ] + · · · R 1 M [ k | s i , b 0 , t 0 ] } ,
H1(b0,t0)表示一步部分可观测马尔可夫决策过程的收益值。每发送一次,概率更新一次,状态的确定度越来越大;
(3-4)、判断发送时隙n是否大于最大发送时隙数N,若大于,则转移到下一帧的数据包进行发送;否则接着发送此帧的数据包。经过n步后,部分可观测马尔可夫决策过程的最大失真减少及其最优策略分别如下:
H n ( b 0 , t 0 ) = max k ∈ Ω ( t 0 ) { R n 1 [ k | s i , b 0 , t 0 ] + R n 2 [ k | s i , b 0 , t 0 ] + · · · R n M [ k | s i , b 0 , t 0 ] }
Π n ( b 0 , t 0 ) = arg max k ∈ Ω ( t 0 ) { R n 1 [ k | s i , b 0 , t 0 ] + R n 2 [ k | s i , b 0 , t 0 ] + · · · R n M [ k | s i , b 0 , t 0 ] }
经过N个时隙后,转移到下一帧数据包的调度,直至H帧的视频流的数据包调度完成。
本发明的部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法与现有技术相比较具有的优点是:该方法在用户状态不确定或部分可观测条件下,建立了可伸缩视频流的数据包调度优化模型。仿真结果表明随着丢包率以及调度规模的增大,该方法逐渐逼近最优化调度算法——MDP算法;而与传统的调度算法FIFO和RR相比,能提高视频流的平均PSNR值,以实现用户整体视频接收质量的最佳化。
附图说明
图1本发明针对多个用户的无线广播模型的示意图;
图2(a)本发明丢包率对“Bus”序列与其它算法比较的平均PSNR示意图;
图2(b)本发明丢包率对“Foreman”序列与其它算法比较的平均PSNR示意图;
图3(a)本发明发送时隙对“Bus”序列与其它算法比较的平均PSNR示意图;
图3(b)本发明发送时隙对“Foreman”序列与其它算法比较的平均PSNR示意图;
图4(a)本发明用户数目对“Bus”序列与其它算法比较的平均PSNR示意图;
图4(b)本发明用户数目对“Foreman”序列与其它算法比较的平均PSNR示意图;
图5本发明所述方法针对某一帧数据包的核心模块流程框图。
具体实施方式
以下结合附图对本发明的实施例作进一步的详细说明。
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为前提下进行实施,给出了详细的实施方式,但本发明的保护范围不限于下述的实施例。
如图1所示,上述部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法,其具体步骤如下:
(1)、假设一个无线广播模型,其具体如下
(1-1)、AP需要将视频流发送给2个接收者r1,r2
(1-2)、AP需要在N个时隙内将L个包的集合L={l1,l2,…,lL}发送给接收者;
(1-3)、每一帧数据(L个包)的最大发送时间均为N个时隙。N个时隙结束之后,AP转向下一帧数据的发送;
(1-4)、AP转发1个数据包的时间是一个时隙;
(1-5)、假设无线信道的丢包率服从参数为pi的伯努利分布。
(2)、对2个用户的可伸缩视频流的每一帧数据分为L层,每层打包为一个数据包,一帧的数据包集合记为L={l1,l2,…,lL},其部分可观测马尔可夫决策过程的数据包调度优化模型定义如下:
(2-1)、状态集合
在任一给定的时间节点,假设接收者rm已经收到了若干数据包,它是L的一个子集。
该子集可以用L位矢量表示,即(b1 m,b2 m,…,bL m)T,其中b∈{0,1}。bi=1表示rm拥有数据包li,否则bi=0。只有2个接收者,系统的状态s用一个矩阵来表示: s = b 1 1 b 1 2 · · · · · · b L 1 b L 2 , 系统一共有22L个状态。
S = { s 1 , s 2 , · · · , s 2 2 L } 表示r1,r2拥有的数据包的状态集合, b = [ p 1 , p 2 , · · · , p 2 2 L ] 表示对应状态的概率分布, Σ i = 1 2 2 L p i = 1 .
(2-2)、行动集合
A={a1,a2,…,aL}表示r1,r2拥有的数据包的行动集合,在每一个时隙内AP选择一个需要发送的数据包,al表示“发送第l个数据包”。
(2-3)、状态转移概率
在给定参数为pi的伯努利丢包模型下,可以直接计算出状态转移概率P(st+1=s′|st=s,at=a)。例如,发送两个数据包到两个接收者,M=2,L=2。假设 s = 1 0 0 1 , s ′ = 1 0 1 1 . 在t时刻,系统处在s状态,即r1拥有数据包l1,r2拥有数据包l2。此时,AP选择行动a1=“发送l1”,那么转移到状态s′的概率是P(st+1=s′|st=s,at=a)=0;如果选择行动a2=“发送l2”,那么转移到的概率是P(st+1=s′|st=s,at=a)=1-p1
(2-4)、报酬函数
报酬函数的选择必须使每一时间节点下的瞬时报酬r(s,a)的总和能准确地反应既定目标——视频流质量的最优化,可以把接收者接收到每一个特定数据包所减少的失真作为瞬时报酬。视频质量最优就等价于两个用户的视频失真总和最小。
事实上,在状态s下采取行动a后,并不会提供一个很明确的瞬时报酬。但是,可以很明确地知道当系统从s转移到s′后的回报值。举例来说,给定一个SVC分层视频流,并且接收到每一层后相应的失真减少值已经给出。如果状态s表示一个接收者拥有第一层和第二层视频流,状态s′表示接收者拥有第一层、第二层和第三层视频流,则从状态s转移到s′的瞬时报酬值是r(s′,s),该值等于第三层贡献的失真减少值。采取行动a后的状态转移概率已知,瞬时报酬r(s,a)可以通过下式计算
r ( s , a ) = Σ j ∈ S P ( j | s , a ) r ( j , s ) .
(2-5)、观察集合
O表示AP能观察到的观察集合,O={ACK,NAK},o(t)={o1(t),o2(t)}表示在t时刻2个用户的联合观察,oi(t)∈{ACK,NAK},其中
ACK:确认收到数据包的feedback
NAK:没有收到数据包的feedback
(2-6)、观察概率
由于观察结果的不确定性,观察结果o在状态s下采取行动a后,用一个条件概率函数Z(s,a,o)=pr(o|s,a)来给出。
(3)、可伸缩视频流的优化调度,如图5所示,一个H帧的视频流,每一帧由L层组成,每一层打成一个包,假设初始信念状态为
Figure G2009101965400D00081
设定第22L个状态为所有接收者成功接收到所有数据包的目标状态,针对某一帧的数据包具体调度步骤如下:
(3-1)、部分可观测马尔可夫决策过程参数输入:初始信念状态 b t 0 = [ p 1 t 0 , p 2 t 0 , · · · , p 2 2 L t 0 ] ;
(3-2)、选择需要发送的数据包:在每一个时隙内AP通过下式选择需要发送的数据包,
Π 1 ( b 0 , t 0 ) = arg max k ∈ Ω ( t 0 ) { R 1 1 [ k | s i , b 0 , t 0 ] + R 1 2 [ k | s i , b 0 , t 0 ] }
其中∏1(b0,t0)表示一步部分可观测马尔可夫决策过程需要发送的最优数据包;R1 m[k|si,b0,t0]表示t0时刻在初始信念为b0的情况下,发送第k个数据包后第m个用户获得的一步失真减少;Ω(t)表示在t时刻需要发送的数据包的集合,初始时刻的Ω(t0)={1,2,…,L};
(3-3)、信念状态更新一次:每发送一个数据包,进行一次联合观察o,o(t)={o1(t),o2(t)},其中oi(t)∈{ACK,NAK},系统发生状态转移,从状态si转移到状态sj,根据接收到的反馈的不同,sj的取值一共有4种情况,即 s j = { s i , s j 10 , s j 01 , s j 11 } , 各个元素的含义如下:
si:r1和r2都没有收到第k层数据包
sj 01:r1收到第k层数据包,r2没收到
sj 10:r2收到第k层数据包,r1没收到
sj 11:r1和r2都收到第k层数据包
Figure G2009101965400D00085
的一次更新过程如下:
(3-3-1)、o={NAK,NAK}
p i t 1 = p i t 0 p j 10 t 1 = p j 10 t 0 p j 01 t 1 = p j 01 t 0 p j 11 t 1 = p j 11 t 0
(3-3-2)、o={NAK,ACK}
p i t 1 = 0 p j 10 t 1 = p j 10 t 0 p j 01 t 1 = p j 01 t 0 + p i t 0 p j 11 t 1 = p j 11 t 0
(3-3-3)、o={ACK,NAK}
p i t 1 = 0 p j 10 t 1 = p j 10 t 0 + p i t 0 p j 01 t 1 = p j 01 t 0 p j 11 t 1 = p j 11 t 0
(3-3-4)、o={ACK,ACK}
p i t 1 = 0 p j 10 t 1 = p j 10 t 0 p j 01 t 1 = p j 01 t 0 p j 11 t 1 = p j 11 t 0 + p i t 0
收益值为:
H 1 ( b 0 , t 0 ) = max k ∈ Ω ( t 0 ) { R 1 1 [ k | s i , b 0 , t 0 ] + R 1 2 [ k | s i , b 0 , t 0 ] }
H1(b0,t0)表示一步的部分可观测马尔可夫决策过程收益值。每发送一次,概率更新一次,状态的确定度越来越大;
(3-4)、判断发送时隙n是否大于最大发送时隙数N,若大于,则转移到下一帧的数据包进行发送;否则接着发送此帧的数据包。经过n步后,部分可观测马尔可夫决策过程的最大失真减少及其最优策略分别如下:
H n ( b 0 , t 0 ) = max k ∈ Ω ( t 0 ) { R n 1 [ k | s i , b 0 , t 0 ] + R n 2 [ k | s i , b 0 , t 0 ] }
Π n ( b 0 , t 0 ) = arg max k ∈ Ω ( t 0 ) { R n 1 [ k | s i , b 0 , t 0 ] + R n 2 [ k | s i , b 0 , t 0 ] }
经过N个时隙后转移到下一帧数据包的调度,直至H帧的视频流的数据包调度完成。
图2(a)、2(b)、3(a)、3(b)、4(a)、4(b)分别把部分可观测马尔可夫决策过程算法与在状态信息可知的最优化调度算法MDP算法、传统的FIFO算法,即只是简单的按照数据包到达的顺序进行发送,且每个数据包最多只有两次发送机会,以及轮询调度算法(Round Robin,RR)。假设初始信念
状态为,设定第2M×L个状态为所有接收者成功接收到所有数据包的目标状态。图中方块符实线代表MDP算法的收益值的变化趋势,空心圆圈虚线代表部分可观测马尔可夫决策过程算法的变化趋势,五角星符双划线代表RR算法的变化趋势,菱形符点划线代表FIFO算法的变化趋势。图2(a)、2(b)只是针对两种不同的序列做了仿真,四个用户的丢包率相同,分别为p1=p2=p3=p4=0.2,0.3,0.5,0.6以及N=3的情况下平均PSNR值的比较。从中可以看出随着丢包率的增加,部分可观测马尔可夫决策过程逐渐接近MDP,丢包率越大,接收者正确接收到数据包的概率越小,此时网络的吞吐量急剧减少,对数据包进行优化调度是十分关键的,而部分可观测马尔可夫决策过程和MDP都采用了优化调度,两者的差距越来越小;而与FIFO的差距越来越大,随着丢包率的增大,更加需要对数据包进行调度,而FIFO仍然按照数据包到达的顺序发送数据包。图3(a)、3(b)给出了发送时隙对平均PSNR值的影响。四个用户的丢包概率相同,即p1=p2=p3=p4=0.3,随着N的增加,部分可观测马尔可夫决策过程逐渐接近MDP,N越大,部分可观测马尔可夫决策过程中的状态的确定度也越来越大,两种算法越来越接近;而随着N的增大,接收者成功接收到数据包的概率增加,三种算法随着N的增加差距越来越小。图4(a)、4(b)给出了用户数目对平均PSNR值的影响。p1=0.3,p2=0.4,p3=0.5,p4=0.6,即从一个到四个用户的丢包概率是不同的,N=3。从中可以看出随着丢包率、发送时隙和用户数目的增加,本算法逐渐逼近最优化的调度算法MDP,与传统的调度算法RR和FIFO相比,其PSNR值提高了大约1分贝。

Claims (1)

1.一种部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法,其特征在于,针对无线广播下的环境进行假设简化,在用户状态不确定或部分可观测的条件下,对可伸缩视频流进行调度,采用部分可观测马尔可夫决策过程建立数据包调度优化模型,该模型包括状态集合、行动集合、状态转移概率、报酬函数、观察集合、观察概率,给出具体的调度过程,其具体步骤如下:
(1)、假设一个无线广播传输环境模型,其具体为:
(1-1)、AP需要将视频流发送给M个接收者r1,r2,…,rM
(1-2)、AP需要在N个时隙内将L个包的集合L={l1,l2,…,lL}发送给接收者;
(1-3)、每一帧数据(L个包)的最大发送时间均为N个时隙,N个时隙结束之后,AP转向下一帧数据包的发送;
(1-4)、AP转发1个数据包的时间是一个时隙;
(1-5)、假设无线信道的丢包率服从参数为pi的伯努利分布;
(2)、分别对可伸缩视频流的每一帧数据分为L层,每层打包为一个数据包,每一帧的数据包集合记为L={l1,l2,…,lL},设立数据包调度优化模型,具体步骤为:
(2-1)、状态集合:在任一给定的时间节点,假设接收者rm收到了若干数据包,它是L的一个子集,该子集可以用L位矢量表示,即 
Figure FSB00000443866100011
其中b∈{0,1},bi=1表示rm拥有数据包li,否则bi=0,共有M个接收者,系统的状态s用一个矩阵来表示: 
Figure FSB00000443866100012
系统一共有2M×L个状态,
表示M个用户拥有的数据包的状态集合, 
Figure FSB00000443866100014
表示对应状态的概率分布 
Figure FSB00000443866100015
(2-2)、行动集合:A={a1,a2,…,aL}表示M个用户拥有的数据包的行动集合,在每一个时隙内AP选择一个需要发送的数据包,al表示“发送第l个数据包”;
(2-3)、状态转移概率:在给定参数为pi的伯努利丢包模型下,可以直接计算出状态转移 概率P(st+1=s′|st=s,at=a),例如,发送两个包到两个接收者,M=2,L=2,假设 
Figure FSB00000443866100021
Figure FSB00000443866100022
在t时刻,系统处在s状态,即r1拥有数据包l1,r2拥有数据包l2,此时,AP选择行动a1=“发送l1”,那么转移到状态s′的概率是P(st+1=s′|st=s,at=a)=0;如果选择行动a2=“发送l2”,那么转移到的概率是P(st+1=s′|st=s,at=a)=1-p1
(2-4)、报酬函数:报酬函数的选择必须使每一时间节点下的瞬时报酬r(s,a)的总和能准确地反应既定目标——视频流质量的最优化,可以把接收者接收到每一个特定数据包所减少的失真作为瞬时报酬,视频质量最优等价于所有M个用户的视频失真总和最小;
采取行动a后的状态转移概率已知,瞬时报酬r(s,a)可以通过下式计算
Figure 20091019654001000013
(2-5)、观察集合:O表示AP能观察到的观察集合,O={ACK,NAK},o(t)={o1(t),o2(t),…,oM(t)}表示在t时刻M个用户的联合观察,oi(t)∈{ACK,NAK},其中
ACK:确认收到数据包的反馈;
NAK:没有收到数据包的反馈;
(2-6)、观察概率:观察结果的不确定性,观察结果o在状态s下采取行动a后,用一个条件概率函数Z(s,a,o)=pr(o |s,a)来给出;
(3)、对可伸缩视频流优化调度:假设初始信念状态为: 
Figure FSB00000443866100024
设定第2M×L个状态为所有接收者成功接收到所有数据包的目标状态,针对某一帧数据包的具体调度步骤如下:
(3-1)、部分可观测马尔可夫决策过程的参数输入:初始信念状态 
Figure FSB00000443866100025
(3-2)、选择需要发送的数据包:在每一个时隙内AP通过下式选择需要发送的数据包,
Figure FSB00000443866100026
其中∏1(b0,t0)表示一步部分可观测马尔可夫决策过程需要发送的最优数据包; 
Figure FSB00000443866100031
表示t0时刻在初始信念为b0的情况下,发送第k个数据包后第m个用户获得的一步失真减少;Ω(t)表示在t时刻需要发送的数据包的集合,初始时刻的Ω(t0)={1,2,…,L};
(3-3)、信念状态更新一次:每发送一个数据包,进行一次联合观察o,o(t)={o1(t),o2(t),…,oM(t)},其中oi(t)∈{ACK,NAK},系统发生状态转移,从状态si转移到状态sj,根据接收到的反馈的不同,sj的取值一共有2M种情况,即 
Figure FSB00000443866100032
Figure FSB00000443866100033
的一次更新过程如下:
Figure FSB00000443866100034
Figure FSB00000443866100036
Figure FSB00000443866100037
Figure FSB00000443866100038
Figure FSB00000443866100039
收益值为:
Figure FSB000004438661000310
H1(b0,t0)表示一步部分可观测马尔可夫决策过程的收益值,每发送一次,概率更新一次,状态的确定度越来越大;
(3-4)、判断发送时隙n是否大于最大发送时隙数N,若大于,则转移到下一帧的数据包 进行发送;否则接着发送此帧的数据包。经过n步后,部分可观测马尔可夫决策过程的最大失真减少及其最优策略分别如下:
Figure FSB00000443866100041
经过N个时隙后转移到下一帧数据包的调度,直至H帧的视频流的数据包调度完成。 
CN 200910196540 2009-09-25 2009-09-25 部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法 Expired - Fee Related CN101674482B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910196540 CN101674482B (zh) 2009-09-25 2009-09-25 部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910196540 CN101674482B (zh) 2009-09-25 2009-09-25 部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法

Publications (2)

Publication Number Publication Date
CN101674482A CN101674482A (zh) 2010-03-17
CN101674482B true CN101674482B (zh) 2011-05-11

Family

ID=42021432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910196540 Expired - Fee Related CN101674482B (zh) 2009-09-25 2009-09-25 部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法

Country Status (1)

Country Link
CN (1) CN101674482B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101895580B (zh) * 2010-07-15 2013-08-28 上海大学 可伸缩视频流在多覆盖网络中基于拍卖的带宽分配方法
EP2485441B1 (en) * 2011-01-31 2014-10-08 Alcatel Lucent A video packet scheduling method for multimedia streaming
CN103338387B (zh) * 2013-06-20 2016-05-25 上海大学 云计算下能量消耗和视频质量联合优化的数据包调度方法
CN104222241B (zh) * 2014-10-15 2017-07-25 广州酒家集团利口福食品有限公司 一种蛋糕月饼及其制备方法
CN108132423B (zh) * 2017-12-14 2019-11-22 武汉大学 一种基于状态转移概率电力系统监测数据失真的快速定位方法
CN110941489B (zh) * 2018-09-21 2024-06-18 北京京东尚科信息技术有限公司 流处理引擎的伸缩方法和装置
CN109409739B (zh) * 2018-10-19 2021-10-26 南京大学 一种基于pomdp模型的众包平台任务分配方法
CN112101663A (zh) * 2020-09-16 2020-12-18 国网辽宁省电力有限公司电力科学研究院 一种电网负荷预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1450754A (zh) * 2003-04-11 2003-10-22 华中科技大学 一种数据包的调度方法
CN1812575A (zh) * 2006-02-24 2006-08-02 清华大学 流媒体数据的并行传输调度方法
CN1893389A (zh) * 2005-07-06 2007-01-10 华为技术有限公司 一种流调度方法
EP1182876B1 (en) * 2000-06-30 2007-06-27 Texas Instruments Incorporated Method for video transmission over a network
CN101053215A (zh) * 2004-11-05 2007-10-10 皇家飞利浦电子股份有限公司 用于在QoS使能的WLAN上传输分层视频的系统和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1182876B1 (en) * 2000-06-30 2007-06-27 Texas Instruments Incorporated Method for video transmission over a network
CN1450754A (zh) * 2003-04-11 2003-10-22 华中科技大学 一种数据包的调度方法
CN101053215A (zh) * 2004-11-05 2007-10-10 皇家飞利浦电子股份有限公司 用于在QoS使能的WLAN上传输分层视频的系统和方法
CN1893389A (zh) * 2005-07-06 2007-01-10 华为技术有限公司 一种流调度方法
CN1812575A (zh) * 2006-02-24 2006-08-02 清华大学 流媒体数据的并行传输调度方法

Also Published As

Publication number Publication date
CN101674482A (zh) 2010-03-17

Similar Documents

Publication Publication Date Title
CN101674482B (zh) 部分可观测马尔可夫决策过程中可伸缩视频流的优化调度方法
CN101743716B (zh) 无线网络中可靠多播/广播的建立
US8588113B2 (en) Centralized channel selection method and apparatus for wireless networks in a dense deployment environment
CN101938770B (zh) 基于网络信道状态的无线网络最大重传次数的优化方法
US8542579B2 (en) Method and system for cooperative transmission in wireless multi-hop networks
CN102497248B (zh) 基于网络编码的数据重传方法
Wu et al. Dynamic coding control in social intermittent connectivity wireless networks
CN102186072B (zh) 用于可伸缩视频流的多速率组播通信的优化传输方法
CN103428803A (zh) 一种联合机会网络编码的机会路由方法
Aboutorab et al. Instantly decodable network coding for delay reduction in cooperative data exchange systems
CN102916738A (zh) 一种基于fdma/dama卫星通信系统的数据可靠组播方法
CN102170332A (zh) 基于喷泉码和网络编码的机会路由协议数据分发方法
CN101820586B (zh) 一种在无线局域网中进行可靠广播的方法
CN102075311B (zh) 一种基于网络编码的无线协同广播/组播方法
CN101651963A (zh) 一种ieee 802.11 wlan中基于区分服务的传输控制方法
CN102111820A (zh) 无线网络实现传输控制协议感知网络编码调度控制的方法
CN105007541A (zh) 可伸缩视频流动态多码率组播优化传输方法
CN105050196B (zh) 基于全双工中继缓存的多用户通信调度系统及方法
CN100531152C (zh) 无线局域网传输组播帧的设备、系统及实现方法
CN103957121A (zh) 一种面向空天信息网络的跨层tcp优化方法
CN102208962A (zh) 无线数据传输方法
CN101061677A (zh) 控制访问无线介质的系统和方法
CN106230560A (zh) 无线网络中协作多媒体多播数据传输方法
CN101287270B (zh) 一种传输业务的方法及装置
Zhan et al. Coding based wireless broadcast scheduling in real time applications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110511

Termination date: 20210925

CF01 Termination of patent right due to non-payment of annual fee