CN104954088A - 基于部分可测马尔科夫决策过程模型的频谱检测方法 - Google Patents

基于部分可测马尔科夫决策过程模型的频谱检测方法 Download PDF

Info

Publication number
CN104954088A
CN104954088A CN201410124621.0A CN201410124621A CN104954088A CN 104954088 A CN104954088 A CN 104954088A CN 201410124621 A CN201410124621 A CN 201410124621A CN 104954088 A CN104954088 A CN 104954088A
Authority
CN
China
Prior art keywords
channel
state
frequency spectrum
information
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410124621.0A
Other languages
English (en)
Inventor
宋佳
陈新华
孙长瑜
余华兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN201410124621.0A priority Critical patent/CN104954088A/zh
Publication of CN104954088A publication Critical patent/CN104954088A/zh
Pending legal-status Critical Current

Links

Abstract

本发明涉及一种基于部分可测马尔科夫决策过程模型的频谱检测方法,包括:将信道状态信息添加到信道状态历史信息序列中,估计时延,得到信道的状态信息;计算信道初始信念状态和每个信道的状态转移概率;经一段时间观测,获取信道使用状态的统计信息及状态转移概率,对各个信道的使用状态建立马尔科夫模型;当时隙增加时,更新状态历史信息序列和当前时隙值;根据信道的状态转移概率,结合应答信息更新信念状态,计算瞬时报酬;计算在执行不同行为后每个信道的值函数;计算次用户获得的最大折扣回报,得到折扣总报酬为最大带宽的策略,根据各个信道的总报酬对信道进行从高到低的排序,如果有数据需要传输,指导用户按照新的信道顺序尝试接入信道。

Description

基于部分可测马尔科夫决策过程模型的频谱检测方法
技术领域
本发明涉及水声通信领域,更具体地涉及认知水声通信系统中一种基于部分可测马尔科夫决策过程(POMDP)模型的频谱检测方法。 
背景技术
随着现代信息技术和海洋开发技术的飞速发展,人们对水声通信的需求日益增加,如何实现高速水声通信和对水下频谱资源的有效共享,成为了亟待解决的问题。认知无线电是近年来兴起的一种智能无线通信新技术,它能感知周围环境,运用“理解-构建”的方法从周围环境获取信息,并通过实时改变诸如传输功率、载频、调制方式等传输参数来适应运行环境的变化。近年来,人们又在认知无线电的基础上提出了认知水声通信系统的概念,为解决高速水声通信和水下频谱资源的有效共享问题指出了新的研究方向。与认知无线电相同,认知水声通信系统的目标是通过感知水下环境和进行信道估计来发现水声信道的频谱空洞,并合理利用它,从而提高水声通信系统的频谱利用率。在认知水声通信系统中,除了将幅值衰减严重、通信性能差的频点或频段看作是信道的止带外,把干扰用户工作的频带也看作是认知用户的信道止带,同时通信频带不能占用工作中的型号声呐的工作频率。 
目前的两种水下频谱分配方式分别是基于固定分配类和基于竞争类,但它们又各自存在局限性。固定的频谱分配方式势必造成信道利用率不高、频谱资源紧张的问题;而基于竞争类的分配方式又会出现多个用户竞争同一信道的情况,从而造成数据的冲突和碰撞。因此,动态、合理地分配水下的频谱资源、提高频谱利用率,就成为提高水声通信性能的关键问题,也是认知水声通信系统中的关键技术。 
基于POMDP模型的频谱预测方法在认知无线电中已有过相关的应用,主要适用于陆上信道多、环境复杂、不可能也没有必要获知每个信道使用信息的情况。其应用背景是陆上的频谱资源被划分给特定的授权用户,认知用户在利用频段的空白时间传输时必须保证不对授权用户的使用造成干扰,因此认知用户必须不停的感知和预测授权用户将来时刻的使用状态。与认知水声通信不同的是:在认知无线电环境中没有考虑传播时延信息,默认频谱感知的结果是实时和同步的。 
水声信道远不如无线电环境的大气或真空那样,具有较宽的可用频带。在水下,由于传播损失随着频率的升高和距离的增大而增加,因而水声信道的可用带宽十分 有限。另外,由于声波在水中的传播速度远小于电磁波在空气中的传播速度(声波在水中的传播速度约为1500米/秒,仅为电磁波在空气中传播速度的二十万分之一),而传输时延却是电磁波传输的105倍,这使得水下频谱感知与陆上频谱感知相比具有延时和异步的特点。这些都显著地增加了在认知通信系统中后续的频谱分配处理难度,使陆上的频谱预测方法不能直接运用于水下通信系统。 
发明内容
本发明的目的在于克服现有技术中的频谱预测方法不能直接运用于水下通信系统的缺陷,从而提供一种适合水下通信的频谱检测方法。 
为了实现上述目的,本发明提供了一种基于部分可测马尔科夫决策过程模型的频谱检测方法,包括: 
步骤1)、初始化信道状态历史信息序列H; 
步骤2)、对信道环境进行观测,将观测到的信道状态信息添加到信道状态历史信息序列H中,然后估计信道数据传输的时延,进而由信道的时延信息进一步得到信道i的状态信息; 
步骤3)、观测阶段结束后,计算信道初始信念状态和每个信道的状态转移概率; 
步骤4)、经一段时间观测,获取信道使用状态的统计信息及状态转移概率,对各个信道的使用状态建立马尔科夫模型; 
步骤5)、当时隙t→t+1时,根据步骤2)获得的延时信息结合步骤3)的状态转移概率,更新状态历史信息序列和当前时隙值;根据步骤3)获得的信道的状态转移概率,结合应答信息更新信念状态,并计算瞬时报酬;采用启发式算法迭代计算在执行不同行为a后每个信道的值函数; 
步骤6)、重复步骤5)迭代Num次后,计算次用户获得的最大折扣回报,从而得到折扣总报酬为最大带宽的策略,待接入用户根据各个信道的总报酬重新对信道进行从高到低的排序,如果其有数据需要传输,则指导用户按照新的信道顺序尝试接入信道。 
上述技术方案中,在步骤2)中,所述估计信道数据传输的时延通过解调感知信息获得的时间标签实现;包括:在t时隙,当某用户需要传输数据时,首先对各信道进行频谱感知,若某信道正在被占用,则用户接收并解调正在各信道中传输的数据,如果某信道传输的数据能够被解调且能提取时间信息,则估计该信道数据传输的时延,记为l;如果某信道的数据不能被解调或无法从解调的数据中提取时间信息,则将该信道的时延信息标注为缺失;若感知到某信道该时刻空闲,将该信道的时延信 息也标注为缺失。 
上述技术方案中,由信道的时延信息进一步得到信道i的状态信息包括:若某信道的时延信息通过估计得到,则根据信道的马尔科夫性,利用s(i)=s(i-l)pl计算并判断出t时隙该信道的状态,其中,s(i)表示信道i的状态信息,p表示动作a保持观测时的状态转移概率T(s,a,s′),s′为转移后的状态;如某信道的时延信息缺失,则该信道的统计占用概率作为其t时隙的使用状态概率。 
上述技术方案中,在步骤3)中,计算每个信道的状态转移概率时,在执行行为a的条件下转移概率服从Dirichlet分布。 
本发明的优点在于: 
采用本发明的频谱检测方法能够方便地选择通信质量高的信道,合理地动态分配水下的频谱资源、有效的减少数据碰撞概率,从而提高频谱利用率以及用户接入信道的准确率。 
附图说明
图1是本发明的频谱检测方法的应用场景的示意图; 
图2是马尔科夫决策过程模型的示意图; 
图3是本发明的频谱检测方法的流程图。 
具体实施方式
现结合附图对本发明作进一步的描述。 
认知无线电中一个基本的认知周期要经历三个基本过程:1)频谱感知,其作用是检测授权频段,发现“空白”的可用频谱资源;2)信道状态估计及其容量预测,其作用是分析“空白”频段的特征,估计信道状态的变化以及容量预测;3)频谱管理,其目的是根据用户需求选择合适的“空白”频段,确定传输的功率、调制方式等。本发明的频谱检测方法涉及认知周期的前两个阶段,它在频谱感知结果的基础上,对频谱感知的结果做合理统计分析,进而预测出未来某一时刻的信道使用状态,从而得到未来某一时刻可以使用的频谱空隙。频谱检测方法所得到的结果能够为后续的频谱管理和分配提供服务。图1为本发明的频谱检测方法的应用场景,如图所示,频谱检测方法在实现时需要感知外部环境与频谱信息,然后分别分析外部环境与所感知的频谱信息,最终得到可用的频谱资源。 
在对本发明的频谱检测方法做详细说明之前,首先对该方法中所涉及的概念做 统一说明。 
信道状态历史信息:信道状态信息的记录称为信道状态历史信息,可将水声信道可用频带均匀划分得到多个信道,每个信道分为占用、空闲两种状态,分为“0”、“1”表示。将幅值衰减严重、通信性能差的频点或频段,其他用户工作的频带,工作中的型号声呐的工作频率均作为占用状态,若信道状态信息为空闲,则表示该频段可以供用户接入。时间单位用时隙表示,每个时隙可量化为一个或几个时间单位。信道状态历史信息可用离散观测时间序列Ts内的一系列行为、报酬、观测状态和反馈应答信息的序列H表示,有H={hi,i=1,2,…,N},其中, 
hi={(ai,1,ri,1,zi,1,ki,1),…,(ai,t,ri,t,zi,t,ki,t)},t∈Ts   公式1 
其中ai,t表示在时隙t内认知用户对信道i采取的行为,ri,t为用户所能获得的报酬,zi,t为对信道i的观测状态(如占用或空闲),ki,t为用户采取行为后获得的反馈应答信息。 
次用户:与主用户相对的一个概念,主用户是指具有优先使用频谱资源权利的用户,则次用户是指除了主用户之外的待接入用户。在本申请中,次用户也被称为认知用户,或待接入用户。 
马尔科夫决策过程(Markov Decision Process,MDP)模型:马尔科夫决策过程模型是基于决策论的规划模型中应用最广泛的模型之一。该模型主要应用于随机动态系统中,用来描述决策者(Agent)的动作和系统所处外部环境之间的交互关系和相互作用。图2为马尔科夫决策过程模型的示意图,如图所示,Agent将接受的环境状态作为输入,并产生相应动作作为输出,同时这些动作又会影响环境的状态。在该模型中,虽然Agent的动作对环境状态的影响存在很大的不确定性,但Agent对环境状态的感知没有任何不确定性,即Agent具有完全的感知能力。 
部分可测马尔科夫决策过程(POMDP)模型:在现实世界中,马尔科夫决策过程模型中所涉及的环境状态信息是复杂的,决策者(Agent)总是完全知道是不太可能的,所以Agent往往只能从环境中得到部分信息。因此当Agent无法得到全部当前状态信息时,它可以通过对环境的观测得到部分观察信息,这个观察信息是由上一步选择的动作和当前状态所决定的。这种对环境进行部分观测而利用该观测结果作为Agent采取下一步动作依据的方法就是部分可测马尔科夫决策过程(POMDP)模型。POMDP模型的整个过程需要系统的先验知识,并根据观测到的数据对水下通信网络当前所处的状态进行概率估测与修正。 
一个典型的POMDP模型可用六元组表示为<S,A,T,R,Z,O>。其中:S为水下通信系统中信道状态的集合;A为次用户采取的行为(观测,接入)的集合,用A={a1,a2} 表示;T表示当前信道状态s在行为a的作用下变为s′的转移函数,记为T(s,a,s′);R为瞬时回报函数,记为R(s,a);Z为用户对水下通信系统状态的有限观测状态集合;O为观测函数,记为O(s′,a,z)。此外,ki(t)∈{0,1}表示次用户在执行行为a后得到的应答,设应答是无错的。 
由于S是未知的,采用信念状态空间B来表示信道状态的概率分布,有 
B = { b : Σ s ∈ S b ( s ) = 1.0 , ∀ s ∈ S , b ( s ) ≥ 0 }    公式2 
其中:b(s)表示信道处于状态s的概率。 
根据贝叶斯法则,可得在t+1时隙信念状态更新的表达式为: 
b t + 1 ( s ′ ) τ ( b t , a t , z t + 1 ) ( s ′ ) = Σ s ∈ S T ( s , a t , s ′ ) O ( s ′ , a t , z t + 1 ) b t ( t ) Σ s ∈ S O ( s ′ , a t , z t + 1 ) Σ s ∈ S T ( s , a t , s ′ ) b t ( t )    公式3 
其中,τ表示更新函数。 
对于任何时隙t,信念状态是一个充分统计量,所以不会有任何历史信息增加待接入用户的回报。同时,定义待用户得到的瞬时回报为空闲信道的带宽,其表达式为: 
R B ( b , a ) = Σ s ∈ S b ( s ) R ( s , a ) = Σ s ∈ S Σ i = 0 n b ( s = 1 ) M B , i    公式4 
策略π表示待接入用户在当前信念状态b的情况下,使用策略π而选择行为a。解决一个POMDP问题的目标是找寻一个最佳策略π′,以使用户获得的回报达到最大值,即待接入用户所能获得的最大信道带宽,用值函数表示为: 
V * ( b ) = max a ∈ A [ R B ( b , a ) + ζ Σ z ∈ Z P ( z | b , a ) V * ( τ ( b , a , z ) ) ]    公式5 
式中:ζ为折扣因子,0<ζ≤1;P为条件转移的概率函数。 
基于POMDP模型的信道状态预测算法:该信道状态预测算法的目的是根据已有的信道状态信息预测未来的信道状态。 
在水声通信网络中,用户对信道的使用是分时隙的,即频谱接入是时隙方式的,由此可以假设一个信道在不同时隙被用户占用的情况是一个马尔科夫决策过程,且在同一时隙内信道的频谱特性不变。 
假设在水声通信网络中存在N(0<N<∞)个独立授权信道,每个信道在某个时隙中只有0(忙)、1(闲)两种状态,由此可建立两状态马尔科夫模型。αi为信道i的状态从忙到空闲的转移概率,而βi为信道状态由空闲到忙的转移概率,由此信道忙闲状态的转移概率信息可表示为{(αii),i=1,2,…,N}。 
整个水声通信网络在某个时隙t内的所有可能的信道状态可表示为: 
S(t)=[S1(t),S2(t),…,SM(t)]   公式6 
其中,M表示某个时隙t内所有可能的信道状态的数目,M=2N;Si(t)=s1(t)s2(t)…sN(t),sj(t)∈{0,1},i=1,2,…,M,j=1,2,…,N。 
水声通信网络中每个信道的带宽表示为BWj(j=1,2,…,N)。 
由于环境的不确定性及硬件条件的限制,待接入用户不可能对系统进行完全扫描检测,也即对于系统各个信道的情况,认知用户不可能完全检测到,故在一次检测时隙中可检测到的信道数目n≤N。 
根据上述分析,用户可以通过采用POMDP模型来预测下一时隙信道所处状态的可能性并计算其回报,以此来建立信道使用策略并指导下一时隙频谱检测对信道的搜索顺序。据此思路,本申请提出一种基于POMDP模型的水声信道状态预测算法,该算法分为观测和预测两个阶段。 
在预测阶段,对用户来说,信道状态个数M是N的指数,要计算出最大回报是很困难的,但所幸的是实际网络中的各个信道之间是相互独立的,因此有如下定理: 
假设n个独立信道,有Λ=[λ1,…λn],其中λi为信道i在某个时隙t开始时刻所处的状态,则Λ是信道状态Si(t)的充分统计量。 
根据上述定理,POMDP模型中的信念状态空间B={b(Si(t)),i=1,2,…,M}可简化为B={b(sk(t)),k=1,2,…,n},从而信念空间维度由2n降为n。 
对一信道i来说,其最大回报表达式为 
V i * ( b i ) = max a i &Element; A [ R B ( b i , a i ) + &zeta; &Sigma; z i &Element; Z P ( z i | b i , a i ) V i * ( &tau; ( b i , a i , z i ) ) ]    公式7 
其中RB(bi,ai)=b(si=1)BWi。 
对待接入用户有: 
V * ( b ) = max i = 1 , &CenterDot; &CenterDot; &CenterDot; , n V i * ( b i )    公式8 
对于在时隙t内的每一个信道,设θi为在时隙t内信道i状态为空闲的概率,即b(si(t)=1)=θi,状态为忙的概率为b(si(t)=0)=1-θi。则在C个时隙中,信道i状态为空闲出现次数为γi服从二项式分布b(γi,C,θi),其概率为 
C &gamma; i &theta; i &gamma; i ( 1 - &theta; i ) C - &gamma; i
其中γi由历史信息序列H中获得。 
根据贝叶斯法则,有θi对H的条件概率密度表示为: 
f ( &theta; i | H ) = q ( &theta; i ) C &gamma; i &theta; i &gamma; i ( 1 - &theta; i ) C - &gamma; i &Integral; 0 1 q ( &theta; i ) C &gamma; i &theta; i &gamma; i ( 1 - &theta; i ) C - &gamma; i d &theta; i    公式9 
其中q(θi)为θi的先验分布。 
由于环境是不确定的,对于认知用户来说,信道i处于空闲或忙的状态是等可能,故可设先验分布q(θi)为[0,1]上的均匀分布,则有 
   公式10 
将公式10代入公式9得到: 
f ( &theta; i | H ) = &theta; i &gamma; i ( 1 - &theta; i C - &gamma; i ) &Integral; 0 1 &theta; i &gamma; i ( 1 - &theta; i C - &gamma; i ) d &theta; i    公式11 
用θi对H的条件期望E{θi|h}估计信道状态为空闲的概率: 
b i ( s i = 1 ) = E { &theta; i | H } = &gamma; i + 1 C + 2    公式12 
由信念空间的定义有: 
b ( s i = 0 ) = 1 - b ( s i = 1 ) = C - &gamma; i + 1 C + 2    公式13 
从而可得对信道信念状态初始分布的估计。 
在不确定的通信环境中,信道状态转移概率T(s,a,s′)也是不确定的。设为信道i执行行为a后状态从s转移到s′的转移概率,其中s,s′∈{0,1},则有向量 在C个时隙中信道i的状态从s到s′的转移次数向量 在执行行为a的条件下Pi服从Dirichlet分布,有 其期望则为: 
E ( p i ) = &phi; ss k &prime; a &Sigma; k = 1 | S | &phi; ss k &prime; a    公式14 
当信道状态转移后,向量其中向量其余为0。用期望值估计转移概率为: 
T &phi; ( s , a , s &prime; ) = &phi; ss &prime; a &Sigma; s &prime; &prime; &Element; S &phi; ss &prime; a    公式15 
在频谱检测中,会存在漏检和虚警现象,因此对于待接入用户来说,所观测到 的信道状态可能与信道真实状态存在误差。假设信道为AWGN,pd为检测概率,pf为虚警概率。由于用户无法获得足够的观测信息,故采用能量检测器的频谱检测方法,则有 
p f = P { Y > &tau; | H 0 } = 1 - &Gamma; ( L 2 , &tau; 2 &sigma; 0 2 )    公式16 
p d = P { Y > &tau; | H 1 } = 1 - &Gamma; ( L 2 , &eta;&sigma; 0 2 &sigma; 1 2 )    公式17 
其中,Γ表示数学分布,H0为零假设,表示检测到的信道状态为空闲,而H1为备择假设,表示此时信道状态为忙。Y为输出,τ为门限值,信噪比SNR为 L为检测样本数,η满足Γ(L/2,η)=1-pf。 
由于信道真实状态的未知性,待接入用户可根据执行行为a后得到的应答信息k,来验证观测状态的正确与否,有 
O ( s &prime; , a , z ) = P ( z | s &prime; , a ) = P ( z | k , a ) = p d , k = z = 0 , 1 - p f , k = z = 1 , p f , k = 1 , z = 0 , 1 - p d , k = 0 , z = 1 ,    公式18 
从而可求出次用户可获得的最大折扣回报,即: 
V * ( b ) = max i = 1 , . . . , n max a i &Element; A [ b ( s i = 1 ) W B , i + &zeta; [ p d p 0,0 a i b ( s i = 0 ) + p d p 1,0 a i b ( s i = 1 ) + p f p 1,1 a i b ( s i = 1 ) + p f p 0,1 a i b ( s i = 0 ) ] V i * ( &tau; ( b i , a i , 0 ) ) + &zeta; [ ( 1 - p d ) p 0,0 a i b ( s i = 0 ) + ( 1 - p d ) p 1,0 a i b ( s i = 1 ) + ( 1 - p f ) p 1,1 a i b ( s i = 1 ) + ( 1 - p f ) p 0,1 a i b ( s i = 0 ) ] V i * ( &tau; ( b i , a i , 1 ) ) ]    公式19 
当k=z=0时,信念状态更新为 
&tau; ( b , a , z ) = [ p 0,0 a b ( s = 0 ) + p 1,0 a b ( s = 1 ) ] p d [ p 0,0 a b ( s = 0 ) + p 1,0 a b ( s = 1 ) ] + p f [ p 0,1 a b ( s = 0 ) + p 1,1 a b ( s = 1 ) ]    公式20 
当k=z=1时,信念状态更新为 
&tau; ( b , a , z ) = [ p 0,1 a b ( s = 0 ) + p 1,1 a b ( s = 1 ) ] ( 1 - p d ) [ p 0,0 a b ( s = 0 ) + p 1,0 a b ( s = 1 ) ] + ( 1 - p f ) [ p 0,1 a b ( s = 0 ) + p 1,1 a b ( s = 1 ) ]
公式21 
当k=1,z=0时,信念状态更新为 
&tau; ( b , a , z ) = p f [ p 0 , 1 a b ( s = 0 ) + p 1 , 1 a b ( s = 1 ) ] p d [ p 0,0 a b ( s = 0 ) + p 1,0 a b ( s = 1 ) ] + p f [ p 0,1 a b ( s = 0 ) + p 1,1 a b ( s = 1 ) ]    公式22 
当k=0,z=1时,信念状态更新为 
&tau; ( b , a , z ) = ( 1 - p d ) [ p 0,0 a b ( s = 0 ) + p 1,0 a b ( s = 1 ) ] ( 1 - p d ) [ p 0,0 a b ( s = 0 ) + p 1,0 a b ( s = 1 ) ] + ( 1 - p f ) [ p 0,1 a b ( s = 0 ) + p 1,1 a b ( s = 1 ) ]
公式23 
在算法中,由于每个信道需要计算在每个时隙内|A|种动作的结果,因此算法的复杂度为O(nC|A|)。由于用户对信道的操作只可能有接入或者观测两种,因此该算法的算法复杂度变为O(nC2),因此该算法可以降低运算量。该算法较随机信道选择算法将得到更高的信道带宽回报,从而提高信道利用率,这里信道带宽回报即指报酬收益,单位为bps。 
本发明的基于部分可测马尔科夫决策过程(POMDP)模型的频谱检测方法包括: 
步骤1:初始化信道状态历史信息序列H; 
本步骤中所涉及的初始化包括将所述信道状态历史信息序列清空; 
步骤2:对信道环境进行观测,将观测到的信道状态信息(ai,t,ri,t,zi,t,ki,t)添加到信道状态历史信息序列H中,然后估计信道数据传输的时延,进而由信道的时延信息进一步得到信道i的状态信息s(i); 
步骤3:观测阶段结束后,根据公式12和公式13计算信道初始信念状态,根据公式15计算出每个信道的状态转移概率T(s,a,s′); 
步骤4:经一段时间观测,获取信道使用状态的统计信息及状态转移概率,对各个信道的使用状态建立马尔科夫模型。 
步骤5:当时隙t→t+1时,根据步骤2获得的延时信息结合步骤3的状态转移概率,更新状态历史信息序列和当前时隙值;根据步骤3获得的信道的状态转移概率,结合应答信息k按照公式20到23更新信念状态b′,并计算瞬时报酬RB(b,a);按照公式8采用启发式算法迭代计算在执行不同行为a后每个信道的值函数Vi *(bi); 
步骤6:重复步骤5迭代Num次后,按照公式19计算次用户获得的最大折扣回报,从而得到折扣总报酬为最大带宽的策略π*,认知用户根据各个信道的总报酬重新对信道进行从高到低的排序,如果其有数据需要传输,则指导用户按照新的信道顺序尝试接入信道。其中,Num的大小由用户获得的折扣回报决定,可从回报的曲线趋势估计得到。 
下面对频谱检测方法中的相关步骤做进一步的说明。 
在步骤2)中,估计信道数据传输的时延可通过解调感知信息获得的时间标签来实现。 
由于水声信道具有传输大时延的特点,因此,水下通信网络中的节点在传输数据包时会定时、间隔地在数据包内加入时间标签。利用这一时间标签可估计信道数据传输的时延。具体的说,假设在t时隙,当某用户需要传输数据时,首先对各信道进行频谱感知,若某信道正在被占用,则用户接收并解调正在各信道中传输的数据,如果某信道传输的数据可以被解调且能提取时间信息,则估计该信道数据传输的时延,记为l;如果某信道的数据不能被解调或无法从解调的数据中提取时间信息,则将该信道的时延信息标注为缺失。若感知到某信道该时刻空闲,将该信道的时延信息也标注为缺失。 
在步骤2)中,由信道的时延信息可进一步得到信道i的状态信息s(i)。若某信道的时延信息可以通过估计得到,则根据信道的马尔科夫性,利用s(i)=s(i-l)pl计算并判断出t时隙该信道的状态,p表示动作a保持观测时的状态转移概率T(s,a,s′),;如某信道的时延信息缺失,则该信道的统计占用概率作为其t时隙的使用状态概率。 
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。 

Claims (4)

1.一种基于部分可测马尔科夫决策过程模型的频谱检测方法,包括:
步骤1)、初始化信道状态历史信息序列H;
步骤2)、对信道环境进行观测,将观测到的信道状态信息添加到信道状态历史信息序列H中,然后估计信道数据传输的时延,进而由信道的时延信息进一步得到信道i的状态信息;
步骤3)、观测阶段结束后,计算信道初始信念状态和每个信道的状态转移概率;
步骤4)、经一段时间观测,获取信道使用状态的统计信息及状态转移概率,对各个信道的使用状态建立马尔科夫模型;
步骤5)、当时隙t→t+1时,根据步骤2)获得的延时信息结合步骤3)的状态转移概率,更新状态历史信息序列和当前时隙值;根据步骤3)获得的信道的状态转移概率,结合应答信息更新信念状态,并计算瞬时报酬;采用启发式算法迭代计算在执行不同行为a后每个信道的值函数;
步骤6)、重复步骤5)迭代Num次后,计算次用户获得的最大折扣回报,从而得到折扣总报酬为最大带宽的策略,待接入用户根据各个信道的总报酬重新对信道进行从高到低的排序,如果其有数据需要传输,则指导用户按照新的信道顺序尝试接入信道。
2.根据权利要求1所述的基于部分可测马尔科夫决策过程模型的频谱检测方法,其特征在于,在步骤2)中,所述估计信道数据传输的时延通过解调感知信息获得的时间标签实现;包括:在t时隙,当某用户需要传输数据时,首先对各信道进行频谱感知,若某信道正在被占用,则用户接收并解调正在各信道中传输的数据,如果某信道传输的数据能够被解调且能提取时间信息,则估计该信道数据传输的时延,记为l;如果某信道的数据不能被解调或无法从解调的数据中提取时间信息,则将该信道的时延信息标注为缺失;若感知到某信道该时刻空闲,将该信道的时延信息也标注为缺失。
3.根据权利要求2所述的基于部分可测马尔科夫决策过程模型的频谱检测方法,其特征在于,由信道的时延信息进一步得到信道i的状态信息包括:若某信道的时延信息通过估计得到,则根据信道的马尔科夫性,利用s(i)=s(i-l)pl计算并判断出t时隙该信道的状态,其中,s(i)表示信道i的状态信息,p表示动作a保持观测时的状态转移概率T(s,a,s′),s′为转移后的状态;如某信道的时延信息缺失,则该信道的统计占用概率作为其t时隙的使用状态概率。
4.根据权利要求1所述的基于部分可测马尔科夫决策过程模型的频谱检测方法,其特征在于,在步骤3)中,计算每个信道的状态转移概率时,在执行行为a的条件下转移概率服从Dirichlet分布。
CN201410124621.0A 2014-03-28 2014-03-28 基于部分可测马尔科夫决策过程模型的频谱检测方法 Pending CN104954088A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410124621.0A CN104954088A (zh) 2014-03-28 2014-03-28 基于部分可测马尔科夫决策过程模型的频谱检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410124621.0A CN104954088A (zh) 2014-03-28 2014-03-28 基于部分可测马尔科夫决策过程模型的频谱检测方法

Publications (1)

Publication Number Publication Date
CN104954088A true CN104954088A (zh) 2015-09-30

Family

ID=54168475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410124621.0A Pending CN104954088A (zh) 2014-03-28 2014-03-28 基于部分可测马尔科夫决策过程模型的频谱检测方法

Country Status (1)

Country Link
CN (1) CN104954088A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105357158A (zh) * 2015-10-26 2016-02-24 天津大学 水下认知网络中节点准确高效接入多信道的方法
CN107171754A (zh) * 2017-07-15 2017-09-15 山东师范大学 一种无线频谱信道感知方法及系统
CN107889115A (zh) * 2017-11-20 2018-04-06 上海微波技术研究所(中国电子科技集团公司第五十研究所) 基于马氏决策的机会频谱接入方法
WO2019127499A1 (zh) * 2017-12-29 2019-07-04 深圳市大疆创新科技有限公司 信道容量预测方法及装置、无线信号发送设备及传输系统
CN110798273A (zh) * 2019-10-21 2020-02-14 南京邮电大学 一种基于次用户效用最优的协作频谱感知方法
CN110826019A (zh) * 2019-10-15 2020-02-21 电子科技大学 一种基于隐马尔科夫模型的空间频谱状态预测方法
CN111294128A (zh) * 2019-12-30 2020-06-16 中国人民解放军军事科学院国防科技创新研究院 一种基于马尔可夫信道模型的机会频谱接入方法
US11068815B2 (en) 2018-04-10 2021-07-20 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for vehicle scheduling

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030058102A (ko) * 2001-12-29 2003-07-07 엘지전자 주식회사 이동통신 시스템의 호자원 품질 측정을 위한 시뮬레이션방법
CN101867420A (zh) * 2010-06-18 2010-10-20 华南理工大学 一种基于频谱感知及预测的水下多路通信方法
CN103117817A (zh) * 2013-01-09 2013-05-22 北京邮电大学 一种时变衰落信道下的频谱检测方法与装置
CN103237356A (zh) * 2013-03-29 2013-08-07 北京凯华信业科贸有限责任公司 基于信道质量的选择性认知接入方法
CN103327504A (zh) * 2013-07-12 2013-09-25 北京交通大学 一种认知无线电网络中频谱感知间隔的决策方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030058102A (ko) * 2001-12-29 2003-07-07 엘지전자 주식회사 이동통신 시스템의 호자원 품질 측정을 위한 시뮬레이션방법
CN101867420A (zh) * 2010-06-18 2010-10-20 华南理工大学 一种基于频谱感知及预测的水下多路通信方法
CN103117817A (zh) * 2013-01-09 2013-05-22 北京邮电大学 一种时变衰落信道下的频谱检测方法与装置
CN103237356A (zh) * 2013-03-29 2013-08-07 北京凯华信业科贸有限责任公司 基于信道质量的选择性认知接入方法
CN103327504A (zh) * 2013-07-12 2013-09-25 北京交通大学 一种认知无线电网络中频谱感知间隔的决策方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄川等: "一种新型认知无线电信道状态的预测算法", 《华侨大学学报(自然科学版)》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105357158A (zh) * 2015-10-26 2016-02-24 天津大学 水下认知网络中节点准确高效接入多信道的方法
CN107171754A (zh) * 2017-07-15 2017-09-15 山东师范大学 一种无线频谱信道感知方法及系统
CN107171754B (zh) * 2017-07-15 2019-12-27 山东师范大学 一种无线频谱信道感知方法及系统
CN107889115A (zh) * 2017-11-20 2018-04-06 上海微波技术研究所(中国电子科技集团公司第五十研究所) 基于马氏决策的机会频谱接入方法
WO2019127499A1 (zh) * 2017-12-29 2019-07-04 深圳市大疆创新科技有限公司 信道容量预测方法及装置、无线信号发送设备及传输系统
US11068815B2 (en) 2018-04-10 2021-07-20 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for vehicle scheduling
CN110826019A (zh) * 2019-10-15 2020-02-21 电子科技大学 一种基于隐马尔科夫模型的空间频谱状态预测方法
CN110798273A (zh) * 2019-10-21 2020-02-14 南京邮电大学 一种基于次用户效用最优的协作频谱感知方法
CN110798273B (zh) * 2019-10-21 2021-07-09 南京邮电大学 一种基于次用户效用最优的协作频谱感知方法
CN111294128A (zh) * 2019-12-30 2020-06-16 中国人民解放军军事科学院国防科技创新研究院 一种基于马尔可夫信道模型的机会频谱接入方法
CN111294128B (zh) * 2019-12-30 2021-04-30 中国人民解放军军事科学院国防科技创新研究院 一种基于马尔可夫信道模型的机会频谱接入方法

Similar Documents

Publication Publication Date Title
CN104954088A (zh) 基于部分可测马尔科夫决策过程模型的频谱检测方法
Xing et al. Channel quality prediction based on Bayesian inference in cognitive radio networks
Nguyen et al. Spectrum sensing using a hidden bivariate Markov model
US8838520B2 (en) Sequence detection methods, devices, and systems for spectrum sensing in dynamic spectrum access networks
Berthold et al. Detection of spectral resources in cognitive radios using reinforcement learning
Li et al. Optimal power allocation for wireless sensor powered by dedicated RF energy source
CN103428704B (zh) 一种频谱感知方法及装置
Li et al. Deep sensing for next-generation dynamic spectrum sharing: More than detecting the occupancy state of primary spectrum
Roy et al. Primary user activity prediction in DSA networks using recurrent structures
EP2566273A1 (en) Method for dynamically determining sensing time in cognitive radio network
Bkassiny et al. Blind cyclostationary feature detection based spectrum sensing for autonomous self-learning cognitive radios
Treeumnuk et al. Using hidden Markov models to evaluate performance of cooperative spectrum sensing
Zuo et al. Resource allocation for target tracking in multiple radar architectures over lossy networks
Li et al. Dynamic spectrum tracking using energy and cyclostationarity-based multi-variate non-parametric quickest detection for cognitive radios
Stinco et al. Channel parameters estimation for cognitive radar systems
Panahi et al. Optimal channel-sensing scheme for cognitive radio systems based on fuzzy q-learning
Liu et al. Scalable predictive beamforming for IRS-assisted multi-user communications: A deep learning approach
Li et al. A novel self-similar traffic prediction method based on wavelet transform for satellite Internet
Seo et al. Pilot beam sequence design for channel estimation in millimeter-wave MIMO systems: A POMDP framework
Treeumnuk et al. Using hidden Markov models to enable performance awareness and noise variance estimation for energy detection in cognitive radio
Maya et al. Exploiting spatial correlation in energy constrained distributed detection
Paul et al. Deep learning-based selective spectrum sensing and allocation in cognitive vehicular radio networks
Al-Sudani et al. Cognitive Radio and Its Applications in the New Trend of Communication System: A Review
Meshkova et al. Estimating transmitter activity patterns: An empirical study in the indoor environment
Bhattacharya et al. Fast and efficient online selection of sensors for transmitter localization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150930