CN104822150B

CN104822150B - 中心多跳认知蜂窝网络中的信息主动缓存的频谱管理方法

Info

Publication number: CN104822150B
Application number: CN201510243081.2A
Authority: CN
Inventors: 张延华; 闫玉玮; 司鹏搏; 李秋然; 张倩; 孙恩昌; 孙艳华
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-05-13
Filing date: 2015-05-13
Publication date: 2019-06-14
Anticipated expiration: 2035-05-13
Also published as: CN104822150A

Abstract

中心多跳认知蜂窝网络中的信息主动缓存的频谱管理方法，该方法包括建立系统模型，即以信息为中心的多跳认知蜂窝网络模型；建立具有隐藏及动态变化参数的马尔可夫决策过程系统；进行频谱管理最优化。本发明针对解决网络通信量的爆发问题以及用户的焦点从传输文件到获得感兴趣的内容的转变，通过以信息为中心的多跳认知蜂窝网络架构以及动态频谱管理方法，提高了缓存内容的平均命中概率，降低了用户要求的平均跳数，并在考虑了未知的/变化的网络参数以及路由器中的队列状态的情况下将带宽分配给最合适的无线链路，同时通过主动缓存方法将用户未来可能要求的内容推送到离这些用户较近的路由器中，提高了整体性能。

Description

中心多跳认知蜂窝网络中的信息主动缓存的频谱管理方法

技术领域

本发明涉及一种以信息为中心的多跳认知蜂窝网络中为解决通信量爆发问题的频谱资源管理方法，属于无线通信中移动资源管理技术领域。

技术背景

在过去的40年中，传统的基于网络协议的架构是一个极大的成功，但是最近这种方法不能够非常适合解决网络通信量的爆发以及用户的焦点从传输文件到获得感兴趣的内容的转变。一种新的以信息为中心的网络架构被提出来解决这一问题，这种架构允许用户关注他们感兴趣的数据，留下网络来查找数据的地点以及操作传输。网络内缓存也用于以信息为中心的网络中，来缓存之前已经被路由器转递的数据以及减少信息递送延迟。

目前，大多数关于以信息为中心的网络的工作都集中于网络架构、缓存管理、路线选择以及命名问题。为了满足快速增长的移动通信量的需求，以信息为中心的网络也面临着频谱资源短缺的问题。一方面，几乎所有的可用于无线通信的频谱资源已经被用光了。另一方面，一些地区的某些时期内许多得到许可的带宽的利用率极其低。认知无线电技术已经被证实是一种有效的解决方法来处理这一问题，允许第二级设备在不妨碍初级用户的同时使用这些得到许可但是闲置的带宽。

认知无线电又被称为智能无线电，它以灵活、智能、可重配置为显著特征，通过感知外界环境，并使用人工智能技术从环境中学习，有目的地实时改变某些操作参数(比如传输功率、载波频率和调制技术等)，使其内部状态适应接收到的无线信号的统计变化，从而实现任何时间、任何地点的高可靠通信以及对异构网络环境有限的无线频谱资源进行高效地利用。认知无线电的核心思想就是通过频谱感知(Spectrum Sensing)和系统的智能学习能力，实现动态频谱分配(DSA：dynamic spectrum allocation)和频谱共享(SpectrumSharing)。关于认知无线电技术，目前也已有很多方面工作已经开展了，包括认知无线电和自组织网络、多跳认知无线电网络的设计、多跳认知无线电网络中的资源分配问题。

通过多跳认知蜂窝架构可以进一步研究认知无线电网络中的频谱收获和共享问题。一个二级服务供应商和多个认知无线电无线网状网路由器组成一个多跳网络，这个多跳网络有它自己的基础的频谱带宽以及合作收获和共享初级网络得到许可的频谱带宽，具有第二级用户数据包递送的性能。

发明内容

针对现存技术中存在的无线通信中频谱资源紧缺和递送信息延迟问题，本发明提出了一种以信息为中心的多跳认知蜂窝网络架构来解决以信息为中心的网络中的频谱资源管理问题，这种架构能够有效地利用频谱资源并且减少用户要求的响应时间。

一种以信息为中心的多跳认知蜂窝网络架构频谱资源管理方法，包括以下步骤：

步骤1，建立系统模型，即以信息为中心的多跳认知蜂窝网络模型。

步骤1.1：建立网络模型。

在多跳认知蜂窝网络中有多个认知无线电路由器，每个用户都属于一个或多个联盟，每个用户设备通过一个路由器接入网络，在网络中还有一个二级服务供应商，它根据频谱检测结果以及路由器中传输队列中第一个要传输的数据包的状态将频谱资源分配给各个路由器，并向路由器发出通知。

步骤1.2：建立服务模型。

在以信息为中心的多跳认知蜂窝网络中，设定控制、定期、缓存三种类型的通信量——控制信息用于网络管理；缓存数据包携带着从一个网络内缓存转移到另一个网络内缓存的数据；定期数据包负责其他的数据，包含用户的要求、用户数据传输等。

步骤1.3：建立频谱采集模型。

考虑正交频分复用作为物理层技术，在t_k时刻可用的带宽分为基础带宽和采集到的带宽。频谱带宽的分配原则用于将基础带宽分配给链路进行传输具有较高优先权的数据包，即将基础带宽先分配给控制数据包，然后分配给定期数据包，将采集到的带宽先用于传输定期数据包，如果还有可使用的带宽再分配给缓存数据包。

若用于缓存数据包的可用的采集到的带宽的到达和离开服从泊松过程，μ和v分别作为泊松过程的参数。这样在t_k时刻用于缓存数据包的带宽的数量表示为β(k)，将带宽的数量建模为一个马尔可夫过程。

步骤1.4：建立网络缓存模型。

当用户要求的数据被缓存时，网络内缓存帮助减少网络通信量。命中概率是通过缓存带来的收益建模的度量之一。在将一个缓存数据包从其原始的路由器转移到目标路由器的过程中，由于用户的要求，相同的信息可能在目标路由器中会被缓存。

步骤2，建立具有隐藏及动态变化参数的马尔可夫决策过程系统。

马尔可夫决策过程是基于马尔可夫过程理论的随机动态系统的最优决策过程。马尔可夫决策过程是指决策者周期地或连续地观察具有马尔可夫性的随机动态系统，序贯地作出决策。即根据每个时刻观察到的状态，从可用的行动集合中选用一个行动作出决策，系统下一步(未来)的状态是随机的，并且其状态转移概率具有马尔可夫性。决策者根据新观察到的状态，再作新的决策，依此反复地进行。马尔可夫性是指一个随机过程未来发展的概率规律与观察之前的历史无关的性质。马尔可夫性又可简单叙述为状态转移概率的无后效性。状态转移概率具有马尔可夫性的随机过程即为马尔可夫过程。马尔可夫决策过程又可看作随机对策的特殊情形，在这种随机对策中对策的一方是无意志的。马尔可夫决策过程还可作为马尔可夫型随机最优控制，其决策变量就是控制变量。

步骤2.1：构建系统状态。

在每个决策时间点t_k，系统状态都由两部分组成——所有路由器的离散期望值以及可用的频谱带宽数量。

步骤2.2：建立动作和策略。

在每个时刻t_k，第二级服务供应商根据当前的系统状态s(k)计算动作决策，并且向认知无线电路由器广播决策。用a(k)表示在t_k作出的决策，动作a(k)将可用的频谱带宽分配给路由器，因此将a(k)写成[a_e(k)]，表明每个路由器e的频谱分配动作。在所有的决策时刻点t_k执行动作a(k)，其中0<k<K，对于系统形成一个政策L，L＝{a(0),a(1),…,a(k),…,a(K)}，一个最优的政策L^*是获得最大系统收益的政策。

步骤2.3：计算状态转移概率。

(1)计算所有路由器的离散期望值α(e,k)的转移概率。

(2)计算可用的频谱带宽数量β(k)以及α(k)的转移概率及证明s(k)是一个马尔可夫决策过程。

(3)计算状态s(k)的一步转移概率。

步骤2.4：提出目标和收益。

在以信息为中心的多跳认知蜂窝网络系统中，优化目标L^*是最大化总的系统收益，而优化目标L^*与总的系统收益R有关，总的系统收益R由折现系数γ以及离散的α(e,k)决定。

步骤3，进行频谱管理最优化。

步骤3.1：隐藏马尔可夫决策过程再建模。

若用于缓存数据包的可用的采集到的带宽的到达和离开服从泊松过程，μ和v分别作为泊松过程的参数。因为μ和v有不同的可能取值，当作出最优频谱分配决定时需要得知μ和v的实际值，采用隐藏模式马尔可夫决策过程模型。

步骤3.2：扩展的部分可观测马尔可夫决策过程再建模。

将具有隐藏及动态变化参数的马尔可夫决策过程再建模为扩展的部分可观测马尔可夫决策过程，用一个元组来表示这个部分可观测马尔可夫决策过程，描述了扩展的状态空间、动作空间、观测空间、扩展的转移概率、观测函数、扩展的系统收益以及折现系数。

步骤3.3：在线频谱资源管理。

在以信息为中心的多跳认知蜂窝网络中，二级服务供应商在网络初始化阶段进行线下部分可观测马尔可夫决策过程计划，并且存储所有可能的系统状态的最优政策。

与现有技术相比，本发明具有以下优点：

(1)提出了以信息为中心的多跳认知蜂窝网络架构，引入了“以信息为中心”和“联盟”的概念来减少网络通信量以及描述了用户优先权特性；

(2)本发明考虑到用户的分布以及他们之间的联盟，根据期望的命中概率度量提出了主动缓存将受欢迎的内容推送到离用户较近的路由器中；

(3)提出了动态频谱分配方法来最优匹配最合适的无线链路的带宽，考虑到了未知的、变化的网络参数以及路由器端的队列状态；

(4)本发明将频谱分配问题建模成为一个具有隐藏及动态变化参数的马尔可夫决策过程，代替了原有的假设完美的参数值。再将其建模成为一个部分可观测马尔可夫决策过程，这样有效的算法可以采用来解决频谱分配问题。

附图说明

图1为以信息为中心的多跳认知蜂窝网络架构示意图；

图2为本发明所涉及的方法流程图；

图3为不同数量路由器下的平均命中概率曲线；

图4为不同数量路由器下的用户要求的平均跳数曲线；

图5为不同缓存数据包的可用的采集到的带宽的到达和离开速率下的平均命中概率曲线。

具体实施方式

下面结合附图和实施例对本发明做进一步说明。

以信息为中心的多跳认知蜂窝网络架构示意图如图1所示。本发明所述方法的流程图如图2所示，包括以下步骤：

步骤1.1：建立网络模型。

多跳认知蜂窝网络中的认知无线电路由器的总数为E，每个用户属于一个或者多个联盟其中表示所有联盟的集合，表示的大小是Y。由于每个用户设备通过一个路由器接入网络，将每个联盟y中通过路由器e接入的用户的数量表示为u(y,e)。

整个时间线被分割为等长度的时隙，每个时隙表示为其中k是一个非负的整数，是第k个时隙的开始。用t_k表示第k个时隙的决策时间点，在内，所有的路由器执行频谱检测，并将检测结果以及它们传输队列中的第一个数据包的状态报告给二级服务供应商。在t_k时刻，二级服务供应商作出频谱分配决定并通知路由器。在内，如果分配到一个子频带，一个路由器就用分配到的子频带传输它的第一个数据包。β^*(k)表示在t_k时刻采集到的可以使用的频谱带宽的总数，u(y,e,k)表示了在联盟y中通过路由器e接入的用户的数量。

步骤1.2：建立服务模型。

在以信息为中心的多跳认知蜂窝网络中，设定控制、定期、缓存三种类型的通信量，控制信息用于网络管理，缓存数据包携带着从一个网络内缓存转移到另一个网络内缓存的数据，定期数据包负责其他的数据，包含用户的要求、用户数据传输等。用表示所有路由器的集合，分别表示了在t_k时刻第一个数据包是控制数据包、定期数据包、缓存数据包的路由器的集合。用表示在t_k时刻传输队列为空队列的路由器的集合，

因为控制信息实时要求，控制信息具有最高的优先权。缓存数据报是延时容忍的，因为路由器间的缓存数据的转移对于用户要求来说不是即时响应，对于用户可能的未来兴趣的一种网络主动行为。因此，将缓存数据包的优先权设置得低于定期数据包。

每个缓存数据包f包含了属于联盟y的用户的感兴趣的信息，其中是用户都对数据包f感兴趣的联盟的集合。为简单起见，设定固定的缓存数据包的大小。用f_e,e′表示在路由器e的传输队列并且将要传输到目的路由器e′的第一个缓存数据包，f′_e′表示在e′缓存器中具有最低的命中概率的数据。使用一个以信息为中心的路由选择协议为每个缓存数据包f选择一条路线，并且递送这个缓存数据包需要的跳步数用h(f)表示。

步骤1.3：建立频谱采集模型。

考虑正交频分复用作为物理层的技术，令d_LIC和d_CR(k)分别表示在t_k时刻可用的基础带宽和采集到的带宽。频谱带宽的分配原则用于将基础带宽分配给链路进行传输具有较高优先权的数据包，即将基础带宽先分配给控制数据包，然后分配给定期数据包，将采集到的带宽先用于传输定期数据包，如果还有可使用的带宽再分配给缓存数据包。

若用于缓存数据包的可用的采集到的带宽的到达和离开服从泊松过程，μ和v分别作为泊松过程的参数。这样在t_k时刻用于缓存数据包的带宽的数量表示为β(k)，可以将带宽的数量建模为一个马尔可夫过程。

由于初级用户和以信息为中心的多跳认知蜂窝网络中的用户的通信量，可用的频谱带宽数量β(k)的分布可能会变化。用μ₁和v₁表示当初级用户繁忙时的频谱带宽到达和离开的速率，用μ₂和v₂表示当初级用户不繁忙或者空闲时的频谱带宽到达和离开的速率，通常情况下，μ₁<μ₂，v₁>v₂。

步骤1.4：建立网络缓存模型。

当用户要求的数据被缓存时，网络内缓存帮助减少网络通信量。击中概率是通过缓存带来的收益建模的度量之一。为了变现不同用户的优先权，用b(e,y,f)表示期望的击中概率通过联盟y的用户直接连接到路由器e的数据包f内信息的数量，

b(e,y,f)＝u(y,e)σ(y,f)

其中σ(y,f)是期望的联盟y中每个用户直接连接到路由器e的击中的数量。

在将一个缓存数据包从其原始的路由器转移到目标路由器的过程中，由于用户的要求，相同的信息可能在目标路由器中会被缓存。

将频谱管理建模成一个具有隐藏及动态变化参数的马尔可夫决策过程，考虑到了问题中出现的不可观测到的参数问题，并且马尔可夫决策过程是指决策者周期地或连续地观察具有马尔可夫性的随机动态系统，能够序贯地作出决策。

步骤2.1：构建系统状态。

将以信息为中心的多跳认知蜂窝网络作为一个整体目标进行最优化。在每个决策时间点t_k，系统状态s(k)包含E+1个子状态——所有路由器的离散期望值α(e,k)以及可用的频谱带宽数量β(k)，其中

期望击中概率的增长定义为期望值这种增长是在时段内通过转移路由器e中传送队列的第一个数据包f_e,e′获得的。

其中是除了意外的所有联盟的集合，δ(f_e,e′)是目标缓存指标，定义为

K(e)是空队列指标，定义为

这个期望值考虑了网络中传送f_e,e′的驿站，如果其成功地到达了目的地e′，那么总的收益为表明通过将f′_e′替换为f_e,e′获得的期望击中概率的增长。

对于建模一个马尔可夫决策过程，要用离散的收益α(e,k)代替连续的

其中1≤m≤M-2。∈_m，1≤m≤M-1是门限值；1≤m≤M-1是α(e,k)的现实值。当m<m′时，

并且，令1≤n≤N代表在t_k时刻β(k)的现实值。因此系统的状态可以表示成元组

元组的大小为(M+1)^E×N。用表示状态空间，其中和分别是α(e,k)和β(k)的状态空间。

步骤2.2：建立动作和策略。

在每个时刻t_k，第二级服务供应商根据当前的系统状态s(k)计算动作决策，并且向认知无线电路由器广播决策。用a(k)表示在t_k作出的决策，是所有可用动作的集合。a(k)将可用的频谱带宽分配给路由器，因此将a(k)写成来表明每个路由器e的频谱分配动作，

因此所有可用的动作的数量为在每个时刻t_k，只有β(k)个带宽可以被分配，因此只有个动作是实际可用的，即

在所有的决策时刻点t_k执行动作a(k)，0<k<K，对于系统形成一个政策L，L＝{a(0),a(1),…,a(k),…,a(K)}，其中是所有可用政策的集合。

步骤2.3：计算状态转移概率。

(1)计算所有路由器的离散期望值α(e,k)的转移概率。

采取动作a_e(k)＝0后，在时段内，只有当内容被缓存在目的路由器e′时α(e,k)可能会改变。

采取动作a_e(k)＝1后，仍然有很大的可能性α(e,k)和α(e,k+1)的现实值是相同的，这是因为通常多个缓存数据包用于将相同的缓存内容从一个路由器传送到另一个路由器，并且这些数据包有相同的目的路由器和联盟，从而有相同的状态α(e,k)。表示了这种概率，其中是α(e,k)的现实值。

在下面的情况下，α(e,k)和α(e,k+1)的现实值是不同的，若α(e,k+1)独立于α(e, k)，即或者简写为P_α(e)(j)。同样，定义不同路由器的状态之间是相互独立的。

引理1：随机过程α(e,k)是一个马尔可夫决策过程。

证明：考虑a_e(k)＝0，从α(e,k)到α(e,k+1)的转移概率为

其中P_δ是δ(f_e,e′)＝0的概率，是在t_k时刻α(e,k)的现实值。用作为公式(9)的简短形式。

当a_e(k)＝1时，有

由此可推导出

P_α(e)(i,i)＝(1-P_δ)(1-P_k)-P_α(e)(j)

其中P_k是缓冲数据包转移队列为空时的概率。

根据上述公式和α(e,k)是一个马尔可夫决策过程，其一步转移概率只与当前的状态和动作有关。

命题1：随机过程s(k)是一个马尔可夫决策过程。

证明：首先推导出α(k)和β(k)的转移概率。

用表示α(k)从到的一步转移概率。

其中是a(k)的现实值。

推导出了β(k)的分布概率，也是其转移概率，即

其中和是β(k)的现实值，P_μ(n₁)表示在一个时隙内有n₁个新的频谱带宽可用于缓存数据包的概率，P_v(n₂)表示在一个时隙内有n₂个频谱带宽不再用于缓存数据包的概率，定义为n₁和n₂的集合，n₁和n₂满足n₁-n₂＝n。

将简写为P_β(k,k+1)。

(3)计算状态s(k)的一步转移概率。

若α(k)和β(k)是相互独立的，s(k)的转移概率为

显而易见，这个概率不取决于α(k-1),α(k-2),…,α(1)，而是只取决于α(k)和a(k)，因此，s(k)是一个马尔可夫决策过程。

在以上推导的一步转移概率中，μ、v、P_δ、P_k、P_α(e)(j)是未知的并且不能被直接观测到或者随时间变化。

步骤2.4：提出目标和收益。

最优化问题的目标是最大化总的系统收益，写为

用离散的α(e,k)来表示收益，因此总的收益可以表示为

步骤3，进行频谱管理最优化。

步骤3.1：隐藏马尔可夫决策过程再建模。

因为μ和v有不同的可能取值(μ₁、μ₂和v₁、v₂)，当作出最优频谱分配决定时需要得知μ和v的实际值，采用隐藏模式马尔可夫决策过程模型。频谱管理问题符合隐藏模式马尔可夫决策过程模型要求的五个属性。若期望的持续繁忙和空闲时间的时隙的数量分别为和那么将模式转移概率矩阵写为

其中

一个隐藏模式马尔可夫决策过程是特殊的部分可观测马尔可夫决策过程，可以将其转换为一个部分可观测马尔可夫决策过程。用P′、R′、和Q′分别表示状态空间、动作空间、状态转移概率、收益函数、观测空间以及生成的部分可观测马尔可夫决策过程的观测概率。令μ和v的模式空间分别为Φ_μ和Φ_ν，则P′、R′、和Q′可以通过P_s(i,j)和α(e,k)简单地推到得出。

步骤3.2：扩展的部分可观测马尔可夫决策过程再建模。

用离散形式的P_δ′、P_k′和P′_α(e)(j)表示P_δ、P_k和P_α(e)(j)的离散值，P_δ、P_k和P_α(e)(j)的值域分别为Θ_δ、Θ_k和Θ_α(e)(j)，值域的大小分别为|Θ_δ|＝M_δ，|Θ_k|＝M_k，|Θ_α(e)(j)|＝M_α(e)(j)。未知的参数空间Θ可以写为Θ_δ×Θ_k×Θ_α(e)(j)。因此扩展的空间作为部分可观测马尔可夫决策过程状态空间和参数空间Θ的向量积。转移概率更新为

其中s″(k)和s″(k+1)是可扩展的部分可观测马尔可夫决策过程的状态，s′(k)和 s′(k+1)是原始部分可观测马尔可夫决策过程的状态，θ(k)和θ(k+1)是未知参数[μ,v]的参数，(此符号表示上述公式中涉及到的和)代表了一个随机变量的现实值，是克罗内克δ函数并且如果否则

之后执行线下部分可观测马尔可夫决策过程计划，解决这个扩展的部分可观测马尔可夫决策过程问题以获得一个最优的或者近似最优的政策。现存的解决方法通过在信任空间的研究以及最优化期望总收益可以最优平衡勘探与开发。

步骤3.3：在线频谱资源管理。

在以信息为中心的多跳认知蜂窝网络中，二级服务供应商在网络初始化阶段进行线下部分可观测马尔可夫决策过程计划，并且存储所有可能的系统状态的最优政策。如果可用的子频带满足网络中所有路由器的需求，即不需要最优的分配方法。否则，子频带将会先分给有控制和定期数据包的路由器，然后在最优地分配给有缓存数据包的路由器。

下面结合仿真实验结果对不同数量路由器下以及不同缓存数据包的可用的采集到的带宽的到达和离开速率下的平均命中概率分析比较和对不同数量路由器下用户要求的平均跳数进行分析比较。

若固定的数据包大小和子能带宽度，并且缓存内容的平均击中概率为0.2，在一个有E认知无线电路由器和10×E个随机分布并能接入离他们最近的路由器的用户的区域，令P_δ＝0.1，P_k＝0.2。

1.平均命中概率

从理论上讲，网络中有越多的路由器，平均命中概率就会越低。图3是不同数量路由器下平均命中概率曲线，定义μ₁＝0.03，v₁＝0.12，μ₂＝0.15，v₂＝0.10，从图3的曲线走势可以看出，本方法与贪婪的、主动的以及被动的方法相比，显著地提高了性能。当路由器数量相对较小时，平均命中概率逐渐增长，这是因为路由器越多，产生的缓存数据包越多，这会提高缓存分配。但是当E>60时，采集到的带宽不能满足缓存数据包通信量，造成平均击中概率改进的降低。图5是不同缓存数据包的可用的采集到的带宽的到达和离开速率下的平均命中概率，令E＝80，1到5分别代表了{μ₂＝0.09，v₂＝0.16}，{μ₂＝0.12，v₂＝0.13}，{μ₂＝0.15，v₂＝0.10}，{μ₂＝0.18，v₂＝0.07}，{μ₂＝0.21，v₂＝0.04}，从图5的曲线走势可以看出当μ₂增长、v₂减少时，提出的方法和贪婪方法能够从采集到的带宽获得收益，并且与其他方法相比，本算法能够显著地改善性能。

2.用户要求的平均跳数

图4是不同数量路由器下的平均命中概率曲线，展示了平均延时性能。由于网络直径的增长，随着路由器数量的增长，平均用于递送用户要求的数据的跳数快速增加。与其他方法相比，本方法总是能提供较低的平均延时。

Claims

1.中心多跳认知蜂窝网络中的信息主动缓存的频谱管理方法，其特征在于：该方法包括以下步骤：

步骤1，建立系统模型，即以信息为中心的多跳认知蜂窝网络模型；

步骤1.1：建立网络模型；

多跳认知蜂窝网络中的认知无线电路由器的总数为E，每个用户属于一个或者多个联盟其中表示所有联盟的集合，表示的大小是Y；由于每个用户设备通过一个路由器接入网络，将每个联盟y中通过路由器e接入的用户的数量表示为u(y,e)；

整个时间线被分割为等长度的时隙，每个时隙表示为其中k是一个非负的整数，是第k个时隙的开始；用t_k表示第k个时隙的决策时间点，在内，所有的路由器执行频谱检测，并将检测结果以及它们传输队列中的第一个数据包的状态报告给二级服务供应商；在t_k时刻，二级服务供应商作出频谱分配决定并通知路由器；在内，如果分配到一个子频带，一个路由器就用分配到的子频带传输它的第一个数据包；β^*(k)表示在t_k时刻采集到的可以使用的频谱带宽的总数，u(y,e,k)表示了在联盟y中通过路由器e接入的用户的数量；

步骤1.2：建立服务模型；

在以信息为中心的多跳认知蜂窝网络中，设定控制、定期、缓存三种类型的通信量，控制信息用于网络管理，缓存数据包携带着从一个网络内缓存转移到另一个网络内缓存的数据，定期数据包负责其他的数据，包含用户的要求、用户数据传输；用表示所有路由器的集合，分别表示了在t_k时刻第一个数据包是控制数据包、定期数据包、缓存数据包的路由器的集合；用表示在t_k时刻传输队列为空队列的路由器的集合，

因为控制信息实时要求，控制信息具有最高的优先权；缓存数据包是延时容忍的，因为路由器间的缓存数据的转移对于用户要求来说不是即时响应，对于用户可能的未来兴趣的一种网络主动行为；因此，将缓存数据包的优先权设置得低于定期数据包；

每个缓存数据包f包含了属于联盟y的用户的感兴趣的信息，其中是用户都对数据包f感兴趣的联盟的集合；为简单起见，设定固定的缓存数据包的大小；用f_e,e′表示在路由器e的传输队列并且将要传输到目的路由器e′的第一个缓存数据包，f′_e′表示在e′缓存器中具有最低的命中概率的数据；使用一个以信息为中心的路由选择协议为每个缓存数据包f选择一条路线，并且递送这个缓存数据包需要的跳步数用h(f)表示；

步骤1.3：建立频谱采集模型；

考虑正交频分复用作为物理层的技术，令d_LIC和d_CR(k)分别表示在t_k时刻可用的基础带宽和采集到的带宽；频谱带宽的分配原则用于将基础带宽分配给链路进行传输具有较高优先权的数据包，即将基础带宽先分配给控制数据包，然后分配给定期数据包，将采集到的带宽先用于传输定期数据包，如果还有可使用的带宽再分配给缓存数据包；

若用于缓存数据包的可用的采集到的带宽的到达和离开服从泊松过程，μ和v分别作为泊松过程的参数；这样在t_k时刻用于缓存数据包的带宽的数量表示为β(k)，可以将带宽的数量建模为一个马尔可夫过程；

由于初级用户和以信息为中心的多跳认知蜂窝网络中的用户的通信量，可用的频谱带宽数量β(k)的分布可能会变化；用μ₁和v₁表示当初级用户繁忙时的频谱带宽到达和离开的速率，用μ₂和v₂表示当初级用户不繁忙或者空闲时的频谱带宽到达和离开的速率，通常情况下，μ₁＜μ₂，v₁＞ν₂；

步骤1.4：建立网络缓存模型；

步骤2，建立具有隐藏及动态变化参数的马尔可夫决策过程系统；

将频谱管理建模成一个具有隐藏及动态变化参数的马尔可夫决策过程，考虑到了问题中出现的不可观测到的参数问题，并且马尔可夫决策过程是指决策者周期地或连续地观察具有马尔可夫性的随机动态系统，能够序贯地作出决策；

步骤2.1：构建系统状态；

将以信息为中心的多跳认知蜂窝网络作为一个整体目标进行最优化；在每个决策时间点t_k，系统状态s(k)包含E+1个子状态——所有路由器的离散期望值α(e,k)以及可用的频谱带宽数量β(k)，其中

期望击中概率的增长定义为期望值这种增长是在时段内通过转移路由器e中传送队列的第一个数据包f_e,e′获得的；

其中是除了以外的所有联盟的集合，δ(f_e,e′)是目标缓存指标，定义为

K(e)是空队列指标，定义为

这个期望值考虑了网络中传送f_e,e′的驿站，如果其成功地到达了目的地e′，那么总的收益为表明通过将f′_e′替换为f_e,e′获得的期望击中概率的增长；

其中，1≤m≤M-2；∈_m，1≤m≤M-1是的门限值；是α(e,k)的现实值；当时，m′表示在t_k+1时刻m的值；

并且，令代表在t_k时刻β(k)的现实值；因此系统的状态可以表示成元组

元组的大小为(M+1)^E×N；用表示状态空间，其中和分别是α(e,k)和β(k)的状态空间；

步骤2.2：建立动作和策略；

在每个时刻t_k，第二级服务供应商根据当前的系统状态s(k)计算动作决策，并且向认知无线电路由器广播决策；用a(k)表示在t_k作出的决策，是所有可用动作的集合；a(k)将可用的频谱带宽分配给路由器，因此将a(k)写成[a_e(k)]，来表明每个路由器e的频谱分配动作，

在所有的决策时刻点t_k执行动作a(k)，0＜k＜K，对于系统形成一个政策L，其中是所有可用政策的集合；

步骤2.3：计算状态转移概率；

步骤2.4：提出目标和收益；

最优化问题的目标是最大化总的系统收益，写为