CN105636062B

CN105636062B - 一种面向业务适度服务的认知无线网络传输学习方法

Info

Publication number: CN105636062B
Application number: CN201610046073.3A
Authority: CN
Inventors: 秦航; 余华平
Original assignee: Yangtze University
Current assignee: Yangtze University
Priority date: 2016-01-25
Filing date: 2016-01-25
Publication date: 2019-02-26
Anticipated expiration: 2036-01-25
Also published as: CN105636062A

Abstract

本发明涉及一种面向业务适度服务的认知无线网络传输学习方法，包括如下步骤：步骤1，采集实时业务和优先级信息；步骤2，建立白空间矩阵和干扰矩阵；步骤3，根据节点可行行动、业务传输时间，计算路由和时延；步骤4，进行本地信息和优先级的分布式协同设计；步骤5，获取信息交换自由度和自由度限制条件；步骤6，通过传输协作和信息交换，对多业务应用进行自适配；步骤7，根据和模型无关的分布式强制学习，建立频谱切换；步骤8，根据服务质量检验是否满足用户需求。本发明采用和模型无关的分布式强制学习来提高多跳认知无线网络上多样性实时需求业务的性能，提出信息交换自由度建构一种综合性的业务数据跨层管理方法，使得整个网络具备业务普适。

Description

一种面向业务适度服务的认知无线网络传输学习方法

技术领域

本发明提供一种端到端业务适度服务的数据传输方法，特别是关于认知无线网络中采用信息交换自由度的认知过程方法，属认知无线网络设计应用技术领域。

背景技术

认知无线电是一个具备动态频谱接入的频率-灵敏无线通信设备，其巨大潜力激发了在工程、经济、监管社区中寻求更好的频谱管理和共享方针，是未来无线通信领域的下一个大事件。以认知无线电为基础构建的认知无线网络，是由支持认知无线电技术的终端、相关基础性设施、控制策略组成的无线网络。认知无线网络具备一系列感知过程，在各个过程中可以收集网络环境的时空信息，包括从每个节点提取网络中每层的参数变化，以此确定最正确的网络参数，满足网络中单个节点、端到端乃至一组节点的通信目标需求。

支持认知无线电技术的终端、相关基础性设施与控制策略组成的无线网络的作用已经在多个领域得到充分肯定，如智能电网、设备到设备网络、军事通信、GPS定位、医疗体育网等。未来移动通信的业务种类和服务质量需求越来越多样化，而网络的服务能力却是有限的，这导致了业务需求与网络固有能力之间的差距越来越大，最终将使得网络难以支持多样化的业务。认知无线电的研究焦点主要集中在动态频谱接入，但是认知无线网络应用层的性能没有被仔细讨论过。一些重要的问题，例如什么应用能够充分利用频谱白空间，以及是否现有的无线协议能够提供满意的性能，依然没有得到解决。“带宽-饥饿”的业务应用是充分发挥认知无线电潜力的基础，因此，对认知无线网络中如何提高端到端效能来促进业务应用问题的讨论非常重要。

然而，上述问题在无线环境下存在两个技术挑战：第一个挑战，是在水平方向上满足多样性业务需求，这需要针对频谱资源的不同业务量的时空分布、优先级，然后充分利用信道、干扰、业务的动态变化特征，对多样性业务需求进行分析，最后识别可用的频谱空洞。第二个挑战，是在垂直方向上实现网络体系结构各层(物理层、MAC层、路由层、链路层)的跨层优化，这需要一个合适的频段分配和速率自适应方法对次用户(未授权)的需求进行确认，在不受主用户(授权)干扰的情况下，满足次用户服务质量需求。新型无线实时业务一方面需要维护大量共享数据和控制信息，这些数据、信息往往是短暂的；另一方面其活动有很强的即时约束特性。针对上述特征，需要依据频谱机会、干扰情况和信息利益，对无线实时业务中的跨层分配展开设计，使之具备自主适变特性。

发明内容

为了建立高效能的服务机制，本发明在上述水平和垂直方向上通过按比例公平，来采集业务数据和信息交换自由度，以便自适应地匹配资源，并且以整网频谱利用率最高为准则来探寻最优的多维业务类型信息的利用方式。目标是在网络和业务之间，能建构一种综合性的业务数据跨层管理方法，使得整个网络具备业务普适。

本发明提出了一个实时多样化业务的认知无线网络传输学习方法，来适应业务动态变化特性之间的内在联系，建立多标准优化的端到端效能的无线传输。本发明可广泛应用于认知无线网络环境中。

为了实现上述目的，本发明采取如下技术方案：

(1)采集实时业务和优先级信息；

(2)建立白空间矩阵和干扰矩阵；

(3)根据节点可行行动、业务传输时间，计算路由和时延；

(4)进行本地信息和优先级的分布式协同设计；

(5)获取信息交换自由度和自由度限制条件；

(6)通过传输协作和信息交换，对多业务应用进行自适配；

(7)根据和模型无关的分布式强制学习，建立频谱切换；

(8)根据服务质量检验是否满足用户需求。

所述步骤(1)中，多跳环境下，认知无线网络由主用户、次用户、网络中继组成。认知无线网络包含3个集合，即一个主用户集，一个包括次用户和网络中继传输的网络节点集，和一个连接次用户和网络中继传输的网络链路集。网络里有多个节点和多条链路，节点要么是次用户，要么是中继传输节点。为了避免主用户干扰，网络节点在频谱空洞下进行传输，因此，网络节点要建立一条邻居节点链路，节点仅采用可用频段集。

业务特征的差异性需要着眼于无线网络服务的对象(用户)和无线网络传递的对象(信息)。业务对网络的需求越来越多样和多变，网络节点的业务资源用业务矩阵描述，包括不同链路和频段组成的路由。在业务矩阵中，1表示指定频段可用且链路和节点相连，0表示频段不可用或无连接。业务资源矩阵不仅取决于网络拓扑连接，而且取决于相同的频段上的通信干扰。

网络承载的用户实时业务应用有多个，且由多个优先级的数据包组成，其中最高优先级针对主用户的实时业务。相应地，其余的优先级能用一个三元组，即平均数据包长度、影响力、数据包时延截止期来确定。优先级决定了频谱接入能力。除了主用户频段的最高优先级，还有次用户伺机接入频段的优先级。主用户具备最高优先级，因此在任何时间接入频段；相反，次用户仅能接入频谱空洞。由于受到多跳网络环境的影响，如干扰、信号强度、多跳，等等，次用户会对主用户感知减弱，次用户也会对主用户产生干扰，这些干扰依赖于主用户的位置。

所述步骤(2)中，假设频谱机会对次用户可用，主用户会阻止所有邻居链路采用频段，节点感知该信道，并获得主用户的白空间矩阵。在白空间矩阵中，1表示主用户占用指定频段，且链路和主用户干扰，否则为0。

在优先级的干扰矩阵中，1表示如果链路采用指定频段能被优先等级干扰，否则为0。无线环境下，邻居链路彼此干扰，且网络节点能和其它中继传输节点互相干扰。为了进行协调，干扰矩阵由邻居节点的信息交换进行计算。另外，更高优先级的白空间矩阵和干扰矩阵将影响可用业务矩阵。

建立干扰矩阵时需要考虑下面两种情况。第一种情况下，网络节点能够同时传送、接受差异化业务，节点不能重用邻居节点使用的频段。如果频段被邻居节点使用，那么频段中的干扰矩阵的所有元素置为1。第二种情况下，网络节点不能同时传送、接受差异化业务。如果采用指定频段，那么频段中的干扰矩阵中的所有元素置为1。而且，如果邻居节点采用网络链路，那么不管采用何种频段，节点干扰矩阵中的所有元素也置为1。

所述步骤(3)中，为了实现实时业务中继，网络节点会有一个可行行动。网络中继传输选择邻居节点的链路集，为了配合行动，用一个次用户服务向量来表示网络节点选择上述行动的概率。该情况下，选择的链路和频段不会和更高优先级的通信发生干扰。

为了计算优先级下的实时业务传输时间，在指定频段下，需要结合节点在链路上的传输速率和误包率，并通过物理层和MAC层的链路调整进行估算。每个“链路－频段”对的信道条件由一个有限状态数的连续时间马尔科夫链来表示，主用户依据一个时间片同步结构利用频段，频段的使用服从离散的马尔科夫过程。

行动向量为实时业务的所有网络中继传输节点的向量。实时业务从源节点发送数据包到目的节点，其路由即数据包通过的“链路－频段”对集合。

如果中继传输节点的行动改变，那么实时业务的路由也会改变。根据上述拓扑，每个收到数据包的中继传输节点会决定在何处中继传输数据包，以及采用何种频段来减少端到端时延。然后，源节点需要按照中继传输节点的行动获得其它节点的时延信息。

所述步骤(4)中，实时业务的目标在于最小化端到端时延。分布式方法与集中式方法相比，能通过周期性地收集本地信息，因此更好地满足多无线电、多频带设备环境。多标准优化解依赖于不同的数据包多跳传输的时延，源节点的数据传输需要得到及时中继。

为了不在源节点收集互联信息，采用一个分布式多标准优化方案来收集节点的本地信息，(即多跳环境中节点本身的信息，包括各种业务参数和时间参数。无线网络中，需要先收集本地信息，再进行多跳的业务数据传输。)使得差异化实时业务应用的时延期望最小。每个节点中，发送数据包的端到端的时延需要分解。为了计算时延期望，网络节点需要有一个估计传输时延。同时，节点需要保持并更新每个优先级的时延向量，其中第一个优先级为主用户保留。

所述步骤(5)中，本地信息采用一个协作控制频段来进行交换。次用户服务的数据传输按时间分片，包括时间片持续时间和网络节点的协作间隔。每个节点在时间片中和协作间隔后选择行动。协作间隔除了包含白空间矩阵和干扰矩阵，也包括时延向量和RTS/CTS协作的控制消息。每个时间片中的协作间隔能给频段伺机接入提供可行行动集和数据包传输的中继传输选择。不同的本地信息对目标函数有不同的影响。

接下来，需要获得相关等级中信息的回报利益。在静态网络中，如果节点收到信息，那么信息回报被视作是按照时延期望所带来的利益。通过计算可以得到最优时延期望，它是一个跳数的递减函数，即时延期望越小，信息收集得越多。减少期望时延可以由信息回报进行量化。当更多的节点信息到达决策节点时，信息很可能过时。由于业务量的时空分布呈现出的动态特性，所以信息不能在动态环境中准确地反应网络位置。一旦信息过时，收集过时的信息没有用，即没有获得利益。因此，需要用信息自由度作为寻找具有最大评分的参量。假设信息自由度仅是网络变化速度的一个函数，信息交换需要由次用户中的最高优先级确定。信息自由度为信息传输的最大跳数，这样该网络被视作是不变的，而任何网络变化在间隔中被忽略。

假设信息自由度内的网络节点组成了一个信息单元，邻居节点为能和网络节点互相干扰的节点，会和在一定跳内的自由度范围不一致。如果所有的邻居节点在一定跳的自由度内，那么所有的信息都能及时地传送到节点中去；否则，太远的邻居节点不能及时地传送干扰信息到节点中，这种情况即信息交换不匹配。

信息交换所带来的成本，即增加的期望时延。在时间片中，有一个信息不断交换的间隔，和一个学习过程中进行决策的次数。在指定的协作频段中进行信息交换，带有简单天线的网络节点同时传输数据和控制信号，是不可能实现的。因此，信息交换的时间费用会减少节点采用链路和频段的有效传输率。增加有效传输时间会使多样性需求业务的性能发生降级，该降级依赖于本地信息交换的内容和网络变化速度。

所述步骤(6)中，多跳环境下，本发明的分布式资源自适配方法通过信息交换来协调邻近节点间多样性实时需求业务。首先，节点由优先级三元组中的影响力从业务覆盖中选择数据包，该数据包有一个行动。同时，把优先级三元组中的时延截止期、数据包长度的应用层信息传送到该行动的网络层中。然后，在物理层和MAC层中传送网络条件，并计算出业务传输时间。

除了传输速率和误包率，邻居节点行动产生的干扰会影响行动选择，所以邻居节点收到的信息在信息自由度内。节点获得从邻居节点到达目的节点的估计时延，以及邻居节点的行动和干扰矩阵。根据邻居节点的时延信息，网络节点能够更新其到达不同目的节点的估计时延，并且能识别最小时延的行动。

然后把多业务应用的自适配分成传输协作过程和信息交换过程两部分。其中，传输协作过程根据3个阶段来选择最优行动：初始化阶段，需要确定待传数据包；报告阶级，需要建立可行行动集，并估计频段条件，然后计算时延期望；协商阶段，需要根据时延截至期，选择最佳策略。信息交换过程则根据初始化阶段、学习阶段、业务矩阵估计阶段、干扰矩阵建立阶段这4个阶段来收集本地信息。可行行动集依赖于其它邻居节点的行动，网络节点需要采用学习方法对网络节点的行为进行自适配，并降低动态调整的复杂性。

所述步骤(7)中，为了提高实时业务性能并适应业务量时空分布的动态特性，认知无线网络需要有多个自治节点，即智能体(Agent)，每个节点能根据本地信息进行调整、做传输决策、并协商无线资源。现有技术忽视了节点间的联合动态特征，但是，邻居节点行动的描述、学习以及活动随着时间的变化却在多样性需求业务的高效率和健壮性上起着关键作用。因此，本发明根据知识学习网络动态变化，以及调整跨层传输决策来高效利用共享、时变的网络资源。针对无线网络上的差异化适度服务环境，该预测能提高了主体的效能。

设计一个智能频谱切换策略，其中调整次用户集来提供端到端适度服务。这可以通过把频谱切换决策用一个作为活动回报的马尔科夫决策过程来实现，并需要学习可行行动集。根据信息交换，并针对该行为确定可行行动集，能学习邻居节点在信息单元内的行为。随后，采用分布式强制学习，来寻找最优决策政策。该方法不需要转换和回报模型，使得次用户寻找最优政策。即采用一个针对行动序列，并按照次用户连接状态、次用户连接活动、次用户连接回报、次用户连接的在线学习，来满足高能效资源匹配。

虚拟行动通过一个包含奖惩信息和可行行动集来利用领域知识。可行行动集依据干扰矩阵和白空间矩阵。主体在每个状态选择合适的动作执行到业务量的时空分布性能，如时延、优先级、按比例公平、丢包率中，使其转换为一个新的状态。一方面，主体根据要完成的任务进行判断，得到范围调整；另一方面，主体根据动作效果的先验知识，进行最小时延行动选择。为了更好地实现业务流和控制流的交换，需要一个基于策略向量确定和干扰矩阵确定的调整。

所述步骤(8)中，根据服务质量检验是否满足用户需求，需要从无线网络服务的对象(用户)和无线网络传递的对象(信息)两方面展开检验。如果能实现业务适配，则结束流程；否则，从获取信息交换自由度步骤重新开始执行。

本发明与现有的技术相比，具有如下有益效果：

1、本发明提出了一个差异化业务适度服务的数据传输方案，并采用和模型无关的分布式强制学习来提高多跳认知无线网络上实时业务应用的性能。

2、本发明针对自治的次用户集，设计了信息交换来学习频谱机会，在多业务的动态时空分布下，本发明提出的方法能很好地满足通用多无线电网络的服务质量需求。

3、本发明为了减少端到端时延期望的影响，在自适应虚拟行动中定义了信息交换自由度，建构一种综合性的业务数据跨层管理方法，使得整个网络具备业务普适。

附图说明

图1：为本发明的整体结构流程示意图

图2：为本发明的次用户差异化业务集的优先级调度图

图3：为本发明的时间片和节点的传输时间图

图4：为本发明的信息自由度自主学习流程图

具体实施方式

为了使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

下面结合附图和实施例对本发明作进一步说明。

本发明提供的一种面向业务适度服务的认知无线网络传输学习方法，包括如下步骤：

(1)采集实时业务和优先级信息；

为了体现以用户为中心，认知无线网络用G(P,N,E)描述，主用户集P＝{P₁,…,P_Q}，网络节点集N＝{n₁,…,n_N}，网络链路集为E＝{e₁,…,e_L}。网络中有N个节点和L条链路，这些节点或是一个次用户，或是一个中继传输节点。网络中的频段集为M＝{M₁,…,M_Q}，Q为频段总数。为了使用多点采样、分布式多次的方法来获得实际环境的业务数据，网络节点n的业务矩阵S_n＝[S_ij]∈{0,1}^L×Q表示如下：

不同类别的用户对业务的需求存在较大差异。为了实现高精度的业务类型特征提取，令R_i为次用户i的实时业务需求，R_i由G_i个优先级的数据包组成，共有U个业务。设定共有G个优先级，优先级集合C＝{C₁,…,C_G}，其中主用户(授权)占有最高优先级C₁。相应，次用户(未授权)等级C_g(g＞1)用元组(L_g,ρ_g,D_g)进行描述和确定：其中，L_g为等级C_g中的平均数据包长度，ρ_g为等级C_g的影响力，D_g为等级C_g中数据包的时延截止期。影响力能区分实时业务需求等级的优先次序，如果g＜g′(g＝2,…,G)，会有ρ_g≥ρ_g′。最终，影响力封装起来，放在数据包头部。

如图2所示，多媒体传输(如无线设备到设备应用、分布式搜索、分布式流媒体)是业务适度服务的典型例子。无线网络所需传递的信息可以通过用户和业务两个维度进行刻画，用户先产生多样化的信息需求，然后再映射为多样化业务。实时业务需求R₁,R₂,R_U结合频段M₁,…,M_Q，依据主用户集P₁,…,P_Q，由业务覆盖和次用户服务生成不同频段集的虚拟队列。次用户服务在经历频谱切换后实现，需要根据封装在包首部的影响力来发送最重要的数据包。

(2)建立白空间矩阵和干扰矩阵信息；

网络节点n通过频谱感知，获得的白空间矩阵O_n＝[O_ij]∈{0,1}^L×Q表示如下：

优先级C_g(g≥2)的干扰矩阵为I_n＝[I_ij]∈{0,1}^L×Q：

相应地，业务矩阵表示网络节点n在等级C_g中所收更高优先级干扰的差异化业务资源，那么表示矩阵反转操作。

(3)根据节点可行行动、业务传输时间，计算路由和时延；

网络节点n的行动为A_n＝(e∈E_n,M∈M_n)。假设一个网络中继n能选择邻居节点的链路集网络节点n的次用户服务向量为s_n＝[s_A|A＝(e∈E_n,M∈M_n)]，网络节点n选择行动A的概率是s_A。A＝(e,M)是的可用资源，即的元素S_eM＝1，等级C_k中节点n的所有可行行动集是可表示成

考虑到信息内容具有严格的时效性，每个网络节点n计算出实时业务传输时间在优先级C_k下，e∈E_n,M∈M_n：

和分别表示节点n采用频段M在链路e上的传输速率和误包率。假设每个“链路－频段”对的信道条件能由一个有限状态数的连续时间马尔科夫链来描述。Q个频段的使用服从离散的马尔科夫过程。时间片t的网络状态为表示频段q空闲(0)或忙(1)的状态。

行动向量A_i＝[A_n|n∈θ_i]是R_i的所有网络中继传输节点的向量。假设R_i从源节点发送q_i个数据包到目的节点那么其路由定义为ψ_i＝{ψ_ij|j＝1,…q_i}，其中ψ_ij为R_i中第j个数据包的路由。路由ψ_ij为数据包通过的链路－频段对的集合，即

θ_ij＝{(e,M)|R_i中的第j个数据包采用频段M通过链路e}

如果一个中继传输节点的行动改变，相应的中继传输R_i的路由ψ_ij(A_i)也会改变，采用路由ψ_ij(A_i)的数据包传输时延为d_ij(ψ_ij(A_i))。根据该拓扑结构，每个收到数据包的网络中继传输节点能决定在何处中继数据包，以及采用何种频段来减少端到端的时延。为了计算数据包传输时延，源节点需要按照中继传输节点的行动获得其它节点的时延信息，即R_i∈C_g。

(4)进行本地信息和优先级的分布式协同设计；

在每个节点n中，发送一个数据包j∈C_g的端到端时延能进行如下分解：

表示数据包j∈C_g从节点n到达目的节点的时延期望，为数据包j到达节点n之前经历的时延。影响力ρ_g的业务覆盖决定发送数据包j∈C_g。ρ_g的信息封装到数据包首部，且能根据数据包首部中的时间戳来计算。每个节点的优先权调度器确保高优先级不受低优先级影响。既然节点n中的固定，那么跨层多标准优化问题变成：

其中，表示等级C_k中的数据包从中继传输节点n到达目的节点的时延期望。ξ表示一个使概率很小的安全间隔。为了评估时延期望需要有一个估计传输时延设定每个节点n保持并更新每个优先级的时延向量其中第一个优先级为主用户保留。

(5)获得信息交换自由度和信息单元限制条件(信息利益、信息自由度)；

如图3所示，假设本地信息L_n采用一个协作控制频段来进行交换。传输按时间分片，令t_s为时间片持续时间，d_c(L_n)为网络节点n的协作间隔。每个节点在时间片中和协作间隔后选择行动A_n。除了白空间矩阵和干扰矩阵，协作间隔也包括时延向量d_n和控制消息RTS/CTS。每个时间片中的协作间隔，能给频段伺机接入提供可行行动集和数据包传输的中继传输选择。

不同的本地信息L_n对于减少的目标函数有不同的影响。令为邻居节点收集的本地信息，它距离节点n有x跳的距离，表示和节点n有x跳距离的节点集。令L_n(x)＝{I_n(l)|l＝1,…,x}为所有的邻居节点收集到的本地信息。针对本地信息，令最优时延期望为 x越大，时延期望G_n(g,x)越小。

令V_n(g,I_n(x))为等级C_k中信息I_n(x)的回报利益。在静态网络中，V_n(g,I_n(x))定义为：V_n(g,I_n(x))＝G_n(g,x-1)-G_n(g,x)。

因为L_n(1)＝I_n(1)，所以V_n(g,I_n(1))＝G_n(g,1)。如果节点n收到信息I_n(x)，那么信息回报V_n(g,I_n(1))被视作是按照时延期望所带来的利益。针对信息I_n(x)，最优时延期望G_n(g,x)可表示为：

一旦信息过时，那么即收集过时的信息没有获得利益。在动态网络中，一旦那么对于x≤x′≤h_n有因此，定义信息自由度DoF(k,v)为：

DoF_n(k,v)≡argmaxx，

其中λ(g,v)≥0表示实时业务带来的最小时延变化，该实时业务确定在等级C_k中收到本地信息的最小利益。DoF_n(g,v)依赖于无线网络的移动变化速度v。在移动环境下，需要有一个更高的阈值φ(g,v)，使得信息I_n(x)依然有价值且用来交换。于是产生更小的信息自由度DoF_n(g,v)，其中信息自由度DoF_n(g,v)随着不同的优先级改变。和低优先级相比，高优先级具备更多的网络资源，如果g＜g′，那么阈值λ(g,v)≤λ(g′,v)，于是有DoF_n(g,v)＞DoF_n(g′,v)。即一个高优先级C_g的信息自由度DoF_n(g,v)比一个低优先级C_g′的信息自由度z_n(g′,v)大。

假设信息自由度仅是网络变化速度v的一个函数，即DoF_n(g,v)＝DoF(v)。信息自由度DoF(v)需要由次用户中的最高优先级确定。信息自由度DoF(v)被定义为在τ内信息传输的最大跳数，这样该网络被视作是不变的，而在间隔η(v)≤1/v中的任何网络变化能被忽略。

下面来看针对信息交换所带来的成本，即期望时延的增加。在时间片中，t_s(v)是网络中信息不断交换的间隔。定义η秒内有c个时间片，即t_s(v)＝η(v)/c，c为学习过程中进行决策的次数。和η相比，每个t_s和时间片的持续时间足够短，因此可忽略t_s中的网络改变。

(6)通过传输协作过程和信息交换过程，对多业务应用进行自适配；

首先节点n由影响力ρ_g从业务覆盖中选择一个数据包j∈C_g，该数据包有一个行动A_n。然后把C_g,L_g,D_g的应用层信息传送到该行动的网络层中。然后在物理层和MAC层中传送网络条件并计算出业务传输时间。

除了传输速率和误包率这些邻居节点行动产生的干扰会影响行动选择，所以邻居节点收到的信息在信息自由度内，其中L_n(z)＝{I_n(l)|l＝1,…,z}。－n(h)为网络节点n在z跳的信息单元内的邻居节点集，网络节点的本地交换信息L_n(z)＝{I_g(-n(z),A_-n(z)),A_-n(z),d_-n(z)}。节点n获得从邻居节点到达目的节点的估计时延d_-n(z)，以及邻居节点的行动A_-n(z)和干扰矩阵I_k(-n(z),A_-n(z))。根据邻居节点的时延信息d_-n(z)，网络节点能够更新到达不同目的节点的估计时延，并且能识别最小时延的行动。然后，在每个时间片周期性地重复执行以下两个过程：

①在传输协作中，在初始化阶段，假设数据包j∈C_g，C_g,L_g,这些业务信息在应用层计算，根据影响力，分配一个在节点n上缓冲的数据包j来进行传输；在报告阶级，需要针对信息交换接口中优先级C_g在节点n上的业务矩阵建立可行行动集然后通过链路调整，给物理层和MAC层提供链路频段对上的传输速率和误包率在协商阶段，如果则丢掉该数据包，否则寻找最小时延路由和频段选择，即在可行行动集上寻找最优行动

在报告阶段，等级C_k的每个行动可以计算出时延期望：其中，为邻居节点n′(A_n)在等级C_k中的时延向量d_-n上的元素。而在协商阶段，在确定下一中继和频段后，发送确定行动信息的RTS请求到下一中继传输中去，等待CTS反应并传送数据包。选择最优行动后，更新估计时延然后给信息交换接口提供更新的时延向量。

②在信息交换中，在初始化阶段，网络节点n收集白空间矩阵和邻居节点在信息单元内的信息I_g(-n(z),A_-n(z)),A_-n(z),d_-n(z)；在学习阶段，通过邻居节点行动，能够对节点n邻居节点的行为进行确认，或者采用策略向量s(n′)＝[s_A(n′)|A＝(e∈E_n′,M∈M_n′)]来获得更好的次用户服务，其中n′∈-n(z)，策略向量中的s_A(n′)表示节点n′选择一个行动A的概率；在业务矩阵估计阶段，在邻居节点n′收集的白空间矩阵和干扰矩阵I_k(n′,A_n′)中，每个优先级获得业务矩阵并给网络层实时资源管理模块提供可用资源在干扰矩阵建立阶段，更新信息要根据最新选择的行动、最迟时延变量和干扰矩阵I_g(n,A_n)。最后，干扰矩阵和在预定义信息自由度内的节点进行交换。

(7)根据和模型无关的分布式强制学习，建立频谱切换。

接下来设计一个智能频谱切换策略，通过次用户调整来提供端到端适度服务。频谱切换决策可以用一个作为活动回报的马尔科夫决策过程来实现。根据信息交换L_n(z)，并针对该行为确定可行行动集能学习邻居节点在信息单元内的行为。

一个有限状态的马尔科夫决策过程表示为一个元组(S,A,T,R)，其中S为系统状态集；A为每个状态的候选行动集；T＝{P_s,s′(a)}为条件转换概率集，其中P_s,s′(a)为当在状态s中采用行动a且从状态s到s′的状态转换概率；并且表示当采用活动a∈A且s∈S时的费用。该马尔科夫决策过程由下面的迭代步骤组成：首先，智能体(Agent)感知环境并观察s∈S；其次，基于s，智能Agent选择活动a∈A来在环境上执行；再次，环境从新状态s′进行转换，并产生一个回报(费用)r∈R；然后，智能Agent接收回报并用来更新方针；最后，重复上述过程。

如果已知马尔科夫决策过程的转换和回报，就能够采用活动迭代来得到每个次用户的最优状态。其复杂性近似为n²，n为状态数。上述方法在状态空间小的时候很有效，但是随着复杂性的递增和动态特征，概率转换函数变得很难推导。所以，需要采用一个和模型无关的分布式强制学习方法，来寻找最优决策政策。该方法不需要转换和回报，使得次用户寻找最优政策MOPT(s)∈A，即一个对于s的行动序列{a₁,a₂,a₃,…}，来长期最大化全体期望折扣回报(或减少费用)：

①次用户连接状态：对于一个给定的次用户连接，在第i+1次中断前的网络状态表示为M_k为第i+1次中断发生时，次用户服务时的频段。表示频段M_k误包率的条件。和分别表示类型优先级j经历第i次中断的次用户在频段M_k上的到达速率和服务时间。

②次用户连接活动：当次用户连接中断时，需要选择待在当前频段，或者交换到另一个可用频段中去。令为次用户在状态s_j,i及第i+1次中断时的候选活动。为频段选择参数，用来确定选择频段M_k作为传输频段及在第i+1次中断时的概率。当期望频谱切换时延超过时延截止期时，数据包会丢掉。

③次用户连接回报：对于切换，一个活动的回报r定义为多媒体传输的预测端到端效能。期望端到端效能由两部分组成，即由于信道条件的误包率和当频谱切换期望时延超过时延截止期的丢包率。通过这个回报函数，强制学习用来最大化端到端效能，并平衡频谱切换引起的时延。应用业务高优先级的期望时延，不会受其它低优先级的次用户影响。但是，如果次用户属于低优先级，会考虑把高优先级流量的影响作为端到端效能标准，并根据基于优先级的排队模型。

④次用户连接的在线学习：智能Agent在第i+1次中断时的目标，是寻找一个最优活动，来在当前政策MOPT(s_j,i,a_j,i)下最大化端到端效能。

(8)根据服务质量检验是否满足用户需求。

针对业务种类和服务质量需求的多样化，依据上述业务适配情况，进行调整，或者结束流程，或者进行信息交换自由度DoF(k,v)的调整。

说明书中未阐述的部分均为现有技术或公知常识。本实施例仅用于说明该发明，而不用于限制本发明的范围，本领域技术人员对于本发明所做的等价置换等修改均认为是落入该发明权利要求书所保护范围内。

Claims

1.一种面向业务适度服务的认知无线网络传输学习方法，其特征在于：该方法包括以下步骤：

步骤1：为每个网络节点建立业务资源矩阵，根据实时业务的差异性定义实时业务的优先级；

所述业务资源矩阵包括由不同链路和频段组成的路由；矩阵中1表示指定频段可用且链路和节点相连，0表示频段不可用或无连接；网络节点n的业务矩阵S_n＝[S_ij]∈{0,1}^L×Q表示如下：

其中L为链路总数，Q为频段总数，链路e_i属于链路集E＝{e₁,…,e_L}，频段M_j属于频段集M＝{M₁,…,M_Q}；

步骤2：根据主用户是否占用某一频段以及是否和某一链路发生干扰建立白空间矩阵；根据链路采用某一频段是否干扰高优先级链路建立干扰矩阵；所述白空间矩阵和干扰矩阵用于描述业务量的时空分布呈现的动态特征；

优先级C_g(g≥2)的干扰矩阵为I_n＝[I_ij]∈{0,1}^L×Q：

相应地，业务矩阵表示网络节点n在等级C_g中所收更高优先级干扰的差异化业务资源，那么表示矩阵反转操作

步骤3：根据节点可行行动、业务传输时间，计算实时业务从源节点发送数据包到目标节点的路由和估计时延d_ij(ψ_ij(A_i))表示如下：

其中，ψ_ij为R_i中第j个数据包的路由，A_i＝[A_n|n∈θ_i]是R_i的所有网络中继传输节点的行动向量，ST_ng为网络节点n在等级C_g中采取行动向量A_i的业务传输时间；

步骤4：进行本地信息和优先级的分布式协同设计，将跨层多标准优化问题变成：

其中，表示等级C_k中的数据包从中继传输节点n到达目的节点的时延期望，ξ表示一个使概率很小的安全间隔，D_g为等级C_g中数据包的时延截止期，为数据包j到达节点n之前经历路由后的时延；

步骤5：获取信息交换自由度和自由度限制条件；

传输按时间分片，令t_s为时间片持续时间，d_c(L_n)为网络节点n的协作间隔，每个节点在时间片中和协作间隔后选择行动A_n；针对本地信息，令最优时延期望为x越大，时延期望G_n(g,x)越小；令V_n(g,I_n(x))为等级C_k中信息I_n(x)的回报利益；在静态网络中，V_n(g,I_n(x))定义为：V_n(g,I_n(x))＝G_n(g,x-1)-G_n(g,x)；如果节点n收到信息I_n(x)，那么信息回报V_n(g,I_n(1))被视作是按照时延期望所带来的利益；针对信息I_n(x)，最优时延期望G_n(g,x)可表示为：在动态网络中，一旦那么对于x≤x′≤h_n有因此，定义信息自由度DoF(k,v)为：

DoF_n(k,v)≡arg max x，

其中λ(g,v)≥0表示实时业务带来的最小时延变化，该实时业务确定在等级C_k中收到本地信息的最小利益；

步骤6：通过传输协作和信息交换，对多业务应用进行自适配；

在每个时间片周期性地重复执行传输协作和信息交换两个过程，在可行行动集上寻找最优行动更新估计时延然后给信息交换接口提供更新的时延向量；根据最新选择的行动、最迟时延变量和干扰矩阵I_g(n,A_n)更新信息，进而干扰矩阵和在预定义信息自由度内的节点进行交换；

步骤7：根据和模型无关的分布式强制学习，建立频谱切换；

采用一个作为活动回报的马尔科夫决策过程来实现智能频谱切换，采用一个和模型无关的分布式强制学习方法，寻找最优决策；

步骤8：根据服务质量检验是否满足用户需求从无线网络服务的对象和无线网络传递的对象两方面展开检验；如果能实现业务适配，则结束流程；否则，从获取信息交换自由度步骤重新开始执行。

2.根据权利要求1所述的一种面向业务适度服务的认知无线网络传输学习方法，其特征在于：为了实现高精度的业务类型特征提取，令R_i为次用户i的实时业务需求，R_i由G_i个优先级的数据包组成，共有U个业务；设定共有G个优先级，优先级集合C＝{C₁,…,C_G}，其中主用户占有最高优先级C₁；相应，次用户等级C_g(g>1)用元组(L_g,ρ_g,D_g)进行描述和确定：其中，L_g为等级C_g中的平均数据包长度，ρ_g为等级C_g的影响力，D_g为等级C_g中数据包的时延截止期；影响力能区分实时业务需求等级的优先次序，如果g<g′(g＝2,…,G)，会有ρ_g≥ρ_g′。

3.根据权利要求1所述的一种面向业务适度服务的认知无线网络传输学习方法，其特征在于：步骤2中建立干扰矩阵时需要考虑下面两种情况：(1)，网络节点能够同时传送、接受差异化业务，节点不能重用邻居节点使用的频段，如果频段被邻居节点使用，那么频段中的干扰矩阵的所有元素置为1；(2)，网络节点不能同时传送、接受差异化业务，如果采用指定频段，那么频段中的干扰矩阵中的所有元素置为1，而且，如果邻居节点采用网络链路，那么不管采用何种频段，节点干扰矩阵中的所有元素也置为1。

4.根据权利要求1所述的一种面向业务适度服务的认知无线网络传输学习方法，其特征在于：步骤5中所述时间间隔除了白空间矩阵和干扰矩阵，还包括包括时延向量d_n和控制消息RTS/CTS，每个时间片t_s中的协作间隔，为频段伺机接入提供可行行动集和数据包传输的中继传输选择。

5.根据权利要求1所述的一种面向业务适度服务的认知无线网络传输学习方法，其特征在于：步骤6中所述传输协作过程通过3个步骤选择最优行动：

步骤601a：初始化阶段，确定待传数据包；

步骤602a：报告阶级，建立可行行动集，并估计频段条件，然后计算时延期望；

步骤603a：协商阶段，根据时延截至期，选择最佳策略；

所述信息交换通过4个步骤收集本地信息：

步骤601b：初始化阶段，网络节点收集白空间矩阵和邻居节点在信息单元内的信息；

步骤602b：学习阶段，通过邻居节点行动，对节点邻居节点的行为进行确认，或者采用策略向量来获得更好的次用户服务；

步骤603b：业务矩阵估计阶段，在邻居节点收集的白空间矩阵和干扰矩阵中，每个优先级获得业务矩阵，并给网络层实时资源管理模块提供可用资源；

步骤604b：干扰矩阵建立阶段，更新信息要根据最新选择的行动、最迟时延变量和干扰矩阵；最后，干扰矩阵和在预定义信息自由度内的节点进行交换。

6.根据权利要求1所述的一种面向业务适度服务的认知无线网络传输学习方法，其特征在于：步骤7中所述频谱切换通过一个作为活动回报的马尔科夫决策过程来实现，并采用一个和模型无关的分布式强制学习方法来寻找次用户的最优状态，按照次用户连接状态、次用户连接活动、次用户连接回报、次用户连接的在线学习，来满足高能效资源匹配。

7.根据权利要求5所述的一种面向业务适度服务的认知无线网络传输学习方法，其特征在于：所述次用户连接状态包括频段M_k误包率的条件，优先级j经历第i次中断的次用户在频段M_k上的到达速率和服务时间，对于一个给定的次用户连接，在第i+1次中断前的网络状态表示为

其中，为频段M_k误包率的条件，和分别为类型优先级j经历第i次中断的次用户在频段M_k上的到达速率和服务时间；

所述次用户连接活动指：当次用户连接中断时，需要选择待在当前频段，或者交换到另一个可用频段中去，令为次用户在状态s_j,i及第i+1次中断时的候选活动，为频段选择参数，用来确定选择频段M_k作为传输频段及在第i+1次中断时的概率，当期望频谱切换时延超过时延截止期时，数据包会丢掉；

所述次用户连接回报指：对于切换，一个活动的回报r定义为多媒体传输的预测端到端效能；期望端到端效能由两部分组成，即由于信道条件的误包率和当频谱切换期望时延超过时延截止期的丢包率，通过这个回报函数，强制学习用来最大化端到端效能，并平衡频谱切换引起的时延，应用业务高优先级的期望时延，不会受其它低优先级的次用户影响，但是，如果次用户属于低优先级，会考虑把高优先级流量的影响作为端到端效能标准，并根据基于优先级的排队模型；

所述次用户连接的在线学习指：智能Agent在第i+1次中断时的目标，是寻找一个最优活动，来在当前政策MOPT(s_j,i,a_j,i)下最大化端到端效能。