CN102076025B

CN102076025B - 基于Stackelberg博弈认知网络资源分配方法

Info

Publication number: CN102076025B
Application number: CN 201110000306
Authority: CN
Inventors: 孙雁飞; 张顺颐; 亓晋; 顾成杰; 朱磊; 王攀; 吴继宝
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2011-01-04
Filing date: 2011-01-04
Publication date: 2013-06-05
Anticipated expiration: 2031-01-04
Also published as: CN102076025A

Abstract

本发明公布了一种基于Stackeberg博弈的网络资源分配方法，所述方法包括域认知服务器的参数采集；域认知服务器的信息汇聚和处理；向中心服务器汇报网络当前状态及QOS参数；中心服务器汇总全网信息；中心服务器向各个域服务器下放策略信息；域认知服务器生成策略空间；闭环信息反馈：本发明主要研究如何将博弈论中的主从激励思想引入认知网络中，通过自我感知网络的动态信息，引入网络诱导策略，采用动态博弈的方法，提出了一种网络由一般状态到最优运行状态的动态调节算法，从而实现了认知网络的自我控制。该方法涉及到业务识别、网络QoS、博弈论、认知网络等技术领域。

Description

基于Stackelberg博弈认知网络资源分配方法

技术领域

本发明以认知网络为基础，提出一种基于Stackelberg博弈的网络资源分配方法。主要研究如何将博弈论中的主从激励思想引入认知网络中，通过自我感知网络的动态信息，引入网络诱导策略，采用动态博弈的方法，提出了一种网络由一般状态到最优运行状态的动态调节算法，从而实现了认知网络的自我控制。该方法涉及到业务识别、网络QoS、博弈论、认知网络等技术领域。

背景技术

近年来，随着网络流量以指数形式急剧增长，各种应用对网络资源的需求随之增加，特别是需要严格QoS保证的实时网络多媒体应用要求更多的网络资源。资源分配是QoS分配的最终实现，QoS分配最终目的是为了进行合理的资源分配，因而有效的资源分配十分重要。

传统的非经济的资源分配方法，如RSVP资源预约、优先级调度等，都是从资源提供方(网络)的角度，使用最优化理论集中地求解资源分配问题，决定端系统所能分配到的资源数量，没有考虑用户愿付代价与用户满意度等因素对资源分配的影响，不能充分利用资源，做到物尽其用，为了解决这些问题，近年来研究者提出基于微观经济学方法的网络资源分配思路。在互连网应用中，网络服务同用户之间的行为与市场中的商品与消费者之间的消费行为有很多相似之处，结合微观经济学的理论，可以把市场机制引入网络资源管理。事实上，计费本身也体现了一种资源分配机制，虽然它不是显式地为特定用户的数据流分配网络的缓冲和带宽资源，但是价格杠杆限制了那些对当前网络资源价格不能接受的用户的网络使用行为，从而将网络资源分配给那些急需网络服务而接受较高价格的用户。因此，价格杠杆可以被看作一种用来调整用户传输行为的激励机制。更进一步，竞争使用有限的网络资源过程中，端系统不合理的背离行为使得资源分配问题的研究更为复杂，因此可以使用博弈理论来研究和解决上述问题，目标是让理性的参与者依据私利永远不会出现背离行为。同时，采用博弈的方法可以考虑分散资源分配这个集中式的求解过程，使得用户贪婪的最优化过程服从于相同的最优资源分配，即可以使用分布式算法来实现最优化、公平的资源分配。

认知网络(Cognitive Network)是在认知无线电的基础上提出的，将认知的概念从无线单跳连接扩展至整个网络，是一种具有认知功能的网络。它能够感知当前的网络状况。为了更好地管理和控制网络的复杂性，改善网络的QoS和用户的业务体验，引入了采用动态博弈的方法，将离散的反馈式诱导策略应用于认知网络的流量控制中，设计了一种诱导策略的网络动态调节算法，使得网络能够由一般态向最佳态收敛。使网络具有自管理、自学习、自优化的能力，真正实现网络的可控制、可管理、可信任。因此，认知网络的研究将会对今后大规模的复杂异质网络管理技术的发展和网络服务质量的提高起到巨大的推动作用。

发明内容

本发明目的是针对现有技术存在的缺陷提供一种基于Stackelberg博弈认知网络资源分配方法。

本发明为实现上述目的，采用如下技术方案：

本发明基于Stackelberg博弈的认知网络资源分配方法，包括如下步骤：

1)域认知服务器的参数采集：参数采集过程是计算网络的QoS参数即时延、抖动、吞吐量，以及网络状态信息，采取抽样的方式采集：

a)业务类型信息采集：采用业务识别技术，识别出各个流属于哪种类型，并记录该信息，在边缘路由器上实现；

b)数据包入队列，出队列以及丢包信息采集，在域认知服务器上实现；

2)域认知服务器的信息汇聚和处理：域认知服务器根据采集到的数据参数，计算本域的网络QoS参数及业务类型；

3)向中心服务器汇报网络当前状态及QoS参数：域认知服务器把本域的状态信息即时延、抖动、吞吐量等QoS参数发送给中心服务器；

4)中心服务器汇总全网信息，根据全网的目标收益生成策略空间：中心服务器综合全网信息，分析并产生定价策略，调节全网使其收益趋于最大化；

5)中心服务器向各个域服务器下放策略信息：中心服务器把产生的策略发送给各个域服务器，对各个域控制和引导，从而实现各个域间的动态调节；

6)域认知服务器生成策略空间。域认知服务器在分析中心服务器下发策略的基础上，分析本域的网络QoS参数，生成域内定价策略，诱导终端用户产生行为，使本域的目标收益趋于最大化；

7)闭环信息反馈：各域认知服务器定时向中心认知服务器反馈本次调节的本域网络QoS参数及收益情况，直到达到双方达到某种协调状态，这时网络整体趋于稳定；

8)转步骤1)，继续采集网络QoS参数，生成策略，动态调节使得全网收益最大。

本发明通过基于Stackelberg博弈的网络资源分配方法，我们能够实现：

1、与业务识别结合，实现对业务的区分，可以对单业务进行QoS参数跟踪及资源的分配；

2、通过域服务器定时向中心服务器动态反馈网络状态信息，实现闭环反馈、自适应动态调节；

3、与区分服务相结合，将复杂度尽量限制在域认知服务器，无需对现有网络和协议进行大规模更改即可实现认知，因此具备良好的可扩展性；

4、资源定价(pricing)，规范用户的行为，使得资源分配后，网络和用户收益最大。

5、价格机制影响供需变化，根据供需关系进行价格调节，使用户在价格和性能上寻求最佳结合点，最终达到合理使用资源，优化资源分配；

6、市场机制固有的分布性与网络资源的分布性相适应，可以实现有效的、松耦合的分布式资源控制和管理，符合网络资源管理的发展方向。

附图说明

图1是该发明实现过程流程图；

图2是认知网络模型的三级拓扑结构。

具体实施方式

下面结合附图对发明的技术方案进行详细说明：

如图1、2所示，本发明提出了一种基于Stackelberg博弈的网络资源分配方法。该方法融合了认知网络、区分服务以及日趋成熟的业务识别技术，引入了采用动态博弈的方法，将离散的反馈式诱导策略应用于认知网络的流量控制中。设计了一种诱导策略的网络动态调节算法，使得网络能够由一般态向最佳态收敛，为网络QoS提供保障。

其具体的实现过程可以分为四个步骤。

1.认知域模型建立

功能：网络结构和功能并非相互独立，研究发现，系统的演化行为与网络的拓扑结构参数存在非常明显的关联：在典型小世界区域，在某些情况下依赖于收益矩阵参数，网络的小世界属性对于欺骗策略有着显著的促进作用。按如何方法建立一个基于某种特定拓扑结构的Stackelberg博弈模型。

1)初始状态，网络有m个认知域，每个认知域有m₀个节点和e₀条边；

2)每一个时间步进行以下5个操作：

2.1)以概率p，引入一个新的有m₀个节点和e₀条边的认知域；

2.2)以概率q，在已经存在的认知域中加入一个新的节点j，与这个认知域中其他m₁个节点建立m₁条边的连接。首先随机选择一个认知域Ω；然后，以下列优先连接法则连接新节点j和认知域中已经存在的节点i。该过程重复m₁次。

Π (k_{i}) = \frac{k_{i} + α}{Σ_{j &Element; Ω} k_{j} + α} - - - (1 - 1)

这里α表示节点i的吸引度，k_i表示节点的度；

2.3)以概率r，在已经随机选取的认知域Ω中加入m₂条边的连接。这m₂条边一端是随机选择的，另一端以概率(1-1)式选取。该过程重复m₂次；

2.4)以概率s，在已经随机选取的认知域Ω中删除m₂条边的连接。这m₃条边的一端是随机选择的，另一端以下列法则进行选取。该过程重复m₃次；

Π (k_{i}) = \frac{1}{N_{n} (t) - 1} (1 - Π (k_{i})) - - - (1 - 2)

其中N_Ω(t)表示第Ω个认知域中的节点；

2.5)以概率u，在其他已经存在的认知域之间加入具有m₄条边连接。首先随机选择一个认知域，在该域中以式(1-1)选择一个节点，作为新加入边的一端，另一端在其它认知域中，仍以式(1-1)选择，该过程重复m₄次。

上面模型中变量满足的条件：

0＜q＜1；0＜p、r、s、u＜1；p+q+r+s+u＝1 (1-3)

2.目标收益函数

功能：Stackelberg Game模型一个基于主从方管理的博弈模型，对于主方管理者而言，其目的是制定合理的流量价格使其在用户的Nash均衡点时收益达到最大，对于从方用户而言是一个非合作的流量控制策略。

中心认知服务器节点(L)和域认知服务器节点

之间的K_L条链路。定义链路i的第j个用户的效用函数为：

F_{ij} (x_{ij}) = ω_{i} \log (1 + x_{ij}) - p_{i} x_{ij} - \frac{1}{C_{i} - {\overset{&OverBar;}{x}}_{i}} - \frac{1}{C_{L} - \overset{&OverBar;}{x}} - - - (2 - 1)

在上式中：C_i为链路i的带宽，C_L为L链路带宽，K_L为L的入度，x_ij＞＝0为链路i的第j个用户的速率，p_i为链路i的单位流量费用，

为链路i的延迟，

为总链路延迟。

当L确定了每条链路的价格p_i，则L的效用函数为：

L (p_{i}, {\overset{&OverBar;}{X}}_{i}) = Σ_{i = 1}^{K_{L}} p_{i} {\overset{&OverBar;}{X}}_{i} - - - (2 - 2)

3.网络最佳运行状态

功能：网络的最佳运行状态就是域中心服务器L制定一定的价格策略，使得网络所有用户处于Nash均衡时，L获得的利益最大。

求Nash均衡：

首先对(2-1)式求导得：

\frac{&PartialD; F_{ij} (x_{ij})}{&PartialD; x_{ij}} = \frac{ω_{i}}{1 + x_{ij}} - {\overset{&OverBar;}{p}}_{i} - \frac{1}{{(C_{i} - {\overset{&OverBar;}{x}}_{i})}^{2}} - \frac{1}{{(C_{L} - \overset{&OverBar;}{x})}^{2}} - - - (3 - 1)

当达到均衡时(3-1)式等于0，得到：

p_{i} = \frac{K_{F_{i}} ω_{i}}{K_{F_{i}} + \overset{&OverBar;}{X_{1}}} - \frac{{(K_{F_{i}} / Σ_{j = 1}^{K_{L}} K_{F_{j}})}^{2} + 1}{{(K_{F_{i}} c - \overset{&OverBar;}{X_{1}})}^{2}} - - - (3 - 2)

结合(3-2)式(2-2)式得到网络的最佳状态为：

{\overset{&OverBar;}{X_{i}}}^{*} = K_{F_{i}} \frac{{(K_{F_{i}} \overset{&OverBar;}{ω_{i}})}^{\frac{1}{s}} - a^{\frac{1}{s}}}{a^{\frac{1}{s}} + {(K_{F_{i}} \overset{&OverBar;}{ω_{i}})}^{\frac{1}{s}}} - - - (3 - 3)

{\overset{&OverBar;}{p_{1}}}^{*} = \frac{ω_{i}}{2} [1 + a^{\frac{1}{s}} {({K_{F_{i}}}^{2} ω_{i})}^{- \frac{1}{s}}] - \frac{a}{{4 K}_{F_{i}}^{2}} {[1 + a^{- \frac{1}{s}} {({K_{F_{i}}}^{2} ω_{i})}^{\frac{1}{s}}]}^{2} - - - (3 - 4)

4.动态诱导策略算法

功能：将离散的反馈式诱导策略应用于认知网络的流量控制中，通过中心认知服务器下发策略，使得；认知网络能够由一般态向最佳态收敛；保证了网络最佳态的稳定性。

动态诱导策略的算法如下：

1)初始阶段时步n＝0，网络处于一般态。L制定初始的价格策略p_α，F_i根据L制定的价格策略按照式(3-2)得到速率

2)n＝n+1，L根据收到上一步F_i的信息

按照诱导策略得到p_i(n+1)，同时按F_i得到速率

3)若此时

可得

价格与速率同时达到均衡点，网络进入最佳状态，结束。

4)否则，重复步骤2)。

Claims

1.一种基于Stackelberg博弈的认知网络资源分配方法，其特征在于包括如下步骤：

3)向中心服务器汇报网络当前状态及QoS参数：域认知服务器把本域的状态信息发送给中心服务器，所述状态信息即QoS参数，包括时延、抖动、吞吐量信息；

6)域认知服务器生成策略空间：域认知服务器在分析中心服务器下发策略的基础上，分析本域的网络QoS参数，生成域内定价策略，诱导终端用户产生行为，使本域的目标收益趋于最大化；