CN100413265C

CN100413265C - 网络资源管理方法

Info

Publication number: CN100413265C
Application number: CNB2006101527578A
Authority: CN
Inventors: 张煜; 怀进鹏
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2006-09-27
Filing date: 2006-09-27
Publication date: 2008-08-20
Anticipated expiration: 2026-09-27
Also published as: CN1941719A

Abstract

一种网络资源管理方法，包括：汇点根据Club资源供需率和有偿利用率，判定Club的当前状态，设定Club的代价因子和风险因子；汇点接收资源请求信息，并根据代价因子和风险因子处理该信息；汇点根据分配资源后的Club资源供需率和有偿利用率，判定Club的新状态，并根据Club的当前状态与新状态调整Club的代价因子和风险因子。本发明结合硬激励和软激励方式，综合考虑经济和信任因素，提出了TIM方法，最大化资源聚合的效用，并遵循多贡献多分配的原则，激励节点共享出有价值的资源，保障网络共享资源的安全与供需均衡。

Description

网络资源管理方法

技术领域

本发明涉及一种网络资源管理方法，尤其是一种信任与激励机制相容的分布式网络资源管理方法。

背景技术

网格(Grid)计算、点对点(Peer to Peer，以下简称P2P)计算是当前两种典型的网络计算模式，其共性是为用户提供网络资源共享与协同，建立高效的运行服务平台，使用户可以最大限度地共享资源，包括CPU、磁盘空间、内存空间、网络带宽和专业处理能力等，协同完成目标。然而一个有趣的两难问题随之产生。多数节点的意愿是更多地使用其他节点的资源，而不愿共享本地的资源。每个理性的用户在追求自身利益最大化的同时，也会严重影响协作整体的运行效率，如2004年OSDI国际会议(Sixth Symposium onOperating Systems Design and Implementation)论文在线投稿，CPU的超负荷见证了网格资源的“公共悲剧”(tragedy of common)问题；另外Gnutella系统(一种基于P2P的文件共享系统)中，70％的“搭便车”(free-rider)节点不愿意共享资源，并且几乎50％的资源请求都是由1％的节点提供服务。在实际应用中，大量资源的使用并不是无偿的，要吸引资源的拥有者加入资源协作，就必须保证其利益和安全。面对多种变化的资源供求关系，Grid和P2P环境中资源的价格、安全因素变得尤为重要。

目前，已有的工作采用软激励的方式激励节点共享资源，软激励实质上属于信任度系统。提供资源越多的节点，其信任度越高，因而具有访问其它资源的权限。然而，软激励机制不能满足节点希望通过提供本身资源获取利益的需求。另有一些研究采用硬激励的方式促进共享资源的增多，即节点提供自身的资源以获取代价值，进而利用代价值请求其他的资源。然而，代价值高的节点并不一定是可信的，仅考虑代价值的资源分配机制不能满足不同组织的安全需求。

发明内容

本发明的目的是为了充分整合和协同分散的资源，构建安全可信的运行环境。

为实现上述目的，本发明提供了一种网络资源管理方法，也称为信任-激励相容的资源管理(Trust-Incentive Compatible Dynamic ResourceManagement，以下简称TIM)方法，包括：

步骤1：管理节点(以下称之为汇点)根据组(以下称之为Club)资源供需率和有偿利用率，判定Club的当前状态，设定Club的代价因子和风险因子；

步骤20：汇点接收资源请求信息，按照资源请求信息中的代价值降序排列资源请求信息；

步骤21：汇点读取队列中下一个资源请求信息；

步骤22：汇点判断资源请求信息和Club资源是否都非空，是则执行步骤23，否则执行步骤3；

步骤23：汇点判断该资源请求信息是否满足代价因子和风险因子，是则执行步骤24，否则执行步骤21；

步骤24：汇点为该资源请求信息分配所需资源，并向资源提供节点发送资源分配信息，执行步骤21。

步骤3：汇点根据分配资源后的Club资源供需率和有偿利用率，判定Club的新状态，并根据Club的当前状态与新状态调整Club的代价因子和风险因子。

本发明引入代价因子和风险因子的概念，结合了硬激励和软激励的机制，资源分配要兼顾资源请求节点的代价值和信任度，从而激励节点共享出有价值的资源，获取更多的代价值和更高的信任度，在竞争其他资源时处于更有利的地位。反之，当应用需求发生变化而出现资源分配不均衡时，激励机制促进了共享资源的增加，使得Club重新达到一个新的供需平衡。另外，本发明将分布式节点之间的交互刻画为不完全信息的动态序贯博弈过程，基于强化学习技术求解Club的最优策略，合理调整Club的代价因子和风险因子，构建一个安全、平稳的网络运行环境。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为TIM方法流程图。

图2为汇点处理资源请求信息流程图。

图3为一个时间步t内TIM方法流程图。

具体实施方式

TIM方法如图1所示，实现步骤如下：

步骤1：汇点根据Club资源供需率和有偿利用率，判定Club的当前状态，设定Club的代价因子和风险因子；

在分布式网络资源的分层体系结构中，依据节点的非功能参数，性能评估参数较高的节点可作为汇点，构成系统中的骨干层。每个子节点选择距离最近、最可信的汇点作为自己的父节点，注册共享资源的信息。多个子节点汇聚形成一个Club，每个Club中的汇点负责管理本地Club的资源，定期地发布本地Club内部资源的数量和代价因子，其它Club中的节点可采用发送包含愿意支付的代价值的资源请求信息的方式请求资源。

设在某一时间步(以下用t表示)，一个Club的汇点观测到的本地资源的需求量(以下用d(t)表示)和供应量(以下用s(t)表示)，资源的使用量(以下用u(t)表示)，被使用的u(t)个资源中获得资源请求节点支付的资源数量(以下用g(t)表示)，以及收入值(以下用Φ(t)表示)，则：

Club资源的供需率用下式计算：

μ (t) = \frac{d (t)}{s (t)}

Club资源的有偿利用率用下式计算：

η (t) = \frac{g (t)}{u (t)}, η &Element; [0,1],

Club资源的效用用下式计算：e(t)＝ρlog(η(t))+Φ(t)，其中ρ表示资源提供节点对资源请求节点使用其资源后不支付费用这种状况的不满意程度(Non-Satisfaction to Waste，以下简称NSW)。

对于每个汇点而言，关键的决策问题是如何调整Club中的代价因子和风险因子：

代价因子(以下用pr表示)：网络中的多个Club作为资源提供者，其间存在一种竞争的关系。如果本地节点的代价因子设置过高，导致资源请求者流向其他低代价因子的Club，使得本地的资源闲置；反之，如果代价因子设置过低，使得Club的资源不能够满足过多的资源请求者的需求。以上两种情况，都不能最大化Club资源的聚合效用。为了在这种竞争的环境中保障本地Club资源的供需平衡，每个汇点需要动态的调整资源的代价因子。

风险因子(以下用rk表示)：当Club中的汇点接收到多个资源请求节点的需求时，需解决的关键问题是如何合理地分配资源，最大化资源的聚合效用。由于网络中可能存在不正规的节点，恶意出高价抢占资源，在使用资源后却不支付相应的费用。针对这种情况，每个汇点不仅需要考虑资源请求节点所支付的代价值，还需兼顾资源请求节点的信任度，设置允许资源请求节点访问本地资源的信任度阀值，即风险因子。

借助于博弈理论，一个Club的汇点在决策其风险因子和代价因子的过程中，需要考虑资源请求节点集和竞争的汇点集，他们共同构成了博弈中的参与者集合。经典的博弈理论已经证明，在有限的博弈参与者集和行动集下，至少存在一个混合策略的纳什均衡。然而，在复杂的分布式网络环境中，每个汇点难以准确地识别出博弈参与者的完全信息。因此，本发明中令每个汇点观测自身的行动、行动后产生的效用、以及一些历史的博弈结果，并利用这些观测所得的信息，将博弈过程刻画为不完全信息、不完美记忆的动态序贯博弈。通过设计一套合理的机制，使得每个博弈方从以往的经验中逐渐地学习出最优的策略，选择最优的行动，最大化资源的聚合效用。本发明中采用如下的基于强化学习技术的马尔可夫决策过程。

马尔可夫决策过程包含一个环境状态集(以下用S表示)，行动集(以下用A表示)，奖赏函数(以下用

表示)和状态转移函数(以下用P：S×A→PD(S)表示)。记R_s，s′ ^a为系统在状态(以下用s表示)采用动作(以下用a表示)使环境状态转移到新状态(以下用s′表示)获得的瞬时奖赏值；记P_s，s′ ^a为系统在状态s采用动作a使环境状态转移到s′的概率。基于马氏模型，有：

Club的状态集用下式计算：S＝S_μ×S_η＝{s＝(μs_R，ηs_i)}，其中S_μ＝{μs_＞，μs_＝，μs_＜}为供需状态集，μs_＞，μs_＝，μs_＜分别表示供需率μ＞1，μ＝1和μ＜1；根据有偿利用率(以下用η表示)η∈[0，1]，将其分割为1个等区段，即S_η＝{ηs₁，ηs₂，…，ηS_l}，

例如，若1＝4，则ηs₁＝[0，0.25)，ηs₂＝[0.25，0.5)，ηs₃＝[0.5，0.75)，ηs₄＝[0.75，1.0]。在某一时间步t，若有偿利用率η(t)∈ηs_i，则称系统处于状态(μs_R，ηs_i)；

Club的行动集A＝Δp×Δr＝{a＝(δ₁，δ₂)|δ₁∈Δp，δ₂∈Δr}，其中Δp＝{-1，0，1}为代价因子调整参数集，Δr＝{-0.1，0，0.1}为风险因子调整参数集。

马氏决策过程的本质是：当前状态向下一状态转移的概率和奖赏值只取决于当前状态和选择的动作，而与历史状态和历史动作无关。因此在已知状态转移概率函数P和奖赏函数R的环境模型知识下，可以采用动态规划技术求解最优策略。而在一些实际应用中，状态转移概率P和所获报酬R是未知的，强化学习是求解这类信息不完全的马氏决策问题的主要方法。在每个离散的时间步t＝1，2，…，强化学习系统接受环境状态的输入(以下用s(t)表示)，根据内部推理机制，系统输出相应的行为动作(以下用a(t)表示)。环境在系统动作a(t)下，变迁到新的状态s(t+1)＝s′。系统接受环境新状态的输入，同时得到环境对于系统的瞬时奖赏反馈(以下用r(t+1)表示)。对于强化学习系统来讲，是从环境状态到行为映射的学习，其目标是学习一个最优行为策略(以下用π：S→A表示)，使系统选择的动作能够获得环境奖赏的累积值最大。换言之，系统要最大化以下式子：

其中γ∈(0，1]为折扣因子。在学习过程中，强化学习技术的基本原理是：如果系统某个动作导致环境正的奖赏，那么系统以后产生这个动作的趋势变化加强；反之系统产生这个动作的趋势便减弱。

强化学习四个关键要素为：模型，瞬时奖惩，状态值函数，策略。系统所面临的环境由环境模型定义，但由于模型中P函数和R函数未知，系统只能够依赖每次试错(trial-and-error)所获得的瞬时奖赏来选择策略，以使系统行为从环境中获得的累积奖赏值最大。但由于在选择行为策略过程中，要考虑到环境模型的不确定性和目标的长远性，因此在策略和瞬时奖赏之间构造状态值函数(即状态的效用函数)，用于策略的选择.Q值法是最常用的状态值函数，是求解信息不完全马尔可夫决策问题的一种有效的强化学习方法。Q学习就是要在转移概率和所获报酬未知的情况下估计最优策略的Q值，改进决策策略。在线Q学习方法实现如下：

设一个Club在状态s(t)采用动作a(t)使状态转移到s(t+1)＝s′获得的瞬时奖赏用下式计算：r(t+1)＝ρlog(η(t+1))+Φ(t+1)；基于(s，a，s′，r)，系统根据下式调整Q值：

Q (s, a) = (1 - β) Q (s, a) + β [r + γ \max_{a^{'}} Q (s^{'}, a^{'})],

其中β为学习速度。

在强化学习中，产生了一个问题：哪种实验策略可产生最有效的学习。学习器面临的是一个权衡过程：是选择探索未知的状态和行动，还是选择利用它已经学习过、会产生高回报的状态和在Q学习方法的实现中，有多种探索方法，最为常用的是Boltzmann分布探索。基于如上的Q学习过程，一个Club在环境状态s，选择行动a的概率用下式计算：

P = (a | s) = \frac{e^{Q (s, a) / T}}{\underset{a^{'}}{Σ} e^{Q (s, a^{'}) / T}}

其中T为学习温度。较小的T值会将较高的概率赋予超出平均Q值的行动，致使系统利用它所学习到的知识来选择它认为会使回报最大的行动。相反，较大的T值会使其他行动有较高的概率，导致系统探索那些当前Q值还不高的行动。在某些情况下，T是随着学习的进行而逐渐衰减，以使系统在学习的早期可用探索型的策略，然后逐步转换到利用型的策略。

步骤2：汇点接收资源请求信息，并根据代价因子和风险因子处理该信息，如图2所示，包括以下步骤，

步骤21：汇点读取队列中下一个资源请求信息；

步骤23：汇点判断该资源请求信息是否满足代价因子和风险因子，是则执行步骤24，否则执行步骤21，

可选地，所述否则执行步骤21还包括汇点还向资源请求节点返回资源请求拒绝信息；

步骤24：汇点为该资源请求信息分配所需资源，并向资源提供节点发送资源分配信息，执行步骤21，

可选地，所述步骤24还包括汇点向资源请求节点返回资源请求响应信息。

步骤3：汇点根据分配资源后的Club资源供需率和有偿利用率，判定Club的新状态，并根据Club的当前状态与新状态调整Club的代价因子和风险因子，

可选地，分配资源后，资源请求节点向资源提供节点发送代价转移信息并减少自身的代价值，资源提供节点收到该代价转移信息后相应地增加自身的代价值；若步骤1中采用Q值学习法设定Club的代价因子和风险因子，对应地，步骤3中更新Q值表。

实施例2：

如图3所示，一个时间步t内TIM方法的流程包括：

步骤1’：在每一个时间步t，Club中的汇点观测本地资源的供需率和有偿利用率，判定Club当前所处的状态s(t)，其中判定方法与实施例1相同，

汇点基于Q值表选择行动，分别用以下两个式子调整Club的代价因子和风险因子：pr(t+1)＝pr(t)+Δp，rk(t+1)＝rk(t)+Δr，其中选择方法与实施例1相同；

步骤2’：采用TIM算法分配资源，即Club的汇点计算所接收资源请求信息中的代价值，并按照代价值由高到低降序排列资源请求信息。如果资源请求信息中的代价值和信任度均不低于Club的代价因子和风险因子，则汇点为资源请求节点分配所需的资源；

步骤3’：在t+1时间步，汇点观测资源分配后Club的有偿利用率为η(t+1)，用下式计算在新状态s′中所获得的瞬时奖赏值：r(t+1)＝ρlog(η(t+1))+Φ(t+1)，更新Q值表，其中计算和更新方法与实施例1相同。

TIM方法的目的是借助于强化学习技术，使Club逐渐学习最优的策略{P(a|s(t))}，在任一时间步t，合理调整Club的代价因子和风险因子，最大化奖赏累积值

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1. 一种网络资源管理方法，其特征在于，包括：

步骤1：管理节点根据组资源供需率和有偿利用率，判定组的当前状态，设定组的代价因子和风险因子；

步骤20：管理节点接收资源请求信息，按照资源请求信息中的代价值降序排列资源请求信息；

步骤21：管理节点读取队列中下一个资源请求信息；

步骤22：管理节点判断资源请求信息和组资源是否都非空，是则执行步骤23，否则执行步骤3；

步骤23：管理节点判断该资源请求信息是否满足代价因子和风险因子，是则执行步骤24，否则执行步骤21；

步骤24：管理节点为该资源请求信息分配所需资源，并向资源提供节点发送资源分配信息，执行步骤21；

步骤3：管理节点根据分配资源后的组资源供需率和有偿利用率，判定组的新状态，并根据组的当前状态与新状态调整组的代价因子和风险因子。

2. 根据权利要求1所述方法，其特征在于，所述步骤1还包括，组中各节点向管理节点注册共享资源信息。

3. 根据权利要求1所述的方法，其特征在于，所述步骤23还包括，若资源请求信息不满足代价因子和风险因子，则管理节点向资源请求节点发送资源请求拒绝信息。

4. 根据权利要求1所述的方法，其特征在于，所述步骤24还包括，管理节点向资源请求节点发送资源请求响应信息。

5. 根据权利要求1所述的方法，其特征在于，所述步骤3包括，资源请求节点向资源提供节点发送代价转移信息并减少自身的可用代价值，资源提供节点收到该代价转移信息后相应地增加自身的可用代价值。

6. 根据权利要求1所述的方法，其特征在于，步骤1中所述设定组的代价因子和风险因子，包括管理节点基于组的状态函数值表设定组的代价因子和风险因子。

7. 根据权利要求6所述的方法，其特征在于，步骤3中所述根据组的当前状态与新状态调整组的代价因子和风险因子包括，管理节点根据新状态的函数值和所述当前状态的函数值更新组的状态函数值表。

8. 根据权利要求7所述的方法，其特征在于，所述更新组的状态函数值表包括，管理节点根据下式调整状态函数Q值，

Q (s, a) = (1 - β) Q (s, a) + β [r + γ \max_{a^{'}} Q (s^{'}, a^{'})]

其中β为学习速度，s为组状态，a为行动，s’为管理节点在组状态s采用行动a使组状态转移到的新状态，r为管理节点在组状态s采用行动a使组状态转移到新状态s’获得的瞬时奖赏值。