CN107396204A

CN107396204A - 一种基于线性规划和强化学习的p2p视频点播节点选择方法

Info

Publication number: CN107396204A
Application number: CN201710439279.7A
Authority: CN
Inventors: 陶佳丽; 沈项军
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2017-06-12
Filing date: 2017-06-12
Publication date: 2017-11-24
Anticipated expiration: 2037-06-12
Also published as: CN107396204B

Abstract

本发明提供了一种基于线性规划和强化学习的P2P视频点播节点选择方法,属于P2P流媒体技术领域。该方法在非结构化的P2P网络中采用一个两层的节点选择方法，第一层在媒体服务器上运用线性规划从而为请求资源的节点规划一组拥有该资源的节点集，从中选择满足条件的节点为请求资源的节点提供资源，若找到了满足条件的节点，则视频可以播放成功，反之，则进入第二层；第二层在对等网络中运用强化学习从邻居节点处请求资源，若找到了拥有被请求的资源的节点，则视频可以播放成功，反之，则播放不成功。两层节点选择方法相辅相成，最终提高资源查找的效率，达到减少带宽使用、计算消耗的目的，从而使得视频播放流畅。

Description

一种基于线性规划和强化学习的P2P视频点播节点选择方法

技术领域

本发明属于P2P流媒体技术领域，具体涉及一种基于线性规划和强化学习的P2P视频点播节点选择方法。

背景技术

基于P2P的VoD系统可以分为两类，一类是基于树的系统，另一类是基于网格的系统。在基于树的P2P VoD系统中，网络节点接收来自父节点的分组，并形成覆盖树拓扑，将接收到的分组推送给子节点。在基于网格的P2P VoD系统中，每个节点连接到邻居节点以形成覆盖网格，以将数据包拉向连接的邻居。对于较大的覆盖和更高的流速率而言，基于网格的系统的效果要比基于树的系统要好。本发明采用基于网格的拓扑来使分组遍历网络中的节点。

P2P VoD系统中最重要的设计问题之一是在搜索和传输视频时在网络节点之间分配媒体服务器的负载负担的方式。在动态网络条件下在网络节点之间实现均匀的负载分配更困难。为了减轻服务器负担，并且能够在节点之间平滑地观看视频，现阶段较先进的技术已经提出了以下几种设计；

一、提出了一种缓存技术，其中当观看其他节点的视频块时，视频块被缓存在节点中用于下一次传输。在W.P.K.Yiu,X.Jin,and S.H.G.Chan描述的VMesh(Verticesinterconnect Mesh)结构中(W.P.K.Yiu,X.Jin,and S.H.G.Chan.2007.VMesh:Distributed Segment Storage for Peer-to-Peer Interactive Video Streaming.IEEEJournal on Selected Areas in Communications 25,9(2007),1717–1731.)，提出了基于流行度的块高速缓存方案来保持整个网络上的块的供应和需求之间的平衡。

二、提出了一种预取技术，在这项技术中，节点从其他节点预取了几个后续视频块，以供将来观看。Y.F.He,G.B.Shen,Y.G.Xiong,and L.Guan提出了一种指导性方法(Y.F.He,G.B.Shen,Y.G.Xiong,and L.Guan.2009.Optimal Prefetching Scheme in P2PVoD Applications With Guided Seeks.IEEE Transactions on Multimedia 11,1(2009),138–151.)，指导是从集体统计数据中获得的。在此指导下视频预先获取，以减少寻求延迟。

三、复制策略已经在一些研究中得到应用，这是一个使用节点中的视频块的k次复制的子类，用于紧固节点之间的视频传输。W.J.Wu,and J.C.S.Lui提出了一种复制方法(W.J.Wu,and J.C.S.Lui.2011.Exploring the optimal replication strategy in P2PVoD system s:Characterization and evaluation.In INFOCOM.1206–1214.)，通过存储当前观看的视频以及先前观看的视频，每个对等体提供具有较高优先级的上传服务，达到同时观看同一视频的目的。

以上讨论的较先进的技术虽然都可以减轻服务器带宽，但还存在一定的缺陷：缓存技术的命中率不高；预取技术的高效性和准确性有待改进；复制策略的成功率有待提高。本发明提出的方法是截然不同的，本发明通过最小带宽消耗的播放速率找到最适合的节点来利用上行带宽，以便视频播放流畅。为了实现最小化媒体服务器的负载的目标，特别是最小化媒体服务器的带宽和计算强度，本发明提出了一种新型的双层节点选择方法设计。

发明内容

本发明将线性规划与强化学习算法应用到视频点播节点选择方法中，形成媒体服务器两层最优节点选择方法。

在两层节点选择方法的第一层，通过媒体服务器线性规划，基于从节点处定期收集的全局信息，引导合适的节点选择。以这种方式来最小化媒体服务器的带宽和计算消耗的成本。为了能够快速响应动态网络，在两层节点选择方法的第二层，利用节点拓扑重连形成资源兴趣群组的前提条件，通过强化学习进行节点选择，节点通过本地邻居信息，以一种完全分布式的方法找到可用的和有能力的节点，有效地定位资源，使得视频播放过程更加流畅。

本发明的技术方案如下：

S1，通过线性规划在第一层媒体服务器中进行节点选择

S1.1，在第一层节点选择中，媒体服务器会运用心跳机制定期从P2P中收集节点信息；

S1.2，每当节点第一次请求资源的时候，媒体服务器会采用线性规划的方法规划一组拥有资源的资源节点集合给此节点，8s内任何请求资源的节点只能从资源节点集合中请求，如果8s后再来一次资源请求，则重新规划资源节点集合；

S1.3，若找到了请求资源，则节点和拥有该资源的节点相连接；如果没有找到请求资源，则进入第二层节点选择；

S2，通过强化学习在第二层对等网络中进行节点选择

S2.1，在第二层节点选择中，请求资源的节点在其邻居节点之间进行Q查询；

S2.2，Q查询考虑了节点的剩余上行带宽、资源的个数以及节点的拥塞状态等参数，在P2P局部范围内引导对资源节点的搜索。

进一步，所述线性规划方法为：

其中，λ_sj是一个指示变量，节点的下载速率定义为r_sj，j是网络中正在观看的第j组资源，当前网络中总观看的视频资源数为M；XR为带宽的大小，且系数X的值随网络情况变化；U_s是节点的最大上行带宽，W表示最大资源连接数。

更进一步，意味着对于每一个资源观看请求，一定时间内服务器会规划XR大小的带宽，意味着对于节点而言，其提供的上行带宽必须小于等于其最大上行带宽U_s；约束意味着在每个视频会话中，所选择的节点数量不应该超过最大资源连接数W。

进一步，所述Q查询的间隔时间为1s，Q查询搜索资源节点的跳数设为8。

更进一步，Q查询的具体方法为：当不满足播放，则需1s的间隔才能再次请求Q查询；如果找到了请求资源，那么节点和Q查询找到的节点相连接。

进一步，所述Q查询的模型为其中Q(s,a)是一个动作值函数，s是当前状态，a是当前节点在状态s下采取的动作；α为设置在0到1之间的学习速率，β为折扣因子，sgn为指标函数，U_s是节点的最大上行带宽，是可用的上行带宽。

更进一步，所述指标函数当节点处于正常状态时，此函数给出正号，意味着节点没有拥塞；当节点过载时，此函数为负号。

进一步，所述S1.1中收集的信息为：其中ID_s是节点的识别，VR_s是节点拥有的资源，U_s是节点的最大上行带宽，是可用的上行带宽，T_s是将此信息列表发送到媒体服务器所需的时间。

本发明存在以下技术效果：

1、在两层节点选择方法的第一层中，运用的线性规划中引入了系数X，其大小随着动态网络的变化而改变，以此来节省带宽消耗，减轻媒体服务器负载；

2、在两层节点选择方法的第二层中，在改进后的Q-Learning模型中加入了指标函数sgn，以此来判断节点是否拥塞，从而更快地进行资源请求。

附图说明

图1为网络节点模拟图。

具体实施方式

为了评估使用本发明所述方法的P2P VoD系统(OPTS)的性能，将此系统与两个不同的仿真系统进行比较：一个是只使用媒体服务器中的线性规划方法来进行节点选择的中央系统(CS)，另一个是只使用强化学习方法基于在节点之间交换的信息来进行节点选择的完全分布式系统(DS)。

本发明的实验将在三种模拟网络中进行，第一种是波动网络下节点的涌入；第二种是波动网络下节点的拖动；第三种是波动网络下节点的涌入+拖动，分别监测四组实验参数，分别是：服务器负载、搜索时间、播放成功率和X值。

本发明在Windows平台下利用Python 2.6进行程序的编写及运行，根据Gnutella协议设计网络，该网络包含10000个节点；网络中每个节点的初始邻居数都大致相同，约为10个；采用从Gnutella网络测量中获得的节点能力分布情况(见表1)，来模拟节点能力的异构性。

表1模拟网络中的节点处理能力分布

网络中有1000个不同的资源数据，根据资源热度的不同来确定资源的复制率以及播放率，见表2，所有资源随机地分布在网络节点上；用复制率来表示一个资源在网络中的副本数，假设复制率为0.01，那么在10000个节点的系统中，就有100个相同的资源存在；同时热度最高的资源的复制率为0.2，热度最低的资源只有0.01的复制率；播放概率则意味着当节点观看视频资源时，不同热度的资源被观看的概率。

表2模拟网络中不同热度资源的复制率、播放概率

在网络中为每个查询设置5个随机步行器，以定位所请求的资源。每个节点的心跳机制的时间间隔设置为2分钟，达到2分钟后，节点被认为拥塞或退出网络，在节点选择过程的下一次迭代中将不会考虑此节点。媒体服务器第一层线性规划的时间间隔设置为8秒，在第二层对等网络中使用的资源分组和节点重连策略的时间间隔设置为4分钟。

仿真实验中，每秒钟将会分别从网络中以及网络外随机选择千分之二的节点加入、退出网络；在第6分钟发生百分之十的节点在短时间内突然涌入到网络中观看资源，同时有百分之十的节点在短时间内发生拖动观看行为，第11分钟内涌入的节点短时间内同时退出网络。

下面结合图1的网络节点模拟图给出本发明一个具体实施过程的例子，具体过程如下：

1.通过线性规划在第一层媒体服务器中进行节点选择

步骤一：假设P2P中有10个节点，那么每个节点都可以作为媒体服务器，且节点具有最大上行带宽U_s，其中s＝1，...，10；除了这些节点，P2P中还存在着包含所有视频资源的媒体服务器，媒体服务器充当着网络中的后备服务器，假设其具有无限的带宽和计算能力。

步骤二：媒体服务器需要从P2P中的所有节点处定期地收集一些信息

对于节点P₁而言，收集的信息为：其中ID₁是节点P₁的识别，VR₁是节点P₁拥有的资源，U₁是节点P₁的最大上行带宽，是节点P₁可用的上行带宽，T₁是将节点P₁的信息列表发送到媒体服务器所需的时间；媒体服务器使用从通信社区借来的心跳机制来判断节点是否退出网络，该心跳机制用于监测T₁的最后一个值与当前时间之间的时间间隔；如果该时间间隔足够大，那么节点P₁被假定为拥塞或已经退出网络，并且该节点将不会在公式(1)中被考虑。

步骤三：在媒体服务器收集节点信息之后，对第一层媒体服务器中的节点选择过程使用标准的线性规划方法，如下所述：

其中，λ_sj是一个指示变量，其值为0或1，如果λ_sj的值为1，那么意味着节点P_s被选择为第j个资源的候选节点集提供资源；节点的下载速率定义为r_sj，j是网络中正在观看的第j组资源，意味着节点P_s是否被选择作为第j个资源观看集的资源节点，本实施例j取6；当前网络中总观看的视频资源数为M；XR为带宽的大小，且X的值随网络情况变化；U_s是节点的最大上行带宽；W表示最大资源连接数，即最多向W个节点请求资源，本实施例中W设置为5。

其他的约束条件有：意味着对于每一个资源观看请求，一定时间内服务器会规划XR大小的带宽，即选择的资源节点集BP_j中的节点的上行带宽要大于XR，本实施例X最初设置为1；另一个约束意味着对于节点P_s而言，其提供的上行带宽必须小于等于其最大上行带宽U_s；同时约束意味着在每个视频会话中，所选择的节点数量不应该超过最大资源连接数W。

步骤四：每当节点P₁第一次请求资源B₆的时候，媒体服务器会规划一组拥有资源B₆的资源节点集合BP₆给节点P₁，8s内任何请求资源B₆的节点只能从资源节点集合BP₆中请求，如果8s后再来一次请求资源B₆，则重新规划资源节点集合BP₆；如果找到了请求资源，那么节点P₁和拥有资源B₆的节点相连接，例如节点P₂。

这时的媒体服务器必须满足以下标准：所提供的选定的一组节点的带宽总和，必须大于视频的播放速率；这样视频就可以在没有媒体服务器提供额外的上行带宽和计算资源的情况下顺利地播放由BP_j提供的资源，如果请求节点P_s无法收到集合BP_j提供的足够服务速率，则请求备份媒体服务器提供必要的服务。所以，目标是为每个请求节点选择其BP_j中各节点提供的服务带宽以减少备份媒体服务器的总带宽服务速率。

因此，在第一层的节点选择中定义的客观目标意味着在整个P2P中计数的下载速率r_sj的总和应该被最小化，实现这一目标意味着P2P只需要提供最小的上行带宽给节点，以满足节点观看视频所需的带宽。故此节点选择最终能够最大限度地减少P2P传输开销，并且在减少媒体服务器负担的同时也满足了更多的请求，因为第一层节点选择需要更少的带宽和计算资源。

在第一层媒体服务器的节点选择中，媒体服务器必须周期性地从P2P中收集节点信息，这在一定程度上限制了媒体服务器在动态网络条件下快速响应节点请求，特别是当节点进入或退出网络时；在这样一个波动的网络情况下，被选定的节点可能退出网络，或者它们不能像媒体服务器所期望的那样，从其他节点处获得更多的连接和更多的请求来负担所需的上行带宽；为了弥补这种媒体服务器节点选择的不足，本发明在第二层对等网络中提出了一种完全分布式节点搜索算法，它仅依赖于邻居节点间的信息交换来指导节点选择；因此，对动态网络具有更快的响应速度。

2.通过强化学习在第二层对等网络(P2P)中进行节点选择

步骤一：为了能够快速定位节点所需的资源，本发明提出的第二层节点选择应用了资源分组和节点重连策略；在资源探索过程中，假定具有相同资源的节点具有相似的兴趣；维持与其他具有相似兴趣的节点保持密切联系，可以快速搜索到请求资源；在P2P中，为了形成簇状拓扑结构，节点周期性地进行资源分组；由于P2P是一个完全自治的网络，节点选择是基于邻居之间的信息交换完成的；在同一资源组节点中，节点间可用的带宽资源是影响节点选择的主要因素，在考虑此类因素的情况下，本发明运用强化学习方法(RL)之一的Q-Learning来确定最合适的节点。

步骤二：起初，Q-Learning是用于时间差异学习的RL算法，它使用动作值函数Q直接逼近任意目标策略的最优动作值；Q-Learning模型定义如下：

其中，Q(s,a)是一个动作值函数，当前状态s包含当前的节点，节点将路由器消息发送给邻居节点，下一个状态s'包含状态s中的一个节点的邻居，此邻居将收到来自状态s中的节点消息，a是当前节点在状态s下采取的动作，就是选择状态s中某一节点的邻居之一，以便发送路由器消息；a'是节点在状态s'下的动作，就是选择状态s'中的邻居节点发送路由器消息，max_a'是可以在下一个状态s'实现的最大奖励；R(s)是奖励，α为设置在0到1之间的学习速率，α设置为0.3；γ是折扣因子，设置在0和1之间，γ设置为0.3，γ参数认为，未来的回报值得低于奖励R(s)。

步骤三：为了监测P2P中节点的状态，本发明考虑了与路由过程相关的状态信息，如节点的处理能力、连接数和所拥有的资源数；在R(s)函数中设置的参数反映了P2P中节点的基本状态，R(s)函数定义如下:

其中χ(s,d_c)是节点P_s与其d_c半径内的所有节点的连通程度，χ(s,d_c)越大，节点P_s可能接收到的查询消息就越多，d_c设置为2；N(s,h)表示与节点P_s相距h跳的相邻节点的个数，参数σ(用来控制h^σ的值)是用于控制距离节点P_s不同跳数距离的节点的权值，σ值越高意味着距离节点P_s越远的节点对其影响越小，σ设置为1；n_s是节点P_s包含视频资源的数量；定义为节点P_s在时刻i的正向吸引力，值越大,反映了节点P_s拥有越高的上行带宽、越多的资源数以及越大的连接度。

步骤四：公式(3)表明，值越大，节点的奖赏值就越大，由于奖赏值越大的节点有更多的邻居和连接,那么这些节点将会处理比别的节点更多的转发查询，同时这也使得节点更容易发生拥塞；为了均衡这种效果，本发明在基本Q-Learning学习模型的基础上增加了一个指标函数，改进的Q学习模型如下：

其中，β为折扣因子，设定为0.5；是一个指标函数，当节点处于正常状态时，此函数给出正号，意味着节点没有拥塞，当节点过载时，此函数为负号；通过这种方式，本发明提出的节点选择方法能够考虑到节点拥塞状态的影响；在本发明所定义的网络中，正常状态由设置，这意味着当节点P_s只有10％的可用上行带宽或更少的时候，节点的请求带宽已经超出它的能力范围，再给它添加请求时将会发生拥塞；当节点无法承担更多的资源上传服务时，Q值会降低，与此同时会选择其他合适的节点。

如果，媒体服务器所做的线性规划没有找到满足要求的资源节点集，那么节点P₁在节点之间进行Q查询；在第二层节点选择方法中，Q-searching(Q查询)方法为：当不满足播放，则需1s的间隔才能再次请求Q查询，Q查询搜索资源节点的TTL设为8跳；如果找到了请求资源，那么节点P₁和Q查询找到的节点相连接，例如节点P₉。

改进后的Q学习模型中Q值的计算考虑到了上行带宽、连接数和资源数以及节点的拥塞状态；这样，查询路由在Q学习方法的控制下在同资源组节点之间进行。

综上所述，本发明所提出的在P2P网络中的第二层节点选择方法是一个局部引导查询的方法，而在第一层媒体服务器中所提出的节点选择方法是一个全局的节点选择方案，这两种方法彼此互补以实现快速响应和全局最优解之间的平衡。

所述实施例为本发明的优选的实施方式，但本发明并不限于上述实施方式，在不背离本发明的实质内容的情况下，本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims

1.一种基于线性规划和强化学习的P2P视频点播节点选择方法，其特征在于，该方法分为两层来实现：

S1，通过线性规划在第一层媒体服务器中进行节点选择

S2，通过强化学习在第二层对等网络中进行节点选择

2.如权利要求1所述的一种基于线性规划和强化学习的P2P视频点播节点选择方法，其特征在于，所述线性规划方法为：

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>r</mi> <mo>,</mo> <mi>&lambda;</mi> </mrow> </munder> <munderover> <mo>&Sigma;</mo> <mrow> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>&lambda;</mi> <mrow> <mi>s</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>r</mi> <mrow> <mi>s</mi> <mi>j</mi> </mrow> </msub> </mrow>

<mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> <mo>:</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>&lambda;</mi> <mrow> <mi>s</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>r</mi> <mrow> <mi>s</mi> <mi>j</mi> </mrow> </msub> <mo>&GreaterEqual;</mo> <mi>X</mi> <mi>R</mi> <mo>,</mo> <mo>&ForAll;</mo> <mi>j</mi> <mo>,</mo> </mrow>

<mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>&lambda;</mi> <mrow> <mi>s</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>r</mi> <mrow> <mi>s</mi> <mi>j</mi> </mrow> </msub> <mo>&le;</mo> <msub> <mi>U</mi> <mi>s</mi> </msub> <mo>,</mo> <mo>&ForAll;</mo> <mi>s</mi> <mo>,</mo> </mrow>

<mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>&lambda;</mi> <mrow> <mi>s</mi> <mi>j</mi> </mrow> </msub> <mo>&le;</mo> <mi>W</mi> <mo>,</mo> <mo>&ForAll;</mo> <mi>j</mi> <mo>,</mo> </mrow>

<mrow> <msub> <mi>r</mi> <mrow> <mi>s</mi> <mi>j</mi> </mrow> </msub> <mo>&GreaterEqual;</mo> <mn>0</mn> <mo>,</mo> <mo>&ForAll;</mo> <mi>s</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> </mrow>

<mrow> <msub> <mi>&lambda;</mi> <mrow> <mi>s</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mn>0</mn> <mi>o</mi> <mi>r</mi> <mn>1</mn> <mo>,</mo> <mo>&ForAll;</mo> <mi>s</mi> <mo>,</mo> <mi>j</mi> <mo>.</mo> </mrow>

3.如权利要求2所述的一种基于线性规划和强化学习的P2P视频点播节点选择方法，其特征在于，意味着对于每一个资源观看请求，一定时间内服务器会规划XR大小的带宽，意味着对于节点而言，其提供的上行带宽必须小于等于其最大上行带宽U_s；约束意味着在每个视频会话中，所选择的节点数量不应该超过最大资源连接数W。

4.如权利要求1所述的一种基于线性规划和强化学习的P2P视频点播节点选择方法，其特征在于，所述Q查询的间隔时间为1s，Q查询搜索资源节点的TTL的跳数设为8。

5.如权利要求4所述的一种基于线性规划和强化学习的P2P视频点播节点选择方法，其特征在于，Q查询的具体方法为：当不满足播放，则需1s的间隔才能再次请求Q查询；如果找到了请求资源，那么节点和Q查询找到的节点相连接。

6.如权利要求1所述的一种基于线性规划和强化学习的P2P视频点播节点选择方法，其特征在于，所述Q查询的模型为其中Q(s,a)是一个动作值函数，s是当前状态，a是当前节点在状态s下采取的动作；α为设置在0到1之间的学习速率，β为折扣因子，sgn为指标函数，U_s是节点的最大上行带宽，是可用的上行带宽。

7.如权利要求6所述的一种基于线性规划和强化学习的P2P视频点播节点选择方法，其特征在于，所述指标函数当节点处于正常状态时，此函数给出正号，意味着节点没有拥塞；当节点过载时，此函数为负号。

8.如权利要求1所述的一种基于线性规划和强化学习的P2P视频点播节点选择方法，其特征在于，所述S1.1中收集的信息为：其中ID_s是节点的识别，VR_s是节点拥有的资源，U_s是节点的最大上行带宽，是可用的上行带宽，T_s是将此信息列表发送到媒体服务器所需的时间。