CN107396204B - 一种基于线性规划和强化学习的p2p视频点播节点选择方法 - Google Patents

一种基于线性规划和强化学习的p2p视频点播节点选择方法 Download PDF

Info

Publication number
CN107396204B
CN107396204B CN201710439279.7A CN201710439279A CN107396204B CN 107396204 B CN107396204 B CN 107396204B CN 201710439279 A CN201710439279 A CN 201710439279A CN 107396204 B CN107396204 B CN 107396204B
Authority
CN
China
Prior art keywords
node
resource
video
linear programming
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710439279.7A
Other languages
English (en)
Other versions
CN107396204A (zh
Inventor
陶佳丽
沈项军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN201710439279.7A priority Critical patent/CN107396204B/zh
Publication of CN107396204A publication Critical patent/CN107396204A/zh
Application granted granted Critical
Publication of CN107396204B publication Critical patent/CN107396204B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/632Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing using a connection between clients on a wide area network, e.g. setting up a peer-to-peer communication via Internet for retrieving video segments from the hard-disk of other client devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1042Peer-to-peer [P2P] networks using topology management mechanisms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1074Peer-to-peer [P2P] networks for supporting data block transmission mechanisms
    • H04L67/1078Resource delivery mechanisms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/63Routing a service request depending on the request content or context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44245Monitoring the upstream path of the transmission network, e.g. its availability, bandwidth
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Computer And Data Communications (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供了一种基于线性规划和强化学习的P2P视频点播节点选择方法,属于P2P流媒体技术领域。该方法在非结构化的P2P网络中采用一个两层的节点选择方法,第一层在媒体服务器上运用线性规划从而为请求资源的节点规划一组拥有该资源的节点集,从中选择满足条件的节点为请求资源的节点提供资源,若找到了满足条件的节点,则视频可以播放成功,反之,则进入第二层;第二层在对等网络中运用强化学习从邻居节点处请求资源,若找到了拥有被请求的资源的节点,则视频可以播放成功,反之,则播放不成功。两层节点选择方法相辅相成,最终提高资源查找的效率,达到减少带宽使用、计算消耗的目的,从而使得视频播放流畅。

Description

一种基于线性规划和强化学习的P2P视频点播节点选择方法
技术领域
本发明属于P2P流媒体技术领域,具体涉及一种基于线性规划和强化学习的P2P视频点播节点选择方法。
背景技术
基于P2P的VoD系统可以分为两类,一类是基于树的系统,另一类是基于网格的系统。在基于树的P2P VoD系统中,网络节点接收来自父节点的分组,并形成覆盖树拓扑,将接收到的分组推送给子节点。在基于网格的P2P VoD系统中,每个节点连接到邻居节点以形成覆盖网格,以将数据包拉向连接的邻居。对于较大的覆盖和更高的流速率而言,基于网格的系统的效果要比基于树的系统要好。本发明采用基于网格的拓扑来使分组遍历网络中的节点。
P2P VoD系统中最重要的设计问题之一是在搜索和传输视频时在网络节点之间分配媒体服务器的负载负担的方式。在动态网络条件下在网络节点之间实现均匀的负载分配更困难。为了减轻服务器负担,并且能够在节点之间平滑地观看视频,现阶段较先进的技术已经提出了以下几种设计;
一、提出了一种缓存技术,其中当观看其他节点的视频块时,视频块被缓存在节点中用于下一次传输。在W.P.K.Yiu,X.Jin,and S.H.G.Chan描述的VMesh(Verticesinterconnect Mesh)结构中(W.P.K.Yiu,X.Jin,and S.H.G.Chan.2007.VMesh:Distributed Segment Storage for Peer-to-Peer Interactive Video Streaming.IEEEJournal on Selected Areas in Communications 25,9(2007),1717–1731.),提出了基于流行度的块高速缓存方案来保持整个网络上的块的供应和需求之间的平衡。
二、提出了一种预取技术,在这项技术中,节点从其他节点预取了几个后续视频块,以供将来观看。Y.F.He,G.B.Shen,Y.G.Xiong,and L.Guan提出了一种指导性方法(Y.F.He,G.B.Shen,Y.G.Xiong,and L.Guan.2009.Optimal Prefetching Scheme in P2PVoD Applications With Guided Seeks.IEEE Transactions on Multimedia 11,1(2009),138–151.),指导是从集体统计数据中获得的。在此指导下视频预先获取,以减少寻求延迟。
三、复制策略已经在一些研究中得到应用,这是一个使用节点中的视频块的k次复制的子类,用于紧固节点之间的视频传输。W.J.Wu,and J.C.S.Lui提出了一种复制方法(W.J.Wu,and J.C.S.Lui.2011.Exploring the optimal replication strategy in P2PVoD system s:Characterization and evaluation.In INFOCOM.1206–1214.),通过存储当前观看的视频以及先前观看的视频,每个对等体提供具有较高优先级的上传服务,达到同时观看同一视频的目的。
以上讨论的较先进的技术虽然都可以减轻服务器带宽,但还存在一定的缺陷:缓存技术的命中率不高;预取技术的高效性和准确性有待改进;复制策略的成功率有待提高。本发明提出的方法是截然不同的,本发明通过最小带宽消耗的播放速率找到最适合的节点来利用上行带宽,以便视频播放流畅。为了实现最小化媒体服务器的负载的目标,特别是最小化媒体服务器的带宽和计算强度,本发明提出了一种新型的双层节点选择方法设计。
发明内容
本发明将线性规划与强化学习算法应用到视频点播节点选择方法中,形成媒体服务器两层最优节点选择方法。
在两层节点选择方法的第一层,通过媒体服务器线性规划,基于从节点处定期收集的全局信息,引导合适的节点选择。以这种方式来最小化媒体服务器的带宽和计算消耗的成本。为了能够快速响应动态网络,在两层节点选择方法的第二层,利用节点拓扑重连形成资源兴趣群组的前提条件,通过强化学习进行节点选择,节点通过本地邻居信息,以一种完全分布式的方法找到可用的和有能力的节点,有效地定位资源,使得视频播放过程更加流畅。
本发明的技术方案如下:
S1,通过线性规划在第一层媒体服务器中进行节点选择
S1.1,在第一层节点选择中,媒体服务器会运用心跳机制定期从P2P中收集节点信息;
S1.2,每当节点第一次请求资源的时候,媒体服务器会采用线性规划的方法规划一组拥有资源的资源节点集合给此节点,8s内任何请求资源的节点只能从资源节点集合中请求,如果8s后再来一次资源请求,则重新规划资源节点集合;
S1.3,若找到了请求资源,则节点和拥有该资源的节点相连接;如果没有找到请求资源,则进入第二层节点选择;
S2,通过强化学习在第二层对等网络中进行节点选择
S2.1,在第二层节点选择中,请求资源的节点在其邻居节点之间进行Q查询;
S2.2,Q查询考虑了节点的剩余上行带宽、资源的个数以及节点的拥塞状态等参数,在P2P局部范围内引导对资源节点的搜索。
进一步,所述线性规划方法为:
其中,λsj是一个指示变量,节点的下载速率定义为rsj,j是网络中正在观看的第j组资源,当前网络中总观看的视频资源数为M;XR为带宽的大小,且系数X的值随网络情况变化;Us是节点的最大上行带宽,W表示最大资源连接数。
更进一步,意味着对于每一个资源观看请求,一定时间内服务器会规划XR大小的带宽,意味着对于节点而言,其提供的上行带宽必须小于等于其最大上行带宽Us;约束意味着在每个视频会话中,所选择的节点数量不应该超过最大资源连接数W。
进一步,所述Q查询的间隔时间为1s,Q查询搜索资源节点的跳数设为8。
更进一步,Q查询的具体方法为:当不满足播放,则需1s的间隔才能再次请求Q查询;如果找到了请求资源,那么节点和Q查询找到的节点相连接。
进一步,所述Q查询的模型为其中Q(s,a)是一个动作值函数,s是当前状态,a是当前节点在状态s下采取的动作;α为设置在0到1之间的学习速率,β为折扣因子,sgn为指标函数,Us是节点的最大上行带宽,是可用的上行带宽。
更进一步,所述指标函数当节点处于正常状态时,此函数给出正号,意味着节点没有拥塞;当节点过载时,此函数为负号。
进一步,所述S1.1中收集的信息为:其中IDs是节点的识别,VRs是节点拥有的资源,Us是节点的最大上行带宽,是可用的上行带宽,Ts是将此信息列表发送到媒体服务器所需的时间。
本发明存在以下技术效果:
1、在两层节点选择方法的第一层中,运用的线性规划中引入了系数X,其大小随着动态网络的变化而改变,以此来节省带宽消耗,减轻媒体服务器负载;
2、在两层节点选择方法的第二层中,在改进后的Q-Learning模型中加入了指标函数sgn,以此来判断节点是否拥塞,从而更快地进行资源请求。
附图说明
图1为网络节点模拟图。
具体实施方式
为了评估使用本发明所述方法的P2P VoD系统(OPTS)的性能,将此系统与两个不同的仿真系统进行比较:一个是只使用媒体服务器中的线性规划方法来进行节点选择的中央系统(CS),另一个是只使用强化学习方法基于在节点之间交换的信息来进行节点选择的完全分布式系统(DS)。
本发明的实验将在三种模拟网络中进行,第一种是波动网络下节点的涌入;第二种是波动网络下节点的拖动;第三种是波动网络下节点的涌入+拖动,分别监测四组实验参数,分别是:服务器负载、搜索时间、播放成功率和X值。
本发明在Windows平台下利用Python 2.6进行程序的编写及运行,根据Gnutella协议设计网络,该网络包含10000个节点;网络中每个节点的初始邻居数都大致相同,约为10个;采用从Gnutella网络测量中获得的节点能力分布情况(见表1),来模拟节点能力的异构性。
表1模拟网络中的节点处理能力分布
网络中有1000个不同的资源数据,根据资源热度的不同来确定资源的复制率以及播放率,见表2,所有资源随机地分布在网络节点上;用复制率来表示一个资源在网络中的副本数,假设复制率为0.01,那么在10000个节点的系统中,就有100个相同的资源存在;同时热度最高的资源的复制率为0.2,热度最低的资源只有0.01的复制率;播放概率则意味着当节点观看视频资源时,不同热度的资源被观看的概率。
表2模拟网络中不同热度资源的复制率、播放概率
在网络中为每个查询设置5个随机步行器,以定位所请求的资源。每个节点的心跳机制的时间间隔设置为2分钟,达到2分钟后,节点被认为拥塞或退出网络,在节点选择过程的下一次迭代中将不会考虑此节点。媒体服务器第一层线性规划的时间间隔设置为8秒,在第二层对等网络中使用的资源分组和节点重连策略的时间间隔设置为4分钟。
仿真实验中,每秒钟将会分别从网络中以及网络外随机选择千分之二的节点加入、退出网络;在第6分钟发生百分之十的节点在短时间内突然涌入到网络中观看资源,同时有百分之十的节点在短时间内发生拖动观看行为,第11分钟内涌入的节点短时间内同时退出网络。
下面结合图1的网络节点模拟图给出本发明一个具体实施过程的例子,具体过程如下:
1.通过线性规划在第一层媒体服务器中进行节点选择
步骤一:假设P2P中有10个节点,那么每个节点都可以作为媒体服务器,且节点具有最大上行带宽Us,其中s=1,...,10;除了这些节点,P2P中还存在着包含所有视频资源的媒体服务器,媒体服务器充当着网络中的后备服务器,假设其具有无限的带宽和计算能力。
步骤二:媒体服务器需要从P2P中的所有节点处定期地收集一些信息
对于节点P1而言,收集的信息为:其中ID1是节点P1的识别,VR1是节点P1拥有的资源,U1是节点P1的最大上行带宽,是节点P1可用的上行带宽,T1是将节点P1的信息列表发送到媒体服务器所需的时间;媒体服务器使用从通信社区借来的心跳机制来判断节点是否退出网络,该心跳机制用于监测T1的最后一个值与当前时间之间的时间间隔;如果该时间间隔足够大,那么节点P1被假定为拥塞或已经退出网络,并且该节点将不会在公式(1)中被考虑。
步骤三:在媒体服务器收集节点信息之后,对第一层媒体服务器中的节点选择过程使用标准的线性规划方法,如下所述:
其中,λsj是一个指示变量,其值为0或1,如果λsj的值为1,那么意味着节点Ps被选择为第j个资源的候选节点集提供资源;节点的下载速率定义为rsj,j是网络中正在观看的第j组资源,意味着节点Ps是否被选择作为第j个资源观看集的资源节点,本实施例j取6;当前网络中总观看的视频资源数为M;XR为带宽的大小,且X的值随网络情况变化;Us是节点的最大上行带宽;W表示最大资源连接数,即最多向W个节点请求资源,本实施例中W设置为5。
其他的约束条件有:意味着对于每一个资源观看请求,一定时间内服务器会规划XR大小的带宽,即选择的资源节点集BPj中的节点的上行带宽要大于XR,本实施例X最初设置为1;另一个约束意味着对于节点Ps而言,其提供的上行带宽必须小于等于其最大上行带宽Us;同时约束意味着在每个视频会话中,所选择的节点数量不应该超过最大资源连接数W。
步骤四:每当节点P1第一次请求资源B6的时候,媒体服务器会规划一组拥有资源B6的资源节点集合BP6给节点P1,8s内任何请求资源B6的节点只能从资源节点集合BP6中请求,如果8s后再来一次请求资源B6,则重新规划资源节点集合BP6;如果找到了请求资源,那么节点P1和拥有资源B6的节点相连接,例如节点P2
这时的媒体服务器必须满足以下标准:所提供的选定的一组节点的带宽总和,必须大于视频的播放速率;这样视频就可以在没有媒体服务器提供额外的上行带宽和计算资源的情况下顺利地播放由BPj提供的资源,如果请求节点Ps无法收到集合BPj提供的足够服务速率,则请求备份媒体服务器提供必要的服务。所以,目标是为每个请求节点选择其BPj中各节点提供的服务带宽以减少备份媒体服务器的总带宽服务速率。
因此,在第一层的节点选择中定义的客观目标意味着在整个P2P中计数的下载速率rsj的总和应该被最小化,实现这一目标意味着P2P只需要提供最小的上行带宽给节点,以满足节点观看视频所需的带宽。故此节点选择最终能够最大限度地减少P2P传输开销,并且在减少媒体服务器负担的同时也满足了更多的请求,因为第一层节点选择需要更少的带宽和计算资源。
在第一层媒体服务器的节点选择中,媒体服务器必须周期性地从P2P中收集节点信息,这在一定程度上限制了媒体服务器在动态网络条件下快速响应节点请求,特别是当节点进入或退出网络时;在这样一个波动的网络情况下,被选定的节点可能退出网络,或者它们不能像媒体服务器所期望的那样,从其他节点处获得更多的连接和更多的请求来负担所需的上行带宽;为了弥补这种媒体服务器节点选择的不足,本发明在第二层对等网络中提出了一种完全分布式节点搜索算法,它仅依赖于邻居节点间的信息交换来指导节点选择;因此,对动态网络具有更快的响应速度。
2.通过强化学习在第二层对等网络(P2P)中进行节点选择
步骤一:为了能够快速定位节点所需的资源,本发明提出的第二层节点选择应用了资源分组和节点重连策略;在资源探索过程中,假定具有相同资源的节点具有相似的兴趣;维持与其他具有相似兴趣的节点保持密切联系,可以快速搜索到请求资源;在P2P中,为了形成簇状拓扑结构,节点周期性地进行资源分组;由于P2P是一个完全自治的网络,节点选择是基于邻居之间的信息交换完成的;在同一资源组节点中,节点间可用的带宽资源是影响节点选择的主要因素,在考虑此类因素的情况下,本发明运用强化学习方法(RL)之一的Q-Learning来确定最合适的节点。
步骤二:起初,Q-Learning是用于时间差异学习的RL算法,它使用动作值函数Q直接逼近任意目标策略的最优动作值;Q-Learning模型定义如下:
其中,Q(s,a)是一个动作值函数,当前状态s包含当前的节点,节点将路由器消息发送给邻居节点,下一个状态s'包含状态s中的一个节点的邻居,此邻居将收到来自状态s中的节点消息,a是当前节点在状态s下采取的动作,就是选择状态s中某一节点的邻居之一,以便发送路由器消息;a'是节点在状态s'下的动作,就是选择状态s'中的邻居节点发送路由器消息,maxa'是可以在下一个状态s'实现的最大奖励;R(s)是奖励,α为设置在0到1之间的学习速率,α设置为0.3;γ是折扣因子,设置在0和1之间,γ设置为0.3,γ参数认为,未来的回报值得低于奖励R(s)。
步骤三:为了监测P2P中节点的状态,本发明考虑了与路由过程相关的状态信息,如节点的处理能力、连接数和所拥有的资源数;在R(s)函数中设置的参数反映了P2P中节点的基本状态,R(s)函数定义如下:
其中χ(s,dc)是节点Ps与其dc半径内的所有节点的连通程度,χ(s,dc)越大,节点Ps可能接收到的查询消息就越多,dc设置为2;N(s,h)表示与节点Ps相距h跳的相邻节点的个数,参数σ(用来控制hσ的值)是用于控制距离节点Ps不同跳数距离的节点的权值,σ值越高意味着距离节点Ps越远的节点对其影响越小,σ设置为1;ns是节点Ps包含视频资源的数量;定义为节点Ps在时刻i的正向吸引力,值越大,反映了节点Ps拥有越高的上行带宽、越多的资源数以及越大的连接度。
步骤四:公式(3)表明,值越大,节点的奖赏值就越大,由于奖赏值越大的节点有更多的邻居和连接,那么这些节点将会处理比别的节点更多的转发查询,同时这也使得节点更容易发生拥塞;为了均衡这种效果,本发明在基本Q-Learning学习模型的基础上增加了一个指标函数,改进的Q学习模型如下:
其中,β为折扣因子,设定为0.5;是一个指标函数,当节点处于正常状态时,此函数给出正号,意味着节点没有拥塞,当节点过载时,此函数为负号;通过这种方式,本发明提出的节点选择方法能够考虑到节点拥塞状态的影响;在本发明所定义的网络中,正常状态由设置,这意味着当节点Ps只有10%的可用上行带宽或更少的时候,节点的请求带宽已经超出它的能力范围,再给它添加请求时将会发生拥塞;当节点无法承担更多的资源上传服务时,Q值会降低,与此同时会选择其他合适的节点。
如果,媒体服务器所做的线性规划没有找到满足要求的资源节点集,那么节点P1在节点之间进行Q查询;在第二层节点选择方法中,Q-searching(Q查询)方法为:当不满足播放,则需1s的间隔才能再次请求Q查询,Q查询搜索资源节点的TTL设为8跳;如果找到了请求资源,那么节点P1和Q查询找到的节点相连接,例如节点P9
改进后的Q学习模型中Q值的计算考虑到了上行带宽、连接数和资源数以及节点的拥塞状态;这样,查询路由在Q学习方法的控制下在同资源组节点之间进行。
综上所述,本发明所提出的在P2P网络中的第二层节点选择方法是一个局部引导查询的方法,而在第一层媒体服务器中所提出的节点选择方法是一个全局的节点选择方案,这两种方法彼此互补以实现快速响应和全局最优解之间的平衡。
所述实施例为本发明的优选的实施方式,但本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims (7)

1.一种基于线性规划和强化学习的P2P视频点播节点选择方法,其特征在于,该方法分为两层来实现:
S1,通过线性规划在第一层媒体服务器中进行节点选择
S1.1,在第一层节点选择中,媒体服务器会运用心跳机制定期从P2P中收集节点信息;
S1.2,每当节点第一次请求资源的时候,媒体服务器会采用线性规划的方法规划一组拥有资源的资源节点集合给此节点,8s内任何请求资源的节点只能从资源节点集合中请求,如果8s后再来一次资源请求,则重新规划资源节点集合;
S1.3,若找到了请求资源,则节点和拥有该资源的节点相连接;如果没有找到请求资源,则进入第二层节点选择;
S2,通过强化学习在第二层对等网络中进行节点选择
S2.1,在第二层节点选择中,请求资源的节点在其邻居节点之间进行Q查询;
S2.2,Q查询考虑了节点的剩余上行带宽、资源的个数以及节点的拥塞状态等参数,在P2P局部范围内引导对资源节点的搜索。
2.如权利要求1所述的一种基于线性规划和强化学习的P2P视频点播节点选择方法,其特征在于,所述线性规划方法为:
其中,λsj是一个指示变量,节点的下载速率定义为rsj,j是网络中正在观看的第j组资源,当前网络中总观看的视频资源数为M;XR为带宽的大小,且系数X的值随网络情况变化;Us是节点的最大上行带宽,W表示最大资源连接数,N是节点总数,s=1,...,N;
意味着对于每一个资源观看请求,一定时间内服务器会规划XR大小的带宽,意味着对于节点而言,其提供的上行带宽必须小于等于其最大上行带宽Us;约束意味着在每个视频会话中,所选择的节点数量不应该超过最大资源连接数W。
3.如权利要求1所述的一种基于线性规划和强化学习的P2P视频点播节点选择方法,其特征在于,所述Q查询的间隔时间为1s,Q查询搜索资源节点的TTL的跳数设为8。
4.如权利要求3所述的一种基于线性规划和强化学习的P2P视频点播节点选择方法,其特征在于,Q查询的具体方法为:当不满足播放,则需1s的间隔才能再次请求Q查询;如果找到了请求资源,那么节点和Q查询找到的节点相连接。
5.如权利要求1所述的一种基于线性规划和强化学习的P2P视频点播节点选择方法,其特征在于,所述Q查询的模型为其中Q(s,a)是一个动作值函数,s是当前状态,a是当前节点在状态s下采取的动作;α为设置在0到1之间的学习速率,β为折扣因子,sgn为指标函数,Us是节点的最大上行带宽,是可用的上行带宽。
6.如权利要求5所述的一种基于线性规划和强化学习的P2P视频点播节点选择方法,其特征在于,所述指标函数当节点处于正常状态时,此函数给出正号,意味着节点没有拥塞;当节点过载时,此函数为负号。
7.如权利要求1所述的一种基于线性规划和强化学习的P2P视频点播节点选择方法,其特征在于,所述S1.1中收集的信息为:其中IDs是节点的识别,VRs是节点拥有的资源,Us是节点的最大上行带宽,是可用的上行带宽,Ts是将此信息列表发送到媒体服务器所需的时间。
CN201710439279.7A 2017-06-12 2017-06-12 一种基于线性规划和强化学习的p2p视频点播节点选择方法 Expired - Fee Related CN107396204B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710439279.7A CN107396204B (zh) 2017-06-12 2017-06-12 一种基于线性规划和强化学习的p2p视频点播节点选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710439279.7A CN107396204B (zh) 2017-06-12 2017-06-12 一种基于线性规划和强化学习的p2p视频点播节点选择方法

Publications (2)

Publication Number Publication Date
CN107396204A CN107396204A (zh) 2017-11-24
CN107396204B true CN107396204B (zh) 2019-08-27

Family

ID=60331783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710439279.7A Expired - Fee Related CN107396204B (zh) 2017-06-12 2017-06-12 一种基于线性规划和强化学习的p2p视频点播节点选择方法

Country Status (1)

Country Link
CN (1) CN107396204B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109194583B (zh) * 2018-08-07 2021-05-14 中国地质大学(武汉) 基于深度增强学习的网络拥塞链路诊断方法及系统
CN110730388B (zh) * 2019-12-19 2020-08-04 千脉文化传媒(上海)有限公司 一种p2p视频点播系统中节点连接方法
CN111245540B (zh) * 2020-01-10 2022-03-01 湖南科技学院 基于强化学习机制的认知网络协作频谱感知节点选择方法
CN111093230B (zh) * 2020-01-20 2023-08-11 常熟理工学院 基于6LoWPAN的IPv6无线传感器节点负载均衡的实现方法
CN111586340B (zh) * 2020-05-08 2021-11-19 青岛海信医疗设备股份有限公司 影像数据的加载、提供方法及装置
CN115102904B (zh) * 2021-03-04 2024-05-17 华为技术有限公司 一种调度方法、装置以及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102035586A (zh) * 2009-09-28 2011-04-27 北京邮电大学 一种无线协同中继网络中能量高效的分布式中继选择算法
CN104539744A (zh) * 2015-01-26 2015-04-22 中国科学技术大学 一种两阶段协作的媒体边缘云调度方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7738406B2 (en) * 2008-10-08 2010-06-15 Microsoft Corporation Models for routing tree selection in peer-to-peer communications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102035586A (zh) * 2009-09-28 2011-04-27 北京邮电大学 一种无线协同中继网络中能量高效的分布式中继选择算法
CN104539744A (zh) * 2015-01-26 2015-04-22 中国科学技术大学 一种两阶段协作的媒体边缘云调度方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
P2P视频点播拥塞控制及节点选择优化策略研究;常青;《江苏大学硕士学位论文》;20170727;第4章 *
一种基于拥塞发现的强化学习P2P网络视频点播预取策略;沈项军;《计算机科学》;20150715;第42卷(第7期);第258-261页 *
基于拥塞发现的强化学习P2P网络视频点播预取策略研究;姚银;《江苏大学专业硕士学位论文》;20151012;第4.2节 *

Also Published As

Publication number Publication date
CN107396204A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
CN107396204B (zh) 一种基于线性规划和强化学习的p2p视频点播节点选择方法
US8477658B2 (en) Intelligent peer-to-peer media streaming
Zhong et al. Deep multi-agent reinforcement learning based cooperative edge caching in wireless networks
US8279766B2 (en) Interior-node-disjoint multi-tree topology formation
US20130305299A1 (en) Push-pull based content delivery system
Wu et al. Dynamic bandwidth auctions in multioverlay P2P streaming with network coding
Wang et al. Propagation-and mobility-aware D2D social content replication
CN113453038B (zh) 一种cdn-p2p混合架构下效用最优协同缓存管理方法
CN101217565B (zh) 一种对等网络视频共享系统中分类检索的网络组织方法
Lam et al. On the access pricing and network scaling issues of wireless mesh networks
Alioua et al. Incentive edge caching in software‐defined internet of vehicles: A Stackelberg game approach
CN101690133A (zh) 用于自动确定位置接近通信网络中的对等节点的一组对等节点的方法以及相应的服务器、分析装置和通信装置
Nguyen et al. A game-theoretical green networking approach for information-centric networks
Sun et al. A proactive on-demand content placement strategy in edge intelligent gateways
Pham et al. Optimization of content caching in content-centric network
Sina et al. CaR-PLive: Cloud-assisted reinforcement learning based P2P live video streaming: a hybrid approach
CN103179191B (zh) P2p网络管控装置及p2p网络管控系统
Huang et al. An intelligent infotainment dissemination scheme for heterogeneous vehicular networks
EP3190559A2 (en) Push-pull based content delivery system
CN110139126B (zh) 基于用户交互行为感知的移动视频系统资源共享方法
Tong et al. Efficient broadcast scheduling at mobile cloud edges for supporting news-broadcast-on-demand over P2P streaming
Xu et al. Prediction-based prefetching to support VCR-like operations in gossip-based P2P VoD systems
Zhang et al. Geo-edge: Geographical resource allocation on edge caches for video-on-demand streaming
Lee et al. A vEB-tree-based architecture for interactive video on demand services in peer-to-peer networks
Mykoniati et al. Scalable peer-to-peer streaming for live entertainment content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190827

Termination date: 20200612

CF01 Termination of patent right due to non-payment of annual fee