CN116156654A - 联合数据价值与信息年龄的多集群视频直播系统调度方法 - Google Patents

联合数据价值与信息年龄的多集群视频直播系统调度方法 Download PDF

Info

Publication number
CN116156654A
CN116156654A CN202310166524.7A CN202310166524A CN116156654A CN 116156654 A CN116156654 A CN 116156654A CN 202310166524 A CN202310166524 A CN 202310166524A CN 116156654 A CN116156654 A CN 116156654A
Authority
CN
China
Prior art keywords
cluster
time slot
neural network
data
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310166524.7A
Other languages
English (en)
Other versions
CN116156654B (zh
Inventor
刘青海
罗佳
肖继攀
王贺
胡娟
张伟东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Control Environment Technology Group Co ltd
Original Assignee
Chongqing Control Environment Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Control Environment Technology Group Co ltd filed Critical Chongqing Control Environment Technology Group Co ltd
Priority to CN202310166524.7A priority Critical patent/CN116156654B/zh
Publication of CN116156654A publication Critical patent/CN116156654A/zh
Application granted granted Critical
Publication of CN116156654B publication Critical patent/CN116156654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及无线通信网络技术领域,具体公开了一种联合数据价值与信息年龄的多集群视频直播系统调度方法,其考虑了一个视频数据与环境数据混合的多集群视频直播系统,建立了关于时间平均数据价值和AoI的联合优化问题,并制定调度策略以联合优化系统数据价值与信息年龄。该方法将优化问题的调度策略分解为相互关联的内外两层策略,外层策略利用深度强化学习实现集群间的信道分配,内层策略则基于构造的虚拟队列实现集群内的链路选择。双层调度策略将每个集群的内层策略嵌入到外层策略中进行训练。仿真结果显示,与现有调度策略相比,该方法所提的调度策略可以提高时间平均的接收数据价值并降低时间平均的信息年龄。

Description

联合数据价值与信息年龄的多集群视频直播系统调度方法
技术领域
本发明涉及无线通信网络技术领域,尤其涉及一种联合数据价值与信息年龄的多集群视频直播系统调度方法。
背景技术
随着移动互联网流量的爆发式增长以及各类垂直行业的进一步分化,无线通信技术在各类应用场景下的技术指标需求也逐渐趋于多样化。例如,在物联网领域,无人驾驶的车辆控制系统、生命监测系统、野外火灾报警系统等等对数据时效性敏感的应用系统需及时接收最新的无线网络数据以进行相关的系统决策,此外,不同于传统无线传输技术主要关注传输速率或时延,视频直播等新兴移动互联网应用也由于其业务性质对网络数据的时效性有了更精细化的需求,因此亟需一种有效的性能指标去度量相关数据或信息的时效性。为了进一步量化网络数据的时效性从而适配新兴的垂直行业应用需求,越来越多的学者提出采用信息年龄(Age of Information,AoI)来衡量数据的新鲜度或及时性。AoI综合考虑了数据的生成时间及其传输时延。对于某个节点的AoI其关注对象是该节点最新收到的数据包,AoI被定义为该最新数据包自生成以来经过的时间。
现有的研究通常将AoI作为单一指标来评估网络的数据新鲜度,然而,在某些应用中,也需考虑接收数据的价值。数据价值可以看作是数据对于系统业务的重要程度,例如,在视频直播场景,对于一个以看重视频质量的消费群体为目标客户的直播活动。另外,在对重要活动的直播中,可使用无线传感器来收集活动现场的实时环境数据,不同的环境数据具有不同的价值,例如,现场烟雾浓度或温度超出正常的阈值范围,则相应的烟雾或温度传感器应更及时地将相关数据发送到后端的监控中心进行紧急决策,以避免引发火灾等严重影响活动的紧急事故,那么这些数据由于需求的急迫性则具有更高的价值。因此,在这种数据价值敏感的系统中,需在保证接收数据具有一定价值的同时提高数据的新鲜度。在实际应用中,视频数据和环境数据可共享传输信道,例如,对于举行足球、篮球等体育赛事的场馆,得益于当前5G技术的发展,可利用无线信道实现赛事的视频直播。同时,由于场馆内人数众多,可采用无线传感器对场馆内的温度、湿度以及烟雾浓度等环境数据进行监测并通过无线信道传输到监控中心,从而使监控中心可基于环境数据做出现场环境调节或灾难预警等决策。
对基于无线链路的多集群视频直播系统,多个直播终端作为直播视频源需通过上行链路传输源视频到无线基站,基站利用连接的边缘服务器对源视频进行视频转码等处理操作从而向其覆盖范围内的各类终端消费者提供不同码率的直播服务,同时基站也需通过核心网将源视频传播至其它地理区域的终端以提供大范围的直播服务。为保证重要活动的实施效果,需在活动场馆的不同位置配备多个无线传感器从而采样收集多方位的环境相关数据,传感器作为无线终端也需通过上行链路将其采样的数据发送到基站并通过基站将数据发送到监控中心。作为对数据新鲜度要求较高的多集群视频直播系统,现有研究主要聚焦于视频的QoE优化,而较少关注视频数据的AoI和接收数据的价值。
发明内容
本发明提供联合数据价值与信息年龄的多集群视频直播系统调度方法,解决的技术问题在于:如何综合考虑视频数据的信息年龄(AoI)和接收数据的价值,对多集群视频直播系统进行信道调度。
为解决以上技术问题,本发明提供联合数据价值与信息年龄的多集群视频直播系统调度方法,其关键在于,包括步骤:
S1、构建多集群视频直播系统;
该多集群视频直播系统包括一个基站和大小相等的N个集群,共有L个带宽不同的上行无线信道,L-N≤N;每个集群包含M个终端,包括一个直播终端以及在其附近的M-1个无线传感器;
S2、联合优化数据价值与信息年龄对所述多集群视频直播系统进行调度;该步骤S2具体包括步骤:
S21、联合数据价值与信息年龄构建目标函数:
Figure BDA0004096107570000031
其中,
Figure BDA0004096107570000032
表示集群n内终端m即终端(n,m)在时隙t的信道l上的状态,在信道l上传输则
Figure BDA0004096107570000033
否则
Figure BDA0004096107570000034
Figure BDA0004096107570000035
表示所述基站在时隙t关于其接收数据的价值,Ab(t)表示所述基站在时隙t关于其接收数据的信息年龄,E[]表示求期望;l∈{1,2,…,L},n∈{1,2,…,N},m∈{1,2,…,M},t∈{1,2,…,T},T表示总时隙数;
S22、确定多集群视频直播系统的约束条件:
Figure BDA0004096107570000036
Figure BDA0004096107570000037
Figure BDA0004096107570000038
Figure BDA0004096107570000039
约束条件C1表示调度策略在每个时隙需为每个直播终端均分配1个上行信道用于传输视频数据,约束条件C2表示调度策略在每个时隙对任意集群n最多选择一个无线传感器上传其采样的环境数据包,约束条件C3表示每个上行无线信道最多只能与一个终端配对,约束条件C4表示每个时隙最多有L-N个上行无线信道可被分配用于进行传感器数据的上行传输;
S23、根据目标函数和约束条件构建优化问题
Figure BDA00040961075700000310
S24、对优化问题
Figure BDA00040961075700000311
进行求解,得到在每个时隙的调度策略。
进一步地,
Figure BDA00040961075700000312
计算为:
Figure BDA00040961075700000313
其中,
Figure BDA0004096107570000041
表示所述基站在时隙t接收到集群n的直播视频数据包的码率等级,有:
Figure BDA0004096107570000042
in(t)表示时隙t集群n正在传输的直播终端数据包对应的码率等级;终端(n,m)在时隙t进行上行传输,对于正在传输的数据包,μn,m(t)表示其数据生成的时隙,vn,m(t)则表示该数据包完成上行传输所需的时隙数;m=1表示直播终端;
Figure BDA0004096107570000043
表示所述基站在时隙t接收到对应环境数据包的价值等级,有:
Figure BDA0004096107570000044
其中,对于m≠1时的传感器(n,m),当
Figure BDA0004096107570000045
时,fn,m(t)表示其在时隙t传输的数据包所对应的价值等级。
进一步地,Ab(t)计算为:
Figure BDA0004096107570000046
其中,An,m(t)表示所述基站在时隙t关于终端(n,m)数据包的信息年龄,An,m(t)的更新遵循如下公式:
Figure BDA0004096107570000047
进一步地,vn,m(t)计算为:
Figure BDA0004096107570000051
其中,
Figure BDA0004096107570000052
为时隙t集群n正在传输的直播终端数据包对应的码率等级in(t)所对应的视频码率,
Figure BDA0004096107570000053
为时隙t传感器(n,m)正在传输的环境数据包大小的索引号jn,m(t)对应的数据包大小,Rl为信道l的上行传输速率,b为单位时隙时长,z为单位视频数据包时长。
进一步地,步骤S24具体包括步骤:
S241、令
Figure BDA0004096107570000054
q*表示问题
Figure BDA00040961075700000520
目标函数的最优值,因此有
Figure BDA0004096107570000055
Figure BDA0004096107570000056
Figure BDA0004096107570000057
分别对应采用最优策略
Figure BDA0004096107570000058
Figure BDA0004096107570000059
Figure BDA00040961075700000510
的值,将优化问题
Figure BDA00040961075700000511
转化为优化问题
Figure BDA00040961075700000512
Figure BDA00040961075700000513
s.t.C1~C4
S242、定义变量
Figure BDA00040961075700000514
来代替优化问题
Figure BDA00040961075700000515
中的未知量q*,将优化问题
Figure BDA00040961075700000516
转化成优化问题
Figure BDA00040961075700000517
Figure BDA00040961075700000518
s.t.C1~C4
S243、对优化问题
Figure BDA00040961075700000519
进行求解,包括求解集群间的信道分配和求解集群内的链路选择。
进一步地,在步骤S243中:
采用多核CPU来求解集群间的信道分配,多核CPU的每个线程包含一个智能体,所述智能体包含行动神经网络模块和评价神经网络模块;
所述行动神经网络模块基于当前时隙观察到的状态s(t)决定当前时隙的策略动作a(t);s(t)表示为:s(t)=[i(t),j(t),f(t),μ(t),Av(t),q(t)],i(t)=[i1(t),…,iN(t)]、j(t)=[j1,1(t),…,jN,M(t)]、f(t)=[f1,1(t),…,fN,M(t)]、μ(t)=[μ1,1(t),…,μN,M(t)]和Av(t)=[A1,1(t),…,AN,M(t)]分别表示相应的状态向量;a(t)表示为:a(t)=[av(t),as(t)],
Figure BDA0004096107570000061
表示用于视频数据传输的集群间信道分配动作,
Figure BDA0004096107570000062
表示用于环境数据传输的集群间信道分配动作,
Figure BDA0004096107570000063
表示集群n的直播终端被分配的信道索引号,
Figure BDA0004096107570000064
表示用于集群n环境数据传输的信道索引号;
所述评价神经网络模块基于通过环境反馈得到的即时奖励对当前策略进行评估;时隙t的奖励函数为:
Figure BDA0004096107570000065
进一步地,多核CPU的目标是最大化累积折扣奖励函数即状态价值函数,其计算公式如下:
Figure BDA0004096107570000066
其中,γ为折扣因子,Eπ{·}表示所述智能体采用策略π进行序贯决策时的期望值;
每个时隙所述智能体均计算并保存关于神经网络参数的导数,每隔预设数目的时隙,每个所述智能体使用各自在该时段中的累计导数并以异步的方式更新全局共享的神经网络参数集。
进一步地,在一个时隙中,首先,所述行动神经网络模块利用参数集为θ的神经网络输出当前时隙的策略π(a(t)|s(t),θ),根据该策略选择动作a(t)并执行,环境返回即时奖励函数值r(s(t),a(t),s(t+1))给所述评价神经网络模块;然后,所述评价神经网络模块利用参数集为θc的另一个神经网络计算状态价值函数Vπ(s(t))的估计值
Figure BDA0004096107570000067
并基于此计算出优势函数B(t)来评估当前时隙动作a(t)的优劣;最后,所述行动神经网络模块和所述评价神经网络模块分别对其神经网络求关于各自参数集的导数,并基于优势函数B(t)来更新相应的参数集θ和θc
优势函数B(t)采用如下公式计算:
Figure BDA0004096107570000071
Figure BDA0004096107570000072
即参数集为θc的神经网络在时隙t+1的输出。
进一步地,参数集θ采用如下方式更新:
Figure BDA0004096107570000073
其中,g≥0为所述行动神经网络模块的学习率;
参数集θc采用如下方式更新:
Figure BDA0004096107570000074
其中,gc≥0为所述评价神经网络模块的学习率。
进一步地,在步骤S243中,求解集群内的链路选择时,基于以下原则选择集群内的传感器m*与相应的空闲信道进行配对:
Figure BDA0004096107570000075
F表示环境数据的价值分为F个等级,
Figure BDA0004096107570000076
表示集群n的传感器m其数据包价值等级为f的概率,f∈{1,2,…,F};Y表示环境数据包大小共有Y种大小,j表示环境数据包大小的索引号,yj则为对应的数据包大小,
Figure BDA0004096107570000077
表示集群n中的传感器m采样的数据包大小为yj的概率,j∈{1,2,…,Y};
Figure BDA0004096107570000078
表示传感器数据完成上行传输所需的时隙数。
本发明提供的一种联合数据价值与信息年龄的多集群视频直播系统调度方法,其考虑了一个视频数据与环境数据混合的多集群视频直播系统,建立了关于时间平均数据价值和AoI的联合优化问题,并制定调度策略以联合优化系统数据价值与信息年龄。为克服优化问题中动作空间过大导致难以实现有效求解的问题,该方法将优化问题的调度策略分解为相互关联的内外两层策略,外层策略利用深度强化学习实现集群间的信道分配,内层策略则基于构造的虚拟队列实现集群内的链路选择。双层调度策略将每个集群的内层策略嵌入到外层策略中进行训练。仿真结果显示,与现有调度策略相比,该方法所提的调度策略可以提高时间平均的接收数据价值并降低时间平均的信息年龄。
附图说明
图1是本发明实施例提供的联合数据价值与信息年龄的多集群视频直播系统调度方法的流程图;
图2是本发明实施例提供的多集群视频直播系统的架构图;
图3是本发明实施例提供的基站关于终端(n,m)数据包的AoI随时间变化的示例图;
图4是本发明实施例提供的双层优化策略的流程图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
综合考虑视频数据的信息年龄(AoI)和接收数据的价值,对多集群视频直播系统进行信道调度,本发明实施例提供了一种联合数据价值与信息年龄的多集群视频直播系统调度方法,如图1所示,具体包括步骤:
S1、构建多集群视频直播系统;
S2、联合优化数据价值与信息年龄对多集群视频直播系统进行调度;
该步骤S2具体包括步骤:
S21、联合数据价值与信息年龄构建目标函数;
S22、确定多集群视频直播系统的约束条件;
S23、根据目标函数和约束条件构建优化问题
Figure BDA0004096107570000081
S24、对优化问题
Figure BDA0004096107570000082
进行求解,得到在每个时隙的调度策略。
在步骤S1中,对基于无线链路的视频直播系统,多个直播终端作为直播视频源需通过上行链路传输源视频到无线基站,基站利用连接的边缘服务器对源视频进行视频转码等处理操作从而向其覆盖范围内的各类终端消费者提供不同码率的直播服务,同时基站也需通过核心网将源视频传播至其它地理区域的终端以提供大范围的直播服务。本例主要考虑无线直播系统的第一个环节,即直播视频源终端到相应基站的上行传输链路。
具体来说,本例考虑一个针对重要活动的视频直播系统。系统模型如图2所示,一方面,单个基站需收集其覆盖范围内的直播源视频,为实现对同一重要活动的全方位直播,N个连接或配备摄像设备的直播终端在活动场馆的不同位置以不同视角对该活动进行直播。直播终端由采集现场视频的专业摄像机和5G背包通过有线连接组成,其中,5G背包内置了视频编码器与5G芯片(通常也内置了4G芯片实现向下兼容),因此,直播终端可作为直播视频源通过上行链路传输源视频到基站,随后,视频通过核心网被传输到远端的集成发布平台实现多平台的视频直播。另一方面,为保证重要活动的实施效果,需在活动场馆的不同位置配备多个无线传感器从而采样收集多方位的环境相关数据,传感器作为无线终端也需通过上行链路将其采样的数据发送到基站并通过基站将数据发送到监控中心。系统一共有L(L>N)个带宽不同的上行无线信道,考虑所有信道均为不涉及信息传输中断的理想信道。为保证视频直播的连续性,调度策略在每个时隙需为每个直播终端均分配1个上行信道。此外,还需为无线传感器分配回传其数据的上行信道,因此,每个时隙最多有L-N个信道可被分配用于进行传感器数据的上行传输,其中L-N≤N。
在具体实施时,为了向监控中心提供及时且多方位的环境相关数据,将以上两类终端以直播终端为中心划分为大小相等的N个集群,每个集群包含的终端数用M表示,其中包含一个直播终端以及在其附近的M-1个无线传感器。具体的终端索引号用m表示,m=1对应集群中的直播终端,m(1<m≤M)则对应集群中的无线传感器。
为避免单个集群内(即同一位置附近)的无线传感器占用过多的信道资源,除了直播终端,集群n在时隙t最多可选择一个无线传感器上传其采样的环境相关数据。直播视频传输时可按照视频时长为单位将视频数据分割为多个时长为z的视频数据包进行传输。对于不同的直播终端,其对视频码率选择的不同可使得各自视频数据包的大小存在差异,而对于同一直播终端,由于存在动态的码率自适应策略,其数据包大小在不同时隙也可能存在差异。对于直播视频,其数据包的视频码率划分为I个等级,i(i∈{1,2,…,I})表示具体某个视频数据包的码率索引号,索引号越高对应的视频码率也越高。
Figure BDA0004096107570000101
为对应的视频码率,
Figure BDA0004096107570000102
则为直播系统所支持的视频码率集合。因此,单个视频数据包大小为zxi,z为单位视频数据包时长。此外,上行传输所分配的信道具有不同的带宽和增益,对应的各终端上行传输速率也存在差异。
Figure BDA0004096107570000103
表示系统支持的上行传输速率集合,
Figure BDA0004096107570000104
则为信道l(l∈{1,2,…,L})的上行传输速率。单位时隙时长为b,用dv表示单个视频数据包完成上行传输所需的时隙数,基于上述讨论可知
Figure BDA0004096107570000105
Figure BDA00040961075700001011
表示上取整。
为保证视频直播的连续性,单个视频数据包对应内容的时长z应满足
Figure BDA0004096107570000106
Figure BDA0004096107570000107
表示集群n(n∈{1,2,…,N})的直播终端其视频数据包码率为xi的概率,因此可得
Figure BDA0004096107570000108
对于传感器数据的上传,由于并非所有传感器均在每个时隙接入无线信道进行上传,因此对于在时隙t分配到信道的传感器,其在时隙t之前采样的数据均被丢弃,仅上传在时隙t最新采样的数据,直到该数据完成上行传输才会释放被分配的信道。
Figure BDA00040961075700001012
表示传感器支持的环境数据包大小集合,
Figure BDA0004096107570000109
j(j∈{1,2,…,Y})表示环境数据包大小的索引号。
Figure BDA00040961075700001010
则为对应的数据包大小。用ds表示传感器数据完成上行传输所需的时隙数,因此有
Figure BDA0004096107570000111
Figure BDA0004096107570000112
表示集群n中的传感器m(m∈{2,…,M})采样的数据包大小为yj的概率,因此可得
Figure BDA0004096107570000113
Figure BDA0004096107570000114
表示集群n内终端(包括直播终端和传感器)m在时隙t的信道l上的状态,如果终端(n,m)在时隙t被分配到信道l(l∈{1,2,…,L})进行上行传输,则
Figure BDA0004096107570000115
否则,
Figure BDA0004096107570000116
Figure BDA0004096107570000117
时,即终端(n,m)在时隙t占用无线信道进行上行传输,对于正在传输的数据包,用μn,m(t)表示其数据生成的时隙,νn,m(t)则表示该数据包完成上行传输所需的时隙数,因此有
Figure BDA0004096107570000118
其中,in(t)表示时隙t集群n正在传输的直播终端数据包对应的码率等级,jn,m(t)则表示时隙t传感器(n,m)(m≠1)正在传输的环境数据包大小的索引号。
在步骤S2中,由于对直播视频与现场环境数据的需求均看重数据的及时性或新鲜度,因此本例采用AoI作为系统性能的评估指标。除了用AoI来衡量数据的及时性或新鲜度,还需考虑数据本身的价值。
AoI被定义为目标节点最新接收到的数据包自其生成以来所经过的时间,基于此,对于在时隙t基站已完成接收的来自终端(n,m)的最新数据包(并非正在传输的数据包),用μ n,m表示其数据生成的时隙。An,m(t)表示基站在时隙t关于终端(n,m)数据包的AoI,则有An,m(t)=t-μ n,m。如果终端(n,m)在时隙t完成了对应数据包的上行传输,则相应的AoI在时隙t+1需更新为vn,m(t)=t+1-μn,m(t),否则,AoI需更新为An,m(t)+1=t+1-μ n,m。比如,假设终端(n,m)在时隙t1、t3和t5生成数据包并开始传输,相应数据包在时隙t2、t4和t7完成传输,基于此,基站关于终端(n,m)数据包的AoI随时间变化的情况如图3所示。
综上所述,An,m(t)的更新遵循如下公式
Figure BDA0004096107570000121
因此,基站在时隙t关于其接收数据的AoI可计算为
Figure BDA0004096107570000122
对于注重视频质量的直播系统,本例采用视频码率来衡量视频数据的价值,视频码率等级越高其价值也越高。
基站主要关注接收成功时视频数据包的码率等级,对于集群n,用
Figure BDA0004096107570000123
表示基站在时隙t接收到对应直播视频数据包的码率等级,如果集群n的直播终端在时隙t完成其视频数据包的上行传输,则
Figure BDA0004096107570000124
即in(t)时隙t集群n正在传输的直播终端数据包对应的码率等级,否则
Figure BDA0004096107570000125
因此,
Figure BDA0004096107570000126
可由下式计算
Figure BDA0004096107570000127
类似的,传感器采样的环境数据也有不同的价值分级,设环境数据的价值分为F个等级,等级越高则表示价值越高。
Figure BDA0004096107570000128
表示集群n的传感器m其数据包价值等级为f(f∈{1,2,…,F})的概率,因此有
Figure BDA0004096107570000129
对于传感器(n,m)(m≠1),当
Figure BDA00040961075700001210
时,用fn,m(t)表示其在时隙t传输的数据包所对应的价值等级,
Figure BDA00040961075700001211
则表示基站在时隙t接收到对应环境数据包的价值等级,则有
Figure BDA0004096107570000131
综上,基站在时隙t关于其接收数据的价值可计算为
Figure BDA0004096107570000132
在每个时隙的开始,基站需基于其调度策略将空闲信道分配给需要上传数据的终端。考虑数据价值和AoI存在相互影响的关系且两者性能的优化分别对应各自的最大化和最小化,因此,为实现系统数据价值和AoI的联合优化,本例采用时间平均的数据价值与AoI比值(Ratio of Data Value to AoI,RDVA)。RDVA可用于衡量系统在单位时隙的数据新鲜度下能传输的数据价值大小,更大的RDVA意味着相应数据具有较好的数据新鲜度和较高的数据价值。相应的优化问题可表述为
Figure BDA0004096107570000133
Figure BDA0004096107570000134
Figure BDA0004096107570000135
Figure BDA0004096107570000136
Figure BDA0004096107570000137
其中,
Figure BDA0004096107570000138
则为目标函数,这里的E[]表示求期望,T表示总时隙数。C1~C4为约束条件。约束条件C1表示为保证视频直播的连续性,调度策略在每个时隙需为每个直播终端均分配1个上行信道。约束条件C2表示为避免单个集群的传感器占用过多信道资源,调度策略在每个时隙对任意集群n最多选择一个传感器上传其采样的环境数据包。约束条件C3表示每个信道最多只能与一个终端配对。约束条件C4则表示每个时隙最多有L-N个信道可被分配用于进行传感器数据的上行传输。
接下来需要执行步骤S24对优化问题
Figure BDA0004096107570000141
进行求解,得到在每个时隙的调度策略。步骤S24具体包括步骤S241~S243。
S241、用
Figure BDA0004096107570000142
Figure BDA0004096107570000143
分别表示基站接收数据的时间平均价值和AoI,即
Figure BDA0004096107570000144
Figure BDA0004096107570000145
q*表示问题
Figure BDA0004096107570000146
目标函数的最优值,因此有
Figure BDA0004096107570000147
其中,
Figure BDA0004096107570000148
Figure BDA0004096107570000149
分别对应采用最优策略
Figure BDA00040961075700001410
Figure BDA00040961075700001411
Figure BDA00040961075700001412
的值。而当且仅当下式成立时,问题
Figure BDA00040961075700001413
的目标函数取得最优值q*
Figure BDA00040961075700001414
因此,问题
Figure BDA00040961075700001415
可等价地转化为如下的减法形式
Figure BDA00040961075700001416
s.t.C1~C4
然而,由于q*的值未知,所以问题
Figure BDA00040961075700001417
仍然难以求解。
S242、为便于求解,定义如下变量q(t)来代替问题
Figure BDA00040961075700001418
中的未知量q*
Figure BDA00040961075700001419
其中,q(1)=0,参数q(t)的值取决于过往的调度决策。将q*替换为q(t),则问题
Figure BDA00040961075700001420
可转化为
Figure BDA00040961075700001421
s.t.C1~C4
S243、对优化问题
Figure BDA00040961075700001422
进行求解,包括求解集群间的信道分配和求解集群内的链路选择。
由于AoI的动态变化特性,问题
Figure BDA00040961075700001423
可采用深度强化学习进行求解。调度策略的可行动作空间大小为(NM)!/(NM-L)!,可以看出,该优化问题具有较大的动作空间,从而使得相应的算法难以实现有效的求解。为应对这一挑战,本例将上述问题的调度策略分解为集群间的信道分配和集群内的链路选择,基于此,可形成一个由内外两层策略组成的分层调度策略。内外两层策略以集群为分界点进行划分,外层策略决定空闲信道分配到哪个集群,包括用于视频数据传输的信道分配和用于环境数据传输的信道分配,内层策略则用于做出链路选择决策,其主要决定集群内传感器与信道配对的情况。
外层策略采用深度强化学习来实现集群间的信道分配,深度强化学习的智能体可通过与环境间的持续交互来学习最优策略。具体来说,本例采用被称为A3C(AsynchronousAdvantage Actor-Critic)的深度强化算法。为表示方便,用i(t)、
j(t)、f(t)、μ(t)和Av(t)分别表示相应的状态向量
i(t)=[i1(t),…,iN(t)](17)
j(t)=[j1,1(t),…,jN,M(t)](18)
f(t)=[f1,1(t),…,fN,M(t)](19)
μ(t)=[μ1,1(t),…,μN,M(t)](20)
Av(t)=[A1,1(t),…,AN,M(t)](21)
其中,Av(t)的动态变化过程遵循公式(7)。其他四类状态向量在数据包(包括视频数据包和环境数据包)的传输过程中保持不变,传输完成后,若下一时隙相应的终端获得信道分配开始新的数据包传输,则这四类状态向量对应的具体状态更新为新数据包对应的值,否则,对应的状态为0,表示相应的终端没有数据包进行上行传输。基于此,时隙t的状态s(t)可表示为
s(t)=[i(t),j(t),f(t),μ(t),Av(t),q(t)](22)
考虑到每个直播终端均会保持不间断的上行数据传输,而传感器则可能会由于空闲信道的不足而暂时停止传输,因此,可合理假设该视频直播系统中的视频数据传输相比环境数据传输具有更高的优先级。为优先保证视频直播的流畅和稳定,可将传输速率最高的N个信道均分配给各集群的直播终端。各信道对应的传输速率按照信道索引号降序排列,即Rl≥Rl+1(l∈{1,2,…,L})。基于此,对于时隙t的策略动作a(t),外层策略的动作空间可划分为用于视频数据传输的集群间信道分配和用于环境数据传输的集群间信道分配两类动作,分别用av(t)和as(t)表示,即
a(t)=[av(t),as(t)](23)
Figure BDA0004096107570000161
Figure BDA0004096107570000162
其中,
Figure BDA0004096107570000163
表示集群n的直播终端被分配的信道索引号,为满足问题
Figure BDA00040961075700001618
的约束条件,神经网络的输出层在确定
Figure BDA0004096107570000164
时会将对应的输出从大到小映射到信道索引号1到N,因此,
Figure BDA0004096107570000165
对应于问题
Figure BDA0004096107570000166
的策略动作
Figure BDA0004096107570000167
类似的,
Figure BDA0004096107570000168
表示用于集群n环境数据传输的信道索引号,神经网络的输出层在确定
Figure BDA0004096107570000169
时会将对应的输出从大到小映射到信道索引号N+1到L,最小的2N-L个输出值对应的
Figure BDA00040961075700001610
则为0,因此,
Figure BDA00040961075700001611
对应于问题
Figure BDA00040961075700001612
的策略动作
Figure BDA00040961075700001613
则对应于
Figure BDA00040961075700001614
基于上述的动作空间划分,外层策略的可行动作总数为N!N!/(2N-L)!。
基于问题
Figure BDA00040961075700001615
的目标函数,可定义时隙t的奖励函数为
Figure BDA00040961075700001616
A3C的目标是最大化累积折扣奖励函数,即状态价值函数,其计算公式如下
Figure BDA00040961075700001617
其中,γ为折扣因子,Eπ{·}表示智能体采用策略π进行序贯决策时的期望值。不同取值的τ对应不同时隙的奖励函数值,τ=0为当前时隙,τ=1则为下一时隙,以此类推。
A3C利用多核CPU来运行多个智能体,多核CPU的每个线程包含一个智能体以及相应的环境副本。每个时隙智能体均计算并保存关于神经网络参数的导数,每隔一定数目的时隙,每个智能体使用各自在该时段中的累计导数并以异步的方式更新全局共享的神经网络参数集。一个执行A3C算法的智能体包含两个部分:行动神经网络模块和评价神经网络模块。行动神经网络模块为一个神经网络表示的策略,其基于当前时隙观察到的状态s(t)决定当前时隙的动作a(t)。评价神经网络模块则为另一个神经网络,其基于智能体通过环境反馈得到的即时奖励对当前策略进行评估。对于一个特定的智能体,其行动神经网络模块和评价神经网络模块的详细情况如下。
在一个时隙中,行动神经网络模块首先利用其神经网络输出当前时隙的策略π(a(t)|s(t),θ),根据该策略选择动作a(t)并执行,环境返回即时奖励函数值r(s(t),a(t),s(t+1))给评价神经网络模块。然后,评价神经网络模块通过其神经网络计算估计状态价值函数
Figure BDA0004096107570000171
并基于此计算出优势函数B(t)来评估当前时隙动作a(t)的优劣。最后,行动神经网络模块和评价神经网络模块分别对其神经网络求关于参数集的导数,并基于优势函数B(t)来更新相应的参数集θ和θc
行动神经网络模块:用θ表示策略参数,则π(a|s,θ)为相应的策略,表示状态为s、参数为θ时智能体执行动作a的概率。行动神经网络模块使用策略梯度上升法对其参数θ进行更新。假设策略关于θ可微,则时隙t关于θ的性能梯度计算如下
Figure BDA0004096107570000172
其中,B(t)被称为优势函数,其指示特定动作带来的结果与结果平均值之间的差值。
Figure BDA0004096107570000173
被称为资格迹。由于策略动作a(t)为离散向量,因此,行动神经网络模块的神经网络可直接输出每个动作对应的的概率π(a(t)|s(t),θ)。得益于与神经网络的结合,A3C可采用参数集为θ的神经网络来学习π(a(t)|s(t),θ)。相应的参数集θ则采用如下的策略梯度上升法更新
Figure BDA0004096107570000174
其中,g≥0为行动神经网络模块神经网络的学习率。
评价神经网络模块:评价神经网络模块采用优势函数B(t)来评估行动神经网络模块选择动作a(t)的优劣。优势函数B(t)包含一个和状态s(t)有关的基线函数,而状态价值函数Vπ(s(t))是该基线函数的最佳选择。在实际的学习过程中,通常采用状态价值函数的估计值。因此,评价神经网络模块的目标是使用另一个参数集为θc的神经网络来近似估计状态价值函数
Figure BDA0004096107570000181
优势函数B(t)可采用如下公式计算
Figure BDA0004096107570000182
Figure BDA0004096107570000183
即参数集为θc的神经网络在时隙t+1的输出。
参数集θc采用如下方式更新
Figure BDA0004096107570000184
其中,gc≥0为评价神经网络模块神经网络的学习率。
当外层策略确定了信道在集群间的分配后,由于每个集群仅有一个直播终端,因此各个直播终端的信道配对情况已确定,内层策略需要做的则是决定集群内传感器与信道配对的情况。内层策略可通过设计组合调度策略来实现优化目标,该策略由分配空闲信道的每个集群的链路选择决策组成。在每个可调度的时隙t中,内层策略需选择使
Figure BDA0004096107570000185
的期望值最大的调度决策组合。然而,由于数据包的传输时延可能不止1个时隙,即对于任意终端(n,m)有vn,m(t)≥1,因此,调度决策的执行可能不会立即降低下一个时隙的AoI,直接最大化
Figure BDA0004096107570000186
的期望值不可行。注意到可以利用当前时隙t、νn,m(t)和μn,m(t)计算自时隙t开始完成上行传输所需的时隙数ηn,m(t),也就是离相应的AoI下次降低剩余的时隙数ηn,m(t)=νn,m(t)-t+μn,m(t)。为实现本例的优化目标,可将预计降低的AoI设计为与ηn,m(t)相关,假设传感器(n,m)(m≠1)经过时隙t的传输可将AoI在时隙t+1降低αn,m(t),αn,m(t)可采用如下公式计算
Figure BDA0004096107570000187
其中,An,mn,m(t))为对应数据包传输完成后预计可减少的AoI。需要注意的是,如果相应数据包在时隙t没有完成上行传输,则在时隙t+1基站处的AoI实际上并没有减少,因此,αn,m(t)可看作是一个虚拟的AoI减少量。基站处的AoI则需在随后的时隙t+2加上对应的偏置量δn,m(t+1)=αn,m(t)。如果相应数据包在时隙t完成了上行传输,则αn,m(t)=An,mn,m(t))为时隙t+1基站处实际的AoI减少量,偏置量为0。因此,偏置量可采用如下公式计算
Figure BDA0004096107570000191
基于上述分析,可构造如下的虚拟队列
ξn,m(t+1)=An,m(t)+1-αn,m(t)+δn,m(t)(34)
当t趋于无穷时,
Figure BDA0004096107570000192
Figure BDA0004096107570000193
相等,即在任意可行的调度策略下,时间平均的虚拟队列长度等于时间平均的AoI。因此,可以使用
Figure BDA0004096107570000194
代替公式(16)中的
Figure BDA0004096107570000195
其中,
Figure BDA0004096107570000196
可采用如下公式计算
Figure BDA0004096107570000197
此外,如果传感器(n,m)(m≠1)在时隙t占用无线信道进行上行传输,对于基站接收数据包的价值等级
Figure BDA0004096107570000198
其值在数据包传输过程中为0,而仅在数据包传输完成的时隙μn,m(t)+νn,m(t)-1中才为fn,m(t)。需要注意的是,fn,m(t)在数据包传输过程中是保持不变的,因此,为了评估在相应调度时隙μn,m(t)中的调度策略,可构造一个等效变量从而在时隙μn,m(t)+1提前赋予其数据包的价值等级。该等效变量可采用如下公式计算
Figure BDA0004096107570000199
可以看出,当t趋于无穷时,如下等式成立
Figure BDA00040961075700001910
由于直播终端与内层策略无关,内层策略在每个时隙t进行决策时需选择能够使
Figure BDA00040961075700001911
的值最大的策略组合。此外,由于各集群的链路选择决策相互独立,因此,对于任意集群n,为了最大化
Figure BDA0004096107570000201
内层策略可基于以下原则选择集群内的传感器m*与相应的空闲信道进行配对
Figure BDA0004096107570000202
基于以上对内外层策略的分析,每个集群的内层策略需嵌入到外层策略中,从而构成本例所提的双层调度(Two-layer Scheduling,TS)策略,算法1描述了双层调度策略的具体步骤,图4为对应的流程图。相比直接使用A3C求解问题
Figure BDA0004096107570000206
TS策略将神经网络对应的可行动作空间大小从(NM)!/(NM-L)!减少到N!N!/(2N-L)!,从而使基于A3C的调度策略能够对问题
Figure BDA0004096107570000203
进行有效的求解。
算法1求解问题
Figure BDA0004096107570000204
的TS策略
Figure BDA0004096107570000205
Figure BDA0004096107570000211
TS策略的复杂度取决于外层策略的A3C算法。考虑行动神经网络模块和评价神经网络模块分别使用层数和隐藏层神经元数量均相同的神经网络,用Nlayers表示神经网络的层数,Cl为第l层的神经元数量,其中,C1=N+4NM+1,对于行动神经网络模块网络,
Figure BDA0004096107570000212
而对于评价神经网络模块网络,
Figure BDA0004096107570000213
A3C的复杂度取决于行动神经网络模块和评价神经网络模块各自神经网络的前馈计算和用于梯度计算的反向传播。对于由
Figure BDA0004096107570000214
个时隙组成的单个训练回合,其行动神经网络模块和评价神经网络模块的梯度计算以及行动神经网络模块的前馈计算次数均为
Figure BDA0004096107570000215
次、评价神经网络模块的前馈计算次数为
Figure BDA0004096107570000216
次。一次前馈计算的运算量为
Figure BDA0004096107570000217
一次梯度计算的运算量为
Figure BDA0004096107570000218
因此,单个训练回合的运算量为
Figure BDA0004096107570000219
基于上述分析计算,可得TS策略的复杂度为
Figure BDA00040961075700002110
综上所述,针对视频直播较少考虑AoI以及AoI的研究中数据价值考虑不足的问题,本例基于直播终端和无线传感器共同部署的视频直播系统研究了数据价值和AoI的联合优化问题。考虑到AoI的动态变化特性以及问题的有效求解,本例提出了一种基于A3C的双层调度策略,仿真结果表明,与其他策略相比,本例提出的调度策略可以降低时间平均的AoI并提高时间平均的接收数据价值。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.联合数据价值与信息年龄的多集群视频直播系统调度方法,其特征在于,包括步骤:
S1、构建多集群视频直播系统;
该多集群视频直播系统包括一个基站和大小相等的N个集群,共有L个带宽不同的上行无线信道,L-N≤N;每个集群包含M个终端,包括一个直播终端以及在其附近的M-1个无线传感器;
S2、联合优化数据价值与信息年龄对所述多集群视频直播系统进行调度;
该步骤S2具体包括步骤:
S21、联合数据价值与信息年龄构建目标函数:
Figure FDA0004096107560000011
其中,
Figure FDA0004096107560000012
表示集群n内终端m即终端(n,m)在时隙t的信道l上的状态,在信道l上传输则
Figure FDA0004096107560000013
否则
Figure FDA0004096107560000014
Figure FDA0004096107560000015
表示所述基站在时隙t关于其接收数据的价值,Ab(t)表示所述基站在时隙t关于其接收数据的信息年龄,E[]表示求期望;l∈{1,2,…,L},n∈{1,2,…,N},m∈{1,2,…,M},t∈{1,2,…,T},T表示总时隙数;
S22、确定多集群视频直播系统的约束条件:
C1:
Figure FDA0004096107560000016
C2:
Figure FDA0004096107560000017
C3:
Figure FDA0004096107560000018
C4:
Figure FDA0004096107560000019
约束条件C1表示调度策略在每个时隙需为每个直播终端均分配1个上行信道用于传输视频数据,约束条件C2表示调度策略在每个时隙对任意集群n最多选择一个无线传感器上传其采样的环境数据包,约束条件C3表示每个上行无线信道最多只能与一个终端配对,约束条件C4表示每个时隙最多有L-N个上行无线信道可被分配用于进行传感器数据的上行传输;
S23、根据目标函数和约束条件构建优化问题
Figure FDA0004096107560000021
S24、对优化问题
Figure FDA0004096107560000022
进行求解,得到在每个时隙的调度策略。
2.根据权利要求1的联合数据价值与信息年龄的多集群视频直播系统调度方法,其特征在于:
Figure FDA0004096107560000023
计算为:
Figure FDA0004096107560000024
其中,
Figure FDA0004096107560000025
表示所述基站在时隙t接收到集群n的直播视频数据包的码率等级,有:
Figure FDA0004096107560000026
in(t)表示时隙t集群n正在传输的直播终端数据包对应的码率等级;终端(n,m)在时隙t进行上行传输,对于正在传输的数据包,μn,m(t)表示其数据生成的时隙,vn,m(t)则表示该数据包完成上行传输所需的时隙数;m=1表示直播终端;
Figure FDA0004096107560000027
表示所述基站在时隙t接收到对应环境数据包的价值等级,有:
Figure FDA0004096107560000028
其中,对于m≠1时的传感器(n,m),当
Figure FDA0004096107560000029
时,fn,m(t)表示其在时隙t传输的数据包所对应的价值等级。
3.根据权利要求2的联合数据价值与信息年龄的多集群视频直播系统调度方法,其特征在于:
Ab(t)计算为:
Figure FDA0004096107560000031
其中,An,m(t)表示所述基站在时隙t关于终端(n,m)数据包的信息年龄,An,m(t)的更新遵循如下公式:
Figure FDA0004096107560000032
4.根据权利要求3的联合数据价值与信息年龄的多集群视频直播系统调度方法,其特征在于:
vn,m(t)计算为:
Figure FDA0004096107560000033
其中,
Figure FDA0004096107560000034
为时隙t集群n正在传输的直播终端数据包对应的码率等级in(t)所对应的视频码率,
Figure FDA0004096107560000035
为时隙t传感器(n,m)正在传输的环境数据包大小的索引号jn,m(t)对应的数据包大小,Rl为信道l的上行传输速率,b为单位时隙时长,z为单位视频数据包时长。
5.根据权利要求4的联合数据价值与信息年龄的多集群视频直播系统调度方法,其特征在于,步骤S24具体包括步骤:
S241、令
Figure FDA0004096107560000036
q*表示问题
Figure FDA0004096107560000037
目标函数的最优值,因此有
Figure FDA0004096107560000038
Figure FDA0004096107560000039
分别对应采用最优策略
Figure FDA00040961075600000310
Figure FDA00040961075600000311
Figure FDA00040961075600000312
的值,将优化问题
Figure FDA00040961075600000313
转化为优化问题
Figure FDA00040961075600000314
Figure FDA0004096107560000041
Figure FDA0004096107560000042
s.t.C1~C4
S242、定义变量
Figure FDA0004096107560000043
来代替优化问题
Figure FDA0004096107560000044
中的未知量q*,将优化问题
Figure FDA0004096107560000045
转化成优化问题
Figure FDA0004096107560000046
Figure FDA0004096107560000047
Figure FDA0004096107560000048
s.t.C1~C4
S243、对优化问题
Figure FDA0004096107560000049
进行求解,包括求解集群间的信道分配和求解集群内的链路选择。
6.根据权利要求5的联合数据价值与信息年龄的多集群视频直播系统调度方法,其特征在于,在步骤S243中:
采用多核CPU来求解集群间的信道分配,多核CPU的每个线程包含一个智能体,所述智能体包含行动神经网络模块和评价神经网络模块;
所述行动神经网络模块基于当前时隙观察到的状态s(t)决定当前时隙的策略动作a(t);s(t)表示为:s(t)=[i(t),j(t),f(t),μ(t),Av(t),q(t)],i(t)=[i1(t),…,iN(t)]、j(t)=[j1,1(t),…,jN,M(t)]、f(t)=[f1,1(t),…,fN,M(t)]、μ(t)=[1,1(t),…,μN,M(t)]和Av(t)=[A1,1(t),…,AN,M(t)]分别表示相应的状态向量;a(t)表示为:a(t)=[av(t),as(t)],
Figure FDA00040961075600000410
表示用于视频数据传输的集群间信道分配动作,
Figure FDA00040961075600000411
表示用于环境数据传输的集群间信道分配动作,
Figure FDA00040961075600000412
表示集群n的直播终端被分配的信道索引号,
Figure FDA00040961075600000413
表示用于集群n环境数据传输的信道索引号;
所述评价神经网络模块基于通过环境反馈得到的即时奖励对当前策略进行评估;时隙t的奖励函数为:
Figure FDA00040961075600000414
7.根据权利要求6的联合数据价值与信息年龄的多集群视频直播系统调度方法,其特征在于,多核CPU的目标是最大化累积折扣奖励函数即状态价值函数,其计算公式如下:
Figure FDA0004096107560000051
其中,γ为折扣因子,Eπ{·}表示所述智能体采用策略π进行序贯决策时的期望值;
每个时隙所述智能体均计算并保存关于神经网络参数的导数,每隔预设数目的时隙,每个所述智能体使用各自在该时段中的累计导数并以异步的方式更新全局共享的神经网络参数集。
8.根据权利要求7的联合数据价值与信息年龄的多集群视频直播系统调度方法,其特征在于:
在一个时隙中,首先,所述行动神经网络模块利用参数集为θ的神经网络输出当前时隙的策略π(a(t)|s(t),θ),根据该策略选择动作a(t)并执行,环境返回即时奖励函数值r(s(t),a(t),s(t+1))给所述评价神经网络模块;然后,所述评价神经网络模块利用参数集为θc的另一个神经网络计算状态价值函数Vπ(s(t))的估计值
Figure FDA0004096107560000052
并基于此计算出优势函数B(t)来评估当前时隙动作a(t)的优劣;最后,所述行动神经网络模块和所述评价神经网络模块分别对其神经网络求关于各自参数集的导数,并基于优势函数B(t)来更新相应的参数集θ和θc
优势函数B(t)采用如下公式计算:
Figure FDA0004096107560000053
Figure FDA0004096107560000054
即参数集为θc的神经网络在时隙t+1的输出。
9.根据权利要求8的联合数据价值与信息年龄的多集群视频直播系统调度方法,其特征在于,参数集θ采用如下方式更新:
Figure FDA0004096107560000055
其中,g≥0为所述行动神经网络模块的学习率;
参数集θc采用如下方式更新:
Figure FDA0004096107560000061
其中,gc≥0为所述评价神经网络模块的学习率。
10.根据权利要求5的联合数据价值与信息年龄的多集群视频直播系统调度方法,其特征在于,在步骤S243中,求解集群内的链路选择时,基于以下原则选择集群内的传感器m*与相应的空闲信道进行配对:
Figure FDA0004096107560000062
F表示环境数据的价值分为F个等级,
Figure FDA0004096107560000063
表示集群n的传感器m其数据包价值等级为f的概率,f∈{1,2,…,F};Y表示环境数据包大小共有Y种大小,j表示环境数据包大小的索引号,yj则为对应的数据包大小,
Figure FDA0004096107560000064
表示集群n中的传感器m采样的数据包大小为yj的概率,j∈{1,2,…,Y};
Figure FDA0004096107560000065
表示传感器数据完成上行传输所需的时隙数。
CN202310166524.7A 2023-02-24 2023-02-24 联合数据价值与信息年龄的多集群视频直播系统调度方法 Active CN116156654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310166524.7A CN116156654B (zh) 2023-02-24 2023-02-24 联合数据价值与信息年龄的多集群视频直播系统调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310166524.7A CN116156654B (zh) 2023-02-24 2023-02-24 联合数据价值与信息年龄的多集群视频直播系统调度方法

Publications (2)

Publication Number Publication Date
CN116156654A true CN116156654A (zh) 2023-05-23
CN116156654B CN116156654B (zh) 2023-08-29

Family

ID=86340523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310166524.7A Active CN116156654B (zh) 2023-02-24 2023-02-24 联合数据价值与信息年龄的多集群视频直播系统调度方法

Country Status (1)

Country Link
CN (1) CN116156654B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117788108A (zh) * 2023-12-27 2024-03-29 南京掌心互动网络科技有限公司 一种基于深度强化学习的直播商品实时调度系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110856264A (zh) * 2019-11-08 2020-02-28 山东大学 一种在传感器网络中最优化信息年龄的分布式调度方法
CN112235836A (zh) * 2020-11-17 2021-01-15 上海交通大学 一种工业边缘网络系统架构和资源调度方法
US20210165405A1 (en) * 2019-12-03 2021-06-03 University-Industry Cooperation Group Of Kyung Hee University Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same
CN113891276A (zh) * 2021-10-26 2022-01-04 重庆邮电大学 基于信息年龄的混合更新工业无线传感器网络调度方法
CN115643594A (zh) * 2022-10-11 2023-01-24 重庆邮电大学 多传感器多服务器工业物联网的信息年龄优化调度方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110856264A (zh) * 2019-11-08 2020-02-28 山东大学 一种在传感器网络中最优化信息年龄的分布式调度方法
US20210165405A1 (en) * 2019-12-03 2021-06-03 University-Industry Cooperation Group Of Kyung Hee University Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same
CN112235836A (zh) * 2020-11-17 2021-01-15 上海交通大学 一种工业边缘网络系统架构和资源调度方法
CN113891276A (zh) * 2021-10-26 2022-01-04 重庆邮电大学 基于信息年龄的混合更新工业无线传感器网络调度方法
CN115643594A (zh) * 2022-10-11 2023-01-24 重庆邮电大学 多传感器多服务器工业物联网的信息年龄优化调度方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIN XIE: "A Reinforcement Learning Approach for Optimizing the Age-of-Computing-Enabled IoT", IEEE INTERNET OF THINGS JOURNAL, vol. 9, no. 4 *
李真诚: "基于移动边缘计算的WiFi视频组播传输研究", 中国优秀硕士学位论文全文库信息科技辑 *
熊轲: "6G时代信息新鲜度优先的无线网络设计", 物联网学报 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117788108A (zh) * 2023-12-27 2024-03-29 南京掌心互动网络科技有限公司 一种基于深度强化学习的直播商品实时调度系统及方法

Also Published As

Publication number Publication date
CN116156654B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
Qian et al. Survey on reinforcement learning applications in communication networks
CN111953510B (zh) 一种基于强化学习的智能电网切片无线资源分配方法及系统
CN116156654B (zh) 联合数据价值与信息年龄的多集群视频直播系统调度方法
WO2014139448A1 (en) Systems and methods for quality of experience aware joint scheduling of buffered video on demand and best effort flows
CN102256266A (zh) 一种面向用户应用的自适应接入网络选择实现装置及方法
Elnahas et al. Game theoretic approaches for cooperative spectrum sensing in energy-harvesting cognitive radio networks
CN113271221B (zh) 网络能力开放方法、系统及电子设备
Xu et al. Augmenting drive-thru Internet via reinforcement learning-based rate adaptation
CN111491312A (zh) 无线资源预测分配、获取、训练神经网络的方法及设备
CN104093009A (zh) 无线自组织网络中基于网络效用的视频传输方法
KR20220042928A (ko) 복수의 액세스 네트워크 장치들에 대한 자동 구성 네트워크를 구현하는 방법 및 이를 수행하는 전자 장치
JP2023066415A (ja) 無線アクセスネットワークにおける電力節約
Jin et al. Deep reinforcement learning based scheduling for minimizing age of information in wireless powered sensor networks
Petkov et al. Collision-free medium access based on traffic forecasting
CN114051252A (zh) 无线接入网中多用户智能发射功率控制方法
Said A bandwidth control scheme for reducing the negative impact of bottlenecks in IoT environments: simulation and performance evaluation
CN112887314B (zh) 一种时延感知的云雾协作视频分发方法
KR20070000807A (ko) 패킷 스케줄링 장치 및 그 방법
CN115996403B (zh) 5g工业时延敏感业务资源调度方法、装置、电子设备
Rui et al. Location‐dependent sensing data collection and processing mechanism in vehicular network
Zhang et al. Accelerated deep reinforcement learning for wireless coded caching
US10496049B2 (en) Communication between distributed information brokers within a data and energy storage internet architecture
Chitnavis et al. Cross layer routing in cognitive radio networks using deep reinforcement learning
WO2017147771A1 (zh) 业务优化处理方法、设备及系统
Yuan et al. Deep Reinforcement Learning-Based Energy Consumption Optimization for Peer-to-Peer (P2P) Communication in Wireless Sensor Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant