CN116156654A - 联合数据价值与信息年龄的多集群视频直播系统调度方法 - Google Patents
联合数据价值与信息年龄的多集群视频直播系统调度方法 Download PDFInfo
- Publication number
- CN116156654A CN116156654A CN202310166524.7A CN202310166524A CN116156654A CN 116156654 A CN116156654 A CN 116156654A CN 202310166524 A CN202310166524 A CN 202310166524A CN 116156654 A CN116156654 A CN 116156654A
- Authority
- CN
- China
- Prior art keywords
- cluster
- time slot
- neural network
- data
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000005457 optimization Methods 0.000 claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims description 82
- 230000005540 biological transmission Effects 0.000 claims description 61
- 230000006870 function Effects 0.000 claims description 44
- 230000009471 action Effects 0.000 claims description 43
- 230000007613 environmental effect Effects 0.000 claims description 29
- 238000011156 evaluation Methods 0.000 claims description 26
- 239000003795 chemical substances by application Substances 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000011144 upstream manufacturing Methods 0.000 claims description 4
- 230000002787 reinforcement Effects 0.000 abstract description 5
- 238000012549 training Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 abstract description 3
- 238000004088 simulation Methods 0.000 abstract description 3
- 239000010410 layer Substances 0.000 description 34
- 230000000694 effects Effects 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 239000002355 dual-layer Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000000779 smoke Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 101100001674 Emericella variicolor andI gene Proteins 0.000 description 1
- 241000364483 Lipeurus epsilon Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及无线通信网络技术领域,具体公开了一种联合数据价值与信息年龄的多集群视频直播系统调度方法,其考虑了一个视频数据与环境数据混合的多集群视频直播系统,建立了关于时间平均数据价值和AoI的联合优化问题,并制定调度策略以联合优化系统数据价值与信息年龄。该方法将优化问题的调度策略分解为相互关联的内外两层策略,外层策略利用深度强化学习实现集群间的信道分配,内层策略则基于构造的虚拟队列实现集群内的链路选择。双层调度策略将每个集群的内层策略嵌入到外层策略中进行训练。仿真结果显示,与现有调度策略相比,该方法所提的调度策略可以提高时间平均的接收数据价值并降低时间平均的信息年龄。
Description
技术领域
本发明涉及无线通信网络技术领域,尤其涉及一种联合数据价值与信息年龄的多集群视频直播系统调度方法。
背景技术
随着移动互联网流量的爆发式增长以及各类垂直行业的进一步分化,无线通信技术在各类应用场景下的技术指标需求也逐渐趋于多样化。例如,在物联网领域,无人驾驶的车辆控制系统、生命监测系统、野外火灾报警系统等等对数据时效性敏感的应用系统需及时接收最新的无线网络数据以进行相关的系统决策,此外,不同于传统无线传输技术主要关注传输速率或时延,视频直播等新兴移动互联网应用也由于其业务性质对网络数据的时效性有了更精细化的需求,因此亟需一种有效的性能指标去度量相关数据或信息的时效性。为了进一步量化网络数据的时效性从而适配新兴的垂直行业应用需求,越来越多的学者提出采用信息年龄(Age of Information,AoI)来衡量数据的新鲜度或及时性。AoI综合考虑了数据的生成时间及其传输时延。对于某个节点的AoI其关注对象是该节点最新收到的数据包,AoI被定义为该最新数据包自生成以来经过的时间。
现有的研究通常将AoI作为单一指标来评估网络的数据新鲜度,然而,在某些应用中,也需考虑接收数据的价值。数据价值可以看作是数据对于系统业务的重要程度,例如,在视频直播场景,对于一个以看重视频质量的消费群体为目标客户的直播活动。另外,在对重要活动的直播中,可使用无线传感器来收集活动现场的实时环境数据,不同的环境数据具有不同的价值,例如,现场烟雾浓度或温度超出正常的阈值范围,则相应的烟雾或温度传感器应更及时地将相关数据发送到后端的监控中心进行紧急决策,以避免引发火灾等严重影响活动的紧急事故,那么这些数据由于需求的急迫性则具有更高的价值。因此,在这种数据价值敏感的系统中,需在保证接收数据具有一定价值的同时提高数据的新鲜度。在实际应用中,视频数据和环境数据可共享传输信道,例如,对于举行足球、篮球等体育赛事的场馆,得益于当前5G技术的发展,可利用无线信道实现赛事的视频直播。同时,由于场馆内人数众多,可采用无线传感器对场馆内的温度、湿度以及烟雾浓度等环境数据进行监测并通过无线信道传输到监控中心,从而使监控中心可基于环境数据做出现场环境调节或灾难预警等决策。
对基于无线链路的多集群视频直播系统,多个直播终端作为直播视频源需通过上行链路传输源视频到无线基站,基站利用连接的边缘服务器对源视频进行视频转码等处理操作从而向其覆盖范围内的各类终端消费者提供不同码率的直播服务,同时基站也需通过核心网将源视频传播至其它地理区域的终端以提供大范围的直播服务。为保证重要活动的实施效果,需在活动场馆的不同位置配备多个无线传感器从而采样收集多方位的环境相关数据,传感器作为无线终端也需通过上行链路将其采样的数据发送到基站并通过基站将数据发送到监控中心。作为对数据新鲜度要求较高的多集群视频直播系统,现有研究主要聚焦于视频的QoE优化,而较少关注视频数据的AoI和接收数据的价值。
发明内容
本发明提供联合数据价值与信息年龄的多集群视频直播系统调度方法,解决的技术问题在于:如何综合考虑视频数据的信息年龄(AoI)和接收数据的价值,对多集群视频直播系统进行信道调度。
为解决以上技术问题,本发明提供联合数据价值与信息年龄的多集群视频直播系统调度方法,其关键在于,包括步骤:
S1、构建多集群视频直播系统;
该多集群视频直播系统包括一个基站和大小相等的N个集群,共有L个带宽不同的上行无线信道,L-N≤N;每个集群包含M个终端,包括一个直播终端以及在其附近的M-1个无线传感器;
S2、联合优化数据价值与信息年龄对所述多集群视频直播系统进行调度;该步骤S2具体包括步骤:
S21、联合数据价值与信息年龄构建目标函数:
其中,表示集群n内终端m即终端(n,m)在时隙t的信道l上的状态,在信道l上传输则否则 表示所述基站在时隙t关于其接收数据的价值,Ab(t)表示所述基站在时隙t关于其接收数据的信息年龄,E[]表示求期望;l∈{1,2,…,L},n∈{1,2,…,N},m∈{1,2,…,M},t∈{1,2,…,T},T表示总时隙数;
S22、确定多集群视频直播系统的约束条件:
约束条件C1表示调度策略在每个时隙需为每个直播终端均分配1个上行信道用于传输视频数据,约束条件C2表示调度策略在每个时隙对任意集群n最多选择一个无线传感器上传其采样的环境数据包,约束条件C3表示每个上行无线信道最多只能与一个终端配对,约束条件C4表示每个时隙最多有L-N个上行无线信道可被分配用于进行传感器数据的上行传输;
in(t)表示时隙t集群n正在传输的直播终端数据包对应的码率等级;终端(n,m)在时隙t进行上行传输,对于正在传输的数据包,μn,m(t)表示其数据生成的时隙,vn,m(t)则表示该数据包完成上行传输所需的时隙数;m=1表示直播终端;
进一步地,Ab(t)计算为:
其中,An,m(t)表示所述基站在时隙t关于终端(n,m)数据包的信息年龄,An,m(t)的更新遵循如下公式:
进一步地,vn,m(t)计算为:
其中,为时隙t集群n正在传输的直播终端数据包对应的码率等级in(t)所对应的视频码率,为时隙t传感器(n,m)正在传输的环境数据包大小的索引号jn,m(t)对应的数据包大小,Rl为信道l的上行传输速率,b为单位时隙时长,z为单位视频数据包时长。
进一步地,步骤S24具体包括步骤:
s.t.C1~C4
s.t.C1~C4
进一步地,在步骤S243中:
采用多核CPU来求解集群间的信道分配,多核CPU的每个线程包含一个智能体,所述智能体包含行动神经网络模块和评价神经网络模块;
所述行动神经网络模块基于当前时隙观察到的状态s(t)决定当前时隙的策略动作a(t);s(t)表示为:s(t)=[i(t),j(t),f(t),μ(t),Av(t),q(t)],i(t)=[i1(t),…,iN(t)]、j(t)=[j1,1(t),…,jN,M(t)]、f(t)=[f1,1(t),…,fN,M(t)]、μ(t)=[μ1,1(t),…,μN,M(t)]和Av(t)=[A1,1(t),…,AN,M(t)]分别表示相应的状态向量;a(t)表示为:a(t)=[av(t),as(t)],表示用于视频数据传输的集群间信道分配动作,表示用于环境数据传输的集群间信道分配动作,表示集群n的直播终端被分配的信道索引号,表示用于集群n环境数据传输的信道索引号;
所述评价神经网络模块基于通过环境反馈得到的即时奖励对当前策略进行评估;时隙t的奖励函数为:
进一步地,多核CPU的目标是最大化累积折扣奖励函数即状态价值函数,其计算公式如下:
其中,γ为折扣因子,Eπ{·}表示所述智能体采用策略π进行序贯决策时的期望值;
每个时隙所述智能体均计算并保存关于神经网络参数的导数,每隔预设数目的时隙,每个所述智能体使用各自在该时段中的累计导数并以异步的方式更新全局共享的神经网络参数集。
进一步地,在一个时隙中,首先,所述行动神经网络模块利用参数集为θ的神经网络输出当前时隙的策略π(a(t)|s(t),θ),根据该策略选择动作a(t)并执行,环境返回即时奖励函数值r(s(t),a(t),s(t+1))给所述评价神经网络模块;然后,所述评价神经网络模块利用参数集为θc的另一个神经网络计算状态价值函数Vπ(s(t))的估计值并基于此计算出优势函数B(t)来评估当前时隙动作a(t)的优劣;最后,所述行动神经网络模块和所述评价神经网络模块分别对其神经网络求关于各自参数集的导数,并基于优势函数B(t)来更新相应的参数集θ和θc;
优势函数B(t)采用如下公式计算:
进一步地,参数集θ采用如下方式更新:
其中,g≥0为所述行动神经网络模块的学习率;
参数集θc采用如下方式更新:
其中,gc≥0为所述评价神经网络模块的学习率。
进一步地,在步骤S243中,求解集群内的链路选择时,基于以下原则选择集群内的传感器m*与相应的空闲信道进行配对:
F表示环境数据的价值分为F个等级,表示集群n的传感器m其数据包价值等级为f的概率,f∈{1,2,…,F};Y表示环境数据包大小共有Y种大小,j表示环境数据包大小的索引号,yj则为对应的数据包大小,表示集群n中的传感器m采样的数据包大小为yj的概率,j∈{1,2,…,Y};表示传感器数据完成上行传输所需的时隙数。
本发明提供的一种联合数据价值与信息年龄的多集群视频直播系统调度方法,其考虑了一个视频数据与环境数据混合的多集群视频直播系统,建立了关于时间平均数据价值和AoI的联合优化问题,并制定调度策略以联合优化系统数据价值与信息年龄。为克服优化问题中动作空间过大导致难以实现有效求解的问题,该方法将优化问题的调度策略分解为相互关联的内外两层策略,外层策略利用深度强化学习实现集群间的信道分配,内层策略则基于构造的虚拟队列实现集群内的链路选择。双层调度策略将每个集群的内层策略嵌入到外层策略中进行训练。仿真结果显示,与现有调度策略相比,该方法所提的调度策略可以提高时间平均的接收数据价值并降低时间平均的信息年龄。
附图说明
图1是本发明实施例提供的联合数据价值与信息年龄的多集群视频直播系统调度方法的流程图;
图2是本发明实施例提供的多集群视频直播系统的架构图;
图3是本发明实施例提供的基站关于终端(n,m)数据包的AoI随时间变化的示例图;
图4是本发明实施例提供的双层优化策略的流程图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
综合考虑视频数据的信息年龄(AoI)和接收数据的价值,对多集群视频直播系统进行信道调度,本发明实施例提供了一种联合数据价值与信息年龄的多集群视频直播系统调度方法,如图1所示,具体包括步骤:
S1、构建多集群视频直播系统;
S2、联合优化数据价值与信息年龄对多集群视频直播系统进行调度;
该步骤S2具体包括步骤:
S21、联合数据价值与信息年龄构建目标函数;
S22、确定多集群视频直播系统的约束条件;
在步骤S1中,对基于无线链路的视频直播系统,多个直播终端作为直播视频源需通过上行链路传输源视频到无线基站,基站利用连接的边缘服务器对源视频进行视频转码等处理操作从而向其覆盖范围内的各类终端消费者提供不同码率的直播服务,同时基站也需通过核心网将源视频传播至其它地理区域的终端以提供大范围的直播服务。本例主要考虑无线直播系统的第一个环节,即直播视频源终端到相应基站的上行传输链路。
具体来说,本例考虑一个针对重要活动的视频直播系统。系统模型如图2所示,一方面,单个基站需收集其覆盖范围内的直播源视频,为实现对同一重要活动的全方位直播,N个连接或配备摄像设备的直播终端在活动场馆的不同位置以不同视角对该活动进行直播。直播终端由采集现场视频的专业摄像机和5G背包通过有线连接组成,其中,5G背包内置了视频编码器与5G芯片(通常也内置了4G芯片实现向下兼容),因此,直播终端可作为直播视频源通过上行链路传输源视频到基站,随后,视频通过核心网被传输到远端的集成发布平台实现多平台的视频直播。另一方面,为保证重要活动的实施效果,需在活动场馆的不同位置配备多个无线传感器从而采样收集多方位的环境相关数据,传感器作为无线终端也需通过上行链路将其采样的数据发送到基站并通过基站将数据发送到监控中心。系统一共有L(L>N)个带宽不同的上行无线信道,考虑所有信道均为不涉及信息传输中断的理想信道。为保证视频直播的连续性,调度策略在每个时隙需为每个直播终端均分配1个上行信道。此外,还需为无线传感器分配回传其数据的上行信道,因此,每个时隙最多有L-N个信道可被分配用于进行传感器数据的上行传输,其中L-N≤N。
在具体实施时,为了向监控中心提供及时且多方位的环境相关数据,将以上两类终端以直播终端为中心划分为大小相等的N个集群,每个集群包含的终端数用M表示,其中包含一个直播终端以及在其附近的M-1个无线传感器。具体的终端索引号用m表示,m=1对应集群中的直播终端,m(1<m≤M)则对应集群中的无线传感器。
为避免单个集群内(即同一位置附近)的无线传感器占用过多的信道资源,除了直播终端,集群n在时隙t最多可选择一个无线传感器上传其采样的环境相关数据。直播视频传输时可按照视频时长为单位将视频数据分割为多个时长为z的视频数据包进行传输。对于不同的直播终端,其对视频码率选择的不同可使得各自视频数据包的大小存在差异,而对于同一直播终端,由于存在动态的码率自适应策略,其数据包大小在不同时隙也可能存在差异。对于直播视频,其数据包的视频码率划分为I个等级,i(i∈{1,2,…,I})表示具体某个视频数据包的码率索引号,索引号越高对应的视频码率也越高。为对应的视频码率,则为直播系统所支持的视频码率集合。因此,单个视频数据包大小为zxi,z为单位视频数据包时长。此外,上行传输所分配的信道具有不同的带宽和增益,对应的各终端上行传输速率也存在差异。表示系统支持的上行传输速率集合,则为信道l(l∈{1,2,…,L})的上行传输速率。单位时隙时长为b,用dv表示单个视频数据包完成上行传输所需的时隙数,基于上述讨论可知
为保证视频直播的连续性,单个视频数据包对应内容的时长z应满足
对于传感器数据的上传,由于并非所有传感器均在每个时隙接入无线信道进行上传,因此对于在时隙t分配到信道的传感器,其在时隙t之前采样的数据均被丢弃,仅上传在时隙t最新采样的数据,直到该数据完成上行传输才会释放被分配的信道。表示传感器支持的环境数据包大小集合,j(j∈{1,2,…,Y})表示环境数据包大小的索引号。则为对应的数据包大小。用ds表示传感器数据完成上行传输所需的时隙数,因此有
表示集群n内终端(包括直播终端和传感器)m在时隙t的信道l上的状态,如果终端(n,m)在时隙t被分配到信道l(l∈{1,2,…,L})进行上行传输,则否则,当时,即终端(n,m)在时隙t占用无线信道进行上行传输,对于正在传输的数据包,用μn,m(t)表示其数据生成的时隙,νn,m(t)则表示该数据包完成上行传输所需的时隙数,因此有
其中,in(t)表示时隙t集群n正在传输的直播终端数据包对应的码率等级,jn,m(t)则表示时隙t传感器(n,m)(m≠1)正在传输的环境数据包大小的索引号。
在步骤S2中,由于对直播视频与现场环境数据的需求均看重数据的及时性或新鲜度,因此本例采用AoI作为系统性能的评估指标。除了用AoI来衡量数据的及时性或新鲜度,还需考虑数据本身的价值。
AoI被定义为目标节点最新接收到的数据包自其生成以来所经过的时间,基于此,对于在时隙t基站已完成接收的来自终端(n,m)的最新数据包(并非正在传输的数据包),用μ′ n,m表示其数据生成的时隙。An,m(t)表示基站在时隙t关于终端(n,m)数据包的AoI,则有An,m(t)=t-μ′ n,m。如果终端(n,m)在时隙t完成了对应数据包的上行传输,则相应的AoI在时隙t+1需更新为vn,m(t)=t+1-μn,m(t),否则,AoI需更新为An,m(t)+1=t+1-μ′ n,m。比如,假设终端(n,m)在时隙t1、t3和t5生成数据包并开始传输,相应数据包在时隙t2、t4和t7完成传输,基于此,基站关于终端(n,m)数据包的AoI随时间变化的情况如图3所示。
综上所述,An,m(t)的更新遵循如下公式
因此,基站在时隙t关于其接收数据的AoI可计算为
对于注重视频质量的直播系统,本例采用视频码率来衡量视频数据的价值,视频码率等级越高其价值也越高。
基站主要关注接收成功时视频数据包的码率等级,对于集群n,用表示基站在时隙t接收到对应直播视频数据包的码率等级,如果集群n的直播终端在时隙t完成其视频数据包的上行传输,则即in(t)时隙t集群n正在传输的直播终端数据包对应的码率等级,否则因此,可由下式计算
综上,基站在时隙t关于其接收数据的价值可计算为
在每个时隙的开始,基站需基于其调度策略将空闲信道分配给需要上传数据的终端。考虑数据价值和AoI存在相互影响的关系且两者性能的优化分别对应各自的最大化和最小化,因此,为实现系统数据价值和AoI的联合优化,本例采用时间平均的数据价值与AoI比值(Ratio of Data Value to AoI,RDVA)。RDVA可用于衡量系统在单位时隙的数据新鲜度下能传输的数据价值大小,更大的RDVA意味着相应数据具有较好的数据新鲜度和较高的数据价值。相应的优化问题可表述为
其中,则为目标函数,这里的E[]表示求期望,T表示总时隙数。C1~C4为约束条件。约束条件C1表示为保证视频直播的连续性,调度策略在每个时隙需为每个直播终端均分配1个上行信道。约束条件C2表示为避免单个集群的传感器占用过多信道资源,调度策略在每个时隙对任意集群n最多选择一个传感器上传其采样的环境数据包。约束条件C3表示每个信道最多只能与一个终端配对。约束条件C4则表示每个时隙最多有L-N个信道可被分配用于进行传感器数据的上行传输。
s.t.C1~C4
s.t.C1~C4
由于AoI的动态变化特性,问题可采用深度强化学习进行求解。调度策略的可行动作空间大小为(NM)!/(NM-L)!,可以看出,该优化问题具有较大的动作空间,从而使得相应的算法难以实现有效的求解。为应对这一挑战,本例将上述问题的调度策略分解为集群间的信道分配和集群内的链路选择,基于此,可形成一个由内外两层策略组成的分层调度策略。内外两层策略以集群为分界点进行划分,外层策略决定空闲信道分配到哪个集群,包括用于视频数据传输的信道分配和用于环境数据传输的信道分配,内层策略则用于做出链路选择决策,其主要决定集群内传感器与信道配对的情况。
外层策略采用深度强化学习来实现集群间的信道分配,深度强化学习的智能体可通过与环境间的持续交互来学习最优策略。具体来说,本例采用被称为A3C(AsynchronousAdvantage Actor-Critic)的深度强化算法。为表示方便,用i(t)、
j(t)、f(t)、μ(t)和Av(t)分别表示相应的状态向量
i(t)=[i1(t),…,iN(t)](17)
j(t)=[j1,1(t),…,jN,M(t)](18)
f(t)=[f1,1(t),…,fN,M(t)](19)
μ(t)=[μ1,1(t),…,μN,M(t)](20)
Av(t)=[A1,1(t),…,AN,M(t)](21)
其中,Av(t)的动态变化过程遵循公式(7)。其他四类状态向量在数据包(包括视频数据包和环境数据包)的传输过程中保持不变,传输完成后,若下一时隙相应的终端获得信道分配开始新的数据包传输,则这四类状态向量对应的具体状态更新为新数据包对应的值,否则,对应的状态为0,表示相应的终端没有数据包进行上行传输。基于此,时隙t的状态s(t)可表示为
s(t)=[i(t),j(t),f(t),μ(t),Av(t),q(t)](22)
考虑到每个直播终端均会保持不间断的上行数据传输,而传感器则可能会由于空闲信道的不足而暂时停止传输,因此,可合理假设该视频直播系统中的视频数据传输相比环境数据传输具有更高的优先级。为优先保证视频直播的流畅和稳定,可将传输速率最高的N个信道均分配给各集群的直播终端。各信道对应的传输速率按照信道索引号降序排列,即Rl≥Rl+1(l∈{1,2,…,L})。基于此,对于时隙t的策略动作a(t),外层策略的动作空间可划分为用于视频数据传输的集群间信道分配和用于环境数据传输的集群间信道分配两类动作,分别用av(t)和as(t)表示,即
a(t)=[av(t),as(t)](23)
其中,表示集群n的直播终端被分配的信道索引号,为满足问题的约束条件,神经网络的输出层在确定时会将对应的输出从大到小映射到信道索引号1到N,因此,对应于问题的策略动作类似的,表示用于集群n环境数据传输的信道索引号,神经网络的输出层在确定时会将对应的输出从大到小映射到信道索引号N+1到L,最小的2N-L个输出值对应的则为0,因此,对应于问题的策略动作则对应于基于上述的动作空间划分,外层策略的可行动作总数为N!N!/(2N-L)!。
A3C的目标是最大化累积折扣奖励函数,即状态价值函数,其计算公式如下
其中,γ为折扣因子,Eπ{·}表示智能体采用策略π进行序贯决策时的期望值。不同取值的τ对应不同时隙的奖励函数值,τ=0为当前时隙,τ=1则为下一时隙,以此类推。
A3C利用多核CPU来运行多个智能体,多核CPU的每个线程包含一个智能体以及相应的环境副本。每个时隙智能体均计算并保存关于神经网络参数的导数,每隔一定数目的时隙,每个智能体使用各自在该时段中的累计导数并以异步的方式更新全局共享的神经网络参数集。一个执行A3C算法的智能体包含两个部分:行动神经网络模块和评价神经网络模块。行动神经网络模块为一个神经网络表示的策略,其基于当前时隙观察到的状态s(t)决定当前时隙的动作a(t)。评价神经网络模块则为另一个神经网络,其基于智能体通过环境反馈得到的即时奖励对当前策略进行评估。对于一个特定的智能体,其行动神经网络模块和评价神经网络模块的详细情况如下。
在一个时隙中,行动神经网络模块首先利用其神经网络输出当前时隙的策略π(a(t)|s(t),θ),根据该策略选择动作a(t)并执行,环境返回即时奖励函数值r(s(t),a(t),s(t+1))给评价神经网络模块。然后,评价神经网络模块通过其神经网络计算估计状态价值函数并基于此计算出优势函数B(t)来评估当前时隙动作a(t)的优劣。最后,行动神经网络模块和评价神经网络模块分别对其神经网络求关于参数集的导数,并基于优势函数B(t)来更新相应的参数集θ和θc。
行动神经网络模块:用θ表示策略参数,则π(a|s,θ)为相应的策略,表示状态为s、参数为θ时智能体执行动作a的概率。行动神经网络模块使用策略梯度上升法对其参数θ进行更新。假设策略关于θ可微,则时隙t关于θ的性能梯度计算如下
其中,B(t)被称为优势函数,其指示特定动作带来的结果与结果平均值之间的差值。被称为资格迹。由于策略动作a(t)为离散向量,因此,行动神经网络模块的神经网络可直接输出每个动作对应的的概率π(a(t)|s(t),θ)。得益于与神经网络的结合,A3C可采用参数集为θ的神经网络来学习π(a(t)|s(t),θ)。相应的参数集θ则采用如下的策略梯度上升法更新
其中,g≥0为行动神经网络模块神经网络的学习率。
评价神经网络模块:评价神经网络模块采用优势函数B(t)来评估行动神经网络模块选择动作a(t)的优劣。优势函数B(t)包含一个和状态s(t)有关的基线函数,而状态价值函数Vπ(s(t))是该基线函数的最佳选择。在实际的学习过程中,通常采用状态价值函数的估计值。因此,评价神经网络模块的目标是使用另一个参数集为θc的神经网络来近似估计状态价值函数优势函数B(t)可采用如下公式计算
参数集θc采用如下方式更新
其中,gc≥0为评价神经网络模块神经网络的学习率。
当外层策略确定了信道在集群间的分配后,由于每个集群仅有一个直播终端,因此各个直播终端的信道配对情况已确定,内层策略需要做的则是决定集群内传感器与信道配对的情况。内层策略可通过设计组合调度策略来实现优化目标,该策略由分配空闲信道的每个集群的链路选择决策组成。在每个可调度的时隙t中,内层策略需选择使的期望值最大的调度决策组合。然而,由于数据包的传输时延可能不止1个时隙,即对于任意终端(n,m)有vn,m(t)≥1,因此,调度决策的执行可能不会立即降低下一个时隙的AoI,直接最大化的期望值不可行。注意到可以利用当前时隙t、νn,m(t)和μn,m(t)计算自时隙t开始完成上行传输所需的时隙数ηn,m(t),也就是离相应的AoI下次降低剩余的时隙数ηn,m(t)=νn,m(t)-t+μn,m(t)。为实现本例的优化目标,可将预计降低的AoI设计为与ηn,m(t)相关,假设传感器(n,m)(m≠1)经过时隙t的传输可将AoI在时隙t+1降低αn,m(t),αn,m(t)可采用如下公式计算
其中,An,m(μn,m(t))为对应数据包传输完成后预计可减少的AoI。需要注意的是,如果相应数据包在时隙t没有完成上行传输,则在时隙t+1基站处的AoI实际上并没有减少,因此,αn,m(t)可看作是一个虚拟的AoI减少量。基站处的AoI则需在随后的时隙t+2加上对应的偏置量δn,m(t+1)=αn,m(t)。如果相应数据包在时隙t完成了上行传输,则αn,m(t)=An,m(μn,m(t))为时隙t+1基站处实际的AoI减少量,偏置量为0。因此,偏置量可采用如下公式计算
基于上述分析,可构造如下的虚拟队列
ξn,m(t+1)=An,m(t)+1-αn,m(t)+δn,m(t)(34)
此外,如果传感器(n,m)(m≠1)在时隙t占用无线信道进行上行传输,对于基站接收数据包的价值等级其值在数据包传输过程中为0,而仅在数据包传输完成的时隙μn,m(t)+νn,m(t)-1中才为fn,m(t)。需要注意的是,fn,m(t)在数据包传输过程中是保持不变的,因此,为了评估在相应调度时隙μn,m(t)中的调度策略,可构造一个等效变量从而在时隙μn,m(t)+1提前赋予其数据包的价值等级。该等效变量可采用如下公式计算
可以看出,当t趋于无穷时,如下等式成立
由于直播终端与内层策略无关,内层策略在每个时隙t进行决策时需选择能够使的值最大的策略组合。此外,由于各集群的链路选择决策相互独立,因此,对于任意集群n,为了最大化内层策略可基于以下原则选择集群内的传感器m*与相应的空闲信道进行配对
基于以上对内外层策略的分析,每个集群的内层策略需嵌入到外层策略中,从而构成本例所提的双层调度(Two-layer Scheduling,TS)策略,算法1描述了双层调度策略的具体步骤,图4为对应的流程图。相比直接使用A3C求解问题TS策略将神经网络对应的可行动作空间大小从(NM)!/(NM-L)!减少到N!N!/(2N-L)!,从而使基于A3C的调度策略能够对问题进行有效的求解。
TS策略的复杂度取决于外层策略的A3C算法。考虑行动神经网络模块和评价神经网络模块分别使用层数和隐藏层神经元数量均相同的神经网络,用Nlayers表示神经网络的层数,Cl为第l层的神经元数量,其中,C1=N+4NM+1,对于行动神经网络模块网络,而对于评价神经网络模块网络,A3C的复杂度取决于行动神经网络模块和评价神经网络模块各自神经网络的前馈计算和用于梯度计算的反向传播。对于由个时隙组成的单个训练回合,其行动神经网络模块和评价神经网络模块的梯度计算以及行动神经网络模块的前馈计算次数均为次、评价神经网络模块的前馈计算次数为次。一次前馈计算的运算量为一次梯度计算的运算量为因此,单个训练回合的运算量为基于上述分析计算,可得TS策略的复杂度为
综上所述,针对视频直播较少考虑AoI以及AoI的研究中数据价值考虑不足的问题,本例基于直播终端和无线传感器共同部署的视频直播系统研究了数据价值和AoI的联合优化问题。考虑到AoI的动态变化特性以及问题的有效求解,本例提出了一种基于A3C的双层调度策略,仿真结果表明,与其他策略相比,本例提出的调度策略可以降低时间平均的AoI并提高时间平均的接收数据价值。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.联合数据价值与信息年龄的多集群视频直播系统调度方法,其特征在于,包括步骤:
S1、构建多集群视频直播系统;
该多集群视频直播系统包括一个基站和大小相等的N个集群,共有L个带宽不同的上行无线信道,L-N≤N;每个集群包含M个终端,包括一个直播终端以及在其附近的M-1个无线传感器;
S2、联合优化数据价值与信息年龄对所述多集群视频直播系统进行调度;
该步骤S2具体包括步骤:
S21、联合数据价值与信息年龄构建目标函数:
其中,表示集群n内终端m即终端(n,m)在时隙t的信道l上的状态,在信道l上传输则否则 表示所述基站在时隙t关于其接收数据的价值,Ab(t)表示所述基站在时隙t关于其接收数据的信息年龄,E[]表示求期望;l∈{1,2,…,L},n∈{1,2,…,N},m∈{1,2,…,M},t∈{1,2,…,T},T表示总时隙数;
S22、确定多集群视频直播系统的约束条件:
约束条件C1表示调度策略在每个时隙需为每个直播终端均分配1个上行信道用于传输视频数据,约束条件C2表示调度策略在每个时隙对任意集群n最多选择一个无线传感器上传其采样的环境数据包,约束条件C3表示每个上行无线信道最多只能与一个终端配对,约束条件C4表示每个时隙最多有L-N个上行无线信道可被分配用于进行传感器数据的上行传输;
6.根据权利要求5的联合数据价值与信息年龄的多集群视频直播系统调度方法,其特征在于,在步骤S243中:
采用多核CPU来求解集群间的信道分配,多核CPU的每个线程包含一个智能体,所述智能体包含行动神经网络模块和评价神经网络模块;
所述行动神经网络模块基于当前时隙观察到的状态s(t)决定当前时隙的策略动作a(t);s(t)表示为:s(t)=[i(t),j(t),f(t),μ(t),Av(t),q(t)],i(t)=[i1(t),…,iN(t)]、j(t)=[j1,1(t),…,jN,M(t)]、f(t)=[f1,1(t),…,fN,M(t)]、μ(t)=[1,1(t),…,μN,M(t)]和Av(t)=[A1,1(t),…,AN,M(t)]分别表示相应的状态向量;a(t)表示为:a(t)=[av(t),as(t)],表示用于视频数据传输的集群间信道分配动作,表示用于环境数据传输的集群间信道分配动作,表示集群n的直播终端被分配的信道索引号,表示用于集群n环境数据传输的信道索引号;
所述评价神经网络模块基于通过环境反馈得到的即时奖励对当前策略进行评估;时隙t的奖励函数为:
8.根据权利要求7的联合数据价值与信息年龄的多集群视频直播系统调度方法,其特征在于:
在一个时隙中,首先,所述行动神经网络模块利用参数集为θ的神经网络输出当前时隙的策略π(a(t)|s(t),θ),根据该策略选择动作a(t)并执行,环境返回即时奖励函数值r(s(t),a(t),s(t+1))给所述评价神经网络模块;然后,所述评价神经网络模块利用参数集为θc的另一个神经网络计算状态价值函数Vπ(s(t))的估计值并基于此计算出优势函数B(t)来评估当前时隙动作a(t)的优劣;最后,所述行动神经网络模块和所述评价神经网络模块分别对其神经网络求关于各自参数集的导数,并基于优势函数B(t)来更新相应的参数集θ和θc;
优势函数B(t)采用如下公式计算:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310166524.7A CN116156654B (zh) | 2023-02-24 | 2023-02-24 | 联合数据价值与信息年龄的多集群视频直播系统调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310166524.7A CN116156654B (zh) | 2023-02-24 | 2023-02-24 | 联合数据价值与信息年龄的多集群视频直播系统调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116156654A true CN116156654A (zh) | 2023-05-23 |
CN116156654B CN116156654B (zh) | 2023-08-29 |
Family
ID=86340523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310166524.7A Active CN116156654B (zh) | 2023-02-24 | 2023-02-24 | 联合数据价值与信息年龄的多集群视频直播系统调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116156654B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117788108A (zh) * | 2023-12-27 | 2024-03-29 | 南京掌心互动网络科技有限公司 | 一种基于深度强化学习的直播商品实时调度系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110856264A (zh) * | 2019-11-08 | 2020-02-28 | 山东大学 | 一种在传感器网络中最优化信息年龄的分布式调度方法 |
CN112235836A (zh) * | 2020-11-17 | 2021-01-15 | 上海交通大学 | 一种工业边缘网络系统架构和资源调度方法 |
US20210165405A1 (en) * | 2019-12-03 | 2021-06-03 | University-Industry Cooperation Group Of Kyung Hee University | Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same |
CN113891276A (zh) * | 2021-10-26 | 2022-01-04 | 重庆邮电大学 | 基于信息年龄的混合更新工业无线传感器网络调度方法 |
CN115643594A (zh) * | 2022-10-11 | 2023-01-24 | 重庆邮电大学 | 多传感器多服务器工业物联网的信息年龄优化调度方法 |
-
2023
- 2023-02-24 CN CN202310166524.7A patent/CN116156654B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110856264A (zh) * | 2019-11-08 | 2020-02-28 | 山东大学 | 一种在传感器网络中最优化信息年龄的分布式调度方法 |
US20210165405A1 (en) * | 2019-12-03 | 2021-06-03 | University-Industry Cooperation Group Of Kyung Hee University | Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same |
CN112235836A (zh) * | 2020-11-17 | 2021-01-15 | 上海交通大学 | 一种工业边缘网络系统架构和资源调度方法 |
CN113891276A (zh) * | 2021-10-26 | 2022-01-04 | 重庆邮电大学 | 基于信息年龄的混合更新工业无线传感器网络调度方法 |
CN115643594A (zh) * | 2022-10-11 | 2023-01-24 | 重庆邮电大学 | 多传感器多服务器工业物联网的信息年龄优化调度方法 |
Non-Patent Citations (3)
Title |
---|
XIN XIE: "A Reinforcement Learning Approach for Optimizing the Age-of-Computing-Enabled IoT", IEEE INTERNET OF THINGS JOURNAL, vol. 9, no. 4 * |
李真诚: "基于移动边缘计算的WiFi视频组播传输研究", 中国优秀硕士学位论文全文库信息科技辑 * |
熊轲: "6G时代信息新鲜度优先的无线网络设计", 物联网学报 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117788108A (zh) * | 2023-12-27 | 2024-03-29 | 南京掌心互动网络科技有限公司 | 一种基于深度强化学习的直播商品实时调度系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116156654B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qian et al. | Survey on reinforcement learning applications in communication networks | |
CN111953510B (zh) | 一种基于强化学习的智能电网切片无线资源分配方法及系统 | |
CN116156654B (zh) | 联合数据价值与信息年龄的多集群视频直播系统调度方法 | |
WO2014139448A1 (en) | Systems and methods for quality of experience aware joint scheduling of buffered video on demand and best effort flows | |
CN102256266A (zh) | 一种面向用户应用的自适应接入网络选择实现装置及方法 | |
Elnahas et al. | Game theoretic approaches for cooperative spectrum sensing in energy-harvesting cognitive radio networks | |
CN113271221B (zh) | 网络能力开放方法、系统及电子设备 | |
Xu et al. | Augmenting drive-thru Internet via reinforcement learning-based rate adaptation | |
CN111491312A (zh) | 无线资源预测分配、获取、训练神经网络的方法及设备 | |
CN104093009A (zh) | 无线自组织网络中基于网络效用的视频传输方法 | |
KR20220042928A (ko) | 복수의 액세스 네트워크 장치들에 대한 자동 구성 네트워크를 구현하는 방법 및 이를 수행하는 전자 장치 | |
JP2023066415A (ja) | 無線アクセスネットワークにおける電力節約 | |
Jin et al. | Deep reinforcement learning based scheduling for minimizing age of information in wireless powered sensor networks | |
Petkov et al. | Collision-free medium access based on traffic forecasting | |
CN114051252A (zh) | 无线接入网中多用户智能发射功率控制方法 | |
Said | A bandwidth control scheme for reducing the negative impact of bottlenecks in IoT environments: simulation and performance evaluation | |
CN112887314B (zh) | 一种时延感知的云雾协作视频分发方法 | |
KR20070000807A (ko) | 패킷 스케줄링 장치 및 그 방법 | |
CN115996403B (zh) | 5g工业时延敏感业务资源调度方法、装置、电子设备 | |
Rui et al. | Location‐dependent sensing data collection and processing mechanism in vehicular network | |
Zhang et al. | Accelerated deep reinforcement learning for wireless coded caching | |
US10496049B2 (en) | Communication between distributed information brokers within a data and energy storage internet architecture | |
Chitnavis et al. | Cross layer routing in cognitive radio networks using deep reinforcement learning | |
WO2017147771A1 (zh) | 业务优化处理方法、设备及系统 | |
Yuan et al. | Deep Reinforcement Learning-Based Energy Consumption Optimization for Peer-to-Peer (P2P) Communication in Wireless Sensor Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |