CN116156654A

CN116156654A - 联合数据价值与信息年龄的多集群视频直播系统调度方法

Info

Publication number: CN116156654A
Application number: CN202310166524.7A
Authority: CN
Inventors: 刘青海; 罗佳; 肖继攀; 王贺; 胡娟; 张伟东
Original assignee: Chongqing Control Environment Technology Group Co ltd
Current assignee: Chongqing Control Environment Technology Group Co ltd
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-05-23
Anticipated expiration: 2043-02-24
Also published as: CN116156654B

Abstract

本发明涉及无线通信网络技术领域，具体公开了一种联合数据价值与信息年龄的多集群视频直播系统调度方法，其考虑了一个视频数据与环境数据混合的多集群视频直播系统，建立了关于时间平均数据价值和AoI的联合优化问题，并制定调度策略以联合优化系统数据价值与信息年龄。该方法将优化问题的调度策略分解为相互关联的内外两层策略，外层策略利用深度强化学习实现集群间的信道分配，内层策略则基于构造的虚拟队列实现集群内的链路选择。双层调度策略将每个集群的内层策略嵌入到外层策略中进行训练。仿真结果显示，与现有调度策略相比，该方法所提的调度策略可以提高时间平均的接收数据价值并降低时间平均的信息年龄。

Description

联合数据价值与信息年龄的多集群视频直播系统调度方法

技术领域

本发明涉及无线通信网络技术领域，尤其涉及一种联合数据价值与信息年龄的多集群视频直播系统调度方法。

背景技术

随着移动互联网流量的爆发式增长以及各类垂直行业的进一步分化，无线通信技术在各类应用场景下的技术指标需求也逐渐趋于多样化。例如，在物联网领域，无人驾驶的车辆控制系统、生命监测系统、野外火灾报警系统等等对数据时效性敏感的应用系统需及时接收最新的无线网络数据以进行相关的系统决策，此外，不同于传统无线传输技术主要关注传输速率或时延，视频直播等新兴移动互联网应用也由于其业务性质对网络数据的时效性有了更精细化的需求，因此亟需一种有效的性能指标去度量相关数据或信息的时效性。为了进一步量化网络数据的时效性从而适配新兴的垂直行业应用需求，越来越多的学者提出采用信息年龄(Age of Information,AoI)来衡量数据的新鲜度或及时性。AoI综合考虑了数据的生成时间及其传输时延。对于某个节点的AoI其关注对象是该节点最新收到的数据包，AoI被定义为该最新数据包自生成以来经过的时间。

现有的研究通常将AoI作为单一指标来评估网络的数据新鲜度，然而，在某些应用中，也需考虑接收数据的价值。数据价值可以看作是数据对于系统业务的重要程度，例如，在视频直播场景，对于一个以看重视频质量的消费群体为目标客户的直播活动。另外，在对重要活动的直播中，可使用无线传感器来收集活动现场的实时环境数据，不同的环境数据具有不同的价值，例如，现场烟雾浓度或温度超出正常的阈值范围，则相应的烟雾或温度传感器应更及时地将相关数据发送到后端的监控中心进行紧急决策，以避免引发火灾等严重影响活动的紧急事故，那么这些数据由于需求的急迫性则具有更高的价值。因此，在这种数据价值敏感的系统中，需在保证接收数据具有一定价值的同时提高数据的新鲜度。在实际应用中，视频数据和环境数据可共享传输信道，例如，对于举行足球、篮球等体育赛事的场馆，得益于当前5G技术的发展，可利用无线信道实现赛事的视频直播。同时，由于场馆内人数众多，可采用无线传感器对场馆内的温度、湿度以及烟雾浓度等环境数据进行监测并通过无线信道传输到监控中心，从而使监控中心可基于环境数据做出现场环境调节或灾难预警等决策。

对基于无线链路的多集群视频直播系统，多个直播终端作为直播视频源需通过上行链路传输源视频到无线基站，基站利用连接的边缘服务器对源视频进行视频转码等处理操作从而向其覆盖范围内的各类终端消费者提供不同码率的直播服务，同时基站也需通过核心网将源视频传播至其它地理区域的终端以提供大范围的直播服务。为保证重要活动的实施效果，需在活动场馆的不同位置配备多个无线传感器从而采样收集多方位的环境相关数据，传感器作为无线终端也需通过上行链路将其采样的数据发送到基站并通过基站将数据发送到监控中心。作为对数据新鲜度要求较高的多集群视频直播系统，现有研究主要聚焦于视频的QoE优化，而较少关注视频数据的AoI和接收数据的价值。

发明内容

本发明提供联合数据价值与信息年龄的多集群视频直播系统调度方法，解决的技术问题在于：如何综合考虑视频数据的信息年龄(AoI)和接收数据的价值，对多集群视频直播系统进行信道调度。

为解决以上技术问题，本发明提供联合数据价值与信息年龄的多集群视频直播系统调度方法，其关键在于，包括步骤：

S1、构建多集群视频直播系统；

该多集群视频直播系统包括一个基站和大小相等的N个集群，共有L个带宽不同的上行无线信道，L-N≤N；每个集群包含M个终端，包括一个直播终端以及在其附近的M-1个无线传感器；

S2、联合优化数据价值与信息年龄对所述多集群视频直播系统进行调度；该步骤S2具体包括步骤：

S21、联合数据价值与信息年龄构建目标函数：

其中，

表示集群n内终端m即终端(n,m)在时隙t的信道l上的状态，在信道l上传输则

否则

表示所述基站在时隙t关于其接收数据的价值，A_b(t)表示所述基站在时隙t关于其接收数据的信息年龄，E[]表示求期望；l∈{1,2,…,L}，n∈{1,2,…,N}，m∈{1,2,…,M}，t∈{1,2,…,T}，T表示总时隙数；

S22、确定多集群视频直播系统的约束条件：

约束条件C1表示调度策略在每个时隙需为每个直播终端均分配1个上行信道用于传输视频数据，约束条件C2表示调度策略在每个时隙对任意集群n最多选择一个无线传感器上传其采样的环境数据包，约束条件C3表示每个上行无线信道最多只能与一个终端配对，约束条件C4表示每个时隙最多有L-N个上行无线信道可被分配用于进行传感器数据的上行传输；

S23、根据目标函数和约束条件构建优化问题

S24、对优化问题

进行求解，得到在每个时隙的调度策略。

进一步地，

计算为：

其中，

表示所述基站在时隙t接收到集群n的直播视频数据包的码率等级，有：

i_n(t)表示时隙t集群n正在传输的直播终端数据包对应的码率等级；终端(n,m)在时隙t进行上行传输，对于正在传输的数据包，μ_n,m(t)表示其数据生成的时隙，v_n,m(t)则表示该数据包完成上行传输所需的时隙数；m＝1表示直播终端；

表示所述基站在时隙t接收到对应环境数据包的价值等级，有：

其中，对于m≠1时的传感器(n,m)，当

时，f_n,m(t)表示其在时隙t传输的数据包所对应的价值等级。

进一步地，A_b(t)计算为：

其中，A_n,m(t)表示所述基站在时隙t关于终端(n,m)数据包的信息年龄，A_n,m(t)的更新遵循如下公式：

进一步地，v_n,m(t)计算为：

其中，

为时隙t集群n正在传输的直播终端数据包对应的码率等级i_n(t)所对应的视频码率，

为时隙t传感器(n,m)正在传输的环境数据包大小的索引号j_n,m(t)对应的数据包大小，R_l为信道l的上行传输速率，b为单位时隙时长，z为单位视频数据包时长。

进一步地，步骤S24具体包括步骤：

S241、令

q^*表示问题

目标函数的最优值，因此有

和

分别对应采用最优策略

时

和

的值，将优化问题

转化为优化问题

s.t.C1～C4

S242、定义变量

来代替优化问题

中的未知量q^*，将优化问题

转化成优化问题

s.t.C1～C4

S243、对优化问题

进行求解，包括求解集群间的信道分配和求解集群内的链路选择。

进一步地，在步骤S243中：

采用多核CPU来求解集群间的信道分配，多核CPU的每个线程包含一个智能体，所述智能体包含行动神经网络模块和评价神经网络模块；

所述行动神经网络模块基于当前时隙观察到的状态s(t)决定当前时隙的策略动作a(t)；s(t)表示为：s(t)＝[i(t),j(t),f(t),μ(t),A_v(t),q(t)]，i(t)＝[i₁(t),…,i_N(t)]、j(t)＝[j_1,1(t),…,j_N,M(t)]、f(t)＝[f_1,1(t),…,f_N,M(t)]、μ(t)＝[μ_1,1(t),…,μ_N,M(t)]和A_v(t)＝[A_1,1(t),…,A_N,M(t)]分别表示相应的状态向量；a(t)表示为：a(t)＝[a_v(t),a_s(t)]，

表示用于视频数据传输的集群间信道分配动作，

表示用于环境数据传输的集群间信道分配动作，

表示集群n的直播终端被分配的信道索引号，

表示用于集群n环境数据传输的信道索引号；

所述评价神经网络模块基于通过环境反馈得到的即时奖励对当前策略进行评估；时隙t的奖励函数为：

进一步地，多核CPU的目标是最大化累积折扣奖励函数即状态价值函数，其计算公式如下：

其中，γ为折扣因子，E_π{·}表示所述智能体采用策略π进行序贯决策时的期望值；

每个时隙所述智能体均计算并保存关于神经网络参数的导数，每隔预设数目的时隙，每个所述智能体使用各自在该时段中的累计导数并以异步的方式更新全局共享的神经网络参数集。

进一步地，在一个时隙中，首先，所述行动神经网络模块利用参数集为θ的神经网络输出当前时隙的策略π(a(t)|s(t),θ)，根据该策略选择动作a(t)并执行，环境返回即时奖励函数值r(s(t),a(t),s(t+1))给所述评价神经网络模块；然后，所述评价神经网络模块利用参数集为θ_c的另一个神经网络计算状态价值函数V_π(s(t))的估计值

并基于此计算出优势函数B(t)来评估当前时隙动作a(t)的优劣；最后，所述行动神经网络模块和所述评价神经网络模块分别对其神经网络求关于各自参数集的导数，并基于优势函数B(t)来更新相应的参数集θ和θ_c；

优势函数B(t)采用如下公式计算：

即参数集为θ_c的神经网络在时隙t+1的输出。

进一步地，参数集θ采用如下方式更新：

其中，g≥0为所述行动神经网络模块的学习率；

参数集θ_c采用如下方式更新：

其中，g_c≥0为所述评价神经网络模块的学习率。

进一步地，在步骤S243中，求解集群内的链路选择时，基于以下原则选择集群内的传感器m^*与相应的空闲信道进行配对：

F表示环境数据的价值分为F个等级，

表示集群n的传感器m其数据包价值等级为f的概率，f∈{1,2,…,F}；Y表示环境数据包大小共有Y种大小，j表示环境数据包大小的索引号，y_j则为对应的数据包大小，

表示集群n中的传感器m采样的数据包大小为y_j的概率，j∈{1,2,…,Y}；

表示传感器数据完成上行传输所需的时隙数。

本发明提供的一种联合数据价值与信息年龄的多集群视频直播系统调度方法，其考虑了一个视频数据与环境数据混合的多集群视频直播系统，建立了关于时间平均数据价值和AoI的联合优化问题，并制定调度策略以联合优化系统数据价值与信息年龄。为克服优化问题中动作空间过大导致难以实现有效求解的问题，该方法将优化问题的调度策略分解为相互关联的内外两层策略，外层策略利用深度强化学习实现集群间的信道分配，内层策略则基于构造的虚拟队列实现集群内的链路选择。双层调度策略将每个集群的内层策略嵌入到外层策略中进行训练。仿真结果显示，与现有调度策略相比，该方法所提的调度策略可以提高时间平均的接收数据价值并降低时间平均的信息年龄。

附图说明

图1是本发明实施例提供的联合数据价值与信息年龄的多集群视频直播系统调度方法的流程图；

图2是本发明实施例提供的多集群视频直播系统的架构图；

图3是本发明实施例提供的基站关于终端(n,m)数据包的AoI随时间变化的示例图；

图4是本发明实施例提供的双层优化策略的流程图。

具体实施方式

下面结合附图具体阐明本发明的实施方式，实施例的给出仅仅是为了说明目的，并不能理解为对本发明的限定，包括附图仅供参考和说明使用，不构成对本发明专利保护范围的限制，因为在不脱离本发明精神和范围基础上，可以对本发明进行许多改变。

综合考虑视频数据的信息年龄(AoI)和接收数据的价值，对多集群视频直播系统进行信道调度，本发明实施例提供了一种联合数据价值与信息年龄的多集群视频直播系统调度方法，如图1所示，具体包括步骤：

S1、构建多集群视频直播系统；

S2、联合优化数据价值与信息年龄对多集群视频直播系统进行调度；

该步骤S2具体包括步骤：

S21、联合数据价值与信息年龄构建目标函数；

S22、确定多集群视频直播系统的约束条件；

S23、根据目标函数和约束条件构建优化问题

S24、对优化问题

进行求解，得到在每个时隙的调度策略。

在步骤S1中，对基于无线链路的视频直播系统，多个直播终端作为直播视频源需通过上行链路传输源视频到无线基站，基站利用连接的边缘服务器对源视频进行视频转码等处理操作从而向其覆盖范围内的各类终端消费者提供不同码率的直播服务，同时基站也需通过核心网将源视频传播至其它地理区域的终端以提供大范围的直播服务。本例主要考虑无线直播系统的第一个环节，即直播视频源终端到相应基站的上行传输链路。

具体来说，本例考虑一个针对重要活动的视频直播系统。系统模型如图2所示，一方面，单个基站需收集其覆盖范围内的直播源视频，为实现对同一重要活动的全方位直播，N个连接或配备摄像设备的直播终端在活动场馆的不同位置以不同视角对该活动进行直播。直播终端由采集现场视频的专业摄像机和5G背包通过有线连接组成，其中，5G背包内置了视频编码器与5G芯片(通常也内置了4G芯片实现向下兼容)，因此，直播终端可作为直播视频源通过上行链路传输源视频到基站，随后，视频通过核心网被传输到远端的集成发布平台实现多平台的视频直播。另一方面，为保证重要活动的实施效果，需在活动场馆的不同位置配备多个无线传感器从而采样收集多方位的环境相关数据，传感器作为无线终端也需通过上行链路将其采样的数据发送到基站并通过基站将数据发送到监控中心。系统一共有L(L>N)个带宽不同的上行无线信道，考虑所有信道均为不涉及信息传输中断的理想信道。为保证视频直播的连续性，调度策略在每个时隙需为每个直播终端均分配1个上行信道。此外，还需为无线传感器分配回传其数据的上行信道，因此，每个时隙最多有L-N个信道可被分配用于进行传感器数据的上行传输，其中L-N≤N。

在具体实施时，为了向监控中心提供及时且多方位的环境相关数据，将以上两类终端以直播终端为中心划分为大小相等的N个集群，每个集群包含的终端数用M表示，其中包含一个直播终端以及在其附近的M-1个无线传感器。具体的终端索引号用m表示，m＝1对应集群中的直播终端，m(1<m≤M)则对应集群中的无线传感器。

为避免单个集群内(即同一位置附近)的无线传感器占用过多的信道资源，除了直播终端，集群n在时隙t最多可选择一个无线传感器上传其采样的环境相关数据。直播视频传输时可按照视频时长为单位将视频数据分割为多个时长为z的视频数据包进行传输。对于不同的直播终端，其对视频码率选择的不同可使得各自视频数据包的大小存在差异，而对于同一直播终端，由于存在动态的码率自适应策略，其数据包大小在不同时隙也可能存在差异。对于直播视频，其数据包的视频码率划分为I个等级，i(i∈{1,2,…,I})表示具体某个视频数据包的码率索引号，索引号越高对应的视频码率也越高。

为对应的视频码率，

则为直播系统所支持的视频码率集合。因此，单个视频数据包大小为zx_i，z为单位视频数据包时长。此外，上行传输所分配的信道具有不同的带宽和增益，对应的各终端上行传输速率也存在差异。

表示系统支持的上行传输速率集合，

则为信道l(l∈{1,2,…,L})的上行传输速率。单位时隙时长为b，用d_v表示单个视频数据包完成上行传输所需的时隙数，基于上述讨论可知

表示上取整。

为保证视频直播的连续性，单个视频数据包对应内容的时长z应满足

用

表示集群n(n∈{1,2,…,N})的直播终端其视频数据包码率为x_i的概率，因此可得

对于传感器数据的上传，由于并非所有传感器均在每个时隙接入无线信道进行上传，因此对于在时隙t分配到信道的传感器，其在时隙t之前采样的数据均被丢弃，仅上传在时隙t最新采样的数据，直到该数据完成上行传输才会释放被分配的信道。

表示传感器支持的环境数据包大小集合，

j(j∈{1,2,…,Y})表示环境数据包大小的索引号。

则为对应的数据包大小。用d_s表示传感器数据完成上行传输所需的时隙数，因此有

用

表示集群n中的传感器m(m∈{2,…,M})采样的数据包大小为y_j的概率，因此可得

表示集群n内终端(包括直播终端和传感器)m在时隙t的信道l上的状态，如果终端(n,m)在时隙t被分配到信道l(l∈{1,2,…,L})进行上行传输，则

否则，

当

时，即终端(n,m)在时隙t占用无线信道进行上行传输，对于正在传输的数据包，用μ_n,m(t)表示其数据生成的时隙，ν_n,m(t)则表示该数据包完成上行传输所需的时隙数，因此有

其中，i_n(t)表示时隙t集群n正在传输的直播终端数据包对应的码率等级，j_n,m(t)则表示时隙t传感器(n,m)(m≠1)正在传输的环境数据包大小的索引号。

在步骤S2中，由于对直播视频与现场环境数据的需求均看重数据的及时性或新鲜度，因此本例采用AoI作为系统性能的评估指标。除了用AoI来衡量数据的及时性或新鲜度，还需考虑数据本身的价值。

AoI被定义为目标节点最新接收到的数据包自其生成以来所经过的时间，基于此，对于在时隙t基站已完成接收的来自终端(n,m)的最新数据包(并非正在传输的数据包)，用μ^′ _n,m表示其数据生成的时隙。A_n,m(t)表示基站在时隙t关于终端(n,m)数据包的AoI，则有A_n,m(t)＝t-μ^′ _n,m。如果终端(n,m)在时隙t完成了对应数据包的上行传输，则相应的AoI在时隙t+1需更新为v_n,m(t)＝t+1-μ_n,m(t)，否则，AoI需更新为A_n,m(t)+1＝t+1-μ^′ _n,m。比如，假设终端(n,m)在时隙t₁、t₃和t₅生成数据包并开始传输，相应数据包在时隙t₂、t₄和t₇完成传输，基于此，基站关于终端(n,m)数据包的AoI随时间变化的情况如图3所示。

综上所述，A_n,m(t)的更新遵循如下公式

因此，基站在时隙t关于其接收数据的AoI可计算为

对于注重视频质量的直播系统，本例采用视频码率来衡量视频数据的价值，视频码率等级越高其价值也越高。

基站主要关注接收成功时视频数据包的码率等级，对于集群n，用

表示基站在时隙t接收到对应直播视频数据包的码率等级，如果集群n的直播终端在时隙t完成其视频数据包的上行传输，则

即i_n(t)时隙t集群n正在传输的直播终端数据包对应的码率等级，否则

因此，

可由下式计算

类似的，传感器采样的环境数据也有不同的价值分级，设环境数据的价值分为F个等级，等级越高则表示价值越高。

表示集群n的传感器m其数据包价值等级为f(f∈{1,2,…,F})的概率，因此有

对于传感器(n,m)(m≠1)，当

时，用f_n,m(t)表示其在时隙t传输的数据包所对应的价值等级，

则表示基站在时隙t接收到对应环境数据包的价值等级，则有

综上，基站在时隙t关于其接收数据的价值可计算为

在每个时隙的开始，基站需基于其调度策略将空闲信道分配给需要上传数据的终端。考虑数据价值和AoI存在相互影响的关系且两者性能的优化分别对应各自的最大化和最小化，因此，为实现系统数据价值和AoI的联合优化，本例采用时间平均的数据价值与AoI比值(Ratio of Data Value to AoI,RDVA)。RDVA可用于衡量系统在单位时隙的数据新鲜度下能传输的数据价值大小，更大的RDVA意味着相应数据具有较好的数据新鲜度和较高的数据价值。相应的优化问题可表述为

其中，

则为目标函数，这里的E[]表示求期望，T表示总时隙数。C1～C4为约束条件。约束条件C1表示为保证视频直播的连续性，调度策略在每个时隙需为每个直播终端均分配1个上行信道。约束条件C2表示为避免单个集群的传感器占用过多信道资源，调度策略在每个时隙对任意集群n最多选择一个传感器上传其采样的环境数据包。约束条件C3表示每个信道最多只能与一个终端配对。约束条件C4则表示每个时隙最多有L-N个信道可被分配用于进行传感器数据的上行传输。

接下来需要执行步骤S24对优化问题

进行求解，得到在每个时隙的调度策略。步骤S24具体包括步骤S241～S243。

S241、用

和

分别表示基站接收数据的时间平均价值和AoI，即

q^*表示问题

目标函数的最优值，因此有

其中，

和

分别对应采用最优策略

时

和

的值。而当且仅当下式成立时，问题

的目标函数取得最优值q^*

因此，问题

可等价地转化为如下的减法形式

s.t.C1～C4

然而，由于q^*的值未知，所以问题

仍然难以求解。

S242、为便于求解，定义如下变量q(t)来代替问题

中的未知量q^*

其中，q(1)＝0，参数q(t)的值取决于过往的调度决策。将q^*替换为q(t)，则问题

可转化为

s.t.C1～C4

S243、对优化问题

由于AoI的动态变化特性，问题

可采用深度强化学习进行求解。调度策略的可行动作空间大小为(NM)！/(NM-L)！，可以看出，该优化问题具有较大的动作空间，从而使得相应的算法难以实现有效的求解。为应对这一挑战，本例将上述问题的调度策略分解为集群间的信道分配和集群内的链路选择，基于此，可形成一个由内外两层策略组成的分层调度策略。内外两层策略以集群为分界点进行划分，外层策略决定空闲信道分配到哪个集群，包括用于视频数据传输的信道分配和用于环境数据传输的信道分配，内层策略则用于做出链路选择决策，其主要决定集群内传感器与信道配对的情况。

外层策略采用深度强化学习来实现集群间的信道分配，深度强化学习的智能体可通过与环境间的持续交互来学习最优策略。具体来说，本例采用被称为A3C(AsynchronousAdvantage Actor-Critic)的深度强化算法。为表示方便，用i(t)、

j(t)、f(t)、μ(t)和A_v(t)分别表示相应的状态向量

i(t)＝[i₁(t),…,i_N(t)](17)

j(t)＝[j_1,1(t),…,j_N,M(t)](18)

f(t)＝[f_1,1(t),…,f_N,M(t)](19)

μ(t)＝[μ_1,1(t),…,μ_N,M(t)](20)

A_v(t)＝[A_1,1(t),…,A_N,M(t)](21)

其中，A_v(t)的动态变化过程遵循公式(7)。其他四类状态向量在数据包(包括视频数据包和环境数据包)的传输过程中保持不变，传输完成后，若下一时隙相应的终端获得信道分配开始新的数据包传输，则这四类状态向量对应的具体状态更新为新数据包对应的值，否则，对应的状态为0，表示相应的终端没有数据包进行上行传输。基于此，时隙t的状态s(t)可表示为

s(t)＝[i(t),j(t),f(t),μ(t),A_v(t),q(t)](22)

考虑到每个直播终端均会保持不间断的上行数据传输，而传感器则可能会由于空闲信道的不足而暂时停止传输，因此，可合理假设该视频直播系统中的视频数据传输相比环境数据传输具有更高的优先级。为优先保证视频直播的流畅和稳定，可将传输速率最高的N个信道均分配给各集群的直播终端。各信道对应的传输速率按照信道索引号降序排列，即R_l≥R_l+1(l∈{1,2,…,L})。基于此，对于时隙t的策略动作a(t)，外层策略的动作空间可划分为用于视频数据传输的集群间信道分配和用于环境数据传输的集群间信道分配两类动作，分别用a_v(t)和a_s(t)表示，即

a(t)＝[a_v(t),a_s(t)](23)

其中，

表示集群n的直播终端被分配的信道索引号，为满足问题

的约束条件，神经网络的输出层在确定

时会将对应的输出从大到小映射到信道索引号1到N，因此，

对应于问题

的策略动作

类似的，

表示用于集群n环境数据传输的信道索引号，神经网络的输出层在确定

时会将对应的输出从大到小映射到信道索引号N+1到L，最小的2N-L个输出值对应的

则为0，因此，

对应于问题

的策略动作

则对应于

基于上述的动作空间划分，外层策略的可行动作总数为N！N！/(2N-L)！。

基于问题

的目标函数，可定义时隙t的奖励函数为

A3C的目标是最大化累积折扣奖励函数，即状态价值函数，其计算公式如下

其中，γ为折扣因子，E_π{·}表示智能体采用策略π进行序贯决策时的期望值。不同取值的τ对应不同时隙的奖励函数值，τ＝0为当前时隙，τ＝1则为下一时隙，以此类推。

A3C利用多核CPU来运行多个智能体，多核CPU的每个线程包含一个智能体以及相应的环境副本。每个时隙智能体均计算并保存关于神经网络参数的导数，每隔一定数目的时隙，每个智能体使用各自在该时段中的累计导数并以异步的方式更新全局共享的神经网络参数集。一个执行A3C算法的智能体包含两个部分：行动神经网络模块和评价神经网络模块。行动神经网络模块为一个神经网络表示的策略，其基于当前时隙观察到的状态s(t)决定当前时隙的动作a(t)。评价神经网络模块则为另一个神经网络，其基于智能体通过环境反馈得到的即时奖励对当前策略进行评估。对于一个特定的智能体，其行动神经网络模块和评价神经网络模块的详细情况如下。

在一个时隙中，行动神经网络模块首先利用其神经网络输出当前时隙的策略π(a(t)|s(t),θ)，根据该策略选择动作a(t)并执行，环境返回即时奖励函数值r(s(t),a(t),s(t+1))给评价神经网络模块。然后，评价神经网络模块通过其神经网络计算估计状态价值函数

并基于此计算出优势函数B(t)来评估当前时隙动作a(t)的优劣。最后，行动神经网络模块和评价神经网络模块分别对其神经网络求关于参数集的导数，并基于优势函数B(t)来更新相应的参数集θ和θ_c。

行动神经网络模块：用θ表示策略参数，则π(a|s,θ)为相应的策略，表示状态为s、参数为θ时智能体执行动作a的概率。行动神经网络模块使用策略梯度上升法对其参数θ进行更新。假设策略关于θ可微，则时隙t关于θ的性能梯度计算如下

其中，B(t)被称为优势函数，其指示特定动作带来的结果与结果平均值之间的差值。

被称为资格迹。由于策略动作a(t)为离散向量，因此，行动神经网络模块的神经网络可直接输出每个动作对应的的概率π(a(t)|s(t),θ)。得益于与神经网络的结合，A3C可采用参数集为θ的神经网络来学习π(a(t)|s(t),θ)。相应的参数集θ则采用如下的策略梯度上升法更新

其中，g≥0为行动神经网络模块神经网络的学习率。

评价神经网络模块：评价神经网络模块采用优势函数B(t)来评估行动神经网络模块选择动作a(t)的优劣。优势函数B(t)包含一个和状态s(t)有关的基线函数，而状态价值函数V_π(s(t))是该基线函数的最佳选择。在实际的学习过程中，通常采用状态价值函数的估计值。因此，评价神经网络模块的目标是使用另一个参数集为θ_c的神经网络来近似估计状态价值函数

优势函数B(t)可采用如下公式计算

即参数集为θ_c的神经网络在时隙t+1的输出。

参数集θ_c采用如下方式更新

其中，g_c≥0为评价神经网络模块神经网络的学习率。

当外层策略确定了信道在集群间的分配后，由于每个集群仅有一个直播终端，因此各个直播终端的信道配对情况已确定，内层策略需要做的则是决定集群内传感器与信道配对的情况。内层策略可通过设计组合调度策略来实现优化目标，该策略由分配空闲信道的每个集群的链路选择决策组成。在每个可调度的时隙t中，内层策略需选择使

的期望值最大的调度决策组合。然而，由于数据包的传输时延可能不止1个时隙，即对于任意终端(n,m)有v_n,m(t)≥1，因此，调度决策的执行可能不会立即降低下一个时隙的AoI，直接最大化

的期望值不可行。注意到可以利用当前时隙t、ν_n,m(t)和μ_n,m(t)计算自时隙t开始完成上行传输所需的时隙数η_n,m(t)，也就是离相应的AoI下次降低剩余的时隙数η_n,m(t)＝ν_n,m(t)-t+μ_n,m(t)。为实现本例的优化目标，可将预计降低的AoI设计为与η_n,m(t)相关，假设传感器(n,m)(m≠1)经过时隙t的传输可将AoI在时隙t+1降低α_n,m(t)，α_n,m(t)可采用如下公式计算

其中，A_n,m(μ_n,m(t))为对应数据包传输完成后预计可减少的AoI。需要注意的是，如果相应数据包在时隙t没有完成上行传输，则在时隙t+1基站处的AoI实际上并没有减少，因此，α_n,m(t)可看作是一个虚拟的AoI减少量。基站处的AoI则需在随后的时隙t+2加上对应的偏置量δ_n,m(t+1)＝α_n,m(t)。如果相应数据包在时隙t完成了上行传输，则α_n,m(t)＝A_n,m(μ_n,m(t))为时隙t+1基站处实际的AoI减少量，偏置量为0。因此，偏置量可采用如下公式计算

基于上述分析，可构造如下的虚拟队列

ξ_n,m(t+1)＝A_n,m(t)+1-α_n,m(t)+δ_n,m(t)(34)

当t趋于无穷时，

与

相等，即在任意可行的调度策略下，时间平均的虚拟队列长度等于时间平均的AoI。因此，可以使用

代替公式(16)中的

其中，

可采用如下公式计算

此外，如果传感器(n,m)(m≠1)在时隙t占用无线信道进行上行传输，对于基站接收数据包的价值等级

其值在数据包传输过程中为0，而仅在数据包传输完成的时隙μ_n,m(t)+ν_n,m(t)-1中才为f_n,m(t)。需要注意的是，f_n,m(t)在数据包传输过程中是保持不变的，因此，为了评估在相应调度时隙μ_n,m(t)中的调度策略，可构造一个等效变量从而在时隙μ_n,m(t)+1提前赋予其数据包的价值等级。该等效变量可采用如下公式计算

可以看出，当t趋于无穷时，如下等式成立

由于直播终端与内层策略无关，内层策略在每个时隙t进行决策时需选择能够使

的值最大的策略组合。此外，由于各集群的链路选择决策相互独立，因此，对于任意集群n，为了最大化

内层策略可基于以下原则选择集群内的传感器m^*与相应的空闲信道进行配对

基于以上对内外层策略的分析，每个集群的内层策略需嵌入到外层策略中，从而构成本例所提的双层调度(Two-layer Scheduling,TS)策略，算法1描述了双层调度策略的具体步骤，图4为对应的流程图。相比直接使用A3C求解问题

TS策略将神经网络对应的可行动作空间大小从(NM)！/(NM-L)！减少到N！N！/(2N-L)！，从而使基于A3C的调度策略能够对问题

进行有效的求解。

算法1求解问题

的TS策略

TS策略的复杂度取决于外层策略的A3C算法。考虑行动神经网络模块和评价神经网络模块分别使用层数和隐藏层神经元数量均相同的神经网络，用N_layers表示神经网络的层数，C_l为第l层的神经元数量，其中，C₁＝N+4NM+1，对于行动神经网络模块网络，

而对于评价神经网络模块网络，

A3C的复杂度取决于行动神经网络模块和评价神经网络模块各自神经网络的前馈计算和用于梯度计算的反向传播。对于由

个时隙组成的单个训练回合，其行动神经网络模块和评价神经网络模块的梯度计算以及行动神经网络模块的前馈计算次数均为

次、评价神经网络模块的前馈计算次数为

次。一次前馈计算的运算量为

一次梯度计算的运算量为

因此，单个训练回合的运算量为

基于上述分析计算，可得TS策略的复杂度为

综上所述，针对视频直播较少考虑AoI以及AoI的研究中数据价值考虑不足的问题，本例基于直播终端和无线传感器共同部署的视频直播系统研究了数据价值和AoI的联合优化问题。考虑到AoI的动态变化特性以及问题的有效求解，本例提出了一种基于A3C的双层调度策略，仿真结果表明，与其他策略相比，本例提出的调度策略可以降低时间平均的AoI并提高时间平均的接收数据价值。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.联合数据价值与信息年龄的多集群视频直播系统调度方法，其特征在于，包括步骤：

S1、构建多集群视频直播系统；

S2、联合优化数据价值与信息年龄对所述多集群视频直播系统进行调度；

该步骤S2具体包括步骤：

S21、联合数据价值与信息年龄构建目标函数：

其中，

表示集群n内终端m即终端(n，m)在时隙t的信道l上的状态，在信道l上传输则

否则

表示所述基站在时隙t关于其接收数据的价值，A_b(t)表示所述基站在时隙t关于其接收数据的信息年龄，E[]表示求期望；l∈{1，2，…，L}，n∈{1，2，…，N}，m∈{1，2，…，M}，t∈{1，2，…，T}，T表示总时隙数；

S22、确定多集群视频直播系统的约束条件：

C1：

C2：

C3：

C4：

S23、根据目标函数和约束条件构建优化问题

S24、对优化问题

进行求解，得到在每个时隙的调度策略。

2.根据权利要求1的联合数据价值与信息年龄的多集群视频直播系统调度方法，其特征在于：

计算为：

其中，

i_n(t)表示时隙t集群n正在传输的直播终端数据包对应的码率等级；终端(n，m)在时隙t进行上行传输，对于正在传输的数据包，μ_n，m(t)表示其数据生成的时隙，v_n，m(t)则表示该数据包完成上行传输所需的时隙数；m＝1表示直播终端；

其中，对于m≠1时的传感器(n，m)，当

时，f_n，m(t)表示其在时隙t传输的数据包所对应的价值等级。

3.根据权利要求2的联合数据价值与信息年龄的多集群视频直播系统调度方法，其特征在于：

A_b(t)计算为：

其中，A_n，m(t)表示所述基站在时隙t关于终端(n，m)数据包的信息年龄，A_n，m(t)的更新遵循如下公式：

4.根据权利要求3的联合数据价值与信息年龄的多集群视频直播系统调度方法，其特征在于：

v_n，m(t)计算为：

其中，

为时隙t传感器(n，m)正在传输的环境数据包大小的索引号j_n，m(t)对应的数据包大小，R_l为信道l的上行传输速率，b为单位时隙时长，z为单位视频数据包时长。

5.根据权利要求4的联合数据价值与信息年龄的多集群视频直播系统调度方法，其特征在于，步骤S24具体包括步骤：

S241、令

q^*表示问题

目标函数的最优值，因此有

和

分别对应采用最优策略

时

和

的值，将优化问题

转化为优化问题

s.t.C1～C4

S242、定义变量

来代替优化问题

中的未知量q^*，将优化问题

转化成优化问题

s.t.C1～C4

S243、对优化问题

6.根据权利要求5的联合数据价值与信息年龄的多集群视频直播系统调度方法，其特征在于，在步骤S243中：

所述行动神经网络模块基于当前时隙观察到的状态s(t)决定当前时隙的策略动作a(t)；s(t)表示为：s(t)＝[i(t)，j(t)，f(t)，μ(t)，A_v(t)，q(t)]，i(t)＝[i₁(t)，…，i_N(t)]、j(t)＝[j_1，1(t)，…，j_N，M(t)]、f(t)＝[f_1，1(t)，…，f_N，M(t)]、μ(t)＝[_1，1(t)，…，μ_N，M(t)]和A_v(t)＝[A_1，1(t)，…，A_N，M(t)]分别表示相应的状态向量；a(t)表示为：a(t)＝[a_v(t)，a_s(t)]，

表示用于视频数据传输的集群间信道分配动作，

表示用于环境数据传输的集群间信道分配动作，

表示集群n的直播终端被分配的信道索引号，

表示用于集群n环境数据传输的信道索引号；

7.根据权利要求6的联合数据价值与信息年龄的多集群视频直播系统调度方法，其特征在于，多核CPU的目标是最大化累积折扣奖励函数即状态价值函数，其计算公式如下：

8.根据权利要求7的联合数据价值与信息年龄的多集群视频直播系统调度方法，其特征在于：

在一个时隙中，首先，所述行动神经网络模块利用参数集为θ的神经网络输出当前时隙的策略π(a(t)|s(t)，θ)，根据该策略选择动作a(t)并执行，环境返回即时奖励函数值r(s(t)，a(t)，s(t+1))给所述评价神经网络模块；然后，所述评价神经网络模块利用参数集为θ_c的另一个神经网络计算状态价值函数V_π(s(t))的估计值