CN110351571A

CN110351571A - 基于深度强化学习的直播视频云转码资源分配与调度方法

Info

Publication number: CN110351571A
Application number: CN201910603809.6A
Authority: CN
Inventors: 孙立峰; 庞峥元; 黄天驰; 王智; 杨士强
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-10-18
Anticipated expiration: 2039-07-05
Also published as: CN110351571B

Abstract

本发明提出一种基于深度强化学习的直播视频云转码资源分配与调度方法，属于机器学习领域和多媒体内容处理领域。该方法在训练阶段，通过在模拟环境中对转码过程进行仿真，训练一个能够根据转码任务工作负载变化动态调整云计算资源分配的神经网络，并在分配的云计算资源上调度直播视频内容的转码任务；在执行阶段，利用训练好的神经网络，根据系统状态作出资源分配的实时决策并在云平台上调度转码任务。该发明基于深度强化学习方法，能够根据转码任务负载变化动态调整云计算资源规模，节省资源使用开销；基于对转码任务时间上下限的估算方法，能够及时完成转码任务的调度执行，满足服务质量要求。

Description

基于深度强化学习的直播视频云转码资源分配与调度方法

技术领域

本发明提出了一种基于深度强化学习的直播视频云转码资源分配与调度方法，属于机器学习领域和多媒体内容处理领域。

背景技术

近年来，以Twitch、斗鱼、快手等为代表的移动直播平台在市场上取得了巨大成功。目前，每个月有超过320万名主播在Twitch上开播，每天的活跃观众超过15万人。在这些平台上，视频内容的生产和制作不再限于专业的内容生产机构，数量众多的普通用户也可以使用各种终端设备向全球的观众分享游戏、娱乐等生活内容。

作为连接内容生产者和内容消费者的桥梁，直播平台需要将主播上传的视频转换为不同分辨率和码率的多个版本，以适配不同的用户设备和网络带宽，提高用户观看直播的体验。视频转码本质上是对视频先解码，再编码的过程，需要消耗大量的计算资源。为了避免维护大量专用转码服务器带来的高额运营成本，很多直播平台选择使用可以弹性扩展和按实际使用量收费的云端转码服务为直播业务提供支撑。例如，快手和映客分别使用了腾讯云和阿里云的转码服务。

作为转码服务的提供方，云计算平台需要保证转码服务的稳定、高效。通常，转码服务的用户(即直播平台)会与云服务提供商签订服务等级协议(Service LevelAgreement， SLA)，就转码服务的质量标准达成约定，云平台需要根据直播流的到达情况为其分配足够的计算资源，以满足服务等级协议的要求。

然而，与传统的视频点播应用相比，移动直播应用由于其独特的业务模式，对转码资源的需求也有所不同：(1)实时性：在直播过程中，观众可以通过发送文字信息与主播进行互动，因此直播画面的实时性对用户体验至关重要；(2)动态性：转码任务的计算需求取决于源视频与目标视频的格式，在直播应用中，主播使用各种类型的终端设备录制直播内容，因此主播上传的视频格式具有多样性。另外，主播的直播时间和时长有很大的随意性，因此造成云端接收到的直播流的数量和长度随时间动态变化。(3)不确定性：主播每次直播的内容都有变化，对提供转码服务的云平台而言，无法通过相同内容转码时间的历史记录对当前直播流的转码时间进行准确预测。

由于直播视频的上述特点，在难以实现对直播转码工作负载实时、精准预测的情况下，为了满足服务等级协议的约定，云服务提供商往往预先分配冗余的计算资源以保证服务质量，一是造成了计算资源的浪费，同时也提高了运营成本。

现有的方法中，在转码任务的云计算资源分配方面，主要采用启发式算法确定资源配额，例如，对系统服务质量设定阈值上下限U和L，若系统服务质量高于阈值上限U，就减少一定的计算资源；若系统服务质量低于阈值L，就增加一定的计算资源。这种方法由于控制资源分配的决策规则是根据预先设定的场景或条件制定，当系统的状态变化超出预先设定的规律时，往往无法及时做出调整，导致资源超分或分配不足，影响直播业务的运行；在转码任务调度方面，现有的方法主要采用先到先服务的策略，即对已有的转码任务按到达时间安排调度优先级，对先到达的任务优先安排执行，这种方法没有考虑由于直播内容不同而造成的转码时间差异，容易导致转码超时。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种基于深度强化学习的直播视频云转码资源分配与调度方法。本发明能够根据转码任务负载变化动态调整云计算资源规模，及时完成转码任务的调度执行，节省资源使用开销，满足服务质量要求。

本发明提出一种基于深度强化学习的直播视频云转码资源分配与调度方法，其特征在于，包括以下步骤：

1)训练阶段；具体步骤如下：

1-1)云端服务器将用户上传的视频流切分为连续的视频块，根据每个视频块的格式以及系统的转码配置，对每个视频块生成对应的转码任务并放入任务队列；

1-2)将云端服务器每个计算机进程作为一个训练节点，所有训练节点分为两类：第一类是中心节点，共1个；第二类是模拟执行节点，包括除了中心节点以外的所有节点；

1-3)在每个训练节点上设置一个神经网络，各节点上的神经网络具有相同的网络结构；每个神经网络包括一个策略网络和一个评估网络；其中，所述策略网络共四层，第一层包含一个一维卷积神经网络和两个全连接神经网络，第一层的每个网络分别连接第二层的融合网络，第二层的融合网络连接第三层的全连接神经网络，第三层的全连接神经网络连接第四层的概率归一化函数Softmax层；所述评估网络共四层，其中前三层的网络结构与策略网路相同，评估网络第三层的全连接神经网络连接第四层层的全连接神经网络；

1-4)在中心节点上使用全置为0的方式初始化该节点神经网络中策略网络的参数向量θ和评估网络的参数向量θ_v；

1-5)在每个模拟执行节点上使用随机化的方式初始化该节点神经网络中策略网络的参数向量θ’和评估网络的参数向量θ_v’；

1-6)初始化计时器t＝1；

1-7)重复执行以下步骤直至计时器达到预设的最大时间t＝t_max，中心节点得到训练完毕的神经网络；具体步骤如下：

1-7-1)在每个模拟执行节点上从中心节点同步参数向量：θ’＝θ，θ_v’＝θ_v；

1-7-2)在每个模拟执行节点上模拟运行n步，并收集每一步对应的一条训练记录；当收集n条训练记录后，模拟执行节点将n条训练记录发送给中心节点，然后进入步骤 1-7-3)；每个模拟执行节点每一步具体流程如下：

1-7-2-1)每个模拟执行节点的神经网络接收当前系统状态一维向量表示t时刻过去k个时间段的转码任务工作量，标量d_t表示在从t-1到t的时间段内未能在时限以前完成的转码任务的百分比，n_t表示从t-1到t的时间段内激活的虚拟机实例的数量；

当t＝1时，设置为全0，d_t设置为0，n_t设置为系统为转码任务预留的最大虚拟机数量；

1-7-2-2)模拟执行节点的神经网络根据系统状态s_t输出决策动作a_t；a_t为整数；若a_t＞0，则表示从t到t+1的时间段内在云计算平台新激活a_t台虚拟机；若a_t＜0，则表示从t到t+1的时间段内关闭a_t台虚拟机；若a_t＝0，则表示下一个时间段内的虚拟机数量无变化；

1-7-2-3)从t到t+1的时间段内，任务队列中的转码任务按如下方式被调度执行：

对每一个转码任务其中，i是视频流编号，j是视频块在视频流中的顺序编号，p是转码的参数配置，按如下方法估计该转码任务的执行时间上下限：

执行时间上限其中，是视频流i中第j个视频块在转码配置为p时的转码任务的执行时间上限；表示在视频流i中所有顺序号小于j的视频块在转码配置为p时的转码时间记录组成的集合，P_95th(·)表示集合的95分位数，即同一个直播流之前的视频块在相同转码配置下的转码时间记录的 95分位数；

执行时间下限其中，是视频流i中第j个视频块在转码配置为p时的转码任务的执行时间上限；表示在视频流i 中所有顺序号小于j的视频块在转码配置为p时的转码时间记录组成的集合，P_5th(·)表示集合的5分位数，即同一个直播流之前的视频块在相同转码配置下的转码时间记录的5分位数；

对每一个转码任务确定其调度优先级其中，是转码任务的执行时限；

对每一个转码任务确定其放弃时间

检查任务队列任务队列中的每个转码任务，若其放弃时间早于当前系统时间，则放弃执行，将其从任务队列任务队列中移出；

检查每个正在执行的转码任务，若其执行时限早于当前系统时间，则表示该任务已超时，放弃执行；

对每一台处于激活状态但是未执行转码任务的虚拟机，依次从任务队列中取出最小的任务，分配给该虚拟机；

1-7-2-4)在t+1时刻，模拟执行节点得到新的系统状态s_t+1，和该时间段内的系统收益r_t；其中，r_t定义如下：

其中，c_t＝c_v·n_t表示该时间段内的计算资源开销；

w_t表示该时间段内单位时间执行的转码任务量；

是服务质量开销；

其中∈是折扣系数，η是服务等级协议约定的服务质量阈值；

1-7-2-5)模拟执行节点收集一条模拟运行的记录{s_t,a_t,r_t}；

1-7-3)中心节点根据如下公式更新策略网络的参数向量θ：

然后令t＝t+1,重新返回步骤1-7-1)；

1-7-4)中心节点根据如下公式更新评估网络的参数向量θ_v：

然后令t＝t+1,重新返回步骤1-7-1)；

2)执行阶段；具体步骤如下：

2-1)在任意t时刻，收集当前系统状态s_t，输入步骤1)训练完毕的神经网络；

2-2)神经网络根据系统状态s_t，输出对应的资源分配的决策动作

2-3)根据决策动作，对数量为的虚拟机进行激活或关闭；

2-4)在从t到t+1的下一个时间段内，重复步骤1-7-2-3)，将转码任务调度到虚拟机上执行。

本发明的特点及有益效果在于：

本发明采用深度强化学习技术，利用训练好的神经网络来提取转码工作负载的变化趋势特征，使系统可以对计算资源需求量的变化提前做出合理的应对，另外，利用同一直播流画面的相似性，估计转码任务执行时间的上下限，合理调度转码任务，保证服务质量、节省资源开销。

附图说明

图1为本发明方法的整体流程图。

图2为本发明中训练阶段流程图。

图3是本发明中神经网络的结构示意图。

图4是本发明中多节点并行训练的流程示意图。

具体实施方式

本发明提出一种基于深度强化学习的直播视频云转码资源分配与调度方法，下面结合附图和具体实施例对本发明进一步详细说明如下。

本发明提出一种基于深度强化学习的直播视频云转码资源分配与调度方法，整体流程如图1所示，包括以下步骤：

1)训练阶段；整体流程如图2所示，具体步骤如下：

1-1)云端服务器的转码系统将用户上传的视频流切分为若干个连续的视频块，根据每个视频块的格式以及系统的转码配置，对每个视频块生成若干个对应的转码任务并放入任务队列。

所述转码系统是云端服务器上为直播视频转码搭建的服务系统，包括云计算的硬件资源和相对应的软件系统。

1-2)训练过程在云端服务器的多个计算机进程上并行进行，将每个计算机进程作为一个训练节点，本发明使用的训练节点数量范围为4至64个。训练节点包括两类：第一类是中心节点，共1个，该节点不进行具体的转码任务模拟执行，仅收集其他节点上的模拟执行结果，并以此进行神经网络的参数更新；第二类是模拟执行节点，包括除了中心节点以外的所有节点，该类节点对转码任务进行模拟执行，并收集模拟执行过程中的参数记录，传输给中心节点，以供神经网络更新参数；所述中心节点所在的进程在整个过程开始之前由系统运行人员指定，一旦指定，在后续过程中不再变更。

1-3)在每个训练节点上部署一个神经网络，各节点上的神经网络具有相同的网络结构。本发明所采用神经网络的结构见图3所示，每个神经网络包括一个策略网络和一个评估网络。其中，策略网络共四层，第一层包含一个一维卷积神经网络(128个4*1的卷积核，步长为1)和两个全连接神经网络(128个神经元)；第二层包含一个融合网络，融合网络分别把第一层每个网络的输出结果展开，并拼接为一个一维向量；第三层包含一个全连接神经网络(128个神经元)；最后一层包含一个概率归一化函数层(Softmax层)，用于生成不同决策动作的执行概率。评估网络也有四层，其中，前三层的网络结构与策略网路相同，最后一层是一个128*1的全连接神经网络。

1-4)在中心节点上使用全置为0的方式初始化该节点神经网络中策略网络的参数向量θ和评估网络的参数向量θ_v。

1-5)在每个模拟执行节点上使用随机化的方式初始化该节点神经网络中策略网络的参数向量θ’和评估网络的参数向量θ_v’。

1-6)初始化计时器t＝1；

1-7)重复执行以下步骤直至计时器达到预设的最大时间t＝t_max(本实施例中最大时间为5千万)，中心节点得到训练完毕的神经网络；具体步骤如下：

1-7-2)在每个模拟执行节点上模拟运行n步，并收集每一步对应的一条训练记录；当收集n条训练记录后，模拟执行节点将n条训练记录发送给中心节点，然后进入步骤 1-7-3)；其中，n为取值范围在[1，100]之间的整数，流程如图4所示，图4中本发明实施例中共有m个模拟执行节点；每个模拟执行节点每一步具体流程如下：

1-7-2-1)每个模拟执行节点的神经网络接收当前系统状态s_t，其中，一维向量表示t时刻过去k个(k为取值范围在[1，64]之间的整数)时间段的转码任务工作量，标量d_t表示在从t-1到t的时间段内未能在时限以前完成的转码任务的百分比， n_t表示从t-1到t的时间段内激活的虚拟机实例的数量。

当t＝1时，设置为全0，d_t设置为0，n_t设置为系统为转码任务预留的最大虚拟机数量。

1-7-2-2)模拟执行节点的神经网络根据系统状态s_t输出决策动作a_t。a_t是一个整数，其代表的含义为：若a_t＞0，则表示在下一个时间段内(从t到t+1)在云计算平台新激活a_t台虚拟机；若a_t＜0，则表示在下一个时间段内关闭a_t台虚拟机，若a_t＝0，则表示下一个时间段内的虚拟机数量无变化。

1-7-2-3)在从t到t+1的下一个时间段内，任务队列中的转码任务按如下方式被调度执行：

对每一个转码任务其中，i是视频流编号，j是视频块在视频流中的顺序编号，p是转码的参数配置，定义为形如{源分辨率，源码率，目标分辨率，目标码率}的数组，按如下方法估计其执行时间上下限：

执行时间上限其中，是视频流i中第j个视频块在转码配置为p时的转码任务的执行时间上限。表示在视频流i中所有顺序号小于j的视频块在转码配置为p时的转码时间记录组成的集合，P_95th(·)表示集合的95分位数，即同一个直播流之前的视频块在相同转码配置下的转码时间记录的 95分位数。

执行时间下限其中，是视频流i中第j个视频块在转码配置为p时的转码任务的执行时间上限。表示在视频流i 中所有顺序号小于j的视频块在转码配置为p时的转码时间记录组成的集合，P_5th(·)表示集合的5分位数。即同一个直播流之前的视频块在相同转码配置下的转码时间记录的5分位数。

对每一个转码任务确定其调度优先级其中，是转码任务的执行时限。

对每一个转码任务确定其放弃时间

检查任务队列中的每个转码任务，若其放弃时间早于当前系统时间，则放弃执行，将其从任务队列中移出。

检查每个正在执行的转码任务，若其执行时限早于当前系统时间，则表示该任务已超时，放弃执行。

对每一台处于激活状态但是未执行转码任务的虚拟机，依次从任务队列中取出最小的任务，分配给该虚拟机。

1-7-2-4)在t+1时刻，模拟执行节点得到新的系统状态s_t+1，和该时间段内的系统收益r_t。其中，r_t定义如下：

其中，c_t＝c_v·n_t表示该时间段内的计算资源开销；

w_t表示该时间段内单位时间执行的转码任务量；

是服务质量开销；

其中∈是折扣系数，取值范围为0(不含)～1(不含)的浮点数；η是服务等级协议约定的服务质量阈值(η通常取0.1％～10％)；

1-7-2-5)模拟执行节点收集一条模拟运行的记录{s_t，a_t，r_t}；

本发明中n指的是在每个模拟执行节点上，两次将训练记录发送给中心节点进行神经网络参数更新的间隔。具体来讲，在每个模拟执行节点上，经历过一个时段的模拟执行，视为进行了一步，同时收集对应的一条训练记录。当模拟节点上执行了n步之后，将这n步的训练记录发送给中心节点。中心节点会收到所有模拟执行节点发来的各自有n步的训练记录，这些训练记录都会被用来更新神经网络参数。

1-7-3)中心节点根据如下公式更新策略网络的参数向量θ：

然后令t＝t+1，重新返回步骤1-7-1)；

1-7-4)中心节点根据如下公式更新评估网络的参数向量θ_v

然后令t＝t+1，重新返回步骤1-7-1)；

2)执行阶段；

利用步骤1)训练好的神经网络，根据系统状态作出资源分配的实时决策。决策步骤为：

2-1)在任意时刻，收集当前系统状态s_t，输入步骤1)训练完毕的神经网络。

2-2)神经网络根据系统状态，输出对应的资源分配的决策动作

2-3)根据决策动作，对数量为的虚拟机进行激活或关闭。

Claims

1.一种基于深度强化学习的直播视频云转码资源分配与调度方法，其特征在于，包括以下步骤：

1)训练阶段；具体步骤如下：

1-6)初始化计时器t＝1；

1-7-2)在每个模拟执行节点上模拟运行n步，并收集每一步对应的一条训练记录；当收集n条训练记录后，模拟执行节点将n条训练记录发送给中心节点，然后进入步骤1-7-3)；每个模拟执行节点每一步具体流程如下：

1-7-2-2)模拟执行节点的神经网络根据系统状态s_t输出决策动作a_t；a_t为整数；若a_t>0，则表示从t到t+1的时间段内在云计算平台新激活a_t台虚拟机；若a_t<0，则表示从t到t+1的时间段内关闭a_t台虚拟机；若a_t＝0，则表示下一个时间段内的虚拟机数量无变化；

1-7-2-3)从t到t+1的时间段内,任务队列中的转码任务按如下方式被调度执行：

执行时间上限其中，是视频流i中第j个视频块在转码配置为p时的转码任务的执行时间上限；表示在视频流i中所有顺序号小于j的视频块在转码配置为p时的转码时间记录组成的集合，P_95th(·)表示集合的95分位数，即同一个直播流之前的视频块在相同转码配置下的转码时间记录的95分位数；

执行时间下限其中，是视频流i中第j个视频块在转码配置为p时的转码任务的执行时间上限；表示在视频流i中所有顺序号小于j的视频块在转码配置为p时的转码时间记录组成的集合，P_5th(·)表示集合的5分位数，即同一个直播流之前的视频块在相同转码配置下的转码时间记录的5分位数；

对每一个转码任务确定其放弃时间

其中，c_t＝c_v·n_t表示该时间段内的计算资源开销；

w_t表示该时间段内单位时间执行的转码任务量；

是服务质量开销；

1-7-2-5)模拟执行节点收集一条模拟运行的记录{s_t,a_t,r_t}；

1-7-3)中心节点根据如下公式更新策略网络的参数向量θ：

然后令t＝t+1,重新返回步骤1-7-1)；

1-7-4)中心节点根据如下公式更新评估网络的参数向量θ_v：

然后令t＝t+1,重新返回步骤1-7-1)；

2)执行阶段；具体步骤如下：

2-3)根据决策动作，对数量为的虚拟机进行激活或关闭；