CN114339311A

CN114339311A - 一种视频云转码及分发联合决策方法及系统

Info

Publication number: CN114339311A
Application number: CN202111499745.3A
Authority: CN
Inventors: 张海涛; 郑键楠; 马华东
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-04-12
Anticipated expiration: 2041-12-09
Also published as: CN114339311B

Abstract

本发明提供一种视频云转码及分发联合决策方法及系统，该方法包括以下步骤：获取云平台的历史数据；基于模板费用计算转码成本，基于视频码率计算流量成本，得出成本函数；基于视频码率计算码率参数，基于观众端的转码延迟和分发延迟计算延迟参数，基于码率参数和延迟参数计算QoE函数；云平台预设有多个约束条件，根据约束条件计算惩罚函数；根据成本函数、QoE函数和惩罚函数计算奖励值；若采用效用值方案，则获取与当前状态的状态相同的所有状态动作对中效用值最大的状态动作对；对当前的状态动作对的效用值进行更新；执行该状态动作对中的动作，计算第一时长后的状态动作对和奖励值，更新云平台在第一时长后的状态动作对对应的效用值。

Description

一种视频云转码及分发联合决策方法及系统

技术领域

本发明涉及多媒体技术领域，尤其涉及一种视频云转码及分发联合决策方法及系统。

背景技术

传统的视频直播服务提供商会构建独立私有的数据中心和专有分发网络完成转码操作和视频分发过程，但是随之带来的问题是成本消耗巨大，且资源不可伸缩容易造成资源的问题。云平台具有资源按需付费和快速可伸缩的特点，将传统的视频分发架构转移至云上能够有效降低运营成本，成为越来越多直播服务提供商的选择。利用内容分发网络(ContentDeliveryNetwork，CDN)进行分发能够有效降低成本，单CDN会随着时间的变化出现性能波动的情况，影响用户观看体验。对于超大型云平台来说，可以构建地理分布式云架构(类似阿里云和腾讯云)，设置边缘节点和数据中心进行用户链路业务(Customer LinkService，CLS)服务的视频分发，但是资源的有限性和受众的动态性仍然存在一定问题，对于数据中心的选择以及高度动态化的受众群体和社交内容，有研究这考虑了不同数据中心之间视频分发路径的动态决定并推导出动态优化策略，也有研究者提出了数据中心与多CDN结合的方式来进行分发优化。但是，这些优化都是从分发的角度来考虑的，并没有考虑转码模板的设置。

视频转码服务也是视频直播服务的重要组成部分。对于一般的视频转码，早期的研究利用P2P/Overlay streaming中的方法，并不适合实时转码服务。而近来的研究倾向于利用云平台进行转码，利用云平台进行转码时，每增加一个转码模板就需要支付对应的费用，这样弹性的计费策略在众包环境中能够解决收到的转码需求，但是静态费用确实较为昂贵，我们需要动态的对于转码服务进行决策。现有技术存在一种新型直播架构，将转码请求下发至众多观众端，提出了一种观众端转码调度器对任务分配进行智能调度。也有研究者以雾计算为基础，提出了一种包含观测器的人群转码解决方案。但是，这些研究都是单纯从转码的角度进行研究，并未与CDN分发结合起来形成相对完备的评价体系，综合考虑维持观众端服务质量(Quality ofService，QoS)指标以及成本优化。

综上分析，显然之前的大多数研究都是单纯从CDN分发或者转码角度进行研究，保证用户观看体验以及成本优化，并未将二者考虑到一起。事实上，终端观众端的动态需求会引起转码策略的变化，而转码策略的变化会引起转码成本和CDN分发成本的变化，在观众端QoE的保障过程中，也需要充分考虑转码过程和CDN分发过程带来的影响。因此，如何从联合角度进行考虑转码和CDN分发，在充分保障观众端QoE的基础上，对视频直播服务进行成本优化是现有技术亟待解决的技术问题。

发明内容

鉴于此，本发明实施例提供了一种视频云转码及分发联合决策方法及系统，以消除或改善现有技术中存在的一个或更多个缺陷。

本发明的一个方面提供了一种视频云转码及分发联合决策方法，基于分布式云架构构建多云平台，所述多云平台包括多个用于视频转码和内容分发的云平台，每个所述云平台均预设有对应状态动作对的效用值和贪婪度，该方法包括以下步骤：

获取所述云平台的历史数据，所述历史数据包括观众端占比、视频转码种类、每个转码种类对应的转码模板的费用、观众端接收到的视频码率、每个观众端受到的转码延迟和分发延迟；

基于模板费用计算转码成本，基于所述视频码率计算流量成本，根据所述转码成本和流量成本得出成本函数；

基于观众端接收到的视频码率计算码率参数，基于每个观众端受到的转码延迟和分发延迟计算延迟参数，基于所述码率参数和延迟参数计算QoE函数；

所述云平台预设有多个约束条件，根据所述云平台当前违背的约束条件个数计算惩罚函数；

根据所述成本函数、QoE函数和惩罚函数计算所述云平台的奖励值；

获取所述云平台当前状态，根据所述云平台当前状态对应的多个贪婪度计算采用效用值方案的概率；

若采用效用值方案，则获取与当前状态的状态相同的所有状态动作对中效用值最大的状态动作对，采用该状态动作对；

根据当前采用的状态动作对和所述奖励值对当前采用的状态动作对的效用值根据Q-learning算法进行更新；

在第一时长内执行该状态动作对中的动作，计算云平台在第一时长后的状态动作对和奖励值，更新云平台在第一时长后的状态动作对对应的效用值。

采用上述方案，本申请每隔第一时长对奖励值进行更新，在大规模迭代后能够找到最佳的效用值，本申请的效用值通过奖励值进行更新，所述奖励值的计算基于成本函数和QoE函数，本方案综合考虑到了观众端QoE和成本优化，若采用效用值方案能够找到同一状态下效用值最大的状态动作对，效用值最大即表示观众端QoE和成本优化同时较好，保障观众端QoE较好的同时成本较低。

在本发明的一些实施方式中，该方法还包括步骤：若不采用效用值方案，则采用与当前状态的状态相同的所有状态动作对中的任一个。

在本发明的一些实施方式中，所述历史数据的总时长包括至少一个所述第一时长，所述多云平台接收主播端上传的视频，将视频传送至观众端，基于模板费用计算转码成本，根据如下公式：

Cost_tc(c,n,t)表示在当前时刻的前第一时长的t时间段内，主播端c在云平台n的转码成本；M_v(c,n,t)表示t时间段主播端c在云平台n的转码模板集合；p_tc(v,n)表示云平台n上转码模板v的费用单价；τ表示t时间段的时长。

在本发明的一些实施方式中，基于所述视频码率计算流量成本，根据如下公式：

Cost_bc(c,n,t)表示当前时刻的前第一时长t时间段内，主播端c在云平台n的流量成本；I(c,n,t)表示t时间段主播端c分配到云平台n的观众端集合；b(i,t)表示t时间段观众端i接收到的视频码率；p_bc(n)表示云平台n的流量单价；τ表示t时间段的时长。

在本发明的一些实施方式中，根据所述转码成本和流量成本得出成本函数的步骤包括：

分别计算所述转码成本和流量成本对应的转码总成本和流量总成本；

根据转码总成本和流量总成本计算系统总成本，根据系统总成本计算成本函数。

在本发明的一些实施方式中，分别计算所述转码成本和流量成本对应的转码总成本和流量总成本，根据如下公式：

Cost_tc(t)表示多云平台在t时间段的转码总成本；Cost_tc(c,n,t)表示在当前时刻的前第一时长的t时间段内，主播端c在云平台n的转码成本；C表示多云平台所有主播端的集合；N表示多云平台中的云平台的集合；

Cost_tc(t)表示多云平台在t时间段的流量总成本；Cost_tc(c,n,t)表示当前时刻的前第一时长t时间段内，主播端c在云平台n的流量成本。

在本发明的一些实施方式中，根据转码总成本和流量总成本计算系统总成本，根据系统总成本计算成本函数，根据如下公式：

Cost(t)＝Cost_tc(t)+Cost_bc(t)；

Cost(t)表示系统总成本；

f_c(t)表示成本函数的函数值；当前时刻之前的多个第一时长中每个第一时长均对应一个系统总成本，c_max和c_min分别表示当前时刻之前的多个第一时长中系统总成本的最大值和最小值。

在本发明的一些实施方式中，基于观众端接收到的视频码率计算码率参数，根据如下公式：

R(i,t)表示观众端i在t时间段的码率参数；b(i,t)表示t时间段观众端i接收到的视频码率；b_max和b_min分别表示所有观众端在t时间段接收到的最大码率和最小码率；g为常量。

在本发明的一些实施方式中，基于每个观众端受到的转码延迟和分发延迟计算延迟参数的步骤包括，

根据所述转码延迟和分发延迟计算总延迟，根据总延迟计算延迟参数。

在本发明的一些实施方式中，根据所述转码延迟和分发延迟计算总延迟，根据总延迟计算延迟参数，根据如下公式计算：

d(i,t)＝d_tc(i,t)+d_bc(i,t)；

d(i,t)表示观众端i在t时间段的总延迟；d_tc(i,t)表示观众端i在t时间段的转码延迟；d_bc(i,t)表示观众端i在t时间段的分发延迟；

D(i,t)表示观众端i在t时间段的延迟参数；b_max和b_min分别表示所有观众端在t时间段接收到的最大总延迟和最小总延迟。

在本发明的一些实施方式中，基于所述码率参数和延迟参数计算QoE函数，根据如下公式：

Q(i,t)＝k·D(i,t)+(1-k)·R(i,t)；

Q(i,t)表示观众端i在t时间段的QoE函数值；k为常量。

在本发明的一些实施方式中，根据所述成本函数、QoE函数和惩罚函数计算所述云平台的奖励值的步骤还包括，根据所述QoE函数计算平均QoE，基于成本函数、平均QoE和惩罚函数计算所述云平台的奖励值，

根据所述QoE函数计算平均QoE，根据如下公式：

f_e(t)表示平均QoE；V^t表示多云平台在t时间段所有观众端的集合；Q(i,t)表示观众端i在t时间段的QoE函数值。

在本发明的一些实施方式中，根据所述云平台当前违背的约束条件个数计算惩罚函数，根据如下公式：

f_p(t)表示惩罚函数的函数值；e表示任一个约束条件；β_e表示违反约束条件的具体量值；S表示违反约束常量；δ_e表示约束条件e是否被违反的参数，δ_e＝1表示约束条件e被违反了，δ_e＝0表示约束条件e没有被违反。

在本发明的一些实施方式中，所述约束条件包括：

约束一、

Q_target表示QoE阈值；t表示t时间段；T表示所述历史数据的总时长中多个所述第一时长对应的多个时间段；

在约束一中，β_e为常量，若存在f_e(t)小于Q_target，则违反约束一，若违反约束一则代入β_e。

约束二、

M_v(c,n,t)表示t时间段主播端c在云平台n的转码模板集合；V表示多云平台中所有转码模板的集合；

表示对于主播端c；

在约束二中，β_e为常量，若M_v(c,n,t)中存在不属于V中的转码模板，则违反约束二，若违反约束二则代入β_e；

约束三、

b_c(t)表示主播端上传的原始码率；v表示t时间段主播端c在云平台n的转码模板集合中的任一转码模板；b_s(v)表示转码模板v转码输出的码率值；

表示对于主播端c；

在约束三中，β_e为常量，若存在b_c(t)小于b_s(v)，则违反约束三，则违反约束三，若违反约束三则代入β_e；

约束四、

W(i)表示响应观众端i请求连接到的云平台；{1,2,…,N}表示N个云平台；

表示对于观众端i；

在约束四中，β_e为常量，若存在观众端i同时连接到多个云平台，则违反约束四，若违反约束四则代入β_e；

约束五、

x_n(c,t)表示在t时间段内与主播端c相连接的所有观众端中，连接至云平台n的观众端的占比；

表示对于主播端c；n∈N表示云平台n属于N个云平台中的任一个；

在约束五中，β_e为常量，若存在对于主播端c，分配到每个云平台的观众比例的总和不为1，则违反约束五，若违反约束五则代入β_e。

在本发明的一些实施方式中，基于成本函数、平均QoE和惩罚函数计算所述云平台的奖励值，根据如下公式：

表示云平台n在t时间段所获得的奖励值；C₁表示成本函数的权重参数；C₂表示平均QoE的权重参数。

在本发明的一些实施方式中，根据当前采用的状态动作对和所述奖励值对当前采用的状态动作对的效用值根据Q-learning算法进行更新，采用如下公式：

表示当前采用的状态动作对更新后的效用值；

表示当前采用的状态动作对的当前效用值；L(n,m)表示云平台n的奖励值受到的来自于云平台m的影响；α∈[0,1]代表学习率；

表示云平台n在t时间段所获得的奖励值；γ∈[0,1]表示强化学习中的折扣因子；

表示云平台在当前状态

在下一第一时长采用动作

后到达的状态；

表示状态

和动作

所对应状态动作对的效用值。

在本发明的一些实施方式中，云平台n的奖励值受到的来自于云平台m的影响，根据如下公式计算：

L(i,j)云平台n的奖励值受到的来自于云平台m的影响；C₃为常量；

表示云平台n在t时间段所获得的奖励值；

表示云平台m在t时间段所获得的奖励值；e为自然常数。

在本发明的一些实施方式中，所述方法的步骤还包括，根据每个云平台当前采用的状态动作对和所述奖励值对当前采用的状态动作对的效用值根据Q-learning算法进行更新，计算多云平台中所有云平台更新状态动作对后，更新的状态动作对的总效用值；

Q(a^t)表示多云平台中所有云平台更新状态动作对后，更新的状态动作对的总效用值；N表示多云平台中云平台的集合。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。

图1为本发明视频云转码及分发联合决策方法一种实施方式的示意图；

图2为本发明视频云转码及分发联合决策方法另一种实施方式的示意图；

图3为多云平台的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

如图1、3所示，本发明的一个方面提供了一种视频云转码及分发联合决策方法，基于分布式云架构构建多云平台，所述多云平台包括多个用于视频转码和内容分发的云平台，每个所述云平台均预设有对应状态动作对的效用值和贪婪度，该方法包括以下步骤：

在本发明的一些实施方式中，所述云平台对每个状态动作对均预设有贪婪度，所述云平台每隔第一时长重新选择状态动作对，每个状态动作对每次被选择均会降低该状态动作对的贪婪度。

步骤S100、获取所述云平台的历史数据，所述历史数据包括观众端占比、视频转码种类、每个转码种类对应的转码模板的费用、观众端接收到的视频码率、每个观众端受到的转码延迟和分发延迟；

在本发明的一些实施方式中，所述观众端占比可以为对于主播端c，在某个云平台的观众端的数量占总的与主播端c相连接观众端的数量的占比；所述视频转码种类可以为720p、1080p或者蓝光等；所述转码模板的费用可以为0.020元/分钟；所述转码延迟和分发延迟分别为主播端上传至多云平台的视频流在转码过程导致的延迟，和在进行CDN分发过程导致的延迟。

步骤S210、基于模板费用计算转码成本，基于所述视频码率计算流量成本，根据所述转码成本和流量成本得出成本函数；

步骤S220、基于观众端接收到的视频码率计算码率参数，基于每个观众端受到的转码延迟和分发延迟计算延迟参数，基于所述码率参数和延迟参数计算QoE函数；

步骤S230、所述云平台预设有多个约束条件，根据所述云平台当前违背的约束条件个数计算惩罚函数；

步骤S300、根据所述成本函数、QoE函数和惩罚函数计算所述云平台的奖励值；

步骤S400、获取所述云平台当前状态，根据所述云平台当前状态对应的多个贪婪度计算采用效用值方案的概率；

在本发明的一些实施方式中，根据所述云平台当前状态对应的多个贪婪度计算采用效用值方案的概率的步骤为：

抽取所有状态动作对中状态与当前状态相同的状态动作对，抽取上述每个状态动作对的贪婪度，计算贪婪度的平均值，采用效用值方案的概率为1-贪婪度的平均值；

若所有状态动作对中状态与当前状态相同的状态动作对的贪婪度分别为90％、85％和80％，则采用效用值方案的概率为1-85％＝15％。

步骤S410、若采用效用值方案，则获取与当前状态的状态相同的所有状态动作对中效用值最大的状态动作对，采用该状态动作对；

步骤S500、根据当前采用的状态动作对和所述奖励值对当前采用的状态动作对的效用值根据Q-learning算法进行更新；

所述云平台的所述状态可以为对于主播端c观众端占比5％，转码模板包括360p和720p，所述动作可以为增加观众端占比1％，转码模板增加1080p，状态为主播端c观众端占比5％，转码模板包括360p和720p采用增加观众端占比1％，转码模板增加1080p的动作后状态更改为对于主播端c观众端占比6％，转码模板包括360p、720p和1080p。

步骤S600、在第一时长内执行该状态动作对中的动作，计算云平台在第一时长后的状态动作对和奖励值，更新云平台在第一时长后的状态动作对对应的效用值。

如图2所示，在本发明的一些实施方式中，该方法还包括步骤：步骤S420、若不采用效用值方案，则采用与当前状态的状态相同的所有状态动作对中的任一个。

采用上述方案，若不采用效用值方案，则为随机选取与当前状态的状态相同的所有状态动作对中的任一个，在前期不采用效用值方案的概率较大，能够大范围搜索所有的状态动作对。

在本发明的一些实施方式中，由于根据所述云平台当前状态对应的多个贪婪度计算采用效用值方案的概率的步骤为：

抽取所有状态动作对中状态与当前状态相同的状态动作对，抽取上述每个状态动作对的贪婪度，计算贪婪度的平均值，采用效用值方案的概率为1-贪婪度的平均值。

每个状态动作对的每次被选择都会降低其贪婪度；

在最初阶段每个状态动作对的贪婪度都较高，因此会采用随机选取与当前状态的状态相同的所有状态动作对中的任一个，在前期可以探索不同的动作，依照到成本和体验度最优的动作，提高探索能力，避免快速陷入最优解导致探索度不够。

采用上述方案，云平台n的流量单价可以为0.5元/GB，τ表示t时间段的时长的单位可以为秒。

Cost_bc(t)表示多云平台在t时间段的流量总成本；Cost_bc(c,n,t)表示当前时刻的前第一时长t时间段内，主播端c在云平台n的流量成本。

Cost(t)＝Cost_tc(t)+Cost_bc(t)；

Cost(t)表示系统总成本；

所述系统总成本为多云平台的总成本。

在本发明的一些实施方式中，多云平台中连接有多个观众端每个观众端在t时间段均对应有一个码率参数，b_max和b_min分别表示多个码率参数中的最大码率和最小码率。

d(i,t)＝d_tc(i,t)+d_bc(i,t)；

Q(i,t)＝k·D(i,t)+(1-k)·R(i,t)；

Q(i,t)表示观众端i在t时间段的QoE函数值；k为常量。

采用上述方案，QoE函数表示观众体验，延迟和码率共同影响着观众的体验，融合延迟和码率计算QoE函数，提高对观众体验计算的全面性。

根据所述QoE函数计算平均QoE，根据如下公式：

在本发明的一些实施方式中，所述约束条件包括：

约束一、

Q_{tar get}表示QoE阈值；t表示t时间段；T表示所述历史数据的总时长中多个所述第一时长对应的多个时间段；

在约束一中，β_e为常量，若存在f_e(t)小于Q_{tar get}，则违反约束一，若违反约束一则代入β_e。

约束二、

表示对于主播端c；

约束三、

表示对于主播端c；

约束四、

表示对于观众端i；

约束五、

表示对于主播端c；n∈N表示云平台n属于N个云平台中的任一个。

采用上述方案，云平台在每次进行更新时，均能获取奖励值，且奖励值的计算综合考虑了成本、用户体验和违反约束条件的个数，每次更新都能逐渐完善云平台，多次更新后，提高云平台综合处理成本和用户体验对的能力。

表示当前采用的状态动作对更新后的效用值；

表示云平台在当前状态

在下一第一时长采用动作

后到达的状态；

表示状态

和动作

所对应状态动作对的效用值。

采用上述方案，本申请从采用强化学习算法，强化学习(ReinforcementLearning)是智能体(Agent)即本申请中的云平台，以“试错”的方式进行学习，通过与环境进行交互获得的奖励或者惩罚的行为，目标是使智能体获得最大奖励的习惯性行为。强化学习采用的是边获得样例边学习的方式，在获得样例之后更新自己的策略，利用当前的策略来指导下一步的行动，下一步的行动获得收益之后再更新策略，智能体依靠自身经历不断学习并获得知识，改进行动方案以适应环境。为了在多智能体系统中更好地完成学习任务，每个智能体通过与环境交互获取奖励值来改善自己的策略，多个智能体相互协作从而获得该环境下取得最大收益的行为策略。

强化学习的过程中，不断进行探索(exploration)和开发(exploitation)，exploration是指选择之前未执行过的动作action，从而探索更多的可能性；exploitation是指选择已执行过的action，从而对已知的action的模型进行完善。通过不断的探索和开发，最终智能体得到不同环境状态下取得最大收益的动作指导。

采用上述方案，首先，传统的Q-learning算法并没有考虑到多个云平台之间的相互影响，且没有综合考虑成本、用户体验和违反约束条件的个数，本申请综合考虑了上述两点，在保证用户体验的前提下，降低成本。

表示云平台n在t时间段所获得的奖励值；

表示云平台m在t时间段所获得的奖励值；e为自然常数。

现有技术中视频转码是指将已经压缩编码的视频流转换成另一种视频流，以适应不同的网络环境、终端设备。高质量的视频流，无论是直播还是点播的形式，都需要对视频流进行转码，以适应终端设备的特点，为观众提供较好的观看体验。目前，研究和应用实践中主要包含以下类型的转码需求：码率调整。高质量的视频通常使用较高的码率进行编码，但是，在视频流传输时较高的码率会占用较大的网络带宽，对视频流进行转码后，可以根据观众的可用带宽来调整码率。分辨率调整。空间分辨率表示视频的编码尺寸。然而，尺寸不一定与观众的设备的屏幕大小匹配。为了避免丢失内容，必须删除或合并原始视频的宏块(即缩小比例)，以产生更低空间分辨率的视频。编解码标准转换。视频压缩标准包括MPEG2、H.264和HEVC等。MPEG2被广泛用于DVD和视频广播，而HD或蓝光视频大多使用H.264编码。HEVC是最新、最有效的压缩标准。观众设备通常支持特定的编码标准，因此，需要将原始视频流转换为观众设备支持的编码标准。

视频转码技术主要应用于数字电视广播和数字媒体处理。随着互联网技术的快速发展，利用网络传输视频流时，如果带宽有限，可以将原始视频流转换成H.264的格式，用较小的带宽来进行传输，并且可以进一步利用利用视频转码降低视频流码率，使其能够适应网络的传输。视频服务商通常需要对大量的视频流进行转码操作，而视频转码属于资源消耗型操作，需要仔细考虑带来的成本变化。基于云计算服务构建的转码服务，改变了以往进行转码时需要购买、搭建、管理转码软硬件的高昂投入以及配置优化、转码参数适配等复杂性问题，借助云计算服务的弹性伸缩特性，可以按需提供转码能力，从而最大限度的满足业务转码需求、避免资源浪费，达到成本控制的目的。此外，云平台提供的转码服务包含管理控制台、服务API和软件开发工具包，可以通过他们管理、使用转码服务，也可以方便地将转码功能集成到自己的应用于和服务中。因此，越来越多的视频服务提供商选择使用公有云平台完成转码操作。

内容分发网络(Content Delivery Network，简称CDN)是建立并覆盖在承载网之上，由分布在不同区域的边缘节点服务器群组成的分布式网络。CDN应用广泛，支持多种行业、多种场景内容加速，例如：图片小文件、大文件下载、视音频点播、直播流媒体、全站加速、安全加速。简单来说，CDN就是要尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节，使内容传输的更快、更稳定。通过在网络各处放置节点服务器所构成的在现有的互联网基础之上的一层智能虚拟网络，CDN系统能够实时地根据网络流量和各节点的连接、负载状况以及到用户的距离和响应时间等综合信息进行调整，通过中心平台的负载均衡、内容分发、调度等功能模块，将用户的请求重新导向离用户最近的服务节点上。

最简单的CDN网络由一个DNS服务器和几台缓存服务器组成：当用户点击网站页面上的内容URL，经过本地DNS系统解析，DNS系统会最终将域名的解析权交给CNAME指向的CDN专用DNS服务器。CDN的DNS服务器将CDN的全局负载均衡设备IP地址返回用户。用户向CDN的全局负载均衡设备发起内容URL访问请求。CDN全局负载均衡设备根据用户IP地址，以及用户请求的内容URL，选择一台用户所属区域的区域负载均衡设备，告诉用户向这台设备发起请求。区域负载均衡设备会为用户选择一台合适的缓存服务器提供服务，选择的依据包括：根据用户IP地址，判断哪一台服务器距用户最近；根据用户所请求的URL中携带的内容名称，判断哪一台服务器上有用户所需内容；查询各个服务器当前的负载情况，判断哪一台服务器尚有服务能力。基于以上这些条件的综合分析之后，区域负载均衡设备会向全局负载均衡设备返回一台缓存服务器的IP地址。全局负载均衡设备把服务器的IP地址返回给用户。用户向缓存服务器发起请求，缓存服务器响应用户请求，将用户所需内容传送到用户终端。如果这台缓存服务器上并没有用户想要的内容，而区域均衡设备依然将它分配给了用户，那么这台服务器就要向它的上一级缓存服务器请求内容，直至追溯到网站的源服务器将内容拉到本地。

之前有研究者提出Livesmart架构，其充分考虑到直播过程中CDN性能的动态变化以及观众人数的动态变化，使用DNN神经网络基于动态转移模型对未来观众进行预测，采取峰值计费CDN分发成本进行计算，并兼顾了观众的QoE(体验质量)，对于CDN的分配进行了计算，达到了优化成本的CDN决策效果，但是在这个过程中并没有考虑转码因素带来的成本变化以及对于观众QoE的影响。

除此之外，之前的发明技术也提出过雾计算的模式来观测并优化转码成本的研究。其设置观测器和优化器针对于人群(大量多路媒体流)转码提出解决方案，重点针对转码进行成本优化和转码模式分析，但其计算方式与本申请不同，前期的探索度较低。

本申请从直播服务提供商的角度，综合考虑成本因素以及QoE指标，联合优化多云平台上的转码模板配置以及CDN分发策略，解决多云直播视频服务的成本优化问题，以期在保证观众QoE的基础上找到尽可能降低成本的转码与CDN分发联合决策。

如图3所示，主播端开启直播后，将直播视频流推送至云平台，通过系统监控模块收集到云平台转码和CDN分发相关信息，请求收集模块收集来自观众的请求信息，经过QoE管理、优化器模块后，最终将决策结果通过任务分配模块反馈给云平台并执行相应的操作。

多云环境下的直播视频分发管理平台包含直播创建、流接收、流转发、云转码、CDN分发、平台监控和优化决策模块等部分，主播发起的原始直播流被传输到CLS服务中的云平台提供的CDN上，如果有需要可以推送至其他云平台提供的CDN服务上，根据默认的转码配置对原始的视频流进行云端转码操作。为了保证观众的观看体验，需要在不同云平台上调整转码模板，同时避免成本浪费或者QoE下降。CDN的性能会影响观众的延迟。最终对观众的QoE产生很大影响。由于单个CDN有时会出现性能波动，因此通过多CDN进行视频分发，以帮助观众获得低延迟的视频流。平台监控部分能够对直播过程中的在线流信息、各云平台转码模板配置、CDN分发线路、在线人数等信息进行监控。请求收集部分能够实时收集观众请求，QoE管理部分对平台关键指标进行分析评估实时QoE。将请求信息和QoE信息输入优化器后，将每个云平台视为一个智能体，通过基于多智能体模型的强化学习对可能采取的决策进行探索，综合考虑决策过程中可能导致的QoE变化和成本变化，最终做出联合转码与CDN分发决策。转码和CDN分发决策通过任务分配部分反馈至云平台，并指导云平台做出相应的决策变化。

系统监控部分。在实际应用场景中，主播发起直播后需要对云平台的相关指标进行监控，包含各个云平台正在进行的转码以及CDN分发相关指标，以便后续在进行QoE评估时进行使用。

请求收集部分。请求收集部分用于收集来自观众端的请求，指明了观众对于哪个主播的观看请求，后续部分需要综合考虑该主播对应的各云平台转码任务分配和分发能力，做出相应决策。

QoE管理部分。在进行转码与CDN的联合决策时，我们的目标是在保证观众QoE的前提下，尽可能的降低成本。因此，在多云平台的基础上需要考虑成本模型和QoE模型。在这里，我们仔细设计了多云直播视频分发平台下的成本模型以及QoE模型，并进行约束描述。

利用公有云平台提供的转码与CDN服务，构建基于多云环境的直播视频分发平台。在充分考虑转码模板配置、CDN分发、QoE保障以及云服务成本等因素，设计并实现了多云平台下转码与CDN分发的联合决策，以期达到保证观众QoE的同时最小化云服务使用成本的目标。

与上述视频云转码及分发联合决策方法相应地，本发明还提供了一种视频云转码及分发联合决策系统，该系统包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置/系统实现如前所述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述视频云转码及分发联合决策方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。