CN114422826A

CN114422826A - 多媒体内容播放控制方法、装置、设备和介质

Info

Publication number: CN114422826A
Application number: CN202011172469.5A
Authority: CN
Inventors: 谭斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2022-04-29
Anticipated expiration: 2040-10-28
Also published as: CN114422826B

Abstract

本公开提供了一种多媒体内容播放控制方法、多媒体内容播放控制装置和设备、以及计算机可读存储介质。多媒体内容播放控制方法包括：确定多媒体内容从第一时间点到第二时间点的累计播放量；确定在第二时间点处给出停单命令的情况下在第二时间点之后产生的多媒体内容的估计播放量；在估计播放量与累计播放量的和大于或等于预定播放量阈值的情况下，在第二时间点处给出停单命令；以及确定多媒体内容在从第二时间点开始的预定时间段内的目标播放速度，并基于目标播放速度在预定时间段内控制多媒体内容的播放。

Description

多媒体内容播放控制方法、装置、设备和介质

技术领域

本公开涉及多媒体领域，并且具体地涉及一种多媒体内容播放控制方法、多媒体内容播放控制装置和设备、以及计算机可读存储介质。

背景技术

在多媒体领域中，当媒体方与客户签订合约之后，媒体方应当在约定时间段内向客户指定的用户群体播放约定量的多媒体内容，例如播放约定量的广告。通常，如果播放量不达标，媒体方需要向客户赔付违约金；如果播放量超出约定播放量，客户无需支付额外的费用，而媒体方却耗费了额外的媒体资源以及人力、物力成本。因此，理想情况是使多媒体内容的播放量恰好等于约定播放量。然而在实际操作中，由于多媒体内容播放系统的控制偏差，如果在观测到播放量达到约定播放量时才给出停止播放的命令(即停单命令)，会造成实际播放量超出约定播放量(称为超播)。因此，如何确定给出停单命令的合适时间点，并对多媒体内容的播放进行控制以使得最终产生的播放量尽可能等于约定播放量是需要解决的关键问题。

近年来，机器学习技术快速发展。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。机器学习技术给多媒体内容播放控制提供了新的思路。

发明内容

为了解决上述问题，本公开提供了一种多媒体内容播放控制方法、多媒体内容播放控制装置和设备、以及计算机可读存储介质。

根据本公开的一个方面，提供了一种多媒体内容播放控制方法，包括：确定所述多媒体内容从第一时间点到第二时间点的累计播放量；确定在所述第二时间点处给出停单命令的情况下在所述第二时间点之后产生的所述多媒体内容的估计播放量；在所述估计播放量与所述累计播放量的和大于或等于预定播放量阈值的情况下，在所述第二时间点处给出所述停单命令；以及确定所述多媒体内容在从所述第二时间点开始的预定时间段内的目标播放速度，并基于所述目标播放速度在所述预定时间段内控制所述多媒体内容的播放。

根据本公开的示例，确定所述多媒体内容在从所述第二时间点开始的预定时间段内的目标播放速度包括：基于所述累计播放量和所述预定播放量阈值，确定所述多媒体内容的剩余播放量；以及基于所述剩余播放量和所述预定时间段，确定所述目标播放速度。

根据本公开的示例，基于所述目标播放速度在所述预定时间段内控制所述多媒体内容的播放包括：在所述第二时间点处，初始化所述多媒体内容的匹配播放概率，并利用所述匹配播放概率控制所述多媒体内容的播放；以及对于所述预定时间段内的每个时间点，基于所述每个时间点处的播放速度和所述目标播放速度更新所述匹配播放概率，并利用更新后的匹配播放概率控制所述多媒体内容的播放。

根据本公开的示例，基于所述每个时间点处的播放速度和所述目标播放速度更新所述匹配播放概率包括：获取所述多媒体内容在所述每个时间点处的播放速度；确定所述播放速度与所述目标播放速度的误差；以及利用所述误差更新所述匹配播放概率。

根据本公开的示例，获取所述多媒体内容在所述时间点处的播放速度包括：获取所述多媒体内容在所述时间点处的第一累计播放量和在所述时间点的前一时间点处的第二累计播放量；基于所述第一累计播放量和第二累计播放量确定所述播放速度。

根据本公开的示例，基于所述目标播放速度控制所述多媒体内容的播放包括：利用反馈调节算法基于所述目标播放速度控制所述多媒体内容的播放，其中所述反馈调节算法包括比例项、积分项和微分项，并且其中，利用所述误差更新所述匹配播放概率包括：利用所述误差分别更新所述反馈调节算法的比例项、积分项和微分项；以及基于更新的比例项、积分项和微分项更新所述匹配播放概率。

根据本公开的示例，确定所述多媒体内容的估计播放量包括：将所述多媒体内容的订单特征、定向特征、播放特征和状态特征分别输入第一估计模型和第二估计模型；利用所述第一估计模型确定所述多媒体内容从所述第二时间点开始的第一估计播放量，并利用所述第二估计模型确定所述多媒体内容从所述第二时间点开始的第二估计播放量；以及基于所述第一估计播放量和所述第二估计播放量确定所述估计播放量。

根据本公开的示例，基于所述第一估计播放量和所述第二估计播放量确定所述估计播放量包括：对所述第一估计播放量和所述第二估计播放量进行加权平均，以获得所述估计播放量。

根据本公开的示例，所述第一估计模型和所述第二估计模型通过以下方法进行训练：获取训练数据集，所述训练数据集中的每个训练数据为给出停单命令的停单时间点处的数据，所述训练数据包括多媒体内容的订单特征、定向特征、播放特征和状态特征以及在所述停单时间点后产生的所述多媒体内容的停单后播放量，其中，所述停单后播放量是在所述停单时间点处给出停单命令之后产生的所述多媒体内容的播放量；对于训练数据集中的每个训练数据，将所述训练数据的订单特征、定向特征、播放特征和状态特征分别输入所述第一估计模型和所述第二估计模型，并确定从停单时间点开始所述训练数据的多媒体内容的估计播放量；以及通过利用每个训练数据的停单后播放量对估计播放量进行监督，来对所述第一估计模型和所述第二估计模型进行训练。

根据本公开的示例，所述第一估计模型和所述第二估计模型分别是深度神经网络和长期短记忆模型。

根据本公开的另一方面，提供了一种多媒体内容播放控制装置，所述装置包括：估计单元，被配置为确定所述多媒体内容从第一时间点到第二时间点的累计播放量，并确定在所述第二时间点处给出停单命令的情况下在所述第二时间点之后产生的所述多媒体内容的估计播放量；以及控制单元，被配置为在所述估计播放量与所述累计播放量的和大于或等于预定播放量阈值的情况下，在所述第二时间点处给出所述停单命令，以及确定所述多媒体内容在从所述第二时间点开始的预定时间段内的目标播放速度，并基于所述目标播放速度在所述预定时间段内控制所述多媒体内容的播放。

根据本公开的示例，所述控制单元还被配置为：基于所述累计播放量和所述预定播放量阈值，确定所述多媒体内容的剩余播放量；以及基于所述剩余播放量和所述预定时间段，确定所述目标播放速度。

根据本公开的示例，所述控制单元还被配置为：在所述第二时间点处，初始化所述多媒体内容的匹配播放概率，并利用所述匹配播放概率控制所述多媒体内容的播放；以及对于所述预定时间段内的每个时间点，基于所述每个时间点处的播放速度和所述目标播放速度更新所述匹配播放概率，并利用更新后的匹配播放概率控制所述多媒体内容的播放。

根据本公开的示例，所述控制单元还被配置为：获取所述多媒体内容在所述每个时间点处的播放速度；确定所述播放速度与所述目标播放速度的误差；以及利用所述误差更新所述匹配播放概率。

根据本公开的示例，所述控制单元还被配置为：获取所述多媒体内容在所述时间点处的第一累计播放量和在所述时间点的前一时间点处的第二累计播放量；基于所述第一累计播放量和第二累计播放量确定所述播放速度。

根据本公开的示例，所述控制单元还被配置为：利用反馈调节算法基于所述目标播放速度控制所述多媒体内容的播放，其中所述反馈调节算法包括比例项、积分项和微分项，并且其中，利用所述误差更新所述匹配播放概率包括：利用所述误差分别更新所述反馈调节算法的比例项、积分项和微分项；以及基于更新的比例项、积分项和微分项更新所述匹配播放概率。

根据本公开的示例，所述估计单元包括第一估计模型和第二估计模型，所述估计单元还被配置为：将所述多媒体内容的订单特征、定向特征、播放特征和状态特征分别输入第一估计模型和第二估计模型；利用所述第一估计模型确定所述多媒体内容从所述第二时间点开始的第一估计播放量，并利用所述第二估计模型确定所述多媒体内容从所述第二时间点开始的第二估计播放量；以及基于所述第一估计播放量和所述第二估计播放量确定所述估计播放量。

根据本公开的示例，所述估计单元还被配置为：对所述第一估计播放量和所述第二估计播放量进行加权平均，以获得所述估计播放量。

根据本公开的示例，其中，所述估计单元的第一估计模型和第二估计模型通过以下方法进行训练：获取训练数据集，所述训练数据集中的每个训练数据为给出停单命令的停单时间点处的数据，所述训练数据包括多媒体内容的订单特征、定向特征、播放特征和状态特征以及在所述停单时间点后产生的所述多媒体内容的停单后播放量，其中，所述停单后播放量是在所述停单时间点处给出停单命令之后产生的所述多媒体内容的播放量；对于训练数据集中的每个训练数据，将所述训练数据的订单特征、定向特征、播放特征和状态特征分别输入所述第一估计模型和所述第二估计模型，并确定从停单时间点开始所述训练数据的多媒体内容的估计播放量；以及通过利用每个训练数据的停单后播放量对估计播放量进行监督，来对所述第一估计模型和所述第二估计模型进行训练。

根据本公开的示例，其中，所述第一估计模型和所述第二估计模型分别是深度神经网络和长期短记忆模型。

根据本公开的另一方面，还提供了一种多媒体内容播放控制设备，包括：一个或多个处理器；和一个或多个存储器，其中所述存储器中存储有计算机可读代码，所述计算机可读代码在由所述一个或多个处理器运行时，使得所述一个或多个处理器执行上述各个方面中描述的多媒体内容播放控制方法。

根据本公开的另一方面，还提供了一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行上述各个方面中描述的多媒体内容播放控制方法。

根据本公开的另一方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序包括计算机可读指令，该计算机可读指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机可读指令，处理器执行该计算机可读指令，使得该计算机设备执行上述各个方面中描述的多媒体内容播放控制方法。

根据本公开上述各个方面的多媒体内容播放控制方法、多媒体内容播放控制装置和设备、以及计算机可读存储介质，通过实时估计多媒体内容在任意时间点处停单时可能产生的估计播放量，确定是否在当前时间点处给出停单命令，并且在给出停单命令后，基于目标播放速度对多媒体内容的播放进行控制，可以精准确定给出停单命令的恰当的时间点，并且在停单之后精细控制多媒体内容的播放，以确保在不会导致多媒体内容超播的情况下，使得多媒体内容能够在预定时间段内准确地达到预定播放阈值。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了根据本公开示例的多媒体内容播放系统的应用环境示意图；

图2A示出了根据本公开示例的某广告的24小时播放情况；

图2B示出了根据本公开另一示例的某广告的24小时播放情况；

图2C示出了根据本公开另一示例的某广告的24小时播放情况；

图3示出了根据本公开示例的多媒体内容的累计播放量曲线；

图4示出了用于根据本公开实施例的多媒体内容播放控制方法和装置的多媒体内容播放控制系统的示意图；

图5示出了根据本公开实施例的多媒体内容播放控制方法的流程图；

图6示出了根据本公开实施例的示例的多媒体内容播放控制方法的流程图；

图7示出了根据本公开实施例的示例用于多媒体内容播放控制的反馈调节算法的示意图；

图8示出了根据本公开实施例的示例的多媒体内容播放控制方法的流程图；

图9示出了根据本公开实施例的示例的第一估计模型和第二估计模型的训练方法的流程图；

图10示出了根据本公开实施例的示例的第一估计模型和第二估计模型的训练过程示意图；

图11示出了根据本公开实施例的示例的多媒体内容播放控制方法的结构框图；

图12示出了根据本公开实施例的多媒体内容播放控制装置的结构示意图；以及

图13示出了根据本公开实施例的示例性计算设备的架构的示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

在本公开中，多媒体内容可以是指通过文字、图片、声音、动画、影片等多种媒体形式呈现的内容。例如，本公开的多媒体内容可以是广告。如所公知的，广告是通过文字、图片、声音、动画、影片等各种媒体形式向用户传播的信息。例如，广告可以包括视频中的贴片广告、移动设备或各种程序启动时的闪屏广告、通过网络广告联盟投放的联盟广告等等。在下文中，可以以广告作为多媒体内容的示例来描述本公开的实施例，但本领域技术人员应当理解的是，本公开不限于此，本公开的多媒体内容也可以是指除了广告以外的其他多媒体内容。

首先参照图1描述多媒体内容播放系统的应用环境。如图1所示，多媒体内容播放系统可以设置在多媒体内容播放服务器110上，以向多个用户终端120提供多媒体内容播放，用户终端120例如可以是计算机、平板电脑、手机等终端。在媒体方与客户签订多媒体内容播放合约之后，多媒体内容播放系统可以生成多媒体内容播放订单，通过服务器110向多个用户终端120播放约定播放量的多媒体内容。播放订单例如可以包括客户指定的多媒体内容的约定播放量和播放版位(例如具体播放位置)等特征。当观测到多媒体内容的播放量达到约定播放量时，多媒体内容播放系统向服务器110发出停止播放的命令，即停单命令，以停止向用户终端120播放多媒体内容。在实际操作中，多媒体内容播放系统对多媒体内容播放的控制存在偏差，这种控制偏差例如可以是由于服务器的机器负载造成的系统延迟、数据流的延时、多媒体内容播放订单过多等因素导致的，使得从给出停单命令到多媒体内容在用户终端上停止播放之间存在延迟。

在多媒体内容的播放过程中，例如可以根据客户的约定播放天数和约定播放量确定每天的最大可播放量，或者称为每天的预定播放阈值，在每天的播放量达到当天的预定播放阈值时给出停单命令来指示停止当天的播放，从而确保最终的总播放量不超出约定播放量。然而，在实际操作中，如果给出停单命令的时间较晚，例如，在观测到多媒体内容的播放量达到预定播放阈值时才给出停单命令，会导致多媒体内容当天的实际播放量超出预定播放阈值，即造成了多媒体内容的超播。导致多媒体内容超播的因素有多种，下面简单介绍几种产生超播的情况。

在一种情况下，例如，由于多媒体内容播放控制系统的控制偏差，会使得观测到多媒体内容达到预定播放阈值的时间存在延迟，同时停单命令传达到线上并生效也存在延迟，在此期间，多媒体内容仍然在向用户播放，从而产生了额外的播放量，造成多媒体内容的超播。以图2A所示的某广告的播放情况为例，图2A示出了根据本公开示例的该广告某天24小时内的播放情况。如图2A所示，在约12点半处广告的累计播放量达到了当天的预定播放阈值，在此时给出了停单命令，然而由于系统延迟等因素，广告继续播放了一段时间，使得最终的累计播放量超出了预定播放阈值，造成广告超播。

在另一种情况下，例如，对于预定播放阈值较小的多媒体内容，在播放量邻近预定播放阈值时，播放量突然发生了跳变，也会造成播放量在短时间内的跳跃式超播。例如，对于视频中的商业贴片广告，如果特定用户群体在某一时间聚集性地大量点击该视频，就可能导致该广告的播放量跳变，从而使广告播放量跳跃式超播。以图2B所示的某广告的播放情况为例，图2B示出了根据本公开示例的该广告某天24小时的播放情况。如图2B所示，在约14点处，广告的累计播放量已达到预定播放量阈值，在此时给出了停单命令，但此时播放速度产生了较大的突变，使得累计播放量在短时间内迅速超出预定播放阈值，造成广告超播。

在另一种情况下，例如，为了使用户在离线时也能播放多媒体内容，可以在用户连接到网络时预先加载多媒体内容，并在断开网络时播放。这部分离线播放的多媒体内容难以受到在线播放系统的控制，从而造成多媒体内容的超播。以图2C所示的某广告的播放情况为例，图2C示出了根据本公开示例的该广告某天24小时的播放情况。如图2C所示，由于大量的预加载，该广告在0点到约7点半之间的密集时间段内不受控制地大量播放，使得广告的累计播放量很快超过预定播放阈值，造成广告超播。

为了避免发生超播，可以在播放量即将达到预定播放阈值时提前给出停单命令。然而，如果过早给出停单命令，播放速度快的多媒体内容可能会因为播放量跳变而超播，播放速度慢的多媒体内容的播放量则会出现拖尾和震荡，甚至会导致播放量缺量，即最终播放量无法达到预定播放阈值。因此，希望预测在某个时间点给出停单命令后可能产生的播放量，并据此判断是否应当在当前时间点处给出停单命令以避免超播。例如，图3示出了根据本公开示例的多媒体内容的累计播放量曲线，如图3所示，在约14点处进行预测，确定如果在该时间点处给出停单命令，预测累计播放量将超出预定播放阈值，则可以在该时间点处给出停单命令。在给出停单命令后，希望对多媒体内容的播放进行精确的控制，以使多媒体内容的播放量在预定时间段内准确达到预定播放阈值并且不会造成超播。有鉴于此，本公开提供了一种多媒体内容播放控制方法和装置。

如图4所示，用于根据本公开实施例的多媒体内容播放控制方法和装置的多媒体内容播放控制系统411可以设置在多媒体内容播放服务器410上。在本公开中，多媒体内容播放控制系统411可以利用基于机器学习训练的播放量估计模型来确定给出停单命令的合适的停单时间，并在给出停单命令后对通过线上播放平台412向各个用户终端420进行的多媒体内容播放进行控制。这里，线上播放平台412例如可以是播放贴片广告等的视频播放平台、播放联盟广告等的联盟网站、播放闪屏广告等的软件和设备等等。下面将描述根据本公开实施例的多媒体内容播放控制方法和装置的具体实施例。

首先，参照图5描述根据本公开实施例的多媒体内容播放控制方法。图5示出了根据本公开实施例的多媒体内容播放控制方法500的流程图。

如图5所示，在步骤S510中，确定多媒体内容从第一时间点到第二时间点的累计播放量。如上所述，多媒体内容可以是广告，例如贴片广告、联盟广告、闪屏广告等等，本公开对此不作具体限定。第一时间点和第二时间点可以是一个播放控制周期内的任意时间，并且第二时间点晚于第一时间点。例如，以天为周期对多媒体内容每天的播放进行控制的情况下，第一时间点和第二时间可以是某一天的任意时间点。例如，第一时间点可以是某一天的0点，第二时间点可以是0点后的任意时间点，例如当天的14点等等。又例如，以一星期为周期对多媒体内容每星期的播放进行控制的情况下，第一时间点和第二时间可以是某一星期的任意时间点，例如，第一时间点可以是周一0点，第二时间点可以是周一0点后的任意时间点，例如周五14点、周六14点等等。这里，本公开对第一时间点和第二时间点不作具体限定。

在步骤S520中，确定在第二时间点处给出停单命令的情况下，在第二时间点之后产生的多媒体内容的估计播放量。这里，多媒体内容的估计播放量例如是由于多媒体内容播放控制系统的控制偏差而产生的多媒体内容的播放量。多媒体内容播放控制系统的控制偏差例如可以是由于系统服务器的机器负载造成的系统延迟、数据流的延时、多媒体内容播放订单过多等因素导致的偏差。也就是说，假定在第二时间点处给出停单命令，或者说以第二时间点为候选停单时间点，估计给出停单命令后多媒体内容的播放量(可称为停单后播放量)。该估计播放量是由于多媒体内容播放控制系统的控制偏差而产生的，例如，系统延迟、数据流延迟等因素造成的控制偏差。例如，可以利用基于机器学习训练的播放量估计模型来预测得到该估计播放量。

接下来，在步骤S530中，基于在步骤S510中确定的累计播放量、在步骤S520中得到的估计播放量和预定播放量阈值，确定是否在第二时间点处给出停单命令，即确定第二时间点是否应为给出停单命令的实际停单时间点，并且，在估计播放量与累计播放量的和大于或等于预定播放量阈值的情况下，在第二时间点处给出停单命令。其中，预定播放量阈值可以是指在一个播放控制周期内多媒体内容的最大播放量。例如，播放控制周期为每天的情况下，可以根据客户的约定播放天数、约定播放量等约定条件确定每天的预定播放阈值。根据本公开实施例的示例，可以根据以下规则确定是否在第二时间点处给出停单命令：

其中，played表示从第一时间点到第二时间点的累计播放量，play_feature表示在第二时间点处给出停单命令的情况下多媒体内容的估计播放量，max_should_play表示预定播放阈值。

上述规则表示，如果在第二时间点处累计播放量和估计播放量的和大于或等于预定播放阈值，则确定在该第二时间点处给出停单命令，即确定作为候选停单时间点的第二时间点应为给出停单命令的实际停单时间点；否则，不给出停单命令，并可以继续对之后任意时间点处的停单后播放量进行估计，也就是说，可以以之后的任意时间点为更新的第二时间点/候选停单时间点，重复上述步骤S510至S530中，直到根据上述规则确定应当给出停单命令，则在更新的第二时间点处给出停单命令。

接下来，当在第二时间点处给出停单命令之后，在步骤S540中，确定多媒体内容在预定时间段内的目标播放速度，并基于目标播放速度控制多媒体内容的播放。也就是说，如果在上述步骤S530中确定应当在第二时间点处给出停单命令，则多媒体内容播放控制系统在第二时间点处给出停单命令，并从第二时间点开始对多媒体内容的播放进行控制，以在确保不发生超播的前提下使多媒体内容的播放量准确达到预定播放阈值。

下面参照图6对多媒体内容播放控制方法的步骤S540进行详细的描述。图6示出了根据本公开实施例的示例的多媒体内容播放控制方法500的流程图。如图6所示，步骤S540可以包括步骤S541和步骤S542。

在步骤S541中，确定多媒体内容在预定时间段内的目标播放速度。

根据本公开实施例的示例，在第二时间点处给出停单命令后，可以确定一个预定时间段，并在此预定时间段内精细控制多媒体内容的播放，直到播放量达到预定播放阈值。预定时间段可以根据客户需求、剩余播放量等等任意设置，例如，可以将预定时间段确定为10倍的系统延时，例如假定多媒体内容播放控制系统的系统延时为1分钟，则此时预定时间段为10分钟，即在给出停单命令后，控制多媒体内容在10分钟内达到预定播放阈值。应当理解的是，可以根据实际情况任意设置预定时间段，本公开对此不作具体限定。

根据本公开实施例的示例，可以基于第二时间点处的累计播放量和预定播放量阈值，确定多媒体内容的剩余播放量。例如，从预定播放量阈值中减去第二时间点处的累计播放量，则可以得到多媒体内容的剩余播放量。然后，基于剩余播放量和预定时间段，确定目标播放速度，并根据该目标播放速度在预定时间段内控制多媒体内容的播放。例如，可以将剩余播放量除以预定时间段得到的平均播放速度作为目标播放速度，此时预定时间段内的目标播放速度为恒定值。

上面描述了确定预定时间段内的目标播放速度的示例，但是本公开不限于此，也可以通过其他方法确定目标播放速度。例如，在已知一个播放控制周期内播放对象的数量的分布规律时，可以根据该分布规律确定每个时间点处的播放对象数量占整个周期内播放对象的总数的比例，然后根据该比例和预定播放阈值确定每个时间点处的应播放量，从而可以确定预定时间段内每个时间点处的目标播放速度。此时，预定时间段内的目标播放速度不是恒定的，而是随时间变化的变量。

确定了预定时间段内的目标播放速度之后，在步骤S542中，基于目标播放速度控制多媒体内容的播放。如图6所示，步骤S542可以进一步包括步骤S5421和步骤S5422。

首先，在步骤S5421中，根据本公开实施例的示例，可以在第二时间点处初始化多媒体内容的匹配播放概率。

这里，匹配播放概率是用于控制多媒体内容的播放的值，例如，匹配播放概率可以是0到1之间的值。具体地，客户常常会指定多媒体内容的定向播放对象，即指定只向满足定向条件的播放对象播放多媒体内容，例如，定向条件可以是“30岁以下男性人群”。当匹配到多媒体内容的播放对象(即满足多媒体内容的定向条件)发出播放请求时，可以通过诸如随机函数的方式生成一个服从0～1的均匀分布的随机数，如果随机数小于匹配播放概率，则不对该播放对象播放多媒体内容，如果随机数大于或等于匹配播放概率，则对该播放对象播放多媒体内容，从而，可以通过匹配播放概率控制多媒体内容的播放速度。例如，如果将匹配播放概率设定为0.9，当某一时间段内有1000个播放请求匹配到了该多媒体内容，多媒体内容在该时间段内会产生900次播放量，则使得多媒体内容的播放速度较快；如果将匹配播放概率设定为0.1，当某一时间段内有1000个播放请求匹配到了该多媒体内容，多媒体内容在该时间段内仅产生100次播放量，则使得多媒体内容的播放速度较慢。

在步骤S5421中，在第二时间点处初始化多媒体内容的匹配播放概率可以是指给匹配播放概率赋予一个接近于0的初始值，例如0.001，以相应地使多媒体内容的播放速度非常小，从而使得此时多媒体内容的播放量增长缓慢，以便于在接下来的步骤中通过持续调节播放速度来精细、平滑地控制多媒体内容的播放。此外，在一些情况下，如果客户指示尽快播完多媒体内容的约定播放量，在该步骤中，也可以在第二时间点处暂缓初始化操作，例如，延迟一定时间之后再初始化匹配播放概率，以使得多媒体内容在该延迟时间内先继续播放一定时间，再进行初始化和后续的播放控制操作，该延迟时间可以根据客户需求、剩余播放量等实际情况确定，本公开对此不作具体限定。

在步骤S5422中，对于预定时间段内的每个时间点，基于该每个时间点处的播放速度和目标播放速度更新匹配播放概率，并利用更新后的匹配播放概率控制多媒体内容的播放。具体地，可以通过将多媒体内容在预定时间段内的每个时间点处的播放速度与目标播放速度进行比较，并根据比较结果来更新匹配播放速率，以逐步调节多媒体内容的播放速度，使其尽可能等于目标播放速度。

根据本公开实施例的示例，对于预定时间段内的每个时间点，可以通过获取该时间点与相邻时间点处的累计播放量来确定多媒体内容在该时间点处的播放速度。例如，可以获取多媒体内容在该时间点处的第一累计播放量和在该时间点的前一时间点处的第二累计播放量，然后基于第一累计播放量和第二累计播放量确定播放速度，例如，通过将第一累计播放量和第二累计播放量的差除以二者的时间差来得到该时间点处的播放速度。

对于预定时间段内的每个时间点，在获取多媒体内容在该时间点处的播放速度之后，可以确定该播放速度与目标播放速度之间的误差，然后利用该误差来更新匹配播放速率，重复该过程，以不断缩小多媒体内容的播放速度与目标播放速度之间的误差，从而使得多媒体内容的播放速度持续逼近目标播放速度，直到多媒体内容的累计播放量等于预定播放阈值，或者预定时间段终止。

根据本公开实施例的示例，可以利用反馈调节算法基于目标播放速度来控制多媒体内容的播放，即利用反馈调节算法更新匹配播放概率，从而控制多媒体内容的播放。反馈调节算法例如可以是PID(Proportion Integral Differential)算法，但是本公开不限于此，也可以采用其他反馈调节算法。下面以PID算法为例对本公开的反馈调节算法进行说明。

下面参照图7和表1描述利用反馈调节算法控制多媒体内容的播放的方法。图7示出了根据本公开实施例的示例用于多媒体内容播放控制的反馈调节算法的示意图。表1示出了根据本公开实施例的示例的利用PID算法进行多媒体内容播放控制的步骤。

表1

如图7所示，反馈调节算法可以包括比例项P_item(Proportion)、积分项I_item(Integral)和微分项D_item(Differential)。在PID算法中，比例项P_item可以用于控制系统的动态响应速度，使控制对象向减小误差的方向变化；积分项I_item可以用于消除稳态误差，提高系统的稳定性；微分项D_item可以用于减小超调量，克服振荡，使系统趋于稳定。在该示例中，可以将PID算法的目标值设定为在上述步骤S540中确定的目标播放速度Vs，并且令PID算法的输入值E为当前播放速度与目标播放速度之间的差值，且输出值R为匹配播放概率，从而利用PID算法对匹配播放概率进行调节。

首先，对比例项P_item的系数P、积分项I_item及其系数I、微分项D_item的系数D、初始误差E0、匹配播放概率R及其更新步长S分别进行初始化，如表1中的步骤①所示。如上所述，可以将匹配播放概率R初始化为接近于0的值，例如0.001，但是本公开不限于此，也可以给R赋予其他合适的初始值。另外，例如，可以分别设置系数P、I、D的值为P＝0.5，I＝0.05，D＝0.01，设置积分项I_item的初始值和初始误差E0均为0，并设置更新步长的初始值为S＝0.5，如表1所示。容易理解的是，P、I、D、初始误差等的值并不限于这里作为示例的具体数值，而是可以根据实际需求设置任意合适的数值。

然后，在步骤②中，对于预定时间段的每个时间点t，获取多媒体内容在该时间点t处的第一累计播放量play_1和在该时间点之前的时间点t’处的第二累计播放量play_2，并如表1所示计算该时间点t处的播放速度V。

在步骤③中，计算时间点t处的播放速度V与目标播放速度Vs之间的误差，并更新误差E，即令E＝V-Vs。

在步骤④中，基于更新后的误差来分别更新比例项P_item、积分项I_item和微分项D_item。具体地，利用更新后的误差来更新积分项I_item，并利用更新后的误差与初始误差之间的差值来分别更新比例项P_item和微分项D_item，如表1所示。

在步骤⑤中，利用更新后的比例项P_item、积分项I_item和微分项D_item来更新匹配播放概率R，并通过更新后的匹配播放概率来控制多媒体内容的播放。

然后，在步骤⑥中，跳转回步骤②。即，再次进行上述步骤②至⑤，获取时间点t+1处的播放速度，计算播放速度与目标播放速度之间的误差，更新误差，更新比例项P_item、积分项I_item和微分项D_item，并更新匹配播放概率R。重复该过程，持续调节多媒体内容的播放速度，使得播放速度无限接近于目标播放速度，直到多媒体内容的累计播放量等于预定播放阈值，或者预定时间段终止。

上面以PID算法为例描述了利用反馈调节算法控制给出停单命令之后多媒体内容的播放，使得在给出停单命令之后，能够在预定时间段内平滑、可控地使多媒体内容的播放量达到预定播放阈值，而不会导致超播，从而实现对多媒体内容播放的精确控制。

下面参照图8描述在上述步骤S520中估计多媒体内容从第二时间点开始的估计播放量的具体方法。图8示出了根据本公开实施例的示例的多媒体内容播放控制方法500的流程图。

根据本公开实施例的示例，可以使用基于机器学习训练的播放量估计模型来进行播放量估计，例如，可以使用长期短记忆网络LSTM(Long Short-Term Memory)。LSTM是一种时间循环神经网络，能够学习长期的规律，因而，可以使用利用多媒体内容的长期播放样本数据训练的LSTM模型来进行播放量估计，从而确定给出停单命令的停单时间。然而，由于同一多媒体内容每天仅产生一组播放数据，即初期训练样本不足，并且LSTM模型比较复杂，容易过拟合，泛化性能较差，因此，仅仅使用LSTM模型难以得到非常准确的播放量估计。

根据本公开实施例的示例，考虑利用集成学习思想来优化播放量估计。集成学习是一种机器学习的方法，通过构建并组合多个机器学习模型，来获得比单一模型更卓越的泛化性能。例如，装袋(Bagging)算法即是一种集成学习方法，其可以通过对多个机器学习模型的结果进行加权平均、取多数票等方式来得到最终结果。在根据本公开实施例的该示例中，可以使用利用集成学习方法训练的多个估计模型来进行播放量估计，例如第一估计模型和第二估计模型。需要说明的是，虽然在该示例中使用了两个估计模型进行播放量估计，但本公开不限于此，也可以使用更多个估计模型。这里，第一估计模型和第二估计模型例如可以分别是深度神经网络DNN(Deep Neural Networks)和LSTM(Long Short-TermMemory)，但是本公开不限于此，第一估计模型和第二估计模型也可以采用其他类型的机器学习模型。

在该示例中，假设在第二时间点处给出停单命令，可以利用训练好的第一估计模型和第二估计模型来确定由于多媒体内容播放控制系统的控制偏差而产生的多媒体内容的估计播放量。如图8所示，步骤S520可以进一步包括步骤S521、S522和S533。

在步骤S521中，将多媒体内容的订单特征、定向特征、播放特征和状态特征分别输入到第一估计模型和第二估计模型。其中，订单特征是指客户指定的多媒体内容的约定播放量和播放版位(例如具体播放位置)等等；定向特征是指多媒体内容的定向播放对象的特征，例如可以包括播放对象的性别、年龄、地域等等；播放特征是指作为候选停单时间点的第二时间点处的多媒体内容的累计播放量、播放速度等等；状态特征是指在第二时间点之前多媒体内容播放速度的波动情况，例如可以包括播放速度是否出现波动、出现波动的时间点、出现波动的时间点处的播放速度等等。

在步骤S522中，根据多媒体内容的上述订单特征、定向特征、播放特征和状态特征，利用第一估计模型确定多媒体内容从第二时间点开始的第一估计播放量，并且利用第二估计模型确定多媒体内容从第二时间点开始的第二估计播放量。

在步骤S523中，基于第一估计播放量和第二估计播放量确定估计播放量。例如，对于利用加权平均的Bagging算法训练的第一估计模型和第二估计模型，可以根据下式(2)对第一估计播放量和第二估计播放量进行加权平均，以获得最终的估计播放量。

play_feature＝play_feature_1*w1+play_feature_2*w2 (2)

其中，play_feature_1和play_feature_2分别表示第一估计播放量和第二估计播放量；w1和w2分别表示第一估计播放量和第二估计播放量的权重，其具体数值可以在第一估计模型和第二估计模型的训练过程中进行训练调整，例如，在第一估计模型和第二估计模型分别为DNN和LSTM时，可以分别为0.7和0.3，但本公开不限于此，w1和w2也可以选取其他合适的数值；play_feature表示最终输出的如果在第二时间点处给出停单命令多媒体内容的估计播放量。

下面参照图9和图10描述第一估计模型和第二估计模型的训练方法。图9示出了根据本公开实施例的示例的第一估计模型和第二估计模型的训练方法900的流程图。图10示出了根据本公开实施例的示例的第一估计模型和第二估计模型的训练过程示意图。例如，可以采用如上所述的集成学习中的Bagging算法来对第一估计模型和第二估计模型进行训练。

如图9所示，在步骤S910中，首先获取训练数据集。训练数据集中的每个训练数据为停单时间点处的数据。例如，在以天为播放控制周期的情况下，某个训练数据可以是某个多媒体内容某一天的停单时间点处的播放数据。训练数据集可以来自于多媒体内容的历史播放数据，例如多媒体内容每天的播放数据；也可以是从线上播放平台实时获取的实时播放数据，例如多媒体内容的当前分钟级、甚至秒级的播放数据；或者可以是这二者的组合。训练数据可以包括多媒体内容的订单特征、定向特征、播放特征和状态特征，以及在停单时间点后产生的该多媒体内容的停单后播放量。这里，训练数据的订单特征、定向特征和状态特征与上文用于播放量估计的多媒体内容的订单特征、定向特征和状态特征类似，但略有不同的是，训练数据的播放特征是指停单时间点的播放量和播放速度。另外，如上所述，停单后播放量是在停单时间点处给出停单命令后由于多媒体内容播放控制系统的控制偏差而产生的多媒体内容的播放量。

在步骤S920中，对于训练数据集中的每个训练数据，将训练数据的订单特征、定向特征、播放特征和状态特征分别输入第一估计模型和第二估计模型。可以将相同的训练数据分别输入到第一估计模型和第二估计模型中。或者，也可以分别给第一估计模型和第二估计模型输入不同的训练数据，以充分利用不同模型的特点。例如，在第一估计模型和第二估计模型分别是DNN和LSTM的情况下，可以将从实时播放数据获得的训练数据输入DNN模型，并将从历史播放数据获得的训练数据输入LSTM模型，以充分利用DNN模型的深度预测特点和LSTM的长期记忆特点。然后，利用第一估计模型和第二估计模型分别确定从停单时间点开始该训练数据的多媒体内容的估计播放量，以生成第一估计播放量和第二估计播放量。在采用Bagging算法中的加权平均的情况下，例如可以利用上述等式(2)来对第一估计播放量和第二估计播放量进行加权平均，如图10所示，以获得从停单时间点开始该训练数据的多媒体内容的估计播放量。

然后，在步骤S930中，可以通过利用每个训练数据的停单后播放量对估计播放量进行监督，来对第一估计模型和第二估计模型进行训练，如图10所示。例如，可以计算每个训练数据的停单后播放量和估计播放量的误差，通过使误差最小来对第一估计模型和第二估计模型进行训练。

上面参照图8至图10描述了利用第一估计模型和第二估计模型进行播放量估计的方法，以及第一估计模型和第二估计模型的训练方法。在根据本公开的实施例中，通过利用基于集成学习方法训练的第一估计模型和第二估计模型，能够准确地进行播放量估计，从而确定给出停单命令的最佳时间点，以使得能够在停单后对多媒体内容的播放进行精确控制，使得多媒体内容的播放量在不超播的情况下达到预定播放阈值。

为了对根据本公开实施例的多媒体内容播放控制方法有更清晰的认识，下面参照图11对多媒体内容播放控制方法的整体架构进行描述。

图11示出了根据本公开实施例的示例的多媒体内容播放控制方法的结构框图。如图11所示，在1110处，从线上播放平台获取第一时间点到第二时间点的累计播放量，如上所述，第一时间点和第二时间点可以为一个播放控制周期内的任意时间点，并且第二时间点在第一时间点之后。在1120处，以第二时间点为候选停单时间点，根据输入的多媒体内容的订单特征、定向特征、播放特征和状态特征，利用第一估计模型和第二估计模型进行播放量估计，以得到在第二时间点处给出停单命令的情况下由于系统的控制偏差而产生的估计播放量。其中，多媒体内容的播放特征，诸如第二时间点处的多媒体内容的累计播放量、播放速度等，以及多媒体内容的状态特征，诸如第二时间点之前多媒体内容播放速度的波动情况等，可以从线上播放平台的实时播放数据获得。在1130处，根据累计播放量、估计播放量和预定播放阈值，确定是否在第二时间点处给出停单命令。如果累计播放量和估计播放量的和大于或等于预定播放阈值，则确定在第二时间点处给出停单命令，则进入反馈调节环节1140，以对多媒体内容的播放进行控制；如果累计播放量和估计播放量的和小于预定播放阈值。则在第二时间点处暂不给出停单命令，而是以新的时间点为更新的第二时间点，重复1110和1120的操作，直到确定在更新的第二时间点处应当给出停单命令。在1130处给出停单命令后，在1140处，可以进行订单分类决策，即根据播放订单的类型决定是否立即开始对多媒体内容的播放进行反馈调节。例如，可以根据多媒体内容的客户需求来决定是否立即启动反馈调节，如果客户要求平滑播放，即平滑、缓慢地播放完多媒体内容的剩余播放量，则立即启动反馈调节，在第二时间点处对多媒体内容的匹配播放概率进行初始化；如果客户要求尽快播放完多媒体内容的剩余播放量，则可以延迟一定时间再启动反馈调节。如上所述，可以利用诸如PID的反馈调节算法对匹配播放概率进行调节，例如，根据线上播放平台实施反馈的当前播放速度以及目标播放速度来对匹配播放概率进行调节，并利用匹配播放概率控制线上播放平台上多媒体内容的播放速度，从而精准控制多媒体内容的播放量在不超播的情况下达到预定播放阈值。

以上结合图5至图11描述了根据本公开实施例的多媒体内容播放控制方法，通过实时估计多媒体内容在任意时间点处停单时可能产生的估计播放量，确定是否在当前时间点处给出停单命令，并且在给出停单命令后，基于目标播放速度对多媒体内容的播放进行控制，可以精准确定给出停单命令的恰当的时间点，并且在停单之后精细控制多媒体内容的播放，以确保在不会导致多媒体内容超播的情况下，使得多媒体内容能够在预定时间段内准确地达到预定播放阈值。

下面参照图12描述根据本公开实施例的多媒体内容播放控制装置。图12示出了根据本公开实施例的多媒体内容播放控制装置1200的结构示意图。由于多媒体内容播放控制装置1200与上文结合图5描述的多媒体内容播放控制方法500的细节相同，因此在这里为了简单起见，省略对相同内容的详细描述。如图12所示，多媒体内容播放控制装置1200包括估计单元1210和控制单元1220。除了这两个个单元以外，多媒体内容播放控制装置1200还可以包括其他部件，然而，由于这些部件与本申请实施例的内容无关，因此在这里省略其图示和描述。

估计单元1210被配置为确定多媒体内容从第一时间点到第二时间点的累计播放量。第一时间点和第二时间点可以是一个播放控制周期内的任意时间，并且第二时间点晚于第一时间点。例如，以天为周期对多媒体内容每天的播放进行控制的情况下，第一时间点和第二时间可以是某一天的任意时间点。例如，第一时间点可以是某一天的0点，第二时间点可以是0点后的任意时间点，例如当天的14点等等。又例如，以一星期为周期对多媒体内容每星期的播放进行控制的情况下，第一时间点和第二时间可以是某一星期的任意时间点，例如，第一时间点可以是周一0点，第二时间点可以是周一0点后的任意时间点，例如周五14点、周六14点等等。这里，本公开对第一时间点和第二时间点不作具体限定。

之后，估计单元1210确定在第二时间点处给出停单命令的情况下，在第二时间点之后产生的多媒体内容的估计播放量。这里，多媒体内容的估计播放量例如是由于多媒体内容播放控制系统的控制偏差而产生的多媒体内容的估计播放量。也就是说，假定在第二时间点处给出停单命令，估计给出停单命令后多媒体内容的播放量(可称为停单后播放量)。该估计播放量是由于多媒体内容播放控制系统的控制偏差而产生的，例如，系统延迟、数据流延迟等因素造成的控制偏差。

根据本公开实施例的示例，估计单元1210例如可以包括利用集成学习方法训练的多个估计模型来进行播放量估计，例如包括第一估计模型和第二估计模型。需要说明的是，虽然在该示例中估计单元1210包括两个估计模型，但本公开不限于此，估计单元1210也可以包括更多个估计模型。这里，第一估计模型和第二估计模型例如可以分别是深度神经网络DNN(Deep Neural Networks)和LSTM(Long Short-Term Memory)，但是本公开不限于此，第一估计模型和第二估计模型也可以采用其他类型的机器学习模型。

在该示例中，假设在第二时间点处给出停单命令，可以利用估计单元1210的训练好的第一估计模型和第二估计模型来确定由于多媒体内容播放控制系统的控制偏差而产生的多媒体内容的估计播放量。

首先，将多媒体内容的订单特征、定向特征、播放特征和状态特征分别输入到估计单元1210的第一估计模型和第二估计模型。其中，订单特征是指客户指定的多媒体内容的约定播放量和播放版位(例如具体播放位置)等等；定向特征是指多媒体内容的定向播放对象的特征，例如可以包括播放对象的性别、年龄、地域等等；播放特征是指作为候选停单时间点的第二时间点处的多媒体内容的累计播放量、播放速度等等；状态特征是指在第二时间点之前多媒体内容播放速度的波动情况，例如可以包括播放速度是否出现波动、出现波动的时间点、出现波动的时间点处的播放速度等等。

然后，估计单元1210根据多媒体内容的上述订单特征、定向特征、播放特征和状态特征，利用第一估计模型确定多媒体内容从第二时间点开始的第一估计播放量，并且利用第二估计模型确定多媒体内容从第二时间点开始的第二估计播放量。

然后，估计单元1210基于第一估计播放量和第二估计播放量确定估计播放量。例如，对于利用加权平均的Bagging算法进行训练的第一估计模型和第二估计模型，估计单元1210可以根据上式(2)对第一估计播放量和第二估计播放量进行加权平均，以获得最终的估计播放量。

控制单元1220被配置为基于估计单元1210确定的累计播放量、估计播放量和预定播放量阈值，确定是否在第二时间点处给出停单命令。其中，预定播放量阈值可以是指在一个播放控制周期内多媒体内容的最大播放量。例如，播放控制周期为每天的情况下，可以根据客户的约定播放天数、约定播放量等约定条件确定每天的预定播放阈值。例如，可以根据上述规则(1)确定是否在第二时间点处给出停单命令：如果在第二时间点处累计播放量和估计播放量的和大于或等于预定播放阈值，则确定在该第二时间点处给出停单命令；否则，不给出停单命令，并可以继续对之后任意时间点处的停单后播放量进行估计，也就是说，可以以之后的任意时间点为更新的第二时间点，重复上述过程，直到根据上述规则确定应当给出停单命令，则在更新的第二时间点处给出停单命令。

如果确定在第二时间点处给出停单命令，则控制单元1220确定多媒体内容在预定时间段内的目标播放速度，并基于目标播放速度控制多媒体内容的播放。也就是说，如果确定应当在第二时间点处给出停单命令，则多媒体内容播放控制系统在第二时间点处给出停单命令，并从第二时间点开始对多媒体内容的播放进行控制，以在确保不发生超播的前提下使多媒体内容的播放量准确达到预定播放阈值。

根据本公开实施例的示例，控制单元1220可以被配置为基于第二时间点处的累计播放量和预定播放量阈值，确定多媒体内容的剩余播放量。例如，从预定播放量阈值中减去第二时间点处的累计播放量，则可以得到多媒体内容的剩余播放量。然后，控制单元1220基于剩余播放量和预定时间段，确定目标播放速度，并根据该目标播放速度在预定时间段内控制多媒体内容的播放。例如，可以将剩余播放量除以预定时间段得到的平均播放速度作为目标播放速度，此时预定时间段内的目标播放速度为恒定值。

上面描述了确定预定时间段内的目标播放速度的示例，但是本公开不限于此，也可以通过其他方法确定剩余播放量和目标播放速度。例如，在已知一个播放控制周期内播放对象的数量的分布规律时，可以根据该分布规律确定每个时间点处的播放对象数量占整个周期内播放对象的总数的比例，然后根据该比例和预定播放阈值确定每个时间点处的应播放量，从而可以确定预定时间段内每个时间点处的目标播放速度。此时，预定时间段内的目标播放速度不是恒定的，而是随时间变化的变量。

根据本公开实施例的示例，控制单元1220还可以被配置为在第二时间点处初始化多媒体内容的匹配播放概率；对于预定时间段内的每个时间点，基于该时间点处的播放速度更新匹配播放概率，并利用更新后的匹配播放概率控制多媒体内容的播放。

具体地，在第二时间点处初始化多媒体内容的匹配播放概率可以是指给匹配播放概率赋予一个接近于0的初始值，例如0.001，以相应地使多媒体内容的播放速度非常小，从而使得此时多媒体内容的播放量增长缓慢，以便于在接下来的步骤中通过持续调节播放速度来精细、平滑地控制多媒体内容的播放。此外，在一些情况下，如果客户指示尽快播完多媒体内容的约定播放量，在该步骤中，也可以在第二时间点处暂缓初始化操作，例如，延迟一定时间之后再初始化匹配播放概率，以使得多媒体内容在该延迟时间内先继续播放一定时间，再进行初始化和后续的播放控制操作，该延迟时间可以根据客户需求、剩余播放量等实际情况确定。然后，可以通过将多媒体内容在预定时间段内的每个时间点处的播放速度与目标播放速度进行比较，并根据比较结果来更新匹配播放速率，以逐步调节多媒体内容的播放速度，使其尽可能等于目标播放速度。

根据本公开实施例的示例，控制单元1220还可以被配置为利用反馈调节算法基于目标播放速度来控制多媒体内容的播放，即利用反馈调节算法更新匹配播放概率，从而控制多媒体内容的播放。反馈调节算法例如可以是PID算法，但是本公开不限于此，也可以采用其他反馈调节算法。

如图7所示，反馈调节算法可以包括比例项P_item(Proportion)、积分项I_item(Integral)和微分项D_item(Differential)。在该示例中，可以将PID算法的目标值Vs设定为目标播放速度，并且令PID算法的输出值R为匹配播放概率，从而利用PID算法对匹配播放概率进行调节。控制单元1220在确定播放速度与目标播放速度之间的误差之后，可以利用该误差分别更新反馈调节算法的比例项、积分项和微分项，并基于更新的比例项、积分项和微分项来更新匹配播放概率，从而利用更新的匹配播放概率来调节多媒体内容的播放速度。控制单元1220利用反馈调节算法持续调节多媒体内容的播放速度，使得播放速度无限接近于目标播放速度，直到多媒体内容的累计播放量等于预定播放阈值，或者预定时间段终止。由于反馈调节算法与上文参照图7和表1描述的细节相同，因此这里为了简单起见，省略对相同内容的详细描述。

根据本公开实施例的示例，多媒体内容播放控制装置1200的估计单元1210的第一估计模型和第二估计模型可以通过以下方法进行训练：获取训练数据集，训练数据集中的每个训练数据为给出停单命令的停单时间点处的数据，训练数据包括多媒体内容的订单特征、定向特征、播放特征和状态特征以及在停单时间点后产生的多媒体内容的停单后播放量，其中，停单后播放量是在停单时间点处给出停单命令后由于多媒体内容播放控制系统的控制偏差而产生的多媒体内容的播放量；对于训练数据集中的每个训练数据，将训练数据的订单特征、定向特征、播放特征和状态特征分别输入第一估计模型和第二估计模型，并估计从停单时间点开始训练数据的多媒体内容的估计播放量；以及通过利用每个训练数据的停单后播放量对估计播放量进行监督，来对第一估计模型和第二估计模型进行训练。这里，由于估计单元1210的第一估计模型和第二估计模型的训练方法与上文参照图9描述的训练方法900的细节相同，因此这里为了简单起见，省略对相同内容的详细描述。

以上描述了根据本公开实施例的多媒体内容播放控制装置，通过实时估计多媒体内容在任意时间点处停单时可能产生的估计播放量，确定是否在当前时间点处给出停单命令，并且在给出停单命令后，基于目标播放速度对多媒体内容的播放进行控制，可以精准地确定给出停单命令的恰当的时间点，并且在停单之后精细控制多媒体内容的播放，以确保在不会导致多媒体内容超播的情况下，使得多媒体内容能够在预定时间段内准确地达到预定播放阈值。

此外，根据本申请实施例的设备(例如，多媒体内容播放控制设备等)也可以借助于图13所示的示例性计算设备的架构来实现。图13示出了根据本公开实施例的示例性计算设备的架构的示意图。如图13所示，计算设备1300可以包括总线1310、一个或多个CPU1320、只读存储器(ROM)1330、随机存取存储器(RAM)1340、连接到网络的通信端口1350、输入/输出组件1360、硬盘1370等。计算设备1300中的存储设备，例如ROM 1330或硬盘1370可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备1300还可以包括用户界面1380。当然，图13所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图13示出的计算设备中的一个或多个组件。

本申请的实施例也可以被实现为计算机可读存储介质。根据本申请实施例的计算机可读存储介质上存储有计算机可读指令。当计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本申请实施例的多媒体内容播放控制方法。计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

根据本申请的实施例，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序包括计算机可读指令，该计算机可读指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机可读指令，处理器执行该计算机可读指令，使得该计算机设备执行上述各个实施例中描述的多媒体内容播放控制方法。

本领域技术人员能够理解，本申请所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

此外，如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

此外，本申请中使用了流程图用来说明根据本申请实施例的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作叠加到这些过程中，或从这些过程移除某一步或数步操作。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本申请所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上对本申请进行了详细说明，但对于本领域技术人员而言，显然，本申请并非限定于本说明书中说明的实施方式。本申请在不脱离由权利要求书的记载所确定的本申请的宗旨和范围的前提下，可以作为修改和变更方式来实施。因此，本说明书的记载是以示例说明为目的，对本申请而言并非具有任何限制性的意义。

Claims

1.一种多媒体内容播放控制方法，包括：

确定所述多媒体内容从第一时间点到第二时间点的累计播放量；

确定在所述第二时间点处给出停单命令的情况下在所述第二时间点之后产生的所述多媒体内容的估计播放量；

在所述估计播放量与所述累计播放量的和大于或等于预定播放量阈值的情况下，在所述第二时间点处给出所述停单命令；以及

确定所述多媒体内容在从所述第二时间点开始的预定时间段内的目标播放速度，并基于所述目标播放速度在所述预定时间段内控制所述多媒体内容的播放。

2.根据权利要求1所述的多媒体内容播放控制方法，其中，确定所述多媒体内容在从所述第二时间点开始的预定时间段内的目标播放速度包括：

基于所述累计播放量和所述预定播放量阈值，确定所述多媒体内容的剩余播放量；以及

基于所述剩余播放量和所述预定时间段，确定所述目标播放速度。

3.根据权利要求1所述的多媒体内容播放控制方法，其中，基于所述目标播放速度在所述预定时间段内控制所述多媒体内容的播放包括：

在所述第二时间点处，初始化所述多媒体内容的匹配播放概率，并利用所述匹配播放概率控制所述多媒体内容的播放；以及

对于所述预定时间段内的每个时间点，基于所述每个时间点处的播放速度和所述目标播放速度更新所述匹配播放概率，并利用更新后的匹配播放概率控制所述多媒体内容的播放。

4.根据权利要求3所述的多媒体内容播放控制方法，其中，基于所述每个时间点处的播放速度和所述目标播放速度更新所述匹配播放概率包括：

获取所述多媒体内容在所述每个时间点处的播放速度；

确定所述播放速度与所述目标播放速度的误差；以及

利用所述误差更新所述匹配播放概率。

5.根据权利要求4所述的多媒体内容播放控制方法，其中，获取所述多媒体内容在所述时间点处的播放速度包括：

获取所述多媒体内容在所述时间点处的第一累计播放量和在所述时间点的前一时间点处的第二累计播放量；

基于所述第一累计播放量和第二累计播放量确定所述播放速度。

6.根据权利要求4所述的多媒体内容播放控制方法，其中，基于所述目标播放速度控制所述多媒体内容的播放包括：

利用反馈调节算法基于所述目标播放速度控制所述多媒体内容的播放，其中所述反馈调节算法包括比例项、积分项和微分项，并且

其中，利用所述误差更新所述匹配播放概率包括：

利用所述误差分别更新所述反馈调节算法的比例项、积分项和微分项；以及

基于更新的比例项、积分项和微分项更新所述匹配播放概率。

7.根据权利要求1所述的多媒体内容播放控制方法，其中，确定所述多媒体内容的估计播放量包括：

将所述多媒体内容的订单特征、定向特征、播放特征和状态特征分别输入第一估计模型和第二估计模型；

利用所述第一估计模型确定所述多媒体内容从所述第二时间点开始的第一估计播放量，并利用所述第二估计模型确定所述多媒体内容从所述第二时间点开始的第二估计播放量；以及

基于所述第一估计播放量和所述第二估计播放量确定所述估计播放量。

8.根据权利要求7所述的多媒体内容播放控制方法，其中，基于所述第一估计播放量和所述第二估计播放量确定所述估计播放量包括：

对所述第一估计播放量和所述第二估计播放量进行加权平均，以获得所述估计播放量。

9.根据权利要求7所述的多媒体内容播放控制方法，其中，所述第一估计模型和所述第二估计模型通过以下方法进行训练：

获取训练数据集，所述训练数据集中的每个训练数据为给出停单命令的停单时间点处的数据，所述训练数据包括多媒体内容的订单特征、定向特征、播放特征和状态特征以及在所述停单时间点后产生的所述多媒体内容的停单后播放量，其中，所述停单后播放量是在所述停单时间点处给出停单命令之后产生的所述多媒体内容的播放量；

对于训练数据集中的每个训练数据，将所述训练数据的订单特征、定向特征、播放特征和状态特征分别输入所述第一估计模型和所述第二估计模型，并确定从停单时间点开始所述训练数据的多媒体内容的估计播放量；以及

通过利用每个训练数据的停单后播放量对估计播放量进行监督，来对所述第一估计模型和所述第二估计模型进行训练。

10.根据权利要求7-9中任一项所述的多媒体内容播放控制方法，其中，所述第一估计模型和所述第二估计模型分别是深度神经网络和长期短记忆模型。

11.一种多媒体内容播放控制装置，所述装置包括：

估计单元，被配置为确定所述多媒体内容从第一时间点到第二时间点的累计播放量，并确定在所述第二时间点处给出停单命令的情况下在所述第二时间点之后产生的所述多媒体内容的估计播放量；以及

控制单元，被配置为在所述估计播放量与所述累计播放量的和大于或等于预定播放量阈值的情况下，在所述第二时间点处给出所述停单命令，以及确定所述多媒体内容在从所述第二时间点开始的预定时间段内的目标播放速度，并基于所述目标播放速度在所述预定时间段内控制所述多媒体内容的播放。

12.根据权利要求11所述的多媒体内容播放控制装置，其中，所述控制单元还被配置为：

13.根据权利要求11所述的多媒体内容播放控制装置，其中，所述控制单元还被配置为：

14.一种多媒体内容播放控制设备，包括：

一个或多个处理器；和

一个或多个存储器，其中所述存储器中存储有计算机可读代码，所述计算机可读代码在由所述一个或多个处理器运行时，使得所述一个或多个处理器执行如权利要求1-10中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如权利要求1-10中任一项所述的方法。