CN113313511A

CN113313511A - 一种视频流量预测方法、装置、电子设备及介质

Info

Publication number: CN113313511A
Application number: CN202110486596.0A
Authority: CN
Inventors: 章佳敏; 陆祁; 周寻
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-08-27

Abstract

本发明实施例提供了一种视频流量预测方法、装置、电子设备及介质，涉及流量预测技术领域。该方法包括：获取待预测视频集合的特征数据；基于所述特征数据，获取所述待预测视频集合的至少一个单位预测值；所述单位预测值用于指示所述待预测视频集合在单位对象内的流量预测量；基于所述单位预测值，获取所述待预测视频集合的总流量预测值；输出预测结果，所述预测结果包括：所述单位预测值与所述总流量预测值。本发明采用单位对象内的小规模预测解决了体量过大对预测准确性的不利影响，且基于单位预测值和总流量预测值多种预测结果，为视频集合应用决策提供了多维度的数据支持，能够充分满足应用需求。

Description

一种视频流量预测方法、装置、电子设备及介质

技术领域

本发明涉及流量预测技术领域，尤其涉及一种视频流量预测方法、装置、电子设备及介质。

背景技术

视频的播放流量作为视频的价值体现，对于视频的推广应用具有重要的参考价值，因此播放类软件供应商在对上线视频的排播量、广告投放量以及视频推广程度等进行决策前，都会对视频的播放流量进行预测。

目前对视频流量进行预测都是直接预测总流量，这种预测方式得到的结果单一，对于电视剧品类而言，由于其体量较大，直接预测总流量的结果往往不够准确，且仅依靠视频总流量的单一预测结果不能满足电视剧的应用需求，应用效果差。

发明内容

本发明提供一种视频流量预测方法、装置、电子设备及介质，解决现有技术中对电视剧的视频流量预测结果不够准确，且预测结果单一，不能满足电视剧的应用需求的问题。

在本发明实施的第一方面，提供了一种视频流量预测方法，包括：

获取待预测视频集合的特征数据；

基于所述特征数据，获取所述待预测视频集合的至少一个单位预测值；所述单位预测值用于指示所述待预测视频集合在单位对象内的流量预测量；

基于所述单位预测值，获取所述待预测视频集合的总流量预测值；

输出预测结果，所述预测结果包括：所述单位预测值与所述总流量预测值。

在本发明实施的第二方面，还提供了一种视频流量预测装置，包括：

第一获取模块，用于获取待预测视频集合的特征数据；

第二获取模块，用于基于所述特征数据，获取所述待预测视频集合的至少一个单位预测值；所述单位预测值用于指示所述待预测视频集合在单位对象内的流量预测量；

第三获取模块，用于基于所述单位预测值，获取所述待预测视频集合的总流量预测值；

输出模块，用于输出预测结果，所述预测结果包括：所述单位预测值与所述总流量预测值。

在本发明实施的第三方面，还提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线；其中，处理器、通信接口以及存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如上所述的视频流量预测方法中的步骤。

在本发明实施的第四方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的视频流量预测方法。

针对在先技术，本发明具备如下优点：

本发明实施例中，首先利用待预测视频集合的特征数据，进行单位对象内的小规模预测，得到至少一个单位预测值，该单位预测值用于指示待预测视频集合在单位对象内的流量预测量；然后再基于小规模预测的单位预测值来得到大规模数据的预测结果，即得到待预测视频集合的总流量预测值。从而采用小规模预测解决了体量过大对预测准确性的不利影响。且输出的预测结果包括单位预测值与总流量预测值多种预测结果，单位预测值和总流量预测值对于视频集合的应用都具有现实指导意义。例如在对视频集合进行排播量、广告投放量等决策时，单位预测值指示视频集合的均值流量，不受视频集合体量等因素的影响，更多受视频集合本身质量的影响，因此基于单位预测值能够对视频集合价值做出更加准确地评估，从而得到更适配的排播和广告投放等决策方案。且基于单位预测值和总流量预测值多种预测结果，也为决策方案提供了多维度的数据支持，能够充分满足应用需求。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的视频流量预测方法的流程示意图；

图2为本发明实施例提供的视频流量预测方法子步骤的流程示意图；

图3为本发明实施例提供的视频流量预测方法另一子步骤的流程示意图；

图4为本发明实施例提供的视频流量预测方法又一子步骤的流程示意图；

图5为本发明实施例提供的视频流量预测方法校验的流程示意图；

图6为本发明实施例提供的视频流量预测方法模型反馈训练的流程示意图；

图7为本发明实施例提供的视频流量预测装置的示意框图；

图8为本发明实施例提供的电子设备的示意框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解的是，还可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

视频的播放流量作为视频的价值体现，对于视频的推广应用具有重要的参考价值，播放流量可作为上线视频的排播量、广告投放量以及视频推广程度等决策的重要依据。目前视频流量预测都是直接预测总流量，但是对于电视剧、综艺等体量比较大的视频集合，受体量影响，直接预测总流量往往不够准确，且仅依靠总流量这一单一预测结果不能满足这类视频集合的应用需求，应用效果差。

本发明实施例为了解决上述缺陷，通过先进行单位对象内的小规模流量预测，再利用单位对象内的小规模预测结果得到总流量预测值，这样避免了体量过大对预测准确性的不利影响，且能够得到多种预测结果，用于上线视频的排播量、广告投放量以及视频推广程度等决策的重要依据。

图1是本发明实施例提供的视频流量预测方法的流程示意图，参见图1所示，该视频流量预测方法包括：

步骤101：获取待预测视频集合的特征数据。

这里，首先获取待预测视频集合的特征数据，以基于待预测视频集合的特征数据进行流量预测。

其中，待预测视频集合可以是任意一组需要进行流量预测的视频集合。视频集合的表现形式可以是电视剧、综艺、记录片、动画片、戏剧等，在此不作限定。

基于预测时机的不同，该步骤所获取到的特征数据也有所不同，后续详述。

步骤102：基于所述特征数据，获取所述待预测视频集合的至少一个单位预测值；所述单位预测值用于指示所述待预测视频集合在单位对象内的流量预测量。

这里，得到待预测视频集合的特征数据后，先基于特征数据进行单位对象内的小规模预测，得到至少一个单位预测值，通过小规模预测避免了体量过大对预测准确性的不利影响，提高了预测的准确性。

步骤103：基于所述单位预测值，获取所述待预测视频集合的总流量预测值。

这里，得到单位预测值之后，再基于单位预测值得到待预测视频集合的总流量预测值，相较于直接预测总流量，提高了预测准确性。

步骤104：输出预测结果，所述预测结果包括：所述单位预测值与所述总流量预测值。

这里，输出的预测结果包括单位预测值与总流量预测值多种预测结果，单位预测值和总流量预测值对于视频集合的应用都具有现实指导意义。例如在对视频集合进行排播量、广告投放量等决策时，单位预测值指示视频集合的均值流量，不受视频集合体量等因素的影响，更多受视频集合本身质量的影响，因此基于单位预测值能够对视频集合价值做出更加准确地评估，从而得到更适配的排播量和广告投放量等决策方案。且基于单位预测值和总流量预测值多种预测结果，也为决策方案提供了多维度的数据支持，能够充分满足应用需求。

本发明实施例的视频流量预测方法，先进行单位对象内的小规模流量预测，再利用单位对象内的小规模预测结果得到总流量预测值，这样避免了体量过大对预测准确性的不利影响，提高了预测的准确性，且能够得到多种预测结果，作为视频集合的排播量、广告投放量以及视频推广程度等决策的重要依据，为决策方案提供了多维度的数据支持，能够充分满足应用需求。

其中，本发明实施例中所提到的流量可以包括但不限于以下至少一种：点击次数、播放次数或播放时长等。需要说明的是，本发明实施例中所提及的流量预测量，可以包括单位对象内的流量，还可以包括单位对象内的流量增量。

作为一种可选的实施方式，所述单位对象包括单位集数、单位天数或单位用户数中的一项或多项，但不限于此。

其中，当单位对象包括单位集数时，单位预测值用于指示待预测视频集合在单位集数内的流量预测量，流量预测量包括对流量或流量增量的预测量。得到待预测视频集合的特征数据后，先基于特征数据获得单位集数内的单位预测值，再利用单位预测值得到总流量预测值。单位集数内的单位预测值能够平滑掉由于集数长短带来的流量巨大差异，使得对于排播量和广告投放量等决策更加准确。

例如，12集的短篇电视剧和60集的长篇电视剧，由于集数的不同总流量存在巨大差异，如果单独依靠总流量这一项数据评估这两部电视剧的市场价值，并对排播量、广告投放量进行决策，不考虑集数不同带来的影响，显然不够准确全面。本发明实施例的方案，先基于特征数据获得两部电视剧单位集数内的单位预测值，再利用单位预测值得到总流量预测值。单位预测值能够平滑掉两部电视剧由于集数的长短带来的流量差异，且基于单位预测值和总流量预测值多种预测结果，能够对两部电视剧的排播量、广告投放量等决策进行多维度分析，使得决策方案更加准确。

其中，包括单位集数在内的单位对象可根据需求调整单位的大小，单位对象可以取值任意大小。例如，单位集数可以取值平均每1集的流量或者平均每1集的流量增量，此时单位预测值指示待预测视频集合平均每1集的流量预测量，或者单位预测值指示待预测视频集合平均每1集的流量增量预测量。当然，单位集数也可以取值平均每2集的流量、平均每3集的流量等其他大小的单位，在此不一一说明。

当单位对象包括单位天数时，单位预测值用于指示待预测视频集合在单位天数内的流量预测量，流量预测量包括对流量或流量增量的预测量。得到待预测视频集合的特征数据后，先基于特征数据获得单位天数内的单位预测值，再利用单位预测值得到总流量预测值。单位天数内的单位预测值能够平滑掉由于更新天数长短带来的流量差异，使得对于排播量和广告投放量等决策更加准确。

例如，同样是24集的两部电视剧，第一部电视剧A每5天更新一集，第二部电视剧B每1天更新一集，由于更新天数不同总流量也会产生差异，如果仅依靠总流量评估两部电视剧的市场价值，并对排播量、广告投放量进行决策，不考虑更新天数不同带来的影响，显然也不够准确全面。本发明实施例的方案，先基于特征数据获得两部电视剧单位天数内的单位预测值，再利用单位预测值得到总流量预测值。单位预测值能够平滑掉两部电视剧由于更新天数的长短带来的流量差异，且基于单位预测值和总流量预测值多种预测结果，能够对两部电视剧的排播量、广告投放量等决策进行多维度分析，使得决策方案更加准确。

其中，包括单位天数在内的单位对象也可根据需求取值任意大小。例如，单位天数可以取值平均每1天的流量或者平均每1天的流量增量，此时单位预测值指示待预测视频集合平均每1天的流量预测量，或者单位预测值指示待预测视频集合平均每1天的流量增量预测量。当然，单位天数也可以取值平均每2天的流量、平均每1周的流量、平均每1周的流量增量等其他大小的单位，在此不一一说明。

当单位对象包括单位用户数时，单位预测值用于指示待预测视频集合在单位用户数内的流量预测量，流量预测量包括对流量或流量增量的预测量。得到待预测视频集合的特征数据后，先基于特征数据获得单位用户数内的单位预测值，再利用单位预测值得到总流量预测值。单位用户数内的单位预测值能够平滑掉由于用户体量带来的流量差异，使得对于排播量和广告投放量等决策更加准确。

例如，同样是24集的两部电视剧，第一部电视剧C受众群体偏向于女性，用户体量小，第二部电视剧B受众群体偏向于普通家庭，用户体量大，由于用户体量不同总流量也会产生差异，如果仅依靠总流量评估两部电视剧的价值，并对排播量、广告投放量进行决策，不考虑用户体量带来的影响，显然也不够准确全面。本发明实施例的方案，先基于特征数据获得两部电视剧单位用户数内的单位预测值，再利用单位预测值得到总流量预测值。单位预测值能够平滑掉两部剧由于用户体量不同带来的流量差异，且基于单位预测值和总流量预测值多种预测结果，能够对两部电视剧的排播量、广告投放量等决策进行多维度分析，使得决策方案更加准确。

其中，包括单位用户数在内的单位对象也可根据需求取值任意大小。例如，单位用户数可以取值平均每1位用户观看的流量，此时单位预测值指示待预测视频集合平均每1位用户观看的流量预测量。当然，单位用户数也可以取值平均每5位用户观看的流量、平均每10位用户观看的流量等其他大小的单位，在此不一一说明。

本发明实施例中，单位对象也可同时使用上述单位集数、单位天数和单位用户数中的多种，以为决策方案提供更多维度的数据支持，进一步提高视频集合排播量、广告投放量等决策方案的准确性，充分满足应用需求。

应该理解的是，本发明实施例中的单位对象也可根据其他业务指标设置，并不局限于上述几种。例如，也可将平均每次播放时长作为单位对象。

本发明实施例中，可以利用模型进行流量预测，此时，对于任意一个单位对象，上述步骤102包括：

利用预先训练的预测模型处理所述特征数据，得到所述预测模型输出的单位预测值。

这里，先基于机器学习方法训练得到预测模型，再利用预测模型处理特征数据，得到待预测视频集合的单位预测值。通过机器学习方法训练得到的预测模型能够达到较高的预测精度，且本发明实施例利用预测模型先进行单位对象内的小规模流量预测，再基于模型预测结果分析得到大规模的总流量预测值，能够避免体量过大给模型预测带来的不利影响，进一步提高预测的准确性。

其中，可获取已播放完结的视频集合的特征数据和单位预测值来构建样本数据集，然后从样本数据集中选取多个样本数据，对预测模型进行训练。其中对于各单位预测值的预测模型所选取的样本数据可以相同也可以不同。可将样本数据的特征数据作为输入，单位预测值作为输出，对预测模型不断进行训练，直到该预测模型的预测结果与实际值的误差在预设范围内。

关于已播放完结视频集合的单位预测值可参见前文关于单位预测值的介绍，在此不做赘述。

关于已播放完结视频集合的特征数据可参见后文关于特征数据的介绍，在此不做赘述。

其中，本发明实施例对于预测模型的模型结构不做限定，现有技术中任何能够通过训练达到流量预测的模型都能够应用到本发明实施例中，例如，LR(LogisticRegression，逻辑回归)模型、KNN(K-Nearest Neighbor，K最邻近)模型等。

本发明实施例对于视频集合的流量预测，可以是在开播前，也可以是在开播后的任意一天。在不同阶段获取到的特征数据有所不同，下面对两种情况分别进行说明。

情况一：可选的，上述步骤101包括：

在待预测视频集合开播前，获取所述视频集合的基础数据，以作为所述特征数据。

这里，在待预测视频集合开播前，由于没有开播后的数据，因此获取视频集合的基础数据，作为特征数据。

其中，所述基础数据包括但不限于如下至少一种：所述视频集合的制作数据、播前用户倾向数据。

这里，视频集合的制作数据能够体现出视频集合的基本制作水平，是影响流量的主要元素；播前用户倾向数据能够体现出视频集合的受关注度和受众群体，也是影响流量的元素。因此，获取视频集合的制作数据、播前用户倾向数据这些基础数据，以作为特征数据，可对流量进行准确预测。

其中，所述制作数据包括但不限于如下至少一项：基本属性信息、后期制作信息、类型信息、排播信息、演职人员数据。

这里，视频集合的基本属性信息包括但不限于如下至少一项：集数、表现形式、每集时长等。表现形式包括但不限于电视剧、综艺、记录片、动画片、戏剧等。

后期制作信息包括但不限于如下至少一项：导演组信息、制片组信息、编剧信息、摄影组信息等。其中，导演组信息包括但不限于导演身份信息、导演舆情信息、导演前作播放流量数据、导演前作质量评分数据等。制片组信息包括但不限于制片人身份信息、制片人舆情信息、制片人前作播放流量数据、制片人前作质量评分数据等。编剧信息包括但不限于编剧身份信息、编剧舆情信息、编剧前作播放流量数据、编剧前作指令评分数据等。摄影组信息包括但不限于摄影师身份信息、摄影师舆情信息、摄影师前作播放流量数据、摄影师前作指令评分数据等。

类型信息可包括但不限于如下至少一项：按照地区分类的类型信息、按照年份分类的类型信息、按照情感分类的类型信息、按照题材分类的类型信息等。其中，按照地区分类的类型信息包括但不限于内地、港剧、韩剧、美剧、日剧等。按照年份分类的类型信息包括但不限于80年代、90年代、2016-2011等。按照情感分类的类型信息包括但不限于喜剧、悲剧、恐怖、悬疑等。按照题材分类的类型信息包括但不限于武侠、偶像、家庭、青春、都市、战争、军旅、罪案、科幻、奇幻、历史等。

排播信息包括但不限于如下至少一项：播放卫视、播放网络平台、更新天数、开播日期。

演职人员数据可包括但不限于如下至少一项：主演信息、配音演员信息。其中，主演信息包括但不限于主演身份信息、主演舆情信息、主演前作播放流量数据、主演前作质量评分数据等。配音演员信息包括但不限于配音演员身份信息、配音演员舆情信息、配音演员前作播放流量数据、配音演员前作质量评分数据等。

其中，所述播前用户倾向数据可包括如下至少一项：基于用户倾向操作得到的倾向数据、基于数据倾向分析得到的倾向数据。

这里，用户倾向操作包括但不限于点击预约追剧、对预告片的评论、点赞、收藏、转发、下载、弹幕发送、分享等操作，基于用户倾向操作可以直接得到倾向数据；另外还可以基于数据分析得到倾向数据，例如，基于演职人员的前作数据来预测得到倾向数据。

情况二：可选的，上述步骤101步骤包括：

在待预测视频集合开播后，获取所述视频集合的基础数据与反馈数据，以作为所述特征数据。

这里，在待预测视频集合开播后，除了能获取视频集合的基础数据以外，还能获取到开播后的反馈数据，作为特征数据。

应当理解，在本方案中，在待预测视频集合开播后，也可以直接将基础数据或反馈数据作为特征数据执行该视频流量预测方法，但实际场景中，以基础数据与反馈数据都作为特征数据来执行该方法，更有利于得到与实际数据相近的结果，有利于提高预测结果的准确度，因此，本案主要对开播后利用基础数据与反馈数据作为特征数据的实现方式进行说明。

其中，基础数据可参照情况一的描述，在此不做赘述。所述反馈数据可包括但不限于如下至少一种：播放数据、用户反馈数据。

这里，视频集合的播放数据和用户反馈数据都能够直观地体现出视频集合开播后的受欢迎程度，是预测流量的有力依据。因此，获取视频集合的基础数据以及反馈数据，以作为特征数据，可以对流量进行准确预测。

其中，所述播放数据包括但不限于如下至少一项：排播信息、播放次数、播放时长、完播率、留存率。

这里，排播信息包括但不限于播出卫视、播出网络平台、更新天数、开播日期。播放次数、播放时长、完播率和留存率指的是从开播截止到预测开始这一段期间内的数据。

其中，所述用户反馈数据包括如下至少一项：评论数据、弹幕数据、点赞数据、收藏数据、下载数据、分享数据、第三方平台反馈数据。

这里，第三方平台反馈数据指的是从第三方平台获得的视频集合的反馈数据，例如A社区交流平台反馈的热搜数据、B社区交流平台反馈的评分数据等。

需要说明的是，上述列举的特征数据仅为举例说明，本发明实施例的特征数据并不局限于上述列举。

在开播前，获得视频集合的基础数据，或者在开播后，获得视频集合的基础数据与反馈数据以后，需要把这些数据输入到预测模型中进行处理，但这些数据的格式可能并不符合模型的输入要求，因此需要对获得的基础数据或反馈数据进行预处理，以符合模型的输入要求。

具体的，可根据数据的类型进行预处理，例如对于数值类的数据可直接输入，对于非数值类的数据可以转化为数值后输入。如对于视频集合的表现形式数据可设置编号，对于导演、制片、编剧、主演、摄影、配音演员等人物的信息可综合分析得到舆情指数，对于类型信息可设置编号，对于排播信息可综合分析得到播放卫视个数、播放网络平台个数、是否网络独家播出等，对于用户倾向操作数据可设置关键字编号或者分析得到操作次数，对于用户反馈数据同样可设置关键字编号或者分析得到操作次数等。

对获取得到的视频集合的基础数据或反馈数据进行预处理后，获得特征数据，再利用预测模型处理特征数据，即可得到预测模型输出的单位预测值。

利用模型预测得到待预测视频集合的单位预测值之后，需要基于单位预测值，获取总流量预测值，以作为视频集合的排播量、广告投放量等决策的重要依据。可选的，如图2所示，对于任意一个单位对象，上述步骤103基于所述单位预测值，获取所述待预测视频集合的总流量预测值的步骤包括：

步骤1031：基于所述单位对象，确定所述单位预测值与总流量之间的关系。

这里，首先基于单位对象的取值，确定出单位预测值与总流量之间的关系，以基于单位预测值与总流量之间的关系，获得总流量预测值。

以单位对象包括单位集数，单位集数取值平均每1集的流量为例，此时单位预测值指示待预测视频集合平均每1集的流量预测量，可基于该取值确定出单位预测值与总流量之间的关系为：总流量预测值等于单位预测值乘以待预测视频集合总集数。

再以单位对象包括单位天数，单位天数取值平均每1天的流量为例，此时单位预测值指示待预测视频集合平均每1天的流量预测量，可基于该取值确定出单位预测值与总流量之间的关系为：总流量预测值等于单位预测值乘以待预测视频集合播放总天数。

再以单位对象包括单位用户数，单位用户数取值平均每1位用户观看的流量为例，此时单位预测值指示待预测视频集合平均每1位用户观看的流量预测量，可基于该取值确定出单位预测值与总流量之间的关系为：总流量预测值等于单位预测值乘以总用户数。

前面三种举例，单位预测值和总流量预测值预测的都是同一种流量指标，即当单位预测值预测播放次数时，获得的总流量预测值也是对播放次数指标的预测，或者当单位预测值预测播放时长时，获得的总流量预测值也是对播放时长指标的预测。

单位预测值和总流量预测值也可以预测不同的流量指标。例如单位对象取值平均每次播放时长时，单位预测值指示的是待预测视频集合平均每次播放时长的预测量，即单位预测值预测的是播放时长，此时总流量预测值可以预测播放次数，单位预测值与总流量之间的关系为：总流量预测值等于总播放时长除以单位预测值。实际场景中基于实际需要自定义设计流量指标即可，这里不再展开详述。

按照类似的方式，对于任意一个单位对象，都可以确定出单位预测值与总流量之间的关系。

步骤1032：基于所述单位预测值，以及所述单位预测值与总流量之间的关系，获取所述待预测视频集合的总流量预测值。

这里，确定出单位预测值与总流量之间的关系之后，按照确定出的关系即可计算出待预测视频集合的总流量预测值。

需要说明的是，按照步骤1031确定出单位预测值与总流量之间的关系之后，可能会出现一些其他参数，例如总用户数、总播放时长等，对于这些参数，也可以利用模型进行预测获得。即利用预先训练的模型处理特征数据，得到模型输出的预测值。具体可参照单位预测值预测步骤，在此不做赘述。

特别的，对于这些未知量，例如总用户数、总播放时长等，对于视频集合的应用同样具有一定的现实指导意义。例如总用户数可用于对视频集合的用户体量做预估，用户体量可作为视频的另一种价值体现。因此，也可将总用户数、总播放时长等作为预测结果输出，以为视频集合的排播量、广告投放量等决策方案提供更多维度的数据支持，充分满足应用需求。

本发明实施例，把总流量指标拆解成了多个指标，具有更多的解释意义和现实指导意义。如把一部电视剧的总流量拆解成两个指标的乘积，总流量预测值等于总用户数乘以平均每1位用户观看的流量，其中总用户数比较受运营力度和口碑发酵影响，而平均每1位用户观看的流量比较受电视剧本身质量影响。通过总流量指标拆解，为视频集合的排播量、广告投放量等决策方案提供了更多维度的数据支持，能够充分满足应用需求。

前面已经提到，单位对象可以包括单位集数、单位天数或单位用户数中的一项或多项，当单位对象包括多项时，可以融合多种单位预测值的结果，得到总流量预测值。在这种情况下，可选的，如图3所示，上述步骤103包括：

步骤1033：当获取到多个单位预测值时，基于每个单位预测值，分别获取所述待预测视频集合的总流量计算值。

这里，当获取到多个单位预测值时，首先利用每个单位预测值，分别获取一个待预测视频集合的总流量计算值，得到多个总流量计算值，以利用这多个总流量计算值进行融合计算。

其中，对于任意一个单位预测值，基于该单位预测值获取总流量计算值的实现过程可参见上述步骤1031-1032的描述，在此不做赘述。

步骤1034：基于获取到的多个总流量计算值，确定所述待预测视频集合的所述总流量预测值。

这里，得到多个总流量计算值后，通过融合这多个总流量计算值，确定出的总流量预测值更具有稳定性，预测误差也更小。

作为另一种可选的实施方式，上述步骤103还可以包括：利用一个用于预测总流量的总预测模型处理待预测视频集合的特征数据，得到总预测模型输出的总流量；上述步骤1033基于至少一个单位预测值，分别获取待预测视频集合的总流量计算值之后，上述步骤1034可基于获取到的总流量计算值以及总预测模型输出的总流量，确定待预测视频集合的总流量预测值。示例性的，可以直接获取总流量计算值以及总预测模型输出的总流量的平均值，作为待预测视频集合的总流量预测值；或者，还可以在对前述计算得到的总流量计算值以及总预测模型输出的总流量进行异常值的过滤处理(异常值的过滤方式后文详述)，再针对过滤后的数据进行处理，例如求取平均值或者加权平均值，最终得到待预测视频集合的总流量预测值

此时，通过融合多个总流量计算值，以及模型预测的总流量，确定出的总流量预测值同样具有稳定性，且预测误差也更小。

其中，可获取已播放完结的视频集合的特征数据和总流量来构建样本数据集，然后从样本数据集中选取多个样本数据，对总预测模型进行训练。如可将样本数据的特征数据作为输入，总流量作为输出，对总预测模型不断进行训练，直到该总预测模型的预测结果与实际值的误差在预设范围内。

关于已播放完结视频集合的特征数据可参见前文关于特征数据的介绍，在此不做赘述。

本发明实施例中，基于多个总流量计算值确定总流量预测值可以有多种实现方式。作为一种可选的实施方式，可计算多个总流量计算值之间的平均值，并将计算得到的平均值作为总流量预测值；作为另一种可选的实施方式，可先为每个总流量计算值分配权重，然后对去除异常值后的总流量计算值进行加权平均，得到总流量预测值等。

对于前述任意一种基于多个总流量计算值确定总流量预测值的实施方式实施之前，还可以先进行异常值的过滤，过滤后再按照前述任意一种实施方式进行处理，下面进行介绍。

作为一种优选的实现方式，如图4所示，上述步骤1034基于获取到的多个总流量计算值，确定所述待预测视频集合的所述总流量预测值的步骤包括：

步骤1041：基于多个总流量计算值，确定中位数与标准值。

由于个别模型的不稳定性，有可能会出现单位预测值不准确，导致获得的总流量计算值不准确的情况，为了过滤掉不准确的值，这里，首先基于多个总流量计算值，确定其中的中位数与标准值，以基于中位数与标准值进行过滤。

其中，中位数指的是将一组数据(多个总流量计算值)按大小顺序排列后，排在中间的值，如果数据个数为偶数，则是排在中间两个数的平均值。中位数体现了数据的中等水平。

其中，可通过如下步骤确定标准值：先基于多个总流量计算值确定出标准差；然后将标准差扩大预设倍数的值作为标准值。预设倍数如可为2倍、3倍等，可根据需求进行设定。

其中，标准差指的是所有数据(多个总流量计算值)减去其平均值的平方和，所得结果除以该组数据的个数(或个数减一)，再把所得值开根号，所得之数就是这组数据的标准差。标准差是各数据偏离平均水平的距离的平均值，将标准差扩大预测倍数作为标准值，可用作衡量各数据是否异常的标准。如果某个数据偏离中位数(这里使用中位数而不使用平均值，是因为本发明的目的是要排除出极端值，平均值会受到数据极端值的影响，而中位数不受数据极端值的影响)超过了标准值，说明与其他数据偏差很大，明显出现了异常。

步骤1042：基于多个总流量计算值、中位数与标准值，过滤多个总流量计算值中的异常值。

这里，标准值是允许各总流量计算值偏离中等水平的最大值，如果某个总流量计算值偏离中等水平超过了标准值，说明与其他计算值偏差很大，明显出现了异常，因此基于多个总流量计算值、中位数与标准值，过滤掉多个总流量计算值中的异常值，能够保证最终结果的准确性。

可选的，步骤1042的执行过程如下：

获取每个总流量计算值与中位数之间的差值；

将与中位数之间的差值大于标准值的总流量计算值作为异常值进行过滤。

当然，上述过滤异常值的方式仅为本发明实施例一种优选的实施方式，本发明实施例也可采用其他方式过滤异常值，例如利用中位数和方差确定异常值并过滤，或者利用平均数和设定好的标准值确定异常值并过滤等。

步骤1043：基于去除异常值后的总流量计算值，确定所述待预测视频集合的所述总流量预测值。

这里，基于去除异常值后的总流量计算值，确定出的总流量预测值，没有异常值的干扰，更加准确，且受到某个预测模型偏差的影响较小，更具有稳定性。

可选的，上述步骤1043可直接计算去除异常值后的总流量计算值的平均值，作为总流量预测值，或者先为每个总流量计算值分配权重，然后对去除异常值后的总流量计算值进行加权平均，得到总流量预测值等。

本发明实施例中，如果是在待预测视频集合开播前预测，可以在待预测视频集合开播后的任意一天，利用开播后的数据对预测结果进行进一步校验；或者如果是在待预测视频集合开播后短期内(如1/2天)预测，可以在待预测视频开播后一段时间(如1周)，利用之后播放的数据对预测结果进行进一步校验。下面对校验过程进行详细介绍。

可选的，如图5所示，上述步骤103基于所述单位预测值，获取所述待预测视频集合的总流量预测值之后，所述方法还包括：

步骤105：在待预测视频集合开播后，获取所述待预测视频集合开播后的实际流量。

这里，通过获取待预测视频集合开播后的实际流量，以对预测流量进行校验和调整。其中，如果是在待预测视频集合开播前进行的预测，可以在待预测视频集合开播后的任意一天获取实际流量；如果是在待预测视频集合开播后短期内进行的预测，可以在待预测视频开播后一段时间获取实际流量。

步骤106：基于所述开播后的实际流量，对所述待预测视频集合的总流量预测值进行校验，并基于校验结果，对所述待预测视频集合的总流量预测值进行调整。

这里，基于开播后的实际流量，对预测的总流量进行校验，并基于校验结果，对其进行调整，能够进一步提高预测的准确性，从而可基于调整后的流量，对后续的排播量、广告投放量等决策进行相应调整，保证决策方案的准确性。

可选的，上述步骤106的执行过程可以是，假设步骤105是在待预测视频集合开播后N天(N为大于或等于1的整数)，获取的待预测视频集合开播后的实际流量，则基于单位预测值获取待视频集合N天的流量预测值，然后比较待预测视频集合开播后N天的实际流量，与待视频集合N天的流量预测值是否超过预设阈值，当超过时，可确定对待预测视频集合的总流量预测值的校验不通过，当不超过时，可确定对待预测视频集合的总流量预测值的校验通过。

当对待预测视频集合的总流量预测值的校验通过时，可基于待预测视频集合开播后N天M集(M为大于或等于1的整数)的实际流量，获取待预测视频集合平均每集的实际流量；然后获取待预测视频集合平均每集的实际流量与待预测视频集合的播放总集数之积；再获取待预测视频集合平均每集的实际流量与待预测视频集合的播放总集数之积，与总流量预测值的平均值，将该平均值作为调整后的待预测视频的预测流量。

本发明实施例中，当校验通过时，也可不对待预测视频集合的总流量预测值进行调整，使用步骤103得到的总流量预测值，进行视频排播量、广告投放量等方案决策。

当对待预测视频集合的总流量预测值的校验不通过时，说明预测结果不准确，则重新预测流量。如可基于待预测视频集合的特征数据以及待预测视频集合开播后N天的实际流量，重新获取待预测视频集合的至少一个单位预测值，并基于重新获取的单位预测值，获取待预测视频集合的总流量预测值。

此时，通过对待预测视频集合的总流量预测值进行校验，保证了预测的准确性，从而保证了对视频集合排播量、广告投放量等决策方案的准确性。

本发明实施例中，除了利用开播后的实际流量调整总流量预测值，也可利用开播后的实际流量调整预测模型，使得单位预测值的结果更加准确。

可选的，如图6所示，上述步骤103基于所述单位预测值，获取所述待预测视频集合的总流量预测值之后，所述方法还包括：

步骤107：在待预测视频集合开播后，获取所述待预测视频集合开播后的实际流量。

这里，通过获取待预测视频集合开播后的实际流量，以对预测模型进行反馈训练。其中，如果是在待预测视频集合开播前进行的预测，可以在待预测视频集合开播后的任意一天获取实际流量；如果是在待预测视频集合开播后短期内进行的预测，可以在待预测视频开播后一段时间获取实际流量。

步骤108：基于所述开播后的实际流量，对所述预测模型进行反馈训练，更新所述预测模型。

这里，基于开播后的实际流量，对预测模型进行反馈训练，更新预测模型，能够提高模型预测的准确性，可利用更新后的预测模型重新预测单位预测值，并利用重新预测的单位预测值得到总流量预测值，对后续的排播量、广告投放量等决策进行相应调整，保证决策方案的准确性。

可选的，上述步骤104输出预测结果之后，所述方法还包括：

基于所述预测结果，确定所述待预测视频集合的排播量，和/或，广告投放量。

这里，输出的预测结果包括单位预测值与总流量预测值多种预测结果，单位预测值和总流量预测值对于视频集合的应用都具有现实指导意义，单位预测值指示视频集合的均值流量，不受视频集合体量等因素的影响，更多受视频集合本身质量的影响，因此基于单位预测值能够对视频集合价值做出更加准确地评估，从而得到更适配的排播量和广告投放量决策方案。且基于单位预测值和总流量预测值多种预测结果，也为决策方案提供了多维度的数据支持，能够充分满足应用需求。因此基于单位预测值和总流量预测值，确定出视频集合排播量和广告投放量更加准确，符合应用需求。

具体的，如可预先建立不同级别的播放流量，同时指定不同级别的播放流量中单位预测值和总流量的数值范围；并建立不同级别的排播量和/或广告投放量，同时指定基于不同级别的排播量和/或广告投放量对应的排播量和/或广告投放量的量级范围；然后建立不同级别的排播量和/或广告投放量与不同级别的播放流量之间的对应关系。基于所述预测结果，确定所述待预测视频集合的排播量，和/或，广告投放量可以包括：先根据总流量预测值以及单位预测值确定对应的播放流量级别；其中，如果总流量预测值与单位预测值对应到不同级别的播放流量，则选取最小级别的播放流量；然后根据播放流量级别确定对应的排播量级别和/或广告投放量级别；最后基于对应的排播量级别和/或广告投放量级别，确定待预测视频集合在平台的排播量和/或广告投放量。

以广告投放量为例，假设单位预测值包括平均每1集的流量，如可预先将播放流量分成三个级别，其中第一级别的总流量在100-200万、平均每1集的流量在5-10万，第二级别的的总流量在200-400万、平均每1集的流量在10-20万，第三级别的总流量在400-800万、平均每1集的流量在20-40万。同时可将广告投放量按照量级分成三个级别，其中第一级别的广告投放量在1-3个，第二级别的广告投放量在3-6个，第三级别的广告投放量在6-10个。并可建立第一级别的播放流量与第一级别的广告投放量之间的对应关系、第二级别的播放流量与第二级别的广告投放量之间的对应关系、第三级别的播放流量与第三级别的广告投放量之间的对应关系。假设待预测视频集合的总流量为500万、平均每1集的流量为30万，则可确定待预测视频集合的播放流量在第三级别；然后基于对应关系可确定第三级别的播放流量对应第三级别的广告投放量；最后基于第三级别的广告投放量，可确定待预测视频集合在平台的广告投放量为6-10个。

当然，上述通过建立对应关系来确定排播量和/或广告投放量的方式仅为一种优选的实施方式，并不局限于此。

参见图7所示，本发明的实施例还提供了一种视频流量预测装置700，包括：

第一获取模块701，用于获取待预测视频集合的特征数据；

第二获取模块702，用于基于所述特征数据，获取所述待预测视频集合的至少一个单位预测值；所述单位预测值用于指示所述待预测视频集合在单位对象内的流量预测量；

第三获取模块703，用于基于所述单位预测值，获取所述待预测视频集合的总流量预测值；

输出模块704，用于输出预测结果，所述预测结果包括：所述单位预测值与所述总流量预测值。

本发明实施例的视频流量预测装置700，先进行单位对象内的小规模流量预测，再利用单位对象内的小规模预测结果得到总流量预测值，这样避免了体量过大对预测准确性的不利影响，提高了预测的准确性，且能够得到多种预测结果，作为视频集合的排播量、广告投放量以及视频推广程度等决策的重要依据，为决策方案提供了多维度的数据支持，能够充分满足应用需求。

可选的，所述单位对象包括单位集数、单位天数或单位用户数中的一项或多项。

可选的，所述第二获取模块702具体用于：

对于任意一个单位对象，利用预先训练的预测模型处理所述特征数据，得到所述预测模型输出的单位预测值。

可选的，所述第三获取模块703包括：

第一确定子模块，用于对于任意一个单位对象，基于所述单位对象，确定所述单位预测值与总流量之间的关系；

第一获取子模块，用于基于所述单位预测值，以及所述单位预测值与总流量之间的关系，获取所述待预测视频集合的总流量预测值。

可选的，所述第三获取模块703包括：

第二获取子模块，用于当获取到多个单位预测值时，基于每个单位预测值，分别获取所述待预测视频集合的总流量计算值；

第二确定子模块，用于基于获取到的多个总流量计算值，确定所述待预测视频集合的所述总流量预测值。

可选的，所述第二确定子模块包括：

第一确定单元，用于基于多个总流量计算值，确定中位数与标准值；

过滤单元，用于基于多个总流量计算值、中位数与标准值，过滤多个总流量计算值中的异常值；

第二确定单元，用于基于去除异常值后的总流量计算值，确定所述待预测视频集合的所述总流量预测值。

可选的，所述第一获取模块701包括：

第三获取子模块，用于在待预测视频集合开播前，获取所述视频集合的基础数据，以作为所述特征数据；

其中，所述基础数据包括如下至少一种：所述视频集合的制作数据、播前用户倾向数据；

其中，所述制作数据包括如下至少一项：基本属性信息、后期制作信息、类型信息、排播信息、演职人员数据；

所述播前用户倾向数据包括如下至少一项：基于用户倾向操作得到的倾向数据、基于数据倾向分析得到的倾向数据。

可选的，所述第一获取模块701包括：

第四获取子模块，用于在待预测视频集合开播后，获取所述视频集合的基础数据与反馈数据，以作为所述特征数据；

所述反馈数据包括如下至少一种：播放数据、用户反馈数据；

其中，所述播放数据包括如下至少一项：排播信息、播放次数、播放时长、完播率、留存率；

所述用户反馈数据包括如下至少一项：评论数据、弹幕数据、点赞数据、收藏数据、下载数据、分享数据、第三方平台反馈数据。

可选的，所述装置还包括：

第四获取模块，用于在待预测视频集合开播后，获取所述待预测视频集合开播后的实际流量；

调整模块，用于基于所述开播后的实际流量，对所述待预测视频集合的总流量预测值进行校验，并基于校验结果，对所述待预测视频集合的总流量预测值进行调整。

可选的，所述装置还包括：

第五获取模块，用于在待预测视频集合开播后，获取所述待预测视频集合开播后的实际流量；

更新模块，用于基于所述开播后的实际流量，对所述预测模型进行反馈训练，更新所述预测模型。

可选的，所述装置还包括：

确定模块，用于基于所述预测结果，确定所述待预测视频集合的排播量，和/或，广告投放量。

对于上述装置实施例而言，由于其与方法实施例基本相似，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，该电子设备可以是服务器。如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信。

存储器803，用于存放计算机程序。

处理器801用于执行存储器803上所存放的程序时，实现如上所述的视频流量预测方法中的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended IndustryStandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(RandomAccess Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable GateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中所述的视频流量预测方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中所述的视频流量预测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，包含在本发明的保护范围内。

Claims

1.一种视频流量预测方法，其特征在于，包括：

获取待预测视频集合的特征数据；

2.根据权利要求1所述的视频流量预测方法，其特征在于，所述单位对象包括单位集数、单位天数或单位用户数中的一项或多项。

3.根据权利要求2所述的视频流量预测方法，其特征在于，对于任意一个单位对象，所述基于所述特征数据，获取所述待预测视频集合的至少一个单位预测值，包括：

4.根据权利要求1所述的视频流量预测方法，其特征在于，对于任意一个单位对象，所述基于所述单位预测值，获取所述待预测视频集合的总流量预测值的步骤包括：

基于所述单位对象，确定所述单位预测值与总流量之间的关系；

基于所述单位预测值，以及所述单位预测值与总流量之间的关系，获取所述待预测视频集合的总流量预测值。

5.根据权利要求1-4任一项所述的视频流量预测方法，其特征在于，基于所述单位预测值，获取所述待预测视频集合的总流量预测值的步骤包括：

当获取到多个单位预测值时，基于每个单位预测值，分别获取所述待预测视频集合的总流量计算值；

基于获取到的多个总流量计算值，确定所述待预测视频集合的所述总流量预测值。

6.根据权利要求5所述的视频流量预测方法，其特征在于，基于获取到的多个总流量计算值，确定所述待预测视频集合的所述总流量预测值的步骤包括：

基于多个总流量计算值，确定中位数与标准值；

基于多个总流量计算值、中位数与标准值，过滤多个总流量计算值中的异常值；

基于去除异常值后的总流量计算值，确定所述待预测视频集合的所述总流量预测值。

7.根据权利要求1-4任一项所述的视频流量预测方法，其特征在于，获取待预测视频集合的特征数据的步骤包括：

在待预测视频集合开播前，获取所述视频集合的基础数据，以作为所述特征数据；

8.根据权利要求1-4任一项所述的视频流量预测方法，其特征在于，获取待预测视频集合的特征数据的步骤包括：

在待预测视频集合开播后，获取所述视频集合的基础数据与反馈数据，以作为所述特征数据；

9.根据权利要求1-4任一项所述的视频流量预测方法，其特征在于，基于所述单位预测值，获取所述待预测视频集合的总流量预测值之后，所述方法还包括：

在待预测视频集合开播后，获取所述待预测视频集合开播后的实际流量；

基于所述开播后的实际流量，对所述待预测视频集合的总流量预测值进行校验，并基于校验结果，对所述待预测视频集合的总流量预测值进行调整。

10.根据权利要求3所述的视频流量预测方法，其特征在于，基于所述单位预测值，获取所述待预测视频集合的总流量预测值之后，所述方法还包括：

基于所述开播后的实际流量，对所述预测模型进行反馈训练，更新所述预测模型。

11.根据权利要求1-4任一项所述的视频流量预测方法，其特征在于，输出预测结果之后，所述方法还包括：

12.一种视频流量预测装置，其特征在于，包括：

第一获取模块，用于获取待预测视频集合的特征数据；

13.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线；其中，处理器、通信接口以及存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如权利要求1至11任一项所述的视频流量预测方法中的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至11任一项所述的视频流量预测方法。