CN104053024A

CN104053024A - 一种基于少量数据的短期视频点播量预测系统

Info

Publication number: CN104053024A
Application number: CN201410274071.0A
Authority: CN
Inventors: 贺樑; 陈昊; 向平; 李明耀; 杨辰翌; 陈琴
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2014-06-19
Filing date: 2014-06-19
Publication date: 2014-09-17
Anticipated expiration: 2034-06-19
Also published as: CN104053024B

Abstract

本发明公开了一种基于少量数据的短期视频点播量预测系统，该系统包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块。系统配置模块能够对系统运行中的各种参数进行配置，灵活调整系统所适应的运用环境；数据预处理模块可根据实际数据情况对日志数据进行序列化，形成样本序列数据库；随后，样本选择模块根据配置信息在样本序列数据库中挑选出合适的样本；最后匹配预测模块将利用独特的方法将样本集中的点播序列与新节目的点播序列进行匹配并生成预测结果，实现基于少量数据准确完成短期视频点播量预测的目标。

Description

一种基于少量数据的短期视频点播量预测系统

技术领域

本发明涉及数据挖掘技术领域，具体地说是一种基于少量数据的短期视频点播量预测系统。

背景技术

随着IPTV、互联网视频网站、移动视频等业务的兴起、流行，视频点播业务对点播量预测的需求愈发强烈。如何根据视频点播状况来制定合理地广告策略，从而增加运营商收入并提高用户体验？如何做到对新上线的视频做出快速地预测，以满足当前快节奏生活所营造出的热点迁移速度？如何建立高性能的内容分发网络(CDN)来提高视频点播的体验？越来越多的视频节目开始趋向于在短期内吸引大量的点播量，并快速步入衰退期，如图1所示。所以，要在这样的大背景下解决上述的这些问题都必须依靠短期视频点播量预测算法。

传统的时间序列预测算法，如ARMA，需要收集待预测序列中大量的历史数据来学习参数，并且只适用于平稳时间序列的预测。这两点对于如图1所示的爆发式增长的点播量序列都难以满足。大量的点播量都集中在节目上线的早期，累积大量历史数据后再进行预测会使预测的价值降低，并且波动剧烈的序列早期阶段不满足平稳序列的要求。

基于K最近邻回归(KNN)的学习方法，虽然可以通过学习其他类似样本，实现早期预测的目标，但是普通的欧氏距离难以为新节目找到合适的邻居，故预测效果较差。

发明内容

本发明的目的是针对现有技术的不足而提出的一种基于少量数据的短期视频点播量预测系统，该系统对新上映的视频点播量进行远超已有数据长度的预测，实现远优于KNN的预测效果。

实现本发明目的的具体技术方案是：

一种基于少量数据的短期视频点播量预测系统，该系统包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块，其中：

所述系统配置模块：根据用户编写的配置文件，配置整个预测过程的参数、原始日志数据的存储位置、样本序列数据库的存储位置、待预测序列以及样本集合的存储位置以及预测结果的存储位置，其中，整个预测过程的参数为邻居序列数量K、输入数据长度T_train、输出数据长度T_pred；

所述数据预处理模块：将根据用户提供的原始系统日志的数据格式对数据进行处理，转化为可使用的序列数据格式，并检测样本序列数据库中是否已存在对应节目，如有，则合并已有序列以及新生成的序列，如有空缺时间单位则以0填充，形成在时间维度上连续的序列数据；随后，将符合配置文件中所描述新节目条件即长度等于T_train的序列存储至待预测序列文件中，其余序列存储至样本序列数据库中；

所述样本选择模块：从样本序列数据库中选择符合限制条件的样本序列，存储至样本集合文件中，其中，样本序列为样本集及平滑样本集；

所述匹配预测模块：使用样本选择模块存储的样本集合，根据待预测序列的前T_train个数据节点，在平滑样本集中寻找最为相似的K个邻居序列，并计算最终预测结果。

所述样本选择模块中从样本序列数据库中选择符合限制条件的样本序列，具体包括：

a)根据系统配置模块中的输入数据长度即T_train个时间单位以及输出数据长度即T_pred个时间单位，在数据库中筛选出长度大于等于2*T_train+T_pred–1的序列的前2*T_train+T_pred–1个时间单位作为模型的样本集；

b)对样本集中所有序列的前2*T_train–1个单位的数据进行平滑处理，并将经过平滑处理的部分存入平滑样本集。

所述匹配预测模块中在平滑样本集中寻找最为相似的K个邻居序列，并计算最终预测结果，具体包括：

a)针对待预测序列的前T_train个时间单位所组成的序列S_new进行平滑处理，得到序列SS_new；

b)在平滑样本集中寻找与SS_new最为相似的K个平滑邻居序列，相似度计算公式如下：

sim ({SS}_{new}, {SS}_{i}) = 1 - \min_{α, β} \frac{| | {SS}_{new} - α * shift ({SS}_{i}, β) | |}{| | {SS}_{i} | |}

其中SS_i表示平滑序列集中的第i个序列，shift(SS_i，β)表示对SS_i实施参数为β的平移操作，当β>0时，序列SS_i将会右移，并使用0填充序列的前β个单位，当β<0时，序列SS_i

将会左移，并使用0填充序列的后β个单位，β的取值范围为(-T_train+1,T_train-1)；α为缩放参数，通过将上述公式对SS_i的偏导置零求得最佳值，具体公式如下：

α = \frac{{SS}_{new}^{T} {SS}_{i}}{| | {SS}_{i} | |};

c)记录与SS_new最为相似的K个序列的编号集合NID及其对应的相似度集合SIM、最佳缩放系数α的集合A和最佳平移系数β的集合B；

d)根据NID，在样本集中找出所有平滑邻居序列所对应的邻居序列所组成的集合S^neighbor，计算这些邻居序列与S_new之间的最佳缩放系数c，并记录在集合D中，计算公式如下：

c = \frac{S_{new}^{T} S_{i}^{neighbor} [0 : T_{train}]}{| | S_{i}^{neighbor} [0 : T_{train}] | |}

公式中的S^neighbor _i[0:T_train]代表集合S^neighbor中的第i个序列的前T_train个元素所组成的子序列

e)利用缩放系数集合D，以及最佳平移系数集合B，对邻居序列进行缩放和位移操作，并集合SIM中得相似度作为权重计算加权平均值，获得S_mean，其计算公式如下：

S_{mean} = \frac{1}{K} Σ_{i = 0}^{K} (c_{i} * shift (S_{i}^{neighbor}, β_{i}))

其中，c_i代表集合D中的第i个缩放系数，β_i代表集合B中得第i个平移系数，S^neighbor _i代表集合S^neighbor中的第i个序列；

f)利用下述公式求得可使S_mean的前T_train个单位所组成的序列与S_new距离最小化的最终预测结果S_pred：

S_{pred} = \frac{S_{new}^{T} S_{mean} [0 : T_{train}]}{| | S_{mean} [0 : T_{train} | |} S_{mean} [T_{train} : T_{train} + T_{pred}]

其中S_mean[0:T_train]表示S_mean中前T_train个元素所组成的子序列，S_mean[T_train:T_train+T_pred]表示S_mean的后T_pred个元素所组成的子序列。

本发明可以有效解决基于欧氏距离的KNN算法中的易受序列量级影响、易受高峰出现时间影响、易受噪声影响的三个缺点，提高预测准确率。

使用一个由3126部视频组成训练集，728部视频组成测试集的数据集进行实验。在T_train＝7天,T_pred＝30天,K＝17的参数配置情况下，与KNN以及目前领域内效果领先的随机森林回归算法(RF)，在30天总量平均绝对误差(MAE)、30天总量平均绝对百分比误差(MAPE)以及预测序列的平均决定系数(R²)(越大越好)三个指标上进行比较，效果如下：

可以看出本发明与现有技术相比，具有明显的提升。

附图说明

图1为视频节目点播量曲线示例图；

图2为本系统流程图。

具体实施方式

参阅图2，本发明包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块，配置文件及原始系统日志为用户需要准备的原始数据，本系统的预测结果将分别可被普通用户层的可视化展示界面以及开发者层的数据接口调用。

本系统各模块的工作过程如下：

1)系统配置模块：

根据用户编写的配置文件，配置整个预测过程的参数、原始日志数据的存储位置、样本序列数据库的存储位置、待预测序列以及样本集合的存储位置以及预测结果的存储位置，其中，整个预测过程的参数为邻居序列数量K、输入数据长度T_train、输出数据长度T_pred；配置文件包含多个参数块，以“[块名称]”的形式表示，每个参数块对应不同主题的参数，参数块下包含多个具体的参数名及其对应的参数取值，每对参数名以及参数取值用等号连接。

2)数据预处理模块：

根据用户提供的原始系统日志的数据格式对数据进行处理，转化为可使用的序列数据格式，并检测样本序列数据库中是否已存在对应节目，如有，则合并已有序列以及新生成的序列，如有空缺时间单位则以0填充，形成在时间维度上连续的序列数据；随后，将符合配置文件中所描述新节目条件即长度等于T_train的序列存储至待预测序列文件中，其余序列存储至样本序列数据库中；

以普通的流水日志为例，假设一条日志记录中包含：用户编号、视频编号及点播时间，三个字段。本模块将根据系统设置的时间粒度，对点播时间进行截断处理，生成“统计时间”字段。随后，根据视频编号统计“用户编号”以及“点播时间”所组成的唯一键(下称“用户-时间”)，统计每个视频在各个“统计时间”内不同“用户-时间”的出现次数，即点播次数，并对空缺“统计时间”进行填充，形成序列数据。最后，如样本序列数据库中已经存在对应视频的序列，则进行序列合并，并再次填充空缺。

3)样本选择模块：

本模块从样本序列数据库中选择符合限制条件的样本序列，存储至样本集合文件中，其中，样本序列为样本集及平滑样本集，其具体步骤如下：

4)匹配预测模块：

本模块使用样本选择模块存储的样本集合，根据待预测序列的前T_train个数据节点，在平滑样本集中寻找最为相似的K个邻居序列，并使用这K个邻居序列在样本集中的对应原始序列计算最终预测结果，具体步骤如下：

sim ({SS}_{new}, {SS}_{i}) = 1 - \min_{α, β} \frac{| | {SS}_{new} - α * shift ({SS}_{i}, β) | |}{| | {SS}_{i} | |}

其中SS_i表示平滑序列集中的第i个序列，shift(SS_i，β)表示对SS_i实施参数为β的平移操作，当β>0时，序列SS_i将会右移，并使用0填充序列的前β个单位，当β<0时，序列SS_i将会左移，并使用0填充序列的后β个单位，β的取值范围为(-T_train+1,T_train-1)；α为缩放参数，通过将上述公式对SS_i的偏导置零求得最佳值，具体公式如下：

α = \frac{{SS}_{new}^{T} {SS}_{i}}{| | {SS}_{i} | |};

c = \frac{S_{new}^{T} S_{i}^{neighbor} [0 : T_{train}]}{| | S_{i}^{neighbor} [0 : T_{train}] | |}

e)利用缩放系数集合D，以及最佳平移系数集合B，对邻居序列进行缩放和位移操作，并将集合SIM中的相似度作为权重计算加权平均值，获得S_mean，其计算公式如下：

S_{mean} = \frac{1}{K} Σ_{i = 0}^{K} (c_{i} * shift (S_{i}^{neighbor}, β_{i}))

其中，c_i代表集合D中的第i个缩放系数，β_i代表集合B中的第i个平移系数，S^neighbor _i代表集合S^neighbor中的第i个序列；

S_{pred} = \frac{S_{new}^{T} S_{mean} [0 : T_{train}]}{| | S_{mean} [0 : T_{train} | |} S_{mean} [T_{train} : T_{train} + T_{pred}]

本系统连接的可视化展示界面，可面向普通用户，通过数据可视化的方式，将序列的预测结果展示给用户，为决策提供数据支撑，支持在时间维度上的缩放、钻取操作。同时，还包含统计、对比等数据分析、挖掘功能，提升用户对数据进行探索的便捷性；可以显著提升本系统的用户体验。

本系统连接数据接口，提供给需要利用本系统预测结果进行二次挖掘、分析以及相关程序开发的技术人员。根据数据开放的条款以及规则，相关技术人员可以通过本系统连接数据接口，获取预测结果，并整合进其他程序中。大大增加本系统的可扩展性。

Claims

1.一种基于少量数据的短期视频点播量预测系统，其特征在于该系统包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块，其中：

2.根据权利要求1所述的预测系统，其特征在于所述样本选择模块中从样本序列数据库中选择符合限制条件的样本序列，具体包括：

a)根据系统配置模块中的输入数据长度即T_train个时间单位以及输出数据长度即T_pred个时间单位，在数据库中筛选出长度满足2*T_train+T_pred–1的序列的前2*T_train+T_pred–1个时间单位作为模型的样本集；

3.根据权利要求1所述的预测系统，其特征在于所述匹配预测模块中在平滑样本集中寻找最为相似的K个邻居序列，并计算最终预测结果，具体包括：

sim ({SS}_{new}, {SS}_{i}) = 1 - \min_{α, β} \frac{| | {SS}_{new} - α * shift ({SS}_{i}, β) | |}{| | {SS}_{i} | |}

α = \frac{{SS}_{new}^{T} {SS}_{i}}{| | {SS}_{i} | |};

c = \frac{S_{new}^{T} S_{i}^{neighbor} [0 : T_{train}]}{| | S_{i}^{neighbor} [0 : T_{train}] | |}

S_{mean} = \frac{1}{K} Σ_{i = 0}^{K} (c_{i} * shift (S_{i}^{neighbor}, β_{i}))

S_{pred} = \frac{S_{new}^{T} S_{mean} [0 : T_{train}]}{| | S_{mean} [0 : T_{train} | |} S_{mean} [T_{train} : T_{train} + T_{pred}]