CN104053024A - 一种基于少量数据的短期视频点播量预测系统 - Google Patents

一种基于少量数据的短期视频点播量预测系统 Download PDF

Info

Publication number
CN104053024A
CN104053024A CN201410274071.0A CN201410274071A CN104053024A CN 104053024 A CN104053024 A CN 104053024A CN 201410274071 A CN201410274071 A CN 201410274071A CN 104053024 A CN104053024 A CN 104053024A
Authority
CN
China
Prior art keywords
sequence
train
sample
data
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410274071.0A
Other languages
English (en)
Other versions
CN104053024B (zh
Inventor
贺樑
陈昊
向平
李明耀
杨辰翌
陈琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201410274071.0A priority Critical patent/CN104053024B/zh
Publication of CN104053024A publication Critical patent/CN104053024A/zh
Application granted granted Critical
Publication of CN104053024B publication Critical patent/CN104053024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于少量数据的短期视频点播量预测系统,该系统包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块。系统配置模块能够对系统运行中的各种参数进行配置,灵活调整系统所适应的运用环境;数据预处理模块可根据实际数据情况对日志数据进行序列化,形成样本序列数据库;随后,样本选择模块根据配置信息在样本序列数据库中挑选出合适的样本;最后匹配预测模块将利用独特的方法将样本集中的点播序列与新节目的点播序列进行匹配并生成预测结果,实现基于少量数据准确完成短期视频点播量预测的目标。

Description

一种基于少量数据的短期视频点播量预测系统
技术领域
本发明涉及数据挖掘技术领域,具体地说是一种基于少量数据的短期视频点播量预测系统。
背景技术
随着IPTV、互联网视频网站、移动视频等业务的兴起、流行,视频点播业务对点播量预测的需求愈发强烈。如何根据视频点播状况来制定合理地广告策略,从而增加运营商收入并提高用户体验?如何做到对新上线的视频做出快速地预测,以满足当前快节奏生活所营造出的热点迁移速度?如何建立高性能的内容分发网络(CDN)来提高视频点播的体验?越来越多的视频节目开始趋向于在短期内吸引大量的点播量,并快速步入衰退期,如图1所示。所以,要在这样的大背景下解决上述的这些问题都必须依靠短期视频点播量预测算法。
传统的时间序列预测算法,如ARMA,需要收集待预测序列中大量的历史数据来学习参数,并且只适用于平稳时间序列的预测。这两点对于如图1所示的爆发式增长的点播量序列都难以满足。大量的点播量都集中在节目上线的早期,累积大量历史数据后再进行预测会使预测的价值降低,并且波动剧烈的序列早期阶段不满足平稳序列的要求。
基于K最近邻回归(KNN)的学习方法,虽然可以通过学习其他类似样本,实现早期预测的目标,但是普通的欧氏距离难以为新节目找到合适的邻居,故预测效果较差。
发明内容
本发明的目的是针对现有技术的不足而提出的一种基于少量数据的短期视频点播量预测系统,该系统对新上映的视频点播量进行远超已有数据长度的预测,实现远优于KNN的预测效果。
实现本发明目的的具体技术方案是:
一种基于少量数据的短期视频点播量预测系统,该系统包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块,其中:
所述系统配置模块:根据用户编写的配置文件,配置整个预测过程的参数、原始日志数据的存储位置、样本序列数据库的存储位置、待预测序列以及样本集合的存储位置以及预测结果的存储位置,其中,整个预测过程的参数为邻居序列数量K、输入数据长度Ttrain、输出数据长度Tpred
所述数据预处理模块:将根据用户提供的原始系统日志的数据格式对数据进行处理,转化为可使用的序列数据格式,并检测样本序列数据库中是否已存在对应节目,如有,则合并已有序列以及新生成的序列,如有空缺时间单位则以0填充,形成在时间维度上连续的序列数据;随后,将符合配置文件中所描述新节目条件即长度等于Ttrain的序列存储至待预测序列文件中,其余序列存储至样本序列数据库中;
所述样本选择模块:从样本序列数据库中选择符合限制条件的样本序列,存储至样本集合文件中,其中,样本序列为样本集及平滑样本集;
所述匹配预测模块:使用样本选择模块存储的样本集合,根据待预测序列的前Ttrain个数据节点,在平滑样本集中寻找最为相似的K个邻居序列,并计算最终预测结果。
所述样本选择模块中从样本序列数据库中选择符合限制条件的样本序列,具体包括:
a)根据系统配置模块中的输入数据长度即Ttrain个时间单位以及输出数据长度即Tpred个时间单位,在数据库中筛选出长度大于等于2*Ttrain+Tpred–1的序列的前2*Ttrain+Tpred–1个时间单位作为模型的样本集;
b)对样本集中所有序列的前2*Ttrain–1个单位的数据进行平滑处理,并将经过平滑处理的部分存入平滑样本集。
所述匹配预测模块中在平滑样本集中寻找最为相似的K个邻居序列,并计算最终预测结果,具体包括:
a)针对待预测序列的前Ttrain个时间单位所组成的序列Snew进行平滑处理,得到序列SSnew
b)在平滑样本集中寻找与SSnew最为相似的K个平滑邻居序列,相似度计算公式如下:
sim ( SS new , SS i ) = 1 - min α , β | | SS new - α * shift ( SS i , β ) | | | | SS i | |
其中SSi表示平滑序列集中的第i个序列,shift(SSi,β)表示对SSi实施参数为β的平移操作,当β>0时,序列SSi将会右移,并使用0填充序列的前β个单位,当β<0时,序列SSi
将会左移,并使用0填充序列的后β个单位,β的取值范围为(-Ttrain+1,Ttrain-1);α为缩放参数,通过将上述公式对SSi的偏导置零求得最佳值,具体公式如下:
&alpha; = SS new T SS i | | SS i | | ;
c)记录与SSnew最为相似的K个序列的编号集合NID及其对应的相似度集合SIM、最佳缩放系数α的集合A和最佳平移系数β的集合B;
d)根据NID,在样本集中找出所有平滑邻居序列所对应的邻居序列所组成的集合Sneighbor,计算这些邻居序列与Snew之间的最佳缩放系数c,并记录在集合D中,计算公式如下:
c = S new T S i neighbor [ 0 : T train ] | | S i neighbor [ 0 : T train ] | |
公式中的Sneighbor i[0:Ttrain]代表集合Sneighbor中的第i个序列的前Ttrain个元素所组成的子序列
e)利用缩放系数集合D,以及最佳平移系数集合B,对邻居序列进行缩放和位移操作,并集合SIM中得相似度作为权重计算加权平均值,获得Smean,其计算公式如下:
S mean = 1 K &Sigma; i = 0 K ( c i * shift ( S i neighbor , &beta; i ) )
其中,ci代表集合D中的第i个缩放系数,βi代表集合B中得第i个平移系数,Sneighbor i代表集合Sneighbor中的第i个序列;
f)利用下述公式求得可使Smean的前Ttrain个单位所组成的序列与Snew距离最小化的最终预测结果Spred
S pred = S new T S mean [ 0 : T train ] | | S mean [ 0 : T train | | S mean [ T train : T train + T pred ]
其中Smean[0:Ttrain]表示Smean中前Ttrain个元素所组成的子序列,Smean[Ttrain:Ttrain+Tpred]表示Smean的后Tpred个元素所组成的子序列。
本发明可以有效解决基于欧氏距离的KNN算法中的易受序列量级影响、易受高峰出现时间影响、易受噪声影响的三个缺点,提高预测准确率。
使用一个由3126部视频组成训练集,728部视频组成测试集的数据集进行实验。在Ttrain=7天,Tpred=30天,K=17的参数配置情况下,与KNN以及目前领域内效果领先的随机森林回归算法(RF),在30天总量平均绝对误差(MAE)、30天总量平均绝对百分比误差(MAPE)以及预测序列的平均决定系数(R2)(越大越好)三个指标上进行比较,效果如下:
可以看出本发明与现有技术相比,具有明显的提升。
附图说明
图1为视频节目点播量曲线示例图;
图2为本系统流程图。
具体实施方式
参阅图2,本发明包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块,配置文件及原始系统日志为用户需要准备的原始数据,本系统的预测结果将分别可被普通用户层的可视化展示界面以及开发者层的数据接口调用。
本系统各模块的工作过程如下:
1)系统配置模块:
根据用户编写的配置文件,配置整个预测过程的参数、原始日志数据的存储位置、样本序列数据库的存储位置、待预测序列以及样本集合的存储位置以及预测结果的存储位置,其中,整个预测过程的参数为邻居序列数量K、输入数据长度Ttrain、输出数据长度Tpred;配置文件包含多个参数块,以“[块名称]”的形式表示,每个参数块对应不同主题的参数,参数块下包含多个具体的参数名及其对应的参数取值,每对参数名以及参数取值用等号连接。
2)数据预处理模块:
根据用户提供的原始系统日志的数据格式对数据进行处理,转化为可使用的序列数据格式,并检测样本序列数据库中是否已存在对应节目,如有,则合并已有序列以及新生成的序列,如有空缺时间单位则以0填充,形成在时间维度上连续的序列数据;随后,将符合配置文件中所描述新节目条件即长度等于Ttrain的序列存储至待预测序列文件中,其余序列存储至样本序列数据库中;
以普通的流水日志为例,假设一条日志记录中包含:用户编号、视频编号及点播时间,三个字段。本模块将根据系统设置的时间粒度,对点播时间进行截断处理,生成“统计时间”字段。随后,根据视频编号统计“用户编号”以及“点播时间”所组成的唯一键(下称“用户-时间”),统计每个视频在各个“统计时间”内不同“用户-时间”的出现次数,即点播次数,并对空缺“统计时间”进行填充,形成序列数据。最后,如样本序列数据库中已经存在对应视频的序列,则进行序列合并,并再次填充空缺。
3)样本选择模块:
本模块从样本序列数据库中选择符合限制条件的样本序列,存储至样本集合文件中,其中,样本序列为样本集及平滑样本集,其具体步骤如下:
a)根据系统配置模块中的输入数据长度即Ttrain个时间单位以及输出数据长度即Tpred个时间单位,在数据库中筛选出长度大于等于2*Ttrain+Tpred–1的序列的前2*Ttrain+Tpred–1个时间单位作为模型的样本集;
b)对样本集中所有序列的前2*Ttrain–1个单位的数据进行平滑处理,并将经过平滑处理的部分存入平滑样本集。
4)匹配预测模块:
本模块使用样本选择模块存储的样本集合,根据待预测序列的前Ttrain个数据节点,在平滑样本集中寻找最为相似的K个邻居序列,并使用这K个邻居序列在样本集中的对应原始序列计算最终预测结果,具体步骤如下:
a)针对待预测序列的前Ttrain个时间单位所组成的序列Snew进行平滑处理,得到序列SSnew
b)在平滑样本集中寻找与SSnew最为相似的K个平滑邻居序列,相似度计算公式如下:
sim ( SS new , SS i ) = 1 - min &alpha; , &beta; | | SS new - &alpha; * shift ( SS i , &beta; ) | | | | SS i | |
其中SSi表示平滑序列集中的第i个序列,shift(SSi,β)表示对SSi实施参数为β的平移操作,当β>0时,序列SSi将会右移,并使用0填充序列的前β个单位,当β<0时,序列SSi将会左移,并使用0填充序列的后β个单位,β的取值范围为(-Ttrain+1,Ttrain-1);α为缩放参数,通过将上述公式对SSi的偏导置零求得最佳值,具体公式如下:
&alpha; = SS new T SS i | | SS i | | ;
c)记录与SSnew最为相似的K个序列的编号集合NID及其对应的相似度集合SIM、最佳缩放系数α的集合A和最佳平移系数β的集合B;
d)根据NID,在样本集中找出所有平滑邻居序列所对应的邻居序列所组成的集合Sneighbor,计算这些邻居序列与Snew之间的最佳缩放系数c,并记录在集合D中,计算公式如下:
c = S new T S i neighbor [ 0 : T train ] | | S i neighbor [ 0 : T train ] | |
公式中的Sneighbor i[0:Ttrain]代表集合Sneighbor中的第i个序列的前Ttrain个元素所组成的子序列
e)利用缩放系数集合D,以及最佳平移系数集合B,对邻居序列进行缩放和位移操作,并将集合SIM中的相似度作为权重计算加权平均值,获得Smean,其计算公式如下:
S mean = 1 K &Sigma; i = 0 K ( c i * shift ( S i neighbor , &beta; i ) )
其中,ci代表集合D中的第i个缩放系数,βi代表集合B中的第i个平移系数,Sneighbor i代表集合Sneighbor中的第i个序列;
f)利用下述公式求得可使Smean的前Ttrain个单位所组成的序列与Snew距离最小化的最终预测结果Spred
S pred = S new T S mean [ 0 : T train ] | | S mean [ 0 : T train | | S mean [ T train : T train + T pred ]
其中Smean[0:Ttrain]表示Smean中前Ttrain个元素所组成的子序列,Smean[Ttrain:Ttrain+Tpred]表示Smean的后Tpred个元素所组成的子序列。
本系统连接的可视化展示界面,可面向普通用户,通过数据可视化的方式,将序列的预测结果展示给用户,为决策提供数据支撑,支持在时间维度上的缩放、钻取操作。同时,还包含统计、对比等数据分析、挖掘功能,提升用户对数据进行探索的便捷性;可以显著提升本系统的用户体验。
本系统连接数据接口,提供给需要利用本系统预测结果进行二次挖掘、分析以及相关程序开发的技术人员。根据数据开放的条款以及规则,相关技术人员可以通过本系统连接数据接口,获取预测结果,并整合进其他程序中。大大增加本系统的可扩展性。

Claims (3)

1.一种基于少量数据的短期视频点播量预测系统,其特征在于该系统包括系统配置模块、数据预处理模块、样本选择模块及匹配预测模块,其中:
所述系统配置模块:根据用户编写的配置文件,配置整个预测过程的参数、原始日志数据的存储位置、样本序列数据库的存储位置、待预测序列以及样本集合的存储位置以及预测结果的存储位置,其中,整个预测过程的参数为邻居序列数量K、输入数据长度Ttrain、输出数据长度Tpred
所述数据预处理模块:将根据用户提供的原始系统日志的数据格式对数据进行处理,转化为可使用的序列数据格式,并检测样本序列数据库中是否已存在对应节目,如有,则合并已有序列以及新生成的序列,如有空缺时间单位则以0填充,形成在时间维度上连续的序列数据;随后,将符合配置文件中所描述新节目条件即长度等于Ttrain的序列存储至待预测序列文件中,其余序列存储至样本序列数据库中;
所述样本选择模块:从样本序列数据库中选择符合限制条件的样本序列,存储至样本集合文件中,其中,样本序列为样本集及平滑样本集;
所述匹配预测模块:使用样本选择模块存储的样本集合,根据待预测序列的前Ttrain个数据节点,在平滑样本集中寻找最为相似的K个邻居序列,并计算最终预测结果。
2.根据权利要求1所述的预测系统,其特征在于所述样本选择模块中从样本序列数据库中选择符合限制条件的样本序列,具体包括:
a)根据系统配置模块中的输入数据长度即Ttrain个时间单位以及输出数据长度即Tpred个时间单位,在数据库中筛选出长度满足2*Ttrain+Tpred–1的序列的前2*Ttrain+Tpred–1个时间单位作为模型的样本集;
b)对样本集中所有序列的前2*Ttrain–1个单位的数据进行平滑处理,并将经过平滑处理的部分存入平滑样本集。
3.根据权利要求1所述的预测系统,其特征在于所述匹配预测模块中在平滑样本集中寻找最为相似的K个邻居序列,并计算最终预测结果,具体包括:
a)针对待预测序列的前Ttrain个时间单位所组成的序列Snew进行平滑处理,得到序列SSnew
b)在平滑样本集中寻找与SSnew最为相似的K个平滑邻居序列,相似度计算公式如下:
sim ( SS new , SS i ) = 1 - min &alpha; , &beta; | | SS new - &alpha; * shift ( SS i , &beta; ) | | | | SS i | |
其中SSi表示平滑序列集中的第i个序列,shift(SSi,β)表示对SSi实施参数为β的平移操作,当β>0时,序列SSi将会右移,并使用0填充序列的前β个单位,当β<0时,序列SSi
将会左移,并使用0填充序列的后β个单位,β的取值范围为(-Ttrain+1,Ttrain-1);α为缩放参数,通过将上述公式对SSi的偏导置零求得最佳值,具体公式如下:
&alpha; = SS new T SS i | | SS i | | ;
c)记录与SSnew最为相似的K个序列的编号集合NID及其对应的相似度集合SIM、最佳缩放系数α的集合A和最佳平移系数β的集合B;
d)根据NID,在样本集中找出所有平滑邻居序列所对应的邻居序列所组成的集合Sneighbor,计算这些邻居序列与Snew之间的最佳缩放系数c,并记录在集合D中,计算公式如下:
c = S new T S i neighbor [ 0 : T train ] | | S i neighbor [ 0 : T train ] | |
公式中的Sneighbor i[0:Ttrain]代表集合Sneighbor中的第i个序列的前Ttrain个元素所组成的子序列
e)利用缩放系数集合D,以及最佳平移系数集合B,对邻居序列进行缩放和位移操作,并将集合SIM中的相似度作为权重计算加权平均值,获得Smean,其计算公式如下:
S mean = 1 K &Sigma; i = 0 K ( c i * shift ( S i neighbor , &beta; i ) )
其中,ci代表集合D中的第i个缩放系数,βi代表集合B中的第i个平移系数,Sneighbor i代表集合Sneighbor中的第i个序列;
f)利用下述公式求得可使Smean的前Ttrain个单位所组成的序列与Snew距离最小化的最终预测结果Spred
S pred = S new T S mean [ 0 : T train ] | | S mean [ 0 : T train | | S mean [ T train : T train + T pred ]
其中Smean[0:Ttrain]表示Smean中前Ttrain个元素所组成的子序列,Smean[Ttrain:Ttrain+Tpred]表示Smean的后Tpred个元素所组成的子序列。
CN201410274071.0A 2014-06-19 2014-06-19 一种基于少量数据的短期视频点播量预测系统 Active CN104053024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410274071.0A CN104053024B (zh) 2014-06-19 2014-06-19 一种基于少量数据的短期视频点播量预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410274071.0A CN104053024B (zh) 2014-06-19 2014-06-19 一种基于少量数据的短期视频点播量预测系统

Publications (2)

Publication Number Publication Date
CN104053024A true CN104053024A (zh) 2014-09-17
CN104053024B CN104053024B (zh) 2017-02-01

Family

ID=51505332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410274071.0A Active CN104053024B (zh) 2014-06-19 2014-06-19 一种基于少量数据的短期视频点播量预测系统

Country Status (1)

Country Link
CN (1) CN104053024B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108259929A (zh) * 2017-12-22 2018-07-06 北京交通大学 一种视频活跃期模式的预测及缓存方法
CN109101884A (zh) * 2018-07-10 2018-12-28 北京大学 一种脉冲阵列预测方法
CN111629216A (zh) * 2020-04-20 2020-09-04 南京邮电大学 边缘网络环境下基于随机森林算法的vod业务缓存替换方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102510529B (zh) * 2011-09-22 2014-11-05 中国科学技术大学 对节目进行点播量预测和存储调度的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108259929A (zh) * 2017-12-22 2018-07-06 北京交通大学 一种视频活跃期模式的预测及缓存方法
CN108259929B (zh) * 2017-12-22 2020-03-06 北京交通大学 一种视频活跃期模式的预测及缓存方法
CN109101884A (zh) * 2018-07-10 2018-12-28 北京大学 一种脉冲阵列预测方法
CN111629216A (zh) * 2020-04-20 2020-09-04 南京邮电大学 边缘网络环境下基于随机森林算法的vod业务缓存替换方法

Also Published As

Publication number Publication date
CN104053024B (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
CN110489644B (zh) 信息推送方法、装置、计算机可读存储介质和计算机设备
Aastveit et al. Nowcasting GDP in real time: A density combination approach
CN109587713A (zh) 一种基于arima模型的网络指标预测方法、装置及存储介质
Gupta et al. Production forecasting in unconventional resources using data mining and time series analysis
CN106371155A (zh) 基于大数据和分析场的气象预报方法及系统
CN104572734A (zh) 问题推荐方法、装置及系统
CN109543132A (zh) 内容推荐方法、装置、电子设备及存储介质
CN104166710B (zh) 一种基于移动终端的天气预测方法及其移动终端
CN108133390A (zh) 用于预测用户行为的方法和装置以及计算设备
Flowerdew Calibrating ensemble reliability whilst preserving spatial structure
KR101435096B1 (ko) 소셜 네트워크 서비스 데이터에 기반한 상품 수요 예측 장치 및 방법
Durbach et al. Expert elicitation of autocorrelated time series with application to e3 (energy-environment-economic) forecasting models
Bjørndal et al. Finding the right yardstick: Regulation of electricity networks under heterogeneous environments
CN104053024A (zh) 一种基于少量数据的短期视频点播量预测系统
FR3004568A1 (fr) Suivi de projet
CN109104301A (zh) 一种基于深度学习模型针对综艺节目进行网络热度预测的方法和系统
CN112559868B (zh) 信息召回方法、装置、存储介质及电子设备
CN108764553B (zh) 用户规模预测方法、装置及计算机设备
CN107704723A (zh) 一种基于斜率关联度的显著变量选择方法
OrtizBeviá et al. The influence of meteorological variability on the mid-term evolution of the electricity load
Nguyen et al. Applications of data analysis techniques for oil production prediction
Feng et al. Forecasting the yield curve using a dynamic natural cubic spline model
Breslavich et al. Experience of MDA ensemble smoother practice for Volga-Ural Oilfield
CN104102705A (zh) 一种基于大间隔分布学习的数字媒体对象分类方法
An et al. An Assessment of the IMF’s Unemployment Forecasts

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant