CN111062527A - 一种视频集流量预测方法及装置 - Google Patents

一种视频集流量预测方法及装置 Download PDF

Info

Publication number
CN111062527A
CN111062527A CN201911258929.3A CN201911258929A CN111062527A CN 111062527 A CN111062527 A CN 111062527A CN 201911258929 A CN201911258929 A CN 201911258929A CN 111062527 A CN111062527 A CN 111062527A
Authority
CN
China
Prior art keywords
video
flow
predicted
sample
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911258929.3A
Other languages
English (en)
Other versions
CN111062527B (zh
Inventor
周莹
叶田田
赵冲翔
孙斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing IQIYI Science and Technology Co Ltd
Original Assignee
Beijing IQIYI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing IQIYI Science and Technology Co Ltd filed Critical Beijing IQIYI Science and Technology Co Ltd
Priority to CN201911258929.3A priority Critical patent/CN111062527B/zh
Publication of CN111062527A publication Critical patent/CN111062527A/zh
Application granted granted Critical
Publication of CN111062527B publication Critical patent/CN111062527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Algebra (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种视频集流量预测方法及装置,该方法包括:获取待预测视频集的特征数据;从待预测视频集中选择一个已上线视频作为待分析视频,按照流量预测方式预测待预测视频集的流量;流量预测方式包括:根据待分析视频的流量和在待预测视频集中且在待分析视频之前上线的视频的流量,计算待分析视频对应的流量均值;确定所获取的特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数;根据所确定的重要程度系数和所获取的特征数据,预测反映待分析视频对待预测视频集的流量增长趋势的影响程度的增值系数;利用增值系数和流量均值,预测待预测视频集的流量。应用本发明实施例提供的方案能够提高对视频集进行流量预测的准确度。

Description

一种视频集流量预测方法及装置
技术领域
本发明涉及大数据处理技术领域,特别是涉及一种视频集流量预测方法及装置。
背景技术
随着互联网技术与影视产业的飞速发展,几乎每天都有新的影视剧上线,面对诸多新上线的影视剧,用户难以抉择观看哪一部影视剧。鉴于上述情况,影视网站一般为用户提供各个影视剧的流量排名,这样使得用户可以根据上述流量排名选择要观看的影视剧。
现有技术中,预测各个影视剧的流量时,一般会在影视剧的开播初期,例如,开播三天内,利用开播初期上线的该影视剧的各剧集的流量预测整个影视剧的流量。
然而,影视剧开播初期各剧集的流量一般会高于后期各剧集的流量,例如,用户看第一集或者前几集多有试看的心理,试看第一集或者前几集后再决定是否继续观看该影视剧的后续各集。另外,受影视剧运营活动和外宣力度的影响,也会导致较多的用户观看影视剧的第一集或者前几集。因此,影视剧开播初期各剧集的流量一般较高,难以代表整个影视剧的流量。
所以,应用现有技术提供的上述方式预测影视剧等视频集的流量,准确度较低。
发明内容
本发明实施例的目的在于提供一种视频集流量预测方法及装置,以提高对视频集进行流量预测的准确度。具体技术方案如下:
第一方面,本发明实施例提供了一种视频集流量预测方法,所述方法包括:
获取待预测视频集的特征数据;
从所述待预测视频集中选择一个已上线视频作为待分析视频,按照流量预测方式预测所述待预测视频集的流量;
其中,所述流量预测方式包括:
根据待分析视频的流量和在所述待预测视频集中且在所述待分析视频之前上线的视频的流量,计算所述待分析视频对应的流量均值;
确定所获取的特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数,其中,所述指定排序为所述待分析视频在所述待预测视频集中的排序;
根据所确定的重要程度系数和所获取的特征数据,预测反映所述待分析视频对所述待预测视频集的流量增长趋势的影响程度的增值系数;
利用所述增值系数和所述流量均值,预测所述待预测视频集的流量。
本发明的一个实施例中,所述方法还包括:
以所述待预测视频集中未被选择的已上线视频作为所述待分析视频,按照所述流量预测方式预测所述待预测视频集的流量;
以所有预测得到的流量为一个融合对象,对所述融合对象中的流量进行融合处理,得到所述待预测视频集的流量。
本发明的一个实施例中,所述确定所获取的特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数,包括:
从预设的系数集中,选择指定排序对应的重要程度系数,其中,所述预设的系数集中包括各个视频排序对应的重要程度系数,每一视频排序对应的重要程度系数为:视频集的特征数据在基于该视频排序对应的视频进行流量预测时的重要性程度系数。
本发明的一个实施例中,通过以下方式获得所述系数集:
获取样本视频集的样本特征数据,其中,所述样本视频集中的样本视频均为已上线视频;
针对所述样本视频集中每一视频排序对应的待分析样本视频,根据所述待分析样本视频的流量和在所述样本视频集中所述待分析样本视频之前上线的视频的流量,计算所述待分析样本视频的样本流量均值,并利用所述样本流量均值和集流量均值,计算反映所述待分析样本视频对所述样本视频集的流量增长趋势的影响程度的样本增值系数;其中,所述待分析样本视频为所述样本视频集中除最后上线的视频以外的视频,所述集流量均值为所述样本视频集中所有视频的流量的均值;
针对每一视频排序对应的待分析样本视频,对所述样本特征数据和所述待分析样本视频对应的样本增值系数进行线性回归,得到采用视频排序对应的待分析样本视频进行流量预测时所述样本特征数据的重要程度系数;
生成包含所得重要程度系数的系数集。
本发明的一个实施例中,所述确定所获取的特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数,包括:
将上述指定排序输入至预设的系数预测模型中,获得反映指定排序对应的待分析视频对待预测视频集进行流量预测时的重要程度系数,其中,上述系数预测模型为:利用样本视频集中各个视频排序对应的待分析样本视频的样本流量均值、集流量均值和样本视频集的样本特征数据对回归模型进行训练得到的、用于预测一个视频集中各个视频排序对应的重要程度系数的模型。
本发明的一个实施例中,所述根据所确定的重要程度系数和所获取的特征数据,预测反映所述待分析视频对所述待预测视频集的流量增长趋势的影响程度的增值系数,包括:
按照以下表达式,预测反映所述待分析视频对所述待预测视频集的流量增长趋势的影响程度的增值系数y;
所述表达式为:
Figure BDA0002311066420000031
其中,xs表示所获取的特征数据中第s个特征数据,as为所确定的重要程度系数中xs的重要程度系数,k为所获取的特征数据的总数,b为所获取的特征数据在基于所述指定排序对应的视频进行流量预测时的误差参数。
本发明的一个实施例中,所述利用所述增值系数和所述流量均值,预测所述待预测视频集的流量,包括:
按照以下表达式,预测所述待预测视频集的流量P:
所述表达式:P=y·(F·m);
其中,F表示所述流量均值,m表示所述待预测视频集中视频的个数,y为所述增值系数。
本发明的一个实施例中,所述在所述待预测视频集中且在所述待分析视频之前上线的视频包括:除所述待预测视频集中第一个上线的视频外、且在所述待预测视频集中在所述待分析视频之前上线的视频。
本发明的一个实施例中,所述对所述融合对象中的流量进行融合处理,得到所述待预测视频集的流量,包括:
计算所述融合对象中各个流量的中值和表征所述融合对象中各个流量的离散程度的离散值;
利用所述中值和离散值,计算所述待预测视频集对应的离群值;
从所述融合对象中,剔除所述离群值;
计算剩余流量的均值,并将所述均值作为所述待预测视频集的流量。
第二方面,本发明实施例提供了一种视频集流量预测装置,所述装置包括:
特征数据获取模块,用于获取待预测视频集的特征数据;
第一视频选择模块,用于从所述待预测视频集中选择一个已上线视频作为待分析视频,触发流量预测模块预测所述待预测视频集的流量;
其中,所述流量预测模块,包括:
流量均值子模块,用于根据待分析视频的流量和在所述待预测视频集中且在所述待分析视频之前上线的视频的流量,计算所述待分析视频对应的流量均值;
重要程度系数确定子模块,用于确定所获取的特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数,其中,所述指定排序为所述待分析视频在所述待预测视频集中的排序;
增值系数预测子模块,用于根据所确定的重要程度系数和所获取的特征数据,预测反映所述待分析视频对所述待预测视频集的流量增长趋势的影响程度的增值系数;
流量预测子模块,用于利用所述增值系数和所述流量均值,预测所述待预测视频集的流量。
本发明的一个实施例中,所述装置还包括:
第二视频选择模块,用于以所述待预测视频集中未被选择的已上线视频作为所述待分析视频,触发所述流量预测模块预测所述待预测视频集的流量;
对象融合模块,用于以所有预测得到的流量为一个融合对象,对所述融合对象中的流量进行融合处理,得到所述待预测视频集的流量。
本发明的一个实施例中,所述重要程度系数确定子模块,包括:
重要程度系数选择单元,用于从预设的系数集中,选择指定排序对应的重要程度系数,其中,所述预设的系数集中包括各个视频排序对应的重要程度系数,每一视频排序对应的重要程度系数为:视频集的特征数据在基于该视频排序对应的视频进行流量预测时的重要性程度系数。
本发明的一个实施例中,所述装置还包括系数集获得模块,其中,所述系数集获得模块,包括:
样本特征数据获取子模块,用于获取样本视频集的样本特征数据,其中,所述样本视频集中的样本视频均为已上线视频;
样本流量均值计算子模块,用于针对所述样本视频集中每一视频排序对应的待分析样本视频,根据所述待分析样本视频的流量和在所述样本视频集中所述待分析样本视频之前上线的视频的流量,计算所述待分析样本视频的样本流量均值,并利用所述样本流量均值和集流量均值,计算反映所述待分析样本视频对所述样本视频集的流量增长趋势的影响程度的样本增值系数;其中,所述待分析样本视频为所述样本视频集中除最后上线的视频以外的视频,所述集流量均值为所述样本视频集中所有视频的流量的均值;
重要程度系数得到子模块,用于针对每一视频排序对应的待分析样本视频,对所述样本特征数据和所述待分析样本视频对应的样本增值系数进行线性回归,得到采用视频排序对应的待分析样本视频进行流量预测时所述样本特征数据的重要程度系数;
系数集生成子模块,用于生成包含所得重要程度系数的系数集。
本发明的一个实施例中,所述增值系数预测子模块,包括:
增值系数预测单元,用于按照以下表达式,预测反映所述待分析视频对所述待预测视频集的流量增长趋势的影响程度的增值系数y;
所述表达式为:
Figure BDA0002311066420000061
其中,xs表示所获取的特征数据中第s个特征数据,as为所确定的重要程度系数中xs的重要程度系数,k为所获取的特征数据的总数,b为所获取的特征数据在基于所述指定排序对应的视频进行流量预测时的误差参数。
本发明的一个实施例中,所述流量预测子模块,包括:
流量预测单元,用于按照以下表达式,预测所述待预测视频集的流量P:
所述表达式:P=y·(F·m);
其中,F表示所述流量均值,m表示所述待预测视频集中视频的个数,y为所述增值系数。
本发明的一个实施例中,所述在所述待预测视频集中且在所述待分析视频之前上线的视频包括:除所述待预测视频集中第一个上线的视频外、且在所述待预测视频集中在所述待分析视频之前上线的视频。
本发明的一个实施例中,所述对象融合模块,包括:
中值-离散值计算子模块,用于计算所述融合对象中各个流量的中值和表征所述融合对象中各个流量的离散程度的离散值;
离群值计算子模块,用于利用所述中值和离散值,计算所述待预测视频集对应的离群值;
离群值剔除模块,用于从所述融合对象中,剔除所述离群值;
流量确定子模块,用于计算剩余流量的均值,并将所述均值作为所述待预测视频集的流量。
在本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上任一所述的视频流量预测方法。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的视频流量预测方法。
由以上可见,应用本发明实施例提供的方案预测待预测视频集流量时,根据待分析视频的流量和在待预测视频集中且在待分析视频之前上线的视频的流量,计算待分析视频对应的流量均值;确定待预测视频集的特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数;根据所确定的重要程度系数和特征数据,预测反映待分析视频对待预测视频集的流量增长趋势的影响程度的增值系数,并利用增值系数和流量均值,预测待预测视频集的流量。相对于现有技术而言,本发明实施例提供的方案中,不再仅利用开播初期上线的视频集的各视频的流量预测整个视频集的流量,而是利用反映视频集中已上线视频对视频集的流量增长趋势的影响程度,来预测视频集的流量。也就是,预测待预测视频集的流量时,考虑了待预测视频集中的待分析视频对待预测视频集的流量增长趋势的影响程度。因此,相对于现有技术而言,考虑的信息更加丰富、全面,所以能够提高视频集的流量预测的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1a为本发明实施例提供的第一种视频集流量预测方法的流程示意图;
图1b为本发明实施例提供的第二种视频集流量预测方法的流程示意图;
图2为本发明实施例提供的第三种视频集流量预测方法的流程示意图;
图3为本发明实施例提供的第四种视频集流量预测方法的流程示意图;
图4为本发明实施例提供的一种系数集获得方法的流程示意图;
图5为本发明实施例提供的一种预测电视剧流量的框架图;
图6为本发明实施例提供的第一种视频集流量预测装置的结构示意图;
图7为本发明实施例提供的第二种视频集流量预测装置的结构示意图;
图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于应用现有技术预测视频集的流量时,存在准确度低的问题,为解决这一技术问题,本发明实施例提供了一种视频集流量预测方法及装置。
本发明的一个实施例中,提供了一种视频集流量预测方法,该方法包括:
获取待预测视频集的特征数据;
从待预测视频集中选择一个已上线视频作为待分析视频,按照流量预测方式预测待预测视频集的流量;
其中,上述流量预测方式包括:
根据待分析视频的流量和在待预测视频集中且在待分析视频之前上线的视频的流量,计算待分析视频对应的流量均值;
确定所获取的特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数,其中,上述指定排序为待分析视频在待预测视频集中的排序;
根据所确定的重要程度系数和所获取的特征数据,预测反映待分析视频对待预测视频集的流量增长趋势的影响程度的增值系数;
利用增值系数和流量均值,预测待预测视频集的流量。
由以上可见,应用本实施例提供的方案进行流量预测时,不再仅利用开播初期上线的视频集的各视频的流量预测整个视频集的流量,而是利用反映视频集中已上线视频对视频集的流量增长趋势的影响程度的增值系数预测视频集的流量。也就是,预测待预测视频集的流量时,考虑了待预测视频集中的待分析视频对待预测视频集的流量增长趋势的影响程度。因此,相对于现有技术而言,考虑的信息更加丰富、全面,所以能够提高视频集的流量预测的准确度。
参见图1a,图1a为本发明实施例提供的第一种视频集流量预测方法的流程示意图,该方法包括:
步骤11,获取待预测视频集的特征数据。
本发明的一个实施例中,待预测视频集可以是具有同一主题的单个视频的集合。
具体的,上述主题可以是基于以下信息中的至少一种确定的:视频集的名称、视频的发布时间段等。其中,视频的发布时间段可以依据视频发布的绝对时间确定,例如,发布时间为2000年1月1日等,还可以是依据视频所属的系列确定,例如,第一季、第二季等等。
鉴于上述情况,一种实现方式中,上述具有同一主题的单个视频的集合可以为:名称中包含同一视频集名称的视频的集合。
具体的,一部电视剧的每集视频的名称中均包含该电视剧的名称,而一般以电视剧的名称作为视频集的名称,因此,上述电视剧的每集视频的集合为具有同一主题的单个视频的集合,也就是,上述电视剧的每集视频的集合为上述电视剧对应的视频集。如,“红楼梦”这一电视剧包含50集视频,每一集视频的名称分别为“红楼梦_1”、“红楼梦_2”、……、“红楼梦_50”,这50集视频的名称中均包含电视剧的名称“红楼梦”,可以认为这50集视频是具有同一主题的单个视频,则这50集视频的集合为“红楼梦”这一电视剧对应的视频集。
另一种实现方式中,上述具有同一主题的单个视频的集合还可以为:属于同一系列的视频的集合。
具体的,一档综艺节目的每集视频的名称往往不同,但每集视频都是基于该档综艺节目的视频,也就是属于一个系列的视频,因此,该档综艺节目的每集视频的集合为具有同一主题的单个视频的集合,也就是,上述一档综艺节目的每集视频的集合为该档综艺节目对应的视频集。如,“爸爸去哪儿”这一档综艺节目的第一季中包括多集视频,但是由于每一集视频中嘉宾参与节目的地点不同,每一集视频的名称不同,但是各集视频都是基于“爸爸去哪儿”第一季的视频,也就是,都是属于“爸爸去哪儿”第一季的视频,是属于同一系列的视频,因此,上述“爸爸去哪儿”第一季中包括的各集视频的集合是具有同一主题的单个视频的集合,则上述各集视频的集合为“爸爸去哪儿”第一季对应的视频集。
需要说明的是,本发明实施例仅仅以上述为例进行说明,并不限定具有同一主题的单个视频的集合为包含同一视频集名称的集合、属于同一系列的视频的集合,只要具有相似属性的视频的集合均可。
针对上述特征数据的具体描述以及获取上述特征数据的具体实施方式将在后面实施例中进行一一详细描述,这里暂不详述。
步骤12,从待预测视频集中选择一个已上线视频作为待分析视频,按照流量预测方式预测待预测视频集的流量。
其中,从待预测视频集中选择一个已上线视频的步骤,既可以是任选一个已上线视频,还可以是根据经验或要求按视频的顺序号选择一个已上线视频。本发明实施例仅仅以此为例进行说明,并不对选择待分析视频的方式进行限定。
其中,待预测视频集的流量可以为在一定时间段内待预测视频集中视频的访问量。具体地,上述一定时间段可以为:从该待预测视频集中第一个视频上线的时间到当前时间为止的时间段。
在一种实现方式中,步骤12的流量预测方式可以通过如下图1b所示的步骤121~步骤124实现。
步骤121,根据待分析视频的流量和在待预测视频集中且在待分析视频之前上线的视频的流量,计算待分析视频对应的流量均值。
一个视频集中往往包含多个视频,在对视频集的流量进行预测时,视频集中每一已上线视频的流量均会对该视频集的流量预测结果产生影响。一个视频所表现的内容仅仅为整个视频集表现内容的一部分,这样来看一个视频的流量在整个视频集的流量中属于短期流量表现。而一个视频和在其之前上线的各个视频所表现的内容相对于该一个视频所表现的内容多,且一个视频集内依次上线的各个视频所表现的内容之间往往具有延续性,也就是,一个视频与在其之前上线的各个视频所表现的内容之间是具有关联性的,这样来看一个视频和在其之前上线的各个视频的流量在整个视频集的流量中属于较为长期的流量表现。长期的流量表现相对于短期流量表现而言,对整个视频集的流量更加具有表征性。
另外,一个视频所表现内容的精彩程度会对视频的流量带来影响,例如,所表现内容精彩的视频的流量大于所表现内容平淡的视频的流量。而单一的一个视频所表现的内容精彩并不能表示整个视频集所表现的内容精彩,同理,单一的一个视频所表现的内容平淡也不能表示整个视频集所表现的内容平淡。鉴于此,基于单一视频的流量预测整个视频集的流量可能会导致预测结果不准确。而多个视频所表现内容的精彩程度能够较大程度的反映整个视频集所表现内容的精彩程度。因此,不能使用剧情平淡集视频或剧情精彩集视频来反映该电视剧的流量,也就是说,一个视频的流量并不能够准确的反映出该视频所属视频集的流量,所以直接用每一视频的流量来衡量一个视频集的内容质量和用户喜爱程度略有不合理。
综合上述情况,本发明实施例提供的方案中,在基于上述待分析视频预测上述待预测视频集的流量时,不仅考虑了待分析视频的流量,还考虑了待预测视频集中在待分析视频之前上线的其他视频的流量,即本实施例使用待分析视频的流量均值来表示待分析视频的流量表现情况。
本发明的一个实施例中,待分析视频对应的流量均值可以为:上述待分析视频的流量与在待分析视频之前上线的视频的流量的均值。且在待分析视频之前上线的视频,可以是在待分析视频之前上线的所有视频,也可以是满足待分析视频之前上线条件的部分视频。
示例性的,假设,待预测视频集包含5个已上线视频,这5个视频的流量分别记为V1、V2、V3、V4和V5。当待分析视频为第1个上线的视频时,由于第1个上线的视频之前没有已上线的视频,因此,第1个上线的视频对应的流量均值VV1=V1;当待分析视频为第2个上线的视频时,由于第2个上线的视频之前已上线的视频为第1个上线的视频,因此,第2个上线的视频对应的流量均值VV2=(V1+V2)/2;以此类推,当待分析视频为第3个上线的视频时,由于第3个上线的视频之前已上线的视频为第1个上线的视频和第2个上线的视频,因此,第3个视频的流量均值VV3=(V1+V2+V3)/3;当待分析视频为第4个上线的视频时,由于第4个上线的视频之前已上线的视频为第1个上线的视频、第2个上线的视频和第3个上线的视频,因此,第4个视频的流量均值VV4=(V1+V2+V3+V4)/4;当待分析视频为第5个上线的视频时,由于第5个上线的视频之前已上线的视频为第1个上线的视频、第2个上线的视频、第3个上线的视频和第4个上线的视频,因此,第5个视频的流量均值VV5=(V1+V2+V3+V4+V5)/5。
步骤122,确定所获取的特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数。
其中,指定排序为待分析视频在待预测视频集中的排序。具体的,上述排序可以理解为:视频在视频集包含的各个视频对应的排列队列中的顺序号。
一种情况下,上述指定排序为:待分析视频在第一队列中的顺序号,其中,第一队列为:按照各个视频的标识号,对待预测视频集中的各个视频进行排列形成的队列。例如,在上述视频集为一部电视剧对应的视频集的情况下,各个视频的标识号可以理解为电视剧的每一集视频的集号。对于一部20集的电视剧,该电视剧对应的视频集中包括20集视频,这20集视频的集号依次为:1、2、……、20,则按照上述集号对各个视频排序形成的队列可以为:第1集视频、第2集视频、……、第19集视频、第20集视频。当待分析视频为第5集视频时,待分析视频为上述队列中的第5个视频,则上述指定排序为5。
另一种情况下,上述指定排序为:待分析视频在第二队列中的顺序号,其中,第二队列为:按照各个视频的上线时间,对待预测视频集中的各个视频进行排列形成的队列。例如,对于一部包含1集先导预告片、5集已上线视频的电视剧和5集已上线电视剧的花絮视频(上述视频均已上线),,先导预告片的上线时间为2018年12月20日11:00,第1集的上线时间为2019年8月20日20:00,第1集花絮的上线时间为2019年8月22日20:00,第2集的上线时间为2019年8月27日20:00,第2集花絮的上线时间为2019年8月29日20:00,第3集的上线时间为2019年9月3日20:00,第3集花絮的上线时间为2019年9月5日20:00,第4集的上线时间为2019年9月10日20:40,第4集花絮的上线时间为2019年9月12日20:00,第5集的上线时间为2019年9月17日20:00,第5集花絮的上线时间为2019年9月19日20:00,则按照上线时间对各个视频排列形成队列为:先行预告片、第1集电视剧、第1集花絮、第2集电视剧、第2集花絮……、第5集电视剧、第5集花絮。当待分析视频为第2集视频时,待分析视频为上述队列中的第4个视频,则上述指定排序为4。
用户在观看视频集中的视频时,因不了解视频集中视频的内容,一般先从排序最靠前的视频看起,而后才决定要继续依次观看该视频集中的其他视频,还是跳过该视频集中的若干个视频继续看后续的视频,还是不在继续观看该视频集中的视频。鉴于这样的情况,可能会存在同样的视频在视频集中所处的排序不同,该视频被访问的概率也不同,其带来的流量也不同,因此,本申请针对视频集中视频的排序设定对应的重要程度系数,例如,视频集中排序最靠前的视频所带来的流量相对较高,因此可以为排序在第一位、第二位的视频设置相对较低的重要程度系数。
本发明的一个实施例中,可以预先确定视频集中各个排序对应的重要程度系数,各个排序对应的重要程度系数构成系数集,这样可以从上述系数集中直接选择指定排序对应的重要程度系数,作为上述特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数。
本发明的另一个实施例中,可以将指定排序作为输入参数,输入预先训练的系数预测模型,由上述系数预测模型预测上述特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数。
其中,系数预测模型可通过将样本视频集中的样本视频作为输入值,输入到原始系数预测模型中,得到该样本视频的输出值,通过将输出值与样本视频的实际流量值输入损失模型中,判断该损失模型是否收敛,来确定是否需要调整原始系数预测模型的参数再次训练。具体的,原始系数预测模型可以是线性回归模型或非线性回归模型。其中,非线性回归模型可以为决策回归树、随机森林、KNN(k-NearestNeighbor,简称“k最邻近分类算法”)等。且样本视频集中的视频为具有同一主题且已上线的视频。
本申请为便于理解和实现,在后续实施例中还列举了确定重要程度系数的步骤,但后续实施例中所述的方法并非唯一实现方法。
步骤123,根据所确定的重要程度系数和所获取的特征数据,预测反映待分析视频对待预测视频集的流量增长趋势的影响程度的增值系数。
具体的,待分析视频对待预测视频集的流量增长趋势的影响可能是正向的,也可能负向的,或者完全无影响,因此,上述增值系数可能是正数、负数或零。
本发明的一个实施例中,待预测视频集的特征数据可能存在不止一种特征数据的情况,因此,上述步骤122在确定重要程度系数时,可以确定出每一特征数据的重要程度系数,在此基础上可以基于加权求和的方式,对待预测视频集的特征数据以及每一特征数据的重要程度系数进行数据处理,进而得到上述增值系数。例如,待预测视频集的特征数据分别为S1、S2、S3、S4和S5,该预测视频集中的第二个视频的重要程度系数分别为W1、W2、W3、W4和W5,则上述增值系数y可以满足以下表达式:lny=S1W1+S2W2+S3W3+S4W4+S5W5
步骤124,利用上述增值系数和流量均值,预测待预测视频集的流量。
本发明的一个实施例中,在预测上述待预测视频集的流量时,可以将上述增值系数与上述流量均值的乘积作为上述待预测视频集的流量的预测值。
由此可见,相对于现有技术而言,本上述各个实施例提供的方案中,不再单一利用上线视频的流量预测,而是综合考虑了上线视频的流量以及该视频对其所属视频集的流量增长趋势的影响程度进行预测。
本发明的一个实施例中,如图2所示,相对于前述图1所示实施例,上述视频集流量预测方法还包括步骤13~步骤14。
步骤13,以待预测视频集中未被选择的已上线视频作为上述待分析视频,按照上述流量预测方式预测待预测视频集的流量。
其中,本步骤中上述流量预测方式也可以通过上述图1b所示的步骤121~步骤124实现,这里不再赘述。
本发明的一个实施例中,在步骤13之后,在步骤14之前,该方法还包括:判断待预测视频集中是否存在未被选择的已上线视频,若存在则继续执行步骤13,否则执行步骤14。
本发明的另一个实施例中,在步骤13之后,在步骤14之前,该方法还包括:确定待预测视频集中被选择过的视频的数量,并判断该数量是否达到预测数量标准,若是则执行步骤14,否则继续执行步骤13。其中,预测数量标准可以是根据经验值预先设定的,当达到该预测数量标准后,即可对预测得到的流量进行融合,得到待预测视频集的流量。
根据视频集中不同排序对应的视频,对该视频集进行预测,可使得流量预测更精准,且相较于针对视频集中的所有视频均进行预测的方法,计算效率会有所提升,但若对精准度要求较高,则可选用针对视频集中每一视频均预测一视频集的流量的方法。
步骤14,以所有预测得到的流量为一个融合对象,对上述融合对象中的流量进行融合处理,得到待预测视频集的流量。
其中,融合对象中包括通过步骤12和步骤13预测到的所有流量,这样融合对象中包括至少两个预测得到的待预测视频集的流量。
本发明的一个实施例中,对上述融合对象中的流量进行融合处理时,可以采用为每一视频预设其对应的权重系数,然后通过对视频的流量进行加权计算的方式进行融合处理,还可以计算融合对象中各个流量的均值,作为融合处理的结果。
本发明的另一个实施例中,由于统计已上线视频的流量时可能存在误差的问题,为此进行上述融合处理时,可以先从融合对象中剔除离群流量,然后对剩余的流量进行融合处理。
可见,本实施例提供的方案中,基于待预测视频集中至少两个已上线视频分别预测待预测视频集的流量,并对预测得到的流量进行融合处理,得到待预测视频集的流量,这样最终得到的待预测视频集的流量综合考虑了多个已上线视频的流量对待预测视频集流量的影响,考虑的信息更加全面,预测得到的流量更加准确。
本发明的一个实施例中,如图3所示,步骤14的具体实现方式包括步骤141~步骤144。
步骤141,计算融合对象中各个流量的中值和表征融合对象中各个流量的离散程度的离散值。
本步骤的融合对象包括多个预测得到的待预测视频集的流量。
本发明的一个实施例中,可以按照如下方式确定上述融合对象中各个流量的中值,具体为:按照大小对融合对象中各个流量进行排序,当融合对象所包含流量的数量为奇数时,将排序后居于中间位置的流量作为该融合对象中各个流量的中值,当融合对象所包含流量的数量为偶数时,将排序后居于中间位置的两个流量的均值作为该融合对象中各个流量的中值。
本发明的一个实施例中,可以按照公式确定上述融合对象中各个流量的离散值,上述公式
Figure BDA0002311066420000161
其中,A为离散值,U为融合对象中流量的数量,i为融合对象中流量所属的序号,r为融合对象中各个流量的均值,xi的值为融合对象中序号为i的流量。
由于上述中值以及离散值为针对融合对象中各个流量的统计值,能够反映出融合对象中各个流量之间的统计关系,例如,一个流量接近于融合对象中各流量的聚集中心、一个流量远离于上述聚集中心等,因此,借助上述中值以及离散值可以确定出融合对象包括的流量中与其他流量之间差异较大的流量。
步骤142,利用上述中值和离散值,计算待预测视频集对应的离群值。
其中,上述离群值是指融合对象中取值与其他流量差异较大的流量。
本发明的一个实施例中,可以通过如下步骤1421~步骤1423计算待预测视频集对应的离群值:
步骤1421,按照以下第一表达式计算下限值。
第一表达式为:P1=N-f·A。
其中,P1表示上述下限值,N表示预测得到的流量的中值,A表示预测得到的流量的离散值,f表示倍数。
步骤1422,按照第二表达式计算上限值。
第二表达式为:P2=N+f·A。
其中,P2表示上述上限值。N表示预测得到的流量的中值,A表示预测得到的流量的离散值,f表示倍数。
具体的,上述f可以是预先设定的,其取值为3或4。
步骤1423,将融合对象中大于上限值P2或小于下限值P1的范围内的流量,确定离群值。
这样按照上述第一表达式和第二表达式分别计算上限值和下限值后,能够较为准确的确定出待预测视频对应的离群值。
步骤143,从上述融合对象中,剔除上述离群值。
步骤144,计算剩余流量的均值,并将上述均值作为待预测视频集的流量。
上述剩余流量为从融合对象包括的流量中排除离群值后剩余的流量。也就是,上述剩余流量为剔除融合对象中与其他流量差异大的流量后剩余的流量。
基于上述步骤1423,上述剩余流量可以为大于等于P1以及小于或等于P2的流量。
可见,本实施例提供的方案中,从融合对象包含的流量中剔除离群值,也就是,剔除了融合对象中的流量噪声,剩余的流量能够更加真实的反映待预测视频集的流量。因此,应用本实施例提供的方案预测出的待预测视频集的流量,能够更加真实和准确反映待预测视频集的流量。
本发明的一个实施例中,步骤122中确定所获取的特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数时,可以通过如下步骤1221实现。
步骤1221,从预设的系数集中,选择指定排序对应的重要程度系数。
其中,预设的系数集中包括各个视频排序对应的重要程度系数,每一视频排序对应的重要程度系数为:视频集的特征数据在基于该视频排序对应的视频进行流量预测时的重要性程度系数。
示例性的,如果指定排序为4,则在系数集中查找取值为4的视频排序,然后从系数集中选择取值为4的视频排序对应的重要性程度系数。
由于上述系数集是预先获得的,所以,按照指定排序可以快速、准确地选择指定排序对应的重要程度系数,而无需再通过繁杂的计算过程计算指定排序对应的重要程度系数,从而可以提高流量预测的效率。
用户往往会受到针对新上线视频集的运营活动和外宣力度的影响,抱着试试看的心理,试看视频集中第一个上线的视频后,再决定是否追看后续视频,因此,第一个上线的视频的流量中存在由于被动播放而产生的流量。
另外,看了第一个上线的视频的用户中有些选择不再追看后续视频,这些用户属于“浅播放”用户,鉴于存在这样的情况,虽然第一个上线的视频的流量较高,但是第二个上线的视频、第三个上线的视频、第四个上线的视频等前几个上线的视频的流量会逐渐减少、且趋于平稳,而且越往后的上线的视频的流量越越趋于平稳、且有可能小幅减少,呈长尾表现。所以,观看后面视频的用户属于“深播放”用户。
“深播放”用户对各个视频贡献的流量能够更加准确地反应该视频集的流量,因此,为了避免第一个上线的视频的流量对预测整个视频集流量产生影响影响,本发明的一个实施例中,在待预测视频集中且在待分析视频之前上线的视频可以包括:除待预测视频集中第一个上线的视频外、且在待预测视频集中在待分析视频之前上线的视频。
在上述情况下,可以计算除待预测视频集中第一个上线的视频外、且在待预测视频集中在待分析视频之前上线的视频的流量以及待分析视频的流量的均值,作为待分析视频的流量均值。
这种情况下,对于步骤121所示的示例,剔除第1集视频的流量后,第2集视频的流量均值VV2=V2/1,第3集视频的流量均值VV3=(V2+V3)/2,以此类推,第4集视频的流量均值VV4=(V2+V3+V4)/3,第5集视频的流量均值VV5=(V2+V3+V4+V5)/4。
可见,本实施例提供的方案中,在预测待预测视频集的流量时不考虑待预测视频集中第一个上线的视频的流量,也就是去除了“浅播放”用户带来的流量,从而使得预测得到的流量更加准确。
本发明的一个实施例中,如图4所示,可以通过如下步骤410~步骤440获得步骤1221中的系数集。
步骤410,获取样本视频集的样本特征数据。
其中,上述样本视频集中所有视频均已上线,且所述样本视频集可以分按照样本视频集中视频上线周期进行划分为周播视频集和日播视频集,周播视频集为每周中上线视频的天数小于7天的视频集,日播视频集为每周中的每一天均上线视频的视频集。
例如:可以从某一视频网站上获取大于预设数量的电视剧对应的视频集,作为样本视频集。例如,上述预设数量可以为400、500、600等,当预设数量为400时,可以从这400多部视频集中选出周播视频集,记为一类样本视频集,余下的视频集就是日播视频集,记为另一类样本视频集。
另外,上述样本视频集均是按照如下方式进行筛选后获得的,具体可以为:从初选的视频集中过滤掉视频集中视频数量不足10个的视频集,过滤掉更新天数不足1周的视频集,以及过滤掉停播或断播等非常规视频集,将过滤后的初选的视频集作为样本视频集,在之后的时间段内,随着新的视频集所包括的视频均已上线后,可以按照上述方式对新的视频集进行筛选,将筛选后的的视频集加入样本视频集中,形成的新的样本视频集,利用新的样本视频集,确定系数集,以使获得的系数集得到不断优化的效果,进而提高系数集的准确度。
本发明的一个实施例中,样本特征数据可以包括以下信息中的至少一种:样本视频集的属性信息、样本视频集中视频的排播信息、样本视频集中各个视频的流量、样本视频集的用户播放行为信息、样本视频集新增用户和留存用户的变化信息、样本视频集在第一预设平台的流量以及第二预设平台提供的样本视频集受欢迎程度排序等。这样上述样本特征数据能够全面和准确地表征样本视频集。
其中,样本视频集的属性信息可以包括:类型、系列、题材、集数、集时长、网络平台、电视台情况、竞争对手情况、同时期热播剧情况等。
样本视频集中视频的排播信息可以包括:开播时间、完结时间、更新天、更新周、首周会员集、首周非会员集、会员提前集数、周更新转免天、周更新转免集等。
样本视频集中各个视频的流量可以包括:开播初期日正片流量均值、日正片流量均值、日移动端正片流量均值、日播放流量均值、每集日流量均值等。
样本视频集的用户播放行为信息可以包括:开播前后视频网站整体流量日数据、电视剧频道流量日数据、该视频集的流量日数据、播放用户量数据等。
样本视频集新增用户和留存用户的变化信息可以包括:日新增用户量、日播放用户留存率、新增留存率等信息。
样本视频集在第一预设平台的流量可以包括:剧集在第一预设平台的每日播放用户量、新增播放用户量、播放次日留存用户量、新增次日留存用户量等。
第二预设平台提供的样本视频集受欢迎程度排序可以包括:开播前后剧名每日在第二预设平台网站中的排名数据。
步骤420,针对样本视频集中每一视频排序对应的待分析样本视频,根据待分析样本视频的流量和在样本视频集中待分析样本视频之前上线的视频的流量,计算待分析样本视频的样本流量均值,并利用样本流量均值和集流量均值,计算反映待分析样本视频对样本视频集的流量增长趋势的影响程度的样本增值系数。
其中,待分析样本视频为样本视频集中除最后上线的视频以外的视频,集流量均值为样本视频集中所有视频的流量的均值。
由于已知视频集中最后一个上线的视频的流量后,意味着已经可以得知视频集中每一视频的流量,这样也就无需再去预测视频集的流量了。基于此,本发明的一个实施例中,可以将样本视频集中除最后上线的视频以外的视频作为待分析样本视频。
上述样本流量均值为样本视频集中每一个视频的流量均值。
本发明的一个实施例中,反映待分析样本视频对样本视频集的流量增长趋势的影响程度的样本增值系数可以为:该待分析样本视频所属样本视频集的集流量均值与该待分析样本视频的样本流量均值的比值。该比值能够准确地反映出待分析样本视频对样本视频集的流量增长趋势的影响程度。
为了避免第一个上线的样本视频的流量对预测整个样本视频集流量产生不良影响,本发明的一个实施例中,在样本视频集中待分析样本视频之前上线的视频可以包括:除样本视频集中第一个上线的视频外、且在样本视频集中在待分析样本视频之前上线的视频。
其中,待分析样本视频可以为样本视频集中除去第一个上线的视频外的任一视频。
步骤430,针对每一视频排序对应的待分析样本视频,对样本特征数据和待分析样本视频对应的样本增值系数进行线性回归,得到采用视频排序对应的待分析样本视频进行流量预测时样本特征数据的重要程度系数。
上述线性回归,是利用数理统计中回归分析确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
由于上述样本特征数据的个数一般为多个,又由于基于线性回归分析适用于多个因素综合影响的情况,因此,应用本实施例提供的方案,可以分析多个样本特征数据在基于每一样本视频进行样本视频集流量预测时的重要程度系数。
基于上述情况,本发明的一个实施例中,可以以重要程度系数和误差参数为自变量,以lnyl为因变量,则上述自变量和因变量满足的线性回归公式可以为:
Figure BDA0002311066420000211
其中,yl表示视频排序为l的待分析样本视频的样本增值系数,Xls为视频排序为l的待分析样本视频所属样本视频集的第s个样本特征数据,als为Xls的重要程度系数,k为一个样本视频集的样本特征数据的总数,n为样本视频集中待分析样本视频的总数,bl为样本特征数据在基于视频排序为l的待分析样本视频进行流量预测时的误差参数。
又由于针对样本视频集中每一视频排序对应的待分析样本视频,上述待分析样本视频对应的样本增值系数可以利用该待分析样本视频所属样本视频集的集流量均值和该待分析样本视频的样本流量均值获得,从而可以得到待分析样本视频对应的样本增值系数。基于此,表示视频排序为l的待分析样本视频的样本增值系数的yl可以通过视频排序为l的待分析样本视频的样本流量和所属样本视频集的集流量均值确定,所以可以得到上述线性回归公式中的lnyl
在上述基础上,对于线性回归公式而言,已知了因变量,那么可以得到作为自变量的各个待分析样本视频排序对应的als和bl
另外,由于误差参数一般较小,所以,本发明的一个实施例中,可以忽略上述误差参数,这样可以加快预测样本视频集的流量的速度。那么在此基础上,本步骤仅需得到采用视频排序对应的待分析样本视频进行流量预测时样本特征数据的重要程度系数。
步骤440,生成包含所得重要程度系数的系数集。
由上描述可知,上述系数集中包括:基于样本视频集中各个视频排序对应的待分析样本视频进行流量预测时样本特征数据的重要程度系数。
系数集中重要程度系数所在的行或列与视频排序具有一一对应关系。上述系数集可以按照如下描述的矩阵表示。
系数集为:
Figure BDA0002311066420000221
矩阵中第1行中的a11,……,a1k分别表示第1-k个特征数据在视频排序为1时的重要程度系数,al1,……,alk分别表示第1-k个特征数据在视频排序为l时的重要程度系数,an1……,ank分别表示第1-k个特征数据在视频排序为n时的重要程度系数。
基于上述描述可知,系数集还可以包括各个视频排序对应的重要程度系数和各个视频排序对应的误差参数。上述用矩阵表达的系数集还可以为如下所示的矩阵。
系数集为:
Figure BDA0002311066420000231
b1,…,bl,…,bn分别表示特征数据在基于视频排序分别为1,…,l,…n的视频进行流量预测时的误差参数。
由于上述系数集是利用每一待分析样本视频对应的样本流量均值、各个待分析样本视频所属样本视频集的集流量均值和各个样本视频集的样本特征数据进行线性回归分析获得的集合。可见,该系数集所参考的样本视频集的信息不仅丰富,而且全面,这样得到系数集中重要程度系数更加准确。
另外,本实施例提供的方案中是利用样本特征数据和待分析样本视频对应的样本增值系数,基于线性回归技术生成包括重要程度系数的系数集的。由于线性回归技术的引入,不仅使得计算过程简单,还可以使得生成上述系数集的过程能够准确地参考各个样本特征数据之间的相关程度以及回归拟合程度。
在本发明的另一个实施例中,步骤122中确定所获取的特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数时,可以将上述指定排序输入至预设的系数预测模型中,获得反映指定排序对应的待分析视频对待预测视频集进行流量预测时的重要程度系数。
其中,上述系数预测模型为:利用样本视频集中各个视频排序对应的待分析样本视频的样本增值系数和样本视频集的样本特征数据对回归模型进行训练得到模型。待分析样本视频的样本增值系数可以为集流量均值与该待分析样本视频的样本流量均值的比值。
本发明的一个实施例中,系数预测模型的训练方法包括如下步骤:
获取样本视频集的样本特征数据。
针对样本视频集中每一视频排序对应的待分析样本视频,根据待分析样本视频的流量和在样本视频集中待分析样本视频之前上线的视频的流量,计算待分析样本视频的样本流量均值,并利用样本流量均值和集流量均值,计算反映待分析样本视频对样本视频集的流量增长趋势的影响程度的样本增值系数。
将得到的样本增值系数和样本特征数据输入至线性回归模型中,得到初始回归模型。
获得各个视频排序对应的待分析样本视频的重要程度系数作为系数标注;
以待分析样本视频的视频排序作为输入参数,利用系数标注,对初始回归模型的模型参数进行训练,以得到用于预测一个视频集中各个视频排序对应的重要程度系数的模型。
可见,本实施例将上述指定排序输入至预设的系数预测模型中,获得反映指定排序对应的待分析视频对待预测视频集进行流量预测时的重要程度系数,相对于现有技术而言,该系数预测模型考虑了样本视频集中较全面的特征数据,因此本实施例能够通过系数预测模型快速准确地得到各个视频排序对应的重要程度系数。
本发明的一个实施例中,步骤123中预测增值系数的具体实现方式可以包括如下步骤:
按照以下表达式,预测反映待分析视频对待预测视频集的流量增长趋势的影响程度的增值系数y;
上述表达式为:
Figure BDA0002311066420000241
其中,xs表示所获取的特征数据中第s个特征数据,as为所确定的重要程度系数中xs的重要程度系数,k为所获取的特征数据的总数,b为所获取的特征数据在基于指定排序对应的视频进行流量预测时的误差参数。
当l为指定排序时,由上述表达式
Figure BDA0002311066420000242
可以得到
Figure BDA0002311066420000243
可见,本实施例提供的方案中,在预测增值系数时既考虑了特征数据在基于指定排序对应的待分析视频对待预测视频集进行流量预测时的重要程度系数,又考虑特征数据在基于指定排序对应的视频进行流量预测时的误差参数,因此,应用本实施例提供的方案能够更加准确地预测得到待分析视频的增值系数。
本发明的一个实施例中,步骤124中利用上述增值系数和流量均值,预测待预测视频集的流量的具体实现方式可以包括如下步骤:
按照以下表达式,预测待预测视频集的流量P:
上述表达式:P=y·(F·m);
其中,F表示上述流量均值,m表示待预测视频集中视频的个数,y为上述增值系数。
可见,本发明实施例利用能够反映待分析视频流量情况的流量均值和反映待分析视频对待预测视频集的流量增长趋势的影响程度的增值系数能够更加全面、准确地预测待分析视频所属待预测视频集的流量。
本发明的一个实施例中,上述特征数据可以包括以下信息中的至少一种:待预测视频集的属性信息、待预测视频集中视频的排播信息、待预测视频集中各个视频的流量、待预测视频集的用户播放行为信息、待预测视频集新增用户和留存用户的变化信息、待预测视频集在第一预设平台的流量以及第二预设平台提供的待预测视频集受欢迎程度排序。
上述第一预设平台可以为视频网站。例如,上述第一预设平台可以是爱奇艺视频网站,也可以是腾讯视频网站,还可以是华为视频网站等,本发明实施例对此并不限定。
上述第二预设平台可以为搜索引擎网站。例如,上述第二预设平台可以是百度,也可以是google,还可以是搜狗搜索等,本发明实施例对此并不限定。
本发明的一个实施例中,步骤11中获取待预测视频集的特征数据,具体包括步骤111~步骤112。
步骤111,提取用于衡量待预测视频集流量的数据。
其中,上述数据可以从数据库中提取如表1中所示的信息。
表1
Figure BDA0002311066420000261
步骤112,对提取的数据进行预处理,得到待预测视频集的特征数据。
其中,可以对提取的数据按照如下步骤进行上述预处理:
首先,去除上述提取数据的噪声数据,并对去除噪声后的数据进行缺失值填充、四则运算、ln变换、离散化等初步处理,上述ln变换是对数据变换成底数为e的对数。
其次,计算初步处理的数据,得到特征数据。
这些计算可以是同一类信息进行内部计算,不同类信息进行外部交叉计算。比如,若第二预设平台为百度时,这些数据包括百度指数增长率和播放量增长率,上述计算可以为百度指数增长率除以播放量增长率,得到一个特征数据。通过对上述用于衡量待预测视频集流量的数据按照上述描述进行计算后,得到待预测视频集的特征参数。
对提取的用于衡量待预测视频集流量的数据进行预处理,不仅能够去除提取的数据的噪声数据,还能够得到更有利于衡量待预测视频流量的特征数据。
如果第一预设平台为爱奇艺网站,第二预设平台为百度网站,则表1中用于衡量该待预测视频集的数据可按照步骤112进行预处理后,得到如表2所示的特征数据。
表2
Figure BDA0002311066420000271
可见,本实施例对提取的用于衡量待预测视频集流量的数据进行预处理,不仅能够去除提取的数据的噪声数据,还能够得到更有利于衡量待预测视频流量的特征数据。
基于上述对视频集流量预测方法的描述,本发明实施例提供一个具体示例进行详细描述,该示例为预测名称为“在远方”的电视剧的流量,设该电视剧现已上线j集,如图5所示,具体方法为:
第一步,获取“在远方”这一电视剧对应的视频集的特征数据,例如,将这一电视剧的以下信息作为该电视剧对应的视频集的特征数据,记为:{R1、R2、……、R6}。
“在远方”这一电视剧的属性信息R1,如导演为陈昆晖,主演为刘烨和马伊琍,电视台为浙江卫视和东方卫视,都市创业系列;
“在远方”这一电视剧的排播信息R2,如2019年9月22日开始上线,每天更新两周,每周更新12集视频,会员预先看2集视频;
“在远方”这一电视剧的各个已上线剧集的流量R3,如第2集视频的流量,……,第j集视频的流量;
“在远方”这一电视剧的用户播放行为信息R4,如爱奇艺日播放量,东方卫视日播放量,浙江卫视日播放量;
获取“在远方”这一电视剧在爱奇艺网站的流量R5,如日新增用户量、日播放用户留存率、新增留存率等;
获取以百度网站提供的“在远方”这一电视剧的受欢迎程度排序R6,如每日百度指数、百度指数均值、百度指数峰值、百度指数增长率等。
第二步,在指定排序分别为2、3、……j的情况下,分别从已经构建的系数集中选择上述特征数据{R1、R2、……、R6}在基于第2集视频预测上述电视剧的流量时的重要程度系数,记为s21、……、s26,选择上述特征数据{R1、R2、……、R6}在基于第3集视频预测上述电视剧的流量时的重要程度系数,记为s31、……、s36,……,选择上述特征数据{R1、R2、……、R6}在基于第j集视频预测上述电视剧的流量时的重要程度系数集,记为sj1、……、sj6
将“在远方”这一电视剧中第2集视频的流量,记为Y2,第3集视频的流量,记为Y3,……,第j集视频的流量,记为Yj,则上述第2集视频的流量均值,记为F2,F2=Y2,第3集视频的流量均值,记为F3,F3=(Y2+Y3)/2,……,第j集视频的流量均值,记为Fj,Fj=(Y2+……+Yj)/(j-1)。
利用上述特征数据{R1,R2……R6}和上述s21、……s26,预测第2集视频对上述电视剧的流量增长趋势的影响程度的增值系数X2,X2=exp(s21*R1+……+s26*R6);
利用上述特征数据{R1,R2……R6}和上述s31、……s36,预测第3集视频对上述电视剧的流量增长区域的影响程度的增值系数X3,X3=exp(s31*R1+……+s36*R6);
……
利用上述特征数据{R1,R2……R6}和上述sj1、……sj6,预测第j集视频对上述电视剧的流量增长区域的影响程度的增值系数Xj,Xj=exp(sj1*R1+……+sj6*R6)。
在预测得到上述X2、X3……Xj以及上述F2、F3……Fj后,基于第2集视频预测得到上述电视剧的流量,记为K2,K2=X2*F2*1,基于第3集视频预测得到上述电视剧的流量,记为K3,K3=X3*F3*2,……,基于第j集视频预测得到上述电视剧的流量,记为Kj,Kj=Xj**Fj*(j-1)。
第三步,将预测得到的流量按照大小进行排序,队列中包括K2,K3,……,Kj共计j-1个流量,当j-1为奇数时,将位于排序后队列中间位置的流量作为上述视剧的流量的中值Nm。当j-1为偶数时,将位于排序后队列中间位置的流量的均值作为上述电视剧的流量的中值Nm。并按照公式
Figure BDA0002311066420000291
计算上述队列中流量的离散值A。基于上述电视剧,U的值为j-1,i的值为j-1个流量中任一流量所属的序号,r的值为j-1个流量的均值,xi的值为j-1个流量{K2,K3,……,Kj}中序号为i的流量。
第四步,在第三步得到中值和离群值后,按照公式P1=N-f·A计算下限值P1,按照公式P2=N+f·A计算上限值P2,将从第二步中预测得到的流量{K2,K3,……,Kj}中大于上限值P2或小于下限值P1的范围内的流量确定为离群值。其中,上述公式中N的值为第三步获得的流量{K2,K3,……,Kj}的中值,A为第三步获得的流量{K2,K3,……,Kj}的离散值,f表示倍数,f取3。
第五步,从第二步中预测得到的流量{K2,K3,……,Kj}中剔除上述计算的离群值,得到剩余流量。
第六步,计算剩余流量的均值,并将该均值作为上述电视剧对应的视频集的流量。
图5所示的剩余流量是从第2集视频对应预测得到的流量K2、第3集视频对应预测得到的流量K3、……、第j集视频对应预测得到的流量Kj剔除离群值后得到的流量。
与上述视频集流量预测方法相对应,本发明实施例还提供了视频集流量预测的装置。
参见图6,图6为本发明实施例提供第一种视频集流量预测的装置的结构示意图,上述装置可以包括:
特征数据获取模块601,用于获取待预测视频集的特征数据;
第一视频选择模块602,用于从所述待预测视频集中选择一个已上线视频作为待分析视频,触发流量预测模块603预测所述待预测视频集的流量。
其中,所述流量预测模块603,包括:
流量均值子模块6031,用于根据待分析视频的流量和在所述待预测视频集中且在所述待分析视频之前上线的视频的流量,计算所述待分析视频对应的流量均值。
重要程度系数确定子模块6032,用于确定所获取的特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数,其中,所述指定排序为所述待分析视频在所述待预测视频集中的排序。
增值系数预测子模块6033,用于根据所确定的重要程度系数和所获取的特征数据,预测反映所述待分析视频对所述待预测视频集的流量增长趋势的影响程度的增值系数。
流量预测子模块6034,用于利用所述增值系数和所述流量均值,预测所述待预测视频集的流量。
可选的,如图7所示,上述装置还可以包括:
第二视频选择模块604,用于以所述待预测视频集中未被选择的已上线视频作为所述待分析视频,触发所述流量预测模块703预测所述待预测视频集的流量;
对象融合模块605,用于以所有预测得到的流量为一个融合对象,对所述融合对象中的流量进行融合处理,得到所述待预测视频集的流量。
可选的,重要程度系数确定子模块6032可以包括:
重要程度系数选择单元,用于从预设的系数集中,选择指定排序对应的重要程度系数,其中,所述预设的系数集中包括各个视频排序对应的重要程度系数,每一视频排序对应的重要程度系数为:视频集的特征数据在基于该视频排序对应的视频进行流量预测时的重要性程度系数。
可选的,所述装置还可以包括系数集获得模块,其中,所述系数集获得模块,包括:
样本特征数据获取子模块,用于获取样本视频集的样本特征数据,其中,所述样本视频集中的样本视频均为已上线视频。
样本流量均值计算子模块,用于针对所述样本视频集中每一视频排序对应的待分析样本视频,根据所述待分析样本视频的流量和在所述样本视频集中所述待分析样本视频之前上线的视频的流量,计算所述待分析样本视频的样本流量均值,并利用所述样本流量均值和集流量均值,计算反映所述待分析样本视频对所述样本视频集的流量增长趋势的影响程度的样本增值系数;其中,所述待分析样本视频为所述样本视频集中除最后上线的视频以外的视频,所述集流量均值为所述样本视频集中所有视频的流量的均值。
重要程度系数得到子模块,用于针对每一视频排序对应的待分析样本视频,对所述样本特征数据和所述待分析样本视频对应的样本增值系数进行线性回归,得到采用视频排序对应的待分析样本视频进行流量预测时所述样本特征数据的重要程度系数。
系数集生成子模块,用于生成包含所得重要程度系数的系数集。
可选的,所述增值系数预测子模块6033可以包括:
增值系数预测单元,用于按照以下表达式,预测反映所述待分析视频对所述待预测视频集的流量增长趋势的影响程度的增值系数y;
所述表达式为:
Figure BDA0002311066420000321
其中,xs表示所获取的特征数据中第s个特征数据,as为所确定的重要程度系数中xs的重要程度系数,k为所获取的特征数据的总数,b为所获取的特征数据在基于所述指定排序对应的视频进行流量预测时的误差参数。
可选的,所述流量预测子模块6034可以包括:
流量预测单元,用于按照以下表达式,预测所述待预测视频集的流量P:
所述表达式:P=y·(F·m);
其中,F表示所述流量均值,m表示所述待预测视频集中视频的个数,y为所述增值系数。
可选的,所述在所述待预测视频集中且在所述待分析视频之前上线的视频包括:除所述待预测视频集中第一个上线的视频外、且在所述待预测视频集中在所述待分析视频之前上线的视频。
可选的,对象融合模块605可以包括:
中值-离散值计算子模块,用于计算所述融合对象中各个流量的中值和表征所述融合对象中各个流量的离散程度的离散值。
离群值计算子模块,用于利用所述中值和离散值,计算所述待预测视频集对应的离群值。
离群值剔除模块,用于从所述融合对象中,剔除所述离群值。
流量确定子模块,用于计算剩余流量的均值,并将所述均值作为所述待预测视频集的流量。
由此可见,本发明实施例提供的装置在预测待预测视频集流量时,根据待分析视频的流量和在待预测视频集中且在待分析视频之前上线的视频的流量,计算待分析视频对应的流量均值;确定待预测视频集的特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数;根据所确定的重要程度系数和特征数据,预测反映待分析视频对待预测视频集的流量增长趋势的影响程度的增值系数,并利用增值系数和流量均值,预测待预测视频集的流量。相对于现有技术而言,本发明实施例提供的方案中,不再仅利用开播初期上线的视频集的各视频的流量预测整个视频集的流量,而是利用反映视频集中已上线视频对视频集的流量增长趋势的影响程度的增值系数预测视频集的流量。也就是,预测待预测视频集的流量时,考虑了待预测视频集中的待分析视频对待预测视频集的流量增长趋势的影响程度。因此,相对于现有技术而言,考虑的信息更加丰富、全面,所以能够提高视频集的流量预测的准确度。
本发明实施例还提供了一种电子设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
存储器803,用于存放计算机程序;
处理器801,用于执行存储器803上所存放的程序时,实现本发明实施例提供的一种视频集流量预测方法。
具体的,上述视频集流量预测方法,包括:
获取待预测视频集的特征数据;
从所述待预测视频集中选择一个已上线视频作为待分析视频,按照流量预测方式预测所述待预测视频集的流量;
其中,所述流量预测方式包括:
根据待分析视频的流量和在所述待预测视频集中且在所述待分析视频之前上线的视频的流量,计算所述待分析视频对应的流量均值;
确定所获取的特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数,其中,所述指定排序为所述待分析视频在所述待预测视频集中的排序;
根据所确定的重要程度系数和所获取的特征数据,预测反映所述待分析视频对所述待预测视频集的流量增长趋势的影响程度的增值系数;
利用所述增值系数和所述流量均值,预测所述待预测视频集的流量。
由此可见,执行本实施例提供的电子设备,通过根据待分析视频的流量和在待预测视频集中且在待分析视频之前上线的视频的流量,计算待分析视频对应的流量均值;确定待预测视频集的特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数;根据所确定的重要程度系数和特征数据,预测反映待分析视频对待预测视频集的流量增长趋势的影响程度的增值系数,并利用增值系数和流量均值,预测待预测视频集的流量。相对于现有技术而言,本发明实施例提供的方案中,不再仅利用开播初期上线的视频集的各视频的流量预测整个视频集的流量,而是利用反映视频集中已上线视频对视频集的流量增长趋势的影响程度的增值系数预测视频集的流量。也就是,预测待预测视频集的流量时,考虑了待预测视频集中的待分析视频对待预测视频集的流量增长趋势的影响程度。因此,相对于现有技术而言,考虑的信息更加丰富、全面,所以能够提高视频集的流量预测的准确度。
上述的相关内容视频流量预测方法的实施方式与前述方法实施例部分提供的视频流量预测方式相同,这里不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的视频集流量预测方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一上述的视频集流量预测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于方法、装置、电子设备和计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (17)

1.一种视频集流量预测方法,其特征在于,所述方法包括:
获取待预测视频集的特征数据;
从所述待预测视频集中选择一个已上线视频作为待分析视频,按照流量预测方式预测所述待预测视频集的流量;
其中,所述流量预测方式包括:
根据待分析视频的流量和在所述待预测视频集中且在所述待分析视频之前上线的视频的流量,计算所述待分析视频对应的流量均值;
确定所获取的特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数,其中,所述指定排序为所述待分析视频在所述待预测视频集中的排序;
根据所确定的重要程度系数和所获取的特征数据,预测反映所述待分析视频对所述待预测视频集的流量增长趋势的影响程度的增值系数;
利用所述增值系数和所述流量均值,预测所述待预测视频集的流量。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
以所述待预测视频集中未被选择的已上线视频作为所述待分析视频,按照所述流量预测方式预测所述待预测视频集的流量;
以所有预测得到的流量为一个融合对象,对所述融合对象中的流量进行融合处理,得到所述待预测视频集的流量。
3.如权利要求1所述的方法,其特征在于,所述确定所获取的特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数,包括:
从预设的系数集中,选择指定排序对应的重要程度系数,其中,所述预设的系数集中包括各个视频排序对应的重要程度系数,每一视频排序对应的重要程度系数为:视频集的特征数据在基于该视频排序对应的视频进行流量预测时的重要性程度系数。
4.如权利要求3所述的方法,其特征在于,通过以下方式获得所述系数集:
获取样本视频集的样本特征数据,其中,所述样本视频集中的样本视频均为已上线视频;
针对所述样本视频集中每一视频排序对应的待分析样本视频,根据所述待分析样本视频的流量和在所述样本视频集中所述待分析样本视频之前上线的视频的流量,计算所述待分析样本视频的样本流量均值,并利用所述样本流量均值和集流量均值,计算反映所述待分析样本视频对所述样本视频集的流量增长趋势的影响程度的样本增值系数;其中,所述待分析样本视频为所述样本视频集中除最后上线的视频以外的视频,所述集流量均值为所述样本视频集中所有视频的流量的均值;
针对每一视频排序对应的待分析样本视频,对所述样本特征数据和所述待分析样本视频对应的样本增值系数进行线性回归,得到采用视频排序对应的待分析样本视频进行流量预测时所述样本特征数据的重要程度系数;
生成包含所得重要程度系数的系数集。
5.如权利要求1所述的方法,其特征在于,所述根据所确定的重要程度系数和所获取的特征数据,预测反映所述待分析视频对所述待预测视频集的流量增长趋势的影响程度的增值系数,包括:
按照以下表达式,预测反映所述待分析视频对所述待预测视频集的流量增长趋势的影响程度的增值系数y;
所述表达式为:
Figure FDA0002311066410000021
其中,xs表示所获取的特征数据中第s个特征数据,as为所确定的重要程度系数中xs的重要程度系数,k为所获取的特征数据的总数,b为所获取的特征数据在基于所述指定排序对应的视频进行流量预测时的误差参数。
6.如权利要求1~5中任一项所述的方法,其特征在于,所述利用所述增值系数和所述流量均值,预测所述待预测视频集的流量,包括:
按照以下表达式,预测所述待预测视频集的流量P:
所述表达式:P=y·(F·m);
其中,F表示所述流量均值,m表示所述待预测视频集中视频的个数,y为所述增值系数。
7.如权利要求1所述的方法,其特征在于,所述在所述待预测视频集中且在所述待分析视频之前上线的视频包括:除所述待预测视频集中第一个上线的视频外、且在所述待预测视频集中在所述待分析视频之前上线的视频。
8.如权利要求2所述的方法,其特征在于,所述对所述融合对象中的流量进行融合处理,得到所述待预测视频集的流量,包括:
计算所述融合对象中各个流量的中值和表征所述融合对象中各个流量的离散程度的离散值;
利用所述中值和离散值,计算所述待预测视频集对应的离群值;
从所述融合对象中,剔除所述离群值;
计算剩余流量的均值,并将所述均值作为所述待预测视频集的流量。
9.一种视频集流量预测装置,其特征在于,所述装置包括:
特征数据获取模块,用于获取待预测视频集的特征数据;
第一视频选择模块,用于从所述待预测视频集中选择一个已上线视频作为待分析视频,触发流量预测模块预测所述待预测视频集的流量;
所述流量预测模块,包括:
流量均值子模块,用于根据待分析视频的流量和在所述待预测视频集中且在所述待分析视频之前上线的视频的流量,计算所述待分析视频对应的流量均值;
重要程度系数确定子模块,用于确定所获取的特征数据在基于指定排序对应的视频进行流量预测时的重要程度系数,其中,所述指定排序为所述待分析视频在所述待预测视频集中的排序;
增值系数预测子模块,用于根据所确定的重要程度系数和所获取的特征数据,预测反映所述待分析视频对所述待预测视频集的流量增长趋势的影响程度的增值系数;
流量预测子模块,用于利用所述增值系数和所述流量均值,预测所述待预测视频集的流量。
10.如权利要求9所述的装置,其特征在于,所述装置还包括:
第二视频选择模块,用于以所述待预测视频集中未被选择的已上线视频作为所述待分析视频,触发所述流量预测模块预测所述待预测视频集的流量;
对象融合模块,用于以所有预测得到的流量为一个融合对象,对所述融合对象中的流量进行融合处理,得到所述待预测视频集的流量。
11.如权利要求9所述的装置,其特征在于,所述重要程度系数确定子模块,包括:
重要程度系数选择单元,用于从预设的系数集中,选择指定排序对应的重要程度系数,其中,所述预设的系数集中包括各个视频排序对应的重要程度系数,每一视频排序对应的重要程度系数为:视频集的特征数据在基于该视频排序对应的视频进行流量预测时的重要性程度系数。
12.如权利要求11所述的装置,其特征在于,所述装置还包括系数集获得模块,其中,所述系数集获得模块,包括:
样本特征数据获取子模块,用于获取样本视频集的样本特征数据,其中,所述样本视频集中的样本视频均为已上线视频;
样本流量均值计算子模块,用于针对所述样本视频集中每一视频排序对应的待分析样本视频,根据所述待分析样本视频的流量和在所述样本视频集中所述待分析样本视频之前上线的视频的流量,计算所述待分析样本视频的样本流量均值,并利用所述样本流量均值和集流量均值,计算反映所述待分析样本视频对所述样本视频集的流量增长趋势的影响程度的样本增值系数;其中,所述待分析样本视频为所述样本视频集中除最后上线的视频以外的视频,所述集流量均值为所述样本视频集中所有视频的流量的均值;
重要程度系数得到子模块,用于针对每一视频排序对应的待分析样本视频,对所述样本特征数据和所述待分析样本视频对应的样本增值系数进行线性回归,得到采用视频排序对应的待分析样本视频进行流量预测时所述样本特征数据的重要程度系数;
系数集生成子模块,用于生成包含所得重要程度系数的系数集。
13.如权利要求9所述的装置,其特征在于,所述增值系数预测子模块,包括:
增值系数预测单元,用于按照以下表达式,预测反映所述待分析视频对所述待预测视频集的流量增长趋势的影响程度的增值系数y;
所述表达式为:
Figure FDA0002311066410000051
其中,xs表示所获取的特征数据中第s个特征数据,as为所确定的重要程度系数中xs的重要程度系数,k为所获取的特征数据的总数,b为所获取的特征数据在基于所述指定排序对应的视频进行流量预测时的误差参数。
14.如权利要求9~13中任一项所述的装置,其特征在于,所述流量预测子模块,包括:
流量预测单元,用于按照以下表达式,预测所述待预测视频集的流量P:
所述表达式:P=y·(F·m);
其中,F表示所述流量均值,m表示所述待预测视频集中视频的个数,y为所述增值系数。
15.如权利要求9所述的装置,其特征在于,所述在所述待预测视频集中且在所述待分析视频之前上线的视频包括:除所述待预测视频集中第一个上线的视频外、且在所述待预测视频集中在所述待分析视频之前上线的视频。
16.如权利要求10所述的装置,其特征在于,所述对象融合模块,包括:
中值-离散值计算子模块,用于计算所述融合对象中各个流量的中值和表征所述融合对象中各个流量的离散程度的离散值;
离群值计算子模块,用于利用所述中值和离散值,计算所述待预测视频集对应的离群值;
离群值剔除模块,用于从所述融合对象中,剔除所述离群值;
流量确定子模块,用于计算剩余流量的均值,并将所述均值作为所述待预测视频集的流量。
17.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一所述的方法步骤。
CN201911258929.3A 2019-12-10 2019-12-10 一种视频集流量预测方法及装置 Active CN111062527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911258929.3A CN111062527B (zh) 2019-12-10 2019-12-10 一种视频集流量预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911258929.3A CN111062527B (zh) 2019-12-10 2019-12-10 一种视频集流量预测方法及装置

Publications (2)

Publication Number Publication Date
CN111062527A true CN111062527A (zh) 2020-04-24
CN111062527B CN111062527B (zh) 2023-12-05

Family

ID=70300397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911258929.3A Active CN111062527B (zh) 2019-12-10 2019-12-10 一种视频集流量预测方法及装置

Country Status (1)

Country Link
CN (1) CN111062527B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313511A (zh) * 2021-04-30 2021-08-27 北京奇艺世纪科技有限公司 一种视频流量预测方法、装置、电子设备及介质
CN113347464A (zh) * 2021-04-30 2021-09-03 北京奇艺世纪科技有限公司 一种视频播放流量预测方法、装置、电子设备及存储介质
CN113676770A (zh) * 2021-07-13 2021-11-19 北京奇艺世纪科技有限公司 会员权益预测方法、装置、电子设备及存储介质
CN115082133A (zh) * 2022-08-19 2022-09-20 深圳云威网络科技有限公司 一种用于目标页流量分析管理系统及管理方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090110061A1 (en) * 2007-10-24 2009-04-30 Electronics & Telecommunications Research Institute Method and apparatus for predicting video traffic
WO2017084256A1 (zh) * 2015-11-18 2017-05-26 华为技术有限公司 一种视频质量评价方法及装置
CN107135125A (zh) * 2017-05-17 2017-09-05 北京奇艺世纪科技有限公司 视频idc带宽流量预测方法及装置
WO2017148064A1 (zh) * 2016-03-02 2017-09-08 乐视控股(北京)有限公司 一种基于用户行为分析的视频自动推送方法和装置
CN107547154A (zh) * 2016-06-23 2018-01-05 华为技术有限公司 一种建立视频流量预测模型的方法及装置
CN107707964A (zh) * 2016-08-08 2018-02-16 华为软件技术有限公司 预测视频内容热度的方法和装置
US20180278543A1 (en) * 2017-03-22 2018-09-27 At&T Intellectual Property I, L.P. Methods, devices and systems for managing network video traffic
CN108898415A (zh) * 2018-05-29 2018-11-27 北京奇艺世纪科技有限公司 一种视频剧集的流量相关指标预测方法及装置
CN109451352A (zh) * 2018-12-11 2019-03-08 北京奇艺世纪科技有限公司 一种视频播放流量预测方法及装置
CN109522470A (zh) * 2018-11-06 2019-03-26 汪浩 一种视频热度预测方法、装置、设备及存储介质
CN109587515A (zh) * 2018-12-11 2019-04-05 北京奇艺世纪科技有限公司 一种视频播放流量预测方法及装置
WO2019085329A1 (zh) * 2017-11-02 2019-05-09 平安科技(深圳)有限公司 基于循环神经网络的人物性格分析方法、装置及存储介质
WO2019223361A1 (zh) * 2018-05-23 2019-11-28 北京国双科技有限公司 一种视频分析方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090110061A1 (en) * 2007-10-24 2009-04-30 Electronics & Telecommunications Research Institute Method and apparatus for predicting video traffic
WO2017084256A1 (zh) * 2015-11-18 2017-05-26 华为技术有限公司 一种视频质量评价方法及装置
WO2017148064A1 (zh) * 2016-03-02 2017-09-08 乐视控股(北京)有限公司 一种基于用户行为分析的视频自动推送方法和装置
CN107547154A (zh) * 2016-06-23 2018-01-05 华为技术有限公司 一种建立视频流量预测模型的方法及装置
CN107707964A (zh) * 2016-08-08 2018-02-16 华为软件技术有限公司 预测视频内容热度的方法和装置
US20180278543A1 (en) * 2017-03-22 2018-09-27 At&T Intellectual Property I, L.P. Methods, devices and systems for managing network video traffic
CN107135125A (zh) * 2017-05-17 2017-09-05 北京奇艺世纪科技有限公司 视频idc带宽流量预测方法及装置
WO2019085329A1 (zh) * 2017-11-02 2019-05-09 平安科技(深圳)有限公司 基于循环神经网络的人物性格分析方法、装置及存储介质
WO2019223361A1 (zh) * 2018-05-23 2019-11-28 北京国双科技有限公司 一种视频分析方法及装置
CN108898415A (zh) * 2018-05-29 2018-11-27 北京奇艺世纪科技有限公司 一种视频剧集的流量相关指标预测方法及装置
CN109522470A (zh) * 2018-11-06 2019-03-26 汪浩 一种视频热度预测方法、装置、设备及存储介质
CN109451352A (zh) * 2018-12-11 2019-03-08 北京奇艺世纪科技有限公司 一种视频播放流量预测方法及装置
CN109587515A (zh) * 2018-12-11 2019-04-05 北京奇艺世纪科技有限公司 一种视频播放流量预测方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘亚伟,等: "基于时间序列分析的改进型MPEG视频序列流量模型", vol. 28, no. 05, pages 35 - 38 *
赵命燕,等: "一种基于视频特征及历史数据的流行度预测算法", 计算机与现代化, vol. 22, no. 02, pages 53 - 57 *
郭勇,等: "EPON中实时可变比特率视频业务的自适应线性流量预测动态带宽分配算法", vol. 41, no. 08, pages 176 - 180 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313511A (zh) * 2021-04-30 2021-08-27 北京奇艺世纪科技有限公司 一种视频流量预测方法、装置、电子设备及介质
CN113347464A (zh) * 2021-04-30 2021-09-03 北京奇艺世纪科技有限公司 一种视频播放流量预测方法、装置、电子设备及存储介质
CN113347464B (zh) * 2021-04-30 2022-09-30 北京奇艺世纪科技有限公司 一种视频播放流量预测方法、装置、电子设备及存储介质
CN113676770A (zh) * 2021-07-13 2021-11-19 北京奇艺世纪科技有限公司 会员权益预测方法、装置、电子设备及存储介质
CN115082133A (zh) * 2022-08-19 2022-09-20 深圳云威网络科技有限公司 一种用于目标页流量分析管理系统及管理方法
CN115082133B (zh) * 2022-08-19 2022-11-18 深圳云威网络科技有限公司 一种用于目标页流量分析管理系统及管理方法

Also Published As

Publication number Publication date
CN111062527B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN108304512B (zh) 一种视频搜索引擎粗排序方法、装置及电子设备
CN111062527B (zh) 一种视频集流量预测方法及装置
CN110430471B (zh) 一种基于瞬时计算的电视推荐方法和系统
CN110263189B (zh) 媒体内容的推荐方法、装置、存储介质和计算机设备
US11017024B2 (en) Media content rankings for discovery of novel content
CN105282565A (zh) 一种视频推荐方法和装置
CN111708901A (zh) 多媒体资源推荐方法、装置、电子设备及存储介质
US20140259038A1 (en) Demographic prediction channel
CN110933492B (zh) 一种播放时长预测方法及装置
CN109587515B (zh) 一种视频播放流量预测方法及装置
CN109996122B (zh) 一种视频推荐方法、装置、服务器及存储介质
CN110933473A (zh) 一种视频播放热度确定方法及装置
CN113656681B (zh) 一种对象评价方法、装置、设备及存储介质
CN110991476A (zh) 决策分类器的训练、音视频的推荐方法、装置及存储介质
CN111861550A (zh) 一种基于ott设备的家庭画像构建方法及系统
CN112579913A (zh) 一种视频推荐方法、装置、设备和计算机可读存储介质
CN108595526B (zh) 资源推荐方法及装置
CN114339417A (zh) 一种视频推荐的方法、终端设备和可读存储介质
CN115687690A (zh) 一种视频推荐方法、装置、电子设备及存储介质
CN109063080B (zh) 一种视频推荐方法及装置
CN113220974B (zh) 点击率预测模型训练、搜索召回方法、装置、设备及介质
CN113313511A (zh) 一种视频流量预测方法、装置、电子设备及介质
CN113535939A (zh) 文本处理方法和装置、电子设备以及计算机可读存储介质
CN111314790A (zh) 一种视频播放记录的排序方法、装置和电子设备
CN113676770B (zh) 会员权益预测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant