CN116582702A - 一种基于大数据的网络视频播放量预测方法、系统及介质 - Google Patents
一种基于大数据的网络视频播放量预测方法、系统及介质 Download PDFInfo
- Publication number
- CN116582702A CN116582702A CN202310841690.2A CN202310841690A CN116582702A CN 116582702 A CN116582702 A CN 116582702A CN 202310841690 A CN202310841690 A CN 202310841690A CN 116582702 A CN116582702 A CN 116582702A
- Authority
- CN
- China
- Prior art keywords
- data
- network video
- play
- time
- playing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000002159 abnormal effect Effects 0.000 claims abstract description 61
- 230000002452 interceptive effect Effects 0.000 claims abstract description 58
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000005070 sampling Methods 0.000 claims description 39
- 230000002146 bilateral effect Effects 0.000 claims description 17
- 230000008859 change Effects 0.000 claims description 12
- 238000009499 grossing Methods 0.000 claims description 12
- 230000008030 elimination Effects 0.000 claims description 11
- 238000003379 elimination reaction Methods 0.000 claims description 11
- 230000005856 abnormality Effects 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 4
- 230000001680 brushing effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000000265 homogenisation Methods 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/24—Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
- H04N21/2407—Monitoring of transmitted content, e.g. distribution time, number of downloads
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44204—Monitoring of content usage, e.g. the number of times a movie has been viewed, copied or the amount which has been watched
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Mathematical Optimization (AREA)
- Economics (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Operations Research (AREA)
- Mathematical Analysis (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Algebra (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
本发明公开一种基于大数据的网络视频播放量预测方法、系统及介质;涉及机器学习技术领域;先获取历史网络视频数据的观测数据并对观测数据进行预处理,基于预处理后的观测数据构建网络视频播放量预测模型进行待测网络视频在预测时间的播放量预测;本发明在现有的网络视频播放量预测方法上进行改进:以互动消息记录对播放记录进行无效播放剔除,减少无效播放记录带来的影响;还进行作息时间异常识别,并对异常观测数据进行数据替换,将调休节假日采集的非典型数据替换为正常周期数据,使得网络视频播放量预测模型的训练数据具有代表性,提高预测数据的准确性,使得网络视频播放量预测模型可以满足真实性要求高的应用场景。
Description
技术领域
本发明涉及机器学习技术领域,具体涉及一种基于大数据的网络视频播放量预测方法、系统及介质。
背景技术
近年来随着网络视频竞争日益激烈,内容同质化态势日趋严重, 网络视频播放量成为视频网络差异化竞争的策略;高的播放量直接影响到附带商品的销量,随之而来的是更高的商业利润;因此为更加合理的掌握流量情况,对短视频流量进行预测显得尤为重要。
传统的网络视频播放量预测方法通常直接使用历史网络视频数据的直接播放数据进行时间序列模型的训练,但是输入数据的质量好坏对时间序列分析模型的准确性、可靠性和有效性有着很大的影响,因此在时间序列模型的训练前,先对输入数据进行清洗是非常有必要的。
发明内容
本发明所要解决的技术问题是:现有的网络视频播放量预测方法,忽略了用户的作息时间和视频发布作者辅助的无效播放记录对播放记录预测的影响,使得预测结果缺乏代表性。本发明目的在于提供一种基于大数据的网络视频播放量预测方法、系统及介质,在现有的网络视频播放量预测技术上,进行方法上的改进:对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,减少无效播放记录对网络视频播放量预测带来的影响;再进行作息时间异常识别,并对识别出的异常观测数据进行数据替换,将调休节假日采集的非典型数据替换为正常周期数据,使得网络视频播放量预测模型的训练数据具有代表性,提高预测数据的准确性。
本发明通过下述技术方案实现:
本方案提供一种基于大数据的网络视频播放量预测方法,包括步骤:
获取历史网络视频数据的观测数据;所述观测数据包括历史网络视频在播放平台的播放记录和互动消息记录;所述播放记录包括:播放账户ID、播放时间和播放进度;所述互动消息记录包括互动账户ID和互动消息发出时间;
对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,再进行作息时间异常识别,最后对识别出的异常观测数据进行数据替换;
基于历史网络视频数据和预处理后的观测数据构建网络视频播放量预测模型;
将待测网络视频和预测时间输入网络视频播放量预测模型预测出待测网络视频在预测时间的播放量。
本方案工作原理:对于网络视频播放量数据,现有的数据清理方式是简单的剔除明显错误的数据,而忽略了用户的作息时间对播放记录预测的影响,在节假日期间,网络用户量高于工作日期间,相应的视频播放量也要高于工作日,虽然视频播放量在每个星期内的工作日和双休日会有周期性的播放周期规律,但是对于调休节假日会破坏这种播放周期规律,对播放量的预测造成影响;虽然从播放平台采集的数据是真实的播放量,但是调休节假日采集的数据对正常周期采集运行数据预测而言不具有代表性;另外,从播放平台采集的播放量数据,还存在视频发布作者辅助的无效播放记录,如发布者为了提高播放量进行的有意刷播放量现象,通过同一账户ID在一段时间内持续重复播放网络视频数据现象等,这些无效播放记录影响了播放量的真实性,会对网络视频播放量预测带来很大影响。本方案提供的一种基于大数据的网络视频播放量预测方法,在现有的网络视频播放量预测技术上,进行方法上的改进:对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,减少无效播放记录对网络视频播放量预测带来的影响;再进行作息时间异常识别,并对识别出的异常观测数据进行数据替换,将调休节假日采集的非典型数据替换为正常周期数据,使得网络视频播放量预测模型的训练数据具有代表性,提高预测数据的准确性,使得网络视频播放量预测模型可以满足真实性要求高的应用场景。
进一步优化方案为,所述无效播放剔除的方法包括:
S1,判断历史网络视频数据每条播放记录的时间是否达到时间阈值T1:若当前播放的时间达到时间阈值T1,则进入S2,否则,删除当前播放记录;其中T1=T2+T3,T2为播放平台的计算一个播放量的播放时间;T3为预设时间阈值;
S2,获取每条播放记录中各互动账户ID发出互动消息的次数n,在n>1时:
获取互动账户ID第i次发出互动消息的时间ti,找到播放账户ID为互动账户ID,且在时间ti正在播放的播放记录,判断当前播放记录的播放进度是否完整;若是,则保留当前播放记录,否则,删除当前播放记录;i=2,3,…,n。
进一步优化方案为,所述无效播放剔除的方法还包括:检验历史网络视频数据中相邻K条播放记录的播放账户ID是否为同一个播放账户ID,若是,则删除K条播放记录中的K-1条播放记录,其中K>2。
一些历史网络视频数据的总播放记录中既包含有真实播放记录,还包含了很多无效播放记录,如一些播放平台中只要打开视频数据就记为一次播放记录,一些播放平台则设置有播放时间阈值,当播放时间超过播放时间阈值后才记为一次播放记录,而播放时间阈值相对比较短,一般为10s;这样就导致网络视频数据的总播放记录中存在较多的无效播放记录;本方案通过统一设定时间阈值T1将打开视频数据就记为一次播放记录的无效播放记录及时删除,对于播放时间超过播放时间阈值的无效播放记录,通过设置T3的大小来删除,以保证观测数据的有效性。比如发布者为了提高播放量进行的有意刷播放量现象,通过阈值可以筛除刷播放量带来的无效播放记录。
对于具有互动消息记录的历史网络视频数据,所述互动消息记录可以为由视频播放带来的弹幕互动、评论互动等;互动消息记录中的每一次会话(互动消息的发出)可能会伴随着视频播放,这种情况的播放记录也属于无效播放记录,当历史网络视频数据有较多的互动消息记录时,无效播放记录的累计也会影响观测数据的准确性,因此本方案根据各互动账户ID发出互动消息的次数n,及时剔除互动消息产生的无效播放记录;
对于有意刷播放量现象还包括对网络视频数据进行重复播放,比如同一账户ID在一段时间内持续重复播放网络视频数据,本方案通过检验相邻L条播放记录的播放账户ID,鉴定并剔除重复播放产生的无效播放记录,以保证观测数据的有效性。
进一步优化方案为,所述作息时间异常识别的方法包括:
T1,以一周为一个周期将观测数据划分成多个周期数据,分组在不同周期数据中采样m个同星期的数据,得到M组采样序列;统计各组采样序列的概率密度函数:异常判别临界值r和双侧临界值D;
T2,计算第M组采样序列的高端异常统计量H和低端异常统计量L;
T3,判断高端异常统计量H是否大于异常判别临界值r,若是,则进入T4;否则,在低端异常统计量L小于或等于异常判别临界值r时,结束作息时间异常识别;在低端异常统计量L大于异常判别临界值r时,将第M组采样序列中的最小值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;
T4,判断低端异常统计量L是否大于异常判别临界值r;若是,则进入T5;否则,将第m组采样序列中的最大值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1并返回T2;
T5,判断高端异常统计量H是否大于低端异常统计量L:
若是,则在高端异常统计量H大于双侧临界值D时,将第M组采样序列中的最大值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;在高端异常统计量H小于或等于双侧临界值D时,结束作息时间异常识别;
否则,在低端异常统计量L大于双侧临界值D时,将第M组采样序列中的最小值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;在低端异常统计量L小于或等于双侧临界值D时,结束作息时间异常识别。
进一步优化方案为,所述数据替换的方法包括:
对于识别为异常数据,取异常数据在第Y周期的对应值z、第Y-1周期的对应值x、第Y+2周期的对应值c和第Y+3周期的对应值v;其中第Y周期为异常数据所在周期的前一个周期;
以对应值z、对应值x、对应值c和对应值v的算数平均数替换当前异常数据。
进一步优化方案为,所述双侧临界值D和异常判别临界值r与预设显著性水平和采样个数m相关。
进一步优化方案为,所述网络视频播放量预测模型构建的方法包括:
将历史网络视频数据和预处理后的观测数据输入时间序列预测模型进行识别;
基于最小二乘法或极大似然法估计出时间序列预测模型的未知参数;
对时间序列预测模型进行诊断,以满足预测精度要求的参数作为网络视频播放量预测模型的具体形式。
进一步优化方案为,所述网络视频播放量预测模型构建的方法还包括:
获取观测数据的变化走向:
当观测数据变化率保持在变化阈值内时,构建网络视频播放量预测模型为一次指数平滑模型;
当观测数据呈线性变化时,构建网络视频播放量预测模型为二次指数平滑模型;
当观测数据呈二次曲线型变化时,构建网络视频播放量预测模型为三次指数平滑模型;
基于规划求解方法和标准误差评判网络视频播放量预测模型,以求出网络视频播放量预测模型的最佳平滑常数。
本方案还提供一种基于大数据的网络视频播放量预测系统,用于实现上述的一种基于大数据的网络视频播放量预测方法,包括:
采集模块,用于获取历史网络视频数据的观测数据;所述观测数据包括历史网络视频在播放平台的播放记录和互动消息记录;所述播放记录包括:播放账户ID、播放时间和播放进度;所述互动消息记录包括互动账户ID和互动消息发出时间;
预处理模块,用于对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,再进行作息时间异常识别,最后对识别出的异常观测数据进行数据替换;
模型构建模块,用于基于历史网络视频数据和预处理后的观测数据构建网络视频播放量预测模型;
预测模块,用于将待测网络视频和预测时间T输入网络视频播放量预测模型预测出待测网络视频在预测时间T的播放量。
本方案还提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行可实现如上所述的一种基于大数据的网络视频播放量预测方法。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明提供的一种基于大数据的网络视频播放量预测方法、系统及介质,在现有的网络视频播放量预测技术上,进行方法上的改进:对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,减少无效播放记录对网络视频播放量预测带来的影响;再进行作息时间异常识别,并对识别出的异常观测数据进行数据替换,将调休节假日采集的非典型数据替换为正常周期数据,使得网络视频播放量预测模型的训练数据具有代表性,提高预测数据的准确性,使得网络视频播放量预测模型可以满足真实性要求高的应用场景。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在附图中:
图1为基于大数据的网络视频播放量预测方法流程示意图。
实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
近年来随着网络视频竞争日益激烈,内容同质化态势日趋严重, 网络视频播放量成为视频网络差异化竞争的策略;高的播放量直接影响到附带商品的销量,随之而来的是更高的商业利润;因此为更加合理的掌握流量情况,对短视频流量进行预测显得尤为重要。鉴于此本发明提供以下实施例解决网络视频预测存在的问题。
实施例1:本实施例提供一种基于大数据的网络视频播放量预测方法,如图1所示,包括步骤:
步骤一:获取历史网络视频数据的观测数据;所述观测数据包括历史网络视频在播放平台的播放记录和互动消息记录;所述播放记录包括:播放账户ID、播放时间和播放进度;所述互动消息记录包括互动账户ID和互动消息发出时间;
步骤二:对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,再进行作息时间异常识别,最后对识别出的异常观测数据进行数据替换;
所述无效播放剔除的方法包括:
S1,判断历史网络视频数据每条播放记录的时间是否达到时间阈值T1:若当前播放的时间达到时间阈值T1,则进入S2,否则,删除当前播放记录;其中T1=T2+T3,T2为播放平台的计算一个播放量的播放时间;T3为预设时间阈值;
S2,获取每条播放记录中各互动账户ID发出互动消息的次数n,在n>1时:
获取互动账户ID第i次发出互动消息的时间ti,找到播放账户ID为互动账户ID,且在时间ti正在播放的播放记录,判断当前播放记录的播放进度是否完整;若是,则保留当前播放记录,否则,删除当前播放记录;i=2,3,…,n。
所述无效播放剔除的方法还包括:无效播放剔除的方法还包括:检验历史网络视频数据中相邻K条播放记录的播放账户ID是否为同一个播放账户ID,若是,则删除K条播放记录中的K-1条播放记录,其中K>2。
本实施例通过统一设定时间阈值T1将打开视频数据就记为一次播放记录的无效播放记录及时删除,对于播放时间超过播放时间阈值的无效播放记录,通过设置T3的大小来删除,以保证观测数据的有效性。比如发布者为了提高播放量进行的有意刷播放量的现象,通过阈值可以筛除刷播放量带来的无效播放记录;并根据各互动账户ID发出互动消息的次数n,及时剔除互动消息产生的无效播放记录;对于有意刷播放量现象还包括对网络视频数据进行重复播放,比如同一账户ID在一段时间内持续重复播放网络视频数据,本方案通过检验相邻L条播放记录的播放账户ID,鉴定并剔除重复播放产生的无效播放记录,以保证观测数据的有效性。
所述作息时间异常识别的方法包括:
T1,以一周为一个周期将观测数据划分成多个周期数据,分组在不同周期数据中采样m个同星期的数据,得到M组采样序列;统计各组采样序列的概率密度函数:异常判别临界值r和双侧临界值D;
T2,计算第M组采样序列的高端异常统计量H和低端异常统计量L;
T3,判断高端异常统计量H是否大于异常判别临界值r,若是,则进入T4;否则,在低端异常统计量L小于或等于异常判别临界值r时,结束作息时间异常识别;在低端异常统计量L大于异常判别临界值r时,将第M组采样序列中的最小值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;
T4,判断低端异常统计量L是否大于异常判别临界值r;若是,则进入T5;否则,将第m组采样序列中的最大值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1并返回T2;
T5,判断高端异常统计量H是否大于低端异常统计量L:
若是,则在高端异常统计量H大于双侧临界值D时,将第M组采样序列中的最大值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;在高端异常统计量H小于或等于双侧临界值D时,结束作息时间异常识别;
否则,在低端异常统计量L大于双侧临界值D时,将第M组采样序列中的最小值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;在低端异常统计量L小于或等于双侧临界值D时,结束作息时间异常识别。
数据替换的方法包括:
对于识别为异常数据,取异常数据在第Y周期的对应值z、第Y-1周期的对应值x、第Y+2周期的对应值c和第Y+3周期的对应值v;其中第Y周期为异常数据所在周期的前一个周期;
以对应值z、对应值x、对应值c和对应值v的算数平均数替换当前异常数据。
双侧临界值D和异常判别临界值r与预设显著性水平和采样个数m相关。
步骤三:基于历史网络视频数据和预处理后的观测数据构建网络视频播放量预测模型;
本实施例的网络视频播放量预测模型构建的方法包括:
将历史网络视频数据和预处理后的观测数据输入时间序列预测模型进行识别;
基于最小二乘法或极大似然法估计出时间序列预测模型的未知参数;
对时间序列预测模型进行诊断,以满足预测精度要求的参数作为网络视频播放量预测模型的具体形式。
本实施例还提供一种网络视频播放量预测模型构建方法:
获取观测数据的变化走向:
当观测数据变化率保持在变化阈值内时,构建网络视频播放量预测模型为一次指数平滑模型;
当观测数据呈线性变化时,构建网络视频播放量预测模型为二次指数平滑模型;
当观测数据呈二次曲线型变化时,构建网络视频播放量预测模型为三次指数平滑模型;
基于规划求解方法和标准误差评判网络视频播放量预测模型,以求出网络视频播放量预测模型的最佳平滑常数。
步骤四:将待测网络视频和预测时间输入网络视频播放量预测模型预测出待测网络视频在预测时间的播放量。
本实施例提供了一种新的技术构思,在现有的网络视频播放量预测技术上,进行方法上的改进:对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,减少无效播放记录对网络视频播放量预测带来的影响;再进行作息时间异常识别,并对识别出的异常观测数据进行数据替换,将调休节假日采集的非典型数据替换为正常周期数据,使得网络视频播放量预测模型的训练数据具有代表性,提高预测数据的准确性。
实施例2:本实施例提供一种基于大数据的网络视频播放量预测系统,用于实现上衣实施例的一种基于大数据的网络视频播放量预测方法,包括:
采集模块,用于获取历史网络视频数据的观测数据;所述观测数据包括历史网络视频在播放平台的播放记录和互动消息记录;所述播放记录包括:播放账户ID、播放时间和播放进度;所述互动消息记录包括互动账户ID和互动消息发出时间;
预处理模块,用于对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,再进行作息时间异常识别,最后对识别出的异常观测数据进行数据替换;
模型构建模块,用于基于历史网络视频数据和预处理后的观测数据构建网络视频播放量预测模型;
预测模块,用于将待测网络视频和预测时间T输入网络视频播放量预测模型预测出待测网络视频在预测时间T的播放量。
实施例3:本实施例提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行可实现实施例1的一种基于大数据的网络视频播放量预测方法。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于大数据的网络视频播放量预测方法,其特征在于,包括步骤:
获取历史网络视频数据的观测数据;所述观测数据包括历史网络视频在播放平台的播放记录和互动消息记录;所述播放记录包括:播放账户ID、播放时间和播放进度;所述互动消息记录包括互动账户ID和互动消息发出时间;
对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,再进行作息时间异常识别,最后对识别出的异常观测数据进行数据替换;
基于历史网络视频数据和预处理后的观测数据构建网络视频播放量预测模型;
将待测网络视频和预测时间输入网络视频播放量预测模型预测出待测网络视频在预测时间的播放量。
2.根据权利要求1所述的一种基于大数据的网络视频播放量预测方法,其特征在于,所述无效播放剔除的方法包括:
S1,判断历史网络视频数据中每条播放记录的时间是否达到时间阈值T1:若当前播放的时间达到时间阈值T1,则进入S2,否则,删除当前播放记录;其中T1=T2+T3,T2为播放平台计算一个播放量的播放时间;T3为预设时间;
S2,获取每条播放记录中各互动账户ID发出互动消息的次数n,在n>1时:
获取互动账户ID第i次发出互动消息的时间ti,找到播放账户ID为互动账户ID,且在时间ti正在播放的播放记录,判断当前播放记录的播放进度是否完整;若是,则保留当前播放记录,否则,删除当前播放记录;i=2,3,…,n。
3.根据权利要求2所述的一种基于大数据的网络视频播放量预测方法,其特征在于,所述无效播放剔除的方法还包括:检验历史网络视频数据中相邻K条播放记录的播放账户ID是否为同一个播放账户ID,若是,则删除K条播放记录中的K-1条播放记录,其中K>2。
4.根据权利要求1所述的一种基于大数据的网络视频播放量预测方法,其特征在于,所述作息时间异常识别的方法包括:
T1,以一周为一个周期将观测数据划分成多个周期数据,分组在不同周期数据中采样m个同星期的数据,得到M组采样序列;统计各组采样序列的概率密度函数:异常判别临界值r和双侧临界值D;
T2,计算第M组采样序列的高端异常统计量H和低端异常统计量L;
T3,判断高端异常统计量H是否大于异常判别临界值r,若是,则进入T4;否则,在低端异常统计量L小于或等于异常判别临界值r时,结束作息时间异常识别;在低端异常统计量L大于异常判别临界值r时,将第M组采样序列中的最小值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;
T4,判断低端异常统计量L是否大于异常判别临界值r;若是,则进入T5;否则,将第m组采样序列中的最大值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1并返回T2;
T5,判断高端异常统计量H是否大于低端异常统计量L:
若是,则在高端异常统计量H大于双侧临界值D时,将第M组采样序列中的最大值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;在高端异常统计量H小于或等于双侧临界值D时,结束作息时间异常识别;
否则,在低端异常统计量L大于双侧临界值D时,将第M组采样序列中的最小值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;在低端异常统计量L小于或等于双侧临界值D时,结束作息时间异常识别。
5.根据权利要求4所述的一种基于大数据的网络视频播放量预测方法,其特征在于,所述数据替换的方法包括:
对于识别为异常数据,取异常数据在第Y周期的对应值z、第Y-1周期的对应值x、第Y+2周期的对应值c和第Y+3周期的对应值v;其中第Y周期为异常数据所在周期的前一个周期;
以对应值z、对应值x、对应值c和对应值v的算数平均数替换当前异常数据。
6.根据权利要求4所述的一种基于大数据的网络视频播放量预测方法,其特征在于,所述双侧临界值D和异常判别临界值r与预设显著性水平和采样个数m相关。
7.根据权利要求1所述的一种基于大数据的网络视频播放量预测方法,其特征在于,所述网络视频播放量预测模型构建的方法包括:
将历史网络视频数据和预处理后的观测数据输入时间序列预测模型进行识别;
基于最小二乘法或极大似然法估计出时间序列预测模型的未知参数;
对时间序列预测模型进行诊断,以满足预测精度要求的参数作为网络视频播放量预测模型的具体形式。
8.根据权利要求1所述的一种基于大数据的网络视频播放量预测方法,其特征在于,所述网络视频播放量预测模型构建的方法还包括:
获取观测数据的变化走向:
当观测数据变化率保持在变化阈值内时,构建网络视频播放量预测模型为一次指数平滑模型;
当观测数据呈线性变化时,构建网络视频播放量预测模型为二次指数平滑模型;
当观测数据呈二次曲线型变化时,构建网络视频播放量预测模型为三次指数平滑模型;
基于规划求解方法和标准误差评判网络视频播放量预测模型,以计算出网络视频播放量预测模型的最佳平滑常数。
9.一种基于大数据的网络视频播放量预测系统,其特征在于,用于实现权利要求1-8任意一项所述的一种基于大数据的网络视频播放量预测方法,包括:
采集模块,用于获取历史网络视频数据的观测数据;所述观测数据包括历史网络视频在播放平台的播放记录和互动消息记录;所述播放记录包括:播放账户ID、播放时间和播放进度;所述互动消息记录包括互动账户ID和互动消息发出时间;
预处理模块,用于对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,再进行作息时间异常识别,最后对识别出的异常观测数据进行数据替换;
模型构建模块,用于基于历史网络视频数据和预处理后的观测数据构建网络视频播放量预测模型;
预测模块,用于将待测网络视频和预测时间T输入网络视频播放量预测模型预测出待测网络视频在预测时间T的播放量。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行可实现如权利要求1-8中任意一项所述的一种基于大数据的网络视频播放量预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310841690.2A CN116582702B (zh) | 2023-07-11 | 2023-07-11 | 一种基于大数据的网络视频播放量预测方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310841690.2A CN116582702B (zh) | 2023-07-11 | 2023-07-11 | 一种基于大数据的网络视频播放量预测方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116582702A true CN116582702A (zh) | 2023-08-11 |
CN116582702B CN116582702B (zh) | 2023-09-15 |
Family
ID=87534384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310841690.2A Active CN116582702B (zh) | 2023-07-11 | 2023-07-11 | 一种基于大数据的网络视频播放量预测方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116582702B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100153184A1 (en) * | 2008-11-17 | 2010-06-17 | Stics, Inc. | System, method and computer program product for predicting customer behavior |
CN102946554A (zh) * | 2012-09-29 | 2013-02-27 | 合一网络技术(北京)有限公司 | 一种按照网络视频播放量进行计费分成的方法及其系统 |
US20130289755A1 (en) * | 2012-04-27 | 2013-10-31 | Hon Hai Precision Industry Co., Ltd. | Player device and method for processing media content using the player device |
WO2018075995A1 (en) * | 2016-10-21 | 2018-04-26 | DataRobot, Inc. | Systems for predictive data analytics, and related methods and apparatus |
CN108366274A (zh) * | 2018-01-11 | 2018-08-03 | 北京奇艺世纪科技有限公司 | 一种刷播放量的检测方法和装置 |
CN108989889A (zh) * | 2018-08-09 | 2018-12-11 | 北京奇艺世纪科技有限公司 | 一种视频播放量预测方法、装置及电子设备 |
CN109697522A (zh) * | 2017-10-20 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 一种数据预测的方法和装置 |
CN110225407A (zh) * | 2019-04-23 | 2019-09-10 | 北京奇艺世纪科技有限公司 | 一种播放数据的获取方法和装置及计算机可读存储介质 |
CN111726341A (zh) * | 2020-06-02 | 2020-09-29 | 五八有限公司 | 一种数据检测方法、装置、电子设备及存储介质 |
US20200372298A1 (en) * | 2019-05-20 | 2020-11-26 | Adobe Inc. | Model reselection for accommodating unsatisfactory training data |
CN112004120A (zh) * | 2019-05-27 | 2020-11-27 | 广州虎牙信息科技有限公司 | 平台网络资源播放量的预测方法、装置、设备及存储介质 |
CN112511901A (zh) * | 2020-12-07 | 2021-03-16 | 北京秒针人工智能科技有限公司 | 综艺剧目播放量预测方法、系统、计算机设备及存储介质 |
CN112667827A (zh) * | 2020-12-23 | 2021-04-16 | 北京奇艺世纪科技有限公司 | 一种数据异常分析方法、装置、电子设备及存储介质 |
US20210357402A1 (en) * | 2020-05-18 | 2021-11-18 | Google Llc | Time Series Forecasting |
CN113902334A (zh) * | 2021-10-28 | 2022-01-07 | 上海众源网络有限公司 | 一种事件异常波动检测方法、系统、电子设备及存储介质 |
CN114072773A (zh) * | 2019-07-26 | 2022-02-18 | 瑞典爱立信有限公司 | 用于异常检测的方法、设备以及计算机存储介质 |
US20220198305A1 (en) * | 2020-12-23 | 2022-06-23 | Geotab Inc. | Method for detecting anomalies |
US20220197890A1 (en) * | 2020-12-23 | 2022-06-23 | Geotab Inc. | Platform for detecting anomalies |
-
2023
- 2023-07-11 CN CN202310841690.2A patent/CN116582702B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100153184A1 (en) * | 2008-11-17 | 2010-06-17 | Stics, Inc. | System, method and computer program product for predicting customer behavior |
US20130289755A1 (en) * | 2012-04-27 | 2013-10-31 | Hon Hai Precision Industry Co., Ltd. | Player device and method for processing media content using the player device |
CN102946554A (zh) * | 2012-09-29 | 2013-02-27 | 合一网络技术(北京)有限公司 | 一种按照网络视频播放量进行计费分成的方法及其系统 |
WO2018075995A1 (en) * | 2016-10-21 | 2018-04-26 | DataRobot, Inc. | Systems for predictive data analytics, and related methods and apparatus |
CN109697522A (zh) * | 2017-10-20 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 一种数据预测的方法和装置 |
CN108366274A (zh) * | 2018-01-11 | 2018-08-03 | 北京奇艺世纪科技有限公司 | 一种刷播放量的检测方法和装置 |
CN108989889A (zh) * | 2018-08-09 | 2018-12-11 | 北京奇艺世纪科技有限公司 | 一种视频播放量预测方法、装置及电子设备 |
CN110225407A (zh) * | 2019-04-23 | 2019-09-10 | 北京奇艺世纪科技有限公司 | 一种播放数据的获取方法和装置及计算机可读存储介质 |
US20200372298A1 (en) * | 2019-05-20 | 2020-11-26 | Adobe Inc. | Model reselection for accommodating unsatisfactory training data |
CN112004120A (zh) * | 2019-05-27 | 2020-11-27 | 广州虎牙信息科技有限公司 | 平台网络资源播放量的预测方法、装置、设备及存储介质 |
CN114072773A (zh) * | 2019-07-26 | 2022-02-18 | 瑞典爱立信有限公司 | 用于异常检测的方法、设备以及计算机存储介质 |
US20210357402A1 (en) * | 2020-05-18 | 2021-11-18 | Google Llc | Time Series Forecasting |
CN111726341A (zh) * | 2020-06-02 | 2020-09-29 | 五八有限公司 | 一种数据检测方法、装置、电子设备及存储介质 |
CN112511901A (zh) * | 2020-12-07 | 2021-03-16 | 北京秒针人工智能科技有限公司 | 综艺剧目播放量预测方法、系统、计算机设备及存储介质 |
CN112667827A (zh) * | 2020-12-23 | 2021-04-16 | 北京奇艺世纪科技有限公司 | 一种数据异常分析方法、装置、电子设备及存储介质 |
US20220198305A1 (en) * | 2020-12-23 | 2022-06-23 | Geotab Inc. | Method for detecting anomalies |
US20220197890A1 (en) * | 2020-12-23 | 2022-06-23 | Geotab Inc. | Platform for detecting anomalies |
CN113902334A (zh) * | 2021-10-28 | 2022-01-07 | 上海众源网络有限公司 | 一种事件异常波动检测方法、系统、电子设备及存储介质 |
Non-Patent Citations (7)
Title |
---|
FUXIN JIANG 等: "Prediction of Movie Playback Based on Ordinal Support Vector Machine Classification", 《IEEE》 * |
JIN LIAN, LING HE: "Research on Production Prediction Based on Exponential Smoothing Method", 《IEEE》 * |
MEKALA BHARAT KUMAR REDDY;等: "A Comparative Analysis for the Detection of Hit Rate of Popular Music Videos in Social Network using Logistic Regression over Support Vector Machine Algorithm", 《IEEE》 * |
朱琛刚;程光;胡一非;王玉祥;: "基于流行度预测的互联网+电视节目缓存调度算法", 计算机研究与发展, no. 04 * |
练金: "基于指数平滑技术的港口船舶流量预测", 《船舶科学技术》 * |
苗键强;童星;康重庆;: "考虑相关因素统一修正的节假日负荷预测模型", 电力建设, no. 10 * |
郭明欣: "综艺节目点播量组合预测模型研究 ————以腾讯视频综艺节目为例", 《中国优秀硕士学位论文全文数据库电子期刊》 * |
Also Published As
Publication number | Publication date |
---|---|
CN116582702B (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Geiger et al. | Using edit sessions to measure participation in Wikipedia | |
WO2006025704B1 (en) | Internet-based discussion system and method thereof, record media recorded discussion method | |
CN107767055A (zh) | 一种基于串谋检测的众包结果汇聚方法及装置 | |
CN112148743A (zh) | 智能客服知识库的更新方法、装置、设备及存储介质 | |
CN111754241A (zh) | 一种用户行为感知方法、装置、设备及介质 | |
CN113902534A (zh) | 一种基于股票社区关系图谱的交互风险团伙识别方法 | |
CN111259922A (zh) | 基于客户退单预警的订单数据处理方法、装置 | |
CN116186136B (zh) | 一种工程建设实施阶段数据的处理方法及系统 | |
CN106528850A (zh) | 基于机器学习聚类算法的门禁数据异常检测方法 | |
CN112287125A (zh) | 一种知识图谱的构建方法与系统 | |
CN113435627A (zh) | 基于工单轨迹信息的电力客户投诉预测方法及装置 | |
CN103593355A (zh) | 用户原创内容的推荐方法及推荐装置 | |
CN111428151A (zh) | 一种基于网络增速的虚假消息识别方法及其装置 | |
CN116582702B (zh) | 一种基于大数据的网络视频播放量预测方法、系统及介质 | |
CN107330709B (zh) | 确定目标对象的方法及装置 | |
CN111177725A (zh) | 一种检测恶意刷点击操作的方法、装置、设备及存储介质 | |
CN113946708A (zh) | 基于图像复原技术和谣言辟谣信息的话题传播预测方法 | |
CN109657148A (zh) | 针对上报poi的异常操作识别方法、装置、服务器和介质 | |
KR102024213B1 (ko) | 게임 숙련도를 이용한 게임 운영 방법 및 그 장치 | |
CN116861480A (zh) | 一种敏感数据识别方法、装置、设备及存储介质 | |
Gao et al. | Forecasting elections with agent-based modeling: Two live experiments | |
CN115168585A (zh) | 文本主题识别方法、装置、设备及存储介质 | |
CN109446229A (zh) | 基于大数据和深度学习的认定方法和机器人系统 | |
CN111078440B (zh) | 一种磁盘错误检测方法、装置及存储介质 | |
CN107545503A (zh) | 多平台投资数据查看方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |