CN116582702B - 一种基于大数据的网络视频播放量预测方法、系统及介质 - Google Patents

一种基于大数据的网络视频播放量预测方法、系统及介质 Download PDF

Info

Publication number
CN116582702B
CN116582702B CN202310841690.2A CN202310841690A CN116582702B CN 116582702 B CN116582702 B CN 116582702B CN 202310841690 A CN202310841690 A CN 202310841690A CN 116582702 B CN116582702 B CN 116582702B
Authority
CN
China
Prior art keywords
data
network video
play
time
playing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310841690.2A
Other languages
English (en)
Other versions
CN116582702A (zh
Inventor
练金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Vocational and Technical College of Industry
Original Assignee
Chengdu Vocational and Technical College of Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Vocational and Technical College of Industry filed Critical Chengdu Vocational and Technical College of Industry
Priority to CN202310841690.2A priority Critical patent/CN116582702B/zh
Publication of CN116582702A publication Critical patent/CN116582702A/zh
Application granted granted Critical
Publication of CN116582702B publication Critical patent/CN116582702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2407Monitoring of transmitted content, e.g. distribution time, number of downloads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44204Monitoring of content usage, e.g. the number of times a movie has been viewed, copied or the amount which has been watched
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开一种基于大数据的网络视频播放量预测方法、系统及介质;涉及机器学习技术领域;先获取历史网络视频数据的观测数据并对观测数据进行预处理,基于预处理后的观测数据构建网络视频播放量预测模型进行待测网络视频在预测时间的播放量预测;本发明在现有的网络视频播放量预测方法上进行改进:以互动消息记录对播放记录进行无效播放剔除,减少无效播放记录带来的影响;还进行作息时间异常识别,并对异常观测数据进行数据替换,将调休节假日采集的非典型数据替换为正常周期数据,使得网络视频播放量预测模型的训练数据具有代表性,提高预测数据的准确性,使得网络视频播放量预测模型可以满足真实性要求高的应用场景。

Description

一种基于大数据的网络视频播放量预测方法、系统及介质
技术领域
本发明涉及机器学习技术领域,具体涉及一种基于大数据的网络视频播放量预测方法、系统及介质。
背景技术
近年来随着网络视频竞争日益激烈,内容同质化态势日趋严重, 网络视频播放量成为视频网络差异化竞争的策略;高的播放量直接影响到附带商品的销量,随之而来的是更高的商业利润;因此为更加合理的掌握流量情况,对短视频流量进行预测显得尤为重要。
传统的网络视频播放量预测方法通常直接使用历史网络视频数据的直接播放数据进行时间序列模型的训练,但是输入数据的质量好坏对时间序列分析模型的准确性、可靠性和有效性有着很大的影响,因此在时间序列模型的训练前,先对输入数据进行清洗是非常有必要的。
发明内容
本发明所要解决的技术问题是:现有的网络视频播放量预测方法,忽略了用户的作息时间和视频发布作者辅助的无效播放记录对播放记录预测的影响,使得预测结果缺乏代表性。本发明目的在于提供一种基于大数据的网络视频播放量预测方法、系统及介质,在现有的网络视频播放量预测技术上,进行方法上的改进:对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,减少无效播放记录对网络视频播放量预测带来的影响;再进行作息时间异常识别,并对识别出的异常观测数据进行数据替换,将调休节假日采集的非典型数据替换为正常周期数据,使得网络视频播放量预测模型的训练数据具有代表性,提高预测数据的准确性。
本发明通过下述技术方案实现:
本方案提供一种基于大数据的网络视频播放量预测方法,包括步骤:
获取历史网络视频数据的观测数据;所述观测数据包括历史网络视频在播放平台的播放记录和互动消息记录;所述播放记录包括:播放账户ID、播放时间和播放进度;所述互动消息记录包括互动账户ID和互动消息发出时间;
对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,再进行作息时间异常识别,最后对识别出的异常观测数据进行数据替换;
基于历史网络视频数据和预处理后的观测数据构建网络视频播放量预测模型;
将待测网络视频和预测时间输入网络视频播放量预测模型预测出待测网络视频在预测时间的播放量。
本方案工作原理:对于网络视频播放量数据,现有的数据清理方式是简单的剔除明显错误的数据,而忽略了用户的作息时间对播放记录预测的影响,在节假日期间,网络用户量高于工作日期间,相应的视频播放量也要高于工作日,虽然视频播放量在每个星期内的工作日和双休日会有周期性的播放周期规律,但是对于调休节假日会破坏这种播放周期规律,对播放量的预测造成影响;虽然从播放平台采集的数据是真实的播放量,但是调休节假日采集的数据对正常周期采集运行数据预测而言不具有代表性;另外,从播放平台采集的播放量数据,还存在视频发布作者辅助的无效播放记录,如发布者为了提高播放量进行的有意刷播放量现象,通过同一账户ID在一段时间内持续重复播放网络视频数据现象等,这些无效播放记录影响了播放量的真实性,会对网络视频播放量预测带来很大影响。本方案提供的一种基于大数据的网络视频播放量预测方法,在现有的网络视频播放量预测技术上,进行方法上的改进:对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,减少无效播放记录对网络视频播放量预测带来的影响;再进行作息时间异常识别,并对识别出的异常观测数据进行数据替换,将调休节假日采集的非典型数据替换为正常周期数据,使得网络视频播放量预测模型的训练数据具有代表性,提高预测数据的准确性,使得网络视频播放量预测模型可以满足真实性要求高的应用场景。
进一步优化方案为,所述无效播放剔除的方法包括:
S1,判断历史网络视频数据每条播放记录的时间是否达到时间阈值T1:若当前播放的时间达到时间阈值T1,则进入S2,否则,删除当前播放记录;其中T1=T2+T3,T2为播放平台的计算一个播放量的播放时间;T3为预设时间阈值;
S2,获取每条播放记录中各互动账户ID发出互动消息的次数n,在n>1时:
获取互动账户ID第i次发出互动消息的时间ti,找到播放账户ID为互动账户ID,且在时间ti正在播放的播放记录,判断当前播放记录的播放进度是否完整;若是,则保留当前播放记录,否则,删除当前播放记录;i=2,3,…,n。
进一步优化方案为,所述无效播放剔除的方法还包括:检验历史网络视频数据中相邻K条播放记录的播放账户ID是否为同一个播放账户ID,若是,则删除K条播放记录中的K-1条播放记录,其中K>2。
一些历史网络视频数据的总播放记录中既包含有真实播放记录,还包含了很多无效播放记录,如一些播放平台中只要打开视频数据就记为一次播放记录,一些播放平台则设置有播放时间阈值,当播放时间超过播放时间阈值后才记为一次播放记录,而播放时间阈值相对比较短,一般为10s;这样就导致网络视频数据的总播放记录中存在较多的无效播放记录;本方案通过统一设定时间阈值T1将打开视频数据就记为一次播放记录的无效播放记录及时删除,对于播放时间超过播放时间阈值的无效播放记录,通过设置T3的大小来删除,以保证观测数据的有效性。比如发布者为了提高播放量进行的有意刷播放量现象,通过阈值可以筛除刷播放量带来的无效播放记录。
对于具有互动消息记录的历史网络视频数据,所述互动消息记录可以为由视频播放带来的弹幕互动、评论互动等;互动消息记录中的每一次会话(互动消息的发出)可能会伴随着视频播放,这种情况的播放记录也属于无效播放记录,当历史网络视频数据有较多的互动消息记录时,无效播放记录的累计也会影响观测数据的准确性,因此本方案根据各互动账户ID发出互动消息的次数n,及时剔除互动消息产生的无效播放记录;
对于有意刷播放量现象还包括对网络视频数据进行重复播放,比如同一账户ID在一段时间内持续重复播放网络视频数据,本方案通过检验相邻L条播放记录的播放账户ID,鉴定并剔除重复播放产生的无效播放记录,以保证观测数据的有效性。
进一步优化方案为,所述作息时间异常识别的方法包括:
T1,以一周为一个周期将观测数据划分成多个周期数据,分组在不同周期数据中采样m个同星期的数据,得到M组采样序列;统计各组采样序列的概率密度函数:异常判别临界值r和双侧临界值D;
T2,计算第M组采样序列的高端异常统计量H和低端异常统计量L;
T3,判断高端异常统计量H是否大于异常判别临界值r,若是,则进入T4;否则,在低端异常统计量L小于或等于异常判别临界值r时,结束作息时间异常识别;在低端异常统计量L大于异常判别临界值r时,将第M组采样序列中的最小值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;
T4,判断低端异常统计量L是否大于异常判别临界值r;若是,则进入T5;否则,将第m组采样序列中的最大值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1并返回T2;
T5,判断高端异常统计量H是否大于低端异常统计量L:
若是,则在高端异常统计量H大于双侧临界值D时,将第M组采样序列中的最大值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;在高端异常统计量H小于或等于双侧临界值D时,结束作息时间异常识别;
否则,在低端异常统计量L大于双侧临界值D时,将第M组采样序列中的最小值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;在低端异常统计量L小于或等于双侧临界值D时,结束作息时间异常识别。
进一步优化方案为,所述数据替换的方法包括:
对于识别为异常数据,取异常数据在第Y周期的对应值z、第Y-1周期的对应值x、第Y+2周期的对应值c和第Y+3周期的对应值v;其中第Y周期为异常数据所在周期的前一个周期;
以对应值z、对应值x、对应值c和对应值v的算数平均数替换当前异常数据。
进一步优化方案为,所述双侧临界值D和异常判别临界值r与预设显著性水平和采样个数m相关。
进一步优化方案为,所述网络视频播放量预测模型构建的方法包括:
将历史网络视频数据和预处理后的观测数据输入时间序列预测模型进行识别;
基于最小二乘法或极大似然法估计出时间序列预测模型的未知参数;
对时间序列预测模型进行诊断,以满足预测精度要求的参数作为网络视频播放量预测模型的具体形式。
进一步优化方案为,所述网络视频播放量预测模型构建的方法还包括:
获取观测数据的变化走向:
当观测数据变化率保持在变化阈值内时,构建网络视频播放量预测模型为一次指数平滑模型;
当观测数据呈线性变化时,构建网络视频播放量预测模型为二次指数平滑模型;
当观测数据呈二次曲线型变化时,构建网络视频播放量预测模型为三次指数平滑模型;
基于规划求解方法和标准误差评判网络视频播放量预测模型,以求出网络视频播放量预测模型的最佳平滑常数。
本方案还提供一种基于大数据的网络视频播放量预测系统,用于实现上述的一种基于大数据的网络视频播放量预测方法,包括:
采集模块,用于获取历史网络视频数据的观测数据;所述观测数据包括历史网络视频在播放平台的播放记录和互动消息记录;所述播放记录包括:播放账户ID、播放时间和播放进度;所述互动消息记录包括互动账户ID和互动消息发出时间;
预处理模块,用于对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,再进行作息时间异常识别,最后对识别出的异常观测数据进行数据替换;
模型构建模块,用于基于历史网络视频数据和预处理后的观测数据构建网络视频播放量预测模型;
预测模块,用于将待测网络视频和预测时间T输入网络视频播放量预测模型预测出待测网络视频在预测时间T的播放量。
本方案还提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行可实现如上所述的一种基于大数据的网络视频播放量预测方法。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明提供的一种基于大数据的网络视频播放量预测方法、系统及介质,在现有的网络视频播放量预测技术上,进行方法上的改进:对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,减少无效播放记录对网络视频播放量预测带来的影响;再进行作息时间异常识别,并对识别出的异常观测数据进行数据替换,将调休节假日采集的非典型数据替换为正常周期数据,使得网络视频播放量预测模型的训练数据具有代表性,提高预测数据的准确性,使得网络视频播放量预测模型可以满足真实性要求高的应用场景。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在附图中:
图1为基于大数据的网络视频播放量预测方法流程示意图。
实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
近年来随着网络视频竞争日益激烈,内容同质化态势日趋严重, 网络视频播放量成为视频网络差异化竞争的策略;高的播放量直接影响到附带商品的销量,随之而来的是更高的商业利润;因此为更加合理的掌握流量情况,对短视频流量进行预测显得尤为重要。鉴于此本发明提供以下实施例解决网络视频预测存在的问题。
实施例1:本实施例提供一种基于大数据的网络视频播放量预测方法,如图1所示,包括步骤:
步骤一:获取历史网络视频数据的观测数据;所述观测数据包括历史网络视频在播放平台的播放记录和互动消息记录;所述播放记录包括:播放账户ID、播放时间和播放进度;所述互动消息记录包括互动账户ID和互动消息发出时间;
步骤二:对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,再进行作息时间异常识别,最后对识别出的异常观测数据进行数据替换;
所述无效播放剔除的方法包括:
S1,判断历史网络视频数据每条播放记录的时间是否达到时间阈值T1:若当前播放的时间达到时间阈值T1,则进入S2,否则,删除当前播放记录;其中T1=T2+T3,T2为播放平台的计算一个播放量的播放时间;T3为预设时间阈值;
S2,获取每条播放记录中各互动账户ID发出互动消息的次数n,在n>1时:
获取互动账户ID第i次发出互动消息的时间ti,找到播放账户ID为互动账户ID,且在时间ti正在播放的播放记录,判断当前播放记录的播放进度是否完整;若是,则保留当前播放记录,否则,删除当前播放记录;i=2,3,…,n。
所述无效播放剔除的方法还包括:无效播放剔除的方法还包括:检验历史网络视频数据中相邻K条播放记录的播放账户ID是否为同一个播放账户ID,若是,则删除K条播放记录中的K-1条播放记录,其中K>2。
本实施例通过统一设定时间阈值T1将打开视频数据就记为一次播放记录的无效播放记录及时删除,对于播放时间超过播放时间阈值的无效播放记录,通过设置T3的大小来删除,以保证观测数据的有效性。比如发布者为了提高播放量进行的有意刷播放量的现象,通过阈值可以筛除刷播放量带来的无效播放记录;并根据各互动账户ID发出互动消息的次数n,及时剔除互动消息产生的无效播放记录;对于有意刷播放量现象还包括对网络视频数据进行重复播放,比如同一账户ID在一段时间内持续重复播放网络视频数据,本方案通过检验相邻L条播放记录的播放账户ID,鉴定并剔除重复播放产生的无效播放记录,以保证观测数据的有效性。
所述作息时间异常识别的方法包括:
T1,以一周为一个周期将观测数据划分成多个周期数据,分组在不同周期数据中采样m个同星期的数据,得到M组采样序列;统计各组采样序列的概率密度函数:异常判别临界值r和双侧临界值D;
T2,计算第M组采样序列的高端异常统计量H和低端异常统计量L;
T3,判断高端异常统计量H是否大于异常判别临界值r,若是,则进入T4;否则,在低端异常统计量L小于或等于异常判别临界值r时,结束作息时间异常识别;在低端异常统计量L大于异常判别临界值r时,将第M组采样序列中的最小值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;
T4,判断低端异常统计量L是否大于异常判别临界值r;若是,则进入T5;否则,将第m组采样序列中的最大值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1并返回T2;
T5,判断高端异常统计量H是否大于低端异常统计量L:
若是,则在高端异常统计量H大于双侧临界值D时,将第M组采样序列中的最大值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;在高端异常统计量H小于或等于双侧临界值D时,结束作息时间异常识别;
否则,在低端异常统计量L大于双侧临界值D时,将第M组采样序列中的最小值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;在低端异常统计量L小于或等于双侧临界值D时,结束作息时间异常识别。
数据替换的方法包括:
对于识别为异常数据,取异常数据在第Y周期的对应值z、第Y-1周期的对应值x、第Y+2周期的对应值c和第Y+3周期的对应值v;其中第Y周期为异常数据所在周期的前一个周期;
以对应值z、对应值x、对应值c和对应值v的算数平均数替换当前异常数据。
双侧临界值D和异常判别临界值r与预设显著性水平和采样个数m相关。
步骤三:基于历史网络视频数据和预处理后的观测数据构建网络视频播放量预测模型;
本实施例的网络视频播放量预测模型构建的方法包括:
将历史网络视频数据和预处理后的观测数据输入时间序列预测模型进行识别;
基于最小二乘法或极大似然法估计出时间序列预测模型的未知参数;
对时间序列预测模型进行诊断,以满足预测精度要求的参数作为网络视频播放量预测模型的具体形式。
本实施例还提供一种网络视频播放量预测模型构建方法:
获取观测数据的变化走向:
当观测数据变化率保持在变化阈值内时,构建网络视频播放量预测模型为一次指数平滑模型;
当观测数据呈线性变化时,构建网络视频播放量预测模型为二次指数平滑模型;
当观测数据呈二次曲线型变化时,构建网络视频播放量预测模型为三次指数平滑模型;
基于规划求解方法和标准误差评判网络视频播放量预测模型,以求出网络视频播放量预测模型的最佳平滑常数。
步骤四:将待测网络视频和预测时间输入网络视频播放量预测模型预测出待测网络视频在预测时间的播放量。
本实施例提供了一种新的技术构思,在现有的网络视频播放量预测技术上,进行方法上的改进:对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,减少无效播放记录对网络视频播放量预测带来的影响;再进行作息时间异常识别,并对识别出的异常观测数据进行数据替换,将调休节假日采集的非典型数据替换为正常周期数据,使得网络视频播放量预测模型的训练数据具有代表性,提高预测数据的准确性。
实施例2:本实施例提供一种基于大数据的网络视频播放量预测系统,用于实现上衣实施例的一种基于大数据的网络视频播放量预测方法,包括:
采集模块,用于获取历史网络视频数据的观测数据;所述观测数据包括历史网络视频在播放平台的播放记录和互动消息记录;所述播放记录包括:播放账户ID、播放时间和播放进度;所述互动消息记录包括互动账户ID和互动消息发出时间;
预处理模块,用于对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,再进行作息时间异常识别,最后对识别出的异常观测数据进行数据替换;
模型构建模块,用于基于历史网络视频数据和预处理后的观测数据构建网络视频播放量预测模型;
预测模块,用于将待测网络视频和预测时间T输入网络视频播放量预测模型预测出待测网络视频在预测时间T的播放量。
实施例3:本实施例提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行可实现实施例1的一种基于大数据的网络视频播放量预测方法。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于大数据的网络视频播放量预测方法,其特征在于,包括步骤:
获取历史网络视频数据的观测数据;所述观测数据包括历史网络视频在播放平台的播放记录和互动消息记录;所述播放记录包括:播放账户ID、播放时间和播放进度;所述互动消息记录包括互动账户ID和互动消息发出时间;
对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,再进行作息时间异常识别,最后对识别出的异常观测数据进行数据替换;
基于历史网络视频数据和预处理后的观测数据构建网络视频播放量预测模型;
将待测网络视频和预测时间输入网络视频播放量预测模型预测出待测网络视频在预测时间的播放量;
所述作息时间异常识别的方法包括:
T1,以一周为一个周期将观测数据划分成多个周期数据,分组在不同周期数据中采样m个同星期的数据,得到M组采样序列;统计各组采样序列的概率密度函数:异常判别临界值r和双侧临界值D;
T2,计算第M组采样序列的高端异常统计量H和低端异常统计量L;
T3,判断高端异常统计量H是否大于异常判别临界值r,若是,则进入T4;否则,在低端异常统计量L小于或等于异常判别临界值r时,结束作息时间异常识别;在低端异常统计量L大于异常判别临界值r时,将第M组采样序列中的最小值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;
T4,判断低端异常统计量L是否大于异常判别临界值r;若是,则进入T5;否则,将第M组采样序列中的最大值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1并返回T2;
T5,判断高端异常统计量H是否大于低端异常统计量L:
若是,则在高端异常统计量H大于双侧临界值D时,将第M组采样序列中的最大值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;在高端异常统计量H小于或等于双侧临界值D时,结束作息时间异常识别;
否则,在低端异常统计量L大于双侧临界值D时,将第M组采样序列中的最小值识别为异常数据,并将异常数据从第M组采样序列中删除,令M=M-1返回T2;在低端异常统计量L小于或等于双侧临界值D时,结束作息时间异常识别;
所述数据替换的方法包括:
对于识别为异常数据,取异常数据在第Y周期的对应值z、第Y-1周期的对应值x、第Y+2周期的对应值c和第Y+3周期的对应值v;其中第Y周期为异常数据所在周期的前一个周期;
以对应值z、对应值x、对应值c和对应值v的算数平均数替换当前异常数据;
所述双侧临界值D和异常判别临界值r与预设显著性水平和采样个数m相关。
2.根据权利要求1所述的一种基于大数据的网络视频播放量预测方法,其特征在于,所述无效播放剔除的方法包括:
S1,判断历史网络视频数据中每条播放记录的时间是否达到时间阈值T1:若当前播放的时间达到时间阈值T1,则进入S2,否则,删除当前播放记录;其中T1=T2+T3,T2为播放平台计算一个播放量的播放时间;T3为预设时间;
S2,获取每条播放记录中各互动账户ID发出互动消息的次数n,在n>1时:
获取互动账户ID第i次发出互动消息的时间ti,找到播放账户ID为互动账户ID,且在时间ti正在播放的播放记录,判断当前播放记录的播放进度是否完整;若是,则保留当前播放记录,否则,删除当前播放记录;i=2,3,…,n。
3.根据权利要求2所述的一种基于大数据的网络视频播放量预测方法,其特征在于,所述无效播放剔除的方法还包括:检验历史网络视频数据中相邻K条播放记录的播放账户ID是否为同一个播放账户ID,若是,则删除K条播放记录中的K-1条播放记录,其中K>2。
4.根据权利要求1所述的一种基于大数据的网络视频播放量预测方法,其特征在于,所述网络视频播放量预测模型构建的方法包括:
将历史网络视频数据和预处理后的观测数据输入时间序列预测模型进行识别;
基于最小二乘法或极大似然法估计出时间序列预测模型的未知参数;
对时间序列预测模型进行诊断,以满足预测精度要求的参数作为网络视频播放量预测模型的具体形式。
5.根据权利要求1所述的一种基于大数据的网络视频播放量预测方法,其特征在于,所述网络视频播放量预测模型构建的方法还包括:
获取观测数据的变化走向:
当观测数据变化率保持在变化阈值内时,构建网络视频播放量预测模型为一次指数平滑模型;
当观测数据呈线性变化时,构建网络视频播放量预测模型为二次指数平滑模型;
当观测数据呈二次曲线型变化时,构建网络视频播放量预测模型为三次指数平滑模型;
基于规划求解方法和标准误差评判网络视频播放量预测模型,以计算出网络视频播放量预测模型的最佳平滑常数。
6.一种基于大数据的网络视频播放量预测系统,其特征在于,用于实现权利要求1-5任意一项所述的一种基于大数据的网络视频播放量预测方法,包括:
采集模块,用于获取历史网络视频数据的观测数据;所述观测数据包括历史网络视频在播放平台的播放记录和互动消息记录;所述播放记录包括:播放账户ID、播放时间和播放进度;所述互动消息记录包括互动账户ID和互动消息发出时间;
预处理模块,用于对观测数据进行预处理:先基于互动消息记录对播放记录进行无效播放剔除,再进行作息时间异常识别,最后对识别出的异常观测数据进行数据替换;
模型构建模块,用于基于历史网络视频数据和预处理后的观测数据构建网络视频播放量预测模型;
预测模块,用于将待测网络视频和预测时间T输入网络视频播放量预测模型预测出待测网络视频在预测时间T的播放量。
7.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行可实现如权利要求1-5中任意一项所述的一种基于大数据的网络视频播放量预测方法。
CN202310841690.2A 2023-07-11 2023-07-11 一种基于大数据的网络视频播放量预测方法、系统及介质 Active CN116582702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310841690.2A CN116582702B (zh) 2023-07-11 2023-07-11 一种基于大数据的网络视频播放量预测方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310841690.2A CN116582702B (zh) 2023-07-11 2023-07-11 一种基于大数据的网络视频播放量预测方法、系统及介质

Publications (2)

Publication Number Publication Date
CN116582702A CN116582702A (zh) 2023-08-11
CN116582702B true CN116582702B (zh) 2023-09-15

Family

ID=87534384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310841690.2A Active CN116582702B (zh) 2023-07-11 2023-07-11 一种基于大数据的网络视频播放量预测方法、系统及介质

Country Status (1)

Country Link
CN (1) CN116582702B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102946554A (zh) * 2012-09-29 2013-02-27 合一网络技术(北京)有限公司 一种按照网络视频播放量进行计费分成的方法及其系统
WO2018075995A1 (en) * 2016-10-21 2018-04-26 DataRobot, Inc. Systems for predictive data analytics, and related methods and apparatus
CN108366274A (zh) * 2018-01-11 2018-08-03 北京奇艺世纪科技有限公司 一种刷播放量的检测方法和装置
CN108989889A (zh) * 2018-08-09 2018-12-11 北京奇艺世纪科技有限公司 一种视频播放量预测方法、装置及电子设备
CN109697522A (zh) * 2017-10-20 2019-04-30 北京京东尚科信息技术有限公司 一种数据预测的方法和装置
CN110225407A (zh) * 2019-04-23 2019-09-10 北京奇艺世纪科技有限公司 一种播放数据的获取方法和装置及计算机可读存储介质
CN111726341A (zh) * 2020-06-02 2020-09-29 五八有限公司 一种数据检测方法、装置、电子设备及存储介质
CN112004120A (zh) * 2019-05-27 2020-11-27 广州虎牙信息科技有限公司 平台网络资源播放量的预测方法、装置、设备及存储介质
CN112511901A (zh) * 2020-12-07 2021-03-16 北京秒针人工智能科技有限公司 综艺剧目播放量预测方法、系统、计算机设备及存储介质
CN112667827A (zh) * 2020-12-23 2021-04-16 北京奇艺世纪科技有限公司 一种数据异常分析方法、装置、电子设备及存储介质
CN113902334A (zh) * 2021-10-28 2022-01-07 上海众源网络有限公司 一种事件异常波动检测方法、系统、电子设备及存储介质
CN114072773A (zh) * 2019-07-26 2022-02-18 瑞典爱立信有限公司 用于异常检测的方法、设备以及计算机存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100153184A1 (en) * 2008-11-17 2010-06-17 Stics, Inc. System, method and computer program product for predicting customer behavior
TW201345236A (zh) * 2012-04-27 2013-11-01 Hon Hai Prec Ind Co Ltd 影音內容處理系統及方法
US11132584B2 (en) * 2019-05-20 2021-09-28 Adobe Inc. Model reselection for accommodating unsatisfactory training data
US11693867B2 (en) * 2020-05-18 2023-07-04 Google Llc Time series forecasting
US20220197890A1 (en) * 2020-12-23 2022-06-23 Geotab Inc. Platform for detecting anomalies
US20220198305A1 (en) * 2020-12-23 2022-06-23 Geotab Inc. Method for detecting anomalies

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102946554A (zh) * 2012-09-29 2013-02-27 合一网络技术(北京)有限公司 一种按照网络视频播放量进行计费分成的方法及其系统
WO2018075995A1 (en) * 2016-10-21 2018-04-26 DataRobot, Inc. Systems for predictive data analytics, and related methods and apparatus
CN109697522A (zh) * 2017-10-20 2019-04-30 北京京东尚科信息技术有限公司 一种数据预测的方法和装置
CN108366274A (zh) * 2018-01-11 2018-08-03 北京奇艺世纪科技有限公司 一种刷播放量的检测方法和装置
CN108989889A (zh) * 2018-08-09 2018-12-11 北京奇艺世纪科技有限公司 一种视频播放量预测方法、装置及电子设备
CN110225407A (zh) * 2019-04-23 2019-09-10 北京奇艺世纪科技有限公司 一种播放数据的获取方法和装置及计算机可读存储介质
CN112004120A (zh) * 2019-05-27 2020-11-27 广州虎牙信息科技有限公司 平台网络资源播放量的预测方法、装置、设备及存储介质
CN114072773A (zh) * 2019-07-26 2022-02-18 瑞典爱立信有限公司 用于异常检测的方法、设备以及计算机存储介质
CN111726341A (zh) * 2020-06-02 2020-09-29 五八有限公司 一种数据检测方法、装置、电子设备及存储介质
CN112511901A (zh) * 2020-12-07 2021-03-16 北京秒针人工智能科技有限公司 综艺剧目播放量预测方法、系统、计算机设备及存储介质
CN112667827A (zh) * 2020-12-23 2021-04-16 北京奇艺世纪科技有限公司 一种数据异常分析方法、装置、电子设备及存储介质
CN113902334A (zh) * 2021-10-28 2022-01-07 上海众源网络有限公司 一种事件异常波动检测方法、系统、电子设备及存储介质

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
A Comparative Analysis for the Detection of Hit Rate of Popular Music Videos in Social Network using Logistic Regression over Support Vector Machine Algorithm;Mekala Bharat Kumar Reddy;等;《IEEE》;全文 *
Prediction of Movie Playback Based on Ordinal Support Vector Machine Classification;Fuxin Jiang 等;《IEEE》;全文 *
Research on Production Prediction Based on Exponential Smoothing Method;Jin Lian, Ling He;《IEEE》;全文 *
基于指数平滑技术的港口船舶流量预测;练金;《船舶科学技术》;全文 *
基于流行度预测的互联网+电视节目缓存调度算法;朱琛刚;程光;胡一非;王玉祥;;计算机研究与发展(04);全文 *
综艺节目点播量组合预测模型研究 ————以腾讯视频综艺节目为例;郭明欣;《中国优秀硕士学位论文全文数据库电子期刊》;全文 *
考虑相关因素统一修正的节假日负荷预测模型;苗键强;童星;康重庆;;电力建设(10);全文 *

Also Published As

Publication number Publication date
CN116582702A (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
Geiger et al. Using edit sessions to measure participation in Wikipedia
WO2006025704B1 (en) Internet-based discussion system and method thereof, record media recorded discussion method
CN112148743A (zh) 智能客服知识库的更新方法、装置、设备及存储介质
CN116186136B (zh) 一种工程建设实施阶段数据的处理方法及系统
CN111259922A (zh) 基于客户退单预警的订单数据处理方法、装置
CN106528850A (zh) 基于机器学习聚类算法的门禁数据异常检测方法
CN113435627A (zh) 基于工单轨迹信息的电力客户投诉预测方法及装置
CN116582702B (zh) 一种基于大数据的网络视频播放量预测方法、系统及介质
CN111428151A (zh) 一种基于网络增速的虚假消息识别方法及其装置
CN103593355A (zh) 用户原创内容的推荐方法及推荐装置
CN111177725A (zh) 一种检测恶意刷点击操作的方法、装置、设备及存储介质
CN112565422B (zh) 一种对电力物联网故障数据的识别方法、系统和存储介质
CN110991241B (zh) 异常识别方法、设备及计算机可读介质
CN116861480A (zh) 一种敏感数据识别方法、装置、设备及存储介质
CN115345600B (zh) 一种rpa流程的生成方法和装置
CN110717653A (zh) 风险识别方法及装置和电子设备
Gao et al. Forecasting elections with agent-based modeling: Two live experiments
CN115168585A (zh) 文本主题识别方法、装置、设备及存储介质
CN109446229A (zh) 基于大数据和深度学习的认定方法和机器人系统
CN111127059B (zh) 用户质量的分析方法及装置
CN112215386A (zh) 一种人员活跃度预测方法、装置和计算机可读存储介质
CN107545503A (zh) 多平台投资数据查看方法和装置
CN112434215A (zh) 排行榜生成方法、装置、电子设备及存储介质
CN111078440A (zh) 一种磁盘错误检测方法、装置及存储介质
CN113537712B (zh) 一种基于轨迹重演的业务流程剩余活动序列预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant