CN109522470A - 一种视频热度预测方法、装置、设备及存储介质 - Google Patents
一种视频热度预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN109522470A CN109522470A CN201811316777.3A CN201811316777A CN109522470A CN 109522470 A CN109522470 A CN 109522470A CN 201811316777 A CN201811316777 A CN 201811316777A CN 109522470 A CN109522470 A CN 109522470A
- Authority
- CN
- China
- Prior art keywords
- video
- predicted
- temperature prediction
- prediction model
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
Abstract
本发明公开了一种视频热度预测方法、装置、设备及计算机可读存储介质,其方法包括:根据待预测视频的类型,从待预测视频的视频数据中提取对应的特征指标的特征数据,以构造第一特征矩阵;对所述第一特征矩阵进行预处理,以生成第二特征矩阵;根据所述待预测视频的类型,选择预先建立的对应的视频热度预测模型;根据所述第二特征矩阵以及选择的视频热度预测模型,获取所述待预测视频的播放量预测指数。本发明基于待预测视频的类型选择对应的视频热度预测模型,有利于提供更为精确的预测结果,满足用户需求。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种视频热度预测方法、装置、设备及计算机可读存储介质。
背景技术
视频播放量预测在互联网数据挖掘领域中有着重要的作用,对于广告主而言,点播量高的视频(尤其是电影和电视剧)能够提高广告的播放量,从而带来一系列的经济效应,因此提前预测出视频的播放量,对于广告主决定广告投放份量有着直接的联系。
目前,对视频类资源播放量的预测一般都采用基于历史播放数据预测方法,大规模的统计数据显示,在早期拥有较高热度的视频,在未来较长的一段时间内往往也会拥有相对较高的热度。这种现象被现有研究称为热度的“滚雪球”效应,其产生原因是在在线视频服务发展的早期,用户在观看一个在线视频之前,很难获知该视频内容的相关信息及视频质量的评价。因此,视频的历史播放量往往是用户决定是否观看该视频最重要的依据。
然而,在实现本发明的过程中,发明人发现:随着在线视频服务和社交网络相关技术的发展,用户之间的信息交流也随之不断扩大。用户在观看一个视频前,可以从多样化的渠道了解该视频内容的相关信息以及对于视频质量的评价和反馈。这一变化使得视频未来的热度不再仅由其历史收视行为数量所支配,更多的因素介入并驱动着视频热度的变化,基于历史播放数据预测方法已经不能带来精确可靠的预测结果,使得广告主对于广告投放份量的错误预估,造成广告主的严重损失。
发明内容
针对上述问题,本发明的目的在于提供一种视频热度预测方法、装置、设备及计算机可读存储介质,提供更为精确的预测结果,满足用户需求。
第一方面,本发明实施例提供了一种视频热度预测方法,包括以下步骤:
根据待预测视频的类型,从待预测视频的视频数据中提取对应的特征指标的特征数据,以构造第一特征矩阵;
对所述第一特征矩阵进行预处理,以生成第二特征矩阵;
根据所述待预测视频的类型,选择预先建立的对应的视频热度预测模型;
根据所述第二特征矩阵以及选择的视频热度预测模型,获取所述待预测视频的播放量预测指数。
在第一方面的第一种实现方式中,所述待预测视频的类型包括版权剧、网剧、综艺以及网综;
所述视频热度预测模型包括版权剧视频热度预测模型、网剧视频热度预测模型、综艺视频热度预测模型以及网综视频热度预测模型;
所述特征指标包括电视播放平台、网络播放平台、题材、网络热议指数、导演关注度、明星活跃指数以及明星话题热度。
在第一方面的第二种实现方式中,还包括:
根据所述待预测视频,通过爬虫技术从预设网络平台爬取所述待预测视频的视频数据。
根据第一方面的第二种实现方式,在第一方面的第三种实现方式中,所述根据待预测视频的类型,从待预测视频的视频数据中提取对应的特征指标的特征数据,以构造第一特征矩阵,具体为:
根据待预测视频的类型,从待预测视频的视频数据中,提取所述待预测视频的类型所对应的特征指标的特征数据;其中,所述待预测视频的类型包括版权剧、网剧、综艺以及网综;
对提取的各个特征指标所对应的特征数据分别进行归一化处理,以生成各个预设特征指标所对应的第三特征矩阵;
根据所述各个第三特征矩阵构造第一特征矩阵。
根据第一方面的第三种实现方式,在第一方面的第四种实现方式中,所述对所述第一特征矩阵进行预处理,以生成第二特征矩阵,具体为:
删除所述第一特征矩阵中空值数量超过预设阈值的数据行,以及属于离群数据的数据行;
对于所述第一特征矩阵中空值数量小于所述预设阈值的数据行,通过多重插补法对所述数据行中的空值进行补全,以生成第二特征矩阵。
根据第一方面的第四种实现方式,在第一方面的第五种实现方式中,所述根据所述第二特征矩阵以及选择的视频热度预测模型,获取所述待预测视频的播放量预测指数,具体为:
将所述第二特征矩阵作为选择的所述视频热度预测模型的输入参量,从所述预先建立的视频热度预测模型中获取所述待预测视频的播放量预测结果;
对所述播放量预测结果进行分布调整,以生成播放量预测指数。
根据第一方面的以上任一种实现方式,在第一方面的第六种实现方式中,所述视频热度预测模型的构建过程包括:
根据待预测视频的类型,通过爬虫技术从预设网络平台爬取在预设时间段内对应所述待预测视频的类型的若干已上映视频的视频数据;其中,所述待预测视频的类型包括版权剧、网剧、综艺以及网综;
从所述已上映视频的视频数据中获取对应于所述待预测视频的类型的特征指标的特征数据,以构造第一训练特征矩阵;
对所述第一训练特征矩阵进行预处理,以生成第二训练特征矩阵;
将所述第二训练特征矩阵以及对应播放量,作为训练集数据,通过随机森林算法进行训练,以生成对应的视频热度预测模型;其中,所述视频热度预测模型包括版权剧视频热度预测模型、网剧视频热度预测模型、综艺视频热度预测模型以及网综视频热度预测模型。
第二方面,本发明实施例提供了一种视频热度预测装置,包括:
第一特征矩形构造单元,用于根据待预测视频的类型,从待预测视频的视频数据中提取对应的特征指标的特征数据,以构造第一特征矩阵;
第二特征矩形生成单元,用于对所述第一特征矩阵进行预处理,以生成第二特征矩阵;
预测模型选择单元,用于根据所述待预测视频的类型,选择预先建立的对应的视频热度预测模型;
预测指数获取单元,用于根据所述第二特征矩阵以及选择的视频热度预测模型,获取所述待预测视频的播放量预测指数。
第三方面,本发明实施例提供了一种视频热度预测设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任意一项所述的视频热度预测方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面中任意一项所述的视频热度预测方法。
以上实施例具有如下有益效果:
首先根据待预测视频的类型,从待预测视频的视频数据中提取对应的特征指标的特征数据,以构造第一特征矩阵,其次对所述第一特征矩阵进行预处理,以生成第二特征矩阵,再根据所述待预测视频的类型,选择预先建立的对应的视频热度预测模型,最后根据所述第二特征矩阵以及选择的视频热度预测模型,获取所述待预测视频的播放量预测指数,本发明根据待预测视频的类型确定对应的视频热度预测模型以及对应的输入特征指标,同一类型的视频数据在一个预测模型中进行热度预测,避免了同一预测模型预测不同类型的视频容易造成的误差和预测错误的情况,使得待预测视频的预测结果更为精确可靠,进而能为视频在上映前的投资和播放提供有价值的参考。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的视频热度预测方法的流程示意图。
图2是本发明第四实施例提供的视频热度预测装置的结构示意图。
图3是本发明第五实施例提供的视频热度预测设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明第一实施例提供了一种视频热度预测方法,其可由视频热度预测设备来执行,并包括以下步骤:
S11,根据待预测视频的类型,从待预测视频的视频数据中提取对应的特征指标的特征数据,以构造第一特征矩阵。
在本发明实施例中,所述视频热度预测设备可为电脑、手机、平板电脑或者服务器等计算设备,所述视频热度预测方法集成于所述视频热度预测设备上,由所述视频热度预测设备执行。
在本发明实施例中,需要说明的是,本发明的视频热度预测方法适用于同时选择至少两部待预测视频进行视频热度预测的情形。
在本发明实施例中,所述视频热度预测设备根据用户确定的待预测视频,通过爬虫技术从各个网络平台中获取所述待预测视频的视频数据,所述网络平台包括搜索平台如百度、搜狗、谷歌等,以及各大交流分享平台如微博、豆瓣、艾漫、360平台等,然后所述视频热度预测设备根据待预测视频的类型,从待预测视频的视频数据中,提取所述待预测视频的类型所对应的特征指标的特征数据,所述待预测视频的类型包括版权剧、网剧、综艺以及网综,所述版权剧所对应的特征指标包括电视播放平台、网络播放平台、题材、网络热议指数、导演关注度、明星活跃指数以及明星话题热度;所述网剧所对应的特征指标包括网络播放平台、题材、网络热议指数、导演关注度、明星活跃指数以及明星话题热度;所述综艺所对应的特征指标包括电视播放平台、网络播放平台、题材、网络热议指数、明星活跃指数以及明星话题热度;所述网综所对应的特征指标包括网络播放平台、题材、网络热议指数、明星活跃指数以及明星话题热度;其中,各个特征指标的特征数据通过以下方式得出:题材的特征数据根据综合网络话题数得出;导演关注度、明星活跃指数以及明星话题热度是根据粉丝数和热议度计算的,其中,粉丝数根据主流线上社群的粉丝数据得出;网络热议指数根据视频IP的网络热度计算;网络播放平台的特征数据根据各大视频网站视频占有率计算;电视播放平台的特征数据根据电视台收视率计算。
在本发明实施例中,所述视频热度预测设备对提取的各个特征指标所对应的特征数据分别进行归一化处理,以生成各个预设特征指标所对应的第三特征矩阵,例如设置设定最低分2.00,最高分9.99;则题材得分=包含题材中主要前2题材的平均得分,单题材得分=nor(Z-score(log(百度指数))*0.7+Z-score(log(360指数)*0.3)*7.99+2;电视播放平台得分=sum(nor(Z-score(所在上映电视台市场份额))*7.99+2);网络播放平台得分=sum(nor(Z-score(所在视频APP市场覆盖率))*7.99+2);网络热议指数得分=nor(Z-score(log(百度指数))*0.7+Z-score(log(360指数)*0.3)*7.99+2;导演得分=nor(Z-score(log(活跃粉丝数))+Z-score(log(百度指数))*7.99+2;明星活跃指数得分=6位主演阵容平均热度分,单明星得分=nor(Z-score(log(活跃粉丝数)))*7.99+2;明星话题热度=6位主演阵容平均热度分,单明星得分=nor(Z-score(log(热门话题数)))*7.99+2;其中,nor代表归一化处理数据映射到[0,1],Z-score代表正则化,sum表示求和,log:取对数(底数视真实数据而定),需要说明的是,对于其中选择的平台指数进行计算的过程,本申请并不限于值获取百度指数或者360指数进行计算,可依据实际情况进行具体选择,本申请对此不做任何限制;最后所述视频热度预测设备根据所述各个第三特征矩阵构造第一特征矩阵,例如对于待预测视频的类型为版权剧的待预测视频,设获取的电视播放平台的第三特征矩阵为A、网络播放平台的第三特征矩阵为B、题材的第三特征矩阵为C、网络热议指数的第三特征矩阵为D、导演关注度的第三特征矩阵为E、明星活跃指数的第三特征矩阵为F以及明星话题热度的第三特征矩阵为G,构造的第一特征矩阵M=[A B C D E F G],其中第一特征矩阵中每一行代表一部待预测视频对应的特征指标的特征数据。
S12,对所述第一特征矩阵进行预处理,以生成第二特征矩阵。
在本发明实施例中,所述视频热度预测设备对于所述第一特征矩阵中的异常数据进行处理,具体地,所述视频热度预测设备删除所述第一特征矩阵中空值数量超过预设阈值的数据行,以及属于离群数据的数据行,例如可以通过R语言里的mice包进行利离群数据的处理;然后对于所述第一特征矩阵中空值数量小于所述预设阈值的数据行,所述视频热度预测设备通过多重插补法对所述数据行中的空值进行补全,从而生成第二特征矩阵,需要说明的是,本发明对于预设阈值的设置不做任何限制,可依据实际情况进行具体设置,例如当设定的特征指标有6个是,预设阈值可以是3个或者4个等等。
S13,根据所述待预测视频的类型,选择预先建立的对应的视频热度预测模型。
在本发明实施例中,需要说明的是,在进行待预测视频的热度预测之前,所述视频热度预测设备根据所述待预测视频的类型预先建立了对应的视频热度预测模型,所述视频热度预测模型包括版权剧视频热度预测模型、网剧视频热度预测模型、综艺视频热度预测模型以及网综视频热度预测模型,在视频热度预测过程中,所述视频热度预测设备根根据所述待预测视频的类型,选择预先建立的对应的视频热度预测模型,以对所述待预测视频进行热度预测。
S14,根据所述第二特征矩阵以及选择的视频热度预测模型,获取所述待预测视频的播放量预测指数。
在本发明实施例中,所述视频热度预测设备将所述第二特征矩阵作为选择的所述视频热度预测模型的输入参量,从所述预先建立的视频热度预测模型中获取所述待预测视频的播放量预测结果,然后对所述播放量预测结果进行分布调整,以生成播放量预测指数,例如所述播放量预测结果是0-15之间的数值,而实际设置的分布在于2.00~9.99之间,所述视频热度预测设备将获取的播放量预测结果进行调整,播放量调整指数=(nor(播放量预测结果))*7.9+2.0,从而获取播放量调整指数。
综上所述,本发明第一实施例提供了一种视频热度预测方法,首先根据待预测视频的类型,从待预测视频的视频数据中提取对应的特征指标的特征数据,以构造第一特征矩阵,其次对所述第一特征矩阵进行预处理,以生成第二特征矩阵,再根据所述待预测视频的类型,选择预先建立的对应的视频热度预测模型,最后根据所述第二特征矩阵以及选择的视频热度预测模型,获取所述待预测视频的播放量预测指数,本发明根据待预测视频的类型确定对应的视频热度预测模型以及对应的输入特征指标,同一类型的视频数据在一个预测模型中进行热度预测,避免了同一预测模型预测不同类型的视频容易造成的误差和预测错误的情况,使得待预测视频的预测结果更为精确可靠,进而能为视频在上映前的投资和播放提供有价值的参考。
为了便于对本发明的理解,下面将对本发明的一些优选实施例做更进一步的描述。
本发明第二实施例:
在本发明第一实施例的基础上,所述视频热度预测方法还包括:
根据所述待预测视频,通过爬虫技术从预设网络平台爬取所述待预测视频的视频数据。
在本发明实施例中,所述视频热度预测设备根据用户确定的待预测视频,根据所述待预测视频,通过爬虫技术从预设网络平台爬取所述待预测视频的视频数据,需要说明的是,本发明对于所述预设网络平台不做任何限定,可依据实际情况进行具体选择,例如百度、谷歌、搜狗等搜索平台,微博、豆瓣、360趋势等交流展示平台,爱奇艺、优酷等各种视频网站;另外,用户可通过输入框输入待预测视频名称,或者通过点击按键确定待预测视频等等,本发明对此不做任何限定;具体地,所述视频热度预测设备通过爬虫技术访问目标网站,分析网站的整体结构,捕获当前网站所有视频和明星资源链接以及用户cookie数据,然后通过遍历的方式访问所捕获到的资源,根据视频和明星的类型对需要爬取的元素进行定位并获取对应的数据,然后对爬取成功的视频数据进行整理和清洗,最终写入到数据库用于数据统计与分析。
本发明第三实施例:
在以上实施例的基础上,所述视频热度预测模型的构建过程包括:
根据待预测视频的类型,通过爬虫技术从预设网络平台爬取在预设时间段内对应所述待预测视频的类型的若干已上映视频的视频数据;其中,所述待预测视频的类型包括版权剧、网剧、综艺以及网综。
从所述已上映视频的视频数据中获取对应于所述待预测视频的类型的特征指标的特征数据,以构造第一训练特征矩阵。
对所述第一训练特征矩阵进行预处理,以生成第二训练特征矩阵。
将所述第二训练特征矩阵以及对应播放量,作为训练集数据,通过随机森林算法进行训练,以生成对应的视频热度预测模型;其中,所述视频热度预测模型包括版权剧视频热度预测模型、网剧视频热度预测模型、综艺视频热度预测模型以及网综视频热度预测模型。
在本发明实施例中,所述视频热度预测设备根据待预测视频的类型,通过爬虫技术从预设网络平台爬取在预设时间段内对应所述待预测视频的类型的若干已上映视频的视频数据,数据范围为近半年内上映完播放量已稳定且上映前数据可追溯的一些视频数据集,视频类型包括版权剧、网剧、综艺以及网综,对于每一所述已上映视频,从所述已上映视频的视频数据中获取对应于所述待预测视频的类型的特征指标的特征数据,所述版权剧所对应的特征指标包括电视播放平台、网络播放平台、题材、网络热议指数、导演关注度、明星活跃指数以及明星话题热度;所述网剧所对应的特征指标包括网络播放平台、题材、网络热议指数、导演关注度、明星活跃指数以及明星话题热度;所述综艺所对应的特征指标包括电视播放平台、网络播放平台、题材、网络热议指数、明星活跃指数以及明星话题热度;所述网综所对应的特征指标包括网络播放平台、题材、网络热议指数、明星活跃指数以及明星话题热度,然后所述视频热度预测设备对提取的各个特征指标所对应的特征数据分别进行归一化处理,以生成各个预设特征指标所对应的第三训练特征矩阵,根据所述各个第三训练特征矩阵构造第一训练特征矩阵,然后所述视频热度预测设备删除所述第一训练特征矩阵中空值数量超过预设阈值的数据行,以及属于离群数据的数据行,对于所述第一训练特征矩阵中空值数量小于所述预设阈值的数据行,通过多重插补法对所述数据行中的空值进行补全,以生成第二训练特征矩阵,本发明定义的预测指数是以播放量分布为参考,取10为底的对数变换后的播放量作为映射前的预测指数,其中预测指数的映射情况根据实际情况进行具体设置,本发明对此不做任何限制,例如预测指数的映射范围在2.9-9.9,调整分布使大部分已上映视频落在4.9-7.9范围作为训练样本的预测指数,所述视频热度预测设备将获取的所述第二训练特征矩阵以及对应的根据播放量获取的已上映视频的预测指数,作为训练集数据,通过随机森林算法进行训练,以生成对应的视频热度预测模型;所述视频热度预测模型包括版权剧视频热度预测模型、网剧视频热度预测模型、综艺视频热度预测模型以及网综视频热度预测模型,各个视频热度预测模型因特征指标的分布有所不同,比如版权剧和电综会在电视台上映,关于电视播放平台所对应的第三训练特征矩阵会根据电视台市场占有率有不同的权重,而综艺节目和剧集视频的题材也不同,也会按题材类型和题材热门指数有不同的第三训练矩阵。
请参阅图2,本发明第四实施例提供了一种视频热度预测装置,包括:
第一特征矩形构造单元11,用于根据待预测视频的类型,从待预测视频的视频数据中提取对应的特征指标的特征数据,以构造第一特征矩阵。
第二特征矩形生成单元12,用于对所述第一特征矩阵进行预处理,以生成第二特征矩阵。
预测模型选择单元13,用于根据所述待预测视频的类型,选择预先建立的对应的视频热度预测模型。
预测指数获取单元14,用于根据所述第二特征矩阵以及选择的视频热度预测模型,获取所述待预测视频的播放量预测指数。
在第四实施例的第一种实现方式中,所述待预测视频的类型包括版权剧、网剧、综艺以及网综。
所述视频热度预测模型包括版权剧视频热度预测模型、网剧视频热度预测模型、综艺视频热度预测模型以及网综视频热度预测模型。
所述特征指标包括电视播放平台、网络播放平台、题材、网络热议指数、导演关注度、明星活跃指数以及明星话题热度。
在第四实施例的第二种实现方式中,还包括:
预测视频数据获取单元,用于根据所述待预测视频,通过爬虫技术从预设网络平台爬取所述待预测视频的视频数据。
根据第四实施例的第二种实现方式,在第四实施例的第三种实现方式中,所述第一特征矩形构造单元11具体包括:
特征数据提取模块,用于根据待预测视频的类型,从待预测视频的视频数据中,提取所述待预测视频的类型所对应的特征指标的特征数据;其中,所述待预测视频的类型包括版权剧、网剧、综艺以及网综。
第三特征矩阵获取模块,用于对提取的各个特征指标所对应的特征数据分别进行归一化处理,以生成各个预设特征指标所对应的第三特征矩阵。
第一特征矩形生成模块,用于根据所述各个第三特征矩阵构造第一特征矩阵。
根据第四实施例的第三种实现方式,在第四实施例的第四种实现方式中,所述第二特征矩形生成单元12具体包括:
异常数据删除模块,用于删除所述第一特征矩阵中空值数量超过预设阈值的数据行,以及属于离群数据的数据行。
残缺数据补全模块,用于对于所述第一特征矩阵中空值数量小于所述预设阈值的数据行,通过多重插补法对所述数据行中的空值进行补全,以生成第二特征矩阵。
根据第四实施例的第四种实现方式,在第四实施例的第五种实现方式中,所述预测指数获取单元14具体为:
预测结果获取模块,用于将所述第二特征矩阵作为选择的所述视频热度预测模型的输入参量,从所述预先建立的视频热度预测模型中获取所述待预测视频的播放量预测结果。
预测指数获取模块,用于对所述播放量预测结果进行分布调整,以生成播放量预测指数。
根据第四实施例的以上任一种实现方式,在第四实施例的第六种实现方式中,所述视频热度预测模型的构建过程包括:
训练视频数据获取单元,用于根据待预测视频的类型,通过爬虫技术从预设网络平台爬取在预设时间段内对应所述待预测视频的类型的若干已上映视频的视频数据;其中,所述待预测视频的类型包括版权剧、网剧、综艺以及网综。
第一训练特征矩阵构造单元,用于从所述已上映视频的视频数据中获取对应于所述待预测视频的类型的特征指标的特征数据,以构造第一训练特征矩阵。
第二训练特征矩阵生成单元,用于对所述第一训练特征矩阵进行预处理,以生成第二训练特征矩阵。
模型训练单元,用于将所述第二训练特征矩阵以及对应播放量,作为训练集数据,通过随机森林算法进行训练,以生成对应的视频热度预测模型;其中,所述视频热度预测模型包括版权剧视频热度预测模型、网剧视频热度预测模型、综艺视频热度预测模型以及网综视频热度预测模型。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
参见图3,是本发明第五实施例提供的视频热度预测视频热度预测设备的示意图。如图3所示,该视频热度预测设备包括:至少一个处理器11,例如CPU,至少一个网络接口14或者其他用户接口13,存储器15,至少一个通信总线12,通信总线12用于实现这些组件之间的连接通信。其中,用户接口13可选的可以包括USB接口以及其他标准接口、有线接口。网络接口14可选的可以包括Wi-Fi接口以及其他无线接口。存储器15可能包含高速RAM存储器,也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器15可选的可以包含至少一个位于远离前述处理器11的存储装置。
在一些实施方式中,存储器15存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统151,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;
程序152。
具体地,处理器11用于调用存储器15中存储的程序152,执行上述实施例所述的视频热度预测方法,例如图1所示的步骤S11。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如第一特征矩形构造单元。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述视频热度预测设备中的执行过程。所述视频热度预测设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述视频热度预测设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是视频热度预测设备的示例,并不构成对视频热度预测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述视频热度预测设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器11可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器11是所述视频热度预测设备的控制中心,利用各种接口和线路连接整个视频热度预测设备的各个部分。
所述存储器15可用于存储所述计算机程序和/或模块,所述处理器11通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器15内的数据,实现所述视频热度预测设备的各种功能。所述存储器15可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器15可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述视频热度预测设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种视频热度预测方法,其特征在于,包括以下步骤:
根据待预测视频的类型,从待预测视频的视频数据中提取对应的特征指标的特征数据,以构造第一特征矩阵;
对所述第一特征矩阵进行预处理,以生成第二特征矩阵;
根据所述待预测视频的类型,选择预先建立的对应的视频热度预测模型;
根据所述第二特征矩阵以及选择的视频热度预测模型,获取所述待预测视频的播放量预测指数。
2.根据权利要求1所述的视频热度预测方法,其特征在于,所述待预测视频的类型包括版权剧、网剧、综艺以及网综;
所述视频热度预测模型包括版权剧视频热度预测模型、网剧视频热度预测模型、综艺视频热度预测模型以及网综视频热度预测模型;
所述特征指标包括电视播放平台、网络播放平台、题材、网络热议指数、导演关注度、明星活跃指数以及明星话题热度。
3.根据权利要求1所述的视频热度预测方法,其特征在于,还包括:
根据所述待预测视频,通过爬虫技术从预设网络平台爬取所述待预测视频的视频数据。
4.根据权利要求3所述的视频热度预测方法,其特征在于,所述根据待预测视频的类型,从待预测视频的视频数据中提取对应的特征指标的特征数据,以构造第一特征矩阵,具体为:
根据待预测视频的类型,从待预测视频的视频数据中,提取所述待预测视频的类型所对应的特征指标的特征数据;其中,所述待预测视频的类型包括版权剧、网剧、综艺以及网综;
对提取的各个特征指标所对应的特征数据分别进行归一化处理,以生成各个预设特征指标所对应的第三特征矩阵;
根据所述各个第三特征矩阵构造第一特征矩阵。
5.根据权利要求4所述的视频热度预测方法,其特征在于,所述对所述第一特征矩阵进行预处理,以生成第二特征矩阵,具体为:
删除所述第一特征矩阵中空值数量超过预设阈值的数据行,以及属于离群数据的数据行;
对于所述第一特征矩阵中空值数量小于所述预设阈值的数据行,通过多重插补法对所述数据行中的空值进行补全,以生成第二特征矩阵。
6.根据权利要求5所述的视频热度预测方法,其特征在于,所述根据所述第二特征矩阵以及选择的视频热度预测模型,获取所述待预测视频的播放量预测指数,具体为:
将所述第二特征矩阵作为选择的所述视频热度预测模型的输入参量,从所述预先建立的视频热度预测模型中获取所述待预测视频的播放量预测结果;
对所述播放量预测结果进行分布调整,以生成播放量预测指数。
7.根据权利要求1至6任意一项所述的视频热度预测方法,其特征在于,所述视频热度预测模型的构建过程包括:
根据待预测视频的类型,通过爬虫技术从预设网络平台爬取在预设时间段内对应所述待预测视频的类型的若干已上映视频的视频数据;其中,所述待预测视频的类型包括版权剧、网剧、综艺以及网综;
从所述已上映视频的视频数据中获取对应于所述待预测视频的类型的特征指标的特征数据,以构造第一训练特征矩阵;
对所述第一训练特征矩阵进行预处理,以生成第二训练特征矩阵;
将所述第二训练特征矩阵以及对应播放量,作为训练集数据,通过随机森林算法进行训练,以生成对应的视频热度预测模型;其中,所述视频热度预测模型包括版权剧视频热度预测模型、网剧视频热度预测模型、综艺视频热度预测模型以及网综视频热度预测模型。
8.一种视频热度预测装置,其特征在于,包括:
第一特征矩形构造单元,用于根据待预测视频的类型,从待预测视频的视频数据中提取对应的特征指标的特征数据,以构造第一特征矩阵;
第二特征矩形生成单元,用于对所述第一特征矩阵进行预处理,以生成第二特征矩阵;
预测模型选择单元,用于根据所述待预测视频的类型,选择预先建立的对应的视频热度预测模型;
预测指数获取单元,用于根据所述第二特征矩阵以及选择的视频热度预测模型,获取所述待预测视频的播放量预测指数。
9.一种视频热度预测设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的视频热度预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的视频热度预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811316777.3A CN109522470A (zh) | 2018-11-06 | 2018-11-06 | 一种视频热度预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811316777.3A CN109522470A (zh) | 2018-11-06 | 2018-11-06 | 一种视频热度预测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109522470A true CN109522470A (zh) | 2019-03-26 |
Family
ID=65774331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811316777.3A Pending CN109522470A (zh) | 2018-11-06 | 2018-11-06 | 一种视频热度预测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522470A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110225407A (zh) * | 2019-04-23 | 2019-09-10 | 北京奇艺世纪科技有限公司 | 一种播放数据的获取方法和装置及计算机可读存储介质 |
CN110750728A (zh) * | 2019-10-28 | 2020-02-04 | 精硕科技(北京)股份有限公司 | 一种浏览资源热度的预测方法、预测装置及可读存储介质 |
CN110933473A (zh) * | 2019-12-10 | 2020-03-27 | 北京爱奇艺科技有限公司 | 一种视频播放热度确定方法及装置 |
CN110933492A (zh) * | 2019-12-10 | 2020-03-27 | 北京爱奇艺科技有限公司 | 一种播放时长预测方法及装置 |
CN111062527A (zh) * | 2019-12-10 | 2020-04-24 | 北京爱奇艺科技有限公司 | 一种视频集流量预测方法及装置 |
CN111565316A (zh) * | 2020-07-15 | 2020-08-21 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、计算机设备及存储介质 |
CN111597383A (zh) * | 2020-04-24 | 2020-08-28 | 北京奇艺世纪科技有限公司 | 一种视频热度级别预测方法及装置 |
CN112004120A (zh) * | 2019-05-27 | 2020-11-27 | 广州虎牙信息科技有限公司 | 平台网络资源播放量的预测方法、装置、设备及存储介质 |
CN112035704A (zh) * | 2020-08-03 | 2020-12-04 | 映美传世(北京)文化传媒有限公司 | 档期推荐的方法及装置 |
CN112734103A (zh) * | 2021-01-05 | 2021-04-30 | 烽火通信科技股份有限公司 | 一种基于时空轮序的视频冷片预测方法与装置 |
CN113010779A (zh) * | 2021-03-10 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 媒体信息的热度计算方法、装置、电子设备及存储介质 |
CN113052375A (zh) * | 2021-03-19 | 2021-06-29 | 上海森宇文化传媒股份有限公司 | 一种预测剧集播放量的方法和装置 |
CN113837807A (zh) * | 2021-09-27 | 2021-12-24 | 北京奇艺世纪科技有限公司 | 热度预测方法、装置、电子设备及可读存储介质 |
CN114297156A (zh) * | 2021-12-27 | 2022-04-08 | 北京达佳互联信息技术有限公司 | 多媒体文件清理方法、装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488599A (zh) * | 2015-12-29 | 2016-04-13 | 杭州数梦工场科技有限公司 | 预测文章热度的方法和装置 |
CN105635762A (zh) * | 2016-01-15 | 2016-06-01 | 深圳大学 | 一种基于深度信念网络的视频热度预测方法及其系统 |
CN106686414A (zh) * | 2016-12-30 | 2017-05-17 | 合网络技术(北京)有限公司 | 视频推荐方法及装置 |
CN107766360A (zh) * | 2016-08-17 | 2018-03-06 | 北京神州泰岳软件股份有限公司 | 一种视频热度预测方法和装置 |
CN108182240A (zh) * | 2017-12-28 | 2018-06-19 | 百度在线网络技术(北京)有限公司 | 兴趣点新增率预测模型训练及预测方法、装置及存储介质 |
-
2018
- 2018-11-06 CN CN201811316777.3A patent/CN109522470A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488599A (zh) * | 2015-12-29 | 2016-04-13 | 杭州数梦工场科技有限公司 | 预测文章热度的方法和装置 |
CN105635762A (zh) * | 2016-01-15 | 2016-06-01 | 深圳大学 | 一种基于深度信念网络的视频热度预测方法及其系统 |
CN107766360A (zh) * | 2016-08-17 | 2018-03-06 | 北京神州泰岳软件股份有限公司 | 一种视频热度预测方法和装置 |
CN106686414A (zh) * | 2016-12-30 | 2017-05-17 | 合网络技术(北京)有限公司 | 视频推荐方法及装置 |
CN108182240A (zh) * | 2017-12-28 | 2018-06-19 | 百度在线网络技术(北京)有限公司 | 兴趣点新增率预测模型训练及预测方法、装置及存储介质 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110225407A (zh) * | 2019-04-23 | 2019-09-10 | 北京奇艺世纪科技有限公司 | 一种播放数据的获取方法和装置及计算机可读存储介质 |
CN110225407B (zh) * | 2019-04-23 | 2021-09-03 | 北京奇艺世纪科技有限公司 | 一种播放数据的获取方法和装置及计算机可读存储介质 |
CN112004120B (zh) * | 2019-05-27 | 2023-10-13 | 广州虎牙信息科技有限公司 | 平台网络资源播放量的预测方法、装置、设备及存储介质 |
CN112004120A (zh) * | 2019-05-27 | 2020-11-27 | 广州虎牙信息科技有限公司 | 平台网络资源播放量的预测方法、装置、设备及存储介质 |
CN110750728A (zh) * | 2019-10-28 | 2020-02-04 | 精硕科技(北京)股份有限公司 | 一种浏览资源热度的预测方法、预测装置及可读存储介质 |
CN110933473A (zh) * | 2019-12-10 | 2020-03-27 | 北京爱奇艺科技有限公司 | 一种视频播放热度确定方法及装置 |
CN110933492A (zh) * | 2019-12-10 | 2020-03-27 | 北京爱奇艺科技有限公司 | 一种播放时长预测方法及装置 |
CN111062527A (zh) * | 2019-12-10 | 2020-04-24 | 北京爱奇艺科技有限公司 | 一种视频集流量预测方法及装置 |
CN110933492B (zh) * | 2019-12-10 | 2022-03-04 | 北京爱奇艺科技有限公司 | 一种播放时长预测方法及装置 |
CN111062527B (zh) * | 2019-12-10 | 2023-12-05 | 北京爱奇艺科技有限公司 | 一种视频集流量预测方法及装置 |
CN111597383A (zh) * | 2020-04-24 | 2020-08-28 | 北京奇艺世纪科技有限公司 | 一种视频热度级别预测方法及装置 |
CN111565316A (zh) * | 2020-07-15 | 2020-08-21 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、计算机设备及存储介质 |
CN112035704A (zh) * | 2020-08-03 | 2020-12-04 | 映美传世(北京)文化传媒有限公司 | 档期推荐的方法及装置 |
CN112734103A (zh) * | 2021-01-05 | 2021-04-30 | 烽火通信科技股份有限公司 | 一种基于时空轮序的视频冷片预测方法与装置 |
CN113010779A (zh) * | 2021-03-10 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 媒体信息的热度计算方法、装置、电子设备及存储介质 |
CN113010779B (zh) * | 2021-03-10 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 媒体信息的热度计算方法、装置、电子设备及存储介质 |
CN113052375A (zh) * | 2021-03-19 | 2021-06-29 | 上海森宇文化传媒股份有限公司 | 一种预测剧集播放量的方法和装置 |
CN113837807B (zh) * | 2021-09-27 | 2023-07-21 | 北京奇艺世纪科技有限公司 | 热度预测方法、装置、电子设备及可读存储介质 |
CN113837807A (zh) * | 2021-09-27 | 2021-12-24 | 北京奇艺世纪科技有限公司 | 热度预测方法、装置、电子设备及可读存储介质 |
CN114297156A (zh) * | 2021-12-27 | 2022-04-08 | 北京达佳互联信息技术有限公司 | 多媒体文件清理方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522470A (zh) | 一种视频热度预测方法、装置、设备及存储介质 | |
US11538064B2 (en) | System and method of providing a platform for managing data content campaign on social networks | |
CN106228386B (zh) | 一种信息推送方法及装置 | |
CN105898209A (zh) | 视频平台监控分析系统 | |
CN103455559B (zh) | 一种应用自动推荐的方法及装置 | |
CN106412644A (zh) | 一种基于智能电视播放器的广告精准投放方法及系统 | |
CN110210883A (zh) | 群控账号识别方法、装置、服务器及存储介质 | |
CN109636481A (zh) | 面向家庭用户的用户画像构建方法及装置 | |
CN105144141A (zh) | 用于使用距离关联性散列法对媒体数据库定址的系统和方法 | |
WO2012024316A4 (en) | Unified data management platform | |
CN104205158A (zh) | 测量在线观众的系统、方法和产品 | |
CN103365936A (zh) | 视频推荐系统及其方法 | |
CN110413867B (zh) | 用于内容推荐的方法及系统 | |
CN106326391A (zh) | 多媒体资源推荐方法及装置 | |
WO2020238502A1 (zh) | 物品推荐方法及装置、电子设备及存储介质 | |
CN109872796A (zh) | 一种菜谱推荐方法和装置 | |
CN104239421B (zh) | 一种推送应用到终端的方法和系统 | |
CN107770046A (zh) | 一种用于拼图的方法与设备 | |
CN111522724A (zh) | 异常账号的确定方法、装置、服务器及存储介质 | |
CN108737486A (zh) | 信息推送方法和装置 | |
US11126785B1 (en) | Artificial intelligence system for optimizing network-accessible content | |
CN113297486B (zh) | 一种点击率预测方法及相关装置 | |
CN110288443A (zh) | 信息推送方法、装置、电子设备及计算机可读存储介质 | |
US20170331909A1 (en) | System and method of monitoring and tracking online source content and/or determining content influencers | |
CN113569162A (zh) | 数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210618 Address after: Block g, poly World Trade Center, 996 Xingang East Road, Haizhu District, Guangzhou, Guangdong 510220 Applicant after: Guangdong Guangdong Marketing Group Co.,Ltd. Address before: Block g, poly World Trade Center, 996 Xingang East Road, Haizhu District, Guangzhou, Guangdong 510220 Applicant before: Wang Hao |
|
TA01 | Transfer of patent application right |