CN111833083A - 多媒体内容的数据处理方法及装置 - Google Patents
多媒体内容的数据处理方法及装置 Download PDFInfo
- Publication number
- CN111833083A CN111833083A CN201910308527.3A CN201910308527A CN111833083A CN 111833083 A CN111833083 A CN 111833083A CN 201910308527 A CN201910308527 A CN 201910308527A CN 111833083 A CN111833083 A CN 111833083A
- Authority
- CN
- China
- Prior art keywords
- multimedia content
- historical
- heat
- content
- time period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 56
- 230000015654 memory Effects 0.000 claims description 25
- 238000003860 storage Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 238000004519 manufacturing process Methods 0.000 claims description 10
- 238000000265 homogenisation Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 235000019633 pungent taste Nutrition 0.000 description 10
- 230000006872 improvement Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 241000482268 Zea mays subsp. mays Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Abstract
本申请关于一种多媒体内容的数据处理方法及装置。所述方法包括:获取多媒体内容在未公布状态下多个不同时刻的内容特征;分别将所述内容特征输入至热度预测模型组件,经所述热度预测模型组件输出所述多媒体内容在公布预设时间段后的预测热度;将所述多媒体内容的多个所述预测热度与预设参考数据进行对比,确定所述多媒体内容在公布所述预设时间段后的热度。利用本申请各个实施例提供的多媒体内容的数据处理方法及装置,在多媒体内容公布之前较早的时刻就可以预测到比较准确的热度,大大提前热度预测的时间点,留给用户足够的时间做出一些宣发决策、广告投放决策,具有十分重要的市场价值。
Description
技术领域
本申请涉及大数据处理技术领域,尤其涉及多媒体内容的数据处理方法及装置。
背景技术
多媒体内容的热度一直是各个多媒体平台所关注的重要指数,热度越高,往往表示关注多媒体内容的用户越多。典型的,多媒体内容的热度可以包括电影的票房、电视剧的收视率、新闻资讯的热度、直播的粉丝数等等。在多媒体内容未公布状态下预测多媒体内容的热度对于各个多媒体平台来说具有十分重要的意义,例如,在电影或者电视公映之前,预测到电影的票房或者电视的收视率,可以帮助电影电视宣发方采取一定的宣传策略,以进一步提升票房或者收视率。
目前,在电影票房预测的相关技术中,往往是在进行电影票预售之后预估票房。但是,电影票预售时间往往距离电影公映的时间很接近,通常是在映前一到两周的时间。因此,票房预估的时间比较滞后,其产生的参考决策价值也十分有限。
因此,相关技术中亟需一种能够在多媒体内容公布之前较早的时间段准确地预测出多媒体内容的热度。
发明内容
为克服相关技术中存在的问题,本申请提供多媒体内容的数据处理方法及装置。
具体地,所述多媒体内容的数据处理方法及装置是这样实现的:
一种多媒体内容的数据处理方法,所述方法包括:
获取多媒体内容在未公布状态下多个不同时刻的内容特征;
分别将所述内容特征输入至热度预测模型组件,经所述热度预测模型组件输出所述多媒体内容在公布预设时间段后的预测热度;
将所述多媒体内容的多个所述预测热度与预设参考数据进行对比,确定所述多媒体内容在公布所述预设时间段后的热度;其中,所述预设参考数据包括:根据至少一个第一历史多媒体内容在未公布状态下多个不同时刻的历史内容特征,并利用所述预测模型组件针对所述历史内容特征确定的所述第一历史多媒体内容在公布所述预设时间段后的历史预测热度。
一种多媒体内容的数据处理装置,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取多媒体内容在未公布状态下多个不同时刻的内容特征;
分别将所述内容特征输入至热度预测模型组件,经所述热度预测模型组件输出所述多媒体内容在公布预设时间段后的预测热度;
将所述多媒体内容的多个所述预测热度与预设参考数据进行对比,确定所述多媒体内容在公布所述预设时间段后的热度;其中,所述预设参考数据包括:根据至少一个第一历史多媒体内容在未公布状态下多个不同时刻的历史内容特征,并利用所述预测模型组件针对所述历史内容特征确定的所述第一历史多媒体内容在公布所述预设时间段后的历史预测热度。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得处理器能够执行所述的多媒体内容的数据处理方法。
本申请提供的多媒体内容的数据处理方法及装置,可以获取多媒体内容在公开状态下多个不同时刻的内容特征,并通过热度预测模型组件获取该内容特征对应的预测热度。然后,可以将所述预测热度与预设参考数据进行对比,确定出所述多媒体内容在公布预设时间段后的热度。由于所述预设参考数据与所述预测热度均是利用所述热度预测模型组件输出得到,且用于生成所述预设参考数据的输入数据为历史真实数据,具有较高的置信度,因此,通过将预测热度与所述预测参考数据进行对比,可以确定出比较准确的结果。另外,由于所述预设参考数据的时间线比较完整,因此,只需要获取到部分时间线上的预测热度,即在多媒体内容公布之前较早的时刻就可以预测到比较准确的热度,大大提前热度预测的时间点,留给用户足够的时间做出一些宣发决策、广告投放决策,具有十分重要的市场价值。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种应用场景示意图。
图2是根据一示例性实施例示出的一种应用场景示意图。
图3是根据一示例性实施例示出的一种多媒体内容的数据处理方法流程示意图。
图4是根据一示例性实施例示出的一种装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
下面通过一个具体的应用场景说明本申请各个实施例提供的多媒体内容的数据处理方法。
电影《熊出没原始时代》距离上映时间还有30天,此时,电影的宣发方、出品方、广告发行方等都想知道该电影的首映日的票房数据,进而,能够根据票房数据做一些宣发策略,广告投放策略等等。在本应用场景中,可以按照图1所示的流程图预测该电影的首映日票房。首先,可以从《熊出没原始时代》首映日前的90天到30天每天的相关数据中提取出一些特征数据,如想看人数、预告片播放次数、电影详情首页点击次数等等。然后,可以将每天的特征数据输入至票房预测模型组件,经所述票房预测模型组件输出预测的首映日票房。所述票房预测模型组件可以利用第二历史电影集合训练得到,具体的训练方式可以参考下述内容,在此不再赘述。如图2所示,可以将该电影每天对应的首映日票房构建为一条票房曲线,由于-90天到-50天内预测的票房为0,因此图中未显示。
如图1所示,可以将电影《熊出没原始时代》的票房曲线与多条票房参考曲线进行对比,以确定该电影的首映日票房。其中,所述票房参考曲线是利用第一历史电影集合中电影的数据预测出电影在首映日前90天到首映日的票房参考曲线。电影《熊出没原始时代》的票房曲线与某部电影对应的票房参考曲线的拟合度越高,表示这两部电影的票房走势越接近。基于此,可以从所述多条票房参考曲线中确定出与电影《熊出没原始时代》的票房曲线拟合度大于预设阈值的目标曲线,并将目标曲线对应的首映日票房作为电影《熊出没原始时代》的预测票房。
在一种实施例中,《熊出没原始时代》的电影类型为动画,因此,获取到一些类型同样为动画的历史电影的首映日票房参考曲线,其各个时间点上的票房的计算方式同《熊出没原始时代》的计算方式。图2中包括部分历史电影在首映日前90天到30天的票房参考曲线。然后,可以将《熊出没原始时代》的票房曲线分别与各个票房参考曲线进行拟合计算,分别获取到与各个历史电影之间的拟合度。通过计算发现,《熊出没原始时代》的票房曲线与《熊出没变形记》票房参考曲线之间的拟合程度高达96%,即这两部电影在首映日前90天到30天内的预测的票房走势非常相似。由于《熊出没变形记》是2018年2月16日已经上映的历史电影,且获取到其首映日票房为1500万。因此,可以确定《熊出没原始时代》的首映日票房为1500万,当然,还可以确定其总票房约为6.05亿。
通过上述方式,用户可以提前30天即可以确定一部电影的票房数据,票房预估时间大大提前,留给用户足够的时间做出一些宣发决策、广告投放决策,具有十分重要的市场价值。
在一个示例性的场景中,通过以上方式在映前30天时预测出《熊出没原始时代》的票房为6.05亿,并可以将这样的预测结果提供给该电影的宣发方。当然,所述预测结果中还可以包括一些影响票房的因素,尤其是一些可以通过一些宣发决策能够调整的因素。在一个示例中,分析到《熊出没原始时代》相对于其他同时段的竞品,其口碑指数偏低。基于此,宣发方可以设计一些宣发策略,如鼓励用户在微博、朋友圈等个人社交平台上转发电影《熊出没原始时代》的预告片,转发满足一定次数后可以免费获取到电影票优惠券、爆米花、可乐等,以提高该电影的口碑指数。再如,分析到《熊出没原始时代》的预售量很低,基于此,宣发方可以安排演员召开现场发布会,进行现场售票等等,以进一步提高电影的预售量。
下面结合附图对本申请所述的多媒体内容数据处理方法进行详细的说明。图3是本申请提供的多媒体内容数据处理方法的一种实施例的方法流程示意图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际中的多媒体内容的数据处理过程中或者装置执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
具体的,本申请提供的多媒体内容数据处理方法的一种实施例如图3所示,所述方法可以包括:
S301:获取多媒体内容在未公布状态下多个不同时刻的内容特征。
S303:分别将所述内容特征输入至热度预测模型组件,经所述热度预测模型组件输出所述多媒体内容在公布预设时间段后的预测热度;其中,所述热度预测模型组件利用多个第二历史多媒体内容在预设时刻的内容特征与所述第二历史多媒体内容在公布所述预设时间段后的热度之间的对应关系训练得到。
S305:将所述多媒体内容的多个所述预测热度与预设参考数据进行对比,确定所述多媒体内容在公布所述预设时间段后的热度;其中,所述预设参考数据包括:根据至少一个第一历史多媒体内容在未公布状态下多个不同时刻的历史内容特征,并利用所述预测模型组件针对所述历史内容特征确定的所述第一历史多媒体内容在公布所述预设时间段后的历史预测热度。
本申请实施例中,所述多媒体是指组合两种或两种以上元素媒体的一种人机交互式信息交流和传播媒体,所述元素媒体可以包括文字、图片、照片、声音、动画、影片等等。基于此,所述多媒体内容可以包括电影、电视剧、综艺节目、网络资讯、动画、广告、网络视频、游戏、直播等等,其中,电影还可以包括微电影,网络资讯可以包括各类新闻、娱乐八卦等,网络视频可以包括能够发布于网络中的视频,如产品发布视频、小视频等。
在实际的应用环境中,个人或者公司可以制定多媒体内容的公布计划,其中比较重要的是公布时间点。例如,一般会在影视作品上映或者开播前三个月左右的时间公布消息,例如HBO早在2019年1月14日就公布电视剧《权利的游戏第八季》的开播时间为2019年4月14日。因此,本申请实施例中的多媒体内容可以具有公布时间特征,即所述多媒体内容具有具体的公布时刻。
多媒体内容在未公布状态下即已具有很多相关特征信息,例如,截止至2019年4月10日,某平台统计到电视剧《权利的游戏第八季》的想看人数为115813,当然,平台后台还可以统计到该电视剧预告片的播放次数、评论数等等。基于此,在本申请实施例中,可以获取多媒体内容在未公布状态下多个不同时刻的内容特征。所述内容特征可以包括关注人数、预告播放量、网页点击率、预售量、内容类型、产地、搜索指数、口碑指数等等。其中,关注人数为统计的关注该多媒体内容的总用户数量,如影视作品的想看人数、游戏的参与人数等等。预告播放量可以包括影视作品、游戏、直播、网络视频等预告的播放人数、阅读人数,其中,预告包括但不限于预告视频内容,也可以包括文字内容、图片内容等等。所述网页点击率为多媒体内容相关网页的点击率等。所述预售量可以包括多媒体内容相关凭证的预售量,如电影票的预售量、游戏的预售量等等。所述内容类型可以包括多媒体内容所属的类型,对于电影来说,可以包括爱情片、悬疑片、恐怖片等等,对于游戏来说,可以包括冒险类、角色扮演类、动作类等等。产地例如可以包括所述多媒体所源自的地方,如英国、中国大陆、韩国等等。搜索指数例如可以包括该多媒体内容在网络上被搜索到的概率,如该多媒体内容被搜索到的次数,或者占所有搜索内容的比例等等。所述口碑指数可以包括在用户之间的流传指数,具体可以通过调查问卷的形式统计得到。当然,所述内容特征可以包括在未公布状态下能够统计得到并能够对多媒体热度产生影响的任何特征,本申请在此不做限制。
本申请实施例中,所述未公布状态下多个不同时刻可以包括确定的未公布状态下的多个规律的或者无规律的时刻。在一些示例中,所述多个时刻可以包括每天的固定时刻,如每天12点获取一次所述多媒体内容对应的内容特征,还可以是每隔6小时、每隔两天等等。当然,还可以无规律的时刻,如周一到周五的每天9点,周六周日的每天9点、12点、15点、18点、21点等等。所述多个时刻可以包括未公布状态下的任何时刻,本申请在此不做限制。
本申请实施例中,在获取到所述多媒体内容在未公布状态下多个不同时刻的内容特征之后,可以将所述内容特征输入至热度预测模型组件,经所述热度预测模型组件输出所述多媒体内容在公布预设时间段后的预测热度。本申请实施例中,所述热度预测模型组件可以是利用机器学习方式训练得到的模型组件。所述机器学习方式还可以包括K近邻算法、感知机算法、决策树、支持向量机、逻辑斯底回归、最大熵等,相应的,生成的模型组件如朴素贝叶斯、隐马尔科夫等。当然,在其他实施例中,所述机器学习方式还可以包括深度学习学习方式、强化学习方式等等,生成的模型组件可以包括卷积神经网络学习模型组件、循环神经网络模型组件等等,本申请在此不做限制。
本申请实施例中,所述热度预测模型组件可以利用多个第二历史多媒体内容在预设时刻的内容特征与所述第二历史多媒体内容在公布所述预设时间段后的热度之间的对应关系训练得到。其中,所述第二历史多媒体内容可以包括已被公布的真实的内容素材,如多部2016-2018年的电影。当然,所述第二历史多媒体内容还可以包括人工制作的置信度较高的内容素材,本申请在此不做限制。
本申请实施例中,所述预设时刻可以包括下述中的一种:所述第二历史多媒体内容公布前小于第一预设时间段的时刻;所述第二历史多媒体内容公布的时刻;所述第二历史多媒体内容公布后小于第二预设时间段的时刻。在训练所述热度预测模型组件的过程中,原则上选取的输入数据和输出数据是置信度较高的组合,因此,在所述第二历史多媒体内容公布前后的一小段时间段内的内容特征与公布后所述预设时间段的热度具有最为密切的关联关系。在一个示例中,电影的公映前一两天或者公映后一两天的内容特征与该电影最终的票房具有最密切的关联关系。因此,所述预设是可以是公布前小于第一预设时间段的时刻、公布的时刻、公布后小于第二预设时间段的时刻中的一种。在一个示例中,电影的公布时间为2016年5月1日19点,若设置所述第一预设时间段为12小时,则所述预设时刻可以包括2016年5月1日7点到19点之间的任何时刻。
本申请实施例中,还需要获取到所述第二历史多媒体内容在公布预设时间段后的热度。所述预设时间段与本申请对于数据处理时间要求相匹配。例如,本申请需要确定所述多媒体内容公布一天内的热度,则所述预设时间段即为一天,若电影的公布时间为2016年5月1日19点,则需要获取到电影在2016年5月2日19点的热度。若本申请需要确定所述多媒体内容公布一周内的热度,则所述预设时间段即为一周,若电影的公布时间为2016年5月1日19点,则需要获取到电影在2016年5月8日19点的热度。
本申请实施例中,在获取到所述第二历史多媒体内容在预设时刻的内容特征以及所述历史多媒体内容在公布所述预设时间段后的热度之后,可以利用所述内容特征和所述热度之间的对应关系训练所述热度预测模型组件。在一个实施例中,可以构建所述热度预测模型组件,所述热度模型组件中设置有训练参数。然后,分别将所述多个第二历史多媒体内容的内容特征输入至所述热度预测模型组件中,生成预测结果。再基于所述预测结果与所述第二历史多媒体内容在公布所述预设时间段后的热度之间的差异,对所述训练参数进行迭代调整,直至所述差异满足预设要求。在一个示例中,所述差异可以是预先构建的损失函数,当损失函数的计算结果小于预设阈值时,可以确定所述热度预测模型组件符合要求。
需要说明的是,利用所述内容特征和所述热度之间的对应关系训练所述热度预测模型组件的方式不限于上述实施例,任何能够使得所述热度预测模型符合要求的方式均属于本申请保护的范围。
在实际的应用场景中,若需要在所述多媒体内容未公布状态下比较早的时间段确定出公布后的热度,则需要距离公布时间较近的时间段内的数据,因此,同时满足这两种需求似乎是矛盾的。例如,于2019年3月20日公布某电影的公映时间为2019年6月20日,但是电影的宣发方、投资方、广告方等需要在比较早的时间确定该电影在首映日的票房,但是截止至2019年4月11日,只有22天该电影的内容特征,若只利用这22天的内容特征,则难以准确地确定出该电影首映日的票房。
为了解决该技术问题,本申请实施例中,可以将所述多媒体内容的多个所述预测热度与预设参考数据进行对比,确定所述多媒体内容在公布所述预设时间段后的热度。其中,所述预设参考数据可以包括:根据至少一个第一历史多媒体内容在未公布状态下多个不同时刻的历史内容特征,并利用所述热度预测模型组件针对所述历史内容特征确定的所述第一历史多媒体内容在公布所述预设时间段后的历史预测热度。所述至少一个第一历史多媒体数据可以与所述第二历史多媒体数据为同一组数据,或者有部分数据的重合,也可以是完全不相同的数据,本申请在此不做限制。同样地,可以利用与上述实施例相同的当时获取所述至少一个第一历史多媒体内容在未公布状态下多个不同时刻的历史内容特征。然后,可以将所述历史内容特征输入至所述热度预测模型组件,经所述热度预测模型组件输出所述第一历史多媒体内容在公布所述预设时间段后的历史预测热度。在一个示例中,获取到电影《阿凡达》在首映日(中国首映日为2010年1月4日)前90天每天12点的内容特征,然后,可以将这90天的内容特征分别输入至已经训练完成的热度预测模型组件中,获取到利用每天的内容特征预测的首映日的票房数据(即公布预设时间段后的历史预测热度),即共获取到90个首映日的票房数据。
本申请实施例中,在将所述多媒体内容的多个所述预测热度与预设参考数据进行对比的过程中,可以确定所述多媒体内容分别与所述至少一个第一历史多媒体内容的热度趋势之间的匹配程度。
在本申请的一个实施例中,在确定所述匹配程度的过程中,可以分别确定在未公布状态下多个相同时刻所述多媒体内容的所述预测热度和所述第一历史多媒体内容的所述历史预测热度之间的差异值。然后,可以根据所述多个相同时刻的差异值,确定所述多媒体内容分别和所述第一历史多媒体内容的热度趋势之间的匹配程度。在此情况下,需要在确定所述预测热度时所需的内容特征对应的时刻与所述历史预测热度时所需的历史内容特征对应的时刻为同一时刻,例如,获取电影A的多个历史预测热度时所需的历史内容特征对应的时刻为首映日前90天每天的12点,如果将电影A的多个历史预测热度作为参考数据,则需要还未上映的电影B的预测热度所需的内容特征对应的时刻也为首映日前N天(如映前90天到映前70天)每天的12点。在一个实施例中,在计算多个相同时刻的差异值,如映前90天到映前70天每天12点对应的预测热度和历史预测热度之间的差异值之后,可以累计这21天的差异值,若累计的差异值小于预设差异阈值,则可以确定该所述多媒体内容和所述第一历史多媒体内容的热度趋势是相匹配的。当然,根据所述差异值确定所述匹配程度的方式不限于累计所述差异值的方式,例如还可以求平均值等方式,所属领域技术人员在本申请技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本申请相同或相似,均应涵盖于本申请保护范围内。
上述实施例中,可以应用于所述参考数据为离散数据,即所述历史预测热度随时间变化为离散的数据点的情况下。在本申请的另一个实施例中,所述参考数据还可以是曲线形式,即所述历史预测热度随时间连续变化,生成的参考数据可以称之为参考曲线。相应地,在本申请实施例中,可以将所述多媒体内容在所述多个不同时刻对应的所述预测热度构建成热度预测曲线。然后,可以将所述热度预测曲线分别与所述多个第一历史多媒体内容对应的参考曲线进行比较,并从所述参考曲线中确定与所述热度预测曲线之间的拟合度大于预设阈值的至少一条目标参考曲线。在一些示例中,曲线之间的拟合计算可以包括最小二乘法、用解析表达式逼近离散数据等方法,本申请在此不做限制。所述热度预测曲线与所述参考曲线之前的拟合度越高,可以表示所述多媒体内容和对应的第一历史多媒体内容的热度走势越接近,因此,可以将所述至少一条目标参考曲线在公布所述预设时间段后的热度作为所述多媒体内容在公布所述预设时间段后的热度。在一个示例中,电影C距离上映时间还有45天,利用所述热度预测模型预测到电影C在首映日前90天到45天每天12点和凌晨对应的预测热度,然后,将各个时间点对应的预测热度构建成一条热度曲线。另外,又获取到多部历史电影的参考曲线,所跨越的时间从首映日前90天到放映结束,因此,多部历史电影的参考曲线在时间上和电影C的热度时间具有45天的重合。基于此,可以将这45天对应的多个参考曲线分别和热度曲线进行拟合计算,选取其中拟合度大于预设阈值的至少一条目标参考曲线。经拟合,确定所述电影D对应的参考曲线和电影C的热度曲线在45天内的曲线拟合度为96%,大于预设阈值95%。因此,可以将电影D的首映日票房作为电影C的首映日票房。
在实际应用中,具有相同类别的多媒体内容可以具有比较相似的热度趋势。基于此,在本申请的一个实施例中,可以将所述至少一个第一历史多媒体内容划分成多个类别。在一个实施例中,可以按照下述中的至少一种分类维度将所述至少一个第一历史多媒体内容划分成多个类别:想看人数、预告播放量、网页点击率、预售量、内容类型、产地、搜索指数、口碑指数、公布后所述预设时间段后的热度。在一些示例中,例如可以将具有相同内容类型的电影划分为同一个类别,如爱情片为一组,动作片为一组,悬疑片为一组。再如,对于爱情片,还可以进一步将美国的爱情片划分为一组,英国的爱情片划分为一组。这样,可以从多个分类维度将所述至少一个历史多媒体内容划分成多个类别。在另一个实施例中,所述类别还可以具有分类权重,即各个分类维度的重要程度可以不相同。例如,相对于产地而言,预告播放量对热度的影响更大,因此,可以设置预告播放量的权重值大于产地的权重值。在一个示例中,可以利用数值化的计算方式计算得到所述第一历史多媒体内容对应的类别值,所述类别值可以为所述分类维度对应的数值的加权和。
本申请实施例中,还可以确定所述多媒体内容所对应的类别,具体的确定方式可以参考所述至少一个第一历史多媒体内容的类别划分方式,本申请在此不做限制。在确定所述多媒体内容的类别之后,可以将所述多媒体内容的所述预测热度分别与所述具有相同类别的至少一个第一历史多媒体内容的历史预测热度进行对比,确定所述多媒体内容在公布所述预设时间段后的热度。在一个示例中,获取到某部电影的预测热度曲线,又获取到共10000部左右的历史电影的历史预测热度曲线,但是这10000部电影按照“电影类型+产地”的分类维度被划分成150个类别。然后,确定该电影的类别为“爱情片+韩国”,而10000部电影中与该电影具有相同类别的只有200部,因此,只需要将该电影与200部电影进行对比,大大对比次数,提高对比效率。
为了进一步降低对比次数,提高对比效率,还可以对同一类别中的至少部分第一历史多媒体内容对应的历史预测热度进行均化处理。例如,在上述示例中,类别为“爱情片+韩国”的200部电影中,有30部电影的历史预测热度曲线的走势十分相似,拟合度均大于90%,基于此,可以这30部电影的历史预测热度曲线进行均化处理。在一个实施例中,可以将所述历史预测热度曲线中相同时刻对应的历史预测热度求平均值处理,这样,30部电影的历史预测热度曲线被处理成一条曲线,200部电影只对应于171条曲线。
在本申请的一个实施例中,还可以对同一类别内的第一历史多媒体内容对应的历史预测热度进行均化处理,生成历史均化预测热度,即每个类别对应一组历史预测热度离散点或者历史预测热度曲线。然后,可以分别将所述多媒体内容的预测热度与所述多个类别对应的历史均化预测热度进行对别,确定所述多媒体内容在公布所述预设时间段后的热度。在本申请实施例中,由于一些内容特征,在所述多媒体内容公布较早的时间段无法确定,如公布时的想看人数,或者首映日票房等等,但是所述第一历史多媒体内容的这些值却是已知的,因此,可以基于这些分类维度,将所述第一历史多媒体内容进行分类。且不需要对所述多媒体内容进行分类,直接与各个分类的参考数据进行比对即可。
本申请提供的多媒体内容的数据处理方法,可以获取多媒体内容在公开状态下多个不同时刻的内容特征,并通过热度预测模型组件获取该内容特征对应的预测热度。然后,可以将所述预测热度与预设参考数据进行对比,确定出所述多媒体内容在公布预设时间段后的热度。由于所述预设参考数据与所述预测热度均是利用所述热度预测模型组件输出得到,且用于生成所述预设参考数据的输入数据为历史真实数据,具有较高的置信度,因此,通过将预测热度与所述预测参考数据进行对比,可以确定出比较准确的结果。另外,由于所述预设参考数据的时间线比较完整,因此,只需要获取到部分时间线上的预测热度,即在多媒体内容公布之前较早的时刻就可以预测到比较准确的热度,大大提前热度预测的时间点,留给用户足够的时间做出一些宣发决策、广告投放决策,具有十分重要的市场价值。
对应于上述数据处理方法,如图4所示,本申请还提供一种多媒体内容的数据处理装置,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时可以实现:
获取多媒体内容在未公布状态下多个不同时刻的内容特征;
分别将所述内容特征输入至热度预测模型组件,经所述热度预测模型组件输出所述多媒体内容在公布预设时间段后的预测热度;
将所述多媒体内容的多个所述预测热度与预设参考数据进行对比,确定所述多媒体内容在公布所述预设时间段后的热度;其中,所述预设参考数据包括:根据至少一个第一历史多媒体内容在未公布状态下多个不同时刻的历史内容特征,并利用所述预测模型组件针对所述历史内容特征确定的所述第一历史多媒体内容在公布所述预设时间段后的历史预测热度。
可选的,在本申请的一个实施例中,所述热度预测模型组件被设置为按照下述方式训练得到:
获取多个第二历史多媒体内容在预设时刻的内容特征以及所述第二历史多媒体内容在公布所述预设时间段后的热度;
构建热度预测模型组件,所述热度预测模型组件中设置有训练参数;
分别将所述多个第二历史多媒体内容的内容特征输入至所述热度预测模型组件中,生成预测结果;
基于所述预测结果与所述第二历史多媒体内容在公布所述预设时间段后的热度之间的差异,对所述训练参数进行迭代调整,直至所述差异满足预设要求。
可选的,在本申请的一个实施例中,所述预设时刻包括下述中的一种:
所述第二历史多媒体内容公布前小于第一预设时间段的时刻;
所述第二历史多媒体内容公布的时刻;
所述第二历史多媒体内容公布后小于第二预设时间段的时刻。
可选的,在本申请的一个实施例中,所述处理器在实现步骤将所述多媒体内容的多个所述预测热度与预设参考数据进行对比,确定所述多媒体内容在公布所述预设时间段后的热度时包括:
确定所述多媒体内容分别与所述至少一个第一历史多媒体内容的热度趋势之间的匹配程度;
根据所述匹配程度,从所述至少一个第一历史多媒体内容中确定至少一个目标第一历史多媒体内容;
根据所述至少一个目标第一历史多媒体内容在公布所述预设时间段后的热度,确定所述多媒体内容在公布所述预设时间段后的热度。
可选的,在本申请的一个实施例中,所述处理器在实现步骤确定所述多媒体内容分别和所述至少一个第一历史多媒体内容的热度趋势之间的匹配程度时包括:
分别确定在未公布状态下多个相同时刻所述多媒体内容的所述预测热度和所述第一历史多媒体内容的所述历史预测热度之间的差异值;
根据所述多个相同时刻的差异值,确定所述多媒体内容分别和所述第一历史多媒体内容的热度趋势之间的匹配程度。
可选的,在本申请的一个实施例中,在所述历史预测热度为参考曲线表达形式的情况下,所述处理器在实现步骤确定所述多媒体内容分别和所述至少一个第一历史多媒体内容的热度趋势之间的匹配程度时包括:
将所述多媒体内容在所述多个不同时刻对应的所述预测热度构建成热度预测曲线;
从参考曲线中确定与所述热度预测曲线之间的拟合度大于预设阈值的至少一条目标参考曲线;
将所述至少一条目标参考曲线在公布所述预设时间段后的热度作为所述多媒体内容在公布所述预设时间段后的热度。
可选的,在本申请的一个实施例中,所述内容特征包括下述中的至少一种:关注人数、预告播放量、网页点击率、预售量、内容类型、产地、搜索指数、口碑指数。
可选的,在本申请的一个实施例中,所述处理器在实现步骤将所述多媒体内容的多个所述预测热度与预设参考数据进行对比,确定所述多媒体内容在公布所述预设时间段后的热度时包括:
将所述至少一个第一历史多媒体内容划分成多个类别;
确定所述多媒体内容所对应的类别;
将所述多媒体内容的所述预测热度分别与具有相同类别的至少一个第一历史多媒体内容的历史预测热度进行对比,确定所述多媒体内容在公布所述预设时间段后的热度。
可选的,在本申请的一个实施例中,所述处理器在实现步骤将所述多媒体内容的多个所述预测热度与预设参考数据进行对比,确定所述多媒体内容在公布所述预设时间段后的热度时包括:
将所述至少一个第一历史多媒体内容划分成多个类别;
对同一类别内的第一历史多媒体内容对应的历史预测热度进行均化处理,生成历史均化预测热度;
分别将所述多媒体内容的预测热度与所述多个类别对应的历史均化预测热度进行对别,确定所述多媒体内容在公布所述预设时间段后的热度。
可选的,在本申请的一个实施例中,所述将所述至少一个第一历史多媒体内容划分成多个类别,包括:
按照下述中的至少一种分类维度将所述至少一个第一历史多媒体内容划分成多个类别:想看人数、预告播放量、网页点击率、预售量、内容类型、产地、搜索指数、口碑指数、公布后所述预设时间段后的热度。
可选的,在本申请的一个实施例中,所述处理器在实现步骤将所述至少一个第一历史多媒体内容划分成多个类别之后,还包括:
对同一类别中的至少部分第一历史多媒体内容对应的历史预测热度进行均化处理。
可选的,在本申请的一个实施例中,在所述类别包括多个分类维度的情况下,所述处理器在实现步骤将所述至少一个第一历史多媒体内容划分成多个类别时包括:
获取所述多个分类维度分别对应的分类权重;
获取所述至少一个第一历史多媒体内容分别在所述多个分类维度下的维度值;
根据所述分类权重和所述维度值分别确定所述至少一个第一历史多媒体内容的类别。
本申请另一方面还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述任一实施例所述方法的步骤。
所述计算机可读存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。本实施例所述的计算机可读存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
本发明的实施例也可被提供为一组计算机程序产品,例如,通过网络分发到用户设备的计算机程序。或者,可被提供为通过计算机网络提供的服务,例如,通过云服务器提供的服务调用。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (25)
1.一种多媒体内容的数据处理方法,其特征在于,所述方法包括:
获取多媒体内容在未公布状态下多个不同时刻的内容特征;
分别将所述内容特征输入至热度预测模型组件,经所述热度预测模型组件输出所述多媒体内容在公布预设时间段后的预测热度;
将所述多媒体内容的多个所述预测热度与预设参考数据进行对比,确定所述多媒体内容在公布所述预设时间段后的热度;其中,所述预设参考数据包括:根据至少一个第一历史多媒体内容在未公布状态下多个不同时刻的历史内容特征,并利用所述预测模型组件针对所述历史内容特征确定的所述第一历史多媒体内容在公布所述预设时间段后的历史预测热度。
2.根据权利要求1所述的方法,其特征在于,所述热度预测模型组件被设置为按照下述方式训练得到:
获取多个第二历史多媒体内容在预设时刻的内容特征以及所述第二历史多媒体内容在公布所述预设时间段后的热度;
构建热度预测模型组件,所述热度预测模型组件中设置有训练参数;
分别将所述多个第二历史多媒体内容的内容特征输入至所述热度预测模型组件中,生成预测结果;
基于所述预测结果与所述第二历史多媒体内容在公布所述预设时间段后的热度之间的差异,对所述训练参数进行迭代调整,直至所述差异满足预设要求。
3.根据权利要求2所述的方法,其特征在于,所述预设时刻包括下述中的一种:
所述第二历史多媒体内容公布前小于第一预设时间段的时刻;
所述第二历史多媒体内容公布的时刻;
所述第二历史多媒体内容公布后小于第二预设时间段的时刻。
4.根据权利要求1所述的方法,其特征在于,所述将所述多媒体内容的多个所述预测热度与预设参考数据进行对比,确定所述多媒体内容在公布所述预设时间段后的热度,包括:
确定所述多媒体内容分别与所述至少一个第一历史多媒体内容的热度趋势之间的匹配程度;
根据所述匹配程度,从所述至少一个第一历史多媒体内容中确定至少一个目标第一历史多媒体内容;
根据所述至少一个目标第一历史多媒体内容在公布所述预设时间段后的热度,确定所述多媒体内容在公布所述预设时间段后的热度。
5.根据权利要求4所述的方法,其特征在于,所述确定所述多媒体内容分别和所述至少一个第一历史多媒体内容的热度趋势之间的匹配程度,包括:
分别确定在未公布状态下多个相同时刻所述多媒体内容的所述预测热度和所述第一历史多媒体内容的所述历史预测热度之间的差异值;
根据所述多个相同时刻的差异值,确定所述多媒体内容分别和所述第一历史多媒体内容的热度趋势之间的匹配程度。
6.根据权利要求4所述的方法,其特征在于,在所述历史预测热度为参考曲线表达形式的情况下,所述确定所述多媒体内容分别和所述至少一个第一历史多媒体内容的热度趋势之间的匹配程度,包括:
将所述多媒体内容在所述多个不同时刻对应的所述预测热度构建成热度预测曲线;
从参考曲线中确定与所述热度预测曲线之间的拟合度大于预设阈值的至少一条目标参考曲线;
将所述至少一条目标参考曲线在公布所述预设时间段后的热度作为所述多媒体内容在公布所述预设时间段后的热度。
7.根据权利要求1所述的方法,其特征在于,所述内容特征包括下述中的至少一种:关注人数、预告播放量、网页点击率、预售量、内容类型、产地、搜索指数、口碑指数。
8.根据权利要求1所述的方法,其特征在于,所述将所述多媒体内容的多个所述预测热度与预设参考数据进行对比,确定所述多媒体内容在公布所述预设时间段后的热度,包括:
将所述至少一个第一历史多媒体内容划分成多个类别;
确定所述多媒体内容所对应的类别;
将所述多媒体内容的所述预测热度分别与具有相同类别的至少一个第一历史多媒体内容的历史预测热度进行对比,确定所述多媒体内容在公布所述预设时间段后的热度。
9.根据权利要求1所述的方法,其特征在于,所述将所述多媒体内容的多个所述预测热度与预设参考数据进行对比,确定所述多媒体内容在公布所述预设时间段后的热度,包括:
将所述至少一个第一历史多媒体内容划分成多个类别;
对同一类别内的第一历史多媒体内容对应的历史预测热度进行均化处理,生成历史均化预测热度;
分别将所述多媒体内容的预测热度与所述多个类别对应的历史均化预测热度进行对别,确定所述多媒体内容在公布所述预设时间段后的热度。
10.根据权利要求8或9所述的方法,其特征在于,所述将所述至少一个第一历史多媒体内容划分成多个类别,包括:
按照下述中的至少一种分类维度将所述至少一个第一历史多媒体内容划分成多个类别:想看人数、预告播放量、网页点击率、预售量、内容类型、产地、搜索指数、口碑指数、公布后所述预设时间段后的热度。
11.根据权利要求8所述的方法,其特征在于,在所述将所述至少一个第一历史多媒体内容划分成多个类别之后,所述方法还包括:
对同一类别中的至少部分第一历史多媒体内容对应的历史预测热度进行均化处理。
12.根据权利要求8或9所述的方法,其特征在于,在所述类别包括多个分类维度的情况下,所述将所述至少一个第一历史多媒体内容划分成多个类别包括:
获取所述多个分类维度分别对应的分类权重;
获取所述至少一个第一历史多媒体内容分别在所述多个分类维度下的维度值;
根据所述分类权重和所述维度值分别确定所述至少一个第一历史多媒体内容的类别。
13.一种多媒体内容的数据处理装置,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取多媒体内容在未公布状态下多个不同时刻的内容特征;
分别将所述内容特征输入至热度预测模型组件,经所述热度预测模型组件输出所述多媒体内容在公布预设时间段后的预测热度;
将所述多媒体内容的多个所述预测热度与预设参考数据进行对比,确定所述多媒体内容在公布所述预设时间段后的热度;其中,所述预设参考数据包括:根据至少一个第一历史多媒体内容在未公布状态下多个不同时刻的历史内容特征,并利用所述预测模型组件针对所述历史内容特征确定的所述第一历史多媒体内容在公布所述预设时间段后的历史预测热度。
14.根据权利要求13所述的装置,其特征在于,所述热度预测模型组件被设置为按照下述方式训练得到:
获取多个第二历史多媒体内容在预设时刻的内容特征以及所述第二历史多媒体内容在公布所述预设时间段后的热度;
构建热度预测模型组件,所述热度预测模型组件中设置有训练参数;
分别将所述多个第二历史多媒体内容的内容特征输入至所述热度预测模型组件中,生成预测结果;
基于所述预测结果与所述第二历史多媒体内容在公布所述预设时间段后的热度之间的差异,对所述训练参数进行迭代调整,直至所述差异满足预设要求。
15.根据权利要求14所述的装置,其特征在于,所述预设时刻包括下述中的一种:
所述第二历史多媒体内容公布前小于第一预设时间段的时刻;
所述第二历史多媒体内容公布的时刻;
所述第二历史多媒体内容公布后小于第二预设时间段的时刻。
16.根据权利要求13所述的装置,其特征在于,所述处理器在实现步骤将所述多媒体内容的多个所述预测热度与预设参考数据进行对比,确定所述多媒体内容在公布所述预设时间段后的热度时包括:
确定所述多媒体内容分别与所述至少一个第一历史多媒体内容的热度趋势之间的匹配程度;
根据所述匹配程度,从所述至少一个第一历史多媒体内容中确定至少一个目标第一历史多媒体内容;
根据所述至少一个目标第一历史多媒体内容在公布所述预设时间段后的热度,确定所述多媒体内容在公布所述预设时间段后的热度。
17.根据权利要求16所述的装置,其特征在于,所述处理器在实现步骤确定所述多媒体内容分别和所述至少一个第一历史多媒体内容的热度趋势之间的匹配程度时包括:
分别确定在未公布状态下多个相同时刻所述多媒体内容的所述预测热度和所述第一历史多媒体内容的所述历史预测热度之间的差异值;
根据所述多个相同时刻的差异值,确定所述多媒体内容分别和所述第一历史多媒体内容的热度趋势之间的匹配程度。
18.根据权利要求16所述的装置,其特征在于,在所述历史预测热度为参考曲线表达形式的情况下,所述处理器在实现步骤确定所述多媒体内容分别和所述至少一个第一历史多媒体内容的热度趋势之间的匹配程度时包括:
将所述多媒体内容在所述多个不同时刻对应的所述预测热度构建成热度预测曲线;
从参考曲线中确定与所述热度预测曲线之间的拟合度大于预设阈值的至少一条目标参考曲线;
将所述至少一条目标参考曲线在公布所述预设时间段后的热度作为所述多媒体内容在公布所述预设时间段后的热度。
19.根据权利要求13所述的装置,其特征在于,所述内容特征包括下述中的至少一种:关注人数、预告播放量、网页点击率、预售量、内容类型、产地、搜索指数、口碑指数。
20.根据权利要求13所述的装置,其特征在于,所述处理器在实现步骤将所述多媒体内容的多个所述预测热度与预设参考数据进行对比,确定所述多媒体内容在公布所述预设时间段后的热度时包括:
将所述至少一个第一历史多媒体内容划分成多个类别;
确定所述多媒体内容所对应的类别;
将所述多媒体内容的所述预测热度分别与具有相同类别的至少一个第一历史多媒体内容的历史预测热度进行对比,确定所述多媒体内容在公布所述预设时间段后的热度。
21.根据权利要求13所述的装置,其特征在于,所述处理器在实现步骤将所述多媒体内容的多个所述预测热度与预设参考数据进行对比,确定所述多媒体内容在公布所述预设时间段后的热度时包括:
将所述至少一个第一历史多媒体内容划分成多个类别;
对同一类别内的第一历史多媒体内容对应的历史预测热度进行均化处理,生成历史均化预测热度;
分别将所述多媒体内容的预测热度与所述多个类别对应的历史均化预测热度进行对别,确定所述多媒体内容在公布所述预设时间段后的热度。
22.根据权利要求20或21所述的装置,其特征在于,所述将所述至少一个第一历史多媒体内容划分成多个类别,包括:
按照下述中的至少一种分类维度将所述至少一个第一历史多媒体内容划分成多个类别:想看人数、预告播放量、网页点击率、预售量、内容类型、产地、搜索指数、口碑指数、公布后所述预设时间段后的热度。
23.根据权利要求20所述的装置,其特征在于,所述处理器在实现步骤将所述至少一个第一历史多媒体内容划分成多个类别之后,还包括:
对同一类别中的至少部分第一历史多媒体内容对应的历史预测热度进行均化处理。
24.根据权利要求20或21所述的装置,其特征在于,在所述类别包括多个分类维度的情况下,所述处理器在实现步骤将所述至少一个第一历史多媒体内容划分成多个类别时包括:
获取所述多个分类维度分别对应的分类权重;
获取所述至少一个第一历史多媒体内容分别在所述多个分类维度下的维度值;
根据所述分类权重和所述维度值分别确定所述至少一个第一历史多媒体内容的类别。
25.一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得处理器能够执行权利要求1-12任意一项所述的多媒体内容的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910308527.3A CN111833083A (zh) | 2019-04-17 | 2019-04-17 | 多媒体内容的数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910308527.3A CN111833083A (zh) | 2019-04-17 | 2019-04-17 | 多媒体内容的数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111833083A true CN111833083A (zh) | 2020-10-27 |
Family
ID=72914234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910308527.3A Pending CN111833083A (zh) | 2019-04-17 | 2019-04-17 | 多媒体内容的数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111833083A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127762A (zh) * | 2021-04-21 | 2021-07-16 | 北京字节跳动网络技术有限公司 | 一种信息展示方法、信息处理方法及装置 |
CN113127743A (zh) * | 2021-05-06 | 2021-07-16 | 数库(上海)科技有限公司 | 新闻主体热度计算及排序方法、装置、设备和存储介质 |
CN115250295A (zh) * | 2021-04-26 | 2022-10-28 | 北京字跳网络技术有限公司 | 一种媒体内容处理方法、装置、设备和存储介质 |
CN115983499A (zh) * | 2023-03-03 | 2023-04-18 | 北京奇树有鱼文化传媒有限公司 | 一种票房预测方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130346182A1 (en) * | 2012-06-20 | 2013-12-26 | Yahoo! Inc. | Multimedia features for click prediction of new advertisements |
CN103970812A (zh) * | 2013-12-27 | 2014-08-06 | 乐视网信息技术(北京)股份有限公司 | 多媒体内容的搜寻方法与系统 |
CN107767174A (zh) * | 2017-10-19 | 2018-03-06 | 厦门美柚信息科技有限公司 | 一种广告点击率的预测方法及装置 |
CN108256893A (zh) * | 2016-12-29 | 2018-07-06 | 北京国双科技有限公司 | 广告投放效果的分析方法及装置 |
CN108596401A (zh) * | 2016-11-25 | 2018-09-28 | 口碑(上海)信息技术有限公司 | 一种业务量的预测方法及装置 |
CN109165963A (zh) * | 2018-06-19 | 2019-01-08 | 北京猫眼文化传媒有限公司 | 一种数据预测方法、装置及电子设备 |
-
2019
- 2019-04-17 CN CN201910308527.3A patent/CN111833083A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130346182A1 (en) * | 2012-06-20 | 2013-12-26 | Yahoo! Inc. | Multimedia features for click prediction of new advertisements |
CN103970812A (zh) * | 2013-12-27 | 2014-08-06 | 乐视网信息技术(北京)股份有限公司 | 多媒体内容的搜寻方法与系统 |
CN108596401A (zh) * | 2016-11-25 | 2018-09-28 | 口碑(上海)信息技术有限公司 | 一种业务量的预测方法及装置 |
CN108256893A (zh) * | 2016-12-29 | 2018-07-06 | 北京国双科技有限公司 | 广告投放效果的分析方法及装置 |
CN107767174A (zh) * | 2017-10-19 | 2018-03-06 | 厦门美柚信息科技有限公司 | 一种广告点击率的预测方法及装置 |
CN109165963A (zh) * | 2018-06-19 | 2019-01-08 | 北京猫眼文化传媒有限公司 | 一种数据预测方法、装置及电子设备 |
Non-Patent Citations (2)
Title |
---|
汪敏娟;汪清清;: "一种IPTV点播内容热度预测模型及其应用", 广东通信技术, no. 07 * |
汪敏娟;汪清清;: "一种IPTV点播内容热度预测模型及其应用", 广东通信技术, no. 07, 15 July 2017 (2017-07-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127762A (zh) * | 2021-04-21 | 2021-07-16 | 北京字节跳动网络技术有限公司 | 一种信息展示方法、信息处理方法及装置 |
CN115250295A (zh) * | 2021-04-26 | 2022-10-28 | 北京字跳网络技术有限公司 | 一种媒体内容处理方法、装置、设备和存储介质 |
CN113127743A (zh) * | 2021-05-06 | 2021-07-16 | 数库(上海)科技有限公司 | 新闻主体热度计算及排序方法、装置、设备和存储介质 |
CN115983499A (zh) * | 2023-03-03 | 2023-04-18 | 北京奇树有鱼文化传媒有限公司 | 一种票房预测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781391B (zh) | 一种信息推荐方法、装置、设备及存储介质 | |
US11361160B2 (en) | Automatic generation of statement-response sets from conversational text using natural language processing | |
CN110012302B (zh) | 一种网络直播监测方法及装置、数据处理方法 | |
CN111833083A (zh) | 多媒体内容的数据处理方法及装置 | |
KR102112973B1 (ko) | 컴퓨터 실행 방법, 시스템 및 컴퓨터 판독 가능 매체 | |
Yang et al. | Mining Chinese social media UGC: a big-data framework for analyzing Douban movie reviews | |
CN107391545B (zh) | 一种对用户进行分类的方法、输入方法及装置 | |
CN110020893B (zh) | 一种广告贡献度确定方法、装置及设备 | |
CN110321482A (zh) | 一种信息的推荐方法、装置及设备 | |
KR102066773B1 (ko) | 콘텐츠 추천 방법, 장치 및 시스템 | |
US20220284054A1 (en) | Content Carousel in a Social Media Timeline | |
US20190095949A1 (en) | Digital Marketing Content Control based on External Data Sources | |
US11126682B1 (en) | Hyperlink based multimedia processing | |
CN113688313A (zh) | 一种预测模型的训练方法、信息推送的方法及装置 | |
KR102422410B1 (ko) | 클라이언트와 인플루언서의 매칭 시스템 및 방법 | |
US20230134118A1 (en) | Decentralized social news network website application (dapplication) on a blockchain including a newsfeed, nft marketplace, and a content moderation process for vetted content providers | |
CN112559869A (zh) | 一种评论信息的显示方法、装置、电子设备及存储介质 | |
Knapp et al. | Does 3D make sense for Hollywood? The economic implications of adding a third dimension to hedonic media products | |
CN116843376A (zh) | 一种营销效果预判方法、装置、存储介质及设备 | |
CN111787409A (zh) | 影视评论数据处理方法及装置 | |
US11849184B2 (en) | System for dynamic multimedia analysis, matching and decision-making | |
CN117150053A (zh) | 多媒体信息推荐模型训练方法、推荐方法及装置 | |
Razeen et al. | Predicting movie success using regression techniques | |
CN110738562B (zh) | 一种风险提醒信息的生成方法、装置及设备 | |
e Souza et al. | Revisiting predictions of movie economic success: random Forest applied to profits |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 310052 room 306, floor 3, building 1, No. 699, Wangshang Road, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: Hangzhou taopiao film and Television Culture Co.,Ltd. Address before: 310052 room 306, floor 3, building 1, No. 699, Wangshang Road, Binjiang District, Hangzhou City, Zhejiang Province Applicant before: Hangzhou Chenxi Multimedia Technology Co.,Ltd. |
|
CB02 | Change of applicant information |