CN106227883A - 一种多媒体内容的热度分析方法和装置 - Google Patents
一种多媒体内容的热度分析方法和装置 Download PDFInfo
- Publication number
- CN106227883A CN106227883A CN201610639658.6A CN201610639658A CN106227883A CN 106227883 A CN106227883 A CN 106227883A CN 201610639658 A CN201610639658 A CN 201610639658A CN 106227883 A CN106227883 A CN 106227883A
- Authority
- CN
- China
- Prior art keywords
- temperature
- multimedia content
- destination multimedia
- label
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种多媒体内容的热度分析方法和装置,其中,该方法包括:采用广度优先算法,从预设的主流网站获取目标多媒体内容的链接网页;其中,该目标多媒体内容包括预设的多个目标视频、目标音频或目标电子书;计算链接网页上与目标多媒体内容相关的标签热度和评价热度,得到目标多媒体内容的网页热度;采集预设的主流网站上目标多媒体内容的播放数据,该播放数据包括目标多媒体内容的点播次数和观看时长;根据点播次数和观看时长确定目标多媒体内容的播放完整度;根据网页热度和播放完整度确定目标多媒体内容的热度评价指标。本发明能够较为高效、快捷地获取当前目标多媒体内容的热度评价指标,且准确性较高。
Description
技术领域
本发明涉及互联网web网页分析技术领域,具体而言,涉及一种多媒体内容的热度分析方法和装置。
背景技术
网络视频是在网络上以WMV、RM、RMVB、FLV以及MOV等视频文件格式传播的动态影像,包括各类影视节目、新闻、广告、FLASH动画、自拍DV、聊天视频、游戏视频、监控视频等等。各种网络视频,如电影、微视频与用户生成内容UGC等,的网络化传播是目前传媒领域的突出特点。
由于网络视频数量巨大、内容丰富多样、且时间长短不一,视频网站需要花费大量的人力和时间去审核相关视频,进而选择较为热门的视频发布在视频网站上;同时,由于各个视频网站的首页位置、推荐位置等资源有限,编辑人员需要选择有价值的热门视频进行推荐展示;但由于编辑人员对视频的评价、选择都带有较大的主观性,被选择的视频往往受欢迎程度不高,给网站带来真正的营销价值有限。
针对上述评价网络视频热度的方式费时费力、且准确性差的问题,目前尚未提出有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提供一种多媒体内容的热度分析方法和装置,能够较为高效、快捷地获取当前目标多媒体内容的热度评价指标,且准确性较高。
第一方面,本发明实施例提供了一种多媒体内容的热度分析方法,包括:采用广度优先算法,从预设的主流网站获取目标多媒体内容的链接网页;其中,该目标多媒体内容包括预设的多个目标视频、目标音频或目标电子书;计算链接网页上与目标多媒体内容相关的标签热度和评价热度,得到目标多媒体内容的网页热度;采集预设的主流网站上目标多媒体内容的播放数据,播放数据包括目标多媒体内容的点播次数和观看时长;根据点播次数和观看时长确定目标多媒体内容的播放完整度;根据网页热度和播放完整度确定目标多媒体内容的热度评价指标。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,上述计算链接网页上与目标多媒体内容相关的标签热度和评价热度,得到目标多媒体内容的网页热度包括:获取预设的主流网站和链接网页的标签数据;根据获取到的标签数据计算与目标多媒体内容相关的标签类别的标签热度;获取链接网页内的评价信息总数和目标多媒体内容的评价信息数目;计算评价信息数目与评价信息总数的比值,得到目标多媒体内容的评价热度;计算目标多媒体内容的网页热度Pf=α·Cf+β·Ct;其中,Cf为目标多媒体内容的评价热度;Ct为目标多媒体内容相关的标签类别的标签热度;α和β分别为预先设定的数值,且α,β∈[0,1]。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,获取预设的主流网站和链接网页的标签数据包括:获取预设的主流网站的标签总数和与目标多媒体内容相关的所有的标签类别;从链接网页中获取与目标多媒体内容对应的标签类别组;根据获取到的标签数据计算与目标多媒体内容相关的标签类别的标签热度包括:通过相关标签类别组中的每个标签类别中的每个标签的属性名称、属性值和属性数量,计算目标多媒体内容对应当前标签类别的标签热度;计算目标多媒体内容对应相关标签类别组中的所有标签类别的标签热度之和;计算目标多媒体内容相关的标签类别的标签热度Ct:
其中,Ttag为多个网站的标签总数;为目标多媒体内容对应相关标签类别组中的所有标签类别的标签热度之和。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,上述通过相关标签类别组中的每个标签类别中的每个标签的属性名称、属性值和属性数量,计算目标多媒体内容对应当前标签类别的标签热度,包括:提取当前标签类别中的每个标签的属性名称、属性值和属性数量;计算当前类别中第i个标签的权重值Wtag(i)=n·L;其中,L为第i个标签的属性名称和属性值的字符串总长度;n为第i个标签的属性数量;提取当前标签类别中与目标多媒体内容相关的关联标签,并计算关联标签的权重值之和;计算关联标签的权重值之和与预先设置的当前标签类别的权重值的加权值,得到目标多媒体内容的针对当前标签类别的标签热度。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,上述根据点播次数和观看时长确定目标多媒体内容的播放完整度包括:根据点播次数和观看时长获取点播目标多媒体内容的平均播放时长;目标多媒体内容的播放完整度Wt=M/L,其中,M为平均播放时长,L为目标多媒体内容的总时长。
结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,上述根据点播次数和观看时长获取点播目标多媒体内容的平均播放时长包括:获取点播目标多媒体内容的用户终端调用播放器播放目标多媒体内容的开始播放时间、暂停播放的开始暂停时间、暂停播放的结束暂停时间和退出播放器的结束播放时间;根据开始播放时间、开始暂停时间、结束暂停时间和结束播放时间计算用户终端播放目标多媒体内容的观看时长;计算目标多媒体内容的平均播放时长M:
其中,N为点播目标多媒体内容的总次数;δi为第i次点播目标多媒体内容的播放时长。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,上述通过用户终端获取目标多媒体内容的播放完整度之后,方法还包括:计算网页热度的系数λ:
其中,θ1、θ2、θ3和Th1、Th2均为预先设定的数值;Wt为目标多媒体内容的播放完整度。
结合第一方面的第六种可能的实施方式,本发明实施例提供了第一方面的第七种可能的实施方式,其中,上述根据网页热度和播放完整度确定目标多媒体内容的热度评价指标,包括:计算目标多媒体内容的热度评价指标Vp=Wt+λ·Pf;其中,Wt为目标多媒体内容的播放完整度;λ为目标多媒体内容的网页热度的系数;Pf为目标多媒体内容的网页热度。
结合第一方面至第一方面的第七种可能的实施方式中的任一种实施方式,本发明实施例提供了第一方面的第八种可能的实施方式,其中,上述方法还包括:根据目标多媒体内容的热度评价指标设置目标多媒体内容在预设网站上的显示位置。
第二方面,本发明实施例提供了一种多媒体内容的热度分析装置,包括:链接网页获取模块,用于采用广度优先算法,从预设的主流网站获取目标多媒体内容的链接网页;其中,目标多媒体内容包括预设的多个目标视频、目标音频或目标电子书;网页热度获取模块,用于计算链接网页上与目标多媒体内容相关的标签热度和评价热度,得到目标多媒体内容的网页热度;播放数据采集模块,用于采集预设的主流网站上目标多媒体内容的播放数据,播放数据包括目标多媒体内容的点播次数和观看时长;播放完整度获取模块,用于根据点播次数和观看时长确定目标多媒体内容的播放完整度;热度评价指标获取模块,用于根据网页热度和播放完整度确定目标多媒体内容的热度评价指标。
本发明实施例所提供的一种多媒体内容的热度分析方法和装置,通过计算目标多媒体内容的链接网页上的与目标多媒体内容相关的标签热度和评价热度,得到目标多媒体内容的网页热度;通过采集预设的主流网站上目标多媒体内容的播放数据,确定目标多媒体内容的播放完整度;并根据上述网页热度和上述播放完整度确定该目标多媒体内容的热度评价指标;通过上述方式可以较为高效、快捷地获取当前目标多媒体内容的热度评价指标,且准确性较高。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的一种多媒体内容的热度分析方法的流程图;
图2示出了本发明实施例所提供的一种多媒体内容的热度分析方法中,计算链接网页上与目标多媒体内容相关的标签热度和评价热度,得到目标多媒体内容的网页热度具体方法的流程图;
图3示出了本发明实施例所提供的一种多媒体内容的热度分析装置的结构示意图;
图4示出了本发明实施例所提供的一种多媒体内容的热度分析装置中,网页热度获取模块的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到现有的评价网络视频热度的方式费时费力、且准确性差的问题,本发明实施例提供了一种多媒体内容的热度分析方法和装置,该技术可以应用于视频网站、音频网站或者电子书网站,或者上述网站的后台服务器中,对各种多媒体内容的热度分析,还可以应用于贴吧、小说网站等,对多种形式的多媒体内容进行热度分析;该技术可以采用相关的软件和硬件实现,下面通过实施例进行描述。
实施例1
参见图1所示的一种多媒体内容的热度分析方法的流程图,该方法包括如下步骤:
步骤S102:采用广度优先算法,从预设的主流网站获取目标多媒体内容的链接网页;其中,该目标多媒体内容包括预设的多个目标视频、目标音频或目标电子书;
步骤S104:计算上述链接网页上与上述目标多媒体内容相关的标签热度和评价热度,得到目标多媒体内容的网页热度;
步骤S106:采集预设的主流网站上目标多媒体内容的播放数据,该播放数据包括目标多媒体内容的点播次数和观看时长;
步骤S108:根据上述点播次数和观看时长确定目标多媒体内容的播放完整度;
步骤S110:根据网页热度和播放完整度确定目标多媒体内容的热度评价指标。
例如,当上述目标多媒体内容为视频时,当该视频在各大视频网站的重要位置出现、被新闻媒体广泛报导、且用户对该视频发表了大量评论时,该视频的热度评价指标较高,即,该视频为热门视频。上述方法中,标签热度可反应出该视频位置的重要性,该视频出现的频率等;评价热度可反应出该视频被关注的程度,以及受欢迎程度等;另外,上述方法中还结合了该视频的播放数据,因此可以客观地衡量视频内容的价值。
本发明实施例所提供的一种多媒体内容的热度分析方法,通过计算目标多媒体内容的链接网页上的与目标多媒体内容相关的标签热度和评价热度,得到目标多媒体内容的网页热度;通过采集预设的主流网站上目标多媒体内容的播放数据,确定目标多媒体内容的播放完整度;并根据上述网页热度和上述播放完整度确定该目标多媒体内容的热度评价指标;通过上述方式可以较为高效、快捷地获取当前目标多媒体内容的热度评价指标,且准确性较高。
为了便于实现,需要使用较为准确且获取较为容易的数据进行分析,上述计算链接网页上与目标多媒体内容相关的标签热度和评价热度,得到目标多媒体内容的网页热度,如图2所示,包括如下步骤:
步骤S202:获取预设的主流网站和链接网页的标签数据;
步骤S204:根据获取到的上述标签数据计算与目标多媒体内容相关的标签类别的标签热度;
步骤S206:获取上述链接网页内的评价信息总数和目标多媒体内容的评价信息数目;
步骤S208:计算上述评价信息数目与评价信息总数的比值,得到目标多媒体内容的评价热度;
步骤S210:计算目标多媒体内容的网页热度Pf=α·Cf+β·Ct;其中,Cf为目标多媒体内容的评价热度;Ct为目标多媒体内容相关的标签类别的标签热度;α和β分别为预先设定的数值,且α,β∈[0,1]。
由于上述标签数据和评价信息准确、公开,较易获得,因此通过上述方式可以较为准确地计算得到目标多媒体内容的网页热度。
进一步地,上述获取预设的主流网站和链接网页的标签数据,包括如下步骤:获取预设的主流网站的标签总数和与目标多媒体内容相关的所有的标签类别;从链接网页中获取与目标多媒体内容对应的标签类别组。上述根据获取到的标签数据计算与目标多媒体内容相关的标签类别的标签热度,包括如下步骤:(1)通过上述相关标签类别组中的每个标签类别中的每个标签的属性名称、属性值和属性数量,计算目标多媒体内容对应当前标签类别的标签热度;(2)计算目标多媒体内容对应相关标签类别组中的所有标签类别的标签热度之和;(3)计算目标多媒体内容相关的标签类别的标签热度Ct:
其中,Ttag为多个网站的标签总数;为目标多媒体内容对应相关标签类别组中的所有标签类别的标签热度之和。通过上述方式可以较为准确地计算得到所述目标多媒体内容相关的标签类别的标签热度。
为了便于对标签数据进行分析,进而得到目标多媒体内容对应当前标签类别的标签热度,本发明实施例在实际实现时,上述通过相关标签类别组中的每个标签类别中的每个标签的属性名称、属性值和属性数量,计算目标多媒体内容对应当前标签类别的标签热度,包括如下步骤:(1)提取当前标签类别中的每个标签的属性名称、属性值和属性数量;(2)计算当前类别中第i个标签的权重值Wtag(i)=n·L;其中,L为第i个标签的属性名称和属性值的字符串总长度;n为第i个标签的属性数量;(3)提取当前标签类别中与目标多媒体内容相关的关联标签,并计算关联标签的权重值之和;(4)计算关联标签的权重值之和与预先设置的当前标签类别的权重值的加权值,得到目标多媒体内容的针对当前标签类别的标签热度。通过上述方式可以准确地通过标签数据计算得到目标多媒体内容对应当前标签类别的标签热度。
考虑到仅通过计算上述目标多媒体内容标签热度不能准确地反应该目标多媒体内容的热度,本发明实施例在实际实现时,上述根据点播次数和观看时长确定目标多媒体内容的播放完整度,包括如下步骤:根据点播次数和观看时长获取点播目标多媒体内容的平均播放时长;上述目标多媒体内容的播放完整度Wt=M/L,其中,M为平均播放时长,L为目标多媒体内容的总时长。
另外,上述方式还可以通过如下方式实现:根据点播当次观看时长和目标多媒体内容的总时长获取当次目标多媒体内容的播放完整度;根据每次目标多媒体内容的播放完整度和点播次数,进行平均计算,获得目标多媒体内容的播放完整度。
通过计算目标多媒体内容的播放完整度可以获取用户对当前目标多媒体内容的实际感兴趣程度。
为了获取详细地目标多媒体内容的平均播放时长,上述通过用户终端获取目标多媒体内容的平均播放时长,包括如下步骤:(1)获取点播目标多媒体内容的用户终端调用播放器播放目标多媒体内容的开始播放时间、暂停播放的开始暂停时间、暂停播放的结束暂停时间和退出所述播放器的结束播放时间;(2)根据上述开始播放时间、开始暂停时间、结束暂停时间和结束播放时间计算用户终端播放目标多媒体内容的观看时长;(3)计算目标多媒体内容的平均播放时长M:
其中,N为点播目标多媒体内容的总次数;δi为第i次点播目标多媒体内容的播放时长。通过上述方式可以准确、详细地计算目标多媒体内容的平均播放时长。
考虑到上述目标多媒体内容的网页热度在实际参与计算时,需要通过系数加权来调整实际数值,上述通过用户终端获取目标多媒体内容的播放完整度之后,上述多媒体内容的热度分析方法还包括:计算网页热度的系数λ:
其中,θ1、θ2、θ3和Th1、Th2均为预先设定的数值;Wt为目标多媒体内容的播放完整度。
考虑到需要有具体的计算形式获取目标多媒体内容的热度评价指标,上述根据所述网页热度和所述播放完整度确定所述目标多媒体内容的热度评价指标,包括如下步骤:计算所述目标多媒体内容的热度评价指标Vp=Wt+λ·Pf;其中,Wt为所述目标多媒体内容的播放完整度;λ为所述目标多媒体内容的所述网页热度的系数;Pf为所述目标多媒体内容的所述网页热度。通过上述方式可获得目标多媒体内容的热度评价指标的具体计算方式。
考虑到在实际应用中,需要利用上述目标多媒体内容的热度评价指标对相关网站进行编辑,本发明实施例在实际实现时,上述多媒体内容的热度分析方法还包括:根据目标多媒体内容的热度评价指标设置目标多媒体内容在预设网站上的显示位置。上述根据目标多媒体内容的热度评价指标设置目标多媒体内容在预设网站上的显示位置,可以更高效地利用网站位置资源。
实施例2
为了进一步对上述实施例1进行说明,本发明实施例提供了一种网络视频热度分析方法;该网络视频属于上述实施例1中多媒体内容的一种具体形式。该网络视频热度分析方法的主要目的在于针对新媒体时代的内容付费进行前瞻性探索,通过客观地内容价值衡量方法,对新媒体内容进行评价。
首先,提出一种二维度的网络视频热度评价指标Vp(相当于实施例1中的热度评价指标Vp):网页热度(Pf)和用户观看时长Wt(相当于实施例1中的播放完整度),并采用拉格朗日系数λ=func(Wt)(相当于实施例1中的网页热度的系数)来加权Pf,具体公式为:
Vp=Wt+λ·Pf (公式-1)
当前网络视频内容一次播放的播放时长计算方法为:记录用户终端调用播放器观看视频的时间和用户终端退出播放器的时间,并计算时间之差;其中,该时间差不包括用户暂停的时间。播放时长(相当于实施例1中的平均播放时长M)是该内容播放时长的统计均值M,计算方式如下:
其中,N为总的播放次数,δi为第i次的播放时间。用户观看视频的完整度Wt为内容播放时长与视频总长度的比值。
由于现有的部分网络视频播放器能嵌入到网页中或者各个APP中,一般是调用第三方的播放器,例如调用FFmpeg的ffplay播放器(FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序)。Java程序在调用和退出时,可以记录时间。另外,可以调用网络封包分析软件Wireshark,抓取实时传输协议RTP包,如果没有抓到RTP包,则认为播放器暂停,记录下间隔时间。这样能实现本发明实施例需要记录的播放器播放时间(该播放时间不包括暂停时间)。
进一步地,通过分析全网各视频网站的网页html数据,计算获得网页热度Pf。全网视频网站(例如优酷、A站、乐视、搜狐等)的网页中存在各种标签(例如链接标签<a>或图像标签<img>等);全网视频网站的标签的总数为Ttag,每种标签i权重值为W(tagi),其中,该权重值可以反映该标签i在衡量视频热度上的影响力,W(tagi)为[0,1]之间的小数,满足对所有i加和值为1。
提取视频网站网页中所有的某一类tag;分析该类标签中每一个标签的属性,并获取该属性的名称与值,该属性的总数量;其中,设属性名称与对应值的字符串的总长度为L,该tag的属性数目为n,则标签i权重值通过公式Wtag(i)=n·L计算得到,其中i为标签序号,且标签i为标识网页中分析到的第i个同类的tag。在二维平面上,该类标签tag形成了x轴为i,y轴为权重值的离散序列。对于当前网络视频,计算上述序列中与该视频相关的元素的权重值之和,再用该类标签的权重W(tag)进行加权,得到该视频针对此类标签的标签热度Tf。全网视频网站网页与该视频相关的所有标签类的Tf之和设为该与Ttag通过比值计算获得标签热度Ct。
进一步地,分析网页中嵌入的脚本,并提取对视频热度有影响的用户评价信息。全网视频网站中总的评价信息数目为Tc,与当前网络视频内容相关的评价信息数目为Nc,通过Nc除以Tc计算获得评价热度Cf。
综上,网页热度Pf=α·Cf+β·Ct,其中α,β∈[0,1]。
进一步地,公式-1中的拉格朗日系数由下式计算:
该拉格朗日系数λ为用户观看时长的一个分段函数,其中,θi(i=1,2,3)为[0,1]区间内的数值;Th1与Th2为设置在Wt上的双阈值,上述θi、Th1与Th2的具体数值根据经验获得。
本发明实施例提供的一种网络视频热度分析方法,首先对网页中的各类标签设置权重值;根据某类标签(tag)在网页中出现的位置及其各个属性的类型,把该类标签映射成线性的序列,该序列中元素的序号为此类标签中某一标签在网页中出现的计数值,上述元素的权重值为该标签的属性的个数与所有属性字符串长度和的乘积;针对当前网络视频,提取出该视频在上述标签序列中的区间,对上述区间的元素幅值加和,然后乘以此标签类的权重值,该乘积结果为该标签的热度;另外,通过分析网页上的脚本信息,获得与当前网络视频相关的各种内容的数目,该数目与设定的各种热度条目门限阈值的比值,来衡量该视频的热度;当前网络视频的热度为整个网络上各个网站的网页中,与该视频相关的标签热度之和,该和的结果为网页热度;进一步,由于上述网页分析是针对服务器端的数据挖掘,还可以根据客户端用户观看视频时长从另一个方面来衡量网络视频的热度。采用拉格朗日函数乘以网页热度与用户观看时长之和作为最终的内容热度,其中拉格朗日系数是用户观看时长的函数。通过对内容热度进行数值分析,确定该内容是否为网络热门的内容。
通过上述方式计算得到网络视频热度评价指标Vp后,可以挖掘视频内容的价值,对网络视频的热度进行排序,为用户推荐热门的内容,促进互联网视频业的繁荣与发展。
实施例3
针对于上述实施例1或实施例2,本发明实施例提供了一种具体的网络视频热度分析方法,该方法以一个电影视频为例,说明了该电影视频的网页热度是如何通过标签数据计算分析获得的。下面进行详细描述。
一个html网页有非常多的标签,例如<img>,<a>,<h1>,<div>等等。这些都是在网页上与视频相关的内容,例如1905电影网上的一个电影网页:http://www.1905.com/mdb/film/2219544/?fr=home_zzry_film01_hbq_ypbt。下面是该网页代码的一部分;其中,代码中含有很多<div>,<span>,<a>等标签:
现有的一些网页分析工具,例如htmlparser,可以分析出网页与这个视频相关的各种html标签,如果全网与某一视频相关的标签的数量多,则证明该视频在各大视频网站都有,属于热门视频。
各大视频网站首页的标签是重点推荐的热门视频。因此,首页位置的标签权重值较高。另外,由于链接越多的网页越重要,有链接的标签很长,因此标签的长度与视频的热度有关系。
下面对该电影视频计算网页热度的过程进行举例说明:由于htmlparser能够获得某一网页中所有的各种标签的属性和内容,对网页中的各种标签设置权重值,其中,<a>为0.15,<img>为0.15,<div>为0.15,<SPAN>0.1,<title>为0.1,<h>类标签为0.1,<p>标签为0.1,<li>标签为0.05,<table>为0.05,<script>标签为0.05等;
假设当前电影视频的<a>标签,在各个视频网站出现了1000次,且标签<a title="绝地逃亡"class="laGrayS_f"style="cursor:default;text-decoration:none;">绝地逃亡</a>,一共有4个属性,包括:title,class,style,text-decoration;标签中属性越多,说明该视频内容很重要,价值较高;且属性的长度越长(例如标签中包含链接时),则越重要。例如:
<a href="http://www.1905.com/special/s2010/m1905player/"target="_blank"title="1905私人影院">1905私人影院</a>
属性href包含链接,且长度很长。因此,结合属性的数目和长度二维因素,所有<a>标签值加和,再用<a>标签的权值加权可以评价标签的重要性。
另外,全网标签可以认为是一个非常大的数,例如100亿。各个视频的相关标签数除以全网标签数,可以算出一个比例值,按照该比例值进行热度排序。对于用户评价,全网例如有100万条,与某视频相关的有2000条,则可计算评价热度Cf。总之,用户对某一视频评价的条数越多,则认为用户对该视频的关注度就越大,属于热门视频。
通过上述方式计算得到当前网络视频热度评价指标Vp后,可以挖掘视频内容的价值,对网络视频的热度进行排序,为用户推荐热门的内容,促进互联网视频业的繁荣与发展。
实施例4
对应于上述方法实施例,本发明实施例还提供了一种多媒体内容的热度分析装置,参考图3所示的一种多媒体内容的热度分析装置的结构示意图,该装置包括:
链接网页获取模块30,用于采用广度优先算法,从预设的主流网站获取目标多媒体内容的链接网页;其中,该目标多媒体内容包括预设的多个目标视频、目标音频或目标电子书;
网页热度获取模块32,与上述链接网页获取模块30连接,用于计算链接网页上与目标多媒体内容相关的标签热度和评价热度,得到该目标多媒体内容的网页热度;
播放数据采集模块34,与上述网页热度获取模块32连接,用于采集预设的主流网站上目标多媒体内容的播放数据,该播放数据包括目标多媒体内容的点播次数和观看时长;
播放完整度获取模块36,与上述播放数据采集模块34连接,用于根据点播次数和观看时长确定目标多媒体内容的播放完整度;
热度评价指标获取模块38,与上述播放完整度获取模块36连接,用于根据网页热度和播放完整度确定目标多媒体内容的热度评价指标。
本发明实施例所提供的一种多媒体内容的热度分析装置,通过计算目标多媒体内容的链接网页上的与目标多媒体内容相关的标签热度和评价热度,得到目标多媒体内容的网页热度;通过采集预设的主流网站上目标多媒体内容的播放数据,确定目标多媒体内容的播放完整度;并根据上述网页热度和上述播放完整度确定该目标多媒体内容的热度评价指标;通过上述方式可以较为高效、快捷地获取当前目标多媒体内容的热度评价指标,且准确性较高。
为了便于实现,需要使用较为准确且获取较为容易的数据进行分析,参考如图4所示一种多媒体内容的热度分析装置中,网页热度获取模块的结构示意图,该模块包括如下部分:
标签数据获取单元40,用于获取预设的主流网站和链接网页的标签数据;
标签热度计算单元42,与上述标签数据获取单元40连接,用于根据获取到的上述标签数据计算与目标多媒体内容相关的标签类别的标签热度;
评价信息获取单元44,与上述标签热度计算单元42连接,用于获取上述链接网页内的评价信息总数和目标多媒体内容的评价信息数目;
评价热度计算单元46,与上述评价信息获取单元44连接,用于计算上述评价信息数目与评价信息总数的比值,得到目标多媒体内容的评价热度;
网页热度计算单元48,与上述评价热度计算单元46连接,用于计算目标多媒体内容的网页热度Pf=α·Cf+β·Ct;其中,Cf为目标多媒体内容的评价热度;Ct为目标多媒体内容相关的标签类别的标签热度;α和β分别为预先设定的数值,且α,β∈[0,1]。
由于上述标签数据和评价信息准确、公开,较易获得,因此通过上述方式可以较为准确地计算得到目标多媒体内容的网页热度。
本发明实施例所提供的一种多媒体内容的热度分析装置,其实现原理及产生的技术效果和前述实施例1中的一种多媒体内容的热度分析方法实施例相同,为简要描述,一种多媒体内容的热度分析装置实施例部分未提及之处,可参考前述实施例1中的一种多媒体内容的热度分析方法实施例相应内容。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电子,机械或其它的形式。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种多媒体内容的热度分析方法,其特征在于,包括:
采用广度优先算法,从预设的主流网站获取目标多媒体内容的链接网页;其中,所述目标多媒体内容包括预设的多个目标视频、目标音频或目标电子书;
计算所述链接网页上与所述目标多媒体内容相关的标签热度和评价热度,得到所述目标多媒体内容的网页热度;
采集所述预设的主流网站上所述目标多媒体内容的播放数据,所述播放数据包括所述目标多媒体内容的点播次数和观看时长;
根据所述点播次数和观看时长确定所述目标多媒体内容的播放完整度;
根据所述网页热度和所述播放完整度确定所述目标多媒体内容的热度评价指标。
2.根据权利要求1所述的方法,其特征在于,计算所述链接网页上与所述目标多媒体内容相关的标签热度和评价热度,得到所述目标多媒体内容的网页热度包括:
获取所述预设的主流网站和所述链接网页的标签数据;
根据获取到的所述标签数据计算与所述目标多媒体内容相关的标签类别的标签热度;
获取所述链接网页内的评价信息总数和所述目标多媒体内容的评价信息数目;
计算所述评价信息数目与所述评价信息总数的比值,得到所述目标多媒体内容的评价热度;
计算所述目标多媒体内容的网页热度Pf=α·Cf+β·Ct;其中,Cf为所述目标多媒体内容的评价热度;Ct为所述目标多媒体内容相关的标签类别的标签热度;α和β分别为预先设定的数值,且α,β∈[0,1]。
3.根据权利要求2所述的方法,其特征在于,获取所述预设的主流网站和所述链接网页的标签数据包括:获取所述预设的主流网站的标签总数和与所述目标多媒体内容相关的所有的标签类别;从所述链接网页中获取与所述目标多媒体内容对应的标签类别组;
根据获取到的所述标签数据计算与所述目标多媒体内容相关的标签类别的标签热度包括:
通过所述相关标签类别组中的每个标签类别中的每个标签的属性名称、属性值和属性数量,计算所述目标多媒体内容对应当前标签类别的标签热度;
计算所述目标多媒体内容对应所述相关标签类别组中的所有标签类别的标签热度之和;
计算所述目标多媒体内容相关的标签类别的标签热度Ct:
其中,Ttag为多个网站的标签总数;为所述目标多媒体内容对应所述相关标签类别组中的所有标签类别的标签热度之和。
4.根据权利要求3所述的方法,其特征在于,通过所述相关标签类别组中的每个标签类别中的每个标签的属性名称、属性值和属性数量,计算所述目标多媒体内容对应当前标签类别的标签热度,包括:
提取当前标签类别中的每个标签的属性名称、属性值和属性数量;
计算所述当前类别中第i个标签的权重值Wtag(i)=n·L;其中,L为所述第i个标签的所述属性名称和所述属性值的字符串总长度;n为所述第i个标签的属性数量;
提取所述当前标签类别中与所述目标多媒体内容相关的关联标签,并计算所述关联标签的权重值之和;
计算所述关联标签的权重值之和与预先设置的当前标签类别的权重值的加权值,得到所述目标多媒体内容的针对当前标签类别的标签热度。
5.根据权利要求1所述的方法,其特征在于,根据所述点播次数和观看时长确定所述目标多媒体内容的播放完整度包括:
根据所述点播次数和观看时长获取点播所述目标多媒体内容的平均播放时长;
所述目标多媒体内容的播放完整度Wt=M/L,其中,M为所述平均播放时长,L为所述目标多媒体内容的总时长。
6.根据权利要求5所述的方法,其特征在于,根据所述点播次数和观看时长获取点播所述目标多媒体内容的平均播放时长包括:
获取点播所述目标多媒体内容的用户终端调用播放器播放所述目标多媒体内容的开始播放时间、暂停播放的开始暂停时间、暂停播放的结束暂停时间和退出所述播放器的结束播放时间;
根据所述开始播放时间、所述开始暂停时间、所述结束暂停时间和所述结束播放时间计算所述用户终端播放所述目标多媒体内容的观看时长;
计算所述目标多媒体内容的平均播放时长M:
其中,N为点播所述目标多媒体内容的总次数;δi为第i次点播所述目标多媒体内容的播放时长。
7.根据权利要求1所述的方法,其特征在于,通过用户终端获取所述目标多媒体内容的播放完整度之后,所述方法还包括:
计算所述网页热度的系数λ:
其中,θ1、θ2、θ3和Th1、Th2均为预先设定的数值;Wt为所述目标多媒体内容的播放完整度。
8.根据权利要求7所述的方法,其特征在于,根据所述网页热度和所述播放完整度确定所述目标多媒体内容的热度评价指标,包括:
计算所述目标多媒体内容的热度评价指标Vp=Wt+λ·Pf;其中,Wt为所述目标多媒体内容的播放完整度;λ为所述目标多媒体内容的所述网页热度的系数;Pf为所述目标多媒体内容的所述网页热度。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述方法还包括:根据所述目标多媒体内容的热度评价指标设置所述目标多媒体内容在预设网站上的显示位置。
10.一种多媒体内容的热度分析装置,其特征在于,包括:
链接网页获取模块,用于采用广度优先算法,从预设的主流网站获取目标多媒体内容的链接网页;其中,所述目标多媒体内容包括预设的多个目标视频、目标音频或目标电子书;
网页热度获取模块,用于计算所述链接网页上与所述目标多媒体内容相关的标签热度和评价热度,得到所述目标多媒体内容的网页热度;
播放数据采集模块,用于采集所述预设的主流网站上所述目标多媒体内容的播放数据,所述播放数据包括所述目标多媒体内容的点播次数和观看时长;
播放完整度获取模块,用于根据所述点播次数和观看时长确定所述目标多媒体内容的播放完整度;
热度评价指标获取模块,用于根据所述网页热度和所述播放完整度确定所述目标多媒体内容的热度评价指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610639658.6A CN106227883B (zh) | 2016-08-05 | 2016-08-05 | 一种多媒体内容的热度分析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610639658.6A CN106227883B (zh) | 2016-08-05 | 2016-08-05 | 一种多媒体内容的热度分析方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106227883A true CN106227883A (zh) | 2016-12-14 |
CN106227883B CN106227883B (zh) | 2019-09-13 |
Family
ID=57547489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610639658.6A Active CN106227883B (zh) | 2016-08-05 | 2016-08-05 | 一种多媒体内容的热度分析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106227883B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106604050A (zh) * | 2016-12-19 | 2017-04-26 | 天脉聚源(北京)传媒科技有限公司 | 一种直播视频的评估方法及装置 |
CN106791930A (zh) * | 2017-01-04 | 2017-05-31 | 北京百度网讯科技有限公司 | 一种视频处理方法和装置 |
CN106941623A (zh) * | 2017-04-27 | 2017-07-11 | 广东小天才科技有限公司 | 一种基于大数据评价视频课程质量的方法及装置 |
CN108595492A (zh) * | 2018-03-15 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 内容的推送方法和装置、存储介质、电子装置 |
CN108632670A (zh) * | 2018-03-15 | 2018-10-09 | 北京奇艺世纪科技有限公司 | 一种视频满意度确定方法及装置 |
CN109640176A (zh) * | 2018-12-18 | 2019-04-16 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN109729314A (zh) * | 2018-12-24 | 2019-05-07 | 浙江大华技术股份有限公司 | 一种视频处理方法、装置、电子设备及存储介质 |
CN110121108A (zh) * | 2018-02-06 | 2019-08-13 | 上海全土豆文化传播有限公司 | 视频价值评估方法及装置 |
CN110321038A (zh) * | 2019-05-24 | 2019-10-11 | 深圳壹账通智能科技有限公司 | 信息展示位置的调整方法、装置、终端和存储介质 |
CN110704674A (zh) * | 2019-09-05 | 2020-01-17 | 苏宁云计算有限公司 | 一种视频播放完整度预测方法及装置 |
CN110825910A (zh) * | 2019-10-15 | 2020-02-21 | 平安科技(深圳)有限公司 | 基于大数据的视频课程推荐方法及相关装置 |
CN111125028A (zh) * | 2019-12-25 | 2020-05-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 识别音频文件的方法、装置、服务器及存储介质 |
CN112632443A (zh) * | 2020-12-28 | 2021-04-09 | 咪咕文化科技有限公司 | 内容评分方法、装置、电子设备及存储介质 |
CN113626709A (zh) * | 2021-08-11 | 2021-11-09 | 聚好看科技股份有限公司 | 一种基于热度的内容推荐方法及服务器 |
CN116894134A (zh) * | 2023-09-11 | 2023-10-17 | 湖南创研科技股份有限公司 | 一种基于用户行为的大数据分析方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050267883A1 (en) * | 2004-04-08 | 2005-12-01 | Cgi Communications, Inc. | Methods and systems for simplifying access to video content |
CN105282565A (zh) * | 2015-09-29 | 2016-01-27 | 北京奇艺世纪科技有限公司 | 一种视频推荐方法和装置 |
-
2016
- 2016-08-05 CN CN201610639658.6A patent/CN106227883B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050267883A1 (en) * | 2004-04-08 | 2005-12-01 | Cgi Communications, Inc. | Methods and systems for simplifying access to video content |
CN105282565A (zh) * | 2015-09-29 | 2016-01-27 | 北京奇艺世纪科技有限公司 | 一种视频推荐方法和装置 |
Non-Patent Citations (1)
Title |
---|
关晓惠等: "内容分发网络下的用户原创视频热度研究", 《电视技术》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106604050A (zh) * | 2016-12-19 | 2017-04-26 | 天脉聚源(北京)传媒科技有限公司 | 一种直播视频的评估方法及装置 |
CN106791930B (zh) * | 2017-01-04 | 2020-03-31 | 北京百度网讯科技有限公司 | 一种视频处理方法和装置 |
CN106791930A (zh) * | 2017-01-04 | 2017-05-31 | 北京百度网讯科技有限公司 | 一种视频处理方法和装置 |
CN106941623A (zh) * | 2017-04-27 | 2017-07-11 | 广东小天才科技有限公司 | 一种基于大数据评价视频课程质量的方法及装置 |
CN106941623B (zh) * | 2017-04-27 | 2019-06-14 | 广东小天才科技有限公司 | 一种基于大数据评价视频课程质量的方法及装置 |
CN110121108A (zh) * | 2018-02-06 | 2019-08-13 | 上海全土豆文化传播有限公司 | 视频价值评估方法及装置 |
CN110121108B (zh) * | 2018-02-06 | 2022-01-04 | 阿里巴巴(中国)有限公司 | 视频价值评估方法及装置 |
CN108595492A (zh) * | 2018-03-15 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 内容的推送方法和装置、存储介质、电子装置 |
CN108632670A (zh) * | 2018-03-15 | 2018-10-09 | 北京奇艺世纪科技有限公司 | 一种视频满意度确定方法及装置 |
CN109640176A (zh) * | 2018-12-18 | 2019-04-16 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
WO2020125381A1 (zh) * | 2018-12-18 | 2020-06-25 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN109729314A (zh) * | 2018-12-24 | 2019-05-07 | 浙江大华技术股份有限公司 | 一种视频处理方法、装置、电子设备及存储介质 |
CN110321038A (zh) * | 2019-05-24 | 2019-10-11 | 深圳壹账通智能科技有限公司 | 信息展示位置的调整方法、装置、终端和存储介质 |
CN110704674A (zh) * | 2019-09-05 | 2020-01-17 | 苏宁云计算有限公司 | 一种视频播放完整度预测方法及装置 |
CN110825910A (zh) * | 2019-10-15 | 2020-02-21 | 平安科技(深圳)有限公司 | 基于大数据的视频课程推荐方法及相关装置 |
CN110825910B (zh) * | 2019-10-15 | 2023-10-13 | 平安科技(深圳)有限公司 | 基于大数据的视频课程推荐方法及相关装置 |
CN111125028A (zh) * | 2019-12-25 | 2020-05-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 识别音频文件的方法、装置、服务器及存储介质 |
CN111125028B (zh) * | 2019-12-25 | 2023-10-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 识别音频文件的方法、装置、服务器及存储介质 |
CN112632443A (zh) * | 2020-12-28 | 2021-04-09 | 咪咕文化科技有限公司 | 内容评分方法、装置、电子设备及存储介质 |
CN112632443B (zh) * | 2020-12-28 | 2024-05-24 | 咪咕文化科技有限公司 | 内容评分方法、装置、电子设备及存储介质 |
CN113626709A (zh) * | 2021-08-11 | 2021-11-09 | 聚好看科技股份有限公司 | 一种基于热度的内容推荐方法及服务器 |
CN113626709B (zh) * | 2021-08-11 | 2023-05-05 | 聚好看科技股份有限公司 | 一种基于热度的内容推荐方法及服务器 |
CN116894134A (zh) * | 2023-09-11 | 2023-10-17 | 湖南创研科技股份有限公司 | 一种基于用户行为的大数据分析方法及系统 |
CN116894134B (zh) * | 2023-09-11 | 2023-12-12 | 湖南创研科技股份有限公司 | 一种基于用户行为的大数据分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106227883B (zh) | 2019-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106227883A (zh) | 一种多媒体内容的热度分析方法和装置 | |
CN104602042B (zh) | 基于用户行为的标签设置方法 | |
TWI420331B (zh) | 於搜尋結果頁上結合互動元件之系統及方法 | |
CN104965889B (zh) | 内容推荐方法及装置 | |
CN103455524B (zh) | 展现和获取词条信息的方法和装置 | |
RU2427912C2 (ru) | Система для визуального отображения и управления информацией на web-странице с использованием индикатора | |
Hanjalic et al. | The holy grail of multimedia information retrieval: So close or yet so far away? | |
CN109511015A (zh) | 多媒体资源推荐方法、装置、存储介质及设备 | |
CN104021140B (zh) | 一种网络视频的处理方法及装置 | |
CN106055617A (zh) | 一种数据推送方法及装置 | |
CN102647462B (zh) | 应用获取、发送方法及装置 | |
CN106503025A (zh) | 一种应用推荐方法和系统 | |
CN105975472A (zh) | 一种推荐方法和装置 | |
CN102682082B (zh) | 基于内容结构特征的网络Flash搜索系统及搜索方法 | |
CN107710199A (zh) | 用于在内容列表中提供内容的系统和方法 | |
CN109189951A (zh) | 一种多媒体资源推荐方法、设备及存储介质 | |
CN104090757B (zh) | 针对浏览器的富媒体信息展示方法 | |
CN104090923B (zh) | 一种浏览器中的富媒体信息的展示方法和装置 | |
CN102754127A (zh) | 基于关键字和字符串输入来汇编动画媒体的方法和系统 | |
CN104462336A (zh) | 信息推送方法和装置 | |
CN106528716A (zh) | 一种多媒体搜索内容的推荐方法和装置 | |
CN104270654B (zh) | 互联网视频播放监测方法和装置 | |
CN108471544A (zh) | 一种构建视频用户画像方法及装置 | |
CN106227873A (zh) | 搜索方法及装置 | |
CN106528851A (zh) | 一种智能推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20180427 Address after: 100085 Haidian District, Beijing, Shanghai Information Industry Base Development Road 15, 1 buildings. Applicant after: BEIJING SUMAVISION TECHNOLOGIES CO., LTD. Address before: 100085, 6 floor, 1 building, No. 1, Shanghai East Road, Haidian District, Beijing, 602, -6023 Applicant before: Beijing poly chat network technology Co., Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |