CN106028176A - 一种确定流媒体中内容爆点的方法及装置 - Google Patents

一种确定流媒体中内容爆点的方法及装置 Download PDF

Info

Publication number
CN106028176A
CN106028176A CN201610373489.6A CN201610373489A CN106028176A CN 106028176 A CN106028176 A CN 106028176A CN 201610373489 A CN201610373489 A CN 201610373489A CN 106028176 A CN106028176 A CN 106028176A
Authority
CN
China
Prior art keywords
time period
barrage
content
quick
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610373489.6A
Other languages
English (en)
Other versions
CN106028176B (zh
Inventor
王晨曦
汪强
杨琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201610373489.6A priority Critical patent/CN106028176B/zh
Publication of CN106028176A publication Critical patent/CN106028176A/zh
Application granted granted Critical
Publication of CN106028176B publication Critical patent/CN106028176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明实施例公开了一种确定流媒体中内容爆点的方法和装置,包括:按照预设的规则将流媒体划分多个时间段;针对每个时间段,对该时间段内的弹幕进行分词;统计每个分词的词频,确定该时间段对应的弹幕主题词;并确定该时间段对应的弹幕主题词的出现频率;根据每个时间段对应的弹幕主题词的出现频率,及保存的频率均值,识别出现频率大于所述频率均值的时间段;在识别出的时间段中,根据对应的弹幕主题词在该时间段内每个时间点出现的频率,将出现频率最大值对应的时间点确定为内容爆点。使用本发明实施例,能够提高确定流媒体中内容爆点的效率和准确性。

Description

一种确定流媒体中内容爆点的方法及装置
技术领域
本发明涉及流媒体技术领域,尤其涉及一种确定流媒体中内容爆点的方法及装置。
背景技术
现有的流媒体中内容爆点的确定如视频看点等主要依赖人工来编辑打点确定,由于编辑者对内容的敏感度不同,设置的看点与大多数用户的关注点可能存在误差,不能正确反映出用户真实感兴趣的话题;且单个流媒体的爆点一经设定一般不会再持续进行更新,当某些时效性的热点话题发生变化时相应的爆点内容不能有效的展示出来。
可见,在现有技术中,这种依赖人工来编辑打点确定流媒体中内容爆点的方法,效率低,误差大且更新不及时。
发明内容
本发明实施例公开了一种确定流媒体中内容爆点的方法及装置,以提高确定流媒体中内容爆点的效率,提高确定流媒体中内容爆点的准确性。
为达到上述目的,本发明实施例公开了一种确定流媒体中内容爆点的方法,应用于服务器,所述方法包括:
按照预设的规则将流媒体划分多个时间段;
针对每个时间段,对该时间段内的弹幕进行分词;统计该时间段内每个分词的词频,确定该时间段对应的弹幕主题词;并确定该时间段对应的弹幕主题词的出现次数;
根据每个时间段对应的弹幕主题词的出现次数,及保存的频率均值,识别弹幕主题词出现次数大于所述频率均值的时间段;
在识别出的时间段中,根据对应的弹幕主题词在该时间段内每个时间点出现的次数,将出现次数最大值对应的时间点确定为内容爆点。
较佳地,所述按照预设的规则将流媒体划分多个时间段之前,所述方法还包括:
判断用户针对流媒体发送的弹幕数量是否大于预设的数量额定值,当所述弹幕数量大于预设的数量额定值时,进行所述按照预设的规则将流媒体划分多个时间段的步骤。
较佳地,所述对该时间段内的弹幕进行分词之前,所述方法还包括:
对该时间段内的弹幕进行过滤。
较佳地,所述对该时间段内的弹幕进行过滤包括:
判断该时间段内的每个弹幕与保存的无意义语句词表中的内容是否相同;
如果相同,则过滤该弹幕。
较佳地,所述对该时间段内的弹幕进行分词之前,所述方法还包括:
针对每个时间段,判断该时间段内的弹幕数量是否大于设定的数量阈值,如果是,则进行所述对该时间段内的弹幕进行分词的步骤。
较佳地,所述将出现次数最大值对应的时间点确定为内容爆点之后,所述方法还包括:
将确定的每个内容爆点保存在所述流媒体中,并针对每个内容爆点保存该内容爆点对应的弹幕。
较佳地,所述方法还包括:
将识别出的时间段对应的弹幕主题词确定为该内容爆点的爆点主题词。
为达到上述目的,本发明实施例还公开了一种确定流媒体中内容爆点的装置,应用于服务器,所述装置包括:
划分模块,用于按照预设的规则将流媒体划分多个时间段;
处理模块,用于针对每个时间段,对该时间段内的弹幕进行分词;统计每个时间段内每个分词的词频,确定该时间段对应的弹幕主题词;并确定该时间段对应的弹幕主题词的出现次数;
识别模块,用于根据每个时间段对应的弹幕主题词的出现次数,及保存的频率均值,识别弹幕主题词出现次数大于所述频率均值的时间段;
第一确定模块,用于根据对应的弹幕主题词在该时间段内每个时间点出现的次数,将出现次数最大值对应的时间点确定为内容爆点。
较佳地,所述装置还包括:
第一判断模块,用于判断用户针对流媒体发送的弹幕数量是否大于预设的数量额定值,当所述弹幕数量大于预设的数量额定值时,进行所述按照预设的规则将流媒体划分多个时间段的步骤。
过滤模块,用于在对每个时间段内的弹幕进行分词之前对该时间段内的弹幕进行过滤。
较佳地,所述过滤模块具体用于:
判断该时间段内的每个弹幕与保存的无意义语句词表中的内容是否相同;
如果相同,则过滤该弹幕。
较佳地,所述装置还包括:
第二判断模块,用于针对每个时间段,判断该时间段内的弹幕数量是否大于设定的数量阈值,如果是,则进行所述对该时间段内的弹幕进行分词的步骤。
保存模块,用于将出现次数最大值对应的时间点确定为内容爆点之后,将确定的每个内容爆点保存在所述流媒体中,并针对每个内容爆点保存该内容爆点对应的弹幕。
第二确定模块,用于将识别出的时间段对应的弹幕主题词确定为该内容爆点的爆点主题词。
本发明实施例提供了一种确定流媒体中内容爆点的方法和装置,该方法中按照预设的规则将流媒体划分多个时间段;针对每个时间段,对该时间段内的弹幕进行分词;统计每个时间段内每个分词的词频,确定该时间段对应的弹幕主题词;并确定该时间段对应的弹幕主题词的出现次数;根据每个时间段对应的弹幕主题词的出现次数,及保存的频率均值,识别弹幕主题词出现次数大于所述频率均值的时间段;在识别出的时间段中,根据对应的弹幕主题词在该时间段内每个时间点出现的次数,将出现次数最大值对应的时间点确定为内容爆点。本发明实施例是基于用户弹幕内容确定内容爆点,这是因为用户对感兴趣的内容输入的弹幕也会比较多,因此根据流媒体中每个时间段内弹幕主题词的出现次数,可以准确的确定出用户感兴趣的内容爆点,从而使确定出的内容爆点更加准确,另外,由于本发明实施例中该内容爆点可以按照上述方式灵活确定,如果弹幕内容发生了变化,也能够及时、准确的确定出变化后的内容爆点。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种确定流媒体中内容爆点的方法流程示意图;
图2为本发明实施例提供的另一种确定流媒体中内容爆点的方法流程示意图;
图3为本发明实施例提供的一种确定流媒体中内容爆点的装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种确定流媒体中内容爆点的方法及装置,下面进行详细说明。
图1为本发明实施例的确定流媒体中内容爆点的方法流程示意图,应用于服务器,包括以下步骤:
步骤S101:按照预设的规则将流媒体划分多个时间段。
划分规则可以预先自行设定,可以是将流媒体均匀的划分为多个时间段,或是将流媒体不均匀的划分为多个时间段,具体预设划分规则如何设定,本发明实施例不作限定。
步骤S102:针对每个时间段,对该时间段内的弹幕进行分词;统计该时间段内每个分词的词频,确定该时间段对应的弹幕主题词;并确定该时间段对应的弹幕主题词的出现次数。
弹幕为用户在观看流媒体内容时针对流媒体发送的评论内容,其能够正确反映出用户真实感兴趣的话题。
不同的弹幕发送的时间可能会有所区别,但是每个弹幕都只会在流媒体上特定的一个时间点出现,因此在流媒体上相同时间点会出现一定数量的弹幕且出现的弹幕基本上具有相同的主题。
由于用户发送的弹幕与流媒体是同步实时更新的,因此弹幕与流媒体有着时间上的对应关系,即在流媒体上每个时间段内会对应积累有一定数量的用户针对流媒体发送的弹幕。
对流媒体上每个时间段内的弹幕进行分词,分词技术属于现有技术,本发明实施例不赘述。
对弹幕进行分词之后,统计每个时间段内每个分词的词频,每个分词的词频即为每个分词出现的次数,并将出现次数最多的分词,即词频最大的分词确定为该时间段对应的弹幕主题词,并将所述词频最大的分词的次数确定为所述弹幕主题词的次数。
步骤S103:根据每个时间段对应的弹幕主题词的出现次数,及保存的频率均值,识别弹幕主题词的出现次数大于所述频率均值的时间段。
具体地,保存的频率均值可以为预先设定的值,或是通过预设的计算方法计算得出来的数值。
计算频率均值的预设的计算方法可以为,根据统计的每个时间段对应的弹幕主题词的出现次数,求出该流媒体上各弹幕主题词的频率中值,具体如下式所示。
频率均值=(第一个时间段内弹幕主题词的出现次数+第二个时间段内弹幕主题词的出现次数+……+第N个时间段内弹幕主题词的出现次数)/(时间段的数量N)。
当然,也可以采用其他计算方法计算频率均值,具体采用何种计算方法计算频率均值,本发明实施例不作限定。
根据预先设定的频率中值或计算得出的频率均值,判断每个时间段内的弹幕主题词的出现次数是否大于该频率均值,若大于,则识别弹幕主题词的出现次数大于所述频率均值的时间段。
步骤S104:在识别出的时间段中,根据对应的弹幕主题词在该时间段内每个时间点出现的次数,将出现次数最大值对应的时间点确定为内容爆点。
具体地,识别出的时间段为弹幕主题词的出现次数大于保存的频率均值的时间段,针对识别出的时间段,确定该时间段内的弹幕主题词在每个时间点出现的次数,并将该时间段内弹幕主题词出现次数最大值对应的时间点确定为内容爆点。
为了便于用户清楚的了解内容爆点对应的主题内容,将识别出的时间段对应的弹幕主题词确定为内容爆点的爆点主题词,这样用户就可以通过查看爆点主题词清楚的了解该内容爆点对应的爆点话题是什么。
本发明实施例是基于用户主动生成的弹幕内容确定内容爆点,由于用户对感兴趣的内容输入的弹幕也会比较多,因此根据流媒体中每个时间段内弹幕主题词的出现次数,可以准确的确定出用户感兴趣的内容爆点,从而使确定出的内容爆点更加准确,另外,由于本发明实施例中该内容爆点可以按照上述方式灵活确定,如果弹幕内容发生了变化,也能够及时、准确的确定出变化后的内容爆点。
为了提高确定流媒体内容爆点的效率,在上述实施例的基础上,在本发明的一个实施例中,在对流媒体划分多个时间段之前,该方法还包括:
判断用户针对流媒体发送的弹幕数量是否大于预设的数量额定值,当所述弹幕数量大于预设的数量额定值时,按照预设的规则将流媒体划分多个时间段。
具体地,预设的数量额定值为用户根据实际情况自行设定的,其可以是很大的数,具体数值范围本发明实施例不作限定,当用户针对流媒体发送的弹幕数量小于预设的数量额定值时,可以认为根据此时的弹幕数量确定出的内容爆点可能不够准确,因此在本发明实施例中可以暂时不对其进行确定流媒体内容爆点的工作。
应用本实施例,在确定流媒体的内容爆点之前,根据用户针对该流媒体发送的弹幕数量先进行判断,其弹幕数量是否达到预设的数量额定值,在不可能出现内容爆点时,不进行确定流媒体内容爆点的计算工作,减少了计算工作量,提高了确定流媒体内容爆点的效率。
为了进一步提高确定流媒体内容爆点的效率,在上述实施例的基础上,在本发明的另一个实施例中,在对每个时间段内的弹幕进行分词之前,该方法还包括:
针对每个时间段,获取流媒体在该时间段内对应的弹幕数量,判断所述弹幕数量是否大于预设的数量阈值,如果是,则对该时间段内的弹幕进行分词。
具体地,流媒体在每个时间段内的弹幕数量可能会起伏变化,例如在某电视剧结尾时刻可能只有很少的弹幕,这种情况下可以认为不会出现内容爆点,则可以不对该时间段进行确定内容爆点的工作,从而提高流媒体内容爆点的确定效率。
所述预设的数量阈值为用户根据实际应用情况自行设定的,当该时间段内的弹幕数量大于预设的数量阈值时,对该时间段内的弹幕进行分词,当该时间段内的弹幕数量小于预设的数量阈值时,认为不会有内容爆点,不进行分词处理。
应用本实施例,只对弹幕数量大于预设的数量阈值的时间段内的弹幕进行分词处理,对弹幕数量小于预设的数量阈值的时间段不予考虑,这样就避免了对不可能出现内容爆点的时间段做分词处理工作,减小了分词工作量,进一步提高了确定流媒体内容爆点的效率。
为了提高确定流媒体内容爆点的准确性,在上述实施例的基础上,在本发明的又一个实施例中,在对每个时间段内的弹幕进行分词之前,该方法还包括:
对每个时间段内的弹幕进行过滤。
具体地,对每个时间段内的弹幕进行过滤包括:判断该时间段内的每个弹幕与保存的无意义语句词表中的内容是否相同;如果相同,则过滤该弹幕。
所述无意义语句词表为保存在本地的表,无意义语句包括无意义的字、词、短语以及诋毁他人等低质量语句等。无意义语句词表如表1所示,其内容可以根据实际情况进行更新。
表1
无意义语句 我、我们、我和你、喂喂喂……
低质量语句 丫的、滚滚滚、靠……
应用本实施例,分析弹幕内容时,过滤掉了无意义的不能准确反映用户真实感兴趣的话题的弹幕,只对有效反映用户真实感兴趣的话题的弹幕进行分析,进一步提高了确定流媒体内容爆点的准确性。
具体地,对弹幕的过滤工作可以在判断每个时间段内弹幕数量是否大于预设的数量阈值之前,也可以在判断每个时间段内弹幕数量是否大于预设的数量阈值之后。
为便于用户查看与内容爆点有关的弹幕内容,在上述实施例的基础上,在本发明的再一个实施例中,该方法还包括:
在确定内容爆点后,将确定的每个内容爆点保存在所述流媒体中,并针对每个内容爆点保存该内容爆点对应的弹幕。
应用本实施例,当用户播放该流媒体时,可以点选内容爆点,查看对应的弹幕,并可以选择是否播放该时间点对于的弹幕内容,便于用户更清楚的了解该内容爆点对应的话题内容。
下面以一个具体的实施例对本发明进行详细描述,图2为本发明实施例提供的另一种确定流媒体中内容爆点的方法流程示意图,应用于服务器,包括以下步骤:
步骤S201:判断用户针对流媒体发送的弹幕数量是否大于预设的数量额定值,当所述弹幕数量大于预设的数量额定值时,则按照预设的规则将流媒体划分多个时间段。
假设流媒体时长20秒,在这20秒内的弹幕数量为800条,预设的数量额定值为500条,用户针对该流媒体发送的弹幕数量大于预设的数量额定值,则按照预设的规则将该流媒体划分多个时间段。
步骤S202:按照预设的规则将流媒体划分多个时间段。
假设预设规则为每5秒一个时间段,则可将流媒体划分为4个时间段,1到5秒划分为第一时间段,5到10秒划分为第二时间段,10到15秒划分为第三时间段,15到20秒划分为第四时间段。
步骤S203:针对每个时间段,对该时间段内的弹幕进行过滤。
划分时间段之后,判断这四个时间段内的每个弹幕与保存的无意义语句词表中的内容是否相同;如果相同,则过滤该弹幕。
步骤S204:针对每个时间段,获取该时间段内对弹幕进行过滤后的弹幕数量,判断所述弹幕数量是否大于预设的数量阈值,若大于,则对该时间段内的弹幕进行分词。
假设第一时间段内过滤后的弹幕数量为50条,第二时间段内过滤后的弹幕数量为250条,第三时间段内过滤后的弹幕数量为400条,第四时间段内过滤后的弹幕数量为100条,假设预设的数量阈值为200,则可以得出,第二时间段和第三时间段内过滤后的弹幕数量大于预设的数量阈值,对第二时间段和第三时间段内的过滤后的弹幕进行分词处理,而第一时间段和第四时间段包含的弹幕数量较少,此时认为其不会出现内容爆点,不进行分词处理。
采用现有的分词技术对弹幕进行分词,本实施例不赘述分词过程。
步骤S205:统计每个时间段内每个分词的词频,确定该时间段对应的弹幕主题词;并确定该时间段对应的弹幕主题词的出现次数。
对第二时间段和第三时间段的弹幕进行分词之后,统计这两个时间段内每个分词出现的词频,即统计这两个时间段内每个分词出现的次数,并确定出这两个时间段内出现次数最多的分词。
假设第二时间段内出现次数最多的分词是第一分词,出现次数为250次,第三时间段内出现次数最多分词的是第二分词,出现次数为500次,则确定第一分词为其所对应的第二时间段内的弹幕主题词,第二分词为其所对应的第三时间段内的弹幕主题词,且第二时间段内的弹幕主题词的出现次数为250次,第三时间段内的主题词的出现次数为500次。
步骤S206:根据每个时间段对应的弹幕主题词的出现次数,及保存的频率均值,识别弹幕主题词的出现次数大于所述频率均值的时间段。
判断第二时间段和第三时间段内的弹幕主题词的出现次数是否大于保存的频率均值,本实施例中保存的频率均值为根据下式计算出的频率中值:
频率均值=(第一个时间段内弹幕主题词的出现次数+第二个时间段内弹幕主题词的出现次数+……+第N个时间段内弹幕主题词的出现次数)/(时间段的数量N)=(250+500)/2=375
则得出第三时间段内的主题词的出现次数大于频率均值,则识别第三时间段,并将第三时间段对应的弹幕主题词确定为内容爆点的爆点主题词,即将第二分词确定为爆点主题词。
步骤S207:在识别出的时间段中,根据对应的弹幕主题词在该时间段内每个时间点出现的次数,将出现次数最大值对应的时间点确定为内容爆点。
在第三时间段内,统计弹幕主题词在每个时间点的出现次数,假设在第11秒处弹幕主题词出现40次,在第12秒处弹幕主题词出现60次,在第13秒处弹幕主题词出现300次,在第14秒处弹幕主题词出现70次,在第15秒处弹幕主题词出现30次,在第13秒处弹幕主题词出现次数最多,则最后确定第三时间段内的第13秒处为内容爆点。
步骤S208:将确定的内容爆点保存在所述流媒体中。
为便于用户查询内容爆点的话题内容,在将第三时间段内的第13秒处确定为内容爆点后,将该时间点保存在所述流媒体中,并保存该时间点对应的300条弹幕主题词,当用户使用应用该实施例的服务器时,可以点选内容爆点查看爆点话题相关的弹幕,并寻找到对应的时间点播放。
应用本实施例,在对流媒体划分多个时间段之前以及在对每个时间段内的弹幕进行分词之前,添加了对弹幕数量进行判断的步骤,减少了计算工作量,提高了确定流媒体内容爆点的效率;在对每个时间段内的弹幕进行分词之前,还对每个时间段内的弹幕进行了过滤,进一步提高了确定流媒体内容爆点的准确性。
本发明实施例还公开了一种确定流媒体中内容爆点的装置,图3为本发明实施例的一种确定流媒体中内容爆点的装置结构示意图,应用于服务器,包括:
划分模块301,用于按照预设的规则将流媒体划分多个时间段。
具体地,划分规则可以预先自行设定,可以是将流媒体均匀的划分为多个时间段,或是将流媒体不均匀的划分为多个时间段,具体预设划分规则如何设定,本发明实施例不作限定。
处理模块302,用于针对每个时间段,对该时间段内的弹幕进行分词;统计该时间段内每个分词的词频,确定该时间段对应的弹幕主题词;并确定该时间段对应的弹幕主题词的出现次数。
弹幕为用户在观看流媒体内容时针对流媒体发送的评论内容,其能够正确反映出用户真实感兴趣的话题。
不同的弹幕发送的时间可能会有所区别,但是每个弹幕都只会在流媒体上特定的一个时间点出现,因此在流媒体上相同时间点会出现一定数量的弹幕且出现的弹幕基本上具有相同的主题。
由于用户发送的弹幕与流媒体是同步实时更新的,因此弹幕与流媒体有着时间上的对应关系,即在流媒体上每个时间段内会对应积累有一定数量的用户针对流媒体发送的弹幕。
具体地,对流媒体上每个时间段内的弹幕进行分词,分词技术属于现有技术,本发明实施例不赘述。
对弹幕进行分词之后,统计每个时间段内每个分词的词频,每个分词的词频即为每个分词出现的次数,并将出现次数最多的分词,即词频最大的分词确定为该时间段对应的弹幕主题词,并将所述分词的次数确定为所述弹幕主题词的次数。
识别模块303,用于根据每个时间段对应的弹幕主题词的出现次数,及保存的频率均值,识别弹幕主题词的出现次数大于所述频率均值的时间段。
具体地,保存的频率均值可以为预先设定的值,或是通过预设的计算方法计算得出来的数值。
计算频率均值的预设的计算方法可以为,根据统计的每个时间段对应的弹幕主题词的出现次数,求出该流媒体上各弹幕主题词的频率中值,具体如下式所示。
频率均值=(第一个时间段内弹幕主题词的出现次数+第二个时间段内弹幕主题词的出现次数+……+第N个时间段内弹幕主题词的出现次数)/(时间段的数量N)。
当然,也可以采用其他计算方法计算频率均值,具体采用何种计算方法计算频率均值,本发明实施例不作限定。
根据预先设定的频率中值或计算得出的频率均值,判断每个时间段内的弹幕主题词的出现次数是否大于该频率均值,若大于,则识别弹幕主题词的出现次数大于所述频率均值的时间段。
第一确定模块304,用于在识别出的时间段中,根据对应的弹幕主题词在该时间段内每个时间点出现的次数,将出现次数最大值对应的时间点确定为内容爆点。
具体地,识别出的时间段为弹幕主题词的出现次数大于保存的频率均值的时间段,针对识别出的时间段,确定该时间段内的弹幕主题词在每个时间点出现的次数,并将该时间段内弹幕主题词出现次数最大值对应的时间点确定为内容爆点。
为了便于用户清楚的了解内容爆点对应的主题内容,该装置还包括第二确定模块(图3中未示出),用于将识别出的时间段对应的弹幕主题词确定为内容爆点的爆点主题词,这样用户就可以通过查看爆点主题词清楚的了解该内容爆点对应的爆点话题是什么。
本发明实施例是基于用户主动生成的弹幕内容确定内容爆点,由于用户对感兴趣的内容输入的弹幕也会比较多,因此根据流媒体中每个时间段内弹幕主题词的出现次数,可以准确的确定出用户感兴趣的内容爆点,从而使确定出的内容爆点更加准确,另外,由于本发明实施例中该内容爆点可以按照上述方式灵活确定,如果弹幕内容发生了变化,也能够及时、准确的确定出变化后的内容爆点。
为了提高确定流媒体内容爆点的效率,在上述实施例的基础上,在本发明的一个实施例中,在对流媒体划分多个时间段之前,该装置还包括:
第一判断模块,用于判断用户针对流媒体发送的弹幕数量是否大于预设的数量额定值,当所述弹幕数量大于预设的数量额定值时,按照预设的规则将流媒体划分多个时间段。
具体地,预设的数量额定值为用户根据实际情况自行设定的,其可以是很大的数,具体数值范围本发明实施例不作限定,
当用户针对流媒体发送的弹幕数量小于预设的数量额定值时,可以认为根据此时的弹幕数量确定出的内容爆点可能不够准确,因此在本发明实施例中可以暂时不对其进行确定流媒体内容爆点的工作。
应用本实施例,在确定流媒体的内容爆点之前,根据用户针对该流媒体发送的弹幕数量先进行判断,其弹幕数量是否达到预设的数量额定值,在不可能出现内容爆点时,不进行确定流媒体内容爆点的计算工作,减少了计算工作量,提高了确定流媒体内容爆点的效率。
为了进一步提高确定流媒体内容爆点的效率,在上述实施例的基础上,在本发明的另一个实施例中,在对每个时间段内的弹幕进行分词之前,该装置还包括:
第二判断模块,用于针对每个时间段,获取流媒体在该时间段内对应的弹幕数量,判断所述弹幕数量是否大于预设的数量阈值,如果是,则对该时间段内的弹幕进行分词。
具体地,流媒体在每个时间段内的弹幕数量可能会起伏变化,例如在某电视剧结尾时刻可能只有很少的弹幕,这种情况下可以认为不会出现内容爆点,则可以不对该时间段进行确定内容爆点的工作,从而提高流媒体内容爆点的确定效率。
所述预设的数量阈值为用户根据实际应用情况自行设定的,当该时间段内的弹幕数量大于预设的数量阈值时,对该时间段内的弹幕进行分词,当该时间段内的弹幕数量小于预设的数量阈值时,认为不会有内容爆点,不进行分词处理。
应用本实施例,只对弹幕数量大于预设的数量阈值的时间段内的弹幕进行分词处理,对弹幕数量小于预设的数量阈值的时间段不予考虑,这样就避免了对不可能出现内容爆点的时间段做分词处理工作,减小了分词工作量,进一步提高了确定流媒体内容爆点的效率。
为了提高确定流媒体内容爆点的准确性,在上述实施例的基础上,在本发明的又一个实施例中,在对每个时间段内的弹幕进行分词之前,该装置还包括:
过滤模块,用于对每个时间段内的弹幕进行过滤。
具体地,对每个时间段内的弹幕进行过滤包括:判断该时间段内的每个弹幕与保存的无意义语句词表中的内容是否相同;如果相同,则过滤该弹幕。
所述无意义语句词表为保存在本地的表,无意义语句包括无意义的字、词、短语以及诋毁他人等低质量语句等。无意义语句词表如表1所示,其内容可以根据实际情况进行更新。
表1
无意义语句 我、我们、我和你、喂喂喂……
低质量语句 丫的、滚滚滚、靠……
应用本实施例,分析弹幕内容时,过滤掉了无意义的不能准确反映用户真实感兴趣的话题的弹幕,只对有效反映用户真实感兴趣的话题的弹幕进行分析,进一步提高了确定流媒体内容爆点的准确性。
具体地,对弹幕的过滤工作可以在判断每个时间段内弹幕数量是否大于预设的数量阈值之前,也可以在判断每个时间段内弹幕数量是否大于预设的数量阈值之后。
为便于用户查看与内容爆点有关的弹幕内容,在上述实施例的基础上,在本发明的再一个实施例中,该装置还包括:
保存模块,用于在确定内容爆点后,将确定的每个内容爆点保存在所述流媒体中,并针对每个内容爆点保存该内容爆点对应的弹幕。
应用本实施例,当用户播放该流媒体时,可以点选内容爆点,查看对应的弹幕,并可以选择是否播放该时间点对于的弹幕内容,便于用户更清楚的了解该内容爆点对应的话题内容。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (14)

1.一种确定流媒体中内容爆点的方法,其特征在于,应用于服务器,所述方法包括:
按照预设的规则将流媒体划分多个时间段;
针对每个时间段,对该时间段内的弹幕进行分词;统计该时间段内每个分词的词频,确定该时间段对应的弹幕主题词;并确定该时间段对应的弹幕主题词的出现次数;
根据每个时间段对应的弹幕主题词的出现次数,及保存的频率均值,识别弹幕主题词出现次数大于所述频率均值的时间段;
在识别出的时间段中,根据对应的弹幕主题词在该时间段内每个时间点出现的次数,将出现次数最大值对应的时间点确定为内容爆点。
2.根据权利要求1所述的方法,其特征在于,所述按照预设的规则将流媒体划分多个时间段之前,所述方法还包括:
判断用户针对流媒体发送的弹幕数量是否大于预设的数量额定值,当所述弹幕数量大于预设的数量额定值时,进行所述按照预设的规则将流媒体划分多个时间段的步骤。
3.根据权利要求1所述的方法,其特征在于,所述对该时间段内的弹幕进行分词之前,所述方法还包括:
对该时间段内的弹幕进行过滤。
4.根据权利要求3所述的方法,其特征在于,所述对该时间段内的弹幕进行过滤包括:
判断该时间段内的每个弹幕与保存的无意义语句词表中的内容是否相同;
如果相同,则过滤该弹幕。
5.根据权利要求1所述的方法,其特征在于,所述对该时间段内的弹幕进行分词之前,所述方法还包括:
针对每个时间段,判断该时间段内的弹幕数量是否大于设定的数量阈值,如果是,则进行所述对该时间段内的弹幕进行分词的步骤。
6.根据权利要求1所述的方法,其特征在于,所述将出现次数最大值对应的时间点确定为内容爆点之后,所述方法还包括:
将确定的每个内容爆点保存在所述流媒体中,并针对每个内容爆点保存该内容爆点对应的弹幕。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将识别出的时间段对应的弹幕主题词确定为该内容爆点的爆点主题词。
8.一种确定流媒体中内容爆点的装置,其特征在于,应用于服务器,所述装置包括:
划分模块,用于按照预设的规则将流媒体划分多个时间段;
处理模块,用于针对每个时间段,对该时间段内的弹幕进行分词;统计每个时间段内每个分词的词频,确定该时间段对应的弹幕主题词;并确定该时间段对应的弹幕主题词的出现次数;
识别模块,用于根据每个时间段对应的弹幕主题词的出现次数,及保存的频率均值,识别弹幕主题词出现次数大于所述频率均值的时间段;
第一确定模块,用于根据对应的弹幕主题词在该时间段内每个时间点出现的次数,将出现次数最大值对应的时间点确定为内容爆点。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第一判断模块,用于判断用户针对流媒体发送的弹幕数量是否大于预设的数量额定值,当所述弹幕数量大于预设的数量额定值时,进行所述按照预设的规则将流媒体划分多个时间段的步骤。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
过滤模块,用于在对每个时间段内的弹幕进行分词之前对该时间段内的弹幕进行过滤。
11.根据权利要求10所述的装置,其特征在于,所述过滤模块具体用于:
判断该时间段内的每个弹幕与保存的无意义语句词表中的内容是否相同;
如果相同,则过滤该弹幕。
12.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二判断模块,用于针对每个时间段,判断该时间段内的弹幕数量是否大于设定的数量阈值,如果是,则进行所述对该时间段内的弹幕进行分词的步骤。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括:
保存模块,用于将出现次数最大值对应的时间点确定为内容爆点之后,将确定的每个内容爆点保存在所述流媒体中,并针对每个内容爆点保存该内容爆点对应的弹幕。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于将识别出的时间段对应的弹幕主题词确定为该内容爆点的爆点主题词。
CN201610373489.6A 2016-05-31 2016-05-31 一种确定流媒体中热点内容的时间点的方法及装置 Active CN106028176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610373489.6A CN106028176B (zh) 2016-05-31 2016-05-31 一种确定流媒体中热点内容的时间点的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610373489.6A CN106028176B (zh) 2016-05-31 2016-05-31 一种确定流媒体中热点内容的时间点的方法及装置

Publications (2)

Publication Number Publication Date
CN106028176A true CN106028176A (zh) 2016-10-12
CN106028176B CN106028176B (zh) 2018-12-14

Family

ID=57092978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610373489.6A Active CN106028176B (zh) 2016-05-31 2016-05-31 一种确定流媒体中热点内容的时间点的方法及装置

Country Status (1)

Country Link
CN (1) CN106028176B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106993229A (zh) * 2017-03-02 2017-07-28 合网络技术(北京)有限公司 互动属性展示方法及装置
CN107396194A (zh) * 2017-07-04 2017-11-24 上海全土豆文化传播有限公司 一种弹幕展示方法及客户端
CN107484025A (zh) * 2017-08-31 2017-12-15 维沃移动通信有限公司 一种弹幕显示方法及移动终端
CN107608964A (zh) * 2017-09-13 2018-01-19 上海六界信息技术有限公司 基于弹幕的直播内容的筛选方法、装置、设备及存储介质
CN108055593A (zh) * 2017-12-20 2018-05-18 广州虎牙信息科技有限公司 一种互动消息的处理方法、装置、存储介质及电子设备
CN108401175A (zh) * 2017-12-20 2018-08-14 广州虎牙信息科技有限公司 一种弹幕消息的处理方法、装置、存储介质及电子设备
CN108683956A (zh) * 2018-06-19 2018-10-19 广州虎牙信息科技有限公司 直播间弹幕特效配置方法、装置及存储介质、服务器
CN109729435A (zh) * 2017-10-27 2019-05-07 优酷网络技术(北京)有限公司 视频片段的提取方法及装置
CN110166811A (zh) * 2019-05-15 2019-08-23 口碑(上海)信息技术有限公司 弹幕信息的处理方法、装置及设备
CN110245343A (zh) * 2018-03-07 2019-09-17 优酷网络技术(北京)有限公司 弹幕分析方法及装置
CN112995719A (zh) * 2021-04-21 2021-06-18 平安科技(深圳)有限公司 基于弹幕文本的问题集获取方法、装置及计算机设备
CN113158065A (zh) * 2021-05-11 2021-07-23 两比特(北京)科技有限公司 一种云合数据的弹幕抓取和分析系统
CN115883912A (zh) * 2023-03-08 2023-03-31 山东水浒文化传媒有限公司 一种用于互联网交流演示的互动方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140019860A1 (en) * 2012-07-10 2014-01-16 Nokia Corporation Method and apparatus for providing a multimodal user interface track
CN104469508A (zh) * 2013-09-13 2015-03-25 中国电信股份有限公司 基于弹幕信息内容进行视频定位的方法、服务器和系统
CN104462482A (zh) * 2014-12-18 2015-03-25 百度在线网络技术(北京)有限公司 关于媒体展现的内容提供方法和系统
CN104994425A (zh) * 2015-06-30 2015-10-21 北京奇艺世纪科技有限公司 一种视频标识方法和装置
CN105245960A (zh) * 2014-07-07 2016-01-13 乐视网信息技术(北京)股份有限公司 视频的弹幕显示方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140019860A1 (en) * 2012-07-10 2014-01-16 Nokia Corporation Method and apparatus for providing a multimodal user interface track
CN104469508A (zh) * 2013-09-13 2015-03-25 中国电信股份有限公司 基于弹幕信息内容进行视频定位的方法、服务器和系统
CN105245960A (zh) * 2014-07-07 2016-01-13 乐视网信息技术(北京)股份有限公司 视频的弹幕显示方法及装置
CN104462482A (zh) * 2014-12-18 2015-03-25 百度在线网络技术(北京)有限公司 关于媒体展现的内容提供方法和系统
CN104994425A (zh) * 2015-06-30 2015-10-21 北京奇艺世纪科技有限公司 一种视频标识方法和装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106993229A (zh) * 2017-03-02 2017-07-28 合网络技术(北京)有限公司 互动属性展示方法及装置
WO2018157629A1 (zh) * 2017-03-02 2018-09-07 优酷网络技术(北京)有限公司 互动属性展示方法及装置
CN107396194A (zh) * 2017-07-04 2017-11-24 上海全土豆文化传播有限公司 一种弹幕展示方法及客户端
CN107484025A (zh) * 2017-08-31 2017-12-15 维沃移动通信有限公司 一种弹幕显示方法及移动终端
CN107484025B (zh) * 2017-08-31 2020-04-03 维沃移动通信有限公司 一种弹幕显示方法及移动终端
CN107608964A (zh) * 2017-09-13 2018-01-19 上海六界信息技术有限公司 基于弹幕的直播内容的筛选方法、装置、设备及存储介质
CN107608964B (zh) * 2017-09-13 2021-01-12 上海六界信息技术有限公司 基于弹幕的直播内容的筛选方法、装置、设备及存储介质
CN109729435A (zh) * 2017-10-27 2019-05-07 优酷网络技术(北京)有限公司 视频片段的提取方法及装置
CN108055593B (zh) * 2017-12-20 2020-03-06 广州虎牙信息科技有限公司 一种互动消息的处理方法、装置、存储介质及电子设备
CN108401175A (zh) * 2017-12-20 2018-08-14 广州虎牙信息科技有限公司 一种弹幕消息的处理方法、装置、存储介质及电子设备
CN108055593A (zh) * 2017-12-20 2018-05-18 广州虎牙信息科技有限公司 一种互动消息的处理方法、装置、存储介质及电子设备
CN110245343A (zh) * 2018-03-07 2019-09-17 优酷网络技术(北京)有限公司 弹幕分析方法及装置
CN108683956A (zh) * 2018-06-19 2018-10-19 广州虎牙信息科技有限公司 直播间弹幕特效配置方法、装置及存储介质、服务器
CN110166811A (zh) * 2019-05-15 2019-08-23 口碑(上海)信息技术有限公司 弹幕信息的处理方法、装置及设备
CN112995719A (zh) * 2021-04-21 2021-06-18 平安科技(深圳)有限公司 基于弹幕文本的问题集获取方法、装置及计算机设备
CN112995719B (zh) * 2021-04-21 2021-07-27 平安科技(深圳)有限公司 基于弹幕文本的问题集获取方法、装置及计算机设备
CN113158065A (zh) * 2021-05-11 2021-07-23 两比特(北京)科技有限公司 一种云合数据的弹幕抓取和分析系统
CN115883912A (zh) * 2023-03-08 2023-03-31 山东水浒文化传媒有限公司 一种用于互联网交流演示的互动方法及系统

Also Published As

Publication number Publication date
CN106028176B (zh) 2018-12-14

Similar Documents

Publication Publication Date Title
CN106028176A (zh) 一种确定流媒体中内容爆点的方法及装置
EP3082051A1 (en) Data mining method
CN107515825B (zh) 流畅度测试方法和装置、存储介质、终端
CN110047513B (zh) 一种视频监测方法、装置、电子设备和存储介质
CN106604066A (zh) 改进的视频app中个性化推荐方法及系统
CN106657057A (zh) 反爬虫系统及方法
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN106571146B (zh) 噪音信号确定方法、语音去噪方法及装置
CN108132964A (zh) 一种基于用户对项目类评分的协同过滤方法
Zengin et al. Determinants of Turkey’s foreign aid behavior
CN105701135A (zh) 一种应用推荐的方法和装置
CN108366274B (zh) 一种刷播放量的检测方法和装置
CN105243105A (zh) 内容排序方法及装置
CN109145146A (zh) 一种数据对象推荐方法、装置及电子设备
CN108337571A (zh) 一种弹幕信息处理方法及设备
CN109557583B (zh) 一种地震属性提取方法及系统
CN105429792A (zh) 用户行为流量获取方法及装置、用户行为分析方法及系统
CN106874286B (zh) 一种筛选用户特征的方法及装置
CN104462448B (zh) 一种分组名分类方法及装置
CN104536687B (zh) 一种翻页终端
CN103177091A (zh) 视频分类方法和系统
CN109429104B (zh) 家庭成员的分析方法及相关装置
CN107948755B (zh) 一种结合用户观看时长的视频内容推荐方法及系统
CN105447087A (zh) 一种视频推荐方法及装置
CN107884791B (zh) 一种gnss定位数据的滤波方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant