CN105022801A - 一种热门视频挖掘方法和装置 - Google Patents

一种热门视频挖掘方法和装置 Download PDF

Info

Publication number
CN105022801A
CN105022801A CN201510378049.5A CN201510378049A CN105022801A CN 105022801 A CN105022801 A CN 105022801A CN 201510378049 A CN201510378049 A CN 201510378049A CN 105022801 A CN105022801 A CN 105022801A
Authority
CN
China
Prior art keywords
video
message
word message
current video
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510378049.5A
Other languages
English (en)
Other versions
CN105022801B (zh
Inventor
胡军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201510378049.5A priority Critical patent/CN105022801B/zh
Publication of CN105022801A publication Critical patent/CN105022801A/zh
Application granted granted Critical
Publication of CN105022801B publication Critical patent/CN105022801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Abstract

本发明实施例提供了一种热门视频挖掘方法和装置,其中,热门视频挖掘方法包括以下步骤:将在预设时间内从多个传感器上抓取的至少一个视频的文字信息和当前视频的文字信息,分别存储至相应传感器对应的消息队列;多个传感器根据待挖掘热门视频的类型选取,多个传感器与多个消息队列一一对应;根据当前视频的文字信息和其他消息队列的视频的文字信息确定当前视频的热度指数;当当前视频的热度指数大于预设热度阈值时,判断当前视频为热门视频。本发明实施例能够实时预测和发现热门视频,弥补网站首页人工运营的不足,提高网站对热点视频的运营能力,极大节约运营成本,且能提高视频搜索结果的时效性,更好的满足用户需求。

Description

一种热门视频挖掘方法和装置
技术领域
本发明涉及软件技术领域,特别是涉及一种热门视频挖掘方法和一种热门视频挖掘装置。
背景技术
随着视频网站(包括资讯、娱乐、军事、原创频道等)的快速发展,用户从大量无关的信息中发现感兴趣的视频越来越困难,这种情况下,用户往往需要视频网站从大量视频中推荐一些相关热门视频到首页。
现有技术中,常用的从大量视频中推荐相关热门视频的做法是,由首页编辑手工标记高质量的或者跟时事热点密切相关的视频,并推送到首页。但是这种做法严重依赖人工运营,成本高、效率低,对于一些热点视频的发现相对滞后,时效性差,因此越来越难以满足用户对视频网站热门视频推荐的需求。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:如何快速发现热门事件以及相应的视频,以便于视频网站的首页更及时地推荐相关热门视频,满足用户需求。
发明内容
本发明实施例所要解决的技术问题是提供一种热门视频挖掘方法,能够实时预测和发现热门视频,弥补首页人工运营(挖掘)的不足,具有更好的时效性。
相应的,本发明实施例还提供了一种热门视频挖掘装置,用以保证上述方法的实现及应用。
为了解决上述问题,本发明公开了一种热门视频挖掘方法,包括以下步骤:将在预设时间内从多个传感器上抓取的至少一个视频的文字信息和当前视频的文字信息,分别存储至相应传感器对应的消息队列;所述多个传感器根据待挖掘热门视频的类型选取,所述多个传感器与多个消息队列一一对 应;根据所述当前视频的文字信息和其他所述消息队列的所述视频的文字信息确定所述当前视频的热度指数;当所述当前视频的热度指数大于预设热度阈值时,判断所述当前视频为热门视频。
优选地,所述根据所述当前视频的文字信息和其他所述消息队列的所述视频的文字信息确定所述当前视频的热度指数包括以下步骤:分别计算所述当前视频的文字信息与其他所述消息队列中每个所述视频的文字信息的相似度;根据所述相似度和预设相似度阈值判断所述当前视频与其他所述消息队列中对应的所述视频是否相似,并当所述相似度大于所述预设相似度阈值时,判断所述当前视频与其他所述消息队列中对应的所述视频相似;统计存在与所述当前视频相似视频的其他所述消息队列个数;将所述个数加一的结果作为所述当前视频的热度指数。
优选地,在所述分别计算所述当前视频的文字信息与其他所述消息队列中每个所述视频的文字信息的相似度之前,还包括以下步骤:分别对所述当前视频的文字信息和其他所述消息队列中每个所述视频的文字信息进行分词处理和实体识别处理,以获得所述当前视频的文字信息和其他所述消息队列中每个所述视频的文字信息对应的实体集合和关键词集合。
优选地,所述分别计算所述当前视频的文字信息与其他所述消息队列中每个所述视频的文字信息的相似度,具体包括以下步骤:根据所述当前视频的文字信息和其他所述消息队列中每个所述视频的文字信息对应的所述实体集合和所述关键词集合构成相应视频的文字信息的文本分词向量;通过余弦公式分别计算所述当前视频的文字信息的文本分词向量与其他所述消息队列中每个所述视频的文字信息的文本分词向量之间的相似度。
优选地,在所述判断所述当前视频为热门视频之后,还包括以下步骤:将所述当前视频的文字信息发送至预设网站编辑,和/或添加至预设视频搜索索引。
与现有技术相比,本发明实施例的热门视频挖掘方法包括以下优点:
将在预设时间内从多个传感器上抓取的至少一个视频的文字信息和当前视频的文字信息,分别存储至相应传感器对应的消息队列,进而根据当前 视频的文字信息和其他消息队列的视频的文字信息确定当前视频的热度指数,以及当当前视频的热度指数大于预设热度阈值时,判断当前视频为热门视频,从而能够准确、实时的预测、发现热门视频,弥补了首页人工挖掘的不足,提高了网站对热点视频的运营能力,极大节约了运营成本;
发送热门视频的文字信息至预设网站编辑,和/或添加至预设视频搜索索引,提高了网站编辑、视频搜索索引对热门事件视频的抓取实时性以及精准度,提高了热门视频搜索结果的时效性,从而更好的满足了用户需求。
为了解决上述问题,本发明还公开了一种热门视频挖掘装置,包括:多个传感器,所述多个传感器根据待挖掘热门视频的类型选取;监视器,所述监视器包括:多个消息队列,所述多个消息队列与所述多个传感器一一对应;消息处理模块,所述消息处理模块将在预设时间内从多个传感器上抓取的至少一个视频的文字信息和当前视频的文字信息,分别存储至相应传感器对应的消息队列,并根据所述当前视频的文字信息和其他所述消息队列的所述视频的文字信息确定所述当前视频的热度指数,以及当所述当前视频的热度指数大于预设热度阈值时,判断所述当前视频为热门视频。
优选地,所述消息处理模块包括:相似度计算单元,分别计算所述当前视频的文字信息与其他所述消息队列中每个所述视频的文字信息的相似度;判断单元,根据所述相似度和预设相似度阈值判断所述当前视频与其他所述消息队列中对应的所述视频是否相似,并当所述相似度大于所述预设相似度阈值时,判断所述当前视频与其他所述消息队列中对应的所述视频相似;统计单元,统计存在与所述当前视频相似视频的其他所述消息队列个数;热度指数确定单元,将所述个数加一的结果作为所述当前视频的热度指数。
优选地,所述消息处理模块还包括:处理单元,在所述相似度计算单元分别计算所述当前视频的文字信息与其他所述消息队列中每个所述视频的文字信息的相似度之前,所述处理单元分别对所述当前视频的文字信息和其他所述消息队列中每个所述视频的文字信息进行分词处理和实体识别处理,以获得所述当前视频的文字信息和其他所述消息队列中每个所述视频的文字信息对应的实体集合和关键词集合。
优选地,所述相似度计算单元具体用于:根据所述当前视频的文字信息和其他所述消息队列中每个所述视频的文字信息对应的所述实体集合和所述关键词集合构成相应视频的文字信息的文本分词向量;通过余弦公式分别计算所述当前视频的文字信息的文本分词向量与其他所述消息队列中每个所述视频的文字信息的文本分词向量之间的相似度。
优选地,在判断所述当前视频为热门视频之后,所述消息处理模块将所述当前视频的文字信息发送至预设网站编辑,和/或添加至预设视频搜索索引。
与现有技术相比,本发明实施例的热门视频挖掘装置包括以下优点:
通过监视器将在预设时间内从多个传感器上抓取的至少一个视频的文字信息和当前视频的文字信息,分别存储至相应传感器对应的消息队列,进而根据当前视频的文字信息和其他消息队列的视频的文字信息确定当前视频的热度指数,以及当当前视频的热度指数大于预设热度阈值时,判断当前视频为热门视频,从而能够准确、实时的预测、发现热门视频,弥补了首页人工挖掘的不足,提高了网站对热点视频的运营能力,极大节约了运营成本;
通过消息处理模块发送热门视频的文字信息至预设网站编辑,和/或添加至预设视频搜索索引,提高了网站编辑、视频搜索索引对热门事件视频的抓取实时性以及精准度,提高了热门视频搜索结果的时效性,从而更好的满足了用户需求。
附图说明
图1是本发明的一种热门视频挖掘方法实施例的步骤流程图;
图2是本发明的一种热门视频挖掘方法具体实施例中视频1和视频2的文字信息的权重表;
图3是本发明的一种热门视频挖掘方法具体实施例的步骤流程图;
图4是本发明的一种热门视频挖掘装置实施例的结构框图;
图5是本发明的一种热门视频挖掘装置实施例的监视器的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
在参照附图对本发明实施例的一种热门视频挖掘方法和一种热门视频挖掘装置进行说明之前,需要说明的是,热门事件中视频的文字信息等可以通过微博转发、门户网站发布等多种方式进行传播,因此热门事件视频的文字信息、突发新闻视频的文字信息等通常具有快速的、爆发式传播的特点。因此,可以通过抓取“消息源”视频的文字信息等来及时发现热门视频。
本发明实施例的核心构思之一在于,选取同一类型的多个传感器作为“消息源”,由于热门事件中视频的文字信息具有快速传播的特点,事件发生之后会依次传播到各个传感器。因此,某一事件视频的文字信息如果同时出现在各个传感器上,即可以断定该事件为热门事件。
参照图1,示出了本发明的一种热门视频挖掘方法实施例的步骤流程图,具体可以包括如下步骤:
S1,将在预设时间内从多个传感器上抓取的至少一个视频的文字信息和当前视频的文字信息,分别存储至相应传感器对应的消息队列,多个传感器根据待挖掘热门视频的类型选取,多个传感器与多个消息队列一一对应。
其中,预设时间可以设置为2分钟左右。 
进一步地,在本发明的另一个实施例中,当传感器上至少一个视频和当前视频中部分视频具有相应的链接或全部视频具有相应的链接时,步骤S1可以为:
将在预设时间内从多个传感器上抓取的至少一个视频和当前视频的文字信息和相应的链接,分别存储至相应传感器对应的消息队列。
需要说明的是,本发明实施例中,多个消息队列仅存储预设时间内从多个传感器上抓取的视频的文字信息,或视频的文字信息和相应的链接。
优选地,在本发明的一个实施例中,多个传感器可以为门户网站、微博大V用户以及一些垂直领域的消息源等。需要说明的是,多个传感器必须为同一类型(可以为娱乐、资讯、军事、游戏等),才能确保抓取的至少一个视频的文字信息和当前视频的文字信息为同一类型。例如,当待挖掘热门视 频的类型为资讯新闻,多个传感器可以选取新浪、网易、腾讯等门户网站的资讯新闻频道以及与资讯相关的微博大V用户等。例如,当待挖掘热门视频的类型为娱乐新闻,多个传感器可以选取新浪娱乐频道、腾讯娱乐频道、网易娱乐频道、搜狐娱乐频道、中国娱乐网等网站以及与娱乐相关的新浪微博大V用户等。又例如,当待挖掘热门视频的类型为热门游戏视频,多个传感器可以选取知名游戏解说的微博、主页等。具体地,在本发明的一个实施例中,视频的文字信息可以包括视频的标题、视频的简介和视频的时长等。
S2,根据当前视频的文字信息和其他消息队列的视频的文字信息确定当前视频的热度指数。
其中,其他消息队列为存储当前视频的消息队列之外的消息队列。
具体地,在本发明的一个实施例中,当前视频的热度指数可以为事件视频出现在各个消息队列的次数,可以设置一个消息队列最多计一次,即当多个同一事件的视频出现在同一个消息队列中时,消息队列计一次,因此,当前视频的热度指数最大为传感器的个数。具体地,事件视频指多个消息队列中与当前视频为同一事件的视频。
优选地,在本发明的一个实施例中,根据当前视频的文字信息和其他消息队列的视频的文字信息确定当前视频的热度指数即步骤S2可以包括以下步骤:
S21,分别计算当前视频的文字信息与其他消息队列中每个视频的文字信息的相似度。
优选地,在本发明的一个实施例中,在分别计算当前视频的文字信息与其他消息队列中每个视频的文字信息的相似度即步骤S21之前,还可以包括以下步骤:
S20,分别对当前视频的文字信息和其他消息队列中每个视频的文字信息进行分词处理和实体识别处理,以获得当前视频的文字信息和其他消息队列中每个视频的文字信息对应的实体集合和关键词集合。
其中,在步骤S20中,可以直接采用学术界和工业界的一些开源工具对当前视频的文字信息和其他消息队列中每个视频的文字信息进行分词处理 和实体识别处理,从而得到当前视频的文字信息和其他消息队列中每个视频的文字信息中的实体集合(包含人名、地名、机构名、专有名词等)和关键词集合。
进一步地,在本发明的一个实施例中,分别计算当前视频的文字信息与其他消息队列中每个视频的文字信息的相似度即步骤S21,具体可以包括以下步骤:
根据当前视频的文字信息和其他消息队列中每个视频的文字信息对应的实体集合和关键词集合构成相应视频的文字信息的文本分词向量。
通过余弦公式分别计算当前视频的文字信息的文本分词向量与其他消息队列中每个视频的文字信息的文本分词向量之间的相似度。
其中,计算两个文本分词向量之间的相似度的余弦公式为:
y = x → 1 · x → 2 || x → 1 || · || x → 2 ||
其中,为第一个文本分词向量,为第二个文本分词向量。
下面就根据实体集合和关键词集合如何构成视频的文字信息的文本分词向量作进一步的说明。
例如,在本发明的一个实施例中,视频1的文字信息为“李连杰起诉宋祖德侵权宋祖德表示很委屈”,视频2的文字信息为“被李连杰告诽谤宋祖德喊冤”。分别对视频1的文字信息和视频2的文字信息进行分词处理和实体识别处理后,视频1的文字信息的分词项为:{李连杰,宋祖德,起诉,侵权},视频1的文字信息中实体集合为:{李连杰,宋祖德},视频1的文字信息中关键词集合为:{起诉,侵权},视频2的文字信息的分词项为:{李连杰,宋祖德,诽谤,喊冤},视频2的文字信息中实体集合为:{李连杰,宋祖德},视频2的文字信息中关键词集合为:{诽谤,喊冤}。可以将实体权重设置为2,关键词权重设置为1,于是获得图2,根据图2可以得到视频1的文字信息的文本分词向量为(2,2,1,1,0,0),视频2的文字信息的文本分词向量为(2,2,0,0,1,1)。通过余弦公式计算视频1的文字信息的文本分词向量(2,2,1,1,0,0)和视频2的文字信息的文本分词向量(2,2,0,0,1,1)之间的相似度 为0.8。
S22,根据相似度和预设相似度阈值判断当前视频与其他消息队列中对应的视频是否相似,并当相似度大于预设相似度阈值时,判断当前视频与其他消息队列中对应的视频相似。
其中,预设相似度阈值根据实际应用情况进行确定。在步骤S22中,若当前视频与其他消息队列中对应的视频相似,则当前视频与其他消息队列中对应的视频为同一事件的视频,该其他消息队列存在与当前视频相似视频。
S23,统计存在与当前视频相似视频的其他消息队列个数。
S24,将个数加一的结果作为当前视频的热度指数。
其中,将个数加一的结果指存在与当前视频相似视频的其他消息队列加当前视频所在的消息队列的个数。
S3,当当前视频的热度指数大于预设热度阈值时,判断当前视频为热门视频。
步骤S1-步骤S3能够准确、实时的预测、发现热门视频。
优选地,在本发明的一个实施例中,在判断当前视频为热门视频即步骤S3之后,还可以包括以下步骤:
S4,将当前视频的文字信息发送至预设网站编辑,和/或添加至预设视频搜索索引。
其中,预设网站编辑可以为网站首页编辑或待挖掘热门视频的类型的频道首页编辑等。当将当前视频的文字信息发送至预设网站编辑后,网站编辑即可方便的将当前视频的相关信息编辑至网站首页和/或对应的频道首页。而当将当前视频的文字信息发送至预设视频搜索索引后,用户即可通过搜索等方式获取当前视频的文字信息。
进一步地,在本发明的另一个实施例中,当步骤S1从传感器上抓取当前视频的的文字信息和相应的链接时,步骤S4可以为:
将当前视频的文字信息和相应的链接通过预设方式发送至预设网站编辑,和/或添加至预设视频搜索索引。
其中,预设方式可以为短信、邮件或微博等。
需要说明的是,挖掘热门视频,将挖掘到的热门视频的文字信息、或文字信息和相应的链接发送至预设网站编辑可以提高网站编辑、视频搜索索引对热门事件视频的抓取实时性以及精准度,提高了热门视频搜索结果的时效性,更好的满足了用户需求。
具体地,在本发明的一个具体实施例中,参照图3,当前视频的热度指数记为hot_index,判断当前视频是否为热门视频包括以下步骤:
S5,初始化当前视频的热度指数hot_index=1。
S6,对当前视频的文字信息和其他消息队列中每个视频的文字信息进行分词处理和实体识别处理。
S7,依次计算处理后的当前视频的文字信息与其他消息队列中每个视频的文字信息的相似度,且根据相似度判断当前视频与其他消息队列中对应的视频是否相似,如果相似,当前视频的热度指数hot_index+=1。
S8,如果当前视频的热度指数hot_index大于预设热度阈值,判定当前视频为热门视频。
与现有技术相比,本发明实施例的热门视频挖掘方法包括以下优点:
将在预设时间内从多个传感器上抓取的至少一个视频的文字信息和当前视频的文字信息,分别存储至相应传感器对应的消息队列,进而根据当前视频的文字信息和其他消息队列的视频的文字信息确定当前视频的热度指数,以及当当前视频的热度指数大于预设热度阈值时,判断当前视频为热门视频,从而能够准确、实时的预测、发现热门视频,弥补了首页人工挖掘的不足,提高了网站对热点视频的运营能力,极大节约了运营成本;
发送热门视频的文字信息、或文字信息和相应的链接等至预设网站编辑,和/或添加至预设视频搜索索引,提高了网站编辑、视频搜索索引对热门事件视频的抓取实时性以及精准度,提高了热门视频搜索结果的时效性,从而更好的满足了用户需求。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或 者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明一种热门视频挖掘装置实施例的结构框图,具体可以包括如下模块:多个传感器例如传感器1、传感器2、传感器3......传感器N以及监视器10,N为大于0的正整数。其中,多个传感器1根据待挖掘热门视频的类型选取。参照图5,监视器10可以包括多个消息队列例如消息队列1、消息队列2、消息队列3......消息队列N和消息处理模块11。多个消息队列与多个传感器1一一对应。消息处理模块11将在预设时间内从多个传感器1上抓取的至少一个视频的文字信息和当前视频的文字信息,分别存储至相应传感器1对应的消息队列,并根据当前视频的文字信息和其他消息队列的视频的文字信息确定当前视频的热度指数,以及当当前视频的热度指数大于预设热度阈值时,判断当前视频为热门视频。
优选地,在本发明的一个实施例中,多个传感器1可以为门户网站、微博大V用户等。
优选地,在本发明的一个实施例中,消息处理模块11可以包括:相似度计算单元12、判断单元13、统计单元14以及热度指数确定单元15。其中,相似度计算单元12分别计算当前视频的文字信息与其他消息队列中每个视频的文字信息的相似度。判断单元13根据相似度和预设相似度阈值判断当前视频与其他消息队列中对应的视频是否相似,并当相似度大于预设相似度阈值时,判断当前视频与其他消息队列中对应的视频相似。统计单元14统计存在与当前视频相似视频的其他消息队列个数。热度指数确定单元15将个数加一的结果作为当前视频的热度指数。
优选地,在本发明的一个实施例中,消息处理模块11还可以包括处理单元16,在相似度计算单元12分别计算当前视频的文字信息与其他消息队列中每个视频的文字信息的相似度之前,处理单元16分别对当前视频的文字信息和其他消息队列中每个视频的文字信息进行分词处理和实体识别处理,以获得当前视频的文字信息和其他消息队列中每个视频的文字信息对应的实体集合和关键词集合。
在本发明的一个实施例中,相似度计算单元12具体用于:根据当前视频的文字信息和其他消息队列中每个视频的文字信息对应的实体集合和关键词集合构成相应视频的文字信息的文本分词向量,以及通过余弦公式分别计算当前视频的文字信息的文本分词向量与其他消息队列中每个视频的文字信息的文本分词向量之间的相似度。
优选地,在本发明的一个实施例中,在判断当前视频为热门视频之后,消息处理模块11可以将当前视频的文字信息发送至预设网站编辑,和/或添加至预设视频搜索索引。
与现有技术相比,本发明实施例的热门视频挖掘装置包括以下优点:
通过监视器将在预设时间内从多个传感器上抓取的至少一个视频的文字信息和当前视频的文字信息,分别存储至相应传感器对应的消息队列,进而根据当前视频的文字信息和其他消息队列的视频的文字信息确定当前视频的热度指数,以及当当前视频的热度指数大于预设热度阈值时,判断当前视频为热门视频,从而能够准确、实时的预测、发现热门视频,弥补了首页人工挖掘的不足,提高了网站对热点视频的运营能力,极大节约了运营成本;
通过消息处理模块发送热门视频的文字信息、或文字信息和相应的链接等至预设网站编辑,和/或添加至预设视频搜索索引,提高了网站编辑、视频搜索索引对热门事件视频的抓取实时性以及精准度,提高了热门视频搜索结果的时效性,从而更好的满足了用户需求。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介 质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且 还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种热门视频挖掘方法和一种热门视频挖掘装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种热门视频挖掘方法,其特征在于,包括以下步骤:
将在预设时间内从多个传感器上抓取的至少一个视频的文字信息和当前视频的文字信息,分别存储至相应传感器对应的消息队列;所述多个传感器根据待挖掘热门视频的类型选取,所述多个传感器与多个消息队列一一对应;
根据所述当前视频的文字信息和其他所述消息队列的所述视频的文字信息确定所述当前视频的热度指数;
当所述当前视频的热度指数大于预设热度阈值时,判断所述当前视频为热门视频。
2.根据权利要求1所述的热门视频挖掘方法,其特征在于,所述根据所述当前视频的文字信息和其他所述消息队列的所述视频的文字信息确定所述当前视频的热度指数包括以下步骤:
分别计算所述当前视频的文字信息与其他所述消息队列中每个所述视频的文字信息的相似度;
根据所述相似度和预设相似度阈值判断所述当前视频与其他所述消息队列中对应的所述视频是否相似,并当所述相似度大于所述预设相似度阈值时,判断所述当前视频与其他所述消息队列中对应的所述视频相似;
统计存在与所述当前视频相似视频的其他所述消息队列个数;
将所述个数加一的结果作为所述当前视频的热度指数。
3.根据权利要求2所述的热门视频挖掘方法,其特征在于,在所述分别计算所述当前视频的文字信息与其他所述消息队列中每个所述视频的文字信息的相似度之前,还包括以下步骤:
分别对所述当前视频的文字信息和其他所述消息队列中每个所述视频的文字信息进行分词处理和实体识别处理,以获得所述当前视频的文字信息和其他所述消息队列中每个所述视频的文字信息对应的实体集合和关键词集合。
4.根据权利要求3所述的热门视频挖掘方法,其特征在于,所述分别计算所述当前视频的文字信息与其他所述消息队列中每个所述视频的文字信息的相似度,具体包括以下步骤:
根据所述当前视频的文字信息和其他所述消息队列中每个所述视频的文字信息对应的所述实体集合和所述关键词集合构成相应视频的文字信息的文本分词向量;
通过余弦公式分别计算所述当前视频的文字信息的文本分词向量与其他所述消息队列中每个所述视频的文字信息的文本分词向量之间的相似度。
5.根据权利要求1所述的热门视频挖掘方法,其特征在于,在所述判断所述当前视频为热门视频之后,还包括以下步骤:
将所述当前视频的文字信息发送至预设网站编辑,和/或添加至预设视频搜索索引。
6.一种热门视频挖掘装置,其特征在于,包括:
多个传感器,所述多个传感器根据待挖掘热门视频的类型选取;
监视器,所述监视器包括:
多个消息队列,所述多个消息队列与所述多个传感器一一对应;
消息处理模块,所述消息处理模块将在预设时间内从多个传感器上抓取的至少一个视频的文字信息和当前视频的文字信息,分别存储至相应传感器对应的消息队列,并根据所述当前视频的文字信息和其他所述消息队列的所述视频的文字信息确定所述当前视频的热度指数,以及当所述当前视频的热度指数大于预设热度阈值时,判断所述当前视频为热门视频。
7.根据权利要求6所述的热门视频挖掘装置,其特征在于,所述消息处理模块包括:
相似度计算单元,分别计算所述当前视频的文字信息与其他所述消息队列中每个所述视频的文字信息的相似度;
判断单元,根据所述相似度和预设相似度阈值判断所述当前视频与其他所述消息队列中对应的所述视频是否相似,并当所述相似度大于所述预设相似度阈值时,判断所述当前视频与其他所述消息队列中对应的所述视频相似;
统计单元,统计存在与所述当前视频相似视频的其他所述消息队列个数;
热度指数确定单元,将所述个数加一的结果作为所述当前视频的热度指数。
8.根据权利要求7所述的热门视频挖掘装置,其特征在于,所述消息处理模块还包括:
处理单元,在所述相似度计算单元分别计算所述当前视频的文字信息与其他所述消息队列中每个所述视频的文字信息的相似度之前,所述处理单元分别对所述当前视频的文字信息和其他所述消息队列中每个所述视频的文字信息进行分词处理和实体识别处理,以获得所述当前视频的文字信息和其他所述消息队列中每个所述视频的文字信息对应的实体集合和关键词集合。
9.根据权利要求8所述的热门视频挖掘装置,其特征在于,所述相似度计算单元具体用于:
根据所述当前视频的文字信息和其他所述消息队列中每个所述视频的文字信息对应的所述实体集合和所述关键词集合构成相应视频的文字信息的文本分词向量;
通过余弦公式分别计算所述当前视频的文字信息的文本分词向量与其他所述消息队列中每个所述视频的文字信息的文本分词向量之间的相似度。
10.根据权利要求6所述的热门视频挖掘装置,其特征在于,在判断所述当前视频为热门视频之后,所述消息处理模块将所述当前视频的文字信息发送至预设网站编辑,和/或添加至预设视频搜索索引。
CN201510378049.5A 2015-06-30 2015-06-30 一种热门视频挖掘方法和装置 Active CN105022801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510378049.5A CN105022801B (zh) 2015-06-30 2015-06-30 一种热门视频挖掘方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510378049.5A CN105022801B (zh) 2015-06-30 2015-06-30 一种热门视频挖掘方法和装置

Publications (2)

Publication Number Publication Date
CN105022801A true CN105022801A (zh) 2015-11-04
CN105022801B CN105022801B (zh) 2018-06-22

Family

ID=54412771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510378049.5A Active CN105022801B (zh) 2015-06-30 2015-06-30 一种热门视频挖掘方法和装置

Country Status (1)

Country Link
CN (1) CN105022801B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105554465A (zh) * 2015-12-30 2016-05-04 芜湖乐锐思信息咨询有限公司 基于互联网的远程信息多视角建模系统
CN106202293A (zh) * 2016-06-30 2016-12-07 北京奇艺世纪科技有限公司 一种突发事件语料库的更新方法及装置
WO2017156793A1 (zh) * 2016-03-15 2017-09-21 深圳市至壹科技开发有限公司 基于地理位置的视频处理方法
CN108881968A (zh) * 2017-05-15 2018-11-23 北京国双科技有限公司 一种网络视频广告投放方法和系统
CN109151498A (zh) * 2018-09-03 2019-01-04 北京达佳互联信息技术有限公司 热点事件处理方法、装置、服务器及存储介质
CN110210904A (zh) * 2019-05-31 2019-09-06 深圳市云歌人工智能技术有限公司 基于信息发布的奖励方法、装置及存储介质
CN111177462A (zh) * 2020-01-03 2020-05-19 百度在线网络技术(北京)有限公司 视频分发时效的确定方法和装置
WO2020143156A1 (zh) * 2019-01-11 2020-07-16 平安科技(深圳)有限公司 热点视频标注处理方法、装置、计算机设备及存储介质
CN112507167A (zh) * 2020-12-10 2021-03-16 北京达佳互联信息技术有限公司 一种识别视频合集的方法、装置、电子设备及存储介质
CN115052196A (zh) * 2022-05-23 2022-09-13 北京达佳互联信息技术有限公司 一种视频处理方法及相关设备
CN115348459A (zh) * 2022-08-16 2022-11-15 支付宝(杭州)信息技术有限公司 短视频处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8175980B2 (en) * 2009-06-12 2012-05-08 National Taiwan University Of Science And Technology Hot video prediction system based on user interests social network
CN102629265A (zh) * 2012-03-06 2012-08-08 奇智软件(北京)有限公司 一种建立网页数据库的方法及系统
CN103136280A (zh) * 2011-12-02 2013-06-05 盛乐信息技术(上海)有限公司 热点视频自动挖掘系统及方法
CN103577593A (zh) * 2013-11-14 2014-02-12 中国科学院声学研究所 一种基于微博热门话题的视频聚合方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8175980B2 (en) * 2009-06-12 2012-05-08 National Taiwan University Of Science And Technology Hot video prediction system based on user interests social network
CN103136280A (zh) * 2011-12-02 2013-06-05 盛乐信息技术(上海)有限公司 热点视频自动挖掘系统及方法
CN102629265A (zh) * 2012-03-06 2012-08-08 奇智软件(北京)有限公司 一种建立网页数据库的方法及系统
CN103577593A (zh) * 2013-11-14 2014-02-12 中国科学院声学研究所 一种基于微博热门话题的视频聚合方法及系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105554465A (zh) * 2015-12-30 2016-05-04 芜湖乐锐思信息咨询有限公司 基于互联网的远程信息多视角建模系统
WO2017156793A1 (zh) * 2016-03-15 2017-09-21 深圳市至壹科技开发有限公司 基于地理位置的视频处理方法
CN106202293B (zh) * 2016-06-30 2019-05-10 北京奇艺世纪科技有限公司 一种突发事件语料库的更新方法及装置
CN106202293A (zh) * 2016-06-30 2016-12-07 北京奇艺世纪科技有限公司 一种突发事件语料库的更新方法及装置
CN108881968B (zh) * 2017-05-15 2020-10-30 北京国双科技有限公司 一种网络视频广告投放方法和系统
CN108881968A (zh) * 2017-05-15 2018-11-23 北京国双科技有限公司 一种网络视频广告投放方法和系统
CN109151498A (zh) * 2018-09-03 2019-01-04 北京达佳互联信息技术有限公司 热点事件处理方法、装置、服务器及存储介质
WO2020143156A1 (zh) * 2019-01-11 2020-07-16 平安科技(深圳)有限公司 热点视频标注处理方法、装置、计算机设备及存储介质
CN110210904A (zh) * 2019-05-31 2019-09-06 深圳市云歌人工智能技术有限公司 基于信息发布的奖励方法、装置及存储介质
CN111177462A (zh) * 2020-01-03 2020-05-19 百度在线网络技术(北京)有限公司 视频分发时效的确定方法和装置
CN111177462B (zh) * 2020-01-03 2023-05-30 百度在线网络技术(北京)有限公司 视频分发时效的确定方法和装置
CN112507167A (zh) * 2020-12-10 2021-03-16 北京达佳互联信息技术有限公司 一种识别视频合集的方法、装置、电子设备及存储介质
CN115052196A (zh) * 2022-05-23 2022-09-13 北京达佳互联信息技术有限公司 一种视频处理方法及相关设备
CN115348459A (zh) * 2022-08-16 2022-11-15 支付宝(杭州)信息技术有限公司 短视频处理方法及装置

Also Published As

Publication number Publication date
CN105022801B (zh) 2018-06-22

Similar Documents

Publication Publication Date Title
CN105022801A (zh) 一种热门视频挖掘方法和装置
US10140368B2 (en) Method and apparatus for generating a recommendation page
CN108804532B (zh) 一种查询意图的挖掘和查询意图的识别方法、装置
CN107609152B (zh) 用于扩展查询式的方法和装置
CN109564571B (zh) 利用搜索上下文的查询推荐方法及系统
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
US20180060419A1 (en) Generating Prompting Keyword and Establishing Index Relationship
CN103491205A (zh) 一种基于视频搜索的关联资源地址的推送方法和装置
CN104063383A (zh) 信息推荐方法及装置
CN103020295B (zh) 一种问题标签标注方法及装置
CN101350013A (zh) 一种地理信息的搜索方法和系统
CN102193999A (zh) 一种对搜索结果进行排序的方法及设备
CN105159930A (zh) 搜索关键词的推送方法和装置
CN103455524A (zh) 展现和获取词条信息的方法和装置
CN103902535A (zh) 获取联想词的方法、装置及系统
CN115168433A (zh) 生成上下文搜索呈现
CN104978368A (zh) 一种用于提供推荐信息的方法和装置
CN106294564A (zh) 一种视频推荐方法及装置
CN104199969A (zh) 网页数据分析方法及装置
CN103530416A (zh) 项目数据预测评分库的生成、项目数据的推送方法和系统
CN104915860A (zh) 一种商品推荐方法及装置
CN104317891A (zh) 一种对页面标注标签的方法及装置
CN104503988A (zh) 搜索方法及装置
CN103838862A (zh) 一种视频搜索的方法、装置及终端
CN105468790A (zh) 一种评论信息检索方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant