CN103577593B - 一种基于微博热门话题的视频聚合方法及系统 - Google Patents
一种基于微博热门话题的视频聚合方法及系统 Download PDFInfo
- Publication number
- CN103577593B CN103577593B CN201310566249.4A CN201310566249A CN103577593B CN 103577593 B CN103577593 B CN 103577593B CN 201310566249 A CN201310566249 A CN 201310566249A CN 103577593 B CN103577593 B CN 103577593B
- Authority
- CN
- China
- Prior art keywords
- video
- microblogging
- metadata
- module
- aggregation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/74—Browsing; Visualisation therefor
- G06F16/743—Browsing; Visualisation therefor a collection of video files or sequences
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于微博热门话题的视频聚合方法及系统,该方法包括以下步骤:从互联网抓取视频元数据并保存在数据库中;根据视频元数据形成视频特征词库,并从各大微博平台抓取最新微博,针对每条微博提取出多个特征词代表该条微博,根据视频特征词库计算出该条微博的视频特征权值,筛选出视频特征权值超过设定阈值的微博,并对这些微博进行聚类,提取热门话题;根据热门话题及视频元数据对视频进行匹配筛选;将筛选出的视频进行排列聚合,并呈现。该系统包括内容采集模块、热点分析模块、视频聚合模块、内容服务模块和视频聚合门户。本发明结合了网络当前最新热门话题及现有视频资源提取出热点词,最终聚合呈现的视频更具时效性及吸引力。
Description
技术领域
本发明涉及互联网视频聚合领域,特别涉及一种基于微博热门话题的视频聚合方法及系统。
背景技术
近年来网络视频数量呈爆炸性的增长,各视频网站之间的竞争越加激烈,视频聚合门户随之诞生。视频聚合门户能将用户所喜爱的分布在不同视频网站的视频聚合起来,使得用户可以进行一站式观看。但是现有的视频聚合门户推荐给用户的热点视频多基于自身网站数据中的用户观看评论数量,热点视频推荐不够准确,无法吸引用户;同时需要等待用户观看信息的反馈,推荐不具时效性;而且此种热点话题均只有单个视频,用户选择余地太小。
微博是近几年兴起的基于用户关系信息分享、传播以及获取平台,在广大网络用户尤其是年轻的网络用户中非常流行。很多微博用户都会第一时间将自己所关心的事物和话题在微博上进行分享,故此其内容非常具有时效性。因而,微博的热点话题可以很好的作为当前网络热门话题动态的一个代表。故我们对一定数量的实时微博进行分析,以取得当前的微博热门话题来代表当前的网络热门话题。根据网络热门话题来聚合视频,用户可以获得更新更热门的视频。但是经过实际测试发现,先从微薄分析热点,再搜索视频时,分析得到的一些热点并没有相关的热点,无法进行视频聚合。
发明内容
本发明的目的在于,为用户提供与网络最新热点相关的一系列视频,热点具有针对性,视频聚合门户呈现的视频更具时效性及吸引力,同时使得用户能更加全面的了解所关注的热点。
为实现上述目的,一方面,本发明提供了一种基于微博热门话题的视频聚合方法,该方法包括以下步骤:
从互联网抓取视频元数据并保存在数据库中;根据视频元数据形成视频特征词库,并从各大微博平台抓取最新微博,针对每条微博提取出多个特征词代表该条微博,根据视频特征词库计算出该条微博的视频特征权值,筛选出视频特征权值超过设定阈值的微博,并对这些微博进行聚类,提取热门话题;根据所述热门话题及视频元数据对视频进行匹配筛选;将筛选出的视频进行排列聚合,并呈现。
另一方面,本发明提供了一种基于微博热门话题的视频聚合系统,该系统包括内容采集模块、热点分析模块、视频聚合模块、内容服务模块和视频聚合门户:
内容采集模块用于从互联网抓取视频元数据,并保存在数据库中;
热点分析模块根据视频元数据形成视频特征词库,并从各大微博平台抓取最新微博,针对每条微博提取出多个特征词代表该条微博,根据视频特征词库计算出该条微博的视频特征权值,筛选出视频特征权值超过设定阈值的微博,并对这些微博进行聚类,提取热门话题;
视频聚合模块根据热门话题及视频元数据对视频进行匹配筛选;
内容服务模块将视频聚合模块筛选出的视频进行排列聚合,并呈现在视频聚合门户上。
本发明的优点在于:首先,视频门户上聚合呈现的视频相对现有视频门户呈现的热点视频更具时效性,微博平台的特点使得当前的大量微博总能代表当前的最新热门话题,通过微博提取出热点词对视频进行聚合呈现,更具时效性。其次,视频聚合的主题更具针对性,根据视频特征词库筛选后得到的微博基本都与现有视频资源相关,聚类得到的热门话题不会超出现有视频资源的范围,聚合主题更具针对性
附图说明
图1为本发明实施例提供的一种基于微博热门话题的视频聚合系统架构示意图;
图2为图1所示系统中热点分析模块提取热门话题的方法流程图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1为本发明实施例提供的一种基于微博热门话题的视频聚合系统架构示意图。如图1所示,该系统包括:内容采集模块11、热点分析模块12、视频聚合模块13、内容服务模块14和视频聚合门户15。
内容采集模块11用于从互联网抓取视频元数据并保存在数据库中;
热点分析模块12用于根据内容采集模块11抓取的视频元数据形成视频特征词库,并从各大微博平台抓取最新微博,针对每条微博提取出多个特征词代表该条微博,根据视频特征词库计算出该条微博的视频特征权值,筛选出视频特征权值超过设定阈值的微博,并对这些微博进行聚类,提取热门话题;
视频聚合模块13根据所述热门话题及视频元数据对视频进行匹配筛选;
内容服务模块14将视频聚合模块筛选出的视频进行排列聚合,并呈现在视频聚合门户15上。
如图1所示,该系统的执行步骤包括步骤101-105:
在步骤101,内容采集模块11采集视频元数据,交由热点分析模块12形成视频特征词库。
在步骤102、热点分析模块12从各大微博平台抓取大量最新微博,根据视频特征词库筛选微博,并对筛选出的微博进行聚类,得到热门话题聚类;
在步骤103、视频聚合模块13选出包含微博数量最多的若干个聚类,每个聚类即为一个热门话题,计算数据库中各视频描述信息与各个热门话题聚类的相似度,每个话题选择若干个相似度超过一定阈值的视频,通知内容采集模块11根据视频元信息抓取视频。
在步骤104、内容采集模块11将采集到的视频提交给内容服务模块14。
在步骤105、内容服务模块14将视频聚合,并呈现在视频聚合门户15上。
图2为图1所示系统中热点分析模块提取热门话题的方法流程图。如图2所示,该方法包括步骤201-210:
在步骤201、热点分析模块12向内容采集模块11中的数据库请求视频描述信息、所述视频描述信息包括视频元数据;
在步骤202、热点分析模块12在获取到视频描述信息后,将各视频描述信息进行分词去停用词后计算各视频描述中各特征词的文本特征项权值。取各视频描述中权值最大的N个特征词及其权值,组成视频特征词库,如果某一视频描述的特征词不足N个,则取其中所有的特征词及其权值:
如果某一特征词只出现在单个视频描述的权值最大的N个特征词中,则其在词库中的权值即为该特征词在视频特征词库中的权值;
如果某一特征词同时存在于两个或多个视频描述的权值最大的N个特征词中,则其在词库中的权值为其在这些视频描述中的权值的和;
在步骤203、热点分析模块12从各大微博平台抓取大量最新微博;
在步骤204、针对每条微博,去噪分词去停用词后提取出文本特征项权值最大的M个特征词代表该微博,如果某微博的特征词不足M个,则取其所有的特征词;
在步骤205、根据视频特征词库计算出各条微博的视频特征权值:
微博的视频特征权值为,选出的M个特征词在视频特征词库中对应权值的和;
如果选出的微博特征词在视频特征词库中不存在,则其对应的权值为零;
在步骤206、如果该条微博的视频特征权值小于所设定的阈值,跳转步骤207),如果该条微博的视频特征权值大于所设定的阈值,跳转步骤208);
在步骤207、丢弃视频特征权值小于所设定的阈值的微博;
在步骤208、保留视频特征权值大于所设定的阈值的微博,存入微博库;
在步骤209、对微博库中的微博进行聚类;
在步骤210、选出包含微博数量最多的若干个聚类,即为热门话题聚类。
通过计算各视频描述信息与各热门话题聚类的文本相似度,每个话题下可选择相似度最高的且超过设定阈值的若干个视频,即可实现基于热门话题的视频聚合。
本发明实施例使得当前的大量微博总能代表当前的最新热门话题,通过微博提取出热点词对视频进行聚合呈现,更具时效性。其次,视频聚合的主题更具针对性,根据视频特征词库筛选后得到的微博基本都与现有视频资源相关,聚类得到的热门话题不会超出现有视频资源的范围,聚合主题更具针对性。
显而易见,在不偏离本发明的真实精神和范围的前提下,在此描述的本发明可以有许多变化。因此,所有对于本领域技术人员来说显而易见的改变,都应包括在本权利要求书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。
Claims (6)
1.一种基于微博热门话题的视频聚合方法,其特征在于,该方法包括以下步骤:
从互联网抓取视频元数据并保存在数据库中;
根据所述视频元数据形成视频特征词库,并从各大微博平台抓取最新微博,针对每条微博提取出多个特征词代表该条微博,根据所述视频特征词库计算出该条微博的视频特征权值,筛选出视频特征权值超过设定阈值的微博,并对这些微博进行分类,提取热门话题;
根据所述热门话题及视频元数据对视频进行匹配筛选;
将筛选出的视频进行排列聚合,并呈现;
所述根据所述视频元数据形成视频特征词库步骤包括:
从所述数据库中获取视频描述信息,所述的视频描述信息包括视频元数据;
根据各视频描述信息计算各视频描述中各特征词的文本特征权值,提取各视频描述中特征权值最大的多个特征词及权值,组成视频特征词库。
2.根据权利要求1所述的方法,其特征在于,所述根据所述热门话题及视频元数据对视频进行匹配筛选步骤包括:
选出包含微博数量最多的若干个聚类,每个聚类为一个热门话题;
计算所述数据库中各视频元数据与各个热门话题聚类的相似度,每个热门话题选择若干个相似度超过一定阈值的视频。
3.根据权利要求1所述的方法,其特征在于:所述将筛选出的视频进行排列聚合,并呈现的步骤包括:
将筛选出的视频按相似度进行排列聚合,并呈现在视频聚合门户上。
4.一种基于微博热门话题的视频聚合系统,其特征在于,该系统包括内容采集模块、热点分析模块、视频聚合模块、内容服务模块和视频聚合门户:
所述内容采集模块从互联网抓取视频元数据并保存在数据库中;
所述热点分析模块根据所述视频元数据形成视频特征词库,并从各大微博平台抓取最新微博,针对每条微博提取出多个特征词代表该条微博,根据所述视频特征词库计算出该条微博的视频特征权值,筛选出视频特征权值超过设定阈值的微博,并对这些微博进行聚类,提取热门话题;
所述视频聚合模块根据所述热门话题及视频元数据对视频进行匹配筛选;
所述内容服务模块将上述视频聚合模块筛选出的视频进行排列聚合,并呈现在视频聚合门户上;
所述内容采集模块具体用于:
从所述数据库中获取视频描述信息,所述的视频描述信息包括视频元数据;
根据各视频描述信息计算各视频描述中各特征词的文本特征权值,提取各视频描述中特征权值最大的多个特征词及权值,组成视频特征词库。
5.根据权利要求4所述的系统,其特征在于,所述热点分析模块具体用于:
选出包含微博数量最多的若干个聚类,每个聚类为一个热门话题;
计算所述数据库中各视频元数据与各个热门话题聚类的相似度,每个热门话题选择若干相似度超过一定阈值的视频。
6.根据权利要求4所述的系统,其特征在于:所述内容服务模块具体用于:
将筛选出的视频按相似度进行排列聚合,并呈现在视频聚合门户上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310566249.4A CN103577593B (zh) | 2013-11-14 | 2013-11-14 | 一种基于微博热门话题的视频聚合方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310566249.4A CN103577593B (zh) | 2013-11-14 | 2013-11-14 | 一种基于微博热门话题的视频聚合方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103577593A CN103577593A (zh) | 2014-02-12 |
CN103577593B true CN103577593B (zh) | 2017-07-07 |
Family
ID=50049369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310566249.4A Expired - Fee Related CN103577593B (zh) | 2013-11-14 | 2013-11-14 | 一种基于微博热门话题的视频聚合方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103577593B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021140B (zh) * | 2014-05-08 | 2018-01-26 | 北京奇艺世纪科技有限公司 | 一种网络视频的处理方法及装置 |
CN104915447B (zh) * | 2015-06-30 | 2018-04-20 | 北京奇艺世纪科技有限公司 | 一种热点话题追踪及关键词确定方法及装置 |
CN105022801B (zh) * | 2015-06-30 | 2018-06-22 | 北京奇艺世纪科技有限公司 | 一种热门视频挖掘方法和装置 |
CN106470349A (zh) * | 2015-08-21 | 2017-03-01 | 中国科学院声学研究所 | 一种智能电视中html5视频的提取和操控优化方法 |
CN105898425A (zh) * | 2015-12-14 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 视频推荐方法、系统及服务器 |
TWI602430B (zh) * | 2016-08-08 | 2017-10-11 | Chunghwa Telecom Co Ltd | Multimedia content classification system and method |
CN106777157B (zh) * | 2016-12-20 | 2023-04-07 | 西南石油大学 | 一种基于主题的类引力模型微博预测方法与系统 |
CN107122478B (zh) * | 2017-05-03 | 2020-05-08 | 成都云数未来信息科学有限公司 | 一种基于关键词提取热点话题的方法 |
CN108932252A (zh) * | 2017-05-25 | 2018-12-04 | 合网络技术(北京)有限公司 | 视频聚合方法及装置 |
CN110309397A (zh) * | 2018-03-19 | 2019-10-08 | 北京数码视讯软件技术发展有限公司 | 视频筛选方法及系统 |
CN109151498B (zh) * | 2018-09-03 | 2021-02-09 | 北京达佳互联信息技术有限公司 | 热点事件处理方法、装置、服务器及存储介质 |
CN110162678B (zh) * | 2019-05-27 | 2022-04-15 | 朱志文 | 一种基于区块链的媒体号聚合管理方法、系统及存储介质 |
CN112256938B (zh) * | 2020-12-23 | 2021-03-19 | 畅捷通信息技术股份有限公司 | 一种消息元数据的处理方法、装置、介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101174273A (zh) * | 2007-12-04 | 2008-05-07 | 清华大学 | 基于元数据分析的新闻事件检测方法 |
CN101419614A (zh) * | 2008-12-03 | 2009-04-29 | 深圳市迅雷网络技术有限公司 | 视频资源聚类方法和装置 |
CN202444579U (zh) * | 2011-10-25 | 2012-09-19 | 上海金陵时威科技发展股份有限公司 | 一种面向电视终端的互联网内容聚合、呈现及操控装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7747083B2 (en) * | 2006-03-27 | 2010-06-29 | Yahoo! Inc. | System and method for good nearest neighbor clustering of text |
-
2013
- 2013-11-14 CN CN201310566249.4A patent/CN103577593B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101174273A (zh) * | 2007-12-04 | 2008-05-07 | 清华大学 | 基于元数据分析的新闻事件检测方法 |
CN101419614A (zh) * | 2008-12-03 | 2009-04-29 | 深圳市迅雷网络技术有限公司 | 视频资源聚类方法和装置 |
CN202444579U (zh) * | 2011-10-25 | 2012-09-19 | 上海金陵时威科技发展股份有限公司 | 一种面向电视终端的互联网内容聚合、呈现及操控装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103577593A (zh) | 2014-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103577593B (zh) | 一种基于微博热门话题的视频聚合方法及系统 | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN105183731B (zh) | 推荐信息生成方法、装置及系统 | |
CN104615775B (zh) | 一种用户推荐方法及装置 | |
Rakesh et al. | Personalized recommendation of twitter lists using content and network information | |
CN105723402A (zh) | 用于确定社交数据网络中的影响者的系统和方法 | |
US20150205580A1 (en) | Method and System for Sorting Online Videos of a Search | |
KR102087824B1 (ko) | 취향 분석 알고리즘을 이용한 와인추천 방법 | |
KR101541495B1 (ko) | 캡쳐된 이미지를 이용한 동영상 분석 장치, 방법 및 컴퓨터 판독 가능한 기록 매체 | |
KR101925950B1 (ko) | 컨텐츠에 대한 유입검색어 및 연관검색어 기반의 컨텐츠 추천방법 및 추천장치 | |
CN104572733B (zh) | 用户兴趣标签分类的方法及装置 | |
US9111231B2 (en) | Associating a web session with a household member | |
CN108629010A (zh) | 一种基于主题和服务组合信息的web服务推荐方法 | |
CN104615627A (zh) | 一种基于微博平台的事件舆情信息提取方法及系统 | |
US20130108180A1 (en) | Information processing device, information processing method, and program | |
KR101780237B1 (ko) | 온라인 상에 공개된 질의응답 데이터를 기초로 한 사용자 질의에 대한 응답 방법 및 장치 | |
US9544384B2 (en) | Method and system for pushing associated users in social networking service network | |
KR101976056B1 (ko) | 추천 시스템 및 추천 방법 | |
Samangooei et al. | Social event detection via sparse multi-modal feature selection and incremental density based clustering | |
Nasery et al. | Polimovie: a feature-based dataset for recommender systems | |
KR101621735B1 (ko) | 추천 검색어 제공 방법 및 시스템 | |
CN106951459B (zh) | 基于熵值法的改进协同过滤推荐方法 | |
Vandersmissen et al. | The rise of mobile and social short-form video: an in-depth measurement study of vine | |
KR101573449B1 (ko) | 모바일 애플리케이션 기회 맵 생성 방법 및 장치 | |
CN103514237B (zh) | 一种获取用户和文档个性化特征的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170707 Termination date: 20201114 |
|
CF01 | Termination of patent right due to non-payment of annual fee |