CN104462613B - 热点聚合方法及装置 - Google Patents
热点聚合方法及装置 Download PDFInfo
- Publication number
- CN104462613B CN104462613B CN201510007096.9A CN201510007096A CN104462613B CN 104462613 B CN104462613 B CN 104462613B CN 201510007096 A CN201510007096 A CN 201510007096A CN 104462613 B CN104462613 B CN 104462613B
- Authority
- CN
- China
- Prior art keywords
- hot spot
- phrase
- internet resources
- matching
- matching result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000006116 polymerization reaction Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000012986 modification Methods 0.000 claims description 14
- 230000004048 modification Effects 0.000 claims description 14
- 230000003203 everyday effect Effects 0.000 claims description 9
- 238000007619 statistical method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 4
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 230000005055 memory storage Effects 0.000 claims 1
- 238000001914 filtration Methods 0.000 description 19
- 238000012423 maintenance Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 206010028916 Neologism Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种热点聚合方法及装置。该方法包括:抓取互联网上的网络资源;采用最长公共子序列LCS算法对网络资源进行匹配,获取匹配结果;根据匹配结果生成热点词组。借助于本发明的技术方案,能够降低运维成本和热点聚合计算的复杂度,提高了热点聚合的速度,能够实时采集,实时计算,快速发现热点事件,基本没有滞后。
Description
本发明专利申请是申请日为2012年06月20日、申请号为201210210038.2、名称为“热点聚合方法及装置”的中国发明专利申请的分案申请。
技术领域
本发明涉及计算机技术领域,特别是涉及一种热点聚合方法及装置。
背景技术
在现有技术中,热点聚合方法可以应用在电子布告栏系统(Bulletin BoardSystem,简称为BBS)和博客(BLOG)上,也可以应用在网页、新闻、以及微博等数据上。
目前,各搜索引擎都会提供热榜之类的产品,例如,百度的搜索风云榜,搜搜的热榜等,在现有技术中,热点聚合的实现方法基本有两种:
方法1,利用用户的查询日志,按周期进行统计,对查询串进行分词,提取关键词,根据查询次数排序得到热词榜。
方法2,对网页标题或内容进行中心词的抽取,按中心词进行聚合,计算出热点事件。
方法1是基于统计进行热点事件计算的,因而会有一定的滞后性,不能及时发现热点事件。此外,上述两种方法都基于分词技术,而分词是基于词典的,而利用分词技术本身就会对新词的发现有一定的滞后性,从而会导致一些新的热词及热门事件不能及时发现,此外,上述两种方法的效果太过依赖于分词技术,需要进行词典维护,还具有一定的运维成本。
发明内容
本发明提供一种热点聚合方法及装置,以解决现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题。
本发明提供一种热点聚合方法,包括:抓取互联网上的网络资源;采用最长公共子序列(Longest Common Subsequence,简称为LCS)算法对网络资源进行匹配,获取匹配结果;根据匹配结果生成热点词组。
优选地,根据匹配结果生成热点词组具体包括:设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数;获取所涉及网络资源的个数大于最少个数的匹配结果,并根据该匹配结果生成热点词组。
优选地,抓取互联网上的网络资源具体包括:从分布式文件系统中获取以预定时间周期分割后的网络资源。
优选地,抓取互联网上的网络资源之后,上述方法还包括:对网络资源进行过滤。
优选地,对网络资源进行过滤的处理具体包括以下至少之一:根据预先配置的域名列表,滤除非重点域名的网络资源;根据预先配置的网络白名单,保留与网络白名单相应的网络资源;根据网页的浏览数对网络资源进行过滤;根据网页的发布日期对网络资源进行过滤;根据新闻、博客、或者帖子的回复数对网络资源进行过滤;对网络资源的标题中的无用信息进行过滤;对网络资源中的常用词进行过滤。
优选地,根据匹配结果生成热点词组之后,上述方法还包括:获取与各个热点词组相关的网络资源的标识,并将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行聚合存储。
优选地,采用LCS算法对网络资源进行匹配,获取匹配结果具体包括:通过LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算矩阵中对角线最长的匹配序列,根据匹配序列在矩阵中的位置,获取最长匹配子串的位置;
优选地,根据匹配结果生成热点词组具体包括:根据最长匹配子串的位置生成热点词组。
优选地,根据匹配结果生成热点词组之后,上述方法还包括:采用LCS算法对热点词组再次进行匹配,生成关键词组;将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行存储具体包括:将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储。
优选地,在将热点组进行存储之后,上述方法还包括:对存储的热点组中的热点数据进行统计分析、展现、和/或查询。
本发明还提供了一种热点聚合装置,包括:网络抓取模块,用于抓取互联网上的网络资源;匹配模块,用于采用最长公共子序列LCS算法对网络资源进行匹配,获取匹配结果;生成模块,用于根据匹配结果生成热点词组。
优选地,生成模块具体用于:设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数;获取所涉及网络资源的个数大于最少个数的匹配结果,并根据该匹配结果生成热点词组。
优选地,获取模块具体用于:从分布式文件系统中获取以预定时间周期分割后的网络资源。
优选地,上述装置还包括:过滤模块,用于在网络抓取模块抓取互联网上的网络资源之后,对网络资源进行过滤。
优选地,过滤模块具体包括以下至少之一:域名过滤子模块,用于根据预先配置的域名列表,滤除非重点域名的网络资源;白名单过滤子模块,用于根据预先配置的网络白名单,保留与网络白名单相应的网络资源;浏览数过滤子模块,用于根据网页的浏览数对网络资源进行过滤;发布日期过滤子模块,用于根据网页的发布日期对网络资源进行过滤;回复数过滤子模块,用于根据新闻、博客、或者帖子的回复数对网络资源进行过滤;标题过滤子模块,用于对网络资源的标题中的无用信息进行过滤;常用词过滤子模块,用于对网络资源中的常用词进行过滤。
优选地,上述装置还包括:存储模块,用于获取与各个热点词组相关的网络资源的标识,将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行存储。
优选地,匹配模块具体用于:通过LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算矩阵中对角线最长的匹配序列,根据匹配序列在矩阵中的位置,获取最长匹配子串的位置;生成模块具体用于:根据最长匹配子串的位置生成热点词组。
优选地,匹配模块还用于:采用LCS算法对热点词组再次进行匹配,生成关键词组;存储模块具体用于:将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储。
优选地,上述装置还包括:统计分析模块,用于对存储的热点组中的热点数据进行统计分析、展现、和/或查询。
本发明有益效果如下:
通过利用LCS算法对网络资源进行热点聚合,解决了现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题,能够降低运维成本和热点聚合计算的复杂度,提高了热点聚合的速度,能够实时采集,实时计算,快速发现热点事件,基本没有滞后。
附图说明
图1是本发明实施例的热点聚合方法的流程图;
图2是本发明实施例的热点聚合装置的结构示意图;
图3是本发明实施例的热点聚合装置的详细结构示意图。
具体实施方式
为了解决现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题,本发明提供了一种热点聚合方法及装置,根据本发明实施例的无词典热点聚合方法,通过采用LCS技术对互联网上网页的主题在一定周期内进行聚合,可以快速发现本周期内发生的热点事件。以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
根据本发明的实施例,提供了一种热点聚合方法,图1是本发明实施例的热点聚合方法的流程图,如图1所示,根据本发明实施例的热点聚合方法包括如下处理:
步骤101,抓取互联网上的网络资源;其中,上述网络资源包括:网页、帖子、微博、博客等。
优选地,在实际应用中,需要从文件系统中获取以预定时间周期分割后的网络资源,其中,该文件系统可以为分布式文件系统(moosefs),也可以为普通的文件系统。在步骤101中,可以从moosefs上采集按一定切分周期(即上述预定时间周期)切分好的网络资源。在实际应用中,切分周期可以根据网络资源的种类(或者网络资源更新的速度)的不同进行不同的配置,以控制计算的周期。例如,由于BBS的网络资源更新较快,因此,BBS可以按小时对网络资源进行切分(即切分周期为一小时),由于BLOG的网络资源更新较慢,因此,BLOG可以按天对相关网络资源进行切分(即切分周期为一天24小时)。
此外,在抓取互联网上的网络资源之后,还可以对网络资源进行过滤。
具体地,对网络资源进行过滤的处理具体包括以下至少之一:
1、filter_host过滤域名:根据预先配置的域名列表,滤除非重点域名的网络资源,可以减少垃圾数据;
2、filter_blog_list blog白名单过滤:根据预先配置的网络白名单,保留与网络白名单相应的网络资源,例如,根据博客白名单,保留重点博客的数据;
3、filter_viewcount浏览数过滤:根据网页的浏览数对网络资源进行过滤;例如,根据对网页或帖子的浏览数的多少,过滤出浏览数低于一定门限的网页或帖子,还需要过滤出浏览数高于一定门限的网页或帖子。例如,对浏览数为0或1的过滤掉;对浏览数为10000以上的过滤掉,浏览数为10000以上的大多为抓错或旧帖;
4、filter_replycount回复数过滤:根据新闻、博客、或者帖子的回复数对网络资源进行过滤;例如,如果对某个帖子的回复数大于10000以上的帖子进行过滤,大多为抓错或旧帖;
5、filter_publictime发帖日期过滤:根据网页的发布日期对网络资源进行过滤;例如,将一天前的帖子进行过滤。
6、filter_title过滤掉题目里的版块名称、说明、以及求助等无用前缀信息:即,对网络资源的标题中的无用信息进行过滤;
7、filter_comm_word常用词过滤:对网络资源中的常用词进行过滤,例如,对一些常用的、无意义的词进行过滤。
通过上述网络资源的过滤处理,能够过滤掉网络资源中大部分的干扰网络资源和垃圾网络资源,为下一步匹配打下良好的基础。
步骤102,采用LCS算法对网络资源进行匹配,获取匹配结果;
具体地,在步骤201中,采用LCS算法对网络资源进行匹配,获取匹配结果具体包括如下处理:通过LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算矩阵中对角线最长的匹配序列,根据匹配序列在矩阵中的位置,获取最长匹配子串的位置(即上述匹配结果);
例如,LCS算法使用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若是匹配则为1,否则为0。然后求出对角线最长的1序列,其对应的位置就是最长匹配子串的位置。需要说明的是,LCS是计算两个字符串相似程度的一种方法:LCS计算出的最长匹配子串越长,两个字符串越相似。所以,用它可以对相似主题进行聚集,用来达到发现相同主题的目的。
步骤103,根据匹配结果生成热点词组。
具体地,在步骤103中,根据步骤102中获取的最长匹配子串的位置(即,匹配结果)生成热点词组。
为了能够获取更准确的热点词组,在本发明实施例中,可以设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数,获取所涉及网络资源的个数大于最少个数的匹配结果,并根据该匹配结果生成热点词组。当然,判断是否构成热点词组的维度还有很多,例如,可以按照所涉及的网络资源数量的多少对热点词组进行排序等等。
优选地,在本发明实施例中,根据匹配结果生成热点词组之后,还可以获取与各个热点词组相关的网络资源的标识,并将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行聚合存储。其中,网络资源的标识可以为网络资源的链接、或者网络资源的统一资源定位符(Uniform/Universal Resource Locator,简称为URL)地址。当然,在本发明实施例中,也可以直接对相关的网络资源进行存储。
为了进一步对热点词组进行聚合,在本发明实施例中,优选地,在根据匹配结果生成热点词组之后,可以采用LCS算法对热点词组再次进行匹配,生成关键词组;随后,将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储。
也就是说,将LCS算法计算出的最长匹配子串,做为分组词组,对同一组中的词组再使用LCS算法计算出关键词组,并将关键词组、与关键词组对应的所有热点词组、以及对应网络资源(网站、帖子、博客、以及微博等)的标识归为一个热点,作为一个热点组。
在实际应用中,将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储时,需要存储的关键词组的字段如表1所示,包括:热点组ID、关键词组、状态(用于标识关键词组是否有效)、入库存储时间、修改时间、以及扩展字段。
表1
字段名称 | 类型 | 约束 | 说明 |
group_id | int(11) | 主键 | 热点组id |
keyword | varchar(255) | 关键词组 | |
status | int(4) | 状态 | |
reg_time | datetime | 入库时间 | |
mod_time | timestamp | 修改时间 | |
ext | tinyint(4) | 扩展字段 |
需要存储的热点词组的字段如表2所示,包括:热点组ID、热点词组、入库存储时间、修改时间、以及扩展字段。如表1和表2所示,热点词组和关键词组通过热点组ID这个字段相对应。
表2
字段名称 | 类型 | 约束 | 说明 |
group_id | int(11) | 索引 | 热点组id |
wordstr | varchar(255) | 唯一索引 | 热点词组 |
reg_time | datetime | 入库时间 | |
mod_time | timestamp | 修改时间 | |
ext | tinyint(4) | 扩展字段 |
需要说明的是,在实际应用中,可能由于同一组中的热点词组比较少,不能再聚合出关键词组,因此,在一个热点组中可能出现只有热点词组,没有关键词组的情况。
优选地,执行完上述处理后,可以对存储的热点组中的热点数据进行统计分析、展现、和/或提供查询服务。上述热点数据包括:关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源。
具体地,在实际应用中,还需要记录如表3所示的热点趋势数据,包括:热点组ID、日期、对应帖子数、浏览数、回复数、热度值、BBS帖子质量、BBS帖子质量分数(pr_rank)、入库时间、修改时间、以及扩展字段。根据表3,周期内可以按照热点趋势排序统计热点,例如,按照热度值,相关帖数,浏览数,回复数等进行排序,可以查询热点组内对应词组、帖子,还可以画出热点趋势图、展现周期内热点的变化趋势。
表3
字段名称 | 类型 | 约束 | 说明 |
group_id | int(11) | 索引 | 热点组id |
Date | varchar(255) | 索引 | 日期 |
num | int(11) | 对应帖子数 | |
viewcount | int(11) | 浏览数 | |
replycount | int(11) | 回复数 | |
hot_num | int(11) | 热度值 | |
quality | int(11) | 质量 | |
score | int(11) | pr_rank | |
reg_time | Datetime | 入库时间 | |
mod_time | Timestamp | 修改时间 | |
ext | tinyint(4) | 扩展字段 |
综上所述,根据本发明实施例的无词典的热点聚合方法,首先需要通过LCS进行数据抓取,对讨论的热点话题进行聚合,随后,计算出热点对应的关键词组,优选地,还可以根据关键词组对应的相关帖数、浏览数、回复数、以及讨论数等对热点进行排序。根据本发明实施例的技术方案不采用分词技术,采用LCS算法对主题抽取关键词以及对关键词进行分组聚合,避免了分词带来的一些问题,例如,新词发现的滞后行、以及词典维护运营成本高等,本发明实施例的技术方案能够实时采集、实时计算,并快速地发现热点事件。
需要说明的是,本发明实施例的热点聚合方法可以应用在BBS、以及BLOG热点聚合上,需要基于BBS、以及BLOG进行数据抓取,并对讨论的话题进行聚合,计算出热点对应的关键词组,根据其对应的相关帖数,浏览数,回复数,讨论数等对热点进行排序,可以快速发现热点事件。本发明实施例的技术方案的应用并不只限定于BBS、以及BLOG数据,它同样可以应用在网页、新闻、以及微博等其他网络资源上。
借助于本发明实施例的上述技术方案,通过利用LCS算法对网络资源进行热点聚合,解决了现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题,能够降低运维成本和计算的复杂度,提高了热点聚合的速度,能够实时采集,实时计算,快速发现热点事件,基本没有滞后。
根据本发明的实施例,提供了一种热点聚合装置,图2是本发明实施例的热点聚合装置的结构示意图,如图2所示,根据本发明实施例的热点聚合装置包括:网络抓取模块20、匹配模块22、以及生成模块24,以下对本发明实施例的各个模块进行详细的说明。
网络抓取模块20,用于抓取互联网上的网络资源;其中,上述网络资源包括:网页、帖子、微博、博客等。
优选地,在实际应用中,网络抓取模块20需要从文件系统中获取以预定时间周期分割后的网络资源,其中,该文件系统可以为分布式文件系统(moosefs),也可以为普通的文件系统。网络抓取模块20可以从moosefs上采集按一定切分周期(即上述预定时间周期)切分好的网络资源。在实际应用中,切分周期可以根据网络资源的种类(或者网络资源更新的速度)的不同进行不同的配置,以控制计算的周期。例如,由于BBS的网络资源更新较快,因此,BBS可以按小时对网络资源进行切分(即切分周期为一小时),由于BLOG的网络资源更新较慢,因此,BLOG可以按天对相关网络资源进行切分(即切分周期为一天24小时)。
优选地,上述装置还包括:过滤模块,用于在网络抓取模块20抓取互联网上的网络资源之后,对网络资源进行过滤;具体地,上述过滤模块具体包括以下至少之一:
1、域名过滤子模块,用于过滤域名(filter_host):根据预先配置的域名列表,滤除非重点域名的网络资源,可以减少垃圾数据;
2、白名单过滤子模块,用于进行白名单过滤(filter_blog_list blog):根据预先配置的网络白名单,保留与网络白名单相应的网络资源,例如,根据博客白名单,保留重点博客的数据;
3、浏览数过滤子模块,用于进行浏览数过滤(filter_viewcount):根据网页的浏览数对网络资源进行过滤;例如,根据对网页或帖子的浏览数的多少,过滤出浏览数低于一定门限的网页或帖子,还需要过滤出浏览数高于一定门限的网页或帖子。例如,对浏览数为0或1的过滤掉;对浏览数为10000以上的过滤掉,浏览数为10000以上的大多为抓错或旧帖;
4、回复数过滤子模块,用于进行回复数过滤(filter_replycount):根据新闻、博客、或者帖子的回复数对网络资源进行过滤;例如,如果对某个帖子的回复数大于10000以上的帖子进行过滤,大多为抓错或旧帖;
5、发布日期过滤子模块,用于进行发帖日期过滤(filter_publictime):根据网页的发布日期对网络资源进行过滤;例如,将一天前的帖子进行过滤。
6、标题过滤子模块,用于过滤掉题目里的版块名称、说明、以及求助等无用前缀信息(filter_title):即,对网络资源的标题中的无用信息进行过滤;
7、常用词过滤子模块,用于进行常用词过滤(filter_comm_word):对网络资源中的常用词进行过滤,例如,对一些常用的、无意义的词进行过滤。
通过过滤模块对网络资源的过滤处理,能够过滤掉网络资源中大部分的干扰网络资源和垃圾网络资源,为下一步匹配打下良好的基础。
匹配模块22,用于采用LCS算法对网络资源进行匹配,获取匹配结果;
具体地,匹配模块22采用LCS算法对网络资源进行匹配,获取匹配结果具体包括如下处理:匹配模块22通过LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算矩阵中对角线最长的匹配序列,根据匹配序列在矩阵中的位置,获取最长匹配子串的位置(即上述匹配结果);
例如,LCS算法使用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若是匹配则为1,否则为0。然后求出对角线最长的1序列,其对应的位置就是最长匹配子串的位置。需要说明的是,LCS是计算两个字符串相似程度的一种方法:LCS计算出的最长匹配子串越长,两个字符串越相似。所以,用它可以对相似主题进行聚集,用来达到发现相同主题的目的。
生成模块24,用于根据匹配结果生成热点词组。
具体地,生成模块24根据匹配模块22获取的最长匹配子串的位置(即,匹配结果)生成热点词组。
优选地,为了获取更准确的热点词组,生成模块24具体用于:设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数;获取所涉及网络资源的个数大于所述最少个数的匹配结果,并根据该匹配结果生成热点词组。
优选地,在本发明实施例中,热点聚合装置还包括:
存储模块,用于获取与各个热点词组相关的网络资源的标识,将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行存储。其中,网络资源的标识可以为网络资源的链接、或者网络资源的统一资源定位符(Uniform/Universal ResourceLocator,简称为URL)地址。当然,在本发明实施例中,也可以直接对相关的网络资源进行存储。
为了进一步对热点词组进行聚合,在本发明实施例中,优选地,匹配模块22还用于:在根据匹配结果生成热点词组之后,可以采用LCS算法对热点词组再次进行匹配,生成关键词组;随后,存储模块将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储。
也就是说,匹配模块22将LCS算法计算出的最长匹配子串,做为分组词组,对同一组中的词组再使用LCS算法计算出关键词组,并将关键词组、与关键词组对应的所有热点词组、以及对应网络资源(网站、帖子、博客、以及微博等)的标识归为一个热点,作为一个热点组。
在实际应用中,将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储时,需要存储的关键词组的字段如表1所示,包括:热点组ID、关键词组、状态(用于标识关键词组是否有效)、入库存储时间、修改时间、以及扩展字段。
表1
字段名称 | 类型 | 约束 | 说明 |
group_id | int(11) | 主键 | 热点组id |
keyword | varchar(255) | 关键词组 | |
status | int(4) | 状态 | |
reg_time | datetime | 入库时间 | |
mod_time | timestamp | 修改时间 | |
ext | tinyint(4) | 扩展字段 |
需要存储的热点词组的字段如表2所示,包括:热点组ID、热点词组、入库存储时间、修改时间、以及扩展字段。如表1和表2所示,热点词组和关键词组通过热点组ID这个字段相对应。
表2
字段名称 | 类型 | 约束 | 说明 |
group_id | int(11) | 索引 | 热点组id |
wordstr | varchar(255) | 唯一索引 | 热点词组 |
reg_time | datetime | 入库时间 | |
mod_time | timestamp | 修改时间 | |
ext | tinyint(4) | 扩展字段 |
需要说明的是,在实际应用中,可能由于同一组中的热点词组比较少,不能再聚合出关键词组,因此,在一个热点组中可能出现只有热点词组,没有关键词组的情况。
根据本发明实施例,热点聚合装置还包括:统计分析模块,用于对存储的热点组中的热点数据进行统计分析、展现、和/或查询。
具体地,在执行完上述处理后,统计分析模块可以对存储的热点组中的热点数据进行统计分析、展现、和/或提供查询服务。上述热点数据包括:关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源。
具体地,在实际应用中,还需要记录如表3所示的热点趋势数据,包括:热点组ID、日期、对应帖子数、浏览数、回复数、热度值、BBS帖子质量、BBS帖子质量分数(pr_rank)、入库时间、修改时间、以及扩展字段。根据表3,周期内可以按照热点趋势排序统计热点,例如,按照热度值,相关帖数,浏览数,回复数等进行排序,可以查询热点组内对应词组、帖子,还可以画出热点趋势图、展现周期内热点的变化趋势。
表3
字段名称 | 类型 | 约束 | 说明 |
group_id | int(11) | 索引 | 热点组id |
Date | varchar(255) | 索引 | 日期 |
num | int(11) | 对应帖子数 | |
viewcount | int(11) | 浏览数 | |
replycount | int(11) | 回复数 | |
hot_num | int(11) | 热度值 | |
quality | int(11) | 质量 | |
score | int(11) | pr_rank | |
reg_time | Datetime | 入库时间 | |
mod_time | Timestamp | 修改时间 | |
ext | tinyint(4) | 扩展字段 |
图3是本发明实施例的热点聚合装置的详细结构示意图,如图3所示,根据本发明实施例的无词典的热点聚合装置,首先通过配置将moosefs中的网络资源进行切分(BLOG按照天进行切分,BBS按照小时进行切分),然后对数据进行过滤,通过LCS算法对过滤后的数据进行抓取,对讨论的热点话题进行聚合,计算出热点词组;随后,对热点词组进行分组归并,计算出对应的关键词组,最后,将计算出的热点词组、关键词组、以及热点事件(上述网络资源)存储到数据库(hotding)中;优选地,还可以根据hotding中存储的数据进行统计分析,例如,可以根据关键词组对应的相关帖数、浏览数、回复数、以及讨论数等对热点进行排序。根据本发明实施例的技术方案不采用分词技术,采用LCS算法对主题抽取关键词以及对关键词进行分组聚合,避免了分词带来的一些问题,例如,新词发现的滞后行、以及词典维护运营成本高等,本发明实施例的技术方案能够实时采集、实时计算,并快速地发现热点事件。
需要说明的是,本发明实施例的热点聚合方法可以应用在BBS、以及BLOG热点聚合上,需要基于BBS、以及BLOG进行数据抓取,并对讨论的话题进行聚合,计算出热点对应的关键词组,根据其对应的相关帖数,浏览数,回复数,讨论数等对热点进行排序,可以快速发现热点事件。本发明实施例的技术方案的应用并不只限定于BBS、以及BLOG数据,它同样可以应用在网页、新闻、以及微博等其他网络资源上。
借助于本发明实施例的上述技术方案,通过利用LCS算法对网络资源进行热点聚合,解决了现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题,能够降低运维成本和计算的复杂度,提高了热点聚合的速度,能够实时采集,实时计算,快速发现热点事件,基本没有滞后。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。
应当注意的是,在本发明的控制器的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合,例如,可以将一些部件组合为单个部件,或者可以将一些部件进一步分解为更多的子部件。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的控制器中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (11)
1.一种网络热点聚合方法,其特征在于,包括:
抓取互联网上的网络资源;
采用最长公共子序列LCS算法对所述网络资源进行匹配,获取匹配结果;
根据所述匹配结果生成热点词组;
采用LCS算法对所述热点词组再次进行匹配,生成关键词组;
将每个关键词组、与所述关键词组相对应的热点词组、以及与所述热点词组相关的网络资源的标识作为一个热点组进行存储;在存储时,记录热点趋势数据;所述热点趋势数据包括热点组ID、日期、对应帖子数、浏览数、回复数、热度值、BBS帖子质量、BBS帖子质量分数、入库时间、修改时间、或扩展字段;
根据所述热点趋势数据,按照热点趋势排序,查询所述热点组内对应词组和帖子,画出热点趋势图以及展现周期内热点的变化趋势。
2.如权利要求1所述的方法,其特征在于,根据所述匹配结果生成热点词组具体包括:
设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数;
获取所涉及网络资源的个数大于所述最少个数的匹配结果,并根据该匹配结果生成热点词组。
3.如权利要求1-2任一项所述的方法,其特征在于,所述抓取互联网上的网络资源具体包括:
从分布式文件系统中获取以预定时间周期分割后的网络资源。
4.如权利要求1-2任一项所述的方法,其特征在于,抓取互联网上的网络资源之后,所述方法还包括:
对所述网络资源进行过滤。
5.如权利要求1-2任一项所述的方法,其特征在于,对所述网络资源进行过滤的处理具体包括以下至少之一:
根据预先配置的域名列表,滤除指定域名的网络资源;
根据预先配置的网络白名单,保留与所述网络白名单相应的网络资源;
根据网页的浏览数对所述网络资源进行过滤;
根据网页的发布日期对所述网络资源进行过滤;
根据新闻、博客、或者帖子的回复数对所述网络资源进行过滤;
对所述网络资源的标题中的无用信息进行过滤;
对所述网络资源中的常用词进行过滤。
6.如权利要求1-2任一项所述的方法,其特征在于,根据所述匹配结果生成热点词组之后,所述方法还包括:
获取与各个热点词组相关的网络资源的标识,并将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行聚合存储。
7.如权利要求1-2任一项所述的方法,其特征在于,
采用LCS算法对所述网络资源进行匹配,获取匹配结果具体包括:
通过所述LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算所述矩阵中对角线最长的匹配序列,根据所述匹配序列在所述矩阵中的位置,获取最长匹配子串的位置;
根据所述匹配结果生成热点词组具体包括:
根据所述最长匹配子串的位置生成热点词组。
8.如权利要求1-2任一项所述的方法,其特征在于,在将所述热点组进行存储之后,所述方法还包括:
对存储的所述热点组中的热点数据进行统计分析、展现和查询中至少一种操作。
9.一种热点聚合装置,其特征在于,包括:
网络抓取模块,用于抓取互联网上的网络资源;
匹配模块,用于采用最长公共子序列LCS算法对所述网络资源进行匹配,获取匹配结果;
生成模块,用于根据所述匹配结果生成热点词组;
所述匹配模块还用于:采用LCS算法对所述热点词组再次进行匹配,生成关键词组;
存储模块,用于将每个关键词组、与所述关键词组相对应的热点词组、以及与所述热点词组相关的网络资源的标识作为一个热点组进行存储;在存储时,记录热点趋势数据;所述热点趋势数据包括热点组ID、日期、对应帖子数、浏览数、回复数、热度值、BBS帖子质量、BBS帖子质量分数、入库时间、修改时间、或扩展字段;
统计分析模块,用于根据所述热点趋势数据,按照热点趋势排序,查询所述热点组内对应词组和帖子,画出热点趋势图以及展现周期内热点的变化趋势。
10.一种热点聚合装置,其特征在于,所述装置包括存储器和处理器,所述存储器存储有网络热点聚合计算机程序,所述处理器执行所述计算机程序,以实现如权利要求1-8中任意一项所述方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述存储介质存储有网络热点聚合计算机程序,所述计算机程序被至少一个处理器执行时,以实现如权利要求1-8中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510007096.9A CN104462613B (zh) | 2012-06-20 | 2012-06-20 | 热点聚合方法及装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210210038.2A CN102710795B (zh) | 2012-06-20 | 2012-06-20 | 热点聚合方法及装置 |
CN201510007096.9A CN104462613B (zh) | 2012-06-20 | 2012-06-20 | 热点聚合方法及装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210210038.2A Division CN102710795B (zh) | 2012-06-20 | 2012-06-20 | 热点聚合方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104462613A CN104462613A (zh) | 2015-03-25 |
CN104462613B true CN104462613B (zh) | 2019-04-19 |
Family
ID=52908648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510007096.9A Expired - Fee Related CN104462613B (zh) | 2012-06-20 | 2012-06-20 | 热点聚合方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462613B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105491117B (zh) * | 2015-11-26 | 2018-12-21 | 北京航空航天大学 | 面向实时数据分析的流式图数据处理系统及方法 |
CN109101531B (zh) * | 2018-06-22 | 2022-05-31 | 联想(北京)有限公司 | 文件处理方法、装置及系统 |
CN110795943B (zh) * | 2019-09-25 | 2021-10-08 | 中国科学院计算技术研究所 | 一种针对事件的话题表示生成方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246499A (zh) * | 2008-03-27 | 2008-08-20 | 腾讯科技(深圳)有限公司 | 网络信息搜索方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6873982B1 (en) * | 1999-07-16 | 2005-03-29 | International Business Machines Corporation | Ordering of database search results based on user feedback |
CN101087259A (zh) * | 2006-06-07 | 2007-12-12 | 深圳市都护网络科技有限公司 | 一种过滤国际互联网络中垃圾电子邮件的系统及其实现方法 |
CN101035128B (zh) * | 2007-04-18 | 2010-04-21 | 大连理工大学 | 基于中文标点符号的三重网页文本内容识别及过滤方法 |
US8346754B2 (en) * | 2008-08-19 | 2013-01-01 | Yahoo! Inc. | Generating succinct titles for web URLs |
-
2012
- 2012-06-20 CN CN201510007096.9A patent/CN104462613B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246499A (zh) * | 2008-03-27 | 2008-08-20 | 腾讯科技(深圳)有限公司 | 网络信息搜索方法及系统 |
Non-Patent Citations (2)
Title |
---|
网络热点事件挖掘及特征描述研究;李博;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120215(第2期);第6-7页、第13-17页 |
聚类算法在Web挖掘中的应用;范明;《中国优秀硕士学位论文全文数据库 信息科技辑》;20070615(第6期);第I138-478页 |
Also Published As
Publication number | Publication date |
---|---|
CN104462613A (zh) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102710795B (zh) | 热点聚合方法及装置 | |
US9317613B2 (en) | Large scale entity-specific resource classification | |
CN101320373B (zh) | 网站支撑数据库安全搜索引擎系统 | |
CN102930059B (zh) | 一种聚焦爬虫的设计方法 | |
CN104899508B (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
CN106126648B (zh) | 一种基于重做日志的分布式商品信息爬虫方法 | |
CN108776671A (zh) | 一种网络舆情监控系统及方法 | |
CN106383887A (zh) | 一种环保新闻数据采集和推荐展示的方法及系统 | |
CN104063497B (zh) | 观点处理方法和装置以及搜索方法和装置 | |
CN105447184A (zh) | 信息抓取方法及装置 | |
CN101751458A (zh) | 一种网络舆情监控系统及方法 | |
CN101261629A (zh) | 基于自动分类技术的特定信息搜索方法 | |
CN104391978A (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN105631007A (zh) | 一种行业技术信息搜集方法及系统 | |
CN107977420A (zh) | 一种演进式文档的摘要提取方法、装置及可读存储介质 | |
CN109710826A (zh) | 一种互联网信息人工智能采集方法及其系统 | |
KR100283103B1 (ko) | 온라인 상점 상의 제품 정보 자동 색인 방법 및 시스템 | |
CN103177022A (zh) | 一种恶意文件搜索方法及装置 | |
CN104462613B (zh) | 热点聚合方法及装置 | |
CN106776640A (zh) | 一种股票资讯信息展示方法和装置 | |
de Moura et al. | Using structural information to improve search in Web collections | |
WO2017000659A1 (zh) | 一种富集化url的识别方法和装置 | |
CN110245986A (zh) | 一种获取互联网金融广告发布机构的方法 | |
CN107193870A (zh) | 网页内容的提取方法和系统 | |
WO2015149550A1 (zh) | 确定网站内链接等级的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190419 Termination date: 20210620 |
|
CF01 | Termination of patent right due to non-payment of annual fee |