CN103544294B - 一种关键词热度自动控制方法 - Google Patents
一种关键词热度自动控制方法 Download PDFInfo
- Publication number
- CN103544294B CN103544294B CN201310524337.8A CN201310524337A CN103544294B CN 103544294 B CN103544294 B CN 103544294B CN 201310524337 A CN201310524337 A CN 201310524337A CN 103544294 B CN103544294 B CN 103544294B
- Authority
- CN
- China
- Prior art keywords
- key word
- keyword
- popularity
- keyword popularity
- control method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Abstract
一种关键词热度自动控制方法,包括:1)为关键词设置关键词热度;2)将满足调度条件的关键词推送到抓取队列;3)从抓取队列中提取一个关键词用搜索引擎进行搜索;4)根据搜索引擎的搜索结果调整关键词热度。本发明的技术方案通过抓取结果状态报告机制自动控制关键词热度,来替代人工设置关键词热度,节省了大量的人力资源和时间资源,同时也提高了信息抓取的及时性和热度设置的准确性。
Description
技术领域
本发明涉及信息检索和收集技术,更具体地,涉及一种关键词热度自动控制方法。
背景技术
互联网已经成为时下最重要的新媒体之一,互联网提供了这样一个平台,用户既可以作为浏览者,在互联网上浏览感兴趣的信息,也可以作为发布者,在互联网上发布内容供别人浏览。互联网最大的特点就是:发布信息快速,信息传播的速度快。例如以微博为例,如果有200万个人关注该用户,那么该用户发布的信息会在瞬间传播给这200万人,而仅仅中国互联网用户已经达到好几亿,正是由于这些特点,使得互联网经成为当前最重要、最具影响力的传播媒体。
因此,越来越多的企业都希望能够实时了解本企业在互联网上的舆论导向,搜集信息以支持公司下一步发展战略作出最快的调整。互联网上的信息浩如烟海,如何有效地搜集本企业有用的信息,是当前企业面临的重要技术问题。
现在出现了舆情系统,该系统通过业务方设置的关键词,使用网络爬虫实时的在互联网上面抓取与之相关的信息,进行数据分析后将有价值的信息推送给业务方。然而,不同业务方所订阅的关键词不同,怎样调整关键词的调度策略让网络爬虫尽可能完整的、实时的获取互联网信息成为关键技术。
目前现有的方案是基于调度策略的人工控制关键词热度方法。首先通过人工设定关键词的热度(关键词热度越高那么该关键词的调度越频繁抓取频率也就越高),然后不断去查找满足调度条件的关键词,推送到爬虫抓取队列,关键词被推送一次之后,会重新设置下次被调度的时间, 并等待下次调度,设置下次调度时间和关键词的热度相关。
然而,现有技术方案虽然可以根据人为的设置关键词的热度来控制、关键词的抓取频率,然而付出的代价和时间却是巨大的,主要有以下两个方面的缺点:
1、人力资源消耗大
人工控制关键词的热度必须要人力去互联网上面调研关键词热度,一般的做法是人为的使用搜索引擎,将关键词输入搜索引擎然后统计该关键词的搜索结果。而且关键词的热度是变化的,在关键词数量多的情况下,每天需要大量人力太统计这些数据。
2、时间浪费多
人工的统计关键词热度的方法,需要人为的去记录数据然后去重新设置关键词的热度,完成这些步骤需要花费的时间一定也是巨大的,不利于舆情系统时间的去监控舆情动态。
3、关键词热度设置受个人主观意识影响
因为关键词热度设置是人工判别,不仅容易带来人为失误设置热度错误,而且,认为设置和事件效果可能会受个人主观影响,想当然的设置关键词热度,造成调度频率混乱。
发明内容
基于现在方案的缺点,我们提出一种基于调度策略的自动控制关键词热度方法,该方法将有效的解决现在方案所存在的人力资源、时间资源浪费缺点,同时免受个人主观意识影响。
本发明的一种关键词热度自动控制方法包括:1)为关键词设置关键词热度;2)将满足调度条件的关键词推送到抓取队列;3)从抓取队列中提取一个关键词用搜索引擎进行搜索;4)根据搜索引擎的搜索结果调整关键词热度。
进一步,在步骤2)中,所述调度条件为,该关键词的调度时间小于或等于系统当前时间。
进一步,步骤2)还包括:通过如下方式更新该关键词的调度时间, 调度时间=系统当前时间+调度时间间隔。
进一步,所述调度时间间隔根据该关键词的热度而设定。
进一步,在步骤3)中,利用网络爬虫从抓取队列中提取一个关键词进行搜索。
进一步,在步骤3)中,所述网络爬虫使用关键词拼接微博搜索链接利用微博搜索引擎进行搜索。
进一步,在步骤3)中,用IE搜索引擎进行搜索;在步骤4)中,解析所述IE搜索引擎的搜索结果页面,包括:使用jsoup工具将搜索结果页面转化成DOM树结构;使用jsoup的DOM选择器;选择指定标签下的内容,使用正则表达式抽取出数字作为关键词相关网页数量,以及扫描该关键词是否被屏蔽;以相关网页数量和关键词是否被屏蔽的信息作为搜索结果。
进一步,在步骤4)中,根据两次搜索结果的相关网页数量的增量来调整关键词热度。
进一步,在步骤4)中,如果关键词被屏蔽,则删除该关键词。
本发明的技术方案中,通过抓取结果状态报告机制自动控制关键词热度,来替代人工设置关键词热度,节省了大量的人力资源和时间资源,同时也提高了信息抓取的及时性和热度设置的准确性。
附图说明
图1为本发明的方法的流程图。
具体实施方式
本发明技术方案在原有方案---基于调度策略的人工控制关键词热度方法的基础上进行了创新,引进了关键词的抓取结果状态报告机制。即当关键词推送至爬虫抓取时,爬虫不仅仅将由关键词抓取的结果返回,还将报告关键词的抓取状态。
下面参照图1详细的说明本发明的技术方案。
在步骤S1,对关键词设置关键词热度,并对关键词设置默认调度时 间schedule-time。
关键词来自于关键词数据集。不同的关键词热度对应了不同的抓取频率,热度越高,则抓取频率越高。
例如,可以用正整数来表示关键词热度,默认的最低热度为1,数值越高,表示关键词热度越高。关键词数据集是预先设定的,并可以随时添加或者删减。
关键词的调度时间schedule-time表示关键词被推送至抓取队列(在下面详述)的时间。抓取队列是关键词的队列,是一个先入先出队列,网络爬虫从该抓取队列中取出关键词,到互联网引擎中进行搜索。
这里设置的关键词的调度时间schedule-time是默认值,该默认值根据检测热度确定。调度时间schedule-time是变化的,每次调度后根据搜索结果而重新设置,具体设置方法见下面详述的步骤S5 。
在步骤S2,根据关键词热度将关键词分配到不同集合,具有相同关键词热度的关键词被分配到同一个集合。
在步骤S3,在全部集合中获取关键词的调度时间schedule-time。优选地,根据关键词热度由高到低的顺序来对集合进行逐一处理,即先针对关键词热度最高的集合,获取集合的关键词调度时间,最后针对关键词热度最低的集合,获取集合中的关键词调度时间。
在步骤S4,如果该关键词的调度时间schedule-time<=系统当前时间now-time,则跳转到步骤S5。
例如,一个关键词的调度时间设置为schedule-time=2013/7/7 00:00:10,系统当前时间now-time=2013/7/7 00:00:00,那么10分钟之后,now-time=2013/7/7 00:00:10,那么条件满足。
在步骤S5,根据关键词热度查找并更新调度时间schedule-time,schedule-time=now-time+interval。
关键词的下次调度时间通过当前时间和该关键词热度对应的时间间隔确定,即:关键词下次调度时间为:当前时间now-time+interval。
其中,时间间隔interval是根据该关键词的关键词热度设置的,热度越高,时间间隔越短。例如,热度为1的时间间隔interval=1800秒, 热度为2的时间间隔interval=900秒。
在步骤S6,将该关键词推送到抓取队列。
在步骤S7,网络爬虫从抓取队列抓取一个关键词,使用IE搜索引擎进行搜索。
特别的,对于微博,可以用该关键词拼接微博搜索链接。以新浪微博为例,该拼接的搜索链接为:
http://s.weibo.com/weibo/keyword&Refer=STopic_box
在步骤S8,解析搜索结果页面,得到关键词搜索结果。
更具体地,在解析搜索结果页面时,可以使用jsoup工具包将html页面转化成DOM树结构,使用jsoup的DOM选择器,选择指定标签下的内容,然后,使用正则表达式抽取出数字作为关键词相关网页数量。
例如使用某搜索引擎进行新闻搜索“选择器”,截取指定标签<div id="header_top_bar"><span>下的内容,即一段源码:<div id="header_top_bar"><span>**一下,找到相关新闻约83,400篇 | <a href="http://news.***.com/view.html?from=ns">新闻首页</a></span>。使用正则表达式抽取出数字“83400”,这即为关键词搜索结果。
关键词搜索结果包括:搜索的相关页面的数量;以及关键词被屏蔽的信息。其中当该关键词被屏蔽时,页面中包含“根据相关法律法规和政策,“***事件”搜索结果未予显示”的字段,根据该字段,即可获得被屏蔽的信息。
对于微博关键词搜索,页面会返回关键词搜索结果,包括2类:1、关键词相关微博数量;2、关键词违规被屏蔽的信息。
在步骤S9,根据关键词搜索结果调整关键词热度。
更优选地,在步骤S9判断关键词搜索结果的类型,如果搜索结果包括数量,那么在步骤S10,根据所述数量调整关键词热度。具体为,根据两次关键词搜索状态的结果,获得两次结果的数量的增量,根据所述增量和抓取完成所需要的调度时间间隔来调整新的关键词热度。所述增量越大,说明该关键词热度越高,相应地,调整该关键词热度为更大值。
例如,对于一关键词,在2013-10-1日凌晨抓取搜索引擎相关网页量100000。设定时间间隔为24小时,那么在2013-10-2日凌晨抓取搜索引擎相关网页量为100240。根据两次抓取结果,网页增量为240。搜索网页每页一般有20个(与IE搜索引擎有关)结果(链接),如果设定一天抓取12次,那么一天抓取的网页数量为12*20=240,满足了该增量。即将该关键词的调度时间间隔设置为2小时就能满足抓取覆盖率。优选地,但是考虑到搜索引擎搜索关键词相关网页结果不会是平均值,因此一般会在平均调度时间上乘以2来保证覆盖率和时效性,因此最后需要设置关键词的热度为对应时间间隔为1小时的热度。
如果在步骤S9搜索结果表明该关键词被屏蔽,那么在步骤S11,从关键词数据集中删除该关键词,或者将该关键词的关键词热度设置为0。
本发明的技术方案的关键点在于通过网络爬虫把关键词的状态返回,以便随时调整关键词热度,来控制关键词的抓取频率。
Claims (6)
1.一种关键词热度自动控制方法,其特征在于,包括:
1)为关键词设置关键词热度;
2)将满足调度条件的关键词推送到抓取队列;所述调度条件为,该关键词的调度时间小于或等于系统当前时间,其中通过如下方式更新该关键词的调度时间,调度时间=系统当前时间+调度时间间隔;所述调度时间间隔根据该关键词的热度而设定;
3)从抓取队列中提取一个关键词用搜索引擎进行搜索;
4)根据搜索引擎的搜索结果调整关键词热度。
2.根据权利要求1所述的关键词热度自动控制方法,其特征在于,在步骤3)中,利用网络爬虫从抓取队列中提取一个关键词进行搜索。
3.根据权利要求2所述的关键词热度自动控制方法,其特征在于,在步骤3)中,所述网络爬虫使用关键词拼接微博搜索链接利用微博搜索引擎进行搜索。
4.根据权利要求1所述的关键词热度自动控制方法,其特征在于,
在步骤3)中,用IE搜索引擎进行搜索;
在步骤4)中,解析所述IE搜索引擎的搜索结果页面,包括:使用jsoup工具将搜索结果页面转化成DOM树结构;使用jsoup的DOM选择器;选择指定标签下的内容,使用正则表达式抽取出数字作为关键词相关网页数量,以及扫描该关键词是否被屏蔽;以相关网页数量和关键词是否被屏蔽的信息作为搜索结果。
5.根据权利要求4所述的关键词热度自动控制方法,其特征在于,
在步骤4)中,根据两次搜索结果的相关网页数量的增量来调整关键词热度。
6.根据权利要求4所述的关键词热度自动控制方法,其特征在于,
在步骤4)中,如果关键词被屏蔽,则删除该关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310524337.8A CN103544294B (zh) | 2013-10-30 | 2013-10-30 | 一种关键词热度自动控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310524337.8A CN103544294B (zh) | 2013-10-30 | 2013-10-30 | 一种关键词热度自动控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103544294A CN103544294A (zh) | 2014-01-29 |
CN103544294B true CN103544294B (zh) | 2017-02-01 |
Family
ID=49967746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310524337.8A Active CN103544294B (zh) | 2013-10-30 | 2013-10-30 | 一种关键词热度自动控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103544294B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537097B (zh) * | 2015-01-09 | 2017-08-11 | 成都布林特信息技术有限公司 | 微博舆情监测系统 |
CN105956013A (zh) * | 2016-04-21 | 2016-09-21 | 世纪禾光科技发展(北京)有限公司 | 网站关键词提取方法、装置和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004206517A (ja) * | 2002-12-26 | 2004-07-22 | Nifty Corp | ホットキーワード提示方法及びホットサイト提示方法 |
CN101582075A (zh) * | 2009-06-24 | 2009-11-18 | 大连海事大学 | Web信息抽取系统 |
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
CN101923544A (zh) * | 2009-06-15 | 2010-12-22 | 北京百分通联传媒技术有限公司 | 一种监测展示互联网热点的方法 |
CN102831248A (zh) * | 2012-09-18 | 2012-12-19 | 北京奇虎科技有限公司 | 网络热点挖掘方法及装置 |
-
2013
- 2013-10-30 CN CN201310524337.8A patent/CN103544294B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004206517A (ja) * | 2002-12-26 | 2004-07-22 | Nifty Corp | ホットキーワード提示方法及びホットサイト提示方法 |
CN101923544A (zh) * | 2009-06-15 | 2010-12-22 | 北京百分通联传媒技术有限公司 | 一种监测展示互联网热点的方法 |
CN101582075A (zh) * | 2009-06-24 | 2009-11-18 | 大连海事大学 | Web信息抽取系统 |
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
CN102831248A (zh) * | 2012-09-18 | 2012-12-19 | 北京奇虎科技有限公司 | 网络热点挖掘方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103544294A (zh) | 2014-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107025296B (zh) | 基于科技服务信息智能抓取系统数据收集方法 | |
CN100498790C (zh) | 一种搜索方法和系统 | |
CN102930059B (zh) | 一种聚焦爬虫的设计方法 | |
CN104077402B (zh) | 数据处理方法和数据处理系统 | |
CN101246494B (zh) | 一种互联网网页转换方法、系统及设备 | |
Yu et al. | Summary of web crawler technology research | |
CN104602042A (zh) | 基于用户行为的标签设置方法 | |
CN101751458A (zh) | 一种网络舆情监控系统及方法 | |
CN101727494B (zh) | 特定区域内网络热词生成系统 | |
CN105117484A (zh) | 一种互联网舆情监测方法和系统 | |
CN102932207A (zh) | 监测网站访问信息的方法及服务器 | |
CN102932206A (zh) | 监测网站访问信息的方法和系统 | |
CN103235827B (zh) | 一种科技信息自动分类筛选的方法 | |
CN102541853A (zh) | 一种利用浏览器地址栏获取应用信息的方法和装置 | |
CN104615627A (zh) | 一种基于微博平台的事件舆情信息提取方法及系统 | |
CN105589953A (zh) | 一种突发公共卫生事件互联网文本抽取方法 | |
CN106649578A (zh) | 一种基于社交网络平台的舆情分析方法及系统 | |
CN102567521B (zh) | 网页数据抓取过滤方法 | |
CN103559315A (zh) | 资讯筛选推送方法及装置 | |
CN103559203A (zh) | 网页排序方法、装置和系统 | |
CN103198078B (zh) | 一种互联网新闻事件报道趋势分析方法及系统 | |
CN103970800A (zh) | 网页相关关键词的抽取处理方法和系统 | |
CN103544294B (zh) | 一种关键词热度自动控制方法 | |
CN104572719A (zh) | 信息收集方法及装置 | |
CN103605742A (zh) | 识别网络资源实体目录页的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |