CN105930405A - 适于url数据抓取中对数据缓存的方法及装置 - Google Patents
适于url数据抓取中对数据缓存的方法及装置 Download PDFInfo
- Publication number
- CN105930405A CN105930405A CN201610237936.5A CN201610237936A CN105930405A CN 105930405 A CN105930405 A CN 105930405A CN 201610237936 A CN201610237936 A CN 201610237936A CN 105930405 A CN105930405 A CN 105930405A
- Authority
- CN
- China
- Prior art keywords
- bloomfilter
- storage container
- data
- storage
- container
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000013481 data capture Methods 0.000 title claims abstract description 19
- 238000003860 storage Methods 0.000 claims abstract description 250
- 238000013500 data storage Methods 0.000 claims abstract description 23
- 238000012544 monitoring process Methods 0.000 claims abstract description 13
- 238000000151 deposition Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005201 scrubbing Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种适于URL数据抓取中对数据缓存的方法,包括:周期性抓取URL数据;将每次抓取的URL数据均有序缓存到第一布隆过滤器Bloomfilter存储容器和第二Bloomfilter存储容器中,其中,第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量相同;在URL数据的存储过程中,监控所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的URL数据存储量;根据监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器。采用本发明能够以空间换时间,提高数据的稳定性,避免业务波动,有效的减少了系统的波动范围,可以降低了对系统其他模块的冲击。
Description
本申请为申请号为201310293574.8、申请日为2013年7月12日、发明名称为“适于URL数据抓取中对数据缓存的方法及装置”的发明申请的分案申请。
技术领域
本发明涉及互联网领域,具体涉及一种适于URL数据抓取中对数据缓存的方法及装置。
背景技术
在网页抓取系统中,对于大多数网页的抓取都有周期性参数设置,比如至少间隔若干时间,才考虑更新性抓取。过于频繁的抓取易导致抓取资源的浪费,对目标网站也带来不必要的压力。由于一般存储器的空间有限,为了处理这种源源不断的数据流,直接的思路就是设定一个时间窗口,将时间窗口之前的数据清理掉,腾出空间接纳即将到来的新数据。但是,一次性清空时间窗口之前的所有数据,数据本身会产生很大的波动,容易对于业务产生较大的影响。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的适于URL数据抓取中对数据缓存的方法和相应的装置。
依据本发明的一个方面,提供了一种适于URL数据抓取中对数据缓存的方法,包括:
周期性抓取URL数据;
将每次抓取的URL数据均有序缓存到第一布隆过滤器Bloomfilter存储容器和第二Bloomfilter存储容器中,其中,第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量相同;
在URL数据的存储过程中,监控所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的URL数据存储量;
根据监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器。
可选地,所述根据监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器,包括:
在所述第一Bloomfilter存储容器储存的数据存储量首次到达预设临界值时,清空所述第二Bloomfilter存储容器。
可选地,所述根据监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器,还包括:
在所述第二Bloomfilter存储容器首次被清空后,
当所述第二Bloomfilter存储容器的数据存储量再次达到预设临界值时,清空所述第一Bloomfilter存储容器;以及
当所述第一Bloomfilter存储容器的数据存储量再次达到预设临界值时,清空所述第二Bloomfilter存储容器。
可选地,所述预设临界值为存储容量的1/2。
可选地,所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量根据抓取URL数据的周期变化进行调节。
依据本发明的另一个方面,提供了一种适于URL数据抓取中对数据缓存的装置,包括:
数据抓取器,配置为周期性抓取URL数据;
第一布隆过滤器Bloomfilter存储容器,配置为有序缓存所述数据抓取器每次抓取的URL数据;
第二Bloomfilter存储容器,与所述第一Bloomfilter存储容器容量相同,配置为与所述第一Bloomfilter存储容器同步有序缓存所述数据抓取器每次抓取的URL数据;
监控器,配置为在URL数据的存储过程中,监控所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的URL数据存储量;
数据清空器,配置为根据所述监控器监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器。
可选地,所述数据清空器还配置为:
在所述监控器监控到所述第一Bloomfilter存储容器储存的数据存储量首次到达预设临界值时,清空所述第二Bloomfilter存储容器。
可选地,所述数据清空器还配置为:
在所述第二Bloomfilter存储容器首次被清空后,
当所述监控器监控到所述第二Bloomfilter存储容器的数据存储量再次达到预设临界值时,清空所述第一Bloomfilter存储容器;以及
当所述监控器监控到所述第一Bloomfilter存储容器的数据存储量再次达到预设临界值时,清空所述第二Bloomfilter存储容器。
可选地,所述预设临界值为存储容量的1/2。
可选地,上述装置还包括:
容量调节器,配置为根据所述数据抓取器抓取URL数据的周期变化,对所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量进行调节。
采用本发明实施例提供的方法及装置,可以达到如下有益效果:
在本发明实施例中,URL数据是周期性抓取的,因此URL数据是呈数据流式持续存在的,因此,URL数据的总量也是流式增加。将每次抓取的URL数据均有序缓存到第一Bloomfilter存储容器和第二Bloomfilter存储容器中,两个存储容器中的数据是同步的,两个存储容器互为冗余。在存储过程中,监控第一Bloomfilter存储容器和第二Bloomfilter存储容器的URL数据存储量,根据监控结果轮流清空第二Bloomfilter存储容器和第一Bloomfilter存储容器。由上述分析可知,在本发明实施例中,提供了第一Bloomfilter存储容器和第二Bloomfilter存储容器进行URL数据存储,而不仅仅是一个Bloomfilter存储容器。相应的,在数据删除部分,本发明实施例中第二Bloomfilter存储容器和第一Bloomfilter存储容器是轮流清空的,也就是说,每次清空仅会清除一部分URL数据,保留一部分URL数据,将时间顺序属性转化为空间顺序属性,清理方式简单。且本发明实施例并不会将所有的数据一次性清除,提高数据的稳定性,避免业务波动,有效的减少了系统的波动范围,可以降低了对系统其他模块的冲击。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的适于URL数据抓取中对数据缓存的方法的处理流程图;
图2示出了根据本发明一个实施例的适于URL数据抓取中对数据缓存的装置的第一种结构示意图;以及
图3示出了根据本发明一个实施例的适于URL数据抓取中对数据缓存的装置的第二种结构示意图。
具体实施方式
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
为解决上述技术问题,本发明采用布隆过滤器来提供一种适于URL数据抓取中对数据缓存的发明构思。由于布隆过滤器的优点是空间效率和查询时间都远远超过一般的算法,而缺点是有一定的误识别率和删除困难,不适合设置时间窗口类的部分清除,一般采用的清理方式就是全部清空Bloomfilter,但是这种做法对数据而言会产生很大的波动,容易对于业务产生较大的影响。
基于此,本发明进一步地完善了发明构思,使得每次数据清除时并不删除所有数据,以此来平缓清理操作带来的波动。
基于上述发明构思,本发明实施例提供了一种适于URL(UniversalResource Locator,统一资源定位符)数据抓取中对数据缓存的方法。图1示出了根据本发明一个实施例的适于URL数据抓取中对数据缓存的方法的处理流程图。参见图1,该方法至少包括步骤S102至步骤S108。
步骤S102、周期性抓取URL数据。
其中,此处的URL数据抓取较多适用于蜘蛛抓取方式。
步骤S104、将每次抓取的URL数据均有序缓存到第一Bloomfilter存储容器和第二Bloomfilter存储容器中。
其中,第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量相同。需要说明的是,此处第一、第二仅用于标识并区别不同的Bloomfilter存储容器,两者实质是相同的,第一、第二并不用于排序。
在实际应用中,第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量并不是一成不变的。考虑到步骤S102中提及的“抓取URL数据”是周期性变化的,其抓取周期间隔可能变短,也可能增长。例如,起始设置的抓取周期为10ms一次,那么变化后的抓取周期可能是5ms一次,也可能是15ms一次,具体的周期变化根据实际情况而定,并不限于上述例举中的数字。
当抓取周期间隔变短时,抓取URL数据的次数增多,则抓取到的URL数据总量增加,相应的,此时第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量按比例适度增加。同理,当抓取周期间隔增长时,抓取URL数据的次数减少,则抓取到的URL数据总量减少,相应的,此时第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量按比例适度减小。
举个具体的例子对其进行说明。本例中,起始设置的抓取周期为10ms一次,变化后的抓取周期为5ms一次,则在相同的时间内,变化后抓取的URL数据总量是变化前抓取的ULR数据总量的两倍,为及时存储抓取的ULR数据,第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量可以增加至原存储容量的两倍。需要说明的是,此处的两倍是一个适度增加的比例,并不是固定比例,也可以将两者的存储容量调至更高,在此并不形成限定。
再举一个例子对抓取周期增长的情况进行说明。本例中,起始设置的抓取周期为10ms一次,变化后的抓取周期为20ms一次,则在相同的时间内,变化后抓取的URL数据总量是变化前抓取的ULR数据总量的1/2,为节省存储空间,避免资源浪费,第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量可以减小至原存储容量的1/2。需要说明的是,此处的1/2是一个适度减小的比例,并不是固定比例,也可以将两者的存储容量调至更低,在此并不形成限定。
由上述分析可知,第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量并非固定的,可以根据抓取URL数据的周期变化进行调节。
步骤S106、在URL数据的存储过程中,监控第一Bloomfilter存储容器和第二Bloomfilter存储容器的URL数据存储量。
步骤S108、根据监控的数据存储情况,轮流清空第二Bloomfilter存储容器和第一Bloomfilter存储容器。
在本发明实施例中,URL数据是周期性抓取的,因此URL数据是呈数据流式持续存在的,因此,URL数据的总量也是流式增加。将每次抓取的URL数据均有序缓存到第一Bloomfilter存储容器和第二Bloomfilter存储容器中,两个存储容器中的数据是同步的,两个存储容器互为冗余。在存储过程中,监控第一Bloomfilter存储容器和第二Bloomfilter存储容器的URL数据存储量,根据监控结果轮流清空第二Bloomfilter存储容器和第一Bloomfilter存储容器。由上述分析可知,在本发明实施例中,提供了第一Bloomfilter存储容器和第二Bloomfilter存储容器进行URL数据存储,而不仅仅是一个Bloomfilter存储容器。相应的,在数据删除部分,本发明实施例中第二Bloomfilter存储容器和第一Bloomfilter存储容器是轮流清空的,也就是说,每次清空仅会清除一部分URL数据,保留一部分URL数据,将时间顺序属性转化为空间顺序属性,清理方式简单。且本发明实施例并不会将所有的数据一次性清除,提高数据的稳定性,避免业务波动,有效的减少了系统的波动范围,可以降低了对系统其他模块的冲击。
进一步,相对于现有技术中提及的利用时间窗口清理数据的方式,本发明实施例无须使用时间窗口,不需要记录数据的时间属性,节省存储开销。
实施时,第一Bloomfilter存储容器和第二Bloomfilter存储容器的初始设置是两者均是空白存储容器,并未存储URL数据。第一Bloomfilter存储容器和第二Bloomfilter存储容器同步存储抓取的URL数据,具体地,抓取的ULR数据在写入存储窗口时,需要同时写入第一Bloomfilter存储容器和第二Bloomfilter存储容器,是双写,所以两个Bloomfilter存储容器中数据同步增加。例如,要保存URL1,则进行如下操作:
1.在第一Bloomfilter存储容器中写入URL1;
2.在第二Bloomfilter存储容器中写入URL1;
3.URL1数据写入完成。
当URL1的写入操作完成后,第一Bloomfilter存储容器和第二Bloomfilter存储容器中都可以查询到URL1。即URL1写入时是冗余的。
因此,第一Bloomfilter存储容器和第二Bloomfilter存储容器可以同时首次到达预设临界值。预设临界值可以是其中任意一个Bloomfilter存储容器总容量的1/2、1/3或其他值。初始设置时可以指定第二Bloomfilter存储容器为年老者,进而在第一Bloomfilter存储容器储存的数据存储量首次到达预设临界值时,清空第二Bloomfilter存储容器。当然,若初始设置时指定第一Bloomfilter存储容器为年老者,首次清空的就是第一Bloomfilter存储容器。
步骤S108中提到,轮流清空第二Bloomfilter存储容器和第一Bloomfilter存储容器,因此,首次清空第二Bloomfilter存储容器之后,还会相应清空第一Bloomfilter存储容器,再次是第二Bloomfilter存储容器,重复这一清空顺序,达到轮流清空第二Bloomfilter存储容器和第一Bloomfilter存储容器的目的。当然,每次清空的触发点均是URL数据存储量再次达到预设临界值。具体地,在第二Bloomfilter存储容器首次被清空后,当第二Bloomfilter存储容器的数据存储量再次达到预设临界值时,清空第一Bloomfilter存储容器。相应的,当第一Bloomfilter存储容器的数据存储量再次达到预设临界值时,清空第二Bloomfilter存储容器。
需要说明的是,本发明实施例提供的适于URL数据抓取中对数据缓存的方法有其适用范围,主要适用时间序列下的数据淘汰场景:
1.首先,数据是有序的,有时间属性或前后位置属性;
2.其次,观察/作用的范围是有限的;即限定了所能使用的窗口的范围;
3.在窗口期(即数据存储期)内,单条数据最多只允许出现一次,忽略多于一次的重复出现。
为将本发明实施例提供的方法阐述更清楚更明白,现以具体实施例对其进行说明。
本例设置两个容量均为C的Bloomfilter存储容器,标记为容器A和容器B。整个空间中已存储的数据总量标记为n,容器A中存储的数据量标记为na,容器B中存储的数据量标记为nb。
在本例中,两个容器同时提供数据的存储服务。初始阶段,整个空间中已存储的数据总量n=0,容器A中的数据量na=0,容器B中的数据量nb=0,且设置容器B为年老者的容器。
现根据整个空间中已存储的数据总量n的数量变化对两个容器的清空过程进行描述,在存储过程中n的数量根据存储数据变化。
当n<C/2时,整个存储空间中存储的数据量n<C/2,容器A中的数据量na<C/2,容器B中的数据量nb<C/2,此时容器A或B中存储的数据量均未达到预设临界值,继续进行数据存储。
当n=C/2时,容器A和B中存储的数据量均达到预设临界值C/2,由于初始设置容器B为年老者的容器,因此清空容器B中数据。容器B被清空后,整个存储空间中存储的数据量n=C/2,容器A中的数据量na=C/2,容器B中的数据量nb=0。
继续进行数据存储,当C/2<=n<C时,整个存储空间中的存储的数据量C/2<=n<C,容器A中的数据量C/2<=na<C,容器B中的数据量nb<C/2,此时容器A或B中存储的数据量均未达到预设临界值,继续进行数据存储。
当n=C时,容器A中的数据量na=C,容器B中的数据量nb=C/2,此时容器B中存储的数据量达到预设临界值C/2,清空容器A中数据。容器A被清空后,整个存储空间中存储的数据量n=C/2,容器A中的数据量na=0,容器B中的数据量nb=C/2,继续进行数据存储。
当C/2<=n<C时,整个存储空间中的存储的数据量C/2<=n<C,容器A中的数据量na<C/2,容器B中的数据量C/2<=nb<C,此时容器A或B中存储的数据量均未达到预设临界值,继续进行数据存储。
当n=C时,容器A中的数据量na=C/2,容器B中的数据量nb=C,此时容器A中存储的数据量达到预设临界值C/2,清空容器B中数据。容器B被清空后,整个存储空间中存储的数据量n=C/2,容器A中的数据量na=C/2,容器B中的数据量nb=0。
继续进行数据存储,根据n值的变化重复上述清空操作。
为将上述清空操作过程、操作时间点以及相应原理阐述地更清楚更明白,现以表格的形式对其进行说明,具体参见表一。
表一
n | A | B | |
1 | n<C/2 | na<C/2 | nb<C/2 |
2 | n=C/2 | na=C/2 | nb=0 |
3 | C/2<=n<C | C/2<=na<C | nb<C/2 |
4 | n=C | na=0 | nb=C/2 |
5 | C/2<=n<C | na<C/2 | C/2<=nb<C |
6 | n=C | na=C/2 | nb=0 |
由表一可以看出,容器A以及容器B在首次到达预设临界值时,清空容器B,随后,在容器A或容器B到达预设临界值时,对应清空另外一个容器。
基于同一发明构思,本发明实施例提供了一种适于URL数据抓取中对数据缓存的装置。图2示出了根据本发明一个实施例的适于URL数据抓取中对数据缓存的装置的第一种结构示意图。参见图2,该装置至少包括:
数据抓取器210,配置为周期性抓取URL数据;
第一Bloomfilter存储容器220,与数据抓取器210耦合,配置为有序缓存数据抓取器210每次抓取的URL数据;
第二Bloomfilter存储容器230,与第一Bloomfilter存储容器220容量相同,也与数据抓取器210耦合,配置为与第一Bloomfilter存储容器220同步有序缓存数据抓取器210每次抓取的URL数据;
监控器240,分别与第一Bloomfilter存储容器220和第二Bloomfilter存储容器230耦合,配置为在URL数据的存储过程中,监控第一Bloomfilter存储容器220和第二Bloomfilter存储容器230的URL数据存储量;
数据清空器250,配置为根据监控器监控的数据存储情况,轮流清空第二Bloomfilter存储容器230和第一Bloomfilter存储容器220。
在本发明实施例中,上述各器件均能够利用实际器件实现。现有技术已有各式存储器(例如RAM、ROM、EPROM、闪存等)、监控器(例如心跳设备)、数据清空器(例如数据擦除装置)、数据抓取器等等。本发明提供的是对适于URL数据抓取中对数据缓存的装置的各部分组成和结构进行保护。
在一个优选的实施例中,数据清空器250还可以配置为:
在监控器240监控到第一Bloomfilter存储容器220储存的数据存储量首次到达预设临界值时,清空第二Bloomfilter存储容器230。
在一个优选的实施例中,数据清空器250还可以配置为:
在第二Bloomfilter存储容器230首次被清空后,
当监控器240监控到第二Bloomfilter存储容器230的数据存储量再次达到预设临界值时,清空第一Bloomfilter存储容器220;以及
当监控器240监控到第一Bloomfilter存储容器220的数据存储量再次达到预设临界值时,清空第二Bloomfilter存储容器230。
在一个优选的实施例中,预设临界值为第一Bloomfilter存储容器以及第二Bloomfilter存储容器的存储容量的1/2。
图3示出了根据本发明一个实施例的适于URL数据抓取中对数据缓存的装置的第二种结构示意图。在一个优选的实施例中,参见图3,适于URL数据抓取中对数据缓存的装置除包括图2所示的各器件外,还可以包括:
容量调节器260,分别与数据抓取器210、第一Bloomfilter存储容器220和第二Bloomfilter存储容器230耦合,配置为根据数据抓取器210抓取URL数据的周期变化,对第一Bloomfilter存储容器220和第二Bloomfilter存储容器230的存储容量进行调节。
采用本发明实施例提供的方法及装置,可以达到如下有益效果:
在本发明实施例中,URL数据是周期性抓取的,因此URL数据是呈数据流式持续存在的,因此,URL数据的总量也是流式增加。将每次抓取的URL数据均有序缓存到第一Bloomfilter存储容器和第二Bloomfilter存储容器中,两个存储容器中的数据是同步的,两个存储容器互为冗余。在存储过程中,监控第一Bloomfilter存储容器和第二Bloomfilter存储容器的URL数据存储量,根据监控结果轮流清空第二Bloomfilter存储容器和第一Bloomfilter存储容器。由上述分析可知,在本发明实施例中,提供了第一Bloomfilter存储容器和第二Bloomfilter存储容器进行URL数据存储,而不仅仅是一个Bloomfilter存储容器。相应的,在数据删除部分,本发明实施例中第二Bloomfilter存储容器和第一Bloomfilter存储容器是轮流清空的,也就是说,每次清空仅会清除一部分URL数据,保留一部分URL数据,将时间顺序属性转化为空间顺序属性,清理方式简单。且本发明实施例并不会将所有的数据一次性清除,提高数据的稳定性,避免业务波动,有效的减少了系统的波动范围,可以降低了对系统其他模块的冲击。
进一步,相对于现有技术中提及的利用时间窗口清理数据的方式,本发明实施例无须使用时间窗口,不需要记录数据的时间属性,节省存储开销。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的适于URL数据抓取中对数据缓存的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种适于URL数据抓取中对数据缓存的方法,包括:
周期性抓取URL数据;
将每次抓取的URL数据均有序缓存到第一布隆过滤器Bloomfilter存储容器和第二Bloomfilter存储容器中,其中,第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量相同;
在URL数据的存储过程中,监控所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的URL数据存储量;
根据监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器。
2.根据权利要求1所述的方法,其中,所述根据监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器,包括:
在所述第一Bloomfilter存储容器储存的数据存储量首次到达预设临界值时,清空所述第二Bloomfilter存储容器。
3.根据权利要求2所述的方法,其中,所述根据监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器,还包括:
在所述第二Bloomfilter存储容器首次被清空后,
当所述第二Bloomfilter存储容器的数据存储量再次达到预设临界值时,清空所述第一Bloomfilter存储容器;以及
当所述第一Bloomfilter存储容器的数据存储量再次达到预设临界值时,清空所述第二Bloomfilter存储容器。
4.根据权利要求2或3所述的方法,其中,所述预设临界值为存储容量的1/2。
5.根据权利要求1至4任一项所述的方法,其中,所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量根据抓取URL数据的周期变化进行调节。
6.一种适于URL数据抓取中对数据缓存的装置,包括:
数据抓取器,配置为周期性抓取URL数据;
第一布隆过滤器Bloomfilter存储容器,配置为有序缓存所述数据抓取器每次抓取的URL数据;
第二Bloomfilter存储容器,与所述第一Bloomfilter存储容器容量相同,配置为与所述第一Bloomfilter存储容器同步有序缓存所述数据抓取器每次抓取的URL数据;
监控器,配置为在URL数据的存储过程中,监控所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的URL数据存储量;
数据清空器,配置为根据所述监控器监控的数据存储情况,轮流清空所述第二Bloomfilter存储容器和所述第一Bloomfilter存储容器。
7.根据权利要求6所述的装置,其中,所述数据清空器还配置为:
在所述监控器监控到所述第一Bloomfilter存储容器储存的数据存储量首次到达预设临界值时,清空所述第二Bloomfilter存储容器。
8.根据权利要求7所述的装置,其中,所述数据清空器还配置为:
在所述第二Bloomfilter存储容器首次被清空后,
当所述监控器监控到所述第二Bloomfilter存储容器的数据存储量再次达到预设临界值时,清空所述第一Bloomfilter存储容器;以及
当所述监控器监控到所述第一Bloomfilter存储容器的数据存储量再次达到预设临界值时,清空所述第二Bloomfilter存储容器。
9.根据权利要求7或8所述的装置,其中,所述预设临界值为存储容量的1/2。
10.根据权利要求6至9任一项所述的装置,其中,还包括:
容量调节器,配置为根据所述数据抓取器抓取URL数据的周期变化,对所述第一Bloomfilter存储容器和第二Bloomfilter存储容器的存储容量进行调节。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610237936.5A CN105930405B (zh) | 2013-07-12 | 2013-07-12 | 适于url数据抓取中对数据缓存的方法及装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310293574.8A CN103383665B (zh) | 2013-07-12 | 2013-07-12 | 适于url数据抓取中对数据缓存的方法及装置 |
CN201610237936.5A CN105930405B (zh) | 2013-07-12 | 2013-07-12 | 适于url数据抓取中对数据缓存的方法及装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310293574.8A Division CN103383665B (zh) | 2013-07-12 | 2013-07-12 | 适于url数据抓取中对数据缓存的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105930405A true CN105930405A (zh) | 2016-09-07 |
CN105930405B CN105930405B (zh) | 2019-09-24 |
Family
ID=49491462
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310293574.8A Expired - Fee Related CN103383665B (zh) | 2013-07-12 | 2013-07-12 | 适于url数据抓取中对数据缓存的方法及装置 |
CN201610237936.5A Active CN105930405B (zh) | 2013-07-12 | 2013-07-12 | 适于url数据抓取中对数据缓存的方法及装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310293574.8A Expired - Fee Related CN103383665B (zh) | 2013-07-12 | 2013-07-12 | 适于url数据抓取中对数据缓存的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN103383665B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020272A (zh) * | 2017-08-14 | 2019-07-16 | 中国电信股份有限公司 | 缓存方法、装置以及计算机存储介质 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933054B (zh) * | 2014-03-18 | 2018-07-06 | 上海帝联信息科技股份有限公司 | 缓存资源文件的url存储方法及装置、缓存服务器 |
US9634992B1 (en) | 2015-02-28 | 2017-04-25 | Palo Alto Networks, Inc. | Probabilistic duplicate detection |
CN106487759A (zh) * | 2015-08-28 | 2017-03-08 | 北京奇虎科技有限公司 | 一种检测推广url有效性和安全性的方法和装置 |
FR3042624A1 (fr) * | 2015-10-19 | 2017-04-21 | Orange | Procede d'aide a la detection d'infection d'un terminal par un logiciel malveillant |
CN111159436B (zh) * | 2018-11-07 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 一种推荐多媒体内容的方法、装置及计算设备 |
CN111931028A (zh) * | 2020-08-18 | 2020-11-13 | 北京微步在线科技有限公司 | 一种基于k8s的监控系统及监控方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101539932A (zh) * | 2009-01-21 | 2009-09-23 | 北京跳网无限科技发展有限公司 | 转化页面的同期访问技术 |
CN101742263A (zh) * | 2009-12-08 | 2010-06-16 | 北京互信互通信息技术股份有限公司 | 一种存储视频监控录像数据的方法 |
CN102137086A (zh) * | 2010-09-10 | 2011-07-27 | 华为技术有限公司 | 数据传输处理方法、装置及系统 |
CN102164160A (zh) * | 2010-12-31 | 2011-08-24 | 青岛海信传媒网络技术有限公司 | 支持大并发量文件下载的方法、装置及系统 |
CN102214172A (zh) * | 2010-04-06 | 2011-10-12 | 腾讯科技(深圳)有限公司 | 一种高速缓存的方法及设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8250080B1 (en) * | 2008-01-11 | 2012-08-21 | Google Inc. | Filtering in search engines |
CN102253991B (zh) * | 2011-05-25 | 2014-07-30 | 北京星网锐捷网络技术有限公司 | Url存储方法、网页过滤方法、装置及系统 |
CN102663058B (zh) * | 2012-03-30 | 2013-12-18 | 华中科技大学 | 一种分布式网络爬虫系统中的url去重方法 |
-
2013
- 2013-07-12 CN CN201310293574.8A patent/CN103383665B/zh not_active Expired - Fee Related
- 2013-07-12 CN CN201610237936.5A patent/CN105930405B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101539932A (zh) * | 2009-01-21 | 2009-09-23 | 北京跳网无限科技发展有限公司 | 转化页面的同期访问技术 |
CN101742263A (zh) * | 2009-12-08 | 2010-06-16 | 北京互信互通信息技术股份有限公司 | 一种存储视频监控录像数据的方法 |
CN102214172A (zh) * | 2010-04-06 | 2011-10-12 | 腾讯科技(深圳)有限公司 | 一种高速缓存的方法及设备 |
CN102137086A (zh) * | 2010-09-10 | 2011-07-27 | 华为技术有限公司 | 数据传输处理方法、装置及系统 |
CN102164160A (zh) * | 2010-12-31 | 2011-08-24 | 青岛海信传媒网络技术有限公司 | 支持大并发量文件下载的方法、装置及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020272A (zh) * | 2017-08-14 | 2019-07-16 | 中国电信股份有限公司 | 缓存方法、装置以及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103383665B (zh) | 2016-04-27 |
CN103383665A (zh) | 2013-11-06 |
CN105930405B (zh) | 2019-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105930405A (zh) | 适于url数据抓取中对数据缓存的方法及装置 | |
CN103092999B (zh) | 一种网页抓取周期调整方法和装置 | |
CN104077402B (zh) | 数据处理方法和数据处理系统 | |
CN103942639B (zh) | 用于政策咨询服务系统的政策管理系统及其方法 | |
CN106557494B (zh) | 更新列存储表的方法及装置 | |
CN103942210A (zh) | 海量日志信息的处理方法、装置与系统 | |
CN106202569A (zh) | 一种基于大数据量的清洗方法 | |
CN104731956A (zh) | 同步数据的方法、系统及相关数据库 | |
CN105183873A (zh) | 恶意点击行为检测方法及装置 | |
CN109600258A (zh) | 工业协议报文记录装置及方法 | |
CN105446893A (zh) | 数据存储方法及设备 | |
CN104346458B (zh) | 数据存储方法和存储设备 | |
CN107943718A (zh) | 一种清理缓存文件的方法和装置 | |
CN104778193B (zh) | 数据去重方法及装置 | |
CN104408169A (zh) | 基于多维表达式语言的维度查询方法及装置 | |
CN106294206A (zh) | 一种缓存数据处理方法以及装置 | |
CN106649044A (zh) | 一种基于容器云系统的日志处理方法、装置及其系统 | |
CN103888321A (zh) | 一种数据流检测方法及多核处理设备 | |
CN104933054B (zh) | 缓存资源文件的url存储方法及装置、缓存服务器 | |
CN102902768B (zh) | 文件内容搜索显示方法及系统 | |
CN108984583A (zh) | 一种基于日志文件的搜索方法 | |
CN106033438A (zh) | 舆情数据存储方法和服务器 | |
CN103914486B (zh) | 文档的搜索及展现的系统 | |
CN104219271B (zh) | 基于多线程异步下载页面的多服务器同步方法 | |
CN107193498A (zh) | 一种对数据进行去重复处理的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190826 Address after: 100015 Floor 15, Floor 17, Floor 1712, Building No. 3, Jia 10, Jiuxianqiao Road, Chaoyang District, Beijing Applicant after: Beijing Xinfutianheng Technology Co., Ltd. Address before: 100088 Beijing city Xicheng District xinjiekouwai Street 28, block D room 112 (Desheng Park) Applicant before: Beijing Qihu Technology Co., Ltd. Applicant before: Qizhi Software (Beijing) Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |