CN103984753B - 一种网络爬虫去重特征值的提取方法和装置 - Google Patents

一种网络爬虫去重特征值的提取方法和装置 Download PDF

Info

Publication number
CN103984753B
CN103984753B CN201410231745.9A CN201410231745A CN103984753B CN 103984753 B CN103984753 B CN 103984753B CN 201410231745 A CN201410231745 A CN 201410231745A CN 103984753 B CN103984753 B CN 103984753B
Authority
CN
China
Prior art keywords
url
eigenvalue
multiplex
multiplex eigenvalue
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410231745.9A
Other languages
English (en)
Other versions
CN103984753A (zh
Inventor
黎小为
周东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201410231745.9A priority Critical patent/CN103984753B/zh
Publication of CN103984753A publication Critical patent/CN103984753A/zh
Application granted granted Critical
Publication of CN103984753B publication Critical patent/CN103984753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Abstract

本发明公开了一种网络爬虫去重特征值的提取方法,包括:步骤一,根据目标网站的统一资源定位符URL域名和URL种子特征生成正则表达式;步骤二,从目标网站的URL地址中捕获与所述正则表达式匹配的字符串;步骤三,对所述字符串进行预定的格式转换,得到所述URL地址的去重特征值。本发明还提供一种网络爬虫去重特征值的提取装置。本发明适用于对不同URL链接指向相同页面的情况实现去重。

Description

一种网络爬虫去重特征值的提取方法和装置
技术领域
本发明涉及互联网技术领域,具体涉及一种网络爬虫去重特征值的提取方法和装置。
背景技术
互联网中链接数量庞大,URL(Uniform Resource Locator,统一资源定位符)链接数有上百亿个,网络爬虫(Web Spider)在抓取网页时对重复URL进行过滤去重,可防止对相同网页重复下载,这不仅避免了网络IO资源的浪费和爬虫抓取速度降低,同时也可避免数据冗余和重复处理导致的资源浪费。在爬虫去重过程中,URL去重特征值(唯一标识网页的字符串)的提取是过滤去重的重要环节,去重特征值的正确与否,直接影响爬虫的抓取速度。
对于去重特征值的生成,主要是针对抓取的URL种子做去重算法,获得URL种子的去重特征值,目前较主流的方法有三种:
1)MD5去重特征值生成方法:使用网页URL链接做MD5运算,将得到的MD5值作为去重特征值。
2)Hash去重特征值生成方法:使用网页URL链接做Hash运算,将得到的hash值作为去重特征值。
3)URL字符串特征值生成方法:直接使用网页URL作为去重特征值。
经过大量研究分析发现,利用上述三类方案,虽然能够获得去重特征值,实现URL的过滤去重,但是,对于不同的URL指向相同网页的情况,此类方案还是针对不同URL生成不同的去重特征值,则爬虫也将无法识别重复页面,仍将每个URL对应的页面一一下载。例如,新浪微博的两条URL链接“http://weibo.com/2946321900/zEeRM2NCS”和“http://weibo.com/2946321900/zEeRM2NCS?a”,两条链接是指向同一个微博页面的,但是这两条微博的URL串并不是完全一样。那么,用现有的去重特征值生成方法对这两个URL串处理,会产生两个不同的去重特征值,网络爬虫会认为这是两个不同的网页,进而进行重复下载,这也就意味着去重失败。
对于上述情况,对于相同页面的不同URL去重失败,不仅存在网络资源和系统内存方面的浪费,并且在数据挖掘领域,将相同页面当成不同页面进行处理将严重影响最终的数据分析效果。
发明内容
有鉴于此,本发明提出一种网络爬虫去重特征值的提取方法和装置,根据目标网站URL特点,提取URL特征子串用来生成去重特征值,可实现相同页面的不同URL的去重。
本发明提供一种网络爬虫去重特征值的提取方法,包括:步骤一,根据目标网站的统一资源定位符URL域名和URL种子特征生成正则表达式;步骤二,从目标网站的URL地址中捕获与正则表达式匹配的字符串;步骤三,对字符串进行预定的格式转换,得到URL地址的去重特征值。
优选地,在步骤三之前,该方法还包括:为步骤二中捕获的字符串添加第一预设编号和第二预设编号;其中第一预设编号与目标网站相对应,第二预设编号与URL种子的类型相对应。
优选地,URL种子的类型包括指向入口类型、指向列表类型和指向单品类型。
优选地,在步骤三中,进行预定的格式转换时采用MD5第5版信息摘要算法运算。
优选地,在步骤三之后,该方法还包括:查询去重特征值集合,判断URL地址的去重特征值是否存在于去重特征值集合中,如果存在,放弃URL地址的去重特征值;如果不存在,下载URL地址的页面,并将URL地址的去重特征值添加至去重特征值集合中;其中去重特征值集合中的元素为已完成页面下载的URL地址的去重特征值。
优选地,去重特征值集合存储于Redis存储系统中,其中以去重特征值为键,以对应的数据库自增ID为值。
优选地,在步骤一中,如果目标网站的URL种子特征为该URL种子中含有商品库存量单位SKU信息,则在步骤二中,从URL地址中捕获的字符串至少含有SKU信息。
本发明还提供一种网络爬虫去重特征值的提取装置,包括:正则表达式生成模块,用于根据目标网站的统一资源定位符URL域名和URL种子特征生成正则表达式;字符串捕获模块,用于从目标网站的URL地址中捕获与正则表达式匹配的字符串;去重特征值提取模块,用于对字符串进行预定的格式转换,得到URL地址的去重特征值。
本发明的有益效果:本发明提出一种针对能唯一标识网页特征值的提取方案,一方面可以生成唯一的网页特征串,避免传统网络爬虫重复下载、同一网页二次抽取的情况;另一方面该特征串比原URL串的长度更短,在使用特征串进行运算时,运算效率更高,可节约所需内存空间和中央处理器CPU资源。本发明基于定向网络爬虫的特点,可迎合网络爬虫快速去重的需求,弥补现有特征值提取方法的不足,提高网络爬虫去重的准确性,对电商商品信息抓取,微博、新闻网站信息抓取的去重效果明显。将该方案应用于互联网成千上万的网络爬虫应用,将大幅减少整个互联网的不必要网络流量,优化互联网环境。
附图说明
图1是本发明实施例的网络爬虫去重特征值的提取方法流程框图。
图2是本发明的优选实施例的网络爬虫去重特征值的提取方法流程框图。
图3是本发明实施例的网络爬虫去重特征值的提取装置结构框图。
图4是本发明优选实施例的网络爬虫去重特征值的提取装置结构框图。
具体实施方式
以下结合附图以及具体实施例,对本发明的技术方案进行详细描述。
本发明基于目标网站URL字符串的特征,从爬虫推送的URL链接中提取能唯一标识该网页的子串作为网页特征串,然后对特征串进行格式转换得到去重特征值。针对有多个URL链接指向同一页面的情况,通过该方法的特征值去重后,对该页面仅下载一次,不会发生重复下载的情况。
图1示出了本发明实施例的网络爬虫去重特征值的提取方法的流程框图,包括:
S101,根据目标网站的URL域名和URL种子特征生成正则表达式;
S102,从目标网站的URL地址中捕获与正则表达式匹配的字符串;
S103,将该字符串作为URL地址的特征字符串,对特征字符串进行预定的格式转换,得到页面的去重特征值。
在实际应用场景中,上述的爬虫URL去重规则针对定向网站的URL去重,即事先已经掌握所要抓取的目标网站的信息,如网站URL域名和种子特征等,以亚马逊网站数据抓取的去重特征值抽取为例,参考图2,URL域名为www.amazon.cn,爬虫推送待抓取的URL种子,例如:
http://www.amazon.cn/Kindle-Fire-HD-16GB-%E5%B9%B3%E6%9D%BF%E7%94%B5%E8%84%91/dp/B00960YR3Q/ref=sr_1_1?s=pc&ie=UTF8&qid=1393480965&sr=1-1,以及
http://www.amazon.cn/gp/product/B00960YR3Q/ref=famstripe_kfh_sale。
上述两个亚马逊网站的URL链接指向同一个产品页,两者中都含有字符串“B00960YR3Q”,该字符串表征的是产品的SKU(Stock KeepingUnit,库存量单位)信息。关于SKU,其是产品库存进出计量的单位,是大型连锁超市配送中心及物流管理的必要方法,目前SKU已被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。
也就是说,该产品页的URL中含有产品的SKU,掌握了这种URL种子的特征,正则表达式的编写规则可根据URL域名和种子特征来编写,目的是将具有共性特征的产品SKU提取出来,例如,本实施例编写的正则表达式可为:http://www.amazon.cn/.*?/(dp|product)/([\w]+)/.*,其中,正则表达式的组1即第一个括号(dp|product)表示匹配元素为字符串“dp”或“product”,组2即第二个括号([\w]+)表示匹配元素是任何数字和字母。
然后,利用编写好的正则表达式,从例如第一个URL可捕获组2匹配的字符串,捕获结果是子串B00960YR3Q,B00960YR3Q就是该第一个URL链接的特征串。
最后,为统一字符串格式,对特征串B00960YR3Q进行格式转换,例如可采用32位MD5运算、32位Rabin Hash算法等。
以采用MD5运算为例,转换后得到:
08BD80B9CEB6450CD2804BFF6E698EF4,即提取到了第一个URL的去重特征值,也可称为MD5特征值。
将去重特征值存放在去重特征值集合中,在后续处理应用中,当爬虫推送第二个URL时,根据正则表达式捕获到的特征串必然也是B00960YR3Q,得到的MD5特征值必然也是08BD80B9CEB6450CD2804BFF6E698EF4,则在进行URL去重时,发现去重特征值集合中已经存在该MD5特征值,说明出现了重复特征值,则将第二个URL的MD5特征值过滤掉,对应的页面不予下载。
利用上述方案,可以从URL种子中提取特征字符串,得到网页的唯一特征值,达到正确去重的目的,指向同一网页的URL只需下载一次,减少下载次数,节省网络带宽;并且,以少量的去重特征值代替以往一个URL对应一个特征值的形式,可节省去重特征值集合所占内存,同时节省网页存储空间。
此外,以产品的SKU信息作为URL种子特征编写正则表达式的好处是,对于例如电商的商品信息,同一件产品只对应唯一的SKU号,而顾客想要找到该产品的入口则非常多(比如综合性电商网站的列表页、商家的网络旗舰店等),不同的入口将生成不同的URL链接,本发明利用这些链接中作为共性存在的SKU号提取出去重特征值,那么对于同一件产品的网络信息页面将只需要下载一次,而不会反复下载,去重效果明显。
在本发明的实施例中,在以MD5运算生成MD5特征值之前,为了区分和记录方便,可针对不同的感兴趣网站,对URL的特征串添加目标网站的编号和种子的类型(如入口种子、产品列表页、单品页等)的编号,以“网站编号+种子类型编号+URL的特征串”的形式进行MD5运算。举例来说,对于当当网商城:
入口种子URL为:http://category.dangdang.com/?ref=www-0-C#ref=www-0-C,
列表种子URL为:http://category.dangdang.com/cid4002778.html,
单品种子URL为:
http://product.dangdang.com/1214326222.html#ddclick?act=click&pos=1214326222_27_1_m&cat=4002778&key=&qinfo=&pinfo=&minfo=125561_1_58&ninfo=&custid=&permid=20140317171356879105326198484281259&ref=&rcount=&type=&t=1400765930000;
设置目标网站即当当网的编号为01;种子的类型有三种(指向入口页面的种子、指向列表页面的种子和指向单品页面种子),编号分别为:指向入口-01,指向列表-02,指向单品-03。
对三个URL提取特征串,分别为:
Category,
cid4002778,
1214326222。
添加网站编号和种子类型编号后为:
01_01_category,
01_02_cid4002778,
01_03_1214326222;
然后进行MD5编码得到MD5特征值,分别为:
5A21D3BB2332C7D8115B9D59EF38FDEC,
854C7CA169C5CE46DCF88ABF696823A9,
8D585CBE2FCCCCEF11CCB3FA4376E4D3。
在本发明的实施例中,对于去重特征值集合的建立,可在爬虫爬取URL种子进行去重的过程中逐渐更新扩充。
首先,将一个入口种子URL的MD5值存储到数据库,存储时,注意设置好网站编号、种子类型编号和URL特征串,将该MD5值作为一个去重特征值保存在数据库,作为去重特征值集合。
然后,当进行URL去重时,以新生成的MD5特征值查询这个去重特征值集合,发现集合中不存在相同的MD5特征值,说明应当保留该MD5特征值,下载该页面;如果集合中已经存在相同的MD5特征值,说明应当将该MD5特征值过滤掉,实现URL去重。
在实际应用中,通过种子URL爬虫会衍生大量URL,衍生的URL生成MD5特征值,再利用MD5特征值集合去重,同时对MD5特征值集合进行更新。另外,如果抓取到不存在的URL,还可给出“页面不存在”的提示,或者跳转到其它指定页面。
在本发明的实施例中,存储去重特征值集合的数据库可产生自增ID,基于自增ID和对应的MD5特征值,将MD5特征值作为键,数据库ID作为值,保存至内存存储系统中,如Redis存储系统。
可以看到,本发明以提取后的子串参与去重特征值的计算,计算效率高,相比之下,原始的以URL地址字符串直接参与去重特征值计算,计算效率低。参考图2实施例,对于
http://www.amazon.cn/Kindle-Fire-HD-16GB-%E5%B9%B3%E6%9D%BF%E7%94%B5%E8%84%91/dp/B00960YR3Q/ref=sr_1_1?s=pc&ie=UTF8&qid=1393480965&sr=1-1和
http://www.amazon.cn/gp/product/B00960YR3Q/ref=famstripe_kfh_sale,以往将保存两个种子到去重特征值集合,而利用本发明仅需要保存一个去重特征值,推而广之,如果有一亿数量的URL地址需去重计算,本发明对每个URL提取之后的特征子串为原URL字符串的一半长度,那么参与计算的字符串将减少一半数量,减少到5千万,相应地需要的内存和CPU资源也可减少一半。对于大型网络爬虫需处理去重的URL地址数亿的情况,当大量该类型的种子存在时,可大量减少需要的计算和机器内存,从而节省存储空间和软硬资源。
除此之外,本发明还提供一种网络爬虫去重特征值的提取装置,参考图3,包括:
正则表达式生成模块11,用于根据目标网站的统一资源定位符URL域名和URL种子特征生成正则表达式;
字符串捕获模块12,用于从目标网站的URL地址中捕获与正则表达式匹配的字符串;
去重特征值提取模块13,用于对字符串进行预定的格式转换,得到URL地址的去重特征值。
其中,该装置还包括字符串处理模块14,参考图4,其用于为字符串捕获模块捕获的字符串添加第一预设编号和第二预设编号;其中第一预设编号与目标网站相对应,第二预设编号与URL种子的类型相对应。
其中,该装置还包括去重特征值处理模块15,用于查询去重特征值集合,并判断URL地址的去重特征值是否存在于去重特征值集合中,如果存在,去重特征值处理模块放弃URL地址的去重特征值;如果不存在,去重特征值处理模块通知下载URL地址的页面,并将URL地址的去重特征值添加至去重特征值集合中;其中去重特征值集合中的元素为已完成页面下载的URL地址的去重特征值。
以上,结合具体实施例对本发明的技术方案进行了详细介绍,所描述的具体实施例用于帮助理解本发明的思想。本领域技术人员在本发明具体实施例的基础上做出的推导和变型也属于本发明保护范围之内。

Claims (12)

1.一种网络爬虫去重特征值的提取方法,其特征在于,包括:
步骤一,根据目标网站的统一资源定位符URL域名和URL种子特征生成正则表达式;
步骤二,从目标网站的URL地址中捕获与所述正则表达式匹配的字符串,所述字符串能唯一标识所述目标网站;
步骤三,对所述字符串进行预定的格式转换,得到所述URL地址的去重特征值;
查询去重特征值集合,判断所述URL地址的去重特征值是否存在于所述去重特征值集合中,如果存在,放弃所述URL地址的去重特征值;如果不存在,下载所述URL地址的页面,并将所述URL地址的去重特征值添加至所述去重特征值集合中;其中所述去重特征值集合中的元素为已完成页面下载的URL地址的去重特征值。
2.如权利要求1所述的网络爬虫去重特征值的提取方法,其特征在于,在步骤三之前,所述方法还包括:
为步骤二中捕获的字符串添加第一预设编号和第二预设编号;其中第一预设编号与目标网站相对应,第二预设编号与URL种子的类型相对应。
3.如权利要求2所述的网络爬虫去重特征值的提取方法,其特征在于,所述URL种子的类型包括指向入口类型、指向列表类型和指向单品类型。
4.如权利要求1所述的网络爬虫去重特征值的提取方法,其特征在于,在步骤三中,进行所述预定的格式转换时采用MD5第5版信息摘要算法运算。
5.如权利要求1所述的网络爬虫去重特征值的提取方法,其特征在于,所述去重特征值集合存储于Redis存储系统中,其中以去重特征值为键,以对应的数据库自增ID为值。
6.如权利要求1所述的网络爬虫去重特征值的提取方法,其特征在于,在步骤一中,如果目标网站的URL种子特征为该URL种子中含有商品库存量单位SKU信息,则在步骤二中,从所述URL地址中捕获的字符串至少含有所述SKU信息。
7.一种网络爬虫去重特征值的提取装置,其特征在于,包括:
正则表达式生成模块,用于根据目标网站的统一资源定位符URL域名和URL种子特征生成正则表达式;
字符串捕获模块,用于从目标网站的URL地址中捕获与所述正则表达式匹配的字符串,所述字符串能唯一标识所述目标网站;
去重特征值提取模块,用于对所述字符串进行预定的格式转换,得到所述URL地址的去重特征值;
去重特征值处理模块,用于查询去重特征值集合,并判断所述URL地址的去重特征值是否存在于所述去重特征值集合中,如果存在,所述去重特征值处理模块放弃所述URL地址的去重特征值;如果不存在,所述去重特征值处理模块通知下载所述URL地址的页面,并将所述URL地址的去重特征值添加至所述去重特征值集合中;其中所述去重特征值集合中的元素为已完成页面下载的URL地址的去重特征值。
8.如权利要求7所述的网络爬虫去重特征值的提取装置,其特征在于,所述装置还包括:
字符串处理模块,用于为所述字符串捕获模块捕获的字符串添加第一预设编号和第二预设编号;其中第一预设编号与目标网站相对应,第二预设编号与URL种子的类型相对应。
9.如权利要求8所述的网络爬虫去重特征值的提取装置,其特征在于,所述URL种子的类型包括指向入口类型、指向列表类型和指向单品类型。
10.如权利要求7所述的网络爬虫去重特征值的提取装置,其特征在于,在所述去重特征值提取模块进行所述预定的格式转换时采用MD5第5版信息摘要算法运算。
11.如权利要求7所述的网络爬虫去重特征值的提取装置,其特征在于,所述去重特征值集合存储于Redis存储系统中,其中以去重特征值为键,以对应的数据库自增ID为值。
12.如权利要求7所述的网络爬虫去重特征值的提取装置,其特征在于,如果目标网站的URL种子特征为该URL种子中含有商品库存量单位SKU信息,则所述字符串捕获模块从所述URL地址中捕获的字符串至少含有所述SKU信息。
CN201410231745.9A 2014-05-28 2014-05-28 一种网络爬虫去重特征值的提取方法和装置 Active CN103984753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410231745.9A CN103984753B (zh) 2014-05-28 2014-05-28 一种网络爬虫去重特征值的提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410231745.9A CN103984753B (zh) 2014-05-28 2014-05-28 一种网络爬虫去重特征值的提取方法和装置

Publications (2)

Publication Number Publication Date
CN103984753A CN103984753A (zh) 2014-08-13
CN103984753B true CN103984753B (zh) 2018-02-09

Family

ID=51276726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410231745.9A Active CN103984753B (zh) 2014-05-28 2014-05-28 一种网络爬虫去重特征值的提取方法和装置

Country Status (1)

Country Link
CN (1) CN103984753B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106302202B (zh) * 2015-05-15 2020-07-28 阿里巴巴集团控股有限公司 数据限流方法和装置
CN105045872A (zh) * 2015-07-16 2015-11-11 北京京东尚科信息技术有限公司 信息的筛选方法及装置
CN105373598B (zh) * 2015-10-27 2017-03-15 广州神马移动信息科技有限公司 作弊站点识别方法及装置
CN105468683A (zh) * 2015-11-16 2016-04-06 孙宝文 对网址进行查重的方法及装置
CN106919570B (zh) * 2015-12-24 2020-12-22 国家新闻出版广电总局广播科学研究院 一种面向网络新媒体的页面链接去重扫描方法及装置
CN105630983A (zh) * 2015-12-28 2016-06-01 努比亚技术有限公司 一种资源获取优化装置和方法
CN107045507B (zh) * 2016-02-05 2020-08-21 北京国双科技有限公司 网页爬取方法及装置
CN109657118A (zh) * 2018-11-21 2019-04-19 安徽云融信息技术有限公司 一种分布式网络爬虫的url去重方法及其系统
CN109462439A (zh) * 2018-12-29 2019-03-12 广州市诚臻电子科技有限公司 一种综合信号光电转换装置
CN111666267A (zh) * 2019-03-05 2020-09-15 国家计算机网络与信息安全管理中心 一种数据清洗方法、装置及终端设备
CN111324797B (zh) * 2020-02-20 2023-08-11 民生科技有限责任公司 一种高速精准获取数据的方法和装置
CN112422707A (zh) * 2020-10-22 2021-02-26 北京安博通科技股份有限公司 域名数据挖掘方法、装置及Redis服务器
CN114020651B (zh) * 2022-01-06 2022-05-27 深圳市明源云科技有限公司 基于接口地址去重方法、装置、设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7814084B2 (en) * 2007-03-21 2010-10-12 Schmap Inc. Contact information capture and link redirection
CN101944093A (zh) * 2009-07-03 2011-01-12 中国电信股份有限公司 一种网络信息的搜索方法和系统
CN103793461A (zh) * 2013-12-02 2014-05-14 北京奇虎科技有限公司 网页信息的解析方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7814084B2 (en) * 2007-03-21 2010-10-12 Schmap Inc. Contact information capture and link redirection
CN101944093A (zh) * 2009-07-03 2011-01-12 中国电信股份有限公司 一种网络信息的搜索方法和系统
CN103793461A (zh) * 2013-12-02 2014-05-14 北京奇虎科技有限公司 网页信息的解析方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《面向Web的图书信息抽取方法与实现》;王飞剑;《中国优秀硕士学位论文全文数据库 信息科技辑》;20111215(第S1期);正文第22页 *

Also Published As

Publication number Publication date
CN103984753A (zh) 2014-08-13

Similar Documents

Publication Publication Date Title
CN103984753B (zh) 一种网络爬虫去重特征值的提取方法和装置
CN102667776B (zh) 用于处理信息流的信息的方法和系统
CN104778164B (zh) 检测重复url的方法及装置
CN111523072A (zh) 页面访问数据统计方法、装置、电子设备及存储介质
CN103530339A (zh) 移动应用信息推送方法和装置
CN105512143A (zh) 一种网页分类方法及装置
CN103377260A (zh) 一种网络日志url 的分析方法及装置
CN104598536B (zh) 一种分布式网络信息结构化处理方法
CN105302876A (zh) 基于正则表达式的url过滤方法
CN112204543A (zh) 用于分布式系统的频繁模式分析
CN103902667A (zh) 一种基于元搜索的网络信息采集器简单实现方法
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
CN103078854A (zh) 报文过滤方法与装置
Zhan et al. Fast incremental pagerank on dynamic networks
CN106874368B (zh) 一种rtb竞价广告位价值分析方法及系统
Abbas et al. Fast dynamic clustering SOAP messages based compression and aggregation model for enhanced performance of Web services
Kumar et al. Near-duplicate web page detection: an efficient approach using clustering, sentence feature and fingerprinting
CN110019152A (zh) 一种大数据清洗方法
CN106933903A (zh) 应用于分布式存储的存储方法及装置
Samusevich et al. Local triangle-densest subgraphs
CN104636384B (zh) 一种处理文档的方法及装置
CN116127178A (zh) 基于属性多重异构信息网络的网络文章影响力评估方法
CN105117448A (zh) 一种网络购物中基于图片的产品曝光率算法及系统
CN113722416A (zh) 一种数据清洗方法、装置、设备及可读存储介质
Rao et al. Understanding user behavior using web usage mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant