CN106919570B - 一种面向网络新媒体的页面链接去重扫描方法及装置 - Google Patents

一种面向网络新媒体的页面链接去重扫描方法及装置 Download PDF

Info

Publication number
CN106919570B
CN106919570B CN201510983177.2A CN201510983177A CN106919570B CN 106919570 B CN106919570 B CN 106919570B CN 201510983177 A CN201510983177 A CN 201510983177A CN 106919570 B CN106919570 B CN 106919570B
Authority
CN
China
Prior art keywords
field
characteristic value
url
link
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510983177.2A
Other languages
English (en)
Other versions
CN106919570A (zh
Inventor
何晶
尹亚光
张伟
施玉海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Academy of Broadcasting Science of SAPPRFT
Original Assignee
Academy of Broadcasting Science of SAPPRFT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Academy of Broadcasting Science of SAPPRFT filed Critical Academy of Broadcasting Science of SAPPRFT
Priority to CN201510983177.2A priority Critical patent/CN106919570B/zh
Publication of CN106919570A publication Critical patent/CN106919570A/zh
Application granted granted Critical
Publication of CN106919570B publication Critical patent/CN106919570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提出了一种面向网络新媒体的页面链接去重扫描方法及装置,该方法包括:对目标网站URL进行字段拆解处理;对拆解得到的字段进行分段处理,基于分段处理的结果生成链接特征值;将生成的链接特征值与链接特征库存储的特征值进行比较,以判断出目标网站URL是否为重复URL。本发明克服了现有技术对网站URL生成特征值并与已有特征值进行比较实现URL重复扫描效率低、工作强度大的缺陷,可以实现快速URL去重扫描,提高去重准确率,降低工作强度。

Description

一种面向网络新媒体的页面链接去重扫描方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种面向网络新媒体的页面链接去重扫描方法及装置。
背景技术
网站通过伪静态技术,存在大量相似URL(Uniform Resource Locator,统一资源定位符)链接、相似页面结构的页面。在扫描过程中对相似URL进行过滤去重,可防止对相似页面进行重复爬取,避免了爬虫记录重复数据,也加快了爬行速度。
对于网站URL去重扫描,目前较主流的方法有两种:
1)URL特征值法:直接将网页URL作为去重特征值。
2)Hash特征值法:将网页URL做Hash运算,得到Hash值作为去重特征值。
3)URL种子特征法:根据URL出现的种子特征编写正则表达式,将URL转换为统一特征串作为去重特征值。
上述方案能够获得去重特征值,实现URL的过滤去重,但是去重效率较低。
发明内容
本发明要解决的技术问题是,提供一种面向网络新媒体的网页链接去重扫描方法及装置,在网站URL爬行过程中,减少爬行工作强度,提供工作效率。
本发明采用的技术方案是,面向网络新媒体的页面链接去重扫描方法,包括:
步骤一,对目标网站URL进行字段拆解处理;
步骤二,对拆解得到的字段进行分段处理,基于分段处理的结果生成链接特征值;
步骤三,将生成的链接特征值与链接特征库存储的特征值进行比较,以判断出目标网站URL是否为重复URL。
进一步的,步骤一,具体包括:
将所述目标网站URL拆解为六个字段,包括:主机名HOST字段、高层路径UPPERPATH字段、低层路径LOWER PATH字段、文件名FILE NAME字段、文件后缀名FILE EXTENSION字段和请求QUERY字段。
进一步的,所述UPPER PATH字段与LOWER PATH字段的拆解方式,包括:
对HOST字段相同的URL路径进行同层级路径字符距离计算,层级间字符距离最小的层级对应字段为UPPER PATH字段,其余层级对应的字段为LOWER PATH字段。
进一步的,在步骤二中,所述对拆解得到的字段进行分段处理,包括:
对HOST字段和UPPER PATH字段进行哈希算法Hash处理,生成Hash特征值;
对LOWER PATH字段和FILE NAME字段进行逆正则处理,生成逆正则特征值;
将FILE EXTENSION字段和QUERY字段直接作为其他特征值。
进一步的,所述逆正则处理,包括:
顺序针对字母和数字进行如下处理:将字母和数字替换为对应的元字符,若同一元字符连续出现多次,则在该元字符前显示该元字符出现的次数。
进一步的,在步骤二中,所述基于分段处理的结果生成链接特征值,包括:
将Hash特征值、逆正则特征值和其他特征值共同组成链接特征值。
进一步的,步骤三,包括:
若生成的链接特征值与链接特征库存储的特征值匹配,则将所述目标网站URL判定为重复URL;
若生成的链接特征值与链接特征库存储的特征值不匹配,则将所述目标网站URL判定为不重复URL,同时将链接特征值存储至链接特征库。
本发明还提供一种面向网络新媒体的页面链接去重扫描装置,包括:
拆解模块,用于对目标网站URL进行字段拆解处理;
分段处理模块,用于对拆解得到的字段进行分段处理,基于分段处理的结果生成链接特征值;
比较模块,用于将生成的链接特征值与链接特征库存储的特征值进行比较,以判断出目标网站URL是否为重复URL。
进一步的,所述拆解模块,用于:
将所述目标网站URL拆解为六个字段,包括:主机名HOST字段、高层路径UPPERPATH字段、低层路径LOWER PATH字段、文件名FILE NAME字段、文件后缀名FILE EXTENSION字段和请求QUERY字段。
进一步的,所述拆解模块,具体用于:
对HOST字段相同的URL路径进行同层级路径字符距离计算,层级间字符距离最小的层级对应字段为UPPER PATH字段,其余层级对应的字段为LOWER PATH字段。
进一步的,所述分段处理模块,具体用于:
对HOST字段和UPPER PATH字段进行哈希算法Hash处理,生成Hash特征值;
对LOWER PATH字段和FILE NAME字段进行逆正则处理,生成逆正则特征值;
将FILE EXTENSION字段和QUERY字段直接作为其他特征值。
进一步的,所述逆正则处理,具体用于:
顺序针对字母和数字进行如下处理:将字母和数字替换为对应的元字符,若同一元字符连续出现多次,则在该元字符前显示该元字符出现的次数。
进一步的,所述分段处理模块,具体用于:
将Hash特征值、逆正则特征值和其他特征值共同组成链接特征值。
进一步的,所述比较模块,用于:
若生成的链接特征值与链接特征库存储的特征值匹配,则将所述目标网站URL判定为重复URL;
若生成的链接特征值与链接特征库存储的特征值不匹配,则将所述目标网站URL判定为不重复URL,同时将链接特征值存储至链接特征库。
采用上述技术方案,本发明至少具有下列优点:
本发明所述网站URL去重扫描方法及装置,可以实现对爬行目标网站的URL拆解字段处理,并对拆解得到的字段进行分段处理,生成链接特征值,并与链接特征库中存储的特征值进行比较,以判断目标URL是否为重复页面,从而有效减少爬行工作强度,提高工作效率。
附图说明
图1为本发明第一实施例的网站URL去重扫描方法流程图;
图2为本发明第二实施例的网站URL去重扫描装置组成结构示意图;
图3为本发明第三实施例网站URL去重扫描具体方法示意图。
具体实施方式
为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
本发明第一实施例,一种面向网络新媒体的页面链接去重扫描方法,如图1所示,包括以下具体步骤:
步骤S101,对目标网站URL进行字段拆解处理。
具体的,步骤S101包括:
根据爬行获得的目标网站URL进行字段拆解,将网站URL分为六个字段,包括:HOST(主机名)、UPPER PATH(高层路径)、LOWER PATH(低层路径)、FILE NAME(文件名)、FILEEXTENSION(文件后缀名)和QUERY(请求)。
上述UPPER PATH字段与LOWER PATH字段通过对HOST字段相同URL的PATH(路径)进行同层级路径字符距离计算获得,PATH层级间字符距离最小的层级为UPPER PATH字段,其余PATH层级为LOWER PATH字段。
步骤S102,对拆解得到的字段进行分段处理,基于分段处理的结果生成链接特征值。
具体的,步骤S102包括:
1)对HOST字段和UPPER PATH字段进行Hash(哈希算法)处理,生成Hash特征值。
2)对LOWER PATH字段和FILE NAME字段进行逆正则处理生成逆正则特征值,具体方法如下:
顺序判断字母和数字,将字母和数字替换为元字符,字母使用元字符s,数字使用元字符I,当同一元字符连续出现多次,在元字符前显示该元字符出现的次数。
3)将FILE EXTENSION字段和QUERY字段直接作为其他特征值。
4)将Hash特征值、逆正则特征值和其他特征值共同组成链接特征值。
步骤S103,将生成的链接特征值与链接特征库存储的特征值进行比较,以判断出目标网站URL是否为重复URL。
具体的,步骤S103包括:
通过生成的链接特征值与链接特征库存储的特征值进行比较,
若生成的链接特征值与链接特征库存储的特征值匹配,则将所述目标网站URL判定为重复URL;
若生成的链接特征值与链接特征库存储的特征值不匹配,则将所述目标网站URL判定为不重复URL,同时将链接特征值存储至链接特征库。
本发明第二实施例,与第一实施例对应,本实施例介绍一种面向网络新媒体的页面链接去重扫描装置,如图2所示,包括以下组成部分:
1)拆解模块100,用于对目标网站URL进行拆解字段处理;
具体的,拆解模块100根据爬行获得的目标网站URL进行字段拆解,将网站URL分为六个字段,包括:HOST(主机名)、UPPER PATH(高层路径)、LOWER PATH(低层路径)、FILENAME(文件名)、FILE EXTENSION(文件后缀名)和QUERY(请求)。
上述UPPER PATH字段与LOWER PATH字段通过对HOST字段相同的URL路径PATH进行同层级路径字符距离计算获得,PATH层级间字符距离最小的层级为UPPER PATH字段,其余PATH层级为LOWER PATH字段。
2)分段处理模块200,用于对拆解得到的字段进行分段处理,基于分段处理的结果生成链接特征值;
具体的,分段处理模块200对HOST字段和UPPER PATH字段进行Hash(哈希算法)处理,生成Hash特征值;
对LOWER PATH字段和FILE NAME字段进行逆正则处理,生成逆正则特征值;
将FILE EXTENSION字段和QUERY字段直接作为其他特征值;
将Hash特征值、逆正则特征值和其他特征值共同组成链接特征值。
3)比较模块300,用于将生成的链接特征值与链接特征库存储的特征值进行比较,以判断出目标网站URL是否为重复URL。
具体的,若生成的链接特征值与链接特征库存储的特征值匹配,则将所述目标网站URL判定为重复URL;
若生成的链接特征值与链接特征库存储的特征值不匹配,则将所述目标网站URL判定为不重复URL,同时将链接特征值存储至链接特征库。
本发明第三实施例,本实施例是在上述实施例的基础上,以一种面向网络新媒体的页面链接去重扫描方法为例,结合附图3介绍一个本发明的应用实例。
如图3所示,本实施例的面向网络新媒体的页面链接去重扫描方法,包括如下步骤:
步骤一,对URL中HOST相同的URL进行预爬行。
具体的,步骤一包括:
在正式URL爬行前,对于URL中HOST相同的URL进行预爬行,以计算UPPER PATH与LOWER PATH的路径深度。
所述URL预爬行是按照爬行入口URL进行距离为较少跳的爬取。
例如,距离设置为2,首页为爬行入口URL,则距离为2的预爬行会爬行到首页、所有一级菜单和二级菜单页面上的URL。
所述UPPER PATH与LOWER PATH的PATH(路径)深度计算方法通过同级PATH字符距离计算各层级字符距离,PATH层级间字符距离最小的层级对应的字段为UPPER PATH字段,其余层级对应的字段为LOWER PATH字段。
例如,预爬行获得的第一个URL为:
http://www.jlntv.cn/news/folder783/2015-10-09/66597.html?lang=cn
PATH为news/folder783/2015-10-09
预爬行获得的第二个URL为:
http://www.jlntv.cn/news/folder786/2015-11-11/66599.html?lang=cn
PATH为news/folder786/2015-11-11
则两个URL的PATH第一层级(news)的字符距离为0;
两个URL的PATH第二层级(folder783与folder786)的字符距离为3;
两个URL的PATH第三层级(2015-10-09与2015-11-11)的字符距离为10。
则UPPER PATH字段为news/;
第一个URL的LOWER PATH字段为folder783/2015-10-09;
第二个URL的LOWER PATH字段为folder786/2015-11-11。
步骤二,正式爬行获取新的网站URL。
具体的,例如,获得的URL为:
http://www.jlntv.cn/news/folder783/2015-10-09/66597.html?lang=cn
步骤三,将获得的URL拆解为六个字段。
具体的,步骤三包括:
根据爬行获得的网站URL进行拆解,将网站URL分为六个字段,包括:
HOST字段:www.jlntv.cn/
UPPER PATH字段:news/
LOWER PATH字段:folder783/2015-10-09/
FILE NAME字段:66597
FILE EXTENTION字段:html
QUERY字段:lang=cn
步骤四,根据网站URL分段处理得到的六个字段进行处理,生成链接特征值。
具体的,步骤四包括:
对HOST字段和UPPER PATH字段进行Hash(哈希算法)处理,生成Hash特征值,例如:
www.jlntv.cn/news进行Hash处理,生成Hash特征值:
d800866128caa7c82fc1305db29ba829。
对LOWER PATH字段和FILE NAME字段进行逆正则处理,生成逆正则特征值,例如:
folder783/2015-10-09/66597进行逆正则处理,顺序判断字母和数字,将字母和数字替换为元字符,字母使用元字符s,数字使用元字符I,当同一元字符连续出现多次,在元字符前显示该元字符出现的次数,生成逆正则特征值:
4s/4I-2I-2I/5I。
将FILE EXTENSION字段和QUERY字段直接作为其他特征值。
将Hash特征值、逆正则特征值和其他特征值共同组成链接特征值,例如:
d800866128caa7c82fc1305db29ba8294s/4I-2I-2I/5I.html?lang=cn
步骤五,将生成的链接特征值与链接特征库存储的特征值进行比较,以判断出目标网站URL是否为重复URL。
具体的,步骤五包括:
通过生成的链接特征值与链接特征库存储的特征值比较。若生成的链接特征值与链接特征库存储的特征值匹配,则将该网站URL判定为重复URL,返回步骤二,重新正式爬行获取新的网站URL。
若生成的链接特征值与链接特征库存储的特征值不匹配,则将该网站URL判定为不重复URL。
步骤六,将不重复的网站URL特征值存储至链接特征库。
具体的,步骤六还包括:
当完成不重复的网站URL特征值存储至链接特征库,返回步骤二,重新正式爬行获取新的网站URL。
本发明实施例的上述实现网站URL去重扫描方法及装置,克服了现有技术对网站URL生成特征值并与已有特征值进行比较实现URL重复扫描效率低、工作强度大的缺陷,可以实现快速URL去重扫描,提高去重准确率,降低工作强度。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。

Claims (6)

1.一种面向网络新媒体的页面链接去重扫描方法,其特征在于,包括:
步骤一,对目标网站URL进行字段拆解处理,拆解得到的字段包括高层路径FILE NAME字段和低层路径LOWER PATH字段,拆解得到的字段还包括:主机名HOST字段、高层路径UPPER PATH字段、文件后缀名FILE EXTENSION字段和请求QUERY字段;
步骤二,对拆解得到的字段进行分段处理,基于分段处理的结果生成链接特征值,其中,对于FILE NAME字段和LOWER PATH字段行逆正则处理,生成逆正则特征值,所述逆正则处理包括:顺序判断字母和数字,将字母和数字替换为元字符,当同一元字符连续出现多次,在元字符前显示该元字符出现的次数,所述对拆解得到的字段进行分段处理,包括:对HOST字段和UPPER PATH字段进行哈希算法Hash处理,生成Hash特征值;将FILE EXTENSION字段和QUERY字段直接作为其他特征值,所述基于分段处理的结果生成链接特征值,包括:将Hash特征值、逆正则特征值和其他特征值共同组成链接特征值;
步骤三,将生成的链接特征值与链接特征库存储的特征值进行比较,以判断出目标网站URL是否为重复URL。
2.根据权利要求1所述的面向网络新媒体的页面链接去重扫描方法,其特征在于,所述UPPER PATH字段与LOWER PATH字段的拆解方式,包括:
对HOST字段相同的URL路径进行同层级字符距离计算,层级间字符距离最小的层级对应字段为UPPER PATH字段,其余层级对应的字段为LOWER PATH字段。
3.根据权利要求1~2中任一项所述的面向网络新媒体的页面链接去重扫描方法,其特征在于,步骤三,包括:
若生成的链接特征值与链接特征库存储的特征值匹配,则将所述目标网站URL判定为重复URL;
若生成的链接特征值与链接特征库存储的特征值不匹配,则将所述目标网站URL判定为不重复URL,同时将链接特征值存储至链接特征库。
4.一种面向网络新媒体的页面链接去重扫描装置,其特征在于,包括:
拆解模块,用于对目标网站URL进行字段拆解处理,拆解得到的字段包括高层路径FILENAME字段和低层路径LOWER PATH字段,拆解得到的字段还包括:主机名HOST字段、高层路径UPPER PATH字段、文件后缀名FILE EXTENSION字段和请求QUERY字段;
分段处理模块,用于对拆解得到的字段进行分段处理,基于分段处理的结果生成链接特征值,其中,对于FILE NAME字段和LOWER PATH字段行逆正则处理,生成逆正则特征值,所述逆正则处理包括:顺序判断字母和数字,将字母和数字替换为元字符,当同一元字符连续出现多次,在元字符前显示该元字符出现的次数,所述对拆解得到的字段进行分段处理,包括:对HOST字段和UPPER PATH字段进行哈希算法Hash处理,生成Hash特征值;将FILEEXTENSION字段和QUERY字段直接作为其他特征值,所述基于分段处理的结果生成链接特征值,包括:将Hash特征值、逆正则特征值和其他特征值共同组成链接特征值;
比较模块,用于将生成的链接特征值与链接特征库存储的特征值进行比较,以判断出目标网站URL是否为重复URL。
5.根据权利要求4所述的面向网络新媒体的页面链接去重扫描装置,其特征在于,所述拆解模块,具体用于:
对HOST字段相同的URL路径进行同层级字符距离计算,层级间字符距离最小的层级对应字段为UPPER PATH字段,其余层级对应的字段为LOWER PATH字段。
6.根据权利要求4~5中任一项所述的面向网络新媒体的页面链接去重扫描装置,其特征在于,所述比较模块,用于:
若生成的链接特征值与链接特征库存储的特征值匹配,则将所述目标网站URL判定为重复URL;
若生成的链接特征值与链接特征库存储的特征值不匹配,则将所述目标网站URL判定为不重复URL,同时将链接特征值存储至链接特征库。
CN201510983177.2A 2015-12-24 2015-12-24 一种面向网络新媒体的页面链接去重扫描方法及装置 Active CN106919570B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510983177.2A CN106919570B (zh) 2015-12-24 2015-12-24 一种面向网络新媒体的页面链接去重扫描方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510983177.2A CN106919570B (zh) 2015-12-24 2015-12-24 一种面向网络新媒体的页面链接去重扫描方法及装置

Publications (2)

Publication Number Publication Date
CN106919570A CN106919570A (zh) 2017-07-04
CN106919570B true CN106919570B (zh) 2020-12-22

Family

ID=59457615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510983177.2A Active CN106919570B (zh) 2015-12-24 2015-12-24 一种面向网络新媒体的页面链接去重扫描方法及装置

Country Status (1)

Country Link
CN (1) CN106919570B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984703B (zh) * 2018-07-05 2023-04-18 平安科技(深圳)有限公司 一种统一资源定位符url去重方法及装置
CN108920668B (zh) * 2018-07-05 2023-04-18 平安科技(深圳)有限公司 一种统一资源定位符url去重方法及装置
CN110825947B (zh) * 2019-10-31 2024-03-08 深圳前海微众银行股份有限公司 Url去重方法、装置、设备与计算机可读存储介质
CN110941788A (zh) * 2019-12-17 2020-03-31 山西云时代技术有限公司 边缘计算的云环境分布式Web页面提取分析系统和方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567337B (zh) * 2010-12-15 2017-11-24 盛乐信息技术(上海)有限公司 一种通过链接快速识别网页类型的方法及系统
AU2012282792B2 (en) * 2011-07-08 2015-07-30 Uab Research Foundation Syntactical fingerprinting
CN104636340A (zh) * 2013-11-06 2015-05-20 腾讯科技(深圳)有限公司 网页url过滤方法、装置及系统
CN104933056B (zh) * 2014-03-18 2019-08-13 腾讯科技(深圳)有限公司 统一资源定位符去重方法及装置
CN103984753B (zh) * 2014-05-28 2018-02-09 北京京东尚科信息技术有限公司 一种网络爬虫去重特征值的提取方法和装置

Also Published As

Publication number Publication date
CN106919570A (zh) 2017-07-04

Similar Documents

Publication Publication Date Title
CN106919570B (zh) 一种面向网络新媒体的页面链接去重扫描方法及装置
CN103605688B (zh) 一种网页广告的拦截方法、装置和浏览器
CN107241296B (zh) 一种Webshell的检测方法及装置
CN105677654B (zh) 广告过滤方法及装置
US20120005211A1 (en) Document object model (dom) based page uniqueness detection
CN104750754A (zh) 网站所属行业的分类方法和服务器
CN102035883A (zh) 一种在网络设备中用于优化网页的方法和设备
CN102411614A (zh) 图像搜索结果的显示
JP2019530295A (ja) ネットワークベースの広告データトラフィックレイテンシ削減
JP2013077246A (ja) 動的なウェブ・アプリケーションの問題を修正するメタデータの生成・管理の支援方法、装置、およびプログラム
US8250059B2 (en) Crawling browser-accessible applications
CN102663319A (zh) 下载链接安全提示方法及装置
CN103577427A (zh) 基于浏览器内核的网页爬取方法、装置及包含该装置的浏览器
CN112685671A (zh) 页面显示方法、装置、设备及存储介质
CN105138907A (zh) 一种主动探测被攻击网站的方法和系统
CN106599270B (zh) 网络数据抓取方法和爬虫
CN106201562A (zh) 一种页面切换方法及装置
CN104317931A (zh) 网页标题的确定方法和装置
CN105975599B (zh) 一种监测网站的页面埋点的方法和装置
RU2015111360A (ru) Способ (варианты) и система (варианты) обработки поискового запроса
CN104503983A (zh) 为搜索引擎提供网站认证数据的方法及装置
CN108363711B (zh) 一种网页中的暗链的检测方法和装置
US10198408B1 (en) System and method for converting and importing web site content
CN106598829A (zh) 一种网页自动化测试方法及装置
CN112287201A (zh) 对爬虫的请求去重的方法、装置、介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant