CN101520796A - 从网页内容中提取统一资源定位符的方法及系统 - Google Patents

从网页内容中提取统一资源定位符的方法及系统 Download PDF

Info

Publication number
CN101520796A
CN101520796A CN200910009066A CN200910009066A CN101520796A CN 101520796 A CN101520796 A CN 101520796A CN 200910009066 A CN200910009066 A CN 200910009066A CN 200910009066 A CN200910009066 A CN 200910009066A CN 101520796 A CN101520796 A CN 101520796A
Authority
CN
China
Prior art keywords
script
url
queue
executing
executable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910009066A
Other languages
English (en)
Inventor
林世飞
李旬保
张海清
陈欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN200910009066A priority Critical patent/CN101520796A/zh
Publication of CN101520796A publication Critical patent/CN101520796A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种从网页内容中提取统一资源定位符的方法,包括:A.根据统一资源定位符(URL)下载并解析网页内容,生成包含脚本队列和URL队列的第L级文档对象模型(DOM)树节点,其中L大于等于1;B.遍历第L级DOM树节点中存储的脚本,将非可执行脚本转换为可执行脚本;C.编译、执行可执行脚本,将执行可执行脚本获得的新的脚本和URL分别存入第L级DOM树节点中的脚本队列和URL队列中。本发明还提供了一种从网页内容中提取统一资源定位符的系统。本发明的方法和系统,能够执行脚本,解析脚本动态生成的网页内容以及获取脚本语句产生网页站点重定向的URL。

Description

从网页内容中提取统一资源定位符的方法及系统
技术领域
本发明涉及网络爬虫技术,尤其涉及一种从网页内容中提取统一资源定位符(URL,Uniform Resource Locator)的方法及系统。
背景技术
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。目前,一般网络爬虫的做法都是从需要检测的网页站点URL开始,抓取该URL的网页内容,之后对当前抓取的网页内容进行解析,并获取新的网页站点URL放入URL队列中,循环执行上述步骤直到满足一定的条件,如设定的要获取的URL数量等。
然而,现有技术中网络爬虫在解析网页内容过程中只能提取iframe、frameset、a等页面标签的URL,并不能执行脚本语句,从而获取不到脚本语句产生网页站点重定向的目标URL、或脚本语句动态生成的网页内容,导致网络爬虫获取到的URL数量受到限制。
发明内容
有鉴于此,本发明的主要目的在于提供一种从网页内容中提取统一资源定位符的方法及系统,能够执行脚本语句,获取更多数量的URL。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供一种从网页内容中提取统一资源定位符URL的方法,包括以下步骤:
A、根据URL下载并解析网页内容,生成包含脚本队列和URL队列的第L级文档对象模型DOM树节点,其中L大于等于1;
B、遍历第L级DOM树节点中存储的脚本,将非可执行脚本转换为可执行脚本;
C、编译、执行可执行脚本,将执行可执行脚本获得的新的脚本和URL分别存入第L级DOM树节点中的脚本队列和URL队列中。
该方法进一步包括:
D、判断是否遍历完第L级DOM树节点中的所有脚本,若否,则提取第L级DOM树节点中脚本队列中的下一个脚本,返回步骤B;若是,则执行步骤E;
E、判断L是否等于设定值N,其中N大于等于1,若等于,则执行步骤F;若不等于,则提取第L级DOM树节点中URL队列中的URL,L自加1,返回步骤A;
F、判断L减1是否等于0,若等于,则结束提取URL过程;若不等于,则L自减1,并执行步骤G;
G、判断是否遍历完第L级DOM树节点中的所有URL,若是,则返回步骤F;若不等于,则提取第L级DOM树节点中URL队列中的下一个URL,L自加1,返回步骤A。
上述技术方案中,所述步骤B具体包括:
B1、遍历第L级DOM树节点中存储的脚本;
B2、判断脚本是否为可执行脚本,若是,则执行步骤C,若不是,则将非可执行脚本转化为可执行脚本,然后执行步骤C。
所述步骤C具体包括:
C11、编译、执行可执行脚本;
C12、判断可执行脚本是否动态生成了网页内容,若是,则解析该网页内容,将获得的新的脚本和URL分别存入第L级DOM树节点中的脚本队列和URL队列中,然后执行步骤D;若否,则执行步骤C13;
C13、判断可执行脚本中是否包含重定向语句,若是,则将重定向的URL存入第L级DOM树节点中的URL队列中,然后执行步骤D;若否,则执行步骤D;
或者,所述步骤C具体包括:
C21、编译、执行可执行脚本;
C22、判断可执行脚本中是否包含重定向语句,若是,则将重定向的URL存入第L级DOM树节点中的URL队列中,然后执行步骤D;若否,则执行步骤C23;
C23、判断可执行脚本是否动态生成了网页内容,若是,则解析该网页内容,将获得的新的脚本和URL分别存入第L级DOM树节点中的脚本队列和URL队列中,然后执行步骤D;若否,则执行步骤D。
上述技术方案中,该方法采用js执行引擎spidermonkey;所述可执行脚本为js脚本,所述非可执行脚本为vbscript脚本和/或JScript.Encode脚本。
本发明还提供一种从网页内容中提取URL的系统,该系统包括:下载网页内容模块、解析网页内容模块、解码脚本模块及脚本执行模块;其中,
下载网页内容模块,用于根据URL下载网页内容,并将下载的网页内容发送给解析网页内容模块;
解析网页内容模块,用于解析收到的网页内容,生成包含脚本队列和URL队列的DOM树节点;
解码脚本模块,用于遍历所述DOM树节点中脚本,将DOM树节点中的非可执行脚本转换为可执行脚本,并发送给脚本执行模块;
脚本执行模块,用于编译、执行可执行脚本,将执行脚本后获得的新脚本和/或URL存入当前DOM树节点中的脚本队列和/或URL队列中。
上述技术方案中,所述脚本执行模块采用js执行引擎spidermonkey;所述可执行脚本为js脚本;所述非可执行脚本为vbscript脚本和/或JScript.Encode脚本。
与现有技术相比,本发明从网页内容中提取统一资源定位符的方法及系统,通过增加脚本执行引擎来编译、执行脚本语句,在获取iframe、frameset、a等页面标签的URL的基础上,还可获取脚本语句产生网页站点重定向的URL,或进一步通过解析脚本动态生成的网页内容获取新的URL,从而增加了可获取的URL的数量。
附图说明
图1为本发明从网页内容中提取URL的系统结构示意图;
图2为本发明从网页内容中提取URL方法的实现流程示意图;
图3为本发明编译、执行可执行脚本步骤的具体流程示意图;
图4为本发明实施例从网页内容中提取URL方法的实现流程示意图。
具体实施方式
本发明的基本思想是:通过增加脚本执行引擎来编译、执行脚本语句,在获取iframe、frameset、a等页面标签的URL的基础上,还可获取脚本语句产生网页站点重定向的URL,或进一步通过解析脚本动态生成的网页内容获取新的URL,从而增加可获取URL的数量。
图1为本发明从网页内容中提取URL的系统结构示意图,该系统可设置于终端,如图1所示,该系统包括:下载网页内容模块110、解析网页内容模块120、解码脚本模块130及脚本执行模块140;其中,
下载网页内容模块110,用于根据URL下载网页内容,并将下载的网页内容发送给解析网页内容模块120;
解析网页内容模块120,用于解析收到的网页内容,生成包含脚本队列和URL队列的文档对象模型(DOM,Document Object Model)树节点;
解码脚本模块130,用于遍历所述DOM树节点中脚本,将DOM树节点中的非可执行脚本转换为可执行脚本,并发送给脚本执行模块14进行编译、执行。
脚本执行模块140,用于编译、执行可执行脚本,将执行脚本后获得的新脚本和/或URL,存入当前DOM树节点中的脚本队列和/或URL队列中。
本发明中,所述脚本执行模块140可采用javascript执行引擎spidermonkey,其中javascript简称js。
具体的,所述下载网页内容模块110,根据URL从互联网中下载网页内容,支持http和https两种网页协议。该下载网页内容模块110提供与服务器之间的连接、发送请求、接收数据这些基本功能,并为请求头信息中的每一个属性提供一个接口,通过这些接口可以设置相应属性的值,如对请求包中的cookie字段赋值,如此,使得网页站点服务器端可以验证此次连接的用户认证信息。
该下载网页内容模块110还通过解析响应头信息,获取响应状态码信息,根据状态码值做进一步的操作,例如,当状态码为重定向代码301、302时,则再次根据重定向的URL下载网页内容。
所述解析网页内容模块120,遍历扫描整个网页内容中的每个字符,依据html规范(参见“W3C HTML 4.01 Specification”)获得可用于获取URL链接的脚本、link、form、frame、iframe、meta等页面标签,取得这些页面标签的src属性、属性值和标签内容,生成包含脚本队列和URL对象队列的DOM树节点,其中,URL对象指ljnk、form、frame、iframe、meta等页面标签,对于那些不能用于获取URL的标签,则省略对它们的属性、属性值的内容解析。
然后,遍历URL对象队列的每个成员,扫描这些成员的src属性值,获得其对应的URL,生成URL队列。
所述解码脚本模块130,遍历DOM树节点中脚本队列的每个脚本,将DOM树节点中的非可执行脚本转换为可执行脚本,并发送给脚本执行模块140进行编译、执行。
若脚本执行模块140采用js执行引擎spidermonkey,则其只能编译、执行js脚本,因此如果脚本为JScript.Encode、vbscript等类型时,解码脚本模块130必须将其内容转换为js代码。
对于vbscript,目前并没有可利用的转换代码、工具将其转换为js脚本,本发明参考vbscirpt、js语法手册(参见“Microsoft VBScript Language Reference”、“JavaScript Manual”),采用yacc、lex对vbscript脚本的词法、语法进行解析,将其转换为与javascript对应的功能一致的关键字、函数和语法形式。
对于JScript.Encode,通过采用微软提供的脚本编码语法(参见“MicrosoftScript Encoder Syntax”),顺序遍历编码内容直接将其转换为js代码。
所述脚本执行模块140,用于编译、执行可执行脚本,提取URL、网页内容。若该脚本执行模块140采用firefox的js执行引擎spidermonkey(参见“MozillaSpiderMonkey(JavaScript-C)Engine”),则只能编译、执行js脚本。该引擎先对js语句进行编码转换、解密;然后编译、执行。在执行js脚本之前,需先定义js脚本中要引用的window、document、location等多个全局对象,当js语句调用这些全局对象的函数、属性时,js执行引擎spidermonkey将会执行自定义的函数、属性,如:当js语句调用了document对象的write函数动态生成网页时,自定义的函数将会获取网页内容,为解析网页内容模块做下一步的内容解析。此外,还可获取js语句页面重定向的最终URL;当js语句对location对象的href属性进行赋值时,则可以通过自定义对应函数获取重定向的URL,将这些URL加入到URL队列中。
图2为本发明从网页内容中提取URL方法的实现流程示意图,如图2所示,该方法包括以下步骤:
步骤1、根据URL下载并解析网页内容,生成包含脚本队列和URL队列的第L级DOM树节点,其中L大于等于1;
本步骤中,根据客户端提供的初始URL进行网页内容的首次下载,生成包含脚本队列和URL队列的第1级DOM树节点;
步骤2、遍历第L级DOM树节点中存储的脚本,将非可执行脚本转化为可执行脚本;
步骤3、编译、执行可执行脚本,将执行可执行脚本获得的新的脚本和/或URL,分别存入第L级DOM树节点中的脚本队列和/或URL队列中;
步骤4、判断是否遍历完第L级DOM树节点中的所有脚本,若是,则执行步骤5,否则,提取第L级DOM树节点中脚本队列中的下一个脚本,返回步骤2;
步骤5、判断L是否等于设定值N,其中N大于等于1,若等于,则执行步骤6;若不等于,则提取第L级DOM树节点中URL队列中的URL,L自加1,返回步骤1;
本步骤中,可预先设置预定值N来限定递归层次数目;
步骤6、判断L减1是否等于0,若等于,则结束提取URL过程;若不等于,则L自减1,并执行步骤7;
步骤7、判断是否遍历完第L级DOM树节点中的所有URL,若遍历完,则返回步骤6;若未遍历完,则提取第L级DOM树节点中URL队列中的下一个URL,L自加1,返回步骤1。
上述技术方案中,步骤2具体包括:
步骤21、遍历第L级DOM树节点中存储的脚本;
步骤22、判断当前遍历到的脚本是否为可执行脚本,若是,则执行步骤3,若否,执行步骤23;
步骤23、将非可执行脚本转化为可执行脚本,然后执行步骤3。
图3为本发明编译、执行可执行脚本步骤的具体流程示意图,如图3所示,本发明编译、执行可执行脚本的步骤具体包括:
步骤31、编译、执行可执行脚本;
步骤32、判断可执行脚本是否动态生成了网页内容,若生成,则解析所生成的网页内容,将获得的新的脚本和/或URL分别存入第L级DOM树节点中的脚本队列和/或URL队列中,然后执行步骤4;若未生成,则执行步骤33;
步骤33、判断可执行脚本中是否包含重定向语句,若包含,则将重定向的URL存入第L级DOM树节点中的URL队列中,然后执行步骤4;若未包含,则执行步骤4;
其中,步骤32和步骤33的顺序可以调换。
下面结合附图及具体实施例详细说明本发明从网页内容中提取URL方法的实现。
图4为本发明实施例从网页内容中提取URL方法的实现流程示意图,本实施例中,采用firefox的js执行引擎spidermonkey,所以本实施例中可执行脚本为js脚本,相应的,在遍历时需将非js脚本转换为js脚本,以供后续执行。
如图4所示,本发明从网页内容中提取URL的方法包括以下步骤:
步骤10、根据URL下载并解析网页内容,生成包含脚本队列和URL队列的第L级DOM树节点,其中L大于等于1;
步骤11、遍历第L级DOM树节点中存储的脚本,将非js脚本转换为js脚本,然后编译、执行js脚本;
本步骤中,包括:判断该脚本是否为js脚本,若不是,则将非js脚本转化为js脚本,然后编译、执行js脚本;
本步骤中,需先定义html页面中的location、window、document等全局对象,以便当执行js脚本时,js执行引擎spidermonkey会调用这些全局对象的自定义函数和属性;
本实施例中,非js脚本为vbscript脚本、JScript.Encode脚本;
步骤12、判断js脚本是否动态生成了网页内容,若生成,则解析生成的网页内容,将获得的新的脚本和URL分别存入第L级DOM树节点中的脚本队列和URL队列中,然后执行步骤14;若未生成,则执行步骤13;
步骤13、判断js脚本中是否包含重定向语句,若包含,则将重定向的URL存入第L级DOM树节点中的URL队列中,然后执行步骤14;若未包含,则执行步骤14;
其中,步骤12和步骤13的顺序可以调换
步骤14、判断是否遍历完第L级DOM树节点中的所有脚本,若是,则执行步骤15,否则,提取第L级DOM树节点中脚本队列中的下一个脚本,返回步骤11;
步骤15、判断L是否等于设定值N,其中N大于等于1,若等于,则执行步骤16;若不等于,则提取第L级DOM树节点中URL队列中的URL,L自加1,返回步骤10;
步骤16、判断L减1是否等于0,若等于,则结束提取URL过程;若不等于,则L自减1,并执行步骤17;
步骤17、判断是否遍历完第L级DOM树节点中的所有URL,若遍历完,则返回步骤16;若未遍历完,则提取第L级DOM树节点中URL队列中的下一个URL,L自加1,返回步骤10。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (9)

1、一种从网页内容中提取统一资源定位符URL的方法,其特征在于,包括以下步骤:
A、根据URL下载并解析网页内容,生成包含脚本队列和URL队列的第L级文档对象模型DOM树节点,其中L大于等于1;
B、遍历第L级DOM树节点中存储的脚本,将非可执行脚本转换为可执行脚本;
C、编译、执行可执行脚本,将执行可执行脚本获得的新的脚本和URL分别存入第L级DOM树节点中的脚本队列和URL队列中。
2、根据权利要求1所述的从网页内容中提取URL的方法,其特征在于,该方法进一步包括:
D、判断是否遍历完第L级DOM树节点中的所有脚本,若否,则提取第L级DOM树节点中脚本队列中的下一个脚本,返回步骤B;若是,则执行步骤E;
E、判断L是否等于设定值N,其中N大于等于1,若等于,则执行步骤F;若不等于,则提取第L级DOM树节点中URL队列中的URL,L自加1,返回步骤A;
F、判断L减1是否等于0,若等于,则结束提取URL过程;若不等于,则L自减1,并执行步骤G;
G、判断是否遍历完第L级DOM树节点中的所有URL,若是,则返回步骤F;若不等于,则提取第L级DOM树节点中URL队列中的下一个URL,L自加1,返回步骤A。
3、根据权利要求2所述的从网页内容中提取URL的方法,其特征在于,所述步骤B具体包括:
B1、遍历第L级DOM树节点中存储的脚本;
B2、判断脚本是否为可执行脚本,若是,则执行步骤C,若不是,则将非可执行脚本转化为可执行脚本,然后执行步骤C。
4、根据权利要求3所述的从网页内容中提取URL的方法,其特征在于,所述步骤C具体包括:
C11、编译、执行可执行脚本;
C12、判断可执行脚本是否动态生成了网页内容,若是,则解析该网页内容,将获得的新的脚本和URL分别存入第L级DOM树节点中的脚本队列和URL队列中,然后执行步骤D;若否,则执行步骤C13;
C13、判断可执行脚本中是否包含重定向语句,若是,则将重定向的URL存入第L级DOM树节点中的URL队列中,然后执行步骤D;若否,则执行步骤D;
或者,所述步骤C具体包括:
C21、编译、执行可执行脚本;
C22、判断可执行脚本中是否包含重定向语句,若是,则将重定向的URL存入第L级DOM树节点中的URL队列中,然后执行步骤D;若否,则执行步骤C23;
C23、判断可执行脚本是否动态生成了网页内容,若是,则解析该网页内容,将获得的新的脚本和URL分别存入第L级DOM树节点中的脚本队列和URL队列中,然后执行步骤D;若否,则执行步骤D。
5、根据权利要求4所述的从网页内容中提取URL的方法,其特征在于,该方法采用js执行引擎spidermonkey。
6、根据权利要求5所述的从网页内容中提取URL的方法,其特征在于,所述可执行脚本为js脚本,所述非可执行脚本为vbscript脚本和/或JScript.Encode脚本。
7、一种从网页内容中提取URL的系统,其特征在于,该系统包括:下载网页内容模块、解析网页内容模块、解码脚本模块及脚本执行模块;其中,
下载网页内容模块,用于根据URL下载网页内容,并将下载的网页内容发送给解析网页内容模块;
解析网页内容模块,用于解析收到的网页内容,生成包含脚本队列和URL队列的DOM树节点;
解码脚本模块,用于遍历所述DOM树节点中脚本,将DOM树节点中的非可执行脚本转换为可执行脚本,并发送给脚本执行模块;
脚本执行模块,用于编译、执行可执行脚本,将执行脚本后获得的新脚本和/或URL存入当前DOM树节点中的脚本队列和/或URL队列中。
8、根据权利要求7所述的从网页内容中提取URL的系统,其特征在于,所述脚本执行模块采用js执行引擎spidermonkey。
9、根据权利要求8所述的从网页内容中提取URL的系统,其特征在于,所述可执行脚本为js脚本;所述非可执行脚本为vbscript脚本和/或JScript.Encode脚本。
CN200910009066A 2009-02-16 2009-02-16 从网页内容中提取统一资源定位符的方法及系统 Pending CN101520796A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910009066A CN101520796A (zh) 2009-02-16 2009-02-16 从网页内容中提取统一资源定位符的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910009066A CN101520796A (zh) 2009-02-16 2009-02-16 从网页内容中提取统一资源定位符的方法及系统

Publications (1)

Publication Number Publication Date
CN101520796A true CN101520796A (zh) 2009-09-02

Family

ID=41081385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910009066A Pending CN101520796A (zh) 2009-02-16 2009-02-16 从网页内容中提取统一资源定位符的方法及系统

Country Status (1)

Country Link
CN (1) CN101520796A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011085588A1 (zh) * 2010-01-12 2011-07-21 苏州阔地网络科技有限公司 一种通用的可用于任何网页的网页内容抓取的方法
WO2011088724A1 (zh) * 2010-01-20 2011-07-28 腾讯科技(深圳)有限公司 一种实现从网页中订阅信息的方法及装置
CN102789474A (zh) * 2012-04-12 2012-11-21 北京京东世纪贸易有限公司 处理网页数据的方法和装置
CN103268361A (zh) * 2013-06-07 2013-08-28 百度在线网络技术(北京)有限公司 网页中隐藏url的提取方法、装置和系统
CN103488560A (zh) * 2012-06-12 2014-01-01 腾讯科技(深圳)有限公司 一种用于网页测试的测试目标处理方法和装置
CN103902684A (zh) * 2014-03-25 2014-07-02 浪潮电子信息产业股份有限公司 一种爬虫采集内容结构化的方法
CN104166545A (zh) * 2014-07-25 2014-11-26 北京搜狗科技发展有限公司 一种网页资源的嗅探方法以及装置
CN104536749A (zh) * 2014-12-24 2015-04-22 百度在线网络技术(北京)有限公司 一种用于提供内容以及辅助提供内容的方法与装置
CN105426500A (zh) * 2015-11-25 2016-03-23 北京奇虎科技有限公司 网页脚本动态生成的链接的提取方法及装置
CN105740419A (zh) * 2016-01-29 2016-07-06 广州酷狗计算机科技有限公司 获取网页中动态加载内容的方法及装置
CN107147648A (zh) * 2017-05-11 2017-09-08 北京奇虎科技有限公司 资源请求的处理方法、客户端、服务器和系统
CN107957872A (zh) * 2017-10-11 2018-04-24 中国互联网络信息中心 一种完整网站源码获取方法及非法网站检测方法、系统
CN110851678A (zh) * 2018-07-24 2020-02-28 北京京东金融科技控股有限公司 一种爬取数据的方法和装置
CN114003471A (zh) * 2022-01-04 2022-02-01 深圳市明源云科技有限公司 页面加载分析方法、设备及可读存储介质

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011085588A1 (zh) * 2010-01-12 2011-07-21 苏州阔地网络科技有限公司 一种通用的可用于任何网页的网页内容抓取的方法
WO2011088724A1 (zh) * 2010-01-20 2011-07-28 腾讯科技(深圳)有限公司 一种实现从网页中订阅信息的方法及装置
RU2510921C2 (ru) * 2010-01-20 2014-04-10 Тенсент Текнолоджи (Шэньчжэнь) Компани Лимитед Способ и устройство подписки на информацию с веб-страницы
CN102789474A (zh) * 2012-04-12 2012-11-21 北京京东世纪贸易有限公司 处理网页数据的方法和装置
CN103488560A (zh) * 2012-06-12 2014-01-01 腾讯科技(深圳)有限公司 一种用于网页测试的测试目标处理方法和装置
CN103488560B (zh) * 2012-06-12 2014-11-05 腾讯科技(深圳)有限公司 一种用于网页测试的测试目标处理方法和装置
CN103268361A (zh) * 2013-06-07 2013-08-28 百度在线网络技术(北京)有限公司 网页中隐藏url的提取方法、装置和系统
CN103268361B (zh) * 2013-06-07 2019-05-31 百度在线网络技术(北京)有限公司 网页中隐藏url的提取方法、装置和系统
CN103902684A (zh) * 2014-03-25 2014-07-02 浪潮电子信息产业股份有限公司 一种爬虫采集内容结构化的方法
CN103902684B (zh) * 2014-03-25 2018-02-23 浪潮电子信息产业股份有限公司 一种爬虫采集内容结构化的方法
CN104166545A (zh) * 2014-07-25 2014-11-26 北京搜狗科技发展有限公司 一种网页资源的嗅探方法以及装置
CN104166545B (zh) * 2014-07-25 2018-01-02 北京搜狗科技发展有限公司 一种网页资源的嗅探方法以及装置
CN104536749A (zh) * 2014-12-24 2015-04-22 百度在线网络技术(北京)有限公司 一种用于提供内容以及辅助提供内容的方法与装置
CN105426500A (zh) * 2015-11-25 2016-03-23 北京奇虎科技有限公司 网页脚本动态生成的链接的提取方法及装置
CN105426500B (zh) * 2015-11-25 2019-06-25 北京奇虎科技有限公司 网页脚本动态生成的链接的提取方法及装置
CN105740419A (zh) * 2016-01-29 2016-07-06 广州酷狗计算机科技有限公司 获取网页中动态加载内容的方法及装置
CN107147648A (zh) * 2017-05-11 2017-09-08 北京奇虎科技有限公司 资源请求的处理方法、客户端、服务器和系统
CN107957872A (zh) * 2017-10-11 2018-04-24 中国互联网络信息中心 一种完整网站源码获取方法及非法网站检测方法、系统
CN110851678A (zh) * 2018-07-24 2020-02-28 北京京东金融科技控股有限公司 一种爬取数据的方法和装置
CN110851678B (zh) * 2018-07-24 2024-02-02 京东科技控股股份有限公司 一种爬取数据的方法和装置
CN114003471A (zh) * 2022-01-04 2022-02-01 深圳市明源云科技有限公司 页面加载分析方法、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN101520796A (zh) 从网页内容中提取统一资源定位符的方法及系统
US10620945B2 (en) API specification generation
CN101984429B (zh) 获取目标页面的方法、装置、搜索引擎和浏览器
CN101562618B (zh) 一种检测网马的方法及装置
CN109582395B (zh) 小程序运行方法、装置、电子设备及存储介质
CN107766344B (zh) 一种模板渲染的方法、装置及浏览器
CN108388454B (zh) 动态提供兼容js脚本内容的方法、装置和终端设备
CA2578792A1 (en) Method and system for adaptive rule-based content scanners
US20210064453A1 (en) Automated application programming interface (api) specification construction
CN103455600A (zh) 一种视频url抓取方法、装置及服务器设备
CN101763432A (zh) 一种轻量级网页动态视图快速构建方法
CN101895517B (zh) 一种脚本语义提取方法和提取装置
CN111580821B (zh) 脚本绑定方法、装置、电子设备及计算机可读存储介质
CN115408169A (zh) 远程过程调用方法、装置、设备及可读存储介质
CN110708308B (zh) 一种面向云计算环境的跨站脚本漏洞挖掘方法及系统
CN113312633A (zh) 一种网站漏洞扫描方法、装置、设备及存储介质
CN107239265B (zh) Java函数与C函数的绑定方法及装置
CN109413115B (zh) 协议文本解析方法及系统
CN116880855A (zh) 冗余代码清理方法和装置、电子设备及存储介质
CN116069324A (zh) 一种基于Vue的动态表单构建方法及装置
CN109471966B (zh) 一种自动获取目标数据源的方法及系统
CN102789474B (zh) 处理网页数据的方法和装置
CN113448751A (zh) 基于dsl的接口响应方法、装置、设备及介质
CN114065197A (zh) 调用序列生成方法、装置、电子设备、存储介质及产品
CN106570044B (zh) 一种解析网页编码的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20090902