CN103577427A - 基于浏览器内核的网页爬取方法、装置及包含该装置的浏览器 - Google Patents

基于浏览器内核的网页爬取方法、装置及包含该装置的浏览器 Download PDF

Info

Publication number
CN103577427A
CN103577427A CN201210259864.6A CN201210259864A CN103577427A CN 103577427 A CN103577427 A CN 103577427A CN 201210259864 A CN201210259864 A CN 201210259864A CN 103577427 A CN103577427 A CN 103577427A
Authority
CN
China
Prior art keywords
url
webpage
source code
code file
dom tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210259864.6A
Other languages
English (en)
Inventor
付俊
张峰
杨光华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201210259864.6A priority Critical patent/CN103577427A/zh
Publication of CN103577427A publication Critical patent/CN103577427A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供了一种基于浏览器内核的网页爬取方法、网页爬取装置及包含该装置的浏览器。所述方法包括:从用户获取初始URL;利用浏览器内核从Web服务器获取所述初始URL所对应网页的源代码文件;基于所述源代码文件生成相应的DOM树;遍历所述DOM树以获取所述网页中包含的静态URL和动态URL;以及将所述静态URL和动态URL加入待爬URL队列中。本申请的网页爬取方法能够支持各种网页标准,兼容各种不规范的网页;通过事件触发和HOOK手段能够更多、更准确的爬取URL。

Description

基于浏览器内核的网页爬取方法、装置及包含该装置的浏览器
技术领域
本申请涉及信息检索领域,尤其涉及基于浏览器内核的网页爬取方法、网页爬取装置及包含该网页爬取装置的浏览器。
背景技术
互联网(World Wide Web,简称Web)就是处在世界各地的计算机互相连接而成的一个计算机网络。网站的浏览者(用户)坐在家中查看各种网站上的内容,实际上就是从远程的计算机中读取了一些内容,然后在本地计算机上显示出来的过程。因此,提供内容信息的计算机就称为“Web服务器”,用户使用“浏览器”,例如集成在Windows操作系统中的Internet Explorer,就可以通过网络取得Web服务器上的文件以及其他信息。
浏览器一般由两部分组成:用户界面和内核,其中,用户界面主要用于与用户进行交互,例如等,内核作为浏览器的核心,主要负责取得网页的内容(HTML、XML、图像等)、整理讯息(例如加入CSS等),计算网页的显示方式,解析Javascript语言,执行Javascript语言代码来实现网页的动态效果等。
当用户的计算机联入互联网后,用户打开浏览器并在地址栏中输入某个网站的地址,即URL(Uniform Resource Locator,统一资源定位符),浏览器内核就会按照预定的通信协议,例如HTTP协议,向Web服务器发送请求,该请求中携带有用户提供的URL,Web服务器响应于浏览器内核的请求,将与所述URL对应的信息传送到浏览器内核,浏览器再将该信息呈现给用户。
如何通过浏览器有效地从Web服务器获取所需的网页成为一个巨大的挑战。目前浏览器主要基于以下两种方案从Web服务器获取用户所需的网页。
第一,正则匹配方案。在正则匹配方案中,浏览器内核首先从Web服务器获取URL对应的网页的源代码文件,该源代码文件通常是采用标记语言,例如HTML语言编写的。然后,将该源代码文件作为一个长字符串,用一系列预先定义的、被认为可以匹配出URL的正则表达式分别去匹配该字符串。如果匹配成功,则认为匹配到的是URL。
然而,正则匹配方案无法处理动态构造的URL,例如:
id=123;
url=“http://www.test.org/forum.php?id=”+id;
此时正确的URL为“http://www.test.org/forum.php?id=123”,正则表达式则无法处理。
第二,HTML解析库方案。HTML解析库是建立在正则表达式基础上的,其首先通过正则表达式把网页转换成一系列标签,形成标签树,再遍历标签树上的各个标签,找出可能包含URL的标签,判断标签是否有URL。但是,HTML解析库方案也不能处理动态URL的情况。例如:
<A href=”javascript:window.open(‘http://www.test.com’)”>URL</A>
基于HTML解析库的爬取方法,往往会把A标签的href属性的值作为一个发现的URL返回。
发明内容
根据本申请的第一方面,提供了一种基于浏览器内核的网页爬取方法,包括:从用户获取初始URL;利用浏览器内核从Web服务器获取所述初始URL所对应网页的源代码文件;基于所述源代码文件生成相应的DOM树;遍历所述DOM树以获取所述网页中包含的静态URL和动态URL;以及将所述静态URL和动态URL加入待爬URL队列中。
根据本申请的第二方面,提供了一种网页爬取装置,包括:接口单元,从用户获取初始URL;浏览器内核,响应于所述接口单元的调用,从Web服务器获取所述初始URL所对应网页的源代码文件,并基于该源代码文件生成相应的DOM树;URL收集单元,遍历所述DOM树以获取所述网页中包含的静态URL和动态URL;存储单元,从所述URL收集单元接收并存储所述静态URL和动态URL。
根据本申请的第三方面,提供了一种包含上述网页爬取装置的浏览器。
根据本申请的网页爬取方法和装置,能够支持各种网页标准,兼容各种不规范的网页;通过事件触发和HOOK手段能够更多、更准确的爬取URL。
附图说明
图1示出了根据本申请第一方面的基于浏览器内核的网页爬取方法的流程图;
图2示出了根据本申请的第二方面的一个实施方案的网页爬取装置的方框图;
图3示出了根据本申请的第二方面的另一个实施方案的网页爬取装置的方框图。
具体实施方式
下面将参照图1详细描述根据本申请的第一方面的基于浏览器内核的网页爬取方法。
如图1所示,在步骤1001,获取用户输入的初始URL。优选地,在获取到用户输入的初始URL后将该URL放入待爬URL队列中,然后,从待爬URL队列中获取所述初始URL作为待爬的URL。
接下来,在步骤1002,利用浏览器内核从Web服务器获取所述初始URL所对应网页的源代码文件。可以理解,获取到待爬的URL后,可以调用浏览器内核基于预定的通信协议(例如HTTP协议)向Web服务器发出访问所述初始URL所对应网页的请求,其中所述请求中包含所述初始URL,Web服务器针对浏览器内核的请求做出响应。所述响应的内容通常包括:响应码、响应头、以及请求访问的URL所对应网页的源代码文件。
响应码是指由三位十进制数字组成、出现在由Web服务器发送的响应的第一行的状态码。响应头允许服务器传递不能放在状态行的附加信息,主要用来描述服务器的信息和Request-URI进一步的信息。
本领域技术人员可以理解的是,当浏览器内核所发出的请求没有被Web服务器接成功接收、理解、并接受时,Web服务器不会在发送响应码和响应头的同时,将请求访问的URL所对应网页的源代码文件发送到浏览器内核。
例如,当用户输入一个错误的URL时,Web服务器会发出响应码“404”,表明请求失败,请求所希望得到的资源未在服务器上发现。此时,Web服务器不会将请求访问的URL所对应网页的源代码文件发送到浏览器内核。在这种情况下,用户需要输入新的URL,以便从服务器获取所需的信息。
再如,当被请求的资源已永久移动到新位置时,Web服务器会向浏览器内核发送响应码“301”,并在响应头“Location”中指明新的URL地址。例如,响应头Location:www.baidu.com,其含义为该网页需要跳转到www.baidu.com,需要跟随跳转才能得到真正的页面。此时,需要调用浏览器内核以新的URL“www.baidu.com”再次向Web服务器发出请求,才可获得所需的网页。
优选地,在从Web服务器获取到所述初始URL所对应网页的源代码文件(步骤1002)后利用浏览器内核对该源代码文件进行解析,并且以HOOK方式获取对所述源代码文件进行解析的过程中所述浏览器内核主动访问的URL,并将获取的URL放入待爬URL队列中。
例如,浏览器内核在对从Web服务器获取的网页的源代码文件例如HTML文件进行解析的过程中,会自动运行该HTML文件中的Javascript脚本,作为运行结果而主动访问相应的URL,例如运行某个Javascript脚本的结果为访问某个URL以获取该URL处的资源,例如动态广告。
根据本申请,可以以HOOK方式,即使用浏览器内核提供的API函数(即HOOK函数),截获浏览器内核在解析HTML文件的过程中向Web服务器主动发出的URL访问请求,以从中分离出相应的URL。
继续参照图1,在步骤1003,基于获取的网页的源代码文件生成相应的DOM树。网页的源代码文件通常是采用标记语言,例如HTML语言编写的。HTML文档由若干个标签组成的,HTML文档中的每个元素、属性、文本等由DOM树中的一个节点来表示。DOM树起始于文档(html)节点,并由此继续伸出枝条,直到处于这棵树最低级别的所有文本节点为止。
接下来,在步骤1004,遍历所生成的DOM树以获取网页中包含的静态URL和动态URL。
一方面,可以从所述DOM树上的标签的属性获取所述网页中包含的静态URL。例如,DOM树上A标签(节点)的href属性用于放置超链接的目标地址,遍历DOM树时若发现A标签,则可从其href属性的值获取网页中包含的静态URL。
另一方面,通过触发所生成的DOM树上的标签的事件并执行与所述事件绑定的事件处理代码,从而以Hook的方式截获作为执行所述事件处理代码的结果所访问的网页的动态URL。具体地,当浏览器内核发起URL访问请求时,使用浏览器内核提供的API函数(即Hook函数)截获该请求,从而获取浏览器内核发起的URL访问请求信息。
可以理解,用户在网页上执行操作时会触发某个事件,例如常见的鼠标点击事件OnClick。当用户点击网页的元素时会触发OnClick事件,一旦触发了OnClick事件,与该事件绑定的JavaScript函数就会被调用。然而在没有用户参与的情况下,需要触发OnClick事件以调用其对应的JavaScript函数时,就需要进行事件模拟了,通过Hook的方式把该事件劫持住,并直接调用该事件进行触发。
然后,在步骤1005,将获取的静态URL和动态URL加入待爬URL队列中。之后,就可以按照预定的爬取方案,依次爬取待爬URL队列中所有URL所对应的网页。
下面将参照图2和图3详细描述根据本申请的第二方面的网页爬取装置。
如图2所示,网页爬取装置10包括:接口单元100、浏览器内核200、URL收集单元300和存储单元400。
接口单元100从用户获取初始URL。例如,用户打开浏览器后在地址栏中输入期望访问的某个网站的URL(初始URL)时,接口单元100从浏览器的地址栏获取用户输入的初始URL。
之后,接口单元100例如通过浏览器内核API调用浏览器内核200,从Web服务器获取所述初始URL所对应网页的源代码文件,并基于该源代码文件生成相应的DOM树。
URL收集单元300遍历所生成的DOM树以获取所述网页中包含的静态URL和动态URL。
存储单元400从URL收集单元300接收并存储所述静态URL和动态URL。
根据另一个实施方案,URL收集单元300可进一步包括第一URL收集单元301和第二URL收集单元302,如图3所示。
第一URL收集单元301被配置为遍历所生成的DOM树以便从该DOM树上的标签的属性获取静态URL,以及在遍历该DOM树时触发DOM树上的标签的事件并执行与所述事件绑定的事件处理代码。
第二URL收集单元302被配置为以HOOK方式截获作为执行所述事件处理代码的结果所访问的网页的动态URL。
根据一个实施方案,接口单元100可进一步被配置为在从用户获取到初始URL之后,调用浏览器内核200向Web服务器发出访问所述初始URL所对应网页的请求,其中所述请求中包含所述初始URL。第二URL收集单元302可进一步被配置为以HOOK方式拦截所述请求以从中分离出所述初始URL,并将所述初始URL存储到存储单元400中。
根据另一个实施方案,浏览器内核200可进一步被配置为从Web服务器获取到所述初始URL所对应网页的源代码文件后对该源代码文件进行解析。第二URL收集单元302可进一步被配置为以HOOK方式获取对所述源代码文件进行解析的过程中浏览器内核200主动访问的URL。
根据本申请的第三方面,提供了一种包含上述网页爬取装置的浏览器。
以上参照附图对本申请的示例性的实施方案进行了描述。本领域技术人员应该理解,上述实施方案仅仅是为了说明的目的而所举的示例,而不是用来进行限制。凡在本申请的教导和权利要求保护范围下所作的任何修改、等同替换等,均应包含在本申请要求保护的范围内。

Claims (10)

1.一种基于浏览器内核的网页爬取方法,包括:
从用户获取初始URL;
利用浏览器内核从Web服务器获取所述初始URL所对应网页的源代码文件;
基于所述源代码文件生成相应的DOM树;
遍历所述DOM树以获取所述网页中包含的静态URL和动态URL;以及
将所述静态URL和动态URL加入待爬URL队列中。
2.如权利要求1所述的方法,其中,遍历所述DOM树以获取所述网页中包含的静态URL和动态URL的步骤包括:从所述DOM树上的标签的属性获取所述静态URL;以及通过触发所述DOM树上的标签的事件并执行与所述事件绑定的事件处理代码,从而以HOOK方式截获作为执行所述事件处理代码的结果所访问的网页的动态URL。
3.如权利要求2所述的方法,进一步包括:
在利用浏览器内核从Web服务器获取所述初始URL所对应网页的源代码文件之前,调用浏览器内核向Web服务器发出访问所述初始URL所对应网页的请求,其中所述请求中包含所述初始URL。
4.如权利要求3所述的方法,进一步包括:
以HOOK方式拦截所述请求以从中分离出所述初始URL,并将所述初始URL加入到待爬URL队列中。
5.如权利要求1至4中任一项所述的方法,进一步包括:
从Web服务器获取到所述初始URL所对应网页的源代码文件后利用浏览器内核对该源代码文件进行解析,并且以HOOK方式获取对所述源代码文件进行解析的过程中所述浏览器内核主动访问的URL。
6.一种网页爬取装置,包括:
接口单元,从用户获取初始URL;
浏览器内核,响应于所述接口单元的调用,从Web服务器获取所述初始URL所对应网页的源代码文件,并基于该源代码文件生成相应的DOM树;
URL收集单元,遍历所述DOM树以获取所述网页中包含的静态URL和动态URL;
存储单元,从所述URL收集单元接收并存储所述静态URL和动态URL。
7.如权利要求6所述的网页爬取装置,其中,所述URL收集单元进一步包括第一URL收集单元和第二URL收集单元;所述第一URL收集单元被配置为遍历所述DOM树以便从所述DOM树上的标签的属性获取所述静态URL,以及在遍历所述DOM树时触发所述DOM树上的标签的事件并执行与所述事件绑定的事件处理代码;所述第二URL收集单元被配置为以HOOK方式截获作为执行所述事件处理代码的结果所访问的网页的动态URL。
8.如权利要求7所述的网页爬取装置,其中,所述浏览器内核进一步被配置为:在从Web服务器获取所述初始URL所对应网页的源代码文件之前向Web服务器发出访问所述初始URL所对应网页的请求,其中所述请求中包含所述初始URL,所述第二URL收集单元进一步被配置为以HOOK方式拦截所述请求以从中分离出所述初始URL,并将所述初始URL存储到所述存储单元中。
9.如权利要求8所述的网页爬取装置,其中,所述浏览器内核进一步被配置为从Web服务器获取到所述初始URL所对应网页的源代码文件后对该源代码文件进行解析,所述第二URL收集单元进一步被配置为以HOOK方式获取对所述源代码文件进行解析的过程中所述浏览器内核主动访问的URL。
10.一种浏览器,包括如权利要求6-9中任一项所述的网页爬取装置。
CN201210259864.6A 2012-07-25 2012-07-25 基于浏览器内核的网页爬取方法、装置及包含该装置的浏览器 Pending CN103577427A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210259864.6A CN103577427A (zh) 2012-07-25 2012-07-25 基于浏览器内核的网页爬取方法、装置及包含该装置的浏览器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210259864.6A CN103577427A (zh) 2012-07-25 2012-07-25 基于浏览器内核的网页爬取方法、装置及包含该装置的浏览器

Publications (1)

Publication Number Publication Date
CN103577427A true CN103577427A (zh) 2014-02-12

Family

ID=50049232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210259864.6A Pending CN103577427A (zh) 2012-07-25 2012-07-25 基于浏览器内核的网页爬取方法、装置及包含该装置的浏览器

Country Status (1)

Country Link
CN (1) CN103577427A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015188431A1 (zh) * 2014-06-10 2015-12-17 中兴通讯股份有限公司 资源的下载方法及装置
CN105450465A (zh) * 2014-09-04 2016-03-30 上海福网信息科技有限公司 一种网站压力和性能测试方法及工具
CN105740290A (zh) * 2014-12-11 2016-07-06 富士通株式会社 移动设备自适应网络搜索的系统和方法
CN105824965A (zh) * 2016-04-01 2016-08-03 无锡中科富农物联科技有限公司 基于动态爬虫技术的数据源发现方法
CN105930385A (zh) * 2016-04-13 2016-09-07 珠海迈科智能科技股份有限公司 一种数据爬取方法及系统
CN106371987A (zh) * 2015-07-24 2017-02-01 北京奇虎科技有限公司 测试方法和装置
CN106649354A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 网页爬取请求处理方法和装置
CN106649567A (zh) * 2016-11-15 2017-05-10 杭州安恒信息技术有限公司 一种基于浏览器内核的网络爬虫系统
CN108269116A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 一种广告安全监测方法和装置
CN110083755A (zh) * 2019-04-29 2019-08-02 北京脉冲星科技有限公司 一种高仿真解析网页方法、装置和电子设备
CN110874523A (zh) * 2018-08-30 2020-03-10 北京国双科技有限公司 富文本编辑器的内外交互方法及装置、处理器、存储介质
CN112632358A (zh) * 2020-12-29 2021-04-09 北京天融信网络安全技术有限公司 一种资源链接获取方法、装置、电子设备及存储介质
CN113971234A (zh) * 2021-10-27 2022-01-25 湖北天融信网络安全技术有限公司 一种数据爬取方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006055983A2 (en) * 2004-11-22 2006-05-26 Truveo, Inc. Method and apparatus for a ranking engine
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫系统
CN101515300A (zh) * 2009-04-02 2009-08-26 阿里巴巴集团控股有限公司 一种Ajax网页内容的抓取方法及系统
CN101645815A (zh) * 2008-08-06 2010-02-10 百度在线网络技术(北京)有限公司 音视频文件下载提示方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006055983A2 (en) * 2004-11-22 2006-05-26 Truveo, Inc. Method and apparatus for a ranking engine
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫系统
CN101645815A (zh) * 2008-08-06 2010-02-10 百度在线网络技术(北京)有限公司 音视频文件下载提示方法
CN101515300A (zh) * 2009-04-02 2009-08-26 阿里巴巴集团控股有限公司 一种Ajax网页内容的抓取方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张媚: "Ajax友好的网络爬虫涉及与实现", 《中国优秀硕士学位论文全文库信息科技辑》, no. 10, 15 October 2011 (2011-10-15), pages 138 - 894 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10262341B2 (en) 2014-06-10 2019-04-16 Zte Corporation Resource downloading method and device
CN105279215A (zh) * 2014-06-10 2016-01-27 中兴通讯股份有限公司 资源的下载方法及装置
WO2015188431A1 (zh) * 2014-06-10 2015-12-17 中兴通讯股份有限公司 资源的下载方法及装置
CN105450465A (zh) * 2014-09-04 2016-03-30 上海福网信息科技有限公司 一种网站压力和性能测试方法及工具
CN105740290A (zh) * 2014-12-11 2016-07-06 富士通株式会社 移动设备自适应网络搜索的系统和方法
CN106371987A (zh) * 2015-07-24 2017-02-01 北京奇虎科技有限公司 测试方法和装置
CN106649354B (zh) * 2015-10-30 2020-02-28 北京国双科技有限公司 网页爬取请求处理方法和装置
CN106649354A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 网页爬取请求处理方法和装置
CN105824965A (zh) * 2016-04-01 2016-08-03 无锡中科富农物联科技有限公司 基于动态爬虫技术的数据源发现方法
CN105930385A (zh) * 2016-04-13 2016-09-07 珠海迈科智能科技股份有限公司 一种数据爬取方法及系统
CN106649567A (zh) * 2016-11-15 2017-05-10 杭州安恒信息技术有限公司 一种基于浏览器内核的网络爬虫系统
CN108269116A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 一种广告安全监测方法和装置
CN110874523A (zh) * 2018-08-30 2020-03-10 北京国双科技有限公司 富文本编辑器的内外交互方法及装置、处理器、存储介质
CN110874523B (zh) * 2018-08-30 2024-02-13 北京国双科技有限公司 富文本编辑器的内外交互方法及装置、处理器、存储介质
CN110083755A (zh) * 2019-04-29 2019-08-02 北京脉冲星科技有限公司 一种高仿真解析网页方法、装置和电子设备
CN112632358A (zh) * 2020-12-29 2021-04-09 北京天融信网络安全技术有限公司 一种资源链接获取方法、装置、电子设备及存储介质
CN113971234A (zh) * 2021-10-27 2022-01-25 湖北天融信网络安全技术有限公司 一种数据爬取方法、装置、电子设备及存储介质
CN113971234B (zh) * 2021-10-27 2023-03-10 湖北天融信网络安全技术有限公司 一种数据爬取方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN103577427A (zh) 基于浏览器内核的网页爬取方法、装置及包含该装置的浏览器
US10642904B2 (en) Infrastructure enabling intelligent execution and crawling of a web application
EP2724251B1 (en) Methods for making ajax web applications bookmarkable and crawlable and devices thereof
US8660976B2 (en) Web content rewriting, including responses
WO2016173200A1 (zh) 用于检测恶意网址的方法和系统
US8131753B2 (en) Apparatus and method for accessing and indexing dynamic web pages
CN106528657A (zh) 浏览器跳转至应用程序的控制方法及装置
CN104572777B (zh) 基于UIWebView组件的网页加载方法及装置
WO2008157322A1 (en) Displaying content on a mobile device
CN104461513B (zh) 一种生成表单界面的方法及装置
US20210064453A1 (en) Automated application programming interface (api) specification construction
WO2017096475A1 (en) System and method for transforming online content to obfuscate an inclusion of supplemental content
CN112637361B (zh) 一种页面代理方法、装置、电子设备及存储介质
US9058399B2 (en) System and method for providing network resource identifier shortening service to computing devices
CN105354337A (zh) 一种网络爬虫实现方法和网络爬虫系统
CN105528369B (zh) 网页转码方法、装置以及服务器
US9122484B2 (en) Method and apparatus for mashing up web applications
US9477647B2 (en) Verifying content of resources in markup language documents by inclusion of a hash attribute-value pair in references to the content
JP6763433B2 (ja) 情報収集システム、情報収集方法、及び、プログラム
CN103605449A (zh) 静态页面的交互方法及装置
CN110719344B (zh) 域名获取方法、装置、电子设备及存储介质
US20150358397A1 (en) Distributed system
AU2018390863B2 (en) Computer system and method for extracting dynamic content from websites
CN105808727A (zh) 基于html5的网站跨屏适配技术架构和适配方法
CN111368231B (zh) 一种异构冗余架构网站的测试方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140212