CN103631806A - 一种网络信息抓取方法和装置 - Google Patents

一种网络信息抓取方法和装置 Download PDF

Info

Publication number
CN103631806A
CN103631806A CN201210305527.6A CN201210305527A CN103631806A CN 103631806 A CN103631806 A CN 103631806A CN 201210305527 A CN201210305527 A CN 201210305527A CN 103631806 A CN103631806 A CN 103631806A
Authority
CN
China
Prior art keywords
script
url
webpage
static
network information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210305527.6A
Other languages
English (en)
Inventor
邓志鸿
张�杰
赖博彦
刘河
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Huawei Technologies Co Ltd
Original Assignee
Peking University
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Huawei Technologies Co Ltd filed Critical Peking University
Priority to CN201210305527.6A priority Critical patent/CN103631806A/zh
Publication of CN103631806A publication Critical patent/CN103631806A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明的实施例公开了一种网络信息抓取方法和装置。涉及网络技术领域,能够直接获取动态网页中的URL和URL对应的内容。该方法包括:通过预设的浏览器客户端访问静态的统一资源定位符URL;获取静态的URL对应的超文本标记语言HTML文件;获取该HTML文件中对应可实现用户操作执行的脚本语言函数,该脚本语言函数包括:JavaScript脚本函数;解析该脚本语言函数,得到解析后的网页,并从该网页中抽取其他静态的URL,并将该网页存储,并应用正则表达式抽取其中的其他静态的URL。本发明应用于网络信息抓取。

Description

一种网络信息抓取方法和装置
技术领域
本发明涉及网络技术领域,尤其涉及一种网络信息抓取方法和装置。
背景技术
现今很多的诸如购物搜索网站的产品开始注意到互联网中海量信息的获取和集成对于用户的重要性。在这些产品中,作为搜索引擎技术之一的网络抓取技术是整个构架出来的系统中非常重要的一个环节,能帮助各大搜索引擎抓取网页并构建网页数据库。网络抓取技术是指程序或脚本按一定的规则,自动地下载互联网中的特定内容的一项技术。网络抓取程序一般从某个特定的统一资源定位符(UniformResource Locator,简称URL)出发,获取访问该URL返回得到的超文本标记语(Hypertext Markup Language,简称HTML)网页,同时对该网页进行分析,从中抽取得到一系列相关的其他URL用于继续访问,从而得到一系列相关的HTML网页内容,直到遍历完整个网络,或者达到一定的条件后停止抓取。
在实现上述网络抓取的过程中,发明人发现大量的网站开始采用JavaScript、Ajax等技术制作动态网页来完善用户的交互与体验,但这些技术也给网络抓取带来了难度。现有的网络抓取技术获取的HTML网页一般为静态网页,静态网页的特点是其内容完全由访问的URL确定,并且不同的用户访问得到的内容都是一样的;然而动态网页除了能得到静态网页的内容,还含有大量必须通过执行客户端脚本才能够得到的URL,即在动态网页中,同一个URL,不同的用户访问所获取的网页内容是不同的,因此当需要针对不同用户获取不同的个性化数据时,现有的网络抓取技术无法直接获得动态网页中的URL和URL对应的内容。
发明内容
本发明的实施例提供了一种网络信息抓取方法和装置,用以获得动态网页中的URL和URL对应的内容。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种网络信息抓取方法,包括:
通过预设的浏览器客户端访问静态的统一资源定位符URL;
获取所述静态的URL对应的超文本标记语言HTML文件;
获取所述HTML文件中对应可实现用户操作执行的脚本语言函数,所述脚本语言函数包括:JavaScript脚本语言函数;
解析所述脚本语言函数,得到解析后的网页,并从所述网页中抽取其他静态的URL,并将所述网页存储。
在第一种可能的实现方式中,根据第一方面,该方法还包括:
创建所述浏览器客户端网络连接;
设置所述浏览器客户端的浏览器版本及支持的脚本语言,所述脚本语言包括JavaScript脚本语言。
在第二种可能的实现方式中,结合第一方面或第一种可能的实现方式,具体实现为:解析所述脚本语言函数,得到解析后的网页,并从所述网页中抽取其他静态的URL包括:通过页面解析工具解析所述脚本语言函数模拟用户操作,得到所述解析后的网页,并应用正则表达式抽取其中的所述其他静态的URL,所述解析工具包括:htmlunit分析工具。
第二方面,提供了一种网络信息抓取装置,所述网络信息抓取装置包括:
网页地址访问单元,用于通过预设的浏览器客户端访问静态的URL;
网页内容获取单元,用于获取所述静态的URL对应的超文本标记语言HTML文件;
网页脚本程序获取单元,用于获取所述HTML文件中对应可实现用户操作执行的脚本语言函数,所述脚本语言函数包括:JavaScript脚本语言函数;
网页解析单元,用于解析所述脚本语言函数,得到解析后的网页,并从所述网页中抽取其他静态的URL,并将所述网页存储。
在第一种可能的实现方式中,根据第二方面,所述的网络信息抓取装置还包括:
网络连接单元,用于创建所述浏览器客户端网络连接;
浏览器设置单元,用于设置所述浏览器客户端的浏览器版本及支持的脚本语言,所述脚本语言包括:JavaScript脚本语言。
在第二种可能的实现方式中,结合第二方面或第一种可能的实现方式,所述网页解析单元,具体用于通过页面解析工具解析所述脚本语言函数模拟用户操作,得到所述解析后的网页,并应用正则表达式抽取其中的所述其他静态的URL,所述解析工具包括:htmlunit分析工具。
第三方面,提供了一种网络信息抓取装置,所述网络信息抓取装置包括:至少一个入口端和一个出口端以及分别与所述入口端和所述出口端连接的处理器和存储器,其中:
所述处理器用于通过预设的浏览器客户端访问静态的URL;所述存储器通过所述至少一个入口端获取所述静态的URL对应的超文本标记语言HTML文件;
所述处理器还用于获取所述存储器中所述HTML文件中对应可实现用户操作执行的脚本语言函数,所述脚本语言函数包括:JavaScript脚本语言函数;
所述处理器还用于解析所述脚本语言函数,得到解析后的网页,并从所述网页中抽取其他静态的URL,并将所述网页通过所述至少一个出口端发送至网页数据库存储。
在第一种可能的实现方式中,结合第三方面,所述处理器还用于创建所述浏览器客户端网络连接;设置所述浏览器客户端的浏览器版本及支持的脚本语言,所述脚本语言包括:JavaScript脚本语言。
在第二种可能的实现方式中,结合第三方面或第一种可能的实现方式,所述处理器具体用于通过页面解析工具解析所述脚本语言函数模拟用户操作,得到所述解析后的网页,并应用正则表达式抽取其中的所述其他静态的URL,所述解析工具包括:htmlunit分析工具。
本发明的实施例提供的网络信息抓取方法和装置,采用对动态网页对应的静态的URL进行访问时在所得到的HTML文件中对可实现用户操作执行的脚本语言函数进行解析的方法,得到动态网页中的包含的其他URL,使得在进行网络信息的抓取时获取静态网页内容的同时还能获取动态网页中的URL和URL对应的内容。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种网络信息抓取方法的流程示意图;
图2为本发明实施例提供的一种网络信息抓取装置的结构示意图;
图3为本发明实施例提供的另一种网络信息抓取装置的结构示意图;
图4为本发明另一实施例提供的一种网络信息抓取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例公开一种网络信息抓取方法,如图1所示,该方法包括如下步骤:
101、网络信息抓取装置通过预设的浏览器客户端访问静态的统一资源定位符URL。
进一步可选的,步骤101之前还包括:
101a、创建浏览器客户端网络连接;
101b、设置该浏览器客户端的浏览器版本及支持的脚本语言,该脚本语言包括:JavaScript脚本语言。
102、获取该静态的URL对应的超文本标记语言HTML文件。
103、获取该HTML文件中对应可实现用户操作执行的脚本语言函数,该脚本语言函数包括:JavaScript脚本函数。
104、解析该脚本语言函数,得到解析后的网页,并从网页中抽取其他静态的URL,并将该网页存储。
步骤104具体包括:通过页面解析工具解析脚本语言函数模拟用户操作,得到解析后的网页,并应用正则表达式抽取其中的其他静态的URL,所述解析工具包括:htmlunit分析工具。当然这里所模拟的用户操作可以为用户的点击动作。
可选的,这里可以配置只针对需要获取的内容对应的可实现用户操作执行的脚本语言函数进行解析,对其他的可实现用户操作执行的脚本语言函数不进行解析。
此外,在得到了解析后的网页的同时,还抽取出了解析后的网页中的其他静态的URL,对新抽取的其他静态的URL进行步骤101~104的过程,重复此过程,直到获取动态网页中所包含的全部需要内容为止。
本发明的实施例提供的网络信息抓取方法,采用对动态网页对应的静态的URL进行访问时在所得到的HTML文件中对可实现用户操作执行的脚本语言函数进行解析的方法,得到动态网页中的包含的其他URL,使得在进行网络信息的抓取时获取静态网页内容的同时还能获取动态网页中的URL和URL对应的内容。
具体的,以爬取某网页作者信息为例,根据任意文章的URL访问到相应的网页页面,找到所要抓取的网页元素,模拟一次浏览器点击,得到新的网页并将新的网页进行存储。这里以摘要(Abstract)为将要抓取的网页元素为例进行说明。其程序实现过程可以包括:
1、WebClient client=new WebClient();//建立了一个浏览器客户端的网络连接;
2、client.setAjaxController(newNicelyResynchronizingAjaxController());//设置浏览器客户端支持Ajax(基于JavaScript语言所实现的网页开发技术);
3、HtmlPage page=client.getPage(url);//获得URL对应的网页;
4、HtmlElement Abstract=(HtmlElement)page.getByXPath
(″//span[contains(title,′Abstract</span>′)]″).get(0);
//用可扩展标记语言的路径语言(XML Path Language,简称xpath)得到摘要(Abstract)这一个网页元素;
具体的,在所爬取的此网页中不止摘要(Abstract)这一个网页元素,还包括:原始资料(Source Materials)和著作者(Authors),但这里只针对需要获取的内容对应的网页元素即摘要(Abstract)的脚本语言函数进行解析。
5、page=Abstract.click();//模拟点击摘要(Abstract)这一个网页元素,并得到新的网页;
6、String xml=page.asXml();//将新的网页以可扩展标记语言(Xtensible Markup Language,简称XML)打印出来。
本发明的实施例提供的网络信息抓取方法,采用对动态网页对应的静态的URL进行访问时在所得到的HTML文件中对可实现用户操作执行的脚本语言函数进行解析的方法,得到动态网页中的包含的其他URL,使得在进行网络信息的抓取时获取静态网页内容的同时还能获取动态网页中的URL和URL对应的内容。
本发明的实施例公开了一种网络信息抓取装置2,如图2所示,网络信息抓取装置2包括:网页地址访问单元21、网页内容获取单元22、网页脚本程序获取单元23和网页解析单元24,其中:
网页地址访问单元21,用于通过预设的浏览器客户端访问静态的统一资源定位符URL;
网页内容获取单元22,用于获取该静态的URL对应的超文本标记语言HTML文件;
网页脚本程序获取单元23,用于获取HTML文件中对应用户操作执行的脚本语言函数,该脚本语言函数包括:JavaScript脚本函数;
网页解析单元24,用于解析脚本语言函数,得到解析后的网页,并从该网页中抽取其他静态的URL,并将该网页存储。
本发明的实施例提供的网络信息抓取装置,采用对动态网页对应的静态的URL进行访问时在所得到的HTML文件中对可实现用户操作执行的脚本语言函数进行解析的方法,得到动态网页中的包含的其他URL,使得在进行网络信息的抓取时获取静态网页内容的同时还能获取动态网页中的URL和URL对应的内容。
进一步,可选的如图3所示,网络信息抓取装置2还包括:网络连接单元25和浏览器设置单元26,其中:
网络连接单元25,用于创建浏览器客户端网络连接;
浏览器设置单元26,用于设置浏览器客户端的浏览器版本及支持的脚本语言,所述脚本语言包括JavaScript脚本语言。
可选的如图3所示,网页解析单元24具体用于通过页面解析工具解析所述脚本语言函数模拟用户操作,得到所述解析后的网页,并应用正则表达式抽取其中的所述其他静态的URL,所述解析工具包括:htmlunit分析工具。
本实施例公开了一种网络信息抓取装置3,如图4所示,网络信息抓取装置3包括:至少一个入口端31和一个出口端32以及分别与入口端31和出口端32连接的处理器33和存储器34,其中:
处理器33用于通过预设的浏览器客户端访问静态的URL;存储器34通过至少一个入口端获取该静态的URL对应的超文本标记语言HTML文件;
处理器33还用于获取存储器34中HTML文件中对应可实现用户操作执行的脚本语言函数,该脚本语言函数包括:JavaScript脚本语言函数;
处理器33还用于解析脚本语言函数,得到解析后的网页,并从该网页中抽取其他静态的URL,并该网页通过至少一个出口端32发送至网页数据库存储。
本发明的实施例提供的网络信息抓取装置,采用对动态网页对应的静态的URL进行访问时在所得到的HTML文件中对可实现用户操作执行的脚本语言函数进行解析的方法,得到动态网页中的包含的其他URL,使得在进行网络信息的抓取时获取静态网页内容的同时还能获取动态网页中的URL和URL对应的内容。
进一步可选的,处理器33还用于创建浏览器客户端网络连接;设置浏览器客户端的浏览器版本及支持的脚本语言,脚本语言包括:JavaScript脚本语言。
可选的,处理器33具体用于通过页面解析工具解析脚本语言函数模拟用户操作,得到该解析后的网页,并应用正则表达式抽取其中的其他静态的URL,该解析工具包括:htmlunit分析工具。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种网络信息抓取方法,其特征在于,包括:
通过预设的浏览器客户端访问静态的统一资源定位符URL;
获取所述静态的URL对应的超文本标记语言HTML文件;
获取所述HTML文件中对应可实现用户操作执行的脚本语言函数,所述脚本语言函数包括:JavaScript脚本语言函数;
解析所述脚本语言函数,得到解析后的网页,并从所述网页中抽取其他静态的URL,并将所述网页存储。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
创建所述浏览器客户端网络连接;
设置所述浏览器客户端的浏览器版本及支持的脚本语言,所述脚本语言包括JavaScript脚本语言。
3.根据权利要求1或2所述的方法,其特征在于,解析所述脚本语言函数,得到解析后的网页,并从所述网页中抽取其他静态的URL包括:
通过页面解析工具解析所述脚本语言函数模拟用户操作,得到所述解析后的网页,并应用正则表达式抽取其中的所述其他静态的URL,所述解析工具包括:htmlunit分析工具。
4.一种网络信息抓取装置,其特征在于,所述网络信息抓取装置包括:
网页地址访问单元,用于通过预设的浏览器客户端访问静态的URL;
网页内容获取单元,用于获取所述静态的URL对应的超文本标记语言HTML文件;
网页脚本程序获取单元,用于获取所述HTML文件中对应可实现用户操作执行的脚本语言函数,所述脚本语言函数包括:JavaScript脚本语言函数;
网页解析单元,用于解析所述脚本语言函数,得到解析后的网页,并从所述网页中抽取其他静态的URL,并将所述网页存储。
5.根据权利要求4所述的网络信息抓取装置,其特征在于,所述装置还包括:
网络连接单元,用于创建所述浏览器客户端网络连接;
浏览器设置单元,用于设置所述浏览器客户端的浏览器版本及支持的脚本语言,所述脚本语言包括:JavaScript脚本语言。
6.根据权利要求4或5所述的网络信息抓取装置,其特征在于,所述网页解析单元,具体用于通过页面解析工具解析所述脚本语言函数模拟用户操作,得到所述解析后的网页,并应用正则表达式抽取其中的所述其他静态的URL,所述解析工具包括:htmlunit分析工具。
7.一种网络信息抓取装置,其特征在于,所述网络信息抓取装置包括:至少一个入口端和一个出口端以及分别与所述入口端和所述出口端连接的处理器和存储器,其中:
所述处理器用于通过预设的浏览器客户端访问静态的URL;所述存储器通过所述至少一个入口端获取所述静态的URL对应的超文本标记语言HTML文件;
所述处理器还用于获取所述存储器中所述HTML文件中对应可实现用户操作执行的脚本语言函数,所述脚本语言函数包括:JavaScript脚本语言函数;
所述处理器还用于解析所述脚本语言函数,得到解析后的网页,并从所述网页中抽取其他静态的URL,并将所述网页通过所述至少一个出口端发送至网页数据库存储。
8.根据权利要求7所述的网络信息抓取装置,其特征在于,所述处理器还用于创建所述浏览器客户端网络连接;设置所述浏览器客户端的浏览器版本及支持的脚本语言,所述脚本语言包括:JavaScript脚本语言。
9.根据权利要求7或8所述的网络信息抓取装置,其特征在于,所述处理器具体用于通过页面解析工具解析所述脚本语言函数模拟用户操作,得到所述解析后的网页,并应用正则表达式抽取其中的所述其他静态的URL,所述解析工具包括:htmlunit分析工具。
CN201210305527.6A 2012-08-24 2012-08-24 一种网络信息抓取方法和装置 Pending CN103631806A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210305527.6A CN103631806A (zh) 2012-08-24 2012-08-24 一种网络信息抓取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210305527.6A CN103631806A (zh) 2012-08-24 2012-08-24 一种网络信息抓取方法和装置

Publications (1)

Publication Number Publication Date
CN103631806A true CN103631806A (zh) 2014-03-12

Family

ID=50212876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210305527.6A Pending CN103631806A (zh) 2012-08-24 2012-08-24 一种网络信息抓取方法和装置

Country Status (1)

Country Link
CN (1) CN103631806A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927370A (zh) * 2014-04-23 2014-07-16 焦点科技股份有限公司 一种组合文字和图片信息的网络资讯批量采集方法
CN104794199A (zh) * 2015-04-21 2015-07-22 百度在线网络技术(北京)有限公司 抓取网页数据的方法及系统
CN105183453A (zh) * 2015-08-07 2015-12-23 安一恒通(北京)科技有限公司 基于网页的信息获取方法及装置
CN105989134A (zh) * 2015-02-26 2016-10-05 小米科技有限责任公司 网页收录方法和装置
CN106599075A (zh) * 2016-11-14 2017-04-26 武汉斗鱼网络科技有限公司 一种统计用户行为数据的方法及装置
CN107229631A (zh) * 2016-03-24 2017-10-03 北京京东尚科信息技术有限公司 一种抓取网站数据的方法和装置
CN108933823A (zh) * 2018-06-28 2018-12-04 北京京东尚科信息技术有限公司 用户触达方法和装置
CN110069684A (zh) * 2017-09-30 2019-07-30 北京国双科技有限公司 一种数据爬取方法、装置、存储介质及处理器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1294353A (zh) * 1999-10-20 2001-05-09 英业达集团(西安)电子技术有限公司 通过网络取得网络资源的方法与装置
US20090132493A1 (en) * 2007-08-10 2009-05-21 Scott Decker Method for retrieving and editing HTML documents
CN101694658A (zh) * 2009-10-20 2010-04-14 浙江大学 基于新闻去重的网页爬虫的构建方法
US20110173178A1 (en) * 2002-06-19 2011-07-14 Craig Conboy Method and system for obtaining script related information for website crawling
US20120215757A1 (en) * 2011-02-22 2012-08-23 International Business Machines Corporation Web crawling using static analysis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1294353A (zh) * 1999-10-20 2001-05-09 英业达集团(西安)电子技术有限公司 通过网络取得网络资源的方法与装置
US20110173178A1 (en) * 2002-06-19 2011-07-14 Craig Conboy Method and system for obtaining script related information for website crawling
US20090132493A1 (en) * 2007-08-10 2009-05-21 Scott Decker Method for retrieving and editing HTML documents
CN101694658A (zh) * 2009-10-20 2010-04-14 浙江大学 基于新闻去重的网页爬虫的构建方法
US20120215757A1 (en) * 2011-02-22 2012-08-23 International Business Machines Corporation Web crawling using static analysis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李淼: ""支持AJAX的网络爬虫系统设计与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927370A (zh) * 2014-04-23 2014-07-16 焦点科技股份有限公司 一种组合文字和图片信息的网络资讯批量采集方法
CN103927370B (zh) * 2014-04-23 2015-02-18 焦点科技股份有限公司 一种组合文字和图片信息的网络资讯批量采集方法
CN105989134A (zh) * 2015-02-26 2016-10-05 小米科技有限责任公司 网页收录方法和装置
CN104794199A (zh) * 2015-04-21 2015-07-22 百度在线网络技术(北京)有限公司 抓取网页数据的方法及系统
CN104794199B (zh) * 2015-04-21 2018-11-09 百度在线网络技术(北京)有限公司 抓取网页数据的方法及系统
CN105183453A (zh) * 2015-08-07 2015-12-23 安一恒通(北京)科技有限公司 基于网页的信息获取方法及装置
CN107229631A (zh) * 2016-03-24 2017-10-03 北京京东尚科信息技术有限公司 一种抓取网站数据的方法和装置
CN106599075A (zh) * 2016-11-14 2017-04-26 武汉斗鱼网络科技有限公司 一种统计用户行为数据的方法及装置
CN106599075B (zh) * 2016-11-14 2019-07-09 武汉斗鱼网络科技有限公司 一种统计用户行为数据的方法及装置
CN110069684A (zh) * 2017-09-30 2019-07-30 北京国双科技有限公司 一种数据爬取方法、装置、存储介质及处理器
CN108933823A (zh) * 2018-06-28 2018-12-04 北京京东尚科信息技术有限公司 用户触达方法和装置

Similar Documents

Publication Publication Date Title
CN103631806A (zh) 一种网络信息抓取方法和装置
JP5990605B2 (ja) Ajaxウェブページコンテンツを取得する方法およびシステム
US9330179B2 (en) Configuring web crawler to extract web page information
US8645453B2 (en) Method and system of processing cookies across domains
US20120317472A1 (en) Creation of data extraction rules to facilitate web scraping of unstructured data from web pages
US20070198727A1 (en) Method, apparatus and system for extracting field-specific structured data from the web using sample
CA2817554A1 (en) Mobile content management system
WO2008157322A1 (en) Displaying content on a mobile device
CN101082917A (zh) 一种快速预览网页内容摘要的方法和装置
CN103793462B (zh) 网址净化方法及装置
CN106547749B (zh) 网页数据采集的方法和装置
CN103092936A (zh) 一种物联网动态页面实时信息采集方法
CN104572934A (zh) 一种基于dom的网页关键内容抽取方法
CN103513986B (zh) 一种在无操作系统设备中利用CGI技术实现动态web服务器的方法
CN106294885A (zh) 一种面向异构网页的数据收集与标注方法
CN103246675A (zh) 一种用于抓取网站数据的方法与设备
CN102236713A (zh) 一种数字电视交互服务页面的信息提取方法及其装置
CN103246680B (zh) 一种在浏览器中将网页内容聚合展现的方法及装置
Khosla et al. Capturing web log and performing preprocessing of the users accessing distance education system
SE1250079A1 (sv) En metod för att spåra en användares interaktion med en webbsida
JP5809101B2 (ja) Web閲覧履歴取得装置及びプログラム
Yapeng Network data analysis of crawler general search engine based on Python
CN102609416B (zh) 网页资讯保存控件及方法
TW201232306A (en) Activex capable of saving the information of the webpage and method thereof
TW201044197A (en) A method and system for capturing contents of Ajax web pages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140312

RJ01 Rejection of invention patent application after publication