CN111523074A - 一种前端渲染网站的动态页面敏感数据的采集系统 - Google Patents
一种前端渲染网站的动态页面敏感数据的采集系统 Download PDFInfo
- Publication number
- CN111523074A CN111523074A CN202010338378.8A CN202010338378A CN111523074A CN 111523074 A CN111523074 A CN 111523074A CN 202010338378 A CN202010338378 A CN 202010338378A CN 111523074 A CN111523074 A CN 111523074A
- Authority
- CN
- China
- Prior art keywords
- module
- acquisition
- website
- electrically connected
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009877 rendering Methods 0.000 title claims abstract description 25
- 238000012544 monitoring process Methods 0.000 claims abstract description 23
- 238000011084 recovery Methods 0.000 claims description 9
- 238000004088 simulation Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 230000035945 sensitivity Effects 0.000 claims 1
- 238000013515 script Methods 0.000 abstract description 13
- 238000000034 method Methods 0.000 description 10
- 230000006399 behavior Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000009193 crawling Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000270322 Lepidosauria Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/972—Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种前端渲染网站的动态页面敏感数据的采集系统,包括信息添加模块、网站采集模块和采集启动模块,所述信息添加模块和所述网站采集模块电性连接,所述网站采集模块包括代理人工采集模块和爬虫自动采集模块,所述采集启动模块包括代理服务器监听模块、自动配置代理设置模块和目标网站页面访问模块,本发明不仅对动态页面中的初始化脚本进行执行,得到动态页面的初始状态呈现,还会模拟用户操作行为,通过触发网页DOM树中各节点元素的脚本事件和监听事件结果,以此维护和更新原DOM树结构,并根据广域优先原则,对新DOM节点继续触发脚本事件,最大程度使页面呈现为最终完整状态。
Description
技术领域
本发明属于互联网信息采集技术领域,具体涉及一种前端渲染网站的动态页面敏感数据的采集系统。
背景技术
随着前端web技术,尤其是Javascript技术的迅猛发展,各种前端框架如React、Vue、Angular出现,网站开发前后端分离的模式正在逐步流行。在这种开发模式下,后端不再参与前端页面渲染,而是仅作为数据提供方的形式存在。前端页面通过Ajax技术调用WebAPI接口从后端获取数据,然后再通过Javascript技术操作DOM对象以实现页面渲染。在这种网站上,传统网络爬虫抓取的页面内容只有几乎空白的基本DOM结构,而没有经过浏览器解析和执行Javascript之后动态生成的内容,由此无法获得真正有用的数据。为了能够采集动态页面上的完整数据,现有两种采集爬虫的发展方向:模拟真实浏览器的执行流程,尝试解析和执行Javascript脚本,以此得到一个动态页面的最终呈现;忽略前端呈现,专注于采集实际获取数据的WebAPI接口。
但是,在现有技术中,传统静态爬虫已经趋于完善,针对后端渲染的静态网页能够较好的进行页面抓取,但是其对使用Ajax技术的动态页面无能为力。新出现的动态爬虫,由于无法一次性获取完整页面,通常需要针对特定网站进行定制化分析和制定采集策略,不具备较强的通用性,所以,现有技术主要存在以下方面的缺陷:
1、静态爬虫只能采集后端渲染页面;
2、解析执行Javascript脚本类动态爬虫,该类爬虫通常通过内嵌浏览器模拟人类操作页面,一般需要定制分析网站操作流程以便于模拟,通用性不强,同时因为完整解析页面内容,采集速度会受到影响;
3、直接抓取数据接口类动态爬虫,该类爬虫必须对每个待采集网站,人工分析获取数据接口API地址,并进行模拟请求,对爬虫使用人员技能和经验要求较高,相对困难且无法在其他网站复用。
为此,我们提出一种前端渲染网站的动态页面敏感数据的采集系统来解决现有技术中存在的问题,在于克服现有技术中的不足,意图提供一种可以完整采集前端渲染动态页面数据内容且能兼容多数网站的方法和系统。
发明内容
本发明的目的在于提供一种前端渲染网站的动态页面敏感数据的采集系统,以解决上述背景技术中提出现有技术中不仅工作效率低下,而且浪费大量人力的问题。
为实现上述目的,本发明采用了如下技术方案:
一种前端渲染网站的动态页面敏感数据的采集系统,包括信息添加模块、网站采集模块、采集启动模块和采集停止模块,所述信息添加模块和所述网站采集模块电性连接,所述信息添加模块包括域名单元、端口单元和入口地址单元,所述网站采集模块包括代理人工采集模块和爬虫自动采集模块,所述网站采集模块与所述采集启动模块电性连接,所述采集启动模块包括代理服务器监听模块、自动配置代理设置模块和目标网站页面访问模块,所述采集启动模块与采集停止模块电性连接,所述采集停止模块与所述信息添加模块电性连接。
优选的,所述域名单元与所述端口单元电性连接,所述端口单元和所述入口地址单元电性连接。
优选的,所述入口地址单元包括登陆入口和注销入口,所述登陆入口和所述注销入口分别与所述网站采集模块电性连接。
优选的,所述代理人工采集模块和所述爬虫自动采集模块分别与采集启动模块电性连接。
优选的,所述代理服务器监听模块与所述自动配置代理设置模块电性连接,所述自动配置代理设置模块与所述目标网站页面访问模块电性连接。
优选的,所述目标网站页面访问模块包括人工访问入口模块、自动访问入口模块、代理监听模块、原代理配置恢复模块、采集流程执行模块、采集数据信息模块和自动爬虫启动模块。
优选的,所述人工访问入口模块和所述自动访问入口模块分别与所述代理监听模块电性连接,所述代理监听模块与所述原代理配置恢复模块电性连接,所述原代理配置恢复模块分别与所述采集流程执行模块和采集数据信息模块电性连接,所述采集数据信息模块与所述自动爬虫模块电性连接。
优选的,所述采集流程执行模块包括用户ID执行模块和特定业务采集启动模块,所述用户ID执行模块和所述特定业务采集启动模块分别与所述采集停止模块电性连接。
优选的,所述自动爬虫启动模块包括模拟浏览器启动模块、节点触发执行模块和页面结构修正模块,所述模拟浏览器启动模块与所述节点触发执行模块电性连接,所述节点触发模块与所述页面结构修正模块电性连接。
本发明提出的一种前端渲染网站的动态页面敏感数据的采集系统,与现有技术相比,具有以下优点:
1、本发明的采集系统相比静态爬虫和现有一次性动态爬虫,优点在于对动态页面内容采集的数据完整性更高;本发明不仅会对动态页面中的初始化脚本进行执行,得到动态页面的初始状态呈现,更进一步的,本发明会模拟用户操作行为,通过触发网页DOM树中各节点元素的脚本事件和监听事件结果,以此维护和更新原DOM树结构,并根据广域优先原则,对新DOM节点继续触发脚本事件,最大程度使页面呈现为最终完整状态;
2、本发明的采集系统相比传统仅使用爬虫自动采集,本发明结合网络代理技术,通过架设代理服务器,监听代理请求和响应,完整捕获Http报文的方式,使人工更容易参与到数据采集进程中,并可以对网站的用户登录、二次认证鉴权,特定业务表单提交等复杂业务操作的响应结果进行采集,弥补爬虫自动采集的缺漏;
3、本发明的采集系统不局限于目标网站类型,不局限于网站业务复杂程度,是针对网站动态页面的完整数据内容的通用采集系统。
附图说明
图1为本发明的前端渲染网站的动态页面敏感数据的采集系统框图;
图2为本发明的目标网站页面访问模块系统框图;
图3为本发明的代理人工采集流程图;
图4为本发明的爬虫自动采集流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明提供了如图1-2所示的一种前端渲染网站的动态页面敏感数据的采集系统,包括信息添加模块、网站采集模块、采集启动模块和采集停止模块,信息添加模块和网站采集模块电性连接,信息添加模块包括域名单元、端口单元和入口地址单元,域名单元与端口单元电性连接,端口单元和入口地址单元电性连接,入口地址单元包括登陆入口和注销入口,登陆入口和注销入口分别与网站采集模块电性连接;
网站采集模块包括代理人工采集模块和爬虫自动采集模块,代理人工采集模块和爬虫自动采集模块分别与采集启动模块电性连接;
采集启动模块包括代理服务器监听模块、自动配置代理设置模块和目标网站页面访问模块,代理服务器监听模块与自动配置代理设置模块电性连接,自动配置代理设置模块与目标网站页面访问模块电性连接,目标网站页面访问模块包括人工访问入口模块、自动访问入口模块、代理监听模块、原代理配置恢复模块、采集流程执行模块、采集数据信息模块和自动爬虫启动模块;
人工访问入口模块和自动访问入口模块分别与代理监听模块电性连接,代理监听模块与原代理配置恢复模块电性连接,原代理配置恢复模块分别与采集流程执行模块和采集数据信息模块电性连接,采集数据信息模块与自动爬虫模块电性连接;
采集流程执行模块包括用户ID执行模块和特定业务采集启动模块,用户ID执行模块和特定业务采集启动模块分别与采集停止模块电性连接,自动爬虫启动模块包括模拟浏览器启动模块、节点触发执行模块和页面结构修正模块,模拟浏览器启动模块与节点触发执行模块电性连接,节点触发模块与页面结构修正模块电性连接;
采集启动模块与采集停止模块电性连接,采集停止模块与信息添加模块电性连接。
实施例2
一种前端渲染网站的动态页面敏感数据的采集系统的整体采集流程为:
S1:通过信息添加模块完成如下操作:添加目标网站基本信息,包括域名、端口、入口地址,是否需要登录,如需登录还需填写注销入口等信息;
S2:通过网站采集模块完成如下操作:添加目标网站采集任务,指定采集模式:代理人工采集或爬虫自动采集,启动采集任务;
S3:通过采集启动模块完成如下如下操作:根据任务采集模式,分以下情形:
1)使用代理人工采集时,则系统启动代理服务器监听,并自动配置代理设置,由人工使用浏览器软件访问目标网站页面,执行采集流程;
2)使用爬虫自动采集时,如网站配置中需要登录,则首先启动代理服务器监听,自动配置代理设置,启动浏览器访问目标网站登录入口,人工填写有效信息执行登录操作;登录操作成功后,程序停止代理监听,恢复代理设置,记录已采集报文数据中的有效身份信息,如:Authorization Header和Cookie,然后启动自动爬虫采集系统,将有效身份信息加入请求后,开启自动爬取工作;
S4:采集停止模块如下操作:待S3采集流程完成后,系统则停止采集动作。
实施例3
本发明还提供了如图3所示的一种前端渲染网站的动态页面敏感数据的采集系统的人工采集流程,通过目标网站页面访问模块完成如下操作:
S1:通过人工访问入口开启代理服务器监听的随机可用端口,建立Http/Https代理服务器,通过自动配置代理设置自动设置系统代理配置;
S2:通过采集流程执行将启动浏览器程序,确认浏览器代理配置使用系统代理,人工访问目标网站页面;此时浏览器所有的请求和响应报文都会通过程序自建的代理服务器,从而被成功采集;
S3:代理监听停止自建代理服务器,即可恢复原系统代理配置,此时程序系统不再抓取请求响应报文。
实施例4
本发明还提供了如图4所示的一种前端渲染网站的动态页面敏感数据的采集系统的爬虫自动采集流程,通过目标网站页面访问模块完成如下操作:
S1:通过自动访问入口开启代理服务器监听,自动配置代理设置;
S2:首先通过模拟浏览器启动打开目标网站的入口页面,并执行其中的JavaScript脚本,得到一个真实环境下的最终页面状态,然后建立当前页面状态快照;
S3:通过采集数据信息完成如下操作:遍历S2步骤获得的页面的DOM树结构,标记其中所有的超链接标签节点,所有的按钮标签节点,以及所有具有点击事件或鼠标悬停事件的DOM节点,将所有这些节点存入待处理节点队列;
S4:通过触发节点执行完成如下操作:触发待处理节点队列中DOM节点的悬停或点击事件,监控事件触发后的页面行为,如新增、修改、删除DOM节点、发起Http请求或发生页面跳转;
S5:通过页面结构修正根据S4步骤中事件触发后的行为不同,分别执行不同的操作:
1)如果是新增DOM节点,则在S2快照中新增该DOM节点,并对该新增DOM节点执行S3步骤进行分析,将新发现的标记节点加入待处理节点队列;
2)如果是编辑DOM节点,对编辑后的DOM节点建立编辑快照,待原DOM节点中所有已标记但未处理的节点处理完成后,在S2快照中修改原DOM节点中所有节点的id和name属性,然后插入编辑快照中修改后的DOM节点,并对新增DOM节点执行S3步骤进行分析,将新发现的标记系欸但加入待处理节点队列;
3)如果是删除DOM节点,对待删除的DOM节点建立删除快照,待原DOM节点中所有已标记但未处理的节点处理完成后,在S2快照中修改原DOM节点中所有节点的id和name属性;
4)如果是发起Http请求,则执行该请求,将响应作为页面脚本执行的结果以触发脚本后续行为;同时应记录该Http请求的完整报文。根据脚本后续行为不同重复执行S5步骤;
5)如果是发生页面跳转,则阻止跳转发生,将跳转目的网站地址存入待处理页面队列;
S6:重复执行S4、S5步骤,直到待处理节点队列为空,此时即获得该动态页面的最终呈现;
S7:对待处理页面队列中的网址,执行S2-S8步骤,可获得该动态页面中链接的其他页面的最终呈现;
S8:重复执行S7,直到待处理页面队列为空,此时即完整获得该网站所有页面的最终呈现。
综上所述:人工访问方式和自动爬取方式相结合,可以兼顾多种网站场景,具有较高的实用性。人工访问可以执行用户身份认证,或采集具有特定业务操作的网站页面。自动爬取通过模拟浏览器环境,完整加载一个动态生成后的页面,然后模拟用户的使用行为,如点击按钮,查看元素提示框等操作,触发动态网页中脚本的执行、和发起Ajax请求等行为,最后将脚本执行的结果根据操作行为类型,对动态页面DOM树进行增加或修改,最终得到完整的动态网页。自动爬取可以减少人工参与成本,并可以根据需要通过编程将不需要的页面元素和请求移除,如图片、音视频数据等,加快采集速度。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种前端渲染网站的动态页面敏感数据的采集系统,包括信息添加模块、网站采集模块、采集启动模块和采集停止模块,其特征在于:所述信息添加模块和所述网站采集模块电性连接,所述信息添加模块包括域名单元、端口单元和入口地址单元,所述网站采集模块包括代理人工采集模块和爬虫自动采集模块,所述网站采集模块与所述采集启动模块电性连接,所述采集启动模块包括代理服务器监听模块、自动配置代理设置模块和目标网站页面访问模块,所述采集启动模块与采集停止模块电性连接,所述采集停止模块与所述信息添加模块电性连接。
2.根据权利要求1所述的一种前端渲染网站的动态页面敏感数据的采集系统,其特征在于:所述域名单元与所述端口单元电性连接,所述端口单元和所述入口地址单元电性连接。
3.根据权利要求2所述的一种前端渲染网站的动态页面敏感数据的采集系统,其特征在于:所述入口地址单元包括登陆入口和注销入口,所述登陆入口和所述注销入口分别与所述网站采集模块电性连接。
4.根据权利要求1所述的一种前端渲染网站的动态页面敏感数据的采集系统,其特征在于:所述代理人工采集模块和所述爬虫自动采集模块分别与采集启动模块电性连接。
5.根据权利要求1所述的一种前端渲染网站的动态页面敏感数据的采集系统,其特征在于:所述代理服务器监听模块与所述自动配置代理设置模块电性连接,所述自动配置代理设置模块与所述目标网站页面访问模块电性连接。
6.根据权利要求5所述的一种前端渲染网站的动态页面敏感数据的采集系统,其特征在于:所述目标网站页面访问模块包括人工访问入口模块、自动访问入口模块、代理监听模块、原代理配置恢复模块、采集流程执行模块、采集数据信息模块和自动爬虫启动模块。
7.根据权利要求6所述的一种前端渲染网站的动态页面敏感数据的采集系统,其特征在于:所述人工访问入口模块和所述自动访问入口模块分别与所述代理监听模块电性连接,所述代理监听模块与所述原代理配置恢复模块电性连接,所述原代理配置恢复模块分别与所述采集流程执行模块和采集数据信息模块电性连接,所述采集数据信息模块与所述自动爬虫模块电性连接。
8.根据权利要求7所述的一种前端渲染网站的动态页面敏感数据的采集系统,其特征在于:所述采集流程执行模块包括用户ID执行模块和特定业务采集启动模块,所述用户ID执行模块和所述特定业务采集启动模块分别与所述采集停止模块电性连接。
9.一种权利要求7所述的一种前端渲染网站的动态页面敏感数据的采集系统,其特征在于:所述自动爬虫启动模块包括模拟浏览器启动模块、节点触发执行模块和页面结构修正模块,所述模拟浏览器启动模块与所述节点触发执行模块电性连接,所述节点触发模块与所述页面结构修正模块电性连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010338378.8A CN111523074A (zh) | 2020-04-26 | 2020-04-26 | 一种前端渲染网站的动态页面敏感数据的采集系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010338378.8A CN111523074A (zh) | 2020-04-26 | 2020-04-26 | 一种前端渲染网站的动态页面敏感数据的采集系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111523074A true CN111523074A (zh) | 2020-08-11 |
Family
ID=71903529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010338378.8A Pending CN111523074A (zh) | 2020-04-26 | 2020-04-26 | 一种前端渲染网站的动态页面敏感数据的采集系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523074A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111949903A (zh) * | 2020-08-28 | 2020-11-17 | 杭州安恒信息技术股份有限公司 | 一种网页数据采集方法、装置、设备及可读存储介质 |
CN112487269A (zh) * | 2020-12-22 | 2021-03-12 | 安徽商信政通信息技术股份有限公司 | 一种爬虫自动化脚本的检测方法及装置 |
CN113220968A (zh) * | 2021-05-26 | 2021-08-06 | 西安热工研究院有限公司 | 基于群集化网络爬虫的电力技术标准自动查新系统及方法 |
CN114647466A (zh) * | 2020-12-17 | 2022-06-21 | 国信君和(北京)科技有限公司 | 页面内容提取方法、装置、设备和计算机可读存储介质 |
CN114925259A (zh) * | 2022-04-20 | 2022-08-19 | 北京网景盛世技术开发中心 | 一种基于政府门户和新媒体的信息采集抽取方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214098A (zh) * | 2011-06-15 | 2011-10-12 | 中山大学 | 一种基于WebKit浏览器引擎的动态页面数据采集方法 |
CN105306293A (zh) * | 2015-10-14 | 2016-02-03 | 浪潮软件集团有限公司 | 一种基于虚拟登陆的数据采集方法 |
CN107729385A (zh) * | 2017-09-19 | 2018-02-23 | 杭州安恒信息技术有限公司 | 一种采集动态网页完整数据内容的方法 |
US20180089676A1 (en) * | 2016-09-23 | 2018-03-29 | Paypal, Inc. | Dynamic Multi-Website Data Collection and Data Sharing |
CN108304498A (zh) * | 2018-01-12 | 2018-07-20 | 深圳壹账通智能科技有限公司 | 网页数据采集方法、装置、计算机设备和存储介质 |
CN109739717A (zh) * | 2018-04-12 | 2019-05-10 | 京东方科技集团股份有限公司 | 一种页面数据采集的方法及装置、服务器 |
CN110909229A (zh) * | 2019-11-27 | 2020-03-24 | 佛山科学技术学院 | 一种基于模拟浏览器访问的网页数据获取和存储的系统 |
CN111046317A (zh) * | 2019-12-27 | 2020-04-21 | 北京奇艺世纪科技有限公司 | 页面数据采集方法、装置、设备和计算机可读存储介质 |
-
2020
- 2020-04-26 CN CN202010338378.8A patent/CN111523074A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214098A (zh) * | 2011-06-15 | 2011-10-12 | 中山大学 | 一种基于WebKit浏览器引擎的动态页面数据采集方法 |
CN105306293A (zh) * | 2015-10-14 | 2016-02-03 | 浪潮软件集团有限公司 | 一种基于虚拟登陆的数据采集方法 |
US20180089676A1 (en) * | 2016-09-23 | 2018-03-29 | Paypal, Inc. | Dynamic Multi-Website Data Collection and Data Sharing |
CN107729385A (zh) * | 2017-09-19 | 2018-02-23 | 杭州安恒信息技术有限公司 | 一种采集动态网页完整数据内容的方法 |
CN108304498A (zh) * | 2018-01-12 | 2018-07-20 | 深圳壹账通智能科技有限公司 | 网页数据采集方法、装置、计算机设备和存储介质 |
CN109739717A (zh) * | 2018-04-12 | 2019-05-10 | 京东方科技集团股份有限公司 | 一种页面数据采集的方法及装置、服务器 |
CN110909229A (zh) * | 2019-11-27 | 2020-03-24 | 佛山科学技术学院 | 一种基于模拟浏览器访问的网页数据获取和存储的系统 |
CN111046317A (zh) * | 2019-12-27 | 2020-04-21 | 北京奇艺世纪科技有限公司 | 页面数据采集方法、装置、设备和计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
杜海涛: ""基于代理服务器的动态Web页面采集框架的设计"" * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111949903A (zh) * | 2020-08-28 | 2020-11-17 | 杭州安恒信息技术股份有限公司 | 一种网页数据采集方法、装置、设备及可读存储介质 |
CN111949903B (zh) * | 2020-08-28 | 2024-03-08 | 杭州安恒信息技术股份有限公司 | 一种网页数据采集方法、装置、设备及可读存储介质 |
CN114647466A (zh) * | 2020-12-17 | 2022-06-21 | 国信君和(北京)科技有限公司 | 页面内容提取方法、装置、设备和计算机可读存储介质 |
CN112487269A (zh) * | 2020-12-22 | 2021-03-12 | 安徽商信政通信息技术股份有限公司 | 一种爬虫自动化脚本的检测方法及装置 |
CN112487269B (zh) * | 2020-12-22 | 2023-10-24 | 安徽商信政通信息技术股份有限公司 | 一种爬虫自动化脚本的检测方法及装置 |
CN113220968A (zh) * | 2021-05-26 | 2021-08-06 | 西安热工研究院有限公司 | 基于群集化网络爬虫的电力技术标准自动查新系统及方法 |
CN113220968B (zh) * | 2021-05-26 | 2023-03-14 | 西安热工研究院有限公司 | 基于群集化网络爬虫的电力技术标准自动查新系统及方法 |
CN114925259A (zh) * | 2022-04-20 | 2022-08-19 | 北京网景盛世技术开发中心 | 一种基于政府门户和新媒体的信息采集抽取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111523074A (zh) | 一种前端渲染网站的动态页面敏感数据的采集系统 | |
CN102272757B (zh) | 用于执行客户端浏览器状态的服务器端记录的方法和系统 | |
DE60114999T2 (de) | Überwachung von und interaktion mit netzwerkdiensten | |
CN106844204B (zh) | 一种利用移动终端生成缺陷报告的方法及系统 | |
CN104601573B (zh) | 一种Android平台URL访问结果验证方法及装置 | |
US20020103896A1 (en) | HTTP transaction monitor | |
CN108197125A (zh) | 网页抓取方法及装置 | |
CN110825985B (zh) | 数据采集系统、方法、装置、控制设备及代理设备 | |
DE102004041122A1 (de) | Fern-Fehlerbeseitigung bei Web-Anwendungen | |
CN106789869B (zh) | 基于Basic认证的流量代理漏洞检测方法及系统 | |
GB2357679A (en) | Monitoring of services provided over a network with recording and redisplay of user interactions with a web page | |
US7716632B2 (en) | Automated software robot generator | |
US20220286524A1 (en) | Network latency detection | |
CN106598991A (zh) | 一种使用会话方式实现与网站交互表单自动提取的网络爬虫系统 | |
CN112799925A (zh) | 数据采集方法、装置、电子设备和可读存储介质 | |
CN114465741B (zh) | 一种异常检测方法、装置、计算机设备及存储介质 | |
CN110083755A (zh) | 一种高仿真解析网页方法、装置和电子设备 | |
CN110555146A (zh) | 一种网络爬虫伪装数据的生成方法及系统 | |
CN110955604B (zh) | 一种信息显示方法、装置、服务器及存储介质 | |
CN115941224A (zh) | 一种网络访问信息管理方法、装置和计算机可读存储介质 | |
CN106303757A (zh) | 一种基于视觉特征及流还原的网络音视频地址解析方法 | |
CN108255567A (zh) | 一种基于Application的Web在线人员管理方法及系统 | |
CN111475423A (zh) | 数据录入方法、装置、电子设备及可读存储介质 | |
CN102215146B (zh) | 一种监测网页下载的方法及装置 | |
Li et al. | Modeling web application for cross-browser compatibility testing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200811 |