CN110276041A - 一种基于谷歌浏览器插件的网页数据获取方法及系统 - Google Patents
一种基于谷歌浏览器插件的网页数据获取方法及系统 Download PDFInfo
- Publication number
- CN110276041A CN110276041A CN201910583979.2A CN201910583979A CN110276041A CN 110276041 A CN110276041 A CN 110276041A CN 201910583979 A CN201910583979 A CN 201910583979A CN 110276041 A CN110276041 A CN 110276041A
- Authority
- CN
- China
- Prior art keywords
- page
- data
- sliding block
- browser plug
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/972—Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/0485—Scrolling or panning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44521—Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
- G06F9/44526—Plug-ins; Add-ons
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于谷歌浏览器插件的网页数据获取方法及系统,属于互联网数据获取技术领域。本发明的基于谷歌浏览器插件的网页数据获取方法包括以下步骤:S1、编写谷歌浏览器插件;S2、在编写的谷歌浏览器插件中填写对应的配置保证插件正常运行;S3、自动获取链接;S4、获取网页数据;S5、自动翻页;S6、自动拖滑块;S7、页面操作;S8、数据处理:从网页或文本中获取需要的数据,对网页或文本数据进行格式或处理。该发明的基于谷歌浏览器插件的网页数据获取方法能够降低被网站识别为爬虫的概率,具有很好的推广应用价值。
Description
技术领域
本发明涉及互联网数据获取技术领域,具体提供一种基于谷歌浏览器插件的网页数据获取方法及系统。
背景技术
随着社会的不断发展,社会经济发展,同时社会各项技术水平有了很大的提高。互联网发展迅速,网络成为大量信息的载体,但是不同领域、不同背景的用户对于数据的需求是不一样的,我们如果想从海量数据中获取自己需要的数据就需要借助于网络爬虫,但是互联网数据的实际拥有者(网站管理人员)又会想办法甄别网络爬虫,保护自己的数据或者网站,一场数据爬取与反爬的大战就此拉开。
同时某些网站有严格的反爬策略,部分数据必须要用户登录才可见,持续访问还会出现滑块验证码等验证手段,普通的数据爬取方式已经很难获取到想要的数据,需要有针对性的定制化的数据获取方法。
浏览器插件,可以大大的扩展你的浏览器的功能。浏览器插件包括但不仅限于这些功能:捕捉特定网页的内容,捕捉HTTP报文,捕捉用户浏览动作,改变浏览器地址栏/起始页/书签/Tab等界面元素的行为,与别的站点通信,修改网页内容等。
谷歌浏览器开放了插件编辑功能使得开发者能够在谷歌浏览器中执行自定义的js代码,通过自定义的js代码可以在页面上获取想要的数据,执行需要的浏览器操作。
Chrome的插件开发起来最简单,总体上看没什么新的技术,开发语言就是javascript,只需要明白谷歌浏览器开放的插件api即可开发。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种通过模拟用户正常访问网站的方式自动化的获取网站数据,实现自动翻页、自动拖滑块、设置时间间隔等功能,降低被网站识别为爬虫的概率的基于谷歌浏览器插件的网页数据获取方法。
本发明进一步的技术任务是提供一种基于谷歌浏览器插件的网页数据获取系统。
为实现上述目的,本发明提供了如下技术方案:
一种基于谷歌浏览器插件的网页数据获取方法,该方法包括以下步骤:
S1、编写谷歌浏览器插件;
S2、在编写的谷歌浏览器插件中填写对应的配置保证插件正常运行;
S3、自动获取链接;
S4、获取网页数据:首先判断网页是否加载完成,加载完成后获取加载后的网页数据;
S5、自动翻页:在js中获取网页元素,模拟点击翻页按钮执行翻页操作;
S6、自动拖滑块:获取验证码滑块的位置,模拟鼠标事件拖动滑块;
S7、页面操作:在配置文件中写入参数,使用插件时页面配置从配置文件获取,打开页面根据需要选择详情页、列表页点击保存,刷新页面;
S8、数据处理:从网页或文本中获取需要的数据,对网页或文本数据进行格式或处理。
步骤S3通过执行get请求通过rest服务从redis中获取链接,实现自动获取链接。
步骤S4通过chrome.tabs.query({'active':true,'currentWindow':true},function(tab){}判断当前网页是否加载完成。网页加载完成之后通过执行“document.body.innerHTML?document.body.innerHTML:'textContent'”,获取加载之后的数据,然后执行post请求将页面和其他必要的参数通过rest服务发送至数据处理平台。
作为优选,步骤S1中编写谷歌浏览器插件符合谷歌插件模板,包含manifest.json、.project、html页面、js文件和images文件。
作为优选,步骤S2中,在manifest.json、.project中填写相应的配置文件保证插件正常运行。
作为优选,步骤S5中,利用xpatch标识特定的网页元素:下一页、当前页;在js中获取网页元素,模拟点击翻页按钮执行翻页操作,利用获取的当前网页页数控制翻页执行到的页数。
在js中通过“document.evaluate(request.xppage,document).iterateNext()”获取网页元素,然后执行“page_node.childNodes[0].click()”模拟点击翻页按钮执行翻页操作,利用获取的网页当前页页数可以控制翻页执行到第几页。
作为优选,步骤S6中,利用xpatch获取验证码滑块的位置,模拟鼠标事件拖动滑块,获取滑块和滑动条的长度、高度数据,计算需要拖动的距离,结合需要拖动的距离,生成需要拖动的次数,实现模拟手动拖动滑块的操作。
利用xpatch获取验证码滑块的位置,通过“document.createEvent('MouseEvents')”模拟鼠标事件拖动滑块。使用getBoundingClientRect()获取滑块和滑动条的长度、高度数据,以此计算需要拖动的距离。通过“Math.ceil(Math.random()*6+1)”生成随机数,结合需要拖动的距离利用“eval(eval(wholeX-startX)/countStep)”生成需要拖动的次数。利用“dispatchEvent(createEvent("mousedown",startX,startY))”实现模拟手动拖动滑块的操作,从而实现程序自动拖动滑块通过人机验证的操作。
作为优选,步骤S7中,在配置文件中写入参数包括数据处理的任务号、实例号、获取链接的服务地址和数据处理接收网页的服务地址。
如果需要翻页等功能需要加入翻页按钮位置(xpatch表示),如果需要限制翻页的页数还需要加入当前页位置(xpatch)、停止页数,如果需要每次翻页之间有一定的时间间隔还需要加入时间间隔参数。
一种基于谷歌浏览器插件的网页数据获取系统,包括以下模块:
谷歌浏览器插件编写模块:用于编写谷歌浏览器插件;
配置填写模块:用于在编写的谷歌浏览器插件中填写对应的配置保证插件正常运行;
链接自动获取模块;用于自动获取链接;
网页数据获取模块:用户获取网页数据,在获取网页数据的过程中首先判断网页是否加载完成,加载完成后获取加载后的网页数据;
自动翻页模块:用于在js中获取网页元素,模拟点击翻页按钮执行翻页操作;
自动拖滑块模块:用于获取验证码滑块的位置,模拟鼠标事件拖动滑块;
页面操作模块:用于在配置文件中写入参数,使用插件时页面配置从配置文件获取,打开页面根据需要选择详情页、列表页点击保存,刷新页面;
数据处理平台:用于从网页或文本中获取需要的数据,对网页或文本数据进行格式或处理。
作为优选,自动拖滑块模块利用xpatch获取验证码滑块的位置,模拟鼠标事件拖动滑块,获取滑块和滑动条的长度、高度数据,计算需要拖动的距离,结合需要拖动的距离,生成需要拖动的次数,实现模拟手动拖动滑块的操作。
作为优选,页面操作模块在配置文件中写入参数包括数据处理的任务号、实例号、获取链接的服务地址和数据处理接收网页的服务地址。
作为优选,数据处理平台为基于hadoop搭建的处理大量数据的平台,从网页或文本中获取需要的数据,对网页或文本数据进行格式或处理。
与现有技术相比,本发明的基于谷歌浏览器插件的网页数据获取方法具有以下突出的有益效果:
(一)所述基于谷歌浏览器插件的网页数据获取方法利用谷歌提供的插件开发方法编写自定义插件,达到获取浏览器当前页面数据的目的;
(二)通过类似用户正常访问网站的方式获取网站数据,降低被网站识别为爬虫的概率;
(三)可以自动翻页,自动采集数据,登录网站后基本不需要太多的人工参与即可完成数据获取;
(四)可以自行拖动滑块,通过滑块验证码的检测,具有良好的推广应用价值。
附图说明
图1是拖动滑块功能展示示意图
图2是本发明所述基于谷歌浏览器插件的网页数据获取方法中插件内部逻辑示意图;
图3是插件页面展示及参数设置示意图;
图4是列表页配置示意图;
图5是详情页配置示意图。
具体实施方式
下面将结合附图和实施例,对本发明的基于谷歌浏览器插件的网页数据获取方法及系统作进一步详细说明。
实施例
本发明的基于谷歌浏览器插件的网页数据获取方法,包括以下步骤:
S1、编写谷歌浏览器插件。
编写谷歌浏览器插件符合谷歌插件模板,包含manifest.json、.project、html页面、js文件和images文件。
S2、在编写的谷歌浏览器插件中填写对应的配置保证插件正常运行。
在manifest.json、.project中填写相应的配置文件保证插件正常运行。
S3、自动获取链接。
通过执行get请求通过rest服务从redis中获取链接,实现自动获取链接。
S4、获取网页数据:首先判断网页是否加载完成,加载完成后获取加载后的网页数据。
通过chrome.tabs.query({'active':true,'currentWindow':true},function(tab){}判断当前网页是否加载完成。网页加载完成之后通过执行“document.body.innerHTML?document.body.innerHTML:'textContent'”,获取加载之后的数据,然后执行post请求将页面和其他必要的参数通过rest服务发送至数据处理平台。
S5、自动翻页:在js中获取网页元素,模拟点击翻页按钮执行翻页操作。
利用xpatch标识特定的网页元素:下一页、当前页;在js中获取网页元素,模拟点击翻页按钮执行翻页操作,利用获取的当前网页页数控制翻页执行到的页数。
在js中通过“document.evaluate(request.xppage,document).iterateNext()”获取网页元素,然后执行“page_node.childNodes[0].click()”模拟点击翻页按钮执行翻页操作,利用获取的网页当前页页数可以控制翻页执行到第几页。
S6、自动拖滑块:获取验证码滑块的位置,模拟鼠标事件拖动滑块。
利用xpatch获取验证码滑块的位置,通过“document.createEvent('MouseEvents')”模拟鼠标事件拖动滑块。使用getBoundingClientRect()获取滑块和滑动条的长度、高度数据,以此计算需要拖动的距离。通过“Math.ceil(Math.random()*6+1)”生成随机数,结合需要拖动的距离利用“eval(eval(wholeX-startX)/countStep)”生成需要拖动的次数。利用“dispatchEvent(createEvent("mousedown",startX,startY))”实现模拟手动拖动滑块的操作,从而实现程序自动拖动滑块通过人机验证的操作。如图1所示。
S7、页面操作:在配置文件中写入参数,使用插件时页面配置从配置文件获取,打开页面根据需要选择详情页、列表页点击保存,刷新页面。
如图2为插件内部逻辑示意图,首先获取链接,判断是否为列表页,若为列表页则保存列表页参数,否则为包括详情页参数,刷新页面。
在配置文件中写入参数包括数据处理的任务号、实例号、获取链接的服务地址和数据处理接收网页的服务地址。
如图3所示,插件首页配置,“任务”是数据处理平台的任务号、“实例”是数据处理平台的实例id、“Rest”是数据处理平台接收网页的rest服务地址,“列表页采集”具有页面翻页,设置采集翻页间隔时间,限制翻页页数,按照商品销量采集的功能;“详情页采集”只有将页面发送至数据处理平台的功能。
如果需要翻页等功能需要加入翻页按钮位置(xpatch表示),如果需要限制翻页的页数还需要加入当前页位置(xpatch)、停止页数,如果需要每次翻页之间有一定的时间间隔还需要加入时间间隔参数。
如图4所示,列表页配置,“Server”为从redis获取网页链接的rest服务地址,“Xword”判断页面是否正确的标记,“Xpage”为翻页按钮的Xpatch,“PageNum”为翻页限制,“XcurrentPage”为当前页面的Xpatch,“XsaleNum”
为页面销量的Xpatch,“XpageTime”为翻页间隔时间。
如图5所示,详情页配置,“Server”为从redis获取网页链接的rest服务地址,“Xword”判断页面是否正确的标记。
S8、数据处理:从网页或文本中获取需要的数据,对网页或文本数据进行格式或处理。
本发明的基于谷歌浏览器插件的网页数据获取系统,包括以下模块:
谷歌浏览器插件编写模块:用于编写谷歌浏览器插件。
配置填写模块:用于在编写的谷歌浏览器插件中填写对应的配置保证插件正常运行;
链接自动获取模块;用于自动获取链接。
网页数据获取模块:用户获取网页数据,在获取网页数据的过程中首先判断网页是否加载完成,加载完成后获取加载后的网页数据。
自动翻页模块:用于在js中获取网页元素,模拟点击翻页按钮执行翻页操作。
自动拖滑块模块:用于获取验证码滑块的位置,模拟鼠标事件拖动滑块。
自动拖滑块模块利用xpatch获取验证码滑块的位置,模拟鼠标事件拖动滑块,获取滑块和滑动条的长度、高度数据,计算需要拖动的距离,结合需要拖动的距离,生成需要拖动的次数,实现模拟手动拖动滑块的操作。
页面操作模块:用于在配置文件中写入参数,使用插件时页面配置从配置文件获取,打开页面根据需要选择详情页、列表页点击保存,刷新页面。
页面操作模块在配置文件中写入参数包括数据处理的任务号、实例号、获取链接的服务地址和数据处理接收网页的服务地址。
数据处理平台:用于从网页或文本中获取需要的数据,对网页或文本数据进行格式或处理。数据处理平台为基于hadoop搭建的处理大量数据的平台,从网页或文本中获取需要的数据,对网页或文本数据进行格式或处理。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
Claims (10)
1.一种基于谷歌浏览器插件的网页数据获取方法,其特征在于:该方法包括以下步骤:
S1、编写谷歌浏览器插件;
S2、在编写的谷歌浏览器插件中填写对应的配置保证插件正常运行;
S3、自动获取链接;
S4、获取网页数据:首先判断网页是否加载完成,加载完成后获取加载后的网页数据;
S5、自动翻页:在js中获取网页元素,模拟点击翻页按钮执行翻页操作;
S6、自动拖滑块:获取验证码滑块的位置,模拟鼠标事件拖动滑块;
S7、页面操作:在配置文件中写入参数,使用插件时页面配置从配置文件获取,打开页面根据需要选择详情页、列表页点击保存,刷新页面;
S8、数据处理:从网页或文本中获取需要的数据,对网页或文本数据进行格式或处理。
2.根据权利要求1所述的基于谷歌浏览器插件的网页数据获取方法,其特征在于:步骤S1中编写谷歌浏览器插件符合谷歌插件模板,包含manifest.json、.project、html页面、js文件和images文件。
3.根据权利要求2所述的基于谷歌浏览器插件的网页数据获取方法,其特征在于:步骤S2中,在manifest.json、.project中填写相应的配置文件保证插件正常运行。
4.根据权利要求3所述的基于谷歌浏览器插件的网页数据获取方法,其特征在于:步骤S5中,利用xpatch标识特定的网页元素:下一页、当前页;在js中获取网页元素,模拟点击翻页按钮执行翻页操作,利用获取的当前网页页数控制翻页执行到的页数。
5.根据权利要求4所述的基于谷歌浏览器插件的网页数据获取方法,其特征在于:步骤S6中,利用xpatch获取验证码滑块的位置,模拟鼠标事件拖动滑块,获取滑块和滑动条的长度、高度数据,计算需要拖动的距离,结合需要拖动的距离,生成需要拖动的次数,实现模拟手动拖动滑块的操作。
6.根据权利要求5所述的基于谷歌浏览器插件的网页数据获取方法,其特征在于:步骤S7中,在配置文件中写入参数包括数据处理的任务号、实例号、获取链接的服务地址和数据处理接收网页的服务地址。
7.一种基于谷歌浏览器插件的网页数据获取系统,其特征在于:包括以下模块:
谷歌浏览器插件编写模块:用于编写谷歌浏览器插件;
配置填写模块:用于在编写的谷歌浏览器插件中填写对应的配置保证插件正常运行;
链接自动获取模块;用于自动获取链接;
网页数据获取模块:用户获取网页数据,在获取网页数据的过程中首先判断网页是否加载完成,加载完成后获取加载后的网页数据;
自动翻页模块:用于在js中获取网页元素,模拟点击翻页按钮执行翻页操作;
自动拖滑块模块:用于获取验证码滑块的位置,模拟鼠标事件拖动滑块;
页面操作模块:用于在配置文件中写入参数,使用插件时页面配置从配置文件获取,打开页面根据需要选择详情页、列表页点击保存,刷新页面;
数据处理平台:用于从网页或文本中获取需要的数据,对网页或文本数据进行格式或处理。
8.根据权利要求7所述的基于谷歌浏览器插件的网页数据获取系统,其特征在于:自动拖滑块模块利用xpatch获取验证码滑块的位置,模拟鼠标事件拖动滑块,获取滑块和滑动条的长度、高度数据,计算需要拖动的距离,结合需要拖动的距离,生成需要拖动的次数,实现模拟手动拖动滑块的操作。
9.根据权利要求8所述的基于谷歌浏览器插件的网页数据获取系统,其特征在于:页面操作模块在配置文件中写入参数包括数据处理的任务号、实例号、获取链接的服务地址和数据处理接收网页的服务地址。
10.根据权利要求9所述的基于谷歌浏览器插件的网页数据获取系统,其特征在于:数据处理平台为基于hadoop搭建的处理大量数据的平台,从网页或文本中获取需要的数据,对网页或文本数据进行格式或处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910583979.2A CN110276041A (zh) | 2019-07-01 | 2019-07-01 | 一种基于谷歌浏览器插件的网页数据获取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910583979.2A CN110276041A (zh) | 2019-07-01 | 2019-07-01 | 一种基于谷歌浏览器插件的网页数据获取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110276041A true CN110276041A (zh) | 2019-09-24 |
Family
ID=67962737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910583979.2A Withdrawn CN110276041A (zh) | 2019-07-01 | 2019-07-01 | 一种基于谷歌浏览器插件的网页数据获取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110276041A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909229A (zh) * | 2019-11-27 | 2020-03-24 | 佛山科学技术学院 | 一种基于模拟浏览器访问的网页数据获取和存储的系统 |
CN111078207A (zh) * | 2019-12-09 | 2020-04-28 | 浪潮云信息技术有限公司 | 基于cypress框架跨操作系统实现自动化网页模拟操作的方法 |
CN111310155A (zh) * | 2019-11-28 | 2020-06-19 | 苏宁金融科技(南京)有限公司 | 一种用于滑块验证码自动识别的系统架构及实现方法 |
CN112380519A (zh) * | 2020-11-23 | 2021-02-19 | 杭州冒险元素网络技术有限公司 | 一种互联网数据抓取方法 |
CN112800311A (zh) * | 2021-02-05 | 2021-05-14 | 厦门市美亚柏科信息股份有限公司 | 一种浏览器页面数据采集方法、终端设备及存储介质 |
CN113076291A (zh) * | 2021-04-27 | 2021-07-06 | 杭州安恒信息技术股份有限公司 | 一种文件定位方法、装置、设备及存储介质 |
CN113343156A (zh) * | 2021-06-30 | 2021-09-03 | 工银科技有限公司 | 网页编辑方法、装置、设备和存储介质 |
CN114253630A (zh) * | 2021-12-23 | 2022-03-29 | 上海新炬网络信息技术股份有限公司 | 基于Java切面修改Form表单变化信息实现日志保存的方法 |
CN114329139A (zh) * | 2021-12-27 | 2022-04-12 | 奇安盘古(上海)信息技术有限公司 | 网页数据提取方法、装置、电子设备及存储介质 |
CN116611425A (zh) * | 2023-05-31 | 2023-08-18 | 广东技术师范大学 | 一种基于Transformer模型的文本数据处理方法、系统、介质及设备 |
-
2019
- 2019-07-01 CN CN201910583979.2A patent/CN110276041A/zh not_active Withdrawn
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909229A (zh) * | 2019-11-27 | 2020-03-24 | 佛山科学技术学院 | 一种基于模拟浏览器访问的网页数据获取和存储的系统 |
CN111310155B (zh) * | 2019-11-28 | 2022-08-19 | 苏宁金融科技(南京)有限公司 | 一种用于滑块验证码自动识别的系统架构及实现方法 |
CN111310155A (zh) * | 2019-11-28 | 2020-06-19 | 苏宁金融科技(南京)有限公司 | 一种用于滑块验证码自动识别的系统架构及实现方法 |
CN111078207A (zh) * | 2019-12-09 | 2020-04-28 | 浪潮云信息技术有限公司 | 基于cypress框架跨操作系统实现自动化网页模拟操作的方法 |
CN111078207B (zh) * | 2019-12-09 | 2023-08-29 | 浪潮云信息技术股份公司 | 基于cypress框架跨操作系统实现自动化网页模拟操作的方法 |
CN112380519A (zh) * | 2020-11-23 | 2021-02-19 | 杭州冒险元素网络技术有限公司 | 一种互联网数据抓取方法 |
CN112800311A (zh) * | 2021-02-05 | 2021-05-14 | 厦门市美亚柏科信息股份有限公司 | 一种浏览器页面数据采集方法、终端设备及存储介质 |
CN113076291A (zh) * | 2021-04-27 | 2021-07-06 | 杭州安恒信息技术股份有限公司 | 一种文件定位方法、装置、设备及存储介质 |
CN113343156A (zh) * | 2021-06-30 | 2021-09-03 | 工银科技有限公司 | 网页编辑方法、装置、设备和存储介质 |
CN114253630A (zh) * | 2021-12-23 | 2022-03-29 | 上海新炬网络信息技术股份有限公司 | 基于Java切面修改Form表单变化信息实现日志保存的方法 |
CN114253630B (zh) * | 2021-12-23 | 2023-07-25 | 上海新炬网络信息技术股份有限公司 | 基于Java切面修改Form表单变化信息实现日志保存的方法 |
CN114329139A (zh) * | 2021-12-27 | 2022-04-12 | 奇安盘古(上海)信息技术有限公司 | 网页数据提取方法、装置、电子设备及存储介质 |
CN116611425A (zh) * | 2023-05-31 | 2023-08-18 | 广东技术师范大学 | 一种基于Transformer模型的文本数据处理方法、系统、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276041A (zh) | 一种基于谷歌浏览器插件的网页数据获取方法及系统 | |
CN108363602B (zh) | 智能ui界面布局方法、装置、终端设备及存储介质 | |
CN106844522B (zh) | 一种网络数据爬取方法和装置 | |
US20190287002A1 (en) | Methods and systems for transforming computing analytics frameworks into cross-platform real-time decision-making systems that optimize configurable goal metrics | |
CN105260420B (zh) | 一种用于在移动应用中提供目标页面的方法与设备 | |
CN106897215A (zh) | 一种基于WebView网页加载性能及用户行为流数据采集的方法 | |
CN104035753B (zh) | 一种双WebView展示定制页面的方法及系统 | |
CN107239318A (zh) | 应用转换方法、装置及设备 | |
US10963520B2 (en) | Automatic placement of hyperlinks on words and phrases in documents | |
CN110069683B (zh) | 一种基于浏览器爬取数据的方法及装置 | |
CN101222349A (zh) | 收集web用户行为及性能数据的方法及系统 | |
CN103412890A (zh) | 一种网页加载方法和装置 | |
CN109684210A (zh) | 一种网站自动化测试方法、装置、设备及可读存储介质 | |
CN102158365A (zh) | 一种网络日志挖掘中的用户聚类方法及系统 | |
US10537801B2 (en) | System and method for decision making in strategic environments | |
EP3852032A1 (en) | Machine first approach for identifying accessibility, non-compliances, remediation techniques and fixing at run-time | |
US10586358B1 (en) | System and method for visualization of beacon clusters on the web | |
US11073965B2 (en) | Graphical interface for presentation of interaction data across multiple webpage configurations | |
CN105512193A (zh) | 基于浏览器扩展的数据采集系统及方法 | |
CN109543085A (zh) | 数据提取方法、装置及计算机可读存储介质 | |
CN110532455A (zh) | 一种基于Chrome浏览器的网页图片获取方法和系统 | |
CN109271145A (zh) | 基于pythonQT及智能算法的快速规则定制方法 | |
CN108829828A (zh) | 一种网页显示方法、装置、电子设备及可读存储介质 | |
US10417318B2 (en) | Treatment controller | |
Netravali et al. | Vesper: Measuring time-to-interactivity for modern web pages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190924 |
|
WW01 | Invention patent application withdrawn after publication |