CN108304498A - 网页数据采集方法、装置、计算机设备和存储介质 - Google Patents
网页数据采集方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN108304498A CN108304498A CN201810031767.9A CN201810031767A CN108304498A CN 108304498 A CN108304498 A CN 108304498A CN 201810031767 A CN201810031767 A CN 201810031767A CN 108304498 A CN108304498 A CN 108304498A
- Authority
- CN
- China
- Prior art keywords
- data
- webpage
- target webpage
- configuration template
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请涉及一种网页数据采集方法、系统、计算机设备和存储介质。所述方法包括:接收网页数据采集请求;网页数据采集请求中包含网页标识;根据网页数据采集请求获取与网页标识对应的配置模板;配置模板中包含目标网页数据所对应的网页地址,以及用于采集目标网页数据的采集操作数据;根据配置模板调用模拟浏览器访问网页地址,并生成目标网页;根据采集操作数据调用模拟输入装置对目标网页执行相应的采集操作,得到目标网页数据。采用本方法能够提高了网页数据采集的适用性,使得节约了网页数据采集的时间,从而提高了网页数据采集的效率。
Description
技术领域
本申请涉及互联网技术领域,特别是涉及一种网页数据采集方法、装置、计算机设备和存储介质。
背景技术
当前网页数据采集系统一个网页数据时,需要实现分析目标网站各项协议及所需参数,只有当获取到参数正确时,才能获取到网页的html内容,并在解析html代码后对网页数据进行采集。
然而,传统的网页数据采集方法,分析协议获取参数的过程繁琐,若遇到网站改版则需要对采集系统进行大量的修改,需要耗费大量的时间,采集系统的适用性较差,从而导致网页数据采集的效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高网页数据采集效率的网页数据采集方法、装置、计算机设备和存储介质。
一种网页数据采集方法,所述方法包括:接收网页数据采集请求;所述网页数据采集请求中包含网页标识;根据所述网页数据采集请求获取与所述网页标识对应的配置模板;所述配置模板中包含目标网页数据所对应的网页地址,以及用于采集所述目标网页数据的采集操作数据;根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页;根据所述采集操作数据调用模拟输入装置对所述目标网页执行相应的采集操作,得到所述目标网页数据。
在其中一个实施例中,在所述根据所述网页数据采集请求获取与所述网页标识对应的配置模板之后,还包括:每隔预设时长检测是否存在更新后的配置模板;若是,则获取所述更新后的配置模板,并将所述更新后的配置模板作为配置模板。
在其中一个实施例中,在所述根据所述网页数据采集请求获取与所述网页标识对应的配置模板之前,还包括:接收网页标识、目标网页数据所对应的网页地址以及用于采集所述目标网页数据的采集操作数据;根据所述网页地址和所述采集操作数据生成配置模板;将所述配置模板标记上所述网页标识。
在其中一个实施例中,所述采集操作数据中包含目标网页数据在所述目标网页中的目标数据路径;所述根据所述采集操作数据调用模拟输入装置对所述目标网页执行相应的采集操作,得到所述目标网页数据,包括:根据所述采集操作数据查找所述目标网页中与所述目标数据路径所对应的目标网页数据;调用模拟输入装置获取所述目标网页数据,并将所述目标网页数据存储至数据库中。
在其中一个实施例中,所述根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页,包括:根据所述配置模板调用模拟浏览器向网页地址所对应的网页服务器发送目标网页请求;通过所述模拟浏览器接收所述网页服务器发送的目标网页响应;调用所述模拟浏览器对所述目标网页响应进行解析处理,生成目标网页。
在其中一个实施例中,所述根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页,包括:根据所述配置模板调用模拟浏览器访问与所述网页地址所对应的登录地址,并生成登录网页;调用模拟输入装置对所述登录网页执行相应的登录操作;调用所述模拟浏览器发送登录请求;所述登录请求用于指示网页服务器对所述登录操作进行验证;当验证通过时,通过所述模拟浏览器接收所述网页服务器发送的登录响应;调用所述模拟浏览器对所述登录响应进行解析处理,生成目标网页。
在其中一个实施例中,所述采集操作数据中包含登录信息文本;所述登录网页中包含文本框和登录控件;所述调用模拟输入装置对所述登录网页执行相应的登录操作,包括:调用模拟输入装置将所述登录信息文本输入所述文本框;调用模拟输入装置对所述登录控件执行点击操作。
一种网页数据采集装置,所述装置包括:采集请求接收模块,用于接收网页数据采集请求;所述网页数据采集请求中包含网页标识;配置模板获取模块,用于根据所述网页数据采集请求获取与所述网页标识对应的配置模板;所述配置模板中包含目标网页数据所对应的网页地址,以及用于采集所述目标网页数据的采集操作数据;目标网页生成模块,用于根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页;网页数据采集模块,用于根据所述采集操作数据调用模拟输入装置对所述目标网页执行相应的采集操作,得到所述目标网页数据。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述各个实施例中所述的网页数据采集方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述各个实施例中所述的网页数据采集方法的步骤。
上述网页数据采集方法、装置、计算机设备和存储介质,通过在接收网页数据采集请求之后,根据网页数据采集请求中包含的网页标识获取相应的配置模板,通过配置模板中配置的网页地址和采集操作数据,调用模拟浏览器访问网页地址,生成目标网页,并调用模拟输入装置对目标网页执行相应的采集操作,得到目标网页数据。当网站改版或目标网页数据的需求发生了变更之后,用户可直接修改相应的配置模板以实现更新目标网页数据采集的方式,无需大量修改代码以及进行版本发布,因此提高了网页数据采集的适用性,使得节约了网页数据采集的时间,从而提高了网页数据采集的效率。
附图说明
图1为一个实施例中网页数据采集方法的应用场景图;
图2为一个实施例中网页数据采集方法的流程示意图;
图3为另一个实施例中网页数据采集方法的流程示意图;
图4为一个实施例中网页数据采集装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的网页数据采集方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104可接收终端102发送的网页数据采集请求,服务器104还可将所采集到的目标网页数据发送中终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种网页数据采集方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,接收网页数据采集请求。
网页数据采集请求可为终端发送给服务器,用于指示服务器进行网页数据采集的请求。终端在检测到预设的网页数据采集操作时,触发生成网页数据采集请求。其中,网页数据采集请求中包含网页标识。网页标识是指用于将每个网页区分于其他网页的标识,可将URL(Uniform Resource Locator,统一资源定位符)、域名、网站名等其中一种或多种的组合作为网页标识。比如:针对URL“http://mail.163.com/index.html”来说,“163.com”表示域名;“mail.163.com”表示网站名,由服务器名和域名构成;“index.html”表示根目录下的默认网页。“163.com”、“mail.163.com”都可作为网页标识。
举例来说,终端可针对网页数据采集操作提供相应的网页数据采集页面,该网页数据采集页面上可包括网页数据采集文本框和网页数据采集控件。当用户在该网页数据采集文本框中输入网页标识之后,若检测到作用于网页数据采集控件的点击操作时,则触发生成网页数据采集请求,终端可将该网页数据采集请求发送至服务器。
步骤204,根据网页数据采集请求获取与网页标识对应的配置模板。
配置模板是指用于配置网页数据采集的目标及方式的模板。配置模板可为预先配置好的数据库表或配置文件等。可针对每个配置模板中包含目标网页数据所对应的网页地址,以及用于采集目标网页数据的采集操作数据。其中,目标网页数据是指预设的需要进行采集的网页数据。目标网页数据包括但不限于图片、文本、链接等数据。网页地址是指目标网页数据所处的目标网页对应的网页地址。采集操作数据是指用于指示执行采集操作的相关数据。采集操作包括但不限于登录操作、验证操作、翻页操作、点击操作、输入操作等其中一种或多种的组合。
在一个实施例中,可预设映射文件,用于根据网页标识获取相应的配置模板。当接收到网页数据采集请求之后,可提取网页数据采集请求中包含的网页标识,通过映射文件根据网页标识查找相应的配置模板。当网站改版或目标网页数据的需求发生了变更之后,用户可直接修改相应的配置模板,并将更新后的配置模板替换原始的配置模板。
在一个实施例中,还可每隔预设时长检测是否存在更新后的配置模板;若是,则获取更新后的配置模板,并将更新后的配置模板作为配置模板。可对每个配置模板打上时间戳,时间戳对应的时间可为配置模板配置完成时间。可通过比较数据库中网页标识所对应的配置模板的时间戳与当前配置模板的时间戳,判断配置模板是否发生了更新。若两个配置模板的时间戳对应的时间一致,则可判定配置模板没有发生更新;若两个配置模板的时间戳对应的时间戳不一致,则可判定配置模板发生了更新,可将更新后的配置模板作为当前配置模板。
步骤206,根据配置模板调用模拟浏览器访问网页地址,并生成目标网页。
模拟浏览器用于模拟执行浏览器操作,而无需显示真实网页。模拟浏览器可为PhantomJS。PhantomJS是一个无界面的,具有JavaScript API(Application ProgrammingInterface,应用程序编程接口)的,基于Webkit浏览器引擎的的浏览器引擎。PhantomJS常用作前端自动化测试工具。目标网页是指根据网页地址所生成的目标网页,该目标网页中包含目标网页数据。根据配置模板可调用模拟浏览器执行模拟浏览器行为访问网页地址,并生成目标网页。该生成的目标网页为存储于内存中的虚拟网页。
在一个实施例中,步骤206包括根据配置模板调用模拟浏览器向网页地址所对应的网页服务器发送目标网页请求;通过模拟浏览器接收网页服务器发送的目标网页响应;调用模拟浏览器对目标网页响应进行解析处理,生成目标网页。通过模拟浏览器向网页地址所对应的网页服务器发送目标网页请求,比如HTTP请求,之后,网页服务器会根据目标网页请求生成目标网页响应。其中,目标网页响应中可包含html代码、图片、JS、CSS(Cascading Style Sheets,层叠样式表)等其中一种或多种资源。模拟浏览器可在解析html代码等得到DOM(Document Object Model,文档对象模型)树之后,还可根据CSS将DOM树转换为渲染树,渲染树是由可视化元素按照其显示顺序而组成的树,并根据渲染树生成虚拟的目标网页。
在一个实施例中,针对JS或ajax等异步加载的数据,可以预设页面等待时间,使得在完成加载之后再进行下一步的目标网页数据采集步骤。比如网页的点击量是在访问网页之后传入后台数据进行统计之后再反馈到前端网页进行显示,因此可以预设页面等待时间来完成页面所有数据的加载,比如等待一秒之后再获取数据。对于无法明确等待时间的异步加载的数据,检测网页中异步加载数据的数量N,设置一个变量num为N+1,当window.onload(window.onload是在DOM树加载完和所有静态文件加载完之后执行一个函数)和每个异步加载数据的回调函数执行时,进行对num进行减一的操作,当检测到num为0时,则说明异步加载的数据已经全部加载完成。
步骤208,根据采集操作数据调用模拟输入装置对目标网页执行相应的采集操作,得到目标网页数据。
模拟输入装置用于模拟执行鼠标操作或键盘操作等输入操作。模拟输入装置可为Selenium。Selenium是web自动化测试工具集,包括IDE、Grid、RC(selenium 1.0)、WebDriver(selenium 2.0)等。通过模拟浏览器生成目标网页之后,可调用模拟输入装置执行输入操作,比如鼠标操作或键盘操作等,完成目标网页数据的采集。比如说Selenium可提供一组API与Phantomjs进行交互,可调用Selenium对通过Phantomjs生成的虚拟页面执行模拟输入操作。
在一个实施例中,步骤208包括根据采集操作数据查找目标网页中与目标数据路径所对应的目标网页数据;调用模拟输入装置获取目标网页数据,并将目标网页数据存储至数据库中。
采集操作数据中包含目标网页数据处于目标网页中的目标数据路径,还可以包含获取目标网页数据所需进行操作的页面元素的页面元素路径。页面元素包括但不限于链接、按钮控件、图片等。目标数据路径和页面元素路径可以通过xpath(XML路径语言)或selector(选择器)形式表示。比如,当目标网页数据为新闻标题时,新闻标题在目标网页中的xpath可为//*[@id="Main-Article-QQ"]/div/div[1]/div[1]/div[1]/h1,新闻标题在目标网页中的selector可为#Main-Article-QQ>div>div.qq_main>div.qq_article>div.hd>h1。将目标网页数据的目标数据路径嵌入鼠标操作函数或键盘操作函数,以实现相应的鼠标操作或键盘操作。
在一个实施例中,当页面元素在目标页面中存在标识ID时,可直接通过标识ID对页面元素进行定位,并嵌入采集操作函数中。比如,查找并点击标识ID为“su”的页面元素可表示为driver.findElement(by.id("su")).click()。当页面元素在目标页面中不存在标识ID时,可由开发人员在配置模板时通过浏览器访问一个目标网页,通过浏览器的开发者工具获取目标元素位置的xpath或selector。
举例来说,鼠标操作包括但不限于鼠标的左键点击(action.click)、左键移动到元素(action.moveToElement)、右键点击(action.contextClick)、鼠标左键移动到目标元素:action.moveToElement(driver.findElement(By.xpath(xpath)))等鼠标操作。还可通过Selenium实现组合的鼠标操作,比如将页面元素拖拽到指定的其他页面元素上(action.dragAndDrop)。键盘操作函数包括但不限于键盘的回车(action.sendKeys)、回退、空格、ctrl、alt、shift等按键输入操作。组合的键盘操作,比如使用ctrl+a全选:action.sendKeys(Keys.CONTROL+"a").perform()。
上述实施例中,通过在接收网页数据采集请求之后,根据网页数据采集请求中包含的网页标识获取相应的配置模板,通过配置模板中配置的网页地址和采集操作数据,调用模拟浏览器访问网页地址,生成目标网页,并调用模拟输入装置对目标网页执行相应的采集操作,得到目标网页数据。当网站改版或目标网页数据的需求发生了变更之后,用户可直接修改相应的配置模板以实现更新目标网页数据采集的方式,无需大量修改代码以及进行版本发布,因此提高了网页数据采集的适用性,使得节约了网页数据采集的时间,从而提高了网页数据采集的效率。
在一个实施例中,在根据网页数据采集请求获取与网页标识对应的配置模板之前,还包括:接收网页标识、目标网页数据所对应的网页地址以及用于采集目标网页数据的采集操作数据;根据网页地址和采集操作数据生成配置模板;将配置模板标记上网页标识。
针对每个目标网页的情况,可由开发人员配置相应的配置模板。当服务器接收到用户输入的网页标识、目标网页数据所对应的网页地址以及用于采集目标网页数据的采集操作数据等,服务器可根据网页地址和采集操作数据生成配置模板,并标记上相应的网页标识。
举例来说,针对访问目标网页数据所对应的网页地址之前需要进行登录的情况,可以通过配置模板配置登录入口、用户名输入框、密码输入框、图片验证码输入框、登录按钮等页面元素的xpath或selector路径。同时还可预设登录信息,比如用户名和密码。针对目标页面包含列表的情况,可以通过配置模板配置作用于翻页页面元素的点击操作,还可以配置采集页数或数据行数。针对采集到的目标网页数据的过滤,可以预设过滤词库,通过配置模板将包含相应过滤词的目标网页数据剔除。还可以通过配置模板设置网络请求超时时间,以避免因为网络问题导致的目标网站无响应,造成服务一直等待和资源浪费问题。
还可根据用户需求通过配置模板预设例如新闻标题、内容、发布日期、作者等其中一种或多种目标网页数据的xpath或selector之后,还可针对目标网页数据设置统一的格式。举例来说,针对发布日期可设置统一格式,比如:yyyy-MM-dd HH:mm:ss,使得能够防止因为数据格式问题导致的写数据库失败和页面展示错误问题。
上述实施例中,通过根据目标网页的实际情况,生成个性化的配置模板,使得提高配置模板的针对性,细化目标网页数据的采集操作的粒度,提高目标网页数据采集的精确性。
在一个实施例中,针对访问目标网页数据所对应的网页地址之前需要进行登录的情况,根据配置模板调用模拟浏览器访问网页地址,并生成目标网页,包括:根据配置模板调用模拟浏览器访问与网页地址所对应的登录地址,并生成登录网页;调用模拟输入装置对登录网页执行相应的登录操作;调用模拟浏览器发送登录请求;登录请求用于指示网页服务器对登录操作进行验证;当验证通过时,通过模拟浏览器接收网页服务器发送的登录响应;调用模拟浏览器对登录响应进行解析处理,生成目标网页。
还可将模拟浏览器动态绑定代理服务器。通过预设代理IP池,以一定周期定时切换IP或者随机切换IP的方式,对URL对应的服务器进行访问,获取html代码。通过动态切换IP可以避免IP被禁的情况。
在一个实施例中,采集操作数据中包含登录信息文本;登录网页中包含文本框和登录控件;调用模拟输入装置对登录网页执行相应的登录操作,包括:调用模拟输入装置将登录信息文本输入文本框;调用模拟输入装置对登录控件执行点击操作。
文本框可包括账号文本框和密码文本框,登录信息文本包括预设的账号和密码,可调用模拟输入装置将预设的账号输入账号文本框,将预设的密码输入密码文本框之后,调用模拟输入装置对登录控件执行点击操作,从而模拟真实用户完成登录操作。账号密码验证通过之后,通过模拟浏览器接收网页服务器发送的登录响应,可生成目标网页,并进行下一步目标网页数据采集操作。
在一个实施例中,针对访问目标网页数据所对应的网页地址时需要输入验证码的情况,可以通过模拟输入装置以获取到验证码图片之后,通过OCR(Optical CharacterRecognition,光学字符识别技术)对验证码图片进行识别,OCR会对输入的图片进行中值滤波去噪点、二值化图片、分割等图片预处理,然后紧缩重排后根据字库特征匹配,最后输出识别后的字符,将识别后的字符再通过模拟输入装置输入对应的文本框,模拟用户完成验证码验证操作。
在一个实施例中,可通过模拟输入装置根据模板配置的xpath或selector获取目标网页数据之后,可将获取的目标数据写入数据库。可以对预设时长内的目标数据进行统计,将统计后的结果发送至终端进行展示。可以将目标数据按照获取时间进行存储,将获取到的目标数据进行关键词筛选,比如说将具有目标关键词的新闻标题所对应的网页罗列出来发送给终端,使得用户能根据自己的偏好需求从大量的信息中筛选出自己感兴趣话题的新闻。
在一个实施例中,针对采集得到的目标网页数据的存储,可以通过配置模板设置存储地址,存储地址可为本地数据库,还可将采集得到的目标网页数据通过网络接口发送至其他终端或服务器进行存储。
在一个实施例中,如图3所示,提供了一种另网页数据采集方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤302,接收网页数据采集请求。
网页数据采集请求可为终端发送给服务器,用于指示服务器进行网页数据采集的请求。网页数据采集请求中包含网页标识。
举例来说,用户需要采集URL为“http://mail.163.com/index.html”的目标网页上的目标网页数据时,网页标识可为网站名“mail.163.com”。
步骤304,根据网页数据采集请求获取与网页标识对应的配置模板。
配置模板是指用于配置网页数据采集的目标及方式的模板。配置模板中包含目标网页数据所对应的网页地址,以及用于采集目标网页数据的采集操作数据。
举例来说,当检测到网页数据采集请求中包含的网页标识为“news.qq.com”时,可在数据库中查找与“news.qq.com”的配置模板。该配置模板包含网页地址“http://news.qq.com/”,以及采集的该目标网页上的新闻标题所在的目标数据路径,及所需的鼠标操作或键盘操作的相关数据。
步骤306,每隔预设时长检测是否存在更新后的配置模板。
当网页改版时,比如目标数据路径改变时,需要对配置模板进行更新。通过每隔预设时长,比如说一分钟或一小时,检测是否存在更新后的配置模板,可以及时适应网页改版的情况,避免出现大量无效的目标网页数据采集操作。当存在更新后的配置模板时,执行步骤308;当不存在更新后的配置模板时,执行步骤310。
举例来说,可对每个配置模板打上时间戳,时间戳对应的时间可为配置模板配置完成时间。当检测到数据库中与网页标识的配置模板具有与当前配置模板的时间戳不一致时,则可判定配置模板发生了更新,可将更新后的配置模板作为当前配置模板,执行步骤308。
步骤308,获取更新后的配置模板,并将更新后的配置模板作为配置模板。
步骤310,根据配置模板调用模拟浏览器访问与网页地址所对应的登录地址,并生成登录网页。
举例来说,访问网页“http://news.qq.com/”之前,需要先访问登录地址“http://news.qq.com/login.html”。
步骤312,调用模拟输入装置将登录信息文本输入文本框。
举例来说,登录网页中可包括账号文本框和密码文本框,可将预设的账号输入账号文本框,将预设的密码输入密码文本框。预设的账号和密码可为用户个人账号密码,也可为针对目标数据网页采集所注册的公用账号密码。
步骤314,调用模拟输入装置对登录控件执行点击操作。
登录页面上可包括登录控件,采集操作数据中可包括该登录控件的网页元素路径,通过调用模拟输入装置模拟鼠标操作对该网页元素路径所对应的登录控件执行点击操作。
步骤316,调用模拟浏览器发送登录请求。
登录请求用于指示网页服务器对登录操作进行验证。登录请求中可包含预设的账号密码,网页服务器可对该账号密码进行验证。
步骤318,当验证通过时,通过模拟浏览器接收网页服务器发送的登录响应。
登录响应是网页服务器根据登录请求所生成的响应。登录响应中包含html代码、图片、JS、CSS(Cascading Style Sheets,层叠样式表)等其中一种或多种资源。
步骤320,调用模拟浏览器对登录响应进行解析处理,生成目标网页。
模拟浏览器可模拟浏览器对对登录响应进行解析处理,生成虚拟的目标网页。其中目标网页中包含目标网页数据。
根据采集操作数据调用模拟输入装置对目标网页执行相应的采集操作,得到目标网页数据。
上述实施例中,在接收网页数据采集请求之后,根据网页数据采集请求获取与网页标识对应的配置模板,并通过每隔预设时长检测是否存在更新后的配置模板,将更新后的配置模板作为配置模板,从而能够及时适应网站改版的情况,只需重新设置配置模板而无需进行大量的代码修改和版本发布,节约了网页数据采集的时间。针对访问目标网页数据所对应的网页地址之前需要进行登录的情况,根据配置模板调用模拟浏览器访问与网页地址所对应的登录地址,并生成登录网页,调用模拟输入装置将登录信息文本输入文本框,并调用模拟输入装置对登录控件执行点击操作,调用模拟浏览器发送登录请求,使得完成登录操作。并通过模拟浏览器接收网页服务器发送的登录响应对登录响应进行解析处理,生成目标网页,使得目标网页数据采集贴近实际情况,将采集目标网页数据操作细粒度化,能够提高网页数据采集的适用性及精准性,从而提高网页数据采集的效率。
应该理解的是,虽然图2和3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种网页数据采集装置400,包括:采集请求接收模块402,用于接收网页数据采集请求;网页数据采集请求中包含网页标识;配置模板获取模块404,用于根据网页数据采集请求获取与网页标识对应的配置模板;配置模板中包含目标网页数据所对应的网页地址,以及用于采集目标网页数据的采集操作数据;目标网页生成模块406,用于根据配置模板调用模拟浏览器访问网页地址,并生成目标网页;网页数据采集模块408,用于根据采集操作数据调用模拟输入装置对目标网页执行相应的采集操作,得到目标网页数据。
在一个实施例中,配置模板获取模块404还用于每隔预设时长检测是否存在更新后的配置模板;若是,则获取更新后的配置模板,并将更新后的配置模板作为配置模板。
在一个实施例中,配置模板获取模块404还用于接收网页标识、目标网页数据所对应的网页地址以及用于采集目标网页数据的采集操作数据;根据网页地址和采集操作数据生成配置模板;将配置模板标记上网页标识。
在一个实施例中,采集操作数据中包含目标网页数据在目标网页中的目标数据路径;网页数据采集模块408还用于根据采集操作数据查找目标网页中与目标数据路径所对应的目标网页数据;调用模拟输入装置获取目标网页数据,并将目标网页数据存储至数据库中。
在一个实施例中,目标网页生成模块406还用于根据配置模板调用模拟浏览器向网页地址所对应的网页服务器发送目标网页请求;通过模拟浏览器接收网页服务器发送的目标网页响应;调用模拟浏览器对目标网页响应进行解析处理,生成目标网页。
在一个实施例中,目标网页生成模块406还用于根据配置模板调用模拟浏览器访问与网页地址所对应的登录地址,并生成登录网页;调用模拟输入装置对登录网页执行相应的登录操作;调用模拟浏览器发送登录请求;登录请求用于指示网页服务器对登录操作进行验证;当验证通过时,通过模拟浏览器接收网页服务器发送的登录响应;调用模拟浏览器对登录响应进行解析处理,生成目标网页。
在一个实施例中,目标网页生成模块406还用于调用模拟输入装置将登录信息文本输入文本框;调用模拟输入装置对登录控件执行点击操作。
关于网页数据采集装置的具体限定可以参见上文中对于网页数据采集方法的限定,在此不再赘述。上述网页数据采集装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储配置模板,还可用于存储目标网页数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网页数据采集方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:接收网页数据采集请求;网页数据采集请求中包含网页标识;根据网页数据采集请求获取与网页标识对应的配置模板;配置模板中包含目标网页数据所对应的网页地址,以及用于采集目标网页数据的采集操作数据;根据配置模板调用模拟浏览器访问网页地址,并生成目标网页;根据采集操作数据调用模拟输入装置对目标网页执行相应的采集操作,得到目标网页数据。
在一个实施例中,处理器执行计算机程序时,在所实现的根据网页数据采集请求获取与网页标识对应的配置模板的步骤之后,还包括:每隔预设时长检测是否存在更新后的配置模板;若是,则获取更新后的配置模板,并将更新后的配置模板作为配置模板。
在一个实施例中,处理器执行计算机程序时,在所实现的根据网页数据采集请求获取与网页标识对应的配置模板的步骤之前,还包括:接收网页标识、目标网页数据所对应的网页地址以及用于采集目标网页数据的采集操作数据;根据网页地址和采集操作数据生成配置模板;将配置模板标记上网页标识。
在一个实施例中,采集操作数据中包含目标网页数据在目标网页中的目标数据路径,处理器执行计算机程序时,所实现的根据采集操作数据调用模拟输入装置对目标网页执行相应的采集操作,得到目标网页数据的步骤,包括:根据采集操作数据查找目标网页中与目标数据路径所对应的目标网页数据;调用模拟输入装置获取目标网页数据,并将目标网页数据存储至数据库中。
在一个实施例中,处理器执行计算机程序时,所实现的根据配置模板调用模拟浏览器访问网页地址,并生成目标网页的步骤,包括:根据配置模板调用模拟浏览器向网页地址所对应的网页服务器发送目标网页请求;通过模拟浏览器接收网页服务器发送的目标网页响应;调用模拟浏览器对目标网页响应进行解析处理,生成目标网页。
在一个实施例中,处理器执行计算机程序时,所实现的根据配置模板调用模拟浏览器访问网页地址,并生成目标网页的步骤,包括:根据配置模板调用模拟浏览器访问与网页地址所对应的登录地址,并生成登录网页;调用模拟输入装置对登录网页执行相应的登录操作;调用模拟浏览器发送登录请求;登录请求用于指示网页服务器对登录操作进行验证;当验证通过时,通过模拟浏览器接收网页服务器发送的登录响应;调用模拟浏览器对登录响应进行解析处理,生成目标网页。
在一个实施例中,采集操作数据中包含登录信息文本;登录网页中包含文本框和登录控件;处理器执行计算机程序时,所实现的调用模拟输入装置对登录网页执行相应的登录操作的步骤,包括:调用模拟输入装置将登录信息文本输入文本框;调用模拟输入装置对登录控件执行点击操作。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:接收网页数据采集请求;网页数据采集请求中包含网页标识;根据网页数据采集请求获取与网页标识对应的配置模板;配置模板中包含目标网页数据所对应的网页地址,以及用于采集目标网页数据的采集操作数据;根据配置模板调用模拟浏览器访问网页地址,并生成目标网页;根据采集操作数据调用模拟输入装置对目标网页执行相应的采集操作,得到目标网页数据。
在一个实施例中,计算机程序被处理器执行时,在所实现的根据网页数据采集请求获取与网页标识对应的配置模板的步骤之后,还包括:每隔预设时长检测是否存在更新后的配置模板;若是,则获取更新后的配置模板,并将更新后的配置模板作为配置模板。
在一个实施例中,计算机程序被处理器执行时,在所实现的根据网页数据采集请求获取与网页标识对应的配置模板的步骤之前,还包括:接收网页标识、目标网页数据所对应的网页地址以及用于采集目标网页数据的采集操作数据;根据网页地址和采集操作数据生成配置模板;将配置模板标记上网页标识。
在一个实施例中,采集操作数据中包含目标网页数据在目标网页中的目标数据路径,计算机程序被处理器执行时,所实现的根据采集操作数据调用模拟输入装置对目标网页执行相应的采集操作,得到目标网页数据的步骤,包括:根据采集操作数据查找目标网页中与目标数据路径所对应的目标网页数据;调用模拟输入装置获取目标网页数据,并将目标网页数据存储至数据库中。
在一个实施例中,计算机程序被处理器执行时,所实现的根据配置模板调用模拟浏览器访问网页地址,并生成目标网页的步骤,包括:根据配置模板调用模拟浏览器向网页地址所对应的网页服务器发送目标网页请求;通过模拟浏览器接收网页服务器发送的目标网页响应;调用模拟浏览器对目标网页响应进行解析处理,生成目标网页。
在一个实施例中,计算机程序被处理器执行时,所实现的根据配置模板调用模拟浏览器访问网页地址,并生成目标网页的步骤,包括:根据配置模板调用模拟浏览器访问与网页地址所对应的登录地址,并生成登录网页;调用模拟输入装置对登录网页执行相应的登录操作;调用模拟浏览器发送登录请求;登录请求用于指示网页服务器对登录操作进行验证;当验证通过时,通过模拟浏览器接收网页服务器发送的登录响应;调用模拟浏览器对登录响应进行解析处理,生成目标网页。
在一个实施例中,采集操作数据中包含登录信息文本;登录网页中包含文本框和登录控件;计算机程序被处理器执行时,所实现的调用模拟输入装置对登录网页执行相应的登录操作的步骤,包括:调用模拟输入装置将登录信息文本输入文本框;调用模拟输入装置对登录控件执行点击操作。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种网页数据采集方法,所述方法包括:
接收网页数据采集请求;所述网页数据采集请求中包含网页标识;
根据所述网页数据采集请求获取与所述网页标识对应的配置模板;所述配置模板中包含目标网页数据所对应的网页地址,以及用于采集所述目标网页数据的采集操作数据;
根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页;
根据所述采集操作数据调用模拟输入装置对所述目标网页执行相应的采集操作,得到所述目标网页数据。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述网页数据采集请求获取与所述网页标识对应的配置模板之后,还包括:
每隔预设时长检测是否存在更新后的配置模板;
若是,则获取所述更新后的配置模板,并将所述更新后的配置模板作为配置模板。
3.根据权利要求1所述的方法,其特征在于,在所述根据所述网页数据采集请求获取与所述网页标识对应的配置模板之前,还包括:
接收网页标识、目标网页数据所对应的网页地址以及用于采集所述目标网页数据的采集操作数据;
根据所述网页地址和所述采集操作数据生成配置模板;
将所述配置模板标记上所述网页标识。
4.根据权利要求1所述的方法,其特征在于,所述采集操作数据中包含目标网页数据在所述目标网页中的目标数据路径;所述根据所述采集操作数据调用模拟输入装置对所述目标网页执行相应的采集操作,得到所述目标网页数据,包括:
根据所述采集操作数据查找所述目标网页中与所述目标数据路径所对应的目标网页数据;
调用模拟输入装置获取所述目标网页数据,并将所述目标网页数据存储至数据库中。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页,包括:
根据所述配置模板调用模拟浏览器向网页地址所对应的网页服务器发送目标网页请求;
通过所述模拟浏览器接收所述网页服务器发送的目标网页响应;
调用所述模拟浏览器对所述目标网页响应进行解析处理,生成目标网页。
6.根据权利要求1至4所述的方法,其特征在于,所述根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页,包括:
根据所述配置模板调用模拟浏览器访问与所述网页地址所对应的登录地址,并生成登录网页;
调用模拟输入装置对所述登录网页执行相应的登录操作;
调用所述模拟浏览器发送登录请求;所述登录请求用于指示网页服务器对所述登录操作进行验证;
当验证通过时,通过所述模拟浏览器接收所述网页服务器发送的登录响应;
调用所述模拟浏览器对所述登录响应进行解析处理,生成目标网页。
7.根据权利要求6所述的方法,其特征在于,所述采集操作数据中包含登录信息文本;所述登录网页中包含文本框和登录控件;所述调用模拟输入装置对所述登录网页执行相应的登录操作,包括:
调用模拟输入装置将所述登录信息文本输入所述文本框;
调用模拟输入装置对所述登录控件执行点击操作。
8.一种网页数据采集装置,其特征在于,所述装置包括:
采集请求接收模块,用于接收网页数据采集请求;所述网页数据采集请求中包含网页标识;
配置模板获取模块,用于根据所述网页数据采集请求获取与所述网页标识对应的配置模板;所述配置模板中包含目标网页数据所对应的网页地址,以及用于采集所述目标网页数据的采集操作数据;
目标网页生成模块,用于根据所述配置模板调用模拟浏览器访问所述网页地址,并生成目标网页;
网页数据采集模块,用于根据所述采集操作数据调用模拟输入装置对所述目标网页执行相应的采集操作,得到所述目标网页数据。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810031767.9A CN108304498B (zh) | 2018-01-12 | 2018-01-12 | 网页数据采集方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810031767.9A CN108304498B (zh) | 2018-01-12 | 2018-01-12 | 网页数据采集方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304498A true CN108304498A (zh) | 2018-07-20 |
CN108304498B CN108304498B (zh) | 2020-08-25 |
Family
ID=62868787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810031767.9A Active CN108304498B (zh) | 2018-01-12 | 2018-01-12 | 网页数据采集方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304498B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063144A (zh) * | 2018-08-07 | 2018-12-21 | 广州金猫信息技术服务有限公司 | 可视化网络爬虫方法及装置 |
CN109547855A (zh) * | 2018-11-20 | 2019-03-29 | 四川长虹电器股份有限公司 | Web前端模拟电视主场景监测电视海报点击数据的方法 |
CN109656925A (zh) * | 2018-12-21 | 2019-04-19 | 北京金山安全软件有限公司 | 应用程序数据获取方法、装置和电子设备 |
CN109739725A (zh) * | 2018-12-29 | 2019-05-10 | 云智慧(北京)科技有限公司 | 基于浏览器的监控方法、装置、系统及存储介质 |
CN109783426A (zh) * | 2018-12-14 | 2019-05-21 | 深圳壹账通智能科技有限公司 | 采集数据的方法、装置、计算机设备及存储介质 |
CN110046295A (zh) * | 2019-03-12 | 2019-07-23 | 重庆金融资产交易所有限责任公司 | 网页结构变更检测方法、装置及计算机可读存储介质 |
CN110188259A (zh) * | 2019-05-27 | 2019-08-30 | 厦门商集网络科技有限责任公司 | 一种可配置化的数据抓取方法和装置 |
CN110222253A (zh) * | 2019-06-12 | 2019-09-10 | 北京睦合达信息技术股份有限公司 | 一种数据采集方法、设备及计算机可读存储介质 |
CN110442766A (zh) * | 2019-07-11 | 2019-11-12 | 新华三大数据技术有限公司 | 网页数据采集方法、装置、设备及存储介质 |
CN110888709A (zh) * | 2019-12-04 | 2020-03-17 | 中山市凯能集团有限公司 | 监控屏的智能操作方法、装置、计算机设备和存储介质 |
CN110995691A (zh) * | 2019-11-28 | 2020-04-10 | 佛山科学技术学院 | 一种获取网页数据的方法及系统 |
CN111125589A (zh) * | 2018-10-31 | 2020-05-08 | 北大方正集团有限公司 | 数据采集方法及装置、计算机可读存储介质 |
CN111399732A (zh) * | 2020-03-13 | 2020-07-10 | 深圳市珍爱云信息技术有限公司 | 网页截图方法、装置、计算机设备和存储介质 |
CN111523074A (zh) * | 2020-04-26 | 2020-08-11 | 成都思维世纪科技有限责任公司 | 一种前端渲染网站的动态页面敏感数据的采集系统 |
CN111753169A (zh) * | 2020-06-29 | 2020-10-09 | 金电联行(北京)信息技术有限公司 | 一种基于互联网的数据采集系统 |
CN111931775A (zh) * | 2020-09-28 | 2020-11-13 | 成都索贝数码科技股份有限公司 | 自动获取新闻标题方法、系统、计算机设备及存储介质 |
CN112148957A (zh) * | 2019-06-26 | 2020-12-29 | 北京百度网讯科技有限公司 | 网页访问数据分析方法、装置、设备及可读存储介质 |
CN112417073A (zh) * | 2020-11-18 | 2021-02-26 | 中科三清科技有限公司 | 空气质量状况自动播报方法、装置、电子设备及存储介质 |
CN113806159A (zh) * | 2020-06-11 | 2021-12-17 | 马上消费金融股份有限公司 | 数据的处理方法及装置、电子设备和可读存储介质 |
CN114338094A (zh) * | 2021-12-09 | 2022-04-12 | 北京五八信息技术有限公司 | 请求头信息的采集方法、装置、电子设备及可读介质 |
CN114428635A (zh) * | 2022-04-06 | 2022-05-03 | 杭州未名信科科技有限公司 | 一种数据采集方法、装置、电子设备及存储介质 |
CN116070052A (zh) * | 2023-01-28 | 2023-05-05 | 爱集微咨询(厦门)有限公司 | 界面数据传输方法、装置、终端及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101354718A (zh) * | 2008-07-23 | 2009-01-28 | 深圳市迅雷网络技术有限公司 | 确定文件包资源标识信息的方法及装置 |
CN101443751A (zh) * | 2004-11-22 | 2009-05-27 | 特鲁维奥公司 | 用于应用爬取器的方法和装置 |
US20120031163A1 (en) * | 2010-08-04 | 2012-02-09 | The Pullman Company | Tracked vehicle track backer pad and road wheel tire test machine and method |
CN106649567A (zh) * | 2016-11-15 | 2017-05-10 | 杭州安恒信息技术有限公司 | 一种基于浏览器内核的网络爬虫系统 |
CN106844486A (zh) * | 2016-12-23 | 2017-06-13 | 北京奇虎科技有限公司 | 爬取动态网页的方法及装置 |
CN106844522A (zh) * | 2016-12-29 | 2017-06-13 | 北京市天元网络技术股份有限公司 | 一种网络数据爬取方法和装置 |
-
2018
- 2018-01-12 CN CN201810031767.9A patent/CN108304498B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101443751A (zh) * | 2004-11-22 | 2009-05-27 | 特鲁维奥公司 | 用于应用爬取器的方法和装置 |
CN101354718A (zh) * | 2008-07-23 | 2009-01-28 | 深圳市迅雷网络技术有限公司 | 确定文件包资源标识信息的方法及装置 |
US20120031163A1 (en) * | 2010-08-04 | 2012-02-09 | The Pullman Company | Tracked vehicle track backer pad and road wheel tire test machine and method |
CN106649567A (zh) * | 2016-11-15 | 2017-05-10 | 杭州安恒信息技术有限公司 | 一种基于浏览器内核的网络爬虫系统 |
CN106844486A (zh) * | 2016-12-23 | 2017-06-13 | 北京奇虎科技有限公司 | 爬取动态网页的方法及装置 |
CN106844522A (zh) * | 2016-12-29 | 2017-06-13 | 北京市天元网络技术股份有限公司 | 一种网络数据爬取方法和装置 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063144A (zh) * | 2018-08-07 | 2018-12-21 | 广州金猫信息技术服务有限公司 | 可视化网络爬虫方法及装置 |
CN111125589A (zh) * | 2018-10-31 | 2020-05-08 | 北大方正集团有限公司 | 数据采集方法及装置、计算机可读存储介质 |
CN111125589B (zh) * | 2018-10-31 | 2023-09-05 | 新方正控股发展有限责任公司 | 数据采集方法及装置、计算机可读存储介质 |
CN109547855A (zh) * | 2018-11-20 | 2019-03-29 | 四川长虹电器股份有限公司 | Web前端模拟电视主场景监测电视海报点击数据的方法 |
CN109547855B (zh) * | 2018-11-20 | 2021-05-25 | 四川长虹电器股份有限公司 | Web前端模拟电视主场景监测电视海报点击数据的方法 |
CN109783426A (zh) * | 2018-12-14 | 2019-05-21 | 深圳壹账通智能科技有限公司 | 采集数据的方法、装置、计算机设备及存储介质 |
CN109656925A (zh) * | 2018-12-21 | 2019-04-19 | 北京金山安全软件有限公司 | 应用程序数据获取方法、装置和电子设备 |
CN109739725A (zh) * | 2018-12-29 | 2019-05-10 | 云智慧(北京)科技有限公司 | 基于浏览器的监控方法、装置、系统及存储介质 |
CN110046295A (zh) * | 2019-03-12 | 2019-07-23 | 重庆金融资产交易所有限责任公司 | 网页结构变更检测方法、装置及计算机可读存储介质 |
CN110188259A (zh) * | 2019-05-27 | 2019-08-30 | 厦门商集网络科技有限责任公司 | 一种可配置化的数据抓取方法和装置 |
CN110222253A (zh) * | 2019-06-12 | 2019-09-10 | 北京睦合达信息技术股份有限公司 | 一种数据采集方法、设备及计算机可读存储介质 |
CN112148957A (zh) * | 2019-06-26 | 2020-12-29 | 北京百度网讯科技有限公司 | 网页访问数据分析方法、装置、设备及可读存储介质 |
CN110442766A (zh) * | 2019-07-11 | 2019-11-12 | 新华三大数据技术有限公司 | 网页数据采集方法、装置、设备及存储介质 |
CN110995691A (zh) * | 2019-11-28 | 2020-04-10 | 佛山科学技术学院 | 一种获取网页数据的方法及系统 |
CN110888709A (zh) * | 2019-12-04 | 2020-03-17 | 中山市凯能集团有限公司 | 监控屏的智能操作方法、装置、计算机设备和存储介质 |
CN111399732A (zh) * | 2020-03-13 | 2020-07-10 | 深圳市珍爱云信息技术有限公司 | 网页截图方法、装置、计算机设备和存储介质 |
CN111523074A (zh) * | 2020-04-26 | 2020-08-11 | 成都思维世纪科技有限责任公司 | 一种前端渲染网站的动态页面敏感数据的采集系统 |
CN113806159A (zh) * | 2020-06-11 | 2021-12-17 | 马上消费金融股份有限公司 | 数据的处理方法及装置、电子设备和可读存储介质 |
CN111753169A (zh) * | 2020-06-29 | 2020-10-09 | 金电联行(北京)信息技术有限公司 | 一种基于互联网的数据采集系统 |
CN111931775A (zh) * | 2020-09-28 | 2020-11-13 | 成都索贝数码科技股份有限公司 | 自动获取新闻标题方法、系统、计算机设备及存储介质 |
CN112417073A (zh) * | 2020-11-18 | 2021-02-26 | 中科三清科技有限公司 | 空气质量状况自动播报方法、装置、电子设备及存储介质 |
CN114338094A (zh) * | 2021-12-09 | 2022-04-12 | 北京五八信息技术有限公司 | 请求头信息的采集方法、装置、电子设备及可读介质 |
CN114338094B (zh) * | 2021-12-09 | 2023-01-24 | 北京五八信息技术有限公司 | 请求头信息的采集方法、装置、电子设备及可读介质 |
CN114428635A (zh) * | 2022-04-06 | 2022-05-03 | 杭州未名信科科技有限公司 | 一种数据采集方法、装置、电子设备及存储介质 |
CN116070052A (zh) * | 2023-01-28 | 2023-05-05 | 爱集微咨询(厦门)有限公司 | 界面数据传输方法、装置、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108304498B (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304498A (zh) | 网页数据采集方法、装置、计算机设备和存储介质 | |
CN101079768B (zh) | 一种统计网页链接点击数据的方法 | |
CN102385594B (zh) | 多核浏览器的内核控制方法和装置 | |
US8725794B2 (en) | Enhanced website tracking system and method | |
CN109977389A (zh) | 表单录入方法、装置、计算机设备和存储介质 | |
CN102708174B (zh) | 一种浏览器中的富媒体信息的展示方法和装置 | |
CN106897215A (zh) | 一种基于WebView网页加载性能及用户行为流数据采集的方法 | |
US8713424B1 (en) | Asynchronous loading of scripts in web pages | |
US20080126931A1 (en) | System and method for recording and reproducing user operation | |
US20110238723A1 (en) | Systems and methods for web decoding | |
CN109471795A (zh) | 分组测试方法、装置、计算机设备及存储介质 | |
CN102831218B (zh) | 热力图中的数据确定方法及装置 | |
CN110020278A (zh) | 页面数据的展示、提供方法、客户端及服务器 | |
WO2014209263A1 (en) | Contextual-based localization based on manual testing | |
CN107688568A (zh) | 基于网页访问行为记录的采集方法及装置 | |
CN110750443B (zh) | 网页测试的方法、装置、计算机设备及存储介质 | |
CN110808868B (zh) | 测试数据获取方法、装置、计算机设备及存储介质 | |
CN104090757A (zh) | 针对浏览器的富媒体信息展示方法 | |
CN109787974A (zh) | 报文数据流生成方法、装置、计算机设备和存储介质 | |
CN104090923A (zh) | 一种浏览器中的富媒体信息的展示方法和装置 | |
WO2021189766A1 (zh) | 数据可视化方法及相关设备 | |
US20160034378A1 (en) | Method and system for testing page link addresses | |
CN111431767A (zh) | 多浏览器资源同步方法、装置、计算机设备和存储介质 | |
CN105653724A (zh) | 一种页面曝光量的监控方法和装置 | |
Vogel et al. | An in-depth analysis of web page structure and efficiency with focus on optimization potential for initial page load |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |