CN111045659A - 采集互联网金融网页的项目列表的方法及系统 - Google Patents
采集互联网金融网页的项目列表的方法及系统 Download PDFInfo
- Publication number
- CN111045659A CN111045659A CN201911094400.2A CN201911094400A CN111045659A CN 111045659 A CN111045659 A CN 111045659A CN 201911094400 A CN201911094400 A CN 201911094400A CN 111045659 A CN111045659 A CN 111045659A
- Authority
- CN
- China
- Prior art keywords
- script
- webpage
- list acquisition
- project list
- internet financial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种采集互联网金融网页的项目列表的方法及系统,该方法包括:脚本生成端展示互联网金融网页对应的可视化配置界面;脚本生成端根据用户在可视化配置界面上的配置操作生成项目列表采集脚本,并将项目列表采集脚本存储至数据库;当时间到达项目列表采集脚本的执行时间点时,脚本生成端从数据库中取出项目列表采集脚本,并将项目列表采集脚本放入任务队列;脚本生成端将任务队列中的项目列表采集脚本分发至执行端;执行端运行项目列表采集脚本,得到项目列表采集信息,并将项目列表采集信息存储至执行端的本地文件系统。通过本发明,通过可视化配置方式,极大的简化了脚本配置工作,从而提高了数据采集效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及采集互联网金融网页的项目列表的方法及系统。
背景技术
现有技术中,从网页上获取信息一般通过爬虫脚本的方式实现。但爬虫脚本需要根据技术人员编写。但这种方式需要分析目标网站的网页组织形式,数据接口以及页面上Javascript逻辑代码,编写出相应的程序代码或脚本,来实现根据某种规则过滤出特定的数据。即当需要从不同的网页上爬取数据时便需要编写不同的爬虫脚本,对技术人员来说无疑是巨大的工作量,脚本编写工作费时费力,从而导致数据采集效率低下。
发明内容
本发明的主要目的在于解决现有技术中脚本编写工作费时费力,导致数据采集效率低下的技术问题。
为实现上述目的,本发明提供一种采集互联网金融网页的项目列表的方法,所述方法应用于采集互联网金融网页的项目列表的系统,所述系统包括生成端和执行端,所述方法包括:
所述脚本生成端展示互联网金融网页对应的可视化配置界面;
所述脚本生成端根据用户在所述可视化配置界面上的配置操作生成项目列表采集脚本,并将所述项目列表采集脚本存储至数据库;
当时间到达所述项目列表采集脚本的执行时间点时,所述脚本生成端从所述数据库中取出所述项目列表采集脚本,并将所述项目列表采集脚本放入任务队列;
所述脚本生成端将所述任务队列中的项目列表采集脚本分发至所述执行端;
所述执行端运行所述项目列表采集脚本,得到项目列表采集信息,并将所述项目列表采集信息存储至所述执行端的本地文件系统。
可选的,所述脚本生成端展示互联网金融网页对应的可视化配置界面,包括:
所述脚本生成端获取互联网金融网页的经过修改的网页源码;
所述脚本生成端对所述经过修改的网页源码进行渲染,得到并展示可视化配置界面。
可选的,所述脚本生成端获取互联网金融网页的经过修改的网页源码,包括:
所述脚本生成端发起互联网金融网页开启请求;
服务端接收所述互联网金融网页开启请求,并通过所述服务端本地无头浏览器将所述互联网金融网页开启请求对应的互联网金融网页的统一资源定位符发送至代理拦截器;
所述服务器接收所述代理拦截器基于所述互联网金融网页的统一资源定位符反馈的网页源码,并通过修改脚本对所述网页源码进行修改,得到互联网金融网页的经过修改的网页源码;
所述服务器将所述互联网金融网页的经过修改的网页源码反馈给所述脚本生成端,以供所述脚本生成端获取所述互联网金融网页的经过修改的网页源码。
可选的,所述脚本生成端将所述任务队列中的项目列表采集脚本分发至所述执行端,包括:
所述脚本生成端根据所述执行端可执行的脚本数量M,将N个项目列表采集脚本分发至所述执行端,其中,所述N小于或等于M。
可选的,所述执行端运行所述项目列表采集脚本,包括:
所述执行端启动执行端本地无头浏览器引擎,并在所述执行端本地无头浏览器引擎上运行所述项目列表采集脚本。
此外,为实现上述目的,本发明还提供一种采集互联网金融网页的项目列表的系统,所述系统包括脚本生成端和执行端:
所述脚本生成端,用于展示互联网金融网页对应的可视化配置界面;根据用户在所述可视化配置界面上的配置操作生成项目列表采集脚本,并将所述项目列表采集脚本存储至数据库;当时间到达所述项目列表采集脚本的执行时间点时,从所述数据库中取出所述项目列表采集脚本,并将所述项目列表采集脚本放入任务队列;将所述任务队列中的项目列表采集脚本分发至所述执行端;
所述执行端,用于运行所述项目列表采集脚本,得到项目列表采集信息,并将所述项目列表采集信息存储至所述执行端的本地文件系统。
可选的,所述脚本生成端,用于:
获取互联网金融网页的经过修改的网页源码;
对所述经过修改的网页源码进行渲染,得到并展示可视化配置界面。
可选的,所述脚本生成端,用于:
所述脚本生成端发起互联网金融网页开启请求;
服务端接收所述互联网金融网页开启请求,并通过所述服务端本地无头浏览器将所述互联网金融网页开启请求对应的互联网金融网页的统一资源定位符发送至代理拦截器;
所述服务器接收所述代理拦截器基于所述互联网金融网页的统一资源定位符反馈的网页源码,并通过修改脚本对所述网页源码进行修改,得到互联网金融网页的经过修改的网页源码;
所述服务器将所述互联网金融网页的经过修改的网页源码反馈给所述脚本生成端,以供所述脚本生成端获取所述互联网金融网页的经过修改的网页源码。
可选的,所述脚本生成端,用于:
根据所述执行端可执行的脚本数量M,将N个项目列表采集脚本分发至所述执行端,其中,所述N小于或等于M。
可选的,所述执行端,用于:
启动执行端本地无头浏览器引擎,并在所述执行端本地无头浏览器引擎上运行所述项目列表采集脚本。
本发明中,脚本生成端展示互联网金融网页对应的可视化配置界面;脚本生成端根据用户在可视化配置界面上的配置操作生成项目列表采集脚本,并将项目列表采集脚本存储至数据库;当时间到达项目列表采集脚本的执行时间点时,脚本生成端从数据库中取出项目列表采集脚本,并将项目列表采集脚本放入任务队列;脚本生成端将任务队列中的项目列表采集脚本分发至执行端;执行端运行项目列表采集脚本,得到项目列表采集信息,并将项目列表采集信息存储至执行端的本地文件系统。通过本发明,通过可视化配置方式,极大的简化了脚本配置工作,从而提高了数据采集效率。
附图说明
图1为本发明采集互联网金融网页的项目列表的方法一实施例的流程示意图;
图2为本发明采集互联网金融网页的项目列表的方法一实施例中可视化配置过程的场景示意图;
图3为本发明采集互联网金融网页的项目列表的方法一实施例中翻页配置的场景示意图;
图4为本发明采集互联网金融网页的项目列表的方法一实施例中字段值配置的场景示意图;
图5为本发明采集互联网金融网页的项目列表的系统一实施例的架构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
参照图1,图1为本发明采集互联网金融网页的项目列表的方法一实施例的流程示意图。在一实施例中,采集互联网金融网页的项目列表的方法应用于采集互联网金融网页的项目列表的系统,系统包括生成端和执行端,该方法包括:
步骤S10,所述脚本生成端展示互联网金融网页对应的可视化配置界面;
本实施例中,互联网金融网页对应的可视化配置界面用于用户进行可视化配置,以供根据用户在该界面上的配置操作生成互联网金融网页对应的项目列表采集脚本。
一实施例中,步骤S10包括:
所述脚本生成端获取互联网金融网页的经过修改的网页源码;
所述脚本生成端对所述经过修改的网页源码进行渲染,得到并展示可视化配置界面。
本实施例中,互联网金融网页的经过修改的网页源码与该互联网金融网页的网页源码不同,脚本生成端通过对该金融网页的经过修改的网页源码进行渲染,可得到可视化配置界面,并展示该可视化配置界面。
一实施例中,所述脚本生成端获取互联网金融网页的经过修改的网页源码,包括:
所述脚本生成端发起互联网金融网页开启请求;服务端接收所述互联网金融网页开启请求,并通过所述服务端本地无头浏览器将所述互联网金融网页开启请求对应的互联网金融网页的统一资源定位符发送至代理拦截器;所述服务器接收所述代理拦截器基于所述互联网金融网页的统一资源定位符反馈的网页源码,并通过修改脚本对所述网页源码进行修改,得到互联网金融网页的经过修改的网页源码;所述服务器将所述互联网金融网页的经过修改的网页源码反馈给所述脚本生成端,以供所述脚本生成端获取所述互联网金融网页的经过修改的网页源码。
参照图2,图2为本发明采集互联网金融网页的项目列表的方法一实施例中可视化配置过程的场景示意图。如图2所示,由客户端浏览器发起打开网页请求,客户端即脚本生成端,服务端接收请求后在本地打开无头浏览器引擎,并进行相关浏览器的初始化配置,而后将客户端请求的URL发送到代理拦截器,代理拦截器主要的作用是对服务端的浏览器引擎发起的请求和响应信息进行拦截过滤和修改,并在此处实现IP代理等策略。代理拦截器将符合规则的请求发送到真实的网站,并接收网站的响应信息,再将该响应信息返回给服务端的无头浏览器。服务端获取到该响应信息包含的网页源码后,将该源码解析,并通过注入修改脚本方式,对网页源码进行修改,得到经过修改的网页源码,该经过修改的网页源码对应的页面具备可视化采集配置能力,并将该经过修改的网页源码返回给客户端浏览器,客户端浏览器对经过修改的网页源码进行渲染,得到可视化配置界面,该可视化配置界面的特点是当用户进行可视化配置时,可直接在客户端的浏览器上通过鼠标在该可视化配置界面上点击的方式实现配置。
步骤S20,所述脚本生成端根据用户在所述可视化配置界面上的配置操作生成项目列表采集脚本,并将所述项目列表采集脚本存储至数据库;
本实施例中,用户在可视化配置界面上的配置操作是为了指定待获取的数据所在位置。用户通过鼠标点击的方式完成配置操作。例如,翻页配置的方式为:通过鼠标点击翻页按钮,界面弹出设置翻页选项,输入翻页数;列表配置的方式为:通过鼠标点击列表中的某一项文本,选取要提取的列表字段,再点击另外一个列表项中的字段,界面自动识别列表项目;字段值配置的方式为:通过鼠标点击要采集的文本信息;字段清洗配置的方式为:在生成的字段上选择正则表达式,可实现匹配或替换。通过用户在可视化配置界面上的配置操作生成的项目列表采集脚本格式如下:
1、项目翻页识别脚本
金融项目在网页中一般会以分页列表形式展示,分页链接一般具有相同的URL规则,可通过定义URL列表规则的方式实现分页的定义;另外,翻页的方式包括:点击下一页按钮进行分页、点击加载更多进行分页、向下滚动屏幕进行分页。
脚本定义规则如下:
2、项目列表识别脚本
多个金融项目在页面以列表方式展现,列表中的各个项目一般具有相同的样式,具有相同的css selector规则,需要定义List脚本标签,标识List标签内的内容采集按列表项进行多次采集。
"list":[#定义列表标签脚本
]
3、项目详细信定位脚本
项目的详细信息包含提取文本信息、链接信息、样式信息等,信息文本类型分为字符文本、数值文本等多种情况。
4、数据清洗脚本
某些提取字段值需要进一步替换和格式化,如日期格式、数字金额等。清洗脚本分为匹配规则定义、格式化规则定义、替换规则定义。清洗脚本定义在项目详细信息提取信息内。
即该项目列表采集脚本中,项目翻页识别脚本、项目列表识别脚本以及项目详细信定位脚本用于采集特定位置的信息,数据清洗脚本用于对采集的信息进行清洗,例如针对采集到的金融网站项目列表信息中的项目名称、项目收益率、项目发标日期等字段进行清洗操作,主要包括空值、默认值处理、日期格式化、金额格式化、文本提取等,从而得到最终的采集信息。
参照图3,图3为本发明采集互联网金融网页的项目列表的方法一实施例中翻页配置的场景示意图。如图3所示,用户通过鼠标点击可视化配置界面的页面元素,弹出操作提示框,其中,文本值表示当前鼠标点击的页面元素中的文本信息,该信息为采集配置提供预览功能,用户可以看到提取该字段的文本值;标签类型是指当前鼠标点击的HTML标签元素的名称;选择器是指该标签元素在HTML中的定位信息,该定位信息通过Css Selector方式表示,在生成脚本和进行脚本采集时,选择器是为提取元素的依据,通过该选择器可以定位和抓取该标签下的文本值。参照图4,图4为本发明采集互联网金融网页的项目列表的方法一实施例中字段值配置的场景示意图。如图4所示,用户通过鼠标点击可视化配置界面的页面元素,弹出操作提示框,其中,文本值表示当前鼠标点击的页面元素中的文本信息,该信息为采集配置提供预览功能,用户可以看到提取该字段的文本值;标签类型是指当前鼠标点击的HTML标签元素的名称;选择器是指该标签元素在HTML中的定位信息,该定位信息通过Css Selector方式表示,在生成脚本和进行脚本采集时,选择器是为提取元素的依据,通过该选择器可以定位和抓取该标签下的文本值。
步骤S30,当时间到达所述项目列表采集脚本的执行时间点时,所述脚本生成端从所述数据库中取出所述项目列表采集脚本,并将所述项目列表采集脚本放入任务队列;
本实施例中,根据上述步骤S10至步骤S20,可针对不同的互联网金融网页生成不同的项目列表采集脚本,即数据库中存储的项目列表采集脚本有多个。可为每个项目列表采集脚本设置对应的执行时间点,当时间到达一个或多个项目列表采集脚本的执行时间点时,将这一个或多个项目列表采集脚本从数据库中取出并放入任务队列。或是设置一个执行时间点,当时间达到该执行时间点时,从数据库中取出还未执行过的项目列表采集脚本,并放入任务队列。其中,任务队列可以是Redis队列。因为Redis每秒能写入的数据单线程最高为1.7w/s,故可以很好的实现多任务同时触发,不会导致待执行任务丢失。若不采用Redis队列,在任务触发时,如果同一时刻同时有几百上千的任务同时触发,假如每个任务触发的过程是5秒,那么1分钟之内只有20个任务可以执行,到第21个任务时,调度器发现该任务的配置的执行时间和当前时间不符,故就错过了准时执行了。
步骤S40,所述脚本生成端将所述任务队列中的项目列表采集脚本分发至所述执行端;
本实施例中,执行端的数量根据实际需要进行设置,例如设置为10个。则脚本生成端将任务队列中的项目列表采集脚本分发至这10个执行端。容易理解的是,每个执行端可执行的脚本数量为一个或多个,当每个执行端可执行的脚本数量为一个时,则为每个执行端分发一个项目列表采集脚本。当每个执行端可执行的脚本数量为多个时,则根据每个执行端可执行的脚本数量为每个执行端分发对应数量的项目列表采集脚本。
一实施例中,步骤S40包括:
所述脚本生成端根据所述执行端可执行的脚本数量M,将N个项目列表采集脚本分发至所述执行端,其中,所述N小于或等于M。
本实施例中,基于执行端数量以及各个执行端可执行的脚本数量,确定执行端可执行的脚本数量M,任务队列可放入的项目列表采集脚本数量为N,N小于或等于M,根据各个执行端可执行的脚本数量将N个项目列表采集脚本分发至每个执行端。例如,N为20,执行端包括执行端1至5,其中执行端1可执行的脚本数量为5,执行端2可执行的脚本数量为7,执行端3可执行的脚本数量为7,执行端4可执行的脚本数量为8,执行端5可执行的脚本数量为9。则首先根据每个执行端可以执行的脚本数量,选取若干执行端,且选取的执行端可执行的脚本数量的和要大于或等于20,然后将20个项目列表采集脚本根据选取的各个执行端可以执行的脚本数量,为每个执行端分发相应数量的项目列表采集脚本。
步骤S50,所述执行端运行所述项目列表采集脚本,得到项目列表采集信息,并将所述项目列表采集信息存储至所述执行端的本地文件系统。
本实施例中,所述执行端用于运行项目列表采集脚本,即执行项目列表采集脚本定义的采集动作,从而得到项目列表采集信息,并将项目列表采集信息存储至执行端的本地文件系统。
进一步地,一实施例中,所述执行端运行所述项目列表采集脚本,包括:
所述执行端启动执行端本地无头浏览器引擎,并在所述执行端本地无头浏览器引擎上运行所述项目列表采集脚本。
本实施例中,执行端启动执行端本地无头浏览器引擎,并在执行端本地无头浏览器引擎上运行项目列表采集脚本。其中,无头浏览器即Headless Browser,是没有图形用户界面(GUI)的web浏览器,通常是通过编程或命令行界面来控制。通过无头浏览器引擎运行项目列表采集脚本,进而进行项目列表信息采集,解决了Ajax采集、页面JS渲染等难题。
本实施例中,脚本生成端展示互联网金融网页对应的可视化配置界面;脚本生成端根据用户在可视化配置界面上的配置操作生成项目列表采集脚本,并将项目列表采集脚本存储至数据库;当时间到达项目列表采集脚本的执行时间点时,脚本生成端从数据库中取出项目列表采集脚本,并将项目列表采集脚本放入任务队列;脚本生成端将任务队列中的项目列表采集脚本分发至执行端;执行端运行项目列表采集脚本,得到项目列表采集信息,并将项目列表采集信息存储至执行端的本地文件系统。通过本实施例,通过可视化配置方式,极大的简化了脚本配置工作,从而提高了数据采集效率。
参照图5,图5为本发明采集互联网金融网页的项目列表的系统一实施例的架构示意图。一实施例中,采集互联网金融网页的项目列表的系统包括脚本生成端和执行端:
所述脚本生成端,用于展示互联网金融网页对应的可视化配置界面;根据用户在所述可视化配置界面上的配置操作生成项目列表采集脚本,并将所述项目列表采集脚本存储至数据库;当时间到达所述项目列表采集脚本的执行时间点时,从所述数据库中取出所述项目列表采集脚本,并将所述项目列表采集脚本放入任务队列;将所述任务队列中的项目列表采集脚本分发至所述执行端;
所述执行端,用于运行所述项目列表采集脚本,得到项目列表采集信息,并将所述项目列表采集信息存储至所述执行端的本地文件系统。
容易理解的是,图5中示出的采集互联网金融网页的项目列表的系统包括1个脚本生成端和1个执行端,但在此对脚本生成端和执行端的数量不做限制,可根据实际需要设置多个脚本生成端和多个执行端。
进一步地,一实施例中,所述脚本生成端,用于:
获取互联网金融网页的经过修改的网页源码;
对所述经过修改的网页源码进行渲染,得到并展示可视化配置界面。
进一步地,一实施例中,所述脚本生成端,用于:
所述脚本生成端发起互联网金融网页开启请求;
服务端接收所述互联网金融网页开启请求,并通过所述服务端本地无头浏览器将所述互联网金融网页开启请求对应的互联网金融网页的统一资源定位符发送至代理拦截器;
所述服务器接收所述代理拦截器基于所述互联网金融网页的统一资源定位符反馈的网页源码,并通过修改脚本对所述网页源码进行修改,得到互联网金融网页的经过修改的网页源码;
所述服务器将所述互联网金融网页的经过修改的网页源码反馈给所述脚本生成端,以供所述脚本生成端获取所述互联网金融网页的经过修改的网页源码。
进一步地,一实施例中,所述脚本生成端,用于:
根据所述执行端可执行的脚本数量M,将N个项目列表采集脚本分发至所述执行端,其中,所述N小于或等于M。
进一步地,一实施例中,所述执行端,用于:
启动执行端本地无头浏览器引擎,并在所述执行端本地无头浏览器引擎上运行所述项目列表采集脚本。
本发明采集互联网金融网页的项目列表的系统的具体实施例与上述采集互联网金融网页的项目列表的方法的各个实施例基本相同,在此不做赘述。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种采集互联网金融网页的项目列表的方法,其特征在于,所述方法应用于采集互联网金融网页的项目列表的系统,所述系统包括生成端和执行端,所述方法包括:
所述脚本生成端展示互联网金融网页对应的可视化配置界面;
所述脚本生成端根据用户在所述可视化配置界面上的配置操作生成项目列表采集脚本,并将所述项目列表采集脚本存储至数据库;
当时间到达所述项目列表采集脚本的执行时间点时,所述脚本生成端从所述数据库中取出所述项目列表采集脚本,并将所述项目列表采集脚本放入任务队列;
所述脚本生成端将所述任务队列中的项目列表采集脚本分发至所述执行端;
所述执行端运行所述项目列表采集脚本,得到项目列表采集信息,并将所述项目列表采集信息存储至所述执行端的本地文件系统。
2.如权利要求1所述的方法,其特征在于,所述脚本生成端展示互联网金融网页对应的可视化配置界面,包括:
所述脚本生成端获取互联网金融网页的经过修改的网页源码;
所述脚本生成端对所述经过修改的网页源码进行渲染,得到并展示可视化配置界面。
3.如权利要求2所述的方法,其特征在于,所述脚本生成端获取互联网金融网页的经过修改的网页源码,包括:
所述脚本生成端发起互联网金融网页开启请求;
服务端接收所述互联网金融网页开启请求,并通过所述服务端本地无头浏览器将所述互联网金融网页开启请求对应的互联网金融网页的统一资源定位符发送至代理拦截器;
所述服务器接收所述代理拦截器基于所述互联网金融网页的统一资源定位符反馈的网页源码,并通过修改脚本对所述网页源码进行修改,得到互联网金融网页的经过修改的网页源码;
所述服务器将所述互联网金融网页的经过修改的网页源码反馈给所述脚本生成端,以供所述脚本生成端获取所述互联网金融网页的经过修改的网页源码。
4.如权利要求1所述的方法,其特征在于,所述脚本生成端将所述任务队列中的项目列表采集脚本分发至所述执行端,包括:
所述脚本生成端根据所述执行端可执行的脚本数量M,将N个项目列表采集脚本分发至所述执行端,其中,所述N小于或等于M。
5.如权利要求1所述的方法,其特征在于,所述执行端运行所述项目列表采集脚本,包括:
所述执行端启动执行端本地无头浏览器引擎,并在所述执行端本地无头浏览器引擎上运行所述项目列表采集脚本。
6.一种采集互联网金融网页的项目列表的系统,其特征在于,所述系统包括脚本生成端和执行端:
所述脚本生成端,用于展示互联网金融网页对应的可视化配置界面;根据用户在所述可视化配置界面上的配置操作生成项目列表采集脚本,并将所述项目列表采集脚本存储至数据库;当时间到达所述项目列表采集脚本的执行时间点时,从所述数据库中取出所述项目列表采集脚本,并将所述项目列表采集脚本放入任务队列;将所述任务队列中的项目列表采集脚本分发至所述执行端;
所述执行端,用于运行所述项目列表采集脚本,得到项目列表采集信息,并将所述项目列表采集信息存储至所述执行端的本地文件系统。
7.如权利要求6所述的系统,其特征在于,所述脚本生成端,用于:
获取互联网金融网页的经过修改的网页源码;
对所述经过修改的网页源码进行渲染,得到并展示可视化配置界面。
8.如权利要求7所述的系统,其特征在于,所述脚本生成端,用于:
所述脚本生成端发起互联网金融网页开启请求;
服务端接收所述互联网金融网页开启请求,并通过所述服务端本地无头浏览器将所述互联网金融网页开启请求对应的互联网金融网页的统一资源定位符发送至代理拦截器;
所述服务器接收所述代理拦截器基于所述互联网金融网页的统一资源定位符反馈的网页源码,并通过修改脚本对所述网页源码进行修改,得到互联网金融网页的经过修改的网页源码;
所述服务器将所述互联网金融网页的经过修改的网页源码反馈给所述脚本生成端,以供所述脚本生成端获取所述互联网金融网页的经过修改的网页源码。
9.如权利要求6所述的系统,其特征在于,所述脚本生成端,用于:
根据所述执行端可执行的脚本数量M,将N个项目列表采集脚本分发至所述执行端,其中,所述N小于或等于M。
10.如权利要求6所述的系统,其特征在于,所述执行端,用于:
启动执行端本地无头浏览器引擎,并在所述执行端本地无头浏览器引擎上运行所述项目列表采集脚本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911094400.2A CN111045659A (zh) | 2019-11-11 | 2019-11-11 | 采集互联网金融网页的项目列表的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911094400.2A CN111045659A (zh) | 2019-11-11 | 2019-11-11 | 采集互联网金融网页的项目列表的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111045659A true CN111045659A (zh) | 2020-04-21 |
Family
ID=70232675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911094400.2A Pending CN111045659A (zh) | 2019-11-11 | 2019-11-11 | 采集互联网金融网页的项目列表的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111045659A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113741766A (zh) * | 2021-11-08 | 2021-12-03 | 山东捷瑞数字科技股份有限公司 | 一种面向网页代码的可视化采集工具 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243159A (zh) * | 2015-10-28 | 2016-01-13 | 福建亿榕信息技术有限公司 | 一种基于可视化脚本编辑器的分布式网络爬虫系统 |
CN107092670A (zh) * | 2017-04-11 | 2017-08-25 | 武汉大学 | 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法 |
US20180123934A1 (en) * | 2016-10-27 | 2018-05-03 | Ranorex GmbH | Functional webpage testing tool |
US10108432B1 (en) * | 2009-04-16 | 2018-10-23 | Intuit Inc. | Generating a script based on user actions |
CN108875091A (zh) * | 2018-08-14 | 2018-11-23 | 杭州费尔斯通科技有限公司 | 一种统一管理的分布式网络爬虫系统 |
-
2019
- 2019-11-11 CN CN201911094400.2A patent/CN111045659A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10108432B1 (en) * | 2009-04-16 | 2018-10-23 | Intuit Inc. | Generating a script based on user actions |
CN105243159A (zh) * | 2015-10-28 | 2016-01-13 | 福建亿榕信息技术有限公司 | 一种基于可视化脚本编辑器的分布式网络爬虫系统 |
US20180123934A1 (en) * | 2016-10-27 | 2018-05-03 | Ranorex GmbH | Functional webpage testing tool |
CN107092670A (zh) * | 2017-04-11 | 2017-08-25 | 武汉大学 | 一种基于内嵌浏览器的可视化网络爬虫系统及分析方法 |
CN108875091A (zh) * | 2018-08-14 | 2018-11-23 | 杭州费尔斯通科技有限公司 | 一种统一管理的分布式网络爬虫系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113741766A (zh) * | 2021-11-08 | 2021-12-03 | 山东捷瑞数字科技股份有限公司 | 一种面向网页代码的可视化采集工具 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11902394B2 (en) | System and method analyzing actual behavior of website visitors | |
US8612420B2 (en) | Configuring web crawler to extract web page information | |
CN107729475B (zh) | 网页元素采集方法、装置、终端与计算机可读存储介质 | |
US8898178B2 (en) | Solution monitoring system | |
EP1837771A2 (en) | Monitoring of computer events | |
CN108595583A (zh) | 动态图表类页面数据爬取方法、装置、终端及存储介质 | |
CN102999613B (zh) | 一种在浏览器中加载工具类窗口的方法及其装置 | |
CN110851681B (zh) | 爬虫处理方法、装置、服务器及计算机可读存储介质 | |
US20200004663A1 (en) | Visible elements-based application testing | |
EP2227760A1 (en) | Templating system and method for updating content in real time | |
CN101876897A (zh) | 用于在Web浏览器上处理Widget的系统和方法 | |
CN108595697B (zh) | 网页集成方法、装置及系统 | |
CN110399063B (zh) | 页面元素属性的查看方法及装置 | |
CN111090797B (zh) | 数据获取方法、装置、计算机设备和存储介质 | |
Grigera et al. | Kobold: web usability as a service | |
WO2019074125A1 (ja) | ウェブブラウザの操作を伴う業務プロセスを自動化するためのシステム、方法及びプログラム | |
CN113886204A (zh) | 用户行为数据收集方法、装置、电子设备及可读存储介质 | |
JP2019075084A (ja) | ウェブブラウザの操作を伴う業務プロセスを自動化するためのシステム、方法及びプログラム | |
CN103853717A (zh) | 网络爬虫 | |
US20240037164A1 (en) | Webpage display method, system and medium | |
US8051110B2 (en) | Identifying screen flows to support multiple entities and their diverse rules with a single application instance | |
CN111045659A (zh) | 采集互联网金融网页的项目列表的方法及系统 | |
CN113704344A (zh) | 基于表单模板的数据备案方法、装置、设备及存储介质 | |
WO2016137435A1 (en) | Element identifier generation | |
US11755455B1 (en) | Detecting and correcting user interface discrepancies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200421 |