CN110188259A - 一种可配置化的数据抓取方法和装置 - Google Patents
一种可配置化的数据抓取方法和装置 Download PDFInfo
- Publication number
- CN110188259A CN110188259A CN201910446581.4A CN201910446581A CN110188259A CN 110188259 A CN110188259 A CN 110188259A CN 201910446581 A CN201910446581 A CN 201910446581A CN 110188259 A CN110188259 A CN 110188259A
- Authority
- CN
- China
- Prior art keywords
- identifying code
- url
- targeted website
- user
- configuration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种可配置化的数据抓取方法,包括以下步骤:确定需要抓取的目标网站,并在站点配置页面配置所述目标网站的基本信息,包括站点类型、站点名称、目标编号、页面编码格式;在用户配置页面配置可以登陆所述目标网站的用户的基本信息,包括用户类型、登录账号/密码、用户编码、用户名称;在抓取URL配置页面配置爬取登陆和抓取数据的URL基本信息,包括URL名称、请求时的URL地址、上级URL、URL类型、请求方式、URL后缀类型;在调度管理页面配置抓取服务发起的时间;生成一抓取作业,根据上述各个配置好的信息,从所述目标网站上抓取数据。
Description
技术领域
本发明涉及一种可配置化的数据抓取方法和装置,属于数据采集技术领域。
背景技术
目前可实现数据抓取的方法很多,有开源的代码,也有商用的直接提供服务的工具,但是这些基本都是针对不同的目标网站上,根据网站特点硬编码实现的,这样的实现具有一定的局限性,一旦所要抓取的范围变大,或者目标网站发生变更,唯一的解决问题的方法就是修改前面实现的编码。这样就造成了一定的资源浪费,并且影响实现周期,灵活度不够,也受限于实现的人员技能。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种可配置化的数据抓取方法,可以有效的解决多网站的抓取,甚至是面对网站变更的情况,也可以通过修改配置而完成配套变更,缩短工期,并且普通的实施人员也能完成。
本发明的技术方案如下:
技术方案一
一种可配置化的数据抓取方法,包括以下步骤:
确定需要抓取的目标网站,并在站点配置页面配置所述目标网站的基本信息,包括站点类型、站点名称、目标编号、页面编码格式;
在用户配置页面配置可以登陆所述目标网站的用户的基本信息,包括用户类型、登录账号/密码、用户编码、用户名称;
在抓取URL配置页面配置爬取登陆和抓取数据的URL基本信息,包括URL名称、请求时的URL地址、上级URL、URL类型、请求方式、URL后缀类型;
在调度管理页面配置抓取服务发起的时间;
生成一抓取作业,从所述目标网站上抓取数据,具体步骤如下:
根据所述抓取服务发起的时间,开始执行作业;
根据所述目标网站的基本信息,打开所述目标网站;
根据所述目标网站的用户的基本信息,输入登陆账号/密码,登陆所述目标网站;
根据所述URL的基本信息,打开抓取数据的URL,在所述目标网站上执行固定操作并抓取网页内容。
进一步的,判断所述目标网站是否有验证码登陆步骤,如有验证码登陆步骤,则在验证码输入配置页面配置验证码输入的基本信息,包括验证码图片类型、验证码图片语言、验证码图片字数和验证码大小写;如无验证码登陆步骤,则跳过验证码输入配置;
如目标网站有验证码登陆步骤,则抓取所述目标网站中的验证码图片,根据所述验证码输入的基本信息识别验证码图片进行登录目标网站,具体步骤如下:
利用网络爬虫从所述目标网站中爬取验证码图片;
利用OCR技术,根据所述验证码输入的基本信息,对所述验证码图片进行自动识别,得到所述验证码图片中的验证码信息;并将所述验证码信息填入验证码输入框内并提交,进行登陆;
如登陆失败,则转为人工识别验证码图片,并在验证码输入框中输入验证码,进行登陆。
进一步的,还包括一用户密码校验步骤,具体如下:
选择要校验的一个或以上用户,点击进行校验;
客户端依次对选择的用户的登录账号/密码进行校验,并在后台生成校验结果,所述校验结果包括登陆成功和登陆失败,如校验结果是登陆失败,还在后台生成错误信息,并列出相关的错误信息日志地址;
点击查询获取校验结果,如校验结果是登陆失败,则根据所述错误信息日志地址获取错误信息日志,分析错误并进行使得错误得到解决。
进一步的,在URL参数配置页面配置值为变量的请求参数,包括参数名称、参数类型、参数值和参数说明。
技术方案二
一种可配置化的数据抓取装置,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
确定需要抓取的目标网站,并在站点配置页面配置所述目标网站的基本信息,包括站点类型、站点名称、目标编号、页面编码格式;
在用户配置页面配置可以登陆所述目标网站的用户的基本信息,包括用户类型、登录账号/密码、用户编码、用户名称;
在抓取URL配置页面配置爬取登陆和抓取数据的URL基本信息,包括URL名称、请求时的URL地址、上级URL、URL类型、请求方式、URL后缀类型;
在调度管理页面配置抓取服务发起的时间;
生成一抓取作业,从所述目标网站上抓取数据,具体步骤如下:
根据所述抓取服务发起的时间,开始执行作业;
根据所述目标网站的基本信息,打开所述目标网站;
根据所述目标网站的用户的基本信息,输入登陆账号/密码,登陆所述目标网站;
根据所述URL的基本信息,打开抓取数据的URL,在所述目标网站上执行固定操作并抓取网页内容。
进一步的,判断所述目标网站是否有验证码登陆步骤,如有验证码登陆步骤,则在验证码输入配置页面配置验证码输入的基本信息,包括验证码图片类型、验证码图片语言、验证码图片字数和验证码大小写;如无验证码登陆步骤,则跳过验证码输入配置;
如目标网站有验证码登陆步骤,则抓取所述目标网站中的验证码图片,根据所述验证码输入的基本信息识别验证码图片进行登录目标网站,具体步骤如下:
利用网络爬虫从所述目标网站中爬取验证码图片;
利用OCR技术,根据所述验证码输入的基本信息,对所述验证码图片进行自动识别,得到所述验证码图片中的验证码信息;并将所述验证码信息填入验证码输入框内并提交,进行登陆;
如登陆失败,则转为人工识别验证码图片,并在验证码输入框中输入验证码,进行登陆。
进一步的,还包括一用户密码校验步骤,具体如下:
选择要校验的一个或以上用户,点击进行校验;
客户端依次对选择的用户的登录账号/密码进行校验,并在后台生成校验结果,所述校验结果包括登陆成功和登陆失败,如校验结果是登陆失败,还在后台生成错误信息,并列出相关的错误信息日志地址;
点击查询获取校验结果,如校验结果是登陆失败,则根据所述错误信息日志地址获取错误信息日志,分析错误并进行使得错误得到解决。
进一步的,在URL参数配置页面配置值为变量的请求参数,包括参数名称、参数类型、参数值和参数说明。
本发明具有如下有益效果:
1、本发明一种可配置化的数据抓取方法,通过将数据抓取过程的各个关键环节进行解构,使得操作人员不需要专业的爬虫编码技能,就可以完成一个网站的数据抓取工作;无需投入高端人员,对数据抓取成本可控。
附图说明
图1为本发明实施例的流程图;
图2为站点配置的示例图;
图3为实施例中网站源代码的示例图;
图4为用户配置的示例图;
图5为抓取URL配置的示例图;
图6为分页表达式配置的示例图;
图7为调度管理配置的示例图;
图8为验证码输入的示例图;
图9为用户账号密码校验的示例图;
图10为URL参数配置的示例图;
图11为通过httpwatch获取网站信息的示例图。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
参见图1-11,一种可配置化的数据抓取方法,包括以下步骤:
确定需要抓取的目标网站,并在站点配置页面配置所述目标网站的基本信息,包括站点类型、站点名称、目标编号、页面编码格式;如图2所示,以永辉超市网站的配置为例,站点类型根据永辉超市网站的类型,选择零售商;站点名称填写永辉超市,可以自定义名称;目标编号可进行自定义,一般有需求方提供编号;页面编码格式是每个网站开发时定义好的,参见图3,打开永辉超市网站,右键查看页面的的源代码,从源代码中找到页面的编码格式,从图3中可以看出该页面的编码格式为UTF-8,一般站点的编码格式都是统一的,所以页面编码格式选择UTF-8。
在用户配置页面配置可以登陆所述目标网站的用户的基本信息,包括用户类型、登录账号/密码、用户编码、用户名称;参见图4,用户类型和站点类型相关,这里以永辉超市为例,属于零售商下的用户类型为供应商类型,所以这里选择供应商01;登录帐号,填写当前站点的登录帐号;用户密码,填写登陆帐号对应的登录密码;用户编码填写供应商的编码,一般由供应商提供;用户名称填写用户的名称,可以自定义填写;还包括选填项企业账户,主要为了兼容个别特殊站点设置的,如重庆商社新世纪百货;选填项区域,也是为了兼容个别特殊站点设置的,如大润发;零售商编号,填写当前站点零售商的编号;选填项内部供应商编号,也是为了兼容个别特殊站点设置的,如沃尔玛。
在抓取URL配置页面配置爬取登陆和抓取数据的URL基本信息,包括URL名称、请求时的URL地址、上级URL、URL类型、请求方式、URL后缀类型;参见图5,URL名称可自定义填写,可以自定义一个能说明URL功能的名称;请求时的URL地址可以通过httpwatch(参见图11)进行提取,再拷贝粘贴到输入框内;有些请求需要通过上下文的URL请求获得相关参数或是会话信息,因此URL配置时可以配置多层级关系,下级URL配置时需要指定当前URL的上级URL,不同的站点不一样,案例中没有上下层级关系的URL,所以无需配置。案例中的请求方式可以在httpwatch中进行查看,查看的方式和上述查看URL地址的方式相同,这里就不一一明示了,如果是post就配置post,如果是get则配置成get。是否分页,有些站点查询出来的数据是以列表形式展示,由于数据太多,无法在有限的页面中展示,一般都采用分页展示,所以爬虫在爬取这些数据的过程中需要按页面的分页连续的爬取,如果页面数据有分页,在这里需要配置成“是”,如果没有则配成“否”。分页参数,就是站点页面中控制分页数的变量,可以通过httpwatch获得,查看的方式和上述查看URL地址的方式相同,这里就不一一明示了。分页初始页数,根据具体页面URL参数的页面起始值进行配置。分页结束表达式,页面有配置分页,就一定要配置分页表达式,否则爬虫无法知道分页的上限而否无法停止爬取任务,分页表达式配置页面如图6所示,其中判断方式,是配置爬虫以什么算法计算获得页面的上限来停止爬取,最常用的是MD5;解析方式,是配置以何种组件进行html页面解析,常用的有JSOUP和JSONPATH;解析属性,一般配置成text;解析表达式,解析页面目标区域的标签,如table,div等;索引,配置目前区域标签在页面中的索引序号,从上到下从0开始计数。
如图7所示,在调度管理页面配置抓取服务发起的时间;填写日历模板的名称,可以自定义;对当前日历模板进行中文描述;配置抓取服务发起的具体时间,可以配置分钟、小时、天、月和星期,可以配置具体时刻发起抓取服务,也可以配置每分钟、每小时、每天、每月、每星期发起抓取服务。
生成一抓取作业,从所述目标网站上抓取数据,作业采用树形结构构建,作业在运行前,会读取与抓取数据过程所有相关的配置信息,树形节点包括执行时间节点、打开站点节点、用户登陆节点、抓取数据节点;具体步骤如下:
在执行时间节点,读取所述抓取服务发起的时间,开始执行作业;
在打开站点节点,读取所述目标网站的基本信息,打开所述目标网站;
在用户登陆节点,读取所述目标网站的用户的基本信息,输入登陆账号/密码,登陆所述目标网站;
在抓取数据节点,读取所述URL的基本信息,打开抓取数据的URL,在所述目标网站上执行固定操作并抓取网页内容。
本实施例通过以上步骤的配置,相当于将数据抓取过程的各个关键环节,通过页面配置化的方式做了解构,使得操作人员不需要专业的爬虫编码技能,就可以完成一个网站的数据抓取工作;无需投入高端人员,对数据抓取成本可控。
实施例二
进一步的,判断所述目标网站是否有验证码登陆步骤,如有验证码登陆步骤,则在验证码输入配置页面配置验证码输入的基本信息,参见图2,包括验证码图片类型、验证码图片语言、验证码图片字数和验证码大小写;验证码图片类型,可在永辉超市站点登录页面,右键验证码的图片查看属性就可以查看到图片的格式类型,这里选的是JPG格式,不同的网站验证码图片格式可能不相同;验证码图片语言,如果验证码是字母数子和符号组合的,选英文,如果有中文的则选中文;验证码图片字数,填写该站点验证码的字母个数;验证码大小写,在页面输入验证码是时查看验证码是否有大小写变化,以此来判定验证码的大小写;如无验证码登陆步骤,则跳过验证码输入配置。
参见图8,如目标网站有验证码登陆步骤,则抓取所述目标网站中的验证码图片,根据所述验证码输入的基本信息识别验证码图片进行登录目标网站,具体步骤如下:
利用网络爬虫从所述目标网站中爬取验证码图片。
利用OCR技术,根据所述验证码输入的基本信息,对所述验证码图片进行自动识别,得到所述验证码图片中的验证码信息;并将所述验证码信息填入验证码输入框内并提交,进行登陆。
如登陆失败,则转为人工识别验证码图片,并在验证码输入框中输入验证码,进行登陆。
进一步的,还包括一用户密码校验步骤,具体如下:
参见图9,选择要校验的一个或以上用户,点击“用户名密码校验”按钮进行校验。
客户端依次对选择的用户的登录账号/密码进行校验,并在后台生成校验结果,所述校验结果包括登陆成功和登陆失败,如校验结果是登陆失败,还在后台生成错误信息,并列出相关的错误信息日志地址。
点击查询获取校验结果,如校验结果是登陆失败,则根据所述错误信息日志地址获取错误信息日志,分析错误并进行使得错误得到解决。
进一步的,参见图10,在URL参数配置页面配置值为变量的请求参数,包括参数名称、参数类型、参数值和参数说明;有很多URL请求需要带上一些请求参数,但是有些参数的值不是固定的,比如日期,时间戳和帐号等,不能把这些参数的值配置成常量拼到URL中,因此需要进行URL参数配置;例如,有些站点是使用.NET开发,一些分页的参数值是依赖于上一页生成,第一页依赖于上一级爬取的页面,第二页依赖于第一页,第三页依赖于第二页,以此类推,常见的有VIEWSTATE参数。
本实施例不仅进一步实施例二的优点,进一步的,还提出了配置验证码输入,通过网站验证码图片的图片格式、验证码字体等基本信息以及OCR技术对验证码图片进行自动识别和提交,减少数据抓取的困难,扩大可抓取数据的网站的范围;并对URL参数进行配置,以免在URL请求时,因参数值的变化造成无法请求的问题。
实施例三
一种可配置化的数据抓取装置,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
确定需要抓取的目标网站,并在站点配置页面配置所述目标网站的基本信息,包括站点类型、站点名称、目标编号、页面编码格式;如图2所示,以永辉超市网站的配置为例,站点类型根据永辉超市网站的类型,选择零售商;站点名称填写永辉超市,可以自定义名称;目标编号可进行自定义,一般有需求方提供编号;页面编码格式是每个网站开发时定义好的,参见图3,打开永辉超市网站,右键查看页面的的源代码,从源代码中找到页面的编码格式,从图3中可以看出该页面的编码格式为UTF-8,一般站点的编码格式都是统一的,所以页面编码格式选择UTF-8。
在用户配置页面配置可以登陆所述目标网站的用户的基本信息,包括用户类型、登录账号/密码、用户编码、用户名称;参见图4,用户类型和站点类型相关,这里以永辉超市为例,属于零售商下的用户类型为供应商类型,所以这里选择供应商01;登录帐号,填写当前站点的登录帐号;用户密码,填写登陆帐号对应的登录密码;用户编码填写供应商的编码,一般由供应商提供;用户名称填写用户的名称,可以自定义填写;还包括选填项企业账户,主要为了兼容个别特殊站点设置的,如重庆商社新世纪百货;选填项区域,也是为了兼容个别特殊站点设置的,如大润发;零售商编号,填写当前站点零售商的编号;选填项内部供应商编号,也是为了兼容个别特殊站点设置的,如沃尔玛。
在抓取URL配置页面配置爬取登陆和抓取数据的URL基本信息,包括URL名称、请求时的URL地址、上级URL、URL类型、请求方式、URL后缀类型;参见图5,URL名称可自定义填写,可以自定义一个能说明URL功能的名称;请求时的URL地址可以通过httpwatch(参见图11)进行提取,再拷贝粘贴到输入框内;有些请求需要通过上下文的URL请求获得相关参数或是会话信息,因此URL配置时可以配置多层级关系,下级URL配置时需要指定当前URL的上级URL,不同的站点不一样,案例中没有上下层级关系的URL,所以无需配置。案例中的请求方式可以在httpwatch中进行查看,查看的方式和上述查看URL地址的方式相同,这里就不一一明示了,如果是post就配置post,如果是get则配置成get。是否分页,有些站点查询出来的数据是以列表形式展示,由于数据太多,无法在有限的页面中展示,一般都采用分页展示,所以爬虫在爬取这些数据的过程中需要按页面的分页连续的爬取,如果页面数据有分页,在这里需要配置成“是”,如果没有则配成“否”。分页参数,就是站点页面中控制分页数的变量,可以通过httpwatch获得,查看的方式和上述查看URL地址的方式相同,这里就不一一明示了。分页初始页数,根据具体页面URL参数的页面起始值进行配置。分页结束表达式,页面有配置分页,就一定要配置分页表达式,否则爬虫无法知道分页的上限而否无法停止爬取任务,分页表达式配置页面如图6所示,其中判断方式,是配置爬虫以什么算法计算获得页面的上限来停止爬取,最常用的是MD5;解析方式,是配置以何种组件进行html页面解析,常用的有JSOUP和JSONPATH;解析属性,一般配置成text;解析表达式,解析页面目标区域的标签,如table,div等;索引,配置目前区域标签在页面中的索引序号,从上到下从0开始计数。
如图7所示,在调度管理页面配置抓取服务发起的时间;填写日历模板的名称,可以自定义;对当前日历模板进行中文描述;配置抓取服务发起的具体时间,可以配置分钟、小时、天、月和星期,可以配置具体时刻发起抓取服务,也可以配置每分钟、每小时、每天、每月、每星期发起抓取服务。
生成一抓取作业,从所述目标网站上抓取数据,作业采用树形结构构建,作业在运行前,会读取与抓取数据过程所有相关的配置信息,树形节点包括执行时间节点、打开站点节点、用户登陆节点、抓取数据节点;具体步骤如下:
在执行时间节点,读取所述抓取服务发起的时间,开始执行作业;
在打开站点节点,读取所述目标网站的基本信息,打开所述目标网站;
在用户登陆节点,读取所述目标网站的用户的基本信息,输入登陆账号/密码,登陆所述目标网站;
在抓取数据节点,读取所述URL的基本信息,打开抓取数据的URL,在所述目标网站上执行固定操作并抓取网页内容。
本实施例通过以上步骤的配置,相当于将数据抓取过程的各个关键环节,通过页面配置化的方式做了解构,使得操作人员不需要专业的爬虫编码技能,就可以完成一个网站的数据抓取工作;无需投入高端人员,对数据抓取成本可控。
实施例四
进一步的,判断所述目标网站是否有验证码登陆步骤,如有验证码登陆步骤,则在验证码输入配置页面配置验证码输入的基本信息,参见图2,包括验证码图片类型、验证码图片语言、验证码图片字数和验证码大小写;验证码图片类型,可在永辉超市站点登录页面,右键验证码的图片查看属性就可以查看到图片的格式类型,这里选的是JPG格式,不同的网站验证码图片格式可能不相同;验证码图片语言,如果验证码是字母数子和符号组合的,选英文,如果有中文的则选中文;验证码图片字数,填写该站点验证码的字母个数;验证码大小写,在页面输入验证码是时查看验证码是否有大小写变化,以此来判定验证码的大小写;如无验证码登陆步骤,则跳过验证码输入配置。
参见图8,如目标网站有验证码登陆步骤,则抓取所述目标网站中的验证码图片,根据所述验证码输入的基本信息识别验证码图片进行登录目标网站,具体步骤如下:
利用网络爬虫从所述目标网站中爬取验证码图片。
利用OCR技术,根据所述验证码输入的基本信息,对所述验证码图片进行自动识别,得到所述验证码图片中的验证码信息;并将所述验证码信息填入验证码输入框内并提交,进行登陆。
如登陆失败,则转为人工识别验证码图片,并在验证码输入框中输入验证码,进行登陆。
进一步的,还包括一用户密码校验步骤,具体如下:
参见图9,选择要校验的一个或以上用户,点击“用户名密码校验”按钮进行校验。
客户端依次对选择的用户的登录账号/密码进行校验,并在后台生成校验结果,所述校验结果包括登陆成功和登陆失败,如校验结果是登陆失败,还在后台生成错误信息,并列出相关的错误信息日志地址。
点击查询获取校验结果,如校验结果是登陆失败,则根据所述错误信息日志地址获取错误信息日志,分析错误并进行使得错误得到解决。
进一步的,参见图10,在URL参数配置页面配置值为变量的请求参数,包括参数名称、参数类型、参数值和参数说明;有很多URL请求需要带上一些请求参数,但是有些参数的值不是固定的,比如日期,时间戳和帐号等,不能把这些参数的值配置成常量拼到URL中,因此需要进行URL参数配置;例如,有些站点是使用.NET开发,一些分页的参数值是依赖于上一页生成,第一页依赖于上一级爬取的页面,第二页依赖于第一页,第三页依赖于第二页,以此类推,常见的有VIEWSTATE参数。
本实施例不仅进一步实施例二的优点,进一步的,还提出了配置验证码输入,通过网站验证码图片的图片格式、验证码字体等基本信息以及OCR技术对验证码图片进行自动识别和提交,减少数据抓取的困难,扩大可抓取数据的网站的范围;并对URL参数进行配置,以免在URL请求时,因参数值的变化造成无法请求的问题。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种可配置化的数据抓取方法,其特征在于,包括以下步骤:
确定需要抓取的目标网站,并在站点配置页面配置所述目标网站的基本信息,包括站点类型、站点名称、目标编号、页面编码格式;
在用户配置页面配置可以登陆所述目标网站的用户的基本信息,包括用户类型、登录账号/密码、用户编码、用户名称;
在抓取URL配置页面配置爬取登陆和抓取数据的URL基本信息,包括URL名称、请求时的URL地址、上级URL、URL类型、请求方式、URL后缀类型;
在调度管理页面配置抓取服务发起的时间;
生成一抓取作业,从所述目标网站上抓取数据,具体步骤如下:
根据所述抓取服务发起的时间,开始执行作业;
根据所述目标网站的基本信息,打开所述目标网站;
根据所述目标网站的用户的基本信息,输入登陆账号/密码,登陆所述目标网站;
根据所述URL的基本信息,打开抓取数据的URL,在所述目标网站上执行固定操作并抓取网页内容。
2.根据权利要求1所述的一种可配置化的数据抓取方法,其特征在于:
判断所述目标网站是否有验证码登陆步骤,如有验证码登陆步骤,则在验证码输入配置页面配置验证码输入的基本信息,包括验证码图片类型、验证码图片语言、验证码图片字数和验证码大小写;如无验证码登陆步骤,则跳过验证码输入配置;
如目标网站有验证码登陆步骤,则抓取所述目标网站中的验证码图片,根据所述验证码输入的基本信息识别验证码图片进行登录目标网站,具体步骤如下:
利用网络爬虫从所述目标网站中爬取验证码图片;
利用OCR技术,根据所述验证码输入的基本信息,对所述验证码图片进行自动识别,得到所述验证码图片中的验证码信息;并将所述验证码信息填入验证码输入框内并提交,进行登陆;
如登陆失败,则转为人工识别验证码图片,并在验证码输入框中输入验证码,进行登陆。
3.根据权利要求1所述的一种可配置化的数据抓取方法,其特征在于,还包括一用户密码校验步骤,具体如下:
选择要校验的一个或以上用户,点击进行校验;
客户端依次对选择的用户的登录账号/密码进行校验,并在后台生成校验结果,所述校验结果包括登陆成功和登陆失败,如校验结果是登陆失败,还在后台生成错误信息,并列出相关的错误信息日志地址;
点击查询获取校验结果,如校验结果是登陆失败,则根据所述错误信息日志地址获取错误信息日志,分析错误并进行使得错误得到解决。
4.根据权利要求1所述的一种可配置化的数据抓取方法,其特征在于:在URL参数配置页面配置值为变量的请求参数,包括参数名称、参数类型、参数值和参数说明。
5.一种可配置化的数据抓取装置,其特征在于,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
确定需要抓取的目标网站,并在站点配置页面配置所述目标网站的基本信息,包括站点类型、站点名称、目标编号、页面编码格式;
在用户配置页面配置可以登陆所述目标网站的用户的基本信息,包括用户类型、登录账号/密码、用户编码、用户名称;
在抓取URL配置页面配置爬取登陆和抓取数据的URL基本信息,包括URL名称、请求时的URL地址、上级URL、URL类型、请求方式、URL后缀类型;
在调度管理页面配置抓取服务发起的时间;
生成一抓取作业,从所述目标网站上抓取数据,具体步骤如下:
根据所述抓取服务发起的时间,开始执行作业;
根据所述目标网站的基本信息,打开所述目标网站;
根据所述目标网站的用户的基本信息,输入登陆账号/密码,登陆所述目标网站;
根据所述URL的基本信息,打开抓取数据的URL,在所述目标网站上执行固定操作并抓取网页内容。
6.根据权利要求5所述的一种可配置化的数据抓取装置,其特征在于:
判断所述目标网站是否有验证码登陆步骤,如有验证码登陆步骤,则在验证码输入配置页面配置验证码输入的基本信息,包括验证码图片类型、验证码图片语言、验证码图片字数和验证码大小写;如无验证码登陆步骤,则跳过验证码输入配置;
如目标网站有验证码登陆步骤,则抓取所述目标网站中的验证码图片,根据所述验证码输入的基本信息识别验证码图片进行登录目标网站,具体步骤如下:
利用网络爬虫从所述目标网站中爬取验证码图片;
利用OCR技术,根据所述验证码输入的基本信息,对所述验证码图片进行自动识别,得到所述验证码图片中的验证码信息;并将所述验证码信息填入验证码输入框内并提交,进行登陆;
如登陆失败,则转为人工识别验证码图片,并在验证码输入框中输入验证码,进行登陆。
7.根据权利要求5所述的一种可配置化的数据抓取装置,其特征在于,还包括一用户密码校验步骤,具体如下:
选择要校验的一个或以上用户,点击进行校验;
客户端依次对选择的用户的登录账号/密码进行校验,并在后台生成校验结果,所述校验结果包括登陆成功和登陆失败,如校验结果是登陆失败,还在后台生成错误信息,并列出相关的错误信息日志地址;
点击查询获取校验结果,如校验结果是登陆失败,则根据所述错误信息日志地址获取错误信息日志,分析错误并进行使得错误得到解决。
8.根据权利要求5所述的一种可配置化的数据抓取装置,其特征在于:在URL参数配置页面配置值为变量的请求参数,包括参数名称、参数类型、参数值和参数说明。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910446581.4A CN110188259A (zh) | 2019-05-27 | 2019-05-27 | 一种可配置化的数据抓取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910446581.4A CN110188259A (zh) | 2019-05-27 | 2019-05-27 | 一种可配置化的数据抓取方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110188259A true CN110188259A (zh) | 2019-08-30 |
Family
ID=67718019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910446581.4A Pending CN110188259A (zh) | 2019-05-27 | 2019-05-27 | 一种可配置化的数据抓取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188259A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021088350A1 (zh) * | 2019-11-07 | 2021-05-14 | 南京莱斯网信技术研究院有限公司 | 一种基于脚本的web服务分页数据采集系统 |
CN113392301A (zh) * | 2021-06-08 | 2021-09-14 | 北京精准沟通传媒科技股份有限公司 | 爬取数据的方法、装置、介质及电子设备 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763294A (zh) * | 2008-11-26 | 2010-06-30 | 上海网环信息科技有限公司 | 根据时间段查看和备份系统操作日志的方法 |
CN102654887A (zh) * | 2012-05-08 | 2012-09-05 | 上海互联网软件有限公司 | 一种数据抓取系统 |
US20130091114A1 (en) * | 2011-10-11 | 2013-04-11 | International Business Machines Corporation | Automatic crawling of encoded dynamic urls |
CN104166729A (zh) * | 2014-08-28 | 2014-11-26 | 四川长虹电器股份有限公司 | 定时多任务网页数据抓取系统及方法 |
CN104462547A (zh) * | 2014-12-25 | 2015-03-25 | 深圳联友科技有限公司 | 一种可配置的网页数据采集的方法及系统 |
WO2015195846A1 (en) * | 2014-06-19 | 2015-12-23 | Quixey, Inc. | Techniques for focused crawling |
CN105956175A (zh) * | 2016-05-24 | 2016-09-21 | 考拉征信服务有限公司 | 网页内容爬取的方法和装置 |
CN106484895A (zh) * | 2016-10-21 | 2017-03-08 | 天津市普迅电力信息技术有限公司 | 基于多重分析的互联网信息精准爬取方法 |
CN106897357A (zh) * | 2017-01-04 | 2017-06-27 | 北京京拍档科技股份有限公司 | 一种用于带验证分布式智能爬取网络信息的方法 |
CN107025296A (zh) * | 2017-04-17 | 2017-08-08 | 山东辰华科技信息有限公司 | 基于科技服务信息智能抓取系统数据收集方法 |
CN108304498A (zh) * | 2018-01-12 | 2018-07-20 | 深圳壹账通智能科技有限公司 | 网页数据采集方法、装置、计算机设备和存储介质 |
US10055389B1 (en) * | 2015-06-12 | 2018-08-21 | Go Daddy Operationg Company, LLC | Ordering documents within a crawled website |
CN108536699A (zh) * | 2017-03-02 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 网页内容的抓取方法、装置、设备及存储介质 |
-
2019
- 2019-05-27 CN CN201910446581.4A patent/CN110188259A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763294A (zh) * | 2008-11-26 | 2010-06-30 | 上海网环信息科技有限公司 | 根据时间段查看和备份系统操作日志的方法 |
US20130091114A1 (en) * | 2011-10-11 | 2013-04-11 | International Business Machines Corporation | Automatic crawling of encoded dynamic urls |
CN102654887A (zh) * | 2012-05-08 | 2012-09-05 | 上海互联网软件有限公司 | 一种数据抓取系统 |
WO2015195846A1 (en) * | 2014-06-19 | 2015-12-23 | Quixey, Inc. | Techniques for focused crawling |
CN104166729A (zh) * | 2014-08-28 | 2014-11-26 | 四川长虹电器股份有限公司 | 定时多任务网页数据抓取系统及方法 |
CN104462547A (zh) * | 2014-12-25 | 2015-03-25 | 深圳联友科技有限公司 | 一种可配置的网页数据采集的方法及系统 |
US10055389B1 (en) * | 2015-06-12 | 2018-08-21 | Go Daddy Operationg Company, LLC | Ordering documents within a crawled website |
CN105956175A (zh) * | 2016-05-24 | 2016-09-21 | 考拉征信服务有限公司 | 网页内容爬取的方法和装置 |
CN106484895A (zh) * | 2016-10-21 | 2017-03-08 | 天津市普迅电力信息技术有限公司 | 基于多重分析的互联网信息精准爬取方法 |
CN106897357A (zh) * | 2017-01-04 | 2017-06-27 | 北京京拍档科技股份有限公司 | 一种用于带验证分布式智能爬取网络信息的方法 |
CN108536699A (zh) * | 2017-03-02 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 网页内容的抓取方法、装置、设备及存储介质 |
CN107025296A (zh) * | 2017-04-17 | 2017-08-08 | 山东辰华科技信息有限公司 | 基于科技服务信息智能抓取系统数据收集方法 |
CN108304498A (zh) * | 2018-01-12 | 2018-07-20 | 深圳壹账通智能科技有限公司 | 网页数据采集方法、装置、计算机设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
MENGMENG LU: "The Design and Implementation of Configurable News Collection System Based On", 《2017 3RD IEEE INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS》 * |
丁俊: "大数据时代下的动态可配置数据采集系统的研究与设计", 《计算机应用与软件》 * |
客服: "网站抓取精灵火车采集器如何定时自动运行", 《火车采集器官网》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021088350A1 (zh) * | 2019-11-07 | 2021-05-14 | 南京莱斯网信技术研究院有限公司 | 一种基于脚本的web服务分页数据采集系统 |
CN113392301A (zh) * | 2021-06-08 | 2021-09-14 | 北京精准沟通传媒科技股份有限公司 | 爬取数据的方法、装置、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10762280B2 (en) | Systems, devices, and methods for facilitating website remediation and promoting assistive technologies | |
US10896286B2 (en) | Modular systems and methods for selectively enabling cloud-based assistive technologies | |
CN102426549B (zh) | 一种Web的表单校验方法及其框架系统 | |
US9081463B2 (en) | Systems and methods for run-time editing of a web page | |
US10867120B1 (en) | Modular systems and methods for selectively enabling cloud-based assistive technologies | |
EP3676730A1 (en) | Systems and methods for providing automatic document filling functionality | |
CN104598232B (zh) | 一种Web应用跨设备捕捉‑回放方法 | |
Hoffman et al. | Grammar‐based test generation with YouGen | |
CN102707958A (zh) | 一种基于开放平台的接口生成校验方法及设备 | |
CN110188259A (zh) | 一种可配置化的数据抓取方法和装置 | |
Rubano et al. | Making accessibility accessible: strategy and tools | |
George | Build a Website With Django 3: A complete introduction to Django 3 | |
Ward | Instant PHP web scraping | |
Masud et al. | Automated user story driven approach for Web-based functional testing | |
CN110046311A (zh) | 一种程序设计实践课程教学管理平台 | |
Forte | Building a Modern Web Application Using an MVC Framework | |
Nguyen | Practical training logging system | |
Powers | Adding Ajax: Making Existing Sites More Interactive | |
Carnell et al. | Professional Struts Applications: Building Web Sites with Struts ObjectRelational Bridge, Lucene, and Velocity | |
Shevertalov et al. | On the maintenance of UI-integrated mashup applications | |
Yeung | Hands-On Server-Side Web Development with Swift: Build dynamic web apps by leveraging two popular Swift web frameworks: Vapor 3.0 and Kitura 2.5 | |
Chopra et al. | Colabs-Solve: resolving problems | |
Zhang | GradLifecycle: A Web Application to Manage Doctoral Students’ and Postdoctoral Scholars’ Annual Reviews and Individual Development Plans | |
Tran | Expence Tracker Application Using MERN Stack | |
Dutta et al. | A Systematic Approach to Web-Application Development |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190830 |
|
RJ01 | Rejection of invention patent application after publication |