CN110188259A - 一种可配置化的数据抓取方法和装置 - Google Patents

一种可配置化的数据抓取方法和装置 Download PDF

Info

Publication number
CN110188259A
CN110188259A CN201910446581.4A CN201910446581A CN110188259A CN 110188259 A CN110188259 A CN 110188259A CN 201910446581 A CN201910446581 A CN 201910446581A CN 110188259 A CN110188259 A CN 110188259A
Authority
CN
China
Prior art keywords
identifying code
url
targeted website
user
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910446581.4A
Other languages
English (en)
Inventor
邱涛
丘水文
陈成乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Shang Ji Network Technology Co Ltd
Original Assignee
Xiamen Shang Ji Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Shang Ji Network Technology Co Ltd filed Critical Xiamen Shang Ji Network Technology Co Ltd
Priority to CN201910446581.4A priority Critical patent/CN110188259A/zh
Publication of CN110188259A publication Critical patent/CN110188259A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种可配置化的数据抓取方法,包括以下步骤:确定需要抓取的目标网站,并在站点配置页面配置所述目标网站的基本信息,包括站点类型、站点名称、目标编号、页面编码格式;在用户配置页面配置可以登陆所述目标网站的用户的基本信息,包括用户类型、登录账号/密码、用户编码、用户名称;在抓取URL配置页面配置爬取登陆和抓取数据的URL基本信息,包括URL名称、请求时的URL地址、上级URL、URL类型、请求方式、URL后缀类型;在调度管理页面配置抓取服务发起的时间;生成一抓取作业,根据上述各个配置好的信息,从所述目标网站上抓取数据。

Description

一种可配置化的数据抓取方法和装置
技术领域
本发明涉及一种可配置化的数据抓取方法和装置,属于数据采集技术领域。
背景技术
目前可实现数据抓取的方法很多,有开源的代码,也有商用的直接提供服务的工具,但是这些基本都是针对不同的目标网站上,根据网站特点硬编码实现的,这样的实现具有一定的局限性,一旦所要抓取的范围变大,或者目标网站发生变更,唯一的解决问题的方法就是修改前面实现的编码。这样就造成了一定的资源浪费,并且影响实现周期,灵活度不够,也受限于实现的人员技能。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种可配置化的数据抓取方法,可以有效的解决多网站的抓取,甚至是面对网站变更的情况,也可以通过修改配置而完成配套变更,缩短工期,并且普通的实施人员也能完成。
本发明的技术方案如下:
技术方案一
一种可配置化的数据抓取方法,包括以下步骤:
确定需要抓取的目标网站,并在站点配置页面配置所述目标网站的基本信息,包括站点类型、站点名称、目标编号、页面编码格式;
在用户配置页面配置可以登陆所述目标网站的用户的基本信息,包括用户类型、登录账号/密码、用户编码、用户名称;
在抓取URL配置页面配置爬取登陆和抓取数据的URL基本信息,包括URL名称、请求时的URL地址、上级URL、URL类型、请求方式、URL后缀类型;
在调度管理页面配置抓取服务发起的时间;
生成一抓取作业,从所述目标网站上抓取数据,具体步骤如下:
根据所述抓取服务发起的时间,开始执行作业;
根据所述目标网站的基本信息,打开所述目标网站;
根据所述目标网站的用户的基本信息,输入登陆账号/密码,登陆所述目标网站;
根据所述URL的基本信息,打开抓取数据的URL,在所述目标网站上执行固定操作并抓取网页内容。
进一步的,判断所述目标网站是否有验证码登陆步骤,如有验证码登陆步骤,则在验证码输入配置页面配置验证码输入的基本信息,包括验证码图片类型、验证码图片语言、验证码图片字数和验证码大小写;如无验证码登陆步骤,则跳过验证码输入配置;
如目标网站有验证码登陆步骤,则抓取所述目标网站中的验证码图片,根据所述验证码输入的基本信息识别验证码图片进行登录目标网站,具体步骤如下:
利用网络爬虫从所述目标网站中爬取验证码图片;
利用OCR技术,根据所述验证码输入的基本信息,对所述验证码图片进行自动识别,得到所述验证码图片中的验证码信息;并将所述验证码信息填入验证码输入框内并提交,进行登陆;
如登陆失败,则转为人工识别验证码图片,并在验证码输入框中输入验证码,进行登陆。
进一步的,还包括一用户密码校验步骤,具体如下:
选择要校验的一个或以上用户,点击进行校验;
客户端依次对选择的用户的登录账号/密码进行校验,并在后台生成校验结果,所述校验结果包括登陆成功和登陆失败,如校验结果是登陆失败,还在后台生成错误信息,并列出相关的错误信息日志地址;
点击查询获取校验结果,如校验结果是登陆失败,则根据所述错误信息日志地址获取错误信息日志,分析错误并进行使得错误得到解决。
进一步的,在URL参数配置页面配置值为变量的请求参数,包括参数名称、参数类型、参数值和参数说明。
技术方案二
一种可配置化的数据抓取装置,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
确定需要抓取的目标网站,并在站点配置页面配置所述目标网站的基本信息,包括站点类型、站点名称、目标编号、页面编码格式;
在用户配置页面配置可以登陆所述目标网站的用户的基本信息,包括用户类型、登录账号/密码、用户编码、用户名称;
在抓取URL配置页面配置爬取登陆和抓取数据的URL基本信息,包括URL名称、请求时的URL地址、上级URL、URL类型、请求方式、URL后缀类型;
在调度管理页面配置抓取服务发起的时间;
生成一抓取作业,从所述目标网站上抓取数据,具体步骤如下:
根据所述抓取服务发起的时间,开始执行作业;
根据所述目标网站的基本信息,打开所述目标网站;
根据所述目标网站的用户的基本信息,输入登陆账号/密码,登陆所述目标网站;
根据所述URL的基本信息,打开抓取数据的URL,在所述目标网站上执行固定操作并抓取网页内容。
进一步的,判断所述目标网站是否有验证码登陆步骤,如有验证码登陆步骤,则在验证码输入配置页面配置验证码输入的基本信息,包括验证码图片类型、验证码图片语言、验证码图片字数和验证码大小写;如无验证码登陆步骤,则跳过验证码输入配置;
如目标网站有验证码登陆步骤,则抓取所述目标网站中的验证码图片,根据所述验证码输入的基本信息识别验证码图片进行登录目标网站,具体步骤如下:
利用网络爬虫从所述目标网站中爬取验证码图片;
利用OCR技术,根据所述验证码输入的基本信息,对所述验证码图片进行自动识别,得到所述验证码图片中的验证码信息;并将所述验证码信息填入验证码输入框内并提交,进行登陆;
如登陆失败,则转为人工识别验证码图片,并在验证码输入框中输入验证码,进行登陆。
进一步的,还包括一用户密码校验步骤,具体如下:
选择要校验的一个或以上用户,点击进行校验;
客户端依次对选择的用户的登录账号/密码进行校验,并在后台生成校验结果,所述校验结果包括登陆成功和登陆失败,如校验结果是登陆失败,还在后台生成错误信息,并列出相关的错误信息日志地址;
点击查询获取校验结果,如校验结果是登陆失败,则根据所述错误信息日志地址获取错误信息日志,分析错误并进行使得错误得到解决。
进一步的,在URL参数配置页面配置值为变量的请求参数,包括参数名称、参数类型、参数值和参数说明。
本发明具有如下有益效果:
1、本发明一种可配置化的数据抓取方法,通过将数据抓取过程的各个关键环节进行解构,使得操作人员不需要专业的爬虫编码技能,就可以完成一个网站的数据抓取工作;无需投入高端人员,对数据抓取成本可控。
附图说明
图1为本发明实施例的流程图;
图2为站点配置的示例图;
图3为实施例中网站源代码的示例图;
图4为用户配置的示例图;
图5为抓取URL配置的示例图;
图6为分页表达式配置的示例图;
图7为调度管理配置的示例图;
图8为验证码输入的示例图;
图9为用户账号密码校验的示例图;
图10为URL参数配置的示例图;
图11为通过httpwatch获取网站信息的示例图。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
参见图1-11,一种可配置化的数据抓取方法,包括以下步骤:
确定需要抓取的目标网站,并在站点配置页面配置所述目标网站的基本信息,包括站点类型、站点名称、目标编号、页面编码格式;如图2所示,以永辉超市网站的配置为例,站点类型根据永辉超市网站的类型,选择零售商;站点名称填写永辉超市,可以自定义名称;目标编号可进行自定义,一般有需求方提供编号;页面编码格式是每个网站开发时定义好的,参见图3,打开永辉超市网站,右键查看页面的的源代码,从源代码中找到页面的编码格式,从图3中可以看出该页面的编码格式为UTF-8,一般站点的编码格式都是统一的,所以页面编码格式选择UTF-8。
在用户配置页面配置可以登陆所述目标网站的用户的基本信息,包括用户类型、登录账号/密码、用户编码、用户名称;参见图4,用户类型和站点类型相关,这里以永辉超市为例,属于零售商下的用户类型为供应商类型,所以这里选择供应商01;登录帐号,填写当前站点的登录帐号;用户密码,填写登陆帐号对应的登录密码;用户编码填写供应商的编码,一般由供应商提供;用户名称填写用户的名称,可以自定义填写;还包括选填项企业账户,主要为了兼容个别特殊站点设置的,如重庆商社新世纪百货;选填项区域,也是为了兼容个别特殊站点设置的,如大润发;零售商编号,填写当前站点零售商的编号;选填项内部供应商编号,也是为了兼容个别特殊站点设置的,如沃尔玛。
在抓取URL配置页面配置爬取登陆和抓取数据的URL基本信息,包括URL名称、请求时的URL地址、上级URL、URL类型、请求方式、URL后缀类型;参见图5,URL名称可自定义填写,可以自定义一个能说明URL功能的名称;请求时的URL地址可以通过httpwatch(参见图11)进行提取,再拷贝粘贴到输入框内;有些请求需要通过上下文的URL请求获得相关参数或是会话信息,因此URL配置时可以配置多层级关系,下级URL配置时需要指定当前URL的上级URL,不同的站点不一样,案例中没有上下层级关系的URL,所以无需配置。案例中的请求方式可以在httpwatch中进行查看,查看的方式和上述查看URL地址的方式相同,这里就不一一明示了,如果是post就配置post,如果是get则配置成get。是否分页,有些站点查询出来的数据是以列表形式展示,由于数据太多,无法在有限的页面中展示,一般都采用分页展示,所以爬虫在爬取这些数据的过程中需要按页面的分页连续的爬取,如果页面数据有分页,在这里需要配置成“是”,如果没有则配成“否”。分页参数,就是站点页面中控制分页数的变量,可以通过httpwatch获得,查看的方式和上述查看URL地址的方式相同,这里就不一一明示了。分页初始页数,根据具体页面URL参数的页面起始值进行配置。分页结束表达式,页面有配置分页,就一定要配置分页表达式,否则爬虫无法知道分页的上限而否无法停止爬取任务,分页表达式配置页面如图6所示,其中判断方式,是配置爬虫以什么算法计算获得页面的上限来停止爬取,最常用的是MD5;解析方式,是配置以何种组件进行html页面解析,常用的有JSOUP和JSONPATH;解析属性,一般配置成text;解析表达式,解析页面目标区域的标签,如table,div等;索引,配置目前区域标签在页面中的索引序号,从上到下从0开始计数。
如图7所示,在调度管理页面配置抓取服务发起的时间;填写日历模板的名称,可以自定义;对当前日历模板进行中文描述;配置抓取服务发起的具体时间,可以配置分钟、小时、天、月和星期,可以配置具体时刻发起抓取服务,也可以配置每分钟、每小时、每天、每月、每星期发起抓取服务。
生成一抓取作业,从所述目标网站上抓取数据,作业采用树形结构构建,作业在运行前,会读取与抓取数据过程所有相关的配置信息,树形节点包括执行时间节点、打开站点节点、用户登陆节点、抓取数据节点;具体步骤如下:
在执行时间节点,读取所述抓取服务发起的时间,开始执行作业;
在打开站点节点,读取所述目标网站的基本信息,打开所述目标网站;
在用户登陆节点,读取所述目标网站的用户的基本信息,输入登陆账号/密码,登陆所述目标网站;
在抓取数据节点,读取所述URL的基本信息,打开抓取数据的URL,在所述目标网站上执行固定操作并抓取网页内容。
本实施例通过以上步骤的配置,相当于将数据抓取过程的各个关键环节,通过页面配置化的方式做了解构,使得操作人员不需要专业的爬虫编码技能,就可以完成一个网站的数据抓取工作;无需投入高端人员,对数据抓取成本可控。
实施例二
进一步的,判断所述目标网站是否有验证码登陆步骤,如有验证码登陆步骤,则在验证码输入配置页面配置验证码输入的基本信息,参见图2,包括验证码图片类型、验证码图片语言、验证码图片字数和验证码大小写;验证码图片类型,可在永辉超市站点登录页面,右键验证码的图片查看属性就可以查看到图片的格式类型,这里选的是JPG格式,不同的网站验证码图片格式可能不相同;验证码图片语言,如果验证码是字母数子和符号组合的,选英文,如果有中文的则选中文;验证码图片字数,填写该站点验证码的字母个数;验证码大小写,在页面输入验证码是时查看验证码是否有大小写变化,以此来判定验证码的大小写;如无验证码登陆步骤,则跳过验证码输入配置。
参见图8,如目标网站有验证码登陆步骤,则抓取所述目标网站中的验证码图片,根据所述验证码输入的基本信息识别验证码图片进行登录目标网站,具体步骤如下:
利用网络爬虫从所述目标网站中爬取验证码图片。
利用OCR技术,根据所述验证码输入的基本信息,对所述验证码图片进行自动识别,得到所述验证码图片中的验证码信息;并将所述验证码信息填入验证码输入框内并提交,进行登陆。
如登陆失败,则转为人工识别验证码图片,并在验证码输入框中输入验证码,进行登陆。
进一步的,还包括一用户密码校验步骤,具体如下:
参见图9,选择要校验的一个或以上用户,点击“用户名密码校验”按钮进行校验。
客户端依次对选择的用户的登录账号/密码进行校验,并在后台生成校验结果,所述校验结果包括登陆成功和登陆失败,如校验结果是登陆失败,还在后台生成错误信息,并列出相关的错误信息日志地址。
点击查询获取校验结果,如校验结果是登陆失败,则根据所述错误信息日志地址获取错误信息日志,分析错误并进行使得错误得到解决。
进一步的,参见图10,在URL参数配置页面配置值为变量的请求参数,包括参数名称、参数类型、参数值和参数说明;有很多URL请求需要带上一些请求参数,但是有些参数的值不是固定的,比如日期,时间戳和帐号等,不能把这些参数的值配置成常量拼到URL中,因此需要进行URL参数配置;例如,有些站点是使用.NET开发,一些分页的参数值是依赖于上一页生成,第一页依赖于上一级爬取的页面,第二页依赖于第一页,第三页依赖于第二页,以此类推,常见的有VIEWSTATE参数。
本实施例不仅进一步实施例二的优点,进一步的,还提出了配置验证码输入,通过网站验证码图片的图片格式、验证码字体等基本信息以及OCR技术对验证码图片进行自动识别和提交,减少数据抓取的困难,扩大可抓取数据的网站的范围;并对URL参数进行配置,以免在URL请求时,因参数值的变化造成无法请求的问题。
实施例三
一种可配置化的数据抓取装置,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
确定需要抓取的目标网站,并在站点配置页面配置所述目标网站的基本信息,包括站点类型、站点名称、目标编号、页面编码格式;如图2所示,以永辉超市网站的配置为例,站点类型根据永辉超市网站的类型,选择零售商;站点名称填写永辉超市,可以自定义名称;目标编号可进行自定义,一般有需求方提供编号;页面编码格式是每个网站开发时定义好的,参见图3,打开永辉超市网站,右键查看页面的的源代码,从源代码中找到页面的编码格式,从图3中可以看出该页面的编码格式为UTF-8,一般站点的编码格式都是统一的,所以页面编码格式选择UTF-8。
在用户配置页面配置可以登陆所述目标网站的用户的基本信息,包括用户类型、登录账号/密码、用户编码、用户名称;参见图4,用户类型和站点类型相关,这里以永辉超市为例,属于零售商下的用户类型为供应商类型,所以这里选择供应商01;登录帐号,填写当前站点的登录帐号;用户密码,填写登陆帐号对应的登录密码;用户编码填写供应商的编码,一般由供应商提供;用户名称填写用户的名称,可以自定义填写;还包括选填项企业账户,主要为了兼容个别特殊站点设置的,如重庆商社新世纪百货;选填项区域,也是为了兼容个别特殊站点设置的,如大润发;零售商编号,填写当前站点零售商的编号;选填项内部供应商编号,也是为了兼容个别特殊站点设置的,如沃尔玛。
在抓取URL配置页面配置爬取登陆和抓取数据的URL基本信息,包括URL名称、请求时的URL地址、上级URL、URL类型、请求方式、URL后缀类型;参见图5,URL名称可自定义填写,可以自定义一个能说明URL功能的名称;请求时的URL地址可以通过httpwatch(参见图11)进行提取,再拷贝粘贴到输入框内;有些请求需要通过上下文的URL请求获得相关参数或是会话信息,因此URL配置时可以配置多层级关系,下级URL配置时需要指定当前URL的上级URL,不同的站点不一样,案例中没有上下层级关系的URL,所以无需配置。案例中的请求方式可以在httpwatch中进行查看,查看的方式和上述查看URL地址的方式相同,这里就不一一明示了,如果是post就配置post,如果是get则配置成get。是否分页,有些站点查询出来的数据是以列表形式展示,由于数据太多,无法在有限的页面中展示,一般都采用分页展示,所以爬虫在爬取这些数据的过程中需要按页面的分页连续的爬取,如果页面数据有分页,在这里需要配置成“是”,如果没有则配成“否”。分页参数,就是站点页面中控制分页数的变量,可以通过httpwatch获得,查看的方式和上述查看URL地址的方式相同,这里就不一一明示了。分页初始页数,根据具体页面URL参数的页面起始值进行配置。分页结束表达式,页面有配置分页,就一定要配置分页表达式,否则爬虫无法知道分页的上限而否无法停止爬取任务,分页表达式配置页面如图6所示,其中判断方式,是配置爬虫以什么算法计算获得页面的上限来停止爬取,最常用的是MD5;解析方式,是配置以何种组件进行html页面解析,常用的有JSOUP和JSONPATH;解析属性,一般配置成text;解析表达式,解析页面目标区域的标签,如table,div等;索引,配置目前区域标签在页面中的索引序号,从上到下从0开始计数。
如图7所示,在调度管理页面配置抓取服务发起的时间;填写日历模板的名称,可以自定义;对当前日历模板进行中文描述;配置抓取服务发起的具体时间,可以配置分钟、小时、天、月和星期,可以配置具体时刻发起抓取服务,也可以配置每分钟、每小时、每天、每月、每星期发起抓取服务。
生成一抓取作业,从所述目标网站上抓取数据,作业采用树形结构构建,作业在运行前,会读取与抓取数据过程所有相关的配置信息,树形节点包括执行时间节点、打开站点节点、用户登陆节点、抓取数据节点;具体步骤如下:
在执行时间节点,读取所述抓取服务发起的时间,开始执行作业;
在打开站点节点,读取所述目标网站的基本信息,打开所述目标网站;
在用户登陆节点,读取所述目标网站的用户的基本信息,输入登陆账号/密码,登陆所述目标网站;
在抓取数据节点,读取所述URL的基本信息,打开抓取数据的URL,在所述目标网站上执行固定操作并抓取网页内容。
本实施例通过以上步骤的配置,相当于将数据抓取过程的各个关键环节,通过页面配置化的方式做了解构,使得操作人员不需要专业的爬虫编码技能,就可以完成一个网站的数据抓取工作;无需投入高端人员,对数据抓取成本可控。
实施例四
进一步的,判断所述目标网站是否有验证码登陆步骤,如有验证码登陆步骤,则在验证码输入配置页面配置验证码输入的基本信息,参见图2,包括验证码图片类型、验证码图片语言、验证码图片字数和验证码大小写;验证码图片类型,可在永辉超市站点登录页面,右键验证码的图片查看属性就可以查看到图片的格式类型,这里选的是JPG格式,不同的网站验证码图片格式可能不相同;验证码图片语言,如果验证码是字母数子和符号组合的,选英文,如果有中文的则选中文;验证码图片字数,填写该站点验证码的字母个数;验证码大小写,在页面输入验证码是时查看验证码是否有大小写变化,以此来判定验证码的大小写;如无验证码登陆步骤,则跳过验证码输入配置。
参见图8,如目标网站有验证码登陆步骤,则抓取所述目标网站中的验证码图片,根据所述验证码输入的基本信息识别验证码图片进行登录目标网站,具体步骤如下:
利用网络爬虫从所述目标网站中爬取验证码图片。
利用OCR技术,根据所述验证码输入的基本信息,对所述验证码图片进行自动识别,得到所述验证码图片中的验证码信息;并将所述验证码信息填入验证码输入框内并提交,进行登陆。
如登陆失败,则转为人工识别验证码图片,并在验证码输入框中输入验证码,进行登陆。
进一步的,还包括一用户密码校验步骤,具体如下:
参见图9,选择要校验的一个或以上用户,点击“用户名密码校验”按钮进行校验。
客户端依次对选择的用户的登录账号/密码进行校验,并在后台生成校验结果,所述校验结果包括登陆成功和登陆失败,如校验结果是登陆失败,还在后台生成错误信息,并列出相关的错误信息日志地址。
点击查询获取校验结果,如校验结果是登陆失败,则根据所述错误信息日志地址获取错误信息日志,分析错误并进行使得错误得到解决。
进一步的,参见图10,在URL参数配置页面配置值为变量的请求参数,包括参数名称、参数类型、参数值和参数说明;有很多URL请求需要带上一些请求参数,但是有些参数的值不是固定的,比如日期,时间戳和帐号等,不能把这些参数的值配置成常量拼到URL中,因此需要进行URL参数配置;例如,有些站点是使用.NET开发,一些分页的参数值是依赖于上一页生成,第一页依赖于上一级爬取的页面,第二页依赖于第一页,第三页依赖于第二页,以此类推,常见的有VIEWSTATE参数。
本实施例不仅进一步实施例二的优点,进一步的,还提出了配置验证码输入,通过网站验证码图片的图片格式、验证码字体等基本信息以及OCR技术对验证码图片进行自动识别和提交,减少数据抓取的困难,扩大可抓取数据的网站的范围;并对URL参数进行配置,以免在URL请求时,因参数值的变化造成无法请求的问题。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种可配置化的数据抓取方法,其特征在于,包括以下步骤:
确定需要抓取的目标网站,并在站点配置页面配置所述目标网站的基本信息,包括站点类型、站点名称、目标编号、页面编码格式;
在用户配置页面配置可以登陆所述目标网站的用户的基本信息,包括用户类型、登录账号/密码、用户编码、用户名称;
在抓取URL配置页面配置爬取登陆和抓取数据的URL基本信息,包括URL名称、请求时的URL地址、上级URL、URL类型、请求方式、URL后缀类型;
在调度管理页面配置抓取服务发起的时间;
生成一抓取作业,从所述目标网站上抓取数据,具体步骤如下:
根据所述抓取服务发起的时间,开始执行作业;
根据所述目标网站的基本信息,打开所述目标网站;
根据所述目标网站的用户的基本信息,输入登陆账号/密码,登陆所述目标网站;
根据所述URL的基本信息,打开抓取数据的URL,在所述目标网站上执行固定操作并抓取网页内容。
2.根据权利要求1所述的一种可配置化的数据抓取方法,其特征在于:
判断所述目标网站是否有验证码登陆步骤,如有验证码登陆步骤,则在验证码输入配置页面配置验证码输入的基本信息,包括验证码图片类型、验证码图片语言、验证码图片字数和验证码大小写;如无验证码登陆步骤,则跳过验证码输入配置;
如目标网站有验证码登陆步骤,则抓取所述目标网站中的验证码图片,根据所述验证码输入的基本信息识别验证码图片进行登录目标网站,具体步骤如下:
利用网络爬虫从所述目标网站中爬取验证码图片;
利用OCR技术,根据所述验证码输入的基本信息,对所述验证码图片进行自动识别,得到所述验证码图片中的验证码信息;并将所述验证码信息填入验证码输入框内并提交,进行登陆;
如登陆失败,则转为人工识别验证码图片,并在验证码输入框中输入验证码,进行登陆。
3.根据权利要求1所述的一种可配置化的数据抓取方法,其特征在于,还包括一用户密码校验步骤,具体如下:
选择要校验的一个或以上用户,点击进行校验;
客户端依次对选择的用户的登录账号/密码进行校验,并在后台生成校验结果,所述校验结果包括登陆成功和登陆失败,如校验结果是登陆失败,还在后台生成错误信息,并列出相关的错误信息日志地址;
点击查询获取校验结果,如校验结果是登陆失败,则根据所述错误信息日志地址获取错误信息日志,分析错误并进行使得错误得到解决。
4.根据权利要求1所述的一种可配置化的数据抓取方法,其特征在于:在URL参数配置页面配置值为变量的请求参数,包括参数名称、参数类型、参数值和参数说明。
5.一种可配置化的数据抓取装置,其特征在于,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
确定需要抓取的目标网站,并在站点配置页面配置所述目标网站的基本信息,包括站点类型、站点名称、目标编号、页面编码格式;
在用户配置页面配置可以登陆所述目标网站的用户的基本信息,包括用户类型、登录账号/密码、用户编码、用户名称;
在抓取URL配置页面配置爬取登陆和抓取数据的URL基本信息,包括URL名称、请求时的URL地址、上级URL、URL类型、请求方式、URL后缀类型;
在调度管理页面配置抓取服务发起的时间;
生成一抓取作业,从所述目标网站上抓取数据,具体步骤如下:
根据所述抓取服务发起的时间,开始执行作业;
根据所述目标网站的基本信息,打开所述目标网站;
根据所述目标网站的用户的基本信息,输入登陆账号/密码,登陆所述目标网站;
根据所述URL的基本信息,打开抓取数据的URL,在所述目标网站上执行固定操作并抓取网页内容。
6.根据权利要求5所述的一种可配置化的数据抓取装置,其特征在于:
判断所述目标网站是否有验证码登陆步骤,如有验证码登陆步骤,则在验证码输入配置页面配置验证码输入的基本信息,包括验证码图片类型、验证码图片语言、验证码图片字数和验证码大小写;如无验证码登陆步骤,则跳过验证码输入配置;
如目标网站有验证码登陆步骤,则抓取所述目标网站中的验证码图片,根据所述验证码输入的基本信息识别验证码图片进行登录目标网站,具体步骤如下:
利用网络爬虫从所述目标网站中爬取验证码图片;
利用OCR技术,根据所述验证码输入的基本信息,对所述验证码图片进行自动识别,得到所述验证码图片中的验证码信息;并将所述验证码信息填入验证码输入框内并提交,进行登陆;
如登陆失败,则转为人工识别验证码图片,并在验证码输入框中输入验证码,进行登陆。
7.根据权利要求5所述的一种可配置化的数据抓取装置,其特征在于,还包括一用户密码校验步骤,具体如下:
选择要校验的一个或以上用户,点击进行校验;
客户端依次对选择的用户的登录账号/密码进行校验,并在后台生成校验结果,所述校验结果包括登陆成功和登陆失败,如校验结果是登陆失败,还在后台生成错误信息,并列出相关的错误信息日志地址;
点击查询获取校验结果,如校验结果是登陆失败,则根据所述错误信息日志地址获取错误信息日志,分析错误并进行使得错误得到解决。
8.根据权利要求5所述的一种可配置化的数据抓取装置,其特征在于:在URL参数配置页面配置值为变量的请求参数,包括参数名称、参数类型、参数值和参数说明。
CN201910446581.4A 2019-05-27 2019-05-27 一种可配置化的数据抓取方法和装置 Pending CN110188259A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910446581.4A CN110188259A (zh) 2019-05-27 2019-05-27 一种可配置化的数据抓取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910446581.4A CN110188259A (zh) 2019-05-27 2019-05-27 一种可配置化的数据抓取方法和装置

Publications (1)

Publication Number Publication Date
CN110188259A true CN110188259A (zh) 2019-08-30

Family

ID=67718019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910446581.4A Pending CN110188259A (zh) 2019-05-27 2019-05-27 一种可配置化的数据抓取方法和装置

Country Status (1)

Country Link
CN (1) CN110188259A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021088350A1 (zh) * 2019-11-07 2021-05-14 南京莱斯网信技术研究院有限公司 一种基于脚本的web服务分页数据采集系统
CN113392301A (zh) * 2021-06-08 2021-09-14 北京精准沟通传媒科技股份有限公司 爬取数据的方法、装置、介质及电子设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763294A (zh) * 2008-11-26 2010-06-30 上海网环信息科技有限公司 根据时间段查看和备份系统操作日志的方法
CN102654887A (zh) * 2012-05-08 2012-09-05 上海互联网软件有限公司 一种数据抓取系统
US20130091114A1 (en) * 2011-10-11 2013-04-11 International Business Machines Corporation Automatic crawling of encoded dynamic urls
CN104166729A (zh) * 2014-08-28 2014-11-26 四川长虹电器股份有限公司 定时多任务网页数据抓取系统及方法
CN104462547A (zh) * 2014-12-25 2015-03-25 深圳联友科技有限公司 一种可配置的网页数据采集的方法及系统
WO2015195846A1 (en) * 2014-06-19 2015-12-23 Quixey, Inc. Techniques for focused crawling
CN105956175A (zh) * 2016-05-24 2016-09-21 考拉征信服务有限公司 网页内容爬取的方法和装置
CN106484895A (zh) * 2016-10-21 2017-03-08 天津市普迅电力信息技术有限公司 基于多重分析的互联网信息精准爬取方法
CN106897357A (zh) * 2017-01-04 2017-06-27 北京京拍档科技股份有限公司 一种用于带验证分布式智能爬取网络信息的方法
CN107025296A (zh) * 2017-04-17 2017-08-08 山东辰华科技信息有限公司 基于科技服务信息智能抓取系统数据收集方法
CN108304498A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 网页数据采集方法、装置、计算机设备和存储介质
US10055389B1 (en) * 2015-06-12 2018-08-21 Go Daddy Operationg Company, LLC Ordering documents within a crawled website
CN108536699A (zh) * 2017-03-02 2018-09-14 百度在线网络技术(北京)有限公司 网页内容的抓取方法、装置、设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763294A (zh) * 2008-11-26 2010-06-30 上海网环信息科技有限公司 根据时间段查看和备份系统操作日志的方法
US20130091114A1 (en) * 2011-10-11 2013-04-11 International Business Machines Corporation Automatic crawling of encoded dynamic urls
CN102654887A (zh) * 2012-05-08 2012-09-05 上海互联网软件有限公司 一种数据抓取系统
WO2015195846A1 (en) * 2014-06-19 2015-12-23 Quixey, Inc. Techniques for focused crawling
CN104166729A (zh) * 2014-08-28 2014-11-26 四川长虹电器股份有限公司 定时多任务网页数据抓取系统及方法
CN104462547A (zh) * 2014-12-25 2015-03-25 深圳联友科技有限公司 一种可配置的网页数据采集的方法及系统
US10055389B1 (en) * 2015-06-12 2018-08-21 Go Daddy Operationg Company, LLC Ordering documents within a crawled website
CN105956175A (zh) * 2016-05-24 2016-09-21 考拉征信服务有限公司 网页内容爬取的方法和装置
CN106484895A (zh) * 2016-10-21 2017-03-08 天津市普迅电力信息技术有限公司 基于多重分析的互联网信息精准爬取方法
CN106897357A (zh) * 2017-01-04 2017-06-27 北京京拍档科技股份有限公司 一种用于带验证分布式智能爬取网络信息的方法
CN108536699A (zh) * 2017-03-02 2018-09-14 百度在线网络技术(北京)有限公司 网页内容的抓取方法、装置、设备及存储介质
CN107025296A (zh) * 2017-04-17 2017-08-08 山东辰华科技信息有限公司 基于科技服务信息智能抓取系统数据收集方法
CN108304498A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 网页数据采集方法、装置、计算机设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MENGMENG LU: "The Design and Implementation of Configurable News Collection System Based On", 《2017 3RD IEEE INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS》 *
丁俊: "大数据时代下的动态可配置数据采集系统的研究与设计", 《计算机应用与软件》 *
客服: "网站抓取精灵火车采集器如何定时自动运行", 《火车采集器官网》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021088350A1 (zh) * 2019-11-07 2021-05-14 南京莱斯网信技术研究院有限公司 一种基于脚本的web服务分页数据采集系统
CN113392301A (zh) * 2021-06-08 2021-09-14 北京精准沟通传媒科技股份有限公司 爬取数据的方法、装置、介质及电子设备

Similar Documents

Publication Publication Date Title
US10762280B2 (en) Systems, devices, and methods for facilitating website remediation and promoting assistive technologies
US10896286B2 (en) Modular systems and methods for selectively enabling cloud-based assistive technologies
CN102426549B (zh) 一种Web的表单校验方法及其框架系统
US9081463B2 (en) Systems and methods for run-time editing of a web page
US10867120B1 (en) Modular systems and methods for selectively enabling cloud-based assistive technologies
EP3676730A1 (en) Systems and methods for providing automatic document filling functionality
CN104598232B (zh) 一种Web应用跨设备捕捉‑回放方法
Hoffman et al. Grammar‐based test generation with YouGen
CN102707958A (zh) 一种基于开放平台的接口生成校验方法及设备
CN110188259A (zh) 一种可配置化的数据抓取方法和装置
Rubano et al. Making accessibility accessible: strategy and tools
George Build a Website With Django 3: A complete introduction to Django 3
Ward Instant PHP web scraping
Masud et al. Automated user story driven approach for Web-based functional testing
CN110046311A (zh) 一种程序设计实践课程教学管理平台
Forte Building a Modern Web Application Using an MVC Framework
Nguyen Practical training logging system
Powers Adding Ajax: Making Existing Sites More Interactive
Carnell et al. Professional Struts Applications: Building Web Sites with Struts ObjectRelational Bridge, Lucene, and Velocity
Shevertalov et al. On the maintenance of UI-integrated mashup applications
Yeung Hands-On Server-Side Web Development with Swift: Build dynamic web apps by leveraging two popular Swift web frameworks: Vapor 3.0 and Kitura 2.5
Chopra et al. Colabs-Solve: resolving problems
Zhang GradLifecycle: A Web Application to Manage Doctoral Students’ and Postdoctoral Scholars’ Annual Reviews and Individual Development Plans
Tran Expence Tracker Application Using MERN Stack
Dutta et al. A Systematic Approach to Web-Application Development

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190830

RJ01 Rejection of invention patent application after publication