CN105204922A

CN105204922A - 一种数据采集平台客户端采集方法

Info

Publication number: CN105204922A
Application number: CN201410299927.XA
Authority: CN
Inventors: 范晓忻
Original assignee: Kim Union Bank (beijing) Information Technology Co Ltd
Current assignee: Beijing Zhongfa Zhitou Technology Co ltd
Priority date: 2014-06-30
Filing date: 2014-06-30
Publication date: 2015-12-30
Anticipated expiration: 2034-06-30
Also published as: CN105204922B

Abstract

本发明涉及企业级的B/S系统领域，具体的说是涉及一种数据采集平台客户端采集方法，本发明提供了一种数据采集平台客户端采集方法，该方法是客户端在采集过程中进行采集，主要是对各种不同系统的兼容，复杂页面的技术处理，以及高并发及高效的完成去重的工作，多系统采集同时运行以及最大化的利用客户端的资源条件，保护数据采集算法以及处理流程及模块化的处理方式。

Description

一种数据采集平台客户端采集方法

技术领域

本发明涉及企业级的B/S系统领域，具体的说是涉及一种数据采集平台客户端采集方法。

背景技术

现有技术至少存在以下三大缺陷：

1.抓取目标的描述或定义糊涂不清；

2.对网页或数据的分析与过滤不彻底；

3.对URL的搜索策略不完善。

抓取目标的描述或定义糊涂不清，现有聚集爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念。抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。对于动态网页，爬虫无法完成对所有带参数的URL的抓取；对于拒绝访问的页面，爬虫相关的程序软件无法获取访问的权限或访问的规则。

现有技术需要众多的端口支持、服务、以及接口等，FTP端口用于上传数据，数据因网络中断易丢失或阻塞。端口受限于服务端的控制，以及日志消息服务等需要按照队列方式传回服务端，不便于在客户端本地化进行操作，大大降低了采集的效率。

以下软件在如下功能方面不能满足企业需求：

1.目前市场上并没有一款针对企业B/S系统抓取业务数据的软件；

2.由于不同企业使用的B/S系统不同，已有软件不能很好的满足个性化需求；

3.已有软件无法监管客户对软件的使用情况，易造成公司潜在利益的损失；

4.提取数据后，已有软件缺乏对数据的保护，可能造成商业机密的泄露；

5.已有软件缺乏针对不同供应商的服务器硬件条件调整数据下载带宽的能力。

发明内容

针对上述技术中的不足，本发明提供了一种数据采集平台客户端采集方法，该方法是客户端在采集过程中进行采集，主要是对各种不同系统的兼容，复杂页面的技术处理，以及高并发及高效的完成去重的工作，多系统采集同时运行以及最大化的利用客户端的资源条件，保护数据采集算法以及处理流程及模块化的处理方式。

为解决上述技术问题，本发明通过以下方案来实现：一种数据采集平台客户端采集方法，该方法运用于HTTP/HTTPS、SSLVPN、FTP、TCP、SOAP、PIPE、MSMQ的协议中，包括：

将加密或不规则的数据进行解析，再经过包装形式将其打包成插件方式封装起来的WebBrowser模块；

通过扫描URL地址来批量模拟请求，模拟用户操作，模拟各种页面发生的事件、以此来解决请求技术来达到预期效果的URL模拟模块；

解决HTML普通页面类型的网页数据，对AJAX和浏览器插件模式的页面类型数据解析的插件模块；

通过多线程技术的配置与管理从而有效避免了数据之间发生互串的多线程处理模块；

能够灵活多样性进行配置需要进行采集的项和列，依据页面的结构变化从而作出相应的页面配置变化，通过巧妙而又符合应用逻辑的算法进行页面数据抽取，从而自动适应整个页面在采集过程的数据抽取模块。

进一步的，还包括能够区别与判定企业级应用系统的数据需要进行数据校验流程模块。

进一步的，还包括采用7z加密与解密的安全技术进行对传输包进行压缩加密，针对每次传输的文件使加密的密匙不尽相同的加密解密模块。

进一步的，还包括自动开启线程数来检测当前网络带宽的总流量，通过总流量的大小来分配给采集程序的流量比例值来适应当前网络带宽，从而用线程数量自动灵活地控制分配给所需要流量大小值的线程数检测模块。

进一步的，所述插件模块针对各家企业级的应用系统间的AJAX页面类型存在一个解决方案的内库包，不断完善和修改内库包及组件包，以此来筑固本发明的健壮性。

进一步的，所述多线程处理模块最大限度地合理利用线程数来控制整个采集过程，确保任何数据第一时间内都可被监控，被查询，能够很好的通过资源定位了解采集过程及子过程的采集情况，有效的避免了线程假死或者阻塞、因各种原因导致采集过程中断的后果形成日志，单独的线程可调用日志查看器以便运维人员第一时间了解采集的情况。

本发明的有益效果如下：

1.一般爬虫程序在数据保存时其逻辑关系比较混乱，数据与数据之间找不到丝毫的联系或相关联之处，本发明采用独创的GUID技术很好的解决了原始数据与下级数据之间的关系，逐级下移，形成树状结构的层级关系将其保存。

2.保存非表格型数据时，本发明直接保存数据并能够完好保持页面原有的意义与逻辑关系。

3.对于表格型数据，本发明利用GUID技术解决了列头与列明细数据之间的逻辑关系，列明细与详情页之间的关系，列明细与列明细之间的翻页关系，这些关系能够按照树状模式加以存储起来。

4.对于型的页面数据，也可以采用GUID技术对其解决。

5.在利用数据回溯技术时，即可还原页面数据之间的关系。

附图说明

图1为本发明客户端功能构架流程图；

图2为本发明客户端任务管理流程图；

图3为本发明客户端主机厂与供应商之间的关系图；

图4为本发明客户端主机厂与供应商之间的具体关系图。

图5为本发明供应商具体的对应关系图。

图6为本发明登录模式流程图。

图7为本发明登录方式流程图。

图8为本发明HTML类型页面数据采集流程图。

图9为本发明AJAX类型页面数据采集流程图。

图10为本发明数据上传流程图。

具体实施方式

以下结合附图对本发明作详细说明。

从用于不同的管理的企业级的B/S系统中抓取与核心企业或供应商之间的订单数据或业务数据，并存入公司服务器的数据库之中。本发明采集的对象应用到的技术和协议范围包括：HTTP/HTTPS，SSLVPN，FTP，TCP，SOAP，PIPE(命名管道)，MSMQ(消息队列)，Windows服务程序；在访问企业级的应用系统时，都会受到诸如局域网防火墙，内部或外部的SSLVPN网络，硬件设备UKey、加密狗之类的装置；在采集过程中同时有浏览器插件加密的技术问题，对于以上访问限制类的技术问题通过本发明的核心技术即可解决。

对于非标准的HTTP技术实现的被采集的应用系统，本发明采用插件支持的方式来解决此类技术问题。当传统HttpWebRequest方式的请求无法得到响应的数据时，本发明会采用WebBrowser的模拟方式将加密或不规则的数据进行处理的方式进行解析，再经过的包装形式将其打包成插件方式封装起来从而解决了这样的问题。

在采集过程中，由于原始请求，无法衍生出新的请求地址，即使有人工干预对请求URL进行分析或获取数据，这样的花费时间成本相当高昂，代价之高，为解决此类问题本发明可针对其接口进行重新配置，重新包装，通过不同种算法，多样化的计算方式来生成标准有规则的请求URL地址，将生成的URL地址存储在数据库中，本发明通过扫描URL地址来批量模拟请求，模拟用户操作，模拟各种页面发生的事件、以此来解决请求技术来达到预期的效果。

在采集的同时对于翻页的问题，还是比较常见的，以往各种翻页的布局比较传统，单一，并不能满足目前所有企业级管理应用的B/S系统的翻页需求。本发明能够解决目前所有的B/S系统存在的自动翻页问题，通过核心的算法针对不同种翻页类型本发明配置出不同种类的自动翻页解决方案，并且针对应用方案有比较严谨周密的逻辑算法来完成自动翻页请求的生成规则。

传统的网络爬虫抓取的页面内容大部分是HTML内的标签数据或者是标签内InnerText承载的数据，本发明解决不但可以解决HTML普通页面类型的网页数据，而且可以对AJAX和浏览器插件模式的页面类型的数据解析有成熟的解决方案，AJAX页面类型灵活多变，不同种企业级的应用系统之间存在不同种的差异，解决这类技术问题，本发明会有不同种解决的方案，本发明针对各家企业级的应用系统间的AJAX页面类型存在一个解决方案的内库包，本发明不断完善和修改内库包及组件包，以此来筑固本发明的健壮性。针对的AJAX页面类型，本发明解决的技术方案是为其量身定做一套插件方式来进行处理。

在采集整个过程中，本发明采集了多线程的方式高效地处理各种并发的技术问题，利用多线程解决了因任务太多，不同种类的系统，不同账号登录同一系统，通过多线程技术的配置与管理从而有效避免了数据之间发生互串的可能性，最大限度地合理利用线程数来控制整个采集过程，确保任何数据第一时间内都可被监控，被查询，能够很好的通过资源定位了解采集过程及子过程的采集情况，有效的避免了线程假死或者阻塞、因各种原因导致采集过程中断的后果形成日志，单独的线程可调用日志查看器以便运维人员第一时间了解采集的情况。

本发明能够解决各种页面数据抽取的问题，当页面数据抽取过程中，由于页面的结构增、删、改造成的字段变化，传统方式只能单一抽取数据，本发明能够灵活多样性进行配置需要进行采集的项和列，依据页面的结构变化从而作出相应的页面配置变化，通过巧妙而又符合应用逻辑的算法进行页面数据抽取，从而自动适应整个页面在采集过程的数据抽取过程，这些数据抽取算法是本发明解决此类技术问题的灵魂所在。

本发明有一套严格的检测环节来应对数据校验，在启动本应用程序时有一个重要的严格检查运行环境的流程，当在采集过程中也能同样再作环境检查的过程，这样最大限度地保护了本发明的健壮性。对于由于企业级应用系统的数据进行变化或更新后，按照常理，需要有严格的历史记录保留，本发明能够区别与判定哪些数据需要进行数据校验流程，从而符合本发明配置规则的原始数据或更新数据为之留用，以达到校验数据的功能，从而避免数据恶意篡改。

在采集过程完成之后的环节里，由于网络存在不稳定性，或因各式各样的问题存在，导致数据的安全性受到极大威胁从而被恶意篡改或盗取，本发明针对此类问题，有专门的技术方案来杜绝此类事件发生的可能性。本发明采用7z加密与解密的安全技术进行对传输包进行压缩加密，针对每次传输的文件使加密的密匙不尽相同，从而避免不法分子或恶意人员找到此安全技术的规律，在成功提取数据后，需要对所得数据进行加密打包以保证数据的安全性，本发明豪无规律的安全密匙技术能够很好的解决此类技术问题。

通常在网络比较紧张的时候，往往采集工作就会中断或者异常，本发明针对这样的技术问题开发了自动适应网络带宽的方案。当客户端网络带宽由于某种原因严重缺乏或被其它资源所占用时，本发明自动会开启线程数来检测当前网络带宽的总流量，通过总流量的大小来分配给采集程序的流量比例值来适应当前网络带宽，从而用线程数量自动灵活地控制分配给本发明所需要的流量大小值。

本发明需要安装在各PC机上面，安装过程相对于BS结构的程序稍微略显繁琐，需要良好的网络带宽以及必要时进行人工干预才能顺利工作。

本发明需要众多的端口支持、服务、以及接口等，FTP端口用于上传数据，数据因网络中断易丢失或阻塞。端口受限于服务端的控制，以及日志消息服务等需要按照队列方式传回服务端，不便于在客户端本地化进行操作，大大降低了采集的效率。

对于采集后的数据应用多样化，传统的采集数据一般用于检索之用，本发明将这些数据用来分析企业的真实运营情况，通过对数据分析从而对企业作出客观信用评级，数据也可以用来进行检索、归类、高效的算法计算、用于数据挖掘、用于报表分析等领域。

本发明将采集后的数据存储在关系型数据库中，将保持原始数据项和数据类型的精确存储，例如：金额一般为数字类型将保持原有数字类型格式存储，日期一般为时间DateTime类型，其保存格式也将是原有的时间类型格式存储，其它类型也是同样如此，最大限度地保有原来的类型，其目的和好处在于容易回溯和还原数据之间的关系。

在以往的数据采集过程中，需要投入大量的运维人员到客户端任务的配置过程中，大大增加了维护的成本和复杂度。

为了解决人为的远程管理工作，本产品发明提出了一种新的任务管理机制，将以前分散在客户端的任务，通过服务端程序进行集中管理，从而实现任务按需分配。改变了以往的任务管理方式，极大的简化了运维流程和复杂度，基本实现了管理的自动化，本产品发明也为其它管理平台提供辅助功能，实现平台管理统一化。

为了解决页面在采集时突发遇到的异常情况，一般会发生在检测页面变化或页面结构加载时不完整导致的异常，本发明针对这样的问题有专门的应对方案，首先预先存储采集页面结构的特征以及采集页面的数据类型和一系列的页面模板，在采集时将模板与之对应的页面发生关联，从而在两者之间形成逻辑关系，按照逻辑关系映射到数据结构，再将页面的真实数据采集下来进行存储，本发明目的就是为了解决以上几种类型的问题。

为进一步评估供应商的经营情况与可行信贷额度做准备。在抓取数据之前，需要根据不同供应商的计算机硬件条件及网络条件分配数据传输带宽，同时要针对每一个供应商客户分配专用Key验证码，以管理供应商使用本软件和访问数据库的权限。在数据抓取的过程中，主要需要解决不同企业级管理应用的B/S系统的数据存储结构的不同，数据子页面模糊检索，碎片页面数据提取以及没有规律的插件页面的处理，对提取过程中数据传输突然中断的问题，同时为了提高数据提取的效率，减少数据传输的时间，还需要在数据提取的过程中对重复数据进行筛选和去除。在成功提取数据后，需要对所得数据进行加密打包以保证数据的安全性。

如图1所示，图1为本发明客户端功能构架流程图，包括客户端软件安装、客户端启动自动检测、获取访问权限、客户端自动更新、客户端获取任务/分组、客户端登录、客户端数据采集、客户端数据打包，所述客户端自动检测包括本地检测、网络检测，所述客户端登录包括模拟登录、辅助登录，所述客户端数据采集包括页面请求、页面数据抽取、页面碎片/详情页页处理、点击动作控制、页面数据保存。

如图2所示，图2为客户端任务管理流程图，分别是开始-历史任务清理-获取任务列表-任务列表分组-结束。

如图3所示，图3为本发明客户端主机厂与供应商之间的关系图，1个客户端主机厂可以与多个供应商连接。

如图4所示，图4为本发明客户端主机厂与供应商之间的具体关系图，客户端主机厂与供应商之间的关系主要是供应链系统、售后采购系统、生产管理系统、财务结算系统，主机厂包含多个供应商负责供货。

如图5所示，对于一个特定的供应商来说，他给某特定的主机厂供货时，可能会涉及到多个系统，供应商与主机厂、系统相关功能之对应关系图。

如图6所示，客户端有2种登录模式，一种是WebRequest模式，另一种是WebBrowser模式。

如图7所示，为登录方式流程图，点击开始，系统会出三种登录方式，第一种是无前提的自动登录方式，第二种是需要硬件辅助设备支持的登录方式，手工输入验证码的登录方式。

如图8所示，图8为HTML类型页面数据采集流程图，点击开始，页面布局格式变化检测-页面数据提取-页面指令生成-本地数据库数据写入TXT-结束。

如图9所示，图9为AJAX类型页面数据采集流程图，点击开始-AJAX页面请求结果格式检测-处理及插件处理方式-AJAX数据采集-结束。

如图10所示，图10为数据上传流程图，采集数据后，点击开始，TXT文件压缩-TXT文件加密-TXT压缩文件上传-结束。

从数据获取途径及技术的原理上看，数据采集软件和网络爬虫非常类似，但它们有着本质的不同：

（1）采集目标不同：爬虫一般目标是整个页面的文字图片内容；采集软件需要获取的是页面中的表格性数据。

（2）数据获取途径不同：爬虫是通过起始页面中的URL获取更多的页面；采集软件是根据业务需要，预先设定需要获取的页面的URL。

（3）数据使用方法不同：爬虫获取页面内容后，一般用于搜索或内容拷贝；采集软件采集获取的数据将用于计算、统计分析。从功能要求上我们可以看出，数据采集软件可以替代爬虫进行工作，但是和爬虫相比，数据采集软件工作效率相对较差，无法处理海量数据等相关问题。但随着技术的不断提升，数据采集软件将会在处理大数据方面取得卓越成效。

（4）将各个采集系统的应用做成EXE插件形式。

（5）个性化的处理方式就比较独立，公共化的处理方式可以进行重用。

（6）客户端去重功能描述，当客户端前一天的任务采集工作结束时，开始下一天的任务采集工作时，此时系统会根据不同情况将已经采集的数据进行分类整理，按照一定的规则作出不同的判定，并找出其相似或相同的数据，将其数据进行更新、替换、删除、插入等一系列的数据操作。

1.首先将客户端的数据存储在客户端本地SQLite中去，然后通过数据库的复杂逻辑进行计算。

2.按照预先制定的采集规则进行覆盖、留旧、新增、删减等操作对数据库的指令集进行操作计算，在指令集上减少相同数据采集工作。

3.按照之前的计算结果再进行采集，将采集的结果存储为TXT，然后对比本地数据库数据与新采集的数据找出差异之处进行重新计算逻辑方可完成去重规则。

4.再将本次完成的工作再上传到服务端进行入库操作。

（7）在采集数据的过程中，经常出现多级页面或碎片页面的情形，已有软件不能很好适应（将碎片数据转化为标准格式），以下分几种情况来描述本发明此项功能的优点所在：

1.每种碎片的处理方式不尽相同，碎片页面的格式各式各样，五花八门，页面布局零乱，没有可遵循的规律，本发明针对这样的碎片页面将会找出大的规律，并从中发现小的规律，以此转化出符合采集的标准格式的碎片数据，再将碎片数据进行整理归类存档并写入数据库中。

2.本发明处理一般的页面处理方式都是按照处理含有详情页与明细页的方式进行处理。

3.对待特殊的碎片页面将会采取复杂的应对策略，尽量可以满足当前碎片页面的解析方式和抓取方式，最后将抓取的数据一步一步转化成标准格式，中间转化方式可能存在一步或多步的情况，最后形成统一的标准格式写入数据库中。

4.在原有数据回溯的基础上，页面碎片的存储方式也是将保存为关系型数据库中，其数据的逻辑对应关系也将可以进行回溯，本发明的数据回溯技术可以最大限度地将还原数据的本质，从而为采集的排错功能大大降低了时间成本和人工成本。

（8）本发明在解决数据回溯技术方面有独特的一面，以下描述其优点所在：

4.对于特殊型的页面数据，也可以采用GUID技术对其解决。

5.在利用数据回溯技术时，即可还原页面数据之间的关系。

以上所述仅为本发明的优选实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据采集平台客户端采集方法，该方法运用于HTTP/HTTPS、SSLVPN、FTP、TCP、SOAP、PIPE、MSMQ的协议中，其特征在于，包括：

2.根据权利要求1所述的一种数据采集平台客户端采集方法，其特征在于：还包括能够区别与判定企业级应用系统的数据需要进行数据校验流程模块。

3.根据权利要求1所述的一种数据采集平台客户端采集方法，其特征在于：还包括采用7z加密与解密的安全技术进行对传输包进行压缩加密，针对每次传输的文件使加密的密匙不尽相同的加密解密模块。

4.根据权利要求1所述的一种数据采集平台客户端采集方法，其特征在于：还包括自动开启线程数来检测当前网络带宽的总流量，通过总流量的大小来分配给采集程序的流量比例值来适应当前网络带宽，从而用线程数量自动灵活地控制分配给所需要流量大小值的线程数检测模块。

5.根据权利要求1所述的一种数据采集平台客户端采集方法，其特征在于：所述插件模块针对各家企业级的应用系统间的AJAX页面类型存在一个解决方案的内库包，不断完善和修改内库包及组件包，以此来筑固本发明的健壮性。

6.根据权利要求1所述的一种数据采集平台客户端采集方法，其特征在于：所述多线程处理模块最大限度地合理利用线程数来控制整个采集过程，确保任何数据第一时间内都可被监控，被查询，能够很好的通过资源定位了解采集过程及子过程的采集情况，有效的避免了线程假死或者阻塞、因各种原因导致采集过程中断的后果形成日志，单独的线程可调用日志查看器以便运维人员第一时间了解采集的情况。