CN106055618B

CN106055618B - 一种基于网络爬虫与结构化存储的数据处理方法

Info

Publication number: CN106055618B
Application number: CN201610361299.2A
Authority: CN
Inventors: 郑文毅; 谢晓勇; 黄�俊
Original assignee: Up Wealth Management Co ltd
Current assignee: Up Wealth Management Co ltd
Priority date: 2016-05-26
Filing date: 2016-05-26
Publication date: 2020-02-07
Anticipated expiration: 2036-05-26
Also published as: CN106055618A

Abstract

本发明涉及一种基于网络爬虫与结构化存储的数据处理方法，属于计算机应用技术领域。本发明包括如下步骤：步骤一：确定数据源并配置网络爬虫系统；步骤二：根据数据源特征以及预设的元数据结构，对数据处理界面进行配置；步骤三：针对网页爬虫获取的数据与文件进行筛选排重；步骤四：依据索引把数据与文件的调取到不同的数据维护界面。本发明不需要大量人员去跟踪各个数据来源，也减少了数据来源比对，排重的工作量，有效的提高了获取数据的效率。在数据存储过程中，采用了结构化的处理方式，对数据进行了标准化，数据进入数据库前会经过正确的逻辑校验，保证了数据的准确性和完整性。网络爬虫模块。

Description

一种基于网络爬虫与结构化存储的数据处理方法

技术领域

本发明涉及一种基于网络爬虫与结构化存储的数据处理方法，属于计算机应用技术领域。

背景技术

互联网行业的高速发展，让我们身处于一个信息爆炸的时代，每天身边充斥着各种各样的有用或无用的信息，从数据应用的角度来看，对这些信息的运用，还不够全面，因为市场上总有些数据是不规范的，如果简单地对这种数据进行抓取引用，可能最后的结果并不能满足需求，或者说很多数据即使经过处理，也达不到应用的要求。

发明内容

为了克服上述的不足，本发明提供一种基于网络爬虫与结构化存储的数据处理方法。

本发明采取的技术方案如下：

一种基于网络爬虫与结构化存储的数据处理方法，包括如下步骤

步骤1：确定数据源并配置网络爬虫系统；

步骤2：根据数据源特征以及预设的元数据结构，对数据处理界面进行配置，包括结构配置，字段配置，基于数据库的校验规则配置；数据源特征及预设的元数据结构是根据抓取来源的网页格式或业务要求进行设计；设计的字段类型包含number数值类型，varchar2文本类型，clob大字段类型，不同字段类型进行字段的不同配置；数据在入库前会经过各个业务不同的规则的校验；校验方式为数据库查询的逻辑语句；

步骤3：针对网页爬虫获取的数据与文件进行筛选排重，对网站上页面的资讯根据URL地址进行筛选排重，非重复的数据进入数据库，由系统平台进行复制，复制过程中比较48小时内相似新闻取标题、段前的正文、段尾的正文进行比较或正文分词比较大于或等于80％的资讯进行记录并且修改采集状态显示在系统平台中供采集；

步骤4：对已经结构化的数据进行直接入库或者按规则处理后自动入库处理，所涉及到的规则除了数据库本身字段限制以外，还会根据具体数据所涉及到的业务逻辑进行处理；

步骤5：对非结构化的数据以及文件类的数据，进行再次加工或在工作台打开相关文件作为参照后进行加工，工作台会展示数据库中所有的历史数据，提供查询路径，普通采集人员有修改数据的权限；

步骤6：符合规则的数据进入数据库，不符合规则的数据在前台进行提示并返回人工进行处理，直到满足规则才允许进入数据库存储。

确定数据源并配置网络爬虫系统包括如下步骤：

①先对网站上抓取来源的格式进行分析确定元数据表，定制开发抓取脚本，抓取相关的数据格式；

②再通过抓取调度系统对已开发的脚本进行配置，设置抓取频率、及相关属性设置；

③抓取调度系统会对脚本定时执行，将抓取到的数据存入数据库，并记录相关执行日志。

本发明所具有的有益效果是：

1.不需要大量人员去跟踪各个数据来源，也减少了数据来源比对，排重的工作量，有效的提高了获取数据的效率。

2.在数据存储过程中，采用了结构化的处理方式，对数据进行了标准化，数据进入数据库前会经过正确的逻辑校验，保证了数据的准确性和完整性。

3.网络爬虫模块，是利用网络爬虫技术对数据来源网站进行内容或文件的抓取，通过配置各种不同的任务，针对不同的来源进行分类、排重。

4.数据处理模块，主要针对网络爬虫无法直接获取的数据进行深度加工处理，首先根据元数据结构，然后配置适合的采集界面，再接入网络爬虫获取的数据作为依据，对数据进行维护。

5.数据存储流程，根据所需要处理数据的特征，对进入数据库之前的数据进行逻辑上的判断，以避免人工在处理时产生的错误，提高数据质量。数据处理的流程包括数据采集、数据存储、数据挖掘分析、单数据应用及数据可视化应用。目前互联网这个载体所包含的数据越来越丰富，依靠传统的人工跟踪，人工排查核实已经不能满足日益丰富的数据应用需求，所以机器的自动数据与人工数据处理相结合，既能保证数据的广度，也能提高数据质量，提升数据的可用性。

说明书附图

图1示例性地示出了本发明的流程示意图。

具体实施方式

下面结合附图对本发明进行详细说明：

如图1所示，一种基于网络爬虫与结构化存储的数据处理方法，包括如下步骤：

步骤1：确定数据源并配置网络爬虫系统；

步骤2：根据数据源特征以及预设的元数据结构，对数据处理界面进行配置；

步骤4：依据索引把数据与文件的调取到不同的数据维护界面；

步骤5：对已经结构化的数据处理；

步骤6：对非结构化的数据以及文件类的数据处理；

步骤7：符合规则的数据进入数据库，不符合规则的数据在前台进行提示并返回人工进行处理，直到满足规则才允许进入数据库存储。

步骤1中的确定数据源并配置网络爬虫系统包括如下步骤：

步骤2中的数据处理界面进行配置包括：结构配置，字段配置，基于数据库的校验规则配置；数据源特征及预设的元数据结构是根据抓取来源的网页格式或业务要求进行设计；设计的字段类型包含number数值类型，varchar2文本类型，clob大字段类型，不同字段类型进行字段的不同配置；数据在入库前会经过各个业务不同的规则的校验；校验方式为数据库查询的逻辑语句。

步骤5提到的对已经结构化的数据处理方法为：对已经结构化的数据进行直接入库或者按规则处理后自动入库处理，所涉及到的规则除了数据库本身字段限制以外，还会根据具体数据所涉及到的业务逻辑进行处理。

步骤6提到的对非结构化的数据以及文件类的数据处理方法为：对非结构化的数据以及文件类的数据，进行再次加工或在工作台打开相关文件作为参照后进行加工，工作台会展示数据库中所有的历史数据，提供查询路径，普通采集人员有修改数据的权限。

本发明不需要大量人员去跟踪各个数据来源，也减少了数据来源比对，排重的工作量，有效的提高了获取数据的效率。在数据存储过程中，采用了结构化的处理方式，对数据进行了标准化，数据进入数据库前会经过正确的逻辑校验，保证了数据的准确性和完整性。网络爬虫模块利用网络爬虫技术对数据来源网站进行内容或文件的抓取，通过配置各种不同的任务，针对不同的来源进行分类、排重。数据处理模块主要针对网络爬虫无法直接获取的数据进行深度加工处理，首先根据元数据结构，然后配置适合的采集界面，再接入网络爬虫获取的数据作为依据，对数据进行维护。数据存储流程，根据所需要处理数据的特征，对进入数据库之前的数据进行逻辑上的判断，以避免人工在处理时产生的错误，提高数据质量。数据处理的流程包括数据采集、数据存储、数据挖掘分析、单数据应用及数据可视化应用。目前互联网这个载体所包含的数据越来越丰富，依靠传统的人工跟踪，人工排查核实已经不能满足日益丰富的数据应用需求，所以机器的自动数据与人工数据处理相结合，既能保证数据的广度，也能提高数据质量，提升数据的可用性。

对于本领域的普通技术人员而言，上述实施例只是对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种基于网络爬虫与结构化存储的数据处理方法，其特征在于：包括如下步骤：

步骤1：确定数据源并配置网络爬虫系统；

步骤2：根据数据源特征以及预设的元数据结构，对数据处理界面进行配置，数据处理界面进行配置包括结构配置，字段配置，基于数据库的校验规则配置，其中，数据在入库前会经过各个业务不同的规则的校验，校验方式为数据库查询的逻辑语句；

步骤5：对已经结构化的数据处理，其中，包括：对已经结构化的数据进行直接入库或者按规则处理后自动入库处理，所涉及到的规则除了数据库本身字段限制以外，还根据具体数据所涉及到的业务逻辑进行处理；

步骤6：对非结构化的数据以及文件类的数据处理；

2.根据权利要求1所述的基于网络爬虫与结构化存储的数据处理方法，其特征在于：所述步骤1中的确定数据源并配置网络爬虫系统包括如下步骤，

3.根据权利要求1所述的基于网络爬虫与结构化存储的数据处理方法，其特征在于：数据源特征及预设的元数据结构是根据抓取来源的网页格式或业务要求进行设计；设计的字段类型包含number数值类型，varchar2文本类型，clob大字段类型，不同字段类型进行字段的不同配置。

4.根据权利要求1所述的基于网络爬虫与结构化存储的数据处理方法，其特征在于：所述步骤6提到的对非结构化的数据以及文件类的数据处理方法为：对非结构化的数据以及文件类的数据，进行再次加工或在工作台打开相关文件作为参照后进行加工，工作台会展示数据库中所有的历史数据，提供查询路径，普通采集人员有修改数据的权限。