CN106055618B - 一种基于网络爬虫与结构化存储的数据处理方法 - Google Patents

一种基于网络爬虫与结构化存储的数据处理方法 Download PDF

Info

Publication number
CN106055618B
CN106055618B CN201610361299.2A CN201610361299A CN106055618B CN 106055618 B CN106055618 B CN 106055618B CN 201610361299 A CN201610361299 A CN 201610361299A CN 106055618 B CN106055618 B CN 106055618B
Authority
CN
China
Prior art keywords
data
web crawler
database
configuring
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610361299.2A
Other languages
English (en)
Other versions
CN106055618A (zh
Inventor
郑文毅
谢晓勇
黄�俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Up Wealth Management Co ltd
Original Assignee
Up Wealth Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Up Wealth Management Co ltd filed Critical Up Wealth Management Co ltd
Priority to CN201610361299.2A priority Critical patent/CN106055618B/zh
Publication of CN106055618A publication Critical patent/CN106055618A/zh
Application granted granted Critical
Publication of CN106055618B publication Critical patent/CN106055618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明涉及一种基于网络爬虫与结构化存储的数据处理方法,属于计算机应用技术领域。本发明包括如下步骤:步骤一:确定数据源并配置网络爬虫系统;步骤二:根据数据源特征以及预设的元数据结构,对数据处理界面进行配置;步骤三:针对网页爬虫获取的数据与文件进行筛选排重;步骤四:依据索引把数据与文件的调取到不同的数据维护界面。本发明不需要大量人员去跟踪各个数据来源,也减少了数据来源比对,排重的工作量,有效的提高了获取数据的效率。在数据存储过程中,采用了结构化的处理方式,对数据进行了标准化,数据进入数据库前会经过正确的逻辑校验,保证了数据的准确性和完整性。网络爬虫模块。

Description

一种基于网络爬虫与结构化存储的数据处理方法
技术领域
本发明涉及一种基于网络爬虫与结构化存储的数据处理方法,属于计算机应用技术领域。
背景技术
互联网行业的高速发展,让我们身处于一个信息爆炸的时代,每天身边充斥着各种各样的有用或无用的信息,从数据应用的角度来看,对这些信息的运用,还不够全面,因为市场上总有些数据是不规范的,如果简单地对这种数据进行抓取引用,可能最后的结果并不能满足需求,或者说很多数据即使经过处理,也达不到应用的要求。
发明内容
为了克服上述的不足,本发明提供一种基于网络爬虫与结构化存储的数据处理方法。
本发明采取的技术方案如下:
一种基于网络爬虫与结构化存储的数据处理方法,包括如下步骤
步骤1:确定数据源并配置网络爬虫系统;
步骤2:根据数据源特征以及预设的元数据结构,对数据处理界面进行配置,包括结构配置,字段配置,基于数据库的校验规则配置;数据源特征及预设的元数据结构是根据抓取来源的网页格式或业务要求进行设计;设计的字段类型包含number数值类型,varchar2文本类型,clob大字段类型,不同字段类型进行字段的不同配置;数据在入库前会经过各个业务不同的规则的校验;校验方式为数据库查询的逻辑语句;
步骤3:针对网页爬虫获取的数据与文件进行筛选排重,对网站上页面的资讯根据URL地址进行筛选排重,非重复的数据进入数据库,由系统平台进行复制,复制过程中比较48小时内相似新闻取标题、段前的正文、段尾的正文进行比较或正文分词比较大于或等于80%的资讯进行记录并且修改采集状态显示在系统平台中供采集;
步骤4:对已经结构化的数据进行直接入库或者按规则处理后自动入库处理,所涉及到的规则除了数据库本身字段限制以外,还会根据具体数据所涉及到的业务逻辑进行处理;
步骤5:对非结构化的数据以及文件类的数据,进行再次加工或在工作台打开相关文件作为参照后进行加工,工作台会展示数据库中所有的历史数据,提供查询路径,普通采集人员有修改数据的权限;
步骤6:符合规则的数据进入数据库,不符合规则的数据在前台进行提示并返回人工进行处理,直到满足规则才允许进入数据库存储。
确定数据源并配置网络爬虫系统包括如下步骤:
①先对网站上抓取来源的格式进行分析确定元数据表,定制开发抓取脚本,抓取相关的数据格式;
②再通过抓取调度系统对已开发的脚本进行配置,设置抓取频率、及相关属性设置;
③抓取调度系统会对脚本定时执行,将抓取到的数据存入数据库,并记录相关执行日志。
本发明所具有的有益效果是:
1.不需要大量人员去跟踪各个数据来源,也减少了数据来源比对,排重的工作量,有效的提高了获取数据的效率。
2.在数据存储过程中,采用了结构化的处理方式,对数据进行了标准化,数据进入数据库前会经过正确的逻辑校验,保证了数据的准确性和完整性。
3.网络爬虫模块,是利用网络爬虫技术对数据来源网站进行内容或文件的抓取,通过配置各种不同的任务,针对不同的来源进行分类、排重。
4.数据处理模块,主要针对网络爬虫无法直接获取的数据进行深度加工处理,首先根据元数据结构,然后配置适合的采集界面,再接入网络爬虫获取的数据作为依据,对数据进行维护。
5.数据存储流程,根据所需要处理数据的特征,对进入数据库之前的数据进行逻辑上的判断,以避免人工在处理时产生的错误,提高数据质量。数据处理的流程包括数据采集、数据存储、数据挖掘分析、单数据应用及数据可视化应用。目前互联网这个载体所包含的数据越来越丰富,依靠传统的人工跟踪,人工排查核实已经不能满足日益丰富的数据应用需求,所以机器的自动数据与人工数据处理相结合,既能保证数据的广度,也能提高数据质量,提升数据的可用性。
说明书附图
图1示例性地示出了本发明的流程示意图。
具体实施方式
下面结合附图对本发明进行详细说明:
如图1所示,一种基于网络爬虫与结构化存储的数据处理方法,包括如下步骤:
步骤1:确定数据源并配置网络爬虫系统;
步骤2:根据数据源特征以及预设的元数据结构,对数据处理界面进行配置;
步骤3:针对网页爬虫获取的数据与文件进行筛选排重,对网站上页面的资讯根据URL地址进行筛选排重,非重复的数据进入数据库,由系统平台进行复制,复制过程中比较48小时内相似新闻取标题、段前的正文、段尾的正文进行比较或正文分词比较大于或等于80%的资讯进行记录并且修改采集状态显示在系统平台中供采集;
步骤4:依据索引把数据与文件的调取到不同的数据维护界面;
步骤5:对已经结构化的数据处理;
步骤6:对非结构化的数据以及文件类的数据处理;
步骤7:符合规则的数据进入数据库,不符合规则的数据在前台进行提示并返回人工进行处理,直到满足规则才允许进入数据库存储。
步骤1中的确定数据源并配置网络爬虫系统包括如下步骤:
①先对网站上抓取来源的格式进行分析确定元数据表,定制开发抓取脚本,抓取相关的数据格式;
②再通过抓取调度系统对已开发的脚本进行配置,设置抓取频率、及相关属性设置;
③抓取调度系统会对脚本定时执行,将抓取到的数据存入数据库,并记录相关执行日志。
步骤2中的数据处理界面进行配置包括:结构配置,字段配置,基于数据库的校验规则配置;数据源特征及预设的元数据结构是根据抓取来源的网页格式或业务要求进行设计;设计的字段类型包含number数值类型,varchar2文本类型,clob大字段类型,不同字段类型进行字段的不同配置;数据在入库前会经过各个业务不同的规则的校验;校验方式为数据库查询的逻辑语句。
步骤5提到的对已经结构化的数据处理方法为:对已经结构化的数据进行直接入库或者按规则处理后自动入库处理,所涉及到的规则除了数据库本身字段限制以外,还会根据具体数据所涉及到的业务逻辑进行处理。
步骤6提到的对非结构化的数据以及文件类的数据处理方法为:对非结构化的数据以及文件类的数据,进行再次加工或在工作台打开相关文件作为参照后进行加工,工作台会展示数据库中所有的历史数据,提供查询路径,普通采集人员有修改数据的权限。
本发明不需要大量人员去跟踪各个数据来源,也减少了数据来源比对,排重的工作量,有效的提高了获取数据的效率。在数据存储过程中,采用了结构化的处理方式,对数据进行了标准化,数据进入数据库前会经过正确的逻辑校验,保证了数据的准确性和完整性。网络爬虫模块利用网络爬虫技术对数据来源网站进行内容或文件的抓取,通过配置各种不同的任务,针对不同的来源进行分类、排重。数据处理模块主要针对网络爬虫无法直接获取的数据进行深度加工处理,首先根据元数据结构,然后配置适合的采集界面,再接入网络爬虫获取的数据作为依据,对数据进行维护。数据存储流程,根据所需要处理数据的特征,对进入数据库之前的数据进行逻辑上的判断,以避免人工在处理时产生的错误,提高数据质量。数据处理的流程包括数据采集、数据存储、数据挖掘分析、单数据应用及数据可视化应用。目前互联网这个载体所包含的数据越来越丰富,依靠传统的人工跟踪,人工排查核实已经不能满足日益丰富的数据应用需求,所以机器的自动数据与人工数据处理相结合,既能保证数据的广度,也能提高数据质量,提升数据的可用性。
对于本领域的普通技术人员而言,上述实施例只是对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。

Claims (4)

1.一种基于网络爬虫与结构化存储的数据处理方法,其特征在于:包括如下步骤:
步骤1:确定数据源并配置网络爬虫系统;
步骤2:根据数据源特征以及预设的元数据结构,对数据处理界面进行配置,数据处理界面进行配置包括结构配置,字段配置,基于数据库的校验规则配置,其中,数据在入库前会经过各个业务不同的规则的校验,校验方式为数据库查询的逻辑语句;
步骤3:针对网页爬虫获取的数据与文件进行筛选排重,对网站上页面的资讯根据URL地址进行筛选排重,非重复的数据进入数据库,由系统平台进行复制,复制过程中比较48小时内相似新闻取标题、段前的正文、段尾的正文进行比较或正文分词比较大于或等于80%的资讯进行记录并且修改采集状态显示在系统平台中供采集;
步骤4:依据索引把数据与文件的调取到不同的数据维护界面;
步骤5:对已经结构化的数据处理,其中,包括:对已经结构化的数据进行直接入库或者按规则处理后自动入库处理,所涉及到的规则除了数据库本身字段限制以外,还根据具体数据所涉及到的业务逻辑进行处理;
步骤6:对非结构化的数据以及文件类的数据处理;
步骤7:符合规则的数据进入数据库,不符合规则的数据在前台进行提示并返回人工进行处理,直到满足规则才允许进入数据库存储。
2.根据权利要求1所述的基于网络爬虫与结构化存储的数据处理方法,其特征在于:所述步骤1中的确定数据源并配置网络爬虫系统包括如下步骤,
①先对网站上抓取来源的格式进行分析确定元数据表,定制开发抓取脚本,抓取相关的数据格式;
②再通过抓取调度系统对已开发的脚本进行配置,设置抓取频率、及相关属性设置;
③抓取调度系统会对脚本定时执行,将抓取到的数据存入数据库,并记录相关执行日志。
3.根据权利要求1所述的基于网络爬虫与结构化存储的数据处理方法,其特征在于:数据源特征及预设的元数据结构是根据抓取来源的网页格式或业务要求进行设计;设计的字段类型包含number数值类型,varchar2文本类型,clob大字段类型,不同字段类型进行字段的不同配置。
4.根据权利要求1所述的基于网络爬虫与结构化存储的数据处理方法,其特征在于:所述步骤6提到的对非结构化的数据以及文件类的数据处理方法为:对非结构化的数据以及文件类的数据,进行再次加工或在工作台打开相关文件作为参照后进行加工,工作台会展示数据库中所有的历史数据,提供查询路径,普通采集人员有修改数据的权限。
CN201610361299.2A 2016-05-26 2016-05-26 一种基于网络爬虫与结构化存储的数据处理方法 Active CN106055618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610361299.2A CN106055618B (zh) 2016-05-26 2016-05-26 一种基于网络爬虫与结构化存储的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610361299.2A CN106055618B (zh) 2016-05-26 2016-05-26 一种基于网络爬虫与结构化存储的数据处理方法

Publications (2)

Publication Number Publication Date
CN106055618A CN106055618A (zh) 2016-10-26
CN106055618B true CN106055618B (zh) 2020-02-07

Family

ID=57176075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610361299.2A Active CN106055618B (zh) 2016-05-26 2016-05-26 一种基于网络爬虫与结构化存储的数据处理方法

Country Status (1)

Country Link
CN (1) CN106055618B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228667A (zh) * 2016-12-22 2018-06-29 钢钢网电子商务(上海)股份有限公司 一种钢铁资源数据信息的整合方法及系统
CN107451261B (zh) * 2017-07-31 2020-06-09 广州探迹科技有限公司 一种基于对象存储的爬虫网络路径追踪方法
CN107577788B (zh) * 2017-09-15 2021-12-31 广东技术师范大学 一种自动结构化数据的电商网站主题爬虫方法
CN107943588A (zh) * 2017-11-22 2018-04-20 用友金融信息技术股份有限公司 数据处理方法、系统、计算机设备和可读存储介质
CN109657125A (zh) * 2018-12-14 2019-04-19 平安城市建设科技(深圳)有限公司 基于网络爬虫的数据处理方法、装置、设备及存储介质
CN111090884A (zh) * 2019-12-20 2020-05-01 宜宾宝包网络技术有限公司 一种网络数据的结构化处理方法
CN112256806B (zh) * 2020-11-04 2021-05-18 成都市食品药品检验研究院 一种食品生产经营全程风险信息库的构建方法及系统
CN113297448B (zh) * 2021-05-13 2022-10-25 中国电波传播研究所(中国电子科技集团公司第二十二研究所) 一种基于网络爬虫的开源电波环境数据采集方法及计算机可读存储介质
CN116934556B (zh) * 2023-09-08 2023-12-26 四川三思德科技有限公司 一种基于大数据融合的目标人员精准化管控方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365865A (zh) * 2012-03-29 2013-10-23 腾讯科技(深圳)有限公司 数据存储方法、数据下载方法及其装置
CN103399908A (zh) * 2013-07-30 2013-11-20 北京北纬通信科技股份有限公司 业务数据抓取方法和系统
CN104866498A (zh) * 2014-02-24 2015-08-26 华为技术有限公司 一种信息处理方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6725214B2 (en) * 2000-01-14 2004-04-20 Dotnsf Apparatus and method to support management of uniform resource locators and/or contents of database servers
US7082427B1 (en) * 2000-05-24 2006-07-25 Reachforce, Inc. Text indexing system to index, query the archive database document by keyword data representing the content of the documents and by contact data associated with the participant who generated the document
CN100498783C (zh) * 2006-09-01 2009-06-10 北大方正集团有限公司 一种支持全文检索系统同时检索数值类型数据域的方法
CN101231661B (zh) * 2008-02-19 2010-06-23 上海估家网络科技有限公司 对象级知识挖掘的方法和系统
CN101908048B (zh) * 2009-06-04 2012-09-12 深圳市彪骐数码科技有限公司 一种互联网影视内容搜索的方法及系统
US9684661B2 (en) * 2013-10-24 2017-06-20 Kim Marie Rees Method for correlating data
CN103617290B (zh) * 2013-12-13 2017-02-15 江苏名通信息科技有限公司 中文机器阅读系统
CN103886074B (zh) * 2014-03-24 2017-03-15 江苏名通信息科技有限公司 基于社交媒体的商品推荐系统
CN103955531B (zh) * 2014-05-12 2017-06-30 南京提坦信息科技有限公司 基于命名实体库的在线知识地图
CN104077402B (zh) * 2014-07-04 2018-01-19 用友网络科技股份有限公司 数据处理方法和数据处理系统
CN104679874A (zh) * 2015-03-10 2015-06-03 华北电力科学研究院有限责任公司 一种电网运行简报数据分析方法
CN104834668B (zh) * 2015-03-13 2018-10-02 陈文� 基于知识库的职位推荐系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365865A (zh) * 2012-03-29 2013-10-23 腾讯科技(深圳)有限公司 数据存储方法、数据下载方法及其装置
CN103399908A (zh) * 2013-07-30 2013-11-20 北京北纬通信科技股份有限公司 业务数据抓取方法和系统
CN104866498A (zh) * 2014-02-24 2015-08-26 华为技术有限公司 一种信息处理方法及装置

Also Published As

Publication number Publication date
CN106055618A (zh) 2016-10-26

Similar Documents

Publication Publication Date Title
CN106055618B (zh) 一种基于网络爬虫与结构化存储的数据处理方法
US10558554B2 (en) Machine learning based software correction
US9361317B2 (en) Method for entity enrichment of digital content to enable advanced search functionality in content management systems
US20140006429A1 (en) Generation of technical description of report from functional description of report
CN112579155B (zh) 代码相似性检测方法、装置以及存储介质
CN113032579B (zh) 一种元数据血缘分析方法、装置、电子设备和介质
LU503512B1 (en) Operating method for construction of knowledge graph based on naming rule and caching mechanism
CN110765402A (zh) 一种基于网络资源的可视化采集系统及采集方法
CN114880405A (zh) 一种基于数据湖的数据处理方法及系统
CN112000929A (zh) 一种跨平台数据分析方法、系统、设备及可读存储介质
CN107368500B (zh) 数据抽取方法及系统
CN113962597A (zh) 一种数据分析方法、装置、电子设备及存储介质
CN112163017B (zh) 一种知识挖掘系统及方法
CN107291749B (zh) 一种数据指标关联关系的确定方法及装置
CN110889632B (zh) 一种公司形象提升系统的数据监测分析系统
CN108549672A (zh) 一种数据智能分析方法及系统
CN116483903A (zh) 一种面向多源异构数据源的全链路数据血缘关系识别方法
CN115757174A (zh) 一种数据库的差异检测方法及装置
CN113407678B (zh) 知识图谱构建方法、装置和设备
CN115757045A (zh) 一种交易日志分析方法、系统及装置
CN115687075A (zh) 页面测试脚本的纠错方法及装置
CN106776654B (zh) 一种数据搜索方法及装置
CN114896269A (zh) 结构化查询语句检测方法、装置、电子设备及存储介质
CN110908870B (zh) 一种大型机的资源监控方法、装置、存储介质及设备
CN114115831A (zh) 数据处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant