CN106055618A - 一种基于网络爬虫与结构化存储的数据处理方法 - Google Patents

一种基于网络爬虫与结构化存储的数据处理方法 Download PDF

Info

Publication number
CN106055618A
CN106055618A CN201610361299.2A CN201610361299A CN106055618A CN 106055618 A CN106055618 A CN 106055618A CN 201610361299 A CN201610361299 A CN 201610361299A CN 106055618 A CN106055618 A CN 106055618A
Authority
CN
China
Prior art keywords
data
processing method
web crawlers
structured
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610361299.2A
Other languages
English (en)
Other versions
CN106055618B (zh
Inventor
郑文毅
谢晓勇
黄�俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Up Wealth Management Co ltd
Original Assignee
Up Wealth Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Up Wealth Management Co ltd filed Critical Up Wealth Management Co ltd
Priority to CN201610361299.2A priority Critical patent/CN106055618B/zh
Publication of CN106055618A publication Critical patent/CN106055618A/zh
Application granted granted Critical
Publication of CN106055618B publication Critical patent/CN106055618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于网络爬虫与结构化存储的数据处理方法,属于计算机应用技术领域。本发明包括如下步骤:步骤一:确定数据源并配置网络爬虫系统;步骤二:根据数据源特征以及预设的元数据结构,对数据处理界面进行配置;步骤三:针对网页爬虫获取的数据与文件进行筛选排重;步骤四:依据索引把数据与文件的调取到不同的数据维护界面。本发明不需要大量人员去跟踪各个数据来源,也减少了数据来源比对,排重的工作量,有效的提高了获取数据的效率。在数据存储过程中,采用了结构化的处理方式,对数据进行了标准化,数据进入数据库前会经过正确的逻辑校验,保证了数据的准确性和完整性。网络爬虫模块。

Description

一种基于网络爬虫与结构化存储的数据处理方法
技术领域
本发明涉及一种基于网络爬虫与结构化存储的数据处理方法,属于计算机应用技术领域。
背景技术
互联网行业的高速发展,让我们身处于一个信息爆炸的时代,每天身边充斥着各种各样的有用或无用的信息,从数据应用的角度来看,对这些信息的运用,还不够全面,因为市场上总有些数据是不规范的,如果简单地对这种数据进行抓取引用,可能最后的结果并不能满足需求,或者说很多数据即使经过处理,也达不到应用的要求。
发明内容
为了克服上述的不足,本发明提供一种基于网络爬虫与结构化存储的数据处理方法。
本发明采取的技术方案如下:
一种基于网络爬虫与结构化存储的数据处理方法,包括如下步骤
步骤1:确定数据源并配置网络爬虫系统;
步骤2:根据数据源特征以及预设的元数据结构,对数据处理界面进行配置,包括结构配置,字段配置,基于数据库的校验规则配置;数据源特征及预设的元数据结构是根据抓取来源的网页格式或业务要求进行设计;设计的字段类型包含number数值类型,varchar2文本类型,clob大字段类型,不同字段类型进行字段的不同配置;数据在入库前会经过各个业务不同的规则的校验;校验方式为数据库查询的逻辑语句;
步骤3:针对网页爬虫获取的数据与文件进行筛选排重,对网站上页面的资讯根据URL地址进行筛选排重,非重复的数据进入数据库,由系统平台进行复制,复制过程中比较48小时内相似新闻取标题、段前的正文、段尾的正文进行比较或正文分词比较大于或等于80%相信资讯进行记录并且修改采集状态显示在系统平台中供采集;
步骤4:对已经结构化的数据进行直接入库或者按规则处理后自动入库处理,所涉及到的规则除了数据库本身字段限制以外,还会根据具体数据所涉及到的业务逻辑进行处理;
步骤5:对非结构化的数据以及文件类的数据,进行再次加工或在工作台打开相关文件作为参照后进行加工,工作台会展示数据库中所有的历史数据,提供查询路径,普通采集人员有修改数据的权限;
步骤6:符合规则的数据进入数据库,不符合规则的数据在前台进行提示并返回人工进行处理,直到满足规则才允许进入数据库存储。
确定数据源并配置网络爬虫系统包括如下步骤:
①先对网站上抓取来源的格式进行分析确定元数据表,定制开发抓取脚本,抓取相关的数据格式;
②再通过抓取调度系统对已开发的脚本进行配置,设置抓取频率、及相关属性设置;
③抓取调度系统会对脚本定时执行,将抓取到的数据存入数据库,并记录相关执行日志。
本发明所具有的有益效果是:
1.不需要大量人员去跟踪各个数据来源,也减少了数据来源比对,排重的工作量,有效的提高了获取数据的效率。
2.在数据存储过程中,采用了结构化的处理方式,对数据进行了标准化,数据进入数据库前会经过正确的逻辑校验,保证了数据的准确性和完整性。
3.网络爬虫模块,是利用网络爬虫技术对数据来源网站进行内容或文件的抓取,通过配置各种不同的任务,针对不同的来源进行分类、排重。
4.数据处理模块,主要针对网络爬虫无法直接获取的数据进行深度加工处理,首先根据元数据结构,然后配置适合的采集界面,再接入网络爬虫获取的数据作为依据,对数据进行维护。
5.数据存储流程,根据所需要处理数据的特征,对进入数据库之前的数据进行逻辑上的判断,以避免人工在处理时产生的错误,提高数据质量。数据处理的流程包括数据采集、数据存储、数据挖掘分析、单数据应用及数据可视化应用。目前互联网这个载体所包含的数据越来越丰富,依靠传统的人工跟踪,人工排查核实已经不能满足日益丰富的数据应用需求,所以机器的自动数据与人工数据处理相结合,既能保证数据的广度,也能提高数据质量,提升数据的可用性。
说明书附图
图1示例性地示出了本发明的流程示意图。
具体实施方式
下面结合附图对本发明进行详细说明:
如图1所示,一种基于网络爬虫与结构化存储的数据处理方法,包括如下步骤:
步骤1:确定数据源并配置网络爬虫系统;
步骤2:根据数据源特征以及预设的元数据结构,对数据处理界面进行配置;
步骤3:针对网页爬虫获取的数据与文件进行筛选排重,对网站上页面的资讯根据URL地址进行筛选排重,非重复的数据进入数据库,由系统平台进行复制,复制过程中比较48小时内相似新闻取标题、段前的正文、段尾的正文进行比较或正文分词比较大于或等于80%相信资讯进行记录并且修改采集状态显示在系统平台中供采集;
步骤4:依据索引把数据与文件的调取到不同的数据维护界面;
步骤5:对已经结构化的数据处理;
步骤6:对非结构化的数据以及文件类的数据处理;
步骤7:符合规则的数据进入数据库,不符合规则的数据在前台进行提示并返回人工进行处理,直到满足规则才允许进入数据库存储。
步骤1中的确定数据源并配置网络爬虫系统包括如下步骤:
①先对网站上抓取来源的格式进行分析确定元数据表,定制开发抓取脚本,抓取相关的数据格式;
②再通过抓取调度系统对已开发的脚本进行配置,设置抓取频率、及相关属性设置;
③抓取调度系统会对脚本定时执行,将抓取到的数据存入数据库,并记录相关执行日志。
步骤2中的数据处理界面进行配置包括:结构配置,字段配置,基于数据库的校验规则配置;数据源特征及预设的元数据结构是根据抓取来源的网页格式或业务要求进行设计;设计的字段类型包含number数值类型,varchar2文本类型,clob大字段类型,不同字段类型进行字段的不同配置;数据在入库前会经过各个业务不同的规则的校验;校验方式为数据库查询的逻辑语句。
步骤5提到的对已经结构化的数据处理方法为:对已经结构化的数据进行直接入库或者按规则处理后自动入库处理,所涉及到的规则除了数据库本身字段限制以外,还会根据具体数据所涉及到的业务逻辑进行处理。
步骤6提到的对非结构化的数据以及文件类的数据处理方法为:对非结构化的数据以及文件类的数据,进行再次加工或在工作台打开相关文件作为参照后进行加工,工作台会展示数据库中所有的历史数据,提供查询路径,普通采集人员有修改数据的权限。
本发明不需要大量人员去跟踪各个数据来源,也减少了数据来源比对,排重的工作量,有效的提高了获取数据的效率。在数据存储过程中,采用了结构化的处理方式,对数据进行了标准化,数据进入数据库前会经过正确的逻辑校验,保证了数据的准确性和完整性。网络爬虫模块利用网络爬虫技术对数据来源网站进行内容或文件的抓取,通过配置各种不同的任务,针对不同的来源进行分类、排重。数据处理模块主要针对网络爬虫无法直接获取的数据进行深度加工处理,首先根据元数据结构,然后配置适合的采集界面,再接入网络爬虫获取的数据作为依据,对数据进行维护。数据存储流程,根据所需要处理数据的特征,对进入数据库之前的数据进行逻辑上的判断,以避免人工在处理时产生的错误,提高数据质量。数据处理的流程包括数据采集、数据存储、数据挖掘分析、单数据应用及数据可视化应用。目前互联网这个载体所包含的数据越来越丰富,依靠传统的人工跟踪,人工排查核实已经不能满足日益丰富的数据应用需求,所以机器的自动数据与人工数据处理相结合,既能保证数据的广度,也能提高数据质量,提升数据的可用性。
对于本领域的普通技术人员而言,上述实施例只是对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。

Claims (5)

1.一种基于网络爬虫与结构化存储的数据处理方法,其特征在于:包括如下步骤:
步骤1:确定数据源并配置网络爬虫系统;
步骤2:根据数据源特征以及预设的元数据结构,对数据处理界面进行配置;
步骤3:针对网页爬虫获取的数据与文件进行筛选排重,对网站上页面的资讯根据URL地址进行筛选排重,非重复的数据进入数据库,由系统平台进行复制,复制过程中比较48小时内相似新闻取标题、段前的正文、段尾的正文进行比较或正文分词比较大于或等于80%相信资讯进行记录并且修改采集状态显示在系统平台中供采集;
步骤4:依据索引把数据与文件的调取到不同的数据维护界面;
步骤5:对已经结构化的数据处理;
步骤6:对非结构化的数据以及文件类的数据处理;
步骤7:符合规则的数据进入数据库,不符合规则的数据在前台进行提示并返回人工进行处理,直到满足规则才允许进入数据库存储。
2.根据权利要求1所述的基于网络爬虫与结构化存储的数据处理方法,其特征在于:所述步骤1中的确定数据源并配置网络爬虫系统包括如下步骤,
①先对网站上抓取来源的格式进行分析确定元数据表,定制开发抓取脚本,抓取相关的数据格式;
②再通过抓取调度系统对已开发的脚本进行配置,设置抓取频率、及相关属性设置;
③抓取调度系统会对脚本定时执行,将抓取到的数据存入数据库,并记录相关执行日志。
3.根据权利要求1所述的基于网络爬虫与结构化存储的数据处理方法,其特征在于:所述步骤2中的数据处理界面进行配置包括结构配置,字段配置,基于数据库的校验规则配置;数据源特征及预设的元数据结构是根据抓取来源的网页格式或业务要求进行设计;设计的字段类型包含number数值类型,varchar2文本类型,clob大字段类型,不同字段类型进行字段的不同配置;数据在入库前会经过各个业务不同的规则的校验;校验方式为数据库查询的逻辑语句。
4.根据权利要求1所述的基于网络爬虫与结构化存储的数据处理方法,其特征在于:所述步骤5提到的对已经结构化的数据处理方法为:对已经结构化的数据进行直接入库或者按规则处理后自动入库处理,所涉及到的规则除了数据库本身字段限制以外,还根据具体数据所涉及到的业务逻辑进行处理。
5.根据权利要求1所述的基于网络爬虫与结构化存储的数据处理方法,其特征在于:所述步骤6提到的对非结构化的数据以及文件类的数据处理方法为:对非结构化的数据以及文件类的数据,进行再次加工或在工作台打开相关文件作为参照后进行加工,工作台会展示数据库中所有的历史数据,提供查询路径,普通采集人员有修改数据的权限。
CN201610361299.2A 2016-05-26 2016-05-26 一种基于网络爬虫与结构化存储的数据处理方法 Active CN106055618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610361299.2A CN106055618B (zh) 2016-05-26 2016-05-26 一种基于网络爬虫与结构化存储的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610361299.2A CN106055618B (zh) 2016-05-26 2016-05-26 一种基于网络爬虫与结构化存储的数据处理方法

Publications (2)

Publication Number Publication Date
CN106055618A true CN106055618A (zh) 2016-10-26
CN106055618B CN106055618B (zh) 2020-02-07

Family

ID=57176075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610361299.2A Active CN106055618B (zh) 2016-05-26 2016-05-26 一种基于网络爬虫与结构化存储的数据处理方法

Country Status (1)

Country Link
CN (1) CN106055618B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451261A (zh) * 2017-07-31 2017-12-08 广州探迹科技有限公司 一种基于对象存储的爬虫网络路径追踪方法
CN107577788A (zh) * 2017-09-15 2018-01-12 广东技术师范学院 一种自动结构化数据的电商网站主题爬虫方法
CN107943588A (zh) * 2017-11-22 2018-04-20 用友金融信息技术股份有限公司 数据处理方法、系统、计算机设备和可读存储介质
CN108228667A (zh) * 2016-12-22 2018-06-29 钢钢网电子商务(上海)股份有限公司 一种钢铁资源数据信息的整合方法及系统
CN109657125A (zh) * 2018-12-14 2019-04-19 平安城市建设科技(深圳)有限公司 基于网络爬虫的数据处理方法、装置、设备及存储介质
CN111090884A (zh) * 2019-12-20 2020-05-01 宜宾宝包网络技术有限公司 一种网络数据的结构化处理方法
CN112256806A (zh) * 2020-11-04 2021-01-22 成都市食品药品检验研究院 一种食品生产经营全程风险信息库的构建方法及系统
CN113297448A (zh) * 2021-05-13 2021-08-24 中国电波传播研究所(中国电子科技集团公司第二十二研究所) 一种基于网络爬虫的开源电波环境数据采集方法及计算机可读存储介质
CN116934556A (zh) * 2023-09-08 2023-10-24 四川三思德科技有限公司 一种基于大数据融合的目标人员精准化管控方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020099723A1 (en) * 2000-01-14 2002-07-25 Jorge Garcia-Chiesa Apparatus and method to support management of uniform resource locators and/or contents of database servers
US7082427B1 (en) * 2000-05-24 2006-07-25 Reachforce, Inc. Text indexing system to index, query the archive database document by keyword data representing the content of the documents and by contact data associated with the participant who generated the document
CN101136014A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种支持全文检索系统同时检索数值类型数据域的方法
CN101231661A (zh) * 2008-02-19 2008-07-30 上海估家网络科技有限公司 对象级知识挖掘的方法和系统
CN101908048A (zh) * 2009-06-04 2010-12-08 深圳市彪骐数码科技有限公司 一种互联网影视内容搜索的方法及系统
CN103365865A (zh) * 2012-03-29 2013-10-23 腾讯科技(深圳)有限公司 数据存储方法、数据下载方法及其装置
CN103399908A (zh) * 2013-07-30 2013-11-20 北京北纬通信科技股份有限公司 业务数据抓取方法和系统
CN103617290A (zh) * 2013-12-13 2014-03-05 江苏名通信息科技有限公司 中文机器阅读系统
CN103886074A (zh) * 2014-03-24 2014-06-25 江苏名通信息科技有限公司 基于社交媒体的商品推荐系统
CN103955531A (zh) * 2014-05-12 2014-07-30 南京提坦信息科技有限公司 基于命名实体库的在线知识地图
CN104077402A (zh) * 2014-07-04 2014-10-01 用友软件股份有限公司 数据处理方法和数据处理系统
US20150120694A1 (en) * 2013-10-24 2015-04-30 Kim Marie Rees Method for Correlating Data
CN104679874A (zh) * 2015-03-10 2015-06-03 华北电力科学研究院有限责任公司 一种电网运行简报数据分析方法
CN104834668A (zh) * 2015-03-13 2015-08-12 浙江奇道网络科技有限公司 基于知识库的职位推荐系统
CN104866498A (zh) * 2014-02-24 2015-08-26 华为技术有限公司 一种信息处理方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020099723A1 (en) * 2000-01-14 2002-07-25 Jorge Garcia-Chiesa Apparatus and method to support management of uniform resource locators and/or contents of database servers
US7082427B1 (en) * 2000-05-24 2006-07-25 Reachforce, Inc. Text indexing system to index, query the archive database document by keyword data representing the content of the documents and by contact data associated with the participant who generated the document
CN101136014A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种支持全文检索系统同时检索数值类型数据域的方法
CN101231661A (zh) * 2008-02-19 2008-07-30 上海估家网络科技有限公司 对象级知识挖掘的方法和系统
CN101908048A (zh) * 2009-06-04 2010-12-08 深圳市彪骐数码科技有限公司 一种互联网影视内容搜索的方法及系统
CN103365865A (zh) * 2012-03-29 2013-10-23 腾讯科技(深圳)有限公司 数据存储方法、数据下载方法及其装置
CN103399908A (zh) * 2013-07-30 2013-11-20 北京北纬通信科技股份有限公司 业务数据抓取方法和系统
US20150120694A1 (en) * 2013-10-24 2015-04-30 Kim Marie Rees Method for Correlating Data
CN103617290A (zh) * 2013-12-13 2014-03-05 江苏名通信息科技有限公司 中文机器阅读系统
CN104866498A (zh) * 2014-02-24 2015-08-26 华为技术有限公司 一种信息处理方法及装置
CN103886074A (zh) * 2014-03-24 2014-06-25 江苏名通信息科技有限公司 基于社交媒体的商品推荐系统
CN103955531A (zh) * 2014-05-12 2014-07-30 南京提坦信息科技有限公司 基于命名实体库的在线知识地图
CN104077402A (zh) * 2014-07-04 2014-10-01 用友软件股份有限公司 数据处理方法和数据处理系统
CN104679874A (zh) * 2015-03-10 2015-06-03 华北电力科学研究院有限责任公司 一种电网运行简报数据分析方法
CN104834668A (zh) * 2015-03-13 2015-08-12 浙江奇道网络科技有限公司 基于知识库的职位推荐系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228667A (zh) * 2016-12-22 2018-06-29 钢钢网电子商务(上海)股份有限公司 一种钢铁资源数据信息的整合方法及系统
CN107451261A (zh) * 2017-07-31 2017-12-08 广州探迹科技有限公司 一种基于对象存储的爬虫网络路径追踪方法
CN107577788A (zh) * 2017-09-15 2018-01-12 广东技术师范学院 一种自动结构化数据的电商网站主题爬虫方法
CN107943588A (zh) * 2017-11-22 2018-04-20 用友金融信息技术股份有限公司 数据处理方法、系统、计算机设备和可读存储介质
CN109657125A (zh) * 2018-12-14 2019-04-19 平安城市建设科技(深圳)有限公司 基于网络爬虫的数据处理方法、装置、设备及存储介质
CN111090884A (zh) * 2019-12-20 2020-05-01 宜宾宝包网络技术有限公司 一种网络数据的结构化处理方法
CN112256806A (zh) * 2020-11-04 2021-01-22 成都市食品药品检验研究院 一种食品生产经营全程风险信息库的构建方法及系统
CN113297448A (zh) * 2021-05-13 2021-08-24 中国电波传播研究所(中国电子科技集团公司第二十二研究所) 一种基于网络爬虫的开源电波环境数据采集方法及计算机可读存储介质
CN116934556A (zh) * 2023-09-08 2023-10-24 四川三思德科技有限公司 一种基于大数据融合的目标人员精准化管控方法
CN116934556B (zh) * 2023-09-08 2023-12-26 四川三思德科技有限公司 一种基于大数据融合的目标人员精准化管控方法

Also Published As

Publication number Publication date
CN106055618B (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
CN106055618A (zh) 一种基于网络爬虫与结构化存储的数据处理方法
US8832148B2 (en) Enterprise evidence repository
WO2020233330A1 (zh) 批量测试方法、装置及计算机可读存储介质
US8566903B2 (en) Enterprise evidence repository providing access control to collected artifacts
CN105589874A (zh) Etl任务依赖关系的检测方法、装置及etl工具
CN101458705A (zh) 一种不同应用系统间的数据核对方法、装置及系统
CN106021479A (zh) 一种项目关键指标的自动关联方法及系统
CN108197306A (zh) Sql语句处理方法、装置、计算机设备和存储介质
CN107657052A (zh) 一种基于元数据管理的数据治理系统
CN109039710B (zh) 路由数据稽核方法、装置、服务器及存储介质
CN111553137B (zh) 报告生成方法、装置、存储介质及计算机设备
DE102012221251A1 (de) Semantisches und kontextbezogenes Durchsuchen von Wissensspeichern
CN113806170B (zh) 工程行业监理日志自动生成的方法、系统、介质及终端
CN102073641A (zh) 对消费者生成媒体信息进行处理的方法、装置和程序
CN115033905A (zh) 一种基于物联网的智慧档案管理系统平台
CN103455896A (zh) 基于物联网的无纸化装配质量控制方法
CN114880405A (zh) 一种基于数据湖的数据处理方法及系统
CN104331335A (zh) 门户网站的死链检查方法和装置
CN103049557A (zh) 一种站点资源管理方法及装置
CN109657119A (zh) 一种基于访问日志ip分析的网络爬虫检测方法
CN104766240A (zh) 电子银行业务数据处理系统及方法
CN100562872C (zh) 针对结构化网页的自动模板信息定位方法
CN107368576A (zh) 一种教育资源数据采集系统
CN104216901A (zh) 信息搜索的方法和系统
CN104216986A (zh) 以数据更新周期进行预操作提高数据查询效率的装置及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant