CN104135516A - 一种基于行业数据采集的分布式云存储方法 - Google Patents

一种基于行业数据采集的分布式云存储方法 Download PDF

Info

Publication number
CN104135516A
CN104135516A CN201410365012.4A CN201410365012A CN104135516A CN 104135516 A CN104135516 A CN 104135516A CN 201410365012 A CN201410365012 A CN 201410365012A CN 104135516 A CN104135516 A CN 104135516A
Authority
CN
China
Prior art keywords
data
industry
acquisition
distributed
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410365012.4A
Other languages
English (en)
Other versions
CN104135516B (zh
Inventor
徐宏伟
王传超
孙海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Technology Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201410365012.4A priority Critical patent/CN104135516B/zh
Publication of CN104135516A publication Critical patent/CN104135516A/zh
Application granted granted Critical
Publication of CN104135516B publication Critical patent/CN104135516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于行业数据采集的分布式云存储方法,其具体实现过程为:搭建行业搜索采集云平台;客户上传需要的网站数据给上述云平台的采集系统;云平台的采集系统通过对网站规则分析,找出以前一样的或类似的网站配置模板,并模拟出符合要求的模板;如果没有,通过人工配置出相应的采集模板;采集下来的数据通过文件访问协议和远程过程调用,转发到服务器端进行处理;采用分布式系统基础架构Hadoop集群管理;客户端给Hadoop集群发送请求,得到系统内存储的相关数据。该一种基于行业数据采集的分布式云存储方法与现有技术相比,解决了现有技术中提高服务质量、提升问题达成率等问题,实用性强。

Description

一种基于行业数据采集的分布式云存储方法
技术领域
本发明涉及信息技术领域,具体地说是针对税务行业领域、基于行业数据采集的分布式云存储方法。
背景技术
当今已经是数据大爆炸的时代,各个行业面临着大部分的问题:比如集中管理行业数据,需要解决从无规则、无行业分类的互联网爬取针对性的行业信息的问题;同时海量数据的存储也是一大难题;采集的数据如何与内部数据做共享与整合,迄今为止也未很好的解决;历史记录查询问题、实时并发入库问题、搜索效率低的问题、数据分布式存储及交互式查询问题都是当今数据存储的难题。有时工作人员采用集群来解决上述问题,但集群管理维护难,现有集群系统没有一个从硬件到软件到服务状态的整体监控和管理系统,基于此,现提供一种可解决上述问题、基于行业数据采集的分布式云存储方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、基于行业数据采集的分布式云存储方法。  
一种基于行业数据采集的分布式云存储方法,其具体实现过程为:
一、搭建行业搜索采集云平台;
二、客户上传需要的网站数据给上述云平台的采集系统;
三、云平台的采集系统通过对网站规则分析,找出以前一样的或类似的网站配置模板,并模拟出符合要求的模板;如果没有,通过人工配置出相应的采集模板;
四、采集下来的数据通过文件访问协议和远程过程调用,转发到服务器端进行处理;
五、采用分布式系统基础架构Hadoop集群管理,该集群内有若干机器节点,每个机器节点有一个DataNode,Hadoop集群管理这些节点上的存储,该集群内的NameNode负责管理文件系统命名空间和client对文件的访问;
所述集群把每个DataNode都分为两个区域,一个是从网站直接爬取下来的数据分布;另一个是内部数据存储,即通过sqoop命令将关系型数据库导入到HDFS上;两个区域内的数据互相备份共享,并通过Object Data File 归档,将数据整合;
六、客户端给NameNode发送请求,得到系统内存储的相关数据。
所述步骤一的详细过程为:
搭建行业搜索系统,给用户提供采集模板的接口,采集系统搭建在云服务器上,并做分布式采集的部署;
搭建分布式存储系统,调节并接通采集系统与存储系统之间的接口,将采集后的数据直接存储到该系统里;
将用户提供的行业数据做接口,使采集后的数据与行业数据互相共享,这里的行业数据即为步骤五中DataNode第二个分区中存储的内部数据。
所述步骤四中服务器端进行数据处理采用对象存储技术,该处理的数据包含文件数据以及该文件数据的属性信息。
本发明的一种基于行业数据采集的分布式云存储方法,具有以下优点:
该发明的一种基于行业数据采集的分布式云存储方法行业搜索采集系统比普通的网络爬虫更有针对性,采集周期变短、数据准确性大大提高。用户无需复杂的配置,可以通过行业配置模板进行修改或直接采集,采集内容通过规范的文件访问协议和远程过程调用,转发到服务器端进行处理,同时行业内部数据通过sqoop技术转化为文件存储形式,放入另一个存储区域。两个区域的数据达到共享,用户发送给namenode的请求后,从而进行“移动式计算”分析出用户所要的结果。解决了现在许多行业的企业无法及时了解市场的动态变化、提高服务质量、提升问题达成率等问题,而在互联网上采集自己行业的相关信息,并与自己行业内部组织数据相结合的大数据采集及存储的难题,实用性强,易于推广。
附图说明
附图1为本发明的实现流程图。
附图2为本发明的采集数据与内部数据归档图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明的提供一种基于行业数据采集的分布式云存储方法通过“行业搜索采集系统”将互联网上的行业数据抓取下来,并能与行业内部组织数据进行整合分析的技术实现,如附图1、图2所示,该方法的具体实现过程为:
一、搭建行业搜索采集云平台;
二、客户上传需要的网站数据给上述云平台的采集系统;
三、云平台的采集系统通过对网站规则分析,找出以前一样的或类似的网站配置模板,并模拟出符合要求的模板;如果没有,通过人工配置出相应的采集模板;
四、采集下来的数据通过文件访问协议和远程过程调用,转发到服务器端进行处理;
五、采用分布式系统基础架构Hadoop集群管理,该集群内有若干机器节点,每个机器节点有一个DataNode,Hadoop集群管理这些节点上的存储,该集群内的NameNode负责管理文件系统命名空间和client对文件的访问;
所述集群把每个DataNode都分为两个区域,一个是从网站直接爬取下来的数据分布;另一个是内部数据存储,即通过sqoop命令将关系型数据库导入到HDFS上;两个区域内的数据互相备份共享,并通过Object Data File 归档,将数据整合;
六、客户端给NameNode发送请求,得到系统内存储的相关数据。
由于各个行业的网站规则不一,用户采集的数据需求不统一等难点,对采集造成了一些困难。因此我们给客户端提供了各个行业的采集模板口径,采集端和存储是部署在云服务器上。基于该思路,上述步骤一的详细过程为:
搭建行业搜索系统,给用户提供采集模板的接口,采集系统搭建在云服务器上,并做分布式采集的部署;
搭建分布式存储系统,调节并接通采集系统与存储系统之间的接口,将采集后的数据直接存储到该系统里;
将用户提供的行业数据做接口,使采集后的数据与行业数据互相共享,这里的行业数据即为步骤五中DataNode第二个分区中存储的内部数据。
所述步骤四中服务器端进行数据处理采用对象存储技术,该处理的数据包含文件数据以及该文件数据的属性信息。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种基于行业数据采集的分布式云存储方法的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (3)

1.一种基于行业数据采集的分布式云存储方法,其特征在于其具体实现过程为:
一、搭建行业搜索采集云平台;
二、客户上传需要的网站数据给上述云平台的采集系统;
三、云平台的采集系统通过对网站规则分析,找出以前一样的或类似的网站配置模板,并模拟出符合要求的模板;如果没有,通过人工配置出相应的采集模板;
四、采集下来的数据通过文件访问协议和远程过程调用,转发到服务器端进行处理;
五、采用分布式系统基础架构Hadoop集群管理,该集群内有若干机器节点,每个机器节点有一个DataNode,Hadoop集群管理这些节点上的存储,该集群内的NameNode负责管理文件系统命名空间和client对文件的访问;
所述集群把每个DataNode都分为两个区域,一个是从网站直接爬取下来的数据分布;另一个是内部数据存储,即通过sqoop命令将关系型数据库导入到HDFS上;两个区域内的数据互相备份共享,并通过Object Data File 归档,将数据整合;
六、客户端给NameNode发送请求,得到系统内存储的相关数据。
2.根据权利要求1所述的一种基于行业数据采集的分布式云存储方法,其特征在于:所述步骤一的详细过程为:
搭建行业搜索系统,给用户提供采集模板的接口,采集系统搭建在云服务器上,并做分布式采集的部署;
搭建分布式存储系统,调节并接通采集系统与存储系统之间的接口,将采集后的数据直接存储到该系统里;
将用户提供的行业数据做接口,使采集后的数据与行业数据互相共享,这里的行业数据即为步骤五中DataNode第二个分区中存储的内部数据。
3.根据权利要求1所述的一种基于行业数据采集的分布式云存储方法,其特征在于:所述步骤四中服务器端进行数据处理采用对象存储技术,该处理的数据包含文件数据以及该文件数据的属性信息。
CN201410365012.4A 2014-07-29 2014-07-29 一种基于行业数据采集的分布式云存储方法 Active CN104135516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410365012.4A CN104135516B (zh) 2014-07-29 2014-07-29 一种基于行业数据采集的分布式云存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410365012.4A CN104135516B (zh) 2014-07-29 2014-07-29 一种基于行业数据采集的分布式云存储方法

Publications (2)

Publication Number Publication Date
CN104135516A true CN104135516A (zh) 2014-11-05
CN104135516B CN104135516B (zh) 2017-04-05

Family

ID=51808038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410365012.4A Active CN104135516B (zh) 2014-07-29 2014-07-29 一种基于行业数据采集的分布式云存储方法

Country Status (1)

Country Link
CN (1) CN104135516B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391990A (zh) * 2014-12-16 2015-03-04 浪潮软件集团有限公司 一种基于垂直行业的多任务式采集与收割方法
CN104408167A (zh) * 2014-12-09 2015-03-11 浪潮电子信息产业股份有限公司 一种基于django扩展Hue中sqoop功能的方法
CN104636245A (zh) * 2015-03-09 2015-05-20 浪潮集团有限公司 一种基于实时更新的用户浏览行为采集方式
CN104660715A (zh) * 2015-03-16 2015-05-27 浪潮集团有限公司 一种基于数据服务的开放接口实现方法
CN104699802A (zh) * 2015-03-20 2015-06-10 浪潮集团有限公司 一种基于行业数据的可视化分析方法
CN105321124A (zh) * 2015-11-23 2016-02-10 南京信息工程大学 一种基于Hadoop的电力云平台设计方案
CN105701202A (zh) * 2016-01-12 2016-06-22 浪潮软件集团有限公司 一种数据管理方法及系统、业务平台
CN108518315A (zh) * 2018-03-20 2018-09-11 深圳众厉电力科技有限公司 一种基于云存储技术的风电机组智能监测系统
CN110334140A (zh) * 2019-05-24 2019-10-15 深圳绿米联创科技有限公司 处理设备上报数据的方法、装置以及服务器
CN113297448A (zh) * 2021-05-13 2021-08-24 中国电波传播研究所(中国电子科技集团公司第二十二研究所) 一种基于网络爬虫的开源电波环境数据采集方法及计算机可读存储介质
CN114745430A (zh) * 2022-04-20 2022-07-12 盟浪可持续数字科技(深圳)有限责任公司 一种无中心的分布式互联网信息推送式采集系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100162230A1 (en) * 2008-12-24 2010-06-24 Yahoo! Inc. Distributed computing system for large-scale data handling
CN102999633A (zh) * 2012-12-18 2013-03-27 北京师范大学珠海分校 网络信息的云聚类提取方法
CN103023995A (zh) * 2012-11-29 2013-04-03 中国电力科学研究院 一种基于Hadoop的分布式云存储自动分级数据管理系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100162230A1 (en) * 2008-12-24 2010-06-24 Yahoo! Inc. Distributed computing system for large-scale data handling
CN103023995A (zh) * 2012-11-29 2013-04-03 中国电力科学研究院 一种基于Hadoop的分布式云存储自动分级数据管理系统
CN102999633A (zh) * 2012-12-18 2013-03-27 北京师范大学珠海分校 网络信息的云聚类提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛羽: "无线城市Web数据采集系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408167A (zh) * 2014-12-09 2015-03-11 浪潮电子信息产业股份有限公司 一种基于django扩展Hue中sqoop功能的方法
CN104391990A (zh) * 2014-12-16 2015-03-04 浪潮软件集团有限公司 一种基于垂直行业的多任务式采集与收割方法
CN104636245A (zh) * 2015-03-09 2015-05-20 浪潮集团有限公司 一种基于实时更新的用户浏览行为采集方式
CN104660715A (zh) * 2015-03-16 2015-05-27 浪潮集团有限公司 一种基于数据服务的开放接口实现方法
CN104699802A (zh) * 2015-03-20 2015-06-10 浪潮集团有限公司 一种基于行业数据的可视化分析方法
CN105321124A (zh) * 2015-11-23 2016-02-10 南京信息工程大学 一种基于Hadoop的电力云平台设计方案
CN105701202A (zh) * 2016-01-12 2016-06-22 浪潮软件集团有限公司 一种数据管理方法及系统、业务平台
CN105701202B (zh) * 2016-01-12 2019-04-09 山东浪潮云信息技术有限公司 一种数据管理方法及系统、业务平台
CN108518315A (zh) * 2018-03-20 2018-09-11 深圳众厉电力科技有限公司 一种基于云存储技术的风电机组智能监测系统
CN110334140A (zh) * 2019-05-24 2019-10-15 深圳绿米联创科技有限公司 处理设备上报数据的方法、装置以及服务器
CN113297448A (zh) * 2021-05-13 2021-08-24 中国电波传播研究所(中国电子科技集团公司第二十二研究所) 一种基于网络爬虫的开源电波环境数据采集方法及计算机可读存储介质
CN113297448B (zh) * 2021-05-13 2022-10-25 中国电波传播研究所(中国电子科技集团公司第二十二研究所) 一种基于网络爬虫的开源电波环境数据采集方法及计算机可读存储介质
CN114745430A (zh) * 2022-04-20 2022-07-12 盟浪可持续数字科技(深圳)有限责任公司 一种无中心的分布式互联网信息推送式采集系统

Also Published As

Publication number Publication date
CN104135516B (zh) 2017-04-05

Similar Documents

Publication Publication Date Title
CN104135516A (zh) 一种基于行业数据采集的分布式云存储方法
CN107864222B (zh) 一种基于PaaS平台的工业大数据计算系统
CN109711556B (zh) 机巡数据处理方法、装置、网级服务器和省级服务器
CN105893628A (zh) 一种数据实时收集系统及方法
EP3522466A1 (en) Dynamic scheduling and allocation method and system for network traffic
DE102016104478A1 (de) Kryptographische Verfahren, die Arbeitsnachweise in Systemen untereinander verbundener Knoten realisieren
Mehdipour et al. FOG-Engine: Towards big data analytics in the fog
CN107070890A (zh) 一种通信网优系统中的流数据处理装置及通信网优系统
CN104486116A (zh) 多维度查询流量数据的方法及系统
CN103258027A (zh) 基于智能终端的情境感知服务平台
US11461367B2 (en) Multi-source data management mechanism and platform
WO2019244671A1 (ja) 情報処理装置、情報交換システム、情報処理方法および情報処理プログラム
CN104572976A (zh) 网站数据更新方法和系统
CN105681285A (zh) 一种异构工业信号源信息获取方法
CN104933136A (zh) 基于海量车牌自动识别数据的动态拼车方法和系统
CN104320488A (zh) 代理服务器系统及代理服务方法
CN105096181A (zh) 一种大数据的电商交易方法及电商交易系统
Hongqian et al. Cloud-based data management system for automatic real-time data acquisition from large-scale laying-hen farms
Corradi et al. Automatic extraction of POIs in smart cities: Big data processing in ParticipAct
US20190265687A1 (en) Edge cloud-based resin material drying system and method
CN104268665A (zh) 一种管理系统用户行为分析方法
CN103078946A (zh) 一种海量实时数据分布方法及其访问方法
CN105049462B (zh) 一种基于gis的监控中心协同工作子系统及其工作方法
CN110297849B (zh) 员工不相容权限筛选方法、装置、计算机设备及存储介质
EP3134832A1 (en) Data processing system and data processing method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200602

Address after: 250100 Inspur Science Park, No. 1036, Inspur Road, high tech Zone, Jinan City, Shandong Province

Patentee after: Inspur Software Technology Co.,Ltd.

Address before: 250100, No. 2877, fairway, Sun Town, Ji'nan hi tech Zone, Shandong

Patentee before: INSPUR GROUP Co.,Ltd.