CN105302865B - 一种实现数据处理的方法及装置 - Google Patents

一种实现数据处理的方法及装置 Download PDF

Info

Publication number
CN105302865B
CN105302865B CN201510609088.1A CN201510609088A CN105302865B CN 105302865 B CN105302865 B CN 105302865B CN 201510609088 A CN201510609088 A CN 201510609088A CN 105302865 B CN105302865 B CN 105302865B
Authority
CN
China
Prior art keywords
data
computer room
data file
idc computer
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510609088.1A
Other languages
English (en)
Other versions
CN105302865A (zh
Inventor
彭佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201510609088.1A priority Critical patent/CN105302865B/zh
Publication of CN105302865A publication Critical patent/CN105302865A/zh
Application granted granted Critical
Publication of CN105302865B publication Critical patent/CN105302865B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Abstract

本申请公开了一种实现数据处理的方法及装置,包括:分别上传各个互联网数据中心(IDC)机房的原始数据文件到数据集群;将上传至数据集群的各个IDC机房的原始数据文件按照分析需分别求进行格式转换获得各IDC机房相应的转换数据文件;将各IDC机房的转换数据文件分别写入数据集群。本发明通过直接将原始数据文件上传到数据集群,按照分析数据进行格式转换后再进行写入,避免了以数据库数据信息进行数据存储过程中原始数据汇聚和转换为数据库数据信息的并发压力,提高了数据处理的工作效率。

Description

一种实现数据处理的方法及装置
技术领域
本申请涉及大数据领域,尤指一种实现数据处理的方法及装置。
背景技术
当前针对电信数据进行数据存储时,将各个互联网数据中心(IDC)机房的原始数据转换为数据库数据信息,将数据库数据信息写入到数据集群中进行存储,图1为现有的数据处理系统的结构框图,如图1所示,为了避免数据库数据信息直接写入数据集群造成数据积压,需要将原始数据汇聚到省汇聚服务器后,通过省汇聚服务器将汇聚的原始数据转换为数据库数据信息传输到数据集群中,数据处理工作效率低;目前,提高数据处理工作效率主要通过增加硬件设备提升数据处理能力来实现,成本较大。另外,数据集群对数据库数据信息按照磁盘阵列(RAID)方式进行数据备份,存在数据冗余(只能利用百分之70左右),浪费了大量的数据集群的存储资源。
发明内容
为了解决上述问题,本发明提供一种实现数据处理的方法及装置,能够提高数据处理的工作效率和降低数据冗余。
为了达到本发明的目的,本申请提供一种实现数据处理的方法,包括:
分别上传各个互联网数据中心IDC机房的原始数据文件到数据集群;
将上传至数据集群的各个IDC机房的原始数据文件按照分析需分别求进行格式转换获得各IDC机房相应的转换数据文件;
将各IDC机房的转换数据文件分别写入数据集群。
进一步地,上传原始数据文件具体包括:以预设时长为周期,分别上传各个互联网数据中心IDC机房的原始数据文件到所述数据集群的缓存;
所述预设时长根据分析需求的最小数据量级进行确定。
进一步地,分析需求包括:分析所需的协议、和/或访问网址、和/或访问端口、和/或外网网络之间互连的协议IP、和/或上网时间及时长。
进一步地,将各IDC机房的转换数据文件分别写入数据集群具体包括:通过预先为各IDC机房分别建立的一个或一组应用程序编程接口API函数作为文件写入函数,将各IDC机房的所述转换数据文件分别写入所述数据集群。
进一步地,该方法还包括:
将所述数据集群区分为两个或两个以上分区区域后,将所述转换数据文件在各个分区区域分别进行备份。
另一方面,本申请还提供一种实现数据处理的装置,包括:上传单元、格式转换单元和写入单元;其中,
上传单元,用于分别上传各个IDC机房的原始数据文件到数据集群;
格式转换单元,用于将上传至数据集群的各个IDC机房的原始数据文件按照分析需分别求进行格式转换获得各IDC机房相应的转换数据文件;
写入单元,用于将各IDC机房的转换数据文件分别写入数据集群。
进一步地,上传单元具体用于,
以预设时长为周期,分别上传各个IDC机房的原始数据文件至所述数据集群的缓存;
所述预设时长根据分析需求的最小数据量级进行确定。
进一步地,分析需求包括:分析所需的协议、和/或访问网址、和/或访问端口、和/或外网网络之间互连的协议IP、和/或上网时间及时长。
进一步地,写入单元具体用于,通过预先为各IDC机房分别建立的一个或一组应用程序编程接口API函数作为文件写入函数,将各IDC机房的所述转换数据文件分别写入所述数据集群。
进一步地,该装置还包括分区备份单元,用于将所述数据集群区分为两个或两个以上分区区域后,将所述转换数据文件在各个分区区域分别进行备份。
与现有技术相比,本发明提供的技术方案,包括:分别上传各个IDC机房的原始数据文件到数据集群;将上传至数据集群的各个IDC机房的原始数据文件按照分析需分别求进行格式转换获得各IDC机房相应的转换数据文件;将各IDC机房的转换数据文件分别写入数据集群。本发明通过直接将原始数据文件上传到数据集群,按照分析数据进行格式转换后再进行写入,避免了以数据库数据信息进行数据存储过程中原始数据汇聚和转换为数据库数据信息的并发压力,提高了数据处理的工作效率。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为现有的数据处理系统的结构框图;
图2为本发明实现数据处理的方法的流程图;
图3为本发明实现数据处理的装置的结构框图;
图4为本发明实施例实现数据处理的系统的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图2为本发明实现数据处理的方法的流程图,如图2所示,包括:
步骤200、分别上传各个互联网数据中心(IDC)机房的原始数据文件到数据集群;
本步骤中,上传原始数据文件具体包括:以预设时长为周期,分别上传各个IDC机房的原始数据文件到数据集群的缓存;
预设时长根据分析需求的最小数据量级进行确定。
步骤201、将上传至数据集群的各个IDC机房的原始数据文件按照分析需分别求进行格式转换获得各IDC机房相应的转换数据文件;
优选的,分析需求包括:分析所需的协议、和/或访问网址、和/或访问端口、和/或外网网络之间互连的协议(IP)、和/或上网时间及时长。
需要说明的是,这里的协议可以是ICMP协议、TCP/IP、UDP协议等其中的一种或几种。
步骤202、将各IDC机房的转换数据文件分别写入数据集群。具体包括:
通过预先为各IDC机房分别建立的一个或一组应用程序编程接口(API)函数作为文件写入函数,将各IDC机房的转换数据文件分别写入数据集群。
需要说明的是,对格式转换完成的转换数据文件可以按照一定的数据块大小进行分割后存储,数据块大小和分割方法为本领域技术人员的惯用技术手段,在此不再赘述。
本发明方法还包括:
将数据集群区分为两个或两个以上分区区域后,将转换数据文件在各个分区区域分别进行备份。
需要说明的是,采用分区区域进行转换数据文件的备份可以实现对数据集群存储资源的高效利用,一般的可以达到100%的利用,因此,通过备份在保证信息安全的前提下0,提高了存储资源的利用率。
本发明通过直接将原始数据文件上传到数据集群,按照分析数据进行格式转换后再进行写入,避免了以数据库数据信息进行数据存储过程中原始数据汇聚和转换为数据库数据信息的并发压力,提高了数据处理的工作效率。
图3为本发明实现数据处理的装置的结构框图,如图3所示,包括:上传单元、格式转换单元和写入单元;其中,
上传单元,用于分别上传各个IDC机房的原始数据文件到数据集群;
上传单元具体用于,
以预设时长为周期,分别上传各个IDC机房的原始数据文件至数据集群的缓存;
预设时长根据分析需求的最小数据量级进行确定。
需要说明的是,根据IDC机房分布,上传单元一般为一种组合单元,类似与一个多通道的接口单元,上传单元中包含若干子单元,各子单元与IDC机房成一一对应的连接关系。
格式转换单元,用于将上传至数据集群的各个IDC机房的原始数据文件按照分析需分别求进行格式转换获得各IDC机房相应的转换数据文件;这里,分析需求包括:分析所需的协议、和/或访问网址、和/或访问端口、和/或外网网络之间互连的协议(IP)、和/或上网时间及时长。
写入单元,用于将各IDC机房的转换数据文件分别写入数据集群。
写入单元具体用于,通过预先为各IDC机房分别建立的一个或一组API函数作为文件写入函数,将各IDC机房的转换数据文件分别写入数据集群。
本发明装置还包括分区备份单元,用于将数据集群区分为两个或两个以上分区区域后,将转换数据文件在各个分区区域分别进行备份。
需要说明的是,本发明装置各个单元可以拆分设置至各个IDC机房及数据集群中构成系统,也可以作为独立的装置与IDC机房和数据集群建立连接和工作,具体设置方式不需要本领域技术进行创造性劳动。
以下通过具体实施例对本发明方法进行清楚详细的说明,实施例仅用于陈述本发明,并不用于限定本发明方法的保护范围。
本实施例上传单元是一个组合单元,上传单元的各个子单元分别设置在相应的IDC机房中,格式转换单元设置与数据集群的缓存区域,用于将上传的原始数据文件按照分析需求进行格式转换;写入单元与格式转换单元连接设置在数据集群内,通过预先为各IDC机房分别建立的一个或一组API函数作为文件写入函数,将各IDC机房的转换数据文件分别写入数据集群。图4为本发明实施例实现数据处理的系统的结构框图,如图4所示,包括:IDC机房、数据集群;
各IDC计算包含有上传单元的子单元,用于分别上传自身IDC的原始数据文件到数据集群的缓存;
数据集群包括格式转换单元、写入单元和分区备份单元;其中,
格式转换单元,用于将缓存中各个IDC机房上传的原始数据文件,按照分析需求进行转换获得转换数据文件;
写入单元,用于将各个IDC机房相应的转换数据文件分别通过预先为各IDC机房分别建立的一个或一组API函数作为文件写入函数,将各IDC机房的转换数据文件分别写入数据集群。
分区备份单元,用于将数据集群区分为两个或两个以上分区区域后,将转换数据文件在各个分区区域分别进行备份。
虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请,如本发明实施方式中的具体的实现方法。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (8)

1.一种实现数据处理的方法,其特征在于,包括:
分别上传各个互联网数据中心IDC机房的原始数据文件到数据集群;
将上传至数据集群的各个IDC机房的原始数据文件按照分析需求分别进行格式转换获得各IDC机房相应的转换数据文件;
通过预先为各IDC机房分别建立的一个或一组应用程序编程接口API函数作为文件写入函数,将各IDC机房的所述转换数据文件分别写入所述数据集群。
2.根据权利要求1所述的方法,其特征在于,所述上传原始数据文件具体包括:以预设时长为周期,分别上传各个互联网数据中心IDC机房的原始数据文件到所述数据集群的缓存;
所述预设时长根据分析需求的最小数据量级进行确定。
3.根据权利要求1或2所述的方法,其特征在于,所述分析需求包括:分析所需的协议、和/或访问网址、和/或访问端口、和/或外网网络之间互连的协议IP、和/或上网时间及时长。
4.根据权利要求1或2所述的方法,其特征在于,该方法还包括:
将所述数据集群区分为两个或两个以上分区区域后,将所述转换数据文件在各个分区区域分别进行备份。
5.一种实现数据处理的装置,其特征在于,包括:上传单元、格式转换单元和写入单元;其中,
上传单元,用于分别上传各个IDC机房的原始数据文件到数据集群;
格式转换单元,用于将上传至数据集群的各个IDC机房的原始数据文件按照分析需求分别进行格式转换获得各IDC机房相应的转换数据文件;
写入单元,用于通过预先为各IDC机房分别建立的一个或一组应用程序编程接口API函数作为文件写入函数,将各IDC机房的所述转换数据文件分别写入所述数据集群。
6.根据权利要求5所述的装置,其特征在于,所述上传单元具体用于,
以预设时长为周期,分别上传各个IDC机房的原始数据文件至所述数据集群的缓存;
所述预设时长根据分析需求的最小数据量级进行确定。
7.根据权利要求5或6所述的装置,其特征在于,所述分析需求包括:分析所需的协议、和/或访问网址、和/或访问端口、和/或外网网络之间互连的协议IP、和/或上网时间及时长。
8.根据权利要求5或6所述的装置,其特征在于,该装置还包括分区备份单元,用于将所述数据集群区分为两个或两个以上分区区域后,将所述转换数据文件在各个分区区域分别进行备份。
CN201510609088.1A 2015-09-22 2015-09-22 一种实现数据处理的方法及装置 Active CN105302865B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510609088.1A CN105302865B (zh) 2015-09-22 2015-09-22 一种实现数据处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510609088.1A CN105302865B (zh) 2015-09-22 2015-09-22 一种实现数据处理的方法及装置

Publications (2)

Publication Number Publication Date
CN105302865A CN105302865A (zh) 2016-02-03
CN105302865B true CN105302865B (zh) 2019-04-26

Family

ID=55200135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510609088.1A Active CN105302865B (zh) 2015-09-22 2015-09-22 一种实现数据处理的方法及装置

Country Status (1)

Country Link
CN (1) CN105302865B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103327085A (zh) * 2013-06-05 2013-09-25 深圳市中博科创信息技术有限公司 一种分布式数据处理方法、数据中心及其系统
CN103699692A (zh) * 2014-01-11 2014-04-02 樊建 物联网接入平台数据管理方法
CN103797770A (zh) * 2012-12-31 2014-05-14 华为技术有限公司 一种共享存储资源的方法和系统
CN203933662U (zh) * 2014-01-02 2014-11-05 中安消技术有限公司 一种云存储服务器集群的运维装置及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676760B2 (en) * 2008-08-05 2014-03-18 International Business Machines Corporation Maintaining data integrity in data servers across data centers

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103797770A (zh) * 2012-12-31 2014-05-14 华为技术有限公司 一种共享存储资源的方法和系统
CN103327085A (zh) * 2013-06-05 2013-09-25 深圳市中博科创信息技术有限公司 一种分布式数据处理方法、数据中心及其系统
CN203933662U (zh) * 2014-01-02 2014-11-05 中安消技术有限公司 一种云存储服务器集群的运维装置及系统
CN103699692A (zh) * 2014-01-11 2014-04-02 樊建 物联网接入平台数据管理方法

Also Published As

Publication number Publication date
CN105302865A (zh) 2016-02-03

Similar Documents

Publication Publication Date Title
JP6890401B2 (ja) 多重モード格納管理装置、多重モード格納装置、及びその選別潜在露出(sue)マッピング動作方法
US9756128B2 (en) Switched direct attached shared storage architecture
CN110351336B (zh) 一种基于docker容器的边缘服务迁移方法
WO2007049109A3 (en) Method and system for compression of logical data objects for storage
WO2012092602A3 (en) Methods and systems for caching data communications over computer networks
CN101299181A (zh) 基于磁盘进行i/o请求缓存的方法和装置以及san存储设备
WO2016182756A1 (en) Accessing multiple storage devices from multiple hosts without remote direct memory access (rdma)
CN103942330B (zh) 一种大数据的处理方法、系统
EP2495648A2 (en) Improving network efficiency for continuous remote copy
CN103117878A (zh) 一种基于Nagios的分布式监控系统的设计方法
CN104572505A (zh) 一种保证海量数据缓存最终一致性的系统及方法
WO2016188373A1 (zh) 存储系统中融合san及nas存储架构的方法及装置
CN104516687A (zh) 一种Linux块设备的Windows远程映射方法
WO2016008338A1 (zh) 一种i/o请求处理方法及存储系统
CN105407044A (zh) 一种基于nfs的云存储网关系统的实现方法
CN103338156B (zh) 一种基于线程池的命名管道服务器并发通信方法
WO2016029524A1 (zh) 一种用于闪存的网络存储设备及其处理方法
CN105141662A (zh) 一种云桌面数据管理方法、客户端、远程数据中心和系统
CN105302865B (zh) 一种实现数据处理的方法及装置
CN104317747B (zh) 一种网格接收机的数据缓存与发送装置及方法
CN103533075A (zh) 将数据导入iSCSI目标器的方法和iSCSI启动器
CN111314495A (zh) 基于物联网LoRaWAN的通信方法、装置、设备、存储介质和系统
CN101931776B (zh) 视频监控中的数据存储系统及数据存储、预览和回放方法
US20120136958A1 (en) Method for analyzing protocol data unit of internet small computer systems interface
US8892613B1 (en) Method and system for efficiently reading a partitioned directory incident to a serialized process

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant