CN106021574A - 一种数据存储复制方法及其存储复制系统 - Google Patents

一种数据存储复制方法及其存储复制系统 Download PDF

Info

Publication number
CN106021574A
CN106021574A CN201610379876.0A CN201610379876A CN106021574A CN 106021574 A CN106021574 A CN 106021574A CN 201610379876 A CN201610379876 A CN 201610379876A CN 106021574 A CN106021574 A CN 106021574A
Authority
CN
China
Prior art keywords
data
distributed
cluster
data base
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610379876.0A
Other languages
English (en)
Inventor
周春寅
余保华
范联伟
李铮
胡兴
吴磊
李贤军
徐圣吉
张金国
胡斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Sun Create Electronic Co Ltd
Original Assignee
Anhui Sun Create Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Sun Create Electronic Co Ltd filed Critical Anhui Sun Create Electronic Co Ltd
Priority to CN201610379876.0A priority Critical patent/CN106021574A/zh
Publication of CN106021574A publication Critical patent/CN106021574A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1471Saving, restoring, recovering or retrying involving logging of persistent data for recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1474Saving, restoring, recovering or retrying in transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/273Asynchronous replication or reconciliation

Abstract

本发明属于数据存储复制领域,特别涉及一种数据存储复制方法及其存储复制系统。本发明包括有用于对数据进行查询的主数据集群和用于对数据进行分布式计算的从数据集群,前端传感器将采集到的数据存储于主数据集群的第一分布式数据库中,然后第一分布式数据库向从数据集群中的第二分布式数据库中进行所述数据的复制,所述从数据集群利用内部的分布式计算系统对数据执行分布式计算算法;因此本发明使用两个集群来分别承担对数据的查询和分布式计算的工作,因此本发明保证了日常查询请求效率较高,用户的体验效果较好,而且读写和运算的资源量较小,系统可靠性和稳定性均较高。

Description

一种数据存储复制方法及其存储复制系统
技术领域
本发明属于数据存储复制领域,特别涉及一种数据存储复制方法及其存储复制系统。
背景技术
Hadoop是一个Java语言开发的针对集群上大数据集分布式存储和分布式运算开源的软件框架,用户可以利用Hadoop轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量的数据处理,HBase是Hadoop的分布式数据库,用于更改对大数据提供随机、实时的读写访问功能,具有开源、分布式、可扩展及面向列存储的特点。
现有技术中通常使用一个集群来承担对数据的查询和分布式计算的工作,因此会导致大规模分布式计算在运行的过程中日常查询请求效率下降甚至请求失败,而且所需读写和运算的资源量较大,系统可靠性和稳定性较低,因此,亟需提出一种可以将数据的查询和分布式计算区分开的系统来解决上述问题。
发明内容
本发明为了克服上述现有技术的不足,提供了一种数据存储复制方法,本方法将分布式数据库的存储查询运算和分布式计算分离,因此保证了日常查询请求效率较高。
为实现上述目的,本发明采用了以下技术措施:
一种数据存储复制方法,具体包括以下步骤:
S1、采集传感器将采集到的数据存储于主数据集群的第一分布式数据库,所述第一分布式数据库设计所述数据的存储策略;
S2、所述第一分布式数据库将所述数据复制到从数据集群中的第二分布式数据库;
S3、所述从数据集群利用内部的分布式计算系统对所述数据执行分布式计算算法;
S4、所述分布式计算系统将分布式的计算结果输出。
优选的,步骤S1中的所述第一分布式数据库设计所述数据的存储策略,具体步骤包括:
S11、所述第一分布式数据库将所述数据所存在的数据表的主键自动建立索引;
S12、将用于查询的字段设置为所述数据表的主键,若所述字段不具备唯一性,则在所述字段上添加序列号。
优选的,所述步骤S2中的数据复制具体包括以下步骤:
S21、所述第一分布式数据库向所述第二分布式数据库发送数据写入日志,即所述第一分布式数据库向第二分布式数据库写入数据的同时记录数据的操作和内容;
S22、所述第二分布式数据库根据数据写入日志写入数据。
进一步的,所述数据的复制采用主推送的架构模式。
本发明还提供了一种数据存储复制方法的存储复制系统,本系统包括所述主数据集群和所述从数据集群,其中,
主数据集群,所述主数据集群的输入端接收所述前端传感器所采集到的数据;
从数据集群,用于对所述数据进行分布式计算,所述从数据集群的输入端连接所述主数据集群的输出端。
优选的,所述主数据集群包括第一分布式数据库,所述第一分布式数据库的输出端连接从数据集群的输入端。
优选的,所述从数据集群包括所述第二分布式数据库和分布式计算系统,所述第二分布式数据库的输入端连接第一分布式数据库的输出端,第二分布式数据库的输出端连接所述分布式计算系统的输入端,分布式计算系统的输出端输出分布式的计算结果至数据库中。
进一步的,所述第一分布式数据库、第二分布式数据库均为HBase分布式数据库。
进一步的,所述分布式计算系统为MapReduce分布式计算系统。
本发明的有益效果在于:
1)、本发明包括有用于对数据进行查询的主数据集群和用于对数据进行分布式计算的从数据集群,前端传感器将采集到的数据存储于主数据集群的第一分布式数据库中,然后第一分布式数据库向从数据集群中的第二分布式数据库中进行所述数据的复制,所述从数据集群利用内部的分布式计算系统对数据执行分布式计算算法;因此本发明使用两个集群来分别承担对数据的查询和分布式计算的工作,因此本发明保证了日常查询请求效率较高,用户的体验效果较好,而且读写和运算的资源量较小,系统可靠性和稳定性均较高。
2)、数据的复制具体步骤包括所述第一分布式数据库向所述第二分布式数据库发送数据写入日志,即所述第一分布式数据库向第二分布式数据库写入数据的同时记录数据的操作和内容;所述第二分布式数据库根据数据写入日志写入数据,因此当第二分布式数据库写入数据失败时可以进行回滚操作,当数据库出现故障时,可以对数据进行恢复;且数据的复制采用主推送的架构模式,因此本复制方法是异步的,从数据集群在进行分布式计算时会具备一定的滞后性,可以根据实际情况来选择合理的运行时间,保证了分析的完整性。
3)、所述第一分布式数据库、第二分布式数据库均为HBase分布式数据库,HBase分布式数据库是一个高可靠性、高性能、可伸缩的分布式数据库,所述分布式计算系统为MapReduce分布式计算系统,能够用来存储和处理大型数据。
附图说明
图1为本发明的结构原理图;
图2为本发明的数据存储复制方法的流程图;
图3为本发明的数据存储复制方法的流程图的具体结构流程图。
10—主数据集群 11—第一HBase分布式数据库
20—从数据集群 21—第二HBase分布式数据库
22—MapReduce分布式计算系统
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1、2所示,一种数据存储复制方法,具体包括以下步骤:
S1、采集传感器将采集到的数据存储于主数据集群10的第一分布式数据库11,所述第一分布式数据库11设计所述数据的存储策略;
S2、所述第一分布式数据库11将所述数据复制到从数据集群20中的第二分布式数据库21;
S3、所述从数据集群20利用内部的分布式计算系统22对所述数据执行分布式计算算法;
S4、所述分布式计算系统22将分布式的计算结果输出至存储数据库中。
下面结合附图3说明步骤S1中的所述第一HBase分布式数据库11设计所述数据的存储策略,具体步骤包括:
S11、所述第一分布式数据库11在所述数据所存在的数据表中自动建立索引;
S12、将用于查询的字段设置为所述数据表的主键,若所述字段不具备唯一性,则在所述字段上添加序列号,用于保证主键的唯一性。
下面结合附图3说明步骤S2中的数据的复制采用主推送的架构模式,具体包括以下步骤:
S21、所述第一分布式数据库11向所述第二分布式数据库21发送数据写入日志,即所述第一分布式数据库11向第二分布式数据库21写入数据的同时记录数据的操作和内容,当第二分布式数据库写入数据失败时可以进行回滚操作,当数据库出现故障时,可以对数据进行恢复;
S22、所述第二HBase分布式数据库21根据所述数据写入日志写入数据。
主推送即为一个主数据集群将数据复制到任意数目的从数据集群的架构模式。
如图1所示,一种数据存储复制系统,本系统包括所述主数据集群10和所述从数据集群20,所述主数据集群10用于对所述数据进行查询,所述主数据集群10的输入端接收所述前端传感器所采集到的数据;所述从数据集群20用于对所述数据进行分布式计算,所述从数据集群20的输入端连接所述主数据集群10的输出端。
所述从数据集群20包括所述第二HBase分布式数据库21和MapReduce分布式计算系统22,所述第二HBase分布式数据库21的输入端连接所述主数据集群10中的第一HBase分布式数据库11的输出端,第二HBase分布式数据库21的输出端连接所述MapReduce分布式计算系统22的输入端,MapReduce分布式计算系统22的输出端输出分布式的计算结果至Oracle数据库中。
如图1~3所示,以交通卡口采集过车数据为例,前端传感器将采集到的过车数据存储于主数据集群10的第一分布式数据库11中,所述第一分布式数据库11在所述过车数据存在的数据表中自动建立索引,因为常用查询项为卡口编号、过车时间、车牌号,因此将卡口编号+过车时间+车牌号设置为所述数据表的主键。
同时主数据集群10会记录数据写入日志,其中包括全部的写入数据,所述主数据集群10定期将其数据写入日志发送到从数据集群20,从数据集群20根据该日志写入数据,保证数据和主集群一致。
所述从数据集群20利用所述MapReduce分布式计算系统22执行分布式计算算法,由于数据的复制采用主推送的架构模式,因此本复制方法是异步的,从数据集群在进行分布式计算时会具备一定的滞后性,可以根据实际情况来选择合理的运行时间,保证了分析的完整性。例如,主数据集群10每个半个小时向从数据集群20发送数据写入日志,则从数据集群20应以至少半小时之前的数据作为分析对象。
最后将分布式计算的结果输出到Oracle数据库中。

Claims (9)

1.一种数据存储复制方法,其特征在于,具体包括以下步骤:
S1、采集传感器将采集到的数据存储于主数据集群(10)的第一分布式数据库(11),所述第一分布式数据库(11)设计所述数据的存储策略;
S2、所述第一分布式数据库(11)将所述数据复制到从数据集群(20)中的第二分布式数据库(21);
S3、所述从数据集群(20)利用内部的分布式计算系统(22)对所述数据执行分布式计算算法;
S4、所述分布式计算系统(22)将分布式的计算结果输出。
2.如权利要求1所述的一种数据存储复制方法,其特征在于,步骤S1中的所述第一分布式数据库(11)设计所述数据的存储策略,具体步骤包括:
S11、所述第一分布式数据库(11)将所述数据所存在的数据表的主键自动建立索引;
S12、将用于查询的字段设置为所述数据表的主键,若所述字段不具备唯一性,则在所述字段上添加序列号。
3.如权利要求2所述的一种数据存储复制方法,其特征在于,所述步骤S2中的数据复制具体包括以下步骤:
S21、所述第一分布式数据库(11)向所述第二分布式数据库(21)发送数据写入日志,即所述第一分布式数据库(11)向第二分布式数据库(21)写入数据的同时记录数据的操作和内容;
S22、所述第二分布式数据库(21)根据数据写入日志写入数据。
4.如权利要求3所述的一种数据存储复制方法,其特征在于:所述数据的复制采用主推送的架构模式。
5.如权利要求1~4任一项所述的一种数据存储复制系统,其特征在于:本系统包括所述主数据集群(10)和所述从数据集群(20),其中,
主数据集群(10),所述主数据集群(10)的输入端接收所述前端传感器所采集到的数据;
从数据集群(20),用于对所述数据进行分布式计算,所述从数据集群(20)的输入端连接所述主数据集群(10)的输出端。
6.如权利要求5所述的一种数据存储复制系统,其特征在于:所述主数据集群(10)包括第一分布式数据库(11),所述第一分布式数据库(11)的输出端连接从数据集群(20)的输入端。
7.如权利要求6所述的一种数据存储复制系统,其特征在于:所述从数据集群(20)包括所述第二分布式数据库(21)和分布式计算系统(22),所述第二分布式数据库(21)的输入端连接第一分布式数据库(11)的输出端,第二分布式数据库(21)的输出端连接所述分布式计算系统(22)的输入端,分布式计算系统(22)的输出端输出分布式的计算结果至数据库中。
8.如权利要求7所述的一种数据存储复制系统,其特征在于:所述第一分布式数据库(11)、第二分布式数据库(21)均为HBase分布式数据库。
9.如权利要求7所述的一种数据存储复制系统,其特征在于:所述分布式计算系统(22)为MapReduce分布式计算系统。
CN201610379876.0A 2016-05-27 2016-05-27 一种数据存储复制方法及其存储复制系统 Pending CN106021574A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610379876.0A CN106021574A (zh) 2016-05-27 2016-05-27 一种数据存储复制方法及其存储复制系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610379876.0A CN106021574A (zh) 2016-05-27 2016-05-27 一种数据存储复制方法及其存储复制系统

Publications (1)

Publication Number Publication Date
CN106021574A true CN106021574A (zh) 2016-10-12

Family

ID=57092069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610379876.0A Pending CN106021574A (zh) 2016-05-27 2016-05-27 一种数据存储复制方法及其存储复制系统

Country Status (1)

Country Link
CN (1) CN106021574A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897365A (zh) * 2017-01-11 2017-06-27 北京市天元网络技术股份有限公司 数据处理方法及装置
CN108595488A (zh) * 2018-03-15 2018-09-28 北京雷石天地电子技术有限公司 数据迁移方法和装置
CN108763300A (zh) * 2018-04-19 2018-11-06 北京奇艺世纪科技有限公司 一种数据查询方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514274A (zh) * 2013-09-17 2014-01-15 宁波东冠科技有限公司 非关系型数据库HBase的数据迁移方法
CN103793493A (zh) * 2014-01-21 2014-05-14 深圳市元征科技股份有限公司 一种处理车载终端海量数据的方法和系统
CN104462222A (zh) * 2014-11-11 2015-03-25 安徽四创电子股份有限公司 一种卡口车辆通行数据的分布式存储方法及系统
CN105138427A (zh) * 2015-08-21 2015-12-09 湖南亿谷科技发展股份有限公司 数据处理方法和系统
CN105512336A (zh) * 2015-12-29 2016-04-20 中国建设银行股份有限公司 一种基于Hadoop的海量数据处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514274A (zh) * 2013-09-17 2014-01-15 宁波东冠科技有限公司 非关系型数据库HBase的数据迁移方法
CN103793493A (zh) * 2014-01-21 2014-05-14 深圳市元征科技股份有限公司 一种处理车载终端海量数据的方法和系统
CN104462222A (zh) * 2014-11-11 2015-03-25 安徽四创电子股份有限公司 一种卡口车辆通行数据的分布式存储方法及系统
CN105138427A (zh) * 2015-08-21 2015-12-09 湖南亿谷科技发展股份有限公司 数据处理方法和系统
CN105512336A (zh) * 2015-12-29 2016-04-20 中国建设银行股份有限公司 一种基于Hadoop的海量数据处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨传辉: "《大规模分布式存储系统原理解析与架构实战》", 30 September 2013 *
韩路彪: "《看透SPRING MVC 源代码分析与实践》", 31 January 2016 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897365A (zh) * 2017-01-11 2017-06-27 北京市天元网络技术股份有限公司 数据处理方法及装置
CN106897365B (zh) * 2017-01-11 2020-02-14 北京市天元网络技术股份有限公司 数据处理方法及装置
CN108595488A (zh) * 2018-03-15 2018-09-28 北京雷石天地电子技术有限公司 数据迁移方法和装置
CN108763300A (zh) * 2018-04-19 2018-11-06 北京奇艺世纪科技有限公司 一种数据查询方法及装置
CN108763300B (zh) * 2018-04-19 2020-07-31 北京奇艺世纪科技有限公司 一种数据查询方法及装置

Similar Documents

Publication Publication Date Title
CN102521406B (zh) 海量结构化数据复杂查询任务的分布式查询方法和系统
CN102521405B (zh) 支持高速加载的海量结构化数据存储、查询方法和系统
WO2021091489A1 (en) Method and apparatus for storing time series data, and server and storage medium thereof
CN104657459A (zh) 一种基于文件粒度的海量数据存储方法
CN104915450A (zh) 一种基于HBase的大数据存储与检索方法及系统
CN106709035A (zh) 一种电力多维全景数据的预处理系统
CN106339274A (zh) 一种数据快照获取的方法及系统
CN104391903A (zh) 一种基于分布存储和并行计算的电网数据质量检测方法
CN103646111A (zh) 大数据环境下实现实时数据关联的系统及方法
CN106126601A (zh) 一种社保大数据分布式预处理方法及系统
CN103678590A (zh) 基于olap的报表采集装置和报表采集方法
CN104318481A (zh) 一种面向电网运行的全息时标量测数据萃取转换方法
CN109063005B (zh) 一种数据迁移方法及系统、存储介质、电子设备
CN105740344A (zh) 一种独立于数据库的sql语句合并方法及系统
CN104239377A (zh) 跨平台的数据检索方法及装置
CN108595664A (zh) 一种hadoop环境下的农业数据监控方法
CN106503087A (zh) 一种用于分布式数据访问的数据库中间件
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
CN106528793A (zh) 一种分布式空间数据库的时空分片存储方法
CN104834700A (zh) 一种基于轨迹变更的移动数据增量捕获方法
CN106021574A (zh) 一种数据存储复制方法及其存储复制系统
CN109298978A (zh) 一种指定位置的数据库集群的恢复方法及系统
CN110309233A (zh) 数据存储的方法、装置、服务器和存储介质
CN106991190A (zh) 一种数据库自动创建子数据库系统
CN110083306A (zh) 一种分布式对象存储系统及存储方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161012

RJ01 Rejection of invention patent application after publication