CN103544196A - BigBase高通量大数据在线分析软硬件一体机 - Google Patents

BigBase高通量大数据在线分析软硬件一体机 Download PDF

Info

Publication number
CN103544196A
CN103544196A CN201210533520.XA CN201210533520A CN103544196A CN 103544196 A CN103544196 A CN 103544196A CN 201210533520 A CN201210533520 A CN 201210533520A CN 103544196 A CN103544196 A CN 103544196A
Authority
CN
China
Prior art keywords
data
hardware
software
bigbase
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210533520.XA
Other languages
English (en)
Inventor
闫忠华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201210533520.XA priority Critical patent/CN103544196A/zh
Publication of CN103544196A publication Critical patent/CN103544196A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

BigBase高通量大数据在线分析软硬件一体机是一款share-nothing架构基于列式存储技术、适用于大规模结构化数据存储和在线分析、覆盖数据采集/处理/分析和服务全生命周期的软硬件一体化设备。主要有多索引列技术,服务端计算技术,资源隔离技术,类SQL查询语言和标准的JDBC接口技术,高通量数据导入技术,访问控制技术和硬件透明压缩技术等技术的专用软硬件一体机。

Description

BigBase高通量大数据在线分析软硬件一体机
技术领域
BigBase高通量大数据在线分析软硬件一体机是一款大规模结构化数据存储和在线分析的新型软硬件一体机,能够解决现有服务器无法满足海量结构化数据在线分析应用的需求。
背景技术
人类发展和科技进步使得人们产生和获取的信息量呈爆炸性增长。如何处理和分析大量数据已经成为当前信息技术领域的难点和热点问题,而大数据在线分析——对海量数据进行采集、存储、计算和分析并且要求分析结果在秒级的时间内返回——更是难题中的难题。在结构化数据存储领域,传统关系型数据库的单机数据容量极限为1000万条记录到5000万条记录之间,但是当前很多应用的数据远远超出该规模,传统数据库难以应付。
发明内容
为了解决在线处理、分析海量数据的难题,BigBase高通量大数据在线分析软硬件一体机,在硬件设备方面,本产品提供专用的硬件服务器和硬件数据压缩加速卡。该系统采用技术方案是:
1、BigBase基于Hadoop平台开发,支持多索引列,任何列都可以作为索引列。
2、把常用的排序、总数、去重总数、求和平均、分组、区间等放在服务端计算。
3、通过在一个集群内将数据服务器和数据库表动态划分为不同的组,同时支持对数据服务器和数据库表进行性能的平衡。
4、以硬件数据压缩卡,实现了数据的硬件透明压缩和解压缩,有效地提升了系统的数据写入和统计查询的速度。
5、实现了一种快速并行数据导入技术,极大的提高了数据写入的吞吐量。
6、对于BigBase中的一张表(Table),可以设置限定某个单个用户的读写权限,也可以针对某个组,还可以针对其他人或者其他组进行设置。
本发明的有益效果是:该一体机有如下特性:1、高吞吐率:数据写入速度达到每台服务器每秒100万条记录以上,比关系型数据库快100倍以上,高于内存数据库的写入速度。数据查询时间在毫秒级,而关系型数据库在单表记录达到1千万条以上时查询速度会慢的难以忍受;2、服务端计算:提供NoSQL数据所不具备的区间查询以及服务端统计计算能力;3、大容量:系统可以扩展到上千台服务器,提供PB级的存储能力。而传统的关系型数据库和内存数据库只能支持TB级;4、低膨胀率:可以提供5倍以上的数据压缩率。在采用2个数据副本的情况下,系统数据甚至小于原始数据;5、软硬件一体化:通过专用的硬件服务器和数据压缩卡最大限度地提高性能;6、节能环保:一台服务器相当于普通的4台2U服务器的计算能力。机架空间占用量为普通服务器的25%,耗电量为普通服务器的40%。
具体实施方式
对于BigBase高通量大数据在线分析软硬件一体机,我们可以根据用户数据规模大小和应用需求的不同,可以有配置不同的规格型号的产品。BigBase高通量大数据在线分析软硬件一体机运行环境要求:
硬件环境:1、环境节点数:数目不少于4的同构X86_64机器;2、CPU:至少Intel或AMD双路6核及以上主流型号;3、内存:单台机器的内存不小于48GB;4、存储:只需使用本地硬盘,推荐单台机器12个硬盘盘位;硬盘型号不做特别要求,为降低系统构建成本,可以采用SATA中端普通服务器硬盘;硬盘空间大小随应用的数据规模而定;5、网卡:双千兆或者万兆网卡;
软件环境:1、OS:支持64位CentOS 5.*,或者64位CentOS 6.*;2、JVM:预装OracleX8664位JDK 1.6及以上版本;3、其他库:4、Shell;5、Gcc;
网络要求:各机器之间默认开放2181、9000、9001、9290、10090、35871、35872、35862、50060、50070、50075、50030、60030、60000、60020、60010端口。其他对外开放的端口随应用需求而定。
在底层的硬件设备方面,本产品提供专用的硬件服务器和硬件数据压缩加速卡以实现性能的进一步优化,同时也支持在通用的X86系列商用PC服务器上安装部署。
在软件方面,本产品以HDFS作为数据存储所使用的分布式文件系统,以Apache HBase为核心,以Apache Zookeeper做HBase相关节点、数据等的管理工作。在此基础上,对HBase进行了大量的改进和增强工作,加入了数据压缩/解压缩、服务端聚集计算框架、数据索引、RPC调度、性能隔离、SQL解析器、批量数据导入导出工具、用户管理与访问控制、系统运维工具、基准测试工具等模块,同时提供Web界面、命令行和Java API等三种使用方式。下面对各模块分别加以介绍:
●数据压缩/解压缩模块:实现了软件方式以及基于专用硬件压缩卡的数据压缩/解压缩,而且数据压缩对上层用户透明。通过压缩可以将数据存储空间压缩到原来的20%左右,有效降低了硬盘实际读写数据量,大大提高了数据读写速度。在相同数据规模的条件下,可以显著减少系统所需要的硬盘存储空间和服务器个数。
●服务端聚集计算框架:解决了原来HBase只能提供<Key,Value>方式的简单查询的问题。在功能上,该框架实现了传统数据库通常支持的范围查询、统计计算等。支持包括sum、avg、count、group、sort等所有常见的统计算子,使得系统的查询功能接近传统的关系型数据库。在性能上,通过将查询结果的计算直接放到数据服务器上进行,一方面避免了把大量数据发送到客户端,只需把计算结果返回即可;另一方面又充分利用了数据服务器的计算能力,从而提升了运算效率,提高了硬件资源的利用率。
●数据索引:主要解决原有HBase只能对主键进行索引的问题。通过增加多维索引,以针对任意列构建索引,大大提升了系统的查询速度。在索引方式上支持包括二级索引、聚簇索引(CCIndex)以及混合索引方式。
●性能隔离和RPC调度:通过在一个集群内将数据服务器和数据表动态划分为不同的组,同时支持对数据服务器和数据库表进行性能的平衡。从而保证不同组可以获得相应的性能保证,使得系统能够以一个集群支持多个不同的应用,并且应用之间不会相互影响性能。
●SQL解析器:主要负责对传统的SQL查询语句进行解析,转化成本系统所能够识别的查询命令。从而降低了系统的使用门槛,方便熟悉传统数据库的应用开发人员使用本系统。
●批量数据并行导入/导出工具:主要实现将存储在文件中的数据高速并行导入到系统中,同时系统中的数据和查询结果也可以很方便地导出到系统外。
●用户管理和访问控制模块:主要实现对用户和用户组进行管理,以确定哪些用户能够对哪些数据表进行哪些操作,从而提高数据的安全性。
●系统运维工具:主要实现对系统中的各种软硬件设备的监控和运行维护的管理,从而进一步降低了应用开发人员和系统管理人员的技术门槛。
●系统基准测试工具:用于提供对系统的基准性能测试,方便用户对系统进行性能评估和测试,为相关应用的开发提供性能指标的依据。
●Web Portal是系统的Web使用界面:一方面以图形化的方式提供对系统的软硬件资源和数据的监控和运维管理,另一方面提供系统所有功能的人机交互图形化界面。
●Shell/CLI通过将相关功能的API进行封装,向用户提供基于命令的访问方式。
●API主要提供Java应用程序访问接口,从而支持各种上层应用和系统的二次开发。
BigBase高通量大数据在线分析软硬件一体机标准产品形态为软硬件一体,其中部署了定制的数据压缩加速卡。
服务器参数:硬件服务器采用标准2U服务器机框,提供4个完备的计算节点。系统利用各个服务器的本地磁盘作为存储介质,无需专用的盘阵等设备。根据数据规模,系统可以通过多个服务器级联的方式进行扩展。同时硬件服务器根据应用的不同可以有多种可选配置,以下是常见的服务器规格及技术参数:
表格1:BigBase高通量大数据在线分析软硬件一体机产品的硬件规格及技术参数
Figure BSA00000821801400061

Claims (10)

1.一种BigBase高通量大数据在线分析软硬件一体机,是一款share-nothing架构[9]基于列式存储技术、适用于大规模结构化数据存储和在线分析、覆盖数据采集/处理/分析和服务全生命周期的软硬件一体化设备,解决了硬件的压缩性高容量存储和软件信息的海量存储与在线分析的难题,其特征在于:软硬件一体,硬件压缩整合技术,在软件方面,量身定做的BigBase系统以Apache HDFS[6]作为数据存储所使用的分布式文件系统,以Apache HBase[7]为核心,以Apache Zookeeper[8]做HBase相关节点、数据等的管理工作,在此基础上,对HBase进行了大量的改进和增强工作,增加了多索引列、服务端计算、性能隔离、批量导入、访问控制、标准化接口等一系列功能,可以支持超大规模数据资产的可靠存储和低响应时间的数据查询统计分析等应用,在硬件设备方面,本产品提供专用的硬件服务器和硬件数据压缩加速卡以实现性能的进一步优化,结合行业用户的不同需求,配备了专用的一体化硬件平台,该平台采用一体化服务器,在与通用服务器相同大小的2U空间中集成了4个计算单元,机架空间占用量为普通服务器的25%,耗电量为普通服务器的40%。
2.根据权利要求1所述的BigBase高通量大数据在线分析软硬件一体机,其特征是:适应大规模结构化数据的存储和随机在线读写场景;数据节点不存在单点失效,扩展性好;数据规模上升时,通过添加对应数量的数据节点,性能基本不变;HDFS保证数据可靠性;支持软件或者硬件的方式对数据进行压缩和解压缩;支持多个索引列;支持在服务端进行统计计算,支持sum、avg、sort等所有常见统计算子;一套系统可以同时支撑多个应用,且性能相互不受影响;支持文件数据的批量导入;用户按权限访问各自的数据;支持Web界面、Shell、API等多种访问方式;支持类SQL查询语句。
3.根据权利要求1所述的BigBase高通量大数据在线分析软硬件一体机,其特征是:独有的多索引列技术:多索引列可以解决诸如HBase等当前主流的列簇式NoSQL数据库系统在多列查询上的功能缺失和性能低下的问题,解决了原有HBase只能有一个索引列的问题,增加了多索引列的支持,任何列都可以作为索引列,大大提升了系统的查询速度。
4.根据权利要求l所述的BigBase高通量大数据在线分析软硬件一体机,其特征是:独有的服务端计算技术:利用数据服务器的计算能力,将查询结果的计算直接放到数据服务器上进行,一方面避免了把大量数据发送到客户端,只需把计算结果返回即可;另一方面又充分利用了数据服务器的计算能力,提升了运算效率,提高了硬件资源的利用率,目前支持所有常见的运算符,包括排序、总数、去重总数、求和平均、分组、区间,上述运算符还可以进行组合使用。
5.根据权利要求1所述的BigBase高通量大数据在线分析软硬件一体机,其特征是:独有的资源隔离技术:通过在一个集群内将数据服务器和数据库表动态划分为不同的组,同时支持对数据服务器和数据库表进行性能的平衡,从而保证不同组可以获得相应的性能保证,使得系统能够以一个集群支持多个不同的应用,并且应用之间不会相互影响性能。
6.根据权利要求1所述的BigBase高通量大数据在线分析软硬件一体机,其特征是:透明硬件压缩技术:BigBase高通量大数据在线分析软硬件一体机针对很多行业对数据膨胀率的严格要求,开发了强大的软硬件压缩技术,除了可以采用软件的方式对数据进行压缩和解压缩外,还自主研发了专用的硬件数据压缩卡,实现了数据的硬件透明压缩和解压缩,平均数据压缩率达到了20%,大大降低了数据存储空间,有效地提升了系统的数据写入和统计查询的速度。
7.根据权利要求1所述的BigBase高通量大数据在线分析软硬件一体机,其特征是:专用的一体化硬件平台:BigBase高通量大数据在线分析软硬件一体机除了支持在通用的商业服务器上部署和使用外,还针对软件的特点,结合行业用户的不同需求,配备了专用的一体化硬件平台,该平台采用一体化服务器,在与通用服务器相同大小的2U空间中集成了4个计算单元,机架空间占用量为普通服务器的25%,耗电量为普通服务器的40%,经过一系列的改进和调试,目前已经和BigBase的软件部分完美融合,其技术和性能都达到国际上最先进水平,同时满足了节能、环保、高效的需求。
8.根据权利要求1所述的BigBase高通量大数据在线分析软硬件一体机,其特征是:类SQL查询语言和标准的JDBC接口:BigBase高通量大数据在线分析软硬件一体机原创性的实现了类SQL语言的查询操作,在NoSQL平台之上封装了标准的JDBC接口,大大降低了应用程序开发人员的使用,提高了系统的易用性。
9.根据权利要求1所述的BigBase高通量大数据在线分析软硬件一体机,其特征是:高通量数据导入技术:BigBase高通量大数据在线分析软硬件一体机借助底层HDFS及其之上的分布式计算功能,独创性的实现了一种快速高效可靠的数据导入技术,极大的提高了数据写入的吞吐量,数据写入速度达到每台服务器每秒100万条记录以上,比关系型数据库快100倍以上,高于内存数据库的写入速度。
10.根据权利要求1所述的BigBase高通量大数据在线分析软硬件一体机,其特征是:独有的访问控制技术:为保证数据的安全,BigBase高通量大数据在线分析软硬件一体机提供了专门的访问控制机制,对于BigBase高通量大数据在线分析软硬件一体机中的一张表(Table),可以设置限定某个单个用户的读写权限,也可以针对某个组,还可以针对其他人或者其他组进行设置,基于这种访问控制技术所提供的数据表级权限访问控制和用户管理,可以保证多个不同的应用部署在一套BigBase高通量大数据在线分析软硬件一体机系统之上,达到用户数据的安全隔离。
CN201210533520.XA 2012-07-16 2012-12-12 BigBase高通量大数据在线分析软硬件一体机 Pending CN103544196A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210533520.XA CN103544196A (zh) 2012-07-16 2012-12-12 BigBase高通量大数据在线分析软硬件一体机

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201220342303 2012-07-16
CN201220342303.8 2012-07-16
CN201210533520.XA CN103544196A (zh) 2012-07-16 2012-12-12 BigBase高通量大数据在线分析软硬件一体机

Publications (1)

Publication Number Publication Date
CN103544196A true CN103544196A (zh) 2014-01-29

Family

ID=49967657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210533520.XA Pending CN103544196A (zh) 2012-07-16 2012-12-12 BigBase高通量大数据在线分析软硬件一体机

Country Status (1)

Country Link
CN (1) CN103544196A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035522A (zh) * 2014-06-16 2014-09-10 南京云创存储科技有限公司 大数据库一体机
CN104199947A (zh) * 2014-09-11 2014-12-10 浪潮集团有限公司 一种对重点人员言论监督与关联关系挖掘的方法
CN108694221A (zh) * 2017-04-12 2018-10-23 中国移动通信集团福建有限公司 数据实时分析方法、模块、设备和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035522A (zh) * 2014-06-16 2014-09-10 南京云创存储科技有限公司 大数据库一体机
CN104199947A (zh) * 2014-09-11 2014-12-10 浪潮集团有限公司 一种对重点人员言论监督与关联关系挖掘的方法
CN108694221A (zh) * 2017-04-12 2018-10-23 中国移动通信集团福建有限公司 数据实时分析方法、模块、设备和装置
CN108694221B (zh) * 2017-04-12 2021-06-25 中国移动通信集团福建有限公司 数据实时分析方法、模块、设备和装置

Similar Documents

Publication Publication Date Title
Ji et al. Big data processing in cloud computing environments
Bakshi Considerations for big data: Architecture and approach
Ji et al. Big data processing: Big challenges and opportunities
CN107408114B (zh) 基于事务访问模式识别联结关系
CN106503276A (zh) 一种用于实时监控系统的时间序列数据库的方法与装置
Xia et al. Big traffic data processing framework for intelligent monitoring and recording systems
CN104391903A (zh) 一种基于分布存储和并行计算的电网数据质量检测方法
CN109582717A (zh) 一种面向电力大数据的数据库统一平台及其读取方法
CN114328688A (zh) 一种针对电力能源大数据的管控平台
CN107807961B (zh) 一种基于Spark计算引擎的配电网大数据分区处理方法
CN103257923B (zh) 数据中心数据分析类基准测试程序的应用选取方法及系统
Gibadullin et al. Service-oriented distributed energy data management using big data technologies
Senger et al. BSP cost and scalability analysis for MapReduce operations
Luo et al. Big-data analytics: challenges, key technologies and prospects
CN107818106B (zh) 一种大数据离线计算数据质量校验方法和装置
CN103544196A (zh) BigBase高通量大数据在线分析软硬件一体机
Shen et al. Meteorological sensor data storage mechanism based on timescaledb and kafka
Dong et al. Research on Architecture of Power Big Data High-Speed Storage System for Energy Interconnection
Chou et al. The implementation of a data-accessing platform built from big data warehouse of electric loads
Chou et al. A high-performance data accessing and processing system for campus real-time power usage
Ding et al. Storing and querying large-scale spatio-temporal graphs with high-throughput edge insertions
Li et al. Evaluating spatial keyword queries under the mapreduce framework
Luo et al. [Retracted] Design of Data Classification and Classification Management System for Big Data of Hydropower Enterprises Based on Data Standards
CN112910974A (zh) 一种基于区块链系统架构的系统及方法
CN112434010A (zh) 一种用电信息采集系统主站数据库的交互方法

Legal Events

Date Code Title Description
DD01 Delivery of document by public notice

Addressee: Yan Zhonghua

Document name: Notification of Passing Preliminary Examination of the Application for Invention

C06 Publication
PB01 Publication
DD01 Delivery of document by public notice

Addressee: Yan Zhonghua

Document name: Notification of Publication of the Application for Invention

DD01 Delivery of document by public notice

Addressee: Yan Zhonghua

Document name: Notification of before Expiration of Request of Examination as to Substance

DD01 Delivery of document by public notice

Addressee: Yan Zhonghua

Document name: Notification that Application Deemed to be Withdrawn

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140129