CN110888919B - 基于HBase的对大数据统计分析的方法及装置 - Google Patents

基于HBase的对大数据统计分析的方法及装置 Download PDF

Info

Publication number
CN110888919B
CN110888919B CN201911225197.8A CN201911225197A CN110888919B CN 110888919 B CN110888919 B CN 110888919B CN 201911225197 A CN201911225197 A CN 201911225197A CN 110888919 B CN110888919 B CN 110888919B
Authority
CN
China
Prior art keywords
data
column
server
hbase
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911225197.8A
Other languages
English (en)
Other versions
CN110888919A (zh
Inventor
薛玉胜
牛峰
许盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sungrow Power Supply Co Ltd
Original Assignee
Sungrow Power Supply Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sungrow Power Supply Co Ltd filed Critical Sungrow Power Supply Co Ltd
Priority to CN201911225197.8A priority Critical patent/CN110888919B/zh
Publication of CN110888919A publication Critical patent/CN110888919A/zh
Application granted granted Critical
Publication of CN110888919B publication Critical patent/CN110888919B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及基于HBase的对大数据统计分析的方法及装置,所述方法包括:在表的region中增加第二列B;将待计算的数据保存在第二列B中,并将计算得到的数据保存在所述表的第一列A中;根据HBase控制台的信息,确定每个服务器上负载的region数是否一致;如果不一致,则调整各个服务器上的region数,使得每个服务器上负载的region数保持一致;以及使得各个region的数据量分布保持一致。本申请中的方法至少可以实现数据计算和数据存储的本地化处理,从而有效降低网络负载,并提高了数据处理效率。

Description

基于HBase的对大数据统计分析的方法及装置
技术领域
本申请涉及电力系统领域,特别是涉及一种基于HBase的对大数据统计分析的方法及装置。
背景技术
由于煤炭、石油等传统能源导致的环境污染问题日益严峻,太阳能作为最具潜力的可再生能源,因其储量的无限性、存在的普遍性、利用的清洁性以及实用的经济性,越来越被人们所青睐。大力发展光伏产业、积极开发太阳能,在全球范围得到了空前重视,已成为各国可持续发展战略的重要组成部分。
在光伏监控系统中,需要针对逆变器、电表、环境监测仪等设备的各类指标提供均峰谷(即均值、峰值、谷值)报表,例如逆变器发电量的均值、峰值、谷值。当计算时,需要将一天内各个时刻点的数据从数据库中取出,再计算出相应设备的数据的均值、峰值、谷值。
关于各个设备的海量数据现在主要以HBase、HDFS、Hive等作为底层数据存储方案。HBase是一个分布式的、面向列的开源数据库,与Bigtable利用了Google文件系统所提供的分布式数据存储类似,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。此外,HBase基于列的模式而不是基于行的模式。
在HBase集群分布数据中,Region是最小单位。每个Region包含完整的行,因此Region是以行为单位的数据表的一个子集。
HBase中包含多个服务器(HRegionServer),它们主要负责响应用户的I/O请求,是HBase中最核心的模块。每个服务器内部管理了一系列HRegion对象,每个HRegion对应了Table中的一个Region。
HBase协处理器允许用户在服务器上运行子集的代码和执行Region级的操作。
图1中示出了现有的基于HBase系统的大数据计算的基本架构图。从图1可见,在现在通常采用的技术中,与各个设备有关的数据的均峰谷值的计算使用Spark框架来并行执行。首先使用Spark从HBase集群查询出待计算数据,然后将数据分发到各个计算节点上并行计算,最后将计算结果回写到HBase。这种计算方式,需要从数据库查询大量数据并传递到计算集群中,对服务器内存和网络带宽要求高并且计算性能差。目前主流的技术方案是使用Hbase协处理器来计算均峰谷,它允许用户在数据库集群的服务器上查询数据并进行计算,避免了通过网络交互传递数据而影响性能。然而,随着光伏电站集控系统的接入电站数量越来越多,用于计算的数据量呈现指数级增长,导致计算耗时长,并且对数据库服务器性能和服务器数量要求越来越高,使得运营成本不断增加。
发明内容
本申请的目的旨在至少解决上述技术缺陷之一,特别是提供了一种基于HBase的对大数据统计分析的方法,所述方法包括:在表的region中增加第二列B;将待计算的数据保存在第二列B中,并将计算得到的数据保存在所述表的第一列A中;根据HBase控制台的信息,确定每个服务器上负载的region数是否一致;如果不一致,则调整各个服务器上的region数,使得每个服务器上负载的region数保持一致;以及使得各个region的数据量分布保持一致。
进一步地,所述方法还包括,第二列B的行键的算法规则与第一列A的行键一致。
进一步地,所述方法还包括,第二列B中数据的有效期被预设为固定期限,并且当超过所述固定期限之后,第二列B中的数据被清除。
进一步地,所述方法还包括,第一列A中数据的有效期被预设为永久,并且将计算结果的数据保存在第一列A中。
进一步地,所述使得每个服务器上负载的region数保持一致包括:重新映射表中所有的region与服务器的关系,并且通过shell命令行调用相应的应用程序以将region在各个服务器上重新分配。
进一步地,所述使得各个region的数据量分布重新均衡包括:对数据量过大或过小的region,利用shell命令行调用相应的应用程序对其拆分或合并,使得各个region的数据量分布保持一致。
进一步地,所述对大数据统计分析包括:计算所述大数据中的平均值、波峰和波谷。
本申请的实施例还提供了一种基于HBase的对大数据统计分析的装置,所述装置包括:存储器;以及处理器,所述处理器被配置为:在表的region中增加第二列B;将待计算的数据保存在第二列B中,并将计算得到的数据保存在所述表的第一列A中;根据HBase控制台的信息,确定每个服务器上负载的region数是否一致;如果不一致,则调整各个服务器上的region数,使得每个服务器上负载的region数保持一致;以及使得各个region的数据量分布保持一致。
进一步地,所述处理器被进一步配置为:将第二列B中数据的有效期预设为固定期限,并且当超过所述固定期限之后,清除第二列B中的数据。
进一步地,所述处理器被进一步配置为:重新映射表中所有的region与服务器的关系,并且接收shell命令行,调用相应的应用程序以将region在各个服务器上重新分配。
附图说明
图1示意性地示出了现有的基于HBase系统的大数据计算的基本架构图;
图2示出了根据本申请的实施例的用于计算大数据均峰谷的HBase的基本架构图;
图3示出了根据本申请的实施例的HRegionServer的组件结构的示意图;
图4示出了根据本申请的实施例的用于计算大数据均峰谷的方法的流程图;以及
图5示出了根据本申请的实施例的用于计算大数据均峰谷的装置。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图2示出了根据本申请的实施例的用于计算大数据均峰谷的HBase的基本架构图。不同于如图1中所描述的现有技术中,HBase与zookeeper直接交互并且HBase与用于大规模数据处理的Spark之间不直接交互,在
图2所示的方案中,在首次交换数据时,客户端通过zookeeper与HBase交互,并且在后续的过程中,客户端通过在本地缓存的HBase元数据与HBase服务器直接交互。这是因为,数据处理任务被分割为多个子任务,并分别在各个服务器(HRegionServer)上执行。通过这种方式,可以避免将大量的数据从HBase通过zookeeper传递到Spark,降低了网络负载;同时,通过多个服务器对计算任务进行并行处理,提高了数据处理的效率。
图3示出了根据本申请的实施例的HRegionServer的组件结构的示意图。该图仅为示例,并不意图限制本发明所请求保护的范围。
在图3所示的HRegionServer中,在计算处理时,均峰谷协处理器从业务表region分批读取所有的数据,进行遍历并计算,并将计算结果发送到结果表的region中。由于随着业务量的增长和时间的积累,业务表的region的数据量将增长到千兆(GB)级,对所有数据进行遍历并计算将消耗大量的服务器资源,这将导致内存溢出和较长的计算时间,从而影响HBase集群的稳定性。为了解决这一问题,本申请提出了以下的处理方案。
图4示出了根据本申请的实施例的用于计算大数据均峰谷的方法的流程图。该图仅为示例,并不意图限制本发明所请求保护的范围。
在步骤S410中,在均峰谷表的region中增加新的列B。在原先的均峰谷表中,仅存在一列A,该列A用于保存其他表的计算结果数据。在本申请的技术方案中,新增加的列B的行键(rowkey)的算法规则与该列A的行键一致,例如,可以根据业务规则以及读写规则来组合,并且利用MD5等哈希算法进行散列处理来获取列A和列B的行键值。
在步骤S420中,将待计算的数据保存在列B中,并将计算得到的数据保存在另一列A中。可以将列B中数据的有效期设置为某个固定的期限(例如3天),并将待计算的数据保存在列B中,当超过该固定的期限之后,列B中的数据被自动清除;同时,将该表结构中的另一列A中数据的有效期设置为永久,用于保存计算所得到的数据。作为实施以上处理的一种示例性方式,可以通过命令:“alter'表名',{NAME=>'列族名',TTL=>259200,COMPRESSION=>'SNAPPY'}”来将列B中数据的有效期设置为3天。
在这一步骤中,通过利用在均峰谷表中新增的列B来保存待计算的数据,可以使均峰谷协处理器在计算时从本地存储的均峰谷表中的列B获取待计算的数据,并将计算结果直接保存在该均峰谷表中的列A;这一计算过程不存在节点之间的网络交互,从而提高了计算性能并降低了网络负载。
此外,通过将新增的列B中数据的有效期设置为固定期限,并将列B中超过固定期限的数据清除,可以在对所有数据进行遍历时有效地减少需要检索的数据量,从而显著降低了内存的占用。
在步骤S430中,确定每个服务器上负载的region数是否一致。这一步骤可以根据HBase控制台的信息来执行。
在步骤S440中,如果不一致,则对region重新均衡,使得每个服务器上负载的region数保持一致。这一步骤可以通过利用shell命令行调用相应的应用程序来执行。
具体地,HBase的主节点HMaster负责将集群中的所有region均衡地分配到各个服务器上,以确保所有的服务器节点负载均衡。然而,HMaster无法针对单个表的region来实现负载均衡,这导致一部分服务器上没有被分配该表的region,从而处于空闲状态,而另一部分服务器上被分配了该表中过多的region,导致计算压力过大。因此,在这一步骤中,需要重新映射表中所有的region与服务器的关系,通过利用shell命令行调用相应的应用程序来将region重新均衡地分配到各个服务器上,从而实现在计算均峰谷值时各个服务器之间负载均衡的目的。例如,可以通过如下的命令来在各个服务器上分配region:“move‘regionId’,‘Server服务器ID’”。
在步骤S450中,检查每个region的数据量的大小,并且针对数据量大且计算时间长或者数据量小且计算时间短的region,利用shell命令行进行拆分或合并,使得各个region的数据量分布保持一致。
通常,HBase的region默认大小是10G,当数据量达到临界值时才会自动拆分为两个region以限制其大小。为了改善计算的性能,在本申请的技术方案中,针对region的大小进行如下的设计方式:1)如果表中存在很多数据量非常少的region,使用shell命令行调用相应的应用程序进行合并,以降低Server并发量;2)如果发生数据分布不均衡导致表中某些region数据量非常大,影响整体计算效率,则使用shell命令行调用相应的应用程序将这些region拆分以提高并发量,使得各个region计算耗时均衡。作为一种示例性实施的方式,可以通过如下的命令来实现将一个较大的region拆分成两个较小的region:“split‘regionId’”。
虽然上述示出的实施例中描述了计算大数据的均峰谷的方式,但本领域的技术人员可以理解,这些实施例也可以推广到对大数据进行统计分析的其余处理方式,并且这些处理方式也在本申请的保护范围之内。
本申请还涉及用于计算大数据均峰谷的装置。
图5示意性地示出了根据本申请的实施例的用于计算大数据均峰谷的装置。该图仅为示例,并不意图限制本发明所请求保护的范围。
图5中所示的计算设备500是可以用于实施根据在本申请的实施例中阐述的各种方法的硬件设备的示例。计算设备500可以是被配置为执行处理流程和/或计算操作的任何类型的机器,其可以是但不限于服务器、工作站、PC、笔记本PC、平板PC或其任何组合。根据本公开的实施例的用于计算大数据均峰谷的装置可以全部或至少部分地由计算设备500或与其类似的设备或系统来实现。
如图5所示,计算设备500可以包括以下一个或多个组件:处理组件502、存储器504、电源组件506、多媒体组件508、音频组件510、输入/输出(I/O)接口512、传感器组件514、以及通信组件516。
处理组件502通常控制计算设备500的整体操作,诸如与显示、数据通信、用户交互、计算操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器518来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在计算设备500的操作。这些数据的示例包括用于在计算设备500上操作的任何应用程序或方法的指令、消息、图片、视频等。在本申请中,存储器504可以用于存储与各个设备有关的数据以及用于计算大数据均峰谷的指令或程序。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘等。
电源组件506为计算设备500的各种组件提供电力。电源组件506可以包括电源管理系统、一个或多个电源、及其他与为计算设备500生成、管理和分配电力相关联的组件。
多媒体组件508包括在计算设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP),其中液晶显示器(LCD)用于将计算大数据均峰谷的结果向用户显示。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当计算设备500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号,以提醒用户关于所述计算大数据均峰谷的方法流程中的当前状态。
I/O接口512为处理组件502和外围接口模块之间提供接口以接收用户输入的操作,上述外围接口模块可以是键盘、点击轮、按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为计算设备500提供各个方面的状态评估。例如,传感器组件514可以检测到计算设备500的打开/关闭状态,组件的相对定位,例如组件为计算设备500的显示器和小键盘,传感器组件514还可以检测计算设备500或计算设备500中的某个组件的位置改变,用户与计算设备500接触的存在或不存在,计算设备500方位或加速/减速和计算设备500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。
通信组件516被配置为便于计算设备500和其他设备之间有线或无线方式的通信。计算设备500可以接入基于通信标准的无线网络,如Wi-Fi、2G或3G、或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。
在示例性实施例中,计算设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述特征提取方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由计算设备500的处理器518执行以完成上述计算大数据均峰谷的方法。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于HBase的对大数据统计分析的方法,其特征在于,所述方法包括:
在表的region中增加第二列B;
将待计算的数据保存在第二列B中,并将计算得到的数据保存在所述表的第一列A中;
根据HBase控制台的信息,确定每个服务器上负载的region数是否一致;
如果不一致,则调整各个服务器上的region数,使得每个服务器上负载的region数保持一致;以及使得各个region的数据量分布保持一致;
其中,第二列B的行键的算法规则与第一列A的行键一致;
其中,在首次交换数据时,客户端通过zookeeper与HBase交互,并且在后续的过程中,客户端通过在本地缓存的HBase元数据与HBase服务器直接交互;
其中,所述使得每个服务器上负载的region数保持一致包括:
重新映射表中所有的region与服务器的关系,并且
通过shell命令行调用相应的应用程序以将region在各个服务器上重新分配;
其中,所述使得各个region的数据量分布重新均衡包括:
对数据量过大或过小的region,利用shell命令行调用相应的应用程序对其拆分或合并,使得各个region的数据量分布保持一致。
2.如权利要求1所述的方法,其特征在于,第二列B中数据的有效期被预设为固定期限,并且,
当超过所述固定期限之后,第二列B中的数据被清除。
3.如权利要求2所述的方法,其特征在于,第一列A中数据的有效期被预设为永久,并且将计算结果的数据保存在第一列A中。
4.如权利要求1所述的方法,其特征在于,对大数据统计分析包括:计算所述大数据中的平均值、波峰和波谷。
5.一种基于HBase的对大数据统计分析的装置,其特征在于,所述装置用以实现权利要求1-4任一基于HBase的对大数据统计分析的方法,所述装置包括:
存储器;以及
处理器,所述处理器被配置为:
在表的region中增加第二列B;
将待计算的数据保存在第二列B中,并将计算得到的数据保存在所述表的第一列A中;
根据HBase控制台的信息,确定每个服务器上负载的region数是否一致;
如果不一致,则调整各个服务器上的region数,使得每个服务器上负载的region数保持一致;以及
使得各个region的数据量分布保持一致。
6.如权利要求5所述的装置,其特征在于,所述处理器被进一步配置为:
将第二列B中数据的有效期预设为固定期限,并且当超过所述固定期限之后,清除第二列B中的数据。
7.如权利要求6所述的装置,其特征在于,所述处理器被进一步配置为:
重新映射表中所有的region与服务器的关系,并且,
接收shell命令行,调用相应的应用程序以将region在各个服务器上重新分配。
CN201911225197.8A 2019-12-04 2019-12-04 基于HBase的对大数据统计分析的方法及装置 Active CN110888919B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911225197.8A CN110888919B (zh) 2019-12-04 2019-12-04 基于HBase的对大数据统计分析的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911225197.8A CN110888919B (zh) 2019-12-04 2019-12-04 基于HBase的对大数据统计分析的方法及装置

Publications (2)

Publication Number Publication Date
CN110888919A CN110888919A (zh) 2020-03-17
CN110888919B true CN110888919B (zh) 2023-06-30

Family

ID=69750260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911225197.8A Active CN110888919B (zh) 2019-12-04 2019-12-04 基于HBase的对大数据统计分析的方法及装置

Country Status (1)

Country Link
CN (1) CN110888919B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105681414A (zh) * 2016-01-14 2016-06-15 深圳市博瑞得科技有限公司 一种避免Hbase数据热点的方法及系统
CN106330836A (zh) * 2015-07-01 2017-01-11 北京京东尚科信息技术有限公司 一种服务端对客户端的访问控制方法
CN107368575A (zh) * 2016-09-21 2017-11-21 广州特道信息科技有限公司 一种负载均衡的分布式NewSQL数据库系统
CN110515726A (zh) * 2019-08-14 2019-11-29 苏州浪潮智能科技有限公司 一种数据库负载均衡方法与装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1821993A (zh) * 2006-03-24 2006-08-23 无锡永中科技有限公司 基于时间序列的电子表格数据处理方法
US9842126B2 (en) * 2012-04-20 2017-12-12 Cloudera, Inc. Automatic repair of corrupt HBases
CN103226467B (zh) * 2013-05-23 2015-09-30 中国人民解放军国防科学技术大学 数据并行处理方法、系统及负载均衡调度器
CN104750757B (zh) * 2013-12-31 2018-05-08 中国移动通信集团公司 一种基于HBase的数据存储方法和设备
CN104268257A (zh) * 2014-10-09 2015-01-07 浪潮(北京)电子信息产业有限公司 基于HBase表实现聚合计算的方法和装置
CN104243621A (zh) * 2014-10-17 2014-12-24 浪潮电子信息产业股份有限公司 一种改进的hbase负载均衡策略
CN104376047B (zh) * 2014-10-28 2017-06-30 浪潮电子信息产业股份有限公司 一种基于HBase的大表join方法
CN108280123B (zh) * 2017-12-11 2021-12-21 西安烽火软件科技有限公司 一种HBase的列聚合方法
CN109241194A (zh) * 2018-09-29 2019-01-18 广东省信息工程有限公司 基于高性能集群分布的数据库系统的负载均衡方法及装置
CN109918450B (zh) * 2019-03-20 2024-01-09 江苏瑞中数据股份有限公司 基于分析类场景下的分布式并行数据库及存储方法
CN110502543B (zh) * 2019-08-07 2022-07-12 京信网络系统股份有限公司 设备性能数据存储方法、装置、设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106330836A (zh) * 2015-07-01 2017-01-11 北京京东尚科信息技术有限公司 一种服务端对客户端的访问控制方法
CN105681414A (zh) * 2016-01-14 2016-06-15 深圳市博瑞得科技有限公司 一种避免Hbase数据热点的方法及系统
CN107368575A (zh) * 2016-09-21 2017-11-21 广州特道信息科技有限公司 一种负载均衡的分布式NewSQL数据库系统
CN110515726A (zh) * 2019-08-14 2019-11-29 苏州浪潮智能科技有限公司 一种数据库负载均衡方法与装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡波 ; 谭良 ; .HBase架构中RPC客户端的通信性能优化.计算机科学.2016,(第04期),第97-110页. *

Also Published As

Publication number Publication date
CN110888919A (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN107908672B (zh) 基于Hadoop平台的应用报表实现方法、设备及存储介质
CN112860695B (zh) 监控数据查询方法、装置、设备、存储介质及程序产品
CN103440288A (zh) 一种大数据存储方法及装置
CN103617211A (zh) 一种HBase加载数据的导入方法
CN107016039B (zh) 数据库写入的方法和数据库系统
CN112000703B (zh) 数据入库处理方法、装置、计算机设备和存储介质
CN108363741B (zh) 大数据统一接口方法、装置、设备及存储介质
CN112783874A (zh) 一种数据分析方法、装置和系统
CN111177237A (zh) 一种数据处理系统、方法及装置
CN112148779A (zh) 确定业务指标的方法、装置及存储介质
CN110888919B (zh) 基于HBase的对大数据统计分析的方法及装置
CN112506887A (zh) 车辆终端can总线数据处理方法及装置
CN112286930A (zh) redis业务方资源共享的方法、装置、存储介质及电子设备
CN116431615A (zh) 一种面向复杂业务场景的灵活数据分区路由方法
CN116468586A (zh) 社交媒体中诉求事件智能批转方法和系统
Shou-Qiang et al. Research and design of hybrid collaborative filtering algorithm scalability reform based on genetic algorithm optimization
CN112948206B (zh) 基于云计算的时序日志管理系统及包含该系统的电子设备
CN112434010A (zh) 一种用电信息采集系统主站数据库的交互方法
Wei et al. Design of manufacturing big data access platform based on SOA
CN113961603B (zh) 一种大屏数据展示方法、装置、电子设备及存储介质
Ren et al. Data mining based on cloud-computing technology
Li et al. Research on Information Resources Based on Cloud Computing
CN113918996B (zh) 分布式数据处理方法、装置、计算机设备和存储介质
CN113297002B (zh) 数据库工作模式的切换方法和装置
CN118260306A (zh) 流数据管理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant