CN112015733A - 一种电力客服营配业务海量数据存储及快速查询方法 - Google Patents

一种电力客服营配业务海量数据存储及快速查询方法 Download PDF

Info

Publication number
CN112015733A
CN112015733A CN202010772183.4A CN202010772183A CN112015733A CN 112015733 A CN112015733 A CN 112015733A CN 202010772183 A CN202010772183 A CN 202010772183A CN 112015733 A CN112015733 A CN 112015733A
Authority
CN
China
Prior art keywords
data
customer service
power customer
distribution
service management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010772183.4A
Other languages
English (en)
Inventor
李玮
刘勃
何学东
黄秀彬
张莉
刘旭生
吕静贤
王颖
宋鹏飞
杨雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Co ltd Customer Service Center
Original Assignee
State Grid Co ltd Customer Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Co ltd Customer Service Center filed Critical State Grid Co ltd Customer Service Center
Priority to CN202010772183.4A priority Critical patent/CN112015733A/zh
Publication of CN112015733A publication Critical patent/CN112015733A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种电力客服营配业务海量数据存储及快速查询方法,涉及到电力领域,包括以下步骤:数据集成,按照业务需求,将全国范围营配相关数据集成至大数据平台,包括停电通知记录、每日冻结电能示值、停(上)电事件等智能电表等信息;HBase预分区存储把需要存储的海量电力客服业务管理营配贯通相关数据通过sqoop工具或者直接存储到HBase表中,HBase数据库在创建表的时候会自动分配出Region区域。本发明利用大数据分布式架构的存储方式,针对电力客服业务管理营配贯通相关数据的类型特点,利用列示存储,对原始电力客服业务管理营配贯通相关数据进行转换,以键值对的形式进行存储,同时按照键值的形式实现快速查询响应。

Description

一种电力客服营配业务海量数据存储及快速查询方法
技术领域
本发明涉及电力技术领域,尤其涉及一种电力客服营配业务海量数据存储及快速查询方法。
背景技术
在使用传统数据库以及大数据平台碰到了瓶颈,即传统的架构只支持垂直扩展,通过在一台机器上增加内存和CPU等硬件资源来提升电力客服业务管理营配贯通相关数据处理能力,但是相对电力客服业务管理营配贯通相关数据呈指数型增长,单机拓展很快就达到来极限。虽然Hadoop大数据平台能够存储和计算大规模数据,但是无法提供高效的交互式查询,查询效率低。
随着近年来电力业务量的井喷式发展,电力客服营配业务相关的数据及业务应用的随之增长,数据方面,电力客服营配数据具备增长量快、数据结构复杂等特点,传统关系型数据库在数据存储、检索均表现不足,因此需要一种电力客服营配业务海量数据存储及快速查询方法来满足人们的需求。
发明内容
本发明的目的在于提供一种电力客服营配业务海量数据存储及快速查询方法,以解决上述背景技术中提出的随着近年来电力业务量的井喷式发展,电力客服营配业务相关的数据及业务应用的随之增长,数据方面,电力客服营配数据具备增长量快、数据结构复杂等特点,传统关系型数据库在数据存储、检索均表现不足的问题。
为实现上述目的,本发明提供如下技术方案:一种电力客服营配业务海量数据存储及快速查询方法,包括以下步骤:
(1)、数据集成:按照业务需求,将全国范围营配相关数据集成至大数据平;
(2)、HBase预分区存储:把需要存储的海量电力客服业务管理营配贯通相关数据通过sqoop工具或者直接存储到HBase表中,HBase数据库在创建表的时候会自动分配出Region区域;
(3)、HBase二级快速索引:将存储的电力客服业务管理营配贯通相关数据通过分区优化策略,以及建表中列族优化的策略将电力客服业务管理营配贯通相关数据存储到表中。
优选的,所述数据集成步骤:
(1)、源端系统通过OGG的方式与目标端大数据平台,通过数据同步将电力客服业务管理营配贯通相关数据同步至目标端;
(2)、各源端系统针对本次需求信息新增同步表;
(3)、完成基于海量电力客服业务管理营配贯通相关数据实时同步及实时响应的存储设计,完实数据的高效存储;
(4)、基于客服中心帖源层、数据仓库的存储、加工方法,完成营配数据计算模型设计、数据加工逻辑算法开发、汇总模型开发,实现电力客服业务管理营配贯通相关数据的高效访问。
优选的,所述的Region结构:
(1)、Region区域先建立起索引;
(2)、在Region收到客户端发来的信息,建立Scanner对象对Region区域中的Row Key进行搜寻;
(3)、在搜寻的过程中会根据相应的Row Key值进行定位,得到索引的值,然后根据seekNext方法得到下一个Row Key,然后得到索引过程中的值,后将相应的值得到保存并将结果提高给客户端实现电力客服业务管理营配贯通相关数据的快速检索。
本发明的有益效果是:
本发明中,利用大数据分布式架构的存储方式,针对电力客服业务管理营配贯通相关数据的类型特点,利用列示存储,对原始电力客服业务管理营配贯通相关数据进行转换,以键值对的形式进行存储,同时按照键值的形式实现快速查询响应。
附图说明
图1为本发明提出的一种电力客服营配业务海量数据存储及快速查询方法的数据集成系统框图;
图2为本发明提出的一种电力客服营配业务海量数据存储及快速查询方法的Region结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-2,一种电力客服营配业务海量数据存储及快速查询方法,包括以下步骤:
(1)、数据集成
按照业务需求,将全国范围营配相关数据集成至大数据平台,包括停电通知记录、每日冻结电能示值、停(上)电事件等智能电表等信息;数据接入分以下几步:
一是源端系统通过OGG的方式与目标端大数据平台,通过数据同步将电力客服业务管理营配贯通相关数据同步至目标端。
二是为确保电力客服业务管理营配贯通相关数据集成至目标端的易用性及易维护性,各源端系统需针对本次需求信息新增同步表,要求两端表结构保持一致。
三是因集成源端的电力客服业务管理营配贯通相关数据量较大,数据实时响应需求高,对数据存储方式及技术要求较高,基于需求数据量、数据结构、数据内容等特征,结合应用需求,完成基于海量电力客服业务管理营配贯通相关数据实时同步及实时响应的存储设计,完实数据的高效存储。
四是按实际营配相关分析应用架构,结合数据中台设计,为满足应用端对海量电力客服业务管理营配贯通相关数据的高效响应访问需求,基于客服中心帖源层、数据仓库的存储、加工方法,完成营配数据计算模型设计、数据加工逻辑算法开发、汇总模型开发,实现电力客服业务管理营配贯通相关数据的高效访问。
针对已接入的营配相关数据、应用渠道通知记录、采集数据等数据,开展数据质量核查整改,确保数据接入的准确性、完整性、及时性;
(2)、HBase预分区存储
把需要存储的海量电力客服业务管理营配贯通相关数据通过sqoop工具或者直接存储到HBase表中,HBase数据库在创建表的时候会自动分配出Region区域。在读入电力客服业务管理营配贯通相关数据的时候,电力客服业务管理营配贯通相关数据会不停地存储到这个Region区域中,直到这个分区足够大的时候才会自动切分这些Region分区,并且每个Region区域都存在着一个startKey和endKey,这两个值确定了电力客服业务管理营配贯通相关数据的存储范围,即当Row Key的值落在某个区域就会被放入到某个Region区域。
当没有对电力客服业务管理营配贯通相关数据进行分区的时候,当电力客服业务管理营配贯通相关数据达到一定值的时候会自动进行分区,由于在HBase本身的结构特征,表中Row Key是通过升序方式进行排序的,所以后面存入的电力客服业务管理营配贯通相关数据都是被划分到后面的一个区域中,前面的Region区域空间中并没有存储到后面导入的电力客服业务管理营配贯通相关数据,导致没有完全填充满电力客服业务管理营配贯通相关数据。由于存储的电力客服业务管理营配贯通相关数据量非常大,会在该过程中会发生多次切分Region区域的情况,每次切分有一部分电力客服业务管理营配贯通相关数据都将不会被利用到,大大增加了存储效率以及存储空间,甚至可能导致HBase服务宕机。在应对海量的电力客服业务管理营配贯通相关数据时,需要根据这些电力客服业务管理营配贯通相关数据对表进行分区处理,然后通过对Row Key进行hash散列化,使这些海量电力客服业务管理营配贯通相关数据能够均匀地分布在Region分区内,从而大大提高Region区域的利用率;
(3)、HBase二级快速索引
将存储的电力客服业务管理营配贯通相关数据通过分区优化策略,以及建表中列族优化的策略将电力客服业务管理营配贯通相关数据存储到表中,为了实现海量电力客服业务管理营配贯通相关数据的快速检索,利用HBase表中的二级索引方式建立索引,传统的一级索引方式只是将索引建立在Row Key中,只能基于Row Rey对电力客服业务管理营配贯通相关数据进行扫描,只能解决一些简单的SQL语句。但是如果我们需要对HBase进行一些不同列族之间的电力客服业务管理营配贯通相关数据进行联合查询的时候,我们必须要采取二级索引的方式,二级索引的方式必须要建立在Region级别之上,主要是为了防止将索引表和数据表建立在不同的Region区域下。
二级索引建立和查询的思路过程:首先通过客户端向各个Region区域发送消息,分别在各个Region区域建立索引,并存储电力客服业务管理营配贯通相关数据。检索的过程是客户端会向各个区域发送信息,各个Region区域会对相应的电力客服业务管理营配贯通相关数据进行检索,查询,并将最后的结果返回给客户端,客户端获取到电力客服业务管理营配贯通相关数据,最后提交电力客服业务管理营配贯通相关数据。
本实用工作原理:
通过HBase列式存储能够解决传统数据库在存储海量电力客服业务管理营配贯通相关数据时的难点,加快电力客服业务管理营配贯通相关数据的检索效率,HBase列式存储,主要是通过键值对方式进行存储,能够支持实时的查询,并且在电力客服业务管理营配贯通相关数据导入到HBase表中可以先对表进行预分区处理,使电力客服业务管理营配贯通相关数据都能够均匀地分布在每一个分区内,再采取二级索引的方式对电力客服业务管理营配贯通相关数据进行快速检索,而传统的行式存储方式通过将一行行电力客服业务管理营配贯通相关数据地放在同一个区域,在电力客服业务管理营配贯通相关数据检索时无法忽略无关的列,增加检索耗时,当然在为了加快电力客服业务管理营配贯通相关数据检索效率方面,可以將elasticResearch工具和HBase进行联合使用,elasticResearch主要是支持json数据实现电力客服业务管理营配贯通相关数据的检索,可以通过对HBase中的数据建立索引实现电力客服业务管理营配贯通相关数据的快速定位。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (3)

1.一种电力客服营配业务海量数据存储及快速查询方法,其特征在于:包括以下步骤:
(1)数据集成:根据业务种类,将全国范围内的营配相关数据集成至大数据平台上;
(2)HBase预分区存储:把需要存储的电力客服业务管理营配贯通数据通过sqoop工具存储到HBase表中、或直接存储到HBase表中,HBase数据库创建表时、自动分配Region区域;
(3)HBase二级快速索引:将存储的电力客服业务管理营配贯通数据通过分区优化模式、和建表中列族优化模式,将电力客服业务管理营配贯通数据存储到HBase表中。
2.根据权利要求1所述的一种电力客服营配业务海量数据存储及快速查询方法,其特征在于:所述数据集成步骤包括:
(1)源端系统通过OGG的方式,将电力客服业务管理营配贯通数据同步至目标端大数据平台;
(2)源端系统针对步骤(1)中的需求信息新增同步表;
(3)对电力客服业务管理营配贯通数据进行实时同步和实时响应,并一一存储。
3.根据权利要求1所述的一种电力客服营配业务海量数据存储及快速查询方法,其特征在于:所述的HBase二级快速索引包括以下步骤:
(1)Region区域建立索引;
(2)在Region收到客户端发来的信息后,建立Scanner对象,对Region区域中的Row Key进行搜寻;
(3)在搜寻的过程中根据相应的Row Key值进行定位,得到索引的值,并根据seekNext方法得到下一个Row Key值、以及索引过程中的值,将得到的值保存并将结果反馈给客户端。
CN202010772183.4A 2020-08-04 2020-08-04 一种电力客服营配业务海量数据存储及快速查询方法 Pending CN112015733A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010772183.4A CN112015733A (zh) 2020-08-04 2020-08-04 一种电力客服营配业务海量数据存储及快速查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010772183.4A CN112015733A (zh) 2020-08-04 2020-08-04 一种电力客服营配业务海量数据存储及快速查询方法

Publications (1)

Publication Number Publication Date
CN112015733A true CN112015733A (zh) 2020-12-01

Family

ID=73499606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010772183.4A Pending CN112015733A (zh) 2020-08-04 2020-08-04 一种电力客服营配业务海量数据存储及快速查询方法

Country Status (1)

Country Link
CN (1) CN112015733A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559280A (zh) * 2020-12-04 2021-03-26 国网安徽省电力有限公司信息通信分公司 基于数据中台的数据全链路监控方法
CN112948374A (zh) * 2021-01-29 2021-06-11 吉林大学 一种基于逻辑程序的关系型数据库搜索方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239447A (zh) * 2014-09-01 2014-12-24 江苏瑞中数据股份有限公司 电网时序大数据存储方法
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
CN106055678A (zh) * 2016-06-07 2016-10-26 国网河南省电力公司电力科学研究院 一种基于hadoop的全景大数据分布式存储方法
CN106339509A (zh) * 2016-10-26 2017-01-18 国网山东省电力公司临沂供电公司 一种基于大数据技术的电网运营数据共享系统
CN106897450A (zh) * 2017-03-03 2017-06-27 郑州云海信息技术有限公司 一种基于HDFS海量数据快速导入HBase的方法
CN107330017A (zh) * 2017-06-16 2017-11-07 云南电网有限责任公司信息中心 一种基于主题实例的电力海量数据存储和查询统计分析方法及其系统
CN111078731A (zh) * 2019-11-25 2020-04-28 国网冀北电力有限公司 基于Hbase的电网运行数据协同查询方法、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239447A (zh) * 2014-09-01 2014-12-24 江苏瑞中数据股份有限公司 电网时序大数据存储方法
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
CN106055678A (zh) * 2016-06-07 2016-10-26 国网河南省电力公司电力科学研究院 一种基于hadoop的全景大数据分布式存储方法
CN106339509A (zh) * 2016-10-26 2017-01-18 国网山东省电力公司临沂供电公司 一种基于大数据技术的电网运营数据共享系统
CN106897450A (zh) * 2017-03-03 2017-06-27 郑州云海信息技术有限公司 一种基于HDFS海量数据快速导入HBase的方法
CN107330017A (zh) * 2017-06-16 2017-11-07 云南电网有限责任公司信息中心 一种基于主题实例的电力海量数据存储和查询统计分析方法及其系统
CN111078731A (zh) * 2019-11-25 2020-04-28 国网冀北电力有限公司 基于Hbase的电网运行数据协同查询方法、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559280A (zh) * 2020-12-04 2021-03-26 国网安徽省电力有限公司信息通信分公司 基于数据中台的数据全链路监控方法
CN112559280B (zh) * 2020-12-04 2023-08-22 国网安徽省电力有限公司信息通信分公司 基于数据中台的数据全链路监控方法
CN112948374A (zh) * 2021-01-29 2021-06-11 吉林大学 一种基于逻辑程序的关系型数据库搜索方法
CN112948374B (zh) * 2021-01-29 2022-07-08 吉林大学 一种基于逻辑程序的关系型数据库搜索方法

Similar Documents

Publication Publication Date Title
CN106528773B (zh) 一种基于Spark平台支持空间数据管理的图计算系统及方法
CN109582667A (zh) 一种基于电力调控大数据的多数据库混合存储方法及系统
CN104933112B (zh) 分布式互联网交易信息存储处理方法
CN102521406B (zh) 海量结构化数据复杂查询任务的分布式查询方法和系统
CN102521405B (zh) 支持高速加载的海量结构化数据存储、查询方法和系统
CN102270232B (zh) 一种存储优化的语义数据查询系统
CN113064866B (zh) 一种电力业务数据整合系统
CN102722553A (zh) 基于用户日志分析的分布式倒排索引组织方法
CN104375992A (zh) 一种地址匹配的方法和装置
JPH05334165A (ja) 並列データベース処理システムおよびその2次キー検索方法
CN112015733A (zh) 一种电力客服营配业务海量数据存储及快速查询方法
CN111159180A (zh) 一种基于数据资源目录构建的数据处理方法及系统
CN105096174A (zh) 一种交易匹配方法以及系统
CN110147372A (zh) 一种面向htap的分布式数据库智能混合存储方法
CN112015741A (zh) 一种海量数据的分库分表存储方法与装置
CN108009265B (zh) 一种云计算环境下的空间数据索引方法
CN109120445B (zh) 一种网络日志数据同步系统及方法
CN115544314A (zh) 一种非结构化数据库的系统
CN110716933B (zh) 一种面向新型城轨列车大数据的高伸缩分布式索引方法
CN115665161B (zh) 一种clickhouse实时数据流负载均衡方法及系统
CN112540987A (zh) 一种基于数据集市的配用电大数据管理系统
Dong et al. Research on Architecture of Power Big Data High-Speed Storage System for Energy Interconnection
CN109635161B (zh) 一种海量数据环境下跨域异地协同设计方法
CN116361397B (zh) 一种电力物联网时序数据分库分表方法及装置
Li et al. A data warehouse architecture supporting energy management of intelligent electricity system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201201

WD01 Invention patent application deemed withdrawn after publication