CN104391903A - 一种基于分布存储和并行计算的电网数据质量检测方法 - Google Patents

一种基于分布存储和并行计算的电网数据质量检测方法 Download PDF

Info

Publication number
CN104391903A
CN104391903A CN201410647792.1A CN201410647792A CN104391903A CN 104391903 A CN104391903 A CN 104391903A CN 201410647792 A CN201410647792 A CN 201410647792A CN 104391903 A CN104391903 A CN 104391903A
Authority
CN
China
Prior art keywords
index
data quality
data record
data
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410647792.1A
Other languages
English (en)
Inventor
陈承志
龙庆麟
梁国辉
黄宜华
顾荣
杨滨诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Ke Teng Information Technology Co ltd
Nanjing University
Original Assignee
Guangzhou Ke Teng Information Technology Co ltd
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Ke Teng Information Technology Co ltd, Nanjing University filed Critical Guangzhou Ke Teng Information Technology Co ltd
Priority to CN201410647792.1A priority Critical patent/CN104391903A/zh
Publication of CN104391903A publication Critical patent/CN104391903A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于分布存储和并行计算的电网数据质量检测方法,包括以下步骤:采用HBase存储原始数据记录;采用HBase对校验规则涉及到的字段建立查询索引;采用HBase对原始数据记录建立时间戳索引,以便支持增量数据质量校验和细时间粒度的数据质量校验;采用HDFS存储数据记录的辅助索引文件和操作日志文件,以便全量历史数据质量校验时能够快速加载校验数据,提升校验性能;采用基于MapReduce的校验规则并行化处理,通过规则并行化处理提升校验性能。本发明解决了现有的基于关系数据库系统的电网数据质量检测方法可扩展性差,校验延时大,系统性价比低的问题。

Description

一种基于分布存储和并行计算的电网数据质量检测方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于分布存储和并行计算的电网数据质量检测方法,该方法高效可扩展。
背景技术
传统的关系数据管理系统追求高度的一致性和正确性,在面向海量数据的分析需求时,采用纵向扩展(scale up)的方法,即通过升级硬件(CPU、内存、硬盘等)提升单个节点的能力,使其可扩展性和性能受到了很大的限制。
随着电网业务数据规模和数据质量监控规则复杂度的不断增大,目前现有的基于传统数据管理和计算平台的数据质量监控系统的处理能力出现严重的瓶颈,难以快速完成数据质量的监控和校验,越来越难以满足日常的生产管理和经营决策的需求。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提供一种基于分布存储和并行处理的电网数据质量检测方法,解决了现有的基于关系数据库系统方法的计算延时大,难于扩展,系统性价比低的问题。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种基于分布存储和并行处理的电网数据质量检测方法,包括以下步骤:
(1)采用一种分布存储方法对所有原始数据记录进行存储;
(2)采用基于非主键的索引方法对校验字段进行索引,校验时根据校验规则涉及的校验字段查找索引表,获取对应的原始数据记录主键,再根据获取到的原始数据记录表主键查找原始数据记录表获取原始数据记录,然后提取比对字段进行比对;
(3)采用HBase对原始数据记录建立时间戳索引,在增量数据质量校验或者基于时间窗口的细时间粒度的数据质量校验时,根据时间戳范围查询原始数据记录表,确定需校验的数据范围后进行校验;
(4)采用HDFS存储数据记录的辅助索引文件和操作日志文件,以便全量原始数据质量校验时能够快速加载校验数据,提升校验性能,在全量原始数据质量校验时,将辅助索引文件读入内存,读取操作日志应用到内存索引上,然后基于内存索引进行校验;
(5)采用基于MapReduce的并行化方式完成校验规则的快速执行。
进一步地,所述分布存储方法为基于HBase的分布存储方法,可支持海量校验数据的存储,并能根据需求方便扩展。进一步地,所述校验规则为基于MapReduce的并行化校验规则。可以根据校验数据量和校验规则数量方便扩展,响应性能可控,性价比高。进一步地,所述步骤(2)中,采用基于非主键索引的方法对校验字段进行索引,以便实现基于非主键字段的校验规则查询处理。
进一步地,所述步骤(2)中,校验字段是原始数据记录主键或者任意属性列;比对字段是与所述校验字段对应的某一字段,可以是校验字段本身或者其它字段。
进一步地,所述步骤(3)中,对原始数据记录建立时间戳索引,在增量数据质量校验或者基于时间窗口的细时间粒度数据质量校验时,根据时间戳索引查询时间戳索引表以获取原始数据记录主键,再查询原始数据记录表以获取原始数据记录进行校验。
进一步地,所述步骤(4)中,为全量原始数据建立HDFS辅助索引文件,为增量数据建立操作日志,在全量历史数据校验时,读取HDFS辅助索引文件到内存,将操作日志应用到内存索引上,然后基于内存索引进行校验。
进一步地,所述步骤(5)中,对所有的校验规则建立指示文件,指示文件内容包含所有执行校验规则需要的参数,包括规则名称,规则执行逻辑标识,输入数据表,输出数据表等参数,Map任务读取相应的指示文件,获取执行相应校验规则需要的参数,调用相应的处理逻辑进行校验。
更进一步地,所述步骤(5)中,每个指示文件对应一条或者多条校验规则,校验规则的执行参数写在指示文件中,所述执行参数包括校验规则名称,规则执行逻辑表示,输入数据表,输出数据表等参数。
更进一步地,所述步骤(5)中,每个指示文件由一个Map任务处理, 
有益效果:
本发明能够高效可扩展地进行电网数据质量的检测:第一,将电网数据进行分布存储,使系统具有良好的可扩展性;第二,通过为校验规则涉及的字段建立辅助查询索引,以支持校验规则执行时进行高效查询处理;第三,设计了一个基于MapReduce的校验规则并行处理方法,使得每条校验规则都可以并行化处理,有效提升了系统响应性能。 
附图说明
图1为本发明的方法总体示意图;
图2为本发明中增量数据存储与索引示意图;
图3为本发明中批量历史数据存储与索引示意图;
图4为本发明中规则并行化处理示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
HBase是Hadoop生态环境中的一个分布式存储系统。针对分布式文件系统HDFS缺少结构化半结构化数据存储访问和随机读写能力的缺陷,在HDFS(Hadoop Distributed File System,即Hadoop分布式文件系统)之上,HBase提供了一个分布式数据管理系统,解决大规模的结构化和半结构化数据存储访问问题。HBase提供基于列存储模式的大数据表管理能力,可存储管理数十亿以上的数据记录,每个记录可包含百万以上的数据列;HBase试图提供随机和实时的数据读写访问能力,并具有高可扩展性、高可用性、容错处理能力、负载平衡能力、以及实时数据查询能力。
HBase的底层数据是存储在HDFS中的,因而HBase是完全依赖于底层的HDFS工作的。由于HDFS采用了良好了数据多副本存储机制、以及强大的数据节点出错检测和节点失效恢复机制,基于HDFS的HBase在数据存储时自然继承了HDFS的这种数据存储的高可靠性和容错处理能力。
Hadoop MapReduce提供了一个庞大但设计精良的分布式数据存储和并行计算软件构架,能自动完成分布式海量数据的存储管理,能自动划分计算数据并调度计算任务,在集群节点上自动分配和执行子任务以及收集计算结果,将数据分布存储、数据通信、容错处理等并行计算中的很多复杂细节交由系统负责处理,大大减少了软件开发人员的负担。
本发明采用分布数据存储和管理系统HBase存储数据,将原始数据记录存储到HBase中,以便根据主键快速查询访问;为校验规则涉及的校验字段建立查询索引,以便根据校验字段值快速查询访问;为原始数据记录建立基于时间戳的辅助索引,支持基于时间窗口的数据质量校验;对于历史积累的全量数据,同时建立索引文件存储在分布式文件系统HDFS上,以便进行批量数据质量校验时快速加载,避免了对HBase的全表扫描;而对于实时流入的增量数据建立操作日志,解决了数据记录增加、删除、修改时索引文件的维护问题,定时地合并操作日志和索引文件,降低批量数据质量校验时的合并开销;采用校验规则的并行化执行,一个并行任务处理一条至多条校验规则。
将批量数据进行存储和索引的流程包括以下步骤:
(1)将待校验的CSV格式的基准数据表和比对数据表存入HBase中,原始数据记录主键作为HBase表的主键,原始数据记录的非主键属性作为HBase表的一列,不同的列属于不同的列族,利用HBase的面向列存储(同一列族的数据统一存储)提高查询某列数据时的响应性能;
(2)将基于校验规则校验字段的查询索引表存入HBase中,校验字段作为HBase查询索引表的主键,原始数据记录主键作为查询索引表的列名,所有主键属于同一个列族,采用这种数据模式方便对查询索引表记录的增加、删除、修改和查询;
(3)将基于数据记录时间戳的查询索引表存入HBase中,数据记录时间戳作为HBase查询索引表的主键,原始数据记录主键作为查询索引表的列值存储。
(4)将基于校验规则校验字段的查询索引表存入HBase中时,同时将查询索引表存入HDFS的索引文件中。
将增量数据进行存储和索引的流程包括以下步骤:
(1)将增量数据记录插入HBase的原始数据记录表中;
(2)将增量数据记录的基于校验规则校验字段的查询索引插入HBase的查询索引中;
(3)将增量数据记录的基于数据记录时间戳的查询索引表插入HBase的辅助索引中;
(4)将增量数据记录的操作日志追加到HDFS上的操作日志文件中。
将操作日志合并到索引文件的流程包括以下步骤:
(1)  读取HDFS上的索引文件到内存中;
(2)  读取HDFS上操作日志文件,逐一将操作应用到内存索引中;
(3)  将内存索引重新写入到HDFS上的索引文件中;
(4)删除HDFS上的操作日志文件。
并行化校验规则处理流程:
(1)将校验类型,校验时间戳范围写入到配置文件中;
(2)启动MapReduce作业开始执行数据质量校验;
(3)每个Map任务读取一个指示文件,获取规则名称,规则执行逻辑标识,输入数据表,输出数据表等参数;并且读取配置文件中的校验类型和校验范围时间戳;
(4)对于批量校验,根据批量数据单规则校验流程进行校验;
(5)对于基于时间窗口的校验,根据时间戳范围进行增量数据单规则校验流程进行校验。
批量数据单规则校验流程:
(1)读取HDFS上的查询索引表到内存,读取操作日志将其应用到内存中的查询索引表,删除操作日志文件;
(2)遍历内存中的查询索引表进行规则校验。
增量数据单规则校验流程:
(1)根据起始时间戳和终止时间戳,查询时间戳索引表,获取时间增量时间窗口内的所有记录ID;查询原始数据记录表,获取相应的校验字段集合;
(2)根据校验字段集合内的字段值,查询辅助索引表,获取比对字段值进行校验。
如图2所示,本发明所涉及到的分布存储和索引方法的实施方式为:为了完成对大量数据记录和大量校验规则的快速处理,除了将原数据表存储到HBase中之外,我们需要针对校验规则所涉及到的字段,设计专门的快速数据索引表并存储到HBase中。例如,在原数据表1和表2中,主键(rowkey字段)为各个记录的ID。如果需要对原数据表1的A字段(记为字段A)和原数据表2的B字段(记为字段B)进行校验,那么我们需要分别建立字段A和字段B的索引表以在校验的时候快速查找。为了实现基于时间窗口的增量数据质量校验和细时间粒度的数据质量校验,为原始数据记录表建立了时间戳查询索引,以便根据时间戳范围界定进行质量校验的数据范围。如图3所示,为了提升全量历史数据的质量校验性能,为数据记录表建立辅助HDFS索引文件和操作日志,以便在全量数据校验时快速加载校验数据到内存中进行校验。
本发明中针对校验规则的并行化处理的实施方式为:为了完成对大量数据记录和大量校验规则的快速处理,采用基于MapReduce的并行化执行机制。如图4所示:我们首先将各个校验规则的ID和参数等写入到一个个独立的HDFS文件中(称为指示文件),MapReduce作业中包含了所有的这些校验规则的处理模块的实现。根据Hadoop MapReduce的默认运行机制,每个Map任务只会读取一个指示文件并进行处理,这里我们具体的处理模块的选择则由该任务所读取的指示文件决定。
通过这种方法就能使得集群中所有的Map节点在并发地执行不同的校验规则。如果执行过程中有失效发生,Hadoop MapReduce会自动地在其他节点启动新的Map任务来重新尝试执行这些校验规则。整个并行过程的负载均衡和容错等问题都由Hadoop MapReduce框架一并解决了。
本发明基于已有的一些开源软件实现了一个原型系统。其中分布存储和索引采用HBase、校验规则并行化处理采用HDFS和MapReduce,这三个软件不属于本发明的内容。通过使用现实电网业务数据和校验规则对本发明实现的原型系统和现有的关系数据管理系统进行测试对比,本发明实现的原型系统在响应性能,可扩展性优于传统关系数据管理系统,证明了本发明的基于分布存储和并行处理的电网数据质量检测方法的有效性。

Claims (10)

1.一种基于分布存储和并行计算的电网数据质量检测方法,包括以下步骤:
(1)采用一种分布存储方法对所有原始数据记录进行存储;
(2)采用基于非主键的索引方法对校验字段进行索引,校验时根据校验规则涉及的校验字段查找索引表,获取对应的原始数据记录主键,再根据获取到的原始数据记录主键查找原始数据记录表获取原始数据记录,然后提取比对字段进行比对;
(3)采用HBase对原始数据记录建立时间戳索引,在增量数据质量校验或者基于时间窗口的细时间粒度的数据质量校验时,根据时间戳范围查询原始数据记录表,确定需校验的数据范围后进行校验;
(4)采用HDFS存储数据记录的辅助索引文件和操作日志文件,在全量原始数据质量校验时,将辅助索引文件读入内存,读取操作日志应用到内存索引上,然后基于内存索引进行校验;
(5)采用基于MapReduce的并行化方式完成校验规则的快速执行。
2.根据权利要求1所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述分布存储方法为基于HBase的分布存储方法。
3.根据权利要求1所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述校验规则为基于MapReduce的并行化校验规则。
4.根据权利要求1所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述步骤(2)中,采用基于非主键索引的方法对校验字段进行索引。
5.根据权利要求1所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述步骤(2)中,校验字段是原始数据记录主键或者任意属性列;比对字段是与所述校验字段对应的某一字段。
6.根据权利要求1所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述步骤(3)中,对原始数据记录建立时间戳索引,在增量数据质量校验或者基于时间窗口的细时间粒度数据质量校验时,根据时间戳索引查询时间戳索引表以获取原始数据记录主键,再查询原始数据记录表以获取原始数据记录进行校验。
7.根据权利要求1所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述步骤(4)中,为全量原始数据建立HDFS辅助索引文件,为增量数据建立操作日志,在全量历史数据校验时,读取HDFS辅助索引文件到内存,将操作日志应用到内存索引上,然后基于内存索引进行校验。
8.根据权利要求1所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述步骤(5)中,对所有的校验规则建立指示文件,Map任务读取相应的指示文件,获取执行相应校验规则需要的参数,调用相应的处理逻辑进行校验。
9.根据权利要求8所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述步骤(5)中,每个指示文件对应一条或者多条校验规则,校验规则的执行参数写在指示文件中。
10.根据权利要求8所述一种基于分布存储和并行计算的电网数据质量检测方法,其特征在于:所述步骤(5)中,每个指示文件由一个Map任务处理。
CN201410647792.1A 2014-11-14 2014-11-14 一种基于分布存储和并行计算的电网数据质量检测方法 Pending CN104391903A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410647792.1A CN104391903A (zh) 2014-11-14 2014-11-14 一种基于分布存储和并行计算的电网数据质量检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410647792.1A CN104391903A (zh) 2014-11-14 2014-11-14 一种基于分布存储和并行计算的电网数据质量检测方法

Publications (1)

Publication Number Publication Date
CN104391903A true CN104391903A (zh) 2015-03-04

Family

ID=52609807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410647792.1A Pending CN104391903A (zh) 2014-11-14 2014-11-14 一种基于分布存储和并行计算的电网数据质量检测方法

Country Status (1)

Country Link
CN (1) CN104391903A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657497A (zh) * 2015-03-09 2015-05-27 国家电网公司 一种基于分布式计算的海量用电信息并行计算系统及方法
CN105956106A (zh) * 2016-05-04 2016-09-21 北京思特奇信息技术股份有限公司 一种基于内存数据库和Hbase存取大数据的方法及系统
CN106503268A (zh) * 2016-12-07 2017-03-15 广东神马搜索科技有限公司 数据对比方法、装置和系统
CN106844556A (zh) * 2016-12-30 2017-06-13 江苏瑞中数据股份有限公司 一种基于HBase的智能电网时标量测数据存储方法
CN107066500A (zh) * 2016-12-30 2017-08-18 江苏瑞中数据股份有限公司 一种基于pms模型的电网海量数据质量校验方法
CN107609016A (zh) * 2017-08-03 2018-01-19 南京南瑞集团公司 基于表达式解析的电力交易数据准确性校验方法
CN107644033A (zh) * 2016-07-21 2018-01-30 阿里巴巴集团控股有限公司 一种在非关系型数据库中进行数据查询的方法与设备
CN107679146A (zh) * 2017-09-25 2018-02-09 南方电网科学研究院有限责任公司 电网数据质量的校验方法和系统
CN108595664A (zh) * 2018-04-28 2018-09-28 尚谷科技(天津)有限公司 一种hadoop环境下的农业数据监控方法
CN109508318A (zh) * 2018-11-15 2019-03-22 北京金山云网络技术有限公司 一种存储量统计方法、装置、电子设备和可读存储介质
CN109669936A (zh) * 2018-12-25 2019-04-23 福建南威软件有限公司 一种基于聚合模型的海量数据质量报告生成方法
CN109871394A (zh) * 2019-01-17 2019-06-11 苏宁易购集团股份有限公司 一种全量分布式高并发计算方法及装置
CN109933581A (zh) * 2019-03-01 2019-06-25 武汉达梦数据库有限公司 一种数据质量检测方法及系统
CN110209884A (zh) * 2018-01-10 2019-09-06 杭州海康威视数字技术股份有限公司 一种索引校对方法和装置
CN110569234A (zh) * 2019-07-30 2019-12-13 深圳市华傲数据技术有限公司 数据检验方法及装置、电子设备和计算机可读存储介质
CN110609777A (zh) * 2018-06-15 2019-12-24 伊姆西Ip控股有限责任公司 用于管理日志的方法、设备和计算机程序产品
CN110704404A (zh) * 2019-08-29 2020-01-17 苏宁云计算有限公司 一种数据质量校验方法、装置、系统
CN112115121A (zh) * 2020-11-20 2020-12-22 陕西云基华海信息技术有限公司 一种数据治理实时数据质量检测系统
CN112540987A (zh) * 2020-12-08 2021-03-23 湖州中朔信息技术有限公司 一种基于数据集市的配用电大数据管理系统
CN112579578A (zh) * 2019-09-27 2021-03-30 中兴通讯股份有限公司 基于元数据的数据质量管理方法、装置、系统及服务器
CN112667618A (zh) * 2020-12-30 2021-04-16 湖南长城医疗科技有限公司 一种公共区域卫生平台质控系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080154986A1 (en) * 2006-12-22 2008-06-26 Storage Technology Corporation System and Method for Compression of Data Objects in a Data Storage System
CN203084729U (zh) * 2013-01-07 2013-07-24 安徽省电力科学研究院 一种基于分布式基础架构(Hadoop)的电能质量监测系统
CN103577550A (zh) * 2013-10-16 2014-02-12 广东电网公司电力科学研究院 电网设备数据校验方法
CN103605757A (zh) * 2013-11-25 2014-02-26 国家电网公司 一种基于支持向量机的高铁电能质量数据的分类方法
CN103872782A (zh) * 2014-03-31 2014-06-18 国家电网公司 一种电能质量数据综合服务系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080154986A1 (en) * 2006-12-22 2008-06-26 Storage Technology Corporation System and Method for Compression of Data Objects in a Data Storage System
CN203084729U (zh) * 2013-01-07 2013-07-24 安徽省电力科学研究院 一种基于分布式基础架构(Hadoop)的电能质量监测系统
CN103577550A (zh) * 2013-10-16 2014-02-12 广东电网公司电力科学研究院 电网设备数据校验方法
CN103605757A (zh) * 2013-11-25 2014-02-26 国家电网公司 一种基于支持向量机的高铁电能质量数据的分类方法
CN103872782A (zh) * 2014-03-31 2014-06-18 国家电网公司 一种电能质量数据综合服务系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卓海艺: ""基于HBase的海量数据实时查询系统设计与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657497A (zh) * 2015-03-09 2015-05-27 国家电网公司 一种基于分布式计算的海量用电信息并行计算系统及方法
CN105956106A (zh) * 2016-05-04 2016-09-21 北京思特奇信息技术股份有限公司 一种基于内存数据库和Hbase存取大数据的方法及系统
CN105956106B (zh) * 2016-05-04 2019-12-13 北京思特奇信息技术股份有限公司 一种基于内存数据库和Hbase存取大数据的方法及系统
CN107644033B (zh) * 2016-07-21 2021-08-17 阿里巴巴集团控股有限公司 一种在非关系型数据库中进行数据查询的方法与设备
CN107644033A (zh) * 2016-07-21 2018-01-30 阿里巴巴集团控股有限公司 一种在非关系型数据库中进行数据查询的方法与设备
CN106503268B (zh) * 2016-12-07 2019-08-23 广东神马搜索科技有限公司 数据对比方法、装置和系统
CN106503268A (zh) * 2016-12-07 2017-03-15 广东神马搜索科技有限公司 数据对比方法、装置和系统
CN107066500A (zh) * 2016-12-30 2017-08-18 江苏瑞中数据股份有限公司 一种基于pms模型的电网海量数据质量校验方法
CN106844556A (zh) * 2016-12-30 2017-06-13 江苏瑞中数据股份有限公司 一种基于HBase的智能电网时标量测数据存储方法
CN107066500B (zh) * 2016-12-30 2020-12-04 江苏瑞中数据股份有限公司 一种基于pms模型的电网海量数据质量校验方法
CN107609016A (zh) * 2017-08-03 2018-01-19 南京南瑞集团公司 基于表达式解析的电力交易数据准确性校验方法
CN107679146A (zh) * 2017-09-25 2018-02-09 南方电网科学研究院有限责任公司 电网数据质量的校验方法和系统
CN110209884A (zh) * 2018-01-10 2019-09-06 杭州海康威视数字技术股份有限公司 一种索引校对方法和装置
CN108595664A (zh) * 2018-04-28 2018-09-28 尚谷科技(天津)有限公司 一种hadoop环境下的农业数据监控方法
CN108595664B (zh) * 2018-04-28 2022-05-31 上海左岸芯慧电子科技有限公司 一种hadoop环境下的农业数据监控方法
CN110609777A (zh) * 2018-06-15 2019-12-24 伊姆西Ip控股有限责任公司 用于管理日志的方法、设备和计算机程序产品
CN110609777B (zh) * 2018-06-15 2023-11-03 伊姆西Ip控股有限责任公司 用于管理日志的方法、设备和计算机程序产品
US11663191B2 (en) 2018-06-15 2023-05-30 EMC IP Holding Company LLC Method, device and computer program product for managing log
CN109508318A (zh) * 2018-11-15 2019-03-22 北京金山云网络技术有限公司 一种存储量统计方法、装置、电子设备和可读存储介质
CN109508318B (zh) * 2018-11-15 2021-01-22 北京金山云网络技术有限公司 一种存储量统计方法、装置、电子设备和可读存储介质
CN109669936A (zh) * 2018-12-25 2019-04-23 福建南威软件有限公司 一种基于聚合模型的海量数据质量报告生成方法
CN109871394A (zh) * 2019-01-17 2019-06-11 苏宁易购集团股份有限公司 一种全量分布式高并发计算方法及装置
CN109871394B (zh) * 2019-01-17 2022-11-11 苏宁易购集团股份有限公司 一种全量分布式高并发计算方法及装置
CN109933581A (zh) * 2019-03-01 2019-06-25 武汉达梦数据库有限公司 一种数据质量检测方法及系统
CN110569234A (zh) * 2019-07-30 2019-12-13 深圳市华傲数据技术有限公司 数据检验方法及装置、电子设备和计算机可读存储介质
CN110704404A (zh) * 2019-08-29 2020-01-17 苏宁云计算有限公司 一种数据质量校验方法、装置、系统
CN110704404B (zh) * 2019-08-29 2023-04-28 苏宁云计算有限公司 一种数据质量校验方法、装置、系统
CN112579578A (zh) * 2019-09-27 2021-03-30 中兴通讯股份有限公司 基于元数据的数据质量管理方法、装置、系统及服务器
CN112115121A (zh) * 2020-11-20 2020-12-22 陕西云基华海信息技术有限公司 一种数据治理实时数据质量检测系统
CN112115121B (zh) * 2020-11-20 2023-12-12 陕西云基华海信息技术有限公司 一种数据治理实时数据质量检测系统
CN112540987A (zh) * 2020-12-08 2021-03-23 湖州中朔信息技术有限公司 一种基于数据集市的配用电大数据管理系统
CN112667618A (zh) * 2020-12-30 2021-04-16 湖南长城医疗科技有限公司 一种公共区域卫生平台质控系统及方法
CN112667618B (zh) * 2020-12-30 2023-06-06 湖南长城医疗科技有限公司 一种公共区域卫生平台质控系统及方法

Similar Documents

Publication Publication Date Title
CN104391903A (zh) 一种基于分布存储和并行计算的电网数据质量检测方法
CN107688999B (zh) 一种基于区块链的并行交易执行方法
Borthakur et al. Apache hadoop goes realtime at facebook
Bakshi Considerations for big data: Architecture and approach
Rabl et al. Solving big data challenges for enterprise application performance management
US10331657B1 (en) Contention analysis for journal-based databases
Prasad et al. Smart meter data analytics using OpenTSDB and Hadoop
CN104036029B (zh) 大数据一致性对比方法和系统
CN103106286B (zh) 元数据的管理方法和装置
Hasani et al. Lambda architecture for real time big data analytic
CN107679146A (zh) 电网数据质量的校验方法和系统
US10198346B1 (en) Test framework for applications using journal-based databases
CN106126601A (zh) 一种社保大数据分布式预处理方法及系统
US10133767B1 (en) Materialization strategies in journal-based databases
WO2015070674A1 (zh) 一种操作数据的方法和系统
CN103617276A (zh) 一种分布式层次化的rdf数据的存储方法
CN112579586A (zh) 数据处理方法、装置、设备及存储介质
Lu et al. TridentKV: A read-optimized LSM-tree based KV store via adaptive indexing and space-efficient partitioning
Bronson et al. Open data challenges at Facebook
Kalavri et al. Block sampling: Efficient accurate online aggregation in mapreduce
CN107818106B (zh) 一种大数据离线计算数据质量校验方法和装置
CN115329011A (zh) 数据模型的构建方法、数据查询的方法、装置及存储介质
Zhao et al. Hadoop-based power grid data quality verification and monitoring method
Kaur et al. Performance analysis in bigdata
Chen et al. Streamdb: A unified data management system for service-based cloud application

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150304