CN115543989A

CN115543989A - 一种基于多源异构数据的融合处理方法

Info

Publication number: CN115543989A
Application number: CN202211377889.6A
Authority: CN
Inventors: 王尧; 邵晶晶; 宋云奎; 沈宇红; 萧展辉; 李文俊; 李晓彬; 黄焯恒
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2022-12-30

Abstract

本发明提供的一种基于多源异构数据的融合处理方法，所述融合处理方法包括：根据电力大数据技术特性、应用需求和电力时空特性，建立基于业务的数据时空不确定性与多维关联性描述方法；基于多源异构数据清洁方法、融合机制，建立电力大数据的实用化的组织方案，用于实现以客户需求为导向的数据统一表达和优化方法；建立适应数据时空属性动态化的分布存储。提高数据的读取效率。

Description

一种基于多源异构数据的融合处理方法

技术领域

本发明涉及电力数据领域，尤其涉及一种基于多源异构数据的融合处理方法。

背景技术

数据逐渐成为驱动业务运转的重要生产要素，传统数据消费和使用方式将被彻底颠覆。从数据操作情况来看，查询行为占据着用户80％的使用比例，是最常用也是与业务侧最为贴近的数据使用方式，然而传统的基于应用系统功能、简单数据分析报表展示的数据查询和使用方法已无法满足用户的查询需求，随着数据驱动业务、引领业务效能的不断凸显，用户需要能够实现多源异构数据全覆盖的综合性智能检索解决方案。

发明内容

鉴于上述问题，提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种基于多源异构数据的融合处理方法。

根据本发明的一个方面，提供了一种基于多源异构数据的融合处理方法，所述融合处理方法包括：

根据电力大数据技术特性、应用需求和电力时空特性，建立基于业务的数据时空不确定性与多维关联性描述方法；

基于多源异构数据清洁方法、融合机制，建立电力大数据的实用化的组织方案，用于实现以客户需求为导向的数据统一表达和优化方法；

建立适应数据时空属性动态化的分布存储。

可选的，所述融合处理方法还包括：建立基于典型应用场景的储存优化机制和储存算法。

可选的，所述基于多源异构数据清洁方法、融合机制，建立电力大数据的实用化的组织方案具体包括：

采用ETL技术将各数据资源从源系统中提取，并转换为一个标准的格式；

应用语义聚类方法完成多源异构数据融合，在数据源端节点并行完成聚类运算中复杂度最高的部分，获得融合数据；

将所述融合数据合并为中间结果；

将所述中间结果传送到中心节点并自适应地生成聚类中心。

可选的，所述建立适应数据时空属性动态化的分布存储具体包括：

响应用户的资源请求，为应用提供统一的API接口；

对用户身份进行权限验证，响应用户的资源请求，对所述资源请求进行分类控制，如果验证通过，请求查询缓存或将所述资源请求发送至存储集群，同时负责转发所述资源请求，并进行预取检测；

维护缓存更新和替换策略，对过期或失效数据进行清除和替换，并响应数据查询；

接收请求，计算请求和相关请求的访问热度以及系统相对承载力；

根据所述访问热度和所述系统相对承载力判断是否执行预取操作，如果达到预取条件则触发预取推理，在日志信息的基础上推理得到预取对象，否则不预取信号；

对预取数据执行生成和删除操作同时维护整个系统的数据副本。

可选的，所述日志信息包括：日志文件、本体和语义标注资源。

本发明提供的一种基于多源异构数据的融合处理方法，所述融合处理方法包括：根据电力大数据技术特性、应用需求和电力时空特性，建立基于业务的数据时空不确定性与多维关联性描述方法；基于多源异构数据清洁方法、融合机制，建立电力大数据的实用化的组织方案，用于实现以客户需求为导向的数据统一表达和优化方法；建立适应数据时空属性动态化的分布存储。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种基于多源异构数据的融合存储处理方法流程框图；

图2为本发明实施例提供的基于语义聚类的数据融合处理方法流程图；

图3为本发明实施例提供的数据清洗结果示意图；

图4为本发明实施例提供的数据融合结果示意图；

图5为本发明实施例提供的数据采集与传输实验对比；

图6为本发明实施例提供的基于副本及电力应用语义预取的云存储方法的示意图；

图7为本发明实施例提供的存储优化技术测试结果示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的说明书实施例和权利要求书及附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。

下面结合附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明首先根据电力大数据技术特性和应用需求以及电力时空特性，提出了基于业务的数据时空不确定性与多维关联性描述方法，并在描述方法的基础上研究海量多源异构数据清洁方法、融合机制，建立电力大数据的实用化的组织方案，实现以客户需求为导向的数据统一表达和优化方法；接着研究适应数据时空属性动态化的分布高效存储方案，满足高效检索需求；最后面向典型应用场景进行储存优化机制、算法研究。具体技术方案如图1所示。

融合阶段及组织存储阶段。在融合阶段，项目首先采用基于延迟差分服务的数据路由方案，解决了海量数据传输问题。在此基础上，采用基于语义聚类的数字电网海量多异构数据整合处理方法，解决了海量多源异构数据的清洁和融合问题，保障了数据的融合效率。在完成海量多源异构数据的清洁和融合，项目进一步引入统一数字电网模型，实现了电网业务数据的统一化表达。

在组织存储阶段，项目采用了基于电力应用语义建立了副本级云存储预取优化技术，实现了网络负载预测，提高了系统的网络传输效率，为数字电网大脑提供高性能存储后端，该技术的运用有效支持了数字电网大脑多查询并发的顺利执行。

如图2所示，基于语义聚类的数字电网海量多源异构数据融合处理方法，项目组首次提出了基于语义聚类的数字电网海量多源异构数据融合处理方法，突破了电网环境下多类型数据融合处理难题，支撑了高并发、低延迟的“应搜尽搜时搜”的数据共享。

首先通过ETL技术将各数据资源从源系统中提取，并被转换为一个标准的格式，再应用语义聚类方法完成多源异构数据融合，在数据源端节点并行完成聚类运算中复杂度最高的部分，将所得结果合并为数据量较小的中间结果，将中间结果传送到中心节点并自适应地生成聚类中心。

除了保留传统关系型数据库储存结构化数据外，再使用NoSQL数据库进行数据库存取管理，充分利用网络云存储技术节约企业存储成本，提高效率的优势。

如图3和图4所示，结果显示，本发明提出的大数据融合方案能够有效降低数据复杂度，并随着融合率的不断提升，达到延长数据传输网络生命周期的作用。

针对时序数据的收集，项目提出了基于延迟差分服务的数据路由方案，改善从以前的数据收集研究中遗漏的延迟差异服务约束问题，延迟敏感数据采用直接转发策略，实现基于紧迫性智能选择传输方式，综合性能分析表明，与以前的研究相比，DSDR方案在提高网络性能方面具有明显的优势：减少延迟敏感数据传输时延4.31％，延迟容忍数据传输时延降低25.65％，具体结果如图5所示。

基于副本及电力应用语义预取的存储优化技术方案设计

随着云化数据中心的建设，针对云化数据中心如何提供可靠的数据存储和检索服务成为研究重点。但现在的技术难以在确保可靠的数据存储和数据应用服务的同时，针对电力应用需求降低数据副本的冗余程度，尚需针对电力应用的时空特性提出一套大数据云服务可靠而高效的储存保障策略。围绕电力大数据采集频率高、数据量异常庞大以及长期持久化存储等典型特征，提出一种基于副本及电力应用语义预取的存储优化方案，如图6所示。

用户接口模块：负责响应用户的资源请求，为其他应用提供统一的API接口；请求控制模块：对用户身份进行权限验证，响应用户接口模块请求，对请求模块进行分类控制，如果验证通过则请求该查询缓存或将请求发送至存储集群，同时负责转发请求至预取模块进行预取检测；缓存管理模块：维护缓存更新和替换策略，对过期或失效数据进行清除和替换，并响应请求控制模块的数据查询；预取模块：接收请求控制模块传递过来的请求，计算该请求和相关请求的访问热度以及系统相对承载力，综合请求文件的访问热度和系统相对承载力判断是否执行预取操作，如果达到预取条件则触发预取推理，通过日志文件、本体和语义标注资源的基础上推理得到预取对象，并将预取对象序列传递到副本管理模块，否则返回不预取信号；副本管理模块是对预取数据执行生成和删除操作同时维护整个系统的数据副本。

一种预测网络负载模型框架，结合副本管理技术，优化副本的放置与选择，提高系统的网络传输效率，为电力大数据处理平台提供高性能存储后端，支持高并发数据处理请求。

如图7所示，针对不同情况的读取延时测试，没有副本管理的读取延时最长，且线性增长。HDFS自带的副本管理和本课题所设计的算法机制，都比没有副本管理机制更有效提高数据获取效率，虽然读取时间还会线性增长，不过以更低速率增长。这种增长是不可避免的，因为数据的传输速率受制于网络的带宽和数据存储盘的传输速度。综上所述，本课题算法在电力任务计算场景下表现更加优越，提高数据的读取效率，为后续海量数据检索场景下的读取优化奠定了良好的基础。

有益效果：结合副本管理技术，优化副本的放置与选择，提高系统的网络传输效率，为电力大数据处理平台提供高性能存储后端，支持高并发数据处理请求。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多源异构数据的融合处理方法，其特征在于，所述融合处理方法包括：

建立适应数据时空属性动态化的分布存储。

2.根据权利要求1所述的一种基于多源异构数据的融合处理方法，其特征在于，所述融合处理方法还包括：建立基于典型应用场景的储存优化机制和储存算法。

3.根据权利要求1所述的一种基于多源异构数据的融合处理方法，其特征在于，所述基于多源异构数据清洁方法、融合机制，建立电力大数据的实用化的组织方案具体包括：

将所述融合数据合并为中间结果；

将所述中间结果传送到中心节点并自适应地生成聚类中心。

4.根据权利要求1所述的一种基于多源异构数据的融合处理方法，其特征在于，所述建立适应数据时空属性动态化的分布存储具体包括：

响应用户的资源请求，为应用提供统一的API接口；

5.根据权利要求4所述的一种基于多源异构数据的融合处理方法，其特征在于，所述日志信息包括：日志文件、本体和语义标注资源。