CN115309734A

CN115309734A - 一种变电站多源异构数据处理方法

Info

Publication number: CN115309734A
Application number: CN202211037146.4A
Authority: CN
Inventors: 张艳艳; 宁雪峰; 王永源; 袁炜灯; 林志强; 李元佳; 纪丹霞; 韦薇; 陈文睿; 余海宁; 郑再添; 莫小勇; 廖彬强; 刘泽槐
Original assignee: Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2022-11-08

Abstract

本申请涉及电力数据处理技术领域，公开了一种变电站多源异构数据处理方法，依如下步骤实施：S1：采集变电站多源异构数据并且建立变电站多类检测数据的电力数据库，所述多源异构数据包括结构化数据和非结构化数据；S2：对所述电力数据库中的数据进行数据清洗；S3：对完成清洗的数据进行数据集成；S4：选用数据融合模型对数据进行深度融合。该一种变电站多源异构数据处理方法，针对不同类型的数据选用不同种类的数据处理模型，随后利用各自的数据处理模型相应的对结构化数据和非结构化数据进行处理和融合，解决了变电站监测数据中多源异构数据不能高效处理和融合的问题。

Description

一种变电站多源异构数据处理方法

技术领域

本申请涉及电力数据处理技术领域，具体为一种变电站多源异构数据处理方法。

背景技术

作为电网的重要组成部分，配电线路能否安全稳定地运行直接决定了电网的是否正常工作。通过加强配电线路检查工作，及时发现并且就解决配电线路存在的安全隐患，能够保证配电线路以及相关设备处在安全稳定的运行状态。

通常采用带电检测技术和机器人巡检系统对配电线路进行检测。目前我国变电站带电检测装置或系统已经应用很多，并发挥了较好作用，但是由于电气设备种类繁多、结构各异，每种电气设备的带电检测项目各有不同，使得获取后的数据的分析工作尚需要人工参与，同时，机器人巡检所获得的图像信息也还需要人工深度参与才能得出结果，使得变电站运维自动化水平较低。

因此，针对多类固定带电检测装置或系统的海量结构化数据和巡检机器人采集图像的非结构化数据，研究如何结合人工智能技术对其融合应用，以便进一步挖掘价值提升变电站运维智能自动化水平具有重要实际意义

发明内容

针对现有技术的不足，本申请提供了一种变电站多源异构数据处理方法，解决了变电站监测数据中多源异构数据不能高效处理和融合的问题。

为实现上述目的，本申请提供如下技术方案：一种变电站多源异构数据处理方法，其特征在于，依如下步骤实施：

S1：采集变电站多源异构数据并且建立变电站多类检测数据的内存数据库，所述多源异构数据包括结构化数据和非结构化数据；

S2：对所述内存数据库中的数据进行数据清洗；

S3：对完成清洗的数据进行数据集成；

S4：选用数据融合模型对数据进行深度融合。

优选的，所述步骤S2中包括如下步骤：

S2.1：预定义若干条校验规则，确定若干条校验规则的校验顺序，并将全部校验规则储存至内存数据库中；

S2.2：修改多类检测数据的格式，将多类检测数据的格式统一后，储存至内存数据库中；

S2.3：从内存数据库中提取检验规则和数据并且输送至校验引擎；

S2.4：校验引擎依据校验顺序将数据应用于校验规则上，并且对完成校验的数据生成对应的校验记录；

S2.5：将数据和相应的检验记录存回内存数据库。

优选的，所述检验规则包括完整性检验、正确性检验和逻辑性检验。

优选的，所述步骤S2.4中包括如下步骤：

S2.4.1：校验引擎将数据应用到完整性检验上；若数据中数据项有空缺，则检验不通过，生成相应检验记录，并且将数据和检验记录存回电力数据库；若数据中数据项均不为空，则校验通过，进入下一检验阶段；

S2.4.2：校验引擎将数据应用到正确性检验上，判断数据的数据项、数据类型、精度、范围是否与集成规范要求一致；若与集成规范不一致，则判定数据不正确，生成相应检验记录，并且将数据和检验记录存回电力数据库；若均与集成规范一致，则校验通过，进入下一检验阶段；

S2.4.3：校验引擎将数据应用到逻辑性检验上，依据数据交互过程中数据源个体之间的关系，检查数据项是否符合业务逻辑关系；若不满足业务逻辑关系，则判定数据不正确，生成相应检验记录，并且将数据和检验记录存回电力数据库；若满足业务逻辑关系，则校验通过，并且生成校验通过的检验记录。

优选的，所述步骤S3中包括如下步骤：

S3.1：完成数据ID匹配。在内存数据库中生成数据的ID，比较数据的ID，若存在ID相同的数据，则将ID相同的数据融合为一条数据，重复执行步骤 S31直至内存数据库不存在相同ID的数据；

S3.2：完成数据特征匹配。根据数据特征，将步骤S31中无法处理的数据进行特征匹配，将阈值以上相似度的数据融合为一条数据，重复执行步骤S32 直至内存数据库数据的特征相似度均在阈值以下；

S3.3：完成数据级融合匹配。将S3.2中无法处理的数据暂存在内存数据库中以待后续处理。

优选的，所述步骤S4中包括：根据数据类型选择数据融合模型，若数据类型为结构化数据，则采用基于改进D-S证据理论数据融合模型进行数据深度融合；若数据类型为非结构化数据，则采用基于卷积神经网络(RNN)中的 VGG-19数据融合模型。

优选的，采用基于改进D-S证据理论数据融合模型进行数据深度融合，包括如下步骤：

S4.1：判断结构化数据的数据类型，若结构化数据为字符串类型数据，则进入步骤S4.2，若结构化数据为数值类型的数据，则进入步骤S4.3；

S4.2：提取专用词进行对比。首先利用全数据生成正则表达式，再利用正则表达式提取专用词，对比专用词后，相同的即关联，否则再根据置信度进行关联；

S4.3：去掉数据中非数值字符，替换数据的数字，用通配符替代，形成字符规则，统计每个规则出现数量和频度。然后提取规则，对规则计算概率。对于单一来源的数据，直接根据频度，选择频度最高的规则作为实际规则，针对多来源的数据，使用最大概率加权D-S证据推理法求得最佳规则，形成规则替换正则式，将所有其他规则数据替换为推导出来的规则数据。

优选的，所述步骤S4.2中包括如下步骤：

S4.2.1：建立电力名词词典；

S4.2.2：根据相同属性去重，生成全数据文件；

S4.2.3：使用基于词典的双向最大匹配法对数据文件进行分词，去掉重复分词结果，生成分词后的文件；

S4.2.4：提取分词后的文件，去掉文件中与词典相同的词，根据每个类型生成一个特定正则式；

S4.2.5：对需要关联的数据相同属性利用特定正则式提取专用词进行匹配，若提取后的内容一致，则为同一对象的不同数据进行融合，若提取后的内容不一致，则进入下一融合阶段；

S4.2.6：对提取后的字符进行全名词匹配，若提取后的词都存在，则表示不为同一对象，完成处理，若其中至少一个不存在，则利用置信度进行判断，置信度达到设定的阈值即为同一对象。

优选的，采用基于卷积神经网络(RNN)中的VGG-19数据融合模型针对非结构化数据进行数据融合，包括如下步骤：

S5.1：依据双尺度分解法，通过均值滤波器将源图像分解为基础层图像和细节层图像。其中，基础层包含了图像的大部分信息，细节层为图像的局部结构信息；

S5.2：对于基础层，使用双尺度分解的融合方法从源图像中提取的基础轮廓部分包含了共同的特征和多余的信息，利用加权平均规则融合基础层图像；

S5.3：对于细节层，采用卷积神经网络(RNN)中的VGG-19对细节层进行深度特征提取，使用多层融合策略进行融合得到权重图，再对权重图和细节部组合进行重建得到融合细节层图像；

S5.4：通过基础层与细节层的双尺度重建，将两者相加获得最终融合图像，完成了非结构数据的数据级融合。

优选的，所述步骤S5.3中包括如下步骤：

S5.3.1：源图像经双尺度分解后，对得到的红外图像细节层分量

可见光图像细节层分量

应用VGG19模型进行深度特征提取，得到深度特征图；

S5.3.2：对获取的深度特征图

进行l₁-norm处理，获得初始激活图像

S5.3.3：将初始激活图像经过滑动窗处理后，得到最终激活图像

S5.3.4：经由softmax算子计算激活图像的权重图

S5.3.5：结合权重图和细节分量图，获得细节层分量的初始融合图

S5.3.6：根据基于最大选择策略获得最终的细节分量融合图。

本申请提供了一种变电站多源异构数据处理方法，具备以下有益效果：

(1)该变电站多源异构数据处理方法，针对不同类型的数据选用不同种类的数据处理模型，随后利用各自的数据处理模型相应的对结构化数据和非结构化数据进行处理和融合，解决了变电站监测数据中多源异构数据不能高效处理和融合的问题。

(2)该变电站多源异构数据处理方法，在数据清洗的预处理后通过数据集成将不同数据源中的信息按类别进行数据集成，同时删除重复、多余的数据，使数据源之间的逻辑关联更加清晰，数据的利用更加高效，实现将大量多源数据有条理地存储于数据库中，方便下一步的处理工作。

(3)该变电站多源异构数据处理方法，利用双尺度分解法将非结构化数据进行分解，利用均值滤波对源图像的低、高频信息进行有效分离，不仅有利于后续融合过程的开展，还降低了已有方法的算法复杂度；利用卷积神经网络进行图像特征提取，其中VGG19网络结构简洁明了，层数适中，具有强大的特征提取能力和数据表示能力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例整体流程图；

图2为本申请实施例步骤S2的流程图；

图3为本申请实施例步骤S3的流程图；

图4为本申请实施例步骤S4的流程图；

图5为本申请实施例步骤S5的流程图；

具体实施方式

为使得本申请的申请目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本申请一部分实施例，而非全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“上”、“下”、“顶”、“底”、 “内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

下面结合附图1-附图5并通过具体实施方式来进一步说明本申请的技术方案。

请参阅图1，本申请提供一种技术方案：一种变电站多源异构数据处理方法，依如下步骤实施：

S1：采集变电站多源异构数据，建立变电站多类检测数据的内存数据库，包括由监测变压器、隔离开关、断路器、避雷器、电容器等多种状态监控装置和电能计量单元、超高频传感器、SF6传感器等直接获得电能和环境等文本类结构化数据，以及由机器人巡检所获得的图像类非结构化数据。

进一步地，步骤S1中所述结构化数据指的是传感器网络中由监测变压器、隔离开关、断路器、避雷器、电容器等多种状态监控装置和电能计量单元、超高频传感器、SF6传感器等直接获得电能数据和环境数据的在线监测设备产生的数据，其高度组织和整齐格式化，可以放入电子表格进行储存，能够用统一的数据结构进行表示，如数字、符号等。

进一步地，步骤S1中所述非结构化数据指的是传感器网络中由巡检机器人获得的图像类数据。其不符合任何预定义的模型，存储在非关系数据库中，难以被组织或格式化。

S2：对所述内存数据库中的数据进行数据清洗；

进一步地，步骤S2通过构建以“并行计算+事件驱动架构EDA+内存数据库TimesTen”为核心的数据检验架构实现，具体包括如下步骤：

S2.1：预定义若干条校验规则，确定若干条校验规则的校验顺序，并将全部校验规则储存至TimesTen内存数据库中；在本实施例中，检验规则包括完整性检验、正确性检验和逻辑性检验；

S2.3：开启Disruptor的并行计算模式，从内存数据库中提取检验规则和数据并且输送至EDA校验引擎；

S2.4：EDA校验引擎依据校验顺序将数据应用于校验规则上，并且对完成校验的数据生成对应的校验记录；

S2.5：将数据和相应的检验记录存回内存数据库。

进一步，步骤S2.4中具体包括如下步骤：

S2.4.1：校验引擎将数据应用到完整性检验上；若数据中数据项有空缺，则检验不通过，生成相应检验记录，并且返回步骤S2.2修改数据；若数据中数据项均不为空，则校验通过，进入下一检验阶段。

在一个实施例中，针对35kV变电站多智能体系统中的数据校验，变电站名称、设备编码、电压等级、供电企业、主变台数、主变容量、最大负荷等等字段均为关键数据项，若数据中数据项有空缺，则检验不通过，生成相应检验记录，并且返回步骤S2.2修改数据；若数据中数据项均不为空，则校验通过，进入正确性检验。

S2.4.2：校验引擎将数据应用到正确性检验上，判断数据的数据项、数据类型、精度、范围是否与集成规范要求一致；若与集成规范不一致，则判定数据不正确，生成相应检验记录，并且将数据和检验记录存回电力数据库；若均与集成规范一致，则校验通过，进入下一检验阶段。

在一个实施例中，要求变电站主变台数数据类型为整数型，数据精度为1 位。若发现有非整数或者大于10的数据，则判定该数据不正确，生成相应检验记录，并且返回步骤S2.2修改数据。

在一个实施例中，若数据显示某主变最大负荷超出额定容量的200％，判定其最大负荷和额定容量2个数据必有1个错误，则判定数据不正确，生成相应检验记录，并且将数据和检验记录存回电力数据库。

S3：将不同数据源中的信息按类别进行数据集成，同时删除重复、多余的数据，具体包括以下步骤：

S3.1：完成数据ID匹配。在内存数据库TimesTen中生成数据的ID，比较数据的ID，若存在ID相同的数据，则将ID相同的数据融合为一条数据，重复执行步骤S31直至内存数据库不存在相同ID的数据；

进一步地，针对步骤S3.2构建以“并行计算+事件驱动架构EDA”为核心的架构，将“数据ID匹配”无法处理的内存化数据交由定制的EDA融合引擎处理，将数据逐条应用到规则上，利用EDA架构的并行计算和异步事件特性，可以将来自变电站智能体中的数据(电压等级，设备名称)和来自监控系统智能体中的数据(变压站电压等级，变压器设备名称)可以融合为一条信息。

S4：选用数据融合模型对数据进行深度融合。根据数据类型选择数据融合模型，若数据类型为结构化数据，则采用基于改进D-S证据理论数据融合模型进行数据深度融合；若数据类型为非结构化数据，则采用基于卷积神经网络 (RNN)中的VGG-19数据融合模型。

采用基于改进D-S证据理论数据融合模型进行数据深度融合，包括如下步骤：

S4.2：提取专用词进行对比。首先利用全数据生成正则表达式，再利用正则表达式提取专用词，对比专用词后，相同的即关联，否则再根据置信度进行关联；具体操作步骤如下：

S4.2.1：根据专用名词词典、常用名词词典、人名词典等建立电力名词词典；

S4.2.2：根据相同属性去重，生成全数据文件；

在一个实施例中，馈线关联的匹配正则式为：

“(F)|()|(\\d+)|(KV|kV)|(\\d+#)|(#+\\d)|(\\d+number)|(线)” +|(A|B|C|D|E|K|k)|(I|V|X)|(I|II|III|IV)|((I|II|III|IV)+回)|”+ “(甲|乙|丙|丁|戊)|((\\(.*\\)))|(\\S+站)”

在一实施例中，“坪石电厂”和“坪B电厂”，提取后分别为“坪石”、 “坪B”，因“坪B”是一个旧称，故全名词匹配时不成功，则进行置信度计算，因“坪石”和“坪B”有“坪”相同，置信度为0.5，若阈值≤0.5，则判断“坪石”和“坪B”是同一对象。

S4.3：针对数据实际类型为数值，但保存并非数值类型的数据，先去掉数据中非数值字符(如“@”、“#”、“\”等)，替换数据的数字，用“#”替代，形成字符规则，统计每个规则出现数量和频度。然后提取规则，对规则计算概率(置信度)。对于单一来源的数据，直接根据频度，选择频度最高的规则作为实际规则，针对多来源的数据，使用最大概率加权D-S证据推理法求得最佳规则，形成规则替换正则式，将所有其他规则数据替换为推导出来的规则数据。具体包括以下步骤：

S4.2.1，定义U为多源数据中所有数据规则的完备集合，m(A)为规则A 的基本概率赋值，如果m₁,m₂,K m_k是2^U上n个独立焦元A₁,A₂,K A_n的基本概率赋值。

S4.2.2，根据每个数据源中数据出现的总数确定权值，w_j＝T_j/ (T₁,T₂,K T_k)，其中T_j表示第j个数据源中数据的总数量，k为数据源的数量。在识别框架U上基于BPAm的信任函数定义为：

似然函数为：

信任区间为:[Bel(A),Pl(A)]

归一化常数为:

其中max(m_j(A_j),w_j)，表示m_j(A_j)最大时，取其对应的权值m_j(A_j)。

各规则的mass函数(识别度)为

替换后的统一规则，若规则为单纯数值，则完成；若是四则运算表达式，则根据规则再生成专用四则运算正则式进行替换运算，运算出来为空的则直接使用默认值-1。

采用基于卷积神经网络(RNN)中的VGG-19数据融合模型针对非结构化数据进行数据融合，包括如下步骤：

S5.1，依据双尺度分解法，通过均值滤波器将源图像分解为基础层图像I^b和细节层图像I^d。其中，基础层包含了图像的大部分信息，细节层为图像的局部结构信息。

进一步地，步骤S5.1中所述的双尺度分解法具体实现公式为：

k＝1,2

式中，I₁表示红外源图像，I₂表示可见光源图像，

表示基础层图，μ是窗口大小为ω_μ的正方形均值滤波。

将滤波处理得到的基础层图像

和

分别与源图像进行求差运算，得到对应的细节层图像信息

和

具体实现公式为：

S5.2，对于基础层，使用双尺度分解的融合方法从源图像中提取的基础轮廓部分包含了共同的特征和多余的信息，利用加权平均规则融合基础层图像。

进一步地，步骤S5.2中所述的加权平均规则具体实现公式为：

其中，(x，y)表示图像的相应位置。α和β分别表示红外源图像和可见光源图像中像素的权重。α+β＝1，α，β∈(0，1)。为了保存共同信息并减少冗余信息，取权重值为α＝β＝0.5。

S5.4：通过基础层与细节层的双尺度重建，将两者相加获得最终融合图像，完成了非结构数据的数据级融合，具体实现公式为：

F＝F_b+F_d

进一步地，步骤S5.3所述细节层分量融合具体包括以下步骤：

可见光图像细节层分量

应用VGG19模型进行深度特征提取，得到深度特征图，具体由下式表示：

其中，

表示深度特征图，k＝1，2，i表示VGG19中第i层特征，m为第 i层的通道数，m∈{1，2，3，...，M}，M＝64×2^i-1。由于前四层特征图包含了主要的结构特征，取i∈{1，2，3，4}。

S5.3.2：对获取的深度特征图

进行l₁-norm处理，获得初始激活图像

具体实现公式为：

S5.3.3，将初始激活图像经过步长为1的滑动窗处理后，得到最终激活图像

具体实现公式为：

S5.3.4，经由softmax算子计算激活图像的权重图

具体实现公式为：

S5.3.5，由于i∈{1，2，3，4}，经步骤S5.3.4后，每个细节层分量将产生四层权重图，结合权重图和细节分量图，获得细节层分量的初始融合图

具体实现公式为：

S5.3.6，根据基于最大选择策略获得最终的细节分量融合图：

综上所述：该变电站多源异构数据处理方法，针对不同类型的数据选用不同种类的数据处理模型，随后利用各自的数据处理模型相应的对结构化数据和非结构化数据进行处理和融合，解决了变电站监测数据中多源异构数据不能高效处理和融合的问题。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本申请的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本申请的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本申请的范围由所附权利要求及其等同物限定。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。