CN115309734A - 一种变电站多源异构数据处理方法 - Google Patents
一种变电站多源异构数据处理方法 Download PDFInfo
- Publication number
- CN115309734A CN115309734A CN202211037146.4A CN202211037146A CN115309734A CN 115309734 A CN115309734 A CN 115309734A CN 202211037146 A CN202211037146 A CN 202211037146A CN 115309734 A CN115309734 A CN 115309734A
- Authority
- CN
- China
- Prior art keywords
- data
- fusion
- image
- verification
- source heterogeneous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 230000004927 fusion Effects 0.000 claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 21
- 230000010354 integration Effects 0.000 claims abstract description 17
- 238000001514 detection method Methods 0.000 claims abstract description 13
- 238000004140 cleaning Methods 0.000 claims abstract description 5
- 238000012795 verification Methods 0.000 claims description 45
- 238000000034 method Methods 0.000 claims description 28
- 238000007689 inspection Methods 0.000 claims description 26
- 230000014509 gene expression Effects 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000007500 overflow downdraw method Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 abstract description 8
- 238000009826 distribution Methods 0.000 description 5
- 239000004575 stone Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000003990 capacitor Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012806 monitoring device Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000000484 butyl group Chemical group [H]C([*])([H])C([H])([H])C([H])([H])C([H])([H])[H] 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 125000001495 ethyl group Chemical group [H]C([H])([H])C([H])([H])* 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 125000001147 pentyl group Chemical group C(CCCC)* 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 125000001436 propyl group Chemical group [H]C([*])([H])C([H])([H])C([H])([H])[H] 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及电力数据处理技术领域,公开了一种变电站多源异构数据处理方法,依如下步骤实施:S1:采集变电站多源异构数据并且建立变电站多类检测数据的电力数据库,所述多源异构数据包括结构化数据和非结构化数据;S2:对所述电力数据库中的数据进行数据清洗;S3:对完成清洗的数据进行数据集成;S4:选用数据融合模型对数据进行深度融合。该一种变电站多源异构数据处理方法,针对不同类型的数据选用不同种类的数据处理模型,随后利用各自的数据处理模型相应的对结构化数据和非结构化数据进行处理和融合,解决了变电站监测数据中多源异构数据不能高效处理和融合的问题。
Description
技术领域
本申请涉及电力数据处理技术领域,具体为一种变电站多源异构数据处 理方法。
背景技术
作为电网的重要组成部分,配电线路能否安全稳定地运行直接决定了电 网的是否正常工作。通过加强配电线路检查工作,及时发现并且就解决配电线 路存在的安全隐患,能够保证配电线路以及相关设备处在安全稳定的运行状 态。
通常采用带电检测技术和机器人巡检系统对配电线路进行检测。目前我 国变电站带电检测装置或系统已经应用很多,并发挥了较好作用,但是由于电 气设备种类繁多、结构各异,每种电气设备的带电检测项目各有不同,使得获 取后的数据的分析工作尚需要人工参与,同时,机器人巡检所获得的图像信息 也还需要人工深度参与才能得出结果,使得变电站运维自动化水平较低。
因此,针对多类固定带电检测装置或系统的海量结构化数据和巡检机器 人采集图像的非结构化数据,研究如何结合人工智能技术对其融合应用,以便 进一步挖掘价值提升变电站运维智能自动化水平具有重要实际意义
发明内容
针对现有技术的不足,本申请提供了一种变电站多源异构数据处理方法, 解决了变电站监测数据中多源异构数据不能高效处理和融合的问题。
为实现上述目的,本申请提供如下技术方案:一种变电站多源异构数据处 理方法,其特征在于,依如下步骤实施:
S1:采集变电站多源异构数据并且建立变电站多类检测数据的内存数据 库,所述多源异构数据包括结构化数据和非结构化数据;
S2:对所述内存数据库中的数据进行数据清洗;
S3:对完成清洗的数据进行数据集成;
S4:选用数据融合模型对数据进行深度融合。
优选的,所述步骤S2中包括如下步骤:
S2.1:预定义若干条校验规则,确定若干条校验规则的校验顺序,并将全 部校验规则储存至内存数据库中;
S2.2:修改多类检测数据的格式,将多类检测数据的格式统一后,储存至 内存数据库中;
S2.3:从内存数据库中提取检验规则和数据并且输送至校验引擎;
S2.4:校验引擎依据校验顺序将数据应用于校验规则上,并且对完成校验 的数据生成对应的校验记录;
S2.5:将数据和相应的检验记录存回内存数据库。
优选的,所述检验规则包括完整性检验、正确性检验和逻辑性检验。
优选的,所述步骤S2.4中包括如下步骤:
S2.4.1:校验引擎将数据应用到完整性检验上;若数据中数据项有空缺, 则检验不通过,生成相应检验记录,并且将数据和检验记录存回电力数据库; 若数据中数据项均不为空,则校验通过,进入下一检验阶段;
S2.4.2:校验引擎将数据应用到正确性检验上,判断数据的数据项、数据 类型、精度、范围是否与集成规范要求一致;若与集成规范不一致,则判定数 据不正确,生成相应检验记录,并且将数据和检验记录存回电力数据库;若均 与集成规范一致,则校验通过,进入下一检验阶段;
S2.4.3:校验引擎将数据应用到逻辑性检验上,依据数据交互过程中数据 源个体之间的关系,检查数据项是否符合业务逻辑关系;若不满足业务逻辑关 系,则判定数据不正确,生成相应检验记录,并且将数据和检验记录存回电力 数据库;若满足业务逻辑关系,则校验通过,并且生成校验通过的检验记录。
优选的,所述步骤S3中包括如下步骤:
S3.1:完成数据ID匹配。在内存数据库中生成数据的ID,比较数据的ID, 若存在ID相同的数据,则将ID相同的数据融合为一条数据,重复执行步骤 S31直至内存数据库不存在相同ID的数据;
S3.2:完成数据特征匹配。根据数据特征,将步骤S31中无法处理的数据 进行特征匹配,将阈值以上相似度的数据融合为一条数据,重复执行步骤S32 直至内存数据库数据的特征相似度均在阈值以下;
S3.3:完成数据级融合匹配。将S3.2中无法处理的数据暂存在内存数据 库中以待后续处理。
优选的,所述步骤S4中包括:根据数据类型选择数据融合模型,若数据 类型为结构化数据,则采用基于改进D-S证据理论数据融合模型进行数据深 度融合;若数据类型为非结构化数据,则采用基于卷积神经网络(RNN)中的 VGG-19数据融合模型。
优选的,采用基于改进D-S证据理论数据融合模型进行数据深度融合, 包括如下步骤:
S4.1:判断结构化数据的数据类型,若结构化数据为字符串类型数据,则 进入步骤S4.2,若结构化数据为数值类型的数据,则进入步骤S4.3;
S4.2:提取专用词进行对比。首先利用全数据生成正则表达式,再利用正 则表达式提取专用词,对比专用词后,相同的即关联,否则再根据置信度进行 关联;
S4.3:去掉数据中非数值字符,替换数据的数字,用通配符替代,形成字 符规则,统计每个规则出现数量和频度。然后提取规则,对规则计算概率。对 于单一来源的数据,直接根据频度,选择频度最高的规则作为实际规则,针对 多来源的数据,使用最大概率加权D-S证据推理法求得最佳规则,形成规则 替换正则式,将所有其他规则数据替换为推导出来的规则数据。
优选的,所述步骤S4.2中包括如下步骤:
S4.2.1:建立电力名词词典;
S4.2.2:根据相同属性去重,生成全数据文件;
S4.2.3:使用基于词典的双向最大匹配法对数据文件进行分词,去掉重复 分词结果,生成分词后的文件;
S4.2.4:提取分词后的文件,去掉文件中与词典相同的词,根据每个类型 生成一个特定正则式;
S4.2.5:对需要关联的数据相同属性利用特定正则式提取专用词进行匹 配,若提取后的内容一致,则为同一对象的不同数据进行融合,若提取后的内 容不一致,则进入下一融合阶段;
S4.2.6:对提取后的字符进行全名词匹配,若提取后的词都存在,则表示 不为同一对象,完成处理,若其中至少一个不存在,则利用置信度进行判断, 置信度达到设定的阈值即为同一对象。
优选的,采用基于卷积神经网络(RNN)中的VGG-19数据融合模型针对非 结构化数据进行数据融合,包括如下步骤:
S5.1:依据双尺度分解法,通过均值滤波器将源图像分解为基础层图像 和细节层图像。其中,基础层包含了图像的大部分信息,细节层为图像的局 部结构信息;
S5.2:对于基础层,使用双尺度分解的融合方法从源图像中提取的基础轮 廓部分包含了共同的特征和多余的信息,利用加权平均规则融合基础层图像;
S5.3:对于细节层,采用卷积神经网络(RNN)中的VGG-19对细节层进行 深度特征提取,使用多层融合策略进行融合得到权重图,再对权重图和细节部 组合进行重建得到融合细节层图像;
S5.4:通过基础层与细节层的双尺度重建,将两者相加获得最终融合图像, 完成了非结构数据的数据级融合。
优选的,所述步骤S5.3中包括如下步骤:
S5.3.6:根据基于最大选择策略获得最终的细节分量融合图。
本申请提供了一种变电站多源异构数据处理方法,具备以下有益效果:
(1)该变电站多源异构数据处理方法,针对不同类型的数据选用不同种 类的数据处理模型,随后利用各自的数据处理模型相应的对结构化数据和非 结构化数据进行处理和融合,解决了变电站监测数据中多源异构数据不能高 效处理和融合的问题。
(2)该变电站多源异构数据处理方法,在数据清洗的预处理后通过数据 集成将不同数据源中的信息按类别进行数据集成,同时删除重复、多余的数据, 使数据源之间的逻辑关联更加清晰,数据的利用更加高效,实现将大量多源数 据有条理地存储于数据库中,方便下一步的处理工作。
(3)该变电站多源异构数据处理方法,利用双尺度分解法将非结构化数 据进行分解,利用均值滤波对源图像的低、高频信息进行有效分离,不仅有利 于后续融合过程的开展,还降低了已有方法的算法复杂度;利用卷积神经网络 进行图像特征提取,其中VGG19网络结构简洁明了,层数适中,具有强大的特 征提取能力和数据表示能力。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描 述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例整体流程图;
图2为本申请实施例步骤S2的流程图;
图3为本申请实施例步骤S3的流程图;
图4为本申请实施例步骤S4的流程图;
图5为本申请实施例步骤S5的流程图;
具体实施方式
为使得本申请的申请目的、特征、优点能够更加的明显和易懂,下面将结 合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描 述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施 例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提 下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“上”、“下”、“顶”、“底”、 “内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系, 仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件 必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的 限制。
下面结合附图1-附图5并通过具体实施方式来进一步说明本申请的技术 方案。
请参阅图1,本申请提供一种技术方案:一种变电站多源异构数据处理方 法,依如下步骤实施:
S1:采集变电站多源异构数据,建立变电站多类检测数据的内存数据库, 包括由监测变压器、隔离开关、断路器、避雷器、电容器等多种状态监控装置 和电能计量单元、超高频传感器、SF6传感器等直接获得电能和环境等文本类 结构化数据,以及由机器人巡检所获得的图像类非结构化数据。
进一步地,步骤S1中所述结构化数据指的是传感器网络中由监测变压器、 隔离开关、断路器、避雷器、电容器等多种状态监控装置和电能计量单元、超 高频传感器、SF6传感器等直接获得电能数据和环境数据的在线监测设备产生 的数据,其高度组织和整齐格式化,可以放入电子表格进行储存,能够用统一 的数据结构进行表示,如数字、符号等。
进一步地,步骤S1中所述非结构化数据指的是传感器网络中由巡检机器 人获得的图像类数据。其不符合任何预定义的模型,存储在非关系数据库中, 难以被组织或格式化。
S2:对所述内存数据库中的数据进行数据清洗;
进一步地,步骤S2通过构建以“并行计算+事件驱动架构EDA+内存数据 库TimesTen”为核心的数据检验架构实现,具体包括如下步骤:
S2.1:预定义若干条校验规则,确定若干条校验规则的校验顺序,并将全 部校验规则储存至TimesTen内存数据库中;在本实施例中,检验规则包括完 整性检验、正确性检验和逻辑性检验;
S2.2:修改多类检测数据的格式,将多类检测数据的格式统一后,储存至 内存数据库中;
S2.3:开启Disruptor的并行计算模式,从内存数据库中提取检验规则 和数据并且输送至EDA校验引擎;
S2.4:EDA校验引擎依据校验顺序将数据应用于校验规则上,并且对完成 校验的数据生成对应的校验记录;
S2.5:将数据和相应的检验记录存回内存数据库。
进一步,步骤S2.4中具体包括如下步骤:
S2.4.1:校验引擎将数据应用到完整性检验上;若数据中数据项有空缺, 则检验不通过,生成相应检验记录,并且返回步骤S2.2修改数据;若数据中 数据项均不为空,则校验通过,进入下一检验阶段。
在一个实施例中,针对35kV变电站多智能体系统中的数据校验,变电站 名称、设备编码、电压等级、供电企业、主变台数、主变容量、最大负荷等等 字段均为关键数据项,若数据中数据项有空缺,则检验不通过,生成相应检验 记录,并且返回步骤S2.2修改数据;若数据中数据项均不为空,则校验通过, 进入正确性检验。
S2.4.2:校验引擎将数据应用到正确性检验上,判断数据的数据项、数据 类型、精度、范围是否与集成规范要求一致;若与集成规范不一致,则判定数 据不正确,生成相应检验记录,并且将数据和检验记录存回电力数据库;若均 与集成规范一致,则校验通过,进入下一检验阶段。
在一个实施例中,要求变电站主变台数数据类型为整数型,数据精度为1 位。若发现有非整数或者大于10的数据,则判定该数据不正确,生成相应检 验记录,并且返回步骤S2.2修改数据。
S2.4.3:校验引擎将数据应用到逻辑性检验上,依据数据交互过程中数据 源个体之间的关系,检查数据项是否符合业务逻辑关系;若不满足业务逻辑关 系,则判定数据不正确,生成相应检验记录,并且将数据和检验记录存回电力 数据库;若满足业务逻辑关系,则校验通过,并且生成校验通过的检验记录。
在一个实施例中,若数据显示某主变最大负荷超出额定容量的200%,判 定其最大负荷和额定容量2个数据必有1个错误,则判定数据不正确,生成 相应检验记录,并且将数据和检验记录存回电力数据库。
S3:将不同数据源中的信息按类别进行数据集成,同时删除重复、多余的 数据,具体包括以下步骤:
S3.1:完成数据ID匹配。在内存数据库TimesTen中生成数据的ID,比 较数据的ID,若存在ID相同的数据,则将ID相同的数据融合为一条数据, 重复执行步骤S31直至内存数据库不存在相同ID的数据;
S3.2:完成数据特征匹配。根据数据特征,将步骤S31中无法处理的数据 进行特征匹配,将阈值以上相似度的数据融合为一条数据,重复执行步骤S32 直至内存数据库数据的特征相似度均在阈值以下;
进一步地,针对步骤S3.2构建以“并行计算+事件驱动架构EDA”为核心 的架构,将“数据ID匹配”无法处理的内存化数据交由定制的EDA融合引擎 处理,将数据逐条应用到规则上,利用EDA架构的并行计算和异步事件特性, 可以将来自变电站智能体中的数据(电压等级,设备名称)和来自监控系统智 能体中的数据(变压站电压等级,变压器设备名称)可以融合为一条信息。
S3.3:完成数据级融合匹配。将S3.2中无法处理的数据暂存在内存数据 库中以待后续处理。
S4:选用数据融合模型对数据进行深度融合。根据数据类型选择数据融合 模型,若数据类型为结构化数据,则采用基于改进D-S证据理论数据融合模 型进行数据深度融合;若数据类型为非结构化数据,则采用基于卷积神经网络 (RNN)中的VGG-19数据融合模型。
采用基于改进D-S证据理论数据融合模型进行数据深度融合,包括如下 步骤:
S4.1:判断结构化数据的数据类型,若结构化数据为字符串类型数据,则 进入步骤S4.2,若结构化数据为数值类型的数据,则进入步骤S4.3;
S4.2:提取专用词进行对比。首先利用全数据生成正则表达式,再利用正 则表达式提取专用词,对比专用词后,相同的即关联,否则再根据置信度进行 关联;具体操作步骤如下:
S4.2.1:根据专用名词词典、常用名词词典、人名词典等建立电力名词词 典;
S4.2.2:根据相同属性去重,生成全数据文件;
S4.2.3:使用基于词典的双向最大匹配法对数据文件进行分词,去掉重复 分词结果,生成分词后的文件;
S4.2.4:提取分词后的文件,去掉文件中与词典相同的词,根据每个类型 生成一个特定正则式;
在一个实施例中,馈线关联的匹配正则式为:
“(F)|()|(\\d+)|(KV|kV)|(\\d+#)|(#+\\d)|(\\d+number)|(线)” +|(A|B|C|D|E|K|k)|(I|V|X)|(I|II|III|IV)|((I|II|III|IV)+回)|”+ “(甲|乙|丙|丁|戊)|((\\(.*\\)))|(\\S+站)”
S4.2.5:对需要关联的数据相同属性利用特定正则式提取专用词进行匹 配,若提取后的内容一致,则为同一对象的不同数据进行融合,若提取后的内 容不一致,则进入下一融合阶段;
S4.2.6:对提取后的字符进行全名词匹配,若提取后的词都存在,则表示 不为同一对象,完成处理,若其中至少一个不存在,则利用置信度进行判断, 置信度达到设定的阈值即为同一对象。
在一实施例中,“坪石电厂”和“坪B电厂”,提取后分别为“坪石”、 “坪B”,因“坪B”是一个旧称,故全名词匹配时不成功,则进行置信度计 算,因“坪石”和“坪B”有“坪”相同,置信度为0.5,若阈值≤0.5,则判 断“坪石”和“坪B”是同一对象。
S4.3:针对数据实际类型为数值,但保存并非数值类型的数据,先去掉数 据中非数值字符(如“@”、“#”、“\”等),替换数据的数字,用“#”替代, 形成字符规则,统计每个规则出现数量和频度。然后提取规则,对规则计算概 率(置信度)。对于单一来源的数据,直接根据频度,选择频度最高的规则作为 实际规则,针对多来源的数据,使用最大概率加权D-S证据推理法求得最佳 规则,形成规则替换正则式,将所有其他规则数据替换为推导出来的规则数据。 具体包括以下步骤:
S4.2.1,定义U为多源数据中所有数据规则的完备集合,m(A)为规则A 的基本概率赋值,如果m1,m2,K mk是2U上n个独立焦元A1,A2,K An的基本概 率赋值。
S4.2.2,根据每个数据源中数据出现的总数确定权值,wj=Tj/ (T1,T2,K Tk),其中Tj表示第j个数据源中数据的总数量,k为数据源的数量。 在识别框架U上基于BPAm的信任函数定义为:
似然函数为:
信任区间为:[Bel(A),Pl(A)]
归一化常数为:
其中max(mj(Aj),wj),表示mj(Aj)最大时,取其对应的权值mj(Aj)。
各规则的mass函数(识别度)为
替换后的统一规则,若规则为单纯数值,则完成;若是四则运算表达式, 则根据规则再生成专用四则运算正则式进行替换运算,运算出来为空的则直 接使用默认值-1。
采用基于卷积神经网络(RNN)中的VGG-19数据融合模型针对非结构化 数据进行数据融合,包括如下步骤:
S5.1,依据双尺度分解法,通过均值滤波器将源图像分解为基础层图像Ib和细节层图像Id。其中,基础层包含了图像的大部分信息,细节层为图像的局 部结构信息。
进一步地,步骤S5.1中所述的双尺度分解法具体实现公式为:
k=1,2
S5.2,对于基础层,使用双尺度分解的融合方法从源图像中提取的基础轮 廓部分包含了共同的特征和多余的信息,利用加权平均规则融合基础层图像。
进一步地,步骤S5.2中所述的加权平均规则具体实现公式为:
其中,(x,y)表示图像的相应位置。α和β分别表示红外源图像和可见光源 图像中像素的权重。α+β=1,α,β∈(0,1)。为了保存共同信息并减少冗余 信息,取权重值为α=β=0.5。
S5.3:对于细节层,采用卷积神经网络(RNN)中的VGG-19对细节层进行 深度特征提取,使用多层融合策略进行融合得到权重图,再对权重图和细节部 组合进行重建得到融合细节层图像;
S5.4:通过基础层与细节层的双尺度重建,将两者相加获得最终融合图像, 完成了非结构数据的数据级融合,具体实现公式为:
F=Fb+Fd
进一步地,步骤S5.3所述细节层分量融合具体包括以下步骤:
其中,表示深度特征图,k=1,2,i表示VGG19中第i层特征,m为第 i层的通道数,m∈{1,2,3,...,M},M=64×2i-1。由于前四层特征图包含了主 要的结构特征,取i∈{1,2,3,4}。
S5.3.6,根据基于最大选择策略获得最终的细节分量融合图:
综上所述:该变电站多源异构数据处理方法,针对不同类型的数据选用不 同种类的数据处理模型,随后利用各自的数据处理模型相应的对结构化数据 和非结构化数据进行处理和融合,解决了变电站监测数据中多源异构数据不 能高效处理和融合的问题。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将 一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这 些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列 要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列 出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本申请的实施例,对于本领域的普通技术人员而 言,可以理解在不脱离本申请的原理和精神的情况下可以对这些实施例进行 多种变化、修改、替换和变型,本申请的范围由所附权利要求及其等同物限定。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽 管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当 理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部 分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质 脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种变电站多源异构数据处理方法,其特征在于,依如下步骤实施:
S1:采集变电站多源异构数据并且建立变电站多类检测数据的电力数据库,所述多源异构数据包括结构化数据和非结构化数据;
S2:对所述电力数据库中的数据进行数据清洗;
S3:对完成清洗的数据进行数据集成;
S4:选用数据融合模型对数据进行深度融合。
2.根据权利要求1所述的一种变电站多源异构数据处理方法,其特征在于,所述步骤S2中包括如下步骤:
S2.1:预定义若干条校验规则,确定若干条校验规则的校验顺序,并将全部校验规则储存至内存数据库中;
S2.2:修改多类检测数据的格式,将多类检测数据的格式统一后,储存至内存数据库中;
S2.3:从内存数据库中提取检验规则和数据并且输送至校验引擎;
S2.4:校验引擎依据校验顺序将数据应用于校验规则上,并且对完成校验的数据生成对应的校验记录;
S2.5:将数据和相应的检验记录存回电力数据库。
3.根据权利要求2所述的一种变电站多源异构数据处理方法,其特征在于,所述检验规则包括完整性检验、正确性检验和逻辑性检验。
4.根据权利要求3所述的一种变电站多源异构数据处理方法,其特征在于,所述步骤S2.4中包括如下步骤:
S2.4.1:校验引擎将数据应用到完整性检验上;若数据中数据项有空缺,则检验不通过,生成相应检验记录,并且将数据和检验记录存回电力数据库;若数据中数据项均不为空,则校验通过,进入下一检验阶段;
S2.4.2:校验引擎将数据应用到正确性检验上,判断数据的数据项、数据类型、精度、范围是否与集成规范要求一致;若与集成规范不一致,则判定数据不正确,生成相应检验记录,并且将数据和检验记录存回电力数据库;若均与集成规范一致,则校验通过,进入下一检验阶段;
S2.4.3:校验引擎将数据应用到逻辑性检验上,依据数据交互过程中数据源个体之间的关系,检查数据项是否符合业务逻辑关系;若不满足业务逻辑关系,则判定数据不正确,生成相应检验记录,并且将数据和检验记录存回电力数据库;若满足业务逻辑关系,则校验通过,并且生成校验通过的检验记录。
5.根据权利要求1所述的一种变电站多源异构数据处理方法,其特征在于,所述步骤S3中包括如下步骤:
S3.1:完成数据ID匹配。在内存数据库中生成数据的ID,比较数据的ID,若存在ID相同的数据,则将ID相同的数据融合为一条数据,重复执行步骤S31直至内存数据库不存在相同ID的数据;
S3.2:完成数据特征匹配。根据数据特征,将步骤S31中无法处理的数据进行特征匹配,将阈值以上相似度的数据融合为一条数据,重复执行步骤S32直至内存数据库数据的特征相似度均在阈值以下;
S3.3:完成数据级融合匹配。将S32中无法处理的数据暂存在内存数据库中以待后续处理。
6.根据权利要求1所述的一种变电站多源异构数据处理方法,其特征在于,所述步骤S4中包括:根据数据类型选择数据融合模型,若数据类型为结构化数据,则采用基于改进D-S证据理论数据融合模型进行数据深度融合;若数据类型为非结构化数据,则采用基于卷积神经网络(RNN)中的VGG-19数据融合模型。
7.根据权利要求6所述的一种变电站多源异构数据处理方法,其特征在于,采用基于改进D-S证据理论数据融合模型进行数据深度融合,包括如下步骤:
S4.1:判断结构化数据的数据类型,若结构化数据为字符串类型数据,则进入步骤S4.2,若结构化数据为数值类型的数据,则进入步骤S4.3;
S4.2:提取专用词进行对比。首先利用全数据生成正则表达式,再利用正则表达式提取专用词,对比专用词后,相同的即关联,否则再根据置信度进行关联;
S4.3:去掉数据中非数值字符,替换数据的数字,用通配符替代,形成字符规则,统计每个规则出现数量和频度。然后提取规则,对规则计算概率。对于单一来源的数据,直接根据频度,选择频度最高的规则作为实际规则,针对多来源的数据,使用最大概率加权D-S证据推理法求得最佳规则,形成规则替换正则式,将所有其他规则数据替换为推导出来的规则数据。
8.根据权利要求7所述的一种变电站多源异构数据处理方法,其特征在于,所述步骤S4.2中包括如下步骤:
S4.2.1:建立电力名词词典;
S4.2.2:根据相同属性去重,生成全数据文件;
S4.2.3:使用基于词典的双向最大匹配法对数据文件进行分词,去掉重复分词结果,生成分词后的文件;
S4.2.4:提取分词后的文件,去掉文件中与词典相同的词,根据每个类型生成一个特定正则式;
S4.2.5:对需要关联的数据相同属性利用特定正则式提取专用词进行匹配,若提取后的内容一致,则为同一对象的不同数据进行融合,若提取后的内容不一致,则进入下一融合阶段;
S4.2.6:对提取后的字符进行全名词匹配,若提取后的词都存在,则表示不为同一对象,完成处理,若其中至少一个不存在,则利用置信度进行判断,置信度达到设定的阈值即为同一对象。
9.根据权利要求6所述的一种变电站多源异构数据处理方法,其特征在于,采用基于卷积神经网络(RNN)中的VGG-19数据融合模型针对非结构化数据进行数据融合,包括如下步骤:
S5.1:依据双尺度分解法,通过均值滤波器将源图像分解为基础层图像和细节层图像。其中,基础层包含了图像的大部分信息,细节层为图像的局部结构信息;
S5.2:对于基础层,使用双尺度分解的融合方法从源图像中提取的基础轮廓部分包含了共同的特征和多余的信息,利用加权平均规则融合基础层图像;
S5.3:对于细节层,采用卷积神经网络(RNN)中的VGG-19对细节层进行深度特征提取,使用多层融合策略进行融合得到权重图,再对权重图和细节部组合进行重建得到融合细节层图像;
S5.4:通过基础层与细节层的双尺度重建,将两者相加获得最终融合图像,完成了非结构数据的数据级融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211037146.4A CN115309734A (zh) | 2022-08-26 | 2022-08-26 | 一种变电站多源异构数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211037146.4A CN115309734A (zh) | 2022-08-26 | 2022-08-26 | 一种变电站多源异构数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115309734A true CN115309734A (zh) | 2022-11-08 |
Family
ID=83864345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211037146.4A Pending CN115309734A (zh) | 2022-08-26 | 2022-08-26 | 一种变电站多源异构数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115309734A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115759996A (zh) * | 2022-11-23 | 2023-03-07 | 国网四川省电力公司达州供电公司 | 一种机房标准化巡检方法、设备及介质 |
CN116578632A (zh) * | 2023-07-14 | 2023-08-11 | 江苏未来网络集团有限公司 | 电力设备全生命周期管理系统、方法、计算机设备及介质 |
CN116680423A (zh) * | 2023-08-03 | 2023-09-01 | 国网浙江浙电招标咨询有限公司 | 电力供应链多源异构数据的管理方法、装置、设备及介质 |
CN117390008A (zh) * | 2023-12-11 | 2024-01-12 | 北京星球空天信息技术有限公司 | 多类型观测仪器的测量数据处理方法和装置 |
-
2022
- 2022-08-26 CN CN202211037146.4A patent/CN115309734A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115759996A (zh) * | 2022-11-23 | 2023-03-07 | 国网四川省电力公司达州供电公司 | 一种机房标准化巡检方法、设备及介质 |
CN115759996B (zh) * | 2022-11-23 | 2023-08-08 | 国网四川省电力公司达州供电公司 | 一种机房标准化巡检方法、设备及介质 |
CN116578632A (zh) * | 2023-07-14 | 2023-08-11 | 江苏未来网络集团有限公司 | 电力设备全生命周期管理系统、方法、计算机设备及介质 |
CN116680423A (zh) * | 2023-08-03 | 2023-09-01 | 国网浙江浙电招标咨询有限公司 | 电力供应链多源异构数据的管理方法、装置、设备及介质 |
CN116680423B (zh) * | 2023-08-03 | 2023-10-20 | 国网浙江浙电招标咨询有限公司 | 电力供应链多源异构数据的管理方法、装置、设备及介质 |
CN117390008A (zh) * | 2023-12-11 | 2024-01-12 | 北京星球空天信息技术有限公司 | 多类型观测仪器的测量数据处理方法和装置 |
CN117390008B (zh) * | 2023-12-11 | 2024-04-12 | 北京星球空天信息技术有限公司 | 多类型观测仪器的测量数据处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115309734A (zh) | 一种变电站多源异构数据处理方法 | |
CN111078889B (zh) | 一种基于多种注意力和改进预训练的药物间关系抽取方法 | |
CN112860872B (zh) | 基于自学习的配电网操作票语义合规性的校验方法及系统 | |
CN106777150B (zh) | 一种融合电网运行环境及设备信息的跨系统数据转换方法 | |
CN112559766B (zh) | 一种法律知识图谱构建系统 | |
CN112905580B (zh) | 一种基于工业大数据的多源异构数据融合系统及方法 | |
CN113590396B (zh) | 一次设备的缺陷诊断方法、系统、电子设备及存储介质 | |
CN111079430A (zh) | 一种组合深度学习和概念图谱的电力故障事件抽取方法 | |
CN107103363A (zh) | 一种基于lda的软件故障专家系统的构建方法 | |
CN114077674A (zh) | 一种电网调度知识图谱数据优化方法及系统 | |
CN116843162B (zh) | 一种矛盾调解方案推荐与评分系统及方法 | |
CN113268370B (zh) | 一种根因告警分析方法、系统、设备及存储介质 | |
CN114138759B (zh) | 基于知识图谱推理的二次设备故障处理推送方法及系统 | |
CN109710647A (zh) | 一种基于关键字搜索的电网台账数据融合方法及装置 | |
CN112183656A (zh) | 一种电网故障中scada数据频繁项集挖掘方法 | |
CN115438199A (zh) | 一种基于智慧城市场景数据中台技术的知识平台系统 | |
CN116976318A (zh) | 基于深度学习和模型推理的电网倒闸操作票智能审核系统 | |
CN111177323A (zh) | 基于人工智能的停电计划非结构化数据提取与识别方法 | |
CN113961549A (zh) | 基于数据仓库的医疗数据整合方法及系统 | |
CN117892820A (zh) | 一种基于大语言模型的多级数据建模方法及系统 | |
CN111340253B (zh) | 一种主网检修申请单的解析方法及系统 | |
Hadj-Mabrouk | Contribution of artificial intelligence and machine learning to the assessment of the safety of critical software used in railway transport | |
CN116069951B (zh) | 一种施工工人安全知识抽取和知识图谱构建方法 | |
CN114880584B (zh) | 一种基于社区发现的发电机组故障分析方法 | |
Hu et al. | A classification model of power operation inspection defect texts based on graph convolutional network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |