CN107944454B

CN107944454B - 一种针对变电站的基于机器学习的语义标注方法

Info

Publication number: CN107944454B
Application number: CN201711093816.3A
Authority: CN
Inventors: 杜振波; 江翼; 刘正阳; 聂德鑫; 冯振新; 徐进霞; 朱诗沁; 梁明辉; 程林; 赵坤; 张�杰; 刘熙; 丁国成; 陈庆涛; 杨海涛; 吴兴旺; 尹睿涵
Original assignee: Wuhan University WHU; Wuhan NARI Ltd; Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
Current assignee: Wuhan University WHU; Wuhan NARI Ltd; Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2021-09-14
Anticipated expiration: 2037-11-08
Also published as: CN107944454A

Abstract

本发明公布了一种针对变电站的基于机器学习的语义标注方法。其包括对训练视频和测试视频图像进行特征提取，对特征进行聚类，将生成的视觉单词进行关联和量化，机器模型依据特征描述后的视频和图像进行学习，将最优参数下的半监督或弱监督学习方法用于对测试视频、图片进行标注。本发明可实现现场作业标准化和数据规范化，实现现场侧和中心侧的数据和分析算法互享，提高现场侧的数据分析能力，加强现场运维的远程管控和实时技术支持能力。提高现场运维的专业化、智能化水平，提升运检工作效率、设备状态管控能力，强化状态检修和辅助决策。

Description

一种针对变电站的基于机器学习的语义标注方法

技术领域

本发明涉及语义标注技术，具体涉及基于稀疏编码和机器学习的图像视频标注技术。

背景技术

随电力运维检修业务中，带电检测数据在完备性和正确性上很大程度上依赖于现场试验人员的专业水平，可靠性不高；由于带电检测仪器种类繁多，标准不同意，存在数据不规范，可利用效率低的情况；设备状态数据主要依赖人工整理、分析与运用，时效性不足。

发明内容

本发明的目的是：实现现场作业标准化和数据规范化，实现现场侧和中心侧的数据和分析算法互享，提高现场侧的数据分析能力，加强现场运维的远程管控和实时技术支持能力。提高现场运维的专业化、智能化水平，提高运检工作效率、设备状态管控能力，强化状态检修和辅助决策。

为实现本发明之目的，采用以下技术方案予以实现：

一种针对变电站的基于机器学习的语义标注方法，其特征在于：包括：

步骤1、采集数据集的图像并进行预处理；

步骤2、将预处理后的图像进行规范化；对于结构化的数据，如数值数据、参数、变量、录入数据和采样数据等的存储采用XML格式；针对非结构化数据的规范化转化方法主要是利用基于稀疏编码、视觉单词等技术对非结构化图谱、视频数据进行规范化和特征量提取；

步骤3、将训练视频图像类集合所提取的特征信息聚类，生成视觉单词并进行关联，然后量化视觉单词，新的视觉单词作为半监督或弱监督机器学习方法的输入，学习获得最优参数，将最优参数下的半监督或弱监督机器学习方法用于对测试视频、图像进行标注；

步骤4、利用变电设备图像结构特征，对步骤3得到的数据进行视频压缩，剔除无关信息并保留特征信息，实现现场视频数据的高效压缩和高速传输；

步骤5、研究各类状态检测数据的高维混合数据标识技术，建立高效多级状态检测数据综合索引模型，实现检测数据的多级多维等快速索引；

步骤6、基于各类检测数据的规范化模型与特征量，研究状态检测数据的分析诊断技术及个性化展示方法。

在上述的一种针对变电站的基于机器学习的语义标注方法，所述步骤1具体包括：

步骤1.1、图像增强；突出图像中感兴趣的信息，使有用信息得到增强，便于区分和解释；

步骤1.2、图像复原；主要任务是去噪声，去模糊。

在上述的一种针对变电站的基于机器学习的语义标注方法，所述步骤2具体包括：

步骤2.1、提出局部不变特征提取技术，提取具有尺度，旋转，光照，模糊和视角不变性的局部关键点特征，实现特征点的高准确度匹配，提取有效的区域不变特征，描述局部区域的相关特性，实现仿射和旋转不变性；

步骤2.2、提出有效的具有判决力的图谱描述算子,概括图谱主要内容信息；利用局部不变特征，设计有效的视觉单词索引技术，有效捕获空域及其特征域信息；利用稀疏编码技术，实现有效的图谱结构化描述方法，提取低维的图谱描述符，用于大数据库图谱的有效分类；利用稠密的采样技术，设计基于像素的特征描述，并结合视觉单词技术描述整幅图谱/纹理特征；

步骤2.3、提出有语义的对象及其场景信息描述方法；设计有效的对象检测算法，达到前景和背景信息的可靠分离；利用对象和场景上下文关系，建立有特定语义的图谱统一描述方法；建立有效的数学描述模型，完成对象和场景的语义建模；

步骤2.4、研究具有几何结构的多尺度、多层次的特征描述，挖掘对象的类别空域分布信息，有效提取中层语义信息；对于无法直接进行处理的非结构化图谱数据，通过图谱特征描述技术，实现非结构化图谱数据的结构化转换。

在上述的一种针对变电站的基于机器学习的语义标注方法，所述步骤3具体包括：

步骤3.1、对于相对静态的电力设备图谱，采用局部不变特征提取技术，提取具有尺度，旋转，光照，模糊和视角不变性的局部关键点特征，实现特征点的高准确度匹配，提取有效的区域不变特征，描述局部区域的相关特性，实现仿射和旋转不变性；对于可以进行结构化转换的非结构化数据，转换后变成特征向量，可以直接存储在XML结构中，对于不能转换的数据，如复杂的图像和视频数据，将其存储在文件系统中，并且在对应的XML词条中做标记，便于随时查询；

步骤3.2、将训练视频图像类集合所提取的特征信息聚类；聚类过程包括：

1)数据准备：包括特征标准化和降维.

2)特征选择：从最初的特征中选择最有效的特征，并将其存储于向量中.

3)特征提取：通过对所选择的特征进行转换形成新的突出特征.

4)聚类：首先选择合适特征类型的距离函数进行接近程度的度量；而后执行聚类或分组.

5)聚类结果评估：是指对聚类结果进行评估.评估主要有3种：外部有效性评估、内部有效性评估和相关性测试评估.

步骤3.3、聚类后视觉单词生成，再利用概率潜在语义分析模型挖掘视觉单词之间的共生概率，综合这两种关系得到图像块所对应的视觉单词在空间域的上下文语义共生概率，即关联视觉单词；最后综合特征域的相似性和空间域的语义约束性，量化视觉单词，新的视觉单词作为半监督或弱监督机器学习方法的输入，学习获得最优参数，将最优参数下的半监督或弱监督机器学习方法用于对测试视频、图像进行标注，可以获得相应的视频和图片标签；

步骤3.4、机器学习模型涉及从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法；半监督学习是有监督学习与无监督学习相结合的一种学习方法，利用有标记样本的信息，利用无标记样本的内在几何结构的信息，从而训练出优良的训练器。

在上述的一种针对变电站的基于机器学习的语义标注方法，所述步骤4具体包括：

步骤4.1、预处理，对输入的视频信号进行一些预处理，可以提高编码器的效率，如对输入信号进行采样和数字化，消除输入视频帧的一些不理想特征，在编码前先对输入帧进行噪声过滤；

步骤4.2、正交变换，对视频信息进行正交变换，可将图像像素转换成不同的空间区域，主要目的是去除视频序列中的统计冗余，正交变换是视频压缩系统的核心；

步骤4.3、量化，量化可以降低变换系数的精度以减少存储空间，可以去掉信号中的高频成分，从而达到压缩数据的目的，量化过程可以消去一些安全的信息而没有损失任何的视觉保真度，可将每个变换过的像素用有限的输出信号集表示；

步骤4.4、编码，编码是将码字分配给量化后的视频数据，重构视频图像的过程是压缩视频图像的反过程，主要有解码、反量化、反变换和后处理。

在上述的一种针对变电站的基于机器学习的语义标注方法，所述步骤5具体包括：建立高效多级状态检测数据综合索引模型，将状态检测数据从电力设备基础数据、电力设备运行数据、检测仪器、检测数据、气象信息维度上建立类型状态检测数据的高维混合数据标识模型，建模过程包括：

步骤5.1、选择有价值的变量作为建模对象；从数据的完整性、集中度、与其他变量的相关性等角度来考虑，选择如图4所示的树状图中设备运行数据、检测数据的特征量、仪器规格信息等作为建模变量；

步骤5.2、选择合适的算法并设定参数；利用K-prototype进行聚类分析，给出希望聚类的类别数量和起始的聚类中心和迭代次数上限，研究各个维度之间的关联性；

步骤5.3、加载算法并验证算法准确性和有效性；

步骤5.4、通过从状态检测数据样本库提取数据指纹来构建索引，有待检索数据后提取其数据指纹，将二者指纹进行搜索匹配，可得到检索结果，即如图5所示的状态检测数据快速索引模型。

因此，本发明具有如下优点：基于机器学习的语义标注能够很好地表达图像的语义内容，缩小图像的高级语义和低级视觉内容之间的差距，使基于大规模图像的语义检索更具有现实性。视频、图像标注系统可以简化为图像到文字的过程，便于分析和解释；多级状态检测数据综合索引模型可以简化为文字到图像的过程，实现对多维数据的快速索引，提高对数据的处理效率。

附图说明

图1为基于机器学习的语义标注流程图。

图2为数据分类整理示意图。

图3为视频压缩算法编解码结构框图。

图4为状态检测数据多维标识技术示意图。

图5为状态检测数据快速索引示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

首先，介绍下本发明的方法原理，本发明主要包括：

(1)收集各种有关输变电状态检测文献资料，到现场进行数据搜集，了解各类型数据的原始格式和基本特点。。

(2)按照设备、检测类型、检测项目、数据类型(数值型、图谱型、图像和视频等)进行层级分类与整理。

(3)对数据集的图像进行预处理，主要是去噪声。

(4)将预处理后的图像进行规范化。对于结构化的数据，如数值数据、参数、变量、录入数据和采样数据等的存储采用XML格式；针对非结构化数据的规范化转化方法主要是利用基于稀疏编码、视觉单词等技术对非结构化图谱、视频数据进行规范化和特征量提取。

(5)将训练视频图像类集合所提取的特征信息聚类，生成视觉单词并进行关联。

(6)量化视觉单词，新的视觉单词作为半监督或弱监督机器学习方法的输入，学习获得最优参数，将最优参数下的半监督或弱监督机器学习方法用于对测试视频、图像进行标注。

(7)利用变电设备图像结构特征，研究针对性的视频压缩算法，剔除无关信息并保留特征信息，实现现场视频数据的高效压缩和高速传输。

(8)研究各类状态检测数据的高维混合数据标识技术，建立高效多级状态检测数据综合索引模型，实现检测数据的多级多维等快速索引。

下面结合具体案例对本发明的方法原理进行具体阐述。

图像标注是通过获得已经标注好的图像集，对未标注过的图像进行标注。如图1，数据源主要包括电网统一视频监控平台、输变电设备状态监测系统等，将其电力设备状态图谱库，如自然光图像、红外紫外等有色光谱图像等非结构化数据进行结构化描述，具体过程为，由图像提取关键点，由SIFT描述符加入字典，生成视觉单词，并展示为直方图。结构化描述后，经过稀疏编码对非结构化图谱、视频数据进行规范化和特征量提取。将设备由开关到主变进行标注，通过对正常设备和故障设备进行变化检测，得到变化图谱，并精确分割变化区域，最后进行关键特征区域和帧的提取。本发明的实施例主要包括以下步骤：

1，文献收集与现场调研。收集各种有关输变电状态检测数据规范化、特征量提取有关文献资料，到现场进行各类型状态检测数据的搜集，了解各类型数据的原始格式和基本特点，并组织有关专家讨论献策。

2，电力设备状态检测数据搜集。依托于项目实施的几个省公司和南瑞的状态评价平台(湖北、山西、甘肃、四川已部署应用)开展变压器(电抗器)、断路器/GIS开关设备、输电线路(电缆)的状态检测数据搜集，包括：装置自身信息、设备信息和检测数据信息等，并针对各个网省公司的数据特点有侧重的进行数据搜集，构建项目研究的数据源，本项目中的省公司其设备运行的环境因素覆盖了大多数运行情况，保证研究的数据源包括了各类型数据，具有普遍性和推广性。

3，数据整理，按照设备、检测类型、检测项目、数据类型(数值型、图谱型、图像和视频等)进行层级分类与整理，如图1。

4，对数据集的图像进行预处理，主要是去噪声。根据不同的采集方式，可能还需要对图像做视角的变换，因此需要在图像预处理这步将存在的客观影响去除掉。在预处理中用到的操作有，灰度化、直方图处理、中值滤波、均值滤波等去噪声的方式、边缘提取等图像处理的基本操作，以及可能对待处理图像进行傅立叶变换、小波变换等变换处理。

5，将预处理后的图像进行规范化。对于结构化的数据，如数值数据、参数、变量、录入数据和采样数据等的存储采用XML格式，相比传统规范化建模技术，XML具有良好的可扩展性、兼容性和可移植性，便于不同系统之间信息的传输。

针对图谱、视频等非结构化数据的规范化转化方法主要是利用基于稀疏编码、视觉单词等技术对非结构化图谱、视频数据进行规范化和特征量提取，如图2所示，具体的步骤：

1)提出局部不变特征提取技术，提取具有尺度，旋转，光照，模糊和视角不变性的局部关键点特征，实现特征点的高准确度匹配，提取有效的区域不变特征，描述局部区域的相关特性，实现仿射和旋转不变性；

2)提出有效的具有判决力的图谱描述算子,概括图谱主要内容信息。利用局部不变特征，设计有效的视觉单词索引技术，有效捕获空域及其特征域信息。利用稀疏编码技术，实现有效的图谱结构化描述方法，提取低维的图谱描述符，用于大数据库图谱的有效分类。利用稠密的采样技术，设计基于像素的特征描述，并结合视觉单词技术描述整幅图谱/纹理特征；

3)提出有语义的对象及其场景信息描述方法。设计有效的对象检测算法，达到前景和背景信息的可靠分离。利用对象和场景上下文关系，建立有特定语义的图谱统一描述方法。建立有效的数学描述模型，完成对象和场景的语义建模；

4)研究具有几何结构的多尺度、多层次的特征描述，挖掘对象的类别空域分布信息，有效提取中层语义信息。对于无法直接进行处理的非结构化图谱数据，通过图谱特征描述技术，实现非结构化图谱数据的结构化转换。

6，进行特征提取。对于相对静态的电力设备图谱，采用局部不变特征提取技术，提取具有尺度，旋转，光照，模糊和视角不变性的局部关键点特征，实现特征点的高准确度匹配，提取有效的区域不变特征，描述局部区域的相关特性，实现仿射和旋转不变性。

对于可以进行结构化转换的非结构化数据，转换后变成特征向量，可以直接存储在XML结构中，对于不能转换的数据，如复杂的图像和视频数据，将其存储在文件系统中，并且在对应的XML词条中做标记，便于随时查询。

7，将训练视频图像类集合所提取的特征信息聚类。聚类过程包括：

1)数据准备：包括特征标准化和降维.

8，聚类后视觉单词生成，再利用概率潜在语义分析模型挖掘视觉单词之间的共生概率，综合这两种关系得到图像块所对应的视觉单词在空间域的上下文语义共生概率，即关联视觉单词。最后综合特征域的相似性和空间域的语义约束性，量化视觉单词，新的视觉单词作为半监督或弱监督机器学习方法的输入，学习获得最优参数，将最优参数下的半监督或弱监督机器学习方法用于对测试视频、图像进行标注，可以获得相应的视频和图片标签。

9，其中机器学习模型涉及从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。半监督学习是有监督学习与无监督学习相结合的一种学习方法，利用有标记样本的信息，利用无标记样本的内在几何结构的信息，从而训练出优良的训练器。

10，利用变电设备图像结构特征，研究针对性的视频压缩算法，该视频压缩算法编解码结构框图如图3所示。该编解码结构主要由正交变换、量化、编码三个单元组成。其中正交变换的任务是尽可能的去掉信号中的相关量，抽取出应予以量化的信息，在变换前先对输入的信息进行预处理；量化的任务是用有限个离散的信息来近似表达已抽取的信息；编码的任务是把这些离散信息转换成二值序列。

该视频压缩的步骤主要有以下四步：①预处理，对输入的视频信号进行一些预处理，可以提高编码器的效率，如对输入信号进行采样和数字化，消除输入视频帧的一些不理想特征，在编码前先对输入帧进行噪声过滤。②正交变换，对视频信息进行正交变换，可将图像像素转换成不同的空间区域，主要目的是去除视频序列中的统计冗余，正交变换是视频压缩系统的核心。③量化，量化可以降低变换系数的精度以减少存储空间，可以去掉信号中的高频成分，从而达到压缩数据的目的，量化过程可以消去一些安全的信息而没有损失任何的视觉保真度，可将每个变换过的像素用有限的输出信号集表示。④编码，编码是将码字分配给量化后的视频数据，重构视频图像的过程是压缩视频图像的反过程，主要有解码、反量化、反变换和后处理。

11，研究现场作业和多维信息的高级应用。本部分的研究主要包括2部分：1)研究各类状态检测数据的高维混合数据标识技术，建立高效多级状态检测数据综合索引模型，实现检测数据的多级多维等快速索引。2)基于各类检测数据的规范化模型与特征量，研究状态检测数据的分析诊断技术及个性化展示方法。

建立高效多级状态检测数据综合索引模型，将状态检测数据从电力设备基础数据、电力设备运行数据、检测仪器、检测数据、气象信息等维度进行状态检测数据建模，利用K-prototypes进行聚类分析，研究各个维度之间的关联性，在此基础上建立类型状态检测数据的高维混合数据标识模型，如图4所示。以此标识模型构建状态检测数据样本库，研究基于指纹搜索的状态检测数据快速索引模型，如图5所示。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种针对变电站的基于机器学习的语义标注方法，其特征在于：包括：

步骤1、采集数据集的图像并进行预处理；

步骤2、将预处理后的图像进行规范化；对于结构化的数据，包括数值数据、参数、变量、录入数据和采样数据的存储采用XML格式；针对非结构化数据的规范化转化方法是利用基于稀疏编码、视觉单词技术对非结构化图谱、视频数据进行规范化和特征量提取；

步骤5、研究各类状态检测数据的高维混合数据标识技术，建立高效多级状态检测数据综合索引模型，实现检测数据的多级多维快速索引；

步骤6、基于各类检测数据的规范化模型与特征量，研究状态检测数据的分析诊断技术及个性化展示方法；

所述步骤2具体包括：

2.根据权利要求1所述的一种针对变电站的基于机器学习的语义标注方法，其特征在于：所述步骤1具体包括：

步骤1.2、图像复原；主要任务是去噪声，去模糊。

3.根据权利要求1所述的一种针对变电站的基于机器学习的语义标注方法，其特征在于：所述步骤3具体包括：

1) 数据准备：包括特征标准化和降维．

2) 特征选择：从最初的特征中选择最有效的特征，并将其存储于向量中．

3) 特征提取：通过对所选择的特征进行转换形成新的突出特征．

4) 聚类：首先选择合适特征类型的距离函数进行接近程度的度量；而后执行聚类或分组．

5) 聚类结果评估：是指对聚类结果进行评估．评估主要有3种：外部有效性评估、内部有效性评估和相关性测试评估．

4.根据权利要求1所述的一种针对变电站的基于机器学习的语义标注方法，其特征在于：所述步骤4具体包括：

5.根据权利要求1所述的一种针对变电站的基于机器学习的语义标注方法，其特征在于：所述步骤5具体包括：建立高效多级状态检测数据综合索引模型，将状态检测数据从电力设备基础数据、电力设备运行数据、检测仪器、检测数据、气象信息维度上建立类型状态检测数据的高维混合数据标识模型，建模过程包括：

步骤5.1、选择有价值的变量作为建模对象；从数据的完整性、集中度、与其他变量的相关性角度来考虑，选择树状图中设备运行数据、检测数据的特征量、仪器规格信息作为建模变量；

步骤5.2、选择合适的算法并设定参数；利用K-prototype 进行聚类分析，给出希望聚类的类别数量和起始的聚类中心和迭代次数上限，研究各个维度之间的关联性；

步骤5.3、加载算法并验证算法准确性和有效性；

步骤5.4、通过从状态检测数据样本库提取数据指纹来构建索引，有待检索数据后提取其数据指纹，将二者指纹进行搜索匹配，可得到检索结果。