CN115391523A

CN115391523A - 风电场多源异构数据处理方法及装置

Info

Publication number: CN115391523A
Application number: CN202210934927.7A
Authority: CN
Inventors: 柳丹; 冀肖彤; 罗恒; 胡畔; 谭道军; 夏勇军; 王伟; 邓万婷; 陈孝明; 江克证; 熊平; 肖繁; 康逸群; 叶畅; 曹侃; 蔡萱; 何宇航
Original assignee: State Grid Corp of China SGCC; Xuji Group Co Ltd; State Grid Hubei Electric Power Co Ltd; Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Xuji Group Co Ltd; State Grid Hubei Electric Power Co Ltd; Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-11-25

Abstract

一种风电场多源异构数据处理方法及装置，该方法包括：获取包含风电场主电气设备运行信息的多源异构数据；从多源异构数据中提取风电场主电气设备运行信息集合；对风电场主电气设备运行信息集合进行标注，生成训练样本集合；通过训练样本集合训练GAN‑LSTM网络和RNN‑LSTM网络，将GAN‑LSTM网络和RNN‑LSTM网络融合；将采集的实时风电场主电气设备运行信息输入GAN‑LSTM网络、RNN‑LSTM网络和融合后的网络，得到诊断结果；根据诊断结果确定对风电场主电气设备的诊断。本发明能从多源异构数据中准确地提取出风电场主电气设备运行信息集合，通过特有的神经网络模型及训练方法提高诊断的精准性和智能性。

Description

风电场多源异构数据处理方法及装置

技术领域

本发明涉及智能电网技术领域，具体是一种风电场多源异构数据处理方法及装置。

背景技术

通过对风电场多源异构数据进行处理，进行特征提取对于有效诊断风电场主电气设备故障对于精确确定设备的运行状态具有重要意义。随着信息技术的发展，智能技术逐渐应用于故障诊断领域。最常用的技术是小波网络、支持向量机、模糊聚类、灰色聚类、粗糙集、贝叶斯网络分类器等监督学习类方法。监督学习可以充分利用现有知识，通过重复选择和测量样本提高分类准确性，但它受人的主观性影响，不适合未知类别的情况。

随着智能电网的不断推广和深化，风电场主电气设备的相关数据量爆炸式增长数据类型逐渐多样化，数据时效性不断提高。不同的平台不统一，其中包括结构化数据和非结构化数据，如图像和视频。对于结构化数据，来源众多，涉及数百个属性，包括物理、业务和运行方面。随着监控设备和信息平台的不断增长，数据来源将不断扩大。此外，这些多源异构数据通常非常嘈杂并且可能具有缺失值。

目前，风电场数据处理方法是使用监督学习方法分析结构化数据，并且训练样本的选择和评估将需要更多的人和时间。对于非结构化数据和图像的故障诊断，它停留在通过人工分析获得结果的阶段，并且具有低智能水平。此外，当添加数据源时，现有模型不再适应，专业数据分析人员需要重新设计模型和重新训练参数。

发明内容

为解决现有技术存在的上述问题，本发明提供一种专注于非结构化数据和图像的风电场多源异构数据处理方法及装置。

一种风电场多源异构数据处理方法，包括如下步骤：

获取包含风电场主电气设备运行信息的多源异构数据；

从所述多源异构数据中提取风电场主电气设备运行信息集合；

对所述风电场主电气设备运行信息集合进行标注，生成训练样本集合；

通过所述训练样本集合分别训练GAN-LSTM网络和RNN-LSTM网络，并将GAN-LSTM网络和RNN-LSTM网络进行融合，得到融合后的网络；

将采集到的实时风电场主电气设备运行信息分别输入GAN-LSTM网络、RNN-LSTM网络和融合后的网络，分别得到一个诊断结果；

根据所述诊断结果确定对风电场主电气设备的诊断。

进一步的，从所述多源异构数据中提取风电场主电气设备运行信息集合采用多源异构数据提取方法，具体包括：

步骤2.1、定义风电场主电气设备运行信息的数据结构，数据结构由信息元素和信息元素的具体元素属性组成，信息元素包括定位信息元素、类型信息元素和时间信息元素，定位信息元素表征风电场主电气设备的位置表示，类型信息元素表征风电场主电气设备所发生的事件，时间信息元素表征事件的起止时间；

步骤2.1、将在描述风电场主电气设备运行信息过程中起关键作用的词汇作为特征词，根据这些词汇在多源异构数据中起到的语法作用，定义用于填充风电场主电气设备运行信息元素属性的特征词类型，并按特征词类型构建专业词库；

步骤2.3、基于步骤2.1定义的风电场主电气设备运行信息的数据结构和步骤2.2定义的特征词类型，结合多源异构数据中描述风电场主电气设备发生的事件的语法结构特征和句法结构特征，制定基本提取模式，通过规则对基本提取模式进行扩展，得到提取模式库；

步骤2.4、将采集的多源异构数据作为输入文本，对输入文本进行预处理，得到输入文本的词汇序列；

步骤2.5、利用步骤2.2的专业词库识别步骤2.4所得词汇序列中出现的特征词，并按照特征词在输入文本中的先后顺序记录特征词的类型，生成输入文本的特征词类型序列，通过判断风电场主电气设备运行信息元素属性所需的特征词类型是否完整对输入文本进行过滤；

步骤2.6、对输入文本断句，根据断句得到的句子集合，将步骤2.5所得输入文本的特征词类型序列分割成与句子集合对应的特征词类型序列集合，利用动态时间弯曲DTW距离度量该特征词类型序列集合中各特征词类型序列与提取模式库中各提取模式的特征词类型序列的相似度，选择相似度最高且小于给定阈值的提取模式作为该句子的匹配提取模式；

步骤2.7、遍历输入文本的句子集合，若句子集合中的句子在步骤2.6取得匹配提取模式，则根据该匹配提取模式的元素属性序列将该句子中的特征词填充至对应的风电场主电气设备运行信息元素属性，生成该句子对应的风电场主电气设备运行信息，得到输入文本已提取定位信息元素和类型信息元素的风电场主电气设备运行信息集合；

步骤2.8、根据多源异构数据中对时间的不同表达形式，制定提取年、月、日、时、分、秒时间要素数值的正则表达式集合，结合判断规则利用该正则表达式集合从输入文本中提取时间要素数值，将这些时间要素数值组合成事件开始时间元素属性和事件结束时间元素属性，得到风电场主电气设备运行信息的时间信息元素；

步骤2.9、将步骤2.8提取的时间信息元素填充至步骤2.7得到的风电场主电气设备运行信息集合中，得到风电场主电气设备运行信息元素完整的风电场主电气设备运行信息集合。

进一步的，所述提取模式包括特征词类型序列和元素属性序列两个部分；特征词类型序列是在多源异构数据中描述事件时所用特征词的类型的先后顺序排列，提取模式中特征词类型序列的功能是判断多源异构数据能否与该提取模式匹配；元素属性序列与特征词类型序列长度相同，元素属性序列中的序列项是特征词类型序列中相同位置序列项在风电场主电气设备运行信息中对应的元素属性，元素属性序列的功能是将多源异构数据出现的特征词映射至风电场主电气设备运行信息对应的元素属性中。

进一步的，步骤2.4的预处理包括删除输入文本中的重复信息和对输入文本作中文分词。

进一步的，步骤2.7中的遍历完成后，判断所得风电场主电气设备运行信息的定位信息元素的属性和类型信息元素的属性是否完整，如果不完整，则利用补充规则对风电场主电气设备运行信息缺失的定位信息元素的属性或类型信息元素的属性进行填补。

进一步的，将采集到的实时风电场主电气设备运行信息分别输入GAN-LSTM网络、RNN-LSTM网络和融合后的网络，分别得到第一诊断结果、第二诊断结果和第三诊断结果；根据所述诊断结果确定对风电场主电气设备的诊断，具体包括：

1)若第一诊断结果、第二诊断结果和第三诊断结果完全相同，则根据任一个诊断结果确定故障设备及其所在位置；

2)若第一诊断结果、第二诊断结果和第三诊断结果不完全相同，根据各种诊断结果中故障设备所在位置的关系，确定故障设备及其位置；

3)若第一诊断结果、第二诊断结果和第三诊断结果完全不相同，则返回执行获取包含风电场主电气设备运行信息的多源异构数据的步骤。

一种风电场多源异构数据处理装置，包括：

多源异构数据获取模块，用于获取包含风电场主电气设备运行信息的多源异构数据；

信息提取模块，用于从所述多源异构数据中提取风电场主电气设备运行信息集合；

训练样本生成模块，用于对所述风电场主电气设备运行信息集合进行标注，生成训练样本集合；

网络训练及融合模块，用于通过所述训练样本集合分别训练GAN-LSTM网络和RNN-LSTM网络，并将GAN-LSTM网络和RNN-LSTM网络进行融合，得到融合后的网络；

诊断模块，用于将采集到的实时风电场主电气设备运行信息分别输入GAN-LSTM网络、RNN-LSTM网络和融合后的网络，分别得到一个诊断结果，根据所述诊断结果确定对风电场主电气设备的诊断。

进一步的，信息提取模块从所述多源异构数据中提取风电场主电气设备运行信息集合，具体包括：

进一步的，诊断模块将采集到的实时风电场主电气设备运行信息分别输入GAN-LSTM网络、RNN-LSTM网络和融合后的网络，分别得到第一诊断结果、第二诊断结果和第三诊断结果，根据所述诊断结果确定对风电场主电气设备的诊断，具体包括：

3)若第一诊断结果、第二诊断结果和第三诊断结果完全不相同，则返回执行多源异构数据获取模块获取包含风电场主电气设备运行信息的多源异构数据的步骤。一种风电场多源异构数据处理系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行所述的风电场多源异构数据处理方法。

一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的风电场多源异构数据处理方法。

本发明的有益效果如下：

本发明针对风电场主电气设备运行过程中产生的包含非结构化数据和图像的多源异构数据，从该多源异构数据中提取风电场主电气设备的运行信息，对该运行信息进行标注并对神经网络进行训练，然后对风电场主电气设备进行故障诊断及预测。本发明通过多源异构数据提取方法，能够从多源异构数据中较为准确地提取出风电场主电气设备运行信息集合；通过特有的神经网络模型及训练方法能够提高诊断的精准性和智能性。

附图说明

图1是不同LSTM单元数下故障识别的准确率趋势图；

图2是ROC曲线对比及不同LSTM单元数下FN/FP/TN/TP的百分比；

图3是不同激活单元下故障识别的准确率趋势图；

图4是不同激活单位下ROC曲线对比图；

图5是不同激活单元下FN/FP/TN/TP的百分比

图6是不同Batch size下故障识别的准确率趋势图；

图7是不同Batch size下的ROC曲线对比及不同Batch size下FN/FP/TN/TP的百分比。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明针对风电场主电气设备运行过程中产生的包含非结构化数据和图像的多源异构数据，从该多源异构数据中提取风电场主电气设备的运行信息，对该运行信息进行标注并对神经网络进行训练，然后对风电场主电气设备进行故障诊断及预测。

本发明实施例提供一种风电场多源异构数据处理方法，包括如下步骤：

步骤1、获取包含风电场主电气设备运行信息的多源异构数据；

步骤2、采用多源异构数据提取方法，从所述多源异构数据中提取风电场主电气设备运行信息集合。

所述多源异构数据提取方法主要针对于多源异构数据中的非结构化数据，具体包括如下步骤：

步骤2.1、定义风电场主电气设备运行信息的数据结构，便于以二维表的形式组织和管理风电场主电气设备运行信息，数据结构由信息元素和信息元素的具体元素属性组成，信息元素包括定位信息元素、类型信息元素和时间信息元素，定位信息元素表征风电场主电气设备的位置表示，类型信息元素表征风电场主电气设备所发生的事件，时间信息元素表征事件的起止时间。

步骤2.2、将在描述风电场主电气设备运行信息过程中起关键作用的词汇作为特征词，根据这些词汇在多源异构数据中起到的语法作用，定义用于填充风电场主电气设备运行信息元素属性的特征词类型，并按特征词类型构建专业词库。

步骤2.3、基于步骤2.1定义的风电场主电气设备运行信息的数据结构和步骤2.2定义的特征词类型，结合多源异构数据中描述风电场主电气设备发生的事件的语法结构特征和句法结构特征，制定基本提取模式，通过规则对基本提取模式进行扩展，得到提取模式库。提取模式包括特征词类型序列和元素属性序列两个部分；特征词类型序列是在多源异构数据中描述事件时所用特征词的类型的先后顺序排列，提取模式中特征词类型序列的功能是判断多源异构数据能否与该提取模式匹配；元素属性序列与特征词类型序列长度相同，元素属性序列中的序列项是特征词类型序列中相同位置序列项在风电场主电气设备运行信息中对应的元素属性，元素属性序列的功能是将多源异构数据出现的特征词映射至风电场主电气设备运行信息对应的元素属性中。

步骤2.4、将采集的多源异构数据作为输入文本，对输入文本进行预处理，该预处理包括删除输入文本中的重复信息和对输入文本作中文分词，得到输入文本的词汇序列。

步骤2.5、利用步骤2.2的专业词库识别步骤2.4所得词汇序列中出现的特征词，并按照特征词在输入文本中的先后顺序记录特征词的类型，生成输入文本的特征词类型序列，通过判断风电场主电气设备运行信息元素属性所需的特征词类型是否完整对输入文本进行过滤。

步骤2.6、对输入文本断句，根据断句得到的句子集合，将步骤2.5所得输入文本的特征词类型序列分割成与句子集合对应的特征词类型序列集合，利用动态时间弯曲DTW(Dynamic Time Warping，DTW)距离度量该特征词类型序列集合中各特征词类型序列与提取模式库中各提取模式的特征词类型序列的相似度，选择相似度最高且小于给定阈值的提取模式作为该句子的匹配提取模式。

步骤2.7、遍历输入文本的句子集合，若句子集合中的句子在步骤2.6取得匹配提取模式，则根据该匹配提取模式的元素属性序列将该句子中的特征词填充至对应的风电场主电气设备运行信息元素属性，生成该句子对应的风电场主电气设备运行信息。遍历完成后，判断所得风电场主电气设备运行信息的定位信息元素的属性和类型信息元素的属性是否完整，如果不完整，则利用补充规则对风电场主电气设备运行信息缺失的定位信息元素的属性或类型信息元素的属性进行填补；最后，得到输入文本已提取定位信息元素和类型信息元素的风电场主电气设备运行信息集合。

步骤2.8、根据多源异构数据中对时间的不同表达形式，制定提取年、月、日、时、分、秒时间要素数值的正则表达式集合，结合判断规则利用该正则表达式集合从输入文本中提取时间要素数值，将这些时间要素数值组合成事件开始时间元素属性和事件结束时间元素属性，得到风电场主电气设备运行信息的时间信息元素。

通过上述9个步骤，即可以从多源异构数据中提取出风电场主电气设备运行信息集合。

步骤3、对所述风电场主电气设备运行信息集合进行标注，生成训练样本集合；

步骤4、通过所述训练样本集合分别训练GAN-LSTM网络和RNN-LSTM网络，并将GAN-LSTM网络和RNN-LSTM网络进行融合，得到融合后的网络。

在过去，语音文本处理通常是神经网络和隐马尔可夫模型的组合。利用算法和计算机硬件，通过深度正向传播网络建立的声学模型近年来取得了相当大的进步。考虑到声音，文本处理是一种内部动态处理，生成对抗网络可以用作其候选模型之一。动态意味着当前处理的文本向量与上下文内容相关联，它不能是对当前样本的独立分析，而是应该在文本信息的存储单元之前和之后设置语义信息的综合分析。这种方法应用了更大的数据状态空间和更丰富的模型动态性能。

生成对抗网络GAN是深度学习领域的一个重要生成模型，即两个网络(生成器和鉴别器)在同一时间训练并且在极小化极大算法(minimax)中进行竞争。这种对抗方式避免了一些传统生成模型在实际应用中的一些困难，巧妙地通过对抗学习来近似一些不可解的损失函数，在图像、视频、自然语言和音乐等数据的生成方面有着广泛应用。

虽然RNN(递归神经网络)以原则的方式执行从句子到向量的变换，但是由于渐变问题的消失，通常难以学习序列内的长期依赖性。递归神经网络有两个局限性：第一，文本分析事实上与上下文相关，而RNN只接触以前的文本，而不是后续；第二，与时间步长相比，RNN在学习时间相关性上有更多的困难。双向LSTM(BLSTM)网络可用于第一个问题，而长期短期内存模型为第二个问题。RNN重复模块仅包含一个神经元。

LSTM模型是传统RNN模型的改进，基于RNN模型，增加了单元控制机制，以解决RNN的长期依赖问题和长序列引起的梯度爆炸问题。该模型可以使RNN模型通过设计特殊结构单元来记住长期信息。并通过设计三种“门”结构：忘记门层、输入门层、输出门层。当控制信息通过单元时，可以通过单元结构选择性地增加和去除信息。

LSTM是通过门来控制信息的传输，它通常由Sigmoid函数表示。LSTM的关键是单元状态，其水平线穿过图的顶部。单元状态会延续整个神经链用来传送信息，其中只有一些小的线性相互作用。LSTM具有去除或添加信息到细胞状态的能力，由称为门的结构调节。门是一种可选的让信息通过的方式，它们由Sigmoid神经网络层和点乘法运算组成。

忘记门层的作用是确定上层输入信息被丢弃与否，用于控制存储在历史信息的最后时刻的隐藏层节点。忘记门根据先前时间的隐藏层的状态和当前时间节点的输入计算0和1之间的值，并且作用于上一时刻的小区的状态以确定需要什么信息保留和丢弃。“1”表示“完全保留”，而“0”表示“完全删除信息”。隐藏层单元的输出(历史信息)可以通过忘记门的处理来选择性地处理。

输入门层用于控制隐藏门层的单元状态的输入。它可以通过多个操作来输入信息，以确定是否将输入信息更新为当前状态，从而确定需要更新的信息和保留存储的信息。首先建立输入门层，通过Sigmoid函数确定哪些信息应该更新。输入门层的输出是Sigmoid输出的0和1之间的值，然后作用于输入信息以确定是否更新单元状态的相应值，其中1表示允许信息通过，对应的值需要更新，0表示不允许对应的值不需要更新。可以看出，输入门层可以去除一些不必要的信息，然后可以通过添加神经元相位相量的候选状态来建立层，两者联合计算更新的值。更新神经元的状态的主要目的是将前一时刻的神经元状态C_t-1更新为下一时刻的状态C_t。将前一时刻状态与f_t的乘积与it×Ct求和，并去除在之前认为可以忽略的信息，得到C_t。C_t是新的候选值，取决于更新每个状态值的次数。在语言模型的情况下，这是实际删除前一时刻的信息，并添加新的信息状态，如在前一步骤中的决策。

输出门层用于控制当前隐藏层节点的输出，并且确定是输出到下一隐藏层还是输出层。通过控制的输出，可以确定需要输出哪些信息。其状态的值为“0”或“1”。“1”表示需要输出，“0”表示不需要输出。在最终输出值之后可以找到关于当前单元状态的输出控制信息。

步骤4中通过所述训练样本集合训练GAN-LSTM网络，具体步骤如下：

对于经多源异构数据提取处理方法得到的风电场主电气设备运行信息集合，将其各个风电场主电气设备运行信息进行标注，将运行信息及其标注信息作为训练样本对GAN-LSTM神经网络进行训练。

具体的，将存在故障的运行信息及其标注作为训练本，对LSTM和GAN进行训练。具体为：将第一训练样本中的运行信息和标注信息输入LSTM对LSTM进行训练，获得最终LSTM深度网络。基于最终LSTM对第一训练样本的未来趋势进行预测，获得预测结果，作为第二训练样本集(包括运行信息及其标注信息)。将第二训练样本集输入GAN网络，对GAN网络中的生成器和判别器进行训练，获得最终生成器。

对LSTM进行训练的过程具体包括：将第一训练样本划分为训练集和验证集；将训练集输入LSTM，对LSTM进行训练；将验证集输入LSTM，计算训练后的LSTM的相对误差；若相对误差满足预设条件，获得最终LSTM；若相对误差未满足预设条件，对第一训练样本重新划分训练集和验证集，继续进行训练。

对GAN训练的具体过程包括：将随机噪声输入生成器，获得噪声数据集，噪声数据集与第二训练样本类型相同；训练判别器步骤：将生成器输出的数据集和第二训练样本输入判别器，对判别器进行训练，使得判别器对第二训练样本的分辨率达到第一阈值；训练生成器步骤：将第二训练样本输入生成器，对生成器进行训练，使得生成器生成的训练数据集与第二训练样本的相似度大于第二阈值；循环执行训练判别器步骤和训练生成器步骤，直至判别器对第二训练样本的分辨率达到第三阈值(大于第一阈值)，并将此时训练得到的生成器作为最终生成器。

在过去，语音文本处理通常是神经网络和隐马尔可夫模型的组合。利用算法和计算机硬件，通过深度正向传播网络建立的声学模型近年来取得了相当大的进步。考虑到声音，文本处理是一种内部动态处理，循环神经网络可以用作其候选模型之一。动态意味着当前处理的文本向量与上下文内容相关联，它不能是对当前样本的独立分析，而是应该在文本信息的存储单元之前和之后设置语义信息的综合分析。这种方法应用了更大的数据状态空间和更丰富的模型动态性能。

在神经网络中，每个神经元是一个处理单元，它将连接到它的节点的输出作为输入。在发出输出之前，每个神经元会先应用一个非线性激活函数。正是由于这个激活函数，神经网络具有对非线性关系进行建模的能力。但是一般的神经模型无法明确模拟时间关系，所有的数据点都是由固定长度的向量组成的假设，当输入相量存在较强的相关性时，模型的处理效果便会大打折扣。因此，引入递归神经网络(RNN)，赋予神经网络对时间进行显式建模的能力，通过添加跨越时间点的自连接隐藏层；隐藏层的反馈，不仅仅进入输出端，而且还进入了下一时间步骤隐藏层。

传统的神经网络没有中间层的循环过程，当指定输入x₀,x₁,x₂,...,x_t时，神经元的过程后会有一些相应的输出h₀,h₁,h₂,...,h_t。每次训练，神经元之间无需信息传递。递归神经网络与传统的神经网络之间的区别是，每一个训练RNN，神经元和神经元需要传递一些信息。在这个训练中，神经元需要使用最后一个神经元的作用后的状态信息，类似递归函数。

其中，对RNN-LSTM网络的训练方法可以采用已有训练方法，在此不再赘述。

步骤4中将GAN-LSTM网络和RNN-LSTM网络进行融合，得到融合后的网络，具体为：

假设GAN-LSTM网络的输出通道为X₁,X₂,...,X_c，RNN-LSTM网络的输出通道为Y₁,Y₂,...,Y_c，将GAN-LSTM网络和RNN-LSTM网络进行融合之后，输出通道为

K为融合系数。

融合后的网络模型包括输入层、非线性变换层、线性融合层和输出层。输入层包括两路网络结构相同的第一支路，每一个第一支路包括一个卷积层和一个修正线性单元。非线性变换层包括两路网络结构相同且分别与对应的第一支路连接的第二支路，每一个第二支路包括5层网络，每一层网络包括一个卷积层、一个批归一化和一个ReLU激活函数。线性融合层将非线性变换层的两个第二支路的结果融合，得到输出结果。输出层包括一个全局平均池化层、一个随机丢弃神经元连接和一个全连接层，线性融合层的输出结果输出至全局平均池化层。

步骤5、将采集到的实时风电场主电气设备运行信息分别输入GAN-LSTM网络、RNN-LSTM网络和融合后的网络，分别得到第一诊断结果、第二诊断结果和第三诊断结果。诊断结果包括各主电气设备的状态、事件发生时间和编号。

步骤6、比对第一诊断结果、第二诊断结果和第三诊断结果，最终确定对风电场主电气设备的诊断。

1)若第一诊断结果、第二诊断结果和第三诊断结果完全相同，则根据任一个诊断结果确定故障设备及其所在位置。

2)若第一诊断结果、第二诊断结果和第三诊断结果不完全相同，根据各种诊断结果中故障设备所在位置的关系，确定故障设备及其位置。

例1、第一诊断结果包括故障设备1(位置1)和故障设备2(位置2)，第二诊断结果包括故障设备3(位置3)和故障设备4(位置4)，第三诊断结果包括故障设备5(位置5)、故障设备6(位置6)和故障设备7(位置7)。由此可见，第三诊断结果与第一诊断结果和第二诊断结果均不相同。若故障设备1与故障设备3相同，位置1与位置3相同，故障设备2与故障设备4相同，位置2与位置4相同，则根据第一诊断结果确定故障设备及其位置。

例2、第一诊断结果包括故障设备1(位置1)和故障设备2(位置2)，第二诊断结果包括故障设备3(位置3)和故障设备4(位置4)，第三诊断结果包括故障设备5(位置5)和故障设备6(位置6)。若故障设备1与故障设备3和故障设备5相同，位置1与位置3和位置5相同，则首先确定位置1所在的支路上的故障设备1存在故障。若位置2、位置4和位置6相同，而故障设备2、故障设备4和故障设备6不相同，则确定位置1、位置3和位置5所在的支路上存在故障，不能够确定具体是那个设备存在故障。

之后，获取故障设备2、故障设备4和故障设备6的历史运行参数，根据当前运行参数与历史运行参数进行比对，确定最可能存在故障的设备。其中，历史运行参数可以为同等条件下的数据，例如时间相近或相同、天气相近或相同等。

3)若第一诊断结果、第二诊断结果和第三诊断结果完全不相同，则重新执行本方法的步骤，即返回执行获取包含风电场主电气设备运行信息的多源异构数据的步骤。

本发明实施例还提供一种风电场多源异构数据处理装置，包括：

其中，信息提取模块从所述多源异构数据中提取风电场主电气设备运行信息集合，具体包括：

基于电网故障巡检报告仿真与分析：

所有模型参数的完整神经网络训练方法已在前文中详细说明。下面将以某风电场的故障检测报告作为分析对象。通过上述网络模型处理，可以利用机器学习对不同情况下的非结构化数据进行分类和分析。基于具有大量单个故障样本的网络模型训练，导入测试集用于故障类型精度测试。在本发明实施例中，选择了三个变量并在故障报告中对故障识别率进行相关比较。当其他两个变量固定时，通过使用不同的移动时间来验证测试样本。这三个变量是：LSTM单元数、激活单位类型、Batch size。Batch size是每批处理数据的大小，是学习专用训练方法的深度性，不仅可以减少重量调整次数，防止过度拟合，同时加快训练。

1、多源异构数据集分析

(1)故障类型分析

语料库的描述如下。故障检查报告记录电网人员在日常维护期间通过检查电网设备，线路，保护装置的收入。逐个陈述的积累构成报告的主体。其中，故障检查报告中的信息主要由“DeviceInfo”，“TripInfo”，“Faultinfo”，“DigitalStatus”，“DigitalEvent”，“SettingValue”等6个主要信息体和几个公共信息组成。TripInfo信息体可以包含多个可选的FaultInfo信息。FaultInfo信息体指示动作的电流和电压，并且可以通过报告清楚地反映和显示故障条件和操作过程。DeviceInfo信息的内容源可以是固定值或配置文件。Faultinfo，DigitalStatus，DigitalEvent，SettingValue的信息可以根据保护类型或制造商而不同。Faultinfo可用作单个动作消息的辅助信息或整个动作组的故障参数。每个信息体的内容如下：

1)DeviceInfo：说明记录装置的信息部分。

2)TripInfo：故障过程中的部分记录保护动作事件。

3)FaultInfo：记录故障记录过程中的故障电流，故障电压，故障相位，故障距离等信息。

4)DigialStatus：将设备前的信号记录到自检信号状态。

5)DigitalEvent：记录故障保护过程中自检信号等事件的变化；所有开关根据动作时间进行排序，并且同时记录动作时间和返回时间。

6)SettingValue：记录故障时设备设置的实际值。

根据电力系统的动态故障记录，本发明中将所有故障划分为以下五个类别，并在每个记录之后给出相应的标签：机械故障、电气故障、二次设备故障、外部环境造成的故障和人为因素造成的故障。

本发明实施例中选择近10年的故障检查报告作为数据集。在使用的数据集中，具体类型的故障原因和故障原因，其统计的百分比如表1所示。单个样本数据大小：21kb-523kb不等；截词大小：10(每10个字节截成一个词组)；训练样本和测试样本每次均为随机抽取，保证模型测试的通用性。

表1数据集中不同故障类型统计

(2)数据集语意关系分析

在语义分析中，本发明还分析所使用的数据集。在本发明中，选择九个类别来覆盖大多数实体对之间的语义关系，并且它们之间不重叠。然而，存在一些非常类似的关系，其可能导致识别任务的困难，诸如实体原始(Entity-Origin，EO)，实体-目的(Entity-Destination，ED)和内容-载体(Content-Container，CC)常常同时出现在一个样本中。类似地，有组件整体(Component-Whole，CW)和个体集合(Member-Collection，MC)。九种关系简介和例子如下：

(1)因果关系：这些癌症是由辐射暴露引起的。

(2)人员与机构关系：电话接线员

(3)产品与生产商关系：一家工厂生产西装。

(4)内容与容器关系：称量一瓶蜂蜜。

(5)实体及其来源关系：来自外国的信函。

(6)实体与目的地关系：男孩上床睡觉了。

(7)组件与整体关系：我的公寓有一个大厨房。

(8)成员与集合关系：森林中有许多树。

(9)消息及其主题关系：讲座是关于语义的。

每个类别中样本数的具体分布如表2所示：

表2样本中关系类别的统计分布

2、基于不同LSTM单元数的仿真与分析

本实验保持激活单元类型和Batch size不变，同时LSTM单元的数量逐渐增加，并且在相同LSTM单元的数量条件下提高遍历的次数。LSTM训练样本数为10000，测试样本为3000；激活单元采用Sigmoid；Batch size：20。准确率和LSTM单元数量之间的关系如表3所示，其趋势如图1所示。

表3不同LSTM单元数下故障识别的准确率

从表3和图1可以看出：当LSTM中的单元数保持恒定时，随着遍历次数的增加，故障识别准确率越高。当LSTM单元的数量相同时，LSTM单元的数量越多，性能越好，但是当LSTM单元的数量保持在512时，准确率的显着下降。减少的原因是，随着所需数据量的增加，如果需要超过512个LSTM单位，则需要调整和相应的优化参数。

为了进一步分析数据，将受试者工作特征曲线(Receiver OperatingCharacteristic curve，ROC curve)系统添加到结果中。由于不同数量的LSTM单元的不同性能，本发明在不同的遍历次数条件下重复实验，并选择三个较为有代表性的LSTM单元数进行分析：64、128、256。曲线下面积(Area under Curve，AUC)反映了识别算法正确区分两种类型的目标的能力。AUC越大，算法的性能越好。假负类(False Negative，FN)，假正类(False Positive，FP)，真负类(True Negative，TN)，真正类(True Positive，TP)是ROC曲线中的重要参数。特异性(Specificity)定义为真阴性率(True Negative Rate，TNR)，灵敏度(Sensitivity)定义为真阳性率(True Positive Rate，TPR)。在以下的实验中，阈值设置为0.5。如果不同激活单元下的故障识别的准确度高于阈值，则测试结果判定为正向。从表4和图2中可以看出，在所提出的算法中，随着LSTM单元数量的增加，算法的性能在某个间隔内趋于更好。

表4不同LSTM单位数下ROC曲线及AUC分析

3、基于不同激活单元的仿真与分析

该仿真LSTM单元数和Batch size的数量不变，同时选择四个不同的激活单元，并且在相同激活单元条件下提高遍历次数。激活函数类型：Sofamax、Relu、tanh和sigmoid。LSTM训练样本数为10000，测试样本为3000；LSTM单元数：128；Batch size：20。准确率和不同激活单位之间的关系如表5所示，其趋势如图3所示。

表5不同激活单元下故障识别的准确率

从表5和图3可以看出：在相同的激活单元条件下，随着遍历次数的增加，故障识别精度更高。在相同数量的遍历次数中，使用Softmax和Sigmoid激活单元将获得更好的精度，Relu次之。可以看出，遍历的次数越多，Relu和Sigmoid的性能越接近，但是使用tanh得到的结果变化并不明显。因此，在选择激活函数时，Softmax和Sigmoid更适合文本所选条件下的文本处理。

本发明还通过在不同遍历次数条件下的重复实验选择上述四个激活函数用于ROC分析。在以下仿真中，阈值设置为0.5。如果不同激活单元下的故障识别的准确度高于阈值，则认为测试结果是正向的。从表6和图4、图5可以看出，Softmax和Sigmoid激活函数所得结果最好，与此同时也验证了上述结论。

表6不同激活单元下ROC曲线的AUC结果

4、基于不同Batch size的仿真与分析

本次仿真保持LSTM单元和激活单元的数量不变，同时单个批处理数据大小Batchsize逐渐增加，并且提高在相同Batch size条件下的遍历次数。LSTM训练样本数为10000，测试样本为3000；LSTM单元数：128；激活单位：sigmoid。准确率和不同Batch size之间的关系如表7所示，其趋势如图6所示。

表7不同Batch size下故障识别的准确率

从表7和图6可以看出：在相同的Batch size条件下，随着遍历数的增加，故障识别精度更高。在相同数量的遍历中，当Batch size值为20时，精度高于其他两种情况。当Batchsize的值为10时，准确率随着遍历数的增加而增加，但准确率缺乏持续提高，处于欠拟合状态。当Batch size值为50时，与前两种情况相比，准确率显着降低，因为每个批处理中太多的数据导致过拟合现象。

本发明仍通过在不同遍历次数条件下的重复实验选择了上述三种不同Batchsize用于ROC分析。在以下仿真中，阈值设置为0.48。如果不同Batch size下故障识别的准确度高于阈值，则测试结果判定为正向。从表8和图7可以看出，当Batch size值为20时，其表现出性能最优。然而，当Batch size的值为50时，总体的ROC曲线更加趋于平滑。值得注意的是，对于不同的数据集显示不同的特性，Batch size不应该有固定的选择范围。由于检验报告需要一定的字长可以表示相应的特性，Batch size的最佳值为20。

表8不同Batch size下ROC曲线的AUC统计

本发明另一方面提供了一种风电场多源异构数据处理系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行第一方面所述的风电场多源异构数据处理方法。

本发明另一方面提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现第一方面所述的风电场多源异构数据处理方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种风电场多源异构数据处理方法，其特征在于：包括如下步骤：

获取包含风电场主电气设备运行信息的多源异构数据；

根据所述诊断结果确定对风电场主电气设备的诊断。

2.如权利要求1所述的风电场多源异构数据处理方法，其特征在于：从所述多源异构数据中提取风电场主电气设备运行信息集合采用多源异构数据提取方法，具体包括：

3.如权利要求2所述的风电场多源异构数据处理方法，其特征在于：所述提取模式包括特征词类型序列和元素属性序列两个部分；特征词类型序列是在多源异构数据中描述事件时所用特征词的类型的先后顺序排列，提取模式中特征词类型序列的功能是判断多源异构数据能否与该提取模式匹配；元素属性序列与特征词类型序列长度相同，元素属性序列中的序列项是特征词类型序列中相同位置序列项在风电场主电气设备运行信息中对应的元素属性，元素属性序列的功能是将多源异构数据出现的特征词映射至风电场主电气设备运行信息对应的元素属性中。

4.如权利要求2所述的风电场多源异构数据处理方法，其特征在于：步骤2.4的预处理包括删除输入文本中的重复信息和对输入文本作中文分词。

5.如权利要求2所述的风电场多源异构数据处理方法，其特征在于：步骤2.7中的遍历完成后，判断所得风电场主电气设备运行信息的定位信息元素的属性和类型信息元素的属性是否完整，如果不完整，则利用补充规则对风电场主电气设备运行信息缺失的定位信息元素的属性或类型信息元素的属性进行填补。

6.如权利要求2所述的风电场多源异构数据处理方法，其特征在于：将采集到的实时风电场主电气设备运行信息分别输入GAN-LSTM网络、RNN-LSTM网络和融合后的网络，分别得到第一诊断结果、第二诊断结果和第三诊断结果；根据所述诊断结果确定对风电场主电气设备的诊断，具体包括：

7.一种风电场多源异构数据处理装置，其特征在于，包括：

8.如权利要求7所述的风电场多源异构数据处理装置，其特征在于：

信息提取模块从所述多源异构数据中提取风电场主电气设备运行信息集合，具体包括：

9.如权利要求8所述的风电场多源异构数据处理装置，其特征在于：步骤2.7中的遍历完成后，判断所得风电场主电气设备运行信息的定位信息元素的属性和类型信息元素的属性是否完整，如果不完整，则利用补充规则对风电场主电气设备运行信息缺失的定位信息元素的属性或类型信息元素的属性进行填补。

10.如权利要求7所述的风电场多源异构数据处理装置，其特征在于：诊断模块将采集到的实时风电场主电气设备运行信息分别输入GAN-LSTM网络、RNN-LSTM网络和融合后的网络，分别得到第一诊断结果、第二诊断结果和第三诊断结果，根据所述诊断结果确定对风电场主电气设备的诊断，具体包括：

3)若第一诊断结果、第二诊断结果和第三诊断结果完全不相同，则返回执行多源异构数据获取模块获取包含风电场主电气设备运行信息的多源异构数据的步骤。

11.一种风电场多源异构数据处理系统，其特征在于，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行权利要求1-6中任一项所述的风电场多源异构数据处理方法。

12.一种非暂态计算机可读存储介质，其特征在于，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1-6中任一项所述的风电场多源异构数据处理方法。