CN117893030A

CN117893030A - 基于大数据的电力系统风险预警方法

Info

Publication number: CN117893030A
Application number: CN202410292875.7A
Authority: CN
Inventors: 高喜辰; 林付章; 李兴友; 李梅容
Original assignee: Zhongzhi Fujian Technology Co ltd
Current assignee: Zhongzhi Fujian Technology Co ltd
Priority date: 2024-03-14
Filing date: 2024-03-14
Publication date: 2024-04-16
Anticipated expiration: 2044-03-14
Also published as: CN117893030B

Abstract

本申请提供一种基于大数据的电力系统风险预警方法，用于对风电场进行风险预警，包括：获取待监测风电场中各节点的实时监测数据，其中，实时监测数据至少包含风速、温度、湿度、电流、电压、功率、风能利用率、开机运行比率；对实时监测数据进行处理，形成输入向量；将输入向量输入至构建好的风电场风险监测模型中，通过风电场风险监测模型基于输入向量对风电场进行风险监测，得到风险监测结果，在风险监测结果表示存在风险时，进行风险预警。

Description

基于大数据的电力系统风险预警方法

技术领域

本申请涉及电力系统监测领域，具体而言，涉及一种基于大数据的电力系统风险预警方法。

背景技术

电力系统中，风电场是电力系统中重要的组成部分之一。风电场通过风力发电机将风能转换为电能，并将所产生的电能输送至电力系统中。这样，风电场为电力系统提供了清洁的、可再生的电能来源。而风电场的发电量受到风速的影响，随着风速的变化，风电场的发电量也会波动。电力系统需要进行合理的能源调度，以确保系统的稳定运行和电能供需平衡。风电场作为清洁能源的代表，可以有效减少对传统化石能源的依赖，降低温室气体排放，从而减少环境污染，实现节能减排的目标。风电场的接入对电力系统的运行和规划提出了新的挑战和机遇。

风电场作为利用风能的重要设施之一，其规模和数量也在不断增长。随着风电场的扩张，对其运行和维护提出了更高的要求，而有效的风险预警系统成为确保风电场可靠性和安全性的关键。同时，风电场运营面临多种潜在的风险，包括设备故障、气象变化、运营管理不当等。这些风险可能导致设备损坏、能源损失甚至事故发生，直接影响风电场的经济性和可持续性。因此，采取及时、准确的风险预警措施，成为保障风电场正常运营的必要手段。

在风电场运营中，监测和数据采集起到了至关重要的作用，而数据采集与监视控制（Supervisory Control and Data Acquisition，SCADA）系统作为监测和控制的核心组成部分，为获取风电场运行状态提供了丰富的实时数据。

SCADA系统通过监测涉及风机、传感器、变流器等各种设备的运行数据，能够实时获取风电场的性能参数、温度、风速、功率输出等关键信息。这些数据不仅是风电场正常运行的基础，同时也是风险预警的重要依据。随着信息技术的不断发展，风电场监测与管理系统逐渐向数字化、智能化方向发展。SCADA系统不再仅仅是数据的采集和传输工具，更是风电场风险预警的有效工具。通过对SCADA系统中的数据进行深度分析和挖掘，可以实现对潜在风险的快速识别和预警，从而提高风电场的安全性和可靠性。

现有的风电场运行风险，主要包括了设备故障的识别与分析、气象条件对风电场运行的影响、运营管理策略的优化等方面。然而，随着风电场规模的扩大和运营环境的复杂化，对于风险预警系统的需求也在不断提高。此外，现代数据分析技术和机器学习算法的不断进步，为基于SCADA数据的风电场风险预警提供了更为丰富和灵活的工具。通过引入数据挖掘技术和先进的预测模型，可以更准确地识别风险信号并提前采取措施，从而最大程度地降低潜在风险对风电场运营的不利影响。

因此，基于SCADA数据实现风电场风险预警，是当前风电场运营和电力系统管理中亟待解决的问题。

发明内容

本申请实施例的目的在于提供一种基于大数据的电力系统风险预警方法，以实现风电场的风险预警。

为了实现上述目的，本申请的实施例通过如下方式实现：

第一方面，本申请实施例提供一种基于大数据的电力系统风险预警方法，用于对风电场进行风险预警，包括：获取待监测风电场中各节点的实时监测数据，其中，实时监测数据至少包含风速、温度、湿度、电流、电压、功率、风能利用率、开机运行比率；对实时监测数据进行处理，形成输入向量；将输入向量输入至构建好的风电场风险监测模型中，通过风电场风险监测模型基于输入向量对风电场进行风险监测，得到风险监测结果，在风险监测结果表示存在风险时，进行风险预警。

结合第一方面，在第一方面的第一种可能的实现方式中，风电场风险监测模型的构建过程包括：获取风电场中各节点的历史监测数据集，其中，历史监测数据集包含多条历史监测数据，每条历史监测数据至少包含风速、温度、湿度、电流、电压、功率、风能利用率、开机运行比率和用于揭示对应节点是否正常的状态标签；对历史监测数据集中的每条历史监测数据进行预处理后，基于状态标签对历史监测数据进行分类，得到第一数据集和第二数据集；对第一数据集和第二数据集采用样本平衡策略进行处理，形成包含N个样本的样本集；对样本集中的样本进行聚类，形成M个聚类中心，并基于每个样本与M个聚类中心，生成每个样本对应的特征向量，其中，每个特征向量附带状态标签；将N个特征向量划分为训练集和测试集；构建神经网络模型，并利用训练集和测试集对神经网络模型进行训练和测试，得到训练好的风电场风险监测模型。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，对历史监测数据集中的每条历史监测数据进行预处理后，基于状态标签对历史监测数据进行分类，得到第一数据集和第二数据集，包括：对历史监测数据集中的每条历史监测数据进行数据清洗；对数据清洗后的每条历史监测数据进行特征衍生，确定出各节点的偏航误差、功率梯度、时间尺度特征、参数统计特征；基于每条历史监测数据对应的状态标签，对特征衍生后的历史监测数据进行分类，确定出第一数据集和第二数据集，其中，第一数据集中每条特征衍生后的历史监测数据的状态标签为正常状态，第二数据集中每条特征衍生后的历史监测数据的状态标签为异常状态。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，对第一数据集和第二数据集采用样本平衡策略进行处理，形成包含N个样本的样本集，包括：针对第一数据集：进行样本抽样；针对第二数据集：采用生成对抗网络对第二数据集进行样本扩充；将抽样后的第一数据集与扩充后的第二数据集合并，形成包含N个样本的样本集。

结合第一方面的第一种可能的实现方式，在第一方面的第四种可能的实现方式中，对样本集中的样本进行聚类，形成M个聚类中心，包括：对于样本集，计算每两个样本的相似度，确定出相似度矩阵/>；构建吸引度矩阵/>和隶属度矩阵/>；对吸引度矩阵/>和隶属度矩阵/>进行迭代更新，每次迭代更新当前迭代次数的聚类中心，直到满足终止条件时完成聚类，共计得到/>个聚类中心，其中，终止条件为达到设定的迭代次数，或者当前迭代得到的聚类中心与第上次迭代得到的聚类中心相同。

结合第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，计算每两个样本的相似度，确定出相似度矩阵，包括：/>时，采用以下公式计算每两个样本之间的相似度，其中，/>，/>，均为样本编号：

,

其中，为样本/>对样本/>的相似度，/>为样本集/>中每个样本的维度总数，/>为样本/>中第/>个维度对应的权重，/>为样本/>中的风速，/>为样本/>中的风速，/>为样本/>中第/>个维度的参数，/>为样本/>中第/>个维度的参数，/>为样本/>中第/>个维度在风速/>时的参考值，/>为取大值，/>为取小值；时，/>,/>表示样本/>对样本/>的相似度；相似度矩阵/>为：,

其中，为相似度矩阵。

结合第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，对吸引度矩阵和隶属度矩阵/>进行迭代更新，包括：采用以下公式更新吸引度矩阵和隶属度矩阵/>：

，

其中，为第/>次迭代的吸引度矩阵/>中，样本/>作为样本/>的聚类中心的适合程度，/>为第/>次迭代的隶属度矩阵/>中，样本/>选择样本/>作为聚类中心的适合程度，/>表示计算/>时的最大值，/>表示对/>时的值求和，/>表示对/>时的值求和，/>，/>。

结合第一方面的第六种可能的实现方式，在第一方面的第七种可能的实现方式中，基于每个样本与M个聚类中心，生成每个样本对应的特征向量，包括：聚类完成后，针对样本：确定出样本/>与每个聚类中心的相似度；统计每个聚类中异常状态的样本占聚类内总样本的比例，作为聚类对应的权重；基于样本/>与每个聚类中心的相似度以及聚类对应的权重，结合样本/>的状态标签，生成样本/>对应的特征向量/>。

结合第一方面的第一种可能的实现方式，在第一方面的第八种可能的实现方式中，将N个特征向量划分为训练集和测试集，包括：按照8：2或7：3的比例将N个特征向量划分为训练集和测试集。

结合第一方面的第一种可能的实现方式，在第一方面的第九种可能的实现方式中，采用RNN或RNN的变体模型作为神经网络模型。

有益效果：1.通过构建风电场风险监测模型，本方案旨在利用大数据技术来实现风电场的风险预警。获取实时监测数据（本方案为通过SCADA系统采集的风电场各节点的实时数据）、进行数据处理后利用风电场风险监测模型实现对风电场的风险监测，并在存在风险时进行风险预警。在风电场风险监测模型的构建过程中，对历史监测数据集进行预处理和特征衍生，可以帮助提取出各节点的重要特征参数，如偏航误差、功率梯度、时间尺度特征、参数统计特征等，从而更全面地描述风电场的运行状态。这样有助于提高数据的信息量和质量，为后续的聚类分析和模型训练提供更有力的支持。采用样本平衡策略进行处理，可以有效解决由于正常状态样本和异常状态样本数量不均衡导致的训练偏差问题，这有助于提高风电场风险监测模型的鲁棒性和泛化能力，使其更适用于实际风电场的监测和预警任务。

2.在进行聚类时，本方案考虑到风电场的数据特性，风速可以说是最重要的指标，因此针对性地设计了聚类过程中的相似度计算方案，综合考虑风速和各个维度的数据信息，可以更全面地评估样本之间的相似度。这有助于提高模型对不同特征的识别能力，从而更准确地判断样本之间的关联程度。同时，考虑了各个维度的权重和在不同风速情况下的参考值，这样可以根据实际情况对各个维度的重要性进行调整，使得相似度计算更符合实际情况。这样有助于提高模型的适应性和泛化能力，使其更好地适用于不同条件下的风电场监测。通过计算每两个样本之间的相似度，并构建相似度矩阵，可以形成样本之间的相似度图谱，直观展示不同样本之间的联系和相似度水平。这有助于快速发现样本之间的关联性和规律性，为后续的聚类分析和模型训练提供重要参考。公式中引入了个性化的权重计算和参考值比较，使得相似度计算更具灵活性和个性化，可以根据具体情况对各个维度进行加权，更好地反映不同维度之间的影响关系。这种个性化的相似度计算有助于提高模型的精度和稳定性，增强其在实际风电场监测中的应用效果。因此，基于风速和多维度参数的相似度计算公式，以及权重和异常状态样本比例的统计方法，可以更充分地表达样本之间的相似度和重要特征，有利于提取出更具代表性和区分度的特征向量，从而为风电场风险监测模型的训练和测试提供更准确的输入。

3.通过基于每个样本与M个聚类中心的相似度以及聚类对应的权重，结合样本的状态标签，生成每个样本对应的特征向量。这将样本的原始数据转化为具有代表性的特征向量，有助于提取出关键信息并减少数据的维度，为后续的模型训练和分析提供更加高效和有效的输入。确定样本与每个聚类中心的相似度，可以帮助识别出样本所属的聚类类别，从而实现样本的分类和归类。这有助于将样本进行有效的分组，为后续的异常状态检测和分析提供基础。统计每个聚类中异常状态的样本占聚类内总样本的比例，并作为聚类对应的权重，这一过程考虑了异常样本在不同聚类中的分布情况，有助于对不同聚类的影响程度进行量化评估，从而更好地反映出不同聚类对整体数据的贡献度。结合样本与聚类中心的相似度以及聚类对应的权重，生成样本对应的特征向量，使得特征向量能够综合考虑样本的相似度和异常状态情况，更好地表征了样本的特征和状态，这有助于提高特征向量的代表性和区分度，为后续的模型训练和异常检测提供更可靠的输入。因此，通过综合考虑相似度、权重和状态标签等因素，能够更全面地表征样本的特征和状态，为后续的风险预警和异常检测提供了更有力的支持。这种特征向量生成方式有助于提高模型对样本特征的抽象表达能力，增强了模型对样本之间关联和异常情况的识别能力，从而提高了风电场监测系统的效率和精度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为构建风电场风险监测模型的流程图。

图2为本申请实施例提供的基于大数据的电力系统风险预警方法的流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

由于本申请的基于大数据的电力系统风险预警方法主要依赖于风电场风险监测模型进行，因此，此处先对风电场风险监测模型的构建过程进行介绍，以便于对本方案的理解。

请参阅图1，图1为构建风电场风险监测模型的流程图。在本实施例中，风电场风险监测模型的构建过程包括步骤S11、步骤S12、步骤S13、步骤S14、步骤S15和步骤S16。

首先，可以执行步骤S11。

步骤S11：获取风电场中各节点的历史监测数据集，其中，历史监测数据集包含多条历史监测数据，每条历史监测数据至少包含风速、温度、湿度、电流、电压、功率、风能利用率、开机运行比率和用于揭示对应节点是否正常的状态标签。

在本实施例中，可以通过SCADA系统将采集的风电场中各节点的历史监测数据，形成历史监测数据集。历史监测数据集包含多条历史监测数据，每条历史监测数据至少包含风速、温度、湿度、电流、电压、功率、风能利用率、开机运行比率和用于揭示对应节点是否正常的状态标签。

得到历史监测数据集后，可以执行步骤S12。

步骤S12：对历史监测数据集中的每条历史监测数据进行预处理后，基于状态标签对历史监测数据进行分类，得到第一数据集和第二数据集。

在本实施例中，可以对历史监测数据集中的每条历史监测数据进行预处理，例如，对历史监测数据集中的每条历史监测数据进行数据清洗，然后对数据清洗后的每条历史监测数据进行特征衍生，确定出各节点的偏航误差、功率梯度、时间尺度特征、参数统计特征。偏航误差是指风机转向系统所设置的方向与实际风向之间的差异。当出现偏航误差时，风机会在一定程度上失去对风的追踪能力，从而影响风机的发电效率。功率梯度是指风电场中不同风速下的发电功率之间的变化率。时间尺度特征是指风电场中的各种因素在不同时间尺度下的变化规律。例如，风速的变化可分为长时间尺度（以月、周、日等为单位）和短时间尺度（如以小时、分钟甚至秒为单位），通过对这些时间尺度特征的分析，可以更好地理解风电场的运行状态和规律，为风电场预警和管理提供更加可靠的依据。而参数统计特征是指风电场中各种参数的统计分布情况。例如，风速、温度、湿度等参数的均值、方差、偏度、峰度等统计特征，反映了风电场中不同参数的分布情况和变化规律。

然后，可以基于每条历史监测数据对应的状态标签，对特征衍生后的历史监测数据进行分类，确定出第一数据集和第二数据集，其中，第一数据集中每条特征衍生后的历史监测数据的状态标签为正常状态，第二数据集中每条特征衍生后的历史监测数据的状态标签为异常状态。

得到第一数据集和第二数据集后，可以进一步执行步骤S13。

步骤S13：对第一数据集和第二数据集采用样本平衡策略进行处理，形成包含N个样本的样本集。

针对第一数据集：进行样本抽样，可以根据实际中第一数据集和第二数据集的数级差异确定抽样策略，例如3抽1、2抽1等。

针对第二数据集：采用生成对抗网络对第二数据集进行样本扩充。

此处，采用生成对抗网络进行样本扩充的方案，可以利用现有的生成对抗网络模型或者相关的变体模型实现，考虑到风电场中异常样本的特性，可以在生成对抗网络模型的生成器中引入非线性函数，尽可能提高生成样本的多样性和真实性。

例如，为了提高生成器对异常样本生成的多样性，并且对于在时间序列数据中获得额外信息，尽可能提高样本生成的真实性，这里引入非线性函数来定义生成器的损失函数：

，（1）

其中，为生成器的损失函数，/>为批量大小（即第二数据集的样本数量），是生成器生成的虚拟异常样本，/>是判别器，/>为引入的非线性函数，可以表示为：

，（2）

判别器的目标是正确地区分真实异常样本和生成的虚拟异常样本，因此，定义判别器的损失函数如下：

，（3）

其中，为判别器的损失函数，/>为是真实异常样本，/>为判别器对真实异常样本的预测概率，/>为判别器对虚拟异常样本的预测概率。

对抗生成网络的总目标是通过博弈过程不断优化生成器和判别器，那么，总目标函数设计为：

，（4）

在训练过程中，通过交替迭代优化判别器的损失函数和生成器的损失函数/>，直至生成器生成的虚拟异常样本与真实异常样本难以区分为止，最终得到的样本即为由对抗生成网络得到的新的异常样本。那么令新的数据集为。

之后，即可将抽样后的第一数据集与扩充后的第二数据集合并，形成包含N个样本的样本集。

得到样本集后，可以执行步骤S14。

步骤S14：对样本集中的样本进行聚类，形成M个聚类中心，并基于每个样本与M个聚类中心，生成每个样本对应的特征向量，其中，每个特征向量附带状态标签。

在本实施例中，可以对样本集中的样本进行聚类，形成M个聚类中心。

首先，对于样本集，可以计算每两个样本的相似度，确定出相似度矩阵/>。

，采用以下公式计算每两个样本之间的相似度，其中，/>，/>，均为样本编号：

，（5）

，（6）

其中，为样本/>对样本/>的相似度，/>为样本集/>中每个样本的维度总数，/>为样本/>中第/>个维度对应的权重，/>为样本/>中的风速，/>为样本/>中的风速，/>为样本/>中第/>个维度的参数，/>为样本/>中第/>个维度的参数，/>为样本/>中第/>个维度在风速/>时的参考值，/>为取大值，/>为取小值。

时，/>,/>表示样本/>对样本/>的相似度。

那么，构建的相似度矩阵为：

，（7）

确定出相似度矩阵后，可以构建吸引度矩阵和隶属度矩阵/>，例如，吸引度矩阵/>和隶属度矩阵/>均初始化为0。

然后可以对吸引度矩阵和隶属度矩阵/>进行迭代更新，每次迭代更新当前迭代次数的聚类中心，直到满足终止条件时完成聚类，共计得到/>个聚类中心，其中，终止条件为达到设定的迭代次数，或者当前迭代得到的聚类中心与第上次迭代得到的聚类中心相同。

示例性的，可以采用以下公式更新吸引度矩阵和隶属度矩阵/>：

，（8）

，（9）

完成聚类后，得到M个聚类中心。然后便可以基于每个样本与M个聚类中心，生成每个样本对应的特征向量。

示例性的，针对样本：可以确定出样本/>与每个聚类中心的相似度，然后统计每个聚类中异常状态的样本占聚类内总样本的比例，作为聚类对应的权重。再基于样本/>与每个聚类中心的相似度以及聚类对应的权重（将权重乘到样本/>与每个聚类中心的相似度中），结合样本/>的状态标签，即可生成样本/>对应的特征向量/>。

得到样本集中每个样本对应的特征向量后，可以执行步骤S15。

步骤S15：将N个特征向量划分为训练集和测试集。

在本实施例中，可以按照8：2或7：3的比例将N个特征向量划分为训练集和测试集。

得到训练集和测试集后，可以执行步骤S16。

步骤S16：构建神经网络模型，并利用训练集和测试集对神经网络模型进行训练和测试，得到训练好的风电场风险监测模型。

在本实施例中，可以采用RNN或RNN的变体模型作为神经网络模型，主要考虑到对风电场的风险监测预警，是在时间连续性上是具有一定可分析性的，通过这类能够处理序列数据的模型，能够起到更好的监测作用。然后便可以利用训练集和测试集对神经网络模型进行训练和测试，得到训练好的风电场风险监测模型。

得到训练好的风电场风险监测模型后，可以将训练好的风电场风险监测模型内置于服务器内，通过在服务器内部署基于大数据的电力系统风险预警方法的运行程序，从而可以通过服务器实现对风电场的风险预警监测。

请参阅图2，图2为本申请实施例提供的基于大数据的电力系统风险预警方法的流程图。在本实施例中，基于大数据的电力系统风险预警方法可以包括步骤S21、步骤S22、步骤S23。

步骤S21：获取待监测风电场中各节点的实时监测数据，其中，实时监测数据至少包含风速、温度、湿度、电流、电压、功率、风能利用率、开机运行比率。

在本实施例中服务器可以获取待监测风电场中各节点的实时监测数据（同样通过SCADA系统采集），其中，实时监测数据至少包含风速、温度、湿度、电流、电压、功率、风能利用率、开机运行比率。

得到实时监测数据后，服务器可以运行步骤S22。

步骤S22：对实时监测数据进行处理，形成输入向量。

在本实施例中，服务器可以对实时监测数据进行预处理，如数据清洗，然后对数据清洗后的实时监测数据进行特征衍生，确定出各节点的偏航误差、功率梯度、时间尺度特征（与前文一致，时间尺度特征主要是基于当前时刻往前获取一段时间的数据，从而得到不同时间尺度下的特征）、参数统计特征。这些特征可以参阅前文的介绍，此处不再赘述。

然后，服务器可以基于特征衍生后的实时监测数据，计算与M个聚类中心的相似度（计算过程参阅前文，此处不再赘述）。然后结合每个聚类中心对应的权重，确定出实时监测数据对应的输入向量。

得到输入向量后，服务器可以运行步骤S23。

步骤S23：将输入向量输入至构建好的风电场风险监测模型中，通过风电场风险监测模型基于输入向量对风电场进行风险监测，得到风险监测结果，在风险监测结果表示存在风险时，进行风险预警。

在本实施例中，服务器可以将输入向量输入至构建好的风电场风险监测模型中，通过风电场风险监测模型基于输入向量对风电场进行风险监测。若风险监测结果表示不存在风险，则进行下一周期的监测。若风险监测结果表示存在风险时，则进行风险预警。

综上所述，本申请实施例提供一种基于大数据的电力系统风险预警方法，用于对风电场进行风险预警，通过构建风电场风险监测模型，本方案旨在利用大数据技术来实现风电场的风险预警。获取实时监测数据（本方案为通过SCADA系统采集的风电场各节点的实时数据）、进行数据处理后利用风电场风险监测模型实现对风电场的风险监测，并在存在风险时进行风险预警。在风电场风险监测模型的构建过程中，对历史监测数据集进行预处理和特征衍生，可以帮助提取出各节点的重要特征参数，如偏航误差、功率梯度、时间尺度特征、参数统计特征等，从而更全面地描述风电场的运行状态。这样有助于提高数据的信息量和质量，为后续的聚类分析和模型训练提供更有力的支持。采用样本平衡策略进行处理，可以有效解决由于正常状态样本和异常状态样本数量不均衡导致的训练偏差问题，这有助于提高风电场风险监测模型的鲁棒性和泛化能力，使其更适用于实际风电场的监测和预警任务。

在进行聚类时，本方案考虑到风电场的数据特性，风速可以说是最重要的指标，因此针对性地设计了聚类过程中的相似度计算方案，综合考虑风速和各个维度的数据信息，可以更全面地评估样本之间的相似度。这有助于提高模型对不同特征的识别能力，从而更准确地判断样本之间的关联程度。同时，考虑了各个维度的权重和在不同风速情况下的参考值，这样可以根据实际情况对各个维度的重要性进行调整，使得相似度计算更符合实际情况。这样有助于提高模型的适应性和泛化能力，使其更好地适用于不同条件下的风电场监测。通过计算每两个样本之间的相似度，并构建相似度矩阵，可以形成样本之间的相似度图谱，直观展示不同样本之间的联系和相似度水平。这有助于快速发现样本之间的关联性和规律性，为后续的聚类分析和模型训练提供重要参考。公式中引入了个性化的权重计算和参考值比较，使得相似度计算更具灵活性和个性化，可以根据具体情况对各个维度进行加权，更好地反映不同维度之间的影响关系。这种个性化的相似度计算有助于提高模型的精度和稳定性，增强其在实际风电场监测中的应用效果。因此，基于风速和多维度参数的相似度计算公式，以及权重和异常状态样本比例的统计方法，可以更充分地表达样本之间的相似度和重要特征，有利于提取出更具代表性和区分度的特征向量，从而为风电场风险监测模型的训练和测试提供更准确的输入。

通过基于每个样本与M个聚类中心的相似度以及聚类对应的权重，结合样本的状态标签，生成每个样本对应的特征向量。这将样本的原始数据转化为具有代表性的特征向量，有助于提取出关键信息并减少数据的维度，为后续的模型训练和分析提供更加高效和有效的输入。确定样本与每个聚类中心的相似度，可以帮助识别出样本所属的聚类类别，从而实现样本的分类和归类。这有助于将样本进行有效的分组，为后续的异常状态检测和分析提供基础。统计每个聚类中异常状态的样本占聚类内总样本的比例，并作为聚类对应的权重，这一过程考虑了异常样本在不同聚类中的分布情况，有助于对不同聚类的影响程度进行量化评估，从而更好地反映出不同聚类对整体数据的贡献度。结合样本与聚类中心的相似度以及聚类对应的权重，生成样本对应的特征向量，使得特征向量能够综合考虑样本的相似度和异常状态情况，更好地表征了样本的特征和状态，这有助于提高特征向量的代表性和区分度，为后续的模型训练和异常检测提供更可靠的输入。因此，通过综合考虑相似度、权重和状态标签等因素，能够更全面地表征样本的特征和状态，为后续的风险预警和异常检测提供了更有力的支持。这种特征向量生成方式有助于提高模型对样本特征的抽象表达能力，增强了模型对样本之间关联和异常情况的识别能力，从而提高了风电场监测系统的效率和精度。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于大数据的电力系统风险预警方法，其特征在于，用于对风电场进行风险预警，包括：

获取待监测风电场中各节点的实时监测数据，其中，实时监测数据至少包含风速、温度、湿度、电流、电压、功率、风能利用率、开机运行比率；

对实时监测数据进行处理，形成输入向量；

将输入向量输入至构建好的风电场风险监测模型中，通过风电场风险监测模型基于输入向量对风电场进行风险监测，得到风险监测结果，在风险监测结果表示存在风险时，进行风险预警；

风电场风险监测模型的构建过程包括：

获取风电场中各节点的历史监测数据集，其中，历史监测数据集包含多条历史监测数据，每条历史监测数据至少包含风速、温度、湿度、电流、电压、功率、风能利用率、开机运行比率和用于揭示对应节点是否正常的状态标签；

对历史监测数据集中的每条历史监测数据进行预处理后，基于状态标签对历史监测数据进行分类，得到第一数据集和第二数据集；

对第一数据集和第二数据集采用样本平衡策略进行处理，形成包含N个样本的样本集；

对样本集中的样本进行聚类，形成M个聚类中心，并基于每个样本与M个聚类中心，生成每个样本对应的特征向量，其中，每个特征向量附带状态标签；

将N个特征向量划分为训练集和测试集；

构建神经网络模型，并利用训练集和测试集对神经网络模型进行训练和测试，得到训练好的风电场风险监测模型；

对第一数据集和第二数据集采用样本平衡策略进行处理，形成包含N个样本的样本集，包括：

针对第一数据集：进行样本抽样；

针对第二数据集：采用生成对抗网络对第二数据集进行样本扩充；

将抽样后的第一数据集与扩充后的第二数据集合并，形成包含N个样本的样本集。

2.根据权利要求1所述的基于大数据的电力系统风险预警方法，其特征在于，对历史监测数据集中的每条历史监测数据进行预处理后，基于状态标签对历史监测数据进行分类，得到第一数据集和第二数据集，包括：

对历史监测数据集中的每条历史监测数据进行数据清洗；

对数据清洗后的每条历史监测数据进行特征衍生，确定出各节点的偏航误差、功率梯度、时间尺度特征、参数统计特征；

基于每条历史监测数据对应的状态标签，对特征衍生后的历史监测数据进行分类，确定出第一数据集和第二数据集，其中，第一数据集中每条特征衍生后的历史监测数据的状态标签为正常状态，第二数据集中每条特征衍生后的历史监测数据的状态标签为异常状态。

3.根据权利要求1所述的基于大数据的电力系统风险预警方法，其特征在于，对样本集中的样本进行聚类，形成M个聚类中心，包括：

对于样本集，计算每两个样本的相似度，确定出相似度矩阵/>；

构建吸引度矩阵和隶属度矩阵/>；

对吸引度矩阵和隶属度矩阵/>进行迭代更新，每次迭代更新当前迭代次数的聚类中心，直到满足终止条件时完成聚类，共计得到/>个聚类中心，其中，终止条件为达到设定的迭代次数，或者当前迭代得到的聚类中心与第上次迭代得到的聚类中心相同。

4.根据权利要求3所述的基于大数据的电力系统风险预警方法，其特征在于，计算每两个样本的相似度，确定出相似度矩阵，包括：

时，采用以下公式计算每两个样本之间的相似度,其中，/>，/>，均为样本编号：

，

其中，为样本/>对样本/>的相似度，/>为样本集/>中每个样本的维度总数，为样本/>中第/>个维度对应的权重，/>为样本/>中的风速，/>为样本/>中的风速，为样本/>中第/>个维度的参数，/>为样本/>中第/>个维度的参数，/>为样本中第/>个维度在风速/>时的参考值，/>为取大值，/>为取小值；

时，/>,/>表示样本/>对样本/>的相似度；

相似度矩阵为：/>，

其中，为相似度矩阵。

5.根据权利要求4所述的基于大数据的电力系统风险预警方法，其特征在于，对吸引度矩阵和隶属度矩阵/>进行迭代更新，包括：

采用以下公式更新吸引度矩阵和隶属度矩阵/>：

，

6.根据权利要求5所述的基于大数据的电力系统风险预警方法，其特征在于，基于每个样本与M个聚类中心，生成每个样本对应的特征向量，包括：

聚类完成后，针对样本：

确定出样本与每个聚类中心的相似度；

统计每个聚类中异常状态的样本占聚类内总样本的比例，作为聚类对应的权重；

基于样本与每个聚类中心的相似度以及聚类对应的权重，结合样本/>的状态标签，生成样本/>对应的特征向量/>。

7.根据权利要求1所述的基于大数据的电力系统风险预警方法，其特征在于，将N个特征向量划分为训练集和测试集，包括：

按照8：2或7：3的比例将N个特征向量划分为训练集和测试集。

8.根据权利要求1所述的基于大数据的电力系统风险预警方法，其特征在于，采用RNN或RNN的变体模型作为神经网络模型。