CN116415147A

CN116415147A - 基于自学习的面向光伏系统设备运行数据的预训练方法

Info

Publication number: CN116415147A
Application number: CN202310220025.1A
Authority: CN
Inventors: 王德军; 段震清; 王文彬; 褚景春; 崔青汝; 朱润泽; 尤泽东; 崔亚辉
Original assignee: National Energy Group New Energy Technology Research Institute Co Ltd
Current assignee: National Energy Group New Energy Technology Research Institute Co Ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-07-11

Abstract

本发明涉及光伏系统技术领域，实施例提供一种基于自学习的面向光伏系统设备运行数据的预训练方法。该方法包括：获取光伏系统设备的设备运行信息的时序特征；根据所述时序特征构造正例样本数据和负例样本数据，并将所述正例样本数据和负例样本数据两两组合成为样本对；将样本对输入深度孪生网络模型，得到样本对的特征和分类预测值；根据所述分类预测值和特征构造所述设备运行信息的数据特征。本发明提供的实施方式提供了提升了光伏设备运行数据表征学习的效果，更使得数据表征的学习具有更好的鲁棒性和泛化性。

Description

基于自学习的面向光伏系统设备运行数据的预训练方法

技术领域

本发明涉及光伏系统技术领域，具体地涉及一种基于自学习的面向光伏系统设备运行数据的预训练方法、基于自学习的面向光伏系统设备运行数据的预训练装置、一种电子设备以及对应的存储介质。

背景技术

作为可再生能源的引领者，光伏发电的发电成本已逐渐接近甚至低于传统能源的发电成本，这使得光伏发电受到了全球的青睐。相应地，光伏系统的安全、可靠运行已成为光伏系统运维关注的焦点。目前，利用信息技术对光伏系统中的主要设备进行管理和监控，并能对异常运行的设备进行检测已成为保障光伏系统安全、可靠运行必不可少的手段之一。

近年来，传感技术的发展使得收集实时、细粒度的新能源系统监控数据成为可能。基于光伏发电系统标准安装的数据采集与监视控制(SCADA:Supervisory Control AndData Acquisition)系统可以对光伏电站中光伏组串的电压、电流，光伏组件的温度实现分钟级别的监控。与此同时，人工智能领域在开发人工智能系统方面取得了巨大的进展。这些数据的收集和技术的发展促使了诸多的面向光伏系统设备的数据驱动的监控和分析的下游服务，如光伏系统设备的异常检测。为实现这些分析任务，往往需要训练一个任务相关的特征提取模型，以支持这些下游的目标任务。。

训练特定任务相关的模型通常是基于数据驱动的机器学习的方法建立的。该类方法通常包含任务相关的特征学习和任务实现两个步骤。为了学习特定任务相关的特征表达，往往需要大量的针对目标任务的监督信息，即标签数据以训练高性能的模型。但是，光伏系统日常运行过程中标签数据量极其不足。这是因为SCADA系统本身并不收集系统的运行状态数据，即SCADA数据本身无标注，而手工标注则成本高昂、易出错。针对训练特定任务相关的特征提取模型这一难题，目前也有基于无监督技术的研究。无监督技术不需要监督信息，仅基于合理的假设即可检测出异常运行的设备。例如，基于同一时刻大多数设备应处于正常运行这一假设，采用有效的聚类方法可将大多数的正常运行的设备归为一类，从而发现异常运行的设备。但是，基于无监督的方法是基于理想假设提出的，这导致该方法在应用过程中可能会出现若干虚警或漏警，存在模型性能不高的问题。

发明内容

本发明实施例的目的是提供一种基于自学习的面向光伏系统设备运行数据的预训练方法，基于自学习算法，在不知晓具体任务时学习到较好的数据表达形式，从而更好地支持下游特定的任务，如异常检测等。

为了实现上述目的，本发明第一方面提供了一种基于自学习的面向光伏系统设备运行数据的预训练方法，该方法包括：

获取光伏系统设备的设备运行信息的时序特征；根据所述时序特征构造正例样本数据和负例样本数据，并将所述正例样本数据和负例样本数据两两组合成为样本对；将样本对输入深度孪生网络模型，得到样本对的分类预测值和特征；根据所述分类预测值和特征构造所述设备运行信息的数据特征。

优选地，所述方法还包括：在获取光伏系统设备的设备运行信息的时序特征之前，对所述设备运行信息进行预处理，所述预处理包括异常值处理、缺失值填充、二次滤波和死数修复中的至少一者。

优选地，所述二次滤波包括：对所述设备运行信息进行中值滤波，对中值滤波后的数据进行均值滤波。

优选地，获取光伏系统设备的设备运行信息的时序特征，包括：将获取的设备运行信息根据预设采样频率进行离散化处理，得到所述时序特征；其公式如下所示：

其中

表示第j个汇流箱中第i个组串在时刻t时的差值特征，Norm^j(t)表示该汇流箱j在t时刻时时正常状态的参数值，/>

表示汇流箱j中第i个组串在t时刻实际运行的参数值。

优选地，根据所述时序特征构造正例样本数据和负例样本数据，并将所述正例样本数据和负例样本数据两两组合成为样本对，包括：以时序特征的均值与偏差构建评价标准，并根据所述评价标准将时序特征分为正例样本数据和负例样本数据；每一正例样本数据与其最接近的若干正例样本数据构成正样本对；每一正例样本数据与随机选择的若干负例样本数据构成负样本对；所述样本对包括所述正样本对和所述负样本对。

优选地，将样本对输入深度孪生网络模型，得到样本对的分类预测值和特征，包括：以所述深度孪生网络模型中其中一层的激活函数为界点，将所述样本对输入深度孪生网络模型，获取所述界点处的激活函数输出的特征；将获取的特征与所述样本对的聚合特征和关系特征进行拼接，得到拼接后特征；将所述拼接后特征替代所述激活函数输出的特征输入深度孪生网络模型的界点之后部分；以所述深度孪生网络模型的输出确定所述样本对的特征；将所述样本对的特征经激活函数后得到所述样本对的分类预测值。

优选地，所述深度孪生网络模型的损失函数包括：二分类交叉熵损失函数经平衡因子校正后的值与对比损失函数之和。

在本发明的第二方面，还提供了一种基于自学习的面向光伏系统设备运行数据的预训练装置，该装置包括：

时序特征模块，用于获取光伏系统设备的设备运行信息的时序特征；样本对模块，用于根据所述时序特征构造正例样本数据和负例样本数据，并将所述正例样本数据和负例样本数据两两组合成为样本对；孪生网络模块，用于将样本对输入深度孪生网络模型，得到样本对的分类预测值和特征；以及特征构造模块，用于根据所述分类预测值和特征构造所述设备运行信息的数据特征。

本发明的第三方面提供了一种电子设备，包括：至少一个处理器；存储器，与所述至少一个处理器连接；其中，所述存储器存储有能被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现前述的基于自学习的面向光伏系统设备运行数据的预训练方法的步骤。

本发明第四方面提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令在被处理器执行时使得处理器被配置成执行上述的基于自学习的面向光伏系统设备运行数据的预训练方法。

本发明第五方面提供一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述的基于自学习的面向光伏系统设备运行数据的预训练方法。

上述技术方案具有以下有益效果：

(1)本发明实施方式提出了一种针对光伏发电系统设备日常运行数据的基于自学习的预训练方法。该方法无需任何标注信息，仅通过大量、无标注的数据，基于合理的数据预处理、正负样本对的构建、专家信息的引入、网络的设计与训练正负数据间的相似性即可学习出光伏发电系统设备日常运行数据的基本表征。这种学习到的表征可用于支持诸多因缺乏大量标注数据所导致的下游任务(如异常检测)性能不高的问题。

(2)基于对现场数据的理解，设计的二次滤波算法实现了更有效的数据清洗，提升了数据表征学习的效果。

(3)基于对光伏发电系统设备运行物理机理的理解，设计的基于专家经验的手工特征，不仅提升了数据表征学习的效果，更使得数据表征的学习具有更好的鲁棒性和泛化性。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1示意性示出了根据本发明实施方式的基于自学习的面向光伏系统设备运行数据的预训练方法的步骤示意图；

图2示意性示出了根据本发明实施方式的基于自学习的面向光伏系统设备运行数据的预训练方法的实施示意图；

图3示意性示出了根据本发明实施方式的基于自学习的面向光伏系统设备运行数据的预训练装置的结构示意图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

图1示意性示出了根据本发明实施方式的基于自学习的面向光伏系统设备运行数据的预训练方法的步骤示意图。如图3所示，基于自学习的面向光伏系统设备运行数据的预训练方法，包括：

S01、获取光伏系统设备的设备运行信息的时序特征；

S02、根据所述时序特征构造正例样本数据和负例样本数据，并将所述正例样本数据和负例样本数据两两组合成为样本对；

S03、将样本对输入深度孪生网络模型，得到样本对的分类预测值和特征；

S04、根据所述分类预测值和特征构造所述设备运行信息的数据特征。

通过以上实施方式，能够从海量且无标注的设备运行信息中学习出光伏发电系统设备日常运行数据的基本表征，从而提升设备运行信息的使用效率增加设备运行信息的使用场景，间接提升下游任务的处理效率。

优选地，所述方法还包括：在获取光伏系统设备的设备运行信息的时序特征之前，对所述设备运行信息进行预处理，所述预处理包括异常值处理、缺失值填充、二次滤波和死数修复中的至少一者。为了提升设备运行信息的数据质量和对数据进行必要的规范化，需要对数据进行预处理。

在一些可选实施方式中，所述二次滤波包括：对所述设备运行信息进行中值滤波，对中值滤波后的数据进行均值滤波。具体的，首先对系统采集的数据进行中值滤波，去除数据中异常的噪声数据。其次，对首次滤波后的数据应用均值滤波方法，在移除因传感器灵敏度等问题所带来的数据噪音的同时对数据进行平滑，公式如下所示：

其中，其中w表示滤波窗口的大小，x_i表示在时刻i的原始数据，

和/>

分别表示经过一次滤波和二次滤波之后的数据，median{·}表示在一组集合中取中位数。通过调整滤波窗口w的大小，可以调整滤波的强度，滤波窗口越大，其滤波后的数据越平滑。

在本发明的一些可选实施方式中，设备运行信息可分为光伏电站气象站的外部信息和设备运行的内部信息。将光伏电站气象站、光伏系统设备按不同的粒度分别建立气象信息数据库和设备信息的数据库。获取光伏系统设备的设备运行信息的时序特征，包括：将获取的设备运行信息根据预设采样频率进行离散化处理，得到所述时序特征；其公式如下所示：

其中

表示汇流箱j中第i个组串在t时刻实际运行的参数值。以该参数为组串电流数据/>

为例，在数据采样频率均为5min，数据维度均为1×432维，其中正常状态的参数值可取其正常状态下的电流在滤波之后的电流的中值，t经验性地取3天的时序数据。气象站的辐照度数据/>

也可以按前述的电流的计算方法，此处不再重复。

优选地，将样本对输入深度孪生网络模型，得到样本对的分类预测值和特征，包括：以所述深度孪生网络模型中其中一层的激活函数为界点，将所述样本对输入深度孪生网络模型，获取所述界点处的激活函数输出的特征；将获取的特征与所述样本对的聚合特征和关系特征进行拼接，得到拼接后特征；将所述拼接后特征替代所述激活函数输出的特征输入深度孪生网络模型的界点之后部分；以所述深度孪生网络模型的输出确定所述样本对的特征；将所述样本对的特征经激活函数后得到所述样本对的分类预测值。具体的，定义样本对的聚合特征为：

其中，Mean()、Median()、Std()、Max()分别为某一组串RD特征的平均值、中位数、标准差和最大值；

定义样本对的关系特征为：采用随机采样一致算法RANSAC(Random SampleConsensus)回归出设备运行时功率和太阳辐照度之间的关系，取其回归的斜率定为关系特征。

深度孪生网络有着一样的深度网络结构，都由Linear1>Tanh1>Linear2>Tanh2>Linear3>Tanh3>Linear4>Tanh4层构成。将一对样本(称之为样本A和样本B)数据X_i，X_j输入到深度孪生网络中，在Tanh3层之后得到特征表示

将样本A及样本B所提取的聚合特征z_k1、z_k2和关系特征z_l1、z_l2与特征/>

进行拼接，拼接后的特征通过Tanh3之后的Linear4>Tanh4层进行进一步特征提取，得到特征z_i、z_j。通过Linear层进行进一步压缩，并使用sigmoid函数得到样本A及样本B的分类预测概率p。

优选地，所述深度孪生网络模型的损失函数包括：二分类交叉熵损失函数经平衡因子校正后的值与对比损失函数之和。具体的，根据损失函数对神经网络模型的权重矩阵进行更新的具体方法如下：

计算神经网络的模型的损失函数：

L＝L_fcntrst+×Lf_clss

其中：L为损失函数；

为对比损失函数；Y为当前数据的分类真实值，当Y＝0时，当前数据为同一类别；当Y＝1时，当前数据为不同类别；D_W为当前数据的特征z_i，z_j在潜在空间中的欧式距离，m为当前损失截断值，当不同类别的特征欧式距离超过m时，则不进行优化，这可以降低模型训练时间及资源。L_fclss为二分类交叉熵损失函数，N是批次样本中数据的数量，Y为当前数据的分类真实值，p为当前数据预测为正样本对的概率。利用随机梯度下降法更新神经网络模型每一层的权重矩阵。

图2示意性示出了根据本发明实施方式的基于自学习的面向光伏系统设备运行数据的预训练方法的实施示意图。如图2所示，其包括以下步骤：

步骤一、从场站运行数据库中获取组串运行数据，包括组串电流数据

和气象站的辐照度数据/>

数据采样频率均为5min，数据维度均为1×432维。

步骤二、对数据进行预处理主要包括异常值处理、缺失值填充、去噪声处理、死数修复等流程得到预处理之后的组串电流数据

和辐照度数据/>

数据维度均为1×432维。

步骤三、根据专家经验，合理假设，构造正负样本对，以及手工特征提取，具体过程如下：

正样本对构建：获取光伏场站连续3天的设备电流数据，以组串为单位对电流数据取平均值，并按照均值从大到小进行排列，取均值前top-k的组串依次与其值最接近的k个组串构正成样本对。这里取前40％的数据，依次与其值最接近的3个组串构成正样本对。

负样本对构建：获取光伏场站连续3天的组串电流数据，以组串为单位对电流数据取平均值，并按照均值从大到小进行排列，取后top-k的组串的视作异常组串，取前top-k的组串视作正常组串，对每一正常组串中数据在异常组串中随机取k个样本与其构成负样本对。这里取前40％的数据为正常组串，后40％数据为异常组串，对每一正常组串中数据在异常组串中随机取3个样本与其构成负样本对。

使用所有组串的电流数据

和辐照度数据/>

提取所有组串的时序特征值RD(T)，特征值维度为1×432维，根据时序特征值RD(T)生成聚合特征，分别为均值、中值、标准差和最大值，

z_k＝{Mean(()),Median(()),Std((T)),Max((T))}，特征维度为1×4维。采用随机采样一致算法RANSAC算法回归出设备运行时功率和太阳辐照度之间的关系。取其回归的斜率特征z_l，特征维度为1×1维。

步骤四、利用深度孪生网络架构，利用自学习预训练方法，对步骤三所构造的正、负样本对数据进行预训练，得到对正、负样本对的预测值p_i及各自的特征z_i。

步骤五、重复步骤四，对构造的正、负样本集合中的其他正、负样本对数据进行一一训练，得到每对数据的预测值p及特征z。

步骤六、根据所有数据的预测值计算神经网络模型的损失函数，并根据损失函数对神经网络模型的权重矩阵进行更新。其具体方法如下：

步骤6.1：对正负样本对中样本A及样本B数据进行训练，具体的训练过程如下：

首先，将样本A及样本B原始组串数据

其每一个为batch_size×1×432维数据，其中batch_size为每一批次的数量，通过Linear>Tanh>Linear>Tanh>Linear>Tanh>Linear>Tanh层，得到原始数据的特征表示/>

其每一个为batch_size×1×32维数据。

其次，将样本A及样本B所提取的人工设计的聚合特征z_k1、z_k2和关系特征z_l1、z_l2，其中z_k为batch_size×1×4维数据，z_l为batch_size×1×1维维数据，将其拼接合并后得到特征z_m1、z_m2，其维度为batch_size×1×5维。

将合并特征z_m1、z_m2与特征

进行拼接，并通过Linear>Tanh层进行进一步特征提取，得到特征z_i、z_j，使其维度变为batch_size×1×16。

最后，对得到的特征z_i、z_j进行拼接，并通过Linear层进行压缩，最终得到batch_size×1×1维的数据，输入到sigmoid函数中，得到样本A及样本B的分类预测值p。

步骤6.2、将正负样本对数据、当前模型的权重、正负样本特征和分类预测值p根据损失函数的计算方式，来计算神经网络模型的损失函数及其相应的损失梯度函数，再利用随机梯度下降法更新神经网络的每一层权重。

损失函数的计算具体如下：

其中：L为损失函数；

为对比损失函数；/>

为二分类交叉熵损失函数；λ为平衡因子，为超参数，用于平衡两个损失函数。在实验中设置为0.8。

具体的，其详细组成如下：

为对比损失函数；Y为当前数据的分类真实值，当Y＝0时，当前数据为同一类别；当Y＝1时，当前数据为不同类别；D_W为当前数据的特征值在潜在空间中的欧式距离，m为当前损失截断值，实验中设置为2，当不同类别的特征欧式距离超过m时，则不进行优化，这可以降低模型训练时间及资源。

为二分类交叉熵损失函数，N是批次样本中数据的数量，Y为当前数据的分类真实值，p为当前数据预测为正样本对的概率。

步骤七、判定神经网络模型的训练是否达到训练停止条件，若达到，则对模型及其权重进行保存，若未达到，则返回步骤五继续下一轮训练。判断训练是否收敛的具体过程如下：

对于神经网络的训练一般是先设定一个固定的Epoch大小，达到设定的轮次就停止训练，或模型损失不再持续减小时，可以提前停止训练。实验中设置的Epoch数量是500。

通过以上方式，能够得到设备运行数据的具有更好的鲁棒性和泛化性的数据表征。

基于同一发明构思，本发明实施方式还提供了一种基于自学习的面向光伏系统设备运行数据的预训练装置。图3示意性示出了根据本发明实施方式的基于自学习的面向光伏系统设备运行数据的预训练装置的结构示意图，如图3所示，该装置包括：

在一些可选实施方式中，所述装置还包括：在获取光伏系统设备的设备运行信息的时序特征之前，对所述设备运行信息进行预处理，所述预处理包括异常值处理、缺失值填充、二次滤波和死数修复中的至少一者。

在一些可选实施方式中，所述二次滤波包括：对所述设备运行信息进行中值滤波，对中值滤波后的数据进行均值滤波。

在一些可选实施方式中，获取光伏系统设备的设备运行信息的时序特征，包括：将获取的设备运行信息根据预设采样频率进行离散化处理，得到所述时序特征；其公式如下所示：

其中

表示汇流箱j中第i个组串在t时刻实际运行的参数值。

在一些可选实施方式中，根据所述时序特征构造正例样本数据和负例样本数据，并将所述正例样本数据和负例样本数据两两组合成为样本对，包括：以时序特征的均值与偏差构建评价标准，并根据所述评价标准将时序特征分为正例样本数据和负例样本数据；每一正例样本数据与其最接近的若干正例样本数据构成正样本对；每一正例样本数据与随机选择的若干负例样本数据构成负样本对；所述样本对包括所述正样本对和所述负样本对。

在一些可选实施方式中，将样本对输入深度孪生网络模型，得到样本对的分类预测值和特征，包括：以所述深度孪生网络模型中其中一层的激活函数为界点，将所述样本对输入深度孪生网络模型，获取所述界点处的激活函数输出的特征；将获取的特征与所述样本对的聚合特征和关系特征进行拼接，得到拼接后特征；将所述拼接后特征替代所述激活函数输出的特征输入深度孪生网络模型的界点之后部分；以所述深度孪生网络模型的输出确定所述样本对的特征；将所述样本对的特征经激活函数后得到所述样本对的分类预测值。

在一些可选实施方式中，所述深度孪生网络模型的损失函数包括：二分类交叉熵损失函数经平衡因子校正后的值与对比损失函数之和。

上述的基于自学习的面向光伏系统设备运行数据的预训练装置中的各个功能模块的具体限定可以参见上文中对于基于自学习的面向光伏系统设备运行数据的预训练方法的限定，在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在本发明的一些实施方式中，还提供了一种电子设备，包括：至少一个处理器；存储器，与所述至少一个处理器连接；其中，所述存储器存储有能被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现前述的基于自学习的面向光伏系统设备运行数据的预训练方法的步骤。此处的控制模块或处理器具有数值计算和逻辑运算的功能，其至少具有数据处理能力的中央处理器CPU、随机存储器RAM、只读存储器ROM、多种I/O口和中断系统等。处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现前述的方法。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

在本发明提供的一种实施方式中，提供了一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令在被处理器执行时使得处理器被配置成执行上述的基于自学习的面向光伏系统设备运行数据的预训练方法。

在本发明提供的一种实施方式中，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述的基于自学习的面向光伏系统设备运行数据的预训练方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于自学习的面向光伏系统设备运行数据的预训练方法，其特征在于，该方法包括：

获取光伏系统设备的设备运行信息的时序特征；

根据所述时序特征构造正例样本数据和负例样本数据，并将所述正例样本数据和负例样本数据两两组合成为样本对；

将样本对输入深度孪生网络模型，得到样本对的分类预测值和特征；

根据所述分类预测值和特征构造所述设备运行信息的数据特征。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：在获取光伏系统设备的设备运行信息的时序特征之前，对所述设备运行信息进行预处理，所述预处理包括异常值处理、缺失值填充、二次滤波和死数修复中的至少一者。

3.根据权利要求2所述的方法，其特征在于，所述二次滤波包括：对所述设备运行信息进行中值滤波，对中值滤波后的数据进行均值滤波。

4.根据权利要求1所述的方法，其特征在于，获取光伏系统设备的设备运行信息的时序特征，包括：

将获取的设备运行信息根据预设采样频率进行离散化处理，得到所述时序特征；其公式如下所示：

其中

表示汇流箱j中第i个组串在t时刻实际运行的参数值。

5.根据权利要求1所述的方法，其特征在于，根据所述时序特征构造正例样本数据和负例样本数据，并将所述正例样本数据和负例样本数据两两组合成为样本对，包括：

以时序特征的均值与偏差构建评价标准，并根据所述评价标准将时序特征分为正例样本数据和负例样本数据；

每一正例样本数据与其最接近的若干正例样本数据构成正样本对；

每一正例样本数据与随机选择的若干负例样本数据构成负样本对；

所述样本对包括所述正样本对和所述负样本对。

6.根据权利要求1所述的方法，其特征在于，将样本对输入深度孪生网络模型，得到样本对的分类预测值和特征，包括：

以所述深度孪生网络模型中其中一层的激活函数为界点，

将所述样本对输入深度孪生网络模型，获取所述界点处的激活函数输出的特征；

将获取的特征与所述样本对的聚合特征和关系特征进行拼接，得到拼接后特征；

将所述拼接后特征替代所述激活函数输出的特征输入深度孪生网络模型的界点之后部分；

以所述深度孪生网络模型的输出确定所述样本对的特征；

将所述样本对的特征经激活函数后得到所述样本对的分类预测值。

7.根据权利要求6所述的方法，其特征在于，所述深度孪生网络模型的损失函数包括：二分类交叉熵损失函数经平衡因子校正后的值与对比损失函数之和。

8.一种基于自学习的面向光伏系统设备运行数据的预训练装置，其特征在于，该装置包括：

时序特征模块，用于获取光伏系统设备的设备运行信息的时序特征；

样本对模块，用于根据所述时序特征构造正例样本数据和负例样本数据，并将所述正例样本数据和负例样本数据两两组合成为样本对；

孪生网络模块，用于将样本对输入深度孪生网络模型，得到样本对的分类预测值和特征；以及特征构造模块，用于根据所述分类预测值和特征构造所述设备运行信息的数据特征。

9.一种电子设备，其特征在于，包括：至少一个处理器；

存储器，与所述至少一个处理器连接；

其中，所述存储器存储有能被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现权利要求1至7中任一项权利要求所述的基于自学习的面向光伏系统设备运行数据的预训练方法的步骤。

10.一种机器可读存储介质，其特征在于，该机器可读存储介质上存储有指令，该指令在被处理器执行时使得处理器被配置成实现权利要求1至7中任一项权利要求所述的基于自学习的面向光伏系统设备运行数据的预训练方法。