CN116166960A

CN116166960A - 用于神经网络训练的大数据特征清洗方法及系统

Info

Publication number: CN116166960A
Application number: CN202310079633.5A
Authority: CN
Inventors: 岳发宇
Original assignee: Henan University
Current assignee: Shandong Jingding Intelligent Technology Co ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-05-26
Anticipated expiration: 2043-02-07
Also published as: CN116166960B

Abstract

本发明涉及数据处理领域，具体涉及用于神经网络训练的大数据特征清洗方法及系统，包括：获取风电机组运行过程中的各个数据点，得到待清洗数据集；根据待清洗数据集的全局平均距离得到邻域密度半径以及数据点数量阈值；根据待清洗数据集中各个数据点的斜率信息混乱程度得到主要模式对应的各个类簇；获取非主要模式的各个类簇，进而得到待清洗数据集的所有类簇；根据各个类簇的类簇特征点计算各个类簇的场景影响因子以及各个类簇的离群因子；根据各个类簇的场景影响因子以及离群因子得到各个类簇的异常程度；根据各个类簇的异常程度对待清洗数据集进行数据清洗。本发明可以实现对异常数据点的准确识别以及对异常数据点保留程度的自适应调节。

Description

用于神经网络训练的大数据特征清洗方法及系统

技术领域

本发明涉及数据处理领域，具体涉及用于神经网络训练的大数据特征清洗方法及系统。

背景技术

在使用风电机组的运行数据作为训练集训练风力发电机组的自适应控制策略模型的过程中，由于环境干扰等产生的异常数据，容易使得模型训练过程中出现过拟合现象或者在模型训练过程中对异常数据给予了过高的权重，导致自适应控制策略模型的准确性较低，因此需要对训练集进行数据清洗，以消除异常数据对模型训练的负面影响。

其中，风电机组中“风速-功率”具有较强的相关性，即风速升高时，风电机组的发电功率会随之升高，在对这些二维数据形成的各个数据点的异常检测时，正常数据点会存在一个固定的聚集现象，使得数据的分布存在一个主要“模式”。现有方法中往往使用基于连通性的离群因子检测COF对各个数据点进行离群因子的检测，根据离群因子判断与主要模式发生偏离的数据点，会将非主要模式的所有数据点视为异常数据点，但是非主要模式的数据点中仍然包含正常数据点，如功率峰值区域的数据点，且当异常数据点存在横向堆积现象时，由于部分异常数据点之间的平均链式距离较小，使得这些异常数据点的离群程度较小，即传统的COF算法无法对异常数据点进行准确识别；此外，由于需要适量对异常数据点进行保留，以保证自适应控制策略模型的抗噪能力，因此设计一种可以对异常数据进行准确识别，且可以控制异常数据保留程度的数据清洗的方法是非常重要的。

发明内容

本发明提供用于神经网络训练的大数据特征清洗方法，以解决现有的问题。

本发明的用于神经网络训练的大数据特征清洗方法采用如下技术方案：

本发明一个实施例提供了用于神经网络训练的大数据特征清洗方法，该方法包括以下步骤：

获取风电机组运行过程中的各个数据点，得到待清洗数据集；

获取待清洗数据集的全局平均距离，根据全局平均距离得到邻域密度半径以及数据点数量阈值；获取待清洗数据集中各个数据点的斜率信息混乱程度；根据混乱程度差值阈值、待清洗数据集中各个数据点的斜率信息混乱程度得到初始类簇；当初始类簇中包含的数据点的个数小于数据点数量阈值时，对初始类簇进行扩充，直到初始类簇中包含的数据点的个数不小于数据点数量阈值；对待清洗数据集中不属于初始类簇的各个数据点进行类簇划分，得到主要模式对应的各个类簇；

将待清洗数据集中不属于主要模式对应的各个类簇的数据点记为非主要模式的数据点；对非主要模式的数据点进行聚类，得到非主要模式的各个类簇，主要模式的各个类簇与非主要模式的各个类簇构成了待清洗数据集的所有类簇；获取待清洗数据集中各个类簇的类簇特征点；根据各个类簇的类簇特征点计算各个类簇的场景影响因子以及各个类簇的离群因子；根据各个类簇的场景影响因子以及离群因子得到各个类簇的异常程度；

根据各个类簇的异常程度对待清洗数据集进行数据清洗。

优选的，所述根据全局平均距离得到邻域密度半径以及数据点数量阈值的方法为：

设置邻域半径距离系数，将邻域半径系数与全局平均距离之间的乘积作为邻域密度半径；设置类簇数量，将待清洗数据集中包含的数据点的总数与类簇数量的比值作为数据点数量阈值。

优选的，所述待清洗数据集中各个数据点的斜率信息混乱程度的获取方法为：

分别获取待清洗数据集中各个数据点与各个数据点的邻域密度半径范围内所有数据点之间线段的斜率；根据所得各个斜率出现的频率得到各个数据点的斜率信息混乱程度。

优选的，所述主要模式对应的各个类簇的获取方法为：

获取预设的混乱程度差值阈值；待清洗数据集中的所有数据点标记为未访问状态，以任意一个未访问状态的数据点为中心数据点，对中心数据点进行分析：计算中心数据点邻域密度半径范围内各个数据点与中心数据点的斜率信息混乱程度之间的差值，将差值大于混乱程度差值阈值的所有数据点中最大差值对应的数据点作为新的中心数据点；

对新的中心数据点进行分析，直到新的中心数据点的邻域密度半径范围内各个数据点对应的差值均小于混乱程度差值阈值，将对应的中心数据点的邻域密度半径范围内的各个数据点记为初始类簇，并将所得初始类簇中的各个数据点标记为已访问状态；将初始类簇中的所有数据点均称为类内点，将初始类簇之外的任意一个数据点称为类外点；

当初始类簇中包含的数据点的个数小于数据点数量阈值时，获取初始类簇中各个数据点的斜率信息混乱程度最大的一个类内点，对初始类簇进行扩充，包括：根据所得类内点和类外点确定判断条件，并获取满足判断条件的所有类外点，将所得所有类外点划分到初始类簇中，得到扩充后的初始类簇；

如果扩充后的初始类簇中包含的数据点的个数仍小于数据点数量阈值，按照初始类簇中各个数据点的斜率信息混乱程度从大到小的顺序获取下一个类内点，对初始类簇进行扩充，直到所得类簇中包含的数据点的个数大于等于数据点数量阈值，将扩充后的初始类簇作为一个类簇；

依次对待清洗数据集中的各个数据点进行处理，得到主要模式对应的各个类簇。

优选的，所述根据所得类内点和类外点确定判断条件，并获取满足判断条件的所有类外点的步骤包括：

对一个类外点进行条件一、条件二的判断，包括：

条件一：类外点为未访问状态；

条件二：获取所得类内点与其邻域密度半径范围内各个数据点对应的差值，如果这些差值均小于混乱程度差值阈值，同时类外点也处于这个邻域密度半径范围内；

依次对对各个类外点进行判断，获取满足判断条件的所有类外点。

优选的，所述各个类簇的场景影响因子的获取步骤包括：

计算各个类簇特征点的横坐标与纵坐标之间的乘积，根据所得乘积得到各个类簇的影响参数；计算待清洗数据集中所有类簇的影响参数的累加和，计算各个类簇的影响参数与所得累加和的比值，将常数1.0与各个比值之间的差值作为各个类簇的场景影响因子。

优选的，所述各个类簇的异常程度的获取步骤包括：

计算各个类簇的离群因子之间的累加和，计算各个类簇的离群因子与所得累加和之间的比值，将所得各个比值与各个类簇的场景影响因子之间的乘积作为各个类簇的异常程度。

本技术方案还提供了用于神经网络训练的大数据特征清洗系统，包括待清洗数据集获取模块、数据集类簇划分模块、类簇异常程度获取模块和数据清洗模块，其中：

待清洗数据集获取模块，用以获取风电机组运行过程中的各个数据点，得到待清洗数据集；

数据集类簇划分模块，用以获取待清洗数据集的全局平均距离，根据全局平均距离得到邻域密度半径以及数据点数量阈值；获取待清洗数据集中各个数据点的斜率信息混乱程度；根据混乱程度差值阈值、待清洗数据集中各个数据点的斜率信息混乱程度得到初始类簇；当初始类簇中包含的数据点的个数小于数据点数量阈值时，对初始类簇进行扩充，直到初始类簇中包含的数据点的个数不小于数据点数量阈值；对待清洗数据集中不属于初始类簇的各个数据点进行类簇划分，得到主要模式对应的各个类簇；将待清洗数据集中不属于主要模式对应的各个类簇的数据点记为非主要模式的数据点；对非主要模式的数据点进行聚类，得到非主要模式的各个类簇，主要模式的各个类簇与非主要模式的各个类簇构成了待清洗数据集的所有类簇；

类簇异常程度获取模块，用以获取待清洗数据集中各个类簇的类簇特征点；根据各个类簇的类簇特征点计算各个类簇的场景影响因子以及各个类簇的离群因子；根据各个类簇的场景影响因子以及离群因子得到各个类簇的异常程度；

数据清洗模块，用以根据各个类簇的异常程度对待清洗数据集进行数据清洗。

本发明的有益效果是：

首先根据待清洗数据集中各个数据点之间的欧氏距离得到全局平均距离，得到邻域密度半径；根据待清洗数据集中，各个数据点的邻域密度半径范围内数据点的分布信息作为主要模式的判断标准，避免因人为设定邻域密度半径而造成聚类效果偏差；同时通过数据点数量阈值限制各个类簇的最大数据点的数量，避免因主要模式数据点的分布较为连续导致主要模式对应的类簇数量较少的现象出现，从而可以保守地将最符合的S型主要模式的数据点进行类簇划分；在主要模式对应类簇的获取过程中，结合横向堆积的数据点分布较为整齐，以及主要模式数据点分布较为密集的特点，利用各个数据点在邻域密度半径范围内的斜率信息混乱程度控制类簇划分过程中的扩张方向，从而避免将非主要模式的数据点被错误地划分为主要模式对应的类簇，并通过混乱程度差值阈值防止各个类簇的扩张范围过广；

然后对非主要模式的数据点进行类簇划分，得到待清洗数据集的所有类簇；通过各个类簇的场景影响因子对各个类簇的离群因子进行修正，得到各个类簇的异常程度，从而对功率峰值区域横向堆积的正常数据点对应类簇与横向堆积的异常数据点对应类簇进行区分，得到更加准确的异常类簇识别结果；通过限制类簇划分过程中的类簇数量以及识别出类簇异常程度，根据异常程度进行数据清洗，有益于在后续数据使用过程中消除无用的数据，使数据的利用率更高，利用结果更加符合预期。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的用于神经网络训练的大数据特征清洗方法的步骤流程图；

图2为本发明的用于神经网络训练的大数据特征清洗系统的结构框图；

图3为本发明的用于神经网络训练的大数据特征清洗方法的数据点可视化效果图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的用于神经网络训练的大数据特征清洗方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的用于神经网络训练的大数据特征清洗方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的用于神经网络训练的大数据特征清洗方法的步骤流程图，该方法包括以下步骤：

步骤S001：获取风电机组运行过程中的各个数据点，得到待清洗数据集。

在训练数据集中提取出风电机组运行过程中的各个风速以及对应的功率，得到各个数据点，其中各个风速以及对应的功率分别作为各个数据点的横坐标以及纵坐标，所有数据点构成了待清洗数据集G，将待清洗数据集G中所包含的数据点的总个数为N。

在风电机组的运行过程中，风速与功率数据之间是强关联数据，即正常情况下，随着风速的提高，风电机组的发电功率也会增大，此时数据点之间分布较为密集，如图3所示，正常数据点会在数据点可视化效果图中形成“S”型区域，本实施例将“S”型区域称为数据点的“主要模式”；但是由于待清洗数据集中可能出现异常数据，具体表现为风速的提升并不会使得功率得到相应的提升，使得数据点可视化效果图中而在根据风电机组运行过程的待清洗数据集进行自适应控制策略模型的训练时，如果对异常数据设置了较高的参考权重容易导致过拟合现象的出现，进而导致所得自适应控制策略模型存在较大的误差，因此在根据待清洗数据集进行自适应控制策略模型的训练之前，需要对风电机组运行过程中产生的各个数据进行清洗，从而降低异常数据对训练的负面影响，以保证自适应控制策略模型训练的准确性。

步骤S002：根据待清洗数据集的全局平均距离得到邻域密度半径以及数据点数量阈值；根据待清洗数据集中各个数据点的斜率信息混乱程度得到主要模式对应的各个类簇；获取非主要模式的各个类簇，进而得到待清洗数据集的所有类簇。

COF是一种基于平均链式距离计算各个数据点的局部密度的方法，可以判断低密度下的各个数据点是否离群，从而得到各个数据点的离群因子，COF算法为公知技术，此处不再赘述。对于单个数据点而言，当一个数据点的平均链式距离越小，该数据点的离群因子也越小，该数据点为异常数据点的概率越低，反之，则该数据点为异常数据点的概率越高。但是当异常数据点出现了横向堆积时，这些异常数据点的平均链式距离也较小，对应的离群因子也比较小，此时使用COF算法对这些横向堆积的异常数据点检测效果较差；

此外，图3中在功率峰值区域的右侧出现横向堆积的数据点为正常数据点，即风电机组的功率达到最大之后，功率不再随着风速的增加而增加，造成部分数据点在功率峰值区域中也出现了横向堆积，也就是说，由于存在异常数据点横向堆积的现象，在使用传统的COF算法进行异常数据点检测时，会出现在数据点分布密集的区域中各个数据点的平均链接距离相同，也就无法正确判断各个数据点的离群因子，使得传统方法对横向堆积的异常数据点的检测效果较差，且由于部分正常数据也会出现横向堆积，也会影响横向堆积的异常数据点的检测结果的准确性。

在自适应控制策略模型的训练过程中，需要对大量的主要模式数据点进行拟合，同时也需要适量的横向异常数据点作为模型抗噪性的训练样本，而其中的低密度散乱分布的异常数据点则是对模型训练过程中无用的异常数据点，需要对这些无用数据点进行清除。

为解决因为异常数据点的堆积导致无法正常进行离群因子检测准确性较低的问题，本实施例通过对各个数据点的特征信息进行聚类的方法，对风电机组产生的所有数据点进行数据初始划分，在分块的过程中，首先通过DBSCAN聚类方法进行待清洗数据集的初始聚类，得到主要模式的各个类簇，实现主要模式的保守划分。但是由于DBSCAN聚类算法是根据邻域半径内各个数据点的分布方式进行聚类的，该算法会将剩余的所有数据点，即非主要模式的各个数据点，都判断为噪声点，但是这些非主要模式数据点中包含了需要适量保留的模型抗噪性训练样本以及需要剔除的无用数据点，二者的区别在于各个数据点之间的密集程度存在差异，因此本实施例进一步使用k-means聚类算法对非主要模式的各个数据点之间的距离进行划分，得到非主要模式数据点的各个类簇，再以每个类簇作为一个整体，根据各个类簇的离群因子确定需要剔除的各个异常类簇，并设置异常程度阈值来控制保留多少异常数据点作为模型抗噪性的训练样本。

1.获取DBSCAN聚类算法的邻域密度半径以及数据点数量阈值，过程如下：

在使用DBSCAN聚类算法获取主要模式对应的各个类簇时，需要首先确定DBSCAN的邻域密度半径，此外，由于k-means聚类算法需要确定类簇的个数，且在对各个类簇进行离群因子的检测过程中，是将一个类簇作为一个计算单位的，所以最终得到的类簇数量就是离群因子检测中需要处理数据量，如果需要让数据清洗地更细致，那么就将类簇数量设置地更高；如果需要保证自适应控制策略模型的抗噪能力，那么就可以将类簇数量设置的低一些，因此类簇数量实现对异常类簇的识别精度进行控制，也可以实现对异常类簇的保留程度，从而实现对模型抗噪性的控制，本实施例将类簇数量U设置为30，该值可以根据实际需要进行调整。

首先根据待清洗数据集中各个数据点与其他数据点之间的距离得到全局平均距离L：

其中，P，Q分别为待清洗数据集G中的两个数据点；dist(P,Q)表示数据点P与数据点Q之间的欧氏距离。

设置邻域半径距离系数μ，来得到一个带有先验信息的合理的邻域密度半径，本实施例中设置μ＝0.6，该值可以根据先验信息进行调整，将邻域半径距离系数与全局平均距离L之间的乘积作为DBSCAN聚类的邻域密度半径ε。

由于在风电机组运行过程中产生的异常数据远少于正常数据，而主要模式的数据点在数据点可视化效果图中分布更加连续且密集，使用DBSCAN聚类算法会将主要模式划分为一类，使得主要模式对应的类簇数量较少，进而导致计算各个类簇的离群因子时可能出现较大误差，因此为了保证后续各个类簇的离群因子计算结果的准确性，需要限制各个类簇所包含的数据点的最大数量，即设置数据点数量阈值，使得在使DBSCAN聚类算法对待清洗数据集中的所有数据点进行聚类扩张时，当一个类簇中包含的数据点的数量到达数据点数量阈值后，需要停止该类簇的扩张，从而避免主要模式对应的类簇数量较少的现象出现。本实施例中数据点数量阈值D为待清洗数据集中包含的数据点的总个数N与类簇数量U之间的比值。

2.根据邻域密度半径范围内数据点的斜率信息混乱程度得到主要模式对应的各个类簇。

在传统的DBSCAN聚类过程中，需要设定邻域密度半径与密度阈值，当一个数据点的邻域密度半径范围内包含的数据点的个数大于等于密度阈值时，将该邻域密度半径范围内中所有的数据点划分到一个类簇，但是由于风电机组的待清洗数据集中异常数据点也存在堆积现象，为了避免非主要模式的数据点被错误地划分为主要模式对应的类簇，本实施例期望在对各个数据点进行聚类扩张时，可以向数据点分布更混乱的方向进行扩张，例如，对于一个数据点的邻域密度半径中同时包含主要模式数据点与横向堆积的异常数据点时，由于前者的数据点分布更加混乱，后者的数据点分布更加整齐，因此需要向数据点分布更加混乱的方向进行聚类扩张，以保证主要模式划分的准确性，从而可以将DBSCAN聚类算法所得类簇作为主要模式。则主要模式对应的各个类簇的获取过程如下：

为了得到更加准确的主要模式对应数据点，本实施例需要限制DBSCAN聚类的扩张方向，因此本实施例中的聚类方法与传统的DBSCAN聚类算法不同之处在于：本实施例在对一个数据点的邻域密度半径范围内的所有数据点进行判断时，不再依据设定的密度阈值，而是通过该邻域密度半径内的所有数据点分布情况确定，由于横向堆积的异常数据点为横向分布，因此当一个数据点与其邻域密度半径范围内每个数据点之间的斜率越复杂，说明这个数据点更可能为数据集中的“主要模式”，反之则该数据点更可能为异常数据点。

本实施例首先分别获取待清洗数据集中各个数据点与其邻域密度半径范围内所有数据点之间线段的斜率(保留一位小数)，然后根据各个斜率出现的频率计算各个数据点对应的信息熵，将所得信息熵作为各个数据点的斜率信息混乱程度，熵值越大，斜率信息混乱程度越大，对应数据点的分布越混乱，熵值越小，斜率信息混乱程度越小，对应数据点的分布越整齐，则对于待清洗数据集中的第p个数据点，该数据点的斜率信息混乱程度H(p)可表示为：

其中，I(p)为待清洗数据集中第p个数据点与其邻域密度半径范围内所有数据点之间的斜率构成的斜率集合；p(k)表示I(p)中的第k个斜率在整个斜率集合中出现的概率；log₂()为以2为底的对数函数。

本实施例期望在扩张过程中可以向斜率信息混乱程度高的方向进行扩张，但是只向斜率信息混乱程度最高的数据点所在方向进行扩张，可能会单向扩张的现象，导致扩张范围过广，使得主要模式数据点与横向堆积的异常数据点之间的区别不明显，本实施例中通过预先设置混乱程度差值阈值来避免单个类簇的扩张范围过广的现象出现。而邻域半径距离系数可以视为对聚类过程中划分的精确程度的衡量，μ越小，邻域密度半径越小，则聚类过程中判断的范围越小，对应聚类结果也就更精确，因此可以通过该系数μ进行混乱程度差异阈值的计算，即计算待清洗数据集中所有数据点的斜率信息混乱程度的均值，将所得均值与邻域半径距离系数之间的乘积作为混乱程度差值阈值，记为σ。

首先将待清洗数据集中的所有数据点标记为未访问状态，记为unvisited状态，然后对待清洗数据集进行初始聚类划分，过程如下：

1)随机选取任意一个unvisited状态的数据点p作为中心数据点进行分析：计算p的邻域密度半径范围内各个数据点与p的斜率信息混乱程度之间的差值，选取差值大于σ的所有数据点中最大差值对应的数据点作为新的中心数据点；

2)对新的中心数据点进行分析，直到新的中心数据点的邻域密度半径范围内各个数据点对应的差值均小于σ，此时的中心数据点为斜率信息混乱程度最高的数据点，将此时中心数据点的邻域密度半径范围内的所有数据点标记为已访问状态，即visited状态，并划分为一个初始类簇C₁，将初始类簇C₁中的所有数据点均称为类内点，将初始类簇之外的任意一个数据点称为类外点；

3)如果C₁中包含的数据点的个数小于数据点数量阈值D，则需要对C₁进一步扩充，即首先获取初始类簇中斜率信息混乱程度最大的类内点，当一个类外点满足如下判断条件时，将该类外点划分到C₁内：

条件一：类外点为unvisited状态；

条件二：获取所得类内点与其邻域密度半径范围内各个数据点对应的差值，如果这些差值均小于σ，同时类外点也处于这个邻域密度半径范围内；

获取满足上述判断条件的所有类外点，将其划分到C₁中，实现对初始类簇进行扩充，得到扩充后的初始类簇，如果扩充后的初始类簇中包含的数据点的个数小于数据点数量阈值，则按照C₁中各个数据点的斜率信息混乱程度从大到小选取下一个类内点，继续将满足如上判断条件的类外点划分到C₁中，直到C₁中包含的数据点的个数大于等于数据点数量阈值D；

4)重复操作1)～3)，直到待清洗数据集无法进行类簇的划分，此时得到的各个类簇即为主要模式对应的各个类簇。

3.将待清洗数据集中，不属于主要模式对应的各个类簇的数据点称为非主要模式的各个数据点，对非主要模式的各个数据点进行聚类，得到非主要模式对应各个类簇。

由于非主要模式的各个数据点可以分为三种：横向堆积的异常数据点，低密度散乱分布的异常数据点以及功率峰值区域中横向堆积的正常数据点，本实施例中需要保留正常数据点；尽量保留横向堆积的异常数据点，用以提高自适应控制策略模型的模型抗噪性；对低密度散乱分布的异常数据点进行剔除。因此需要对剩余的非主要模型数据点进一步划分，相对于低密度散乱分布的异常数据点，横向堆积的正常数据点以及异常数据点分布相对密集，因此本实施例进一步使用k-means聚类算法对非主要模式的数据点进行聚类，得到非主要模式对应的各个类簇，进而得到待清洗数据集的所有类簇。其中，记主要模式对应的类簇数量为M，则k-means聚类算法的类簇数量为U-M。

则主要模式的各个类簇与非主要模式的各个类簇构成了待清洗数据集的所有类簇。

步骤S003：根据各个类簇的类簇特征点计算各个类簇的场景影响因子以及各个类簇的离群因子；根据各个类簇的场景影响因子以及离群因子得到各个类簇的异常程度。

将待清洗数据集中每个类簇整体作为一个计算单元，使用COF算法计算各个类簇的离群因子，计算各个类簇中所有像素点的横坐标的平均值以及纵坐标的平均值，得到各个类簇的风速平均值以及功率平均值，记第i个类簇中所有数据点风速均值为

该类簇中所有数据点的功率均值为/>

使用/>

作为第i个类簇对应的类簇特征点，后续只对各个类簇的类簇特征点进行离群因子的计算；

由于功率峰值区域横向堆积的正常数据点与横向堆积的异常数据点在图3中均为横向分布，因而具有较高的相似性，但是功率峰值区域横向堆积的正常数据点具有更高的风速以及功率，为了对二者进行区分，在计算COF离群因子时，需要结合各个类簇的风速均值以及功率均值对各个类簇是否属于异常类簇进行判断，当风速均值以及功率均值越大，即类簇特征点的横坐标与纵坐标的值越大，表示该类簇处于功率峰值区域的概率越大，对应该类簇属于异常类簇的概率越小，反之，则该类簇属于异常类簇的概率越大，即类簇特征点的位置可以作为各个横向堆积的类簇是否为异常类簇的一个判断指标，本实施例中将该判断指标称为场景影响因子，用以对各个类簇的离群因子进行修正，其中第i个类簇的场景影响因子

可表示为：

其中

为第i个类簇的影响参数；对于一个类簇，如果其风速和功率均值越大，也就是一个类簇的类簇特征点的横坐标与纵坐标的值越大，该类簇为异常类簇的概率越小，对应该类簇的场景影响因子越小，即在此功率均值下，风速提升不会使得功率提升。

COF算法需要预先设置K距离邻域，本实施例中设置K＝13，然后通过COF算法计算每一个类簇的COF离群因子，为了衡量COF离群因子在全部离群因子中的对比情况，通过如下方式对第i个类簇的异常程度T_i进行判断：

上式中，COF_i为第i个类簇的离群因子，U为待清洗数据集中类簇数量。

表示第i个类簇的离群程度；当一个类簇的离群因子越大，该类簇的离群程度越高，则该类簇属于异常类簇的概率越大，但是由于在功率峰值区域也会出现横向堆积的正常数据点，这些正常数据点对应的类簇的离群程度也较高，为了将横向堆积的正常数据点对应的类簇与异常数据点对应的类簇进行区分，需要根据各个类簇的类簇特征点的场景影响因子对各个类簇的离群程度进行修正，修正后的结果即为各个类簇的异常程度。

步骤S004：根据各个类簇的异常程度对待清洗数据集进行数据清洗。

通过softmax函数对各个类簇的异常程度进行归一化，得到各个类簇归一化后的异常程度，从而拉大各个类簇的离群因子之间的差异，从而更容易判断异常。设定异常程度阈值α，用以进一步控制异常数据点的保留程度，从而提高自适应控制策略模型的模型抗噪能力，本实施例中α＝0.5，当第i个类簇归一化后的异常程度大于α时，判定第i个类簇为需要剔除的异常类簇，认为该类簇中的所有数据点为异常数据点，否则认为第i个类簇为正常类簇。依次对待清洗数据集中的各个类簇进行判断，得到各个异常类簇。

通过上述过程获取到异常数据点之后，去除待清洗数据集中的所有异常数据点，完成对训练集中异常数据点的数据清洗，将清洗后的数据集作为训练数据集，从而降低自适应控制策略模型训练过程中异常数据的影响，使得风力发电机组的自适应控制策略模型会有更精确的控制效果。

本发明的用于神经网络训练的大数据特征清洗系统的实施例，如图2所示，包括待清洗数据集获取模块、数据集类簇划分模块、类簇异常程度获取模块和数据清洗模块，其中：

本实施例首先根据待清洗数据集中各个数据点之间的欧氏距离得到全局平均距离，得到邻域密度半径；根据待清洗数据集中，各个数据点的邻域密度半径范围内数据点的分布信息作为主要模式的判断标准，避免因人为设定邻域密度半径而造成聚类效果偏差；同时通过数据点数量阈值限制各个类簇的最大数据点的数量，避免因主要模式数据点的分布较为连续导致主要模式对应的类簇数量较少的现象出现，从而可以保守地将最符合的S型主要模式的数据点进行类簇划分；在主要模式对应类簇的获取过程中，结合横向堆积的数据点分布较为整齐，以及主要模式数据点分布较为密集的特点，利用各个数据点在邻域密度半径范围内的斜率信息混乱程度控制类簇划分过程中的扩张方向，从而避免将非主要模式的数据点被错误地划分为主要模式对应的类簇，并通过混乱程度差值阈值防止各个类簇的扩张范围过广；

然后对非主要模式的数据点进行类簇划分，得到待清洗数据集的所有类簇；通过各个类簇的场景影响因子对各个类簇的离群因子进行修正，得到各个类簇的异常程度，从而对功率峰值区域横向堆积的正常数据点对应类簇与横向堆积的异常数据点对应类簇进行区分，得到更加准确的异常类簇识别结果；通过限制类簇划分过程中的类簇数量以及异常程度阈值控制异常数据点的保留程度，从而实现保留部分有益于模型训练的异常数据而消除对训练模型无用的数据，使训练出的自适应控制策略模型具有更强的鲁棒性，抗噪性以及准确性。

Claims

1.用于神经网络训练的大数据特征清洗方法，其特征在于，该方法包括以下步骤：

根据各个类簇的异常程度对待清洗数据集进行数据清洗。

2.根据权利要求1所述的用于神经网络训练的大数据特征清洗方法，其特征在于，所述根据全局平均距离得到邻域密度半径以及数据点数量阈值的方法为：

3.根据权利要求1所述的用于神经网络训练的大数据特征清洗方法，其特征在于，所述待清洗数据集中各个数据点的斜率信息混乱程度的获取方法为：

4.根据权利要求1所述的用于神经网络训练的大数据特征清洗方法，其特征在于，所述主要模式对应的各个类簇的获取方法为：

5.根据权利要求4所述的用于神经网络训练的大数据特征清洗方法，其特征在于，所述根据所得类内点和类外点确定判断条件，并获取满足判断条件的所有类外点的步骤包括：

对一个类外点进行条件一、条件二的判断，包括：

条件一：类外点为未访问状态；

6.根据权利要求1所述的用于神经网络训练的大数据特征清洗方法，其特征在于，所述各个类簇的场景影响因子的获取步骤包括：

7.根据权利要求1所述的用于神经网络训练的大数据特征清洗方法，其特征在于，所述各个类簇的异常程度的获取步骤包括：

8.用于神经网络训练的大数据特征清洗系统，其特征在于，该系统包括以下模块：