CN115392710A

CN115392710A - 一种基于数据过滤的风电机组运行决策方法及系统

Info

Publication number: CN115392710A
Application number: CN202211023460.7A
Authority: CN
Inventors: 马仕海; 高阳; 刘宝良
Original assignee: Shenyang Institute of Engineering
Current assignee: Shenyang Institute of Engineering
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-11-25

Abstract

本发明提供了一种基于数据过滤的风电机组运行决策方法及系统，应用于数据处理技术领域，该方法包括：通过获取数据需求参数，根据数据需求参数匹配业务数据源集合，输入数据抽取层抽取预设时间粒度的业务数据集。将业务数据集进行聚类，生成业务数据集归类结果。将所述业务数据集归类结果进行数据清洗，生成已清洗业务数据集，随后输入数据挖掘层，生成需求数据集。判断需求数据集的数据量是否满足需求数据量。若满足，根据所述需求数据集训练风电机组运行状态决策模型。解决了现有技术中由于风电机组运行状态决策模型的训练数据冗杂程度较高，质量较低，导致存在运行状态识别准确度较低的技术问题。

Description

一种基于数据过滤的风电机组运行决策方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于数据过滤的风电机组运行决策方法及系统。

背景技术

当前风电机组信息化产业中，各监控元件呈高速发展趋势，从准确度、精度、抗干扰等多个方向发展，有效保证风电机组的可靠安全运行。然而，在现有技术随着中监控元件的发展，监控元件所产生的数据量增大复杂程度增加，且数据利用不规范利用率低，造成数据处理效率低下的问题。

因此，在现有技术中由于风电机组运行状态决策模型的训练数据冗杂程度较高，质量较低，导致存在运行状态识别准确度较低的技术问题。

发明内容

本申请提供一种基于数据过滤的风电机组运行决策方法及系统，用于针对解决现有技术中由于风电机组运行状态决策模型的训练数据冗杂程度较高，质量较低，导致存在运行状态识别准确度较低的技术问题。

鉴于上述问题，本申请提供了一种基于数据过滤的风电机组运行决策方法及系统。

本申请的第一个方面，提供了一种基于数据过滤的风电机组运行决策方法，所述方法应用一基于数据过滤的风电机组运行决策系统，所述系统包括数据抽取层，数据清洗层，数据归类层和数据挖掘层，所述方法包括：获取数据需求参数，其中，所述数据需求参数包括需求数据类别和需求数据量；根据所述需求数据类别匹配业务数据源集合，输入数据抽取层抽取预设时间粒度的业务数据集；将所述业务数据集输入数据归类层进行聚类，生成业务数据集归类结果；将所述业务数据集归类结果输入数据清洗层进行数据清洗，生成已清洗业务数据集；将所述已清洗业务数据集输入数据挖掘层，生成需求数据集；判断所述需求数据集的数据量是否满足所述需求数据量；若满足，根据所述需求数据集训练风电机组运行状态决策模型。

本申请的第二个方面，提供了一种基于数据过滤的风电机组运行决策系统，所述系统包括数据抽取层，数据清洗层，数据归类层和数据挖掘层，所述系统包括：数据需求参数获取模块，用于获取数据需求参数，其中，所述数据需求参数包括需求数据类别和需求数据量；业务数据集获取模块，用于根据所述需求数据类别匹配业务数据源集合，输入数据抽取层抽取预设时间粒度的业务数据集；业务数据集归类模块，用于将所述业务数据集输入数据归类层进行聚类，生成业务数据集归类结果；清洗业务数据集模块，用于将所述业务数据集归类结果输入数据清洗层进行数据清洗，生成已清洗业务数据集；需求数据集获取模块，用于将所述已清洗业务数据集输入数据挖掘层，生成需求数据集；数据量判断模块，用于判断所述需求数据集的数据量是否满足所述需求数据量；运行状态决策模块，用于若满足，根据所述需求数据集训练风电机组运行状态决策模型。

本申请中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本申请实施例提供的方法通获取数据需求参数，其中，所述数据需求参数包括需求数据类别和需求数据量。根据所述需求数据类别匹配业务数据源集合，输入数据抽取层抽取预设时间粒度的业务数据集。将所述业务数据集输入数据归类层进行聚类，生成业务数据集归类结果。将所述业务数据集归类结果输入数据清洗层进行数据清洗，生成已清洗业务数据集。将所述已清洗业务数据集输入数据挖掘层，生成需求数据集。判断所述需求数据集的数据量是否满足所述需求数据量。若满足，根据所述需求数据集训练风电机组运行状态决策模型。通过对风电机组运行数据进行数据过滤处理，使得最终获取的数据信息质量提高，减小风电机组运行状态判断的数据处理量，便于后续对风电机组运行状态做出快速决策判断，进一步提高风电机组运行决策系统的运行效率。解决了现有技术中由于风电机组运行状态决策模型的训练数据冗杂程度较高，质量较低，导致存在运行状态识别准确度较低的技术问题。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为本申请提供的一种基于数据过滤的风电机组运行决策方法流程示意图；

图2为本申请提供的一种基于数据过滤的风电机组运行决策方法中生成业务数据集的流程示意图；

图3为本申请提供的一种基于数据过滤的风电机组运行决策方法中获取业务数据集归类结果的流程示意图；

图4为本申请提供了一种基于数据过滤的风电机组运行决策系统结构示意图。

附图标记说明：数据需求参数获取模块11，业务数据集获取模块12，业务数据集归类模块13，清洗业务数据集模块14，需求数据集获取模块15，数据量判断模块16，运行状态决策模块17。

具体实施方式

下面将参考附图对本申请中的技术方案进行清楚、完整地描述。所描述的实施内容例仅为本申请所能实现的部分内容，而不是本申请的全部内容。

实施例一

如图1所示，本申请提供了一种基于数据过滤的风电机组运行决策方法，所述方法应用于智能控制系统，所述智能控制系统与图像采集设备、定位辅助设备通信连接，所述方法包括：

步骤100：获取数据需求参数，其中，所述数据需求参数包括需求数据类别和需求数据量；

步骤200：根据所述需求数据类别匹配业务数据源集合，输入数据抽取层抽取预设时间粒度的业务数据集；

具体的，获取数据需求参数，其中数据需求参数包括需求数据类别和需求数据量。其中，数据需求参数为需要获取的数据参数，其包括需求数据的类别和需求数据的数据量。随后，根据需求数据类别匹配业务数据源集合，即根据需求数据的具体类别匹配对应的业务数据源集合，其中业务数据源集合为风电机组日常运行时监控元件所获取的监控数据所构成的数据源集合。将需求数据类别输入数据抽取层，提取业务数据源集合中预设时间粒度的业务数据集，其中预设时间粒度为预设的抽取时间区间。

如图2所示，本申请实施例提供的方法步骤200还包括：

步骤210：根据所述需求数据类别，匹配风电机组类型和运行状态评估指标维度；

步骤220：将所述风电机组类型和所述运行状态评估指标维度输入所述数据抽取层，从所述业务数据源集合提取所述预设时间粒度的初始业务数据集，其中，所述初始业务数据集包括抽取源存储格式特征和抽取字段特征；

步骤230：遍历所述抽取字段特征对所述初始业务数据集进行数据预处理，生成预处理业务数据集；

步骤240：遍历所述抽取源存储格式特征对所述预处理业务数据集进行存储形式一致性调整，生成所述业务数据集。

具体的，根据需求数据类别匹配该数据类别的风电机组类型和运行状态评估指标，其中风电机组类型为需要进行评估运行状态的风电机组类型，运行状态评估指标维度为进行评估运行状态的设定指标维度，示例性地如：发电效率指标、运行故障指标、运行成本指标、电能转化率指标等。将风电机组类型和运行状态评估指标维度输入所述数据抽取层，从业务数据源集合提取预设时间粒度的初始业务数据集，即获取业务数据源集合中预设时间区间内的需求数据，构成初始业务数据集，初始业务数据集包括抽取源存储格式特征和抽取字段特征。其中抽取字段特征为数据抽取层根据需求数据类别进行数据抽取时所提取的数据字段。随后，遍历抽取字段特征对初始业务数据集进行数据预处理，生成预处理业务数据集。获取抽取源存储格式特征对预处理业务数据集进行存储形式一致性调整，生成业务数据集以便于后续对业务数据集进行进一步处理。

本申请实施例提供的方法步骤230还包括：

步骤231：根据所述数据抽取层，获取预设预处理功能模块集合；

步骤232：根据所述预设预处理功能集，获得一级处理模块集合，其中，所述一级处理模块集合包括数据筛除处理模块、数据补全处理模块和真值转换处理模块；

步骤233：根据所述预设预处理功能集，获得二级处理模块集合，其中，所述二级处理模块集合包括主键生成处理模块、字段合并处理模块、字段拆分处理模块、数据排序处理模块和集合运算处理模块；

步骤234：通过用户端对所述数据筛除处理模块、所述数据补全处理模块、所述真值转换处理模块、所述主键生成处理模块、所述字段合并处理模块、所述字段拆分处理模块、所述数据排序处理模块和所述集合运算处理模块进行选择，生成预处理模块选择结果；

步骤235：根据所述预处理模块选择结果遍历所述抽取字段特征对所述初始业务数据集进行数据预处理，生成所述预处理业务数据集，其中，所述一级处理模块集合的处理优先级高于所述二级处理模块集合。

具体的，根据数据抽取层，获取预设预处理功能模块集合，其中预设预处理功能模块集合为数据抽取层中预设的处理模块。根据预设预处理功能模块集合，获取一级处理模块集合，其中一级处理模块集合包括数据筛除处理模块、数据补全处理模块和真值转换处理模块。其中数据筛除处理模块用于筛选其中存在缺失的数据，如存在数值缺失等，从而提高数据的准确性。数据补全处理模块用于通过一定的补全方式补充缺失的数据，形成完成的数据，便于后续对数据进行处理。真值转换处理模块用于对实际产生的真实值转换为变量值参与模型计算。根据预设预处理功能集，获得二级处理模块集合，其中，所述二级处理模块集合包括主键生成处理模块、字段合并处理模块、字段拆分处理模块、数据排序处理模块和集合运算处理模块。其中主键生成模块用于生成数据库中的主键，主键值唯一标识数据库中的每一行。字段合并处理模块，用于将多个表格中相同类型字段进行合并。字段拆分处理模块用于对相同表格中不同类型字段进行拆分。数据排序处理模块用于按照设定的顺序或主键编号进行数据排序。集合运算模块用于根据设定的集合运算方法对集合进行运算。随后，根据用户端对所述数据筛除处理模块、所述数据补全处理模块、所述真值转换处理模块、所述主键生成处理模块、所述字段合并处理模块、所述字段拆分处理模块、所述数据排序处理模块和所述集合运算处理模块进行选择，生成预处理模块选择结果。根据预处理模块选择结果遍历抽取字段特征对初始业务数据集进行数据预处理，生成所述预处理业务数据集，其中，一级处理模块集合的处理优先级高于二级处理模块集合。

步骤300：将所述业务数据集输入数据归类层进行聚类，生成业务数据集归类结果；

步骤400：将所述业务数据集归类结果输入数据清洗层进行数据清洗，生成已清洗业务数据集；

具体的，将获取的业务数据集输入数据归类层进行聚类，由于获取的业务数据集通过数据抽取层进行获取，其获取的业务数据集中的数据随机排布，通过将业务数据集输入数据归类层进行聚类，使得原本无序的数据分为多个类别，获取业务数据集归类结果。其中，业务数据集归类结果中包含数据的具体类别和对应在该类别中的数据。随后，将业务数据集归类结果输入数据清洗层进行数据清洗，数据清洗过程主要通过计算比较每一个字段和每一个记录的权重系数，来排除数据表中关联度较低的字段和记录，缩小数据集，生成已清洗业务数据集。

如图3所示，本申请实施例提供的方法步骤300还包括：

步骤310：获取第一定位属性和第二定位属性，其中，所述第一定位属性表征出现次数，所述第二定位属性表征导致风电机组异常运行次数；

步骤320：根据所述第一定位属性和所述第二定位属性，遍历所述业务数据集进行定位，生成待聚类业务数据集；

步骤330：遍历所述待聚类业务数据集，设定初始聚类质心；

步骤340：根据所述初始聚类质心遍历所述待聚类业务数据集，生成初始聚类结果；

步骤350：遍历所述初始聚类结果对所述初始聚类质心进行调整，生成迭代聚类质心；

步骤360：根据所述迭代聚类质心遍历所述待聚类业务数据集，生成迭代聚类结果；

步骤370：若所述迭代聚类结果和所述初始聚类结果不相同，则重复迭代，直到第k聚类结果和第k－1聚类结果相同，或/和k满足预设迭代次数时停止，将所述第k聚类结果设为所述业务数据集归类结果。

具体的，获取第一定位属性和第二定位属性，其中，第一定位属性表征出现次数，即所有的风电机组运行次数包括正常允许次数和异常运行次数。第二定位属性表征导致风电机组异常运行次数。根据第一定位属性和第二定位属性，遍历所述业务数据集进行定位，生成待聚类业务数据集，其中数据归类层采用k均值聚类方法进行聚类。在进行聚类之前还需要对待聚类业务数据集进行标准化处理，便于在进行聚类时的距离计算。遍历待聚类业务数据集，设定初始聚类质心。随后根据初始聚类质心遍历所述待聚类业务数据集，生成初始聚类结果，即通过初始聚类质心对待聚类业务数据集进行聚类，生成初始聚类结果。遍历所述初始聚类结果对所述初始聚类质心进行调整，生成迭代聚类质心。根据迭代聚类质心遍历所述待聚类业务数据集，生成迭代聚类结果。若所述迭代聚类结果和所述初始聚类结果不相同，则重复迭代，直到第k聚类结果和第k－1聚类结果相同，或/和k满足预设迭代次数时停止，将所述第k聚类结果设为所述业务数据集归类结果。

本申请实施例提供的方法步骤400还包括：

步骤410：根据所述业务数据集归类结果，获取第一记录数据集，第二记录数据集直到第I记录数据集；

步骤420：遍历所述第I记录数据集，生成第一数据类型、第二数据类型直到第N数据类型；

步骤430：遍历所述第N数据类型，生成第一字段特征、第二字段特征直到第M字段特征；

步骤440：将所述第一字段特征、所述第二字段特征直到所述第M字段特征输入权重分布表，生成第一字段权重、第二字段权重直到第M字段权重；

步骤450：获取纵向清洗公式：

步骤460：其中，

为第i个记录数据集的第n个数据类型的第m个字段的清洗参考值，P₀为清洗权重阈值，w_inm第i个记录数据集的第n个数据类型的第m个字段权重；

步骤470：当所述纵向清洗公式的输出结果满足预设值时，对所述业务数据集进行纵向清洗，生成纵向清洗结果；

步骤480：将所述纵向清洗结果添加进所述已清洗业务数据集。

具体的，根据业务数据集归类结果，获取第一记录数据集，第二记录数据集直到第I记录数据集，上述记录数据集均通过集合运算后获取横向I个记录数据。随后，遍历第I记录数据集，生成第一数据类型、第二数据类型直到第N数据类型，即获取N个数据类型，例如根据数据形式的不同将其分为N个数据类型。遍历第N数据类型，生成第一字段特征、第二字段特征直到第M字段特征，每个字段特征表示一个影响因素，即对业务数据集归类结果通过遍历将其整理为数据表的形式，在第I个记录数据中，横向为相同字段下的不同数据类型的数据，纵向为相同数据类型的多个不同字段。将所述第一字段特征、所述第二字段特征直到所述第M字段特征输入权重分布表，生成第一字段权重、第二字段权重直到第M字段权重。其中权重分布表基于大数据进行获取，在权重分布表中记录各数据对应字段类型的权重，不同的记录数据、不同的数据类型和不同的字段类型对应的权重不同，为了避免权重分布表被篡改，导致风电机组运行决策出现问题，在进行权重分布表记录时采用区块链技术进行记录。随后获取纵向清洗公式，对业务数据集进行清洗。其中纵向清洗公式为：

其中，

为第i个记录数据集的第n个数据类型的第m个字段的清洗参考值，P₀为清洗权重阈值，w_inm第i个记录数据集的第n个数据类型的第m个字段权重。当所述纵向清洗公式的输出结果满足预设值时，对所述业务数据集进行纵向清洗，生成纵向清洗结果。即，任意一个数据类型对应多个字段类型，因此求取所有记录数据中相同数据类型对应字段类型的权重均值，筛出均值小于预设值的，即筛除影响性较低的，实现数据纵向过滤，将纵向清洗结果添加进所述已清洗业务数据集。

本申请实施例提供的方法步骤480还包括：

步骤481：根据所述纵向清洗结果，获取第m字段特征；

步骤482：根据所述第m字段特征遍历所述第一数据类型，所述第二数据类型直到所述第N数据类型，生成第一权重，第二权重直到第N权重；

步骤483：对所述第一权重，所述第二权重直到所述第N权重进行最大值筛选，生成横向清洗结果；

步骤484：将所述横向清洗结果添加进所述已清洗业务数据集。

具体的，根据纵向清洗结果，获取第m字段特征。根据第m字段特征遍历所述第一数据类型，所述第二数据类型直到所述第N数据类型，生成第一权重，第二权重直到第N权重。随后对第一权重，第二权重直到第N权重进行最大值筛选，筛选出其中的权重最大值，生成横向清洗结果。由于任意一个字段仅可以存在一个有效的参考值，而经过纵向清洗后一个字段在可能存在多个不同数据类型的权重值，此时需要筛选出对字段影响最大数据类型即获取该字段下的最大权重，生成横向清洗结果。最后，将所述横向清洗结果添加进所述已清洗业务数据集，完成对数据的清洗。

步骤500：将所述已清洗业务数据集输入数据挖掘层，生成需求数据集；

步骤600：判断所述需求数据集的数据量是否满足所述需求数据量；

步骤700：若满足，根据所述需求数据集训练风电机组运行状态决策模型。

具体的，将已清洗业务数据集输入数据挖掘层，通过数据挖掘层生成需求数据集，通过数据挖掘层获取与训练风电机组运行状态决策相关性最高的数据构成需求数据集。随后判断需求数据集的数据量是否满足所述需求数据量。避免数据量不足无法对风电机组运行状态做出决策判断，当需求数据集的数据量满足要求时。则根据需求数据集训练风电机组运行状态决策模型，其中风电机组运行状态决策模型通过历史需求数据和历史需求数据是否异常的标识数据，对神经网络模型进行监督训练获取。通过输入需求数据集，获取风电机组运行状态决策判断结果，即决策风电机组运行中各设备是否会出现异常。通过对风电机组运行数据进行数据过滤处理，使得最终获取的数据信息质量提高，减小风电机组运行状态判断的数据处理量，便于后续对风电机组运行状态做出快速决策判断，进一步提高风电机组运行决策系统的运行效率。

本申请实施例提供的方法步骤500还包括：

步骤510：遍历所述已清洗业务数据集进行属性特征提取，生成特征属性值；

步骤520：遍历所述已清洗业务数据集，匹配数据挖掘样本数据集；

步骤530：遍历所述数据挖掘样本数据集，获得特征属性条件概率集合；

步骤540：获取分类概率计算公式：

步骤550：其中，P(A|x_i)表征已清洗业务数据A属于第i种分类的概率，P(a_j|x_i)表征第j个特征属性属于第i种分类的概率，x_i为第i种分类，a_j为第j个特征属性；

步骤560：根据所述分类概率计算公式、所述特征属性条件概率集合与所述特征属性值，遍历所述数据挖掘样本数据集，生成分类概率计算结果；

步骤570：遍历所述已清洗业务数据集对所述分类概率计算结果取最大值，生成所述需求数据集。

具体的，遍历已清洗业务数据集进行属性特征提取，确定挖掘对象的特征属性，如扇叶控制参数、角度控制参数、温度控制参数等属性，即确定已清洗业务数据集中各数据的特征属性。随后遍历已清洗业务数据集针对各数据的特征属性，匹配数据挖掘样本数据集，即提取其中与数据挖掘目的相关的挖掘样本数据集。遍历所述数据挖掘样本数据集，获得特征属性条件概率集合，在获取特征属性条件概率集合时通过专家对数据挖掘样本数据集进行各数据所属类别条件概率标定，获取特征属性条件概率集合，即对数据挖掘目的相关的挖掘样本数据集进行进一步条件概率标识，标识其中数据挖掘样本数据集中各数据与挖掘目的相关的概率。随后获取分类概率计算公式：

其中，P(A|x_i)表征已清洗业务数据A属于第i种分类的概率，P(a_j|x_i)表征第j个特征属性属于第i种分类的概率，x_i为第i种分类，a_j为第j个特征属性。根据分类概率计算公式、特征属性条件概率集合与特征属性值，遍历数据挖掘样本数据集，生成分类概率计算结果。即对数据挖掘样本数据集进行计算获取其归属与挖掘目的分类类别相关的概率。遍历已清洗业务数据集对分类概率计算结果取最大值，生成所述需求数据集。即取挖掘目的分类类别中概率计算结果最大值数据，生成需求数据集。完成对需求数据的提取，便于后续风电机组运行状态进行决策判断。

综上所述，本申请实施例提供的方法通获取数据需求参数，其中，所述数据需求参数包括需求数据类别和需求数据量。根据所述需求数据类别匹配业务数据源集合，输入数据抽取层抽取预设时间粒度的业务数据集。将所述业务数据集输入数据归类层进行聚类，生成业务数据集归类结果。将所述业务数据集归类结果输入数据清洗层进行数据清洗，生成已清洗业务数据集。将所述已清洗业务数据集输入数据挖掘层，生成需求数据集。判断所述需求数据集的数据量是否满足所述需求数据量。若满足，根据所述需求数据集训练风电机组运行状态决策模型。通过对风电机组运行数据进行数据过滤处理，使得最终获取的数据信息质量提高，减小风电机组运行状态判断的数据处理量，便于后续对风电机组运行状态做出快速决策判断，进一步提高风电机组运行决策系统的运行效率。解决了现有技术中由于风电机组运行状态决策模型的训练数据冗杂程度较高，质量较低，导致存在运行状态识别准确度较低的技术问题。

实施例二

基于与前述实施例中一种基于数据过滤的风电机组运行决策方法相同的发明构思，如图4所示，本申请提供了一种基于数据过滤的风电机组运行决策系统，所述系统包括数据抽取层，数据清洗层，数据归类层和数据挖掘层，所述系统包括：

数据需求参数获取模块11，用于获取数据需求参数，其中，所述数据需求参数包括需求数据类别和需求数据量；

业务数据集获取模块12，用于根据所述需求数据类别匹配业务数据源集合，输入数据抽取层抽取预设时间粒度的业务数据集；

业务数据集归类模块13，用于将所述业务数据集输入数据归类层进行聚类，生成业务数据集归类结果；

清洗业务数据集模块14，用于将所述业务数据集归类结果输入数据清洗层进行数据清洗，生成已清洗业务数据集；

需求数据集获取模块15，用于将所述已清洗业务数据集输入数据挖掘层，生成需求数据集；

数据量判断模块16，用于判断所述需求数据集的数据量是否满足所述需求数据量；

运行状态决策模块17，用于若满足，根据所述需求数据集训练风电机组运行状态决策模型。

进一步地，所述业务数据集获取模块12还用于：

根据所述需求数据类别，匹配风电机组类型和运行状态评估指标维度；

将所述风电机组类型和所述运行状态评估指标维度输入所述数据抽取层，从所述业务数据源集合提取所述预设时间粒度的初始业务数据集，其中，所述初始业务数据集包括抽取源存储格式特征和抽取字段特征；

遍历所述抽取字段特征对所述初始业务数据集进行数据预处理，生成预处理业务数据集；

遍历所述抽取源存储格式特征对所述预处理业务数据集进行存储形式一致性调整，生成所述业务数据集。

进一步地，所述业务数据集获取模块12还用于：

根据所述数据抽取层，获取预设预处理功能模块集合；

根据所述预设预处理功能集，获得一级处理模块集合，其中，所述一级处理模块集合包括数据筛除处理模块、数据补全处理模块和真值转换处理模块；

根据所述预设预处理功能集，获得二级处理模块集合，其中，所述二级处理模块集合包括主键生成处理模块、字段合并处理模块、字段拆分处理模块、数据排序处理模块和集合运算处理模块；

通过用户端对所述数据筛除处理模块、所述数据补全处理模块、所述真值转换处理模块、所述主键生成处理模块、所述字段合并处理模块、所述字段拆分处理模块、所述数据排序处理模块和所述集合运算处理模块进行选择，生成预处理模块选择结果；

根据所述预处理模块选择结果遍历所述抽取字段特征对所述初始业务数据集进行数据预处理，生成所述预处理业务数据集，其中，所述一级处理模块集合的处理优先级高于所述二级处理模块集合。

进一步地，所述清洗业务数据集模块14还用于：

根据所述业务数据集归类结果，获取第一记录数据集，第二记录数据集直到第I记录数据集；

遍历所述第I记录数据集，生成第一数据类型、第二数据类型直到第N数据类型；

遍历所述第N数据类型，生成第一字段特征、第二字段特征直到第M字段特征；

将所述第一字段特征、所述第二字段特征直到所述第M字段特征输入权重分布表，生成第一字段权重、第二字段权重直到第M字段权重；

获取纵向清洗公式：

其中，

当所述纵向清洗公式的输出结果满足预设值时，对所述业务数据集进行纵向清洗，生成纵向清洗结果；

将所述纵向清洗结果添加进所述已清洗业务数据集。

进一步地，所述清洗业务数据集模块14还用于：

根据所述纵向清洗结果，获取第m字段特征；

根据所述第m字段特征遍历所述第一数据类型，所述第二数据类型直到所述第N数据类型，生成第一权重，第二权重直到第N权重；

对所述第一权重，所述第二权重直到所述第N权重进行最大值筛选，生成横向清洗结果；

将所述横向清洗结果添加进所述已清洗业务数据集。

进一步地，所述业务数据集归类模块13还用于：

获取第一定位属性和第二定位属性，其中，所述第一定位属性表征出现次数，所述第二定位属性表征导致风电机组异常运行次数；

根据所述第一定位属性和所述第二定位属性，遍历所述业务数据集进行定位，生成待聚类业务数据集；

遍历所述待聚类业务数据集，设定初始聚类质心；

根据所述初始聚类质心遍历所述待聚类业务数据集，生成初始聚类结果；

遍历所述初始聚类结果对所述初始聚类质心进行调整，生成迭代聚类质心；

根据所述迭代聚类质心遍历所述待聚类业务数据集，生成迭代聚类结果；

若所述迭代聚类结果和所述初始聚类结果不相同，则重复迭代，直到第k聚类结果和第k－1聚类结果相同，或/和k满足预设迭代次数时停止，将所述第k聚类结果设为所述业务数据集归类结果。

进一步地，所述需求数据集获取模块15还用于：

遍历所述已清洗业务数据集进行属性特征提取，生成特征属性值；

遍历所述已清洗业务数据集，匹配数据挖掘样本数据集；

遍历所述数据挖掘样本数据集，获得特征属性条件概率集合；

获取分类概率计算公式：

其中，P(A|x_i)表征已清洗业务数据A属于第i种分类的概率，P(a_j|x_i)表征第j个特征属性属于第i种分类的概率，x_i为第i种分类，a_j为第j个特征属性；

根据所述分类概率计算公式、所述特征属性条件概率集合与所述特征属性值，遍历所述数据挖掘样本数据集，生成分类概率计算结果；

遍历所述已清洗业务数据集对所述分类概率计算结果取最大值，生成所述需求数据集。

上述实施例二用于执行如实施例一中的方法，其执行原理以及执行基础均可以通过实施例一中记载的内容获取，在此不做过多赘述。尽管结合具体特征及其实施例对本申请进行了描述，但本申请不受这里描述的示例实施例的限制。基于本申请的实施例，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围，这样获取的内容也属于本申请保护的范围。

Claims

1.一种基于数据过滤的风电机组运行决策方法，其特征在于，所述方法应用一基于数据过滤的风电机组运行决策系统，所述系统包括数据抽取层，数据清洗层，数据归类层和数据挖掘层，所述方法包括：

获取数据需求参数，其中，所述数据需求参数包括需求数据类别和需求数据量；

根据所述需求数据类别匹配业务数据源集合，输入数据抽取层抽取预设时间粒度的业务数据集；

将所述业务数据集输入数据归类层进行聚类，生成业务数据集归类结果；

将所述业务数据集归类结果输入数据清洗层进行数据清洗，生成已清洗业务数据集；

将所述已清洗业务数据集输入数据挖掘层，生成需求数据集；

判断所述需求数据集的数据量是否满足所述需求数据量；

若满足，根据所述需求数据集训练风电机组运行状态决策模型。

2.如权利要求1所述的方法，其特征在于，所述根据所述需求数据类别匹配业务数据源集合，输入数据抽取层抽取预设时间粒度的业务数据集，包括：

3.如权利要求2所述的方法，其特征在于，所述方法应用一基于数据过滤的风电机组运行决策系统，所述系统还包括用户端，所述遍历所述抽取字段特征对所述初始业务数据集进行数据预处理，生成预处理业务数据集，包括：

根据所述数据抽取层，获取预设预处理功能模块集合；

4.如权利要求1所述的方法，其特征在于，所述将所述业务数据集归类结果输入数据清洗层进行数据清洗，生成已清洗业务数据集，包括：

获取纵向清洗公式：

其中，

将所述纵向清洗结果添加进所述已清洗业务数据集。

5.如权利要求4所述的方法，其特征在于，所述将所述业务数据集归类结果输入数据清洗层进行数据清洗，生成已清洗业务数据集，包括：

根据所述纵向清洗结果，获取第m字段特征；

将所述横向清洗结果添加进所述已清洗业务数据集。

6.如权利要求1所述的方法，其特征在于，所述将所述业务数据集输入数据归类层进行聚类，生成业务数据集归类结果，包括：

遍历所述待聚类业务数据集，设定初始聚类质心；

7.如权利要求1所述的方法，其特征在于，所述将所述已清洗业务数据集输入数据挖掘层，生成需求数据集，包括：

遍历所述已清洗业务数据集，匹配数据挖掘样本数据集；

获取分类概率计算公式：

8.一种基于数据过滤的风电机组运行决策系统，其特征在于，所述系统包括数据抽取层，数据清洗层，数据归类层和数据挖掘层，所述系统包括：

数据需求参数获取模块，用于获取数据需求参数，其中，所述数据需求参数包括需求数据类别和需求数据量；

业务数据集获取模块，用于根据所述需求数据类别匹配业务数据源集合，输入数据抽取层抽取预设时间粒度的业务数据集；

业务数据集归类模块，用于将所述业务数据集输入数据归类层进行聚类，生成业务数据集归类结果；

清洗业务数据集模块，用于将所述业务数据集归类结果输入数据清洗层进行数据清洗，生成已清洗业务数据集；

需求数据集获取模块，用于将所述已清洗业务数据集输入数据挖掘层，生成需求数据集；

数据量判断模块，用于判断所述需求数据集的数据量是否满足所述需求数据量；

运行状态决策模块，用于若满足，根据所述需求数据集训练风电机组运行状态决策模型。