CN112270203A - 一种基于熵权法的风机特征优选方法 - Google Patents
一种基于熵权法的风机特征优选方法 Download PDFInfo
- Publication number
- CN112270203A CN112270203A CN202010985156.5A CN202010985156A CN112270203A CN 112270203 A CN112270203 A CN 112270203A CN 202010985156 A CN202010985156 A CN 202010985156A CN 112270203 A CN112270203 A CN 112270203A
- Authority
- CN
- China
- Prior art keywords
- characteristic
- fan
- sample
- attribute
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F03—MACHINES OR ENGINES FOR LIQUIDS; WIND, SPRING, OR WEIGHT MOTORS; PRODUCING MECHANICAL POWER OR A REACTIVE PROPULSIVE THRUST, NOT OTHERWISE PROVIDED FOR
- F03D—WIND MOTORS
- F03D17/00—Monitoring or testing of wind motors, e.g. diagnostics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/02—Preprocessing
- G06F2218/04—Denoising
- G06F2218/06—Denoising by applying a scale-space analysis, e.g. using wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P70/00—Climate change mitigation technologies in the production process for final industrial or consumer products
- Y02P70/50—Manufacturing or production processes characterised by the final manufactured product
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Sustainable Development (AREA)
- Sustainable Energy (AREA)
- Chemical & Material Sciences (AREA)
- Combustion & Propulsion (AREA)
- Mechanical Engineering (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于熵权法的风机特征优选方法,涉及风机故障诊断技术领域,该方法包括:提取风机样本的特征属性值,组成特征矩阵Y;获得特征属性对应的正负样本属性值;归一化,获得特征矩阵Y的归一化矩阵Y′;计算所述归一化矩阵Y′各个特征属性的权重B,计算所述特征矩阵Y中各个特征维的权重C;计算特征属性占比值D,其中最大值对应的特征属性集即为最优的特征子集A。本发明技术方案解决了风电行业中提取风机待诊断部件各类信号中的样本特征,以便通过人工智能算法来解决生产中风机出现的问题时,样本特征的区分度和变异度存在受损,影响模型分类的正确率的问题。
Description
技术领域
本发明涉及风机故障诊断技术领域,具体而言,涉及一种基于熵权法的风机特征优选方法,核心思想是利用熵权法确定风机特征子集的搜索策略,通过评价每个特征子集经过机器学习的结果确定最优特征子集,从而实现风机特征的优选。
背景技术
目前风机作为风力发电的重要设备,其正常工作与否直接与人们的日常生活紧密相关,风机上很多大型旋转设备的故障的及时识别,对保证风机的正常运转起着至关重要的作用,风机一旦发生故障,如果不能及时进行维修,就会造成停机的影响,从而会影响发电量,不仅造成经济效益的损失,还会影响人们的正常生活,因此,对风机上的各个旋转设备的故障诊断非常重要。随着人工智能算法在各个行业的渗透,风电行业也渐渐通过它来解决生产过程中风机出现的一些问题,针对其中的风机故障诊断问题,需要先采集风机待诊断部件的声音信号或振动信号,然后采用相关的信号处理算法提取信号中的样本特征,最后按照实际情况选择合适的学习器建立故障诊断的识别模型,其中样本特征的区分度以及变异度将直接影响模型分类的正确率,所以需要对提取的特征进行特征选择,确定最优的特征子集。离散度越大、变异度越高的特征维更有利于样本的分类,而离散度小的特征维属于冗余特征,不利于样本的区分,这对如何更加精准的提取特征值是个考验。
专利CN 109840563 A公开了“一种基于三维隶属函数模糊逻辑系统的风机故障诊断方法”,首先采集实际风机数据集并计算预测风机数据集与差值风机数据集,得到模糊逻辑系统的输入数据;然后采集实际风机训练数据集并计算预测风机训练数据集与差值风机训练数据集,选择训练数据集与基准变量后,建立模糊逻辑系统的三维隶属函数;再建立模糊逻辑系统的规则库与模糊器,将输入数据模糊化为输入集,根据规则前件集计算点火等级,根据规则后件集计算输出集;最后采用取重心法获取清晰输出,并根据清晰输出与阈值的关系判断故障是否发生。此方法存在以下不足之处在于缺乏系统的方法,只有遇到相对简单问题时才是可行的,适用于不需要高精度的问题。
发明内容
本发明旨在公开一种基于熵权法的风机特征优选方法,解决从风机待诊断部件各类信号中提取特征时,样本特征的区分度和变异度存在受损,影响模型分类的正确率的问题。利用熵权法辨识出各特征维的权重,制定特征子集的搜索策略,并采用特征工程中“包裹式”方法对所有的特征子集进行评价,并根据评价结果确定最优的特征子集,从而实现风机特征优选。
本发明提供的技术方案为:
步骤1.根据一特征属性集提取一组风机样本中各风机样本的特征属性值,从一风机样本中所提取的特征属性值组成该风机样本的特征维,全部风机样本的特征维组成该组风机样本的特征矩阵Y;
步骤2.遍历所述特征矩阵Y中各风机样本对应特征维,根据一计算方法,获得各特征维中各个特征属性值对应的正样本属性和负样本属性;
步骤3.根据所述特征矩阵Y中各个特征属性值的正负样本属性值对其进行归一化,以获得所述特征矩阵Y的归一化矩阵Y′;
步骤4.根据所述归一化矩阵Y′,使用熵权法计算所述特征属性集中各个特征属性在该组风机样本的权重B,根据所述特征属性的权重B计算所述特征矩阵Y中各个特征维的权重C;
步骤5.计算所述各个风机样本特征属性在该组风机样本中的占比值D′,并对所述占比值排序,组成占比值集合D,其中所述占比值集合D中最大的占比值D′对应的特征属性集即为最优的特征子集A。
所述采用特征工程中“包裹式”方法,即常见的特征选择方法之一,包装法特征选择方法直接把最终将要使用的学习器的性能作为特征子集的评价准则,因此从模型性能的角度出发,能够发现包装式特征选择的性能要优于过滤式特征选择,但是包装式特征选择的时间开销较大。而过滤式特征选择由于和特定的学习器无关,所以计算开销小,泛化能力强于包装式特征选择。
进一步的,所述步骤1中特征属性集的获得方法包括小波变换法、EMD分解法、梅尔倒谱系数法和时域波形属性特法。
所述信号处理,为了利用信号就要对它进行处理。例如,电信号弱小时,需要对它进行放大;混有噪声时,需要对它进行滤波I当频率不适应于传输时,需要进行调制以及解调;信号遇到失真畸变时,需要对它均衡;当信号类型很多时,需要进行识别等等。与信号有关的理化或数学过程有:信号的发生、信号处理信号的传送、信号的接收、信号的分析(即了解某种信号的特征)、信号的处理(即把某一个信号变为与其相关的另一个信号,例如滤除噪声或干扰,把信号变换成容易分析与识别的形式)、信号的存储、信号的检测与控制等,也可以把这些与信号有关的过程统称为信号处理。在事件变化过程中抽取特征信号,经去干扰、分析、综合、变换和运算等处理,从而得到反映事件变化本质或处理者感兴趣的的信息的过程,其中分模拟信号处理和数字信号处理。削弱信号中的多余内容、滤出混杂的噪声和干扰或者将信号变换成容易处理、传输、分析与识别的形式,以便后续的其它处理。所述数字信号处理涉及三个步骤:(一)模数转换(A/D转换):把模拟信号变成数字信号,是一个对自变量和幅值同时进行离散化的过程,基本的理论保证是采样定理。(二)数字信号处理(DSP):包括变换域分析(如频域变换)、数字滤波、识别、合成等。(三)数模转换(D/A转换):把经过处理的数字信号还原为模拟信号。
所述特征矩阵Y大小为n×k,n为风机各风机样本个数,K为风机样本的特征属性个数,该矩阵包含着设备运行状态的特征信息。
所述所述特征数据矩阵,假设给定了K个各风机样本特征属性,X1,X2,X3……XK,每个各风机样本特征属性由n个组成,,即Xi={Xi1,Xi2,Xi3,......Xin}。假设对各样本属性数据标准化后的值为Yi={Y1,Y2,Y3,......Yn},那么特征数据矩此公式为所述正样本属性专用,或此公式为所述负样本属性专用,其中i={1,2,3,......k},j={1,2,3,......n},min(Xi)为第i个样本属性中最小值,max(Xi)为第i个样本属性中最大值,Xij为第i个样本属性组中的第j个样本属性,即根据原始评分表,对数据进行标准化后可以得到数据标准化表。
进一步的,步骤2特征属性的正负样本属性值的计算方法包括用于处理直观数据的方法一和用于处理抽象数据的方法二。
所述方法一为直观数据判断法,由所述风机样本特征维的数值为输入条件,判断所述风机样本特征矩阵Y特征属性值的大小;如果所述风机样本特征矩阵Y特征属性值的大小正比于所述风机样本特征维的数值,则此特征属性值对应的特征属性为正样本属性,反之为负样本属性。
所述方法二为抽象数据判断方法,将所述风机特征样本进行聚类处理,从不同的团簇中任取Q个特征样本在同一坐标系上画出所述从不同的团簇任取Q个特征样本的折线图,其中从所述团簇中最大团簇抽取的样本为参考样本,则其它所述团簇样本特征维特征属性值大于所述参考样本特征维中特征属性值,则该特征属性值对应的特征属性即为正样本属性,反之为负样本属性。
所述特征维为风机样本中若干个风机样本特征属性的集合,所述聚类处理,即聚类分析是指将物理或抽象对象的集合分组为由类似对象组成的多个类的分析过程。简单地来说,聚类分析就是将一组元数据划分为多个类或簇,同一个簇中的数据具有很大的相似性,而不同簇中的数据具有较大的差异性。聚类与分类是不同的,因为聚类所要求划分的类是未知的,这与机器学习中的无监督学习过程相似。也正因为聚类过程是没有明确方向的,所以不同的聚类方法往往会得到不同的结果。
所述特征子集需要特征选择,是指从已有的M个特征中选择N个特征使得系统的特定样本属性最优化,是从原始特征中选择出一些最有效特征以降低数据集的维度的过程。
所述一定数目的特征子集,针对降序排列的K个特征维,依次选取第1、2、3……第K维组成K特征子集。此处的K为风机样本的特征属性个数。
进一步的,将不同的所述特征子集组成一机器学习模型的训练集,计算所述各个风机样本特征属性在该组风机样本中的占比值D。
进一步的,所述风机样本特征属性在该组风机样本中占比值D由所述机器学习模型计算而得,所述机器学习模型包括输入条件1、输入条件2及输出结果3,其中所述输入条件1为所述特征矩阵Y中各个所述特征维风机样本的权重C,输入条件2为所述特征矩阵Y对应的特征属性值,输出结果3所述风机样本特征属性占比值D,经过所述输入条件1和输入条件2二者的乘积和而得。
进一步的,所述机器学习包括有监督学习和无监督学习两个类型,其中所述有监督学习是从给定的所述风机样本特征属性集中设定一个函数,当新的所述风机样本特征属性值输入时,可以根据所述函数预测计算结果;所述无监督学习是根据所述风机样本间的相似性对所述风机样本集进行聚类,以实现同一类的所述风机样本特征属性值差距最小化,不同类的所述风机样本特征属性值差距最大化。
进一步的,所述无监督学习包括用于概率密度函数估计的直接方法和用于样本间相似性度量的简洁聚类方法;所述直接方法,明确各个所述风机样本特征属性在所述特征属性集的分布参数,再进行分类;所述简洁聚类方法,明确所述风机样本特征属性的参考样本,然后依据所述风机样本特征属性与所述风机样本特征属性的参考样本之间的相似性进行衡量,将所述风机样本及所述风机样本特征属性聚集成不同的类别。
所述乘积和即为运算的一种,即每一个输入条件1对应的数值相乘与对应的每一个输入条件2中对应的数值,之后若干个乘积相加。
本发明技术方案带来的技术效果的一个方面在于,通过本发明方法,更加直观的识别样本特征的区分度以及变异度,进一步提高了模型分类的正确率。
本发明技术方案带来的技术效果的一个方面在于,通过本发明方法,利用最优特征子集搭建模型时可提高模型分类的正确率,降低模型训练的耗时,为特征工程提供一种科学、合理的特征选择方法。
附图说明
图1为本发明公开的一种基于熵权法的风机特征优选方法的流程图;
图2为本发明一个实施例中聚类处理方法中数据变量的描述信息示意图;
图3为本发明一个实施例中聚类处理结果示意图;
图4为本发明一个实施例中聚类处理方法中规范化均值图。
具体实施方式
实施例1
本实施例阐述了采用熵权法优选风机样本特征属性的方式方法,结合实际案例,直观的展示使用过程及注意要点。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明一种基于熵权法的风机特征优选方法的流程图,其步骤包括:
步骤1.S101根据一特征属性集提取一组风机样本中各风机样本的特征属性值,从每一风机样本所提取的特征属性组成该风机样本的特征维,全部风机样本的特征维组成该组风机样本的特征矩阵Y,大小为n×k,n为各风机样本个数,K为各风机样本的特征属性个数,即Y[n×k];
所述特征属性集为K个风机样本特征属性的集合,所述特征维为每一个风机对应的K个风机样本特征属性的集合,而所述n个风机样本的特征维组合成该组风机样本的特征矩阵Y,所述特征矩阵Y中行代表所述风机样本的若干个特征属性的特征属性值所组成的所述特征维;列表示若干个风机样本的属性特征维。
所述各风机样本个数和所述各风机样本的特征属性个数,在此举例说明,比如测试风机样本A、B、C、D、E整体的性能状态,此处A、B、C、D、E仅在此实施例中表示风机样本的编号,而各风机样本特征属性从以下几个维度考虑,即:1.温度、2.转速、3.对中度、4.磨损度。针对上述例子,为了建立风机的分别识别模型,需要采集包含设备状态特征的信号,即1.温度、2.转速、3.对中度、4.磨损度,而设备范围是风机A、B、C、D、E,此处风机A、B、C、D、E为所述风机样本,所述风机样本个数即为风机台数,即5;此处各风机样本特征属性1.温度、2.转速、3.对中度、4.磨损度为所述各风机样本特征属性,各风机样本特征属性的个数即为所述各风机样本的特征属性个数,即4。如果将这个矩阵定义为Y,大小为n×k,n为各风机样本个数,K为各风机样本的特征属性个数其中n=5,K=4。
步骤2.S102遍历所述特征矩阵Y中各风机样本对应特征维,根据一计算方法,获得各特征维中各特征属性值对应的正负样本属性值。
所述各风机样本对应特征维为向量,对于属性具有明确物理意义的特征维,采用直观法直接按照正负样本属性的判断准则判断每个属性的正负情况,对于信号处理后每个特征维并没有实际物理意义的样本而言,采用画图法来判断特征维的正负情况,即采用聚类处理算法(t-SNE)对样本进行可视化处理,从不同的团簇中任取K个特征样本在同一坐标系上画出折线图,坐标系的横坐标为各风机样本特征属性,纵坐标为属性的数据值,定义最大团簇中抽取的样本为参考样本,则其它团簇样本特征维数据大于参考样本即为正属性样本属性,否则为负属性样本属性;
对于判断特征维是否具有明确的物理意义,举例说明,比如:例如一个驻波通过一条绳子,绳子上面的每个点组成一个无穷维的向量,这个向量的特征向量就是特征函数sin(t),因为是时变的,就成了特征函数。每个点特征值就是每个点在特定时刻的sin(x+t)取值。再如,从太空中某个角度看地球自转,虽然每个景物的坐标在不断的变换,但是这种变换关于地球的自传轴有对称性,也就是关于此轴的平移和拉伸的坐标变换不敏感。所以地球自转轴,是地球自转这种空间变换的一个特征向量。
步骤3.S103根据所述特征矩阵Y中各特征属性值的正负样本属性值按所述征维的正负样本属性情况对其进行归一化,获得特征矩阵Y的归一化矩阵Y′。
所述特征数据矩阵,假设给定了K个各风机样本特征属性,X1,X2,X3……XK,每个各风机样本特征属性由n个组成,,即Xi={Xi1,Xi2,Xi3,......Xin}。假设对各样本属性数据标准化后的值为Yi={Y1,Y2,Y3,......Yn},那么特征数据矩此公式为所述正样本属性专用,或此公式为所述负样本属性专用,其中i={1,2,3,......k},j={1,2,3,......n},min(Xi)为第i个样本属性中最小值,max(Xi)为第i个样本属性中最大值,Xij为第i个样本属性组中的第j个样本属性,即根据原始评分表,对数据进行标准化后可以得到数据标准化表,即Y['n×k]。
步骤4.S104使用熵权法计算所述归一化矩阵Y′的各个所述特征属性的权重B,根据所述特征属性的权重B计算所述特征矩阵Y中各个特征维的权重C。
步骤5.S105计算所述各个风机样本特征属性在一组风机样本中的占比值D,并对所述占比值排序,其中最大值对应的特征子集即为最优的特征子集A。设Yl为第l个风机样本在所述一组风机样本中的占比值,其中l=(1,2,3,……n),即An×1。
下面结合具体实施例做进一步阐述:
某公司设备管理部门为了提高现场风机组的预防预见性管理效果,对现场11个风机样本进行了检测,各风机样本的特征属性为9项,检测结果如下表所示:
由于风机样本的特征属性的难易程度不同,因此需要对9项风机样本的特征属性进行赋权,以便能够更加合理的对11个风机整体客观做出评价。
首先,采用熵权法进行赋权,即:数据标准化,假设给定了K个样本属性,每个各风机样本特征属性由n个组成,即Xi={Xi1,Xi2,Xi3,......Xin}。假设对各样本属性数据标准化后的值为Yi={Y1,Y2,Y3,......Yn},那么特征数据矩此公式为所述正样本属性专用,或此公式为所述负样本属性专用,其中i={1,2,3,......k},j={1,2,3,......n},min(Xi)为第i个样本属性中最小值,max(Xi)为第i个样本属性中最大值,Xij为第i个样本属性组中的第j个样本属性,根据原始评分表,对数据进行标准化后可以得到下列数据标准化表:
其次,使用熵权法计算所述归一化矩阵Y'的各个所述特征属性的权重求,即各风机样本特征属性的信息熵,根据信息论中信息熵的定义,一组数据的信息熵其中如果pij=0则定义故,可以计算出9项风机样本的特征属性各自的权重如下:
再次,计算所述各个风机样本特征属性值在一组风机样本中的占比值,并对所述占比值排序,其中最大值对应的特征子集即为最优的特征子集。根据所述特征矩阵Y中各个特征维的权重和所述特征矩阵Y,计算所述各个风机样本特征属性在一组风机样本中的占比值设Yl为第l个风机样本特征属性值在一组风机样本中的占比值,其中l=(1,2,3,……11)则各个风机样本最终结果如下表所示:
其中上述列表中风机样本F占比值最大,其对应的特征子集即为即为最优特征子集。最优特征子集为风机样本F,即风机样本F:
实施例2
本实施例阐述了聚类处理方法在风机领域的实际应用。具体案例如下所述:
对某风机场所有风机进行专业化管理,现场该实施例中涉及抽象数据的样本提取和分析,没有响应变量,故需要采用聚类处理的方法处理向所述样本属性,分析所述样本各自的差异性。本实施例从以下5个维度进行风机的数据获取和分析分组,即指标1、指标2、指标3、指标4以及指标5,且上述各指标为抽象据的样本,在取分析过程中,没有响应变量故需要采用聚类处理的方法处理向所述样本属性,分析所述样本各自的差异性,实现各组所述风机合理化管理。
该案例的数据集是在SAMPSIO库中的DMABASE数据集。下面是数据集中的主要的变量的描述信息,如图2所示:
在这个案例中,设置TEAM,POSITION,LEAGUE,DIVISION和SALARY变量的模型角色为rejected,设置SALARY变量的模型角色为rejected是由于它的信息已经存储在LOGSALAR中。在聚类分析和自组织映射图中是不需要目标变量的。
具体的步骤流程如下所示:
1)建立初始数据流
数据流具体如下:SAMPSIO.DMABASE单向引至Replacement,进一步引致Clustering,最后达到Insight。
2)设置输入数据源结点和替代节点
打开输入数据源结点,从SAMPSIO库中选择DMABASE数据集;
设置NAME变量的模型角色为id,TEAM,POSIOTION,LEAGUE,DIVISION和SALARY变量的模型角色为rejected;
探索变量的分布和描述性统计信息,选择区间变量选项卡,可以观察到只有LOGSALAR和SALARY变量有缺失值。选择类别变量选项卡,可以观察到没有缺失值。在本例中,没有涉及到任何类别变量。
关闭输入数据源结点,并保存信息。
虽然并不是一直要处理缺失值,但是缺失值的数量会影响聚类结点产生的聚类解决方案。为了产生初始聚类,聚类结点往往需要一些完整的观测值。当缺失值太多的时候,需要用替代结点来处理。
所述缺失值,是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。数据挖掘所面对的数据不是特地为某个挖掘目的收集的,所以可能与分析相关的属性并未收集(或某段时间以后才开始收集),这类属性的缺失不能用缺失值的处理方法进行处理,因为它们未提供任何不完全数据的信息,它和缺失某些属性的值存在本质的区别。
4)设置聚类结点
打开聚类结点,激活变量选项卡。K-means聚类对输入数据是敏感的。一般情况下,考虑对数据集进行标准化处理。
在变量选项卡”Variables”,选择标准偏差单选框”Segment Identifier”中的“Variable label”,选中“Cluster ID”;选择聚类选项卡”Number of Clusters”;观察到默认选择聚类数目的方法是自动”Automatic”的;关闭聚类结点。
5)查看聚类结果
在聚类结点处运行流程图,查看聚类结果,如图3所示。
6)限定聚类数目
打开聚类结点-选择聚类选项卡-在聚类数目选择部分,点击选择标准按钮“MAXimum number of clusters”,输入最大聚类数目为10。点击选择按钮“Minimum numberof clusters”输入最小聚类数目为2。点击oK,关闭聚类结点。
7)对于结果进行解释
定义每个类别的信息,结合背景识别每个类型的特征。选择箭头按钮,选择三维聚类图的某一类别,在工具栏选择刷新输入均值图图标,点击该图标,如图4所示,可以查看该类别的规范化均值图,同理,可以根据该方法对其他类别进行解释。
8)运用Insight结点
Insight结点可以用来比较不同属性之间的异常。打开insight结点,选择整个数据集,关闭结点;从insight结点处运行;变量_SEGMNT_标识类别,distance标识观测值到所在类别中心的距离;当运用insight窗口的analyze工具评估和比较聚类结果,首先把_SEGMNT_的度量方式从interval转换成nominal。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的相关说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于熵权法的风机特征优选方法,其特征在于,包括:
步骤1.根据一特征属性集提取一组风机样本中各风机样本的特征属性值,从一风机样本中所提取的特征属性值组成该风机样本的特征维,全部风机样本的特征维组成该组风机样本的特征矩阵Y;
步骤2.遍历所述特征矩阵Y中各风机样本对应特征维,根据一计算方法,获得各特征维中各个特征属性值对应的正样本属性和负样本属性;
步骤3.根据所述特征矩阵Y中各个特征属性值的正负样本属性值对其进行归一化,以获得所述特征矩阵Y的归一化矩阵Y′;
步骤4.根据所述归一化矩阵Y′,使用熵权法计算所述特征属性集中各个特征属性在该组风机样本的权重B,根据所述特征属性的权重B计算所述特征矩阵Y中各个特征维的权重C;
步骤5.计算所述各个风机样本特征属性在该组风机样本中的占比值D′,并对所述占比值排序,组成占比值集合D,其中所述占比值集合D中最大的占比值D′对应的特征属性集即为最优的特征子集A。
2.根据权利要求1所述的一种基于熵权法的风机特征优选方法,其特征在于:所述步骤1中特征属性集的获得方法包括小波变换法、EMD分解法、梅尔倒谱系数法和时域波形属性法。
3.根据权利要求1所述的一种基于熵权法的风机特征优选方法,其特征在于:步骤2特征属性的正负样本属性值的计算方法包括用于处理直观数据的方法一和用于处理抽象数据的方法二。
4.根据权利要求3所述的一种基于熵权法的风机特征优选方法,其特征在于:所述方法一包括步骤:通过所述风机样本特征维的数值判断所述风机样本特征矩阵Y特征属性值的大小;如果所述风机样本特征矩阵Y特征属性值的大小正比于所述风机样本特征维的数值,则此特征属性值对应的特征属性为正样本属性,反之为负样本属性。
5.根据权利要求3所述的一种基于熵权法的风机特征优选方法,其特征在于:所述方法二包括步骤:将所述风机特征样本进行聚类处理,从不同的团簇中任取Q个特征样本在同一坐标系上画出所述从不同的团簇任取Q个特征样本的折线图,其中从所述团簇中最大团簇抽取的样本为参考样本,则其它所述团簇样本特征维特征属性值大于所述参考样本特征维中特征属性值,则该特征属性值对应的特征属性即为正样本属性,反之为负样本属性。
6.根据权利要求1所述的一种基于熵权法的风机特征优选方法,其特征在于:步骤4所述各个特征维的权重C进行降序排列,依次选取一定数目的特征维组成不同数目的特征子集。
7.根据权利要求6所述的一种基于熵权法的风机特征优选方法,其特征在于:将不同的所述特征子集组成一机器学习模型的训练集,计算所述各个风机样本特征属性在该组风机样本中的占比值D。
8.根据权利要求7所述的一种基于熵权法的风机特征优选方法,其特征在于:所述风机样本特征属性在该组风机样本中占比值D由所述机器学习模型计算而得,所述机器学习模型包括输入条件1、输入条件2及输出结果3,其中所述输入条件1为所述特征矩阵Y中各个所述特征维风机样本的权重C,输入条件2为所述特征矩阵Y对应的特征属性值,输出结果3为所述风机样本特征属性占比值D,经过所述输入条件1和输入条件2二者的乘积和而得。
9.根据权利要求7所述的一种基于熵权法的风机特征优选方法,其特征在于:所述机器学习包括有监督学习和无监督学习两个类型,其中所述有监督学习是从给定的所述风机样本特征属性集中设定一个函数,当新的所述风机样本特征属性值输入时,可以根据所述函数预测计算结果;所述无监督学习是根据所述风机样本间的相似性对所述风机样本集进行聚类,以实现同一类的所述风机样本特征属性值差距最小化,不同类的所述风机样本特征属性值差距最大化。
10.根据权利要求9所述的一种基于熵权法的风机特征优选方法,其特征在于:所述无监督学习包括用于概率密度函数估计的直接方法和用于样本间相似性度量的简洁聚类方法;所述直接方法,明确各个所述风机样本特征属性在所述特征属性集的分布参数,再进行分类;所述简洁聚类方法,明确所述风机样本特征属性的参考样本,然后依据所述风机样本特征属性与所述风机样本特征属性的参考样本之间的相似性进行衡量,将所述风机样本及所述风机样本特征属性聚集成不同的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010985156.5A CN112270203A (zh) | 2020-09-18 | 2020-09-18 | 一种基于熵权法的风机特征优选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010985156.5A CN112270203A (zh) | 2020-09-18 | 2020-09-18 | 一种基于熵权法的风机特征优选方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112270203A true CN112270203A (zh) | 2021-01-26 |
Family
ID=74349299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010985156.5A Pending CN112270203A (zh) | 2020-09-18 | 2020-09-18 | 一种基于熵权法的风机特征优选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270203A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114820495A (zh) * | 2022-04-19 | 2022-07-29 | 华能新能源股份有限公司 | 一种基于纹理熵值的风机叶片辨识方法及系统 |
CN116993026A (zh) * | 2023-09-26 | 2023-11-03 | 无锡九方科技有限公司 | 一种大规模风电场机组运行参数优化方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8694303B2 (en) * | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
CN104809447A (zh) * | 2015-05-08 | 2015-07-29 | 上海电机学院 | 一种辐射源个体特征提取方法 |
CN104951588A (zh) * | 2015-03-16 | 2015-09-30 | 中国矿业大学 | 一种矿井通风系统辅助设计方法 |
CN106022359A (zh) * | 2016-05-12 | 2016-10-12 | 武汉理工大学 | 基于有序信息熵的模糊熵空间聚类分析方法 |
-
2020
- 2020-09-18 CN CN202010985156.5A patent/CN112270203A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8694303B2 (en) * | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
CN104951588A (zh) * | 2015-03-16 | 2015-09-30 | 中国矿业大学 | 一种矿井通风系统辅助设计方法 |
CN104809447A (zh) * | 2015-05-08 | 2015-07-29 | 上海电机学院 | 一种辐射源个体特征提取方法 |
CN106022359A (zh) * | 2016-05-12 | 2016-10-12 | 武汉理工大学 | 基于有序信息熵的模糊熵空间聚类分析方法 |
Non-Patent Citations (3)
Title |
---|
匿名: "指标权重确定方法之熵权法", 《HTTPS://BLOG.CSDN.NET/QQ_32942549/ARTICLE/DETAILS/80019005》 * |
张伟宏: "《大型桥梁项目社会稳定风险评估理论方法与实践》", 31 October 2018, 北京:知识产权出版社 * |
赵洪山、张健平、李浪: "基于最优权重和隶属云的风电机组状态模糊综合评估", 《中国电力新能源》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114820495A (zh) * | 2022-04-19 | 2022-07-29 | 华能新能源股份有限公司 | 一种基于纹理熵值的风机叶片辨识方法及系统 |
CN116993026A (zh) * | 2023-09-26 | 2023-11-03 | 无锡九方科技有限公司 | 一种大规模风电场机组运行参数优化方法 |
CN116993026B (zh) * | 2023-09-26 | 2023-12-19 | 无锡九方科技有限公司 | 一种大规模风电场机组运行参数优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111221920B (zh) | 变电设备运维装置的案例库构建方法、装置及计算机存储介质 | |
Jiang et al. | A family of joint sparse PCA algorithms for anomaly localization in network data streams | |
CN112270203A (zh) | 一种基于熵权法的风机特征优选方法 | |
CN114429152A (zh) | 基于动态指数对抗性自适应的滚动轴承故障诊断方法 | |
Lei et al. | Fault diagnosis of rotating machinery based on a new hybrid clustering algorithm | |
Wang et al. | An artificial immune and incremental learning inspired novel framework for performance pattern identification of complex electromechanical systems | |
Saurav et al. | A new method for learning decision tree classifier | |
Syaliman | Enhance the Accuracy of K-Nearest Neighbor (K-Nn) for Unbalanced Class Data Using Synthetic Minority Oversampling Technique (Smote) and Gain Ratio (Gr) | |
Ni et al. | The analysis and research of clustering algorithm based on PCA | |
Parmentier et al. | Autotsc: Optimization algorithm to automatically solve the time series classification problem | |
Yue et al. | Fault detection based on real-value negative selection algorithm of artificial immune system | |
CN214118451U (zh) | 一种基于熵权法的水泵特征优选装置 | |
Wang et al. | An anomaly detection method of industrial data based on stacking integration | |
Du et al. | Unstructured log oriented fault diagnosis for operation and maintenance management | |
CN114285651A (zh) | 一种工控环境下的DDoS攻击检测方法 | |
Ponni et al. | Multi-agent system for data classification from data mining using SVM | |
Huang et al. | Outlier detection method based on improved two-step clustering algorithm and synthetic hypothesis testing | |
CN112422505A (zh) | 基于高维扩展关键特征向量的网络恶意流量识别方法 | |
Budiyanto et al. | The Prediction of Best-Selling Product Using Naïve Bayes Algorithm (A Case Study at PT Putradabo Perkasa) | |
Shen et al. | Machine learning based anomaly detection and diagnosis method of spinning equipment driven by spectrogram data | |
Yang et al. | Prediction of criminal tendency of high-risk personnel based on combination of principal component analysis and support vector machine | |
Wu et al. | Research and simulation of mass random data association rules based on fuzzy cluster analysis | |
CN103440537A (zh) | 基于样本相似性排序建模实时评估系统状态的方法 | |
Chen et al. | Fault diagnosis of uninterruptible power system based on Gaussian mixed model and XGBoost | |
Lu et al. | A modified active learning intelligent fault diagnosis method for rolling bearings with unbalanced samples |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210126 |