CN110119756B

CN110119756B - 一种基于投票法的趋势性数据特征自动选择方法

Info

Publication number: CN110119756B
Application number: CN201910225897.0A
Authority: CN
Inventors: 赵男; 晋文静; 史喆
Original assignee: Beijing Cyberinsight Technology Co ltd
Current assignee: Beijing Cyberinsight Technology Co ltd
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2021-08-10
Anticipated expiration: 2039-03-25
Also published as: CN110119756A

Abstract

本发明公开了一种基于投票法的趋势性数据特征自动选择方法，使用多种方法对特征数值不同方面的性质进行评价及排名，再通过投票法对来源于不同实验、不同评价方法的排名靠前的特征类型进行汇整统计，最终筛选出在已产生的排名列表中出现次数最多的特征类型。本发明为自动化选择预测性特征过程，减少人工需求，解除特征选择的效果对建模人员经验的依赖。本发明所选择特征符合预测性、趋势性、连续性的三种性质。并使用投票法降低因实验随机性带来的效果不确定性。

Description

一种基于投票法的趋势性数据特征自动选择方法

技术领域

本发明涉及机器学习通用趋势预测领域，以及工业预测性维护领域，尤其涉及一种基于投票法的趋势性数据特征自动选择方法。

背景技术

特征工程，就是一种基于行业经验从原始数据中提取出特征用于后续的机器学习算法的过程。特征工程是机器学习过程的最关键的起始环节，会直接影响机器学习的效果。在实际应用中，提取和选择有用的特征非常困难、费时费力、并且需要极强的专家知识，并且通常提取大量的特征，但是并没有考虑特征之间的相关性，如果特征之间存在相互依赖，相关性过高，特征个数越多，则导致“维度灾难”，模型训练时间越长，复杂度越高，甚至出现过拟合现象，反而模型的推广性和复用性差。一般典型的特征工程包括数据清理、特征提取、特征选择等过程。特征选择是从一个给定的特征集合中选取与预测建模问题最相关的特征，筛除所谓的与问题无关的“无效特征”或者“冗余特征”。从而实现：

1.降低或避免过拟合：减少的不相关特征能降低或避免噪声对模型的贡献度，使模型泛化能力更强；

2.提高模型的准确性：减少的错误或者误导的特征将意味着模型的准确性的提高；

3.降低模型训练时间：构造更快，模型训练速度越快；

4.提高模型的可解释性：增强对特征和特征值之间的理解，从而对模型有更好的理解和解释。

在工业预测性维护系统中，特征选择的方法依据业务属性可以分为诊断性和预测性特征选择两种方法。

诊断性特征选择法：

当工业应用中，根据不同的信号提取不同的特征，但是并不是所有的特征都能代表系统的全部特性。换句话说，有些特征并不能区分不同的故障模式，则达不到故障诊断的目的。因此，一个有效的特征选择方法可以提高诊断的准确性。通常，特征选择就是如何选取能更有效地预测模型目标的特征。特征选择的目标就是选择最恰当的特征数量，达到降低特征维度，同时能够有效地容易地实现分类或者诊断的目标。故障诊断的特征选择方式可以分为以下3种：

1.Filter：过滤法，研究每个特征的诊断性，按照其发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。例如Fisher判据等；

2.Wrapper：包装法，通过归纳法，评估每组特征子集的效果评分，每次选择若干特征，或者排除若干特征，逐步迭代；但是这种方法的不足在于其计算速度慢，且需要不断的重复迭代；

3.Embedded：嵌入法，先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征，例如决策树，随机森林等。

预测性特征选择法：

寿命预测模型的关键是找到可以代表复杂系统状态的预测性特征或物理变量(例如磨损程度)，以便生成健康指标，然后推断其值达到某个预设的临界失效阈值，从而估计系统的剩余使用寿命。因复杂系统的状态衰退通常为渐变，预测性特征相应体现为具有趋势性。通常，识别预测性参数/特征需要对特征的人为观察或者工程经验判断，尚未有有效的自动筛选良好特征的机制。

在机器学习趋势预测或工业预测性维护模型建模过程中，一般情况下，提取有效的特征并能够确保建模的准确性，需要丰富的专业知识和大量的时间。现有技术中常见的特征选择办法基本上都是靠经验选择，其缺点是：

1.基本上是建模人员通过人工观察特征值，凭经验手动筛选出可能的特征，当特征种类数量巨大时，会消耗巨大的人力；

2.目前没有一套有效且统一的评判指标，仅能靠每个建模者的经验，最终效果也非常依赖建模者的经验高低程度；

即使有一些预测性特征选择的方法，也没有被广泛应用于工业场景，并无法得到验证。

因此，本领域的技术人员致力于开发一种基于投票法的趋势性数据特征自动选择方法，该方法无需建模人员观察特征值、或仅需少量观察经过筛选的特征值，大幅提升预测性特征选择过程的效率。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是：

1.如何通过自动化选择预测性特征过程，无需建模人员观察特征值、或仅需少量观察经过筛选的特征值进行确认；

2.如何制定统一的预测性特征选择评判标准，使得评判结果不会随着建模者自身经验的不同而变化；

3、如何保证运算效率，杜绝引入因采用本方法造成的建模时间开销。

为实现上述目的，本发明提供了一种基于投票法的趋势性数据特征自动选择方法，具体包括以下步骤：

步骤1、设定全生命周期实验次数n；

步骤2、读入一次全生命周期实验中获取的待筛选特征矩阵；

步骤3、设定排名位数m；

步骤4、获取特征数值与系统状态的相关性排名靠前的特征类型列表；

步骤5、获取特征数值整体趋势性排名靠前的特征类型列表；

步骤6、获取特征数值与系统连续状态变化的相关性排名靠前的特征类型列表；

步骤7、根据所述实验次数n，重复n次步骤2-步骤6；

步骤8、将上述步骤中所得的所有排名列表合并，得到合并列表；

步骤9、选出所述合并列表中出现次数大于3*n/2的特征，及其在原始特征矩阵中的列数索引。

进一步地，步骤4中，所述特征数值与系统状态的相关性具体为，在系统全生命周期的特征矩阵样本空间中，按比例在系统的健康状态时刻，也即样本空间靠前的部分抽取第一样本集；同理，按比例在系统临近失效时刻，也即样本空间靠后的部分抽取第二样本集；使用分类算法或者判据方法对各类型特征与系统良好/失效状态的相关性进行评价和排名。

进一步地，所述分类算法为随机森林分类算法中的特征权重选择法。

进一步地，所述判据方法为，Fisher判据法。

进一步地，步骤5中，所述特征数值整体趋势性具体为，忽略特征数据在局部的上下波动，在全生命周期中，整体上体现出向一个方向发展的势头。

进一步地，用于计算所述特征数值整体趋势性的算法为趋势性(Trendability)指标算法。

进一步地，步骤6中，所述特征数值与系统连续状态变化的相关性具体为，构造一个长度等于全生命周期特征样本个数的自然数列，则该数列中的数值大小表征了系统连续变化的状态，使用统计方法或机器学习回归算法，对各类型特征与系统连续状态变化的相关性进行评价和排名。

进一步地，所述统计方法为皮尔逊相关系数(Pearson correlationcoefficient)方法。

进一步地，所述机器学习回归算法为随机森林回归算法、岭回归(RidgeRegression)算法或套索回归(Lasso regression)算法。

进一步地，步骤8中，所述列表合并为不去重合并。

本发明提供的基于投票法的趋势性数据特征自动选择方法，是一种自动化选择预测性特征过程，无需建模人员观察特征值、或仅需少量观察经过筛选的特征值进行确认。并且是一种统一的预测性特征选择评判标准，不会随着建模者自身经验的不同而变化。不会因为采用本方法而引入额外的建模时间开销，因而保证了运算效率。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的实施流程示意图。

具体实施方式

以下参考说明书附图介绍本发明的优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

如图1所示为本发明提供的一种基于投票法的趋势性数据特征选择方法实施流程示意图。本方法使用多种方法对特征数值不同方面的性质进行评价及排名，再通过投票法对来源于不同实验、不同评价方法的排名靠前的特征类型进行汇整统计，最终筛选出在已产生的排名列表中出现次数最多的特征类型。本实施例具体包括以下步骤：

步骤1、设定全生命周期实验次数n；在本实施例中，n设置为2。

步骤2、读入一次全生命周期实验中获取的待筛选特征矩阵；

步骤3、设定排名位数，也就是排名靠前的特征类型列表长度；在本实施例中，特征类型列表长度设置为5。

步骤4、获取特征数值与系统状态的相关性排名靠前的特征类型列表；本步骤为评估特征数值与系统良好/失效状态的相关性：在系统全生命周期的特征矩阵样本空间中，按比例在系统的健康状态时刻，也即样本空间靠前的部分抽取样本集A。同理，按比例在系统临近失效时刻，也即样本空间靠后的部分抽取样本集B。使用分类算法或者判据方法(包括但不限于随机森林分类算法中的特征权重选择法、Fisher判据法)对各类型特征与系统良好/失效状态的相关性进行评价和排名，截选出排名靠前的特征类型列表记为：排名¹。在本实施例中，排名¹为[‘mean’,kurtosis’,‘harmonics’,‘800-900hz:Energy’,‘rms’]

步骤5、获取特征数值整体趋势性排名靠前的特征类型列表；本步骤为评估特征数值整体的趋势性：趋势性指忽略特征数据在局部的上下波动，在全生命周期中，整体上体现出向一个方向发展的势头，整体上平缓以及出现方向拐点的都不具有趋势性。针对各类型特征，使用趋势性(Trendability)指标算法，计算描述特征数值整体趋势性的，截选出排名靠前的特征类型列表记为排名²。在本实施例中，排名²为[‘median’,‘kurtosis’,‘700-800hz:Energy’,‘800-900hz:Energy’,‘peaktopeak’]

步骤6、获取特征数值与系统连续状态变化的相关性排名靠前的特征类型列表；本步骤为评估特征数值与系统连续状态变化的相关性：构造一个长度等于全生命周期特征样本个数的自然数列，则该数列中的数值大小表征了系统连续变化的状态。使用统计方法或机器学习回归算法，包括但不限于皮尔逊相关系数(Pearson correlation coefficient)方法、随机森林回归算法、岭回归(Ridge Regression)算法或套索回归(Lassoregression)算法，对各类型特征与系统连续状态变化的相关性进行评价和排名，截选出排名靠前的特征类型列表记为：排名³。在本实施例中，排名³为[‘mean’,‘harmonics’,‘kurtosis’,‘peaktopeak’,‘800-900hz:Energy’]

步骤7、根据所述实验次数，重复6次步骤2-步骤6；

步骤8、将上述步骤中所得的所有排名列表合并，得到合并列表；收集多次全生命周期实验所产生的特征矩阵。针对每次实验，使用上述步骤2-步骤6获得三个评价不同数值性质的排名列表，记为：

上标为评价性质的类别，下标为不同的实验计数，n为实验总数。最后将所有排名列表合并(不去重)。本实施例中，得到的合并列表为['mean','kurtosis','harmonics','800-900hz:Energy','rms','median','kurtosis','700-800hz:Energy','800-900hz:Energy','peaktopeak','mean','harmonics','kurtosis','peaktopeak','800-900hz:Energy','mean','kurtosis','harmonics','800-900hz:Energy','rms','median','kurtosis','700-800hz:Energy','800-900hz:Energy','peaktopeak','mean','harmonics','kurtosis','peaktopeak','800-900hz:Energy']

步骤9、选出所述合并列表中出现次数大于3*n/2的特征，及其在原始特征矩阵中的列数索引；本实施例中，最终获得的预测性特征为:‘800-900hz:Energy’,‘kurtosis’,‘mean’,‘peaktopeak’,‘harmonics’.

至此，自动化选取预测性特征过程完成，选取出的特征类型具有与系统良好/失效状态的相关性高、整体的趋势性好、与系统连续状态变化的相关性高，并且在多次实验过程得到复现验证的性质。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于投票法的趋势性数据特征自动选择方法，其特征在于，具体包括以下步骤：

步骤1、设定工业预测性维护系统全生命周期实验次数n；

步骤2、读入一次所述工业预测性维护系统全生命周期实验中获取的待筛选特征矩阵；

步骤3、设定排名位数m；

步骤5、获取特征数值整体趋势性排名靠前的特征类型列表；

步骤7、根据所述实验次数n，重复n次步骤2-步骤6；

步骤9、选出所述合并列表中出现次数大于3*n/2的特征，及其在原始特征矩阵中的列数索引；

所述步骤8中，所述列表合并为不去重合并。

2.如权利要求1所述的基于投票法的趋势性数据特征自动选择方法，其特征在于，步骤4中，所述特征数值与系统状态的相关性具体为，在系统全生命周期的特征矩阵样本空间中，按比例在系统的健康状态时刻，也即样本空间靠前的部分抽取第一样本集；同理，按比例在系统临近失效时刻，也即样本空间靠后的部分抽取第二样本集；使用分类算法或者判据方法对各类型特征与系统良好/失效状态的相关性进行评价和排名。

3.如权利要求2所述的基于投票法的趋势性数据特征自动选择方法，其特征在于，所述分类算法为随机森林分类算法中的特征权重选择法。

4.如权利要求2所述的基于投票法的趋势性数据特征自动选择方法，其特征在于，所述判据方法为，Fisher判据法。

5.如权利要求1所述的基于投票法的趋势性数据特征自动选择方法，其特征在于，步骤5中，所述特征数值整体趋势性具体为，忽略特征数据在局部的上下波动，在全生命周期中，整体上体现出向一个方向发展的势头。

6.如权利要求5所述的基于投票法的趋势性数据特征自动选择方法，其特征在于，用于计算所述特征数值整体趋势性的算法为趋势性(Trendability)指标算法。

7.如权利要求1所述的基于投票法的趋势性数据特征自动选择方法，其特征在于，步骤6中，所述特征数值与系统连续状态变化的相关性具体为，构造一个长度等于全生命周期特征样本个数的自然数列，则该数列中的数值大小表征了系统连续变化的状态，使用统计方法或机器学习回归算法，对各类型特征与系统连续状态变化的相关性进行评价和排名。

8.如权利要求7所述的基于投票法的趋势性数据特征自动选择方法，其特征在于，所述统计方法为皮尔逊相关系数(Pearson correlation coefficient)方法。

9.如权利要求7所述的基于投票法的趋势性数据特征自动选择方法，其特征在于，所述机器学习回归算法为随机森林回归算法、岭回归(Ridge Regression)算法或套索回归(Lasso regression)算法。