CN110119756B - 一种基于投票法的趋势性数据特征自动选择方法 - Google Patents

一种基于投票法的趋势性数据特征自动选择方法 Download PDF

Info

Publication number
CN110119756B
CN110119756B CN201910225897.0A CN201910225897A CN110119756B CN 110119756 B CN110119756 B CN 110119756B CN 201910225897 A CN201910225897 A CN 201910225897A CN 110119756 B CN110119756 B CN 110119756B
Authority
CN
China
Prior art keywords
feature
ranking
trend
algorithm
voting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910225897.0A
Other languages
English (en)
Other versions
CN110119756A (zh
Inventor
赵男
晋文静
史喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cyberinsight Technology Co ltd
Original Assignee
Beijing Cyberinsight Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cyberinsight Technology Co ltd filed Critical Beijing Cyberinsight Technology Co ltd
Priority to CN201910225897.0A priority Critical patent/CN110119756B/zh
Publication of CN110119756A publication Critical patent/CN110119756A/zh
Application granted granted Critical
Publication of CN110119756B publication Critical patent/CN110119756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation

Abstract

本发明公开了一种基于投票法的趋势性数据特征自动选择方法,使用多种方法对特征数值不同方面的性质进行评价及排名,再通过投票法对来源于不同实验、不同评价方法的排名靠前的特征类型进行汇整统计,最终筛选出在已产生的排名列表中出现次数最多的特征类型。本发明为自动化选择预测性特征过程,减少人工需求,解除特征选择的效果对建模人员经验的依赖。本发明所选择特征符合预测性、趋势性、连续性的三种性质。并使用投票法降低因实验随机性带来的效果不确定性。

Description

一种基于投票法的趋势性数据特征自动选择方法
技术领域
本发明涉及机器学习通用趋势预测领域,以及工业预测性维护领域,尤其涉及一种基于投票法的趋势性数据特征自动选择方法。
背景技术
特征工程,就是一种基于行业经验从原始数据中提取出特征用于后续的机器学习算法的过程。特征工程是机器学习过程的最关键的起始环节,会直接影响机器学习的效果。在实际应用中,提取和选择有用的特征非常困难、费时费力、并且需要极强的专家知识,并且通常提取大量的特征,但是并没有考虑特征之间的相关性,如果特征之间存在相互依赖,相关性过高,特征个数越多,则导致“维度灾难”,模型训练时间越长,复杂度越高,甚至出现过拟合现象,反而模型的推广性和复用性差。一般典型的特征工程包括数据清理、特征提取、特征选择等过程。特征选择是从一个给定的特征集合中选取与预测建模问题最相关的特征,筛除所谓的与问题无关的“无效特征”或者“冗余特征”。从而实现:
1.降低或避免过拟合:减少的不相关特征能降低或避免噪声对模型的贡献度,使模型泛化能力更强;
2.提高模型的准确性:减少的错误或者误导的特征将意味着模型的准确性的提高;
3.降低模型训练时间:构造更快,模型训练速度越快;
4.提高模型的可解释性:增强对特征和特征值之间的理解,从而对模型有更好的理解和解释。
在工业预测性维护系统中,特征选择的方法依据业务属性可以分为诊断性和预测性特征选择两种方法。
诊断性特征选择法:
当工业应用中,根据不同的信号提取不同的特征,但是并不是所有的特征都能代表系统的全部特性。换句话说,有些特征并不能区分不同的故障模式,则达不到故障诊断的目的。因此,一个有效的特征选择方法可以提高诊断的准确性。通常,特征选择就是如何选取能更有效地预测模型目标的特征。特征选择的目标就是选择最恰当的特征数量,达到降低特征维度,同时能够有效地容易地实现分类或者诊断的目标。故障诊断的特征选择方式可以分为以下3种:
1.Filter:过滤法,研究每个特征的诊断性,按照其发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。例如Fisher判据等;
2.Wrapper:包装法,通过归纳法,评估每组特征子集的效果评分,每次选择若干特征,或者排除若干特征,逐步迭代;但是这种方法的不足在于其计算速度慢,且需要不断的重复迭代;
3.Embedded:嵌入法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征,例如决策树,随机森林等。
预测性特征选择法:
寿命预测模型的关键是找到可以代表复杂系统状态的预测性特征或物理变量(例如磨损程度),以便生成健康指标,然后推断其值达到某个预设的临界失效阈值,从而估计系统的剩余使用寿命。因复杂系统的状态衰退通常为渐变,预测性特征相应体现为具有趋势性。通常,识别预测性参数/特征需要对特征的人为观察或者工程经验判断,尚未有有效的自动筛选良好特征的机制。
在机器学习趋势预测或工业预测性维护模型建模过程中,一般情况下,提取有效的特征并能够确保建模的准确性,需要丰富的专业知识和大量的时间。现有技术中常见的特征选择办法基本上都是靠经验选择,其缺点是:
1.基本上是建模人员通过人工观察特征值,凭经验手动筛选出可能的特征,当特征种类数量巨大时,会消耗巨大的人力;
2.目前没有一套有效且统一的评判指标,仅能靠每个建模者的经验,最终效果也非常依赖建模者的经验高低程度;
即使有一些预测性特征选择的方法,也没有被广泛应用于工业场景,并无法得到验证。
因此,本领域的技术人员致力于开发一种基于投票法的趋势性数据特征自动选择方法,该方法无需建模人员观察特征值、或仅需少量观察经过筛选的特征值,大幅提升预测性特征选择过程的效率。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是:
1.如何通过自动化选择预测性特征过程,无需建模人员观察特征值、或仅需少量观察经过筛选的特征值进行确认;
2.如何制定统一的预测性特征选择评判标准,使得评判结果不会随着建模者自身经验的不同而变化;
3、如何保证运算效率,杜绝引入因采用本方法造成的建模时间开销。
为实现上述目的,本发明提供了一种基于投票法的趋势性数据特征自动选择方法,具体包括以下步骤:
步骤1、设定全生命周期实验次数n;
步骤2、读入一次全生命周期实验中获取的待筛选特征矩阵;
步骤3、设定排名位数m;
步骤4、获取特征数值与系统状态的相关性排名靠前的特征类型列表;
步骤5、获取特征数值整体趋势性排名靠前的特征类型列表;
步骤6、获取特征数值与系统连续状态变化的相关性排名靠前的特征类型列表;
步骤7、根据所述实验次数n,重复n次步骤2-步骤6;
步骤8、将上述步骤中所得的所有排名列表合并,得到合并列表;
步骤9、选出所述合并列表中出现次数大于3*n/2的特征,及其在原始特征矩阵中的列数索引。
进一步地,步骤4中,所述特征数值与系统状态的相关性具体为,在系统全生命周期的特征矩阵样本空间中,按比例在系统的健康状态时刻,也即样本空间靠前的部分抽取第一样本集;同理,按比例在系统临近失效时刻,也即样本空间靠后的部分抽取第二样本集;使用分类算法或者判据方法对各类型特征与系统良好/失效状态的相关性进行评价和排名。
进一步地,所述分类算法为随机森林分类算法中的特征权重选择法。
进一步地,所述判据方法为,Fisher判据法。
进一步地,步骤5中,所述特征数值整体趋势性具体为,忽略特征数据在局部的上下波动,在全生命周期中,整体上体现出向一个方向发展的势头。
进一步地,用于计算所述特征数值整体趋势性的算法为趋势性(Trendability)指标算法。
进一步地,步骤6中,所述特征数值与系统连续状态变化的相关性具体为,构造一个长度等于全生命周期特征样本个数的自然数列,则该数列中的数值大小表征了系统连续变化的状态,使用统计方法或机器学习回归算法,对各类型特征与系统连续状态变化的相关性进行评价和排名。
进一步地,所述统计方法为皮尔逊相关系数(Pearson correlationcoefficient)方法。
进一步地,所述机器学习回归算法为随机森林回归算法、岭回归(RidgeRegression)算法或套索回归(Lasso regression)算法。
进一步地,步骤8中,所述列表合并为不去重合并。
本发明提供的基于投票法的趋势性数据特征自动选择方法,是一种自动化选择预测性特征过程,无需建模人员观察特征值、或仅需少量观察经过筛选的特征值进行确认。并且是一种统一的预测性特征选择评判标准,不会随着建模者自身经验的不同而变化。不会因为采用本方法而引入额外的建模时间开销,因而保证了运算效率。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的实施流程示意图。
具体实施方式
以下参考说明书附图介绍本发明的优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
如图1所示为本发明提供的一种基于投票法的趋势性数据特征选择方法实施流程示意图。本方法使用多种方法对特征数值不同方面的性质进行评价及排名,再通过投票法对来源于不同实验、不同评价方法的排名靠前的特征类型进行汇整统计,最终筛选出在已产生的排名列表中出现次数最多的特征类型。本实施例具体包括以下步骤:
步骤1、设定全生命周期实验次数n;在本实施例中,n设置为2。
步骤2、读入一次全生命周期实验中获取的待筛选特征矩阵;
步骤3、设定排名位数,也就是排名靠前的特征类型列表长度;在本实施例中,特征类型列表长度设置为5。
步骤4、获取特征数值与系统状态的相关性排名靠前的特征类型列表;本步骤为评估特征数值与系统良好/失效状态的相关性:在系统全生命周期的特征矩阵样本空间中,按比例在系统的健康状态时刻,也即样本空间靠前的部分抽取样本集A。同理,按比例在系统临近失效时刻,也即样本空间靠后的部分抽取样本集B。使用分类算法或者判据方法(包括但不限于随机森林分类算法中的特征权重选择法、Fisher判据法)对各类型特征与系统良好/失效状态的相关性进行评价和排名,截选出排名靠前的特征类型列表记为:排名1。在本实施例中,排名1为[‘mean’,kurtosis’,‘harmonics’,‘800-900hz:Energy’,‘rms’]
步骤5、获取特征数值整体趋势性排名靠前的特征类型列表;本步骤为评估特征数值整体的趋势性:趋势性指忽略特征数据在局部的上下波动,在全生命周期中,整体上体现出向一个方向发展的势头,整体上平缓以及出现方向拐点的都不具有趋势性。针对各类型特征,使用趋势性(Trendability)指标算法,计算描述特征数值整体趋势性的,截选出排名靠前的特征类型列表记为排名2。在本实施例中,排名2为[‘median’,‘kurtosis’,‘700-800hz:Energy’,‘800-900hz:Energy’,‘peaktopeak’]
步骤6、获取特征数值与系统连续状态变化的相关性排名靠前的特征类型列表;本步骤为评估特征数值与系统连续状态变化的相关性:构造一个长度等于全生命周期特征样本个数的自然数列,则该数列中的数值大小表征了系统连续变化的状态。使用统计方法或机器学习回归算法,包括但不限于皮尔逊相关系数(Pearson correlation coefficient)方法、随机森林回归算法、岭回归(Ridge Regression)算法或套索回归(Lassoregression)算法,对各类型特征与系统连续状态变化的相关性进行评价和排名,截选出排名靠前的特征类型列表记为:排名3。在本实施例中,排名3为[‘mean’,‘harmonics’,‘kurtosis’,‘peaktopeak’,‘800-900hz:Energy’]
步骤7、根据所述实验次数,重复6次步骤2-步骤6;
步骤8、将上述步骤中所得的所有排名列表合并,得到合并列表;收集多次全生命周期实验所产生的特征矩阵。针对每次实验,使用上述步骤2-步骤6获得三个评价不同数值性质的排名列表,记为:
Figure BDA0002005168420000051
Figure BDA0002005168420000052
上标为评价性质的类别,下标为不同的实验计数,n为实验总数。最后将所有排名列表合并(不去重)。本实施例中,得到的合并列表为['mean','kurtosis','harmonics','800-900hz:Energy','rms','median','kurtosis','700-800hz:Energy','800-900hz:Energy','peaktopeak','mean','harmonics','kurtosis','peaktopeak','800-900hz:Energy','mean','kurtosis','harmonics','800-900hz:Energy','rms','median','kurtosis','700-800hz:Energy','800-900hz:Energy','peaktopeak','mean','harmonics','kurtosis','peaktopeak','800-900hz:Energy']
步骤9、选出所述合并列表中出现次数大于3*n/2的特征,及其在原始特征矩阵中的列数索引;本实施例中,最终获得的预测性特征为:‘800-900hz:Energy’,‘kurtosis’,‘mean’,‘peaktopeak’,‘harmonics’.
至此,自动化选取预测性特征过程完成,选取出的特征类型具有与系统良好/失效状态的相关性高、整体的趋势性好、与系统连续状态变化的相关性高,并且在多次实验过程得到复现验证的性质。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (9)

1.一种基于投票法的趋势性数据特征自动选择方法,其特征在于,具体包括以下步骤:
步骤1、设定工业预测性维护系统全生命周期实验次数n;
步骤2、读入一次所述工业预测性维护系统全生命周期实验中获取的待筛选特征矩阵;
步骤3、设定排名位数m;
步骤4、获取特征数值与系统状态的相关性排名靠前的特征类型列表;
步骤5、获取特征数值整体趋势性排名靠前的特征类型列表;
步骤6、获取特征数值与系统连续状态变化的相关性排名靠前的特征类型列表;
步骤7、根据所述实验次数n,重复n次步骤2-步骤6;
步骤8、将上述步骤中所得的所有排名列表合并,得到合并列表;
步骤9、选出所述合并列表中出现次数大于3*n/2的特征,及其在原始特征矩阵中的列数索引;
所述步骤8中,所述列表合并为不去重合并。
2.如权利要求1所述的基于投票法的趋势性数据特征自动选择方法,其特征在于,步骤4中,所述特征数值与系统状态的相关性具体为,在系统全生命周期的特征矩阵样本空间中,按比例在系统的健康状态时刻,也即样本空间靠前的部分抽取第一样本集;同理,按比例在系统临近失效时刻,也即样本空间靠后的部分抽取第二样本集;使用分类算法或者判据方法对各类型特征与系统良好/失效状态的相关性进行评价和排名。
3.如权利要求2所述的基于投票法的趋势性数据特征自动选择方法,其特征在于,所述分类算法为随机森林分类算法中的特征权重选择法。
4.如权利要求2所述的基于投票法的趋势性数据特征自动选择方法,其特征在于,所述判据方法为,Fisher判据法。
5.如权利要求1所述的基于投票法的趋势性数据特征自动选择方法,其特征在于,步骤5中,所述特征数值整体趋势性具体为,忽略特征数据在局部的上下波动,在全生命周期中,整体上体现出向一个方向发展的势头。
6.如权利要求5所述的基于投票法的趋势性数据特征自动选择方法,其特征在于,用于计算所述特征数值整体趋势性的算法为趋势性(Trendability)指标算法。
7.如权利要求1所述的基于投票法的趋势性数据特征自动选择方法,其特征在于,步骤6中,所述特征数值与系统连续状态变化的相关性具体为,构造一个长度等于全生命周期特征样本个数的自然数列,则该数列中的数值大小表征了系统连续变化的状态,使用统计方法或机器学习回归算法,对各类型特征与系统连续状态变化的相关性进行评价和排名。
8.如权利要求7所述的基于投票法的趋势性数据特征自动选择方法,其特征在于,所述统计方法为皮尔逊相关系数(Pearson correlation coefficient)方法。
9.如权利要求7所述的基于投票法的趋势性数据特征自动选择方法,其特征在于,所述机器学习回归算法为随机森林回归算法、岭回归(Ridge Regression)算法或套索回归(Lasso regression)算法。
CN201910225897.0A 2019-03-25 2019-03-25 一种基于投票法的趋势性数据特征自动选择方法 Active CN110119756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910225897.0A CN110119756B (zh) 2019-03-25 2019-03-25 一种基于投票法的趋势性数据特征自动选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910225897.0A CN110119756B (zh) 2019-03-25 2019-03-25 一种基于投票法的趋势性数据特征自动选择方法

Publications (2)

Publication Number Publication Date
CN110119756A CN110119756A (zh) 2019-08-13
CN110119756B true CN110119756B (zh) 2021-08-10

Family

ID=67520562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910225897.0A Active CN110119756B (zh) 2019-03-25 2019-03-25 一种基于投票法的趋势性数据特征自动选择方法

Country Status (1)

Country Link
CN (1) CN110119756B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110488161B (zh) * 2019-07-23 2022-03-04 南京航空航天大学 一种多负载串联电弧故障检测及定位方法
CN112016800B (zh) * 2020-07-17 2024-03-08 北京天泽智云科技有限公司 一种基于有效性指标的特征选择方法与系统
CN112434032B (zh) * 2020-11-17 2024-04-05 北京融七牛信息技术有限公司 一种自动特征生成系统和方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102606557A (zh) * 2012-01-16 2012-07-25 北京航空航天大学 一种基于故障观测器与som的液压系统健康评估方法
CN103488790A (zh) * 2013-10-08 2014-01-01 河海大学 基于加权borda计数法的多元时间序列相似分析方法
US20140089302A1 (en) * 2009-09-30 2014-03-27 Gennady LAPIR Method and system for extraction
CN103778280A (zh) * 2014-01-08 2014-05-07 上海交通大学 具有模型主动更新策略的锂离子电池剩余寿命预测方法
CN106326906A (zh) * 2015-06-17 2017-01-11 姚丽娜 活动识别方法和装置
CN106448168A (zh) * 2016-11-24 2017-02-22 中山大学 基于趋势性指标及波动性指标的交通事件自动检测方法
CN107193804A (zh) * 2017-06-02 2017-09-22 河海大学 一种面向词和组合词的垃圾短信文本特征选择方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050556B (zh) * 2014-05-27 2017-06-16 哈尔滨理工大学 一种垃圾邮件的特征选择方法及其检测方法
CN105631919B (zh) * 2015-07-09 2019-01-29 腾讯科技(深圳)有限公司 一种数据处理方法和装置
CN109117869B (zh) * 2018-07-20 2021-09-17 汉纳森(厦门)数据股份有限公司 用户画像方法、介质及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140089302A1 (en) * 2009-09-30 2014-03-27 Gennady LAPIR Method and system for extraction
CN102606557A (zh) * 2012-01-16 2012-07-25 北京航空航天大学 一种基于故障观测器与som的液压系统健康评估方法
CN103488790A (zh) * 2013-10-08 2014-01-01 河海大学 基于加权borda计数法的多元时间序列相似分析方法
CN103778280A (zh) * 2014-01-08 2014-05-07 上海交通大学 具有模型主动更新策略的锂离子电池剩余寿命预测方法
CN106326906A (zh) * 2015-06-17 2017-01-11 姚丽娜 活动识别方法和装置
CN106448168A (zh) * 2016-11-24 2017-02-22 中山大学 基于趋势性指标及波动性指标的交通事件自动检测方法
CN107193804A (zh) * 2017-06-02 2017-09-22 河海大学 一种面向词和组合词的垃圾短信文本特征选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
网络流量特征选择方法中的分治投票策略研究;高文 等;《电子学报》;20150430;第795-799页 *
面向医学数据的随机森林特征选择及分类方法研究;姚登举;《中国博士学位论文全文数据库 信息科技辑》;20171215;I138-28 *

Also Published As

Publication number Publication date
CN110119756A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
CN110119756B (zh) 一种基于投票法的趋势性数据特征自动选择方法
CN112508243B (zh) 电力信息系统多故障预测网络模型的训练方法及装置
WO2021139279A1 (zh) 基于分类模型的数据处理方法、装置、电子设备及介质
CN103336906A (zh) 环境传感器的采集数据流中连续异常检测的抽样gpr方法
KR20180072167A (ko) 유사특허 추출 시스템 및 그 방법
Bartkowiak et al. Dimensionality reduction via variables selection–Linear and nonlinear approaches with application to vibration-based condition monitoring of planetary gearbox
CN103020643A (zh) 基于提取核特征早期预测多变量时间序列类别的分类方法
CN115587543A (zh) 基于联邦学习和lstm的刀具剩余寿命预测方法及系统
CN115795351A (zh) 一种基于残差网络和2d特征表示的电梯大数据风险预警方法
CN109035025A (zh) 评价股票评论可靠性的方法和装置
CN106846170B (zh) 一种发电机组跳闸监测方法及其监测装置
CN116502155B (zh) 一种用于数控电动螺旋压力机的安全监管系统
CN117171157A (zh) 基于数据分析的清算数据采集清洗方法
CN110874601B (zh) 识别设备运行状态的方法、状态识别模型训练方法及装置
CN116701846A (zh) 一种基于无监督学习的水电站调度运行数据清洗方法
CN115146675B (zh) 一种深度多特征动态对抗的变工况下旋转机械迁移诊断方法
KR20210126378A (ko) 슬라이딩 윈도우 기법을 이용한 제조설비의 실시간 다변량 이상감지 시스템
CN116379360A (zh) 一种基于知识迁移的掺氢天然气管道损伤预测方法及系统
CN116307765A (zh) 一种人工智能政务数据评审方法及系统
Garg et al. Predicting uncertain behavior and performance analysis of the pulping system in a paper industry using PSO and Fuzzy methodology
CN115619539A (zh) 贷前风险评价方法以及装置
CN111353160B (zh) 软件漏洞异常智能检测系统及方法
Yuan et al. Deep learning approach to multiple features sequence analysis in predictive maintenance
CN116523172A (zh) 基于跨指标的多维度根本原因分析
CN113537759A (zh) 一种基于权重自适应的用户体验度量模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant