CN112464154A - 一种基于无监督学习的自动筛选有效特征的方法 - Google Patents
一种基于无监督学习的自动筛选有效特征的方法 Download PDFInfo
- Publication number
- CN112464154A CN112464154A CN202011353569.8A CN202011353569A CN112464154A CN 112464154 A CN112464154 A CN 112464154A CN 202011353569 A CN202011353569 A CN 202011353569A CN 112464154 A CN112464154 A CN 112464154A
- Authority
- CN
- China
- Prior art keywords
- data set
- feature
- principal component
- features
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000012216 screening Methods 0.000 title claims abstract description 15
- 238000000513 principal component analysis Methods 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000011946 reduction process Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Optimization (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于无监督学习的自动筛选有效特征的方法,包括数据集构建;设定阈值ε,对数据集进行PCA降维,选择尽可能小的主成分数量K;依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行PCA降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,自动筛选数据集的有效特征。本发明通过对原数据特征进行降维,不生成新特征,即降维的同时保留原特征的实际含义,帮助工程师从大量的数据特征中筛选有效特征,进而有助于人工进行数据分析。
Description
技术领域
本发明涉及一种基于无监督学习的自动筛选有效特征的方法,属于人工智能、数据清洗、数据降维领域。
背景技术
在诸多业务场景中,都存在着工程师根据大量的特征数据进行结果分析和判断的过程,而对于缺乏经验的工程师来说,他们无法判断哪些特征是有用的,哪些是可以忽略的。例如在故障分析中,工程师利用频域的幅值分析机器是否运转异常时,都是根据基频、倍频等频率的幅值是否异常来判断机器是否故障。因此,如何快速为工程师提供精确、有效、直接的特征,对于人工进行数据分析的效率和准确率起到了重要的作用。
当工程师面对大量的特征数据时,一般先采用PCA算法对数据进行降维,再对数据进行分析。然而PCA的降维过程是由维度多的原数据特征生成维度少的新数据特征。由于新数据特征对工程师来说无实际物理意义,这给工程师根据特征进行数据分析的方式造成了很大的困难。
发明内容
本发明要解决的技术问题是:提供一种基于无监督学习的自动筛选有效特征的方法,帮助工程师从大量的数据特征中筛选有效特征,进而有助于人工进行数据分析。
为了解决上述问题,本发明的技术方案是提供了一种基于无监督学习的自动筛选有效特征的方法,其特征在于,包括如下步骤:
步骤1、数据集构建:对原始数据集进行频域特征和时域特征的提取,形成特征数据集X,其中样本有m个,维度为n维;
步骤2、设定阈值ε,对数据集X进行PCA降维,选择尽可能小的主成分数量K;
步骤3、依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行PCA降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;
若t小于K,则原始数据集的这个特征不可被移除;
若t等于K,则该特征被移除后不影响原始数据集降维的主成分数量,可得出该特征可被移除,并将其从原数据集中移除,再进行第二个特征的判断;
步骤4、自动筛选数据集的有效特征:重复步骤2、3,依次对每个特征进行移除,并通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,最终保留的特征即是筛选出的有效特征。
优选地,所述PCA降维过程具体包括:
步骤S3、计算协方差矩阵∑的特征值Sii和特征向量Ui,由特征向量Ui构成特征向量矩阵U,通过公式zi=UT·xi计算出降维压缩后的新特征向量,其中,xi是原始特征向量,zi是降维后的特征向量;在降维压缩后,通过公式近似地还原原有特征。
与现有技术相比,本发明的有益效果是:
本发明通过对原数据特征进行降维,不生成新特征,即降维的同时保留原特征的实际含义,帮助工程师从大量的数据特征中筛选有效特征,进而有助于人工进行数据分析。
附图说明
图1为一种基于无监督学习的自动筛选有效特征的方法流程图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
如图1所示,本发明一种基于无监督学习的自动筛选有效特征的方法包括如下步骤:
步骤1、数据集构建:对原始数据集进行频域特征和时域特征的提取,形成特征数据集X,其中样本有m个,维度为n维;
步骤2、设定阈值ε,对数据集X进行PCA降维,选择尽可能小的主成分数量K;
由于PCA降维算法并非本发明的创新内容,因此不再赘述,本发明仅列出相关步骤,具体推导过程请参考PCA实现原理。
III)计算协方差矩阵∑的特征值Sii和特征向量Ui。由特征向量Ui构成特征向量矩阵U。可通过公式zi=UT·xi计算出降维压缩后的新特征向量,其中,xi是原始特征向量,zi是降维后的特征向量。同样地,在降维压缩后,可通过公式近似地还原原有特征。
在进行PCA降维的过程中,使得平均均方误差与数据集的方差比例尽可能小的情况下,选择尽可能小的主成分数量,即K值。设定阈值ε(以1%为例,意味着原数据集中偏差有99%被保留下来),由于数据样本长度不完全相同,因此需要对小于设定样本长度的样本进行填充处理,通过设置空标记来实现。
数据集可降维的充要条件是数据集中各个特征之间存在某种数据相关性。由此,令K=1,然后计算上式比例是否小于ε,如果不小于则令K=2,以此类推,直到找到使得比例小于ε的最小值K。
步骤3、依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行PCA降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;
若t小于K,则原始数据集的这个特征不可被移除;
若t等于K,则该特征被移除后不影响原始数据集降维的主成分数量,可得出该特征可被移除,并将其从原数据集中移除,再进行第二个特征的判断;
步骤4、自动筛选数据集的有效特征:重复步骤2、3,依次对每个特征进行移除,并通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,最终保留的特征即是筛选出的有效特征。且这些特征保留了原数据集的表示含义,有利于将其作为工程师进行数据分析判断的依据。
Claims (3)
1.一种基于无监督学习的自动筛选有效特征的方法,其特征在于,包括如下步骤:
步骤1、数据集构建:对原始数据集进行频域特征和时域特征的提取,形成特征数据集X,其中样本有m个,维度为n维;
步骤2、设定阈值ε,对数据集X进行PCA降维,选择尽可能小的主成分数量K;
步骤3、依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行PCA降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;
若t小于K,则原始数据集的这个特征不可被移除;
若t等于K,则该特征被移除后不影响原始数据集降维的主成分数量,可得出该特征可被移除,并将其从原数据集中移除,再进行第二个特征的判断;
步骤4、自动筛选数据集的有效特征:重复步骤2、3,依次对每个特征进行移除,并通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,最终保留的特征即是筛选出的有效特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011353569.8A CN112464154B (zh) | 2020-11-27 | 2020-11-27 | 一种基于无监督学习的自动筛选有效特征的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011353569.8A CN112464154B (zh) | 2020-11-27 | 2020-11-27 | 一种基于无监督学习的自动筛选有效特征的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112464154A true CN112464154A (zh) | 2021-03-09 |
CN112464154B CN112464154B (zh) | 2024-03-01 |
Family
ID=74808927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011353569.8A Active CN112464154B (zh) | 2020-11-27 | 2020-11-27 | 一种基于无监督学习的自动筛选有效特征的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464154B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553630A (zh) * | 2021-06-15 | 2021-10-26 | 西安电子科技大学 | 基于无监督学习的硬件木马检测系统和信息数据处理方法 |
CN113903059A (zh) * | 2021-12-13 | 2022-01-07 | 中汽信息科技(天津)有限公司 | 人体模型建立方法、设备和存储介质 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0437702A2 (en) * | 1989-11-21 | 1991-07-24 | Fujitsu Limited | Semiconductor integrated circuit of compound semiconductor devices comprising isolation regions and method of making the same |
KR20100001177A (ko) * | 2008-06-26 | 2010-01-06 | 주식회사 비츠로시스 | 주성분 분석을 이용한 유전자 선택 알고리즘 |
CN104899358A (zh) * | 2015-05-13 | 2015-09-09 | 山东科技大学 | 奥灰岩溶裂隙水网络横向分布的预测方法 |
CN106056149A (zh) * | 2016-05-27 | 2016-10-26 | 大连楼兰科技股份有限公司 | 基于人工智能无监督学习主成分分析方法建立不同车型分工况远程定损系统及方法 |
US9516039B1 (en) * | 2013-11-12 | 2016-12-06 | EMC IP Holding Company LLC | Behavioral detection of suspicious host activities in an enterprise |
CN106407363A (zh) * | 2016-09-08 | 2017-02-15 | 电子科技大学 | 一种基于信息熵的超高维数据降维算法 |
CN107273917A (zh) * | 2017-05-26 | 2017-10-20 | 电子科技大学 | 一种基于并行化主成分分析算法的数据降维方法 |
CN107358006A (zh) * | 2017-07-25 | 2017-11-17 | 华北电力大学(保定) | 一种基于主成分分析的Lorenz扰动风速预测方法 |
US20180157161A1 (en) * | 2016-12-01 | 2018-06-07 | Lam Research Corporation | Design layout pattern proximity correction through fast edge placement error prediction |
CN109344517A (zh) * | 2018-10-14 | 2019-02-15 | 毛述春 | 一种新能源汽车的高压绝缘故障诊断方法 |
US20190189243A1 (en) * | 2017-12-20 | 2019-06-20 | George Mason University | Mining All Atom Simulations for Diagnosing and Treating Disease |
CN109933539A (zh) * | 2019-04-15 | 2019-06-25 | 燕山大学 | 一种基于主成分分析和组合采样的软件缺陷预测方法 |
CN110334546A (zh) * | 2019-07-08 | 2019-10-15 | 辽宁工业大学 | 基于主成分分析优化的差分隐私高维数据发布保护方法 |
CN110516818A (zh) * | 2019-05-13 | 2019-11-29 | 南京江行联加智能科技有限公司 | 一种基于集成学习技术的高维度数据预测方法 |
CN110647911A (zh) * | 2019-08-13 | 2020-01-03 | 南京航空航天大学 | 一种基于主成分分析和深度信念网络的轴承故障诊断方法 |
CN110825068A (zh) * | 2019-09-29 | 2020-02-21 | 惠州蓄能发电有限公司 | 一种基于pca-cnn的工业控制系统异常检测方法 |
CN111709181A (zh) * | 2020-05-06 | 2020-09-25 | 东华大学 | 基于主成分分析的涤纶长丝工业生产流程故障预测方法 |
KR20200125031A (ko) * | 2019-04-25 | 2020-11-04 | 한국전자통신연구원 | 데이터 차원 축소 방법 및 장치 |
-
2020
- 2020-11-27 CN CN202011353569.8A patent/CN112464154B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0437702A2 (en) * | 1989-11-21 | 1991-07-24 | Fujitsu Limited | Semiconductor integrated circuit of compound semiconductor devices comprising isolation regions and method of making the same |
KR20100001177A (ko) * | 2008-06-26 | 2010-01-06 | 주식회사 비츠로시스 | 주성분 분석을 이용한 유전자 선택 알고리즘 |
US9516039B1 (en) * | 2013-11-12 | 2016-12-06 | EMC IP Holding Company LLC | Behavioral detection of suspicious host activities in an enterprise |
CN104899358A (zh) * | 2015-05-13 | 2015-09-09 | 山东科技大学 | 奥灰岩溶裂隙水网络横向分布的预测方法 |
CN106056149A (zh) * | 2016-05-27 | 2016-10-26 | 大连楼兰科技股份有限公司 | 基于人工智能无监督学习主成分分析方法建立不同车型分工况远程定损系统及方法 |
CN106407363A (zh) * | 2016-09-08 | 2017-02-15 | 电子科技大学 | 一种基于信息熵的超高维数据降维算法 |
US20180157161A1 (en) * | 2016-12-01 | 2018-06-07 | Lam Research Corporation | Design layout pattern proximity correction through fast edge placement error prediction |
CN107273917A (zh) * | 2017-05-26 | 2017-10-20 | 电子科技大学 | 一种基于并行化主成分分析算法的数据降维方法 |
CN107358006A (zh) * | 2017-07-25 | 2017-11-17 | 华北电力大学(保定) | 一种基于主成分分析的Lorenz扰动风速预测方法 |
US20190189243A1 (en) * | 2017-12-20 | 2019-06-20 | George Mason University | Mining All Atom Simulations for Diagnosing and Treating Disease |
CN109344517A (zh) * | 2018-10-14 | 2019-02-15 | 毛述春 | 一种新能源汽车的高压绝缘故障诊断方法 |
CN109933539A (zh) * | 2019-04-15 | 2019-06-25 | 燕山大学 | 一种基于主成分分析和组合采样的软件缺陷预测方法 |
KR20200125031A (ko) * | 2019-04-25 | 2020-11-04 | 한국전자통신연구원 | 데이터 차원 축소 방법 및 장치 |
CN110516818A (zh) * | 2019-05-13 | 2019-11-29 | 南京江行联加智能科技有限公司 | 一种基于集成学习技术的高维度数据预测方法 |
CN110334546A (zh) * | 2019-07-08 | 2019-10-15 | 辽宁工业大学 | 基于主成分分析优化的差分隐私高维数据发布保护方法 |
CN110647911A (zh) * | 2019-08-13 | 2020-01-03 | 南京航空航天大学 | 一种基于主成分分析和深度信念网络的轴承故障诊断方法 |
CN110825068A (zh) * | 2019-09-29 | 2020-02-21 | 惠州蓄能发电有限公司 | 一种基于pca-cnn的工业控制系统异常检测方法 |
CN111709181A (zh) * | 2020-05-06 | 2020-09-25 | 东华大学 | 基于主成分分析的涤纶长丝工业生产流程故障预测方法 |
Non-Patent Citations (3)
Title |
---|
周祥全;张津;程鲁;: "基于主成分分析的化探元素含量数据处理", 科技创新与应用, no. 25 * |
章艺等: "基于近场声全息的载荷识别技术及试验验证", 噪声与振动控制, vol. 38, no. 1, pages 601 - 604 * |
董卓;朱永利;张敬敬;陈哲星;胡资斌;: "基于主成分分析和遗传程序设计的油浸式变压器故障诊断", 河北工业科技, no. 06 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553630A (zh) * | 2021-06-15 | 2021-10-26 | 西安电子科技大学 | 基于无监督学习的硬件木马检测系统和信息数据处理方法 |
CN113903059A (zh) * | 2021-12-13 | 2022-01-07 | 中汽信息科技(天津)有限公司 | 人体模型建立方法、设备和存储介质 |
CN113903059B (zh) * | 2021-12-13 | 2022-04-15 | 中汽信息科技(天津)有限公司 | 人体模型建立方法、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112464154B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106572493B (zh) | Lte网络中的异常值检测方法及系统 | |
Bottou et al. | Large scale online learning | |
Chwialkowski et al. | A kernel independence test for random processes | |
CN109496334B (zh) | 用于评估语音质量的设备和方法 | |
CN112464154A (zh) | 一种基于无监督学习的自动筛选有效特征的方法 | |
Chang et al. | Confidence regions for entries of a large precision matrix | |
CN111290967A (zh) | 一种软件缺陷预测方法、装置、设备及存储介质 | |
CN111552509A (zh) | 一种接口间依赖关系的确定方法及装置 | |
Aston et al. | High dimensional efficiency with applications to change point tests | |
CN113377964A (zh) | 知识图谱链接预测方法、装置、设备及存储介质 | |
Li et al. | A novel recursive learning estimation algorithm of Wiener systems with quantized observations | |
CN114817034A (zh) | 一种测试质量的分析方法、装置及电子设备 | |
CN112395558B (zh) | 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法 | |
CN114169460A (zh) | 样本筛选方法、装置、计算机设备和存储介质 | |
CN117876018A (zh) | 潜在客户识别和预测的方法、装置、电子设备及存储介质 | |
Xu et al. | Optimal gradient quantization condition for communication-efficient distributed training | |
CN113297185A (zh) | 一种特征衍生方法及装置 | |
CN113177078B (zh) | 基于条件生成模型的近似查询处理算法 | |
US11388187B2 (en) | Method of digital signal feature extraction comprising multiscale analysis | |
CN114511002A (zh) | 一种面向小样本数据的故障诊断方法及系统 | |
Chen et al. | Change point detection in beta process with high frequency data | |
US6931363B2 (en) | EDR direction estimating method, system, and program, and memory medium for storing the program | |
Choi et al. | Latent group structure in linear panel data models with endogenous regressors | |
Martínez et al. | Partial quicksort and quickpartitionsort | |
Bai et al. | Rare-Event Simulation Without Variance Reduction: An Extreme Value Theory Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |