CN110222738B - 面向混合采样工业大数据的基于多视图字典学习分类方法 - Google Patents

面向混合采样工业大数据的基于多视图字典学习分类方法 Download PDF

Info

Publication number
CN110222738B
CN110222738B CN201910429746.7A CN201910429746A CN110222738B CN 110222738 B CN110222738 B CN 110222738B CN 201910429746 A CN201910429746 A CN 201910429746A CN 110222738 B CN110222738 B CN 110222738B
Authority
CN
China
Prior art keywords
dictionary
data
sampling frequency
sample
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910429746.7A
Other languages
English (en)
Other versions
CN110222738A (zh
Inventor
于洪
杨倩
胡峰
王国胤
张晓霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910429746.7A priority Critical patent/CN110222738B/zh
Publication of CN110222738A publication Critical patent/CN110222738A/zh
Application granted granted Critical
Publication of CN110222738B publication Critical patent/CN110222738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明请求保护一种面向混合采样工业大数据的基于多视图字典学习的分类方法,该方法巧妙借助多视图数据的分类思想,以混合采样工业数据与多视图数据的共性特点进行连接,同时,考虑到混合采样数据的样本数量不一致特点,设计了适应混合采样数据的分类方案。在训练阶段,通过字典学习方法,学习了每个采样频率数据每一类训练样本的字典。在分类测试阶段,首先利用训练的与对应采样频率数据相关的字典对测试样本进行编码,然后利用子字典和测试样本的编码向量来判断样本与哪个类簇的重构误差最小,则表示样本属于该类簇。本发明相较于现有技术,极大限度地利用原始数据,保证了原始数据的分布,提高了分类结果的精度。

Description

面向混合采样工业大数据的基于多视图字典学习分类方法
技术领域
本发明属于数据挖掘技术领域,尤其涉及一种面向混合采样工业大数据的基于多视图字典学习的分类方法。
背景技术
随着现代工业的迅速发展,现代企业中的生产设备日趋大型化、连续化和自动化,设备的结构或组成日益复杂,生产数据的采集、来源、形式也越来越多样化。在实际生产中获取工业生产铝的电解槽数据时,会由于采集成本代价而导致数据采集频率高低有别。例如含铁含量、硅含量、分子比、电解质水平等特征集合的数据需要专家进行实验采集,成本高,代价大,采样频率低;而电解槽工作电压、工作电流、针振等特征集合的数据可以通过传感器实时上传,成本低,代价小,采样频率高。而以不同采样频率采集的不同特征集合的数据都对电解槽的生产状况起决定作用,所以现在急需一种有效的分类方法对现代工业生产过程中采集的传感器数据和专家实验采集数据进行统一建模,从而实现过热度的有效评估进而判断电解槽状况。
现在已有的基于工业大数据的分类方法把采集的传感器数据和专家实验采集数据分开建模,进行独立训练,忽略了工业大数据之间的必然联系,失去了大数据的固有特性。传统的基于工业大数据的分类方法在得到以不同采样频率采集的特征集合数据时,先将以不同采样频率的数据处理成统一采样频率,即转换高频数据,使之与低频数据相匹配,然后将得到的同频采样数据进行拼接统一训练。这种方式不可避免的存在高频数据信息丢失的问题,同时,将不同采样数据直接拼接,也忽略了不同采样数据之间的关系。所以现在急需一种有效的分类方法能在不损失高频数据分布信息的前提下,极大限度的利用所有原始数据,考虑不同采样数据之间的关系,达到提升模型分类性能的目的。
本发明把这类描述同一对象,而不同特征集合以不同采样频率采集的数据称为混合采样数据。混合采样数据不仅具有不同采样频率数据之间特征集合不同的特点,还有样本数量不一致等特点,传统的分类方法不能直接使用。多视图数据(Multi-view Data)是指描述同一对象,而来自不同数据源、呈现不同表现形式或有不同特征集合的数据。受多视图数据特点的启发,本发明认为混合采样数据与多视图数据之间有一定的对应关系。混合采样数据的多个采样频率数据、不同采样频率下的不同特征集合就对应着多视图数据的多个视图数据、不同视图下的不同特征集合。因此,本发明欲借鉴处理多视图数据的思想或方法,来解决混合采样工业大数据中的分类问题,以克服工业大数据中因数据采集成本高代价大等因素导致的数据采集频率不一致问题。
字典学习(Dictionary Learning)方法最初是用于信号重构,近年来在人工智能、图像处理、信号处理等领域运用及其广泛。字典学习的目标任务是对给定数据样本进行训练,寻找最合适的字典矩阵D,以及对应的编码系数矩阵X,使得每个数据样本能更好地被字典矩阵重构,是一个交替优化迭代过程。后又有研究直接学习具有判别能力的字典矩阵和编码系数矩阵,如Fisher判别字典学习(Fisher discrimination dictionary learning,FDDL)。Fisher判别字典学习旨在学习一个结构化字典矩阵D,该字典由每个类簇的子字典Di构成。多视图字典学习方法将字典学习方法运用到多视图学习任务,旨在迭代学习每个视图的字典用于样本分类。
多视图学习方法中的互补性原则指出:每个视图下包含的数据集都有其他视图集说没有的数据特征,多视图学习得出的结果具有互补性使得结果比单个视图集下得出的结果更为精确同时也具有鲁棒性。所以在本发明中,由于工业大数据中混合采样数据的采样设备差异以及观测方法的不同导致采集的数据相互独立,因而对生产状况评估的贡献各有不同,而又存在一定的互补性,如果能够利用多视图学习方法的互补特性,对各个采样频率的数据同时进行学习,得出的生产状况评估不仅在数据空间覆盖率上有极大的广度,而且在数据精度的提高上也会比传统的填充删除样本方法有更好地推进。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种能够有效处理工业大数据中因数据采集成本高代价大,而造成的不同特征集合的数据采样频率不一致的分类问题,能够提供一个扩展性更强的数据挖掘策略,提高算法的精度的方法。本发明的技术方案如下:
面向混合采样工业大数据的基于多视图字典学习分类方法,假设训练样本有H个不同采样频率数据A1,...,Ak,...,AH,则第k个采样频率数据可定义为Ak(k=1,...,H),且每个采样频率数据Ak有C个类簇。对于第k个采样频率数据,
Figure BDA0002068604500000031
表示第i类训练样本。值得注意的是,考虑到混合采样数据与多视图数据的不同之处,在于不同采样频率对应的数据集样本数量不一致,所以在测试阶段每个测试样本不一定涵盖所有采样频率对应数据,即z={z1,z2,...,zh},h≤H,表示一个包含h个以不同采样频率采集的测试样本,zk表示第k个采样频率数据的测试样本,D={D1,...,Dk,...,DH}和X={X1,...,Xk,...,XH}分别表示重构对应样本的字典矩阵和编码系数矩阵,则
Figure BDA0002068604500000032
Figure BDA0002068604500000033
分别表示第k个采样频率数据第i个类簇的数据样本
Figure BDA0002068604500000034
在字典Dk和子字典
Figure BDA0002068604500000035
上的编码系数矩阵其包括以下步骤:
A、在训练阶段,通过迭代优化求解下面的目标函数,获得(1)对应第k个采样频率数据第i个类别的子字典
Figure BDA0002068604500000036
(2)原始数据的每个类簇样本
Figure BDA0002068604500000037
在子字典Dk上的编码系数矩阵
Figure BDA0002068604500000038
训练过程目标函数如下:
Figure BDA0002068604500000039
进一步的,所述训练阶段A对混合采样数据的训练过程,具体包括步骤:上述目标函数包含三项,第一项
Figure BDA00020686045000000310
为判别保真项,约束字典对类簇样本的重构能力,其应该遵循以下三个原则:第一,对于第k个采样频率数据,字典Dk应该具备重构样本
Figure BDA00020686045000000311
的能力,即最小化误差项
Figure BDA00020686045000000312
第二,与第i类样本相关的子字典
Figure BDA0002068604500000041
应该具备重构样本
Figure BDA0002068604500000042
的能力,即最小化误差项
Figure BDA0002068604500000043
第三,与第i类样本相关的其他类簇子字典
Figure BDA0002068604500000044
不应具备重构样本
Figure BDA0002068604500000045
的能力,所以应该最小化重构误差项
Figure BDA0002068604500000046
从而使第i类子字典
Figure BDA0002068604500000047
对样本
Figure BDA0002068604500000048
重构所占比重最大。判别保真项公式如下:
Figure BDA0002068604500000049
目标函数第二项为L1范数约束编码系数矩阵Xk的列向量,使其稀疏化,λ1是一个调节参数;第三项为判别系数项f(Xk),以Fisher判别准则约束编码系数矩阵Xk使其更具判别信息,即约束编码系数矩阵Xk,使类内散度SW(Xk)最小化,使类间散度SB(Xk)最大化,λ2是一个调节参数。判别系数项公式如下:
Figure BDA00020686045000000410
其中,tr(·)表示求矩阵的迹,SW(Xk)和SB(Xk)分别表示编码系数矩阵Xk的类内散度和类间散度,η表示一个调节参数。类内散度和类间散度计算公式如下:
Figure BDA00020686045000000411
其中,
Figure BDA00020686045000000412
和mk分别表示第k个采样频率数据第i类编码系数矩阵
Figure BDA00020686045000000413
和Xk的均值向量,xw表示
Figure BDA00020686045000000414
的列向量,
Figure BDA00020686045000000415
是样本
Figure BDA00020686045000000416
的样本数量。
进一步的,所述训练阶段A整个迭代优化算法,采用变量交替更新优化策略,当更新第k(k=1,2,...H)个采样频率数据对应的变量时,其他采样频率数据的对应变量固定;对于第k个采样频率数据,Xk和Dk交替更新。
进一步的,所述训练阶段A整个迭代优化算法具体包括:
Step 1:初始化每个采样频率数据对应子字典
Figure BDA00020686045000000417
遍历带标签的混合采样数据Ak(k=1,...,H)的每个采样频率数据对应的类簇数据,用主成分分析方法(PrincipalComponent Analysis,PCA)初始化每个采样频率数据对应子字典
Figure BDA00020686045000000418
Figure BDA0002068604500000051
Step 2:固定字典矩阵Dk,用迭代投影算法逐类更新编码系数矩阵
Figure BDA0002068604500000052
Figure BDA0002068604500000053
Step 3:固定编码系数矩阵Xk,用逐列更新算法更新字典矩阵
Figure BDA0002068604500000054
Figure BDA0002068604500000055
Step 4:对每个采样频率数据,循环迭代Step2至Step3,直到目标函数收敛或达到最大迭代次数,输出每个采样频率数据对应的字典Dk和对应的编码系数矩阵Xk
进一步的,所述迭代优化算法中,所述Step2更新编码系数矩阵Xk过程具体包括步骤:目标函数简化为与
Figure BDA0002068604500000056
相关的函数:
Figure BDA0002068604500000057
通过迭代投影算法,在目标函数未收敛或迭代次数未达到时,按如下公式更新
Figure BDA0002068604500000058
Figure BDA0002068604500000059
其中,t表示迭代次数,
Figure BDA00020686045000000510
表示与
Figure BDA00020686045000000511
相关的函数,但不包含L1范数项,
Figure BDA00020686045000000512
Figure BDA00020686045000000513
Figure BDA00020686045000000514
处的导数,Sτ/δ(·)是一个软阈因子公式,计算如下:
Sτ/δ(X)=sign(X)max(abs(X)-τ/δ,0)
δ表示迭代步长参数,τ为λ1/2,sign(·)和abs(·)分别表示符号函数和求绝对值函数,max(a,b)表示求a和b中较大值。
进一步的,所述迭代优化算法中,所述Step3更新字典矩阵Dk过程具体包括步骤:目标函数可以简化为与
Figure BDA00020686045000000515
相关的函数:
Figure BDA00020686045000000516
通过逐列更新算法,即将上述关于
Figure BDA0002068604500000061
的函数转换成关于
Figure BDA0002068604500000062
的每个列向量dj的函数,再求导对子字典
Figure BDA0002068604500000063
矩阵进行逐列更新。
B、在分类阶段,分类过程具体包括步骤:
步骤1,通过求解下面的优化函数,获得测试样本z={z1,...,zk,...,zh}在与对应采样数据相关的字典D={D1,...,Dk,...,Dh}上的编码向量v={v1,...,vk,...,vh},vk表示第k个采样频率测试样本zk在字典Dk上的编码向量,β是一个调节参数。分类阶段目标函数如下:
Figure BDA0002068604500000064
步骤2,利用测试样本z在对应字典Dk(k=1,...,h)上的编码向量vk(k=1,...,h)和训练得到的类簇子字典
Figure BDA0002068604500000065
计算重构测试样本z的误差,如下:
Figure BDA0002068604500000066
其中,
Figure BDA0002068604500000067
表示与第k个采样频率第i个类簇样本相关的编码向量,
Figure BDA0002068604500000068
表示由训练阶段学习的第k个采样频率第i个类编码系数矩阵
Figure BDA0002068604500000069
的均值向量,w是一个调节参数。
步骤3,根据
Figure BDA00020686045000000610
判断测试样本在哪一类子字典上重构误差最小,则面向混合采样工业大数据的基于多视图字典学习的分类方法将测试样本z归到第i类。
本发明的优点及有益效果如下:
本发明提出一种面向混合采样工业大数据的基于多视图字典学习的分类方法,能够处理工业大数据中因数据采集成本高代价大等因素造成的不同特征集合的数据采样频率不一致的分类问题,该方法极大限度地利用原始数据,更加符合实际情况和很多现实应用场景,能够提供一个扩展性更强的数据挖掘策略,提高算法的精度。
本发明主要创新点包括:
1.基于多视图的混合采样数据分类方法,结合多视图思想,能够处理描述同一对象,以不同采样频率采集的数据集。
2.将Fisher判别字典学习方法运用到混合采样数据分类中,构造新的目标函数,提出了新的混合采样数据分类策略。
3.针对工业大数据中因数据采集成本高代价大等因素导致的数据采集频率不一致问题,利用本发明方法,充分利用原始数据,提升生产状况评估的精度。
附图说明
图1是本发明提供优选实施例面向混合采样工业大数据的基于多视图字典学习的分类方法流程框图;
图2面向混合采样工业大数据的基于多视图字典学习的分类方法的字典学习算法和样本分类算法流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
图1为本发明提出的一种面向混合采样工业大数据的基于多视图字典学习的分类方法的流程框图,其分为两个阶段:字典学习阶段和样本分类阶段。在字典学习阶段,通过考虑判别保真项和判别系数项两个原则,学习每个采样频率数据对应的每个类簇的子字典
Figure BDA0002068604500000071
和编码系数矩阵
Figure BDA0002068604500000072
在样本的分类阶段,首先利用学习到的对应采样频率数据字典Dk对测试样本z进行编码,再根据得到的编码向量vk和类簇子字典
Figure BDA0002068604500000073
对测试样本进行重构,若第i类样本对应的子字典对测试样本的重构误差最小,则表示该样本数据第i类。
A.在字典学习阶段,学习每个采样频率数据对应的每个类簇的子字典
Figure BDA0002068604500000074
和编码系数矩阵
Figure BDA0002068604500000081
如图2左侧算法流程图所示,字典学习阶段整个迭代优化算法处理步骤如下:
Step 1:初始化。用PCA方法初始化字典
Figure BDA0002068604500000082
其中dk和nk分别表示第k个采样频率数据的特征维数和样本数,且有
Figure BDA0002068604500000083
C表示样本的类簇数。遍历带标签的混合采样数据Ak(k=1,...,H)的每个采样频率数据对应的类簇数据,用PCA方法初始化每个采样频率数据对应子字典
Figure BDA0002068604500000084
Figure BDA0002068604500000085
Step 2:更新编码系数矩阵。固定字典矩阵Dk,用迭代投影算法逐类更新编码系数矩阵
Figure BDA0002068604500000086
Figure BDA0002068604500000087
Step 3:更新字典矩阵。固定编码系数矩阵Xk,用MFL算法逐列更新字典矩阵
Figure BDA0002068604500000088
Figure BDA0002068604500000089
Step 4:对每个采样频率数据,循环迭代Step2至Step3,直到目标函数收敛或达到最大迭代次数,输出每个采样频率数据对应的字典Dk和对应的编码系数矩阵Xk
迭代优化算法中所述Step2更新编码系数矩阵Xk过程具体包括步骤:目标函数可以简化为与
Figure BDA00020686045000000810
相关的函数:
Figure BDA00020686045000000811
通过迭代投影算法,在目标函数未收敛或迭代次数未达到时,由以下更新
Figure BDA00020686045000000812
Figure BDA00020686045000000813
其中,t表示迭代次数,
Figure BDA00020686045000000814
Figure BDA00020686045000000815
Figure BDA00020686045000000816
处的导数,Sτ/δ(·)是一个软阈值因子公式。
迭代优化算法中所述Step3更新字典矩阵Dk过程具体包括步骤:目标函数可以简化为与
Figure BDA00020686045000000817
相关的函数:
Figure BDA0002068604500000091
通过逐列更新算法,即将上述关于
Figure BDA0002068604500000092
的函数转换成关于
Figure BDA0002068604500000093
的每个列向量dj的函数,再求导对子字典
Figure BDA0002068604500000094
矩阵进行逐列更新。
B.在样本分类阶段,如图2右侧算法流程图所示,处理步骤如下:
步骤1,通过求解下面公式对测试样本z进行编码,获得测试样本z={z1,z2,...,zh}在与对应采样频率数据相关的字典Dk(k=1,...,h)上的编码向量vk(k=1,...,h)。
Figure BDA0002068604500000095
步骤2,根据得到的编码向量
Figure BDA0002068604500000096
和字典
Figure BDA0002068604500000097
对测试样本z进行重构,计算重构测试样本z的误差,如下:
Figure BDA0002068604500000098
步骤3,由
Figure BDA0002068604500000099
判断测试样本属于哪一类。若第i类样本对应的子字典对测试样本的重构误差最小,则表示该样本属于第i类。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (5)

1.面向混合采样工业大数据的基于多视图字典学习分类方法,其特征在于,设A={A1,...,Ak,...,AH}表示一个包含H个以不同采样频率采集的训练样本集,且每个采样频率数据Ak有C个类簇,则第k个采样频率数据样本为
Figure FDA0002910032730000011
其中
Figure FDA0002910032730000012
表示第i个类簇的数据样本,z={z1,...,zk,...,zh}表示一个包含h个以不同采样频率采集的测试样本,zk表示第k个采样频率数据的测试样本,D={D1,...,Dk,...,DH}和X={X1,...,Xk,...,XH}分别表示重构对应样本的字典矩阵和编码系数矩阵,则
Figure FDA0002910032730000013
Figure FDA0002910032730000014
分别表示第k个采样频率数据第i个类簇的数据样本
Figure FDA0002910032730000015
在字典Dk和子字典
Figure FDA0002910032730000016
上的编码系数矩阵,包括以下阶段步骤:
A、在训练阶段,通过迭代优化求解下面的目标函数,获得(1)对应第k个采样频率数据第i个类簇的子字典
Figure FDA0002910032730000017
(2)原始数据的每个类簇样本
Figure FDA0002910032730000018
在字典Dk上的编码系数矩阵
Figure FDA0002910032730000019
其中k=1,...,H,i=1,...,C,训练过程目标函数如下:
Figure FDA00029100327300000110
上述目标函数包含三项,第一项
Figure FDA00029100327300000111
为判别保真项,约束字典对类簇样本的重构能力,其应该遵循以下三个原则:第一,对于第k个采样频率数据,字典Dk应该具备重构样本
Figure FDA00029100327300000112
的能力,即最小化误差项
Figure FDA00029100327300000113
第二,与第i类样本相关的子字典
Figure FDA00029100327300000114
应该具备重构样本
Figure FDA00029100327300000115
的能力,即最小化误差项
Figure FDA00029100327300000116
第三,与第i个类簇样本相关的其他类簇子字典
Figure FDA00029100327300000117
不应具备重构样本
Figure FDA00029100327300000118
的能力,所以应该最小化重构误差项
Figure FDA00029100327300000119
从而使第i个类簇子字典
Figure FDA00029100327300000120
对样本
Figure FDA00029100327300000121
重构所占比重最大,判别保真项公式如下:
Figure FDA00029100327300000122
目标函数第二项为L1范数约束编码系数矩阵Xk的列向量,使其稀疏化,λ1是一个调节参数;第三项为判别系数项f(Xk),以Fisher判别准则约束编码系数矩阵Xk使其更具判别信息,即约束编码系数矩阵Xk,使类内散度SW(Xk)最小化,使类间散度SB(Xk)最大化,λ2是一个调节参数;判别系数项公式如下:
Figure FDA0002910032730000021
其中,tr(·)表示求矩阵的迹,SW(Xk)和SB(Xk)分别表示编码系数矩阵Xk的类内散度和类间散度,η表示一个调节参数;类内散度和类间散度计算公式如下:
Figure FDA0002910032730000022
其中,
Figure FDA0002910032730000023
和mk分别表示第k个采样频率数据第i类编码系数矩阵
Figure FDA0002910032730000024
和Xk的均值向量,xw表示
Figure FDA0002910032730000025
的列向量,
Figure FDA0002910032730000026
是样本
Figure FDA0002910032730000027
的样本数量;
B、在分类阶段,分类过程具体包括步骤:
步骤1,通过求解下面的优化函数,获得测试样本z={z1,...,zk,...,zh}在与对应采样数据相关的字典D'={D1,...,Dk,...,Dh}上的编码向量v={v1,...,vk,...,vh},vk表示第k个采样频率测试样本zk在字典Dk上的编码向量,β是一个调节参数;分类阶段目标函数如下:
Figure FDA0002910032730000028
步骤2,利用测试样本z在对应字典Dk上的编码向量vk和训练得到的类簇子字典
Figure FDA0002910032730000029
计算重构测试样本z的误差,如下:
Figure FDA00029100327300000210
其中,
Figure FDA00029100327300000211
表示与第k个采样频率第i个类簇样本相关的编码向量,
Figure FDA00029100327300000212
表示由训练阶段学习的第k个采样频率第i个类簇编码系数矩阵
Figure FDA00029100327300000213
的均值向量,w是一个调节参数;
步骤3,根据
Figure FDA00029100327300000214
判断测试样本在哪一类子字典上重构误差最小,则面向混合采样工业大数据的基于多视图字典学习的分类方法将测试样本z归到第i个类簇。
2.根据权利要求1所述的面向混合采样工业大数据的基于多视图字典学习分类方法,其特征在于,所述训练阶段A整个迭代优化算法,采用变量交替更新优化策略,当更新第k个采样频率数据对应的变量时,其他采样频率数据的对应变量固定;对于第k个采样频率数据,Xk和Dk交替更新。
3.根据权利要求2所述的面向混合采样工业大数据的基于多视图字典学习分类方法,其特征在于,所述训练阶段A整个迭代优化算法具体包括:
Step1:初始化每个采样频率数据对应子字典
Figure FDA0002910032730000031
遍历带标签的混合采样数据Ak的每个采样频率数据对应的类簇数据,用主成分分析方法PCA初始化每个采样频率数据对应子字典
Figure FDA0002910032730000032
Figure FDA0002910032730000033
Step2:固定字典矩阵Dk,用迭代投影算法逐类更新编码系数矩阵
Figure FDA0002910032730000034
Figure FDA0002910032730000035
Step3:固定编码系数矩阵Xk,用逐列更新算法更新字典矩阵
Figure FDA0002910032730000036
Figure FDA0002910032730000037
Step4:对每个采样频率数据,循环迭代Step2至Step3,直到目标函数收敛或达到最大迭代次数,输出每个采样频率数据对应的字典Dk和对应的编码系数矩阵Xk
4.根据权利要求3所述的面向混合采样工业大数据的基于多视图字典学习分类方法,其特征在于,所述迭代优化算法中,所述Step2更新编码系数矩阵Xk过程具体包括步骤:目标函数简化为与
Figure FDA0002910032730000038
相关的函数:
Figure FDA0002910032730000039
通过迭代投影算法,在目标函数未收敛或迭代次数未达到时,按如下公式更新
Figure FDA00029100327300000310
Figure FDA0002910032730000041
其中,t表示迭代次数,
Figure FDA0002910032730000042
表示与
Figure FDA0002910032730000043
相关的函数,但不包含L1范数项,
Figure FDA0002910032730000044
Figure FDA0002910032730000045
Figure FDA0002910032730000046
处的导数,Sτ/δ(·)是一个软阈因子公式,计算如下:
Sτ/δ(X)=sign(X)max(abs(X)-τ/δ,0)
δ表示迭代步长参数,τ为λ1/2,sign(·)和abs(·)分别表示符号函数和求绝对值函数,max(a,b)表示求a和b中较大值。
5.根据权利要求3所述的面向混合采样工业大数据的基于多视图字典学习分类方法,其特征在于,所述迭代优化算法中,所述Step3更新字典矩阵Dk过程具体包括步骤:目标函数可以简化为与
Figure FDA0002910032730000047
相关的函数:
Figure FDA0002910032730000048
通过逐列更新算法,即将上述关于
Figure FDA0002910032730000049
的函数转换成关于
Figure FDA00029100327300000410
的每个列向量dj的函数,再求导对子字典
Figure FDA00029100327300000411
矩阵进行逐列更新。
CN201910429746.7A 2019-05-22 2019-05-22 面向混合采样工业大数据的基于多视图字典学习分类方法 Active CN110222738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910429746.7A CN110222738B (zh) 2019-05-22 2019-05-22 面向混合采样工业大数据的基于多视图字典学习分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910429746.7A CN110222738B (zh) 2019-05-22 2019-05-22 面向混合采样工业大数据的基于多视图字典学习分类方法

Publications (2)

Publication Number Publication Date
CN110222738A CN110222738A (zh) 2019-09-10
CN110222738B true CN110222738B (zh) 2021-05-18

Family

ID=67817949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910429746.7A Active CN110222738B (zh) 2019-05-22 2019-05-22 面向混合采样工业大数据的基于多视图字典学习分类方法

Country Status (1)

Country Link
CN (1) CN110222738B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538759B (zh) * 2020-04-20 2023-09-12 中南大学 一种基于分布式字典学习的工业过程智能监测方法与系统
CN111859307A (zh) * 2020-08-18 2020-10-30 久视数字科技(苏州)有限公司 可有效提高数据采集和传输效率的数据采集方法及装置
CN112613547B (zh) * 2020-12-16 2024-04-09 西安交通大学 基于Fisher判别字典学习模型的齿轮运行分类方法
CN113761215A (zh) * 2021-03-25 2021-12-07 中科天玑数据科技股份有限公司 一种基于反馈自学习的动态字典库生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503726A (zh) * 2016-09-19 2017-03-15 江苏大学 一种带标签信息子字典级联学习的电能质量扰动识别方法
CN106650769A (zh) * 2016-09-28 2017-05-10 南京信息工程大学 基于线性表示多视图鉴别字典学习的分类方法
CN109034200A (zh) * 2018-06-22 2018-12-18 广东工业大学 一种基于联合稀疏表示和多视图字典学习的学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10776710B2 (en) * 2015-03-24 2020-09-15 International Business Machines Corporation Multimodal data fusion by hierarchical multi-view dictionary learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503726A (zh) * 2016-09-19 2017-03-15 江苏大学 一种带标签信息子字典级联学习的电能质量扰动识别方法
CN106650769A (zh) * 2016-09-28 2017-05-10 南京信息工程大学 基于线性表示多视图鉴别字典学习的分类方法
CN109034200A (zh) * 2018-06-22 2018-12-18 广东工业大学 一种基于联合稀疏表示和多视图字典学习的学习方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《Multi-view analysis dictionary learning for image classification》;Wang Qianyu,et al;《IEEE Access》;20181231(第6期);第659-662页 *
《Multi-View Synthesis and Analysis Dictionaries Learning for Classification》;Fei Wu,et al;《IEICE TRANSACTIONS on Information and Systems》;20190301;第E102-D卷(第3期);第20174-20183页 *
《多视图特征学习方法研究》;吴飞;《中国博士学位论文全文数据库 信息科技辑》;20180115(第1期);第I140-31页 *
《多视图特征选择与降维方法及其应用研究》;杨琬琦;《中国博士学位论文全文数据库 信息科技辑》;20160315(第3期);第I138-183页 *

Also Published As

Publication number Publication date
CN110222738A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN110222738B (zh) 面向混合采样工业大数据的基于多视图字典学习分类方法
CN109993280B (zh) 一种基于深度学习的水下声源定位方法
CN106056628B (zh) 基于深度卷积神经网络特征融合的目标跟踪方法及系统
CN112101430B (zh) 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法
CN107689052B (zh) 基于多模型融合和结构化深度特征的视觉目标跟踪方法
CN114564982B (zh) 雷达信号调制类型的自动识别方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN113159048A (zh) 一种基于深度学习的弱监督语义分割方法
CN112733965B (zh) 一种基于小样本学习的无标签图像分类方法
CN108182694B (zh) 一种基于插值的运动估计与自适应视频重建方法
CN113657491A (zh) 一种用于信号调制类型识别的神经网络设计方法
CN106599903B (zh) 基于相关性的加权最小二乘字典学习的信号重构方法
CN111178438A (zh) 一种基于ResNet101的天气类型识别方法
CN113591948A (zh) 一种缺陷模式识别方法、装置、电子设备和存储介质
CN113822368A (zh) 一种基于无锚的增量式目标检测方法
CN113657449A (zh) 一种含噪标注数据的中医舌象腐腻分类方法
CN106908774B (zh) 基于多尺度核稀疏保持投影的一维距离像识别方法
CN112132257A (zh) 基于金字塔池化及长期记忆结构的神经网络模型训练方法
CN111461067A (zh) 基于先验知识映射及修正的零样本遥感影像场景识别方法
CN112560949B (zh) 基于多级统计学特征提取的高光谱分类方法
CN114399661A (zh) 一种实例感知主干网络训练方法
CN105405152A (zh) 基于结构化支持向量机的自适应尺度目标跟踪方法
CN114495114B (zh) 基于ctc解码器的文本序列识别模型校准方法
CN116665039A (zh) 基于两阶段因果干预的小样本目标识别方法
CN115345322A (zh) 一种基于层级化元迁移的小样本雷达目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant