CN110222738B - 面向混合采样工业大数据的基于多视图字典学习分类方法 - Google Patents
面向混合采样工业大数据的基于多视图字典学习分类方法 Download PDFInfo
- Publication number
- CN110222738B CN110222738B CN201910429746.7A CN201910429746A CN110222738B CN 110222738 B CN110222738 B CN 110222738B CN 201910429746 A CN201910429746 A CN 201910429746A CN 110222738 B CN110222738 B CN 110222738B
- Authority
- CN
- China
- Prior art keywords
- dictionary
- data
- sampling frequency
- sample
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明请求保护一种面向混合采样工业大数据的基于多视图字典学习的分类方法,该方法巧妙借助多视图数据的分类思想,以混合采样工业数据与多视图数据的共性特点进行连接,同时,考虑到混合采样数据的样本数量不一致特点,设计了适应混合采样数据的分类方案。在训练阶段,通过字典学习方法,学习了每个采样频率数据每一类训练样本的字典。在分类测试阶段,首先利用训练的与对应采样频率数据相关的字典对测试样本进行编码,然后利用子字典和测试样本的编码向量来判断样本与哪个类簇的重构误差最小,则表示样本属于该类簇。本发明相较于现有技术,极大限度地利用原始数据,保证了原始数据的分布,提高了分类结果的精度。
Description
技术领域
本发明属于数据挖掘技术领域,尤其涉及一种面向混合采样工业大数据的基于多视图字典学习的分类方法。
背景技术
随着现代工业的迅速发展,现代企业中的生产设备日趋大型化、连续化和自动化,设备的结构或组成日益复杂,生产数据的采集、来源、形式也越来越多样化。在实际生产中获取工业生产铝的电解槽数据时,会由于采集成本代价而导致数据采集频率高低有别。例如含铁含量、硅含量、分子比、电解质水平等特征集合的数据需要专家进行实验采集,成本高,代价大,采样频率低;而电解槽工作电压、工作电流、针振等特征集合的数据可以通过传感器实时上传,成本低,代价小,采样频率高。而以不同采样频率采集的不同特征集合的数据都对电解槽的生产状况起决定作用,所以现在急需一种有效的分类方法对现代工业生产过程中采集的传感器数据和专家实验采集数据进行统一建模,从而实现过热度的有效评估进而判断电解槽状况。
现在已有的基于工业大数据的分类方法把采集的传感器数据和专家实验采集数据分开建模,进行独立训练,忽略了工业大数据之间的必然联系,失去了大数据的固有特性。传统的基于工业大数据的分类方法在得到以不同采样频率采集的特征集合数据时,先将以不同采样频率的数据处理成统一采样频率,即转换高频数据,使之与低频数据相匹配,然后将得到的同频采样数据进行拼接统一训练。这种方式不可避免的存在高频数据信息丢失的问题,同时,将不同采样数据直接拼接,也忽略了不同采样数据之间的关系。所以现在急需一种有效的分类方法能在不损失高频数据分布信息的前提下,极大限度的利用所有原始数据,考虑不同采样数据之间的关系,达到提升模型分类性能的目的。
本发明把这类描述同一对象,而不同特征集合以不同采样频率采集的数据称为混合采样数据。混合采样数据不仅具有不同采样频率数据之间特征集合不同的特点,还有样本数量不一致等特点,传统的分类方法不能直接使用。多视图数据(Multi-view Data)是指描述同一对象,而来自不同数据源、呈现不同表现形式或有不同特征集合的数据。受多视图数据特点的启发,本发明认为混合采样数据与多视图数据之间有一定的对应关系。混合采样数据的多个采样频率数据、不同采样频率下的不同特征集合就对应着多视图数据的多个视图数据、不同视图下的不同特征集合。因此,本发明欲借鉴处理多视图数据的思想或方法,来解决混合采样工业大数据中的分类问题,以克服工业大数据中因数据采集成本高代价大等因素导致的数据采集频率不一致问题。
字典学习(Dictionary Learning)方法最初是用于信号重构,近年来在人工智能、图像处理、信号处理等领域运用及其广泛。字典学习的目标任务是对给定数据样本进行训练,寻找最合适的字典矩阵D,以及对应的编码系数矩阵X,使得每个数据样本能更好地被字典矩阵重构,是一个交替优化迭代过程。后又有研究直接学习具有判别能力的字典矩阵和编码系数矩阵,如Fisher判别字典学习(Fisher discrimination dictionary learning,FDDL)。Fisher判别字典学习旨在学习一个结构化字典矩阵D,该字典由每个类簇的子字典Di构成。多视图字典学习方法将字典学习方法运用到多视图学习任务,旨在迭代学习每个视图的字典用于样本分类。
多视图学习方法中的互补性原则指出:每个视图下包含的数据集都有其他视图集说没有的数据特征,多视图学习得出的结果具有互补性使得结果比单个视图集下得出的结果更为精确同时也具有鲁棒性。所以在本发明中,由于工业大数据中混合采样数据的采样设备差异以及观测方法的不同导致采集的数据相互独立,因而对生产状况评估的贡献各有不同,而又存在一定的互补性,如果能够利用多视图学习方法的互补特性,对各个采样频率的数据同时进行学习,得出的生产状况评估不仅在数据空间覆盖率上有极大的广度,而且在数据精度的提高上也会比传统的填充删除样本方法有更好地推进。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种能够有效处理工业大数据中因数据采集成本高代价大,而造成的不同特征集合的数据采样频率不一致的分类问题,能够提供一个扩展性更强的数据挖掘策略,提高算法的精度的方法。本发明的技术方案如下:
面向混合采样工业大数据的基于多视图字典学习分类方法,假设训练样本有H个不同采样频率数据A1,...,Ak,...,AH,则第k个采样频率数据可定义为Ak(k=1,...,H),且每个采样频率数据Ak有C个类簇。对于第k个采样频率数据,表示第i类训练样本。值得注意的是,考虑到混合采样数据与多视图数据的不同之处,在于不同采样频率对应的数据集样本数量不一致,所以在测试阶段每个测试样本不一定涵盖所有采样频率对应数据,即z={z1,z2,...,zh},h≤H,表示一个包含h个以不同采样频率采集的测试样本,zk表示第k个采样频率数据的测试样本,D={D1,...,Dk,...,DH}和X={X1,...,Xk,...,XH}分别表示重构对应样本的字典矩阵和编码系数矩阵,则和分别表示第k个采样频率数据第i个类簇的数据样本在字典Dk和子字典上的编码系数矩阵其包括以下步骤:
进一步的,所述训练阶段A对混合采样数据的训练过程,具体包括步骤:上述目标函数包含三项,第一项为判别保真项,约束字典对类簇样本的重构能力,其应该遵循以下三个原则:第一,对于第k个采样频率数据,字典Dk应该具备重构样本的能力,即最小化误差项第二,与第i类样本相关的子字典应该具备重构样本的能力,即最小化误差项第三,与第i类样本相关的其他类簇子字典不应具备重构样本的能力,所以应该最小化重构误差项从而使第i类子字典对样本重构所占比重最大。判别保真项公式如下:
目标函数第二项为L1范数约束编码系数矩阵Xk的列向量,使其稀疏化,λ1是一个调节参数;第三项为判别系数项f(Xk),以Fisher判别准则约束编码系数矩阵Xk使其更具判别信息,即约束编码系数矩阵Xk,使类内散度SW(Xk)最小化,使类间散度SB(Xk)最大化,λ2是一个调节参数。判别系数项公式如下:
其中,tr(·)表示求矩阵的迹,SW(Xk)和SB(Xk)分别表示编码系数矩阵Xk的类内散度和类间散度,η表示一个调节参数。类内散度和类间散度计算公式如下:
进一步的,所述训练阶段A整个迭代优化算法,采用变量交替更新优化策略,当更新第k(k=1,2,...H)个采样频率数据对应的变量时,其他采样频率数据的对应变量固定;对于第k个采样频率数据,Xk和Dk交替更新。
进一步的,所述训练阶段A整个迭代优化算法具体包括:
Step 1:初始化每个采样频率数据对应子字典遍历带标签的混合采样数据Ak(k=1,...,H)的每个采样频率数据对应的类簇数据,用主成分分析方法(PrincipalComponent Analysis,PCA)初始化每个采样频率数据对应子字典即
Step 4:对每个采样频率数据,循环迭代Step2至Step3,直到目标函数收敛或达到最大迭代次数,输出每个采样频率数据对应的字典Dk和对应的编码系数矩阵Xk。
Sτ/δ(X)=sign(X)max(abs(X)-τ/δ,0)
δ表示迭代步长参数,τ为λ1/2,sign(·)和abs(·)分别表示符号函数和求绝对值函数,max(a,b)表示求a和b中较大值。
B、在分类阶段,分类过程具体包括步骤:
步骤1,通过求解下面的优化函数,获得测试样本z={z1,...,zk,...,zh}在与对应采样数据相关的字典D={D1,...,Dk,...,Dh}上的编码向量v={v1,...,vk,...,vh},vk表示第k个采样频率测试样本zk在字典Dk上的编码向量,β是一个调节参数。分类阶段目标函数如下:
本发明的优点及有益效果如下:
本发明提出一种面向混合采样工业大数据的基于多视图字典学习的分类方法,能够处理工业大数据中因数据采集成本高代价大等因素造成的不同特征集合的数据采样频率不一致的分类问题,该方法极大限度地利用原始数据,更加符合实际情况和很多现实应用场景,能够提供一个扩展性更强的数据挖掘策略,提高算法的精度。
本发明主要创新点包括:
1.基于多视图的混合采样数据分类方法,结合多视图思想,能够处理描述同一对象,以不同采样频率采集的数据集。
2.将Fisher判别字典学习方法运用到混合采样数据分类中,构造新的目标函数,提出了新的混合采样数据分类策略。
3.针对工业大数据中因数据采集成本高代价大等因素导致的数据采集频率不一致问题,利用本发明方法,充分利用原始数据,提升生产状况评估的精度。
附图说明
图1是本发明提供优选实施例面向混合采样工业大数据的基于多视图字典学习的分类方法流程框图;
图2面向混合采样工业大数据的基于多视图字典学习的分类方法的字典学习算法和样本分类算法流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
图1为本发明提出的一种面向混合采样工业大数据的基于多视图字典学习的分类方法的流程框图,其分为两个阶段:字典学习阶段和样本分类阶段。在字典学习阶段,通过考虑判别保真项和判别系数项两个原则,学习每个采样频率数据对应的每个类簇的子字典和编码系数矩阵在样本的分类阶段,首先利用学习到的对应采样频率数据字典Dk对测试样本z进行编码,再根据得到的编码向量vk和类簇子字典对测试样本进行重构,若第i类样本对应的子字典对测试样本的重构误差最小,则表示该样本数据第i类。
Step 1:初始化。用PCA方法初始化字典其中dk和nk分别表示第k个采样频率数据的特征维数和样本数,且有C表示样本的类簇数。遍历带标签的混合采样数据Ak(k=1,...,H)的每个采样频率数据对应的类簇数据,用PCA方法初始化每个采样频率数据对应子字典即
Step 4:对每个采样频率数据,循环迭代Step2至Step3,直到目标函数收敛或达到最大迭代次数,输出每个采样频率数据对应的字典Dk和对应的编码系数矩阵Xk。
B.在样本分类阶段,如图2右侧算法流程图所示,处理步骤如下:
步骤1,通过求解下面公式对测试样本z进行编码,获得测试样本z={z1,z2,...,zh}在与对应采样频率数据相关的字典Dk(k=1,...,h)上的编码向量vk(k=1,...,h)。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (5)
1.面向混合采样工业大数据的基于多视图字典学习分类方法,其特征在于,设A={A1,...,Ak,...,AH}表示一个包含H个以不同采样频率采集的训练样本集,且每个采样频率数据Ak有C个类簇,则第k个采样频率数据样本为其中表示第i个类簇的数据样本,z={z1,...,zk,...,zh}表示一个包含h个以不同采样频率采集的测试样本,zk表示第k个采样频率数据的测试样本,D={D1,...,Dk,...,DH}和X={X1,...,Xk,...,XH}分别表示重构对应样本的字典矩阵和编码系数矩阵,则和分别表示第k个采样频率数据第i个类簇的数据样本在字典Dk和子字典上的编码系数矩阵,包括以下阶段步骤:
A、在训练阶段,通过迭代优化求解下面的目标函数,获得(1)对应第k个采样频率数据第i个类簇的子字典(2)原始数据的每个类簇样本在字典Dk上的编码系数矩阵其中k=1,...,H,i=1,...,C,训练过程目标函数如下:
上述目标函数包含三项,第一项为判别保真项,约束字典对类簇样本的重构能力,其应该遵循以下三个原则:第一,对于第k个采样频率数据,字典Dk应该具备重构样本的能力,即最小化误差项第二,与第i类样本相关的子字典应该具备重构样本的能力,即最小化误差项第三,与第i个类簇样本相关的其他类簇子字典不应具备重构样本的能力,所以应该最小化重构误差项从而使第i个类簇子字典对样本重构所占比重最大,判别保真项公式如下:
目标函数第二项为L1范数约束编码系数矩阵Xk的列向量,使其稀疏化,λ1是一个调节参数;第三项为判别系数项f(Xk),以Fisher判别准则约束编码系数矩阵Xk使其更具判别信息,即约束编码系数矩阵Xk,使类内散度SW(Xk)最小化,使类间散度SB(Xk)最大化,λ2是一个调节参数;判别系数项公式如下:
其中,tr(·)表示求矩阵的迹,SW(Xk)和SB(Xk)分别表示编码系数矩阵Xk的类内散度和类间散度,η表示一个调节参数;类内散度和类间散度计算公式如下:
B、在分类阶段,分类过程具体包括步骤:
步骤1,通过求解下面的优化函数,获得测试样本z={z1,...,zk,...,zh}在与对应采样数据相关的字典D'={D1,...,Dk,...,Dh}上的编码向量v={v1,...,vk,...,vh},vk表示第k个采样频率测试样本zk在字典Dk上的编码向量,β是一个调节参数;分类阶段目标函数如下:
2.根据权利要求1所述的面向混合采样工业大数据的基于多视图字典学习分类方法,其特征在于,所述训练阶段A整个迭代优化算法,采用变量交替更新优化策略,当更新第k个采样频率数据对应的变量时,其他采样频率数据的对应变量固定;对于第k个采样频率数据,Xk和Dk交替更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910429746.7A CN110222738B (zh) | 2019-05-22 | 2019-05-22 | 面向混合采样工业大数据的基于多视图字典学习分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910429746.7A CN110222738B (zh) | 2019-05-22 | 2019-05-22 | 面向混合采样工业大数据的基于多视图字典学习分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222738A CN110222738A (zh) | 2019-09-10 |
CN110222738B true CN110222738B (zh) | 2021-05-18 |
Family
ID=67817949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910429746.7A Active CN110222738B (zh) | 2019-05-22 | 2019-05-22 | 面向混合采样工业大数据的基于多视图字典学习分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222738B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111538759B (zh) * | 2020-04-20 | 2023-09-12 | 中南大学 | 一种基于分布式字典学习的工业过程智能监测方法与系统 |
CN111859307A (zh) * | 2020-08-18 | 2020-10-30 | 久视数字科技(苏州)有限公司 | 可有效提高数据采集和传输效率的数据采集方法及装置 |
CN112613547B (zh) * | 2020-12-16 | 2024-04-09 | 西安交通大学 | 基于Fisher判别字典学习模型的齿轮运行分类方法 |
CN113761215A (zh) * | 2021-03-25 | 2021-12-07 | 中科天玑数据科技股份有限公司 | 一种基于反馈自学习的动态字典库生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503726A (zh) * | 2016-09-19 | 2017-03-15 | 江苏大学 | 一种带标签信息子字典级联学习的电能质量扰动识别方法 |
CN106650769A (zh) * | 2016-09-28 | 2017-05-10 | 南京信息工程大学 | 基于线性表示多视图鉴别字典学习的分类方法 |
CN109034200A (zh) * | 2018-06-22 | 2018-12-18 | 广东工业大学 | 一种基于联合稀疏表示和多视图字典学习的学习方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10776710B2 (en) * | 2015-03-24 | 2020-09-15 | International Business Machines Corporation | Multimodal data fusion by hierarchical multi-view dictionary learning |
-
2019
- 2019-05-22 CN CN201910429746.7A patent/CN110222738B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503726A (zh) * | 2016-09-19 | 2017-03-15 | 江苏大学 | 一种带标签信息子字典级联学习的电能质量扰动识别方法 |
CN106650769A (zh) * | 2016-09-28 | 2017-05-10 | 南京信息工程大学 | 基于线性表示多视图鉴别字典学习的分类方法 |
CN109034200A (zh) * | 2018-06-22 | 2018-12-18 | 广东工业大学 | 一种基于联合稀疏表示和多视图字典学习的学习方法 |
Non-Patent Citations (4)
Title |
---|
《Multi-view analysis dictionary learning for image classification》;Wang Qianyu,et al;《IEEE Access》;20181231(第6期);第659-662页 * |
《Multi-View Synthesis and Analysis Dictionaries Learning for Classification》;Fei Wu,et al;《IEICE TRANSACTIONS on Information and Systems》;20190301;第E102-D卷(第3期);第20174-20183页 * |
《多视图特征学习方法研究》;吴飞;《中国博士学位论文全文数据库 信息科技辑》;20180115(第1期);第I140-31页 * |
《多视图特征选择与降维方法及其应用研究》;杨琬琦;《中国博士学位论文全文数据库 信息科技辑》;20160315(第3期);第I138-183页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110222738A (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222738B (zh) | 面向混合采样工业大数据的基于多视图字典学习分类方法 | |
CN109993280B (zh) | 一种基于深度学习的水下声源定位方法 | |
CN106056628B (zh) | 基于深度卷积神经网络特征融合的目标跟踪方法及系统 | |
CN112101430B (zh) | 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法 | |
CN107689052B (zh) | 基于多模型融合和结构化深度特征的视觉目标跟踪方法 | |
CN114564982B (zh) | 雷达信号调制类型的自动识别方法 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN113159048A (zh) | 一种基于深度学习的弱监督语义分割方法 | |
CN112733965B (zh) | 一种基于小样本学习的无标签图像分类方法 | |
CN108182694B (zh) | 一种基于插值的运动估计与自适应视频重建方法 | |
CN113657491A (zh) | 一种用于信号调制类型识别的神经网络设计方法 | |
CN106599903B (zh) | 基于相关性的加权最小二乘字典学习的信号重构方法 | |
CN111178438A (zh) | 一种基于ResNet101的天气类型识别方法 | |
CN113591948A (zh) | 一种缺陷模式识别方法、装置、电子设备和存储介质 | |
CN113822368A (zh) | 一种基于无锚的增量式目标检测方法 | |
CN113657449A (zh) | 一种含噪标注数据的中医舌象腐腻分类方法 | |
CN106908774B (zh) | 基于多尺度核稀疏保持投影的一维距离像识别方法 | |
CN112132257A (zh) | 基于金字塔池化及长期记忆结构的神经网络模型训练方法 | |
CN111461067A (zh) | 基于先验知识映射及修正的零样本遥感影像场景识别方法 | |
CN112560949B (zh) | 基于多级统计学特征提取的高光谱分类方法 | |
CN114399661A (zh) | 一种实例感知主干网络训练方法 | |
CN105405152A (zh) | 基于结构化支持向量机的自适应尺度目标跟踪方法 | |
CN114495114B (zh) | 基于ctc解码器的文本序列识别模型校准方法 | |
CN116665039A (zh) | 基于两阶段因果干预的小样本目标识别方法 | |
CN115345322A (zh) | 一种基于层级化元迁移的小样本雷达目标识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |