CN110175602A - 基于特征重构和异构数据联合建模的特征选择方法 - Google Patents
基于特征重构和异构数据联合建模的特征选择方法 Download PDFInfo
- Publication number
- CN110175602A CN110175602A CN201910618323.XA CN201910618323A CN110175602A CN 110175602 A CN110175602 A CN 110175602A CN 201910618323 A CN201910618323 A CN 201910618323A CN 110175602 A CN110175602 A CN 110175602A
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- matrix
- formula
- selection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明属于故障监测与诊断技术领域,提出了一种基于特征重构和异构数据联合建模的特征选择方法,包括:1)采集工业生产过程的图像数据;2)对原始数据中的图片进行特征提取,形成图像数据向量;3)基于特征重构和异构数据联合建模,根据对选择的特征的稀疏的要求,增加稀疏项,构造目标函数;4)对上一步中得到的目标函数进行优化求解,对该发明进行仿真验证,用分类方法对特征选择的数据进行故障诊断,确定计算时间、分类准确率。本发明能够实现全流程全视角全周期地描述工况,充分发挥联合大数据的优势,实现降低数据维数的目的,进而可以减少计算量,降低计算时间,有利于实现在线的故障检测。
Description
技术领域
本发明属于故障监测与诊断技术领域,尤其涉及一种基于特征重构和异构数据联合建模的特征选择方法。
背景技术
随着现代工业的迅速发展,现代企业中生产设备日趋大型化、连续化、高速化和自动化,设备的结构与组成十分复杂,生产规模非常庞大,各部门之间的联系也特别密切。实际的生产过程有不仅有大量的物理化学变量和采集到的图像声音等变量,对于不同的生产过程所具有的特征,应选用不同的故障监测方法,这样才能有效地检测到故障。电熔镁炉过程是一个复杂的包含大量的物理化学变量和图像声音的变量的过程。
已有的研究成果局限于把变量数据和多媒体异构数据分开建模分别诊断,其做法忽视了大数据之间的必然联系,失去了大数据固有的优势。
发明内容
针对上述存在的技术问题,本发明提供一种基于特征重构和异构数据联合建模的特征选择方法,包括以下步骤:
步骤1:采集数据;
在电熔镁炉的炉体和炉口处的不同角度分别各安装三个摄像头,通过电熔镁炉现场安装的摄像头拍摄电熔镁炉工作过程中的运行情况,获取电熔镁炉工作过程的视频,并从中提取图片;与此同时,用电流表记录电熔镁炉各个电极的电流,用电压表记录各个电极之间的电压,并将电流和电压数据保存下来,从而得到一段时间的电流和图片时间片刻相对应的异构数据;从中选取一些数据作为原始数据,在选取的过程中,将电流和图片的时刻相对应;
步骤2:对原始数据中的图片进行特征提取,形成图像数据向量;
对图像的特征采用了提取HSV颜色直方图的方法,对电熔镁炉的图像提取的提取HSV颜色直方图特征包括色彩、饱和度和亮度;
提取后将图像数据变为64维的向量,再对数据进行标准化处理,形成最终的数据集其中,xi表示数据点,yi表示该数据点的标记,m为所有数据的数量;将数据集D的全零行删除;
步骤3:基于特征重构和异构数据联合建模,根据对选择的特征的稀疏的要求,增加稀疏项,构造目标函数;
步骤4:对上一步中得到的目标函数进行优化求解,对该发明进行仿真验证,用分类方法对特征选择的数据进行故障诊断,确定计算时间、分类准确率等;
所属步骤3中构造的目标函数如式(1)所示,
其中,X=(x1,…,xm)是一个n×m的数据矩阵,n为每个数据向量的维度,m为数据的数量,每个列向量xi=(x1,…,xn)T都表示一个数据点,是一个n维的向量;用样的还有行向量xj;A为n×n的重构系数矩阵,λ为对角阵Λ的对角线向量,Λ为特征选择矩阵,λ=(λ1,…,λn)T,λi(i=1,…,n)表示第i个特征的重要性,表示数据集中第i个和第j个数据点之间的欧式距离;α、β和γ为平衡参数,用来平衡各个项的作用大小,根据实际情况取值;
式(1)中的第一项表示特征重构,如果将X中的每一个行向量用fi T∈Rm来表示第i个维度的特征,那么就可以得到特征矩阵F=(f1,…,fn),F=XT是一个m×n的矩阵;
在中,当且仅当第i个特征成为选择的特征,令λi=1,这样就得到选择的特征集S={i|1≤i≤n,λi=1},因此FΛ就是数据矩阵X在选择的特征上的投影;重构系数矩阵A=(a1,…,an)∈Rn×n用来将投影矩阵重构成原始的数据矩阵X,其中向量ai表示数据点第i个特征的重构系数向量;
根据以上说明,可以得到第i个特征的重构特征,如式(2)所示:
式(2)中,集合S={j|1≤j≤n,λj=1}表示选择的第j特征的集合,即为用选择的特征的集合重构出的第i个原始特征fi T;
这样就可以得到基于选择的特征的集合重构第i个特征的重构误差:
式(3)中||·||表示向量的2范数;
那么,所有的特征重构的总误差如式(4)所示:
式(4)中,A∈Rn×n是特征重构系数矩阵,||·||F表示矩阵的F范数,通过最小化特征重构的误差,就可以得到从中选择的特征S;
我们选择的特征能有效地重构原始的数据特征,但是除此之外,我们还希望保持数据在原始空间的流形结构不变;
当数据点是同一类时,令特征选择后的数据点距离较近;当数据点是不同类时,令特征选择后的数据点距离较远;可以用式(5)来表示:
其中,C1和C2表示同类数据和不同类数据的权衡参数,表示在原始的数据空间中第i个和第j个数据点之间的欧氏距离,表示特征选择后第i个和第j个数据点之间的欧氏距离;
当xi和xi同一类时,f(xi)=f(xj),这时式(5)中的第二项为0,原始空间中的欧式距离越小,该数据点的系数越大;当xi和xi不同类时,f(xi)=-f(xj),这时式(5)中的第一项为0,原始空间中的欧式距离越大,该数据点的系数越大;根据流形学习理论,数据的流形保持可以通过重点同时优化同类数据距离很近的一些点和不同类数据距离很远的一些点来实现流形保持;f(xi)∈{±1},i=1,...,n,当xi是正常数据时,f(xi)=-1;当xi是故障数据时,f(xi)=1;
式中,矩阵D为对角阵,且矩阵D对角线上的每个元素等于矩阵M相应行的元素之和,Dii=∑jMij;
由于原数据中不仅有图片数据还有电流数据,电熔镁炉的电流的变化一定可以通过电熔镁炉的工作情况反映出来,这里也就意味着,电熔镁炉的电流和图片采集到的数据之间一定是关系密切的;因此,数据在经过特征选择后的流形应该和电流数据的流形保持一致;具体内容如式(6)所示:
其中,表示原始的电流数据中第i个和第j个数据之间的相互关系;在这里,对于每个数据点,采用0-1权重基于图的方式来建立权重矩阵WI,当且仅当第j个数据和第i个数据之间的距离最近时,否则,如式(7)所示:
式(7)中,和分别表示第i个和第j个电流数据;
上述基于数据特征重构和流形保持来学习得到对角矩阵Λ,进而最小化特征重构误差和图流形保持误差;
基于上述的描述可以得到式(8)的目标函数:
所述步骤4的具体方法:
由于式(8)中λi的值只能取0或1,因此式(8)的计算难度很大;所以将式(8)中的约束进行放松,使λi的值可以取[0-1]之间的实数,这种方式常出现在稀疏学习中;根据最终的计算目的,对角阵Λ的解应该尽可能的有更多的0元素来选择尽可能少的特征,因此目标函数中应该增加一项,以达到稀疏Λ的目的;
如果要实现稀疏化的目的,λ向量的2范数和1范数都能实现稀疏的目的;但是由于1范数在计算的过程中无法通过求导来进行计算求解,因此这里采用2范数来实现稀疏化的目的;这样可以得到最后的目标函数:
在对目标函数进行求解的过程中,将第一项化为:
可以将第二项和第三项化为相同的形式,再合并为一项进行计算;令可以得到:
这样可以得到
求解式(12),可以通过交替求解Λ和A来实现;
首先求解Λ:
因此可以通过逐个求解λi,来最终达到求解矩阵Λ的目的;
先对变量λp进行求解;λp表示第p维特征的选择系数,先固定其余的系数,即将其余系数当做常数来计算,可以得到式(13):
其中,表示,除第p个特征外的特征重构的误差;对式(13)进行求导可以得到:
令
根据式(15)可以计算得到λp,那么用同样的方法可以得到其余的λi的值,最终求解出Λ的值;
求解出Λ后,用式(16),来求解出矩阵A
得到矩阵A的值后,重新对矩阵Λ进行求解,这样交替对矩阵Λ和A进行求解,知道两个矩阵的变化小于一个常数为止;
式(17)就可以当做一个循环停止条件,其中,ε为一个较小的常数,在这里ε=0.001,也可以自主设定常数。
本发明的有益效果:
本发明提供的一种于特征重构和异构数据联合建模的特征选择方法,通过统一建立生产流程中的电流变量和图像视频大数据池,能够实现全流程全视角全周期地描述工况;把炉内外监测图像以及电流变量统一在一个数据池协同建模,充分发挥联合大数据的优势;通过对原始数据进行特征选择,实现降低数据维数的目的,进而可以减少计算量,降低计算时间,有利于实现在线的故障检测。
本发明设计合理,易于实现,具有很好的实用价值。
附图说明
图1为本发明实施例提供的采集样本数据经过特征选择后的三维数据散点图;
图2为本发明实施例提供的采集样本数据经过特征选择后的二维数据散点图;
图3为本发明实施例提供的SVM分类器对训练数据1训练后的二维数据散点图;
图4为本发明实施例提供的测试数据1二维数据散点图;
图5为本发明实施例提供的SVM分类器对测试数据1分类结果的二维数据散点图;
图6为本发明实施例提供的SVM分类器对训练数据2训练后的二维数据散点图;
图7为本发明实施例提供的测试数据2二维数据散点图;
图8为本发明实施例提供的SVM分类器对训练数据2训练后的二维数据散点图;
图9为本发明实施例提供的SVM分类器对测试数据2故障诊断分类结果;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施实例,对本发明做出进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提出一种基于特征重构和异构数据联合建模的特征选择方法,包括以下步骤:
步骤1:采集数据;
在电熔镁炉的炉体和炉口处的不同角度分别各安装三个摄像头,通过电熔镁炉现场安装的摄像头拍摄电熔镁炉工作过程中的运行情况,获取电熔镁炉工作过程的视频,并从中提取图片;与此同时,用电流表记录电熔镁炉各个电极的电流,用电压表记录各个电极之间的电压,并将电流和电压数据保存下来,从而得到一段时间的电流和图片时间片刻相对应的异构数据;从中选取一些数据作为原始数据,在选取的过程中,将电流和图片的时刻相对应;
本实施例中,采集的视频为24fps规格,即每秒24帧图像,二电流表采集的电流数据为每秒采集2个数据,因此在视频中每秒选取两张图片和同一秒的2个电流数据作为原始数据;
步骤2:对原始数据中的图片进行特征提取,形成图像数据向量;
对图像的特征采用了提取HSV颜色直方图的方法,对电熔镁炉的图像提取的提取HSV颜色直方图特征包括色彩、饱和度和亮度;
提取后将图像数据变为64维的向量,再对数据进行标准化处理,形成最终的数据集其中,xi表示数据点,yi表示该数据点的标记,m为所有数据的数量;由于图片原始数据的原因,最后形成的数据集D中可能会出现全零行,也就是所有数据的某些维都是0,需要将数据集D的全零行删除;
本实施例中,m=200,其中正常数据和故障数据分别有100个;
本实施例中,数据集D中的部分向量数据如表1所示;表1中展示的是其中10个图片的特征向量,其中序号1-5是故障数据,序号5-10是正常数据;关于向量中各个维度的意义,可以通过HSV颜色直方图的原理得出;HSV颜色直方图中通过分别将色彩、饱和度和亮度分为4各级别,统计不同级别的像素点的数量,从而得到一个64维的向量,再删除掉某些级别所有图片的像素数量为零的行,即全零行,就可以得到如表1所示的53维向量;
表1中有一些全零行,这是因为虽然这10个数据的这些维度是0,但是别的数据在这些维度不是0,因此就没有删除这些行;
表1
电熔镁炉三个电极的电流大小如表2中的数据所示,序号1-5的电流数据为故障数据,序号6-10的电流数据为正常数据;A,B,C分别表示三个电极;
表2
步骤3:基于特征重构和异构数据联合建模,根据对选择的特征的稀疏的要求,增加稀疏项,构造目标函数;
步骤4:对上一步中得到的目标函数进行优化求解,对该发明进行仿真验证,用分类方法对特征选择的数据进行故障诊断,确定计算时间、分类准确率等;
所属步骤3中构造的目标函数如式(1)所示,
其中,X=(x1,…,xm)是一个n×m的数据矩阵,n为每个数据向量的维度,m为数据的数量,每个列向量xi=(x1,…,xn)T都表示一个数据点,是一个n维的向量;用样的还有行向量xj;A为n×n的重构系数矩阵,λ为对角阵Λ的对角线向量,Λ为特征选择矩阵,λ=(λ1,…,λn)T,λi(i=1,…,n)表示第i个特征的重要性,表示数据集中第i个和第j个数据点之间的欧式距离;α、β和γ为平衡参数,用来平衡各个项的作用大小,根据实际情况取值;
式(1)中的第一项表示特征重构,如果将X中的每一个行向量用来表示第i个维度的特征,那么就可以得到特征矩阵F=(f1,…,fn),F=XT是一个m×n的矩阵;
在中,当且仅当第i个特征成为选择的特征,令λi=1,这样就得到选择的特征集S={i|1≤i≤n,λi=1};因此FΛ就是数据矩阵X在选择的特征上的投影;重构系数矩阵A=(a1,…,an)∈Rn×n用来将投影矩阵重构成原始的数据矩阵X,其中向量ai表示数据点第i个特征的重构系数向量;
根据以上说明,可以得到第i个特征的重构特征,如式(2)所示:
式(2)中,集合S={j|1≤j≤n,λj=1}表示选择的第j特征的集合,即为用选择的特征的集合重构出的第i个原始特征fi T;
这样就可以得到基于选择的特征的集合重构第i个特征的重构误差:
式(3)中||·||表示向量的2范数;
那么,所有的特征重构的总误差如式(4)所示:
式(4)中,A∈Rn×n是特征重构系数矩阵,||·||F表示矩阵的F范数,通过最小化特征重构的误差,就可以得到从中选择的特征S;
我们选择的特征能有效地重构原始的数据特征,但是除此之外,我们还希望保持数据在原始空间的流形结构不变;
当数据点是同一类时,令特征选择后的数据点距离较近;当数据点是不同类时,令特征选择后的数据点距离较远;可以用式(5)来表示:
其中,C1和C2表示同类数据和不同类数据的权衡参数,表示在原始的数据空间中第i个和第j个数据点之间的欧氏距离,表示特征选择后第i个和第j个数据点之间的欧氏距离;
当xi和xi同一类时,f(xi)=f(xj),这时式(5)中的第二项为0,原始空间中的欧式距离越小,该数据点的系数越大;当xi和xi不同类时,f(xi)=-f(xj),这时式(5)中的第一项为0,原始空间中的欧式距离越大,该数据点的系数越大;根据流形学习理论,数据的流形保持可以通过重点同时优化同类数据距离很近的一些点和不同类数据距离很远的一些点来实现流形保持;f(xi)∈{±1},i=1,...,n,当xi是正常数据时,f(xi)=-1;当xi是故障数据时,f(xi)=1;
式中,矩阵D为对角阵,且矩阵D对角线上的每个元素等于矩阵M相应行的元素之和,Dii=∑jMij;
由于原数据中不仅有图片数据还有电流数据,电熔镁炉的电流的变化一定可以通过电熔镁炉的工作情况反映出来,这里也就意味着,电熔镁炉的电流和图片采集到的数据之间一定是关系密切的;因此,数据在经过特征选择后的流形应该和电流数据的流形保持一致;具体内容如式(6)所示:
其中,表示原始的电流数据中第i个和第j个数据之间的相互关系;在这里,对于每个数据点,采用0-1权重基于图的方式来建立权重矩阵WI,当且仅当第j个数据和第i个数据之间的距离最近时,否则,如式(7)所示:
式(7)中,和分别表示第i个和第j个电流数据;
上述基于数据特征重构和流形保持来学习得到对角矩阵Λ,进而最小化特征重构误差和图流形保持误差;
基于上述的描述可以得到式(8)的目标函数:
由于式(8)中λi的值只能取0或1,因此式(8)的计算难度很大;所以将式(8)中的约束进行放松,使λi的值可以取[0-1]之间的实数,这种方式常出现在稀疏学习中;根据最终的计算目的,对角阵Λ的解应该尽可能的有更多的0元素来选择尽可能少的特征,因此目标函数中应该增加一项,以达到稀疏Λ的目的;
如果要实现稀疏化的目的,λ向量的2范数和1范数都能实现稀疏的目的;但是由于1范数在计算的过程中无法通过求导来进行计算求解,因此这里采用2范数来实现稀疏化的目的;这样可以得到最后的目标函数:
在对目标函数进行求解的过程中,将第一项化为:
可以将第二项和第三项化为相同的形式,再合并为一项进行计算;令可以得到:
这样可以得到
求解式(12),可以通过交替求解Λ和A来实现;
首先求解Λ:
因此可以通过逐个求解λi,来最终达到求解矩阵Λ的目的;
先对变量λp进行求解;λp表示第p维特征的选择系数,先固定其余的系数,即将其余系数当做常数来计算,可以得到式(13):
其中,表示,除第p个特征外的特征重构的误差;对式(13)进行求导可以得到:
令
根据式(15)可以计算得到λp,那么用同样的方法可以得到其余的λi的值,最终求解出Λ的值;
求解出Λ后,用式(16),来求解出矩阵A
得到矩阵A的值后,重新对矩阵Λ进行求解,这样交替对矩阵Λ和A进行求解,知道两个矩阵的变化小于一个常数为止;
式(17)就可以当做一个循环停止条件,其中,ε为一个较小的常数,在这里ε=0.001,也可以自主设定常数;
将本发明方法对原始数据进行特征选择,在进行特征选择后,根据特征选择的特征维度可以将测试数据进行降维;图1为用本发明方法对采样数据进行特征选择后的三维数据散点图;为了有利于下一步的分类方法检验和数据的可视效果,可以将数据降维成两维数据,图2即为用本发明方法对采样数据进行二维特征选择后的二维数据散点图;降维后,利用MATLAB中的SVM分类方法对测试数据进行分类,实现故障诊断的目的;分类结果如图5所示;图3和图4中采用的训练数据集1和测试数据集1都是对图片进行适当的裁剪后再进行特征提取得到的数据集;相对来说裁剪后的图片由于裁剪后像素点的数量和颜色种类较少,无论是特征提取过程还是特征选择的过程用时都较少;图6和图7中采用的训练数据集2和测试数据集2都未对图片进行裁剪,直接进行特征提取得到的数据集;对于这样的原始数据,同样地用本发明方法进行处理后再进行分类方法检验;图8为用SVM分类器对测试数据2分类结果的二维数据散点图,为了更加直观地说明分类的结果,分别用0和1表示正常和故障两种状态,图9为用SVM分类器对测试数据2更直观的故障诊断分类结果,从图中可以看出只有一个数据点分类错误,分类准确率为99.5%,较高的分类准确率可以说明本发明方法的优越性。
Claims (3)
1.一种基于特征重构和异构数据联合建模的特征选择方法,其特征在于,包括以下步骤:
步骤1:采集数据;
在电熔镁炉的炉体和炉口处的不同角度分别各安装三个摄像头,通过电熔镁炉现场安装的摄像头拍摄电熔镁炉工作过程中的运行情况,获取电熔镁炉工作过程的视频,并从中提取图片;与此同时,用电流表记录电熔镁炉各个电极的电流,用电压表记录各个电极之间的电压,并将电流和电压数据保存下来,从而得到一段时间的电流和图片时间刻度相对应的异构数据;从中选取一些数据作为原始数据,在选取的过程中,将电流和图片的时刻相对应;
步骤2:对原始数据中的图片进行特征提取,形成图像数据向量;
对图像的特征提取采用了提取HSV颜色直方图的方法,对电熔镁炉的图像提取的HSV颜色直方图特征包括色彩、饱和度和亮度;
提取后将图像数据变为64维的向量,再对数据进行标准化处理,形成最终的数据集其中,xi表示数据点,yi表示该数据点的标记,m为所有数据的数量;将数据集D的全零行删除;
步骤3:基于特征重构和异构数据联合建模,根据对选择的特征的稀疏的要求,增加稀疏项,构造目标函数;
步骤4:对上一步中得到的目标函数进行优化求解,对该发明进行仿真验证,用分类方法对特征选择的数据进行故障诊断,确定计算时间、分类准确率等。
2.根据权利要求1所述的基于特征重构和异构数据联合建模的特征选择方法,其特征在于,
所述步骤3中构造的目标函数如式(1)所示,
其中,X=(x1,…,xm)是一个n×m的数据矩阵,n为每个数据向量的维度,m为数据的数量,每个列向量xi=(x1,…,xn)T都表示一个数据点,是一个n维的向量,同样的还有行向量xj;A为n×n的重构系数矩阵,λ为对角阵Λ的对角线向量,Λ为特征选择矩阵,λ=(λ1,…,λn)T,λi(i=1,…,n)表示第i个特征的重要性,表示数据集中第i个和第j个数据点之间的欧氏距离;α、β和γ为平衡参数,用来平衡各个项的作用大小,根据实际情况取值;
式(1)中的第一项表示特征重构,如果将X中的每一个行向量用fi T∈Rm来表示第i个维度的特征,那么就可以得到特征矩阵F=(f1,…,fn),F=XT是一个m×n的矩阵;
在中,当且仅当第i个特征成为选择的特征,令λi=1,这样就得到选择的特征集S={i|1≤i≤n,λi=1};因此FΛ就是数据矩阵X在选择的特征上的投影;重构系数矩阵A=(a1,…,an)∈Rn×n用来将投影矩阵重构成原始的数据矩阵X,其中向量ai表示数据点第i个特征的重构系数向量;
根据以上说明,可以得到第i个特征的重构特征,如式(2)所示:
式(2)中,集合S={j|1≤j≤n,λj=1}表示选择的第j特征的集合,即为用选择的特征的集合重构出的第i个原始特征fi T;
这样就可以得到基于选择的特征的集合重构第i个特征的重构误差:
式(3)中||·||表示向量的2范数;
那么,所有的特征重构的总误差如式(4)所示:
式(4)中,A∈Rn×n是特征重构系数矩阵,||·||F表示矩阵的F范数,通过最小化特征重构的误差,就可以得到从中选择的特征S;
我们选择的特征能有效地重构原始的数据特征,但是除此之外,我们还希望保持数据在原始空间的流形结构不变;
当数据点是同一类时,令特征选择后的数据点距离较近;当数据点是不同类时,令特征选择后的数据点距离较远;可以用式(5)来表示:
其中,C1和C2表示同类数据和不同类数据的权衡参数,表示在原始的数据空间中第i个和第j个数据点之间的欧氏距离,表示特征选择后第i个和第j个数据点之间的欧氏距离;
当xi和xi同一类时,f(xi)=f(xj),这时式(5)中的第二项为0,原始空间中的欧式距离越小,该数据点的系数越大;当xi和xi不同类时,f(xi)=-f(xj),这时式(5)中的第一项为0,原始空间中的欧式距离越大,该数据点的系数越大;根据流形学习理论,数据的流形保持可以通过重点同时优化同类数据距离很近的一些点和不同类数据距离很远的一些点来实现流形保持;f(xi)∈{±1},i=1,...,n,当xi是正常数据时,f(xi)=-1;当xi是故障数据时,f(xi)=1;
式中,矩阵D为对角阵,且矩阵D对角线上的每个元素等于矩阵M相应行的元素之和,Dii=∑jMij;
由于原数据中不仅有图片数据还有电流数据,电熔镁炉的电流的变化一定可以通过电熔镁炉的工作情况反映出来,这里也就意味着,电熔镁炉的电流和图片采集到的数据之间一定是关系密切的;因此,数据在经过特征选择后的流形应该和电流数据的流形保持一致;具体内容如式(6)所示:
其中,表示原始的电流数据中第i个和第j个数据之间的相互关系;在这里,对于每个数据点,采用0-1权重基于图的方式来建立权重矩阵WI,当且仅当第j个数据和第i个数据之间的距离最近时,否则,如式(7)所示:
式(7)中,和分别表示第i个和第j个电流数据;
上述基于数据特征重构和流形保持来学习得到对角矩阵Λ,进而最小化特征重构误差和图流形保持误差;
基于上述的描述可以得到式(8)的目标函数:
3.根据权利要求2所述的基于特征重构和异构数据联合建模的特征选择方法,其特征在于,所述步骤4的具体方法:
由于式(8)中λi的值只能取0或1,因此式(8)的计算难度很大;所以将式(8)中的约束进行放松,使λi的值可以取[0-1]之间的实数,这种方式常出现在稀疏学习中;根据最终的计算目的,对角阵Λ的解应该尽可能的有更多的0元素来选择尽可能少的特征,因此目标函数中应该增加一项,以达到稀疏Λ的目的;
如果要实现稀疏化的目的,λ向量的2范数和1范数都能实现稀疏的目的;但是由于1范数在计算的过程中无法通过求导来进行计算求解,因此这里采用2范数来实现稀疏化的目的;这样可以得到最后的目标函数:
在对目标函数进行求解的过程中,将第一项化为:
可以将第二项和第三项化为相同的形式,再合并为一项进行计算;令可以得到:
这样可以得到
求解式(12),可以通过交替求解Λ和A来实现;
首先求解Λ:
因此可以通过逐个求解λi,来最终达到求解矩阵Λ的目的;
先对变量λp进行求解;λp表示第p维特征的选择系数,先固定其余的系数,即将其余系数当做常数来计算,可以得到式(13):
其中,表示,除第p个特征外的特征重构的误差;对式(13)进行求导可以得到:
令
根据式(15)可以计算得到λp,那么用同样的方法可以得到其余的λi的值,最终求解出Λ的值;
求解出Λ后,用式(16),来求解出矩阵A
得到矩阵A的值后,重新对矩阵Λ进行求解,这样交替对矩阵Λ和A进行求解,知道两个矩阵的变化小于一个常数为止;
式(17)就可以当做一个循环停止条件,其中,ε为一个较小的常数,在这里ε=0.001,也可以自主设定常数。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910189233 | 2019-03-13 | ||
CN2019101892333 | 2019-03-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110175602A true CN110175602A (zh) | 2019-08-27 |
CN110175602B CN110175602B (zh) | 2023-02-14 |
Family
ID=67699946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910618323.XA Active CN110175602B (zh) | 2019-03-13 | 2019-07-10 | 基于特征重构和异构数据联合建模的特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110175602B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885027A (zh) * | 2019-03-13 | 2019-06-14 | 东北大学 | 基于双向二维稀疏正交判别分析的工业过程故障诊断方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170261264A1 (en) * | 2017-05-25 | 2017-09-14 | Northeastern University | Fault diagnosis device based on common information and special information of running video information for electric-arc furnace and method thereof |
WO2017210894A1 (zh) * | 2016-06-08 | 2017-12-14 | 东北大学 | 基于运行视频信息的一种电弧炉故障监测方法 |
CN107976992A (zh) * | 2017-11-29 | 2018-05-01 | 东北大学 | 基于图半监督支持向量机的工业过程大数据故障监测方法 |
CN108038493A (zh) * | 2017-11-24 | 2018-05-15 | 东北大学 | 基于回归智能判别嵌入的工业大数据过程故障监测方法 |
-
2019
- 2019-07-10 CN CN201910618323.XA patent/CN110175602B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017210894A1 (zh) * | 2016-06-08 | 2017-12-14 | 东北大学 | 基于运行视频信息的一种电弧炉故障监测方法 |
US20170261264A1 (en) * | 2017-05-25 | 2017-09-14 | Northeastern University | Fault diagnosis device based on common information and special information of running video information for electric-arc furnace and method thereof |
CN108038493A (zh) * | 2017-11-24 | 2018-05-15 | 东北大学 | 基于回归智能判别嵌入的工业大数据过程故障监测方法 |
CN107976992A (zh) * | 2017-11-29 | 2018-05-01 | 东北大学 | 基于图半监督支持向量机的工业过程大数据故障监测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885027A (zh) * | 2019-03-13 | 2019-06-14 | 东北大学 | 基于双向二维稀疏正交判别分析的工业过程故障诊断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110175602B (zh) | 2023-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Positive sample propagation along the audio-visual event line | |
CN108073888A (zh) | 一种教学辅助方法及采用该方法的教学辅助系统 | |
CN109711283A (zh) | 一种联合双字典和误差矩阵的遮挡表情识别算法 | |
CN105654141A (zh) | 基于Isomap和SVM算法的俯视群养猪个体识别方法 | |
CN109886929B (zh) | 一种基于卷积神经网络的mri肿瘤体素检测方法 | |
CN109961037A (zh) | 一种考场视频监控异常行为特征识别方法 | |
CN110648331B (zh) | 用于医学图像分割的检测方法、医学图像分割方法及装置 | |
CN112507904B (zh) | 一种基于多尺度特征的教室人体姿态实时检测方法 | |
CN102034267A (zh) | 基于关注度的目标物三维重建方法 | |
CN110457515A (zh) | 基于全局特征捕捉聚合的多视角神经网络的三维模型检索方法 | |
CN110503078A (zh) | 一种基于深度学习的远距离人脸识别方法和系统 | |
CN110222556A (zh) | 一种人体动作识别系统及方法 | |
Zhang et al. | Patch diffusion: a general module for face manipulation detection | |
CN110717978B (zh) | 基于单张图像的三维头部重建方法 | |
CN112420170A (zh) | 一种提高计算机辅助诊断系统图片分类准确度的方法 | |
Liu et al. | Kiwifruit leaf disease identification using improved deep convolutional neural networks | |
CN111739037A (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
Zheng et al. | Unsupervised pose flow learning for pose guided synthesis | |
CN110175602A (zh) | 基于特征重构和异构数据联合建模的特征选择方法 | |
Li et al. | Real-time crowd density estimation based on convolutional neural networks | |
CN108090905B (zh) | 产线异常的判断方法及系统 | |
CN116805360B (zh) | 一种基于双流门控渐进优化网络的显著目标检测方法 | |
Mo et al. | Towards accurate facial motion retargeting with identity-consistent and expression-exclusive constraints | |
CN108765384B (zh) | 一种联合流形排序和改进凸包的显著性检测方法 | |
Guo | [Retracted] System Analysis of the Learning Behavior Recognition System for Students in a Law Classroom: Based on the Improved SSD Behavior Recognition Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |