CN102890718A - 基于有监督显式流形学习算法的电子鼻数据挖掘方法 - Google Patents
基于有监督显式流形学习算法的电子鼻数据挖掘方法 Download PDFInfo
- Publication number
- CN102890718A CN102890718A CN2012103825859A CN201210382585A CN102890718A CN 102890718 A CN102890718 A CN 102890718A CN 2012103825859 A CN2012103825859 A CN 2012103825859A CN 201210382585 A CN201210382585 A CN 201210382585A CN 102890718 A CN102890718 A CN 102890718A
- Authority
- CN
- China
- Prior art keywords
- point
- matrix
- explicit
- electronic nose
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种有监督显式流形学习算法进行电子鼻数据挖掘的方法。其中显式流形学习算法对电子鼻数据进行数据挖掘的方法的步骤包括:气体样本的采集、气体样本的特征提取、确定特征值矩阵中各点的近邻、计算任意两特征值点的关系和显式流形算法的数据降维。有监督的显式流形学习算法对电子鼻数据进行数据挖掘包括上述全部步骤并在气体样本的特征提取后增加一步:考虑类别信息确定特征值矩阵中各点的近邻。本发明的有益效果为:利用显式流形学习算法进行电子鼻数据降维,给出了显式降维表达式;利用有监督流形学习算进行电子鼻数据降维,考虑到了特征值矩阵中不同来源的各点之间的关系差异,这一细节信息的保留是电子鼻系统高判别率的保障。
Description
技术领域
本发明涉及电子鼻气体检测领域,具体涉及一种基于有监督显式流形学习算法的电子鼻数据挖掘方法。
背景技术
现代电子鼻系统的气体传感器阵列通常包含数十个气味传感器,其中光学型传感器阵列甚至包含成百上千个传感单元,由此阵列获得的气体样本数据的维数相当庞大,直接将该样本数据输入到人工智能算法进行模式判别的效果非常不理想,这主要是因为电子鼻的传感器阵列具有交叉敏感性的特点,即对同一种气体,传感器阵列中的多个单元都会做出响应,这样在降低因个别传感器工作异常影响系统决策风险的同时也增加了数据的冗余度。
电子鼻数据挖掘处理包括特征提取和降维,其中特征提取是对单个传感器获得的数据进行处理,提取能够表征所采集的气体信号的特征量,构成特征值矩阵。目前特征提取方法发展的比较成熟,现有方法完全能满足电子鼻数据特征提取的要求;降维主要是对特征值矩阵进行维数约减。因为电子鼻数据具有特殊性,因此许多传统的降维算法在对维数进行约减的同时,常发生关键信息的丢失,导致电子鼻在具体应用过程中发生误判,无法满足其应用要求。
电子鼻作为人工模拟嗅觉系统,为了使系统能够“深刻记忆”某气体的特征,需要大量采集该气体样本,同时为了使系统能够对多种气体进行判别,需要采集多种气体的样本数据供电子鼻系统训练。由此导致用于电子鼻训练的样本数据具有非线性、非均匀分布的特征,传统的数据降维算法像主成分分析((Principal Component Analysis,PCA)属于线性降维方法,对待降维数据整体使用统一的映射处理,导致许多局部结构信息在降维过程中被丢弃,使得电子鼻因关键信息的丢失而做出错误的决策。
流形学习算法是一种着眼于局部结构保持的数据降维方法,在进行降维的同时,将原数据的局部结构信息传递给降维后的数据,既降低了数据的冗余度又保留了关键信息,是一种理想的数据降维方法,但传统的流形学习算法在对电子鼻数据进行降维的过程中出现了两个问题:
1.因为流形学习算法着眼于局部结构保持,因此无法给出显式映射表达式,这导致其只能对电子鼻系统的训练用数据进行降维,而无法对新采集数据进行降维,导致采用流形学习算法的电子鼻系统无法应用到气体检测的实践环节;
2.传统的流形学习算法是无监督算法,对电子鼻系统的训练用数据的局部结构进行保持时,没有考虑类内与类间特征值点之间关系的差异,这一细节信息的忽略直接导致电子鼻进行模式判别时出现错误。
从目前的国内文献研究中,未曾看到有关使用有监督显式流形学习算法进行电子鼻数据挖掘的报道。
发明内容
本发明所要解决的第一个技术问题就是提供一种基于显式流形学习算法的电子鼻数据挖掘方法,它能够在降维过程中保持数据的局部结构并给出显式映射表达式,使得电子鼻系统能够用于新采集数据的判别。
本发明所要解决的第二个技术问题就是提供一种基于有监督显式流形学习算法的电子鼻数据挖掘方法,它能够在降维时考虑到类内和类间特征值点的关系差异,提高电子鼻系统模式判别的正确率。
为了解决本发明所提出的第一个技术问题,本发明包括以下步骤:
步骤1、气体样本的采集
调整实验室温、湿度环境,使得电子鼻系统的各传感器能够正常工作,对不同种类气体中的每一个样本,均进行不少于20次的气体采集实验,获得电子鼻训练用数据;
步骤2、气体样本的特征提取
对获得的电子鼻训练数据进行特征提取,并构成特征值矩阵X,矩阵X的维数是[m×n],其中m表示特征值点的总数,在数值上等于气体采样实验的总次数,n表示每一个特征值点的维数,由传感器阵列中传感器个数和特征提取方法共同决定,常见的特征提取方法主要包括:
1、基于传感器原始响应曲线,该类方法主要对气体传感器的响应曲线进行特征提取,常用的特征包括:最大值、斜率、响应曲线的积分面积等;
2、基于拟合曲线,该类方法首先使用适当的模型拟合原始响应曲线,然后再提取模型参数作为特征,常见的用于电子鼻数据拟合的模型有多项式模型、指数模型、分式函数模型等;
3、基于变换域的特征提取方法,首先对原始响应进行适当的变换,然后提取变换系数作为特征,常见的电子鼻数据变换域特征提取方法包括:傅里叶变换、小波变换等;
步骤3、确定特征值矩阵中各点的近邻
确定特征值矩阵中每个点的近邻,常用的确定近邻关系有两种方法:
1、ε-bal法:在以点xi,i=1,..n为圆心,以ε为半径的范围内的所有点都是xi的近邻;
2、k-nearest法:离点xi最近的k个点是xi的近邻且k<n;
步骤4、计算任意两特征值点的关系
如果特征值矩阵X中点xj是xi的近邻点,那么两者之间的关系wi,j按照某一规则取一个不为零的正数且xi与xj的关系越紧密wi,j的值就越大;如果特征值点xj不是xi的近邻点,那么两者之间的关系wi,j=0;
步骤5、显式流形学习算法的数据降维
YT=AXT
其中,YT是低维目标矩阵Y的转置形式,矩阵Y的维数是[m×l],m表示点的总数,等于矩阵X中特征值点的总数,l表示每一个点的维数且l<n,A是显式映射系数矩阵,特征值矩阵中的点xi和点xj的近邻关系通过wi,j传递给目标矩阵Y中的点yi和点yj,常用的近邻关系传递方法如下式所示:
其中,yi和点yj分别是目标矩阵Y中元素且i≠j,若特征值矩阵X中点xi和xj是近邻且两者距离越近,其近邻关系wi,j的值就会越大,此时上式要取最小值,则(yi-yj)2项的值就必须尽量的小,如此,将特征值矩阵中的点xi和点xj的近邻关系传递给了目标矩阵Y中的点yi和点yj,然后通过求解上式所描述的最优化问题得到显式映射系数矩阵A,得到显式映射表达式并完成降维。
为了解决本发明所提出的第二个技术问题,本发明的技术方案为:
包括上述的基于显式流形学习算法对电子鼻数据进行数据挖掘的全部步骤,并在步骤2后增加一个步骤A。
步骤A、考虑类别信息确定特征值矩阵中各点的近邻
将近邻关系的确定限定在特征值矩阵中的同类别点之间进行,如果点xi和xj来源于同一类气体,则进入步骤3判断xj是否是xi的近邻点;如果点xi和xj来源于不同气体,则跳过近邻关系判断,直接令点xi和xj的关系wi,j=0。
本发明的有益效果为:
1、本发明利用显式流形学习算法进行电子鼻数据降维,给出了流形学习算法的显式降维表达式,解决了流形学习算法无法对电子鼻系统获得的新数据进行判别的难题;
2、本发明利用有监督流形学习算进行电子鼻数据降维,考虑到了特征值矩阵中不同来源的各点之间的关系差异,这一细节信息的保留是电子鼻系统高判别正确率的保障。
附图说明
本发明的附图说明如下:
图1为本发明流程框图;
图2为TGS825对绿脓杆菌伤口的顶空代谢气体的响应曲线;
图3为电子鼻系统的特征值矩阵结构;
图4为k-nearest近邻关系示意图;
图5为实验数据分组处理过程流程图。
具体实施方式
下面结合具体实施例和说明书附图对本发明作进一步说明。此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
在实施例中,电子鼻系统用于伤口感染诊断,主要涉及临床上常见的伤口病原菌感染。本发明的显式流形学习算法采用局部保持映射算法(LocalityPreserving Projections,LPP),有监督流形学习算法采用有监督的局部保持映射算法(Supervised Locality Preserving Projections,S-LPP)。
本发明的实施例中,基于LPP的电子鼻数据挖掘方法,包括以下步骤:
步骤1、气体样本的采集
本实施例所使用的电子鼻系统的传感器阵列由15个气体传感器构成,分别是TGS800、TGS813、TGS816、TGS822、TGS825、TGS826、TGS2600、TGS2602、TGS2620、WSP2111、MQ135、MQ138、QS-01、SP3S-AQ2和AQ,因此获得的电子鼻原始响应数据的维数是15。将实验室温、湿度环境控制在能使各传感器正常工作的范围内并开展动物实验,实验中20只大鼠被平分成4组,按照组别每组大鼠伤口分别感染不同的病原菌,使用构建的电子鼻系统对每只大鼠伤口的气体代谢产物进行采样,每个伤口重复采样5次,共获得80个电子鼻原始响应矩阵。其中,TGS825对绿脓杆菌伤口的顶空代谢气体的响应曲线如图2所示。
步骤2、气体样本的特征提取
将传感器阵列的原始响应矩阵中每个传感器的响应曲线的最大值点作为用来表征气体的特征点,共得到80个维数是15的电子鼻数据特征值点,表示成[80×15]的特征值矩阵,该矩阵的具体信息如图2所示。
步骤3、确定特征值矩阵中各点的近邻
在本实施例中使用k-nearest法确定特征值矩阵中点xi,i=1,2,...,80的近邻点,k-nearest法确定近邻的示意图如图4所示。
步骤4、计算任意两特征值点的关系
步骤5、LPP对电子鼻数据的降维
LPP算法中将特征值矩阵中点之间的近邻关系保持到目标矩阵的过程如下所示:
其中,yi和yj分别是目标矩阵Y中元素,将YT=AXT代入上式并使用拉格朗日乘数法对该最优化问题进行求解,最终得到下式:
XLXTA=λXDXTA
按照求解特征值和特征向量的方式求解上式便可最终得到显式映射系数矩阵A并完成降维。
本发明提出的基于有监督显式流形学习算法进行电子鼻数据挖掘的方法包括上述的LPP算法对电子鼻数据进行数据挖掘的全部步骤,并在步骤2后增加一个步骤A。
步骤A、考虑类别信息确定特征值矩阵中各点近邻
如果特征值矩阵中点xi和xj来源于同一类气体,则进入步骤3判断xj是否是xi的近邻点;如果点xi和xj来源于不同类气体,则跳过近邻关系判断,直接令点wi,j=0。
本发明的实验效果
为证明本发明在实施实例中的降维效果,本实验设定不同对照组分别采用不同的降维方法对电子鼻系统的特征值矩阵进行降维:第一组不使用任何降维方法;第二组使用PCA法;第三组采用LPP算法;第四组采用S-LPP算法。为了排除降维算法应用的局限性,将经过以上不同方法处理的数据分别输入到径向基网络(Radial Basis Function,RBF)和支持向量机(SupportVector Machine,SVM)两种人工智能机中进行伤口模式判别。预设可容忍的目标矩阵Y的维数l≤7。数据分组处理过程如图5所示,分组实验结果如表1、表2所示。
表1
目标维数 | RBF识别率 | |
不降维 | 15 | 82.5% |
PCA | 7 | 72.5% |
LPP | 7 | 75% |
S-LPP | 7 | 90% |
备注:识别率等于正确分类的点的个数/总个数(本实施例中特征值矩阵中点的总数是80)。
表2
目标维数 | SVM识别率 | |
不降维 | 15 | 85% |
PCA | 7 | 76.25% |
LPP | 7 | 77.5% |
S-LPP | 7 | 93.75% |
从表1、表2中可以看到,特征值矩阵如果不降维直接送进人工智能机进行模式判别的正确率仅为82.5%、85%;使用PCA算法时人工智能机的分类正确率明显下降,表明虽在处理过程中降低了数据维数但却丢失了重要信息;表1、表2中当LPP算法的目标维数设定为7时,RBF和SVM的识别正确率虽高于PCA组但仍低于未降维组,说明在降维过程中局部结构没有得到保持;对于两个不同的人工智能机,使用S-LPP算法进行降维后,数据维数降低的同时,智能机的分类正确率却达到了最高,达到了数据降维且最大程度保留数据结构等关键信息的目的,表明类别是非常重要的局部结构信息。实验证明了有监督显式流形学习算法对电子鼻数据进行数据挖掘的优秀表现。
Claims (2)
1.基于显式流形学习算法的电子鼻数据挖掘方法,其特征是,该方法包括以下步骤:
步骤1、气体样本的采集
调整实验室温、湿度环境,使得电子鼻系统的各传感器能够正常工作,对不同种类气体中的每一个样本,均进行不少于20次的气体采集实验,获得电子鼻训练用数据;
步骤2、气体样本的特征提取
对获得的电子鼻训练数据进行特征提取,并构成特征值矩阵X,矩阵X的维数是[m×n],其中m表示特征值点的总数,在数值上等于气体采样实验的总次数,n表示每一个特征值点的维数,由传感器阵列中传感器个数和特征提取方法共同决定,常见的特征提取方法主要包括:
1、基于传感器原始响应曲线,该类方法主要对气体传感器的响应曲线进行特征提取,常用的特征包括:最大值、斜率、响应曲线的积分面积等;
2、基于拟合曲线,该类方法首先使用适当的模型拟合原始响应曲线,然后再提取模型参数作为特征,常见的用于电子鼻数据拟合的模型有多项式模型、指数模型、分式函数模型等;
3、基于变换域的特征提取方法,首先对原始响应进行适当的变换,然后提取变换系数作为特征,常见的电子鼻数据变换域特征提取方法包括:傅里叶变换、小波变换等;
步骤3、确定特征值矩阵中各点的近邻
确定特征值矩阵中每个点的近邻,常用的确定近邻关系有两种方法:
1、ε-ball法:在以点xi,i=1,..n为圆心,以ε为半径的范围内的所有点都是xi的近邻;
2、k-nearest法:离点xi最近的k个点是xi的近邻且k<n;
步骤4、计算任意两特征值点的关系
如果特征值矩阵X中点xj是xi的近邻点,那么两者之间的关系wi,j按照某一规则取一个不为零的正数且xi与xj的关系越紧密wi,j的值就越大;如果特征值点xj不是xi的近邻点,那么两者之间的关系wi,j=0;
步骤5、显式流形学习算法的数据降维
YT=AXT
其中,YT是低维目标矩阵Y的转置形式,矩阵Y的维数是[m×l],m表示点的总数,等于矩阵X中特征值点的总数,l表示每一个点的维数且l<n,A是显式映射系数矩阵,特征值矩阵中的点xi和点xj的近邻关系通过wi,j传递给目标矩阵Y中的点yi和点yj,常用的近邻关系传递方法如下式所示:
其中,yi和点yj分别是目标矩阵Y中元素且i≠j,若特征值矩阵X中点xi和xj是近邻且两者距离越近,其近邻关系wi,j的值就会越大,此时上式要取最小值,则(yi-yj)2项的值就必须尽量的小,如此,将特征值矩阵中的点xi和点xj的近邻关系传递给了目标矩阵Y中的点yi和点yj,然后通过求解上式所描述的最优化问题得到显式映射系数矩阵A,得到显式映射表达式并完成降维。
2.基于有监督显式流形学习算法的电子鼻数据挖掘方法包括上述全部步骤,并在步骤2后增加一个步骤A:
步骤A、考虑类别信息确定特征值矩阵中各点的近邻
将近邻关系的确定限定在特征值矩阵中的同类别点之间进行,如果点xi和xj来源于同一类气体,则进入步骤3判断xj是否是xi的近邻点;如果点xi和xj来源于不同气体,则跳过近邻关系判断,直接令点xi和xj的关系wi,j=0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210382585.9A CN102890718B (zh) | 2012-10-10 | 2012-10-10 | 基于有监督显式流形学习算法的电子鼻数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210382585.9A CN102890718B (zh) | 2012-10-10 | 2012-10-10 | 基于有监督显式流形学习算法的电子鼻数据挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102890718A true CN102890718A (zh) | 2013-01-23 |
CN102890718B CN102890718B (zh) | 2015-04-08 |
Family
ID=47534220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210382585.9A Expired - Fee Related CN102890718B (zh) | 2012-10-10 | 2012-10-10 | 基于有监督显式流形学习算法的电子鼻数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102890718B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653670A (zh) * | 2015-12-29 | 2016-06-08 | 中国电力科学研究院 | 一种基于流形学习聚类算法的智能用电数据挖掘方法 |
CN105891422A (zh) * | 2016-04-08 | 2016-08-24 | 重庆大学 | 基于源域迁移极限学习漂移补偿的电子鼻气体识别方法 |
CN106338597A (zh) * | 2016-10-18 | 2017-01-18 | 哈尔滨工业大学深圳研究生院 | 呼吸气体测量的方法及系统 |
CN106563645A (zh) * | 2016-11-01 | 2017-04-19 | 上海师范大学 | 一种基于张量分解的压电薄膜传感器智能分拣方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001036961A1 (en) * | 1999-11-15 | 2001-05-25 | Cyrano Sciences, Inc. | Referencing and rapid sampling in artificial olfactometry |
CN1482453A (zh) * | 2003-07-11 | 2004-03-17 | 华东理工大学 | 一种基于模块化组合神经网络的机器嗅觉气味识别方法 |
US6772139B1 (en) * | 1998-10-05 | 2004-08-03 | Smith, Iii Julius O. | Method and apparatus for facilitating use of hypertext links on the world wide web |
-
2012
- 2012-10-10 CN CN201210382585.9A patent/CN102890718B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6772139B1 (en) * | 1998-10-05 | 2004-08-03 | Smith, Iii Julius O. | Method and apparatus for facilitating use of hypertext links on the world wide web |
WO2001036961A1 (en) * | 1999-11-15 | 2001-05-25 | Cyrano Sciences, Inc. | Referencing and rapid sampling in artificial olfactometry |
CN1482453A (zh) * | 2003-07-11 | 2004-03-17 | 华东理工大学 | 一种基于模块化组合神经网络的机器嗅觉气味识别方法 |
Non-Patent Citations (1)
Title |
---|
邵雅雯,骆德汉,武琳,李江勇: ""基于最大散度差准则LDA的电子鼻中药材鉴别方法"", 《仪表技术与传感器》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653670A (zh) * | 2015-12-29 | 2016-06-08 | 中国电力科学研究院 | 一种基于流形学习聚类算法的智能用电数据挖掘方法 |
CN105653670B (zh) * | 2015-12-29 | 2020-12-29 | 中国电力科学研究院 | 一种基于流形学习聚类算法的智能用电数据挖掘方法 |
CN105891422A (zh) * | 2016-04-08 | 2016-08-24 | 重庆大学 | 基于源域迁移极限学习漂移补偿的电子鼻气体识别方法 |
CN105891422B (zh) * | 2016-04-08 | 2017-08-25 | 重庆大学 | 基于源域迁移极限学习漂移补偿的电子鼻气体识别方法 |
CN106338597A (zh) * | 2016-10-18 | 2017-01-18 | 哈尔滨工业大学深圳研究生院 | 呼吸气体测量的方法及系统 |
CN106563645A (zh) * | 2016-11-01 | 2017-04-19 | 上海师范大学 | 一种基于张量分解的压电薄膜传感器智能分拣方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102890718B (zh) | 2015-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110336534B (zh) | 一种基于光伏阵列电气参数时间序列特征提取的故障诊断方法 | |
CN109711609B (zh) | 基于小波变换和极限学习机的光伏电站输出功率预测方法 | |
CN105550744A (zh) | 一种基于迭代的神经网络聚类方法 | |
CN111680725B (zh) | 基于重构贡献的气体传感器阵列多故障隔离算法 | |
CN103747477A (zh) | 网络流量分析与预测方法和装置 | |
CN102890718B (zh) | 基于有监督显式流形学习算法的电子鼻数据挖掘方法 | |
CN109450405A (zh) | 一种应用于ad采集中的复合式软件滤波方法及系统 | |
CN111008726A (zh) | 一种电力负荷预测中类图片转换方法 | |
Su et al. | Nonlinear compensation algorithm for multidimensional temporal data: A missing value imputation for the power grid applications | |
CN116862320A (zh) | 一种农村生态环境评估监管方法、系统及存储介质 | |
CN111222689A (zh) | 基于多尺度时间特征的lstm负荷预测方法、介质及电子装置 | |
CN114818817B (zh) | 一种电容式电压互感器微弱故障识别系统及方法 | |
CN111783336A (zh) | 一种基于深度学习理论的不确定性结构频响动力学模型修正方法 | |
CN114429152A (zh) | 基于动态指数对抗性自适应的滚动轴承故障诊断方法 | |
CN117172992A (zh) | 一种污染农田土壤的微生态特征调查方法及系统 | |
CN114596726B (zh) | 基于可解释时空注意力机制的停车泊位预测方法 | |
CN114118401A (zh) | 基于神经网络的配电网络流量预测方法、系统、装置及存储介质 | |
Lawrence et al. | Explaining neural matrix factorization with gradient rollback | |
Liu et al. | Soil water content forecasting by ANN and SVM hybrid architecture | |
CN113610147A (zh) | 一种基于lstm的多潜在子空间信息融合地震短临预测方法 | |
He et al. | Secondary-diagonal mean transformation Partial Grey Model based on matrix series | |
CN111126645A (zh) | 一种基于数据挖掘技术和改进支持向量机的风电预测算法 | |
Liu et al. | A deep learning-based fault diagnosis of leader-following systems | |
CN116681184B (zh) | 生猪生长指标的预测方法、装置、设备及可读存储介质 | |
Xu et al. | A novel pattern classification integrated GLPP with improved AROMF for fault diagnosis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150408 Termination date: 20211010 |
|
CF01 | Termination of patent right due to non-payment of annual fee |