CN102999765A - 自适应提升法和非相关判别分析的猪肉贮藏时间判定方法 - Google Patents

自适应提升法和非相关判别分析的猪肉贮藏时间判定方法 Download PDF

Info

Publication number
CN102999765A
CN102999765A CN201210444082XA CN201210444082A CN102999765A CN 102999765 A CN102999765 A CN 102999765A CN 201210444082X A CN201210444082X A CN 201210444082XA CN 201210444082 A CN201210444082 A CN 201210444082A CN 102999765 A CN102999765 A CN 102999765A
Authority
CN
China
Prior art keywords
sample
training
irrelevant
discriminatory analysis
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210444082XA
Other languages
English (en)
Other versions
CN102999765B (zh
Inventor
武小红
孙俊
唐凯
武斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN201210444082.XA priority Critical patent/CN102999765B/zh
Publication of CN102999765A publication Critical patent/CN102999765A/zh
Application granted granted Critical
Publication of CN102999765B publication Critical patent/CN102999765B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开一种自适应提升法和非相关判别分析的猪肉贮藏时间判定方法,采集待测试的近红外样本,将样本数据分为训练集和测试集,初始化所有训练集权值;利用获得的初始训练集进行自适应提升法迭代计算,每一次迭代过程中,将产生的训练子集映射到非相关判别分析的特征子空间,其弱分类器由非相关判别分析特征子空间的最近邻分类器得到,根据弱分类器产生的加权分类误差更新训练样本集,产生新一轮特征投影向量;通过投票方式产生联合特征子空间,构造强分类器;用强分类器进行猪肉贮藏时间的判定;将自适应提升法和非相关判别分析相结合,有效解决非相关判别分析的小样本问题和特征选择问题,具有检测速度快,判定准确率高等优点。<b/>

Description

自适应提升法和非相关判别分析的猪肉贮藏时间判定方法
技术领域
本发明涉及一种特征提取方法,具体涉及采用自适应提升法和非相关判别分析相结合的特征提取方法,用于判定猪肉贮藏时间。
 
背景技术
目前国内的猪肉检查手段主要依靠感官和理化分析相结合的方法,这些方法需要对样本进行粉碎,肉浸液提取等操作,其检测过程不仅繁琐,而且耗时较长,难以满足大批量的检测需求。同时其感官评价结果受人为因素较大,难以保证其检测结果的准确性。
近红外光谱分析技术作为最近几年发展起来的一种快速无损检测手段,因其简单,非破坏性等优点,已经被广泛应用于农产品检测领域。对近红外光谱数据采用主成分分析法统计(PCA),对主成分进行加权求和得最终评价值,权数为每个主成分的方差贡献率。
线性判别分析(LDA)是一种经典的分类特征提取方法,目前已经在近红外光谱数据分析领域得到了广泛应用,其基本思想为寻找一组最优鉴别矢量,使投影后的特征向量能够获得最佳的分离表示。在LDA基础上,为了进一步获得非相关的特征向量,Jin Zhong等提出了非相关判别分析(ULDA)。然而,不管是经典LDA还是ULDA特征提取方法,在实际应用中都会面临小样本问题。另外,非相关判别分析(ULDA)可以提取近红外光谱数据的特征,但是,存在这些特征如何选择的问题,而这个问题ULDA是无法解决的。
Kearns和Valiant引入了弱学习和强学习的概念。对于一个弱学习模型,它降低了学习者能够取得随机高准确度的要求,一个弱学习算法只需要提出一个比随机猜测性能略好的假设即可。在学习概念时,只需找到一个比随机猜测略好的弱学习算法,就可以将其提升为强学习算法,而不必直接去找通常情况下很难获得的强学习算法。
1990年,Schapire通过一个构造性方法证明多个弱分类器可以集成为一个强分类器,集成学习的理论基础形成。此后,Freund在1991年又提出了更有效的“boost by majority”算法。两个算法都是通过多次调用给定的弱学习算法,每次提供给它一个不同的分布,最后把提出的所有假设合并成一个单一的假设。但是这两个算法在解决实际问题时都存在一个重大的缺陷,就是都必须事先知道弱学习算法学习正确率的下限,这在实际中很难做到。随后,Freund和Schapire提出了自适应提升(AdaBoost)算法,自适应提升算法最后结果的准确度依赖于弱学习算法返回的所有假设,而不是只依赖于准确率最低的那个假设,因此可以全面开发弱学习的能力。自适应提升算法提出后在机器学习领域得到极大的关注,试验结果显示自适应提升算法能显著提高学习精度。但是最近的研究也表明,自适应提升算法存在某些缺陷,例如它对噪声非常敏感。
 
发明内容
本发明的目的是提供一种将自适应提升法(Adaboost)和非相关判别分析(ULDA)相结合,利用自适应提升法能解决小样本问题和非相关判别分析能解决特征选择问题,用自适应提升法进行多轮迭代训练,从而得到多个非相关判别分析特征提取器,最终采用加权投票方式重新构造了一个强分类器,用该强分类器实现猪肉贮藏时间的判定。
本发明采用的技术方案包括以下步骤:
(1)采集待测试的近红外样本,将样本数据分为训练集和测试集,初始化所有训练集权值;
(2)利用获得的初始训练集,进行自适应提升法迭代计算,自适应提升法的每一次迭代过程中,将产生的训练子集映射到非相关判别分析的特征子空间,其弱分类器由非相关判别分析特征子空间的最近邻分类器得到,根据弱分类器产生的加权分类误差更新训练样本集,从而产生新一轮特征投影向量;               
(3)对新一轮特征投影向量通过投票方式产生一个联合特征子空间,构造强分类器;
(4)用强分类器进行猪肉贮藏时间的判定。
本发明方法简单,对噪声不敏感,能有效解决非相关判别分析的小样本问题和特征选择问题,具有检测速度快,判定准确率高等优点,不仅适用于猪肉贮藏时间的判定,也适用于其他农产品和食品近红外光谱的定性分析。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细说明。
图1 是67块猪肉样品6天的近红外光谱; 
图2 是采用PCA+LDA、ULDA、Adaboost+ULDA、Adaboost+LDA四种特征提取方法的猪肉贮藏时间的识别率。
具体实施方式
本发明具体实施步骤如下:
步骤一,采集待测试的近红外样本集,初始化每个样本的权值。
用保鲜袋将67块猪肉样品包装保存于0~ 4℃的冰箱内,在之后的6天时间里,每隔24小时进行一次近红外光谱采集,采集过程尽量保持室内的温度和湿度基本一致。采用反射积分球模式采集近红外光谱,近红外光谱分析仪扫描每个样品32次以获取样品的漫反射光谱均值。光谱扫描的波数为10000~4000cm-1,扫描间隔为3.856cm-1,采集到每块猪肉样品的光谱是1557维的数据。67块猪肉样品6天的近红外光谱如图1所示。为减少误差,在6天的采集过程中,每块猪肉样本每天采样三次,然后取其平均值作为最终猪肉近红外数据,则每天可获得67个光谱样本数据作为1个类别的样本数据,这样,可得到6个类别总共402个样本数据。将6个类别的样本数据拆分为训练集和测试集,其中训练集样本数为270个猪肉近红外数据,即每天45个样本;测试集样本数为132个猪肉近红外数据,即每天22个样本。
2)初始化所有样本训练集(训练集样本数为270个猪肉近红外数据)权值                                                
Figure 292551DEST_PATH_IMAGE001
,其中n = 270为样本集数量。
步骤二,利用获得的初始训练集,将结合Adaboost进行自适应的ULDA特征提取过程。定义弱分类器为ULDA投影向量和最近邻分类器的结合。也就是说,对于每个训练样本,将其投影到ULDA特征向量对于的特征子空间中,然后根据其最近邻训练样本的类别来确定其分类结果。因此,每一轮得到的ULDA投影向量可以作为候选弱分类器输入AdaBoost算法。对于AdBoost算法的每一轮迭代,每个弱分类器的分类误差等于被其错分的样本权重之和。算法将根据分类误差更新新一轮样本的权重,产生新的子集S,并构造新的ULDA特征子空间。
(1)通过自举获得一个新的样本数量为=270的子训练集。对予给定的尺寸n的初始训练样本集,为了获得一个尺寸为n的自举训练集,我们进行n次随机采样。每次随机采样中将根据n个样本的权值分布产生一个随机样本,然后将该样本加入到子训练集中。 
(2)对于一组子训练集,令样本矩阵A={A1,A2…..A k },A i 是第i类子训练样本集,k为类别数,k = 6。
Figure 233962DEST_PATH_IMAGE002
Figure 347412DEST_PATH_IMAGE003
分别为子训练样本集的类内方差矩阵,类间方差矩阵和总体方差矩阵:
Figure 90425DEST_PATH_IMAGE005
Figure 620764DEST_PATH_IMAGE006
, 
Figure 905115DEST_PATH_IMAGE007
,式中,x为某个随机样本,c为子训练样本集的总体样本均值,c (i)为子训练样本集中第i类样本的样本均值。n为子训练样本集的样本总数,=270。
Figure 911117DEST_PATH_IMAGE008
为子训练样本集的第i类样本数。
 (3)构造矩阵Hw,Hb,Ht:
Figure 939116DEST_PATH_IMAGE009
Figure 120698DEST_PATH_IMAGE010
,                  
Figure 779213DEST_PATH_IMAGE011
满足
Figure 679036DEST_PATH_IMAGE012
Figure 838622DEST_PATH_IMAGE013
,其中:
Figure 356825DEST_PATH_IMAGE016
Figure 726626DEST_PATH_IMAGE017
Figure 210697DEST_PATH_IMAGE018
c (k)为子训练样本集中第k类样本的样本均值,
Figure 616588DEST_PATH_IMAGE020
表示n维的实数空间,
Figure 258922DEST_PATH_IMAGE021
表示
Figure 269603DEST_PATH_IMAGE008
维的实数空间,
Figure 831034DEST_PATH_IMAGE022
表示
Figure 927166DEST_PATH_IMAGE023
维的实数空间。                   
(4)计算
Figure 107612DEST_PATH_IMAGE024
的奇异值分解,即
Figure 972800DEST_PATH_IMAGE025
,其中:U,V分别为正交矩阵,
Figure 705132DEST_PATH_IMAGE026
Figure 288560DEST_PATH_IMAGE027
为对角矩阵,对角上的元素为t个奇异值,
Figure 992391DEST_PATH_IMAGE029
。同时可将正交矩阵U分解:
Figure 302150DEST_PATH_IMAGE030
,其中,
Figure 19756DEST_PATH_IMAGE032
m为样本维数,表示
Figure 809038DEST_PATH_IMAGE034
维的实数空间。
5)令
Figure 201210444082X100002DEST_PATH_IMAGE035
,计算B的奇异值分解,即
Figure 694954DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
6)令
Figure 20893DEST_PATH_IMAGE038
。矩阵X满足
Figure 715180DEST_PATH_IMAGE039
同时对角化,即:
Figure 366741DEST_PATH_IMAGE040
 
Figure 5533DEST_PATH_IMAGE041
 
Figure 400742DEST_PATH_IMAGE042
(7)取
Figure 418376DEST_PATH_IMAGE043
,则得到ULDA的特征投影矩阵
8)定义弱分类器为ULDA特征子空间与最近邻分类器的结合。也就是说,对于子训练集s中的每个训练样本,将其投影到这个投影到ULDA特征子空间中,然后根据其最近邻训练样本的类别来确定其分类结果。
9)计算加权分类误差为
Figure 773451DEST_PATH_IMAGE045
,如果
Figure 565827DEST_PATH_IMAGE046
Figure 969126DEST_PATH_IMAGE047
,令T=t-1,并终止算法。
10)计算本轮训练基于ULDA的弱分类器的权重:
11)更新初始样本训练集权重
Figure 451240DEST_PATH_IMAGE049
,其中
步骤三,通过投票方式产生一个联合特征子空间,构造强分类器。将T个基于ULDA特征提取的弱分类器组合产生最终的决策函数:
 ,                    
算法迭代T轮后,便得到了T个不同的ULDA特征提取器。最后,用作为成员分类器的投票权值得到联合分类器。
步骤四,用Adaboost和ULDA组成的强分类器进行猪肉贮藏时间的判定。
分别将Adaboost结合ULDA和PCA+LDA特征提取算法(分别表示为Adaboost+ULDA和Adaboost+LDA)进行特征提取。对于传统的PCA+LDA特征提取算法,首先将所有数据样本进行主成分分析,并提取前n–k个主成分,以此消除矩阵的奇异性问题,其中n为样本总数,k为样本的类别数,其次将降维后的样本投影到LDA特征子空间。结合Adaboost的PCA+LDA特征提取算法将在每一轮迭代的过程利用PCA+LDA提取的特征空间进行分类,其分类器采用最近邻分类。
由图2可以看出,结合了Adaboost的特征提取算法在分类性能上已经大大优于传统的PCA+LDA和ULDA特征提取方法。Adaboost+ULDA和Adaboost+LDA的分类正确率在10轮迭代后分别达到了100%和97.7%。

Claims (3)

1.一种自适应提升法和非相关判别分析的猪肉贮藏时间判定方法,其特征是具有如下步骤:
 (1)采集待测试的近红外样本,将样本数据分为训练集和测试集,初始化所有训练集权值;
(2)利用获得的初始训练集进行自适应提升法迭代计算,自适应提升法的每一次迭代过程中,将产生的训练子集映射到非相关判别分析的特征子空间,其弱分类器由非相关判别分析特征子空间的最近邻分类器得到,根据弱分类器产生的加权分类误差更新训练样本集,产生新一轮特征投影向量;               
(3)对新一轮特征投影向量通过投票方式产生联合特征子空间,构造强分类器;
(4)用强分类器进行猪肉贮藏时间的判定。
2.根据权利要求1所述的自适应提升法和非相关判别分析的猪肉贮藏时间判定方法,其特征是步骤(2)具体如下:
1)通过自举获得个新的样本数量为n的子训练样本集; 
2)令样本矩阵A={A1,A2…..A k },A i 是第i类子训练样本集,k为类别数,                                                
Figure 611906DEST_PATH_IMAGE001
Figure 658359DEST_PATH_IMAGE002
Figure 378053DEST_PATH_IMAGE003
分别为子训练样本集的类内方差矩阵,类间方差矩阵和总体方差矩阵:
Figure 343604DEST_PATH_IMAGE004
Figure 414328DEST_PATH_IMAGE005
 ,                        
  
x为随机样本,c为子训练样本集的总体样本均值,c (i)为子训练样本集中第i类样本的样本均值,为子训练样本集的第i类样本数;
 3)构造矩阵
Figure 319333DEST_PATH_IMAGE008
Figure 283878DEST_PATH_IMAGE009
 ,                 
Figure 406555DEST_PATH_IMAGE010
Figure 756634DEST_PATH_IMAGE011
Figure 673774DEST_PATH_IMAGE012
 ,
Figure 453512DEST_PATH_IMAGE013
Figure 379879DEST_PATH_IMAGE014
 ,
Figure 194251DEST_PATH_IMAGE015
,                          
         
Figure 423239DEST_PATH_IMAGE016
Figure 690272DEST_PATH_IMAGE017
, 
c (k)为子训练样本集中第k类样本的样本均值,
Figure 276160DEST_PATH_IMAGE019
表示n维的实数空间,
Figure 269524DEST_PATH_IMAGE020
表示
Figure 961536DEST_PATH_IMAGE007
维的实数空间,
Figure 698548DEST_PATH_IMAGE021
表示
Figure 877726DEST_PATH_IMAGE022
维的实数空间;                   
4)计算
Figure 307570DEST_PATH_IMAGE023
的奇异值分解,,U,V分别为正交矩阵,
Figure 355477DEST_PATH_IMAGE025
为对角矩阵,
Figure 740639DEST_PATH_IMAGE027
Figure 469561DEST_PATH_IMAGE028
Figure 735326DEST_PATH_IMAGE029
Figure 233303DEST_PATH_IMAGE030
,m为样本维数,
Figure 486747DEST_PATH_IMAGE032
表示
Figure 306936DEST_PATH_IMAGE033
维的实数空间;
5)令
Figure 659420DEST_PATH_IMAGE034
,计算B的奇异值分解,
Figure 601968DEST_PATH_IMAGE035
6)令
Figure 116312DEST_PATH_IMAGE037
,矩阵X满足
Figure 120040DEST_PATH_IMAGE038
同时对角化;
7)取
Figure 233489DEST_PATH_IMAGE039
,得到非相关判别分析的特征投影矩阵
Figure 158720DEST_PATH_IMAGE040
8)定义弱分类器为非相关判别分析特征子空间与最近邻分类器的结合;
9)计算加权分类误差为
Figure 789553DEST_PATH_IMAGE041
,如果
Figure 851050DEST_PATH_IMAGE042
Figure 666559DEST_PATH_IMAGE043
,令T=t-1,并终止算法;
10)计算本轮训练基于非相关判别分析的弱分类器的权重
Figure 79086DEST_PATH_IMAGE044
11)更新初始样本训练集权重
Figure 107085DEST_PATH_IMAGE045
Figure 944459DEST_PATH_IMAGE046
3.根据权利要求1所述的自适应提升法和非相关判别分析的猪肉贮藏时间判定方法,其特征是步骤(3)中:将T个基于非相关判别分析特征提取的弱分类器组合产生最终的决策函数
Figure 134132DEST_PATH_IMAGE047
 ,迭代T轮后得到了T个不同的非相关判别分析特征提取器,用
Figure 565114DEST_PATH_IMAGE048
作为成员分类器的投票权值得到强分类器。
CN201210444082.XA 2012-11-09 2012-11-09 自适应提升法和非相关判别分析的猪肉贮藏时间判定方法 Expired - Fee Related CN102999765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210444082.XA CN102999765B (zh) 2012-11-09 2012-11-09 自适应提升法和非相关判别分析的猪肉贮藏时间判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210444082.XA CN102999765B (zh) 2012-11-09 2012-11-09 自适应提升法和非相关判别分析的猪肉贮藏时间判定方法

Publications (2)

Publication Number Publication Date
CN102999765A true CN102999765A (zh) 2013-03-27
CN102999765B CN102999765B (zh) 2016-03-02

Family

ID=47928314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210444082.XA Expired - Fee Related CN102999765B (zh) 2012-11-09 2012-11-09 自适应提升法和非相关判别分析的猪肉贮藏时间判定方法

Country Status (1)

Country Link
CN (1) CN102999765B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654124A (zh) * 2015-12-29 2016-06-08 大连楼兰科技股份有限公司 一种加快Adboost训练速度与收敛速度的方法
CN110751983A (zh) * 2019-11-14 2020-02-04 华北电力大学(保定) 一种筛选特征mRNA用于诊断早期肺癌的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ARTURO FLORES 等: "《Boosted-LDA for Biomedical Data Analysis》", 《MICCAI WORKSHOP ON MACHINE LEARNING IN MEDICAL IMAGING》 *
CHRISTIAN NUNN 等: "《An Improved Adaboost Learning Scheme using LDA Features for Object Recognition》", 《PROCEEDINGS OF THE 12TH INTERNATIONAL IEEE CONFERENCE ON INTELLIGENT TRANSPORTATION SYSTEMS》 *
侯瑞锋 等: "《用近红外漫反射光谱检测肉品新鲜度的初步研究》", 《光谱学与光谱分析》 *
文星 等: "《基于稳态空间分辨光谱的猪肉新鲜度检测方法》", 《农业工程学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654124A (zh) * 2015-12-29 2016-06-08 大连楼兰科技股份有限公司 一种加快Adboost训练速度与收敛速度的方法
CN105654124B (zh) * 2015-12-29 2020-03-24 大连楼兰科技股份有限公司 一种加快Adaboost训练速度与收敛速度的方法
CN110751983A (zh) * 2019-11-14 2020-02-04 华北电力大学(保定) 一种筛选特征mRNA用于诊断早期肺癌的方法

Also Published As

Publication number Publication date
CN102999765B (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
CN110334741B (zh) 基于循环神经网络的雷达一维距离像识别方法
Li et al. Nonlinear sufficient dimension reduction for functional data
Lines et al. Hive-cote: The hierarchical vote collective of transformation-based ensembles for time series classification
Wang et al. A comparative study of encoding, pooling and normalization methods for action recognition
Roffo et al. Infinite feature selection
Bandos et al. Classification of hyperspectral images with regularized linear discriminant analysis
CN102819745B (zh) 一种基于AdaBoost的高光谱遥感影像分类方法
Zare et al. Hyperspectral band selection and endmember detection using sparsity promoting priors
CN109145992A (zh) 协作生成对抗网络和空谱联合的高光谱图像分类方法
Dou et al. Band selection of hyperspectral images using attention-based autoencoders
Feng et al. Multiple kernel learning based on discriminative kernel clustering for hyperspectral band selection
CN105913092B (zh) 基于子空间学习的图正则高光谱图像波段选择方法
CN111914728A (zh) 高光谱遥感影像半监督分类方法、装置及存储介质
CN106529563B (zh) 基于双图稀疏非负矩阵分解的高光谱波段选择方法
CN103048273A (zh) 基于模糊聚类的水果近红外光谱分类方法
CN112800882B (zh) 一种基于加权双流残差网络的口罩人脸姿态分类方法
CN104680179A (zh) 基于邻域相似度的数据降维方法
Hussein et al. Automated classification of tropical plant species data based on machine learning techniques and leaf trait measurements
CN107016359A (zh) 一种复杂环境下基于t分布的人脸快速识别方法
CN103278467A (zh) 一种植物叶片氮素丰缺快速无损高准确率的鉴别方法
CN110378373B (zh) 一种模糊非相关线性鉴别分析的茶叶品种分类方法
Zhang et al. Watermelon ripeness detection via extreme learning machine with kernel principal component analysis based on acoustic signals
De Aguiar et al. ST-NILM: A Wavelet Scattering-Based Architecture for Feature Extraction and Multi-Label Classification in NILM Signals
CN102999765B (zh) 自适应提升法和非相关判别分析的猪肉贮藏时间判定方法
CN107886115A (zh) 一种自适应可能c均值聚类的茶叶中红外光谱分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160302

Termination date: 20161109