CN102708376A - 一种实现基于单源信息融合的组合分类器的系统及方法 - Google Patents

一种实现基于单源信息融合的组合分类器的系统及方法 Download PDF

Info

Publication number
CN102708376A
CN102708376A CN2012101156075A CN201210115607A CN102708376A CN 102708376 A CN102708376 A CN 102708376A CN 2012101156075 A CN2012101156075 A CN 2012101156075A CN 201210115607 A CN201210115607 A CN 201210115607A CN 102708376 A CN102708376 A CN 102708376A
Authority
CN
China
Prior art keywords
sorter
subset
prime
similarity
sigma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101156075A
Other languages
English (en)
Other versions
CN102708376B (zh
Inventor
刁兴春
曹建军
袁震
严浩
李凯齐
彭琮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
No 63 Inst Of Headquarters Of Genearal Staff Of Cp L A
Original Assignee
No 63 Inst Of Headquarters Of Genearal Staff Of Cp L A
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by No 63 Inst Of Headquarters Of Genearal Staff Of Cp L A filed Critical No 63 Inst Of Headquarters Of Genearal Staff Of Cp L A
Priority to CN201210115607.5A priority Critical patent/CN102708376B/zh
Publication of CN102708376A publication Critical patent/CN102708376A/zh
Application granted granted Critical
Publication of CN102708376B publication Critical patent/CN102708376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种实现基于单源信息融合的组合分类器的系统及方法,包括定义了基于特征选择的组合分类器设计模型,方法通过引入性能优化策略,实现了分类器间串并联方式的灵活搭配组合,通过定义分类器间相似性的度量标准,充分挖掘不同分类器的潜在能力,形成优势互补,将组合分类器的整体性能发挥到最大效能,此外,为了提高组合分类器的在线分类处理能力,引入效率优先策略,通过对组合分类器的每一级分别实施特征选择,使之建立的二元分类器分类正确率最高且输入特征子集规模最小,实现效率与效果的最佳折衷,上述策略的应用使整个方法更加系统、全面,加之整个方法基于领域无关的设计理念,适用范围更加广泛,体现了方法极大的健壮性和良好的可扩展性。

Description

一种实现基于单源信息融合的组合分类器的系统及方法
一、技术领域
本发明涉及模式识别中的分类器设计领域,特别涉及故障诊断中基于单源信息融合的组合分类器设计。
二、技术背景
随着科学技术的发展,人们获取信息的能力得到了前所未有的提升,但因受所获取的信息表现出的形式的多样性、数量的巨大性和信息之间关系的复杂性的影响,使得实际进行信息处理的效果并不理想,无法为辅助决策提供有力支持。
为了提高对信息的综合处理能力,一种有效的解决方案就是同时对来自多个传感器采集的信息进行整合优化,实现多传感器信息融合,并通过去除多传感器信息之间可能存在的冗余和矛盾信息,实现优势互补,以降低不确定性对系统环境一致性的影响,提高系统决策的快速性和正确性,将决策风险降到最低。
目前,多传感器信息融合技术应经被成功应用于很多领域,包括:
■智能制造
■无损检测
■故障和医疗诊断
■环境检测
但现有基于多传感器信息融合的方法受感知对象可测试性差和传感器自身硬件成本高的影响,存在以下局限性:
(1)在某些实际应用中,如医疗诊断和环境检测等,传感器安装数量受到限制,特别是对在线故障诊断而言,可测试性差和多传感器要求的矛盾尤为突出;
(2)传感器数量的增加,势必带来硬件数量和成本的相应增加,降低整个系统的性价比,增加硬件故障率;
(3)传感器数量的增加,使所获取数据处理量成倍增加、在线处理任务加重,给系统的实时性带来不利因素。
三、发明内容
本发明的目的是:克服现有基于多传感器信息融合方法的不足,提出一种实现基于单源信息融合的组合分类器的系统及方法。
我们发明了新的基于单源信息融合的方法,可充分挖掘单源信息的潜在能力,通过设计基于特征选择的组合分类器,提高分类决策的有效性和实时性。
基于特征选择的组合分类器设计模型如下:
对含L个分类器的组合分类器,记Pl,ql为第l个分类器的分类正确率,第l个分类器输入特征子集及分类器的构造由如下目标函数确定:
max Pl
max 1 - max j = 1 l - 1 { S c ( p j , p l ) }
min ql
即希望所设计的第l个分类器,同时具有最大的分类正确率,与其它分类器之间最差的相似性,以及最小的特征子集规模,三个目标函数的优先级由高到低。
组合分类器的分类决策函数采用“Max-Wins”voting投票表决。
组合分类器设计模型是典型的多目标优化问题,为了给出其蚁群算法实现进行如下分析:
(1)对目标函数min ql,给定q最大值为a,对q=1,2,…,a分别运行蚁群算法,取分类效果最好且q值最小的那组特征;
(2)将其余两个目标函数进行加权求和转化为单目标函数:
max α 1 P l + α 2 ( 1 - max j = 1 l - 1 { S c ( p j , p l ) } )
其中,α1>0,α2>0,α12=1。当Pl→1,l=1,2,…,L时,目标函数
Figure BSA00000703781500023
的值趋向于0,因此,目标函数max Pl
Figure BSA00000703781500024
二者相互矛盾,所以,为避免出现以减小正确率为代价而获取较高的成员分类器间不相似性,取较大的α1,在上式中取α1=0.7,α2=0.3。
根据本发明的一个方面,提供一种实现基于单源信息融合的组合分类器的系统,该组合分类器系统适用于解决故障诊断中的分类器的设计,其特征是包括建立基于特征选择的组合分类器模型的装置,该装置用于对含L个分类器的组合分类器,记Pl,ql为第l个分类器的分类正确率,第l个分类器输入特征子集及分类器的构造由如下目标函数确定:
max Pl
max 1 - max j = 1 l - 1 { S c ( p j , p l ) }
min ql
以至于所设计的第l个分类器同时具有最大的分类正确率,与其它分类器之间最差的相似性,以及最小的特征子集规模,三个目标函数的优先级由高到低。
根据本发明的另一方面,提供一种实现基于单源信息融合的组合分类器的方法,该组合分类器适用于解决故障诊断中的分类器的设计,其特征是所述方法包括建立基于特征选择的组合分类器模型的步骤:
用于对含L个分类器的组合分类器,记Pl,ql为第l个分类器的分类正确率,第l个分类器输入特征子集及分类器的构造由如下目标函数确定:
max Pl
max 1 - max j = 1 l - 1 { S c ( p j , p l ) }
min ql
以至于所设计的第l个分类器同时具有最大的分类正确率,与其它分类器之间最差的相似性,以及最小的特征子集规模,三个目标函数的优先级由高到低。
根据本发明的再一方面,需要定义一种度量分类器的性能的方法,该方法包括:如果分类器是第1类分类器(一对一映射分类器),即将含M类状态的样本空间映射到M类空间,那么定义分类器分类结果的分布矩阵为:
p=[pii′],i,i′=1,2,…,M
其中,pii′为:
其中,pii,i=1,2,…,M为第i类样本的分类正确率;
定义错诊率(Fault recognized as another fault):
Figure BSA00000703781500033
则,以下等式成立:
p ii = 1 - Σ i ′ = 1 , i ≠ i ′ M p ii ′
P = Σ i = 1 M P i p ii
其中,Pi为第i类样本的先验概率,对给定的测试样本集由以下公式求取:
P i = N i Σ j = 1 M N j
R fa = Σ i = 2 M p 1 i
R fn = Σ i = 2 M P fni p i 1
其中,Pfni由下式求取:
P fni = N i Σ j = 2 M N j , i = 2,3 , . . . , M
R fr = Σ i = 2 M P nfi Σ i ′ = 2 , i ≠ i ′ M p ii ′
P,Rfa,Rfn和Rfr之间的关系由下式给出:
1-P=P1Rfa+(1-P1)(Rfn+Rfr)
类似地,对第2类分类器(一对多分类器),即将含M个状态的样本空间映射到M′(M′<M)类空间,可以定义分类结果的分布矩阵:
p=[pii′],i=1,2,…,M,i′=1,2,…,M′
同样地,按照第1类分类器一样推导以上等式,其中,若类空间中无正常类,则只考查错诊指标,此时,式Rfr变为:
Rfr=1-P。
根据本发明的再一方面,定义一种度量分类器输入/输出相似性的标准,该标准如下:
对给定样本集,训练样本和测试样本相同,若对同一类型的分类器Λ,功能相同也就是将相同的状态样本映射至相同的类空间,且参数设置相同,所述参数是SVM的σ和C,则对一给定特征子集subset确定相应的样本特征向量,通过训练样本特征向量对分类器训练,针对SVM而言确定然后用测试样本对分类器测试,可以将subset映射为一个确定的分类器Λsubset和一个输出结果分布矩阵p,即
Λ(subset)=(Λsubset,p)
分类器Λsubset的相似性可以由subset的相似程度和p的相似程度来度量,分别称为输入相似性和输出相似性;
分类器输入相似性判定准则:将分类器的输入相似性定义为分类器输入特征子集的相似程度,对两个分类器输入特征子集subset1和subset2,且均为非空子集,用谷元距离(Tanimotodistance)度量它们的相似程度:
S t ( subset 1 , subset 2 ) = 1 - | subset 1 | + | subset 2 | - 2 | subset 1 ∩ subset 2 | | subset 1 | + | subset 2 | - | subset 1 ∩ subset 2 |
其中,St∈[0,1],St=0时,意味着两子集之间没有相同元素,St=1时,意味着两子集完全相同,用其对应的训练样本训练所确定的分类器也相同,即St越大两子集的相似性越强,分类器的输入相似性越强;
分类器输出相似性判定准则:将分类器的输出相似性定义为分类器分类结果分布矩阵的相似程度,对两分类器的分类结果分布矩阵p1=[p1,ii′],p2=[p2,ii′],i=1,2,…,M,i′=1,2,…,M′,用如下归一化的皮尔森相关系数(Pearson’s correlation coefficient)度量它们的相似程度:
S c ( p 1 , p 2 ) = Σ i = 1 M Σ i ′ = 1 M ′ ( p 1 , ii ′ - p ‾ 1 ) ( p 2 , ii ′ - p ‾ 2 ) Σ i = 1 M Σ i ′ = 1 M ′ ( p 1 , ii ′ - p ‾ 1 ) 2 Σ i = 1 M Σ i ′ = 1 M ′ ( p 2 , ii ′ - p ‾ 2 ) 2 + 1 2
上式中,
Figure BSA00000703781500052
分别为矩阵p1,p2的元素均值:
p ‾ 1 = 1 MM ′ Σ i = 1 M Σ i ′ = 1 M ′ p 1 , ii ′
Sc∈[0,1],Sc=1时,意味着两分布矩阵完全正相关,对应分类器的分类结果分布矩阵相同,Sc=0时,意味着两分布矩阵完全负相关,认为对应分类器输出结果分布矩阵相似性最差;
定理1:若 Λ ( subset 1 ) = ( Λ subset 1 , p 1 ) , Λ ( subset 2 ) = ( Λ subset 2 , p 2 ) , 如果Sc(p1,p2)<1,则St(subset1,subset2)<1。
证明:如果subset1=subset2,由式Λ(subset)=(Λsubset,p)及题设可得p1=p2,即如果St(subset1,subset2)=1,则Sr(p1,p2)=1,此命题的逆否命题即为定理结论;
由定理1,分类器的输出不相似性条件要比输入不相似性条件强,因此,用分类器输出相似性来衡量分类器的相似性;
组合分类器中的各成员分类器分类正确率越高,同时它们之间的输出相似性越差,则此组合分类器的分类性能越好,即具有此特性的组合分类器,可以确保只有少数分类器对同一样本同时分类错误。
本发明的优点:
本发明提出的基于单源信息融合的组合分类器设计思想,连同据此提出的基于特征选择的组合分类器设计数学模型及其实现方法,具有如下优点:
■性能优化策略。采用“one-versus-others”分类器优化设计方法进行分类器设计,并依次串联,用测试样本对各级分类器进行测试,若分类正确率达不到要求,则对该级分类器采用组合分类器设计模型设计若干个分类器,与该分类器并联,重复该过程,直到测试结果满足要求或随分类器增加分类正确率得不到改善为止。
■优势互补策略。用分类器输出结果的分布矩阵度量分类器的分类性能,定义了不同输入特征子集分类器的输入相似性和输出相似性,确定了分类器相似性的度量标准。组合分类器中的各成员分类器分类正确率越高,同时它们之间的输出相似性越差,则此组合分类器的分类性能越好,即具有此特性的组合分类器,可以确保只有少数分类器对同一样本同时分类错误。
■效率优先策略。通过特征选择,使每一级的分类器分类正确率最高且输入特征子集规模最小,并依此决定状态类识别优先级,给出了优化设计模型的蚁群算法实现,所设计的分类器能充分挖掘特征参数体系的分类能力,具有平均识别时间短,分类正确率高的优点。
■健壮性。目前提出的大多数基于多传感器信息融合的方法都是针对特定应用问题的,而我们设计的基于单源信息融合的组合分类器设计思想没有与特定的应用领域相关,适用范围较广。
■可扩展性。基于单源信息融合的组合分类器设计思想,连同基于特征选择的组合分类器设计数学模型及其实现方法,对解决同类问题具有借鉴意义。
四、附图说明
图1示出了求解5类分类问题的组合分类器分类流程。
五、具体实施方式
根据本发明的一个实施例,提供一种实现基于单源信息融合的组合分类器的系统,该组合分类器适用于解决故障诊断中的分类器的设计,其特征是包括建立基于特征选择的组合分类器模型的装置,该装置用于对含L个分类器的组合分类器,记Pl,ql为第l个分类器的分类正确率,第l个分类器输入特征子集及分类器的构造由如下目标函数确定:
max Pl
max 1 - max j = 1 l - 1 { S c ( p j , p l ) }
min ql
以至于所设计的第l个分类器同时具有最大的分类正确率,与其它分类器之间最差的相似性,以及最小的特征子集规模,三个目标函数的优先级由高到低。
根据本发明实施例,针对所述一种基于单源信息融合的组合分类器,需要定义一种新的更全面的度量分类器的性能的方法,以第1类分类器,即一对一映射(即将含M类状态的样本空间映射到M类空间)分类器为例,定义分类器分类结果的分布矩阵为:
p=[pii′],i,i′=1,2,…,M
其中,pii′为:
Figure BSA00000703781500062
其中,pii,i=1,2,…,M为第i类样本的分类正确率;
为讨论方便,定义错诊率(Fault recognized as another fault):
Figure BSA00000703781500063
则,以下等式成立:
p ii = 1 - Σ i ′ = 1 , i ≠ i ′ M p ii ′
P = Σ i = 1 M P i p ii
其中,Pi为第i类样本的先验概率,对给定的测试样本集由以下公式求取:
P i = N i Σ j = 1 M N j
R fa = Σ i = 2 M p 1 i
R fn = Σ i = 2 M P fni p i 1
其中,Pfni由下式求取:
P fni = N i Σ j = 2 M N j , i = 2,3 , . . . , M
R fr = Σ i = 2 M P nfi Σ i ′ = 2 , i ≠ i ′ M p ii ′
P,Rfa,Rfn和Rfr之间的关系由下式给出:
1-P=P1Rfa+(1-P1)(Rfn+Rfr)
类似地,对第2类分类器(一对多分类器),即将含M个状态的样本空间映射到M′(M′<M)类空间,可以定义分类结果的分布矩阵:
p=[pii′],i=1,2,…,M,i′=1,2,…,M′
同样地,可以如第一类分类器一样推导以上等式。注意,若类空间中无正常类,则只考查错诊指标,此时,式Rfr变为:
Rfr=1-P。
为了提高基于单源信息融合的组合分类器的整体性能,我们设计了性能优化策略,具体实现步骤如下:
(1)采用“one-versus-others”分类器优化设计方法进行分类器设计,并依次串联;
(2)用测试样本对各级分类器进行测试,若分类正确率达不到要求,则对该级分类器采用组合分类器设计模型设计若干个分类器,与该分类器并联,重复该过程,直到测试结果满足要求或随分类器增加分类正确率得不到改善为止。对二类分类器,采用得票过半进行分类决策,记第1类的得票数为n1,则组合分类器(含奇数个成员分类器)的决策函数为:
Figure BSA00000703781500081
以五类分类问题为例,假设第四级的性能达不到要求,则可设计如下组合分类器,记第4级的组合分类器成员为SVM41,SVM42,SVM43,如图1所示。
为了保证组合分类器的分类性能最好,我们设计了优势互补策略,具体实现步骤如下:
(1)定义了分类器相似性度量准则。对给定样本集,训练样本和测试样本相同,若对同一类型的分类器Λ(考虑更一般的第二类分类器)、功能相同(将相同的状态样本映射至相同的类空间)、且参数设置相同(SVM的σ和C),则对一给定特征子集subset(确定相应的样本特征向量),通过训练样本特征向量对分类器训练(对SVM而言确定
Figure BSA00000703781500082
Figure BSA00000703781500083
),然后用测试样本对分类器测试,可以将subset映射为一个确定的分类器Λsubset和一个输出结果分布矩阵p,即
Λ(subset)=(Λsubset,p)
分类器Λsubset的相似性可以由subset的相似程度和p的相似程度来度量,分别称为输入相似性和输出相似性。
(2)定义了分类器输入相似性判定准则。将分类器的输入相似性定义为分类器输入特征子集的相似程度,对两个分类器输入特征子集subset1和subset2(均为非空子集),用谷元距离(Tanimoto Distance)度量它们的相似程度:
S t ( subset 1 , subset 2 ) = 1 - | subset 1 | + | subset 2 | - 2 | subset 1 ∩ subset 2 | | subset 1 | + | subset 2 | - | subset 1 ∩ subset 2 |
其中,St∈[0,1],St=0时,意味着两子集之间没有相同元素,St=1时,意味着两子集完全相同,用其对应的训练样本训练所确定的分类器也相同,即St越大两子集的相似性越强,分类器的输入相似性越强。
(3)定义了分类器输出相似性判定准则。将分类器的输出相似性定义为分类器分类结果分布矩阵的相似程度,对两分类器的分类结果分布矩阵
p1=[p1,ii′],P2=[p2,ii′],i=1,2,…,M,i′=1,2,…,M′,用如下归一化的皮尔森相关系数(Pearson’sCorrelation Coefficient)度量它们的相似程度:
S c ( p 1 , p 2 ) = Σ i = 1 M Σ i ′ = 1 M ′ ( p 1 , ii ′ - p ‾ 1 ) ( p 2 , ii ′ - p ‾ 2 ) Σ i = 1 M Σ i ′ = 1 M ′ ( p 1 , ii ′ - p ‾ 1 ) 2 Σ i = 1 M Σ i ′ = 1 M ′ ( p 2 , ii ′ - p ‾ 2 ) 2 + 1 2
上式中,
Figure BSA00000703781500086
分别为矩阵p1,p2的元素均值:
p ‾ 1 = 1 MM ′ Σ i = 1 M Σ i ′ = 1 M ′ p 1 , ii ′
Sc∈[0,1],Sc=1时,意味着两分布矩阵完全正相关,对应分类器的分类结果分布矩阵相同,Sc=0时,意味着两分布矩阵完全负相关,认为对应分类器输出结果分布矩阵相似性最差。
定理1:若 Λ ( subset 1 ) = ( Λ subset 1 , p 1 ) , Λ ( subset 2 ) = ( Λ subset 2 , p 2 ) , 如果Sc(p1,p2)<1,则St(subset1,subset2)<1。
证明:如果subset1=subset2,由式Λ(subset)=(Λsubset,p)及题设可得p1=p2,即如果St(subset1,subset2)=1,则Sr(p1,p2)=1,此命题的逆否命题即为定理结论。
由定理1,分类器的输出不相似性条件要比输入不相似性条件强,因此,用分类器输出相似性来衡量分类器的相似性。
组合分类器中的各成员分类器分类正确率越高,同时它们之间的输出相似性越差,则此组合分类器的分类性能越好,即具有此特性的组合分类器,可以确保只有少数分类器对同一样本同时分类错误。
为了提高基于单源信息融合的组合分类器的整体性能,我们设计了效率优先策略,具体实现步骤如下:
(1)分级处理。对于每一级,通过特征选择,使之建立的二元分类器分类正确率最高且输入特征子集规模最小,这样可以确保在具有最小分类代价的前提下实现最优分类效果;
(2)最小并联。若某一级的分类正确率达不到预先要求,则对该级分类器采用分类器组合的方式进行并联,以并联后的分类器规模最小为准则,并通过反复多次的实验,寻求效率与效果的最佳折衷,直至得到满足实际应用需求的最佳方案为止。
如下所示,表1反映的是我们提出的基于单源信息融合的组合分类器方法的有效性,分类器1表示传统“one-versus-one”分类器,分类器2表示串联分类器,分类器3表示混联分类器。由于本方法的提出是与特定应用领域无关的,因而对解决同类问题具有借鉴意义,体现了方法良好的健壮性和可扩展性。
Figure BSA00000703781500093
表1
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。

Claims (4)

1.一种实现基于单源信息融合的组合分类器系统,该组合分类器适用于解决故障诊断中的分类器设计,其特征是包括建立基于特征选择的组合分类器模型的装置,该装置用于对含L个分类器的组合分类器,记Pl,ql为第l个分类器的分类正确率,第l个分类器输入特征子集及分类器的构造由如下目标函数确定:
max Pl
max 1 - max j = 1 l - 1 { S c ( p j , p l ) }
min ql
以至于所设计的第l个分类器同时具有最大的分类正确率,与其它分类器之间最差的相似性,以及最小的特征子集规模,三个目标函数的优先级由高到低。
2.一种实现基于单源信息融合的组合分类器的方法,该组合分类器适用于解决故障诊断中的分类器设计,其特征是所述方法包括建立基于特征选择的组合分类器模型的步骤:
用于对含L个分类器的组合分类器,记Pl,ql为第l个分类器的分类正确率,第l个分类器输入特征子集及分类器的构造由如下目标函数确定:
max Pl
max 1 - max j = 1 l - 1 { S c ( p j , p l ) }
min ql
以至于所设计的第l个分类器同时具有最大的分类正确率,与其它分类器之间最差的相似性,以及最小的特征子集规模,三个目标函数的优先级由高到低。
3.如权利要求1或2所述基于单源信息融合的组合分类器,定义一种度量分类器性能的方法,该方法包括:如果分类器是第1类分类器(一对一映射分类器),即将含M类状态的样本空间映射到M类空间,那么定义分类器分类结果的分布矩阵为:
p=[pii′],i,i′=1,2,…,M
其中,pii′为:
Figure FSA00000703781400013
其中,pii,i=1,2,…,M为第i类样本的分类正确率;
定义错诊率(Fault recognized as another fault):
则,以下等式成立:
p ii = 1 - Σ i ′ = 1 , i ≠ i ′ M p ii ′
P = Σ i = 1 M P i p ii
其中,Pi为第i类样本的先验概率,对给定的测试样本集由以下公式求取:
P i = N i Σ j = 1 M N j
R fa = Σ i = 2 M p 1 i
R fn = Σ i = 2 M P fni p i 1
其中,Pfni由下式求取:
P fni = N i Σ j = 2 M N j , i = 2,3 , · · · , M
R fr = Σ i = 2 M P nfi Σ i ′ = 2 , i ≠ i ′ M p ii ′
P,Rfa,Rfn和Rfr之间的关系由下式给出:
1-P=P1Rfa+(1-P1)(Rfn+Rfr)
类似地,对第2类分类器(一对多分类器),即将含M个状态的样本空间映射到M′(M′<M)类空间,可以定义分类结果的分布矩阵:
p=[pii′],i=1,2,…,M,i′=1,2,…,M′
同样地,按照第1类分类器一样推导以上等式,其中,若类空间中无正常类,则只考查错诊指标,此时,式Rfr序变为:
Rfr=1-P。
4.如权利要求1或2所述基于单源信息融合的组合分类器,定义一种度量分类器输入/输出相似性的标准,该标准如下:
对给定样本集,训练样本和测试样本相同,若对同一类型的分类器Λ,功能相同也就是将相同的状态样本映射至相同的类空间,且参数设置相同,所述参数是SVM的σ和C,则对一给定特征子集subset确定相应的样本特征向量,通过训练样本特征向量对分类器训练,针对SVM而言确定
Figure FSA00000703781400027
Figure FSA00000703781400028
然后用测试样本对分类器测试,可以将subset映射为一个确定的分类器Λsubset和一个输出结果分布矩阵p,即
Λ(subset)=(Λsubset,p)
分类器Λsubset的相似性可以由subset的相似程度和p的相似程度来度量,分别称为输入相似性和输出相似性;
分类器输入相似性判定准则:将分类器的输入相似性定义为分类器输入特征子集的相似程度,对两个分类器输入特征子集subset1和subset2,且均为非空子集,用谷元距离(Tanimotodistance)度量它们的相似程度:
S t ( subset 1 , subset 2 ) = 1 - | subset 1 | + | subset 2 | - 2 | subset 1 ∩ subset 2 | | subset 1 | + | subset 2 | - | subset 1 ∩ subset 2 |
其中,St∈[0,1],St=0时,意味着两子集之间没有相同元素,St=1时,意味着两子集完全相同,用其对应的训练样本训练所确定的分类器也相同,即St越大两子集的相似性越强,分类器的输入相似性越强;
分类器输出相似性判定准则:将分类器的输出相似性定义为分类器分类结果分布矩阵的相似程度,对两分类器的分类结果分布矩阵p1=[p1,ii′],p2=[p2,ii′],i=1,2,…,M,i′=1,2,…,M′,用如下归一化的皮尔森相关系数(Pearson’s correlation coefficient)度量它们的相似程度:
S c ( p 1 , p 2 ) = Σ i = 1 M Σ i ′ = 1 M ′ ( p 1 , ii ′ - p ‾ 1 ) ( p 2 , ii ′ - p ‾ 2 ) Σ i = 1 M Σ i ′ = 1 M ′ ( p 1 , ii ′ - p ‾ 1 ) 2 Σ i = 1 M Σ i ′ = 1 M ′ ( p 2 , ii ′ - p ‾ 2 ) 2 2 + 1
上式中,分别为矩阵p1,p2的元素均值:
p ‾ 1 = 1 MM ′ Σ i = 1 M Σ i ′ = 1 M ′ p 1 , ii ′
Sc∈[0,1],Sc=1时,意味着两分布矩阵完全正相关,对应分类器的分类结果分布矩阵相同,Sc=0时,意味着两分布矩阵完全负相关,认为对应分类器输出结果分布矩阵相似性最差;
定理1:若 Λ ( subset 1 ) = ( Λ subset 1 , p 1 ) , Λ ( subset 2 ) = ( Λ subset 2 , p 2 ) , 如果Sc(p1,p2)<1,则St(subset1,subset2)<1。
证明:如果subset1=subset2,由式Λ(subset)=(Λsubset,p)及题设可得p1=p2,即如果St(subset1,subset2)=1,则Sr(p1,p2)=1,此命题的逆否命题即为定理结论;
由定理1,分类器的输出不相似性条件要比输入不相似性条件强,因此,用分类器输出相似性来衡量分类器的相似性;
组合分类器中的各成员分类器分类正确率越高,同时它们之间的输出相似性越差,则此组合分类器的分类性能越好,即具有此特性的组合分类器,可以确保只有少数分类器对同一样本同时分类错误。
CN201210115607.5A 2012-04-19 2012-04-19 一种实现基于单源信息融合的组合分类器的系统及方法 Active CN102708376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210115607.5A CN102708376B (zh) 2012-04-19 2012-04-19 一种实现基于单源信息融合的组合分类器的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210115607.5A CN102708376B (zh) 2012-04-19 2012-04-19 一种实现基于单源信息融合的组合分类器的系统及方法

Publications (2)

Publication Number Publication Date
CN102708376A true CN102708376A (zh) 2012-10-03
CN102708376B CN102708376B (zh) 2015-10-21

Family

ID=46901119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210115607.5A Active CN102708376B (zh) 2012-04-19 2012-04-19 一种实现基于单源信息融合的组合分类器的系统及方法

Country Status (1)

Country Link
CN (1) CN102708376B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105784340A (zh) * 2016-03-03 2016-07-20 电子科技大学 基于混合智能技术的气阀故障诊断方法
CN107194427A (zh) * 2017-05-26 2017-09-22 温州大学 一种铣削刀具故障监测与识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290660A (zh) * 2008-06-02 2008-10-22 中国科学技术大学 一种用于行人检测的树状组合分类方法
CN101517602A (zh) * 2006-09-22 2009-08-26 皇家飞利浦电子股份有限公司 使用基于分类器集成的遗传算法进行特征选择的方法
US20100036782A1 (en) * 2006-09-22 2010-02-11 Koninklijke Philips Electronics N. V. Methods for feature selection using classifier ensemble based genetic algorithms

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101517602A (zh) * 2006-09-22 2009-08-26 皇家飞利浦电子股份有限公司 使用基于分类器集成的遗传算法进行特征选择的方法
US20100036782A1 (en) * 2006-09-22 2010-02-11 Koninklijke Philips Electronics N. V. Methods for feature selection using classifier ensemble based genetic algorithms
CN101290660A (zh) * 2008-06-02 2008-10-22 中国科学技术大学 一种用于行人检测的树状组合分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹建军 等: "基于蚁群特征选择的相似重复记录分类检测", 《兵工学报》, no. 9, 30 September 2010 (2010-09-30) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105784340A (zh) * 2016-03-03 2016-07-20 电子科技大学 基于混合智能技术的气阀故障诊断方法
CN105784340B (zh) * 2016-03-03 2018-03-23 电子科技大学 基于混合智能技术的气阀故障诊断方法
CN107194427A (zh) * 2017-05-26 2017-09-22 温州大学 一种铣削刀具故障监测与识别方法及系统

Also Published As

Publication number Publication date
CN102708376B (zh) 2015-10-21

Similar Documents

Publication Publication Date Title
Bowen et al. Generalized SHAP: Generating multiple types of explanations in machine learning
Akour et al. Software fault proneness prediction: A comparative study between bagging, boosting, and stacking ensemble and base learner methods
Hajian et al. New automated power quality recognition system for online/offline monitoring
Eldridge et al. Testing the accuracy and reliability of palmar friction ridge comparisons–a black box study
WO2021115186A1 (zh) 基于ann的程序检测方法和检测系统及应用
CN110991472A (zh) 一种高速列车牵引系统微小故障诊断方法
Eldho Impact of unbalanced classification on the performance of software defect prediction models
Eisert et al. ERGO-ML I: inferring the assembly histories of IllustrisTNG galaxies from integral observable properties via invertible neural networks
CN117472789B (zh) 基于集成学习的软件缺陷预测模型构建方法和装置
CN102708376A (zh) 一种实现基于单源信息融合的组合分类器的系统及方法
CN105956629A (zh) 一种模式分类方法及模式分类系统
CN112784277A (zh) 基于改进的d-s证据理论的软件可信性综合评估方法
Kaczmarek Construction elements of bankruptcy prediction models in multi-dimensional Early Warning Systems
Rothe et al. Comparison of different information fusion methods using ensemble selection considering benchmark data
Aguagallo et al. Analysis of student performance applying data mining techniques in a virtual learning environment
Zhang et al. Research on Diagnosis of AC Engine Wear Fault Based on Support Vector Machine and Information Fusion.
Gagnon-Bartsch et al. The classification permutation test: A nonparametric test for equality of multivariate distributions
Shipley Limitations of entropy maximization in ecology: a reply to Haegeman and Loreau
Nevendra et al. Cross-Project Defect Prediction with Metrics Selection and Balancing Approach
You et al. A new generative neural network for bearing fault diagnosis with imbalanced data
Stollwerk Estimating subnational opinion with cluster-sampled polls: Challenges and suggestions
Penfield Explaining crossing DIF in polytomous items using differential step functioning effects
Dalton et al. Machine learning to predict college course success
Pristyanto et al. Ensemble model approach for imbalanced class handling on dataset
Bansal et al. Measures of information reflect memorization patterns

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant