CN103810482A - 一种多信息融合分类及识别方法 - Google Patents
一种多信息融合分类及识别方法 Download PDFInfo
- Publication number
- CN103810482A CN103810482A CN201410088934.5A CN201410088934A CN103810482A CN 103810482 A CN103810482 A CN 103810482A CN 201410088934 A CN201410088934 A CN 201410088934A CN 103810482 A CN103810482 A CN 103810482A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- parameter
- objects
- alpha
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000004927 fusion Effects 0.000 title claims abstract description 19
- 238000005070 sampling Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000003066 decision tree Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000007635 classification algorithm Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 2
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及模式识别、信息融合领域,特别是涉及一种多信息融合分类及识别方法。本发明提供了一种多信息融合分类及识别方法,将来自不同数据源的数据信息融合处理,构造融合分类器,实现将个别对象归入某一对象类的分类工作。本发明利用“相似距离”实现了多特征对象间相似性的度量;利用“对内形状差异系数”实现了多特征对象“二选一”的识别方法;利用“组合平均差异系数”实现了多特征对象“多选一”的识别方法。
Description
技术领域
本发明涉及模式识别、信息融合领域,特别是涉及一种多信息融合分类及识别方法。
背景技术
分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。解决分类问题的方法很多,单一的分类方法主要包括:
(1)决策树
决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。
(2)人工神经网络
人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在这种模型中,大量的节点之间相互联接构成网络,即“神经网络”,以达到处理信息的目的。神经网络通常需要进行训练,训练的过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其具有分类的功能,经过训练的网络就可用于对象的识别。
(3)支持向量机
支持向量机是Vapnik根据统计学习理论提出的一种新的学习方法,它的最大特点是根据结构风险最小化准则,以最大化分类间隔构造最优分类超平面来提高学习机的泛化能力,较好地解决了非线性、高维数、局部极小点等问题。对于分类问题,支持向量机算法根据区域中的样本计算该区域的决策曲面,由此确定该区域中未知样本的类别。
(4)VSM法
VSM法即向量空间模型法,其基本思想是将文档表示为加权的特征向量:D=D(T1,W1;T2,W2;…;Tn,Wn),然后通过计算文本相似度的方法来确定待分样本的类别。当文本被表示为空间向量模型的时候,文本的相似度就可以借助特征向量之间的内积来表示。
(5)贝叶斯分类算法
贝叶斯(Bayes)分类算法是一类利用概率统计知识进行分类的算法,这些算法主要利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。
(6)k-近邻
k-近邻算法是一种基于实例的分类方法。该方法就是找出与未知样本x距离最近的k个训练样本,看这k个样本中多数属于哪一类,就把x归为那一类。
决策树算法将目标属性划分为有次序的层次结构,这种“非并行处理”使其在很多时候缺少灵活性。当前的神经网络仍普遍存在收敛速度慢、计算量大、训练时间长和不可解释等缺点。支持向量机算法通常只能解决“二选一”的分类问题。VSM法相对其他分类方法而言,更适合于专业文献的分类。贝叶斯分类算法分类准确性通常不高,因为贝叶斯定理的成立本身需要一个很强的条件独立性假设前提,而此假设在实际情况中经常不成立。k-近邻方法是一种懒惰学习方法,它存放样本,直到需要分类时才进行分类,如果样本集比较复杂,可能会导致很大的计算开销,因此无法应用到实时性很强的场合。
综上,目前已有的分类算法很多,各自都有分类效果较好的针对领域,但也都有各自的局限。目前对分类问题并没有统一而有效的方法和理论。发展新的、有独特特点的分类方法有助于分类理论的完善和发展。
发明内容
本发明提供了一种多信息融合分类及识别方法,将来自不同数据源的数据信息融合处理,构造融合分类器,实现将个别对象归入某一对象类的分类工作。
为实现上述目的,本发明所采用的技术方案是:
一种多信息融合分类及识别方法,其特征在于,该方法为一种基于多源信息的个别对象间相似性度量方法,步骤如下:
①若θk的取值范围为[min,max],
(2)设任意两个待识别对象Si和Sj的特征参数向量分别为:和1~n为特征参数的序号,i、j为对象的序号,Si和Sj的相似程度用它们在特征参数空间中对应的特征点的距离D来度量,这种距离称为相似距离,它的计算方法包括:
①加权平均距离:
②加权欧氏距离:
ak、bk为第k个特征参数在相似比较时的权重,可根据实际比较时的侧重点灵活选择,若没有特殊要求,各权重值可都取为1;
(3)设Si和Sj为任意两个对象,二者的相似距离为D,将D作为二者相似性的度量,给定取值范围[0,h)为吻合域,当D<h时,判断Si和Sj为同一或同类对象,h的值根据对象的特点及图像质量指定,h的取值范围为0.05~0.2;给定取值范围(p,1]为分离域,当D>p时,判断Si和Sj为非同一或同类对象,p的值根据对象的特点及图像质量指定,p的取值范围为0.4~0.95。
进一步地,该方法为一种基于多源信息的个别对象相对于一个对象类的识别方法,步骤如下:
(1)若对象类具有样本库,中所有对象都可观测归一化特征参数对样本库进行随机抽样,样本容量m大于30,观测每个样本在如前所述n个归一化特征参数上的取值,对每个归一化特征参数进行置信度为1-α的区间估计,区间估计的方法为:第k个归一化特征参数的置信度为1-α的置信区间为其中,为第j个样本在归一化特征参数上的取值,为所有样本在上取值的均值,为的观测值的样本方差,α的3个取值为0.1、0.05、0.01,对应的标准正态分布的上侧α/2分位数zα/2的3个取值为z0.05=1.645、z0.025=1.96、z0.005=2.575;按上述方法逐一确定中每个归一化特征参数的置信区间;
进一步地,该方法为一种基于单源信息的个别对象“二选一”识别方法,包括如下步骤:
(2)对所述的和进行随机抽样,对所述的两个对象类的抽样的样本容量均大于30,根据抽样得到的样本数据,根据权利要求2步骤(1)所述的方法对和在归一化特征参数上的取值情况进行区间估计,对象类在所述的归一化特征参数上的置信度为1-α1的置信区间为E1,对象类在所述的归一化特征参数上的置信度为1-α2的置信区间为E2,α1的3个取值为0.1、0.05、0.01,α2的3个取值为0.1、0.05、0.01;
(4)评价对象识别操作的准确率:若对S进行识别操作,其结果的准确率大于min{(1-2α1),(1-2α2)},若参数在和上都呈对称分布,E1和E2也都为对称置信区间,以上识别结果的准确率大于min{(1-α1),(1-α2)},min{(1-2α1),(1-2α2)}为(1-2α1)与(1-2α2)中的较小值。
进一步地,该方法为一种基于多源信息的个别对象“二选一”识别方法,步骤如下:
(1)设对象类都具有归一化特征参数对所述的对象类分别进行随机抽样,样本容量均大于30,计算的样本的归一化特征参数均值计算的样本的归一化特征参数均值若对象S1的特征参数向量为称S1为的标准对象;若对象S2的特征参数向量为称S1为的标准对象;
(2)设第一对象类第二对象类具有归一化特征参数k为参数序号,对分别进行随机抽样,样本容量均大于30,根据抽样得到的样本数据,根据权利要求2步骤(1)所述的方法分别对对象类在所述的归一化特征参数上的取值情况进行区间估计:设第一对象类的归一化特征参数的置信度为1-α的置信区间为E1k=(e1Lk,e1Rk),第二对象类的归一化特征参数的置信度为1-α的置信区间为E2k=(e2Lk,e2Rk);
为确定第k个归一化特征参数在相似比较时的权数ak,根据权利要求4步骤(2)所述的方法求取分别对应于和的两个置信区间E1k=(e1Lk,e1Rk)和E2k=(e2Lk,e2Rk),若E2k∩E2k=Φ,Φ表示空集,则确定ak=1-α;若E2k∩E2k≠Φ,则确定
(5)分别用所述的对内形状差异系数计算公式计算待识别对象S与的标准对象S1、S2的相似距离D12(S,S1)、D12(S,S2),若D12(S,S1)=min{D12(S,S1),D12(S,S2)},则判断若D12(S,S2)=min{D12(S,S1),D12(S,S2)},则判断min{}表示求最小值的运算。
进一步地,该方法为一种基于多源信息的个别对象“多选一”识别方法,步骤如下:
本发明达到的有益效果:利用“相似距离”实现了多特征对象间相似性的度量;利用“对内形状差异系数”实现了多特征对象“二选一”的识别方法;利用“组合平均差异系数”实现了多特征对象“多选一”的识别方法。
具体实施方式
下面对本发明做进一步详细说明。
本发明的一种多信息融合分类及识别方法具体内容如下:
一种多信息融合分类及识别方法,其特征在于,该方法为一种基于多源信息的个别对象间相似性度量方法,步骤如下:
②若θk的取值范围为(-∞,+∞),
③若θk的取值范围为[min,+∞),
(2)设任意两个待识别对象Si和Sj的特征参数向量分别为:和1~n为特征参数的序号,i、j为对象的序号,Si和Sj的相似程度用它们在特征参数空间中对应的特征点的距离D来度量,这种距离称为相似距离,它的计算方法包括:
①加权平均距离:
②加权欧氏距离:
ak、bk为第k个特征参数在相似比较时的权重,可根据实际比较时的侧重点灵活选择,若没有特殊要求,各权重值可都取为1;
(3)设Si和Sj为任意两个对象,二者的相似距离为D,将D作为二者相似性的度量,给定取值范围[0,h)为吻合域,当D<h时,判断Si和Sj为同一或同类对象,h的值根据对象的特点及图像质量指定,h的取值范围为0.05~0.2;给定取值范围(p,1]为分离域,当D>p时,判断Si和Sj为非同一或同类对象,p的值根据对象的特点及图像质量指定,p的取值范围为0.4~0.95。
进一步地,该方法为一种基于多源信息的个别对象相对于一个对象类的识别方法,步骤如下:
(1)若对象类具有样本库,中所有对象都可观测归一化特征参数对样本库进行随机抽样,样本容量m大于30,观测每个样本在如前所述n个归一化特征参数上的取值,对每个归一化特征参数进行置信度为1-α的区间估计,区间估计的方法为:第k个归一化特征参数的置信度为1-α的置信区间为其中,为第j个样本在归一化特征参数上的取值,为所有样本在上取值的均值,为的观测值的样本方差,α的3个取值为0.1、0.05、0.01,对应的标准正态分布的上侧α/2分位数zα/2的3个取值为z00.5=1.645、z0.025=1.96、z0.005=2.575;按上述方法逐一确定中每个归一化特征参数的置信区间;
进一步地,该方法为一种基于单源信息的个别对象“二选一”识别方法,包括如下步骤:
(2)对所述的和进行随机抽样,对所述的两个对象类的抽样的样本容量均大于30,根据抽样得到的样本数据,根据权利要求2步骤(1)所述的方法对和在归一化特征参数上的取值情况进行区间估计,对象类在所述的归一化特征参数上的置信度为1-α1的置信区间为E1,对象类在所述的归一化特征参数上的置信度为1-α2的置信区间为E2,α1的3个取值为0.1、0.05、0.01,α2的3个取值为0.1、0.05、0.01;
(4)评价对象识别操作的准确率:若对S进行识别操作,其结果的准确率大于min{(1-2α1),(1-2α2)},若参数在和上都呈对称分布,E1和E2也都为对称置信区间,以上识别结果的准确率大于min{(1-α1),(1-α2)},min{(1-2α1),(1-2α2)}为(1-2α1)与(1-2α2)中的较小值。
进一步地,该方法为一种基于多源信息的个别对象“二选一”识别方法,步骤如下:
(1)设对象类都具有归一化特征参数对所述的对象类分别进行随机抽样,样本容量均大于30,计算的样本的归一化特征参数均值计算的样本的归一化特征参数均值若对象S1的特征参数向量为称S1为的标准对象;若对象S2的特征参数向量为称S1为的标准对象;
(2)设第一对象类第二对象类具有归一化特征参数k为参数序号,对分别进行随机抽样,样本容量均大于30,根据抽样得到的样本数据,根据权利要求2步骤(1)所述的方法分别对对象类在所述的归一化特征参数上的取值情况进行区间估计:设第一对象类的归一化特征参数的置信度为1-α的置信区间为E1k=(e1Lk,e1Rk),第二对象类的归一化特征参数的置信度为1-α的置信区间为E2k=(e2Lk,e2Rk);
为确定第k个归一化特征参数在相似比较时的权数ak,根据权利要求4步骤(2)所述的方法求取分别对应于和的两个置信区间E1k=(e1Lk,e1Rk)和E2k=(e2Lk,e2Rk),若E2k∩E2k=Φ,Φ表示空集,则确定ak=1-α;若E2k∩E2k≠Φ,则确定
(5)分别用所述的对内形状差异系数计算公式计算待识别对象S与的标准对象S1、s2的相似距离D12(S,S1)、D12(S,S2),若D12(S,S1)=min{D12(S,S1),D12(S,S2)},则判断若D12(S,S2)=min{D12(S,S1),D12(S,S2)},则判断min{}表示求最小值的运算。
进一步地,该方法为一种基于多源信息的个别对象“多选一”识别方法,步骤如下:
Claims (5)
1.一种多信息融合分类及识别方法,其特征在于,一种基于多源信息的个别对象间相似性度量方法,其步骤为:
③若θk的取值范围为[min,+∞),
②加权欧式距离:
ak、bk为第k个特征参数在相似比较时的权重,可根据实际比较时的侧重点灵活选择,若没有特殊要求,各权重值可都取为1。
(3)设Si和Sj为任意两个对象,二者的相似距离为D,将D作为二者相似性的度量,给定取值范围[0,h)为吻合域,当D<h时,判断Si和Sj为同一或同类对象,h的值根据对象的特点及图像质量指定,h的取值范围为0.05~0.2;给定取值范围(p,1]为分离域,当D>p时,判断Si和Sj为非同一或同类对象,p的值根据对象的特点及图像质量指定,p的取值范围为0.4~0.95。
2.一种多信息融合分类及识别方法,其特征在于,一种基于多源信息的个别对象相对于一个对象类的识别方法,其步骤为:
(1)若某对象类有大容量样本库,对样本库进行随机大样本抽样,样本容量m大于30,若为对象归一化特征参数中的某一个,利用样本中的对象的参数的取值对对象类在参数 上的取值进行区间估计,置信度取为1-α,置信区间为 为第j个样本在参数上的取值,为的样本方差,α的3个常用取值为0.1、0.05、0.01,相应的z0.05=1.645、z0.025=1.96、z0.005=2.575;逐一确定每个特征参数的置信区间;
3.一种多信息融合分类及识别方法,其特征在于,一种基于单源信息的个别对象“二选一”识别方法,其内容为:
设为某归一化对象特征参数,根据在上取值的情况可定义两个对象类对和进行随机的大样本抽样,样本容量均大于30,根据样本数据对并和在参数上的取值情况进行区间估计。设对象类在参数上的置信度为1-α1的置信区间为E1,对象类在参数上的置信度为1-α2的置信区间为E2,且E1与E2没有交集,对任意一个具有参数的对象S可进行以下识别操作:
4.一种多信息融合分类及识别方法,其特征在于,一种基于多源信息的个别对象“二选一”识别方法,其步骤为:
(2)指定一种相似距离公式D(Si,Sj),ak为第k个特征参数在相似比较时的权重;
(3)设对象类具有归一化特征参数对二者进行大样本随机抽样,根据样本数据对参数进行区间估计:设对象类的参数的置信度为1-α的置信区间为E1k=(e1Lk,e1Rk),对象类的参数的置信度为1-α的置信区间为E2k=(e2Lk,e2Rk)。
(5)重复步骤(3)~(4),计算出相似距离公式中所有待定参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410088934.5A CN103810482A (zh) | 2014-03-12 | 2014-03-12 | 一种多信息融合分类及识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410088934.5A CN103810482A (zh) | 2014-03-12 | 2014-03-12 | 一种多信息融合分类及识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103810482A true CN103810482A (zh) | 2014-05-21 |
Family
ID=50707224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410088934.5A Pending CN103810482A (zh) | 2014-03-12 | 2014-03-12 | 一种多信息融合分类及识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103810482A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104102833A (zh) * | 2014-07-10 | 2014-10-15 | 西安交通大学 | 基于密集区间发现的税务指标归一化与融合计算方法 |
WO2017117799A1 (zh) * | 2016-01-08 | 2017-07-13 | 富士通株式会社 | 分类结果的融合装置及方法 |
CN109478228A (zh) * | 2016-09-30 | 2019-03-15 | 富士通株式会社 | 分类结果的融合方法、装置及电子设备 |
CN110161408A (zh) * | 2019-05-31 | 2019-08-23 | 江铃汽车股份有限公司 | 积放链电机状态识别方法及系统 |
CN111666274A (zh) * | 2020-06-05 | 2020-09-15 | 北京妙医佳健康科技集团有限公司 | 数据融合方法、装置、电子设备及计算机可读存储介质 |
CN113155453A (zh) * | 2021-01-08 | 2021-07-23 | 沈阳大学 | 一种多特征融合评估预测轴承性能寿命方法 |
-
2014
- 2014-03-12 CN CN201410088934.5A patent/CN103810482A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104102833A (zh) * | 2014-07-10 | 2014-10-15 | 西安交通大学 | 基于密集区间发现的税务指标归一化与融合计算方法 |
WO2017117799A1 (zh) * | 2016-01-08 | 2017-07-13 | 富士通株式会社 | 分类结果的融合装置及方法 |
CN109478228A (zh) * | 2016-09-30 | 2019-03-15 | 富士通株式会社 | 分类结果的融合方法、装置及电子设备 |
CN110161408A (zh) * | 2019-05-31 | 2019-08-23 | 江铃汽车股份有限公司 | 积放链电机状态识别方法及系统 |
CN111666274A (zh) * | 2020-06-05 | 2020-09-15 | 北京妙医佳健康科技集团有限公司 | 数据融合方法、装置、电子设备及计算机可读存储介质 |
CN111666274B (zh) * | 2020-06-05 | 2023-08-25 | 北京妙医佳健康科技集团有限公司 | 数据融合方法、装置、电子设备及计算机可读存储介质 |
CN113155453A (zh) * | 2021-01-08 | 2021-07-23 | 沈阳大学 | 一种多特征融合评估预测轴承性能寿命方法 |
CN113155453B (zh) * | 2021-01-08 | 2023-11-07 | 沈阳大学 | 一种多特征融合评估预测轴承性能寿命方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109801256B (zh) | 一种基于感兴趣区域和全局特征的图像美学质量评估方法 | |
CN107515895B (zh) | 一种基于目标检测的视觉目标检索方法与系统 | |
CN106682696B (zh) | 基于在线示例分类器精化的多示例检测网络及其训练方法 | |
CN111126482B (zh) | 一种基于多分类器级联模型的遥感影像自动分类方法 | |
WO2019140767A1 (zh) | 安检识别系统及其控制方法 | |
CN103810482A (zh) | 一种多信息融合分类及识别方法 | |
CN112507901B (zh) | 一种基于伪标签自纠正的无监督行人重识别方法 | |
CN109934269B (zh) | 一种电磁信号的开集识别方法和装置 | |
CN110135459B (zh) | 一种基于双三元组深度度量学习网络的零样本分类方法 | |
CN105205501B (zh) | 一种多分类器联合的弱标注图像对象检测方法 | |
WO2019015246A1 (zh) | 图像特征获取 | |
CN111160401B (zh) | 一种基于均值漂移和XGBoost的异常用电判别方法 | |
US20100202681A1 (en) | Detecting device of special shot object and learning device and method thereof | |
CN110942091B (zh) | 寻找可靠的异常数据中心的半监督少样本图像分类方法 | |
CN106250925B (zh) | 一种基于改进的典型相关分析的零样本视频分类方法 | |
CN104679860B (zh) | 一种不平衡数据的分类方法 | |
CN111950525B (zh) | 一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法 | |
CN103136540B (zh) | 一种基于隐结构推理的行为识别方法 | |
CN112188532A (zh) | 网络异常检测模型的训练方法、网络检测方法及装置 | |
Manziuk et al. | Definition of information core for documents classification | |
CN103631753A (zh) | 递减子空间集成学习算法 | |
Chu et al. | Co-training based on semi-supervised ensemble classification approach for multi-label data stream | |
CN104966075A (zh) | 一种基于二维判别特征的人脸识别方法与系统 | |
CN104537383A (zh) | 一种基于粒子群的海量组织机构数据分类方法及系统 | |
KR101590896B1 (ko) | 일반화 성능을 갖는 심화학습 장치 및 방법, 그 방법을 수행하기 위한 기록 매체 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140521 |
|
WD01 | Invention patent application deemed withdrawn after publication |