CN103810482A

CN103810482A - 一种多信息融合分类及识别方法

Info

Publication number: CN103810482A
Application number: CN201410088934.5A
Authority: CN
Inventors: 孙继平; 洪亮
Original assignee: China University of Mining and Technology Beijing CUMTB
Current assignee: China University of Mining and Technology Beijing CUMTB
Priority date: 2014-03-12
Filing date: 2014-03-12
Publication date: 2014-05-21

Abstract

本发明涉及模式识别、信息融合领域，特别是涉及一种多信息融合分类及识别方法。本发明提供了一种多信息融合分类及识别方法，将来自不同数据源的数据信息融合处理，构造融合分类器，实现将个别对象归入某一对象类的分类工作。本发明利用“相似距离”实现了多特征对象间相似性的度量；利用“对内形状差异系数”实现了多特征对象“二选一”的识别方法；利用“组合平均差异系数”实现了多特征对象“多选一”的识别方法。

Description

一种多信息融合分类及识别方法

技术领域

本发明涉及模式识别、信息融合领域，特别是涉及一种多信息融合分类及识别方法。

背景技术

分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。解决分类问题的方法很多，单一的分类方法主要包括：

(1)决策树

决策树是用于分类和预测的主要技术之一，决策树学习是以实例为基础的归纳学习算法，它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。它采用自顶向下的递归方式，在决策树的内部节点进行属性的比较，并根据不同属性值判断从该节点向下的分支，在决策树的叶节点得到结论。

(2)人工神经网络

人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在这种模型中，大量的节点之间相互联接构成网络，即“神经网络”，以达到处理信息的目的。神经网络通常需要进行训练，训练的过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其具有分类的功能，经过训练的网络就可用于对象的识别。

(3)支持向量机

支持向量机是Vapnik根据统计学习理论提出的一种新的学习方法，它的最大特点是根据结构风险最小化准则，以最大化分类间隔构造最优分类超平面来提高学习机的泛化能力，较好地解决了非线性、高维数、局部极小点等问题。对于分类问题，支持向量机算法根据区域中的样本计算该区域的决策曲面，由此确定该区域中未知样本的类别。

(4)VSM法

VSM法即向量空间模型法，其基本思想是将文档表示为加权的特征向量：D＝D(T1，W1；T2，W2；…；Tn，Wn)，然后通过计算文本相似度的方法来确定待分样本的类别。当文本被表示为空间向量模型的时候，文本的相似度就可以借助特征向量之间的内积来表示。

(5)贝叶斯分类算法

贝叶斯(Bayes)分类算法是一类利用概率统计知识进行分类的算法，这些算法主要利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性，选择其中可能性最大的一个类别作为该样本的最终类别。

(6)k-近邻

k-近邻算法是一种基于实例的分类方法。该方法就是找出与未知样本x距离最近的k个训练样本，看这k个样本中多数属于哪一类，就把x归为那一类。

决策树算法将目标属性划分为有次序的层次结构，这种“非并行处理”使其在很多时候缺少灵活性。当前的神经网络仍普遍存在收敛速度慢、计算量大、训练时间长和不可解释等缺点。支持向量机算法通常只能解决“二选一”的分类问题。VSM法相对其他分类方法而言，更适合于专业文献的分类。贝叶斯分类算法分类准确性通常不高，因为贝叶斯定理的成立本身需要一个很强的条件独立性假设前提，而此假设在实际情况中经常不成立。k-近邻方法是一种懒惰学习方法，它存放样本，直到需要分类时才进行分类，如果样本集比较复杂，可能会导致很大的计算开销，因此无法应用到实时性很强的场合。

综上，目前已有的分类算法很多，各自都有分类效果较好的针对领域，但也都有各自的局限。目前对分类问题并没有统一而有效的方法和理论。发展新的、有独特特点的分类方法有助于分类理论的完善和发展。

发明内容

本发明提供了一种多信息融合分类及识别方法，将来自不同数据源的数据信息融合处理，构造融合分类器，实现将个别对象归入某一对象类的分类工作。

为实现上述目的，本发明所采用的技术方案是：

一种多信息融合分类及识别方法，其特征在于，该方法为一种基于多源信息的个别对象间相似性度量方法，步骤如下：

(1)设待分类或识别对象的可观测的特征参数为θ₁，...，θ_n，对各所述的特征参数分别做归一化处理，处理后的特征参数为

归一化的方法包括：

①若θ_k的取值范围为[min，max]，

②若θ_k的取值范围为(-∞，+∞)，

③若θ_k的取值范围为[min，+∞)，

④若θk的取值范围为(-∞，max]，

min、max为常数，θ_k为第k个初始参数，为

经归一化处理后的参数；

(2)设任意两个待识别对象S_i和S_j的特征参数向量分别为：

和1～n为特征参数的序号，i、j为对象的序号，S_i和S_j的相似程度用它们在特征参数空间中对应的特征点的距离D来度量，这种距离称为相似距离，它的计算方法包括：

①加权平均距离：

D_{M} (S_{i}, S_{j}) = \frac{Σ_{k = 1}^{n} a_{k} | {\hat{θ}}_{ki} - {\hat{θ}}_{kj} |}{Σ_{k = 1}^{n} a_{k}};

②加权欧氏距离：

D_{E} (S_{i}, S_{j}) = \sqrt{\frac{Σ_{k = 1}^{n} b_{k} {({\hat{θ}}_{ki} - {\hat{θ}}_{kj})}^{2}}{Σ_{k=1}^{n} b_{k}}};

a_k、b_k为第k个特征参数在相似比较时的权重，可根据实际比较时的侧重点灵活选择，若没有特殊要求，各权重值可都取为1；

(3)设S_i和S_j为任意两个对象，二者的相似距离为D，将D作为二者相似性的度量，给定取值范围[0，h)为吻合域，当D＜h时，判断S_i和S_j为同一或同类对象，h的值根据对象的特点及图像质量指定，h的取值范围为0.05～0.2；给定取值范围(p，1]为分离域，当D＞p时，判断S_i和S_j为非同一或同类对象，p的值根据对象的特点及图像质量指定，p的取值范围为0.4～0.95。

进一步地，该方法为一种基于多源信息的个别对象相对于一个对象类的识别方法，步骤如下：

(1)若对象类具有样本库，

中所有对象都可观测归一化特征参数

对样本库进行随机抽样，样本容量m大于30，观测每个样本在如前所述n个归一化特征参数上的取值，对每个归一化特征参数进行置信度为1-α的区间估计，区间估计的方法为：第k个归一化特征参数的置信度为1-α的置信区间为

其中，为第j个样本在归一化特征参数

上的取值，

为所有样本在

上取值的均值，

为

的观测值的样本方差，α的3个取值为0.1、0.05、0.01，对应的标准正态分布的上侧α/2分位数z_α/2的3个取值为z_0.05＝1.645、z_0.025＝1.96、z_0.005＝2.575；按上述方法逐一确定

中每个归一化特征参数的置信区间；

(2)指定目标识别区域为

若S_i为待识别对象，i为对象序号，S_i的特征参数向量为

若

则判断所述待识别对象S_i属于所述的对象类

进一步地，该方法为一种基于单源信息的个别对象“二选一”识别方法，包括如下步骤：

(1)设

为归一化特征参数，根据在上取值的情况定义两个对象类

(2)对所述的和进行随机抽样，对所述的两个对象类的抽样的样本容量均大于30，根据抽样得到的样本数据，根据权利要求2步骤(1)所述的方法对

和

在归一化特征参数

上的取值情况进行区间估计，对象类在所述的归一化特征参数

上的置信度为1-α₁的置信区间为E₁，对象类在所述的归一化特征参数

上的置信度为1-α₂的置信区间为E₂，α₁的3个取值为0.1、0.05、0.01，α₂的3个取值为0.1、0.05、0.01；

(3)设且E₁与E₂没有交集，对任意一个具有特征参数

的对象S进行以下识别操作：

①若

则判断

②若

则判断

③若

则无法做出判断。

(4)评价对象识别操作的准确率：若

对S进行识别操作，其结果的准确率大于min{(1-2α₁)，(1-2α₂)}，若参数

在

和

上都呈对称分布，E₁和E₂也都为对称置信区间，以上识别结果的准确率大于min{(1-α₁)，(1-α₂)}，min{(1-2α₁)，(1-2α₂)}为(1-2α₁)与(1-2α₂)中的较小值。

进一步地，该方法为一种基于多源信息的个别对象“二选一”识别方法，步骤如下：

(1)设对象类

都具有归一化特征参数

对所述的对象类分别进行随机抽样，样本容量均大于30，计算

的样本的归一化特征参数均值

计算的样本的归一化特征参数均值若对象S₁的特征参数向量为

称S₁为的标准对象；若对象S₂的特征参数向量为

称S₁为的标准对象；

(2)设第一对象类第二对象类

具有归一化特征参数

k为参数序号，对

分别进行随机抽样，样本容量均大于30，根据抽样得到的样本数据，根据权利要求2步骤(1)所述的方法分别对对象类在所述的归一化特征参数

上的取值情况进行区间估计：设第一对象类的归一化特征参数的置信度为1-α的置信区间为E_1k＝(e_1Lk，e_1Rk)，第二对象类

的归一化特征参数的置信度为1-α的置信区间为E_2k＝(e_2Lk，e_2Rk)；

(3)设在

和

所在的特征参数空间中定义了如权利要求1所述的相似距离

确定相似距离公式中各权数的方法为：

为确定第k个归一化特征参数在相似比较时的权数a_k，根据权利要求4步骤(2)所述的方法求取分别对应于

和

的两个置信区间E_1k＝(e_1Lk，e_1Rk)和E_2k＝(e_2Lk，e_2Rk)，若E_2k∩E_2k＝Φ，Φ表示空集，则确定a_k＝1-α；若E_2k∩E_2k≠Φ，则确定

a_{k} = (1 - α) \times \frac{[\max {e_{1 Rk}, e_{2 Rk}} - \min {e_{1 Lk}, e_{2 Lk}} - \min {e_{1 Rk}, e_{2 Rk}} + \max {e_{1 Lk}, e_{2 Lk}}]}{\max {e_{1 Rk}, e_{2 Rk}} - \min {e_{1 Lk}, e_{2 Lk}}};

(4)重复步骤(2)～(3)，计算出所述相似距离公式中所有待定权数，，此时的相似距离公式称为对象类对

的对内形状差异系数计算公式，记作D₁₂(S_i，S_j)，简记为D₁₂；

(5)分别用所述的对内形状差异系数计算公式计算待识别对象S与

的标准对象S₁、S₂的相似距离D₁₂(S，S₁)、D₁₂(S，S₂)，若D₁₂(S，S₁)＝min{D₁₂(S，S₁)，D₁₂(S，S₂)}，则判断

若D₁₂(S，S₂)＝min{D₁₂(S，S₁)，D₁₂(S，S₂)}，则判断

min{}表示求最小值的运算。

进一步地，该方法为一种基于多源信息的个别对象“多选一”识别方法，步骤如下：

(1)若S为待识别的对象，

为所述待识别对象可能属于的对象类的集合，.D_ij为对象类对

的对内形状差异系数计算公式，显然D_ji＝D_ij，S_k为

的标准对象；

(2)计算S与每个对象类的标准对象S_k的组合平均差异系数

其中d_kl＝D_kl(S，S_k)；

(3)若

判断即判断与最小“组合平均差异系数”对应的对象类为S属于的对象类。

本发明达到的有益效果：利用“相似距离”实现了多特征对象间相似性的度量；利用“对内形状差异系数”实现了多特征对象“二选一”的识别方法；利用“组合平均差异系数”实现了多特征对象“多选一”的识别方法。

具体实施方式

下面对本发明做进一步详细说明。

本发明的一种多信息融合分类及识别方法具体内容如下：

归一化的方法包括：

①若θ_k的取值范围为[min，max]，

②若θ_k的取值范围为(-∞，+∞)，

③若θ_k的取值范围为[min，+∞)，

④若θ_k的取值范围为(-∞，max]，

min、max为常数，θ_k为第k个初始参数，

为θ_k经归一化处理后的参数；

(2)设任意两个待识别对象S_i和S_j的特征参数向量分别为：

和

1～n为特征参数的序号，i、j为对象的序号，S_i和S_j的相似程度用它们在特征参数空间中对应的特征点的距离D来度量，这种距离称为相似距离，它的计算方法包括：

①加权平均距离：

D_{M} (S_{i}, S_{j}) = \frac{Σ_{k = 1}^{n} a_{k} | {\hat{θ}}_{ki} - {\hat{θ}}_{kj} |}{Σ_{k = 1}^{n} a_{k}};

②加权欧氏距离：

D_{E} (S_{i}, S_{j}) = \sqrt{\frac{Σ_{k = 1}^{n} b_{k} {({\hat{θ}}_{ki} - {\hat{θ}}_{kj})}^{2}}{Σ_{k=1}^{n} b_{k}}};

(1)若对象类

具有样本库，

中所有对象都可观测归一化特征参数

其中，

为第j个样本在归一化特征参数

上的取值，

为所有样本在上取值的均值，

为

的观测值的样本方差，α的3个取值为0.1、0.05、0.01，对应的标准正态分布的上侧α/2分位数z_α/2的3个取值为z_00.5＝1.645、z_0.025＝1.96、z_0.005＝2.575；按上述方法逐一确定

中每个归一化特征参数的置信区间；

(2)指定目标识别区域为

若S_i为待识别对象，i为对象序号，S_i的特征参数向量为

若

则判断所述待识别对象S_i属于所述的对象类

(1)设

为归一化特征参数，根据在

上取值的情况定义两个对象类

(2)对所述的

和

进行随机抽样，对所述的两个对象类的抽样的样本容量均大于30，根据抽样得到的样本数据，根据权利要求2步骤(1)所述的方法对

和

在归一化特征参数

上的取值情况进行区间估计，对象类

在所述的归一化特征参数上的置信度为1-α₁的置信区间为E₁，对象类

在所述的归一化特征参数

(3)设且E₁与E₂没有交集，对任意一个具有特征参数

的对象S进行以下识别操作：

①若

则判断

②若

则判断

③若

则无法做出判断。

(4)评价对象识别操作的准确率：若

在

和

(1)设对象类

都具有归一化特征参数

对所述的对象类

分别进行随机抽样，样本容量均大于30，计算

的样本的归一化特征参数均值计算

的样本的归一化特征参数均值若对象S₁的特征参数向量为

称S₁为

的标准对象；若对象S₂的特征参数向量为称S₁为

的标准对象；

(2)设第一对象类

第二对象类

具有归一化特征参数k为参数序号，对

上的取值情况进行区间估计：设第一对象类

的归一化特征参数

的置信度为1-α的置信区间为E_1k＝(e_1Lk，e_1Rk)，第二对象类

的归一化特征参数

的置信度为1-α的置信区间为E_2k＝(e_2Lk，e_2Rk)；

(3)设在

和

所在的特征参数空间中定义了如权利要求1所述的相似距离

确定相似距离公式中各权数的方法为：

和的两个置信区间E_1k＝(e_1Lk，e_1Rk)和E_2k＝(e_2Lk，e_2Rk)，若E_2k∩E_2k＝Φ，Φ表示空集，则确定a_k＝1-α；若E_2k∩E_2k≠Φ，则确定

a_{k} = (1 - α) \times \frac{[\max {e_{1 Rk}, e_{2 Rk}} - \min {e_{1 Lk}, e_{2 Lk}} - \min {e_{1 Rk}, e_{2 Rk}} + \max {e_{1 Lk}, e_{2 Lk}}]}{\max {e_{1 Rk}, e_{2 Rk}} - \min {e_{1 Lk}, e_{2 Lk}}}

(5)分别用所述的对内形状差异系数计算公式计算待识别对象S与的标准对象S₁、s₂的相似距离D₁₂(S，S₁)、D₁₂(S，S₂)，若D₁₂(S，S₁)＝min{D₁₂(S，S₁)，D₁₂(S，S₂)}，则判断

若D₁₂(S，S₂)＝min{D₁₂(S，S₁)，D₁₂(S，S₂)}，则判断

min{}表示求最小值的运算。

(1)若S为待识别的对象，

为所述待识别对象可能属于的对象类的集合，D_ij为对象类对

的对内形状差异系数计算公式，显然D_ji＝D_ij，S_k为

的标准对象；

(2)计算S与每个对象类的标准对象S_k的组合平均差异系数

其中d_kl＝D_kl(S，S_k)；

(3)若

判断

即判断与最小“组合平均差异系数”对应的对象类为S属于的对象类。

Claims

1.一种多信息融合分类及识别方法，其特征在于，一种基于多源信息的个别对象间相似性度量方法，其步骤为：

(1)设待分类或识别对象的可观测的特征参数为θ₁，...，θ_n，对其分别做归一化处理，处理后的特征参数为

归一化的方法包括：

①若θ_k的取值范围为[min，max]，

②若θ_k的取值范围为(-∞，+∞)，

③若θ_k的取值范围为[min，+∞)，

④若θ_k的取值范围为(-∞，max]，

(2)设任意两个对象S_i和S_j的特征参数向量分别为：和

S_i和S_j的相似程度用它们在特征参数空间中对应的特征点的距离D来度量，这种距离称为相似距离，它的计算方法包括：

①加权平均距离：

②加权欧式距离：

a_k、b_k为第k个特征参数在相似比较时的权重，可根据实际比较时的侧重点灵活选择，若没有特殊要求，各权重值可都取为1。

2.一种多信息融合分类及识别方法，其特征在于，一种基于多源信息的个别对象相对于一个对象类的识别方法，其步骤为：

(1)若某对象类

有大容量样本库，对样本库进行随机大样本抽样，样本容量m大于30，若

为对象归一化特征参数中的某一个，利用样本中的对象的参数

的取值对对象类在参数

上的取值进行区间估计，置信度取为1-α，置信区间为

为第j个样本在参数

上的取值，

为的样本方差，α的3个常用取值为0.1、0.05、0.01，相应的z_0.05＝1.645、z_0.025＝1.96、z_0.005＝2.575；逐一确定每个特征参数的置信区间；

(2)指定目标识别区域为V＝{(θ₁，...，θ_n)|θ_k∈D_k，k＝1，...，n}，若S_i为待识别对象，S_i的特征参数向量为

若

判断对象S_i属于对象类

。

3.一种多信息融合分类及识别方法，其特征在于，一种基于单源信息的个别对象“二选一”识别方法，其内容为：

设为某归一化对象特征参数，根据在

上取值的情况可定义两个对象类

对

和

进行随机的大样本抽样，样本容量均大于30，根据样本数据对并

和

在参数

上的取值情况进行区间估计。设对象类

在参数

上的置信度为1-α₁的置信区间为E₁，对象类

在参数

上的置信度为1-α₂的置信区间为E₂，且E₁与E₂没有交集，对任意一个具有参数

的对象S可进行以下识别操作：

(1)若

判断

(2)若判断

(3)若

无法做出判断。

若

对S进行识别操作，其结果的准确率大于min{(1-2α₁)，(1-2α₂)}，min{(1-2α₁)，(1-2α₂)}为(1-2α₁)与(1-2α₂)中的较小值；若参数

在

和

上都呈对称分布，E₁和E₂也都为对称置信区间，以上识别结果的准确率大于min{(1-α₁)，(1-α₂)}。

4.一种多信息融合分类及识别方法，其特征在于，一种基于多源信息的个别对象“二选一”识别方法，其步骤为：

(1)设对象类

都具有归一化特征参数为

对二者进行大样本随机抽样，分别计算二者样本的特征参数均值

若对象S₁的特征参数向量为

称S₁为

的标准对象；若对象S₂的特征参数向量为

称S₁为

的标准对象；

(2)指定一种相似距离公式D(S_i，S_j)，a_k为第k个特征参数在相似比较时的权重；

(3)设对象类

具有归一化特征参数对二者进行大样本随机抽样，根据样本数据对参数

进行区间估计：设对象类

的参数

的置信度为1-α的置信区间为E_1k＝(e_1Lk，e_1Rk)，对象类

的参数

的置信度为1-α的置信区间为E_2k＝(e_2Lk，e_2Rk)。

(4)若E_2i∩E_2i＝Φ，Φ表示空集，设相似距离公式中与

对应的权数a_k＝1-α；若E_2i∩E_2i≠Φ，设

(5)重复步骤(3)～(4)，计算出相似距离公式中所有待定参数。

用上述步骤(3)～(5)待定出相似距离公式中所有参数，此时的相似距离公式称为对象类对

的对内形状差异系数计算公式，记作D₁₂(S_i，S_j)，简记为D₁₂。

(6)若S为待识别对象，分别用对内形状差异系数计算公式计算其与

的标准对象S₁、S₂的形状差异系数D₁₂(S，S₁)、D₁₂(S，S₂)，若

D₁₂(S，S_i)＝min{D₁₂(S，S₁)，D₁₂(S，S₂)}，判断

min{}表示求最小值的运算。

5.一种多信息融合分类及识别方法，其特征在于，一种基于多源信息的个别对象“多选一”识别方法，其步骤为：

(1)若S为待识别的对象，

为其可能属于的对象类的集合，D_ij为对象类对

的对内形状差异系数计算公式，显然D_ji＝D_ij，S_k为

的标准对象。

(2)计算S与每个对象类的标准对象S_k的组合平均差异系数

其中d_kl＝D_kl(S，S_k)。

(3)若

判断