CN104537385A

CN104537385A - 一种估计dagsvm分类准确度的方法

Info

Publication number: CN104537385A
Application number: CN201510035225.5A
Authority: CN
Inventors: 陈青锋; 秦拯; 欧露; 黄星辰
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2015-01-23
Filing date: 2015-01-23
Publication date: 2015-04-22

Abstract

本发明提供了一种估计DAGSVM分类准确度的方法，该方法通过划分出一个类别从根节点经过DAG结构走到正确的叶子节点位置所能经过的所有区域，并采用0-1矩阵来表示，结合路径上进行分类的两个类别的相似度，从而计算出整个矩阵表示的准确度估计值。本方案能够有效地估计出DAG结构的分类准确性，从而适当调整DAG的结构，使之获得更好的分类性能。

Description

一种估计DAGSVM分类准确度的方法

(一)技术领域

本发明涉及机器学习领域，具体为支持向量机中一种估计DAGSVM分类准确度的方法。

(二)背景技术

支持向量机(Support Vector Machine)是目前最流行的二分类算法之一。为了将它应用在实际工作中，通常采用一对一、一对其余、决策树和DAG等SVM的扩展方法来进行多类分类。其中一对一与DAGSVM方法分类的精度较其它方法高，更多的被人们使用。

DAGSVM方法主要针对一对一存在误分，拒分现象提出。这种方法的训练过程类似于“一对一”方法，k类别问题需要求解k(k-1)/2个支持向量机分类器，这些分类器构成一个有向无环图。该有向无环图中含有k(k-1)/2个内部节点和k个叶结点，每个节点对应一个二类分类器，如图1。

然而，作为一个层次性的结构，DAGSVM存在错误向下累积以及分类偏向性等问题，影响了分类结果的准确性。因此，DAGSVM分类结果仍然存在提升的可能，由于对于k种类别有k！种不同的备选结构，所以根据数据集的特性来选择合适的DAG结构能够有效提高分类的准确性。

要判断一个DAG结构是否适合作为数据集的分类结构，需要一种可靠的对此结构的分类结果的一种判断手段，以此来调整DAG结构的选择。

(三)发明内容

本发明所要解决的技术问题是，针对DAGSVM存在的错误向下累积以及分类偏向性等问题，提出一种估计DAG对当前数据集分类的方法，为取得合适的DAGSVM提供帮助。

为解决上述问题，本发明所采用的技术方案是：一种估计DAG对当前数据集分类的方法，具体如下：

1、一种估计DAGSVM分类准确度的方法，该方法包含以下步骤：

步骤1计算数据集中特定类别在经过给定DAG结构后产生分类结果的准确率。记待分类别在k个类别组成的DAG的叶子节点处于从左至右第a个位置，其中1≤a≤k。

步骤2对于待分类别a与经过的DAG分类器中两个类别的相似度，用A(a,i,j)表示，采用样本集映射到特征空间后中心之间的距离

d^{H} (c_{x}^{H}, c_{y}^{H}) = \sqrt{\frac{1}{n^{2}} Σ_{i = 1}^{n} Σ_{j = 1}^{n} K (x_{i}, x_{j}) - \frac{1}{nm} Σ_{i = 1}^{n} Σ_{j = 1}^{m} K (x_{i}, y_{j}) + \frac{1}{m^{2}} Σ_{i = 1}^{m} Σ_{j = 1}^{m} K (y_{i}, y_{j})}

来衡量，令

A (a, i, j) = \{\begin{matrix} \frac{\max (d^{H} (c_{a}^{H}, c_{i}^{H}), d^{H} (c_{a}^{H}, c_{j}^{H}))}{d^{H} (c_{a}^{H}, c_{i}^{H}) + d^{H} (c_{a}^{H}, c_{j}^{H})}, a &NotEqual; i, j \\ p, else \end{matrix} .

步骤3对于一个由二分类器SVM(i,j)组成的DAG结构，每经过一次分类判定，都会有向左决策和向右决策的概率。使用0代表分类器SVM(i,j)的分类结果为i，使用1代表分类器SVM(i,j)的结果为j。

步骤4对于类别i经过具有k个类别即叶子节点的DAG结构，必须经过k-i次向左决策和i-1次向右决策才能达到正确的叶子节点位置，由插板法可产生个不同的路径。

步骤5根据(3)和(4)中的结果，每一条分类正确的路径将会经过k-1次决策，即相当于产生了一个具有k-1个元素的由k-i个0和i-1个1组成的数组，由于此矩阵包含全部正确路径，所以可以用全排列来形成，最终产生一个行k-1列的路径矩阵。

步骤6初始化类别i的总准确度估计值S(i)＝0，i为从左至右第i个叶子节点位置代表的类别；当前路径准确度E＝1，代表当前分类器SVM(m,n)分类结果的参数m＝1,n＝k,表示从根节点开始。生成行k-1列的路径矩阵temp。初始化temp读取位置x＝y＝0，其中x表示行数，y表示列数。

步骤7读取路径矩阵中的数值temp[x][y]，然后比较i和当前m,n的值。若i不等于m和n中任一个，则E＝E*A(i,m,n)，且若temp＝0，m不变，n＝n-1。若temp＝1,则m＝m-1,n不变；若i＝m且temp＝0或者i＝n且temp＝1,则E＝pE；若i＝m且temp＝1或者i＝n且temp＝1，则E＝(1-p)E。无论属于那种情况，temp读取的位置y＝y+1。

步骤8重复步骤7直到某次结束后y＝k-2，则此时一条正确路径已走完，则S(i)＝S(i)+E，E＝1并令x＝x+1，y＝0进入下一条正确路径。如此重复步骤7、8直到某次x+1结果为时结束，返回的S(i)即是类别i的准确度估计值。

(四)附图说明

图1为DAGSVM结构示意图；

图2为4类分类中类别2的分类正确路径示意图；

图3为类别2的正确路径矩阵；

图4为实验数据集描述；

图5为准确度实验对比结果；

图6为时间消耗实验对比结果。

(五)具体实施方式

一般的情况，如图1所示，计算类别i分类正确的概率(1≤i≤k)，从有k-1步的路径上要经过k-i次向左决策SVM(m,n)＝m和i-1次向右决策SVM(m,n)＝n才能从根节点到达目标叶子节点a_i。由插板法，产生了共个不同的路径，对于每个SVM分类器SVM(m,n)，如果判别结果为m，则记为1，如果结果为n，则记为0，根据不同的0和1的排列顺序，就产生了一个行k-1列的0-1矩阵中的一行。k个叶子节点的DAG结构需要产生k个矩阵来计算各个叶子节点代表的类别的准确度。

本文中的方法从第一行开始依次读一个矩阵中的元素，每读一个元素代表在DAG图中经过了一个SVM分类器节点，利用公式(1)计算可得到a_i经过此节点的分类概率,每当读完一行，就得到一条正确路径，代表类别a_i从这条路径的方式得到正确分类结果的概率。将了共个列全部读完得出的概率结果求和，就得到了类别a_i中记录经过DAG分类正确的概率S(i)。令样本类别数k，训练样本整体准确度p，测试样本各类别数量为a₁,a₂,...,a_k(由训练样本各类别比例得出),待分类别为i(在叶子节点从左至右为第i个的位置所代表的类别)，要计算类别i分类正确的概率，由于类别i从根节点开始可以通过k-i次向左判别和i-1次向右判别达到正确的叶子节点a_i位置，首先产生行k-1列的0,1全排列矩阵，每行都有k-i个0,i-1个1，无重复行，一行表示一条正确路径。随后可以通过上述步骤6、7、8得到结果。

本实施方法可以帮助挑选出最适合的DAG结构，为了评估本方法的实际作用，采用UCI库中的数据集来进行实验，分别为“Iris”、“Wine”、“Poker-hand”、“Glass”、“Vehicle”、“Segment”和“Letter”。实验环境为PC机(CPU:I5-2520M,2.50GHz,内存4.00GB),比较对象使用MATLAB工具箱LIBSVM提供的1-v-1、1-v-r、DAG算法和文献[17]中的MBSVM算法。MBSVM是一种通过提前避免为相似度低于规定阈值的两个类别训练分类器，从而降低了训练时间的方法。在这三个数据集中使用高精确化方案进行准确度估值处理，从所有结构中选出具有最高精确度的备选项，然后与1-v-1、1-v-r，原始DAG-SVM方案及MBSVM作准确性和运行时间的比较。

表1为各数据集的详细情况，其中Attributes为具有的属性个数，Instances是样本集总数，Training是样本集用于训练的样本数，Class是样本具有的类别个数。对于每个数据集，先产生相关类别数的全排列0-1矩阵，然后使用本文的方法计算加权准确度，选出最高的估计分类正确数情况下的DAG结构。

表2、3中数据为测试集20次实验结果的平均值。从表2可以观察得到，对于实验中的7个数据集，本方法和其它的方法相比都能够提升分类结果的准确度。对于本身分类性能较好的数据集来说，分类结果会得到略微的提升，而对于本身分类性能较差的Glass和Vehicle两个数据集，使用Improved-DAG分类后对准确度的提升较大。

对于表3，总体上MBSVM由于需要训练的分类器比其它方案少，因此运行时间最快。而本方案需要在使用DAG-SVM方法前建立路径概率矩阵及进行遍历，因此比1-v-1，原始DAG和MBSVM方法耗时略多，比1-v-r方法速度要快。从类别数量看，类别数量较多的“Letter”数据集，可以看出实验时间消耗较其他方法明显要多，而同样为样本数较大的Poker-hand由于不同类别数仅有10个，所以由于构建路径矩阵所耗时的增加量相对于庞大的记录条数反而不明显，因此在类别数较少的数据集中记录数即使很大也不会对Improved-DAG方法有较大影响，而如果类别数过多则本方法不适用。

Claims

1.一种估计有向无环图支持向量机(Directed Acycline GraphSupport Vector Machine，简称DAGSVM)分类准确度的方法，DAG-SVM是训练阶段采用一对一的方式，在判别阶段采用有向无环图方式的分类方法，能够避免冗余决策、样本失衡及盲区问题，其特征在于，该方法通过提取能够获得正确结果的路径并使用0-1路径矩阵表示，结合数据集不同类别之间的相似度来估计分类准确度，该方法能够有效反映当前选择的DAG结构对于待分类数据集的合适程度，该方法包含以下步骤：

(1)计算数据集中特定类别在经过给定DAG结构后产生分类结果的准确率。记待分类别在k个类别组成的DAG的叶子节点处于从左至右第a个位置，其中1≤a≤k。

(2)对于待分类别a与经过的DAG分类器中两个类别的相似度，用A(a,i,j)表示，采用样本集映射到特征空间后中心之间的距离来衡量，则

A (a, i, j) = \{\begin{matrix} \frac{\max (d^{H} (c_{a}^{H}, c_{i}^{H}), d^{H} (c_{a}^{H}, c_{j}^{H}))}{d^{H} (c_{a}^{H}, c_{i}^{H}) + d^{H} (c_{a}^{H}, c_{j}^{H})}, a &NotEqual; i, j \\ p, else \end{matrix} .

(3)对于一个由二分类SVM器组成的DAG结构，每经过一次分类判定，都会有向左决策和向右决策的概率。使用0代表分类器SVM(i,j)的分类结果为i，使用1代表分类器SVM(i,j)的结果为j。

(4)对于类别i经过具有k个类别即叶子节点的DAG结构，必须经过k-i次向左决策和i-1次向右决策才能达到正确的叶子节点位置，由插板法可产生个不同的路径

(5)根据(3)和(4)中的结果，每一条分类正确的路径将会经过k-1次决策，即相当于产生了一个具有k-1个元素的由k-i个0和i-1个1组成的数组，由于此矩阵包含全部正确路径，所以可以用全排列来形成，最终产生一个行k-1列的路径矩阵。

(6)初始化类别i的总准确度估计值S(i)＝0，i为从左至右第i个叶子节点位置代表的类别；当前路径准确度E＝1，代表当前分类器SVM(m,n)分类结果的参数m＝1,n＝k,表示从根节点开始。生成行k-1列的路径矩阵。初始化temp读取位置x＝y＝0，其中x表示行数，y表示列数。

(7)读取路径矩阵中的数值temp[x][y]，然后比较i和当前m,n的值。若i不等于m和n中任一个，则E＝E*A(i,m,n)，且若temp＝0，m不变，n＝n-1。若temp＝1,则m＝m-1,n不变；若i＝m且temp＝0或者i＝n且temp＝1,则E＝pE；若i＝m且temp＝1或者i＝n且temp＝1，则E＝(1-p)E。无论属于那种情况，temp读取的位置y＝y+1。

(8)重复步骤(7)直到某次结束后y＝k-2，则此时一条正确路径已走完，则S(i)＝S(i)+E，E＝1并x＝x+1，y＝0进入下一条正确路径。如此重复步骤(7)、(8)直到某次x+1结果为时结束，返回的S(i)即是类别i的准确度估计值。