CN103310027B

CN103310027B - 用于地图模板匹配的规则提取方法

Info

Publication number: CN103310027B
Application number: CN201310287936.2A
Authority: CN
Inventors: 李伟; 陈毓芬; 谢超; 郑束蕾; 邓毅博; 李萌; 钱凌韬; 方潇
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2013-07-09
Filing date: 2013-07-09
Publication date: 2016-10-05
Anticipated expiration: 2033-07-09
Also published as: CN103310027A

Abstract

本发明涉及一种用于地图模板匹配的规则提取方法，含有下列步骤：1：设在地图模板眼动实验中测得|T|组实验数据，该实验含有h个决策属性，将|T|组实验数据组成数据集T，再从|T|组实验数据中随机选出|S|组实验数据组成训练集S；2：在数据集T中，如果h个决策属性中有h1个决策属性所对应的测试值是连续数值，则分别对该h1个决策属性对应的数值进行离散处理；3：在训练集S中，遍历h个决策属性，得出各决策属性的信息增益率，选择信息增益率最大的决策属性作为根节点属性；4：以自顶向下的递归方式，通过内部节点评价选取适当决策属性，并根据该属性不同取值由该节点向下分支，最终形成决策树；本发明准确率高、效能高。

Description

用于地图模板匹配的规则提取方法

(一)、技术领域：本发明涉及一种规则提取方法，特别是涉及一种用于地图模板匹配的规则提取方法。

(二)、背景技术:规则提取方法是可以解决实现应用中分类问题的数据挖掘方法。目前决策树等规则提取模式能从无次序、无规则的样本数据集中推理树型表示形式、逼近离散值目标函数分类规则模型，采用自顶向下的递归方式，通过在决策树内部节点进行评价来选择适合的决策属性，并根据该属性的不同属性值向该节点以下分支，最终在决策树叶子节点上获得分类结点。决策树的典型算法有ID3，C4.5，CART等。

ID3作为贪婪算法，每次都优先提取信息增益最大值的属性，而信息增益的计算依赖于样本特征数据较多的属性，但属性取值最多的属性并不一定最优；并且在分类节点上只考虑单个属性，在许多复杂属性表达上不关注相互间关系，容易导致决策提取中子规则的重复或多次的重复检验。而较多由以ID3为基础的优化和改进，均以信息增益作为计算的基础，虽然能够在某些方面有所提升，但整体上该类型方法在在效率和准确率方面有待提高。

C4.5算法用信息增益率来分析决策属性，产生的分类规则易于理解，与ID3相比准确率大大提高。但C4.5算法在处理连续值属性离散化时，需要对数据集多次排序和对比，遍历所有潜在的阈值点，离散化处理繁琐，且在离散化规模方面处理较模糊，既严重影响决策树构造的时间和效率，又不能适应用户感知情境中年龄等连续值属性的离散化处理。有关引用平衡度系数的MB-C4.5算法重在减少无意义分支和过度拟合等问题；引用Taylor等公式可以简化计算过程，降低了信息增益率的计算量，但无益于提升连续值属性离散化效率和准确率，而基于C4.5算法在连续值属性离散化和连续值属性惩罚项等方面的进行，能够从总体上提高算法执行效果，在分类错误率方面也具有一定的应用潜力，但算法复杂度会随着连续值属性离散化的复杂度倍增。

CART算法作为结构简洁的二叉树分类方法，采用一种二分递归分割的技术，将样本集分为两个子样本集，使得生成的决策规则每个非叶子节点都有两个分支。但它对连续值属性比较难预测，尤其针对顺序数据需要复杂的预处理，而且当属性类别增大时，分类误差也随之增大。对该算法的优化和改进，立足于解决数据预处理等问题，对连续值属性的分类性能优化并不显著。

(三)、发明内容：

本发明要解决的技术问题是：克服现有技术的缺陷，提供一种准确率高、效能高的用于地图模板匹配的规则提取方法。

本发明的技术方案：

一种用于地图模板匹配的规则提取方法，含有下列步骤：

步骤1：设在地图模板眼动实验中测得|T|组实验数据，该实验含有h个决策属性和一个眼动测试模板选项，眼动测试模板选择项含有q类选择值，因此，每组实验数据中对应含有h个数据和一个眼动测试模板选择值；将|T|组实验数据组成数据集T，再从|T|组实验数据中随机选出|S|组实验数据组成训练集S，根据每组数据的眼动测试模板选择值从训练集S中选出q类数据组，形成分类集合{ToS₁，ToS₂，…，ToS_i…，ToS_q}，其中，ToS_i为每类数据组对应的子集，1≤i≤q，每类数据组中含有|ToS_i|组数据，各组数据含有相同的眼动测试模板选择值，分类集合中每个类的先验概率p_i＝|ToS_i|/|S|，对训练集S分类所需信息熵E(S)为：

E (S) = - Σ_{i = 1}^{q} p_{i} \log_{2} p_{i}

步骤2：在数据集T中，如果h个决策属性中有h1个决策属性所对应的测试值是连续数值，则分别对该h1个决策属性对应的数值进行离散处理，该离散处理采用基于中值区域阈值分析法；

步骤3：在训练集S中，遍历h个决策属性，得出各决策属性的信息增益率，选择信息增益率最大的决策属性作为根节点属性；

步骤4：从h个决策属性中去除根节点属性，并令h＝h-1，将根节点属性对应的数据中的各离散值作为根节点分枝，在训练集S中，每个根节点分枝对应一批数据组，在该批数据组的基础上遍历h个决策属性，得出各决策属性的信息增益率，选择信息增益率最大的决策属性作为子节点属性；

接着，再从h个决策属性中去除子节点属性，并令h＝h-1，将子节点属性对应的数据中的各离散值作为子节点分枝，在训练集S中，每个子节点分枝对应一批数据组，在该批数据组的基础上遍历h个决策属性，得出各决策属性的信息增益率，选择信息增益率最大的决策属性作为叶节点属性；如果没有信息增益率最大的决策属性，则没有相应的叶节点属性，说明该子节点分枝对应的眼动测试模板选择值唯一，分枝结束；

依此类推，再对各叶节点属性进行分枝，直到所有叶节分枝对应的眼动测试模板选择值唯一，分枝结束，最后形成一个决策树。

步骤1中：q＝4，h≥5。

步骤2中，基于中值区域阈值分析法的具体步骤如下：

步骤2.1：设决策属性C_A为h1个决策属性中的任一个，将决策属性C_A对应的测试值的集合A中的数据按取值升序排列为序列{S₁，S₂，…，S_m}，m为集合A中的数据的总数量，预设分割信息量次z＝0；

如果log₂m的值四舍五入后为2n，n为大于0的自然数，则计算序列{S₁，S₂，…，S_m}的中值S_me＝(S₁+S_m)/2，再计算左子区间的中值S_ml＝(S₁+S_me)/2，右子区间的中值S_mr＝(S_me+S_m)/2；在序列{S₁，S₂，…，S_m}中，选取S_ml和S_mr之间的数作为阈值预选区域；

如果log₂m的值四舍五入后为2n+1，则计算序列{S₁，S₂，…，S_m}的2n个中值，该2n个中值分别为S_me1、S_me2、…、S_me2n，该2n个中值的计算方法为：

S_me1＝(S₁+S_m)*1/(2n+1)，

S_me2＝(S₁+S_m)*2/(2n+1)，

S_me3＝(S₁+S_m)*3/(2n+1)，

………………………，

S_me2n-1＝(S₁+S_m)*(2n-1)/(2n+1)；

S_me2n＝(S₁+S_m)*2n/(2n+1)；

在序列{S₁，S₂，…，S_m}中，

选取(S₁+S_me1)/2和(S_me1+S_me2)/2之间的数作为S_me1的阈值预选区域，

选取(S_me1+S_me2)/2和(S_me2+S_me3)/2之间的数作为S_me2的阈值预选区域，

………………………，

选取(S_me2n-1+S_me2n)/2和(S_me2n+S_m)/2之间的数作为S_me2n的阈值预选区域；

步骤2.2：从每个阈值预选区域中选出一个阈值，根据选出的阈值将序列{S₁，S₂，…，S_m}中的数据划分为j个离散区域，j个离散区域形成一个离散区域集合{TloS₁，TloS₂，…，TloS_i1，…，TloS_i}，其中，1≤i1≤j，|TloS_i1|为子集TloS_i1中数据的个数，设|S_i1|为子集TloS_i1中属于训练集的数据的个数，则子集TloS_i1的先验概率p_i1＝|TloS_i1|/|S_i1|，计算j个离散区域的信息熵E(S_Aj)：

E (S_{A j}) = - Σ_{i 1 = 1}^{j} p_{i 1} \log_{2} p_{i 1}

计算信息熵E_A(S)：

E_{A} (S) = Σ_{i 1 = 1}^{j} \frac{| S_{i 1} |}{| S |} E (S_{A j})

计算决策属性C_A的信息增益Gain(C_A)：

Gain(C_A)＝E(S)-E_A(S)

随后计算信息增益修正值Gain(C_A)′：

G a i n {(C_{A})}^{'} = G a i n (C_{A}) - \frac{\log_{2} K}{| S |}

其中，1≤K≤m-1，K＝m-1时为最大可能潜在划分点个数；

步骤2.3：选择Gain(C_A)′的最大值S_t为最佳分裂阈值点，且使z＝z+1；

步骤2.4：在序列{S₁，S₂，…，S_m}中，选取S₁和S_t之间的数作为第一子样本序列，选取S_t和S_m之间的数作为第二子样本序列；

步骤2.5：当z≤log₂(q/2)时，进行如下操作：

步骤2.5.1：计算第一子样本序列的中值，再计算第一子样本序列的左子区间的中值S_tl1和右子区间的中值S_tr1，并选取S_tl1和S_tr1之间的数作为阈值预选区域；

步骤2.5.2：计算第二子样本序列的中值，再计算第二子样本序列的左子区间的中值S_tl2和右子区间的中值S_tr2，并选取S_tl2和S_tr2之间的数作为阈值预选区域；

步骤2.5.3：执行步骤2.2；

当z＞log₂(q/2)时，结束操作。

步骤3和步骤4中，遍历h个决策属性时，对每个决策属性进行如下操作：

步骤3.1：设该决策属性中含有j1个离散区域，j1个离散区域对应一个离散区域集合{SK_p1，SK_p2，…，SK_pi2，…，SK_pj1}，其中，1≤i2≤j1，|SK_pi2|为子集SK_pi2中数据组的个数，设|S_i2|为子集SK_pi2中属于训练集的数据的个数，则子集SK_pi2的先验概率p_i2＝|SK_pi2|/|S|，计算信息熵E(S_kj)：

E (S_{k j}) = - Σ_{i 2 = 1}^{j 1} p_{i 2} \log_{2} p_{i 2}

计算信息熵E_k(S)：

E_{k} (S) = Σ_{i 2 = 1}^{j 1} \frac{| S_{i 2} |}{| S |} E (S_{k j})

步骤3.2：计算信息增益Gain(C_k)：

Gain(C_k)＝E(S)-E_k(S)

步骤3.3：计算分裂信息SplitE(C_k)：

S p l i t E (C_{k}) = - Σ_{i 2 = 1}^{j 1} \frac{| S_{i 2} |}{| S |} \log_{2} \frac{| S_{i 2} |}{| S |}

步骤3.4：计算信息增益率GainRatio(C_k)：

G a i n R a t i o (C_{k}) = \frac{G a i n (C_{k})}{S p l i t E (C_{k})} .

用于地图模板匹配的规则提取方法根据MDL准则提供在模型复杂度和错误率之间折衷方法，即：如果结点是连续值属性，则需要额外信息量描述阈值位置，假设连续值属性C_A具有k个潜在划分点，则最终阈值的额外信息量为log₂k。因此，该方法应用基于最小描述信息量准则，假设额外信息量log₂k约等于2n或2n+1(n为整数)，则规范属性离散量为n次，则建立2n或2n+1个适当规模的属性离散区域。MDL准则--Minimum Description LengthPrinciple。

此外，假设集合S分类型q种，对连续值属性C_A排序后，该集合A中m个不同取值有k个潜在划分点，一般情况下存在m＞k＞＞q，且基于对连续值属性离散处理时，最终选取的最佳阈值点一定在边界点的原则，潜在阈值按照其离散区域划分介于q-1个待测试类别属性相对应的边界点和m-1个划分点之中，并有阈值点总是位于中值区域内的规律。该方法减少对所有潜在划分点的测试，以升序排列后建立2n或2n+1个等分区域的中值将连续属性预划分，以左右中值为预先区域，进行预选阈值的信息增益计算。

用于地图模板匹配的规则提取方法将类别属性扩展到数值属性，该度量标准使用的属性能把数据分区成类熵较低的子集，即该子集中的大部分样本都属于一个类，并使类之间的区别程度为局部最大。该方法作为通过一组输入输出样本构建决策规则的推理方法，是分类和回归的高效的非参数化分析方法，特别是针对连续值属性通过中值区域分析法分析阈值，提升了连续值属性离散处理的科学性和有效性；在机器学习和应用统计文献应用广泛；也可应用于包括金融市场趋势分类、气象数据分析推理以及图像数据库对象识别等所有涉及归纳分类的数据挖掘中，普适性较强。

本发明的有益效果：

1、本发明通过信息增益率，运用中值区域分析阈值，以自顶向下的递归方式，通过内部节点评价选取适当决策属性，并根据该属性不同取值由该节点向下分支，最终在叶节点上获得分类结点，形成决策树，提取相应规则。本发明提升了连续值属性离散的科学性、提高了规则提取的准确率、普适性较强、效果较好、效能高。

2、本发明的中值区域分析阈值能有效降低算法复杂度，优化处理过程直接在中值区域内对比信息增益，设m为连续值属性的数量，一次阈值分析可减少(m-1)/2次的运算和比较，且额外信息量log₂m越大，分析效率越高。同时，以额外信息量log₂m规范离散区域次数和数量，比目前使用全局分散方法、K_均值分类器以及构建更多分叉的决策树方法更高效，便于建立适当规模的决策规则，使连续属性离散化时劣势得以优化。

基于数据集中同时出现连续属性和离散属性时，倾向于选择连续属性作为分裂属性考虑，本发明将连续值属性信息增益减去log₂(m-1)/|S|进行偏移修正，随后选择最佳分裂点比较时应用信息增益，并用对应阈值的信息增益率作为该区域的信息增益率；并继承了对连续值属性信息增益的修正，首先完成离散化处理，随后以离散区域进行信息增益率的运算，从根本上解决了现有算法倾向于选择连续属性作为分裂属性的考虑，避免了信息增益偏移修正的误差，在降低模型分类错误率方面具有应用潜力，使其具有更高的预测准确性。

(四)、附图说明：

图1为决策树的结构示意图。

(五)、具体实施方式：

用于地图模板匹配的规则提取方法含有下列步骤：

E (S) = - Σ_{i = 1}^{q} p_{i} \log_{2} p_{i}

步骤1中：q＝4，h≥5。

步骤2中，基于中值区域阈值分析法的具体步骤如下：

S_me1＝(S₁+S_m)*1/(2n+1)，

S_me2＝(S₁+S_m)*2/(2n+1)，

S_me3＝(S₁+S_m)*3/(2n+1)，

………………………，

S_me2n-1＝(S₁+S_m)*(2n-1)/(2n+1)；

S_me2n＝(S₁+S_m)*2n/(2n+1)；

在序列{S₁，S₂，…，S_m}中，

………………………，

步骤2.2：从每个阈值预选区域中选出一个阈值，根据选出的阈值将序列{S₁，S₂，…，S_m}中的数据划分为j个离散区域，j个离散区域形成一个离散区域集合{TloS₁，TloS₂，…，TloS_i1，…，TloS_j}，其中，1≤i1≤j，|TloS_i1|为子集TloS_i1中数据的个数，设|S_i1|为子集TloS_i1中属于训练集的数据的个数，则子集TloS_i1的先验概率p_il＝|TloS_i1|/|S_i1|，计算j个离散区域的信息熵E(S_Aj)：

E (S_{A j}) = - Σ_{i 1 = 1}^{j} p_{i 1} \log_{2} p_{i 1}

计算信息熵E_A(S)：

E_{A} (S) = Σ_{i 1 = 1}^{j} \frac{| S_{i 1} |}{| S |} E (S_{A j})

计算决策属性C_A的信息增益Gain(C_A)：

Gain(C_A)＝E(S)-E_A(S)

随后计算信息增益修正值Gain(C_A)′：

G a i n {(C_{A})}^{'} = G a i n (C_{A}) - \frac{\log_{2} K}{| S |}

其中，1≤K≤m-1，K＝m-1时为最大可能潜在划分点个数；

步骤2.5：当z≤log₂(q/2)时，进行如下操作：

步骤2.5.3：执行步骤2.2；

当z＞log₂(q/2)时，结束操作。

步骤3.1：设该决策属性中含有j1个离散区域，j1个离散区域对应一个离散区域集合{SK_p1，SK_p2，…，SK_pi2，…，SK_pj1}，其中，1≤i2≤j1，|SK_pi2|为子集SK_pi2中数据组的个数，设|S_i2|为子集SK_pi2中属于训练集的数据的个数，则子集SK_pi2的先验概率p_i2＝|SK_pi2|/|S|计算信息熵E(S_kj)：

E (S_{k j}) = - Σ_{i 2 = 1}^{j 1} p_{i 2} \log_{2} p_{i 2}

计算信息熵E_k(S)：

E_{k} (S) = Σ_{i 2 = 1}^{j 1} \frac{| S_{i 2} |}{| S |} E (S_{k j})

步骤3.2：计算信息增益Gain(C_k)：

Gain(C_k)＝E(S)-E_k(S)

步骤3.3：计算分裂信息SplitE(C_k)：

S p l i t E (C_{k}) = - Σ_{i 2 = 1}^{j 1} \frac{| S_{i 2} |}{| S |} \log_{2} \frac{| S_{i 2} |}{| S |}

步骤3.4：计算信息增益率GainRatio(C_k)：

G a i n R a t i o (C_{k}) = \frac{G a i n (C_{k})}{S p l i t E (C_{k})} .

下面采用具体实例进一步说明用于地图模板匹配的规则提取方法：

本实例应用于用户属性对地图模板选择的实验，分析彼此关联，主要实验选择值为：

age(C₁)＝{17，18，19，……，34}；

年龄(C1)＝{17，18，19，……，34}；

gender(C₂)＝{male，female}；

性别(C2)＝{男，女}；

situation(C₃)＝{frequent，sometimes，infrequent}；

使用地图情况(C3)＝{经常，有时，几乎不使用}；

degree(C₄)＝{bachelor，master，doctor}；

学历(C4)＝{本科，硕士，博士}；

specialty(C₅)＝{mapper,non-mapper}；

专业(C5)＝{地图相关专业,与地图无关的专业}；

eye-tracking choice template(ToS)＝{tempA，tempB，tempC，tempD}。

眼动测试选择模板(ToS)＝{模板A，模板B，模板C，模板D}。

地图模板认知眼动实验的实验数据如表1所示：

表1

实验数据共236个，经过数据集预处理，选取训练集样本89个。应用用于地图模板匹配的规则提取方法分析如下：

1)|S|＝89，|ToS₁|＝19，|ToS₂|＝27，|ToS₃|＝28，|ToS₄|＝15，则训练集S分类所需信息熵E(S)为1.965。

2)进行连续值属性age(C₁)的离散化处理。将C₁的集合A升序排列{17，18，…，34}，获取阈值预选区域{21，…，25，…，29}，设阈值为25，则E(C₂₅)＝1.745，Gain₂₅＝0.124；并得Gain₂₄＝0.308，Gain₂₆＝0.243……，则阈值为24，再次进行子集离散化处理得阈值为21，28，此时2<log₂q/2＝2.044，即仅需两次离散处理，得离散区间age(C1)＝{17-21yearsold，22-24years old，25-28years old，29-34years old}。

3)计算各离散属性对样本集的信息期望、信息增益及信息增益率GainRatio_gender＝0.021,GainRatio_situation＝0.130,GainRatio_degree＝0.126,GainRatio_specialty＝0.047,GainRatio_age＝0.065，则选择situation(C₃)属性作为决策树根节点，其余决策属性递归信息增益率运算，逐步生成决策树如图1所示，相关规则提取如表2所示：

表2

本发明的方法继承了对连续值属性信息增益的修正，首先完成离散化处理，随后以离散区域进行信息增益率的运算，从根本上解决了原算法倾向于选择连续属性作为分裂属性的考虑，避免了信息增益偏移修正的误差，在降低模型分类错误率方面具有应用潜力，使其具有更高的预测准确性。通过进行训练集样本的验证准确率显著提升。表3所示为C4.5与本发明的方法的算法效能对比表：

表3

Claims

1.一种用于地图模板匹配的规则提取方法，其特征是：含有下列步骤：

E (S) = - Σ_{i = 1}^{q} p_{i} \log_{2} p_{i}

所述基于中值区域阈值分析法的具体步骤如下：

S_me1＝(S₁+S_m)*1/(2n+1)，

S_me2＝(S₁+S_m)*2/(2n+1)，

S_me3＝(S₁+S_m)*3/(2n+1)，

………………………，

S_me2n-1＝(S₁+S_m)*(2n-1)/(2n+1)；

S_me2n＝(S₁+S_m)*2n/(2n+1)；

在序列{S₁，S₂，…，S_m}中，

………………………，

步骤2.2：从每个阈值预选区域中选出一个阈值，根据选出的阈值将序列{S₁，S₂，…，S_m}中的数据划分为j个离散区域，j个离散区域形成一个离散区域集合{T1oS₁，T1oS₂，…，T1oS_i1，…，T1oS_j}，其中，1≤i1≤j，|T1oS_i1|为子集T1oS_i1中数据的个数，设|S_i1|为子集T1oS_i1中属于训练集的数据的个数，则子集T1oS_i1的先验概率p_i1＝|T1oS_i1|/|S_i1|，计算j个离散区域的信息熵E(S_Aj)：

E (S_{A j}) = - Σ_{i 1 = 1}^{j} p_{i 1} \log_{2} p_{i 1}

计算信息熵E_A(S)：

E_{A} (S) = Σ_{i 1 = 1}^{j} \frac{| S_{i 1} |}{| S |} E (S_{A j})

计算决策属性C_A的信息增益Gain(C_A)：

Gain(C_A)＝E(S)-E_A(S)

随后计算信息增益修正值Gain(C_A)′：

G a i n {(C_{A})}^{'} = G a i n (C_{A}) - \frac{\log_{2} K}{| S |}

其中，1≤K≤m-1，K＝m-1时为最大可能潜在划分点个数；

步骤2.5：当z≤log₂(q/2)时，进行如下操作：

步骤2.5.3：执行步骤2.2；

当z＞log₂(q/2)时，结束操作；

2.根据权利要求1所述的用于地图模板匹配的规则提取方法，其特征是：所述步骤1中：q＝4，h≥5。

3.根据权利要求1所述的用于地图模板匹配的规则提取方法，其特征是：所述步骤3和步骤4中，遍历h个决策属性时，对每个决策属性进行如下操作：

E (S_{k j}) = - Σ_{i 2 = 1}^{j 1} p_{i 2} \log_{2} p_{i 2}

计算信息熵E_k(S)：

E_{k} (S) = Σ_{i 2 = 1}^{j 1} \frac{| S_{i 2} |}{| S |} E (S_{k j})

步骤3.2：计算信息增益Gain(C_k)：

Gain(C_k)＝E(S)-E_k(S)

步骤3.3：计算分裂信息SplitE(C_k)：

S p l i t E (C_{k}) = - Σ_{i 2 = 1}^{j 1} \frac{| S_{i 2} |}{| S |} \log_{2} \frac{| S_{i 2} |}{| S |}

步骤3.4：计算信息增益率GainRatio(C_k)：

G a i n R a t i o (C_{k}) = \frac{G a i n (C_{k})}{S p l i t E (C_{k})} .