CN103310027B - 用于地图模板匹配的规则提取方法 - Google Patents

用于地图模板匹配的规则提取方法 Download PDF

Info

Publication number
CN103310027B
CN103310027B CN201310287936.2A CN201310287936A CN103310027B CN 103310027 B CN103310027 B CN 103310027B CN 201310287936 A CN201310287936 A CN 201310287936A CN 103310027 B CN103310027 B CN 103310027B
Authority
CN
China
Prior art keywords
attribute
data
value
decision
decision attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310287936.2A
Other languages
English (en)
Other versions
CN103310027A (zh
Inventor
李伟
陈毓芬
谢超
郑束蕾
邓毅博
李萌
钱凌韬
方潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA Information Engineering University
Original Assignee
PLA Information Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA Information Engineering University filed Critical PLA Information Engineering University
Priority to CN201310287936.2A priority Critical patent/CN103310027B/zh
Publication of CN103310027A publication Critical patent/CN103310027A/zh
Application granted granted Critical
Publication of CN103310027B publication Critical patent/CN103310027B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用于地图模板匹配的规则提取方法,含有下列步骤:1:设在地图模板眼动实验中测得|T|组实验数据,该实验含有h个决策属性,将|T|组实验数据组成数据集T,再从|T|组实验数据中随机选出|S|组实验数据组成训练集S;2:在数据集T中,如果h个决策属性中有h1个决策属性所对应的测试值是连续数值,则分别对该h1个决策属性对应的数值进行离散处理;3:在训练集S中,遍历h个决策属性,得出各决策属性的信息增益率,选择信息增益率最大的决策属性作为根节点属性;4:以自顶向下的递归方式,通过内部节点评价选取适当决策属性,并根据该属性不同取值由该节点向下分支,最终形成决策树;本发明准确率高、效能高。

Description

用于地图模板匹配的规则提取方法
(一)、技术领域:本发明涉及一种规则提取方法,特别是涉及一种用于地图模板匹配的规则提取方法。
(二)、背景技术:规则提取方法是可以解决实现应用中分类问题的数据挖掘方法。目前决策树等规则提取模式能从无次序、无规则的样本数据集中推理树型表示形式、逼近离散值目标函数分类规则模型,采用自顶向下的递归方式,通过在决策树内部节点进行评价来选择适合的决策属性,并根据该属性的不同属性值向该节点以下分支,最终在决策树叶子节点上获得分类结点。决策树的典型算法有ID3,C4.5,CART等。
ID3作为贪婪算法,每次都优先提取信息增益最大值的属性,而信息增益的计算依赖于样本特征数据较多的属性,但属性取值最多的属性并不一定最优;并且在分类节点上只考虑单个属性,在许多复杂属性表达上不关注相互间关系,容易导致决策提取中子规则的重复或多次的重复检验。而较多由以ID3为基础的优化和改进,均以信息增益作为计算的基础,虽然能够在某些方面有所提升,但整体上该类型方法在在效率和准确率方面有待提高。
C4.5算法用信息增益率来分析决策属性,产生的分类规则易于理解,与ID3相比准确率大大提高。但C4.5算法在处理连续值属性离散化时,需要对数据集多次排序和对比,遍历所有潜在的阈值点,离散化处理繁琐,且在离散化规模方面处理较模糊,既严重影响决策树构造的时间和效率,又不能适应用户感知情境中年龄等连续值属性的离散化处理。有关引用平衡度系数的MB-C4.5算法重在减少无意义分支和过度拟合等问题;引用Taylor等公式可以简化计算过程,降低了信息增益率的计算量,但无益于提升连续值属性离散化效率和准确率,而基于C4.5算法在连续值属性离散化和连续值属性惩罚项等方面的进行,能够从总体上提高算法执行效果,在分类错误率方面也具有一定的应用潜力,但算法复杂度会随着连续值属性离散化的复杂度倍增。
CART算法作为结构简洁的二叉树分类方法,采用一种二分递归分割的技术,将样本集分为两个子样本集,使得生成的决策规则每个非叶子节点都有两个分支。但它对连续值属性比较难预测,尤其针对顺序数据需要复杂的预处理,而且当属性类别增大时,分类误差也随之增大。对该算法的优化和改进,立足于解决数据预处理等问题,对连续值属性的分类性能优化并不显著。
(三)、发明内容:
本发明要解决的技术问题是:克服现有技术的缺陷,提供一种准确率高、效能高的用于地图模板匹配的规则提取方法。
本发明的技术方案:
一种用于地图模板匹配的规则提取方法,含有下列步骤:
步骤1:设在地图模板眼动实验中测得|T|组实验数据,该实验含有h个决策属性和一个眼动测试模板选项,眼动测试模板选择项含有q类选择值,因此,每组实验数据中对应含有h个数据和一个眼动测试模板选择值;将|T|组实验数据组成数据集T,再从|T|组实验数据中随机选出|S|组实验数据组成训练集S,根据每组数据的眼动测试模板选择值从训练集S中选出q类数据组,形成分类集合{ToS1,ToS2,…,ToSi…,ToSq},其中,ToSi为每类数据组对应的子集,1≤i≤q,每类数据组中含有|ToSi|组数据,各组数据含有相同的眼动测试模板选择值,分类集合中每个类的先验概率pi=|ToSi|/|S|,对训练集S分类所需信息熵E(S)为:
E ( S ) = - Σ i = 1 q p i log 2 p i
步骤2:在数据集T中,如果h个决策属性中有h1个决策属性所对应的测试值是连续数值,则分别对该h1个决策属性对应的数值进行离散处理,该离散处理采用基于中值区域阈值分析法;
步骤3:在训练集S中,遍历h个决策属性,得出各决策属性的信息增益率,选择信息增益率最大的决策属性作为根节点属性;
步骤4:从h个决策属性中去除根节点属性,并令h=h-1,将根节点属性对应的数据中的各离散值作为根节点分枝,在训练集S中,每个根节点分枝对应一批数据组,在该批数据组的基础上遍历h个决策属性,得出各决策属性的信息增益率,选择信息增益率最大的决策属性作为子节点属性;
接着,再从h个决策属性中去除子节点属性,并令h=h-1,将子节点属性对应的数据中的各离散值作为子节点分枝,在训练集S中,每个子节点分枝对应一批数据组,在该批数据组的基础上遍历h个决策属性,得出各决策属性的信息增益率,选择信息增益率最大的决策属性作为叶节点属性;如果没有信息增益率最大的决策属性,则没有相应的叶节点属性,说明该子节点分枝对应的眼动测试模板选择值唯一,分枝结束;
依此类推,再对各叶节点属性进行分枝,直到所有叶节分枝对应的眼动测试模板选择值唯一,分枝结束,最后形成一个决策树。
步骤1中:q=4,h≥5。
步骤2中,基于中值区域阈值分析法的具体步骤如下:
步骤2.1:设决策属性CA为h1个决策属性中的任一个,将决策属性CA对应的测试值的集合A中的数据按取值升序排列为序列{S1,S2,…,Sm},m为集合A中的数据的总数量,预设分割信息量次z=0;
如果log2m的值四舍五入后为2n,n为大于0的自然数,则计算序列{S1,S2,…,Sm}的中值Sme=(S1+Sm)/2,再计算左子区间的中值Sml=(S1+Sme)/2,右子区间的中值Smr=(Sme+Sm)/2;在序列{S1,S2,…,Sm}中,选取Sml和Smr之间的数作为阈值预选区域;
如果log2m的值四舍五入后为2n+1,则计算序列{S1,S2,…,Sm}的2n个中值,该2n个中值分别为Sme1、Sme2、…、Sme2n,该2n个中值的计算方法为:
Sme1=(S1+Sm)*1/(2n+1),
Sme2=(S1+Sm)*2/(2n+1),
Sme3=(S1+Sm)*3/(2n+1),
………………………,
Sme2n-1=(S1+Sm)*(2n-1)/(2n+1);
Sme2n=(S1+Sm)*2n/(2n+1);
在序列{S1,S2,…,Sm}中,
选取(S1+Sme1)/2和(Sme1+Sme2)/2之间的数作为Sme1的阈值预选区域,
选取(Sme1+Sme2)/2和(Sme2+Sme3)/2之间的数作为Sme2的阈值预选区域,
………………………,
选取(Sme2n-1+Sme2n)/2和(Sme2n+Sm)/2之间的数作为Sme2n的阈值预选区域;
步骤2.2:从每个阈值预选区域中选出一个阈值,根据选出的阈值将序列{S1,S2,…,Sm}中的数据划分为j个离散区域,j个离散区域形成一个离散区域集合{TloS1,TloS2,…,TloSi1,…,TloSi},其中,1≤i1≤j,|TloSi1|为子集TloSi1中数据的个数,设|Si1|为子集TloSi1中属于训练集的数据的个数,则子集TloSi1的先验概率pi1=|TloSi1|/|Si1|,计算j个离散区域的信息熵E(SAj):
E ( S A j ) = - Σ i 1 = 1 j p i 1 log 2 p i 1
计算信息熵EA(S):
E A ( S ) = Σ i 1 = 1 j | S i 1 | | S | E ( S A j )
计算决策属性CA的信息增益Gain(CA):
Gain(CA)=E(S)-EA(S)
随后计算信息增益修正值Gain(CA)′:
G a i n ( C A ) ′ = G a i n ( C A ) - log 2 K | S |
其中,1≤K≤m-1,K=m-1时为最大可能潜在划分点个数;
步骤2.3:选择Gain(CA)′的最大值St为最佳分裂阈值点,且使z=z+1;
步骤2.4:在序列{S1,S2,…,Sm}中,选取S1和St之间的数作为第一子样本序列,选取St和Sm之间的数作为第二子样本序列;
步骤2.5:当z≤log2(q/2)时,进行如下操作:
步骤2.5.1:计算第一子样本序列的中值,再计算第一子样本序列的左子区间的中值Stl1和右子区间的中值Str1,并选取Stl1和Str1之间的数作为阈值预选区域;
步骤2.5.2:计算第二子样本序列的中值,再计算第二子样本序列的左子区间的中值Stl2和右子区间的中值Str2,并选取Stl2和Str2之间的数作为阈值预选区域;
步骤2.5.3:执行步骤2.2;
当z>log2(q/2)时,结束操作。
步骤3和步骤4中,遍历h个决策属性时,对每个决策属性进行如下操作:
步骤3.1:设该决策属性中含有j1个离散区域,j1个离散区域对应一个离散区域集合{SKp1,SKp2,…,SKpi2,…,SKpj1},其中,1≤i2≤j1,|SKpi2|为子集SKpi2中数据组的个数,设|Si2|为子集SKpi2中属于训练集的数据的个数,则子集SKpi2的先验概率pi2=|SKpi2|/|S|,计算信息熵E(Skj):
E ( S k j ) = - Σ i 2 = 1 j 1 p i 2 log 2 p i 2
计算信息熵Ek(S):
E k ( S ) = Σ i 2 = 1 j 1 | S i 2 | | S | E ( S k j )
步骤3.2:计算信息增益Gain(Ck):
Gain(Ck)=E(S)-Ek(S)
步骤3.3:计算分裂信息SplitE(Ck):
S p l i t E ( C k ) = - Σ i 2 = 1 j 1 | S i 2 | | S | log 2 | S i 2 | | S |
步骤3.4:计算信息增益率GainRatio(Ck):
G a i n R a t i o ( C k ) = G a i n ( C k ) S p l i t E ( C k ) .
用于地图模板匹配的规则提取方法根据MDL准则提供在模型复杂度和错误率之间折衷方法,即:如果结点是连续值属性,则需要额外信息量描述阈值位置,假设连续值属性CA具有k个潜在划分点,则最终阈值的额外信息量为log2k。因此,该方法应用基于最小描述信息量准则,假设额外信息量log2k约等于2n或2n+1(n为整数),则规范属性离散量为n次,则建立2n或2n+1个适当规模的属性离散区域。MDL准则--Minimum Description LengthPrinciple。
此外,假设集合S分类型q种,对连续值属性CA排序后,该集合A中m个不同取值有k个潜在划分点,一般情况下存在m>k>>q,且基于对连续值属性离散处理时,最终选取的最佳阈值点一定在边界点的原则,潜在阈值按照其离散区域划分介于q-1个待测试类别属性相对应的边界点和m-1个划分点之中,并有阈值点总是位于中值区域内的规律。该方法减少对所有潜在划分点的测试,以升序排列后建立2n或2n+1个等分区域的中值将连续属性预划分,以左右中值为预先区域,进行预选阈值的信息增益计算。
用于地图模板匹配的规则提取方法将类别属性扩展到数值属性,该度量标准使用的属性能把数据分区成类熵较低的子集,即该子集中的大部分样本都属于一个类,并使类之间的区别程度为局部最大。该方法作为通过一组输入输出样本构建决策规则的推理方法,是分类和回归的高效的非参数化分析方法,特别是针对连续值属性通过中值区域分析法分析阈值,提升了连续值属性离散处理的科学性和有效性;在机器学习和应用统计文献应用广泛;也可应用于包括金融市场趋势分类、气象数据分析推理以及图像数据库对象识别等所有涉及归纳分类的数据挖掘中,普适性较强。
本发明的有益效果:
1、本发明通过信息增益率,运用中值区域分析阈值,以自顶向下的递归方式,通过内部节点评价选取适当决策属性,并根据该属性不同取值由该节点向下分支,最终在叶节点上获得分类结点,形成决策树,提取相应规则。本发明提升了连续值属性离散的科学性、提高了规则提取的准确率、普适性较强、效果较好、效能高。
2、本发明的中值区域分析阈值能有效降低算法复杂度,优化处理过程直接在中值区域内对比信息增益,设m为连续值属性的数量,一次阈值分析可减少(m-1)/2次的运算和比较,且额外信息量log2m越大,分析效率越高。同时,以额外信息量log2m规范离散区域次数和数量,比目前使用全局分散方法、K_均值分类器以及构建更多分叉的决策树方法更高效,便于建立适当规模的决策规则,使连续属性离散化时劣势得以优化。
基于数据集中同时出现连续属性和离散属性时,倾向于选择连续属性作为分裂属性考虑,本发明将连续值属性信息增益减去log2(m-1)/|S|进行偏移修正,随后选择最佳分裂点比较时应用信息增益,并用对应阈值的信息增益率作为该区域的信息增益率;并继承了对连续值属性信息增益的修正,首先完成离散化处理,随后以离散区域进行信息增益率的运算,从根本上解决了现有算法倾向于选择连续属性作为分裂属性的考虑,避免了信息增益偏移修正的误差,在降低模型分类错误率方面具有应用潜力,使其具有更高的预测准确性。
(四)、附图说明:
图1为决策树的结构示意图。
(五)、具体实施方式:
用于地图模板匹配的规则提取方法含有下列步骤:
步骤1:设在地图模板眼动实验中测得|T|组实验数据,该实验含有h个决策属性和一个眼动测试模板选项,眼动测试模板选择项含有q类选择值,因此,每组实验数据中对应含有h个数据和一个眼动测试模板选择值;将|T|组实验数据组成数据集T,再从|T|组实验数据中随机选出|S|组实验数据组成训练集S,根据每组数据的眼动测试模板选择值从训练集S中选出q类数据组,形成分类集合{ToS1,ToS2,…,ToSi…,ToSq},其中,ToSi为每类数据组对应的子集,1≤i≤q,每类数据组中含有|ToSi|组数据,各组数据含有相同的眼动测试模板选择值,分类集合中每个类的先验概率pi=|ToSi|/|S|,对训练集S分类所需信息熵E(S)为:
E ( S ) = - Σ i = 1 q p i log 2 p i
步骤2:在数据集T中,如果h个决策属性中有h1个决策属性所对应的测试值是连续数值,则分别对该h1个决策属性对应的数值进行离散处理,该离散处理采用基于中值区域阈值分析法;
步骤3:在训练集S中,遍历h个决策属性,得出各决策属性的信息增益率,选择信息增益率最大的决策属性作为根节点属性;
步骤4:从h个决策属性中去除根节点属性,并令h=h-1,将根节点属性对应的数据中的各离散值作为根节点分枝,在训练集S中,每个根节点分枝对应一批数据组,在该批数据组的基础上遍历h个决策属性,得出各决策属性的信息增益率,选择信息增益率最大的决策属性作为子节点属性;
接着,再从h个决策属性中去除子节点属性,并令h=h-1,将子节点属性对应的数据中的各离散值作为子节点分枝,在训练集S中,每个子节点分枝对应一批数据组,在该批数据组的基础上遍历h个决策属性,得出各决策属性的信息增益率,选择信息增益率最大的决策属性作为叶节点属性;如果没有信息增益率最大的决策属性,则没有相应的叶节点属性,说明该子节点分枝对应的眼动测试模板选择值唯一,分枝结束;
依此类推,再对各叶节点属性进行分枝,直到所有叶节分枝对应的眼动测试模板选择值唯一,分枝结束,最后形成一个决策树。
步骤1中:q=4,h≥5。
步骤2中,基于中值区域阈值分析法的具体步骤如下:
步骤2.1:设决策属性CA为h1个决策属性中的任一个,将决策属性CA对应的测试值的集合A中的数据按取值升序排列为序列{S1,S2,…,Sm},m为集合A中的数据的总数量,预设分割信息量次z=0;
如果log2m的值四舍五入后为2n,n为大于0的自然数,则计算序列{S1,S2,…,Sm}的中值Sme=(S1+Sm)/2,再计算左子区间的中值Sml=(S1+Sme)/2,右子区间的中值Smr=(Sme+Sm)/2;在序列{S1,S2,…,Sm}中,选取Sml和Smr之间的数作为阈值预选区域;
如果log2m的值四舍五入后为2n+1,则计算序列{S1,S2,…,Sm}的2n个中值,该2n个中值分别为Sme1、Sme2、…、Sme2n,该2n个中值的计算方法为:
Sme1=(S1+Sm)*1/(2n+1),
Sme2=(S1+Sm)*2/(2n+1),
Sme3=(S1+Sm)*3/(2n+1),
………………………,
Sme2n-1=(S1+Sm)*(2n-1)/(2n+1);
Sme2n=(S1+Sm)*2n/(2n+1);
在序列{S1,S2,…,Sm}中,
选取(S1+Sme1)/2和(Sme1+Sme2)/2之间的数作为Sme1的阈值预选区域,
选取(Sme1+Sme2)/2和(Sme2+Sme3)/2之间的数作为Sme2的阈值预选区域,
………………………,
选取(Sme2n-1+Sme2n)/2和(Sme2n+Sm)/2之间的数作为Sme2n的阈值预选区域;
步骤2.2:从每个阈值预选区域中选出一个阈值,根据选出的阈值将序列{S1,S2,…,Sm}中的数据划分为j个离散区域,j个离散区域形成一个离散区域集合{TloS1,TloS2,…,TloSi1,…,TloSj},其中,1≤i1≤j,|TloSi1|为子集TloSi1中数据的个数,设|Si1|为子集TloSi1中属于训练集的数据的个数,则子集TloSi1的先验概率pil=|TloSi1|/|Si1|,计算j个离散区域的信息熵E(SAj):
E ( S A j ) = - Σ i 1 = 1 j p i 1 log 2 p i 1
计算信息熵EA(S):
E A ( S ) = Σ i 1 = 1 j | S i 1 | | S | E ( S A j )
计算决策属性CA的信息增益Gain(CA):
Gain(CA)=E(S)-EA(S)
随后计算信息增益修正值Gain(CA)′:
G a i n ( C A ) ′ = G a i n ( C A ) - log 2 K | S |
其中,1≤K≤m-1,K=m-1时为最大可能潜在划分点个数;
步骤2.3:选择Gain(CA)′的最大值St为最佳分裂阈值点,且使z=z+1;
步骤2.4:在序列{S1,S2,…,Sm}中,选取S1和St之间的数作为第一子样本序列,选取St和Sm之间的数作为第二子样本序列;
步骤2.5:当z≤log2(q/2)时,进行如下操作:
步骤2.5.1:计算第一子样本序列的中值,再计算第一子样本序列的左子区间的中值Stl1和右子区间的中值Str1,并选取Stl1和Str1之间的数作为阈值预选区域;
步骤2.5.2:计算第二子样本序列的中值,再计算第二子样本序列的左子区间的中值Stl2和右子区间的中值Str2,并选取Stl2和Str2之间的数作为阈值预选区域;
步骤2.5.3:执行步骤2.2;
当z>log2(q/2)时,结束操作。
步骤3和步骤4中,遍历h个决策属性时,对每个决策属性进行如下操作:
步骤3.1:设该决策属性中含有j1个离散区域,j1个离散区域对应一个离散区域集合{SKp1,SKp2,…,SKpi2,…,SKpj1},其中,1≤i2≤j1,|SKpi2|为子集SKpi2中数据组的个数,设|Si2|为子集SKpi2中属于训练集的数据的个数,则子集SKpi2的先验概率pi2=|SKpi2|/|S|计算信息熵E(Skj):
E ( S k j ) = - Σ i 2 = 1 j 1 p i 2 log 2 p i 2
计算信息熵Ek(S):
E k ( S ) = Σ i 2 = 1 j 1 | S i 2 | | S | E ( S k j )
步骤3.2:计算信息增益Gain(Ck):
Gain(Ck)=E(S)-Ek(S)
步骤3.3:计算分裂信息SplitE(Ck):
S p l i t E ( C k ) = - Σ i 2 = 1 j 1 | S i 2 | | S | log 2 | S i 2 | | S |
步骤3.4:计算信息增益率GainRatio(Ck):
G a i n R a t i o ( C k ) = G a i n ( C k ) S p l i t E ( C k ) .
下面采用具体实例进一步说明用于地图模板匹配的规则提取方法:
本实例应用于用户属性对地图模板选择的实验,分析彼此关联,主要实验选择值为:
age(C1)={17,18,19,……,34};
年龄(C1)={17,18,19,……,34};
gender(C2)={male,female};
性别(C2)={男,女};
situation(C3)={frequent,sometimes,infrequent};
使用地图情况(C3)={经常,有时,几乎不使用};
degree(C4)={bachelor,master,doctor};
学历(C4)={本科,硕士,博士};
specialty(C5)={mapper,non-mapper};
专业(C5)={地图相关专业,与地图无关的专业};
eye-tracking choice template(ToS)={tempA,tempB,tempC,tempD}。
眼动测试选择模板(ToS)={模板A,模板B,模板C,模板D}。
地图模板认知眼动实验的实验数据如表1所示:
表1
实验数据共236个,经过数据集预处理,选取训练集样本89个。应用用于地图模板匹配的规则提取方法分析如下:
1)|S|=89,|ToS1|=19,|ToS2|=27,|ToS3|=28,|ToS4|=15,则训练集S分类所需信息熵E(S)为1.965。
2)进行连续值属性age(C1)的离散化处理。将C1的集合A升序排列{17,18,…,34},获取阈值预选区域{21,…,25,…,29},设阈值为25,则E(C25)=1.745,Gain25=0.124;并得Gain24=0.308,Gain26=0.243……,则阈值为24,再次进行子集离散化处理得阈值为21,28,此时2<log2q/2=2.044,即仅需两次离散处理,得离散区间age(C1)={17-21yearsold,22-24years old,25-28years old,29-34years old}。
3)计算各离散属性对样本集的信息期望、信息增益及信息增益率GainRatiogender=0.021,GainRatiosituation=0.130,GainRatiodegree=0.126,GainRatiospecialty=0.047,GainRatioage=0.065,则选择situation(C3)属性作为决策树根节点,其余决策属性递归信息增益率运算,逐步生成决策树如图1所示,相关规则提取如表2所示:
表2
本发明的方法继承了对连续值属性信息增益的修正,首先完成离散化处理,随后以离散区域进行信息增益率的运算,从根本上解决了原算法倾向于选择连续属性作为分裂属性的考虑,避免了信息增益偏移修正的误差,在降低模型分类错误率方面具有应用潜力,使其具有更高的预测准确性。通过进行训练集样本的验证准确率显著提升。表3所示为C4.5与本发明的方法的算法效能对比表:
表3

Claims (3)

1.一种用于地图模板匹配的规则提取方法,其特征是:含有下列步骤:
步骤1:设在地图模板眼动实验中测得|T|组实验数据,该实验含有h个决策属性和一个眼动测试模板选项,眼动测试模板选择项含有q类选择值,因此,每组实验数据中对应含有h个数据和一个眼动测试模板选择值;将|T|组实验数据组成数据集T,再从|T|组实验数据中随机选出|S|组实验数据组成训练集S,根据每组数据的眼动测试模板选择值从训练集S中选出q类数据组,形成分类集合{ToS1,ToS2,…,ToSi…,ToSq},其中,ToSi为每类数据组对应的子集,1≤i≤q,每类数据组中含有|ToSi|组数据,各组数据含有相同的眼动测试模板选择值,分类集合中每个类的先验概率pi=|ToSi|/|S|,对训练集S分类所需信息熵E(S)为:
E ( S ) = - &Sigma; i = 1 q p i log 2 p i
步骤2:在数据集T中,如果h个决策属性中有h1个决策属性所对应的测试值是连续数值,则分别对该h1个决策属性对应的数值进行离散处理,该离散处理采用基于中值区域阈值分析法;
所述基于中值区域阈值分析法的具体步骤如下:
步骤2.1:设决策属性CA为h1个决策属性中的任一个,将决策属性CA对应的测试值的集合A中的数据按取值升序排列为序列{S1,S2,…,Sm},m为集合A中的数据的总数量,预设分割信息量次z=0;
如果log2m的值四舍五入后为2n,n为大于0的自然数,则计算序列{S1,S2,…,Sm}的中值Sme=(S1+Sm)/2,再计算左子区间的中值Sml=(S1+Sme)/2,右子区间的中值Smr=(Sme+Sm)/2;在序列{S1,S2,…,Sm}中,选取Sml和Smr之间的数作为阈值预选区域;
如果log2m的值四舍五入后为2n+1,则计算序列{S1,S2,…,Sm}的2n个中值,该2n个中值分别为Sme1、Sme2、…、Sme2n,该2n个中值的计算方法为:
Sme1=(S1+Sm)*1/(2n+1),
Sme2=(S1+Sm)*2/(2n+1),
Sme3=(S1+Sm)*3/(2n+1),
………………………,
Sme2n-1=(S1+Sm)*(2n-1)/(2n+1);
Sme2n=(S1+Sm)*2n/(2n+1);
在序列{S1,S2,…,Sm}中,
选取(S1+Sme1)/2和(Sme1+Sme2)/2之间的数作为Sme1的阈值预选区域,
选取(Sme1+Sme2)/2和(Sme2+Sme3)/2之间的数作为Sme2的阈值预选区域,
………………………,
选取(Sme2n-1+Sme2n)/2和(Sme2n+Sm)/2之间的数作为Sme2n的阈值预选区域;
步骤2.2:从每个阈值预选区域中选出一个阈值,根据选出的阈值将序列{S1,S2,…,Sm}中的数据划分为j个离散区域,j个离散区域形成一个离散区域集合{T1oS1,T1oS2,…,T1oSi1,…,T1oSj},其中,1≤i1≤j,|T1oSi1|为子集T1oSi1中数据的个数,设|Si1|为子集T1oSi1中属于训练集的数据的个数,则子集T1oSi1的先验概率pi1=|T1oSi1|/|Si1|,计算j个离散区域的信息熵E(SAj):
E ( S A j ) = - &Sigma; i 1 = 1 j p i 1 log 2 p i 1
计算信息熵EA(S):
E A ( S ) = &Sigma; i 1 = 1 j | S i 1 | | S | E ( S A j )
计算决策属性CA的信息增益Gain(CA):
Gain(CA)=E(S)-EA(S)
随后计算信息增益修正值Gain(CA)′:
G a i n ( C A ) &prime; = G a i n ( C A ) - log 2 K | S |
其中,1≤K≤m-1,K=m-1时为最大可能潜在划分点个数;
步骤2.3:选择Gain(CA)′的最大值St为最佳分裂阈值点,且使z=z+1;
步骤2.4:在序列{S1,S2,…,Sm}中,选取S1和St之间的数作为第一子样本序列,选取St和Sm之间的数作为第二子样本序列;
步骤2.5:当z≤log2(q/2)时,进行如下操作:
步骤2.5.1:计算第一子样本序列的中值,再计算第一子样本序列的左子区间的中值Stl1和右子区间的中值Str1,并选取Stl1和Str1之间的数作为阈值预选区域;
步骤2.5.2:计算第二子样本序列的中值,再计算第二子样本序列的左子区间的中值Stl2和右子区间的中值Str2,并选取Stl2和Str2之间的数作为阈值预选区域;
步骤2.5.3:执行步骤2.2;
当z>log2(q/2)时,结束操作;
步骤3:在训练集S中,遍历h个决策属性,得出各决策属性的信息增益率,选择信息增益率最大的决策属性作为根节点属性;
步骤4:从h个决策属性中去除根节点属性,并令h=h-1,将根节点属性对应的数据中的各离散值作为根节点分枝,在训练集S中,每个根节点分枝对应一批数据组,在该批数据组的基础上遍历h个决策属性,得出各决策属性的信息增益率,选择信息增益率最大的决策属性作为子节点属性;
接着,再从h个决策属性中去除子节点属性,并令h=h-1,将子节点属性对应的数据中的各离散值作为子节点分枝,在训练集S中,每个子节点分枝对应一批数据组,在该批数据组的基础上遍历h个决策属性,得出各决策属性的信息增益率,选择信息增益率最大的决策属性作为叶节点属性;如果没有信息增益率最大的决策属性,则没有相应的叶节点属性,说明该子节点分枝对应的眼动测试模板选择值唯一,分枝结束;
依此类推,再对各叶节点属性进行分枝,直到所有叶节分枝对应的眼动测试模板选择值唯一,分枝结束,最后形成一个决策树。
2.根据权利要求1所述的用于地图模板匹配的规则提取方法,其特征是:所述步骤1中:q=4,h≥5。
3.根据权利要求1所述的用于地图模板匹配的规则提取方法,其特征是:所述步骤3和步骤4中,遍历h个决策属性时,对每个决策属性进行如下操作:
步骤3.1:设该决策属性中含有j1个离散区域,j1个离散区域对应一个离散区域集合{SKp1,SKp2,…,SKpi2,…,SKpj1},其中,1≤i2≤j1,|SKpi2|为子集SKpi2中数据组的个数,设|Si2|为子集SKpi2中属于训练集的数据的个数,则子集SKpi2的先验概率pi2=|SKpi2|/|S|,计算信息熵E(Skj):
E ( S k j ) = - &Sigma; i 2 = 1 j 1 p i 2 log 2 p i 2
计算信息熵Ek(S):
E k ( S ) = &Sigma; i 2 = 1 j 1 | S i 2 | | S | E ( S k j )
步骤3.2:计算信息增益Gain(Ck):
Gain(Ck)=E(S)-Ek(S)
步骤3.3:计算分裂信息SplitE(Ck):
S p l i t E ( C k ) = - &Sigma; i 2 = 1 j 1 | S i 2 | | S | log 2 | S i 2 | | S |
步骤3.4:计算信息增益率GainRatio(Ck):
G a i n R a t i o ( C k ) = G a i n ( C k ) S p l i t E ( C k ) .
CN201310287936.2A 2013-07-09 2013-07-09 用于地图模板匹配的规则提取方法 Expired - Fee Related CN103310027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310287936.2A CN103310027B (zh) 2013-07-09 2013-07-09 用于地图模板匹配的规则提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310287936.2A CN103310027B (zh) 2013-07-09 2013-07-09 用于地图模板匹配的规则提取方法

Publications (2)

Publication Number Publication Date
CN103310027A CN103310027A (zh) 2013-09-18
CN103310027B true CN103310027B (zh) 2016-10-05

Family

ID=49135245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310287936.2A Expired - Fee Related CN103310027B (zh) 2013-07-09 2013-07-09 用于地图模板匹配的规则提取方法

Country Status (1)

Country Link
CN (1) CN103310027B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022583A (zh) * 2016-05-12 2016-10-12 中国电力科学研究院 基于模糊化决策树的电力通信业务风险计算方法及系统
CN107767934B (zh) * 2017-10-11 2020-11-03 天津理工大学 一种用于描述压力的hrv特征范围估计方法
CN109257160B (zh) * 2018-12-05 2023-07-04 电子科技大学 一种基于决策树的侧信道模板攻击方法
CN111435086B (zh) * 2019-01-13 2022-03-25 北京魔门塔科技有限公司 基于拼接图的导航方法和装置
CN110837525B (zh) * 2019-11-08 2021-03-05 北京京东智能城市大数据研究院 数据处理方法及其装置、电子设备以及计算机可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102049420A (zh) * 2009-11-05 2011-05-11 刘斌 基于决策树的精轧温控过程关键特征变量提取方法
CN102622612A (zh) * 2012-03-19 2012-08-01 河南工业大学 一种小样本决策树分类器构造中的连续属性分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9072481B2 (en) * 2010-09-09 2015-07-07 The Johns Hopkins University Apparatus and method for assessing vestibulo-ocular function

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102049420A (zh) * 2009-11-05 2011-05-11 刘斌 基于决策树的精轧温控过程关键特征变量提取方法
CN102622612A (zh) * 2012-03-19 2012-08-01 河南工业大学 一种小样本决策树分类器构造中的连续属性分割方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
个性化地图服务理论与方法研究;吴增红;《中国博士学位论文全文数据库 基础科学辑》;20120715(第7期);42-82 *
决策树在数据挖掘中若干问题的研究;倪春鹏;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20060615(第6期);8-16,26-39 *
基于改进信息熵离散化的决策树算法研究;陈臣;《中国优秀硕士学位论文全文数据库 信息科技辑》;20090115(第1期);9-23 *
数据挖掘中属性离散化方法研究;赵长雷;《中国优秀硕士学位论文全文数据库 信息科技辑》;20100915(第9期);14-20 *

Also Published As

Publication number Publication date
CN103310027A (zh) 2013-09-18

Similar Documents

Publication Publication Date Title
CN109271522B (zh) 基于深度混合模型迁移学习的评论情感分类方法及系统
CN105426842B (zh) 基于支持向量机和表面肌电信号的多类手部动作识别方法
CN106845717B (zh) 一种基于多模型融合策略的能源效率评价方法
CN103310027B (zh) 用于地图模板匹配的规则提取方法
Patel et al. Recall@ k surrogate loss with large batches and similarity mixup
CN102982107B (zh) 一种融合用户、项目和上下文属性信息的推荐系统优化方法
CN105760888B (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
CN101859383B (zh) 基于时间序列重要点分析的高光谱遥感图像波段选择方法
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN110532379B (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
CN107784597A (zh) 出行方式识别方法、装置、终端设备及存储介质
CN110674407A (zh) 基于图卷积神经网络的混合推荐方法
CN103984959A (zh) 一种基于数据与任务驱动的图像分类方法
CN103942571B (zh) 一种基于遗传规划算法的图形图像分类方法
CN103150383B (zh) 一种短文本数据的事件演化分析方法
CN103714135B (zh) 海量用户的二度人脉关系MapReduce推荐方法及系统
CN107526975A (zh) 一种基于差分隐私保护决策树的方法
CN104765839A (zh) 一种基于属性间相关系数的数据分类方法
CN105574213A (zh) 一种基于数据挖掘技术的微博推荐方法及装置
CN107305640A (zh) 一种不均衡数据分类的方法
CN105868900A (zh) 基于支持向量机的企业预合作伙伴分类方法
CN103345503B (zh) 一种基于小波网络的丝绸产品个性化推荐方法
CN102609733B (zh) 海量人脸库应用环境下的人脸快速识别方法
CN101702172A (zh) 一种基于类-属性关系依赖度的数据离散化方法
Sugianto et al. K-Means Algorithm For Clustering Poverty Data in Bangka Belitung Island Province

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161005

Termination date: 20170709