CN110263119A

CN110263119A - 一种案例推理分类器案例检索方法

Info

Publication number: CN110263119A
Application number: CN201910582920.1A
Authority: CN
Inventors: 代祖华; 徐进; 李克龙; 王玉环; 李晓婷; 李泓毅; 张光辉; 周安伟
Original assignee: Northwest Normal University
Current assignee: Northwest Normal University
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-09-20

Abstract

本发明公开了一种案例推理分类器案例检索方法，包括：S1，案例库规约特征选择；S2，C4.5算法与案例库分簇决策树训练；S3，加权投票KNN方法。本发明对案例推理分类器的案例检索方法进行了改进研究：提出在近邻案例检索中集成使用归纳索引策略的方法，采用信息增益比率的特征评价方法，选择信息增益率较显著的特征训练案例库分簇决策树；案例检索时，首先依据分簇决策树检索目标案例对应簇，然后在案例簇内进行近邻案例检索。开源数据集的实验数据表明：与传统的CBR模型相比，本发明改进的模型能够充分利用案例特征的分类能力进行案例检索，有效降低CBR推理分类器的计算时间复杂度，改善了推理准确性。

Description

一种案例推理分类器案例检索方法

技术领域

本发明具体涉及案例推理方法，具体涉及一种改进的案例推理分类器案例检索方法。

背景技术

案例推理(Case-based reasoning，CBR) 是人工智能领域一种类比求解问题方法，它起源于从认知科学角度对人类的推理和学习机制进行的探索研究，20世纪80年代由美国耶鲁大学的认知科学和人工智能专家罗杰•沙克（Roger Sehank)）在动态记忆理论基础上提出，乔治亚理工学院珍妮•克洛德纳(Janel L.Kolodner)教授最早开发出应用CBR专家系统。用类比思想求解新问题(或称目标案例)的解法时，要回忆过去类似问题的经验案例(源案例) 解法进行推理。因此，案例推理系统的计算模型除了要存储经验案例数据和案例解法外，还应具有获取与目标案例相似经验案例的技能。在众多CBR系统结构中，广泛被采纳的是1994年由奥莫特（Aamodt）和普拉扎（Plaza）等建立的4R模型。4R模型把CBR视作一个循环过程，这一循环过程由检索（Retrieve）、重用（Reuse）、修正（Revise）和存储（Retain）四个阶段组成，即通过检索得到一个或几个相似的源案例；然后重用相应的解决方案或者以此为基础修正案例来解决新问题；最后，存储新案例供未来的问题求解使用。经过四十多年的发展，CBR技术已在医疗诊断、故障维护、军事决策、软件成本估算、财务危机预警、交通管理等领域体现出有效应用潜力。从这些领域，可以归纳出CBR可承担的智能推理任务有：解释问题、解决问题或预测问题等。解释型CBR的推理目标是通过比较和对比已经被分类的案例，来对一个新案例进行分类，例如疾病诊断、故障维护等。在大数据环境下，以知识库（案例库）为核心的CBR系统在复杂数据环境中的决策和推理能力仍有很大发展空间。

在CBR模型中，案例检索处于首位，检索策略合理与否直接影响案例推理系统的性能。常用案例检索方法主要有：近邻策略、归纳索引策略等，其中以案例间相似度为基础的近邻策略被广泛应用。近邻法采用案例特征的加权匹配来估计案例相似度，相似案例检索时间随案例库中案例个数增多而线性增长，适合于案例库较小的系统。对于规模较大的数据集，近邻案例检索策略容易造成内存不足及运算时间过长的问题。如果在分类之前，先过滤掉案例库中与目标案例相关度不高的部分样本，就可以在不影响最终分类精度的条件，使得这一问题得到解决。归纳索引法需要确定案例特征的分类能力，以构建出决策树将案例库分割成簇。决策树结构的复杂性与案例特征数量成正比。案例匹配时，自上而下遍历决策树，将目标案例特征值同决策树节点进行比较，可快速确定目标案例相似的源案例包含在树的哪个部分。两种方法都要利用案例特征确定案例相似度或构造决策树。CBR系统设计中，如果利用现有案例特征设计出的CBR分类器效果不令人满意，通常要考虑增加新特征以期区分利用现有特征容易被混淆的案例类别，以计算时间复杂度为代价，改善分类器准确性。特征扩增导致案例检索计算复杂度增加，但实验中发现，少量增加案例特征，将会改善分类器准确率，当案例特征维数增加到某一个临界点后，继续增加案例特征反而会导致(线性)分类器的分类性能变差,这种现象称为“休斯（Hughes）”现象或者“休斯”效应。为了缓解“休斯”现象，人们提出许多方法以改进CBR分类器，如李锋刚等人用基于熵的属性约简技术，设计５种方案考察２种特征选择策略对案例分类性能影响，该项研究结果表明，约简后的案例集有更好的分类性能。案例特征约简减少了案例近邻检索时的数据存储需求，提高CBR案例检索效率，却违背了CBR应用中扩展案例特征的初衷，不利于稀疏数据的检索，相应的研究成果并未考察大规模数据集上的分类性能。

发明内容

本发明的主要目的在于提供一种改进的案例推理分类器案例检索方法。

本发明采用的技术方案是：一种案例推理分类器案例检索方法，包括：

S1，案例库规约特征选择；

S2，C4.5算法与案例库分簇决策树训练；

S3，加权投票KNN方法。

进一步地，所述步骤S1包括：

采用基于信息增益比率的特征排列评估方法，按照特征排列次序，由

小到大，利用过滤器算法，以逐步后向删除方向进行特征选择，采用C4.5算法进行特征分类性能评价，直至分类准确率开始下降为止；决策树规约特征选择算法流程如下：

S11，以信息增益比率作为评估标准，生成FA排列次序；

S12，过滤FA中信息增益比率为0的特征，生成初次选择特征集FA1;

S13，调用C4.5算法，在FA1上生成训练数据集D的分类准确率A1；

S14，去除FA1中信息增益比率最小的特征为特征集FA2;

S15，调用C4.5算法，在FA2上生成训练数据集D的分类准确率A2；

S16，如果A2>=A1,则 A1=A2,FA1=FA2,转向步骤S14；

S17，输出A=FA1。

更进一步地，所述步骤S2包括：

GWCBR分类器采用C4.5算法训练案例库分簇决策树，用案例特征的信息增益比选择决策树结点，信息增益比率的计算以熵为基础，熵表示案例库的类别纯度；若案例库S的类特征有m个取值，S的熵定义为：

（2-1）

其中，为类i在案例库S中出现的概率；

条件熵表示在已知特征值A的条件下，案例库S的不确定性，定义为：

（2-2）

其中,是属性A的值域集合，是S中属性A取值为v的子集；

案例特征A的信息增益指的是使用特征A划分案例库，划分前后熵的变化，用(2-3)式表示：

(2-3)

应用案例特征的信息增益作为决策树生成结点选择准则，存在偏袒多值特征的内在缺陷，需引入信息增益比进行校正，用(2-4)式表示：

(2-4)

其中，

案例库S的分簇决策树训练算法如下：

S21，如果S中所有实例属于同一类,则Tree为单结点树，S为该结点的划分实例簇，算法返回Tree；

S22，如果S中实例数小于叶子节点最小样本数，则Tree为单结点树，S为该结点的划分实例簇，算法返回Tree；

S23，如果,则Tree为单结点树，S为该结点的划分实例簇，算法返回Tree；

S24，否则，计算A中各特征在S上的信息增益比；

S25，选择信息增益比最大的特征；

S26，决策树的根结点root=，依据特征特征值不同，将S分割为若干个非空子集；

S27，对每个子树结点对应的非空子集，以A-为特征集，递归调用S21-S27，构建root的第i个子树结点；

S28，返回Tree。

更进一步地，所述步骤S3包括：

设案例集S对应于特征空间的点，即

(2-5)

其中是特征向量，为案例类别特征，

根据给定的特征向量距离度量方法，在案例集中找出与目标案例最邻近的K个案例，记做,在中根据多数重用规则，决定的类别y:

(2-6)

其中I为指示函数，KNN算法的特殊情况是k=1的情形，称为最近邻算法；

对于给定案例集，K近邻法中特征向量的距离度量、K值及分类决策规则确定后，就可以确定一个目标案例所属的类；

度量两个n维特征向量的案例相似程度，一般使用欧式距离，也可以是距离或Minkowski距离；设n维特征空间X，有的距离定义为()=,.当p=2时，称为欧式距离，p=1时，称为曼哈顿距离；

在度量距离公式中赋予特征不同权重，在欧氏距离公式中给不同特征赋予不同权重如(2-7)式：

()=,其中是第i个特征的权重； (2-7)

加权投票KNN方法的算法如下：

S31，首先过滤Si对应分簇决策树路径上为标称类型的特征，生成初始特征子集FAi；

S32，在子集Si上，计算FAi中各个特征的信息增益率；

S33，过滤FAi中信息增益率为0的特征，生成新的FAi；

S34，对FAi上的信息增益率进行归一化计算，作为Si的特征权重。

本发明的优点：

本发明对案例推理分类器的案例检索方法进行了改进研究：提出在近邻案例检索中集成使用归纳索引策略的方法，采用信息增益比率的特征评价方法，选择信息增益率较显著的特征训练案例库分簇决策树；案例检索时，首先依据分簇决策树检索目标案例对应簇，然后在案例簇内进行近邻案例检索。开源数据集的实验数据表明：与传统的CBR模型相比，本发明改进的模型能够充分利用案例特征的分类能力进行案例检索，有效降低CBR推理分类器的计算时间复杂度，改善了推理准确性。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明的一种案例推理分类器案例检索方法的GWCBR分类推理

分类器模型图；

图2是本发明的一种案例推理分类器案例检索方法的GWCBR与CBR、FRCBR分类准确率对比图；

图3是本发明的一种案例推理分类器案例检索方法的GCBR、WCBR、GWCBR分类时间对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参考图1，如图1所示，一种案例推理分类器案例检索方法，包括：

S1，案例库规约特征选择；

S2，C4.5算法与案例库分簇决策树训练；

S3，加权投票KNN方法。

所述步骤S1包括：

S11，以信息增益比率作为评估标准，生成FA排列次序；

S13，调用C4.5算法，在FA1上生成训练数据集D的分类准确率A1；

S14，去除FA1中信息增益比率最小的特征为特征集FA2;

S15，调用C4.5算法，在FA2上生成训练数据集D的分类准确率A2；

S16，如果A2>=A1,则 A1=A2,FA1=FA2,转向步骤S14；

S17，输出A=FA1。

所述步骤S2包括：

GWCBR分类器采用C4.5算法训练案例库分簇决策树，用案例特征的信息增益比选择决策树结点，信息增益比率的计算以熵(Entropy)为基础，熵表示案例库的类别纯度；若案例库S的类特征有m个取值，S的熵定义为：

（2-1）

其中，为类i在案例库S中出现的概率；

（2-2）

其中,是属性A的值域集合，是S中属性A取值为v的子集；

案例特征A的信息增益(Information gain)指的是使用特征A划分案例库，划分前后熵的变化，用(2-3)式表示：

(2-3)

应用案例特征的信息增益作为决策树生成结点选择准则，存在偏袒多值特征的内在缺陷，需引入信息增益比（Information gain ratio）进行校正，用(2-4)式表示：

(2-4)

其中，

案例库S的分簇决策树训练算法如下：

S24，否则，计算A中各特征在S上的信息增益比；

S25，选择信息增益比最大的特征；

S28，返回Tree。

所述步骤S3包括：

设案例集S对应于特征空间的点，即

(2-5)

其中是特征向量，为案例类别特征，

(2-6)

由于案例不同特征的分类能力有差别，按所有特征作用相同来计算案例间距离会误导分类结果。为此，在度量距离公式中赋予特征不同权重，例如在欧氏距离公式中给不同特征赋予不同权重如(2-7)式：

()=,其中是第i个特征的权重； (2-7)

特征权重根据各个特征在案例库的分类作用设定，也可根据其在训练样本的局部样本（靠近待测试样本的样本集合）中的分类作用得到权重。很多文献采用遗传算法作为案例分类器权重确定算法。遗传算法作为一种基于特征的元学习策略，适用于案例检索前事先确定权重。对于GWCBR方法，需要结合案例库子集的特征结构动态确定权重，遗传算法由于过高的时间复杂度不适于嵌入到分类器动态权重计算环节。本发明采用特征信息增益率作为案例子集特征重要性的评估依据，与GA算法相比，计算复杂度低，适用于案例库子集特征的权重确定，算法如下：

S32，在子集Si上，计算FAi中各个特征的信息增益率；

S33，过滤FAi中信息增益率为0的特征，生成新的FAi；

实验及结果分析：

本发明实验中CBR分类器的案例检索算法采用KNN算法。共设计3组实验：第一组实验测试特征约简技术对CBR分类器分类性能的影响；第二组实验测试GWCBR的分类准确性，并与CBR分类器和特征约简CBR（Feature Reduced Case-based Reasoning,FRCBR）分类器对比；第三组实验比较GWCBR与分簇案例推理器（Grouped Case-based Reasoning,GCBR）、加权案例推理法(Weighted Case-based Reasoning,WCBR)两类GWCBR衍生分类器性能。

实验环境和数据：

实验在WEKA数据分析平台上完成，采用java语言编程实现分类器。选择六个UCI分类数据集作为测试数据集，包括离散类型特征数据集1个，连续类型特征数据集1个，混合类型特征数据集4个，数据集信息见表3.1。

表3.1 测试数据集

层次化k-Fold交叉验证：

在数据集S上对案例库和测试案例随机抽样时，为了最小化数据分布的内在偏置，研究中使用k-Fold交叉验证。k-Fold 交叉验证也叫轮转评价，它将整个数据集S随机分为互不相交且大小相等的k个子集，对分类模型分别训练和测试k次。第t次测试(,用作案例集，用St作测试集。交叉验证准确率(CVA)通过计算k次单独测试准确率的平均值得到,见3-1式。

(3-1)

其中, k表示使用的子集数, 是每一次测试准确率。考虑到案例集的先验分布,个体案例划归到不同子集可能影响交叉验证的准确率,因此通过层次化来减小这种偏置。在这种方法中,将带有标签的原始案例集,按照大致相等的类别比例分配到子集中。研究表明层次化k子集交叉验证与常规k子集交叉验证相比，更倾向于产生较低的偏置和方差。本研究中k值取10，每个数据集共进行10次测试实验，取10次实验结果CAV的平均值作为该数据集的分类结果的准确率。

实验结果分析

为了验证GWCBR方法的分类性能，实验首先测试两类传统分类算法的准确率与分类时间，作为后续实验的基准数据。其中分类时间包括准备时间和测试时间，准备时间是指案例检索前，特征子集选择、案例检索规则训练、数据集取样等时间。测试结果见表3.2。

表3.2 两类传统案例检索策略性能比较

表3.2数据，两个分类算法具有两个显著特点：（1）C4.5算法准备时间远远长于近邻策略，而KNN算法测试时间（主要由案例检索时间构成）远远长于C4.5算法；（2）C4.5算法在离散类型特征数据集和连续类型特征数据集的准确性通常高于KNN算法，对于混合类型特征数据集，K近邻算法除在Adult数据集上逊色于C4.5算法，在其他3个数据集上,KNN有显著的准确率优势。

以下验证基于信息增益率评估的特征约简技术对CBR分类器准确性的影响。表3.3是数据集的特征信息增益率排序结果：

表3.3数据集特征信息增益比率降序排序结果

Data Set	Ranked Attributes Index
		Ionosphere	1,28,18,5,7,20,24,33,6,27,26,32,29,3,14,34,21,8,31,22,16,4,9,13,23,25,12,15,10,30,11,17,19,2
Soybean	27,26,18,15,35,14,13,12,19,11,31,22,28,17,33,34,29,25,21,30,24,32,23,3,16,4,2,20,1,7,8,5,9,6,10
		Dermatology	31,27,33,6,29,12,15,25,8,30,22,20,21,7,9,24,10,28,14,16,26,23,11,5,3,2,19,13,4,34,1,18,17,32
Adult	11,12,6,8,10,5,4,1,13,7,2,9,14,3
		Cylinder bands	1,9,6,4,34,12,30,29,2,11,10,14,39,25,3,18,16,37,35,32,8,36,15,17,5,7,19,13,33,26,31,22,24,23,21,28,38,27,20
Annealing	5,9,3,27,8,28,7,1,4,31,29,26,12,17,13,30,24,11,10,2,6,32,14,23,25,15,22,21,20,19,18,16

采用逐步后向过滤法，依次删除信息增益率最低的特征，记录特征删除后的分类器准确率，直至分类器准确率开始下降为止。实验结果如表3.4，表中第三列为分类准确率，括号内数据为对应删除特征的信息增益比率,第三列中黑体部分的数据表明在特征约简中分类准确率的峰值。

表3.4特征约简对CBR分类器准确率的影响

Data Set	Reduced Attributes	KNN(k=3) Accuracy Rate（%）
			Ionosphere	{2,19}	86.6097(0),85.4701(0.11)
Soybean	{10,6,9}	91.2152(0.0351),91.9473(0.0419),91.6545(0.059)
			Dermatology	{32,17,18}	95.9016(0.0598),96.4481(0.0833),96.1749(0.0959)
Adult	{3,14,9,2}	82.2026(0),82.2149(0.00921),82.304(0.01049),82.1474(0.01309)
			Cylinder bands	{20,27,38 }	73.4694(0),74.5826(0),73.8404(0)
Annealing	{16,18,19,20,21,22,15,25,23,14,32,6,2,10,11,24}	93.0769,93.4615,93.4615,93.4615,93.4615,93.4615,93.4615,93.5897,93.5897,93.5897(0),93.5897(0),93.0769(0)

表3.2、表3.4的联合实验数据表明：特征约简可促进CBR分类性能改善，分类性能改善的规律是先升后降,该实验也验证了休斯现象。实验中还发现，各数据集在特征约简中使得分类准确率达到峰值的特征信息增益比率阈值各不相同。

以下测试GWCBR在6个数据集上的分类准确性，并与CBR分类器和特征约简CBR分类（FRCBR）器对比,其中FRCBR分类准确率数据采用表3.4中的最优准确率。实验结果如图2所示。

从图2看出，除在Dermatology数据集上GWCBR的分类准确率明显劣于CBR和FRCBR外，在Ionosphere、Soybean、Adult三个数据集上，GWCBR的分类准确率显著好于CBR和FRCBR，在Cylinder bands、Annealing两个数据集上GWCBR的分类准确率与FRCBR基本持平，并显著好于CBR。

GWCBR分类器与WCBR、GCBR分类器测试性能对比实验结果如表3.5与图3所示。

表3.5 GCBR、WCBR、GWCBR分类准确率对比表

Data Set	GCBR	WCBR	GWCBR
				Ionosphere	0.8861	0.8748	0.8833
Soybean	0.9166	0.9195	0.9224
				Dermatology	0.9538	0.9673	0.9401
Adult	0.8415	0.8250	0.8527
				Cylinder bands	0.7310	0.7495	0.7421
Annealing	0.9628	0.9256	0.9321

从表3.5看出，GCBR分类器在Ionosphere、Annealing两个数据集上准确率显著优于WCBR与GWCBR，WCBR分类器在Dermatology、Cylinder bands两个数据集上准确率显著优于GCBR、GWCBR，GWCBR在Soybean、Adult两个数据集上准确率显著优于GCBR、WCBR；GWCBR在三类数据集上的准确率并非绝对优于GCBR、WCBR；GWCBR 仅在Dermatology数据集上准确率最低；值得关注的是，在大规模数据集Adult上，GWCBR分类器准确率显著高于GCBR、WCBR。

由图3发现，三种分类器推理分类时间的次序为：GCBR<GWCBR<WCBR,尤其是在Adult数据集上，GCBR与GWCBR体现出非常显著的时间性能优势。结合表3.5实验结果，在Adult数据集上，GCBR与GWCBR准确率远高于WCBR，虽然GWCBR由于加权处理降低了算法的时间性能，但由此换取的分类准确率提升，也是该算法区别于GCBR的明显特点。

GWCBR模型在特征处理上采用维度归约策略而非维度约简技术。维度归约是指通过特征评价构造案例库的分簇决策树，决策树可视作是案例库的簇检索if-then规则集合，案例检索时，利用目标案例特征快速确定目标案例检索的最佳案例库子集，相当于将案例部分原始特征值合并成归约特征值，从而在案例检索时减少源案例比对数量。在案例近邻计算时可对案例库的分簇特征进行约简，以消除案例维数增加带来的负面影响。针对高维特征的大规模案例库所导致的案例检索计算负担的问题，本发明提出的方法在不损失原案例库特征条件下提高案例的检索效率，产生优于传统案例推理分类准确性的推理结果。本发明所提出的特征归约处理技术的案例检索具有两个突出的效果：（1）近邻检索时采用更少的源案例，提高近邻检索效率;（2）近邻检索时采用更少的比对特征，但提升了数据分类精度。

本发明提出了一种在近邻案例检索中集成使用归纳索引策略的方法，采用信息增益比率的特征评价方法，选择信息增益率较显著的特征构建案例库分簇决策树，案例检索时，首先依据分簇决策树检索目标案例对应簇，然后在案例簇内进行近邻案例检索，以获得更优的CBR分类性能。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种案例推理分类器案例检索方法，其特征在于，包括：

S1，案例库规约特征选择；

S2，C4.5算法与案例库分簇决策树训练；

S3，加权投票KNN方法。

2.根据权利要求1所述的案例推理分类器案例检索方法，其特征

在于，所述步骤S1包括：

S11，以信息增益比率作为评估标准，生成FA排列次序；

S13，调用C4.5算法，在FA1上生成训练数据集D的分类准确率A1；

S14，去除FA1中信息增益比率最小的特征为特征集FA2;

S15，调用C4.5算法，在FA2上生成训练数据集D的分类准确率A2；

S16，如果A2>=A1,则 A1=A2,FA1=FA2,转向步骤S14；

S17，输出A=FA1。

3.根据权利要求1所述的案例推理分类器案例检索方法，其特征

在于，所述步骤S2包括：

（2-1）

其中，为类i在案例库S中出现的概率；

（2-2）

其中,是属性A的值域集合，是S中属性A取值为v的子集；

(2-3)

(2-4)

其中，

案例库S的分簇决策树训练算法如下：

S24，否则，计算A中各特征在S上的信息增益比；

S25，选择信息增益比最大的特征；

S28，返回Tree。

4.根据权利要求1所述的案例推理分类器案例检索方法，其特征

在于，所述步骤S3包括：

设案例集S对应于特征空间的点，即

(2-5)

其中是特征向量，为案例类别特征，

(2-6)

()=,其中是第i个特征的权重； (2-7)

加权投票KNN方法算法如下：

S32，在子集Si上，计算FAi中各个特征的信息增益率；

S33，过滤FAi中信息增益率为0的特征，生成新的FAi；