CN115688034B

CN115688034B - 数值型和类别型的混合资料的提取和缩减方法

Info

Publication number: CN115688034B
Application number: CN202211720097.4A
Authority: CN
Inventors: 李文龙; 吴代君; 朱海洋; 王建炜
Original assignee: Zhejiang Shengtu Digital Technology Co ltd
Current assignee: Zhejiang Shengtu Digital Technology Co ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-08-15
Anticipated expiration: 2042-12-30
Also published as: CN115688034A

Abstract

数值型和类别型的混合资料的提取和缩减方法，属于数据分析技术领域，包括以下步骤：步骤S1，通过CART算法模型对原始训练样本集T建立决策树；步骤S2，通过决策树规则集合DR中的第i个规则r_i，分别筛选出各个终端节点内所有样本于训练样本集合X之中，并计算终端节点的第i个样本分数s_i，然后根据样本分数s_i进行样本删减；其中，N为属于r_i规则的训练样本。本方案，利用决策树中的树状结构所具有的分类聚类效果，以决策树的树状结构做为聚类方式，再从每个聚类依次执行样本选取方法，在不大幅影响决策树生成规则的情况下缩减样本数量，从而降低机器学习模型的学习时间与存储器需求。

Description

数值型和类别型的混合资料的提取和缩减方法

技术领域

本发明属于数据分析技术领域，特别涉及数值型和类别型的混合资料的提取和缩减方法。

背景技术

资料提取，通常分解为十项步骤：(1)理解资料智能化提取的目标；(2)获取用于分析的数据集；(3)探索、清理和预处理数据；(4)如有必要，减少数据维度；(5)确定资料探勘任务（分类、数值预测或聚类等）；(6)对数据进行类别标示（用于监督式学习）；(7)选择要使用的智能化提取技术；(8)使用算法来执行任务；(9)解释算法产生的结果；(10)部署模型。

当面对庞大的数据集进行复杂的资料智能化提取时，计算机通常需要花费很长的时间，以至于整个提取过程变得不可行，因此第4步骤进行数据缩减的重要性从而提升，并且希望能保持原始数据一定程度上的完整性。数据缩减通常是指减少维度（总属性数）或减少数量（资料总笔数）。

例如公开号为CN114169998A的中国发明申请公开了一种金融大数据分析与挖掘算法，其中，包含了去除无用特征和去除冗余特征，利用存在的特征、转换特征、内容中的特征及其他数据源生成新特征。但是，其并未公开如何对样本进行精选的具体步骤。

例如公开号CN111562541A的中国发明申请公开了一种应用CART算法实现电能表检测数据管理的软件平台，其通过CART算法提高了不同数据的分类能力和计算精度，但是其并未对数据进行缩减，仍然需要较长的训练时间，同时占用较多的计算资源和存储空间。

传统的样本精选方法，如RIS（基于概率排序的样本选择算法，Ranking-basedinstance selection）、CNN（浓缩最近邻规则，Condensed nearest neighbor rule）和EN（对负类样本的欠采样方法，Edited nearest neighbor rule）等方法，多以最近邻居为基础，根据离群值，去除噪声与冗余资料，得到中心样本。

但是中心样本依赖于中心点的选取。如果根据经验选取中心点，则精选结果依赖于主观判断。如果根据k-means算法来确定聚类，则其规则制定过程十分复杂与繁琐，并且当参考中心点增多时，占用了庞大的计算量与存储空间。

发明内容

鉴于上述现有技术的不足之处，本发明的目的在于提供数值型和类别型的混合资料的提取和缩减方法。

为了达到上述目的，本发明采取了以下的技术方案。

数值型和类别型的混合资料的提取和缩减方法，包括以下步骤：

步骤S1，通过CART算法模型对原始训练样本集T建立决策树，将决策树的终端节点的样本汇总后得到训练样本集合X，并将终端节点的划分规则纪录于决策树规则集合DR中；

步骤S2，通过决策树规则集合DR中的第i个规则r_i，分别筛选出各个终端节点内所有样本于训练样本集合X之中，并计算终端节点的第i个样本分数s_i，并根据样本分数s_i进行降幂排序；从前至后依序选定一个样本作为中心样本，然后根据中心样本和其相邻的后一样本之间的距离确定基准，判断其余排序在中心样本后面的样本与中心样本间的距离是否低于此基准，若为是则将该样本删除；依序迭代移除符合删除条件的样本，最终得到欲保留的样本集合。

进一步，步骤S1，包括以下步骤：

步骤S101，确定原始训练样本集T的特征，并对所有特征确定节点划分规则；

步骤S102，确定父节点，并根据节点划分规则将父节点划分为两个子节点，计算全部节点划分规则的基尼系数；第一个父节点为根节点，根节点设置有原始训练样本集T；

步骤S103，在所有的特征以及所有的节点划分规则里面选择基尼系数最小的特征及其节点划分规则作为最优的特征及切分点，生成两个子节点，将父节点中的样本数据分配到子节点中去；

步骤S104，判断是否到达决策树升长停止条件，尚未到达则回到步骤S101继续执行决策树生长；决策树升长停止条件包括：节点中的样本数小于阈值、基尼系数小于阈值，或者所有特征以及所有节点划分规则均已经遍历。

进一步，步骤S102中，令父节点设置有样本数据D，将父节点样本数据D划分得到K个类别：C₁、C₂、C₃...C_k...C_K；基尼杂质系数为：

；其中，C_k表示第k类的样本数据；

样本数据D被特征A的节点划分规则a划分为D1和D2两部分，则满足特征A的节点划分规则a的基尼系数：

。

进一步，步骤S2，包括：

步骤S201，通过函数getScore(xi，X)获取训练样本集合X中第i个样本x_i的样本分数s_i，并将其纪录于终端节点样本分数集合C中；函数getScore(xi，X)，表示获取训练样本集合X中x_i的样本分数的函数：

；

其中，m为样本个数，SF是根据样本特征类型采取对应的分数计算系数，若样本特征类型为数值型特征，则SF采用sf1(x_i， x_j， X)；若样本特征类型为类别型特征，则SF采用sf2(x_i， x_j， X)；若样本特征类型为数值型特征与类别型特征均含有，则将sf1(x_i， x_j， X)与sf2(x_i， x_j， X)相乘的积作为SF；class(x_i)表示样本x_i的类别；class(x_j)表示样本x_j的类别；otherwise表示否则；

sf1(x_i， x_j， X)和sf2(x_i， x_j， X)的公式如下：

；

其中，d(x_i， x_j)表示样本x_i与样本x_j两者的欧几里得距离；hamming.dis(x_i， x_j)表示样本x_i与样本x_j两者的汉明距离；count(col.type≠numerical)表示原始资料集中特征类型不属于数值型特征的数量。

进一步，步骤S2，还包括：

步骤S202，将终端节点的训练样本集合X，根据其记录于终端节点样本分数集合C中的样本分数s_i进行降幂排序；样本分数s_i的数值越小，表示该样本分数s_i越高；

步骤S203，在降幂排序的终端节点的训练样本集合X中，从前至后依序选定一个样本作为中心样本，然后根据中心样本和其相邻的后一样本之间的距离确定基准，默认基准为中心样本和其相邻的后一样本之间的距离；然后判断其余排序在中心样本后面的样本与中心样本间的距离是否低于此基准，如果低于，则对该排序在中心样本后面的样本进行删减，并持续更新训练样本集合X缩减计算量；当计算至训练样本集合X中最后一笔样本后结束；

步骤S204，训练样本集合X即为该终端节点最终要保留的样本，将其记录于集合F中；然后重复步骤S201~步骤S204，直到终端节点全部执行完成删减步骤；最终的集合F，即为经过删减后的样本训练资料集。

本方案，利用决策树中的树状结构所具有的分类聚类效果，以决策树的树状结构做为聚类方式，再从每个聚类依次执行样本选取方法，在不大幅影响决策树生成规则的情况下缩减样本数量，从而降低机器学习模型的学习时间与存储器需求。

本方案，将时间复杂度，从变成/>，其中n与m分别为资料集样本数量与决策树终端节点数量。本方案的空间复杂度也随终端节点划分的特性而下降，因此本方案降低了存储器需求，缩短了算法执行时间，并使得压缩比率可调。

附图说明

图1是决策树示意图；

图2是步骤S201的终端节点内的样本散点图；

图3是步骤S202的终端节点的样本分数排名图；

图4是步骤S203的样本删除示例图；

图5是步骤S203的样本删除排除示例图；

图6是步骤S203的样本删除后的保留示例图；

图7是步骤S203的基准调整为一半的前后对比图；

图8是Iris数据集的决策树示意图；

图9是各终端节点在iris特征坐标空间的分布图；

图10是图9通过步骤S2后的iris特征坐标空间分布图。

具体实施方式

下面结合附图，对本发明作进一步详细说明。

步骤S1，通过CART算法模型对原始训练样本集T建立决策树，将决策树的终端节点的样本汇总后得到训练样本集合X，并将终端节点的划分规则纪录于决策树规则集合DR中。

步骤S101，确定原始训练样本集T的特征，并对所有特征确定节点划分规则。例如，基于特征A，确定其节点划分规则为a，其中a为：特征A属性＞10。

步骤S102，确定父节点，并根据节点划分规则将父节点划分为两个子节点，计算全部节点划分规则的基尼系数；第一个父节点为根节点，根节点设置有原始训练样本集T。

令父节点设置有样本数据D，将父节点样本数据D划分得到K个类别：C₁、C₂、C₃...C_k...C_K；那么基尼杂质系数为：

；其中，C_k表示第k类的样本数据。

。

步骤S103，在所有的特征以及所有的节点划分规则里面选择基尼系数最小的特征及其节点划分规则作为最优的特征及切分点，生成两个子节点，将父节点中的样本数据分配到子节点中去。

步骤S104，判断是否到达决策树升长停止条件，尚未到达则回到步骤S101继续执行决策树生长。

决策树升长停止条件包括：节点中的样本数小于阈值、基尼系数小于阈值，或者所有特征以及所有节点划分规则均已经遍历。

CART决策树，是一种样本选取的集群聚类方式，其采用基尼杂质系数衡量节点纯度。节点越不纯，基尼杂质系数越大。本方案，通过最小化分裂后的基尼系数寻找最优分割点，将节点一分为二。

图1是决策树示意图，其中，菱形的中间节点代表节点划分规则，底部方形的终端节点代表符合节点划分规则的划分结果。假设原始训练样本集T中，类别A有50笔资料，类别B有50笔资料。中间节点划分条件为：特征属性＞10。原始训练样本集T经过中间节点划分得到节点1和节点2两个终端节点，其中，节点1有50笔类别A和10笔类别B，节点2有0笔类别A和40笔类别B。那么：

节点1的基尼杂质系数为：1－（（50÷60）²+（10÷60）²）=1－（0.69+0.03）=0.28；

节点2的基尼杂质系数为：1－（（0÷40）²+（40÷40）²）=1－（0+1）=0；

以特征属性＞10为节点划分规则的基尼系数：0.6×0.28+0.4×0=0.168。

步骤S2，通过决策树规则集合DR中的第i个规则r_i，分别筛选出各个终端节点内所有样本于训练样本集合X之中，并计算终端节点的第i个样本分数s_i，并根据样本分数s_i进行降幂排序；从前至后依序选定一个样本作为中心样本，然后根据中心样本和其相邻的后一样本之间的距离确定基准，判断其余排序在中心样本后面的样本与中心样本间的距离是否低于此基准，若为是则将该样本删除；依序迭代移除符合删除条件的样本，最终得到欲保留的样本集合；其中，训练样本集合X为属于规则r_i的训练样本。

步骤S201，通过函数getScore(xi，X)获取训练样本集合X中第i个样本x_i的样本分数s_i，并将其纪录于终端节点样本分数集合C中。函数getScore(xi，X)，表示获取训练样本集合X中x_i的样本分数的函数。

实例：依序为该终端节点内的样本x_i（如图2所示，共有6笔圆形类别样本与1笔三角形类别样本），使用函数getScore(x_i，N)计算其样本分数s_i；其中，函数getScore(x_i，N)如下：

；

其中，m为样本个数，SF是根据样本特征类型采取对应的分数计算系数，若样本特征类型为数值型特征，则SF采用sf1(x_i， x_j， X)；若样本特征类型为类别型特征，则SF采用sf2(x_i， x_j， X)；若样本特征类型为数值型特征与类别型特征均含有，则将sf1(x_i， x_j， X)与sf2(x_i， x_j， X)相乘的积作为SF；class(x_i)表示样本x_i的类别；class(x_j)表示样本x_j的类别；otherwise表示否则。

sf1(x_i， x_j， X)和sf2(x_i， x_j， X)的公式如下：

；

步骤S202，将终端节点的训练样本集合X，根据其记录于终端节点样本分数集合C中的样本分数s_i进行降幂排序；样本分数s_i的数值越小，表示该样本分数s_i越高。

图3是步骤S202的终端节点的样本分数排名图；在图3中，1为最高分，7为最低分。

步骤S203，在降幂排序的终端节点的训练样本集合X中，从前至后依序选定一个样本作为中心样本，然后根据中心样本和其相邻的后一样本之间的距离确定基准，默认基准为中心样本和其相邻的后一样本之间的距离；然后判断其余排序在中心样本后面的样本与中心样本间的距离是否低于此基准，如果低于，则对该排序在中心样本后面的样本进行删减，并持续更新训练样本集合X 缩减计算量；当计算至训练样本集合X中最后一笔样本后结束。

图4是步骤S203的样本删除示例图，如图4所示，依序从最高分样本的1号样本开始，以最高分1号样本与次高分2号样本之间的距离为基准，判断其余样本与最高分样本间的距离是否低于此标准，若为是则将该样本删除，即以1为中心点与2为边界，删除范围内4号样本。后续以第二高分样本与第三高分样本的距离为基准以此类推。

图5是步骤S203的样本删除排除示例图，图5中，以3号样本为中心，由于4号样本已被删除，因此选择与5号样本计算距离，其中2号样本落在删除标准内，但其样本分数高于中心点因此不删除，最终此终端节点样本缩减结果如图6所示。

本方案，可以通过调整基准，来调整压缩率。图7是步骤S203的基准调整为一半的前后对比图，当基准为原始基准的一半时，提高了类似样本的压缩门槛，从而降低压缩率。图7中，左侧为原基准，4号样本需要删除；右侧为调整为一半的基准，4号样本得以保留。

本方案，针对各个终端节点执行缩减，与传统方法聚焦于资料集内全部样本的缩减策略有明显的不同，并达到良好的压缩比率，对于决策树生长结果的影响较小，缩减过程的计算量也大幅下降，从而能提升运算速度。

本方案，使用决策树，并在决策边界上移除噪声样本、冗余及相似样本，从而保留代表性较高的样本，并且，删除过程中不同决策树终端节点集合之间，互相之间不会受到影响。

本方案，对于决策树终端节点，根据搜索机制，依序迭代移除符合删除条件的样本，最终得到欲保留的样本集合。

采用Iris数据集作为原始训练样本集T。Iris数据集，是常用的分类实验数据集，也称鸢尾花卉数据集，是一类多重变量分析的数据集。

图8是Iris数据集的决策树示意图；如图8所示，通过决策树，将Iris数据集分为五个终端节点：A~E。其中，鸢尾花有三个品种：setosa（山鸢尾）、versicolor（杂色鸢尾）、virginica（维吉尼亚鸢尾）。花瓣宽度和花瓣长度的单位都是cm。

图9是各终端节点在iris特征坐标空间的分布图，其中，A~E分别对应图8中的五个终端节点，花瓣宽度和花瓣长度的单位都是cm。

图10是图9通过步骤S2前后的iris特征坐标空间分布对比图。在样本缩减特性方面，本方法主要聚焦于清除相似性高的样本，使得各类别中的样本在缩减后得以平均分布。同时，对于分类错误的样本则会保留其中较具代表性的样本。在平均正确率ACC上，本方案ACC=79.95%，与步骤1后的终端节点的正确率（ACC=82.13%），差不多。

本方案，针对决策树中各终端节点进行样本缩减。RIS（基于概率排序的样本选择算法，Ranking-based instance selection）、CNN（浓缩最近邻规则，Condensed nearestneighbor rule）和EN（对负类样本的欠采样方法，Edited nearest neighbor rule）等方法的缩减范围主要针对资料集内全部样本。在平均压缩比方面，本方案(21.27%)优于RIS(35.27%)、CNN (34.51%)和ENN (81.71%)。

本方案，尽可能地保留决策树架构中的决策边界，并使不同终端节点内的样本分布趋于平均，同时删除相似样本且保留边界与较具代表性的样本，有利于为分类问题建立较为复杂的树状结构模型前，能够花费较少的预处理时间进行样本选取，进而大幅提升机器学习模型的训练速度，同时提高分类预测效能。

本方案，在判断样本距离远近时，除了计算样本空间的距离外，同时考量了样本所属的终端节点与共同父节点层数的关系，进一步改善分类正确率。

本方案，达到良好的压缩比，对于决策树生长结果的影响较小，缩减过程的计算量也大幅下降，从而能提升运算速度。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.数值型和类别型的混合资料的提取和缩减方法，其特征在于，包括以下步骤：

步骤S2，通过决策树规则集合DR中的第i个规则r_i，分别筛选出各个终端节点内所有样本于训练样本集合X之中，并计算终端节点的第i个样本分数s_i，并根据样本分数s_i进行降幂排序；从前至后依序选定一个样本作为中心样本，然后根据中心样本和其相邻的后一样本之间的距离确定基准，判断其余排序在中心样本后面的样本与中心样本间的距离是否低于此基准，若为是则将该样本删除；依序迭代移除符合删除条件的样本，最终得到缩减后的样本集合；

步骤S2，包括：

步骤S201，通过函数getScore(x_i，X)获取训练样本集合X中第i个样本x_i的样本分数s_i，并将其纪录于终端节点样本分数集合C中；函数getScore(x_i，X)的计算公式如下：

；

sf1(x_i， x_j， X)和sf2(x_i， x_j， X)的公式如下：

；

2.根据权利要求1所述的数值型和类别型的混合资料的提取和缩减方法，其特征在于，步骤S1，包括以下步骤：

3.根据权利要求2所述的数值型和类别型的混合资料的提取和缩减方法，其特征在于，步骤S102中，令父节点设置有样本数据D，将父节点样本数据D划分得到K个类别：C₁、C₂、C₃...C_k...C_K；基尼杂质系数为：

；其中，C_k表示第k类的样本数据；

。

4.根据权利要求1所述的数值型和类别型的混合资料的提取和缩减方法，其特征在于，步骤S2，还包括：