CN112836731A

CN112836731A - 基于决策树准确率和相关性度量的信号随机森林分类方法、系统及装置

Info

Publication number: CN112836731A
Application number: CN202110080937.4A
Authority: CN
Inventors: 王国涛; 孙志刚; 高亚杰; 李超然; 梁晓雯
Original assignee: Heilongjiang University
Current assignee: Heilongjiang University
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-05-25

Abstract

基于决策树准确率和相关性度量的信号随机森林分类方法、系统及装置，属于信号分类识别领域。为了解决传统随机森林分类器中单个决策树分类器的分类准确率低的问题。本发明首先建立决策树，用3组预留的数据集分别对每棵决策树进行验证，计算第i棵决策树的准确率，将所有决策树按分类准确率降序排序；针对确定的数据集，采用向量内积方法计算并保存决策树之间的內积数值，将向量內积小于等于內积阈值的决策树保留，否则将计算向量内积的每一对决策树中分类准确率低的决策树标记为可删除；按照分类准确率从低到高依次删除被标记为可删除的决策树，直到剩下的决策树数量为N；采用最终的分类器投票决定最终的分类结果。主要用于信号的分类识别。

Description

基于决策树准确率和相关性度量的信号随机森林分类方法、系统及装置

技术领域

本发明属于信号分类识别领域，具体涉及一种电子设备的信号分类识别方法、系统及装置。

背景技术

在电子设备检测技术领域，经常会针对密封电子设备/密封电子元器件进行信号检测，但是目前的信号检测方法存在准确率不高等问题，尤其是针对于类似多余物信号与组件信号的检测识别，多余物信号是密封继电器受到外界激励时，游离的多余物微粒碰撞密封器件内壁后因振动而发出的声音信号；组件信号是继电器在施加振动后内部固有松动器件发生的振动信号。组件信号和多余物信号经示波器输出的波形形状相似，而且有时存在组件信号、噪声信号覆盖多余物信号的情况，这就会增加多余物信号识别的难度。所以现有方法的识别还存在着诸多问题，例如目前利用微粒碰撞噪声检测法识别多余物信号主要存在以下问题：由于有些密封继电器内部结构复杂，在进行多余物信号识别时，干扰较大，对于检测到的信号进行分类时，并不能进行准确区分；实际上现有的方法在检测其他信号时也存在这样的问题，而针对于多余物信号与组件信号问题更加突出，目前并没有能够准确区分二者的方法。没有明确标准断定信号种类时，为了杜绝将多余物信号判为组件信号，即认为该器件是合格品而导致发生航天事故，就会将该器件作废弃处理。因此，必须提高多余物信号识别与组件信号的准确率。而目前多余物信号检测所获得的准确率较低，只能达到75％左右。同时，在多余物信号的识别过程中，容易被外界噪声信号所干扰，识别时易将组件信号识别为多余物信号或多余物信号误判为组件信号。

决策树算法是一个通过设定规则对数据分类的过程，不同类型的决策树算法适用于处理不同数据类型，目前常用的决策树算法包括ID3、C4.5和CART。其中，ID3算法采用信息增益作为分裂属性选择指标，选择分裂后信息增益最大的属性作为下次划分标准，ID3算法容易理解，但ID3算法不能处理连续值。为了能对连续数据进行处理，又提出了C4.5 算法，C4.5算法在选择分裂属性时以信息增益率作为指标，对于离散和连续性属性都能进行处理，同时对于属性的缺失不敏感。CART二叉决策树，在特征选择时采用Gini系数作为属性选择标准，主要用于二分类问题。

由决策树算法设计的单个决策树分类器在预测时经常有过拟合问题产生，一般通过集成学习避免过拟合现象在决策树进行分类的过程中出现。集成学习，就是将多个单个分类器组合在一起对事物进行判断，使最后取得的分类效果相对于单一分类器更优。在设计集成学习算法时，使设计的基分类器具有泛化能力强、差异度大的特点是构建优秀集成分类器的关键。常见的集成学习方法包括Bagging、Boosting、随机森林算法等。

2001年，Breiman以随机决策森林算法为基础，并将Bagging算法与CART算法综合后，提出了随机森林算法。在训练样本集中随机地抽取样本，并且随机地在特征集中选取特征，根据选定的数据子集和特征子集建立每一个决策树分类器后组合成为随机森林分类器，最后由所有的决策树分类器经预测、投票的方式得出结果。

随机森林算法有诸如：分类准确率高于一般的分类算法，由于在取样阶段的随机性，降低了算法的过拟合问题；抗噪声能力增强，可以并行运算，对于连续和离散型数据都可以很好的处理等优点。但是也存在一些固有的缺点：当组成随机森林分类器中的基分类器数量较大时，分类器训练的空间和时间会相应增加。另外，以取样后又将其放回到数据集中的抽样方式选取样本子集，不能保证样本子集中所有样本点具有好的特征，会存在某个决策树分类器选择较差的样本比较多，因此不一定具有良好的分类效果。

对于随机森林算法的改进，有过很多的研究。由于单个决策树分类器的分类效果并不一定都很高，所以很多学者提出了不同的方法提高单个决策树分类器的分类精度。其中，采用袋外数据进行加权的方法最为常见，但由于决策树建立过程中的数据集采用Bagging 算法抽取样本，因此每次抽取的数据集都是不同的，同时每次的袋外数据也是不同的，因此采用不同的数据集来衡量每棵决策树并不准确可靠。

发明内容

本发明的主要是为了解决传统随机森林分类器中单个决策树分类器的分类准确率低的问题，尤其是针对于电子设备的信号检测的分类准确率低的问题。

基于决策树准确率和相关性度量的信号随机森林分类方法，包括以下步骤：

Step 1：在密封电子设备/密封电子元器的信号数据集中选出3组数量相等的带标签的数据集，作为每棵决策树模型建立之后分类准确率预测的测试集；

所述的密封电子设备/密封电子元器的信号包括多余物信号与组件信号；

Step 2：确定基分类器个数N和特征子集中特征的个数，在剩余数据集中采用Bagging 算法有放回的进行N+m*N次采样，建立决策树；

Step 3：用3组预留的数据集分别对每棵决策树进行验证，记录每组数据集的分类准确率

其中i＝1，…，N+m*N，表示第棵决策树，j＝1，2，3表示第棵树的第组数据集；

Step 4：计算第i棵决策树的准确率

Step 5：将所有决策树按分类准确率降序排序；

Step 6：将3组数量相等的带标签的数据集中的一个数据集作为确定的数据集，针对确定的数据集，采用向量内积方法计算并保存决策树之间的內积数值，并使用网格搜索算法寻找內积阈值n；将向量內积小于等于內积阈值的决策树保留；

针对向量內积高于內积阈值的决策树，将计算向量内积的每一对决策树中分类准确率低的决策树标记为可删除；

Step 7：按照分类准确率从低到高依次删除被标记为可删除的决策树，直到剩下的决策树数量为N；如果被标记可删除的决策树都删除以后，决策树量还大于N，则在保留的决策树中，继续按照分类准确率从低到高依次删除决策树，直到剩余决策树数量为N；

Step 8：采用最终的分类器投票决定最终的分类结果。

进一步地，在Step 6中采用向量内积方法计算并保存决策树之间的內积数值的公式如下：

其中，D1、D2为进行向量内积的两个决策树；w_1i、w_2i为进行向量内积的两个决策树的内部向量。

进一步地，所述的內积阈值为决策树之间的內积数值的平均数或者中位数。

进一步地，预设的比例数m取值为0.1-0.15。

进一步地，预设的比例数m为0.1。

基于决策树准确率和相关性度量的信号随机森林分类系统，用于执行基于决策树准确率和相关性度量的信号随机森林分类方法。

基于决策树准确率和相关性度量的信号随机森林分类装置，用于存储和/或运行基于决策树准确率和相关性度量的信号随机森林分类系统。

有益效果：

本发明在使用单个决策树分类器进行准确率度量时，采用3组预留的数据集对每个生成的决策树分类器计算分类准确率，并求出平均值。当所有的决策树分类器生成完毕后，按平均分类准确率进行降序排列。采用向量内积计算两个决策树分类器之间相关性，同时去除相关性较高的决策树分类器中分类准确率较低的。剩余决策树分类器都是分类准确率相对较高，并且相关性较低，不会对最终的分类结果造成冗余。本发明的结合的多余物信号与组件信号的具体实施例表明，一种基于决策树准确率和相关性度量的信号随机森林分类器设计方法对多余物信号和组件信号样本的识别准确率有较大提升，同时具有普遍适用性，在相关实验得到的数据集中取得较好的分类结果。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据具体多余物信号与组件信号的实施例并结合附图，对本发明作进一步详细的说明，其中

图1为基于决策树准确率和相关性度量的信号随机森林分类方法流程示意图；

图2(a)为单棵决策树准确率计算的过程示意图；

图2(b)为决策树之间相关度度量计算过程示意图；

图3为本发明实施例的用于相关性度量的向量内积值与分类准确率的关系图；

图4是本发明实施例的使用数据集中选取数据集1的决策树分类器个数和随机森林分类准确率的关系图；

图5是本发明实施例的使用数据集中选取数据集2的决策树分类器个数和随机森林分类准确率的关系图；

图6是本发明实施例的使用数据集中选取数据集6的决策树分类器个数和随机森林分类准确率的关系图；

图7是本发明实施例的使用数据集中选取Haberman数据集的决策树分类器个数和随机森林分类准确率的关系图；

图8是本发明实施例的使用数据集中选取Diabetes数据集的决策树分类器个数和随机森林分类准确率的关系图。

具体实施方式

具体实施方式一：

本实施方式提出了一种基于决策树准确率和相关性度量的信号随机森林分类方法。

由随机森林算法的原理可知，随机森林算法在构建决策树时，样本集和特征集都是随机选择的。这样的随机性可能导致某些决策树的分类效果并不理想。分类效果差的决策树对最终的分类贡献较小。因此本发明对每棵生成的决策树采用预留的3组数据集进行预测，并以分类准确率作为评价指标，将所有的决策树按着平均分类准确率的值降序排列。

同样由随机森林算法的原理可知，由于决策树建立时采用的是有放回的抽样，可能出现两棵决策树较为相似的情况，即二者相关度较高。当决策树之间的相关度较高时，对于分类结果是冗余的。删除相关度高的决策树，可以有效提高随机森林的分类效率。但是决策树之间的相关度并不是越低越好。首先，如何要求决策树相关度过低，可能导致组成随机森林的决策树数量不足，降低算法性能。其次，低相关的决策树意味着bagging 出的数据集重复较少，对样本覆盖不足，导致决策树整体性能下降，进而导致随机森林算法性能下降。针对上述问题，本发明使用向量内积法对决策树进行相关度度量。以随机森林整体分类精度作为评价指标，寻优出相关度阈值。如果向量内积的值大于阈值则判断为相关度较高，将大于阈值的一对决策树中，分类准确率较低的删除。

在创建随机森林时比预设决策树的数量多构建一定比例的决策树，然后根据以上原理，综合考虑决策树的分类准确率和相关性，删除相关性较高且分类准确率较低的决策树，直到决策树数量满足预设值为止。保留的决策树相对质量较高，从而达到提高整体分类准确率的目的。

本实施方式所述的基于决策树准确率和相关性度量的信号随机森林分类方法，包括以下步骤：

目前确定随机森林基分类器的最佳个数的方法众多，也可根据经验值进行设置。确定了最佳个数N之后，本发明在创建随机森林时比预设决策树的数量多构建一定比例的决策树。这一比例值可以根据数据集的不同自行调整。本发明经过一系列实验和分析，发现该比例值优选设置为0.1或0.15。根据决策树分类准确度计算和相关性度量原理，综合考虑决策树的分类准确率和相关度，删除相关性较高且分类准确率较低的决策树，直到决策树数量满足预设值为止。

如图1所示，算法的具体执行步骤如下：

Step 2：根据经验值或其他方法确定基分类器个数N和特征子集中特征的个数，在剩余数据集中采用Bagging算法有放回的进行N+m*N次采样，建立决策树，m为预设的比例数，本实施方式中为0.1；

Step 4：计算第i棵决策树的准确率，为3组测试集所测得的准确率的平均值

单棵决策树准确率计算的过程如图2(a)所示；

Step 5：将所有决策树按分类准确率降序排序；

针对向量內积高于內积阈值的决策树，将计算向量内积的每一对决策树中分类准确率低的决策树标记为可删除；决策树之间相关度度量计算过程如图2(b)所示；

Step 7：按照分类准确率从低到高依次删除被标记为可删除的决策树，直到剩下的决策树数量为N(保留的决策树和标记为可删除却未被删除的决策树)；如果被标记可删除的决策树都删除以后，决策树量还大于N，则在保留的决策树中，继续按照分类准确率从低到高依次删除决策树，直到剩余决策树数量为N；

Step 8：采用优化后的分类器投票决定最终的分类结果。

优选地，在Step 6中采用向量内积方法计算并保存决策树之间的內积数值的公式如下：

其中，D1、D2为进行向量内积的两个决策树；w_1i、w_2i为进行向量内积的两个决策树的内部向量；

优选地，在本实施方式中內积阈值为决策树之间的內积数值的平均数或者中位数。

本发明是采用向量内积作为决策树之间相似度度量。实际上相似算法是采取一种或者一组策略来比较两个量之间的相似程度，可以采用向量空间法，也可以采用语义词典法。计算机处理向量的效率很高，向量空间法在处理个体分类时具有很大的优势，所以可用向量夹角计算个体相似度。夹角越小，个体之间的相似度越高。目前基本上都是采用向量空间法中的点积法，余弦法，曼哈顿距离法，欧几里得距离法等多种方法。上述方法的效果虽然较好，不过针对于难难以识别的信号的识别效果，仍然有待于进一步提高，经过本发明的研究发现，从改进算法复杂度和分类准确度两方面综合考虑，本发明确定采用向量内积作为决策树之间相似度度量的方法。本发明对于某个确定的数据集，控制其余变量不变，使用分类准确率作为衡量标准，通过网格搜索算法寻优出向量内积阈值。当决策树之间的向量内积值大于阈值，则认为决策树之间相关度高，标注为可删除。反之则标注为保留。

具体实施方式二：

本实施方式为基于决策树准确率和相关性度量的信号随机森林分类系统，用于执行具体实施方式一所述的基于决策树准确率和相关性度量的信号随机森林分类方法。

具体实施方式三：

本实施方式为基于决策树准确率和相关性度量的信号随机森林分类装置，用于存储和/或运行具体实施方式二所述的基于决策树准确率和相关性度量的信号随机森林分类系统。

实施例：

本发明构建的随机森林分类器具有分类准确率较高、分类结果冗余低的优点，针对于难识别电子设备的信号(尤其是组件信号，组件信号和多余物信号经示波器输出的波形形状相似，而且有时存在组件信号、噪声信号覆盖多余物信号的情况)也可以实现较高的分类准确率。

本实施例利用具体实施方式一构建用于电子设备的信号的随机森林分类器并验证分类器的分类效果，基于密封继电器微粒碰撞噪声检测法实验的多余物信号与组件信号数据集和开源UCI数据集的分类验证。

本发明的实施例所用的数据集为密封继电器微粒碰撞噪声检测法实验的多余物信号与组件信号数据集和开源UCI数据集。基于这些数据集对比本发明的决策树准确率和相关性度量的信号随机森林分类器，和应用传统随机森林算法的分类器的分类指标值，实验所用的评价指标为分类准确率。为了达到使实验结果更加稳定的目的，在对数据集进行实验的过程中，重复进行20次实验，且随机地选取数据集中的7/10当做训练样本，剩余3/10的数据集用以测试。使用数据集的分布如表1所示。

表1使用数据集的分布

图3为本发明实施例的用于相关性度量的向量内积值与分类准确率的关系图。本发明在设计过程中涉及到向量内积阈值需要调优，采用网格搜索对向量内积值寻优，寻优区间设置为5到29，控制其他的参数值不变，以分类准确率作为评价指标。从图中可以看出，在向量内积值为21时，分类准确率相对较高，当增加该值时，分类准确率略有下降或保持不变，所以本发明实施例最终将向量内积阈值设置为21。

确定向量内积阈值后，对每一组数据集分别验证在不同随机森林规模的情况下，优化后的算法的分类准确率情况。图4至图8分别为本发明实施例的使用数据集中选取部分数据子集的决策树分类器个数和随机森林分类准确率的关系图。通过选取的各组数据子集的对比实验结果可以看出，除了第6组数据集的表现和传统的随机森林分类器相差不大以外，在其他数据集上基于相关性度量的优化算法要优于传统分类器。特别是在第二组数据集上表现突出，平均测试准确率能够提高0.15左右。在第一组数据集上，改进后的算法准确率变化趋势比较平缓，但是始终大于传统的随机森林分类器。在Haberman数据集中，当决策树分类器个数小于50时，本发明的基于决策树准确率和相关性度量的信号随机森林分类器与应用传统的分类器结果相比稍差，当森林规模大于150后，优化后的分类器准确率虽有一定的波动，但是优化后分类器达到最优准确率值时，所对应的决策树分类器个数小于传统的随机森林分类器。

可选的，图中所示本发明的一种基于决策树准确率和相关性度量的信号随机森林分类器设计方法比传统随机森林分类器在对多余物信号与组件信号的分类和其他公开数据集分类上有更好的性能，说明本发明对传统随机森林分类器的优化是有效的。优化后的随机森林分类器中单个决策树分类器的分类准确率都比较高，并且对于分类结果冗余比较小。

表2最佳准确率与随机森林规模大小对比

表2列出了采用优化和传统随机森林分类器处理数据集时，最佳分类准确率与随机森林规模的对应关系。由表中数据可得出，本发明的基于决策树准确率和相关性度量的信号随机森林分类器的分类准确率高于传统分类器，同时大部分数据集中基于本发明设计的森林的规模要低于传统随机森林分类器森林的规模。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。