CN105389585A

CN105389585A - 一种基于张量分解的随机森林优化方法及系统

Info

Publication number: CN105389585A
Application number: CN201510683060.2A
Authority: CN
Inventors: 李俊杰
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2015-10-20
Filing date: 2015-10-20
Publication date: 2016-03-09

Abstract

本发明适用于数据挖掘领域，提供了一种基于张量分解的随机森林优化方法，包括：读入训练数据集作为初始训练集；基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集，其中，所述随机森林训练集包括采用随机子空间技术训练决策树模型；基于所述随机森林训练集中的决策树模型构建张量模型；利用预设张量分解技术对所述张量模型进行分解；将分解后的张量进行调整以得到调整后的张量；在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集；以及利用测试样本集对所述最优基分类器子集进行测试。本发明还提供了一种基于张量分解的随机森林优化系统。本发明可以获得具有整体性能最优的随机森林子集。

Description

一种基于张量分解的随机森林优化方法及系统

技术领域

本发明涉及数据挖掘领域，尤其涉及一种基于张量分解的随机森林优化方法及系统。

背景技术

目前基于聚类的集成学习机优化方法需要衡量两个基分类器预测结果的相似性以及它们之间的多样性，这些衡量指标在集成学习机的优化过程中起着至关重要的作用，然而多样性在实际中难以衡量，且多样性与集成学习机预测性能间的有效联系也较难建立。

随机森林因其能显著提高一个学习系统的泛化能力而得到机器学习界的广泛关注。运用随机抽样技术获取多个有多样性差异的样本，并在这些自助样本上训练多个决策树的集合。随着决策树数目的不断增加，随机森林的分类错误率逐渐下降。

为了获取最优的分类性能，通常需要构造大量的决策树。但同时随机森林算法的时间复杂度和空间复杂度都会逐渐升高，而其预测效率明显下降，这对于在线学习更是一个严重的问题。

因此，如何大幅度提高预测效率一直以来就是业界亟需改进的目标。

发明内容

有鉴于此，本发明实施例的目的在于提供一种基于张量分解的随机森林优化方法及系统，旨在解决现有技术中机器学习界预测效率较低的问题。

本发明实施例是这样实现的，一种基于张量分解的随机森林优化方法，包括：

读入训练数据集作为初始训练集；

基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集，其中，所述随机森林训练集包括采用随机子空间技术训练决策树模型；

基于所述随机森林训练集中的决策树模型构建张量模型；

利用预设张量分解技术对所述张量模型进行分解；

将分解后的张量进行调整以得到调整后的张量；

在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集；以及

利用测试样本集对所述最优基分类器子集进行测试。

优选的，所述预设随机抽样方法包括Bootstrap随机抽样方法，所述预设张量分解技术包括HOSVD高阶张量分解技术。

优选的，所述基于所述随机森林训练集中的决策树模型构建张量模型的步骤具体包括：

利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点；

统计各个分裂节点内包含的样本类标；

利用多数投票机制确定本节点中每个样本的投票频数；以及

将投票频数作为构建张量模型的基本元素进行构建张量模型。

优选的，所述将分解后的张量进行调整以得到调整后的张量的步骤具体包括：

利用设置截断参数对张量分解得到的奇异值矩阵进行截断调整；以及

将截断后的奇异值矩阵和核心张量重新计算得到调整后的张量。

优选的，所述在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集的步骤具体包括：

将调整后的张量做tree-mode展开；

按照每个决策树对应的元素进行统计，删除小于预设阈值的决策树；

将剩余决策树子集通过Pruning样本集进行测试；以及

选取具有整体最优的决策树子集作为最优基分类器子集。

另一方面，本发明还提供一种基于张量分解的随机森林优化系统，包括：

读取模块，用于读入训练数据集作为初始训练集；

随机森林训练模块，用于基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集，其中，所述随机森林训练集包括采用随机子空间技术训练决策树模型；

张量构建模块，用于基于所述随机森林训练集中的决策树模型构建张量模型；

张量分解模块，用于利用预设张量分解技术对所述张量模型进行分解；

张量调整模块，用于将分解后的张量进行调整以得到调整后的张量；

最优子集选取模块，用于在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集；以及

测试模块，用于利用测试样本集对所述最优基分类器子集进行测试。

优选的，所述张量构建模块具体包括：

节点访问子模块，用于利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点；

类标统计子模块，用于统计各个分裂节点内包含的样本类标；

频数统计子模块，用于利用多数投票机制确定本节点中每个样本的投票频数；以及

构建子模块，用于将投票频数作为构建张量模型的基本元素进行构建张量模型。

优选的，所述张量调整模块具体包括：

截断子模块，用于利用设置截断参数对张量分解得到的奇异值矩阵进行截断调整；以及

计算子模块，用于将截断后的奇异值矩阵和核心张量重新计算得到调整后的张量。

优选的，所述最优子集选取模块具体包括：

张量展开子模块，用于将调整后的张量做tree-mode展开；

统计删除子模块，用于按照每个决策树对应的元素进行统计，删除小于预设阈值的决策树；

样本测试子模块，用于将剩余决策树子集通过Pruning样本集进行测试；以及

最优选取子模块，用于选取具有整体最优的决策树子集作为最优基分类器子集。

本发明利用张量分析技术把随机森林看作是几何结构，即看作是决策树、分裂属性、样本等多因素的综合结果，并可分离出各个子空间进而可以对各子空间进行截断微调，这种方式能大幅度提高机器学习界的预测效率。

附图说明

图1为本发明一实施方式中基于张量分解的随机森林优化方法流程图；

图2为本发明一实施方式中图1所示步骤S13的详细子步骤流程图；

图3为本发明一实施方式中图1所示步骤S15的详细子步骤流程图；

图4为本发明一实施方式中图1所示步骤S16的详细子步骤流程图；

图5为本发明一实施方式中基于张量分解的随机森林优化系统结构示意图；

图6为本发明一实施方式中图5所示张量构建模块13的内部结构示意图；

图7为本发明一实施方式中图5所示张量调整模块15的内部结构示意图；

图8为本发明一实施方式中图5所示最优子集选取模块16的内部结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明具体实施方式提供了一种基于张量分解的随机森林优化方法，主要包括如下步骤：

S11、读入训练数据集作为初始训练集；

S12、基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集，其中，所述随机森林训练集包括采用随机子空间技术训练决策树模型；

S13、基于所述随机森林训练集中的决策树模型构建张量模型；

S14、利用预设张量分解技术对所述张量模型进行分解；

S15、将分解后的张量进行调整以得到调整后的张量；

S16、在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集；以及

S17、利用测试样本集对所述最优基分类器子集进行测试。

本发明所提供的一种基于张量分解的随机森林优化方法，利用张量分析技术把随机森林看作是几何结构，即看作是决策树、分裂属性、样本等多因素的综合结果，并可分离出各个子空间进而可以对各子空间进行截断微调，这种方式能大幅度提高机器学习界的预测效率。

以下将对本发明所提供的一种基于张量分解的随机森林优化方法进行详细说明。

请参阅图1，为本发明一实施方式中基于张量分解的随机森林优化方法流程图。

在步骤S11中，读入训练数据集作为初始训练集。

在本实施方式中，输入的数据必须是可以转化为二维矩阵的数据，而且数据的元素可以是连续值也可以是离散值，然后将读入训练数据集作为初始训练集。

在步骤S12中，基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集，其中，所述随机森林训练集包括采用随机子空间技术训练决策树模型。

在本实施方式中，所述预设随机抽样方法包括Bootstrap随机抽样方法。

在本实施方式中，基于初始训练集采用Bootstrap随机抽样方法有放回地获取新的训练集以形成随机森林训练集，并将C4.5算法应用于新的训练集，其中，所述随机森林训练集包括采用随机子空间技术训练决策树模型，而且在随机森林中各决策树模型不作修剪。

在步骤S13中，基于所述随机森林训练集中的决策树模型构建张量模型。

在本实施方式中，步骤S13具体包括步骤S131-S134这四个子步骤，如图2所示。

请参阅图2，为本发明一实施方式中图1所示步骤S13的详细子步骤流程图。

在步骤S131中，利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点。

在步骤S132中，统计各个分裂节点内包含的样本类标。

在步骤S133中，利用多数投票机制确定本节点中每个样本的投票频数。

在步骤S134中，将投票频数作为构建张量模型的基本元素进行构建张量模型。

在本实施方式中，利用张量分析技术把随机森林看作是几何结构，即看作是决策树、分裂属性、样本等多因素的综合结果，其中，将决策树、分裂属性、样本作为构建张量模型的三个Mode，将投票的频数作为构建张量模型的基本元素。

请重新参阅图1，在步骤S14中，利用预设张量分解技术对所述张量模型进行分解。

在本实施方式中，所述预设张量分解技术包括HOSVD高阶张量分解技术。

在本实施方式中，利用张量高阶奇异值分解(HighOrderSingularValueDecomposition，HOSVD)技术，对张量模型中的张量(例如三阶张量)进行分解，分离出各个子空间并利用截断参数将无用数据去除，达到降噪和降低稀疏性的目的。

在步骤S15中，将分解后的张量进行调整以得到调整后的张量。

在本实施方式中，步骤S15具体包括步骤S151-S152这两个子步骤，如图3所示。

请参阅图3，为本发明一实施方式中图1所示步骤S15的详细子步骤流程图。

在步骤S151中，利用设置截断参数对张量分解得到的奇异值矩阵进行截断调整。

在步骤S152中，将截断后的奇异值矩阵和核心张量重新计算得到调整后的张量。

请重新参阅图1，在步骤S16中，在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集。

在本实施方式中，步骤S16具体包括步骤S161-S164这四个子步骤，如图4所示。

请参阅图4，为本发明一实施方式中图1所示步骤S16的详细子步骤流程图。

在步骤S161中，将调整后的张量做tree-mode(即树型)展开。

在步骤S162中，按照每个决策树对应的元素进行统计，删除小于预设阈值的决策树。

在步骤S163中，将剩余决策树子集通过Pruning样本集进行测试。

在步骤S164中，选取具有整体最优的决策树子集作为最优基分类器子集。

请重新参阅图1，在步骤S17中，利用测试样本集对所述最优基分类器子集进行测试。

本发明所提供的一种基于张量分解的随机森林优化方法，利用张量分析技术把随机森林看作是几何结构，即看作是决策树、分裂属性、样本等多因素的综合结果，利用张量高阶奇异值分解(HighOrderSingularValueDecomposition，HOSVD)技术，对张量模型中的张量(例如三阶张量)进行分解，分离出各个子空间并利用截断参数将无用数据去除，达到降噪和降低稀疏性的目的。在此基础上利用核心张量与截断后的各mode奇异矩阵重构张量(例如三阶张量)，然后利用Pruning样本集通过预先设置的阈值在此三阶张量按照决策树mode展开的结果中选出具有整体最优性能的随机森林子集，这种方式能大幅度提高机器学习界的预测效率。

本发明具体实施方式还提供一种基于张量分解的随机森林优化系统10，主要包括：

读取模块11，用于读入训练数据集作为初始训练集；

随机森林训练模块12，用于基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集，其中，所述随机森林训练集包括采用随机子空间技术训练决策树模型；

张量构建模块13，用于基于所述随机森林训练集中的决策树模型构建张量模型；

张量分解模块14，用于利用预设张量分解技术对所述张量模型进行分解；

张量调整模块15，用于将分解后的张量进行调整以得到调整后的张量；

最优子集选取模块16，用于在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集；以及

测试模块17，用于利用测试样本集对所述最优基分类器子集进行测试。

本发明所提供的一种基于张量分解的随机森林优化系统10，利用张量分析技术把随机森林看作是几何结构，即看作是决策树、分裂属性、样本等多因素的综合结果，并可分离出各个子空间进而可以对各子空间进行截断微调，这种方式能大幅度提高机器学习界的预测效率。

请参阅图5，所示为本发明一实施方式中基于张量分解的随机森林优化系统10的结构示意图。在本实施方式中，基于张量分解的随机森林优化系统10包括读取模块11、随机森林训练模块12、张量构建模块13、张量分解模块14、张量调整模块15、最优子集选取模块16以及测试模块17。

读取模块11，用于读入训练数据集作为初始训练集。

随机森林训练模块12，用于基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集，其中，所述随机森林训练集包括采用随机子空间技术训练决策树模型。

张量构建模块13，用于基于所述随机森林训练集中的决策树模型构建张量模型。

在本实施方式中，张量构建模块13具体包括节点访问子模块131、类标统计子模块132、频数统计子模块133以及构建子模块134，如图6所示。

请参阅图6，所示为本发明一实施方式中图5所示张量构建模块13的内部结构示意图。

节点访问子模块131，用于利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点。

类标统计子模块132，用于统计各个分裂节点内包含的样本类标。

频数统计子模块133，用于利用多数投票机制确定本节点中每个样本的投票频数。

构建子模块134，用于将投票频数作为构建张量模型的基本元素进行构建张量模型。

请重新参阅图5，张量分解模块14，用于利用预设张量分解技术对所述张量模型进行分解。

张量调整模块15，用于将分解后的张量进行调整以得到调整后的张量。

在本实施方式中，张量调整模块15具体包括截断子模块151以及计算子模块152，如图7所示。

请参阅图7，所示为本发明一实施方式中图5所示张量调整模块15的内部结构示意图。

截断子模块151，用于利用设置截断参数对张量分解得到的奇异值矩阵进行截断调整。

计算子模块152，用于将截断后的奇异值矩阵和核心张量重新计算得到调整后的张量。

请重新参阅图5，最优子集选取模块16，用于在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集。

在本实施方式中，最优子集选取模块16具体包括张量展开子模块161、统计删除子模块162、样本测试子模块163以及最优选取子模块164，如图8所示。

请参阅图8，所示为本发明一实施方式中图5所示最优子集选取模块16的内部结构示意图。

张量展开子模块161，用于将调整后的张量做tree-mode(即树型)展开。

统计删除子模块162，用于按照每个决策树对应的元素进行统计，删除小于预设阈值的决策树。

样本测试子模块163，用于将剩余决策树子集通过Pruning样本集进行测试。

最优选取子模块164，用于选取具有整体最优的决策树子集作为最优基分类器子集。

请重新参阅图5，测试模块17，用于利用测试样本集对所述最优基分类器子集进行测试。

本发明所提供的一种基于张量分解的随机森林优化系统10，利用张量分析技术把随机森林看作是几何结构，即看作是决策树、分裂属性、样本等多因素的综合结果，利用张量高阶奇异值分解(HighOrderSingularValueDecomposition，HOSVD)技术，对张量模型中的张量(例如三阶张量)进行分解，分离出各个子空间并利用截断参数将无用数据去除，达到降噪和降低稀疏性的目的。在此基础上利用核心张量与截断后的各mode奇异矩阵重构张量(例如三阶张量)，然后利用Pruning样本集通过预先设置的阈值在此三阶张量按照决策树mode展开的结果中选出具有整体最优性能的随机森林子集，这种方式能大幅度提高机器学习界的预测效率。

在本发明实施例中，本发明提供的技术方案，利用张量分析技术把随机森林看作是几何结构，即看作是决策树、分裂属性、样本等多因素的综合结果，并可分离出各个子空间进而可以对各子空间进行截断微调，这种方式能大幅度提高机器学习界的预测效率。

值得注意的是，上述实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于张量分解的随机森林优化方法，其特征在于，所述方法包括：

读入训练数据集作为初始训练集；

基于所述随机森林训练集中的决策树模型构建张量模型；

利用预设张量分解技术对所述张量模型进行分解；

将分解后的张量进行调整以得到调整后的张量；

利用测试样本集对所述最优基分类器子集进行测试。

2.如权利要求1所述的基于张量分解的随机森林优化方法，其特征在于，所述预设随机抽样方法包括Bootstrap随机抽样方法，所述预设张量分解技术包括HOSVD高阶张量分解技术。

3.如权利要求1所述的基于张量分解的随机森林优化方法，其特征在于，所述基于所述随机森林训练集中的决策树模型构建张量模型的步骤具体包括：

统计各个分裂节点内包含的样本类标；

利用多数投票机制确定本节点中每个样本的投票频数；以及

4.如权利要求1所述的基于张量分解的随机森林优化方法，其特征在于，所述将分解后的张量进行调整以得到调整后的张量的步骤具体包括：

5.如权利要求1所述的基于张量分解的随机森林优化方法，其特征在于，所述在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集的步骤具体包括：

将调整后的张量做tree-mode展开；

将剩余决策树子集通过Pruning样本集进行测试；以及

选取具有整体最优的决策树子集作为最优基分类器子集。

6.一种基于张量分解的随机森林优化系统，其特征在于，所述基于张量分解的随机森林优化系统包括：

读取模块，用于读入训练数据集作为初始训练集；

7.如权利要求6所述的基于张量分解的随机森林优化系统，其特征在于，所述预设随机抽样方法包括Bootstrap随机抽样方法，所述预设张量分解技术包括HOSVD高阶张量分解技术。

8.如权利要求6所述的基于张量分解的随机森林优化系统，其特征在于，所述张量构建模块具体包括：

9.如权利要求6所述的基于张量分解的随机森林优化系统，其特征在于，所述张量调整模块具体包括：

10.如权利要求6所述的基于张量分解的随机森林优化系统，其特征在于，所述最优子集选取模块具体包括：

张量展开子模块，用于将调整后的张量做tree-mode展开；