CN105389585A - 一种基于张量分解的随机森林优化方法及系统 - Google Patents

一种基于张量分解的随机森林优化方法及系统 Download PDF

Info

Publication number
CN105389585A
CN105389585A CN201510683060.2A CN201510683060A CN105389585A CN 105389585 A CN105389585 A CN 105389585A CN 201510683060 A CN201510683060 A CN 201510683060A CN 105389585 A CN105389585 A CN 105389585A
Authority
CN
China
Prior art keywords
tensor
random forest
subset
model
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510683060.2A
Other languages
English (en)
Inventor
李俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201510683060.2A priority Critical patent/CN105389585A/zh
Publication of CN105389585A publication Critical patent/CN105389585A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明适用于数据挖掘领域,提供了一种基于张量分解的随机森林优化方法,包括:读入训练数据集作为初始训练集;基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型;基于所述随机森林训练集中的决策树模型构建张量模型;利用预设张量分解技术对所述张量模型进行分解;将分解后的张量进行调整以得到调整后的张量;在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集;以及利用测试样本集对所述最优基分类器子集进行测试。本发明还提供了一种基于张量分解的随机森林优化系统。本发明可以获得具有整体性能最优的随机森林子集。

Description

一种基于张量分解的随机森林优化方法及系统
技术领域
本发明涉及数据挖掘领域,尤其涉及一种基于张量分解的随机森林优化方法及系统。
背景技术
目前基于聚类的集成学习机优化方法需要衡量两个基分类器预测结果的相似性以及它们之间的多样性,这些衡量指标在集成学习机的优化过程中起着至关重要的作用,然而多样性在实际中难以衡量,且多样性与集成学习机预测性能间的有效联系也较难建立。
随机森林因其能显著提高一个学习系统的泛化能力而得到机器学习界的广泛关注。运用随机抽样技术获取多个有多样性差异的样本,并在这些自助样本上训练多个决策树的集合。随着决策树数目的不断增加,随机森林的分类错误率逐渐下降。
为了获取最优的分类性能,通常需要构造大量的决策树。但同时随机森林算法的时间复杂度和空间复杂度都会逐渐升高,而其预测效率明显下降,这对于在线学习更是一个严重的问题。
因此,如何大幅度提高预测效率一直以来就是业界亟需改进的目标。
发明内容
有鉴于此,本发明实施例的目的在于提供一种基于张量分解的随机森林优化方法及系统,旨在解决现有技术中机器学习界预测效率较低的问题。
本发明实施例是这样实现的,一种基于张量分解的随机森林优化方法,包括:
读入训练数据集作为初始训练集;
基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型;
基于所述随机森林训练集中的决策树模型构建张量模型;
利用预设张量分解技术对所述张量模型进行分解;
将分解后的张量进行调整以得到调整后的张量;
在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集;以及
利用测试样本集对所述最优基分类器子集进行测试。
优选的,所述预设随机抽样方法包括Bootstrap随机抽样方法,所述预设张量分解技术包括HOSVD高阶张量分解技术。
优选的,所述基于所述随机森林训练集中的决策树模型构建张量模型的步骤具体包括:
利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点;
统计各个分裂节点内包含的样本类标;
利用多数投票机制确定本节点中每个样本的投票频数;以及
将投票频数作为构建张量模型的基本元素进行构建张量模型。
优选的,所述将分解后的张量进行调整以得到调整后的张量的步骤具体包括:
利用设置截断参数对张量分解得到的奇异值矩阵进行截断调整;以及
将截断后的奇异值矩阵和核心张量重新计算得到调整后的张量。
优选的,所述在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集的步骤具体包括:
将调整后的张量做tree-mode展开;
按照每个决策树对应的元素进行统计,删除小于预设阈值的决策树;
将剩余决策树子集通过Pruning样本集进行测试;以及
选取具有整体最优的决策树子集作为最优基分类器子集。
另一方面,本发明还提供一种基于张量分解的随机森林优化系统,包括:
读取模块,用于读入训练数据集作为初始训练集;
随机森林训练模块,用于基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型;
张量构建模块,用于基于所述随机森林训练集中的决策树模型构建张量模型;
张量分解模块,用于利用预设张量分解技术对所述张量模型进行分解;
张量调整模块,用于将分解后的张量进行调整以得到调整后的张量;
最优子集选取模块,用于在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集;以及
测试模块,用于利用测试样本集对所述最优基分类器子集进行测试。
优选的,所述预设随机抽样方法包括Bootstrap随机抽样方法,所述预设张量分解技术包括HOSVD高阶张量分解技术。
优选的,所述张量构建模块具体包括:
节点访问子模块,用于利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点;
类标统计子模块,用于统计各个分裂节点内包含的样本类标;
频数统计子模块,用于利用多数投票机制确定本节点中每个样本的投票频数;以及
构建子模块,用于将投票频数作为构建张量模型的基本元素进行构建张量模型。
优选的,所述张量调整模块具体包括:
截断子模块,用于利用设置截断参数对张量分解得到的奇异值矩阵进行截断调整;以及
计算子模块,用于将截断后的奇异值矩阵和核心张量重新计算得到调整后的张量。
优选的,所述最优子集选取模块具体包括:
张量展开子模块,用于将调整后的张量做tree-mode展开;
统计删除子模块,用于按照每个决策树对应的元素进行统计,删除小于预设阈值的决策树;
样本测试子模块,用于将剩余决策树子集通过Pruning样本集进行测试;以及
最优选取子模块,用于选取具有整体最优的决策树子集作为最优基分类器子集。
本发明利用张量分析技术把随机森林看作是几何结构,即看作是决策树、分裂属性、样本等多因素的综合结果,并可分离出各个子空间进而可以对各子空间进行截断微调,这种方式能大幅度提高机器学习界的预测效率。
附图说明
图1为本发明一实施方式中基于张量分解的随机森林优化方法流程图;
图2为本发明一实施方式中图1所示步骤S13的详细子步骤流程图;
图3为本发明一实施方式中图1所示步骤S15的详细子步骤流程图;
图4为本发明一实施方式中图1所示步骤S16的详细子步骤流程图;
图5为本发明一实施方式中基于张量分解的随机森林优化系统结构示意图;
图6为本发明一实施方式中图5所示张量构建模块13的内部结构示意图;
图7为本发明一实施方式中图5所示张量调整模块15的内部结构示意图;
图8为本发明一实施方式中图5所示最优子集选取模块16的内部结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明具体实施方式提供了一种基于张量分解的随机森林优化方法,主要包括如下步骤:
S11、读入训练数据集作为初始训练集;
S12、基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型;
S13、基于所述随机森林训练集中的决策树模型构建张量模型;
S14、利用预设张量分解技术对所述张量模型进行分解;
S15、将分解后的张量进行调整以得到调整后的张量;
S16、在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集;以及
S17、利用测试样本集对所述最优基分类器子集进行测试。
本发明所提供的一种基于张量分解的随机森林优化方法,利用张量分析技术把随机森林看作是几何结构,即看作是决策树、分裂属性、样本等多因素的综合结果,并可分离出各个子空间进而可以对各子空间进行截断微调,这种方式能大幅度提高机器学习界的预测效率。
以下将对本发明所提供的一种基于张量分解的随机森林优化方法进行详细说明。
请参阅图1,为本发明一实施方式中基于张量分解的随机森林优化方法流程图。
在步骤S11中,读入训练数据集作为初始训练集。
在本实施方式中,输入的数据必须是可以转化为二维矩阵的数据,而且数据的元素可以是连续值也可以是离散值,然后将读入训练数据集作为初始训练集。
在步骤S12中,基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型。
在本实施方式中,所述预设随机抽样方法包括Bootstrap随机抽样方法。
在本实施方式中,基于初始训练集采用Bootstrap随机抽样方法有放回地获取新的训练集以形成随机森林训练集,并将C4.5算法应用于新的训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型,而且在随机森林中各决策树模型不作修剪。
在步骤S13中,基于所述随机森林训练集中的决策树模型构建张量模型。
在本实施方式中,步骤S13具体包括步骤S131-S134这四个子步骤,如图2所示。
请参阅图2,为本发明一实施方式中图1所示步骤S13的详细子步骤流程图。
在步骤S131中,利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点。
在步骤S132中,统计各个分裂节点内包含的样本类标。
在步骤S133中,利用多数投票机制确定本节点中每个样本的投票频数。
在步骤S134中,将投票频数作为构建张量模型的基本元素进行构建张量模型。
在本实施方式中,利用张量分析技术把随机森林看作是几何结构,即看作是决策树、分裂属性、样本等多因素的综合结果,其中,将决策树、分裂属性、样本作为构建张量模型的三个Mode,将投票的频数作为构建张量模型的基本元素。
请重新参阅图1,在步骤S14中,利用预设张量分解技术对所述张量模型进行分解。
在本实施方式中,所述预设张量分解技术包括HOSVD高阶张量分解技术。
在本实施方式中,利用张量高阶奇异值分解(HighOrderSingularValueDecomposition,HOSVD)技术,对张量模型中的张量(例如三阶张量)进行分解,分离出各个子空间并利用截断参数将无用数据去除,达到降噪和降低稀疏性的目的。
在步骤S15中,将分解后的张量进行调整以得到调整后的张量。
在本实施方式中,步骤S15具体包括步骤S151-S152这两个子步骤,如图3所示。
请参阅图3,为本发明一实施方式中图1所示步骤S15的详细子步骤流程图。
在步骤S151中,利用设置截断参数对张量分解得到的奇异值矩阵进行截断调整。
在步骤S152中,将截断后的奇异值矩阵和核心张量重新计算得到调整后的张量。
请重新参阅图1,在步骤S16中,在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集。
在本实施方式中,步骤S16具体包括步骤S161-S164这四个子步骤,如图4所示。
请参阅图4,为本发明一实施方式中图1所示步骤S16的详细子步骤流程图。
在步骤S161中,将调整后的张量做tree-mode(即树型)展开。
在步骤S162中,按照每个决策树对应的元素进行统计,删除小于预设阈值的决策树。
在步骤S163中,将剩余决策树子集通过Pruning样本集进行测试。
在步骤S164中,选取具有整体最优的决策树子集作为最优基分类器子集。
请重新参阅图1,在步骤S17中,利用测试样本集对所述最优基分类器子集进行测试。
本发明所提供的一种基于张量分解的随机森林优化方法,利用张量分析技术把随机森林看作是几何结构,即看作是决策树、分裂属性、样本等多因素的综合结果,利用张量高阶奇异值分解(HighOrderSingularValueDecomposition,HOSVD)技术,对张量模型中的张量(例如三阶张量)进行分解,分离出各个子空间并利用截断参数将无用数据去除,达到降噪和降低稀疏性的目的。在此基础上利用核心张量与截断后的各mode奇异矩阵重构张量(例如三阶张量),然后利用Pruning样本集通过预先设置的阈值在此三阶张量按照决策树mode展开的结果中选出具有整体最优性能的随机森林子集,这种方式能大幅度提高机器学习界的预测效率。
本发明具体实施方式还提供一种基于张量分解的随机森林优化系统10,主要包括:
读取模块11,用于读入训练数据集作为初始训练集;
随机森林训练模块12,用于基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型;
张量构建模块13,用于基于所述随机森林训练集中的决策树模型构建张量模型;
张量分解模块14,用于利用预设张量分解技术对所述张量模型进行分解;
张量调整模块15,用于将分解后的张量进行调整以得到调整后的张量;
最优子集选取模块16,用于在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集;以及
测试模块17,用于利用测试样本集对所述最优基分类器子集进行测试。
本发明所提供的一种基于张量分解的随机森林优化系统10,利用张量分析技术把随机森林看作是几何结构,即看作是决策树、分裂属性、样本等多因素的综合结果,并可分离出各个子空间进而可以对各子空间进行截断微调,这种方式能大幅度提高机器学习界的预测效率。
请参阅图5,所示为本发明一实施方式中基于张量分解的随机森林优化系统10的结构示意图。在本实施方式中,基于张量分解的随机森林优化系统10包括读取模块11、随机森林训练模块12、张量构建模块13、张量分解模块14、张量调整模块15、最优子集选取模块16以及测试模块17。
读取模块11,用于读入训练数据集作为初始训练集。
在本实施方式中,输入的数据必须是可以转化为二维矩阵的数据,而且数据的元素可以是连续值也可以是离散值,然后将读入训练数据集作为初始训练集。
随机森林训练模块12,用于基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型。
在本实施方式中,所述预设随机抽样方法包括Bootstrap随机抽样方法。
在本实施方式中,基于初始训练集采用Bootstrap随机抽样方法有放回地获取新的训练集以形成随机森林训练集,并将C4.5算法应用于新的训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型,而且在随机森林中各决策树模型不作修剪。
张量构建模块13,用于基于所述随机森林训练集中的决策树模型构建张量模型。
在本实施方式中,张量构建模块13具体包括节点访问子模块131、类标统计子模块132、频数统计子模块133以及构建子模块134,如图6所示。
请参阅图6,所示为本发明一实施方式中图5所示张量构建模块13的内部结构示意图。
节点访问子模块131,用于利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点。
类标统计子模块132,用于统计各个分裂节点内包含的样本类标。
频数统计子模块133,用于利用多数投票机制确定本节点中每个样本的投票频数。
构建子模块134,用于将投票频数作为构建张量模型的基本元素进行构建张量模型。
在本实施方式中,利用张量分析技术把随机森林看作是几何结构,即看作是决策树、分裂属性、样本等多因素的综合结果,其中,将决策树、分裂属性、样本作为构建张量模型的三个Mode,将投票的频数作为构建张量模型的基本元素。
请重新参阅图5,张量分解模块14,用于利用预设张量分解技术对所述张量模型进行分解。
在本实施方式中,所述预设张量分解技术包括HOSVD高阶张量分解技术。
在本实施方式中,利用张量高阶奇异值分解(HighOrderSingularValueDecomposition,HOSVD)技术,对张量模型中的张量(例如三阶张量)进行分解,分离出各个子空间并利用截断参数将无用数据去除,达到降噪和降低稀疏性的目的。
张量调整模块15,用于将分解后的张量进行调整以得到调整后的张量。
在本实施方式中,张量调整模块15具体包括截断子模块151以及计算子模块152,如图7所示。
请参阅图7,所示为本发明一实施方式中图5所示张量调整模块15的内部结构示意图。
截断子模块151,用于利用设置截断参数对张量分解得到的奇异值矩阵进行截断调整。
计算子模块152,用于将截断后的奇异值矩阵和核心张量重新计算得到调整后的张量。
请重新参阅图5,最优子集选取模块16,用于在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集。
在本实施方式中,最优子集选取模块16具体包括张量展开子模块161、统计删除子模块162、样本测试子模块163以及最优选取子模块164,如图8所示。
请参阅图8,所示为本发明一实施方式中图5所示最优子集选取模块16的内部结构示意图。
张量展开子模块161,用于将调整后的张量做tree-mode(即树型)展开。
统计删除子模块162,用于按照每个决策树对应的元素进行统计,删除小于预设阈值的决策树。
样本测试子模块163,用于将剩余决策树子集通过Pruning样本集进行测试。
最优选取子模块164,用于选取具有整体最优的决策树子集作为最优基分类器子集。
请重新参阅图5,测试模块17,用于利用测试样本集对所述最优基分类器子集进行测试。
本发明所提供的一种基于张量分解的随机森林优化系统10,利用张量分析技术把随机森林看作是几何结构,即看作是决策树、分裂属性、样本等多因素的综合结果,利用张量高阶奇异值分解(HighOrderSingularValueDecomposition,HOSVD)技术,对张量模型中的张量(例如三阶张量)进行分解,分离出各个子空间并利用截断参数将无用数据去除,达到降噪和降低稀疏性的目的。在此基础上利用核心张量与截断后的各mode奇异矩阵重构张量(例如三阶张量),然后利用Pruning样本集通过预先设置的阈值在此三阶张量按照决策树mode展开的结果中选出具有整体最优性能的随机森林子集,这种方式能大幅度提高机器学习界的预测效率。
在本发明实施例中,本发明提供的技术方案,利用张量分析技术把随机森林看作是几何结构,即看作是决策树、分裂属性、样本等多因素的综合结果,并可分离出各个子空间进而可以对各子空间进行截断微调,这种方式能大幅度提高机器学习界的预测效率。
值得注意的是,上述实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于张量分解的随机森林优化方法,其特征在于,所述方法包括:
读入训练数据集作为初始训练集;
基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型;
基于所述随机森林训练集中的决策树模型构建张量模型;
利用预设张量分解技术对所述张量模型进行分解;
将分解后的张量进行调整以得到调整后的张量;
在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集;以及
利用测试样本集对所述最优基分类器子集进行测试。
2.如权利要求1所述的基于张量分解的随机森林优化方法,其特征在于,所述预设随机抽样方法包括Bootstrap随机抽样方法,所述预设张量分解技术包括HOSVD高阶张量分解技术。
3.如权利要求1所述的基于张量分解的随机森林优化方法,其特征在于,所述基于所述随机森林训练集中的决策树模型构建张量模型的步骤具体包括:
利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点;
统计各个分裂节点内包含的样本类标;
利用多数投票机制确定本节点中每个样本的投票频数;以及
将投票频数作为构建张量模型的基本元素进行构建张量模型。
4.如权利要求1所述的基于张量分解的随机森林优化方法,其特征在于,所述将分解后的张量进行调整以得到调整后的张量的步骤具体包括:
利用设置截断参数对张量分解得到的奇异值矩阵进行截断调整;以及
将截断后的奇异值矩阵和核心张量重新计算得到调整后的张量。
5.如权利要求1所述的基于张量分解的随机森林优化方法,其特征在于,所述在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集的步骤具体包括:
将调整后的张量做tree-mode展开;
按照每个决策树对应的元素进行统计,删除小于预设阈值的决策树;
将剩余决策树子集通过Pruning样本集进行测试;以及
选取具有整体最优的决策树子集作为最优基分类器子集。
6.一种基于张量分解的随机森林优化系统,其特征在于,所述基于张量分解的随机森林优化系统包括:
读取模块,用于读入训练数据集作为初始训练集;
随机森林训练模块,用于基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型;
张量构建模块,用于基于所述随机森林训练集中的决策树模型构建张量模型;
张量分解模块,用于利用预设张量分解技术对所述张量模型进行分解;
张量调整模块,用于将分解后的张量进行调整以得到调整后的张量;
最优子集选取模块,用于在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集;以及
测试模块,用于利用测试样本集对所述最优基分类器子集进行测试。
7.如权利要求6所述的基于张量分解的随机森林优化系统,其特征在于,所述预设随机抽样方法包括Bootstrap随机抽样方法,所述预设张量分解技术包括HOSVD高阶张量分解技术。
8.如权利要求6所述的基于张量分解的随机森林优化系统,其特征在于,所述张量构建模块具体包括:
节点访问子模块,用于利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点;
类标统计子模块,用于统计各个分裂节点内包含的样本类标;
频数统计子模块,用于利用多数投票机制确定本节点中每个样本的投票频数;以及
构建子模块,用于将投票频数作为构建张量模型的基本元素进行构建张量模型。
9.如权利要求6所述的基于张量分解的随机森林优化系统,其特征在于,所述张量调整模块具体包括:
截断子模块,用于利用设置截断参数对张量分解得到的奇异值矩阵进行截断调整;以及
计算子模块,用于将截断后的奇异值矩阵和核心张量重新计算得到调整后的张量。
10.如权利要求6所述的基于张量分解的随机森林优化系统,其特征在于,所述最优子集选取模块具体包括:
张量展开子模块,用于将调整后的张量做tree-mode展开;
统计删除子模块,用于按照每个决策树对应的元素进行统计,删除小于预设阈值的决策树;
样本测试子模块,用于将剩余决策树子集通过Pruning样本集进行测试;以及
最优选取子模块,用于选取具有整体最优的决策树子集作为最优基分类器子集。
CN201510683060.2A 2015-10-20 2015-10-20 一种基于张量分解的随机森林优化方法及系统 Pending CN105389585A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510683060.2A CN105389585A (zh) 2015-10-20 2015-10-20 一种基于张量分解的随机森林优化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510683060.2A CN105389585A (zh) 2015-10-20 2015-10-20 一种基于张量分解的随机森林优化方法及系统

Publications (1)

Publication Number Publication Date
CN105389585A true CN105389585A (zh) 2016-03-09

Family

ID=55421855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510683060.2A Pending CN105389585A (zh) 2015-10-20 2015-10-20 一种基于张量分解的随机森林优化方法及系统

Country Status (1)

Country Link
CN (1) CN105389585A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106648654A (zh) * 2016-12-20 2017-05-10 深圳先进技术研究院 一种数据感知的Spark配置参数自动优化方法
CN107704952A (zh) * 2017-09-19 2018-02-16 中国电子科技集团公司第二十八研究所 一种基于随机子空间的恐怖袭击预测方法
CN108267311A (zh) * 2018-01-22 2018-07-10 北京建筑大学 一种基于张量分解的机械多维大数据处理方法
CN108647497A (zh) * 2018-04-28 2018-10-12 四川大学 一种基于特征提取的api密钥自动识别系统
CN109255438A (zh) * 2018-09-17 2019-01-22 地平线(上海)人工智能技术有限公司 调整张量数据的方法和装置
CN110110764A (zh) * 2019-04-22 2019-08-09 福建天晴数码有限公司 基于混合式网络的随机森林策略优化方法、存储介质
CN111459898A (zh) * 2019-01-18 2020-07-28 富士通株式会社 机器学习方法、计算机可读记录介质以及机器学习设备
CN113809786A (zh) * 2020-07-23 2021-12-17 广东毓秀科技有限公司 通过大数据对ups整流和逆变模块进行故障预测的方法
CN114996331A (zh) * 2022-06-10 2022-09-02 北京柏睿数据技术股份有限公司 一种数据挖掘控制方法和系统
WO2023105359A1 (en) * 2021-12-06 2023-06-15 International Business Machines Corporation Accelerating decision tree inferences based on complementary tensor operation sets

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106648654A (zh) * 2016-12-20 2017-05-10 深圳先进技术研究院 一种数据感知的Spark配置参数自动优化方法
CN107704952A (zh) * 2017-09-19 2018-02-16 中国电子科技集团公司第二十八研究所 一种基于随机子空间的恐怖袭击预测方法
CN108267311A (zh) * 2018-01-22 2018-07-10 北京建筑大学 一种基于张量分解的机械多维大数据处理方法
CN108647497A (zh) * 2018-04-28 2018-10-12 四川大学 一种基于特征提取的api密钥自动识别系统
CN109255438A (zh) * 2018-09-17 2019-01-22 地平线(上海)人工智能技术有限公司 调整张量数据的方法和装置
CN111459898A (zh) * 2019-01-18 2020-07-28 富士通株式会社 机器学习方法、计算机可读记录介质以及机器学习设备
CN110110764A (zh) * 2019-04-22 2019-08-09 福建天晴数码有限公司 基于混合式网络的随机森林策略优化方法、存储介质
CN110110764B (zh) * 2019-04-22 2021-01-26 福建天晴数码有限公司 基于混合式网络的随机森林策略优化方法、存储介质
CN113809786A (zh) * 2020-07-23 2021-12-17 广东毓秀科技有限公司 通过大数据对ups整流和逆变模块进行故障预测的方法
WO2023105359A1 (en) * 2021-12-06 2023-06-15 International Business Machines Corporation Accelerating decision tree inferences based on complementary tensor operation sets
CN114996331A (zh) * 2022-06-10 2022-09-02 北京柏睿数据技术股份有限公司 一种数据挖掘控制方法和系统

Similar Documents

Publication Publication Date Title
CN105389585A (zh) 一种基于张量分解的随机森林优化方法及系统
Chacón et al. Multivariate kernel smoothing and its applications
Bermejo et al. Fast wrapper feature subset selection in high-dimensional datasets by means of filter re-ranking
Scales et al. Global optimization methods for multimodal inverse problems
CN110910982A (zh) 自编码模型训练方法、装置、设备及存储介质
CN113990401B (zh) 固有无序蛋白的药物分子设计方法和装置
Thilagavathi et al. A survey on efficient hierarchical algorithm used in clustering
Wolters et al. Simulated annealing model search for subset selection in screening experiments
Björklund et al. SLISEMAP: Supervised dimensionality reduction through local explanations
Ekstrøm et al. Sequential rank agreement methods for comparison of ranked lists
Anchang et al. CCAST: a model-based gating strategy to isolate homogeneous subpopulations in a heterogeneous population of single cells
Devlin et al. Disentangled attribution curves for interpreting random forests and boosted trees
Konomi et al. Bayesian Treed Calibration: an application to carbon capture with AX sorbent
CN113743453A (zh) 一种基于随机森林的人口数量预测方法
Smith et al. Phylogenetic sampling affects evolutionary patterns of morphological disparity
Ghorbel et al. Smart adaptive run parameterization (SArP): enhancement of user manual selection of running parameters in fluid dynamic simulations using bio-inspired and machine-learning techniques
US11714833B2 (en) Mediums, methods, and systems for classifying columns of a data store based on character level labeling
Chatterjee et al. Automatic cluster selection using gap statistics for pattern-based multi-point geostatistical simulation
Kim et al. New usage of Sammon’s mapping for genetic visualization
Wålinder Evaluation of logistic regression and random forest classification based on prediction accuracy and metadata analysis
CN112990567A (zh) 建立煤层含气量预测模型的方法、装置、终端与存储介质
Montazeri et al. Memetic feature selection algorithm based on efficient filter local search
Yang et al. Evaluation and assessment of machine learning based user story grouping: A framework and empirical studies
Beavers et al. Data Nuggets: A Method for Reducing Big Data While Preserving Data Structure
Dinakaran et al. Comparative analysis of filter-wrapper approach for random forest performance on multivariate data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160309

RJ01 Rejection of invention patent application after publication