CN104636814A - 一种随机森林模型的优化方法及系统 - Google Patents

一种随机森林模型的优化方法及系统 Download PDF

Info

Publication number
CN104636814A
CN104636814A CN201310567988.5A CN201310567988A CN104636814A CN 104636814 A CN104636814 A CN 104636814A CN 201310567988 A CN201310567988 A CN 201310567988A CN 104636814 A CN104636814 A CN 104636814A
Authority
CN
China
Prior art keywords
decision tree
random forest
forest model
node
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310567988.5A
Other languages
English (en)
Inventor
权奕铭
李俊杰
郭向林
高琴
吴胤旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201310567988.5A priority Critical patent/CN104636814A/zh
Publication of CN104636814A publication Critical patent/CN104636814A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明适用于数据处理技术领域,提供了一种随机森林模型的优化方法及系统,所述方法包括:创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图;根据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图,采用决策树间相同属性节点的比例计算决策树间的相似度;根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除所述随机森林模型中决策树间相似度最高的决策树。通过本发明优化后的随机森林模型具有规模小、预测精度高及预测速度快等特点,有效提高了随机森林模型的预测效率。

Description

一种随机森林模型的优化方法及系统
技术领域
本发明属于数据处理技术领域,尤其涉及一种随机森林模型的优化方法及系统。
背景技术
随机森林是一种有监督的集成学习分类技术,其模型由一组决策树分类器组成,所述模型对数据的分类是通过单个决策树的分类结果进行集体投票来决定最终结果的。通过对训练样本空间和属性空间注入随机性,充分保证了每个决策树之间的独立性和差异性,很好地克服了决策树过拟合问题,同时对噪声和异常值也有较好的鲁棒性。虽然随机森林模型预测效果显著优于单个决策树,但其预测速度明显下降,随着决策树数目的增多,其预测时间也相应增加。
发明内容
本发明实施例在于提供一种随机森林模型的优化方法,以解决现有随机森林模型预测速度下降及预测时间增加的问题。
本发明实施例的第一方面,提供一种随机森林模型的优化方法,所述方法包括:
创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图;
根据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图,采用决策树间相同属性节点的比例计算决策树间的相似度;
根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除所述随机森林模型中决策树间相似度最高的决策树。
本发明实施例的第二方面,提供一种随机森林模型的优化系统,所述系统包括:
直方图创建单元,用于创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图;
相似度计算单元,用于根据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图,采用决策树间相同属性节点的比例计算决策树间的相似度;
优化单元,用于根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除所述随机森林模型中决策树间相似度最高的决策树。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例通过创建随机森林模型的热力分布直方图、创建不同预测精度决策树的分布直方图以及采用决策树间相同属性节点的比例计算决策树间的相似度对所述随机森林模型进行决策树的删减优化,使得优化后的随机森林模型具有规模小、预测精度高及预测速度快等特点,有效提高了随机森林模型的预测效率和准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的随机森林模型优化方法的实现流程图;
图2是本发明第二实施例提供的随机森林模型优化系统的组成结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图1示出了第一实施例提供的随机森林模型优化方法的实现流程,该方法过程详述如下:
在步骤S101中,创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图。
在本实施例中,随机森林模型的热力分布直方图(Heat Map)可表示随机森林模型中决策树的密度分布情况。对随机森林模型进行分区,并构建分布网格,统计落入网格中的决策树数量,根据统计到的决策树数量通过量化得到不同颜色的热力分布直方图,通过所述热力分布直方图能清晰的显示决策树间的相似分布情况,方便实现随机森林模型的优化。
另外,利用随机森林中决策树的分类预测精度,创建所有不同精度决策树的分布直方图。可通过横轴表示决策树的精度分布,以一定的增量递增;纵轴表示某精度区间决策树的统计个数,通过不同预测精度决策树的分布直方图,可为随机森林模型优化提供以决策树预测精度优化的依据。
在步骤S102中,据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图,采用决策树间相同属性节点的比例计算决策树间的相似度。
在本实施例中,随机森林模型中两两决策树之间的相似性度量可构建一个相似性矩阵,根据所述相似性矩阵结合多维标量法获取低维空间随机森林模型中决策树之间的相关性。
本实施例提出一种新的相似度计算方法,即采用决策树间相同属性节点的比例计算决策树间的相似度,可有效提高决策树间相似度计算的准确性,具体如下:
设随机森林模型为{h(X,θk)k=1,2,...,n},并且记{Node(ni,k)i,k=1,2,...,n},则两棵决策树之间的相似度可采用以下公式计算获得:
(Node(ni,k)∩Node(nj,p))/(Node(ni,k)∪Node(nj,p)),i≠j,k≠p;
其中,n为所述随机森林模型中决策树的个数,Node(ni,k)表示第k棵决策树中所含属性节点的个数ni,Node(nj,p)表示第p棵决策树中所含属性节点的个数nj,Node(ni,k)∩Node(nj,p)表示第k棵决策树和第p棵决策树中所含相同属性节点的个数,Node(ni,k)∪Node(nj,p)表示第k棵决策树和第p棵决策树中所含的全部属性节点的个数,i,j,k,p=1,2,...,n。相似度数值越大表示两棵决策树越相似。
在步骤S103中,根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除所述随机森林模型中决策树间相似度最高的决策树。
在本实施例中,删除预测精度最小的决策树具体可以为:
定义{Precision(h(X,θk))k=1,2,...,n},其中n为所述随机森林模型中决策树的个数,h(X,θk)为单棵决策树,Precision(.)为单棵决策树预测精度的函数,通过sortincrease(Precision(.))表示对所有决策树按预测精度大小进行升序或降序排序,根据排序结果,依次删除预测精度最小的决策树。
和/或根据计算获得的决策树间的相似度,删除所述随机森林模型中决策树间相似度最高的决策树,具体可以是删除所述决策树间相似度最高的两颗决策树或者其中一颗决策树。
进一步的是,本实施例所述根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除决策树间相似度最高的决策树具体包括:
判断所述随机森林模型是否符合预设的优化停止条件;
若否,根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除决策树间相似度最高的决策树;否则停止当前优化操作。
优选的是,所述预设的优化停止条件为:
所述随机森林模型整体预测精度(StrengthRF)最大且所述随机森林模型中决策树之间相关度(correlationRF)最小(即Maximum(StrengthRF)∪Minimum(correlationRF));或者所述随机森林模型整体预测精度收敛至预设极值且所述随机森林模型中决策树之间相关度(correlationRF)和所述随机森林模型的泛化误差界(errorBoundRF)最小(即Minimum(correlationRF)∪Minimum(errorBoundRF))。
通过本发明实施例使得优化后的随机森林模型具有规模小、预测精度高及预测速度快的特点,有效提高了随机森林模型的预测效率和准确率。而且本发明实施例实现简单,对硬件要求较低,具有较高的灵活性。
实施例二:
图2示出了本发明第二实施例提供的随机森林模型优化系统的组成结构,为了便于说明,仅示出了与本发明实施例相关的部分。
该随机森林模型优化系统可应用于各种数据处理终端,例如口袋计算机(Pocket Personal Computer,PPC)、掌上电脑、计算机、笔记本电脑、个人数字助理(Personal Digital Assistant,PDA)等,可以是运行于这些终端内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂件集成到这些终端中或者运行于这些终端的应用系统中。
该随机森林模型优化系统包括直方图创建单元21、相似度计算单元22以及优化单元23。其中,各单元具体功能如下:
直方图创建单元21,用于创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图;
相似度计算单元22,用于根据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图,采用决策树间相同属性节点的比例计算决策树间的相似度;
优化单元23,用于根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除所述随机森林模型中决策树间相似度最高的决策树。
进一步的,所述相似度计算单元22采用以下公式计算决策树间的相似度:
(Node(ni,k)∩Node(nj,p))/(Node(ni,k)∪Node(nj,p)),i≠j,k≠p;
其中,n为所述随机森林模型中决策树的个数,Node(ni,k)表示第k棵决策树中所含属性节点的个数ni,Node(nj,p)表示第p棵决策树中所含属性节点的个数nj,Node(ni,k)∩Node(nj,p)表示第k棵决策树和第p棵决策树中所含相同属性节点的个数,Node(ni,k)∪Node(nj,p)表示第k棵决策树和第p棵决策树中所含的全部属性节点的个数,i,j,k,p=1,2,...,n。
进一步的,其特征在于,所述优化单元23包括:
判断模块231,用于判断所述随机森林模型是否符合预设的优化停止条件;
优化模块232,用于在所述判断模块判断结果为否时,根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除决策树间相似度最高的决策树;在所述判断模块判断结果为是时,停止当前优化操作。
进一步的,所述预设的优化停止条件包括:
所述随机森林模型整体预测精度最大且所述随机森林模型中决策树之间相关度最小;或者所述随机森林模型整体预测精度收敛至预设极值且所述随机森林模型中决策树之间相关度和所述随机森林模型的泛化误差界最小。
进一步的,所述优化单元23具体用于:
根据所述随机森林模型中不同预测精度决策树的分布直方图,按各决策树的预测精度大小进行升序或降序排序,根据排序结果,删除预测精度最小的决策树。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即所述系统的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元或模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元或模块既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例的对应过程,在此不再赘述。
综上所述,本发明实施例通过创建随机森林模型的热力分布直方图、创建不同预测精度决策树的分布直方图以及采用决策树间相同属性节点的比例计算决策树间的相似度对所述随机森林模型进行决策树的删减优化,使得优化后的随机森林模型具有规模小、预测精度高及预测速度快的特点,有效提高了随机森林模型的预测效率和准确率。而且本发明实施例实现简单,对硬件要求较低,从而有利于降低产品成本,具有较强的易用性和实用性。
本领域普通技术人员还可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以在存储于一计算机可读取存储介质中,所述的存储介质,包括ROM/RAM、磁盘、光盘等。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明由所提交的权利要求书确定的专利保护范围。

Claims (10)

1.一种随机森林模型的优化方法,其特征在于,所述方法包括:
创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图;
根据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图,采用决策树间相同属性节点的比例计算决策树间的相似度;
根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除所述随机森林模型中决策树间相似度最高的决策树。
2.如权利要求1所述的方法,其特征在于,所述采用决策树间相同属性节点的比例计算决策树间的相似度的公式为:
(Node(ni,k)∩Node(nj,p))/(Node(ni,k)∪Node(nj,p)),i≠j,k≠p;
其中,n为所述随机森林模型中决策树的个数,Node(ni,k)表示第k棵决策树中所含属性节点的个数ni,Node(nj,p)表示第p棵决策树中所含属性节点的个数nj,Node(ni,k)∩Node(nj,p)表示第k棵决策树和第p棵决策树中所含相同属性节点的个数,Node(ni,k)∪Node(nj,p)表示第k棵决策树和第p棵决策树中所含的全部属性节点的个数,i,j,k,p=1,2,...,n。
3.如权利要求1或2所述的方法,其特征在于,所述根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除决策树间相似度最高的决策树包括:
判断所述随机森林模型是否符合预设的优化停止条件;
若否,根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除决策树间相似度最高的决策树;否则停止当前优化操作。
4.如权利要求3所述的方法,其特征在于,所述预设的优化停止条件包括:
所述随机森林模型整体预测精度最大且所述随机森林模型中决策树之间相关度最小;或者所述随机森林模型整体预测精度收敛至预设极值且所述随机森林模型中决策树之间相关度和所述随机森林模型的泛化误差界最小。
5.如权利要求1所述的方法,其特征在于,所述根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树包括:
根据所述随机森林模型中不同预测精度决策树的分布直方图,按各决策树的预测精度大小进行升序或降序排序,根据排序结果,删除预测精度最小的决策树。
6.一种随机森林模型的优化系统,其特征在于,所述系统包括:
直方图创建单元,用于创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图;
相似度计算单元,用于根据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图,采用决策树间相同属性节点的比例计算决策树间的相似度;
优化单元,用于根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除所述随机森林模型中决策树间相似度最高的决策树。
7.如权利要求6所述的系统,其特征在于,所述相似度计算单元采用以下公式计算决策树间的相似度:
(Node(ni,k)∩Node(nj,p))/(Node(ni,k)∪Node(nj,p)),i≠j,k≠p;
其中,n为所述随机森林模型中决策树的个数,Node(ni,k)表示第k棵决策树中所含属性节点的个数ni,Node(nj,p)表示第p棵决策树中所含属性节点的个数nj,Node(ni,k)∩Node(nj,p)表示第k棵决策树和第p棵决策树中所含相同属性节点的个数,Node(ni,k)∪Node(nj,p)表示第k棵决策树和第p棵决策树中所含的全部属性节点的个数,i,j,k,p=1,2,...,n。
8.如权利要求6或7所述的系统,其特征在于,所述优化单元包括:
判断模块,用于判断所述随机森林模型是否符合预设的优化停止条件;
优化模块,用于在所述判断模块判断结果为否时,根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除决策树间相似度最高的决策树;在所述判断模块判断结果为是时,停止当前优化操作。
9.如权利要求8所述的系统,其特征在于,所述预设的优化停止条件包括:
所述随机森林模型整体预测精度最大且所述随机森林模型中决策树之间相关度最小;或者所述随机森林模型整体预测精度收敛至预设极值且所述随机森林模型中决策树之间相关度和所述随机森林模型的泛化误差界最小。
10.如权利要求6所述的系统,其特征在于,所述优化单元具体用于:
根据所述随机森林模型中不同预测精度决策树的分布直方图,按各决策树的预测精度大小进行升序或降序排序,根据排序结果,删除预测精度最小的决策树。
CN201310567988.5A 2013-11-14 2013-11-14 一种随机森林模型的优化方法及系统 Pending CN104636814A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310567988.5A CN104636814A (zh) 2013-11-14 2013-11-14 一种随机森林模型的优化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310567988.5A CN104636814A (zh) 2013-11-14 2013-11-14 一种随机森林模型的优化方法及系统

Publications (1)

Publication Number Publication Date
CN104636814A true CN104636814A (zh) 2015-05-20

Family

ID=53215540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310567988.5A Pending CN104636814A (zh) 2013-11-14 2013-11-14 一种随机森林模型的优化方法及系统

Country Status (1)

Country Link
CN (1) CN104636814A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574544A (zh) * 2015-12-16 2016-05-11 平安科技(深圳)有限公司 一种数据处理方法和装置
CN109283378A (zh) * 2018-08-30 2019-01-29 番禺珠江钢管(珠海)有限公司 一种旋转电弧焊缝成形参数检测方法、系统、装置和介质
CN109594967A (zh) * 2018-11-27 2019-04-09 南通世盾信息技术有限公司 一种基于录井大数据的卡钻事故检测预警方法
CN110110764A (zh) * 2019-04-22 2019-08-09 福建天晴数码有限公司 基于混合式网络的随机森林策略优化方法、存储介质
TWI697792B (zh) * 2018-06-22 2020-07-01 中華電信股份有限公司 找出相似資料節點之系統及方法
CN116720145A (zh) * 2023-08-08 2023-09-08 山东神舟制冷设备有限公司 基于数据处理的无线充电剩余时间预测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574544A (zh) * 2015-12-16 2016-05-11 平安科技(深圳)有限公司 一种数据处理方法和装置
TWI697792B (zh) * 2018-06-22 2020-07-01 中華電信股份有限公司 找出相似資料節點之系統及方法
CN109283378A (zh) * 2018-08-30 2019-01-29 番禺珠江钢管(珠海)有限公司 一种旋转电弧焊缝成形参数检测方法、系统、装置和介质
CN109594967A (zh) * 2018-11-27 2019-04-09 南通世盾信息技术有限公司 一种基于录井大数据的卡钻事故检测预警方法
CN110110764A (zh) * 2019-04-22 2019-08-09 福建天晴数码有限公司 基于混合式网络的随机森林策略优化方法、存储介质
CN110110764B (zh) * 2019-04-22 2021-01-26 福建天晴数码有限公司 基于混合式网络的随机森林策略优化方法、存储介质
CN116720145A (zh) * 2023-08-08 2023-09-08 山东神舟制冷设备有限公司 基于数据处理的无线充电剩余时间预测方法
CN116720145B (zh) * 2023-08-08 2023-10-27 山东神舟制冷设备有限公司 基于数据处理的无线充电剩余时间预测方法

Similar Documents

Publication Publication Date Title
CN104636814A (zh) 一种随机森林模型的优化方法及系统
CN102737126B (zh) 云计算环境下的分类规则挖掘方法
Du et al. Parallel processing of improved KNN text classification algorithm based on Hadoop
Luo et al. A parallel dbscan algorithm based on spark
CN106055277A (zh) 一种去中心化的分布式异构存储系统数据分布方法
Liao et al. An improved parallel K-means clustering algorithm with MapReduce
CN101308496A (zh) 大规模文本数据的外部聚类方法及系统
CN104050242A (zh) 基于最大信息系数的特征选择、分类方法及其装置
Lin et al. A K-means clustering with optimized initial center based on Hadoop platform
CN105183792A (zh) 一种基于局部敏感哈希的分布式快速文本分类方法
CN102169491A (zh) 一种多数据集中重复记录动态检测方法
CN109376790A (zh) 一种基于渗流分析的二元分类方法
CN106843803B (zh) 一种基于归并树的全排序加速器及应用
CN102147813A (zh) 一种电力云环境下基于k最近邻算法的文档自动分类方法
CN110968564A (zh) 一种数据处理方法及数据状态预测模型的训练方法
Xiao A clustering algorithm based on artificial fish school
CN106780747B (zh) 一种快速分割cfd计算网格的方法
CN105760478A (zh) 一种基于机器学习的大规模分布式的数据聚类方法
CN102426598A (zh) 一种用于网络内容安全管理的中文文本聚类的方法
CN105373583A (zh) 基于数据压缩的支撑向量机建模方法
CN105354243B (zh) 基于归并聚类的并行化频繁概率子图搜索方法
Cai et al. Big data mining analysis method based on cloud computing
CN103678695A (zh) 一种并行处理方法及装置
Cao [Retracted] Dynamic Allocation Method of Economic Information Integrated Data Based on Deep Learning Algorithm
Liu et al. Research on an anti-crawling mechanism and key algorithm based on sliding time window

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150520

RJ01 Rejection of invention patent application after publication