CN111291896A - 交互式随机森林子树筛选方法、装置、设备及可读介质 - Google Patents

交互式随机森林子树筛选方法、装置、设备及可读介质 Download PDF

Info

Publication number
CN111291896A
CN111291896A CN202010079137.6A CN202010079137A CN111291896A CN 111291896 A CN111291896 A CN 111291896A CN 202010079137 A CN202010079137 A CN 202010079137A CN 111291896 A CN111291896 A CN 111291896A
Authority
CN
China
Prior art keywords
random forest
subtree
subtrees
screening
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010079137.6A
Other languages
English (en)
Other versions
CN111291896B (zh
Inventor
卓本刚
黄启军
李诗琦
唐兴兴
林冰垠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010079137.6A priority Critical patent/CN111291896B/zh
Publication of CN111291896A publication Critical patent/CN111291896A/zh
Application granted granted Critical
Publication of CN111291896B publication Critical patent/CN111291896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种交互式随机森林子树筛选方法、装置、设备和可读存储介质,该交互式随机森林子树筛选方法包括对于获取的数据按照预设超参数进行训练,得到随机森林和所述随机森林中的子树;对所述随机森林和所述子树进行评估,获取所述随机森林的整体指标和所述子树的性能指标;根据所述整体指标、所述性能指标和/或用户指令,交互式筛选子树。在随机森林的训练完成后除了评估随机森林整体指标,还会评估随机森林中每个子树的性能指标,同时根据随机森林的整体指标、子树的性能指标和/或用户的指令筛选子树,提高随机森林模型筛选过程的筛选效率。

Description

交互式随机森林子树筛选方法、装置、设备及可读介质
技术领域
本发明涉及金融科技技术领域,尤其涉及一种交互式随机森林子树筛选方法、装置、设备及可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
随机森林算法是机器学习技术中非常重要的一种集成学习算法。输入数据,通过算法学习,得到可以用于预测的随机森林模型。通过软件设计能实现随机森林训练过程。现有随机森林训练框架通过评估随机森林的整体性能,通过整体性能对于随机森林模型进行筛选,如果随机森林模型的整体性能不满足要求,则需要重新设置超参数重新训练得到新的随机森林模型,这样重复训练得到最终的随机森林模型需要耗费大量时间,导致随机森林模型的筛选效率较低。
发明内容
本申请的主要目的在于提供一种交互式随机森林子树筛选方法、装置、设备及可读介质,旨在解决通过整体性能筛选随机森林模型的效率较低的技术问题。
为实现上述目的,本申请提供的一种交互式随机森林子树筛选方法,所述交互式随机森林子树筛选方法包括以下步骤:
对于获取的数据按照预设超参数进行训练,得到随机森林和所述随机森林中的子树;
对所述随机森林和所述子树进行评估,获取所述随机森林的整体指标和所述子树的性能指标;
根据所述整体指标、所述性能指标和/或用户指令,交互式筛选子树。
可选地,所述获取所述随机森林的整体指标和所述子树的性能指标的步骤之后包括:
将所述随机森林的整体指标展示在预置界面的第一区域中;
将所述子树的性能指标以柱形图的形式展示在预置界面的第二区域中。
可选地,所述述将所述子树的性能指标以柱形图的形式展示在界面的第二区域中的步骤之后包括:
检测到触发所述柱形图的操作后,显示所述柱形图对应子树的展示区;
在所述展示区显示所述子树的决策结构图和性能指标。
可选地,根据用户指令,交互式筛选子树的步骤包括:
若接收到所述用户指令中对所述展示区中的复选框状态的操作,将所述复选框状态发生改变的所述展示区作为目标展示区;
改变所述目标展示区对应的子树在随机森林中的包含状态,以对所述子树进行筛选;
更新所述子树包含状态改变后随机森林的整体指标;
若所述整体指标满足第一预设条件,则结束子树的筛选过程。
可选地,所述交互式筛选子树的步骤包括:
设置所述性能指标的组合;
若随机森林中子树不满足所述性能指标的组合,则将所述子树从随机森林中剔除;
将所述子树的复选框状态变为未选中状态;
更新所述复选框状态改变后随机森林的整体指标;
若所述整体指标满足第二预设条件,则结束子树的筛选过程。
可选地,所述交互式筛选子树的步骤之后包括:
判断所述子树的复选框对应的状态是否为选中状态;
若为选中状态,则设置所述子树对应的柱形图的颜色为第一颜色;
若为未选中状态,则设置所述子树对应的柱形图的颜色为第二颜色。
可选地,所述交互式筛选子树的步骤之后包括:
若所述随机森林的整体指标和所述子树的性能指标均满足第三预设条件,则所述随机森林为最终的随机森林;
记录所述随机森林中每个子树的决策树结构和复选框状态;
输出所述随机森林。
本申请还提供一种交互式随机森林子树筛选装置,所述交互式随机森林子树筛选装置包括:
训练模块,用于对于获取的数据按照预设超参数进行训练,得到随机森林和所述随机森林中的子树;
获取模块,用于对所述随机森林和随机森林中的所述子树进行评估,获取所述随机森林的整体指标和所述子树的性能指标;
筛选模块,用于根据所述整体指标、所述性能指标和/或用户指令,交互式筛选子树。
本申请还提供一种交互式随机森林子树筛选设备,所述交互式随机森林子树筛选设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的交互式随机森林子树筛选程序,所述交互式随机森林子树筛选程序被所述处理器执行时实现如上述的交互式随机森林子树筛选方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的交互式随机森林子树筛选方法的步骤。
本申请通过对于获取的数据按照预置超参数进行训练,得到随机森林和所述随机森林中的子树;对所述随机森林和所述子树进行评估,获取所述随机森林的整体指标和所述子树的性能指标;根据所述整体指标、所述性能指标和/或用户指令,交互式筛选子树。在随机森林的训练完成后除了评估随机森林整体指标,还会评估随机森林中每个子树的性能指标,同时根据随机森林的整体指标、子树的性能指标和/或用户的指令筛选子树,根据子树的性能指标筛选不符合要求的子树,不需要重复根据超参数训练得到随机森林模型,能够节省随机森林模型的筛选时间,提高筛选效率。同时,能够提升随机森林模型筛选结果的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例方案涉及的硬件运行环境的装置结构示意图;
图2为本申请交互式随机森林子树筛选方法第一实施例的流程示意图;
图3为本申请交互式随机森林子树筛选方法第二实施例中对图2中S20之后步骤的流程示意图;
图4为本申请交互式随机森林子树筛选方法第二实施例中指标展示界面示意图;
图5为本申请交互式随机森林子树筛选方法第二实施例中子树展示区的界面示意图;
图6为本申请交互式随机森林子树筛选方法第三实施例中对图2中步骤S30的细化流程图;
图7为本申请交互式随机森林子树筛选方法第四实施例中对图2中步骤S30的细化流程图;
图8为本申请交互式随机森林子树筛选方法第五实施例中对图2中步骤S30之后步骤的流程示意图;
图9为本申请交互式随机森林子树筛选方法第六实施例中对图2中步骤S30之后步骤的流程示意图;
图10为本申请交互式随机森林子树筛选方法一较优实施例的流程示意图;
图11为本申请交互式随机森林子树筛选设备一实施例的系统结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
如图1所示,图1是本申请实施例方案涉及的硬件运行环境的终端结构示意图。
本申请实施例终端为交互式随机森林子树筛选设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在终端设备移动到耳边时,关闭显示屏和/或背光。当然,终端设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及测试用例优化程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的交互式随机森林子树筛选程序,并执行以下操作:
按照预置超参数进行训练,得到随机森林和所述随机森林中的子树;
对所述随机森林和所述子树进行评估,获取所述随机森林的整体指标和所述子树的性能指标;
根据所述整体指标、所述性能指标和/或用户指令,交互式筛选子树。
基于上述终端硬件结构,提出本申请各个实施例。
本申请提供一种交互式随机森林子树筛选方法。
参照图2,在交互式随机森林子树筛选方法第一实施例中,该方法包括:
步骤S10,对于获取的数据按照预设超参数进行训练,得到随机森林和所述随机森林中的子树;
随机森林算法是集成学习方法的一种扩展变体,以决策树作为bagging基学习器,每个基学习器是一棵决策树。集成学习的理念可以理解为“三个臭皮匠,抵一个诸葛亮”,虽然单个模型(称之为基学习器)的泛化能力不够好,但是多个模型组合起来,往往能达到更好的预测效果。集成学习可分为bagging和boosting两类。而随机森林属于其中的bagging类。对于随机森林,超参数一般包括随机森林中子树的个数、数据抽样规则如有放回抽样和无放回抽样、特征抽样规则、每个子树的相关的参数。
在本申请中,随机森林中的每一个子树都是一个决策树。决策树是一种常见的机器学习方法。决策树的设计思想和人类根据特定条件做决策类似,整体来看其结构为树形结构。决策树的每个分支点称为节点,在节点处根据输入数据的特征分布规律,选取一个最优的特征及特征阈值将输入数据划分到不同分支。节点的分割特征和阈值选定后,根据分割规则将输入数据集划分到不同分支,然后在新的分支生成新的节点,直到某个分支不能再生成新的节点。Bagging类的集成学习把多个基学习器打包组合在一起。同时训练时每个基学习器的训练样本都是从总样本中有放回抽样得到的,每个基学习器的训练样本相互独立。具体地,在随机森林训练过程中,需要为每颗树抽取训练数据,每棵树的训练数据集采用有放回的抽样得到,然后根据的数据集分别训练随机森林中的决策树;生成节点时,先从所有特征中随机抽取一部分特征,再从选取的特征中找出最佳切分点。按照这种方法可以得到随机森林中的每棵子树,同时最后所有训练得到的随机森林子树可以得到最终的随机森林模型。随机森林训练时加入的随机性,增加了基学习器之间的多样性,比普通的bagging模型有更好的组合泛化性能。训练过程完成后,可以得到一个初步的随机森林模型,该随机森林模型包括指定数目的子树,同时每个子树也是按照预设的规则生成的。
步骤S20,对所述随机森林和所述子树进行评估,获取所述随机森林的整体指标和所述子树的性能指标;
与现有的随机森林模型建模过程一样,在本申请中会计算出随机森林在评估数据集上的整体性能指标,但额外地,在本申请中还会计算每棵子树在评估数据集上的性能指标,作为后续筛选的参考依据。对于不同的随机森林模型,对于子树筛选有效的性能指标可能不同,对于不同的随机森林模型,采用的性能指标举例如下:对于二分类模型包括但不限于决策树在评估数据集上的loss(损失函数),KS值,AUC值等指标,对于多分类模型包括但不限于决策树在评估数据集上的损失函数,kappa系数等,对于回归模型指标包括但不不限于在评估数据集上的损失函数等。同时,随机森林中每一棵子树的结构也可以展示给用户。损失函数的值可以由随机森林模型预测的值与真实值来获得。KS曲线是正样本洛伦兹曲线和负样本洛伦兹曲线的差值曲线,KS曲线的最高点定义为KS值。AUC值ROC曲线下的面积,ROC曲线的横坐标为真阳性率,纵坐标为伪阳性率。通过把所有地表真实分类中的像元总数乘以混淆矩阵对角线的和,再减去某一类地表真实像元总数与该类中被分类像元总数之积对所有类别求和的结果,再除以总像元数的平方减去某一类地表真实像元总数与该类中被分类像元总数之积对所有类别求和的结果可以得到kappa系数。
步骤S30,根据所述整体指标、所述性能指标和/或用户指令,交互式筛选子树;
在交互界面中展示随机森林的整体指标以及子树的性能指标,界面中展示的指标包括但不限于KS值、AUC值、损失函数、混淆矩阵等。子树的性能指标以柱形图的形式呈现,点击柱形图可以展开对应的子树的展示区。在子树的展示区包括子树的性能指标和子树的树结构,用户可以根据性能指标和树结构,判断是否将子树保留在随机森林中。例如,如果随机森林中的一个子树的性能指标较差,可以选择查看子树的决策树结构,如果子树的决策树结构中节点对应的分类标准也不符合用户的经验判断,则可以将该子树从随机森林中移除,同时观察子树状态变化后随机森林的整体指标的变化,若随机森林的整体指标显示的整体泛化性能有提升,则说明筛选子树获得了预期效果。同时可以根据性能指标的组合进行多个子树的筛选,当子树不满足筛选条件时,将子树从随机森林中剔除。子树的展示区中的复选框设置子树在随机森林中的状态,同时根据复选框的状态设置子树的性能指标柱形图的填充颜色。用户可以根据观察到的整体指标和/或性能指标产生相应的用户指令,用户还可能根据用户的个人经验来产生相应的用户指令。
在本实施例中,通过对于获取的数据按照预设超参数进行训练,得到随机森林和所述随机森林中的子树;对所述随机森林和所述子树进行评估,获取所述随机森林的整体指标和所述子树的性能指标;根据所述整体指标、所述性能指标和/或用户指令,交互式筛选子树。在随机森林的训练完成后除了评估随机森林整体指标,还会评估随机森林中每个子树的性能指标,同时根据随机森林的整体指标、子树的性能指标和/或用户的指令筛选子树,提高随机森林模型筛选过程的准确性。
进一步地,参照图2和图3,在本申请交互式随机森林子树筛选方法第一实施例的基础上,提供交互式随机森林子树筛选方法第二实施例,在第二实施例中,
步骤S20之后包括:
步骤S21,将所述随机森林的整体指标展示在预置界面的第一区域中;
随机森林的整体指标包括但不限于KS值、AUC值、损失函数和混淆矩阵等,通过随机森林的整体指标可以判断当前随机森林模型的泛化性能。将整体指标展示在预置界面的第一区域中也便于用户直观的了解随机森林的泛化能力。
步骤S22,将所述子树的性能指标以柱形图的形式展示在预置界面的第二区域中;
子树的性能指标包括但不限于损失函数、KS值和AUC值等,子树的性能指标可以表示单个子树的性能好坏。同时柱形图可以按照子树的性能指标进行排序,便于用户快速定位到性能指标较差的子树。参照图4,可以看到预置的交互界面中展示随机森林整体指标和子树性能指标的区域示意图。
步骤S23,检测到触发所述柱形图的操作后,显示所述柱形图对应子树的展示区;
用户在对于子树的性能指标存在疑问时,检测到用户选择其中某个柱形图的操作后,根据用户选择的柱形图,将显示柱形图对应的子树的展示区,展示区可以更加清晰完整地显示子树的相关信息。
步骤S24,在所述展示区显示所述子树的决策结构图和性能指标;
参照图5,可以看出子树展示区包含的界面内容。子树的决策结构图中包含每个节点处选用的特征以及如何用该特征分割样本,包含经过该节点的样本的数量、分布统计等,包含该节点的预测值等。例如对于二分类的决策树模型,决策树在预测时,会得到一个类别预测概率,如类1的预测概率为0.4,类2的预测概率为0.6,如果取最后的预测判决阈值为0.5,那么这里预测的类别会是类2。用户可以通过决策树结构图可以看到决策树的决策逻辑是否符合模型应用领域的行业经验或者专业知识。以此来剔除一部分不符合要求的决策树,将专业人士的经验融入到最终的随机森林模型中。同时性能指标也是决定子树去留的重要参考,如果子树的性能指标无法满足要求,也会被从随机森林中删除。
在本实施例中,将随机森林的整体指标和子树的性能指标展示在界面中,便于用户了解随机森林和其中子树的性能,尤其对于随机森林中的子树,通过子树的展示区展示子树的决策结构图和性能指标,便于用户直观全面地了解随机森林中的子树。
进一步地,参照图2和图6,在本申请交互式随机森林子树筛选方法第二实施例的基础上,提供交互式随机森林子树筛选方法第三实施例,在第三实施例中,
步骤S30包括:
步骤S31,若接收到所述用户指令中对所述展示区中的复选框状态的操作,则将所述复选框状态发生改变的所述展示区作为目标展示区;
每个子树的展示区中都提供一个对应的“删除/保留”复选框,该复选框用于设置该树是否被包含在最终的随机森林中,也是该树是否被包含到最终森林中的状态指示控件。初始状态时,随机森林中所有子树的复选框都是选中状态,即训练后得到的所有子树都包含在随机森林中。当用户点击复选框后,则复选框的状态会发生变化,相应地,该复选框对应的子树在随机森林中的状态也会发生改变,如若当前复选框状态为选中,则点击复选框后,复选框的状态变为未选中,从而将对应的子树从随机森林中删除;若当前复选框状态为未选中,则点击复选框后,复选框的状态变为选中,相应地,将对应的子树添加到随机森林中。通过复选框对于子树在随机森林中的状态进行设置。在筛选过程中,有的子树复选框可能会发生改变,复选框状态发生改变的展示区为目标展示区,目标展示区对应的子树在随机森林中的包含状态会发生改变。用户通过观察随机森林模型中的子树的性能指标,或者通过观察随机森林模型中子树的决策逻辑是否符合行业经验和专业知识,从而对于展示区中的复选框状态进行改变操作,如从选择状态变为未选择状态,或者从未选择状态变为选择状态,复选框状态发送改变的展示区就是目标展示区。
步骤S32,改变所述目标展示区对应的子树在随机森林中的包含状态,以对所述子树进行筛选;
目标展示区为子树对应的复选框状态发生了改变的展示区,所以需要相应改变子树的包含状态,如原来包含在随机森林模型中的子树变为不包含在随机森林模型中,原本不包含在随机森林模型中的子树变为包含在随机森林模型中。从而对于随机森林模型中相应的子树进行筛选。
可选地,步骤S32之后包括:
步骤S33,更新所述子树包含状态改变后随机森林的整体指标;
当随机森林中存在子树状态的改变后,不论是将子树从随机森林中删除还是将子树添加到随机森林中,都根据现在在随机森林中的子树重新计算随机森林的整体指标并将得到的新的状态指标更新到界面的对应区域中。
步骤S34,若所述整体指标满足第一预设条件,则结束子树的筛选过程;
第一预设条件可以是用户提前输入的整体指标需要满足的各指标的范围,如AUC值的范围、损失函数值的大小等,当随机森林的整体指标满足条件时,结束子树的筛选过程;也可以由用户通过用户指令自主选择结束子树的筛选过程。
在本实施例中,通过子树展示区的复选框快速对于单个子树的状态进行选择操作,并且实时更新子树状态改变后随机森林的整体指标。在筛选的过程中,用户可以通过判断子树的决策树结构是否符合行业知识和专用知识而决定子树的去留。本实施例是通过交互操作改变单个子树在随机森林中状态的方法。
进一步地,参照图2和图7,在本申请交互式随机森林子树筛选方法第二实施例的基础上,提供交互式随机森林子树筛选方法第四实施例,在第四实施例中,
步骤S30包括:
步骤S35,设置所述性能指标的组合;
子树的性能指标一般包括KS值、AUC值和损失函数(loss)等。可以将多种性能指标组合起来作为子树的筛选条件。如对于某二分类模型可以设置的组合筛选规则为:KS>0.5&&AUC<0.8&&loss<0.4,如生成的随机森林模型中一个子树的性能指标分别为:KS=0.6,AUC=0.65,loss=0.3,而另一个子树的性能指标分别为:KS=0.4,AUC=0.7,loss=0.35,则前一个子树满足筛选规则而后一个子树不满足筛选规则。对于不同的随机森林模型,设置的性能指标组合是多种多样的,只要是用户认为合理的性能指标的组合,都可以作为随机森林中子树的筛选条件。
步骤S36,若随机森林中子树不满足所述性能指标的组合,则将所述子树从随机森林中剔除;
对于不满足性能指标的组合即筛选条件的子树,则会从随机森林中剔除,即不再包含在随机森林中。
步骤S37,将所述子树的复选框状态变为未选中状态;
子树展示区中的复选框可以设置子树是否包含在随机森林中,同时也用于指示子树是否包含在随机森林中,因此当子树在随机森林中的状态改变时,对应的要改变子树对应的复选框的状态,因此,当不满足性能指标组合的子树从随机森林中剔除时,相应地,将子树对应的复选框的状态变为未选中,即表示该子树不包含在随机森林中。
步骤S38,更新所述复选框状态改变后随机森林的整体指标;
在不满足性能指标组合的子树从随机森林中剔除后,更新随机森林的整体指标并将更新后的整体指标显示在界面对应的区域,在交互操作完成后实时更新随机森林的状态指标有助于用户了解操作后随机森林泛化性能的变化,判断此次操作的效果,如果操作完成后得到的结果不满意,可以及时恢复到操作前的状态。
步骤S39,若所述整体指标满足第二预设条件,则结束子树的筛选过程;
第二预设条件也可以为用户提前设定的整体指标应该满足的条件,如KS值的大小、混淆矩阵的限制条件等,当整体指标满足第二预设条件时,结束子树的筛选过程。同时第一预设条件和第二预设条件中对于整体指标的设置要求可以相同,也可以不同。此外,用户也可以自主选择来结束子树的筛选过程。
在本实施例中,通过设置性能指标的组合来筛选随机森林中的子树,可以批量的删除不满足性能指标要求的子树。
第三实施例与第四实施例分别是本申请交互式随机森林子树筛选方法中筛选单个子树和利用性能指标组合批量筛选子树的方法步骤。可以根据用户的选择采用单个子树的筛选方法还是批量筛选随机森林中的子树。两个实施例中的方法都是为了交互式筛选随机森林中的子树,同时不论是在第三实施例还是第四实施例中,在每一步对于子树的交互操作完成后,都会更新随机森林的整体指标并显示在界面的相应区域。
进一步地,参照图2和图8,在本申请交互式随机森林子树筛选方法第四实施例的基础上,提供交互式随机森林子树筛选方法第五实施例,在第五实施例中,
步骤S30之后包括:
步骤S41,判断所述子树的复选框状态是否为选中状态;
子树展示区中复选框对应的状态有两种,选中状态和未选中状态,在不同复选框状态下,子树对应的柱形图的颜色也会进行调整。
步骤S42,若为选中状态,则设置所述子树对应的柱形图的颜色为第一颜色;
当复选框的状态为选中状态时,则表示子树包含在随机森林中,此时子树对应的柱形图为第一颜色,第一颜色应该为比较明亮的颜色,以此提醒用户这棵子树依然保留在随机森林中。
步骤S43,若为未选中状态,则设置所述子树对应的柱形图的颜色为第二颜色;
当子树对应的复选框为未选中状态,则表示子树不包含在随机森林中,此时子树对应的柱形图为第二颜色,第二颜色应该为比较深沉暗淡的颜色,如浅灰色,以此更加直观地告诉用户此子树不包含在随机森林中。
在本实施例中,根据子树对应的复选框状态,也即子树在随机森林中的包含与否状态,相应地调整子树对应的柱形图的颜色,通过颜色的改变更加直观的告诉用户子树在随机森林中的包含状态。
进一步地,参照图2和图9,在本申请交互式随机森林子树筛选方法第五实施例的基础上,提供交互式随机森林子树筛选方法第六实施例,在第六实施例中,
步骤S30之后包括:
步骤S51,若所述随机森林的整体指标和所述子树的性能指标均满足第三预设条件,则所述随机森林为最终的随机森林模型;
最终的数据森林模型应该是整体指标和其中每个子树的性能指标,甚至子树的决策树结构都是达到一定条件要求的,即满足第三预设条件的随机森林模型才可能作为最终的随机森林模型。
步骤S52,记录所述随机森林模型中每个子树的决策树结构和复选框状态;
在本申请中,对于子树的筛选过程并不会删除随机森林中子树的数据,而是改变子树对应的复选框状态从而改变子树在随机森林中的包含与否关系,因此不管最终的随机森林模型中包含哪些子树,都应该保存所有子树的决策树结构和数据,同时记录复选框的状态以判断子树是否包含在最终的随机森林模型中。
步骤S53,输出所述随机森林模型;
输出最终的随机森林模型可以是保存在存储器中以便之后需要时使用,也可以直接输出使用。
本实施例中将整体指标和子树的性能指标都满足条件的随机森林作为最终的随机森林模型,同时需要记录每个子树的决策树结构和复选框状态,并输出最终的随机森林模型。
此外,参照图10,本申请交互式随机森林子树筛选方法提供一个较优的实施例,在该实施例中,
设置随机森林的超参数后,训练随机森林中的决策树即子树,同时对于随机森林进行整体评估和子树评估,根据评估的结果筛选子树,在筛选子树后重新进行随机森林的模型评估,重复进行子树的筛选和随机森林模型评估,直至获得满意的随机森林模型,并将该随机森林模型作为最终的随机森林模型。
此外,参照图11,本申请实施例还提出一种交互式随机森林子树筛选装置,所述交互式随机森林子树筛选装置包括:
训练模块,用于对于获取的数据按照预设超参数进行训练,得到随机森林和所述随机森林中的子树;
获取模块,用于对所述随机森林和所述子树进行评估,获取所述随机森林的整体指标和所述子树的性能指标;
筛选模块,用于根据所述整体指标、所述性能指标和/或用户指令,交互式筛选子树。
可选地,所述交互式随机森林子树筛选装置还包括:
展示模块,用于将所述随机森林的整体指标展示在预置界面的第一区域中;
展示模块还用于将所述子树的性能指标以柱形图的形式展示在预置界面的第二区域中。
可选地,展示模块还用于:
检测到触发所述柱形图的操作后,显示所述柱形图对应子树的展示区;
在所述展示区显示所述子树的决策结构图和性能指标。
可选地,筛选模块还用于:
若接收到所述用户指令中对所述展示区中的复选框状态的操作,则将所述复选框状态发生改变的所述展示区作为目标展示区;
改变所述目标展示区对应的子树在随机森林中的包含状态,以对所述子树进行筛选;
更新所述子树包含状态改变后随机森林的整体指标;
若所述整体指标满足第一预设条件,则结束子树的筛选过程。
可选地,筛选模块还用于:
设置所述性能指标的组合;
若随机森林中子树不满足所述性能指标的组合,则将所述子树从随机森林中剔除;
将所述子树的复选框状态变为未选中状态;
更新所述复选框状态改变后随机森林的整体指标;
若所述整体指标满足第二预设条件,则结束子树的筛选过程。
可选地,交互式随机森林子树筛选装置还包括:
判断模块,用于判断所述子树的复选框状态是否为选中状态;
设置模块,用于若为选中状态,则设置所述子树对应的柱形图的颜色为第一颜色;
设置模块还用于若为未选中状态,则设置所述子树对应的柱形图的颜色为第二颜色。
可选地,交互式随机森林子树筛选装置还包括:
输出模块,输出模块用于:
若所述随机森林的整体指标和所述子树的性能指标均满足第三预设条件,则所述随机森林为最终的随机森林;
记录所述随机森林中各个子树的决策树结构和复选框状态;
输出所述随机森林。
本申请设备和可读存储介质(即计算机可读存储介质)的具体实施方式的拓展内容与上述交互式随机森林子树筛选方法各实施例基本相同,在此不做赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种交互式随机森林子树筛选方法,其特征在于,所述交互式随机森林子树筛选方法包括以下步骤:
对于获取的数据按照预设超参数进行训练,得到随机森林和所述随机森林中的子树;
对所述随机森林和所述子树进行评估,获取所述随机森林的整体指标和所述子树的性能指标;
根据所述整体指标、所述性能指标和/或用户指令,交互式筛选子树。
2.如权利要求1所述的交互式随机森林子树筛选方法,其特征在于,所述获取所述随机森林的整体指标和所述子树的性能指标的步骤之后,还包括:
将所述随机森林的整体指标展示在预置界面的第一区域中;
将所述子树的性能指标以柱形图的形式展示在预置界面的第二区域中。
3.如权利要求2所述的交互式随机森林子树筛选方法,其特征在于,所述将所述子树的性能指标以柱形图的形式展示在界面的第二区域中的步骤之后,还包括:
检测到触发所述柱形图的操作后,显示所述柱形图对应子树的展示区;
在所述展示区显示所述子树的决策结构图和性能指标。
4.如权利要求3所述的交互式随机森林子树筛选方法,其特征在于,根据用户指令,交互式筛选子树的步骤包括:
若接收到所述用户指令中对所述展示区中的复选框状态的操作,则将所述复选框状态发生改变的所述展示区作为目标展示区;
改变所述目标展示区对应的子树在随机森林中的包含状态,以对所述子树进行筛选;
更新所述子树包含状态改变后随机森林的整体指标;
若所述整体指标满足第一预设条件,则结束子树的筛选过程。
5.如权利要求2所述的交互式随机森林子树筛选方法,其特征在于,所述交互式筛选子树的步骤包括:
设置所述性能指标的组合;
若随机森林中子树不满足所述性能指标的组合,则将所述子树从随机森林中剔除;
将所述子树的复选框状态变为未选中状态;
更新所述复选框状态改变后随机森林的整体指标;
若所述整体指标满足第二预设条件,则结束子树的筛选过程。
6.如权利要求4或5任一项所述的交互式随机森林子树筛选方法,其特征在于,所述交互式筛选子树的步骤之后,还包括:
判断所述子树的复选框状态是否为选中状态;
若为选中状态,则设置所述子树对应的柱形图的颜色为第一颜色;
若为未选中状态,则设置所述子树对应的柱形图的颜色为第二颜色。
7.如权利要求1所述的交互式随机森林子树筛选方法,其特征在于,所述交互式筛选子树的步骤之后,还包括:
若所述随机森林的整体指标和所述子树的性能指标均满足第三预设条件,则所述随机森林为最终的随机森林;
记录所述随机森林中各个子树的决策树结构和复选框状态;
输出所述随机森林。
8.一种交互式随机森林子树筛选装置,其特征在于,所述交互式随机森林子树筛选装置包括:
训练模块,用于对于获取的数据按照预设超参数进行训练,得到随机森林和所述随机森林中的子树;
获取模块,用于对所述随机森林和所述子树进行评估,获取所述随机森林的整体指标和所述子树的性能指标;
筛选模块,用于根据所述整体指标、所述性能指标和/或用户指令,交互式筛选子树。
9.一种交互式随机森林子树筛选设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的交互式随机森林子树筛选程序,所述交互式随机森林子树筛选程序被所述处理器执行时实现如权利要求1至7中任一项所述的交互式随机森林子树筛选方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的交互式随机森林子树筛选方法的步骤。
CN202010079137.6A 2020-02-03 2020-02-03 交互式随机森林子树筛选方法、装置、设备及可读介质 Active CN111291896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010079137.6A CN111291896B (zh) 2020-02-03 2020-02-03 交互式随机森林子树筛选方法、装置、设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010079137.6A CN111291896B (zh) 2020-02-03 2020-02-03 交互式随机森林子树筛选方法、装置、设备及可读介质

Publications (2)

Publication Number Publication Date
CN111291896A true CN111291896A (zh) 2020-06-16
CN111291896B CN111291896B (zh) 2022-02-01

Family

ID=71023438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010079137.6A Active CN111291896B (zh) 2020-02-03 2020-02-03 交互式随机森林子树筛选方法、装置、设备及可读介质

Country Status (1)

Country Link
CN (1) CN111291896B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989603A (zh) * 2021-03-12 2021-06-18 北京金山云网络技术有限公司 一种工作流的调整方法和装置
TWI837899B (zh) * 2022-10-25 2024-04-01 財團法人工業技術研究院 基於樹的機器學習模型的縮減方法與使用該方法的電子裝置

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462868A (zh) * 2014-12-11 2015-03-25 西安电子科技大学 一种结合随机森林和Relief-F的全基因组SNP位点分析方法
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
CN105574544A (zh) * 2015-12-16 2016-05-11 平安科技(深圳)有限公司 一种数据处理方法和装置
CN105894193A (zh) * 2016-03-31 2016-08-24 中国银行股份有限公司 一种指标配置方法和装置
CN105931224A (zh) * 2016-04-14 2016-09-07 浙江大学 基于随机森林算法的肝脏平扫ct图像病变识别方法
CN106503156A (zh) * 2016-10-24 2017-03-15 北京百度网讯科技有限公司 基于人工智能的人机交互方法及装置
CN106605261A (zh) * 2014-08-27 2017-04-26 蓬塞有限公司 用于呈现描述森林工作单元操作的数据的方法、设备和用户界面
CN106778836A (zh) * 2016-11-29 2017-05-31 天津大学 一种基于约束条件的随机森林推荐算法
CN107590102A (zh) * 2016-07-06 2018-01-16 阿里巴巴集团控股有限公司 随机森林模型生成方法和装置
CN108280191A (zh) * 2018-01-25 2018-07-13 北京工商大学 多地区mrl标准的对比可视分析方法与系统
CN109017799A (zh) * 2018-04-03 2018-12-18 张锐明 一种新能源汽车驾驶行为预测方法
CN109240912A (zh) * 2018-08-14 2019-01-18 平安普惠企业管理有限公司 一种基于大数据分析的网页应用的性能评估方法及终端
CN110321834A (zh) * 2019-06-28 2019-10-11 深圳市商汤科技有限公司 一种身份确定方法及装置、存储介质
CN110334737A (zh) * 2019-06-04 2019-10-15 阿里巴巴集团控股有限公司 一种基于随机森林的客户风险指标筛选的方法和系统
CN110458428A (zh) * 2019-07-26 2019-11-15 北京小土科技有限公司 一种电影剧本精彩度量化评估系统
CN110503459A (zh) * 2019-07-19 2019-11-26 平安科技(深圳)有限公司 基于大数据的用户信用度评估方法、装置及存储介质
CN110600135A (zh) * 2019-09-18 2019-12-20 东北大学 一种基于改进随机森林算法的乳腺癌预测系统
CN110704509A (zh) * 2019-10-09 2020-01-17 北京百度网讯科技有限公司 数据分类方法、装置、设备及存储介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106605261A (zh) * 2014-08-27 2017-04-26 蓬塞有限公司 用于呈现描述森林工作单元操作的数据的方法、设备和用户界面
CN104462868A (zh) * 2014-12-11 2015-03-25 西安电子科技大学 一种结合随机森林和Relief-F的全基因组SNP位点分析方法
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
CN105574544A (zh) * 2015-12-16 2016-05-11 平安科技(深圳)有限公司 一种数据处理方法和装置
CN105894193A (zh) * 2016-03-31 2016-08-24 中国银行股份有限公司 一种指标配置方法和装置
CN105931224A (zh) * 2016-04-14 2016-09-07 浙江大学 基于随机森林算法的肝脏平扫ct图像病变识别方法
CN107590102A (zh) * 2016-07-06 2018-01-16 阿里巴巴集团控股有限公司 随机森林模型生成方法和装置
CN106503156A (zh) * 2016-10-24 2017-03-15 北京百度网讯科技有限公司 基于人工智能的人机交互方法及装置
CN106778836A (zh) * 2016-11-29 2017-05-31 天津大学 一种基于约束条件的随机森林推荐算法
CN108280191A (zh) * 2018-01-25 2018-07-13 北京工商大学 多地区mrl标准的对比可视分析方法与系统
CN109017799A (zh) * 2018-04-03 2018-12-18 张锐明 一种新能源汽车驾驶行为预测方法
CN109240912A (zh) * 2018-08-14 2019-01-18 平安普惠企业管理有限公司 一种基于大数据分析的网页应用的性能评估方法及终端
CN110334737A (zh) * 2019-06-04 2019-10-15 阿里巴巴集团控股有限公司 一种基于随机森林的客户风险指标筛选的方法和系统
CN110321834A (zh) * 2019-06-28 2019-10-11 深圳市商汤科技有限公司 一种身份确定方法及装置、存储介质
CN110503459A (zh) * 2019-07-19 2019-11-26 平安科技(深圳)有限公司 基于大数据的用户信用度评估方法、装置及存储介质
CN110458428A (zh) * 2019-07-26 2019-11-15 北京小土科技有限公司 一种电影剧本精彩度量化评估系统
CN110600135A (zh) * 2019-09-18 2019-12-20 东北大学 一种基于改进随机森林算法的乳腺癌预测系统
CN110704509A (zh) * 2019-10-09 2020-01-17 北京百度网讯科技有限公司 数据分类方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘云翔 等: "一种基于随机森林的改进特征筛选算法", 《现代电子技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989603A (zh) * 2021-03-12 2021-06-18 北京金山云网络技术有限公司 一种工作流的调整方法和装置
CN112989603B (zh) * 2021-03-12 2024-04-05 北京金山云网络技术有限公司 一种工作流的调整方法和装置
TWI837899B (zh) * 2022-10-25 2024-04-01 財團法人工業技術研究院 基於樹的機器學習模型的縮減方法與使用該方法的電子裝置

Also Published As

Publication number Publication date
CN111291896B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN109165249B (zh) 数据处理模型构建方法、装置、服务器和用户端
CN113935434A (zh) 一种数据分析处理系统及自动建模方法
CN111291896B (zh) 交互式随机森林子树筛选方法、装置、设备及可读介质
CN111325463A (zh) 数据质量检测方法、装置、设备及计算机可读存储介质
CN103677802B (zh) 用于分析的改进的消费模型的系统和方法
CN114494837A (zh) 一种渔业资源的密度智能识别方法及系统
KR102601238B1 (ko) 신경망 모델을 압축하는 방법 및 이를 수행하는 전자 장치
US20230154050A1 (en) Spatial image analysis-based color scheme recommendation apparatus and method
CN111401722A (zh) 智能决策方法和智能决策系统
KR102605481B1 (ko) 워크플로우 기반의 자동 예측 모델링 방법 및 그를 위한 장치
CN111048214A (zh) 外来畜禽疫病传播态势的预警方法及装置
CN112257603A (zh) 高光谱图像分类方法及相关设备
CN111582341A (zh) 用户异常操作预测方法及装置
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN111259988A (zh) 交互式随机森林集成方法、设备及可读存储介质
CN112767038B (zh) 基于美学特征的海报ctr预测方法及装置
CN110275820B (zh) 页面兼容性测试方法、系统及设备
Ackermann et al. Black-box learning of parametric dependencies for performance models
CN112785418B (zh) 信贷风险建模方法、装置、设备及计算机可读存储介质
CN109389972B (zh) 语义云功能的质量测试方法、装置、存储介质和设备
US20210356920A1 (en) Information processing apparatus, information processing method, and program
CN113411236B (zh) 质差路由器检测方法、装置、设备及存储介质
CN113408571B (zh) 一种基于模型蒸馏的图像分类方法、装置、存储介质及终端
CN110895470A (zh) 小程序管理装置及管理方法
CN115270923A (zh) 一种基于场景的可视化智能决策方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant