CN106997330B - 随机森林模型的转换方法及装置 - Google Patents

随机森林模型的转换方法及装置 Download PDF

Info

Publication number
CN106997330B
CN106997330B CN201610045227.7A CN201610045227A CN106997330B CN 106997330 B CN106997330 B CN 106997330B CN 201610045227 A CN201610045227 A CN 201610045227A CN 106997330 B CN106997330 B CN 106997330B
Authority
CN
China
Prior art keywords
logic expression
equivalent logic
random forest
forest model
equivalent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610045227.7A
Other languages
English (en)
Other versions
CN106997330A (zh
Inventor
黄振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN201610045227.7A priority Critical patent/CN106997330B/zh
Publication of CN106997330A publication Critical patent/CN106997330A/zh
Application granted granted Critical
Publication of CN106997330B publication Critical patent/CN106997330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Abstract

本发明公开了一种随机森林模型的转换方法及装置。其中,该方法包括:将随机森林模型中包含的每棵决策树进行逻辑表达式转换,得到每棵决策树对应的等价逻辑表达式集;将所有决策树的等价逻辑表达式集进行合并,得到随机森林模型对应的等价逻辑表达式集,其中,随机森林模型对应的等价逻辑表达式集为随机森林的等价转换形式。本发明解决了由于相关技术中随机森林模型内部规则不可知造成的随机森林算法在商务智能应用中受限的技术问题。

Description

随机森林模型的转换方法及装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种随机森林模型的转换方法及装置。
背景技术
在商务智能等涉及业务分析的场景中,如银行防诈骗分析、电信用户流失分析等场景中,决策树受到业务人员的普遍欢迎。通过决策树,不仅能从业务数据中挖掘出有效的、可能连业务人员也无法意识到的有效规则,而且更重要的,它还能通过业务语言展示这些规则,以便于业务人员结合自己的业务经验,判断决策树所提炼出来的规则的合理性,并进一步判断是否采用该规则。
但是,随着数据规模和类型的大幅增长,大数据时代已经到来。面对如此之多的数据,决策树的劣势就显现出来。首先,决策树不适合基于大规模数据的计算,因为决策树无法做到并行化,从而导致计算非常缓慢以致不可接受;其次,决策树不适合基于超多维度的计算,容易导致深度决策树计算非常缓慢,甚至会很容易出现过拟合现象。在这种背景下,随机森林算法的价值被学术界和工业界所认识。随机森林算法通过抽样生成多棵决策树,然后用组合投票的方式生成决策结果,不仅有效地避免了过拟合的问题,提高了推广使用能力。更重要的是,它天然地适用于分布式计算方式,提高了数据处理能力。
但是,对商务智能来说,随机森林模型有比较大的问题,这在一定程度上限制了随机森林算法在商务智能中的推广使用,那就是目前的随机森林模型是一个黑匣子模型,业务人员无法了解其结果是如何输出的,不知道其内在的规则是什么。如果业务人员无法知道其内在规则,将导致业务人员不敢轻易采用其输出结果,无法结合业务经验检查其规则的合理性。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种随机森林模型的转换方法及装置,以至少解决由于相关技术中随机森林模型内部规则不可知造成的随机森林算法在商务智能应用中受限的技术问题。
根据本发明实施例的一个方面,提供了一种随机森林模型的转换方法,包括:将随机森林模型中包含的每棵决策树进行逻辑表达式转换,得到每棵决策树对应的等价逻辑表达式集;将所有决策树的等价逻辑表达式集进行合并,得到上述随机森林模型对应的等价逻辑表达式集,其中,上述随机森林模型对应的等价逻辑表达式集为上述随机森林模型的等价转换形式。
进一步地,将随机森林模型中包含的每棵决策树进行逻辑表达式转换,得到每棵决策树对应的等价逻辑表达式集包括:获取上述随机森林模型中包含的任意一棵决策树;以获取的决策树的根节点为起点,通过遍历该决策树来依次访问该决策树的每个叶节点;将从上述根节点到上述每个叶节点之间的路径转换成各路径对应的等价逻辑表达式;将上述各路径对应的等价逻辑表达式存储在表达式集中以得到该决策树的等价逻辑表达式集。
进一步地,由上述每棵决策树对应的等价逻辑表达式集构成上述随机森林模型中包含的所有决策树的等价逻辑表达式集的集合,其中,将所有决策树的等价逻辑表达式集进行合并,得到上述随机森林模型对应的等价逻辑表达式集包括:从上述集合中包含的所有等价逻辑表达式集中任意选出两个等价逻辑表达式集;对选中的两个等价逻辑表达式集进行合并,得到一个新的等价逻辑表达式集;更新上述集合,得到更新后的集合,其中,该步骤包括:将新得到的等价逻辑表达式集存储到更新前的集合中,同时从上述更新前的集合中删除上述选中的两个等价逻辑表达式集;继续从上述更新后的集合中选出两个等价逻辑表达式集进行合并,直到等价逻辑表达式集的集合中只有一个等价逻辑表达式集为止,其中,当等价逻辑表达式集的集合中只有一个等价逻辑表达式集时,该等价逻辑表达式集为上述随机森林模型对应的等价逻辑表达式集。
进一步地,对选中的两个等价逻辑表达式集进行合并,得到一个新的等价逻辑表达式集包括:统计上述选中的两个等价逻辑表达式集中出现的属性及属性值;根据属性及属性值统计结果,将上述选中的两个等价逻辑表达式集中的每个等价逻辑表达式按照所有出现的属性及属性值进行展开表示,得到展开表示后的等价逻辑表达式;将等价逻辑表达式展开表示后的两个等价逻辑表达式集进行合并、去冗余,得到一个新的等价逻辑表达式集。
进一步地,在将等价逻辑表达式展开表示后的两个等价逻辑表达式集进行合并、去冗余之后,上述方法还包括:记录每个合并、去冗余后的等价逻辑表达式的运算结果部分的所有标签及标签计数,其中,每个标签用于表示对应决策树的一种决策结果;在得到上述随机森林模型对应的等价逻辑表达式集之后,上述方法还包括:对得到的上述随机森林模型对应的等价逻辑表达式集中的每个等价逻辑表达式,根据表达式的运算结果部分的所有标签及标签计数进行过滤,得到上述随机森林模型的过滤后的等价逻辑表达式集。
进一步地,对得到的上述随机森林模型对应的等价逻辑表达式集中的每个等价逻辑表达式,根据表达式的运算结果部分的所有标签及标签计数进行过滤包括:获取上述随机森林模型对应的等价逻辑表达式集中的任意一个等价逻辑表达式;在根据获取的等价逻辑表达式的运算结果部分的所有标签及标签计数,确定各种标签对应的支持度均等的情况下,删除该等价逻辑表达式,其中,每种标签对应的支持度通过该种标签的标签计数衡量得到;和/或在根据获取的等价逻辑表达式的运算结果部分的所有标签及标签计数,确定上述各种标签对应的支持度不均等情况下,给获取的等价逻辑表达式赋值为对应的支持度最高的标签,并保留赋值后的等价逻辑表达式。
进一步地,在得到上述随机森林模型的过滤后的等价逻辑表达式集之后,上述方法还包括:对得到上述随机森林模型的过滤后的等价逻辑表达式集中的等价逻辑表达式进行合并、去冗余,得到上述随机森林模型的合并、去冗余的等价逻辑表达式集。
根据本发明实施例的另一方面,还提供了一种随机森林模型的转换装置,包括:转换单元,用于将随机森林模型中包含的每棵决策树进行逻辑表达式转换,得到每棵决策树对应的等价逻辑表达式集;第一合并单元,用于将所有决策树的等价逻辑表达式集进行合并,得到上述随机森林模型对应的等价逻辑表达式集,其中,上述随机森林模型对应的等价逻辑表达式集为上述随机森林模型的等价转换形式。
进一步地,上述转换单元包括:第一获取模块,用于获取上述随机森林模型中包含的任意一棵决策树;遍历模块,用于以获取的决策树的根节点为起点,通过遍历该决策树来依次访问该决策树的每个叶节点;转换模块,用于将从上述根节点到上述每个叶节点之间的路径转换成各路径对应的等价逻辑表达式;存储模块,用于将上述各路径对应的等价逻辑表达式存储在表达式集中以得到该决策树的等价逻辑表达式集。
进一步地,由上述每棵决策树对应的等价逻辑表达式集构成上述随机森林模型中包含的所有决策树的等价逻辑表达式集的集合,其中,上述第一合并单元包括:选择模块,用于从上述集合中包含的所有等价逻辑表达式集中任意选出两个等价逻辑表达式集;合并模块,用于对选中的两个等价逻辑表达式集进行合并,得到一个新的等价逻辑表达式集;更新模块,用于更新上述集合,得到更新后的集合,其中,该步骤包括:将新得到的等价逻辑表达式集存储到更新前的集合中,同时从上述更新前的集合中删除上述选中的两个等价逻辑表达式集;循环模块,用于继续从上述更新后的集合中选出两个等价逻辑表达式集进行合并,直到等价逻辑表达式集的集合中只有一个等价逻辑表达式集为止,其中,当等价逻辑表达式集的集合中只有一个等价逻辑表达式集时,该等价逻辑表达式集为上述随机森林模型对应的等价逻辑表达式集。
进一步地,上述合并模块包括:统计子模块,用于统计上述选中的两个等价逻辑表达式集中出现的属性及属性值;展开子模块,用于根据属性及属性值统计结果,将上述选中的两个等价逻辑表达式集中的每个等价逻辑表达式按照所有出现的属性及属性值进行展开表示,得到展开表示后的等价逻辑表达式;合并子模块,用于将等价逻辑表达式展开表示后的两个等价逻辑表达式集进行合并、去冗余,得到一个新的等价逻辑表达式集。
进一步地,上述装置还包括:记录单元,用于在将等价逻辑表达式展开表示后的两个等价逻辑表达式集进行合并、去冗余之后,记录每个合并、去冗余后的等价逻辑表达式的运算结果部分的所有标签及标签计数,其中,每个标签用于表示对应决策树的一种决策结果;过滤单元,用于在得到上述随机森林模型对应的等价逻辑表达式集之后,对得到的上述随机森林模型对应的等价逻辑表达式集中的每个等价逻辑表达式,根据表达式的运算结果部分的所有标签及标签计数进行过滤,得到上述随机森林模型的过滤后的等价逻辑表达式集。
进一步地,上述过滤单元包括:第二获取模块,用于获取上述随机森林模型对应的等价逻辑表达式集中的任意一个等价逻辑表达式;删除模块,用于在根据获取的等价逻辑表达式的运算结果部分的所有标签及标签计数,确定各种标签对应的支持度均等的情况下,删除该等价逻辑表达式,其中,每种标签对应的支持度通过该种标签的标签计数衡量得到;和/或保留模块,用于在根据获取的等价逻辑表达式的运算结果部分的所有标签及标签计数,确定上述各种标签对应的支持度不均等情况下,给获取的等价逻辑表达式赋值为对应的支持度最高的标签,并保留赋值后的等价逻辑表达式。
进一步地,上述装置还包括:第二合并单元,用于在得到上述随机森林模型的过滤后的等价逻辑表达式集之后,对得到上述随机森林模型的过滤后的等价逻辑表达式集中的等价逻辑表达式进行合并、去冗余,得到上述随机森林模型的合并、去冗余的等价逻辑表达式集。
在本发明实施例中,采用转换随机森林模型的方式,通过将随机森林模型中包含的每棵决策树进行逻辑表达式转换,得到每棵决策树对应的等价逻辑表达式集;将所有决策树的等价逻辑表达式集进行合并,得到随机森林模型对应的等价逻辑表达式集,其中,随机森林模型对应的等价逻辑表达式集为随机森林的等价转换形式,实现了将随机森林模型转换为等价逻辑表达式的目的,从而达到了使随机森林模型内部规则可知的技术效果,进而解决了由于相关技术中随机森林模型内部规则不可知造成的随机森林算法在商务智能应用中受限的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的计算机终端的硬件结构框图;
图2是根据本发明实施例的一种可选的随机森林模型的转换方法的流程图;
图3(a)和图3(b)是根据本发明实施例的一种可选的决策树与逻辑表达式等价转换的示意图;
图3(a)是根据本发明实施例的决策树1与其逻辑表达式等价转换的示意图;
图3(b)是根据本发明实施例的决策树2与其逻辑表达式等价转换的示意图;
图4(a)是根据图3(a)的决策树1的等价逻辑表达式进行展开的示意图;
图4(b)是根据图3(b)的决策树2的等价逻辑表达式进行展开的示意图;
图5是根据图4(a)和图4(b)的展开后的等价逻辑表达式进行合并的示意图;
图6是根据图5的合并后的等价逻辑表达式进行过滤的示意图;
图7是根据图6的过滤后的等价逻辑表达式进行去冗余的示意图;
图8是根据本发明实施例的随机森林模型与其等价逻辑表达式集的示意图;
图9(a)是根据本发明实施例的决策树1的可选示例的示意图;
图9(b)是根据本发明实施例的决策树2的可选示例的示意图;
图10是根据本发明实施例的可选的随机森林模型与其等价逻辑表达式集的示意图;
图11是根据本发明实施例的一种可选的随机森林模型的转换装置的示意图;
图12是根据本发明实施例的另一种可选的计算机终端的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,还提供了一种随机森林的转换方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种随机森林模型的转换方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的随机森林模型的转换方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
在上述运行环境下,本申请提供了如图2所示的随机森林模型的转换方法。图2是根据本发明实施例的一种可选的随机森林模型的转换方法的流程图。如图2所示,该方法包括:
步骤S202,将随机森林模型中包含的每棵决策树进行逻辑表达式转换,得到每棵决策树对应的等价逻辑表达式集;
步骤S204,将所有决策树的等价逻辑表达式集进行合并,得到随机森林模型对应的等价逻辑表达式集,其中,随机森林模型对应的等价逻辑表达式集为随机森林模型的等价转换形式。
需要说明的是,在随机森林算法中,每个随机森林模型一般包括一棵或者多棵决策树,每棵决策树一般具有一个或者多个决策分支,每个决策分支对应一种决策结果。对于随机森林算法而言,由于其训练结果模型(以下简称“随机森林模型”)是一个黑匣子,导致业务人员难以直观地了解这些训练结果。
而通过本发明所提供的技术方案,对于任意一个随机森林模型而言,可以先通过应用程序将该随机森林模型中包含的每棵决策树表示成等价逻辑表达式集合(以下简称“逻辑表达式集”),再将所有决策树的逻辑表达式集合并成该随机森林模型的逻辑表达式集,其中,随机森林模型的逻辑表达式集就是随机森林模型的等价转换形式。进一步地,为了便于业务人员了解和查看随机森林算法的训练结果,可以将该算法对应的随机森林模型的等价转换形式进行可视化展示。
通过本发明实施例,采用转换随机森林模型的方式,通过将随机森林模型转换成等价逻辑表达式集,实现了将随机森林模型转换为等价逻辑表达式的目的,从而达到了使随机森林模型内部规则可知的技术效果,进而解决了由于相关技术中随机森林模型内部规则不可知造成的随机森林算法在商务智能应用中受限的技术问题。
可选地,将随机森林模型中包含的每棵决策树进行逻辑表达式转换,得到每棵决策树对应的等价逻辑表达式集包括:
S2,获取随机森林模型中包含的任意一棵决策树;
S4,以获取的决策树的根节点为起点,通过遍历该决策树来依次访问该决策树的每个叶节点;
S6,将从根节点到每个叶节点之间的路径转换成各路径对应的等价逻辑表达式;
S8,将各路径对应的等价逻辑表达式存储在表达式集中以得到该决策树的等价逻辑表达式集。
需要说明的是,可以并行或者串行对一个随机森林模型中的所有决策树进行等价逻辑表达式集转换处,但是为了提高工作效率,在实施时,一般选择并行处理方式。
实施时,在对随机森林模型中任意一棵决策树进行逻辑表达式转换时,可以先从该随机森林模型中获取相应的决策树,再从该决策树的根节点开始,遍历整棵决策树以访问该决策树的每个叶节点,同时记录将从根节点到每个叶节点之间的路径,并将这些路径转换成各自对应的等价逻辑表达式。具体地,可以通过以下步骤实现:(1)从根节点开始,采用深度优先的方法遍历整棵决策树;(2)每访问一个叶节点,则记录从根节点到该叶子节点间的路径;(3)将该路径转化为等价逻辑表达式;(4)对每一个叶节点,执行(2)至(3)的步骤;(5)对每一棵决策树,执行(1)至(4)的步骤,得到每一棵决策树的逻辑表达式集。进一步地,为了便于存放,在得到各棵决策树的逻辑表达式集后,可以将其全部存储在一个集合中。
例如,假设随机森林模型A中包括两棵决策树,分别为决策树1(如图3(a)所示)和决策树2(如图3(b)所示),其中,按照本发明实施例提供的技术方案,对决策树1和决策树2进行转换,分别可以得到如图3(a)和图3(b)所示的逻辑表达式集。
通过本发明实施例,从随机森林算法的原理出发,实现了对随机森林模型中包含的每棵决策树进行等价逻辑表达式转换的目的,进而可以将随机森林模型进行规则化展示以使业务人员能够明晰随机森林模型的决策规则。
可选地,由每棵决策树对应的等价逻辑表达式集构成随机森林模型中包含的所有决策树的等价逻辑表达式集的集合,也即,对于一个随机森林模型而言,可以将其所有决策树各自对应的等价逻辑表达式集全部存储在一个集合中。在本发明实施例中,对这个集合中的等价逻辑表达式集进行处理时,可以同时合并所有的等价逻辑表达式集,也可以每次任取其中的两个等价逻辑表达式集进行合并处理。其中,采用后一种处理方式时,将所有决策树的等价逻辑表达式集进行合并,得到随机森林模型对应的等价逻辑表达式集包括:
S10,从集合中包含的所有等价逻辑表达式集中任意选出两个等价逻辑表达式集;
S12,对选中的两个等价逻辑表达式集进行合并,得到一个新的等价逻辑表达式集;
S14,更新集合,得到更新后的集合,其中,该步骤包括:将新得到的等价逻辑表达式集存储到更新前的集合中,同时从更新前的集合中删除选中的两个等价逻辑表达式集;
S16,继续从更新后的集合中选出两个等价逻辑表达式集进行合并,直到等价逻辑表达式集的集合中只有一个等价逻辑表达式集为止,其中,当等价逻辑表达式集的集合中只有一个等价逻辑表达式集时,该等价逻辑表达式集为随机森林模型对应的等价逻辑表达式集。优选地,对新的逻辑表达式集的集合而言,可以根据逻辑表达式集的属性重合度,对属性重合度最高的两个等价逻辑表达式集执行S16,直到等价逻辑表达式集的集合中只有一个逻辑表达式集时停止,得到随机森林模型的等价逻辑表达式集。
依旧以随机森林模型A为例,可以从A中任意选取两棵决策树的等价逻辑表达式集进行合并处理,由于A中只有两棵决策树(即决策树1和决策树2),因此,可以合并决策树1和决策树2,合并结果即为随机森林模型A对应的等价逻辑表达式集。基于此,需要说明的是,在执行S16前,需要先判断存储所有的等价逻辑表达式集的集合中是否仅仅包含两个等价逻辑表达式集,在是的情况下,可以直接将合并结果作为随机森林模型A对应的等价逻辑表达式集;在否的情况下,则需要执行S16。
实施时,从上述集合中选取某两个决策树的等价逻辑表达式集,进行合并,得到合并后的新的逻辑表达式集,同时删除合并前的选中的两个决策树的等价逻辑表达式集,进而构成新的逻辑表达式集的集合。
通过本发明实施例,从随机森林算法的原理出发,实现了对随机森林模型中包含的每棵决策树进行等价逻辑表达式转换的目的,并进一步对随机森林模型中的等价逻辑表达式集进行合并,最终进而可以得到随机森林模型的简化等价逻辑表达式集,实现简化等价转换结果的目的。
可选地,对选中的两个等价逻辑表达式集进行合并,得到一个新的等价逻辑表达式集包括:
S18,统计选中的两个等价逻辑表达式集中出现的属性及属性值;
S20,根据属性及属性值统计结果,将选中的两个等价逻辑表达式集中的每个等价逻辑表达式按照所有出现的属性及属性值进行展开表示,得到展开表示后的等价逻辑表达式;
S22,将等价逻辑表达式展开表示后的两个等价逻辑表达式集进行合并、去冗余,得到一个新的等价逻辑表达式集。
需要说明的是,具体合并过程如下:(1)统计选出的两棵决策树各自对应的等价逻辑表达式集中出现的属性和属性值;(2)根据(1)的结果,将这两个逻辑表达式集中的每一个逻辑表达式用(1)中所有的属性进行展开表示;(3)且将(2)中得到的展开表示的逻辑表达式的属性按照一定的顺序表示;(4)合并、化简这两个逻辑表达式集,并记录合并后每一个逻辑表达式所支持的标签及其计数,得到新的合并后的新的逻辑表达式集。
例如,对应随机森林模型A而言,经统计可知,决策树1和决策树2各自对应的等价逻辑表达式集中出现的属性包括:A、B、C,它们的属性值分别为+A(简写为“A”)和
Figure BDA0000912869270000101
+B(简写为“B”)和
Figure BDA0000912869270000102
+C(简写为“C”)和
Figure BDA0000912869270000103
根据这些属性和属性值将决策树1对应的等价逻辑表达式集展开表示,可以得到图4(a)中右端所示的等价逻辑表达式集;同理,根据这些属性和属性值将决策树2对应的等价逻辑表达式集展开表示,可以得到图4(b)中右端所示的等价逻辑表达式集。进一步地,将上述两个展开后的等价逻辑表达式集进行合并,可以得到图5中右端所示的等价逻辑表达式集,其中,合并得到的等价逻辑表达式集中,每个等价逻辑表达式结果部分包括该等价逻辑表达式所支持的标签及其计数,例如,对于“A^B^C=>T,T”而言,其所支持的标签有两个,都是“T”。
通过本发明实施例,可以达到简化随机森林模型的转换结果的目的。
可选地,在将等价逻辑表达式展开表示后的两个等价逻辑表达式集进行合并、去冗余之后,上述方法还包括:
S24,记录每个合并、去冗余后的等价逻辑表达式的运算结果部分的所有标签及标签计数,其中,每个标签用于表示对应决策树的一种决策结果;在得到随机森林模型对应的等价逻辑表达式集之后,上述方法还包括:
S26,对得到的随机森林模型对应的等价逻辑表达式集中的每个等价逻辑表达式,根据表达式的运算结果部分的所有标签及标签计数进行过滤,得到随机森林模型的过滤后的等价逻辑表达式集。
实施时,可以根据表达式的运算结果部分的标签计数以及各标签所支持的决策结果、标签是否唯一等属性条件,进行过滤操作,也即,根据其表达式右端各个标签的支持度,过滤表达式,得到过滤后的逻辑表达式集。进一步地,合并后,可以根据各等价逻辑表达式结果部分的标签和标签数进行去冗余处理,从而得到图6中右端所示的等价逻辑表达式集。
通过本发明实施例,可以达到简化随机森林模型的转换结果的目的。
可选地,对得到的随机森林模型对应的等价逻辑表达式集中的每个等价逻辑表达式,根据表达式的运算结果部分的所有标签及标签计数进行过滤包括:
S28,获取随机森林模型对应的等价逻辑表达式集中的任意一个等价逻辑表达式;
S30,在根据获取的等价逻辑表达式的运算结果部分的所有标签及标签计数,确定各种标签对应的支持度均等的情况下,删除该等价逻辑表达式,其中,每种标签对应的支持度通过该种标签的标签计数衡量得到,例如,如图6所示,对于
Figure BDA0000912869270000111
Figure BDA0000912869270000112
而言,由于标签T和F的对应的支持度均等,因此,需要删除该等价逻辑表达式;和/或
S32,在根据获取的等价逻辑表达式的运算结果部分的所有标签及标签计数,确定各种标签对应的支持度不均等情况下,给获取的等价逻辑表达式赋值为对应的支持度最高的标签,并保留赋值后的等价逻辑表达式,例如,如图6所示,对于“A^B^C=>T,T”而言,由于标签T和F对应的支持度不均等,且支持度最高的标签只包括T,因此,需要将“T”赋给“A^B^C”,得到“A^B^C=>T”,并保留赋值后的等价逻辑表达式。
需要说明的是,上述过滤过程也是去冗余操作过程,其中,具体过滤过程如下:判断各个标签的支持度是否均等,如果各个标签的支持度均等,则删除该表达式;如果各个标签的支持度不均等,则给获取的等价逻辑表达式赋值为支持度最高的标签,并保留该赋值后的逻辑表达式。
依旧以随机森林模型A为例,在根据各等价逻辑表达式结果部分的标签和标签数进行去冗余处理后,可以得到图6中右端所示的等价逻辑表达式集。
可选地,在得到随机森林模型的过滤后的等价逻辑表达式集之后,上述方法还包括:
S34,对得到随机森林模型的过滤后的等价逻辑表达式集中的等价逻辑表达式进行合并、去冗余(去冗余即化简),得到随机森林模型的合并、去冗余的等价逻辑表达式集。也即,对过滤后得到的逻辑表达式集中的每一个表达式,进行合并、化简,得到最终的、随机森林模型的等价规则(即等价逻辑表达式)。此时,等价规则非常简单,并而非常清晰明了,很容易展示给业务人员,使其对随机森林算法的训练结果有一个较直观地了解。
依旧以随机森林模型A为例,在使用本发明实施例提供的技术方案进行去冗余处理后,可以得到图7中右端所示的等价逻辑表达式集,而整个随机森林模型A的规则化展示如图8所示。
在大数据时代,通过本发明提供的技术方案,能够有效地将随机森林算法的训练结果模型进行规则化展示,为业务人员结合自身经验判断模型的有效性提供了大力支持;并且,这种规则化展示,还可以为业务人员理解算法的训练结果提供直观地方法;本发明填补了随机森林算法在训练结果展示领域的空白,有利于随机森林算法在商务智能中的推广和应用。
以下结合图9(a)和图9(b),以一个具体实施例详细阐述本发明:
依旧以随机森林模型A为例,假设需要判断某个用户是否是作弊用户,可以从用户性别、所在城市、下载量、重复下载量、下载时间分布等多个特征出发,用随机森林算法得到如图9(a)和图9(b)所示的随机森林算法的训练结果,其中,A表示用户性别、B代表下载量大于50、C代表重复下载量大于25,判断结果将由决策树1和决策树2这两棵树的规则来决定,其中,通过使用本发明,对随机森林模型A进行等价转换,得到的规则化展示结果为“如果下载量大于50且重复下载量大于25,则确定这个用户作弊;如果下载量小于等于50,则确定这个用户正常”,具体如图10所示。
综上可见,如果直接使用随机森林算法的训练结果,将难以看出其判断的规则和依据,但是,本发明提供的技术方案则可以将随机森林算法的训练结果,以简化的、等效的规则表示出来,使业务人员清楚了解该算法对应的训练结果的决策依据。
通过本发明实施例,实现了利用逻辑表达式推理的方法,对随机森林算法的训练结果进行转换,以及进行等效化简,并以直观的规则化的形式进行展示的目的。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施随机森林模型的转换方法的装置,如图11所示,该装置包括:转换单元112,用于将随机森林模型中包含的每棵决策树进行逻辑表达式转换,得到每棵决策树对应的等价逻辑表达式集;第一合并单元114,用于将所有决策树的等价逻辑表达式集进行合并,得到随机森林模型对应的等价逻辑表达式集,其中,随机森林模型对应的等价逻辑表达式集为随机森林的等价转换形式。
需要说明的是,在随机森林算法中,每个随机森林模型一般包括一棵或者多棵决策树,每棵决策树一般具有一个或者多个决策分支,每个决策分支对应一种决策结果。对于随机森林算法而言,由于其训练结果模型(以下简称“随机森林模型”)是一个黑匣子,导致业务人员难以直观地了解这些训练结果。
而通过本发明所提供的技术方案,对于任意一个随机森林模型而言,可以先通过应用程序将该随机森林模型中包含的每棵决策树表示成等价逻辑表达式集合(以下简称“逻辑表达式集”),再将所有决策树的逻辑表达式集合并成该随机森林模型的逻辑表达式集,其中,随机森林模型的逻辑表达式集就是随机森林模型的等价转换形式。进一步地,为了便于业务人员了解和查看随机森林算法的训练结果,可以将该算法对应的随机森林模型的等价转换形式进行可视化展示。
通过本发明实施例,采用转换随机森林模型的方式,通过将随机森林模型转换成等价逻辑表达式集,实现了将随机森林模型转换为等价逻辑表达式的目的,从而达到了使随机森林模型内部规则可知的技术效果,进而解决了由于相关技术中随机森林模型内部规则不可知造成的随机森林算法在商务智能应用中受限的技术问题。
可选地,上述转换单元包括:第一获取模块,用于获取随机森林模型中包含的任意一棵决策树;遍历模块,用于以获取的决策树的根节点为起点,通过遍历该决策树来依次访问该决策树的每个叶节点;转换模块,用于将从根节点到每个叶节点之间的路径转换成各路径对应的等价逻辑表达式;存储模块,用于将各路径对应的等价逻辑表达式存储在表达式集中以得到该决策树的等价逻辑表达式集。
可选地,由每棵决策树对应的等价逻辑表达式集构成随机森林模型中包含的所有决策树的等价逻辑表达式集的集合,其中,上述第一合并单元包括:选择模块,用于从集合中包含的所有等价逻辑表达式集中任意选出两个等价逻辑表达式集;合并模块,用于对选中的两个等价逻辑表达式集进行合并,得到一个新的等价逻辑表达式集;更新模块,用于更新集合,得到更新后的集合,其中,该步骤包括:将新得到的等价逻辑表达式集存储到更新前的集合中,同时从更新前的集合中删除选中的两个等价逻辑表达式集;循环模块,用于继续从更新后的集合中选出两个等价逻辑表达式集进行合并,直到等价逻辑表达式集的集合中只有一个等价逻辑表达式集为止,其中,当等价逻辑表达式集的集合中只有一个等价逻辑表达式集时,该等价逻辑表达式集为随机森林模型对应的等价逻辑表达式集。
可选地,上述合并模块包括:统计子模块,用于统计选中的两个等价逻辑表达式集中出现的属性及属性值;展开子模块,用于根据属性及属性值统计结果,将选中的两个等价逻辑表达式集中的每个等价逻辑表达式按照所有出现的属性及属性值进行展开表示,得到展开表示后的等价逻辑表达式;合并子模块,用于将等价逻辑表达式展开表示后的两个等价逻辑表达式集进行合并、去冗余,得到一个新的等价逻辑表达式集。
可选地,上述装置还包括:记录单元,用于在将等价逻辑表达式展开表示后的两个等价逻辑表达式集进行合并、去冗余之后,记录每个合并、去冗余后的等价逻辑表达式的运算结果部分的所有标签及标签计数,其中,每个标签用于表示对应决策树的一种决策结果;过滤单元,用于在得到随机森林模型对应的等价逻辑表达式集之后,对得到的随机森林模型对应的等价逻辑表达式集中的每个等价逻辑表达式,根据表达式的运算结果部分的所有标签及标签计数进行过滤,得到随机森林模型的过滤后的等价逻辑表达式集。
可选地,上述过滤单元包括:第二获取模块,用于获取随机森林模型对应的等价逻辑表达式集中的任意一个等价逻辑表达式;删除模块,用于在根据获取的等价逻辑表达式的运算结果部分的所有标签及标签计数,确定各种标签对应的支持度均等的情况下,删除该等价逻辑表达式,其中,每种标签对应的支持度通过该种标签的标签计数衡量得到;删除模块,用于在根据获取的等价逻辑表达式的运算结果部分的所有标签及标签计数,确定各种标签对应的支持度均等的情况下,删除该等价逻辑表达式,其中,每种标签对应的支持度通过该种标签的标签计数衡量得到;和/或保留模块,用于在根据获取的等价逻辑表达式的运算结果部分的所有标签及标签计数,确定各种标签对应的支持度不均等的情况下,给获取的等价逻辑表达式赋值为对应的支持度最高的标签,并保留赋值后的等价逻辑表达式。
可选地,上述装置还包括:第二合并单元,用于在得到随机森林模型的过滤后的等价逻辑表达式集之后,对得到随机森林模型的过滤后的等价逻辑表达式集中的等价逻辑表达式进行合并、去冗余,得到随机森林模型的合并、去冗余的等价逻辑表达式集。
需要说明的是,上述功能单元和/或功能模块对应于实施例1中各实施方式中的步骤,这些功能单元和/或功能模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容,在此不再赘述。需要说明的是,上述功能单元和/或功能模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
实施例3
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的随机森林模型的转换方法中以下步骤的程序代码:将随机森林模型中包含的每棵决策树进行逻辑表达式转换,得到每棵决策树对应的等价逻辑表达式集;将所有决策树的等价逻辑表达式集进行合并,得到随机森林模型对应的等价逻辑表达式集,其中,随机森林模型对应的等价逻辑表达式集为随机森林的等价转换形式。
可选地,图12是根据本发明实施例的另一种可选的计算机终端的硬件结构框图。如图12所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器、存储器、以及传输装置。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的安全漏洞检测方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的系统漏洞攻击的检测方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:将随机森林模型中包含的每棵决策树进行逻辑表达式转换,得到每棵决策树对应的等价逻辑表达式集;将所有决策树的等价逻辑表达式集进行合并,得到随机森林模型对应的等价逻辑表达式集,其中,随机森林模型对应的等价逻辑表达式集为随机森林的等价转换形式。
可选的,上述处理器还可以执行上述实施例1中其他实施方式中的步骤的程序代码,在此不再一一赘述。
通过在本发明实施例中,采用转换随机森林模型的方式,通过将随机森林模型中包含的每棵决策树进行逻辑表达式转换,得到每棵决策树对应的等价逻辑表达式集;将所有决策树的等价逻辑表达式集进行合并,得到随机森林模型对应的等价逻辑表达式集,其中,随机森林模型对应的等价逻辑表达式集为随机森林的等价转换形式,实现了将随机森林模型转换为等价逻辑表达式的目的,从而达到了使随机森林模型内部规则可知的技术效果,进而解决了由于相关技术中随机森林模型内部规则不可知造成的随机森林算法在商务智能应用中受限的技术问题。
本领域普通技术人员可以理解,图12所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例1所提供的随机森林模型的转换方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选的,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将随机森林模型中包含的每棵决策树进行逻辑表达式转换,得到每棵决策树对应的等价逻辑表达式集;将所有决策树的等价逻辑表达式集进行合并,得到随机森林模型对应的等价逻辑表达式集,其中,随机森林模型对应的等价逻辑表达式集为随机森林的等价转换形式。
可选的,上述存储介质还可以存储上述实施例1中其他实施方式中的步骤的程序代码,在此不再一一赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种随机森林模型的转换方法,其特征在于,包括:
将随机森林模型中包含的每棵决策树进行逻辑表达式转换,得到每棵决策树对应的等价逻辑表达式集;
将所有决策树的等价逻辑表达式集进行合并,得到所述随机森林模型对应的等价逻辑表达式集,其中,所述随机森林模型对应的等价逻辑表达式集为所述随机森林模型的等价转换形式;
将所述随机森林模型的等价转换形式可视化展示给用户,以使用户了解和查看所述随机森林模型的内部规则。
2.根据权利要求1所述的转换方法,其特征在于,将随机森林模型中包含的每棵决策树进行逻辑表达式转换,得到每棵决策树对应的等价逻辑表达式集包括:
获取所述随机森林模型中包含的任意一棵决策树;
以获取的决策树的根节点为起点,通过遍历该决策树来依次访问该决策树的每个叶节点;
将从所述根节点到所述每个叶节点之间的路径转换成各路径对应的等价逻辑表达式;
将所述各路径对应的等价逻辑表达式存储在表达式集中以得到该决策树的等价逻辑表达式集。
3.根据权利要求1所述的转换方法,其特征在于,由所述每棵决策树对应的等价逻辑表达式集构成所述随机森林模型中包含的所有决策树的等价逻辑表达式集的集合,其中,将所有决策树的等价逻辑表达式集进行合并,得到所述随机森林模型对应的等价逻辑表达式集包括:
从所述集合中包含的所有等价逻辑表达式集中任意选出两个等价逻辑表达式集;
对选中的两个等价逻辑表达式集进行合并,得到一个新的等价逻辑表达式集;
更新所述集合,得到更新后的集合,其中,更新所述集合,得到更新后的集合的步骤包括:将新得到的等价逻 辑表达式集存储到更新前的集合中,同时从所述更新前的集合中删除所述选中的两个等价逻辑表达式集;
继续从所述更新后的集合中选出两个等价逻辑表达式集进行合并,直到等价逻辑表达式集的集合中只有一个等价逻辑表达式集为止,
其中,当等价逻辑表达式集的集合中只有一个等价逻辑表达式集时,该等价逻辑表达式集为所述随机森林模型对应的等价逻辑表达式集。
4.根据权利要求3所述的转换方法,其特征在于,对选中的两个等价逻辑表达式集进行合并,得到一个新的等价逻辑表达式集包括:
统计所述选中的两个等价逻辑表达式集中出现的属性及属性值;
根据属性及属性值统计结果,将所述选中的两个等价逻辑表达式集中的每个等价逻辑表达式按照所有出现的属性及属性值进行展开表示,得到展开表示后的等价逻辑表达式;
将等价逻辑表达式展开表示后的两个等价逻辑表达式集进行合并、去冗余,得到一个新的等价逻辑表达式集。
5.根据权利要求4所述的转换方法,其特征在于,
在将等价逻辑表达式展开表示后的两个等价逻辑表达式集进行合并、去冗余之后,所述方法还包括:记录每个合并、去冗余后的等价逻辑表达式的运算结果部分的所有标签及标签计数,其中,每个标签用于表示对应决策树的一种决策结果;
在得到所述随机森林模型对应的等价逻辑表达式集之后,所述方法还包括:对得到的所述随机森林模型对应的等价逻辑表达式集中的每个等价逻辑表达式,根据表达式的运算结果部分的所有标签及标签计数进行过滤,得到所述随机森林模型的过滤后的等价逻辑表达式集。
6.根据权利要求5所述的转换方法,其特征在于,对得到的所述随机森林模型对应的等价逻辑表达式集中的每个等价逻辑表达式,根据表达式的运算结果部分的所 有标签及标签计数进行过滤包括:
获取所述随机森林模型对应的等价逻辑表达式集中的任意一个等价逻辑表达式;
在根据获取的等价逻辑表达式的运算结果部分的所有标签及标签计数,确定各种标签对应的支持度均等的情况下,删除该等价逻辑表达式,其中,每种标签对应的支持度通过该种标签的标签计数衡量得到;和/或
在根据获取的等价逻辑表达式的运算结果部分的所有标签及标签计数,确定所述各种标签对应的支持度不均等的情况下,给获取的等价逻辑表达式赋值为对应的支持度最高的标签,并保留赋值后的等价逻辑表达式。
7.根据权利要求6所述的转换方法,其特征在于,在得到所述随机森林模型的过滤后的等价逻辑表达式集之后,所述方法还包括:
对得到的所述随机森林模型的过滤后的等价逻辑表达式集中的等价逻辑表达式进行合并、去冗余,得到所述随机森林模型的合并、去冗余的等价逻辑表达式集。
8.一种随机森林模型的转换装置,其特征在于,包括:
转换单元,用于将随机森林模型中包含的每棵决策树进行逻辑表达式转换,得到每棵决策树对应的等价逻辑表达式集;
第一合并单元,用于将所有决策树的等价逻辑表达式集进行合并,得到所述随机森林模型对应的等价逻辑表达式集,其中,所述随机森林模型对应的等价逻辑表达式集为所述随机森林模型的等价转换形式;
其中,所述随机森林模型的等价转换形式用以可视化展示给用户,以使用户了解和查看所述随机森林模型的内部规则。
9.根据权利要求8所述的转换装置,其特征在于,所述转换单元包括:
第一获取模块,用于获取所述随机森林模型中包含的任意一棵决策树;
遍历模块,用于以获取的决策树的根节点为起点,通过遍历该决策树来依次访问该决策树的每个叶节点;
转换模块,用于将从所述根节点到所述每个叶节点之间的路径转换成各路径对应的等价逻辑表达式;
存储模块,用于将所述各路径对应的等价逻辑表达式存储在表达式集中以得 到该决策树的等价逻辑表达式集。
10.根据权利要求8所述的转换装置,其特征在于,由所述每棵决策树对应的等价逻辑表达式集构成所述随机森林模型中包含的所有决策树的等价逻辑表达式集的集合,其中,所述第一合并单元包括:
选择模块,用于从所述集合中包含的所有等价逻辑表达式集中任意选出两个等价逻辑表达式集;
合并模块,用于对选中的两个等价逻辑表达式集进行合并,得到一个新的等 价逻辑表达式集;
更新模块,用于更新所述集合,得到更新后的集合,其中,更新所述集合,得到更新后的集合的步骤包括:将 新得到的等价逻辑表达式集存储到更新前的集合中,同时从所述更新前的集合中 删除所述选中的两个等价逻辑表达式集;
循环模块,用于继续从所述更新后的集合中选出两个等价逻辑表达式集进行合并,直到等价逻辑表达式集的集合中只有一个等价逻辑表达式集为止,其中,当等价逻辑表达式集的集合中只有一个等价逻辑表达式集时,该等价逻辑表达式集为所述随机森林模型对应的等价逻辑表达式集。
11.根据权利要求10所述的转换装置,其特征在于,所述合并模块包括:
统计子模块,用于统计所述选中的两个等价逻辑表达式集中出现的属性及属性值;
展开子模块,用于根据属性及属性值统计结果,将所述选中的两个等价逻辑 表达式集中的每个等价逻辑表达式按照所有出现的属性及属性值进行展开表示,得到展开表示后的等价逻辑表达式;
合并子模块,用于将等价逻辑表达式展开表示后的两个等价逻辑表达式集进 行合并、去冗余,得到一个新的等价逻辑表达式集。
12.根据权利要求11所述的转换装置,其特征在于,所述装置还包括:
记录单元,用于在将等价逻辑表达式展开表示后的两个等价逻辑表达式集进 行合并、去冗余之后,记录每个合并、去冗余后的等价逻辑表达式的运算结果部分的所有标签及标签计数,其中,每个标签用于表示对应决策树的一种决策结果;
过滤单元,用于在得到所述随机森林模型对应的等价逻辑表达式集之后,对得到的所述随机森林模型对应的等价逻辑表达式集中的每个等价逻辑表达式,根据表达式的运算结果部分的所有标签及标签计数进行过滤,得到所述随机森林模型的过滤后的等价逻辑表达式集。
13.根据权利要求12所述的转换装置,其特征在于,所述过滤单元包括:
第二获取模块,用于获取所述随机森林模型对应的等价逻辑表达式集中的任意一个等价逻辑表达式;
删除模块,用于在根据获取的等价逻辑表达式的运算结果部分的所有标签及标签计数,确定各种标签对应的支持度均等的情况下,删除该等价逻辑表达式,其中,每种标签对应的支持度通过该种标签的标签计数衡量得到;和/或
保留模块,用于在根据获取的等价逻辑表达式的运算结果部分的所有标签及标签计数,确定所述各种标签对应的支持度不均等的情况下,给获取的等价逻辑表达式赋值为对应的支持度最高的标签,并保留赋值后的等价逻辑表达式。
14.根据权利要求13所述的转换装置,其特征在于,所述装置还包括:
第二合并单元,用于在得到所述随机森林模型的过滤后的等价逻辑表达式集之后,对得到的所述随机森林模型的过滤后的等价逻辑表达式集中的等价逻辑表达式进行合并、去冗余,得到所述随机森林模型的合并、去冗余的等价逻辑表达式集。
CN201610045227.7A 2016-01-22 2016-01-22 随机森林模型的转换方法及装置 Active CN106997330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610045227.7A CN106997330B (zh) 2016-01-22 2016-01-22 随机森林模型的转换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610045227.7A CN106997330B (zh) 2016-01-22 2016-01-22 随机森林模型的转换方法及装置

Publications (2)

Publication Number Publication Date
CN106997330A CN106997330A (zh) 2017-08-01
CN106997330B true CN106997330B (zh) 2020-11-06

Family

ID=59428278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610045227.7A Active CN106997330B (zh) 2016-01-22 2016-01-22 随机森林模型的转换方法及装置

Country Status (1)

Country Link
CN (1) CN106997330B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6278464B1 (en) * 1997-03-07 2001-08-21 Silicon Graphics, Inc. Method, system, and computer program product for visualizing a decision-tree classifier
CN104111920A (zh) * 2013-04-16 2014-10-22 华为技术有限公司 一种基于决策树的预测方法及装置
CN104572786A (zh) * 2013-10-29 2015-04-29 华为技术有限公司 随机森林分类模型的可视化优化处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6278464B1 (en) * 1997-03-07 2001-08-21 Silicon Graphics, Inc. Method, system, and computer program product for visualizing a decision-tree classifier
CN104111920A (zh) * 2013-04-16 2014-10-22 华为技术有限公司 一种基于决策树的预测方法及装置
CN104572786A (zh) * 2013-10-29 2015-04-29 华为技术有限公司 随机森林分类模型的可视化优化处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
可视化数据挖掘的研究与实现;李鸿吉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20081015(第10期);第I138-542页 *

Also Published As

Publication number Publication date
CN106997330A (zh) 2017-08-01

Similar Documents

Publication Publication Date Title
CN112700056B (zh) 复杂网络链路预测方法、装置、电子设备及介质
CN111967972B (zh) 理财产品推荐方法及装置
US9129296B2 (en) Augmenting recommendation algorithms based on similarity between electronic content
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN112566093B (zh) 一种终端关系识别方法、装置、计算机设备及存储介质
CN110309377A (zh) 语义归一化、提问模式的生成、应答确定方法及装置
CN115293332A (zh) 一种图神经网络的训练方法、装置、设备及存储介质
CN111159577B (zh) 一种社群划分方法、装置、存储介质及电子装置
CN111127185A (zh) 信贷欺诈识别模型构建方法及装置
CN110795558B (zh) 标签获取方法和装置、存储介质及电子装置
CN110162957B (zh) 智能设备的鉴权方法和装置、存储介质、电子装置
CN113434857A (zh) 一种应用深度学习的用户行为安全解析方法及系统
CN106997330B (zh) 随机森林模型的转换方法及装置
CN110276283B (zh) 图片识别方法、目标识别模型训练方法及装置
CN111368552A (zh) 一种面向特定领域的网络用户群组划分方法及装置
CN109118413A (zh) 城市活动人口统计方法及其装置、计算机可读介质
CN115457581A (zh) 表格提取方法、装置及计算机设备
CN110232393B (zh) 数据的处理方法、装置、存储介质和电子装置
CN110427558B (zh) 资源处理事件的推送方法及装置
CN106067139A (zh) 一种构建特征数据库的方法、系统和装置
CN111538914A (zh) 地址信息的处理方法和装置
CN117874498B (zh) 基于数据湖的智慧林业大数据系统、方法、设备及介质
CN117541883B (zh) 图像生成模型训练、图像生成方法、系统以及电子设备
CN111507095B (zh) 裁判文书的生成方法、装置、存储介质和处理器
CN114255363A (zh) 图像标签的识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200527

Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 15 layer self unit 02

Applicant before: GUANGZHOU UC NETWORK TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant