CN110309587A - 决策模型构建方法、决策方法与决策模型 - Google Patents

决策模型构建方法、决策方法与决策模型 Download PDF

Info

Publication number
CN110309587A
CN110309587A CN201910576892.2A CN201910576892A CN110309587A CN 110309587 A CN110309587 A CN 110309587A CN 201910576892 A CN201910576892 A CN 201910576892A CN 110309587 A CN110309587 A CN 110309587A
Authority
CN
China
Prior art keywords
node
data
batches
built
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910576892.2A
Other languages
English (en)
Other versions
CN110309587B (zh
Inventor
刘洋
郑宇�
刘颖婷
张钧波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong City Beijing Digital Technology Co Ltd
Original Assignee
Jingdong City Beijing Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong City Beijing Digital Technology Co Ltd filed Critical Jingdong City Beijing Digital Technology Co Ltd
Priority to CN201910576892.2A priority Critical patent/CN110309587B/zh
Publication of CN110309587A publication Critical patent/CN110309587A/zh
Application granted granted Critical
Publication of CN110309587B publication Critical patent/CN110309587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation

Abstract

本公开提供一种决策模型构建方法、决策方法与决策模型。方法包括:对N个数据平台发送待构建节点本次迭代使用的属性编号及待分批数据编号;根据N个数据平台发送的N个基于分批属性编号的最大信息增益率确定待构建节点对应的任务数据平台;向任务数据平台发送节点构建通知,获取任务数据平台根据分批属性编号和待分批数据编号确定的分批数据编号;将分批数据编号同步给其余N‑1个数据平台,以形成待构建节点的子节点以及各子节点对应的待分批数据编号;在存在下一个待构建节点时,确定待构建节点的分批属性编号并重复以上步骤。本公开提供的决策模型构建方法可以降低多平台联合建模过程中的数据交互,提高数据保密性。

Description

决策模型构建方法、决策方法与决策模型
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种决策模型构建方法、使用该决策树构建方法形成的决策模型以及应用该决策模型进行决策的决策方法。
背景技术
提高人工智能模型的决策准确度需要大量的训练数据,单个数据提供方由于数据来源渠道、成本的原因,很难满足需求,由此相关模型建立往往使用多个数据平台提供的数据。为避免多个平台大量数据汇聚带来的用户隐私泄露的风险、企业与政府数据泄露的安全隐患,相关技术提出了多数据平台联合建模树模型的技术方案。
虽然联合建模树模型可以在保护用户隐私的前提下进行联合建模,但是在决策树的每个中间节点,中立服务器都需要和当前节点信息所在的客户端进行交互,以得到决策样本的当前路径。由于数据分布在不同平台、不同网域,随着样本数量的增加以及更多数据提供方的加入,现有决策模型的通信量成指数级上升,在实际应用中对网络通信的压力极大,因此运行时间和网络通信要求都得不到满足。在多平台、海量数据的场景下,无法大规模使用。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种决策模型构建方法与决策模型构建装置,用于至少在一定程度上克服由于相关技术的限制和缺陷而导致的联合建模树模型决策阶段信息交互量多、网络通信压力大、数据安全性不高等问题。
根据本公开实施例的第一方面,提供一种决策模型构建方法,包括:对N个数据平台发送待构建节点的分批属性编号及待分批数据编号;根据所述N个数据平台发送的N个基于所述分批属性编号的最大信息增益率确定所述待构建节点对应的任务数据平台;向所述任务数据平台发送节点构建通知,获取所述任务数据平台根据所述分批属性编号和所述待分批数据编号确定的;将所述分批数据编号同步给其余N-1个数据平台,以形成所述待构建节点的子节点以及各子节点对应的待分批数据编号;在存在下一个待构建节点时,确定所述待构建节点的分批属性编号并重复以上步骤。
在本公开的一种示例性实施例中,所述根据所述N个数据平台发送的N个基于所述属性的最大信息增益率确定所述待构建节点对应的任务数据平台包括:
将N个所述最大信息增益率中的最大值对应的数据平台确定为所述任务数据平台。
在本公开的一种示例性实施例中,所述数据分批阈值由所述任务数据平台根据多个分批方案中信息增益率最大的分批方案确定。
在本公开的一种示例性实施例中,所述分批数据编号包括对应于多个数据区间的数据编号,所述多个数据区间根据所述数据分批阈值形成,每个所述数据区间对应一个子节点或叶子节点。
在本公开的一种示例性实施例中,在所述对N个数据平台发送待构建节点的分批属性编号及待分批数据编号之前,还包括:
判断待构建节点在当前决策树的节点深度是否大于第一预设值;
如果是,将所述待构建节点设置为叶子节点,确定下一个待构建节点;
如果否,确定所述待构建节点的分批属性编号。
在本公开的一种示例性实施例中,所述根据所述N个数据平台发送的N个基于所述分批属性编号的最大信息增益率确定所述待构建节点对应的任务数据平台还包括:
在所述最大信息增益率均小于第二预设值时,将所述待构建节点设置为叶子节点,确定下一个待构建节点。
在本公开的一种示例性实施例中,在所述向所述任务数据平台发送节点构建通知之后,还包括:
响应所述任务平台发送的叶子节点通知,将所述待构建节点设置为叶子节点,确定下一个待构建节点,其中,所述叶子节点通知是所述任务平台在判断任一数据区间的分批数据编号的数量小于第三预设值时产生的。
根据本公开的一个方面,提供一种基于多数据平台的决策方法,包括:
将待分批数据编号编号分配给结构相同的N个不完全决策树,所述N个不完全决策树分别位于N个不同的数据平台上,每个所述不完全决策树仅在部分子节点上存储有与本数据平台相关的分批属性编号的数据分批阈值;
确定各所述不完全决策树之间相同叶子节点的交集数据;
根据所述不完全决策树中所有叶子节点的交集数据确定决策结果。
在本公开的一种示例性实施例中,在每个所述不完全决策树中,在未存储数据分批阈值的节点处将待分批数据编号复制到所有下一级节点,在存储有数据分批阈值的节点处将待分批数据编号按照所述数据分批阈值分批到下一级子节点。
根据本公开的一个方面,提供一种基于多数据平台建立的决策模型,由结构相同的N个不完全决策树组成,所述N个不完全决策树分别位于N个不同的数据平台上,每个所述不完全决策树仅在部分节点上存储有与本数据平台相关的分批属性编号的数据分批阈值。
在本公开的一种示例性实施例中,包括:
构建启动模块,设置为对N个数据平台发送待构建节点的分批属性编号及待分批数据编号;
任务分配模块,设置为根据所述N个数据平台发送的N个基于所述分批属性编号的最大信息增益率确定所述待构建节点对应的任务数据平台;
属性获取模块,设置为向所述任务数据平台发送节点构建通知,获取所述任务数据平台根据所述分批属性编号和所述待分批数据编号确定的;
结构同步模块,设置为将所述分批数据编号同步给其余N-1个数据平台,以形成所述待构建节点的子节点以及各子节点对应的待分批数据编号;
迭代构建模块,设置为在存在下一个待构建节点时,确定所述待构建节点的分批属性编号并重复以上步骤。
根据本公开的一个方面,提供一种电子设备,包括:
存储器;以及
耦合到所属存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上述任意一项所述的决策模型构建方法。
本公开实施例通过在多个数据平台上构建不完全决策树,使每个不完全决策树仅保留本平台存储数据属性的数据分批阈值,利用联合建模模型存储方式的特点,可以将决策阶段的信息交互降为常量级,极大地减少了决策过程中的信息交互,降低通讯压力、提高决策效率的同时能够有效维护各数据平台的数据保密性、降低泄密风险,可以应用在多数据平台、海量数据的场景中。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开示例性实施例中决策模型构建方法的流程图。
图2是本公开示例性实施例中决策模型构建方法的示意图。
图3是本公开示例性实施例中决策模型构建方法中的完全决策树。
图4A和图4B是本公开示例性实施例中决策模型构建方法中的不完全决策树。
图5是本公开实施例建立的决策模型的示意图。
图6是本公开实施例中提供的决策方法的流程图。
图7是图6所示决策方法的示意图。
图8A和图8B是本公开实施例中各不完全决策树进行决策的示意图。
图9是本公开一个示例性实施例中一种决策模型构建装置的方框图。
图10是本公开一个示例性实施例中一种电子设备的方框图。
图11是本公开一个示例性实施例中一种计算机可读存储介质的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的属性、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
下面结合附图对本公开示例实施方式进行详细说明。
图1示意性示出本公开示例性实施例中决策模型构建方法的流程图。参考图1,决策模型构建方法100可以包括:
步骤S102,对N个数据平台发送待构建节点的分批属性编号及待分批数据编号;
步骤S104,根据所述N个数据平台发送的N个基于所述分批属性编号的最大信息增益率确定所述待构建节点对应的任务数据平台;
步骤S106,向所述任务数据平台发送节点构建通知,获取所述任务数据平台根据所述分批属性编号和所述待分批数据编号确定的;
步骤S108,将所述分批数据编号同步给其余N-1个数据平台,以形成所述待构建节点的子节点以及各子节点对应的待分批数据编号;
步骤S110,在存在下一个待构建节点时,确定所述待构建节点的分批属性编号并重复以上步骤。
本公开实施例通过在多个数据平台上构建不完全决策树,使每个不完全决策树仅保留本平台存储数据属性的数据分批阈值,利用联合建模模型存储方式的特点,可以将决策阶段的信息交互降为常量级,极大地减少了决策过程中的信息交互,降低通讯压力、提高决策效率的同时能够有效维护各数据平台的数据保密性、降低泄密风险,可以应用在多数据平台、海量数据的场景中。
下面,对决策模型构建方法100进行详细说明。
本公开实施例可以应用于垂直联邦学习的场景。垂直联邦学习要求每个数据平台所包含的用户基本相同,而用户的属性不同,样本标签来自于其中一个数据拥有方。以某银行贷款业务的精准营销为例:该银行拥有一些客户的年龄信息、资产信息、理财基金产品信息、贷款还款信息等,但并不能完整的刻画用户的还贷能力以及信用信息。而另一企业\政府有这些客户的法人就业登记信息、税务登记信息、不动产信息等,可以很好地弥补单数据平台建模属性不足的痛点。但若是合并数据平台,会造成严重的个人隐私泄露问题。因此在不交互原始数据信息的前提下基于多数据平台联合建模。
在本公开实施例中,以决策树(Decision Tree)模型为基础来进行联合模型。决策树代表对象属性与对象值之间的映射关系,树中分叉路径代表某个可能的属性值,而每个叶节点则对应从根节点到该叶子节点所经历的路径所表示的对象的值。多个决策树模型可以衍生出随机森林和基于树的GBM(梯度提升模型),此时各决策树之间生成、决策的步骤独立,根据本公开提供的决策模型构建方法构建的决策树、随机森林或基于决策树的梯度提升模型等,均在本公开保护范围之内。
下面以单棵树为例说明多平台(客户端)联合建立一棵决策树模型的方法
在步骤S102,对N个数据平台发送待构建节点的分批属性编号及待分批数据编号。
本公开提供的方法可以由耦接于多个数据平台的中立服务器执行。中立服务器建立决策树的根节点后,确定要判断/预测的数据对象及该数据对象的属性作为一个决策树的决策对象,该确定过程例如可以为从n个数据平台共有数据中随机抽取部分属性编号与部分数据编号(例如中立服务器对全局属性编号、数据编号以一定的采样率进行采样)。对于每个子节点,判断的数据对象均与根节点相同,不同的子节点判断的属性不完全相同。因此,本步骤中确定数据对象的操作为一次,每建立一个子节点,均需要确定一个该子节点对应的分批属性。
在本公开一个实施例中,步骤S102之前还可以判断待构建节点在当前决策树的节点深度是否大于第一预设值,如果是,将待构建节点设置为叶子节点,确定下一个待构建节点;如果否,确定待构建节点的分批属性编号。
在此情况下,中立服务器确定待构建节点为叶子节点后,无需对待构建节点执行如图1所示的决策树构建方法,直接寻找下一个待构建节点即可。如果存在下一个待构建节点(未被标示为叶子节点的节点),则对下一个待构建节点判断节点深度;如果不存在下一个待构建节点,则直接返回决策树建立完成消息。各数据平台自己判断待构建节点的节点深度,如果节点深度大于第一预设值,则自行设置叶子节点。
其中,第一预设值可以为决策树的预设深度,通过使用第一预设值限制决策树的深度,可以避免建立过深的决策树,降低决策效率。
确定属性编号后,将属性编号分发至全部数据平台。
在步骤S104,根据所述N个数据平台发送的N个基于所述分批属性编号的最大信息增益率确定所述待构建节点对应的任务数据平台。
各数据平台接收到属性编号后,计算本平台数据对于该属性的信息增益率,将该信息增益率加密传输。中立服务器接收到多个信息增益率后(过程例如包括解密压缩包),确定最大信息增益率,并将最大信息增益率对应的数据平台设置为构建该子节点的任务数据平台。
在本公开的一个实施例中,如果所有数据平台返回的最大信息增益率均小于第二预设值,可以判断当前节点的不纯度的提高程度过小,进而设置当前节点为叶子节点,并确定下一个待构建节点。
在此情况下,中立服务器在确定待构建节点为叶子节点时,通知各数据平台该待构建节点为叶子节点,并中断对该待构建节点的构建动作,寻找下一个待构建节点。如果存在下一个待构建节点(未被标示为叶子节点的节点),则对下一个待构建节点执行如上所述的方法步骤;如果不存在下一个待构建节点,则直接返回决策树建立完成消息。
第二预设值例如可以为不纯度阈值,通过使用第二预设值限制不纯度过小的子节点的建立,可以有效提高决策树的建立效率和使用效率。
在步骤S106,向所述任务数据平台发送节点构建通知,获取所述任务数据平台根据所述分批属性编号和所述待分批数据编号确定的分批数据编号。
本步骤的过程例如可以为下发任务数据平台标签给各数据平台,由各数据平台根据标签判断自己是否是任务数据平台,如果是,则根据多个分批方案中信息增益率最大的分批方案确定对该属性的数据分批阈值,根据该数据分批阈值对待分批数据编号进行分批后,对应于该属性编号存储数据分批阈值,并将分批数据编号返回给中立服务器;如果不是,则等待接收中立服务器发送的分批数据编号。
在一些实施例中,中立服务器发送节点构建通知后,还可能接受到任务数据平台发送的叶子节点通知。
任务数据平台在对待分批数据编号进行分批后,如果判断有个别数据区间的数据编号的数量过少,例如少于第三预设值,则可以判断本次分批无效,该节点不适合作为上一级节点(即拥有子节点),由此可以对中立服务器发送叶子节点通知,以通知中立服务器将该待构建节点设置为叶子节点。
在此情况下,中立服务器在确定一个待构建节点为叶子节点时,可以通知全部数据平台设置叶子节点,以避免其他N-1个数据平台持续等待接收分批数据编号。同时,中断对该待构建节点的构建动作,寻找下一个待构建节点。如果存在下一个待构建节点(未被标示为叶子节点的节点),则对下一个待构建节点执行如上所述的方法步骤;如果不存在下一个待构建节点,则直接返回决策树建立完成消息。
在步骤S108,将所述分批数据编号同步给其余N-1个数据平台,以形成所述待构建节点的子节点以及各子节点对应的待分批数据编号。
该过程也可以为中立服务器将分批数据编号同时分发给所有数据平台,任务数据平台在接收到分批数据编号后不进行处理或直接覆盖之前确定的分批数据编号。各数据平台接收到分批数据编号后,根据分批数据编号的数据区间数量建立该子节点的下一级子节点并反馈给中立服务器,记录各下一级子节点对应的数据编号(即下一级子节点对应的待分批数据编号)。
由于各数据平台确定的分批数据编号一致,因此各下一级子节点一致,各数据平台上存储的决策树的结构一致,区别仅在各子节点对应的任务数据平台上存储有该子节点对应的数据分批阈值,而非任务数据平台上不存储数据分批阈值。
在步骤S110,在存在下一个待构建节点时,确定所述待构建节点的分批属性编号并重复以上步骤。
中立服务器在确定各数据平台构建了下一级子节点后,根据预设规则确定下一个待构建的子节点并重复步骤S102~步骤S108,或者直接确定决策树构建完毕。该预设规则例如可以为判断是否最初选择的属性还未全部拥有对应的子节点,本领域技术人员可以自行确定该预设规则。
图2是本公开提供的决策模型构建方法的示意图。
参考图2,在S21,中立服务器从各数据平台共有数据中随机抽取部分属性编号与部分数据编号。
在S22,每个数据平台各自计算所拥有属性的信息增益,经比较产生一个最大值发给中立服务器。
在S23,中立服务器进行全局比较选中下一步构建节点的任务数据平台并通知该数据平台。
在S24,各数据平台判断最大信息增益率属性是否在本地。
在S25,如果最大信息增益率属性在本地,对数据进行分批并上传分批数据编号给中立服务器,在本地记录与属性编号对应的数据分批阈值;如果不在本地,进入S26等待接收分批数据编号。
在S27,中立服务器将分批数据编号下发给各数据平台。
在S28,各数据平台根据分批数据编号建立下一级子节点,并存储当前子节点。
可以按照图2所示流程递归建立叶子节点,直至建立整棵决策树。
决策树建立完成后,每个数据平台保存整个树结构和与自己相关的部分节点信息。
图3和图4A、图4B是本公开实施例中各数据品台存储的决策树的示意图。
参考图3,完整决策树下例如有“职业”和“年龄”两个属性,节点1对应“职业”属性,节点2对应“年龄”属性。
在图4A,数据平台2是节点1的任务数据平台,节点1对“职业”属性的数据分批阈值存储在数据平台2上,因此数据平台2上存储的树模型中,节点1不但存储了结构,还存储了节点的分裂信息,如属性编号、数据分批阈值等。而节点2的任务数据平台不是数据平台2,因此节点2的属性“年龄”的数据分批阈值不存储在数据平台2上,数据平台2存储的模型在该节点的分裂信息为None。同理,数据平台1存储的模型见图4B。上述节点的分裂信息可以用于对到达该节点的数据按照数据分批阈值进行分批。
通过图4A和图4B可以看出,每个数据平台之间所存储的节点信息无交集,所有平台共同存储完全树的完整信息。
图5是本公开实施例建立的决策模型的示意图。
参考图5,决策模型500由结构相同的N个不完全决策树组成,N个不完全决策树分别位于N个不同的数据平台上,每个不完全决策树仅在部分节点上存储有与本数据平台相关的分批属性的数据分批阈值。
在决策模型500中,所有数据平台存储的模型具有相同的树结构,即包含相同的叶子节点。而对于中间节点及根节点,每个数据平台只在与自己相关的节点保存分裂信息。
生成决策模型后,可以使用该决策模型对数据进行分批。
图6是本公开实施例中提供的决策方法的流程图。
参考图6,决策方法600可以包括:
步骤S602,将待分批数据编号编号分配给结构相同的N个不完全决策树,所述N个不完全决策树分别位于N个不同的数据平台上,每个所述不完全决策树仅在部分子节点上存储有与本数据平台相关的分批属性的数据分批阈值;
步骤S604,确定各所述不完全决策树之间相同叶子节点的交集数据;
步骤S606,根据所述不完全决策树中所有叶子节点的交集数据确定决策结果。
其中,在每个所述不完全决策树中,在未存储数据分批阈值的节点处将待分批数据编号复制到所有下一级节点,在存储有数据分批阈值的节点处将待分批数据编号按照所述数据分批阈值分批到下一级子节点。
图7是图6所示决策方法的示意图。
参考图7,对于来自根节点的全部待分批数据编号,每个数据平台在本地进行决策,最后将落入各叶子节点的数据上传至中立服务器。只需经过一次交互(领取待分批数据编号和上传叶子节点数据),极大降低了数据交互压力、保护了各数据平台的信息安全。
在各数据平台的决策过程中,每个决策样本从根节点出发经过整个不完全树最终落入一个或多个叶子结点中。当该样本经过中间节或根节点时,如果该节点的分裂信息在当前数据平台有存储,则由节点中存储的数据分批阈值来判断该样本在该节点落入哪一个下一级子节点。如果当前节点的分裂信息在当前数据平台没有存储,则该样本同时落入全部下一级子节点。当所有样本都决策完成时,每个叶子节点中都会落入一些样本。
以图4A和图4B所示不完全决策树为例,如果一个用户A的年龄为40岁,职业为白领,则在数据平台1上,当该样本到达节点1时,由于该平台没有当前节点的信息,该样本(用户A)同时落入全部下一级子节点,进入节点2和叶子节点3(如图8A所示)。对于落入节点2的情况,当前数据平台在该节点存储的数据分批阈值为35,因此该样本(用户A)进入左子树,落入叶子节点1。最终,该样本(用户A)在数据平台1上落入了叶子节点1和叶子节点3。同样的,该样本(用户A)在数据平台2上落入了叶子节点1和叶子节点2(如图8B所示)。
随后该数据平台将每个叶子节点的数据编号的集合发送给中立服务器。中立服务器收集所有数据平台的每个叶子节点的数据编号后,对同一叶子节点将来自不同平台的数据编号集合求交集,则该交集即为该叶子节点的值。
最后,结合所有数据平台上叶子节点1的数据交集中包含了用户A,其余叶子节点的交集均不包括,用户A的决策值由叶子节点1决定。
综上所述,本公开提供的决策模型建立方法、决策模型和应用该决策模型实施的决策方法,通过在各数据平台上独立构建不完全树,并在决策过程中由各数据平台独立依赖不完全树进行决策,可以极大地降低各数据平台之间的数据交互次数,提高各数据平台的数据安全程度。
对应于上述方法实施例,本公开还提供一种决策模型构建装置,可以用于执行上述方法实施例。
图9示意性示出本公开一个示例性实施例中一种决策模型构建装置的方框图。
参考图9,决策模型构建装置900可以包括:
构建启动模块902,设置为对N个数据平台发送待构建节点的分批属性编号及待分批数据编号;
任务分配模块904,设置为根据所述N个数据平台发送的N个基于所述分批属性编号的最大信息增益率确定所述待构建节点对应的任务数据平台;
属性获取模块906,设置为向所述任务数据平台发送节点构建通知,获取所述任务数据平台根据所述分批属性编号和所述待分批数据编号确定的;
结构同步模块908,设置为将所述分批数据编号同步给其余N-1个数据平台,以形成所述待构建节点的子节点以及各子节点对应的待分批数据编号;
迭代构建模块910,设置为在存在下一个待构建节点时,确定所述待构建节点的分批属性编号并重复以上步骤。
在本公开的一种示例性实施例中,任务分配模块904设置为:
将N个所述最大信息增益率中的最大值对应的数据平台确定为所述任务数据平台。
在本公开的一种示例性实施例中,所述数据分批阈值由所述任务数据平台根据多个分批方案中信息增益率最大的分批方案确定。
在本公开的一种示例性实施例中,所述分批数据编号包括对应于多个数据区间的数据编号,所述多个数据区间根据所述数据分批阈值形成,每个所述数据区间对应一个子节点或叶子节点。
在本公开的一种示例性实施例中,构建启动模块902还设置为:
判断待构建节点在当前决策树的节点深度是否大于第一预设值;
如果是,将所述待构建节点设置为叶子节点,确定下一个待构建节点;
如果否,确定所述待构建节点的分批属性编号。
在本公开的一种示例性实施例中,任务分配模块904还设置为:
在所述最大信息增益率均小于第二预设值时,将所述待构建节点设置为叶子节点,确定下一个待构建节点。
在本公开的一种示例性实施例中,属性获取模块906还设置为:
响应所述任务平台发送的叶子节点通知,将所述待构建节点设置为叶子节点,确定下一个待构建节点,其中,所述叶子节点通知是所述任务平台在判断任一数据区间的分批数据编号的数量小于第三预设值时产生的。
由于装置900的各功能已在其对应的方法实施例中予以详细说明,本公开于此不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的属性和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的属性和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图10来描述根据本发明的这种实施方式的电子设备1000。图10显示的电子设备1000仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于:上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1010执行,使得所述处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元1010可以执行如图1中所示的步骤。
存储单元1020可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)10201和/或高速缓存存储单元10202,还可以进一步包括只读存储单元(ROM)10203。
存储单元1020还可以包括具有一组(至少一个)程序模块10205的程序/实用工具10204,这样的程序模块10205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1030可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1000也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1000交互的设备通信,和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且,电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1000使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图11所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品1100,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和构思由权利要求指出。

Claims (13)

1.一种基于多平台联合建模的决策模型构建方法,其特征在于,包括:
对N个数据平台发送待构建节点的分批属性编号及待分批数据编号;
根据所述N个数据平台发送的N个基于所述分批属性编号的最大信息增益率确定所述待构建节点对应的任务数据平台;
向所述任务数据平台发送节点构建通知,获取所述任务数据平台根据所述分批属性编号和所述待分批数据编号确定的分批数据编号;
将所述分批数据编号同步给其余N-1个数据平台,以形成所述待构建节点的子节点以及各子节点对应的待分批数据编号;
在存在下一个待构建节点时,确定所述待构建节点的分批属性编号并重复以上步骤。
2.如权利要求1所述的决策模型构建方法,其特征在于,所述根据所述N个数据平台发送的N个基于所述属性的最大信息增益率确定所述待构建节点对应的任务数据平台包括:
将N个所述最大信息增益率中的最大值对应的数据平台确定为所述任务数据平台。
3.如权利要求1所述的决策模型构建方法,其特征在于,所述分批数据编号包括对应于多个数据区间的数据编号,所述多个数据区间根据数据分批阈值形成,每个所述数据区间对应一个子节点或叶子节点。
4.如权利要求3所述的决策模型构建方法,其特征在于,所述数据分批阈值由所述任务数据平台根据多个分批方案中信息增益率最大的分批方案确定。
5.如权利要求1所述的决策树构建方法,其特征在于,在所述对N个数据平台发送待构建节点的分批属性编号及待分批数据编号之前,还包括:
判断待构建节点在当前决策树的节点深度是否大于第一预设值;
如果是,将所述待构建节点设置为叶子节点,确定下一个待构建节点;
如果否,确定所述待构建节点的分批属性编号。
6.如权利要求1所述的决策树构建方法,其特征在于,所述根据所述N个数据平台发送的N个基于所述分批属性编号的最大信息增益率确定所述待构建节点对应的任务数据平台还包括:
在所述最大信息增益率均小于第二预设值时,将所述待构建节点设置为叶子节点,确定下一个待构建节点。
7.如权利要求1所述的决策树构建方法,其特征在于,在所述向所述任务数据平台发送节点构建通知之后,还包括:
响应所述任务平台发送的叶子节点通知,将所述待构建节点设置为叶子节点,确定下一个待构建节点,其中,所述叶子节点通知是所述任务平台在判断任一数据区间的分批数据编号的数量小于第三预设值时产生的。
8.一种基于多数据平台的决策方法,其特征在于,包括:
将待分批数据编号分配给结构相同的N个不完全决策树,所述N个不完全决策树分别位于N个不同的数据平台上,每个所述不完全决策树仅在部分子节点上存储有与本数据平台相关的分批属性编号的数据分批阈值;
确定各所述不完全决策树之间相同叶子节点的交集数据;
根据所述不完全决策树中所有叶子节点的交集数据确定决策结果。
9.如权利要求8所述的决策模型构建方法,其特征在于,在每个所述不完全决策树中,在未存储数据分批阈值的节点处将待分批数据编号复制到所有下一级节点,在存储有数据分批阈值的节点处将待分批数据编号按照所述数据分批阈值分批到下一级子节点。
10.一种基于多数据平台建立的决策模型,其特征在于,由结构相同的N个不完全决策树组成,所述N个不完全决策树分别位于N个不同的数据平台上,每个所述不完全决策树仅在部分节点上存储有与本数据平台相关的分批属性编号的数据分批阈值。
11.一种决策模型构建装置,其特征在于,包括:
构建启动模块,设置为对N个数据平台发送待构建节点的分批属性编号及待分批数据编号;
任务分配模块,设置为根据所述N个数据平台发送的N个基于所述分批属性编号的最大信息增益率确定所述待构建节点对应的任务数据平台;
属性获取模块,设置为向所述任务数据平台发送节点构建通知,获取所述任务数据平台根据所述分批属性编号和所述待分批数据编号确定的;
结构同步模块,设置为将所述分批数据编号同步给其余N-1个数据平台,以形成所述待构建节点的子节点以及各子节点对应的待分批数据编号;
迭代构建模块,设置为在存在下一个待构建节点时,确定所述待构建节点的分批属性编号并重复以上步骤。
12.一种电子设备,其特征在于,包括:
存储器;以及
耦合到所属存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-9任一项所述的决策模型构建方法。
13.一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如权利要求1-9任一项所述的决策模型构建方法。
CN201910576892.2A 2019-06-28 2019-06-28 决策模型构建方法、决策方法与决策模型 Active CN110309587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910576892.2A CN110309587B (zh) 2019-06-28 2019-06-28 决策模型构建方法、决策方法与决策模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910576892.2A CN110309587B (zh) 2019-06-28 2019-06-28 决策模型构建方法、决策方法与决策模型

Publications (2)

Publication Number Publication Date
CN110309587A true CN110309587A (zh) 2019-10-08
CN110309587B CN110309587B (zh) 2024-01-16

Family

ID=68078668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910576892.2A Active CN110309587B (zh) 2019-06-28 2019-06-28 决策模型构建方法、决策方法与决策模型

Country Status (1)

Country Link
CN (1) CN110309587B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046425A (zh) * 2019-12-12 2020-04-21 支付宝(杭州)信息技术有限公司 多方联合进行风险识别的方法和装置
CN111598186A (zh) * 2020-06-05 2020-08-28 腾讯科技(深圳)有限公司 基于纵向联邦学习的决策模型训练方法、预测方法及装置
CN111695701A (zh) * 2020-06-12 2020-09-22 上海富数科技有限公司 基于联邦学习实现数据集构建处理的系统及其构建生成方法
CN112801231A (zh) * 2021-04-07 2021-05-14 支付宝(杭州)信息技术有限公司 用于业务对象分类的决策模型训练方法和装置
CN112949670A (zh) * 2019-12-10 2021-06-11 京东数字科技控股有限公司 用于联邦学习模型的数据集切换方法和装置
CN113392101A (zh) * 2020-03-13 2021-09-14 京东城市(北京)数字科技有限公司 构建横向联邦树的方法、主服务器、业务平台和系统
WO2021203919A1 (zh) * 2020-04-08 2021-10-14 北京字节跳动网络技术有限公司 用于评估联合训练模型的方法和装置
WO2021218167A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 数据处理模型生成方法和装置、数据处理方法和装置
WO2022066089A1 (en) * 2020-09-23 2022-03-31 Chalmers Ventures Ab System and method for scalable machine learning in a communication network
TWI780433B (zh) * 2019-12-12 2022-10-11 大陸商支付寶(杭州)信息技術有限公司 基於聯邦學習的孤立森林模型構建和預測方法和裝置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090281969A1 (en) * 2008-05-09 2009-11-12 Lsi Corporation Decision Tree Representation of a Function
CN103426007A (zh) * 2013-08-29 2013-12-04 人民搜索网络股份公司 一种机器学习分类方法及装置
CN104679911A (zh) * 2015-03-25 2015-06-03 武汉理工大学 一种基于离散弱相关的云平台决策森林分类方法
CN105162880A (zh) * 2015-09-24 2015-12-16 江苏大学附属医院 一种acs区域化协同救治网络系统及其辅助决策方法
US20160239857A1 (en) * 2013-01-04 2016-08-18 PlaceIQ, Inc. Inferring consumer affinities based on shopping behaviors with unsupervised machine learning models
CN107590263A (zh) * 2017-09-22 2018-01-16 辽宁工程技术大学 一种基于多变量决策树模型的分布式大数据分类方法
CN109657696A (zh) * 2018-11-05 2019-04-19 阿里巴巴集团控股有限公司 多任务监督学习模型训练、预测方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090281969A1 (en) * 2008-05-09 2009-11-12 Lsi Corporation Decision Tree Representation of a Function
US20160239857A1 (en) * 2013-01-04 2016-08-18 PlaceIQ, Inc. Inferring consumer affinities based on shopping behaviors with unsupervised machine learning models
CN103426007A (zh) * 2013-08-29 2013-12-04 人民搜索网络股份公司 一种机器学习分类方法及装置
CN104679911A (zh) * 2015-03-25 2015-06-03 武汉理工大学 一种基于离散弱相关的云平台决策森林分类方法
CN105162880A (zh) * 2015-09-24 2015-12-16 江苏大学附属医院 一种acs区域化协同救治网络系统及其辅助决策方法
CN107590263A (zh) * 2017-09-22 2018-01-16 辽宁工程技术大学 一种基于多变量决策树模型的分布式大数据分类方法
CN109657696A (zh) * 2018-11-05 2019-04-19 阿里巴巴集团控股有限公司 多任务监督学习模型训练、预测方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YANG LIU 等: ""Federated Forest"", 《ARXIV》 *
YANG LIU 等: ""Federated Forest"", 《ARXIV》, 24 May 2019 (2019-05-24), pages 2 - 5 *
YANG LIU 等: "Federated Forest", 《ARXIV》, pages 2 - 5 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949670A (zh) * 2019-12-10 2021-06-11 京东数字科技控股有限公司 用于联邦学习模型的数据集切换方法和装置
TWI798550B (zh) * 2019-12-12 2023-04-11 大陸商支付寶(杭州)信息技術有限公司 多方聯合進行風險識別的方法和裝置
TWI780433B (zh) * 2019-12-12 2022-10-11 大陸商支付寶(杭州)信息技術有限公司 基於聯邦學習的孤立森林模型構建和預測方法和裝置
CN111046425B (zh) * 2019-12-12 2021-07-13 支付宝(杭州)信息技术有限公司 多方联合进行风险识别的方法和装置
CN111046425A (zh) * 2019-12-12 2020-04-21 支付宝(杭州)信息技术有限公司 多方联合进行风险识别的方法和装置
CN113392101A (zh) * 2020-03-13 2021-09-14 京东城市(北京)数字科技有限公司 构建横向联邦树的方法、主服务器、业务平台和系统
WO2021203919A1 (zh) * 2020-04-08 2021-10-14 北京字节跳动网络技术有限公司 用于评估联合训练模型的方法和装置
WO2021218167A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 数据处理模型生成方法和装置、数据处理方法和装置
CN111598186A (zh) * 2020-06-05 2020-08-28 腾讯科技(深圳)有限公司 基于纵向联邦学习的决策模型训练方法、预测方法及装置
CN111695701B (zh) * 2020-06-12 2021-08-13 上海富数科技有限公司 基于联邦学习实现数据集构建处理的系统及其构建生成方法
CN111695701A (zh) * 2020-06-12 2020-09-22 上海富数科技有限公司 基于联邦学习实现数据集构建处理的系统及其构建生成方法
WO2022066089A1 (en) * 2020-09-23 2022-03-31 Chalmers Ventures Ab System and method for scalable machine learning in a communication network
CN112801231A (zh) * 2021-04-07 2021-05-14 支付宝(杭州)信息技术有限公司 用于业务对象分类的决策模型训练方法和装置

Also Published As

Publication number Publication date
CN110309587B (zh) 2024-01-16

Similar Documents

Publication Publication Date Title
CN110309587A (zh) 决策模型构建方法、决策方法与决策模型
AU2022287674A1 (en) Universal BCHAIN e3a connections (UBEC)
Pan et al. Sociohydrology modeling for complex urban environments in support of integrated land and water resource management practices
US10079819B2 (en) Systems and methods for authenticating an avatar
Helbing et al. FuturICT: Participatory computing to understand and manage our complex world in a more sustainable and resilient way
CN111428147A (zh) 结合社交和兴趣信息的异源图卷积网络的社交推荐方法
CN112749749B (zh) 基于分类决策树模型的分类方法、装置及电子设备
Loggins et al. CRISIS: Modeling the restoration of interdependent civil and social infrastructure systems following an extreme event
CN111028955A (zh) 一种疫情区域的展示方法及系统
Reilly et al. Agent‐based models as an integrating boundary object for interdisciplinary research
CN105894372A (zh) 预测群体信用的方法和装置
CN112580902B (zh) 对象数据处理方法、装置、计算机设备和存储介质
CN114357105A (zh) 地理预训练模型的预训练方法及模型微调方法
CN110148053A (zh) 用户信贷额度评估方法、装置、电子设备和可读介质
CN109508282A (zh) 埋点标识的设置方法及装置、计算机存储介质、电子设备
Ning‐bo et al. Destination and route choice models for bidirectional pedestrian flow based on the social force model
CN114357319A (zh) 网络请求处理方法、装置、设备、存储介质及程序产品
US10765949B1 (en) Determining action selection policies of an execution device
Bangui et al. Deep-learning based trust management with self-adaptation in the internet of behavior
CN110348999A (zh) 金融风险敏感用户识别方法、装置及电子设备
CN113658689A (zh) 多智能体模型的训练方法、装置、电子设备及存储介质
KR20190057731A (ko) 자가진화 에이전트 기반 시뮬레이션 시스템 및 방법
CN113836437A (zh) 用于帖子推荐的方法、电子设备和存储介质
Chen et al. Using a hybrid evolutionary algorithm for solving signal transmission station location and allocation problem with different regional communication quality restriction
Ibrahim Digital twin technology: A study of differences from simulation modelling and applicability in improving risk analysis.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant