CN111695697A - 多方联合决策树构建方法、设备及可读存储介质 - Google Patents
多方联合决策树构建方法、设备及可读存储介质 Download PDFInfo
- Publication number
- CN111695697A CN111695697A CN202010538004.0A CN202010538004A CN111695697A CN 111695697 A CN111695697 A CN 111695697A CN 202010538004 A CN202010538004 A CN 202010538004A CN 111695697 A CN111695697 A CN 111695697A
- Authority
- CN
- China
- Prior art keywords
- gain
- decision tree
- tree
- sample
- splitting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Mathematical Physics (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种多方联合决策树构建方法、设备及可读存储介质,所述多方联合决策树构建方法包括:获取第一样本数据和待构建树信息,并基于所述第一样本数据和所述待构建树信息,通过与各第二设备进行联邦交互,计算特征分裂增益数据,基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述待构建树信息对应的联合构建决策树。本申请解决了纵向联邦学习建模时计算效率低的技术问题。
Description
技术领域
本申请涉及金融科技(Fintech)的人工智能领域,尤其涉及一种多方联合决策树构建方法、设备及可读存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机软件和人工智能的不断发展,机器学习建模的应用也越来越广泛,其中GBDT(Gradient Boosting Decision Tree,梯度提升迭代决策树)算法常常被用于风控、推荐等应用场景中的纵向联邦学习,目前,随着联邦学习技术的出现,可以通过利用多方的数据来建立共同的机器学习模型,以增强模型效果和更充分地使用数据,且不泄露任一联邦学习参与方的数据,而现有的纵向GBDT联邦建模算法可支持一个数据提供方和一个数据使用方进行双方交互以进行联合建模,但是,一个数据提供方和一个数据使用方的数据量往往是较少的,并不利于纵向GBDT联邦建模算法模型快速、高效的学习到样本的模式分布,导致样本数据利用不充分和捕捉样本标签的模式分布不充分,进而导致在构建算法模型时需要的构建时间更长,需要消耗的系统计算资源更多且模型构建算法效果不满足现实建模需求,进而导致构建算法模型时的计算效率极低,所以,现有技术中存在纵向联邦学习建模时计算效率低的技术问题。
发明内容
本申请的主要目的在于提供一种多方联合决策树构建方法、设备及可读存储介质,旨在解决现有技术中纵向联邦学习建模时计算效率低的技术问题。
为实现上述目的,本申请提供一种多方联合决策树构建方法,所述多方联合决策树构建方法应用于第一设备,所述多方联合决策树构建方法包括:
获取第一样本数据和待构建树信息,并基于所述第一样本数据和所述待构建树信息,通过与各第二设备进行联邦交互,计算特征分裂增益数据;
基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述待构建树信息对应的联合构建决策树。
本申请还提供一种多方联合决策树构建装置,所述多方联合决策树构建装置为虚拟装置,且所述多方联合决策树构建装置应用于第一设备,所述多方联合决策树构建装置包括:
联邦模块,用于获取第一样本数据和待构建树信息,并基于所述第一样本数据和所述待构建树信息,通过与各第二设备进行联邦交互,计算特征分裂增益数据;
确定模块,用于基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述待构建树信息对应的联合构建决策树。
本申请还提供一种多方联合决策树构建设备,所述多方联合决策树构建设备为实体设备,所述多方联合决策树构建设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述多方联合决策树构建方法的程序,所述多方联合决策树构建方法的程序被处理器执行时可实现如上述的多方联合决策树构建方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有实现多方联合决策树构建方法的程序,所述多方联合决策树构建方法的程序被处理器执行时实现如上述的多方联合决策树构建方法的步骤。
本申请通过获取第一样本数据和待构建树信息,并基于所述第一样本数据和所述待构建树信息,通过与各第二设备进行联邦交互,计算特征分裂增益数据,进而基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述待构建树信息对应的联合构建决策树。也即,本申请提供了一种多方联合建模方法,可通过与各所述第二设备进行多方联邦交互,进而基于本地的第一地样本数据和各参与方的第二样本数据,通过计算特征分裂增益数据的方法,确定符合预设特征分裂增益条件的目标增益分裂点集合,进而基于所述目标增益分裂点集合中的分裂点,即可实现对所述第一样本数据对应的根节点进行分裂生长,生成联合构建决策树,也即,本申请提供了一种可基于数量更多、更宽泛的样本数据进行建模的建模方法,提高了捕捉样本数据的模式分布的效率和模型的收敛速度,进而避免了由于建模时样本数据过少或者样本数据获取速度过慢,而导致在进行纵向联邦建模算法模型构建速度慢且构建时间长的情况发生,进而提高了纵向联邦建模算法模型构建时的计算效率,所以,解决了现有技术中纵向联邦学习建模时计算效率低的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请多方联合决策树构建方法第一实施例的流程示意图;
图2为本申请多方联合决策树构建方法中所述树类型的示意图
图3为本申请多方联合决策树构建方法第二实施例的流程示意图;
图4为本申请实施例方案涉及的硬件运行环境的所述多方联合决策树构建设备的结构示意图;
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种多方联合决策树构建方法,在本申请多方联合决策树构建方法的第一实施例中,所述多方联合决策树构建方法应用于第一设备,参照图1,所述多方联合决策树构建方法包括:
步骤S10,获取第一样本数据和待构建树信息,并基于所述第一样本数据和所述待构建树信息,通过与各第二设备进行联邦交互,计算特征分裂增益数据;
在本实施例中,需要说明的是,所述第二设备可与所述第一设备进行通信连接,且所述第一设备与各所述第二设备可进行纵向联邦学习,且所述第一设备为纵向联邦学习的主导方,各所述第二设备为纵向联邦学习的参与方,所述待构建树信息为待构建树的类型信息,且所述待构建树信息存储于预设待构建树计划中,其中,所述预设待构建树计划为用于构建联合构建决策树的计划,例如,假设在进行纵向联邦学习的过程中,所述纵向联邦学习包括t轮联邦,则一共需要构建t颗树,则所述预设待构建树计划则确定好了这t颗树的类型。
另外地,需要说明的是,所述待构建树的类型包括主导方树、参与方树、分层树和普通树,如图2所示为所述待构建树的树类型的示意图,假设只存在一个参与方,normal即为所述普通树,guest local为所述主导方树,layered为所述分层树,host local为所述参与方树,guest node为属于第一设备的树节点,host node为属于第二设备的树节点。
另外地,需要说明的是,所述第一样本数据对应的所有样本或者样本对应的标识在刚开始建模时均处于待构建的联合构建决策树的根节点,并以所述根节点作为当前待分裂节点,其中,所述当前待分裂节点中包括样本队列,所述样本队列中包括所述样本数据,所述样本数据包括第一样本数据和属于第二设备的第二样本数据,所述特征分裂增益数据包括特征分裂增益直方图,其中,所述特征分裂增益直方图用于基于预设增益计算公式寻找所述特征分裂增益直方图中的最大增益分裂点。
获取第一样本数据和待构建树信息,并基于所述第一样本数据和所述待构建树信息,通过与各第二设备进行联邦交互,计算特征分裂增益数据,具体地,与各所述第二设备进行样本对齐,确定第一样本数据,并获取本轮联邦对应的待构建树类型,其中,所述待构建树类型为所述待构建树的类型信息,进一步地,对所述第一样本数据进行特征分箱,以将所述第一样本数据进行离散化,获得多个样本数据分箱,进一步地,计算所述第一样本数据对应的一阶梯度集合和二阶梯度集合,进而基于所述一阶梯度集合、所述二阶梯度集合和预设梯度直方图算法计算所述当前待分裂节点中的样本队列的队首元素对应的特征分裂直方图。
其中,所述第一设备包括第一样本ID,各所述第二设备包括各自对应的第二样本ID,
所述获取第一样本数据的步骤包括:
步骤S11,对所述第一样本ID和各所述第二样本ID进行交集处理,获得待建模样本ID;
在本实施例中,需要说明的是,所述第一样本ID为属于第一设备的样本的身份标识,所述第二样本ID为属于第二设备的样本的身份标识。
对所述第一样本ID和各所述第二样本ID进行交集处理,获得待建模样本ID,具体地,基于预设多方交集算法,对所述第一样本ID和每一所述第二样本ID进行交集处理,获得多个交集处理结果,对所述多个交集处理结果进行并集处理,获得所述待建模样本ID。
步骤S12,将所述待建模样本ID与所述第一设备的本地样本数据进行交集处理,获得所述第一样本数据。
在本实施例中,将所述待建模样本ID与所述第一设备的本地样本数据进行交集处理,获得所述第一样本数据,具体地,将所述待建模样本ID与所述第一设备的本地样本数据进行交集处理,获得所述第一样本数据对应的第一选定ID,基于所述第一选定ID,在所述第一设备的本地数据库中提取所述第一选定ID对应的第一样本数据,进一步地,所述第二设备可将所述待建模样本ID与各所述第二样本ID进行交集处理,获得第二选定ID,并由各所述第二设备在各自的本地数据库中提取各所述第二选定ID对应的第二样本数据。
其中,述基于所述第一样本数据和所述待构建树信息,通过与各第二设备进行联邦交互,计算特征分裂增益数据的步骤包括:
步骤A10,对所述第一样本数据进行特征分箱,获得第一特征分箱数据;
在本实施例中,对所述第一样本数据进行特征分箱,获得第一特征分箱数据,具体地,对所述第一样本数据进行特征分箱,以对所述第一样本数据进行离散化,获得所述第一样本数据对应的第一特征分箱数据,并通过预设密钥生成模块生成进行本次联邦学习所需的密钥对。
步骤A20,获取模型残差和所述第一特征分箱数据对应的数据标签,并基于所述模型残差和所述数据标签,计算所述第一特征分箱数据对应的一阶梯度集合和二阶梯度集合;
在本实施例中,需要说明的是,所述一阶梯度集合包括所述第一样本数据中每一条样本对应的一阶梯度,所述二阶梯度包括所述第一特征分箱数据中每一条样本对应的二阶梯度,其中,每一所述样本均对应一数据标签、一样本I D和一特征编码,其中,所述样本ID为所述特征分箱数据的身份标签,例如,用户电话号码、用户身份证号等数据可设置为所述样本I D,所述特征编码标识了所述样本的特征类型,所述数据标签标记了所述第一特征分箱数据中的每一条数据,例如,假设所述第一样本数据为客户贷款还款记录数据,则所述数据标签基于所述客户贷款还款记录数据标识了所述客户的信誉度,也即,标识了所述客户的类型,例如,所述客户为好客户或者坏客户等,所述模型残差为在本轮联邦之前进行的上一轮联邦的模型残差,可从第一设备的本地数据库中提取。
获取模型残差和所述第一特征分箱数据对应的数据标签,并基于所述模型残差和所述数据标签,计算所述第一特征分箱数据对应的一阶梯度集合和二阶梯度集合,具体地,获取模型残差和所述第一特征分箱数据中每一样本对应的数据标签,进而基于所述模型残差和所述数据标签建立关于所述模型残差和所述数据标签的目标损失函数,进而对所述目标函数求取关于所述数据标签的一阶导数和二阶导数,获得各所述样本对应的一阶导数和二阶导数,进而获得所述一阶梯度集合和所述二阶梯度集合,其中所述一阶梯度集合包括各所述一阶导数,所述二阶梯度集合包括各所述二阶导数。
步骤A30,基于所述一阶梯度集合、所述二阶梯度集合和所述待构建树信息,通过与各所述第二设备进行联邦交互以进行纵向联邦学习,计算所述特征分裂增益数据。
在本实施例中,所述特征分裂增益数据包括第一特征分裂增益直方图和第二特征分裂增益直方图。
基于所述一阶梯度集合、所述二阶梯度集合和所述待构建树信息,通过与各所述第二设备进行联邦交互以进行纵向联邦学习,计算所述特征分裂增益数据,具体地,基于所述一阶梯度集合和所述二阶梯度集合,通过预设梯度直方图算法计算所述第一样本数据对应的第一特征分裂直方图,并基于所述公私密钥中的公钥,将所述一阶梯度集合和所述二阶梯度集合分别加密发送至各所述第二设备,以供各所述第二设备基于加密的所述第一阶梯度集合和加密的二阶梯度集合,计算加密的第二特征分裂增益直方图,并将加密的第二特征分裂增益直方图反馈至所述第一设备,进而所述第一设备接收各所述第二设备基于所述一阶梯度集合和所述二阶梯度集合各自分别反馈的加密的各所述第二特征分裂增益直方图,进而基于所述密钥对中的私钥,对加密的各所述第二特征分裂增益直方图进行解密,获得各所述第二特征分裂增益直方图。
其中,所述待构建树信息包括待构建树类型,
所述基于所述一阶梯度集合、所述二阶梯度集合和所述待构建树信息,通过与各所述第二设备进行联邦交互以进行纵向联邦学习,计算所述特征分裂增益数据的步骤包括:
步骤A31,基于所述一阶梯度集合和所述二阶梯度集合,计算所述第一特征分裂增益直方图;
在本实施例中,需要说明的是,所述第一特征分箱数据包括多个第一样本分箱,所述第一样本分箱中至少包括属于第一设备的一个第一样本,每一所述第一样本对应存在第一样本ID和第一特征编码。
基于所述一阶梯度集合和所述二阶梯度集合,计算所述第一特征分裂增益直方图,具体地,基于所述一阶梯度集合中各样本对应的一阶梯度所述二阶梯度集合中各样本对应的二阶梯度,分别统计每一所述样本分箱中各样本对应的一阶梯度之和以及二阶梯度之和,进而基于每一所述第一样本分箱对应的一阶梯度之和、二阶梯度之和以及所述第一样本分箱对应的第一样本数量,自动绘制所述第一特征分裂增益直方图,其中,所述第一特征分裂增益直方图中包括参与本次计算的每一第一样本分箱中所有第一样本的一阶梯度之和、参与本次计算的每一第一样本分箱中所有第一样本的二阶梯度之和以及参与本次计算的每一第一样本分箱对应的样本数量。
步骤A32,若所述待构建树类型为主导方树,则将所述第一特征分裂增益直方图作为所述特征分裂增益数据;
在本实施例中,需要说明的是,若所述待构建树类型为主导方树,则所述第一设备在本地计算第一特征分裂增益直方图即可,无需与各第二设备进行交互,以计算第二特征分裂增益直方图,此时,所述特征分裂增益直方图只包括由第一设备单独计算的第一特征分裂增益直方图。
步骤A33,若所述待构建树不为所述主导方树,则将所述一阶梯度集合和所述二阶梯度集合加密发送至各所述第二设备,并接收各所述第二设备基于所述一阶梯度集合和所述二阶梯度集合分别加密反馈的第二特征分裂增益直方图;
在本实施例中,若所述待构建树不为所述主导方树,则将所述一阶梯度集合和所述二阶梯度集合加密发送至各所述第二设备,并接收各所述第二设备基于所述一阶梯度集合和所述二阶梯度集合分别加密反馈的第二特征分裂增益直方图,具体地,基于所述密钥对中的公钥,对所述一阶梯度集合和所述二阶梯度集合进行加密处理,获得加密的一阶梯度集合和加密的二阶梯度集合,进而将所述加密的一阶梯度集合和所述加密的二阶梯度集合发送至所述第二设备,进而接收所述第二设备反馈的加密后的所述第二特征分裂增益直方图,进而,基于所述密钥对中的私钥,对加密的所述第二特征分裂增益直方图进行解密,获得所述第二特征分裂增益直方图。
其中,需要说明的是,第二设备在获得加密的一阶梯度集合和二阶梯度集合后,所述第二设备将基于所述加密的所述一阶梯度集合、加密的所述二阶梯度集合,统计计算所述第二设备中的第二特征分箱数据的各个第二样本分箱对应的加密的一阶梯度之和以及加密的二阶梯度之和,其中,所述第二样本分箱中包括一个或者多个属于第二设备的第二样本,进而基于每一所述第二样本分箱对应的样本数量、加密的一阶梯度之和以及加密的二阶梯度之和,绘制加密的第二特征分裂增益直方图,其中,所述加密所述一阶梯度和所述二阶梯度的加密方法为加法同态加密算法,所以可基于加密的所述一阶梯度集合中各加密的一阶梯度和加密的二阶梯度集合中各加密的二阶梯度,分别计算出加密的所述一阶梯度之和以及加密的所述二阶梯度之和,且对加密的所述第二特征分裂增益直方图进行解密,可获得所述第二设备基于每一所述第二样本分箱对应的一阶梯度之和、对应的二阶梯度之和以及对应的样本数量生成的第二特征分裂增益直方图。
步骤A34,将所述第一特征分裂增益直方图和各所述第二特征分裂增益直方图作为所述特征分裂增益数据。
在本实施例中,需要说明的是,若所述待构建树不为所述主导方树,则需要与各所述第二设备进行联邦交互,以确定各所述第二特征分裂增益直方图。
步骤S20,基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述待构建树信息对应的联合构建决策树;
在本实施例中,基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述待构建树信息对应的联合构建决策树,具体地,基于预设增益计算公式,寻找所述特征分裂增益直方图中的第一最大增益分裂点,其中,所述第一最大增益分裂点为所述第一样本数据对应的根节点的最大增益分裂点,进而基于所述第一最大增益分裂点,分裂所述根节点,获得所述根节点的初始孩子节点,进而判断所述初始孩子节点是否达预设停止分裂条件,若达到,则停止分裂,并将所述初始孩子节点作为本轮联邦获得的当前决策树的叶子节点,若未达到,则分裂所述初始孩子节点,直至正在构建的所述当前决策树的所有节点均不可再分裂,获得所述当前决策树,进而若所述当前决策树达到预设联邦结束条件,则将所述当前决策树作为所述联合构建决策树,若所述当前决策树未达到预设联邦结束条件,则重新构建所述当前决策树,直至所述当前决策树达到预设联邦结束条件。
另外地,需要说明的是,所述目标增益分裂点集合包括各最大增益分裂点,若正在构建的当前决策树为主导方树,则基于所述第一特征分裂直方图进行所述最大增益分裂点的确定,若正在构建的当前决策树不为主导方树,则将基于所述第一样本数据计算的一阶梯度集合和二阶梯度集合加密发送至各所述第二设备,进而由各所述第二设备基于所述第一设备发送的加密的一阶梯度集合和加密的二阶梯度集合计算加密的第二特征分裂增益直方图,并将所述加密的特征分裂直方图返回所述第一设备,其中,加密的算法包括同态加密算法,进而若待构建的联合构建决策树为参与方树,则基于各所述第二特征分裂增益直方图,确定各所述最大增益分裂点,若待构建的联合构建决策树为参与方树为普通树或者分层树,则基于各所述第二特征分裂增益直方图和所述第一特征分裂增益直方图,确定各所述最大增益分裂点,其中,需要说明的是,在所述分层树中,所述分层树的每一层的所有节点均单独属于所述第一设备或者某一所述第二设备,而在所述普通树中,所述普通树的每一节点单独属于所述第一设备或者某一所述第二设备,进一步地,若所述当前决策树为主导方树,则标识所述当前决策树属于第一设备,若所述当前决策树参与方树,则标识所述当前决策树属于对应的第二设备,若所述当前决策树为普通树,则标识所述当前决策树中各树节点的归属,若所述当前决策树为分层树,则标识所述当前决策树的每一层的归属。
另外地,需要说明的是,在构建联合构建决策树时,需要构建至少一颗当前决策树,直至所述当前决策树达到预设联邦结束条件,例如,假设在构建所述联合构建决策树时,一共构建了t颗当前决策树,且在t颗当前决策树中,存在a颗普通树,b颗参与方树,c颗主导方树和d颗分层树,则t=a+b+c+d,且在构建每一颗当前决策树时,当前决策树的类型由所述待构建树信息决定,直至当前决策树达到预设联邦结束条件,获得联合构建决策树。
其中,所述特征分裂增益数据包括第一特征分裂增益直方图和第二特征分裂增益直方图,所述目标增益分裂点集合包括参与方最大增益分裂点和主导方最大增益分裂点,
所述基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述待构建树信息对应的联合构建决策树的步骤包括:
步骤S21,确定所述待构建树信息中的待构建树类型,若所述待构建树类型为节点混合类型,则基于所述第一特征分裂增益直方图和各所述第二特征分裂增益直方图,确定所述目标增益分裂点集合;
在本实施例中,确定所述待构建树信息中的待构建树类型,若所述待构建树类型为节点混合类型,则基于所述第一特征分裂增益直方图和各所述第二特征分裂增益直方图,确定所述目标增益分裂点集合,具体地,确定所述待构建树信息中的待构建树类型,若所述待构建树类型为节点混合类型,则正在构建的待构建树为普通树,也即,正在构建的当前决策树为普通树,进一步地,遍历所述第一特征分裂增益直方图与各所述第二特征分裂增益直方图对应的每一样本分箱,进而基于预设增益计算公式,分别计算各所述样本分箱对应的可分裂点对应的计算增益,进而在各所述计算增益中确定最大增益,并将所述最大增益对应的可分裂点作为最大增益分裂点,进一步地,将所述第一最大增益分裂点的两侧的特征分箱数据中继续确定其他的最大增益分裂点,进而获得各最大增益分裂点,并将各所述最大增益分裂点组成的集合作为所述目标增益分裂点集合,例如,假设所述第一样本数据为样本的年龄数据,其中,存在50个样本在0至18岁,存在40个样本在18至30岁,存在90个样本在30至55岁,存在100个样本在55岁至100岁,则各所述可分裂点分别为(0、18、30、55、100),进而第一进行增益计算获得的最大增益分裂点为55,进而在(0、18、30)和100中分别再确定最大分裂点为18,则各所述最大增益分裂点为18和55,所述当前决策树包括5个树节点,第一层为根节点,且根节点中包括所有样本,根节点的左孩子节点包括0至55岁对应的180个样本,根节点的右孩子节点包括55至100岁的100个样本,且右孩子节点为叶子节点,对应的数据标签为“老年”,进一步地,左孩子节点可继续分裂为两个孩子节点为左叶子节点和右叶子节点,其中,左叶子节点包括0至18岁的50个样本,对应的数据标签为“少年”,右叶子节点包括18至55岁的130个样本,对应的数据标签为“中青年”。
另外地,需要说明的是,其中,所述预设增益计算公式如下所示:
其中,M为所述计算增益,所述GL为左孩子节点中的样本的一阶梯度之和,GR为右孩子节点中的所有一阶梯度之和,所述HL为左孩子节点中的样本的二阶梯度之和,HR为右孩子节点中的所有二阶梯度之和,G为父节点中的样本的一阶梯度之和,H为父节点中的样本的二阶梯度之和,λ为调整参数,用于调整所述增益的取值范围,所以,在进行计算时,需要说明的是,所述第一样本和所述第二样本是存在取值范围的,且在所述取值范围内存在多个可分裂点,基于每一个可分裂点,均可分裂所述第一样本数据或者所述第二样本数据,获得左孩子样本数据和右孩子样本数据,其中,所述左孩子样本数据在父节点进行分裂后对应所述左孩子节点,所述右孩子样本数据在父节点进行分裂后对应所述右孩子节点,进而计算所述增益,也即M的取值,进而取最大的M取值对应的分裂点作为所述最大增益分裂点。
步骤S22,若所述待构建树类型为分层类型,则基于所述第一特征分裂增益直方图,确定所述主导方最大增益分裂点,并基于各所述第二特征分裂增益直方图,确定所述参与方最大增益分裂点;
在本实施例中,需要说明的是,若所述待构建树类型为分层类型,则表明待构建的当前决策树为分层树,其中,在所述分层树至少包括一节点层,在所述分层树的最少层应当为根节点,每一节点层应单独属于第一设备或者某一第二设备。
若所述待构建树类型为分层类型,则基于所述第一特征分裂增益直方图,确定所述主导方最大增益分裂点,并基于各所述第二特征分裂增益直方图,确定所述参与方最大增益分裂点,具体地,若所述待构建树类型为分层类型,则基于所述第一特征分增益直方图和预设增益计算公式,确定属于第一设备的节点层对应的各最大增益分裂点,并基于各所述第二特征分裂增益直方图和预设增益计算公式,确定属于第二设备的节点层对应的各最大增益分裂点,其中,在普通树中,由于每一节点层的各树节点可能属于多个第二设备,进而在确定属于第二设备的每一树节点的最大增益分裂点之后,均需要和对应的第二设备进行通信,以确定树节点的归属,而分层树中,由于整个节点层属于某一第二设备,进而在确定节点层中每一树节点的最大增益分裂点之后,与所述节点层对应的第二设备进行通信即可确定节点层的归属,而由于树的节点层的数量是远远小于树的节点的数量的,所以,构建分层树相比于构建普通树,可在极大程度上减少第一设备和各第二设备之间的通信次数,进而减少了通信量和通信成本,进一步地,减少了为通信服务的数据加密过程,进而减少了进行数据加密的计算量,进而提高了纵向联邦学习建模时的计算效率。
其中,所述目标增益分裂点集合包括第一最大增益分裂点和第二最大增益裂点,
所述基于所述第一特征分裂增益直方图和各所述第二特征分裂增益直方图,确定所述目标增益分裂点集合的步骤包括:
步骤S221,基于所述第一特征分裂增益直方图和各所述第二特征分裂直方图,通过预设增益计算公式确定所述第一样本数据对应的根节点的所述第一最大增益分裂点;
基于所述第一特征分裂增益直方图和各所述第二特征分裂直方图,通过预设增益计算公式确定所述第一样本数据对应的根节点的所述第一最大增益分裂点,具体地,确定所述第一特征分裂增益直方图对应的各可分裂点,进而确定各所述可分裂点对应的左孩子节点的所有样本的左孩子节点一阶梯度之和、左孩子节点二阶梯度之和,以及对应的右孩子节点的所有样本的右孩子节点一阶梯度之和、右孩子节点二阶梯度之和,其中,需要说明的是,基于所述可分裂点,可分裂点所述第一样本数据对应的根节点,获得所述根节点对应的左孩子节点和右孩子节点,进而基于预设增益计算公式与每一可分裂点对应的左孩子节点一阶梯度之和、对应的左孩子节点二阶梯度之和、对应的右孩子节点一阶梯度之和以及右孩子节点二阶梯度之和,计算每一所述可分裂点对应的计算增益,相同地,可计算每一所述第二特征分裂直方图对应的计算增益,进而在所有计算增益中选取最大增益,并将所述最大增益对应的可分裂点作为所述第一最大增益分裂点。
步骤S222,基于所述第一最大增益分裂点,分裂所述根节点,获得所述根节点对应的初始孩子节点;
在本实施例中,基于所述第一最大增益分裂点,分裂所述根节点,获得所述根节点对应的初始孩子节点,具体地,基于所述第一最大增益分裂点,分裂所述根节点,以将所述第一特征分箱数据划分为属于所述根节点的左孩子节点的左侧样本集以及属于所述根节点的右孩子节点的右侧样本集,进而获得所述初始孩子节点,其中,所述初始孩子节点即为所述根节点的左孩子节点和右孩子节点。
步骤S223,判断所述初始孩子节点是否达到预设停止分裂条件,若所述初始孩子节点达到所述预设停止分裂条件,则判定所述初始孩子节点属于预设叶子节点类型,并将所述第一最大增益分裂点作为所述目标增益分裂点集合;
在本实施例中,需要说明的是,所述预设停止分裂条件为判断树节点是否可在进行分裂的条件,所述预设停止分裂条件包括树节点中样本的数量达到预设最小样本数量阀值和树节点对应的样本集中无可分裂点等。
判断所述初始孩子节点是否达到预设停止分裂条件,若所述初始孩子节点达到所述预设停止分裂条件,则判定所述初始孩子节点属于预设叶子节点类型,并将所述第一最大增益分裂点作为所述目标增益分裂点集合,具体地,判断所述根节点的左孩子节点和右孩子节点是否均达到预设停止分裂条件,若均达到所述预设停止分裂条件,则所述根节点的左孩子节点和右孩子节点均为预设叶子节点类型,进而将所述第一最大增益分裂点作为所述目标增益分裂点集合,也即,所述目标增益分裂点集合中只包括所述第一最大增益分裂点。
步骤S224,若所述初始孩子节点未达到所述预设停止分裂条件,基于所述预设增益计算公式,确定所述初始孩子节点对应的所述第二最大增益分裂点;
在本实施例中,若所述初始孩子节点未达到所述预设停止分裂条件,基于所述预设增益计算公式,确定所述初始孩子节点对应的所述第二最大增益分裂点,具体地,若所述根节点的左孩子节点和右孩子节点中存在未达到所述预设停止分裂条件的可分裂孩子节点,则基于所述预设增益计算公式,确定所述可分裂孩子节点对应的所述第二最大增益分裂点。
步骤S225,基于所述第二最大增益分裂点,对所述初始孩子节点进行再分裂,直至所述初始孩子节点对应的各分裂节点达到所述预设停止分裂节点,获得所述目标增益分裂点集合。
在本实施例中,基于所述第二最大增益分裂点,对所述初始孩子节点进行再分裂,直至所述初始孩子节点对应的各分裂节点达到所述预设停止分裂节点,获得所述目标增益分裂点集合,具体地,基于所述第二最大增益分裂点,对所述可分裂孩子节点进行再分裂,获得所述可分裂孩子节点的再分裂孩子节点,进而重新进行所述再分裂孩子节点是否达到预设停止分裂条件的判断,直至基于所述根节点获得的树节点不可再分裂,获得各所述最大增益分裂点,其中,各所述最大增益分裂点包括所述第一最大增益分裂点和所述第二最大增益分裂点,也即,获得所述目标增益分裂点集合。
步骤S23,若所述待构建树类型为参与方类型,则基于各所述第二特征分裂增益直方图,确定所述目标增益分裂点集合。
在本实施例中,若所述待构建树类型为参与方类型,则基于各所述第二特征分裂增益直方图,确定所述目标增益分裂点集合,具体地,若所述待构建树类型为分层类型,则基于所述第二特征分增益直方图和预设增益计算公式,确定所述第一样本数据中各第一样本对应的各最大增益分裂点,获得所述目标增益分裂点集合,其中,在普通树中,由于每一节点层的各树节点可能属于多个第二设备,进而在确定属于第二设备的每一树节点的最大增益分裂点时,均需要和对应的第二设备进行通信,以确定各树节点的归属,而参与方树中,由于整个参与方属于某一第二设备,进而在确定参与方树中每一树节点的最大增益分裂点时,与所述参与方树对应的第二设备进行通信即可确定参与方树的归属,所以,构建分层树相比于构建普通树,可在极大程度上减少第一设备和各第二设备之间的通信次数,进而减少了通信量和通信成本,进一步地,减少了为通信服务的数据加密过程,进而减少了进行数据加密的计算量,进而提高了纵向联邦学习建模时的计算效率。
另外地,对主导方树,由于只在主导方本地进行计算,以确定最大增益分裂点,无需与各所述第二设备进行通信,进而相比于普通树,可极大程度上减少通信次数,进而减少了通信量和通信成本,进一步地,减少了为通信服务的数据加密过程,进而减少了进行数据加密的计算量,进而提高了纵向联邦学习建模时的计算效率。
步骤S24,若所述待构建树类型为主导方类型,则基于所述第一特征分裂增益直方图,确定所述目标增益分裂点集合;
在本实施例中,若所述待构建树类型为主导方类型,则基于所述第一特征分裂增益直方图,确定所述目标增益分裂点集合,具体地,基于预设增益计算公式,在所述第一特征分裂增益直方图中,确定所述第一样本数据对应的根节点的最大增益分裂点,并基于所述最大增益分裂点,分裂所述根节点,获得所述根节点对应的孩子节点,获得初始分裂树,并判断所述初始分裂树是否达到预设停止分裂条件,若所述初始分裂树达到预设停止分裂条件,则停止分裂,获得所述最大增益分裂点,也即获得所述目标增益分裂点集合,若所述初始分裂树未达到预设停止分裂条件,则基于所述第一特征分裂增益直方图和所述预设增益计算公式,继续确定所述孩子节点的最大增益分裂点,直至所述初始分裂树中的各树节点无法继续分裂,则将各所述最大增益分裂点作为所述目标增益分裂点集合。
步骤S25,基于所述目标增益分裂点集合,确定当前决策树。
在本实施例中,基于所述目标增益分裂点集合,确定当前决策树,具体地,基于所述目标增益分裂点集合中的各最大增益分裂点,从所述第一样本数据对应的根节点进行生长,逐步生成各树分支,获得所述当前决策树。
其中,所述基于所述目标增益分裂点集合,确定当前决策树的步骤包括:
步骤S251,确定所述第一样本数据对应的待分裂树节点,并判断所述待分裂树节点是否达到预设停止分裂条件,若所述待分裂树节点达到所述预设停止分裂条件,则将所述待分裂树节点作为所述联合构建决策树的叶子节点;
在本实施例中,需要说明的是,所述预设停止分裂条件包括所述最大增益达到预设增益阀值、所述待分裂节点达到最大的树的深度等,所述待分裂树节点为待构建的当前决策树上的可以进行分裂的节点,在最开始时,所述待分裂树节点为根节点。
确定所述第一样本数据对应的待分裂树节点,并判断所述待分裂树节点是否达到预设停止分裂条件,若所述待分裂树节点达到所述预设停止分裂条件,则将所述待分裂树节点作为所述联合构建决策树的叶子节点,具体地,确定所述第一样本数据对应的待分裂树节点,并判断所述待分裂树节点是否达到预设停止分裂条件,若所述待分裂树节点达到所述预设停止分裂条件,则计算分裂到所述待分裂树节点的样本所占的样本权重,并将所述待分裂树节点作为所述当前决策树的叶子节点,并将所述样本权重作为叶子信息记录在所述叶子节点中。
步骤S252,若所述待分裂树节点未达到所述预设停止分裂条件,则基于所述待分裂树节点对应的最大增益分裂点,分裂所述待分裂树节点,获得孩子节点;
在本实施例中,若所述待分裂树节点未达到所述预设停止分裂条件,则基于所述待分裂树节点对应的最大增益分裂点,分裂所述待分裂树节点,获得孩子节点,具体地,若所述待分裂树节点未达到所述预设停止分裂条件,则基于所述目标增益分裂点集合中所述待分裂树节点对应的最大增益分裂点,将所述第一样本数据分裂为左孩子样本集和右孩子样本集,并生成所述左孩子样本集对应的左孩子节点和右孩子样本集对应的右孩子节点,其中,所述孩子节点中记录了样本集中每一样本对应的样本ID和特征编码,所述样本集包括第一设备的第一样本和第二设备的第二样本。
步骤S253,基于目标增益分裂点集合,重新所述对所述孩子节点进行分裂,直至所述待分裂树节点对应的待分裂树的所有节点不可再分裂,获得当前决策树;
在本实施例中,基于目标增益分裂点集合,重新所述对所述孩子节点进行分裂,直至所述待分裂树节点对应的待分裂树的所有节点不可再分裂,获得当前决策树,具体地,对所述孩子节点进行是否达到预设停止分裂条件的判断,若孩子节点达到所述预设停止分裂条件,则将所述孩子节点作为叶子节点,若孩子节点未达到所述预设停止分裂条件,则基于所述目标增益分裂点集合中所述孩子节点对应的最大增益分裂点,分裂所述孩子节点,直至待构建的所述当前决策树的所有节点均不可再分裂,获得所述当前决策树。
步骤S26,若所述当前决策树达到预设联邦结束条件,则将所述当前决策树作为所述联合构建决策树。
在本实施例中,需要说明的是,所述预设联邦结束条件包括达到预设当前构建树构建数量阀值,损失函数收敛等,若所述当前决策树未达到预设联邦结束条件,则基于所述当前决策树的模型残差,进行下一轮联邦,重新构建当前决策树,直至所述当前决策树达到所述预设联邦结束条件。
其中,所述目标增益分裂点集合至少包括一最大增益分裂点,
在所述基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述待构建树信息对应的联合构建决策树的步骤之后,所述多方联合决策树构建方法还包括:
步骤B10,判断所述最大增益分裂点的归属,若所述第一最大增益分裂点属于所述第一设备,则向各所述第二设备发送空值,并标记所述第一最大增益分裂点属于所述第一设备;
在本实施例中,需要说明的是,所有所述可分裂点均处于样本的取值范围之中,所述第一样本数据和所述第二样本数据为相同的客户群体的不同的特征对某一特征的关联数据,例如,所述第一样本数据可为银行存款与可贷款额度的关联数据,所述第二样本数据可为贷款还款记录信息与可贷款额度的关联数据,且所述第一样本数据和所述第二样本数据均属于第一设备和第二设备的秘密数据,不可公开。
步骤B20,若所述最大增益分裂点属于目标第二设备,则接收所述目标第二设备发送的特征分裂值和特征编码,并标记所述最大增益分裂点属于所述目标第二设备,向其它所述第二设备发送空值,其中,所述目标第二设备为所述各所述第二设备之一。
在本实施例中,需要说明的是,所述特征分裂值为所述最大增益分裂点对应的特征值,所述特征编码包括特征名和特征值,其中所述特征值为所述特征名对应的特征的标识,例如,假设所述特征编码为(贷款记录,8000),则所述贷款记录为所述特征名,所述特征值为8000,所述样本数据包括第一样本数据和第二样本数据。
本实施例通过获取第一样本数据和待构建树信息,并基于所述第一样本数据和所述待构建树信息,通过与各第二设备进行联邦交互,计算特征分裂增益数据,进而基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述待构建树信息对应的联合构建决策树。也即,本实施例提供了一种多方联合建模方法,可通过与各所述第二设备进行多方联邦交互,进而基于本地的第一地样本数据和各参与方的第二样本数据,通过计算特征分裂增益数据的方法,确定符合预设特征分裂增益条件的目标增益分裂点集合,进而基于所述目标增益分裂点集合中的分裂点,即可实现对所述第一样本数据对应的根节点进行分裂生长,生成联合构建决策树,也即,本实施例提供了一种可基于数量更多、更宽泛的样本数据进行建模的建模方法,提高了捕捉样本数据的模式分布的效率和模型的收敛速度,进而避免了由于建模时样本数据过少或者样本数据获取速度过慢,而导致在进行纵向联邦建模算法模型构建速度慢且构建时间长的情况发生,进而提高了纵向联邦建模算法模型构建时的计算效率,所以,解决了现有技术中纵向联邦学习建模时计算效率低的技术问题。
进一步地,参照图3,基于本申请中第一实施例,在本申请的另一实施例中,所述多方联合决策树构建方法还包括:
步骤C10,获取待预测样本,并将所述待预测样本输入所述联合构建决策树,对所述联合构建决策树进行遍历,获得所述联合构建决策树的归属;
在本实施例中,需要说明的是,所述联合构建决策树对应存在树标记,以标识所述联合构建决策树的归属,且若所述联合构建决策树为分层树,则所述联合构建决策树的每一节点层还对应存在节点层标记,以标识所述节点层的归属,若所述联邦构建决策树为普通树,则所述联合构建决策树的每一树节点均包括节点标记,以标识所述树节点的归属,所述联合构建决策树存储于所述第一设备中,所述待预测样本可由用户输入或者直接中预设本地数据库中提取,所述样本预测结果包括样本分类结果,例如,所述样本分类结果可为将所述银行用户分为好客户和坏客户的分类结果。
获取待预测样本,并将所述待预测样本输入所述联合构建决策树,对所述联合构建决策树进行遍历,获得所述联合构建决策树的归属,具体地,获取待预测样本,并将所述待预测样本输入所述联合构建决策树,遍历所述联合构建决策树的根节点,以获取所述联合构建决策树的树标记,并基于所述树标记,确定所述联合构建决策树的归属权,也即,确定所述联合构建决策树是属于第一设备,还是属于某一第二设备,进而从预设本地数据库中,提取所述待预测样本。
步骤C20,基于所述归属权,预测所述待预测样本的样本权重。
在本实施例中,基于所述归属权,预测所述待预测样本的样本权重,具体地,若所述联合建模决策树为主导方树,则所述联合建模决策树的归属为第一设备,则遍历所述联合构建决策树,直至确定所述待预测样本对应的叶子节点,进而将所述叶子节点记录的叶子信息作为所述样本权重,若所述联合建模决策树为参与方树,则所述联合建模决策树的归属对应的第二设备,进而向对应的第二设备发送预测请求,进而第二设备将推导中间结果,并将中间结果反馈至所述第一设备,以供所述第一设备确定所述中间结果对应的目标叶子节点,获得所述目标叶子节点对应的样本权重,其中,所述中间结果为表明所述待预测样本在所述参与方树中的分类方向的分类结果,也即,为判断所述待预测样本是属于左孩子节点还是右孩子节点的结果,进而若所述联合构建决策树为分层树或者普通树,则在本地遍历属于第一设备的节点层或者节点,并同时向节点层或者节点对应的第二设备发送预测请求,以获取所述样本权重。
其中,所述基于所述归属权,预测所述待预测样本的样本权重的步骤包括:
步骤C21,若所述归属权属于所述第二设备,则向所述第二设备发送预测请求,以预测所述待预测样本对应的样本权重;
在本实施例中,需要说明的是,所述树标记和节点层标记可存储于所述根节点中。
在本实施例中,若所述归属权属于所述第二设备,则向所述第二设备发送预测请求,以预测所述待预测样本对应的样本权重,具体地,若所述联合构建决策树的归属权属于所述第二设备,则向所述第二设备发送预测请求,其中,所述预测请求中包括样本ID和特征编码,进而所述第二设备在接收到所述样本ID和所述特征编码之后,所述第二设备可基于所述样本ID和所述特征编码获取对应的本地存储的特征分裂值以判断所述待预测样本的归属,其中,所述特征分裂值为所述最大增益分裂点对应的特征值,例如,假设一样本分箱的取值范围为18至20,另一样本分箱取值范围为20至21,则20即为特征值,也即,判断所述待预测样本是属于左孩子节点还是右孩子节点,所述第二设备将判断结果发送至所述第一设备,其中,所述反馈结果中包括判断所述待预测样本是属于左孩子节点还是右孩子节点的判断结果,进而所述第一设备即可确定所述待预测样本在所述联合构建决策树中的分类方向,进而确定所述待预测样本对应的叶子节点,获得所述待预测样本对应的样本权重,其中,所述预测请求中包括所述待预测样本的信息,例如,数据标签或者特征编码等。
步骤C22,若所述归属权属于所述第一设备,则基于所述联合构建决策树,预测所述待预测样本的样本权重;
在本实施例中,若所述归属权属于所述第一设备,则基于所述联合构建决策树,预测所述待预测样本的样本权重,具体地,若所述联合构建决策树的归属权属于所述第一设备,则基于所述联合构建决策树和第一设备本地存储的各特征分裂值,即可确定所述待预测样本对应的叶子节点,进而获得所述待预测样本的样本权重。
步骤C23,若所述归属权属于所述第二设备和所述第一设备共有,则判断所述联合构建决策树的节点归属;
在本实施例中,需要说明的是,所述节点归属包括树节点归属和节点层归属。
若所述归属权属于所述第二设备和所述第一设备共有,则判断所述联合构建决策树的节点归属,具体地,若所述根节点中无树标记,则证明所述联合构建决策树的归属权属于所述第二设备和所述第一设备共有,进而判断所述联合构建决策树的树节点归属或者节点层归属。
步骤C25,基于所述节点归属,预测所述样本权重。
在本实施例中,基于所述节点归属,预测所述样本权重,具体地,若所述联合构建决策树的树节点属于所述第一设备,则基于所述树节点对应的特征分裂值,判断所述待预测样本是属于所述树节点的左孩子节点还是右孩子节点,若所述树节点属于第二设备,将向所述第二设备发送预测请求,以判断所述待预测样本是属于所述树节点的左孩子节点还是右孩子节点,直至确定所述待预测样本对应的叶子节点,获得所述样本权重。
其中,所述联合构建决策树包括根节点,
所述基于所述节点归属,预测所述样本权重的步骤包括:
步骤C251,若所述根节点的所述节点归属为所述第二设备,则向所述第二设备发送预测请求,并接收所述第二设备反馈的反馈结果,以基于所述反馈结果确定所述待预测样本的目标孩子节点;
在本实施例中,需要说明的是,所述反馈结果包括判断所述待预测样本中的孩子节点的信息,也即判断所述待预测样本是属于所述根节点的左孩子节点还是根节点的右孩子节点。
步骤C252,判断所述目标孩子节点是否属于叶子节点类型,若所述目标孩子节点属于所述叶子节点类型,则判定所述目标孩子节点为所述待预测样本对应的目标叶子节点,并获取所述目标孩子节点对应的所述样本权重;
在本实施例中,判断所述目标孩子节点是否属于叶子节点类型,若所述目标孩子节点属于所述叶子节点类型,则判定所述目标孩子节点为所述待预测样本对应的目标叶子节点,并获取所述目标孩子节点对应的所述样本权重,具体地,判断所述目标孩子节点是否属于叶子节点类型,若所述目标孩子节点属于所述叶子节点类型,则证明所述目标孩子节点不可在进行分裂,所述孩子节点为所述联合构建决策树中所述待预测样本的目标叶子节点,进而获取所述目标孩子节点中记录的所述样本权重。
步骤C253,若所述目标孩子节点不属于所述叶子节点类型,则继续遍历所述联合构建决策树,直至确定所述待预测样本对应的叶子节点,获得所述样本权重;
在本实施例中,若所述目标孩子节点不属于所述叶子节点类型,则继续遍历所述联合构建决策树,直至确定所述待预测样本对应的叶子节点,获得所述样本权重,具体地,若所述目标孩子节点不属于所述叶子节点类型,则继续遍历所述联合构建决策树,其中,若遇到树节点属于第二设备,则向对应的所述第二设备发送预测请求,直至确定所述待预测样本对应的叶子节点,获得所述样本权重。
步骤C254,若所述根节点的所述节点归属为所述第一设备,则基于所述根节点对应的特征分裂值,确定所述待预测样本的所述目标孩子节点,并继续遍历所述联合构建决策树,直至确定所述目标叶子节点,获得所述样本权重。
在本实施例中,若所述根节点的所述节点归属为所述第一设备,则基于所述根节点对应的特征分裂值,确定所述待预测样本的所述目标孩子节点,并继续遍历所述联合构建决策树,直至确定所述目标叶子节点,获得所述样本权重,具体地,若所述根节点的所述节点归属为所述第一设备,则基于本地存储的所述根节点对应的特征分裂值,确定所述待预测样本的所述目标孩子节点,进而继续遍历所述联合构建决策树,其中,若遇到树节点属于第二设备,则向对应的所述第二设备发送预测请求,直至确定所述待预测样本对应的叶子节点,获得所述样本权重。
另外地,需要说明的是,当同时预测多个待预测样本的样本权重时,若所述联合构建决策树为普通树,则在遍历所述普通树的某一节点层时,由于节点层中的各树节点可能属于不同的第二设备,则所述第一设备需要与多个第二设备进行通信,以确定各所述待预测样本在所述普通树中的分类方向,也即判断待预测样本是属于左孩子节点还是右孩子节点,若所述联合构建决策树为分层树,则在遍历所述普通树的某一节点层时,只需与所述节点层对应的一个第二设备进行通信即可,进而相比于普通树,在基于所述联合关键决策树进行样本权重的预测时,可在极大程度上减少第一设备与各第二设备之间的通信次数,进而减少了通信量和通信成本,进一步地,减少了为通信服务的数据加密过程,进而减少了进行数据加密的计算量,进而提高了纵向联邦学习建模时的计算效率,相同地,对于主导方树,则无需与各所述第二设备进行通信,进而相比于普通树,在基于所述联合构建决策树进行样本权重的预测时,同样可在极大程度上减少第一设备与各第二设备之间的通信次数,进而减少了通信量和通信成本,进一步地,减少了为通信服务的数据加密过程,进而减少了进行数据加密的计算量,进而提高了纵向联邦学习建模时的计算效率,相同地,对于参与方树,在基于所述联合构建决策树进行样本权重的预测时,对于所述参与方树,与所述第二设备进行通信即可,相比于普通树,同样可在极大程度上减少第一设备与各第二设备之间的通信次数,进而减少了通信量和通信成本,进一步地,减少了为通信服务的数据加密过程,进而减少了进行数据加密的计算量,进而提高了纵向联邦学习建模时的计算效率。
另外地,需要说明的是,由于所述第一设备和各所述第二设备减少了通信量和为通讯服务的数据加密的计算量,进而所述第一设备和各所述第二设备可分配更多的计算资源用于进行所述联合构建决策树的构建,进而使得第一设备和各所述第二设备进行纵向联邦学习的速度更快,进而提高了纵向联邦学习建模时的模型构建效率。
其中,所述联合构建决策树可以为数据分类树或者样本权重预测树,其中,联合构建决策树为基于多方联合构建的决策树,进而所述数据分类为可对数据进行更加准确的分类,提高了基于数据分类模型对数据进行分类的准确性,所述样本权重预测树可对样本的权重进行更加精准的预测,提高了样本权重的预测准确率。
其中,所述联合构建决策树包括文本分类决策树,所述多方联合决策树构建方法还包括:
步骤D10,获取待分类文本数据,并将所述待分类文本数据输入所述文本分类决策树,对所述文本分类决策树进行遍历,获得所述文本分类决策树的分类决策树归属权;
在本实施例中,需要说明的是,所述待分类文本数据为文本特征的特征数据,其中,所述文本特征包括文本的关键词信息对应的特征值、文本的字数对应的特征值等,例如,假设所述待分类文本数据为向量(i,j),其中,i表示文本关键词的类别为新闻信息类别,j表示文本关键词的出现频率。
另外地,需要说明的是,所述联合构建决策树还包括图像分类决策树,同样可用于对图像进行分类。
获取待分类文本数据,并将所述待分类文本数据输入所述文本分类决策树,对所述文本分类决策树进行遍历,获得所述文本分类决策树的分类决策树归属权,具体地,获取待分类文本数据,并将所述待分类文本数据输入所述文本分类决策树,并首先遍历所述文本分类决策树的根节点,获得所述文本分类决策树的树标记,并基于所述树标记,确定所述联合构建决策树的分类决策树归属权,也即,确定所述联合构建决策树是属于第一设备,还是属于某一第二设备。
步骤D20,基于所述分类决策树归属权,对所述待分类文本数据进行文本分类,获得文本分类结果。
在本实施例中,基于所述分类决策树归属权,对所述待分类文本数据进行文本分类,获得文本分类结果,具体地,若所述文本分类决策树为主导方树,则所述文本分类决策树的分类决策树归属权属于第一设备,则基于所述第一设备本地存储的所述文本分类决策树的各树节点对应的文本分类特征分裂值,遍历整颗所述文本分类决策树,直至确定所述待分类文本数据对应的所属叶子节点,进而将所述所属叶子节点记录的叶子信息作为所述待分类文本数据对应的文本分类结果,其中,一所述待分类文本数据的叶子节点对应一文本分类特征编码,其中,所述文本分类特征编码为所述待分类文本数据对应的文本类别的标识,例如,假设所述文本分类决策树包括3个叶子节点A,B,C,且叶子节点A中存储的文本分类特征编码为a,对应的文本类别为财经新闻类型,叶子节点B中存储的文本分类特征编码为b,对应的文本类别为体育新闻类型,叶子节点C中存储的文本分类特征编码为c,对应的文本类别为天气预报类型,进一步地,若所述文本分类决策树为参与方树,则所述文本分类决策树的归属对应的第二设备,进而向对应的第二设备发送预测请求,进而第二设备将计算文本分类中间结果,并将文本分类中间结果反馈至所述第一设备,以供所述第一设备确定所述文本分类中间结果对应的所属叶子节点,获得所述所属叶子节点对应的文本分类特征编码,其中,所述文本分类中间结果为表明所述待分类文本数据在所述参与方树中的分类方向的分类结果,也即,为判断所述待分类文本数据是属于左孩子节点还是右孩子节点的结果,进而若所述文本分类决策树为分层树或者普通树,则在本地遍历属于第一设备的节点层或者节点,并同时向节点层或者节点对应的第二设备发送预测请求,以确定所述待分类文本数据对应的所属叶子节点,进而基于所述所属叶子节点中存储的文本分类特征编码,确定所述待分类文本数据对应的待分类文本的文本分类结果,进而由于所述文本分类决策树为基于多方进行联合构建的决策树,相比于目前的决策树模型,所述文本分类决策树为基于样本数量更多、样本特征更丰富的样本数据构建的决策树,进而所述文本分类决策树可对待分类文本进行更加精准的分类,提高了文本分类的准确性,且对于主导方树、分层树和参与方树,由于可减少第一设备与各第二设备之间的通信次数,进而减少了进行文本分类时的通信次数和为通信服务的加密计算量,进而提高了进行文本分类时的分类效率。
本实施例通过获取待预测样本,并将所述待预测样本输入所述联合构建决策树,对所述联合构建决策树进行遍历,获得所述联合构建决策树的归属权,进而基于所述归属权,预测所述待预测样本的样本权重。也即,在本实施例中由于所述联合构建决策树为多方联合构建的决策树,进而相比于目前的决策树模型,所述联合构建决策树为基于样本数量更多、样本特征更丰富的样本数据构建的决策树,进而所述联合构建决策树可对所述待预测样本进行更加准确的预测,进而提高了决策树进行决策的准确性。
参照图4,图4是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图4所示,该多方联合决策树构建设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该多方联合决策树构建设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图4中示出的多方联合决策树构建设备结构并不构成对多方联合决策树构建设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及多方联合决策树构建方法程序。操作系统是管理和控制多方联合决策树构建设备硬件和软件资源的程序,支持多方联合决策树构建方法程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与多方联合决策树构建方法系统中其它硬件和软件之间通信。
在图4所示的多方联合决策树构建设备中,处理器1001用于执行存储器1005中存储的多方联合决策树构建方法程序,实现上述任一项所述的多方联合决策树构建方法的步骤。
本申请多方联合决策树构建设备具体实施方式与上述多方联合决策树构建方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种多方联合决策树构建装置,所述多方联合决策树构建装置应用于第一设备,所述多方联合决策树构建装置包括:
联邦模块,用于获取第一样本数据和待构建树信息,并基于所述第一样本数据和所述待构建树信息,通过与各第二设备进行联邦交互,计算特征分裂增益数据;
确定模块,用于基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述待构建树信息对应的联合构建决策树。
可选地,所述联邦模块包括:
特征分箱子模块,用于对所述第一样本数据进行特征分箱,获得第一特征分箱数据;
第一计算子模块,用于获取模型残差和所述第一特征分箱数据对应的数据标签,并基于所述模型残差和所述数据标签,计算所述第一特征分箱数据对应的一阶梯度集合和二阶梯度集合;
第二计算子模块,用于基于所述一阶梯度集合、所述二阶梯度集合和所述待构建树信息,通过与各所述第二设备进行联邦交互以进行纵向联邦学习,计算所述特征分裂增益数据。
可选地,所述第二计算子模块包括:
第一计算单元,用于基于所述一阶梯度集合和所述二阶梯度集合,计算所述第一特征分裂增益直方图;
第一确定单元,用于若所述待构建树类型为主导方树,则将所述第一特征分裂增益直方图作为所述特征分裂增益数据;
发送接收单元,用于若所述待构建树不为所述主导方树,则将所述一阶梯度集合和所述二阶梯度集合加密发送至各所述第二设备,并接收各所述第二设备基于所述一阶梯度集合和所述二阶梯度集合分别加密反馈的第二特征分裂增益直方图;
第二确定单元,用于将所述第一特征分裂增益直方图和各所述第二特征分裂增益直方图作为所述特征分裂增益数据。
可选地,所述确定模块包括:
第一确定子模块,用于确定所述待构建树信息中的待构建树类型,若所述待构建树类型为节点混合类型,则基于所述第一特征分裂增益直方图和各所述第二特征分裂增益直方图,确定所述目标增益分裂点集合;
第二确定子模块,用于若所述待构建树类型为分层类型,则基于所述第一特征分裂增益直方图,确定所述主导方最大增益分裂点,并基于各所述第二特征分裂增益直方图,确定所述参与方最大增益分裂点;
第三确定子模块,用于若所述待构建树类型为参与方类型,则基于各所述第二特征分裂增益直方图,确定所述目标增益分裂点集合;
第四确定子模块,用于若所述待构建树类型为主导方类型,则基于所述第一特征分裂增益直方图,确定所述目标增益分裂点集合;
第五确定子模块,用于基于所述目标增益分裂点集合,确定当前决策树;
第六确定子模块,用于若所述当前决策树达到预设联邦结束条件,则将所述当前决策树作为所述联合构建决策树。
可选地,所述第一确定子模块包括:
第二计算单元,用于基于所述第一特征分裂增益直方图和各所述第二特征分裂直方图,通过预设增益计算公式确定所述第一样本数据对应的根节点的所述第一最大增益分裂点;
分裂单元,用于基于所述第一最大增益分裂点,分裂所述根节点,获得所述根节点对应的初始孩子节点;
第一判断单元,用于判断所述初始孩子节点是否达到预设停止分裂条件,若所述初始孩子节点达到所述预设停止分裂条件,则判定所述初始孩子节点属于预设叶子节点类型,并将所述第一最大增益分裂点作为所述目标增益分裂点集合;
第二判断单元,用于若所述初始孩子节点未达到所述预设停止分裂条件,基于所述预设增益计算公式,确定所述初始孩子节点对应的所述第二最大增益分裂点;
再分裂单元,用于基于所述第二最大增益分裂点,对所述初始孩子节点进行再分裂,直至所述初始孩子节点对应的各分裂节点达到所述预设停止分裂节点,获得所述目标增益分裂点集合。
可选地,所述多方联合决策树构建装置还包括:
第一标记模块,用于判断所述最大增益分裂点的归属,若所述第一最大增益分裂点属于所述第一设备,则向各所述第二设备发送空值,并标记所述第一最大增益分裂点属于所述第一设备;
第二标记模块,用于若所述最大增益分裂点属于目标第二设备,则接收所述目标第二设备发送的特征分裂值和特征编码,并标记所述最大增益分裂点属于所述目标第二设备,向其它所述第二设备发送空值,其中,所述目标第二设备为所述各所述第二设备之一。
可选地,所述联邦模块还包括:
第一交集处理模块,用于对所述第一样本ID和各所述第二样本ID进行交集处理,获得待建模样本ID;
第二交集处理模块,用于将所述待建模样本ID与所述第一设备的本地样本数据进行交集处理,获得所述第一样本数据。
可选地,所述多方联合决策树构建装置还包括:
第一遍历模块,用于获取待预测样本,并将所述待预测样本输入所述联合构建决策树,对所述联合构建决策树进行遍历,获得所述联合构建决策树的归属权;
预测模块,用于基于所述归属权,预测所述待预测样本的样本权重。
可选地,所述预测模块包括:
第一预测子模块,用于若所述归属权属于所述第二设备,则向所述第二设备发送预测请求,以预测所述待预测样本对应的样本权重;
第二预测子模块,用于若所述归属权属于所述第一设备,则基于所述联合构建决策树,预测所述待预测样本的样本权重;
判断子模块,用于若所述归属权属于所述第二设备和所述第一设备共有,则判断所述联合构建决策树的节点归属;
第三预测子模块,用于基于所述节点归属,预测所述样本权重。
可选地,所述第三预测子模块包括:
预测单元,用于若所述根节点的所述节点归属为所述第二设备,则向所述第二设备发送预测请求,并接收所述第二设备反馈的反馈结果,以基于所述反馈结果确定所述待预测样本的目标孩子节点;
判定单元,用于判断所述目标孩子节点是否属于叶子节点类型,若所述目标孩子节点属于所述叶子节点类型,则判定所述目标孩子节点为所述待预测样本对应的目标叶子节点,并获取所述目标孩子节点对应的所述样本权重;
第一遍历单元,用于若所述目标孩子节点不属于所述叶子节点类型,则继续遍历所述联合构建决策树,直至确定所述目标叶子节点,获得所述样本权重;
第二遍历单元,用于若所述目标孩子节点不属于所述叶子节点类型,则继续遍历所述联合构建决策树,直至确定所述目标叶子节点,获得所述样本权重。
可选地,所述多方联合决策树构建装置还包括:
第二遍历模块,用于获取待分类文本数据,并将所述待分类文本数据输入所述文本分类决策树,对所述文本分类决策树进行遍历,获得所述文本分类决策树的分类决策树归属权;
文本分类模块,用于基于所述分类决策树归属权,对所述待分类文本数据进行文本分类,获得文本分类结果。
本申请多方联合决策树构建装置的具体实施方式与上述多方联合决策树构建方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。
Claims (13)
1.一种多方联合决策树构建方法,其特征在于,所述多方联合决策树构建方法应用于第一设备,所述多方联合决策树构建方法包括:
获取第一样本数据和待构建树信息,并基于所述第一样本数据和所述待构建树信息,通过与各第二设备进行联邦交互,计算特征分裂增益数据;
基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述待构建树信息对应的联合构建决策树。
2.如权利要求1所述多方联合决策树构建方法,其特征在于,所述基于所述第一样本数据和所述待构建树信息,通过与各第二设备进行联邦交互,计算特征分裂增益数据的步骤包括:
对所述第一样本数据进行特征分箱,获得第一特征分箱数据;
获取模型残差和所述第一特征分箱数据对应的数据标签,并基于所述模型残差和所述数据标签,计算所述第一特征分箱数据对应的一阶梯度集合和二阶梯度集合;
基于所述一阶梯度集合、所述二阶梯度集合和所述待构建树信息,通过与各所述第二设备进行联邦交互以进行纵向联邦学习,计算所述特征分裂增益数据。
3.如权利要求2所述多方联合决策树构建方法,其特征在于,所述待构建树信息包括待构建树类型,
所述基于所述一阶梯度集合、所述二阶梯度集合和所述待构建树信息,通过与各所述第二设备进行联邦交互以进行纵向联邦学习,计算所述特征分裂增益数据的步骤包括:
基于所述一阶梯度集合和所述二阶梯度集合,计算所述第一特征分裂增益直方图;
若所述待构建树类型为主导方树,则将所述第一特征分裂增益直方图作为所述特征分裂增益数据;
若所述待构建树不为所述主导方树,则将所述一阶梯度集合和所述二阶梯度集合加密发送至各所述第二设备,并接收各所述第二设备基于所述一阶梯度集合和所述二阶梯度集合分别加密反馈的第二特征分裂增益直方图;
将所述第一特征分裂增益直方图和各所述第二特征分裂增益直方图作为所述特征分裂增益数据。
4.如权利要求1所述多方联合决策树构建方法,其特征在于,所述特征分裂增益数据包括第一特征分裂增益直方图和第二特征分裂增益直方图,所述目标增益分裂点集合包括参与方最大增益分裂点和主导方最大增益分裂点,
所述基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述待构建树信息对应的联合构建决策树的步骤包括:
确定所述待构建树信息中的待构建树类型,若所述待构建树类型为节点混合类型,则基于所述第一特征分裂增益直方图和各所述第二特征分裂增益直方图,确定所述目标增益分裂点集合;
若所述待构建树类型为分层类型,则基于所述第一特征分裂增益直方图,确定所述主导方最大增益分裂点,并基于各所述第二特征分裂增益直方图,确定所述参与方最大增益分裂点;
若所述待构建树类型为参与方类型,则基于各所述第二特征分裂增益直方图,确定所述目标增益分裂点集合;
若所述待构建树类型为主导方类型,则基于所述第一特征分裂增益直方图,确定所述目标增益分裂点集合;
基于所述目标增益分裂点集合,确定当前决策树;
若所述当前决策树达到预设联邦结束条件,则将所述当前决策树作为所述联合构建决策树。
5.如权利要求4所述多方联合决策树构建方法,其特征在于,所述目标增益分裂点集合包括第一最大增益分裂点和第二最大增益裂点,
所述基于所述第一特征分裂增益直方图和各所述第二特征分裂增益直方图,确定所述目标增益分裂点集合的步骤包括:
基于所述第一特征分裂增益直方图和各所述第二特征分裂直方图,通过预设增益计算公式确定所述第一样本数据对应的根节点的所述第一最大增益分裂点;
基于所述第一最大增益分裂点,分裂所述根节点,获得所述根节点对应的初始孩子节点;
判断所述初始孩子节点是否达到预设停止分裂条件,若所述初始孩子节点达到所述预设停止分裂条件,则判定所述初始孩子节点属于预设叶子节点类型,并将所述第一最大增益分裂点作为所述目标增益分裂点集合;
若所述初始孩子节点未达到所述预设停止分裂条件,基于所述预设增益计算公式,确定所述初始孩子节点对应的所述第二最大增益分裂点;
基于所述第二最大增益分裂点,对所述初始孩子节点进行再分裂,直至所述初始孩子节点对应的各分裂节点达到所述预设停止分裂节点,获得所述目标增益分裂点集合。
6.如权利要求1所述多方联合决策树构建方法,其特征在于,所述目标增益分裂点集合至少包括一最大增益分裂点,
在所述基于所述特征分裂增益数据,确定符合预设特征分裂增益条件的目标增益分裂点集合,以构建所述待构建树信息对应的联合构建决策树的步骤之后,所述多方联合决策树构建方法还包括:
判断所述最大增益分裂点的归属,若所述第一最大增益分裂点属于所述第一设备,则向各所述第二设备发送空值,并标记所述第一最大增益分裂点属于所述第一设备;
若所述最大增益分裂点属于目标第二设备,则接收所述目标第二设备发送的特征分裂值和特征编码,并标记所述最大增益分裂点属于所述目标第二设备,向其它所述第二设备发送空值,其中,所述目标第二设备为所述各所述第二设备之一。
7.如权利要求1所述多方联合决策树构建方法,其特征在于,所述第一设备包括第一样本ID,各所述第二设备包括各自对应的第二样本ID,
所述获取第一样本数据的步骤包括:
对所述第一样本ID和各所述第二样本ID进行交集处理,获得待建模样本ID;
将所述待建模样本ID与所述第一设备的本地样本数据进行交集处理,获得所述第一样本数据。
8.如权利要求1所述多方联合决策树构建方法,其特征在于,所述多方联合决策树构建方法还包括:
获取待预测样本,并将所述待预测样本输入所述联合构建决策树,对所述联合构建决策树进行遍历,获得所述联合构建决策树的归属权;
基于所述归属权,预测所述待预测样本的样本权重。
9.如权利要求8所述多方联合决策树构建方法,其特征在于,所述基于所述归属权,预测所述待预测样本的样本权重的步骤包括:
若所述归属权属于所述第二设备,则向所述第二设备发送预测请求,以预测所述待预测样本对应的样本权重;
若所述归属权属于所述第一设备,则基于所述联合构建决策树,预测所述待预测样本的样本权重;
若所述归属权属于所述第二设备和所述第一设备共有,则判断所述联合构建决策树的节点归属;
基于所述节点归属,预测所述样本权重。
10.如权利要求9所述多方联合决策树构建方法,其特征在于,所述联合构建决策树包括根节点,
所述基于所述节点归属,预测所述样本权重的步骤包括:
若所述根节点的所述节点归属为所述第二设备,则向所述第二设备发送预测请求,并接收所述第二设备反馈的反馈结果,以基于所述反馈结果确定所述待预测样本的目标孩子节点;
判断所述目标孩子节点是否属于叶子节点类型,若所述目标孩子节点属于所述叶子节点类型,则判定所述目标孩子节点为所述待预测样本对应的目标叶子节点,并获取所述目标孩子节点对应的所述样本权重;
若所述目标孩子节点不属于所述叶子节点类型,则继续遍历所述联合构建决策树,直至确定所述目标叶子节点,获得所述样本权重;
若所述根节点的所述节点归属为所述第一设备,则基于所述根节点对应的特征分裂值,确定所述待预测样本的所述目标孩子节点,并继续遍历所述联合构建决策树,直至确定所述目标叶子节点,获得所述样本权重。
11.如权利要求1至10任意一项所述多方联合决策树构建方法,其特征在于,所述联合构建决策树包括文本分类决策树,所述多方联合决策树构建方法还包括:
获取待分类文本数据,并将所述待分类文本数据输入所述文本分类决策树,对所述文本分类决策树进行遍历,获得所述文本分类决策树的分类决策树归属权;
基于所述分类决策树归属权,对所述待分类文本数据进行文本分类,获得文本分类结果。
12.一种多方联合决策树构建设备,其特征在于,所述多方联合决策树构建设备包括:存储器、处理器以及存储在存储器上的用于实现所述多方联合决策树构建方法的程序,
所述存储器用于存储实现多方联合决策树构建方法的程序;
所述处理器用于执行实现所述多方联合决策树构建方法的程序,以实现如权利要求1至11中任一项所述多方联合决策树构建方法的步骤。
13.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现多方联合决策树构建方法的程序,所述实现多方联合决策树构建方法的程序被处理器执行以实现如权利要求1至11中任一项所述多方联合决策树构建方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010538004.0A CN111695697B (zh) | 2020-06-12 | 2020-06-12 | 多方联合决策树构建方法、设备及可读存储介质 |
PCT/CN2021/092980 WO2021249086A1 (zh) | 2020-06-12 | 2021-05-11 | 多方联合决策树构建方法、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010538004.0A CN111695697B (zh) | 2020-06-12 | 2020-06-12 | 多方联合决策树构建方法、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111695697A true CN111695697A (zh) | 2020-09-22 |
CN111695697B CN111695697B (zh) | 2023-09-08 |
Family
ID=72480737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010538004.0A Active CN111695697B (zh) | 2020-06-12 | 2020-06-12 | 多方联合决策树构建方法、设备及可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111695697B (zh) |
WO (1) | WO2021249086A1 (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182982A (zh) * | 2020-10-27 | 2021-01-05 | 北京百度网讯科技有限公司 | 多方联合建模方法、装置、设备及储存介质 |
CN112364908A (zh) * | 2020-11-05 | 2021-02-12 | 浙江大学 | 一种面向决策树的纵向联邦学习方法 |
CN112464287A (zh) * | 2020-12-12 | 2021-03-09 | 同济大学 | 基于秘密共享与联邦学习的多方XGBoost安全预测模型训练方法 |
CN112529102A (zh) * | 2020-12-24 | 2021-03-19 | 深圳前海微众银行股份有限公司 | 特征拓展方法、设备、介质及计算机程序产品 |
CN112597135A (zh) * | 2021-01-04 | 2021-04-02 | 天冕信息技术(深圳)有限公司 | 用户分类方法、装置、电子设备及可读存储介质 |
CN112699947A (zh) * | 2020-12-30 | 2021-04-23 | 深圳前海微众银行股份有限公司 | 基于决策树的预测方法、装置、设备、介质及程序产品 |
CN112700031A (zh) * | 2020-12-12 | 2021-04-23 | 同济大学 | 一种保护多方数据隐私的XGBoost预测模型训练方法 |
CN112749749A (zh) * | 2021-01-14 | 2021-05-04 | 深圳前海微众银行股份有限公司 | 基于分类决策树模型的分类方法、装置及电子设备 |
CN112801231A (zh) * | 2021-04-07 | 2021-05-14 | 支付宝(杭州)信息技术有限公司 | 用于业务对象分类的决策模型训练方法和装置 |
CN112836830A (zh) * | 2021-02-01 | 2021-05-25 | 广西师范大学 | 一种联邦梯度提升决策树投票并行训练方法 |
CN113204443A (zh) * | 2021-06-03 | 2021-08-03 | 京东科技控股股份有限公司 | 基于联邦学习框架的数据处理方法、设备、介质及产品 |
CN113420072A (zh) * | 2021-06-24 | 2021-09-21 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备及存储介质 |
WO2021203980A1 (zh) * | 2020-11-20 | 2021-10-14 | 平安科技(深圳)有限公司 | 一种气象事件预测方法、装置及相关设备 |
CN113506163A (zh) * | 2021-09-07 | 2021-10-15 | 百融云创科技股份有限公司 | 一种基于纵向联邦的孤立森林训练和预测方法及系统 |
CN113537333A (zh) * | 2021-07-09 | 2021-10-22 | 深圳市洞见智慧科技有限公司 | 一种优化树模型训练的方法及纵向联邦学习系统 |
CN113705727A (zh) * | 2021-09-16 | 2021-11-26 | 四川新网银行股份有限公司 | 基于差分隐私的决策树建模方法、预测方法、设备及介质 |
CN113722739A (zh) * | 2021-09-06 | 2021-11-30 | 京东科技控股股份有限公司 | 梯度提升树模型的生成方法、装置、电子设备和存储介质 |
WO2021249086A1 (zh) * | 2020-06-12 | 2021-12-16 | 深圳前海微众银行股份有限公司 | 多方联合决策树构建方法、设备及可读存储介质 |
CN113807530A (zh) * | 2020-09-24 | 2021-12-17 | 京东科技控股股份有限公司 | 信息处理系统、方法和装置 |
CN113806759A (zh) * | 2020-12-28 | 2021-12-17 | 京东科技控股股份有限公司 | 联邦学习模型的训练方法、装置、电子设备和存储介质 |
CN113822309A (zh) * | 2020-09-25 | 2021-12-21 | 京东科技控股股份有限公司 | 用户的分类方法、装置和非易失性计算机可读存储介质 |
CN114118641A (zh) * | 2022-01-29 | 2022-03-01 | 华控清交信息科技(北京)有限公司 | 风电场功率预测方法、gbdt模型纵向训练方法及装置 |
CN114386533A (zh) * | 2022-01-28 | 2022-04-22 | 华控清交信息科技(北京)有限公司 | 一种gbdt模型的横向训练方法、装置、电子设备及系统 |
CN114422105A (zh) * | 2022-01-14 | 2022-04-29 | 卫盈联信息技术(深圳)有限公司 | 联合建模方法、装置、电子设备及存储介质 |
CN114648073A (zh) * | 2022-03-31 | 2022-06-21 | 杭州博盾习言科技有限公司 | 基于跨特征联邦的XGBoost模型的数据处理方法 |
CN114696989A (zh) * | 2022-03-28 | 2022-07-01 | 京东科技控股股份有限公司 | 联邦学习方法、装置、设备和可读存储介质 |
CN114841374A (zh) * | 2021-01-14 | 2022-08-02 | 新智数字科技有限公司 | 一种基于随机贪心算法的横向联邦梯度提升树优化方法 |
CN115701071A (zh) * | 2021-07-16 | 2023-02-07 | 中移物联网有限公司 | 模型训练方法、装置、电子设备及存储介质 |
CN116757286A (zh) * | 2023-08-16 | 2023-09-15 | 杭州金智塔科技有限公司 | 基于联邦学习的多方联合因果树模型构建系统以及方法 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114330758B (zh) * | 2021-12-30 | 2023-07-18 | 北京瑞莱智慧科技有限公司 | 基于联邦学习的数据处理方法、装置及存储介质 |
CN114399000A (zh) * | 2022-01-20 | 2022-04-26 | 中国平安人寿保险股份有限公司 | 树模型的对象可解释性特征提取方法、装置、设备及介质 |
CN114118312B (zh) * | 2022-01-29 | 2022-05-13 | 华控清交信息科技(北京)有限公司 | 一种gbdt模型的纵向训练方法、装置、电子设备及系统 |
CN114529108B (zh) * | 2022-04-22 | 2022-07-22 | 北京百度网讯科技有限公司 | 基于树模型的预测方法、装置、设备、介质及程序产品 |
CN115168848B (zh) * | 2022-09-08 | 2022-12-16 | 南京鼎山信息科技有限公司 | 基于大数据分析拦截的拦截反馈处理方法 |
CN115545216B (zh) * | 2022-10-19 | 2023-06-30 | 上海零数众合信息科技有限公司 | 一种业务指标预测方法、装置、设备和存储介质 |
CN116205613B (zh) * | 2023-05-04 | 2023-08-04 | 益企商旅(山东)科技服务有限公司 | 一种用于差旅自动巡检系统的在线监测方法及系统 |
CN117035873B (zh) * | 2023-10-09 | 2024-03-29 | 广州钛动科技股份有限公司 | 少样本广告多任务联合预测方法 |
CN117195060B (zh) * | 2023-11-06 | 2024-02-02 | 上海零数众合信息科技有限公司 | 基于多方安全计算的电信诈骗识别方法和模型训练方法 |
CN117421486B (zh) * | 2023-12-18 | 2024-03-19 | 杭州金智塔科技有限公司 | 基于球树算法和联邦学习的推荐模型更新系统及方法 |
CN117972793B (zh) * | 2024-03-28 | 2024-07-19 | 中电科网络安全科技股份有限公司 | 一种纵向联邦树模型训练方法、装置、设备及存储介质 |
CN118333186B (zh) * | 2024-06-13 | 2024-08-13 | 蓝象智联(杭州)科技有限公司 | 基于联邦树模型的预测系统、方法及联邦树模型建模方法 |
CN118410213B (zh) * | 2024-07-03 | 2024-08-23 | 山东超华环保智能装备有限公司 | 一种危险废物信息化管理的溯源方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180005126A1 (en) * | 2016-07-04 | 2018-01-04 | Panasonic Intellectual Property Management Co., Ltd. | Decision tree generating apparatus, decision tree generating method, non-transitory computer-readable recording medium, and inquiry system |
CN109002861A (zh) * | 2018-08-10 | 2018-12-14 | 深圳前海微众银行股份有限公司 | 联邦建模方法、设备及存储介质 |
CN109165683A (zh) * | 2018-08-10 | 2019-01-08 | 深圳前海微众银行股份有限公司 | 基于联邦训练的样本预测方法、装置及存储介质 |
CN109299728A (zh) * | 2018-08-10 | 2019-02-01 | 深圳前海微众银行股份有限公司 | 联邦学习方法、系统及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695697B (zh) * | 2020-06-12 | 2023-09-08 | 深圳前海微众银行股份有限公司 | 多方联合决策树构建方法、设备及可读存储介质 |
-
2020
- 2020-06-12 CN CN202010538004.0A patent/CN111695697B/zh active Active
-
2021
- 2021-05-11 WO PCT/CN2021/092980 patent/WO2021249086A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180005126A1 (en) * | 2016-07-04 | 2018-01-04 | Panasonic Intellectual Property Management Co., Ltd. | Decision tree generating apparatus, decision tree generating method, non-transitory computer-readable recording medium, and inquiry system |
CN109002861A (zh) * | 2018-08-10 | 2018-12-14 | 深圳前海微众银行股份有限公司 | 联邦建模方法、设备及存储介质 |
CN109165683A (zh) * | 2018-08-10 | 2019-01-08 | 深圳前海微众银行股份有限公司 | 基于联邦训练的样本预测方法、装置及存储介质 |
CN109299728A (zh) * | 2018-08-10 | 2019-02-01 | 深圳前海微众银行股份有限公司 | 联邦学习方法、系统及可读存储介质 |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021249086A1 (zh) * | 2020-06-12 | 2021-12-16 | 深圳前海微众银行股份有限公司 | 多方联合决策树构建方法、设备及可读存储介质 |
CN113807530B (zh) * | 2020-09-24 | 2024-02-06 | 京东科技控股股份有限公司 | 信息处理系统、方法和装置 |
CN113807530A (zh) * | 2020-09-24 | 2021-12-17 | 京东科技控股股份有限公司 | 信息处理系统、方法和装置 |
CN113822309A (zh) * | 2020-09-25 | 2021-12-21 | 京东科技控股股份有限公司 | 用户的分类方法、装置和非易失性计算机可读存储介质 |
CN112182982A (zh) * | 2020-10-27 | 2021-01-05 | 北京百度网讯科技有限公司 | 多方联合建模方法、装置、设备及储存介质 |
CN112182982B (zh) * | 2020-10-27 | 2024-03-01 | 北京百度网讯科技有限公司 | 多方联合建模方法、装置、设备及存储介质 |
CN112364908A (zh) * | 2020-11-05 | 2021-02-12 | 浙江大学 | 一种面向决策树的纵向联邦学习方法 |
WO2021203980A1 (zh) * | 2020-11-20 | 2021-10-14 | 平安科技(深圳)有限公司 | 一种气象事件预测方法、装置及相关设备 |
CN112700031A (zh) * | 2020-12-12 | 2021-04-23 | 同济大学 | 一种保护多方数据隐私的XGBoost预测模型训练方法 |
CN112464287B (zh) * | 2020-12-12 | 2022-07-05 | 同济大学 | 基于秘密共享与联邦学习的多方XGBoost安全预测模型训练方法 |
CN112464287A (zh) * | 2020-12-12 | 2021-03-09 | 同济大学 | 基于秘密共享与联邦学习的多方XGBoost安全预测模型训练方法 |
CN112529102A (zh) * | 2020-12-24 | 2021-03-19 | 深圳前海微众银行股份有限公司 | 特征拓展方法、设备、介质及计算机程序产品 |
CN112529102B (zh) * | 2020-12-24 | 2024-03-12 | 深圳前海微众银行股份有限公司 | 特征拓展方法、设备、介质及计算机程序产品 |
CN113806759A (zh) * | 2020-12-28 | 2021-12-17 | 京东科技控股股份有限公司 | 联邦学习模型的训练方法、装置、电子设备和存储介质 |
CN112699947A (zh) * | 2020-12-30 | 2021-04-23 | 深圳前海微众银行股份有限公司 | 基于决策树的预测方法、装置、设备、介质及程序产品 |
CN112597135A (zh) * | 2021-01-04 | 2021-04-02 | 天冕信息技术(深圳)有限公司 | 用户分类方法、装置、电子设备及可读存储介质 |
CN112749749B (zh) * | 2021-01-14 | 2024-04-16 | 深圳前海微众银行股份有限公司 | 基于分类决策树模型的分类方法、装置及电子设备 |
CN114841374A (zh) * | 2021-01-14 | 2022-08-02 | 新智数字科技有限公司 | 一种基于随机贪心算法的横向联邦梯度提升树优化方法 |
CN112749749A (zh) * | 2021-01-14 | 2021-05-04 | 深圳前海微众银行股份有限公司 | 基于分类决策树模型的分类方法、装置及电子设备 |
CN112836830B (zh) * | 2021-02-01 | 2022-05-06 | 广西师范大学 | 一种联邦梯度提升决策树投票并行训练方法 |
CN112836830A (zh) * | 2021-02-01 | 2021-05-25 | 广西师范大学 | 一种联邦梯度提升决策树投票并行训练方法 |
CN112801231A (zh) * | 2021-04-07 | 2021-05-14 | 支付宝(杭州)信息技术有限公司 | 用于业务对象分类的决策模型训练方法和装置 |
CN113204443A (zh) * | 2021-06-03 | 2021-08-03 | 京东科技控股股份有限公司 | 基于联邦学习框架的数据处理方法、设备、介质及产品 |
CN113204443B (zh) * | 2021-06-03 | 2024-04-16 | 京东科技控股股份有限公司 | 基于联邦学习框架的数据处理方法、设备、介质及产品 |
CN113420072A (zh) * | 2021-06-24 | 2021-09-21 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备及存储介质 |
CN113420072B (zh) * | 2021-06-24 | 2024-04-05 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备及存储介质 |
CN113537333A (zh) * | 2021-07-09 | 2021-10-22 | 深圳市洞见智慧科技有限公司 | 一种优化树模型训练的方法及纵向联邦学习系统 |
CN115701071A (zh) * | 2021-07-16 | 2023-02-07 | 中移物联网有限公司 | 模型训练方法、装置、电子设备及存储介质 |
CN113722739B (zh) * | 2021-09-06 | 2024-04-09 | 京东科技控股股份有限公司 | 梯度提升树模型的生成方法、装置、电子设备和存储介质 |
CN113722739A (zh) * | 2021-09-06 | 2021-11-30 | 京东科技控股股份有限公司 | 梯度提升树模型的生成方法、装置、电子设备和存储介质 |
CN113506163A (zh) * | 2021-09-07 | 2021-10-15 | 百融云创科技股份有限公司 | 一种基于纵向联邦的孤立森林训练和预测方法及系统 |
CN113705727B (zh) * | 2021-09-16 | 2023-05-12 | 四川新网银行股份有限公司 | 基于差分隐私的决策树建模方法、预测方法、设备及介质 |
CN113705727A (zh) * | 2021-09-16 | 2021-11-26 | 四川新网银行股份有限公司 | 基于差分隐私的决策树建模方法、预测方法、设备及介质 |
CN114422105A (zh) * | 2022-01-14 | 2022-04-29 | 卫盈联信息技术(深圳)有限公司 | 联合建模方法、装置、电子设备及存储介质 |
CN114386533A (zh) * | 2022-01-28 | 2022-04-22 | 华控清交信息科技(北京)有限公司 | 一种gbdt模型的横向训练方法、装置、电子设备及系统 |
CN114118641A (zh) * | 2022-01-29 | 2022-03-01 | 华控清交信息科技(北京)有限公司 | 风电场功率预测方法、gbdt模型纵向训练方法及装置 |
CN114118641B (zh) * | 2022-01-29 | 2022-04-19 | 华控清交信息科技(北京)有限公司 | 风电场功率预测方法、gbdt模型纵向训练方法及装置 |
CN114696989A (zh) * | 2022-03-28 | 2022-07-01 | 京东科技控股股份有限公司 | 联邦学习方法、装置、设备和可读存储介质 |
CN114648073A (zh) * | 2022-03-31 | 2022-06-21 | 杭州博盾习言科技有限公司 | 基于跨特征联邦的XGBoost模型的数据处理方法 |
CN116757286A (zh) * | 2023-08-16 | 2023-09-15 | 杭州金智塔科技有限公司 | 基于联邦学习的多方联合因果树模型构建系统以及方法 |
CN116757286B (zh) * | 2023-08-16 | 2024-01-19 | 杭州金智塔科技有限公司 | 基于联邦学习的多方联合因果树模型构建系统以及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111695697B (zh) | 2023-09-08 |
WO2021249086A1 (zh) | 2021-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111695697A (zh) | 多方联合决策树构建方法、设备及可读存储介质 | |
CN111368901A (zh) | 基于联邦学习的多方联合建模方法、设备和介质 | |
CN110084377B (zh) | 用于构建决策树的方法和装置 | |
CN110597943B (zh) | 基于人工智能的兴趣点处理方法、装置及电子设备 | |
CN115102763B (zh) | 基于可信联邦学习多域DDoS攻击检测方法与装置 | |
WO2020238677A1 (zh) | 数据处理方法、装置和计算机可读存储介质 | |
CN108462888A (zh) | 用户电视及上网行为的智能关联分析方法及系统 | |
CN113011646B (zh) | 一种数据处理方法、设备以及可读存储介质 | |
CN111553744A (zh) | 联邦产品推荐方法、装置、设备及计算机存储介质 | |
CN107633257B (zh) | 数据质量评估方法及装置、计算机可读存储介质、终端 | |
CN113065143A (zh) | 基于区块链的工业数据安全共享 | |
CN111768242A (zh) | 下单率预测方法、设备及可读存储介质 | |
CN112529102B (zh) | 特征拓展方法、设备、介质及计算机程序产品 | |
CN114139202A (zh) | 基于联邦学习的隐私保护样本预测应用方法及系统 | |
CN113762040B (zh) | 视频识别方法、装置、存储介质及计算机设备 | |
CN112541556A (zh) | 模型构建优化方法、设备、介质及计算机程序产品 | |
CN110175283B (zh) | 一种推荐模型的生成方法及装置 | |
CN113962417A (zh) | 一种视频处理方法、装置、电子设备和存储介质 | |
CN116703141A (zh) | 审计数据处理方法、装置、计算机设备和存储介质 | |
CN117033997A (zh) | 数据切分方法、装置、电子设备和介质 | |
CN113537333B (zh) | 一种优化树模型训练的方法及纵向联邦学习系统 | |
CN115203365A (zh) | 一种应用于综治领域的社会事件处理方法 | |
CN113239034A (zh) | 一种基于人工智能的大数据资源整合方法、系统及云平台 | |
CN114328792A (zh) | 用于共建共享网络的基站选址方法及相关设备 | |
CN112541540A (zh) | 数据融合方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |