CN113506163B

CN113506163B - 一种基于纵向联邦的孤立森林训练和预测方法及系统

Info

Publication number: CN113506163B
Application number: CN202111040857.2A
Authority: CN
Inventors: 郭浩亮; 刘凯
Original assignee: Bairong Yunchuang Technology Co ltd
Current assignee: Bairong Yunchuang Technology Co ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-11-23
Anticipated expiration: 2041-09-07
Also published as: CN113506163A

Abstract

本发明公开了一种基于纵向联邦的孤立森林训练和预测方法及系统，获得第一交集数据，获得第二交集数据，对所述第一交集数据和所述第二交集数据分别进行匿名化处理，获得第一匿名化交集数据和第二匿名化交集数据；设定孤立树最大分裂深度d和所述孤立树的数量n，获得第一参数设定结果；根据第一参数设定结果、孤立森林生成方法、第一匿名化交集数据和第二匿名化交集数据，在第一客户端生成第一孤立森林，在第二客户端生成第二孤立森林；基于第一孤立森林、第二孤立森林对第一客户端、第二客户端，根据孤立森林预测方法进行数据预测。解决了现有技术中在进行异常检测的过程中，存在多方数据难以合作，导致异常检测的手段受限的技术问题。

Description

一种基于纵向联邦的孤立森林训练和预测方法及系统

技术领域

本发明涉及金融异常检测相关领域，尤其涉及一种基于纵向联邦的孤立森林训练和预测方法及系统。

背景技术

金融风控领域中面临的一大问题即金融欺诈，网络犯罪分子开始采用新技术，扩大攻击的规模、增加攻击的复杂性。金融机构需要采取的严密的安全措施来保护客户的金融资产和个人数据。异常检测技术广泛应用于金融风控领域中，对金融欺诈行为的检测发挥着重大作用，其中孤立森林作为异常检测手段中的一种无监督算法，在欺诈检测中有着优良的效果。

金融风控领域中各种机器学习方法的运用离不开数据的支持，但数据持有者出于隐私保护，无法将数据流通出去。联邦学习的目标是在保证数据隐私安全及合法合规的基础上，实现共同建模，提升AI模型的效果。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有技术中在进行异常检测的过程中，存在多方数据难以合作，导致异常检测的手段受限的技术问题。

发明内容

本申请实施例通过提供一种基于纵向联邦的孤立森林训练和预测方法及系统，解决了现有技术中在进行异常检测的过程中，存在多方数据难以合作，导致异常检测的手段受限的技术问题，达到进行多方数据的安全性和隐私性的基础上，进行多方数据的合作，进而提高异常检测的准确性的技术效果。

鉴于上述问题，提出了本申请实施例提供一种基于纵向联邦的孤立森林训练和预测方法及系统。

第一方面，本申请提供了一种基于纵向联邦的孤立森林训练和预测方法，其中，所述方法包括：获得第一交集数据，其中，所述第一交集数据为第一数据集合和第二数据集合的样本id交集数据中第一客户端的数据；获得第二交集数据，其中，所述第二交集数据为所述第一数据集合和所述第二数据集合的样本id交集数据中的第二客户端的数据；对所述第一交集数据和所述第二交集数据分别进行匿名化处理，获得第一匿名化交集数据和第二匿名化交集数据；获得第一算法参数设定指令，根据所述第一算法参数设定指令设定孤立树最大分裂深度d和所述孤立树的数量n，获得第一参数设定结果；根据所述第一参数设定结果、孤立森林生成方法、所述第一匿名化交集数据和所述第二匿名化交集数据，在第一客户端生成第一孤立森林，在第二客户端生成第二孤立森林；基于所述第一孤立森林、所述第二孤立森林对所述第一客户端、所述第二客户端，根据孤立森林预测方法进行数据预测。其中，所述第一客户端为所述第一数据集合对应的客户端，所述第二客户端为所述第二数据集合对应的客户端。

另一方面，本申请还提供了一种基于纵向联邦的孤立森林训练和预测系统，所述系统包括：第一获得单元，所述第一获得单元用于获得第一交集数据，其中，所述第一交集数据为第一数据集合和第二数据集合的样本id交集数据中第一客户端的数据；第二获得单元，所述第二获得单元用于获得第二交集数据，其中，所述第二交集数据为所述第一数据集合和所述第二数据集合的样本id交集数据中的第二客户端的数据；第三获得单元，所述第三获得单元用于对所述第一交集数据和所述第二交集数据分别进行匿名化处理，获得第一匿名化交集数据和第二匿名化交集数据；第四获得单元，所述第四获得单元用于获得第一算法参数设定指令，根据所述第一算法参数设定指令设定孤立树最大分裂深度d和所述孤立树的数量n，获得第一参数设定结果；第一生成单元，所述第一生成单元用于根据所述第一参数设定结果、孤立森林生成方法、所述第一匿名化交集数据和所述第二匿名化交集数据，在第一客户端生成第一孤立森林，在第二客户端生成第二孤立森林；第一预测单元，所述第一预测单元用于基于所述第一孤立森林、所述第二孤立森林对所述第一客户端、所述第二客户端，根据孤立森林预测方法进行数据预测其中，所述第一客户端为所述第一数据集合对应的客户端，所述第二客户端为所述第二数据集合对应的客户端。

第三方面，本发明提供了一种基于纵向联邦的孤立森林训练预测系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现第一方面所述方法的步骤。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

1、由于采用了联邦学习的训练方法、对交集数据的匿名化处理以及在共享结果时不传递分裂阈值，在保证数据的隐私性的基础上，对数据进行共享，进而使得孤立森林构建更加的准确，进而达到进行多方数据的安全性和隐私性的基础上，进行多方数据的合作，进而提高异常检测的准确性的技术效果。

2、由于采用了双方对于结果的更新不采用实时更新的方法。只在必要时刻进行更新，降低了数据通信开销。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为本申请实施例一种基于纵向联邦的孤立森林训练和预测方法的流程示意图；

图2为本申请实施例一种基于纵向联邦的孤立森林训练和预测方法的孤立森林构建的流程示意图；

图3为本申请实施例一种基于纵向联邦的孤立森林训练和预测方法的节点分裂判断的流程示意图；

图4为本申请实施例一种基于纵向联邦的孤立森林训练和预测方法的根据根节点信息进行判断的流程示意图；

图5为本申请实施例一种基于纵向联邦的孤立森林训练和预测方法的全局变量一致性调整的流程示意图；

图6为本申请实施例一种基于纵向联邦的孤立森林训练和预测方法的本地路径长度计算的流程示意图；

图7为本申请实施例一种基于纵向联邦的孤立森林训练和预测方法的本地路径长度进一步计算的流程示意图；

图8为本申请实施例一种基于纵向联邦的孤立森林训练和预测系统的结构示意图；

图9为本申请实施例示例性电子设备的结构示意图。

附图标记说明：第一获得单元11，第二获得单元12，第三获得单元13，第四获得单元14，第一生成单元15，第一预测单元16，电子设备50，处理器51，存储器52，输入装置53，输出装置54。

具体实施方式

本申请实施例通过提供一种基于纵向联邦的孤立森林训练和预测方法及系统，解决了现有技术中在进行异常检测的过程中，存在多方数据难以合作，导致异常检测的手段受限的技术问题，达到进行多方数据的安全性和隐私性的基础上，进行多方数据的合作，进而提高异常检测的准确性的技术效果。下面结合附图，对本申请的实施例进行描述。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

申请概述

金融风控领域中各种机器学习方法的运用离不开数据的支持，但数据持有者出于隐私保护，无法将数据流通出去。联邦学习的目标是在保证数据隐私安全及合法合规的基础上，实现共同建模，提升AI模型的效果。现有技术中在进行异常检测的过程中，存在多方数据难以合作，导致异常检测的手段受限的技术问题。

针对上述技术问题，本申请提供的技术方案总体思路如下：

本申请实施例提供了一种基于纵向联邦的孤立森林训练和预测方法，其中，所述方法包括：获得第一交集数据，其中，所述第一交集数据为第一数据集合和第二数据集合的样本id交集数据中第一客户端的数据；获得第二交集数据，其中，所述第二交集数据为所述第一数据集合和所述第二数据集合的样本id交集数据中的第二客户端的数据；对所述第一交集数据和所述第二交集数据分别进行匿名化处理，获得第一匿名化交集数据和第二匿名化交集数据；获得第一算法参数设定指令，根据所述第一算法参数设定指令设定孤立树最大分裂深度d和所述孤立树的数量n，获得第一参数设定结果；根据所述第一参数设定结果、孤立森林生成方法、所述第一匿名化交集数据和所述第二匿名化交集数据，在第一客户端生成第一孤立森林，在第二客户端生成第二孤立森林；基于所述第一孤立森林、所述第二孤立森林对所述第一客户端、所述第二客户端，根据孤立森林预测方法进行数据预测其中，所述第一客户端为所述第一数据集合对应的客户端，所述第二客户端为所述第二数据集合对应的客户端。

在介绍了本申请基本原理后，下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。

实施例一

如图1所示，本申请实施例提供了一种基于纵向联邦的孤立森林训练和预测方法，其中，所述方法包括：

步骤S100：获得第一交集数据，其中，所述第一交集数据为第一数据集合和第二数据集合的样本id交集数据中第一客户端的数据；

步骤S200：获得第二交集数据，其中，所述第二交集数据为所述第一数据集合和所述第二数据集合的样本id交集数据中的第二客户端的数据；

具体而言，在进行联邦的孤立森林学习预测时，至少包括两个共同学习的对象，即第一客户端和第二客户端，其中，所述第一客户端具有第一数据集合，所述第二客户端具有第二数据集合，当参与联邦学习的双方都不希望暴露非交集的样本标签时，则优选使用基于RSA加密的隐私求交方法进行求交，获得所述第一交集数据，其中，所述第一交集数据为所述第一数据集合和所述第二数据集合中的样本id交集数据中的第一客户端的数据，获得第二交集数据，其中，所述第二交集数据为所述第一数据集合和所述第二数据集合的样本id交集数据中的第二客户端的数据，并在所述第一交集数据、所述第二交集数据求取后，保留双方的交集id。通过所述第一交集数据、所述第二交集数据的获取，为后续进行具有加密性的样本交互奠定了基础。

步骤S300：对所述第一交集数据和所述第二交集数据分别进行匿名化处理，获得第一匿名化交集数据和第二匿名化交集数据；

具体而言，由于所述孤立森林为无监督学习的算法，因此双方客户端的角色完全对称，仅以第一客户端和第二客户端进行区别。对所述第一交集数据集合和所述第二交集数据集合分别进行匿名化处理，即通过所述第一客户端对所述第一交集数据集合进行匿名化加密处理，通过所述第二客户端对所述第二交集数据集合进行匿名化加密处理。将匿名加密处理后的所述第一交集数据集合发送至所述第二数据集合，将匿名加密处理后的所述第二交集数据集合发送至所述第一数据集合。

步骤S400：获得第一算法参数设定指令，根据所述第一算法参数设定指令设定孤立树最大分裂深度d和所述孤立树的数量n，获得第一参数设定结果；

步骤S500：根据所述第一参数设定结果、孤立森林生成方法、所述第一匿名化交集数据和所述第二匿名化交集数据，在第一客户端生成第一孤立森林，在第二客户端生成第二孤立森林；

具体而言，所述算法参数设定的过程包括进行孤立树的最大分裂深度d的设定和树的数量n的设定过程，其中，所述最大分裂深度d为对节点分裂的次数进行限定的参数，根据所述第一参数设定结果和所述第一匿名化交集数据、所述第二匿名化交集数据、孤立森林生成方法生成第一孤立森林和第二孤立森林。孤立森林的生成过程包括孤立树构建、节点分裂、路径长度控制等，基于上述的参数设定后，基于数据集合生成所述第一孤立森林和所述第二孤立森林。

步骤S600：基于所述第一孤立森林、所述第二孤立森林对所述第一客户端、所述第二客户端，根据孤立森林预测方法进行数据预测其中，所述第一客户端为所述第一数据集合对应的客户端，所述第二客户端为所述第二数据集合对应的客户端。

具体而言，所述第一客户端为所述第一数据集合对应的客户端，所述第二客户端为所述第二数据集合对应的客户端，且所述第一孤立森林为对所述第一客户端进行预测的孤立森林，所述第二孤立森林为对所述第二客户端进行预测的孤立森林，通过对交集数据的匿名化处理，在保证数据的隐私性的基础上，对数据进行共享，进而使得孤立森林构建更加的准确，进而达到进行多方数据的安全性和隐私性的基础上，进行多方数据的合作，进而提高异常检测的准确性的技术效果。

进一步而言，如图2所示，本申请实施例步骤S500还包括：

步骤S510：获得第一孤立树，其中，所述第一孤立树为（i，d），其中，i为所述第一孤立树的编号，d为所述第一孤立树的最大分裂深度；

步骤S520：获得第一生成指令，根据所述第一生成指令生成所述第一孤立树的根节点；

步骤S530：获得第一采样指令，根据所述第一采样指令对所述第一匿名化交集数据集或第二匿名化交集数据集中的任一数据集的样本id进行采样，获得第一采样结果，并将所述第一孤立树的编号、所述第一采样结果写入所述根节点；

步骤S540：根据节点分裂方法，生成完整的第一孤立树；

步骤S550：重复所述第一孤立树的生成方法，直至获得n棵孤立树。

具体而言，在进行孤立森林的构建过程中，通过单独孤立树的构建，基于构建的单独孤立树的集合进行重复操作，获得n棵孤立树，基于所述n棵孤立树获得所述孤立森林。首先获得第一孤立树，所述第一孤立树包括本身的属性信息，即（i，d），其中，i为所述第一孤立树的独有编号，d为所述第一孤立树的最大分裂深度。获得第一生成指令，根据所述第一生成指令生成所述第一孤立树的根节点，即rooti，并将所述第一匿名化交集数据集或第二匿名化交集数据集中的任一数据集的样本id进行随机采样，且所述采样的客户端可以为第一客户端，也可以为第二客户端，只需要所述第一客户端或所述第二客户端的任意一方进行采样，且将采样结果同步至另一客户端，来保持所述第一客户端和所述第二客户端采样的一致性，并将所述第一孤立树的编号、所述第一采样结果写入所述根节点，在所述第一孤立森林和所述第二孤立森林中更新所述第一孤立树。

进一步的，如图3所示，本申请实施例步骤S540还包括：

步骤S541：通过所述第一客户端或所述第二客户端获得第一特征抽取指令，根据所述第一特征抽取指令对所述第一数据集合和所述第二数据集合的全部特征进行特征抽取，获得第一特征抽取结果；

步骤S542：判断所述第一特征抽取结果的特征归属客户端，获得第一判断结果；

步骤S543：当所述第一判断结果为第一客户端时，由所述第一客户端执行所述第一孤立树的节点分裂，当所述第一判断结果为第二客户端时，由所述第二客户端执行所述第一孤立树的节点分裂，如果当前执行操作的客户端与执行节点分裂的客户端不同，由当前客户端向另一客户端同步孤立森林信息，其中，所述孤立森林信息仅包括样本分裂结果，不包括分裂阈值，如果当前执行操作的客户端与执行节点分裂的客户端相同，则不需要即时同步孤立森林信息；

步骤S544：根据所述第一特征抽取结果，随机在特征最大最小值之间取分裂阈值，根据所述分裂阈值进行分裂，获得第一节点分裂结果，根据所述第一节点分裂结果对执行所述节点分裂的客户端进行孤立森林更新，根据所述第一节点分裂结果获得当前节点的两个子节点，并基于所述特征分裂方法进行所述两个子节点的继续分裂。

具体而言，所述第一特征抽取指令为在进行节点分裂的过程中，对样本进行所及抽取的指令，根据所述第一特征抽取指令，对样本数据中的特征进行随机抽取，获得第一特征抽取结果，根据所述第一特征抽取结果，判断所述第一特征的实际归属信息，即获得所述第一特征抽取结果属于第一客户端还是第二客户端，当所述第一特征抽取结果属于第一客户端时，由所述第一客户端执行所述第一孤立树的节点分裂，获得所述第一节点分裂结果，其中，所述第一节点分裂结果包括当前节点分裂的两个子节点，对所述两个子节点进行持续的特征分裂，并在分裂前根据第一特征的实际归属信息，判断执行方是否为本方，若不为本方，则双方进行一次孤立森林同步更新，其中分裂阈值不进行同步更新。当所述第一特征抽取结果的特征归属属于第二客户端时，则由所述第二客户端执行所述第一孤立树的节点分裂，获得所述第一节点分裂结果，其中，所述第一节点分裂结果包括当前节点分裂的两个子节点，对所述两个子节点进行持续的特征分裂，并在分裂前根据第一特征的实际归属信息，判断执行方是否为本方，若不为本方，则双方进行一次孤立森林同步更新，其中分裂阈值不进行同步更新，只更新本分裂结果。通过对执行节点分裂的客户端选择，可以有效保证数据的隐私性的同时，获得更加准确的孤立森林。

进一步的，如图4所示，所述获得第一特征抽取指令之前，本申请实施例步骤S531还包括：

步骤S5311：获得所述第一孤立树的待分裂节点信息；

步骤S5312：根据所述待分裂节点信息获得所述第一孤立树的节点内样本数和节点深度；

步骤S5313：当所述节点内样本数小于等于1或节点深度等于d时，则不对当前节点进行节点分裂。

具体而言，在进行特征抽取之前，首先对所述第一孤立树进行待分裂节点相关信息的判断，即获得所述第一孤立树的待分裂节点信息，根据所述待分裂节点信息，获得所述第一孤立树的节点内的样本数和节点深度信息，当所述第一孤立树的节点内样本数小于等于1或者所述节点深度已经达到了所述第一孤立树的最大深度，满足上述任意一项时，则不需要进行节点分裂。

进一步而言，如图5所示，本申请实施例步骤S500还包括：

步骤S560：获得一致性调整指令，根据所述一致性调整指令在所述第一孤立森林和所述第二孤立森林训练结束前进行一致性调整，其中，所述一致性调整不对分裂阈值进行一致性调整，只对样本分裂结果进行调整。

具体而言，在对所述第一孤立森林和所述第二孤立森林进行训练的过程中，需要进行全局变量的一致性维护，在训练过程中，并不需要时刻保持所述全局变量的一致性，但在训练结束前，需要进行一致性维护，在训练结束前，获得所述第一孤立森林和所述第二孤立森林的样本全局变量信息，判断所述第一孤立森林和所述第二孤立森林的样本全局变量信息是否一致，当不一致时，通过同步使得所述第一孤立森林和所述第二孤立森林的全局变量一致，进而达到使得所述第一孤立森林和所述第二孤立森林的训练更加准确的技术效果。

进一步的，如图6所示，本申请实施例步骤S600还包括：

步骤S610：通过所述第一客户端或所述第二客户端获得第一样本id、孤立树编号、节点编号及当前路径长度，判断所述第一样本id在所述第一客户端和所述第二客户端中是否同时存在，当所述第一样本id在所述第一客户端和所述第二客户端中同时存在时，将所述第一样本id、所述孤立树编号、所述节点编号及所述当前路径长度作为第一输入信息；

步骤S620：根据所述第一输入信息；判断孤立树节点是否为叶子结点，当所述孤立树节点为叶子结点时，则直接计算路径长度，将所述路径长度发送至另一客户端。

具体而言，在进行双方的全局变量通信更新的过程中，需要获取样本在孤立树中的路径长度。获得第一样本的id、孤立树编号、节点编号和当前的路径长度信息，判断所述第一样本的id是否在两个客户端中同时存在，当所述第一样本的id在两个客户端中同时存在时，将所述信息作为第一输入信息，基于所述第一输入信息，判断所述孤立树的节点是否为叶子节点，当所述孤立树的节点为叶子结点时，通过所述公式计算获得

，计算公式如下：

其中，

为训练过程时当前节点的样本数，基于所述计算获得

，路径长度等于

+输入的当前路径长度，其中

为训练过程时当前节点的样本数，将所述路径长度发送至另一客户端。具体计算方法及理论推导可见论文Isolation-based AnomalyDetection。

进一步的，如图7所示，本申请实施例步骤S620还包括：

步骤S621：当所述孤立树节点不为叶子结点时，获得所述孤立树节点的分裂特征，判断所述分裂特征的归属客户端，由所述分裂特征的归属客户端进行执行计算；

步骤S622：获得第一分裂阈值；判断所述分裂特征是否小于所述第一分裂阈值；

步骤S623：当所述分裂特征小于所述第一分裂阈值时，判断所述孤立树节点的左子树是否为叶子节点；

步骤S624：当所述孤立树节点的左子树不是叶子节点时，获得保留所述分裂特征的客户端，由所述客户端继续进行计算，并将当前路径长度增加一；

步骤S625：当所述孤立树节点的左子树是叶子节点时，则由进行孤立树节点判断的客户端获得所述路径长度；

步骤S626：当所述分裂特征不小于所述第一预设分裂阈值时，判断所述孤立树节点的右子树是否为叶子节点；

步骤S627：当所述孤立树节点的右子树不是叶子节点时，获得保留所述分裂特征的客户端，由所述客户端继续进行计算，并将当前路径长度增加一；

步骤S628：当所述孤立树节点的右子树是叶子节点时，则由进行孤立树节点判断的客户端获得所述路径长度。

具体而言，当所述孤立树节点不是叶子节点时，则根据所述样本id获得样本的分裂特征x，训练所得的第一分裂阈值，判断所述分裂特征是否满足所述第一分裂阈值，判断所述分裂特征是否小于所述第一分裂阈值，当所述分裂特征小于所述第一分裂阈值时，判断所述孤立树节点的左子树是否为叶子节点，如果所述孤立树节点的左子树不是叶子节点，由保有该分裂特征的一方执行：获取样本在孤立树中的路径长度的方法，根据以下参数：样本id、孤立树编号以及左子树节点编号、当前路径长度+1，进行计算；当所述当前节点的左子树是叶子节点时，由本方直接计算路径长度，获取样本在孤立树中的路径长度。当所述分裂特征不小于所述第一预设分裂阈值时，即所述分类特征大于等于所述第一预设分裂阈值时，判断所述孤立树节点的右子树是否为叶子节点；当所述孤立树节点的右子树不是叶子节点时，获得保留所述分裂特征的客户端，基于所述客户端获得所述路径长度，即由保有该分裂特征的一方执行：获取样本在孤立树中的路径长度的方法，根据以下参数：样本id、孤立树编号以及左子树节点编号、当前路径长度+1，进行计算；当所述孤立树节点的右子树是叶子节点时，由本方直接计算路径长度。

综上所述，本申请实施例所提供的一种基于纵向联邦的孤立森林训练和预测方法及系统具有如下技术效果：

1、由于采用了获得第一交集数据，其中，所述第一交集数据为第一数据集合和第二数据集合的样本id交集数据中第一客户端的数据；获得第二交集数据，其中，所述第二交集数据为所述第一数据集合和所述第二数据集合的样本id交集数据中的第二客户端的数据；对所述第一交集数据和所述第二交集数据分别进行匿名化处理，获得第一匿名化交集数据和第二匿名化交集数据；获得第一算法参数设定指令，根据所述第一算法参数设定指令设定孤立树最大分裂深度d和所述孤立树的数量n，获得第一参数设定结果；根据所述第一参数设定结果、孤立森林生成方法、所述第一匿名化交集数据和所述第二匿名化交集数据，在第一客户端生成第一孤立森林，在第二客户端生成第二孤立森林；基于所述第一孤立森林、所述第二孤立森林对所述第一客户端、所述第二客户端，根据孤立森林预测方法进行数据预测其中，所述第一客户端为所述第一数据集合对应的客户端，所述第二客户端为所述第二数据集合对应的客户端，通过对交集数据的匿名化处理，在保证数据的隐私性的基础上，对数据进行共享，进而使得孤立森林构建更加的准确，进而达到进行多方数据的安全性和隐私性的基础上，进行多方数据的合作，进而提高异常检测的准确性的技术效果。

实现了纵向联邦状态下的孤立森林生成方法，能够在自有数据不泄露的前提下，帮助数据持有双方共同完成异常检测。

实施例二

基于与前述实施例中一种基于纵向联邦的孤立森林训练和预测方法同样发明构思，本发明还提供了一种基于纵向联邦的孤立森林训练和预测系统，如图8所示，所述系统包括：

第一获得单元11，所述第一获得单元11用于获得第一交集数据，其中，所述第一交集数据为第一数据集合和第二数据集合的样本id交集数据中第一客户端的数据；

第二获得单元12，所述第二获得单元12用于获得第二交集数据，其中，所述第二交集数据为所述第一数据集合和所述第二数据集合的样本id交集数据中的第二客户端的数据；

第三获得单元13，所述第三获得单元13用于对所述第一交集数据和所述第二交集数据分别进行匿名化处理，获得第一匿名化交集数据和第二匿名化交集数据；

第四获得单元14，所述第四获得单元14用于获得第一算法参数设定指令，根据所述第一算法参数设定指令设定孤立树最大分裂深度d和所述孤立树的数量n，获得第一参数设定结果；

第一生成单元15，所述第一生成单元15用于根据所述第一参数设定结果、孤立森林生成方法、所述第一匿名化交集数据和所述第二匿名化交集数据，在第一客户端生成第一孤立森林，在第二客户端生成第二孤立森林；

第一预测单元16，所述第一预测单元16用于基于所述第一孤立森林、所述第二孤立森林对所述第一客户端、所述第二客户端，根据孤立森林预测方法进行数据预测其中，所述第一客户端为所述第一数据集合对应的客户端，所述第二客户端为所述第二数据集合对应的客户端。

进一步的，所述系统还包括：

第五获得单元，所述第五获得单元用于获得第一孤立树，其中，所述第一孤立树为（i，d），其中，i为所述第一孤立树的编号，d为所述第一孤立树的最大分裂深度；

第六获得单元，所述第六获得单元用于获得第一生成指令，根据所述第一生成指令生成所述第一孤立树的根节点；

第七获得单元，所述第七获得单元用于获得第一采样指令，根据所述第一采样指令对所述第一匿名化交集数据集或第二匿名化交集数据集中的任一数据集的样本id进行采样，获得第一采样结果，并将所述第一孤立树的编号、所述第一采样结果写入所述根节点；

第二生成单元，所述第二生成单元用于根据节点分裂方法，生成完整的第一孤立树；

第一更新单元，所述第一更新单元用于重复所述第一孤立树的生成方法，直至获得n棵孤立树。

进一步的，所述系统还包括：

第八获得单元，所述第八获得单元用于获得第一特征抽取指令，根据所述第一特征抽取指令对所述第一数据集合和所述第二数据集合的全部特征进行特征抽取，获得第一特征抽取结果；

第一判断单元，所述第一判断单元用于判断所述第一特征抽取结果的特征归属客户端，获得第一判断结果；

第二判断单元，所述第二判断单元用于当所述第一判断结果为第一客户端时，由所述第一客户端执行所述第一孤立树的节点分裂，当所述第一判断结果为第二客户端时，由所述第二客户端执行所述第一孤立树的节点分裂；

第二更新单元，所述第二更新单元用于根据所述第一特征抽取结果，随机在特征最大最小值之间取分裂阈值，根据所述分裂阈值进行分裂，获得第一节点分裂结果，根据所述第一节点分裂结果对执行所述节点分裂的客户端进行孤立森林更新，根据所述第一节点分裂结果获得当前节点的两个子节点，并基于所述特征分裂方法进行所述两个子节点的继续分裂。

进一步的，所述系统还包括：

第九获得单元，所述第九获得单元用于获得所述第一孤立树的待分裂节点信息；

第十获得单元，所述第十获得单元用于根据所述待分裂节点信息获得所述第一孤立树的节点内样本数和节点深度；

第十一获得单元，所述第十一获得单元用于当所述节点内样本数小于等于1或节点深度等于d时，则不对所述当前节点进行节点分裂。

进一步的，所述系统还包括：

第十二获得单元，所述第十二获得单元用于获得一致性调整指令，根据所述一致性调整指令在所述第一孤立森林和所述第二孤立森林训练结束前进行一致性调整。

进一步的，所述系统还包括：

第十三获得单元，所述第十三获得单元用于获得第一样本id、孤立树编号、节点编号及当前路径长度，判断所述第一样本id在所述第一客户端和所述第二客户端中是否同时存在，当所述第一样本id在所述第一客户端和所述第二客户端中同时存在时，将所述第一样本id、所述孤立树编号、所述节点编号及所述当前路径长度作为第一输入信息；

第十四获得单元，所述第十四获得单元用于根据所述第一输入信息判断孤立树节点是否为叶子结点，当所述孤立树节点为叶子结点时，则直接计算路径长度，将所述路径长度发送至另一客户端。

进一步的，所述系统还包括：

第十五获得单元，所述第十五获得单元用于当所述孤立树节点不为叶子结点时，获得所述孤立树节点的分裂特征，判断所述分裂特征的归属客户端，由所述分裂特征的归属客户端进行执行计算；

第十六获得单元，所述第十六获得单元用于获得第一分裂阈值；判断所述分裂特征是否小于所述第一分裂阈值；

第三判断单元，所述第三判断单元用于当所述分裂特征小于所述第一分裂阈值时，判断所述孤立树节点的左子树是否为叶子节点；

第十七获得单元，所述第十七获得单元用于当所述孤立树节点的左子树不是叶子节点时，获得保留所述分裂特征的客户端，由所述客户端继续进行计算，并将当前路径长度增加一；

第十八获得单元，所述第十八获得单元用于当所述孤立树节点的左子树是叶子节点时，则由进行孤立树节点判断的客户端获得所述路径长度；

第四判断单元，所述第四判断单元用于当所述分裂特征不小于所述第一预设分裂阈值时，判断所述孤立树节点的右子树是否为叶子节点；

第十九获得单元，所述第十九获得单元用于当所述孤立树节点的右子树不是叶子节点时，获得保留所述分裂特征的客户端，由所述客户端继续进行计算，并将当前路径长度增加一；

第二十获得单元，所述第二十获得单元用于当所述孤立树节点的右子树是叶子节点时，则由进行孤立树节点判断的客户端获得所述路径长度。

前述图1实施例一中的一种基于纵向联邦的孤立森林训练和预测方法的各种变化方式和具体实例同样适用于本实施例的一种基于纵向联邦的孤立森林训练和预测系统，通过前述对一种基于纵向联邦的孤立森林训练和预测方法的详细描述，本领域技术人员可以清楚的知道本实施例中一种基于纵向联邦的孤立森林训练和预测系统的实施方法，所以为了说明书的简洁，在此不再详述。

示例性电子设备

下面参考图9来描述本申请实施例的电子设备。

图9图示了根据本申请实施例的电子设备的结构示意图。

基于与前述实施例中一种基于纵向联邦的孤立森林训练和预测方法的发明构思，本发明还提供一种基于纵向联邦的孤立森林训练和预测系统，下面，参考图9来描述根据本申请实施例的电子设备。该电子设备可以是可移动设备本身，或与其独立的单机设备，其上存储有计算机程序，该程序被处理器执行时实现前文所述方法的任一方法的步骤。

如图9所示，电子设备50包括一个或多个处理器51和存储器52。

处理器51可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备50中的其他组件以执行期望的功能。

存储器52可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器51可以运行所述程序指令，以实现上文所述的本申请的各个实施例的方法以及/或者其他期望的功能。

在一个示例中，电子设备50还可以包括：输入装置53和输出装置54，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。

本发明实施例提供的一种基于纵向联邦的孤立森林训练和预测方法，其中，所述方法包括：获得第一交集数据，其中，所述第一交集数据为第一数据集合和第二数据集合的样本id交集数据中第一客户端的数据；获得第二交集数据，其中，所述第二交集数据为所述第一数据集合和所述第二数据集合的样本id交集数据中的第二客户端的数据；对所述第一交集数据和所述第二交集数据分别进行匿名化处理，获得第一匿名化交集数据和第二匿名化交集数据；获得第一算法参数设定指令，根据所述第一算法参数设定指令设定孤立树最大分裂深度d和所述孤立树的数量n，获得第一参数设定结果；根据所述第一参数设定结果、孤立森林生成方法、所述第一匿名化交集数据和所述第二匿名化交集数据，在第一客户端生成第一孤立森林，在第二客户端生成第二孤立森林；基于所述第一孤立森林、所述第二孤立森林对所述第一客户端、所述第二客户端，根据孤立森林预测方法进行数据预测其中，所述第一客户端为所述第一数据集合对应的客户端，所述第二客户端为所述第二数据集合对应的客户端。解决了现有技术中在进行异常检测的过程中，存在多方数据难以合作，导致异常检测的手段受限的技术问题，达到进行多方数据的安全性和隐私性的基础上，进行多方数据的合作，进而提高异常检测的准确性的技术效果。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从计算机可读存储介质向另计算机可读存储介质传输，所述可用介质可以是磁性介质，（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质（例如固态硬盘（Solid State Disk，SSD））等。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

另外，本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本申请实施例中，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

总之，以上所述仅为本申请技术方案的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于纵向联邦的孤立森林训练和预测方法，其中，所述方法包括：

获得第一交集数据，其中，所述第一交集数据为第一数据集合和第二数据集合的样本id交集数据中第一客户端的数据；

获得第二交集数据，其中，所述第二交集数据为所述第一数据集合和所述第二数据集合的样本id交集数据中的第二客户端的数据；

对所述第一交集数据和所述第二交集数据分别进行匿名化处理，获得第一匿名化交集数据和第二匿名化交集数据；

获得第一算法参数设定指令，根据所述第一算法参数设定指令设定孤立树最大分裂深度d和所述孤立树的数量n，获得第一参数设定结果；

根据所述第一参数设定结果、孤立森林生成方法、所述第一匿名化交集数据和所述第二匿名化交集数据，在第一客户端生成第一孤立森林，在第二客户端生成第二孤立森林；

基于所述第一孤立森林、所述第二孤立森林对所述第一客户端、所述第二客户端，根据孤立森林预测方法进行数据预测，且所述第一孤立森林为对所述第一客户端进行预测的孤立森林，所述第二孤立森林为对所述第二客户端进行预测的孤立森林，其中，所述第一客户端为所述第一数据集合对应的客户端，所述第二客户端为所述第二数据集合对应的客户端。

2.如权利要求1所述的方法，其中，所述方法还包括：

获得第一孤立树，其中，所述第一孤立树为（i，d），其中，i为所述第一孤立树的编号，d为所述第一孤立树的最大分裂深度；

获得第一生成指令，根据所述第一生成指令生成所述第一孤立树的根节点；

获得第一采样指令，根据所述第一采样指令对所述第一匿名化交集数据集或第二匿名化交集数据集中的任一数据集的样本id进行采样，获得第一采样结果，并将所述第一孤立树的编号、所述第一采样结果写入所述根节点；

根据节点分裂方法，生成完整的第一孤立树；

重复所述第一孤立树的生成方法，直至获得n棵孤立树。

3.如权利要求2所述的方法，其中，所述节点分裂方法还包括：

通过所述第一客户端或所述第二客户端获得第一特征抽取指令，根据所述第一特征抽取指令对所述第一数据集合和所述第二数据集合的全部特征进行特征抽取，获得第一特征抽取结果；

判断所述第一特征抽取结果的特征归属客户端，获得第一判断结果；

当所述第一判断结果为第一客户端时，由所述第一客户端执行所述第一孤立树的节点分裂，当所述第一判断结果为第二客户端时，由所述第二客户端执行所述第一孤立树的节点分裂，如果当前执行操作的客户端与执行节点分裂的客户端不同，由当前客户端向另一客户端同步孤立森林信息，其中，所述孤立森林信息仅包括样本分裂结果，不包括分裂阈值，如果当前执行操作的客户端与执行节点分裂的客户端相同，则不需要即时同步孤立森林信息；

根据所述第一特征抽取结果，随机在特征最大最小值之间取分裂阈值，根据所述分裂阈值进行分裂，获得第一节点分裂结果，根据所述第一节点分裂结果对执行所述节点分裂的客户端进行孤立森林更新，根据所述第一节点分裂结果获得当前节点的两个子节点，并基于所述特征分裂方法进行所述两个子节点的继续分裂。

4.如权利要求3所述的方法，其中，所述获得第一特征抽取指令之前，还包括：

获得所述第一孤立树的待分裂节点信息；

根据所述待分裂节点信息获得所述第一孤立树的节点内样本数和节点深度；

当所述节点内样本数小于等于1或节点深度等于d时，则不对当前节点进行节点分裂。

5.如权利要求1所述的方法，其中，所述方法还包括：

获得一致性调整指令，根据所述一致性调整指令在所述第一孤立森林和所述第二孤立森林训练结束前进行一致性调整，其中，所述一致性调整不对分裂阈值进行一致性调整，只对样本分裂结果进行调整。

6.如权利要求1所述的方法，其中，所述孤立森林预测方法还包括：

通过所述第一客户端或所述第二客户端获得第一样本id、孤立树编号、节点编号及当前路径长度，判断所述第一样本id在所述第一客户端和所述第二客户端中是否同时存在，当所述第一样本id在所述第一客户端和所述第二客户端中同时存在时，将所述第一样本id、所述孤立树编号、所述节点编号及所述当前路径长度作为第一输入信息；

根据所述第一输入信息判断孤立树节点是否为叶子结点，当所述孤立树节点为叶子结点时，则直接计算路径长度，将所述路径长度发送至另一客户端。

7.如权利要求6所述的方法，其中，所述方法还包括：

当所述孤立树节点不为叶子结点时，获得所述孤立树节点的分裂特征，判断所述分裂特征的归属客户端，由所述分裂特征的归属客户端进行执行计算；

获得第一分裂阈值；判断所述分裂特征是否小于所述第一分裂阈值；

当所述分裂特征小于所述第一分裂阈值时，判断所述孤立树节点的左子树是否为叶子节点；

当所述孤立树节点的左子树不是叶子节点时，获得保留所述分裂特征的客户端，由所述客户端继续进行计算，并将当前路径长度增加一；

当所述孤立树节点的左子树是叶子节点时，则由进行孤立树节点判断的客户端获得所述路径长度；

当所述分裂特征不小于所述第一预设分裂阈值时，判断所述孤立树节点的右子树是否为叶子节点；

当所述孤立树节点的右子树不是叶子节点时，获得保留所述分裂特征的客户端，由所述客户端继续进行计算，并将当前路径长度增加一；

当所述孤立树节点的右子树是叶子节点时，则由进行孤立树节点判断的客户端获得所述路径长度。

8.一种基于纵向联邦的孤立森林训练和预测系统，其中，所述系统包括：

第一获得单元，所述第一获得单元用于获得第一交集数据，其中，所述第一交集数据为第一数据集合和第二数据集合的样本id交集数据中第一客户端的数据；

第二获得单元，所述第二获得单元用于获得第二交集数据，其中，所述第二交集数据为所述第一数据集合和所述第二数据集合的样本id交集数据中的第二客户端的数据；

第三获得单元，所述第三获得单元用于对所述第一交集数据和所述第二交集数据分别进行匿名化处理，获得第一匿名化交集数据和第二匿名化交集数据；

第四获得单元，所述第四获得单元用于获得第一算法参数设定指令，根据所述第一算法参数设定指令设定孤立树最大分裂深度d和所述孤立树的数量n，获得第一参数设定结果；

第一生成单元，所述第一生成单元用于根据所述第一参数设定结果、孤立森林生成方法、所述第一匿名化交集数据和所述第二匿名化交集数据，在第一客户端生成第一孤立森林，在第二客户端生成第二孤立森林；

第一预测单元，所述第一预测单元用于基于所述第一孤立森林、所述第二孤立森林对所述第一客户端、所述第二客户端，根据孤立森林预测方法进行数据预测，且所述第一孤立森林为对所述第一客户端进行预测的孤立森林，所述第二孤立森林为对所述第二客户端进行预测的孤立森林，其中，所述第一客户端为所述第一数据集合对应的客户端，所述第二客户端为所述第二数据集合对应的客户端。

9.一种基于纵向联邦的孤立森林训练和预测系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。