CN116821838B

CN116821838B - 一种隐私保护的异常交易检测方法及装置

Info

Publication number: CN116821838B
Application number: CN202311114233.XA
Authority: CN
Inventors: 张秉晟; 王迪; 任奎
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-12-29
Anticipated expiration: 2043-08-31
Also published as: CN116821838A

Abstract

本发明公开了一种隐私保护的异常交易检测方法及装置，该方法包括：金融结算服务提供方对于所要进行异常检测的交易，从相应的银行数据集中进行所述交易涉及账户的字段提取；金融结算服务提供方对金融结算服务提供方数据集进行特征提取，所述特征包括基于所述金融结算服务提供方提取的明文特征以及基于所提取的字段进行标签传播得到的账户异常可能性特征；金融结算服务提供方基于提取的特征进行XGBoost的隐私训练；金融结算服务提供方获取待进行异常检测的交易，提取其特征向量并将所述特征向量输入训练好的XGBoost模型进行异常预测。

Description

一种隐私保护的异常交易检测方法及装置

技术领域

本发明属于隐私保护异常检测技术领域，尤其涉及一种隐私保护的异常交易检测方法及装置。

背景技术

现有技术大都基于在有相同数据不同特征或者相同特征不同数据的实体间进行横向或者纵向联邦学习，实现双方数据在不互通的前提下训练模型以及预测。由于纵向联邦学习适用于一方拥有特征，一方拥有特征和标签，两方共同维护各自的模型进行训练。

在金融结算服务提供方支付系统的背景下，金融结算服务提供方持有交易数据，而相关的账户信息由其合作银行参与方维护。

发明内容

针对现有技术存在的问题本申请实施例的目的是提供一种隐私保护的异常交易检测方法及装置，允许金融结算服务提供方和其合作银行参与方共同训练模型并识别异常交易，而无需披露他们的私密数据。

根据本申请实施例的第一方面，提供一种隐私保护的异常交易检测方法，包括：

（1）金融结算服务提供方对于所要进行异常检测的交易，从相应的银行数据集中进行所述交易涉及账户的字段提取；

（2）金融结算服务提供方对金融结算服务提供方数据集进行特征提取，所述特征包括基于所述金融结算服务提供方提取的明文特征以及基于所提取的字段进行标签传播得到的账户异常可能性特征；

（3）金融结算服务提供方基于提取的特征进行XGBoost的隐私训练；

（4）金融结算服务提供方获取待进行异常检测的交易，提取其特征向量并将所述特征向量输入训练好的XGBoost模型进行异常预测。

进一步地，在步骤（1）中，所述金融结算服务提供方与相应的银行参与方基于哈希技术和单个查询的混淆可编程伪随机函数协议的私有集合求交协议获取交集，对应的银行参与方利用全同态加密技术加密元组/>，其中/>为该银行参与方的账户标识符，/>为加密的账户异常可能性/>，/>表示对应的银行参与方和金融结算服务提供方都有的id集合。

进一步地，在步骤（2）中，基于所提取的字段进行标签传播，包括：

金融结算服务提供方构建一个交易图，每个结点/>表示为一个元组，其中/>是账户/>的异常可能性，初始值为0，每个边/>表示为一个元组，其中/>和/>是边的源结点和目标结点的索引，权重/>由账户/>和/>之间的交易中派生；

在图G和加密标签上执行标签传播算法，以使得对于每个交易，金融结算服务提供方通过查找带有受益人账户的账户标识符的交易图来获得异常可能性/>。

进一步地，对，/>为元组/>的集合，/>是账户/>的异常可能性，/>为元组/>的集合，在图G和加密标签上执行标签传播算法，具体为：

对于每个边，金融结算服务提供方对/>进行归一化：，其中/>是结点/>的邻居和自身在/>中的索引集合，将第/>次迭代中账户/>的异常可能性为/>，金融结算服务提供方将标记数据引入为第0次迭代的状态，记录初始化为空集的索引集/>，并根据G进行标签传播如下：

步骤0：设定轮次；

步骤1：传播；

步骤2：通过与银行参与方的协作夹紧标记数据，具体为：金融结算服务提供方将发送给第j个银行参与方，第j个银行参与方在本地计算，对于/>，将更新后的/>发送给金融结算服务提供方；

步骤3：增加；

重复从步骤1开始，直到，其中/>是超参数。

进一步地，在图G和加密标签上执行标签传播算法之前，将图G缩小为高风险子图，该子图仅包括标记异常交易步范围内的账户。

进一步地，XGBoost的隐私训练过程具体为：

（3.1）金融结算服务提供方和银行参与方/>计算预测损失的加密梯度，用加密的掩码向量/>初始化根结点，其中/>为经过t-1次迭代训练后的预测输出；

（3.2）初始化结点列表并将所述根结点加入所述结点列表；

（3.3）对于所有的结点执行如下操作：

（3.3.1）和/>共同计算叶子结点i所包含样本的一阶偏导数累加之和及叶子结点i所包含样本的二阶偏导数累加之和/>，并将结果公开给/>；

（3.3.2）如果下一轮分割增益为负，则对所有结点，/>计算/>结点的权重，λ用于调整叶子结点；

（3.3.3）如果下一轮分割增益大于等于0，则执行如下操作：

（3.3.3.1）和/>共同构建直方图/>即聚合梯度，并计算候选梯度和/>；

（3.3.3.2）对所有明文特征的候选分割j执行如下操作，以选择最优的分割：公开给/>,/>得到分割增益/>;如果当前最优分割增益/>，则/>更新最佳分割增益/>,更新最佳特征k的最佳分割j为/>, />；

（3.3.3.3）对所有账户异常可能性特征的候选分割j执行如下操作，以选择最优的分割：/>和/>联合计算/>；如果当前/>，则/>和更新最佳的分割/>,/> ,/>；

（3.3.3.4）和/>公开对于第k个特征的最佳分割；

（3.3.3.5）如果第k个特征为明文特征，则公开<best.j>给，/>选择并记录特征阈值/>；否则公开<best.j>给/>，/>同态加密/>，并将/>发送给/>；

（3.3.3.6）和/>共同计算左子结点/>和右子结点，其中将数据小于特征阈值的结点归为左子结点，其余为右子结点；

（3.3.3.7）添加和/>到/>里面，从而得到由具有特征阈值和权重的/>中的所有结点组成的决策树模型/>。

进一步地，将所述特征向量输入训练好的XGBoost进行异常预测，具体为：

对于交易（oid，bid，...），如果，则金融结算服务提供方从本地交易图G中获取/>，否则，金融结算服务提供方将/>，其中oid为交易发起账户标识符，bid为交易接受账户标识符；

金融结算服务提供方评估XGBoost中的所有决策树，对于树，并行进行所有内部结点的比较，并获得边的权重/>，其中如果结点ρ选择左边，则/>，否则/>；

当结点ρ对应于账户异常可能性特征时，各方共同将和来自全同态加密形式的特征转换为算术秘密共享形式，并计算/>；

对于从根结点到叶结点的每条路径，金融结算服务提供方和选定的银行参与方共同将边的权重和叶结点权重相乘，并将所有路径的结果求和得到/>，预测输出计算为/>。

根据本申请实施例的第二方面，提供一种隐私保护的异常交易检测装置，包括：

字段提取模块，用于金融结算服务提供方对于所要进行异常检测的交易，从相应的银行数据集中进行所述交易涉及账户的字段提取；

特征提取模块，用于金融结算服务提供方对金融结算服务提供方数据集进行特征提取，所述特征包括基于所述金融结算服务提供方提取的明文特征以及基于所提取的字段进行标签传播得到的账户异常可能性特征；

模型训练模块，用于金融结算服务提供方基于提取的特征进行XGBoost的隐私训练；

模型预测模块，用于金融结算服务提供方获取待进行异常检测的交易，提取其特征向量并将所述特征向量输入训练好的XGBoost模型进行异常预测。

根据本申请实施例的第三方面，提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本申请利用了几种隐私增强技术（PET），如私有集合交集（PSI）、全同态加密（PHE）和多方计算（MPC）。例如，典型的交易涉及一个发起账户和一个收款账户。金融结算服务提供方需要从相应的银行参与方中获取这些账户信息，以增强其本地交易图，促进更好的特征工程。在此步骤中，银行参与方不应知道已访问哪些账户。因此，采用了PSI协议，让金融结算服务提供方能够在不透露访问模式的情况下“获取”来自银行参与方的账户信息。同时，银行参与方不希望其账户信息以明文形式泄露给金融结算服务提供方，但这些信息应该用于特征提取和模型训练。为了解决这个矛盾，采用PHE方案实现对加密数据的计算。此外，在模型训练和预测过程中，仅仅使用PHE评估可能无法进行一些复杂的操作；引入MPC协议作为计算和通信成本之间的权衡。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种隐私保护的异常交易检测方法中训练阶段的示意图。

图2是根据一示例性实施例示出的一种隐私保护的异常交易检测方法中预测阶段的示意图。

图3是根据一示例性实施例示出的一种隐私保护的异常交易检测的装置的框图。

图4是根据一示例性实施例示出的电子设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

名词解释：

1）XGBoost (eXtreme Gradient Boosting)

XGBoost（极限梯度提升）是一种高效、可扩展且广泛应用于机器学习和数据科学领域的强大算法。它是一种梯度提升框架，能够在处理结构化数据和特征工程方面表现出色。XGBoost以树模型为基础，通过迭代地训练多个决策树，并使用梯度提升算法来不断优化模型的预测性能。它具有许多优势，如自适应学习率、特征重要性评估、并行计算和处理缺失值等。XGBoost在许多机器学习竞赛和实际应用中取得了卓越的成绩，广泛应用于分类、回归、排序和推荐等任务。其强大的性能和灵活性使得XGBoost成为数据科学家和机器学习实践者的首选算法之一。

2）全同态加密（Fully Homomorphic Encryption）

全同态加密是一种强大的加密技术，可以在加密状态下进行计算，而无需解密数据。它能够实现对加密数据进行复杂的运算操作，例如加法、乘法和逻辑运算，同时保持数据的加密状态。全同态加密在保护数据隐私和安全性方面具有重要意义。它允许数据持有者在保护数据的同时与其他方进行安全计算和数据共享，而无需直接暴露数据内容。这对于处理敏感信息，如个人身份数据和金融交易数据，尤为关键。

全同态加密的应用广泛涉及隐私保护、安全计算和安全外包等领域。在医疗健康领域，全同态加密可以用于匿名数据分析和精准医学研究。在云计算环境中，全同态加密可以实现数据隐私保护的安全外包计算。在金融领域，全同态加密可以支持保护用户隐私的金融数据分析和风险评估。

全同态加密技术为数据隐私和安全计算提供了强大的工具，使得数据共享和安全计算能够在加密状态下进行，为保护个人隐私和敏感数据做出了重要贡献。

3）私有集合交集（Private Set Intersection，PSI）

私有集合交集是一种加密协议，用于安全地比较和计算两个不同参与方之间的交集，而不会泄露具体的集合成员。协议可以在保护数据隐私的前提下，找到两个集合之间的共同元素。隐私集合求交协议在许多领域具有重要应用，特别是在隐私保护和数据共享场景中。例如，当两个组织或个体拥有各自的私有数据集合时，他们可以使用隐私集合求交协议确定两个集合中的交集，而无需直接揭示集合的内容。这对于进行合作分析、数据集成和隐私保护具有关键意义。

总之，隐私集合求交协议是一种重要的隐私保护工具，可以帮助不同参与方在保护数据隐私的同时，进行安全的集合交集计算，促进数据共享和合作分析的进行。

4）标签传播算法（Label Propagation Algorithm）

标签传播算法是一种用于图数据的迭代算法，用于在图中传播标签或信息。在隐私保护场景中，标签传播算法用于对敏感标签进行隐私保护的传播和更新。标签传播算法的流程可分为图构建、初始标签化、标签传播迭代、收敛条件、标签更新策略、终止和输出。

总的来说，标签传播算法通过迭代更新结点的标签，利用结点之间的关联关系和信息传递，实现标签在图中的传播和演化。在隐私保护中，标签传播算法被应用于保护敏感标签的隐私，确保在信息传递过程中敏感信息不被泄露。

5）安全多方计算（Secure Multi-Party Computation，SMPC）

安全多方计算是一种密码学协议，用于在多个参与方之间进行计算，同时保护各方的输入数据的隐私。在安全多方计算中，参与方可以共同进行计算，而不必将自己的私有数据公开给其他方。这种保护隐私的计算模型对于处理敏感数据和保护个人隐私具有重要意义。

安全多方计算的目标是使参与方能够合作进行计算，同时确保计算过程中的数据保密性和完整性。为了实现这一目标，安全多方计算使用密码学技术来对数据进行加密和处理，以确保计算的正确性和隐私保护。在安全多方计算中，参与方之间可以进行各种计算操作，例如加法、乘法、比较等。每个参与方将自己的输入数据进行加密，并将加密数据发送给其他方进行计算。通过使用密码学原语，如同态加密、安全哈希函数和零知识证明，参与方可以在加密状态下进行计算，同时确保数据的隐私性。

安全多方计算具有广泛的应用领域，尤其是在处理敏感数据和保护隐私方面。例如，在金融领域，多个银行可能希望合作进行风险评估或信用评分，而不必共享客户的个人财务信息。通过使用安全多方计算，银行可以在保护客户隐私的同时，进行协作计算和决策。

总之，安全多方计算为多个参与方之间的合作计算提供了隐私保护的解决方案，对于处理敏感数据和保护个人隐私具有重要意义。通过使用密码学技术和协议，参与方可以共同进行计算，而不必泄露私有数据，从而促进了安全和隐私保护的数据共享。

符号说明：

表示/>；

对于表示全同态加密；

表示其使用私钥/>对AES-GCM方案进行加密；

表示/>的算术秘密共享，其中第/>方持有/>和/>；

设置方：金融结算服务提供方/>和/>个银行参与方/>；

是所有银行参与方的账户总数。

表示银行参与方和金融结算服务提供方进行PSI协议之后的交集ID集合，也就是银行和金融结算服务提供方都有的id集合

需要说明的是，本申请适用于部分特征为隐私计算结果且不被任一方持有的隐私保护的异常检测。

本专利涉及一种隐私保护的异常交易检测方法，其中包括多个银行参与方与一个金融结算服务提供方，每个银行参与方拥有自己的账户信息以及账户信息异常可能性标签，各个银行之间的账户交易可通金融结算服务提供方完成，金融结算服务提供方拥有交易的发起人，收益人，受益人地址，时间，金额，货币等信息。首先银行参与方利用同态加密和隐私求交技术将自己的隐私数据-账户异常可能性发送给金融结算服务提供方。金融结算服务提供方拿到加密的异常可能性数据后，对自己的交易信息进行数据增强。本方案采用XGBoost作为主要模型，该模型使用从金融结算服务提供方交易图中提取的特征，这些特征通过银行参与方维护的账户字段进行增强。如图1和图2所示，该方法可以包括以下步骤：

具体地，金融结算服务提供方需要以隐私方式从相应的银行中获取其交易数据集中涉及的一组账户字段。为了实现这一点，本申请使用一个私有集合交集（PSI）方案的变种。每个银行首先使用全同态加密（PHE）方案对其数据集进行加密，然后作为发送方通过PSI以隐私方式将选择的数据集传输给金融结算服务提供方。

具体地，基本的结构化特征可以由金融结算服务提供方独立从金融结算服务提供方交易数据集中提取。附加特征是通过金融结算服务提供方和银行的协作计算得出的，使用PHE评估和多方计算（MPC）。特别地，账户异常可能性作为一个重要特征，通过标签传播算法从金融结算服务提供方的交易图和银行参与方的加密标签作为输入进行提取。在此阶段结束时，金融结算服务提供方以加密形式获得提取的特征。

具体地，XGBoost使用决策树作为弱学习器，每棵树都是通过与前面的树的预测输出之间的预测损失进行训练的。在训练过程中，敏感的中间值以保护隐私的方式进行维护。预测输出不会向银行参与方或金融结算服务提供方透露，本申请的私有推理协议也可以在某些情况下实现不向金融结算服务提供方透露。然后，金融结算服务提供方和银行参与方共同使用PHE评估和MPC协议计算预测损失、分割增益和最佳分割的梯度。训练好的模型只有金融结算服务提供方知晓。

（4）金融结算服务提供方获取待进行异常检测的交易，提取其特征向量并将所述特征向量输入训练好的XGBoost模型进行异常预测；

具体地，为了避免由预测输出引起的信息泄露，对应于加密特征的决策结点上的比较计算通过MPC协议进行。之后，金融结算服务提供方将获得一些加密的中间结果以完成推断。如果预测输出是加密的，金融结算服务提供方和银行参与方将共同解密它。

本申请是在金融结算服务提供方和银行参与方之间通过同步网络或部分同步网络执行的协议。在整个执行过程中，金融结算服务提供方和n个银行参与方应同时在线。各方通过安全的身份验证对等通道相互连接，这可以通过基于受信任的公钥基础设施（PKI）的TSL协议来实现。

集中式XGBoost模型被视为隐私保护方案的基线。在本申请中，XGBoost模型使用金融结算服务提供方数据集的基本特征以及涉及金融结算服务提供方数据集和银行参与方数据集敏感信息的附加特征账户异常可能性进行训练。在明文形式下，账户异常可能性来源于金融结算服务提供方交易图和银行参与方的账户异常标签/>，集中式学习过程如下

金融结算服务提供方从银行参与方获取当。

金融结算服务提供方在本地执行特征提取:从金融结算服务提供方数据集中提取交易特征(例如，每个发送方的频率)；计算集合中所有帐户的异常可能性。更具体地说，金融结算服务提供方构建一个交易图，其中顶点代表账户，边缘代表两个端点之间的相关性，然后进行标签传播来计算账户异常可能性，使用/>作为标记数据。

金融结算服务提供方利用交易特征、受益人的账户异常可能性训练XGBoost模型进行分类任务。

金融结算服务提供方接收交易查询并运行推理生成预测。

本申请旨在将隐私添加到上述联邦学习过程中，以下对本方法进行详细描述。

具体地，金融结算服务提供方持有金融结算服务提供方数据集表示金融结算服务提供方/>的数据，/>表示交易发起账户标识符，/>表示交易接受账户标识符，/>表示交易标签，下标j表示交易。银行参与方持有银行数据集/>表示第i个银行参与方/>的数据, />表示该银行参与方所持有的数据集中的账户标识符，/>表示账户异常可能性，其中1代表账户可能存在异常，下标代表金融结算服务提供方，/>代表银行参与方，/>代表第ｉ个银行参与方。

本申请使用基于哈希技术和用于单个查询的混淆可编程伪随机函数（ObliviousProgrammable Pseudo-Random Function，OPPRF）协议的私有集合交集协议来混淆计算加密元组,以防止泄露金融结算服务提供方数据集中的oid、bid以及银行参与方数据集中的id、e。基于安全的PSI协议，本申请的混淆字段提取工作如下所示：银行参与方作为PSI发送方，输入键值集合/>。金融结算服务提供方作为接收方，输入查询集合/>，其中包括与第i个银行参与方相关的所有oid和bid。在PSI协议结束时，金融结算服务提供方获取/>，并将其透露给第i个银行参与方。然后，第i个银行参与方对于/>，使用PHE方案对/>进行加密得到/>，并将/>发送给金融结算服务提供方。

本申请的PSI基于哈希技术和用于单个查询的混淆可编程伪随机函数（ObliviousProgrammable Pseudo-Random Function，OPPRF）协议。具体来说，金融结算服务提供方和银行参与方首先约定个哈希函数/>。金融结算服务提供方使用带有/>的布谷鸟哈希将查询/>映射到箱子/>，以确保每个箱子最多包含一个查询。银行参与方也将id映射到箱子/>，但每个点/>被插入到箱子/>中。然后，金融结算服务提供方和银行参与方运行/>个单个查询的OPPRF实例。在第/>个实例中，银行参与方输入映射到其/>的所有点，而金融结算服务提供方输入映射到其/>的单个（虚拟）查询。最终在金融结算服务提供方获得与对应银行的账户交集。

（2）金融结算服务提供方对所述金融结算服务提供方数据集进行特征提取，并基于所提取的字段进行标签传播；

中的每个交易将被转换为多个用于训练的特征。在这里，本申请重点关注敏感特征（账户异常可能性）的隐私保护提取方法。其他交易特征例如交易金额、发送方总交易金额、发送方与接收方交易货币是否一致、同一发起方银行在同一种货币下的交易金额均值、同一发起方一天的交易次数、同一发起方银行一周内相同小时交易次数、同一接收货币相同发起货币下一周的交易金额方差等可以由金融结算服务提供方以明文从金融结算服务提供方数据集中提取。为了私密地计算账户异常可能性，首先，金融结算服务提供方构建一个交易图/>。每个结点/>表示为一个元组/>，其中/>是账户/>的异常可能性，初始值为0。注意，/>。每个边/>表示为一个元组，其中/>和/>是边的源结点和目标结点的索引，权重/>由账户/>和/>之间的交易中派生。接下来，本申请在图G和加密标签/>上执行标签传播算法。标签传播完成后，对于每个交易/>，金融结算服务提供方将在/>中创建一个新字段r，并通过查找带有受益人账户bid_j的/>来获得/>。

为了确保标签传播的收敛，对于每个边，金融结算服务提供方对/>进行归一化：/>，其中/>是结点/>的邻居和自身在/>中的索引集合，将第/>次迭代中账户/>的异常可能性为/>。金融结算服务提供方将标记数据/>引入为第0次迭代的状态，并记录初始化为空集的索引集/>。即，如果，则/>。然后，金融结算服务提供方根据G进行标签传播如下：

步骤0：设定轮次；

步骤1：传播；

步骤3：增加；

重复从步骤1开始，直到，其中/>是超参数。

备注：交易图可以缩小为高风险子图，该子图仅包括标记异常交易步范围内的账户。然后，本申请可以在一个更小的图上进行隐私保护标签传播，从而显著降低通信和计算成本。

XGBoost使用决策树作为弱学习器，其中每棵树都是通过先前树的预测输出与真实标签之间的预测损失进行训练的。设f_t表示第t次迭代训练的决策树，表示经过t次迭代后的预测输出，其损失为/>。本申请将f_t贪婪地添加到XGBoost模型中，以最小化损失/>

上述为XGBoost训练的目标函数，其中第二行将所述目标函数表示为遍历所有样本后求每个样本的损失函数，单样本最终会落到叶子结点上，n为样本数量，第三行将目标函数表示为遍历每个叶子结点后求每个叶子结点的损失函数，每个叶子结点可能会有多个样本，表示这个叶子结点的所有样本，/>是叶子结点的权重，T为叶子结点的数量。

上述目标函数的具体内容在《Xgboost: A scalable tree boosting system》中已有所记载，此处不作赘述。

其中。假设/>和/>是分割后左右结点的实例集合，/>是当前实例集合，则分割后的增益（即损失减少）为

在获得最佳树结构后，对于叶子结点j的有效实例集合，其权重w_j可以通过计算。本申请采用逻辑损失作为损失函数，然后/>,。

为了隐私地训练第t棵树，首先，不应向银行参与方透露预测输出。本申请提出了一种隐私保护的推理协议。简要来说，对于与加密特征对应的决策结点，本申请使用MPC协议来将特征与阈值进行比较。然后各方将私有决策转换为PHE并发送给金融结算服务提供方。对于其他决策结点，金融结算服务提供方以明文进行比较。之后，各方计算（加密的）预测值/>，并获得预测损失的加密梯度。

在本申请的训练方案中，本申请使用一个秘密共享的向量来指示当前树结点上可用的交易实例。/>表示第i个交易属于/>可用，否则为0。这样可以避免基于私有特征的样本集更改导致的信息泄漏。在训练开始之前，金融结算服务提供方初始化与v相关联的根结点，其中所有元素均设置为1，并且递归地分割根结点。由于本申请假设金融结算服务提供方不与任何银行参与方串通，给定树结点/>，本申请让金融结算服务提供方和一个选择的银行参与方（表示为/>）共同决定基于信息增益/>的最佳分割，假设现在训练到第t棵树，让/>代表金融结算服务提供方，/>代表银行参与方，/>表示/>的算术秘密共享，其中第/>方持有/>和/>，/>表示叶子结点i所包含样本的一阶偏导数累加之和，/>表示叶子结点i所包含样本的二阶偏导数累加之和。

隐私训练过程具体如下：

（3.2）初始化结点列表并将所述根结点加入所述结点列表；

（3.3）对于所有的结点执行如下操作：

（3.3.3）如果下一轮分割增益大于等于0，则执行如下操作：

（3.3.3.2）对所有明文特征的候选分割j执行如下操作，以选择最优的分割：公开给/>,/>得到分割增益/>;如果当前最优分割增益/>，则/>更新最佳分割增益/>,更新最佳特征k的最佳分割j为/>, />；/>

（3.3.3.4）和/>公开对于第k个特征的最佳分割；

以下为对应的伪代码：

输入：金融结算服务提供方持有的数据；加密的账户异常可能性/>；前树的预测输出/>；

输出：决策树模型；

1. 和/>计算梯度/>，用加密的掩码向量/>初始化根结点，用<root.v>表示；

2.初始化结点列表；

3.对于所有的结点执行第4-21步操作；

4.和/>计算并公开/>给/>；

5.如果满足剪枝条件，则执行第6步操作，否则，执行第7-21步操作

6.对于所有的结点，/>计算/>；

7.和/>共同构建直方图/>即聚合梯度，并计算候选梯度和/>；

8.对所有特征的候选分割j执行第9-11步操作,选择最优的分割；

9.公开给/>,/>得到/>；

10.如果当前最优分割增益执行第11步；

11. 更新最佳分割增益/>,对于特征k最佳分割/>,；/>

12.对所有特征的候选分割j执行第13-15步操作；

13.和/>联合计算/>；

14.如果当前最优的执行第15步；

15.和/>在MPC中明显的更新最佳的分割/>,/> ,；

16.和/>公开/>；

17.如果，执行第18步，否则执行19步；

18.公开<best.j>给，然后/>选择并记录特征阈值/>；

19.公开<best.j>给，然后/>同态加密/>，并将/>发送给/>；

20.和/>共同计算左子结点/>，/>其中第k个特征的数据被/>或/>已知,右子结点/>；

21.添加和/>到列表里面//递归构建树；

22.返回由具有特征阈值和权重的列表中的所有结点组成。

对于明文特征,金融结算服务提供方可以直接找到他们对所有交易中的百分位数/>，接下来,对于/>金融结算服务提供方生成长度为/>的滤波向量/>,其中，如果/>,否则/>。金融结算服务提供方和银行参与方/>共同计算/>。

对于敏感账户异常的可能性,本申请需要排序/>去求它的百分位数。由于遗忘排序的开销太大，本申请使用一系列固定值和安全比较协议来代替。更具体地说，/>和/>首先就公共值达成一致，/>作为候选分割/>参考，然后各方将/>以秘密分享的形式/>排序在环/>上。

如下所示：对于,金融结算服务提供方/>生成一个随机值/>，计算。然后把/>解密给银行/>作为份额。之后，金融结算服务提供方和/>能通过类似的方法获得明文的特性并生成滤波向量/>,并将其开放给选择的银行参与方/>。最后,金融结算服务提供方和银行参与方/>共同计算。

分割查找：简而言之，本申请让金融结算服务提供方和银行参与方共同计算增益/>对于每个可用特性/>和与之对应的候选分割/>,选择增益最大的作为最佳分割，并计算左右子结点的增益/>。/>

为了获得所有可能的分割候选的增益，本申请基于加密中的聚合梯度使用与XGBoost相同的算法。金融结算服务提供方和银行参与方共同计算收益如下：

计算并将其开放给金融结算服务提供方/>;,集合/>,计算

,开放/>给金融结算服务提供方/>，金融结算服务提供方可以本地计算增益/>,然后为明文特征选择最大值。对于/>，金融结算服务提供方和银行参与方共同计算。

金融结算服务提供方和银行参与方使用MPC比较协议找到最大的增益/>以秘密共享的形。之后，银行参与方开放/>的最佳分割。对于/>，银行参与方向金融结算服务提供方开放/>。即金融结算服务提供方会以明文方式学习特征阈值/>。然后银行参与方计算/>其中/>对金融结算服务提供方是已知的。对于,各方向银行参与方/>开放/>。本申请让银行参与方/>同态加密/>之后将发送给金融结算服务提供方之后，双方共同更新/>其中银行参与方/>已知 />。当/>是叶子结点时,金融结算服务提供方计算/>。

梯度聚合是从XGBoost中的一种近似方案，以减轻列举所有可能的分割候选项的需求，本申请与XGBoost基本相同，只是在构建每个结点的特征直方图时，基于中的固定百分位数进行构建的微小调整。

给定一个待进行异常检测的交易（oid，bid，...），金融结算服务提供方首先提取其特征向量x。提取方法与训练几乎相同，除了没有账户异常可能性。如果，则金融结算服务提供方可以从本地交易图G中获取/>；否则，金融结算服务提供方将/>。接下来，金融结算服务提供方评估XGBoost中的所有决策树。对于树/>，本申请并行进行所有内部结点的比较，并获得边的权重/>，其中如果结点ρ选择左边，则，否则/>。当结点ρ对应于敏感特征时，本申请让银行参与方和金融结算服务提供方共同将/>和来自PHE形式的特征转换为算术秘密共享形式，并在MPC中计算/>。最后，对于从根结点到叶结点的每条路径，金融结算服务提供方和选定的银行参与方Ps共同将边的权重和叶结点权重相乘，并将所有路径的结果求和得到/>。预测输出可以计算为/>。本申请让银行参与方共同向金融结算服务提供方公开它。

与前述的隐私保护的异常交易检测方法的实施例相对应，本申请还提供了隐私保护的异常交易检测装置的实施例。

图3是根据一示例性实施例示出的一种隐私保护的异常交易检测装置框图。参照图3，该装置可以包括：

字段提取模块21，用于金融结算服务提供方对于所要进行异常检测的交易，从相应的银行数据集中进行所述交易涉及账户的字段提取；

特征提取模块22，用于金融结算服务提供方对金融结算服务提供方数据集进行特征提取，所述特征包括基于所述金融结算服务提供方提取的明文特征以及基于所提取的字段进行标签传播得到的账户异常可能性特征；

模型训练模块23，用于金融结算服务提供方基于提取的特征进行XGBoost的隐私训练；

模型预测模块24，用于金融结算服务提供方获取待进行异常检测的交易，提取其特征向量并将所述特征向量输入训练好的XGBoost模型进行异常预测。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的隐私保护的异常交易检测方法。如图4所示，为本发明实施例提供的一种隐私保护的异常交易检测方法所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存以及网络接口之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的隐私保护的异常交易检测方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（SmartMediaCard，SMC）、SD卡、闪存卡（FlashCard）等。进一步的，所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种隐私保护的异常交易检测方法，其特征在于，包括：

其中，XGBoost的隐私训练过程具体为：

（3.2）初始化结点列表并将所述根结点加入所述结点列表；

（3.3）对于所有的结点执行如下操作：

（3.3.1）和/>共同计算叶子结点i所包含样本的一阶偏导数累加之和的算术秘密共享/>及叶子结点i所包含样本的二阶偏导数累加之和的算术秘密共享，并将结果公开给/>；

（3.3.3）如果下一轮分割增益大于等于0，则执行如下操作：

（3.3.3.2）对所有明文特征的候选分割j执行如下操作，以选择最优的分割：公开给/>,/>得到分割增益/>;如果当前最优分割增益/>，则/>更新最佳分割增益/>,更新最佳特征/>的最佳分割j为/>, />；

（3.3.3.4）和/>公开对于第k个特征的最佳分割；

（3.3.3.5）如果第k个特征为明文特征，则公开<best.j>给，/>选择并记录特征阈值；否则公开<best.j>给/>，/>同态加密/>，并将/>发送给/>；

2.根据权利要求1所述的方法，其特征在于，在步骤（1）中，所述金融结算服务提供方与相应的银行参与方基于哈希技术和单个查询的混淆可编程伪随机函数协议的私有集合求交协议获取交集，对应的银行参与方利用全同态加密技术加密元组，其中/>为该银行参与方的账户标识符，/>为加密的账户异常可能性/>，/>表示对应的银行参与方和金融结算服务提供方都有的id集合。

3.根据权利要求1所述的方法，其特征在于，在步骤（2）中，基于所提取的字段进行标签传播，包括：

金融结算服务提供方构建一个交易图，每个结点/>表示为一个元组/>，其中/>是账户/>的异常可能性，初始值为0，每个边/>表示为一个元组/>，其中/>和/>是边的源结点和目标结点的索引，权重/>由账户和/>之间的交易中派生；

在图和加密标签上执行标签传播算法，以使得对于每个交易/>，金融结算服务提供方通过查找带有受益人账户的账户标识符的交易图来获得异常可能性/>。

4.根据权利要求3所述的方法，其特征在于，对，/>为元组/>的集合，/>是账户/>的异常可能性，/>为元组/>的集合，在图/>和加密标签上执行标签传播算法，具体为：

对于每个边，金融结算服务提供方对/>进行归一化：，其中/>是结点/>的邻居和自身在/>中的索引集合，将第/>次迭代中账户/>的异常可能性为/>，金融结算服务提供方将标记数据引入为第0次迭代的状态，记录初始化为空集的索引集/>，并根据/>进行标签传播如下：

步骤0：设定轮次；

步骤1：传播；

步骤2：通过与银行参与方的协作夹紧标记数据，具体为：金融结算服务提供方将发送给第/>个银行参与方，第/>个银行参与方在本地计算，对于/>，将更新后的发送给金融结算服务提供方；

步骤3：增加；

重复从步骤1开始，直到，其中/>是超参数。

5.根据权利要求3所述的方法，其特征在于，在图和加密标签上执行标签传播算法之前，将图/>缩小为高风险子图，该子图仅包括标记异常交易/>步范围内的账户。

6.根据权利要求3所述的方法，其特征在于，将所述特征向量输入训练好的XGBoost进行异常预测，具体为：

对于交易（oid，bid，...），如果，则金融结算服务提供方从本地交易图/>中获取/>，否则，金融结算服务提供方将/>，其中oid为交易发起账户标识符，bid为交易接受账户标识符；

对于从根结点到叶结点的每条路径，金融结算服务提供方和选定的银行参与方共同将边的权重和叶结点权重相乘，并将所有路径的结果求和得到/>，预测输出计算为。

7.一种隐私保护的异常交易检测装置，其特征在于，包括：

模型预测模块，用于金融结算服务提供方获取待进行异常检测的交易，提取其特征向量并将所述特征向量输入训练好的XGBoost模型进行异常预测；

其中，XGBoost的隐私训练过程具体为：

（3.2）初始化结点列表并将所述根结点加入所述结点列表；

（3.3）对于所有的结点执行如下操作：

（3.3.3）如果下一轮分割增益大于等于0，则执行如下操作：

（3.3.3.2）对所有明文特征的候选分割j执行如下操作，以选择最优的分割：公开给/>,/>得到分割增益/>;如果当前最优分割增益/>，则/>更新最佳分割增益/>,更新最佳特征的最佳分割j为/>, />；

（3.3.3.4）和/>公开对于第k个特征的最佳分割；

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。