CN111079939A

CN111079939A - 基于数据隐私保护的机器学习模型特征筛选方法及装置

Info

Publication number: CN111079939A
Application number: CN201911194023.XA
Authority: CN
Inventors: 陈超超; 王力; 周俊
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-28
Anticipated expiration: 2039-11-28
Also published as: CN111079939B

Abstract

本说明书实施例提供用于基于数据隐私保护的机器学习模型特征筛选的方法。机器学习模型具有模型特征集，并且机器学习模型的特征数据被水平切分地分布在第一数据拥有方和至少一个第二数据拥有方处，每个数据拥有方具有与模型特征集对应的特征数据。第一数据拥有方和至少一个第二数据拥有方协同来使用第一数据拥有方的特征数据进行多方安全计算，以训练出待筛选模型特征的预测模型。在第一数据拥有方处，基于待筛选模型特征的预测差值确定待筛选模型特征的方差膨胀因子，以用于对待筛选模型特征进行模型特征筛选处理。

Description

基于数据隐私保护的机器学习模型特征筛选方法及装置

技术领域

本说明书的实施例通常涉及计算机领域，更具体地，涉及基于数据隐私保护的机器学习模型特征筛选方法及装置。

背景技术

在公司或企业进行业务运营时，通常会使用机器学习模型来进行模型预测，以例如确定业务类别、业务运营风险或者进行业务运营决策。机器学习模型例如可以包括业务风险识别模型、业务分类模型、业务决策模型等等。机器学习模型通常会使用大量的模型特征作为模型输入特征，例如，机器学习模型可能会使用多达上万个模型特征。模型特征的数量越多，机器学习模型的运算量越大，从而需要花费更多的计算资源和时间成本。

机器学习模型的模型特征通常是根据经验选择的，例如，由有经验的行业人员来人工选择。然而，在根据这种方式确定出的模型特征中，可能会存在对机器学习模型影响不大的模型特征，这些模型特征的引入会增加机器学习模型的计算量，但不会提升机器学习模型的预测精度，由此，如何进行机器学习模型的模型特征筛选，成为亟待解决的问题。

发明内容

鉴于上述问题，本说明书的实施例提供了一种基于数据隐私保护的机器学习模型特征筛选方法及装置，其能够在保证多个数据拥有方的各自隐私数据安全的情况下实现模型特征筛选。

根据本说明书的实施例的一个方面，提供一种用于基于数据隐私保护的机器学习模型特征筛选的方法，所述机器学习模型具有模型特征集，所述机器学习模型的特征数据被水平切分地分布在多个数据拥有方处，所述多个数据拥有方包括第一数据拥有方和至少一个第二数据拥有方，所述方法由第一数据拥有方执行，所述方法包括：使用第一数据拥有方的特征数据，经由各个数据拥有方协同进行多方安全计算来训练出待筛选模型特征的预测模型，其中，所述预测模型是线性回归模型，所述预测模型的输出是所述待筛选模型特征的预测值，以及所述预测模型的输入特征是所述模型特征集中的剩余模型特征，所述预测模型被水平切分为多个预测子模型，每个数据拥有方具有一个预测子模型，所述第一数据拥有方是预测模型训练的训练发起方，以及所述第二数据拥有方是预测模型训练的训练协同方；以及基于所述待筛选模型特征的预测差值，确定所述待筛选模型特征的方差膨胀因子，以用于模型特征筛选处理。

可选地，在上述方面的一个示例中，所述方法还可以包括：根据所述待筛选模型特征的方差膨胀因子，对所述待筛选模型特征进行模型特征筛选处理。

可选地，在上述方面的一个示例中，根据所确定出的待筛选模型特征的方差膨胀因子，对所述待筛选模型特征进行模型特征筛选处理可以包括：在所述待筛选模型特征的方差膨胀因子大于预定阈值时，从所述模型特征集中筛除所述待筛选模型特征。

可选地，在上述方面的一个示例中，所述方法还可以包括：将所述待筛选模型特征的方差膨胀因子提供给模型特征筛选方来进行模型特征筛选。

可选地，在上述方面的一个示例中，所述待筛选模型特征的预测差值可以是所述预测模型的训练过程中的最后一次循环过程中得到的预测差值。

可选地，在上述方面的一个示例中，所述方法还可以包括：根据所述第一数据拥有方的第一特征数据以及各个数据拥有方的预测子模型进行多方安全计算，以得到所述待筛选模型特征的预测值以及预测差值，所述第一特征数据是从所述第一数据拥有方的特征数据中去除与所述待筛选模型特征对应的特征值后的特征数据。

可选地，在上述方面的一个示例中，所述第一数据拥有方和所述第二数据拥有方可以由所述多个数据拥有方协商确定。

可选地，在上述方面的一个示例中，所述多方安全计算可以包括秘密共享矩阵乘法、混淆电路和同态加密中的一种。

可选地，在上述方面的一个示例中，所述秘密共享矩阵乘法可以包括有可信初始化方秘密共享矩阵乘法或者无可信初始化方秘密共享矩阵乘法。

可选地，在上述方面的一个示例中，所述机器学习模型的特征数据可以包括基于图像数据、语音数据或文本数据确定的特征数据，或者所述机器学习模型的特征数据可以包括用户特征数据。

根据本说明书的实施例的另一方面，提供一种用于基于数据隐私保护的机器学习模型特征筛选的方法，所述机器学习模型具有模型特征集，所述机器学习模型的特征数据被水平切分地分布在多个数据拥有方处，所述多个数据拥有方包括第一数据拥有方和至少一个第二数据拥有方，所述方法由第二数据拥有方执行，所述方法包括：使用第一数据拥有方的特征数据，经由各个数据拥有方协同进行多方安全计算来训练出待筛选模型特征的预测模型，其中，所述预测模型是线性回归模型，所述预测模型的输出是所述待筛选模型特征的预测值，以及所述预测模型的输入特征是所述模型特征集中的剩余模型特征，所述预测模型被水平切分为多个预测子模型，每个数据拥有方具有一个预测子模型，所述第一数据拥有方是预测模型训练的训练发起方，以及所述第二数据拥有方是预测模型训练的训练协同方，其中，所述预测模型的预测值被使用来确定所述待筛选模型特征的预测差值和方差膨胀因子，所述方差膨胀因子用于对所述待筛选模型特征进行模型特征筛选处理。

可选地，在上述方面的一个示例中，所述方法还可以包括：根据所述第一数据拥有方的第一特征数据以及各个数据拥有方的预测子模型进行多方安全计算，以得到所述待筛选模型特征的预测值，所述第一特征数据是从所述第一数据拥有方的特征数据中去除与所述待筛选模型特征对应的特征值后的特征数据。

根据本说明书的实施例的另一方面，提供一种用于基于数据隐私保护的机器学习模型特征筛选的装置，所述机器学习模型具有模型特征集，所述机器学习模型的特征数据被水平切分地分布在多个数据拥有方处，所述多个数据拥有方包括第一数据拥有方和至少一个第二数据拥有方，所述装置应用于第一数据拥有方，所述装置包括：模型训练单元，使用第一数据拥有方的特征数据，经由各个数据拥有方协同进行多方安全计算来训练出待筛选模型特征的预测模型，其中，所述预测模型是线性回归模型，所述预测模型的输出是所述待筛选模型特征的预测值，以及所述预测模型的输入特征是所述模型特征集中的剩余模型特征，所述预测模型被水平切分为多个预测子模型，每个数据拥有方具有一个预测子模型，所述第一数据拥有方是预测模型训练的训练发起方，以及所述第二数据拥有方是预测模型训练的训练协同方；以及方差膨胀因子确定单元，基于所述待筛选模型特征的预测差值，确定所述待筛选模型特征的方差膨胀因子，以用于模型特征筛选处理。

可选地，在上述方面的一个示例中，所述装置还可以包括：模型特征筛选单元，根据所述待筛选模型特征的方差膨胀因子，对所述待筛选模型特征进行模型特征筛选处理。

可选地，在上述方面的一个示例中，所述装置还可以包括：提供单元，将所述待筛选模型特征的方差膨胀因子提供给模型特征筛选方来进行模型特征筛选。

可选地，在上述方面的一个示例中，所述装置还可以包括：模型预测单元，根据所述第一数据拥有方的第一特征数据以及各个数据拥有方的预测子模型进行多方安全计算，以得到所述待筛选模型特征的预测值和预测差值，所述第一特征数据是从所述第一数据拥有方的特征数据中去除与所述待筛选模型特征对应的特征值后的特征数据。

可选地，在上述方面的一个示例中，所述装置还可以包括：协商单元，在所述多个数据拥有方之间协商确定所述第一数据拥有方和所述第二数据拥有方。

根据本说明书的实施例的另一方面，提供一种用于基于数据隐私保护的机器学习模型特征筛选的装置，所述机器学习模型具有模型特征集，所述机器学习模型的特征数据被水平切分地分布在多个数据拥有方处，所述多个数据拥有方包括第一数据拥有方和至少一个第二数据拥有方，所述装置应用于第二数据拥有方，所述装置包括：模型训练单元，使用第一数据拥有方的特征数据，经由各个数据拥有方协同进行多方安全计算来训练出待筛选模型特征的预测模型，其中，所述预测模型是线性回归模型，所述预测模型的输出是所述待筛选模型特征的预测值，以及所述预测模型的输入特征是所述模型特征集中的剩余模型特征，所述预测模型被水平切分为多个预测子模型，每个数据拥有方具有一个预测子模型，所述第一数据拥有方是预测模型训练的训练发起方，以及所述第二数据拥有方是预测模型训练的训练协同方，其中，所述预测模型的预测值被使用来确定所述待筛选模型特征的预测差值和方差膨胀因子，所述方差膨胀因子用于对所述待筛选模型特征进行模型特征筛选处理。

可选地，在上述方面的一个示例中，所述装置还可以包括：模型预测单元，根据所述第一数据拥有方的第一特征数据以及各个数据拥有方的预测子模型进行多方安全计算，以得到所述待筛选模型特征的预测值，所述第一特征数据是从所述第一数据拥有方的特征数据中去除与所述待筛选模型特征对应的特征值后的特征数据。

根据本说明书的实施例的另一方面，提供一种电子设备，包括：一个或多个处理器，以及与所述一个或多个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上所述的在第一数据拥有方处执行的方法。

根据本说明书的实施例的另一方面，提供一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如上所述的在第一数据拥有方处执行的方法。

根据本说明书的实施例的另一方面，提供一种电子设备，包括：一个或多个处理器，以及与所述一个或多个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上所述在第二数据拥有方处执行的方法。

根据本说明书的实施例的另一方面，提供一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如上所述在第二数据拥有方处执行的方法。

附图说明

通过参照下面的附图，可以实现对于本说明书的实施例内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。

图1示出了根据本说明书实施例的机器学习模型的一个示例的示意图；

图2示出了根据本说明书实施例的经过水平切分的特征数据的示例的示意图；

图3示出了根据本说明书实施例的模型特征筛选系统的架构图；

图4示出了根据本说明书实施例的模型特征筛选方法的流程图；

图5示出了根据本说明书实施例的用于经由多个数据拥有方来协同训练模型特征的预测模型的过程的一个示例的流程图；

图6示出了根据本说明书实施例的使用有可信初始化方秘密共享矩阵乘法来获得预测模型的预测值的一个示例的流程图；

图7示出了根据本说明书实施例的使用无可信初始化方秘密共享矩阵乘法来获得预测模型的预测值的一个示例的流程图；

图8示出了根据本说明书实施例的无可信初始化方秘密共享矩阵乘法的一个示例的流程图；

图9示出了根据本说明书的实施例的基于数据隐私保护的机器学习模型特征筛选装置的方框图；

图10示出了根据本说明书的实施例的模型训练单元的一个示例的方框图；

图11示出了根据本说明书的实施例的基于数据隐私保护的机器学习模型特征筛选装置的方框图；

图12示出了根据本说明书的实施例的模型训练单元的一个示例的方框图；

图13示出了根据本说明书的实施例的用于实现基于隐私保护的机器学习模型特征筛选过程的电子设备的方框图；

图14示出了根据本说明书的实施例的用于实现基于隐私保护的机器学习模型特征筛选过程的电子设备的方框图。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书的实施例内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。例如，所描述的方法可以按照与所描述的顺序不同的顺序来执行，以及各个步骤可以被添加、省略或者组合。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

在公司或企业进行业务运营时，通常会使用机器学习模型来进行模型预测，以例如确定业务类别、业务运营风险或者进行业务运营决策。机器学习模型例如可以包括业务风险识别模型、业务分类模型、业务决策模型等等。机器学习模型通常会使用大量的模型特征作为模型输入特征。机器学习模型的模型特征通常是根据经验选择的。然而，在根据这种方式确定出的模型特征中，可能会存在对机器学习模型影响不大的模型特征，而这些模型特征的引入会增加机器学习模型的计算量，但不会提升机器学习模型的预测精度，从而需要使用机器学习模型的特征数据来进行模型特征筛选，以从机器学习模型的模型特征集中筛除对机器学习模型影响不大的模型特征。

机器学习模型的特征数据可以来自于多个数据拥有方，例如，针对电子商务相关的机器学习模型，多个数据拥有方可以包括电子商务公司、快递公司和银行等等。各个数据拥有方拥有机器学习模型的特征数据中的部分数据。对于数据拥有方而言，数据是非常重要的资产。该多个数据拥有方希望共同使用彼此的特征数据来进行模型特征筛选，但又不想把各自的隐私数据提供给其它各个数据拥有方以防止自己的隐私数据泄露。

鉴于上述，本说明书的实施例提供了一种用于机器学习模型的模型特征筛选的方法。在该方法中，针对机器学习模型的模型特征集{X₁,X₂，......,X_n}中的每个模型特征X_i，使用第一数据拥有方的特征数据来利用多方安全计算训练出对应的预测模型，预测模型是线性回归模型，该预测模型的输出是模型特征X_i的预测值，以及预测模型的输入特征是模型特征集{X₁,X₂，......,X_n}中的剩余模型特征X_j，所训练出的预测模型被水平切分为多个预测子模型，每个数据拥有方具有一个预测子模型。然后，利用所训练出的预测模型，得到模型特征X_i的预测值和预测差值，基于预测差值来计算出模型特征X_i的方差膨胀因子VIF(Variance Inflation Factor)，并且基于所计算出的VIF来确定是否需要筛除模型特征X_i。按照这种方式，由于模型特征X_i的VIF是采用多方安全计算来确定出的，从而可以确保各个数据拥有方的特征数据免遭泄露。在本说明书中，各个数据拥有方的特征数据是通过对机器学习模型所需特征数据进行水平切分而得到的。

在本说明书的实施例中，机器学习模型所使用的特征数据例如可以包括基于图像数据、语音数据或文本数据确定的特征数据。相应地，机器学习模型可以应用于基于图像数据、语音数据或者文本数据的业务风险识别、业务分类、或者业务决策等等。或者，机器学习模型所使用的特征数据例如可以包括用户特征数据。相应地，机器学习模型可以应用于基于用户特征数据的业务风险识别、业务分类、业务推荐或者业务决策等等。

图1示出了根据本公开的实施例的机器学习模型的一个示例的示意图。

如图1所示，机器学习模型110具有模型特征1到模型特征k，即，模型特征集{X₁,X₂,......,X_k}，其中，机器学习模型110使用来源于数据拥有方A120，数据拥有方B120和数据拥有方C120的特征数据来进行模型预测。这里，数据拥有方A、B和C各自具有与机器学习模型110的模型特征集对应的完整特征数据。换言之，数据拥有方A、B和C的特征数据是通过对机器学习模型110所使用的特征数据进行水平切分而得到。

图2示出了根据本公开的实施例的经过水平切分的特征数据的示例的示意图。图2中示出了2个数据拥有方Alice和Bob，多个数据拥有方也类似。每个数据方Alice和Bob拥有的数据样本集中的每条数据样本是完整的，即，每条数据样本包括完整的特征数据(x)和标记数据(y)。比如，Alice拥有完整的数据样本(x0，y0)。

图3示出了根据本公开的实施例的模型特征筛选系统1的架构图。为了描述简单，下文中仅仅针对模型特征X_i的模型特征筛选来进行说明。

如图3所示，模型特征筛选系统1包括第一数据拥有方设备10(下文中简称为“第一数据拥有方”)以及2个第二数据拥有方设备20(下文中简称为“第二数据拥有方”)。第一数据拥有方10以及第二数据拥有方20可以通过例如但不局限于互联网或局域网等的网络30相互通信。在本说明书中，第一数据拥有方10和第二数据拥有方20的特征数据是通过对机器学习模型所使用的特征数据进行水平切分而得到的。此外，第一数据拥有方10是模型特征X_i的预测模型的训练发起方，以及第二数据拥有方20是模型特征X_i的预测模型的训练协同方。

在本说明书中，第一数据拥有方10以及第二数据拥有方20可以是任何合适的具有计算能力的计算设备。所述计算设备包括但不限于：个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴计算设备、消费电子设备等等。

图4示出了根据本说明书的实施例的模型特征筛选方法400的流程图。图4中所示的模型特征筛选方法是针对模型特征X_i的模型特征筛选过程，并且模型特征X_i的预测模型的训练过程由第一数据拥有方A作为模型训练发起方来发起。

如图4所示，在块410，在各个数据拥有方处，使用第一数据拥有方A的特征数据，经由各个数据拥有方协同进行多方安全计算来训练出模型特征X_i的预测模型。

这里，所训练出的预测模型是线性回归模型。预测模型的输出是模型特征X_i的预测值，以及预测模型的输入特征是模型特征集中的剩余模型特征X_j。例如，假设模型特征集包括m个模型特征，则可以针对模型特征X₁构建出线性回归模型，例如，可以针对模型特征X₁构建出最小二乘模型X₁＝α₂X₂+α₃X₃+α₄X₄+......+α_mX_m+α₀+e。

假设剩余模型特征X_j构成预测模型的模型特征矩阵x^T＝(x₁；x₂；…；x_j)，其中，x_j是预测模型的第j个模型特征和T表示转置，并且j≠i，那么线性回归模型为Y＝Wx，其中，Y是预测值，以及W是线性回归模型的模型参数(即，本说明书中的预测模型)，

W_P是指本说明书的实施例中的各个数据拥有方P处的预测子模型。

此外，各个数据拥有方处的预测子模型是通过对预测模型进行水平切分而得到的，每个数据拥有方具有一个预测子模型。而且，在进行预测模型训练时，每个数据拥有方所拥有的预测子模型以及对应的特征数据是该数据拥有方的秘密，不能被其他数据拥有方完整地获悉。关于如何利用多方安全计算来训练出模型特征X_i的预测模型，将在下文参照附图详细说明。

在本说明书的实施例中，所述多方安全计算可以包括秘密共享矩阵乘法、混淆电路和同态加密中的一种。此外，所述秘密共享矩阵乘法可以包括有可信初始化方秘密共享矩阵乘法或者无可信初始化方秘密共享矩阵乘法。

在如上训练出模型特征X_i的预测模型后，在块420，在各个数据拥有方处，经由各个数据拥有方协同来根据第一数据拥有方的第一特征数据以及各个数据拥有方的预测子模型进行多方安全计算，以得到模型特征X_i的预测值，并且在第一数据拥有方处，基于所得到的预测值以及对应的标记值确定出模型特征X_i的预测差值。这里，第一特征数据是从第一数据拥有方的特征数据中去除与模型特征X_i对应的特征值后的特征数据。

在得到模型特征X_i的预测差值后，在块430，在第一数据拥有方A10处，基于模型特征X_i的预测差值，确定模型特征X_i的方差膨胀因子VIF。

具体地，假设存在N条数据样本，针对每条数据样本，在第一数据拥有方A处具有与模型特征X_i对应的特征值，即，样本标记值y_k。而且，对于每条数据样本，可以使用所训练出的预测模型来计算对应的预测值

然后，按照下述公式，计算出模型特征X_i的样本可决系数R_i ²：

在如上计算出模型特征X_i的样本可决系数R_i ²后，可以按照下述公式计算出模型特征X_i的方差膨胀因子VIF_i：

在本说明书中，术语“方差膨胀因子”VIF_i可以是指模型特征X_i与模型特征集中的剩余模型特征X_j之间存在多重共线性时的方差与不存在多重共线性时的方差之比。VIF_i用于指示模型特征X_i与模型特征集中的剩余模型特征X_j之间的相关性。VIF_i的值越大，则说明模型特征X_i与剩余模型特征X_j之间的相关性(多重共线性)越大，从而对预测模型的贡献越小，由此可以从预测模型的模型特征集中筛除该模型特征。

在如上确定出模型特征X_i的方差膨胀因子后，在块440，在第一数据拥有方A10处，根据模型特征X_i的方差膨胀因子，对模型特征X_i进行模型特征筛选处理。

例如，在一个示例中，在模型特征X_i的方差膨胀因子大于预定阈值时，从模型特征集{X₁,X₂，......,X_n}中筛除模型特征X_i。根据经验表明，在0＜VIF＜10时，模型特征X_i与剩余模型特征X_j之间不存在多重共线性。在10≤VIF＜100时，模型特征X_i与剩余模型特征X_j之间存在较强的多重共线性。在VIF≥100时，模型特征X_i与剩余模型特征X_j之间存在严重的多重共线性。由此，在一个示例中，预定阈值可以设置为100。在本说明书的其它示例中，预定阈值也可以选择其它合适的数值。

此外，可选地，在第一数据拥有方A10处存在多个模型特征的VIF时，例如，第一数据拥有方A10处存在所具有的部分或全部模型特征的VIF时，可以根据各个模型特征的VIF的值来进行排序，并且筛除排序Top K的模型特征。这里，K可以是预定数值。

此外，可选地，在本说明书的其它实施例中，块440的操作也可以替换为下述操作：在第一数据拥有方A 10处，将模型特征X_i的方差膨胀因子提供给模型特征筛选方来进行模型特征筛选。这里，模型特征筛选方可以是第三方筛选机构或者用户，或者，也可以是多个数据拥有方中的指定数据拥有方。在接收到所有数据拥有方的所有模型特征的VIF后，根据各个模型特征的VIF来进行模型特征筛除处理。例如，筛除VIF大于预定阈值的模型特征，或者，根据各个模型特征的VIF的值来进行排序，并且筛除排序Top K的模型特征。

此外，要说明的是，在块410的操作之前，方法400还可以包括：在各个数据拥有方之间协商确定第一数据拥有方和第二数据拥有方，例如，协商确定第一数据拥有方A以及第二数据拥有方B和C。

此外，要说明的是，在图4中示出的示例中，在训练出模型特征X_i的预测模型后，需要在块420，使用该预测模型来预测模型特征X_i的预测值并计算出对应的预测差值。在本说明书的其它实施例中，也可以不包括块420的操作。在这种情况下，在块430中被使用来计算VIF的预测差值是预测模型的训练过程中的最后一次循环过程中得到的预测差值。

此外，在本说明书的其它实施例中，也可以不包括块440的操作。在这种情况下，可以计算出各个模型特征的VIF，以用于后续的模型特征筛选。

此外，要说明的是，图4中示出的仅仅是针对机器学习模型的模型特征集{X₁,X₂，......,X_n}中的一个模型特征X_i的模型特征筛选处理。针对机器学习模型的模型特征集{X₁,X₂，......,X_n}中的其它模型特征，也可以采用相同的模型特征筛选方法来执行模型特征筛选处理，由此完成针对机器学习模型的模型特征集{X₁,X₂，......,X_n}的模型特征筛除。

图5示出了根据本说明书的实施例的用于经由多个数据拥有方来协同训练模型特征的预测模型的过程的一个示例的流程图。

在图5中示出的预测模型训练方法中，第一数据拥有方Alice具有模型特征X_i的预测模型的预测子模型W_A，第二数据拥有方Bob具有预测模型的预测子模型W_B，以及第二数据拥有方Charlie具有预测模型的预测子模型W_C。第一数据拥有方Alice具有特征数据X_A(即，第一特征数据)和标记值Y(即，与模型特征X_i对应的特征值)。这里，特征数据X_A和标记值Y都是第一数据拥有方Alice所具有的机器学习模型的特征数据。第一数据拥有方Alice所具有的特征数据是通过机器学习模型所使用的特征数据样本进行水平切分获得的。

如图5所示，首先，在块510，第一数据拥有方Alice、第二数据拥有方Bob和Charlie初始化其预测子模型的子模型参数，即，权重子向量W_A、W_B和W_C，以获得其预测子模型参数的初始值，并且将已执行训练循环次数t初始化为零。这里，假设循环过程的结束条件为执行预定次数训练循环，例如，执行T次训练循环。

在如上初始化后，循环执行块520到块570的操作，直到满足循环结束条件。

具体地，在块520，基于各个数据拥有方的当前预测子模型W_A、W_B和W_C以及第一数据拥有方的第一特征数据X_A，使用秘密共享矩阵乘法来获得待训练的预测模型的当前预测值

如何使用秘密共享矩阵乘法来获得待训练的预测模型的当前预测值

将在下面参照图6到图8进行说明。

在得到当前预测值

后，在块530，在第一数据拥有方Alice处，确定当前预测值

与对应的标记值Y之间的预测差值

这里，E是一个列向量，Y是一个表示第一数据拥有方Alice处的标记值的列向量，以及，

是表示当前预测值的列向量。如果特征数据X_A仅包含单个数据样本，则E、Y和

都是仅具有单个元素的列向量。如果特征数据X_A包含多个数据样本，则E、Y和

都是具有多个元素的列向量，其中，

中的每个元素是该多个数据样本中的对应数据样本的当前预测值，Y中的每个元素是该多个数据样本中的对应数据样本的标记值，以及E中的每个元素是该多个数据样本的对应数据样本的标记值与当前预测值的差值。

然后，在块540，将所确定出的预测差值e分割为3个部分预测差值。该3个部分预测差值中的每个部分预测差值包括预测差值中的各个元素的部分元素值，并且，对于每个元素，该3个部分预测差值之和等于预测差值。例如，将所确定出的预测差值e分割为3个部分预测差值e₁、e₂和e₃。比如，对于e中的每个元素e_i，将其分割为3个部分预测差值e_i，1、e_i，2和e_i，3，并且e_i＝e_i，1+e_i，2+e_i，3。

接着，在块550，将2个部分预测差值中的每个分别发送给第二数据拥有方Bob和Charlie，例如，将部分预测差值e₂发送给第二数据拥有方Bob，以及将部分预测差值e₃发送给第二数据拥有方Charlie，同时第一数据拥有方Alice保留部分预测差值e₁。

然后，在块560，在各个数据拥有方处，基于该数据拥有方的当前预测子模型以及对应的部分预测差值与特征数据X_A之积来更新该数据拥有方处的当前子模型。例如，第一数据拥有方Alice使用当前预测子模型W_A以及对应的部分预测差值e₁与特征数据X_A之积来更新Alice处的当前子模型，第二数据拥有方Bob使用当前预测子模型W_B以及对应的部分预测差值e₂与特征数据X_A之积来更新Bob处的当前预测子模型，以及第二数据拥有方Charlie使用当前预测子模型W_C以及对应的部分预测差值e₃与特征数据X_A之积来更新Charlie处的当前预测子模型。

在本说明书的一个示例中，基于数据拥有方的当前预测子模型以及对应的部分预测差值与特征数据X_A之积来更新该数据拥有方处的当前预测子模型可以按照等式W_n+1＝W_n-α·X_A·e_i执行，其中，W_n+1表示该数据拥有方处的更新后的当前预测子模型，W_n表示该数据拥有方处的当前预测子模型，α表示学习率(learning rate)，X_A表示第一数据拥有方Alice处的第一特征数据，以及e_i表示所接收的部分预测差值。其中，在第一数据拥有方Alice处，可以单独地计算出更新后的当前预测子模型。在第二数据拥有方Bob和Charlie处，X_A·e_i是在第二数据拥有方处使用秘密共享矩阵乘法来获得的，所述秘密共享矩阵乘法可以采用图6-8中所示的类似过程来执行。

在如上在各个数据拥有方完成各自的预测子模型更新后，在块570，判断是否达到预定循环次数，即，判断是否满足循环结束条件。如果达到预定循环次数，则各个数据拥有方将各自的预测子模型参数的当前更新值，存储为其预测子模型参数的最终值，从而得到各自的训练后的预测子模型，然后流程结束。如果未达到预定循环次数，则流程返回到块520的操作来执行下一训练循环过程，其中，在该下次训练循环过程中，各个数据拥有方在当前循环过程所获得的更新后的当前预测子模型被用作下一循环过程的当前预测子模型。

这里要说明的是，在上述的示例中，训练循环过程的结束条件是达到预定循环次数。在本说明书的其它示例中，训练循环过程的结束条件也可以是所确定出的预测差值位于预定范围内，即，预测差值e中的各个元素e_i之和位于预定范围内，例如，预测差值e中的各个元素e_i之和小于预定阈值。相应地，图5中的块570的操作可以在块530的操作之后执行。

此外，要说明的是，在图5中示出了2个第二数据拥有方。如果参与模型训练的第二数据拥有方的数目为K，则在块540中，需要将预测差值分割为K+1个部分预测差值，并且K个部分预测差值中的各个部分预测差值分别发送给对应的第二数据拥有方。

此外，要说明的是，图5中示出的仅仅是根据本说明书的预测模型训练过程的一个实现实施例，在本说明书的其它实施例中，也可以采用其它合适的方式来实现预测模型训练过程。

此外，要说明的是，在块520中使用的秘密共享矩阵乘法可以采用有可信初始化方秘密共享矩阵乘法，或者采用无可信初始化方秘密共享矩阵乘法。

图6示出了有可信初始化方秘密共享矩阵乘法过程的一个示例的流程图。在图6中，以第一数据拥有方Alice和2个第二数据拥有方Bob和Charlie为例来进行说明。

如图6所示，首先，在可信初始化方30处，生成第一数目个随机权重向量、第一数目个随机特征矩阵以及第一数目个随机标记值向量，并且第一数目个随机权重向量之和与第一数目个随机特征矩阵之和的乘积等于第一数目个随机标记值向量之和。这里，第一数目等于数据拥有方的数目。

例如，如图6所示，可信初始化方生成3个随机权重向量W_R，1、W_R，2和W_R，3，3个随机特征矩阵X_R，1、X_R，2和X_R，3，以及3个随机标记值向量Y_R，1、Y_R，2和Y_R，3，其中，

这里，随机权重向量的维度与各个模型数据拥有方的子模型的权重子向量的维度相同，随机特征矩阵的维度与训练样本集的特征矩阵的维度相同，以及随机标记值向量的维度与标记值向量的维度相同。

然后，在块601，将所生成的W_R，1、X_R，1和Y_R，1发送给第一数据拥有方Alice，在块602，将所生成的W_R，2、X_R，2和Y_R，2发送给第二数据拥有方Bob，以及在块603，将所生成的W_R，3、X_R，3和Y_R，3发送给第二数据拥有方Charlie。

接着，在块604，在第一数据拥有方Alice处，将特征数据X_A(下文中称为特征矩阵X_A)分割成第一数目个特征样本子集(下文中称为特征子矩阵)，例如，如图6中所示分割为3个特征子矩阵X_A1、X_A2和X_A3。

例如，假设将特征矩阵X_A分割为3个特征子矩阵，且特征矩阵X_A包括两个特征样本S1和S2，特征样本S1和S2各自包括3个属性值，其中，S1＝[a₁ ¹,a₂ ¹,a₃ ¹]和S2＝[a₁ ²,a₂ ²,a₃ ²]，那么，在将特征矩阵X_A分割成3个特征子矩阵之后，第一特征子矩阵包括特征子样本[a₁₁ ¹,a₂₁ ¹,a₃₁ ¹]和特征子样本[a₁₁ ²,a₂₁ ²,a₃₁ ²]，第二特征子矩阵包括特征子样本[a₁₂ ¹,a₂₂ ¹,a₃₂1]和特征子样本[a₁₂ ²,a₂₂ ²,a₃₂2]，以及第三特征子矩阵包括特征子样本[a₁₃ ¹,a₂₃ ¹,a₃₃ ¹]和特征子样本[a₁₃ ²,a₂₃ ²,a₃₃ ²]，其中，a₁₁ ¹+a₁₂ ¹+a₁₃ ¹＝a₁ ¹，a₂₁ ¹+a₂₂ ¹+a₂₃ ¹＝a₂ ¹，a₃₁ ¹+a₃₂ ¹+a₃₂ ¹＝a₃ ¹，a₁₁ ²+a₁₂ ²+a₁₃ ²＝a₁ ²，a₂₁ ²+a₂₂ ²+a₂₃ ²＝a₂ ²和a₃₁ ²+a₃₂ ²+a₃₃ ²＝a₃ ²。

然后，第一数据拥有方Alice将所分割出的第一数目个特征子矩阵中的第二数目个特征子矩阵中的每个分别发送给第二数据拥有方，第二数目等于第一数目减一。例如，在块605，第一数据拥有方Alice将2个特征子矩阵X_A2和X_A3分别发送给第二数据拥有方Bob和Charlie。

然后，在各个数据拥有方处，基于各个数据拥有方的权重子向量、对应的特征子矩阵以及所接收的随机权重向量和随机特征矩阵，确定该数据拥有方处的权重子向量差值E和特征子矩阵差值D。例如，在块606，在第一数据拥有方Alice处，确定出其权重子向量差值E1＝W_A-W_R，1以及特征子矩阵差值D1＝X_A1-X_R，1。在第二数据拥有方Bob处，确定出其权重子向量差值E2＝W_B-W_R，2以及特征子矩阵差值D2＝X_A2-X_R，2。在第二数据拥有方Charlie处，确定出其权重子向量差值E3＝W_C-W_R，3以及特征子矩阵差值D3＝X_A3-X_R，3。

在各个数据拥有方确定出各自的权重子向量差值E_i和特征子矩阵差值D_i后，各个数据拥有方将所确定出的各自的权重子向量差值E_i和特征子矩阵差值D_i公开给剩余的数据拥有方。例如，在块607，第一数据拥有方Alice将D1和E1分别发送给第二数据拥有方Bob和Charlie。在块608，第二数据拥有方Bob将D2和E2分别发送给第一数据拥有方Alice和第二数据拥有方Charlie。在块609，第二数据拥有方Charlie将D3和E3分别发送给第一数据拥有方Alice和第二数据拥有方Bob。

然后，在块610，在各个数据拥有方处，分别对所述各个数据拥有方处的权重子向量差值和特征子矩阵差值进行求和，以得到权重子向量总差值E和特征子矩阵总差值D。例如，如图6中所示，D＝D1+D2+D3，以及E＝E1+E2+E3。

然后，在各个数据拥有方处，基于所接收的随机权重向量W_R,i、随机特征矩阵X_R,i、随机标记值向量Y_R,i、权重子向量总差值E、特征子矩阵总差值D计算各自对应的预测值向量Zi。

在本说明书的一个示例中，在各个数据拥有方处，可以对该数据拥有方的随机标记值向量、权重子向量总差值与该数据拥有方的随机特征矩阵之积以及特征子矩阵总差值与该数据拥有方的随机权重向量之积进行求和，以得到对应的预测值向量(第一种计算方式)。或者，可以对该数据拥有方的随机标记值向量、权重子向量总差值与该数据拥有方的随机特征矩阵之积、特征子矩阵总差值与该数据拥有方的随机权重向量之积、以及权重子向量总差值与特征子矩阵总差值之积进行求和，以得到对应的预测值矩阵(第二种计算方式)。

这里要说明的是，在各个数据拥有方处的预测值矩阵计算时，仅仅只有一个数据拥有方处计算出的预测值矩阵中包含权重子向量总差值与特征子矩阵总差值之积。换言之，针对各个数据拥有方，仅仅只有一个数据拥有方的预测值向量是按照第二种计算方式计算出的，而其余的数据拥有方按照第一种计算方式来计算出对应的预测值向量。

例如，在块611，在第一数据拥有方Alice处，计算出对应的预测值向量Z1＝Y_R，1+E*X_R，1+D*W_R，1+D*E。在第二数据拥有方Bob处，计算出对应的预测值向量Z2＝Y_R，2+E*X_R，2+D*W_R，2。在第二数据拥有方Charlie处，计算出对应的预测值向量Z3＝Y_R，3+E*X_R，3+D*W_R，3。

这里要说明的，在图6中示出的是在第一数据拥有方Alice处计算出的Z1中包含D*E。在本公开的其它示例中，也可以在第二数据拥有方Bob和Charlie中的任一方所计算出的Zi中包含D*E，相应地，在第一数据拥有方Alice处计算出的Z1中不包含D*E。换言之，在各个数据拥有方处所计算出的Zi中，仅仅只有一个包含D*E。

然后，各个数据拥有方将所计算出的各自的预测值向量公开给其余数据拥有方。例如，在块612，第一数据拥有方Alice将预测值向量Z1分别发送给第二数据拥有方Bob和Charlie。在块613，第二数据拥有方Bob将预测值向量Z2分别发送给第一数据拥有方Alice和第二数据拥有方Charlie。在块614，第二数据拥有方Charlie将预测值向量Z3分别发送给第一数据拥有方Alice和第二数据拥有方Bob。

然后，在块615，各个数据拥有方对各个数据拥有方的预测值向量进行求和Z＝Z1+Z2+Z3，以得到预测模型的当前预测值。

图7示出了根据本公开的实施例的使用无可信初始化方秘密共享矩阵乘法来获得预测模型的当前预测值的过程的流程图。

如图7所示，首先，在块710，在第一数据拥有方Alice处，计算训练发起方的预测子模型W_A与特征数据X_A的矩阵乘积，以得到与第一数据拥有方Alice的预测子模型W_A对应的部分预测值Y_A＝W_A*X_A。

接着，在块720，使用无可信初始化方秘密共享矩阵乘法来计算各个第二数据拥有方(例如，Bob和Charlie)的预测子模块(例如，W_B和W_C)与特征数据X_A的矩阵乘积，以得到与各个第二数据拥有方的预测子模型对应的部分预测值(Y_B＝W_B*X_A和Y_C＝W_C*X_A)。这里，每个第二数据拥有方的预测子模型对应的部分预测值是在该第二数据拥有方和第一数据拥有方之间，使用无可信初始化方秘密共享矩阵乘法计算出。如何使用无可信初始化方秘密共享矩阵乘法来计算第二数据拥有方处的部分预测值，将在下面参照图8进行详细说明。

然后，在块730，在第一数据拥有方Alice处，对所得到的各个数据拥有方的子模型所对应的部分预测值(例如，Y_A、Y_B和Y_C)进行求和，以得到预测模型的当前预测值

图8示出了根据本公开的实施例的无可信初始化方秘密共享矩阵乘法的一个示例的流程图。在图8中，以数据拥有方Alice和Bob之间的X_A*W_B的计算过程为例进行说明。

如图8所示，首先，在块801，如果Alice处的X_A(下文中称为第一特征矩阵)的行数不是偶数，和/或Bob处的当前子模型参数W_B(下文中称为第一权重子矩阵)的列数不为偶数，则对第一特征矩阵X_A和/或第一权重子矩阵W_B进行维度补齐处理，以使得第一特征矩阵X_A的行数是偶数和/或第一权重子矩阵W_B的列数为偶数。例如，将第一特征矩阵X_A的行末尾增加一行0值和/或将第一权重子矩阵W_B的列末尾多增加一列0值来进行维度补齐处理。在下面的描述中，假设第一权重子矩阵W_B的维度为I*J，以及第一特征矩阵X_A的维度为J*K，其中，J为偶数。

然后，在Alice处执行块802到804的操作，以得到随机特征矩阵X1、第二和第三特征矩阵X2和X3。具体地，在块802，生成随机特征矩阵X1。这里，随机特征矩阵X1的维度与第一特征矩阵X_A的维度相同，即，随机特征矩阵X1的维度为J*K。在块803，将随机特征矩阵X1减去第一特征矩阵X_A，以得到第二特征矩阵X2。第二特征矩阵X2的维度为J*K。在块804，将随机特征矩阵X1的偶数行子矩阵X1_e减去随机特征矩阵X1的奇数行子矩阵X1_o，以得到第三特征矩阵X3。第三特征矩阵X3的维度为j*K，其中j＝J/2。

此外，在Bob处执行块805到807的操作，以得到随机权重子矩阵W_B1、第二和第三权重子矩阵W_B2和W_B3。具体地，在块805，生成随机权重子矩阵W_i1。这里，随机权重子矩阵W_B1的维度与第一权重子矩阵W_B的维度相同，即，随机权重子矩阵W_i1的维度为I*J。在块806，对第一权重子矩阵W_B和随机权重子矩阵W_B1进行求和，以得到第二权重子矩阵W_B2。第二权重子矩阵W_B2的维度为I*J。在块807，将随机权重子矩阵W_B1的奇数列子矩阵W_{B1_o}加上随机权重子矩阵W_B1的偶数列子矩阵W_{B1_e}而得到第三权重子矩阵W_B3。第三权重子矩阵W_B3的维度为I*j，其中j＝J/2。

然后，在块808，Alice将所生成的第二特征矩阵X2和第三特征矩阵X3发送给Bob，以及在块809，Bob将第二权重子矩阵W_B2和第三权重子矩阵W_B3发送给Alice。

接着，在块810，在Alice处，基于等式Y1＝W_B2*(2*X_A-X1)-W_B3*(X3+X1_e)进行矩阵计算，以得到第一矩阵乘积Y1，并且在块812，将第一矩阵乘积Y1发送给Bob。

在块811，在Bob处，基于等式Y2＝(W_B+2*W_B1)*X2+(W_B3+W_{B1_o})*X3计算出第二矩阵乘积Y2，并且在块813，将第二矩阵乘积Y2发送给Alice。

然后，在块814和815，分别在Alice和Bob处，对第一矩阵乘积Y1和第二矩阵乘积Y2进行求和，以得到X_A*W_B＝Y_B＝Y1+Y2。

此外，要说明的是，图4-图8中示出的是1个第一数据拥有方和2个第二数据拥有方的模型训练方案，在本说明书的其它示例中，也可以包括1个第二数据拥有方或者包括多于2个第二数据拥有方。

如上参照图1到图8，对根据本说明书的实施例的基于数据隐私保护的机器学习模型特征筛选方法进行了描述。

利用该机器学习模型特征筛选方法，可以通过多方安全计算来计算出机器学习模型的模型特征的方差膨胀因子，从而使得能够在确保各个数据拥有方的数据隐私得到保护的情况下，实现机器学习模型的模型特征筛选。

图9示出了根据本说明书的实施例的基于数据隐私保护的机器学习模型特征筛选装置(下文中简称为“模型特征筛选装置”)900的方框图。模型特征筛选装置900应用于第一数据拥有方A10处。

如图9所示，模型特征筛选装置900包括协商单元910、模型训练单元920、模型预测单元930、方差膨胀因子确定单元940和模型特征筛选单元950。

协商单元910被配置为在多个数据拥有方之间协商确定出第一数据拥有方和第二数据拥有方。

模型训练单元920被配置为使用第一数据拥有方的特征数据，经由各个数据拥有方协同进行多方安全计算来训练出模型特征X_i的预测模型。该预测模型是线性回归模型。该预测模型的输出是模型特征X_i的预测值，以及预测模型的输入特征是模型特征集中的剩余模型特征X_j。此外，该预测模型被水平切分为多个预测子模型，每个数据拥有方具有一个预测子模型。模型训练单元920的操作可以参考上面参照图4描述的块410的操作。

模型预测单元930被配置为根据第一数据拥有方的第一特征数据以及各个数据拥有方的预测子模型进行多方安全计算，以得到模型特征X_i的预测值和预测差值。第一特征数据是从第一数据拥有方的特征数据中去除与模型特征X_i对应的特征值后的特征数据。模型预测单元930的操作可以参考上面参照图4描述的块420的操作。

方差膨胀因子确定单元940被配置为基于模型特征X_i的预测差值，确定模型特征X_i的方差膨胀因子，以用于对模型特征X_i进行模型特征筛选处理。方差膨胀因子确定单元940的操作可以参考上面参照图4描述的块430的操作。

模型特征筛选单元950被配置为根据模型特征X_i的方差膨胀因子，对模型特征X_i进行模型特征筛选处理。模型特征筛选单元950的操作可以参考上面参照图4描述的块440的操作。

此外，可选地，在本说明书的其它实施例中，模型特征筛选装置900也可以不包括协商单元910、模型预测单元930和/或模型特征筛选单元950。在模型特征筛选装置900不包括模型训练单元930的情况下，方差膨胀因子确定单元940使用模型训练单元920在最后一次循环过程中得到的预测差值来计算VIF。

此外，可选地，在本说明书的其它实施例中，可以使用提供单元来替换模型特征筛选单元950。所述提供单元被配置为将模型特征X_i的方差膨胀因子提供给模型特征筛选方来进行模型特征筛选。这里，模型特征筛选方可以是第三方筛选机构或者用户，或者，也可以是多个数据拥有方中的指定数据拥有方。在接收到所有数据拥有方的所有模型特征的VIF后，根据各个模型特征的VIF来进行模型特征筛除处理。例如，筛除VIF大于预定阈值的模型特征，或者，根据各个模型特征的VIF的值来进行排序，并且筛除排序Top K的模型特征。

图10示出了根据本说明书的实施例的模型训练单元1000的一个示例的方框图。

如图10所示，模型训练单元1000包括预测值获取模块1010、预测差值确定模块1020、预测差值分割模块1030、预测差值发送模块1040和模型更新模块1050。

在进行训练时，预测值获取模块1010、预测差值确定模块1020、预测差值分割模块1030、预测差值发送单元1040以及模型更新单元1050被配置为循环执行操作，直到满足循环结束条件。所述循环结束条件可以包括：达到预定循环次数；或者所确定出的预测差值位于预定范围内。

具体地，在每次循环过程中，预测值获取模块1010被配置为基于各个数据拥有方的当前预测子模型以及第一数据拥有方的第一特征数据，使用秘密共享矩阵乘法来获得预测模型的当前预测值。这里，预测值获取模块1010可以按照图6示出的有可信初始化方秘密共享矩阵乘法来获取预测值，或者按照图7-8中示出的无可信初始化方秘密共享矩阵乘法来获取预测值。预测值获取模块1010的操作可以参考上面参照图5描述的块520的操作以及图6-8中示出的第一数据拥有方执行的操作。

预测差值确定模块1020被配置为确定当前预测值与对应的标记值之间的预测差值。预测差值确定模块1020的操作可以参考上面参照图5描述的块530的操作。

预测差值分割模块1030被配置为将所确定出的预测差值分割为第一数目个部分预测差值。预测差值分割模块1030的操作可以参考上面参照图5描述的块540的操作。

预测差值发送模块1040被配置为将第二数目个部分预测差值中的每个分别发送给对应的第二数据拥有方，第二数目等于第一数目减一。预测差值发送模块1040的操作可以参考上面参照图5描述的块550的操作。

模型更新模块1050被配置为基于第一数据拥有方的当前预测子模型以及对应的部分预测差值与第一数据拥有方的第一特征数据之积来更新第一数据拥有方处的当前预测子模型。其中，在循环过程未结束时，更新后的各个数据拥有方处的当前预测子模型被用作下一迭代过程的当前预测子模型。模型更新模块1050的操作可以参考上面参照图5描述的块560的操作。

图11示出了根据本说明书的实施例的基于隐私保护的机器学习模型特征筛选装置(下文中简称为“模型特征筛选装置”)1100的方框图。模型特征筛选装置1100应用于第二数据拥有方。如图11所示，模型特征筛选装置1100包括协商单元1110、模型训练单元1120和模型预测单元1130。

协商单元1110被配置为在多个数据拥有方之间协商确定出第一数据拥有方和第二数据拥有方。

模型训练单元1120被配置为使用第一数据拥有方的特征数据，利用多方安全计算来训练出模型特征X_i的预测模型。该预测模型的输出是模型特征X_i的预测值，以及预测模型的输入特征是剩余模型特征X_j，预测模型被水平切分为多个预测子模型，每个数据拥有方具有一个预测子模型。

模型预测单元1130被配置为根据第一数据拥有方的特征数据以及各个数据拥有方的预测子模型进行多方安全计算，以得到模型特征X_i的预测值以及预测差值。

在本说明书的另一示例中，模型特征筛选装置1100也可以不包括协商单元1110和/或模型预测单元1130。

图12示出了根据本说明书的实施例的模型训练单元1200的一个示例的方框图。

如图12所示，模型训练单元1200包括预测值获取模块1210、预测差值接收模块1220和模型更新模块1230。

在模型训练时，预测值获取模块1210、预测差值接收模块1220以及模型更新模块1230被配置为循环执行操作，直到满足循环结束条件。

具体地，在每次循环过程中，预测值获取模块1210被配置为基于各个数据拥有方的当前预测子模型以及第一数据拥有方的第一特征数据，使用秘密共享矩阵乘法来获得预测模型的当前预测值。这里，预测值获取模块1210可以按照图6示出的有可信初始化方秘密共享矩阵乘法来获取预测值，或者按照图7-8中示出的无可信初始化方秘密共享矩阵乘法来获取预测值。预测值获取模块1210的操作可以参考上面参照图5描述的块520的操作以及图6-8中示出的第二数据拥有方执行的操作。

预测差值接收模块1220被配置为从第一数据拥有方接收对应的部分预测差值，其中，所述部分预测差值是在第一数据拥有方处对预测差值进行分割后得到的第一数目个部分预测差值中的一个部分预测差值。预测差值接收模块1220的操作可以参考上面参照图5描述的块550的操作。

模型更新模块1230被配置为基于第二数据拥有方的当前预测子模型以及所接收的部分预测差值与第一数据拥有方的第一特征数据之积来更新该第二数据拥有方的当前预测子模型，其中，在循环过程未结束时，所述更新后的各个数据拥有方的当前预测子模型被用作下一训练循环过程的当前预测子模型。这里，所接收的部分预测差值与第一数据拥有方的第一特征数据之积是使用秘密共享矩阵乘法来获得的。模型更新模块1230的操作可以参考上面参照图5描述的块560的操作。

这里要说明的是，模型特征筛选装置900和1100可以在同一数据拥有方处实现。换言之，各个数据拥有方既可以充当第一数据拥有方，也可以充当第二数据拥有方。

如上参照图1到图12，对根据本说明书的实施例的模型特征筛选方法及模型特征筛选装置的实施例进行了描述。上面的模型特征筛选装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。

图13示出了根据本说明书的实施例的用于实现基于数据隐私保护的机器学习模型特征筛选的电子设备1300的结构框图。

如图13所示，电子设备1300可以包括至少一个处理器1310、存储器(例如，非易失性存储器)1320、内存1330、通信接口1340以及内部总线1360，并且至少一个处理器1310、存储器1320、内存1330和通信接口1340经由总线1360连接在一起。该至少一个处理器1310执行在计算机可读存储介质中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储有计算机可执行指令，其当执行时使得至少一个处理器1310：使用第一数据拥有方的特征数据，经由各个数据拥有方进行多方安全计算来训练出模型特征X_i的预测模型，其中，预测模型是线性回归模型，预测模型的输出是模型特征X_i的预测值，以及预测模型的输入特征是模型特征集中的剩余模型特征，所述预测模型被水平切分为多个预测子模型，每个数据拥有方具有一个预测子模型，所述第一数据拥有方是预测模型训练的训练发起方，以及所述第二数据拥有方是预测模型训练的训练协同方；以及基于模型特征X_i的预测差值，确定模型特征X_i的方差膨胀因子，以用于模型特征筛选处理。

应该理解的是，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1310执行在本说明书的各个实施例中如上结合图1-12描述的各种操作和功能。

图14示出了根据本说明书的实施例的用于实现基于神经网络模型的模型预测的电子设备1400的结构框图。

如图14所示，电子设备1400可以包括至少一个处理器1410、存储器(例如，非易失性存储器)1420、内存1430、通信接口1440以及内部总线1460，并且至少一个处理器1410、存储器1420、内存1430和通信接口1440经由总线1460连接在一起。该至少一个处理器1410执行在计算机可读存储介质中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储有计算机可执行指令，其当执行时使得至少一个处理器1410：使用第一数据拥有方的特征数据，经由各个数据拥有方协同进行多方安全计算来训练出模型特征X_i的预测模型，其中，预测模型是线性回归模型，预测模型的输出是模型特征X_i的预测值，以及预测模型的输入特征是模型特征集中的剩余模型特征，预测模型被水平切分为多个预测子模型，每个数据拥有方具有一个预测子模型，其中，预测模型的预测值被使用来确定模型特征X_i的预测差值和方差膨胀因子，所述方差膨胀因子用于对模型特征X_i进行模型特征筛选处理。

应该理解的是，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1410执行在本说明书的各个实施例中如上结合图1-12描述的各种操作和功能。

在本说明书的实施例中，电子设备1300/1400可以包括但不限于：个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、可佩戴计算设备、消费电子设备等等。

根据一个实施例，提供了一种例如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被机器执行时，使得机器执行本说明书的各个实施例中如上结合图1-12描述的各种操作和功能。

具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

本领域技术人员应当理解，上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此，本发明的保护范围应当由所附的权利要求书来限定。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元或模块可以通过机械方式或电气方式实现。例如，一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器，FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器)，可以由软件进行临时的设置以完成相应操作。具体实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。

上面结合附图阐述的具体实施方式描述了示例性实施例，但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于基于数据隐私保护的机器学习模型特征筛选的方法，所述机器学习模型具有模型特征集，所述机器学习模型的特征数据被水平切分地分布在多个数据拥有方处，所述多个数据拥有方包括第一数据拥有方和至少一个第二数据拥有方，所述方法由第一数据拥有方执行，所述方法包括：

使用第一数据拥有方的特征数据，经由各个数据拥有方协同进行多方安全计算来训练出待筛选模型特征的预测模型，其中，所述预测模型是线性回归模型，所述预测模型的输出是所述待筛选模型特征的预测值，以及所述预测模型的输入特征是所述模型特征集中的剩余模型特征，所述预测模型被水平切分为多个预测子模型，每个数据拥有方具有一个预测子模型，所述第一数据拥有方是预测模型训练的训练发起方，以及所述第二数据拥有方是预测模型训练的训练协同方；以及

基于所述待筛选模型特征的预测差值，确定所述待筛选模型特征的方差膨胀因子，以用于模型特征筛选处理。

2.如权利要求1所述的方法，还包括：

根据所述待筛选模型特征的方差膨胀因子，对所述待筛选模型特征进行模型特征筛选处理。

3.如权利要求2所述的方法，其中，根据所确定出的待筛选模型特征的方差膨胀因子，对所述待筛选模型特征进行模型特征筛选处理包括：

在所述待筛选模型特征的方差膨胀因子大于预定阈值时，从所述模型特征集中筛除所述待筛选模型特征。

4.如权利要求1所述的方法，还包括：

将所述待筛选模型特征的方差膨胀因子提供给模型特征筛选方来进行模型特征筛选。

5.如权利要求1所述的方法，其中，所述待筛选模型特征的预测差值是所述预测模型的训练过程中的最后一次循环过程中得到的预测差值。

6.如权利要求1所述的方法，还包括：

根据所述第一数据拥有方的第一特征数据以及各个数据拥有方的预测子模型进行多方安全计算，以得到所述待筛选模型特征的预测值以及预测差值，所述第一特征数据是从所述第一数据拥有方的特征数据中去除与所述待筛选模型特征对应的特征值后的特征数据。

7.如权利要求1所述的方法，其中，所述第一数据拥有方和所述第二数据拥有方由所述多个数据拥有方协商确定。

8.如权利要求1所述的方法，其中，所述多方安全计算包括秘密共享矩阵乘法、混淆电路和同态加密中的一种。

9.如权利要求8所述的方法，其中，所述秘密共享矩阵乘法包括有可信初始化方秘密共享矩阵乘法或者无可信初始化方秘密共享矩阵乘法。

10.如权利要求1到9中任一所述的方法，其中，所述机器学习模型的特征数据包括基于图像数据、语音数据或文本数据确定的特征数据，或者所述机器学习模型的特征数据包括用户特征数据。

11.一种用于基于数据隐私保护的机器学习模型特征筛选的方法，所述机器学习模型具有模型特征集，所述机器学习模型的特征数据被水平切分地分布在多个数据拥有方处，所述多个数据拥有方包括第一数据拥有方和至少一个第二数据拥有方，所述方法由第二数据拥有方执行，所述方法包括：

使用第一数据拥有方的特征数据，经由各个数据拥有方协同进行多方安全计算来训练出待筛选模型特征的预测模型，其中，所述预测模型是线性回归模型，所述预测模型的输出是所述待筛选模型特征的预测值，以及所述预测模型的输入特征是所述模型特征集中的剩余模型特征，所述预测模型被水平切分为多个预测子模型，每个数据拥有方具有一个预测子模型，所述第一数据拥有方是预测模型训练的训练发起方，以及所述第二数据拥有方是预测模型训练的训练协同方，

其中，所述预测模型的预测值被使用来确定所述待筛选模型特征的预测差值和方差膨胀因子，所述方差膨胀因子用于对所述待筛选模型特征进行模型特征筛选处理。

12.如权利要求11所述的方法，还包括：

根据所述第一数据拥有方的第一特征数据以及各个数据拥有方的预测子模型进行多方安全计算，以得到所述待筛选模型特征的预测值，所述第一特征数据是从所述第一数据拥有方的特征数据中去除与所述待筛选模型特征对应的特征值后的特征数据。

13.如权利要求11所述的方法，其中，所述多方安全计算包括秘密共享矩阵乘法、混淆电路和同态加密中的一种。

14.一种用于基于数据隐私保护的机器学习模型特征筛选的装置，所述机器学习模型具有模型特征集，所述机器学习模型的特征数据被水平切分地分布在多个数据拥有方处，所述多个数据拥有方包括第一数据拥有方和至少一个第二数据拥有方，所述装置应用于第一数据拥有方，所述装置包括：

模型训练单元，使用第一数据拥有方的特征数据，经由各个数据拥有方协同进行多方安全计算来训练出待筛选模型特征的预测模型，其中，所述预测模型是线性回归模型，所述预测模型的输出是所述待筛选模型特征的预测值，以及所述预测模型的输入特征是所述模型特征集中的剩余模型特征，所述预测模型被水平切分为多个预测子模型，每个数据拥有方具有一个预测子模型，所述第一数据拥有方是预测模型训练的训练发起方，以及所述第二数据拥有方是预测模型训练的训练协同方；以及

方差膨胀因子确定单元，基于所述待筛选模型特征的预测差值，确定所述待筛选模型特征的方差膨胀因子，以用于模型特征筛选处理。

15.如权利要求14所述的装置，还包括：

模型特征筛选单元，根据所述待筛选模型特征的方差膨胀因子，对所述待筛选模型特征进行模型特征筛选处理。

16.如权利要求14所述的装置，还包括：

提供单元，将所述待筛选模型特征的方差膨胀因子提供给模型特征筛选方来进行模型特征筛选。

17.如权利要求14所述的装置，还包括：

模型预测单元，根据所述第一数据拥有方的第一特征数据以及各个数据拥有方的预测子模型进行多方安全计算，以得到所述模型特征X_i的预测值和预测差值，所述第一特征数据是从所述第一数据拥有方的特征数据中去除与所述模型特征X_i对应的特征值后的特征数据。

18.如权利要求14所述的装置，还包括：

协商单元，在所述多个数据拥有方之间协商确定所述第一数据拥有方和所述第二数据拥有方。

19.一种用于基于数据隐私保护的机器学习模型特征筛选的装置，所述机器学习模型具有模型特征集，所述机器学习模型的特征数据被水平切分地分布在多个数据拥有方处，所述多个数据拥有方包括第一数据拥有方和至少一个第二数据拥有方，所述装置应用于第二数据拥有方，所述装置包括：

模型训练单元，使用第一数据拥有方的特征数据，经由各个数据拥有方协同进行多方安全计算来训练出待筛选模型特征的预测模型，其中，所述预测模型是线性回归模型，所述预测模型的输出是所述待筛选模型特征的预测值，以及所述预测模型的输入特征是所述模型特征集中的剩余模型特征，所述预测模型被水平切分为多个预测子模型，每个数据拥有方具有一个预测子模型，所述第一数据拥有方是预测模型训练的训练发起方，以及所述第二数据拥有方是预测模型训练的训练协同方，

20.如权利要求19所述的装置，还包括：

模型预测单元，根据第一数据拥有方的第一特征数据以及各个数据拥有方的预测子模型进行多方安全计算，以得到所述待筛选模型特征的预测值，所述第一特征数据是从第一数据拥有方的特征数据中去除与所述待筛选模型特征对应的特征值后的特征数据。

21.一种电子设备，包括：

一个或多个处理器，以及

与所述一个或多个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1到10中任一项所述的方法。

22.一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求1到10中任一项所述的方法。

23.一种电子设备，包括：

一个或多个处理器，以及

与所述一个或多个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求11到13中任一所述的方法。

24.一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求11到13中任一所述的方法。