CN115409198A

CN115409198A - 分布式预测方法及其系统

Info

Publication number: CN115409198A
Application number: CN202211066469.6A
Authority: CN
Inventors: 谭晋; 王磊; 王力
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2022-11-29
Also published as: CN110969264A; CN110969264B

Abstract

本说明书中的实施例提供了分布式预测方法及其系统。两个以上用户节点保存有各自的用户模型，各用户模型对应预测模型的一部分。一个或多个用户节点至少基于用户模型和本地特征数据获得本地预测结果，预测节点基于一个或多个用户节点的本地预测结果得到针对待预测对象的标识信息的预测结果。如此，可以有效保护各方的数据隐私。

Description

分布式预测方法及其系统

分案说明

本申请是2019年12月11日提交的名为“模型训练方法、分布式预测方法及其系统”的中国发明专利201911272294.2的分案申请。

技术领域

本说明书实施例涉及信息技术领域，特别涉及分布式预测方法及其系统。

背景技术

随着人工智能技术的发展，机器学习模型已逐渐应用于风险评估、语音识别、自然语言处理等领域。在医疗、金融等领域，不同的企业或机构拥有不同的样本数据，若将这些样本数据进行联合训练，可以有效提升模型精度，给企业带来巨大的经济效益。然而，不同的企业或机构各自拥有的样本数据包含大量的用户隐私甚至商业机密，一旦样本数据泄露，将导致一系列负面影响。

因此，目前希望提供一种能够有效保护用户数据隐私的联合训练及预测方案。

发明内容

本说明书实施例之一提供一种模型训练方法，其中，由中心节点执行，所述方法包括：获取来自两个以上用户节点的加密样本数据；在可信执行环境中对所述加密样本数据进行解密；在可信执行环境中利用解密出的样本数据进行模型训练，得到训练好的模型；拆分所述训练好的模型，得到所述两个以上用户节点的用户模型；将所述两个以上用户节点的用户模型分别发送给各用户节点。

本说明书实施例之一提供一种模型训练系统，其中，对应于中心节点，所述系统包括：数据获取模块，用于获取来自两个以上用户节点的加密样本数据；解密模块，用于在可信执行环境中对所述加密样本数据进行解密；训练模块，用于在可信执行环境中利用解密出的样本数据进行模型训练，得到训练好的模型；模型拆分模块，用于拆分所述训练好的模型，得到所述两个以上用户节点的用户模型；模型分发模块，用于将所述两个以上用户节点的用户模型分别发送给各用户节点。

本说明书实施例之一提供一种模型训练装置，其中，包括至少一个处理器和至少一个存储设备，所述存储设备用于存储指令，当至少一个处理器执行指令时，实现如本说明书任一实施例所示的模型训练方法。

本说明书实施例之一提供一种分布式预测方法，其中，由预测节点执行，所述预测节点为两个以上用户节点之一，或是所述两个以上用户节点以外的节点且与所述两个以上用户节点通信连接，所述两个以上用户节点分别保存有各自的用户模型，各用户模型均对应于预测模型的一部分；所述方法包括：向一个或多个用户节点发送针对待预测对象的标识信息的预测请求；接收一个或多个用户节点的本地预测结果，所述本地预测结果至少基于对应用户节点的用户模型和针对待预测对象的标识信息的特征数据得到；基于一个或多个用户节点的本地预测结果，得到针对待预测对象的标识信息的预测结果。

本说明书实施例之一提供一种分布式预测系统，其中，所述系统对应于预测节点，所述预测节点为两个以上用户节点之一，或是所述两个以上用户节点以外的节点且与所述两个以上用户节点通信连接，所述两个以上用户节点分别保存有各自的用户模型，各用户模型均对应于预测模型的一部分；所述系统包括：预测请求发送模块，用于向一个或多个用户节点发送针对待预测对象的标识信息的预测请求；本地预测结果接收模块，用于接收一个或多个用户节点的本地预测结果，所述本地预测结果至少基于对应用户节点的用户模型和针对待预测对象的标识信息的特征数据得到；预测模块，用于基于一个或多个用户节点的本地预测结果，得到针对待预测对象的标识信息的预测结果。

本说明书实施例之一提供一种分布式预测装置，其中，包括至少一个处理器和至少一个存储设备，所述存储设备用于存储指令，当至少一个处理器执行指令时，实现如本说明书任一实施例所示的由预测节点执行的分布式预测方法。

本说明书实施例之一提供一种分布式预测方法，其中，由两个以上用户节点中的某一用户节点执行，所述两个以上用户节点保存有各自的用户模型，各用户模型对应预测模型的一部分；所述方法包括：接收预测节点发送的针对待预测对象的标识信息的预测请求，所述预测节点包括两个以上用户节点之一或两个以上用户节点之外的节点；基于待预测对象标识信息从本地获取特征数据；至少基于用户模型和所述特征数据，得到本地预测结果；将所述本地预测结果返回给所述预测节点。

本说明书实施例之一提供一种分布式预测系统，其中，所述方法对应于两个以上用户节点中的某一用户节点，所述两个以上用户节点保存有各自的用户模型，各用户模型对应预测模型的一部分；所述系统包括：预测请求接收模块，用于接收预测节点发送的针对待预测对象的标识信息的预测请求，所述预测节点包括两个以上用户节点之一或两个以上用户节点之外的节点；本地预测模块，用于基于待预测对象标识信息从本地获取特征数据，至少基于用户模型和所述特征数据，得到本地预测结果；本地预测结果返回模块，用于将所述本地预测结果返回给所述预测节点。

本说明书实施例之一提供一种分布式预测装置，其中，包括至少一个处理器和至少一个存储设备，所述存储设备用于存储指令，当至少一个处理器执行指令时，实现如本说明书任一实施例所示的由用户节点执行的分布式预测方法。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1为根据本说明书一些实施例所示的机器学习系统的应用场景示意图；

图2为根据本说明书一些实施例所示的模型训练方法的交互示意图；

图3为根据本说明书一些实施例所示的分布式预测方法的交互示意图；

图4为根据本说明书一些实施例所示的用户节点A的用户模型示意图；

图5为根据本说明书一些实施例所示的用户节点B的用户模型示意图；

图6为根据本说明书一些实施例所示的模型训练系统的示例性框图；

图7为根据本说明书一些实施例所示的分布式预测系统的示例性框图；

图8为根据本说明书一些实施例所示的分布式预测系统的示例性框图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1为根据本说明书一些实施例所示的机器学习系统的应用场景示意图。如图1所示，机器学习系统100可以包括两个以上用户节点110、中心节点120和网络140。

用户节点110可以指数据提供方的设备，用于提供训练阶段和预测阶段所需的数据。在一些实施例中，数据提供方可以包括企业、机构、个人等中的一种或多种。在训练阶段，用户节点110可以向中心节点120提供样本数据。针对同一样本标识信息(例如，样本ID)，不同的用户节点110可以提供不同的特征项。中心节点120训练好模型后，各用户节点110可从中心节点120获取用户模型，每个用户节点110的用户模型对应完整模型的一部分。类似地，在预测阶段，不同的用户节点110也可以提供针对同一待预测对象的标识信息(例如，待预测对象的ID)的不同特征项。针对同一待预测对象的标识信息，各用户节点110将自身持有的特征项输入用户模型并获得用户模型输出的预测结果，最终待预测对象的预测结果可基于由一个或多个用户节点110的用户模型输出的预测结果得到。

中心节点120可指平台方的具备可信执行环境的计算设备，其中平台方可以指协调两个以上数据提供方参与联合训练的一方。在一些实施例中，平台方可以指政府、企业、机构等等。中心节点120可在可信执行环境中基于各用户节点110提供的样本数据训练出模型，并将该模型拆分成多个用户模型。其中，拆分可以针对模型的结构和/或参数进行。进而，中心节点120可将用户模型分发给各用户节点110。可信执行环境可以有效保证数据不发生泄露，从而在可信执行环境中进行模型训练可以有效保护各方样本数据中的用户隐私。

在一些实施例中，本说明书提及的模型可以包括线性回归模型、决策树、神经网络等中的任一种。

应当注意的是，用户节点110在向中心节点120提供样本数据前，需要对样本数据进行加密，以防止传输过程中发生数据泄露。进而，中心节点120可在可信执行环境中，解密出样本数据并进行模型训练。

值得说明的是，机器学习系统100可以包括预测节点130。预测节点130可用于发起针对待预测对象的标识信息的预测请求，以及获得针对待预测对象的标识信息预测结果。在一些实施例中，任一用户节点110可以作为预测节点130。在一些实施例中，预测节点130可以是两个以上用户节点110以外的节点，例如，中心节点120或者机器学习系统100的外部节点。

在一些实施例中，本说明书提及的一个或多个节点可以是一方的单台设备，也可以属于一方的设备集群。在一些实施例中，该设备集群可以是集中式的或者分布式的。在一些实施例中，该设备集群可以是区域的或者远程的。

网络140可促进数据和/或信息的交换。在一些实施例中，机器学习系统100中的一个或多个组件(如：用户节点110、中心节点120、预测节点130)可通过网络140发送数据和/或信息给机器学习系统100中的其他组件。在一些实施例中，网络140可是任意类型的有线或无线网络。例如，网络140可包括缆线网络、有线网络、光纤网络、电信网络、内部网络、网际网络、区域网络(LAN)、广域网络(WAN)、无线区域网络(WLAN)、都会区域网络(MAN)、公共电话交换网络(PSTN)、蓝牙网络、ZigBee网络、近场通讯(NFC)网络等或以上任意组合。在一些实施例中，网络140可包括一个或多个网络进出点。例如，网络140可包含有线和/或无线网络进出点，如基站和/或多个网际网络交换点140-1、140-2，通过这些进出点，投票系统100的一个或多个组件可连接到网络140上以交换数据和/或信息。

图2为根据本说明书一些实施例所示的模型训练方法的交互示意图。应当注意的是，虽然图2仅示出了两个用户节点对应的情况，但是本说明书的训练原理同样适用于三个或更多用户节点对应的情况。该方法由中心节点执行，可以包括数据获取步骤、数据解密步骤、模型训练步骤、模型拆分步骤和用户模型分发步骤。

在数据获取步骤，获取来自两个以上用户节点的加密样本数据。

如图2所示，用户节点A和用户节点B将各自的加密样本数据发送给中心节点。应当理解，对样本数据的加密可以保证样本数据在传输过程中的安全性。

在数据解密步骤，在可信执行环境中对加密样本数据进行解密。

由于解密后会得到样本数据的明文，因此为了防止解密出的样本数据发生泄露可以在可信执行环境中进行解密。

应当理解，为了防止涉及用户隐私的数据发生泄露，本说明书任一实施例所示的流程中的一个或多个步骤可以在可信执行环境中执行。例如，如图2所示，模型训练步骤可以在可信执行环境中执行，具体可以参照本说明书有关模型训练步骤的描述。又如，在一些实施例中，模型拆分步骤可以在可信执行环境中执行，具体可以参照本说明书有关模型拆分步骤的描述。

在模型训练步骤，在可信执行环境中利用解密出的样本数据进行模型训练，得到训练好的模型。

类似地，由于模型训练过程中会使用到样本数据，因此为了防止样本数据在模型训练过程中发生泄漏可以在可信执行环境中进行模型训练。

在模型拆分步骤，拆分训练好的模型，得到两个以上用户节点的用户模型。

在一些实施例中，中心节点可以基于两个以上用户节点的样本数据的特征项，将训练好的模型的模型参数按位拆分。其中，按位拆分是指将位置上与一用户节点的样本数据的特征项关联的模型参数(以下称为用户参数)拆分出来，以获得该用户节点的用户模型，其中，该用户模型具有拆分出的用户参数。

以线性回归模型为例，对于任一用户节点，中心节点可以将与该用户节点的样本数据的特征项相乘的参数拆分出来，以获得该用户节点的用户模型。即，该用户节点的用户模型具有该用户节点的样本数据的特征项所在的乘积项。另外，在一些实施例中，线性回归模型的常数项可以被拆分成两个以上子常数项分别作为两个以上用户节点的用户模型的常数项。在又一些实施例中，两个以上用户节点之外的预测节点也可以保存计算预测值需要用到的常数值，两个以上用户节点的用户模型的常数项以及该常数值与之和可以等于训练好的模型的常数项。举例来说，假设：训练好的线性回归模型形如

其中，Y表示预测值，

表示用户节点A的样本数据的特征项，

表示用户节点B的样本数据的特征项，a₁、a₂、a₃、b₁、b₂、c均为线性回归模型的模型参数且c为常数项，则用户节点A的用户模型可以形如

用户节点B的用户模型可以形如

其中，Y_a、Y_b分别表示用户节点A、B的用户模型的预测值，a₀、b₀分别表示用户节点A、B的用户模型的常数项。在一些实施例中，可以满足c＝a₀+b₀。相应地，针对待预测对象的标识信息的预测结果Y＝Y_a+Y_b。在一些实施例中，若两个以上用户节点之外的预测节点保存有计算预测值需要用到的常数值c₀，则可以满足c＝a₀+b₀+c₀。相应地，针对待预测对象的标识信息的预测结果Y＝Y_a+Y_b+c₀。

以决策树为例，决策树可以包括判定进入哪个分支(例如，左子节点/右子节点)的决策节点和决定最终决策结果(即预测结果)的叶子节点。预测时从根节点开始，每次只基于当前节点对应的特征项及参数选择分支，其中，特征项及参数(如阈值)可构成判定进入哪个分支的判定条件。选定分支后，进入所选分支连接的下一子节点。以此类推，直至到达叶子节点，即获得预测值。在一些实施例中，对决策树的拆分可以满足：对于任一用户节点，该用户节点的用户模型具有完整的结构，且若决策节点对应的特征项不属于该用户节点，则该决策节点的判定条件(包括特征项及参数)对该用户节点来说是未知的。如此，任一用户节点可以获得从根节点到叶子节点的路径上的一个或多个决策树节点的决策结果，其中该路径上的本地决策树节点的决策结果可以基于自身的用户模型和本地获取的特征数据得到，该路径上的其他决策树节点的决策结果可以通过向其他用户节点发起针对同一待预测对象的标识信息的预测请求来获取，进而基于该路径上的一个或多个决策树节点对应的决策结果获得预测结果。在一些实施例中，用户模型中任一叶子节点对应的最终决策结果(即预测结果)对于任一用户节点来说都可以是已知的。在又一些实施例中，用户模型中任一叶子节点对应的最终决策结果(即预测结果)可仅有一个用户节点已知。关于决策树的拆分，还可以参照图4、图5及其相关描述。

在一些实施例中，中心节点可以将训练好的模型的模型参数进行运算拆分。其中，运算拆分可以指拆分出的各用户节点对应的模型参数分片与拆分前模型的模型参数满足一定的运算关系，从而可以基于该运算关系对模型参数进行拆分。

以神经网络为例，拆分出的两个以上用户节点的用户模型可以是具有相同结构的神经网络，其中，结构可以包括层数、各层节点数、各节点的激活函数、各节点间连接关系等中的一种或多种。但是，两个以上用户节点的用户模型可以具有不同的神经网络参数，即，运算拆分出的两个以上用户节点的模型参数分片。

应当注意的是，本说明书对如何拆分模型不作任何限制，满足以下条件的模型拆分规则都可以视为本说明书的公开范围：存在与该模型拆分规则匹配的联合预测规则，使得基于拆分出的各用户模型的预测结果以及该联合预测规则可以得到相同于或等效(如近似相同)于拆分前模型的预测结果。具体地，可以参照本说明书中涉及同一模型的拆分和联合预测的内容。

值得说明的是，在一些实施例中，如图2所示，模型拆分步骤可以在可信执行环境中执行。如此，可以防止训练好的模型在拆分过程中发生泄露，另外，在基于各用户节点的样本数据的特征项拆分模型时可以防止样本数据的特征项发生泄露。

在模型分发步骤，将两个以上用户节点的用户模型分别发送给各用户节点。

在一些实施例中，中心节点可以对各用户模型进行加密，再将加密的各用户模型分别发送给各用户节点。用户节点接收到加密的用户模型后，解密出用户模型。如此，可以保证训练好的模型在传输过程中的安全性。

本说明书披露的一个或多个步骤涉及交互的数据的加密/解密，例如，样本数据的加密/解密和用户模型的加密/解密。为此，中心节点和用户节点在交互数据前，可以协定加密/解密的算法和秘钥。在一些实施例中，可以采用非对称加密/解密算法，中心节点和两个以上用户节点可以在交互数据前生成各自的公私钥对，并且，中心节点和用户节点分别将自身的公钥发送给对方。基于此，中心节点和用户节点中任一方在向对方发送数据之前，可利用对方的公钥对数据进行加密，进而，对方可以基于自身的私钥对接收到的加密数据进行解密。

当用户模型分发到各个用户节点后，用户节点可以利用自身的用户模型参与联合预测。图3为根据本说明书一些实施例所示的分布式预测方法的交互示意图。由前述内容可知，各用户模型均对应于预测模型的一部分。其中，预测模型可以指基于两个以上用户节点的样本数据训练出的模型。关于预测模型和用户模型的获得方法，可以参照前述实施例中有关模型训练方法的描述。应当注意的是，虽然图3仅示出了两个用户节点对应的情况，但是本说明书的预测原理同样适用于三个或更多用户节点对应的情况。

在一些实施例中，可以将发起预测请求并最终获得预测结果的节点称为预测节点。预测节点可以是用户节点之一，也可以是用户节点以外的其他节点。当预测节点是用户节点以外的节点时，预测节点不参与联合预测，只需要向相关用户节点发送包含待预测对象的标识信息的预测请求，接收各用户节点返回的本地预测结果，基于各本地预测结果获得针对待预测对象的标识信息的预测结果。当预测节点是用户节点之一时，意味着预测节点除了发起预测请求和汇总各本地预测结果外，还会参与联合预测。下面将区别介绍。

由预测节点执行时，分布式预测方法可以包括预测请求发送步骤、本地预测结果接收步骤以及预测步骤。

在预测请求发送步骤，向一个或多个用户节点发送针对待预测对象的标识信息的预测请求。

在一些实施例中，待预测对象的标识信息可以包括待预测对象的ID。在一些实施例中，ID可以包括名称、手机号码、身份证号码、编号等等。预测节点可以向拥有待预测对象的特征数据的各个用户节点发送预测请求。当预测节点不参与联合预测时，预测节点需要向两个以上用户节点发送预测请求。当预测节点参与联合预测时，可以仅向一个其他用户节点发送预测请求，当然也可以向多个其他用户节点发送预测请求。

在本地预测结果接收步骤，接收一个或多个用户节点的本地预测结果，该本地预测结果至少基于对应用户节点的用户模型和针对待预测对象的标识信息的特征数据得到。

关于用户节点获取本地预测结果的详细步骤，可以参考后文由用户节点执行的本地预测步骤的相关说明。

在预测步骤，基于至少一个用户节点的本地预测结果，得到针对待预测对象的标识信息的预测结果。

应当注意的是，一个或多个用户节点基于同一待预测对象的标识信息进行联合预测。

在一些实施例中，任一用户节点的本地预测结果对应于针对待预测对象的标识信息的预测结果的一部分。相应地，预测节点可以基于两个以上用户节点的本地预测结果获得针对待预测对象的标识信息的预测结果。

具体地，当预测节点为两个以上用户节点之一时，预测节点可以向其他用户节点发起针对待预测对象的标识信息的预测请求。每个用户节点接收到预测请求后，从本地获取待预测对象的标识信息对应的特征数据，基于用户模型和本地获取的特征数据获得本地预测结果，除预测节点外的用户节点将本地预测结果返回给预测节点。进而，预测节点可以基于自身的本地预测结果和其他用户节点的本地预测结果(即，两个以上用户节点的本地预测结果)，得到针对待预测对象的标识信息的预测结果。

当预测节点为两个以上用户节点之外的节点时，预测节点可以向所有用户节点发起针对待预测对象的标识信息的预测请求。每个用户节点接收到预测请求后，从本地获取待预测对象的标识信息对应的特征数据并基于用户模型和本地获取的特征数据获得本地预测结果(此过程以下称为本地预测)，再将本地预测结果返回给预测节点。进而，预测节点可以基于两个以上用户节点的本地预测结果得到针对待预测对象的标识信息的预测结果。

仅作为示例，预测节点协同多个用户节点进行联合预测的流程可以如图3所示，预测节点分别向用户节点A和用户节点B发送针对X(X表示待预测对象的标识信息)预测请求。用户节点A和用户节点B接收到针对X的预测请求后，分别进行本地预测。用户节点A获得本地预测结果S_A并将本地预测结果S_A发送给预测节点，用户节点B获得本地预测结果S_B并将本地预测结果S_B发送给预测节点。进而，预测节点基于本地预测结果S_A和本地预测结果S_B获得针对X的预测结果S。可以理解，上述流程是针对预测节点是用户节点以外的节点的场景，当预测节点是用户节点之一时，其预测流程实质相似，不同之处仅在于预测节点会如其他用户节点一样进行本地预测，预测节点除了会基于其他用户节点的本地预测结果，还会基于自身的本地预测结果确定最终的预测结果。

在一些实施例中，针对待预测对象的标识信息的预测结果可以基于多个用户节点的本地预测结果得到。例如，预测节点可以将两个以上用户节点的本地预测结果相加，得到针对待预测对象的标识信息的预测结果，详细地可以参考本说明书中线性回归模型的相关内容。又例如，对于神经网络，各用户节点可以将本地拥有的针对待预测对象的特征数据进行运算拆分并分发给其他用户节点，各用户节点可以基于自身的特征数据分片以及获得的特征数据分片，以及用户模型参数，通过秘密分享算法，计算出最终预测结果的分片并发送给预测节点，预测节点可以将各用户节点的本地预测结果(所述分片)相加，得到针对待预测对象的标识信息的预测结果。再例如，预测节点可以将两个以上用户节点的本地预测结果求交集，得到针对待预测对象的标识信息的预测结果。

以决策树为例，叶子节点对应的预测结果可以基于从根节点(决策节点之一)到叶子节点的路径上的所有决策节点基于该节点对应的特征数据进行决策分支得到。根据本说明书图2的相关说明可知，任一用户节点拥有完整的模型结构，但其中某些决策节点信息(如特征项和/或其分割阈值)未知。某用户节点可以基于其拥有的针对待预测对象的标识信息的特征数据，通过本地用户模型(如决策树)确定可能到达的全部叶子节点，将其作为该用户节点的本地预测结果。在一些实施例中，预测节点可以向其他所有用户节点发送预测请求，并接收其他所有用户节点返回的本地预测结果，将各个用户节点返回的本地预测结果求交集，从而得到最终的预测结果。

下面结合图4和图5示例用户节点A、用户节点B获得针对待预测对象(如，某驾驶员)标识信息的预测结果的过程。仅作为示例，用户节点A拥有的用户模型如图4所示，其具有三个决策节点以及四个叶子节点，其中“驾龄”与“交通违章次数”两个决策节点信息已知，一个决策节点的信息未知。用户节点B拥有的用户模型如图5所示，其具有三个决策节点以及四个叶子节点，其中“去年出险次数”这一个决策节点信息已知，其余两个决策节点的信息未知。不难理解，用户节点A与用户节点B各自拥有的同一决策决策树的部分。两者需要联合预测，才能获得最终的预测结果。

用户节点A接收到针对待预测对象的标识信息后，从本地获取该驾驶员的驾龄以及交通违章次数信息。若该驾驶员的驾龄2年，交通违章次数0，则可基于图4所述的模型确定根节点的阈值条件不满足，往右走；而接下来的决策节点信息未知，预测结果可能往左也可能往右走，因此，用户节点A确定的可能到达的是叶子节点3和叶子节点4。

用户节点B接收到针对待预测对象的标识信息后，从本地获取该驾驶员的去年出险次数。若该驾驶员的去年出险次数为1，则可基于图5所述的模型确定根节点的信息未知，预测结果可能往左也可能往右走，如果往左走，可能到达叶子节点1、2，如果往右走，则到达叶子节点3。

预测节点对用户节点A、B的本地预测结果求交集后，可以确定对于该驾驶员最终的预测结果为叶子节点3的“危险”。

继续结合图3，对于响应于预测节点的预测请求而参与预测的用户节点(如用户节点A或用户节点B)，其执行的可以包括预测请求接收步骤、本地预测步骤和本地预测结果返回步骤。

在预测请求接收步骤，接收预测节点发送的针对待预测对象的标识信息的预测请求。

在本地预测步骤，基于待预测对象的标识信息从本地获取特征数据，至少基于用户模型和本地获取的特征数据，得到本地预测结果。

在一些实施例中，用户节点将本地获取的特征数据输入用户模型，即可得到用户模型输出的本地预测结果，例如，拆分线性回归模型得到的用户模型、拆分决策树得到的用户模型等。关于基于拆分线性回归模型得到的用户模型或拆分决策树得到的用户模型进行本地预测的过程可以在文中其他地方找到。

在一些实施例中，用户节点可以基于用户模型、特征数据以及来自其他一个或多个用户节点的预测中间结果，获得本地预测结果。以神经网络为例，针对相同的待预测对象的标识信息，每个用户节点可以将自身的特征数据拆分成N个(N为不小于2的整数，表示两个以上用户节点的数量)特征数据分片，将其中N-1个特征数据分片分别发送给其他N-1个用户节点，基于自身剩余的特征数据分片和来自其他N-1个用户节点的特征数据分片得到预测模型的输入分片，利用自身的输入分片和用户模型的参数，通过秘密分享算法与其他N-1个用户节点的输入分片和参数分片协同计算预测模型的输出分片(即，该用户节点的本地预测结果)。进而，预测模型的输出(即最终预测结果)可基于N个用户节点的输出分片得到。其中，对于任一用户节点，其参与协同计算过程中从其他用户节点接收到的一个或多个中间计算结果均可看作预测中间结果。

在本地预测结果返回步骤，将本地预测结果返回给预测节点。

关于预测请求接收步骤、本地预测步骤和本地预测结果返回步骤的更多细节，还可以参考前述实施例中任一用户节点的本地预测结果对应于针对待预测对象的标识信息的预测结果的一部分的相关描述。

应当注意的是，上述有关流程的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。

图6为根据本说明书一些实施例所示的模型训练系统的示例性框图。系统600对应于于中心节点。在一些实施例中，该系统600可以包括数据获取模块610、解密模块620、训练模块630、模型拆分模块640、模型分发模块650。

在一些实施例中，数据获取模块610可以用于获取来自两个以上用户节点的加密样本数据。关于数据获取模块610的具体实施方式，可以参考数据获取步骤的相关描述。即，数据获取步骤可由数据获取模块610执行。

在一些实施例中，解密模块620可以用于在可信执行环境中对加密样本数据进行解密。关于解密模块620的具体实施方式，可以参考数据解密步骤的相关描述。即，数据解密步骤可由解密模块620执行。

在一些实施例中，训练模块630可以用于在可信执行环境中利用解密出的样本数据进行模型训练，得到训练好的模型。在一些实施例中，所述模型包括线性回归模型、决策树以及神经网络中的至少一种。关于训练模块630的具体实施方式，可以参考模型训练步骤的相关描述。即，模型训练步骤可由训练模块630执行。

在一些实施例中，模型拆分模块640可以用于拆分所述训练好的模型，得到两个以上用户节点的用户模型。在一些实施例中，中心节点可以基于两个以上用户节点的样本数据的特征项，将训练好的模型的模型参数按位拆分或者运算拆分。关于模型拆分模块640的具体实施方式，可以参考模型拆分步骤的相关描述。即，模型拆分步骤可由模型拆分模块640执行。

在一些实施例中，模型分发模块650可以用于将两个以上用户节点的用户模型分别发送给各用户节点。

关于模型分发模块650的具体实施方式，可以参考模型分发步骤的相关描述。即，模型分发步骤可由模型分发模块650执行。

在一些实施例中，模型训练系统还可以包括加密模块。在一些实施例中，加密模块可以用于在模型分发模块将所述两个以上用户节点的用户模型分别发送给各用户节点之前，加密各用户模型。

图7为根据本说明书一些实施例所示的分布式预测系统的示例性框图。该系统700对应于预测节点。两个以上用户节点分别保存有各自的用户模型，各用户模型均对应于预测模型的一部分。在一些实施例中，该系统700可以包括预测请求发送模块710、本地预测结果接收模块720、预测模块730。

在一些实施例中，预测请求发送模块710可以用于向一个或多个用户节点发送针对待预测对象的标识信息的预测请求。关于预测请求发送模块710的具体实施方式，可以参考预测请求发送步骤的相关描述。即预测请求发送步骤可由预测请求发送模块710执行。

在一些实施例中，本地预测结果接收模块720可以用于接收一个或多个用户节点的本地预测结果，该本地预测结果至少基于对应用户节点的用户模型和针对待预测对象的标识信息的特征数据得到。

关于本地预测结果接收模块720的具体实施方式，可以参考本地预测结果接收步骤的相关描述。即，本地预测结果接收步骤可由本地预测结果接收模块720执行。

在一些实施例中，预测模块730可以用于基于一个或多个用户节点的本地预测结果，得到针对待预测对象的标识信息的预测结果。在一些实施例中，预测模块730可以进一步用于基于两个以上用户节点的本地预测结果，得到预测结果。

关于预测模块730的具体实施方式，可以参考预测步骤的相关描述。即预测步骤可由预测模块730执行。

在一些实施例中，模型可以包括线性回归模型、决策树以及神经网络中的至少一种。

图8为根据本说明书一些实施例所示的分布式预测系统的示例性框图。该系统800对应于两个以上用户节点中的某一用户节点。两个以上用户节点分别保存有各自的用户模型，各用户模型均对应于预测模型的一部分。在一些实施例中，该系统800可以包括预测请求接收模块810、本地预测模块820、本地预测结果返回模块830。

在一些实施例中，预测请求接收模块810可以用于接收预测节点发送的针对待预测对象的标识信息的预测请求，该预测节点可以包括两个以上用户节点之一或两个以上用户节点之外的节点。

关于预测请求接收模块810的具体实施方式，可以参考预测请求接收步骤的相关描述。即，预测请求接收步骤可由预测请求接收模块810执行。

在一些实施例中，本地预测模块820可以用于基于待预测对象标识信息从本地获取特征数据，至少基于用户模型和所述特征数据，得到本地预测结果。在一些实施例中，本地预测模块820可以进一步用于基于用户模型、特征数据以及来自其他一个或多个用户节点的预测中间结果，获得本地预测结果。

关于本地预测模块820的具体实施方式，可以参考本地预测步骤的相关描述。即，本地预测步骤可由本地预测模块820执行。

在一些实施例中，本地预测结果返回模块830可以用于将本地预测结果返回给预测节点。

关于本地预测结果返回模块830的具体实施方式，可以参考本地预测结果返回步骤的相关描述。即，本地预测结果返回步骤可由本地预测结果返回模块830执行。

应当理解，图6～8所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于系统及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，在一些实施例中，图6中披露的解密模块620和训练模块630可以是一个系统中的不同模块，也可以是一个模块实现这两个模块的功能。又如，在一些实施例中，图8中披露的本地预测模块820可以是一个模块，也可以分解成本地特征数据获取模块和本地预测结果获取模块，其中，本地特征数据获取模块用于基于待预测对象标识信息从本地获取特征数据，本地预测结果获取模块用于至少基于用户模型和所述特征数据，得到本地预测结果。诸如此类的变形，均在本说明书的保护范围之内。

本说明书实施例可能带来的有益效果包括但不限于：(1)由具备可信执行环境的中心节点进行集中式的模型训练，不仅能保护各方样本数据的隐私，还能保证较高的训练速度；(2)各用户节点分别在本地进行预测(即分布式预测)，无需将待预测对象的本地特征数据对外传输，能够保护各方数据隐私。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书实施例的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书实施例进行各种修改、改进和修正。该类修改、改进和修正在本说明书实施例中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书实施例的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书实施例的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书实施例的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书实施例各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本说明书实施例所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书实施例流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书实施例披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书实施例对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本申请权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书实施例的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种分布式预测方法，其中，由预测节点执行，所述预测节点为两个以上用户节点之一，或是所述两个以上用户节点以外的节点且与所述两个以上用户节点通信连接，所述两个以上用户节点分别保存有各自的用户模型，各用户模型均对应于预测模型的一部分；所述方法包括：

向一个或多个用户节点发送针对待预测对象的标识信息的预测请求；

接收一个或多个用户节点的本地预测结果，所述本地预测结果至少基于对应用户节点的用户模型和针对待预测对象的标识信息的特征数据得到；

基于一个或多个用户节点的本地预测结果，得到针对待预测对象的标识信息的预测结果。

2.根据权利要求1所述的方法，其中，所述基于所述至少一个用户节点的本地预测结果，得到针对待预测对象的标识信息的预测结果，包括：

基于两个以上用户节点的本地预测结果，得到所述预测结果。

3.根据权利要求1所述的方法，其中，所述模型包括以下中的至少一种：线性回归模型、决策树以及神经网络。

4.一种分布式预测系统，其中，所述系统对应于预测节点，所述预测节点为两个以上用户节点之一，或是所述两个以上用户节点以外的节点且与所述两个以上用户节点通信连接，所述两个以上用户节点分别保存有各自的用户模型，各用户模型均对应于预测模型的一部分；所述系统包括：

预测请求发送模块，用于向一个或多个用户节点发送针对待预测对象的标识信息的预测请求；

本地预测结果接收模块，用于接收一个或多个用户节点的本地预测结果，所述本地预测结果至少基于对应用户节点的用户模型和针对待预测对象的标识信息的特征数据得到；

预测模块，用于基于一个或多个用户节点的本地预测结果，得到针对待预测对象的标识信息的预测结果。

5.根据权利要求4所述的分布式预测系统，其中，所述预测模块进一步用于：

6.根据权利要求4所述的分布式预测系统，其中，所述模型包括以下中的至少一种：线性回归模型、决策树以及神经网络。

7.一种分布式预测装置，其中，包括至少一个处理器和至少一个存储设备，所述存储设备用于存储指令，当至少一个处理器执行指令时，实现如权利要求1～3中任一项所述的方法。

8.一种分布式预测方法，其中，由两个以上用户节点中的某一用户节点执行，所述两个以上用户节点保存有各自的用户模型，各用户模型对应预测模型的一部分；所述方法包括：

接收预测节点发送的针对待预测对象的标识信息的预测请求，所述预测节点包括两个以上用户节点之一或两个以上用户节点之外的节点；

基于待预测对象标识信息从本地获取特征数据；

至少基于用户模型和所述特征数据，得到本地预测结果；

将所述本地预测结果返回给所述预测节点。

9.根据权利要求8所述的方法，其中，所述至少基于用户模型和所述特征数据，得到本地预测结果，包括：

基于用户模型、特征数据以及来自其他一个或多个用户节点的预测中间结果，获得所述本地预测结果。

10.根据权利要求8所述的方法，其中，所述模型包括以下中的至少一种：线性回归模型、决策树以及神经网络。

11.一种分布式预测系统，其中，所述方法对应于两个以上用户节点中的某一用户节点，所述两个以上用户节点保存有各自的用户模型，各用户模型对应预测模型的一部分；所述系统包括：

预测请求接收模块，用于接收预测节点发送的针对待预测对象的标识信息的预测请求，所述预测节点包括两个以上用户节点之一或两个以上用户节点之外的节点；

本地预测模块，用于基于待预测对象标识信息从本地获取特征数据，至少基于用户模型和所述特征数据，得到本地预测结果；

本地预测结果返回模块，用于将所述本地预测结果返回给所述预测节点。

12.根据权利要求11所述的系统，其中，所述本地预测模块进一步用于：

13.根据权利要求11所述的系统，其中，所述模型包括以下中的至少一种：线性回归模型、决策树以及神经网络。

14.一种分布式预测装置，其中，包括至少一个处理器和至少一个存储设备，所述存储设备用于存储指令，当至少一个处理器执行指令时，实现如权利要求8～10中任一项所述的方法。