CN114207637A

CN114207637A - 具有特征混淆的机器学习

Info

Publication number: CN114207637A
Application number: CN202080056514.2A
Authority: CN
Inventors: S·E·布拉德绍; S·古纳塞克拉安; S·S·艾勒特; A·D·艾卡尔; K·M·丘尔维兹
Original assignee: Micron Technology Inc
Current assignee: Micron Technology Inc
Priority date: 2019-08-20
Filing date: 2020-08-13
Publication date: 2022-03-18
Also published as: US20210056405A1; JP2022544929A; US11636334B2; KR20220035226A; EP4018391A1; WO2021034602A1; EP4018391A4

Abstract

一种具有多个装置的系统，所述装置可托管人工神经网络(ANN)的不同版本。在所述系统中，可混淆所述ANN的输入，以在第一计算装置处集中训练所述ANN的主版本。所述系统中的第二计算装置包含存储器，所述存储器存储所述ANN的本地版本及用于输入到所述本地版本中的用户数据。所述第二计算装置包含处理器，所述处理器从所述用户数据提取特征及混淆所述所提取特征以生成混淆的用户数据。所述第二装置包含传输所述混淆的用户数据的收发器。所述第一计算装置包含：存储器，其存储所述ANN的所述主版本；收发器，其接收从所述第二计算装置传输的混淆的用户数据；及处理器，其使用机器学习基于所述所接收的混淆用户数据训练所述主版本。

Description

具有特征混淆的机器学习

相关申请

本申请要求2019年8月20日提交的标题为“具有特征混淆的机器学习(MACHINELEARNING WITH FEATURE OBFUSCATION)”的美国专利申请序列号16/545,837的优先级，所述申请的全部公开内容特此通过引用并入本文中。

技术领域

本文中所公开的至少一些实施例大体上涉及具有数据隐私保护的分布式机器学习，且更具体地说，涉及具有数据隐私保护的分布式人工神经网络。

背景技术

人工神经网络(ANN)是可学习执行任务而无需通过用于特定操作的指令进行编程的计算系统。ANN基于一组连接的节点或人工神经元，这有点类似于生物大脑中的神经元。节点之间的每个连接都可将信号从一个人工神经元传输到另一个，并且接收信号的人工神经元可对其进行处理。

通常，ANN由在人工神经元之间的连接(或边缘)处的作为实数的信号实施，且每个人工神经元的输出由其输入的总和的非线性函数计算。人工神经元及边缘通常具有随ANN或ANN的训练的学习进行而调整的权重。权重增加或减小在边缘处的信号的强度。人工神经元还可具有阈值，其中仅在聚集信号超过阈值的情况下从人工神经元发送信号。通常，人工神经元分组为多个层(例如，输入层、一或多个中间层及输出层)，且每一层可对到所述层的输入提供不同变换。

随着复杂的人工神经网络(例如，深神经网络)的使用增加及增加此类网络的有效性的需要，通过使用多个处理器及/或分布式计算分布人工神经网络的训练已经满足复杂性及挑战。然而，通过使用多个处理器或分布计算，存在数据隐私问题(例如，数据可靠的问题)以及网络性能问题(例如，网络性能限制神经网络满足应用程序的性能需求的能力的问题)。

附图说明

根据下文提供的具体实施方式及本公开的各种实施例的附图将更加充分地理解本公开。

图1及2说明根据本公开的一些实施例的呈实施混淆用于集中训练ANN的主版本的输入的配置的实例计算机网络100。

图3及4说明根据本公开的一些实施例的由可实施混淆用于集中训练ANN的主版本的输入的计算机网络100的实例部分执行的实例方法。

图5说明根据本公开的一些实施例的可托管ANN的主版本的实例计算装置或可托管ANN的另一版本的实例计算装置。

具体实施方式

本公开的至少一些方面涉及具有数据隐私保护的分布式机器学习，且更具体地说，涉及具有数据隐私保护的分布式人工神经网络。而且，本公开的至少一些方面涉及计算机网络，其可经配置以实施混淆用于集中训练人工神经网络(ANN)的主版本的输入。

本文公开一种可具有可托管ANN的不同版本的多个计算装置的系统。系统的每个计算装置可托管其自身的ANN版本。举例来说，第一装置可托管ANN的主版本，且第二装置及系统的其它装置可托管ANN的本地版本。

在系统中，可混淆用于集中训练ANN的主版本的输入。混淆可在托管ANN的不同版本的多个计算装置中的任一个(例如，托管ANN的本地版本的装置)处发生。例如，系统中的第二计算装置可包含存储器，所述存储器经配置以存储ANN的本地版本及用于输入到ANN的本地版本中的用户数据。第二计算装置还可包含处理器，所述处理器经配置以从用户数据提取特征及混淆所提取特征以生成混淆的用户数据。第二装置还可包含收发器，所述收发器经配置以将混淆的用户数据传输到(例如)第一计算装置。第一计算装置可包含：存储器，其经配置以存储ANN的主版本；收发器，其经配置以接收从第二计算装置或托管ANN的本地版本的系统的另一装置传输的混淆的用户数据；及处理器，其经配置以使用机器学习基于所接收的混淆用户数据训练主版本。

由于用户数据在用户数据源处混淆，因此保护用户数据免受混淆的用户数据的接收者侵入。当数据源(例如，第二计算装置)将数据传输到托管ANN的主版本的装置(例如，第一计算装置)时，混淆所述所传输数据且因此在一定程度上发生数据的隐私保护。然而，没有将混淆的用户数据混淆到不再用作用于通过机器学习训练ANN的主版本的输入的程度。当第一计算装置是云计算环境或云计算环境的一部分并且数据隐私是一个问题时，这尤其有用。

然而，应理解，在所公开系统中将输入数据混淆到某一程度，以训练ANN的主版本；因此，训练的准确性可能会受到轻微影响。这是系统中的一个实例折衷。在一些实施例中，可选择或修改混淆程度以调整训练ANN的主版本的准确性水平与用作训练输入的用户数据的隐私保护水平。

本文中所描述的数据混淆可防止另一方访问及解释由用户装置托管的用户数据。举例来说，混淆可防止云计算环境或集中式计算机或托管ANN的主版本的对等计算机访问及随后解释存储在用户装置上的敏感用户数据。但是，混淆仍然允许使用混淆的用户数据作为训练ANN的输入。

混淆可通过不同方式完成。本文进一步详细地描述这些方法中的一些。举例来说，数据的混淆可经由对数据的加扰或加密算法进行。应理解，本文所描述的混淆技术允许彼此靠近(在一定程度上)定向的数据点在混淆之后保持彼此靠近。否则，混淆的输入与输出之间的相关性将阻止ANN可训练以作出可行的预测。因此，举例来说，数据加密的散列算法将不是对系统进行数据混淆的有效方法，因为散列放大原始数据点之间的差异。将原始数据点的集群映射到不相关的散列数据点。因此，散列无法用于系统中的特征混淆。但是，可使用许多其它混淆方法，例如替换、改组、数值方差方法、加扰、掩蔽字符、不使用散列的一些其它类型的加密，及删除特定字段中的一些值。

在一些实施例中，可通过组合不同的输入集合及/或通过随机化输入来完成混淆。举例来说，假设X是输入且Y是将由ANN预测的预期或期望输出。假设A表示ANN的函数。由ANN作出的预测可为Yp＝A(X)。通过监督机器学习的ANN训练可表示为调整A以最小化Y与Yp之间的差(例如，min|A(X)-Y|)。当用户装置具有两组输入{X1,Y1}及{X2,Y2}时，用户装置可通过组合集合并请求托管ANN的主版本的计算机在{Xf,Yf}上训练主版本来混淆输入，其中Xf＝f(X1,X2)及Yf＝f(Y1,Y2)。举例来说，Xf＝X1-X2；及Yf＝Y1-Y2；或Xf＝W1 X1+W2 X2；及Yf＝W1 Y1+W2 Y2，其中W1及W2是可经自定义以调整混淆程度的权重。

在一些实施例中，当输入是Xf＝f(X1,X2)时，预期输出可能不一定是Yf＝f(Y1,Y2)。因此，Yf是估计值。托管ANN的主版本的计算机无法从Xf猜测或计算X1及/或X2，其由托管ANN的本地版本的其它计算装置中的一个托管。因此，不会将用户装置上实际上经历的内容透露给托管ANN的主版本的计算机。Yf是良好的估计值。服务器可通过对{Xf,Yf}训练来改进A。

而且，可将最后提及的混淆方案扩展到超过两组输入的组合(例如，{X1,Y1}、{X2,Y2}、{X3,Y3}、…)。当调整权重，使得Xf靠近输入集(例如，X1)中的一个时，Yf预期为从Xf实际预期的内容的良好估计值。当Xf靠近X1移动时，估计值Yf的准确性增加，但是混淆效果会降低(因为从Xf猜测X1变得更容易)。因此，在一些实施例中，权重可经配置为混淆偏好以平衡对准确性及隐私的需求。

而且，在一些实施例中，X2可为随机输入。用户装置可通过使用当前ANN预测Y2＝A(X2)来估计Y2。这可以牺牲准确性为代价进一步提高混淆的有效性。

在一些实施例中，托管ANN的本地版本的装置中的一个可将存储在其存储器中的用户数据输入到ANN的本地版本中以使用且训练ANN的本地版本。举例来说，这可在用户的移动装置中发生。可包含敏感或私密信息的用户数据在与ANN一起使用时不会与其它装置共享。换句话说，ANN的机器学习可在本地且私密地发生，因为用户数据不与其它装置共享且在用户的装置中受到保护。然而，当用户数据与其它装置共享以训练ANN的其它版本(例如，主版本)时，用户数据可在共享之前被混淆。

在一些实施例中，托管ANN的主版本的一或多个装置可为云计算环境的一部分。并且，在此类实施例中，通过仅在用户的装置中混淆用户数据，用户数据可在云的装置中保持私密。但是，云仍然可从混淆数据中受益，因为混淆数据可用于在云中训练ANN的主版本。不会将混淆的用户数据发送到云以保护用户的隐私。然而，未掩蔽的用户数据可用于在用户的装置上在本地训练ANN的本地版本。举例来说，用户数据可仅用于在用户的移动装置(例如，用户的智能电话、平板计算机等)上训练ANN的本地版本。当用户数据在系统中共享以训练ANN的其它版本时，它总是被系统混淆。

在一些实施例中，可将ANN的主版本下载到用户的个别装置以更新及改进存储在装置上的ANN的本地版本。这可提高ANN的本地存储版本在ANN的区域中的准确性，所述ANN的区域可能尚未通过单独在本地进行训练而改进。而且，可针对用户的ANN的定制版本在本地进一步训练ANN的所下载主版本。这样做的益处是当ANN在用户装置上进行本地训练时，不需要混淆数据输入。

一般来说，在可经配置以实施混淆用于集中训练ANN的主版本的输入的计算机网络中，托管ANN的不同训练版本的装置可执行本地训练以避免用户数据的传输，除非在传输之前混淆用户数据。因为仅混淆的用户数据可通过通信耦合网络装置的网络传输。中央装置、服务器或云随后可经由网络接收混淆的用户数据且使用此数据训练ANN的主版本，而不损害数据隐私。由于中央装置、服务器或云不具有原始用户数据(例如，ANN的本地版本的输入)，因此可避免用户数据暴露于中央装置、服务器或云及网络。还应理解，在一些实施例中，甚至可针对输入数据使用用户数据的混淆来训练ANN的本地版本以增强对用户装置的隐私保护。

可经配置以实施混淆用于集中训练ANN的主版本的输入的计算机网络可保护用户隐私，同时仍保持使用不同用户的数据训练ANN的益处。然而，在一些实施例中，可将较不敏感数据发送到中央装置、服务器或云，而不混淆此数据。并且，可在数据的混淆之后发送敏感数据。

在计算机网络中更新的ANN可呈更新神经元属性及/或连接性的形式。可通过使用兼容的机器学习技术进行训练来更改ANN的版本，其中输入是混淆的用户数据或至少包含混淆的用户数据。然而，不会将混淆的用户数据混淆超过以下程度：使用混淆输入更新神经元属性及/或连接性对ANN在做出预期预测方面的有效性有害。

图1及2说明根据本公开的一些实施例的呈实施混淆用于集中训练ANN的主版本的输入的配置的计算机网络100。

在图1中，展示包含一组计算装置102的计算机网络100。一组计算装置102可包含能够托管且执行ANN的版本的任何类型的计算装置中的一或多个，例如能够托管且执行ANN的版本的任何类型的移动装置、个人计算机或智能装置(例如，参见第二计算装置104a及第N计算装置104b)。一组计算装置102中的每个计算装置可托管且执行ANN的本地版本(例如，参见具有ANN 106a及106b的相应本地版本的第二计算装置104a及第N计算装置104b)。

还展示包含第一计算装置108的计算机网络100。第一计算装置108可为通过网络分布(例如，通过云计算环境的网络分布)的单个计算装置或多个计算装置。由第一计算装置108实施的单个计算装置或多个计算装置可包含ANN 110的主版本。取决于计算机网络100的实施方案，第一计算装置108可为中央装置、服务器或云或对等计算网络中的选定装置。

换句话说，图1说明包含具有联网计算装置(例如，参见计算装置104a及104b)的一组计算装置102的计算机网络100，其中每个联网计算装置存储及使用ANN的单独本地版本(例如，参见ANN 106a及106b的本地版本)。计算机网络100还包含第一计算装置108(其可为云或另一类型的分布式计算网络的一部分)。第一计算装置108包含ANN 110的主版本。

ANN的本地版本(例如，参见ANN 106a及106b的本地版本)可与用户数据(例如，参见用户数据120a及120b)一起使用。而且，ANN的本地版本(例如，参见ANN 106a及106b的本地版本)可与混淆的用户数据(例如，参见混淆124a及124b，以及混淆的用户数据130a及130b)一起使用。而且，用户数据(无论是否混淆)可用于训练ANN的本地版本(例如，参见所提取特征122a及122b)。

混淆的用户数据还可由ANN 110的主版本(例如，参见将混淆的用户数据130a及130b发送到第一计算装置108中的机器学习112)例如用于训练主版本。随后可通过一组计算装置102中的一或多个装置下载ANN的更新后的主版本(例如，参见下载132a及132b)。所下载的主版本可代替ANN的本地版本或与由一组计算装置102中的装置中的一个托管的ANN的本地版本组合。

ANN的主版本(例如，参见ANN 110的主版本)可通过机器学习(例如，参见机器学习112)由所接收的混淆数据(例如，参见混淆的用户数据130a及130b)反复地训练，使得主版本通用并且随着时间的推移变得越来越准确。可从具有ANN的不同及本地版本(例如，参见ANN 106a及106b的本地版本)及不同的所存储用户数据(例如，参见用户数据120a及120b)的不同用户的装置接收混淆数据。可将ANN的主版本(例如，参见ANN 110的主版本)下载(例如，参见下载132a及132b)到个别用户装置(例如，参见计算装置104a及104b)以更新用户装置的能力，以从可能尚未在本地训练的区域中的进步获益。而且，可针对用户的ANN的定制版本在本地进一步训练所下载ANN。

图中未示，计算机网络100包含通信网络，所述通信网络包含广域网(WAN)、局域网(LAN)、内联网、外联网、因特网，及/或其任何组合。通信网络可将一组计算装置102中的装置彼此通信地耦合且与计算机网络100的其它装置(例如，与第一计算装置108)通信地耦合。可通过计算机网络100的通信网络传送或传输本文中所提及的ANN的主版本的所发送的混淆的用户数据及下载(例如，参见混淆的用户数据130a及130b，及下载132a及132b)。

在一些实施例中，系统(例如，计算机网络100)包含第二计算装置(例如，计算装置104a或104b)，其包含经配置以存储ANN的本地版本(例如，ANN 106a或106b的本地版本)的存储器(例如，图5中展示的主存储器508及/或存储系统512)。在此类实施例中，第二计算装置包含处理装置(例如，图5中所示的处理器506)，其经配置以训练ANN的本地版本。处理装置还经配置以从用户数据提取多个特征(例如，参见所提取特征122a及122b，及用户数据120a及120b)，并且混淆所提取的多个特征以生成混淆的用户数据(例如，参见混淆124a及124b，及混淆的用户数据130a及130b)。而且，第二计算装置可包含收发器(例如，网络接口510)，其经配置以传输混淆的用户数据(例如，参见混淆的用户数据130a及130b)。

在此类实施例中，系统(例如，计算机网络100)还包含第一计算装置(例如，第一计算装置108)，其包含经配置以存储ANN的主版本(例如，ANN 110的主版本)的存储器(例如，图5中所示的主存储器508及/或存储系统512)。第一计算装置还可包含收发器(例如，网络接口510)，其经配置以接收从第二计算装置传输的混淆的用户数据。而且，第一计算装置还可包含处理装置(例如，图5中所示的处理器506)，其经配置以使用机器学习(例如，参见机器学习112)基于所接收的混淆用户数据训练ANN的主版本。

第二计算装置可为托管ANN的相应不同版本及相应的不同用户数据集的多个计算机中的一个(例如，参见计算装置102及其计算装置104a及104b的集合)。第二计算装置可从在计算机上托管的相应用户数据集提取多个特征(例如，参见所提取特征122a及122b)。第二计算装置可混淆所提取的多个特征以生成混淆的用户数据(例如，参见混淆124a及124b)。第二计算装置还可将混淆的用户数据传输到托管ANN的主版本的选定计算机(例如，参见混淆的用户数据130a及130b)。选定计算机可使用机器学习基于混淆的用户数据训练ANN的主版本(例如，参见第一计算装置108及其机器学习112)。

一般来说，数据混淆(本文中还称为混淆)是通过对数据的修改伪装数据的过程。混淆可应用于存储在用户装置上的用户数据(例如，参见用户数据120a及120b)，例如应用于用户数据的一或多个数据字段以保护分类为敏感的数据，例如个人可识别数据、个人敏感数据或商业敏感数据。然而，混淆数据可保持可用于训练ANN的版本(例如，参见ANN 110的主版本)，使得由通过混淆数据训练ANN产生的结果与预期的一样。在一些实施例中，混淆用户数据看起来未经修改。

所提取的多个特征的混淆可包含使用一或多个算术运算组合所提取的多个特征中的不同输入集合以组合不同集合(例如，参见混淆124a及124b以及图3中所说明的步骤312)。特征的提取(例如，参见所提取特征122a及122b)可包含随机选择不同输入集合以组合不同集合。或者，特征的提取可包含有意地选择不同输入集合以组合不同集合。

并且，所提取多个特征的混淆(例如，参见混淆124a及124b)可包含使用替换(例如，参见图3中所说明的步骤314)。替换可包含用与所提取多个特征中的数据相关的数据替换所提取多个特征中的数据。

所提取多个特征的混淆(例如，参见混淆124a及124b)可包含使用改组(例如，参见图3中所说明的步骤316)。改组可包含重新布置所提取多个特征中的数据的次序或位置。

所提取多个特征的混淆(例如，参见混淆124a及124b)可包含数值方差方法(例如，参见图3中所说明的步骤318)。数值方差方法可包含将所提取多个特征中的数据内的值变化到预定范围。举例来说，数值方差方法可包含将所提取多个特征中的数据内的值改变最多加或减每个值的某个百分比或百分比范围，例如改变最多加或减10％。

所提取多个特征的混淆(例如，参见混淆124a及124b)可包含使用数据加密(例如，参见图3中所说明的步骤320)。

应理解，本文所描述的混淆技术允许彼此靠近(在一定程度上)定向的数据点在混淆之后保持彼此靠近。否则，混淆的输入与输出之间的相关性将阻止ANN可训练以作出可行的预测。因此，举例来说，加密的散列算法将不是对系统进行数据混淆的有效方法，因为散列放大原始数据点之间的差异。将原始数据点的集群映射到不相关的散列数据点。因此，散列无法用于系统中的特征混淆。

所提取多个特征的混淆(例如，参见混淆124a及124b)还可包含消除或删除所提取多个特征中的数据的至少一部分(例如，参见图3中所说明的步骤322)。举例来说，混淆可包含随机地消除或删除所提取多个特征中的数据的至少一部分。或者，可有意地消除或删除所提取多个特征中的数据的至少一部分。

所提取多个特征的混淆(例如，参见混淆124a及124b)可包含使用掩蔽或字符加扰方法(例如，参见图3中所说明的步骤324)。掩蔽或字符加扰方法可包含掩蔽或字符加扰所提取多个特征中的数据的一部分。

第一计算装置(例如，参见第一计算装置108)可为多个计算机(例如云计算环境中的计算机)或单独计算机中的一个。在一些实施例中，第一计算装置可为或包含云计算环境(例如，参见图2)。第一计算装置可托管ANN的主版本(例如，参见ANN 110的主版本)。第一计算装置还可从第二计算机接收混淆的用户数据(例如，参见混淆的用户数据130a及130b)。

混淆的用户数据可包含例如从第二计算机中的混淆(例如，参见混淆124a及124b)获得的多个混淆特征。第二计算机可从本地存储在第二计算机上的用户数据提取多个特征(例如，参见所提取特征122a及122b)，并且在将混淆的用户数据传输到第一计算机之前(例如，参见将混淆的用户数据130a及130b传输到第一计算装置108)混淆所提取多个特征以生成多个混淆特征。第二装置可通过使用一或多个算术运算组合不同输入集合以组合不同集合来混淆所提取的多个特征。所提取的多个特征可包含标记为在第二计算装置的数据存储系统中混淆的用户数据的部分。而且，第二装置可使用替换、改组、数值方差方法、加密或它们的组合来混淆所提取的多个特征。此外，第二装置可使用消除或删除所提取多个特征的至少一部分(例如，随机地或有意地)或使用掩蔽或字符加热方法来混淆所提取的多个特征。

第一计算机还可使用机器学习(例如，参见机器学习112)基于所接收的混淆的用户数据训练ANN的主版本(例如，参见ANN 110的主版本)。

图2与图1有些类似，因为它展示呈实施混淆用于集中训练ANN的主版本的输入的配置的计算机网络100。然而，与图1不同，图2具体来说描绘包含托管ANN的相应本地版本(例如，参见ANN 106a及106b的本地版本)的移动装置(例如，参见移动装置105a及105b)的一组计算装置102。而且，在图2中展示云计算环境(例如，云计算环境109)正托管ANN的主版本(例如，参见ANN 110的主版本)。换句话说，图2是图1中所展示的计算机网络的更特定实施方案，其中第一装置108是云计算环境109或是云计算环境109的一部分，且一组计算装置102中的装置具体来说是移动装置(例如，参见移动装置105a及105b)。

图3展示由经配置以混淆用于集中训练ANN的主版本的输入的计算装置(例如，参见计算装置104a及104b以及移动装置105a及105b)执行的方法300，所述计算装置与可托管、执行及训练ANN的主版本的一或多个其它计算装置(例如，参见第一计算装置108及云计算环境109)通信。方法300在步骤302处开始于由多个计算机托管ANN的相应不同版本及相应的不同用户数据集。

在步骤304处，多个计算机中的计算机在提取多个特征之前标记待混淆的用户数据的部分。在一些实施例中，计算机标记用户数据的部分可包含随机地标记部分，使得所标记部分是用户数据的部分的随机采样。在一些其它实施例中，计算机标记用户数据的部分可包含有意地标记部分，使得所标记部分是用户数据的部分的有意采样。

在步骤306处，计算机根据用户数据的所标记部分提取多个特征。所提取的多个特征可包含用户数据的所标记部分。

在步骤308处，计算机混淆所提取的多个特征以生成混淆的用户数据。

并且，在步骤310处，计算机将混淆用户数据传输到托管ANN的主版本的选定计算机。选定计算机可使用机器学习基于混淆的用户数据来训练ANN的主版本。

在步骤312处，可通过使用一或多个算术运算组合所提取的多个特征中的不同输入集合以组合不同集合而发生在步骤308处混淆所提取的多个特征。在一些实施例中，混淆可包含随机地选择不同输入集合以组合不同集合。在一些其它实施例中，混淆可包含有意地选择不同输入集合以组合不同集合。

举例来说，对于训练ANN 110的主版本，假设X是输入(例如，参见所提取特征122a及122b)且Y是将由ANN预测的预期或期望输出。假设A表示ANN 110的主版本的函数。由ANN110的主版本作出的预测可为Yp＝A(X)。通过例如机器学习112的监督机器学习训练ANN110的主版本可表示为调整A以最小化Y与Yp之间的差(例如，min|A(X)-Y|)。当用户装置在用户数据(例如，参见所提取特征122a及122b)中具有两组输入{X1,Y1}及{X2,Y2}时，用户装置(例如，参见计算装置104a及104b)可通过组合集合并请求托管ANN 110的主版本的计算机(例如，参见第一计算装置108)在{Xf,Yf}上训练主版本来混淆输入(例如，参见混淆124a及124b)，其中Xf＝f(X1,X2)及Yf＝f(Y1,Y2)。举例来说，Xf＝X1-X2；及Yf＝Y1-Y2；或Xf＝W1 X1+W2 X2；及Yf＝W1 Y1+W2 Y2，其中W1及W2是可经自定义以调整混淆程度的权重。

在一些实施例中，当输入是Xf＝f(X1,X2)(例如，参见所提取特征122a及122b)时，预期输出可能不一定是Yf＝f(Y1,Y2)。因此，Yf是估计值。托管ANN 110的主版本的计算机(例如，参见第一计算装置108)无法从Xf猜测或计算X1及/或X2，其由托管ANN的本地版本的其它计算装置(例如，参见计算装置104a及104b)中的一个托管。因此，不会将用户装置例如，参见计算装置104a及104b)上实际上经历的内容透露给托管ANN的主版本的计算机(例如，参见第一计算装置108)。然而，Yf是良好估计值，并且托管ANN 110的主版本的计算机可通过在{Xf,Yf}上训练用户数据的混淆版本(例如，参见混淆的用户数据130a及130b)来改进A。

而且，可将最后提及的混淆方案扩展到超过两组输入的组合(例如，{X1,Y1}、{X2,Y2}、{X3,Y3}、…)。换句话说，所提取特征(例如，所提取特征122a及122b)可包含在混淆(例如，参见混淆124a及124b)中组合的多于两组输入。当调整权重，使得Xf靠近混淆(例如，参见混淆124a及124b)中的输入集合(例如，X1)中的一个时，Yf预期为实际上从Xf预期的内容的良好估计值。当Xf靠近X1移动时，估计值Yf的准确性增加，但是混淆效果会降低(因为从Xf猜测X1变得更容易)。因此，在一些实施例中，权重可经配置为混淆偏好以平衡对准确性及隐私的需求。而且，在一些实施例中，X2可为随机输入。用户装置可通过使用当前ANN预测Y2＝A(X2)来估计Y2。这可进一步增加混淆的有效性。

在步骤314处，在步骤308处混淆所提取的多个特征可通过替换发生。并且，替换可包含用与所提取多个特征中的数据相关的数据替换所提取多个特征中的数据。

在步骤314处的替换可应用数据掩蔽并且为混淆的用户数据保留真实的外观及感觉。在步骤314处的替换包含用真实的外观值替换用户数据的所提取特征中的现有值。举例来说，用户数据可包含客户记录、个人可识别信息及其它类型的敏感信息，并且这些信息可分别用例如从查找文件供应的虚假客户记录、个人可识别信息等随机地或有意地替换。举例来说，所述替换可包含用存储在存储器中(例如，查找文件中)的虚假姓名替换用户数据中的姓名。而且，举例来说，可在替换中用虚假社会保障号码代替社会保障号码。

使用替换可维护数据结构及用户数据的字段的格式化，但也可混淆数据以保护用户敏感信息的隐私。替换可应用于用户数据中的各种其它字段，包含电子邮件地址、电话号码、实际邮寄地址、邮政编码及信用卡号以及社会保障号码，及可符合校验和测试(例如，Luhn算法的校验和测试)的其它个人识别号码。

在步骤316处，在步骤308处混淆所提取的多个特征可通过改组发生。而且，改组可包含重新布置所提取多个特征中的数据的次序或位置。

在步骤316处的改组有些类似于替换，但是改组使用来自相同数据源或被混淆的相同数据列的数据进行替换。举例来说，如果数据源或用户数据列在第一行具有用户名，在第二行具有社会保障号码且在第三行具有电子邮件地址，则改组可使用户名转到与第一行不同的行且可将社会保障号码移动到第一行等。正如怀疑的那样，改组的前述实例可能无法有效地混淆此数据以防窥探；然而，在必须隐藏用户数据的所提取特征中的信息次序的情况下，改组可能是不会破坏训练ANN的输入的有效混淆方法。而且，当与替代组合时，改组可更有效。步骤308处的混淆在同时使用替换及改组时可为有效的，并且这两种方法可一起使用而不会对ANN的训练造成太大干扰。

在步骤318处，在步骤308处混淆所提取的多个特征可通过数值方差方法发生。而且，数值方差方法可包含将所提取多个特征中的数据内的值变化到预定范围。举例来说，数值方差方法可包含将所提取多个特征中的数据内的值改变最多加或减每个值的某个百分比或百分比范围，例如改变最多加或减10％。

当混淆性能或金融数据或由数字及数量驱动的其它数据时，步骤318处的数值方差方法可为有用的。举例来说，可使用数值方差方法，并且此混淆的结果仍然可留下有意义的数据供其使用，例如用于训练ANN。举例来说，如果使用此方法对工资表数据进行小部分混淆，则信息的隐私得到维护，但掩蔽数据仍可用于例如通过ANN进行推测。在步骤318处的数值方差方法还可应用于用户数据中的日期以混淆数据。举例来说，如果整个数据集需要保持一定程度的完整性，则应用+/-几天到日期字段的随机数值方差将保留日期分布，但仍会阻止可追溯回到已知实体。

在步骤320处，在步骤308处混淆所提取的多个特征可通过加密发生。在步骤320处的数据加密无法使用如本文所提及的散列算法，因为此方法会破坏用于训练ANN的输入。在步骤320处的加密方法可使用要应用的密钥来基于用户权限查看数据。而且，可在步骤320处使用保持加密的格式，因为此方法可保持掩蔽数据的有效性以用于训练ANN。

在步骤322处，在步骤308处混淆所提取的多个特征可通过消除或删除所提取的多个特征中的数据的至少一部分发生。举例来说，混淆可包含随机地消除或删除所提取多个特征中的数据的至少一部分。或者，可有意地消除或删除所提取多个特征中的数据的至少一部分。

在步骤322处掩蔽的形式是通过简单地将空值应用于特定字段来进行混淆的简单方法。空值方法可用于防止所提取特征中数据元素的可见性，并且在一些实施方案中，可能会在不希望的程度上破坏ANN的训练。在一些情况下，在步骤322处的掩蔽可用于训练ANN且不会干扰训练ANN。

在步骤324处，在步骤308处混淆所提取的多个特征可通过掩蔽或字符加扰方法发生。掩蔽或字符加扰方法可包含掩蔽或字符加扰所提取多个特征中的数据的一部分。

在步骤324处的屏蔽或字符加扰方法也是防止查看敏感信息的简单方法；然而，它可有效地保护隐私并保留用户数据的结构及格式化，这可有助于保持其在训练ANN时的有用性。当应用于信用卡数据或用户数据中的其它数字标识数据时，屏蔽或字符加扰可能有用。举例来说，对卡的最后五位数字为XXXX XXXXXX 53495的账单参考可能是完整信用卡号混淆的结果。一旦数据从用户装置传输，第三方可仅看到卡号的最后五位数字，但此数据以及用于训练ANN的其它有用数据仍然完好无损。

图4展示由经配置以托管及执行ANN的主版本(例如，分别参见图1及2中所描绘的第一计算装置108及云计算环境109)的计算装置，及经配置以托管及执行ANN的其它版本的计算装置(例如，参见计算装置104a及104b或移动装置105a及105b)执行的方法400。方法400可包含方法300的操作。

方法400在步骤402处开始于通过托管ANN的其它版本中的一个的第二计算装置(例如，参见计算装置104a及104b或移动装置105a及105b)从存储在第二计算装置上的用户数据提取多个特征。

在步骤404处，第二计算装置(例如，参见计算装置104a及104b或移动装置105a及105b)混淆来自用户数据的多个特征。在步骤404处的混淆可包含图3中所说明的步骤308及312到324中的一或多个。

在步骤406处，第二计算装置(例如，参见计算装置104a及104b或移动装置105a及105b)传输具有混淆特征的混淆用户数据。

在步骤408处，第一计算装置(例如，参见第一计算装置108及云计算环境109)接收混淆的用户数据。

在步骤410处，第一计算装置使用机器学习基于所接收的混淆用户数据训练ANN的主版本。在步骤410处进行的训练包含更新ANN的主版本。在步骤410处训练ANN的主版本以及训练ANN的其它版本可呈更新ANN的神经元属性和/或连接性的形式。

在步骤412处，第一计算装置传输从步骤410处的训练更新的ANN的更新后主版本。

在步骤414处，第二计算装置接收ANN的更新后主版本。在ANN的更新后主版本的情况下，第二计算装置可根据ANN的更新后主版本更新ANN的其本地版本。举例来说，第二计算装置可用ANN的所接收到的更新后主版本替代ANN的其本地版本。

未在图4中展示，可通过将更新后主版本与用户装置中的ANN的当前本地版本组合来训练或重新训练ANN的本地版本。而且，在训练或重新训练中的组合可包含根据ANN的更新后主版本及ANN的“当前”或先前本地版本的平均对应属性更新ANN的本地版本的神经元属性。

出于图4的步骤402到414及本公开的目的，应理解，在步骤406处从用户装置(例如，参见图2中所示的计算装置104a及104b或移动装置105a及105b)传输到托管ANN的主版本的中央装置、服务器或云(例如，参见第一计算装置108或云计算环境109)的混淆的用户数据(例如，参见混淆的用户数据130a及30b)可呈在步骤402中提取的全部所提取特征或在步骤402中提取的所提取特征的部分在步骤404处混淆的形式。而且，在一些实施例中，托管ANN的主版本的中央装置、服务器或云可限制用户装置可在步骤402处提取并且在步骤404处混淆的内容，以调整由混淆提供的隐私保护以及另一方面使用混淆的用户数据作为训练的输入来调整ANN版本(例如，主版本)的训练准确性。

而且，应理解，对等网络可实施方法400。在此类实例中，第一选定装置托管ANN的主版本以用于处理，且对等网络的其它装置托管ANN的其它版本(例如，本地版本)以用于处理。在此类实例中，第一选定装置执行步骤408到412，且对等网络的其它装置执行步骤402到406及414。

关于本文中所描述的方法300、方法400或任何其它方法、过程或操作，在一些实施例中，非暂时性计算机可读存储媒体存储指令，所述指令在由至少一个处理装置(例如，图5中所示的处理器506)执行时使得所述至少一个处理装置执行本文中所描述的方法300、方法400或任何其它方法、过程或操作及/或其任何组合。

图5说明根据本公开的一些实施例的实例计算装置500的实例部分。计算装置500可经由如图5中所示的计算机网络100通信地耦合到其它计算装置。在一些实施例中，计算装置500为第一计算装置108或云计算环境109的一或多个计算装置。在此类实施例中，计算装置500的另一实例一组计算装置102中的计算装置中的一个(例如，参见计算装置104a及104b及移动装置105a及105b)。计算装置500包含至少总线504、处理器506(例如，CPU)、主存储器508、网络接口510及数据存储系统512。总线504通信地耦合处理器506、主存储器508、网络接口510及数据存储系统512。计算装置500包含计算机系统，所述计算机系统包含至少处理器506、主存储器508(例如，只读存储器(ROM)、快闪存储器、例如同步DRAM(SDRAM)或Rambus DRAM(RDRAM)的动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)等)，及数据存储系统512，它们经由总线504(其可包含多个总线)彼此通信。

换句话说，图5是具有计算机系统的实例计算装置500的框图，本公开的实施例可在所述计算机系统中操作。在一些实施例中，计算机系统可包含指令集，用于在被执行时致使机器执行本文所论述的方法中的任何一或多种。在此类实施例中，机器可连接(例如，经由网络接口510联网)到LAN、内联网、外联网及/或互联网中的其它机器。机器可作为对等(或分布式)网络环境(例如，本文中所描述的对等网络)中的对等机器或作为云计算基础设施或环境中的服务器或客户端机器而在客户端-服务器网络环境中的服务器或客户端机器的容量中操作。

处理器506表示一或多个通用处理装置，例如微处理器、中央处理单元等。更特定来说，处理装置可为复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器或实施其它指令集的处理器，或实施指令集的组合的处理器。处理器506还可为一或多个专用处理装置，例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器、存储器中的处理器(PIM)等。处理器506经配置以执行指令以用于执行本文中所论述的操作及步骤。处理器506可进一步包含例如网络接口510的网络接口装置以通过一或多个通信网络通信。

数据存储系统512可包含机器可读存储媒体(也称为计算机可读媒体)，其上存储有体现本文中所描述的任何一或多种方法或功能的一或多个指令集或软件。指令还可由计算机系统在其执行期间完全或至少部分地驻存在主存储器508内及/或处理器506内，主存储器508及处理器506还构成机器可读存储媒体。虽然存储器、处理器及数据存储部分在实例实施例中展示为各自作为单个部分，但每个部分都应被认为包含可存储指令并且执行其相应操作的单个部分或多个部分。术语“机器可读存储媒体”还应被认为包含能够存储或编码供机器执行的指令集合且致使机器执行本公开的方法中的任何一或多种的任何媒体。因此，术语“机器可读存储媒体”应被认为包含但不限于固态存储器、光学媒体及磁性媒体。

一些实施例的对等网络可为节点及对等连接的集合。举例来说，第一计算装置108或一组计算装置102中的计算装置中的一个可为由通过计算机网络100连接的计算装置支持的对等网络的节点。

已在针对计算机存储器内的数据位的操作的算法及符号表示方面呈现先前详细描述的一些部分。这些算法描述及表示是数据处理领域的技术人员用于将其工作的主旨最有效地传达给所属领域的其他技术人员的方式。在本文中，且一般将算法构想为产生所要结果的操作的自洽序列。操作是要求对物理量进行物理操纵的操作。通常(但未必)，这些量采用能够存储、组合、比较及以其它方式操纵的电或磁信号的形式。已经证实，主要出于常用的原因，将这些信号称为位、值、元素、符号、字符、项、编号等等有时是便利的。

然而，应牢记，所有这些及类似术语将与适当物理量相关联，且仅仅为应用于这些量的便利标记。本公开可指操纵及变换计算机系统的寄存器及存储器内的表示为物理(电子)数量的数据为计算机系统存储器或寄存器或其它这类信息存储系统内的类似地表示为物理量的其它数据的计算机系统或类似电子计算装置的动作及过程。

本公开还涉及用于执行本文中的操作的设备。此设备可出于所需目的而专门构造，或其可包含通过存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机。这种计算机程序可存储在计算机可读存储媒体中，例如但不限于任何类型的盘，包含软盘、光盘、CD-ROM及磁性光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡，或适合于存储电子指令的任何类型的媒体，其各自连接到计算机系统总线。

本文中呈现的算法及显示器在本质上并不与任何特定计算机或其它设备相关。各种通用系统可与根据本文中的教示的程序一起使用，或可证明构造用于执行所述方法更加专用的设备是方便的。将如下文描述中所阐述的那样来呈现各种这些系统的结构。另外，未参考任何特定编程语言来描述本公开。应了解，可使用各种编程语言来实施如本文中所描述的本公开的教示内容。

本公开可提供为计算机程序产品或软件，其可包含在其上存储有可用于编程计算机系统(或其它电子装置)以进行根据本公开的过程的指令的机器可读媒体。机器可读媒体包含用于存储呈机器(例如，计算机)可读形式的信息的任何机制。在一些实施例中，机器可读(例如，计算机可读)媒体包含机器(例如，计算机)可读存储媒体，例如只读存储器(“ROM”)、随机存取存储器(“RAM”)、磁盘存储媒体、光学存储媒体、快闪存储器组件等。

在前述说明书中，本公开的实施例已经参照其特定实例实施例进行描述。将显而易见的是，可在不脱离如所附权利要求书中阐述的本公开的实施例的更广精神及范围的情况下对本公开进行各种修改。因此，应在说明性意义上而非限制性意义上看待说明书及图式。

Claims

1.一种方法，其包括：

通过多个计算机托管人工神经网络(ANN)的相应不同版本及相应的不同用户数据集；

通过所述多个计算机中的计算机从所述计算机上托管的所述相应用户数据集提取多个特征；

通过所述计算机混淆所述所提取的多个特征以生成混淆的用户数据；及

通过所述计算机将所述混淆的用户数据传输到托管所述ANN的主版本的选定计算机，其中所述选定计算机使用机器学习基于所述混淆的用户数据训练所述ANN的所述主版本。

2.根据权利要求1所述的方法，其中混淆所述所提取的多个特征包括使用一或多个算术运算组合所述所提取的多个特征中的不同输入集合以组合所述不同集合。

3.根据权利要求2所述的方法，其包括通过所述计算机随机地选择所述不同输入集合，以用于所述不同集合的所述组合。

4.根据权利要求2所述的方法，其包括通过所述计算机有意地选择所述不同输入集合，以用于所述不同集合的所述组合。

5.根据权利要求1所述的方法，其进一步包括：

在提取所述多个特征之前，通过所述计算机标记将混淆的所述相应用户数据集的部分；及

根据所述相应用户数据集的所述所标记部分，通过所述计算机提取所述多个特征，其中所述所提取的多个特征包括所述相应用户数据集的所述所标记部分。

6.根据权利要求5所述的方法，其中标记所述相应用户数据集的部分包括随机地标记所述部分，使得所述所标记部分是所述相应用户数据集的部分的随机采样。

7.根据权利要求5所述的方法，其中标记所述相应用户数据集的部分包括有意地标记所述部分，使得所述所标记部分是所述相应用户数据集的部分的有意采样。

8.根据权利要求1所述的方法，其中混淆所述所提取的多个特征包括使用替换，并且其中所述替换包括用与所述所提取的多个特征中的数据相关的数据替换所述所提取的多个特征中的所述数据。

9.根据权利要求1所述的方法，其中混淆所述所提取的多个特征包括使用改组，并且其中所述改组包括重新布置所述所提取的多个特征中的数据的次序或位置。

10.根据权利要求1所述的方法，其中所述所提取的多个特征包括使用数值方差方法，其中所述数值方差方法包括将所述所提取的多个特征中的数据内的值变化到预定范围。

11.根据权利要求1所述的方法，其中混淆所述所提取的多个特征包括使用数据加密。

12.根据权利要求1所述的方法，其中混淆所述所提取的多个特征包括使用消除或删除所述所提取的多个特征中的数据的至少一部分。

13.根据权利要求1所述的方法，其中混淆所述所提取的多个特征包括使用掩蔽或字符加扰方法，并且其中所述掩蔽或所述字符加扰方法包括掩蔽或字符加扰所述所提取的多个特征中的数据的一部分。

14.一种方法，其包括：

通过第一计算机托管人工神经网络(ANN)的主版本；

通过所述第一计算机从第二计算机接收混淆的用户数据，其中所述混淆的用户数据包括多个混淆特征，并且其中所述第二计算机从本地存储在所述第二计算机上的用户数据提取多个特征，并且在将所述混淆的用户数据传输到所述第一计算机之前，混淆所述所提取的多个特征以生成所述多个混淆特征；及

通过所述第一计算机使用机器学习基于所述所接收的混淆用户数据来训练所述ANN的所述主版本。

15.根据权利要求14所述的方法，其中所述第二装置通过使用一或多个算术运算组合不同输入集合以组合所述不同集合来混淆所述所提取的多个特征。

16.根据权利要求14所述的方法，其中所述所提取的多个特征包括将在所述第二计算装置的数据存储系统中混淆的所标记的所述用户数据的部分。

17.根据权利要求14所述的方法，其中所述第二装置使用替换、改组、数值方差方法、加密或它们的组合来混淆所述所提取的多个特征。

18.根据权利要求14所述的方法，其中所述第二装置使用消除或删除所述所提取的多个特征的至少一部分来混淆所述所提取的多个特征。

19.根据权利要求14所述的方法，其中所述第二装置使用掩蔽方法或字符加扰方法来混淆所述所提取的多个特征。

20.一种系统，其包括

第二计算装置，其包括：

存储器，其经配置以存储人工神经网络(ANN)的本地版本及用于输入到所述ANN的所述本地版本中的用户数据；

处理器，其经配置以从所述用户数据提取多个特征且混淆所述所提取的多个特征以生成混淆的用户数据；及

收发器，其经配置以传输所述混淆的用户数据；及

第一计算装置，其包括：

存储器，其经配置以存储所述ANN的主版本；

收发器，其经配置以接收从所述第二计算装置传输的混淆的用户数据；及

处理器，其经配置以使用机器学习基于所述所接收的混淆用户数据来训练所述ANN的所述主版本。