CN114207637A - 具有特征混淆的机器学习 - Google Patents

具有特征混淆的机器学习 Download PDF

Info

Publication number
CN114207637A
CN114207637A CN202080056514.2A CN202080056514A CN114207637A CN 114207637 A CN114207637 A CN 114207637A CN 202080056514 A CN202080056514 A CN 202080056514A CN 114207637 A CN114207637 A CN 114207637A
Authority
CN
China
Prior art keywords
features
user data
ann
computer
obfuscated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080056514.2A
Other languages
English (en)
Inventor
S·E·布拉德绍
S·古纳塞克拉安
S·S·艾勒特
A·D·艾卡尔
K·M·丘尔维兹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Micron Technology Inc
Original Assignee
Micron Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Micron Technology Inc filed Critical Micron Technology Inc
Publication of CN114207637A publication Critical patent/CN114207637A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Storage Device Security (AREA)
  • Facsimile Transmission Control (AREA)

Abstract

一种具有多个装置的系统,所述装置可托管人工神经网络(ANN)的不同版本。在所述系统中,可混淆所述ANN的输入,以在第一计算装置处集中训练所述ANN的主版本。所述系统中的第二计算装置包含存储器,所述存储器存储所述ANN的本地版本及用于输入到所述本地版本中的用户数据。所述第二计算装置包含处理器,所述处理器从所述用户数据提取特征及混淆所述所提取特征以生成混淆的用户数据。所述第二装置包含传输所述混淆的用户数据的收发器。所述第一计算装置包含:存储器,其存储所述ANN的所述主版本;收发器,其接收从所述第二计算装置传输的混淆的用户数据;及处理器,其使用机器学习基于所述所接收的混淆用户数据训练所述主版本。

Description

具有特征混淆的机器学习
相关申请
本申请要求2019年8月20日提交的标题为“具有特征混淆的机器学习(MACHINELEARNING WITH FEATURE OBFUSCATION)”的美国专利申请序列号16/545,837的优先级,所述申请的全部公开内容特此通过引用并入本文中。
技术领域
本文中所公开的至少一些实施例大体上涉及具有数据隐私保护的分布式机器学习,且更具体地说,涉及具有数据隐私保护的分布式人工神经网络。
背景技术
人工神经网络(ANN)是可学习执行任务而无需通过用于特定操作的指令进行编程的计算系统。ANN基于一组连接的节点或人工神经元,这有点类似于生物大脑中的神经元。节点之间的每个连接都可将信号从一个人工神经元传输到另一个,并且接收信号的人工神经元可对其进行处理。
通常,ANN由在人工神经元之间的连接(或边缘)处的作为实数的信号实施,且每个人工神经元的输出由其输入的总和的非线性函数计算。人工神经元及边缘通常具有随ANN或ANN的训练的学习进行而调整的权重。权重增加或减小在边缘处的信号的强度。人工神经元还可具有阈值,其中仅在聚集信号超过阈值的情况下从人工神经元发送信号。通常,人工神经元分组为多个层(例如,输入层、一或多个中间层及输出层),且每一层可对到所述层的输入提供不同变换。
随着复杂的人工神经网络(例如,深神经网络)的使用增加及增加此类网络的有效性的需要,通过使用多个处理器及/或分布式计算分布人工神经网络的训练已经满足复杂性及挑战。然而,通过使用多个处理器或分布计算,存在数据隐私问题(例如,数据可靠的问题)以及网络性能问题(例如,网络性能限制神经网络满足应用程序的性能需求的能力的问题)。
附图说明
根据下文提供的具体实施方式及本公开的各种实施例的附图将更加充分地理解本公开。
图1及2说明根据本公开的一些实施例的呈实施混淆用于集中训练ANN的主版本的输入的配置的实例计算机网络100。
图3及4说明根据本公开的一些实施例的由可实施混淆用于集中训练ANN的主版本的输入的计算机网络100的实例部分执行的实例方法。
图5说明根据本公开的一些实施例的可托管ANN的主版本的实例计算装置或可托管ANN的另一版本的实例计算装置。
具体实施方式
本公开的至少一些方面涉及具有数据隐私保护的分布式机器学习,且更具体地说,涉及具有数据隐私保护的分布式人工神经网络。而且,本公开的至少一些方面涉及计算机网络,其可经配置以实施混淆用于集中训练人工神经网络(ANN)的主版本的输入。
本文公开一种可具有可托管ANN的不同版本的多个计算装置的系统。系统的每个计算装置可托管其自身的ANN版本。举例来说,第一装置可托管ANN的主版本,且第二装置及系统的其它装置可托管ANN的本地版本。
在系统中,可混淆用于集中训练ANN的主版本的输入。混淆可在托管ANN的不同版本的多个计算装置中的任一个(例如,托管ANN的本地版本的装置)处发生。例如,系统中的第二计算装置可包含存储器,所述存储器经配置以存储ANN的本地版本及用于输入到ANN的本地版本中的用户数据。第二计算装置还可包含处理器,所述处理器经配置以从用户数据提取特征及混淆所提取特征以生成混淆的用户数据。第二装置还可包含收发器,所述收发器经配置以将混淆的用户数据传输到(例如)第一计算装置。第一计算装置可包含:存储器,其经配置以存储ANN的主版本;收发器,其经配置以接收从第二计算装置或托管ANN的本地版本的系统的另一装置传输的混淆的用户数据;及处理器,其经配置以使用机器学习基于所接收的混淆用户数据训练主版本。
由于用户数据在用户数据源处混淆,因此保护用户数据免受混淆的用户数据的接收者侵入。当数据源(例如,第二计算装置)将数据传输到托管ANN的主版本的装置(例如,第一计算装置)时,混淆所述所传输数据且因此在一定程度上发生数据的隐私保护。然而,没有将混淆的用户数据混淆到不再用作用于通过机器学习训练ANN的主版本的输入的程度。当第一计算装置是云计算环境或云计算环境的一部分并且数据隐私是一个问题时,这尤其有用。
然而,应理解,在所公开系统中将输入数据混淆到某一程度,以训练ANN的主版本;因此,训练的准确性可能会受到轻微影响。这是系统中的一个实例折衷。在一些实施例中,可选择或修改混淆程度以调整训练ANN的主版本的准确性水平与用作训练输入的用户数据的隐私保护水平。
本文中所描述的数据混淆可防止另一方访问及解释由用户装置托管的用户数据。举例来说,混淆可防止云计算环境或集中式计算机或托管ANN的主版本的对等计算机访问及随后解释存储在用户装置上的敏感用户数据。但是,混淆仍然允许使用混淆的用户数据作为训练ANN的输入。
混淆可通过不同方式完成。本文进一步详细地描述这些方法中的一些。举例来说,数据的混淆可经由对数据的加扰或加密算法进行。应理解,本文所描述的混淆技术允许彼此靠近(在一定程度上)定向的数据点在混淆之后保持彼此靠近。否则,混淆的输入与输出之间的相关性将阻止ANN可训练以作出可行的预测。因此,举例来说,数据加密的散列算法将不是对系统进行数据混淆的有效方法,因为散列放大原始数据点之间的差异。将原始数据点的集群映射到不相关的散列数据点。因此,散列无法用于系统中的特征混淆。但是,可使用许多其它混淆方法,例如替换、改组、数值方差方法、加扰、掩蔽字符、不使用散列的一些其它类型的加密,及删除特定字段中的一些值。
在一些实施例中,可通过组合不同的输入集合及/或通过随机化输入来完成混淆。举例来说,假设X是输入且Y是将由ANN预测的预期或期望输出。假设A表示ANN的函数。由ANN作出的预测可为Yp=A(X)。通过监督机器学习的ANN训练可表示为调整A以最小化Y与Yp之间的差(例如,min|A(X)-Y|)。当用户装置具有两组输入{X1,Y1}及{X2,Y2}时,用户装置可通过组合集合并请求托管ANN的主版本的计算机在{Xf,Yf}上训练主版本来混淆输入,其中Xf=f(X1,X2)及Yf=f(Y1,Y2)。举例来说,Xf=X1-X2;及Yf=Y1-Y2;或Xf=W1 X1+W2 X2;及Yf=W1 Y1+W2 Y2,其中W1及W2是可经自定义以调整混淆程度的权重。
在一些实施例中,当输入是Xf=f(X1,X2)时,预期输出可能不一定是Yf=f(Y1,Y2)。因此,Yf是估计值。托管ANN的主版本的计算机无法从Xf猜测或计算X1及/或X2,其由托管ANN的本地版本的其它计算装置中的一个托管。因此,不会将用户装置上实际上经历的内容透露给托管ANN的主版本的计算机。Yf是良好的估计值。服务器可通过对{Xf,Yf}训练来改进A。
而且,可将最后提及的混淆方案扩展到超过两组输入的组合(例如,{X1,Y1}、{X2,Y2}、{X3,Y3}、…)。当调整权重,使得Xf靠近输入集(例如,X1)中的一个时,Yf预期为从Xf实际预期的内容的良好估计值。当Xf靠近X1移动时,估计值Yf的准确性增加,但是混淆效果会降低(因为从Xf猜测X1变得更容易)。因此,在一些实施例中,权重可经配置为混淆偏好以平衡对准确性及隐私的需求。
而且,在一些实施例中,X2可为随机输入。用户装置可通过使用当前ANN预测Y2=A(X2)来估计Y2。这可以牺牲准确性为代价进一步提高混淆的有效性。
在一些实施例中,托管ANN的本地版本的装置中的一个可将存储在其存储器中的用户数据输入到ANN的本地版本中以使用且训练ANN的本地版本。举例来说,这可在用户的移动装置中发生。可包含敏感或私密信息的用户数据在与ANN一起使用时不会与其它装置共享。换句话说,ANN的机器学习可在本地且私密地发生,因为用户数据不与其它装置共享且在用户的装置中受到保护。然而,当用户数据与其它装置共享以训练ANN的其它版本(例如,主版本)时,用户数据可在共享之前被混淆。
在一些实施例中,托管ANN的主版本的一或多个装置可为云计算环境的一部分。并且,在此类实施例中,通过仅在用户的装置中混淆用户数据,用户数据可在云的装置中保持私密。但是,云仍然可从混淆数据中受益,因为混淆数据可用于在云中训练ANN的主版本。不会将混淆的用户数据发送到云以保护用户的隐私。然而,未掩蔽的用户数据可用于在用户的装置上在本地训练ANN的本地版本。举例来说,用户数据可仅用于在用户的移动装置(例如,用户的智能电话、平板计算机等)上训练ANN的本地版本。当用户数据在系统中共享以训练ANN的其它版本时,它总是被系统混淆。
在一些实施例中,可将ANN的主版本下载到用户的个别装置以更新及改进存储在装置上的ANN的本地版本。这可提高ANN的本地存储版本在ANN的区域中的准确性,所述ANN的区域可能尚未通过单独在本地进行训练而改进。而且,可针对用户的ANN的定制版本在本地进一步训练ANN的所下载主版本。这样做的益处是当ANN在用户装置上进行本地训练时,不需要混淆数据输入。
一般来说,在可经配置以实施混淆用于集中训练ANN的主版本的输入的计算机网络中,托管ANN的不同训练版本的装置可执行本地训练以避免用户数据的传输,除非在传输之前混淆用户数据。因为仅混淆的用户数据可通过通信耦合网络装置的网络传输。中央装置、服务器或云随后可经由网络接收混淆的用户数据且使用此数据训练ANN的主版本,而不损害数据隐私。由于中央装置、服务器或云不具有原始用户数据(例如,ANN的本地版本的输入),因此可避免用户数据暴露于中央装置、服务器或云及网络。还应理解,在一些实施例中,甚至可针对输入数据使用用户数据的混淆来训练ANN的本地版本以增强对用户装置的隐私保护。
可经配置以实施混淆用于集中训练ANN的主版本的输入的计算机网络可保护用户隐私,同时仍保持使用不同用户的数据训练ANN的益处。然而,在一些实施例中,可将较不敏感数据发送到中央装置、服务器或云,而不混淆此数据。并且,可在数据的混淆之后发送敏感数据。
在计算机网络中更新的ANN可呈更新神经元属性及/或连接性的形式。可通过使用兼容的机器学习技术进行训练来更改ANN的版本,其中输入是混淆的用户数据或至少包含混淆的用户数据。然而,不会将混淆的用户数据混淆超过以下程度:使用混淆输入更新神经元属性及/或连接性对ANN在做出预期预测方面的有效性有害。
图1及2说明根据本公开的一些实施例的呈实施混淆用于集中训练ANN的主版本的输入的配置的计算机网络100。
在图1中,展示包含一组计算装置102的计算机网络100。一组计算装置102可包含能够托管且执行ANN的版本的任何类型的计算装置中的一或多个,例如能够托管且执行ANN的版本的任何类型的移动装置、个人计算机或智能装置(例如,参见第二计算装置104a及第N计算装置104b)。一组计算装置102中的每个计算装置可托管且执行ANN的本地版本(例如,参见具有ANN 106a及106b的相应本地版本的第二计算装置104a及第N计算装置104b)。
还展示包含第一计算装置108的计算机网络100。第一计算装置108可为通过网络分布(例如,通过云计算环境的网络分布)的单个计算装置或多个计算装置。由第一计算装置108实施的单个计算装置或多个计算装置可包含ANN 110的主版本。取决于计算机网络100的实施方案,第一计算装置108可为中央装置、服务器或云或对等计算网络中的选定装置。
换句话说,图1说明包含具有联网计算装置(例如,参见计算装置104a及104b)的一组计算装置102的计算机网络100,其中每个联网计算装置存储及使用ANN的单独本地版本(例如,参见ANN 106a及106b的本地版本)。计算机网络100还包含第一计算装置108(其可为云或另一类型的分布式计算网络的一部分)。第一计算装置108包含ANN 110的主版本。
ANN的本地版本(例如,参见ANN 106a及106b的本地版本)可与用户数据(例如,参见用户数据120a及120b)一起使用。而且,ANN的本地版本(例如,参见ANN 106a及106b的本地版本)可与混淆的用户数据(例如,参见混淆124a及124b,以及混淆的用户数据130a及130b)一起使用。而且,用户数据(无论是否混淆)可用于训练ANN的本地版本(例如,参见所提取特征122a及122b)。
混淆的用户数据还可由ANN 110的主版本(例如,参见将混淆的用户数据130a及130b发送到第一计算装置108中的机器学习112)例如用于训练主版本。随后可通过一组计算装置102中的一或多个装置下载ANN的更新后的主版本(例如,参见下载132a及132b)。所下载的主版本可代替ANN的本地版本或与由一组计算装置102中的装置中的一个托管的ANN的本地版本组合。
ANN的主版本(例如,参见ANN 110的主版本)可通过机器学习(例如,参见机器学习112)由所接收的混淆数据(例如,参见混淆的用户数据130a及130b)反复地训练,使得主版本通用并且随着时间的推移变得越来越准确。可从具有ANN的不同及本地版本(例如,参见ANN 106a及106b的本地版本)及不同的所存储用户数据(例如,参见用户数据120a及120b)的不同用户的装置接收混淆数据。可将ANN的主版本(例如,参见ANN 110的主版本)下载(例如,参见下载132a及132b)到个别用户装置(例如,参见计算装置104a及104b)以更新用户装置的能力,以从可能尚未在本地训练的区域中的进步获益。而且,可针对用户的ANN的定制版本在本地进一步训练所下载ANN。
图中未示,计算机网络100包含通信网络,所述通信网络包含广域网(WAN)、局域网(LAN)、内联网、外联网、因特网,及/或其任何组合。通信网络可将一组计算装置102中的装置彼此通信地耦合且与计算机网络100的其它装置(例如,与第一计算装置108)通信地耦合。可通过计算机网络100的通信网络传送或传输本文中所提及的ANN的主版本的所发送的混淆的用户数据及下载(例如,参见混淆的用户数据130a及130b,及下载132a及132b)。
在一些实施例中,系统(例如,计算机网络100)包含第二计算装置(例如,计算装置104a或104b),其包含经配置以存储ANN的本地版本(例如,ANN 106a或106b的本地版本)的存储器(例如,图5中展示的主存储器508及/或存储系统512)。在此类实施例中,第二计算装置包含处理装置(例如,图5中所示的处理器506),其经配置以训练ANN的本地版本。处理装置还经配置以从用户数据提取多个特征(例如,参见所提取特征122a及122b,及用户数据120a及120b),并且混淆所提取的多个特征以生成混淆的用户数据(例如,参见混淆124a及124b,及混淆的用户数据130a及130b)。而且,第二计算装置可包含收发器(例如,网络接口510),其经配置以传输混淆的用户数据(例如,参见混淆的用户数据130a及130b)。
在此类实施例中,系统(例如,计算机网络100)还包含第一计算装置(例如,第一计算装置108),其包含经配置以存储ANN的主版本(例如,ANN 110的主版本)的存储器(例如,图5中所示的主存储器508及/或存储系统512)。第一计算装置还可包含收发器(例如,网络接口510),其经配置以接收从第二计算装置传输的混淆的用户数据。而且,第一计算装置还可包含处理装置(例如,图5中所示的处理器506),其经配置以使用机器学习(例如,参见机器学习112)基于所接收的混淆用户数据训练ANN的主版本。
第二计算装置可为托管ANN的相应不同版本及相应的不同用户数据集的多个计算机中的一个(例如,参见计算装置102及其计算装置104a及104b的集合)。第二计算装置可从在计算机上托管的相应用户数据集提取多个特征(例如,参见所提取特征122a及122b)。第二计算装置可混淆所提取的多个特征以生成混淆的用户数据(例如,参见混淆124a及124b)。第二计算装置还可将混淆的用户数据传输到托管ANN的主版本的选定计算机(例如,参见混淆的用户数据130a及130b)。选定计算机可使用机器学习基于混淆的用户数据训练ANN的主版本(例如,参见第一计算装置108及其机器学习112)。
一般来说,数据混淆(本文中还称为混淆)是通过对数据的修改伪装数据的过程。混淆可应用于存储在用户装置上的用户数据(例如,参见用户数据120a及120b),例如应用于用户数据的一或多个数据字段以保护分类为敏感的数据,例如个人可识别数据、个人敏感数据或商业敏感数据。然而,混淆数据可保持可用于训练ANN的版本(例如,参见ANN 110的主版本),使得由通过混淆数据训练ANN产生的结果与预期的一样。在一些实施例中,混淆用户数据看起来未经修改。
所提取的多个特征的混淆可包含使用一或多个算术运算组合所提取的多个特征中的不同输入集合以组合不同集合(例如,参见混淆124a及124b以及图3中所说明的步骤312)。特征的提取(例如,参见所提取特征122a及122b)可包含随机选择不同输入集合以组合不同集合。或者,特征的提取可包含有意地选择不同输入集合以组合不同集合。
并且,所提取多个特征的混淆(例如,参见混淆124a及124b)可包含使用替换(例如,参见图3中所说明的步骤314)。替换可包含用与所提取多个特征中的数据相关的数据替换所提取多个特征中的数据。
所提取多个特征的混淆(例如,参见混淆124a及124b)可包含使用改组(例如,参见图3中所说明的步骤316)。改组可包含重新布置所提取多个特征中的数据的次序或位置。
所提取多个特征的混淆(例如,参见混淆124a及124b)可包含数值方差方法(例如,参见图3中所说明的步骤318)。数值方差方法可包含将所提取多个特征中的数据内的值变化到预定范围。举例来说,数值方差方法可包含将所提取多个特征中的数据内的值改变最多加或减每个值的某个百分比或百分比范围,例如改变最多加或减10%。
所提取多个特征的混淆(例如,参见混淆124a及124b)可包含使用数据加密(例如,参见图3中所说明的步骤320)。
应理解,本文所描述的混淆技术允许彼此靠近(在一定程度上)定向的数据点在混淆之后保持彼此靠近。否则,混淆的输入与输出之间的相关性将阻止ANN可训练以作出可行的预测。因此,举例来说,加密的散列算法将不是对系统进行数据混淆的有效方法,因为散列放大原始数据点之间的差异。将原始数据点的集群映射到不相关的散列数据点。因此,散列无法用于系统中的特征混淆。
所提取多个特征的混淆(例如,参见混淆124a及124b)还可包含消除或删除所提取多个特征中的数据的至少一部分(例如,参见图3中所说明的步骤322)。举例来说,混淆可包含随机地消除或删除所提取多个特征中的数据的至少一部分。或者,可有意地消除或删除所提取多个特征中的数据的至少一部分。
所提取多个特征的混淆(例如,参见混淆124a及124b)可包含使用掩蔽或字符加扰方法(例如,参见图3中所说明的步骤324)。掩蔽或字符加扰方法可包含掩蔽或字符加扰所提取多个特征中的数据的一部分。
第一计算装置(例如,参见第一计算装置108)可为多个计算机(例如云计算环境中的计算机)或单独计算机中的一个。在一些实施例中,第一计算装置可为或包含云计算环境(例如,参见图2)。第一计算装置可托管ANN的主版本(例如,参见ANN 110的主版本)。第一计算装置还可从第二计算机接收混淆的用户数据(例如,参见混淆的用户数据130a及130b)。
混淆的用户数据可包含例如从第二计算机中的混淆(例如,参见混淆124a及124b)获得的多个混淆特征。第二计算机可从本地存储在第二计算机上的用户数据提取多个特征(例如,参见所提取特征122a及122b),并且在将混淆的用户数据传输到第一计算机之前(例如,参见将混淆的用户数据130a及130b传输到第一计算装置108)混淆所提取多个特征以生成多个混淆特征。第二装置可通过使用一或多个算术运算组合不同输入集合以组合不同集合来混淆所提取的多个特征。所提取的多个特征可包含标记为在第二计算装置的数据存储系统中混淆的用户数据的部分。而且,第二装置可使用替换、改组、数值方差方法、加密或它们的组合来混淆所提取的多个特征。此外,第二装置可使用消除或删除所提取多个特征的至少一部分(例如,随机地或有意地)或使用掩蔽或字符加热方法来混淆所提取的多个特征。
第一计算机还可使用机器学习(例如,参见机器学习112)基于所接收的混淆的用户数据训练ANN的主版本(例如,参见ANN 110的主版本)。
图2与图1有些类似,因为它展示呈实施混淆用于集中训练ANN的主版本的输入的配置的计算机网络100。然而,与图1不同,图2具体来说描绘包含托管ANN的相应本地版本(例如,参见ANN 106a及106b的本地版本)的移动装置(例如,参见移动装置105a及105b)的一组计算装置102。而且,在图2中展示云计算环境(例如,云计算环境109)正托管ANN的主版本(例如,参见ANN 110的主版本)。换句话说,图2是图1中所展示的计算机网络的更特定实施方案,其中第一装置108是云计算环境109或是云计算环境109的一部分,且一组计算装置102中的装置具体来说是移动装置(例如,参见移动装置105a及105b)。
图3及4说明根据本公开的一些实施例的由可实施混淆用于集中训练ANN的主版本的输入的计算机网络100的实例部分执行的实例方法。
图3展示由经配置以混淆用于集中训练ANN的主版本的输入的计算装置(例如,参见计算装置104a及104b以及移动装置105a及105b)执行的方法300,所述计算装置与可托管、执行及训练ANN的主版本的一或多个其它计算装置(例如,参见第一计算装置108及云计算环境109)通信。方法300在步骤302处开始于由多个计算机托管ANN的相应不同版本及相应的不同用户数据集。
在步骤304处,多个计算机中的计算机在提取多个特征之前标记待混淆的用户数据的部分。在一些实施例中,计算机标记用户数据的部分可包含随机地标记部分,使得所标记部分是用户数据的部分的随机采样。在一些其它实施例中,计算机标记用户数据的部分可包含有意地标记部分,使得所标记部分是用户数据的部分的有意采样。
在步骤306处,计算机根据用户数据的所标记部分提取多个特征。所提取的多个特征可包含用户数据的所标记部分。
在步骤308处,计算机混淆所提取的多个特征以生成混淆的用户数据。
并且,在步骤310处,计算机将混淆用户数据传输到托管ANN的主版本的选定计算机。选定计算机可使用机器学习基于混淆的用户数据来训练ANN的主版本。
在步骤312处,可通过使用一或多个算术运算组合所提取的多个特征中的不同输入集合以组合不同集合而发生在步骤308处混淆所提取的多个特征。在一些实施例中,混淆可包含随机地选择不同输入集合以组合不同集合。在一些其它实施例中,混淆可包含有意地选择不同输入集合以组合不同集合。
举例来说,对于训练ANN 110的主版本,假设X是输入(例如,参见所提取特征122a及122b)且Y是将由ANN预测的预期或期望输出。假设A表示ANN 110的主版本的函数。由ANN110的主版本作出的预测可为Yp=A(X)。通过例如机器学习112的监督机器学习训练ANN110的主版本可表示为调整A以最小化Y与Yp之间的差(例如,min|A(X)-Y|)。当用户装置在用户数据(例如,参见所提取特征122a及122b)中具有两组输入{X1,Y1}及{X2,Y2}时,用户装置(例如,参见计算装置104a及104b)可通过组合集合并请求托管ANN 110的主版本的计算机(例如,参见第一计算装置108)在{Xf,Yf}上训练主版本来混淆输入(例如,参见混淆124a及124b),其中Xf=f(X1,X2)及Yf=f(Y1,Y2)。举例来说,Xf=X1-X2;及Yf=Y1-Y2;或Xf=W1 X1+W2 X2;及Yf=W1 Y1+W2 Y2,其中W1及W2是可经自定义以调整混淆程度的权重。
在一些实施例中,当输入是Xf=f(X1,X2)(例如,参见所提取特征122a及122b)时,预期输出可能不一定是Yf=f(Y1,Y2)。因此,Yf是估计值。托管ANN 110的主版本的计算机(例如,参见第一计算装置108)无法从Xf猜测或计算X1及/或X2,其由托管ANN的本地版本的其它计算装置(例如,参见计算装置104a及104b)中的一个托管。因此,不会将用户装置例如,参见计算装置104a及104b)上实际上经历的内容透露给托管ANN的主版本的计算机(例如,参见第一计算装置108)。然而,Yf是良好估计值,并且托管ANN 110的主版本的计算机可通过在{Xf,Yf}上训练用户数据的混淆版本(例如,参见混淆的用户数据130a及130b)来改进A。
而且,可将最后提及的混淆方案扩展到超过两组输入的组合(例如,{X1,Y1}、{X2,Y2}、{X3,Y3}、…)。换句话说,所提取特征(例如,所提取特征122a及122b)可包含在混淆(例如,参见混淆124a及124b)中组合的多于两组输入。当调整权重,使得Xf靠近混淆(例如,参见混淆124a及124b)中的输入集合(例如,X1)中的一个时,Yf预期为实际上从Xf预期的内容的良好估计值。当Xf靠近X1移动时,估计值Yf的准确性增加,但是混淆效果会降低(因为从Xf猜测X1变得更容易)。因此,在一些实施例中,权重可经配置为混淆偏好以平衡对准确性及隐私的需求。而且,在一些实施例中,X2可为随机输入。用户装置可通过使用当前ANN预测Y2=A(X2)来估计Y2。这可进一步增加混淆的有效性。
在步骤314处,在步骤308处混淆所提取的多个特征可通过替换发生。并且,替换可包含用与所提取多个特征中的数据相关的数据替换所提取多个特征中的数据。
在步骤314处的替换可应用数据掩蔽并且为混淆的用户数据保留真实的外观及感觉。在步骤314处的替换包含用真实的外观值替换用户数据的所提取特征中的现有值。举例来说,用户数据可包含客户记录、个人可识别信息及其它类型的敏感信息,并且这些信息可分别用例如从查找文件供应的虚假客户记录、个人可识别信息等随机地或有意地替换。举例来说,所述替换可包含用存储在存储器中(例如,查找文件中)的虚假姓名替换用户数据中的姓名。而且,举例来说,可在替换中用虚假社会保障号码代替社会保障号码。
使用替换可维护数据结构及用户数据的字段的格式化,但也可混淆数据以保护用户敏感信息的隐私。替换可应用于用户数据中的各种其它字段,包含电子邮件地址、电话号码、实际邮寄地址、邮政编码及信用卡号以及社会保障号码,及可符合校验和测试(例如,Luhn算法的校验和测试)的其它个人识别号码。
在步骤316处,在步骤308处混淆所提取的多个特征可通过改组发生。而且,改组可包含重新布置所提取多个特征中的数据的次序或位置。
在步骤316处的改组有些类似于替换,但是改组使用来自相同数据源或被混淆的相同数据列的数据进行替换。举例来说,如果数据源或用户数据列在第一行具有用户名,在第二行具有社会保障号码且在第三行具有电子邮件地址,则改组可使用户名转到与第一行不同的行且可将社会保障号码移动到第一行等。正如怀疑的那样,改组的前述实例可能无法有效地混淆此数据以防窥探;然而,在必须隐藏用户数据的所提取特征中的信息次序的情况下,改组可能是不会破坏训练ANN的输入的有效混淆方法。而且,当与替代组合时,改组可更有效。步骤308处的混淆在同时使用替换及改组时可为有效的,并且这两种方法可一起使用而不会对ANN的训练造成太大干扰。
在步骤318处,在步骤308处混淆所提取的多个特征可通过数值方差方法发生。而且,数值方差方法可包含将所提取多个特征中的数据内的值变化到预定范围。举例来说,数值方差方法可包含将所提取多个特征中的数据内的值改变最多加或减每个值的某个百分比或百分比范围,例如改变最多加或减10%。
当混淆性能或金融数据或由数字及数量驱动的其它数据时,步骤318处的数值方差方法可为有用的。举例来说,可使用数值方差方法,并且此混淆的结果仍然可留下有意义的数据供其使用,例如用于训练ANN。举例来说,如果使用此方法对工资表数据进行小部分混淆,则信息的隐私得到维护,但掩蔽数据仍可用于例如通过ANN进行推测。在步骤318处的数值方差方法还可应用于用户数据中的日期以混淆数据。举例来说,如果整个数据集需要保持一定程度的完整性,则应用+/-几天到日期字段的随机数值方差将保留日期分布,但仍会阻止可追溯回到已知实体。
在步骤320处,在步骤308处混淆所提取的多个特征可通过加密发生。在步骤320处的数据加密无法使用如本文所提及的散列算法,因为此方法会破坏用于训练ANN的输入。在步骤320处的加密方法可使用要应用的密钥来基于用户权限查看数据。而且,可在步骤320处使用保持加密的格式,因为此方法可保持掩蔽数据的有效性以用于训练ANN。
在步骤322处,在步骤308处混淆所提取的多个特征可通过消除或删除所提取的多个特征中的数据的至少一部分发生。举例来说,混淆可包含随机地消除或删除所提取多个特征中的数据的至少一部分。或者,可有意地消除或删除所提取多个特征中的数据的至少一部分。
在步骤322处掩蔽的形式是通过简单地将空值应用于特定字段来进行混淆的简单方法。空值方法可用于防止所提取特征中数据元素的可见性,并且在一些实施方案中,可能会在不希望的程度上破坏ANN的训练。在一些情况下,在步骤322处的掩蔽可用于训练ANN且不会干扰训练ANN。
在步骤324处,在步骤308处混淆所提取的多个特征可通过掩蔽或字符加扰方法发生。掩蔽或字符加扰方法可包含掩蔽或字符加扰所提取多个特征中的数据的一部分。
在步骤324处的屏蔽或字符加扰方法也是防止查看敏感信息的简单方法;然而,它可有效地保护隐私并保留用户数据的结构及格式化,这可有助于保持其在训练ANN时的有用性。当应用于信用卡数据或用户数据中的其它数字标识数据时,屏蔽或字符加扰可能有用。举例来说,对卡的最后五位数字为XXXX XXXXXX 53495的账单参考可能是完整信用卡号混淆的结果。一旦数据从用户装置传输,第三方可仅看到卡号的最后五位数字,但此数据以及用于训练ANN的其它有用数据仍然完好无损。
图4展示由经配置以托管及执行ANN的主版本(例如,分别参见图1及2中所描绘的第一计算装置108及云计算环境109)的计算装置,及经配置以托管及执行ANN的其它版本的计算装置(例如,参见计算装置104a及104b或移动装置105a及105b)执行的方法400。方法400可包含方法300的操作。
方法400在步骤402处开始于通过托管ANN的其它版本中的一个的第二计算装置(例如,参见计算装置104a及104b或移动装置105a及105b)从存储在第二计算装置上的用户数据提取多个特征。
在步骤404处,第二计算装置(例如,参见计算装置104a及104b或移动装置105a及105b)混淆来自用户数据的多个特征。在步骤404处的混淆可包含图3中所说明的步骤308及312到324中的一或多个。
在步骤406处,第二计算装置(例如,参见计算装置104a及104b或移动装置105a及105b)传输具有混淆特征的混淆用户数据。
在步骤408处,第一计算装置(例如,参见第一计算装置108及云计算环境109)接收混淆的用户数据。
在步骤410处,第一计算装置使用机器学习基于所接收的混淆用户数据训练ANN的主版本。在步骤410处进行的训练包含更新ANN的主版本。在步骤410处训练ANN的主版本以及训练ANN的其它版本可呈更新ANN的神经元属性和/或连接性的形式。
在步骤412处,第一计算装置传输从步骤410处的训练更新的ANN的更新后主版本。
在步骤414处,第二计算装置接收ANN的更新后主版本。在ANN的更新后主版本的情况下,第二计算装置可根据ANN的更新后主版本更新ANN的其本地版本。举例来说,第二计算装置可用ANN的所接收到的更新后主版本替代ANN的其本地版本。
未在图4中展示,可通过将更新后主版本与用户装置中的ANN的当前本地版本组合来训练或重新训练ANN的本地版本。而且,在训练或重新训练中的组合可包含根据ANN的更新后主版本及ANN的“当前”或先前本地版本的平均对应属性更新ANN的本地版本的神经元属性。
出于图4的步骤402到414及本公开的目的,应理解,在步骤406处从用户装置(例如,参见图2中所示的计算装置104a及104b或移动装置105a及105b)传输到托管ANN的主版本的中央装置、服务器或云(例如,参见第一计算装置108或云计算环境109)的混淆的用户数据(例如,参见混淆的用户数据130a及30b)可呈在步骤402中提取的全部所提取特征或在步骤402中提取的所提取特征的部分在步骤404处混淆的形式。而且,在一些实施例中,托管ANN的主版本的中央装置、服务器或云可限制用户装置可在步骤402处提取并且在步骤404处混淆的内容,以调整由混淆提供的隐私保护以及另一方面使用混淆的用户数据作为训练的输入来调整ANN版本(例如,主版本)的训练准确性。
而且,应理解,对等网络可实施方法400。在此类实例中,第一选定装置托管ANN的主版本以用于处理,且对等网络的其它装置托管ANN的其它版本(例如,本地版本)以用于处理。在此类实例中,第一选定装置执行步骤408到412,且对等网络的其它装置执行步骤402到406及414。
关于本文中所描述的方法300、方法400或任何其它方法、过程或操作,在一些实施例中,非暂时性计算机可读存储媒体存储指令,所述指令在由至少一个处理装置(例如,图5中所示的处理器506)执行时使得所述至少一个处理装置执行本文中所描述的方法300、方法400或任何其它方法、过程或操作及/或其任何组合。
图5说明根据本公开的一些实施例的实例计算装置500的实例部分。计算装置500可经由如图5中所示的计算机网络100通信地耦合到其它计算装置。在一些实施例中,计算装置500为第一计算装置108或云计算环境109的一或多个计算装置。在此类实施例中,计算装置500的另一实例一组计算装置102中的计算装置中的一个(例如,参见计算装置104a及104b及移动装置105a及105b)。计算装置500包含至少总线504、处理器506(例如,CPU)、主存储器508、网络接口510及数据存储系统512。总线504通信地耦合处理器506、主存储器508、网络接口510及数据存储系统512。计算装置500包含计算机系统,所述计算机系统包含至少处理器506、主存储器508(例如,只读存储器(ROM)、快闪存储器、例如同步DRAM(SDRAM)或Rambus DRAM(RDRAM)的动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)等),及数据存储系统512,它们经由总线504(其可包含多个总线)彼此通信。
换句话说,图5是具有计算机系统的实例计算装置500的框图,本公开的实施例可在所述计算机系统中操作。在一些实施例中,计算机系统可包含指令集,用于在被执行时致使机器执行本文所论述的方法中的任何一或多种。在此类实施例中,机器可连接(例如,经由网络接口510联网)到LAN、内联网、外联网及/或互联网中的其它机器。机器可作为对等(或分布式)网络环境(例如,本文中所描述的对等网络)中的对等机器或作为云计算基础设施或环境中的服务器或客户端机器而在客户端-服务器网络环境中的服务器或客户端机器的容量中操作。
处理器506表示一或多个通用处理装置,例如微处理器、中央处理单元等。更特定来说,处理装置可为复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器或实施其它指令集的处理器,或实施指令集的组合的处理器。处理器506还可为一或多个专用处理装置,例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器、存储器中的处理器(PIM)等。处理器506经配置以执行指令以用于执行本文中所论述的操作及步骤。处理器506可进一步包含例如网络接口510的网络接口装置以通过一或多个通信网络通信。
数据存储系统512可包含机器可读存储媒体(也称为计算机可读媒体),其上存储有体现本文中所描述的任何一或多种方法或功能的一或多个指令集或软件。指令还可由计算机系统在其执行期间完全或至少部分地驻存在主存储器508内及/或处理器506内,主存储器508及处理器506还构成机器可读存储媒体。虽然存储器、处理器及数据存储部分在实例实施例中展示为各自作为单个部分,但每个部分都应被认为包含可存储指令并且执行其相应操作的单个部分或多个部分。术语“机器可读存储媒体”还应被认为包含能够存储或编码供机器执行的指令集合且致使机器执行本公开的方法中的任何一或多种的任何媒体。因此,术语“机器可读存储媒体”应被认为包含但不限于固态存储器、光学媒体及磁性媒体。
一些实施例的对等网络可为节点及对等连接的集合。举例来说,第一计算装置108或一组计算装置102中的计算装置中的一个可为由通过计算机网络100连接的计算装置支持的对等网络的节点。
已在针对计算机存储器内的数据位的操作的算法及符号表示方面呈现先前详细描述的一些部分。这些算法描述及表示是数据处理领域的技术人员用于将其工作的主旨最有效地传达给所属领域的其他技术人员的方式。在本文中,且一般将算法构想为产生所要结果的操作的自洽序列。操作是要求对物理量进行物理操纵的操作。通常(但未必),这些量采用能够存储、组合、比较及以其它方式操纵的电或磁信号的形式。已经证实,主要出于常用的原因,将这些信号称为位、值、元素、符号、字符、项、编号等等有时是便利的。
然而,应牢记,所有这些及类似术语将与适当物理量相关联,且仅仅为应用于这些量的便利标记。本公开可指操纵及变换计算机系统的寄存器及存储器内的表示为物理(电子)数量的数据为计算机系统存储器或寄存器或其它这类信息存储系统内的类似地表示为物理量的其它数据的计算机系统或类似电子计算装置的动作及过程。
本公开还涉及用于执行本文中的操作的设备。此设备可出于所需目的而专门构造,或其可包含通过存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机。这种计算机程序可存储在计算机可读存储媒体中,例如但不限于任何类型的盘,包含软盘、光盘、CD-ROM及磁性光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡,或适合于存储电子指令的任何类型的媒体,其各自连接到计算机系统总线。
本文中呈现的算法及显示器在本质上并不与任何特定计算机或其它设备相关。各种通用系统可与根据本文中的教示的程序一起使用,或可证明构造用于执行所述方法更加专用的设备是方便的。将如下文描述中所阐述的那样来呈现各种这些系统的结构。另外,未参考任何特定编程语言来描述本公开。应了解,可使用各种编程语言来实施如本文中所描述的本公开的教示内容。
本公开可提供为计算机程序产品或软件,其可包含在其上存储有可用于编程计算机系统(或其它电子装置)以进行根据本公开的过程的指令的机器可读媒体。机器可读媒体包含用于存储呈机器(例如,计算机)可读形式的信息的任何机制。在一些实施例中,机器可读(例如,计算机可读)媒体包含机器(例如,计算机)可读存储媒体,例如只读存储器(“ROM”)、随机存取存储器(“RAM”)、磁盘存储媒体、光学存储媒体、快闪存储器组件等。
在前述说明书中,本公开的实施例已经参照其特定实例实施例进行描述。将显而易见的是,可在不脱离如所附权利要求书中阐述的本公开的实施例的更广精神及范围的情况下对本公开进行各种修改。因此,应在说明性意义上而非限制性意义上看待说明书及图式。

Claims (20)

1.一种方法,其包括:
通过多个计算机托管人工神经网络(ANN)的相应不同版本及相应的不同用户数据集;
通过所述多个计算机中的计算机从所述计算机上托管的所述相应用户数据集提取多个特征;
通过所述计算机混淆所述所提取的多个特征以生成混淆的用户数据;及
通过所述计算机将所述混淆的用户数据传输到托管所述ANN的主版本的选定计算机,其中所述选定计算机使用机器学习基于所述混淆的用户数据训练所述ANN的所述主版本。
2.根据权利要求1所述的方法,其中混淆所述所提取的多个特征包括使用一或多个算术运算组合所述所提取的多个特征中的不同输入集合以组合所述不同集合。
3.根据权利要求2所述的方法,其包括通过所述计算机随机地选择所述不同输入集合,以用于所述不同集合的所述组合。
4.根据权利要求2所述的方法,其包括通过所述计算机有意地选择所述不同输入集合,以用于所述不同集合的所述组合。
5.根据权利要求1所述的方法,其进一步包括:
在提取所述多个特征之前,通过所述计算机标记将混淆的所述相应用户数据集的部分;及
根据所述相应用户数据集的所述所标记部分,通过所述计算机提取所述多个特征,其中所述所提取的多个特征包括所述相应用户数据集的所述所标记部分。
6.根据权利要求5所述的方法,其中标记所述相应用户数据集的部分包括随机地标记所述部分,使得所述所标记部分是所述相应用户数据集的部分的随机采样。
7.根据权利要求5所述的方法,其中标记所述相应用户数据集的部分包括有意地标记所述部分,使得所述所标记部分是所述相应用户数据集的部分的有意采样。
8.根据权利要求1所述的方法,其中混淆所述所提取的多个特征包括使用替换,并且其中所述替换包括用与所述所提取的多个特征中的数据相关的数据替换所述所提取的多个特征中的所述数据。
9.根据权利要求1所述的方法,其中混淆所述所提取的多个特征包括使用改组,并且其中所述改组包括重新布置所述所提取的多个特征中的数据的次序或位置。
10.根据权利要求1所述的方法,其中所述所提取的多个特征包括使用数值方差方法,其中所述数值方差方法包括将所述所提取的多个特征中的数据内的值变化到预定范围。
11.根据权利要求1所述的方法,其中混淆所述所提取的多个特征包括使用数据加密。
12.根据权利要求1所述的方法,其中混淆所述所提取的多个特征包括使用消除或删除所述所提取的多个特征中的数据的至少一部分。
13.根据权利要求1所述的方法,其中混淆所述所提取的多个特征包括使用掩蔽或字符加扰方法,并且其中所述掩蔽或所述字符加扰方法包括掩蔽或字符加扰所述所提取的多个特征中的数据的一部分。
14.一种方法,其包括:
通过第一计算机托管人工神经网络(ANN)的主版本;
通过所述第一计算机从第二计算机接收混淆的用户数据,其中所述混淆的用户数据包括多个混淆特征,并且其中所述第二计算机从本地存储在所述第二计算机上的用户数据提取多个特征,并且在将所述混淆的用户数据传输到所述第一计算机之前,混淆所述所提取的多个特征以生成所述多个混淆特征;及
通过所述第一计算机使用机器学习基于所述所接收的混淆用户数据来训练所述ANN的所述主版本。
15.根据权利要求14所述的方法,其中所述第二装置通过使用一或多个算术运算组合不同输入集合以组合所述不同集合来混淆所述所提取的多个特征。
16.根据权利要求14所述的方法,其中所述所提取的多个特征包括将在所述第二计算装置的数据存储系统中混淆的所标记的所述用户数据的部分。
17.根据权利要求14所述的方法,其中所述第二装置使用替换、改组、数值方差方法、加密或它们的组合来混淆所述所提取的多个特征。
18.根据权利要求14所述的方法,其中所述第二装置使用消除或删除所述所提取的多个特征的至少一部分来混淆所述所提取的多个特征。
19.根据权利要求14所述的方法,其中所述第二装置使用掩蔽方法或字符加扰方法来混淆所述所提取的多个特征。
20.一种系统,其包括
第二计算装置,其包括:
存储器,其经配置以存储人工神经网络(ANN)的本地版本及用于输入到所述ANN的所述本地版本中的用户数据;
处理器,其经配置以从所述用户数据提取多个特征且混淆所述所提取的多个特征以生成混淆的用户数据;及
收发器,其经配置以传输所述混淆的用户数据;及
第一计算装置,其包括:
存储器,其经配置以存储所述ANN的主版本;
收发器,其经配置以接收从所述第二计算装置传输的混淆的用户数据;及
处理器,其经配置以使用机器学习基于所述所接收的混淆用户数据来训练所述ANN的所述主版本。
CN202080056514.2A 2019-08-20 2020-08-13 具有特征混淆的机器学习 Pending CN114207637A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/545,837 US11636334B2 (en) 2019-08-20 2019-08-20 Machine learning with feature obfuscation
US16/545,837 2019-08-20
PCT/US2020/046157 WO2021034602A1 (en) 2019-08-20 2020-08-13 Machine learning with feature obfuscation

Publications (1)

Publication Number Publication Date
CN114207637A true CN114207637A (zh) 2022-03-18

Family

ID=74646337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080056514.2A Pending CN114207637A (zh) 2019-08-20 2020-08-13 具有特征混淆的机器学习

Country Status (6)

Country Link
US (1) US11636334B2 (zh)
EP (1) EP4018391A4 (zh)
JP (1) JP2022544929A (zh)
KR (1) KR20220035226A (zh)
CN (1) CN114207637A (zh)
WO (1) WO2021034602A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11755884B2 (en) 2019-08-20 2023-09-12 Micron Technology, Inc. Distributed machine learning with privacy protection
US11392796B2 (en) * 2019-08-20 2022-07-19 Micron Technology, Inc. Feature dictionary for bandwidth enhancement
US12008470B2 (en) * 2019-10-16 2024-06-11 The Regents Of The University Of California Methods and systems for learning noise distributions for neural networks
CA3174627A1 (en) * 2020-03-06 2021-09-10 The Regents Of The University Of California Methods of providing data privacy for neural network based inference
US20210303662A1 (en) * 2020-03-31 2021-09-30 Irdeto B.V. Systems, methods, and storage media for creating secured transformed code from input code using a neural network to obscure a transformation function
US11200342B1 (en) * 2020-10-21 2021-12-14 Deeping Source Inc. Method for training and testing obfuscation network capable of processing data to be obfuscated for privacy, and training device and testing device using the same
US11244248B1 (en) * 2020-10-21 2022-02-08 Deeping Source Inc. Method for training and testing user learning network to be used for recognizing obfuscated data created by obfuscating original data to protect personal information and user learning device and testing device using the same
US20220171878A1 (en) * 2021-02-21 2022-06-02 Omer Dror Hybrid Human-Machine Differential Privacy
US20230012736A1 (en) * 2021-07-09 2023-01-19 Samsung Electronics Co., Ltd. Method and electronic device for securely sharing of data
US11308359B1 (en) * 2021-10-27 2022-04-19 Deeping Source Inc. Methods for training universal discriminator capable of determining degrees of de-identification for images and obfuscation network capable of obfuscating images and training devices using the same

Family Cites Families (116)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8686549B2 (en) 2001-09-03 2014-04-01 Martin Vorbach Reconfigurable elements
DE19861088A1 (de) 1997-12-22 2000-02-10 Pact Inf Tech Gmbh Verfahren zur Reparatur von integrierten Schaltkreisen
US8914590B2 (en) 2002-08-07 2014-12-16 Pact Xpp Technologies Ag Data processing method and device
WO2007082730A1 (de) 2006-01-18 2007-07-26 Pact Xpp Technologies Ag Hardwaredefinitionsverfahren
US8346691B1 (en) 2007-02-20 2013-01-01 Sas Institute Inc. Computer-implemented semi-supervised learning systems and methods
US9916538B2 (en) 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US8953436B2 (en) 2012-09-20 2015-02-10 Broadcom Corporation Automotive neural network
US9751534B2 (en) 2013-03-15 2017-09-05 Honda Motor Co., Ltd. System and method for responding to driver state
US9679258B2 (en) 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
US9390376B2 (en) 2013-10-15 2016-07-12 Lockheed Martin Corporation Distributed machine learning intelligence development systems
KR101906951B1 (ko) 2013-12-11 2018-10-11 한화지상방산 주식회사 차선 검출 시스템 및 차선 검출 방법
US9870537B2 (en) 2014-01-06 2018-01-16 Cisco Technology, Inc. Distributed learning in a computer network
US9563854B2 (en) 2014-01-06 2017-02-07 Cisco Technology, Inc. Distributed model training
US10356111B2 (en) 2014-01-06 2019-07-16 Cisco Technology, Inc. Scheduling a network attack to train a machine learning model
US9324022B2 (en) 2014-03-04 2016-04-26 Signal/Sense, Inc. Classifying data with deep learning neural records incrementally refined through expert input
US20150324686A1 (en) 2014-05-12 2015-11-12 Qualcomm Incorporated Distributed model learning
WO2016037350A1 (en) 2014-09-12 2016-03-17 Microsoft Corporation Learning student dnn via output distribution
US10001760B1 (en) 2014-09-30 2018-06-19 Hrl Laboratories, Llc Adaptive control system capable of recovering from unexpected situations
EP3007099B1 (en) 2014-10-10 2022-12-07 Continental Autonomous Mobility Germany GmbH Image recognition system for a vehicle and corresponding method
AU2015336942B2 (en) * 2014-10-24 2018-02-01 Commonwealth Scientific And Industrial Research Organisation Learning with transformed data
US10032969B2 (en) 2014-12-26 2018-07-24 Nichia Corporation Light emitting device
CN107438754A (zh) 2015-02-10 2017-12-05 御眼视觉技术有限公司 用于自主车辆导航的稀疏地图
US10343279B2 (en) 2015-07-10 2019-07-09 Board Of Trustees Of Michigan State University Navigational control of robotic systems and other computer-implemented processes using developmental network with turing machine learning
US10229357B2 (en) 2015-09-11 2019-03-12 Facebook, Inc. High-capacity machine learning system
KR102459677B1 (ko) 2015-11-05 2022-10-28 삼성전자주식회사 알고리즘 학습 방법 및 장치
US10073965B2 (en) 2015-12-15 2018-09-11 Nagravision S.A. Methods and systems for validating an autonomous system that includes a dynamic-code module and a static-code module
KR102502451B1 (ko) 2016-01-07 2023-02-22 삼성전자주식회사 깊이 추정 방법 및 장치, 및 거리 추정기 학습 방법 및 장치
JP2017126112A (ja) 2016-01-12 2017-07-20 株式会社リコー サーバ、分散型サーバシステム、及び情報処理方法
US9916522B2 (en) 2016-03-11 2018-03-13 Kabushiki Kaisha Toshiba Training constrained deconvolutional networks for road scene semantic segmentation
US9672734B1 (en) 2016-04-08 2017-06-06 Sivalogeswaran Ratnasingam Traffic aware lane determination for human driver and autonomous vehicle driving system
US10049284B2 (en) 2016-04-11 2018-08-14 Ford Global Technologies Vision-based rain detection using deep learning
US10127477B2 (en) 2016-04-21 2018-11-13 Sas Institute Inc. Distributed event prediction and machine learning object recognition system
US10407078B2 (en) 2016-04-26 2019-09-10 Sivalogeswaran Ratnasingam Dynamic learning driving system and method
US11774944B2 (en) 2016-05-09 2023-10-03 Strong Force Iot Portfolio 2016, Llc Methods and systems for the industrial internet of things
US10866584B2 (en) 2016-05-09 2020-12-15 Strong Force Iot Portfolio 2016, Llc Methods and systems for data processing in an industrial internet of things data collection environment with large data sets
CN106021572B (zh) 2016-05-31 2019-05-31 北京百度网讯科技有限公司 二元特征词典的构建方法和装置
US9947145B2 (en) 2016-06-01 2018-04-17 Baidu Usa Llc System and method for providing inter-vehicle communications amongst autonomous vehicles
US10282849B2 (en) 2016-06-17 2019-05-07 Brain Corporation Systems and methods for predictive/reconstructive visual object tracker
MX2019000713A (es) 2016-07-18 2019-11-28 Nant Holdings Ip Llc Sistemas, aparatos y metodos para maquina de aprendizaje distribuido.
US20180025268A1 (en) 2016-07-21 2018-01-25 Tessera Advanced Technologies, Inc. Configurable machine learning assemblies for autonomous operation in personal devices
US10611379B2 (en) 2016-08-16 2020-04-07 Toyota Jidosha Kabushiki Kaisha Integrative cognition of driver behavior
US11120353B2 (en) 2016-08-16 2021-09-14 Toyota Jidosha Kabushiki Kaisha Efficient driver action prediction system based on temporal fusion of sensor data using deep (bidirectional) recurrent neural network
US10740658B2 (en) 2016-09-08 2020-08-11 Mentor Graphics Corporation Object recognition and classification using multiple sensor modalities
US11188821B1 (en) 2016-09-15 2021-11-30 X Development Llc Control policies for collective robot learning
US10495753B2 (en) 2016-09-19 2019-12-03 Nec Corporation Video to radar
GB201616097D0 (en) 2016-09-21 2016-11-02 Univ Oxford Innovation Ltd Segmentation of path proposals
GB201616095D0 (en) 2016-09-21 2016-11-02 Univ Oxford Innovation Ltd A neural network and method of using a neural network to detect objects in an environment
KR102313773B1 (ko) 2016-11-07 2021-10-19 삼성전자주식회사 신경망 학습에 기반한 입력 처리 방법 및 이를 위한 장치
CN106707293B (zh) 2016-12-01 2019-10-29 百度在线网络技术(北京)有限公司 用于车辆的障碍物识别方法和装置
US10366502B1 (en) 2016-12-09 2019-07-30 Waymo Llc Vehicle heading prediction neural network
US10012993B1 (en) 2016-12-09 2018-07-03 Zendrive, Inc. Method and system for risk modeling in autonomous vehicles
US10733506B1 (en) 2016-12-14 2020-08-04 Waymo Llc Object detection neural network
US10192171B2 (en) 2016-12-16 2019-01-29 Autonomous Fusion, Inc. Method and system using machine learning to determine an automotive driver's emotional state
US10318827B2 (en) 2016-12-19 2019-06-11 Waymo Llc Object detection neural networks
US10846590B2 (en) 2016-12-20 2020-11-24 Intel Corporation Autonomous navigation using spiking neuromorphic computers
EP3566201A4 (en) 2016-12-22 2020-11-25 Xevo Inc. PROCESS AND SYSTEM FOR PROVIDING SERVICES OF ANALYSIS OF ARTIFICIAL INTELLIGENCE (AIA) FOR PERFORMANCE PREDICTION
US11157014B2 (en) 2016-12-29 2021-10-26 Tesla, Inc. Multi-channel sensor simulation for autonomous control systems
US10311312B2 (en) 2017-08-31 2019-06-04 TuSimple System and method for vehicle occlusion detection
US10402701B2 (en) 2017-03-17 2019-09-03 Nec Corporation Face recognition system for face recognition in unlabeled videos with domain adversarial learning and knowledge distillation
US10282999B2 (en) 2017-03-17 2019-05-07 GM Global Technology Operations LLC Road construction detection systems and methods
US11067995B2 (en) 2017-03-20 2021-07-20 Mobileye Vision Technologies Ltd. Navigation by augmented path prediction
CN110537191A (zh) 2017-03-22 2019-12-03 维萨国际服务协会 隐私保护机器学习
US10678244B2 (en) 2017-03-23 2020-06-09 Tesla, Inc. Data synthesis for autonomous control systems
US10387298B2 (en) 2017-04-04 2019-08-20 Hailo Technologies Ltd Artificial neural network incorporating emphasis and focus techniques
US10705525B2 (en) 2017-04-07 2020-07-07 Nvidia Corporation Performing autonomous path navigation using deep neural networks
US10332320B2 (en) 2017-04-17 2019-06-25 Intel Corporation Autonomous vehicle advanced sensing and response
US10275851B1 (en) 2017-04-25 2019-04-30 EMC IP Holding Company LLC Checkpointing for GPU-as-a-service in cloud computing environment
US11480933B2 (en) 2017-04-28 2022-10-25 Maksim Bazhenov Neural networks for occupiable space automation
EP3403546A1 (de) 2017-05-19 2018-11-21 Tchibo GmbH Brühmodul und getränkezubereitungsmaschine
US10296004B2 (en) 2017-06-21 2019-05-21 Toyota Motor Engineering & Manufacturing North America, Inc. Autonomous operation for an autonomous vehicle objective in a multi-vehicle environment
US10007269B1 (en) 2017-06-23 2018-06-26 Uber Technologies, Inc. Collision-avoidance system for autonomous-capable vehicle
US10019654B1 (en) 2017-06-28 2018-07-10 Accenture Global Solutions Limited Image object recognition
US20190019082A1 (en) 2017-07-12 2019-01-17 International Business Machines Corporation Cooperative neural network reinforcement learning
JP6729516B2 (ja) 2017-07-27 2020-07-22 トヨタ自動車株式会社 識別装置
US20190035113A1 (en) * 2017-07-27 2019-01-31 Nvidia Corporation Temporally stable data reconstruction with an external recurrent neural network
US11212539B2 (en) 2017-07-28 2021-12-28 Nvidia Corporation Efficient lossless compression of captured raw image information systems and methods
US10496881B2 (en) 2017-08-09 2019-12-03 Mapbox, Inc. PU classifier for detection of travel mode associated with computing devices
US10217028B1 (en) 2017-08-22 2019-02-26 Northrop Grumman Systems Corporation System and method for distributive training and weight distribution in a neural network
US10783381B2 (en) 2017-08-31 2020-09-22 Tusimple, Inc. System and method for vehicle occlusion detection
GB2570433A (en) 2017-09-25 2019-07-31 Nissan Motor Mfg Uk Ltd Machine vision system
US10796228B2 (en) * 2017-09-29 2020-10-06 Oracle International Corporation Machine-learning-based processing of de-obfuscated data for data enrichment
US10692244B2 (en) 2017-10-06 2020-06-23 Nvidia Corporation Learning based camera pose estimation from images of an environment
US11436471B2 (en) 2017-10-13 2022-09-06 Panasonic Intellectual Property Corporation Of America Prediction model sharing method and prediction model sharing system
JP7120708B2 (ja) * 2017-10-13 2022-08-17 ホアウェイ・テクノロジーズ・カンパニー・リミテッド クラウドデバイス共同的リアルタイムユーザ使用および性能異常検出のシステムおよび方法
US11003992B2 (en) 2017-10-16 2021-05-11 Facebook, Inc. Distributed training and prediction using elastic resources
US11544743B2 (en) 2017-10-16 2023-01-03 Adobe Inc. Digital content control based on shared machine learning properties
US20190113920A1 (en) 2017-10-18 2019-04-18 Luminar Technologies, Inc. Controlling an autonomous vehicle using model predictive control
US10671434B1 (en) * 2017-10-19 2020-06-02 Pure Storage, Inc. Storage based artificial intelligence infrastructure
US11373091B2 (en) 2017-10-19 2022-06-28 Syntiant Systems and methods for customizing neural networks
US10909266B2 (en) 2017-10-24 2021-02-02 Merck Sharp & Dohme Corp. Adaptive model for database security and processing
US10599546B1 (en) 2017-10-25 2020-03-24 Uatc, Llc Autonomous vehicle testing systems and methods
US10459444B1 (en) 2017-11-03 2019-10-29 Zoox, Inc. Autonomous vehicle fleet model training and testing
US10776688B2 (en) 2017-11-06 2020-09-15 Nvidia Corporation Multi-frame video interpolation using optical flow
CN111587407B (zh) 2017-11-10 2024-01-23 辉达公司 用于安全且可靠的自主车辆的系统和方法
GB201718692D0 (en) 2017-11-13 2017-12-27 Univ Oxford Innovation Ltd Detecting static parts of a scene
US11537868B2 (en) 2017-11-13 2022-12-27 Lyft, Inc. Generation and update of HD maps using data from heterogeneous sources
JP7213241B2 (ja) 2017-11-14 2023-01-26 マジック リープ, インコーポレイテッド ニューラルネットワークに関するマルチタスク学習のためのメタ学習
US11080537B2 (en) 2017-11-15 2021-08-03 Uatc, Llc Autonomous vehicle lane boundary detection systems and methods
CN108062562B (zh) 2017-12-12 2020-03-10 北京图森未来科技有限公司 一种物体重识别方法及装置
US11130497B2 (en) 2017-12-18 2021-09-28 Plusai Limited Method and system for ensemble vehicle control prediction in autonomous driving vehicles
US11273836B2 (en) 2017-12-18 2022-03-15 Plusai, Inc. Method and system for human-like driving lane planning in autonomous driving vehicles
US20190205744A1 (en) 2017-12-29 2019-07-04 Micron Technology, Inc. Distributed Architecture for Enhancing Artificial Neural Network
US11328210B2 (en) 2017-12-29 2022-05-10 Micron Technology, Inc. Self-learning in distributed architecture for enhancing artificial neural network
US10551199B2 (en) 2017-12-29 2020-02-04 Lyft, Inc. Utilizing artificial neural networks to evaluate routes based on generated route tiles
US10324467B1 (en) 2017-12-29 2019-06-18 Apex Artificial Intelligence Industries, Inc. Controller systems and methods of limiting the operation of neural networks to be within one or more conditions
WO2019141559A1 (en) * 2018-01-17 2019-07-25 Signify Holding B.V. System and method for object recognition using neural networks
US11095618B2 (en) * 2018-03-30 2021-08-17 Intel Corporation AI model and data transforming techniques for cloud edge
US10963273B2 (en) 2018-04-20 2021-03-30 Facebook, Inc. Generating personalized content summaries for users
US11455409B2 (en) * 2018-05-21 2022-09-27 Pure Storage, Inc. Storage layer data obfuscation
US20200005135A1 (en) * 2018-06-29 2020-01-02 Advanced Micro Devices, Inc. Optimizing inference for deep-learning neural networks in a heterogeneous system
US10856038B2 (en) 2018-08-23 2020-12-01 Sling Media Pvt. Ltd. Predictive time-shift buffering for live television
US10915663B1 (en) * 2019-01-29 2021-02-09 Facebook, Inc. Systems and methods for protecting data
US11574377B2 (en) 2019-06-03 2023-02-07 International Business Machines Corporation Intelligent on-demand management of ride sharing in a transportation system
CN114072820A (zh) 2019-06-04 2022-02-18 瑞典爱立信有限公司 执行机器学习模型
US11755884B2 (en) 2019-08-20 2023-09-12 Micron Technology, Inc. Distributed machine learning with privacy protection
US11392796B2 (en) * 2019-08-20 2022-07-19 Micron Technology, Inc. Feature dictionary for bandwidth enhancement

Also Published As

Publication number Publication date
US20210056405A1 (en) 2021-02-25
JP2022544929A (ja) 2022-10-24
US11636334B2 (en) 2023-04-25
KR20220035226A (ko) 2022-03-21
EP4018391A1 (en) 2022-06-29
WO2021034602A1 (en) 2021-02-25
EP4018391A4 (en) 2023-08-30

Similar Documents

Publication Publication Date Title
CN114207637A (zh) 具有特征混淆的机器学习
Sharmeen et al. Avoiding future digital extortion through robust protection against ransomware threats using deep learning based adaptive approaches
Khan et al. A digital DNA sequencing engine for ransomware detection using machine learning
CN109074579B (zh) 使用分布式散列表和区块链保护计算机软件的方法及系统
CN107145799A (zh) 一种数据脱敏方法及装置
Mengi et al. Automated machine learning (AutoML): The future of computational intelligence
CN110688662A (zh) 一种敏感数据脱敏及逆脱敏方法、电子设备
Li et al. Deep learning backdoors
US9858696B2 (en) Image anonymization using analytics tool
CN115730333A (zh) 基于秘密分享和同态加密的安全树模型构建方法和装置
KR20200063187A (ko) 개선된 컴퓨팅 장치
CN115883261A (zh) 一种基于att和ck的电力系统apt攻击建模方法
Anandhi et al. Performance evaluation of deep neural network on malware detection: visual feature approach
Ferreira Malicious URL detection using machine learning algorithms
Ravishankar et al. Blockchain Applications that are Transforming the Society
CN112948883A (zh) 保护隐私数据的多方联合建模的方法、装置和系统
JP2022544827A (ja) プライバシー保護を備えた分散型機械学習
Kozák et al. Combining generators of adversarial malware examples to increase evasion rate
Sifat et al. Android ransomware attacks detection with optimized ensemble learning
US20240111892A1 (en) Systems and methods for facilitating on-demand artificial intelligence models for sanitizing sensitive data
Moon et al. Directional Graph Transformer-Based Control Flow Embedding for Malware Classification
Zhou et al. A Novel Use of Kernel Discriminant Analysis as a Higher-Order Side-Channel Distinguisher
Prasse et al. Joint detection of malicious domains and infected clients
Saura et al. Privacy-Preserving Cyber Threat Information Sharing Leveraging FL-Based Intrusion Detection in the Financial Sector
Abdul Hameed et al. Big Data Process-Based Security and Privacy Issues and Measures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination