CN112005255B

CN112005255B - 促进数据匿名化的方法和系统

Info

Publication number: CN112005255B
Application number: CN201980027562.6A
Authority: CN
Inventors: P.沃森; M.张; 马腾飞; A.西珀林斯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-05-03
Filing date: 2019-04-24
Publication date: 2024-02-23
Anticipated expiration: 2039-04-24
Also published as: JP2021521527A; US11763188B2; GB2587942A; JP7300803B2; WO2019211706A1; GB202017391D0; CN112005255A; US20190340541A1

Abstract

提供了促进数据的分层随机匿名化的技术。在一个示例中，一种系统包括机器学习组件和评估组件。机器学习组件对与一个或多个特征相关联的第一数据执行机器学习过程，以生成指示与第一数据在相似度内的一个或多个示例数据集的第二数据。第一数据和第二数据包括相应的数据格式。评估组件从一个或多个特征中为特定特征评估第二数据，并生成指示第二数据的置信度得分的第三数据。

Description

促进数据匿名化的方法和系统

背景技术

本主题公开涉及机器学习，并且更具体地，涉及使与机器学习网络相关联的数据匿名化。

发明内容

以下给出了发明内容，以提供对本发明的一个或多个实施例的基本理解。该发明内容并非旨在标识关键或重要元素，也不旨在描绘特定实施例的任何范围或权利要求的任何范围。其唯一目的是以简化的形式呈现概念，作为稍后呈现的具体实施方式的序言。在本文描述的一个或多个实施例中，描述了促进数据的分层随机匿名化的设备、系统、计算机实现的方法、装置和/或计算机程序产品。

根据一个实施例，系统可以包括机器学习组件和评估组件。机器学习组件对与一个或多个特征相关联的第一数据执行机器学习过程，以生成指示与第一数据在相似度内的一个或多个示例数据集的第二数据。第一数据和第二数据包括相应的数据格式。评估组件从一个或多个特征中为特定特征评估第二数据，并生成指示第二数据的置信度得分的第三数据。

根据另一个实施例，提供了一种计算机实现的方法。该计算机实现的方法可以包括：通过可操作地耦合到处理器的系统经由加密的通信信道接收与一个或多个特征相关联的第一数据。该计算机实现的方法还可以包括：由系统执行与第一数据的生成模型相关联的第一机器学习过程，以生成指示与第一数据在相似度内的一个或多个示例数据集的第二数据。此外，该计算机实现的方法可以包括由系统执行与第二数据的分类器模型相关联的第二机器学习过程，以生成指示第二数据的置信度得分的第三数据。

根据又一实施例，一种用于促进数据匿名化的计算机程序产品可以包括计算机可读存储介质，该计算机可读存储介质具有体现在其上的程序指令。程序指令可以由处理器执行，并且使处理器：由处理器对与一个或多个特征相关联的第一数据执行机器学习过程，以生成指示与第一数据在相似度内的一个或多个示例数据集的第二数据。程序指令还可以使处理器通过处理器：由处理器从一个或多个特征为特定特征评估第二数据。此外，程序指令可以使处理器：由处理器生成指示第二数据的置信度得分的第三数据。

附图说明

图1示出了根据本文所述的一个或多个实施例的包括数据匿名化组件的示例性非限制性系统的框图。

图2示出了根据本文所述的一个或多个实施例的包括数据匿名化组件的另一示例非限制性系统的框图。

图3示出了根据本文所述的一个或多个实施例的包括数据匿名化的又一示例非限制性系统的框图。

图4示出了根据本文所述的一个或多个实施例的示例性非限制性系统，其包括用户设备和人工智能平台系统。

图5示出了根据本文所述的一个或多个实施例的示例性非限制性系统，其包括变型自动编码器。

图6示出了根据本文所述的一个或多个实施例的示例性非限制性系统，其包括卷积神经网络。

图7示出了根据本文所述的一个或多个实施例的示例性非限制性系统，其包括匿名否定处理和变型自动编码器。

图8示出了根据本文所述的一个或多个实施例的与数据匿名化相关联的示例非限制性用户界面。

图9示出了根据本文所述的一个或多个实施例的，用于促进数据匿名化的示例性非限制性计算机实现的方法的流程图。

图10示出了示例性非限制性操作环境的框图，在该示例性非限制性操作环境中，可以促进本文所述的一个或多个实施例。

图11示出了根据本发明的一个或多个实施例的示例性非限制性云计算环境的框图。

图12示出了根据本发明的一个或多个实施例的示例性非限制性抽象模型层的框图。

具体实施方式

以下详细描述仅是说明性的，并不旨在限制实施例和/或实施例的应用或使用。此外，无意受到前面的“背景技术”或“发明内容”部分或“具体实施方式”部分中呈现的任何明示或暗示信息的约束。

现在参考附图描述一个或多个实施例，其中，贯穿全文，相似的参考标号用于指代相似的元件。在下面的描述中，出于解释的目的，阐述了许多具体细节以便提供对一个或多个实施例的更透彻的理解。然而，很明显，在各种情况下，可以在没有这些具体细节的情况下实践一个或多个实施例。

首先应当理解，尽管本公开包括关于云计算的详细描述，但其中记载的技术方案的实现却不限于云计算环境，而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。

云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征包括：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(PaaS)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(IaaS)：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

通常，数字数据与计算设备和/或用户身份相关联。例如，医学图像可以与患者和/或生成医学图像的医疗设备相关联，语音数据可以与用户和/或生成语音数据的计算设备相关联，等等。此外，数字数据通常出于各种技术目的进行分析。但是，通常难以在不对数字数据进行匿名处理的情况下分析数字数据。

本文所述的实施例包括促进数据匿名化的系统，计算机实现的方法和计算机程序产品。例如，可以采用数据的分层随机匿名化来提供改进的安全性和/或数字数据的质量。在一方面，可以采用数据的生成模型(例如，数字数据的生成模型)来促进数据的匿名化。可以基于标识数据搜索生成模型，该标识数据可以作为输入提供给生成模型。识别数据可以是与用户身份相关联的数据。此外，可以提供由生成模型生成的输出，而不是数据的原始版本。在一个实施例中，用户可以经由加密的通信信道提交与用户身份相关联的数据。基于与用户身份相关联的数据，可以生成生成模型。可以训练生成模型以生成由与用户身份关联的数据指定的类型的示例。另外，可以将一组统计约束条件应用于生成模型，以沿与用户身份相关联的数据的相似度梯度生成一组示例。此外，可以评估示例集的特定特征的存在或可能性。还可以确定评估质量(例如，对特定特征的存在或可能性的评估)的置信度估计。在某些实施例中，可以提供用户和与置信度估计相关联的计分协议之间的协商过程，以允许用户响应于观察到置信度估计来释放与数据相关联的增加数量的识别信息。这样，可以改善数据的匿名性。例如，数据可以被匿名化，同时还提供例如匿名数据的分析。因此也可以提供数据的安全性和/或质量。此外，可以提高由机器学习过程生成的数据的准确性，可以提高由机器学习过程生成的数据的质量，可以提高由机器学习过程生成的数据的速度、和/或可以减少使用机器学习过程分析数据的成本。还可以提供由机器学习过程生成的机器学习模型的准确性和/或效率。

图1示出了根据本文所述的一个或多个实施例的，促进数据匿名化的示例性非限制性系统100的框图。例如，系统100可以促进数据的分层随机匿名化。在各种实施例中，系统100可以是与诸如但不限于机器学习技术、人工智能技术、批处理学习技术、计算机技术、服务器技术、信息技术、数字技术、数据分析技术、数据分类技术、数据聚类技术、医学成像技术、医疗设备技术、过滤技术、推荐系统技术、信号处理技术、图像处理技术、视频处理技术、音频处理技术和/或其他数字技术的这些技术相关联的机器学习系统。系统100可以采用硬件和/或软件来解决本质上是高度技术性的，不是抽象的并且不能作为人类的一组精神行为来执行的问题。此外，所执行的一些过程可以由一个或多个专用计算机(例如，一个或多个专用处理单元，具有数据匿名化组件的专用计算机等)执行，以执行与数据匿名化和/或机器学习相关的定义任务。系统100和/或系统的组件可以用于解决上述由于技术的进步，采用机器学习和/或计算机体系结构等而引起的新问题。系统100的一个或多个实施例可以对机器学习系统、人工智能系统、批处理学习系统、计算机系统、服务器系统、信息系统、数字系统、数据分析系统、数据分类系统、数据聚类系统、医学成像系统、医疗设备系统、过滤系统、推荐系统、信号处理系统、图像处理系统、视频处理系统、音频处理系统和/或其他系统提供技术改进。系统100的一个或多个实施例还可以通过改善处理单元的处理性能，提高处理单元的处理效率和/或减少处理单元执行机器学习过程所需的时间来对与机器学习过程相关联的处理单元(例如，处理器)提供技术改进。

在图1所示的实施例中，系统100可包括数据匿名化组件102。如图1所示，数据匿名化组件102可包括机器学习组件104和评估组件106。匿名化组件102可以构成体现在机器内的机器可执行组件，例如，体现在与一台或多台机器关联的一个或多个计算机可读介质中。当由诸如计算机、计算设备，虚拟机等的一个或多个机器执行时，这样的组件可以使机器执行所描述的操作。在一方面，数据匿名化组件102还可以包括存储计算机可执行组件和指令的存储器108。此外，数据匿名化组件102可以包括处理器110，以促进数据匿名化组件102执行指令(例如，计算机可执行组件和相应的指令)。如图所示，在一个或多个实施例中，机器学习组件104、评估组件106、存储器108和/或处理器110可以彼此电和/或通信地耦合。

数据匿名化组件102(例如，数据匿名化组件102的机器学习组件104)可以接收数据112。数据112可以由一个或多个设备生成。附加地或替代地，数据112可以存储在一个或多个数据库中，该数据库接收和/或存储与一个或多个设备相关联的数据112。在一方面，数据112可以是数字数据。此外，数据112可以包括一种或多种类型的数据，例如但不限于医学成像数据、音频数据、图像数据、视频数据、文本数据和/或其他数据。数据112也可以是编码数据、处理后的数据和/或原始数据。在一方面，数据112可以与一个或多个特征和/或一个或多个特性相关联。此外，数据112可以与用户身份相关联。例如，数据112可以是可以识别用户的一个或多个特征和/或一个或多个特性的识别数据。在非限制性实施例中，数据112可以是由一个或多个医疗设备生成的二维医疗数据和/或三维医疗数据。在一个示例中，数据112可以是经由一组传感器(例如，与医疗设备相关联的一组传感器)捕获的电磁辐射图像。在某些实施例中，数据112可以是在一段时间间隔内经由一组传感器(例如，与医疗设备相关联的一组传感器)捕获的一系列电磁辐射图像。医疗设备可以是例如X射线设备、医疗共振成像设备、计算机断层扫描(CT)设备、另一种类型的医疗设备等。在一个示例中，数据112可以与患者关联。

机器学习组件104可以对数据112执行机器学习过程。与机器学习组件104相关联的机器学习过程可以是与无监督学习相关联的机器学习过程。此外，与机器学习组件104相关联的机器学习过程可以是生成模型。例如，与机器学习组件104相关联的机器学习过程可以确定数据112的分布或模式。此外，机器学习组件104可以生成机器学习输出数据，该机器学习输出数据包括一个或多个与数据112在相似度内的示例数据集。机器学习输出数据可以包括一种或多种类型的数据，例如但不限于医学成像数据、音频数据、图像数据、视频数据、文本数据和/或其他数据。在一方面，数据112和机器学习输出数据可以包括对应的数据格式。例如，数据112可以是医学成像数据，并且机器学习输出数据可以是医学成像数据的示例数据集。在一个实施例中，与机器学习组件104相关联的机器学习过程可以采用变分自动编码器。例如，变分自动编码器可以采用与数据112相关联的概率分布来生成机器学习输出数据，该机器学习输出数据包括与数据112在相似度内的一个或多个示例数据集。另外或者可替换地，机器学习组件104可以使用隐马尔可夫模型(HMM)、贝叶斯模型(例如贝叶斯网络)、概率上下文无关文法模型、朴素贝叶斯模型、高斯混合模型和/或另一类生成式机器学习过程来生成机器学习输出数据，该输出数据包括与数据112在相似度内的一个或多个示例数据集。这样，机器学习组件104可以对与一个或多个特征相关联的第一数据执行机器学习过程，以生成与第一数据具有相似度的、指示一个或多个示例数据集的第二数据。第一数据和第二数据可以例如包括对应的数据格式。此外，机器学习组件104可以在机器学习过程期间采用与第一数据相关联的生成模型来生成第二数据。附加地或替代地，在某些实施例中，机器学习组件104可以在机器学习过程期间采用与第一数据相关联的变体自动编码器以生成第二数据。

评估组件106可以从一个或多个特征为特定特征评估机器学习输出数据。评估组件106可以采用人工智能原理，以促进针对从一个或多个特征为特定特征评估机器学习输出数据。评估组件106可以相对于机器学习输出数据显式地或隐式地执行学习。在一方面，评估组件106可以基于与人工智能原理相关联的分类、相关性、推论和/或表达，从一个或多个特征为特定特征评估机器学习输出数据。例如，评估组件106可以采用自动分类系统和/或自动分类过程来针对从一个或多个特征为特定特征评估机器学习输出数据。此外，评估组件106可以生成匿名输出数据114。匿名输出数据114可以指示机器学习输出数据的置信度得分。在一个实施例中，评估组件106可以基于深度学习网络来评估机器学习输出数据。深度学习网络可以是采用深度学习来确定与机器学习输出数据相关联的至少一个特征的人工神经网络。深度学习网络可以例如采用监督学习来确定与机器学习输出数据关联的至少一个特征。此外，深度学习网络可以类似于采用多层非线性处理级联的生物神经元系统处理信息，其中第一层可以将第二层的输出用作第一层的输入。

在非限制性实施例中，评估组件106可以基于卷积神经网络评估机器学习输出数据。卷积神经网络可以是使用深度学习来确定与机器学习输出数据相关联的至少一个特征的前馈人工神经网络。此外，卷积神经网络可以是与监督学习相关联的分类器，以确定与机器学习输出数据相关联的至少一个特征。例如，卷积神经网络可以包括将一个或多个卷积运算应用于机器学习输出数据的一组卷积层。卷积神经网络还可以包括一组完全连接的层，这些层计算与机器学习输出数据关联的分类得分。另外，在某些实施例中，卷积神经网络还可以包括一组池化层，该池化层执行下采样以调整与机器学习输出数据相关联的空间尺寸。然而，应当理解，在某些实施例中，评估组件106可以采用另一种深度学习网络。在一个实施例中，评估组件106可以生成得分数据，该得分数据指示与机器学习输出数据相关联的置信度得分。例如，评估组件106可以生成得分数据，该得分数据指示可信度得分，该可信度得分指示特定特征被包括在数据112中的置信度。得分数据可以是例如第三数据。在某些实施例中，匿名输出数据114可以包括分数数据。在另一实施例中，响应于确定得分数据满足定义的标准，评估组件106可以将与数据112相关联的其他数据用于与机器学习过程相关联的深度学习网络的附加层。例如，响应于确定得分数据满足定义的标准，评估组件106可以采用与数据112相关联的其他数据。此外，响应于确定得分数据满足定义的标准，评估组件106可以采用与机器学习过程相关联的卷积神经网络的附加层。与数据112相关联的其他数据可以是，例如，与与数据112相关联的用户身份的识别数据的增加数量相关联的附加数据。在某些实施例中，与用户相关联的用户数据可以启动与数据112相关联的其他数据用于深度学习网络的附加层。

应当理解，数据匿名化组件102(例如，机器学习组件104和/或评估组件106)执行人类无法执行的数据匿名化过程(例如，大于单个人脑的能力)。例如，可以在一定时间段内由数据匿名化组件102(例如，机器学习组件104和/或评估组件106)处理的数据量、数据的处理速度和/或数据类型可以是比在同一时间段内单个人脑可以处理的数据量、速度和数据类型更大、更快、更不同。数据匿名化组件102(例如，机器学习组件104和/或评估组件106)也可以在完全操作执行一个或多个其他功能(例如，完全通电、完全执行等)的同时，还执行以上引用的数据匿名化过程。此外，由数据匿名化组件102(例如，机器学习组件104和/或评估组件106)生成的匿名化输出数据114可以包括用户无法手动获得的信息。

图2示出了根据本文所述的一个或多个实施例的示例性非限制性系统200的框图。为了简洁起见，省略了在此描述的其他实施例中采用的类似元件的重复描述。

系统200包括数据匿名化组件102。数据匿名化组件102可包括机器学习组件104、评估组件106和/或通信组件202。通信组件202可接收数据112。附加地或者可替换地，通信组件202可以发送匿名的输出数据114。在一方面，通信组件202可以通过加密的通信信道来接收数据112。在一个实施例中，加密通信信道可以是有线加密通信信道。在另一个实施例中，加密的通信信道可以是无线通信信道。例如，加密通信信道包括一个或多个无线加密通信信道和/或一个或多个有线加密通信信道，包括但不限于广域网(WAN，例如因特网)加密通信信道、本地区域网(LAN)加密通信信道、蜂窝加密通信信道和/或另一种类型的加密无线电信道。在某些实施例中，加密的通信信道可以与一个或多个网络设备(例如，网络硬件、网络设备、计算机联网设备等)相关联，以促进经由加密的通信信道的通信。

图3示出了根据本文所述的一个或多个实施例的示例性非限制性系统300的框图。为了简洁起见，省略了在此描述的其他实施例中采用的类似元件的重复描述。

系统300包括数据匿名化组件102。数据匿名化组件102可以包括机器学习组件104、评估组件106、通信组件202和/或协商组件302。协商组件302可以促进用户设备与数据匿名化组件102之间的协商过程。例如，协商组件302可以促进用户与与评估组件106关联的计分协议之间的协商过程。用户设备可以是诸如例如，计算设备、控制器、计算机、台式计算机、膝上型计算机、监视器设备、智能设备、智能电话、移动设备、手持设备、平板电脑、可穿戴设备、便携式计算设备或其他类型的设备。协商过程可以促进允许与用户身份相关联的数据112的识别数据增加数量。例如，用户设备可以以人类可解释的格式显示与匿名化输出数据114相关联的信息。在一方面，协商组件302可以将与数据112相关联的诊断提供给用户设备。另外，协商组件302可以向用户设备提供与数据112相关联的诊断的置信度得分。用户设备可以向数据匿名化组件102提供用户数据，以请求与数据112相关联的更高保真度响应。例如，用户设备可以向数据匿名化组件102提供用户数据，以允许增加与用户身份相关联的数据112的识别数据的量。

图4示出了根据本文描述的一个或多个实施例的示例性非限制性系统400的框图。为了简洁起见，省略了在此描述的其他实施例中采用的类似元件的重复描述。

系统400包括用户设备402和人工智能平台系统404。用户设备402可以是诸如计算设备、控制器、计算机、台式计算机、膝上型计算机、监视器设备、智能设备、智能电话、移动设备、手持设备、平板电脑、可穿戴设备、便携式计算设备或其他类型的设备。在某些实施例中，用户设备402可以是医疗设备，例如，X射线设备、医疗共振成像设备、CT设备或另一种类型的医疗设备。人工智能平台系统404可以包括数据匿名化组件102。在一个示例中，人工智能平台系统404可以是促进执行一个或多个机器学习算法、执行与之相关联的一个或多个应用程序接口的服务器系统。在一个实施例中，用户设备402可以经由加密的通信信道406将数据112提供给与人工智能平台系统404相关联的数据匿名化组件102。在一个实施例中，加密的通信信道406可以是：有线加密通信通道。在另一个实施例中，加密的通信信道406可以是无线通信信道。例如，加密通信信道406可以包括一个或多个无线加密通信信道和/或一个或多个有线加密通信信道，包括但不限于广域网(WAN，例如因特网)加密通信信道、局域网(LAN)加密通信信道、蜂窝加密通信信道和/或另一种类型的加密无线电信道。在某些实施例中，加密通信信道406可以与一个或多个网络设备(例如，网络硬件、网络设备、计算机联网设备等)相关联，以促进经由加密通信信道406的数据112的通信。

图5示出了根据本文所述的一个或多个实施例的示例性非限制性系统500的框图。为了简洁起见，省略了在此描述的其他实施例中采用的类似元件的重复描述。

系统500包括数据502。数据502可以是医学成像数据、音频数据、图像数据、视频数据、文本数据和/或其他数据。数据502也可以是编码数据、处理后的数据和/或原始数据。在一个实施例中，数据502可以对应于由数据匿名化组件102接收的数据112。数据502还可以与一个或多个特征和/或一个或多个特性相关联。此外，数据502可以与用户身份相关联。例如，数据502可以是可以识别用户的一个或多个特征和/或一个或多个特性的识别数据。在非限制性实施例中，数据502可以是与患者(例如，患者身份)相关联的医学图像数据。可变自动编码器504可以接收数据502作为输入。可变自动编码器504可以采用与数据502相关联的概率分布来生成机器学习输出数据506。此外，可变自动编码器504可以是采用与数据502的概率分布相关联的无监督学习的分层可变自动编码器。一方面，可变自动编码器504可以采用神经网络和与数据502相关联的随机梯度下降。在另一方面，可变自动编码器504可以包括编码器和解码器，以从数据502生成机器学习输出数据506。机器学习输出数据506例如可以是数据502的压缩版本，其包括比数据502压缩程度小的识别数据。例如，机器学习输出数据506可以包括与数据502相比较少数量的特征和/或特性。附加地或者可替换地，机器学习输出数据506可以修改数据502的一个或多个部分，同时保持数据502的一个或多个特征和/或一个或多个特性。机器学习输出数据506可以是医学成像数据、音频数据、图像数据、视频数据、文本数据和/或其他数据。在非限制性实施例中，机器学习输出数据506可以是医学图像数据，该医学图像数据与与数据502相关联的针对患者的较小程度的识别数据(例如，患者身份)相关联。在一方面，数据502和机器学习输出数据506可以包括对应的数据格式。例如，数据502可以是医学成像数据，并且机器学习输出数据506可以是医学成像数据的示例数据集，该示例数据集与数据502在相似度内。可以理解，在替换的是实施例中，可以采用隐马尔可夫模型(HMM)、贝叶斯模型(例如贝叶斯网络)、概率上下文无关文法模型、朴素贝叶斯模型、高斯混合模型和/或其他类型的生成式机器学习过程，而不是可变自动编码器504以生成机器学习输出数据506。

图6示出了根据本文所述的一个或多个实施例的示例性非限制性系统600的框图。为了简洁起见，省略了在此描述的其他实施例中采用的类似元件的重复描述。

系统600包括机器学习输出数据506。机器学习输出数据506可以作为输入提供给卷积神经网络602。卷积神经网络602可以是采用深度学习的前馈人工神经网络以确定与机器学习输出数据506相关的至少一个特征。此外，卷积神经网络602可以是与监督学习相关的分类器，以确定与机器学习输出数据506相关的至少一个特征。例如，卷积神经网络602可以包括一组将一个或多个卷积运算应用于机器学习输出数据506的卷积层。卷积神经网络602还可以包括一组完全连接的层，这些层计算与机器学习输出相关的分类得分数据506。此外，在某些实施例中，卷积神经网络602还可以包括一组池化层，该池化层执行下采样以调整与机器学习输出数据506相关联的空间维度。然而，应当理解，在某些实施例中，可以采用另一种深度学习网络而不是卷积神经网络602。卷积神经网络602可以基于与机器学习输出数据506相关联的卷积神经网络过程来生成诊断数据604。诊断数据604可以包括特定特征和/或特性被包括在数据502中的分类和/或置信度得分。例如，诊断数据604可以包括分类和/或置信度分数，该分类和/或置信度分数指示该特定特征被包括在数据112中的置信度。在非限制性实施例中，诊断数据604可以包括医学异常被包括在数据502中的分类和/或置信度得分数据502。例如，诊断数据604可以包括特定医学异常是否被包括在数据502中的指示和/或置信度得分。

图7示出了根据本文所述的一个或多个实施例的示例性非限制性系统700的框图。为了简洁起见，省略了在此描述的其他实施例中采用的类似元件的重复描述。

系统700包括匿名协商过程702。可以基于诊断数据604执行匿名协商过程702。此外，匿名协商过程702可以促进用户与数据502相关联的人工智能平台系统之间的协商过程。用户设备可以是电子设备，例如，计算设备、控制器、计算机、台式计算机、膝上型计算机、监视器设备、智能设备、智能电话、移动设备、手持设备、平板电脑、可穿戴设备、便携式计算设备或其他类型的设备。匿名协商过程702可以促进允许与用户身份相关联的数据502的识别数据的增加的数量。例如，用户设备可以以人类可解释的格式显示与诊断数据604相关联的信息。在一个实施例中，匿名协商过程702可以将诊断数据604提供给用户设备。用户设备可以在匿名协商过程702期间提供用户数据，以请求与数据502相关联的更高保真度的响应。例如，用户设备可以在匿名协商过程702期间提供用户数据，以允许与用户的身份相关联的数据502识别数据的增加的数量。这样，响应于确定请求了与数据502相关联的更高保真度响应，将修改后的数据704提供给可变自动编码器504。修改后的数据704可以是数据502的修改后的版本。此外，数据704可以包括不包括在数据502中的一个或多个附加特征和/或一个或多个附加特性。例如，修改后的数据704可以提供附加信息以允许与数据502相关联的用户身份的识别数据的增加的数量的。

图8示出了根据本文所述的一个或多个实施例的示例性非限制性系统800的框图。为了简洁起见，省略了在此描述的其他实施例中采用的类似元件的重复描述。

系统800示出了示例性用户界面802。在一个实施例中，用户界面802可以与由数据匿名化组件102(例如，数据匿名化组件102的协商组件302)生成的用户界面相关联。用户界面802可以是呈现在用户设备的显示器上的用户界面(例如，图形用户界面)，用户设备诸如但不限于计算装置、计算机、台式计算机、膝上型计算机、监视器设备、智能设备、智能电话、移动设备、手持设备、平板电脑、便携式计算设备或与显示器关联的另一种类型的用户设备。在某些实施例中，用户界面802可以与人工智能平台系统相关联。例如，用户界面802可以与人工智能平台系统执行的应用编程接口相关联。用户界面802可以显示和/或提供数据804。在一个实施例中，数据804可以是提供给数据匿名化组件102的数据。例如，数据804可以对应于数据112和/或数据502。在一个实施例中，数据804可以是由数据匿名化组件102生成的数据。例如，数据804可以对应于机器学习输出数据506。数据804可以是医学成像数据、音频数据、图像数据、视频数据、文本数据和/或其他数据。用户界面802还可以显示匿名度806。匿名度806可以是与数据804相关联的匿名度。例如，匿名度806可以指示用于识别与用户数据804相关联的用户身份的数据的数量。附加地或者可替换地，用户接口802可以包括诊断数据808。诊断数据808可以包括对数据804中所包括的特定特征和/或特定特征的分类。在非限制性实施例中，诊断数据808可以包括在数据804中标识的医学异常的分类。附加地或者可替换地，用户界面802可以包括置信度得分810。置信度得分810可以是包括在数据804中的特定特征和/或特定特性的置信度得分。例如，置信度得分810可以包括指示特定特征包括在数据804中的置信度的置信度得分。在非限制性实施例中，置信度得分810可以包括数据804中包括的医学异常的可信度得分。例如，置信度得分810可以包括关于特定医学异常是否包括在数据804中的置信度分数。用户界面802还可以包括工具栏812。工具栏812可以包括滑块按钮814，该滑块按钮814允许用户控制数据804的匿名度806。例如，工具栏812的滑动按钮814的位置可以被修改以控制与数据804相关联的识别数据的数量。应当理解，用户界面802仅是示例。因此，可以改变与用户界面802相关联的部分的位置和/或用户界面802的内容。此外，用户界面802可以包括图8中未示出的其他特征、内容和/或功能。

图9示出了根据本文所述的一个或多个实施例的，促进数据匿名化的示例性非限制性计算机实施方法900的流程图。在902处，由可操作地耦合到处理器的系统(例如，通过机器学习组件104)经由加密的通信信道来接收与一个或多个特征相关联的第一数据。第一数据可以是医学成像数据、音频数据、图像数据、视频数据，文本数据和/或其他数据。在一个实施例中，加密通信信道可以是有线加密通信信道。在另一个实施例中，加密的通信信道406可以是无线通信信道。例如，加密通信信道可以包括一个或多个无线加密通信信道和/或一个或多个有线加密通信信道，包括但不限于广域网(WAN，例如因特网)加密通信信道、局域网(LAN)加密通信信道、蜂窝加密通信信道和/或另一种类型的加密无线电信道。在某些实施例中，加密的通信信道可以与一个或多个网络设备(例如，网络硬件、网络设备、计算机联网设备等)相关联，以促进经由加密的通信信道的第一数据的通信。

在904处，由系统(例如，通过机器学习组件104)执行与第一数据的生成模型相关联的第一机器学习过程，以生成指示与第一数据在相似度内的一个或多个示例数据集的第二数据。在一个实施例中，可以采用与第一机器学习过程相关联的可变自动编码器。例如，可以将第一数据作为输入提供给可变自动编码器。此外，可变自动编码器可以基于第一数据来生成第二数据。第二数据可以是医学成像数据、音频数据、图像数据、视频数据、文本数据和/或其他数据。第二数据也可以是例如机器学习输出数据。另外，第二数据可以是例如第一数据的压缩版本，其包括比数据502少的识别数据。例如，机器学习输出数据506可以包括比数据502更少数量的特征和/或特性。此外，第一数据和第二数据可以包括对应的数据格式。在一方面，可变自动编码器可以采用与第一数据相关联的概率分布来生成第二数据。此外，可变自动编码器可以是分层变可变动编码器，其采用与第一数据的概率分布相关联的无监督学习。在另一方面，可变自动编码器可以采用神经网络和与第一数据相关联的随机梯度下降。在又一方面，可变自动编码器可以包括编码器和解码器，以从第一数据生成第二数据。在另一个实施例中，可以采用隐马尔可夫模型(HMM)、贝叶斯模型(例如贝叶斯网络)、概率上下文无关文法模型、朴素贝叶斯模型、高斯混合模型和/或与第一机器学习过程相关的另一类型的生成式机器学习模型。

在906处，由系统(例如，由评估组件106)执行与第二数据的分类器模型相关联的第二机器学习过程，以生成指示针对第二数据的置信度得分的第三数据。例如，第二机器学习过程可以采用人工智能原理以促进对来自一个或多个特征的特定特征的第二数据的评估。置信度得分可以指示特定特征被包括在第一数据中的置信度。第二机器学习过程可以显式地或隐式地针对第二数据执行学习。在一方面，第二机器学习过程可以基于与人工智能原理相关联的分类、相关性、推论和/或表达，从一个或多个特征为特定特征评估第二数据。例如，第二机器学习过程可以采用自动分类系统和/或自动分类过程来针对来自一个或多个特征的特定特征评估第二输出数据。在一个实施例中，第二机器学习过程可以基于深度学习网络来评估第二数据。深度学习网络可以是采用深度学习来确定与第二数据相关联的至少一个特征的人工神经网络。深度学习网络可以例如采用监督学习来确定与第二数据相关联的至少一个特征。此外，深度学习网络可以处理类似于采用多层非线性处理级联的生物神经元系统的信息，其中第一层可以将第二层的输出用作第一层的输入。在非限制性实施例中，第二机器学习过程可以基于卷积神经网络来评估第二数据。卷积神经网络可以是前馈人工神经网络，其采用深度学习来确定与第二数据相关联的至少一个特征。此外，卷积神经网络可以是与监督学习相关联的分类器，以确定与第二数据相关联的至少一个特征。例如，卷积神经网络可以包括将一个或多个卷积运算应用于第二数据的一组卷积层。卷积神经网络还可以包括一组完全连接的层，这些层计算与第二数据关联的分类得分。另外，在某些实施例中，卷积神经网络还可以包括一组池化层，该池化层执行下采样以调整与第二数据相关联的空间维度。然而，应当理解，在某些实施例中，评估组件106可以采用另一种深度学习网络。

在908处，确定第三数据是否满足定义的标准。如果否，则计算机实现的方法900返回到904以基于不同的标准来重新执行第一机器学习过程。如果是，则计算机实现的方法900结束。在某些实施例中，计算机实现的方法900可以进一步包括：响应于确定第三数据满足定义的标准，由系统基于与一个或多个其他特征相关联的第四数据来执行第一机器学习过程。第四数据可以是第一数据的修改版本。例如，第四数据可以包括在用于与第一数据相关联的用户身份的识别数据的增加的数量。在另一个实施例中，执行第一机器过程和/或执行第二机器学习过程包括改善第一数据的匿名化。

为了简化说明，将计算机实现的方法论描绘和描述为一系列动作。应当理解和意识到，本发明不受所示出的动作和/或动作顺序的限制，例如，动作可以以各种顺序和/或同时发生，并且具有本文未呈现和描述的其他动作。此外，根据所公开的主题，并非所有示出的动作都可以需要用来实现计算机实现的方法。另外，本领域技术人员将理解并认识到，计算机执行的方法可替代地经由状态图或事件表示为一系列相互关联的状态。另外，应该进一步认识到，下文中以及整个说明书中公开的计算机实现的方法能够存储在制品上，以利于将这种计算机实现的方法传输和转移到计算机。本文所使用的术语“制品”旨在涵盖可从任何计算机可读设备或存储介质访问的计算机程序。

此外，因为至少执行第一机器学习过程和/或执行第二机器学习过程是从电气和机械组件以及电路的组合中建立的，所以人类无法复制或执行由本文公开的数据匿名化组件102(例如，机器学习组件104、评估组件106、通信组件202和/或协商组件302)执行的处理。例如，人类无法执行第一机器学习过程和/或第二机器学习过程。此外，人类无法生成匿名的输出数据。

为了提供所公开的主题的各个方面的上下文，图10以及以下讨论旨在提供对所公开的主题的各个方面可以在其中实施的合适环境的一般描述。图10示出了示例非限制性操作环境的框图，在该示例性非限制性操作环境中，可以促进本文所述的一个或多个实施例。为了简洁起见，省略了在此描述的其他实施例中采用的类似元件的重复描述。

参考图10，用于实现本公开的各个方面的合适的操作环境1000还可以包括计算机1012。计算机1012还可以包括处理单元1014、系统存储器1016和系统总线1018。系统总线1018将系统组件，包括但不限于系统存储器1016，耦合到处理单元1014。处理单元1014可以是各种可用处理器中的任何一个。双微处理器和其他多处理器体系结构也可以用作处理单元1014。系统总线1018可以是几种类型的总线结构中的任何一种，几种类型的总线结构包括存储器总线或存储器控制器、外围总线或外部总线、和/或使用任何可用总线架构的本地总线，任何可用总线架构包括但不限于工业标准架构(ISA)、微通道架构(MSA)、扩展ISA(EISA)、智能驱动电子(IDE)、VESA本地总线(VLB)、外围组件互连(PCI)、卡总线、通用串行总线(USB)、高级图形端口(AGP)、火线(IEEE 1394)和小型计算机系统接口(SCSI)。

系统存储器1016还可以包括易失性存储器1020和非易失性存储器1022。包含诸如在启动期间在计算机1012内的元件之间传递信息的基本例程的基本输入/输出系统(BIOS)，被存储在非易失性存储器1022中。计算机1012还可以包括可移动/不可移动、易失性/非易失性计算机存储介质。图10举例说明了磁盘存储设备1024。磁盘存储设备1024还可以包括但不限于磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS-100驱动器、闪存卡或记忆棒。磁盘存储器1024还可包括单独的存储介质或与其他存储介质组合的存储介质。为了促进磁盘存储1024与系统总线1018的连接，通常使用可移动或不可移动的接口，例如接口1026。图10还描绘了充当用户与适当的操作环境1000中描述的基本计算机资源之间的中介的软件。这样的软件还可以包括例如操作系统1028。可以存储在磁盘存储器1024上的操作系统1028用于控制和分配计算机1012的资源。

系统应用程序1030采用由操作系统1028通过程序模块1032和程序数据1034(例如存储在系统存储器1016或磁盘存储1024中的)对资源的管理。应该理解，本公开可以是用各种操作系统或操作系统组合来实现。用户通过输入设备1036向计算机1012输入命令或信息。输入设备1036包括但不限于诸如鼠标、跟踪球、触控笔、触摸板、键盘、麦克风、操纵杆、游戏垫、碟形卫星天线、扫描仪、电视调谐器卡、数码相机、数码摄像机，网络摄像机等指向设备。这些和其他输入设备经由接口端口1038通过系统总线1018连接到处理单元1014。接口端口1038包括例如串行端口、并行端口，游戏端口和通用端口(USB)。输出设备1040使用一些与输入设备1036相同类型的端口。因此，例如，USB端口可以用于向计算机1012提供输入，以及将信息从计算机1012输出到输出设备1040。提供输出适配器1042以说明存在一些输出设备，例如监视器、扬声器和打印机，以及其他输出设备1040，它们需要特殊的适配器。作为说明而非限制，输出适配器1042包括视频和声卡，其提供了输出设备1040和系统总线1018之间的连接方式。应当注意，其他设备和/或设备系统同时提供诸如远程计算机1044的输入和输出功能这两者。

计算机1012可以使用到诸如远程计算机1044的一个或多个远程计算机的逻辑连接在联网环境中操作。远程计算机1044可以是计算机、服务器、路由器、网络PC、工作站、基于微处理器的设备，对等设备或其他公共网络节点等，并且通常还可以包括相对于计算机1012所述的许多或所有元素。为了简洁起见，仅用远程计算机1044图示了内存存储器设备1046。远程计算机1044通过网络接口1048逻辑地连接到计算机1012，然后经由通信连接1050物理地连接。网络接口1048包括本地的有线和/或无线通信网络，诸如区域网络(LAN)、广域网(WAN)网络、蜂窝网络等。LAN技术包括光纤分布式数据接口(FDDI)、铜缆分布式数据接口(CDDI)、以太网、令牌环网等。WAN技术包括但不限于点对点链接、电路交换网络(如集成服务数字网络(ISDN)及其上的变体、分组交换网络和数字用户线(DSL))。通信连接1050是指用于将网络接口1048连接到系统总线1018的硬件/软件。尽管为了说明清楚起见，在计算机1012内部示出了通信连接1050，但是它也可以在计算机1012的外部。仅用于示例性目的，用于连接到网络接口1048的软件还可以包括内部和外部技术，例如包括常规电话级调制解调器、电缆调制解调器和DSL调制解调器、ISDN适配器和以太网卡。

现在参照图11，描绘了一个说明性的云计算环境1150。如图所示，云计算环境1150包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点1110，本地计算设备例如可以是个人数字助理(PDA)或移动电话1154A，台式电脑1154B、笔记本电脑1154C和/或汽车计算机系统1154N。云计算节点1110之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点1110进行物理或虚拟分组(图中未显示)。这样，云的消费者无需在本地计算设备上维护资源就能请求云计算环境1150提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解，图11显示的各类计算设备1154A-N仅仅是示意性的，云计算节点1110以及云计算环境1150可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。

现在参考图12，其中显示了云计算环境1150(图11)提供的一组功能抽象层。首先应当理解，图12所示的组件、层以及功能都仅仅是示意性的，本发明的实施例不限于此。

如图所示，提供下列层和对应功能：

硬件和软件层1260包括硬件和软件组件。硬件组件的例子包括：主机1261；基于RISC(精简指令集计算机)体系结构的服务器1262；服务器1263；刀片服务器1264；存储设备1265；网络和网络组件1266。软件组件的例子包括：网络应用服务器软件1267以及数据库软件1268。

虚拟层1270提供一个抽象层，该层可以提供下列虚拟实体的例子：虚拟服务器1271、虚拟存储1272、虚拟网络1273(包括虚拟私有网络)、虚拟应用和操作系统1274，以及虚拟客户端1275。

在一个示例中，管理层1280可以提供下述功能：资源供应功能1281：提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取；计量和定价功能1282：在云计算环境内对资源的使用进行成本跟踪，并为此提供帐单和发票。在一个例子中，该资源可以包括应用软件许可。安全功能：为云的消费者和任务提供身份认证，为数据和其它资源提供保护。用户门户功能1283：为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能1284：提供云计算资源的分配和管理，以满足必需的服务水平。服务水平协议(SLA)计划和履行功能1285：为根据SLA预测的对云计算资源未来需求提供预先安排和供应。

工作负载层1290提供云计算环境可能实现的功能的示例。在该层中，可提供的工作负载或功能的非限制示例包括：地图绘制与导航1291；软件开发及生命周期管理1292；虚拟教室的教学提供1293；数据分析处理1294；交易处理1295；以及数据匿名软件1296。

在任何可能的技术细节结合层面，本发明可以是系统、方法、设备和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)可以包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

尽管以上已经在运行在一个或多个计算机上的计算机程序产品的计算机可执行指令的一般上下文中描述了本主题，但是本领域技术人员将认识到，本公开内容也可以或可以是与其他程序模块结合实现。通常，程序模块包括执行特定任务和/或实现特定抽象数据类型的例程、程序、组件、数据结构等。此外，本领域技术人员将理解，可以用其他计算机系统配置(包括单处理器或多处理器计算机系统、小型计算设备、大型计算机以及计算机、手持式计算设备(例如PDA、电话)、基于微处理器或可编程的消费品或工业电子产品等)来实践本发明的计算机实现的方法。所说明的方面也可以在分布式计算环境中实践，在分布式计算环境中，任务由通过通信网络链接的远程处理设备执行。然而，本公开的一些(如果不是全部)方面可以在独立计算机上实践。在分布式计算环境中，程序模块可以位于本地和远程内存存储设备中。

如在本申请中使用的，术语“组件”、“系统”、“平台”、“接口”等可以指代和/或可以包括计算机相关实体或与具有一个或多个特定功能的可操作机器相关的实体。本文公开的实体可以是硬件、硬件和软件的组合、软件或正在执行的软件。例如，组件可以是但不限于在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。作为说明，在服务器上运行的应用程序和服务器都可以是组件。一个或多个组件可以驻留在执行的进程和/或线程中，并且一个组件可以位于一台计算机上和/或分布在两个或多个计算机之间。在另一个示例中，各个组件可以从其上存储有各种数据结构的各种计算机可读介质执行。组件可以例如根据具有一个或多个数据分组的信号(例如，来自与本地系统、分布式系统中和/或通过信号跨诸如因特网之类的网络的其他系统的另一组件交互的一个组件的数据)经由本地和/或远程过程进行通信。作为另一示例，组件可以是具有由电气或电子电路操作的机械部件提供的特定功能的设备，该电气或电子电路由处理器执行的软件或固件应用程序操作。在这种情况下，处理器可以在设备内部或外部，并且可以执行软件或固件应用程序的至少一部分。作为又一个示例，组件可以是通过不具有机械部件的电子组件提供特定功能的装置，其中电子组件可以包括处理器或其他装置，以执行至少部分地赋予电子组件功能的软件或固件。在一方面，组件可以经由例如云计算系统内的虚拟机来仿真电子组件。

另外，术语“或”旨在表示包含性“或”而不是排他性“或”。也就是说，除非另有说明或从上下文可以清楚得知，否则“X使用A或B”旨在表示任何自然的包含性排列。也就是说，如果X使用A；X使用B；或X使用A和B两者，则在任何上述情况下均满足“X使用A或B”。此外，在主题说明书和附图中使用的冠词“一”和“一个”通常应当被解释为意指“一个或多个”，除非另有说明或从上下文清楚地指向单数形式。如本文所使用的，术语“示例”和/或“示例性”用于表示用作示例、实例或说明。为了避免疑问，本文所公开的主题不受这些示例的限制。另外，本文中描述为“示例”和/或“示例性”的任何方面或设计不必被解释为比其他方面或设计更优选或有利，也不意味着排除了那些本领域普通技术人员已知的等效示例性结构和技术。

如在本说明书中采用的那样，术语“处理器”可以基本上指任何计算处理单元或设备，包括但不限于单核处理器、具有软件多线程执行能力的单处理器、多核处理器、具有软件多线程执行能力的多核处理器、具有硬件多线程技术的多核处理器、并行平台、以及具有分布式共享内存的并行平台。另外，处理器可以指集成电路、专用集成电路(ASIC)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑控制器(PLC)、复杂的可编程逻辑设备(CPLD)、分立的栅极或晶体管逻辑、分立的硬件组件或设计成执行本文所述的功能的其任何组合。此外，处理器可以利用纳米级架构，例如但不限于基于分子和量子点的晶体管、开关和门，以便优化空间使用或增强用户设备的性能。处理器也可以被实现为计算处理单元的组合。在本公开中，诸如“存储”、“存储器”、“数据存储”、“数据存储器”、“数据库”以及与组件的操作和功能有关的基本上任何其他信息存储组件的术语被用来指代“存储器组件”，包含在“存储器”中的实体或包含存储器的组件。应当理解，本文所述的存储器和/或存储器组件可以是易失性存储器或非易失性存储器，或者可以包括易失性和非易失性存储器两者。作为说明而非限制，非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)，电可编程ROM(EPROM)、电可擦除ROM(EEPROM)、闪存或非易失性随机存取存储器(RAM)(例如铁电RAM(FeRAM)。易失性存储器可以包括RAM，例如，RAM可以用作外部高速缓存。通过说明而非限制，RAM有多种形式，例如同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)、直接RambusRAM(DRRAM)、直接Rambus动态RAM(DRDRAM)和Rambus动态RAM(RDRAM)。另外，本文公开的系统或计算机实现的方法的存储器组件旨在包括但不限于包括这些以及任何其他合适类型的存储器。

上面已经描述的内容仅包括系统和计算机实现的方法的示例。当然，出于描述本公开的目的，不可能描述组件或计算机实现的方法的每种可能的组合，但是本领域的普通技术人员可以认识到，本公开的许多其他组合和置换是可能的。此外，在某种程度上，在具体实施方式、权利要求书、附录和附图中使用术语“包括”、“具有”、“拥有”等，这些术语旨在以包容性的方式，类似于当在权利要求中被用作过渡词时术语“包括”被解释为“包含”。

以上已经描述了各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种促进数据匿名化的系统，包括：

存储计算机可执行组件的存储器；

执行存储在所述存储器中的计算机可执行组件的处理器，其中，所述计算机可执行组件包括：

机器学习组件，其对与一个或多个特征相关联的第一数据执行机器学习过程，以生成指示与所述第一数据在相似度内的一个或多个示例数据集的第二数据，其中，所述第一数据和所述第二数据包括相应的数据格式；以及

评估组件，其从所述一个或多个特征中为特定特征评估第二数据，并生成指示所述第二数据的置信度得分的第三数据；

其中，响应于确定所述第三数据满足定义的标准，所述评估组件将与所述第一数据相关联的第四数据用于与所述机器学习过程相关联的深度学习网络的附加层。

2.如权利要求1所述的系统，其中，所述计算机可执行组件还包括：

通信组件，其经由加密的通信信道接收所述第一数据。

3.如权利要求1所述的系统，其中，所述机器学习组件对与所述第一数据相关联的图像数据执行机器学习过程，以生成所述第二数据。

4.如权利要求1所述的系统，其中，所述机器学习组件对与所述第一数据相关联的文本数据执行机器学习过程，以生成所述第二数据。

5.如权利要求1所述的系统，其中，所述机器学习组件对与所述第一数据相关联的视频数据执行机器学习过程，以生成所述第二数据。

6.如权利要求1所述的系统，其中，所述机器学习组件在所述机器学习过程期间采用与所述第一数据相关联的生成模型以生成所述第二数据。

7.如权利要求1所述的系统，其中，所述机器学习组件在所述机器学习过程期间采用与所述第一数据相关联的可变自动编码器以生成所述第二数据。

8.如权利要求1所述的系统，其中，所述评估组件使用卷积神经网络来评估所述第二数据。

9.如权利要求1所述的系统，其中，所述评估组件生成所述第三数据以改善所述第一数据的匿名化。

10.一种促进数据匿名化的计算机实现的方法，包括：

通过可操作地耦合到处理器的系统经由加密的通信信道接收与一个或多个特征相关联的第一数据；

由所述系统执行与所述第一数据的生成模型相关联的第一机器学习过程，以生成指示与所述第一数据在相似度内的一个或多个示例数据集的第二数据，其中，所述第一数据和所述第二数据包括相应的数据格式；以及

由所述系统执行与所述第二数据的分类器模型相关联的第二机器学习过程，以生成指示所述第二数据的置信度得分的第三数据；

响应于确定所述第三数据满足定义的标准，由所述系统将与所述第一数据相关联的第四数据用于与所述机器学习过程相关联的深度学习网络的附加层。

11.如权利要求10所述的计算机实现的方法，其中，所述接收包括：接收与所述第一数据相关联的图像数据。

12.如权利要求10所述的计算机实现的方法，其中，所述接收包括：接收与所述第一数据相关联的文本数据。

13.如权利要求10所述的计算机实现的方法，其中，所述接收包括与所述第一数据相关联的视频数据。

14.如权利要求10所述的计算机实现的方法，其中执行所述第一机器学习过程包括采用与所述第一数据相关联的可变自动编码器以生成所述第二数据。

15.如权利要求10所述的计算机实现的方法，其中，执行所述第二机器学习过程包括：使用与所述第二数据相关联的卷积神经网络来生成所述第三数据。

16.如权利要求10所述的计算机实现的方法，其中，所述计算机实现的方法还包括：

响应于确定所述第三数据满足定义的标准，由所述系统基于与一个或多个其他特征相关联的第四数据执行第一机器学习过程。

17.如权利要求10所述的计算机实现的方法，其中，执行所述第二机器学习过程包括改善所述第一数据的匿名化。

18.一种促进数据匿名化的计算机可读存储介质，所述计算机可读存储介质具有体现在其上的程序指令，所述程序指令可由处理器执行以使所述处理器执行以下操作：

由所述处理器对与一个或多个特征相关联的第一数据执行机器学习过程，以生成指示与所述第一数据在相似度内的一个或多个示例数据集的第二数据，其中，所述第一数据和所述第二数据包括相应的数据格式；以及

由所述处理器从一个或多个特征为特定特征评估第二数据；

由所述处理器生成指示所述第二数据的置信度得分的第三数据；以及

响应于确定所述第三数据满足定义的标准，由所述处理器将与所述第一数据相关联的第四数据用于与所述机器学习过程相关联的深度学习网络的附加层。

19.如权利要求18所述的计算机可读存储介质，其中，所述程序指令还可以由所述处理器执行以使所述处理器：

响应于确定所述第三数据满足定义的标准，由所述处理器对与一个或多个其他特征相关联的第四数据执行机器学习过程。