CN116490871A

CN116490871A - 在数据分析中自动调整数据访问策略

Info

Publication number: CN116490871A
Application number: CN202180075830.9A
Authority: CN
Inventors: A·K·鲍曼; S·夸特拉; V·埃坎巴拉姆; S·N·马瓦尼亚
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-11-24
Filing date: 2021-10-14
Publication date: 2023-07-25
Also published as: WO2022111112A1; GB2616199B; JP2023550445A; GB202308825D0; DE112021006167T5; GB2616199A; US20220164457A1

Abstract

从第一模型参数生成自动编码器网络。测量所述自动编码器网络的重构误差，所述重构误差包括所述自动编码器网络的输入与所述自动编码器网络的对应输出之间的差，所述自动编码器网络的所述输入包括初始数据集的一部分。将重构误差和对应于自动编码器网络的复杂性等级的置信度得分聚合为自动编码器网络的难度等级得分。根据所述难度等级得分和对应于所述初始数据集的初始数据访问策略级别，生成对应于所述初始数据访问策略级别的派生数据访问策略级别，所述派生数据访问策略级别对通过对所述初始数据集应用变换而生成的变换数据集执行强制访问。

Description

在数据分析中自动调整数据访问策略

背景技术

本发明总体上涉及用于调整数据访问策略的方法、系统和计算机程序产品。更具体地，本发明涉及用于在数据分析中自动调整数据访问策略的方法、系统和计算机程序产品。

在数据分析流水线或数据分析流水线中，接收和处理输入数据，然后输出结果。一些实施例包含一个以上处理步骤或层，其中在流水线或串联布置中，一个步骤的输出用作下一步骤的输入。虽然不需要改变数据本身，但是每个处理步骤被称为转换。在一些实施方式中，例如，当处理时间序列数据时，输入数据是连续的流并且输出数据是处理输入流的结果。在其他实现方式中，输入数据是离散批数据而不是连续流，并且输出数据也是离散批数据。

在数据分析中，列(也称为属性或数据属性)是特定类型的数据值的集合。行保持每列的实例的数据。由此，行-列交集保持用于每个属性的特定数据值。例如，在一组员工数据中，可能存在标记为姓名、薪金、出生月份、地址和电话的列。每一行数据可保存用于一个特定员工的数据，例如。简史密斯的名字、薪酬数据、出生月份(用于计划组建事件)、地址和移动电话号码。即使当数据实际上没有以二维、行-列格式存储时，数据属性也被称为列。

数据访问策略控制哪些实体可以访问特定数据。在一个数据访问策略实现中，数据列或属性各自被指派从最少(例如，1)到最多(例如，5)的保护规模的数据访问级别。取决于保护能力和知道受保护数据的需求的组合，数据访问实体也被分配相同规模的数据访问级别。只有数据访问级别等于或高于属性的数据访问级别的数据访问实体，才允许访问该数据。例如，指派给管理助理的数据访问系统可分配数据访问级别1，从而允许访问也分配数据访问级别为1的数据，诸如雇员出生月份数据，但不允许分配更高数据访问级别的数据。然而，薪金单处理系统可被分配数据访问级别4，从而允许访问被分配数据访问级别1-4的数据，包括雇员的薪金数据(具有数据访问级别4)。

发明内容

说明性实施例提供了一种方法、系统和计算机程序产品。实施例包括从第一模型参数生成自动编码器网络的方法。实施例测量自动编码器网络的重构误差，所述重构误差包括到自动编码器网络的输入和来自自动编码器网络的对应输出之间的差，自动编码器网络的输入包括初始数据集的一部分。实施例将重构误差和对应于自动编码器网络的复杂性等级的置信度得分聚合为自动编码器网络的难度等级得分。实施例从所述难度等级得分和对应于所述初始数据集的初始数据访问策略级别产生对应于所述初始数据访问策略级别的导出数据访问策略级别，所述导出数据访问策略级别强制执行对通过对所述初始数据集应用变换而产生的变换数据集的访问。

实施例包括计算机可用程序产品。计算机可用程序产品包括一个或多个计算机可读存储设备以及存储在一个或多个存储设备中的至少一个上的程序指令。

实施例包括计算机系统。计算机系统包括一个或多个处理器、一个或多个计算机可读存储器和一个或多个计算机可读存储设备，以及存储在一个或多个存储设备中的至少一个上的用于由一个或多个处理器中的至少一个经由一个或多个存储器中的至少一个执行的程序指令。

附图说明

在所附权利要求中阐述了被认为是本发明特征的某些新颖特征。然而，当结合附图阅读时，通过参考说明性实施例的以下详细描述，将最好地理解本发明本身以及优选的使用模式、其进一步的目的和优点，其中：

图1描绘了可以实现说明性实施例的数据处理系统网络的框图；

图2描绘了可以实现说明性实施例的数据处理系统的框图；

图3描绘了根据说明性实施例的用于自动调整数据分析中的数据访问策略的示例配置的框图；

图4描绘了根据说明性实施例的用于自动调整数据分析中的数据访问策略的示例配置的框图；

图5描绘了根据说明性实施例的在数据分析中自动地调整数据访问策略的示例；

图6描绘了根据说明性实施例的在数据分析中自动地调整数据访问策略的继续示例；

图7描绘了根据说明性实施例的在数据分析中自动地调整数据访问策略的继续示例；

图8描绘了根据说明性实施例的在数据分析中自动地调整数据访问策略的继续示例；

图9描绘了根据说明性实施例的在数据分析中自动地调整数据访问策略的继续示例；

图10描绘了根据说明性实施例的在数据分析中自动地调整数据访问策略的继续示例；

图11描绘了根据说明性实施例的用于自动调整数据分析中的数据访问策略的示例过程的流程图；

图12描绘了根据本发明的实施方式的云计算环境；以及

图13描述了根据本发明的实施方式的抽象模型层。

具体实施方式

说明性实施例认识到，如果到分析操作的输入数据受数据访问策略保护，则分析操作的输出(也称为派生数据)也可能需要适当的保护。如果派生数据未得到充分保护，则未经授权的实体可能潜在地访问并分析派生数据以恢复原始输入数据。然而，对已经公开可用的数据或者公开可用也没有风险的数据进行保护是不必要的并且增加了数据处理操作的复杂性。因此，说明性实施例认识到需要确定用于派生数据的数据访问策略。

说明性实施例还认识到，目前，人类专家对派生数据实施数据访问策略，包括手动设置特定数据访问策略级别。该设置基于简单分类规则(例如所有健康相关的数据或所有薪金单相关的数据必须具有至少特定数据访问策略级别)和专家的直觉的组合，无论人是否认为所派生数据被充分地匿名化。然而，专家的确定可随时间变化，并且不同的专家经常产生不一致的结果。同样，分析操作通常不是一对一的而是多对多的，并且随着时间随着更多的操作被添加到分析流水线而变得更加复杂。因此，数据访问策略分析变得过于复杂，人类无法准确执行，从而导致过度保护或保护不足。此外，专家的确定很少考虑分析特定派生数据集以恢复原始数据的特定难度程度。因此，说明性实施例认识到，需要基于原始数据的数据访问策略级别和从派生数据恢复原始数据的难度，自动确定用于派生数据的数据访问策略级别。

说明性实施例认识到，目前可用的工具或解决方案没有解决这些需要或为这些需要提供足够的解决方案。用于描述本发明的说明性实施例通常提出并解决上述问题和相关于在数据分析中自动调整数据访问策略的其他问题。

实施例可以实现为软件应用。实现实施例的应用可被配置为现有数据分析系统的修改、结合现有数据分析系统操作的单独应用、独立应用或其某种组合。

具体地，一些说明性实施例提供一种方法，其测量与从派生数据恢复原始数据相关联的难度等级得分并且从难度等级得分和对应于初始数据集的初始数据访问策略级别生成派生数据访问策略级别。

实施例通过确定从原始数据的列或属性到派生数据的列或属性的变换的逆来测量与从派生数据恢复原始数据相关联的难度等级得分。具体地，该实施例使用原始数据集和从原始数据派生的数据集来将模型拟合到逆变换，即从派生数据到原始数据的转换。实施例通过执行预定的一系列回归步骤来拟合模型。在回归步骤结束时，该实施例确定逆变换的误差度量。误差度量的非限制性实例是模型的原始数据预测与实际原始数据之间的差。实施例将误差度量转换成难度等级得分。难度等级得分表示从派生数据恢复原始数据的难度。预定范围中的最低难度等级得分表示等于原始数据的派生数据或者简单地容易从派生数据恢复的原始数据。由于产生足够准确的模型所需的处理时间或所产生模型的复杂性，较高难度等级得分相应地表示较困难的恢复操作。一个实施例通过将误差度量归一化为零到一范围来将误差度量转换成难度等级得分，其中零表示最低难度等级得分并且一表示最高难度等级得分。将误差度量转换成难度等级得分和其他难度等级得分范围的其他技术也是可能的并且被设想在说明性实施例的范围内。

然而，只有当原始数据和派生数据处于一对一关系时，才有可能通过确定将派生数据变换回原始数据的难度来测量与从派生数据恢复原始数据相关联的难度等级得分。因此，另一实施例使用另一方法来测量难度等级得分。

自动编码器网络是有损数据压缩算法，包括编码器部分和解码器部分。编码器部将输入数据的单元(例如，一行列交集)转换成编码形式，并且解码器部将编码形式转换成重构数据。重构数据与原始输入数据之间的差异被称为重构损失或重构误差。一个或多个模型参数定义自动编码器网络的特定配置。例如，当编码器部分和解码器部分都被实现为具有一个或多个层的完全连接的神经网络时，模型参数的一些非限制性示例是编码器部分和解码器部分中的每一个中的隐藏层的数量和大小，所述数据的编码形式的维数、在训练特别配置的自动编码器网络中使用的训练时期数、用于训练特别配置的自动编码器网络的损失函数，特别配置的自动编码器网络应该学习的速率、退出速率(在层中训练给定节点的概率)、以及在训练期间使用的任何学习速率优化器。损失函数测量神经网络的实际输出与神经网络的期望输出之间的差，因此训练神经网络试图最小化损失函数。

实施例从一个或多个模型参数生成自动编码器网络。在实施例中，一个或多个模型参数被设置为默认值、由人类专家基于对将由分析操作处理的数据的知识来设置、自动生成、或使用另一种当前已知的技术或技术组合来设置。

实施例根据一个或多个模型参数训练所生成的自动编码器网络。实施例使用原始数据集和从原始数据派生的数据集作为训练数据。实施例在处理原始数据的训练集合时，将自动编码器网络的重构误差用作训练期间的损失函数。另一实施例使用原始训练数据的编码形式(自动编码器网络的编码器部分的输出)与对应的派生的训练数据之间的差异作为训练期间的损失函数。另一个实施例训练自动编码器网络以使两个损失函数最小化。

一旦实施例已经针对指定数量的训练时期训练了生成的自动编码器网络，该实施例就对网络的重构误差和复杂度水平进行测量。为了测量网络的复杂度水平，实施例将与模型复杂度相关的模型参数组合成共同的复杂度水平。实施例将在每个编码器和解码器部分中的隐藏层的数量和尺寸以及数据的编码形式的维度的数量加入复杂度水平。另一实施例还包括在复杂性水平测量中用于训练特别配置的自动编码器网络的多个训练时期。

因为更复杂的自动编码器网络应该比不太复杂的自动编码器网络具有更低的重构误差，因此当处理相同数据时，实施例使用复杂度水平作为对应于所产生的自动编码器网络的重构误差的置信度分数。

另一实施例通过改变一个或多个模型参数生成一组自动编码器网络。例如，实施例可以生成三个自动编码器网络，每个网络具有不同数量的隐藏层、不同数量的数据编码形式的维度或两者皆有。该实施例根据每个网络的模型参数训练所生成的自动编码器网络的集合，并以本文所述的方式测量每个网络的重构误差和复杂度水平。分析多个自动编码器网络经常产生使用从分析操作派生数据输出来恢复初始数据的难度水平的更准确的确定，代价是额外的分析时间。

实施例将一个或多个自动编码器网络的重构误差和对应的复杂度水平聚合成难度等级得分。实施例通过对一个或多个自动编码器网络的重构误差求平均值来计算难度等级得分。另一实施例通过对一个或多个自动编码器网络的重构误差求平均值来计算难度等级得分，其中每个网络具有高于或低于阈值复杂性水平的复杂性水平。另一实施例使用具有最低重建误差的网络的重建误差作为难度等级得分。另一实施例使用具有最低重构误差的网络的重构误差作为难度等级得分，该网络也具有高于或低于阈值复杂度水平的复杂度水平。难度等级得分表示在使用从分析操作派生数据输出来恢复初始数据时所涉及的难度等级。

实施例确定从模型参数的初始集合生成的自动编码器网络的难度等级得分，从它们的初始设置改变一个或多个模型参数，并且生成对应的自动编码器网络集合。该实施例按照本文中描述的方式，根据每个网络的模型参数训练生成的自动编码器网络的集合，测量每个网络的重构误差和复杂度水平，并且将网络的重构误差和相应的复杂性水平聚合到新的难度等级得分。将初始的难度等级得分确定为基线并且基于该基线生成和分析附加网络有助于将附加网络的生成限制在那些预计对评估总体难度等级最有用的网络。

实施例使用难度等级得分和初始数据的数据访问策略级别来确定派生数据的数据访问策略级别。例如，如果难度等级得分较低(例如，在0-5标度上为1)，指示从派生数据恢复初始数据根本不困难，那么所派生数据的数据访问策略水平应等于初始数据的数据访问策略水平。另一方面，如果难度等级得分高(例如，0-5标度上的4.5)，指示从所派生数据恢复初始数据是非常困难的，那么所派生数据的数据访问策略水平可以相对于初始数据的数据访问策略水平降低或放宽。

本文所述的数据分析中自动调整数据访问策略的方式是目前数据分析技术领域中可用的方法中所没有的。本文中描述的实施例的方法，当被实现为在装置或数据处理系统上执行时，包括该设备或数据处理系统在从模型参数生成自动编码器网络、测量所述自动编码器网络的重构误差、将所述重构误差和置信度得分聚合为所述自动编码器网络的难度等级得分、以及根据所述难度得分和对应于所述初始数据集的初始数据访问策略水平生成派生数据访问策略水平的功能的实质性进步。

仅作为实例，关于某些类型的内容、传输、延迟、事件、气候事件、非气候事件、周期、预测、阈值、验证、响应、排名、调整、传感器、测量、装置、数据处理系统、环境、部件和应用描述了说明性实施例。这些和其他类似产物的任何具体表现不旨在限制本发明。在说明性实施例的范围内，可以选择这些和其他类似产物的任何合适的表现。

此外，可以针对任何类型的数据、数据源或通过数据网络对数据源的访问来实现说明性实施例。在本发明的范围内，任何类型的数据存储设备可以在数据处理系统本地或通过数据网络将数据提供给本发明的实施例。在说明性实施例的范围内，在使用移动装置描述实施例的情况下，适于与移动装置一起使用的任何类型的数据存储装置可在移动装置本地或通过数据网络将数据提供到此实施例。

使用特定代码、设计、架构、协议、布局、示意图和工具仅作为实例来描述说明性实施例，并且不限于说明性实施例。此外，为了描述的清楚，在一些实例中使用特定软件、工具和数据处理环境仅作为实例来描述说明性实施例。说明性实施例可以结合其他可比较的或相似用途的结构、系统、应用或架构使用。例如，在本发明的范围内，其他类似的移动设备、结构、系统、应用或架构可以与本发明的此类实施例结合使用。说明性实施例可以在硬件、软件或其组合中实现。

本公开中的示例仅用于描述的清楚，并且不限于说明性实施例。另外的数据、操作、动作、任务、活动和操纵将从本公开中想到，并且在说明性实施例的范围内设想相同的数据、操作、动作、任务、活动和操纵。

在此列出的任何优点仅是实例并且不旨在限制这些说明性实施例。通过具体的说明性实施例可以实现另外的或不同的优点。此外，特定说明性实施例可具有上文所列的优点中的一些、全部或不具有上面列出的优点中的任何一个。

应当理解，虽然本公开包括关于云计算的详细描述，但是本文所引用的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。

云计算是服务交付的模型，用于使得能够方便地、按需地网络访问可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池，所述可配置计算资源可以以最小的管理努力或与所述服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助服务：云消费者可以单方面地根据需要自动地提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者的人类交互。

广泛的网络接入：能力可通过网络获得并且通过标准机制接入，该标准机制促进异构瘦客户机平台或厚客户机平台(例如，移动电话、膝上型计算机和PDA)的使用。

资源池化：提供者的计算资源被池化以使用多租户模型来服务于多个消费者，其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉，因为消费者通常不具有对所提供的资源的确切位置的控制或了解，但可能能够以较高抽象级别(例如，国家、州或数据中心)指定位置。

快速弹性：能够快速和弹性地提供能力，在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言，可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。

测量服务：云系统通过在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，为所利用的服务的提供者和消费者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如，基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施，可能的例外是有限的用户特定应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但是对所部署的应用和可能的应用托管环境配置具有控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如，主机防火墙)的可能受限的控制。

部署模型如下：

私有云：云基础架构仅为组织运作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础架构被若干组织共享并支持共享了关注(例如，任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公共云：使云基础架构对公众或大型行业组可用，并且由出售云服务的组织拥有。

混合云：云基础架构是两个或更多个云(私有、社区或公共)的组合，这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如，云突发以用于云之间的负载平衡)绑定在一起。

云计算环境是面向服务的，集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。

参考附图并且具体参考图1和图2，这些图是可以实现说明性实施例的数据处理环境的示例图。图1和图2仅是示例并且不旨在断言或暗示关于其中可以实施不同实施例的环境的任何限制。特定实现方式可以基于以下描述对所描绘的环境做出许多修改。

图1示出了可以实现说明性实施例的数据处理系统的网络的框图。数据处理环境100是其中可以实施说明性实施例的计算机网络。数据处理环境100包括网络102。网络102是用于提供在数据处理环境100内连接在一起的各种设备和计算机之间的通信链路的介质。网络102可以包括诸如有线、无线通信链路或光纤电缆之类的连接。

客户端或服务器仅是连接到网络102的某些数据处理系统的示例角色，并且不旨在排除这些数据处理系统的其他配置或角色。服务器104和服务器106与存储单元108一起耦合到网络102。软件应用程序可以在数据处理环境100中的任何计算机上执行。客户端110、112和114也耦合到网络102。数据处理系统(诸如服务器104或106或客户端110、112或114)可以包含数据并且可以具有在其上执行的软件应用或软件工具。

仅作为示例，并且不暗示对这样的架构的任何限制，图1描绘了在实施例的示例实现中可用的某些组件。例如，服务器104和106以及客户端110、112、114仅作为示例被描绘为服务器和客户端，而不是暗示对客户端-服务器架构的限制。作为另一示例，实施例可以跨所示的若干数据处理系统和数据网络分布，而另一实施例可以在说明性实施例的范围内的单个数据处理系统上实现。数据处理系统104、106、110、112和114还表示集群、分区和适于实现实施例的其他配置中的示例节点。

设备132是本文描述的设备的示例。例如，设备132可以采取智能电话、平板计算机、膝上型计算机、固定或便携式形式的客户端110、可穿戴计算设备或任何其他合适的设备的形式。描述为在图1中的另一数据处理系统中执行的任何软件应用可被配置成以类似方式在设备132中执行。在图1中的另一个数据处理系统中存储或产生的任何数据或信息可以被配置为以类似的方式在装置132中存储或产生。

应用105实现本文所描述的实施例。应用105在服务器104和106、客户端110、112和114以及设备132中的任一个中执行。此外，分析流水线可在服务器104和106、客户端110、112和114以及设备132中的任一个中执行，并且不需要在与应用105相同的设备中执行。

服务器104和106、存储单元108和客户端110、112和114和设备132可以使用有线连接、无线通信协议或其他合适的数据连接性耦合到网络102。客户端110、112和114可以是例如个人计算机或网络计算机。

在所描绘的示例中，服务器104可以向客户端110、112和114提供例如引导文件、操作系统映像和应用之类的数据。在该示例中，客户端110、112和114可以是服务器104的客户端。客户端110、112、114或其某种组合可以包括它们自己的数据、引导文件、操作系统映像和应用。数据处理环境100可以包括附加的服务器、客户端和未示出的其他设备。

在所描绘的示例中，数据处理环境100可以是互联网。网络102可以表示使用传输控制协议/互联网协议(TCP/IP)和其他协议来彼此通信的网络和网关的集合。互联网的核心是主节点或主计算机(包括路由数据和消息的数千个商业、政府、教育和其他计算机系统)之间的数据通信链路的骨架。当然，数据处理环境100还可以被实现为许多不同类型的网络，诸如例如内联网、局域网(LAN)或广域网(WAN)。图1旨在作为实例而并非作为对于不同说明性实施例的架构限制。

除了其他用途之外，数据处理环境100可以用于实现其中可以实现说明性实施例的客户端-服务器环境。客户端-服务器环境使得软件应用和数据能够跨网络分布，以使得应用程序通过使用客户端数据处理系统和服务器数据处理系统之间的交互来发挥功能。数据处理环境100还可以采用面向服务的架构，其中，跨网络分布的可互操作的软件组件可以被一起封装为一致的业务应用。数据处理环境100还可以采取云的形式，并且采用服务递送的云计算模型，以实现对共享的可配置计算资源池(例如网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)方便地、按需地网络访问，只需最小的管理努力或与服务的提供商的交互快速地供应和释放。

参考图2，该图描述了可以实现说明性实施例的数据处理系统的框图。数据处理系统200是计算机(诸如图1中的服务器104和106或客户端110、112和114)或用于说明性实施例的实施过程的计算机可用程序代码或指令可以位于其中的另一类型的设备的示例。

数据处理系统200还表示数据处理系统或其中的配置，诸如图1中的数据处理系统132，实施说明性实施例的过程的计算机可用程序代码或指令可以位于其中。数据处理系统200仅作为示例被描述为计算机，而不限于此。其他装置(例如，图1中的装置132)形式的实施方式可修改数据处理系统200，例如，通过添加触摸界面，并且甚至从数据处理系统200中消除某些描述的部件，而不背离在本文中描述的数据处理系统200的操作和功能的一般描述。

在所描绘的示例中，数据处理系统200采用包括北桥和存储器控制器中心(NB/MCH)202以及南桥和输入/输出(I/O)控制器中心(SB/ICH)204的中心架构。处理单元206、主存储器208和图形处理器210耦合到北桥和存储器控制器中心(NB/MCH)202。处理单元206可以包含一个或多个处理器并且可以使用一个或多个异构处理器系统来实现。处理单元206可以是多核处理器。在某些实现方式中，图形处理器210可以通过加速图形端口(AGP)耦合到NB/MCH202。

在所描绘的示例中，局域网(LAN)适配器212耦合到南桥和I/O控制器中心(SB/ICH)204。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、通用串行总线(USB)和其他端口232、以及PCI/PCIe设备234通过总线238耦合到南桥和I/O控制器中枢204。硬盘驱动器(HDD)或固态驱动器(SSD)226和CD-ROM230通过总线240耦合到南桥和I/O控制器中心204。PCI/PCIe设备234可包括例如以太网适配器、插入卡和用于笔记本计算机的PC卡。PCI使用卡总线控制器，而PCIe不使用。ROM224可以是例如闪存二进制输入/输出系统(BIOS)。硬盘驱动器226和CD-ROM230可以使用例如集成驱动电子器件(IDE)、串行高级技术附件(SATA)接口或诸如外部SATA(eSATA)和微SATA(mSATA)的变体。超级I/O(SIO)设备236可以通过总线238耦合到南桥和I/O控制器中枢(SB/ICH)204。

诸如主存储器208、ROM224或闪存(未示出)的存储器是计算机可用存储设备的一些示例。硬盘驱动器或固态驱动器226、CD-ROM230和其他类似可用的装置是包括计算机可用存储介质的计算机可用存储装置的一些实例。

操作系统运行在处理单元206上。操作系统协调并提供图2中的数据处理系统200内的各种组件的控制。操作系统可以是用于任何类型的计算平台的市售操作系统，包括但不限于服务器系统、个人计算机和移动设备。面向对象的或其他类型的编程系统可以与操作系统结合操作，并且提供从在数据处理系统200上执行的程序或应用对操作系统的调用。

操作系统、面向对象的编程系统和应用或程序(诸如图1中的应用105)的指令位于存储设备上(诸如以硬盘驱动器226上的代码226A的形式)，并且可被加载到一个或多个存储器(诸如主存储器208)中的至少一个中以供处理单元206执行。示例性实施方式的处理可以通过使用计算机实施的指令由处理单元206执行，这些指令可以位于存储器中，诸如，例如，主存储器208、只读存储器224、或者一个或多个外围设备中。

此外，在一种情况下，代码226A可通过网络201A从远程系统201B下载，其中类似代码201C被存储在存储设备201D上。在另一情况下，代码226A可通过网络201A被下载到远程系统201B，其中所下载的代码201C被存储在存储设备201D上。

图1-2中的硬件可根据实施方式而变化。除了或代替在图1-2中描述的硬件，可以使用其他内部硬件或外围设备，诸如闪存、等效非易失性存储器或光盘驱动器等。此外，举例实施例的过程可以应用于多处理器数据处理系统。

在一些说明性示例中，数据处理系统200可以是个人数字助理(PDA)，其通常配置有闪速存储器以提供用于存储操作系统文件和/或用户生成的数据的非易失性存储器。总线系统可包括一条或多条总线，诸如系统总线、I/O总线和PCI总线。当然，总线系统可以使用在附接到结构或架构的不同组件或设备之间提供数据传送的任何类型的通信结构或架构来实现。

通信单元可包括用于发送和接收数据的一个或多个装置，诸如调制解调器或网络适配器。存储器可以是例如主存储器208或高速缓存，诸如在北桥和存储器控制器中心202中发现的高速缓存。处理单元可包含一个或多个处理器或CPU。

图1-2中描绘的示例和上述示例不意味着暗示架构限制。例如，数据处理系统200除了采取移动或可穿戴设备的形式之外还可以是平板计算机、膝上型计算机或电话设备。

在计算机或数据处理系统被描述为虚拟机、虚拟设备或虚拟组件的情况下，虚拟机、虚拟设备或虚拟组件以数据处理系统200的方式使用数据处理系统200中描绘的一些或所有组件的虚拟化表现来操作。例如，在虚拟机、虚拟设备或虚拟组件中，处理单元206表现为主机数据处理系统中可用的所有或某些数量的硬件处理单元206的虚拟化实例，主存储器208表现为主机数据处理系统中可用的主存储器208的所有或某个部分的虚拟化实例，并且磁盘226表现为主机数据处理系统中可用的磁盘226的所有或某个部分的虚拟化实例。在这种情况下，主机数据处理系统由数据处理系统200表示。

参考图3，该图描绘了根据说明性实施例的用于在数据分析中自动调整数据访问策略的示例配置的框图。应用程序300是图1中的应用程序105的示例并且在图1中的服务器104和106、客户端110、112和114以及装置132中的任一个中执行。

模型参数生成模块310从一个或多个模型参数生成一个或多个自动编码器网络。在模块310的实现方式中，将一个或多个模型参数设置为默认值、由人类专家基于对分析操作处理数据的了解进行设置、自动生成、或使用另一种目前已知的技术或技术组合来设置。

模型训练模块320根据一个或多个模型参数训练所生成的自动编码器网络。模块320使用原始数据集和从原始数据派生的数据集作为训练数据。模块320的一种实现方式在处理原始数据的训练集合时将自动编码器网络的重构误差用作训练期间的损失函数。模块320的另一实现方式使用原始训练数据的编码形式(自动编码器网络的编码器部分的输出)与对应的导出的训练数据之间的差作为训练期间的损失函数。模块320的另一实现方式训练自动编码器网络以使两个损失功能最小化。

一旦模块320已经针对指定数量的训练时期训练了所生成的自动编码器网络，模型评估模块330就测量网络的重构误差和复杂度水平。为了测量网络的复杂度水平，模块330将与模型复杂度相关的模型参数组合成通用的复杂度水平。因为编码器和解码器部分的每一个中的隐藏层的数量和数据的编码形式的维度的数量都是复杂度的度量，所以模块330的一个实现方式通过将编码器和解码器部分的每一个中的隐藏层的数量和数据的编码形式的维度的数量归一化到通用尺度并且将两个归一化值相乘在一起来测量网络的复杂度水平。模块330的另一实现方式还包括在复杂性水平测量中训练特别配置的自动编码器网络时使用的多个训练时期。

模块330使用复杂性水平作为对应于所产生的自动编码器网络的重构误差的置信度得分。

访问策略生成模块340将一个或多个自动编码器网络的重构误差和对应的复杂度水平聚合成难度等级得分。难度等级得分表示在使用从分析操作派生数据输出来恢复初始数据时所涉及的难度水平。

在应用300的一个实现中，模块330确定从模型参数的初始集合生成的用于自动编码器网络的难度等级得分，并且模块310从它们的初始集合改变一个或多个模型参数并且生成自动编码器网络的相应集合。模块320根据每个网络的模型参数训练所生成的一组自动编码器网络。模块330以本文描述的方式测量每个网络的重构误差和复杂度水平，并且模块340将网络的重构误差和对应的复杂性水平聚集成新的难度等级得分。

访问策略生成模块340使用难度等级得分和初始数据的数据访问策略级别来确定派生数据的数据访问策略级别。例如，如果难度等级得分较低(例如，在0-5标度上为1)，指示从所派生数据恢复初始数据根本不困难，那么所派生数据的数据访问策略水平应等于初始数据的数据访问策略水平。另一方面，如果难度等级得分高(例如，0-5标度上的4.5)，指示从所派生数据恢复初始数据是非常困难的，那么所派生数据的数据访问策略水平可以相对于初始数据的数据访问策略水平降低或放宽。

参考图4，该图描绘了根据说明性实施例的用于在数据分析中自动调整数据访问策略的示例配置的框图。具体地，图4描绘了图3中的模型评估模块330的更多细节。

重构误差模块410测量自动编码器网络的重构误差。复杂性评估模块420通过将与模型复杂性相关的模型参数组合到通用复杂性水平中来测量自动编码器网络的复杂性水平。因为编码器和解码器部分的每一个中的隐藏层的数量和数据的编码形式的维度的数量都是复杂度的度量，所以模块420的一个实现方式通过将编码器和解码器部分的每一个中的隐藏层的数量和数据的编码形式的维度的数量归一化到通用尺度并且将两个归一化值相乘在一起来测量网络的复杂度水平。模块420的另一实现方式还包括用于在复杂度水平测量中训练特别配置的自动编码器网络的多个训练时期。

参考图5，该图描绘了根据说明性实施例的在数据分析中自动调整数据访问策略的示例。该示例可使用图3中的应用300来执行。

如所描绘的，输入数据510受制于输入数据访问策略520。输入数据访问策略520包括数据访问策略级别集合，每个级别适用于输入数据510的特定属性或列。例如，特定个体的薪金数据具有4的数据访问策略级别(在1-5标度上)，因为薪金数据需要高级别的保护，而特定个体的出生月份具有1的数据访问策略级别(在1-5标度上)，因为没有附加数据的出生月份需要相对较低级别的保护。

输入数据510由数据变换530处理，得到派生数据540。应用300确定派生数据访问策略550中的策略级别的值。

参考图6，该图描绘了根据说明性实施例的在数据分析中自动调整数据访问策略的继续示例。模型参数生成模块310与图3中的模型参数生成模块310相同。输入数据510与图5中的输入数据510相同。

输入数据510包括输入数据列602，其保存薪金数据。应用300将确定从输入数据列602中的数据派生的数据的派生数据访问策略的值。

模型参数生成模块310通过改变一个或多个模型参数来生成自动编码器网络集。具体地，模型610不具有隐藏层。模型620在编码器和解码器部分的每一个中具有一个隐藏层，并且生成具有50的维度的编码数据。模型630在编码器和解码器部分的每一个中具有一个隐藏层，并且生成具有100个维度的编码数据。模型610、620和630的描绘象征性地描绘每个模型，并且不旨在作为每个模型的确切表示。

参考图7，该图描绘了根据说明性实施例的在数据分析中自动调整数据访问策略的继续示例。模型训练模块320与图3中的模型训练模块320相同。模型610、620和630与图6中的模型610、620和630相同。

如所描绘的，模型训练模块320根据一个或多个模型参数来训练模型610，从而产生经训练的模型710。模型训练模块320根据一个或多个模型参数来训练模型620，从而产生经训练的模型720。模型训练模块320根据一个或多个模型参数训练模型630，从而产生经训练的模型730。

参考图8，该图描绘了根据说明性实施例的在数据分析中自动调整数据访问策略的继续示例。派生数据540与图5中的派生数据540相同。输入数据列602和模型610与图6中的输入数据列602和模型610相同。

图8描绘了模型610的训练的更多细节。在训练期间使用的一个损失函数是重建损失810，即模型610在处理输入数据列602以生成重建的数据列802时的重建误差。在训练期间使用的另一损失函数是损失函数840、潜在矢量830、自动编码器网络的编码器部分的输出以及派生数据540中的派生特征820之间的差。

参考图9，该图描绘了根据说明性实施例的在数据分析中自动调整数据访问策略的继续示例。模型评估模块330与图3中的模型评估模块330相同。经训练的模型710、720和730与图7中的经训练的模型710、720和730相同。

模型评估模块330测量经训练的模型710、720和730中的每一个的重构误差和复杂度水平。具体地，模块330测量经训练的模型710的重构误差910和复杂度912。模块330测量经训练的模型720的重构误差920和复杂度922。模块330测量经训练的模型730的重构误差930和复杂度932。

参考图10，该图描绘了根据说明性实施例的在数据分析中自动调整数据访问策略的继续示例。访问策略生成模块340与图3中的访问策略生成模块340相同。重构误差910、920和930以及复杂度912、922和932与图9中的重构误差910、920和930以及复杂度912、922和932相同。

访问策略生成模块340将重构误差910、920和930以及复杂度912、922和932聚合成聚合的重构误差1010和置信水平1012，确定难度等级得分1020，并且使用得分1020和初始数据的数据访问策略水平来确定派生数据540的访问策略水平1030。

参考图11，该图描绘了根据说明性实施例的用于在数据分析中自动调整数据访问策略的示例过程的流程图。过程1100可以在图3中的应用300中实施。

在框1102中，应用程序从模型参数产生自动编码器网络。在框1104中，应用程序测量自动编码器网络的重构误差和复杂度水平。在框1106中，应用程序将重构误差和对应于复杂性等级的置信度得分聚集到自动编码器网络的难度等级得分中。在框1108中，应用程序从难度等级得分生成模型参数集和相应的自动编码器网络集，每个包括描述自动编码器网络的模型参数的变化。在框1110中，该应用程序针对该自动编码器网络集中的每个测量模型特定的重构误差和对应的复杂度水平。在框1112中，应用程序将对应于复杂度水平的重构误差和置信度分数聚合成该组自动编码器网络的难度分数。在框1114中，应用程序生成派生数据访问级别，所述派生数据访问级别强制执行对通过根据难度等级得分和对应于初始数据集的初始数据访问级别对初始数据集应用变换而生成的变换数据集的访问。然后应用结束。

现在参见图12，描绘了说明性云计算环境50。如图所示，云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10，本地计算设备诸如例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点10可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解，所描绘的计算设备54A-N的类型仅旨在是说明性的，并且计算节点10和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化设备通信。

现在参见图13，示出了由云计算环境50(图12)提供的一组功能抽象层。应当提前理解，所描绘的部件、层和功能仅旨在是说明性的，并且本发明的实施例不限于此。如所描述，提供以下层和对应功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：大型机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户端75。

在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪，并为这些资源的消费开账单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(SLA)规划和履行85提供根据SLA预期未来需求的云计算资源的预安排和采购。

工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括：地图和导航91；软件开发和生命周期管理92；虚拟课堂教育交付93；数据分析处理94；事务处理95；以及基于累积漏洞风险评估96的应用程序选择。

因此，在说明性实施例中提供了一种用于在数据分析和其他相关特征、功能或操作中自动调整数据访问策略的计算机实现的方法、系统或装置和计算机程序产品。当关于装置的类型描述实施例或其部分时，计算机实施的方法、系统或设备、计算机程序产品或其部分被适配或配置用于与该类型装置的合适且可比较的表现一起使用。

在实施例被描述为在应用程序中实现的情况下，将软件即服务(SaaS)模型中的应用的交付被构想在说明性实施例的范围内。在SaaS模型中，通过在云基础设施中执行应用来将实现实施例的应用的能力提供给用户。用户可通过诸如web浏览器(例如，基于web的电子邮件)或其他瘦客户端应用程序之类的瘦客户端接口使用各种客户端设备来访问应用。用户不管理或控制包括网络、服务器、操作系统或云基础设施的存储的底层云基础设施。在一些情况下，用户甚至可能不管理或控制SaaS应用的能力。在一些其他情况下，应用的SaaS实现可允许有限的用户特定应用配置设置的可能异常。

本发明可以是任何可能的技术细节集成度的系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储介质可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，连续示出的两个方框实际上可以作为一个步骤完成，同时、基本上同时、以部分或完全时间上重叠的方式执行，或者方框有时可以以相反的顺序执行，这取决于所涉及的功能。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

Claims

1.一种计算机实现方法，包括：

从第一模型参数生成自动编码器网络；

测量所述自动编码器网络的重构误差，所述重构误差包括所述自动编码器网络的输入与所述自动编码器网络的对应输出之间的差，所述自动编码器网络的所述输入包括初始数据集的一部分；

将所述重构误差和对应于所述自动编码器网络的复杂度等级的置信度得分聚合为所述自动编码器网络的难度等级得分；以及

从所述难度等级得分和对应于所述初始数据集的初始数据访问策略级别生成对应于所述初始数据访问策略级别的派生数据访问策略级别，所述派生数据访问策略级别对通过对所述初始数据集应用变换而生成的变换数据集执行强制访问。

2.根据权利要求1所述的计算机实现的方法，进一步包括：

使用所述初始数据集的训练子集来训练所述自动编码器网络。

3.根据权利要求2所述的计算机实现的方法，其中，执行所述训练以最小化所述自动编码器网络的重构误差。

4.根据权利要求2所述的计算机实现的方法，其中，执行所述训练以最小化所述自动编码器网络的编码器部分的输出与通过将变换应用于训练子集而生成的变换数据集之间的差。

5.根据权利要求1所述的计算机实现的方法，进一步包括：

为所述自动编码器网络测量所述复杂度等级。

6.根据权利要求1所述的计算机实现的方法，进一步包括：

从所述难度等级得分生成模型参数集，所述模型参数集中的第二模型参数包括所述第一模型参数的变化；

从所述模型参数集生成自动编码器网络集；

测量所述自动编码器网络集中的每一自动编码器网络的模型特定重构误差，所述模型特定重构误差包括所述自动编码器网络集中的自动编码器网络的输入和所述自动编码器网络集中的所述自动编码器网络的对应输出之间的差，所述自动编码器网络集中的所述自动编码器网络的所述输入包括所述初始数据集的所述一部分；以及

将每一自动编码器网络的所述模型特定重构误差和置信度得分集聚合为所述自动编码器网络集的难度等级得分，每一置信度得分对应于所述自动编码器网络集中的自动编码器网络的一复杂度等级。

7.根据权利要求1所述的计算机实现的方法，其中，所述模型参数包括所述自动编码器网络的编码器部分中的隐藏层的数量和所述自动编码器网络的解码器部分中的隐藏层的数量。

8.根据权利要求1所述的计算机实现的方法，其中，所述模型参数包括所述自动编码器网络的编码器部分的输出中的维数。

9.一种用于自动调整数据访问策略的计算机程序产品，所述计算机程序产品包括：

一个或多个计算机可读存储介质，以及共同存储在所述一个或多个计算机可读存储介质上的程序指令，所述程序指令包括：

用于从第一模型参数生成自动编码器网络的程序指令；

测量所述自动编码器网络的重构误差的程序指令，所述重构误差包括所述自动编码器网络的输入与所述自动编码器网络的对应输出之间的差，所述自动编码器网络的所述输入包括初始数据集的一部分；

将所述重构误差和对应于所述自动编码器网络的复杂度等级的置信度得分聚合成所述自动编码器网络的难度等级得分的程序指令；以及

用于从所述难度等级得分和对应于所述初始数据集的初始数据访问策略级别生成对应于所述初始数据访问策略级别的派生数据访问策略级别的程序指令，所述派生数据访问策略级别对通过对所述初始数据集应用变换而生成的变换数据集执行强制访问。

10.根据权利要求9所述的计算机程序产品，进一步包括：

用于使用所述初始数据集的训练子集来训练所述自动编码器网络的程序指令。

11.根据权利要求10所述的计算机程序产品，其中，执行所述训练以最小化所述自动编码器网络的重构误差。

12.根据权利要求10所述的计算机程序产品，其中，执行所述训练以最小化所述自动编码器网络的编码器部分的输出与通过将变换应用于训练子集而生成的变换数据集之间的差。

13.根据权利要求9所述的计算机程序产品，进一步包括：

为所述自动编码器网络测量所述复杂度等级的程序指令。

14.根据权利要求9所述的计算机程序产品，进一步包括：

用于从所述难度等级得分生成模型参数集的程序指令，所述模型参数集中的第二模型参数包括所述第一模型参数的变化；

用于从所述模型参数集生成自动编码器网络集的程序指令；

用于测量所述自动编码器网络集中的每一自动编码器网络的模型特定重构误差的程序指令，所述模型特定重构误差包括所述自动编码器网络集中的自动编码器网络的输入与所述自动编码器网络集中的所述自动编码器网络的对应输出之间的差，所述自动编码器网络集中的所述自动编码器网络的所述输入包括所述初始数据集的所述一部分；以及

将每一自动编码器网络的所述模型特定重构误差和置信度得分集聚合成所述自动编码器网络集的难度等级得分的程序指令，每一置信度得分对应于所述自动编码器网络集中的自动编码器网络的一复杂度等级。

15.根据权利要求9所述的计算机程序产品，其中，所述模型参数包括所述自动编码器网络的编码器部分中的隐藏层的数量和所述自动编码器网络的解码器部分中的隐藏层的数量。

16.根据权利要求9所述的计算机程序产品，其中，所述模型参数包括所述自动编码器网络的编码器部分的输出中的维数。

17.根据权利要求9所述的计算机程序产品，其中，存储的程序指令被存储在本地数据处理系统的所述一个或多个存储介质中的至少一个中，并且其中，所存储的程序指令通过网络从远程数据处理系统传输。

18.根据权利要求9所述的计算机程序产品，其中，存储的程序指令被存储在服务器数据处理系统的所述一个或多个存储介质中的至少一个中，并且其中，存储的程序指令通过网络被下载到远程数据处理系统，以用于关联于所述远程数据处理系统的计算机可读存储设备中。

19.根据权利要求9所述的计算机程序产品，其中，所述计算机程序产品提供为云环境中的服务。

20.一种计算机系统，包括一个或多个处理器、一个或多个计算机可读存储器和一个或多个计算机可读存储设备，以及存储在所述一个或多个存储设备中的至少一个上的用于由所述一个或多个处理器中的至少一个经由所述一个或多个存储器中的至少一个执行的程序指令，所存储的程序指令包括：

用于从第一模型参数生成自动编码器网络的程序指令；

将所述重构误差和对应于所述自动编码器网络的复杂度等级的置信度得分聚合为所述自动编码器网络的难度水平得分的程序指令；以及