CN111597548B

CN111597548B - 实现隐私保护的数据处理方法及装置

Info

Publication number: CN111597548B
Application number: CN202010691950.9A
Authority: CN
Inventors: 余超凡; 王磊; 周俊
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-10-30
Anticipated expiration: 2040-07-17
Also published as: CN111597548A

Abstract

本说明书实施例提供一种实现隐私保护的数据处理方法及装置，通过可信执行环境，基于对属性值的大小顺序排序，执行对相同候选值的重要度值的合并操作，在合并操作中，一方面，合并重要度值过程中，针对每个属性值，都会确定一个基准权重，并执行一次“加”操作，从系统进程调用来说，无法通过访问模式探知数据隐私，另一方面，保留与属性值相同的项数，从而避免通过合并结果的项数泄露数据分布隐私。同时，由于利用排序方式，相对于冗余加操作的合并方式，复杂度大大降低。总之，该方法和装置可以利用低复杂度的处理方式，实现内存访问模式基础上的隐私数据保护。

Description

实现隐私保护的数据处理方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及通过计算机实现隐私保护的数据处理方法及装置。

背景技术

随着计算机技术的发展，获取数据的手段也越来越多。正是因为如此，各种业务处理过程中的数据隐私保护的重要度越来越高。常规技术中，保护数据隐私的一种可行的硬件解决方案是可信执行环境Trusted Execution Environments (TEEs)。在TEE中，不论是BIOS、操作系统等均无法窥视用户隐私数据。SGX是一项复杂的技术，可以通过一组CPU指令，使得应用程序获取隔离代码和数据的特定可信区域。SGX可以提供一个安全的飞地（Enclave，也可以称为可信容器），以保护敏感数据或代码免受外部干扰或检查。

TEE 模式可以保证内存数据只在 cpu 内部可见，然而，其计算过程仍需要通过内存访问实现。对于一些特殊场景，内存访问模式具有一定的规律性。例如，判断一个命题是否为真，TEE处理逻辑可以是，如果命题为真，则X=A，否则X=B。那么TEE处理的访问模式可能是：在命题为真的情况下，A的地址被读取，X的地址被写入；在命题不为真的情况下，则B的地址被读取，X的地址被写入。也就是说，TEE可以保护X、A中的数据，但内存访问模式则是可以被探知的。外部应用通过探究计算机的内存访问模式，仍有可能造成数据的泄露，如获知命题的真假。

发明内容

本说明书一个或多个实施例描述了一种实现隐私保护的数据处理方法及装置，用以解决背景技术提到的一个或多个问题。

根据第一方面，提供了一种实现隐私保护的数据处理方法，其中，所述方法用于针对给定的M条业务数据，通过可信执行环境，为业务数据中的第一业务属性的N个候选值确定分位点，M、N均为正整数；所述方法包括：获取第一业务属性在所述M条业务数据中分别对应的M个属性值，并按照大小顺序排列所述M个属性值，M个属性值分别对应有基于M条相应业务数据确定的M个重要度值，所述M个属性值提供N个候选值；针对所述M个属性值，逐项执行对相同候选值的重要度值的合并操作，得到与M个属性值一一对应的M个合并项，其中，所述M个合并项中的单个合并项对应有单个候选值、所述单个候选值在基准权重基础上合并所述单个合并项对应的单个属性值的重要度值后的候选值权重、有效性标识，所述基准权重基于所述单个属性值的排序特征确定，所述有效性标识基于对所述单个合并项对应的单个属性值是否为相应候选值的最后一个的检测确定，用于描述所述单个合并项是否为有效信息项；根据预设的分位条件，确定用于分割所述M个属性值的至少一个分位权重；按照所述有效性标识，将所述M个合并项中的各个有效信息项按照各个候选值的大小顺序，依次累加相应的候选值权重，从而将累加的候选值权重达到各个分位权重时的相应候选值分别确定为各个分位点。

根据一个实施例，所述单个合并项对应的有效性标识通过以下方式确定：对比所述单个合并项对应的单个属性值，以及所述单个属性值的下一个属性值；在所述单个属性值与所述单个属性值的下一个属性值相同，确定所述单个合并项为无效信息项的情况下，设置所述单个合并项对应的有效性标识为第一预设值；在所述单个属性值与所述单个属性值的下一个属性值不相同，或者所述单个合并项对应所述M个属性值的最后一个属性值，确定所述单个合并项为有效信息项的情况下，设置所述单个合并项对应的有效性标识为第二预设值。

根据一个实施例，所述基准权重通过以下方式确定：在所述单个属性值是第一个出现的相应候选值的情况下，确定所述基准权重为预定值；在所述单个属性值不是第一个出现的相应候选值的情况下，确定所述基准权重为所述单个合并项的前一个合并项对应的候选值权重。

根据一个实施例，所述按照所述有效性标识，将所述M个合并项中的N个有效信息项按照N个候选值的大小顺序，依次累加相应的候选值权重包括：将所述M个合并项按照有效性标识中有效信息项标识靠前，无效信息项标识靠后，且在有效信息项中，N个候选值按照大小顺序排列的方式进行排序；对排序后的所述M个合并项，依次累加相应的候选值权重，直至达到所述至少一个分位权重中的最大权重。

根据一个实施例，所述依次累加相应的候选值权重，从而将累加的候选值权重达到各个分位权重时的相应候选值分别确定为各个分位点包括：从所述至少一个分位权重中确定目标权重，所述目标权重为当前要达到的权重；在检测到累加第一候选值的候选值权重，使得累加的候选值权重等于或超过所述目标权重的情况下，将所述第一候选值确定为分位点。

根据一个进一步的实施例，所述从所述至少一个分位权重中确定目标权重包括：基于当前确定的分位点对应的候选值权重，按照所述至少一个分位权重从小到大的顺序，确定所述目标权重。

根据一个实施例，所述分位条件包括对所述M条业务数据的筛选比例、所述M条业务数据的分布规律中的至少一项。

根据一个实施例，所述根据预设的分位条件，确定用于分割所述M个属性值的至少一个分位权重包括：累加所述M个属性值分别对应的M个重要度值，得到总重要度值；基于所述总重要度值和所述分位条件，确定所述至少一个分位权重。

根据第二方面，提供了一种实现隐私保护的数据处理装置，其中，所述装置设于可信执行环境，用于针对给定的M条业务数据，为业务数据中的第一业务属性的N个候选值确定分位点，M、N均为正整数；所述装置包括：

获取单元，配置为获取第一业务属性在所述M条业务数据中分别对应的M个属性值，并按照大小顺序排列所述M个属性值，M个属性值分别对应有基于M条相应业务数据确定的M个重要度值，所述M个属性值提供N个候选值；

合并单元，配置为针对所述M个属性值，逐项执行对相同候选值的重要度值的合并操作，得到与M个属性值一一对应的M个合并项，其中，所述M个合并项中的单个合并项对应有单个候选值、所述单个候选值在基准权重基础上合并所述单个合并项对应的单个属性值的重要度值后的候选值权重、有效性标识，所述基准权重基于所述单个属性值的排序特征确定，所述有效性标识基于对所述单个合并项对应的单个属性值是否为相应候选值的最后一个的检测确定，用于描述所述单个合并项是否为有效信息项；

分位权重确定单元，配置为根据预设的分位条件，确定用于分割所述M个属性值的至少一个分位权重；

分位点确定单元，配置为按照所述有效性标识，将所述M个合并项中的N个有效信息项按照N个候选值的大小顺序，依次累加相应的候选值权重，从而将累加的候选值权重达到各个分位权重时的相应候选值分别确定为各个分位点。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，由于基于对属性值的大小顺序排序，执行对相同候选值的重要度值的合并操作，在合并操作中，一方面，合并重要度值过程中，针对每个属性值，都会确定一个基准权重，并执行一次“加”操作，从系统进程调用来说，都是一样的，从而无法通过访问模式探知数据隐私，另一方面，保留与属性值相同的项数，从而避免通过合并结果的项数泄露数据分布隐私。同时，由于利用排序方式，相对于冗余加操作的合并方式，复杂度大大降低。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出本说明书一个具体实施架构示意图；

图2示出根据一个实施例的实现隐私保护的数据处理方法流程图；

图3示出根据一个具体例子的合并操作示意图；

图4示出根据一个实施例的实现隐私保护的数据处理装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

首先，结合图1示出的一个具体实施场景进行说明。如图1所示，为树形结构描述业务数据的应用场景。其中的业务数据可以是图片、文字、视频、音频、动画等中的至少一种。业务数据可以根据业务场景对应不同的内容。图1中的业务数据是对用户进行描述的数据，一条业务数据可以对应一个用户。在其他实施例中，业务数据还可以是其他数据，例如目标识别场景中，一条业务数据可以对应一张图片，或一段视频，在此不作限定。其中的树形结构例如可以是各种业务模型，例如GBDT（Gradient Boosting Decision Tree，梯度提升决策树）等。

在该树形结构中，每层可以对应不同的业务属性，例如年龄、收入、房产类别等等。每个业务属性可以对应多个属性值，例如业务属性“年龄”的属性值可以为0-120之间的任意自然数。如果对每个年龄值分别进行分析，则年龄对应的层可能有121个节点，树形结构的规模也会变得较大。通常，可以通过一定的属性阈值，来进行归类。例如图1中，年龄归为两类，0-18和18以上。这里，18就可以是年龄的属性阈值。在本说明书中，可以将属性阈值称为分位点。

本说明书的技术构思可以应用于分位点的确定过程。例如，对于年龄业务属性来说，如何确定将18还是40作为2个分支之间的属性阈值。可以理解的是，针对初始的业务数据，可以获取其在某个业务属性上的属性值，而要确定属性阈值，可能需要将多条业务数据上的数据进行统计。每个属性值可能不止对应一条业务数据，例如1000条与1000个用户分别对应的业务数据中，年龄为20岁的用户有100个，也就是“年龄”属性值20对应的业务条数为100条。例如等分1000条业务数据等情形下，就需要考虑各个属性值对应的业务数据条数。在年龄业务属性情况下，单条业务数据贡献的属性值可能具有等价的价值，而在一些情况下，各条业务数据的属性值贡献可能不同。例如业务属性收入，一些用户的收入可能是固定的，那么其收入可以在该固定的收入值上提供固定的贡献，然而一些用户的收入可能是不固定的，例如平均月薪1万元人民币，但每个月有浮动，如低至4千元人民币，高至1.5万元人民币，那么按照平均月薪1万元人民币记录其收入业务属性，还可以设置一定的重要度值（也可以称为权重）。该重要度值的意义可以是相应用户获取当前收入的概率。可选地，该概率可以为：月均偏差与平均月薪的比值，等等。此时，各条业务数据在该业务属性上的属性值都是带有重要度值（或权重）的，因此，属性阈值也可以称为带权分位点。在重要度值仅和业务数据条数相关的情况下，单条业务数据对应的属性值的重要度值也可以理解为，1或者按照业务数据条数的归一化值（如1：业务数据总条数）。

常规技术中，通常将各条业务数据对应的属性值列出，从头到尾依次遍历各个属性值，合并相同属性值的重要度值，进行输出。可选地，可以按照属性值大小顺序进行排序。例如16条业务数据对应的年龄属性的属性值通过数组[1，2，1，2，9，2，7，3，2，4，5，10，1，6，8，1]记录，按照属性值大小顺序排列后的数组[1，1，1，1，2，2，2，2，3，4，5，6，7，8，9，10]，其中，假设各个属性值对应的重要度值均为1，则记为[1:1，1:1，1:1，1:1，2:1，2:1，2:1，2:1，3:1，4:1，5:1，6:1，7:1，8:1，9:1，10:1]。合并重要度值可以得到输出数组 [1:4，2:4，3:1，4:1，5:1，6:1，7:1，8:1，9:1，10:1]。

在业务数据的属性值取值分布属于隐私数据时，通常可以在可信执行环境TEE中进行上述的权重合并操作以及分位点确定操作。而在TEE中，内存访问模式是无法保护的。以上过程中，由于遇到相同的属性值，重要度值被累加（内存访问加法代码段），而遇到新的属性值，重要度值不累加（不访问加法代码段），则属性值的分布信息可能被泄露。

在此基础上，常规技术中还提出一种方案，在检测到每条业务数据对应的属性值时，都在所有业务数据对应的属性值上进行累加运算。这样，相当于通过冗余加运算的方式，使得属性值的分布被保护，然而运算复杂度大大增加。假设共有n条业务数据，运算复杂度为n²。

为了解决以上问题，本说明书提出一种新的方案。在按照属性值大小排序的基础上合并相同属性值的重要度值的基础上，设置一个标识，用于标识下一个值是否新的属性值，并根据该标识确定下一个属性值的权重初始值，这样，不管下一个属性值是否为一个新的值，都会在权重初始值的基础上进行累加，执行重要度值的累加运算。同时，该标识也可以作为当前合并结果是否有效的标识，例如，在下一个值是新的属性值时，当前合并结果有效，否则，当前合并结果无效。而对于各个属性值，当前累加的权重初始值为预定值（如0），在遇到新的属性值时，在初始值的基础上累加当前属性值的重要度值。也就是说，每个属性值，不管下一个值是否新的属性值，都会执行一次累加操作。这样，所有属性值的内存访问模式都是一致的，就不能通过内存访问模式获知属性值分布，同时，这种处理方式不会增加算法复杂度，从而可以提高实现隐私保护的数据处理的有效性。

下面详细描述本说明书的技术构思。

图2示出了根据本说明书一个实施例的实现隐私保护的数据处理流程示意图。该流程的执行主体可以是具有一定计算能力的计算机、设备、服务器等。该流程可以用于针对多条业务数据，通过可信执行环境TEE为其中的任一个业务属性（以下记为第一业务属性）的多个属性值确定分位点。为了描述方便，在本说明书中，可以将业务数据条数记为M，候选值数量记为N。其中，M和N均为正整数。可以理解，候选值也就是第一业务数据的可能取值。M条业务数据在第一业务数据上可以有一一对应的M个属性值。这M个属性值均为来自N个候选值中的值。通常，M≥N。实践中，候选值可能不是预先确定的，而是根据实际的M个属性值归纳的。此时，N也可以不是预先知道的数值。换句话说，是M条业务数据对应的M个属性值提供了N个候选值。

如图2所示，该流程包括：步骤201，获取第一业务属性在M条业务数据中分别对应的M个属性值，并按照大小顺序排列M个属性值，M个属性值分别对应有基于M条相应业务数据确定的M个重要度值，各个属性值均为N个候选值中的值；步骤202，针对M个属性值，逐项执行对相同候选值的重要度值的合并操作，得到与M个属性值一一对应的M个合并项，其中，M个合并项中的单个合并项对应有单个候选值、单个候选值在合并单个合并项对应的单个属性值的重要度值后的候选值权重、有效性标识，基准权重基于该单个属性值的排序特征确定，有效性标识基于对单个合并项对应的单个属性值是否为相应候选值的最后一个的检测确定，用于描述单个合并项是否为有效信息项；步骤203，根据预设的分位条件，确定用于分割N个候选值的至少一个分位权重；步骤204，按照有效性标识，将M个合并项中的N个有效信息项按照N个候选值的大小顺序，依次累加相应的候选值权重，从而将累加的候选值权重达到各个分位权重时的相应候选值分别确定为各个分位点。

首先，在步骤201中，获取第一业务属性在M条业务数据中分别对应的M个属性值，并按照大小顺序排列M个属性值。其中，属性值可以是通过数值描述的第一业务属性的具体状态，例如，年龄对应的属性值为18、20，性别对应的属性值为2个不同的值（如0、1）分别表示男、女，等等。在树形结构为机器学习模型的情况下，属性值也可以是与第一业务属性对应的特征值。

属性值可以通过诸如集合、数组之类的形式表示。例如，10条业务数据对应的年龄属性值分别为集合{1，1，1，2，3，2，1，2，2，4}，或者数组[1，1，1，2，3，2，1，2，2，4]，等。属性值中包含的可能取值，就是候选值。例如这10条业务数据中年龄的候选值可以包括1、2、3、4。各个属性值都是1、2、3、4中的数值。

各个属性值还可以对应有基于相应业务数据确定的重要度值。其中，重要度值可以是用于描述所取属性值在相应业务属性下的重要度的数值。例如年龄业务属性，通常是确定的，其在各条业务数据中的重要度值可以是相等的，例如均为1或1与总业务条数的比值（归一化值）。对于一些业务属性，例如收入、设备使用时长等，其可能是不确定的数值，因此，可以通过合理的预定方式确定相应重要度值。例如将相应主体（用户或设备）在相应业务属性下的属性值的平均值作为属性值，将取值到相应属性值的概率作为重要度值，等等。具体可参考前文收入的例子，在此不再赘述。

在可选的实现方式中，每个属性值（value）对应的重要度值（weight）不同。上述的按照大小顺序排列的单个属性值（对应单条业务数据），可以以value：weight的格式记录，如[1：1，1：1，1：1，2：1，3：1，2：1，1：1，2：1，2：1，4：1]。在其他例子中，重要度值也可以是非整数（如0-1之间的小数）。例如，一条业务数据中，第一业务属性为用户月收入，一个用户的月收入不固定，则可以取属性值为其月收入的平均值，重要度值（weight）为其获取该平均值的概率（如0.8）。

将属性值按照相同候选值排列在一起的原则顺序排列，便于相同候选值的合并操作。在一个实施例中，可以按照属性值的大小顺序进行排列。可以理解，大小顺序可以是由大到小的顺序，也可以是由小到大的顺序。在上述例子中，10个属性值对应的候选值数量为4（分别是1、2、3、4），以由小到大的顺序为例，排列后的属性值可以为数组[1，1，1，1，2，2，2，2，3，4]或集合{1，1，1，1，2，2，2，2，3，4}。考虑重要度值例如为：[1：1，1：1，1：1，1：1，2：1，2：1，2：1，2：1，3：1，4：1]。

步骤202，针对M个属性值，逐项执行对相同候选值的重要度值的合并操作，得到与M个属性值一一对应的M个合并项。可以理解，对于按照大小顺序排列的属性值，则相同属性值对应的项连续排列。如果按顺序对相同属性值进行重要度值的累加，则可以计算出相应候选值取值对应的候选值权重。

在本说明书的技术构思下，为了得到与属性值项数一致的合并结果，以保护数据隐私，针对M个属性值中的每个属性值，都可以确定一个合并项。如图3所示，合并项与属性值一一对应。在图3中，属性值集和合并结果集中的一项用一个虚线框标识。合并结果集中的单个合并项对应有单个候选值（图3中作为示例，为了和属性值集一致，以及图示的通用性，用属性值描述）、单个候选值对应的当前候选值权重，以及该合并项的有效性标识。其中，单个候选值对应的当前候选值权重是在完成该单个合并项对应的单个属性值的重要度值的合并后的权重。

其中，有效性标识基于对单个合并项对应的单个属性值是否为相应候选值的最后一个的检测确定。由于属性值集中，相同属性值连续排布，也就是说，在当前属性值不是属性值集中的最后一个的情况下，其有效性标识有当前属性值与下一个属性值的对比确定。如图3所示，第一个合并项中的标识1由属性值1和属性值2的对比结果确定。在一个实施例中，属性值1和属性值2相同，则其对应的相同候选值的最终候选值权重不是属性值1对应的候选值权重（即权重1，至少还需要对属性值2的重要度值进行叠加），可以确定属性值1对应的合并项为无效信息项。此时，第一个合并项对应的标识1可以被设置为第一预设值（如0）表示。在另一个实施例中，属性值1和属性值2不相同，则两者对应不同候选值。属性值1对应的候选值权重（权重1）是其对应的候选值的最终候选值权重，可以确定第一个合并项为有效信息项。此时，标识1可以设置为第二预设值（如非零值，1等）。可以理解，在当前合并项对应的属性值是最后一个属性值（如第M个属性值）的情况下，其只可能是某个候选值的最后一个，因此，其对应的候选值权重是最终的候选值权重，可以直接将相应有效性标识设置为标识有效信息项的第二预设值。

根据一个可能的设计，对于单个候选值来说，可以为其设置权重初始值，例如0。这样对于新的属性值（也就是新的候选值），可以通过权重初始值加上新的属性值的重要度值的方式，确定相应合并项的候选值权重。可以理解，第一个属性值对应的权重初始值可以为预设值。对于后续的任一个属性值，如果该属性值不是某个候选值的第一个属性值，那么可以在其前一个属性值对应的合并项对应的候选值权重基础上，累加当前属性值的重要度值，作为该属性值对应的合并项的候选值权重。

在可选的实现方式中，为了依次对M个属性值执行相同的加操作（保持内存访问方式一致），可以通过当前属性值（非最后一个）对应的合并项中的有效性标识的值（代表着下一个属性值是否为新的属性值），确定下一个属性值基准权重。一个属性值的基准权重，可以是该属性值对应的合并项中，通过累加该属性值的重要度值得到候选值权重的基准值。基准权重可以基于单个属性值的排序特征确定。这样，每个合并项中的候选值权重都基于相应基准权重和相应属性值的重要度值的加和结果确定。例如为加和结果本身，或与加和结果正相关的值（如归一化值）。可选地，在单个属性值是第一个出现的相应候选值的情况下，基准权重为预定值；在单个属性值不是第一个出现的相应候选值的情况下，基准权重为单个合并项的前一个合并项对应的候选值权重。

作为一个具体示例，如图3所示，对于属性值1，是第一个属性值，必然是相应候选值的第一个属性值，其基准权重可以是预定值（如0）。属性值2则可能是相应候选值的第一个属性值，也可能不是相应候选值的第一个属性值，这可以由属性值1对应的合并项中的标识1（有效性标识）确定。如果该标识1是无效信息项标识，则代表着属性值1和属性值2相等，从而属性值2不是相应候选值对应的第一个属性值，其基准权重应为属性值1对应的合并项中的权重1。如果该标识1是有效信息项标识，则代表着属性值1和属性值2不相等，从而属性值2对应的基准权重应为预定值。由于此时属性值2对应的基准权重与权重1无关，因此图3中权重1对属性值2对应的基准权重的连接关系为虚线，即分情形相关。

以数组[1，1，1，2，3，2，1，2，2，4]（也可以是集合等形式）为例，排序后为[1，1，1，1，2，2，2，2，3，4]。对于第一个属性值1，是候选值1对应的第一个属性值，可以在基准权重上叠加属性值1的重要度值，如默认值1，得到第一个属性值对应的候选值1的候选值权重。在第2、第3、第4个属性值上，由于与均为与前一个属性值一致的属性值，可以分别将前一个属性值对应的候选值权重作为基准权重，叠加自身对应的重要度值，得到相应候选值1的候选值权重，分别为2、3、4。以此类推。可选地，重要度值的默认值还可以是归一化的值，例如总的业务数据条数为10，每个属性值的重要度值为1/10。

依次合并相同候选值的重要度值，合并结果可以依次为：1：1，1：2，1：3，1：4，2：1，2：2，2：3，2：4，3：1，4：1。也就是说，记录属性值及相应候选值的重要度值的合并结果。如前文的描述，如果合并结果只取候选值及最终候选值权重，可以得到[1：4，2：4，3：1，4：1]，则容易泄露候选值数量（与输出项数一致）等数据隐私。在本说明书实施例中，保留与属性值相同的项数，即与业务数据总条数一致的项数，从而避免通过合并结果的项数泄露数据隐私。合并结果还通过有效性标识区分有效信息项和无效信息项。假设有效性标识通过标识位（如记为isnew）来表示，其值为1时表示出现新的属性值，其值为0时表示未出现新的属性值。例如上述例子中，得到的合并结果可以为：[1：1：0，1：2：0，1：3：0，1：4：1，2：1：0，2：2：0，2：3：0，2：4：1，3：1：1，4：1：1]，其中，单个合并项的格式为：候选值value：权重weight：标识位isnew。由于各个属性值按照大小顺序排列，各合并项的属性值也可以按照相同的大小顺序排列。

可以理解，在M个合并项中，通常有N项为有效信息项，一一对应N个候选值。另外的M-N项可以为无效信息项。

在该步骤202的合并重要度值过程中，针对每个属性值，都会执行一次“加”操作，从系统进程调用来说，都是一样的，从而无法通过访问模式探知数据隐私。另一方面，通过有效信息项和无效信息项的设置，可以输出与原始项数一致的数据，从而避免数据分布等隐私的泄露。

另一方面，在步骤203中，根据预设的分位条件，确定用于分割N个候选值的至少一个分位权重。可以理解，本说明书实施例的目的是将M个属性值按照N个候选值进行分割。因此，分割N个候选值，即可将分割后的候选值对应的属性值分割开来。例如候选值数量为4个，分割4个候选值，前2个一组，后两个一组，则前2个候选值对应的属性值被分割到一组，后2个候选值对应的属性值被分割到一组。

分位条件可以是预先设定的、可以是用于分割N个候选值的业务条件。例如，对M条业务数据的筛选比例、M条业务数据的分布规律等等中的至少一项。对M条业务数据的筛选比例，例如是筛除收入较低的20%，及收入较高的20%；M条业务数据的分布规律，例如是平均分布、正态分布、按2：6：2的比例分布等。

可以理解，M个属性值共对应N个候选值，因此，用于分割N个候选值的各个分位点应从N个候选值中选择。而选择的参考可以是分位权重（理论值）。而业务属性中，分位值往往是分割阈值，即按照大小顺序对属性值进行分割。例如，在分位点用于将业务数据条数等分为5等份（分布规律为5份平均分布）的情况下，可以按照属性值大小，每20%作为一等份，而不会将大小不在一个区间的属性值分在同一等份中。因此，可以按照根据属性值的大小顺序，累加相应候选值权重的构思，确定出分位权重。例如，在分位点用于将业务数据条数等分为5等份的情况下，分位点理论上可以是按照候选值大小顺序，候选值权重累加到20%、40%、60%、80%处的候选值。

在一些实施例中，分位权重与业务数据条数相关。单个属性值对应的重要度值为预设的固定值，如1，分位权重也可以通过业务数据总条数或业务数据总条数与该固定值的乘积确定。那么，分位权重可以用业务数据总条数表示。例如，1000条业务数据，预设的固定值为1，理论上的分位权重为200、400、600、800。

在另一些实施例中，各个属性值对应的重要度值非固定，则可以按照候选值权重的累积比例确定分位权重。此时，可以累加M个属性值分别对应的M个重要度值，得到总重要度值，基于总重要度值和分位条件，确定至少一个分位权重。假设1000条业务数据的总重要度值为200，则均分5等份的情况下，按照候选值权重的累积比例20%、40%、60%、80%确定4个分位权重分别为：40、80、120、160。可选地，还可以将候选值权重进行归一化处理，即将各个候选值权重分别相对于M个重要度值加和得到的总重要度值进行归一化，然后按照归一化的候选值权重确定分位权重。由于归一化后，各个候选值的有效信息项的候选值权重总和为1，可以确定4个分位权重20%、40%、60%、80%。

在其他实施例中，还可以通过各种其他合理的方式确定用于分割N个候选值的至少一个分位权重，在此不再赘述。

进一步地，在步骤204中，按照有效性标识，将M个合并项中的N个有效信息项按照N个候选值的大小顺序，依次累加相应的候选值权重，从而将累加的候选值权重达到各个分位权重时的相应候选值分别确定为各个分位点。可以理解，无效信息项是用来避免隐私泄露而保留的项，其对最终分为结果没有影响。也就是说，确定作为分位点的各个候选值依据的是有效信息项。

由于合并项中，各个项按照属性值的大小顺序排列，因此可以根据各个候选值权重依次进行累加，并与至少一个分位权重相比较，从而确定分位的候选值。例如，分位条件为划分比例是4：6，则在总的业务条数为10的情况下，可以在有效信息项对应的权重累加到4（或0.4）的情况下，将相应候选值确定为分位点的候选值。如上例中，第一个有效信息项（1:4:1）的权重为4，已达到4，选取候选值1作为分位点。在分位点有多个的情况下，可以继续累加重要度值，直至找到各个分位权重对应的候选值即可。

在一个实施例中，可以从至少一个分位权重中确定一个目标权重，目标权重为当前要达到的权重，例如20%，在检测到累加有效信息项的某个候选值（以下可以称为第一候选值）的候选值权重，使得累加的候选值权重等于或超过目标权重20%的情况下，将第一候选值确定为分位点。则进一步确定下一个目标权重为40%，以此类推，直至确定出分位权重80%对应的分位点。

根据一个可能的设计，为了避免遇到无效信息项不进行累加（如跳过），可能导致无效信息项泄露的风险，还可以将M个合并项按照有效性标识中有效信息项标识靠前，无效信息项标识靠后，且在有效信息项中，N个候选值按照大小顺序排列的方式进行排序，对排序后的M个合并项，依次累加相应的候选值权重，直至达到至少一个分位权重中的最大权重。这样，按照正常流程执行确定分位点的操作，直至确定出最后一个分位点结束。作为示例，合并项[1：1：0，1：2：0，1：3：0，1：4：1，2：1：0，2：2：0，2：3：0，2：4：1，3：1：1，4：1：1]排序为[1：4：1， 2：4：1，3：1：1，4：1：1，1：1：0，1：2：0，1：3：0，2：1：0，2：2：0，2：3：0]，则从第一项开始检测候选值权重是否满足分位权重，假设为分配比例8:2，分位权重为80%，则对第1项、第2项累计达到80%的权重，将2确定为分位点。由于分位操作结束之前的各项操作一致，并且分位操作结束并不意味着有效信息项的结束，因此后面的各项无操作，是无法通过内存访问模式确定其是否属于无效信息项，或者有多少项属于无效信息项的，尤其在数据量较大的情况下，从而有效保护数据隐私。

可以理解，对于按照大小顺序排列的属性值来说，同一个候选值对应的业务数据不能拆分到两个类别，因此，在遇到累加一个候选值之前未达到目标分位权重，而累加后超过目标分位权重的情况下，当前候选值被确定为分位点，但该分位点分割出的属性值不是分位权重对应的比例。此时，在可选的实现中，还可以按照实际分割比例继续后续的分位操作。例如，划分为3等份的例子中，合并项为9项：[1：2：1，2：2：1，3：1：1，4：3：1，5：1：1，1：1：0，2：1：1，4：1：0，4：2：0]，确定的分位权重3、6，第一个目标分位权重为3，第一个候选值权重为2，未达到3，累加第2个第二个候选值权重2，得到累加权重4，超过3，则将第二个候选值权重对应的候选值2作为分位点。也就是说，相应业务属性值为候选值1、2的业务数据划分到第一类。则确定下一类的分位点时，可以从第三个候选值权重重新确定目标权重为7。当然，在一些实施例中，仍可以按照原目标权重6进行分位操作，本说明书对此并不限定。

回顾以上过程，本说明书实施例提供的方法，由于基于对属性值的大小顺序排序，执行对相同候选值的重要度值的合并操作，在合并操作中，一方面，合并重要度值过程中，针对每个属性值，都会确定一个基准权重，并执行一次“加”操作，从系统进程调用来说，都是一样的，从而无法通过访问模式探知数据隐私，另一方面，保留与属性值相同的项数，从而避免通过合并结果的项数泄露数据分布隐私。同时，由于利用排序方式，复杂度为n *logn * logn，相对于冗余加操作的合并方式的复杂度n²，复杂度大大降低，从而运算速度大大提高。在一个实验中，以 65536 个原始候选值为例，可以加速 256 倍。总之，本说明书实施例提供的方法，可以有效在保护数据隐私的基础上，提高效率，增强可用性。

根据另一方面的实施例，还提供一种实现隐私保护的数据处理装置。图4示出该数据处理装置的一个实施例的示例性框图。该装置可以用于针对给定的M条业务数据，为业务数据中的第一业务属性的N个候选值确定分位点。其中，M、N均为正整数。可以理解的是，N可以是根据M条业务数据确定的值，预先未知。图4示出的装置可以设于可信执行环境TEE中。

如图4所示，实现隐私保护的数据处理装置400包括：

获取单元41，配置为获取第一业务属性在M条业务数据中分别对应的M个属性值，并按照大小顺序排列M个属性值，M个属性值分别对应有基于M条相应业务数据确定的M个重要度值，M个属性值提供N个候选值；

合并单元42，配置为针对M个属性值，逐项执行对相同候选值的重要度值的合并操作，得到与M个属性值一一对应的M个合并项，其中，M个合并项中的单个合并项对应有单个候选值、单个候选值在基准权重基础上合并单个合并项对应的单个属性值的重要度值后的候选值权重、有效性标识，基准权重基于单个属性值的排序特征确定，有效性标识基于对单个合并项对应的单个属性值是否为相应候选值的最后一个的检测确定，用于描述单个合并项是否为有效信息项；

分位权重确定单元43，配置为根据预设的分位条件，确定用于分割N个候选值的至少一个分位权重；

分位点确定单元44，配置为按照有效性标识，将M个合并项中的N个有效信息项按照N个候选值的大小顺序，依次累加相应的候选值权重，从而将累加的候选值权重达到各个分位权重时的相应候选值分别确定为各个分位点。

根据一个可选的实现方式，合并单元42还可以配置为通过以下方式确定单个合并项对应的有效性标识：

对比单个合并项对应的单个属性值，以及该单个属性值的下一个属性值；

在单个属性值与单个属性值的下一个属性值相同，确定单个合并项为无效信息项的情况下，设置单个合并项对应的有效性标识为第一预设值；

在单个属性值与单个属性值的下一个属性值不相同，或者单个合并项对应M个属性值的最后一个属性值，确定单个合并项为有效信息项的情况下，设置单个合并项对应的有效性标识为第二预设值。

根据另一个可选的实现方式，合并单元42进一步可以配置为通过以下方式确定基准权重：

在单个属性值是第一个出现的相应候选值的情况下，确定基准权重为预定值；

在单个属性值不是第一个出现的相应候选值的情况下，确定基准权重为单个合并项的前一个合并项对应的候选值权重。

在一方面的设计中，分位点确定单元44可以进一步配置为：

将M个合并项按照有效性标识中有效信息项标识靠前，无效信息项标识靠后，且在有效信息项中，N个候选值按照大小顺序排列的方式进行排序；

对排序后的M个合并项，依次累加相应的候选值权重，直至达到至少一个分位权重中的最大权重。

在另一个可能设计中，分位点确定单元44可以进一步配置为：

从至少一个分位权重中确定目标权重，目标权重为当前要达到的权重；

在检测到累加第一候选值的候选值权重，使得累加的候选值权重等于或超过目标权重的情况下，将第一候选值确定为分位点。

根据一个进一步的实施例，分位点确定单元44还可以配置为：

基于当前确定的分位点对应的候选值权重，按照至少一个分位权重从小到大的顺序，确定目标权重。

在一个可选的实现方式中，分位条件包括对M条业务数据的筛选比例、M条业务数据的分布规律中的至少一项。

根据一个可能的实施方式，分位权重确定单元43进一步可以配置为：

累加M个属性值分别对应的M个重要度值，得到总重要度值；

基于总重要度值和分位条件，确定至少一个分位权重。

值得说明的是，图4所示的装置400是与图2示出的方法实施例相对应的装置实施例，图2示出的方法实施例中的相应描述同样适用于装置400，在此不再赘述。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的技术构思的具体实施方式而已，并不用于限定本说明书的技术构思的保护范围，凡在本说明书实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的技术构思的保护范围之内。

Claims

1.一种实现隐私保护的数据处理方法，其中，所述方法用于针对给定的M条业务数据，通过可信执行环境，为业务数据中的第一业务属性的N个候选值确定分位点，M、N均为正整数；所述方法包括：

获取第一业务属性在所述M条业务数据中分别对应的M个属性值，并按照大小顺序排列所述M个属性值，M个属性值分别对应有基于M条相应业务数据确定的M个重要度值，所述M个属性值提供N个候选值；

针对所述M个属性值，逐项执行对相同候选值的重要度值的合并操作，得到与M个属性值一一对应的M个合并项，其中，所述M个合并项中的单个合并项对应有单个属性值、所述单个属性值在基准权重基础上合并所述单个属性值的重要度值后得到的相应候选值的候选值权重、有效性标识，在所述单个属性值是第一个出现的相应候选值的情况下，确定所述基准权重为预定值，在所述单个属性值不是第一个出现的相应候选值的情况下，确定所述基准权重为所述单个合并项的前一个合并项对应的候选值权重，所述有效性标识基于对所述单个合并项对应的单个属性值是否为相应候选值对应的最后一个属性值的检测确定，用于描述所述单个合并项是否为有效信息项，其中，所述单个合并项对应的单个属性值为相应候选值对应的最后一个属性值的情况下，所述单个合并项的有效性标识指示出有效信息项；

根据预设的分位条件，确定用于分割所述M个属性值的至少一个分位权重；

按照所述有效性标识，将所述M个合并项中的各个有效信息项按照各个候选值的大小顺序，依次累加相应的候选值权重，从而将累加的候选值权重达到各个分位权重时的相应候选值分别确定为各个分位点。

2.根据权利要求1所述的方法，其中，所述单个合并项对应的有效性标识通过以下方式确定：

对比所述单个合并项对应的单个属性值，以及所述单个属性值的下一个属性值；

在所述单个属性值与所述单个属性值的下一个属性值相同，确定所述单个合并项为无效信息项的情况下，设置所述单个合并项对应的有效性标识为第一预设值；

在所述单个属性值与所述单个属性值的下一个属性值不相同，或者所述单个合并项对应所述M个属性值的最后一个属性值，确定所述单个合并项为有效信息项的情况下，设置所述单个合并项对应的有效性标识为第二预设值。

3.根据权利要求1所述的方法，其中，所述按照所述有效性标识，将所述M个合并项中的各个有效信息项按照各个候选值的大小顺序，依次累加相应的候选值权重包括：

将所述M个合并项按照有效性标识中有效信息项标识靠前，无效信息项标识靠后，且在有效信息项中，N个候选值按照大小顺序排列的方式进行排序；

对排序后的所述M个合并项，依次累加相应的候选值权重，直至达到所述至少一个分位权重中的最大权重。

4.根据权利要求1所述的方法，其中，所述依次累加相应的候选值权重，从而将累加的候选值权重达到各个分位权重时的相应候选值分别确定为各个分位点包括：

从所述至少一个分位权重中确定目标权重，所述目标权重为当前要达到的权重；

在检测到累加第一候选值的候选值权重，使得累加的候选值权重等于或超过所述目标权重的情况下，将所述第一候选值确定为分位点。

5.根据权利要求4所述的方法，其中，所述从所述至少一个分位权重中确定目标权重包括：

基于当前确定的分位点对应的候选值权重，按照所述至少一个分位权重从小到大的顺序，确定所述目标权重。

6.根据权利要求1所述的方法，其中，所述分位条件包括对所述M条业务数据的筛选比例、所述M条业务数据的分布规律中的至少一项。

7.根据权利要求1所述的方法，其中，所述根据预设的分位条件，确定用于分割所述M个属性值的至少一个分位权重包括：

累加所述M个属性值分别对应的M个重要度值，得到总重要度值；

基于所述总重要度值和所述分位条件，确定所述至少一个分位权重。

8.一种实现隐私保护的数据处理装置，其中，所述装置设于可信执行环境，用于针对给定的M条业务数据，为业务数据中的第一业务属性的N个候选值确定分位点，M、N均为正整数；所述装置包括：

合并单元，配置为针对所述M个属性值，逐项执行对相同候选值的重要度值的合并操作，得到与M个属性值一一对应的M个合并项，其中，所述M个合并项中的单个合并项对应有单个属性值、所述单个属性值在基准权重基础上合并所述单个属性值的重要度值后得到的相应候选值的候选值权重、有效性标识，在所述单个属性值是第一个出现的相应候选值的情况下，确定所述基准权重为预定值，在所述单个属性值不是第一个出现的相应候选值的情况下，确定所述基准权重为所述单个合并项的前一个合并项对应的候选值权重，所述有效性标识基于对所述单个合并项对应的单个属性值是否为相应候选值对应的最后一个属性值的检测确定，用于描述所述单个合并项是否为有效信息项，其中，所述单个合并项对应的单个属性值为相应候选值对应的最后一个属性值的情况下，所述单个合并项的有效性标识指示出有效信息项；

9.根据权利要求8所述的装置，其中，所述合并单元还配置为通过以下方式确定所述单个合并项对应的有效性标识：

10.根据权利要求8所述的装置，其中，所述分位点确定单元进一步配置为：

11.根据权利要求8所述的装置，其中，所述分位点确定单元进一步配置为：

12.根据权利要求11所述的装置，其中，所述分位点确定单元还配置为：

13.根据权利要求8所述的装置，其中，所述分位条件包括对所述M条业务数据的筛选比例、所述M条业务数据的分布规律中的至少一项。

14.根据权利要求8所述的装置，其中，所述分位权重确定单元进一步配置为：

15.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-7中任一项的所述的方法。

16.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-7中任一项所述的方法。