CN113902303B

CN113902303B - 基于用户满意度的隐私模型自动推荐系统、算法、设备及存储介质

Info

Publication number: CN113902303B
Application number: CN202111186099.5A
Authority: CN
Inventors: 于海宁; 叶甜甜; 杨立炳; 王勇; 张罗刚; 孙迎港; 陈瑞; 孙骁
Original assignee: Harbin Institute of Technology; Shanghai Pudong Development Bank Co Ltd
Current assignee: Harbin Institute of Technology; Shanghai Pudong Development Bank Co Ltd
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2024-04-16
Anticipated expiration: 2041-10-12
Also published as: CN113902303A

Abstract

本申请公开了一种基于用户满意度的隐私模型自动推荐系统、算法、设备及存储介质，属于数据分析技术领域。解决了现有技术中存在的用户如何对隐私模型进行选择问题以及如何配置隐私模型参数的问题。本申请用户满意度的隐私模型自动推荐系统、算法、设备及存储介质创造性地提出历史配置方案资源池的概念，针对熟悉隐私保护知识和不熟悉隐私保护知识的用户，通过正向过程与逆向过程相结合对历史配置方案资源池进行迭代升级。历史配置方案资源池在每次数据匿名化处理过程中，以用户满意度为基准自动推荐配置，确保匿名后数据符合用户满意度要求。本申请为数据的匿名化处理提供更加简便高效的解决方案，提高了匿名后数据的质量，增强了数据保护的能力。

Description

基于用户满意度的隐私模型自动推荐系统、算法、设备及存储介质

技术领域

本申请涉及一种隐私模型自动推荐系统、算法、设备及存储介质，尤其涉及一种基于用户满意度的隐私模型自动推荐系统、算法、设备及存储介质，属于数据分析技术领域。

背景技术

随着互联网以及云计算等技术的迅猛发展，全球数据呈现指数级增长的态势。在大数据时代背景下，对创新的竞争已经变成了对数据的竞争。通过人工智能与数据挖掘发现事物运行规律与趋势，可以很好地帮助管理者进行决策。与此同时，个人数据，例如金融交易、社交网络活动、位置轨迹和医疗记录等信息能被更容易地获取和更广泛地传播，而侵犯个人隐私权的行为却难以察觉。因此，如何应用隐私保护技术去保护个人隐私权益不受侵犯成为一个重要问题。

隐私保护技术是一个广泛的概念，它由不同的技术组成，涉及数据生命周期的各个阶段。匿名化技术作为最重要的隐私保护技术之一主要针对数据发布阶段来实施隐私保护。匿名化技术是指在数据发布阶段，通过一定的技术，将数据拥有者的个人信息及敏感属性的明确标识符删除或修改，从而无法通过数据确定到具体的个人。

目前，针对数据发布阶段的匿名化流程通常为：(1)导入原始数据；(2)对原始数据进行匿名化处理；(3)得到匿名化后的数据；(4)安全发布数据。

使用数据匿名技术有效地实现了数据发布隐私保护功能。但是，对于匿名后的数据，还需要考虑它究竟有没有用的问题以及该数据受到重新识别风险的问题。对于数据发布者而言，他既希望发布的数据有足够的效用——也就是匿名后数据的信息损失量要小，又希望发布的数据免受重新识别风险。因此，使用效用评估技术和风险评估技术来对匿名后的数据进行量化评估就显得十分重要。对于有足够隐私保护知识背景的数据发布者而言，他可以依据评估的结果来重新配置参数，进行下一次迭代。这一过程将不可避免地产生多次重复，即使是有足够隐私保护知识背景的数据发布者，也没有办法保证每次都能选择较好的配置。对于没有足够隐私保护知识背景的数据发布者而言，他无法根据评估结果来评判匿名后数据的好坏，即数据发布者本身并不明确匿名后的数据是否符合他的要求。当数据发布者在这种模糊的直觉下再次配置隐私模型和参数时，得到的结果很大概率也不能满足他的要求。这就不可避免地产生冗余的迭代，而且经过多次迭代后生成的数据可能仍然无法满足数据发布者的要求。

发明内容

有鉴于此，本申请提供一种基于用户满意度的隐私模型自动推荐系统、算法、设备及存储介质，以解决现有技术中存在的用户如何对隐私模型进行选择问题以及如何配置隐私模型参数的问题。

本申请的技术方案是这样实现的：

方案一：基于用户满意度的隐私模型自动推荐系统，包括正向过程子系统与逆向过程子系统；

正向过程子系统，包括：

用户数据输入模块，用于用户输入原始数据集；

方案选择模块，在历史配置方案资源池中筛选是否有符合当前情况的方案，将所有符合条件的集合提供用户选择；用户选择从历史配置方案资源池中直接选择相应的参数配置，或者在历史配置方案的基础上进行修改形成一个新的方案；

匿名化处理模块，按照配置，对数据进行匿名化处理，并记录在数据集列表中；

效用及风险评估模块，用于对匿名化数据集进行效用评估以及风险评估，评估结果与新配置参数一同记录在历史配置方案资源池中；

用户满意度判断模块，用户本身判断评估结果是否达到自己的满意度要求，并对满意度进行量化打分，该分数记录在历史配置方案资源池中；如果评估结果满足用户要求，则直接输出对应的匿名后的数据集；如果不满足，则返回方案选择模块继续迭代；

逆向过程子系统，包括：

用户数据输入模块，用于用户输入原始数据集；

用户最佳满意度阈值认定模块，用户对给定的指标进行选择，该选择将被量化并被认定为用户最佳满意度阈值；

配置方案推荐模块，历史配置方案资源池自动推荐对应当前状况的所有配置方案；针对用户给定的指标，自动生成多个配置方案，方案中最终得分最高者将被加入历史配置方案资源池；将所有方案汇总加入隐私模型参数列表中；

隐私保护处理模块，选择隐私模型参数列表中的每一个配置作为迭代的隐私模型与参数，进行隐私保护处理，将匿名化数据集记录在列表中；

效用及风险评估模块，用于对匿名化数据集进行风险评估与效用评估，将评估结果量化为用户满意度；

用户满意度判断模块，用于判断用户满意度是否大于或等于最佳满意度阈值，如果是，则将用户满意度记录在高满意度列表中；如果用户满意度小于最佳满意度阈值，则将用户满意度记录在低满意度列表中；

迭代模块，用于判断迭代次数是否等于隐私模型参数列表长度；如果相等，则判断高满意度列表是否为空；如果高满意度列表不为空，则选择高满意度列表中最大的用户满意度对应的匿名化数据集作为最优匿名化结果输出；判断该方案是否为历史配置方案资源池产生，不是则将该方案中的每一个配置以及该方案对应的用户满意度加入历史配置方案资源池，流程结束；如果高满意度列表为空，则选取低满意度列表中最大的用户满意度对应的匿名化数据集作为输出；判断该方案是否为历史配置方案资源池产生，不是则将该方案中的每一个配置以及该方案对应的用户满意度加入历史配置方案资源池，流程结束；如果迭代次数小于隐私模型参数列表长度，则迭代次数自增1，继续迭代。

方案二、基于用户满意度的隐私模型自动推荐算法，包括正向过程与逆向过程；

正向过程为：用户输入原始数据集，根据自动推荐的方案从历史配置方案资源池中获取相应配置，或者用户选择在此基础上进行修改，或者自行配置，配置存储在历史配置方案资源池中；对数据进行匿名化处理，得到匿名后的数据集；对匿名后的数据集进行效用评估和风险评估，用户根据评估的结果来判断满意度，该满意度将作为影响配置推荐的一个因子被记录；如果评估结果达到用户满意度要求，则输出对应的数据集；如果不满足用户要求，用户再次从历史配置方案资源池中获取新的配置，进入下一次迭代；

逆向过程为：用户输入原始数据集、期望匿名后的数据集应对的风险场景和隐私泄露威胁、对于效用评估和风险评估的期望；用户对效用评估和风险评估的期望将被量化为用户满意度；通过用户输入的风险场景和隐私泄露场景在历史配置方案资源池中自动推荐合适的配置的集合，同时，根据用户对效用评估和风险评估的期望，自动生成符合要求的配置的集合；将产生的多个方案循环加入隐私保护处理流程得出匿名后的数据结果；并通过质量模型与风险模型计算得出分析结果；将所有分析结果量化为用户满意度并且与最初用户满意度比对，选取满意度最高的方案为最佳方案，所得匿名后的数据集为最佳数据集。

进一步地，正向过程的核心处理步骤为：

S11用户输入原始数据集，初始化迭代次数i＝1；

S12在历史配置方案资源池中筛选是否有符合当前情况的方案，将所有符合条件的集合提供用户选择；用户选择从历史配置方案资源池中直接选择相应的参数配置，或者在历史配置方案的基础上进行修改形成一个新的方案；

S13按照配置，对数据进行匿名化处理，匿名后的数据集记为T_i，记录在数据集列表中；

S14对匿名后数据集进行效用评估以及风险评估，评估结果记为R_i；R_i将会与新配置参数一同记录在历史配置方案资源池中，作为下一次自动推荐的一个判断因子；

S15用户本身判断R_i是否达到自己的满意度要求，并对满意度进行量化打分，该分数记为S_i；S_i将被记录在历史配置方案资源池中，作为下一次自动推荐的一个判断因子；如果评估结果满足用户要求，就直接输出对应的T_i；如果不满足，则返回S12继续迭代；

在正向过程中，最主要的步骤在于S12的隐私模型和参数配置。通过历史配置方案资源池对所有的历史方案按照一定的规则进行筛选推荐，降低了用户“从零到一”配置的不确定性。而S15作为决定迭代是否继续的步骤，用户的满意度成为一个决定性的因素。用户满意度来源于用户以自己的专业知识对效用分析以及风险分析的结果做出的判断，最终结果取决于用户。因此，本过程适合于具有一定隐私保护知识背景的用户来执行。

逆向过程的核心处理步骤为：

S21用户输入原始数据集，初始化迭代次数i＝1；

S22用户对给定的指标进行选择，该选择将被量化并被认定为用户最佳满意度阈值，记为S；

S23历史配置方案资源池自动推荐对应当前状况的所有配置方案；针对用户给定的指标，自动生成多个配置方案，该方案中最终得分最高者将被加入历史配置方案资源池；将所有方案汇总加入隐私模型参数列表中，该列表记为P，每一个配置为P_i，该列表长度记为l；

S24选择P_i作为第i次迭代的隐私模型与参数，进行隐私保护处理，将匿名化结果记录在列表中，记为T_i；

S25对T_i进行风险评估与效用评估，将评估结果量化为用户满意度，记为S_i；

S26判断S_i是否大于或等于S；如果S_i大于或等于S，就将S_i记录在高满意度列表中，记作HS；如果S_i小于S，则将S_i记录在低满意度列表中，记作LS；

S27判断迭代次数i是否等于隐私模型参数列表长度l；如果相等，则判断高满意度列表HS是否为空；如果高满意度列表HS不为空，则选择HS中最大的S_i对应的T_i作为最优匿名化结果输出；判断该方案是否为历史配置方案资源池产生，不是则将该方案P_i以及该方案对应的S_i加入历史配置方案资源池，流程结束；如果高满意度列表HS列表为空，则选取低满意度列表LS中最大的S_i对应的T_i作为输出；判断该方案是否为历史配置方案资源池产生，不是则将该方案P_i以及该方案对应的S_i加入历史配置方案资源池，流程结束；如果迭代次数i小于隐私模型参数列表长度l，则i自增1，继续迭代。

在逆向过程中，提供了两个维度的方法来产生配置。第一个维度是历史配置方案资源池。第二个维度是根据用户提前设置的对风险评估和效用评估的期望来自动生成配置列表。逆向过程是一个自动化的过程，也就是说，只需要用户设置一次自己的期望参数，则整个流程将自动迭代，无需用户持续参与。并且，这个迭代次数是固定的，而最终的最优结果一定是给出的隐私模型参数列表中的某个配置计算所得的结果，极大地降低了用户自己参与迭代的诸多不确定性。因而该流程适合于隐私保护知识背景不那么高的用户使用。

进一步地，所述S11中，原始数据集为：医疗信息集或银行用户信息集，信息集中包含个人隐私数据。

进一步地，所述个人隐私数据按属性分为敏感属性、标识符属性、准标识符属性，标识符属性是能够唯一标识单一个体的属性；准标识符属性是数据中若干个属性组合，属性组合与外部数据进行连接能够重新鉴别信息来源个人的身份；敏感属性是包含隐私数据的属性。

进一步地，所述S12中，历史配置方案资源池按照时间、与当前情况的相似性、用户的满意度或三者综合的指标输出配置方案。

进一步地，配置方案是由隐私模型P、参数params以及方案的指标index组合而成的集合，所有的配置方案是由这些集合组合而成的一个列表，具体形式为S′＝[{P₁,params₁,index₁},{P₂,params₂,index₂},{P₃,params₃,index₃},...]；用户根据指标的好坏选择合适的参数配置，或者在选择配置的基础上更改。

进一步地，所述S14中，使用效用评估和风险评估的方法对数据进行评估，具体如下：

对数据效用的评估是将数据的效用转化为信息量的损失，使用熵值来进行估计，熵值越小，其相应的数据匿名代价和信息损失越小；

对风险的估计将建立在三种风险模型之上，三种风险模型包括检察官风险模型、记者风险模型、营销者风险模型，将匿名化后的数据在这三种模型之下分别计算数据的重新识别风险，即可对匿名后的数据进行风险上的量化。

进一步地，所述S21中，用户对给定的指标进行选择，将选择的指标量化为用户的满意度，这一步骤的过程分为：

(a)用户选择风险场景和隐私威胁以决定要使用何种隐私模型；风险场景包括检察官风险场景、记者风险场景、营销者风险；隐私威胁分别为成员风险披露威胁、属性披露威胁、身份披露威胁；对于不同的风险场景与隐私威胁的组合，对应着不同的隐私模型的组合；

(b)对风险阈值的期望将作为隐私模型的参数的一个影响因子，该因子为风险因子，在每一种风险模型下，经过匿名后的数据会存在着重新识别风险；用户需要给定自己对匿名后的数据受到重新识别风险的期望，该期望将作为阈值，用来影响已选定的隐私模型的参数，当用户设置的阈值越低时，表明期望数据受到重新识别的风险越低；

(c)对数据的效用的期望将作为隐私模型的参数的另一个影响因子，该因子为效用因子，对于数据效用的评估使用数据的信息损失量来估计；

(d)用户的满意度来源于风险与效用的关系，即风险与信息损失量的关系；风险与信息损失量通常呈现出负相关关系；当数据重新识别风险增加时，其信息损失量会降低；当数据的重新识别风险降低时，其信息损失量会增加；最优的结果是使数据在风险与信息损失量之间取得平衡，重新识别风险、信息损失量以及两者之和都要满足给定的约束条件；最终用户的满意度为用户所要求的风险阈值和信息损失量决定，具体关系为风险阈值的倒数与信息损失量的倒数之和作为用户的满意度。

方案三：一种电子设备，包括处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行方案二所述算法的步骤。

方案四：一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现方案二所述算法的步骤。

本申请有益效果体现在：

本申请的面向用户满意度的隐私模型混合推荐算法创造性地提出历史配置方案资源池的概念，并针对不同用户，通过正向过程与逆向过程相结合对历史配置方案资源池进行迭代升级。历史配置方案资源池在每次数据匿名化处理过程中，都将以用户满意度为基准自动推荐配置，确保匿名后数据符合用户满意度要求。本申请为数据的匿名化处理提供更加简便高效的解决方案，提高了匿名后数据的质量，增强了数据保护的能力。

本申请分为正向与逆向过程。正向过程提出了一种创造性的方案，通过历史配置方案资源池将所有用户的历史配置以及该配置针对某种情况而产生的效果进行存储，并在用户进行配置的时候，通过自动推荐的方案自动筛选出历史记录最优解，给予用户选择的依据。而为了提供用户是否进入下一次迭代的依据，本过程使用了效用评估和风险评估技术得到量化的指标，使用户能有直观的判断。

逆向过程是对正向过程的补充和发展，并与正向过程结合形成循环。该过程主要解决了没有足够的隐私保护知识背景的用户如何对隐私模型进行选择问题以及如何配置该隐私模型参数的问题。逆向过程将从两个维度来自动推荐或生成所有参数，确保没有经验的用户也能取得满意的结果。同时逆向过程从根本上解决了数据匿名化过程中迭代冗余次数过多的问题，并且使得匿名化后的数据能够达到或最接近让用户满意的标准。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请实施例一提供的基于用户满意度的隐私模型自动推荐系统中正向过程子系统框图；

图2为本申请实施例一提供的基于用户满意度的隐私模型自动推荐系统中逆向过程子系统框图；

图3为本申请实施例二提供的基于用户满意度的隐私模型自动推荐算法流程图；

图4为本申请实施例二提供的基于用户满意度的隐私模型自动推荐算法中正向过程流程图；

图5为本申请实施例二提供的基于用户满意度的隐私模型自动推荐算法中逆向过程流程图；

图6为本申请的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关申请，而非对该申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与申请相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

在大数据时代，如何保护个人隐私不受侵犯成为了一个重大的问题。针对数据发布阶段，数据发布者可以使用匿名化技术来对数据进行隐私保护。在此过程中，主要面临的问题是数据发布者如何准确快速地得到相应的参数配置，以使获得的数据具有高效用的同时具有较低的重新识别风险。

本申请就是针对这样的问题产生了正向和逆向两个过程。正向过程提供了历史配置方案资源池，结合现实情况来推荐给用户合适的配置方案。并且在数据匿名化过程中，引入效用分析与风险分析的技术，使得用户可以根据分析结果进行判断，进而多次迭代得到最满意的结果。

逆向过程通过两个维度来自动推荐符合用户满意度和现实情况的配置方案，满足所有情况下的需求。与此同时，除了第一次需要设置对匿名后数据的效用和风险的期望，整个逆向过程都将自动迭代。满足了隐私保护知识背景不强的用户的需求。

实施例一

本申请实施例一提供了基于用户满意度的隐私模型自动推荐系统(参见图1和图2)，包括：正向过程子系统与逆向过程子系统；

正向过程子系统，包括：

用户数据输入模块，用于用户输入原始数据集，设定初始化迭代次数；

效用及风险评估模块，用于对匿名化数据集进行效用评估以及风险评估，评估结果与新配置参数一同记录在历史配置方案资源池中，作为下一次自动推荐的一个判断因子；

用户满意度判断模块，用户本身判断评估结果是否达到自己的满意度要求，并对满意度进行量化打分，该分数记录在历史配置方案资源池中，作为下一次自动推荐的一个判断因子；如果评估结果满足用户要求，就直接输出对应的匿名后的数据集；如果不满足，则返回方案选择模块继续迭代；

逆向过程子系统，包括：

实施例二

本申请实施例二提供了基于用户满意度的隐私模型自动推荐算法(参见图3-图5)，该方法具体为：

正向过程为：用户输入原始数据集，根据自动推荐的方案从历史配置方案资源池中获取相应配置。用户可以选择在此基础上进行修改，也可以自行配置。无论本次配置如何产生，该配置都将被存储在历史配置方案资源池中，在之后的迭代中依据自动推荐算法推荐给用户；用户得到当前阶段满意的配置以对数据进行匿名化处理，得到匿名后的数据集；对匿名后的数据集进行效用评估和风险评估，用户根据评估的结果来判断满意度，该满意度将作为影响配置推荐的一个因子被记录；如果评估结果达到用户满意度要求，就输出对应的数据集；如果不满足用户要求，用户可以再次从历史配置方案资源池中获取新的配置，进入下一次迭代。该过程迭代次数由用户来弹性控制，直到用户取得足够满意的结果为止。正向过程适合有足够隐私保护知识背景的用户使用。正向过程具体实施方式进行详细地说明。具体包括以下步骤：

S11用户导入原始数据集。该数据集一般为医疗信息表、银行用户信息表等涉及到个人隐私的数据。这样的包含个人隐私的数据一般包括用户姓名、身份证号、性别、身份、住址、邮政编码、薪资等信息，我们将这些信息称作属性。对于属性，可以将其分为敏感属性、标识符属性、准标识符属性等。其中标识符属性是能够唯一标识单一个体的属性，如身份证号码、姓名等。通常在在发布数据时，这样的属性是需要去掉的。准标识符是数据表中若干个属性的组合，这些属性组合同外部数据表进行连接能够重新鉴别信息来源个人的身份。如邮编、生日、性别等联合起来则可能是准标识符。敏感属性就是包含隐私数据的属性，如疾病、薪资等。对原始数据的处理，一般是对准标识符属性的处理。

S12历史配置方案资源池按照时间、与当前情况的相似性、用户的满意度或三者综合的指标输出配置方案。一个配置方案是由隐私模型、参数以及方案的指标组合而成的集合，所有的配置方案是由这些集合组合而成的一个列表，具体形式为S＝[{P₁,params₁,index₁},{P₂,params₂,index₂},{P₃,params₃,index₃},...]；用户根据指标的好坏选择合适的参数配置，或者在选择配置的基础上更改；

S13按照用户指定的配置，对数据进行匿名化处理。匿名化后的数据将被记录在列表中，记为T_i；

S14使用效用评估和风险评估的方法对数据进行评估。这两种方法对应的具体步骤如下：

(a)对数据效用的评估通常是将数据的效用转化为信息量的损失。因而此处使用熵值来进行估计：

其中，h为每个属性元组泛化的步数，H_ij为属性i的泛化层次总高度，N_A为属性数量，RT为原始数据中含有数据的总条数。Prec值越小，其相应的数据匿名代价和信息损失越小。对于k-Anontmity模型而言，除了h外，其余值都为固定值。h值受到k值影响，当k值越大时h值越大，Prec值越大，也就代表着信息损失量越大。

(b)对风险的估计将建立在三种风险模型之上。这三种风险模型包括检察官风险模型、记者风险模型、营销者风险模型。将匿名化后的数据在这三种模型之下分别计算数据的重新识别风险，便可对匿名后的数据进行风险上的量化。例如对于检察官风险而言，有以下的评估方法：

其中R_b为最大的检察官风险，f_j为等价类j的大，即j中包含的记录数。J为等价类集合。该式的含义为如果对手有一个大表，其中包含已知在小表中的一些个人，那么对手可以从大表中的小等价类中选择个人作为目标。在这种情况下，对手可以针对最小的等价类来进行攻击。

S15用户判断R_i是否达到自己的满意度要求，如果满足要求，用户需要给予R_i一个分数。该满意度分数将与对应配置一同录入历史配置方案资源池。然后直接输出对应的T_i；如果不满足，则返回S12继续迭代。用户的满意度将基于S14中效用分析与风险分析的结果，而判断的基准为用户自身所具备的隐私保护知识背景。用户在进行判断之后可以选择直接输出T_i，也可以选择继续迭代，并且迭代次数是无限制的。

逆向过程为：用户输入原始数据集、期望匿名后的数据集能够应对的风险场景和隐私泄露威胁、对于效用评估和风险评估的期望；用户对效用评估和风险评估的期望将被量化为用户满意度；通过用户输入的风险场景和隐私泄露场景在历史配置方案资源池中自动推荐合适的配置的集合，同时，根据用户对效用评估和风险评估的期望，自动生成符合要求的配置的集合；将产生的多个方案循环加入隐私保护处理流程得出匿名后的数据结果；并通过质量模型与风险模型计算得出分析结果；将所有分析结果量化为用户满意度并且与最初用户满意度比对，选取满意度最高的方案为最佳方案，所得匿名后的数据集为最佳数据集。该过程在用户配置相应参数后将自行迭代，适合没有足够隐私保护知识背景的用户使用。逆向过程的具体实施方式进行详细地说明。具体包括以下步骤：

S21初始化迭代次数i＝1，导入原始的数据集。该数据集与正向过程中的数据集的要求一致。

S22用户对给定的指标进行选择，将选择的指标量化为用户的满意度。这一步骤的过程可以分为：

(a)用户选择风险场景和隐私威胁以决定要使用何种隐私模型。风险场景有三种，包括检察官风险场景、记者风险场景、营销者风险。隐私威胁也有三种，分别为成员风险披露威胁、属性披露威胁、身份披露威胁。对于不同的风险场景与隐私威胁的组合，对应着不同的隐私模型的组合。一旦用户选定了风险场景与隐私威胁，则隐私模型列表便已经决定。例如对k-Anonymity而言，其目的旨在保护数据集不被检察官模型重新识别，可以有效抵御身份披露。

(b)对风险阈值的期望将作为隐私模型的参数的一个影响因子，这个因子为风险因子。在每一种风险模型下，经过匿名后的数据仍然会存在着重新识别风险。用户需要给定自己对匿名后的数据受到重新识别风险的期望，这个期望将作为阈值，用来影响已选定的隐私模型的参数。例如对于k-Anonymity模型而言，风险阈值与k值存在如下关系：

当用户设置的阈值越低时，表明他期望数据受到重新识别的风险越低。

(c)对数据的效用的期望将作为隐私模型的参数的另一个影响因子，这个因子为效用因子。对于数据效用的评估通常使用数据的信息损失量来估计。估计方法同式(1)。

(d)用户的满意度来源于风险与效用的关系，即风险与信息损失量的关系。风险与信息损失量通常呈现出负相关关系。即当数据重新识别风险增加时，其信息损失量会降低；当数据的重新识别风险降低时，其信息损失量会增加。最优的结果是使数据在风险与信息损失量之间取得平衡，即匿名后的数据要满足重新识别风险不能太高，同时信息损失量不能太高。因而重新识别风险、信息损失量以及两者之和都要满足给定的约束条件。最终用户的满意度为用户所要求的风险阈值和信息损失量决定，具体关系为风险阈值的倒数与信息损失量的倒数之和作为用户的满意度：

其中，threshold为风险阈值，Prec为信息损失量。为使式(4)成立，两者需要满足如下关系：0＜threshold＜1，0＜Prec＜1，0＜threshold+Prec＜1。

S23历史配置方案资源池自动推荐与现实场景适应的配置方案列表，该列表记为P₁，具体推荐步骤同正向过程的第(2)步。而针对用户给定的风险场景、隐私威胁、效用因子、风险因子自动生成的隐私模型和参数的所有组合将被存储在列表P₂中，将两者组合，成为P。因而有P＝[P₁,P₂]。P的大小为l。

S24选择P_i作为第i次迭代的隐私模型和参数，用该组配置进行隐私保护处理，将匿名化结果记录在列表中，记为T_i；

S25对T_i进行风险评估与效用评估。对于T_i的风险评估过程将在所有的风险场景下进行，并非仅基于用户一开始提出的风险场景。这样就能够看出针对不同的场景，特定的隐私模型具有何种优秀的表现，以及在其余风险场景中，该隐私模型有哪些不足。但最终评估的结果仍然依据用户一开始提出的风险场景来决定，以保证满意度结论的一致性。该满意度用S_i表示。

S26判断S_i是否大于或等于S，如果S_i大于或等于S，就将S_i记录在高满意度列表中，记作HS；如果S_i小于S，则将S_i记录在低满意度列表中，记作LS；

S27判断迭代次数i是否等于隐私模型参数列表长度l。如果相等，则判断高满意度列表HS是否为空，如果高满意度列表HS不为空，则选择HS中最大的S_i对应的T_i作为最优匿名化结果输出，否则选取LS中最大的S_i对应的T_i作为输出；判断最优S_i对应的配置是否为P₁中的配置，如果不是，则将该配置以及对应的评价指标等录入历史配置方案资源池。如果迭代次数i小于隐私模型参数列表长度l，则i自增1，继续迭代。

具体实施例：

为了安全发布一份包含sex、age、race、marital-status、education、native-country、workclass、occupation、salary-class九个属性的数据表T，一位具备足够隐私保护知识背景的用户需要对该数据集进行隐私保护处理。T共30162条记录。将T的九个属性都设置为准标识符属性。这时，将应用正向过程来对数据集进行匿名化处理。

首先，用户期望在检察官风险模型下针对身份泄露威胁对数据进行保护，历史配置方案资源池根据现实需求自动推荐出多种方案，具体的推荐方案如下所示：S＝[{KAnonymity,2,10},{KAnonymity,5,11},{KAnonymity,10,12}]，用户基于自己的推断选择{KAnonymity,5,11}作为起始的配置，也就是说他期望在匿名化后的数据集中，对于每一条记录，至少有4条记录与之相同。

在参数配置完成之后，依据该参数，对原始数据进行匿名化处理。数据匿名化之后，输出的数据集T₁将保存在数据集列表中。

用户使用效用分析与风险分析的方法对该数据进行分析。熵值公式计算结果显示匿名后的数据的信息损失量为13.05％，而风险分析的结果显示匿名后数据在检察官风险模型下的重新识别风险为20％。将该分析结果R₁记录在分析列表中。

用户判断该结果下的数据集的重新识别风险过高。他期望匿名后的数据集的重新识别风险在10％以内，而数据的信息损失量可以有5％以内的增加。因而他选择了重新设置参数，并选择{KAnonymity,10,12}作为配置。

设置完之后，再度对原始数据集进行匿名化处理，将该匿名后数据集T₂保存在数据集列表中。

对该匿名后数据集进行效用分析和风险分析，最终显示该匿名后的数据信息损失量为17.99％，信息损失量增加少于5％。而风险分析的结果显示重新识别风险为10％，正好符合用户要求。用户判断再继续下去信息损失量会增加，那么匿名化后数据集将不再符合他的要求，于是用户选择终止流程，直接获得T₂。则T₂为用户期望获得的数据集。此过程中用户并未重新配置参数，因此历史配置方案资源池中不会增加新的配置方案。如果用户改动配置参数且该配置符合用户要求，用户需要对该配置的结果进行评分，该配置将被记录到历史配置方案资源池中。

一位没有足够隐私保护背景的用户，也想要对数据表T进行匿名化处理。此时，他并不知道具体需要使用何种隐私保护模型并配置什么样的参数。他只希望在营销者风险场景下，使数据免受身份泄露威胁。并且匿名后数据的信息损失里不能大于10％，而匿名后数据被攻击成功的概率也不能大于10％。此时，可以计算出他的满意度为20。该数值将被设置为满意度阈值。

一方面，历史配置方案资源池将自动推荐一组参数，该组参数具体为P₁＝[{Average,0.06,40},{SampleUniqueness,0.0002,36}]，另一方面，通过该用户设置的场景与相关参数，将自动生成如下几种隐私模型和隐私模型对应参数的集合P₂＝[{Average,0.05},{SampleUniqueness,0.0001}]。那么，总的参数配置的集合为：

P＝[P₁,P₂]。应用P中的隐私模型和对应的参数进行匿名化处理，迭代次数为四次。所得的匿名后数据集的集合为{T₁,T₂,T₃,T₄}；所得的效用分析和风险分析结果的集合为{(4.8％，6.0％),(8.2％，5.9％)，(6.7％，3.3％)，(2.6％，9.1％)}；计算可得四种方案的满意度分别为37.5，29.1，48.3与49.5，四种方案的满意度都大于20，所以都在高满意度列表中。取其中最大者，即满意度为49.5的方案为最佳方案。输出数据集T为最佳数据集，并且可以判断S₄对应的配置参数不在P₁中，因此将该参数与对应的满意度将被记录在历史配置方案资源池中。

实施例三

本申请实施例三提供一种电子设备，参见图6，电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于：一个或者多个处理器或者处理单元，用于存储能够在处理器上运行的计算机程序的存储器，连接不同系统组件(包括存储器、一个或者多个处理器或者处理单元)的总线。

其中，所述一个或者多个处理器或者处理单元用于运行所述计算机程序时，执行实施例二所述方法的步骤。所述处理器所用类型包括中央处理器、通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。

其中，总线表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

实施例四

本申请实施例四提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例二所述方法的步骤。

需要说明的是，本申请所示的存储介质可以是计算机可读信号介质或者存储介质或者是上述两者的任意组合。存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。存储介质还可以是存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

着重强调本申请为面向用户满意度的隐私模型混合推荐算法，针对熟悉隐私保护知识的用户和不熟悉隐私保护知识的用户，分别实现了一个正向过程与一个逆向过程。两个过程都应用了历史配置方案资源池按照一定的规则自动推荐给用户符合现实场景的配置，以使用户可以快速、正确地得到符合其满意度的结果。

以上所述的实施例，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的实施例而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

1.基于用户满意度的隐私模型自动推荐系统，其特征在于，包括：

正向过程子系统与逆向过程子系统；

正向过程子系统，包括：

用户数据输入模块，用于用户输入原始数据集；

用户满意度判断模块，用户本身判断评估结果是否达到自己的满意度要求，并对满意度进行量化打分，得到的分数记录在历史配置方案资源池中；如果评估结果满足用户要求，则直接输出对应的匿名后的数据集；如果不满足，则返回方案选择模块继续迭代；

逆向过程子系统，包括：

用户数据输入模块，用于用户输入原始数据集；

2.基于用户满意度的隐私模型自动推荐算法，其特征在于，包括：

正向过程与逆向过程；

逆向过程为：用户输入原始数据集、期望匿名后的数据集应对的风险场景和隐私泄露威胁、对于效用评估和风险评估的期望；用户对效用评估和风险评估的期望将被量化为用户满意度；通过用户输入的风险场景和隐私泄露场景在历史配置方案资源池中自动推荐合适的配置的集合，同时，根据用户对效用评估和风险评估的期望，自动生成符合要求的配置的集合；将产生的多个方案循环加入隐私保护处理流程得出匿名后的数据结果；并通过质量模型与风险模型计算得出分析结果；将所有分析结果量化为用户满意度并且与最初用户满意度比对，选取满意度最高的方案为最佳方案，所得匿名后的数据集为最佳数据集；

所述正向过程的核心处理步骤为：

S11用户输入原始数据集，初始化迭代次数i＝1；

S15用户本身判断R_i是否达到自己的满意度要求，并对满意度进行量化打分，得到的分数记为S_i；S_i将被记录在历史配置方案资源池中，作为下一次自动推荐的一个判断因子；如果评估结果满足用户要求，就直接输出对应的T_i；如果不满足，则返回S12继续迭代；

所述逆向过程的核心处理步骤为：

S21用户输入原始数据集，初始化迭代次数i＝1；

3.根据权利要求2所述的基于用户满意度的隐私模型自动推荐算法，其特征在于，所述S11中，原始数据集为：医疗信息集或银行用户信息集，信息集中包含个人隐私数据；所述个人隐私数据按属性分为敏感属性、标识符属性、准标识符属性，标识符属性是能够唯一标识单一个体的属性；准标识符属性是数据中若干个属性组合，属性组合与外部数据进行连接能够重新鉴别信息来源个人的身份；敏感属性是包含隐私数据的属性。

4.根据权利要求3所述的基于用户满意度的隐私模型自动推荐算法，其特征在于，所述S12中，历史配置方案资源池按照时间、与当前情况的相似性、用户的满意度或三者综合的指标输出配置方案。

5.根据权利要求4所述的基于用户满意度的隐私模型自动推荐算法，其特征在于，配置方案是由隐私模型P、参数params以及方案的指标index组合而成的集合，所有的配置方案是由这些集合组合而成的一个列表，具体形式为S′＝[{P₁,params₁,index₁},{P₂,params₂,index₂},{P₃,params₃,index₃},...]；用户根据指标的好坏选择合适的参数配置，或者在选择配置的基础上更改。

6.根据权利要求2-5任一项所述的基于用户满意度的隐私模型自动推荐算法，其特征在于，所述S14中，使用效用评估和风险评估的方法对数据进行评估，具体如下：

7.根据权利要求6所述的基于用户满意度的隐私模型自动推荐算法，其特征在于，所述S21中，用户对给定的指标进行选择，将选择的指标量化为用户的满意度，这一步骤的过程分为：

8.一种电子设备，其特征在于：包括处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行权利要求2至7任一项所述算法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求2至7任一项所述算法的步骤。