CN115881257A

CN115881257A - 应用于大数据的用户隐私保护方法及系统

Info

Publication number: CN115881257A
Application number: CN202211125439.8A
Authority: CN
Inventors: 李辉; 庄载妙
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2023-03-31
Also published as: CN114627991B; CN114627991A

Abstract

本发明提供一种应用于大数据的用户隐私保护方法及系统，根据用户信息标记结果从存在隐私防护需求的医疗用户大数据确定出与隐私信息对应的大数据集；通过所述隐私信息的标记结果对所述大数据集进行匿名化防护。

Description

应用于大数据的用户隐私保护方法及系统

本申请是申请号为“2022102050851”、申请日为“20220303”、申请名称为“一种基于智慧医疗大数据的用户隐私保护方法及系统”的分案申请。

技术领域

本发明涉及智慧医疗技术领域，尤其涉及一种应用于大数据的用户隐私保护方法及系统。

背景技术

智慧医疗是综合应用医疗物联网、数据融合传输交换、云计算、和城域网等技术构建的相对先进和智能的医疗体系。当前互联网信息数据时代，实现智慧医疗、智慧健康是建立智慧城市的关键环节。与此同时，以互联网和大数据为基础的隐私保护与智慧医疗的结合也越来越紧密，而防止医疗用户就医时的用户信息泄露是现目前的工作重点。

发明内容

本发明提供一种应用于大数据的用户隐私保护方法及系统，为实现上述技术目的，本发明采用如下技术方案。

第一方面是一种应用于大数据的用户隐私保护方法，应用于大数据隐私保护系统，所述方法至少包括：确定存在隐私防护需求的医疗用户大数据并进行数据筛选操作，得到筛选后所保留的医疗用户会话集；通过第一关键描述识别模型对所述存在隐私防护需求的医疗用户大数据进行个体关键描述挖掘，得到所述存在隐私防护需求的医疗用户大数据中第一医疗用户会话的第一关键描述集，以及通过第二关键描述识别模型对所述医疗用户会话集进行群体关键描述挖掘，得到所述医疗用户会话集中第二医疗用户会话的第二关键描述集；通过所得的所述第一关键描述集以及所述第二关键描述集，对第一隐私防护约束条件进行优化，得到完成优化的第二隐私防护约束条件；在所述第二隐私防护约束条件下对所述医疗用户会话集进行指定用户信息标记，得到用户信息标记结果；其中，所述用户信息标记结果包括针对隐私信息的标记结果，且所述用户信息标记结果用于指导针对所述隐私信息的匿名化防护。

如此设计，基于上述应用于大数据的用户隐私保护方法，在确定到存在隐私防护需求的医疗用户大数据以及医疗用户会话集的基础上，可以分别进行个体和群体两个角度的关键描述挖掘，得到存在隐私防护需求的医疗用户大数据中第一医疗用户会话的第一关键描述集以及医疗用户会话集中第二医疗用户会话的第二关键描述集，然后对第一隐私防护约束条件进行优化，继而可以在所得的第二隐私防护约束条件下进行指定用户信息标记。本发明实施例中的第一关键描述集所反映的一系列用户行为数据能够对第二关键描述集所反映的群体关键描述进行扩展，这样可以保障所优化所得的第二隐私防护约束条件尽可能精准可靠，进而提高指定用户信息标记的精度和可信度，这样可以基于用户信息标记结果对相关的隐私信息进行针对性的匿名化防护从而保护用户隐私。

对于一种可能的技术方案而言，所述通过所得的所述第一关键描述集以及所述第二关键描述集，对第一隐私防护约束条件进行优化，得到完成优化的第二隐私防护约束条件，包括：依据所述医疗用户会话集涵盖的医疗用户会话的统计值，对所述存在隐私防护需求的医疗用户大数据涵盖的第一医疗用户会话进行聚类处理，得到若干第一医疗用户会话簇；对于所述医疗用户会话集中的每个第二医疗用户会话，从所述若干第一医疗用户会话簇中确定与所述第二医疗用户会话对应的第一目标医疗用户会话簇，并依据所述第二医疗用户会话的第二关键描述集以及对应的第一目标医疗用户会话簇涵盖的每个第一医疗用户会话的第一关键描述集，确定所述第二医疗用户会话的拼接关键描述集；根据每个第二医疗用户会话的拼接关键描述集，确定对于所述医疗用户会话集的拼接关键描述集，并依据所述医疗用户会话集的拼接关键描述集对第一隐私防护约束条件进行优化，得到完成优化的第二隐私防护约束条件。

如此设计，通过对存在隐私防护需求的医疗用户大数据涵盖的每个第一医疗用户会话进行聚类处理，这样能够使得对应聚类处理的第一医疗用户会话和第二医疗用户会话可以更全面的进行关键描述集拼接，同时能够方便后期对隐私防护约束条件进行优化。

对于一种可能的技术方案而言，所述依据所述医疗用户会话集的拼接关键描述集对第一隐私防护约束条件进行优化，得到完成优化的第二隐私防护约束条件，包括：确定所述第一隐私防护约束条件涵盖的就诊交互触发节点相对应的第二医疗用户会话以及就诊交互完成节点相对应的第二医疗用户会话；从所述医疗用户会话集的拼接关键描述集中，采集与确定的两个所述第二医疗用户会话所对应的阶段用户会话或者衍生用户会话绑定的拼接关键描述子集；基于采集的所述拼接关键描述子集对第一隐私防护约束条件进行优化，得到完成优化的第二隐私防护约束条件。

如此设计，通过拼接关键描述子集的采集可以确定相对准确的会话隐私防护约束条件，如此能够有助于进行后期的用户信息标记。

对于一种可能的技术方案而言，通过以下方式确定所述第一隐私防护约束条件：通过已完成调试的若干交互变量挖掘模型分别对所述医疗用户会话集的拼接关键描述集进行交互变量挖掘，得到每个所述交互变量挖掘模型导出的每个第二医疗用户会话的交互变量数据；所述交互变量数据包括对应于会话行为触发状态的可能性、对应于会话行为终止状态的可能性、以及对应对应于待定会话行为的可能性；根据每个所述交互变量挖掘模型导出的交互变量数据，确定第一隐私防护约束条件。

对于一种可能的技术方案而言，所述基于采集的所述拼接关键描述子集对第一隐私防护约束条件进行优化，得到完成优化的第二隐私防护约束条件，包括：将采集的所述拼接关键描述子集加载至已完成调试的用户行为变化挖掘模型中，确定对应交互变量数据的用户行为变化；依据所述用户行为变化对所述第一隐私防护约束条件进行改进，得到完成优化的第二隐私防护约束条件。

如此设计，通过用户行为变化挖掘模型进行用户行为变化的挖掘，可以及时的实现相关会话隐私防护约束条件的优化。

对于一种可能的技术方案而言，通过以下方式调试所述若干交互变量挖掘模型：确定医疗用户大数据模板，以及相较于所述医疗用户大数据模板添加的交互变量注释；所述交互变量注释包括会话行为触发状态注释、会话行为终止状态注释、会话隐私防护约束条件对应的待定会话行为注释；将所述医疗用户大数据模板作为所述待进行调试的若干交互变量挖掘模型的原料，将所述交互变量注释作为所述待进行调试的若干交互变量挖掘模型的挖掘信息的参考指示，对所述待进行调试的若干交互变量挖掘模型进行调试，得到已完成调试的若干交互变量挖掘模型。

对于一种可能的技术方案而言，所述确定医疗用户大数据模板通过以下一种或者多于一种方式实施：从关联医疗用户大数据中采集与所述医疗用户大数据模板所对应待定会话行为注释不同的用户会话日志，并将采集的所述用户会话日志加载到所述医疗用户大数据模板中，得到完成优化的医疗用户大数据模板；对所述医疗用户大数据模板进行筛选处理，获得完成处理的医疗用户大数据模板；对所述医疗用户大数据模板添加的会话隐私防护约束条件配置扰动进行处理，获得完成处理的医疗用户大数据模板。

对于一种可能的技术方案而言，所述第二关键描述识别模型包括若干关键描述挖掘单元，每个所述关键描述挖掘单元对应若干第二医疗用户会话的拼接关键描述集；所述根据每个第二医疗用户会话的拼接关键描述集，确定对于所述医疗用户会话集的拼接关键描述集，包括：对于所述第二关键描述识别模型的每个关键描述挖掘单元，将该关键描述挖掘单元对应的若干第二医疗用户会话的拼接关键描述集进行配对，得到该关键描述挖掘单元对应的拼接关键描述集，以及，将该关键描述挖掘单元对应的拼接关键描述集作为后一个关键描述挖掘单元的原料关键描述集，通过下采样处理得到所述后一个关键描述挖掘单元对应的拼接关键描述集，反复迭代，直到得到关键描述集规模符合设定指标的拼接关键描述集，并作为所述对于所述医疗用户会话集的拼接关键描述集。

如此，通过下依次采样的拼接关键描述集实现相关拼接关键描述集的确定，完成采样处理的拼接关键描述集能够反映更加全面的关键描述，进而有助于基于拼接关键描述集实现尽可能精准可靠的用户信息标记。

对于一种可能的技术方案而言，所述在所述第二隐私防护约束条件下对所述医疗用户会话集进行指定用户信息标记，得到用户信息标记结果，包括：从所述医疗用户会话集的拼接关键描述集中采集与所述第二隐私防护约束条件绑定的拼接关键描述子集；通过已完成调试的用户信息标记模型对采集的所述拼接关键描述子集进行指定用户信息标记，得到所述存在隐私防护需求的医疗用户大数据中对应用户信息的标记关键词。

如此设计，可以基于有关完成优化的第二隐私防护约束条件绑定的拼接关键描述子集的采集实现指定用户信息标记，这样能够显著提高标记的精度及可信度。

对于一种可能的技术方案而言，所述方法还包括：通过已完成调试的敏感事项识别模型对所述存在隐私防护需求的医疗用户大数据进行敏感事项识别，得到所述存在隐私防护需求的医疗用户大数据中敏感事项的分布情况；其中，所述敏感事项识别模型是基于医疗用户会话模板集以及对于所述医疗用户会话模板集中涵盖的每个医疗用户会话模板添加的敏感事项信息调试所得的。

对于一种可能的技术方案而言，通过以下方式确定所述医疗用户会话模板集：确定基础的医疗用户会话模板集；依据所对应的事项语义对所述基础的医疗用户会话模板集涵盖的每个医疗用户会话模板进行差异化处理，确定每个类别对应的模板量化指标；从所述基础的医疗用户会话模板集中，确定对应模板量化指标小于设定指标的待处理会话内容，并将所述待处理会话内容，与不存在所述待处理会话内容的医疗用户会话模板拼接，得到完成优化的医疗用户会话模板集。

如此设计，通过待处理会话内容的拼接操作，能够确定出更加丰富的医疗用户会话模板，进而能够提高后期对敏感事项进行识别的准确性。

对于一种可能的技术方案而言，所述方法还包括：从所述医疗用户会话模板集中采集对应模板量化指标小于设定指标的目标医疗用户会话模板；修改所述目标医疗用户会话模板的调试影响系数，并根据修改后的调试影响系数调试所述敏感事项识别模型。

如此设计，可以通过修改模板的调试影响系数来提高对应医疗用户会话模板对模型调试的重要性，进而能够提高模型调试的精度。

对于一种可能的技术方案而言，在所述存在隐私防护需求的医疗用户大数据为异地就诊环境下采集的智慧医疗日志，所述医疗用户会话集为异地医疗用户会话集的基础上，所述在所述第二隐私防护约束条件下对所述医疗用户会话集进行指定用户信息标记，得到用户信息标记结果，包括：在所述第二隐私防护约束条件下对所述异地医疗用户会话集中的敏感事项进行指定用户信息标记，确定所述敏感事项的用户信息标记结果。

第二方面是一种大数据隐私保护系统，包括存储器和处理器；所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；其中，当所述处理器执行所述计算机指令时，使得所述大数据隐私保护系统执行第一方面的方法。

附图说明

图1为本发明实施例提供的应用于大数据的用户隐私保护方法的流程示意图。

图2为本发明实施例提供的应用于大数据的用户隐私保护装置的模块框图。

具体实施方式

以下，术语“第一”、“第二”和“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”或“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。

图1示出了本发明实施例提供的的应用于大数据的用户隐私保护方法的流程示意图，应用于大数据的用户隐私保护方法可以通过大数据隐私保护系统实现，大数据隐私保护系统可以包括存储器和处理器；所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；其中，当所述处理器执行所述计算机指令时，使得所述大数据隐私保护系统执行如下步骤所描述的技术方案。

步骤101、确定存在隐私防护需求的医疗用户大数据，并对存在隐私防护需求的医疗用户大数据进行数据筛选操作，得到筛选后所保留的医疗用户会话集。

例如，存在隐私防护需求的医疗用户大数据可以理解为待处理的医疗用户大数据，该隐私防护需求可以根据实际情况进行配置，比如可以按照时间需求对医疗用户大数据进行选择，或者按照数据类型需求对医疗用户大数据进行选择，在此不作限定。

步骤102、通过第一关键描述识别模型对存在隐私防护需求的医疗用户大数据进行个体关键描述挖掘，得到存在隐私防护需求的医疗用户大数据中第一医疗用户会话的第一关键描述集，以及通过第二关键描述识别模型对医疗用户会话集进行群体关键描述挖掘，得到医疗用户会话集中第二医疗用户会话的第二关键描述集。

步骤103、通过所得的第一关键描述集以及第二关键描述集，对第一隐私防护约束条件进行优化，得到完成优化的第二隐私防护约束条件。

步骤104、在第二隐私防护约束条件下对医疗用户会话集进行指定用户信息标记，得到用户信息标记结果；其中，所述用户信息标记结果包括针对隐私信息的标记结果，且所述用户信息标记结果用于指导针对所述隐私信息的匿名化防护。

可以理解，为了改善背景技术存在的技术问题，本发明实施例示出了一种通过个体关键描述挖掘和群体关键描述挖掘的会话隐私防护约束条件优化的技术方案，通过完成优化的第二隐私防护约束条件所标记所得的用户信息标记结果尽可能精准可靠。

其中，有关存在隐私防护需求的医疗用户大数据可以是在实际的医疗程序中采集的初始医疗用户大数据，也可以是从历史医疗用户大数据中挑选的用户会话日志。医疗用户会话集可以是从存在隐私防护需求的医疗用户大数据中筛选的医疗用户会话的集合，可以理解，可以是任意筛选的x组医疗用户会话所构成，还可以是依据一定的筛选时间段筛选所得的，还可以是其它筛选思路，在此不作过多限定。

本发明实施例可以通过多状态下的关键描述挖掘策略对存在隐私防护需求的医疗用户大数据和医疗用户会话集进行关键描述挖掘。其中，第一关键描述识别模型可以进行存在隐私防护需求的医疗用户大数据的个体关键描述挖掘（比如：可以根据时序特征进行挖掘），第二关键描述识别模型可以进行医疗用户会话集的群体关键描述挖掘（比如：可以根据空间特征进行挖掘），这样能够得到存在隐私防护需求的医疗用户大数据中第一医疗用户会话的第一关键描述集以及医疗用户会话集中第二医疗用户会话的第二关键描述集，其中，关键描述识别模型可以理解为特征挖掘网络。关键描述集可以理解为特征图，其中，第一关键描述集和第二关键描述集主要用于区别关键描述集。

可以理解的是，在挖掘出第一关键描述集和第二关键描述集的基础上，可以进行更深层次的关键描述挖掘，从而估计每个就诊交互事件相较于第一隐私防护约束条件的损失，进一步优化隐私防护约束条件的精度。其中，第一隐私防护约束条件可以理解为结合第一关键描述集和第二关键描述集估计的会话行为触发状态（比如：可以理解为会话行为开始节点）和会话行为终止状态（比如：可以理解为会话行为结束节点）所确定的统计区间（比如：可以理解为时序片段或者时序区间），还可以根据其它思路确定的待定会话行为的隐私防护约束条件。可以理解，隐私防护约束条件可以对应的是通过会话行为触发的医疗用户会话至会话行为终止的医疗用户会话之间的时序步长。举例而言，隐私防护约束条件可以理解为用于进行信息标记和处理的时间窗口。比如第一隐私防护约束条件可以对应时间窗口[t1，t2]，第二隐私防护约束条件可以对应时间窗口[t3，t4]。

在得到完成优化的第二隐私防护约束条件的基础上，可以实现对应用户信息的标记，得到用户信息标记结果。其中，用户信息标记结果可以包括针对隐私信息的标记结果，且所述用户信息标记结果用于指导针对所述隐私信息的匿名化防护。

鉴于隐私防护约束条件的优化对于指定用户信息标记的重要作用，因此，可以对优化第一隐私防护约束条件的实施过程进行说明。其中，优化第一隐私防护约束条件的过程示例性的可以包括如下步骤。

步骤1031、基于医疗用户会话集涵盖的医疗用户会话的统计值（数量），对存在隐私防护需求的医疗用户大数据涵盖的第一医疗用户会话进行聚类处理，得到若干第一医疗用户会话簇。

步骤1032、针对医疗用户会话集中的每个第二医疗用户会话，从若干第一医疗用户会话簇中确定与第二医疗用户会话对应的第一目标医疗用户会话簇，并基于第二医疗用户会话的第二关键描述集以及对应的第一目标医疗用户会话簇涵盖的每个第一医疗用户会话的第一关键描述集，确定第二医疗用户会话的拼接关键描述集。

步骤1033、根据每个第二医疗用户会话的拼接关键描述集，确定针对医疗用户会话集的拼接关键描述集，并基于医疗用户会话集的拼接关键描述集对第一隐私防护约束条件进行优化，得到完成优化的第二隐私防护约束条件。

在本发明实施例中，可以首先对第一医疗用户会话进行聚类处理（比如：可以根据不同属性或者不用类别对第一医疗用户会话进行划分处理或者分组处理），其次针对医疗用户会话集中的第二医疗用户会话进行有关第二关键描述集和对应的第一目标医疗用户会话簇的第一关键描述集的拼接，进而获得针对医疗用户会话集的拼接关键描述集。第一医疗用户会话簇可以理解为可以根据不同属性或者不用类别对第一医疗用户会话进行划分处理或者分组处理后所得到的医疗用户会话组。

可以理解，有关医疗用户会话集的拼接关键描述集可以是通过每个第二医疗用户会话的拼接关键描述集依据次序配对所得的。在实际实施时，有关关键描述拼接处理可以是根据第二关键描述识别模型所涵盖的若干关键描述挖掘单元来实施的，进一步的，每个关键描述挖掘单元对应若干第二医疗用户会话的拼接关键描述集，其中，拼接关键描述集可以理解为特征整合集。

可以理解，对于第二关键描述识别模型的每个关键描述挖掘单元，将该关键描述挖掘单元对应的若干第二医疗用户会话的拼接关键描述集进行配对，得到该关键描述挖掘单元对应的拼接关键描述集。本发明实施例中，将当前关键描述挖掘单元对应的拼接关键描述集作为后一个关键描述挖掘单元的原料关键描述集，通过下采样处理得到后一个关键描述挖掘单元对应的拼接关键描述集，反复迭代，直到得到关键描述集规模符合设定指标的拼接关键描述集，并作为针对医疗用户会话集的拼接关键描述集。其中，下采样处理可以理解为降维处理。

可以理解的是，有关每个第一医疗用户会话的聚类处理可以是基于医疗用户会话集涵盖的医疗用户会话的统计值来确定的，比如：在医疗用户会话集涵盖8组医疗用户会话的基础上，可以将存在隐私防护需求的医疗用户大数据分为8组，有关各组对应的医疗用户会话数可以一致也可以不一致，在此不作过多限定。

此外，基于医疗用户会话集的拼接关键描述集可以对第一隐私防护约束条件进行优化，从而得到完成优化的第二隐私防护约束条件。其中，第一隐私防护约束条件可以有一个，也可以有若干，每个第一隐私防护约束条件可以确定的是在对应阶段用户会话内存在就诊交互，无法确定真实的就诊交互标签，相应的，有关完成优化的第二隐私防护约束条件也可以是一个或若干。其中，第二隐私防护约束条件可以是通过更深层次的描述对每个第一隐私防护约束条件优化所得的，示例性的可以包括如下步骤。

步骤10311、确定第一隐私防护约束条件涵盖的就诊交互触发节点相对应的第二医疗用户会话以及就诊交互完成节点相对应的第二医疗用户会话。

步骤10312、从医疗用户会话集的拼接关键描述集中，采集与确定的两个第二医疗用户会话所对应的阶段用户会话或者衍生用户会话绑定的拼接关键描述子集。

步骤10313、基于采集的拼接关键描述子集对第一隐私防护约束条件进行优化，得到完成优化的第二隐私防护约束条件。

在本发明实施例中，首先可以确定第一隐私防护约束条件涵盖的就诊交互触发节点相对应的第二医疗用户会话以及就诊交互完成节点相对应的第二医疗用户会话，其次从医疗用户会话集的拼接关键描述集中采集与上述两个医疗用户会话绑定的拼接关键描述子集，该关键描述子集是更深层次的医疗用户会话描述，避免了剩余无效医疗用户会话描述的影响，可以实现第一隐私防护约束条件的精准优化。

可以理解的是，绑定的拼接关键描述子集可以是基于两个第二医疗用户会话所对应的阶段用户会话（可以理解为部分用户会话）从医疗用户会话集的拼接关键描述集中对应挑选的局部描述内容，还可以是基于两个第二医疗用户会话所对应的衍生用户会话（比如：扩展会话）从医疗用户会话集的拼接关键描述集中对应挑选的局部描述内容。

举例而言，在确定第一隐私防护约束条件相对应的两个第二医疗用户会话分别是第2组和第10组的基础上，可以从医疗用户会话集的拼接关键描述集中采集从第2组到第10组这一阶段用户会话绑定的拼接关键描述子集，还可以采集从第1组到第11组这一衍生用户会话绑定的拼接关键描述子集。

对于一种可示性实施例而言，第一隐私防护约束条件示例性的可以通过以下方式确定。

步骤201、通过已完成调试的若干交互变量挖掘模型分别对医疗用户会话集的拼接关键描述集进行交互变量挖掘，得到每个交互变量挖掘模型导出的每个第二医疗用户会话的交互变量数据（交互参数值）。

在本发明实施例中，交互变量挖掘可以理解为通过交互变量挖掘模型对医疗用户会话集的拼接关键描述集进行交互参数挖掘。交互变量数据包括对应于会话行为触发状态的可能性、对应于会话行为终止状态的可能性、以及对应对应于待定会话行为的可能性。

步骤202、根据每个交互变量挖掘模型导出的交互变量数据，确定第一隐私防护约束条件。

在本发明实施例中，对于医疗用户会话集的拼接关键描述集可以分为三个部分（比如：对应会话行为触发估计部分，会话行为终止估计部分和会话行为延续估计部分）进行交互变量挖掘。可以理解，三个部分可以是通过三个交互变量挖掘模型实现的。为了实现不同交互变量数据的挖掘，进一步的，交互变量挖掘模型可以是不同的特征提取模型。

举例而言，针对会话行为触发的相关估计而言，可以确定一个量化约束条件为L状态数目的可能性分布，每个分布成员反映了对应组对应于会话行为触发状态的可能性；相应的，会话行为终止估计部分也估计同样长度的可能性分布，每个分布成员反映了对应组对应于会话行为终止状态的可能性。

对于一种可示性实施例而言，上述若干交互变量挖掘模型示例性的可以通过以下方式调试所得的。

步骤301、确定医疗用户大数据模板，以及针对医疗用户大数据模板添加的交互变量注释；交互变量注释（交互参数信息）包括会话行为触发状态注释（比如：交互开始参数信息）、会话行为终止状态注释（比如：交互结束参数信息）、会话隐私防护约束条件对应的待定会话行为注释（比如：备选会话行为信息）。

步骤302、将医疗用户大数据模板作为待进行调试的若干交互变量挖掘模型的原料（可以理解为导入信息），将交互变量注释作为待进行调试的若干交互变量挖掘模型的挖掘信息的参考指示（比如：对比监督数据或者监督信息），对待进行调试的若干交互变量挖掘模型进行调试，得到已完成调试的若干交互变量挖掘模型。

在本发明实施例中，事先可以对医疗用户大数据模板进行注释。交互变量挖掘模型调试的可以理解为医疗用户大数据模板与对应交互变量注释之间的关联关系。基于添加的交互变量注释可以作为待进行调试的若干交互变量挖掘模型的挖掘信息的参考指示，如此，在将医疗用户大数据模板加载至若干交互变量挖掘模型的基础上，可以得到模型的挖掘信息，将挖掘信息与上述添加的交互变量注释进行比较可以确定模型评估结果（比如：损失值）。基于模型评估结果可以进行反馈调试，从而调试得到交互变量挖掘模型。

举例而言，医疗用户大数据模板，比如可以是参考医疗用户大数据或者样本医疗用户大数据。

对于一种可示性实施例而言，示例性的可以依据以下以下一种或者多于一种方式实施确定医疗用户大数据模板。

实施例一，可以从关联医疗用户大数据中采集与医疗用户大数据模板所对应待定会话行为注释不同的用户会话日志，并将采集的用户会话日志加载到医疗用户大数据模板中，得到完成优化的医疗用户大数据模板。

举例而言，关联医疗用户大数据可以理解为除存在隐私防护需求的医疗用户大数据之外的其他医疗用户大数据。

实施例二，对医疗用户大数据模板进行筛选处理，获得完成处理的医疗用户大数据模板。

实施例三，对医疗用户大数据模板添加的会话隐私防护约束条件配置扰动进行处理，获得完成处理的医疗用户大数据模板。

在实施例三中，配置扰动可以理解为主动给医疗用户大数据模板添加的配置扰动。

可以理解，在确定第一隐私防护约束条件的基础上，本发明实施例可以根据上述采集的与两个第二医疗用户会话所对应的阶段用户会话或者衍生用户会话绑定的拼接关键描述子集，对第一隐私防护约束条件进行优化，示例性的可以通过以下技术方案进行实现。

步骤103131、将采集的拼接关键描述子集加载至已完成调试的用户行为变化挖掘模型中，确定对应交互变量数据的用户行为变化；

步骤103132、基于用户行为变化对第一隐私防护约束条件进行改进，得到完成优化的第二隐私防护约束条件。

在本发明实施例中，可以将采集的拼接关键描述子集加载至已完成调试的用户行为变化挖掘模型中，估计约束条件内的用户行为预测损失，通过改进第一隐私防护约束条件，获得相对准确的完成优化的第二隐私防护约束条件。

在确定完成优化的第二隐私防护约束条件的基础上，本发明实施例示出的应用于大数据的用户隐私保护方法可以从医疗用户会话集的拼接关键描述集中采集与第二隐私防护约束条件绑定的拼接关键描述子集，然后通过已完成调试的用户信息标记模型对采集的拼接关键描述子集进行指定用户信息标记，从而得到存在隐私防护需求的医疗用户大数据中对应用户信息的标记关键词。

可以理解，有关与完成优化的第二隐私防护约束条件绑定的拼接关键描述子集的采集处理可以依据有关第一隐私防护约束条件挑选相应的拼接关键描述子集的过程来实现，再次不作过多限定。

本发明实施例中，有关用户信息标记模型可以调试的是医疗用户大数据模板与对应操作类型之间的关系，换言之，在依据会话隐私防护约束条件的优化过程得到第二隐私防护约束条件的基础上，可以确定的是在约束条件内存在关键就诊操作，而通过用户信息标记模型则可以识别出对应约束条件内对应用户信息的标记关键词。

本发明实施例提供的应用于大数据的用户隐私保护方法在进行用户信息标记的过程中，还可以进行敏感事项识别，可以理解的是，可以通过已完成调试的敏感事项识别模型对存在隐私防护需求的医疗用户大数据进行敏感事项识别，从而得到存在隐私防护需求的医疗用户大数据中敏感事项的分布情况。

对于一些可选的实施例而言，在步骤101-步骤104的基础上，该方法还可以包括步骤105和步骤106所描述的技术方案。

步骤105、根据所述用户信息标记结果从所述存在隐私防护需求的医疗用户大数据确定出与所述隐私信息对应的大数据集。

在本发明实施例中，可以按照数据关联思路和/或数据传递思路从存在隐私防护需求的医疗用户大数据确定与隐私信息对应的大数据集，举例而言，大数据集A可以涵盖隐私信息a。

步骤106、通过所述隐私信息的标记结果对所述大数据集进行匿名化防护。

在本发明实施例中，针对大数据集的匿名化防护需要考虑隐私信息的间接性窥探，基于此，步骤106所描述的通过所述隐私信息的标记结果对所述大数据集进行匿名化防护可以通过以下步骤所描述的技术方案实现：确定第一待匿名化数据集、目标用户活动事件的目标活动事件隐私画像以及所述目标用户活动事件的至少一个目标用户活动事件要素，所述第一待匿名化数据集为所述大数据集中的至少部分数据集，所述第一待匿名化数据集包括待处理用户活动事件，且所述待处理用户活动事件为所述隐私信息的标记结果对应的用户活动事件；对所述第一待匿名化数据集进行隐私画像挖掘操作，得到所述待处理用户活动事件的第一活动事件隐私画像；确定所述待处理用户活动事件的至少一个第一用户活动事件要素；基于所述第一活动事件隐私画像和所述目标活动事件隐私画像之间的量化共性指数、以及所述至少一个第一用户活动事件要素和所述至少一个目标用户活动事件要素的对应情况，得到所述待处理用户活动事件与所述目标用户活动事件的关联性评价；基于所述关联性评价以及所述目标用户活动事件对所述第一待匿名化数据集进行隐私匿名化处理。

例如，如果关联性评价表征所述待处理用户活动事件与所述目标用户活动事件一致，可以基于所述目标用户活动事件的匿名化处理策略对所述第一待匿名化数据集进行隐私匿名化处理，如果关联性评价表征所述待处理用户活动事件与所述目标用户活动事件不一致，可以另外对所述第一待匿名化数据集进行隐私匿名化处理，这样一来，可以在一定程度上借助已知的目标用户活动事件进行隐私匿名化处理从而提高隐私匿名化处理效率。

在另外的一些设计思路下，所述基于所述第一活动事件隐私画像和所述目标活动事件隐私画像之间的量化共性指数、以及所述至少一个第一用户活动事件要素和所述至少一个目标用户活动事件要素的对应情况，得到所述待处理用户活动事件与所述目标用户活动事件的关联性评价，包括：在所述第一活动事件隐私画像和所述目标活动事件隐私画像之间的量化共性指数大于第一量化共性指数判定值的基础上，利用所述至少一个第一用户活动事件要素和所述至少一个目标用户活动事件要素，得到所述待处理用户活动事件与所述目标用户活动事件的关联性评价。如此设计，可以精准可靠地确定出所述待处理用户活动事件与所述目标用户活动事件的关联性评价。

在另外的一些设计思路下，在所述至少一个第一用户活动事件要素包括所述待处理用户活动事件的第一事件语义关键词，且所述至少一个目标用户活动事件要素包括所述目标用户活动事件的目标事件语义关键词的基础上，所述利用所述至少一个第一用户活动事件要素和所述至少一个目标用户活动事件要素，得到所述待处理用户活动事件与所述目标用户活动事件的关联性评价，包括：在所述第一事件语义关键词与所述目标事件语义关键词对应的基础上，确定所述关联性评价包括所述待处理用户活动事件与所述目标用户活动事件一致；在所述第一事件语义关键词与所述目标事件语义关键词不对应的基础上，确定所述关联性评价包括所述待处理用户活动事件与所述目标用户活动事件不一致。如此设计，可以准确可靠地确定出所述待处理用户活动事件与所述目标用户活动事件的关联性评价。

在另外的一些设计思路下，所述至少一个第一用户活动事件要素包括所述待处理用户活动事件的第一事件语义关键词和所述待处理用户活动事件的至少一个第一事件轨迹要素，所述至少一个目标用户活动事件要素包括所述目标用户活动事件的目标事件语义关键词和所述目标用户活动事件的至少一个目标事件轨迹要素；所述利用所述至少一个第一用户活动事件要素和所述至少一个目标用户活动事件要素，得到所述待处理用户活动事件与所述目标用户活动事件的关联性评价，包括：在所述第一事件语义关键词与所述目标事件语义关键词对应的基础上，利用所述至少一个第一事件轨迹要素和所述至少一个目标事件轨迹要素，得到所述待处理用户活动事件与所述目标用户活动事件的关联性评价。如此设计，可以保障关联性评价的完整性。

应当理解，上述针对隐私信息的匿名化防护处理以及针对用户大数据的分析处理皆在通过用户授权的前提下实现的。

基于同样的发明构思，图2示出了本发明实施例提供的的应用于大数据的用户隐私保护装置的模块框图，应用于大数据的用户隐私保护装置可以包括实施图1所示的相关方法步骤的如下模块。

数据筛选模块210，用于确定存在隐私防护需求的医疗用户大数据，并对存在隐私防护需求的医疗用户大数据进行数据筛选操作，得到筛选后所保留的医疗用户会话集。

描述挖掘模块220，用于通过第一关键描述识别模型对存在隐私防护需求的医疗用户大数据进行个体关键描述挖掘，得到存在隐私防护需求的医疗用户大数据中第一医疗用户会话的第一关键描述集，以及通过第二关键描述识别模型对医疗用户会话集进行群体关键描述挖掘，得到医疗用户会话集中第二医疗用户会话的第二关键描述集。

条件优化模块230，用于通过所得的第一关键描述集以及第二关键描述集，对第一隐私防护约束条件进行优化，得到完成优化的第二隐私防护约束条件。

信息防护模块240，用于在第二隐私防护约束条件下对医疗用户会话集进行指定用户信息标记，得到用户信息标记结果；其中，所述用户信息标记结果包括针对隐私信息的标记结果，且所述用户信息标记结果用于指导针对所述隐私信息的匿名化防护。

应用于本发明的相关实施例可以达到如下技术效果：基于上述应用于大数据的用户隐私保护方法，在确定到存在隐私防护需求的医疗用户大数据以及医疗用户会话集的基础上，可以分别进行个体和群体两个角度的关键描述挖掘，得到存在隐私防护需求的医疗用户大数据中第一医疗用户会话的第一关键描述集以及医疗用户会话集中第二医疗用户会话的第二关键描述集，然后对第一隐私防护约束条件进行优化，继而可以在所得的第二隐私防护约束条件下进行指定用户信息标记。本发明实施例中的第一关键描述集所反映的一系列用户行为数据能够对第二关键描述集所反映的群体关键描述进行扩展，这样可以保障所优化所得的第二隐私防护约束条件尽可能精准可靠，进而提高指定用户信息标记的精度和可信度，这样可以基于用户信息标记结果对相关的隐私信息进行针对性的匿名化防护从而保护用户隐私。

以上所述，仅为本发明的具体实施方式。熟悉本技术领域的技术人员根据本发明提供的具体实施方式，可想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种应用于大数据的用户隐私保护方法，其特征在于，应用于大数据隐私保护系统，所述方法至少包括：

根据用户信息标记结果从存在隐私防护需求的医疗用户大数据确定出与隐私信息对应的大数据集；

通过所述隐私信息的标记结果对所述大数据集进行匿名化防护。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定存在隐私防护需求的医疗用户大数据并进行数据筛选操作，得到筛选后所保留的医疗用户会话集；通过第一关键描述识别模型对所述存在隐私防护需求的医疗用户大数据进行个体关键描述挖掘，得到所述存在隐私防护需求的医疗用户大数据中第一医疗用户会话的第一关键描述集，以及通过第二关键描述识别模型对所述医疗用户会话集进行群体关键描述挖掘，得到所述医疗用户会话集中第二医疗用户会话的第二关键描述集；

通过所得的所述第一关键描述集以及所述第二关键描述集，对第一隐私防护约束条件进行优化，得到完成优化的第二隐私防护约束条件；在所述第二隐私防护约束条件下对所述医疗用户会话集进行指定用户信息标记，得到用户信息标记结果；其中，所述用户信息标记结果包括针对隐私信息的标记结果，且所述用户信息标记结果用于指导针对所述隐私信息的匿名化防护。

3.根据权利要求2所述的方法，其特征在于，所述通过所得的所述第一关键描述集以及所述第二关键描述集，对第一隐私防护约束条件进行优化，得到完成优化的第二隐私防护约束条件，包括：

依据所述医疗用户会话集涵盖的医疗用户会话的统计值，对所述存在隐私防护需求的医疗用户大数据涵盖的第一医疗用户会话进行聚类处理，得到若干第一医疗用户会话簇；

对于所述医疗用户会话集中的每个第二医疗用户会话，从所述若干第一医疗用户会话簇中确定与所述第二医疗用户会话对应的第一目标医疗用户会话簇，并依据所述第二医疗用户会话的第二关键描述集以及对应的第一目标医疗用户会话簇涵盖的每个第一医疗用户会话的第一关键描述集，确定所述第二医疗用户会话的拼接关键描述集；

根据每个第二医疗用户会话的拼接关键描述集，确定对于所述医疗用户会话集的拼接关键描述集，并依据所述医疗用户会话集的拼接关键描述集对第一隐私防护约束条件进行优化，得到完成优化的第二隐私防护约束条件。

4.根据权利要求3所述的方法，其特征在于，所述依据所述医疗用户会话集的拼接关键描述集对第一隐私防护约束条件进行优化，得到完成优化的第二隐私防护约束条件，包括：

确定所述第一隐私防护约束条件涵盖的就诊交互触发节点相对应的第二医疗用户会话以及就诊交互完成节点相对应的第二医疗用户会话；

从所述医疗用户会话集的拼接关键描述集中，采集与确定的两个所述第二医疗用户会话所对应的阶段用户会话或者衍生用户会话绑定的拼接关键描述子集；

基于采集的所述拼接关键描述子集对第一隐私防护约束条件进行优化，得到完成优化的第二隐私防护约束条件。

5.根据权利要求4所述的方法，其特征在于，通过以下方式确定所述第一隐私防护约束条件：

通过已完成调试的若干交互变量挖掘模型分别对所述医疗用户会话集的拼接关键描述集进行交互变量挖掘，得到每个所述交互变量挖掘模型导出的每个第二医疗用户会话的交互变量数据；所述交互变量数据包括对应于会话行为触发状态的可能性、对应于会话行为终止状态的可能性、以及对应对应于待定会话行为的可能性；

根据每个所述交互变量挖掘模型导出的交互变量数据，确定第一隐私防护约束条件；

其中，通过以下方式调试所述若干交互变量挖掘模型：确定医疗用户大数据模板，以及相较于所述医疗用户大数据模板添加的交互变量注释；所述交互变量注释包括会话行为触发状态注释、会话行为终止状态注释、会话隐私防护约束条件对应的待定会话行为注释；将所述医疗用户大数据模板作为待进行调试的若干交互变量挖掘模型的原料，将所述交互变量注释作为所述待进行调试的若干交互变量挖掘模型的挖掘信息的参考指示，对所述待进行调试的若干交互变量挖掘模型进行调试，得到已完成调试的若干交互变量挖掘模型；

其中，所述确定医疗用户大数据模板通过以下一种或者多于一种方式实施：从关联医疗用户大数据中采集与所述医疗用户大数据模板所对应待定会话行为注释不同的用户会话日志，并将采集的所述用户会话日志加载到所述医疗用户大数据模板中，得到完成优化的医疗用户大数据模板；对所述医疗用户大数据模板进行筛选处理，获得完成处理的医疗用户大数据模板；对所述医疗用户大数据模板添加的会话隐私防护约束条件配置扰动进行处理，获得完成处理的医疗用户大数据模板。

6.根据权利要求5所述的方法，其特征在于，所述基于采集的所述拼接关键描述子集对第一隐私防护约束条件进行优化，得到完成优化的第二隐私防护约束条件，包括：

将采集的所述拼接关键描述子集加载至已完成调试的用户行为变化挖掘模型中，确定对应交互变量数据的用户行为变化；

依据所述用户行为变化对所述第一隐私防护约束条件进行改进，得到完成优化的第二隐私防护约束条件。

7.根据权利要求2所述的方法，其特征在于，所述第二关键描述识别模型包括若干关键描述挖掘单元，每个所述关键描述挖掘单元对应若干第二医疗用户会话的拼接关键描述集；所述根据每个第二医疗用户会话的拼接关键描述集，确定对于所述医疗用户会话集的拼接关键描述集，包括：

对于所述第二关键描述识别模型的每个关键描述挖掘单元，将该关键描述挖掘单元对应的若干第二医疗用户会话的拼接关键描述集进行配对，得到该关键描述挖掘单元对应的拼接关键描述集，以及，将该关键描述挖掘单元对应的拼接关键描述集作为后一个关键描述挖掘单元的原料关键描述集，通过下采样处理得到所述后一个关键描述挖掘单元对应的拼接关键描述集，反复迭代，直到得到关键描述集规模符合设定指标的拼接关键描述集，并作为所述对于所述医疗用户会话集的拼接关键描述集。

8.根据权利要求2所述的方法，其特征在于，所述在所述第二隐私防护约束条件下对所述医疗用户会话集进行指定用户信息标记，得到用户信息标记结果，包括：

从所述医疗用户会话集的拼接关键描述集中采集与所述第二隐私防护约束条件绑定的拼接关键描述子集；

通过已完成调试的用户信息标记模型对采集的所述拼接关键描述子集进行指定用户信息标记，得到所述存在隐私防护需求的医疗用户大数据中对应用户信息的标记关键词；

其中，在所述存在隐私防护需求的医疗用户大数据为异地就诊环境下采集的智慧医疗日志，所述医疗用户会话集为异地医疗用户会话集的基础上，所述在所述第二隐私防护约束条件下对所述医疗用户会话集进行指定用户信息标记，得到用户信息标记结果，包括：在所述第二隐私防护约束条件下对所述异地医疗用户会话集中的敏感事项进行指定用户信息标记，确定所述敏感事项的用户信息标记结果。

9.一种大数据隐私保护系统，其特征在于，包括：存储器和处理器；所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；其中，当所述处理器执行所述计算机指令时，使得所述大数据隐私保护系统执行如权利要求1-8中任意一项所述的方法。