CN115982765A

CN115982765A - 数据脱敏方法、装置、设备及计算机可读存储介质

Info

Publication number: CN115982765A
Application number: CN202211693654.8A
Authority: CN
Inventors: 郑巧琼; 李嘉霖; 卞静; 陈凡; 马玲; 许倩茜
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-04-18

Abstract

本申请实施例提供了一种数据脱敏方法、装置、设备及计算机可读存储介质，方法包括：获取包含敏感数据的文本信息；基于预先建立的规则库和自适应敏感数据识别模型，对文本信息中的字段数据进行识别和分类处理，得到数据表；将数据表转换为数据表字段矩阵，并确定数据表字段矩阵中的字段类别；根据数据表字段矩阵中的字段类别，确定数据表对应的目标敏感等级；根据预先建立的敏感等级与脱敏策略之间的对应关系，确定目标敏感等级对应的脱敏策略；根据目标敏感等级对应的脱敏策略，对敏感数据进行脱敏处理。根据本申请实施例，实现了敏感数据的快速识别和精准分类，提高了敏感数据的识别效率和识别精准度，实现了对于敏感数据的精准保护。

Description

数据脱敏方法、装置、设备及计算机可读存储介质

技术领域

本申请属于数据安全技术领域，尤其涉及一种数据脱敏方法、装置、设备及计算机可读存储介质。

背景技术

大数据时代在数据开放共享的同时还存在诸多的隐私风险。目前虽然能够通过数据挖掘、机器学习等数据分析技术大量挖掘潜藏的数据价值，并通过众多的隐私保护算法对用户隐私进行保护，但在实际应用场景中，由于数据的种类在不断变化，数据间的关系也变得错综复杂，且系统开发方通常会利用代码等手段对数据集的原始元数据进行操作处理，使生产环境中经代码处理后的数据集的敏感属性难以识别，导致无法精确定位敏感属性的数据，故而不能利用合适的隐私保护手段对敏感属性的数据进行处理，使敏感数据的保护效率较低。

发明内容

本申请实施例提供了一种数据脱敏方法、装置、设备及计算机可读存储介质，能够对敏感数据进行快速识别和精准分类，提高了敏感数据的识别效率和识别精准度，实现了对于敏感数据的精准保护。

第一方面，本申请实施例提供了一种数据脱敏方法，数据脱敏方法包括：获取包含敏感数据的文本信息；基于预先建立的规则库和自适应敏感数据识别模型，对文本信息中的字段数据进行识别和分类处理，得到数据表；将数据表转换为数据表字段矩阵，并确定数据表字段矩阵中的字段类别；根据数据表字段矩阵中的字段类别，确定数据表对应的目标敏感等级；根据预先建立的敏感等级与脱敏策略之间的对应关系，确定目标敏感等级对应的脱敏策略；根据目标敏感等级对应的脱敏策略，对敏感数据进行脱敏处理。

根据本申请第一方面的实施方式，在获取包含敏感数据的文本信息之前，方法还包括：获取包含样本敏感数据的训练数据，训练数据包括结构化数据表；根据结构化数据表中的熵与最大熵，定义结构化数据表中的属性敏感度；以属性敏感度作为聚类分析的数据点，利用目标聚类算法识别样本敏感数据的属性敏感度；基于关联规则挖掘算法建立属性间的关联关系，并将训练数据划分为敏感属性集与非敏感属性集；将敏感属性集和非敏感属性集代入预先建立的机器学习模型，并基于目标分类算法对机器学习模型进行训练，得到训练好的自适应敏感数据识别模型。

根据本申请第一方面前述任一实施方式，基于预先建立的规则库和自适应敏感数据识别模型，对文本信息中的字段数据进行识别和分类处理，得到数据表，具体包括：构建由正则表达式和/或字段信息组成的规则库，字段信息包括字段类别和字段描述；基于规则库中存储的正则表达式和/或字段信息，对文本信息中的字段进行识别；在文本信息中的字段能够被识别的情况下，对于文本信息中与正则表达式和/或字段信息匹配的目标字段进行标记；在文本信息中的字段无法被识别的情况下，调用自适应敏感数据识别模型对文本信息中的字段进行识别。

根据本申请第一方面前述任一实施方式，基于规则库中存储的正则表达式和/或字段信息，对文本信息中的字段进行识别，具体包括：对文本信息中各列对应的全部属性值依次进行识别，并基于规则库中存储的正则表达式和/或字段信息对于属性值进行分类；统计被检测的各列对应的全部属性值的分类分布情况；对于任意第i列，若第i列中的频数最高的类别对应的属性值的数量占据第i列中的全部属性值的总数的比例超过第一预设阈值，则将第i列的类别标记为频数最高的类别，i为正整数；若第i列中的频数最高的类别对应的属性值的数量占据第i列中的全部属性值的总数的比例小于或等于第一预设阈值，则将第i列的类别标记为无法识别。

根据本申请第一方面前述任一实施方式，将数据表转换为数据表字段矩阵，并确定数据表字段矩阵中的字段类别，具体包括：构建数据表维度分类类别库；根据数据表和数据表维度分类类别库中记录的字段，使用独热编码构建数据表字段矩阵，数据表字段矩阵包括多个字段及各个字段对应的向量属性值；将数据表字段矩阵输入预先训练的随机森林算法模型，预测数据表字段矩阵对应的数据表的类别；根据数据表字段矩阵中的字段类别，确定数据表对应的目标敏感等级，具体包括：根据数据表字段矩阵对应的数据表的类别，确定数据表对应的目标敏感等级。

根据本申请第一方面前述任一实施方式，根据数据表字段矩阵对应的数据表的类别，确定数据表对应的目标敏感等级，具体包括：构建数据表类别与敏感等级之间的对应关系；根据数据表类别与敏感等级之间的对应关系，确定数据表的类别对应的至少一个敏感等级；按照预设的优先级排列顺序，从至少一个敏感等级中选取优先级最高的敏感等级作为数据表对应的目标敏感等级。

根据本申请第一方面前述任一实施方式，脱敏策略包括选择通用字符串对应的自定义脱敏算法对通用字符串进行脱敏处理；自定义脱敏算法包括以下至少一项：对通用字符串进行部分保留、对通用字符串进行部分屏蔽、对通用字符串进行部分截取和对通用字符串进行部分替换。

根据本申请第一方面前述任一实施方式，在根据目标敏感等级对应的脱敏策略，对敏感数据进行脱敏处理之后，方法还包括：对终端设备内的多个应用软件进行监测与评估，计算多个应用软件各自对应的隐私风险值；根据多个应用软件各自对应的隐私风险值，对多个应用软件进行分类，得到多个应用软件的分类结果；根据多个应用软件的分类结果，执行对应的目标安全操作。

根据本申请第一方面前述任一实施方式，对终端设备内的多个应用软件进行监测与评估，计算多个应用软件各自对应的隐私风险值，具体包括：获取多个应用软件的应用信息，应用信息至少包括应用软件调用用户隐私权限的历史信息；从应用信息中提取预设所需特定值，并进行归一化处理，得到应用隐私项向量；对应应用隐私项向量，设置用户隐私项向量；计算应用隐私项向量与用户隐私项向量的点积，得到隐私风险指标；根据隐私风险指标，建立隐私风险值评估模型；基于隐私风险值评估模型，计算多个应用软件各自对应的隐私风险值。

第二方面，本申请实施例提供了一种数据脱敏装置，数据脱敏装置包括：第一获取模块，用于获取包含敏感数据的文本信息；识别模块，用于基于预先建立的规则库和自适应敏感数据识别模型，对文本信息中的字段数据进行识别和分类处理，得到数据表；第一确定模块，用于将数据表转换为数据表字段矩阵，并确定数据表字段矩阵中的字段类别；第二确定模块，用于根据数据表字段矩阵中的字段类别，确定数据表对应的目标敏感等级；第三确定模块，用于根据预先建立的敏感等级与脱敏策略之间的对应关系，确定目标敏感等级对应的脱敏策略；脱敏模块，用于根据目标敏感等级对应的脱敏策略，对敏感数据进行脱敏处理。

第三方面，本申请实施例提供了一种电子设备，电子设备包括：处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现如第一方面提供的数据脱敏方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如第一方面提供的数据脱敏方法的步骤。

本申请实施例的数据脱敏方法、装置、设备及计算机可读存储介质，结合规则库和自适应敏感数据识别模型两种方式，对文本信息中的字段数据进行识别和分类处理，得到数据表，实现了对于敏感数据的精准标记；以及将数据表转换为数据表字段矩阵，并确定数据表字段矩阵中的字段类别；根据数据表字段矩阵中的字段类别，确定数据表对应的目标敏感等级，根据预先建立的敏感等级与脱敏策略之间的对应关系，确定目标敏感等级对应的脱敏策略，根据目标敏感等级对应的脱敏策略，对敏感数据进行脱敏处理，实现了敏感数据的快速识别和精准分类，提高了敏感数据的识别效率和识别精准度，实现了对于敏感数据的精准保护。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的数据脱敏方法的一种流程示意图；

图2是本申请实施例提供的数据脱敏方法的另一种流程示意图；

图3是本申请实施例提供的数据脱敏方法的又一种流程示意图；

图4是本申请实施例提供的数据脱敏装置的一种结构示意图；

图5是本申请实施例提供的电子设备的一种硬件结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

在不脱离本申请的精神或范围的情况下，在本申请中能进行各种修改和变化，这对于本领域技术人员来说是显而易见的。因而，本申请意在覆盖落入所对应权利要求(要求保护的技术方案)及其等同物范围内的本申请的修改和变化。需要说明的是，本申请实施例所提供的实施方式，在不矛盾的情况下可以相互组合。

在阐述本申请实施例所提供的技术方案之前，为了便于对本申请实施例理解，本申请首先对相关技术中存在的问题进行具体说明：

如前所述，经本申请的发明人发现，相关技术中虽然能够通过数据挖掘、机器学习等数据分析技术大量挖掘潜藏的数据价值，但在数据共享前仍有许多隐私保护的问题需要解决，而现有技术中通过隐私保护算法对用户隐私进行保护，无法在数据种类不断变化、数据间关系愈发错综复杂以及系统开发方利用代码等手段对数据集的原始元数据进行操作处理的实际应用场景中，精准识别特殊处理后的数据集中的敏感数据，进而无法利用合适的隐私保护手段对敏感数据进行处理，使用户隐私无法得到快速而有效的保护。

鉴于发明人的上述研究发现，本申请实施例提供了一种数据脱敏方法、装置、设备及计算机可读存储介质，能够解决相关技术中存在的敏感数据识别精度低、用户隐私保护效率低的技术问题。

下面首先对本申请实施例所提供的数据脱敏方法进行介绍。

图1是本申请实施例提供的数据脱敏方法的一种流程示意图。如图1所示，该方法可以包括以下步骤S101至S106。

S101、获取包含敏感数据的文本信息。

其中，敏感数据可以包括但不限于用户的姓名、身份证号码、电话、住址、银行账号等个人隐私数据，以及企业的经营情况、IP地址列表等企业隐私数据。

S102、基于预先建立的规则库和自适应敏感数据识别模型，对文本信息中的字段数据进行识别和分类处理，得到数据表。

例如可以预先基于正则表达式以规则的形式建立规则库。规则可以依据专家经验确定，规则具体可表现为正则表达式。基于该正则表达式识别的字段类别以及相应的字段描述。字段类别具有唯一性，其可以包括但不限于身份证号码、电话或住址，本实施例对字段类别的数量不做具体限定。规则库由专人进行维护，当有新增规则出现时，以人工添加的形式将新增的规则输入至规则库中，而难以用正则表达式识别的字段内容，可只输入字段类别与字段描述，正则表达式显示为空，规则库中的内容用户均无权删改。

预先根据大数据平台和用户输入的文本信息获取包含样本敏感数据的训练数据，作为训练集合，对训练集合的内容进行定期更新，将训练集合代入预先建立的机器学习模型进行自适应模型训练，得到最终的自适应敏感数据识别模型。

根据规则库中的正则表达式对文本信息中的字段内容进行识别，若无法识别文本信息中的字段内容，再调用自适应敏感数据识别模型进行识别，识别完成后根据规则库的规则确定该字段对应的字段类别并对其字段类别进行标记，标记完成后再根据规则库继续识别文本信息中新的字段内容，直至所有的字段均被正确分类后，得到标记后的数据表。

S103、将数据表转换为数据表字段矩阵，并确定数据表字段矩阵中的字段类别。

将标记后的数据表转换为数据表字段矩阵，根据规则库中已有的字段类别以人工的方式对数据表字段矩阵中的各数据表进行分类，确定各数据表对应的字段类别，其中，一个数据表可对应多个字段类别。

S104、根据数据表字段矩阵中的字段类别，确定数据表对应的目标敏感等级。

根据数据表字段矩阵中各数据表对应的字段类别，以单个数据表为最小单位对各数据表进行分类，确定各数据表的类别，根据数据表类别和敏感等级之间的映射关系，确定各数据表分别对应的目标敏感等级。

S105、根据预先建立的敏感等级与脱敏策略之间的对应关系，确定目标敏感等级对应的脱敏策略。

根据敏感等级和脱敏策略之间的对应关系，确定各数据表的目标敏感等级分别对应的脱敏策略。

S106、根据目标敏感等级对应的脱敏策略，对敏感数据进行脱敏处理。

对各数据表执行与其目标敏感等级对应的脱敏策略，根据脱敏策略对各数据表中的敏感数据进行脱敏处理。

以上为本申请实施例提供的数据脱敏方法的具体实现方式。本申请实施例结合规则库和自适应敏感数据识别模型两种方式，对文本信息中的字段数据进行识别和分类处理，得到数据表，实现了对于敏感数据的精准标记；以及将数据表转换为数据表字段矩阵，并确定数据表字段矩阵中的字段类别；根据数据表字段矩阵中的字段类别，确定数据表对应的目标敏感等级，根据预先建立的敏感等级与脱敏策略之间的对应关系，确定目标敏感等级对应的脱敏策略，根据目标敏感等级对应的脱敏策略，对敏感数据进行脱敏处理，实现了敏感数据的快速识别和精准分类，提高了敏感数据的识别效率和识别精准度，实现了对于敏感数据的精准保护。

图2是本申请实施例提供的数据脱敏方法的另一种流程示意图。如图2所示，根据本申请的一些实施例，可选地，在S101获取包含敏感数据的文本信息之前，本申请实施例所提供的数据脱敏方法还可以包括以下步骤S201至S205。

S201、获取包含样本敏感数据的训练数据，训练数据包括结构化数据表。

根据大数据平台和用户输入的文本信息获取包含样本敏感数据的训练数据，训练数据包括结构化数据表。

S202、根据结构化数据表中的熵与最大熵，定义结构化数据表中的属性敏感度。

S203、以属性敏感度作为聚类分析的数据点，利用目标聚类算法识别样本敏感数据的属性敏感度。

利用目标聚类算法(k-means聚类算法)识别样本敏感数据的属性敏感度，首先对信息熵的敏感度进行量化，利用公式(1)计算信息源的信息熵，

其中，H(X)表示信息源的信息熵，即信息源各个离散信息的自信息量的数学期望作为信息源的平均信息量，p(a_i)表示每个离散信息发生的概率，0≤p(a_i)≤1，且满足

其次根据信息熵和最大离散熵，利用公式(2)计算敏感数据的属性敏感度，

其中，H(x_i)表示信息熵，H_max(x_i)表示最大离散熵，SV_i表示属性敏感度，满足0<SV_i<1，SV_i的值越小，说明属性的信息熵越大，其与最大离散熵之间的距离越接近，该属性越敏感。

S204、基于关联规则挖掘算法建立属性间的关联关系，并将训练数据划分为敏感属性集与非敏感属性集。

利用关联规则挖掘算法(Apriori算法)建立敏感属性集和非敏感属性集之间的关联关系，根据敏感数据属性敏感度的大小，将样本敏感数据划分至敏感属性集或非敏感属性集中。例如，利用PAS_i→SA_k标记每一条关联规则，将数据集划分为敏感属性集SA与非敏感属性集PAS。

S205、将敏感属性集和非敏感属性集代入预先建立的机器学习模型，并基于目标分类算法对机器学习模型进行训练，得到训练好的自适应敏感数据识别模型。

将敏感属性集和非敏感属性集中的数据代入预先建立的机器学习模型，利用目标分类算法(IBk算法)对机器学习模型进行训练，保存训练后的模型作为自适应敏感数据识别模型。

通过上述实施例，结合构建的自适应敏感数据识别模型建立高效的识别进程，根据敏感数据的属性快速完成对文本信息的识别，提高了识别的效率与准确度，并且通过数据的存储与定期更新，不断地训练机器学习模型，能够在保证识别效率的同时，进一步增强模型的自适应能力，从而对后续不同类型的敏感数据进行更加精确的识别。

在一个示例中，基于预先建立的规则库和自适应敏感数据识别模型，对文本信息中的字段数据进行识别和分类处理，得到数据表，具体包括：构建由正则表达式和/或字段信息组成的规则库，字段信息包括字段类别和字段描述；基于规则库中存储的正则表达式和/或字段信息，对文本信息中的字段进行识别；在文本信息中的字段能够被识别的情况下，对于文本信息中与正则表达式和/或字段信息匹配的目标字段进行标记；在文本信息中的字段无法被识别的情况下，调用自适应敏感数据识别模型对文本信息中的字段进行识别。

示例性地，构建的规则库中存储有正则表达式和/或字段信息，字段信息包括基于该正则表达式识别的字段类别以及相应的字段描述。基于正则表达式和/或字段信息对文本信息中的字段进行识别，若文本信息中的字段能够被识别，则对与正则表达式和/或字段信息匹配的目标字段的字段类别进行标记，若文本信息中的字段无法被识别，再调用自适应敏感数据识别模型进行识别。

通过上述实施例，使规则库与自适应敏感数据识别模型相结合，实现了敏感数据识别的全覆盖，相较于传统的识别分类方法，能够对敏感数据进行更深层次的识别，提高了敏感数据的识别效率。

在一个示例中，基于规则库中存储的正则表达式和/或字段信息，对文本信息中的字段进行识别，具体包括：对文本信息中各列对应的全部属性值依次进行识别，并基于规则库中存储的正则表达式和/或字段信息对于属性值进行分类；统计被检测的各列对应的全部属性值的分类分布情况；对于任意第i列，若第i列中的频数最高的类别对应的属性值的数量占据第i列中的全部属性值的总数的比例超过第一预设阈值，则将第i列的类别标记为频数最高的类别，i为正整数；若第i列中的频数最高的类别对应的属性值的数量占据第i列中的全部属性值的总数的比例小于或等于第一预设阈值，则将第i列的类别标记为无法识别。

示例性地，基于规则库对文本信息中各列字段对应的全部属性值依次进行识别，并确定各属性值对应的字段类别，统计被检测的各列字段对应的全部属性值的分类分布情况，若某一列字段中频数最高的字段类别其所对应的属性值的数量，占据该列字段对应的全部属性值的数量的比例超过第一预设阈值，则将频数最高的字段类别作为该列字段的类别，若占据该列字段对应的全部属性值的数量的比例小于或等于第一预设阈值，则将该列字段的类别标记为无法识别。

在一个示例中，将数据表转换为数据表字段矩阵，并确定数据表字段矩阵中的字段类别，具体包括：构建数据表维度分类类别库；根据数据表和数据表维度分类类别库中记录的字段，使用独热编码构建数据表字段矩阵，数据表字段矩阵包括多个字段及各个字段对应的向量属性值；将数据表字段矩阵输入预先训练的随机森林算法模型，预测数据表字段矩阵对应的数据表的类别；根据数据表字段矩阵中的字段类别，确定数据表对应的目标敏感等级，具体包括：根据数据表字段矩阵对应的数据表的类别，确定数据表对应的目标敏感等级。

示例性地，构建数据表维度分类类别库，数据表的类别可以包括但不限于个人信息数据和用户套餐数据等。根据规则库中已记录的字段类别构建长度与字段类别总数相等的全零向量，分别与规则库中已记录的字段类别对应，将每一个字段类别作为一个特征。若数据表中包含某字段类别对应的字段，则将该字段对应的向量属性值标为1。由人工对数据表进行分类，并将所有数据表对应的全部字段类别的向量属性值标为1，最终得到n行、k列的数据表字段矩阵，其中，n为规则库中已记录的字段类别数量，k为数据表的数量。

基于数据表维度分类类别库中数据表类别的数量，训练相应数量的随机森林算法模型，将数据表字段矩阵输入训练后的随机森林算法模型，预测数据表字段矩阵对应的数据表的类别，输出以单个数据表为最小单位进行分类的数据表分类结果。如果输出的数据表分类结果与实际情况有误，或不存在可以赋给该数据表的类别标签，用户可自行修正数据表类别，修正完成后根据新的数据表类别对随机森林算法模型进行训练。在确定各数据表的类别之后，根据数据表的类别对其敏感等级进行划分。

通过上述实施例，用户可根据实际情况自行修正数据表类别，使结构化数据分类分级的方法更具灵活性，可适用于多种不同的应用场景。

在一个示例中，根据数据表字段矩阵对应的数据表的类别，确定数据表对应的目标敏感等级，具体包括：构建数据表类别与敏感等级之间的对应关系；根据数据表类别与敏感等级之间的对应关系，确定数据表的类别对应的至少一个敏感等级；按照预设的优先级排列顺序，从至少一个敏感等级中选取优先级最高的敏感等级作为数据表对应的目标敏感等级。

示例性地，构建数据表类别与敏感等级之间的对应关系，例如数据表类别为个人信息数据，其敏感等级为第一级，数据表类别为用户套餐数据，其敏感等级为第二级，级别由高到低分为第一级、第二级、第三级和第四级，第一级表示敏感级别最高，第四级表示敏感级别最低，本实施例对此不做具体限定。根据上述对应关系，确定各数据表对应的至少一个目标敏感等级，如果在对各数据表的类别遍历的过程中，发现该数据表具有敏感等级更高的类别，则将级别更高的敏感等级作为该数据表的目标敏感等级。

在一个示例中，脱敏策略包括选择通用字符串对应的自定义脱敏算法对通用字符串进行脱敏处理；自定义脱敏算法包括以下至少一项：对通用字符串进行部分保留、对通用字符串进行部分屏蔽、对通用字符串进行部分截取和对通用字符串进行部分替换。

示例性地，根据数据表的目标敏感等级对应的脱敏策略，对敏感数据进行脱敏处理。读取字符串数据，并对字符串数据进行特定区间的拆分，通过仿真脱敏的方式分别拆分区间内的字符串并进行仿真，以生成新的字符串，再将各区间进行随机组合完成敏感数据的脱敏。

通过上述实施例，在确定数据表的目标敏感等级之后，根据目标敏感等级对需要保护的敏感数据进行脱敏处理，在保证数据安全的同时，减少了数据处理的步骤，提高了敏感数据的保护效率。

图3是本申请实施例提供的数据脱敏方法的又一种流程示意图。如图3所示，根据本申请的一些实施例，可选地，在S106根据目标敏感等级对应的脱敏策略，对敏感数据进行脱敏处理之后，本申请实施例所提供的数据脱敏方法还可以包括以下步骤S301至S303。

S301、对终端设备内的多个应用软件进行监测与评估，计算多个应用软件各自对应的隐私风险值。

S302、根据多个应用软件各自对应的隐私风险值，对多个应用软件进行分类，得到多个应用软件的分类结果。

根据多个应用软件各自对应的隐私风险值，对多个应用软件进行分类，例如，将应用软件划分为高危应用、中危应用和轻危应用三种类型。

S303、根据多个应用软件的分类结果，执行对应的目标安全操作。

根据分类结果，对各个应用软件进行区别标注，以提醒用户关闭相关应用权限，同时系统对应用软件获取权限的行为进行拦截，提供脱敏信息，而用户可手动选择添加任一应用软件至信任应用名单，避免系统自动拦截。

通过上述实施例，实现了对应用软件的风险评估，并根据应用软件的分类结果达到对用户进行提醒与优先自动拦截的功能，保障了用户的数据隐私安全。

在一个示例中，对终端设备内的多个应用软件进行监测与评估，计算多个应用软件各自对应的隐私风险值，具体包括：获取多个应用软件的应用信息，应用信息至少包括应用软件调用用户隐私权限的历史信息；从应用信息中提取预设所需特定值，并进行归一化处理，得到应用隐私项向量；对应应用隐私项向量，设置用户隐私项向量；计算应用隐私项向量与用户隐私项向量的点积，得到隐私风险指标；根据隐私风险指标，建立隐私风险值评估模型；基于隐私风险值评估模型，计算多个应用软件各自对应的隐私风险值。

示例性地，获取多个应用软件的信息以及其调用用户隐私权限的历史信息，作为应用软件的应用信息。从应用信息中提取预设所需特定值并进行归一化处理，得到应用隐私项向量V。对应应用隐私项向量V设置用户隐私项向量L，用户隐私项向量L的表达式为L＝(R₁、R₂、R₃、…、R_i)，R_i为部分敏感数据的隐私敏感度，其表达式为

m表示敏感属性集，n表示非敏感属性集。计算应用隐私项向量V与用户隐私项向量L的点积，得到隐私风险指标。根据隐私风险指标建立隐私风险值评估模型，基于隐私风险值评估模型，利用公式(3)计算多个应用软件各自对应的隐私风险值，

其中，P(y)表示隐私风险值，w_i表示变量的回归系数，i表示隐私文本编号取值为(0，1，2，…，n)，B表示应用隐私项向量V与用户隐私项向量L之间的距离。

通过上述实施例，引入应用软件监测评估算法，通过将应用软件的应用隐私项向量与用户敏感数据的隐私敏感度相结合，构建相应的隐私风险值评估模型，配合规则库和自适应敏感数据识别模型，形成一套完整的敏感数据保护体系，提高了用户敏感数据的安全性，且更加人性化。

基于上述实施例提供的数据脱敏方法，相应地，本申请还提供了数据脱敏装置的具体实现方式。请参见以下实施例。

首先参见图4，本申请实施例提供的数据脱敏装置40包括以下模块：

第一获取模块401，用于获取包含敏感数据的文本信息；

识别模块402，用于基于预先建立的规则库和自适应敏感数据识别模型，对文本信息中的字段数据进行识别和分类处理，得到数据表；

第一确定模块403，用于将数据表转换为数据表字段矩阵，并确定数据表字段矩阵中的字段类别；

第二确定模块404，用于根据数据表字段矩阵中的字段类别，确定数据表对应的目标敏感等级；

第三确定模块405，用于根据预先建立的敏感等级与脱敏策略之间的对应关系，确定目标敏感等级对应的脱敏策略；

脱敏模块406，用于根据目标敏感等级对应的脱敏策略，对敏感数据进行脱敏处理。

本申请实施例提供的数据脱敏装置，结合规则库和自适应敏感数据识别模型两种方式，对文本信息中的字段数据进行识别和分类处理，得到数据表，实现了对于敏感数据的精准标记；以及将数据表转换为数据表字段矩阵，并确定数据表字段矩阵中的字段类别；根据数据表字段矩阵中的字段类别，确定数据表对应的目标敏感等级，根据预先建立的敏感等级与脱敏策略之间的对应关系，确定目标敏感等级对应的脱敏策略，根据目标敏感等级对应的脱敏策略，对敏感数据进行脱敏处理，实现了敏感数据的快速识别和精准分类，提高了敏感数据的识别效率和识别精准度，实现了对于敏感数据的精准保护。

在一些实施例中，数据脱敏装置40还可以包括模型训练模块，用于获取包含样本敏感数据的训练数据，训练数据包括结构化数据表；根据结构化数据表中的熵与最大熵，定义结构化数据表中的属性敏感度；以属性敏感度作为聚类分析的数据点，利用目标聚类算法识别样本敏感数据的属性敏感度；基于关联规则挖掘算法建立属性间的关联关系，并将训练数据划分为敏感属性集与非敏感属性集；将敏感属性集和非敏感属性集代入预先建立的机器学习模型，并基于目标分类算法对机器学习模型进行训练，得到训练好的自适应敏感数据识别模型。

在一些实施例中，上述识别模块402具体用于：构建由正则表达式和/或字段信息组成的规则库，字段信息包括字段类别和字段描述；基于规则库中存储的正则表达式和/或字段信息，对文本信息中的字段进行识别；在文本信息中的字段能够被识别的情况下，对于文本信息中与正则表达式和/或字段信息匹配的目标字段进行标记；在文本信息中的字段无法被识别的情况下，调用自适应敏感数据识别模型对文本信息中的字段进行识别。

在一些实施例中，上述识别模块402还可用于：对文本信息中各列对应的全部属性值依次进行识别，并基于规则库中存储的正则表达式和/或字段信息对于属性值进行分类；统计被检测的各列对应的全部属性值的分类分布情况；对于任意第i列，若第i列中的频数最高的类别对应的属性值的数量占据第i列中的全部属性值的总数的比例超过第一预设阈值，则将第i列的类别标记为频数最高的类别，i为正整数；若第i列中的频数最高的类别对应的属性值的数量占据第i列中的全部属性值的总数的比例小于或等于第一预设阈值，则将第i列的类别标记为无法识别。

在一些实施例中，上述第一确定模块403具体用于：构建数据表维度分类类别库；根据数据表和数据表维度分类类别库中记录的字段，使用独热编码构建数据表字段矩阵，数据表字段矩阵包括多个字段及各个字段对应的向量属性值；将数据表字段矩阵输入预先训练的随机森林算法模型，预测数据表字段矩阵对应的数据表的类别；根据数据表字段矩阵中的字段类别，确定数据表对应的目标敏感等级，具体包括：根据数据表字段矩阵对应的数据表的类别，确定数据表对应的目标敏感等级。

在一些实施例中，上述第一确定模块403还可用于：构建数据表类别与敏感等级之间的对应关系；根据数据表类别与敏感等级之间的对应关系，确定数据表的类别对应的至少一个敏感等级；按照预设的优先级排列顺序，从至少一个敏感等级中选取优先级最高的敏感等级作为数据表对应的目标敏感等级。

在一些实施例中，脱敏策略包括选择通用字符串对应的自定义脱敏算法对通用字符串进行脱敏处理；自定义脱敏算法包括以下至少一项：对通用字符串进行部分保留、对通用字符串进行部分屏蔽、对通用字符串进行部分截取和对通用字符串进行部分替换。

在一些实施例中，数据脱敏装置40还可以包括监测评估模块，用于对终端设备内的多个应用软件进行监测与评估，计算多个应用软件各自对应的隐私风险值；根据多个应用软件各自对应的隐私风险值，对多个应用软件进行分类，得到多个应用软件的分类结果；根据多个应用软件的分类结果，执行对应的目标安全操作。

在一些实施例中，上述监测评估模块具体用于：获取多个应用软件的应用信息，应用信息至少包括应用软件调用用户隐私权限的历史信息；从应用信息中提取预设所需特定值，并进行归一化处理，得到应用隐私项向量；对应应用隐私项向量，设置用户隐私项向量；计算应用隐私项向量与用户隐私项向量的点积，得到隐私风险指标；根据隐私风险指标，建立隐私风险值评估模型；基于隐私风险值评估模型，计算多个应用软件各自对应的隐私风险值。

图4所示装置中的各个模块/单元具有实现上述方法实施例提供的数据脱敏方法中各个步骤的功能，并能达到其相应的技术效果，为简洁描述，在此不再赘述。

基于上述实施例提供的数据脱敏方法，相应地，本申请还提供了电子设备的具体实现方式。请参见以下实施例。

图5示出了本申请实施例提供的电子设备的硬件结构示意图。

电子设备可以包括处理器501以及存储有计算机程序指令的存储器502。

具体地，上述处理器501可以包括中央处理器(Central Processing Unit，CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器502可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在一个示例中，存储器502可以包括可移除或不可移除(或固定)的介质，或者存储器502是非易失性固态存储器。存储器502可在综合网关容灾设备的内部或外部。

在一个示例中，存储器502可以是只读存储器(Read Only Memory，ROM)。在一个示例中，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

存储器502可以包括只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本申请的一方面的方法所描述的操作。

处理器501通过读取并执行存储器502中存储的计算机程序指令，以实现上述方法实施例中的方法/步骤，并达到方法实施例执行其方法/步骤达到的相应技术效果，为简洁描述在此不再赘述。

在一个示例中，电子设备还可包括通信接口503和总线510。其中，如图5所示，处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。

通信接口503，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线510包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(Accelerated Graphics Port，AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，EISA)总线、前端总线(Front Side Bus，FSB)、超传输(Hyper Transport，HT)互连、工业标准架构(IndustryStandard Architecture，ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线510可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的数据脱敏方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据脱敏方法。计算机可读存储介质的示例包括非暂态计算机可读存储介质，如电子电路、半导体存储器设备、ROM、随机存取存储器、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RadioFrequency，RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种数据脱敏方法，其特征在于，包括：

获取包含敏感数据的文本信息；

基于预先建立的规则库和自适应敏感数据识别模型，对所述文本信息中的字段数据进行识别和分类处理，得到数据表；

将所述数据表转换为数据表字段矩阵，并确定所述数据表字段矩阵中的字段类别；

根据所述数据表字段矩阵中的字段类别，确定所述数据表对应的目标敏感等级；

根据预先建立的敏感等级与脱敏策略之间的对应关系，确定所述目标敏感等级对应的脱敏策略；

根据所述目标敏感等级对应的脱敏策略，对所述敏感数据进行脱敏处理。

2.根据权利要求1所述的方法，其特征在于，在所述获取包含敏感数据的文本信息之前，所述方法还包括：

获取包含样本敏感数据的训练数据，所述训练数据包括结构化数据表；

根据所述结构化数据表中的熵与最大熵，定义所述结构化数据表中的属性敏感度；

以所述属性敏感度作为聚类分析的数据点，利用目标聚类算法识别所述样本敏感数据的属性敏感度；

基于关联规则挖掘算法建立属性间的关联关系，并将所述训练数据划分为敏感属性集与非敏感属性集；

将所述敏感属性集和所述非敏感属性集代入预先建立的机器学习模型，并基于目标分类算法对所述机器学习模型进行训练，得到训练好的所述自适应敏感数据识别模型。

3.根据权利要求1所述的方法，其特征在于，所述基于预先建立的规则库和自适应敏感数据识别模型，对所述文本信息中的字段数据进行识别和分类处理，得到数据表，具体包括：

构建由正则表达式和/或字段信息组成的所述规则库，所述字段信息包括字段类别和字段描述；

基于所述规则库中存储的所述正则表达式和/或所述字段信息，对所述文本信息中的字段进行识别；

在所述文本信息中的字段能够被识别的情况下，对于所述文本信息中与所述正则表达式和/或所述字段信息匹配的目标字段进行标记；

在所述文本信息中的字段无法被识别的情况下，调用所述自适应敏感数据识别模型对所述文本信息中的字段进行识别。

4.根据权利要求3所述的方法，其特征在于，所述基于所述规则库中存储的所述正则表达式和/或所述字段信息，对所述文本信息中的字段进行识别，具体包括：

对所述文本信息中各列对应的全部属性值依次进行识别，并基于所述规则库中存储的所述正则表达式和/或所述字段信息对于所述属性值进行分类；

统计被检测的各列对应的全部属性值的分类分布情况；

对于任意第i列，若所述第i列中的频数最高的类别对应的属性值的数量占据所述第i列中的全部属性值的总数的比例超过第一预设阈值，则将所述第i列的类别标记为频数最高的类别，i为正整数；

若所述第i列中的频数最高的类别对应的属性值的数量占据所述第i列中的全部属性值的总数的比例小于或等于所述第一预设阈值，则将第i列的类别标记为无法识别。

5.根据权利要求1所述的方法，其特征在于，所述将所述数据表转换为数据表字段矩阵，并确定所述数据表字段矩阵中的字段类别，具体包括：

构建数据表维度分类类别库；

根据所述数据表和所述数据表维度分类类别库中记录的字段，使用独热编码构建所述数据表字段矩阵，所述数据表字段矩阵包括多个字段及各个字段对应的向量属性值；

将所述数据表字段矩阵输入预先训练的随机森林算法模型，预测所述数据表字段矩阵对应的数据表的类别；

所述根据所述数据表字段矩阵中的字段类别，确定所述数据表对应的目标敏感等级，具体包括：

根据所述数据表字段矩阵对应的数据表的类别，确定所述数据表对应的目标敏感等级。

6.根据权利要求5所述的方法，其特征在于，所述根据所述数据表字段矩阵对应的数据表的类别，确定所述数据表对应的目标敏感等级，具体包括：

构建数据表类别与敏感等级之间的对应关系；

根据数据表类别与敏感等级之间的对应关系，确定所述数据表的类别对应的至少一个敏感等级；

按照预设的优先级排列顺序，从所述至少一个敏感等级中选取优先级最高的敏感等级作为所述数据表对应的目标敏感等级。

7.根据权利要求1所述的方法，其特征在于，所述脱敏策略包括选择通用字符串对应的自定义脱敏算法对通用字符串进行脱敏处理；

所述自定义脱敏算法包括以下至少一项：对所述通用字符串进行部分保留、对所述通用字符串进行部分屏蔽、对所述通用字符串进行部分截取和对所述通用字符串进行部分替换。

8.根据权利要求1所述的方法，其特征在于，在所述根据所述目标敏感等级对应的脱敏策略，对所述敏感数据进行脱敏处理之后，所述方法还包括：

对终端设备内的多个应用软件进行监测与评估，计算所述多个应用软件各自对应的隐私风险值；

根据所述多个应用软件各自对应的隐私风险值，对所述多个应用软件进行分类，得到所述多个应用软件的分类结果；

根据所述多个应用软件的分类结果，执行对应的目标安全操作。

9.根据权利要求8所述的方法，其特征在于，所述对终端设备内的多个应用软件进行监测与评估，计算所述多个应用软件各自对应的隐私风险值，具体包括：

获取所述多个应用软件的应用信息，所述应用信息至少包括所述应用软件调用用户隐私权限的历史信息；

从所述应用信息中提取预设所需特定值，并进行归一化处理，得到应用隐私项向量；

对应所述应用隐私项向量，设置用户隐私项向量；

计算所述应用隐私项向量与所述用户隐私项向量的点积，得到隐私风险指标；

根据所述隐私风险指标，建立隐私风险值评估模型；

基于所述隐私风险值评估模型，计算所述多个应用软件各自对应的隐私风险值。

10.一种数据脱敏装置，其特征在于，包括：

第一获取模块，用于获取包含敏感数据的文本信息；

识别模块，用于基于预先建立的规则库和自适应敏感数据识别模型，对所述文本信息中的字段数据进行识别和分类处理，得到数据表；

第一确定模块，用于将所述数据表转换为数据表字段矩阵，并确定所述数据表字段矩阵中的字段类别；

第二确定模块，用于根据所述数据表字段矩阵中的字段类别，确定所述数据表对应的目标敏感等级；

第三确定模块，用于根据预先建立的敏感等级与脱敏策略之间的对应关系，确定所述目标敏感等级对应的脱敏策略；

脱敏模块，用于根据所述目标敏感等级对应的脱敏策略，对所述敏感数据进行脱敏处理。

11.一种电子设备，其特征在于，所述电子设备包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的数据脱敏方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的数据脱敏方法的步骤。