CN113868698A

CN113868698A - 一种文件脱敏方法及设备

Info

Publication number: CN113868698A
Application number: CN202110987745.1A
Authority: CN
Inventors: 李博; 任养超; 郭义兰
Original assignee: Shanghai Suninfo Technology Co ltd
Current assignee: Shanghai Suninfo Technology Co ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-12-31

Abstract

本申请的目的是提供一种文件脱敏方法及设备，本申请通过预置敏感类型及其对应的脱敏策略，敏感类型包括至少一种；对待脱敏文件进行解析，得到待脱敏文件对应的目标敏感信息，其中，目标敏感信息包括至少一个；根据敏感类型及其对应的脱敏策略，确定目标敏感信息所属的目标敏感类型对应的目标脱敏策略；分别根据每种目标脱敏策略，对待脱敏文件中对应的目标敏感信息进行脱敏操作，得到脱敏后的文件，实现了通过直接对待脱敏文件中的敏感信息进行扫描解析，并对解析得到的敏感信息按照其所属的敏感类型对应的脱敏策略进行脱敏操作，得到脱敏后的文件，从而提高了对敏感信息识别的便捷性和对复杂场景的应用性。

Description

一种文件脱敏方法及设备

技术领域

本申请涉及计算机领域，尤其涉及一种文件脱敏方法及设备。

背景技术

随着数据爆炸式的增长，数据存储的格式也越来越多，如XML、JSON等格式便是比较通用的数据存储格式。在数据增长的同时，数据类别也在不断丰富，各式各样的敏感信息也越来越多，导致对敏感信息的甄别也越来越难。目前，对传统的XML、JSON等格式的结构化数据文件进行脱敏的主要方式是解析出文件中所有的节点，然后针对节点配置脱敏策略，此种方式主要是针对较为规整或已知结构的结构化数据文件，但对子节点深度深，数据关系复杂的结构化数据文件，脱敏配置极度的不灵活，难以适应越来越复杂的数据场景，并且传统的方法只能笼统的选择节点，不能针对具体的值对应的敏感信息类型分别配置不同的脱敏策略，所以每次更换XML、JSON等格式的文件时，如果节点格式发生变化，就需要再重新对节点配置对应的脱敏策略，费时费力，非常不灵活。

发明内容

本申请的一个目的是提供一种文件脱敏方法及设备，以通过直接对待脱敏文件中的敏感信息进行扫描解析，并对解析得到的敏感信息按照其所属的敏感类型对应的脱敏策略进行脱敏操作，得到脱敏后的文件，从而提高了对敏感信息识别的便捷性和对复杂场景的应用性。

根据本申请的一个方面，提供了一种文件脱敏方法，其中，所述方法包括：

预置敏感类型及其对应的脱敏策略，所述敏感类型包括至少一种；

对待脱敏文件进行解析，得到所述待脱敏文件对应的目标敏感信息，其中，所述目标敏感信息包括至少一个；

根据所述敏感类型及其对应的脱敏策略，确定所述目标敏感信息所属的目标敏感类型对应的目标脱敏策略；

分别根据每种所述目标脱敏策略，对所述待脱敏文件中对应的所述目标敏感信息进行脱敏操作，得到脱敏后的文件。

进一步地，上述一种文件脱敏方法中，其中，所述对待脱敏文件进行解析，得到所述待脱敏文件对应的目标敏感信息，包括：

通过递归解析对所述待脱敏文件的结构进行解析，得到所述待脱敏文件的每个节点对应的节点值和属性值，其中，所述节点值和所述属性值均包含所述待脱敏文件对应的所述目标敏感信息，其中，所述节点为至少一个。

进一步地，上述一种文件脱敏方法中，其中，所述分别根据每种所述目标脱敏策略，对所述待脱敏文件中对应的所述目标敏感信息进行脱敏操作，得到脱敏后的文件，包括：

分别根据每种所述目标脱敏策略，对所述待脱敏文件中对应的所述目标敏感信息进行脱敏操作，得到每个所述目标敏感信息对应的脱敏结果；

将所述待脱敏文件中的每个所述目标敏感信息替换为对应的脱敏结果，得到脱敏后的文件。

进一步地，上述一种文件脱敏方法中，其中，每种所述敏感类型对应的脱敏策略包括至少一个脱敏基数及每个所述脱敏基数对应的脱敏转换规则，

其中，所述分别根据每种所述目标脱敏策略，对所述待脱敏文件中对应的所述目标敏感信息进行脱敏操作，得到每个所述目标敏感信息对应的脱敏结果，包括：

响应于获取的脱敏需求，确定每种所述目标脱敏策略所选中的目标脱敏基数；

分别根据每种所述目标脱敏策略所选中的目标脱敏基数对应的目标脱敏转换规则，对所述待脱敏文件中对应的所述目标敏感信息进行脱敏操作，得到每个所述目标敏感信息对应的脱敏结果。

根据本申请的另一方面，还提供了一种非易失性存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如上述一种文件脱敏方法。

根据本申请的另一方面，还提供了一种文件脱敏设备，其中，所述设备包括：

一个或多个处理器；

非易失性存储介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述一种文件脱敏方法。

与现有技术相比，本申请通过预置敏感类型及其对应的脱敏策略，所述敏感类型包括至少一种；对待脱敏文件进行解析，得到所述待脱敏文件对应的目标敏感信息，其中，所述目标敏感信息包括至少一个；根据所述敏感类型及其对应的脱敏策略，确定所述目标敏感信息所属的目标敏感类型对应的目标脱敏策略；分别根据每种所述目标脱敏策略，对所述待脱敏文件中对应的所述目标敏感信息进行脱敏操作，得到脱敏后的文件，实现了通过直接对待脱敏文件中的敏感信息进行扫描解析，并对解析得到的敏感信息按照其所属的敏感类型对应的脱敏策略进行脱敏操作，得到脱敏后的文件，从而提高了对敏感信息识别的便捷性和对复杂场景的应用性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种文件脱敏方法的流程示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如图1所示，本申请一个方面的一种文件脱敏方法的流程示意图。其中，所述方法包括：步骤S11、步骤S12、步骤S13及步骤S14，具体包括如下步骤：

步骤S11，预置敏感类型及其对应的脱敏策略，所述敏感类型包括至少一种。在此，预置敏感类型的目的在于将哪一种或哪几种类型的信息定义为敏感信息，其中，所述预置敏感类型的方式包括但不限于通过正则表达式定义配置敏感类型、内置敏感类型存储库(比如地址库、邮编库、身份证地址码库等)等方式；在预置好敏感类型后，还需为每种敏感类型配置对应的脱敏策略，使得每种脱敏策略能够应用于其对应的敏感类型所包含的所有敏感信息，以便后续能够根据脱敏需求将一种或多种类型的信息匹配为敏感类型，并为匹配到的敏感类型调用对应的脱敏策略，从而能够按照匹配到的敏感类型对应的脱敏策略直接对该种匹配到的敏感类型下的敏感信息进行脱敏，避免了每次更换待脱敏文件后都需要重新配置脱敏策略的繁琐操作。

步骤S12，对待脱敏文件进行解析，得到所述待脱敏文件对应的目标敏感信息，其中，所述目标敏感信息包括至少一个。

步骤S13，根据所述敏感类型及其对应的脱敏策略，确定所述目标敏感信息所属的目标敏感类型对应的目标脱敏策略。在此，在得到目标敏感信息之后，先将预置的敏感类型与目标敏感信息进行匹配，根据预置的敏感类型确定所述目标敏感信息所属的目标敏感类型，然后根据所述目标敏感类型为所述目标敏感信息匹配对应的目标脱敏策略。

步骤S14，分别根据每种所述目标脱敏策略，对所述待脱敏文件中对应的所述目标敏感信息进行脱敏操作，得到脱敏后的文件。

通过上述步骤S11至步骤S14，本申请通过预置敏感类型及其对应的脱敏策略，所述敏感类型包括至少一种；对待脱敏文件进行解析，得到所述待脱敏文件对应的目标敏感信息，其中，所述目标敏感信息包括至少一个；根据所述敏感类型及其对应的脱敏策略，确定所述目标敏感信息所属的目标敏感类型对应的目标脱敏策略；分别根据每种所述目标脱敏策略，对所述待脱敏文件中对应的所述目标敏感信息进行脱敏操作，得到脱敏后的文件，实现了通过直接对待脱敏文件中的敏感信息进行扫描解析，并对解析得到的敏感信息按照其所属的敏感类型对应的脱敏策略进行脱敏操作，得到脱敏后的文件，从而提高了对敏感信息识别的便捷性和对复杂场景的应用性。

在本申请的一优选实施例中，将待脱敏那文件优选为可扩展标记语言(Extensible Markup Language，XML)文件，在对XML文件进行脱敏之前，预置敏感类型及其对应的脱敏策略，例如将“姓名”、“身份证号”、“电话号码”预置为敏感类型，并配置敏感类型对应的脱敏策略，例如“姓名”对应的脱敏策略为“仿真姓名”、“身份证号”对应的脱敏策略为“仿真身份证号”、“电话号码”对应的脱敏策略为“仿真电话号码”，在预置敏感信息及其对应的脱敏策略之后，对待处理的所述XML文件进行解析，得到所述XML文件对应的目标敏感信息，如，姓名“张三”、身份证号“123456789123456789”、电话号码“12345678900”，根据所述敏感类型对应的脱敏策略，确定所述目标敏感信息“张三”、“123456789123456789”、“12345678900”所属的目标敏感类型对应的目标脱敏策略，并根据目标脱敏策略对目标敏感信息进行脱敏操作，即“张三”所属的目标敏感类型为“姓名”，则“张三”对应的目标脱敏策略为“仿真姓名”，根据目标脱敏策略“仿真姓名”对目标敏感信息“张三”进行脱敏操作，得到目标敏感类型为姓名的“张三”对应的仿真姓名为：“李四”；“123456789123456789”所属的目标敏感类型为“身份证号”，则“123456789123456789”对应的目标脱敏策略为“仿真身份证号”，根据目标脱敏策略“仿真身份证号”对目标敏感信息“123456789123456789”进行脱敏操作，得到目标敏感类型为身份证号的“123456789123456789”对应的仿真身份证号为：“000000000000000000”；“12345678900”所属的目标敏感类型为“电话号码”，则“12345678900”对应的目标脱敏策略为“仿真电话号码”，根据目标脱敏策略“仿真电话号码”对目标敏感信息“12345678900”进行脱敏操作，得到目标敏感类型为电话号码的“12345678900”对应的仿真电话号码为：“11111111111”，实现了通过预置敏感类型确定目标敏感信息对应的目标敏感类型，并根据预置敏感类型对应的脱敏策略确定目标敏感类型对应的目标脱敏策略，以便对目标敏感信息进行脱敏操作，从而得到脱敏后的文件。

接着本申请的上述实施例，其中，所述对待脱敏文件进行解析，得到所述待脱敏文件对应的目标敏感信息，包括：

在此，所述对待脱敏文件的结构进行解析的方式包括但不限于递归解析等方式，通过对待脱敏文件的结构进行解析，可以遍历待脱敏文件的每个节点对应的节点值和属性值，从而通过解析查找到待脱敏文件的每个节点对应的节点值和属性值中所有可能存在的目标敏感信息；通过直接对节点值和属性值进行解析，可以更准确的查找到待脱敏文件中的敏感信息，从而避免仅对节点进行解析以判断是否属于敏感信息，而导致的遗漏目标敏感信息的情况。

例如，若电话号码“12345678900”对应的节点为“phone”，在这种情况下，由于仅对节点“phone”进行解析就能够判断节点属于敏感类型，此时若只对节点进行解析，便能够将电话号码“12345678900”作为目标敏感信息进行脱敏处理，若电话号码“12345678900”对应的节点不属于敏感类型，由于不能通过仅对节点进行解析就能判断节点属于敏感信息，此时若还是只对节点进行解析，便不能将电话号码“12345678900”作为目标敏感信息进行脱敏处理，从而造成敏感信息的泄露，因此为了避免这种情况的发生，直接对节点值，即电话号码“12345678900”进行解析，不仅达到了直接对目标敏感信息进行查找的目的，还避免了遗漏敏感信息的情况发生。

接着本申请的上述实施例，其中，所述分别根据每种所述目标脱敏策略，对所述待脱敏文件中对应的所述目标敏感信息进行脱敏操作，得到脱敏后的文件，包括：

在本申请中的一优选实施例中，将待脱敏文件优选为XML文件，若XML文件对应的目标敏感信息为姓名“张三”、身份证号“123456789123456789”、电话号码“12345678900”，根据“姓名”对应的脱敏策略“仿真姓名”、“身份证号”对应的脱敏策略“仿真身份证号”、“电话号码”对应的脱敏策略“仿真电话号码”，分别对每个目标敏感信息“张三”、“123456789123456789”、“12345678900”进行脱敏操作，得到对应的“李四”、“000000000000000000”、“11111111111”，实现了对XML文件中的所有目标敏感信息的脱敏操作，得到脱敏后的文件。

接着本申请的上述实施例，其中，每种所述敏感类型对应的脱敏策略包括至少一个脱敏基数及每个所述脱敏基数对应的脱敏转换规则。

在此，在同一个脱敏策略中，不同的脱敏基数对应的脱敏转换规则是不同的，可以通过选择不同的脱敏基数，控制同一目标敏感信息转化为不同的脱敏结果；由于在数据脱敏的过程中，会存在不同的脱敏任务，即，会针对同一待脱敏文件进行多次脱敏任务，当不同的脱敏任务之间存在相同脱敏策略时，若不考虑脱敏基数，则不同脱敏任务基于同一脱敏策略会得出相同的脱敏结果，因此，为了区分不同的脱敏任务，需要通过对不同的脱敏任务设置不同的脱敏基数，进而得到不同的脱敏结果，以便实现对不同的脱敏任务进行区分；同时，若将基于不同脱敏基数得到的不同脱敏结果分配给不同的数据使用者，当出现问题时，能够基于不同的脱敏结果对不同的使用者进行区分，避免因为使用相同的脱敏结果而无法区分使用者。例如，基于脱敏基数“1”，“张三”对应的脱敏结果为“李四”，“王五”对应的脱敏结果为“赵六”，若基于脱敏基数“2”，则“张三”对应的脱敏结果为“王一”，“王五”对应的脱敏结果为“李二”，以此实现不同的脱敏任务能够得到不同的脱敏结果。

在本申请的一优选实施例中，将待脱敏文件优选为XML文件，若XML文件对应的目标敏感信息为姓名“张三”、身份证号“123456789123456789”、电话号码“12345678900”，若任务一仅对XML文件中的姓名进行脱敏，则基于脱敏需求，确定任务一中目标敏感类型“姓名”对应的目标脱敏策略“仿真姓名”，并将目标脱敏策略的目标脱敏基数确定为“1”，基于目标脱敏基数“1”，对XML文件中的目标敏感类型“姓名”对应的目标敏感信息“张三”进行脱敏操作之后得到对应的脱敏结果为姓名“李四”；若任务二需要对XML文件中的所有敏感信息进行脱敏，则基于脱敏需求，确定任务二中目标敏感类型“姓名”、“身份证号”、“电话号码”分别对应的目标脱敏策略“仿真姓名”、“仿真身份证号”、“仿真电话号码”，并将每种目标脱敏策略的目标脱敏基数确定为“2”，基于目标脱敏基数“2”，对XML文件中的目标敏感类型“姓名”“身份证号”、“电话号码”分别对应的目标敏感信息“张三”、“123456789123456789”、“12345678900”进行脱敏操作之后得到对应的脱敏结果为姓名“王一”、身份证号“999999999999999999”、电话号码“22222222222”，实现了通过不同的脱敏基数控制同一目标敏感信息转化为不同的脱敏结果。

一个或多个处理器；

非易失性存储介质，用于存储一个或多个计算机可读指令，

在此，所述一种文件脱敏设备中的各实施例的详细内容，具体可参见上述一种文件脱敏方法的实施例的对应部分，在此，不再赘述。

综上所述，本申请通过预置敏感类型及其对应的脱敏策略，所述敏感类型包括至少一种；对待脱敏文件进行解析，得到所述待脱敏文件对应的目标敏感信息，其中，所述目标敏感信息包括至少一个；根据所述敏感类型及其对应的脱敏策略，确定所述目标敏感信息所属的目标敏感类型对应的目标脱敏策略；分别根据每种所述目标脱敏策略，对所述待脱敏文件中对应的所述目标敏感信息进行脱敏操作，得到脱敏后的文件，实现了通过直接对待脱敏文件中的敏感信息进行扫描解析，并对解析得到的敏感信息按照其所属的敏感类型对应的脱敏策略进行脱敏操作，得到脱敏后的文件，从而提高了对敏感信息识别的便捷性和对复杂场景的应用性。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种文件脱敏方法，其中，所述方法包括：

2.根据权利要求1所述的方法，其中，所述对待脱敏文件进行解析，得到所述待脱敏文件对应的目标敏感信息，包括：

3.根据权利要求1所述的方法，其中，所述分别根据每种所述目标脱敏策略，对所述待脱敏文件中对应的所述目标敏感信息进行脱敏操作，得到脱敏后的文件，包括：

4.根据权利要求3所述的方法，其中，每种所述敏感类型对应的脱敏策略包括至少一个脱敏基数及每个所述脱敏基数对应的脱敏转换规则，

5.一种非易失性存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如权利要求1至4中任一项所述的方法。

6.一种文件脱敏设备，其中，所述设备包括：

一个或多个处理器；

非易失性存储介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至4中任一项所述的方法。