一种数据隐私保护的脱敏方法及其装置
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据隐私保护的脱敏方法及其装置。
背景技术
由于银监会对数据安全提出监管的要求,因此需要对数据进行脱敏处理,严格防止敏感数据泄露。典型的数据脱敏方案分为敏感数据的确认和处理两部分。
敏感数据的确认首先定义数据标记的规则,将各类数据字段分为不同的等级属性。因此在脱敏运行前,需要人工依据定义的数据分级规则,将数据各个字段标记为相应等级,如身份证号、邮箱等需要脱敏数据标记为敏感等级,普通业务数据标记为非敏感等级。通常也可以定义更细致的分级策略,依据不同的场景分别脱敏,通过定义数据的敏感等级,在后续查询使用数据时,可以容易判断数据是否需要脱敏。
敏感数据的处理提供多种处理方式,如数据的部分遮蔽、加密、截断、不显示等方式,在展示或导出数据时,将敏感数据依据预先定义的处理方式进行处理,最终达到敏感数据脱敏的目的。
如Informatica或Oracle提供的数据脱敏解决方案中,为用户提供了功能详尽但繁琐的数据属性配置页面,要求用户在查看数据前将数据各字段格式、属性配置完成才能进行脱敏,敏感数据的确认依赖用户手工配置。
这种需要先行对数据进行配置才能进行脱敏的方案,对用户接入脱敏服务造成很大侵入性,不仅增加了维护成本,对于超大规模数据仓库的脱敏维护人力成本将非常高,同时脱敏正确率完全依赖人工配置的正确与否,正确率不可控。
因此,如何实现无侵入性的脱敏成为亟需解决的技术问题。
发明内容
有鉴于此,本申请提供一种数据隐私保护的脱敏方法及其装置,其能够无侵入性的实现脱敏,操作简单,使用方便。
本申请提供一种数据隐私保护的脱敏方法,所述方法包括:
对数据进行数据抽取,并按照正则匹配规则对所抽取数据进行扫描;
判断所抽取数据中符合正则匹配规则的数据比例是否达到第一阈值;
若达到所述第一阈值,则对所抽取数据按照校验规则进行数据扫描,判断符合校验规则的数据比例是否达到第二阈值;
若达到所述第二阈值,则将所述数据标记为敏感数据,对所述敏感数据进行脱敏处理。
在本申请一具体实施例中,还包括:
若未达到所述第一阈值,则对所抽取数据的字段名和描述按照辅助规则进行扫描;
若符合辅助规则,则将所述数据记录入安全审计范围。
在本申请一具体实施例中,所述正则匹配规则、所述校验规则、所述辅助规则中至少其一为实时加载的预定义规则。
在本申请一具体实施例中,所述对数据进行数据抽取,并按照正则匹配规则对所抽取数据进行扫描之前还包括:
根据安全策略,判断所述数据是否需要进行脱敏处理,若需要进行脱敏处理,则对数据进行数据抽取,并按照正则匹配规则对所抽取数据进行扫描,否则,结束脱敏流程。
在本申请一具体实施例中,所述安全策略为预先配置的需要执行脱敏服务的数据范围。
本申请还提供一种数据隐私保护的脱敏装置,所述装置包括:
正则扫描模块,用于对数据进行数据抽取,并按照正则匹配规则对所抽取数据进行扫描;
比例判断模块,用于判断所抽取数据中符合正则匹配规则的数据比例是否达到第一阈值;
校验扫描模块,用于当达到所述第一阈值,则对所抽取数据按照校验规则进行数据扫描,判断符合校验规则的数据比例是否达到第二阈值;
脱敏处理模块,用于当达到所述第二阈值,则将所述数据标记为敏感数据,对所述敏感数据进行脱敏处理。
在本申请一具体实施例中,还包括:
辅助扫描模块,用于当未达到所述第一阈值,则对所抽取数据的字段名和描述按照辅助规则进行扫描;
审计设定模块,用于当符合辅助规则,则将所述数据记录入安全审计范围。
在本申请一具体实施例中,所述正则匹配规则、所述校验规则、所述辅助规则中至少其一为实时加载的预定义规则。
在本申请一具体实施例中,所述对数据进行数据抽取,并按照正则匹配规则对所抽取数据进行扫描之前还包括:
策略设定模块,用于根据安全策略,判断所述数据是否需要进行脱敏处理,若需要进行脱敏处理,则对数据进行数据抽取,并按照正则匹配规则对所抽取数据进行扫描,否则,结束脱敏流程。
在本申请一具体实施例中,所述安全策略为预先配置的需要执行脱敏服务的数据范围。
由以上技术方案可见,本申请对数据进行数据抽取,并按照正则匹配规则对所抽取数据进行扫描。如所抽取数据中符合正则匹配规则的数据比例达到第一阈值,则对所抽取数据按照校验规则进行数据扫描。如所抽取数据中符合校验规则的数据比例达到第二阈值,则将所述数据标记为敏感数据。根据敏感转化规则,对所述敏感数据进行脱敏处理。本申请保证用户可以正常查看使用数据的前提下,无需强制用户编辑任何数据规则,即可扫描检测敏感数据,将涉及到数据安全的敏感数据屏蔽,达到无侵入性的实现脱敏,操作简单,使用方便。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本申请所应用分布式服务器的硬件结构图;
图2是本申请一种数据隐私保护的脱敏方法的一实施例的流程图;
图3是本申请一种数据隐私保护的脱敏方法的另一实施例的流程图;
图4是本申请一种数据隐私保护的脱敏方法的再一实施例的流程图;
图5是本申请一种数据隐私保护的脱敏装置的一实施例的结构图;
图6是本申请一种数据隐私保护的脱敏装置的另一实施例的结构图;
图7是本申请一种数据隐私保护的脱敏装置的再一实施例的结构图。
具体实施方式
本申请对数据进行数据抽取,并按照正则匹配规则对所抽取数据进行扫描。如所抽取数据中符合正则匹配规则的数据比例达到第一阈值,则对所抽取数据按照校验规则进行数据扫描。如所抽取数据中符合校验规则的数据比例达到第二阈值,则将所述数据标记为敏感数据。根据敏感转化规则,对所述敏感数据进行脱敏处理。本申请保证用户可以正常查看使用数据的前提下,无需强制用户编辑任何数据规则,即可扫描检测敏感数据,将涉及到数据安全的敏感数据屏蔽,达到无侵入性的实现脱敏,操作简单,使用方便。
当然,实施本申请的任一技术方案必不一定需要同时达到以上所述的所有优点。
为了使本领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请提供一种数据隐私保护的脱敏方法,应用于分布式服务器,参看图1,分布式服务器1的硬件结构包括控制器11、存储器12以及其他硬件13。
参看图2,本申请所述方法包括:
S1、对数据进行数据抽取,并按照正则匹配规则对所抽取数据进行扫描。
本申请从需要进行脱敏处理的数据中抽取一定比例的数据,并按照正则匹配规则对所抽取数据进行扫描。
本领域技术人员根据需求和经验选择抽取比例。例如,从一列数据中抽取最多100条数据。
S2、判断所抽取数据中符合正则匹配规则的数据比例是否达到第一阈值。
本申请对所抽取的数据逐条按照正则匹配规则进行数据扫描。例如,从一列数据中抽取100条数据,对所述100条数据逐条按照正则匹配规则进行数据扫描,发现85条数据符合正则匹配规则,则进行数据扫描的所述100条数据中符合正则匹配规则的数据比例为85%。
具体地,所述第一阈值由本领域技术人员根据需求和经验进行选取。假设所述第一阈值取值为80%,若所述100条数据中符合正则匹配规则的数据比例为85%,则达到所述第一阈值。
S3、若达到所述第一阈值,则对所抽取数据按照校验规则进行数据扫描,判断符合校验规则的数据比例是否达到第二阈值。
由于正则匹配规则判断的粒度较粗,本申请在所抽取数据满足正则匹配规则的比例达到第一阈值时,进一步采用校验规则对所抽取数据进行扫描。
校验规则为对所抽取数据进行进一步验证的规则,即判断所抽取数据满足正则匹配规则的前提下,进一步根据数据类型进行判断的规则。
本申请针对不同的数据类型提供不同的校验规则,例如,身份证数据除了满足位数为18或15位外,还应满足出生年月、性别、地区等规则。所述位数为18或15位作为正则匹配规则,所述出生年月、性别、地区等规则作为校验规则。
本申请对所述抽取的数据逐条按照校验规则进行数据扫描。例如,对所述100条数据按照校验规则进行数据扫描,发现85条数据符合校验规则,则进行数据扫描的所述100条数据中符合校验规则的数据比例为85%。
所述第二阈值由本领域技术人员根据需求和经验进行选取。假设所述第二阈值取值为80%,若所述100条数据中符合校验规则的数据比例为85%,则达到所述第二阈值。
S4、若达到所述第二阈值,则将所述数据标记为敏感数据,对所述敏感数据进行脱敏处理。
如果所抽取数据中符合校验规则的数据比例达到所述第二阈值,则将全部数据标记为敏感数据,对所述敏感数据进行脱敏处理。
所述脱敏处理可以为遮蔽、加密、截断、不显示等处理方式。从而保证在用户端呈现的数据为脱敏后的数据,达到数据隐私保护的效果。
具体地,所述遮蔽处理包括增加减少遮蔽位数或者由「*」或者「#」等其他符号进行遮蔽。所述加密、截断也可以使用各类计算算法来实现,在此不再赘述。
本申请保证用户可以正常查看使用数据的前提下,无需强制用户编辑任何数据规则,扫描检测敏感数据,将涉及到数据安全的敏感数据屏蔽,达到无侵入性的实现脱敏,操作简单,使用方便。
在本申请再一具体实现中,参见图3,所述方法还包括:
S5、若未达到所述第一阈值,则对所抽取的数据的字段名和描述按照辅助规则进行扫描。
本申请对所抽取的数据逐条按照正则匹配规则进行数据扫描,如果数据中符合正则匹配规则的数据比例未达到所述第一阈值,则初步确定所述数据不符合敏感规则。但由于数据的字段名和描述可作为数据的定义,为了防止脱敏服务出现遗漏,对所抽取的数据的字段名和描述按照辅助规则进行数据扫描。
具体的,所述辅助规则为判断所抽取的数据的字段名和描述是否包含某些关键字。如果数据的字段名和描述包含所述关键字,则表明所述数据的定义符合敏感规则。所述关键字可以为本领域技术人员根据需求和经验预先设定的字段。
S6、若所抽取的数据的字段名和描述符合辅助规则,则将所述数据记录入安全审计范围。
如果所抽取的数据的字段名和描述符合辅助规则,则表明所抽取的数据的定义符合敏感规则。所抽取的数据定义符合敏感规则,但所抽取的数据内容不符合敏感规则,则将全部数据记录入安全审计范围,通过人工的方式对所述数据进行安全审计,从而防止脱敏服务出现遗漏。
在本申请一具体实现中,所述正则匹配规则、所述校验规则、所述辅助规则中至少其一为实时加载的预定义规则。
实时加载的预定义规则是指每次脱敏服务运行时,实时加载当前系统预定义的规则配置,从而允许系统在持续运行的过程中,不断改进优化敏感扫描规则,进一步提升动态脱敏服务的准确度和效率。
在本申请再一具体实现中,参见图4,所述步骤S1之前还包括:
S0、根据安全策略,判断数据是否需要进行脱敏处理,若需要进行脱敏处理,则执行步骤S1,否则,结束脱敏流程。
具体的,所述安全策略为预先配置的需要执行脱敏服务的数据范围。
本申请根据用户指令,预先配置需要执行脱敏服务的数据范围。如果所述数据在需要执行脱敏服务的数据范围内,则需要进行脱敏处理,执行步骤S1;否则,无需进行脱敏处理,结束脱敏流程。
因此,本申请允许用户预先配置该数据是否需要执行脱敏服务,如果用户将所述数据配置为不需要执行脱敏服务,则不会对该数据执行脱敏服务,从而方便用户在特定场景下查看原始数据。
对应上述方法,本申请还提供一种数据隐私保护的脱敏装置,应用于分布式服务器,参看图1,分布式服务器1的硬件结构包括控制器11、存储器12以及其他硬件13。
参看图5,本申请所述装置包括:
正则扫描模块51,用于对数据进行数据抽取,并按照正则匹配规则对所抽取数据进行扫描。
比例判断模块52,用于判断所抽取数据中符合正则匹配规则的数据比例是否达到第一阈值。
校验扫描模块53,用于当达到所述第一阈值,则对所抽取数据按照校验规则进行数据扫描,判断符合校验规则的数据比例是否达到第二阈值。
脱敏处理模块54,用于当达到所述第二阈值,则将所述数据标记为敏感数据,对所述敏感数据进行脱敏处理。
本申请从需要进行脱敏处理的数据中抽取一定比例的数据,并按照正则匹配规则对所抽取数据进行扫描。
本领域技术人员根据需求和经验选择抽取比例。例如,从一列数据中抽取最多100条数据。
本申请对所抽取的数据逐条按照正则匹配规则进行数据扫描。例如,从一列数据中抽取100条数据,对所述100条数据逐条按照正则匹配规则进行数据扫描,发现85条数据符合正则匹配规则,则进行数据扫描的所述100条数据中符合正则匹配规则的数据比例为85%。
具体地,所述第一阈值由本领域技术人员根据需求和经验进行选取。假设所述第一阈值取值为80%,若所述100条数据中符合正则匹配规则的数据比例为85%,则达到所述第一阈值。
由于正则匹配规则判断的粒度较粗,本申请在所抽取数据满足正则匹配规则的比例达到第一阈值时,进一步采用校验规则对所抽取数据进行扫描。
校验规则为对所抽取数据进行进一步验证的规则,即判断所抽取数据满足正则匹配规则的前提下,进一步根据数据类型进行判断的规则。
本申请针对不同的数据类型提供不同的校验规则,例如,身份证数据除了满足位数为18或15位外,还应满足出生年月、性别、地区等规则。所述位数为18或15位作为正则匹配规则,所述出生年月、性别、地区等规则作为校验规则。
本申请对所述抽取的数据逐条按照校验规则进行数据扫描。例如,对所述100条数据按照校验规则进行数据扫描,发现85条数据符合校验规则,则进行数据扫描的所述100条数据中符合校验规则的数据比例为85%。
所述第二阈值由本领域技术人员根据需求和经验进行选取。假设所述第二阈值取值为80%,若所述100条数据中符合校验规则的数据比例为85%,则达到所述第二阈值。
如果所抽取数据中符合校验规则的数据比例达到所述第二阈值,则将全部数据标记为敏感数据,对所述敏感数据进行脱敏处理。
所述脱敏处理可以为遮蔽、加密、截断、不显示等处理方式。从而保证在用户端呈现的数据为脱敏后的数据,达到数据隐私保护的效果。
具体地,所述遮蔽处理包括增加减少遮蔽位数或者由「*」或者「#」等其他符号进行遮蔽。所述加密、截断也可以使用各类计算算法来实现,在此不再赘述。
本申请保证用户可以正常查看使用数据的前提下,无需强制用户编辑任何数据规则,扫描检测敏感数据,将涉及到数据安全的敏感数据屏蔽,达到无侵入性的实现脱敏,操作简单,使用方便。
在本申请再一具体实现中,参见图6,所述装置还包括:
辅助扫描模块55,用于当未达到所述第一阈值,则对所抽取的数据的字段名和描述按照辅助规则进行扫描。
审计设定模块56,用于当所抽取的数据的字段名和描述符合辅助规则,则将所述数据记录入安全审计范围。
本申请对所抽取的数据逐条按照正则匹配规则进行数据扫描,如果数据中符合正则匹配规则的数据比例未达到所述第一阈值,则初步确定所述数据不符合敏感规则。但由于数据的字段名和描述可作为数据的定义,为了防止脱敏服务出现遗漏,对所抽取的数据的字段名和描述按照辅助规则进行数据扫描。
具体的,所述辅助规则为判断所抽取的数据的字段名和描述是否包含某些关键字。如果数据的字段名和描述包含所述关键字,则表明所述数据的定义符合敏感规则。所述关键字可以为本领域技术人员根据需求和经验预先设定的字段。
如果所抽取的数据的字段名和描述符合辅助规则,则表明所抽取的数据的定义符合敏感规则。所抽取的数据定义符合敏感规则,但所抽取的数据内容不符合敏感规则,则将全部数据记录入安全审计范围,通过人工的方式对所述数据进行安全审计,从而防止脱敏服务出现遗漏。
在本申请一具体实现中,所述正则匹配规则、所述校验规则、所述辅助规则中至少其一为实时加载的预定义规则。
实时加载的预定义规则是指每次脱敏服务运行时,实时加载当前系统预定义的规则配置,从而允许系统在持续运行的过程中,不断改进优化敏感扫描规则,进一步提升动态脱敏服务的准确度和效率。
在本申请再一具体实现中,参见图7,所述装置还包括:
策略设定模块57,用于根据安全策略,判断数据是否需要进行脱敏处理,若需要进行脱敏处理,则对数据进行数据抽取,并按照正则匹配规则对所抽取数据进行扫描,否则,结束脱敏流程。
具体的,所述安全策略为预先配置的需要执行脱敏服务的数据范围。
本申请根据用户指令,预先配置需要执行脱敏服务的数据范围。如果所述数据在需要执行脱敏服务的数据范围内,则需要进行脱敏处理,对数据进行数据抽取,并按照正则匹配规则对所抽取数据进行扫描;否则,无需进行脱敏处理,结束脱敏流程。
因此,本申请允许用户预先配置该数据是否需要执行脱敏服务,如果用户将所述数据配置为不需要执行脱敏服务,则不会对该数据执行脱敏服务,从而方便用户在特定场景下查看原始数据。
本申请的实施例所提供的装置可通过计算机程序实现。本领域技术人员应该能够理解,上述的单元以及模块划分方式仅是众多划分方式中的一种,如果划分为其他单元或模块或不划分块,只要信息对象的具有上述功能,都应该在本申请的保护范围之内。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。