CN115688159A - 一种数据脱敏方法及装置 - Google Patents

一种数据脱敏方法及装置 Download PDF

Info

Publication number
CN115688159A
CN115688159A CN202211078592.XA CN202211078592A CN115688159A CN 115688159 A CN115688159 A CN 115688159A CN 202211078592 A CN202211078592 A CN 202211078592A CN 115688159 A CN115688159 A CN 115688159A
Authority
CN
China
Prior art keywords
target
data
characters
data records
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211078592.XA
Other languages
English (en)
Inventor
宋雨
陈欢
程璐
黄康
杨晓明
赵辉
李敬文
简苡霖
柏莹
程轼博
王舒倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202211078592.XA priority Critical patent/CN115688159A/zh
Publication of CN115688159A publication Critical patent/CN115688159A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据脱敏方法及装置,该方法包括:获得待脱敏的目标数据列,目标数据列包括多条数据记录,数据记录包括多个字段的字符;多条数据记录包括目标记录;获得目标记录中目标字符对应的数据记录数量;目标字符位于目标数据的目标位置;数据记录数量为目标数据列中目标位置的字符为目标字符的数据记录;当目标字符对应的数据记录数量符合预设条件时,将目标数据记录中的目标字符进行脱敏处理。本申请实施例通过获取整个目标数据列中获取的数据记录数量,可以将目标记录中辨识度较高的字符保留下来,从而提高脱敏后的目标记录的辨识度,有利于对目标记录的处理和确认。

Description

一种数据脱敏方法及装置
技术领域
本申请涉及计算机领域,尤其涉及一种数据脱敏方法及装置。
背景技术
数据脱敏又称数据去隐私化或数据变形,是对敏感数据进行变换、修改的技术机制,能够在很大程度上解决敏感数据在非可信环境中使用的问题。例如外部机构监管审计的需要对银行内的部分数据进行核验,或银行需要客户对本人信息进行确认,这其中涉及了银行客户的客户信息。为了保护银行客户的隐私,银行将对客户信息进行脱敏处理,即只显示客户信息的一部分,对客户信息的另一部分进行隐藏或修改。但通过目前的脱敏方式获得的脱敏后的数据辨析度较低,数据处理人员很难通过脱敏后的数据对客户信息进行分析或者查验客户信息的准确性。
发明内容
为了解决上述技术问题,本申请提供了一种数据脱敏方法及装置,用于提高脱敏后的数据的辨识度。
为了实现上述目的,本申请实施例提供的技术方案如下:
本申请实施例提供一种数据脱敏方法,包括:
获得待脱敏的目标数据列,目标数据列包括多条数据记录,数据记录包括多个字段的字符;多条数据记录包括目标记录;
获得目标记录中目标字符对应的数据记录数量;目标字符位于目标数据的目标位置;数据记录数量为目标数据列中目标位置的字符为目标字符的数据记录;
当目标字符对应的数据记录数量符合预设条件时,将目标数据记录中的目标字符进行脱敏处理。
作为一种可能的实施方式,当目标字符对应的数据记录数量符合预设条件时,将目标数据记录中的目标字符进行脱敏处理,包括:当目标字符对应的数据记录数量大于其他字符对应的数据记录数量时,将目标数据记录中的目标字符进行脱敏处理,其他字符为目标记录中除目标字符以外的字符。
作为一种可能的实施方式,当目标字符对应的数据记录数量符合预设条件时,将目标数据记录中的目标字符进行脱敏处理,包括:当目标字符对应的数据记录数量大于预设阈值时,将目标数据记录中的目标字符进行脱敏处理。
作为一种可能的实施方式,将目标数据记录中的目标字符进行脱敏处理,包括:将目标数据记录中的目标字符进行修改或隐藏。
作为一种可能的实施方式,获得待脱敏的目标数据列,包括:根据预设列名,在数据库中匹配得到待脱敏的目标数据列。
作为一种可能的实施方式,本申请实施例中的目标字符的个数为预设值。
根据上述的数据脱敏方法,本申请实施例还提供了一种数据脱敏装置,包括:数据列获得模块,用于获得待脱敏的目标数据列,目标数据列包括多条数据记录,数据记录包括多个字段的字符;多条数据记录包括目标记录;数据记录数量获得模块,用于获得目标记录中目标字符对应的数据记录数量;目标字符位于目标数据的目标位置;数据记录数量为目标数据列中目标位置的字符为目标字符的数据记录;处理模块,用于当目标字符对应的数据记录数量符合预设条件时,将目标数据记录中的目标字符进行脱敏处理。
作为一种可能的实施方式,处理模块具体用于:
当目标字符对应的数据记录数量大于其他字符对应的数据记录数量时,将目标数据记录中的目标字符进行脱敏处理,其他字符为目标记录中除目标字符以外的字符。
作为一种可能的实施方式,处理模块具体用于:当目标字符对应的数据记录数量大于预设阈值时,将目标数据记录中的目标字符进行脱敏处理。
作为一种可能的实施方式,处理模块具体用于:将目标数据记录中的目标字符进行修改或隐藏。
通过上述技术方案可知,本申请具有以下有益效果:
本申请实施例提供了一种数据脱敏方法,包括:获得待脱敏的目标数据列,目标数据列包括多条数据记录,数据记录包括多个字段的字符;多条数据记录包括目标记录;获得目标记录中目标字符对应的数据记录数量;目标字符位于目标数据的目标位置;数据记录数量为目标数据列中目标位置的字符为目标字符的数据记录;当目标字符对应的数据记录数量符合预设条件时,将目标数据记录中的目标字符进行脱敏处理。
由此可知,本申请实施例提供的数据脱敏方法,通过获得目标记录中目标字符对应的数据记录数量,对目标记录中的字符进行筛选,当目标字符对应的数据记录数量符合预设条件时,将目标数据记录中的目标字符进行脱敏处理。如此,本申请实施例通过获取整个目标数据列中获取的数据记录数量,可以将目标记录中辨识度较高的字符保留下来,从而提高脱敏后的目标记录的辨识度,有利于对目标记录的处理和确认。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据脱敏方法的流程图;
图2为本申请实施例提供的一种数据脱敏装置的示意图。
具体实施方式
为了帮助更好地理解本申请实施例提供的方案,在介绍本申请实施例提供的方法之前,先介绍本申请实施例方案的应用的场景。
数据脱敏又称数据去隐私化或数据变形,是对敏感数据进行变换、修改的技术机制,能够在很大程度上解决敏感数据在非可信环境中使用的问题。例如外部机构监管审计的需要对银行内的部分数据进行核验,或银行需要客户对本人信息进行确认,这其中涉及了银行客户的客户信息。为了保护银行客户的隐私,银行将对客户信息进行脱敏处理,即只显示客户信息的一部分,对客户信息的另一部分进行隐藏或修改。但通过目前的脱敏方式获得的脱敏后的数据辨析度较低,数据处理人员很难通过脱敏后的数据对客户信息进行分析或者查验客户信息的准确性。
为了解决上述的技术问题,本申请实施例提供了一种数据脱敏方法,包括:获得待脱敏的目标数据列,目标数据列包括多条数据记录,数据记录包括多个字段的字符;多条数据记录包括目标记录;获得目标记录中目标字符对应的数据记录数量;目标字符位于目标数据的目标位置;数据记录数量为目标数据列中目标位置的字符为目标字符的数据记录;当目标字符对应的数据记录数量符合预设条件时,将目标数据记录中的目标字符进行脱敏处理。
由此可知,本申请实施例提供的数据脱敏方法,通过获得目标记录中目标字符对应的数据记录数量,对目标记录中的字符进行筛选,当目标字符对应的数据记录数量符合预设条件时,将目标数据记录中的目标字符进行脱敏处理。如此,本申请实施例通过获取整个目标数据列中获取的数据记录数量,可以将目标记录中辨识度较高的字符保留下来,从而提高脱敏后的目标记录的辨识度,有利于对目标记录的处理和确认。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
参见图1,该图为本申请实施例提供的一种数据脱敏方法的流程图。
如图1所示,本申请实施例提供的数据脱敏方法,包括:
S101:获得待脱敏的目标数据列,目标数据列包括多条数据记录,数据记录包括多个字段的字符;多条数据记录包括目标记录。
S102:获得目标记录中目标字符对应的数据记录数量;目标字符位于目标数据的目标位置;数据记录数量为目标数据列中目标位置的字符为目标字符的数据记录。
S103:当目标字符对应的数据记录数量符合预设条件时,将目标数据记录中的目标字符进行脱敏处理。
需要说明的是,本申请实施例中待脱敏的目标数据列,可以为姓名、身份证号或手机号等,本申请实施例在此不做限定。目标数据列中可以包括多条数据记录,当目标数据列为姓名时,目标数据列中可以包括“张三”、“李四”和“王五”等多条数据记录。
目标记录也可以为一串编码。作为一个示例,目标数据例中包括100条数据记录,其中目标记录可以为“0000024859324491”,总长度为16位。然后可以根据目标记录每一位上的值确定在目标数据列的所有记录中当前位置上出现次数。例如,目标记录的第一位上的字符为0,而目标数据列的所有数据记录中第一位为0的记录为100条,即目标数据列中所有的数据记录的第一位都为0。因此,目标数据第一位上的字符0对应的数据记录数量为100。目标记录的第六位上的字符为2,而目标数据列的所有数据记录中第六位为2的记录为52条,即目标数据列中存在52条数据记录的第六位都为2。因此,目标数据第六位上的字符2对应的数据记录数量为52。通过上述的方法,本申请实施例可以得到目标记录中每一个字符对应的数据记录数量,将这些数据记录数量统计便可以得到目标记录“0000024859324491”对应的数据记录数量为(100,100,100,100,100,52,44,21,70,23,10,69,8,49,89,91)。
作为一种可能的实施方式,当目标字符对应的数据记录数量大于其他字符对应的数据记录数量时,可以将目标数据记录中的目标字符进行脱敏处理,其他字符为目标记录中除目标字符以外的字符。需要说明的是,本申请实施例不限定目标字符的个数,本申请实施例中的目标字符可以为一个字符,也可以为多个字符。本申请实施例中目标字符的个数可以为预设值,作为一个示例,当预设值为3时,可以将目标数据记录中对应数据记录数量最大的3个字符,作为目标字符进行脱敏处理。
在上述的示例中,假设需要脱敏的字符的个数为8个。根据目标记录对应的数据记录数量(100,100,100,100,100,52,44,21,70,23,10,69,8,49,89,91),目标记录“0000024859324491”中字符对应的数据记录数量最多的字符为第1、2、3、4、5、15、16和9位的字符,对该位置的字符进行脱敏显示。具体地,可以将目标数据记录中的目标字符进行修改或隐藏。作为一个示例,可以将目标记录显示为“*****248*93244**”。在得到目标自断后,可以对命中的目标字段进行提示,人工进行二次确认。
作为另一种可能的实施方式,当目标字符对应的数据记录数量大于预设阈值时,将目标数据记录中的目标字符进行脱敏处理。在上述的示例中,假设预设阈值为50,即目标字符对应的数据记录数量需要大于50。根据目标记录对应的数据记录数量(100,100,100,100,100,52,44,21,70,23,10,69,8,49,89,91),目标记录“0000024859324491”中字符对应的数据记录数量大于50的字符为第1、2、3、4、5、6、9、12、15和16位的字符,对该位置的字符进行脱敏显示。作为一个示例,可以将目标记录显示为“******48*93*44**”。
在本申请实施例中,可以人工指定目标数据列,也可以通过字符串匹配的方式从数据库中确定。具体地,数据库中可以包括脱敏字段和脱敏规则,其中知识标题为字段名称,将字段别称、英文名称作为相似问。知识内容包括字段格式(正则表达式)、最少脱敏位数。比如知识标题为身份证号码,相似问为ID、证件号码等。在获得目标数据列时,可以根据预设列名,在数据库中匹配得到待脱敏的目标数据列。
综上所述,本申请实施例提供的数据脱敏方法,通过获得目标记录中目标字符对应的数据记录数量,对目标记录中的字符进行筛选,当目标字符对应的数据记录数量大于是预设阈值或目标记录中的其他字符时,将目标数据记录中的目标字符进行脱敏处理。如此,本申请实施例通过获取整个目标数据列中获取的数据记录数量,可以将目标记录中辨识度较高的字符保留下来,从而提高脱敏后的目标记录的辨识度,有利于对目标记录的甄别。
根据上述实施例提供的数据脱敏方法,本申请实施例还提供了一种数据脱敏装置。
参见图2,该图为本申请实施例提供的一种数据脱敏装置的示意图。
如图2所示,本申请实施例提供的数据脱敏装置,包括:
数据列获得模块100,用于获得待脱敏的目标数据列,目标数据列包括多条数据记录,数据记录包括多个字段的字符;多条数据记录包括目标记录。
数据记录数量获得模块200,用于获得目标记录中目标字符对应的数据记录数量;目标字符位于目标数据的目标位置;数据记录数量为目标数据列中目标位置的字符为目标字符的数据记录。
处理模块300,用于当目标字符对应的数据记录数量符合预设条件时,将目标数据记录中的目标字符进行脱敏处理。
作为一种可能的实施方式,处理模块具体用于:当目标字符对应的数据记录数量大于其他字符对应的数据记录数量时,将目标数据记录中的目标字符进行脱敏处理,其他字符为目标记录中除目标字符以外的字符。
作为另一种可能的实施方式,处理模块具体用于:当目标字符对应的数据记录数量大于预设阈值时,将目标数据记录中的目标字符进行脱敏处理。
作为一种可能的实施方式,处理模块具体用于:将目标数据记录中的目标字符进行修改或隐藏。
综上所述,本申请实施例提供的数据脱敏装置,通过获得目标记录中目标字符对应的数据记录数量,对目标记录中的字符进行筛选,当目标字符对应的数据记录数量大于是预设阈值或目标记录中的其他字符时,将目标数据记录中的目标字符进行脱敏处理。如此,本申请实施例通过获取整个目标数据列中获取的数据记录数量,可以将目标记录中辨识度较高的字符保留下来,从而提高脱敏后的目标记录的辨识度,有利于对目标记录的甄别。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法而言,由于其与实施例公开的系统相对应,所以描述的比较简单,相关之处参见系统部分说明即可。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据脱敏方法,其特征在于,包括:
获得待脱敏的目标数据列,所述目标数据列包括多条数据记录,所述数据记录包括多个字段的字符;所述多条数据记录包括目标记录;
获得所述目标记录中目标字符对应的数据记录数量;所述目标字符位于所述目标数据的目标位置;所述数据记录数量为所述目标数据列中所述目标位置的字符为目标字符的数据记录;
当所述目标字符对应的数据记录数量符合预设条件时,将所述目标数据记录中的目标字符进行脱敏处理。
2.根据权利要求1所述的方法,其特征在于,所述当所述目标字符对应的数据记录数量符合预设条件时,将所述目标数据记录中的目标字符进行脱敏处理,包括:
当所述目标字符对应的数据记录数量大于其他字符对应的数据记录数量时,将所述目标数据记录中的目标字符进行脱敏处理,所述其他字符为所述目标记录中除所述目标字符以外的字符。
3.根据权利要求1所述的方法,其特征在于,所述当所述目标字符对应的数据记录数量符合预设条件时,将所述目标数据记录中的目标字符进行脱敏处理,包括:
当所述目标字符对应的数据记录数量大于预设阈值时,将所述目标数据记录中的目标字符进行脱敏处理。
4.根据权利要求1所述的方法,其特征在于,所述将所述目标数据记录中的目标字符进行脱敏处理,包括:
将所述目标数据记录中的目标字符进行修改或隐藏。
5.根据权利要求1所述的方法,其特征在于,所述获得待脱敏的目标数据列,包括:
根据预设列名,在数据库中匹配得到待脱敏的目标数据列。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述目标字符的个数为预设值。
7.一种数据脱敏装置,其特征在于,包括:
数据列获得模块,用于获得待脱敏的目标数据列,所述目标数据列包括多条数据记录,所述数据记录包括多个字段的字符;所述多条数据记录包括目标记录;
数据记录数量获得模块,用于获得所述目标记录中目标字符对应的数据记录数量;所述目标字符位于所述目标数据的目标位置;所述数据记录数量为所述目标数据列中所述目标位置的字符为目标字符的数据记录;
处理模块,用于当所述目标字符对应的数据记录数量符合预设条件时,将所述目标数据记录中的目标字符进行脱敏处理。
8.根据权利要求7所述的装置,其特征在于,所述处理模块具体用于:
当所述目标字符对应的数据记录数量大于其他字符对应的数据记录数量时,将所述目标数据记录中的目标字符进行脱敏处理,所述其他字符为所述目标记录中除所述目标字符以外的字符。
9.根据权利要求7所述的装置,其特征在于,所述处理模块具体用于:
当所述目标字符对应的数据记录数量大于预设阈值时,将所述目标数据记录中的目标字符进行脱敏处理。
10.根据权利要求7所述的装置,其特征在于,所述处理模块具体用于:
将所述目标数据记录中的目标字符进行修改或隐藏。
CN202211078592.XA 2022-09-05 2022-09-05 一种数据脱敏方法及装置 Pending CN115688159A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211078592.XA CN115688159A (zh) 2022-09-05 2022-09-05 一种数据脱敏方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211078592.XA CN115688159A (zh) 2022-09-05 2022-09-05 一种数据脱敏方法及装置

Publications (1)

Publication Number Publication Date
CN115688159A true CN115688159A (zh) 2023-02-03

Family

ID=85061606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211078592.XA Pending CN115688159A (zh) 2022-09-05 2022-09-05 一种数据脱敏方法及装置

Country Status (1)

Country Link
CN (1) CN115688159A (zh)

Similar Documents

Publication Publication Date Title
CN112347310B (zh) 事件处理信息的查询方法、装置、计算机设备和存储介质
CN111274782A (zh) 一种文本审核方法、装置、计算机设备及可读存储介质
US8924401B2 (en) Method and system for logical data masking
CN110597511B (zh) 一种页面自动生成方法、系统、终端设备及存储介质
CN113326991B (zh) 自动授权方法、装置、计算机设备及存储介质
CN111836063B (zh) 一种直播内容识别方法及装置
CN112685771A (zh) 日志脱敏方法、装置、设备及存储介质
EP3637294A1 (en) Methods and systems for honeyfile creation, deployment and management
US20230205755A1 (en) Methods and systems for improved search for data loss prevention
CN109711189B (zh) 数据脱敏方法及装置、存储介质、终端
CN108090351A (zh) 用于处理请求消息的方法和装置
CN110674188A (zh) 一种特征提取方法、装置及设备
CN111159329A (zh) 敏感词检测方法、装置、终端设备和计算机可读存储介质
CN112765673A (zh) 一种敏感数据统计方法及相关装置
CN112734046A (zh) 模型训练及数据检测方法、装置、设备及介质
CN114511393A (zh) 财务数据处理方法及系统
CN112417406A (zh) 一种数据的脱敏方法、装置、可读存储介质及电子设备
CN111988327A (zh) 威胁行为检测和模型建立方法、装置、电子设备及存储介质
CN110956170A (zh) 生成护照机读码样本的方法、装置、设备及存储介质
CN115688159A (zh) 一种数据脱敏方法及装置
CN110189141A (zh) 发票的验证方法、装置和计算机设备
CN113703753B (zh) 用于产品开发的方法、装置和产品开发系统
CN112989021B (zh) 用于顾问行为违规判定的方法、装置及设备
CN115203364A (zh) 软件故障反馈处理方法、装置、设备及可读存储介质
CN114036301A (zh) 政策文件的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination