CN115270166A - 数据处理方法、装置、设备及计算机存储介质 - Google Patents
数据处理方法、装置、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN115270166A CN115270166A CN202110480849.3A CN202110480849A CN115270166A CN 115270166 A CN115270166 A CN 115270166A CN 202110480849 A CN202110480849 A CN 202110480849A CN 115270166 A CN115270166 A CN 115270166A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- segment
- value
- subdata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据处理方法、装置、设备及计算机存储介质,该数据处理方法包括:获取待处理数据;在待处理数据中包括目标子数据的情况下,对目标子数据进行解析,得到目标子数据的特性规则;根据特性规则,确定目标子数据中的目标子数据段;基于特性规则对目标子数据段进行脱敏处理,得到脱敏后的目标子数据段;根据脱敏后的目标子数据段,确定对待处理数据进行处理后的目标数据。本申请提供的方法在待处理数据包括目标子数据的情况下,通过获取目标子数据的特性规则,然后根据特性规则将目标子数据划分成目标数据段,进而基于特性规则对目标子数据段进行脱敏处理获得处理后的目标数据,使处理后的目标数据仍具有数据特征和应用价值。
Description
技术领域
本申请涉及数据安全技术领域,具体涉及一种数据处理方法、装置、设备及计算机存储介质。
背景技术
随着计算机网络技术的快速发展,越来越多涉及个人隐私或商业机密的敏感信息通过网络传播。为了提升敏感数据的安全性,通常会对数据进行数据脱敏处理。
现有技术中脱敏方法通常为:将敏感数据进行隐藏处理、变形处理、模糊处理等。这些脱敏方法虽然隐藏了敏感数据,提升了敏感数据的安全性,但是也使脱敏后的数据丧失了该数据本身的特征,无法保证脱敏后数据的应用价值即无法保证脱敏后数据的测试、分析等应用价值。
发明内容
本发明实施例提供一种数据处理方法,以解决无法保证处理后的数据的应用价值的问题。
第一方面,本发明实施例提供了一种数据处理方法,方法包括:
获取待处理数据;
在所述待处理数据中包括目标子数据的情况下,对目标子数据进行解析,得到所述目标子数据的特性规则;
根据所述特性规则,确定所述目标子数据中的目标子数据段;
基于所述特性规则对所述目标子数据段进行脱敏处理,得到脱敏后的目标子数据段;
根据所述脱敏后的目标子数据段,确定对所述待处理数据进行处理后的目标数据。
第二方面,本发明实施例提供了一种数据处理装置,装置包括:
获取模块,用于获取待处理数据;
解析模块,用于在所述待处理数据中包括目标子数据的情况下,对目标子数据进行解析,得到所述目标子数据的特性规则;
第一确定模块,用于根据特性规则,确定所述目标子数据中的目标子数据段;
处理模块,用于基于所述特性规则对所述目标子数据段进行脱敏处理,得到脱敏后的目标子数据段;
第二确定模块,用于根据所述脱敏后的目标子数据段,确定对所述待处理数据进行处理后的目标数据。
第三方面,本申请实施例提供了一种电子设备,设备包括:
处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现上述的数据处理方法。
第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述的数据处理方法。
相较于现有技术,本申请具有以下有益效果:
本申请实施例在待处理数据包括目标子数据的情况下,通过获取目标子数据的特性规则,然后根据目标子数据的特性规则将目标子数据划分成目标子数据段,进而基于特性规则对目标子数据段进行脱敏处理。由于基于特性规则对目标子数据段进行脱敏处理得到的数据段仍然可以保持其原有的特性规则,如此,最后得到的脱敏处理后的目标数据不会改变原有的特性规则,因而,最后获得的处理后的目标数据仍具有原有的数据特征和应用价值。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种数据处理的流程示意图;
图2是根据一示例性实施例示出的一种数据处理装置的结构示意图;
图3是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
数据脱敏,指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。即在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则的情况下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。这样可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。
以往在数据量不大、应用场景较为简单的情况下,企业多是自己编写脱敏脚本,屏蔽敏感数据。随着应用系统、数据量的不断增加,人工的方式已不能满足信息安全的需求。随着信息安全要求的不断加强,进而出现了很多静态数据脱敏技术和方法。
现有技术中隐私发现多依赖于人工识别或指定。该种方式一方面工作效率低,同时也存在遗漏、疏忽、刻意等原因导致的隐私类型未识别,从而导致敏感数据泄露。同时,现有的脱敏算法简单,无法保证脱敏后数据的应用价值。脱敏不仅仅是数据变形,其需要保证变形后数据的测试、分析等使用价值。
为了解决现有技术问题,本申请实施例提供了一种数据处理方法、装置、设备及计算机存储介质。下面首先对本申请实施例所提供的数据处理方法进行介绍。
图1示出了本申请一个实施例提供的数据处理方法的流程示意图。该数据处理方法可以应用于信息安全业务,特别是可以应用于敏感数据的脱敏处理,例如在开发、测试和其它非生产环境以及外包环境中对身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。为了简化说明、方便理解,后续可以以对敏感数据进行脱敏处理的场景为例进行说明。
如图1所示,本实施例提供的一种数据处理方法,包括:
步骤S101,获取待处理数据;
步骤S102,在待处理数据中包括目标子数据的情况下,对目标子数据进行解析,得到目标子数据的特性规则;
步骤S103,根据特性规则,确定目标子数据中的目标子数据段;
步骤S104,基于特性规则对目标子数据段进行脱敏处理,得到脱敏后的目标子数据段;
步骤S105,根据脱敏后的目标子数据段,确定对待处理数据进行处理后的目标数据。
上述各步骤的具体实现方式将在下文中进行详细描述。
本申请实施例在待处理数据包括了目标子数据的情况下,通过获取目标子数据的特性规则,从而根据目标子数据的特性规则将目标子数据划分成目标子数据段,进而基于特性规则对目标子数据段进行脱敏处理,最后获得了处理后的目标数据,使处理后的目标数据仍具有数据特征和应用价值。
下面介绍上述各个步骤的具体实现方式。
在步骤S101中,获取待处理数据。具体的待处理数据的获取可以是根据接收到数据访问请求获取待处理数据。
以数据访问请求为SQL语句为例,如SELECT Name,IDCard FROM Persons。通过对SQL语句进行解析,可以得到待处理数据,即名称为Persons的表中的 Name列和IDCard列。具体的待处理数据获取方式此处不做限定,可以根据实际需要选择。
数据访问请求可以是数据访问终端向服务器发起的,也可以是特定人员 (如运维人员)发起,还可以由特定系统(如业务系统)发出。当其他业务系统与该业务系统进行数据交互时,也可以向该业务系统发出数据访问请求。
以上为步骤S101的具体实现方式,下面介绍步骤S102的具体实现方式。
在步骤S102中,在待处理数据中包括目标子数据的情况下,对目标子数据进行解析,得到目标子数据的特性规则。具体的,首先确定待处理数据中是否包括了需要进行数据处理的目标子数据,若待处理数据中包括了目标子数据,则对目标子数据进行解析,得到目标子数据的特性规则。
目标子数据是指待处理数据中需要进行数据处理的数据。例如,终端上运行的应用程序需要访问服务器中的数据,应用程序需要呈现目标数据,但是目标数据中包含一些需要隐匿的敏感数据,此时服务器不能将目标数据的全部明文展示给应用,而应当对目标数据进行脱敏后,将脱敏数据反馈给终端上的应用。再例如,运维人员需要维护表格结构,进行系统调优等。表格中含有需要隐匿的敏感数据,此时应当避免运维人员检索或导出真实数据,所以需要对其中的敏感数据进行处理。还例如,当其他业务系统所访问的目标数据包含隐私数据时,需要对交换的数据进行脱敏处理,将脱敏后的脱敏数据反馈给其他业务系统。
在一些实施例中,确定待处理数据中包括目标子数据,具体的,可以通过对SQL语句进行解析,在创建数据库之后对敏感数据进行标注,用于表示哪些数据是敏感数据,需要进行脱敏处理。在获取了待处理数据之后,可以根据标注判断目标数据是否为敏感数据。例如,创建数据库之后,用户设置Persons 表中的Address列和IDCard列所记录的数据为敏感数据。那么在得到目标数据为Persons表中的IDCard列数据后,可以确定该数据为敏感数据。
在一些实施例中,在对敏感数据进行标注时,还可以对敏感度进行设置。同样作为敏感数据,其敏感程度不一样,如绝对隐私的商业秘密数据和泄露后影响不大的数据,其敏感程度不同,敏感度即用于描述数据的敏感程度。例如, IDCard列所记录的数据的敏感度为3,Address列所记录的数据的敏感度为2 等,敏感度数值越大说明数据越敏感。
本申请实施例还可以根据用户指令来定义数据敏感度。
在一些实施例中,对目标子数据进行解析,得到目标子数据的特性规则。具体的,对目标子数据进行解析,可以通过正则表达式、深度学习等方式以及现有技术中的其他方式对数据进行解析获取目标数据的特性规则。
目标子数据的特性规则可以是数据的排列规则、物理意义、语义特征等等。例如,身份证号码的特性规则可以为:区域地址码(前6位),出生日期(第 7-14位)+顺序码(第15-17位)+校验码(第18位)。再例如,手机号码特性规则为:网络识别号(前3位),地区编码(第4-7位),用户号码(第8-11 位)。
以上为步骤S102具体实现方式,下面介绍步骤S103具体实现方式。
在步骤S103,根据特性规则,确定目标子数据中的目标子数据段。具体的,根据目标子数据的特性规则,对目标子数据进行划分,得到目标子数据段。每个目标子数据段都有其对应的特性规则,可以是排列规则、物理意义、语义特征等等。
可选的,在一个实施例中,步骤S103,根据特性规则,确定目标子数据中的目标子数据段,可以包括:
基于特性规则,确定目标子数据中表示不同物理意义的数据段所在的顺序位置;
根据顺序位置将目标数据划分成数据段,得到目标子数据段。
其中,基于特性规则,确定目标子数据中表示不同物理意义的数据段所在的顺序位置,具体的,在目标子数据中处于不同位置的数据具有不同的物理意义,但是并非每一个数据都需要进行数据处理,因此,需要根据特性规则,确定目标子数据中需要数据处理的数据段所在的顺序位置。例如身份证号只需要对第7-17位进行脱敏处理即可,此时第7-17位为需要进行数据处理的数据段所在的顺序位置。
在确定目标子数据中表示不同物理意义的数据段所在的顺序位置后,根据获得的目标子数据的特性规则,将目标子数据根据物理意义的不同划分成目标子数据数据段,每个目标子数据段表示不同的物理意义。
在本实施例中,可以将目标子数据按特性规则划分为目标子数据段,如身份证号码中,可以是第7-14位(出生日期)为一段,第15-17位为一段(顺序码)。也可以将第7-10位(出生年)为一段,11-12位为一段(出生月份), 13-14位为一段(出生日),15-17位为一段(顺序码)。
在本实施例中,将目标子数据根据特性规则划分成目标子数据段,可以确定目标子数据中需要进行数据处理的数据所在的位置,而不用将整个目标子数据都进行数据处理。
以上为步骤S103具体实现方式,下面介绍步骤S104具体实现方式。
在步骤S104,基于特性规则对目标子数据段进行脱敏处理,得到脱敏后的目标子数据段。
每一个目标子数据段有其对应的物理意义,根据特性规则,不同的目标子数据段可以有不同数据脱敏处理方法。
例如,以对身份证号码进行脱敏处理为例,同样对于7-17位,由于7-14 位代表的含义与15-17位代表的含义不同,7-14位的取值范围与15-17位的取值范围不同,那么脱敏处理方案也可以不同。7-14位代表出生日期,此时第 7位只能为1或2,若其为特殊符号(如*)或者为0,3,4,5,6,7,8,9,则很显然该数字为假的,已经丧失了其作为年首位的特性;对于年,如1977,如果保证1,9,7,7每一位脱敏后的值与原值都不同,不一定保证4位连在一起会代表一个有效的年份。如1变为2,9变为0,7变为6,7变为6,脱敏后的年份变为2066,显然并非有效年份,依然会丧失脱敏后数据的价值。
因此为了使脱敏后的目标数据段仍然具有其特定的数据特征可以将目标子数据段中的数据替换成具有相同特性的其他数据。
可选的,在一个实施例中,在步骤S104中,目标子数据为数值型数据,基于特性规则对目标子数据段进行脱敏处理,得到脱敏后的目标子数据段,可以包括:
根据特性规则,确定目标子数据段中每位数值的有效值范围;
针对每位数值,将数值替换为对应有效值范围内的其它取值,得到脱敏后的目标子数据段。
其中,目标子数据为数值型数据,对于字符等其他非数值型数据形式,可以将其它类型数据转换成二进制值再进行处理。
其中,根据特性规则,确定目标子数据段中每位数值的有效值范围。有效值范围为基于特性规则目标子数据段中的每个数值的使该数值保持其物理意义不变的所有取值。例如,在身份证号码中,目标子数据段的物理意义为年,第一位的有效值范围为1和2,第二位的有效值范围为0和9,第三位的有效值范围为0-9,第四位的有效值范围为0-9。
其中,针对每位数值,将数值替换为对应有效值范围内的其它取值,得到脱敏后的目标子数据段。每个目标子数据段都有特定的物理意义,为了使数据脱敏处理后还具有其特定的特性即特定物理意义,可以根据目标子数据段中的每个数值的有效值范围,将每个数值替换成其有效值范围中的其它数值。将目标子数据段中的每个数值进行替换后,获得脱敏后的目标子数据段。
本实施例中,通过特性规则获取目标子数据段中每一位数值的有效值范围,在有效值范围内,对每个数值进行替换处理,可以保证经过数值替换处理后得到的脱敏后目标子数据段还具有其特定的数据特征。
可选的,在一个实施例中,针对每位数值,将数值替换为对应有效值范围内的其它取值,可以包括:
针对每位数值,通过以下公式将数值替换为对应有效值范围内的其它取值;
Yi=Yi-1+∑j(x-tj-P)modN;
其中,Yi为第i次替换后数值的取值,x为数值替换之前的取值,P为随机确定的素数;j为x对应的有效值范围中数值的标识,tj为x对应有效值范围中第j个数值;mod()为取余数函数,N为目标子数据段中数值的总位数;i 为替换次数,i≥1,且i为整数,当i=1时,Yi-1=0。
其中替换次数i可以是根据测试后得出的最优替换次数,经过最优次数替换处理后,可以得到更加准确的替换结果。
根据上述公式可以将目标子数据段中的数值替换成对应有效值范围内的数值,算法简单,便于操作,可以快速得出替换后的数值。
可选的,在一个实施例中,针对每位数值,将数值替换为对应有效值范围内的其它取值,还可以包括:
针对每位数值,将数值替换为对应有效值范围内的其它取值,得到第一脱敏目标子数据段;
根据特性规则,确定第一脱敏目标子数据段中目标数值的潜在规则,潜在规则为目标数值依据前一位数值所确定的取值范围,目标数值为目标子数据段中除最高位数值以外的其它数值;
将第一脱敏目标子数据段的最高位数值与对应的有效值范围内的取值进行比对,
在第一脱敏目标子数据段的最高位数值的取值不在对应的有效值范围内的情况下,将最高位数值与对应的有效值范围中的各数值进行相似度计算,选择相似度最高的数值作为最高位数值的取值;
将第一脱敏目标子数据段的非最高位数值与其对应的有效值范围内的取值和对应的潜在规则进行比对,
在第一脱敏后的目标子数据段的非最高位数值不在对应的有效值范围内或者不符合对应的潜在规则的情况下,将非最高位数值与在对应有效值范围内并且符合对应潜在规则的各数值进行相似度计算,选择相似度结果最高的数值作为非最高位数值的取值;
将最高位数值符合对应有效值范围以及非最高位数值符合对应有效值范围和对应潜在规则的第一脱敏目标子数据段确定为脱敏后的目标子数据段。
在本实施例中,潜在规则为非最高位数值依据前一位数值所确定的取值范围。例如,目标子数据段为出生年份,则第一位的有效范围为1和2,第二位的有效范围为0和9,第三位的有效范围为0-9,第四位的有效范围为0-9;而潜在规则为当第一位为1时,则第二位9;当第一位为2时,则第二位为0。
在对目标子数据段中的每个数值进行替换得到第一脱敏目标子数据之后,需要确定第一脱敏目标子数据段中是否每一位数值都符合对应特性规则以及非最高位是否还符合对应潜在规则。
在一些实施例中,可以对第一脱敏目标子数据段从最高位开始,依次选择一位,确定其是否满足对应的有效值范围;对于最高位数值,若满足对应有效值范围,则比对第二高位数值。若最高位数值不满足对应有效值范围,则将该数据与对应有效值范围中的各数值进行相似度计算,选择相似度结果最高的数值作为该为数值。对于非最高位,在确定其是否满足对应的有效值范围时,同时判断是否符合对应潜在规则。即基于潜在规则对其对应的有效值范围进行一次筛选,然后确定其是否满足筛选后的有效值范围。例如,若最高位脱敏后的数为2后,第二位原本有效值范围为0和9,但是基于潜在规则第一位为2时,第二位为0,将第二位的有效值范围筛选为0。仅确定脱敏后第二位是否为0 即可。
在进行相似度计算时,可以采用余弦相似度计算方法,也可以采用计算差值的方法计算以及现有技术中的其他方法计算相似度。
在本实施例中,通过将替换处理后得到的数值与其对应的有效值范围和潜在规则进行比对,将不符合有效值范围的最高位数值替换成对应有效值范围内的其它数值,将不符合有效值范围和潜在规则的非最高位数值替换成符合条件的数值,可以验证并确保目标子数据段经过数值替换处理后得到的目标子数据段具有处理前的数据特性。
可选的,在一个实施例中,在步骤S104中,基于特性规则对目标子数据段进行脱敏处理,得到脱敏后的目标子数据段,还可以包括:
基于特性规则对目标子数据段进行脱敏处理,得到第一脱敏目标子数据段;
将第一脱敏目标子数据段与目标子数据段进行比较,
在第一脱敏目标子数据段与目标子数据段不一致的情况下,将第一脱敏目标子数据段确定为脱敏后的目标子数据段。
可选的,在一个实施例中,基于特性规则对目标子数据段进行脱敏处理,得到脱敏后的目标子数据段之后,还可以包括:
在第一脱敏目标子数据段与目标子数据段一致的情况下,将第一脱敏目标子数据段更新为目标子数据段,返回基于特性规则对目标子数据段进行脱敏处理,得到第一脱敏目标子数据段这一步骤,直至第一脱敏目标子数据段与目标子数据段不一致。
在本实施例中,在基于特性规则对目标子数据段进行脱敏处理得到脱敏目标子数据段后,还可以将脱敏后的目标子数据段与脱敏前的目标子数据段进行比较,可以验证目标子数据段是否脱敏成功。若脱敏后的目标子数据段与脱敏前的目标子数据段不一致,说明脱敏成功,将脱敏成功的目标子数据段确定为最终的脱敏后的目标子数据段;若脱敏后的目标子数据段还是与脱敏前的目标子数据段一致,说明脱敏失败,需要重新基于特性规则对目标子数据段进行脱敏处理,得到脱敏后的目标子数据段,直到得到的脱敏后的目标子数据段与脱敏前的目标子数据段不一致。
在本实施例中,通过将脱敏后的目标子数据段与脱敏前的目标子数据段进行比较,可以验证目标子数据段是否脱敏成功,若脱敏不成功则重新进行脱敏处理,可以防止数据泄露,保证数据安全。
以上为步骤S104具体实现方式,下面介绍步骤S105具体实现方式。
在步骤S105,根据脱敏后的目标子数据段,确定对待处理数据进行处理后的目标数据。具体的,在将待处理数据中的目标子数据中的每一个目标子数据段进行脱敏处理后,可以得到处理后的待处理数据即目标数据。
以上为本申请实施例提供的数据处理的具体实现方式。本申请实施例在待处理数据包括目标子数据的情况下,通过获取目标子数据的特性规则,然后根据目标子数据的特性规则将目标子数据划分成目标子数据段,进而基于特性规则对目标子数据段进行脱敏处理。由于基于特性规则对目标子数据段进行脱敏处理得到的数据段仍然可以保持其原有的特性规则,如此,最后得到的脱敏处理后的目标数据不会改变原有的特性规则,因而,最后获得的处理后的目标数据仍具有原有的数据特征和应用价值。并且在数据处理过程中有多次验证过程,确保数据处理成功,防止数据泄露。
作为本申请的另一种实现方式,为了进一步验证待处理数据是否脱敏成功,在步骤S105之后,还可以包括以下步骤:
将目标数据发送至显示端;
接收显示端在显示目标数据之前所发送的显示目标数据的显示信息;
在显示信息中的与目标子数据段对应的显示数据与脱敏后的目标子数据段相同的情况下,向显示端发送确认显示目标数据的信息。
在显示信息中的与目标子数据段对应的显示数据与脱敏后的目标子数据段不相同的情况下,向显示端发送终止显示目标数据的信息,并返回基于特性规则对目标子数据段进行脱敏处理,得到脱敏后的目标子数据段,直至显示信息中的与目标子数据段对应的显示数据与脱敏后的目标子数据段相同。
其中,显示端可以是数据访问请求方的显示端,可以是需要显示待处理数据的应用程序,还可以是运维人员、业务系统的显示端,本申请实施例不作限定。显示信息可以是指显示端在接收到目标数据后,在进行显卡显示时截取其显示信号,从显示信号中获取的显示信息。
显示信息可以是图片形式,也可以是数据形式等其它形式。
在接收到数据访问请求时可以对该数据访问请求的发送来源进行标识,将对待处理数据进行理后的到目标数据根据标识发送至数据访问请求方的显示端。如果发送者为人,则标识可以为该人的密码,如果发送者为设备,则标识可以为该设备的AMC地址,IP地址等,能唯一标识该设备的标识即可。
在本实施例中,将目标数据发送至显示端后,可以接收到显示端在显示目标数据之前所发送的显示目标数据的显示信息。具体的,显示端在接收到目标数据后并不会立即显示出所接收到的目标数据,而是在显示目标数据之前将显示目标数据的显示信息发送回来。
在接收到显示端反馈的显示信息后,对显示信息进行解析,得到与目标子数据段对应的显示数据,若显示信息中的与目标子数据段对应的显示数据和脱敏后的目标子数据段相同,则说明待处理数据脱敏成功,发送的目标数据准确无误,接着向显示端发送确认显示目标数据的信息,显示端接收到确认信息后将显示接收到的目标数据。
若显示信息中的与目标子数据段对应的显示数据和脱敏后的目标子数据段不相同,则说明待处理数据脱敏失败,此时若显示端显示接收到的目标数据则会导致敏感数据泄露,因此,需要向显示端发送终止显示目标数据的信息,显示端接收到终止信息后将不显示接收到目标数据,防止敏感数据泄露;发送终止信息后,重新执行步骤S104、步骤S105,直到接收到的显示信息中的与目标子数据段对应的显示数据与脱敏后的目标子数据相同。
上述实现方式可以在待处理数据经过处理得到目标数据之后,并不立即在显示端上显示目标数据,而是在显示之前再次对目标数据进行验证,确保显示的目标数据是处理成功的目标数据,避免了敏感数据由于处理失败而导致数据泄露,提高了数据的安全性。
基于上述实施例提供的数据处理方法,相应地,本申请还提供了数据处理装置的具体实现方式。请参见以下实施例。
首先参见图2,本申请实施例提供的数据处理装置包括:
获取模块201,用于获取待处理数据;
解析模块202,用于在待处理数据中包括目标子数据的情况下,对目标子数据进行解析,得到目标子数据的特性规则;
第一确定模块203,用于根据特性规则,确定目标子数据中的目标子数据段;
处理模块204,用于基于特性规则对目标子数据段进行脱敏处理,得到脱敏后的目标子数据段;
第二确定模块205,用于根据脱敏后的目标子数据段,确定对待处理数据进行处理后的目标数据。
本申请实施例提供的数据处理装置可以在待处理数据包括目标子数据的情况下,通过获取目标子数据的特性规则,然后根据目标子数据的特性规则将目标子数据划分成目标子数据段,进而基于特性规则对目标子数据段进行脱敏处理。由于基于特性规则对目标子数据段进行脱敏处理得到的数据段仍然可以保持其原有的特性规则,如此,最后得到的脱敏处理后的目标数据不会改变原有的特性规则,因而,最后获得的处理后的目标数据仍具有原有的数据特征和应用价值。
可选地,为了确定目标子数据中需要进行数据处理的数据所在的位置,上述解析模块202,可以包括:
第一解析子模块,用于基于特性规则,确定目标子数据中表示不同物理意义的数据段所在的顺序位置;
第二解析子模块,用于根据顺序位置将目标数据划分成数据段,得到目标子数据段。
可选地,为了将目标子数据段中的数据替换成具有相同特性的其他数据,上述处理模块204,可以包括:
第一处理子模块,用于根据特性规则,确定目标子数据段中每位数值的有效值范围;
第二处理子模块,目标子数据为数值型数据,用于针对每位数值,将数值替换为对应有效值范围内的其它取值,得到脱敏后的目标子数据段。
可选地为了将目标子数据段中的数值替换成对应有效值范围内的数值,上述第二处理子模块,可以包括:
第一计算模块,用于针对每位数值,通过以下公式将数值替换为对应有效值范围内的其它取值;
Yi=Yi-1+∑j(x-tj-P)modN;
其中,Yi为第i次替换后数值的取值,x为数值替换之前的取值,P为随机确定的素数;j为x对应的有效值范围中数值的标识,tj为x对应有效值范围中第j个数值;mod()为取余数函数,N为目标子数据段中数值的总位数;i 为替换次数,i≥1,且i为整数,当i=1时,Yi-1=0。
可选地,为了确定脱敏后的目标子数据段中是否每一位数值都符合对应特性规则以及非最高位是否还符合对应潜在规则,上述第二处理子模块,还可以包括:
第二计算模块,用于针对每位数值,将数值替换为对应有效值范围内的其它取值,得到第一脱敏目标子数据段;
根据特性规则,确定第一脱敏目标子数据段中目标数值的潜在规则,潜在规则为目标数值依据前一位数值所确定的取值范围,目标数值为目标子数据段中除最高位数值以外的其它数值;
将第一脱敏目标子数据段的最高位数值与对应的有效值范围内的取值进行比对,
在第一脱敏目标子数据段的最高位数值的取值不在对应的有效值范围内的情况下,将最高位数值与对应的有效值范围中的各数值进行相似度计算,选择相似度最高的数值作为最高位数值的取值;
将第一脱敏目标子数据段的非最高位数值与其对应的有效值范围内的取值和对应的潜在规则进行比对,
在第一脱敏后的目标子数据段的非最高位数值不在对应的有效值范围内或者不符合对应的潜在规则的情况下,将非最高位数值与在对应有效值范围内并且符合对应潜在规则的各数值进行相似度计算,选择相似度结果最高的数值作为非最高位数值的取值;
将最高位数值符合对应有效值范围以及非最高位数值符合对应有效值范围和对应潜在规则的第一脱敏目标子数据段确定为脱敏后的目标子数据段。
可选地,为了验证目标子数据段是否脱敏成功,上述处理模块204,还可以包括:
第三处理子模块,用于基于特性规则对目标子数据段进行脱敏处理,得到第一脱敏目标子数据段;
将第一脱敏目标子数据段与目标子数据段进行比较,
在第一脱敏目标子数据段与目标子数据段不一致的情况下,将第一脱敏目标子数据段确定为脱敏后的目标子数据段。
可选地,上述处理模块204,还可以包括:
第四处理子模块,用于在第一脱敏目标子数据段与目标子数据段一致的情况下,将第一脱敏目标子数据段更新为目标子数据段,返回至处理模块204基于特性规则对目标子数据段进行脱敏处理,得到第一脱敏目标子数据段,直至第一脱敏目标子数据段与目标子数据段不一致。
本申请实施例在待处理数据包括了目标子数据的情况下,通过获取目标子数据的特性规则,从而根据目标子数据的特性规则将目标子数据划分成目标子数据段,进而基于特性规则对目标子数据段进行脱敏处理,最后获得了处理后的目标数据,使处理后的目标数据仍具有数据特征和应用价值。
作为本申请的一种实现方式,为了进一步验证待处理数据是否脱敏成功,上述装置还可以包括:
发送模块,用于将目标数据发送至显示端;
接收模块,用于接收显示端在显示目标数据之前所发送的显示目标数据的显示信息;
第一判断模块,用于在显示信息中的与目标子数据段对应的显示数据与脱敏后的目标子数据段相同的情况下,向显示端发送确认显示目标数据的信息。
可选地,上述装置,还可以包括:
第二判断模块,用于在显示信息中的与目标子数据段对应的显示数据与脱敏后的目标子数据段不相同的情况下,向显示端发送终止显示目标数据的信息,并返回基于特性规则对目标子数据段进行脱敏处理,得到脱敏后的目标子数据段,直至显示信息中的与目标子数据段对应的显示数据与脱敏后的目标子数据段相同。
需要说明的是,该数据处理装置是与上述数据处理方法对应的装置,上述方法实施例中所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
图3示出了本申请实施例提供的电子设备的硬件结构示意图。
在电子设备可以包括处理器301以及存储有计算机程序指令的存储器 302。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在综合网关容灾设备的内部或外部。在特定实施例中,存储器302是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的方法所描述的操作。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现上述实施例中的任意一种数据处理方法。
在一个示例中,电子设备还可包括通信接口303和总线304。其中,如图 3所示,处理器301、存储器302、通信接口303通过总线304连接并完成相互间的通信。。
通信接口303,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线304包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT) 互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express (PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线304可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的数据处理方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据处理方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取待处理数据;
在所述待处理数据中包括目标子数据的情况下,对目标子数据进行解析,得到所述目标子数据的特性规则;
根据所述特性规则,确定所述目标子数据中的目标子数据段;
基于所述特性规则对所述目标子数据段进行脱敏处理,得到脱敏后的目标子数据段;
根据所述脱敏后的目标子数据段,确定对所述待处理数据进行处理后的目标数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述特性规则,确定所述目标子数据中的目标子数据段,具体包括:
基于特性规则,确定所述目标子数据中表示不同物理意义的数据段所在的顺序位置;
根据所述顺序位置将所述目标子数据划分成数据段,得到目标子数据段。
3.根据权利要求1所述的方法,其特征在于,所述目标子数据为数值型数据,所述基于所述特性规则对所述目标子数据段进行脱敏处理,得到脱敏后的目标子数据段,具体包括:
根据所述特性规则,确定所述目标子数据段中每位数值的有效值范围;
针对每位数值,将所述数值替换为对应所述有效值范围内的其它取值,得到脱敏后的目标子数据段。
4.根据权利要求3所述的方法,其特征在于,所述针对每位数值,将所述数值替换为对应所述有效值范围内的其它取值,具体包括:
针对每位数值,通过以下公式将所述数值替换为对应所述有效值范围内的其它取值;
Yi=Yi-1+∑j(x-tj-P)modN;
其中,Yi为第i次替换后所述数值的取值,x为所述数值替换之前的取值,P为随机确定的素数;j为x对应的有效值范围中数值的标识,tj为x对应有效值范围中第j个数值;mod()为取余数函数,N为所述目标子数据段中数值的总位数;i为替换次数,i≥1,且i为整数,当i=1时,Yi-1=0。
5.根据权利要求3所述的方法,其特征在于,所述针对每位数值,将所述数值替换为对应所述有效值范围内的其它取值,得到脱敏后的目标子数据段,包括:
针对每位数值,将所述数值替换为对应所述有效值范围内的其它取值,得到第一脱敏目标子数据段;
根据所述特性规则,确定所述第一脱敏目标子数据段中目标数值的潜在规则,所述潜在规则为所述目标数值依据前一位数值所确定的取值范围,所述目标数值为所述目标子数据段中除最高位数值以外的其它数值;
将所述第一脱敏目标子数据段的最高位数值与对应的所述有效值范围内的取值进行比对,
在所述第一脱敏目标子数据段的最高位数值的取值不在对应的所述有效值范围内的情况下,将所述最高位数值与对应的所述有效值范围中的各数值进行相似度计算,选择相似度最高的数值作为所述最高位数值的取值;
将所述第一脱敏目标子数据段的非最高位数值与其对应的所述有效值范围内的取值和对应的所述潜在规则进行比对,
在所述第一脱敏后的目标子数据段的非最高位数值不在对应的所述有效值范围内或者不符合对应的所述潜在规则的情况下,将非最高位数值与在对应所述有效值范围内并且符合对应所述潜在规则的各数值进行相似度计算,选择相似度结果最高的数值作为非最高位数值的取值;
将最高位数值符合对应所述有效值范围以及非最高位数值符合对应所述有效值范围和对应所述潜在规则的第一脱敏目标子数据段确定为所述脱敏后的目标子数据段。
6.根据权利要求1所述的方法,其特征在于,所述基于所述特性规则对所述目标子数据段进行脱敏处理,得到脱敏后的目标子数据段,包括:
基于所述特性规则对所述目标子数据段进行脱敏处理,得到第一脱敏目标子数据段;
将所述第一脱敏目标子数据段与所述目标子数据段进行比较,
在所述第一脱敏目标子数据段与所述目标子数据段不一致的情况下,将所述第一脱敏目标子数据段确定为所述脱敏后的目标子数据段;
在所述第一脱敏目标子数据段与所述目标子数据段一致的情况下,将所述第一脱敏目标子数据段更新为所述目标子数据段,返回所述基于所述特性规则对所述目标子数据段进行脱敏处理,得到第一脱敏目标子数据段,直至所述第一脱敏目标子数据段与所述目标子数据段不一致。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述脱敏后的目标子数据段,确定对所述待处理数据进行处理后的目标数据之后,还包括:
将所述目标数据发送至显示端;
接收显示端在显示所述目标数据之前所发送的显示所述目标数据的显示信息;
在所述显示信息中的与所述目标子数据段对应的显示数据与所述脱敏后的目标子数据段相同的情况下,向显示端发送确认显示所述目标数据的信息。
8.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取待处理数据;
解析模块,用于在所述待处理数据中包括目标子数据的情况下,对目标子数据进行解析,得到所述目标子数据的特性规则;
第一确定模块,用于根据特性规则,确定所述目标子数据中的目标子数据段;
处理模块,用于基于所述特性规则对所述目标子数据段进行脱敏处理,得到脱敏后的目标子数据段;
第二确定模块,用于根据所述脱敏后的目标子数据段,确定对所述待处理数据进行处理后的目标数据。
9.一种数据处理设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110480849.3A CN115270166A (zh) | 2021-04-30 | 2021-04-30 | 数据处理方法、装置、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110480849.3A CN115270166A (zh) | 2021-04-30 | 2021-04-30 | 数据处理方法、装置、设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115270166A true CN115270166A (zh) | 2022-11-01 |
Family
ID=83745630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110480849.3A Pending CN115270166A (zh) | 2021-04-30 | 2021-04-30 | 数据处理方法、装置、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115270166A (zh) |
-
2021
- 2021-04-30 CN CN202110480849.3A patent/CN115270166A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11468192B2 (en) | Runtime control of automation accuracy using adjustable thresholds | |
JP6814017B2 (ja) | 匿名化のために属性を自動的に識別するコンピュータ実装システムおよび方法 | |
US11200579B2 (en) | Apparatus for authentication and payment based on web, method for authentication and payment based on web, system for authentication and payment based on web and non-transitory computer readable storage medium having computer program recorded thereon | |
AU2014237406B2 (en) | Method and apparatus for substitution scheme for anonymizing personally identifiable information | |
US8311907B2 (en) | System and method for detecting fraudulent transactions | |
CN108009435B (zh) | 数据脱敏方法、装置及存储介质 | |
CN112422574A (zh) | 风险账号的识别方法、装置、介质及电子设备 | |
CN106161095B (zh) | 数据泄露的预警方法及装置 | |
CN106790025B (zh) | 一种对链接进行恶意性检测的方法及装置 | |
CN108090364B (zh) | 一种数据泄漏源的定位方法及系统 | |
US20160112369A1 (en) | System and Method for Validating a Customer Phone Number | |
US20190164201A1 (en) | Trustworthy review system and method for legitimizing a review | |
CN113051601B (zh) | 敏感数据识别方法、装置、设备和介质 | |
CN110381114B (zh) | 接口请求参数的处理方法、装置、终端设备及介质 | |
CN116738369A (zh) | 一种流量数据的分类方法、装置、设备及存储介质 | |
CN115270166A (zh) | 数据处理方法、装置、设备及计算机存储介质 | |
KR102304237B1 (ko) | 인프라 자산 취약점 자동 진단을 통한 컴플라이언스 관리 시스템 및 그 방법 | |
CN114971642A (zh) | 基于知识图谱的异常识别方法、装置、设备及存储介质 | |
CN114417397A (zh) | 行为画像的构建方法、装置、存储介质及计算机设备 | |
CN112000980A (zh) | 数据处理方法及装置 | |
CN117708806B (zh) | 一种安全认证风险检测方法、系统、电子设备及存储介质 | |
US20230237492A1 (en) | Machine learning fraud cluster detection using hard and soft links and recursive clustering | |
US20230300163A1 (en) | Generalized identity module | |
US11797589B2 (en) | Reducing overcollection of unstructured data | |
CN115688184B (zh) | 日志脱敏方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |