CN110232291A - 智能数据脱敏方法、装置、计算机设备和存储介质 - Google Patents

智能数据脱敏方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110232291A
CN110232291A CN201910341143.1A CN201910341143A CN110232291A CN 110232291 A CN110232291 A CN 110232291A CN 201910341143 A CN201910341143 A CN 201910341143A CN 110232291 A CN110232291 A CN 110232291A
Authority
CN
China
Prior art keywords
desensitization
data
mode
executive mode
average amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910341143.1A
Other languages
English (en)
Inventor
刘浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201910341143.1A priority Critical patent/CN110232291A/zh
Publication of CN110232291A publication Critical patent/CN110232291A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6209Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种智能数据脱敏方法、装置、计算机设备和存储介质,方法包括:获取业务方数据库中待脱敏的各张数据表的数据量;根据所述各张数据表的数据量,确定所述业务方数据库的脱敏执行方式;所述脱敏执行方式为动态执行方式或静态执行方式;对所述脱敏执行方式进行修正,并根据修正后的脱敏执行方式对所述业务方数据库进行数据脱敏;其中,根据所述各张数据表的数据量,确定业务方数据库的脱敏执行方式,包括:根据所述各张数据表各自的数据量,确定各张数据表的平均数据量;根据所述平均数据量,确定对应的平均数据量等级;根据所述平均数据量等级,确定所述业务方数据库的脱敏执行方式。本申请能够适应业务方的实际场景需求,减少工作量。

Description

智能数据脱敏方法、装置、计算机设备和存储介质
技术领域
本发明涉及大数据处理技术领域,特别是涉及一种智能数据脱敏方法、装置、计算机设备和存储介质。
背景技术
在大数据同步或供数过程中,数据的安全性和敏感性是必须要解决的问题。
在对相关技术研究过程中,发明人发现:传统方式是手动编写脱敏脚本,然后在数据同步过程中或数据同步之后执行脱敏脚本,以解决数据安全性和敏感性的问题。但是这种方式不能适应各个业务方的实际场景需求,举例来说,有些业务方没有明确的取数时间,当数据同步之后数据发生变化,因此需要重新进行脱敏,但因取数时间不确定导致数据同步后做了数据脱敏而业务方其实不会使用的情况发生;有些业务方有明确的取数时间,但取数时间相隔较长,也会导致做了反复的数据脱敏而业务方其实不会使用的情况;还有些业务方需要实时查看脱敏数据,这种方式不能满足业务方的实时性。可见传统方式不能总是适应各个业务方的实际场景需求。
发明内容
本申请实施例提供一种智能数据脱敏方法、装置、计算机设备和存储介质,能够适应业务方的实际场景需求。
本申请实施例提供一种智能数据脱敏方法,所述方法包括:获取业务方数据库中待脱敏的各张数据表的数据量;根据所述各张数据表的数据量,确定所述业务方数据库的脱敏执行方式;所述脱敏执行方式为动态执行方式或静态执行方式;对所述脱敏执行方式进行修正,并根据修正后的脱敏执行方式对所述业务方数据库进行数据脱敏;其中,所述根据所述各张数据表的数据量,确定所述业务方数据库的脱敏执行方式,包括:根据所述各张数据表各自的数据量,确定各张数据表的平均数据量;根据所述平均数据量,确定对应的平均数据量等级;根据所述平均数据量等级,确定所述业务方数据库的脱敏执行方式。
在一些实施例中,所述根据所述平均数据量,确定所述平均数据量等级,包括:若所述平均数据量在0~300w范围内,则所述平均数据量等级为第一等级;和/或,若所述平均数据量在300~500w范围内,则所述平均数据量等级为第二等级;和/或,若所述平均数据量大于500w,则所述平均数据量等级为第三等级。
在一些实施例中,所述根据所述平均数据量等级,确定所述业务方数据库的脱敏执行方式,包括:若所述平均数据量等级为第一等级,则所述业务方数据库的脱敏执行方式为动态执行方式;和/或,若所述平均数据量等级为第二等级,则所述业务方数据库的脱敏执行方式为静态执行方式,并设置对应的脱敏频次;和/或,若所述平均数据量等级为第三等级,则提供脱敏配置界面,以供用户对所述脱敏执行方式进行配置。
在一些实施例中,所述对所述脱敏执行方式进行修正,包括:按照预设周期对所述脱敏执行方式进行修正;其中,所述按照预设周期对所述脱敏执行方式进行修正,包括:若所述平均数据量等级为第一等级,所述第一等级对应的最大数据量与所述平均数据量之间的差值小于第一预设值,且在所述预设周期内的平均脱敏时长超过第二预设值,则将所述脱敏执行方式由动态执行方式修正为静态执行方式;和/或,若所述脱敏执行方式为静态执行方式,则获取所述预设周期内业务方的取数频次,并判断所述取数频次是否大于所述静态执行方式的脱敏频次,若是,则根据所述取数频次对所述静态执行方式的脱敏频次进行修正。
在一些实施例中,所述对所述脱敏执行方式进行修正,包括:根据所述业务方数据库中待脱敏的各张数据表各自的数据量,确定所述各张数据表各自的数据量等级;和/或,获取所述业务方数据库中待脱敏的各张数据表各自的取数频次;若所述各张数据表各自的数据量等级不同和/或取数频次不同,则分别对所述各张数据表的脱敏执行方式和/或取数频次进行修正。
在一些实施例中,所述根据修正后的脱敏执行方式对所述业务方数据库进行数据脱敏,包括:识别业务方数据库中的待脱敏对象;所述待脱敏对象包括所述业务方数据库中待脱敏的字段名称和/或字段内容;根据预先存储的配置数据集,确定每一待脱敏对象对应的脱敏规则,各个待脱敏对象对应的脱敏规则形成所述业务方数据库的脱敏策略;所述配置数据集包括对多个预设字段名称和/或预设字段内容分别配置的脱敏规则;根据修正后的脱敏执行方式,执行所述脱敏策略,得到对应的脱敏数据。
在一些实施例中,所述根据预先存储的配置数据集,确定每一待脱敏对象对应的脱敏规则,包括:当接收到数据获取请求时,确定对应用户的权限;根据所述权限确定对应的权限等级;根据所述权限等级和修正后的脱敏执行方式,从所述配置数据集中为每一待脱敏对象查找对应的脱敏规则;
其中,所述配置数据集包括不同脱敏执行方式下的不同预设权限等级下对多个预设字段名称和/或预设字段内容分别配置的脱敏规则;静态执行方式下不同预设权限等级下对多个预设字段名称和/或预设字段内容配置的脱敏规则中的脱敏方式为第一脱敏方式;动态执行方式下不同预设权限等级下对多个预设字段名称和/或预设字段内容配置的脱敏规则中的脱敏方式为第二脱敏方式;越高的预设权限等级下对相同的预设字段名称和/或预设字段内容配置的脱敏规则的脱敏程度越低;所述第一脱敏方式为掩码脱敏方式或混淆脱敏方式,所述第二脱敏方式为加密脱敏方式。
本申请实施例还提供一种智能数据脱敏装置,所述装置包括:数据量获取模块,用于获取业务方数据库中待脱敏的各张数据表的数据量;方式确定模块,用于根据所述各张数据表的数据量,确定所述业务方数据库的脱敏执行方式;所述脱敏执行方式为动态执行方式或静态执行方式;数据脱敏模块,用于对所述脱敏执行方式进行修正,并根据修正后的脱敏执行方式对所述业务方数据库进行数据脱敏;其中,所述方式确定模块具体用于:根据所述各张数据表各自的数据量,确定各张数据表的平均数据量;根据所述平均数据量,确定对应的平均数据量等级;根据所述平均数据量等级,确定所述业务方数据库的脱敏执行方式。
本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述智能数据脱敏方法的步骤。
本申请实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述智能数据脱敏方法的步骤。
本申请实施例提供的智能数据脱敏方法、装置、计算机设备和存储介质,首先获取各张数据表的数据量,然后根据数据量确定脱敏执行方式,进而根据业务方数据库的具体情况对脱敏执行方式进行一定的修正,最后根据修正的脱敏执行方式进行脱敏处理。本申请实施例提供的脱敏方式,对于脱敏执行方式并不是预先设置的,而是根据业务方数据的具体情况设置的,因此无论针对取数时间确定的情况还是取数时间不确定的情况都是比较适合业务方的具体应用场景。而且,即便根据各张数据表的数据量设置了脱敏执行方式,还会根据业务方数据库的具体情况对脱敏执行方法进行修正,使脱敏执行方式更加符合业务方的具体应用场景。而且,本申请实施例不需要每次都手动编写脚本,可以大大减少工作量。
附图说明
图1为一个实施例中计算机设备的内部结构框图;
图2为一个实施例中智能数据脱敏方法的流程图;
图3是一个实施例中根据各张数据表的数据量确定脱敏执行方式的流程示意图;
图4是一个实施例中根据修正后的脱敏执行方式对所述业务方数据库进行数据脱敏的流程示意图;
图5为一个实施例中智能数据脱敏装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。
图1为本申请一个实施例中计算机设备的结构示意图。如图1所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种智能数据脱敏方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种智能数据脱敏方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本申请实施例提供一种智能数据脱敏方法,该方法可以应用于图1所示出的计算机设备中,如图2所示,该方法包括:
S21、获取业务方数据库中待脱敏的各张数据表的数据量;
S22、根据所述各张数据表的数据量,确定所述业务方数据库的脱敏执行方式;所述脱敏执行方式为动态执行方式或静态执行方式;
可理解的是,所谓的静态执行方式适合数据表的数据量比较大的情况,业务方取数频次固定且与数据同步频次相匹配,保证脱敏后的数据能及时的被使用,不至于浪费机器资源。且虽然取数的数据量比较大,但由于已经预先进行了脱敏操作,因此脱敏操作不会占用业务方的取数时间,使得取数过程会比较快,保证业务方取数的性能。
举例来说,某商城的用户数据超过千万,用户数据每天都需要进行同步更新,因此需要每天在同步了数据之后做数据脱敏,以供业务方取数。这种情况比较适合静态执行方式,每天都需要做脱敏后给其他系统,数据量又比较大,我们配置静态脱敏后,每天定时自动提前脱敏,脱敏后的数据由其他业务方获取即可。
可理解的是,所谓的动态执行方式,其本质即为只有业务方取数的时候才进行脱敏,该方式适合数据表量级比较小,业务方取数频次低,取数性能要求不高等场景。能极大的节省脱敏服务器负载及机器存储资源。
举例来说,某商城的订单数据,只需要每月做一次数据报表,每月的数据量也不是特别大,这种情况没必要做静态脱敏配置,只需要在每月使用数据时,即时的动态脱敏后提供出来就可以了。
其中,如图3所示,根据各张数据表的数据量确定脱敏执行方式的具体过程,包括:
S221、根据所述各张数据表各自的数据量,确定各张数据表的平均数据量;
可理解的是,将各张数据表的数据量求和,再求平均值,即可得到上述平均数据量。
S222、根据所述平均数据量,确定对应的平均数据量等级;
举例来说,将等级分为三种:第一等级、第二等级、第三等级,具体分级方式可以包括:若所述平均数据量在0~300w范围内,则所述平均数据量等级为第一等级;和/或,若所述平均数据量在300~500w范围内,则所述平均数据量等级为第二等级;和/或,若所述平均数据量大于500w,则所述平均数据量等级为第三等级。
当然,也可以对上述等级进行细分,例如,将上述第一等级细分为两个子等级:第一子等级、第二子等级;其中第一子等级对应的平均数据量在0~100w范围内,第二子等级对应的平均数据量在100w~300w范围内。再例如,将上述第三等级细分为两个子等级:第三子等级和第四子等级,其中第三子等级对应的平均数据量在500w~1000w范围内,第四子等级对应的平均数据量大于1000w。这样,将等级一共分成了五个等级。
S223、根据所述平均数据量等级,确定所述业务方数据库的脱敏执行方式。
这里,根据平均数据量等级确定脱敏执行方式的具体过程有多种,下面介绍其中一种:若所述平均数据量等级为第一等级,则所述业务方数据库的脱敏执行方式为动态执行方式;和/或,若所述平均数据量等级为第二等级,则所述业务方数据库的脱敏执行方式为静态执行方式,并设置对应的脱敏频次;和/或,若所述平均数据量等级为第三等级,则提供脱敏配置界面,以供用户对所述脱敏执行方式进行配置。
可理解的是,若平均数据量等级为第一等级,说明其数据量比较小,可以将其脱敏执行方式设置为动态执行方式,在取数时即时脱敏。若平均数据量等级为第二等级,说明其数据量比较大,可以将其脱敏执行方式设置为静态执行方式,并设置对应的脱敏频次,例如,将其脱敏频次按照同步频次设置为一天一次。若平均数据量等级为第三级,说明其数据量更大,这时提供一个脱敏配置界面,用户可以在界面中对脱敏执行方式进行具体设置,例如,将脱敏执行方式设置为静态执行方式,但是由于数据量很大,因此设置在系统空闲时进行脱敏。再例如,将脱敏执行方式设置为静态执行方式,但是由于数据量很大,因此设置为分块脱敏,例如,在一个时间段对其中某几个数据表进行脱敏,在另一个时间段对另一些数据表进行脱敏处理等。可见,在界面中可以将静态执行方式的具体脱敏过程进行进一步的限定,以提高脱敏效率。
S23、对所述脱敏执行方式进行修正,并根据修正后的脱敏执行方式对所述业务方数据库进行数据脱敏。
可理解的是,由于一个业务方可能有很多不同的表,但是上述步骤S221~S223是根据平均数据量对整个业务方数据库采用同一种脱敏执行方式和/或脱敏频次,也就是说,对同一业务方的所有表采用统一的脱敏设置。由于可能存在不同的数据表之间的数据量和/或取数频次差别较大的情况,因此可以对脱敏执行方式进行一定的修正。
下面提供一种可选的修正过程:
根据所述业务方数据库中待脱敏的各张数据表各自的数据量,确定所述各张数据表各自的数据量等级;和/或,获取所述业务方数据库中待脱敏的各张数据表各自的取数频次;若所述各张数据表各自的数据量等级不同和/或取数频次不同,则分别对各张数据表的脱敏执行方式和/或取数频次进行修正。
举例来说,业务方数据库有三张表,第一张表和第二张表的数据量比较大,对应的数据量等级均为第二等级,采用静态执行方式;第三张表的数据量比较小,对应的数据量等级为第三等级,可以修正为动态执行方式。但是如果不修正,根据平均数据量等级确定的脱敏执行方式对于这三张表来说均为静态执行方式,那对于第三张表来说不太合适。进一步的,第一张表的取数频次为一天一次,而第二张表的取数频次为三天一次,这样将第一张表的脱敏频次修正为一天一次,第二张表的脱敏频次修正为三天一次。但是如果不修正,根据平均数据量等级确定的脱敏执行方式为静态执行方式且根据以往经验设置脱敏频次为两天一次,这样脱敏频次对于第一张表和第二张表来说都是不合适的。
可见,通过修正使得具体的脱敏执行方式更加适合业务方数据表的具体情况。
当然,除了采用上述修正方法外,还可以按照预设周期对所述脱敏执行方式进行修正;其中,所述按照预设周期对所述脱敏执行方式进行修正的具体过程可以包括:若所述平均数据量等级为第一等级,所述第一等级对应的最大数据量与所述平均数据量之间的差值小于第一预设值,且在所述预设周期内的平均脱敏时长超过第二预设值,则将所述脱敏执行方式由动态执行方式修正为静态执行方式;和/或,若所述脱敏执行方式为静态执行方式,则获取所述预设周期内业务方的取数频次,并判断所述取数频次是否大于所述静态执行方式的脱敏频次,若是,则根据所述取数频次对所述静态执行方式的脱敏频次进行修正。
可理解的是,若所述平均数据量等级为第一等级,所述第一等级对应的最大数据量(即300w)与所述平均数据量之间的差值小于第一预设值,且在所述预设周期内的平均脱敏时长超过第二预设值。也就是说,当前业务方数据库为第一等级,但是各个数据表的平均数据量比较接近第二等级,数据量比较大,而且多次脱敏处理的平均时长比较长,这说明此时采用的动态执行方式不太合适,因此修改为静态执行方式。
可理解的是,若所述平均数据量等级为第二等级或第三等级,此时采用的是静态执行方式,但是刚开始设置的脱敏频次为一天一次,但是发现在预设周期内业务方的取数频次一般三天一次,因此可以根据实际的取数频次对设置的脱敏频次进行修正,例如,将其修正为三天一次。
可理解的是,计算机会记录每次脱敏的时间,业务方真实的取数纪录,根据这些记录可以进行脱敏方式和/或脱敏频次的修正。
可理解的是,上述预设周期,例如,一个星期。
针对上文中出现的几个频次进行如下介绍:
同步频次:指的是系统对数据进行同步的频次;
脱敏频次:指的是系统对数据进行脱敏的频次,现有技术中是只要系统进行了数据的同步,就要进行脱敏,也即同步频次和脱敏频次保持一致。例如,现有技术中系统每天同步数据一次,那么按现有的方式同步后就要进行一次脱敏。但假设业务方三天才取一次数据,那么前两天进行的脱敏相当于是无用的脱敏,浪费了系统资源。
取数频次:指业务方获取脱敏后的数据的频次。
在实际应用中,参见图4,根据修正后的脱敏执行方式对所述业务方数据库进行数据脱敏的过程可以包括:
S231、识别业务方数据库中的待脱敏对象;所述待脱敏对象包括所述业务方数据库中待脱敏的字段名称和/或字段内容;
可理解的是,由于待脱敏对象中包括字段名称和/或字段内容,因此本方法可以仅对字段名称脱敏,也可以仅对字段内容脱敏,还可以同时对字段名称和字段内容进行脱敏。
例如,下表1中的身份证、手机号为字段名称,2034xxxx、2024xxxx、13488.xxx、13433xxx为字段内容。下表2中的姓名、手机号、地址均为字段名称,张三、13112221411、朝阳区大望路花园小区112号、李四、131122333311、朝阳区大望路花园小区333号均为字段内容。
表1业务方数据库中的业务表1
ID 身份证 手机号
1 2034xxxx 13488.xxx
2 2024xxxx 13433xxx
表2业务方数据库中的业务表2
ID 姓名 手机号 地址
1 张三 13112221411 朝阳区大望路花园小区112号
2 李四 131122333311 朝阳区大望路花园小区333号
在实际应用中,待脱敏的字段名称和待脱敏的字段内容的识别方式是不同的,下面分别介绍一种可选的识别方式:
(1)待脱敏的字段名称:
采用多个预先采集的字段名称识别所述业务方数据库中待脱敏的字段名称。其中,上述多个预先采集的字段名称可以是系统采集的比较常见的脱敏字段名称,例如,姓名、身份证、地址、手机号等,以便于在该步骤中对业务方数据库中待脱敏的字段名称进行识别。
(2)待脱敏的字段内容
采用预先设置的多个正则表达式识别所述业务方数据库中待脱敏的字段内容;所述多个正则表达式为根据多个预设字段名称及所述多个预设字段名称各自的字段值而确定,用于识别所述多个预设字段名称各自对应的字段内容。
可理解的是,正则表达式是对字符串(其包括普通字符和特殊字符)操作的一种逻辑公式,就是用事先定义好的一些特定字符以及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。
可知,上述正则表达式的预先设置过程包括如下步骤:
A1、采集多个预设字段名称及所述多个预设字段名称各自的字段值;
可理解的是,上述多个预先采集的字段名称可以是系统采集的比较常见的脱敏字段名称,例如,姓名、身份证、地址、手机号等。字段值,例如,身份证号的长度、手机号的长度、姓名的格式、地址的格式等。
A2、根据每一预设字段名称及其字段值,确定用于识别该预设字段名称对应的字段内容的正则表达式。
例如,用于识别身份证的内容的正则表达式为:
^[1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$)|(^[1-9]\d{5}\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{2}$
再例如,用于识别手机号的内容的正则表达式为:
^(13[0-9]|14[579]|15[0-3,5-9]|16[6]|17[0135678]|18[0-9]|19[89])\\d{8}$。
再例如,用于识别用户名的内容的正则表达式为:
/^[a-z0-9_-]{3,16}$/
再例如,用于识别电子邮箱的内容的正则表达式为:
/^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$//^[a-z\d]+(\.[a-z\d]+)*@([\da-z](-[\da-z])?)+(\.{1,2}[a-z]+)+$/
再例如,用于识别密码的内容的正则表达式为:
/^[a-z0-9_-]{6,18}$/
当然,正则表达式还有很多,这里不再一一例举。
S232、根据预先存储的配置数据集,确定每一待脱敏对象对应的脱敏规则,各个待脱敏对象对应的脱敏规则形成所述业务方数据库的脱敏策略;所述配置数据集包括对多个预设字段名称和/或预设字段内容分别配置的脱敏规则;
可理解的是,所述配置数据集是预先构建的,其中的脱敏规则是预先定制的,具体可以基于Hive编写的UDF(即userdefined functions,用户自定义函数)进行脱敏规则定制。Hive为基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。
下面介绍几种脱敏方式:
(1)掩码脱敏:使用*、$或%等特殊字符,将待脱敏对象中的内容进行替换。例如,针对1234567,使用掩码脱敏的方式对前三位进行脱敏得到***4567。
(2)加密脱敏:对待脱敏对象中的内容进行全部加密或部分加密。例如,针对1234567,使用MD5加密前四位得到LDKJOEWIUR12LDSIOWER567。
(3)混淆脱敏:对待脱敏对象中的内容使用一定规则进行混淆。例如,针对1234567,向后移动两位得到6712345。
以上仅介绍了三种脱敏方式,实际上还有很多其他的脱敏方式,这里不再一一介绍。上述三种脱敏方式只是基础脱敏方式,没有明确限定具体内容。例如,掩码脱敏是使用*、$或%等特殊字符,将待脱敏对象中的内容进行替换。但在实际使用过程中,具体使用哪个特殊字符去替换待脱敏对象中哪些位置的内容呢,因此这里在基础脱敏方式的基础上制定脱敏规则,脱敏规则为采用预定脱敏方式对待脱敏对象的预定位进行脱敏。
举例来说,脱敏规则A:使用掩码脱敏方式,利用*脱敏中间五位;脱敏规则B:使用掩码脱敏方式,利用*脱敏中间四位。可见,在制定的脱敏规则中明确限定具体内容。而且,基于一种脱敏方式可以制定出多个脱敏规则。进一步的,由于上述脱敏规则A要脱敏中间五位,而脱敏规则B要脱敏中间四位,因此脱敏规则A的脱敏程度要高于脱敏规则B的脱敏程度。
可理解的是,上述脱敏规则并没有针对具体的待脱敏对象,也就是说,上述脱敏规则还没有与业务方数据库结合,仅仅是在系统中声明几种脱敏规则。
这里,可以通过UDF(即自定义函数)制定脱敏规则,这样脱敏规则的制定比较灵活,可以根据业务方的需要进行规则定制。
上述配置数据集中的多个预设字段名称可以是系统采集的常见字段名称,例如,姓名、身份证、地址、手机号等,然后针对这些常见的字段名称和/或对应的字段内容配置相应的脱敏规则。
(1)对字段内容配置脱敏规则
例如,字段内容为手机号:使用掩码脱敏方式,在检测到数字字符后利用*脱敏第4-7位。再例如,字段内容为地址:使用掩码脱敏方式,利用*脱敏地址信息中除“市、区、路、号”等以外的数据。
(2)对字段名称配置脱敏规则
例如,对字段名称手机号,使用掩码脱敏方式,利用*脱敏前两个字符,得到**号。
这里,对多个常见的字段名称和/或其字段内容配置脱敏规则,进而得到配置数据集,最后将得到的配置数据集存储在系统中,以便在步骤S22中使用。可知配置数据集的预先设置过程大致可以包括:
B1、制定多个脱敏规则;
B2、分别针对多个预设字段名称和/或字段内容,配置对应的脱敏规则。
对多个预设字段名称和/或字段内容进行脱敏规则配置的具体实现过程可以为:提供一个脱敏规则配置界面,在该界面中用户手动对多个字段名称和/或字段内容配置对应的脱敏规则。当然,系统也可以根据以往配置经验对多个字段名称和/或字段内容配置对应的脱敏规则。
可理解的是,这里的配置数据集仍没有与具体的业务方数据库结合。
由于在步骤S231中识别出了业务方数据库的待脱敏对象,若识别出的待脱敏对象为手机号的字段内容,则在配置数据集中查找手机号的字段内容对应的脱敏规则,然后将查找到的脱敏规则作为步骤S231中识别出的手机号的字段内容的脱敏规则。
可理解的是,业务方数据库的脱敏策略,是业务方数据库中各个待脱敏对象对应的脱敏规则的集合。例如,业务方数据库中有三个业务表,识别出第一个业务表中有身份证的字段内容,第二个业务表中有手机号的字段内容,第三个业务表中有地址的字段内容,其中,在配置数据集中身份证的字段内容对应脱敏规则C1,手机号的字段内容对应脱敏规则C2,地址的字段内容对应脱敏规则C3,因此上述脱敏规则C1、C2和C3形成业务方数据库的脱敏策略。
在传统技术中,是需要业务人员手动编写代码的,例如,业务人员知道第一个业务表中有身份证的字段内容,第二个业务表中有手机号的字段内容,在第三个业务表中有地址的字段内容,因此针对这三个业务表分别敲代码,对第一个业务表中身份证的字段内容,用掩码脱敏的方式,用*脱敏中间四位,对于第二个业务表中手机号的字段内容,用混淆脱敏的方式,混淆中间四位,第三个业务表中地址的字段内容,用加密脱敏的方式,对门牌号的具体内容进行脱敏。整个过程都需要人参与,而且工作量较大,而本申请实施例预先设置好配置数据集后可以大大减少工作量。
可理解的是,这里的脱敏策略已经与业务方数据库相结合。
S233、根据修正后的脱敏执行方式,执行所述脱敏策略,得到对应的脱敏数据。
可理解的是,当得到脱敏数据后,可以将脱敏数据显示在显示屏上以供用户查看。
在一些实施例中,脱敏方法还可以包括:当接收到数据获取请求时确定对应用户的权限,并根据所述权限确定对应的权限等级;对应的,所述配置数据集包括不同预设权限等级下对多个预设字段名称和/或预设字段内容分别配置的脱敏规则,所述根据预先存储的配置数据集,确定每一待脱敏对象对应的脱敏规则,包括:根据所述权限等级和所述配置数据集,确定每一待脱敏对象对应的脱敏规则。
可理解的是,不同的用户,其权限不同,有的用户权限大,有的用户权限比较小,这里针对不同的用户设置不同的权限等级,例如,权限越大,权限等级越高。
在实际应用中,确定用户权限的方式有多种,例如,当接收到所述数据获取请求时,从所述数据获取请求中获取权限标识码,并根据所述权限标识码确定所述权限。这种方式中,权限标识码携带于数据获取请求中,可以通过对数据获取请求进行解析,进而获取其中的权限标识码,进而确定用户的权限。再例如,当接收到所述数据获取请求时,根据对应用户的登陆信息确定所述权限。这种方式适用于数据获取请求中不携带有权限标识码的情况,其中登陆信息可以包括用户ID,进而依据用户ID在系统中搜索或检测其权限即可。
在实际应用中,要想针对不同权限的用户提供不同的脱敏策略,需要对预先存储的配置数据集进行设置。在所述配置数据集中,不同预设权限等级下对相同的预设字段名称和/或预设字段内容配置的脱敏规则的脱敏程度不同,且在所述配置数据集中,越高的预设权限等级下对相同的预设字段名称和/或预设字段内容配置的脱敏规则的脱敏程度越低,此时越高的预设权限等级对应的所述权限越大。例如,权限等级低的用户只能看见手机号的后四位,而权限等级高的用户可以看见手机号的前三位和后四位。
其中,为实现不同预设权限等级下对相同的预设字段名称和/或预设字段内容配置的脱敏规则的脱敏程度不同,不同预设权限等级下对相同的预设字段名称和/或预设字段内容配置的脱敏规则的脱敏方式可以相同,也可以不同。当脱敏方式相同时,越高的预设权限等级下对相同的预设字段名称和/或预设字段内容配置的脱敏规则的脱敏方式的脱敏程度越低。例如,较低的权限等级下对手机号的字段内容配置的脱敏规则的脱敏方式为掩码脱敏,具体为采用*脱敏手机号的字段内容的前7位,这样权限等级较低的用户可以看到手机号的后四位;较高的权限等级下对手机号的字段内容配置的脱敏规则的脱敏方式为掩码脱敏,具体为采用*脱敏手机号的字段内容的第4~7位,这样权限等级高的用户可以看见手机号的前三位和后四位。当脱敏方式不同时,例如,较低的权限等级下对手机号的字段内容配置的脱敏规则的脱敏方式为掩码脱敏,具体为采用*脱敏手机号的字段内容的前7位,这样权限等级较低的用户可以看到手机号的后四位;较高的权限等级下对手机号的字段内容配置的脱敏规则的脱敏方式为加密脱敏,具体为MD5加密第4~7位,这样权限等级高的用户可以看见手机号的前三位和后四位。
通过对不同权限等级下多个预设字段名称和/或预设字段内容分别配置脱敏规则,可以对不同权限的用户提供不同脱敏程度的数据。例如,针对不同权限的用户,同一份原始数据,可映射出多份脱敏数据。例如,用户a看手机号能看到前三位和后四位,用户b看手机号只能看到前三位。通过这种配置,使得业务方在取数时,可以根据不同权限的用户获取不同的数据脱敏数据。
在上文中,根据权限等级,在配置数据集中为每一个待脱敏对象查找对应的脱敏规则,当然,查找脱敏规则的依据可以不仅仅有权限等级,还可以包括修正后的脱敏执行方式,也就是说,根据所述权限等级和所述脱敏执行方式,在所述配置数据集中查找每一待脱敏对象对应的脱敏规则。这样的话,配置数据集中包括不同脱敏执行方式下的不同预设权限等级下对多个预设字段名称和/或预设字段内容分别配置的脱敏规则。
进一步的,可以对每一种脱敏执行方式下的脱敏方式进一步限定,例如,所述静态执行方式下不同预设权限等级下对多个预设字段名称和/或预设字段内容配置的脱敏规则中的脱敏方式为第一脱敏方式;所述动态执行方式下不同预设权限等级下对多个预设字段名称和/或预设字段内容配置的脱敏规则中的脱敏方式为第二脱敏方式。也就是说,不同脱敏执行方式对应不同的脱敏方式。不论何种脱敏执行方式,越高的预设权限等级下对相同的预设字段名称和/或预设字段内容配置的脱敏规则的脱敏程度越低。其中,脱敏规则为采用预定脱敏方式对待脱敏对象的预定位进行脱敏;所述预定位的数量越少,所述脱敏规则的脱敏程度越低;所述静态执行方式下的脱敏规则中的所述预定脱敏方式为所述第一脱敏方式,所述动态执行方式下的脱敏规则中的所述预定脱敏方式为所述第二脱敏方式;所述第一脱敏方式为掩码脱敏方式或混淆脱敏方式,所述第二脱敏方式为加密脱敏方式。
由于加密脱敏方式会增加对象的字符数,会增加脱敏数据的复杂性。
本申请实施例提供的脱敏方法,首先获取各张数据表的数据量,然后根据数据量确定脱敏执行方式,进而根据业务方数据库的具体情况对脱敏执行方式进行一定的修正,最后根据修正的脱敏执行方式进行脱敏处理。本申请实施例提供的脱敏方式,对于脱敏执行方式并不是预先设置的,而是根据业务方数据的具体情况设置的,因此无论针对取数时间确定的情况还是取数时间不确定的情况都是比较适合业务方的具体应用场景。而且,即便根据各张数据表的数据量设置了脱敏执行方式,还会根据业务方数据库的具体情况对脱敏执行方法进行修正,使脱敏执行方式更加符合业务方的具体应用场景。而且,本申请实施例不需要每次都手动编写脚本,可以大大减少工作量。
如图5所示,在一个实施例中,提供了一种智能数据脱敏装置50,该结构同步装置50可以集成于上述的计算机设备中,具体可以包括:
数据量获取模块51,用于获取业务方数据库中待脱敏的各张数据表的数据量;
方式确定模块52,用于根据所述各张数据表的数据量,确定所述业务方数据库的脱敏执行方式;所述脱敏执行方式为动态执行方式或静态执行方式;
数据脱敏模块53,用于对所述脱敏执行方式进行修正,并根据修正后的脱敏执行方式对所述业务方数据库进行数据脱敏;
其中,所述方式确定模块52具体用于:根据所述各张数据表各自的数据量,确定各张数据表的平均数据量;根据所述平均数据量,确定对应的平均数据量等级;根据所述平均数据量等级,确定所述业务方数据库的脱敏执行方式。
在一些实施例中,所述等级确定单元具体用于:若所述平均数据量在0~300w范围内,则所述平均数据量等级为第一等级;和/或,若所述平均数据量在300~500w范围内,则所述平均数据量等级为第二等级;和/或,若所述平均数据量大于500w,则所述平均数据量等级为第三等级。
在一些实施例中,所述方式确定单元具体用于:若所述平均数据量等级为第一等级,则所述业务方数据库的脱敏执行方式为动态执行方式;和/或,若所述平均数据量等级为第二等级,则所述业务方数据库的脱敏执行方式为静态执行方式,并设置对应的脱敏频次;和/或,若所述平均数据量等级为第三等级,则提供脱敏配置界面,以供用户对所述脱敏执行方式进行配置。
在一些实施例中,所述数据脱敏模块具体用于:按照预设周期对所述脱敏执行方式进行修正;其中,所述按照预设周期对所述脱敏执行方式进行修正,包括:若所述平均数据量等级为第一等级,所述第一等级对应的最大数据量与所述平均数据量之间的差值小于第一预设值,且在所述预设周期内的平均脱敏时长超过第二预设值,则将所述脱敏执行方式由动态执行方式修正为静态执行方式;和/或,若所述脱敏执行方式为静态执行方式,则获取所述预设周期内业务方的取数频次,并判断所述取数频次是否大于所述静态执行方式的脱敏频次,若是,则根据所述取数频次对所述静态执行方式的脱敏频次进行修正。
在一些实施例中,所述数据脱敏模块具体用于:根据所述业务方数据库中待脱敏的各张数据表各自的数据量,确定所述各张数据表各自的数据量等级;和/或,获取所述业务方数据库中待脱敏的各张数据表各自的取数频次;若所述各张数据表的数据量等级不同和/或取数频次不同,则分别对所述各张数据表的脱敏执行方式和/或取数频次进行修正。
在一些实施例中,所述数据脱敏模块具体用于:识别业务方数据库中的待脱敏对象;所述待脱敏对象包括所述业务方数据库中待脱敏的字段名称和/或字段内容;根据预先存储的配置数据集,确定每一待脱敏对象对应的脱敏规则,各个待脱敏对象对应的脱敏规则形成所述业务方数据库的脱敏策略;所述配置数据集包括对多个预设字段名称和/或预设字段内容分别配置的脱敏规则;根据修正后的脱敏执行方式,执行所述脱敏策略,得到对应的脱敏数据。
在一些实施例中,所述根据预先存储的配置数据集,确定每一待脱敏对象对应的脱敏规则,包括:当接收到数据获取请求时,确定对应用户的权限;根据所述权限确定对应的权限等级;根据所述权限等级和修正后的脱敏执行方式,从所述配置数据集中为每一待脱敏对象查找对应的脱敏规则;
其中,所述配置数据集包括不同脱敏执行方式下的不同预设权限等级下对多个预设字段名称和/或预设字段内容分别配置的脱敏规则;静态执行方式下不同预设权限等级下对多个预设字段名称和/或预设字段内容配置的脱敏规则中的脱敏方式为第一脱敏方式;动态执行方式下不同预设权限等级下对多个预设字段名称和/或预设字段内容配置的脱敏规则中的脱敏方式为第二脱敏方式;越高的预设权限等级下对相同的预设字段名称和/或预设字段内容配置的脱敏规则的脱敏程度越低;所述第一脱敏方式为掩码脱敏方式或混淆脱敏方式,所述第二脱敏方式为加密脱敏方式。
本申请提供的智能数据脱敏装置,首先数据量获取模块获取各张数据表的数据量,然后方式确定模块根据数据量确定脱敏执行方式,进而数据脱敏模块根据业务方数据库的具体情况对脱敏执行方式进行一定的修正,最后根据修正的脱敏执行方式进行脱敏处理。本申请实施例提供的脱敏方式,对于脱敏执行方式并不是预先设置的,而是根据业务方数据的具体情况设置的,因此无论针对取数时间确定的情况还是取数时间不确定的情况都是比较适合业务方的具体应用场景。而且,即便根据各张数据表的数据量设置了脱敏执行方式,还会根据业务方数据库的具体情况对脱敏执行方法进行修正,使脱敏执行方式更加符合业务方的具体应用场景。而且,本申请实施例不需要每次都手动编写脚本,可以大大减少工作量。
在一些实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取业务方数据库中待脱敏的各张数据表的数据量;根据所述各张数据表的数据量,确定所述业务方数据库的脱敏执行方式;所述脱敏执行方式为动态执行方式或静态执行方式;对所述脱敏执行方式进行修正,并根据修正后的脱敏执行方式对所述业务方数据库进行数据脱敏;其中,所述根据所述各张数据表的数据量,确定所述业务方数据库的脱敏执行方式,包括:根据所述各张数据表各自的数据量,确定各张数据表的平均数据量;根据所述平均数据量,确定对应的平均数据量等级;根据所述平均数据量等级,确定所述业务方数据库的脱敏执行方式。
在一些实施例中,所述处理器执行的所述根据所述平均数据量,确定所述平均数据量等级,包括:若所述平均数据量在0~300w范围内,则所述平均数据量等级为第一等级;和/或,若所述平均数据量在300~500w范围内,则所述平均数据量等级为第二等级;和/或,若所述平均数据量大于500w,则所述平均数据量等级为第三等级。
在一些实施例中,所述处理器执行的所述根据所述平均数据量等级,确定所述业务方数据库的脱敏执行方式,包括:若所述平均数据量等级为第一等级,则所述业务方数据库的脱敏执行方式为动态执行方式;和/或,若所述平均数据量等级为第二等级,则所述业务方数据库的脱敏执行方式为静态执行方式,并设置对应的脱敏频次;和/或,若所述平均数据量等级为第三等级,则提供脱敏配置界面,以供用户对所述脱敏执行方式进行配置。
在一些实施例中,所述处理器执行的所述对所述脱敏执行方式进行修正,包括:按照预设周期对所述脱敏执行方式进行修正;其中,所述按照预设周期对所述脱敏执行方式进行修正,包括:若所述平均数据量等级为第一等级,所述第一等级对应的最大数据量与所述平均数据量之间的差值小于第一预设值,且在所述预设周期内的平均脱敏时长超过第二预设值,则将所述脱敏执行方式由动态执行方式修正为静态执行方式;和/或,若所述脱敏执行方式为静态执行方式,则获取所述预设周期内业务方的取数频次,并判断所述取数频次是否大于所述静态执行方式的脱敏频次,若是,则根据所述取数频次对所述静态执行方式的脱敏频次进行修正。
在一些实施例中,所述处理器执行的所述对所述脱敏执行方式进行修正,包括:根据所述业务方数据库中待脱敏的各张数据表各自的数据量,确定所述各张数据表各自的数据量等级;和/或,获取所述业务方数据库中待脱敏的各张数据表各自的取数频次;若所述各张数据表的数据量等级不同和/或取数频次不同,则分别对所述各张数据表的脱敏执行方式和/或取数频次进行修正。
在一些实施例中,所述处理器执行的所述根据修正后的脱敏执行方式对所述业务方数据库进行数据脱敏,包括:识别业务方数据库中的待脱敏对象;所述待脱敏对象包括所述业务方数据库中待脱敏的字段名称和/或字段内容;根据预先存储的配置数据集,确定每一待脱敏对象对应的脱敏规则,各个待脱敏对象对应的脱敏规则形成所述业务方数据库的脱敏策略;所述配置数据集包括对多个预设字段名称和/或预设字段内容分别配置的脱敏规则;根据修正后的脱敏执行方式,执行所述脱敏策略,得到对应的脱敏数据。
在一些实施例中,所述根据预先存储的配置数据集,确定每一待脱敏对象对应的脱敏规则,包括:当接收到数据获取请求时,确定对应用户的权限;根据所述权限确定对应的权限等级;根据所述权限等级和修正后的脱敏执行方式,从所述配置数据集中为每一待脱敏对象查找对应的脱敏规则;
其中,所述配置数据集包括不同脱敏执行方式下的不同预设权限等级下对多个预设字段名称和/或预设字段内容分别配置的脱敏规则;静态执行方式下不同预设权限等级下对多个预设字段名称和/或预设字段内容配置的脱敏规则中的脱敏方式为第一脱敏方式;动态执行方式下不同预设权限等级下对多个预设字段名称和/或预设字段内容配置的脱敏规则中的脱敏方式为第二脱敏方式;越高的预设权限等级下对相同的预设字段名称和/或预设字段内容配置的脱敏规则的脱敏程度越低;所述第一脱敏方式为掩码脱敏方式或混淆脱敏方式,所述第二脱敏方式为加密脱敏方式。
本申请提供的计算机设备的有益效果与上述智能数据脱敏方法和装置相同,这里不再赘述。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:获取业务方数据库中待脱敏的各张数据表的数据量;根据所述各张数据表的数据量,确定所述业务方数据库的脱敏执行方式;所述脱敏执行方式为动态执行方式或静态执行方式;对所述脱敏执行方式进行修正,并根据修正后的脱敏执行方式对所述业务方数据库进行数据脱敏;其中,所述根据所述各张数据表的数据量,确定所述业务方数据库的脱敏执行方式,包括:根据所述各张数据表各自的数据量,确定各张数据表的平均数据量;根据所述平均数据量,确定对应的平均数据量等级;根据所述平均数据量等级,确定所述业务方数据库的脱敏执行方式。
在一些实施例中,所述一个或多个处理器执行的所述根据所述平均数据量,确定所述平均数据量等级,包括:若所述平均数据量在0~300w范围内,则所述平均数据量等级为第一等级;和/或,若所述平均数据量在300~500w范围内,则所述平均数据量等级为第二等级;和/或,若所述平均数据量大于500w,则所述平均数据量等级为第三等级。
在一些实施例中,所述一个或多个处理器执行的所述根据所述平均数据量等级,确定所述业务方数据库的脱敏执行方式,包括:若所述平均数据量等级为第一等级,则所述业务方数据库的脱敏执行方式为动态执行方式;和/或,若所述平均数据量等级为第二等级,则所述业务方数据库的脱敏执行方式为静态执行方式,并设置对应的脱敏频次;和/或,若所述平均数据量等级为第三等级,则提供脱敏配置界面,以供用户对所述脱敏执行方式进行配置。
在一些实施例中,所述一个或多个处理器执行的所述对所述脱敏执行方式进行修正,包括:按照预设周期对所述脱敏执行方式进行修正;其中,所述按照预设周期对所述脱敏执行方式进行修正,包括:若所述平均数据量等级为第一等级,所述第一等级对应的最大数据量与所述平均数据量之间的差值小于第一预设值,且在所述预设周期内的平均脱敏时长超过第二预设值,则将所述脱敏执行方式由动态执行方式修正为静态执行方式;和/或,若所述脱敏执行方式为静态执行方式,则获取所述预设周期内业务方的取数频次,并判断所述取数频次是否大于所述静态执行方式的脱敏频次,若是,则根据所述取数频次对所述静态执行方式的脱敏频次进行修正。
在一些实施例中,所述一个或多个处理器执行的所述对所述脱敏执行方式进行修正,包括:根据所述业务方数据库中待脱敏的各张数据表各自的数据量,确定所述各张数据表各自的数据量等级;和/或,获取所述业务方数据库中待脱敏的各张数据表各自的取数频次;若所述各张数据表的数据量等级不同和/或取数频次不同,则分别对所述各张数据表的脱敏执行方式和/或取数频次进行修正。
在一些实施例中,所述一个或多个处理器执行的所述根据修正后的脱敏执行方式对所述业务方数据库进行数据脱敏,包括:识别业务方数据库中的待脱敏对象;所述待脱敏对象包括所述业务方数据库中待脱敏的字段名称和/或字段内容;根据预先存储的配置数据集,确定每一待脱敏对象对应的脱敏规则,各个待脱敏对象对应的脱敏规则形成所述业务方数据库的脱敏策略;所述配置数据集包括对多个预设字段名称和/或预设字段内容分别配置的脱敏规则;根据修正后的脱敏执行方式,执行所述脱敏策略,得到对应的脱敏数据。
在一些实施例中,所述根据预先存储的配置数据集,确定每一待脱敏对象对应的脱敏规则,包括:当接收到数据获取请求时,确定对应用户的权限;根据所述权限确定对应的权限等级;根据所述权限等级和修正后的脱敏执行方式,从所述配置数据集中为每一待脱敏对象查找对应的脱敏规则;
其中,所述配置数据集包括不同脱敏执行方式下的不同预设权限等级下对多个预设字段名称和/或预设字段内容分别配置的脱敏规则;静态执行方式下不同预设权限等级下对多个预设字段名称和/或预设字段内容配置的脱敏规则中的脱敏方式为第一脱敏方式;动态执行方式下不同预设权限等级下对多个预设字段名称和/或预设字段内容配置的脱敏规则中的脱敏方式为第二脱敏方式;越高的预设权限等级下对相同的预设字段名称和/或预设字段内容配置的脱敏规则的脱敏程度越低;所述第一脱敏方式为掩码脱敏方式或混淆脱敏方式,所述第二脱敏方式为加密脱敏方式。
本申请提供的存储介质的有益效果与智能数据脱敏方法和装置相同,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种智能数据脱敏方法,其特征在于,所述方法包括:
获取业务方数据库中待脱敏的各张数据表的数据量;
根据所述各张数据表的数据量,确定所述业务方数据库的脱敏执行方式;所述脱敏执行方式为动态执行方式或静态执行方式;
对所述脱敏执行方式进行修正,并根据修正后的脱敏执行方式对所述业务方数据库进行数据脱敏;
其中,所述根据所述各张数据表的数据量,确定所述业务方数据库的脱敏执行方式,包括:
根据所述各张数据表各自的数据量,确定各张数据表的平均数据量;
根据所述平均数据量,确定对应的平均数据量等级;
根据所述平均数据量等级,确定所述业务方数据库的脱敏执行方式。
2.根据权利要求1所述的方法,其特征在于,所述根据所述平均数据量,确定所述平均数据量等级,包括:
若所述平均数据量在0~300w范围内,则所述平均数据量等级为第一等级;和/或,若所述平均数据量在300~500w范围内,则所述平均数据量等级为第二等级;和/或,若所述平均数据量大于500w,则所述平均数据量等级为第三等级。
3.根据权利要求2所述的方法,其特征在于,所述根据所述平均数据量等级,确定所述业务方数据库的脱敏执行方式,包括:
若所述平均数据量等级为第一等级,则所述业务方数据库的脱敏执行方式为动态执行方式;和/或,若所述平均数据量等级为第二等级,则所述业务方数据库的脱敏执行方式为静态执行方式,并设置对应的脱敏频次;和/或,若所述平均数据量等级为第三等级,则提供脱敏配置界面,以供用户对所述脱敏执行方式进行配置。
4.根据权利要求2所述的方法,其特征在于,所述对所述脱敏执行方式进行修正,包括:按照预设周期对所述脱敏执行方式进行修正;
其中,所述按照预设周期对所述脱敏执行方式进行修正,包括:
若所述平均数据量等级为第一等级,所述第一等级对应的最大数据量与所述平均数据量之间的差值小于第一预设值,且在所述预设周期内的平均脱敏时长超过第二预设值,则将所述脱敏执行方式由动态执行方式修正为静态执行方式;和/或,若所述脱敏执行方式为静态执行方式,则获取所述预设周期内业务方的取数频次,并判断所述取数频次是否大于所述静态执行方式的脱敏频次,若是,则根据所述取数频次对所述静态执行方式的脱敏频次进行修正。
5.根据权利要求1所述的方法,其特征在于,所述对所述脱敏执行方式进行修正,包括:
根据所述业务方数据库中待脱敏的各张数据表各自的数据量,确定所述各张数据表各自的数据量等级;和/或,获取所述业务方数据库中待脱敏的各张数据表各自的取数频次;
若所述各张数据表的数据量等级不同和/或取数频次不同,则分别对所述各张数据表的脱敏执行方式和/或取数频次进行修正。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述根据修正后的脱敏执行方式对所述业务方数据库进行数据脱敏,包括:
识别业务方数据库中的待脱敏对象;所述待脱敏对象包括所述业务方数据库中待脱敏的字段名称和/或字段内容;
根据预先存储的配置数据集,确定每一待脱敏对象对应的脱敏规则,各个待脱敏对象对应的脱敏规则形成所述业务方数据库的脱敏策略;所述配置数据集包括对多个预设字段名称和/或预设字段内容分别配置的脱敏规则;
根据修正后的脱敏执行方式,执行所述脱敏策略,得到对应的脱敏数据。
7.根据权利要求6所述的方法,其特征在于,所述根据预先存储的配置数据集,确定每一待脱敏对象对应的脱敏规则,包括:当接收到数据获取请求时,确定对应用户的权限;根据所述权限确定对应的权限等级;根据所述权限等级和修正后的脱敏执行方式,从所述配置数据集中为每一待脱敏对象查找对应的脱敏规则;
其中,所述配置数据集包括不同脱敏执行方式下的不同预设权限等级下对多个预设字段名称和/或预设字段内容分别配置的脱敏规则;静态执行方式下不同预设权限等级下对多个预设字段名称和/或预设字段内容配置的脱敏规则中的脱敏方式为第一脱敏方式;动态执行方式下不同预设权限等级下对多个预设字段名称和/或预设字段内容配置的脱敏规则中的脱敏方式为第二脱敏方式;越高的预设权限等级下对相同的预设字段名称和/或预设字段内容配置的脱敏规则的脱敏程度越低;所述第一脱敏方式为掩码脱敏方式或混淆脱敏方式,所述第二脱敏方式为加密脱敏方式。
8.一种智能数据脱敏装置,其特征在于,所述装置包括:
数据量获取模块,用于获取业务方数据库中待脱敏的各张数据表的数据量;
方式确定模块,用于根据所述各张数据表的数据量,确定所述业务方数据库的脱敏执行方式;所述脱敏执行方式为动态执行方式或静态执行方式;
数据脱敏模块,用于对所述脱敏执行方式进行修正,并根据修正后的脱敏执行方式对所述业务方数据库进行数据脱敏;
其中,所述方式确定模块具体用于:根据所述各张数据表各自的数据量,确定各张数据表的平均数据量;根据所述平均数据量,确定对应的平均数据量等级;根据所述平均数据量等级,确定所述业务方数据库的脱敏执行方式。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述智能数据脱敏方法的步骤。
10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述智能数据脱敏方法的步骤。
CN201910341143.1A 2019-04-25 2019-04-25 智能数据脱敏方法、装置、计算机设备和存储介质 Pending CN110232291A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910341143.1A CN110232291A (zh) 2019-04-25 2019-04-25 智能数据脱敏方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910341143.1A CN110232291A (zh) 2019-04-25 2019-04-25 智能数据脱敏方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN110232291A true CN110232291A (zh) 2019-09-13

Family

ID=67860294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910341143.1A Pending CN110232291A (zh) 2019-04-25 2019-04-25 智能数据脱敏方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110232291A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598451A (zh) * 2019-09-19 2019-12-20 中国银行股份有限公司 数据脱敏方法及装置
CN110727954A (zh) * 2019-09-19 2020-01-24 平安科技(深圳)有限公司 数据授权脱敏自动化方法、装置及存储介质
CN111143875A (zh) * 2019-12-17 2020-05-12 航天信息股份有限公司 一种基于大数据的数据信息脱敏方法及系统
CN113158249A (zh) * 2021-04-28 2021-07-23 国网山东省电力公司潍坊供电公司 数据脱敏方法、装置、电子设备和介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598451A (zh) * 2019-09-19 2019-12-20 中国银行股份有限公司 数据脱敏方法及装置
CN110727954A (zh) * 2019-09-19 2020-01-24 平安科技(深圳)有限公司 数据授权脱敏自动化方法、装置及存储介质
CN110598451B (zh) * 2019-09-19 2022-02-25 中国银行股份有限公司 数据脱敏方法及装置
CN110727954B (zh) * 2019-09-19 2023-08-29 平安科技(深圳)有限公司 数据授权脱敏自动化方法、装置及存储介质
CN111143875A (zh) * 2019-12-17 2020-05-12 航天信息股份有限公司 一种基于大数据的数据信息脱敏方法及系统
CN111143875B (zh) * 2019-12-17 2024-03-08 航天信息股份有限公司 一种基于大数据的数据信息脱敏方法及系统
CN113158249A (zh) * 2021-04-28 2021-07-23 国网山东省电力公司潍坊供电公司 数据脱敏方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN110245470A (zh) 智能数据脱敏方法、装置、计算机设备和存储介质
CN110232291A (zh) 智能数据脱敏方法、装置、计算机设备和存储介质
CN105138592B (zh) 一种基于分布式架构的日志数据存储和检索方法
CN106874461B (zh) 一种工作流引擎支持多数据源配置安全访问系统及方法
CN103973668B (zh) 一种网络信息系统中服务器端的个人隐私数据保护方法
US7472114B1 (en) Method and apparatus to define the scope of a search for information from a tabular data source
CN109960944A (zh) 一种数据脱敏方法、服务器、终端及计算机可读存储介质
CN109791594A (zh) 为了在多个不可变数据结构上持续存储而对数据进行分段
CN109189782A (zh) 一种区块链商品交易查询中的索引方法
CN107291862A (zh) 业务数据存储方法、装置、存储介质及电子设备
US20120266210A1 (en) Method and apparatus for creating an information security policy based on a pre-configured template
CN103853986A (zh) 一种访问控制方法和装置
CN109359480B (zh) 一种面向数字图书馆的用户隐私保护方法及系统
CN101442558B (zh) 一种为p2sp网络提供索引服务的方法和系统
CN108924115B (zh) 一种空间服务权限控制方法及系统
CN106202305A (zh) 一种日志处理方法、装置及数据库系统
CN105677904B (zh) 基于分布式文件系统的小文件存储方法及装置
CN108846603A (zh) 基于区块链的物流追溯方法、用户设备、存储介质及装置
CN111400482B (zh) 一种建立问答对的方法及装置
CN106993009A (zh) 一种在浏览器中加载网页的方法和装置
CN107885873A (zh) 用于输出信息的方法和装置
US20090265314A1 (en) Secure file searching
CN106407442A (zh) 一种海量文本数据处理方法及装置
CN109918369A (zh) 数据存储方法及装置
WO2012131056A2 (en) Finding a data item of a plurality of data items stored in a digital data storage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination