CN110532799B - 数据脱敏控制方法、电子装置及计算机可读存储介质 - Google Patents

数据脱敏控制方法、电子装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110532799B
CN110532799B CN201910699124.6A CN201910699124A CN110532799B CN 110532799 B CN110532799 B CN 110532799B CN 201910699124 A CN201910699124 A CN 201910699124A CN 110532799 B CN110532799 B CN 110532799B
Authority
CN
China
Prior art keywords
target data
data table
sensitive information
target
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910699124.6A
Other languages
English (en)
Other versions
CN110532799A (zh
Inventor
杨振燕
李博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910699124.6A priority Critical patent/CN110532799B/zh
Publication of CN110532799A publication Critical patent/CN110532799A/zh
Application granted granted Critical
Publication of CN110532799B publication Critical patent/CN110532799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据脱敏控制方法、电子装置及计算机可读存储介质,可根据获取的识别信息从生产环境的数据库中识别目标数据表,将其导入至目标数据库并锁定;采用多任务并行处理方式,同时对不同任务下的目标数据表进行敏感信息的发现,对于各任务下的目标数据表,采用多个进程分别对所有任务的目标数据表同时进行敏感信息的发现,并且对于各目标数据表,将数据量大于预设数据量阈值的目标数据表划分为若干子数据表,在目标数据表对应的进程中运行若干线程对子数据表同时进行敏感信息的发现;对所有目标数据表中发现的敏感信息进行脱敏,脱敏后解除对目标数据表的锁定。本申请通过多进程、多线程并发的处理方式进行敏感信息的发现,提升了数据脱敏的效率。

Description

数据脱敏控制方法、电子装置及计算机可读存储介质
技术领域
本申请涉及信息安全技术领域,尤其涉及一种数据脱敏控制方法、电子装置及计算机可读存储介质。
背景技术
随着中国经济的高速发展,中国企业不断发展壮大,很多企业构建了自己的IT团队,并逐步上线新的业务系统。随着业务系统的不断增加,企业管理的基础数据越来越庞大。企业开发运维人员也在不断增多,但企业内部IT管理规范滞后,企业很多涉及隐私的敏感数据在没有进行任何去隐私化的情况下直接被开发运维人员使用,企业敏感数据被外泄的风险逐年增加。
目前,采用数据脱敏可以将敏感信息按照脱敏规则进行数据的变形,实现敏感信息的可靠保护。但是相关技术中的脱敏机制中对于数据表处理效率不高,对于数据量较大例如数据表数量较多的情形,需要处理较长时间才能完成敏感信息的脱敏。
发明内容
本申请实施例提供一种数据脱敏控制方法、电子装置及计算机可读存储介质,可以提升对数据表的脱敏效率。
本申请实施例第一方面提供一种数据脱敏控制方法,包括:
获取目标数据表的识别信息;
根据所述识别信息从生产环境的数据库中识别所述目标数据表,将所述目标数据表导入至目标数据库,并锁定所述目标数据库中的所述目标数据表,以禁止所述目标数据表的数据需求方访问所述目标数据库中的所述目标数据表;
若所述目标数据库中的所述目标数据表来自不同的任务,则采用多任务并行处理方式,同时对不同任务下的目标数据表进行敏感信息的发现,其中,对于各任务下的目标数据表,按照一个进程对一个目标数据表进行敏感信息的发现的规则,采用多个进程对所有任务的目标数据表同时进行敏感信息的发现,并且对于各目标数据表,若满足目标数据表的数据量大于预设数据量阈值的条件,则将满足所述条件的目标数据表划分为若干子数据表,按照一个线程对一个子数据表进行敏感信息的发现的规则,在所述目标数据表对应的进程中运行若干线程对所述若干子数据表同时进行敏感信息的发现;
若所述目标数据库中的所述目标数据表来自同一个任务,则按照一个进程对一个目标数据表进行敏感信息的发现的规则,采用至少一个进程对所有目标数据表同时进行敏感信息的发现,并且,对于所述目标数据表,若满足目标数据表的数据量大于预设数据量阈值的条件,则将满足所述条件的目标数据表划分为若干子数据表,按照一个线程对一个子数据表进行敏感信息的发现的规则,在所述目标数据表对应的进程中运行若干线程对所述若干子数据表同时进行敏感信息的发现;
对所述目标数据库中的目标数据表内的所述敏感信息进行脱敏,在脱敏完成后,解除对所述目标数据库中的所述目标数据表的锁定。
本申请实施例第二方面提供一种电子装置,包括:
获取模块,用于获取目标数据表的识别信息;
导入模块,用于根据所述识别信息从生产环境的数据库中识别所述目标数据表,将所述目标数据表导入至目标数据库,并锁定所述目标数据库中的所述目标数据表,以禁止所述目标数据表的数据需求方访问所述目标数据库中的所述目标数据表;
第一处理模块,用于若所述目标数据库中的所述目标数据表来自不同的任务,则采用多任务并行处理方式,同时对不同任务下的目标数据表进行敏感信息的发现,其中,对于各任务下的目标数据表,按照一个进程对一个目标数据表进行敏感信息的发现的规则,采用多个进程对所有任务的目标数据表同时进行敏感信息的发现,并且对于各目标数据表,若满足目标数据表的数据量大于预设数据量阈值的条件,则将满足所述条件的目标数据表划分为若干子数据表,按照一个线程对一个子数据表进行敏感信息的发现的规则,在所述目标数据表对应的进程中运行若干线程对所述若干子数据表同时进行敏感信息的发现;
第二处理模块,用于若所述目标数据库中的所述目标数据表来自同一个任务,则按照一个进程对一个目标数据表进行敏感信息的发现的规则,采用至少一个进程对所有目标数据表同时进行敏感信息的发现,并且,对于所述目标数据表,若满足目标数据表的数据量大于预设数据量阈值的条件,则将满足所述条件的目标数据表划分为若干子数据表,按照一个线程对一个子数据表进行敏感信息的发现的规则,在所述目标数据表对应的进程中运行若干线程对所述若干子数据表同时进行敏感信息的发现;
脱敏模块,用于对所述目标数据库中的目标数据表内的所述敏感信息进行脱敏,在脱敏完成后,解除对所述目标数据库中的所述目标数据表的锁定。
本申请实施例第三方面提供一种电子装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请实施例第一方面的方法中的步骤。
本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现本申请实施例第一方面的方法中的步骤。
本申请实施例公开了一种数据脱敏控制方法、电子装置及计算机可读存储介质,可以获取目标数据表的识别信息;根据识别信息从生产环境的数据库中识别目标数据表,将目标数据表导入至目标数据库,并锁定目标数据库中的目标数据表;若目标数据库中的目标数据表来自不同的任务,则采用多任务并行处理方式,同时对不同任务下的目标数据表进行敏感信息的发现,对于各任务下的目标数据表,按照一个进程对一个目标数据表进行敏感信息的发现的规则,采用多个进程对所有任务的目标数据表同时进行敏感信息的发现,并且对于各目标数据表,若满足目标数据表的数据量大于预设数据量阈值的条件,则将满足条件的目标数据表划分为若干子数据表,按照一个线程对一个子数据表进行敏感信息的发现的规则,在目标数据表对应的进程中运行若干线程对若干子数据表同时进行敏感信息的发现;若目标数据库中的目标数据表来自同一个任务,则按照一个进程对一个目标数据表进行敏感信息的发现的规则,采用至少一个进程对所有目标数据表同时进行敏感信息的发现,并且,对于各目标数据表,若满足目标数据表的数据量大于预设数据量阈值的条件,则将满足条件的目标数据表划分为若干子数据表,按照一个线程对一个子数据表进行敏感信息的发现的规则,在目标数据表对应的进程中运行若干线程对若干子数据表同时进行敏感信息的发现;对目标数据库中的目标数据表内的敏感信息进行脱敏,在脱敏完成后,解除对所述目标数据库中的所述目标数据表的锁定。本申请实施例通过多进程、多线程并发的处理方式对大量的数据表进行敏感信息的发现,提升对数据表的处理效率。
附图说明
图1为本申请提供的一种电子装置的硬件结构示意图;
图2为本申请第一实施例提供的数据脱敏控制方法的流程示意图;
图3为本申请第二实施例提供的一种电子装置的结构示意图;
图4为本申请第三实施例提供的一种电子装置的结构示意图。
具体实施方式
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参照图1,图1示出了一种电子装置的结构框图。本发明实施例提供的数据脱敏控制方法可应用于如图1所示的电子装置10中,电子装置10包括但不限于:移动终端如智能手机和笔记本电脑等,以及固定终端如台式电脑、服务器及智能电视等等。
如图1所示,电子装置10包括存储器101、存储控制器102,一个或多个(图中仅示出一个)处理器103、外设接口104及触控屏幕105。这些组件通过一条或多条通讯总线/信号线106相互通讯。
可以理解,图1所示的结构仅为示意,其并不对电子装置的结构造成限定。电子装置10还可包括比图1所示更多或者更少的组件,或者具有与图1所示不同的配置。图1所示的各组件可以采用硬件、软件或其组合实现。
存储器101可用于存储软件程序以及模块,如本发明实施例中的数据脱敏控制方法及电子装置对应的程序指令/模块,处理器103通过运行存储在存储器101内的软件程序以及模块,从而执行各种功能应用以及数据处理,例如实现上述的数据脱敏控制方法。
存储器101可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器101可进一步包括相对于处理器103远程设置的存储器,这些远程存储器可以通过网络连接至电子装置10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。处理器103以及其他可能的组件对存储器101的访问可在存储控制器102的控制下进行。
外设接口104将各种输入/输入装置耦合至CPU以及存储器101。处理器103运行存储器101内的各种软件、指令以执行电子装置10的各种功能以及进行数据处理。
在一些实施例中,外设接口104,处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
触控屏幕105在电子装置与用户之间同时提供一个输出及输入界面。具体地,触控屏幕105向用户显示视频输出,这些视频输出的内容可包括文字、图形、视频、及其任意组合。触控屏幕105的一些输出结果是对应于一些用户界面对象。触控屏幕105还接收用户的输入,例如用户的点击、滑动等手势操作,以便用户界面对象对这些用户的输入做出响应。检测用户输入的技术可以是基于电阻式、电容式或者其他任意可能的触控检测技术。触控屏幕105显示单元的具体实例包括但并不限于液晶显示器或发光聚合物显示器。
基于上述电子装置描述本发明实施例中的数据脱敏控制方法。
第一实施例:
本申请实施例提出了一种数据脱敏控制方法,参见图2,该方法包括:
步骤201、获取目标数据表的识别信息;
本实施例中,目标数据表为数据需求方需要的数据表,可选的,目标数据表的识别信息可以是表名,或者是表中的字段名称等等,本实施例对此没有限制。本实施例中,可以由数据需求方提供确定目标数据的表名和字段名。
可选的,获取目标数据表的识别信息包括:获取数据需求方发送的目标数据表的识别信息,或者,获取本地存储的目标数据表的识别信息。
步骤202、根据识别信息从生产环境的数据库中识别目标数据表,将目标数据表导入至目标数据库,并锁定目标数据库中的目标数据表以禁止目标数据表的数据需求方访问目标数据库中的目标数据表;
本实施例中,对于根据识别信息从生产环境的数据库中识别目标数据表的步骤,具体的,可以搜索生产环境中的数据库中的数据表的表名和字段名称,若是数据表的表名或者字段名称与识别信息匹配,则确定匹配的数据表为目标数据表。可选的,本实施例中,可以采用模糊匹配或者精确匹配的方式进行数据表的表名或者字段名称与识别信息的匹配,本实施例对具体的匹配方式没有限制。
步骤203、若目标数据库中的目标数据表来自不同的任务,则采用多任务并行处理方式,同时对不同任务下的目标数据表进行敏感信息的发现,其中,对于各任务下的目标数据表,按照一个进程对一个目标数据表进行敏感信息的发现的规则,采用多个进程对所有任务的目标数据表同时进行敏感信息的发现,并且对于各目标数据表,若满足目标数据表的数据量大于预设数据量阈值的条件,则将满足条件的目标数据表划分为若干子数据表,按照一个线程对一个子数据表进行敏感信息的发现的规则,在目标数据表对应的进程中运行若干线程对若干子数据表同时进行敏感信息的发现;
可选的,本实施例中,将满足条件的目标数据表划分为若干子数据表包括:确定数据量不高于预设数据量阈值的目标数据表的最大数据量,将最大数据量作为划分依据,将满足条件的目标数据表划分为多个子数据表,其中,可以理解的是,各个子数据表的数据量不高于最大数据量。
下面以多任务场景为例,对上述步骤的方案进行示例说明。
假设目标数据表有4个A1、A2、B1和B2,A1和A2来自任务A,B1和B2来自任务B,A1、B1和B2数据表的数据量大于预设数据量阈值,分别划分为3个、2个和3个子数据表,A2数据表的数据量小于预设数据量阈值.则本实施例会采用多任务并发的处理方式将A1和A2作为一个任务进行敏感信息的发现,将B1和B2作为另一个任务进行敏感信息的发现,同时,对于任务A,其下运行有两进程分别对A1和A2进行敏感信息的发现,对于任务B,其下也运行有两进程分别对B1和B2进行敏感信息的发现,对于A1数据表,因为其被划分为3份子数据表,所以对于A1的进程,其下运行有3线程分别对3个子数据表进行敏感信息的发现;对于A2的进程,其下运行1线程对数据表A2进行敏感信息的发现;对于B1数据表,因为其被划分为3份子数据表,所以对于B1的进程,其下运行有2线程分别对2个子数据表进行敏感信息的发现;对于B2数据表,因为其被划分为3份子数据表,所以对于B2的进程,其下运行有3线程分别对3个子数据表进行敏感信息的发现。
步骤204、若目标数据库中的目标数据表来自同一个任务,则按照一个进程对一个目标数据表进行敏感信息的发现的规则,采用至少一个进程对所有目标数据表同时进行敏感信息的发现,并且,对于各目标数据表,若满足目标数据表的数据量大于预设数据量阈值的条件,则将满足条件的目标数据表划分为若干子数据表,按照一个线程对一个子数据表进行敏感信息的发现的规则,在目标数据表对应的进程中运行若干线程对若干子数据表同时进行敏感信息的发现;
对于单任务场景下敏感信息的发现,可以参考上述例子中对于任务A或任务B的敏感信息发现过程的描述。
本实施例中,可以在系统中预先设置敏感信息发现策略和敏感信息脱敏策略,可选的,敏感信息发现策略中可以设置敏感信息,该敏感信息的设置方式不限,可以是系统自定义的和/或是用户设置的。该敏感信息的具体内容不限,可以是任意涉及用户隐私的信息,包括但不限于个人名称、企业名称、地址、电话号码、身份证号码、邮箱、账号、日期以及金额等企业常规敏感字段。
进一步的,为了保证数据表信息的安全性,在系统中可以锁定设置的敏感信息,锁定后的敏感信息无法删除和修改,对于每种敏感信息的锁定的解除需要解锁信息的验证通过。可选的,在接收到敏感信息的解锁请求后,基于解锁请求中请求解锁的敏感信息的种类,获取该种类的敏感信息对应的预设解锁验证信息,若解锁请求中的解锁验证信息与预设解锁验证信息相同,则对解锁信息中请求的敏感信息解锁,以使得发送解锁请求的发送方可以修改或删除该敏感信息的内容。
可选的,对于敏感信息的具体识别过程,可以采用二级识别的方式,增加识别的准确性。可选的,在识别目标数据表中的敏感信息时,可以基于设置的敏感信息的内容,先采用JAVA正则表达式对目标数据表中的敏感信息进行识别;识别结束后,获取预先设置的用于敏感信息发现的JAVA算法,对JAVA正则表达式识别出的各种敏感信息进行进一步的识别,以提升敏感信息的识别准确度。
上述方案中,对于数据脱敏的过程,采用了多任务并行,以及表间并发、表内并发等处理方式处理目标数据表,可以大大节省数据表处理的时间,提升数据表的处理效率,尤其适应于对大数据量的数据表进行敏感信息的发现。
步骤205、对目标数据库中的目标数据表内的敏感信息进行脱敏,在脱敏完成后,解除对目标数据库中的目标数据表的锁定。
根据前述的描述可知,敏感信息的类型有多种,可能个人名称、企业名称、地址、电话号码、身份证号码、邮箱、账号、日期以及金额等,本实施例中,可以对不同类型的敏感信息设置对应的脱敏算法,在脱敏时,采用这些对应的算法对敏感信息进行脱敏。例如对于电话号码,采用电话号码的脱敏算法实现,对于身份证号码,采用身份证号码脱敏算法实现。
可选的,对目标数据库中的目标数据表内的敏感信息进行脱敏包括:对于目标数据库中的目标数据表内的敏感信息,按照敏感信息的类型获取各类型的敏感信息对应的脱敏算法;按照各类型敏感信息对应的脱敏算法对目标数据表中的各类敏感信息进行脱敏处理。
对于所有的脱敏算法而言,从另一个维度来看,脱敏算法包括但不限于hash算法和random算法等等。例如电话号码的hash脱敏算法、身份证号码hash脱敏算法、电话号码的random脱敏算法以及身份证号码random脱敏算法等等。
进一步的,本实施例中,优选采用hash算法对敏感信息进行脱敏,采用hash算法能够保持脱敏结果的一致性,从而保证了业务系统之间数据的业务关联性。如下表1和表2所示,表1是脱敏前的数据表,表2是脱敏后的数据表。
对于两个表中的两条相同的数据(张三对应的数据),脱敏后得到的两条脱敏数据也是相同的。对于表1中脱敏前的第103条数据,其地址中的市名与第101条和102条中的数据的地址中的市名相同,通过hash算法脱敏后的表2中,也保留了第101-103条数据中市名相同的这种关联性。
编号 客户名称 电话号码 身份证号码 地址
101 张三 13881991234 510902198801012345 成都市金牛区12号
102 张三 13881991234 510902198801012345 成都市金牛区12号
103 李自成 13089765426 510902197911112345 成都市武顺区
表1
编号 客户名称 电话号码 身份证号码 地址
101 刘星 13889124568 311320198801014628 赣州市章贡区83号
102 刘星 13889124568 311320198801014628 赣州市章贡区83号
103 赵无极 13089581664 311320197911117669 赣州市云岩区
表2
可选的,本实施例中若采用hash算法,本实施例中还可以通过系统的输入模块获取用户输入的hash算法的hash key(hash种子),基于用户输入的hash算法的hash key(hash种子)实现上述的脱敏。
可选的,本实施例中,在对目标数据库中的目标数据表内的敏感信息进行脱敏前,还包括:
将敏感信息的发现结果发送给数据需求方;
若接收到数据需求方提出的对发现结果中的敏感信息的修改请求,则向预设的审批平台发送对敏感信息的修改审批,若接收到审批平台反馈的审批通过的信息,则根据修改请求修改发现结果中的敏感信息,否则保持发现结果不变。
可选的,本实施例中,将敏感信息的发现结果发送给数据需求方的方式包括但不限于邮件通知以及短信通知。通知的内容包括将存储敏感信息的字段名称告知数据需求方,例如告知数据需求方,某段信息为身份证号码,请数据需求方确认是否同意该意见。
可选的,本实施例中,预设审理平台的审批者可以是上级领导及数据库管理员(Database Administrator,DBA)。
进一步的,为了保证数据库中数据不被数据需求方自行导出,可以在预设时间段内对生产环境的数据库的数据库操作日志进行检测,确定是否存在数据需求方自行从数据库中导出数据表至目标数据库的情况;若是,则锁定数据需求方,禁止数据需求方从数据库中导出数据表。其中,预设时间段可以根据实际情况设置,例如设置每天的早上的1-3点为预设时间段。
可选的,在一个示例中,在对目标数据库中的敏感信息进行脱敏之后,还可以对已脱敏的数据增加标记,该标记用于表示对应的数据已脱敏,该增加的标记可以将脱敏后的“伪真实”数据,与未脱敏的数据区分开来,避免重复脱敏以及便于脱敏完成与否的确认。
在一个示例中,在对目标数据库中的目标数据表内的敏感信息进行脱敏时,每脱敏完目标数据表中的一列数据,则标记这列数据为已脱敏数据。
在解除对目标数据库中的目标数据表的锁定前,还包括:
根据对目标数据表的敏感信息的发现结果以及目标数据表中的标记,判断目标数据表的敏感信息是否全部脱敏完成,若是,则执行解除对目标数据库中的目标数据表的锁定的步骤,否则不执行解除对目标数据库中的目标数据表的锁定的步骤,而是继续对目标数据库中的目标数据表内的敏感信息进行脱敏,直至敏感信息全部脱敏完成。
在实际中,目标数据表数量较多的时候,可能会出现某些表的处理失败的情况,本实施例的方案提供了断点续传的功能,降低数据表重新处理所需要的时间。
可选的,在一个示例中,在对目标数据表进行敏感信息的发现的过程中,若某目标数据表的敏感信息发现过程中断,则获取目标数据表中的中断位置,并保存对目标数据表的敏感信息的发现结果;其中,中断位置具体可以是数据表中断处理时的行数和列数。
在未中断敏感信息发现过程的目标数据表的敏感信息发现过程结束后,对中断敏感信息发现过程的目标数据表从对应的中断位置进行敏感信息的发现,并将发现结果与敏感信息发现过程中断前的发现结果保存在一起。可选的,当前的发现结果与敏感信息发现过程中断前的发现结果可以保存在同一个存储空间中。
本申请实施例的数据脱敏控制方法,可以对多任务同时进行敏感信息的发现,对一个任务下的多个目标数据表可以采用多进程的方式同时处理,对于数据量较大的目标数据表,还可以划分为多个子数据表,采用一个进程下多个线程并行的方式同时对子数据表进行敏感信息的发现,由此通过多进程、多线程并发的处理方式对大量的数据表进行敏感信息的发现,提升了对数据表的处理效率。
第二实施例:
本发明第二实施例提供了一种电子装置,参见图3,该电子装置包括:
获取模块301,用于获取目标数据表的识别信息;
导入模块302,用于根据识别信息从生产环境的数据库中识别目标数据表,将目标数据表导入至目标数据库,并锁定目标数据库中的目标数据表以禁止目标数据表的数据需求方访问目标数据库中的目标数据表;
第一处理模块303,用于若目标数据库中的目标数据表来自不同的任务,则采用多任务并行处理方式,同时对不同任务下的目标数据表进行敏感信息的发现,其中,对于各任务下的目标数据表,按照一个进程对一个目标数据表进行敏感信息的发现的规则,采用多个进程对所有任务的目标数据表同时进行敏感信息的发现,并且对于各目标数据表,若满足目标数据表的数据量大于预设数据量阈值的条件,则将满足条件的目标数据表划分为若干子数据表,按照一个线程对一个子数据表进行敏感信息的发现的规则,在目标数据表对应的进程中运行若干线程对若干子数据表同时进行敏感信息的发现;
第二处理模块304,用于若所述目标数据库中的所述目标数据表来自同一个任务,则按照一个进程对一个目标数据表进行敏感信息的发现的规则,采用至少一个进程对所有目标数据表同时进行敏感信息的发现,并且,对于所述目标数据表,若满足目标数据表的数据量大于预设数据量阈值的条件,则将满足所述条件的目标数据表划分为若干子数据表,按照一个线程对一个子数据表进行敏感信息的发现的规则,在所述目标数据表对应的进程中运行若干线程对所述若干子数据表同时进行敏感信息的发现;
脱敏模块305,用于对目标数据库中的目标数据表内的敏感信息进行脱敏,在脱敏完成后,解除对目标数据库中的目标数据表的锁定。
可选的,本实施例中,电子装置还包括发送模块和发现结果处理模块。
发送模块,用于在对目标数据库中的目标数据表内的敏感信息进行脱敏前,将敏感信息的发现结果发送给数据需求方;
发现结果处理模块,用于若接收到数据需求方提出的对发现结果中的敏感信息的修改请求,则向预设的审批平台发送对敏感信息的修改审批,若接收到审批平台反馈的审批通过的信息,则根据修改请求修改发现结果中的敏感信息,否则保持发现结果不变。
可选的,电子装置还包括检测模块和检测结果处理模块。
检测模块,用于在预设时间段内对生产环境的数据库进行数据库操作日志的检测,确定是否存在数据需求方自行从数据库中导出数据表至目标数据库的情况。
检测结果处理模块,用于在检测结果为存在数据需求方自行从数据库中导出数据表至目标数据库的情况时,锁定数据需求方,禁止数据需求方从数据库中导出数据表。
进一步的,脱敏模块305,还用于在对目标数据库中的目标数据表内的敏感信息进行脱敏时,若目标数据表中的一列数据脱敏完成,则标记脱敏完成的列数据为已脱敏数据;在解除对目标数据库中的目标数据表的锁定前,根据对目标数据表的敏感信息的发现结果以及目标数据表中的标记,判断目标数据表的敏感信息是否全部脱敏完成,若是,则执行解除对目标数据库中的目标数据表的锁定的步骤,否则不执行解除对目标数据库中的目标数据表的锁定的步骤。
可选的,中断处理模块,用于在对目标数据表进行敏感信息的发现的过程中,若某目标数据表的敏感信息发现过程中断,则获取目标数据表中的中断位置,并保存对目标数据表的敏感信息的发现结果;在未中断敏感信息发现过程的目标数据表的敏感信息发现过程结束后,对中断敏感信息发现过程的目标数据表从对应的中断位置进行敏感信息的发现,并将发现结果与敏感信息发现过程中断前的发现结果保存在一起。
进一步的,脱敏模块305,用于对于目标数据库中的目标数据表内的敏感信息,按照敏感信息的类型获取各类型的敏感信息对应的脱敏算法;按照各类型敏感信息对应的脱敏算法对目标数据表中的各类敏感信息进行脱敏处理。
采用本实施例的电子装置,可以通过多进程、多线程并发的处理方式对大量的数据表进行敏感信息的发现,提升了对数据表的处理效率。
第三实施例:
请参阅图4,图4为本发明第三实施例提供的一种电子装置。该电子装置可用于实现图2所示实施例中的数据脱敏控制方法。如图4所示,该电子装置主要包括:
存储器401、处理器402、总线403及存储在存储器401上并可在处理器402上运行的计算机程序,存储器401和处理器402通过总线403连接。处理器402执行该计算机程序时,实现图2所示实施例中的数据脱敏控制方法。其中,处理器的数量可以是一个或多个,本实施例对此没有限制。
存储器401可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器401用于存储可执行程序元素,处理器402与存储器401耦合。
进一步的,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的电子装置中,该计算机可读存储介质可以是前述图4所示实施例中的存储器。
该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现图2所示实施例中的数据脱敏控制方法。进一步的,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序元素的介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序元素的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本申请所提供的数据脱敏控制方法、电子装置及计算机可读存储介质的描述,对于本领域的技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种数据脱敏控制方法,其特征在于,包括:
获取目标数据表的识别信息;
根据所述识别信息从生产环境的数据库中识别所述目标数据表,将所述目标数据表导入至目标数据库,并锁定所述目标数据库中的所述目标数据表,以禁止所述目标数据表的数据需求方访问所述目标数据库中的所述目标数据表;
若所述目标数据库中的所述目标数据表来自不同的任务,则采用多任务并行处理方式,同时对不同任务下的目标数据表进行敏感信息的发现,其中,对于各任务下的目标数据表,按照一个进程对一个目标数据表进行敏感信息的发现的规则,采用多个进程对所有任务的目标数据表同时进行敏感信息的发现,并且对于各目标数据表,若满足目标数据表的数据量大于预设数据量阈值的条件,则将满足所述条件的目标数据表划分为若干子数据表,按照一个线程对一个子数据表进行敏感信息的发现的规则,在所述目标数据表对应的进程中运行若干线程对所述若干子数据表同时进行敏感信息的发现;
若所述目标数据库中的所述目标数据表来自同一个任务,则按照一个进程对一个目标数据表进行敏感信息的发现的规则,采用至少一个进程对所有目标数据表同时进行敏感信息的发现,并且,对于所述目标数据表,若满足目标数据表的数据量大于预设数据量阈值的条件,则将满足所述条件的目标数据表划分为若干子数据表,按照一个线程对一个子数据表进行敏感信息的发现的规则,在所述目标数据表对应的进程中运行若干线程对所述若干子数据表同时进行敏感信息的发现;
对所述目标数据库中的目标数据表内的所述敏感信息进行脱敏,在脱敏完成后,解除对所述目标数据库中的所述目标数据表的锁定;
其中,所述目标数据表内存在预先锁定的敏感信息,所述预先锁定的敏感信息无法被删除和修改,在对所述目标数据表进行敏感信息发现的过程中,若接收到所述预先锁定的敏感信息的解锁请求,则根据所述解锁请求中请求解锁的所述预先锁定的敏感信息的种类,获取对应的预设解锁验证信息,以及判断所述解锁请求携带的解锁验证信息是否与所述预设解锁验证信息相同,并在两者相同时对所述预先锁定的敏感信息进行解锁,以使发送所述解锁请求的发送方修改或删除所述预先锁定的敏感信息。
2.根据权利要求1所述的数据脱敏控制方法,其特征在于,在所述对所述目标数据库中的目标数据表内的所述敏感信息进行脱敏前,还包括:
将所述敏感信息的发现结果发送给所述数据需求方;
若接收到所述数据需求方提出的对所述发现结果中的敏感信息的修改请求,则向预设的审批平台发送对所述敏感信息的修改审批,若接收到所述审批平台反馈的审批通过的信息,则根据所述修改请求修改所述发现结果中的敏感信息,否则保持所述发现结果不变。
3.根据权利要求1所述的数据脱敏控制方法,其特征在于,还包括:
在预设时间段内对所述生产环境的数据库的数据库操作日志进行检测,确定是否存在数据需求方自行从所述数据库中导出数据表至目标数据库的情况;
若是,则锁定所述数据需求方,禁止所述数据需求方从所述数据库中导出数据表。
4.根据权利要求1所述的数据脱敏控制方法,其特征在于,还包括:在对所述目标数据库中的目标数据表内的敏感信息进行脱敏时,若所述目标数据表中的一列数据脱敏完成,则标记脱敏完成的列数据为已脱敏数据;
在所述解除对所述目标数据库中的所述目标数据表的锁定前,包括:
根据对所述目标数据表的敏感信息的发现结果以及所述目标数据表中的标记,判断所述目标数据表中的敏感信息是否全部脱敏完成,若是,则执行所述解除对所述目标数据库中的所述目标数据表的锁定的步骤,否则不执行所述解除对所述目标数据库中的所述目标数据表的锁定的步骤。
5.根据权利要求1所述的数据脱敏控制方法,其特征在于,还包括:
在对所述目标数据表进行敏感信息的发现的过程中,若目标数据表的敏感信息发现过程中断,则获取所述目标数据表的中断位置,并保存对所述目标数据表的敏感信息的发现结果;
在未中断敏感信息发现过程的目标数据表的敏感信息发现过程结束后,对中断敏感信息发现过程的目标数据表从对应的中断位置进行敏感信息的发现,并将发现结果与敏感信息发现过程中断前的发现结果保存在一起。
6.根据权利要求1-5任一项所述的数据脱敏控制方法,其特征在于,所述对所述目标数据库中的目标数据表内的所述敏感信息进行脱敏包括:
对于所述目标数据库中的目标数据表内的所述敏感信息,按照所述敏感信息的类型获取各类型的敏感信息对应的脱敏算法;
按照各类型敏感信息对应的脱敏算法对所述目标数据表中的各类敏感信息进行脱敏处理。
7.一种电子装置,其特征在于,包括:
获取模块,用于获取目标数据表的识别信息;
导入模块,用于根据所述识别信息从生产环境的数据库中识别所述目标数据表,将所述目标数据表导入至目标数据库,并锁定所述目标数据库中的所述目标数据表,以禁止所述目标数据表的数据需求方访问所述目标数据库中的所述目标数据表;
第一处理模块,用于若所述目标数据库中的所述目标数据表来自不同的任务,则采用多任务并行处理方式,同时对不同任务下的目标数据表进行敏感信息的发现,其中,对于各任务下的目标数据表,按照一个进程对一个目标数据表进行敏感信息的发现的规则,采用多个进程对所有任务的目标数据表同时进行敏感信息的发现,并且对于各目标数据表,若满足目标数据表的数据量大于预设数据量阈值的条件,则将满足所述条件的目标数据表划分为若干子数据表,按照一个线程对一个子数据表进行敏感信息的发现的规则,在所述目标数据表对应的进程中运行若干线程对所述若干子数据表同时进行敏感信息的发现;
第二处理模块,用于若所述目标数据库中的所述目标数据表来自同一个任务,则按照一个进程对一个目标数据表进行敏感信息的发现的规则,采用至少一个进程对所有目标数据表同时进行敏感信息的发现,并且,对于所述目标数据表,若满足目标数据表的数据量大于预设数据量阈值的条件,则将满足所述条件的目标数据表划分为若干子数据表,按照一个线程对一个子数据表进行敏感信息的发现的规则,在所述目标数据表对应的进程中运行若干线程对所述若干子数据表同时进行敏感信息的发现;
脱敏模块,用于对所述目标数据库中的目标数据表内的所述敏感信息进行脱敏,在脱敏完成后,解除对所述目标数据库中的所述目标数据表的锁定;
其中,所述目标数据表内存在预先锁定的敏感信息,所述预先锁定的敏感信息无法被删除和修改,在对所述目标数据表进行敏感信息发现的过程中,若接收到所述预先锁定的敏感信息的解锁请求,则根据所述解锁请求中请求解锁的所述预先锁定的敏感信息的种类,获取对应的预设解锁验证信息,以及判断所述解锁请求携带的解锁验证信息是否与所述预设解锁验证信息相同,并在两者相同时对所述预先锁定的敏感信息进行解锁,以使发送所述解锁请求的发送方修改或删除所述预先锁定的敏感信息。
8.根据权利要求7所述的电子装置,其特征在于,还包括:
发送模块,用于在所述对所述目标数据库中的所述目标数据表内的所述敏感信息进行脱敏前,将所述敏感信息的发现结果发送给所述数据需求方;
发现结果处理模块,用于若接收到所述数据需求方提出的对所述发现结果中的敏感信息的修改请求,则向预设的审批平台发送对所述敏感信息的修改审批,若接收到所述审批平台反馈的审批通过的信息,则根据所述修改请求修改所述发现结果中的敏感信息,否则保持所述发现结果不变。
9.一种电子装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1-6中任意一项所述方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1-6中的任意一项所述方法中的步骤。
CN201910699124.6A 2019-07-31 2019-07-31 数据脱敏控制方法、电子装置及计算机可读存储介质 Active CN110532799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910699124.6A CN110532799B (zh) 2019-07-31 2019-07-31 数据脱敏控制方法、电子装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910699124.6A CN110532799B (zh) 2019-07-31 2019-07-31 数据脱敏控制方法、电子装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110532799A CN110532799A (zh) 2019-12-03
CN110532799B true CN110532799B (zh) 2023-03-24

Family

ID=68661043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910699124.6A Active CN110532799B (zh) 2019-07-31 2019-07-31 数据脱敏控制方法、电子装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110532799B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125769B (zh) * 2019-12-27 2023-09-19 上海轻维软件有限公司 基于oracle数据库的海量数据脱敏方法
CN111414362B (zh) * 2020-02-28 2023-11-10 平安科技(深圳)有限公司 数据读取方法、装置、设备及存储介质
CN111639081A (zh) * 2020-06-02 2020-09-08 南京星邺汇捷网络科技有限公司 敏感数据采集方法、装置及数据处理设备
CN114491612A (zh) * 2020-10-27 2022-05-13 华为技术有限公司 文件脱敏方法、装置及存储介质
CN113961968B (zh) * 2021-12-22 2022-03-04 北京安华金和科技有限公司 一种文件进行数据脱敏中断后处理方法和装置
CN114020477A (zh) * 2022-01-04 2022-02-08 北京安华金和科技有限公司 一种脱敏集群环境并发任务调度方法和装置
CN117076094B (zh) * 2023-10-16 2024-01-16 中国船舶集团有限公司第七〇七研究所 一种密码运算多任务并发处理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794204A (zh) * 2015-04-23 2015-07-22 上海新炬网络信息技术有限公司 一种数据库敏感数据自动识别方法
CN106295400A (zh) * 2016-08-04 2017-01-04 北京网智天元科技股份有限公司 蒙版式数据脱敏方法及相关设备
CN107103253A (zh) * 2017-04-28 2017-08-29 哈尔滨理工大学 基于mpi的ac串匹配并行算法的磁盘敏感信息扫描系统
CN108563961A (zh) * 2018-04-13 2018-09-21 中国民航信息网络股份有限公司 数据脱敏平台敏感数据识别方法、装置、设备及介质
CN109284631A (zh) * 2018-10-26 2019-01-29 中国电子科技网络信息安全有限公司 一种基于大数据的文档脱敏系统及方法
CN109657496A (zh) * 2018-12-20 2019-04-19 中国电子科技网络信息安全有限公司 一种零拷贝全镜像的大数据静态数据库脱敏系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711741B2 (en) * 2007-05-14 2010-05-04 Oracle International Corp. Desensitizing data in cloning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794204A (zh) * 2015-04-23 2015-07-22 上海新炬网络信息技术有限公司 一种数据库敏感数据自动识别方法
CN106295400A (zh) * 2016-08-04 2017-01-04 北京网智天元科技股份有限公司 蒙版式数据脱敏方法及相关设备
CN107103253A (zh) * 2017-04-28 2017-08-29 哈尔滨理工大学 基于mpi的ac串匹配并行算法的磁盘敏感信息扫描系统
CN108563961A (zh) * 2018-04-13 2018-09-21 中国民航信息网络股份有限公司 数据脱敏平台敏感数据识别方法、装置、设备及介质
CN109284631A (zh) * 2018-10-26 2019-01-29 中国电子科技网络信息安全有限公司 一种基于大数据的文档脱敏系统及方法
CN109657496A (zh) * 2018-12-20 2019-04-19 中国电子科技网络信息安全有限公司 一种零拷贝全镜像的大数据静态数据库脱敏系统及方法

Also Published As

Publication number Publication date
CN110532799A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110532799B (zh) 数据脱敏控制方法、电子装置及计算机可读存储介质
US10346439B2 (en) Entity resolution from documents
US8856945B2 (en) Dynamic security question compromise checking based on incoming social network postings
US7698445B2 (en) Client agents for obtaining attributes from unavailable clients
US8615516B2 (en) Grouping similar values for a specific attribute type of an entity to determine relevance and best values
CN109885786B (zh) 数据缓存处理方法、装置、电子设备及可读存储介质
US11386224B2 (en) Method and system for managing personal digital identifiers of a user in a plurality of data elements
US20090094462A1 (en) System and method for self policing of authorized configuration by end points
US11710330B2 (en) Revealing content reuse using coarse analysis
US9571515B2 (en) Notification of security question compromise level based on social network interactions
AU2016422515A1 (en) Tracing objects across different parties
EP3188051B1 (en) Systems and methods for search template generation
WO2021208762A1 (zh) 数据存储、查询
CN112527433A (zh) 页面弹窗控制方法、装置、计算机设备和存储介质
CN112446022A (zh) 数据权限控制方法、装置、电子设备及存储介质
CN115730012A (zh) 一种数据库脱敏方法及系统
CN116244751A (zh) 数据脱敏方法、装置、电子设备、存储介质和程序产品
US20130232172A1 (en) Methods and systems for matching expressions
CN112528189A (zh) 基于数据的组件封装方法、装置、计算机设备及存储介质
CN112668019B (zh) 权限配置方法、装置、计算机设备及存储介质
US11847412B2 (en) Enforcing data ownership at gateway registration using natural language processing
CN112637110B (zh) 检测口令的方法、口令检测设备及存储介质
US20240070319A1 (en) Dynamically updating classifier priority of a classifier model in digital data discovery
US20220366035A1 (en) Execution control system, execution control method, and program
CN114637801A (zh) 数据导入方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant