CN115730012A

CN115730012A - 一种数据库脱敏方法及系统

Info

Publication number: CN115730012A
Application number: CN202211509333.8A
Authority: CN
Inventors: 唐更新; 段兴栋; 宋辉; 赵卫国
Original assignee: Beijing Zhongan Xingyun Software Technology Co ltd
Current assignee: Beijing Zhongan Xingyun Software Technology Co ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-03-03

Abstract

本发明提出了一种数据库脱敏方法及系统，涉及数据脱敏领域。该方法包括：基于sdm获取目标数据库中的目标元数据；获取的目标元数据写入Kafka中；基于sdm将写入Kafka中的目标元数据进行读取及脱敏操作，得到脱敏数据；基于sdm将脱敏数据重新写入目标元数据对应的储存表中。该系统包括数据获取模块、数据写入模块、数据脱敏模块和数据重写模块。整个方法主要是通过Kafka作为中间件处理，使得可以直接完成将原数据表中的数据脱敏到原数据表中的操作，从而可以用以解决异库脱敏时需要创建一个数据库而造成的内存不足的问题，也能缓解多个数据库不便管理的问题。

Description

一种数据库脱敏方法及系统

技术领域

本发明涉及数据脱敏领域，具体而言，涉及一种数据库脱敏方法及系统。

背景技术

信息化时代，数据是一笔宝贵的资产。不管企业还是政府单位，每天都在有意无意地收集、存储、共享数据，且规模越来越大。与各类数据打交道，是现代企业成长的必经之路，但是敏感数据泄露的风险也与日俱增。身份证信息、酒店入住记录、用户支付信息等这些数据一旦泄露将涉及个人隐私安全。因此数据脱敏就极为重要，数据脱敏是一种为用户提供虚假数据而非真实数据、防止敏感数据滥用的技术。

其中，在现有技术中针对数据库的脱敏都是采用的异库脱敏方式(A库A表脱敏到B库B表)，采用异库脱敏方式时需要创建一个database(数据库)，来保存脱敏后的数据，如果元数据比较大或者机器内存不足，这个新建的database就无法完整的保存脱敏后的数据，从而会导致脱敏失败。

发明内容

本发明的目的在于提供一种数据库脱敏方法及系统，其通过Kafka作为中间件处理，使得可以直接完成将原数据表中的数据脱敏到原数据表中的操作，从而可以用以解决异库脱敏时需要创建一个数据库而造成的内存不足的问题，也能缓解多个数据库不便管理的问题。

本发明的实施例是这样实现的：

第一方面，本申请实施例提供一种数据库脱敏方法，包括以下步骤：

步骤S101：基于sdm获取目标数据库中的目标元数据；

步骤S102：将获取的目标元数据写入Kafka中；

步骤S103：基于sdm将写入Kafka中的目标元数据进行读取及脱敏操作，得到脱敏数据；

步骤S104：基于sdm将脱敏数据重新写入目标元数据对应的储存表中。

在本发明的一些实施例中，上述步骤S101之前还包括：

获取目标源数据对应的储存表并对其进行架构同步处理；

基于架构同步处理获取储存表结构信息；

基于储存表结构信息对目标源数据进行脱敏扫描判断，得到目标脱敏源数据；

基于脱敏扫描算法对目标脱敏源数据进行脱敏操作。

在本发明的一些实施例中，上述步骤S104具体包括：

在sdm将目标元数据读取完毕后，将目标元数据进行数据删除处理，并在数据删除处理完毕后向其他线程下发一个删除标识；

基于删除标识利用sdm将脱敏数据重新写入目标元数据对应的储存表中。

在本发明的一些实施例中，上述步骤S104之前还包括：

当sdm对任一一张目标元数据对应的储存表中的目标元数据脱敏完成后，获取此储存表所在的分区和消费完表数据的偏移量信息；

居于分区和消费完表数据的偏移量信息删除对应的储存表中的目标元数据。

在本发明的一些实施例中，上述步骤S101、上述步骤S102和上述步骤S103均同步进行。

在本发明的一些实施例中，上述脱敏操作包括无效化处理、随机值处理、数据替换处理、对称加密处理、平均值处理或偏移取整处理中的任一一种或多种。

在本发明的一些实施例中，上述目标元数据包括客户名称、证件号码、电话号码、邮箱、地址信息、客户编号、密码、账号信息和客户或员工收入信息中的任一一种或多种。

第二方面，本申请实施例提供一种数据库脱敏系统，其包括：

数据获取模块，用于基于sdm获取目标数据库中的目标元数据；

数据写入模块，用于将获取的目标元数据写入Kafka中；

数据脱敏模块，用于基于sdm将写入Kafka中的目标元数据进行读取及脱敏操作，得到脱敏数据；

数据重写模块，用于基于sdm将脱敏数据重新写入目标元数据对应的储存表中。

第三方面，本申请实施例提供一种电子设备，其包括存储器，用于存储一个或多个程序；处理器。当上述一个或多个程序被上述处理器执行时，实现如上述第一方面中任一项上述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面中任一项上述的方法。

相对于现有技术，本发明的实施例至少具有如下优点或有益效果：

本发明的实施例提出了一种数据库脱敏方法，其通过基于sdm进行获取目标数据库中的目标元数据，然后将目标元数据写入到Kafka中，并基于sdm将写入Kafka中的目标元数据进行读取及脱敏操作，从而得到脱敏数据，最后再将脱敏数据重新写入到目标元数据对应的储存表中。也就是说通过上述方法即可完成将原数据表中的数据脱敏到原数据表中的操作，整个方法简单高效。并且由于异库脱敏方式对数据库的存储空间要求比较高，而存储空间对于系统来说是比较稀缺的一部分资源，而本实施例中的方法不需要去创建新的数据库，从而可以解决新建数据库造成的内存不足的问题，也能缓解多个数据库不便管理的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明一种数据库脱敏方法一实施例的流程图；

图2为本发明一种数据库脱敏方法又一实施例的流程图；

图3为本发明实施例中步骤S101之前还包括的步骤的具体流程图；

图4为本发明一种数据库脱敏系统一实施例的结构框图；

图5为本发明实施例提供的一种电子设备的结构框图。

图标：1、数据获取模块；2、数据写入模块；3、数据脱敏模块；4、数据重写模块；5、存储器；6、处理器；7、通信接口。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

实施例

请参阅图1-2，该一种数据库脱敏方法包括以下步骤：

步骤S101：基于sdm获取目标数据库中的目标元数据；

在上述步骤中，sdm又称为静态脱敏，其适用于将数据抽取出生产环境脱敏后分发至测试、开发、培训、数据分析等场景。即，有时我们可能需要将生产环境的数据复制到测试、开发库中，以此来排查问题或进行数据分析，但出于安全考虑又不能将敏感数据存储于非生产环境，此时就要把敏感数据从生产环境脱敏完毕之后再在非生产环境使用。也即是说，上述步骤中通过基于sdm获取目标数据库中的目标元数据，将可以为后续对其中的目标元数据进行相应的处理提供原始数据支撑。

具体地，其中目标元数据可以包括客户名称、证件号码、电话号码、邮箱、地址信息、客户编号、密码、账号信息和客户或员工收入信息中的任一一种或多种。

步骤S102：将获取的目标元数据写入Kafka中；

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作(网页浏览，搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像HadOOp一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过HadOOp的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。也即是说，kafka是一个发布/订阅的消息队列，只是它具有分布式以及大规模(支持大数据量)的特性。在上述步骤中，其通过将获取的目标元数据写入Kafka中，而不是像现有技术中的那样放到内存里面，从而可以有效的使得其不会受内存溢出影响。内存溢出(OutOfMemory，简称OOM)是指应用系统中存在无法回收的内存或使用的内存过多，最终使得程序运行要用到的内存大于能提供的最大内存。现有技术中会出现内存溢出的主要原因是，采用异库脱敏方式时(A库A表脱敏到B库B表)，需要创建一个database(数据库)，来保存脱敏后的元数据，而元数据往往都比较大，需要耗费大量的内存，从而在元数据比较大或者机器内存不足时，这个新建的database就无法完整的保存脱敏后的数据，从而导致出现内存溢出现象。而上述步骤不会出现内存溢出的原因是可以基于Kafka的可以对指定分区的偏移量进行删除这一机制进行数据传输优化，具体的请参照步骤S401-S402以及步骤S301-S302中的详细解释说明。

上述步骤中，数据脱敏操作也叫数据的去隐私化操作，在我们给定脱敏规则和策略的情况下，对敏感数据比如手机号、银行卡号等信息，进行转换或者修改的一种技术手段，防止敏感数据直接在不可靠的环境下使用。像政府、医疗行业、金融机构、移动运营商是比较早开始应用数据脱敏的，因为他们所掌握的都是用户最核心的私密数据，如果泄露后果是不可估量的。数据脱敏的应用在生活中也是比较常见的，比如我们在网购买东西的订单详情中，商家账户信息会被用*遮挡，保障了商户隐私不泄露，这就是一种数据脱敏方式。其通过基于sdm将写入Kafka中的目标元数据进行读取及脱敏操作，得到相应的脱敏数据，从而可以方便后续利用脱敏数据完成相应的数据处理。

示例性地，脱敏操作可以包括无效化处理、随机值处理、数据替换处理、对称加密处理、平均值处理或偏移取整处理中的任一一种或多种。

上述步骤中，无效化处理是指在处理待脱敏的数据时，通过对字段数据值进行截断、加密、隐藏等方式让敏感数据脱敏，使其不再具有利用价值。例如，可以采用特殊字符(*等)代替真值，这种隐藏敏感数据的方法简单，但缺点是用户无法得知原数据的格式，如果想要获取完整信息，要让用户授权查询。随机值处理是利用随机值进行替换处理，即将字母变为随机字母，数字变为随机数字，文字随机替换文字的方式来改变敏感数据。这种方案的优点在于可以在一定程度上保留原有数据的格式，往往这种方法用户不易察觉的。数据替换处理，其和无效化方式比较相似，不同的是这里不以特殊字符进行遮挡，而是用一个设定的虚拟值替换真值。比如说我们将手机号统一设置成“19141370000”。对称加密处理是通过加密密钥和算法对敏感数据进行加密，密文格式与原始数据在逻辑规则上一致，通过密钥解密可以恢复原始数据，所以其要注意的就是密钥的安全性。平均值处理是针对数值型数据，我们先计算它们的均值，然后使脱敏后的值在均值附近随机分布，从而保持数据的总和不变。偏移取整处理是通过随机移位改变数字数据，偏移取整在保持了数据的安全性的同时保证了范围的大致真实性，比之前几种方案更接近真实数据，在大数据分析场景中意义比较大。当然，使用者可以根据自身需要进行选择不同的脱敏操作，从而更有针对性的进行数据脱敏。

上述步骤中，通过基于sdm将脱敏数据重新写入目标元数据对应的储存表中，从而将可以在同一数据库中完成相应的对数据库中的数据进行脱敏操作。也就是不需要再去创建新的database(数据库)，可以从A库A表直接脱敏到A库A表，这样可以解决新建database造成的内存不足的问题，也能缓解多个database不便管理的问题。

具体地，上述步骤S104可以具体包括：

步骤S301：在sdm将目标元数据读取完毕后，将目标元数据进行数据删除处理，并在数据删除处理完毕后向其他线程下发一个删除标识；

步骤S302：基于删除标识利用sdm将脱敏数据重新写入目标元数据对应的储存表中。

上述步骤中，由于脱敏数据是需要放入原储存表里面的，而原数据表里面还放有目标元数据，所以其需要对储存表中的目标元数据进行删除处理后再将脱敏数据放到其中。具体的步骤如步骤S301-S302中的一样，是在利用sdm将脱敏数据重新写入目标元数据对应的储存表中之前通过协调其中的删除标识下发的问题用以完成相应的处理的。

具体地，步骤S104之前还包括：

步骤S401：当sdm对任一一张目标元数据对应的储存表中的目标元数据脱敏完成后，获取此储存表所在的分区和消费完表数据的偏移量信息；

步骤S402：居于分区和消费完表数据的偏移量信息删除对应的储存表中的目标元数据。

上述步骤中，在步骤S103-S104之间有一个安全队列传递数据，安全队列的大小是可以根据sdm的运行内存大小进行决定的，目的是用以防止内存溢出。如果在步骤S104处理的时候没有收到删除标识，其脱敏数据重新写入线程会阻塞在原地等待，在等待的时候，如果安全队列已满，则步骤S103中的线程无法继续网安全队列中放入脱敏数据，此时步骤S103中的脱敏操作线程会阻塞等待，直到安全队列能写入脱敏数据为止。在这期间，就会涉及磁盘大小的问题，写入Kafka中的目标元数据最终都会写入到磁盘上，如果sdm机器的磁盘较小，数据库的目标元数据较大，这将会导致数据溢出，从而导致脱敏操作失败。而在上述步骤中，当sdm脱敏完一张储存表的目标元数据后，对这个储存表所在的分区和消费完表数据的偏移量进行记录，然后将可以去删除这个分区的指定偏移量的目标元数据，从而可以完美的解决磁盘大小影响对数据库脱敏的问题。

另外，需要说明的是，步骤S101、步骤S102和步骤S103均同步进行。也即是说，在基于sdm获取目标数据库中的目标元数据的时候，也会同步将获取的目标元数据写入Kafka中，而且会同步对其进行脱敏操作，从而可以有效的节约整个数据库中的数据的脱敏操作的时间。

另外，请参阅图3，在本发明的一些实施例中步骤S101之前还包括：

步骤S201：获取目标源数据对应的储存表并对其进行架构同步处理；

所谓源数据(SourceData)本质是在讲“数据”本身，强调数据状态是“创建”之后的“原始状态”，也就是没有被加工处理的数据。在数据管理的过程中，源数据一般是指直接来自源文件(业务系统数据库、线下文件、IoT等)的数据，或者直接拷贝源文件的“副本数据”。另外，同步调用是指从请求的发起一直到最终的处理完成期间，请求的调用方一直在同步阻塞等待调用的处理完成。而上述步骤中，通过对目标源数据对应的储存表进行架构同步处理，将可以方便后续对目标源数据进行相应的处理。

步骤S202：基于架构同步处理获取储存表结构信息；

步骤S203：基于储存表结构信息对目标源数据进行脱敏扫描判断，得到目标脱敏源数据；

步骤S204：基于脱敏扫描算法对目标脱敏源数据进行脱敏操作。

上述步骤中，在获取储存表结构信息后，对储存表里面的源数据进行敏感扫描用以判断哪些源数据是敏感的，并根据相应的扫描算法进行源数据脱敏，从而完成对敏感源数据对应的敏感储存表的脱敏操作。通过上述步骤将可以方便后续对数据库中的目标元数据的脱敏操作，简单方便快捷。

基于同样的发明构思，请参阅图4，本发明还提出一种数据库脱敏系统，包括：

数据获取模块1，用于基于sdm获取目标数据库中的目标元数据；

数据写入模块2，用于将获取的目标元数据写入Kafka中；

数据脱敏模块3，用于基于sdm将写入Kafka中的目标元数据进行读取及脱敏操作，得到脱敏数据；

数据重写模块4，用于基于sdm将脱敏数据重新写入目标元数据对应的储存表中。

上述系统具体实现过程请参照本申请实施例提供的一种数据库脱敏方法，在此不再赘述。

请参阅图5，图5为本发明实施例提供的一种电子设备的结构框图。该电子设备包括存储器5、处理器6和通信接口7，该存储器5、处理器6和通信接口7相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器5可用于存储软件程序及模块，如本申请实施例所提供的一种数据库脱敏系统对应的程序指令/模块，处理器6通过执行存储在存储器5内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口7可用于与其他节点设备进行信令或数据的通信。

其中，存储器5可以是但不限于，随机存取存储器(RandomAccessMemory，RAM)，只读存储器(ReadOnlyMemory，ROM)，可编程只读存储器(ProgrammableRead-OnlyMemory，PROM)，可擦除只读存储器(ErasableProgrammableRead-OnlyMemory，EPROM)，电可擦除只读存储器(ElectricErasableProgrammableRead-Only Memory，EEPROM)等。

处理器6可以是一种集成电路芯片，具有信号处理能力。该处理器6可以是通用处理器，包括中央处理器(CentralProcessingUnit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DigitalSignalProcessing，DSP)、专用集成电路(Application SpecificIntegratedCircuit，ASIC)、现场可编程门阵列(Field－ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，图5所示的结构仅为示意，电子设备还可包括比图5中所示更多或者更少的组件，或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

上述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种数据库脱敏方法，其特征在于，包括以下步骤：

步骤S101：基于sdm获取目标数据库中的目标元数据；

步骤S102：将获取的目标元数据写入Kafka中；

2.如权利要求1所述的一种数据库脱敏方法，其特征在于，所述步骤S101之前还包括：

获取目标源数据对应的储存表并对其进行架构同步处理；

基于架构同步处理获取储存表结构信息；

基于脱敏扫描算法对目标脱敏源数据进行脱敏操作。

3.如权利要求1所述的一种数据库脱敏方法，其特征在于，所述步骤S104具体包括：

4.如权利要求1所述的一种数据库脱敏方法，其特征在于，所述步骤S104之前还包括：

5.如权利要求1所述的一种数据库脱敏方法，其特征在于，所述步骤S101、所述步骤S102和所述步骤S103均同步进行。

6.如权利要求1所述的一种数据库脱敏方法，其特征在于，所述脱敏操作包括无效化处理、随机值处理、数据替换处理、对称加密处理、平均值处理或偏移取整处理中的任一一种或多种。

7.如权利要求1所述的一种数据库脱敏方法，其特征在于，所述目标元数据包括客户名称、证件号码、电话号码、邮箱、地址信息、客户编号、密码、账号信息和客户或员工收入信息中的任一一种或多种。

8.一种数据库脱敏系统，其特征在于，包括：

数据写入模块，用于将获取的目标元数据写入Kafka中；

9.一种电子设备，其特征在于，包括：

存储器，用于存储一个或多个程序；

处理器；

当所述一个或多个程序被所述处理器执行时，实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。