CN111125769A

CN111125769A - 基于oracle数据库的海量数据脱敏方法

Info

Publication number: CN111125769A
Application number: CN201911375004.7A
Authority: CN
Inventors: 程永新; 宋辉; 郭振宇
Original assignee: Shanghai Qingwei Software Co ltd
Current assignee: Shanghai Qingwei Software Co ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-08
Anticipated expiration: 2039-12-27
Also published as: CN111125769B

Abstract

本发明公开了一种基于ORACLE数据库的海量数据脱敏方法，包括如下步骤：S1：根据数据库中需要脱敏的表的数据量，对每个表进行数据分片；S2：根据表的数据量分配定义线程管道组数和线程数量；S3：执行表的所有线程管道的线程从数据库的原表中抽取数据分片脱敏后加载到目标表中，完成数据脱敏。本发明通过表数据分片，分片均匀，提高数据抽取性能，实现高速数据抽取；通过直通路径加载，并采用禁用日志提高加载性能，实现单表下的高速数据加载；设置线程总调度器，实现线程动态分配提高加载性能，实现多表下的高速数据加载；全程脱敏都在内存中操作，保证数据不落地，确保数据不泄漏。

Description

基于ORACLE数据库的海量数据脱敏方法

技术领域

本发明涉及一种数据脱敏方法，尤其涉及一种基于ORACLE数据库的海量数据脱敏方法。

背景技术

ORACLE数据库是目前世界上使用最为广泛的数据库管理系统，作为一个通用的数据库系统，它具有完整的数据管理功能；作为一个关系数据库，它是一个完备关系的产品；作为分布式数据库它实现了分布式处理功能。数据脱敏，指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。这样就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。ORACLE数据库作为关系数据库时，大量的敏感信息需要进行脱敏处理。

现有的脱敏方法有以下两种：

方案1：使用简单的JDBC方式脱敏。

方案2：数据库维护人员通过执行ORACLE数据泵脚本将生产库A数据同步到测试库B，然后再对敏感字段执行update语法更新敏感数据。

现有的脱敏方法存在以下问题：

现有方案1会导致下面的问题：JDBC能抽取和加载数据，但当单表的数据量达到亿级时，会造成抽取和加载的性能都非常慢，甚至可能出现查询超时现象，无法完成脱敏任务的缺点。

现有方案2会导致下面的问题：因为数据泵要导出文件，要两倍于源始数据的空间，如果数据量过大会导致源数据库服务器硬盘空间不足；文件导出将导致在脱敏过程中敏感数据外泄，用update语法更新导致脱敏后，数据会失去数据特征且无法保证业务关联性，或造成脱敏后数据变得单一；操作难度大，人工操作容易遗漏。

发明内容

本发明要解决的技术问题是提供一种基于ORACLE数据库的海量数据脱敏方法，解决上述问题。

本发明为解决上述技术问题而采用的技术方案是提供一种基于ORACLE数据库的海量数据脱敏方法，包括如下步骤：

S1：根据数据库中需要脱敏的表的数据量，对每个表进行数据分片；

S2：根据表的数据量分配定义线程管道组数和线程数量；

S3：执行表的所有线程管道的线程从数据库的原表中抽取数据分片脱敏后加载到目标表中，完成数据脱敏。

进一步的，所述表的数据分片为均匀分片，具体包括：每个表单独使用ORACLE的sample()函数均匀取出表的N个物理存储地址ROWID，物理存储地址的数量根据ORACLE的表大小动态修改，直到抽取到合适的ROWID数量，然后将ROWID排序后两两为一区间划分成多个分片，分片完成后，表的所有分片SQL都放入该表的分片队列；如果表为普通表，则对表进行一次分片，如果是分区表，则对表的每个分区都进行一次分片。

进一步的，所述表数据进行分区切片后，对分片进行重新排序，把不同的分区映射到不同磁盘进行I/O平衡，使多个线程能轮询获取到不同分区的分片，多个线程同时操作不同的磁盘。

进一步的，所述步骤S2具体包括：S21：根据表的数据量将表分为四类：分类一：数据量为0MB-10MB；分类二：数据量为10MB-1GB；分类三：数据量1GB-10GB；分类四，数据量大于10GB；S22：根据表的数据量的分类给每个表分配合适的线程管道组数：分类一分配1组线程管道；分类二分配4组线程管道；分类三分配16组线程管道；分类四分配32组线程管道；S23：分配的线程数量为线程管道的组数的3倍，所述线程分为抽取线程、脱敏线程和加载线程，每一组线程管道由对应设置的抽取线程、脱敏线程和加载线程组成，对应设置的抽取线程、脱敏线程和加载线程通过队列进行数据传递，组成一条串行的线程管道，所述抽取线程和脱敏线程通过管道队列一进行数据传递，所述脱敏线程和加载线程通过管道队列二进行数据传递。

进一步的，所述步骤S3中执行线程管道的线程具体包括：S311：线程管道的抽取线程去分片队列里轮询取出分片SQL来连接ORACLE数据库读取数据，将数据发送到管道队列一；S312：线程管道的脱敏线程从管道队列一拉取数据，进行数据脱敏，将脱敏后数据传递到管道队列二；S313：线程管道的加载线程从管道队列二拉取数据，再加载到目标数据表。

进一步的，所述步骤S313中数据加载是通过直通路径加载到目标数据表，插入的数据通过ORACLE程序全局区直接把数据格式化成ORACLE块，然后由普通的ORACLE服务器进程把数据块写入目标数据表，把数据直接插入到段的高水位以上；数据加载到目标数据表的过程中禁用日志，生成最少量的REDO和UNDO，减少目标数据库的I/O。

进一步的，进行单表的脱敏时，所述步骤S3中直接执行该表分配定义的每个线程管道的线程进行数据的抽取、脱敏和加载。

进一步的，进行多表脱敏时，所述步骤S3中通过线程总调度器来调度线程来执行所有表的线程管道的线程进行数据的抽取、脱敏和加载，具体包括如下步骤：S321：在线程总调度器中配置总线程管道数和总表数；S322：线程总调度器将需要脱敏的所有表，按照数据量从大到小进行排序；S323：将每个表分配定义的线程数量和线程管道组数交由线程总调度器保存，统一分配执行顺序；S324：线程总调度器按照表的排序依次执行每个表的第一组线程管道的线程，然后按照表的排序依次执行每个表的第二组线程管道的线程，直到总线程管道数分配完毕；S325：线程总调度器监听线程管道，如果有线程管道的线程执行完毕，继续按照步骤S324的顺序执行线程管道的线程进行数据的抽取、脱敏和加载，当线程总调度器监听到有表的所有线程管道的线程都执行完毕，那么线程总调度器给该表打上完成标记，直到所有表都打上完成标记，则完成所有表数据的脱敏。

进一步的，所述线程总调度器里存放有总管道数和总表数的配置值，所述总管道数和总表数的配置值通过主机CPU核心数和JVM内存大小计算得到或者根据任务指定。

进一步的，进行多表脱敏时，不同的表映射到不同表空间磁盘以平衡I/O，使多个线程能轮询获取到不同表的不同分区的分片，多个线程同时操作不同的磁盘。

本发明对比现有技术有如下的有益效果：本发明提供的基于ORACLE数据库的海量数据脱敏方法，通过表数据分片，分片均匀，提高数据抽取性能，实现高速数据抽取；通过直通路径加载，并采用禁用日志提高加载性能，实现单表下的高速数据加载；设置线程总调度器，实现线程动态分配提高加载性能，实现多表下的高速数据加载；全程脱敏都在内存中操作，保证数据不落地，确保数据不泄漏。

附图说明

图1为本发明实施例中基于ORACLE数据库的海量数据脱敏方法进行多表脱敏的示意图；

图2为本发明实施例中基于ORACLE数据库的海量数据脱敏方法进行单表脱敏的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

图1为本发明实施例中基于ORACLE数据库的海量数据脱敏方法进行多表脱敏的示意图；图2为本发明实施例中基于ORACLE数据库的海量数据脱敏方法进行单表脱敏的示意图。

请参见图1和图2，本发明实施例的基于ORACLE数据库的海量数据脱敏方法，包括如下步骤：

第一步：根据数据库中需要脱敏的表的数据量，对每个表进行数据分片；

对每个表单独使用ORACLE的sample()函数均匀取出表的N个物理存储地址ROWID，N的值根据ORACLE的表大小动态修改，直到抽取到合适的ROWID数量，然后将ROWID排序后两两为一区间划分成多个范围。这种分片方法性能超高，在10亿量数据表下也能毫秒就能切分完。分片完后，表的所有分片SQL都放入该表的私有队列，例如表占用容量为10GB，表切出了64个分片，分配了16个管道，每个管道的抽取线程都去分片队列里轮询拿出分片SQL来连接ORACLE读取数据，将数据发送到队列1，达到并发高效抽取性能。如果表是普通表只需要执行一次切片SQL取出分片即可。如果是分区表，考虑到分区表通常都比较大，会对表的每个分区都执行一次切片SQL，这样能更均匀切片。

第二步：根据表的数据量分配定义线程管道组数和线程数量；

根据ORACLE系统表查询源库中表数据量，将表按照0MB-10MB，10MB-1GB，1GB-10GB，大于10GB，分为4类，不同大小的表分配合适的线程数去处理，抽取、脱敏和加载各分配一个线程处理，分别为抽取线程、脱敏线程和加载线程，之间都有一条队列来传递数据，三个线程就组成了一条串行的线程管道，这样利用多线程并发的特性，提高CPU利用率，例如：CPU核数＝16，调度任务设置的最大管道数＝32，线程管道数分配如下：

分类一：0MB-10MB，表占用容量小，分配1组管道；

分类二：10MB-1GB，表占用容量一般，建议分配4组管道；

分类三：1GB-10GB，表占用容量略大，建议分配管道组数＝调度任务设置的最大线程数/2＝16；

分类四：大于10GB，表占用容量非常大，建议分配线程管道组数＝调度任务设置的最大线程数＝32。

第三步：执行表的所有线程管道的线程从数据库的原表中抽取数据分片脱敏后加载到目标表中，完成数据脱敏；

进行单表脱敏时，每个线程管道的抽取线程都去队列里轮询拿出分片SQL来连接ORACLE读取数据，将数据发送到管道队列一；脱敏线程从管道队列一拉取数据，进行数据脱敏，将脱敏后数据传递到管道队列二；加载线程从管道队列二拉取数据，再加载到目标数据库。一组线程管道的三个线程协作能将抽取、脱敏、加载三个操作解耦，每个线程专注做一个事情，也尽可能利用多核CPU的特性达到数据脱敏的最佳性能。数据都是在内存中处理脱敏，所以保证了脱敏效率的同时又能保证数据不落地，确保数据不泄漏。因为在内存中脱敏，脱敏的算法可以无限扩展，不受数据库限制。

线程管道的加载线程拉取数据再加载到目标库时，如果表数据量达到亿级以上，普通的JDBC批量插入速度会比较慢，数据插入越往后就会越慢，速度程线性下降，为了达到最佳加载性能，通过直通路径加载、禁用日志并通过分区平衡加载提高加载效率。

直通路径加载：插入的数据不经过缓存，从ORACLE程序全局区直接把数据格式化成ORACLE块，然后由普通的ORACLE服务器进程把数据块写入数据文件，因为不经过缓存，所以不需要DBWn(Database Writer Process)介入，避免了一些SQL处理，并且加载把数据直接插入到段的高水位(HWM)以上，避免了大量搜索空闲数据块的时间。

禁用日志：使数据库在写入数据时不产生大量日志，从而生成了最少量的REDO和UNDO(只生成数据字典的UNDO，不生成块中数据的UNDO)，减少数据库的I/O，从而提高了插入性能。

分区平衡加载：因为ORACLE的分区原理是每个分区都是一个独立的段(SEGMENT)，为了均衡I/O，可以把不同的分区映射到不同磁盘以平衡I/O，所以在第一步分区切片后，对分片进行重新排序，使多个线程能轮询获取到不同分区的分片，这样在并发抽取和加载时，多个线程就等于同时操作不同的磁盘，达到插入的最佳性能。

生产环境多数是整库或者整个集合来脱敏，针对多个表海量数据同时脱敏，要多个表的海量数据同时执行脱敏算法，有些脱敏算法比较复杂，消耗比较多的CPU资源，所以脱敏服务器执行的属于CPU密集型任务，因为CPU资源是有限的，如果不限制启动多线程的数量，会出现CPU上下文切换频繁，消耗大量的CPU时间，同时也可能导致CPU来不及处理数据，数据都积压在管道内(管道是用基于内存的队列Array Blocking Queue)，导致JVM内存溢出。上下文切换可以认为是内核(操作系统的核心)在CPU上对于线程进行以下的活动：挂起一个线程，将这个线程在CPU中的状态(上下文)存储于内存中的某处，在内存中检索下一个线程的上下文并将其在CPU的寄存器中恢复，跳转到程序计数器所指向的位置(即跳转到线程被中断时的代码行)，以恢复该线程。上下文切换有时被描述为内核挂起CPU当前执行的线程，然后继续执行之前挂起的众多线程中的某一个，上下文切换通常是计算密集型的。也就是说，它需要相当可观的处理器时间，在每秒几十上百次的切换中，每次切换都需要纳秒量级的时间，上下文切换对系统来说意味着消耗大量的CPU时间。

因此，进行多表脱敏时在单表脱敏的基础上增加了表平衡加载和线程动态分配。

表平衡加载：因为ORACLE的表是每个表都是一个独立的表段(SEGMENT)，为了均衡I/O，可以把不同的表映射到不同表空间磁盘以平衡I/O，也因为机器的CPU是有限的，要将CPU合理分配去同时处理不同的表，才能最大限度地平衡I/O。

线程动态分配：通过增加线程总调度器来统一分配CPU线程来执行脱敏任务。

增加线程总调度器，并在调度器里存放了总管道数和总表数量的定义值，总管道数和总表数量的定义值由程序按照主机CPU核心数和JVM(Java Virtual Machine)内存大小计算出最合适数量，也可以由用户执行任务时指定这个数量，以32个总管道数和100个表来说明，将任务要脱敏的100个表按大小容量排序，大容量的表排最前(先执行)，小容量的表排后(后执行)，空表排最后(最后执行)，因为大容量的表脱敏耗时比较长，先执行会尽可能减少整体的任务时间。

线程总调度器获取第一个表，改表已经完成数据分片并分配定义线程管道组数和线程数量，线程管道里的线程只是分配好定义，但不执行，所有线程都交由线程总调度器保存起来，统一分配执行顺序，线程总调度器先执行表1-管道1的3个线程，总管道数-1，再获取第二个表，执行表2-管道2的3个线程，总管道数-1，再获取第三个表，执行表3-管道3的三个线程，如此类推，直到32个总管道数分配完毕，这里等于启动了32个表，每个表都启动了管道1，此时，线程总调度器会继续监听管道的执行状态，如果有管道执行完毕，总管道数+1，马上按上面步骤继续分配管道执行(从第33个表开始分配管道)，直到100个表都启动完毕。这时100个表都启动了管道1的3个线程。当再有管道执行完毕，总管道数+1，线程总调度器会从执行表1-管道2的3个线程，因为表1大小容量最大，分片数也最多，多执行一组管道会线性地提高效率。当再有管道执行完，总管道数+1，再执行表2-管道2的3个线程，如此类推，当有表的数据全部脱敏并加载完毕，例如表90处理完，线程总调度器会打标记，表90不需要再执行管道，这样直到所有表的数据都处理完毕就结束任务。

综上所述，本发明实施例的基于ORACLE数据库的海量数据脱敏方法，通过表数据分片，分片均匀，提高数据抽取性能，实现高速数据抽取；通过直通路径加载，并采用禁用日志提高加载性能，实现单表下的高速数据加载；设置线程总调度器，实现线程动态分配提高加载性能，实现多表下的高速数据加载；全程脱敏都在内存中操作，保证数据不落地，确保数据不泄漏。

虽然本发明已以较佳实施例揭示如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的修改和完善，因此本发明的保护范围当以权利要求书所界定的为准。

Claims

1.一种基于ORACLE数据库的海量数据脱敏方法，其特征在于，包括如下步骤：

S2：根据表的数据量分配定义线程管道组数和线程数量；

2.如权利要求1所述的基于ORACLE数据库的海量数据脱敏方法，其特征在于，所述表的数据分片为均匀分片，具体包括：每个表单独使用ORACLE的sample()函数均匀取出表的N个物理存储地址ROWID，物理存储地址的数量根据ORACLE的表大小动态修改，直到抽取到合适的ROWID数量，然后将ROWID排序后两两为一区间划分成多个分片，分片完成后，表的所有分片SQL都放入该表的分片队列；如果表为普通表，则对表进行一次分片，如果是分区表，则对表的每个分区都进行一次分片。

3.如权利要求2所述的基于ORACLE数据库的海量数据脱敏方法，其特征在于，所述表数据进行分区切片后，对分片进行重新排序，把不同的分区映射到不同磁盘进行I/O平衡，使多个线程能轮询获取到不同分区的分片，多个线程同时操作不同的磁盘。

4.如权利要求1所述的基于ORACLE数据库的海量数据脱敏方法，其特征在于，所述步骤S2具体包括：

S21：根据表的数据量将表分为四类：分类一：数据量为0MB-10MB；分类二：数据量为10MB-1GB；分类三：数据量1GB-10GB；分类四，数据量大于10GB；

S22：根据表的数据量的分类给每个表分配合适的线程管道组数：分类一分配1组线程管道；分类二分配4组线程管道；分类三分配16组线程管道；分类四分配32组线程管道；

S23：分配的线程数量为线程管道的组数的3倍，所述线程分为抽取线程、脱敏线程和加载线程，每一组线程管道由对应设置的抽取线程、脱敏线程和加载线程组成，对应设置的抽取线程、脱敏线程和加载线程通过队列进行数据传递，组成一条串行的线程管道，所述抽取线程和脱敏线程通过管道队列一进行数据传递，所述脱敏线程和加载线程通过管道队列二进行数据传递。

5.如权利要求4所述的基于ORACLE数据库的海量数据脱敏方法，其特征在于，所述步骤S3中执行线程管道的线程具体包括：

S311：线程管道的抽取线程去分片队列里轮询取出分片SQL来连接ORACLE数据库读取数据，将数据发送到管道队列一；

S312：线程管道的脱敏线程从管道队列一拉取数据，进行数据脱敏，将脱敏后数据传递到管道队列二；

S313：线程管道的加载线程从管道队列二拉取数据，再加载到目标数据表。

6.如权利要求5所述的基于ORACLE数据库的海量数据脱敏方法，其特征在于，所述步骤S313中数据加载是通过直通路径加载到目标数据表，插入的数据通过ORACLE程序全局区直接把数据格式化成ORACLE块，然后由普通的ORACLE服务器进程把数据块写入目标数据表，把数据直接插入到段的高水位以上；数据加载到目标数据表的过程中禁用日志，生成最少量的REDO和UNDO，减少目标数据库的I/O。

7.如权利要求5所述的基于ORACLE数据库的海量数据脱敏方法，其特征在于，进行单表的脱敏时，所述步骤S3中直接执行该表分配定义的每个线程管道的线程进行数据的抽取、脱敏和加载。

8.如权利要求5所述的基于ORACLE数据库的海量数据脱敏方法，其特征在于，进行多表脱敏时，所述步骤S3中通过线程总调度器来调度线程来执行所有表的线程管道的线程进行数据的抽取、脱敏和加载，具体包括如下步骤：

S321：在线程总调度器中配置总线程管道数和总表数；

S322：线程总调度器将需要脱敏的所有表，按照数据量从大到小进行排序；

S323：将每个表分配定义的线程数量和线程管道组数交由线程总调度器保存，统一分配执行顺序；

S324：线程总调度器按照表的排序依次执行每个表的第一组线程管道的线程，然后按照表的排序依次执行每个表的第二组线程管道的线程，直到总线程管道数分配完毕；

S325：线程总调度器监听线程管道，如果有线程管道的线程执行完毕，继续按照步骤S324的顺序执行线程管道的线程进行数据的抽取、脱敏和加载，当线程总调度器监听到有表的所有线程管道的线程都执行完毕，那么线程总调度器给该表打上完成标记，直到所有表都打上完成标记，则完成所有表数据的脱敏。

9.如权利要求8所述的基于ORACLE数据库的海量数据脱敏方法，其特征在于，所述线程总调度器里存放有总管道数和总表数的配置值，所述总管道数和总表数的配置值通过主机CPU核心数和JVM内存大小计算得到或者根据任务指定。

10.如权利要求8所述的基于ORACLE数据库的海量数据脱敏方法，其特征在于，进行多表脱敏时，不同的表映射到不同表空间磁盘以平衡I/O，使多个线程能轮询获取到不同表的不同分区的分片，多个线程同时操作不同的磁盘。