CN114546610A

CN114546610A - 一种海量数据分布式脱敏装置

Info

Publication number: CN114546610A
Application number: CN202210047290.XA
Authority: CN
Inventors: 武晋; 刘红雨; 张凤彬; 孟强; 李彦君; 梁国光; 王碧扬; 王红涛; 李竞; 隆冰; 王飞; 谢小超; 成海; 林飞; 易永波; 华仲锋; 阮伟军; 詹斯伟; 杨伦; 陈磊
Original assignee: Surfilter Network Technology Co ltd; Shanxi Information And Communication Network Technology Support Center; China Mobile Group Shanxi Co Ltd
Current assignee: Surfilter Network Technology Co ltd; Shanxi Information And Communication Network Technology Support Center; China Mobile Group Shanxi Co Ltd
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2022-05-27
Anticipated expiration: 2042-01-17
Also published as: CN114546610B

Abstract

本发明提供一种海量数据分布式脱敏装置，首先通过切片模块先对所述待脱敏的数据进行切片，将切片数据发送到相应的切片队列中，并记录待脱敏文件的状态，实现了文件的脱敏过程全程追踪以及实现了大文件的均匀颗粒化从而提高了脱敏速度和效率；其次采用主从节点的分布式部署，扩展性能好；通过对从节点中的订阅引擎、脱敏引擎、加载引擎等任务的全程监控，实现了任务的高容错。另外脱敏后的文件以切片化的方式存储在不同的服务器上面，为后续的数据安全提供了保障，同时为后续开发、测试、数据分析等环境的使用提供的分布式抽取的条件以及抽取速度。本发明适用于从生产环境将敏感海量结构化的文件数据进行脱敏到开发、测试、数据分析等环境。

Description

一种海量数据分布式脱敏装置

技术领域

本发明涉及电数字数据处理技术领域，具体涉及一种海量数据分布式脱敏装置。

背景技术

在数据经济时代数据要素已经成为了企业重要资产，对于企业不同的业务部门来说，每时每刻不在通过共享数据方式进行业务协作。一些企业会将大量的结构化敏感客户文件数据、订单文件数据拷贝到开发、测试、数据分析环境，但并没有采取任何对数据脱敏的措施。这将面临重大的监管及数据泄露风险。为了保证数据在企业内外部依法依规使用，需要相应的数据脱敏技术来实现对敏感数据的保护。然而，随着数据越来越大，使用的脱敏算法也越来越复杂，脱敏流程也越来越长，导致脱敏的计算时间越来越长，会大大消耗集群服务器的 CPU和内存。因此有必要提供一种能够快速脱敏、能够解决单台服务器无法处理的瓶颈。

传统脱敏方法有：

方案1：使用单机来执行多个文件的数据脱敏。

方案2：使用文件映射表进行sql的数据脱敏。

现有的脱敏方法存在以下问题：

现有方案1会导致下面的问题：因为单机的CPU和内存是有限的，如果要脱敏的库有几千个文件，总量有TB甚至PB级别以上，有可能会导致内存溢出，CPU处理不过来的问题。

现有方案2会导致下面的问题：sql能抽取和加载数据，但当文件的数据量达到亿级时，会造成抽取和加载的性能都非常慢，甚至可能出现查询超时现象，无法完成脱敏任务的缺点。

现在的生产环境存储的文件多、文件大等数据进行脱敏，针对多文件海量数据同时脱敏，要获取多个文件的海量数据执行脱敏算法，有些脱敏算法比较复杂，消耗比较多的CPU资源，所以脱敏服务器执行是属于CPU密集型任务，因为CPU资源是有限的，如果不限制启动多线程的数量，会出现CPU上下文切换频繁，消耗大量的CPU 时间，同时也可能导致CPU来不及处理数据，数据都积压在管道内，导致JVM内存溢出。对于单台服务器的CPU是有限的，例如国产 32核心CPU，比较合适的是使用32的线程数，但对于TB级别以上数据量，单台服务器的CPU和内存显然是不足以处理。因此，现有技术有待改进。

发明内容

本发明是为了解决海量数据同时脱敏的问题，提供一种海量数据分布式脱敏装置，可应用于从生产环境将敏感海量结构化的文件数据进行脱敏到开发、测试、数据分析等环境，首先通过切片模块先对所述待脱敏的数据进行切片，将切片数据发送到相应的切片队列中，并记录待脱敏文件的状态，实现了文件的脱敏过程全程追踪以及实现了大文件的均匀颗粒化从而提高了脱敏速度和效率；其次采用主从节点的分布式部署，扩展性能好；通过对从节点中的订阅引擎、脱敏引擎、加载引擎等任务的全程监控，实现了任务的高容错。另外脱敏后的文件以切片化的方式存储在不同的服务器上面，为后续的数据安全提供了保障，同时为后续开发、测试、数据分析等环境的使用提供的分布式抽取的条件以及抽取速度。

本发明提供一种海量数据分布式脱敏装置，包括切片器，与切片器连接的从节点、主节点和与从节点、主节点均连接的心跳调度器，从节点的数量为至少2个，主节点与从节点连接；

切片器用于按照预设置切片规则将待脱敏文件数据进行切片并将得到的切片数据放入待脱敏文件数据切片队列中，同时将待脱敏文件数据的切片总数记录到缓存中并将切片的信息通知主节点，切片器中设置至少2个切片模块；

从节点用于在主节点的控制下从切片队列中订阅待脱敏数据并拉取切片后进行脱敏和目录加载，每个从节点均设置引擎管理器，引擎管理器包括订阅引擎、脱敏引擎和加载引擎；

主节点用于接收切片器的启动上报信息、使用均衡调度算法计算最优从节点并进行分布式节点调度，主节点用于接收心跳包数据更新所接收的每个从节点的资源使用情况、接受或者更新每个从节点汇报的任务进度情况；主节点用于实现脱敏任务的容错机制；

心跳调度器用于收集每台从节点的状态信息并形成心跳包数据发送至主节点。

本发明所述的一种海量数据分布式脱敏装置，作为优选方式，均衡调度算法的步骤为：

S1、根据切片器上报的切片总数计算得到对切片进行脱敏处理所需的总CPU和总内存；

其中，T为处理上报的切片数所需的目标时间，0＜t≤T，sliceNum 为切片总数，f(t)为每秒处理的切片数，总CPU的单位为核；

总内存＝总CPU*pMen；

其中，pMen为每核脱敏任务所需内存；

S2、根据总CPU、总内存和预设的单台机器处理单个脱敏任务线程数m、内存数n计算得到从节点数量host；

S3、根据从节点数量host从K台从节点主机 {M₀,M₁,M₂,M₃,…,M_K}中选择R台空闲cpu大于等于单台脱敏任务所需cpu、空闲内存大于等于单台脱敏所需内存的从节点M_r组成从节点组，r＝1，2，3，…，R，host≤R≤K；

S4、计算得到从节点M_r的W类计算资源的负载平均值Q_r，r初始化为1，然后根据常数U和负载平均值Q_r计算得到从节点M_r的负载阀值T_r；

T_r＝U+Q_r；

S5、判断r是否小于R，若是，则r＝r+1，返回步骤S4，若否则进入步骤S6；

S6、计算所有负载阀值平均值T_r的平均值，得到从节点组负载阀值T；

将从节点组负载阀值T与每个负载平均值Q_r进行比较，如果从节点组负载阀值T小于或等于从节点M_r的负载平均值Q_r，则将脱敏任务分配至从节点M_r；如果从节点组负载阀值T大于从节点M_r的负载平均值Q_r，则进入步骤S7；

S7、按照如下公式，计算从节点组负载阀值T与负载平均值Q_r的方差并按照从小到大的顺序排列，将剩余任务从方差最小的从节点 M_r开始依次分配，直至任务分配完毕；

本发明所述的一种海量数据分布式脱敏装置，作为优选方式，步骤S2中，从节点数量host的计算方法为：

host＝max(总CPU/m，总内存/n)；

其中，从节点数量host的单位为台。

本发明所述的一种海量数据分布式脱敏装置，作为优选方式，步骤S4中，

其中，P_rw为从节点M_r在上一个T分钟内的第w类计算资源的平均利用率，S_rw为从节点M_r的第w类计算资源的使用量，w为计算资源类别编号，W为计算资源类别总数；

W＝2，当w＝1时，计算资源类别为CPU，当w＝2时，计算资源类别为内存。

本发明所述的一种海量数据分布式脱敏装置，作为优选方式，容错机制为：如果一个从节点的计算任务失败或者超过一定时间范围主节点没有收到从节点的任务汇报心跳包，就将任务从主节点所维护的任务队列中剔除，同时根据每个从节点的资源情况，重新将任务分配给其他可执行任务的从节点。

本发明所述的一种海量数据分布式脱敏装置，作为优选方式，切片模块用于按照预设置切片规则将待脱敏文件数据进行切片并将得到的切片数据放入待脱敏文件数据切片队列中，切片模块用于记录每个切片数据在待脱敏文件中的起始位置和结束位置、记录开始切片时间和结束切片时间并在待脱敏文件切片后形成切片属性存储在缓存中，切片模块用于通过维护切片记录以对整个文件脱敏过程的监控并将切片的信息通知主节点；

切片属性包括待脱敏文件名、切片序列号、切片开始时间和切片结束时间。

本发明所述的一种海量数据分布式脱敏装置，作为优选方式，预设置切片规则为：首先定义切片参数，计算获得初步切片数firstSize，再根据初步切片数fistSize确定最终切片数sliceNum。

本发明所述的一种海量数据分布式脱敏装置，作为优选方式， firstSize＝ROUNDUP(fileRow/sliceRow，0)；

其中，fileRow为待脱敏文件文件的总行数，sliceRow为预设切片行数，x为每个切片所包含的行数，f(x)为每个切片所有行数大小之和，sliceSize为预设切片大小，f(x)≤sliceSize表示每一个切片大小之和不能超过预设的分片大小；fileSize、sliceSiz的单位为MB。

本发明所述的一种海量数据分布式脱敏装置，作为优选方式，分布式节点调度包括以下内容：

主节点接收心跳包数据并获得每台从节点的资源使用情况，主节点发送心跳响应包给从节点，主节点接切片器的启动上报信息，主节点管理每一个从节点的资源情况，主节点根据心跳响应包的响应时间按照从大到小的顺序进行排序，然后根据切片数据的数量选取出响应时间排序在前的从节点，主节点根据切片器启动上报指令并使用均衡调度算法计算最优节点执行任务、分配任务，然后将切片器生成的标识发送给执行任务的从节点，从节点根据标识从切片队列中获取该切片数据。

本发明所述的一种海量数据分布式脱敏装置，作为优选方式，订阅引擎用于根据引擎管理器接受的切片唯一标识和切片队列建立连接、监控切片队列的数据情况，源源不断的从切片队列中拉取数据，直到该队列中的数据拉取完成，订阅引擎用于监控切片数据发送到订阅引擎和脱敏引擎中间的LinkedBlockingQueue管道；

脱敏引擎用于接收待脱敏的切片数据并按照预设置切片规则进行切片数据脱敏后将脱敏的数据发送给加载引擎；

加载引擎用于接收脱敏引擎发送的脱敏切片数据后生成带有文件名+切片序列号+切片开始时间+切片结束时间的文件夹，并将脱敏切片数据存储在文件夹中，加载引擎用于将切片的存储位置、文件名、切片序号、切片大小和切片所对应的存储时间记录到关系表中，加载引擎用于更新缓存中所存储的切片所对应的文件的切片总数，加载引擎用于定时监控缓存中切片所对应的文件的切片总数，加载引擎用于在完成脱敏并完成文件存储之后将缓存中的切片总数进行减1，直到总数小于或者等于零时记录脱敏完成并存储。

本发明提供一种海量数据分布式脱敏方法，应用于从生产环境将敏感海量结构化的文件数据进行脱敏到开发、测试、数据分析等环境，方法包括：

切片器、主节点、心跳调度器和多个从节点。

每个切片器负责按照预设置切片规则将待脱敏的文件数据进行切片并将切片放入该文件的切片队列中；同时将该文件的切片总数记录到缓存中，便于从节点中加载引擎核实文件的完整性；将切片的信息通知主节点，以便主节点根据切片信息计算所需资源。

主节点负责接收从节点心跳信息包括从节点是否存活、从节点资源使用情况、监控从节点任务完成情况以及给从节点分配新的任务；同时接受切片器上报的启动信息进行负载计算，将新任务分配给资源负载相对低的从节点。

心跳调度器负责收集每台从节点的状态信息。

多个从节点设置有引擎管理器，负责该从节点的线程组(订阅引擎、脱敏引擎、加载引擎)的调度。完成如上方法还包括：

切片模块：记录每个切片数据在待脱敏文件中的起始位置和结束位置、记录每个切片开始切片时间和结束切片时间；记录该待脱敏文件的切片个数、记录该待脱敏文件的开始切片时间和结束切片时间，根据这些记录信息形成每个切片带有文件名+切片序列号+切片开始时间 +切片结束时间等属性，该待脱敏文件切片完成之后形成带有文件名+ 切片个数+文件开始切片时间+文件结束切片时间等属性。并将这些属性存储在缓存中。同时在关系库中维护一条key为文件名，value为文件名.dealing的记录，以便对整个文件脱敏过程的监控。直到文件的每一个切片都完成脱敏、完成存储，才由从节点中的加载引擎将此值修改为文件名.ok。

主节点：接受切片器的启动上报信息；更新所接受的每个从节点资源使用情况(cpu、内存、磁盘等信息)，接受或者更新每个从节点所汇报的任务进度情况；如果某一从节点的计算任务失败或者超过一定时间范围没有收到从节点的任务汇报心跳包，就剔除该任务在主节点所维护的任务队列，同时根据每个从节点的资源情况，重新将任务分配给其他可执行任务的从节点，从而实现了脱敏任务的容错机制。

从节点：从切片队列订阅待脱敏数据进行脱敏具体包括引擎管理器中的订阅引擎去切片队列里读取数据，将数据发送到引擎管理器中的脱敏引擎进行数据脱敏，将脱敏后数据传递到引擎管理器中的加载引擎加载到目标目录中。

订阅引擎：根据引擎管理器所接受的切片唯一标识和切片队列建立连接、监控切片队列的数据情况，源源不断的从切片队列中拉取数据，知道该队列中的数据拉取完成，同时监切片数据发送到订阅引擎和脱敏引擎中间LinkedBlockingQueue管道。

脱敏引擎：接受到待脱敏的切片数据按照预先设置好的脱敏规则进行切片数据脱敏，并将脱敏的数据发送给加载引擎。

加载引擎：接受经过脱敏引擎脱敏过的切片数据，生成带有文件名+切片序列号+切片开始时间+切片结束时间的文件夹，并将脱敏切片数据存储在该文件夹中。

以及将切片的存储位置、文件名、切片序号、切片大小、切片所对应的存储时间记录到相应的关系表中；同时更新缓存中所存储的该切片所对应的文件的切片总数；

定时监控缓存中该切片所对应的文件的切片总数，当完成脱敏并完成文件存储之后，缓存中的切片总数进行减1操作，直到总数小于或者等于零的时候，将关系库中的key为唯一序号，value为文件名.dealing的记录修改为文件名.ok，代表该文件的所有切片已经完成脱敏并完成存储。

本发明具有以下优点：

本发明提供的一种海量数据分布式脱敏装置，首先通过切片模块先对所述待脱敏的数据进行切片，将切片数据发送到相应的切片队列中，并记录待脱敏文件的状态，实现了文件的脱敏过程全程追踪以及实现了大文件的均匀颗粒化从而提高了脱敏速度和效率；其次采用主从节点的分布式部署，扩展性能好；通过对从节点中的订阅引擎、脱敏引擎、加载引擎等任务的全程监控，实现了任务的高容错。另外脱敏后的文件以切片化的方式存储在不同的服务器上面，为后续的数据安全提供了保障，同时为后续开发、测试、数据分析等环境的使用提供的分布式抽取的条件以及抽取速度。

附图说明

图1为一种海量数据分布式脱敏装置示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1

如图1所示，一种海量数据分布式脱敏装置，包括切片器，与切片器连接的从节点、主节点和与从节点、主节点均连接的心跳调度器，从节点的数量为至少2个，主节点与从节点连接；

心跳调度器用于收集每台从节点的状态信息并形成心跳包数据发送至主节点；

均衡调度算法的具体步骤为：

总内存＝总CPU*pMen；

其中，pMen为每核脱敏任务所需内存；

从节点数量host的计算方法为：

host＝max(总CPU/m，总内存/n)；

其中，从节点数量host的单位为台；

W＝2，当w＝1时，计算资源类别为CPU，当w＝2时，计算资源类别为内存；

T_r＝U+Q_r；

容错机制为：如果一个从节点的计算任务失败或者超过一定时间范围主节点没有收到从节点的任务汇报心跳包，就将任务从主节点所维护的任务队列中剔除，同时根据每个从节点的资源情况，重新将任务分配给其他可执行任务的从节点；

切片模块用于按照预设置切片规则将待脱敏文件数据进行切片并将得到的切片数据放入待脱敏文件数据切片队列中，切片模块用于记录每个切片数据在待脱敏文件中的起始位置和结束位置、记录开始切片时间和结束切片时间并在待脱敏文件切片后形成切片属性存储在缓存中，切片模块用于通过维护切片记录以对整个文件脱敏过程的监控并将切片的信息通知主节点；

切片属性包括待脱敏文件名、切片序列号、切片开始时间和切片结束时间；

预设置切片规则为：首先定义切片参数，计算获得初步切片数 firstSize，再根据初步切片数fistSize确定最终切片数sliceNum；

firstSize＝ROUNDUP(fileRow/sliceRow，0)；

其中，fileRow为待脱敏文件文件的总行数，sliceRow为预设切片行数，x为每个切片所包含的行数，f(x)为每个切片所有行数大小之和， sliceSize为预设切片大小，f(x)≤sliceSize表示每一个切片大小之和不能超过预设的分片大小；fileSize、sliceSiz的单位为MB；

分布式节点调度包括以下内容：

主节点接收心跳包数据并获得每台从节点的资源使用情况，主节点发送心跳响应包给从节点，主节点接切片器的启动上报信息，主节点管理每一个从节点的资源情况，主节点根据心跳响应包的响应时间按照从大到小的顺序进行排序，然后根据切片数据的数量选取出响应时间排序在前的从节点，主节点根据切片器启动上报指令并使用均衡调度算法计算最优节点执行任务、分配任务，然后将切片器生成的标识发送给执行任务的从节点，从节点根据标识从切片队列中获取该切片数据；

订阅引擎用于根据引擎管理器接受的切片唯一标识和切片队列建立连接、监控切片队列的数据情况，源源不断的从切片队列中拉取数据，直到该队列中的数据拉取完成，订阅引擎用于监控切片数据发送到订阅引擎和脱敏引擎中间的LinkedBlockingQueue管道；

实施例2

如图1所示，一种海量数据分布式脱敏装置，以切片模块、一个主节点和多个从节点来进行多个文件数据脱敏；由切片器将待脱敏的文件进行比例切片，发送到切片队列中；同时从节点引擎管理中的订阅引擎和切片队列建立信息通信，当切片队列中有切片的时候，就会将其进行拉取操作；再将切片数据发送给从节点引擎管理中的脱敏引擎进行数据脱敏，经过脱敏的数据进一步发送给从节点引擎管理中的加载引擎，由加载引擎完成切片数据加载到目的文件相应的目录。

一.切片器

1.概述：对待脱敏数据进行切片得到多个切片数据。

切片模块对待脱敏的文件切片越小脱敏的时间越短，切片数据越大脱敏时间越长，当然切片的最小维度为1行，因此为了提高脱敏效率，减少从节点的CPU的计算量，切片模块在处理待脱敏文件时，先对待脱敏文件进行切片。由于切片后的数据在一定的范围大小内，因而对单独的一个切片数据进行脱敏的时间较短，并行的对所有切片数据进行脱敏，能够提高整个待脱敏数据的脱敏效率。

实现步骤

在具体的施例中，对待脱敏文件进行按行切片得到多个切片数据包括：

(1)获取待脱敏文件的文件名。

(2)定义切片参数，用fileSize(MB)表示文件大小、用fileRow(行) 表示文件的行总数、用sliceSize(MB)表示预设切片大小、sliceRow表示预设切片行数、用sliceNum表示最终切片数。

根据预设切片行数获得初步切片数。

fistSize＝ROUNDUP(fileRow/sliceRow,0)

进一步根据fistSize确定最终的切片数。

其中x表示每个切片所包含的行数，f(x)表示每个切片所有行数大小之和。其中f(x)<＝sliceSize表示每一个切片大小之和不能超过预设的分片大小。

(3)生成待脱敏文件的唯一序号如yyyymmddhhmmss+6位随机数 +文件名，如：原文件为dns.txt，则生成的唯一序列号为： 20211004121212777771dns.txt，此唯一序列号也是整个脱敏过程的唯一标识。

(4)组装上报信息包括上步生成的唯一序列号、文件切片总数。

(5)将如上所生成的信息上报到主节点，并告诉主节点分配相应的计算资源对切片队列中的信息进行监控及处理。

(6)根据整数值对待脱敏的文件进行切片得到多个切片数据。

(7)记录每个切片数据在待脱敏文件中的起始位置和结束位置、记录每个切片开始切片时间和结束切片时间；根据这些记录信息形成每个切片带有唯一序号+切片序列号+切片开始时间+切片结束时间的切片标识符。

(8)记录该待脱敏文件的切片个数、记录该待脱敏文件的开始切片时间和结束切片时间，该待脱敏文件切片完成之后形成带有唯一序号+切片个数+文件开始切片时间+文件结束切片时间等属性。将文件的整个这些属性存储在缓存中。同时在关系库中维护一条key为唯一序号，value为文件名.dealing的记录，以便对整个文件脱敏过程的监控。直到文件的每一个切片都完成脱敏、完成存储，才由从节点中的加载引擎将此值修改为文件名.ok

(9)切片好的切片数据发送至切片队列中。

二.主节点

1.概述

主要负责整个分布式节点调度总协调，当然在部署的时候可以用两台进行部署，实现主节点的HA。

2.实现步骤

(1)接受分布式集群中的从节点的心跳包数据，根据心跳包的数据可以获得每台脱敏从节点的资源使用情况。

(2)发送心跳响应包给分布式集群中的从节点。

(3)接受图1中的切片器的启动上报信息。

(4)管理分布式从节点每一节点总的资源情况(CPU、内存、磁盘等信息)。

(5)根据心跳包中的响应时间按照从大到小的顺序进行排序，然后根据切片数据的数量选取出排序在前的响应时间对应的脱敏从节点。响应速度越快，说明从节点计算速度快，资源更充分；响应速度越慢，说明从节点计算速度慢，资源更紧张。

(6)根据切片器启动上报指令，均衡调度算法计算最优节点执行任务。

(7)均衡调度算法如下：

根据切片器上报的切片总数计算所需资源，假定每次上报的切片数要求5秒之内处理完成，则通过如下公式可以得到该切片经过整个的脱敏处理需要多少核CPU。

备注：t代表时间，5秒内的时间；sliceNum代表切片总数。

f(t)代表每秒处理的切片数。

总内存(G)＝cpu(核数)*pMen (2)

备注：cpu(核数)为如上计算出来的核数，pMen为每核脱敏任务需要多少的内存。

因此通过上报的切片数量，可以得到此批切片进行完整脱敏所需要的总的cpu和内存资源。由于脱敏过程主要是要消耗计算的资源，故只以CPU和内存在此处进行说明展示。

根据上面计算的总量，根据预设的单个文件的脱敏任务在单台机器m线程以及n的内存。则根据cpu和内存的总量可以确定的计算节点为：

host(台)＝max(所需总cpu/m，所需总内存/n) (3)

记录为host1。

根据根据上面的从节点数量，从分布式集群中找出符合计算任务的从节点，假定从节点主机为M₀，M₁，M₂，M₃，....M_k，总共有K台。从 r台中计算出满足空闲cpu大于等于如上单台脱敏任务所需cpu，空闲内存大于等于单台脱敏所需内存。假定根据上面条件选择出了R 台，host1＜＝R＜＝K。

从上面选择出来的R台中继续计算，假定某一个从节点M_r在上 5分钟内的CPU(用w表示)的平均利用率为P_rw，切片器请求w类计算资源，分布式集群中从节点M_r中w类资源使用量为S_rw，则计算w 类计算资源的负载平均值为：

U为相对较小的常数，负载阀值T_r为：

T_r＝U+Q_r (5)；

该算法的核心思路是先设定负载阀值，判断从节点的负载是否超过了阀值，如果超过阀值则采用如下计算公式：

其中w＝1代表的是cpu，w＝2代表的是内存，R代表的是满足条件所选择出来的从节点。

通过上面的公式找出cpu和内存相对均值方差最小的几个从节点，将新分配的计算任务分配到计算出来小的几台机器上面。这样就能实现根据从节点的负载情况，将新任务分配到资源相对不紧张的机器上面。

(8)根据如上计算出该任务分配到相应的从节点，并将切片器中所生成的唯一标识发送给相应的从节点，从节点拿到这个唯一标识之后，就会知道根据唯一标识去切片队列中获取该唯一标识下的切片数据。

(9)根据心跳包中的信息接受或者更新每个从节点所汇报的任务进度情况；如果某一从节点的计算任务失败或者超过一定时间范围没有收到从节点的任务汇报心跳包，就剔除该任务在主节点所维护的任务队列，同时根据如上步骤(7)均衡调度算法。将新任务分配到从节点。通过如上的步骤就能将失败的任务重新分配给可执行的从节点，从而实现了脱敏任务的容错机制。

三.从节点

1.概述

从切片队列订阅待脱敏数据进行脱敏具体包括引擎管理器中的订阅引擎去切片队列里读取数据，将数据发送到引擎管理器中的脱敏引擎进行数据脱敏，将脱敏后数据传递到引擎管理器中的加载引擎加载到目标目录中。

2.实现步骤

(1)每个从节点启动一个引擎管理进程，管理本节点引擎组，引擎组包括订阅引擎、脱敏引擎和加载引擎。同时引擎管理进程收集本节点的资源使用情况，以及本节点的任务执行情况，以间歇心跳的方式汇报给主节点。其中订阅引擎负责从切片队列中拉取切片数据，脱敏引擎负责数据脱敏，加载引擎负责将脱敏之后的切片数据加载到相应的磁盘目录中。

(2)每个从节点的引擎管理的分配采用如下的方式，例如：从节点 1有10组引擎管理，先启动引擎管理从切片队列1中拉取一个切片执行，引擎管理数-1，再启引擎管理2从切片队列2中拉取一个切片执行，引擎管理数-1，直到10个引擎管理都用完，该从节点的引擎管理总数＝0，当有引擎管理执行完毕，引擎管理数+1，马上启动新的引擎管理从切片队列中拉取一个分片，以此类推，直到没有切片可以拉取为止，其它从节点也是按照这种规则去轮询拉取切片数据。

(3)每个从节点的引擎管理根据主节点所分配的任务，通过的订阅引擎和相应的队列建立连接信息，从切片队列中源源不断的拉取数据，如图1所示：主节点分配给从节点1的引擎管理11，告诉引擎管理11需要和切片队列1建立连接关系，并订阅切片队列1中的待脱敏的切片数据，同理主节点告诉其他从节点的引擎管理或本从节点的引擎管理与其他的切片队列建立连接关系，并订阅待脱敏的数据。通过如上方式实现了，分布式的去拉取切片数据进行脱敏，减轻了单台节点的脱敏压力和提高了整体的脱敏效率。

(4)订阅引擎：根据引擎管理器所接受的切片唯一标识和切片队列建立连接、监控切片队列的数据情况，源源不断的从切片队列中拉取数据，知道该队列中的数据拉取完成，同时监切片数据发送到订阅引擎和脱敏引擎中间LinkedBlockingQueue管道。

(5)脱敏引擎：由于使用的脱敏算法也越来越复杂，导致了脱敏过程是最慢的环节，并且比较消耗CPU和内存资源，所以每个从节点的10个引擎管理中，每个引擎管理里抽取线程和脱敏引擎之间都有一个基于内存队列LinkedBlockingQueue来做队列缓存处理，这种队列默认是以先进先出的方式。脱敏引擎从内存队列获取切片数据进行脱敏，例如常见的电话号码脱敏，其根据不同的应用场景会采用不同的脱密策略；策略复杂体现在两个方面，第一号码脱密的位置随机定义，如掩盖号码中1到3位网络识别码、4到7位地区编码、8到11 位的用户号码分别需要根据区域热度、用户路径、订单跟踪等场景不同选择不同位置策略；另一方面还需要选择不同的脱敏方式，如遮蔽脱敏对敏感数据的全部/部分内容采用“*”或者“#”等字符进行遮蔽，仿真随机采用和原数据结构相同、内容相近的内容进行随机替换，确保数据格式不变，仿真替换采用和原数据结构相同的数据进行替换，相同的原数据脱敏后也相同保持一致性。如此复杂的脱敏算法消耗的是CPU资源，在分布式环境下才能发挥多节点同时计算的能力和高性能。脱敏引擎脱敏完成将数据发送给加载引擎。

加载引擎：接受经过脱敏引擎脱敏过的切片数据，生成带有文件名+切片序列号+切片开始时间+切片结束时间的文件夹，并将脱敏切片数据存储在该文件夹中。以及将切片的存储位置、文件名、切片序号、切片大小、切片所对应的存储时间记录到相应的关系表中；同时更新缓存中所存储的该切片所对应的文件的切片总数；定时监控缓存中该切片所对应的文件的切片总数，当完成脱敏并完成文件存储之后，缓存中的切片总数进行减1操作，直到总数小于或者等于零的时候，将关系库中的key为唯一序号，value为文件名.dealing的记录修改为文件名.ok，代表该文件的所有切片已经完成脱敏并完成存储。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种海量数据分布式脱敏装置，其特征在于：包括切片器，与所述切片器连接的从节点、主节点和与所述从节点、所述主节点均连接的心跳调度器，所述从节点的数量为至少2个，所述主节点与所述从节点连接；

所述切片器用于按照预设置切片规则将待脱敏文件数据进行切片并将得到的切片数据放入待脱敏文件数据切片队列中，同时将所述待脱敏文件数据的切片总数记录到缓存中并将切片的信息通知所述主节点，所述切片器中设置至少2个切片模块；

所述从节点用于在所述主节点的控制下从切片队列中订阅待脱敏数据并拉取切片后进行脱敏和目录加载，每个所述从节点均设置引擎管理器，所述引擎管理器包括订阅引擎、脱敏引擎和加载引擎；

所述主节点用于接收所述切片器的启动上报信息、使用均衡调度算法计算最优从节点并进行分布式节点调度，所述主节点用于接收心跳包数据更新所接收的每个所述从节点的资源使用情况、接受或者更新每个所述从节点汇报的任务进度情况；所述主节点用于实现脱敏任务的容错机制；

所述心跳调度器用于收集每台所述从节点的状态信息并形成所述心跳包数据发送至所述主节点。

2.根据权利要求1所述的一种海量数据分布式脱敏装置，其特征在于：所述均衡调度算法的步骤为：

S1、根据所述切片器上报的切片总数计算得到对切片进行脱敏处理所需的总CPU和总内存；

其中，T为处理上报的切片数所需的目标时间，0＜t≤T，sliceNum为切片总数，f(t)为每秒处理的切片数，总CPU的单位为核；

总内存＝总CPU*pMen；

其中，pMen为每核脱敏任务所需内存；

S2、根据所述总CPU、所述总内存和预设的单台机器处理单个脱敏任务线程数m、内存数n计算得到从节点数量host；

S3、根据所述从节点数量host从K台从节点主机{M₀,M₁,M₂,M₃,…,M_K}中选择R台空闲cpu大于等于单台脱敏任务所需cpu、空闲内存大于等于单台脱敏所需内存的所述从节点M_r组成从节点组，r＝1，2，3，…，R，host≤R≤K；

S4、计算得到所述从节点M_r的W类计算资源的负载平均值Q_r，r初始化为1，然后根据常数U和所述负载平均值Q_r计算得到所述从节点M_r的负载阀值T_r；

T_r＝U+Q_r;

将所述从节点组负载阀值T与每个所述负载平均值Q_r进行比较，如果所述从节点组负载阀值T小于或等于所述从节点M_r的所述负载平均值Q_r，则将脱敏任务分配至所述从节点M_r；如果所述从节点组负载阀值T大于所述从节点M_r的所述负载平均值Q_r，则进入步骤S7；

S7、按照如下公式，计算所述从节点组负载阀值T与所述负载平均值Q_r的方差并按照从小到大的顺序排列，将剩余任务从方差最小的所述从节点M_r开始依次分配，直至任务分配完毕；

3.根据权利要求2所述的一种海量数据分布式脱敏装置，其特征在于：步骤S2中，所述从节点数量host的计算方法为：

host＝max(总CPU/m，总内存/n)；

其中，所述从节点数量host的单位为台。

4.根据权利要求2所述的一种海量数据分布式脱敏装置，其特征在于：步骤S4中，

其中，P_rw为所述从节点M_r在上一个T分钟内的第w类计算资源的平均利用率，S_rw为所述从节点M_r的第w类计算资源的使用量，w为计算资源类别编号，W为计算资源类别总数；

5.根据权利要求1所述的一种海量数据分布式脱敏装置，其特征在于：所述容错机制为：如果一个所述从节点的计算任务失败或者超过一定时间范围所述主节点没有收到所述从节点的任务汇报心跳包，就将任务从所述主节点所维护的任务队列中剔除，同时根据每个所述从节点的资源情况，重新将任务分配给其他可执行任务的所述从节点。

6.根据权利要求1所述的一种海量数据分布式脱敏装置，其特征在于：所述切片模块用于按照所述预设置切片规则将待脱敏文件数据进行切片并将得到的切片数据放入待脱敏文件数据切片队列中，所述切片模块用于记录每个切片数据在所述待脱敏文件中的起始位置和结束位置、记录开始切片时间和结束切片时间并在所述待脱敏文件切片后形成切片属性存储在缓存中，所述切片模块用于通过维护切片记录以对整个文件脱敏过程的监控并将切片的信息通知所述主节点；

所述切片属性包括待脱敏文件名、切片序列号、切片开始时间和切片结束时间。

7.根据权利要求1所述的一种海量数据分布式脱敏装置，其特征在于：所述预设置切片规则为：首先定义切片参数，计算获得初步切片数firstSize，再根据所述初步切片数fistSize确定最终切片数sliceNum。

8.根据权利要求7所述的一种海量数据分布式脱敏装置，其特征在于：

firstSize＝ROUNDUP(fileRow/sliceRow，0)；

9.根据权利要求1所述的一种海量数据分布式脱敏装置，其特征在于：所述分布式节点调度包括以下内容：

所述主节点接收所述心跳包数据并获得每台所述从节点的资源使用情况，所述主节点发送心跳响应包给所述从节点，所述主节点接所述切片器的启动上报信息，所述主节点管理每一个所述从节点的资源情况，所述主节点根据所述心跳响应包的响应时间按照从大到小的顺序进行排序，然后根据切片数据的数量选取出响应时间排序在前的所述从节点，所述主节点根据切片器启动上报指令并使用所述均衡调度算法计算最优节点执行任务、分配任务，然后将所述切片器生成的标识发送给执行任务的所述从节点，所述从节点根据标识从切片队列中获取该切片数据。

10.根据权利要求1所述的一种海量数据分布式脱敏装置，其特征在于：所述订阅引擎用于根据所述引擎管理器接受的切片唯一标识和切片队列建立连接、监控切片队列的数据情况，源源不断的从切片队列中拉取数据，直到该队列中的数据拉取完成，所述订阅引擎用于监控切片数据发送到所述订阅引擎和所述脱敏引擎中间的LinkedBlockingQueue管道；

所述脱敏引擎用于接收待脱敏的切片数据并按照所述预设置切片规则进行切片数据脱敏后将脱敏的数据发送给所述加载引擎；

所述加载引擎用于接收所述脱敏引擎发送的脱敏切片数据后生成带有文件名+切片序列号+切片开始时间+切片结束时间的文件夹，并将脱敏切片数据存储在文件夹中，所述加载引擎用于将切片的存储位置、文件名、切片序号、切片大小和切片所对应的存储时间记录到关系表中，所述加载引擎用于更新缓存中所存储的切片所对应的文件的切片总数，所述加载引擎用于定时监控缓存中切片所对应的文件的切片总数，所述加载引擎用于在完成脱敏并完成文件存储之后将缓存中的切片总数进行减1，直到总数小于或者等于零时记录脱敏完成并存储。