CN108197486A

CN108197486A - 大数据脱敏方法、系统、计算机可读介质及设备

Info

Publication number: CN108197486A
Application number: CN201711379866.8A
Authority: CN
Inventors: 熊鹏飞; 余小军
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2018-06-22

Abstract

本发明公开了一种大数据脱敏方法、系统、计算机可读介质及设备，其中，方法包括：获取敏感数据；确认敏感数据的数据类型，通过转变条件接口自动适配脱敏任务和选择脱敏平台；通过脱敏平台读取脱敏任务对应的敏感数据，并根据脱敏任务对敏感数据进行脱敏。适用于处理TB、PB级别的数据，支持异构数据源，可在不同应用场景下对执行引擎进行切换。解决了现有技术中数据脱敏系统存在不适用于大数据环境、不支持异构数据源、以及执行引擎单一的技术问题。

Description

大数据脱敏方法、系统、计算机可读介质及设备

技术领域

本发明涉及信息安全技术领域，尤其涉及一种大数据脱敏方法、系统、计算机可读介质及设备。

背景技术

2017年6月1日起施行的《网络安全法》中明确说明了运营者使用用户个人信息的原则，即“运营者不得泄露、篡改、损毁其收集的个人信息；未经被收集者同意，不得向他人提供个人信息，但是，经过处理无法识别特定个人且不能复原的除外。”其中“经过处理无法识别特定个人且不能复原”可以通过数据脱敏技术手段来实现。为了满足监管要求，防止重要数据资产泄露风险，对数据进行脱敏处理是非常有必要的。

传统数据脱敏主要是对文件或数据库中数据按照一定规则进行变形，将变形后的数据使用到开发测试环境中。处理的数据量小，对数据处理的效率、安全级别要求不高。脱敏系统工作原理是：执行数据脱敏前先制定好脱敏方案，执行时系统对数据源数据进行自动发现，抽取数据后，根据配置的脱敏方案，对数据进行脱敏，脱敏后数据发放到测试环境或做数据分析。

现有技术中数据脱敏系统存在多种缺陷：1)不适用于大数据环境，主要针对数据库、文件中数据进行脱敏，受限于单机处理能力，其处理的数据量小，不适用于处理TB、PB量级的数据，处理效率低；2)不支持异构数据源，主要是对数据库中数据进行脱敏，不适配多种数据源；3)执行引擎单一，不便于扩展执行引擎，更不支持在不同应用场景下对执行引擎进行灵活切换。

发明内容

本发明提供一种大数据脱敏方法、系统、计算机可读介质及设备，用以解决现有技术中数据脱敏系统存在不适用于大数据环境、不支持异构数据源、以及执行引擎单一的技术问题。

依据本发明的第一个方面，提供了一种大数据脱敏方法，所述方法包括：

获取敏感数据；

确认敏感数据的数据类型，通过转变条件接口自动适配脱敏任务和选择脱敏平台；

通过脱敏平台读取脱敏任务对应的敏感数据，并根据脱敏任务对敏感数据进行脱敏。

可选的，获取敏感数据，包括：

获取异构数据源，根据适配接口获取异构数据源中的敏感数据。

可选的，异构数据源包括：

数据库、文件、分布式消息系统kafka、以及日志收集系统flume中的至少一种数据源。

可选的，脱敏平台包括：

批处理引擎Hadoop、微批处理引擎Spark Streaming、以及准实时处理引擎Storm中的至少一个处理引擎。

可选的，所述方法还包括：

记录对敏感数据进行脱敏的信息。

可选的，确认敏感数据的数据类型，包括：

通过预设的评估条件对敏感数据进行字段敏感度评估，确定敏感数据的数据类型。

可选的，所述方法还包括：

获取管理员权限，响应管理员对评估条件进行更改的操作，并生成操作日志。

依据本发明的第二个方面，提供了一种大数据脱敏系统，所述系统包括：

数据层，用于获取敏感数据；

脱敏管理层，用于确认敏感数据的数据类型，通过转变条件接口自动适配脱敏任务和选择脱敏平台；

脱敏执行层，用于通过脱敏平台读取脱敏任务对应的敏感数据，并根据脱敏任务对敏感数据进行脱敏。

依据本发明的第三个方面，提供了一种计算机可读介质，计算机可读介质存储有大数据脱敏程序，当大数据脱敏程序被至少一个处理器执行时，导致至少一个处理器执行本发明所提供的方法步骤。

依据本发明的第四个方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现执行本发明所提供的方法步骤。

根据本发明的一种大数据脱敏方法、系统、计算机可读介质及设备，通过获取敏感数据；确认敏感数据的数据类型，通过转变条件接口自动适配脱敏任务和选择脱敏平台；通过脱敏平台读取脱敏任务对应的敏感数据，并根据脱敏任务对敏感数据进行脱敏。适用于处理TB、PB级别的数据，处理效率高；支持异构数据源，适配多种数据源；可扩展执行引擎，支持在不同应用场景下对执行引擎进行切换。解决了现有技术中数据脱敏系统存在不适用于大数据环境、不支持异构数据源、以及执行引擎单一的技术问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明第一实施例提供的一种大数据脱敏方法的流程图；

图2为本发明第二实施例提供的一种大数据脱敏方法的流程图；

图3为本发明实例1所提供的一种大数据脱敏方法对应的流程图；

图4为本发明实例1提供的大数据脱敏方法的Hadoop脱敏流程图；

图5为本发明实例1提供的大数据脱敏方法的Spark Steaming脱敏流程图；

图6为本发明实例1提供的大数据脱敏方法的Storm脱敏流程图；

图7为本发明实例2所提供的大数据脱敏系统架构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

请参阅图1，为本发明第一实施例提供的一种大数据脱敏方法的流程图。该方法包括：

步骤S101，获取敏感数据。

通过外设接口接收数据，对该数据进行识别，进而获取敏感数据。

可选的，获取敏感数据，包括：

具体实施时，通过开发适配接口，读取异构数据源中的数据。

可选的，异构数据源包括：

步骤S102，确认敏感数据的数据类型，通过转变条件接口自动适配脱敏任务和选择脱敏平台。

获取数据对应的业务场景，确认敏感数据的数据类型，根据敏感数据的具体数据类型通过转变条件接口自动适配脱敏任务和选择脱敏平台。

步骤S103，通过脱敏平台读取脱敏任务对应的敏感数据，并根据脱敏任务对敏感数据进行脱敏。

具体的，脱敏平台读取脱敏任务，对脱敏任务进行解析，读取敏感数据，并根据脱敏任务对敏感数据进行脱敏。

可选的，脱敏平台包括：

具体实施时，大数据脱敏存在不同的脱敏业务场景。如，数据量大，GB量级甚至TB级别，需要在较短时间内对大批量的数据进行脱敏，同时满足脱敏业务需求。利用Hadoop、Spark、Storm等大数据处理引擎的可扩展、分布式特征可以处理大批量的数据，通过批量脱敏、流式脱敏、实时脱敏对大数据进行处理，效率高效。

可以清楚的是，根据不同的业务场景，数据脱敏有时需要使用Hadoop批处理引擎，有时需要使用Spark Streaming微批处理引擎，有时需要Storm准实时处理引擎。针对不同的场景使用不同的处理引擎，通过转变条件接口灵活切换。具体的，针对各种处理引擎开发出相应的脱敏程序，通过转变条件接口，自动适配到对应的处理引擎进行数据脱敏。

具体的：

1)为了解决大数据环境下批处理脱敏，提高脱敏效率，自动适配到Hadoop构建批处理脱敏程序；

具体应用时，Hadoop平台下利用Java语言编写MR脱敏程序，搭建Hadoop分布式集群，将脱敏程序递交给Hadoop集群，让其进行分布式计算，完成脱敏任务。在脱敏程序已经优化的情况下，脱敏任务执行的效率依赖于集群的资源，可以通过扩充节点数、节点的CPU核数、内存大小、网络带宽等来提升脱敏的效率。

2)为了解决大数据环境下流数据脱敏，自动适配到利用Spark Streaming大数据处理组件。

具体应用时，通过编写Spark Streaming数据脱敏程序。Spark平台下利用Scala语言编写Spark Streaming数据脱敏程序。利用Spark Streaming接收待脱敏的敏感数据，然后将其分为不同的批次，接下来利用Spark引擎来脱敏这些批次，并根据批次中的结果，生成最终的流。

3)为了解决大数据环境下数据实时脱敏，确保数据脱敏的实时性，自动适配到Storm大数据处理组件。

具体应用时，编写Storm数据脱敏程序。Storm平台下利用Java语言编写Storm脱敏程序，利用Spout逐行读取数据源数据，读取的数据传给数据脱敏Bolt进行脱敏处理，最后由结果输出Bolt将脱敏后的数据输出到相应的目的地。

请参阅图2，为本发明第二实施例提供的一种大数据脱敏方法的流程图。该方法包括：

步骤S201，获取异构数据源。

获取异构数据源，该异构数据源包括数据库、文件、分布式消息系统kafka、以及日志收集系统flume中的至少一种数据源。

步骤S202，根据适配接口获取异构数据源中的敏感数据。

具体实施时，通过适配接口，获取异构数据源的中敏感数据。

步骤S203，确认敏感数据的数据类型，通过转变条件接口自动适配脱敏任务和选择脱敏平台。

步骤S201至步骤S203已在第一实施例中进行了详细阐述，在本实施例中不作赘述。

通过确认敏感数据的数据类型，获取数据对应的业务场景，根据敏感数据的具体数据类型拖过转变条件接口自动设配脱敏任务和选择脱敏平台。

可选的，确认敏感数据的数据类型，包括：

具体实施时，进行字段敏感度评估主要是为脱敏提供依据。根据评估获得字段敏感度级别，只有较高敏感度的字段采取脱敏，否则会造成盲目脱敏。根据对字段进行评估，更好的适配脱敏任务和选择脱敏平台。

可选的，方法还包括：

步骤S204，获取管理员权限，响应管理员对评估条件进行更改的操作，并生成操作日志。

具体的，获得权限的管理员可以对评估条件进行更改，并记录管理员对评估条件的更改操作对应的日志，为后续审计追责提供参考资料。

步骤S205，通过脱敏平台读取脱敏任务对应的敏感数据，并根据脱敏任务对敏感数据进行脱敏。

具体的，脱敏平台读取脱敏任务，对脱敏任务进行解析，读取数据层数据，并根据脱敏任务对敏感数据进行脱敏。

可选的，脱敏平台包括：

步骤S206，记录对敏感数据进行脱敏的信息。

具体实施时，记录对敏感数据进行脱敏的信息，以便于对脱敏任务完成的情况进行展示，更直观的了解数据脱敏的进程。

当然，在此需要说明的是，本发明实施例中方法并不一定需要严格按照如上所述步骤执行，可以根据实际需要进行调整。例如，步骤S204可以在步骤S203之后执行，也可以在步骤S205之后执行，以及可以在步骤S403之后执行。具体实施时，可根据管理员是否需要对评估条件进行更改，进而执行步骤S204对应的方法步骤。

实例1

请参照图3，为本发明实例1所提供的一种大数据脱敏方法对应的流程图，方法包括：

获取敏感数据，该敏感数据可以为异构数据源中的数据，该异构数据源包括：数据库、文件、分布式消息系统kafka、以及日志收集系统flume中的至少一种数据源。

步骤S10，脱敏策略配置。通过预设的评估条件对敏感数据进行评估，选择敏感数据中需要脱敏的数据对应的表，通过转变条件接口自动配置该表字段中高敏感度字段参数。

步骤S11：脱敏任务创建。选择需要脱敏的数据，配置数据源读取方式，选择该数据的脱敏策略配置项，以及配置数据的输出路径等信息。通过转变条件接口自动完成脱敏任务的创建。

步骤S12：选择执行平台。根据业务场景，通过转变条件接口自动适配Hadoop、Spark或Storm等处理引擎。

步骤S13：脱敏任务下发。创建脱敏任务和选择脱敏平台后，向执行层下发脱敏任务。

步骤S14：脱敏执行。根据脱敏任务在对应的脱敏平台上执行Hadoop脱敏、SparkStreaming脱敏或Storm脱敏等。

步骤S15：脱敏结果反馈。获取脱敏平台在对敏感数据进行脱敏的信息，脱敏完成后输出该信息，并将该信息通过外接设备进行展示，该信息可以包括：脱敏的数据条数、执行时间、任务状态等。

步骤S16：任务结果评判。对脱敏任务的结果进行评判，包括脱敏任务完成的状况、脱敏后数据的质量等内容。

其中，请参阅图4，为本发明实例1提供的大数据脱敏方法的Hadoop脱敏流程图。

步骤S21：Hadoop脱敏作业初始化。即解析提交到Hadoop集群中脱敏任务字符串，设置Hadoop作业参数，初始化Hadoop集群，进行资源调度、任务分配。

步骤S22：文件分片。Hadoop将待敏感数据对应的文件根据Block块大小进行分片。

步骤S23：读取分片数据。读取分片数据，将数据解析成一个个key/value键值对。key是行数据在文件中行偏移量，value是该行数据。

步骤S24：行数据脱敏。遍历行数据，对行数据按分隔符进行拆分，依据脱敏任务中脱敏位置、算法以及参数密钥对字段数据进行脱敏，最后将脱敏后的字段数据进行组装，形成脱敏后的行数据。

步骤S25：数据汇集。各个节点上脱敏任务完成后，将结果数据进行汇集。

步骤S26：Hadoop脱敏作业完成。反馈脱敏作业完成详情，如脱敏作业完成状态、执行作业耗时、敏感数据总行数等信息。

其中，请参阅图5，为本发明实例1提供的大数据脱敏方法的Spark Steaming脱敏流程图。

步骤S31：Spark Streaming脱敏应用初始化。即解析提交到Spark集群中的脱敏任务，包括脱敏策略信息、请求资源信息、集群设置信息等，对脱敏应用进行初始化。

步骤S32：接受流数据。获取流数据相关配置信息，建立连接，接受输入的流数据。

步骤S33:切分流数据。每隔X秒(一般0.5s～2s)对输入的流数据进行一次切分，形成按时间分片的数据。

步骤S34：批脱敏分片数据。对切分的按时间分片的数据，提交给Spark去做脱敏处理。遍历每行数据，对行数据进行脱敏。行数据脱敏包括对行数据按分隔符进行拆分、对数据按脱敏策略进行脱敏、组装成行数据。

步骤S35：分片数据脱敏结果输出。对分片数据批脱敏结果按时间序列进行输出。循环三、四、五步骤，实现对流数据进行脱敏处理。

其中，请参阅图6，为本发明实例1提供的大数据脱敏方法的Storm脱敏流程图。

步骤S41：Storm脱敏应用初始化。即解析提交到Storm集群中脱敏任务，包括脱敏策略信息、数据源信息、Topology结构信息等，对脱敏应用进行初始化。

步骤S42：Spout读取数据。Spout根据设置的数据源，逐行读取数据，并传给行数据脱敏Bolt。

步骤S43：Bolt行数据脱敏。Bolt对行数据进行拆分、脱敏、组装，形成脱敏后行数据，并传给结果输出Bolt。

步骤S44：结果输出Bolt。对脱敏后的行数据根据输出要求进行输出，可以输出到数据库、HDFS、Kafka等。

步骤S45：循环S42、S43、S44步骤，实现对数据的实时脱敏。

为本发明实例还提供的大数据脱敏系统。应用于计算机设备，该系统包括：数据层、脱敏管理层、以及脱敏执行层，数据层、脱敏管理层、以及脱敏执行层之间通过接口进行交互。该系统用来实现本发明实施例所提供的大数据脱敏方法，该方法主要用来解决现有技术中数据脱敏系统存在不适用于大数据环境、不支持异构数据源、以及执行引擎单一的技术问题。

其中，数据层，用于获取敏感数据。

具体实施时，通过外设接口接收数据，对该数据进行识别，进而获取敏感数据。

可选的，获取敏感数据，包括：

可选的，异构数据源包括：

脱敏管理层，用于确认敏感数据的数据类型，通过转变条件接口自动适配脱敏任务和选择脱敏平台。

通过确认敏感数据的数据类型，获取数据对应的业务场景，根据敏感数据的具体数据类型通过转变条件接口自动设配脱敏任务和选择脱敏平台。

可选的，确认敏感数据的数据类型，包括：

可选的，脱敏管理层还用于响应管理员对评估条件进行更改的操作，并生成操作日志。

可选的，脱敏平台包括：

具体的：

实例2

请参考图7，为本发明实例2所提供的大数据脱敏系统架构图。大数据脱敏系统功能架构主要分为脱敏管理层、脱敏执行层和数据层。

脱敏管理层：针对要脱敏的数据类型通过转变条件接口自动创建脱敏任务和选择脱敏平台，该脱敏任务包括配置脱敏策略和算法，将脱敏任务下发到脱敏执行层。其中，脱敏执行层对应的脱敏平台包括批处理引擎Hadoop、微批处理引擎Spark Streaming、以及准实时处理引擎Storm中的至少一个处理引擎。同时脱敏执行层会将脱敏执行的情况及时反馈给脱敏管理层，如，记录对敏感数据进行脱敏的信息。脱敏管理层获取到该信息，通过外接显示设备对脱敏任务完成的情况进行展示。该层还包括字段敏感度评估和用户管理，字段敏感度评估为脱敏提供了依据，通过评估获得字段敏感级别，只有较高敏感度的字段才去脱敏，以及系统用户的管理。

脱敏执行层：包括Hadoop、Spark Streaming、Storm等处理引擎。该层接受脱敏管理层下达的脱敏任务，对脱敏策略进行解析，读取数据层数据，根据选择的脱敏平台，执行脱敏任务。脱敏完成后数据输出到数据层，同时将脱敏任务完成的详情反馈到管理层。

数据层：包括文件、数据库、kafka、flume等中的至少一种数据源，系统可以从数据层读取数据进行脱敏，同时也可以将脱敏后的数据存入数据层，或通过数据层传输出去。

各层关系：脱敏管理层下达脱敏任务，执行层收到脱敏任务对脱敏策略进行解析，调度处理引擎，对数据层数据进行脱敏，脱敏完成的数据可以存储在数据层，或通过数据层传输出去，执行层将脱敏任务完成的情况及时反馈给管理层。

本发明实施例还提供了一种计算机可读介质，计算机可读介质存储有大数据脱敏程序，当收大数据脱敏程序被至少一个处理器执行时，导致至少一个处理器执行如下步骤：

步骤S101，获取敏感数据；

步骤S102，确认敏感数据的数据类型，通过转变条件接口自动适配脱敏任务和选择脱敏平台；

可选的，执行的步骤还可以替换为步骤S201至步骤S206，以及执行的步骤还包括步骤S10至步骤S16、步骤S21至步骤S26、步骤S31至步骤S35、步骤S41至步骤S45。

由于在第一实施例至第二实施例中已经对大数据脱敏方法的实施过程进行了详细说明，在本实施例中不作赘述。

本实施例所述计算机可读存储介质包括但不限于为：ROM、RAM、磁盘或光盘等。

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的大数据脱敏程序，处理器执行目标位置获取程序时实现如下步骤：

步骤S101，获取敏感数据；

其中，该计算机设备包括但不限于移动电话、手机、智能手机、平板电脑、个人电脑、个人数字助理、媒体播放器和其他电子设备。当然，该计算机设备也可以为服务器。

综上所述，本发明公开了一种大数据脱敏方法、系统、计算机可读介质及设备，涉及信息安全技术领域。通过获取敏感数据；确认敏感数据的数据类型，通过转变条件接口自动适配脱敏任务和选择脱敏平台；通过脱敏平台读取脱敏任务对应的敏感数据，并根据脱敏任务对敏感数据进行脱敏。适用于处理TB、PB级别的数据，处理效率高；支持异构数据源，适配多种数据源；可扩展执行引擎，支持在不同应用场景下对执行引擎进行切换。解决了现有技术中数据脱敏系统存在不适用于大数据环境、不支持异构数据源、以及执行引擎单一的技术问题。

在本申请所提供的实施例中，应该理解到，所揭露的系统和方法，也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

总之，以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大数据脱敏方法，其特征在于，所述方法包括：

获取敏感数据；

确认所述敏感数据的数据类型，通过转变条件接口自动适配脱敏任务和选择脱敏平台；

通过所述脱敏平台读取所述脱敏任务对应的敏感数据，并根据所述脱敏任务对所述敏感数据进行脱敏。

2.根据权利要求1所述的方法，其特征在于，所述获取敏感数据，包括：

获取异构数据源，根据适配接口获取所述异构数据源中的敏感数据。

3.根据权利要求2所述的方法，其特征在于，所述异构数据源包括：

4.根据权利要求1所述的方法，其特征在于，所述脱敏平台包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

记录对所述敏感数据进行脱敏的信息。

6.根据权利要求1所述的方法，其特征在于，确认所述敏感数据的数据类型，包括：

通过预设的评估条件对所述敏感数据进行字段敏感度评估，确定所述敏感数据的数据类型。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取管理员权限，响应所述管理员对所述评估条件进行更改的操作，并生成操作日志。

8.一种大数据脱敏系统，其特征在于，所述系统包括：

数据层，用于获取敏感数据；

脱敏管理层，用于确认所述敏感数据的数据类型，通过转变条件接口自动适配脱敏任务和选择脱敏平台；

脱敏执行层，用于通过所述脱敏平台读取所述脱敏任务对应的敏感数据，并根据所述脱敏任务对所述敏感数据进行脱敏。

9.一种计算机可读介质，其特征在于，所述计算机可读介质存储有大数据脱敏程序，当所述大数据脱敏程序被至少一个处理器执行时，导致所述至少一个处理器执行如权利要求1至7任意一项所述的方法步骤。

10.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至7中任意一项所述的方法步骤。