CN113032388A

CN113032388A - 信息处理方法、相关装置、设备及存储介质

Info

Publication number: CN113032388A
Application number: CN201911354357.9A
Authority: CN
Inventors: 王杰斌; 张皓; 王煜; 任俊龙; 王泽浩
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2021-06-25

Abstract

本公开提供信息处理方法、相关装置、设备及存储介质。该方法包括：接收数据脱敏系统发送的脱敏任务文件；使用用于处理结构化数据的模块spark sql与源数据信息对应的源数据库建立连接，并从源数据库中进行分布式抽取至少一个脱敏字段中的各脱敏字段对应的数据；创建至少一个脱敏字段中的各脱敏字段对应的spark sql用户自定义函数UDF；根据各脱敏字段对应的脱敏规则信息对各脱敏字段对应的数据进行分布式脱敏处理；将脱敏处理后的脱敏数据根据存储位置信息进行存储。本公开通过spark sql进行分布式并行抽取，并通过UDF进行脱敏处理，实现分布式信息处理计算，解决了现有技术中效率低下、计算速度慢的技术问题。

Description

信息处理方法、相关装置、设备及存储介质

技术领域

本公开属于信息处理技术领域，特别涉及信息处理方法、相关装置、设备及存储介质。

背景技术

随着网络的迅速发展，大数据逐步成为国家基础战略资源和社会基础生产要素。与此同时，大数据安全问题逐渐暴露。大数据因其蕴藏的巨大价值和集中化的存储管理模式成为网络攻击的重点目标，针对大数据的勒索攻击和数据泄露问题日趋严重，全球大数据安全事件呈频发态势。

2017年6月1日起施行的《网络安全法》中明确说明了运营者使用用户个人信息的原则，即“运营者不得泄露、篡改、损毁其收集的个人信息；未经被收集者同意，不得向他人提供个人信息，但是，经过处理无法识别特定个人且不能复原的除外。”其中“经过处理无法识别特定个人且不能复原”可以通过数据脱敏技术手段来实现。为了满足监管要求，防止重要数据资产泄露风险，对数据进行脱敏处理是非常有必要的。

在现有的技术中，数据脱敏技术主要是针对数据库、文件中数据进行脱敏处理，受限于单机处理能力，其处理的数据量小，不适用于处理TB(太字节，Terabyte)、PB(拍字节，Petabyte)量级的数据，处理效率低，并且主要是对传统数据库中的数据进行脱敏处理，不适配大数据源；传统的数据脱敏处理计算速度慢，难以应对当前海量数据的计算需求，因此，急需一种新的方法来解决上述的问题。

发明内容

本公开的目的在于提供一种信息处理方法、相关装置、设备及存储介质，以解决上述信息处理效率低下、计算速度慢并且不满足大量数据计算的问题。

第一方面，本公开提供一种信息处理方法，应用于大数据平台，所述方法包括：

接收数据脱敏系统发送的脱敏任务文件；

对所述脱敏任务文件中的脱敏信息进行解析，所述脱敏信息包括源数据信息、存储位置信息、至少一个脱敏字段及其对应的脱敏规则信息，其中，所述源数据信息为所连接的数据源的信息；

使用用于处理结构化数据的模块spark sql(spark Structured QueryLanguage)与源数据信息对应的源数据库建立连接，并从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据；

创建所述至少一个脱敏字段中的各脱敏字段对应的spark sql用户自定义函数UDF(User Defined Function)；

基于各脱敏字段对应的UDF，根据各脱敏字段对应的脱敏规则信息对各脱敏字段对应的数据进行分布式脱敏处理；

将脱敏处理后的脱敏数据根据存储位置信息进行存储。

在一个实施例中，运行自定义函数Java文档jar包以创建所述UDF。

在一个实施例中，所述源数据信息包括：网际互连协议IP地址、端口信息、用户名和密码、数据库名称，其中，与源数据信息对应的源数据库建立连接，包括：

采用所述IP地址通过所述端口信息与所述源数据库建立连接；

从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据之前，还包括：

比对所述用户名和密码与之前设置的用户名和密码是否相同；

若相同，则具有从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据的权限；

若不同，则不具有从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据的权限。

在一个实施例中，所述存储位置信息包括：网际互联协议IP地址、端口信息、用户名和密码、数据库名称，其中，将脱敏处理后的脱敏数据根据存储位置信息进行存储之前，包括：

采用所述IP地址通过所述端口信息与存储数据库建立连接；

若相同，则具有将脱敏处理后的脱敏数据根据存储位置信息进行存储的权限；

若不相同，则不具将脱敏处理后的脱敏数据根据存储位置信息进行存储的权限。

第二方面，本公开提供一种信息处理方法，应用于数据脱敏系统，所述方法包括：

响应于用户对源数据信息的输入的操作，确定所述源数据信息；

扫描所述源数据信息并推荐相应的脱敏策略，所述脱敏策略包括脱敏字段及其脱敏规则；

响应于用户对存储位置信息的输入的操作，确定所述存储位置信息并保存；

响应于用户对脱敏任务文件中脱敏信息的选择操作，生成包含选择的脱敏信息的脱敏任务文件；

发送生成的所述脱敏任务文件给大数据平台以使所述大数据平台进行脱敏操作。

在一个实施例中，响应于用户增加源数据信息的操作，确定新增加的源数据信息并保存。

在一个实施例中，响应于用户的操作，设置脱敏字段和脱敏规则。

在一个实施例中，所述源数据信息包括：网际互连协议IP地址、端口信息、用户名和密码、数据库名称，其中，将所述源数据信息发送给大数据平台以使所述大数据平台执行以下操作：

比对所述用户名和密码与之前设置的用户名和密码是否相同，确定所述用户名和密码是否具有从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据的权限；

在一个实施例中，所述存储位置信息包括：网际互联协议IP地址、端口信息、用户名和密码、数据库名称，其中，将所述存储位置信息发送给所述大数据平台以使所述大数据平台执行以下操作：

采用所述IP地址通过所述端口信息与存储数据库建立连接；

比对所述用户名和密码与之前设置的用户名和密码是否相同，确定所述用户名和密码是否具有将脱敏处理后的脱敏数据根据存储位置信息进行存储的权限；

第三方面，本公开提供一种大数据平台，所述大数据平台包括：

接收模块，用于接收数据脱敏系统发送的脱敏任务文件；

解析模块，用于对所述脱敏任务文件中的脱敏信息进行解析，所述脱敏信息包括源数据信息、存储位置信息、至少一个脱敏字段及其对应的脱敏规则信息，其中，所述源数据信息为所连接的数据源的信息；

连接抽取模块，用于使用用于处理结构化数据的模块spark sql与源数据信息对应的源数据库建立连接，并从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据；

创建模块，用于创建所述至少一个脱敏字段中的各脱敏字段对应的spark sql用户自定义函数UDF；

脱敏处理模块，用于基于各脱敏字段对应的UDF，根据各脱敏字段对应的脱敏规则信息对各脱敏字段对应的数据进行分布式脱敏处理；

存储模块，用于将脱敏处理后的脱敏数据根据存储位置信息进行存储。

在一个实施例中，所述大数据平台还包括：

运行模块，用于运行自定义函数Java文档jar包以创建所述UDF。

在一个实施例中，所述源数据信息包括：网际互连协议IP地址、端口信息、用户名和密码、数据库名称，其中，所述连接抽取模块，用于：

第一比对模块，用于比对所述用户名和密码与之前设置的用户名和密码是否相同；

权限确定模块，用于若相同，则具有从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据的权限；

权限不确定模块，用于若不同，则不具有从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据的权限。

建立连接模块，用于采用所述IP地址通过所述端口信息与存储数据库建立连接；

第二比对模块，用于比对所述用户名和密码与之前设置的用户名和密码是否相同；

存储权限确定模块，用于若相同，则具有将脱敏处理后的脱敏数据根据存储位置信息进行存储的权限；

存储权限不确定模块，用于若不相同，则不具将脱敏处理后的脱敏数据根据存储位置信息进行存储的权限。

第四方面，本公开提供一种数据脱敏系统，所述数据脱敏系统包括：

确定模块，用于响应于用户对源数据信息的输入的操作，确定所述源数据信息；

扫描模块，用于扫描所述源数据信息并推荐相应的脱敏策略，所述脱敏策略包括脱敏字段及其脱敏规则；

存储位置确定模块，用于响应于用户对存储位置信息的输入的操作，确定所述存储位置信息并保存；

文件生成模块，用于响应于用户对脱敏任务文件中脱敏信息的选择操作，生成包含选择的脱敏信息的脱敏任务文件；

发送模块，用于发送生成的所述脱敏任务文件给大数据平台以使所述大数据平台进行脱敏操作。

在一个实施例中，所述数据脱敏系统还包括：

新增确定模块，用于响应于用户增加源数据信息的操作，确定新增加的源数据信息并保存。

在一个实施例中，所述数据脱敏系统还包括:

设置模块，用于响应于用户的操作，设置脱敏字段和脱敏规则。

采用所述IP地址通过所述端口信息与存储数据库建立连接；

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的计算机存储介质；

其中，所述处理器被配置为执行所述指令，用以实现如第一方面和/或第二方面所述的信息处理方法。

根据本公开实施例提供的第六方面，提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行如第一和/或第二方面所述的信息处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开提供信息处理方法、相关装置、设备及存储介质。该方法包括：接收数据脱敏系统发送的脱敏任务文件；对所述脱敏任务文件中的脱敏信息进行解析，所述脱敏信息包括源数据信息、存储位置信息、至少一个脱敏字段及其对应的脱敏规则信息，其中，所述源数据信息为所连接的数据源的信息；使用用于处理结构化数据的模块spark sql与源数据信息对应的源数据库建立连接，并从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据；创建所述至少一个脱敏字段中的各脱敏字段对应的spark sql用户自定义函数UDF；基于各脱敏字段对应的UDF，根据各脱敏字段对应的脱敏规则信息对各脱敏字段对应的数据进行分布式脱敏处理；将脱敏处理后的脱敏数据根据存储位置信息进行存储。由此，本公开是通过spark sql进行分布式作业并行抽取，并通过UDF进行分布式脱敏处理，实现分布式信息处理计算，解决了现有技术中效率低下、计算速度慢的技术问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1为根据本公开一个实施例的适用场景示意图；

图2为根据本公开一个实施例的信息处理方法的流程示意图；

图3为根据本公开一个实施例的信息处理方法的流程示意图；

图4为根据本公开一个实施例的界面操作示意图之一；

图5为根据本公开一个实施例的界面操作示意图之二；

图6为根据本公开一个实施例的界面操作示意图之三；

图7为根据本公开一个实施例的界面操作示意图之四；

图8为根据本公开一个实施例的界面操作示意图之五；

图9为根据本公开一个实施例的信息处理方法的流程示意图；

图10为根据本公开一个实施例的大数据平台示意图；

图11为根据本公开一个实施例的数据脱敏系统示意图；

图12根据本公开一个实施例的电子设备的结构示意图。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，显然，所描述的实施例仅仅是本公开一部份实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

本公开实施例中术语“多个”是指两个或两个以上，其它量词与之类似应当理解，此处所描述的优选实施例仅用于说明和解释本公开，并不用于限定本公开，并且在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

如背景技术所述，现有的技术主要是针对数据库、文件中数据进行脱敏处理，受限于单机处理能力，其处理的数据量小，不适用于处理TB(太字节，Terabyte)、PB(拍字节，Petabyte)量级的数据，处理效率低，并且主要是对传统数据库中数据进行脱敏处理，不适配大数据源；传统的数据信息处理产品基于单计算节点下运行，计算速度慢，难以应对当前海量数据的计算需求，有鉴于此，本公开提出一种信息处理方法、相关装置、设备及存储介质。本公开是将大数据通过spark sql进行分布式作业并行抽取，并通过UDF自定义函数进行数据脱敏，实现分布式信息处理计算，解决了现有技术中效率低下、计算速度慢的技术问题。

本公开提出的信息处理方法的应用场景为：

如图1所示，图1中包括服务器102和终端101，其中，服务器102与终端101连接，终端101响应于用户对源数据信息的输入的操作，确定所述源数据信息；之后终端101扫描所述源数据信息，服务器102推荐相应的脱敏策略，所述脱敏策略包括脱敏字段及其脱敏规则；终端101响应于用户对存储位置信息的输入的操作，服务器102确定所述存储位置信息并保存；之后终端101响应于用户对脱敏任务文件中脱敏信息的选择操作，并生成包含选择的脱敏信息的脱敏任务文件；终端101发送生成的所述脱敏任务文件给服务器102，服务器102接收脱敏任务文件，并对脱敏任务文件中的脱敏信息进行解析，之后服务器102使用用于处理结构化数据的模块spark sql与源数据信息对应的源数据库建立连接，并从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据之后，服务器102创建所述至少一个脱敏字段中的各脱敏字段对应的spark sql用户自定义函数UDF；并基于各脱敏字段对应的UDF，根据各脱敏字段对应的脱敏规则信息对各脱敏字段对应的数据进行分布式脱敏处理；最后服务器102将脱敏处理后的脱敏数据根据存储位置信息进行存储。

需要说明的是，推荐相应的脱敏策略、确定所述存储位置信息并保存这两个步骤可以由服务器102执行，也可以由终端101来执行，生成包含选择的脱敏信息的脱敏任务文件这一步骤可以由终端101来执行，也可以由服务器102来执行，具体由谁来执行，需要根据具体的情况来决定。

下面结合附图，对本公开提供的方案进行详细说明。如图2所示为该方法应用于大数据平台的流程示意图，包括以下步骤：

步骤201：接收数据脱敏系统发送的脱敏任务文件；

步骤202：对所述脱敏任务文件中的脱敏信息进行解析，所述脱敏信息包括源数据信息、存储位置信息、至少一个脱敏字段及其对应的脱敏规则信息，其中，所述源数据信息为所连接的数据源的信息；

步骤203：使用spark sql与源数据信息对应的源数据库建立连接，并从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据；

需要说明的是，可从同一个源数据库中进行抽取，也可以是从不同的源数据库中进行抽取。

步骤204：创建所述至少一个脱敏字段中的各脱敏字段对应的spark sql用户自定义函数UDF；

步骤205：基于各脱敏字段对应的UDF，根据各脱敏字段对应的脱敏规则信息对各脱敏字段对应的数据进行分布式脱敏处理；

需要说明的是，可以是对同一脱敏字段的数据进行脱敏处理，也可以是对不同的脱敏字段对应的数据进行脱敏处理。

步骤206：将脱敏处理后的脱敏数据根据存储位置信息进行存储。

由此，本公开实施例通过大数据平台接收脱敏任务文件并对脱敏任务文件中的脱敏信息进行解析，然后通过spark sql的进行分布式作业并行抽取，并通过UDF自定义函数进行分布式数据脱敏处理，解决了现有技术中效率低下、计算速度慢的技术问题。

创建UDF之前，在一个实施例中，运行自定义函数Java文档jar包以创建所述UDF。

由此，可以运行jar包使得UDF能够创建。

在一个实施例中，如前文所述，关于步骤202中的源数据信息包括：网际互连协议IP地址、端口信息、用户名和密码、数据库名称等，其中，与源数据信息对应的源数据库建立连接，包括：采用所述IP地址通过所述端口信息与所述源数据库建立连接。由此，可以采用IP地址通过端口信息与数据库建立连接。

从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据之前，还包括：比对所述用户名和密码与之前设置的用户名和密码是否相同；若相同，则具有从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据的权限；若不同，则不具有从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据的权限。

由此，大数据平台可以根据源数据信息中的IP地址通过端口信息与所述源数据库建立连接，并且通过比对用户名和密码来验证用户是否具有操作权限。以此来保护信息安全，防止被不法分子盗取。

在一个实施例中，关于步骤206中的存储位置信息包括：网际互联协议IP地址、端口信息、用户名和密码、数据库名称等，其中，将脱敏处理后的脱敏数据根据存储位置信息进行存储之前，包括：采用所述IP地址通过所述端口信息与存储数据库建立连接；比对所述用户名和密码与之前设置的用户名和密码是否相同；若相同，则具有将脱敏处理后的脱敏数据根据存储位置信息进行存储的权限；若不相同，则不具将脱敏处理后的脱敏数据根据存储位置信息进行存储的权限。

由此，可以根据存储位置信息中的IP地址通过所述端口信息与存储数据库建立连接，并验证用户名和密码是否具有存储权限，若用权限，才可以进行存储。以此来保护信息安全，防止被不法分子盗取。

下面结合附图，对本公开提供的方案进行详细说明。如图3所示为该方法应用于数据脱敏系统的流程示意图，可包括以下步骤：

步骤301：响应于用户对源数据信息的输入的操作，确定所述源数据信息；

如图4所示，图4为界面操作图，用户可在输入框中对应输入源数据信息。点击确定按钮即可完成输入。

步骤302：扫描所述源数据信息并推荐相应的脱敏策略，所述脱敏策略包括脱敏字段及其脱敏规则；

步骤303：响应于用户对存储位置信息的输入的操作，确定所述存储位置信息并保存；

如图5所示，用户可在输入框中对应输入存储位置信息，输入完成后，点击确定按钮即可完成输入存储位置信息的操作。

步骤304：响应于用户对脱敏任务文件中脱敏信息的选择操作，生成包含选择的脱敏信息的脱敏任务文件；

如图6所示，图6中源数据信息选项中包括源数据信息1、源数据信息2、源数据信息3，存储位置信息选项中包括存储位置信息1、存储位置信息2、存储位置信息3，脱敏字段选项中包括脱敏字段1、脱敏字段2和脱敏字段3，与脱敏字段对应的脱敏规则包括脱敏规则1、脱敏规则2和脱敏规则3，例如，用户选择了源数据信息1，存储位置信息2，脱敏字段1及其与之对应规则1，点击确定按钮，即可生成脱敏任务文件。需要说明的是，脱敏字段与脱敏规则是对应的，用户选择了脱敏字段1，则自动会选择脱敏规则1，不需要用户手动选择。

步骤305：发送生成的所述脱敏任务文件给大数据平台以使所述大数据平台进行脱敏操作。

由此，本公开通过数据脱敏系统生成脱敏任务文件，并将脱敏任务文件发送给大数据平台，以使大数据平台进行通过spark sql的进行分布式作业并行抽取，并通过UDF自定义函数进行分布式数据脱敏操作，解决了现有技术中效率低下、计算速度慢的技术问题。

在一个实施例中，响应于用户增加源数据信息的操作，确定新增加的源数据信息并保存。如图7所示，用户在增加源数据信息框中输入要增加的源数据信息，点击确定，即增加了新的源数据信息。

由此，可根据用户的需求增加新的源数据信息。

在一实施例中，如前文所述，当推荐脱敏策略之后，若发现脱敏策略是错误的，本公开执行为：响应于用户的操作，设置脱敏字段和脱敏规则。如图8所示，用户在相应的选择框中选择的脱敏字段和脱敏规则，点击确定按钮，即可完成设置。

由此，若系统推荐的脱敏策略是错误时，用户可进行修改配置。

在一个实施例中，步骤301中的源数据信息包括：网际互连协议IP地址、端口信息、用户名和密码、数据库名称等，其中，将所述源数据信息发送给大数据平台以使所述大数据平台执行以下操作：

由此，将源数据信息发送给大数据平台以使大数据平台采用所述IP地址通过所述端口信息与所述源数据库建立连接，比对所述用户名和密码与之前设置的用户名和密码是否相同来确定用户是否具有操作权限。以此来保户信息安全，防止被不法分子盗取。

在一个实施例中，步骤303中的存储位置信息包括：网际互联协议IP地址、端口信息、用户名和密码、数据库名称等，其中，将所述存储位置信息发送给所述大数据平台以使所述大数据平台执行以下操作：

采用所述IP地址通过所述端口信息与存储数据库建立连接；

由此，将存储位置信息发送给大数据平台以使大数据平台采用所述IP地址通过所述端口信息与存储数据库建立连接，比对所述用户名和密码与之前设置的用户名和密码是否相同来确定用户是否具有存储权限。以此来保户信息安全，防止被不法分子盗取。

如图9所示，为便于系统性理解本公开实施例提供的技术方法，图9为信息处理方法的流程图：

步骤901：数据脱敏系统响应于用户对源数据信息的输入的操作，确定所述源数据信息；

步骤902：数据脱敏系统扫描所述源数据信息并推荐相应的脱敏策略，所述脱敏策略包括脱敏字段及其脱敏规则；

步骤903：数据脱敏系统响应于用户对存储位置信息的输入的操作，确定所述存储位置信息并保存；

步骤904：数据脱敏系统响应于用户对脱敏任务文件中脱敏信息的选择操作，生成包含选择的脱敏信息的脱敏任务文件；

步骤905：数据脱敏系统发送生成的所述脱敏任务文件给大数据平台；

步骤906：大数据平台接收数据脱敏系统发送的脱敏任务文件；

步骤907：大数据平台对所述脱敏任务文件中的脱敏信息进行解析，所述脱敏信息包括源数据信息、存储位置信息、至少一个脱敏字段及其对应的脱敏规则信息，其中，所述源数据信息为所连接的数据源的信息；

步骤908：大数据平台使用spark sql与源数据信息对应的源数据库建立连接，并从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据；

步骤909：大数据平台创建所述至少一个脱敏字段中的各脱敏字段对应的sparksql用户自定义函数UDF；

步骤910：大数据平台基于各脱敏字段对应的UDF，根据各脱敏字段对应的脱敏规则信息对各脱敏字段对应的数据进行分布式脱敏处理；

步骤911：大数据平台将脱敏处理后的脱敏数据根据存储位置信息进行存储。

如图10所示，本公开的大数据平台1000可以包括接收模块1010、解析模块1020、连接抽取模块1030、创建模块1040、脱敏处理模块1050和存储模块1060。

接收模块1010，用于接收数据脱敏系统发送的脱敏任务文件；

解析模块1020，用于对所述脱敏任务文件中的脱敏信息进行解析，所述脱敏信息包括源数据信息、存储位置信息、至少一个脱敏字段及其对应的脱敏规则信息，其中，所述源数据信息为所连接的数据源的信息；

连接抽取模块1030，用于使用spark sql与源数据信息对应的源数据库建立连接，并从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据；

创建模块1040，用于创建所述至少一个脱敏字段中的各脱敏字段对应的sparksql用户自定义函数UDF；

脱敏处理模块1050，用于基于各脱敏字段对应的UDF，根据各脱敏字段对应的脱敏规则信息对各脱敏字段对应的数据进行分布式脱敏处理；

存储模块1060，用于将脱敏处理后的脱敏数据根据存储位置信息进行存储。

在一个实施例中，所述大数据平台还包括:

运行模块1070，用于运行自定义函数Java文档jar包以创建所述UDF。

在一个实施例中，所述源数据信息包括：网际互连协议IP地址、端口信息、用户名和密码、数据库名称，其中，所述连接抽取模块1030，用于：

第一比对模块1080，用于比对所述用户名和密码与之前设置的用户名和密码是否相同；

权限确定模块1090，用于若相同，则具有从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据的权限；

权限不确定模块10100，用于若不同，则不具有从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据的权限。

建立连接模块10110，用于采用所述IP地址通过所述端口信息与存储数据库建立连接；

第二比对模块10120，用于比对所述用户名和密码与之前设置的用户名和密码是否相同；

存储权限确定模块10130，用于若相同，则具有将脱敏处理后的脱敏数据根据存储位置信息进行存储的权限；

存储权限不确定模块10140，用于若不相同，则不具将脱敏处理后的脱敏数据根据存储位置信息进行存储的权限。

基于相同的构思，如图11所示，本公开实施例提供数据脱敏系统，基于相同的发明构思，该数据脱敏系统的效果与前述方法的效果相似，在此不再赘述。

如图11所示，本公开的数据脱敏系统1100可以包括确定模块1110、扫描模块1120、存储位置确定模块1130、文件生成模块1140和发送模块1150。

确定模块1110，用于响应于用户对源数据信息的输入的操作，确定所述源数据信息；

扫描模块1120，用于扫描所述源数据信息并推荐相应的脱敏策略，所述脱敏策略包括脱敏字段及其脱敏规则；

存储位置确定模块1130，用于响应于用户对存储位置信息的输入的操作，确定所述存储位置信息并保存；

文件生成模块1140，用于响应于用户对脱敏任务文件中脱敏信息的选择操作，生成包含选择的脱敏信息的脱敏任务文件；

发送模块1150，用于发送生成的所述脱敏任务文件给大数据平台以使所述大数据平台进行脱敏操作。

在一个实施例中，所述数据脱敏系统还包括：

新增确定模块1160，用于响应于用户增加源数据信息的操作，确定新增加的源数据信息并保存。

在一个实施例中，所述数据脱敏系统还包括:

设置模块1170，用于响应于用户的操作，设置脱敏字段和脱敏规则。

采用所述IP地址通过所述端口信息与存储数据库建立连接；

在介绍了本公开示例性实施方式的一种信息处理的装置之后，即大数据平台和数据脱敏系统，接下来，介绍根据本公开的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本公开的电子设备可以至少包括至少一个处理器、以及至少一个计算机存储介质。其中，计算机存储介质存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本公开各种示例性实施方式的信息处理中的步骤。

下面参照图12来描述根据本公开的这种实施方式的电子设备1200。图12显示的电子设备1200仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示，电子设备1200以通用电子设备的形式表现。电子设备1200的组件可以包括但不限于：上述至少一个处理器1201、上述至少一个计算机存储介质1202、连接不同系统组件(包括计算机存储介质1202和处理器1201)的总线1203。

总线1203表示几类总线结构中的一种或多种，包括计算机存储介质总线或者计算机存储介质控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

计算机存储介质1202可以包括易失性计算机存储介质形式的可读介质，例如随机存取计算机存储介质(RAM)1221和/或高速缓存存储介质1222，还可以进一步包括只读计算机存储介质(ROM)1223。

计算机存储介质1202还可以包括具有一组(至少一个)程序模块1224的程序/实用工具1225，这样的程序模块1224包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备1200也可以与一个或多个外部设备1204(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备1200交互的设备通信，和/或与使得该电子设备1200能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1205进行。并且，电子设备1200还可以通过网络适配器1206与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1206通过总线1203与用于电子设备1200的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备1200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本公开提供的信息处理方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的一种信息处理的方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取计算机存储介质(RAM)、只读计算机存储介质(ROM)、可擦式可编程只读计算机存储介质(EPROM或闪存)、光纤、便携式紧凑盘只读计算机存储介质(CD-ROM)、光计算机存储介质件、磁计算机存储介质件、或者上述的任意合适的组合。

本公开的实施方式的用于信息处理的程序产品可以采用便携式紧凑盘只读计算机存储介质(CD-ROM)并包括程序代码，并可以在电子设备上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、第一设备、第二设备或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了大数据平台和数据脱敏系统的若干模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘计算机存储介质、CD-ROM、光学计算机存储介质等)上实施的计算机程序产品的形式。

本公开是参照根据本公开的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读计算机存储介质中，使得存储在该计算机可读计算机存储介质中的指令产生包括指令签名计算的制造品，该指令签名计算实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

1.一种信息处理方法，其特征在于，应用于大数据平台，所述方法包括：

接收数据脱敏系统发送的脱敏任务文件；

使用用于处理结构化数据的模块spark sql与源数据信息对应的源数据库建立连接，并从所述源数据库中进行分布式抽取所述至少一个脱敏字段中的各脱敏字段对应的数据；

创建所述至少一个脱敏字段中的各脱敏字段对应的spark sql用户自定义函数UDF；

将脱敏处理后的脱敏数据根据存储位置信息进行存储。

2.根据权利要求1所述的方法，其特征在于，所述创建所述至少一个脱敏字段中的各脱敏字段对应的spark sql用户自定义函数UDF之前，所述方法还包括:

运行自定义函数Java文档jar包以创建所述UDF。

3.根据权利要求1所述的方法，其特征在于，所述源数据信息包括：网际互连协议IP地址、端口信息、用户名和密码、数据库名称，其中，

与源数据信息对应的源数据库建立连接，包括：

4.根据权利要求1所述的方法，其特征在于，所述存储位置信息包括：网际互联协议IP地址、端口信息、用户名和密码、数据库名称，其中，

将脱敏处理后的脱敏数据根据存储位置信息进行存储之前，包括：

采用所述IP地址通过所述端口信息与存储数据库建立连接；

5.一种信息处理方法，其特征在于，应用于数据脱敏系统，所述方法包括：

6.根据权利要求5所述的方法，其特征在于，所述选择脱敏数据源进行扫描并推荐脱敏策略之前，所述方法还包括：

响应于用户增加源数据信息的操作，确定新增加的源数据信息并保存。

7.根据权利要求5所述的方法，其特征在于，所述扫描所述源数据信息并推荐相应的脱敏策略之后，所述方法还包括:

响应于用户的操作，设置脱敏字段和脱敏规则。

8.根据权利要求5所述的方法，其特征在于，所述源数据信息包括：网际互连协议IP地址、端口信息、用户名和密码、数据库名称，其中，将所述源数据信息发送给大数据平台以使所述大数据平台执行以下操作：

9.根据权利要求5所述的方法，其特征在于，所述存储位置信息包括：网际互联协议IP地址、端口信息、用户名和密码、数据库名称，其中，将所述存储位置信息发送给所述大数据平台以使所述大数据平台执行以下操作：

采用所述IP地址通过所述端口信息与存储数据库建立连接；

10.一种大数据平台，其特征在于，所述大数据平台包括：

接收模块，用于接收数据脱敏系统发送的脱敏任务文件；

11.根据权利要求10所述的大数据平台，其特征在于，所述创建所述至少一个脱敏字段中的各脱敏字段对应的spark sql用户自定义函数UDF之前，所述大数据平台还包括:

运行模块，用于运行自定义函数Java文档jar包以创建所述UDF。

12.根据权利要求10所述的大数据平台，其特征在于，所述源数据信息包括：网际互连协议IP地址、端口信息、用户名和密码、数据库名称，其中，

所述连接抽取模块，用于：

13.根据权利要求10所述的大数据平台，其特征在于，所述存储位置信息包括：网际互联协议IP地址、端口信息、用户名和密码、数据库名称，其中，

14.一种数据脱敏系统，其特征在于，所述数据脱敏系统包括：

15.根据权利要求14所述的数据脱敏系统，其特征在于，所述选择脱敏数据源进行扫描并推荐脱敏策略之前，所述数据脱敏系统还包括：

16.根据权利要求14所述的数据脱敏系统，其特征在于，所述扫描所述源数据信息并推荐相应的脱敏策略之后，所述数据脱敏系统还包括:

17.根据权利要求14所述的数据脱敏系统，其特征在于，所述源数据信息包括：网际互连协议IP地址、端口信息、用户名和密码、数据库名称，其中，将所述源数据信息发送给大数据平台以使所述大数据平台执行以下操作：

18.根据权利要求14所述的数据脱敏系统，其特征在于，所述存储位置信息包括：网际互联协议IP地址、端口信息、用户名和密码、数据库名称，其中，将所述存储位置信息发送给所述大数据平台以使所述大数据平台执行以下操作：

采用所述IP地址通过所述端口信息与存储数据库建立连接；

19.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的计算机存储介质；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-4或5-9中任一项所述的信息处理方法。

20.一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，其特征在于，所述计算机可执行指令被配置为执行如权利要求1-4或5-9中任一项所述的信息处理方法。