CN114625764A

CN114625764A - 基于混合引擎的大数据处理系统与方法

Info

Publication number: CN114625764A
Application number: CN202210175021.1A
Authority: CN
Inventors: 邹文景; 甘莹; 唐良运; 孙刚
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-06-14

Abstract

本发明属于计算机技术与信息安全技术领域，且公开了基于混合引擎的大数据处理系统与方法，包括如下步骤：S1、脱敏规则生成，包括系统规则和用户规则；a、脱敏规则主要包括以下信息，脱敏模板名称和类型、脱敏字段的字段类型(只有符合字段类型要求的字段才能应用该脱敏规则，字段类型列表)。本发明通过presto实现动态脱敏功能，支持脱敏规则模板的管理，支持预定义和自定义方式，通过用户密级管理模块，表格字段级别脱敏规则管理(模板、参数、密级、数据字段相互关联)，计算引擎实现动态脱敏功能，从而解决了presto引擎上无法支持灵活高效数据脱敏功能的问题，可以通过自定义脱敏规则，从而实现数据的高效安全的共享。

Description

基于混合引擎的大数据处理系统与方法

技术领域

本发明属于计算机技术与信息安全技术领域，具体为基于混合引擎的大数据处理系统与方法。

背景技术

信息化时代，数据是一笔宝贵的资产，不管企业还是政府单位，每天都在有意无意地收集、存储、共享数据，且规模越来越大，与各类数据打交道，是现代企业成长的必经之路，但是敏感数据泄露的风险也与日俱增；敏感数据一旦发生泄漏会给政府、企业和个人用户带来无法挽回的损害；除了外部风险环境的压力，我们还有不得不面对的合规性要求，只有遵守市场规则才能参与市场活动。

国外有GDPR(一般数据保护条例)、HIPAA(美国的健康保险携带和责任法案)、SOX(美国萨班斯法案，会计职业监管、公司治理、证券市场监管等方面改革的重要法律)、PCIDSS(全球性支付卡行业数据安全标准)。

国内有《网络安全法》、《公共及商用服务信息系统个人信息保护指南》以及与金融业密切相关的《商业银行信息科技风险管理指引》；当然，国内有关数据保护的法律规范明显还处于在初级阶段，相信未来几年，越来越详细严格的法律法规都将出台。

而在大数据及时查询引擎中，Presto由于其丰富使用场景和优秀的执行性能得到了广泛的应用，他一个开源的分布式SQL查询引擎，支持多源、即席查询，适用于交互式分析查询，数据量支持GB到PB字节；广泛用于交互式查询，批量ETL过程和A/B Test等；但是Presto在数据脱敏管理方面存在缺失，本发明主要就是为了填补presto引擎数据脱敏相关的功能，实现数据的高效安全的共享。

发明内容

本发明的目的在于提供基于混合引擎的大数据处理系统与方法，以解决上述背景技术中提出的问题。

为了实现上述目的，本发明提供如下技术方案：基于混合引擎的大数据处理系统与方法，包括如下步骤：

S1、脱敏规则生成，包括系统规则和用户规则；

a、脱敏规则主要包括以下信息，脱敏模板名称和类型、脱敏字段的字段类型(只有符合字段类型要求的字段才能应用该脱敏规则，字段类型列表)、实现脱敏功能的算法为关系映射和本规则对应的脱敏算法预定义的参数列；

b、脱敏后的数据要在保证隐私信息被隐藏掉的基础上保持一定的原有特性，包括：1、保持数据类型，即脱敏后的数据与原始数据类型一致，数据类型包括但不限于字符串、数字、日期和时间等；2、保持数据格式，即脱敏后的数据需要符合原始数据的编码规则和类型；3、保持数据间依存关系，常见数据间依存关系包括但不限于：数据引用完整性，不同的数据间通过敏感数据的相互引用产生关联关系；数据之间没有引用关系，但存在业务逻辑上的依存关系；4、保持数据统计特征，脱敏后数据在业务所需的维度上保持统计总体特征不变；5、保持数据频率分布，脱敏后的数据在按业务所需划分的各组内保持数量不变；6、保持数据唯一性，不相同的数据脱敏后不会有同样的数据，相同的数据脱敏后一定相同；

c、脱敏规则类型定义的名称，包括：下标遮掩、正则遮掩、哈希、范围映射(一期不支持)、单值映射(一期不支持)；

S2、配置表格脱敏规则：选择对应的列、脱敏规则，脱敏后的密级，修改表格脱敏配置时，进行脱敏操作审计日志的记录，记录操作的人员和脱敏配置前后的变化；

S3、配置用户密级：对于一般的用户系统，可以设置用户组、用户角色和用户本身可以针对这三类主题进行密级设置，系统综合计算用户的所有身份，获取到最大的密级权限进行验证；

S4、执行查询，脱敏执行方式包括：

a、三类密级，数据列的原始访问密级、数据列脱敏后密级(一个字段可以定义多种脱敏规则和脱敏后密级)、用户密级；

b、脱敏规则确定方式，如果用户密级不低于数据列的原始密级，则无需脱敏；如果用户密级低于字段原始密级，且存在脱敏后密级不高于用户密级脱敏规则，则选择脱敏后密级最高的脱敏规则；如果用户密级低于字段原始密级，且低于所有的脱敏后密级，则退化为无查看权限；

c、确定脱敏规则后交由执行引擎下推到计算任务中执行，在presto执行过程中的语义分析环节，通过获取元数据信息和脱敏配置信息，获取到字段脱敏规则名称，通过名称可以关联到presto中预定义的函数，通过替换AST中的对应节点，达到改写sql的目标，实际计算过程中会调用脱敏函数的算法逻辑产出最后的查询结果；执行查询计算时，进行审计日志的记录。

通过presto实现动态脱敏功能，支持脱敏规则模板的管理，支持预定义和自定义方式，通过用户密级管理模块，表格字段级别脱敏规则管理(模板、参数、密级、数据字段相互关联)，计算引擎实现动态脱敏功能，从而解决了presto引擎上无法支持灵活高效数据脱敏功能的问题，可以通过自定义脱敏规则，平台全流程化、引擎解耦，主数据规则引擎生成、数据标准规范引擎、数据质量规则引擎可基于需求场景进行能力扩展和升级，能较好的集成不同的用户管理平台，元数据管理平台等，从而实现数据的高效安全的共享

优选的，所述本系统与方法存在已经建设好的数据仓库或者数据湖管理系统，支持相应的元数据管理功能存在整体的用户管理系统，能进行用户的认证和鉴权，完备的认证和鉴权系统可更好的实时数据脱敏后的浏览权限，避免数据泄露和遗失。

优选的，所述步骤S1中的系统规则指的是系统中预定义的规则，用户可以直接使用，参数已经配置完成；用户规则指的是用户定义新的脱敏规则，或者新的规则参数。

优选的，所述步骤S1中采用关系映射算法的目的是，可使得原始敏感数据间存在业务关联关系，需要在数据脱敏后仍旧保持这种关系，因此在脱敏处理过程中，利用算法表达式对脱敏后的数据进行函数映射，使其脱敏后仍旧保持业务关联关系，关系映射算法适用于所有数据类型，且可实施动态脱敏和静态脱敏。

优选的，所述步骤S1中下标遮掩的参数列表为，begin：遮掩开始的下标，可支持负数，-n表示遮掩从最后多少位开始，end：遮掩结束的下标，可支持0和负数，为0表示遮掩到结束，-n表示遮掩到最后多少位结束，char：遮掩字符，默认为*；

end的计算值小于begin时，不做遮掩。

正则遮掩的参数列表为，regex：匹配分组的正则表达式，replace：遮掩字符串；

遮掩正则表达式中的所有匹配分组。

哈希的参数列表为，algotithm：哈希算法，默认SHA256；

范围映射(一期不支持)的参数列表为，{‘mapping’：[{begin：’0’，end：’20’，replace：’0～20’}，{begin：’20’，end：’30’，replac e：’20～30’}，{begin：’31’，end：”，replace：’31～’}]}；

单值映射的参数列表为，{‘mapping’：[{value：’男’，replace：’0’}，{value：’女’，replace：’1’}]}。

优选的，所述本处理系统对于用户权限管理如下步骤：

a、系统管理员登录用户端系统，为需要的用户创建浏览角色；

b、为相应的浏览角色设置相应的数据源使用权限，即密级；

c、浏览角色通过用户登录端进入登录系统内部，同时鉴权判断系统会甄别该浏览角色的权限密级；

d、为该浏览角色备至相应密级权限的数据，无法阅览高密级权限的数据。

本发明的有益效果如下：

1、本发明通过presto实现动态脱敏功能，支持脱敏规则模板的管理，支持预定义和自定义方式，通过用户密级管理模块，表格字段级别脱敏规则管理(模板、参数、密级、数据字段相互关联)，计算引擎实现动态脱敏功能，从而解决了presto引擎上无法支持灵活高效数据脱敏功能的问题，可以通过自定义脱敏规则，平台全流程化、引擎解耦，主数据规则引擎生成、数据标准规范引擎、数据质量规则引擎可基于需求场景进行能力扩展和升级，能较好的集成不同的用户管理平台，元数据管理平台等，从而实现数据的高效安全的共享。

附图说明

图1为本发明整体流程示意图；

图2为本发明脱敏执行方式流程示意图；

图3为本发明用户密级权限分布示意图；

图4为本发明各密级权限用户的数据资源适用范围示意图；

图5为本发明数据源密级分布示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1至图5所示，本发明实施例中，基于混合引擎的大数据处理系统与方法，包括如下步骤：

S1、脱敏规则生成，包括系统规则和用户规则；

S4、执行查询，脱敏执行方式包括：

c、三类密级，数据列的原始访问密级、数据列脱敏后密级(一个字段可以定义多种脱敏规则和脱敏后密级)、用户密级；

d、脱敏规则确定方式，如果用户密级不低于数据列的原始密级，则无需脱敏；如果用户密级低于字段原始密级，且存在脱敏后密级不高于用户密级脱敏规则，则选择脱敏后密级最高的脱敏规则；如果用户密级低于字段原始密级，且低于所有的脱敏后密级，则退化为无查看权限；

通过presto实现动态脱敏功能，支持脱敏规则模板的管理，支持预定义和自定义方式，通过用户密级管理模块，表格字段级别脱敏规则管理(模板、参数、密级、数据字段相互关联)，计算引擎实现动态脱敏功能，从而解决了presto引擎上无法支持灵活高效数据脱敏功能的问题，可以通过自定义脱敏规则，平台全流程化、引擎解耦，主数据规则引擎生成、数据标准规范引擎、数据质量规则引擎可基于需求场景进行能力扩展和升级，能较好的集成不同的用户管理平台，元数据管理平台等，从而实现数据的高效安全的共享。

其中，本系统与方法存在已经建设好的数据仓库或者数据湖管理系统，支持相应的元数据管理功能存在整体的用户管理系统，能进行用户的认证和鉴权，完备的认证和鉴权系统可更好的实时数据脱敏后的浏览权限，避免数据泄露和遗失。

其中，步骤S1中的系统规则指的是系统中预定义的规则，用户可以直接使用，参数已经配置完成；用户规则指的是用户定义新的脱敏规则，或者新的规则参数。

其中，步骤S1中采用关系映射算法的目的是，可使得原始敏感数据间存在业务关联关系，需要在数据脱敏后仍旧保持这种关系，因此在脱敏处理过程中，利用算法表达式对脱敏后的数据进行函数映射，使其脱敏后仍旧保持业务关联关系，关系映射算法适用于所有数据类型，且可实施动态脱敏和静态脱敏。

其中，步骤S1中下标遮掩的参数列表为，begin：遮掩开始的下标，可支持负数，-n表示遮掩从最后多少位开始，end：遮掩结束的下标，可支持0和负数，为0表示遮掩到结束，-n表示遮掩到最后多少位结束，char：遮掩字符，默认为*；

end的计算值小于begin时，不做遮掩。

遮掩正则表达式中的所有匹配分组。

哈希的参数列表为，algotithm：哈希算法，默认SHA256；

其中，本处理系统对于用户权限管理如下步骤：

b、为相应的浏览角色设置相应的数据源使用权限，即密级；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于混合引擎的大数据处理系统与方法，其特征在于，包括如下步骤：

S1、脱敏规则生成，包括系统规则和用户规则；

S4、执行查询，脱敏执行方式包括：

2.根据权利要求1所述的基于混合引擎的大数据处理系统与方法，其特征在于：所述本系统与方法存在已经建设好的数据仓库或者数据湖管理系统，支持相应的元数据管理功能存在整体的用户管理系统，能进行用户的认证和鉴权。

3.根据权利要求1所述的基于混合引擎的大数据处理系统与方法，其特征在于：所述步骤S1中的系统规则指的是系统中预定义的规则，用户可以直接使用，参数已经配置完成；用户规则指的是用户定义新的脱敏规则，或者新的规则参数。

4.根据权利要求1所述的基于混合引擎的大数据处理系统与方法，其特征在于：所述步骤S1中采用关系映射算法的目的是，可使得原始敏感数据间存在业务关联关系，需要在数据脱敏后仍旧保持这种关系，因此在脱敏处理过程中，利用算法表达式对脱敏后的数据进行函数映射，使其脱敏后仍旧保持业务关联关系。

5.根据权利要求1所述的基于混合引擎的大数据处理系统与方法，其特征在于：所述步骤S1中下标遮掩的参数列表为，begin：遮掩开始的下标，可支持负数，-n表示遮掩从最后多少位开始,end：遮掩结束的下标，可支持0和负数，为0表示遮掩到结束，-n表示遮掩到最后多少位结束,char：遮掩字符，默认为*；

哈希的参数列表为，algorithm：哈希算法，默认SHA256；

范围映射(一期不支持)的参数列表为，{‘mapping’:[{begin:'0',end:'20',replace:'0～20'},{begin:'20',end:'30',replace:'20～30'},{begin:'31',end:”,replace:'31～'}]}；

单值映射的参数列表为，{‘mapping’:[{value:'男',replace:'0'}，{value:'女',replace:'1'}]}。

6.根据权利要求1所述的基于混合引擎的大数据处理系统与方法，其特征在于：所述本处理系统对于用户权限管理如下步骤：

b、为相应的浏览角色设置相应的数据源使用权限，即密级；