CN114625764A - 基于混合引擎的大数据处理系统与方法 - Google Patents
基于混合引擎的大数据处理系统与方法 Download PDFInfo
- Publication number
- CN114625764A CN114625764A CN202210175021.1A CN202210175021A CN114625764A CN 114625764 A CN114625764 A CN 114625764A CN 202210175021 A CN202210175021 A CN 202210175021A CN 114625764 A CN114625764 A CN 114625764A
- Authority
- CN
- China
- Prior art keywords
- desensitization
- data
- user
- rule
- security level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 title claims abstract description 17
- 238000000586 desensitisation Methods 0.000 claims abstract description 151
- 238000007726 management method Methods 0.000 claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 12
- 230000000873 masking effect Effects 0.000 claims description 11
- 238000012550 audit Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 3
- 238000013475 authorization Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Storage Device Security (AREA)
Abstract
本发明属于计算机技术与信息安全技术领域,且公开了基于混合引擎的大数据处理系统与方法,包括如下步骤:S1、脱敏规则生成,包括系统规则和用户规则;a、脱敏规则主要包括以下信息,脱敏模板名称和类型、脱敏字段的字段类型(只有符合字段类型要求的字段才能应用该脱敏规则,字段类型列表)。本发明通过presto实现动态脱敏功能,支持脱敏规则模板的管理,支持预定义和自定义方式,通过用户密级管理模块,表格字段级别脱敏规则管理(模板、参数、密级、数据字段相互关联),计算引擎实现动态脱敏功能,从而解决了presto引擎上无法支持灵活高效数据脱敏功能的问题,可以通过自定义脱敏规则,从而实现数据的高效安全的共享。
Description
技术领域
本发明属于计算机技术与信息安全技术领域,具体为基于混合引擎的大数据处理系统与方法。
背景技术
信息化时代,数据是一笔宝贵的资产,不管企业还是政府单位,每天都在有意无意地收集、存储、共享数据,且规模越来越大,与各类数据打交道,是现代企业成长的必经之路,但是敏感数据泄露的风险也与日俱增;敏感数据一旦发生泄漏会给政府、企业和个人用户带来无法挽回的损害;除了外部风险环境的压力,我们还有不得不面对的合规性要求,只有遵守市场规则才能参与市场活动。
国外有GDPR(一般数据保护条例)、HIPAA(美国的健康保险携带和责任法案)、SOX(美国萨班斯法案,会计职业监管、公司治理、证券市场监管等方面改革的重要法律)、PCIDSS(全球性支付卡行业数据安全标准)。
国内有《网络安全法》、《公共及商用服务信息系统个人信息保护指南》以及与金融业密切相关的《商业银行信息科技风险管理指引》;当然,国内有关数据保护的法律规范明显还处于在初级阶段,相信未来几年,越来越详细严格的法律法规都将出台。
而在大数据及时查询引擎中,Presto由于其丰富使用场景和优秀的执行性能得到了广泛的应用,他一个开源的分布式SQL查询引擎,支持多源、即席查询,适用于交互式分析查询,数据量支持GB到PB字节;广泛用于交互式查询,批量ETL过程和A/B Test等;但是Presto在数据脱敏管理方面存在缺失,本发明主要就是为了填补presto引擎数据脱敏相关的功能,实现数据的高效安全的共享。
发明内容
本发明的目的在于提供基于混合引擎的大数据处理系统与方法,以解决上述背景技术中提出的问题。
为了实现上述目的,本发明提供如下技术方案:基于混合引擎的大数据处理系统与方法,包括如下步骤:
S1、脱敏规则生成,包括系统规则和用户规则;
a、脱敏规则主要包括以下信息,脱敏模板名称和类型、脱敏字段的字段类型(只有符合字段类型要求的字段才能应用该脱敏规则,字段类型列表)、实现脱敏功能的算法为关系映射和本规则对应的脱敏算法预定义的参数列;
b、脱敏后的数据要在保证隐私信息被隐藏掉的基础上保持一定的原有特性,包括:1、保持数据类型,即脱敏后的数据与原始数据类型一致,数据类型包括但不限于字符串、数字、日期和时间等;2、保持数据格式,即脱敏后的数据需要符合原始数据的编码规则和类型;3、保持数据间依存关系,常见数据间依存关系包括但不限于:数据引用完整性,不同的数据间通过敏感数据的相互引用产生关联关系;数据之间没有引用关系,但存在业务逻辑上的依存关系;4、保持数据统计特征,脱敏后数据在业务所需的维度上保持统计总体特征不变;5、保持数据频率分布,脱敏后的数据在按业务所需划分的各组内保持数量不变;6、保持数据唯一性,不相同的数据脱敏后不会有同样的数据,相同的数据脱敏后一定相同;
c、脱敏规则类型定义的名称,包括:下标遮掩、正则遮掩、哈希、范围映射(一期不支持)、单值映射(一期不支持);
S2、配置表格脱敏规则:选择对应的列、脱敏规则,脱敏后的密级,修改表格脱敏配置时,进行脱敏操作审计日志的记录,记录操作的人员和脱敏配置前后的变化;
S3、配置用户密级:对于一般的用户系统,可以设置用户组、用户角色和用户本身可以针对这三类主题进行密级设置,系统综合计算用户的所有身份,获取到最大的密级权限进行验证;
S4、执行查询,脱敏执行方式包括:
a、三类密级,数据列的原始访问密级、数据列脱敏后密级(一个字段可以定义多种脱敏规则和脱敏后密级)、用户密级;
b、脱敏规则确定方式,如果用户密级不低于数据列的原始密级,则无需脱敏;如果用户密级低于字段原始密级,且存在脱敏后密级不高于用户密级脱敏规则,则选择脱敏后密级最高的脱敏规则;如果用户密级低于字段原始密级,且低于所有的脱敏后密级,则退化为无查看权限;
c、确定脱敏规则后交由执行引擎下推到计算任务中执行,在presto执行过程中的语义分析环节,通过获取元数据信息和脱敏配置信息,获取到字段脱敏规则名称,通过名称可以关联到presto中预定义的函数,通过替换AST中的对应节点,达到改写sql的目标,实际计算过程中会调用脱敏函数的算法逻辑产出最后的查询结果;执行查询计算时,进行审计日志的记录。
通过presto实现动态脱敏功能,支持脱敏规则模板的管理,支持预定义和自定义方式,通过用户密级管理模块,表格字段级别脱敏规则管理(模板、参数、密级、数据字段相互关联),计算引擎实现动态脱敏功能,从而解决了presto引擎上无法支持灵活高效数据脱敏功能的问题,可以通过自定义脱敏规则,平台全流程化、引擎解耦,主数据规则引擎生成、数据标准规范引擎、数据质量规则引擎可基于需求场景进行能力扩展和升级,能较好的集成不同的用户管理平台,元数据管理平台等,从而实现数据的高效安全的共享
优选的,所述本系统与方法存在已经建设好的数据仓库或者数据湖管理系统,支持相应的元数据管理功能存在整体的用户管理系统,能进行用户的认证和鉴权,完备的认证和鉴权系统可更好的实时数据脱敏后的浏览权限,避免数据泄露和遗失。
优选的,所述步骤S1中的系统规则指的是系统中预定义的规则,用户可以直接使用,参数已经配置完成;用户规则指的是用户定义新的脱敏规则,或者新的规则参数。
优选的,所述步骤S1中采用关系映射算法的目的是,可使得原始敏感数据间存在业务关联关系,需要在数据脱敏后仍旧保持这种关系,因此在脱敏处理过程中,利用算法表达式对脱敏后的数据进行函数映射,使其脱敏后仍旧保持业务关联关系,关系映射算法适用于所有数据类型,且可实施动态脱敏和静态脱敏。
优选的,所述步骤S1中下标遮掩的参数列表为,begin:遮掩开始的下标,可支持负数,-n表示遮掩从最后多少位开始,end:遮掩结束的下标,可支持0和负数,为0表示遮掩到结束,-n表示遮掩到最后多少位结束,char:遮掩字符,默认为*;
end的计算值小于begin时,不做遮掩。
正则遮掩的参数列表为,regex:匹配分组的正则表达式,replace:遮掩字符串;
遮掩正则表达式中的所有匹配分组。
哈希的参数列表为,algotithm:哈希算法,默认SHA256;
范围映射(一期不支持)的参数列表为,{‘mapping’:[{begin:’0’,end:’20’,replace:’0~20’},{begin:’20’,end:’30’,replac e:’20~30’},{begin:’31’,end:”,replace:’31~’}]};
单值映射的参数列表为,{‘mapping’:[{value:’男’,replace:’0’},{value:’女’,replace:’1’}]}。
优选的,所述本处理系统对于用户权限管理如下步骤:
a、系统管理员登录用户端系统,为需要的用户创建浏览角色;
b、为相应的浏览角色设置相应的数据源使用权限,即密级;
c、浏览角色通过用户登录端进入登录系统内部,同时鉴权判断系统会甄别该浏览角色的权限密级;
d、为该浏览角色备至相应密级权限的数据,无法阅览高密级权限的数据。
本发明的有益效果如下:
1、本发明通过presto实现动态脱敏功能,支持脱敏规则模板的管理,支持预定义和自定义方式,通过用户密级管理模块,表格字段级别脱敏规则管理(模板、参数、密级、数据字段相互关联),计算引擎实现动态脱敏功能,从而解决了presto引擎上无法支持灵活高效数据脱敏功能的问题,可以通过自定义脱敏规则,平台全流程化、引擎解耦,主数据规则引擎生成、数据标准规范引擎、数据质量规则引擎可基于需求场景进行能力扩展和升级,能较好的集成不同的用户管理平台,元数据管理平台等,从而实现数据的高效安全的共享。
附图说明
图1为本发明整体流程示意图;
图2为本发明脱敏执行方式流程示意图;
图3为本发明用户密级权限分布示意图;
图4为本发明各密级权限用户的数据资源适用范围示意图;
图5为本发明数据源密级分布示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1至图5所示,本发明实施例中,基于混合引擎的大数据处理系统与方法,包括如下步骤:
S1、脱敏规则生成,包括系统规则和用户规则;
a、脱敏规则主要包括以下信息,脱敏模板名称和类型、脱敏字段的字段类型(只有符合字段类型要求的字段才能应用该脱敏规则,字段类型列表)、实现脱敏功能的算法为关系映射和本规则对应的脱敏算法预定义的参数列;
b、脱敏后的数据要在保证隐私信息被隐藏掉的基础上保持一定的原有特性,包括:1、保持数据类型,即脱敏后的数据与原始数据类型一致,数据类型包括但不限于字符串、数字、日期和时间等;2、保持数据格式,即脱敏后的数据需要符合原始数据的编码规则和类型;3、保持数据间依存关系,常见数据间依存关系包括但不限于:数据引用完整性,不同的数据间通过敏感数据的相互引用产生关联关系;数据之间没有引用关系,但存在业务逻辑上的依存关系;4、保持数据统计特征,脱敏后数据在业务所需的维度上保持统计总体特征不变;5、保持数据频率分布,脱敏后的数据在按业务所需划分的各组内保持数量不变;6、保持数据唯一性,不相同的数据脱敏后不会有同样的数据,相同的数据脱敏后一定相同;
c、脱敏规则类型定义的名称,包括:下标遮掩、正则遮掩、哈希、范围映射(一期不支持)、单值映射(一期不支持);
S2、配置表格脱敏规则:选择对应的列、脱敏规则,脱敏后的密级,修改表格脱敏配置时,进行脱敏操作审计日志的记录,记录操作的人员和脱敏配置前后的变化;
S3、配置用户密级:对于一般的用户系统,可以设置用户组、用户角色和用户本身可以针对这三类主题进行密级设置,系统综合计算用户的所有身份,获取到最大的密级权限进行验证;
S4、执行查询,脱敏执行方式包括:
c、三类密级,数据列的原始访问密级、数据列脱敏后密级(一个字段可以定义多种脱敏规则和脱敏后密级)、用户密级;
d、脱敏规则确定方式,如果用户密级不低于数据列的原始密级,则无需脱敏;如果用户密级低于字段原始密级,且存在脱敏后密级不高于用户密级脱敏规则,则选择脱敏后密级最高的脱敏规则;如果用户密级低于字段原始密级,且低于所有的脱敏后密级,则退化为无查看权限;
c、确定脱敏规则后交由执行引擎下推到计算任务中执行,在presto执行过程中的语义分析环节,通过获取元数据信息和脱敏配置信息,获取到字段脱敏规则名称,通过名称可以关联到presto中预定义的函数,通过替换AST中的对应节点,达到改写sql的目标,实际计算过程中会调用脱敏函数的算法逻辑产出最后的查询结果;执行查询计算时,进行审计日志的记录。
通过presto实现动态脱敏功能,支持脱敏规则模板的管理,支持预定义和自定义方式,通过用户密级管理模块,表格字段级别脱敏规则管理(模板、参数、密级、数据字段相互关联),计算引擎实现动态脱敏功能,从而解决了presto引擎上无法支持灵活高效数据脱敏功能的问题,可以通过自定义脱敏规则,平台全流程化、引擎解耦,主数据规则引擎生成、数据标准规范引擎、数据质量规则引擎可基于需求场景进行能力扩展和升级,能较好的集成不同的用户管理平台,元数据管理平台等,从而实现数据的高效安全的共享。
其中,本系统与方法存在已经建设好的数据仓库或者数据湖管理系统,支持相应的元数据管理功能存在整体的用户管理系统,能进行用户的认证和鉴权,完备的认证和鉴权系统可更好的实时数据脱敏后的浏览权限,避免数据泄露和遗失。
其中,步骤S1中的系统规则指的是系统中预定义的规则,用户可以直接使用,参数已经配置完成;用户规则指的是用户定义新的脱敏规则,或者新的规则参数。
其中,步骤S1中采用关系映射算法的目的是,可使得原始敏感数据间存在业务关联关系,需要在数据脱敏后仍旧保持这种关系,因此在脱敏处理过程中,利用算法表达式对脱敏后的数据进行函数映射,使其脱敏后仍旧保持业务关联关系,关系映射算法适用于所有数据类型,且可实施动态脱敏和静态脱敏。
其中,步骤S1中下标遮掩的参数列表为,begin:遮掩开始的下标,可支持负数,-n表示遮掩从最后多少位开始,end:遮掩结束的下标,可支持0和负数,为0表示遮掩到结束,-n表示遮掩到最后多少位结束,char:遮掩字符,默认为*;
end的计算值小于begin时,不做遮掩。
正则遮掩的参数列表为,regex:匹配分组的正则表达式,replace:遮掩字符串;
遮掩正则表达式中的所有匹配分组。
哈希的参数列表为,algotithm:哈希算法,默认SHA256;
范围映射(一期不支持)的参数列表为,{‘mapping’:[{begin:’0’,end:’20’,replace:’0~20’},{begin:’20’,end:’30’,replac e:’20~30’},{begin:’31’,end:”,replace:’31~’}]};
单值映射的参数列表为,{‘mapping’:[{value:’男’,replace:’0’},{value:’女’,replace:’1’}]}。
其中,本处理系统对于用户权限管理如下步骤:
a、系统管理员登录用户端系统,为需要的用户创建浏览角色;
b、为相应的浏览角色设置相应的数据源使用权限,即密级;
c、浏览角色通过用户登录端进入登录系统内部,同时鉴权判断系统会甄别该浏览角色的权限密级;
d、为该浏览角色备至相应密级权限的数据,无法阅览高密级权限的数据。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.基于混合引擎的大数据处理系统与方法,其特征在于,包括如下步骤:
S1、脱敏规则生成,包括系统规则和用户规则;
a、脱敏规则主要包括以下信息,脱敏模板名称和类型、脱敏字段的字段类型(只有符合字段类型要求的字段才能应用该脱敏规则,字段类型列表)、实现脱敏功能的算法为关系映射和本规则对应的脱敏算法预定义的参数列;
b、脱敏后的数据要在保证隐私信息被隐藏掉的基础上保持一定的原有特性,包括:1、保持数据类型,即脱敏后的数据与原始数据类型一致,数据类型包括但不限于字符串、数字、日期和时间等;2、保持数据格式,即脱敏后的数据需要符合原始数据的编码规则和类型;3、保持数据间依存关系,常见数据间依存关系包括但不限于:数据引用完整性,不同的数据间通过敏感数据的相互引用产生关联关系;数据之间没有引用关系,但存在业务逻辑上的依存关系;4、保持数据统计特征,脱敏后数据在业务所需的维度上保持统计总体特征不变;5、保持数据频率分布,脱敏后的数据在按业务所需划分的各组内保持数量不变;6、保持数据唯一性,不相同的数据脱敏后不会有同样的数据,相同的数据脱敏后一定相同;
c、脱敏规则类型定义的名称,包括:下标遮掩、正则遮掩、哈希、范围映射(一期不支持)、单值映射(一期不支持);
S2、配置表格脱敏规则:选择对应的列、脱敏规则,脱敏后的密级,修改表格脱敏配置时,进行脱敏操作审计日志的记录,记录操作的人员和脱敏配置前后的变化;
S3、配置用户密级:对于一般的用户系统,可以设置用户组、用户角色和用户本身可以针对这三类主题进行密级设置,系统综合计算用户的所有身份,获取到最大的密级权限进行验证;
S4、执行查询,脱敏执行方式包括:
a、三类密级,数据列的原始访问密级、数据列脱敏后密级(一个字段可以定义多种脱敏规则和脱敏后密级)、用户密级;
b、脱敏规则确定方式,如果用户密级不低于数据列的原始密级,则无需脱敏;如果用户密级低于字段原始密级,且存在脱敏后密级不高于用户密级脱敏规则,则选择脱敏后密级最高的脱敏规则;如果用户密级低于字段原始密级,且低于所有的脱敏后密级,则退化为无查看权限;
c、确定脱敏规则后交由执行引擎下推到计算任务中执行,在presto执行过程中的语义分析环节,通过获取元数据信息和脱敏配置信息,获取到字段脱敏规则名称,通过名称可以关联到presto中预定义的函数,通过替换AST中的对应节点,达到改写sql的目标,实际计算过程中会调用脱敏函数的算法逻辑产出最后的查询结果;执行查询计算时,进行审计日志的记录。
2.根据权利要求1所述的基于混合引擎的大数据处理系统与方法,其特征在于:所述本系统与方法存在已经建设好的数据仓库或者数据湖管理系统,支持相应的元数据管理功能存在整体的用户管理系统,能进行用户的认证和鉴权。
3.根据权利要求1所述的基于混合引擎的大数据处理系统与方法,其特征在于:所述步骤S1中的系统规则指的是系统中预定义的规则,用户可以直接使用,参数已经配置完成;用户规则指的是用户定义新的脱敏规则,或者新的规则参数。
4.根据权利要求1所述的基于混合引擎的大数据处理系统与方法,其特征在于:所述步骤S1中采用关系映射算法的目的是,可使得原始敏感数据间存在业务关联关系,需要在数据脱敏后仍旧保持这种关系,因此在脱敏处理过程中,利用算法表达式对脱敏后的数据进行函数映射,使其脱敏后仍旧保持业务关联关系。
5.根据权利要求1所述的基于混合引擎的大数据处理系统与方法,其特征在于:所述步骤S1中下标遮掩的参数列表为,begin:遮掩开始的下标,可支持负数,-n表示遮掩从最后多少位开始,end:遮掩结束的下标,可支持0和负数,为0表示遮掩到结束,-n表示遮掩到最后多少位结束,char:遮掩字符,默认为*;
正则遮掩的参数列表为,regex:匹配分组的正则表达式,replace:遮掩字符串;
哈希的参数列表为,algorithm:哈希算法,默认SHA256;
范围映射(一期不支持)的参数列表为,{‘mapping’:[{begin:'0',end:'20',replace:'0~20'},{begin:'20',end:'30',replace:'20~30'},{begin:'31',end:”,replace:'31~'}]};
单值映射的参数列表为,{‘mapping’:[{value:'男',replace:'0'},{value:'女',replace:'1'}]}。
6.根据权利要求1所述的基于混合引擎的大数据处理系统与方法,其特征在于:所述本处理系统对于用户权限管理如下步骤:
a、系统管理员登录用户端系统,为需要的用户创建浏览角色;
b、为相应的浏览角色设置相应的数据源使用权限,即密级;
c、浏览角色通过用户登录端进入登录系统内部,同时鉴权判断系统会甄别该浏览角色的权限密级;
d、为该浏览角色备至相应密级权限的数据,无法阅览高密级权限的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210175021.1A CN114625764A (zh) | 2022-02-23 | 2022-02-23 | 基于混合引擎的大数据处理系统与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210175021.1A CN114625764A (zh) | 2022-02-23 | 2022-02-23 | 基于混合引擎的大数据处理系统与方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114625764A true CN114625764A (zh) | 2022-06-14 |
Family
ID=81900122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210175021.1A Pending CN114625764A (zh) | 2022-02-23 | 2022-02-23 | 基于混合引擎的大数据处理系统与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114625764A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116521142A (zh) * | 2023-06-29 | 2023-08-01 | 速度科技股份有限公司 | 基于Presto扩展的时空大数据SQL引擎的实现方法 |
CN117708883A (zh) * | 2024-02-04 | 2024-03-15 | 南湖实验室 | 面向数据开放的高性能个人信息脱敏方法与系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190026335A1 (en) * | 2017-07-23 | 2019-01-24 | AtScale, Inc. | Query engine selection |
CN113535754A (zh) * | 2021-07-27 | 2021-10-22 | 杭州海康威视数字技术股份有限公司 | 一种数据访问方法、装置及系统 |
-
2022
- 2022-02-23 CN CN202210175021.1A patent/CN114625764A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190026335A1 (en) * | 2017-07-23 | 2019-01-24 | AtScale, Inc. | Query engine selection |
CN113535754A (zh) * | 2021-07-27 | 2021-10-22 | 杭州海康威视数字技术股份有限公司 | 一种数据访问方法、装置及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116521142A (zh) * | 2023-06-29 | 2023-08-01 | 速度科技股份有限公司 | 基于Presto扩展的时空大数据SQL引擎的实现方法 |
CN116521142B (zh) * | 2023-06-29 | 2023-10-03 | 速度科技股份有限公司 | 基于Presto扩展的时空大数据SQL引擎的实现方法 |
CN117708883A (zh) * | 2024-02-04 | 2024-03-15 | 南湖实验室 | 面向数据开放的高性能个人信息脱敏方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114625764A (zh) | 基于混合引擎的大数据处理系统与方法 | |
CN111079174A (zh) | 基于匿名化及差分隐私技术的用电数据脱敏方法及系统 | |
CN114328640A (zh) | 一种基于移动用户动态敏感数据的差分隐私保护与数据挖掘方法和系统 | |
CN112417492A (zh) | 基于数据分类分级的服务提供方法 | |
CN113158233B (zh) | 数据预处理方法、装置及计算机存储介质 | |
Xiong et al. | Electronic evidence preservation model based on blockchain | |
Ning et al. | Update recovery attacks on encrypted database within two updates using range queries leakage | |
Kuzu et al. | Efficient privacy-aware search over encrypted databases | |
Wu et al. | A privacy protection solution based on NLPCA for blockchain supply chain financial system | |
Zhou et al. | Evss: An efficient verifiable search scheme over encrypted cloud data | |
CN111222164A (zh) | 联盟链数据发布的隐私保护方法 | |
US8307001B2 (en) | Auditing of curation information | |
Wang et al. | Enabling Integrity and Compliance Auditing in Blockchain-based GDPR-compliant Data Management | |
Li et al. | Distributed privacy preserving technology in dynamic networks | |
Yang et al. | A multi-grained log auditing scheme for cloud data confidentiality | |
Du et al. | Secure and verifiable keyword search in multiple clouds | |
CN113268771A (zh) | 一种人体临床数据脱敏方法 | |
Liu et al. | Algorithms for data and computation privacy | |
Guagliano et al. | Data risks and security in the financial sector: Adapting to a new environment | |
CN114722064A (zh) | 一种基于presto引擎的敏感数据识别及脱敏方法 | |
Liu | Research on Human Resource Management Information System Based on Big Data Blockchain Architecture | |
Pathak et al. | Tri-TTP based architecture for secure multi-party computations using virtual parties | |
CN117459327B (zh) | 一种云数据透明加密保护方法、系统及装置 | |
Feng | The Optimization of Privacy Data Management Model In Big Data Era | |
RU2785484C1 (ru) | Способ криптографического рекурсивного контроля целостности реляционной базы данных |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |