CN115664785A - 一种大数据平台数据脱敏系统 - Google Patents

一种大数据平台数据脱敏系统 Download PDF

Info

Publication number
CN115664785A
CN115664785A CN202211298903.3A CN202211298903A CN115664785A CN 115664785 A CN115664785 A CN 115664785A CN 202211298903 A CN202211298903 A CN 202211298903A CN 115664785 A CN115664785 A CN 115664785A
Authority
CN
China
Prior art keywords
data
desensitization
sensitive
identification
sensitive data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211298903.3A
Other languages
English (en)
Inventor
钱永钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Intelligent Engineering Vocational College
Original Assignee
Chongqing Intelligent Engineering Vocational College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Intelligent Engineering Vocational College filed Critical Chongqing Intelligent Engineering Vocational College
Priority to CN202211298903.3A priority Critical patent/CN115664785A/zh
Publication of CN115664785A publication Critical patent/CN115664785A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Storage Device Security (AREA)

Abstract

本发明提供一种大数据平台数据脱敏系统,涉及大数据脱敏系统领域。包括系统架构、系统处理流程、敏感数据识别方法、系统主要功能,所述系统架构包括资源层、数据层、服务层、应用层、安全管理和运维管理,所述系统处理流程包括脱敏需求配置、敏感数据识别、脱敏策略配置、脱敏服务运行和脱敏状态监控五个环节,所述敏感数据识别分为两个阶段,即数据源注册和数据脱敏任务执行。本发明能够的安全有效的保护大数据信息和数据,并且更加精确理解用户需求、更细的粒度、更高的精确度和可用度、更佳的自动化程度、更好的抗破解能力、更强的扩展能力和更友好的方式呈现,从而满足用户多领域的数据交互、共享和融合需求。

Description

一种大数据平台数据脱敏系统
技术领域
本发明涉及大数据脱敏系统领域,特别涉及一种大数据平台数据脱敏系统。
背景技术
大数据或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯,随着大数据的不断发展。
随着大数据时代的到来,大数据中蕴藏的巨大商业价值得以挖掘并面世,同时也带来了隐私、敏感信息保护方面的棘手难题,导致数据人员被不法分子盗取,并且人员操作也十分不便,如无法精确理解用户需求。
发明内容
(一)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种大数据平台数据脱敏系统,包括系统架构、系统处理流程、敏感数据识别方法、系统主要功能,所述系统架构包括资源层、数据层、服务层、应用层、安全管理和运维管理,所述系统处理流程包括脱敏需求配置、敏感数据识别、脱敏策略配置、脱敏服务运行和脱敏状态监控五个环节,所述敏感数据识别分为两个阶段,即数据源注册和数据脱敏任务执行,所述系统主要功能主要包括敏感数据识别、数据脱敏、脱敏验证主要部分组成;
所述资源层为数据脱敏服务提供基础性物理资源,包括计算资源、网络资源和存储资源;
所述数据层包括支持系统完成智能敏感数据发现、脱敏的各类数据库、知识库,针对不同敏感数据的脱敏规则库,管理规则及规则集合的脱敏策略库,支持智能敏感数据发现的本体知识库和机器学习所形成的模型库,运维管理和安全管理所需的权限库;
所述服务层以松耦合的方式承载数据脱敏所需的一系列核心服务及中间件,提供数据脱敏、规则化和服务化三大引擎;
所述应用层是面向最终用户,按照数据类型,提供数据库脱敏、文件脱敏以及多媒体脱敏;
所述运维管理包括用户、策略、数据源等系统要素及配置的管理,确保系统的可用性;
所述安全管理包括权限、角色和合规性安全隐私要素及配置的管理,确保系统的对外安全性和自身安全性,它与运维管理的协同。
优选的,所述脱敏需求配置是根据用户的资产重要性和数据价值对脱敏的粒度、强度和目标进行定义和配置;
所述敏感数据识别是对目标系统的全量数据进行智能识别,获取用户数据源中数据元信息、数据结构,对数据字段的内容进行分析,对格式和语义进行识别,对主键及外键进行处理,识别出系统中存在的敏感数据;
所述脱敏策略配置提供两种脱敏策略的配置方式,一种是基于系统内置的敏感数据类型,采用智能推荐方式进行脱敏策略的配置;另一种是支持用户自定义脱敏策略以及更改合适的脱敏算法;
所述脱敏服务运行按照用户需求进行静态数据脱敏和动态数据脱敏;
所述脱敏状态监控是持续对脱敏系统的运行情况进行监控和审计,及时发现异常并做出响应。
进一步,所述数据源注册时,系统将连接注册数据源,一方面验证数据源的联通性,一方面将获取该数据源的元数据和部分样例数据,系统将对样例数据执行一次敏感数据的初步识别,其步骤如下:
S1、系统识别获取的样例数据,通过其数据类型(字符、数值等)和数据内容进行敏感数据识别;
S2、敏感数据识别由敏感数据识别引擎完成;敏感数据识别引擎采用规则、知识库以及自然语言处理中的命名实体识别、特征词提取,特征密度计算等方式进行智能识别;
S3、如果字段属于长字段,则对该字段进行标记;
S4、如果字段不属于长字段,但无法进行敏感数据识别,此时系统将对其字段描述进行语义分析和理解,补充相关信息后进行识别;
S5、识别出的字段将存储在敏感字段识别库中。
更进一步,所述数据脱敏任务执行阶段为提高敏感数据发现以及数据脱敏的效率,在脱敏任务执行阶段,主要对长字段进行识别,步骤如下:
S1、系统根据用户配置的参数对访问数据库的所有SQL语句进行解析,首先在敏感数据字段库中查验哪些属于敏感字段,已识别出的敏感字段按其脱敏策略执行脱敏;
S2、如果字段为长字段,则获取每一条流经系统的数据,送入敏感数据识别引擎中,作为型数据进行识别,其中可能包含多种敏感数据类型;
S3、根据识别结果进行脱敏。
更加进一步,所述敏感数据识别将针对不同数据的特点,设计敏感数据识别所需的模型、算法、知识库,以覆盖数据库中敏感字段的识别、其中敏感数据的识别、图片和视频中的敏感区域识别。
更加进一步,所述数据脱敏:将针对不同类型的数据形态,实现不破坏其数据格式和可用性的数据脱敏处理。
更加进一步,所述脱敏验证数据脱敏的本质是通过数据变形来保证对敏感信息的保护,主要目标是安全使用数据。
(二)有益效果
本发明提供了一种大数据平台数据脱敏系统。具备以下有益效果:本发明能够的安全有效的保护大数据信息和数据,并且更加精确理解用户需求、更细的粒度、更高的精确度和可用度、更佳的自动化程度、更好的抗破解能力、更强的扩展能力和更友好的方式呈现,从而满足用户多领域的数据交互、共享和融合需求。
附图说明
图1为本发明系统框架示意图;
图2为本发明安全识别流程图;
图3为本发明系统功能框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
如图1所示,本发明实施例提供一种大数据平台数据脱敏系统,包括系统架构、系统处理流程、敏感数据识别方法、系统主要功能,所述系统架构包括资源层、数据层、服务层、应用层、安全管理和运维管理,所述系统处理流程包括脱敏需求配置、敏感数据识别、脱敏策略配置、脱敏服务运行和脱敏状态监控五个环节,所述敏感数据识别分为两个阶段,即数据源注册和数据脱敏任务执行,所述系统主要功能主要包括敏感数据识别、数据脱敏、脱敏验证主要部分组成;
所述资源层为数据脱敏服务提供基础性物理资源,包括计算资源、网络资源和存储资源;
所述数据层包括支持系统完成智能敏感数据发现、脱敏的各类数据库、知识库,针对不同敏感数据的脱敏规则库,管理规则及规则集合的脱敏策略库,支持智能敏感数据发现的本体知识库和机器学习所形成的模型库,运维管理和安全管理所需的权限库;
所述服务层以松耦合的方式承载数据脱敏所需的一系列核心服务及中间件,提供数据脱敏、规则化和服务化三大引擎,支撑大数据多元异构敏感数据发现和脱敏操作;
所述应用层是面向最终用户,按照数据类型,提供数据库脱敏、文件脱敏以及多媒体脱敏;按照业务需求,分为测试和研发过程所需的静态脱敏和生产过程中对敏感数据访问及应用的动态脱敏;
所述运维管理包括用户、策略、数据源等系统要素及配置的管理,确保系统的可用性;
所述安全管理包括权限、角色和合规性安全隐私要素及配置的管理,确保系统的对外安全性和自身安全性,它与运维管理的协同,使数据脱敏服务的运行时刻处于严密和安全防护及监控之下;
所述脱敏需求配置是根据用户的资产重要性和数据价值对脱敏的粒度、强度和目标进行定义和配置;
所述敏感数据识别是对目标系统的全量数据进行智能识别,获取用户数据源中数据元信息、数据结构,对数据字段的内容进行分析,对格式和语义进行识别,对主键及外键进行处理,识别出系统中存在的敏感数据;
所述脱敏策略配置提供两种脱敏策略的配置方式,一种是基于系统内置的敏感数据类型,采用智能推荐方式进行脱敏策略的配置,另一种是支持用户自定义脱敏策略以及更改合适的脱敏算法;
所述脱敏服务运行按照用户需求进行静态数据脱敏和动态数据脱敏;
所述脱敏状态监控是持续对脱敏系统的运行情况进行监控和审计,及时发现异常并做出响应,定期将综合后的运行结果反馈用户,完善脱敏需求配置,提升脱敏效果;
所述数据源注册时,系统将连接注册数据源,一方面验证数据源的联通性,一方面将获取该数据源的元数据和部分样例数据,系统将对样例数据执行一次敏感数据的初步识别,其步骤如下:
S1、系统识别获取的样例数据,通过其数据类型(字符、数值等)和数据内容进行敏感数据识别;
S2、敏感数据识别由敏感数据识别引擎完成;敏感数据识别引擎采用规则、知识库以及自然语言处理中的命名实体识别、特征词提取,特征密度计算等方式进行智能识别;
S3、如果字段属于长字段,则对该字段进行标记;
S4、如果字段不属于长字段,但无法进行敏感数据识别,此时系统将对其字段描述进行语义分析和理解,补充相关信息后进行识别;
S5、识别出的字段将存储在敏感字段识别库中;
所述数据脱敏任务执行阶段。为提高敏感数据发现以及数据脱敏的效率,在脱敏任务执行阶段,主要对长字段进行识别,步骤如下:
S1、系统根据用户配置的参数对访问数据库的所有SQL语句进行解析,首先在敏感数据字段库中查验哪些属于敏感字段,已识别出的敏感字段按其脱敏策略执行脱敏;
S2、如果字段为长字段,则获取每一条流经系统的数据,送入敏感数据识别引擎中,作为型数据进行识别;
S3、根据识别结果进行脱敏;
所述敏感数据识别将针对不同数据的特点,设计敏感数据识别所需的模型、算法、知识库,以覆盖数据库中敏感字段的识别、其中敏感数据的识别、图片和视频中的敏感区域识别,所述数据脱敏将针对不同类型的数据形态,实现不破坏其数据格式和可用性的数据脱敏处理,例如:当对Word文件中的数据执行脱敏时,脱敏完成后文件格式依然为Word,需要注意的是,针对不同的数据类型其脱敏的方式和方法也将会有所不同,所述脱敏验证数据脱敏的本质是通过数据变形来保证对敏感信息的保护,主要目标是安全使用数据,如果脱敏后的数据导致可用性降低或者丧失,将失去数据脱敏的意义,因此对脱敏后的数据必须在完整性、一致性以及关联性三个方面进行验证;
随着大数据技术的发展和分布式计算技术的成熟,基于大数据平台的脱敏服务为数据安全产品及相关服务设计提供了全新的思路和支撑环境,非常适合数据脱敏这一计算密集、时间敏感型的应用,基于大数据平台的敏感数据智能探测、智能分析与统计、智能处理平台,有望成为数据安全产品的重要发展方向,按照动态数据脱敏的基本原理和需求,将数据脱敏系统的存储和计算依托大数据平台实现,提供数据脱敏服务DMaaS(Data Maskingas a Service),它以集中控制和分布代理方式运行,面向政府数据、医疗、教育行业数据和金融数据等,进行按需定制和调用的脱敏服务;
基于大数据的数据脱敏平台作为数据拥有者和数据使用者之间的关联途径,承载数据安全隐私保护的重要使命。大数据脱敏平台以集中、松耦合方式进行数据的保护与处理,为企业拥有的敏感和隐私信息提供灵活、实时的服务,不必对应用程序和数据库进行昂贵且耗时的变更,也不会干扰开发、测试及数据使用者履行其各自的职责,根据应用场景,DMaaS可以划分为劳务、承包、中转和托管四种应用模式,劳务模式:SDM实现方式,按照用户需求将需要脱敏的数据一次性转换完毕,并将结果交付用户,承包模式:私有化DDM实现方式,在用户生产/测试环境中搭建DMaaS,持续运行脱敏功能,中转模式:公有化DDM实现方式。在用户数据环境外搭建DMaaS,应用程序运行结果在呈现前由脱敏服务处理并交付用户,实现业务流程的灵活调用。托管模式,公有化DDM/数据仓库实现方式,用户的所有敏感数据存放在DMaaS中,业务需要访问数据时调用脱敏服务处理后提交至用户,这种模式有利于数据的集中监管和高强度隐私保护。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种大数据平台数据脱敏系统,包括系统架构、系统处理流程、敏感数据识别方法、系统主要功能,其特征在于:所述系统架构包括资源层、数据层、服务层、应用层、安全管理和运维管理,所述系统处理流程包括脱敏需求配置、敏感数据识别、脱敏策略配置、脱敏服务运行和脱敏状态监控五个环节,所述敏感数据识别分为两个阶段,即数据源注册和数据脱敏任务执行,所述系统主要功能主要包括敏感数据识别、数据脱敏、脱敏验证主要部分组成;
所述资源层为数据脱敏服务提供基础性物理资源,包括计算资源、网络资源和存储资源;
所述数据层包括支持系统完成智能敏感数据发现、脱敏的各类数据库、知识库,针对不同敏感数据的脱敏规则库,管理规则及规则集合的脱敏策略库,支持智能敏感数据发现的本体知识库和机器学习所形成的模型库,运维管理和安全管理所需的权限库;
所述服务层以松耦合的方式承载数据脱敏所需的一系列核心服务及中间件,提供数据脱敏、规则化和服务化三大引擎;
所述应用层是面向最终用户,按照数据类型,提供数据库脱敏、文件脱敏以及多媒体脱敏;
所述运维管理包括用户、策略、数据源系统要素及配置的管理,确保系统的可用性;
所述安全管理包括权限、角色和合规性安全隐私要素及配置的管理,确保系统的对外安全性和自身安全性,它与运维管理的协同。
2.根据权利要求1所述的一种大数据平台数据脱敏系统,其特征在于:所述脱敏需求配置是根据用户的资产重要性和数据价值对脱敏的粒度、强度和目标进行定义和配置;
所述敏感数据识别是对目标系统的全量数据进行智能识别,获取用户数据源中数据元信息、数据结构,对数据字段的内容进行分析,对格式和语义进行识别,对主键及外键进行处理,识别出系统中存在的敏感数据;
所述脱敏策略配置提供两种脱敏策略的配置方式,一种是基于系统内置的敏感数据类型,采用智能推荐方式进行脱敏策略的配置;另一种是支持用户自定义脱敏策略以及更改合适的脱敏算法;
所述脱敏服务运行按照用户需求进行静态数据脱敏和动态数据脱敏;
所述脱敏状态监控是持续对脱敏系统的运行情况进行监控和审计,及时发现异常并做出响应。
3.根据权利要求1所述的一种大数据平台数据脱敏系统,其特征在于:所述数据源注册时,系统将连接注册数据源,一方面验证数据源的联通性,一方面将获取该数据源的元数据和部分样例数据,系统将对样例数据执行一次敏感数据的初步识别,其步骤下:
S1、系统识别获取的样例数据,通过其数据类型(字符、数值)和数据内容进行敏感数据识别;
S2、敏感数据识别由敏感数据识别引擎完成;敏感数据识别引擎采用规则、知识库以及自然语言处理中的命名实体识别、特征词提取,特征密度计算方式进行智能识别;
S3、字段属于长字段,则对该字段进行标记;
S4、字段不属于长字段,但无法进行敏感数据识别,此时系统将对其字段描述进行语义分析和理解,补充相关信息后进行识别;
S5、识别出的字段将存储在敏感字段识别库中。
4.根据权利要求1所述的一种大数据平台数据脱敏系统,其特征在于:所述数据脱敏任务执行阶段为提高敏感数据发现以及数据脱敏的效率,在脱敏任务执行阶段,主要对长字段进行识别,步骤下:
S1、系统根据用户配置的参数对访问数据库的所有SQL语句进行解析,首先在敏感数据字段库中查验哪些属于敏感字段,已识别出的敏感字段按其脱敏策略执行脱敏;
S2、字段为长字段,则获取每一条流经系统的数据,送入敏感数据识别引擎中;
S3、根据识别结果进行脱敏。
5.根据权利要求1所述的一种大数据平台数据脱敏系统,其特征在于:所述敏感数据识别将针对不同数据的特点,设计敏感数据识别所需的模型、算法、知识库,以覆盖数据库中敏感字段的识别、其中敏感数据的识别、图片和视频中的敏感区域识别。
6.根据权利要求1所述的一种大数据平台数据脱敏系统,其特征在于:所述数据脱敏:将针对不同类型的数据形态,实现不破坏其数据格式和可用性的数据脱敏处理。
7.根据权利要求1所述的一种大数据平台数据脱敏系统,其特征在于:所述脱敏验证数据脱敏的本质是通过数据变形来保证对敏感信息的保护,主要目标是安全使用数据。
CN202211298903.3A 2022-10-21 2022-10-21 一种大数据平台数据脱敏系统 Pending CN115664785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211298903.3A CN115664785A (zh) 2022-10-21 2022-10-21 一种大数据平台数据脱敏系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211298903.3A CN115664785A (zh) 2022-10-21 2022-10-21 一种大数据平台数据脱敏系统

Publications (1)

Publication Number Publication Date
CN115664785A true CN115664785A (zh) 2023-01-31

Family

ID=84988533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211298903.3A Pending CN115664785A (zh) 2022-10-21 2022-10-21 一种大数据平台数据脱敏系统

Country Status (1)

Country Link
CN (1) CN115664785A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361858A (zh) * 2023-04-10 2023-06-30 广西南宁玺北科技有限公司 应用ai决策的用户会话资源数据保护方法及软件产品

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361858A (zh) * 2023-04-10 2023-06-30 广西南宁玺北科技有限公司 应用ai决策的用户会话资源数据保护方法及软件产品
CN116361858B (zh) * 2023-04-10 2024-01-26 北京无限自在文化传媒股份有限公司 应用ai决策的用户会话资源数据保护方法及软件产品

Similar Documents

Publication Publication Date Title
CN112699175B (zh) 一种数据治理系统及其方法
CN110472068B (zh) 基于异构分布式知识图谱的大数据处理方法、设备及介质
JP5298117B2 (ja) 分散コンピューティングにおけるデータマージング
CN113312191B (zh) 数据分析方法、装置、设备及存储介质
CN106202207A (zh) 一种基于HBase‑ORM的索引及检索系统
Jeong et al. Anomaly teletraffic intrusion detection systems on hadoop-based platforms: A survey of some problems and solutions
CN112181960B (zh) 一种基于AIOps的智能运维框架系统
US20190050435A1 (en) Object data association index system and methods for the construction and applications thereof
CN114416855A (zh) 一种基于电力大数据的可视化平台及方法
CN116205396A (zh) 一种基于数据中台的数据全景监控方法及系统
CN112883001A (zh) 一种基于营配贯通数据可视化平台的数据处理方法、装置及介质
CN115664785A (zh) 一种大数据平台数据脱敏系统
CN116719822B (zh) 一种海量结构化数据的存储方法及系统
CN113468160A (zh) 数据治理方法及装置、电子设备
CN115329011A (zh) 数据模型的构建方法、数据查询的方法、装置及存储介质
CN112306820A (zh) 一种日志运维根因分析方法、装置、电子设备及存储介质
CN110928963B (zh) 针对运维业务数据表的列级权限知识图谱构建方法
CN111414355A (zh) 一种海上风电场数据监测存储系统及方法、装置
CN115168474B (zh) 一种基于大数据模型的物联中台系统搭建方法
CN116561114A (zh) 一种基于元数据的管理方法
CN115858322A (zh) 日志数据处理方法、装置和计算机设备
CN115221337A (zh) 数据编织处理方法、装置、电子设备及可读存储介质
Wei et al. A method and application for constructing a authentic data space
Suh et al. SuperMan: a novel system for storing and retrieving scientific-simulation provenance for efficient job executions on computing clusters
Dass et al. Amelioration of big data analytics by employing big data tools and techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination