CN113343298A - 基于数据仿真算法的数据脱敏系统 - Google Patents
基于数据仿真算法的数据脱敏系统 Download PDFInfo
- Publication number
- CN113343298A CN113343298A CN202110677284.8A CN202110677284A CN113343298A CN 113343298 A CN113343298 A CN 113343298A CN 202110677284 A CN202110677284 A CN 202110677284A CN 113343298 A CN113343298 A CN 113343298A
- Authority
- CN
- China
- Prior art keywords
- desensitization
- data
- simulation
- task
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000586 desensitisation Methods 0.000 title claims abstract description 193
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 67
- 238000004088 simulation Methods 0.000 claims abstract description 35
- 230000002441 reversible effect Effects 0.000 claims abstract description 8
- 230000002427 irreversible effect Effects 0.000 claims abstract description 6
- 238000012423 maintenance Methods 0.000 claims abstract description 4
- 230000000007 visual effect Effects 0.000 claims abstract description 4
- 238000013507 mapping Methods 0.000 claims description 12
- 230000000873 masking effect Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了基于数据仿真算法的数据脱敏系统,属于数据安全技术领域,本发明要解决的技术问题为如何保证数据原始特性的同时实现数据的可逆脱敏和非可逆脱敏,规避数据泄露的风险,技术方案为:该系统包括脱敏算法管理模块、脱敏任务管理模块、脱敏任务执行模块及脱敏任务记录模块,脱敏算法管理模块用于增加、修改、删除和查找脱敏算法,提供脱敏算法的可视化维护界面;脱敏任务管理模块用于指定原始数据源和目标数据源,并对原始数据源中的敏感字段选定脱敏算法,配置仿真脱敏规则、加密脱敏规则及遮盖脱敏规则;脱敏任务执行模块用于执行脱敏任务管理模块定义的脱敏任务,将经过脱敏的敏感字段的数据和非敏感字段的数据转存到目标数据源。
Description
技术领域
本发明涉及数据安全技术领域,具体地说是一种基于数据仿真算法的数据脱敏系统。
背景技术
信息化时代,数据是一笔宝贵的资产。不管企业还是政府单位,每天都在有意无意地收集、存储、共享数据,且规模越来越大。与各类数据打交道,是现代企业成长的必经之路,但是敏感数据泄露的风险也与日俱增。
身份证信息、酒店入住记录、用户支付信息等这些数据一旦泄露将涉及个人隐私安全。数据脱敏是一种为用户提供虚假数据而非真实数据、防止敏感数据滥用的技术。在现有技术的数据脱敏过程中,通常采用遮盖脱敏算法、加密脱敏算法等。这些脱敏方式虽然可以对数据实现有效的脱敏,但使得原始数据失去了自身的数据特性,对后续的数据使用产生了较大的数据损伤。而基于脱敏算法实现的脱敏系统,往往将关系型数据库和大数据分离开来,缺乏对异构数据源的适配性。
故如何保证数据原始特性的同时实现数据的可逆脱敏和非可逆脱敏,规避数据泄露的风险是目前亟待解决的技术问题。
发明内容
本发明的技术任务是提供一种基于数据仿真算法的数据脱敏系统,来解决如何保证数据原始特性的同时实现数据的可逆脱敏和非可逆脱敏,规避数据泄露的风险的问题。
本发明的技术任务是按以下方式实现的,一种基于数据仿真算法的数据脱敏系统,该系统包括,
脱敏算法管理模块,用于增加、修改、删除和查找脱敏算法,提供脱敏算法的可视化维护界面;
脱敏任务管理模块,用于指定原始数据源和目标数据源,并对原始数据源中的敏感字段选定脱敏算法,配置仿真脱敏规则、加密脱敏规则及遮盖脱敏规则;
脱敏任务执行模块,用于执行脱敏任务管理模块定义的脱敏任务,将经过脱敏的敏感字段的数据和非敏感字段的数据转存到目标数据源;
脱敏任务记录模块,用于管理脱敏任务的执行记录和执行结果。
作为优选,所述脱敏任务管理模块具体操作如下:
(1)、选择原始数据源和目标数据源;
(2)、选择任务的执行模式;
(3)、选择数据增量脱敏或全量脱敏;其中,全量脱敏是将原数据源中的所有数据进行脱敏处理;增量脱敏是基于用户自定义的时间字段将近期新增的数据进行脱敏处理。
更优地,所述原始数据源支持对整库脱敏和多表脱敏,实现hive、hbase、MySQL、Oracle、SQLServer及Greenplum不同数据源之间的数据脱敏。
更优地,所述任务的执行模式支持手动和定时两种执行模式,定时执行模式支持按照分、时、周、月的时间维度进行设置。
作为优选,用户通过所述脱敏任务执行模块能够手动执行脱敏任务,手动执行脱敏任务包括已设置为定时执行的脱敏任务以及根据用户需求完成手动执行的脱敏任务。
作为优选,所述脱敏任务记录模块还用于展示脱敏任务的执行时间及执行结果,同时选择一条脱敏记录,查看执行结果详情;其中,执行结果详情会详细展示脱敏规则、脱敏算法、原始数据源、目标数据源及执行模式的信息;当任务执行失败时,执行结果详情会简述任务执行失败的原因。
作为优选,所述脱敏算法包括仿真脱敏算法、遮盖脱敏算法及加密脱敏算法。
更优地,所述仿真脱敏算法适用于身份证仿真、护照仿真、银行卡仿真、手机号仿真及统一社会信用代码仿真的构成规则固定的数据进行脱敏;
针对构成规则固定位置的数据编码,分别维护对应的随机码表和映射码表,真实值被转换成虚构的且看起来真实的值,实现整体数据的随机替换和映射替换。
更优地,基于映射码表的仿真脱敏算法属于可逆脱敏,被脱敏数据根据映射码表还原出原始数据,对于将身份证、护照、银行卡、手机号及统一社会信用代码作为主键的应用场景,继续作为数据主键使用。
更优地,基于随机码表的数据仿真脱敏,属于不可逆脱敏,原始数据无法恢复,对数据的脱敏程度较大。
本发明的基于数据仿真算法的数据脱敏系统具有以下优点:
(一)本发明在尽可能保证数据原始特性的同时实现数据的可逆脱敏和非可逆脱敏,进一步,设计实现兼容多种数据源的脱敏系统,规避数据泄露的风险;
(二)本发明结合数据本身特性,设计实现了数据仿真脱敏算法,在保留数据原始特性的同时实现数据脱敏,丰富了脱敏算法的类型;
(三)本发明实现了异构数据源的整合,能够完成多种数据源之间的数据传输和数据脱敏;
(四)本发明操作简单,容易上手,简化数据脱敏的过程,提高了对敏感数据进行脱敏的效率;
(五)本发明采用的仿真脱敏算法根据原始数据特征进行变换,具有高保真性;
(六)本发明在数据仿真脱敏算法基础上,聚合加密脱敏、遮盖脱敏等算法,支持多数据源类型之间数据的相互转换,同时支持手动脱敏、定时脱敏、增量脱敏,实现了多种异构数据源之间的数据传输和数据脱敏,简化数据脱敏流程,提高了数据脱敏的执行效率。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于数据仿真算法的数据脱敏系统的的流程框图。
具体实施方式
参照说明书附图和具体实施例对本发明的基于数据仿真算法的数据脱敏系统作以下详细地说明。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例:
如附图1所示,本发明的基于数据仿真算法的数据脱敏系统该系统包括,
脱敏算法管理模块,用于增加、修改、删除和查找脱敏算法,提供脱敏算法的可视化维护界面;
脱敏任务管理模块,用于指定原始数据源和目标数据源,并对原始数据源中的敏感字段选定脱敏算法,配置仿真脱敏规则、加密脱敏规则及遮盖脱敏规则;
脱敏任务执行模块,用于执行脱敏任务管理模块定义的脱敏任务,将经过脱敏的敏感字段的数据和非敏感字段的数据转存到目标数据源;
脱敏任务记录模块,用于管理脱敏任务的执行记录和执行结果。
本实施例中脱敏任务管理模块具体操作如下:
(1)、选择原始数据源和目标数据源;其中,原始数据源支持对整库脱敏和多表脱敏,实现hive、hbase、MySQL、Oracle、SQLServer及Greenplum不同数据源之间的数据脱敏。
(2)、选择任务的执行模式;其中,任务的执行模式支持手动和定时两种执行模式,定时执行模式支持按照分、时、周、月的时间维度进行设置;用户通过所述脱敏任务执行模块能够手动执行脱敏任务,手动执行脱敏任务包括已设置为定时执行的脱敏任务以及根据用户需求完成手动执行的脱敏任务。
(3)、选择数据增量脱敏或全量脱敏;其中,全量脱敏是将原数据源中的所有数据进行脱敏处理;增量脱敏是基于用户自定义的时间字段将近期新增的数据进行脱敏处理。
本实施例中的脱敏任务记录模块还用于展示脱敏任务的执行时间及执行结果,同时选择一条脱敏记录,查看执行结果详情;其中,执行结果详情会详细展示脱敏规则、脱敏算法、原始数据源、目标数据源及执行模式的信息;当任务执行失败时,执行结果详情会简述任务执行失败的原因。
本实施例中的脱敏算法包括仿真脱敏算法、遮盖脱敏算法及加密脱敏算法。其中,仿真脱敏算法适用于身份证仿真、护照仿真、银行卡仿真、手机号仿真及统一社会信用代码仿真的构成规则固定的数据进行脱敏;如身份证号码的前6位固定为行政区划编码、银行卡的前6位为发卡标识代码、统一社会信用码的第3-8位为登记管理机关行政区划码等。针对构成规则固定位置的数据编码,分别维护对应的随机码表和映射码表,真实值被转换成虚构的且看起来真实的值,实现整体数据的随机替换和映射替换。基于随机码表的数据仿真脱敏,属于不可逆脱敏,原始数据无法恢复,对数据的脱敏程度较大。基于映射码表的仿真脱敏算法属于可逆脱敏,被脱敏数据根据映射码表还原出原始数据,对于将身份证、护照、银行卡、手机号及统一社会信用代码作为主键的应用场景,继续作为数据主键使用。仿真脱敏算法实现对身份证、护照、银行卡、手机号、统一信用码等构成规则固定的数据进行脱敏,使真实值被转换成虚构的、但看起来逼真的值,在保证脱敏后数据可用性的同时,有效保留了数据的原始属性。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于数据仿真算法的数据脱敏系统,其特征在于,该系统包括,
脱敏算法管理模块,用于增加、修改、删除和查找脱敏算法,提供脱敏算法的可视化维护界面;
脱敏任务管理模块,用于指定原始数据源和目标数据源,并对原始数据源中的敏感字段选定脱敏算法,配置仿真脱敏规则、加密脱敏规则及遮盖脱敏规则;
脱敏任务执行模块,用于执行脱敏任务管理模块定义的脱敏任务,将经过脱敏的敏感字段的数据和非敏感字段的数据转存到目标数据源;
脱敏任务记录模块,用于管理脱敏任务的执行记录和执行结果。
2.根据权利要求1所述的基于数据仿真算法的数据脱敏系统,其特征在于,所述脱敏任务管理模块具体操作如下:
(1)、选择原始数据源和目标数据源;
(2)、选择任务的执行模式;
(3)、选择数据增量脱敏或全量脱敏;其中,全量脱敏是将原数据源中的所有数据进行脱敏处理;增量脱敏是基于用户自定义的时间字段将近期新增的数据进行脱敏处理。
3.根据权利要求2所述的基于数据仿真算法的数据脱敏系统,其特征在于,所述原始数据源支持对整库脱敏和多表脱敏,实现hive、hbase、MySQL、Oracle、SQLServer及Greenplum不同数据源之间的数据脱敏。
4.根据权利要求2所述的基于数据仿真算法的数据脱敏系统,其特征在于,所述任务的执行模式支持手动和定时两种执行模式,定时执行模式支持按照分、时、周、月的时间维度进行设置。
5.根据权利要求1所述的基于数据仿真算法的数据脱敏系统,其特征在于,用户通过所述脱敏任务执行模块能够手动执行脱敏任务,手动执行脱敏任务包括已设置为定时执行的脱敏任务以及根据用户需求完成手动执行的脱敏任务。
6.根据权利要求1所述的基于数据仿真算法的数据脱敏系统,其特征在于,所述脱敏任务记录模块还用于展示脱敏任务的执行时间及执行结果,同时选择一条脱敏记录,查看执行结果详情;其中,执行结果详情会详细展示脱敏规则、脱敏算法、原始数据源、目标数据源及执行模式的信息;当任务执行失败时,执行结果详情会简述任务执行失败的原因。
7.根据权利要求1所述的基于数据仿真算法的数据脱敏系统,其特征在于,所述脱敏算法包括仿真脱敏算法、遮盖脱敏算法及加密脱敏算法。
8.根据权利要求7所述的基于数据仿真算法的数据脱敏系统,其特征在于,所述仿真脱敏算法适用于身份证仿真、护照仿真、银行卡仿真、手机号仿真及统一社会信用代码仿真的构成规则固定的数据进行脱敏;
针对构成规则固定位置的数据编码,分别维护对应的随机码表和映射码表,真实值被转换成虚构的且看起来真实的值,实现整体数据的随机替换和映射替换。
9.根据权利要求8所述的基于数据仿真算法的数据脱敏系统,其特征在于,基于映射码表的仿真脱敏算法属于可逆脱敏,被脱敏数据根据映射码表还原出原始数据,对于将身份证、护照、银行卡、手机号及统一社会信用代码作为主键的应用场景,继续作为数据主键使用。
10.根据权利要求8所述的基于数据仿真算法的数据脱敏系统,其特征在于,基于随机码表的数据仿真脱敏,属于不可逆脱敏,原始数据无法恢复。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110677284.8A CN113343298A (zh) | 2021-06-18 | 2021-06-18 | 基于数据仿真算法的数据脱敏系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110677284.8A CN113343298A (zh) | 2021-06-18 | 2021-06-18 | 基于数据仿真算法的数据脱敏系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113343298A true CN113343298A (zh) | 2021-09-03 |
Family
ID=77476282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110677284.8A Pending CN113343298A (zh) | 2021-06-18 | 2021-06-18 | 基于数据仿真算法的数据脱敏系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343298A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113794735A (zh) * | 2021-09-29 | 2021-12-14 | 北京雅丁信息技术有限公司 | 一种saas系统场景下的敏感数据安全保护方法 |
CN114201772A (zh) * | 2021-11-19 | 2022-03-18 | 广东航宇卫星科技有限公司 | 一种存量数据脱敏方法及装置 |
CN116992487A (zh) * | 2023-09-25 | 2023-11-03 | 北京众图识人科技有限公司 | 脱敏数据的还原方法、装置、终端设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271808A (zh) * | 2018-09-07 | 2019-01-25 | 北明软件有限公司 | 一种基于数据库敏感发现的数据静态脱敏系统和方法 |
WO2019114766A1 (zh) * | 2017-12-14 | 2019-06-20 | 中兴通讯股份有限公司 | 一种数据脱敏方法、服务器、终端及计算机可读存储介质 |
CN110399733A (zh) * | 2019-03-18 | 2019-11-01 | 国网安徽省电力有限公司黄山供电公司 | 一种针对结构化数据的脱敏平台 |
CN110457934A (zh) * | 2019-04-19 | 2019-11-15 | 南京大学 | 一种基于哈希算法的高仿真数据脱敏算法 |
CN110781515A (zh) * | 2019-10-25 | 2020-02-11 | 上海凯馨信息科技有限公司 | 一种静态数据脱敏方法及脱敏装置 |
CN111177785A (zh) * | 2019-12-31 | 2020-05-19 | 广东鸿数科技有限公司 | 一种基于企业的业务系统的隐私数据的脱敏处理方法 |
-
2021
- 2021-06-18 CN CN202110677284.8A patent/CN113343298A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019114766A1 (zh) * | 2017-12-14 | 2019-06-20 | 中兴通讯股份有限公司 | 一种数据脱敏方法、服务器、终端及计算机可读存储介质 |
CN109271808A (zh) * | 2018-09-07 | 2019-01-25 | 北明软件有限公司 | 一种基于数据库敏感发现的数据静态脱敏系统和方法 |
CN110399733A (zh) * | 2019-03-18 | 2019-11-01 | 国网安徽省电力有限公司黄山供电公司 | 一种针对结构化数据的脱敏平台 |
CN110457934A (zh) * | 2019-04-19 | 2019-11-15 | 南京大学 | 一种基于哈希算法的高仿真数据脱敏算法 |
CN110781515A (zh) * | 2019-10-25 | 2020-02-11 | 上海凯馨信息科技有限公司 | 一种静态数据脱敏方法及脱敏装置 |
CN111177785A (zh) * | 2019-12-31 | 2020-05-19 | 广东鸿数科技有限公司 | 一种基于企业的业务系统的隐私数据的脱敏处理方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113794735A (zh) * | 2021-09-29 | 2021-12-14 | 北京雅丁信息技术有限公司 | 一种saas系统场景下的敏感数据安全保护方法 |
CN113794735B (zh) * | 2021-09-29 | 2023-05-30 | 北京雅丁信息技术有限公司 | 一种saas系统场景下的敏感数据安全保护方法 |
CN114201772A (zh) * | 2021-11-19 | 2022-03-18 | 广东航宇卫星科技有限公司 | 一种存量数据脱敏方法及装置 |
CN114201772B (zh) * | 2021-11-19 | 2022-08-23 | 广东航宇卫星科技有限公司 | 一种存量数据脱敏方法及装置 |
CN116992487A (zh) * | 2023-09-25 | 2023-11-03 | 北京众图识人科技有限公司 | 脱敏数据的还原方法、装置、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113343298A (zh) | 基于数据仿真算法的数据脱敏系统 | |
US20210089669A1 (en) | System and method for real-time transactional data obfuscation | |
Murthy et al. | A comparative study of data anonymization techniques | |
US10586062B1 (en) | Systems and methods to track, store, and manage events, rights and liabilities | |
US11803519B2 (en) | Method and system for managing and securing subsets of data in a large distributed data store | |
US20150143133A1 (en) | Systems For Embedding Information In Data Strings | |
US20100161995A1 (en) | System, method, and computer-readable medium for cryptographic key rotation in a database system | |
US20100189251A1 (en) | Security Enhanced Data Platform | |
US20220019695A1 (en) | Selective anonymization of data maintained by third-party network services | |
US20150026462A1 (en) | Method and system for access-controlled decryption in big data stores | |
US11907199B2 (en) | Blockchain based distributed file systems | |
CN106022155A (zh) | 用于数据库安全管理的方法及服务器 | |
US7962492B2 (en) | Data management apparatus, data management method, data processing method, and program | |
CN111967024A (zh) | 一种文件敏感数据保护方法及装置 | |
US9465954B1 (en) | Method and system for tracking masking of data | |
US11868339B2 (en) | Blockchain based distributed file systems | |
CN101799853A (zh) | 一种层次化信息加密共享方法 | |
CN112911002B (zh) | 一种区块链数据共享加密方法 | |
Zhezhnych et al. | Methods of data processing restriction in ERP systems | |
CN113343299A (zh) | Hive数据库动态脱敏系统及实现方法 | |
CN112613065A (zh) | 一种基于差分隐私保护的数据共享方法及装置 | |
CN109583242A (zh) | 一种k-ux系统下硬盘分区加密的方法和系统 | |
KR20100138291A (ko) | 개인정보 변환방법, 시스템 및 이를 이용한 서비스 테스트 방법 | |
CN102456045A (zh) | 数据库集群加密方法和系统 | |
Ali et al. | A content-based data masking technique for a built-in framework in Business Intelligence platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210903 |
|
RJ01 | Rejection of invention patent application after publication |