CN110781515B - 一种静态数据脱敏方法及脱敏装置 - Google Patents

一种静态数据脱敏方法及脱敏装置 Download PDF

Info

Publication number
CN110781515B
CN110781515B CN201911021041.8A CN201911021041A CN110781515B CN 110781515 B CN110781515 B CN 110781515B CN 201911021041 A CN201911021041 A CN 201911021041A CN 110781515 B CN110781515 B CN 110781515B
Authority
CN
China
Prior art keywords
desensitization
data
type
privacy
source data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911021041.8A
Other languages
English (en)
Other versions
CN110781515A (zh
Inventor
仇军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Kaixin Information Technology Co ltd
Original Assignee
Shanghai Kaixin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Kaixin Information Technology Co ltd filed Critical Shanghai Kaixin Information Technology Co ltd
Priority to CN201911021041.8A priority Critical patent/CN110781515B/zh
Publication of CN110781515A publication Critical patent/CN110781515A/zh
Application granted granted Critical
Publication of CN110781515B publication Critical patent/CN110781515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/119Details of migration of file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明提供了一种静态数据脱敏方法及脱敏装置,支持SLM和UPM两种脱敏方式。其中SLM方式包括如下步骤:与源数据端建立连接,自动完成隐私全量发现;梳理、调整隐私发现结果;与目标数据端建立连接;创建脱敏任务,选择源数据端及目标数据端,配置脱敏参数;启动脱敏任务,实时监控数据脱敏执行情况。UPM方式仅处理隐私字段,脱敏效率更高。本发明基于流式处理、全程数据不落地,可自动发现隐私类型,支持同构/异构、脱敏过程自定义配置等,使得脱敏过程安全可控、且提升了效率和灵活度;并综合运用高仿真的脱敏算法和数据水印、反向脱敏等技术,保留了原始数据的业务价值,同时避免敏感信息泄露,实现脱敏结果可控、可追溯。

Description

一种静态数据脱敏方法及脱敏装置
技术领域
本发明涉及数据脱敏技术领域,具体地讲,本发明涉及一种静态数据脱敏方法及脱敏装置。
背景技术
数据脱敏,指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。即在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则的情况下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。这样可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。
根据数据脱敏应用场景的不同,分为静态数据脱敏和动态数据脱敏。静态数据脱敏适用于将数据抽取出生产环境脱敏后分发至测试、开发、培训、数据分析等场景,动态脱敏适用于不脱离生产环境,对敏感数据的查询和调用结果进行实时脱敏。
以往在数据量不大、应用场景较为简单的情况下,企业多是自己编写脱敏脚本,屏蔽敏感数据。随着应用系统、数据量的不断增加,人工的方式已不能满足信息安全的需求。随着信息安全要求的不断加强,进而出现了很多静态数据脱敏技术和方法,但现有技术多存在如下几方面的不足:
1)脱敏过程中数据落地,不安全。如果不能对脱敏过程做到有效保护,将依然会导致敏感数据的泄露;
2)隐私发现多依赖于人工识别或指定。该种方式一方面工作效率低,同时也存在遗漏、疏忽、刻意等原因导致的隐私类型未识别,从而导致敏感数据泄露;
3)脱敏速度有限,仅支持从源端到目标端的迁移式脱敏(SLM:Select-LoadMasking),不支持源端自身更新式脱敏(UPM:Update Masking)。在对脱敏速度要求较高的场景下,迁移式脱敏由于实现原理的限制,往往不能达到很高的速度,而更新式脱敏由于机制的不同,可以实现高速脱敏;
4)脱敏算法简单,无法保证脱敏后数据的应用价值。脱敏不仅仅是数据变形,其需要保证变形后数据的测试、分析等使用价值。因此,需要做到:a)保持原有数据特征(如身份证号满足区域地址码(6位)、出生日期(8位)、顺序码(3位)和校验码(1位)的要求);b)保持数据之间的一致性(如身份证信息脱敏后仍需要保证出生年月字段和身份证中包含的出生日期之间的一致性);c)保持业务规则的关联性(如主、外键关联);d)多次脱敏之间的数据一致性,相同的数据进行多次脱敏,或者在不同的测试系统进行脱敏,需要确保每次脱敏的数据始终保持一致性,只有这样才能保障业务系统数据变更的持续一致性以及广义业务的持续一致性。
5)脱敏灵活度低,使用方式和应用场景有限。体现在两个方面:a)体现在数据源类型的支持有限,比如,支持有限几种数据库类型(MySQL/Oracle/SQL Server/DB2等),仅支持同构数据库、不支持异构数据库脱敏,仅支持数据库脱敏、不支持文件方式脱敏,不支持数据库-文件双向异构脱敏;b)脱敏全过程自定义配置有限,比如不支持自定义隐私类型,不支持白名单表、黑名单表、表内数据筛选、全局参数、局部参数,不支持任务执行参数优化调整(隐私类型参数动态调整,并行任务数等),外部服务接口没有或有限(无法与第三方调度平台等整合,构建更加丰富的应用场景)。
因此,本领域技术人员亟需提供一种静态数据脱敏方法及脱敏装置,可基于流式处理、全程数据不落地,可自动发现隐私类型,支持迁移式和更新式的脱敏方式,通过高仿真的脱敏算法进行隐私处理,既保障原始数据的安全,避免敏感信息泄露,同时实现脱敏过程可控、可追溯性,加强企业对于客户信息的保护力度。
发明内容
本发明要解决的技术问题是:提供一种静态数据脱敏方法及脱敏装置,可基于流式处理、全程数据不落地,可自动发现隐私类型,支持迁移式和更新式的脱敏方式,通过高仿真的脱敏算法进行隐私处理,既保障原始数据的安全,避免敏感信息泄露,同时实现脱敏过程可控、可追溯性,加强企业对于客户信息的保护力度。
本发明解决其技术问题所采用的技术方案是:提供一种静态数据脱敏方法,包括以下步骤:
步骤S01、与源数据端建立连接,自动完成隐私全量发现;
步骤S02、梳理、调整并确认已发现的隐私数据,根据实际情况,完成增量隐私发现;
步骤SO3、与目标数据端建立连接;
步骤S04、创建脱敏作业任务,选择源数据端和目标数据端,配置脱敏参数;
步骤S05、启动脱敏任务,实时监控数据脱敏执行情况。
优选的,所述步骤S01具体包括:
步骤S011、判定源数据端类型为数据库类型或文件类型,采集相应的配置信息,建立连接并测试联通性;
步骤S012、连接成功后,根据预先设定的隐私发现规则,自动对源数据端执行全量隐私发现,根据隐私发现的状态判断发现过程是否已完成、是否存在异常,若存在异常可查看具体原因。
优选的,所述步骤S012中,所述隐私发现采用自动扫描的处理方式,支持人工全量/增量隐私类型发现和定时全量/增量隐私类型发现。
优选的,所述步骤S02中,若隐私发现过程已开始,可查看已发现的结果,通过隐私预览确认发现结果是否正确;
确认如下内容:有无未识别的或未标记为隐私的字段、原始数据是否与发现的隐私类型一致、脱敏预览结果是否符合预期、是否需要做混合隐私类型脱敏;
若源数据端类型为数据库类型,发现结果包括:数据库名称、Schema名称、表名、字段名、字段类型、是否为隐私字段或隐私类型其中的一种或多种信息;
若源数据端类型为文件类型,则包括源端地址、路径、文件名称或文件类型其中的一种或多种信息。
优选的,所述步骤SO3中,根据目标数据端类型,采集相应的配置信息,建立连接并测试连通性;
支持同构和异构两种脱敏方式:
若目标数据端与源数据端类型相同,都为某一种数据库或某一种文件类型,为同构脱敏;
若目标数据端与源数据端类型不同,源数据端为某一种数据库或文件类型、目标数据端为另一种数据库或文件类型,为异构脱敏。
优选的,所述步骤S04中,选择SLM迁移式脱敏方式或者UPM更新式脱敏方式,创建相应的脱敏任务。
优选的,若选择SLM迁移式脱敏方式,具体包括以下步骤:
步骤S041、选择源数据端,判定源数据端类型为数据库类型或文件类型,若为数据库类型,则显示所有数据表信息;若为文件类型,则显示所有待脱敏的文件列表,选择全部或者部分表、脱敏文件;
步骤S042、调整任务参数,任务参数包括脱敏因子值、任务范围内的隐私类型、白名单表、黑名单表、表内数据筛选、全局参数、局部参数,任务并发线程;
步骤S043、选择目标数据端,配置目标端参数,参数包括主键、外键、索引、存储过程、目标端原表和数据清理、任务运行以及异常后的处理方式。
优选的,若选择UPM更新式脱敏方式,则只需选择源数据端和调整任务参数。
优选的,所述步骤S05中,具体包括以下步骤:任务创建成功后,执行启动操作,开始数据脱敏;
若选择SLM迁移式脱敏方式,则过程为从源数据端抽取数据,加载至内存中,若为隐私类型,调用脱敏算法和参数进行数据脱敏操作,然后根据预先设定的任务参数,重建表或仅删除原有数据,然后将脱敏后的数据写入目标数据端,当表中数据全部写入完成后,根据任务参数选择创建主键及索引;
若选择UPM更新式脱敏方式,则过程为从源数据端仅抽取标记为隐私类型的数据,加载至内存中,调用相应的脱敏算法和参数进行数据脱敏操作,然后采用更新的方式写入源数据端。
优选的,所述步骤S05中,实时监控数据脱敏执行情况具体包括:总览包含当前进度、已完成脱敏表数量、当前实时脱敏速度,明细信息分为四类:运行中、已完成、已失败、未处理;其中,运行中列表记录当前正在执行的表/脱敏文件,已完成列表记录了已完成的表/脱敏文件,已失败列表记录失败的表/脱敏文件,未处理列表记录了未执行脱敏的表/脱敏文件。
本发明还提供一种静态数据脱敏方法的装置,包括:
源数据端服务器,用于存储原始数据;
目标数据端服务器,用于存储脱敏后的数据;
静态数据脱敏服务器,同时与源数据端服务器以及目标数据端服务器连接,用于完成从源数据端到目标数据端的SLM迁移式脱敏方式任务或者源数据端到源数据端自身的UPM更新式脱敏方式任务;
静态数据脱敏服务器具体包括:功能组件模块、用户交互模块、核心服务模块、自定义配置管理模块、系统管控模块、外部服务对接模块;其中,功能组件模块经用户交互模块统一对外提供服务,由脱敏引擎向功能组件模块提供核心服务,完成脱敏功能,系统管控模块通过权限管理、监控管理和审计管理保障脱敏平台安全可控;外部服务模块提供接口对接功能,实现与外部系统、服务的有效结合。
本发明提供了一种静态数据脱敏方法及脱敏装置,其基于流式处理、全程数据不落地,可自动发现隐私类型,支持迁移式和更新式两种脱敏方式,通过高仿真的脱敏算法进行隐私处理,充分保留原始数据的业务价值,并综合运用数据水印、反向脱敏等技术,既保障原始数据的安全,避免敏感信息泄露,同时实现脱敏过程可控、可追溯,进一步加强企业对于客户信息的保护力度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的静态数据脱敏方法的流程图;
图2是本发明源数据端类型为数据库类型时采集的配置信息图;
图3是本发明源数据端类型为文件类型时采集的配置信息图;
图4是本发明中静态数据脱敏装置的结构框图。
具体实施方式
为使本发明的内容更加清楚易懂,以下结合说明书附图,对本发明的内容作进一步说明。明显地,本发明并不局限于该具体实施例,本领域内的技术人员所熟知的一般替换也涵盖在本发明的保护范围内。其次,本发明利用示意图进行了详细的表述,在详述本发明实例时,为了便于说明,示意图不依照一般比例局部放大,不应以此作为对本发明的限定。
本发明实施例可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作,适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子;包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。
计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
如图1所示,本发明提供一种静态数据脱敏方法,包括如下步骤:
步骤S01、根据源数据端类型,判定源数据端类型为数据库类型或文件类型,采集相应的配置信息,建立连接并测试联通性;连接成功后,根据预先设定的隐私发现规则,自动对源数据端执行全量隐私发现,可以根据隐私发现的状态判断发现过程是否已完成,是否正常、有无异常,若有,可查看具体异常原因;请参阅图2,图2是本发明源数据端类型为数据库类型时采集的配置信息图;请参阅图3,图3是本发明源数据端类型为文件类型时采集的配置信息图。
在一个实施例中,源数据连接可以是结构化数据库Oracle、MySQL、SQL S erver、DB2、Informix、Greenplum、Hive等,也可以是文件,如txt、del、d bf、csv等;隐私自动发现的规则包含但不限于:名称(中文姓名、企业名称)、地址、邮箱、电话(手机号、固定电话、传真等)、证件(身份证、护照、军官证)、帐号(银行卡、客户号、税务登记号、组织机构代码、营业执照号等)、邮编、日期(生日等)等。
步骤S02、若隐私发现过程已开始,可查看已发现的结果。如源数据端为数据库类型,发现结果包括如下信息,数据库名称、Schema名称、表名、字段名、字段类型、是否为隐私字段、隐私类型,若为文件类型,则包括源端地址、路径、文件名称、文件类型等信息;通过隐私预览确认发现结果是否正确,如本应该标记为隐私类型的字段有无未识别的、标记为隐私的字段,其原始数据是否与发现的隐私类型一致、预览中脱敏后的数据是否满足要求(如原始数据有无按规则变形,原始数据特征有无保留等),若脱敏预览结果不符合预期,如原始数据为混合隐私类型,现只对指定的类型做了脱敏,则可以通过修改预设的隐私类型,配置多种隐私发现规则和脱敏算法,或者创建自定义隐私类型,然后执行增量隐私发现或者手动修改该字段的隐私类型,再行预览查看修改后的脱敏效果是否正确。
在一个实施例中,隐私发现结果可能为成功、失败、部分成功。若结果为成功或部分成功,则可查看隐私发现结果(参见表1),其中隐私结果对应的部分隐私类型及发现规则配置(参见表2-表3)。实施中,预先设定隐私类型、发现规则、脱敏方法及相互关联关系,从而实现在源数据端连接成功后,自动识别隐私类型,其中隐私类型识别的效率依赖选取的样本集和算法,本方法中可支持参数动态调整,从而取得较好的识别效率。同时可根据需要添加自定义隐私类型、发现规则。同时,在调整发现规则或隐私类型后,可根据实际情况执行增量隐私发现,具体实现为:基于脱敏任务中选择的脱敏范围(表集合),实时比对已发现隐私与源数据端的信息差异,细化到表字段的类型,当检测到发生变化时,将重新对差异部分执行隐私发现,源端可能发生的变化有删表、字段,新增表、字段,变更表、字段等。
表1 隐私发现结果样例
表2 隐私类型样例
隐私主键 隐私类型名称 脱敏规则
1 中文地址信息 1
2 银行卡号信息 2
3 电子邮件信息 3
4 企业名称信息 4
5 中文姓名信息 5
表3 发现规则配置样例
规则主键 基础规则代码 规则名称
1 Address 中文地址发现规则
2 BankCard 银行卡发现规则
3 EMail 电子邮件发现规则
4 EnterpriseName 企业名称发现规则
5 Name 中文姓名发现规则
步骤SO3中,根据目标数据端类型(数据库类型或文件类型),与源数据源同构/异构均可,采集相应的配置信息,请参见图2、图3,图2是本发明源数据端类型为数据库类型时采集的配置信息图;图3是本发明源数据端类型为文件类型时采集的配置信息图;建立连接并测试连通性;该步骤SLM迁移式脱敏方式需要,UPM更新式脱敏方式不需要;
在一个实施例中,目标端数据连接可以是结构化数据库Oracle、MySQL、SQLServer、DB2、Informix、Greenplum、Hive等,也可以是文件,如txt、del、dbf、csv等。
步骤S04、根据SLM迁移式脱敏方式或UPM更新式脱敏方式,创建相应的脱敏任务,若为SLM迁移式脱敏方式,则需选择源数据端和目标数据端,选择源数据端后,若为数据库类型,则显示所有表信息,若为文件类型,则显示所有待脱敏的文件,选择全部或者部分表(待脱敏文件),调整任务参数(种子值、任务级的隐私类型等),选择目标数据端,配置目标端参数(是否使用相同schema、是否建立主键、索引等数据关联信息),选择任务运行方式(手动执行一次/定时执行/重复执行)、异常后的处理方式(重复N次/人工处理)。若为UPM,则不需要选择目标数据端,其他与SLM一致;
在一个实施例中,脱敏方式可能是SLM迁移式脱敏方式或UPM更新式脱敏方式,在需要对原始数据重复脱敏,并保存于不同的目标端,且对脱敏时效性要求不高时,可采用SLM迁移式脱敏方式,而在时效性要求很高或者要求原始数据副本不能离开生产或安全环境时,需要采用UPM更新式脱敏方式执行,然后再将脱敏后的数据转移至测试或者需要的环境中。其中脱敏范围支持自主选择,可以全量脱敏、部分脱敏,运行方式也可自主选择,支持手动单次执行、定时和重复执行,当选择定时或重复执行时,按规则设定好定时策略即可。
步骤S05、任务创建成功后,执行启动操作,开始数据脱敏。若为SLM迁移式脱敏方式,脱敏具体过程为:从源数据端抽取数据,加载至内存中,若为隐私类型,调用相应的脱敏算法和参数进行数据脱敏操作,然后根据预先设定的任务参数(删表重建/仅删除数据),重建表或仅删除原有数据,然后将脱敏后的数据写入目标数据端,当表中数据全部写入完成后,根据任务参数选择创建主键、索引等;若为UPM更新式脱敏方式,从源数据端仅抽取标记为隐私类型的数据,加载至内存中,调用相应的脱敏算法和参数进行数据脱敏操作,然后采用更新的方式写入源数据端,当一张表中隐私类型较少时,则脱敏速度会非常快,远高于SLM迁移式脱敏方式下的脱敏速度。脱敏任务启动后,可实时监控任务运行情况,包括总览和明细信息,其中,总览包含当前进度、已完成脱敏表数量、当前实时脱敏速度(条/秒),明细信息分为运行中、已完成、已失败、未处理四类,运行中列表记录当前正在执行的表/脱敏文件(已完成数据量、开始时间、当前处理速度等),已完成列表记录已完成的表/脱敏文件(总计完成数据量、平均脱敏速度、开始时间、结束时间),已失败列表记录失败的表/脱敏文件(开始时间,结束时间,失败详细原因),未处理列表记录未执行脱敏的表/脱敏文件(与用户自定义参数配合使用,如白名单、黑名单等,实现不同场景下的特殊处理)。
在一个实施例中,SLM迁移式脱敏方式或UPM更新式脱敏方式下,脱敏过程均为流式处理,数据全程不落地,当源数据端为文件类型时,临时文件完全在源端完成,仅将脱敏后的文件或数据迁移至目标端。脱敏算法包含但不限于:名称(中文姓名、企业名称)、地址、邮箱、电话(手机号、固定电话、传真等)、证件(身份证、护照、军官证)、帐号(银行卡、客户号、税务登记号、组织机构代码、营业执照号等)、邮编、日期(生日等)等,算法样例参见表4,表4为脱敏算法样例。
表4 脱敏算法样例
主键 规则代码 规则名称 规则参数
1 Address 中文地址脱敏 province:true|city:true|street:true
2 BankCard 银行卡号脱敏
3 EMail 电子邮件脱敏 isChangeDomainName:true
4 EnterpriseName 企业名称脱敏
5 Name 中文姓名脱敏 changeSurName:true
6 PersonalCard 身份证号脱敏 province:true|city:true
7 PhoneNumber 电话号码脱敏 seperator:-
其中,本方法中的脱敏算法具有如下几个特点:
1)百万数据不重复,与原始唯一性数据保持数量上的一致;
2)高仿真,脱敏后的数据依然保留原始数据的特征,保留其业务价值;
3)数据关联性,同类型的相同数据,经过脱敏算法处理后,脱敏后的数据依然保持一致,比如身份证号,某些场景下在多张数据表中都会存有身份证号,并通过其做业务关联,如果脱敏前后不能保证相同数据的一致性,则无法实现该场景下的业务关联处理,也就失去了数据分析价值;
4)在某些场景下,需要实现对脱敏过程的可跟踪、可追溯,例如要对脱敏过程建立责任关系,则需要根据脱敏前后的数据识别出脱敏执行的责任人,依赖于数据水印或反向脱敏算法,可实现脱敏后数据的反向查询,获取当时的脱敏执行人,从而在隐私数据发生人为有意泄露时,及时发现并采取有效措施。本发明方法支持反向脱敏的动态实时调整,当关闭开关时,采用单向脱敏,每次脱敏后结果不同,当打开开关时,启动反向脱敏,此时同一人、一定期限内、同一任务脱敏后的结果相同。
各隐私类型脱敏效果参见表5,表5为数据脱敏样例。
表5 数据脱敏样例
本发明提供了一种静态数据脱敏方法的装置,其特征在于,包括:源数据端服务器、目标数据端服务器以及静态数据脱敏服务器;源数据端服务器用于存储原始数据;目标数据端服务器用于存储脱敏后的数据;静态数据脱敏服务器同时与源数据端服务器以及目标数据端服务器连接,用于完成从源数据端到目标数据端的SLM迁移式脱敏方式任务或者源数据端到源数据端自身的UPM更新式脱敏方式任务。
如图4所示,图4是本发明中静态数据脱敏装置的结构框图;静态数据脱敏装置具体包括:功能组件模块10、用户交互模块20、核心服务模块30、自定义配置管理模块40、系统管控模块50、外部服务对接模块60;其中,功能组件模块10经用户交互模块20统一对外提供服务,由脱敏引擎向功能组件模块10提供核心服务30,完成脱敏功能,系统管控模块50通过权限管理、监控管理和审计管理保障脱敏平台安全可控;外部服务模块60提供接口对接功能,实现与外部系统、服务的有效结合。
虽然本发明主要描述了以上实施例,但仅作为实例来加以描述,而本发明并不限于此。本领域普通技术人员能做出多种变型和应用而不脱离实施例的实质特性。例如,对实施例详示的每个部件都可以修改和运行,与所述变型和应用相关的差异可认为包括在所附权利要求所限定的本发明的保护范围内。
本说明书中所涉及的实施例,其含义是结合该实施例描述的特地特征、结构或特性包括在本发明的至少一个实施例中。说明书中出现于各处的这些术语不一定都涉及同一实施例。此外,当结合任一实施例描述特定特征、结构或特性时,都认为其落入本领域普通技术人员结合其他实施例就可以实现的这些特定特征、结构或特性的范围内。

Claims (7)

1.一种静态数据脱敏方法,其特征在于,包括以下步骤:
步骤S01、与源数据端建立连接,自动完成隐私全量发现;
步骤S011、判定源数据端类型为数据库类型或文件类型,采集相应的配置信息,建立连接并测试联通性;
步骤S012、连接成功后,根据预先设定的隐私发现规则,自动对源数据端执行全量隐私发现,根据隐私发现的状态判断发现过程是否已完成、是否存在异常,若存在异常可查看具体原因;
步骤S02、梳理、调整并确认已发现的隐私数据,根据实际情况,完成增量隐私发现;
若隐私发现过程已开始,可查看已发现的结果,通过隐私预览确认发现结果是否正确;
确认如下内容:有无未识别的或未标记为隐私的字段、原始数据是否与发现的隐私类型一致、脱敏预览结果是否符合预期、是否需要做混合隐私类型脱敏;
若源数据端类型为数据库类型,发现结果包括:数据库名称、Schema名称、表名、字段名、字段类型、是否为隐私字段或隐私类型其中的一种或多种信息;
若源数据端类型为文件类型,则包括源端地址、路径、文件名称或文件类型其中的一种或多种信息;
步骤SO3、与目标数据端建立连接;
步骤S04、创建脱敏作业任务,选择源数据端和目标数据端,配置脱敏参数;
选择SLM迁移式脱敏方式或者UPM更新式脱敏方式,创建相应的脱敏任务;
步骤S05、启动脱敏任务,实时监控数据脱敏执行情况;
若选择SLM迁移式脱敏方式,则过程为从源数据端抽取数据,加载至内存中,若为隐私类型,调用脱敏算法和参数进行数据脱敏操作,然后根据预先设定的任务参数,重建表或仅删除原有数据,然后将脱敏后的数据写入目标数据端,当表中数据全部写入完成后,根据任务参数选择创建主键及索引;
若选择UPM更新式脱敏方式,则过程为从源数据端仅抽取标记为隐私类型的数据,加载至内存中,调用相应的脱敏算法和参数进行数据脱敏操作,然后采用更新的方式写入源数据端。
2.如权利要求1所述的静态数据脱敏方法,其特征在于,所述步骤S012中,所述隐私发现采用自动扫描的处理方式,支持人工全量/增量隐私类型发现和定时全量/增量隐私类型发现。
3.如权利要求1所述的静态数据脱敏方法,其特征在于, 所述步骤SO3中,根据目标数据端类型,采集相应的配置信息,建立连接并测试连通性;
支持同构和异构两种脱敏方式:
若目标数据端与源数据端类型相同,都为某一种数据库或某一种文件类型,为同构脱敏;
若目标数据端与源数据端类型不同,源数据端为某一种数据库或文件类型、目标数据端为另一种数据库或文件类型,为异构脱敏。
4.如权利要求1所述的静态数据脱敏方法,其特征在于,若选择SLM迁移式脱敏方式,具体包括以下步骤:
步骤S041、选择源数据端,判定源数据端类型为数据库类型或文件类型,若为数据库类型,则显示所有数据表信息;若为文件类型,则显示所有待脱敏的文件列表,选择全部或者部分表、脱敏文件;
步骤S042、调整任务参数,任务参数包括脱敏因子值、任务范围内的隐私类型、白名单表、黑名单表、表内数据筛选、全局参数、局部参数,任务并发线程;
步骤S043、选择目标数据端,配置目标端参数,参数包括主键、外键、索引、存储过程、任务运行以及异常后的处理方式。
5.如权利要求1所述的静态数据脱敏方法,其特征在于,若选择UPM更新式脱敏方式,则只需选择源数据端和调整任务参数。
6.如权利要求1所述的静态数据脱敏方法,其特征在于, 所述步骤S05中,实时监控数据脱敏执行情况具体包括:总览包含当前进度、已完成脱敏表数量、当前实时脱敏速度,明细信息分为四类:运行中、已完成、已失败、未处理;其中,运行中列表记录当前正在执行的表/脱敏文件,已完成列表记录了已完成的表/脱敏文件,已失败列表记录失败的表/脱敏文件,未处理列表记录了未执行脱敏的表/脱敏文件。
7.一种采用权利要求1-6任一所述的静态数据脱敏方法的装置,其特征在于,包括:
源数据端服务器,用于存储原始数据;
目标数据端服务器,用于存储脱敏后的数据;
静态数据脱敏服务器,同时与源数据端服务器以及目标数据端服务器连接,用于完成从源数据端到目标数据端的SLM迁移式脱敏方式任务或者源数据端到源数据端自身的UPM更新式脱敏方式任务;
静态数据脱敏服务器具体包括:功能组件模块、用户交互模块、核心服务模块、自定义配置管理模块、系统管控模块、外部服务对接模块;其中,功能组件模块经用户交互模块统一对外提供服务,由脱敏引擎向功能组件模块提供核心服务,完成脱敏功能,系统管控模块通过权限管理、监控管理和审计管理保障脱敏平台安全可控;外部服务模块提供接口对接功能,实现与外部系统、服务的有效结合。
CN201911021041.8A 2019-10-25 2019-10-25 一种静态数据脱敏方法及脱敏装置 Active CN110781515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911021041.8A CN110781515B (zh) 2019-10-25 2019-10-25 一种静态数据脱敏方法及脱敏装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911021041.8A CN110781515B (zh) 2019-10-25 2019-10-25 一种静态数据脱敏方法及脱敏装置

Publications (2)

Publication Number Publication Date
CN110781515A CN110781515A (zh) 2020-02-11
CN110781515B true CN110781515B (zh) 2023-09-26

Family

ID=69386457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911021041.8A Active CN110781515B (zh) 2019-10-25 2019-10-25 一种静态数据脱敏方法及脱敏装置

Country Status (1)

Country Link
CN (1) CN110781515B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392425A (zh) * 2020-03-12 2021-09-14 中移物联网有限公司 一种数据脱敏处理方法、装置、边缘计算节点及服务器
CN111400762A (zh) * 2020-03-18 2020-07-10 上海凯馨信息科技有限公司 一种针对oracle数据库的动态脱敏方法
CN111858546A (zh) * 2020-06-22 2020-10-30 网联清算有限公司 数据处理方法、装置及系统
CN111831983B (zh) * 2020-06-30 2023-03-10 新大陆数字技术股份有限公司 基于脱敏数据的水印嵌入方法、水印读取方法及水印系统
CN113901508A (zh) * 2020-07-06 2022-01-07 北京罗克维尔斯科技有限公司 一种隐私数据保护方法及装置
CN112528327B (zh) * 2020-12-08 2024-08-02 杭州数梦工场科技有限公司 数据脱敏方法及装置、数据还原方法及装置
CN112668047A (zh) * 2020-12-28 2021-04-16 浪潮云信息技术股份公司 基于定时任务的数据增量静态脱敏实现方法及系统
CN112836242A (zh) * 2021-03-31 2021-05-25 中国工商银行股份有限公司 一种数据表的数据变形方法及装置
CN113343298A (zh) * 2021-06-18 2021-09-03 浪潮云信息技术股份公司 基于数据仿真算法的数据脱敏系统
CN113792342B (zh) * 2021-09-17 2023-09-08 山西数字政府建设运营有限公司 一种脱敏数据还原的方法、装置、计算机设备及存储介质
CN113961968B (zh) * 2021-12-22 2022-03-04 北京安华金和科技有限公司 一种文件进行数据脱敏中断后处理方法和装置
CN114626033B (zh) * 2022-03-07 2022-11-08 福建中信网安信息科技有限公司 一种数据安全屋的实现方法及终端
CN117520020B (zh) * 2024-01-05 2024-03-29 同盾科技有限公司 用于实现隐私计算的数据交互方法、装置、系统
CN118153006B (zh) * 2024-05-10 2024-08-06 北京大学 一种数据库的水印处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295388A (zh) * 2015-06-04 2017-01-04 中国移动通信集团山东有限公司 一种数据脱敏方法和装置
CN107526813A (zh) * 2017-08-23 2017-12-29 北京明朝万达科技股份有限公司 一种脱敏数据的处理方法和装置
CN107766741A (zh) * 2017-10-23 2018-03-06 中恒华瑞(北京)信息技术有限公司 数据脱敏系统和方法
CN108256350A (zh) * 2017-12-29 2018-07-06 上海上讯信息技术股份有限公司 一种基于敏感信息类型关联的信息复合脱敏方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8718542B2 (en) * 2009-09-23 2014-05-06 Powerwave Technologies S.A.R.L. Co-location of a pico eNB and macro up-link repeater

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295388A (zh) * 2015-06-04 2017-01-04 中国移动通信集团山东有限公司 一种数据脱敏方法和装置
CN107526813A (zh) * 2017-08-23 2017-12-29 北京明朝万达科技股份有限公司 一种脱敏数据的处理方法和装置
CN107766741A (zh) * 2017-10-23 2018-03-06 中恒华瑞(北京)信息技术有限公司 数据脱敏系统和方法
CN108256350A (zh) * 2017-12-29 2018-07-06 上海上讯信息技术股份有限公司 一种基于敏感信息类型关联的信息复合脱敏方法

Also Published As

Publication number Publication date
CN110781515A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN110781515B (zh) 一种静态数据脱敏方法及脱敏装置
US11755628B2 (en) Data relationships storage platform
CN110929036B (zh) 电力营销稽查管理方法、装置、计算机设备和存储介质
US20240045875A1 (en) Systems and methods for management of data analytics platforms using metadata
CN102741803B (zh) 用于促进数据发现的系统和方法
US20060230044A1 (en) Records management federation
US9356966B2 (en) System and method to provide management of test data at various lifecycle stages
US20050055357A1 (en) Method, system and article of manufacture for data preservation and automated electronic software distribution across an enterprise system
CN106777351A (zh) 基于art树分布式系统图存储计算系统及其方法
CN105556552A (zh) 欺诈探测和分析
CN110826105B (zh) 一种分布式银行数据脱敏方法及系统
CN114385760A (zh) 增量数据实时同步的方法、装置、计算机设备及存储介质
CN113158233A (zh) 数据预处理方法、装置及计算机存储介质
US20240289450A1 (en) Automated threat modeling using application relationships
US11748495B2 (en) Systems and methods for data usage monitoring in multi-tenancy enabled HADOOP clusters
US12086044B2 (en) Methods and systems for monitoring computing processes
US20240127379A1 (en) Generating actionable information from documents
CN112860954A (zh) 实时计算的方法以及实时计算系统
CN116644029A (zh) 基于人工智能的模型文档管理方法、系统、设备及介质
CN109271431A (zh) 数据抽取方法、装置、计算机设备及存储介质
US11861206B1 (en) Garbage collection for object-based storage systems
US20230120826A1 (en) Systems and methods for machine learning-based data matching and reconciliation of information
US11922278B1 (en) Distributed ledger based feature set tracking
US20220366064A1 (en) Secure deployment of de-risked confidential data within a distributed computing environment
EP4036745A1 (en) Extracting sap archive data on a non-original system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant