CN112231747A

CN112231747A - 数据脱敏方法、数据脱敏装置以及计算机可读介质

Info

Publication number: CN112231747A
Application number: CN202011022904.6A
Authority: CN
Inventors: 赵娥; 苏宁; 雍菲; 王明德; 鲁艺; 孟捷; 王剑; 周勇攀; 杨莹; 何海东
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2021-01-15

Abstract

本发明涉及数据脱敏方法、数据脱敏装置以及计算机可读介质。所述数据脱敏的方法，包括：分析源数据，基于所述源数据的特点构建第一脱敏规则；从所述源数据构建基准脱敏字段匹配表，基于所述基准脱敏字段匹配表对源数据的字段进行识别和匹配；根据识别的脱敏字段，将匹配信息的前后内容基于与所述第一脱敏规则不同的第二脱敏规则进行匹配，以使得确认组合规则并构建脱敏参数表；针对所述组合规则，准备映射关系数据；以及基于所述脱敏参数表以及所述映射关系数据，进行数据脱敏，以生成相应的脱敏结果表。根据本发明，能够实现更准确地在跨组件数据中保留勾稽关系。

Description

数据脱敏方法、数据脱敏装置以及计算机可读介质

技术领域

本发明涉及数据脱敏的方法，尤其涉及一种用于审计培训或测试环境的跨组件数据脱敏的方法，并还涉及使用该数据脱敏方法的装置和计算机可读介质。

背景技术

审计分析是指审计机构或人员运用系统方法对审计对象的具体资料和内容进行分类、分辨。它可以分为探测分析和判断分析两种。(1)探测分析是在审计前和审计过程中探查错误项目的方法，主要用于审查被审单位经济活动和财政收支活动，以及核算资料等的错误，以发现线索。(2)判断分析是在审计结束时对查证事实做出判断的方法，主要用于验证审计数据的正确性，对审计结果做出评价和结论。审计分析具体运用的方法有比较分析法、比率分析法、结构分析法、指数分析法、趋势分析法、平衡分析法和因素分析法等。

审计分析方法是指审计人员在审计过程中，应用分析技术进行审汁事项评价的方法。审计分析的目的在于审计评价，为审计公允结论提供充足的依据。审计分析方法具有通用性，审计分析方法的运用灵活性极大，既可作全面分析，又可作专题分析；既从静态方面加以分析，又可从动态方面加以分析；既可以作财务审计分析，又可以作效益审计(经营审计和管理审计)分析，从资金、成本、利润分析到投资、资本、风险分析，再延伸到效率、速度、效益分析；既可以进行单项审计评价，又可以进行综合审计评价。

随着信息化技术的迅猛发展，计算机技术在国民经济和社会生活各个领域的应用日益广泛，并深刻影响着审计环境、审计模式等诸方面，数字化审计模式正是这一条件下的必然产物。数字化审计的核心是采集、转换、整理和分析数据。数据是信息的载体，是审计的基础对象，是对一定系统环境下法律法规、财务制度、业务流程的量化。由于数据的虚拟化和无形化特点，如何将数据与审计对象结合起来，将数据间的关系转换和映射为审计对象间的实体关系，从而使数据还原到其所体现的业务本质上来，就成为实施数字化审计的关键点，而这一过程就是构建审计分析模型的过程。模型构建完成后，审计人员就能利用计算机技术方法，通过对数据处理与分析，确定审计重点和疑点，实现审计目标。

审计分析系统需要基于各个业务组件的数据，对各方面的业务进行全面的分析，但原始数据中存在大量敏感数据。

敏感数据又称隐私数据，常见的有姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等。尽管各类文献关于敏感数据的定义多不同，但关于哪些信息不属于敏感数据的界定则较为一致：非个人数据一般不是敏感数据，各类个人数据的敏感程度也不尽相同。这些与个人生活、工作密切相关的信息受到不同行业和政府数据隐私法规的管制。如果负责存储和发布这些信息的企业或政府无法保证数据隐私，他们就会面临严重的财务、法律或问责风险，同时在用户信任方面蒙受巨大损失。

按照相关法律规定，处理个人信息应当具有特定、明确和合理的目的，应当在个人信息主体知情的情况下获得个人信息主体的同意，应当在达成个人信息使用目的之后删除个人信息。

如前所述，在审计分析领域，针对原始数据的分析过程中存在大量的敏感数据，例如客户信息、账号、身份证等，导致用户对数据的学习、系统的使用都存在安全隐患。

发明内容

有鉴于此，需要一种在处理脱敏数据的方法，以便在实现数据脱敏的同时，保留数据的业务逻辑含义。进一步地，当处于在针对脱敏数据的审计分析的情况下时，有效地帮助审计人员学习、整理审计分析思路，实施审计分析方法。

为实现上述目的，根据本发明实施例的一个方面，提供了一种数据脱敏的方法，包括：

分析源数据，基于所述源数据的特点构建第一脱敏规则；

从所述源数据构建基准脱敏字段匹配表，基于所述基准脱敏字段匹配表对源数据的字段进行识别和匹配；

根据识别的脱敏字段，将匹配信息的前后内容基于与所述第一脱敏规则不同的第二脱敏规则进行匹配，以使得确认组合规则并构建脱敏参数表；

针对所述组合规则，准备映射关系数据；以及

基于所述脱敏参数表以及所述映射关系数据，进行数据脱敏，以生成相应的脱敏结果表。

可选地，在本发明实施例的所述方法中，所述源数据包括基于审计培训环境中的多个数据源系统的数据。

可选地，在本发明实施例的所述方法中，所述第一脱敏规则包括：

公有规则，其是根据属于不同数据源系统的具有共同数据特征的字段归纳出的基本脱敏规则；以及

私有规则，其是每个数据源系统特有的脱敏规则，是通过在公有规则、特征规则和无保留勾稽关系的规则基础上组合而成的。

可选地，在本发明实施例的所述方法中，所述第二脱敏规则是基于数据内容而归类得到的，其包括以下至少之一：中文、英文、1位数字、2位数字、中英文数字、月、日。

可选地，在本发明实施例的所述方法中，在确认组合规则并构建脱敏参数表之后，通过人工复核，以确认所述组合规则。

可选地，在本发明实施例的所述方法中，在映射关系数据的准备中，将中文源数据分为姓氏、不脱敏字符、高频字符以及低频字符，并采用随机方式实现映射对照。

可选地，在本发明实施例的所述方法中，在映射关系数据的准备中，通过将脱敏规则编写成脱敏函数，并且利用函数结果进行映射结果进行拼接。

可选地，在本发明实施例的所述方法中，在生成相应的脱敏结果表之后，对数据脱敏进行验证，在所述验证中，对需要保留映射一致性的字段进行关联，并记录关联的记录数，并且通过对比记录数，检查脱敏的准确率。

可选地，在本发明实施例的所述方法中，通过机器学习进行所述敏感字段的识别，所述机器学习基于以下各项特征信息中的至少一项：

字段名称特征抽取、系统业务范围、表名称特征抽取、字段类型、字段长度。

为实现上述目的，根据本发明实施例的又一方面，提供了一种数据脱敏的装置。

本发明实施例的一种数据脱敏的装置包括：

数据规则分析模块，其基于所述源数据的特点构建第一脱敏规则；

数据脱敏字段识别模块，其从所述源数据构建基准脱敏字段匹配表，基于所述基准脱敏字段匹配表对源数据的字段进行识别和匹配；

数据脱敏配置模块，根据识别的脱敏字段，将匹配信息的前后内容基于与所述第一脱敏规则不同的第二脱敏规则进行匹配，以使得确认组合规则并构建脱敏参数表；

数据脱敏准备模块，其准备映射关系数据；

数据脱敏执行模块，其基于所述脱敏参数表以及所述映射关系数据，进行数据脱敏，以生成相应的脱敏结果表。

为实现上述目的，根据本发明实施例的又一方面，提供了一种数据脱敏的电子设备。所述电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明所述实施例的各个数据脱敏的方法。

为实现上述目的，根据本发明实施例的再一方面，提供了一种计算机可读存储介质。在所述计算机可读存储介质上存储有计算机程序，所述程序被处理器执行时实现本发明所述实施例的各个数据脱敏的方法。

在传统的数据脱敏方法中，独立的映射方案无法保证关联数据脱敏的一致性；同时没有较好的脱敏字段识别和检验措施。本方法通过敏感数据规则分析制定、数据脱敏字段识别、数据脱敏配置、数据脱敏准备、数据脱敏执行、数据脱敏验证，实现了跨组件数据保留勾稽关系的脱敏方法。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的一种数据脱敏方法的主要步骤的示意图；

图2是示意性地示出了根据本发明实施例的一种数据脱敏方法中对于数据脱敏需求的内容的示意图；

图3是示出了根据本发明实施例的数据脱敏的流程的示意图；

图4是根据本发明实施例的一种数据脱敏的装置的主要模块的示意图；

图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要指出的是，在不冲突的情况下，本发明的实施例以及实施例中的技术特征可以相互结合。

在以下实施例中，对于技术方案中出现的部分常规技术术语的定义参照以下解释。

勾稽关系，其是指会计帐簿和报表中有关指标、数字之间存在着必然的、可据以进行相互查考、核对的关系。注意勾稽关系，有利于保证会计资料的准确性。一般而言，勾稽关系是指数据之间存在关联性。

通常，勾稽关系是通过设置报表项目间的比较公式，来核对项目数据、检查报表的正确性，它可以用于表间审核，也可以用于项目差异审核，可以审核所有的组织机构的报表。勾稽关系实现的功能点主要有：

(1)增加勾稽关系前置条件，只有报表满足前置条件时，才进行勾稽关系检查；

(2)勾稽关系分为合法性和合理性检查。必须通过合法性勾稽关系的报表才能上报，而合理性检查不通过时，仍可以上报或加批注后可以上报；

(3)勾稽关系分配到模板，使合并报表和个别报表可分别适用不同的勾稽关系检查。

组件：指代一套完整功能的系统，具体是对应于各个不同的业务组系统所提供的被用于进行脱敏分析的数据，一般是通过ETL方式加载到分析系统中。

一般来讲，审计操作时需要对其职责范围的业务进行分析、审计。这些业务通常都有相应的系统来完成，并且需要这些业务系统将作为审计数据的数据提供给审计系统来进行分析。通常，由于需要多个不同的业务系统组件分别完成不同类型的业务，因此通常审计的数据来源多个不同的组件或系统。

全量表：记录每天的所有的最新状态的数据。

增量表：记录每天的新增数据，增量数据是上次导出之后的新数据。

快照表：按日分区，记录截止数据日期的全量数据。

切片表：切片表根据基础表，往往只反映某一个维度的相应数据。其表结构与基础表结构相同，但数据往往只有某一维度，或者某一个事实条件的数据。通常，切片表对应业务系统的明细数据表。

拉链表：记录每条信息的生命周期，当一条记录的生命周期结束，就会重新开始一条新的记录，并把当前日期放入生效开始日期。如果当前信息至今有效，则在生效结束日期中填入一个极大值(如9999-99-99)，一般在数仓中通过增加start_date,end_date两列来表示。通常，拉链表对应业务系统的主档类数据表，保存主档数据表的变化历史。

数据脱敏，又称数据去隐私化或数据变形，是在给定的规则、策略下对敏感数据进行变换、修改的技术机制，能够在很大程度上解决敏感数据在非可信环境中使用的问题。

以下，对于数据脱敏的原理稍作解释。数据脱敏在保留数据原始特征的条件下，按需进行敏感信息内容的变换。只有授权的管理员或用户，在必须知晓的情况下，才可通过特定应用程序与工具访问数据的真实值，从而降低这些重要数据在共享和移动时的风险。数据脱敏在不降低安全性的前提下，使原有数据的使用范围和共享对象得以拓展，因而是大数据环境下最有效的敏感数据保护方法。

任何涉及敏感信息的行业都对数据脱敏有着天然的需求。其中，金融、政府和医疗行业首当其冲。相关单位在应用开发、测试、培训等活动中普遍使用真实数据，导致数据在暴露期间面临严重泄露风险。在数据脱敏的帮助下，企业能够按照数据使用目标，通过定义精确、灵活的脱敏策略，按照用户的权限等级，针对不同类别的数据以不同方式脱敏，实现跨工具、应用程序和环境的迅速、一致性的访问限制。

常见的传统数据脱敏方法包括：

替换：以虚构的数据代替真值。例如，建立一个较大的虚拟值数据表，对每一真实值记录产生随机种子，对原始数据内容进行哈希映射替换。这种方法得到的数据与真实数据非常相似。无效化：以NULL或*****代替真值或真值的一部分，如遮盖信用卡号的后12位。

置乱：对敏感数据列的值进行重新随机分布，混淆原有值和其他字段的联系。这种方法不影响原有数据的统计特性，如最大/最小/方差等均与原数据无异。

均值化：针对数值型数据，首先计算它们的均值，然后使脱敏后的值在均值附近随机分布，从而保持数据的总和不变。通常用于产品成本表、工资表等场合。

反推断：查找可能由某些字段推断出另一敏感字段的映射，并对这些字段进行脱敏，如从出生日期可推断出身份证号、性别、地区的场景。

偏移：通过随机移位改变数字数据。

FPE：Format Preserving Encryption，即格式维持的加密是一种特殊的可逆脱敏方法。通过加密密钥和算法对原始数据进行加密，密文格式与原始数据在逻辑规则上一致，如都为日期、卡号、结构化值等。通过解密密钥可以恢复原始数据。

基于其他参考信息进行屏蔽：根据预定义规则仅改变部分回应内容(例如，屏蔽VIP客户姓名，但显示其他客户等)。

限制返回行数：仅提供响应数据的子集，防止用户访问到全部符合要求的数据。

在审计数据分析系统中，通常会接入上百个组件的源数据作为分析来源数据，而其中每个系统的敏感数据信息都不尽相同。在这种情况下，如果采用各个组件提供的方法进行脱敏，会导致脱敏后的数据无法具有关联性。因此，需要符合字段业务含义的一种脱敏方法用于审计培训环境的数据，实现各组件数据脱敏后仍存在勾稽关系。

在现有的脱敏技术中，常见脱敏方法主要是将敏感字段按指定的脱敏算法进行处理，例如，按照以下脱敏算法：

表1

在上表中，Hiding、Hashing、Truncation、Mask、Floor可能会导致数据勾稽关系丢失。因此，针对需要支持正确的聚合或者连接操作的敏感字段，通常采取将数据映射为唯一值的方式处理。

但是，本发明人发现，针对需要将数据映射为唯一值的字段，不同业务类型的字段实际上隐含一些公共的数据信息。例如，身份证字段和内部账号字段看似不是一类，但有的系统内部账号可能会根据身份证进行组合生成，这导致在生成的内部信号中含有身份证信息。例如，机构信息和人员编号看似不是一类，但有的系统的人员编号规则中包含所属机构信息。如果使用单一的数据映射脱敏算法，而没有结合字段的实际含义的话，则容易造成脱敏后数据失去数据可用性。因此，需要整理出统一的脱敏规则，同时对各个字段的隐含业务含义进行识别，组装脱敏算法规则，从而保证跨组件、跨字段的脱敏一致性。组装脱敏规则，指的是对于某个字段，基于已有的规则，在进行识别后通过组合而生成新的规则，以此适应以前未识别的字段的脱敏规则。

图1是根据本发明实施例的一种数据脱敏方法的主要步骤的示意图。

如图1所示，简言之，本发明实施例的一种数据脱敏的方法主要包括以下步骤：

步骤S101：敏感数据规则分析

步骤S102：数据脱敏字段识别

步骤S103：数据脱敏字段配置

步骤S104：数据脱敏准备

步骤S105：数据脱敏执行

步骤S106：数据脱敏验证

与上述各步骤相对应地，具体操作分别如下：

1)敏感数据规则分析：

分析敏感数据，确定脱敏需求，根据脱敏规则确定具体脱敏方法。具体而言，基于所述源数据的特点构建第一脱敏规则。

2)数据脱敏字段识别：

构建敏感数据基准脱敏字段表，基于所述字段表中的基准脱敏字段名称，匹配待识别表的对应字段。基于匹配的字段，对本表其他数据字段按匹配字段内容进行匹配，以确定其它字段是否包含敏感信息。

3)数据脱敏字段配置：

根据识别的脱敏字段，将匹配信息的前后内容基于与所述第一脱敏规则不同的第二脱敏规则进行匹配，以使得确认组合规则并构建脱敏参数表。

具体而言，根据识别的脱敏字段信息，将匹配信息的前后内容基于特征规则进行匹配，确认规则的组合。例如，设置以下识别类型：

对于直接按名字识别的，直接设置对应的规则。基于同一条数据，其内容中可能存在包含的敏感信息，例如所属一级机构可能存在于一些未识别的敏感字段中，或者身份证号可能存在于一些账号信息中。

因此，基于上述识别类型的字段，将其内容匹配其他未识别的字段，以判断其他字段是否包含上述识别类型的字段的内容，从而组合成新字段的规则。

对于匹配之后存在问题的，进行人工复核。

然后，在构建基本脱敏规则以及特征规则的基础上，基于特征规则、基本规则以及私有规则的组合使用，来保证脱敏数据的勾稽关系；

4)数据脱敏准备：

为脱敏规则，准备对应的映射关系数据。

5)数据脱敏执行：

基于所述脱敏参数表以及所述映射关系数据，进行数据脱敏，以生成相应的脱敏结果表。具体而言，基于数据脱敏字段配置参数表以及为脱敏准备好的映射数据，通过遍历(即，全部访问)配置参数表的方式，进行数据脱敏，从而生成对应的脱敏表，即，已被脱敏后的数据表。

6)数据脱敏验证：

对需要保留映射一致性的字段，根据数据脱敏字段配置表信息，同一规则的数据字段，按之前原数据的检查组合进行关联，并记录关联的记录数。通过对比记录数，检查脱敏的准确率。

参考图2，以下具体描述步骤S101，即敏感数据规则分析。

敏感数据主要包括两类：一类是客户本身固有的身份识别信息，如姓名、身份证、电话号码、地址、职位等；另一类是系统为识别客户生成的或发生交易产生的敏感信息，如账号、密码、交易流水号等。

如图2所示，脱敏需求的确定，需要考虑三个方面的属性，即，安全性，合理性以及相关性。

具体而言，应在保证具有安全性的前提下具有合理性和相关性。对于任何脱敏方法，安全性是前提，即保证用户可见的数据不存在敏感信息。合理性是指脱敏后的数据仍然尽可能具有脱敏前数据的业务含义。例如，在交易流水号的替换后，其数据的各段仍然要符合原有的业务规则。相关性是指不同数据表的具有同样业务含义的字段要采取统一的脱敏规则，如各系统的数据表的身份证号码字段的替换规则要一致，此外，具有关联关系的字段在脱敏后仍然要尽可能保证原有的关联关系不丢失，例如内部账号和外部账号的替换规则虽然不相同，但是替换后，仍然要符合内外部账号的翻译规则保证对应关系不变。

脱敏方法存在一定的脱敏规则。需要根据字段的特点，选定脱敏方法以及构建脱敏规则。在此，脱敏规则分为公有规则和私有规则。公有规则是根据属于不同系统具有共同数据特征的字段归纳出来的基本脱敏规则，例如名称地址、外部账号、机构代码等；私有规则是每个系统特有的脱敏规则，分别针对各自系统特定字段做脱敏处理，可以是不同公有规则的组合。在定义字段使用规则时采取公有规则和私有规则，而不选择特征规则直接使用。

以下，根据敏感数据类型对基本脱敏规则进行了整理，并且按数据中包含的常识信息对其进行了抽象梳理。整理数据字段敏感类型分析如下表2所示：

表2

敏感字段指的是要脱敏的字段。例如，内部账号中包含身份证信息。根据以上归类，敏感字段内部需要保留姓氏、省、地区、年、日期、身份证信息的一致性。在基本规则内部信息保持一致的脱敏准则下，对其他字段按照基本规则进行组合，保证脱敏数据之间的关联性。

此外，根据数据内容角度可以对数据做进一步地归类。例如，构建中文(特征规则01)、英文(特征规则02)、1位数字(特征规则03)、2位数字(特征规则04)、中英文数字(特征规则05)、月(特征规则06)、日(特征规则07)等脱敏规则。在这些特征基础规则上，通过组合方式构建基本脱敏规则。注意，这里的数据内容指的是语言最基础的分类，即，中文、英文、数字、日期等。与数据内容不同，数据含义指的是具有一定特定行业业务属性的字段，例如身份证、内部编码等。

注意，特征规则是无业务含义的基础映射规则，公有规则是在特征规则的基础上通过截取、置空等无保留勾稽关系的规则组合而成的规则。私有规则是在公有规则和特征规则的基础上进一步地通过截取、置空等无保留勾稽关系的规则组合而成的规则。

参考以下表3，以下对步骤S102进行详细说明。

首先，构建基准脱敏字段表。具体而言，基于按名称、地址类、客户编码、证件号码、机构代码类、外部账号、内部账号、卡号、柜员号、交易流水号、电话类、职业、职务、职称、邮编、EMAIL地址、传真、传呼、QQ、MSN、密码、磁道信息、个贷系统账号、日期、个贷系统账号、机构拆分字段，基于常用的若干套(在本实施例中是六套)系统表进行初步识别字段，然后由核对人员进行确认后形成基准脱敏字段表(共计1153个基准)。1153个基准脱敏字段表，是具体到字段名称的。例如，当字段为支行别号时，认定该字段为机构代码类，其使用规则03进行脱敏。示例如下：

表3

基于敏感数据基准脱敏字段中文标签，匹配待脱敏表中的各个字段；同时，基于匹配的字段，对要进行脱敏的本表的其他数据字段按匹配字段内容进行匹配，看其他字段是否包含敏感信息。

参考表4，以下对于步骤S103进行详细说明。

根据识别的脱敏字段信息——即脱敏字段里的内容，再将匹配信息的前后内容基于特征规则进行匹配，确认规则的组合。例如，某个字段里是由“机构号+身份证号+序列”组成，则认为匹配到身份证号。由此，基于数字、中文、英文进行匹配。对于匹配之后存在问题的，可以继续进行人工复核。配置脱敏参数表，示例如下：

表4

表名	字段名	规则编号	脱敏规则
				TABLE_A	COL_A	规则02	规则02
TABLE_A	COL_B	私有规则01	特征规则01+规则02+特征规则01
				…	…	…	…

根据本实施例，通过针对不同字段，有针对性地应用组合一种或多种脱敏规则来形成脱敏参数表。

对需要保留映射一致性的字段，根据数据脱敏字段配置表信息，对原数据(筛选指定机构+指定期间——切片表选择p9_data_date字段筛选期间、拉链表选择p9_end_date字段筛选期间)按脱敏字段进行关联，并记录关联的记录数。不同组件、不同数据表有关联性的字段，保持数据的一致性。

例如，个人活期存款档的账号字段通常是和个人活期交易流水表的账号字段关联一致的。由此，在脱敏前，先进行关联得到关联记录数；在脱敏后，再次进行关联，得到关联记录数，然后对该两者进行对比。

若存在大量无法关联的数据，说明源数据本身没有勾稽关系。在这种情况下，需要人工确认其实际内容，并且相应地调整脱敏规则。

参考表5，以下对于步骤S104——即，数据脱敏准备——进行详细说明。

首先，需要为脱敏规则准备对应的映射关系数据。将中文分为姓氏、不脱敏字符(例如：公、司、省、市等)、高频字符、低频字符，采用随机方式实现映射对照，保证每次脱敏都是随机产生映射关系，同时保证同一批次脱敏保证其数据的一致性，也保证数据的可读性。

另外，可以将脱敏规则编写成相应的脱敏函数，利用函数结果的拼接，适应规则通过组合方式进行脱敏。首先，获取数据表的所有字段，将非脱敏字段和脱敏字段脚本进行组装，获得生成脱敏表的查询语句。

然后，通过拼接创建表语句并执行，通过创建新表的方式，创建脱敏表。由此，完成表单脱敏。

以下是针对中文字符对照表，运行创建字符列表以形成对照的程序的示例。

表5

如前所述，可以将脱敏规则编写成相应的脱敏函数，利用函数结果的拼接，适应规则通过组合方式进行脱敏。注意，有的规则是组合的规则，因此可以对应采取组合多个函数的方式将结果拼接实现脱敏。

下表是脱敏函数的示例。

--9.1 15位身份证脱敏

--9.1 18位身份证脱敏

以下是脱敏函数的另一示例，

表6

参考图3，对步骤S105——数据脱敏的执行——进行详细描述。

首先，针对数据执行预处理。在预处理阶段，对于脱敏字段配置表以及如前所述通过随机方式产生的映射数据，进行(i)按表名进行去重，(ii)按字段配置进行规则函数匹配，并且进行拼接组装。

在去重操作中，基于表中字段对应的规则，筛选出定义了规则的字段对应表，并对表进行去重得到需要脱敏的表清单。在步骤(i)的去重后，形成脱敏表清单。

在步骤(ii)的组装后，形成脱敏字段配置脚本参数表。

注意，在数据预处理阶段的组装是指根据规则编号，将对应的脱敏函数和字段名进行组合定义。

接下来，确定是否存在需要脱敏的表。如果确定结果是否，则认为脱敏已完成，进程结束。如果确定结果是存在需要脱敏的表(即，“是”)，则逐表的进行脱敏操作。具体而言，获取数据表的所有字段，将非脱敏字段与脱敏字段脚本进行组装，获得生成脱敏表的查询语句。注意，在该脱敏阶段的组装是指：按表的维度，将所有脱敏字段的函数定义拼接起来，形成对应表的脱敏查询语句。例如，假设存在表TABLEA，其中有cola和colb需要脱敏，而另外3个字段不脱敏，则拼接生成查询语句：

select col_other1,

get_mapping_rule02(COL_A),

col_other2,get_mapping_als01(COL_B),col_other3 from TABLEA；

然后，通过拼接创建表语句，并予以执行。通过创建新表的方式，创建脱敏表，进而完成表单脱敏。

以下表7是逐表进行脱敏的函数代码的示例：

表7

接下来，对步骤S106进行说明。在步骤S106中，对需要保留映射一致性的字段，根据数据脱敏字段配置表信息，同一规则的数据字段，按之前原数据的检查组合进行关联，并记录关联的记录数。通过对比记录数，检查脱敏的准确率。例如，个人活期存款档的账号字段要和个人活期交易流水表的账号字段关联一致。因此，在脱敏前，进行关联得到关联记录数；在脱敏后，通过再次关联得到关联记录数，通过对该两者进行对比以实现验证。

可以理解的是，现有技术中，独立的映射方案无法保证关联数据脱敏的一致性；同时没有较好的脱敏字段识别和检验措施。在传统技术中，还没有为跨组件保留勾稽关系、保留脱敏后信息可读性，并且进行规则的归纳和设计。

与现有的常规技术相比，根据本发明的实施例，通过敏感数据规则分析制定、数据脱敏字段识别、数据脱敏配置、数据脱敏准备、数据脱敏执行和/或数据脱敏验证的各个环节和/或其组合，实现了跨组件数据保留勾稽关系的脱敏方法。特别是，通过基于数据特征，整理出特征规则、基本规则、私有规则，基于这些规则的单独或组合使用实现脱敏。

根据本发明的实施例，通过构建基本脱敏规则以及特征规则，基于规则保证脱敏数据的勾稽关系。如果将中文分为姓氏、不脱敏字符(例如：公、司、省、市等)、高频字符、低频字符，在保证脱敏的随机性同时，还能够保证数据的可读性。并且，通过关联的方式，还能够验证规则制定的准确性。

<变型>

对于敏感字段识别，可以考虑通过机器学习的方法，基于字段名称特征抽取、系统业务范围、表名称特征抽取、字段类型、字段长度等特征信息，构建脱敏字段类型分类模型，辅助识别脱敏字段类型。

图4是根据本发明另一实施例的一种数据脱敏的装置的主要模块的示意图。

如图4所示，本发明实施例的一种数据脱敏的装置400包括：第一数据规则分析模块401，第二数据脱敏字段识别模块402，第三数据脱敏配置模块403，第四数据脱敏准备模块404，第五数据脱敏执行模块405，以及第六数据脱敏验证模块406。

具体而言，所述第一数据规则分析模块401用于：

分析敏感数据，确定脱敏需求，根据脱敏规则确定脱敏方法，其中，基于所述源数据的特点构建第一脱敏规则。

所述第二数据脱敏字段识别模块402用于：

构建敏感数据基准脱敏字段表，基于敏感数据基准脱敏字段匹配表对应字段。基于匹配的字段，对本表其他数据字段按匹配字段内容进行识别和匹配，以确定其它字段是否包含敏感信息。

所述第三数据脱敏配置模块403用于：

根据识别的脱敏字段信息，再将匹配信息的前后内容基于特征规则进行匹配，确认规则的组合。

对于匹配之后存在问题的，进行人工复核。

在构建基本脱敏规则以及特征规则的基础上，基于整套规则——即特征规则、基本规则以及私有规则的组合使用来保证脱敏数据的勾稽关系。

所述第四数据脱敏准备模块404用于：

为脱敏规则，准备对应的映射关系数据。

所述第五数据脱敏执行模块405用于：

基于数据脱敏字段配置参数表以及脱敏准备好的映射数据，通过遍历配置参数表的方式，进行数据脱敏生成对应的脱敏表。

所述第六数据脱敏验证模块406用于：

下面参考图5，其示出了适于用来实现本发明另一实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器，其包括所述各功能模块；以及存储装置，其用于存储一个或多个程序。当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明的实施例所述的任一方法。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备实现本发明实施例的一种数据脱敏的方法。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据脱敏的方法，包括：

分析源数据，以使得基于所述源数据的特点构建第一脱敏规则；

针对所述组合规则，准备映射关系数据；以及

2.根据权利要求1所述的方法，其特征在于：

所述源数据包括基于审计培训环境中的多个数据源系统的数据。

3.根据权利要求2所述的方法，其特征在于，所述第一脱敏规则包括：

4.根据权利要求2所述的方法，其特征在于，所述第二脱敏规则是基于数据内容而归类得到的，其包括以下至少之一：

中文、英文、1位数字、2位数字、中英文数字、月、日。

5.根据权利要求1所述的方法，其特征在于：

在确认组合规则并构建脱敏参数表之后，通过人工复核，以确认所述组合规则。

6.根据权利要求1所述的方法，其特征在于，

在映射关系数据的准备中，将中文源数据分为姓氏、不脱敏字符、高频字符以及低频字符，并采用随机方式实现映射对照。

7.根据权利要求1所述的方法，其特征在于，

在映射关系数据的准备中，通过将脱敏规则编写成脱敏函数，并且利用函数结果进行映射结果进行拼接。

8.根据权利要求1所述的方法，其特征在于，

在生成相应的脱敏结果表之后，对数据脱敏进行验证，在所述验证中，对需要保留映射一致性的字段进行关联，并记录关联的记录数，并且通过对比记录数，检查脱敏的准确率。

9.根据权利要求1所述的方法，其特征在于，

通过机器学习进行所述敏感字段的识别，所述机器学习基于以下各项特征信息中的至少一项：

10.一种数据脱敏的装置，其包括：

数据脱敏准备模块，其准备映射关系数据；

11.根据权利要求1所述的装置，其中：

12.根据权利要求2所述的装置，其中，所述第一脱敏规则包括：

13.根据权利要求11所述的装置，其中，所述第二脱敏规则是基于数据内容而归类得到的，其包括以下至少之一：

中文、英文、1位数字、2位数字、中英文数字、月、日。

14.根据权利要求10所述的装置，其中，

15.根据权利要求10所述的装置，其中，

16.根据权利要求10所述的装置，其中，

17.根据权利要求10所述的装置，其中，

18.根据权利要求10所述的装置，其中，

19.一种数据脱敏的电子设备，其特征在于，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

20.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。