CN113988226B

CN113988226B - 数据脱敏有效性验证方法、装置、计算机设备及存储介质

Info

Publication number: CN113988226B
Application number: CN202111633197.9A
Authority: CN
Inventors: 黄俊辉; 刘小龙
Original assignee: Shenzhen Hongtu Technology Co ltd
Current assignee: Shenzhen Hongtu Technology Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-19
Anticipated expiration: 2041-12-29
Also published as: CN113988226A

Abstract

本发明实施例公开了数据脱敏有效性验证方法、装置、计算机设备及存储介质。方法包括：获取应用服务和数据访问过程中产生的数据，以得到初始数据；判断初始数据是否是敏感数据；若初始数据是敏感数据，则使用探针和字节码增强技术采集敏感数据，获取应用服务之间的调用关系，以得到数据流经的接口信息；确定接口字段信息；对接口字段信息进行脱敏操作，以得到脱敏数据；将脱敏数据输入至脱敏有效性验证模型内进行脱敏有效性验证，以得到验证结果；输出验证结果至终端。通过实施本发明实施例的方法可实现对敏感数据脱敏前后的对比，与传输该数据的接口相关联，可快速高效地对敏感数据脱敏结果的程度进行判断，更有效地验证脱敏有效性。

Description

数据脱敏有效性验证方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据脱敏方法，更具体地说是指数据脱敏有效性验证方法、装置、计算机设备及存储介质。

背景技术

在当前数据经济时代背景下，数据的安全和保护变得尤为重要，需要在应用系统运行的数据处理过程中，分析定位重要数据和敏感数据，确保有效地保护该类数据。数据脱敏作为保护重要敏感数据的一种技术手段，通过具体的脱敏规则将敏感数据进行屏蔽、替换、干扰等操作，实现对这些敏感且重要数据的可靠保护。目前脱敏技术本身已成为比较成熟的技术手段，现有或传统的脱敏验证方法主要是以数据是否出现泄露或敏感数据是否以明文形式传输来判断的，以敏感数据保护的最终结果来定义脱敏是否合理有效。但是这种验证方式存在以下的问题，一是现有脱敏技术对应用系统中的敏感数据没有明确的定义和划分，造成脱敏技术按照不同标准执行，敏感数据的字段名称、属性、类型、赋值范围的设定存在一定难度；二是现有脱敏技术难以精准地对应用系统中的敏感数据进行识别和分类，通过ETL工具对敏感数据进行收集以后，通过人工配置的手段对敏感数据进行梳理；三是现有脱敏技术在处理敏感数据，难以根据原始数据本身的特点以及该数据存在的场景选择合适的脱敏方法；四是应用系统中API接口类型和数量随着业务发展而增加，现有脱敏技术缺少对敏感数据相关接口整体规划和关联机制，难以从接口层面对所保护的敏感数据进行关联验证。

综上所述，现有的脱敏有效性验证方式存在缺乏对敏感数据脱敏前后的对比，无法与传输该数据的接口相关联，不能快速高效地对敏感数据脱敏结果的程度进行判断，无法更有效地验证脱敏有效性。

因此，有必要设计一种新的方法，以解决现有脱敏有效性验证方式存在的问题。

发明内容

本发明的目的在于克服现有技术的缺陷，提供数据脱敏有效性验证方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用以下技术方案：数据脱敏有效性验证方法，包括：

获取应用服务和数据访问过程中产生的数据，以得到初始数据；

判断所述初始数据是否是敏感数据；

若所述初始数据是敏感数据，则使用探针和字节码增强技术采集敏感数据，并获取应用服务之间的调用关系，以得到数据流经的接口信息；

根据数据流经的接口信息确定接口字段信息；

对所述接口字段信息进行脱敏操作，以得到脱敏数据；

将所述脱敏数据输入至脱敏有效性验证模型内进行脱敏有效性验证，以得到验证结果；

输出所述验证结果至终端。

其进一步技术方案为：所述判断所述初始数据是否是敏感数据，包括：

将所述初始数据输入至识别模型内进行个人隐私数据识别，以得到识别结果；

将所述初始数据与预设的数据识别策略进行匹配，以得到匹配分值；

根据所述匹配分值以及所述识别结果确定数据类别；

判断所述数据类别是否是个人隐私数据；

若所述数据类别是个人隐私数据，则确定所述初始数据是敏感数据；

若所述数据类别不是个人隐私数据，则确定所述初始数据不是敏感数据。

其进一步技术方案为：所述识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的。

其进一步技术方案为：所述根据数据流经的接口信息确定接口字段信息，包括：

分析数据流经的接口信息，以获取请求的响应内部执行情况；

对数据流经的接口信息中涉及的接口信息进行关联，并定位相关联的字段信息，以得到接口字段信息。

其进一步技术方案为：所述对所述接口字段信息进行脱敏操作，以得到脱敏数据，包括：

按照脱敏策略规则对所述接口字段信息进行变形处理，以得到脱敏数据。

其进一步技术方案为：所述脱敏有效性验证模型是通过若干个已脱敏的敏感数据作为样本集训练朴素贝叶斯NB分类器所得的。

其进一步技术方案为：所述脱敏有效性验证模型是通过若干个已脱敏的敏感数据作为样本集训练朴素贝叶斯NB分类器所得的，包括：

获取若干个已脱敏的敏感数据，以得到样本集；

将所述样本集进行划分，以得到训练集以及测试集；

构建朴素贝叶斯NB分类器；

利用训练集对朴素贝叶斯NB分类器进行训练，并计算损失值；

当损失值趋于不变时，利用测试集对训练后的朴素贝叶斯NB分类器进行测试，并将测试后的朴素贝叶斯NB分类器作为脱敏有效性验证模型。

本发明还提供了数据脱敏有效性验证装置，包括：

数据获取单元，用于获取应用服务和数据访问过程中产生的数据，以得到初始数据；

判断单元，用于判断所述初始数据是否是敏感数据；

信息获取单元，用于若所述初始数据是敏感数据，则使用探针和字节码增强技术采集敏感数据，并获取应用服务之间的调用关系，以得到数据流经的接口信息；

信息确定单元，用于根据数据流经的接口信息确定接口字段信息；

脱敏单元，用于对所述接口字段信息进行脱敏操作，以得到脱敏数据；

验证单元，用于将所述脱敏数据输入至脱敏有效性验证模型内进行脱敏有效性验证，以得到验证结果；

输出单元，用于输出所述验证结果至终端。

本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提供了一种存储介质所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

本发明与现有技术相比的有益效果是：本发明通过获取应用服务和数据访问过程中产生的数据，结合识别模型以及数据识别策略在确定初始数据是敏感数据的情况下，采用探针和字节码增强技术采集敏感数据，并确定接口字段信息，进行脱敏操作，再利用脱敏有效性验证模型内进行脱敏有效性验证，实现对敏感数据脱敏前后的对比，与传输该数据的接口相关联，可快速高效地对敏感数据脱敏结果的程度进行判断，更有效地验证脱敏有效性。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的数据脱敏有效性验证方法的应用场景示意图；

图2为本发明实施例提供的数据脱敏有效性验证方法的流程示意图；

图3为本发明实施例提供的数据脱敏有效性验证方法的子流程示意图；

图4为本发明实施例提供的数据脱敏有效性验证方法的子流程示意图；

图5为本发明实施例提供的数据脱敏有效性验证方法的子流程示意图；

图6为本发明实施例提供的脱敏有效性验证模型的样本集的示意图；

图7为本发明实施例提供的数据脱敏有效性验证装置的示意性框图；

图8为本发明实施例提供的数据脱敏有效性验证装置的判断单元的示意性框图；

图9为本发明实施例提供的数据脱敏有效性验证装置的信息确定单元的示意性框图；

图10为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的数据脱敏有效性验证方法的应用场景示意图。图2为本发明实施例提供的数据脱敏有效性验证方法的示意性流程图。该数据脱敏有效性验证方法应用于服务器中。该服务器与终端进行数据交互，借助数据识别引擎内嵌规则和自定义规则，结合数据采集引擎获取的接口字段进行自动对比，检查和验证敏感数据脱敏有效性，并将结果发送终端显示。

具体地，本方法基于敏感数据的快速识别和脱敏工具的联动使用，为企业在敏感数据保护的处理过程中实现自动化，加快整体运营速度；基于脱敏方法的效果验证，帮助开发和测试部门选择合适的脱敏方案和策略，减少脱敏工作总体消耗成本；基于对敏感数据关联接口的获取，明确数据脱敏的目标和准确，减少敏感数据的泄露风险。

图2是本发明实施例提供的数据脱敏有效性验证方法的流程示意图。如图2所示，该方法包括以下步骤S110至S180。

S110、获取应用服务和数据访问过程中产生的数据，以得到初始数据。

在本实施例中，初始数据是指应用服务和数据访问过程中产生的数据。

首先业务人员通过终端发起业务流程，对业务系统进行操作，业务流程与各业务应用系统相关联；业务运行过程中，存在对应用服务、数据进行访问和产生数据的行为过程；应用服务之间传输数据需要对接口进行调用，对服务发送的请求和响应信息中包含了数据的类型和具体内容；数据自动采集插件被安装至应用服务所在的服务器上，负责进行数据的收集和获取，由此获取应用服务和数据访问过程中产生的数据。

S120、判断所述初始数据是否是敏感数据。

在本实施例中，若初始数据存在敏感数据，则需要进行脱敏操作，脱敏后需要进行有效性验证，确保脱敏有效；若初始数据不存在敏感数据，则直接将采集到的初始数据输出即可。

判断初始数据内是否是敏感数据，主要明确初始数据内是否含有个人隐私数据，当含有个人隐私数据，则初始数据内是敏感数据，反之，则初始数据内不是敏感数据。判断的过程可提取已知的敏感数据样本，进行机器学习训练，随着算法采集样本数据，生成敏感数据特征模型，并且构建出敏感数据特征库；搭配敏感关键字的挖掘和正则表达式的使用，扩充至敏感数据特征库，将采集的初始数据特征与特征库做比对，对业务历史积累的疑似敏感数据进行识别。

在一实施例中，请参阅图3，上述的步骤S120可包括步骤S121~ S126。

S121、将所述初始数据输入至识别模型内进行个人隐私数据识别，以得到识别结果。

在本实施例中，识别结果是指初始数据属于个人隐私数据的具体类型的概率，也就是相似度分值。

将采集到的所有数据传输至识别模型完成计算、识别和标识。在数据传输过程中，为保障数据的完整性，根据对WEB应用系统资源和网络带宽的监控和计算，自动选择异步传输或本地缓存、传输队列的传输控制策略。

在本实施例中，所述识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的。

在一实施例中，上述的识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的，可包括以下步骤：

获取若干个带有个人隐私数据具体类型标签的数据，以得到样本集，且将所述样本集划分为训练集。

在本实施例中，样本集是指若干个带有个人隐私数据具体类型标签的数据构成的集合。

训练集是指由样本集划分出来用于训练模型的数据集。

构建ResNet深度学习网络；

将所述训练集装载到多个GPU节点，以进行梯度求导，得到所有节点的求导结果；

对所有节点的求导结果进行加权平均并更新ResNet深度学习网络的网络参数，同步更新所有GPU节点；

判断所述ResNet深度学习网络是否收敛；

若所述ResNet深度学习网络收敛，则确定所述ResNet深度学习网络为识别模型；

若所述ResNet深度学习网络未收敛，则执行步骤S133。

具体地，采用ResNet深度学习算法，优化改进网络的层数深度，从几十层网络层数向一百层网络层数进行逐步递增，直到算法模型能够有效地从数据中学习并提取到更多的个人隐私类数据特征，数据特征包括数字、字母、汉字等字符类型，以及特定的字符长度、符号、格式等。

通过将自有业务系统中的原始数据，如身份证号码、手机号码、地址、有个人隐私类数据的各种办公文档、各含有个人隐私类数据的图片等，构建成一个样本集，整个样本集规模约10万条。采用基于数据的多GPU并行计算框架进行算法模型训练，将样本集的样本数据随机分成多份训练集，装载到多个GPU节点中去进行梯度求导；然后将所有节点的求导结果进行加权平均并更新网络参数，再同步更新所有GPU节点；最后继续进行下一步的训练，直到模型收敛、训练结束。然后，生成个人隐私类数据的具体类型，包括身份证、手机号码、家庭地址、电子邮箱、车牌号、银行账号、社保号、公积金号码。GPU可前向传输获取预测结果，反向传输获取模型参数的更新值。

S122、将所述初始数据与预设的数据识别策略进行匹配，以得到匹配分值。

在本实施例中，匹配分值是指初始数据与各种数据识别策略匹配后得到的分值。

在一实施例中，上述的步骤S122可包括以下步骤：

定义个人隐私类数据具体类型的正则表达式、字典、关键字识别规则，并对识别规则进行多模式组合，形成多种数据识别策略。

在本实施例中，多种数据识别策略包括关键字与正则表达式规则组合识别策略、正则表达式与字典规则组合识别策略、字典与关键字规则组合识别策略等。

具体地，定义身份证、手机号码、家庭地址、电子邮箱、车牌号、银行账号、社保号、公积金号码等个人隐私类数据具体类型的正则表达式、字典、关键字等识别规则，并对识别规则进行多模式组合，形成多种数据识别策略。

将所述初始数据与预设的数据识别策略进行匹配，以得到匹配分值。

具体地，将初始数据与各种数据识别策略进行依次匹配，得出策略匹配分值。

S123、根据所述匹配分值以及所述识别结果确定数据类别。

在本实施例中，数据类别是指数据属于个人隐私数据中的哪一种具体类型，或者不属于个人隐私数据。

在一实施例中，上述的步骤S123可包括以下步骤：

将所述匹配分值以及所述识别结果进行加权平均，以得到各个具体类型的分值；

筛选出分值最高的具体类型，以得到数据类别。

采用ResNet深度学习算法自动提取该初始数据的长度、字符类型、符号、格式等特征，判别初始数据与个人隐私类数据的具体类型的相似度分值。同时，该初始数据与各种数据识别策略进行依次匹配，得出策略匹配分值。最后采用加权平均的方式，得分最高的类表明该初始数据是否属于个人隐私类数据。

S124、判断所述数据类别是否是个人隐私数据；

S125、若所述数据类别是个人隐私数据，则确定所述初始数据是敏感数据；

S126、若所述数据类别不是个人隐私数据，则确定所述初始数据不是敏感数据。

对应用系统中具有明显特征的结构化数据和非结构化隐私数据进行快速识别、标识和分类分级。通过识别算法对无特征数据进行数据标识和分类分级，以完成相关无特征数据的自动识别。

举个例子：Web应用系统中使用的数据中含有用户身份证号码，当数据自动采集插件采集到数据，并将其传输至识别模型。识别模型通过ResNet深度学习算法，将身份证号码的字符长度、字符类型、固定格式等特征提取出来，然后进行个人隐私类数据的具体类型进行相似判别，得出与身份证、手机号码、家庭地址、电子邮箱、车牌号、银行账号、社保号、公积金号码等个人隐私类数据具体类型的相似度分值。将用户身份证号码与数据识别策略集的每一种识别策略依次进行匹配相似判别，得出与身份证、手机号码、家庭地址、电子邮箱、车牌号、银行账号、社保号、公积金号码等个人隐私类数据具体类型的相似度分值。最后，将所有相似度分值进行加权平均，得分最高的为身份证，即表示该数据被识别为身份证。

利用个人隐私类数据自动采集插件，自动对WEB应用系统全范围的所有数据进行采集，并上传到数据自动识别系统，最终WEB应用系统全范围使用的数据标识信息。更高效，实现自动采集数据并自动识别、标识，无须人工参与；更准确，对WEB应用使用的结构化和非结构化个人隐私类数据有效识别；更全面，覆盖WEB应用及其所属的服务、功能接口等，不会出现错漏。

S130、若所述初始数据不是敏感数据，则输出所述初始数据至终端；

S140、若所述初始数据是敏感数据，则使用探针和字节码增强技术采集敏感数据，并获取应用服务之间的调用关系，以得到数据流经的接口信息。

在本实施例中，数据流经的接口信息是指初始数据流经的接口的ID以及所传输的对应的数据等。

从应用系统中收集系统内接口调用情况和流量数据，与具体接口中字段信息进行关联，以完成对敏感数据关联接口具体传输字段信息的获取和辨识。

S150、根据数据流经的接口信息确定接口字段信息。

在本实施例中，接口字段信息是指流经接口的敏感数据的字段信息。

在一实施例中，请参阅图4，上述的步骤S150可包括步骤S151~S152。

S151、分析数据流经的接口信息，以获取请求的响应内部执行情况。

在本实施例中，请求的响应内部执行情况是指对业务请求响应的数据。

S152、对数据流经的接口信息中涉及的接口信息进行关联，并定位相关联的字段信息，以得到接口字段信息。

具体地，将采集数据发送至数据收集器，整合分析采集数据内容，并获取请求的响应内部执行情况，对敏感数据传输过程中涉及的接口信息进行关联，快速定位相关联的字段信息。

S160、对所述接口字段信息进行脱敏操作，以得到脱敏数据。

在本实施例中，脱敏数据是指对接口字段信息采用脱敏工具进行脱敏处理后得到的结果。

具体地，按照脱敏策略规则对所述接口字段信息进行变形处理，以得到脱敏数据。

脱敏工具以掩码脱敏方法为例，按照已识别的敏感数据属性特征，配置脱敏工具对应的脱敏规则和函数；按照脱敏策略规则对敏感数据进行变形处理工作，包括数据替换、无效化、掩码屏蔽等操作，抹去敏感数据中的敏感内容。例如采用掩码的方法对敏感数据进行处理，如手机号码保留其部分信息，但不改变本身数据长度，对中间四位进行遮掩处理，即无法直接读取内容，又允许信息拥有者能够辨别数据的类型；对数据脱敏处理后进行分发，并将脱敏数据加载至本地或其他数据库。

获取传输数据接口的字段信息，自动实现脱敏前后的结果比对，无需人工手动配置的介入，从脱敏的准确性、关联性、高效性等维度。

S170、将所述脱敏数据输入至脱敏有效性验证模型内进行脱敏有效性验证，以得到验证结果。

在本实施例中，验证结果是指脱敏有效还是无效的结果。

在本实施例中，所述脱敏有效性验证模型是通过若干个已脱敏的敏感数据作为样本集训练朴素贝叶斯NB分类器所得的。

在一实施例中，请参阅图5，上述的脱敏有效性验证模型是通过若干个已脱敏的敏感数据作为样本集训练朴素贝叶斯NB分类器所得的，可包括步骤S171~S175。

S171、获取若干个已脱敏的敏感数据，以得到样本集；

S172、将所述样本集进行划分，以得到训练集以及测试集；

S173、构建朴素贝叶斯NB分类器；

S174、利用训练集对朴素贝叶斯NB分类器进行训练，并计算损失值；

S175、当损失值趋于不变时，利用测试集对训练后的朴素贝叶斯NB分类器进行测试，并将测试后的朴素贝叶斯NB分类器作为脱敏有效性验证模型。

当损失值不趋于不变时，则表明训练后的朴素贝叶斯NB分类器未收敛，用未收敛的训练后的朴素贝叶斯NB分类器来作为脱敏有效性验证模型，会导致验证结果不准确，因此，需要调整朴素贝叶斯NB分类器的参数，进行下一次训练，直至训练后的朴素贝叶斯NB分类器收敛。

首先要对应用脱敏方法后的数据进行采样，选取部分数据作为样本数据，即样本集，将样本集整合汇总为Initial-Dataset数据集，采用的数据集为M×N矩阵，列代表数据的特征，行代表数据样本。数据集的列同时包含X和Y的值，不同X的值代表多个数据的特征，为X1、X2、X3...Xn，Y代表对应的预期输出结果。例如X1是脱敏前数据的特征值分数，X2为是否应用了脱敏方法，X3为脱敏后的数据脱敏特征值分数，本验证方法输出结果Y为脱敏是否有效。采用的样本集如图6所示，将样本集进行数据分割，分割为两个部分，较大的数据子集用作训练集占样本集的80%，较小的子集用作测试集占样本集的20%。利用训练集训练和调整算法本身，根据算法在测试集上的表现来选择最佳进行优化；本脱敏有效性验证模型基于朴素贝叶斯NB分类器基础上，先计算每个类别条件划分的频率，然后以某一组脱敏数据的特征值与朴素贝叶斯NB分类器得出的特征值进行对比，能够得知数据中敏感数据和脱敏成功数据的划分类别，若特征值低于算法设定得出的敏感数据特征分数，代表脱敏后的数据中仍然包含敏感数据特征，则得出脱敏无效的结论。

实际运用中，将脱敏数据导入至脱敏有效性验证模型中，使用朴素贝叶斯NB分类器检验是否脱敏数据中依然包含敏感数据，例如设定算法判别预测的分数为0.7，脱敏有效性验证模型结果得出脱敏数据特征分数大于0.7，则代表脱敏为有效；反之小于分数0.7，则代表脱敏数据中仍然包含敏感数据，脱敏不规范或者脱敏方法未生效。结合脱敏的规则和函数方法，形成数据脱敏有效性结论，从而验证脱敏支持技术和效果是否有效和规范。

构建脱敏有效性验证机器学习算法，对敏感数据脱敏前后的数据条数、内容进行比对，以实现对敏感数据的敏感性去除程度，原有数据关联性保留等脱敏有效性程度的验证。对敏感数据的脱敏行为结果进行综合评判验证，敏感数据的使用方和管理方在数据敏感性去除的情况下，不影响业务逻辑特征，保证业务的延续性。

S180、输出所述验证结果至终端。

数据识别引擎和有效性验证算法能够实现对敏感数据的自动识别发现和智能化有效性比对，无需人工手动进行配置，可靠性高；有效地关联敏感数据流经接口，并获取字段信息，关联性强；脱敏有效性验证模型既满足企业和机构对敏感数据的保护，又能验证数据脱敏的规范性和效果，防止未经脱敏情况下的数据流出，使得整个方法具备规范性。

上述的数据脱敏有效性验证方法，通过获取应用服务和数据访问过程中产生的数据，结合识别模型以及数据识别策略在确定初始数据是敏感数据的情况下，采用探针和字节码增强技术采集敏感数据，并确定接口字段信息，进行脱敏操作，再利用脱敏有效性验证模型内进行脱敏有效性验证，实现对敏感数据脱敏前后的对比，与传输该数据的接口相关联，可快速高效地对敏感数据脱敏结果的程度进行判断，更有效地验证脱敏有效性。

图7是本发明实施例提供的一种数据脱敏有效性验证装置300的示意性框图。如图7所示，对应于以上数据脱敏有效性验证方法，本发明还提供一种数据脱敏有效性验证装置300。该数据脱敏有效性验证装置300包括用于执行上述数据脱敏有效性验证方法的单元，该装置可以被配置于服务器中。具体地，请参阅图7，该数据脱敏有效性验证装置300包括数据获取单元301、判断单元302、信息获取单元303、信息确定单元304、脱敏单元305、验证单元306以及输出单元307。

数据获取单元301，用于获取应用服务和数据访问过程中产生的数据，以得到初始数据；判断单元302，用于判断所述初始数据是否是敏感数据；信息获取单元303，用于若所述初始数据是敏感数据，则使用探针和字节码增强技术采集敏感数据，并获取应用服务之间的调用关系，以得到数据流经的接口信息；信息确定单元304，用于根据数据流经的接口信息确定接口字段信息；脱敏单元305，用于对所述接口字段信息进行脱敏操作，以得到脱敏数据；验证单元306，用于将所述脱敏数据输入至脱敏有效性验证模型内进行脱敏有效性验证，以得到验证结果；输出单元307，用于输出所述验证结果至终端。

在一实施例中，如图8所示，所述判断单元302包括模型识别子单元3021、匹配子单元3022、加权平均子单元3023以及类别判断子单元3024。

模型识别子单元3021，用于将所述初始数据输入至识别模型内进行个人隐私数据识别，以得到识别结果；匹配子单元3022，用于将所述初始数据与预设的数据识别策略进行匹配，以得到匹配分值；加权平均子单元3023，用于根据所述匹配分值以及所述识别结果确定数据类别；类别判断子单元3024，用于判断所述数据类别是否是个人隐私数据；若所述数据类别是个人隐私数据，则确定所述初始数据是敏感数据；若所述数据类别不是个人隐私数据，则确定所述初始数据不是敏感数据。

其中，所述识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的。

在一实施例中，如图9所示，所述信息确定单元304包括分析子单元3041以及定位子单元3042。

分析子单元3041，用于分析数据流经的接口信息，以获取请求的响应内部执行情况；定位子单元3042，用于对数据流经的接口信息中涉及的接口信息进行关联，并定位相关联的字段信息，以得到接口字段信息。

在一实施例中，所述脱敏单元305，用于按照脱敏策略规则对所述接口字段信息进行变形处理，以得到脱敏数据。

在一实施例中，所述数据脱敏有效性验证装置300还包括验证模型生成单元，

验证模型生成单元，用于通过若干个已脱敏的敏感数据作为样本集训练朴素贝叶斯NB分类器，以得到脱敏有效性验证模型。

在一实施例中，所述验证模型生成单元包括样本集构建子单元、划分子单元、分类器构建子单元、训练子单元以及测试子单元。

样本集构建子单元，用于获取若干个已脱敏的敏感数据，以得到样本集；划分子单元，用于将所述样本集进行划分，以得到训练集以及测试集；分类器构建子单元，用于构建朴素贝叶斯NB分类器；训练子单元，用于利用训练集对朴素贝叶斯NB分类器进行训练，并计算损失值；测试子单元，用于当损失值趋于不变时，利用测试集对训练后的朴素贝叶斯NB分类器进行测试，并将测试后的朴素贝叶斯NB分类器作为脱敏有效性验证模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述数据脱敏有效性验证装置300和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述数据脱敏有效性验证装置300可以实现为一种计算机程序的形式，该计算机程序可以在如图10所示的计算机设备上运行。

请参阅图10，图10是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图10，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种数据脱敏有效性验证方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种数据脱敏有效性验证方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

获取应用服务和数据访问过程中产生的数据，以得到初始数据；判断所述初始数据是否是敏感数据；若所述初始数据是敏感数据，则使用探针和字节码增强技术采集敏感数据，并获取应用服务之间的调用关系，以得到数据流经的接口信息；根据数据流经的接口信息确定接口字段信息；对所述接口字段信息进行脱敏操作，以得到脱敏数据；将所述脱敏数据输入至脱敏有效性验证模型内进行脱敏有效性验证，以得到验证结果；输出所述验证结果至终端。

其中，所述脱敏有效性验证模型是通过若干个已脱敏的敏感数据作为样本集训练朴素贝叶斯NB分类器所得的。

在一实施例中，处理器502在实现所述判断所述初始数据是否是敏感数据步骤时，具体实现如下步骤：

将所述初始数据输入至识别模型内进行个人隐私数据识别，以得到识别结果；将所述初始数据与预设的数据识别策略进行匹配，以得到匹配分值；根据所述匹配分值以及所述识别结果确定数据类别；判断所述数据类别是否是个人隐私数据；若所述数据类别是个人隐私数据，则确定所述初始数据是敏感数据；若所述数据类别不是个人隐私数据，则确定所述初始数据不是敏感数据。

在一实施例中，处理器502在实现所述根据数据流经的接口信息确定接口字段信息步骤时，具体实现如下步骤：

分析数据流经的接口信息，以获取请求的响应内部执行情况；对数据流经的接口信息中涉及的接口信息进行关联，并定位相关联的字段信息，以得到接口字段信息。

在一实施例中，处理器502在实现所述对所述接口字段信息进行脱敏操作，以得到脱敏数据步骤时，具体实现如下步骤：

在一实施例中，处理器502在实现所述脱敏有效性验证模型是通过若干个已脱敏的敏感数据作为样本集训练朴素贝叶斯NB分类器所得的步骤时，具体实现如下步骤：

获取若干个已脱敏的敏感数据，以得到样本集；将所述样本集进行划分，以得到训练集以及测试集；构建朴素贝叶斯NB分类器；利用训练集对朴素贝叶斯NB分类器进行训练，并计算损失值；当损失值趋于不变时，利用测试集对训练后的朴素贝叶斯NB分类器进行测试，并将测试后的朴素贝叶斯NB分类器作为脱敏有效性验证模型。

应当理解，在本申请实施例中，处理器502可以是中央处理单元 (CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路 (Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述判断所述初始数据是否是敏感数据步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据数据流经的接口信息确定接口字段信息步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述接口字段信息进行脱敏操作，以得到脱敏数据步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述脱敏有效性验证模型是通过若干个已脱敏的敏感数据作为样本集训练朴素贝叶斯NB分类器所得的步骤时，具体实现如下步骤：

所述存储介质可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，终端，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.数据脱敏有效性验证方法，其特征在于，包括：

判断所述初始数据是否是敏感数据；

根据数据流经的接口信息确定接口字段信息；

对所述接口字段信息进行脱敏操作，以得到脱敏数据；

输出所述验证结果至终端；

所述判断所述初始数据是否是敏感数据，包括：

将所述初始数据与预设的数据识别策略进行匹配，以得到匹配分值；定义个人隐私类数据具体类型的正则表达式、字典、关键字识别规则，并对识别规则进行多模式组合，形成多种数据识别策略；多种数据识别策略包括关键字与正则表达式规则组合识别策略、正则表达式与字典规则组合识别策略、字典与关键字规则组合识别策略；定义身份证、手机号码、家庭地址、电子邮箱、车牌号、银行账号、社保号、公积金号码个人隐私类数据具体类型的正则表达式、字典、关键字识别规则，并对识别规则进行多模式组合，形成多种数据识别策略；

根据所述匹配分值以及所述识别结果确定数据类别；采用ResNet深度学习算法自动提取该初始数据的长度、字符类型、符号、格式特征，判别初始数据与个人隐私类数据的具体类型的相似度分值；该初始数据与各种数据识别策略进行依次匹配，得出策略匹配分值；最后采用加权平均的方式，得分最高的类表明该初始数据是否属于个人隐私类数据；

判断所述数据类别是否是个人隐私数据；

若所述数据类别不是个人隐私数据，则确定所述初始数据不是敏感数据；

所述识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的；

识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的，包括以下步骤：

获取若干个带有个人隐私数据具体类型标签的数据，以得到样本集，且将所述样本集划分为训练集；

构建ResNet深度学习网络；

判断所述ResNet深度学习网络是否收敛；

若所述ResNet深度学习网络未收敛，则执行所述将所述训练集装载到多个GPU节点，以进行梯度求导，得到所有节点的求导结果。

2.根据权利要求1所述的数据脱敏有效性验证方法，其特征在于，所述根据数据流经的接口信息确定接口字段信息，包括：

3.根据权利要求1所述的数据脱敏有效性验证方法，其特征在于，所述对所述接口字段信息进行脱敏操作，以得到脱敏数据，包括：

4.根据权利要求1所述的数据脱敏有效性验证方法，其特征在于，所述脱敏有效性验证模型是通过若干个已脱敏的敏感数据作为样本集训练朴素贝叶斯NB分类器所得的。

5.根据权利要求4所述的数据脱敏有效性验证方法，其特征在于，所述脱敏有效性验证模型是通过若干个已脱敏的敏感数据作为样本集训练朴素贝叶斯NB分类器所得的，包括：

获取若干个已脱敏的敏感数据，以得到样本集；

将所述样本集进行划分，以得到训练集以及测试集；

构建朴素贝叶斯NB分类器；

6.数据脱敏有效性验证装置，其特征在于，包括：

判断单元，用于判断所述初始数据是否是敏感数据；

输出单元，用于输出所述验证结果至终端；

判断单元包括模型识别子单元、匹配子单元、加权平均子单元以及类别判断子单元；

模型识别子单元，用于将所述初始数据输入至识别模型内进行个人隐私数据识别，以得到识别结果；匹配子单元，用于将所述初始数据与预设的数据识别策略进行匹配，以得到匹配分值；定义个人隐私类数据具体类型的正则表达式、字典、关键字识别规则，并对识别规则进行多模式组合，形成多种数据识别策略；多种数据识别策略包括关键字与正则表达式规则组合识别策略、正则表达式与字典规则组合识别策略、字典与关键字规则组合识别策略；定义身份证、手机号码、家庭地址、电子邮箱、车牌号、银行账号、社保号、公积金号码个人隐私类数据具体类型的正则表达式、字典、关键字识别规则，并对识别规则进行多模式组合，形成多种数据识别策略；加权平均子单元，用于根据所述匹配分值以及所述识别结果确定数据类别；采用ResNet深度学习算法自动提取该初始数据的长度、字符类型、符号、格式特征，判别初始数据与个人隐私类数据的具体类型的相似度分值；该初始数据与各种数据识别策略进行依次匹配，得出策略匹配分值；最后采用加权平均的方式，得分最高的类表明该初始数据是否属于个人隐私类数据；类别判断子单元，用于判断所述数据类别是否是个人隐私数据；若所述数据类别是个人隐私数据，则确定所述初始数据是敏感数据；若所述数据类别不是个人隐私数据，则确定所述初始数据不是敏感数据；

其中，所述识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的；包括：获取若干个带有个人隐私数据具体类型标签的数据，以得到样本集，且将所述样本集划分为训练集；构建ResNet深度学习网络；将所述训练集装载到多个GPU节点，以进行梯度求导，得到所有节点的求导结果；对所有节点的求导结果进行加权平均并更新ResNet深度学习网络的网络参数，同步更新所有GPU节点；判断所述ResNet深度学习网络是否收敛；若所述ResNet深度学习网络收敛，则确定所述ResNet深度学习网络为识别模型；若所述ResNet深度学习网络未收敛，则执行所述将所述训练集装载到多个GPU节点，以进行梯度求导，得到所有节点的求导结果。

7.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。

8.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的方法。