CN112507376A

CN112507376A - 一种基于机器学习的敏感数据检测方法及装置

Info

Publication number: CN112507376A
Application number: CN202011386506.2A
Authority: CN
Inventors: 臧铖; 陈嘉俊; 屠轲; 占可非
Original assignee: China Zheshang Bank Co Ltd
Current assignee: China Zheshang Bank Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-03-16
Anticipated expiration: 2040-12-01
Also published as: CN112507376B

Abstract

本发明公开了一种基于机器学习的敏感数据检测方法及装置。当数据从生产环境同步到开发测试环境时，必须对敏感字段进行脱敏。本发明根据机器学习原理，将数据表字段敏感性识别问题转化为文本分类问题，应用NLP技术进行训练模型识别敏感字段。本方法与常规检测手段相结合，并且通过自学算法不断提升识别效果，能够降低敏感字段遗漏至外部环境的风险，减少人工干预，提高工作效率。

Description

一种基于机器学习的敏感数据检测方法及装置

技术领域

本发明属于计算机系统领域，尤其涉及一种基于机器学习的敏感数据检测方法及装置。

背景技术

银行业是一个数据安全要求十分严格的领域，所有数据导出时必须先对敏感字段进行脱敏处理。

敏感字段一般通过开发人员提交的脚本进行脱敏。但是面对庞大的数据表和字段数量，开发人员可能无法覆盖所有敏感字段。一种传统的检测方法是通过正则表达式进行匹配。正则表达式是一种基于规则的匹配技术，受限于具体规则。例如，对于手机号、卡号等规则性比较强的字段识别能力较强。对于规则性不强的内容，比如工作单位、家庭地址识别能力较弱。取数岗位在取数时往往涉及大量的表，每个表又涉及几十甚至上百字段。因此容易造成检出不够完整。如果人工进行观察又会导致取数流程效率非常低下。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于机器学习的敏感数据检测方法及装置，增强数据导出时的敏感数据检测能力。

本发明一方面提供了一种基于机器学习的敏感数据检测方法，该方法包括模型训练阶段和实时检测阶段；

所述模型训练阶段包括：

准备敏感字段集合SET₁和非敏感字段集合SET₂，设置SET₁的字段标签分别为1、2、3......p，p为SET₁中的字段种类，SET₂的字段标签均为0；将SET₁与SET₂均匀混合后，生成训练集和测试集；

通过Transformer模型对输入的文本进行特征提取；

使用多层隐藏层神经网络进行分类，最后一层进行全连接和softmax输出；

利用训练集对模型进行训练，生成分类模型model；

所述实时检测阶段包括：

从数据库表取n条真实未脱敏的记录存储在Record[1:k][1:n]中，其中k表示有k个字段，假设Record中第i个字段存储在fileds[n]中，判断第i个字段是否为敏感字段的步骤如下：

步骤1，当前已经匹配数Match初始化为零；

步骤2，遍历fields[n]中从1到n个值，先通过正则表达式尝试匹配，如果匹配成功，则判断当前字段是敏感字段；

步骤3，如果正则表达式没有匹配成功，尝试通过模型匹配，模型返回匹配成功的概率值proba，当proba大于阈值t1时，Match计数加1；

步骤4，重复步骤2到步骤4，直到n个值都匹配完毕；

步骤5，当前字段是敏感字段的概率result＝Match/n；

步骤6，如果result大于阈值t2，则判断当前字段为敏感字段，否则当前字段为非敏感字段。

进一步地，在Transformer模型特征提取过程中，以及模型训练过程中，使用GPU加速运算。

进一步地，分类模型通过自学习过程不断提高识别精度，具体为：由人工对识别结果进行评判，对识别的样本设置正确的标签，并且将样本和标签入库；启动模型训练过程，对样本库重新进行训练，并且评估模型准确度；更新模型服务。

本发明另一方面提供了一种基于机器学习的敏感数据检测装置，该装置包括模型训练单元和检测单元；

所述模型训练单元用于对文本类型字段生成分类模型，包括：准备敏感字段集合SET₁和非敏感字段集合SET₂，设置SET₁的字段标签分别为1、2、3......p，p为SET₁中的字段种类，SET₂的字段标签均为0；将SET₁与SET₂均匀混合后，生成训练集；通过Transformer模型对输入的文本进行特征提取；使用多层隐藏层神经网络进行分类，最后一层进行全连接和softmax输出；利用训练集对模型进行训练，生成分类模型model；

所述检测单元包括存储模块、正则匹配模块和模型匹配模块；

所述存储模块：将从数据库表抽取的n条真实未脱敏的记录存储在Record[1:k][1:n]中，其中k表示有k个字段，Record中第i个字段存储在fileds[n]中；

所述正则匹配模块：遍历fields[n]中从1到n个值，通过正则表达式尝试匹配，如果匹配成功则判断当前字段是敏感字段，否则执行模型匹配模块；

所述模型匹配模块：获取模型返回匹配成功的概率值proba，当proba大于阈值t1时，匹配数Match计数加1，直到fields[n]中n个值都匹配完毕，计算当前字段是敏感字段的概率result＝Match/n，如果result大于阈值t2，则判断当前字段为敏感字段，否则为非敏感字段。

进一步地，该装置还包括模型自学习单元：由人工对识别结果进行评判，对识别的样本设置正确的标签，并且将样本和标签入库；启动模型训练过程，对样本库重新进行训练，并且评估模型准确度；更新模型服务。

本发明的有益效果是：为了增强检测能力，本发明根据机器学习原理，将数据表字段敏感性识别问题转化为文本分类问题，应用NLP技术进行训练模型识别敏感字段。应用于数据导出时，能够自动化遍历数据表中的字段值，当检出是敏感字段时，可以给出提示或者执行脱敏操作。不仅能够提高工作效率，还能够降低敏感字段遗漏至外部环境的风险，能够进一步提升取数流程的自动化。本发明将正则表达式和机器学习方式结合，提高了整体检测能力，并且模型通过自学习过程可以不断提高识别精度。

附图说明

图1是本发明实施例提供的神经网络分类模型的结构图；

图2是本发明实施例提供的分类模型构建及训练流程图；

图3是本发明实施例提供的正则匹配和模型匹配联合检测流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明，应当理解，此处描述的具体实施方式仅用以解释本发明，并不用于限定本发明。

本发明实施例提供一种基于机器学习实现的在生产环境导出数据检测敏感数据的方法。具体实施时由安全管理部门解释和定义敏感字段范畴，本方法内举例的具体字段需根据实际场景设定。该方法包括以下步骤：

1.在银行业务中，数据库表的字段总体上可以分为纯数字和文本两种类型。纯数字的类型比如金额、身份证号、手机号等内容；文本类型比如姓名、住址等内容。正则表达式适合匹配规律性较强的类型，比如手机号和电子邮箱。此类字段类型用模型匹配反而效果差。而对于某些文本类型，规则性并不明显，就适合通过机器学习方式自动学习特征，实现匹配目的。本发明将正则表达式和机器学习方式结合，提高整体检测能力。并且模型通过自学习过程可以不断提高识别精度。模型训练的过程如下：

(1)准备集合SET₁＝{Filed₁、Field₂…Field_p}，该集合为敏感字段集合；准备集合SET₂＝{Filed₁、Field₂…Field_q}，该集合为非敏感集合。每种Field代表一种字段分类，比如姓名、地址等。上述集合中各种分类准备m条样本(建议m>＝2万)，样本集一共(p+q)*m条。设置SET₁集合标签分别为1、2、3......p，SET₂的字段标签都为0。将SET₁与SET₂均匀混合后，取r％数据生成训练集，剩余数据生成测试集。

在一个实施例中，SET₁＝{姓名、公司地址、家庭住址}，SET₂＝{公司名称、英文名、机构名称}，上述集合中各种分类准备2万条样本，设置SET₁集合标签分别为1、2、3，SET₂的字段标签都为0。将SET₁与SET₂均匀混合后，取70％数据用于训练，剩余30％数据用于测试。

(2)通过Transformer模型对输入的文本(包括词语或者句子)进行特征提取。Transformer一般形成以768维特征向量的表现形式。Transformer是一个开源的序列模型，通过加载开源的BERT算法参数完成初始化；使用Transformer提取文本特征不需要分词，长句短语均适用。本过程建议使用GPU加速运算。

(3)由于得到的特征不具备文本特性，已经是向量了，所以不需要用CNN、RNN等工具进行特征提取，因此在本算法中直接使用多层隐藏层的神经网络(DNN)进行分类，层数不易控制太多，一般在2-3层即可。最后一层进行全连接和softmax输出(当前分类是0、1、2、3......p共p+1类)。神经网络结构参考附图1，图中以p＝3，分4类为例，且使用两层隐藏层的神经网络，其中两层隐层的神经元数量分别为392、196。

(4)使用之前训练集进行训练，在测试集上进行精度验证。

在本实施例中，使用之前70％的数据进行训练，使用30％的数据评估精确率和召回率精度。由于只有两层神经网络，该模型的参数较少，运算较快。训练过程建议使用GPU加速运算。

通过上述2-4步骤，生成了分类模型model，具体流程参考图2。

2.将正则表达式检测与模型检测方法进行整合，完整的检测流程如下：

假设有数据结构：从某张数据库表取n条真实未脱敏的记录(比如n＝100)，记录存储在Record[1:k][1:n]中，其中k表示有k个字段。假设Record中第i个(1<＝i<＝k)字段存储在fileds[n]中，判断第i个字段是否为敏感字段的步骤如下：

步骤1，当前已经匹配数Match初始化为零；

步骤2，遍历fields[n]中从1到n个值，先通过正则表达式尝试匹配，如果匹配成功，则判断当前字段是敏感字段，终止后面流程；

步骤3，如果正则没有匹配成功，尝试通过模型匹配，模型返回匹配成功的概率值proba，当proba大于定义阈值t1时，Match计数加1；

步骤4，重复步骤2到步骤4，直到n个值都匹配完毕；

步骤5，当前字段是敏感字段的概率result＝Match/n；

步骤6，如果result大于定义阈值t2，则判断当前字段为敏感字段，否则当前字段为非敏感字段。

阈值t1和t2根据实际情况进行调整，本实施例中，t1取0.7，t2取0.5。

因此，当需要判断某个字段是否是敏感字段时，先取该字段n条非空记录，再执行上述流程即可。具体流程参考图3。

3.模型自学习过程，包括以下步骤：

步骤1，由人工对识别结果进行评判(标记纠正)，特别针对概率值处于中间区域的样本，对识别的样本设置正确的标签，并且将样本和标签入库；

步骤2，启动模型训练过程，对样本库重新进行训练，并且评估模型准确度；

步骤3，更新模型服务。

在一个实施例中，本发明还提供了一种基于机器学习的敏感数据检测装置，该装置包括模型训练单元和检测单元；

该装置还可以包括模型自学习单元：由人工对识别结果进行评判，对识别的样本设置正确的标签，并且将样本和标签入库；启动模型训练过程，对样本库重新进行训练，并且评估模型准确度；更新模型服务。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于机器学习的敏感数据检测方法，其特征在于，该方法包括模型训练阶段和实时检测阶段；

所述模型训练阶段包括：

通过Transformer模型对输入的文本进行特征提取；

利用训练集对模型进行训练，生成分类模型model；

所述实时检测阶段包括：

步骤1，当前已经匹配数Match初始化为零；

步骤4，重复步骤2到步骤4，直到n个值都匹配完毕；

步骤5，当前字段是敏感字段的概率result＝Match/n；

2.根据权利要求1所述的一种基于机器学习的敏感数据检测方法，其特征在于，敏感字段由安全管理部门解释和定义，根据实际场景设定。

3.根据权利要求1所述的一种基于机器学习的敏感数据检测方法，其特征在于，在Transformer模型特征提取过程中，以及模型训练过程中，使用GPU加速运算。

4.根据权利要求1所述的一种基于机器学习的敏感数据检测方法，其特征在于，分类模型通过自学习过程不断提高识别精度，具体为：由人工对识别结果进行评判，对识别的样本设置正确的标签，并且将样本和标签入库；启动模型训练过程，对样本库重新进行训练，并且评估模型准确度；更新模型服务。

5.一种基于机器学习的敏感数据检测装置，其特征在于，包括模型训练单元和检测单元；

6.根据权利要求5所述的一种基于机器学习的敏感数据检测装置，其特征在于，还包括模型自学习单元：由人工对识别结果进行评判，对识别的样本设置正确的标签，并且将样本和标签入库；启动模型训练过程，对样本库重新进行训练，并且评估模型准确度；更新模型服务。