CN114218391A

CN114218391A - 一种基于深度学习技术的敏感信息识别方法

Info

Publication number: CN114218391A
Application number: CN202111637526.7A
Authority: CN
Inventors: 张黎; 程树华; 陈广辉; 刘维炜; 杨大志
Original assignee: Flash It Co ltd
Current assignee: Flash It Co ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-03-22
Anticipated expiration: 2041-12-30

Abstract

本发明提供一种基于深度学习技术的敏感信息识别方法，涉及数据识别技术领域，包括以下步骤：获取训练数据集；分别对图像数据、全中文数据集和非全中文数据集训练得到第一、第二和第三分类模型；接受待预测的数据；分别根据待预测的数据的类型输入至第一、第二和第三分类模型，得到标签；获取所有标签，对结构化数据，则统计每个字段下实例标签最多的类别作为该字段的类别；对非结构化数据，则将中文分词字符的类别进行敏感信息统计。本发明合理有效，可以通过对原始数据进行特征工程，将数据集输入到对应的分类模型进行训练，得到不同的分类模型，根据待识别的敏感数据类型得到分类标签，对不同类型的数据进行识别，识别准确率高，保护性好。

Description

一种基于深度学习技术的敏感信息识别方法

技术领域

本发明涉及数据识别技术领域，

尤其是，本发明涉及一种基于深度学习技术的敏感信息识别方法。

背景技术

数据是信息系统中最为核心的资产，随着信息技术的飞速发展，人类生产生活中产生的各类数据呈指数级增长，这些数据具有重要价值，对数据的识别也越来越重要。

尤其是数据的安全已成为企业和国家的重点关注方向。在这个信息化时代，数据资产已经成为各个企业非常重要的资产之一，但近些年，有很多企业因为数据泄漏而损失惨重，因此数据安全越来越重要。要保护数据安全，首先要了解哪些数据最应该被保护，因为在大数据时代，数据量庞大，我们不能什么数据都保护起来，要挑选其中比较敏感的数据进行保护，但是企业往往不清楚自己有哪些敏感数据，因此我们需要对敏感数据进行识别和分类，便于企业对敏感数据进行有效的防护，并且识别出敏感信息后，还可以帮助企业对数据资产进行分级分类，满足行业合规需求，所以对于敏感信息的数据识别具有很大的意义。

例如中国专利发明专利CN111241133A公开了一种敏感数据识别方法、装置、设备及计算机存储介质。敏感数据识别方法，包括：获取用于定位待识别的目标数据的特征参数和用于在目标数据中识别敏感数据的正则表达式；根据特征参数，获取包含目标数据的目标对象；根据正则表达式逐行识别目标对象内的目标数据，以确定目标对象内是否包含敏感数据。采用上述发明的方法，能够快速、准确地识别大量数据中的敏感数据。

但是上述敏感数据识别方法具有以下缺点：敏感数据的类型很多，有图像数据、全中文数据集以及非全中文数据集，不同的类型的数据的特征参数也相差巨大，采用上述敏感数据识别方法无法对各种敏感数据进行全面的识别，无法获取敏感数据的精准预测，识别得到分类标签的准确率低，难以很好的对敏感的数据进行保护。

因此为了解决上述问题，设计一种合理的基于深度学习技术的敏感信息识别方法对我们来说是很有必要的。

发明内容

本发明的目的在于提供一种合理有效，可以通过对原始数据进行特征工程，将全中文数据集、非全中文数据集和图像数据集输入到对应的分类模型进行训练，得到不同的分类模型，并根据待识别的敏感数据的类型输入至指定分类模型，得到分类标签，从而达到对不同的类型的数据进行全面的识别，识别的准确率高，可以很好的对敏感信息进行保护的基于深度学习技术的敏感信息识别方法。

为达到上述目的，本发明采用如下技术方案得以实现的：

一种基于深度学习技术的敏感信息识别方法，包括以下步骤：

S1：获取训练数据集；

S2：判断训练数据集是否为图像数据，若是则使用深度学习模型进行训练，得到第一分类模型，并执行步骤S4；反之则执行步骤S3；

S3：判断训练数据集是否为全中文数据集，若是则使用深度学习模型进行训练，得到第二分类模型，并执行步骤S4；反之则使用机器学习模型进行训练，得到第三分类模型，并执行步骤S4；

S4：接收待预测的数据；

S5：判断待预测的数据是否为图像数据，若是，则将待预测的数据输入至第一分类模型，将分类结果作为图像的标签；反之则执行步骤S6；

S6：判断待预测的数据是否为结构化数据；若是则将每个字段的实例进行提取，执行步骤S7；反之则提取非结构化字符，进行中文分词，执行步骤S7；

S7：判断获取的字段实例或者中文分词是否为全中文数据；若是则将字段实例或者中文分词输入至第二分类模型，得到所有字段实例或者中文分词的标签；反之则将字段实例或者中文分词输入至第三分类模型，得到所有字段实例或者中文分词的标签；

S8：获取所有标签，若待预测的数据为图像数据，将每一张图像的分类结果作为该图像的标签，并判断其是否为敏感图像信息；若待预测的数据为结构化数据，则统计每个字段下实例标签最多的类别作为该字段的类别，并判断其是否为敏感字段信息；若待预测的数据为非结构化数据，则将中文分词字符的类别进行敏感信息统计，并判断其是否为敏感字符信息。

作为本发明的优选，执行步骤S4之前，对分类模型进行测试和调优。

作为本发明的优选，执行步骤S1时，训练数据集包括至少一种敏感信息实例及其对应的标签，敏感信息包括姓名、职业、工作单位、家庭住址、身份证、驾驶证、护照以及毕业证书。

作为本发明的优选，执行步骤S2时，对图像数据的训练步骤具体包括：

S21：对图像进行增广；

S22：将图像变换到同样的大小，并进行归一化处理；

S23：将处理好的图像输入到resnet模型进行训练，得到第一分类模型。

作为本发明的优选，执行步骤S21时，图像增广的方法包括随机改变亮暗和对比度、随机填充、随机裁剪、随机翻转以及随机打乱真实框排列顺序。

作为本发明的优选，执行步骤S3时，对全中文数据集的训练步骤具体包括：

S311：将数据集处理成字段内容和标签两列；

S312：根据字符编码字典，将字段内容转换为向量，并把标签进行独热编码；

S313：将处理好的数据送到bert模型中进行训练，得到第二分类模型。

作为本发明的优选，执行步骤S312时，根据提前设置的字符与数字对应字典，逐一把字段内容转换为数字。

作为本发明的优选，执行步骤S3时，对非全中文数据集的训练步骤具体包括：

S321：提取非中文数据集的自定义特征；

S322：对特征进行预处理处理，包括归一化、分箱等；

S323：将处理好的数据输入到随机森林中进行训练，得到第三分类模型。

作为本发明的优选，执行步骤S321时，自定义特征为能体现相应敏感信息的特征，特征包括是否包含大写字母、是否包含特殊字符以及字段的长度。

作为本发明的优选，执行步骤S6时，中文分词为对数据中的文本内容采用Jieba分词，剔除无用的停用词。

本发明一种基于深度学习技术的敏感信息识别方法有益效果在于：

1、合理有效，可以通过对原始数据进行特征工程，包括自定义特征提取、图像增广、将字段内容转换成向量等，将全中文数据集、非全中文数据集和图像数据集输入到对应的分类模型进行训练，得到不同的分类模型；

2、并根据待识别的敏感数据的类型输入至指定分类模型，得到分类标签，从而达到对不同的类型的数据进行全面的识别；

3、若待预测的数据为结构化数据，则统计每个字段下实例标签最多的类别作为该字段的类别；若待预测的数据为非结构化数据，则将中文分词字符的类别进行敏感信息统计，识别的准确率高，可以很好的对敏感信息进行保护。

附图说明

图1为本发明一种基于深度学习技术的敏感信息识别方法的流程示意图。

具体实施方式

以下是本发明的具体实施例，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的模块和结构的相对布置不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法及系统可能不作详细讨论，但在适当情况下，技术、方法及系统应当被视为授权说明书的一部分。

实施例：如图1所示，仅仅为本发明的其中一个的实施例，一种基于深度学习技术的敏感信息识别方法，包括以下步骤：

S1：获取训练数据集；

就是获取用于训练模型的典型数据集，数据集包括图像数据和文字数据，文字数据又包括全中文数据集和非全中文数据集。

训练数据集包括至少一种敏感信息实例及其对应的标签，文字数据的敏感信息包括姓名、职业、工作单位、家庭住址、身份证号、驾驶证号、护照号以及毕业证书号等等；图像数据的敏感信息包括人物照片、文字照片、身份证照片、驾驶证照片、护照照片以及毕业证书照片等等。

执行步骤S2时，对图像数据的训练步骤具体包括：

S21：对图像进行增广；

S22：将图像变换到同样的大小，并进行归一化处理；

并且，执行步骤S21时，图像增广的方法包括随机改变亮暗和对比度、随机填充、随机裁剪、随机翻转以及随机打乱真实框排列顺序。在这里，图像增广是为了扩大训练集，抑制过拟合。

对于图像数据源，构件图像、label文件夹，分为train、val、test数据集，然后训练第一分类模型。且需要注意的是，图像分类模型并不局限于resnet模型。

第一分类模型为resnet模型，是一个用于做图像分类的神经网络模型，输入是待预测的图像数据，输出是敏感数据类型。即在第一分类模型中，输入以上格式的图像数据，输出结果包括：敏感人脸图像、非敏感人脸图像、敏感山水图像、非敏感山水图像、敏感文字图像、非敏感文字图像、其他敏感图像以及其他非敏感图像。

对于文字数据集的数据源，要构建content、label的两列数据格式，分为train、val和test数据集，判断其中的content是否为全中文，若是则训练第二分类模型，反之则训练第三分类模型。

对全中文数据集的训练步骤具体包括：

S311：将数据集处理成字段内容和标签两列；

执行步骤S311时，提取数据集中每个字段的具体内容，并为其打上对应的类型标签。

并且，执行步骤S312时，根据提前设置的字符与数字对应字典，逐一把字段内容转换为数字，其中字符[unused1]表示空格，[UNK]表示不在字典中的字符，同样需要注意的是，全中文字符分类模型并不局限于bert模型。

第二分类模型为bert模型，是一个用于做文本分类的神经网络模型，在这里，输入是待预测的全中文文本数据，输出是敏感数据类型，即在第二分类模型中，输入以上格式的全中文数据，输出结果包括：敏感文字数据、非敏感文字数据、敏感数字数据、非敏感数字数据、其他敏感数据以及其他非敏感数据。

对非全中文数据集的训练步骤具体包括：

S321：提取非中文数据集的自定义特征；

S322：对特征进行预处理处理，包括归一化、分箱等；

在执行步骤S321时，自定义特征为能体现相应敏感信息的特征，特征包括是否包含大写字母、是否包含特殊字符以及字段的长度，可以自由设置任何有检测敏感信息的能力的特征均可以，同样的，非全中文字符分类模型并不局限于随机森林模型。

执行S322时，需要对特征进行归一化和分箱处理，归一化是指将原始数据映射到[0，1]范围内，计算公式为：

分箱是指将原始数据分到若干个区间中，能够使连续变量离散化，通常包括等宽分箱和等频分箱，等宽分箱中各分箱的数据范围是相等的，等频分箱中各分箱的数据量是相等的。

一般来说，第三分类模型为随机森林模型，是一个用于做分类的机器学习模型，在这里，输入是待预测的非全中文文本数据，输出是敏感数据类型，即在第三分类模型中，输入以上格式的非全中文数据，输出结果包括：敏感字符数据、非敏感字符数据、敏感符号数据、非敏感符号数据、其他敏感字符串数据以及其他非敏感字符串数据。

步骤S1、S2和S3将模型训练完毕，一般是多次执行步骤S1、S2和S3，获得多次训练数据集，保证训练的模型的准确度，最后还要在执行步骤S4进行数据识别之前，对分类模型进行测试、评估和调优。

S4：接收待预测的数据；

执行步骤S4，就是开始根据已经训练好的第一、第二和第三分类模型，对待预测的数据进行预测，也就是进行识别。

并且，待预测的数据包括结构化数据表、图像数据和doc、txt、pdf等非结构化文档。

也就是说，如果待预测的数据为图像数据，那么将待预测的数据输入至第一分类模型resnet模型中进行预测，将分类结果作为每张图片的标签。反之，则待预测的数据不是图像数据，而是文字数据。

在这里，中文分词为对数据中的文本内容采用Jieba分词，剔除无用的停用词。

在业务场景中，敏感信息识别是最终目的，但是实际业务下数据类型可能是图像、结构数据和非结构数据，所以我们需要先借助图像识别、结构数据识别和非结构数据识别技术，再进行敏感信息识别。

总之，若是待预测的数据为图像数据，则将每张图片的分类结果作为该张图片的标签，单独判断该张图片是否为敏感图片信息；若是待预测的数据为结构化数据，则统计每个字段下实例标签最多的类别作为该字段的类别，单独判断该字段是否为敏感字段信息；若待预测的数据为doc、txt、pdf等非结构化数据，则将其中的敏感数据进行统计，也就是将中文分词字符的类别进行敏感信息统计，单独判断该分词字符是否为敏感分词字符信息。

也就是，将获取的数据进行类别分类，再对分类的数据中每一个单位数据进行标签判断，判断该单位数据是否是敏感数据，对敏感数据进行预测并保护。

本发明一种基于深度学习技术的敏感信息识别方法合理有效，可以通过对原始数据进行特征工程，将全中文数据集、非全中文数据集和图像数据集输入到对应的分类模型进行训练，得到不同的分类模型，并根据待识别的敏感数据的类型输入至指定分类模型，得到分类标签，从而达到对不同的类型的数据进行全面的识别，识别的准确率高，可以很好的对敏感信息进行保护。

本发明不局限于上述具体的实施方式，本发明可以有各种更改和变化。凡是依据本发明的技术实质对以上实施方式所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围。

Claims

1.一种基于深度学习技术的敏感信息识别方法，其特征在于，包括以下步骤：

S1：获取训练数据集；

S4：接收待预测的数据；

2.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：

执行步骤S4之前，对分类模型进行测试和调优。

3.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：

执行步骤S1时，训练数据集包括至少一种敏感信息实例及其对应的标签，敏感信息包括姓名、职业、工作单位、家庭住址、身份证、驾驶证、护照以及毕业证书。

4.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：

执行步骤S2时，对图像数据的训练步骤具体包括：

S21：对图像进行增广；

S22：将图像变换到同样的大小，并进行归一化处理；

5.根据权利要求4所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：

执行步骤S21时，图像增广的方法包括随机改变亮暗和对比度、随机填充、随机裁剪、随机翻转以及随机打乱真实框排列顺序。

6.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：

执行步骤S3时，对全中文数据集的训练步骤具体包括：

S311：将数据集处理成字段内容和标签两列；

7.根据权利要求6所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：

执行步骤S312时，根据提前设置的字符与数字对应字典，逐一把字段内容转换为数字。

8.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：

执行步骤S3时，对非全中文数据集的训练步骤具体包括：

S321：提取非中文数据集的自定义特征；

S322：对特征进行预处理处理，包括归一化、分箱等；

9.根据权利要求8所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：

执行步骤S321时，自定义特征为能体现相应敏感信息的特征，特征包括是否包含大写字母、是否包含特殊字符以及字段的长度。

10.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法，其特征在于：

执行步骤S6时，中文分词为对数据中的文本内容采用Jieba分词，剔除无用的停用词。