CN114218391B - 一种基于深度学习技术的敏感信息识别方法 - Google Patents
一种基于深度学习技术的敏感信息识别方法 Download PDFInfo
- Publication number
- CN114218391B CN114218391B CN202111637526.7A CN202111637526A CN114218391B CN 114218391 B CN114218391 B CN 114218391B CN 202111637526 A CN202111637526 A CN 202111637526A CN 114218391 B CN114218391 B CN 114218391B
- Authority
- CN
- China
- Prior art keywords
- data
- training
- classification model
- image
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000005516 engineering process Methods 0.000 title claims abstract description 19
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 238000013145 classification model Methods 0.000 claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 49
- 230000011218 segmentation Effects 0.000 claims abstract description 32
- 238000010606 normalization Methods 0.000 claims description 7
- 238000013136 deep learning model Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000003416 augmentation Effects 0.000 claims description 5
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Bioethics (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种基于深度学习技术的敏感信息识别方法,涉及数据识别技术领域,包括以下步骤:获取训练数据集;分别对图像数据、全中文数据集和非全中文数据集训练得到第一、第二和第三分类模型;接受待预测的数据;分别根据待预测的数据的类型输入至第一、第二和第三分类模型,得到标签;获取所有标签,对结构化数据,则统计每个字段下实例标签最多的类别作为该字段的类别;对非结构化数据,则将中文分词字符的类别进行敏感信息统计。本发明合理有效,可以通过对原始数据进行特征工程,将数据集输入到对应的分类模型进行训练,得到不同的分类模型,根据待识别的敏感数据类型得到分类标签,对不同类型的数据进行识别,识别准确率高,保护性好。
Description
技术领域
本发明涉及数据识别技术领域,
尤其是,本发明涉及一种基于深度学习技术的敏感信息识别方法。
背景技术
数据是信息系统中最为核心的资产,随着信息技术的飞速发展,人类生产生活中产生的各类数据呈指数级增长,这些数据具有重要价值,对数据的识别也越来越重要。
尤其是数据的安全已成为企业和国家的重点关注方向。在这个信息化时代,数据资产已经成为各个企业非常重要的资产之一,但近些年,有很多企业因为数据泄漏而损失惨重,因此数据安全越来越重要。要保护数据安全,首先要了解哪些数据最应该被保护,因为在大数据时代,数据量庞大,我们不能什么数据都保护起来,要挑选其中比较敏感的数据进行保护,但是企业往往不清楚自己有哪些敏感数据,因此我们需要对敏感数据进行识别和分类,便于企业对敏感数据进行有效的防护,并且识别出敏感信息后,还可以帮助企业对数据资产进行分级分类,满足行业合规需求,所以对于敏感信息的数据识别具有很大的意义。
例如中国专利发明专利CN111241133A公开了一种敏感数据识别方法、装置、设备及计算机存储介质。敏感数据识别方法,包括:获取用于定位待识别的目标数据的特征参数和用于在目标数据中识别敏感数据的正则表达式;根据特征参数,获取包含目标数据的目标对象;根据正则表达式逐行识别目标对象内的目标数据,以确定目标对象内是否包含敏感数据。采用上述发明的方法,能够快速、准确地识别大量数据中的敏感数据。
但是上述敏感数据识别方法具有以下缺点:敏感数据的类型很多,有图像数据、全中文数据集以及非全中文数据集,不同的类型的数据的特征参数也相差巨大,采用上述敏感数据识别方法无法对各种敏感数据进行全面的识别,无法获取敏感数据的精准预测,识别得到分类标签的准确率低,难以很好的对敏感的数据进行保护。
因此为了解决上述问题,设计一种合理的基于深度学习技术的敏感信息识别方法对我们来说是很有必要的。
发明内容
本发明的目的在于提供一种合理有效,可以通过对原始数据进行特征工程,将全中文数据集、非全中文数据集和图像数据集输入到对应的分类模型进行训练,得到不同的分类模型,并根据待识别的敏感数据的类型输入至指定分类模型,得到分类标签,从而达到对不同的类型的数据进行全面的识别,识别的准确率高,可以很好的对敏感信息进行保护的基于深度学习技术的敏感信息识别方法。
为达到上述目的,本发明采用如下技术方案得以实现的:
一种基于深度学习技术的敏感信息识别方法,包括以下步骤:
S1:获取训练数据集;
S2:判断训练数据集是否为图像数据,若是则使用深度学习模型进行训练,得到第一分类模型,并执行步骤S4;反之则执行步骤S3;
S3:判断训练数据集是否为全中文数据集,若是则使用深度学习模型进行训练,得到第二分类模型,并执行步骤S4;反之则使用机器学习模型进行训练,得到第三分类模型,并执行步骤S4;
S4:接收待预测的数据;
S5:判断待预测的数据是否为图像数据,若是,则将待预测的数据输入至第一分类模型,将分类结果作为图像的标签;反之则执行步骤S6;
S6:判断待预测的数据是否为结构化数据;若是则将每个字段的实例进行提取,执行步骤S7;反之则提取非结构化字符,进行中文分词,执行步骤S7;
S7:判断获取的字段实例或者中文分词是否为全中文数据;若是则将字段实例或者中文分词输入至第二分类模型,得到所有字段实例或者中文分词的标签;反之则将字段实例或者中文分词输入至第三分类模型,得到所有字段实例或者中文分词的标签;
S8:获取所有标签,若待预测的数据为图像数据,将每一张图像的分类结果作为该图像的标签,并判断其是否为敏感图像信息;若待预测的数据为结构化数据,则统计每个字段下实例标签最多的类别作为该字段的类别,并判断其是否为敏感字段信息;若待预测的数据为非结构化数据,则将中文分词字符的类别进行敏感信息统计,并判断其是否为敏感字符信息。
作为本发明的优选,执行步骤S4之前,对分类模型进行测试和调优。
作为本发明的优选,执行步骤S1时,训练数据集包括至少一种敏感信息实例及其对应的标签,敏感信息包括姓名、职业、工作单位、家庭住址、身份证、驾驶证、护照以及毕业证书。
作为本发明的优选,执行步骤S2时,对图像数据的训练步骤具体包括:
S21:对图像进行增广;
S22:将图像变换到同样的大小,并进行归一化处理;
S23:将处理好的图像输入到resnet模型进行训练,得到第一分类模型。
作为本发明的优选,执行步骤S21时,图像增广的方法包括随机改变亮暗和对比度、随机填充、随机裁剪、随机翻转以及随机打乱真实框排列顺序。
作为本发明的优选,执行步骤S3时,对全中文数据集的训练步骤具体包括:
S311:将数据集处理成字段内容和标签两列;
S312:根据字符编码字典,将字段内容转换为向量,并把标签进行独热编码;
S313:将处理好的数据送到bert模型中进行训练,得到第二分类模型。
作为本发明的优选,执行步骤S312时,根据提前设置的字符与数字对应字典,逐一把字段内容转换为数字。
作为本发明的优选,执行步骤S3时,对非全中文数据集的训练步骤具体包括:
S321:提取非中文数据集的自定义特征;
S322:对特征进行预处理处理,包括归一化、分箱等;
S323:将处理好的数据输入到随机森林中进行训练,得到第三分类模型。
作为本发明的优选,执行步骤S321时,自定义特征为能体现相应敏感信息的特征,特征包括是否包含大写字母、是否包含特殊字符以及字段的长度。
作为本发明的优选,执行步骤S6时,中文分词为对数据中的文本内容采用Jieba分词,剔除无用的停用词。
本发明一种基于深度学习技术的敏感信息识别方法有益效果在于:
1、合理有效,可以通过对原始数据进行特征工程,包括自定义特征提取、图像增广、将字段内容转换成向量等,将全中文数据集、非全中文数据集和图像数据集输入到对应的分类模型进行训练,得到不同的分类模型;
2、并根据待识别的敏感数据的类型输入至指定分类模型,得到分类标签,从而达到对不同的类型的数据进行全面的识别;
3、若待预测的数据为结构化数据,则统计每个字段下实例标签最多的类别作为该字段的类别;若待预测的数据为非结构化数据,则将中文分词字符的类别进行敏感信息统计,识别的准确率高,可以很好的对敏感信息进行保护。
附图说明
图1为本发明一种基于深度学习技术的敏感信息识别方法的流程示意图。
具体实施方式
以下是本发明的具体实施例,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的模块和结构的相对布置不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法及系统可能不作详细讨论,但在适当情况下,技术、方法及系统应当被视为授权说明书的一部分。
实施例:如图1所示,仅仅为本发明的其中一个的实施例,一种基于深度学习技术的敏感信息识别方法,包括以下步骤:
S1:获取训练数据集;
就是获取用于训练模型的典型数据集,数据集包括图像数据和文字数据,文字数据又包括全中文数据集和非全中文数据集。
训练数据集包括至少一种敏感信息实例及其对应的标签,文字数据的敏感信息包括姓名、职业、工作单位、家庭住址、身份证号、驾驶证号、护照号以及毕业证书号等等;图像数据的敏感信息包括人物照片、文字照片、身份证照片、驾驶证照片、护照照片以及毕业证书照片等等。
S2:判断训练数据集是否为图像数据,若是则使用深度学习模型进行训练,得到第一分类模型,并执行步骤S4;反之则执行步骤S3;
执行步骤S2时,对图像数据的训练步骤具体包括:
S21:对图像进行增广;
S22:将图像变换到同样的大小,并进行归一化处理;
S23:将处理好的图像输入到resnet模型进行训练,得到第一分类模型。
并且,执行步骤S21时,图像增广的方法包括随机改变亮暗和对比度、随机填充、随机裁剪、随机翻转以及随机打乱真实框排列顺序。在这里,图像增广是为了扩大训练集,抑制过拟合。
对于图像数据源,构件图像、label文件夹,分为train、val、test数据集,然后训练第一分类模型。且需要注意的是,图像分类模型并不局限于resnet模型。
第一分类模型为resnet模型,是一个用于做图像分类的神经网络模型,输入是待预测的图像数据,输出是敏感数据类型。即在第一分类模型中,输入以上格式的图像数据,输出结果包括:敏感人脸图像、非敏感人脸图像、敏感山水图像、非敏感山水图像、敏感文字图像、非敏感文字图像、其他敏感图像以及其他非敏感图像。
S3:判断训练数据集是否为全中文数据集,若是则使用深度学习模型进行训练,得到第二分类模型,并执行步骤S4;反之则使用机器学习模型进行训练,得到第三分类模型,并执行步骤S4;
对于文字数据集的数据源,要构建content、label的两列数据格式,分为train、val和test数据集,判断其中的content是否为全中文,若是则训练第二分类模型,反之则训练第三分类模型。
对全中文数据集的训练步骤具体包括:
S311:将数据集处理成字段内容和标签两列;
S312:根据字符编码字典,将字段内容转换为向量,并把标签进行独热编码;
S313:将处理好的数据送到bert模型中进行训练,得到第二分类模型。
执行步骤S311时,提取数据集中每个字段的具体内容,并为其打上对应的类型标签。
并且,执行步骤S312时,根据提前设置的字符与数字对应字典,逐一把字段内容转换为数字,其中字符[unused1]表示空格,[UNK]表示不在字典中的字符,同样需要注意的是,全中文字符分类模型并不局限于bert模型。
第二分类模型为bert模型,是一个用于做文本分类的神经网络模型,在这里,输入是待预测的全中文文本数据,输出是敏感数据类型,即在第二分类模型中,输入以上格式的全中文数据,输出结果包括:敏感文字数据、非敏感文字数据、敏感数字数据、非敏感数字数据、其他敏感数据以及其他非敏感数据。
对非全中文数据集的训练步骤具体包括:
S321:提取非中文数据集的自定义特征;
S322:对特征进行预处理处理,包括归一化、分箱等;
S323:将处理好的数据输入到随机森林中进行训练,得到第三分类模型。
在执行步骤S321时,自定义特征为能体现相应敏感信息的特征,特征包括是否包含大写字母、是否包含特殊字符以及字段的长度,可以自由设置任何有检测敏感信息的能力的特征均可以,同样的,非全中文字符分类模型并不局限于随机森林模型。
执行S322时,需要对特征进行归一化和分箱处理,归一化是指将原始数据映射到[0,1]范围内,计算公式为:
分箱是指将原始数据分到若干个区间中,能够使连续变量离散化,通常包括等宽分箱和等频分箱,等宽分箱中各分箱的数据范围是相等的,等频分箱中各分箱的数据量是相等的。
一般来说,第三分类模型为随机森林模型,是一个用于做分类的机器学习模型,在这里,输入是待预测的非全中文文本数据,输出是敏感数据类型,即在第三分类模型中,输入以上格式的非全中文数据,输出结果包括:敏感字符数据、非敏感字符数据、敏感符号数据、非敏感符号数据、其他敏感字符串数据以及其他非敏感字符串数据。
步骤S1、S2和S3将模型训练完毕,一般是多次执行步骤S1、S2和S3,获得多次训练数据集,保证训练的模型的准确度,最后还要在执行步骤S4进行数据识别之前,对分类模型进行测试、评估和调优。
S4:接收待预测的数据;
执行步骤S4,就是开始根据已经训练好的第一、第二和第三分类模型,对待预测的数据进行预测,也就是进行识别。
并且,待预测的数据包括结构化数据表、图像数据和doc、txt、pdf等非结构化文档。
S5:判断待预测的数据是否为图像数据,若是,则将待预测的数据输入至第一分类模型,将分类结果作为图像的标签;反之则执行步骤S6;
也就是说,如果待预测的数据为图像数据,那么将待预测的数据输入至第一分类模型resnet模型中进行预测,将分类结果作为每张图片的标签。反之,则待预测的数据不是图像数据,而是文字数据。
S6:判断待预测的数据是否为结构化数据;若是则将每个字段的实例进行提取,执行步骤S7;反之则提取非结构化字符,进行中文分词,执行步骤S7;
在这里,中文分词为对数据中的文本内容采用Jieba分词,剔除无用的停用词。
S7:判断获取的字段实例或者中文分词是否为全中文数据;若是则将字段实例或者中文分词输入至第二分类模型,得到所有字段实例或者中文分词的标签;反之则将字段实例或者中文分词输入至第三分类模型,得到所有字段实例或者中文分词的标签;
S8:获取所有标签,若待预测的数据为图像数据,将每一张图像的分类结果作为该图像的标签,并判断其是否为敏感图像信息;若待预测的数据为结构化数据,则统计每个字段下实例标签最多的类别作为该字段的类别,并判断其是否为敏感字段信息;若待预测的数据为非结构化数据,则将中文分词字符的类别进行敏感信息统计,并判断其是否为敏感字符信息。
在业务场景中,敏感信息识别是最终目的,但是实际业务下数据类型可能是图像、结构数据和非结构数据,所以我们需要先借助图像识别、结构数据识别和非结构数据识别技术,再进行敏感信息识别。
总之,若是待预测的数据为图像数据,则将每张图片的分类结果作为该张图片的标签,单独判断该张图片是否为敏感图片信息;若是待预测的数据为结构化数据,则统计每个字段下实例标签最多的类别作为该字段的类别,单独判断该字段是否为敏感字段信息;若待预测的数据为doc、txt、pdf等非结构化数据,则将其中的敏感数据进行统计,也就是将中文分词字符的类别进行敏感信息统计,单独判断该分词字符是否为敏感分词字符信息。
也就是,将获取的数据进行类别分类,再对分类的数据中每一个单位数据进行标签判断,判断该单位数据是否是敏感数据,对敏感数据进行预测并保护。
本发明一种基于深度学习技术的敏感信息识别方法合理有效,可以通过对原始数据进行特征工程,将全中文数据集、非全中文数据集和图像数据集输入到对应的分类模型进行训练,得到不同的分类模型,并根据待识别的敏感数据的类型输入至指定分类模型,得到分类标签,从而达到对不同的类型的数据进行全面的识别,识别的准确率高,可以很好的对敏感信息进行保护。
本发明不局限于上述具体的实施方式,本发明可以有各种更改和变化。凡是依据本发明的技术实质对以上实施方式所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围。
Claims (7)
1.一种基于深度学习技术的敏感信息识别方法,其特征在于,包括以下步骤:
S1:获取训练数据集;
S2:判断训练数据集是否为图像数据,若是则使用深度学习模型进行训练,得到第一分类模型,并执行步骤S4;反之则执行步骤S3;
S3:判断训练数据集是否为全中文数据集,若是则使用深度学习模型进行训练,得到第二分类模型,并执行步骤S4;反之则使用机器学习模型进行训练,得到第三分类模型,并执行步骤S4;
S4:接收待预测的数据;
S5:判断待预测的数据是否为图像数据,若是,则将待预测的数据输入至第一分类模型,将分类结果作为图像的标签;反之则执行步骤S6;
S6:判断待预测的数据是否为结构化数据;若是则将每个字段的实例进行提取,执行步骤S7;反之则提取非结构化字符,进行中文分词,执行步骤S7;
S7:判断获取的字段实例或者中文分词是否为全中文数据;若是则将字段实例或者中文分词输入至第二分类模型,得到所有字段实例或者中文分词的标签;反之则将字段实例或者中文分词输入至第三分类模型,得到所有字段实例或者中文分词的标签;
S8:获取所有标签,若待预测的数据为图像数据,将每一张图像的分类结果作为该图像的标签,并判断其是否为敏感图像信息;若待预测的数据为结构化数据,则统计每个字段下实例标签最多的类别作为该字段的类别,并判断其是否为敏感字段信息;若待预测的数据为非结构化数据,则将中文分词字符的类别进行敏感信息统计,并判断其是否为敏感字符信息;
执行步骤S2时,对图像数据的训练步骤具体包括:
S21:对图像进行增广;
S22:将图像变换到同样的大小,并进行归一化处理;
S23:将处理好的图像输入到resnet模型进行训练,得到第一分类模型;
执行步骤S3时,对全中文数据集的训练步骤具体包括:
S311:将数据集处理成字段内容和标签两列;
S312:根据字符编码字典,将字段内容转换为向量,并把标签进行独热编码;
S313:将处理好的数据送到bert模型中进行训练,得到第二分类模型;
执行步骤S3时,对非全中文数据集的训练步骤具体包括:
S321:提取非中文数据集的自定义特征;
S322:对特征进行预处理,包括归一化和分箱;
S323:将处理好的数据输入到随机森林中进行训练,得到第三分类模型。
2.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法,其特征在于:
执行步骤S4之前,对分类模型进行测试和调优。
3.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法,其特征在于:
执行步骤S1时,训练数据集包括至少一种敏感信息实例及其对应的标签,敏感信息包括姓名、职业、工作单位、家庭住址、身份证、驾驶证、护照以及毕业证书。
4.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法,其特征在于:
执行步骤S21时,图像增广的方法包括随机改变亮暗和对比度、随机填充、随机裁剪、随机翻转以及随机打乱真实框排列顺序。
5.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法,其特征在于:
执行步骤S312时,根据提前设置的字符与数字对应字典,逐一把字段内容转换为数字。
6.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法,其特征在于:
执行步骤S321时,自定义特征为能体现相应敏感信息的特征,特征包括是否包含大写字母、是否包含特殊字符以及字段的长度。
7.根据权利要求1所述的一种基于深度学习技术的敏感信息识别方法,其特征在于:
执行步骤S6时,中文分词为对数据中的文本内容采用Jieba分词,剔除无用的停用词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111637526.7A CN114218391B (zh) | 2021-12-30 | 2021-12-30 | 一种基于深度学习技术的敏感信息识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111637526.7A CN114218391B (zh) | 2021-12-30 | 2021-12-30 | 一种基于深度学习技术的敏感信息识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114218391A CN114218391A (zh) | 2022-03-22 |
CN114218391B true CN114218391B (zh) | 2024-06-28 |
Family
ID=80706704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111637526.7A Active CN114218391B (zh) | 2021-12-30 | 2021-12-30 | 一种基于深度学习技术的敏感信息识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114218391B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115659407A (zh) * | 2022-12-15 | 2023-01-31 | 北京市大数据中心 | 数据资产处理方法、设备、介质 |
CN116090006B (zh) * | 2023-02-01 | 2023-09-08 | 北京三维天地科技股份有限公司 | 一种基于深度学习的敏感识别方法及系统 |
CN116467731A (zh) * | 2023-06-19 | 2023-07-21 | 北京好心情互联网医院有限公司 | 敏感信息处理方法、装置、设备及存储介质 |
CN116680704B (zh) * | 2023-07-28 | 2024-01-09 | 深圳迅销科技股份有限公司 | 一种用于客户端的数据安全防护方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191275A (zh) * | 2019-11-28 | 2020-05-22 | 深圳云安宝科技有限公司 | 敏感数据识别方法、系统及其装置 |
CN111339995A (zh) * | 2020-03-16 | 2020-06-26 | 合肥闪捷信息科技有限公司 | 一种基于神经网络的敏感图像识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111522951A (zh) * | 2020-04-26 | 2020-08-11 | 成都思维世纪科技有限责任公司 | 一种基于图像识别的敏感数据识别与分类的技术方法 |
CN112052675A (zh) * | 2020-08-21 | 2020-12-08 | 北京邮电大学 | 一种非结构化文本的敏感信息检测方法及检测装置 |
-
2021
- 2021-12-30 CN CN202111637526.7A patent/CN114218391B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191275A (zh) * | 2019-11-28 | 2020-05-22 | 深圳云安宝科技有限公司 | 敏感数据识别方法、系统及其装置 |
CN111339995A (zh) * | 2020-03-16 | 2020-06-26 | 合肥闪捷信息科技有限公司 | 一种基于神经网络的敏感图像识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114218391A (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114218391B (zh) | 一种基于深度学习技术的敏感信息识别方法 | |
Oliveira et al. | Fast CNN-based document layout analysis | |
CN111680490B (zh) | 一种跨模态的文档处理方法、装置及电子设备 | |
US20160092730A1 (en) | Content-based document image classification | |
CN116629275B (zh) | 一种基于大数据的智能决策支持系统及方法 | |
CN108959566B (zh) | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 | |
Shen et al. | A joint model for multimodal document quality assessment | |
CN111866004A (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN113837151A (zh) | 表格图像处理方法、装置、计算机设备及可读存储介质 | |
CN114372532A (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
CN113868419A (zh) | 基于人工智能的文本分类方法、装置、设备及介质 | |
Vafaie et al. | Handwritten and printed text identification in historical archival documents | |
CN118211941B (zh) | 基于rpa的社区工单自动流转方法及系统 | |
CN115237859A (zh) | 需求文档质量检测方法、装置、设备及存储介质 | |
CN111523301B (zh) | 合同文档合规性检查方法及装置 | |
Augusto Borges Oliveira et al. | Fast CNN-based document layout analysis | |
CN117709317A (zh) | 报表文件的处理方法、装置及电子设备 | |
Chakraborty et al. | Handwritten Character Recognition from Image Using CNN | |
Deshpande et al. | Summarization of graph using question answer approach | |
CN116384344A (zh) | 一种文档转换方法、装置及存储介质 | |
Karim et al. | Classification of Google Play Store Application Reviews Using Machine Learning | |
Shahin et al. | Deploying Optical Character Recognition to Improve Material Handling and Processing | |
CN111046934B (zh) | 一种swift报文软条款识别方法及装置 | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN113947510A (zh) | 一种基于文件格式自适应的不动产电子证照管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |