CN112507376A - 一种基于机器学习的敏感数据检测方法及装置 - Google Patents
一种基于机器学习的敏感数据检测方法及装置 Download PDFInfo
- Publication number
- CN112507376A CN112507376A CN202011386506.2A CN202011386506A CN112507376A CN 112507376 A CN112507376 A CN 112507376A CN 202011386506 A CN202011386506 A CN 202011386506A CN 112507376 A CN112507376 A CN 112507376A
- Authority
- CN
- China
- Prior art keywords
- model
- field
- sensitive
- fields
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 32
- 238000010801 machine learning Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims description 41
- 230000014509 gene expression Effects 0.000 claims description 14
- 238000013145 classification model Methods 0.000 claims description 13
- 241000677647 Proba Species 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000002156 mixing Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 6
- 238000002360 preparation method Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000011897 real-time detection Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000004519 manufacturing process Methods 0.000 abstract description 2
- 238000011981 development test Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 abstract 1
- 230000001360 synchronised effect Effects 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 2
- LZHSWRWIMQRTOP-UHFFFAOYSA-N N-(furan-2-ylmethyl)-3-[4-[methyl(propyl)amino]-6-(trifluoromethyl)pyrimidin-2-yl]sulfanylpropanamide Chemical compound CCCN(C)C1=NC(=NC(=C1)C(F)(F)F)SCCC(=O)NCC2=CC=CO2 LZHSWRWIMQRTOP-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于机器学习的敏感数据检测方法及装置。当数据从生产环境同步到开发测试环境时,必须对敏感字段进行脱敏。本发明根据机器学习原理,将数据表字段敏感性识别问题转化为文本分类问题,应用NLP技术进行训练模型识别敏感字段。本方法与常规检测手段相结合,并且通过自学算法不断提升识别效果,能够降低敏感字段遗漏至外部环境的风险,减少人工干预,提高工作效率。
Description
技术领域
本发明属于计算机系统领域,尤其涉及一种基于机器学习的敏感数据检测方法及装置。
背景技术
银行业是一个数据安全要求十分严格的领域,所有数据导出时必须先对敏感字段进行脱敏处理。
敏感字段一般通过开发人员提交的脚本进行脱敏。但是面对庞大的数据表和字段数量,开发人员可能无法覆盖所有敏感字段。一种传统的检测方法是通过正则表达式进行匹配。正则表达式是一种基于规则的匹配技术,受限于具体规则。例如,对于手机号、卡号等规则性比较强的字段识别能力较强。对于规则性不强的内容,比如工作单位、家庭地址识别能力较弱。取数岗位在取数时往往涉及大量的表,每个表又涉及几十甚至上百字段。因此容易造成检出不够完整。如果人工进行观察又会导致取数流程效率非常低下。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于机器学习的敏感数据检测方法及装置,增强数据导出时的敏感数据检测能力。
本发明一方面提供了一种基于机器学习的敏感数据检测方法,该方法包括模型训练阶段和实时检测阶段;
所述模型训练阶段包括:
准备敏感字段集合SET1和非敏感字段集合SET2,设置SET1的字段标签分别为1、2、3......p,p为SET1中的字段种类,SET2的字段标签均为0;将SET1与SET2均匀混合后,生成训练集和测试集;
通过Transformer模型对输入的文本进行特征提取;
使用多层隐藏层神经网络进行分类,最后一层进行全连接和softmax输出;
利用训练集对模型进行训练,生成分类模型model;
所述实时检测阶段包括:
从数据库表取n条真实未脱敏的记录存储在Record[1:k][1:n]中,其中k表示有k个字段,假设Record中第i个字段存储在fileds[n]中,判断第i个字段是否为敏感字段的步骤如下:
步骤1,当前已经匹配数Match初始化为零;
步骤2,遍历fields[n]中从1到n个值,先通过正则表达式尝试匹配,如果匹配成功,则判断当前字段是敏感字段;
步骤3,如果正则表达式没有匹配成功,尝试通过模型匹配,模型返回匹配成功的概率值proba,当proba大于阈值t1时,Match计数加1;
步骤4,重复步骤2到步骤4,直到n个值都匹配完毕;
步骤5,当前字段是敏感字段的概率result=Match/n;
步骤6,如果result大于阈值t2,则判断当前字段为敏感字段,否则当前字段为非敏感字段。
进一步地,在Transformer模型特征提取过程中,以及模型训练过程中,使用GPU加速运算。
进一步地,分类模型通过自学习过程不断提高识别精度,具体为:由人工对识别结果进行评判,对识别的样本设置正确的标签,并且将样本和标签入库;启动模型训练过程,对样本库重新进行训练,并且评估模型准确度;更新模型服务。
本发明另一方面提供了一种基于机器学习的敏感数据检测装置,该装置包括模型训练单元和检测单元;
所述模型训练单元用于对文本类型字段生成分类模型,包括:准备敏感字段集合SET1和非敏感字段集合SET2,设置SET1的字段标签分别为1、2、3......p,p为SET1中的字段种类,SET2的字段标签均为0;将SET1与SET2均匀混合后,生成训练集;通过Transformer模型对输入的文本进行特征提取;使用多层隐藏层神经网络进行分类,最后一层进行全连接和softmax输出;利用训练集对模型进行训练,生成分类模型model;
所述检测单元包括存储模块、正则匹配模块和模型匹配模块;
所述存储模块:将从数据库表抽取的n条真实未脱敏的记录存储在Record[1:k][1:n]中,其中k表示有k个字段,Record中第i个字段存储在fileds[n]中;
所述正则匹配模块:遍历fields[n]中从1到n个值,通过正则表达式尝试匹配,如果匹配成功则判断当前字段是敏感字段,否则执行模型匹配模块;
所述模型匹配模块:获取模型返回匹配成功的概率值proba,当proba大于阈值t1时,匹配数Match计数加1,直到fields[n]中n个值都匹配完毕,计算当前字段是敏感字段的概率result=Match/n,如果result大于阈值t2,则判断当前字段为敏感字段,否则为非敏感字段。
进一步地,该装置还包括模型自学习单元:由人工对识别结果进行评判,对识别的样本设置正确的标签,并且将样本和标签入库;启动模型训练过程,对样本库重新进行训练,并且评估模型准确度;更新模型服务。
本发明的有益效果是:为了增强检测能力,本发明根据机器学习原理,将数据表字段敏感性识别问题转化为文本分类问题,应用NLP技术进行训练模型识别敏感字段。应用于数据导出时,能够自动化遍历数据表中的字段值,当检出是敏感字段时,可以给出提示或者执行脱敏操作。不仅能够提高工作效率,还能够降低敏感字段遗漏至外部环境的风险,能够进一步提升取数流程的自动化。本发明将正则表达式和机器学习方式结合,提高了整体检测能力,并且模型通过自学习过程可以不断提高识别精度。
附图说明
图1是本发明实施例提供的神经网络分类模型的结构图;
图2是本发明实施例提供的分类模型构建及训练流程图;
图3是本发明实施例提供的正则匹配和模型匹配联合检测流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明,应当理解,此处描述的具体实施方式仅用以解释本发明,并不用于限定本发明。
本发明实施例提供一种基于机器学习实现的在生产环境导出数据检测敏感数据的方法。具体实施时由安全管理部门解释和定义敏感字段范畴,本方法内举例的具体字段需根据实际场景设定。该方法包括以下步骤:
1.在银行业务中,数据库表的字段总体上可以分为纯数字和文本两种类型。纯数字的类型比如金额、身份证号、手机号等内容;文本类型比如姓名、住址等内容。正则表达式适合匹配规律性较强的类型,比如手机号和电子邮箱。此类字段类型用模型匹配反而效果差。而对于某些文本类型,规则性并不明显,就适合通过机器学习方式自动学习特征,实现匹配目的。本发明将正则表达式和机器学习方式结合,提高整体检测能力。并且模型通过自学习过程可以不断提高识别精度。模型训练的过程如下:
(1)准备集合SET1={Filed1、Field2…Fieldp},该集合为敏感字段集合;准备集合SET2={Filed1、Field2…Fieldq},该集合为非敏感集合。每种Field代表一种字段分类,比如姓名、地址等。上述集合中各种分类准备m条样本(建议m>=2万),样本集一共(p+q)*m条。设置SET1集合标签分别为1、2、3......p,SET2的字段标签都为0。将SET1与SET2均匀混合后,取r%数据生成训练集,剩余数据生成测试集。
在一个实施例中,SET1={姓名、公司地址、家庭住址},SET2={公司名称、英文名、机构名称},上述集合中各种分类准备2万条样本,设置SET1集合标签分别为1、2、3,SET2的字段标签都为0。将SET1与SET2均匀混合后,取70%数据用于训练,剩余30%数据用于测试。
(2)通过Transformer模型对输入的文本(包括词语或者句子)进行特征提取。Transformer一般形成以768维特征向量的表现形式。Transformer是一个开源的序列模型,通过加载开源的BERT算法参数完成初始化;使用Transformer提取文本特征不需要分词,长句短语均适用。本过程建议使用GPU加速运算。
(3)由于得到的特征不具备文本特性,已经是向量了,所以不需要用CNN、RNN等工具进行特征提取,因此在本算法中直接使用多层隐藏层的神经网络(DNN)进行分类,层数不易控制太多,一般在2-3层即可。最后一层进行全连接和softmax输出(当前分类是0、1、2、3......p共p+1类)。神经网络结构参考附图1,图中以p=3,分4类为例,且使用两层隐藏层的神经网络,其中两层隐层的神经元数量分别为392、196。
(4)使用之前训练集进行训练,在测试集上进行精度验证。
在本实施例中,使用之前70%的数据进行训练,使用30%的数据评估精确率和召回率精度。由于只有两层神经网络,该模型的参数较少,运算较快。训练过程建议使用GPU加速运算。
通过上述2-4步骤,生成了分类模型model,具体流程参考图2。
2.将正则表达式检测与模型检测方法进行整合,完整的检测流程如下:
假设有数据结构:从某张数据库表取n条真实未脱敏的记录(比如n=100),记录存储在Record[1:k][1:n]中,其中k表示有k个字段。假设Record中第i个(1<=i<=k)字段存储在fileds[n]中,判断第i个字段是否为敏感字段的步骤如下:
步骤1,当前已经匹配数Match初始化为零;
步骤2,遍历fields[n]中从1到n个值,先通过正则表达式尝试匹配,如果匹配成功,则判断当前字段是敏感字段,终止后面流程;
步骤3,如果正则没有匹配成功,尝试通过模型匹配,模型返回匹配成功的概率值proba,当proba大于定义阈值t1时,Match计数加1;
步骤4,重复步骤2到步骤4,直到n个值都匹配完毕;
步骤5,当前字段是敏感字段的概率result=Match/n;
步骤6,如果result大于定义阈值t2,则判断当前字段为敏感字段,否则当前字段为非敏感字段。
阈值t1和t2根据实际情况进行调整,本实施例中,t1取0.7,t2取0.5。
因此,当需要判断某个字段是否是敏感字段时,先取该字段n条非空记录,再执行上述流程即可。具体流程参考图3。
3.模型自学习过程,包括以下步骤:
步骤1,由人工对识别结果进行评判(标记纠正),特别针对概率值处于中间区域的样本,对识别的样本设置正确的标签,并且将样本和标签入库;
步骤2,启动模型训练过程,对样本库重新进行训练,并且评估模型准确度;
步骤3,更新模型服务。
在一个实施例中,本发明还提供了一种基于机器学习的敏感数据检测装置,该装置包括模型训练单元和检测单元;
所述模型训练单元用于对文本类型字段生成分类模型,包括:准备敏感字段集合SET1和非敏感字段集合SET2,设置SET1的字段标签分别为1、2、3......p,p为SET1中的字段种类,SET2的字段标签均为0;将SET1与SET2均匀混合后,生成训练集;通过Transformer模型对输入的文本进行特征提取;使用多层隐藏层神经网络进行分类,最后一层进行全连接和softmax输出;利用训练集对模型进行训练,生成分类模型model;
所述检测单元包括存储模块、正则匹配模块和模型匹配模块;
所述存储模块:将从数据库表抽取的n条真实未脱敏的记录存储在Record[1:k][1:n]中,其中k表示有k个字段,Record中第i个字段存储在fileds[n]中;
所述正则匹配模块:遍历fields[n]中从1到n个值,通过正则表达式尝试匹配,如果匹配成功则判断当前字段是敏感字段,否则执行模型匹配模块;
所述模型匹配模块:获取模型返回匹配成功的概率值proba,当proba大于阈值t1时,匹配数Match计数加1,直到fields[n]中n个值都匹配完毕,计算当前字段是敏感字段的概率result=Match/n,如果result大于阈值t2,则判断当前字段为敏感字段,否则为非敏感字段。
该装置还可以包括模型自学习单元:由人工对识别结果进行评判,对识别的样本设置正确的标签,并且将样本和标签入库;启动模型训练过程,对样本库重新进行训练,并且评估模型准确度;更新模型服务。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (6)
1.一种基于机器学习的敏感数据检测方法,其特征在于,该方法包括模型训练阶段和实时检测阶段;
所述模型训练阶段包括:
准备敏感字段集合SET1和非敏感字段集合SET2,设置SET1的字段标签分别为1、2、3......p,p为SET1中的字段种类,SET2的字段标签均为0;将SET1与SET2均匀混合后,生成训练集和测试集;
通过Transformer模型对输入的文本进行特征提取;
使用多层隐藏层神经网络进行分类,最后一层进行全连接和softmax输出;
利用训练集对模型进行训练,生成分类模型model;
所述实时检测阶段包括:
从数据库表取n条真实未脱敏的记录存储在Record[1:k][1:n]中,其中k表示有k个字段,假设Record中第i个字段存储在fileds[n]中,判断第i个字段是否为敏感字段的步骤如下:
步骤1,当前已经匹配数Match初始化为零;
步骤2,遍历fields[n]中从1到n个值,先通过正则表达式尝试匹配,如果匹配成功,则判断当前字段是敏感字段;
步骤3,如果正则表达式没有匹配成功,尝试通过模型匹配,模型返回匹配成功的概率值proba,当proba大于阈值t1时,Match计数加1;
步骤4,重复步骤2到步骤4,直到n个值都匹配完毕;
步骤5,当前字段是敏感字段的概率result=Match/n;
步骤6,如果result大于阈值t2,则判断当前字段为敏感字段,否则当前字段为非敏感字段。
2.根据权利要求1所述的一种基于机器学习的敏感数据检测方法,其特征在于,敏感字段由安全管理部门解释和定义,根据实际场景设定。
3.根据权利要求1所述的一种基于机器学习的敏感数据检测方法,其特征在于,在Transformer模型特征提取过程中,以及模型训练过程中,使用GPU加速运算。
4.根据权利要求1所述的一种基于机器学习的敏感数据检测方法,其特征在于,分类模型通过自学习过程不断提高识别精度,具体为:由人工对识别结果进行评判,对识别的样本设置正确的标签,并且将样本和标签入库;启动模型训练过程,对样本库重新进行训练,并且评估模型准确度;更新模型服务。
5.一种基于机器学习的敏感数据检测装置,其特征在于,包括模型训练单元和检测单元;
所述模型训练单元用于对文本类型字段生成分类模型,包括:准备敏感字段集合SET1和非敏感字段集合SET2,设置SET1的字段标签分别为1、2、3......p,p为SET1中的字段种类,SET2的字段标签均为0;将SET1与SET2均匀混合后,生成训练集;通过Transformer模型对输入的文本进行特征提取;使用多层隐藏层神经网络进行分类,最后一层进行全连接和softmax输出;利用训练集对模型进行训练,生成分类模型model;
所述检测单元包括存储模块、正则匹配模块和模型匹配模块;
所述存储模块:将从数据库表抽取的n条真实未脱敏的记录存储在Record[1:k][1:n]中,其中k表示有k个字段,Record中第i个字段存储在fileds[n]中;
所述正则匹配模块:遍历fields[n]中从1到n个值,通过正则表达式尝试匹配,如果匹配成功则判断当前字段是敏感字段,否则执行模型匹配模块;
所述模型匹配模块:获取模型返回匹配成功的概率值proba,当proba大于阈值t1时,匹配数Match计数加1,直到fields[n]中n个值都匹配完毕,计算当前字段是敏感字段的概率result=Match/n,如果result大于阈值t2,则判断当前字段为敏感字段,否则为非敏感字段。
6.根据权利要求5所述的一种基于机器学习的敏感数据检测装置,其特征在于,还包括模型自学习单元:由人工对识别结果进行评判,对识别的样本设置正确的标签,并且将样本和标签入库;启动模型训练过程,对样本库重新进行训练,并且评估模型准确度;更新模型服务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011386506.2A CN112507376B (zh) | 2020-12-01 | 2020-12-01 | 一种基于机器学习的敏感数据检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011386506.2A CN112507376B (zh) | 2020-12-01 | 2020-12-01 | 一种基于机器学习的敏感数据检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112507376A true CN112507376A (zh) | 2021-03-16 |
CN112507376B CN112507376B (zh) | 2024-01-05 |
Family
ID=74969876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011386506.2A Active CN112507376B (zh) | 2020-12-01 | 2020-12-01 | 一种基于机器学习的敏感数据检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507376B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392111A (zh) * | 2021-06-17 | 2021-09-14 | 国网福建省电力有限公司信息通信分公司 | 一种基于敏感数据库的自学习管理系统 |
CN114398665A (zh) * | 2021-12-14 | 2022-04-26 | 杭萧钢构股份有限公司 | 一种数据脱敏方法、装置、存储介质及终端 |
CN115081629A (zh) * | 2022-08-16 | 2022-09-20 | 杭州比智科技有限公司 | 一种敏感数据发现与识别的深度学习方法及系统 |
CN116090006A (zh) * | 2023-02-01 | 2023-05-09 | 北京三维天地科技股份有限公司 | 一种基于深度学习的敏感识别方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344258A (zh) * | 2018-11-28 | 2019-02-15 | 中国电子科技网络信息安全有限公司 | 一种智能化自适应敏感数据识别系统及方法 |
CN110222170A (zh) * | 2019-04-25 | 2019-09-10 | 平安科技(深圳)有限公司 | 一种识别敏感数据的方法、装置、存储介质及计算机设备 |
US20190325259A1 (en) * | 2018-04-12 | 2019-10-24 | Discovery Communications, Llc | Feature extraction and machine learning for automated metadata analysis |
CN110580416A (zh) * | 2019-09-11 | 2019-12-17 | 国网浙江省电力有限公司信息通信分公司 | 一种基于人工智能的敏感数据自动识别方法 |
CN110826320A (zh) * | 2019-11-28 | 2020-02-21 | 上海观安信息技术股份有限公司 | 一种基于文本识别的敏感数据发现方法及系统 |
CN110909224A (zh) * | 2019-11-22 | 2020-03-24 | 浙江大学 | 一种基于人工智能的敏感数据自动分类识别方法及系统 |
CN111428273A (zh) * | 2020-04-23 | 2020-07-17 | 北京中安星云软件技术有限公司 | 基于机器学习的动态脱敏方法及装置 |
-
2020
- 2020-12-01 CN CN202011386506.2A patent/CN112507376B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190325259A1 (en) * | 2018-04-12 | 2019-10-24 | Discovery Communications, Llc | Feature extraction and machine learning for automated metadata analysis |
CN109344258A (zh) * | 2018-11-28 | 2019-02-15 | 中国电子科技网络信息安全有限公司 | 一种智能化自适应敏感数据识别系统及方法 |
CN110222170A (zh) * | 2019-04-25 | 2019-09-10 | 平安科技(深圳)有限公司 | 一种识别敏感数据的方法、装置、存储介质及计算机设备 |
CN110580416A (zh) * | 2019-09-11 | 2019-12-17 | 国网浙江省电力有限公司信息通信分公司 | 一种基于人工智能的敏感数据自动识别方法 |
CN110909224A (zh) * | 2019-11-22 | 2020-03-24 | 浙江大学 | 一种基于人工智能的敏感数据自动分类识别方法及系统 |
CN110826320A (zh) * | 2019-11-28 | 2020-02-21 | 上海观安信息技术股份有限公司 | 一种基于文本识别的敏感数据发现方法及系统 |
CN111428273A (zh) * | 2020-04-23 | 2020-07-17 | 北京中安星云软件技术有限公司 | 基于机器学习的动态脱敏方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392111A (zh) * | 2021-06-17 | 2021-09-14 | 国网福建省电力有限公司信息通信分公司 | 一种基于敏感数据库的自学习管理系统 |
CN113392111B (zh) * | 2021-06-17 | 2022-04-29 | 国网福建省电力有限公司信息通信分公司 | 一种基于敏感数据库的自学习管理系统 |
CN114398665A (zh) * | 2021-12-14 | 2022-04-26 | 杭萧钢构股份有限公司 | 一种数据脱敏方法、装置、存储介质及终端 |
CN115081629A (zh) * | 2022-08-16 | 2022-09-20 | 杭州比智科技有限公司 | 一种敏感数据发现与识别的深度学习方法及系统 |
CN116090006A (zh) * | 2023-02-01 | 2023-05-09 | 北京三维天地科技股份有限公司 | 一种基于深度学习的敏感识别方法及系统 |
CN116090006B (zh) * | 2023-02-01 | 2023-09-08 | 北京三维天地科技股份有限公司 | 一种基于深度学习的敏感识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112507376B (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507376B (zh) | 一种基于机器学习的敏感数据检测方法及装置 | |
CN108829757B (zh) | 一种聊天机器人的智能服务方法、服务器及存储介质 | |
CN109034368B (zh) | 一种基于dnn的复杂设备多重故障诊断方法 | |
WO2022142041A1 (zh) | 意图识别模型的训练方法、装置、计算机设备和存储介质 | |
CN108376151A (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
CN110532386A (zh) | 文本情感分类方法、装置、电子设备及存储介质 | |
CN113254643B (zh) | 文本分类方法、装置、电子设备和 | |
CN111353029A (zh) | 一种基于语义匹配的多轮对话口语理解方法 | |
CN111723870B (zh) | 基于人工智能的数据集获取方法、装置、设备和介质 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN111414746A (zh) | 一种匹配语句确定方法、装置、设备及存储介质 | |
US11636849B2 (en) | Voice data processing based on deep learning | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN109800309A (zh) | 课堂话语类型分类方法及装置 | |
CN114647713A (zh) | 基于虚拟对抗的知识图谱问答方法、设备及存储介质 | |
CN113434683A (zh) | 文本分类方法、装置、介质及电子设备 | |
CN116611071A (zh) | 一种基于多模态的函数级漏洞检测的方法 | |
WO2021004118A1 (zh) | 一种相关值确定方法及装置 | |
CN114969334B (zh) | 异常日志检测方法、装置、电子设备及可读存储介质 | |
CN112214595A (zh) | 类别确定方法、装置、设备及介质 | |
CN114492408A (zh) | 信用证审核方法、装置、电子设备及存储介质 | |
CN111738290B (zh) | 图像检测方法、模型构建和训练方法、装置、设备和介质 | |
CN117632659A (zh) | 日志异常处理方法、装置、设备及介质 | |
CN112989050A (zh) | 一种表格分类方法、装置、设备及存储介质 | |
CN107886233B (zh) | 客服的服务质量评价方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |