CN112507376A - 一种基于机器学习的敏感数据检测方法及装置 - Google Patents

一种基于机器学习的敏感数据检测方法及装置 Download PDF

Info

Publication number
CN112507376A
CN112507376A CN202011386506.2A CN202011386506A CN112507376A CN 112507376 A CN112507376 A CN 112507376A CN 202011386506 A CN202011386506 A CN 202011386506A CN 112507376 A CN112507376 A CN 112507376A
Authority
CN
China
Prior art keywords
model
field
sensitive
fields
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011386506.2A
Other languages
English (en)
Other versions
CN112507376B (zh
Inventor
臧铖
陈嘉俊
屠轲
占可非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Zheshang Bank Co Ltd
Original Assignee
China Zheshang Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Zheshang Bank Co Ltd filed Critical China Zheshang Bank Co Ltd
Priority to CN202011386506.2A priority Critical patent/CN112507376B/zh
Publication of CN112507376A publication Critical patent/CN112507376A/zh
Application granted granted Critical
Publication of CN112507376B publication Critical patent/CN112507376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于机器学习的敏感数据检测方法及装置。当数据从生产环境同步到开发测试环境时,必须对敏感字段进行脱敏。本发明根据机器学习原理,将数据表字段敏感性识别问题转化为文本分类问题,应用NLP技术进行训练模型识别敏感字段。本方法与常规检测手段相结合,并且通过自学算法不断提升识别效果,能够降低敏感字段遗漏至外部环境的风险,减少人工干预,提高工作效率。

Description

一种基于机器学习的敏感数据检测方法及装置
技术领域
本发明属于计算机系统领域,尤其涉及一种基于机器学习的敏感数据检测方法及装置。
背景技术
银行业是一个数据安全要求十分严格的领域,所有数据导出时必须先对敏感字段进行脱敏处理。
敏感字段一般通过开发人员提交的脚本进行脱敏。但是面对庞大的数据表和字段数量,开发人员可能无法覆盖所有敏感字段。一种传统的检测方法是通过正则表达式进行匹配。正则表达式是一种基于规则的匹配技术,受限于具体规则。例如,对于手机号、卡号等规则性比较强的字段识别能力较强。对于规则性不强的内容,比如工作单位、家庭地址识别能力较弱。取数岗位在取数时往往涉及大量的表,每个表又涉及几十甚至上百字段。因此容易造成检出不够完整。如果人工进行观察又会导致取数流程效率非常低下。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于机器学习的敏感数据检测方法及装置,增强数据导出时的敏感数据检测能力。
本发明一方面提供了一种基于机器学习的敏感数据检测方法,该方法包括模型训练阶段和实时检测阶段;
所述模型训练阶段包括:
准备敏感字段集合SET1和非敏感字段集合SET2,设置SET1的字段标签分别为1、2、3......p,p为SET1中的字段种类,SET2的字段标签均为0;将SET1与SET2均匀混合后,生成训练集和测试集;
通过Transformer模型对输入的文本进行特征提取;
使用多层隐藏层神经网络进行分类,最后一层进行全连接和softmax输出;
利用训练集对模型进行训练,生成分类模型model;
所述实时检测阶段包括:
从数据库表取n条真实未脱敏的记录存储在Record[1:k][1:n]中,其中k表示有k个字段,假设Record中第i个字段存储在fileds[n]中,判断第i个字段是否为敏感字段的步骤如下:
步骤1,当前已经匹配数Match初始化为零;
步骤2,遍历fields[n]中从1到n个值,先通过正则表达式尝试匹配,如果匹配成功,则判断当前字段是敏感字段;
步骤3,如果正则表达式没有匹配成功,尝试通过模型匹配,模型返回匹配成功的概率值proba,当proba大于阈值t1时,Match计数加1;
步骤4,重复步骤2到步骤4,直到n个值都匹配完毕;
步骤5,当前字段是敏感字段的概率result=Match/n;
步骤6,如果result大于阈值t2,则判断当前字段为敏感字段,否则当前字段为非敏感字段。
进一步地,在Transformer模型特征提取过程中,以及模型训练过程中,使用GPU加速运算。
进一步地,分类模型通过自学习过程不断提高识别精度,具体为:由人工对识别结果进行评判,对识别的样本设置正确的标签,并且将样本和标签入库;启动模型训练过程,对样本库重新进行训练,并且评估模型准确度;更新模型服务。
本发明另一方面提供了一种基于机器学习的敏感数据检测装置,该装置包括模型训练单元和检测单元;
所述模型训练单元用于对文本类型字段生成分类模型,包括:准备敏感字段集合SET1和非敏感字段集合SET2,设置SET1的字段标签分别为1、2、3......p,p为SET1中的字段种类,SET2的字段标签均为0;将SET1与SET2均匀混合后,生成训练集;通过Transformer模型对输入的文本进行特征提取;使用多层隐藏层神经网络进行分类,最后一层进行全连接和softmax输出;利用训练集对模型进行训练,生成分类模型model;
所述检测单元包括存储模块、正则匹配模块和模型匹配模块;
所述存储模块:将从数据库表抽取的n条真实未脱敏的记录存储在Record[1:k][1:n]中,其中k表示有k个字段,Record中第i个字段存储在fileds[n]中;
所述正则匹配模块:遍历fields[n]中从1到n个值,通过正则表达式尝试匹配,如果匹配成功则判断当前字段是敏感字段,否则执行模型匹配模块;
所述模型匹配模块:获取模型返回匹配成功的概率值proba,当proba大于阈值t1时,匹配数Match计数加1,直到fields[n]中n个值都匹配完毕,计算当前字段是敏感字段的概率result=Match/n,如果result大于阈值t2,则判断当前字段为敏感字段,否则为非敏感字段。
进一步地,该装置还包括模型自学习单元:由人工对识别结果进行评判,对识别的样本设置正确的标签,并且将样本和标签入库;启动模型训练过程,对样本库重新进行训练,并且评估模型准确度;更新模型服务。
本发明的有益效果是:为了增强检测能力,本发明根据机器学习原理,将数据表字段敏感性识别问题转化为文本分类问题,应用NLP技术进行训练模型识别敏感字段。应用于数据导出时,能够自动化遍历数据表中的字段值,当检出是敏感字段时,可以给出提示或者执行脱敏操作。不仅能够提高工作效率,还能够降低敏感字段遗漏至外部环境的风险,能够进一步提升取数流程的自动化。本发明将正则表达式和机器学习方式结合,提高了整体检测能力,并且模型通过自学习过程可以不断提高识别精度。
附图说明
图1是本发明实施例提供的神经网络分类模型的结构图;
图2是本发明实施例提供的分类模型构建及训练流程图;
图3是本发明实施例提供的正则匹配和模型匹配联合检测流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明,应当理解,此处描述的具体实施方式仅用以解释本发明,并不用于限定本发明。
本发明实施例提供一种基于机器学习实现的在生产环境导出数据检测敏感数据的方法。具体实施时由安全管理部门解释和定义敏感字段范畴,本方法内举例的具体字段需根据实际场景设定。该方法包括以下步骤:
1.在银行业务中,数据库表的字段总体上可以分为纯数字和文本两种类型。纯数字的类型比如金额、身份证号、手机号等内容;文本类型比如姓名、住址等内容。正则表达式适合匹配规律性较强的类型,比如手机号和电子邮箱。此类字段类型用模型匹配反而效果差。而对于某些文本类型,规则性并不明显,就适合通过机器学习方式自动学习特征,实现匹配目的。本发明将正则表达式和机器学习方式结合,提高整体检测能力。并且模型通过自学习过程可以不断提高识别精度。模型训练的过程如下:
(1)准备集合SET1={Filed1、Field2…Fieldp},该集合为敏感字段集合;准备集合SET2={Filed1、Field2…Fieldq},该集合为非敏感集合。每种Field代表一种字段分类,比如姓名、地址等。上述集合中各种分类准备m条样本(建议m>=2万),样本集一共(p+q)*m条。设置SET1集合标签分别为1、2、3......p,SET2的字段标签都为0。将SET1与SET2均匀混合后,取r%数据生成训练集,剩余数据生成测试集。
在一个实施例中,SET1={姓名、公司地址、家庭住址},SET2={公司名称、英文名、机构名称},上述集合中各种分类准备2万条样本,设置SET1集合标签分别为1、2、3,SET2的字段标签都为0。将SET1与SET2均匀混合后,取70%数据用于训练,剩余30%数据用于测试。
(2)通过Transformer模型对输入的文本(包括词语或者句子)进行特征提取。Transformer一般形成以768维特征向量的表现形式。Transformer是一个开源的序列模型,通过加载开源的BERT算法参数完成初始化;使用Transformer提取文本特征不需要分词,长句短语均适用。本过程建议使用GPU加速运算。
(3)由于得到的特征不具备文本特性,已经是向量了,所以不需要用CNN、RNN等工具进行特征提取,因此在本算法中直接使用多层隐藏层的神经网络(DNN)进行分类,层数不易控制太多,一般在2-3层即可。最后一层进行全连接和softmax输出(当前分类是0、1、2、3......p共p+1类)。神经网络结构参考附图1,图中以p=3,分4类为例,且使用两层隐藏层的神经网络,其中两层隐层的神经元数量分别为392、196。
(4)使用之前训练集进行训练,在测试集上进行精度验证。
在本实施例中,使用之前70%的数据进行训练,使用30%的数据评估精确率和召回率精度。由于只有两层神经网络,该模型的参数较少,运算较快。训练过程建议使用GPU加速运算。
通过上述2-4步骤,生成了分类模型model,具体流程参考图2。
2.将正则表达式检测与模型检测方法进行整合,完整的检测流程如下:
假设有数据结构:从某张数据库表取n条真实未脱敏的记录(比如n=100),记录存储在Record[1:k][1:n]中,其中k表示有k个字段。假设Record中第i个(1<=i<=k)字段存储在fileds[n]中,判断第i个字段是否为敏感字段的步骤如下:
步骤1,当前已经匹配数Match初始化为零;
步骤2,遍历fields[n]中从1到n个值,先通过正则表达式尝试匹配,如果匹配成功,则判断当前字段是敏感字段,终止后面流程;
步骤3,如果正则没有匹配成功,尝试通过模型匹配,模型返回匹配成功的概率值proba,当proba大于定义阈值t1时,Match计数加1;
步骤4,重复步骤2到步骤4,直到n个值都匹配完毕;
步骤5,当前字段是敏感字段的概率result=Match/n;
步骤6,如果result大于定义阈值t2,则判断当前字段为敏感字段,否则当前字段为非敏感字段。
阈值t1和t2根据实际情况进行调整,本实施例中,t1取0.7,t2取0.5。
因此,当需要判断某个字段是否是敏感字段时,先取该字段n条非空记录,再执行上述流程即可。具体流程参考图3。
3.模型自学习过程,包括以下步骤:
步骤1,由人工对识别结果进行评判(标记纠正),特别针对概率值处于中间区域的样本,对识别的样本设置正确的标签,并且将样本和标签入库;
步骤2,启动模型训练过程,对样本库重新进行训练,并且评估模型准确度;
步骤3,更新模型服务。
在一个实施例中,本发明还提供了一种基于机器学习的敏感数据检测装置,该装置包括模型训练单元和检测单元;
所述模型训练单元用于对文本类型字段生成分类模型,包括:准备敏感字段集合SET1和非敏感字段集合SET2,设置SET1的字段标签分别为1、2、3......p,p为SET1中的字段种类,SET2的字段标签均为0;将SET1与SET2均匀混合后,生成训练集;通过Transformer模型对输入的文本进行特征提取;使用多层隐藏层神经网络进行分类,最后一层进行全连接和softmax输出;利用训练集对模型进行训练,生成分类模型model;
所述检测单元包括存储模块、正则匹配模块和模型匹配模块;
所述存储模块:将从数据库表抽取的n条真实未脱敏的记录存储在Record[1:k][1:n]中,其中k表示有k个字段,Record中第i个字段存储在fileds[n]中;
所述正则匹配模块:遍历fields[n]中从1到n个值,通过正则表达式尝试匹配,如果匹配成功则判断当前字段是敏感字段,否则执行模型匹配模块;
所述模型匹配模块:获取模型返回匹配成功的概率值proba,当proba大于阈值t1时,匹配数Match计数加1,直到fields[n]中n个值都匹配完毕,计算当前字段是敏感字段的概率result=Match/n,如果result大于阈值t2,则判断当前字段为敏感字段,否则为非敏感字段。
该装置还可以包括模型自学习单元:由人工对识别结果进行评判,对识别的样本设置正确的标签,并且将样本和标签入库;启动模型训练过程,对样本库重新进行训练,并且评估模型准确度;更新模型服务。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (6)

1.一种基于机器学习的敏感数据检测方法,其特征在于,该方法包括模型训练阶段和实时检测阶段;
所述模型训练阶段包括:
准备敏感字段集合SET1和非敏感字段集合SET2,设置SET1的字段标签分别为1、2、3......p,p为SET1中的字段种类,SET2的字段标签均为0;将SET1与SET2均匀混合后,生成训练集和测试集;
通过Transformer模型对输入的文本进行特征提取;
使用多层隐藏层神经网络进行分类,最后一层进行全连接和softmax输出;
利用训练集对模型进行训练,生成分类模型model;
所述实时检测阶段包括:
从数据库表取n条真实未脱敏的记录存储在Record[1:k][1:n]中,其中k表示有k个字段,假设Record中第i个字段存储在fileds[n]中,判断第i个字段是否为敏感字段的步骤如下:
步骤1,当前已经匹配数Match初始化为零;
步骤2,遍历fields[n]中从1到n个值,先通过正则表达式尝试匹配,如果匹配成功,则判断当前字段是敏感字段;
步骤3,如果正则表达式没有匹配成功,尝试通过模型匹配,模型返回匹配成功的概率值proba,当proba大于阈值t1时,Match计数加1;
步骤4,重复步骤2到步骤4,直到n个值都匹配完毕;
步骤5,当前字段是敏感字段的概率result=Match/n;
步骤6,如果result大于阈值t2,则判断当前字段为敏感字段,否则当前字段为非敏感字段。
2.根据权利要求1所述的一种基于机器学习的敏感数据检测方法,其特征在于,敏感字段由安全管理部门解释和定义,根据实际场景设定。
3.根据权利要求1所述的一种基于机器学习的敏感数据检测方法,其特征在于,在Transformer模型特征提取过程中,以及模型训练过程中,使用GPU加速运算。
4.根据权利要求1所述的一种基于机器学习的敏感数据检测方法,其特征在于,分类模型通过自学习过程不断提高识别精度,具体为:由人工对识别结果进行评判,对识别的样本设置正确的标签,并且将样本和标签入库;启动模型训练过程,对样本库重新进行训练,并且评估模型准确度;更新模型服务。
5.一种基于机器学习的敏感数据检测装置,其特征在于,包括模型训练单元和检测单元;
所述模型训练单元用于对文本类型字段生成分类模型,包括:准备敏感字段集合SET1和非敏感字段集合SET2,设置SET1的字段标签分别为1、2、3......p,p为SET1中的字段种类,SET2的字段标签均为0;将SET1与SET2均匀混合后,生成训练集;通过Transformer模型对输入的文本进行特征提取;使用多层隐藏层神经网络进行分类,最后一层进行全连接和softmax输出;利用训练集对模型进行训练,生成分类模型model;
所述检测单元包括存储模块、正则匹配模块和模型匹配模块;
所述存储模块:将从数据库表抽取的n条真实未脱敏的记录存储在Record[1:k][1:n]中,其中k表示有k个字段,Record中第i个字段存储在fileds[n]中;
所述正则匹配模块:遍历fields[n]中从1到n个值,通过正则表达式尝试匹配,如果匹配成功则判断当前字段是敏感字段,否则执行模型匹配模块;
所述模型匹配模块:获取模型返回匹配成功的概率值proba,当proba大于阈值t1时,匹配数Match计数加1,直到fields[n]中n个值都匹配完毕,计算当前字段是敏感字段的概率result=Match/n,如果result大于阈值t2,则判断当前字段为敏感字段,否则为非敏感字段。
6.根据权利要求5所述的一种基于机器学习的敏感数据检测装置,其特征在于,还包括模型自学习单元:由人工对识别结果进行评判,对识别的样本设置正确的标签,并且将样本和标签入库;启动模型训练过程,对样本库重新进行训练,并且评估模型准确度;更新模型服务。
CN202011386506.2A 2020-12-01 2020-12-01 一种基于机器学习的敏感数据检测方法及装置 Active CN112507376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011386506.2A CN112507376B (zh) 2020-12-01 2020-12-01 一种基于机器学习的敏感数据检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011386506.2A CN112507376B (zh) 2020-12-01 2020-12-01 一种基于机器学习的敏感数据检测方法及装置

Publications (2)

Publication Number Publication Date
CN112507376A true CN112507376A (zh) 2021-03-16
CN112507376B CN112507376B (zh) 2024-01-05

Family

ID=74969876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011386506.2A Active CN112507376B (zh) 2020-12-01 2020-12-01 一种基于机器学习的敏感数据检测方法及装置

Country Status (1)

Country Link
CN (1) CN112507376B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392111A (zh) * 2021-06-17 2021-09-14 国网福建省电力有限公司信息通信分公司 一种基于敏感数据库的自学习管理系统
CN114398665A (zh) * 2021-12-14 2022-04-26 杭萧钢构股份有限公司 一种数据脱敏方法、装置、存储介质及终端
CN115081629A (zh) * 2022-08-16 2022-09-20 杭州比智科技有限公司 一种敏感数据发现与识别的深度学习方法及系统
CN116090006A (zh) * 2023-02-01 2023-05-09 北京三维天地科技股份有限公司 一种基于深度学习的敏感识别方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344258A (zh) * 2018-11-28 2019-02-15 中国电子科技网络信息安全有限公司 一种智能化自适应敏感数据识别系统及方法
CN110222170A (zh) * 2019-04-25 2019-09-10 平安科技(深圳)有限公司 一种识别敏感数据的方法、装置、存储介质及计算机设备
US20190325259A1 (en) * 2018-04-12 2019-10-24 Discovery Communications, Llc Feature extraction and machine learning for automated metadata analysis
CN110580416A (zh) * 2019-09-11 2019-12-17 国网浙江省电力有限公司信息通信分公司 一种基于人工智能的敏感数据自动识别方法
CN110826320A (zh) * 2019-11-28 2020-02-21 上海观安信息技术股份有限公司 一种基于文本识别的敏感数据发现方法及系统
CN110909224A (zh) * 2019-11-22 2020-03-24 浙江大学 一种基于人工智能的敏感数据自动分类识别方法及系统
CN111428273A (zh) * 2020-04-23 2020-07-17 北京中安星云软件技术有限公司 基于机器学习的动态脱敏方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190325259A1 (en) * 2018-04-12 2019-10-24 Discovery Communications, Llc Feature extraction and machine learning for automated metadata analysis
CN109344258A (zh) * 2018-11-28 2019-02-15 中国电子科技网络信息安全有限公司 一种智能化自适应敏感数据识别系统及方法
CN110222170A (zh) * 2019-04-25 2019-09-10 平安科技(深圳)有限公司 一种识别敏感数据的方法、装置、存储介质及计算机设备
CN110580416A (zh) * 2019-09-11 2019-12-17 国网浙江省电力有限公司信息通信分公司 一种基于人工智能的敏感数据自动识别方法
CN110909224A (zh) * 2019-11-22 2020-03-24 浙江大学 一种基于人工智能的敏感数据自动分类识别方法及系统
CN110826320A (zh) * 2019-11-28 2020-02-21 上海观安信息技术股份有限公司 一种基于文本识别的敏感数据发现方法及系统
CN111428273A (zh) * 2020-04-23 2020-07-17 北京中安星云软件技术有限公司 基于机器学习的动态脱敏方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392111A (zh) * 2021-06-17 2021-09-14 国网福建省电力有限公司信息通信分公司 一种基于敏感数据库的自学习管理系统
CN113392111B (zh) * 2021-06-17 2022-04-29 国网福建省电力有限公司信息通信分公司 一种基于敏感数据库的自学习管理系统
CN114398665A (zh) * 2021-12-14 2022-04-26 杭萧钢构股份有限公司 一种数据脱敏方法、装置、存储介质及终端
CN115081629A (zh) * 2022-08-16 2022-09-20 杭州比智科技有限公司 一种敏感数据发现与识别的深度学习方法及系统
CN116090006A (zh) * 2023-02-01 2023-05-09 北京三维天地科技股份有限公司 一种基于深度学习的敏感识别方法及系统
CN116090006B (zh) * 2023-02-01 2023-09-08 北京三维天地科技股份有限公司 一种基于深度学习的敏感识别方法及系统

Also Published As

Publication number Publication date
CN112507376B (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
CN112507376B (zh) 一种基于机器学习的敏感数据检测方法及装置
CN108829757B (zh) 一种聊天机器人的智能服务方法、服务器及存储介质
CN109034368B (zh) 一种基于dnn的复杂设备多重故障诊断方法
WO2022142041A1 (zh) 意图识别模型的训练方法、装置、计算机设备和存储介质
CN108376151A (zh) 问题分类方法、装置、计算机设备和存储介质
CN110532386A (zh) 文本情感分类方法、装置、电子设备及存储介质
CN113254643B (zh) 文本分类方法、装置、电子设备和
CN111353029A (zh) 一种基于语义匹配的多轮对话口语理解方法
CN111723870B (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN111414746A (zh) 一种匹配语句确定方法、装置、设备及存储介质
US11636849B2 (en) Voice data processing based on deep learning
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN109800309A (zh) 课堂话语类型分类方法及装置
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN113434683A (zh) 文本分类方法、装置、介质及电子设备
CN116611071A (zh) 一种基于多模态的函数级漏洞检测的方法
WO2021004118A1 (zh) 一种相关值确定方法及装置
CN114969334B (zh) 异常日志检测方法、装置、电子设备及可读存储介质
CN112214595A (zh) 类别确定方法、装置、设备及介质
CN114492408A (zh) 信用证审核方法、装置、电子设备及存储介质
CN111738290B (zh) 图像检测方法、模型构建和训练方法、装置、设备和介质
CN117632659A (zh) 日志异常处理方法、装置、设备及介质
CN112989050A (zh) 一种表格分类方法、装置、设备及存储介质
CN107886233B (zh) 客服的服务质量评价方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant