CN115081629A - 一种敏感数据发现与识别的深度学习方法及系统 - Google Patents
一种敏感数据发现与识别的深度学习方法及系统 Download PDFInfo
- Publication number
- CN115081629A CN115081629A CN202210979823.8A CN202210979823A CN115081629A CN 115081629 A CN115081629 A CN 115081629A CN 202210979823 A CN202210979823 A CN 202210979823A CN 115081629 A CN115081629 A CN 115081629A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- deep learning
- result
- inference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种敏感数据发现与识别的深度学习方法及系统,所述方法包括以下步骤:S1:触发训练机制,获取训练数据;S2:对用户纠正后的推理结果数据进行评估,获得评估的结果;S3:加载历史规则模型和历史深度学习模型;S4:进行深度学习模型的迭代训练,直至模型稳定收敛,生成新的模型集;S5:获取推理数据;S6:使用训练得到的模型集及推理数据做算法推理,获得结果反馈给用户;S7:用户对结果进行纠正打标,产生的新样本用于评估及训练部分的使用,本发明可以对不同的类型的数据进行全面的敏感数据识别,有效提高识别准确率。
Description
技术领域
本发明涉及数据安全治理及自然语言处理的深度学习领域,尤其涉及一种数据治理场景下敏感数据发现与识别的深度学习方法及系统。
背景技术
随着企业信息化水平的不断提高,数据共享与开放对企业发展的作用日益凸显,数据已成为重要生产要素之一,企业在产业与服务、营销支持、业务运营、风险管控、信息披露和分析决策等经营管理活动中涉及到大量的业务数据,其中可能会包含企业的商业秘密、工作秘密,以及员工的隐私信息等,若因为使用不当,造成数据泄露,则有可能造成巨大的经济损失或在社会、法律、信用、品牌上对企业造成严重的不良影响。因此,如何保障企业存储的各类敏感数据的安全,提前预警并消除风险就成为企业信息安全工作的重中之重。
现有的敏感字段识别方法主要包含以下几种:
1、基于关键字的方法:根据定义的关键字去直接进行匹配,得到结果
缺点:
(1)难以定义完全,很大程度上可能会导致漏报
(2)过于简单粗暴,对于多类别的字段,很难准确合理划分
2、基于规则的方法:根据数据的格式,定义正则式去直接匹配,得到结果
缺点:
(1)难以定义完全,很大程度上可能会导致漏报
(2)灵活性差
3、基于机器学习的方法:利用从数据中学习到的知识做新数据的预测
缺点:
(1)需要有大批量、高质量的标注数据
(2)泛化能力不足,对新业务数据的适应能力弱
(3)不能进行自我优化、自我学习。
基于以上种种原因,综合考虑上述方法的优缺点,本发明实现了一种快速且高度自动化的敏感数据识别方法,可以实现对敏感信息的检测、分类等目标。
发明内容
针对现有技术存在的问题,本发明的目的在于实现一种快速且高度自动化的敏感数据治理方法及系统,能够实现对敏感信息的检测、分类等目标,可以对不同的类型的数据进行全面的敏感数据识别,有效提高识别准确率。
为实现上述目的,本发明提供一种敏感数据发现与识别的深度学习方法,所述方法包括以下步骤:
S1:触发训练机制,获取训练数据;
S2:对用户纠正后的推理结果数据进行评估,获得评估的结果;
S3:加载历史规则模型和历史深度学习模型;
S4:进行深度学习模型的迭代训练,直至模型稳定收敛,生成新的模型集;
S5:获取推理数据;
S6:使用训练得到的模型集及推理数据做算法推理,获得结果反馈给用户;
S7:用户对结果进行纠正打标,产生的新样本用于评估及训练部分的使用。
进一步,步骤S1中,训练数据包括至少一种敏感信息实例及其对应的标签,敏感信息包括姓名、职业、地域和国籍信息。
进一步,步骤S2中,对数据进行全面的分类评估,包括精确率、准确率、召回率和F1值指标的macro宏观和micro微观结果,也包括单独类别下的精确率、准确率、召回率和F1值评估指标结果。
进一步,步骤S2中的评估步骤具体包括:
S21:分别对基于历史模型得到的分类结果、基于规则模型得到的分类结果、基于深度学习模型得到的分类结果及综合上述三个模型的分类结果加权获得的综合分类结果去计算macro宏观精确率、准确率、召回率和F1值,具体计算参见下述公式;
S22:分别对基于历史模型得到的分类结果、基于规则模型得到的分类结果、基于深度学习模型得到的分类结果及综合上述三个模型的分类结果加权获得的综合分类结果去计算micro微观精确率、准确率、召回率和F1值,具体计算参见下述公式;
S23:计算每个类别下的精确率、准确率、召回率和F1值,具体计算参见下述公式。
精确率、召回率、准确率及F1值的概念以及计算方式为:
(1)精确率(Precision):也叫查准率,即正确预测为正类的数量占全部预测为正类的数量的比例。公式如下所示:
其中,TP为真正例,即实际为正样本模型也预测为正样本的数量;FP为假正例,即实际为负样本模型预测为正样本的数量;
(2)召回率(Recall):也叫查全率,即正确预测为正类的数量占全部实际为正类的数量的比例。公式如下所示:
其中,FN为假负例,即实际为正样本模型预测为负样本的数量;
(3)准确率(Accuracy):就是所有的预测正确(正类负类)的数量占总数量的比例。公式如下所示:
其中,TN为真负例,即实际为负样本模型也预测为负样本的数量;
(4)F1值(H-mean值):F1值就是精确值和召回率的调和均值,准确率和召回率是互相影响的,但是一般情况下准确率高、召回率就低,召回率低、准确率高,所以实际应用中要根据业务去考虑二者的衡量,此指标能够更好的衡量模型分类的结果。公式如下所示:
公式转化之后,可得:
其中,P为精确率,是Precision的简写;R为召回率,是Recall的简写;PR是精确率与召回率的相乘。
进一步,执行S4的训练步骤具体包括:
S41:训练更新历史模型;
S42:训练深度学习模型;
在执行步骤S42时,将数据集分为训练和验证部分,具体训练模型步骤包括:
S421:对数据进行预处理,包含的步骤为:对数据分别进行中文及非中文的判断并分割数据、获取数据的token、根据token转换获得数据的token嵌入向量、segment嵌入向量及mask嵌入向量;
S422:将上步获得的所有嵌入向量输入到Bert模型,输出的结果向量进行拼接形成词向量,并与权重向量相乘形成句向量;
S423:上步获得的句向量输入到分类器中,输出分类器的分类结果向量,分类器包含MLP、LR网络;
S424:上步获得的分类结果向量输入到一层全连接层中,输出分类的结果。
进一步,步骤S4将模型训练完毕后,多次执行重复训练,在训练期间对模型进行验证和调优,以保证训练的模型的效果。
进一步,步骤S6中,对推理数据的推理具体包括以下步骤:
S61:加载历史模型;
S62:依据推理需求选择是否加载深度学习模型,是则按步骤进行推理,反之则跳过S66;
S63:选择是否将S2获得的历史F1值作为加权权重,是则加载S2获得的历史评估结果,反之则用1作为等效加权权重;
S64:进行历史模型推理,得到历史模型推理结果;
S65:进行规则模型推理,得到规则模型推理结果;
S66:进行深度学习模型推理,得到深度学习模型推理结果;
S67:获得的历史模型推理结果、规则模型推理结果及深度学习模型推理结果分别与S63中的加权权重相乘,获得最终的推理结果。
进一步,步骤S65中,对规则模型推理进一步包括以下步骤:
S651:根据选择的模式进行相应的推理方式,若选择single模式,则执行步骤S653-S655,反之若选择multiple模式,则执行步骤S652;
S652:获取规则识别函数列表,对输入的推理数据分别进行列表中每一个规则的识别,返回结果;
S653:对输入的推理数据进行全区域的识别,识别成功则返回结果,否则执行步骤S654;
S654:对输入的推理数据进行中英数分割,分成数英区段及中文区段,若数英区段存在,则对输入的数英区段进行数英区域识别,识别成功则返回结果,若中文区段存在,则对输入的中文区段进行中文区域识别,识别成功则返回结果,反之则执行步骤S655;
S655:对输入的推理数据进行数英分割,分成数字区段及英文区段,若数字区段存在,则对输入的数字区段进行数字区域识别,识别成功则返回结果,若英文区段存在,则对输入的英文区段进行英文区域识别,识别成功则返回结果。
进一步,步骤S66中,对深度学习模型推理进一步包括以下步骤:
S661:对数据进行预处理,包含的步骤为:对数据分别进行中文及非中文的判断并分割数据、获取数据的token、根据token转换获得数据的token嵌入向量、segment嵌入向量及mask嵌入向量;
S662:将上步获得的所有嵌入向量输入到Bert模型,输出的结果向量进行拼接形成词向量,并与权重向量相乘形成句向量;
S663:上步获得的句向量输入到分类器中,输出分类器的分类结果向量;
S664:上步获得的分类结果向量输入到一层全连接层中,输出分类的结果。
另一方面,本发明提供一种敏感数据发现与识别的深度学习系统,所述系统用于实现根据本发明所述的敏感数据发现与识别的深度学习方法。
进一步,所述系统包括评估模块,用于实现步骤S1-S2;训练模块,用于实现步骤S3-S4;推理模块,用于实现步骤S5-S6;在线打标纠正模块,用于实现步骤S7。
本发明技术方案中通过对原始数据进行加工预处理,将数据集输入到深度学习模型进行训练,得到准确的分类模型,基于深度学习的模型可以更好地学习及表征文本数据中的每一个词,同时结合规则预测结果、历史预测结果、模型预测结果的加权方式的输出,可以对不同的类型的数据进行全面的敏感数据识别,有效提高识别准确率。
本发明提出的敏感数据发现与识别的深度学习方法及系统,其有益效果在于:
1、采用Bert模型与线性模型相结合的方式对数据进行语义学习,使得深度学习模型部分具有很好的算法表达能力,准确率得到提升。
2、采用基于历史的模型、基于规则的模型及基于深度学习的模型分别学习,然后推理时通过将这三种模型的推理输出结果进行加权获得最终的结果的方式,有效结合了多种方法的优点,使得整体输出的结果的准确率得到提升。
附图说明
图1示出了根据本发明实施例一种数据治理场景下敏感数据发现与识别的深度学习方法及系统的训练流程示意图;
图2示出了根据本发明实施例一种数据治理场景下敏感数据发现与识别的深度学习方法及系统的算法架构示意图。
具体实施方式
下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合图1、图2对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明公开了一种数据治理场景下的敏感数据发现与识别的深度学习方法及系统。所述方法和系统的设计思路如下:
本方法和系统基于基础Bert模型实现,Bert模型是基于Transformer模型发展而来,顾名思义,即双向Transformer的Encoder。在结构上每个block由多头self-attention、标准化(Norm)、残差连接、Feed Fordawrd组成,由此可见,Transformer是组成Bert的核心模块,attention机制是Transformer中最关键的部分,因此,Transformer和attention是Bert的两个核心点。下面我们从attention机制开始,具体说明如何利用attention机制构建Transformer模块,并在此基础上用多层Transformer组装Bert模型。
本方法和系统中涉及的attention机制:
attention的作用是为了让计算机有权重的关注自己感兴趣的特征,主要涉及三个概念:Query、Key和Value,可以简单描述为将一个查询(query)和一组键值对(key-value)映射到一个输出(output),这里的query、keys、values和output都是向量。output通过values的加权求和来计算,这里的权重通过一个query和对应的key的兼容函数来计算。
self-attention是Bert的重要思想,其与位置编码结合解决了文本数据的时序相关性的问题,从而一举结束了依靠RNN、LSTM、GRU等之前一直用来解决时序问题的网络模型的问题。self-attention是信息向前传播时动态的计算权重的一种方式,与CNN常见的maxpooling、meanpooling不同的是,attention模型是经过训练,当不同信息传入时,自动的调整权重的一种结构。
在训练语言模型时,有一个挑战就是要定义一个预测目标,双向的方法在这样的任务中是有限制的,为了克服这个问题,Bert模型中使用MLM策略和NSP策略:
1、Masked LM(MLM)策略
在将单词序列输入给Bert之前,每个序列中有15%的单词被[MASK] token 替换。然后模型尝试基于序列中其他未被mask的单词的上下文来预测被掩盖的原单词。
实现步骤如下:(1)在encoder的输出上添加一个分类层;(2)用嵌入矩阵乘以输出向量,将其转换为词汇的维度;(3)用softmax计算词汇表中每个单词的概率。
Bert的损失函数只考虑了mask的预测值,忽略了没有掩蔽的词的预测。这样导致模型比单向模型收敛慢,但是结果的情境意识相比单向模型增加了。
2、Next Sentence Prediction(NSP)策略
在Bert的训练过程中,模型接收成对的句子作为输入,并且预测其中第二个句子是否在原始文档中也是后续句子。在训练期间,50%的输入对在原始文档中是前后关系,另外50%中是从语料库中随机组成的,并且是与第一句断开的。为了帮助模型区分开训练中的两个句子,输入在进入模型之前要按以下方式进行处理:(1)在第一个句子的开头插入[CLS]标记,在每个句子的末尾插入[SEP]标记;(2)将表示句子A或句子B的一个句子嵌入向量添加到每个token上;(3)给每个token添加一个位置嵌入向量来表示它在序列中的位置。为了预测第二个句子是否是第一个句子的后续句子,用下面几个步骤来预测:
(1)整个输入序列输入给Transformer模型;
(2)用一个分类层将[CLS]标记的输出变换为2×1形状的向量;
(3)用softmax计算IsNextSequence的概率。
在训练Bert模型时,MLM策略和NSP策略是一起训练的,目标就是要最小化两种策略的组合损失函数。
本方法和系统的分类器部分是基于多层感知机MLP或者逻辑回归LR实现的。
多层感知机由感知机推广而来。它最主要的特点是有多个神经元层,因此也叫深度神经网络。感知机是单个神经元模型,是较大神经网络的前身。神经网络的强大之处在于它们能够学习训练数据中的表示以及如何将其与想要预测的输出变量联系起来。神经网络的预测能力来自网络的分层或多层结构,多层感知机至少具有三层节点,即输入层,一个中间层和输出层。每个网络层中的每个节点都连接到相邻层中的每个节点。层间信号的传递使用下述公式进行,即:
y=f(Wx + b)
其中,f为激活函数,常见的激活函数有sigmoid函数、tanh函数。W为网络层权重矩阵,x为传递的向量,b为偏置项。
逻辑回归也被称为广义线性回归模型,形式为ax+b,其中a和b是待求参数,通过Sigmoid函数将ax+b结果对应到一个隐状态p,p = Sigmoid(ax+b),然后根据p与1-p的大小决定因变量的值。逻辑回归它假设数据服从伯努利分布,通过极大似然函数的方法,运用梯度下降来求解参数,来达到将数据分类的目的。
如图1所示,一种数据治理场景下的敏感数据发现与识别的深度学习方法,所述方法的流程框架包括以下步骤:
评估模块:
S1:触发训练机制,获取训练数据;
本步骤中获取用于训练模型的训练数据为文本数据形式,文本数据包括中文数据和非中文数据。包括至少一种敏感信息实例及其对应的标签,敏感信息包括姓名、职业、地域和国籍等信息。
S2:对用户纠正后的推理结果数据进行评估,获得评估的结果;
训练模块:
S3:加载历史规则模型和历史深度学习模型,分别用于规则模型的训练更新及深度学习模型的训练更新;
S4:进行深度学习模型的迭代训练,直至模型稳定收敛,生成新的模型集;
推理模块:
S5:获取推理数据;
S6:使用训练得到的模型集及推理数据做算法推理,获得结果反馈给用户;
在线打标纠正模块:
S7:用户对结果进行纠正打标,产生的新样本用于评估及训练部分的使用。
具体地,在执行步骤S2时,对用户纠正后的推理结果数据进行全面的分类评估,包括精确率、准确率、召回率和F1值指标的宏结果,也包括单独类别下的精确率、准确率、召回率和F1值评估指标结果。
对步骤S2的评估步骤具体包括:
S21:分别对基于历史模型得到的分类结果、基于规则模型得到的分类结果、基于深度学习模型得到的分类结果及综合上述三个模型的分类结果加权获得的综合分类结果去计算macro宏观精确率、准确率、召回率和F1值,具体计算参见下述公式;
S22:分别对基于历史模型得到的分类结果、基于规则模型得到的分类结果、基于深度学习模型得到的分类结果及综合上述三个模型的分类结果加权获得的综合分类结果去计算micro微观精确率、准确率、召回率和F1值,具体计算参见下述公式;
S23:计算每个类别下的精确率、准确率、召回率和F1值,具体计算参见下述公式。
本发明涉及的算法属于广义机器学习分类任务的领域,尤其是二分类任务,可以引入如下的评估中涉及的概念:
混淆矩阵:对模型分类的结果进行展示,可以很直观的体现出模型预测分类的结果与实际的类别之间的情况,如下图所示;
由此,可以得到精确率、召回率、准确率及F1值的概念以及计算方式为:
(1)精确率(Precision):也叫查准率,即正确预测为正类的数量占全部预测为正类的数量的比例。公式如下所示:
其中,TP为真正例,即实际为正样本模型也预测为正样本的数量;FP为假正例,即实际为负样本模型预测为正样本的数量;
(2)召回率(Recall):也叫查全率,即正确预测为正类的数量占全部实际为正类的数量的比例。公式如下所示:
其中,FN为假负例,即实际为正样本模型预测为负样本的数量;
(3)准确率(Accuracy):就是所有的预测正确(正类负类)的数量占总数量的比例。公式如下所示:
其中,TN为真负例,即实际为负样本模型也预测为负样本的数量;
(4)F1值(H-mean值):F1值就是精确值和召回率的调和均值,准确率和召回率是互相影响的,但是一般情况下准确率高、召回率就低,召回率低、准确率高,所以实际应用中要根据业务去考虑二者的衡量,此指标能够更好的衡量模型分类的结果。公式如下所示:
公式转化之后,可得:
其中,P为精确率,是Precision的简写;R为召回率,是Recall的简写; PR是精确率与召回率的相乘。
这里,macro宏观与micro微观的含义为:
macro宏观:把每个类别都当成二分类,分别计算出各个类别对应的精确率,召回率及F1值, 然后求所有类别的精确率,召回率及F1值的平均值,得到最终的精确率,召回率及F1值。这里假设所有分类都是一样的重要,所以整体结果受小类别(数量比较少的类别)的影响比较大。
micro微观:把各个类别当成二分类,统计各自的混淆矩阵,然后统计加和比例得到一个最终的混淆矩阵,再计算精确率,召回率及F1值。
执行S4的训练步骤具体包括:
S41:训练更新历史模型;
S42:训练深度学习模型;
在执行步骤S42时,将训练数据分为训练部分和验证部分,具体训练模型步骤包括:
S421:对训练数据进行预处理,包含的步骤为:对训练数据分别进行中文及非中文的判断并分割数据、获取数据的token、根据token转换获得数据的token嵌入向量、segment嵌入向量及mask嵌入向量;
S422:将上步获得的所有嵌入向量输入到Bert模型,输出的结果向量进行拼接形成词向量,并与权重向量相乘形成句向量;
S423:上步获得的句向量输入到分类器中,输出分类器的分类结果向量,分类器包含MLP、LR等网络;
S424:上步获得的分类结果向量输入到一层全连接层中,输出分类的结果。
步骤S4将深度学习模型训练完毕,一般是多次执行,在训练期间还要对模型进行验证和调优,以保证训练的模型的效果。
执行步骤S6时,对推理数据的推理具体包括以下步骤:
S61:加载历史模型;
S62:依据推理需求选择是否加载深度学习模型,是则按步骤进行推理,反之则跳过S66;
S63:选择是否将S2获得的历史F1值作为加权权重,是则加载S2获得的历史评估结果,反之则用1作为等效加权权重;
S64:进行历史模型推理,得到历史模型推理结果;
S65:进行规则模型推理,得到规则模型推理结果;
S66:进行深度学习模型推理,得到深度学习模型推理结果;
S67:获得的历史模型推理结果、规则模型推理结果及深度学习模型推理结果分别与S63中的加权权重相乘,获得最终的推理结果。
此外,执行步骤S65时,对规则模型推理进一步包括以下步骤:
S651:根据选择的模式进行相应的推理方式,若选择single模式,则执行步骤S653-S655,反之若选择multiple模式,则执行步骤S652;
S652:获取规则识别函数列表,对输入的推理数据分别进行列表中每一个规则的识别,返回结果;
S653:对输入的推理数据进行全区域的识别,识别成功则返回结果,否则执行步骤S654;
S654:对输入的推理数据进行中英数分割,分成数英区段及中文区段,若数英区段存在,则对输入的数英区段进行数英区域识别,识别成功则返回结果,若中文区段存在,则对输入的中文区段进行中文区域识别,识别成功则返回结果,反之则执行步骤S655;
S655:对输入的推理数据进行数英分割,分成数字区段及英文区段,若数字区段存在,则对输入的数字区段进行数字区域识别,识别成功则返回结果,若英文区段存在,则对输入的英文区段进行英文区域识别,识别成功则返回结果。
此外,执行步骤S66时,如图2所示,对深度学习模型推理进一步包括以下步骤:
S661:对数据进行预处理,包含的步骤为:对数据分别进行中文及非中文的判断并分割数据、获取数据的token、根据token转换获得数据的token嵌入向量、segment嵌入向量及mask嵌入向量;
S662:将上步获得的所有嵌入向量输入到Bert模型,输出的结果向量进行拼接形成词向量,并与权重向量相乘形成句向量;
S663:上步获得的句向量输入到分类器中,输出分类器的分类结果向量;
S664:上步获得的分类结果向量输入到一层全连接层中,输出分类的结果。
图2为深度学习算法部分的框架,执行的具体过程体现为图1中整体流程图的S42中的S421步骤-S424步骤及S66中的S661步骤-S664步骤,即涉及到训练和推理时,都会执行图2中的算法架构部分,所以我对图2的标注改为了同时表示这两个阶段。这部分具体分为:(1)数据分词分割,获得tokens,对tokens转换成词表对应的id号并做padding,形成数据的token嵌入向量、segment嵌入向量及mask嵌入向量;(2)将(1)中获得的向量直接输入到Bert模型中,对Bert输出的向量做拼接形成词向量,与权重向量相乘获得句向量;(3)将(2)中获得的句向量输入到多层的分类器中学习,这里的分类器可以是MLP模型或者LR模型,输出中间向量;(4)将(3)中获得的向量输入到一层全连接层,获取模型的分类结果。
作为一个实施例,本专利实际部署在服务器端作为一个服务供调用,以推理过程作为说明,输入是csv形式,单条数据由键、值这条数据的类型组成,分块读取数据,对每块数据按照中文及非中文的判别标准进行分割,并使用中英文分词器分别对中文及英文分词,获得各自对应的tokens,然后对tokens做转换及padding操作,形成数据块的token嵌入向量、segment嵌入向量及mask嵌入向量,代入Bert模型推理,输出的向量进行拼接形成词向量word embedding,将获得的词向量word embedding和权重向量相乘,形成句向量sentence embedding,把句向量sentence embedding代入分类器中推理,得到分类器结果向量,然后再通过一层全联接层就得到模型结果,即结果类别及对应概率。
此外,本发明提供的敏感数据发现与识别的深度学习系统,所述系统包括评估模块,用于实现步骤S1-S2;训练模块,用于实现步骤S3-S4;推理模块,用于实现步骤S5-S6;在线打标纠正模块,用于实现步骤S7。本发明提供的数据治理场景下的敏感数据发现与识别的深度学习方法及系统,合理有效,可以通过对原始数据进行加工预处理,将数据集输入到深度学习模型进行训练,得到准确的分类模型,基于深度学习的模型可以更好地学习及表征文本数据中的每一个词,同时结合规则、历史、模型的加权方式的输出,可以达到对不同的类型的数据进行全面的识别,识别的准确率高,可以对敏感信息进行很好的保护。 采用Bert模型与线性模型相结合的方式对数据进行语义学习,使得深度学习模型部分具有很好的算法表达能力,有效提高识别准确率。采用基于历史的模型、基于规则的模型及基于深度学习的模型分别学习,然后推理时通过将这三种模型的推理输出结果进行加权获得最终的结果的方式,有效结合了多种方法的优点,使得整体输出的结果的准确率得到提升。
在本说明书的描述中,参考术语“实施例”、“示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外,本领域的技术人员可以在不产生矛盾的情况下,将本说明书中描述的不同实施例或示例以及其中的特征进行结合或组合。
上述内容虽然已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型等更新操作。
Claims (10)
1.一种敏感数据发现与识别的深度学习方法,其特征在于,所述方法包括以下步骤:
S1:触发训练机制,获取训练数据;
S2:对用户纠正后的推理结果数据进行评估,获得评估的结果;
S3:加载历史规则模型和历史深度学习模型;
S4:进行深度学习模型的迭代训练,直至模型稳定收敛,生成新的模型集;
S5:获取推理数据;
S6:使用训练得到的模型集及推理数据做算法推理,获得结果反馈给用户;
S7:用户对结果进行纠正打标,产生的新样本用于评估及训练部分的使用。
2.根据权利要求1所述的一种敏感数据发现与识别的深度学习方法,其特征在于,步骤S1中,训练数据包括至少一种敏感信息实例及其对应的标签,敏感信息包括姓名、职业、地域和国籍信息。
3.根据权利要求2所述的一种敏感数据发现与识别的深度学习方法,其特征在于,步骤S2中,对数据进行全面的分类评估,包括精确率、准确率、召回率和F1值指标的macro宏观和micro微观结果,也包括单独类别下的精确率、准确率、召回率和F1值评估指标结果。
4.根据权利要求3所述的一种敏感数据发现与识别的深度学习方法,其特征在于,步骤S2中的评估步骤具体包括:
S21:分别对基于历史模型得到的分类结果、基于规则模型得到的分类结果、基于深度学习模型得到的分类结果及综合上述三个模型的分类结果加权获得的综合分类结果去计算macro宏观的精确率、准确率、召回率和F1值,具体计算参见下述公式;
S22:分别对基于历史模型得到的分类结果、基于规则模型得到的分类结果、基于深度学习模型得到的分类结果及综合上述三个模型的分类结果加权获得的综合分类结果去计算micro微观的精确率、准确率、召回率和F1值,具体计算参见下述公式;
S23:计算每个类别下的精确率、准确率、召回率和F1值,具体计算参见下述公式;
精确率、召回率、准确率及F1值的概念以及计算方式为:
(1)精确率Precision:也叫查准率,即正确预测为正类的数量占全部预测为正类的数量的比例;公式为:
其中,TP为真正例,即实际为正样本模型也预测为正样本的数量;FP为假正例,即实际为负样本模型预测为正样本的数量;
(2)召回率Recall:也叫查全率,即正确预测为正类的数量占全部实际为正类的数量的比例;公式为:
其中,FN为假负例,即实际为正样本模型预测为负样本的数量;
(3)准确率Accuracy:就是所有的预测正确的数量占总数量的比例;公式为:
其中,TN为真负例,即实际为负样本模型也预测为负样本的数量;
(4)F1值:F1值就是精确值和召回率的调和均值,准确率和召回率是互相影响的,F1值能够衡量模型分类的结果;公式为:
公式转化之后,可得:
其中,P为精确率,是Precision的简写;R为召回率,是Recall的简写; PR是精确率与召回率的相乘;
其中,macro宏观:把每个类别都当成二分类,分别计算出各个类别对应的精确率、准确率、召回率及F1值, 然后求所有类别的精确率,准确率、召回率及F1值的平均值,得到最终的精确率、准确率、召回率及F1值;
micro微观:把各个类别当成二分类,统计各自的混淆矩阵,然后统计加和比例得到一个最终的混淆矩阵,再计算精确率、准确率、召回率及F1值。
5.根据权利要求4所述的一种敏感数据发现与识别的深度学习方法,其特征在于,执行S4的训练步骤具体包括:
S41:训练更新历史模型;
S42:训练深度学习模型;
在执行步骤S42时,将训练数据分为训练和验证部分,具体训练模型步骤包括:
S421:对训练数据进行预处理,包含的步骤为:对数据分别进行中文及非中文的判断并分割数据、获取数据的token、根据token转换获得数据的token嵌入向量、segment嵌入向量及mask嵌入向量;
S422:将上步获得的所有嵌入向量输入到Bert模型,输出的结果向量进行拼接形成词向量,并与权重向量相乘形成句向量;
S423:上步获得的句向量输入到分类器中,输出分类器的分类结果向量;
S424:上步获得的分类结果向量输入到一层全连接层中,输出分类的结果。
6.根据权利要求5所述的一种敏感数据发现与识别的深度学习方法,其特征在于,步骤S4将模型训练完毕后,多次执行重复训练,在训练期间对模型进行验证和调优,以保证训练的模型的效果。
7.根据权利要求6所述的一种敏感数据发现与识别的深度学习方法,其特征在于,步骤S6中,对数据的推理具体包括以下步骤:
S61:加载历史模型;
S62:依据推理需求选择是否加载深度学习模型,是则按步骤进行推理,反之则跳过S66;
S63:选择是否将S2获得的历史F1值作为加权权重,是则加载S2获得的历史评估结果,反之则用1作为等效加权权重;
S64:进行历史模型推理,得到历史模型推理结果;
S65:进行规则模型推理,得到规则模型推理结果;
S66:进行深度学习模型推理,得到深度学习模型推理结果;
S67:获得的历史模型推理结果、规则模型推理结果及深度学习模型推理结果分别与S63中的加权权重相乘,获得最终的推理结果。
8.根据权利要求7所述的一种敏感数据发现与识别的深度学习方法,其特征在于,步骤S65中,对规则模型推理进一步包括以下步骤:
S651:根据选择的模式进行相应的推理方式,若选择single模式,则执行步骤S653-S655,反之若选择multiple模式,则执行步骤S652;
S652:获取规则识别函数列表,对输入的推理数据分别进行列表中每一个规则的识别,返回结果;
S653:对输入的推理数据进行全区域的识别,识别成功则返回结果,否则执行步骤S654;
S654:对输入的推理数据进行中英数分割,分成数英区段及中文区段,若数英区段存在,则对输入的数英区段进行数英区域识别,识别成功则返回结果,若中文区段存在,则对输入的中文区段进行中文区域识别,识别成功则返回结果,反之则执行步骤S655;
S655:对输入的推理数据进行数英分割,分成数字区段及英文区段,若数字区段存在,则对输入的数字区段进行数字区域识别,识别成功则返回结果,若英文区段存在,则对输入的英文区段进行英文区域识别,识别成功则返回结果。
9.根据权利要求8所述的一种敏感数据发现与识别的深度学习方法,其特征在于,步骤S66中,对深度学习模型推理进一步包括以下步骤:
S661:对数据进行预处理,包含的步骤为:对数据分别进行中文及非中文的判断并分割数据、获取数据的token、根据token转换获得数据的token嵌入向量、segment嵌入向量及mask嵌入向量;
S662:将上步获得的所有嵌入向量输入到Bert模型,输出的结果向量进行拼接形成词向量,并与权重向量相乘形成句向量;
S663:上步获得的句向量输入到分类器中,输出分类器的分类结果向量;
S664:上步获得的分类结果向量输入到一层全连接层中,输出分类的结果。
10.一种敏感数据发现与识别的深度学习系统,其特征在于,所述系统用于实现根据权利要求1-9任一项所述的敏感数据发现与识别的深度学习方法,所述系统包括评估模块,用于实现步骤S1-S2;训练模块,用于实现步骤S3-S4;推理模块,用于实现步骤S5-S6;在线打标纠正模块,用于实现步骤S7。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210979823.8A CN115081629A (zh) | 2022-08-16 | 2022-08-16 | 一种敏感数据发现与识别的深度学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210979823.8A CN115081629A (zh) | 2022-08-16 | 2022-08-16 | 一种敏感数据发现与识别的深度学习方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115081629A true CN115081629A (zh) | 2022-09-20 |
Family
ID=83245387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210979823.8A Pending CN115081629A (zh) | 2022-08-16 | 2022-08-16 | 一种敏感数据发现与识别的深度学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115081629A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115455746A (zh) * | 2022-11-10 | 2022-12-09 | 中国人民解放军海军工程大学 | 一种核动力装置运行监测数据异常检测与校正一体化方法 |
CN116894427A (zh) * | 2023-09-08 | 2023-10-17 | 联通在线信息科技有限公司 | 一种中英文信息融合的数据分级方法、服务器及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104731976A (zh) * | 2015-04-14 | 2015-06-24 | 海量云图(北京)数据技术有限公司 | 数据表中隐私数据的发现与分类方法 |
CN111259151A (zh) * | 2020-01-20 | 2020-06-09 | 广州多益网络股份有限公司 | 一种混合文本敏感词变体识别方法和装置 |
CN111414520A (zh) * | 2020-03-19 | 2020-07-14 | 南京莱斯网信技术研究院有限公司 | 一种舆情信息中敏感信息的智能挖掘系统 |
CN112001185A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种结合中文句法和图卷积神经网络的情感分类方法 |
CN112507376A (zh) * | 2020-12-01 | 2021-03-16 | 浙商银行股份有限公司 | 一种基于机器学习的敏感数据检测方法及装置 |
CN113868497A (zh) * | 2021-09-28 | 2021-12-31 | 绿盟科技集团股份有限公司 | 一种数据分类方法、装置和存储介质 |
CN114896396A (zh) * | 2022-04-26 | 2022-08-12 | 携程旅游信息技术(上海)有限公司 | 文本分类及模型训练方法、系统、设备及存储介质 |
-
2022
- 2022-08-16 CN CN202210979823.8A patent/CN115081629A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104731976A (zh) * | 2015-04-14 | 2015-06-24 | 海量云图(北京)数据技术有限公司 | 数据表中隐私数据的发现与分类方法 |
CN111259151A (zh) * | 2020-01-20 | 2020-06-09 | 广州多益网络股份有限公司 | 一种混合文本敏感词变体识别方法和装置 |
CN111414520A (zh) * | 2020-03-19 | 2020-07-14 | 南京莱斯网信技术研究院有限公司 | 一种舆情信息中敏感信息的智能挖掘系统 |
CN112001185A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种结合中文句法和图卷积神经网络的情感分类方法 |
CN112507376A (zh) * | 2020-12-01 | 2021-03-16 | 浙商银行股份有限公司 | 一种基于机器学习的敏感数据检测方法及装置 |
CN113868497A (zh) * | 2021-09-28 | 2021-12-31 | 绿盟科技集团股份有限公司 | 一种数据分类方法、装置和存储介质 |
CN114896396A (zh) * | 2022-04-26 | 2022-08-12 | 携程旅游信息技术(上海)有限公司 | 文本分类及模型训练方法、系统、设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115455746A (zh) * | 2022-11-10 | 2022-12-09 | 中国人民解放军海军工程大学 | 一种核动力装置运行监测数据异常检测与校正一体化方法 |
CN116894427A (zh) * | 2023-09-08 | 2023-10-17 | 联通在线信息科技有限公司 | 一种中英文信息融合的数据分级方法、服务器及存储介质 |
CN116894427B (zh) * | 2023-09-08 | 2024-02-27 | 联通在线信息科技有限公司 | 一种中英文信息融合的数据分级方法、服务器及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kaliyar et al. | FNDNet–a deep convolutional neural network for fake news detection | |
Deng et al. | Meta-learning with dynamic-memory-based prototypical network for few-shot event detection | |
Nguyen et al. | Graph convolutional networks with argument-aware pooling for event detection | |
Xie et al. | Does william shakespeare really write hamlet? knowledge representation learning with confidence | |
US20200279105A1 (en) | Deep learning engine and methods for content and context aware data classification | |
CN115081629A (zh) | 一种敏感数据发现与识别的深度学习方法及系统 | |
US20230075341A1 (en) | Semantic map generation employing lattice path decoding | |
Sharmin et al. | Attention-based convolutional neural network for Bangla sentiment analysis | |
Wang et al. | Learning from language description: Low-shot named entity recognition via decomposed framework | |
US11663406B2 (en) | Methods and systems for automated detection of personal information using neural networks | |
Xu et al. | BERT-based NLP techniques for classification and severity modeling in basic warranty data study | |
Tasche | Does quantification without adjustments work? | |
Ozmen et al. | Multi-relation message passing for multi-label text classification | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN116910279A (zh) | 标签提取方法、设备及计算机可读存储介质 | |
Rathore et al. | Complaint classification using word2vec model | |
CN114444517A (zh) | 一种量刑标准知识增强的数值感知的智能法律判决方法 | |
Sha et al. | Rationalizing predictions by adversarial information calibration | |
Jiang et al. | Sentiment classification based on clause polarity and fusion via convolutional neural network | |
Wang et al. | Event extraction via dmcnn in open domain public sentiment information | |
Khan et al. | Towards Fairness in Multimodal Scene Graph Generation: Mitigating Biases in Datasets, Knowledge Sources and Models. | |
Gao et al. | Few-shot fake news detection via prompt-based tuning | |
Rosander et al. | Email Classification with Machine Learning and Word Embeddings for Improved Customer Support | |
Yu et al. | Multi‐scale event causality extraction via simultaneous knowledge‐attention and convolutional neural network | |
Kleenankandy et al. | Recognizing semantic relation in sentence pairs using Tree-RNNs and Typed dependencies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220920 |