发明内容
因此,本发明要解决的技术问题在于现有技术中敏感数据识别方法的准确率较低,从而提供一种基于标签分布学习的敏感数据智能识别方法。
根据第一方面,本发明实施例公开了一种训练基于标签分布学习的敏感数据识别模型的方法,包括:
获取多个已知结果的训练样本;
根据标签分布学习算法以及所述训练样本生成训练样本的标签分布集合;
根据所述标签分布集合确定预设神经网络的参数,得到神经网络模型;
根据多个已知结果的训练样本对所述神经网络模型进行迭代训练,得到敏感数据识别模型。
可选地,根据所述标签分布集合确定预设神经网络的参数,得到神经网络模型,包括:
根据所述标签分布集合确定预设神经网络的提取特征参数;
根据交叉熵损失确定预设神经网络的损失函数;
所述损失函数可以通过如下公式表示:
其中,Loss表示损失函数,
表示第i个样本数据对第m个标签的分布值,
表示第i个样本数据属于第m个标签的预测概率,N表示样本数量,q代表标签数量;
根据所述提取特征参数、所述损失函数、近似度参数以及预设近似度阈值确定神经网络模型。
可选地,根据标签分布学习算法以及所述训练样本生成训练样本的标签分布集合,包括:
获取文档词汇集合;
计算词汇与标签之间的相关度;
计算词汇与样本之间的相关度;
生成训练样本的标签分布集合。
可选地,所述计算词汇与标签之间的相关度包括:
计算词汇标签显著性参数;所述词汇标签显著性参数为词汇在同标签词汇集合出现的频率,所述同标签词汇集合为所述文档词汇集合中被标记为相同标签的词汇集合;
所述词汇标签显著性参数可以通过如下公式表示:
其中,
表示文档词汇集合C中单词w
j对第m个标签的显著性,
为单词w
j在X
m中出现的次数,X
m是文档词汇集合C中被标记为标签m的单词集合;
计算标签相关度参数;所述标签相关度参数为能够与词汇匹配的标签在标签集合中的比例;
所述标签相关度参数可以通过如下公式表示:
其中,L是标签的集合,|L|是集合L中元素的个数。
表示为单词w
j在标签集合L中包含w
j的标签的个数;
计算词汇标签相关度;所述词汇标签相关度为所述词汇标签显著性参数与所述词汇标签相关度参数的乘积;
所述词汇标签相关度可以通过如下公式表示:
其中,
为文档词汇集合C中单词w
j对第m个标记的标签相关度。
可选地,所述计算词汇与样本之间的相关度包括:
计算词汇样本显著性参数;所述词汇样本显著性参数为词汇在同样本词汇集合出现的频率,所述同样本词汇集合为同一所述样本的词汇集合;
所述词汇样本显著性参数可以通过如下公式表示:
其中,
表示文档词汇集合C中单词w
j对第i个训练样本的显著性,
为单词w
j在y
i中出现的次数,y
i是第i个训练样本中所有词汇的集合;
计算样本相关度参数;所述样本相关度参数为能够与词汇匹配的样本在样本集合中的比例;
所述样本相关度参数可以通过如下公式表示:
其中,S是训练样本的集合,|S|是集合S中训练样本的个数。
表示为单词w
j在训练样本集合S中包含w
j的训练样本的个数;
计算词汇样本相关度;所述词汇样本相关度为所述词汇样本显著性参数和所述样本相关度参数的乘积;
所述词汇样本相关度可以通过如下公式表示:
其中,
为文档词汇集合C中单词w
j对训练样本集中第i个训练样本的相关度。
可选地,所述生成训练样本的标签分布集合包括:
计算样本标签相关度参数;所述样本标签相关度参数为所述词汇标签相关度与所述词汇样本相关度的乘积;
所述样本标签相关度参数可以通过如下公式表示:
其中,ILRi,m是第i个样本与第m个标签的相关度;
计算标签分布集合;所述标签分布集合为单个词汇样本标签相关度参数占所有词汇样本标签相关度参数;
所述训练样本的标签分布集合可以通过如下公式表示:
其中,Di为第i个样本的标签分布集合,q为标签的数量。
根据第二方面,本发明实施例公开了一种基于标签分布学习的敏感数据识别方法,包括:
获取待测样本;
将待测样本输入到如本发明实施例第一方面所述的训练基于标签分布学习的敏感数据识别模型的方法生成的敏感数据识别模型中,得到待测样本的敏感数据识别结果。
可选地,将待测样本输入到训练基于标签分布学习的敏感数据识别模型的方法生成的敏感数据识别模型中,得到待测样本的敏感数据识别结果,包括:
将待测样本输入到所述敏感数据识别模型中;
根据所述敏感数据识别模型提取待测样本的标签分布集合;
利用所述敏感数据识别模型遍历训练样本的标签分布集合,确定与待测样本的标签分布集合最接近的训练样本;
采用所述敏感数据识别模型确定最接近训练样本的敏感数据识别结果作为待测样本的敏感数据识别结果输出。
可选地,所述利用所述敏感数据识别模型遍历训练样本的标签分布集合,确定与待测样本的标签分布集合最接近的训练样本包括:
遍历训练样本的标签分布集合;
分别计算待测样本与每一个训练样本之间的近似度参数;
当近似度参数最小且小于预设的近似度阈值时,将对应的训练样本作为与待测样本最接近的训练样本。
可选地,所述近似度参数利用K-L散度值表示,所述K-L散度值可以通过以下公式表示:
其中,dis表示K-L散度值,Pj表示待测样本的标签分布集合,Qj表示训练样本的标签分布合集。
本发明技术方案,具有如下优点:
1.本发明提供的一种训练基于标签分布学习的敏感数据识别模型的方法及装置,通过标签分布算法以及预设参数,建立神经网络模型,能够使用多个标签对被检测数据的概率化描述。通过利用训练样本对神经网络模型进行训练,能够将被检测数据文档与多个敏感数据相关的标签相对应,将文档数据转化为了数学模型,便于机器识别。
2.本发明提供的一种基于标签分布学习的敏感数据识别方法及装置,通过将待测样本输入神经网络模型,将文档数据的敏感数据识别过程转化为数学模型的比对过程,利用神经网络特性,实现被检测数据敏感性的精准识别,在难度较大的场景下有较好的识别率,解决了现有技术中现有技术中敏感数据智能识别方法的准确率较低的问题。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明实施例公开了一种训练基于标签分布学习的敏感数据识别模型的方法,如图1所示,该方法包括如下步骤:
步骤S11,获取多个已知结果的训练样本。
具体地,已知结果的训练样本为已经标注数据敏感性之后的文档数据,即训练样本的敏感性结果是已知的。
步骤S12,根据标签分布学习算法以及所述训练样本生成训练样本的标签分布集合。
具体地,利用标签分布学习算法,计算预设标签与训练样本之间相关度,通过每一个预设标签与训练样本之间相关度的概率化分布集合来描述训练样本,该概率化分布集合即所述标签分布集合。
步骤S13,根据所述标签分布集合确定预设神经网络的参数,得到神经网络模型。
具体地,神经网络参数主要包括提取特征参数、损失函数和近似度阈值。所述提取特征参数表示所述神经网络模型工作时进行比对的参数。所述损失函数表征神经网络每次迭代的预测计算结果与真实值的差距,从而指导下一步的训练向正确的方向进行。所述近似度阈值表示待测样本的提取特征参数与训练样本的提取特征参数之间的差距。
其中,提取特征参数即为所述标签分布集合,损失函数根据交叉熵损失确定,近似度阈值根据经验值预先确定。通过上述的提取特征参数、损失函数和近似度阈值,与上述标签分布学习算法结合,即可确定神经网络模型。
步骤S14,根据多个已知结果的训练样本对所述神经网络模型进行迭代训练,得到敏感数据识别模型。
本发明实施例提供的训练基于标签分布学习的敏感数据识别模型的方法,通过标签分布算法,将数据文档与多个敏感数据标签相对应,可以实现多个标签对数据的概率化描述,并通过对确定的神经网络模型进行迭代训练确定敏感数据识别模型,采用该敏感数据识别模型即可实现数据敏感性的精准识别。
作为本发明的一种可选地实施方式,根据标签分布学习算法以及所述训练样本生成训练样本的标签分布集合,如图2所示,包括如下步骤:
步骤S121,获取文档词汇集合。
具体地,首先对样本数据进行特征词提取,生成特征词矩阵,将所述特征词矩阵作为文档词汇集合。特征词可用多种已知的算法进行提取,本发明对此不作限定。
步骤S122,计算词汇与标签之间的相关度。
具体地,所述计算词汇与标签之间的相关度是通过词汇标签显著性参数与标签相关度参数计算获得。所述词汇标签显著性反映了词汇对特定标签的显著性,如果一个词汇经常出现在特定标签的实例中,那么这个词汇将在特定标签中扮演重要的角色。所述标签相关度参数反映单个词汇用来区分不同标签的能力,如果单个词汇经常出现在多个标签中,那么该词汇的标签相关度就会很低。
步骤S123,计算词汇与样本之间的相关度。
具体地,所述计算词汇与训练样本之间的相关度是通过词汇样本显著性参数与样本相关度参数计算获得。所述词汇样本显著性参数反映了词汇对特定训练样本的显著性,如果单个词汇经常出现在某一样本中,那么该词汇将在该样本中扮演重要的角色。所述样本相关度参数反映单个词汇用来区分不同样本的能力。如果单个词汇经常出现在多个样本中,那么该词汇的样本相关度就会很低。
步骤S124,生成训练样本的标签分布集合。
具体地,所述生成标签分布集合是通过样本标签相关度参数计算获得。所述样本标签相关度参数反映了样本与标签之间的相关程度。
在一实施方式中,步骤S122计算词汇与标签之间的相关度,如图3所示,包括如下步骤:
步骤S1221,计算词汇标签显著性参数WLS。
示例性地,所述词汇标签显著性参数可以通过如下公式表示:
其中,
表示文档词汇集合C中单词w
j对第m个标签的显著性,
为单词w
j在X
m中出现的次数,X
m是文档词汇集合C中被标记为标签m的单词集合。
步骤S1222,计算标签相关度参数LR。
示例性地,所述标签相关度参数可以通过如下公式表示:
其中,L是标签的集合,|L|是集合L中元素的个数。
表示为单词w
j在标签集合L中包含w
j的标签的个数。
步骤S1223,计算词汇标签相关度WLR。
示例性地,所述词汇标签相关度可以通过如下公式表示:
其中,
为文档词汇集合C中单词w
j对第m个标记的标签相关度。
在一实施方式中,步骤S123计算词汇与样本之间的相关度,如图4所示,包括如下步骤:
步骤S1231,计算词汇样本显著性参数WIS。
示例性地,所述词汇样本显著性参数可以通过如下公式表示:
其中,
表示文档词汇集合C中单词w
j对第i个训练样本的显著性,
为单词w
j在y
i中出现的次数,y
i是第i个训练样本中所有词汇的集合。
步骤S1232,计算样本相关度参数IR。
示例性地,所述样本相关度参数可以通过如下公式表示:
其中,S是训练样本的集合,|S|是集合S中训练样本的个数。
表示为单词w
j在训练样本集合S中包含w
j的训练样本的个数。
步骤S1233,计算词汇样本相关度WIR。
示例性地,所述词汇样本相关度可以通过如下公式表示:
其中,
为文档词汇集合C中单词w
j对训练样本集中第i个训练样本的相关度。
在一实施方式中,步骤S124生成训练样本的标签分布集合,如图5所示,包括如下步骤:
步骤S1241,计算样本标签相关度参数ILR。
示例性地,所述样本标签相关度参数可以通过如下公式表示:
其中,ILRi,m是第i个样本与第m个标签的相关度。
步骤S1242,计算标签分布集合D。
示例性地,所述训练样本的标签分布集合可以通过如下公式表示:
其中,Di为第i个样本的标签分布集合,q为标签的数量。
作为本发明的一种可选地实施方式,根据所述标签分布集合确定预设神经网络的参数,得到神经网络模型,如图6所示,包括如下步骤:
步骤S131,根据所述标签分布集合确定预设神经网络的提取特征参数。
步骤S132,根据交叉熵损失确定预设神经网络的损失函数LOSS。
示例性地,所述损失函数可以通过如下公式表示:
其中,
表示第i个样本数据对第m个标签的分布值,
表示第i个样本数据属于第m个标签的预测概率。
步骤S133,根据所述提取特征参数、损失函数以及预设近似度阈值确定神经网络模型。具体地,神经网络的近似度阈值根据经验预先确定,该近似度阈值可以是任一大于0小于1的数。
本发明实施例还公开了一种基于标签分布学习的敏感数据识别方法,如图7所示,该方法包括如下步骤:
步骤S21,获取待测样本。
步骤S22,将待测样本输入到上述实施例通过训练基于标签分布学习的敏感数据识别模型的方法生成的敏感数据识别模型中,得到待测样本的敏感数据识别结果。
本发明实施例提供的敏感数据识别方法,通过将待测样本输入敏感数据识别模型,将文档数据的敏感数据识别过程转化为数学模型的比对过程,利用神经网络特性,实现被检测数据敏感性的精准识别,在难度较大的场景下有较好的识别率,解决了现有技术中现有技术中敏感数据智能识别方法的准确率较低的问题。
作为本发明的一种可选地实施方式,步骤S22将待测样本输入到上述实施例通过训练基于标签分布学习的敏感数据识别模型的方法生成的敏感数据识别模型中,得到待测样本的敏感数据识别结果,如图8所示,包括如下步骤:
步骤S221,将待测样本输入到所述敏感数据识别模型中。
步骤S222,根据所述敏感数据识别模型提取待测样本的标签分布集合。
步骤S223,利用所述敏感数据识别模型遍历训练样本的标签分布集合,确定与待测样本的标签分布集合最接近的训练样本。
具体地,遍历训练样本的标签分布集合,分别计算待测样本与每一个训练样本之间的近似度参数,当近似度参数最小且小于预设的近似度阈值时,将对应的训练样本作为与待测样本最接近的训练样本。
示例性地,可以选用K-L散度值表示近似度参数,所述K-L散度值可以通过以下公式表示:
其中,dis表示K-L散度值,Pj表示待测样本的标签分布集合,Qj表示训练样本的标签分布合集。
步骤S224,采用所述敏感数据识别模型确定最接近训练样本的敏感数据识别结果,作为待测样本的敏感数据识别结果输出。
本发明实施例公开了一种训练基于标签分布学习的敏感数据识别模型的装置,如图9所示,包括:
通信模块901,用于获取多个已知结果的训练样本;
第一计算模块902,用于根据标签分布学习算法以及所述训练样本生成训练样本的标签分布集合;
第二计算模块903,用于根据所述标签分布集合确定预设神经网络的参数,得到神经网络模型;
训练模块904,用于根据多个已知结果的训练样本对所述神经网络模型进行迭代训练,得到敏感数据识别模型。
本发明实施例提供的一种训练基于标签分布学习的敏感数据识别模型的装置,通过标签分布算法以及预设参数,建立神经网络模型,能够使用多个标签对被检测数据的概率化描述。通过利用训练样本对神经网络模型进行训练,能够将被检测数据文档与多个敏感数据相关的标签相对应,将文档数据转化为了数学模型,便于机器识别。
本发明实施例还公开了一种基于标签分布学习的敏感数据识别装置,如图10所示,包括:
通信模块1001,用于获取待测样本;
识别模块1002,用于将待测样本输入到上述方法实施例中所述的训练基于标签分布学习的敏感数据识别模型的方法生成的敏感数据识别模型中,得到待测样本的敏感数据识别结果。
本发明提供的一种基于标签分布学习的敏感数据识别装置,通过将待测样本输入神经网络模型,将文档数据的敏感数据识别过程转化为数学模型的比对过程,利用神经网络特性,实现被检测数据敏感性的精准识别,在难度较大的场景下有较好的识别率,解决了现有技术中现有技术中敏感数据智能识别方法的准确率较低的问题。
本发明实施例还提供了一种电子设备,如图11所示,该电子设备可以包括处理器1101和存储器1102,其中处理器1101和存储器1102可以通过总线或者其他方式连接,图9中以通过总线连接为例。
处理器1101可以为中央处理器(Central Processing Unit,CPU)。处理器1101还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器1102作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的训练基于标签分布学习的敏感数据识别模型的方法及基于标签分布学习的敏感数据识别方法对应的程序指令/模块。处理器1101通过运行存储在存储器1102中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的训练基于标签分布学习的敏感数据识别模型的方法及基于标签分布学习的敏感数据识别方法。
存储器1102可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器1101所创建的数据等。此外,存储器1102可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器1102可选包括相对于处理器1101远程设置的存储器,这些远程存储器可以通过网络连接至处理器1101。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器1102中,当被所述处理器1101执行时,执行如图1所示实施例中的训练基于标签分布学习的敏感数据识别模型的方法及如图7所示实施例中的基于标签分布学习的敏感数据识别方法。
上述电子设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然关于示例实施例及其优点已经详细说明,但是本领域技术人员可以在不脱离本发明的精神和所附权利要求限定的保护范围的情况下对这些实施例进行各种变化、替换和修改,这样的修改和变型均落入由所附权利要求所限定的范围之内。对于其他例子,本领域的普通技术人员应当容易理解在保持本发明保护范围内的同时,工艺步骤的次序可以变化。
此外,本发明的应用范围不局限于说明书中描述的特定实施例的工艺、机构、制造、物质组成、手段、方法及步骤。从本发明的公开内容,作为本领域的普通技术人员将容易地理解,对于目前已存在或者以后即将开发出的工艺、机构、制造、物质组成、手段、方法或步骤,其中它们执行与本发明描述的对应实施例大体相同的功能或者获得大体相同的结果,依照本发明可以对它们进行应用。因此,本发明所附权利要求旨在将这些工艺、机构、制造、物质组成、手段、方法或步骤包含在其保护范围内。