CN113962302A - 一种基于标签分布学习的敏感数据智能识别方法 - Google Patents

一种基于标签分布学习的敏感数据智能识别方法 Download PDF

Info

Publication number
CN113962302A
CN113962302A CN202111223201.4A CN202111223201A CN113962302A CN 113962302 A CN113962302 A CN 113962302A CN 202111223201 A CN202111223201 A CN 202111223201A CN 113962302 A CN113962302 A CN 113962302A
Authority
CN
China
Prior art keywords
sample
label
vocabulary
training
sensitive data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111223201.4A
Other languages
English (en)
Inventor
张涛
石聪聪
于鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Global Energy Interconnection Research Institute
State Grid Liaoning Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Liaoning Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Global Energy Interconnection Research Institute
State Grid Liaoning Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Liaoning Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Global Energy Interconnection Research Institute, State Grid Liaoning Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Liaoning Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202111223201.4A priority Critical patent/CN113962302A/zh
Publication of CN113962302A publication Critical patent/CN113962302A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于标签分布学习的敏感数据智能识别方法,该方法包括:获取多个已知结果的训练样本;根据标签分布学习算法以及所述训练样本生成训练样本的标签分布集合;根据所述标签分布集合确定预设神经网络的参数,得到神经网络模型;根据多个已知结果的训练样本对所述神经网络模型进行迭代训练,得到敏感数据识别模型。本发明实施例提供的训练基于标签分布学习的敏感数据识别模型的方法,通过标签分布算法以及预设参数,建立神经网络模型,能够使用多个标签对被检测数据概率化描述。通过利用训练样本对神经网络模型进行训练,能够将被检测数据文档与多个敏感数据相关的标签相对应,将文档数据转化为了数学模型,便于机器识别。

Description

一种基于标签分布学习的敏感数据智能识别方法
技术领域
本发明属于数据安全领域,具体涉及到一种基于标签分布学习的敏感数据智能识别方法。
背景技术
随着信息技术的迅猛发展,各行各业都高度依赖信息系统,如何保障信息系统的安全,尤其是如何保障体现企业核心价值的数据的安全,成为企业最为关心的事情。企业数据包含着许多用户个人隐私信息、商业敏感数据等,一旦泄漏,会给企业带来巨大的经济损失,并需承担相关法律责任和巨额的违规罚款。因此,如何保障企业用户个人隐私信息、商业敏感数据等的安全,成为企业信息安全工作的重中之重,而如何实现在海量的企业信息中快速的识别敏感数据,则成了需要重点解决的问题。
当前,全球数据泄漏事件频发,大量企业的内部信息,互联网网站的用户信息被黑客入侵遭到泄漏。面对全球数据泄漏事件频发的状况,为了更好地保护公民个人隐私信息,各国相继出台了相关的数据保护法规条例等。欧盟在2018年5月欧盟出台的《通用数据保护条例》(General Data Protection Regulation,简称GDPR),该条例适用于处理欧盟境内利用个人数据的所有组织,一旦违背将面临极其高额的罚款。我国也出台了一系列相关法律法规,包括:《中华人民共和国网络安全法》、《关键信息基础设施保护条例》、《网络数据安全管理办法》、《个人信息和重要数据出境安全评估办法》、《GB/T 35273个人信息安全规范》、《电信和互联网用户个人信息保护规定》等。
面对频发的数据安全事件和愈来愈严格的数据安全保护要求,企业都已认识到数据安全保护的重要性,但企业首先面临的是在海量的企业内部数据中如何确认哪些数据属于敏感数据。常见的敏感数据匹配方法通常是通过规则匹配或者是机器学习方法寻找敏感数据中的敏感字段,并根据敏感字段的类型来判别数据的敏感程度,从而确立相应的保护措施。
但是现有的方法存在极大的误判性,其主要原因是某些数据字段存在歧义性,以电话号码字段为例,客服的电话号码属于公开字段,但个人的电话号码属于敏感字段。因此单纯的依靠规则匹配或者是数据类型识别无法有效确定该字段是否是敏感字段,进而影响整个数据敏感性的判别。进一步,整个数据不仅仅包含一个字段,作为一个多字段集合包含了多个数据字段,对其敏感属性的标识需要对其中的多个敏感字段进行标识,然而不同敏感字段对于该数据的重要程度往往是不同的。例如一条用户用电数据被标注了“用户名”、“用户位置”、“用电量”和“用电时间”等多个标记,而这些标记具体描述该信息的程度却是不同的;在企业数据中,复杂数据的信息常常是多种基础信息(如时间、地点、业务和用户)混合的结果,而这些基础信息在一条具体的数据中常常表达出不同的强度,从而呈现出复杂的信息含义。对于这种包含复杂信息的数据,现有的方法往往会存在较大的误判率。
机器学习实质上是计算机建立实例到标签的映射的过程。按标签标记方式的不同,可分为单标签学习和多标签学习(Multiple Lable Learning,MLL)两种。顾名思义,单标签学习给每个实例赋上唯一的标签。然而,真实的对象并不具有唯一的语义,一个对象实例应是拥有多种特征、从属多种类别的集合。多标签学习可以给每个实例分配多个标签,与单一标记相比,大大丰富了实例的标签信息,有助于计算机更全面的学习实例,做出更精准的判断。
发明内容
因此,本发明要解决的技术问题在于现有技术中敏感数据识别方法的准确率较低,从而提供一种基于标签分布学习的敏感数据智能识别方法。
根据第一方面,本发明实施例公开了一种训练基于标签分布学习的敏感数据识别模型的方法,包括:
获取多个已知结果的训练样本;
根据标签分布学习算法以及所述训练样本生成训练样本的标签分布集合;
根据所述标签分布集合确定预设神经网络的参数,得到神经网络模型;
根据多个已知结果的训练样本对所述神经网络模型进行迭代训练,得到敏感数据识别模型。
可选地,根据所述标签分布集合确定预设神经网络的参数,得到神经网络模型,包括:
根据所述标签分布集合确定预设神经网络的提取特征参数;
根据交叉熵损失确定预设神经网络的损失函数;
所述损失函数可以通过如下公式表示:
Figure BDA0003313386500000041
其中,Loss表示损失函数,
Figure BDA0003313386500000042
表示第i个样本数据对第m个标签的分布值,
Figure BDA0003313386500000043
表示第i个样本数据属于第m个标签的预测概率,N表示样本数量,q代表标签数量;
根据所述提取特征参数、所述损失函数、近似度参数以及预设近似度阈值确定神经网络模型。
可选地,根据标签分布学习算法以及所述训练样本生成训练样本的标签分布集合,包括:
获取文档词汇集合;
计算词汇与标签之间的相关度;
计算词汇与样本之间的相关度;
生成训练样本的标签分布集合。
可选地,所述计算词汇与标签之间的相关度包括:
计算词汇标签显著性参数;所述词汇标签显著性参数为词汇在同标签词汇集合出现的频率,所述同标签词汇集合为所述文档词汇集合中被标记为相同标签的词汇集合;
所述词汇标签显著性参数可以通过如下公式表示:
Figure BDA0003313386500000044
其中,
Figure BDA0003313386500000045
表示文档词汇集合C中单词wj对第m个标签的显著性,
Figure BDA0003313386500000046
为单词wj在Xm中出现的次数,Xm是文档词汇集合C中被标记为标签m的单词集合;
计算标签相关度参数;所述标签相关度参数为能够与词汇匹配的标签在标签集合中的比例;
所述标签相关度参数可以通过如下公式表示:
Figure BDA0003313386500000051
其中,L是标签的集合,|L|是集合L中元素的个数。
Figure BDA0003313386500000052
表示为单词wj在标签集合L中包含wj的标签的个数;
计算词汇标签相关度;所述词汇标签相关度为所述词汇标签显著性参数与所述词汇标签相关度参数的乘积;
所述词汇标签相关度可以通过如下公式表示:
Figure BDA0003313386500000053
其中,
Figure BDA0003313386500000054
为文档词汇集合C中单词wj对第m个标记的标签相关度。
可选地,所述计算词汇与样本之间的相关度包括:
计算词汇样本显著性参数;所述词汇样本显著性参数为词汇在同样本词汇集合出现的频率,所述同样本词汇集合为同一所述样本的词汇集合;
所述词汇样本显著性参数可以通过如下公式表示:
Figure BDA0003313386500000055
其中,
Figure BDA0003313386500000056
表示文档词汇集合C中单词wj对第i个训练样本的显著性,
Figure BDA0003313386500000057
为单词wj在yi中出现的次数,yi是第i个训练样本中所有词汇的集合;
计算样本相关度参数;所述样本相关度参数为能够与词汇匹配的样本在样本集合中的比例;
所述样本相关度参数可以通过如下公式表示:
Figure BDA0003313386500000061
其中,S是训练样本的集合,|S|是集合S中训练样本的个数。
Figure BDA0003313386500000062
表示为单词wj在训练样本集合S中包含wj的训练样本的个数;
计算词汇样本相关度;所述词汇样本相关度为所述词汇样本显著性参数和所述样本相关度参数的乘积;
所述词汇样本相关度可以通过如下公式表示:
Figure BDA0003313386500000063
其中,
Figure BDA0003313386500000064
为文档词汇集合C中单词wj对训练样本集中第i个训练样本的相关度。
可选地,所述生成训练样本的标签分布集合包括:
计算样本标签相关度参数;所述样本标签相关度参数为所述词汇标签相关度与所述词汇样本相关度的乘积;
所述样本标签相关度参数可以通过如下公式表示:
Figure BDA0003313386500000065
其中,ILRi,m是第i个样本与第m个标签的相关度;
计算标签分布集合;所述标签分布集合为单个词汇样本标签相关度参数占所有词汇样本标签相关度参数;
所述训练样本的标签分布集合可以通过如下公式表示:
Figure BDA0003313386500000066
Figure BDA0003313386500000067
其中,Di为第i个样本的标签分布集合,q为标签的数量。
根据第二方面,本发明实施例公开了一种基于标签分布学习的敏感数据识别方法,包括:
获取待测样本;
将待测样本输入到如本发明实施例第一方面所述的训练基于标签分布学习的敏感数据识别模型的方法生成的敏感数据识别模型中,得到待测样本的敏感数据识别结果。
可选地,将待测样本输入到训练基于标签分布学习的敏感数据识别模型的方法生成的敏感数据识别模型中,得到待测样本的敏感数据识别结果,包括:
将待测样本输入到所述敏感数据识别模型中;
根据所述敏感数据识别模型提取待测样本的标签分布集合;
利用所述敏感数据识别模型遍历训练样本的标签分布集合,确定与待测样本的标签分布集合最接近的训练样本;
采用所述敏感数据识别模型确定最接近训练样本的敏感数据识别结果作为待测样本的敏感数据识别结果输出。
可选地,所述利用所述敏感数据识别模型遍历训练样本的标签分布集合,确定与待测样本的标签分布集合最接近的训练样本包括:
遍历训练样本的标签分布集合;
分别计算待测样本与每一个训练样本之间的近似度参数;
当近似度参数最小且小于预设的近似度阈值时,将对应的训练样本作为与待测样本最接近的训练样本。
可选地,所述近似度参数利用K-L散度值表示,所述K-L散度值可以通过以下公式表示:
Figure BDA0003313386500000081
其中,dis表示K-L散度值,Pj表示待测样本的标签分布集合,Qj表示训练样本的标签分布合集。
本发明技术方案,具有如下优点:
1.本发明提供的一种训练基于标签分布学习的敏感数据识别模型的方法及装置,通过标签分布算法以及预设参数,建立神经网络模型,能够使用多个标签对被检测数据的概率化描述。通过利用训练样本对神经网络模型进行训练,能够将被检测数据文档与多个敏感数据相关的标签相对应,将文档数据转化为了数学模型,便于机器识别。
2.本发明提供的一种基于标签分布学习的敏感数据识别方法及装置,通过将待测样本输入神经网络模型,将文档数据的敏感数据识别过程转化为数学模型的比对过程,利用神经网络特性,实现被检测数据敏感性的精准识别,在难度较大的场景下有较好的识别率,解决了现有技术中现有技术中敏感数据智能识别方法的准确率较低的问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种训练基于标签分布学习的敏感数据识别模型的方法的一个具体示例的流程图;
图2为本发明实施例中一种训练基于标签分布学习的敏感数据识别模型的方法的另一个具体示例的流程图;
图3为本发明实施例中一种训练基于标签分布学习的敏感数据识别模型的方法的另一个具体示例的流程图;
图4为本发明实施例中一种训练基于标签分布学习的敏感数据识别模型的方法的另一个具体示例的流程图;
图5为本发明实施例中一种训练基于标签分布学习的敏感数据识别模型的方法的另一个具体示例的流程图;
图6为本发明实施例中一种训练基于标签分布学习的敏感数据识别模型的方法的另一个具体示例的流程图
图7为本发明实施例中一种基于标签分布学习的敏感数据识别方法的一个具体示例的流程图;
图8为本发明实施例中一种基于标签分布学习的敏感数据识别方法的另一个具体示例的流程图;
图9为本发明实施例中一种训练敏感数据识别模型的装置的一个具体示例的原理框图;
图10为本发明实施例中一种敏感数据识别装置的一个具体示例的原理框图;
图11为本发明实施例中电子设备的一个具体示例图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明实施例公开了一种训练基于标签分布学习的敏感数据识别模型的方法,如图1所示,该方法包括如下步骤:
步骤S11,获取多个已知结果的训练样本。
具体地,已知结果的训练样本为已经标注数据敏感性之后的文档数据,即训练样本的敏感性结果是已知的。
步骤S12,根据标签分布学习算法以及所述训练样本生成训练样本的标签分布集合。
具体地,利用标签分布学习算法,计算预设标签与训练样本之间相关度,通过每一个预设标签与训练样本之间相关度的概率化分布集合来描述训练样本,该概率化分布集合即所述标签分布集合。
步骤S13,根据所述标签分布集合确定预设神经网络的参数,得到神经网络模型。
具体地,神经网络参数主要包括提取特征参数、损失函数和近似度阈值。所述提取特征参数表示所述神经网络模型工作时进行比对的参数。所述损失函数表征神经网络每次迭代的预测计算结果与真实值的差距,从而指导下一步的训练向正确的方向进行。所述近似度阈值表示待测样本的提取特征参数与训练样本的提取特征参数之间的差距。
其中,提取特征参数即为所述标签分布集合,损失函数根据交叉熵损失确定,近似度阈值根据经验值预先确定。通过上述的提取特征参数、损失函数和近似度阈值,与上述标签分布学习算法结合,即可确定神经网络模型。
步骤S14,根据多个已知结果的训练样本对所述神经网络模型进行迭代训练,得到敏感数据识别模型。
本发明实施例提供的训练基于标签分布学习的敏感数据识别模型的方法,通过标签分布算法,将数据文档与多个敏感数据标签相对应,可以实现多个标签对数据的概率化描述,并通过对确定的神经网络模型进行迭代训练确定敏感数据识别模型,采用该敏感数据识别模型即可实现数据敏感性的精准识别。
作为本发明的一种可选地实施方式,根据标签分布学习算法以及所述训练样本生成训练样本的标签分布集合,如图2所示,包括如下步骤:
步骤S121,获取文档词汇集合。
具体地,首先对样本数据进行特征词提取,生成特征词矩阵,将所述特征词矩阵作为文档词汇集合。特征词可用多种已知的算法进行提取,本发明对此不作限定。
步骤S122,计算词汇与标签之间的相关度。
具体地,所述计算词汇与标签之间的相关度是通过词汇标签显著性参数与标签相关度参数计算获得。所述词汇标签显著性反映了词汇对特定标签的显著性,如果一个词汇经常出现在特定标签的实例中,那么这个词汇将在特定标签中扮演重要的角色。所述标签相关度参数反映单个词汇用来区分不同标签的能力,如果单个词汇经常出现在多个标签中,那么该词汇的标签相关度就会很低。
步骤S123,计算词汇与样本之间的相关度。
具体地,所述计算词汇与训练样本之间的相关度是通过词汇样本显著性参数与样本相关度参数计算获得。所述词汇样本显著性参数反映了词汇对特定训练样本的显著性,如果单个词汇经常出现在某一样本中,那么该词汇将在该样本中扮演重要的角色。所述样本相关度参数反映单个词汇用来区分不同样本的能力。如果单个词汇经常出现在多个样本中,那么该词汇的样本相关度就会很低。
步骤S124,生成训练样本的标签分布集合。
具体地,所述生成标签分布集合是通过样本标签相关度参数计算获得。所述样本标签相关度参数反映了样本与标签之间的相关程度。
在一实施方式中,步骤S122计算词汇与标签之间的相关度,如图3所示,包括如下步骤:
步骤S1221,计算词汇标签显著性参数WLS。
示例性地,所述词汇标签显著性参数可以通过如下公式表示:
Figure BDA0003313386500000131
其中,
Figure BDA0003313386500000132
表示文档词汇集合C中单词wj对第m个标签的显著性,
Figure BDA0003313386500000133
为单词wj在Xm中出现的次数,Xm是文档词汇集合C中被标记为标签m的单词集合。
步骤S1222,计算标签相关度参数LR。
示例性地,所述标签相关度参数可以通过如下公式表示:
Figure BDA0003313386500000134
其中,L是标签的集合,|L|是集合L中元素的个数。
Figure BDA0003313386500000135
表示为单词wj在标签集合L中包含wj的标签的个数。
步骤S1223,计算词汇标签相关度WLR。
示例性地,所述词汇标签相关度可以通过如下公式表示:
Figure BDA0003313386500000136
其中,
Figure BDA0003313386500000141
为文档词汇集合C中单词wj对第m个标记的标签相关度。
在一实施方式中,步骤S123计算词汇与样本之间的相关度,如图4所示,包括如下步骤:
步骤S1231,计算词汇样本显著性参数WIS。
示例性地,所述词汇样本显著性参数可以通过如下公式表示:
Figure BDA0003313386500000142
其中,
Figure BDA0003313386500000143
表示文档词汇集合C中单词wj对第i个训练样本的显著性,
Figure BDA0003313386500000144
为单词wj在yi中出现的次数,yi是第i个训练样本中所有词汇的集合。
步骤S1232,计算样本相关度参数IR。
示例性地,所述样本相关度参数可以通过如下公式表示:
Figure BDA0003313386500000145
其中,S是训练样本的集合,|S|是集合S中训练样本的个数。
Figure BDA0003313386500000146
表示为单词wj在训练样本集合S中包含wj的训练样本的个数。
步骤S1233,计算词汇样本相关度WIR。
示例性地,所述词汇样本相关度可以通过如下公式表示:
Figure BDA0003313386500000147
其中,
Figure BDA0003313386500000148
为文档词汇集合C中单词wj对训练样本集中第i个训练样本的相关度。
在一实施方式中,步骤S124生成训练样本的标签分布集合,如图5所示,包括如下步骤:
步骤S1241,计算样本标签相关度参数ILR。
示例性地,所述样本标签相关度参数可以通过如下公式表示:
Figure BDA0003313386500000151
其中,ILRi,m是第i个样本与第m个标签的相关度。
步骤S1242,计算标签分布集合D。
示例性地,所述训练样本的标签分布集合可以通过如下公式表示:
Figure BDA0003313386500000152
Figure BDA0003313386500000153
其中,Di为第i个样本的标签分布集合,q为标签的数量。
作为本发明的一种可选地实施方式,根据所述标签分布集合确定预设神经网络的参数,得到神经网络模型,如图6所示,包括如下步骤:
步骤S131,根据所述标签分布集合确定预设神经网络的提取特征参数。
步骤S132,根据交叉熵损失确定预设神经网络的损失函数LOSS。
示例性地,所述损失函数可以通过如下公式表示:
Figure BDA0003313386500000154
其中,
Figure BDA0003313386500000155
表示第i个样本数据对第m个标签的分布值,
Figure BDA0003313386500000156
表示第i个样本数据属于第m个标签的预测概率。
步骤S133,根据所述提取特征参数、损失函数以及预设近似度阈值确定神经网络模型。具体地,神经网络的近似度阈值根据经验预先确定,该近似度阈值可以是任一大于0小于1的数。
本发明实施例还公开了一种基于标签分布学习的敏感数据识别方法,如图7所示,该方法包括如下步骤:
步骤S21,获取待测样本。
步骤S22,将待测样本输入到上述实施例通过训练基于标签分布学习的敏感数据识别模型的方法生成的敏感数据识别模型中,得到待测样本的敏感数据识别结果。
本发明实施例提供的敏感数据识别方法,通过将待测样本输入敏感数据识别模型,将文档数据的敏感数据识别过程转化为数学模型的比对过程,利用神经网络特性,实现被检测数据敏感性的精准识别,在难度较大的场景下有较好的识别率,解决了现有技术中现有技术中敏感数据智能识别方法的准确率较低的问题。
作为本发明的一种可选地实施方式,步骤S22将待测样本输入到上述实施例通过训练基于标签分布学习的敏感数据识别模型的方法生成的敏感数据识别模型中,得到待测样本的敏感数据识别结果,如图8所示,包括如下步骤:
步骤S221,将待测样本输入到所述敏感数据识别模型中。
步骤S222,根据所述敏感数据识别模型提取待测样本的标签分布集合。
步骤S223,利用所述敏感数据识别模型遍历训练样本的标签分布集合,确定与待测样本的标签分布集合最接近的训练样本。
具体地,遍历训练样本的标签分布集合,分别计算待测样本与每一个训练样本之间的近似度参数,当近似度参数最小且小于预设的近似度阈值时,将对应的训练样本作为与待测样本最接近的训练样本。
示例性地,可以选用K-L散度值表示近似度参数,所述K-L散度值可以通过以下公式表示:
Figure BDA0003313386500000171
其中,dis表示K-L散度值,Pj表示待测样本的标签分布集合,Qj表示训练样本的标签分布合集。
步骤S224,采用所述敏感数据识别模型确定最接近训练样本的敏感数据识别结果,作为待测样本的敏感数据识别结果输出。
本发明实施例公开了一种训练基于标签分布学习的敏感数据识别模型的装置,如图9所示,包括:
通信模块901,用于获取多个已知结果的训练样本;
第一计算模块902,用于根据标签分布学习算法以及所述训练样本生成训练样本的标签分布集合;
第二计算模块903,用于根据所述标签分布集合确定预设神经网络的参数,得到神经网络模型;
训练模块904,用于根据多个已知结果的训练样本对所述神经网络模型进行迭代训练,得到敏感数据识别模型。
本发明实施例提供的一种训练基于标签分布学习的敏感数据识别模型的装置,通过标签分布算法以及预设参数,建立神经网络模型,能够使用多个标签对被检测数据的概率化描述。通过利用训练样本对神经网络模型进行训练,能够将被检测数据文档与多个敏感数据相关的标签相对应,将文档数据转化为了数学模型,便于机器识别。
本发明实施例还公开了一种基于标签分布学习的敏感数据识别装置,如图10所示,包括:
通信模块1001,用于获取待测样本;
识别模块1002,用于将待测样本输入到上述方法实施例中所述的训练基于标签分布学习的敏感数据识别模型的方法生成的敏感数据识别模型中,得到待测样本的敏感数据识别结果。
本发明提供的一种基于标签分布学习的敏感数据识别装置,通过将待测样本输入神经网络模型,将文档数据的敏感数据识别过程转化为数学模型的比对过程,利用神经网络特性,实现被检测数据敏感性的精准识别,在难度较大的场景下有较好的识别率,解决了现有技术中现有技术中敏感数据智能识别方法的准确率较低的问题。
本发明实施例还提供了一种电子设备,如图11所示,该电子设备可以包括处理器1101和存储器1102,其中处理器1101和存储器1102可以通过总线或者其他方式连接,图9中以通过总线连接为例。
处理器1101可以为中央处理器(Central Processing Unit,CPU)。处理器1101还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器1102作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的训练基于标签分布学习的敏感数据识别模型的方法及基于标签分布学习的敏感数据识别方法对应的程序指令/模块。处理器1101通过运行存储在存储器1102中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的训练基于标签分布学习的敏感数据识别模型的方法及基于标签分布学习的敏感数据识别方法。
存储器1102可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器1101所创建的数据等。此外,存储器1102可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器1102可选包括相对于处理器1101远程设置的存储器,这些远程存储器可以通过网络连接至处理器1101。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器1102中,当被所述处理器1101执行时,执行如图1所示实施例中的训练基于标签分布学习的敏感数据识别模型的方法及如图7所示实施例中的基于标签分布学习的敏感数据识别方法。
上述电子设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然关于示例实施例及其优点已经详细说明,但是本领域技术人员可以在不脱离本发明的精神和所附权利要求限定的保护范围的情况下对这些实施例进行各种变化、替换和修改,这样的修改和变型均落入由所附权利要求所限定的范围之内。对于其他例子,本领域的普通技术人员应当容易理解在保持本发明保护范围内的同时,工艺步骤的次序可以变化。
此外,本发明的应用范围不局限于说明书中描述的特定实施例的工艺、机构、制造、物质组成、手段、方法及步骤。从本发明的公开内容,作为本领域的普通技术人员将容易地理解,对于目前已存在或者以后即将开发出的工艺、机构、制造、物质组成、手段、方法或步骤,其中它们执行与本发明描述的对应实施例大体相同的功能或者获得大体相同的结果,依照本发明可以对它们进行应用。因此,本发明所附权利要求旨在将这些工艺、机构、制造、物质组成、手段、方法或步骤包含在其保护范围内。

Claims (10)

1.一种训练基于标签分布学习的敏感数据识别模型的方法,其特征在于,包括:
获取多个已知结果的训练样本;
根据标签分布学习算法以及所述训练样本生成训练样本的标签分布集合;
根据所述标签分布集合确定预设神经网络的参数,得到神经网络模型;
根据多个已知结果的训练样本对所述神经网络模型进行迭代训练,得到敏感数据识别模型。
2.根据权利要求1所述的训练基于标签分布学习的敏感数据识别模型的方法,其特征在于,根据所述标签分布集合确定预设神经网络的参数,得到神经网络模型,包括:
根据所述标签分布集合确定预设神经网络的提取特征参数;
根据交叉熵损失确定预设神经网络的损失函数;
所述损失函数可以通过如下公式表示:
Figure FDA0003313386490000011
其中,Loss表示损失函数,
Figure FDA0003313386490000012
表示第i个样本数据对第m个标签的分布值,
Figure FDA0003313386490000013
表示第i个样本数据属于第m个标签的预测概率,N表示样本数量,q代表标签数量;
根据所述提取特征参数、所述损失函数、近似度参数以及预设近似度阈值确定神经网络模型。
3.根据权利要求1所述的训练基于标签分布学习的敏感数据识别模型的方法,其特征在于,根据标签分布学习算法以及所述训练样本生成训练样本的标签分布集合,包括:
获取文档词汇集合;
计算词汇与标签之间的相关度;
计算词汇与样本之间的相关度;
生成训练样本的标签分布集合。
4.根据权利要求3所述的训练基于标签分布学习的敏感数据识别模型的方法,其特征在于,所述计算词汇与标签之间的相关度包括:
计算词汇标签显著性参数;所述词汇标签显著性参数为词汇在同标签词汇集合出现的频率,所述同标签词汇集合为所述文档词汇集合中被标记为相同标签的词汇集合;
所述词汇标签显著性参数可以通过如下公式表示:
Figure FDA0003313386490000021
其中,
Figure FDA0003313386490000022
表示文档词汇集合C中单词wj对第m个标签的显著性,
Figure FDA0003313386490000023
为单词wj在Xm中出现的次数,Xm是文档词汇集合C中被标记为标签m的单词集合;
计算标签相关度参数;所述标签相关度参数为能够与词汇匹配的标签在标签集合中的比例;
所述标签相关度参数可以通过如下公式表示:
Figure FDA0003313386490000024
其中,L是标签的集合,|L|是集合L中元素的个数,
Figure FDA0003313386490000031
表示为单词wj在标签集合L中包含wj的标签的个数;
计算词汇标签相关度;所述词汇标签相关度为所述词汇标签显著性参数与所述词汇标签相关度参数的乘积;
所述词汇标签相关度可以通过如下公式表示:
Figure FDA0003313386490000032
其中,
Figure FDA0003313386490000033
为文档词汇集合C中单词wj对第m个标记的标签相关度。
5.根据权利要求3所述的训练基于标签分布学习的敏感数据识别模型的方法,其特征在于,所述计算词汇与样本之间的相关度包括:
计算词汇样本显著性参数;所述词汇样本显著性参数为词汇在同样本词汇集合出现的频率,所述同样本词汇集合为同一所述样本的词汇集合;
所述词汇样本显著性参数可以通过如下公式表示:
Figure FDA0003313386490000034
其中,
Figure FDA0003313386490000035
表示文档词汇集合C中单词wj对第i个训练样本的显著性,
Figure FDA0003313386490000036
为单词wj在yi中出现的次数,yi是第i个训练样本中所有词汇的集合;
计算样本相关度参数;所述样本相关度参数为能够与词汇匹配的样本在样本集合中的比例;
所述样本相关度参数可以通过如下公式表示:
Figure FDA0003313386490000037
其中,S是训练样本的集合,|S|是集合S中训练样本的个数,
Figure FDA0003313386490000038
表示为单词wj在训练样本集合S中包含wj的训练样本的个数;
计算词汇样本相关度;所述词汇样本相关度为所述词汇样本显著性参数和所述样本相关度参数的乘积;
所述词汇样本相关度可以通过如下公式表示:
Figure FDA0003313386490000041
其中,
Figure FDA0003313386490000042
为文档词汇集合C中单词wj对训练样本集中第i个训练样本的相关度。
6.根据权利要求3所述的训练基于标签分布学习的敏感数据识别模型的方法,其特征在于,所述生成训练样本的标签分布集合包括:
计算样本标签相关度参数;所述样本标签相关度参数为所述词汇标签相关度与所述词汇样本相关度的乘积;
所述样本标签相关度参数可以通过如下公式表示:
Figure FDA0003313386490000043
其中,ILRi,m是第i个样本与第m个标签的相关度;
计算标签分布集合;所述标签分布集合为单个词汇样本标签相关度参数占所有词汇样本标签相关度参数;
所述训练样本的标签分布集合可以通过如下公式表示:
Figure FDA0003313386490000044
Figure FDA0003313386490000045
其中,Di为第i个样本的标签分布集合,q为标签的数量。
7.一种基于标签分布学习的敏感数据识别方法,其特征在于,
获取待测样本;
将待测样本输入到权利要求1-6任一项所述的训练基于标签分布学习的敏感数据识别模型的方法生成的敏感数据识别模型中,得到待测样本的敏感数据识别结果。
8.根据权利要求7所述的敏感数据识别方法,其特征在于,将待测样本输入到训练基于标签分布学习的敏感数据识别模型的方法生成的敏感数据识别模型中,得到待测样本的敏感数据识别结果,包括:
将待测样本输入到所述敏感数据识别模型中;
根据所述敏感数据识别模型提取待测样本的标签分布集合;
利用所述敏感数据识别模型遍历训练样本的标签分布集合,确定与待测样本的标签分布集合最接近的训练样本;
采用所述敏感数据识别模型确定最接近训练样本的敏感数据识别结果作为待测样本的敏感数据识别结果输出。
9.根据权利要求8所述的敏感数据识别方法,其特征在于,所述利用所述敏感数据识别模型遍历训练样本的标签分布集合,确定与待测样本的标签分布集合最接近的训练样本包括:
遍历训练样本的标签分布集合;
分别计算待测样本与每一个训练样本之间的近似度参数;
当近似度参数最小且小于预设的近似度阈值时,将对应的训练样本作为与待测样本最接近的训练样本。
10.根据权利要求9所述的敏感数据识别方法,其特征在于,所述近似度参数利用K-L散度值表示,所述K-L散度值可以通过以下公式表示:
Figure FDA0003313386490000051
其中,dis表示K-L散度值,Pj表示待测样本的标签分布集合,Qj表示训练样本的标签分布合集。
CN202111223201.4A 2021-10-20 2021-10-20 一种基于标签分布学习的敏感数据智能识别方法 Pending CN113962302A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111223201.4A CN113962302A (zh) 2021-10-20 2021-10-20 一种基于标签分布学习的敏感数据智能识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111223201.4A CN113962302A (zh) 2021-10-20 2021-10-20 一种基于标签分布学习的敏感数据智能识别方法

Publications (1)

Publication Number Publication Date
CN113962302A true CN113962302A (zh) 2022-01-21

Family

ID=79465122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111223201.4A Pending CN113962302A (zh) 2021-10-20 2021-10-20 一种基于标签分布学习的敏感数据智能识别方法

Country Status (1)

Country Link
CN (1) CN113962302A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009596A (zh) * 2023-06-28 2023-11-07 国网冀北电力有限公司信息通信分公司 一种电网敏感数据的识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345656A (zh) * 2013-07-17 2013-10-09 中国科学院自动化研究所 一种基于多任务深度神经网络的数据识别方法及装置
US20200160177A1 (en) * 2018-11-16 2020-05-21 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
CN111522951A (zh) * 2020-04-26 2020-08-11 成都思维世纪科技有限责任公司 一种基于图像识别的敏感数据识别与分类的技术方法
CN111797234A (zh) * 2020-06-16 2020-10-20 北京北大软件工程股份有限公司 一种自然语言处理分类模型中多标签分布学习的方法和系统
CN113239766A (zh) * 2021-04-30 2021-08-10 复旦大学 基于深度神经网络的行为识别方法及智能报警装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345656A (zh) * 2013-07-17 2013-10-09 中国科学院自动化研究所 一种基于多任务深度神经网络的数据识别方法及装置
US20200160177A1 (en) * 2018-11-16 2020-05-21 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
CN111522951A (zh) * 2020-04-26 2020-08-11 成都思维世纪科技有限责任公司 一种基于图像识别的敏感数据识别与分类的技术方法
CN111797234A (zh) * 2020-06-16 2020-10-20 北京北大软件工程股份有限公司 一种自然语言处理分类模型中多标签分布学习的方法和系统
CN113239766A (zh) * 2021-04-30 2021-08-10 复旦大学 基于深度神经网络的行为识别方法及智能报警装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘庆;唐贤伦;张娜;: "基于非监督预训练的结构优化卷积神经网络", 工程科学与技术, no. 2, 30 June 2017 (2017-06-30) *
金叶;: "图结构数据的隐私保护研究", 信息通信, no. 01, 15 January 2020 (2020-01-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009596A (zh) * 2023-06-28 2023-11-07 国网冀北电力有限公司信息通信分公司 一种电网敏感数据的识别方法及装置

Similar Documents

Publication Publication Date Title
US10255550B1 (en) Machine learning using multiple input data types
US11321784B2 (en) Methods and systems for automatically detecting fraud and compliance issues in expense reports and invoices
WO2020077896A1 (zh) 提问数据生成方法、装置、计算机设备和存储介质
US9990639B1 (en) Automatic detection of fraudulent real estate listings
CN111079186B (zh) 数据分析的方法、装置、设备和存储介质
CN111767382A (zh) 生成反馈信息的方法、装置及终端设备
CN110705307A (zh) 信息变更指标监控方法、装置、计算机设备和存储介质
CN112528315A (zh) 识别敏感数据的方法和装置
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN117114514A (zh) 一种基于大数据的人才信息分析管理方法、系统及装置
CN113506050A (zh) 员工绩效的评估方法、装置、电子设备及可读存储介质
WO2020253353A1 (zh) 预设用户的资源获取资质生成方法及相关设备
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN114399382A (zh) 用户欺诈风险的检测方法、装置、计算机设备及存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN111797204A (zh) 文本匹配方法、装置、计算机设备及存储介质
EP3828731A1 (en) A method and analytical engine for a semantic analysis of textual data
CN115249007A (zh) 一种基于电子投标文件比对的围串标行为检测方法及装置
CN113962302A (zh) 一种基于标签分布学习的敏感数据智能识别方法
CN112487808A (zh) 基于大数据的新闻消息推送方法、装置、设备及存储介质
Krysovatyy et al. Classification Method of Fictitious Enterprises Based on Gaussian Naive Bayes
CN106649885A (zh) 一种专业类与标准专业名的匹配方法及系统
CN114817518B (zh) 基于大数据档案识别的证照办理方法、系统及介质
CN115759085A (zh) 基于提示模型的信息预测方法、装置、电子设备及介质
CN113222624B (zh) 一种反窃电智能分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 102209 18 Riverside Avenue, Changping District science and Technology City, Beijing

Applicant after: State Grid Smart Grid Research Institute Co.,Ltd.

Applicant after: STATE GRID CORPORATION OF CHINA

Applicant after: STATE GRID LIAONING ELECTRIC POWER SUPPLY Co.,Ltd.

Applicant after: INFORMATION COMMUNICATION BRANCH, STATE GRID LIAONING ELECTRIC POWER Co.,Ltd.

Address before: 102209 18 Riverside Avenue, Changping District science and Technology City, Beijing

Applicant before: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE Co.,Ltd.

Applicant before: STATE GRID CORPORATION OF CHINA

Applicant before: STATE GRID LIAONING ELECTRIC POWER SUPPLY Co.,Ltd.

Applicant before: INFORMATION COMMUNICATION BRANCH, STATE GRID LIAONING ELECTRIC POWER Co.,Ltd.