CN115640603A - 隐私敏感数据识别模型构建及识别方法、装置及存储介质 - Google Patents

隐私敏感数据识别模型构建及识别方法、装置及存储介质 Download PDF

Info

Publication number
CN115640603A
CN115640603A CN202211252061.8A CN202211252061A CN115640603A CN 115640603 A CN115640603 A CN 115640603A CN 202211252061 A CN202211252061 A CN 202211252061A CN 115640603 A CN115640603 A CN 115640603A
Authority
CN
China
Prior art keywords
data
sensitive data
sensitive
privacy
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211252061.8A
Other languages
English (en)
Inventor
梁潇
张文思
赵磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
State Grid Smart Grid Research Institute Co ltd
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
State Grid Smart Grid Research Institute Co ltd
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co ltd Marketing Service Center, State Grid Smart Grid Research Institute Co ltd, State Grid Corp of China SGCC, State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority to CN202211252061.8A priority Critical patent/CN115640603A/zh
Publication of CN115640603A publication Critical patent/CN115640603A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种隐私敏感数据识别模型构建及识别方法、装置及存储介质,该构建方法包括:获取包含敏感数据和非敏感数据的电力业务数据样本集;根据非敏感数据对敏感数据中重要性大于阈值的数据进行数据增强;基于数据增强后的电力业务数据样本集对分类模型进行训练,得到隐私敏感数据识别模型,分类模型包括预训练模型和交替归一化层。通过实施本发明,引入数据增强和预训练模型,可以在大量拓展敏感数据数量的同时保证敏感数据特征的一致性,不会明显降低模型的性能。同时运算量较小不需要调用其他模型,对预测结果进行交替归一化操作,提升分类效果的同时几乎没有增加任何预测成本。实现对电力业务数据的智能化分类分级,降低了人力成本。

Description

隐私敏感数据识别模型构建及识别方法、装置及存储介质
技术领域
本发明涉及语言分析与分类处理技术领域,具体涉及一种隐私敏感数据识别模型构建及识别方法、装置及存储介质。
背景技术
大数据已应用到我们生产生活的方方面面,数据融合共享成为各行各业的共同诉求,在催生新的经济形态和商业模式的同时,也给保护好个人隐私、商业秘密、国家安全以及公共利益带来巨大挑战。企业数据隐私数据指不能直接共享使用,需经数据提供部门审核数据用途、提供方式等才可共享的数据清单。
电力企业通过构建隐私数据系统来保证隐私数据或敏感数据的安全性。通过清出电力业务数据中的隐私数据或敏感数据,数据需求部门可直接调取使用原来需要审核批准的数据,打破部门间的数据壁垒,推动跨专业数据融合落地和数据共享应用。同时,现阶段电力业务数据隐私数据占比较高,给数据融合共享带来困难。
目前的主流方法是依赖人工梳理隐私数据,工作量较大的同时数据分类效率不佳。除此之外,由于人工梳理隐私数据方法强烈依赖运维人员管理的数据管理系统,操作人员需要直接接触数据,不仅存在敏感数据泄露、清单质量不可控的问题,而且人工成本较高,难以应对隐私数据数量的快速增长和隐私数据中内容的不断变化。
发明内容
有鉴于此,本发明实施例提供了涉及一种隐私敏感数据识别模型构建及识别方法、装置及存储介质,以解决现有技术中人工梳理隐私数据存在敏感数据泄露且成本较高的技术问题。
本发明提出的技术方案如下:
本发明实施例第一方面提供一种隐私敏感数据识别模型构建方法,包括:获取包含敏感数据和非敏感数据的电力业务数据样本集;根据所述非敏感数据对所述敏感数据中重要性大于阈值的数据进行数据增强;基于数据增强后的电力业务数据样本集对分类模型进行训练,得到隐私敏感数据识别模型,所述分类模型包括预训练模型和交替归一化层。
可选地,获取包含敏感数据和非敏感数据的电力业务数据样本集,包括:获取电力业务数据;提取电力业务数据中的用户身份相关数据和电力企业相关隐私数据作为敏感数据,其余数据作为非敏感数据。
可选地,所述电力业务数据包括字段级数据和表级数据;根据所述非敏感数据对所述敏感数据中重要性大于阈值的数据进行数据增强,包括:将字段级数据中的字段描述和字段中文名组成多个短文本;分别对敏感数据和非敏感数据中的短文本进行重要性计算,得到敏感数据对应的第一重要性计算结果和非敏感数据对应的第二重要性计算结果;基于第二重要性计算结果对第一重要性计算结果进行敏感关键词提取;对提取的敏感关键词进行数据增强。
可选地,基于第二重要性计算结果对第一重要性计算结果进行敏感关键词提取,包括:判断提取的第一重要性计算结果中前第一预设个数的关键词是否出现在第二重要性计算结果的前第二预设个数的关键词中;当出现时,将相应的关键词删除,继续在第一重要性计算结果中向后遍历,直至在第一重要性计算结果中提取出第三预设个数的关键词,所述第三预设个数的关键词均未出现在第二重要性计算结果的前第二预设个数的关键词中。
可选地,所述重要性计算采用TF-IDF算法,所述数据增强采用欠采样和EAD算法。
可选地,所述电力业务数据包括字段级数据和表级数据;所述预训练模型采用召回率作为模型评价标准,采用语言技术平台中的中文自然语言处理工具作为分词工具,进行全词掩码;所述交替归一化层采用先验分布校正低置信度的预测结果,所述先验分布为敏感数据的比例在0.7%至0.8%范围内;基于数据增强后的电力业务数据样本集对分类模型进行训练之前,还包括:将字段级数据数据中的字段描述和表级数据中的字段所属表描述结合。
本发明实施例第二方面提供一种隐私敏感数据识别方法,包括:获取待识别电力业务数据;将待识别电力业务数据输入至本发明实施例第一方面及第一方面任一项所述的隐私敏感数据识别模型构建方法构建的隐私敏感数据识别模型中,得到待识别电力业务数据中的敏感数据;将待识别电力业务数据中的敏感数据去除后进行共享。
本发明实施例第三方面提供一种隐私敏感数据识别模型构建装置,包括:样本集获取模块,用于获取包含敏感数据和非敏感数据的电力业务数据样本集;样本集增强模块,用于根据所述非敏感数据对所述敏感数据中重要性大于阈值的数据进行数据增强;模型构建模块,用于基于数据增强后的电力业务数据样本集对分类模型进行训练,得到隐私敏感数据识别模型,所述分类模型包括预训练模型和交替归一化层。
可选地,样本集获取模块具体用于获取电力业务数据;提取电力业务数据中的用户身份相关数据和电力企业相关隐私数据作为敏感数据,其余数据作为非敏感数据。
可选地,所述电力业务数据包括字段级数据和表级数据;样本集增强模块具体用于:将字段级数据中的字段描述和字段中文名组成多个短文本;分别对敏感数据和非敏感数据中的短文本进行重要性计算,得到敏感数据对应的第一重要性计算结果和非敏感数据对应的第二重要性计算结果;基于第二重要性计算结果对第一重要性计算结果进行敏感关键词提取;对提取的敏感关键词进行数据增强。
可选地,基于第二重要性计算结果对第一重要性计算结果进行敏感关键词提取,包括:判断提取的第一重要性计算结果中前第一预设个数的关键词是否出现在第二重要性计算结果的前第二预设个数的关键词中;当出现时,将相应的关键词删除,继续在第一重要性计算结果中向后遍历,直至在第一重要性计算结果中提取出第三预设个数的关键词,所述第三预设个数的关键词均未出现在第二重要性计算结果的前第二预设个数的关键词中。
本发明实施例第四方面提供一种隐私敏感数据识别装置,包括:数据获取模块,用于获取待识别电力业务数据;识别模块,用于将待识别电力业务数据输入至本发明实施例第一方面及第一方面任一项所述的隐私敏感数据识别模型构建方法构建的隐私敏感数据识别模型中,得到待识别电力业务数据中的敏感数据;共享模块,用于将待识别电力业务数据中的敏感数据去除后进行共享。
本发明实施例第五方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如本发明实施例第一方面及第一方面任一项所述的隐私敏感数据识别模型构建方法及本发明实施例第二方面所述的隐私敏感数据识别方法。
本发明实施例第六方面提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如本发明实施例第一方面及第一方面任一项所述的隐私敏感数据识别模型构建方法及本发明实施例第二方面所述的隐私敏感数据识别方法。
本发明提供的技术方案,具有如下效果:
本发明实施例提供的隐私敏感数据识别模型构建方法、装置及存储介质,通过引入数据增强和预训练模型,不需要做人工的特征工程,可以使用更大的数据集进行模型优化训练,大量拓展敏感数据数量的同时保证敏感数据特征的一致性,不会明显降低模型的性能。同时该方法运算量较小不需要调用其他模型,对预测结果进行交替归一化操作,提升分类问题的效果的同时几乎没有增加任何预测成本。实现对电力业务数据的智能化分类分级,降低了人力成本,适用于大量数据的处理。
本发明实施例提供的隐私敏感数据识别方法,运算量较小不需要调用其他模型,实现对电力业务数据的智能化分类分级,降低了人力成本,适用于大量数据的处理。另外,通过该识别方法能够自动判断是否为敏感数据来进行隐私数据的筛查,将电力业务数据中的敏感数据进行标注去除,之后的数据即可在部门间不需审查即可共享,提升了电力企业数据管理的效率及安全性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的隐私敏感数据识别模型构建方法的流程图;
图2是根据本发明实施例的隐私敏感数据识别方法的流程图;
图3是根据本发明实施例的隐私敏感数据识别模型构建装置的结构框图;
图4是根据本发明实施例的隐私敏感数据识别装置的结构框图;
图5是根据本发明实施例提供的计算机可读存储介质的结构示意图;
图6是根据本发明实施例提供的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种隐私敏感数据识别模型构建方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种隐私敏感数据识别模型构建方法,可用于电子设备,如电脑、手机、平板电脑等,图1是根据本发明实施例隐私敏感数据识别模型构建方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101:获取包含敏感数据和非敏感数据的电力业务数据样本集。具体地,该电力业务数据可以是从电力系统或者各类电力企业获取的。通过人工标注的方式标注电力业务数据中的敏感数据,从而构成训练模型所需的电力业务数据样本集。其中,在进行标注之前,先对获取的电力业务数据进行去重处理,去除电力业务数据中的重复数据,从而提高后续模型训练的效率。去重处理时可以采用现有的去重工具或者去重软件实现。
在一实施方式中,在进行敏感数据的标注时,提取电力业务数据中的用户身份相关数据和电力企业相关隐私数据作为敏感数据,其余数据作为非敏感数据。其中,身份相关数据具体包括身份证号、电话号码等信息;电力企业相关隐私数据具体包括入账资金、最大错峰电力等、等等相关数据。
步骤S102:根据所述非敏感数据对所述敏感数据中重要性大于阈值的数据进行数据增强。具体地,为了在大量拓展敏感数据数量的同时保证敏感数据特征的一致性,在标注出敏感数据之后,基于非敏感数据筛选敏感数据中重要性大于阈值的数据进行数据增强,实现敏感数据的近义词拓展。其中,在进行数据增强时,可以采用现有的数据增强技术。同时,通过对敏感数据的数据增强,还能解决敏感数据和非敏感数据严重不平衡的问题。
步骤S103:基于数据增强后的电力业务数据样本集对分类模型进行训练,得到隐私敏感数据识别模型,所述分类模型包括预训练模型和交替归一化层。其中,预训练模型采用BERT(Bidirectional Encoder Representation from Transformers)模型。在训练时,可以采用BERT及其变体作为训练的基本模型;然后采用包含敏感数据的电力业务数据样本集对基本模型进行训练,就可以通过BERT模型的微调来适应下游任务,即敏感数据筛选。在训练时,为排除数据抽取的随机性和验证模型的鲁棒性,将每次实验结果重复十次取平均值。
同时,模型的预测阶段存在数据不平衡的问题,因此,在预训练模型之后拼接交替化归一层,能够降低不平衡数据对预测结果的影响,从而提高模型预测的准确性。
本发明实施例提供的隐私敏感数据识别模型构建方法,通过引入数据增强和预训练模型,不需要做人工的特征工程,可以使用更大的数据集进行模型优化训练,大量拓展敏感数据数量的同时保证敏感数据特征的一致性,不会明显降低模型的性能。同时该方法运算量较小不需要调用其他模型,对预测结果进行交替归一化操作,提升分类问题的效果的同时几乎没有增加任何预测成本。实现对电力业务数据的智能化分类分级,降低了人力成本,适用于大量数据的处理。
在一实施方式中,所述电力业务数据包括字段级数据和表级数据;根据所述非敏感数据对所述敏感数据中重要性大于阈值的数据进行数据增强,包括:将字段级数据中的字段描述和字段中文名组成多个短文本;分别对敏感数据和非敏感数据中的短文本进行重要性计算,得到敏感数据对应的第一重要性计算结果和非敏感数据对应的第二重要性计算结果;基于第二重要性计算结果对第一重要性计算结果进行敏感关键词提取;对提取的敏感关键词进行数据增强。
其中,基于第二重要性计算结果对第一重要性计算结果进行敏感关键词提取,包括:判断提取的第一重要性计算结果中前第一预设个数的关键词是否出现在第二重要性计算结果的前第二预设个数的关键词中;当出现时,将相应的关键词删除,继续在第一重要性计算结果中向后遍历,直至在第一重要性计算结果中提取出第三预设个数的关键词,所述第三预设个数的关键词均未出现在第二重要性计算结果的前第二预设个数的关键词中。
具体地,由于电力业务数据通常以表格的形式呈现,因此,将电力业务数据的字段在对敏感数据和非敏感数据进行重要性计算之前,将表格中的字段中文名和字段描述合并为一个样本,从而得到多个短文本;然后以短文本作为单元,分别对敏感数据和非敏感数据中的短文本单元进行TF-IDF(term frequency-inverse document frequency,词频-逆文本频率指数)运算,运算结果分别存储于第一重要性计算结果和第二重要性计算结果中。而TF-IDF作为一种统计方法,能够评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因此,通过TF-IDF对每个短文本单元的计算能够得到每个短文本单元对应的重要性数值。为了便于后续对敏感数据的筛选,基于计算的重要性数值对每个计算结果中的短文本单元由大到小进行排序。
在提取筛选敏感关键词时,先从第一重要性计算结果中提取第一预设个数的敏感关键词,如提取前20个敏感关键词,即在第一重要性计算结果中排在前20位的短文本单元;判断这些敏感关键词是否出现在第二重要性计算结果的前第二预设个数的关键词中,如是否和第二重要性计算结果排在前5的短文本单元相同;当相同时,将相同的删除,继续在第一重要性计算结果中向后遍历,并将提取的敏感关键词继续和第二重要性计算结果比较,直至提取的敏感关键词均未出现在第二重要性计算结果的前几位。其中,最终提取第三预设个数的敏感关键词,第三预设个数可以和第一预设个数相同,即最终提取20个敏感关键词进行数据增强。此外,第三预设个数和第一预设个数也可以不同。
在提取得到第三预设个数的敏感关键词之后,将其进行数据增强;具体可以采用欠采样和EAD(Easy Data Augmentation)进行数据增强,从而实现敏感关键词的拓展。其中,EDA具体包括同义词替换、随机插入、随机交换和随机删除4个数据增强操作。同义词替换(Synonym Replacement,SR)是指从句子中随机选取n个不属于停用词集的单词,并随机选择其同义词替换它们;随机插入(Random Insertion,RI)是指随机的找出句中某个不属于停用词集的词,并求出其随机的同义词,将该同义词插入句子的一个随机位置。重复n次;随机交换(Random Swap,RS)是指随机的选择句中两个单词并交换它们的位置。重复n次;随机删除(Random Deletion,RD)是指以p的概率,随机的移除句中的每个单词。
在一实施方式中,由于训练预训练模型的目的是为了筛选敏感数据,同时作为样本集的数据存在不平衡的问题,因此,单独使用F1分数作为评价指标并不合理,在该实施例中将召回率作为模型评价标准。同时,考虑到许多掩码语言模型中,中文是以字为粒度进行切分,没有考虑到传统自然语言处理中的中文分词。因此,该预训练模型将全词掩码的方法应用在了中文中,使用了LTP(Language Technology Platform,语言技术平台)作为分词工具,对组成同一个词的汉字全部进行掩码。
基于数据增强后的电力业务数据样本集对分类模型进行训练之前,还包括:将字段级数据数据中的字段描述和表级数据中的字段所属表描述结合。具体地,由于电力业务数据中大多以清单数据的方式呈现,因此,在进行训练之前,先将清单数据中字段描述与字段所属表的描述相结合,使得不同表中的相同字段有不同的文本描述,并且同一个表中的不同字段也有不同的文本描述。
该实施例中采用BERT作为预训练模型,BERT采用了Transformer Encoder block进行连接,因此,在进行训练时,主要是基于堆叠的Transformer单元进行数据的处理。其中,模型训练的过程主要是对模型中的参数进行调整,直至交叉熵最小时训练结束。
由于数据集存在不平衡的问题,因此在BERT模型之后拼接交替归一化层。所述交替归一化层采用先验分布校正低置信度的预测结果,使得新的预测结果的分布更接近先验分布,降低不平衡数据对预测结果的影响。在电力业务数据中,敏感数据的比例稳定在0.7%至0.8%范围内,具体大概为0.75%左右。因此,预测结果应该也符合这一比例,可以通过调整数据分布来优化结果。该实施例中,所述先验分布为敏感数据的比例在0.7%至0.8%范围内,具体可以设定
Figure BSA0000286370620000101
为敏感数据的先验数据占比。
本发明实施例还提供一种隐私敏感数据识别方法,如图2所示,包括如下步骤:
步骤S201:获取待识别电力业务数据。
步骤S202:将待识别电力业务数据输入至上述实施例所述的隐私敏感数据识别模型构建方法构建的隐私敏感数据识别模型中,得到待识别电力业务数据中的敏感数据。
步骤S203:将待识别电力业务数据中的敏感数据去除后进行共享。
本发明实施例提供的隐私敏感数据识别方法,运算量较小不需要调用其他模型,实现对电力业务数据的智能化分类分级,降低了人力成本,适用于大量数据的处理。另外,通过该识别方法能够自动判断是否为敏感数据来进行隐私数据的筛查,将电力业务数据中的敏感数据进行标注去除,之后的数据即可在部门间不需审查即可共享,提升了电力企业数据管理的效率及安全性。
具体地,当采用该隐私敏感数据识别模型进行识别时,假设有N个文本需要预测,由预训练模型BERT模型可预测N个文本对应的二项分布:P(Xi)={p0(Xi为不敏感数据),p1(Xi为敏感数据)],即每个概率分布分别输出模型对于不敏感可能性和敏感可能性的概率。对P(Xi)进行交替归一化之后再进行分类输出。
通过定义P(Xi)的不确定性指标H(Xi)来进行区分需要调整的P(Xi):
Figure BSA0000286370620000111
对于选定阈值τ,如果文本不确定性指标H(Xi)高于τ归为低置信度,对上一步的N个文本假设s个为高置信度,其余为低置信度。高置信度中结果为可靠结果,而低置信度中的文本进行一次修正。
对于候选集合
Figure BSA0000286370620000112
k∈{1,2,...,s}∪{j},将P(j)执行类别之间的标准化,使得下式成立:
Figure BSA0000286370620000121
Figure BSA0000286370620000122
通过以上运算,将新的P(k)同样遵从先验分布,但这是标准化之后每个概率未必满足归一化,所以将p(k)执行同类别的标准化。
Figure BSA0000286370620000123
反复执行类别间和同类别的标准化直至结果收敛,因此遍历j∈{s+1,s+2,...,N}中每一个元素逐个修正,之后即得到预测结果。
本发明实施例还提供一种隐私敏感数据识别模型构建装置,如图3所示,该装置包括:
样本集获取模块,用于获取包含敏感数据和非敏感数据的电力业务数据样本集;具体内容参见上述方法实施例对应部分,在此不再赘述。
样本集增强模块,用于根据所述非敏感数据对所述敏感数据中重要性大于阈值的数据进行数据增强;具体内容参见上述方法实施例对应部分,在此不再赘述。
模型构建模块,用于基于数据增强后的电力业务数据样本集对分类模型进行训练,得到隐私敏感数据识别模型,所述分类模型包括预训练模型和交替归一化层。具体内容参见上述方法实施例对应部分,在此不再赘述。
本发明实施例提供的隐私敏感数据识别模型构建装置,通过引入数据增强和预训练模型,不需要做人工的特征工程,可以使用更大的数据集进行模型优化训练,大量拓展敏感数据数量的同时保证敏感数据特征的一致性,不会明显减低模型的性能。同时该装置运算量较小不需要调用其他模型,对预测结果进行交替归一化操作,提升分类问题的效果的同时几乎没有增加任何预测成本。实现对电力业务数据的智能化分类分级,降低了人力成本,适用于大量数据的处理。
本发明实施例提供的隐私敏感数据识别模型构建装置的功能描述详细参见上述实施例中隐私敏感数据识别模型构建方法描述。
可选地,样本集获取模块具体用于获取电力业务数据;提取电力业务数据中的用户身份相关数据和电力企业相关隐私数据作为敏感数据,其余数据作为非敏感数据。
可选地,所述电力业务数据包括字段级数据和表级数据;样本集增强模块具体用于:将字段级数据中的字段描述和字段中文名组成多个短文本;分别对敏感数据和非敏感数据中的短文本进行重要性计算,得到敏感数据对应的第一重要性计算结果和非敏感数据对应的第二重要性计算结果;基于第二重要性计算结果对第一重要性计算结果进行敏感关键词提取;对提取的敏感关键词进行数据增强。
可选地,基于第二重要性计算结果对第一重要性计算结果进行敏感关键词提取,包括:判断提取的第一重要性计算结果中前第一预设个数的关键词是否出现在第二重要性计算结果的前第二预设个数的关键词中;当出现时,将相应的关键词删除,继续在第一重要性计算结果中向后遍历,直至在第一重要性计算结果中提取出第三预设个数的关键词,所述第三预设个数的关键词均未出现在第二重要性计算结果的前第二预设个数的关键词中。
本发明实施例还提供一种隐私敏感数据识别装置,如图4所示,该装置包括:
数据获取模块,用于获取待识别电力业务数据;具体内容参见上述方法实施例对应部分,在此不再赘述。
识别模块,用于将待识别电力业务数据输入至上述实施例所述的隐私敏感数据识别模型构建方法构建的隐私敏感数据识别模型中,得到待识别电力业务数据中的敏感数据;具体内容参见上述方法实施例对应部分,在此不再赘述。
共享模块,用于将待识别电力业务数据中的敏感数据去除后进行共享。具体内容参见上述方法实施例对应部分,在此不再赘述。
本发明实施例提供的隐私敏感数据识别装置,运算量较小不需要调用其他模型,实现对电力业务数据的智能化分类分级,降低了人力成本,适用于大量数据的处理。另外,通过该识别装置能够自动判断是否为敏感数据来进行隐私数据的筛查,将电力业务数据中的敏感数据进行标注去除,之后的数据即可在部门间不需审查即可共享,提升了电力企业数据管理的效率及安全性。
本发明实施例提供的隐私敏感数据识别装置的功能描述详细参见上述实施例中隐私敏感数据识别方法描述。
本发明实施例还提供一种存储介质,如图5所示,其上存储有计算机程序601,该指令被处理器执行时实现上述实施例中隐私敏感数据识别模型构建方法及隐私敏感数据识别方法的步骤。该存储介质上还存储有音视频流数据,特征帧数据、交互请求信令、加密数据以及预设数据大小等。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本发明实施例还提供了一种电子设备,如图6所示,该电子设备可以包括处理器51和存储器52,其中处理器51和存储器52可以通过总线或者其他方式连接,图6中以通过总线连接为例。
处理器51可以为中央处理器(Central Processing Unit,CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的隐私敏感数据识别模型构建方法及隐私敏感数据识别方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需要的应用程序;存储数据区可存储处理器51所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器52中,当被所述处理器51执行时,执行如图1-2所示实施例中的隐私敏感数据识别模型构建方法以及隐私敏感数据识别方法。
上述电子设备具体细节可以对应参阅图1至图2所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (11)

1.一种隐私敏感数据识别模型构建方法,其特征在于,包括:
获取包含敏感数据和非敏感数据的电力业务数据样本集;
根据所述非敏感数据对所述敏感数据中重要性大于阈值的数据进行数据增强;
基于数据增强后的电力业务数据样本集对分类模型进行训练,得到隐私敏感数据识别模型,所述分类模型包括预训练模型和交替归一化层。
2.根据权利要求1所述的隐私敏感数据识别模型构建方法,其特征在于,获取包含敏感数据和非敏感数据的电力业务数据样本集,包括:
获取电力业务数据;
提取电力业务数据中的用户身份相关数据和电力企业相关隐私数据作为敏感数据,其余数据作为非敏感数据。
3.根据权利要求1所述的隐私敏感数据识别模型构建方法,其特征在于,所述电力业务数据包括字段级数据和表级数据;
根据所述非敏感数据对所述敏感数据中重要性大于阈值的数据进行数据增强,包括:
将字段级数据中的字段描述和字段中文名组成多个短文本;
分别对敏感数据和非敏感数据中的短文本进行重要性计算,得到敏感数据对应的第一重要性计算结果和非敏感数据对应的第二重要性计算结果;
基于第二重要性计算结果对第一重要性计算结果进行敏感关键词提取;
对提取的敏感关键词进行数据增强。
4.根据权利要求3所述的隐私敏感数据识别模型构建方法,其特征在于,基于第二重要性计算结果对第一重要性计算结果进行敏感关键词提取,包括:
判断提取的第一重要性计算结果中前第一预设个数的关键词是否出现在第二重要性计算结果的前第二预设个数的关键词中;
当出现时,将相应的关键词删除,继续在第一重要性计算结果中向后遍历,直至在第一重要性计算结果中提取出第三预设个数的关键词,所述第三预设个数的关键词均未出现在第二重要性计算结果的前第二预设个数的关键词中。
5.根据权利要求3所述的隐私敏感数据识别模型构建方法,其特征在于,所述重要性计算采用TF-IDF算法,所述数据增强采用欠采样和EAD算法。
6.根据权利要求1所述的隐私敏感数据识别模型构建方法,其特征在于,
所述电力业务数据包括字段级数据和表级数据;
所述预训练模型采用召回率作为模型评价标准,采用语言技术平台中的中文自然语言处理工具作为分词工具,进行全词掩码;
所述交替归一化层采用先验分布校正低置信度的预测结果,所述先验分布为敏感数据的比例在0.7%至0.8%范围内;
基于数据增强后的电力业务数据样本集对分类模型进行训练之前,还包括:
将字段级数据数据中的字段描述和表级数据中的字段所属表描述结合。
7.一种隐私敏感数据识别方法,其特征在于,包括:
获取待识别电力业务数据;
将待识别电力业务数据输入至权利要求1-6任一项所述的隐私敏感数据识别模型构建方法构建的隐私敏感数据识别模型中,得到待识别电力业务数据中的敏感数据;
将待识别电力业务数据中的敏感数据去除后进行共享。
8.一种隐私敏感数据识别模型构建装置,其特征在于,包括:
样本集获取模块,用于获取包含敏感数据和非敏感数据的电力业务数据样本集;
样本集增强模块,用于根据所述非敏感数据对所述敏感数据中重要性大于阈值的数据进行数据增强;
模型构建模块,用于基于数据增强后的电力业务数据样本集对分类模型进行训练,得到隐私敏感数据识别模型,所述分类模型包括预训练模型和交替归一化层。
9.一种隐私敏感数据识别装置,其特征在于,包括:
数据获取模块,用于获取待识别电力业务数据;
识别模块,用于将待识别电力业务数据输入至权利要求1-6任一项所述的隐私敏感数据识别模型构建方法构建的隐私敏感数据识别模型中,得到待识别电力业务数据中的敏感数据;
共享模块,用于将待识别电力业务数据中的敏感数据去除后进行共享。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-6任一项所述的隐私敏感数据识别模型构建方法及权利要求7所述的隐私敏感数据识别方法。
11.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-6任一项所述的隐私敏感数据识别模型构建方法及权利要求7所述的隐私敏感数据识别方法。
CN202211252061.8A 2022-10-13 2022-10-13 隐私敏感数据识别模型构建及识别方法、装置及存储介质 Pending CN115640603A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211252061.8A CN115640603A (zh) 2022-10-13 2022-10-13 隐私敏感数据识别模型构建及识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211252061.8A CN115640603A (zh) 2022-10-13 2022-10-13 隐私敏感数据识别模型构建及识别方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115640603A true CN115640603A (zh) 2023-01-24

Family

ID=84944614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211252061.8A Pending CN115640603A (zh) 2022-10-13 2022-10-13 隐私敏感数据识别模型构建及识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115640603A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127400A (zh) * 2023-04-19 2023-05-16 国网智能电网研究院有限公司 基于异构计算的敏感数据识别系统、方法及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127400A (zh) * 2023-04-19 2023-05-16 国网智能电网研究院有限公司 基于异构计算的敏感数据识别系统、方法及存储介质

Similar Documents

Publication Publication Date Title
CN102799647B (zh) 网页去重方法和设备
WO2020147238A1 (zh) 关键词的确定方法、自动评分方法、装置、设备及介质
WO2020057022A1 (zh) 关联推荐方法、装置、计算机设备和存储介质
US11669795B2 (en) Compliance management for emerging risks
CN105760526B (zh) 一种新闻分类的方法和装置
CN108334489B (zh) 文本核心词识别方法和装置
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
CN110837590B (zh) 资讯推送方法、装置、计算机设备和存储介质
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN103218368B (zh) 一种挖掘热词的方法与装置
CN112149410A (zh) 语义识别方法、装置、计算机设备和存储介质
CN113239204A (zh) 文本分类方法及装置、电子设备、计算机可读存储介质
CN115879017A (zh) 一种电力敏感数据自动化分类分级方法、装置及存储介质
CN114491034B (zh) 一种文本分类方法及智能设备
CN109214445A (zh) 一种基于人工智能的多标签分类方法
CN115640603A (zh) 隐私敏感数据识别模型构建及识别方法、装置及存储介质
WO2022267460A1 (zh) 基于事件的情感分析方法、装置、计算机设备及存储介质
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN110888977A (zh) 文本分类方法、装置、计算机设备和存储介质
CN106202405B (zh) 一种基于文本相似关系的紧凑性文本提取方法
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质
CN111159996B (zh) 基于文本指纹算法的短文本集合相似度比较方法及系统
CN112991131A (zh) 一种适用于电子政务平台的政务数据处理方法
CN113326699A (zh) 数据检测方法、电子设备及存储介质
CN112395406A (zh) 庭审笔录的检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination