CN117744634A - 一种业务敏感数据词库构建方法、装置、介质及设备 - Google Patents
一种业务敏感数据词库构建方法、装置、介质及设备 Download PDFInfo
- Publication number
- CN117744634A CN117744634A CN202311764455.6A CN202311764455A CN117744634A CN 117744634 A CN117744634 A CN 117744634A CN 202311764455 A CN202311764455 A CN 202311764455A CN 117744634 A CN117744634 A CN 117744634A
- Authority
- CN
- China
- Prior art keywords
- word
- sensitive
- target
- words
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004458 analytical method Methods 0.000 claims abstract description 73
- 238000010276 construction Methods 0.000 claims abstract description 45
- 238000007621 cluster analysis Methods 0.000 claims abstract description 21
- 238000009826 distribution Methods 0.000 claims description 96
- 239000013598 vector Substances 0.000 claims description 67
- 230000006870 function Effects 0.000 claims description 44
- 238000004364 calculation method Methods 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 20
- 239000002131 composite material Substances 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000009825 accumulation Methods 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及业务敏感词库构建技术领域,公开了一种业务敏感数据词库构建方法、装置、介质及设备。其中,方法,获取目标业务数据集;基于列实体识别模型,对目标业务数据集进行列实体识别得到目标敏感数据列;基于每个单词的位置特征、相关性特征、频率特征、出现比率,对目标敏感数据列所属目标词表进行关键词提取得到候选敏感词;对候选敏感词进行聚类分析得到候选敏感词的敏感主题聚类结果以扩充敏感词库;最终不但有助于目标业务数据集的敏感词库自动化构建,而且基于半监督主题分析方式,有利于从语义层面对不同类型的业务数据负面清单敏感词进行更深粒度、更全覆盖率的高效识别,最终提高了不同业务数据集的敏感信息识别能力。
Description
技术领域
本发明涉及业务敏感词库构建技术领域,具体涉及一种业务敏感数据词库构建方法、装置、介质及设备。
背景技术
数字经济时代,数据已经成为关键生产要素,数据安全在社会发展中的重要作用愈加凸显。为了鼓励数据的依法合理有效利用,保障数据的依法有序自由流动,促进以数据为关键要素的数字经济发展,我国已经着手建立和完善数据分类分级保护制度,为规范数据处理活动和保障数据安全奠定基础。电力数据呈现体量大、类型多和涉密程度高等特点,包含大量对国家、社会及公司利益造成影响的商密数据和个人信息数据。在电力业务数据的数据安全防护中,敏感数据识别是其重要环节。敏感数据在电力业务中造成的问题主要来自两个方面:一方面,敏感数据涉及到企业内部的机密或重要决策等,一旦泄露会给企业带来巨大的损失;另一方面,客户的隐私数据一旦泄露会造成客户的合法权益受到损害。此外,负面清单敏感词库的构建是电力业务敏感数据识别的重要组成部分,负面清单敏感词库通过将文件规范定义的敏感信息字段作为敏感类型,包括个人隐私和商业机密,通过对电力业务数据进行敏感词检测,判断电力业务数据中是否含有敏感词类型,实现对电力业务数据的高效敏感识别。
传统的电力业务敏感词库构建方法,一般基于已有清单或者预设关键词筛选出敏感信息关键词形成词表,然后基于敏感文本的关键词匹配算法,匹配判断待测文本是否含有敏感信息,人工构建词库效率低且识别准确率差。随着人工智能算法的深入应用,现有方法通过人工采集基本敏感词汇,然后基于机器学习算法和词嵌入算法对大量网络语料库进行训练,并通过计算基本敏感词的词嵌入表示词间的语义相似度,扩展基本敏感词词汇量,完成最终敏感词库的构建,但是,仅通过机器学习算法对一种或几种敏感特征进行敏感关键词提取和敏感词库扩展,难以从语义层面对电力业务数据负面清单敏感词进行更深粒度、更全覆盖率的高效识别。
发明内容
有鉴于此,本发明提供了一种业务敏感数据词库构建方法、装置、介质及设备,以解决人工构建词库效率低且识别准确率差以及难以从语义层面对电力业务数据负面清单敏感词进行更深粒度、更全覆盖率的高效识别的问题。
根据第一方面,本实施例提供一种业务敏感数据词库构建方法,方法包括:
获取目标业务数据集;
基于列实体识别模型,对目标业务数据集进行列实体识别得到目标敏感数据列;
基于每个单词的位置特征、相关性特征、频率特征、出现比率,对目标敏感数据列所属目标词表进行关键词提取得到候选敏感词;
基于半监督主题聚类分析方式对候选敏感词进行聚类分析得到候选敏感词的敏感主题聚类结果以扩充敏感词库。
通过执行上述实施方式,基于半监督主题分析方式,有利于从语义层面对不同类型的业务数据负面清单敏感词进行更深粒度、更全覆盖率的高效识别,最终提高了不同类型的业务数据集的敏感信息识别能力。
在一种可选的实施方式中,列实体识别模型通过如下步骤构建:
将国家标准敏感清单作为训练集输入预设语言模型,并在预设语言模型中加上全连接层分类器对预设语言模型进行微调训练,以得到列实体识别模型。
通过执行上述实施方式,通过预设语言模型对国家标准敏感清单进行训练学习,可以精准得到列实体识别模型。
在一种可选的实施方式中,列实体识别模型通过如下公式表达:
LM=finetune(M,SP);
其中,LM为列实体识别模型,M为预设语言模型,SP为国家标准敏感清单,finetune为微调函数。
通过执行上述实施方式,可以精准得到列实体识别模型。
在一种可选的实施方式中,每个单词的位置特征、相关性特征、频率特征、出现比率通过如下步骤获取:
对目标敏感数据列所属目标词表中的单元格文本内容进行预处理;
基于句子出现位置、中位数计算函数和第一预设数值,计算目标词表中每个单词的位置特征;
基于每个单词右侧唯一出现的单词数量、每个单词左侧唯一出现的单词数量、目标词表中第i个词的出现总次数、目标词表中第i个词的最大出现次数、第二预设数值,计算目标词表中每个单词的相关性特征;
基于目标词表中第i个词的出现总次数和目标词表中的单词总数,计算目标词表中每个单词的频率特征;
基于目标词表中第i个词出现的单元格数量和单元格总数,计算目标词表中每个单词的出现比率。
通过执行上述实施方式,可以准确获取每个单词的位置特征、相关性特征、频率特征、出现比率。
在一种可选的实施方式中,目标词表中每个单词的位置特征通过如下步骤计算:
p(Wi)=log(log(3+median(x)));
其中,p(Wi)为述目标词表中每个单词的位置特征,3为第一预设数值,x为句子出现位置;
计算目标词表中每个单词的相关性特征通过如下公式计算:
其中,r(Wi)为目标词表中每个单词的相关性特征,R为右侧唯一出现的单词数量,L为每个单词左侧唯一出现的单词数量,count为目标词表中第i个词的出现总次数,max(count)为目标词表中第i个词的最大出现次数,1为第二预设数值,Wi目标词表中第i个词;
目标词表中每个单词的频率特征通过如下公式计算:
其中,f(Wi)为目标词表中每个单词的频率特征,目标词表中第i个词的出现总次数,count(w)为目标词表中的单词总数;
目标词表中每个单词的出现比率通过如下公式计算:
其中,l(Wi)为目标词表中每个单词的出现比率,occur(Wi)为目标词表中第i个词出现的单元格数量,total为单元格总数。
通过执行上述实施方式,可以准确计算目标词表中每个单词的位置特征、相关性特征、频率特征、出现比率。
在一种可选的实施方式中,基于每个单词的位置特征、相关性特征、频率特征、出现比率,对目标敏感数据列进行关键词提取得到候选敏感词,包括:
基于每个单词的位置特征、相关性特征、频率特征、出现比率,计算每个单词的综合得分;
基于每个单词的综合得分,将排名在前的k个综合得分最高的单词作为关键词,k为要提取的关键词数。
通过执行上述实施方式,可以精确提取目标敏感数据列的关键词,以得到候选敏感词。
在一种可选的实施方式中,计算每个单词的综合得分通过如下公式计算:
其中,Score(Wi)为每个单词的综合得分,p(Wi)为每个单词的位置特征,r(Wi)为每个单词的相关性特征,f(Wi)为每个单词的频率特征,l(Wi)为每个单词的出现比率。
通过执行上述实施方式,可以准确计算出每个单词的综合得分。
在一种可选的实施方式中,基于半监督主题聚类分析方式对候选敏感词进行聚类分析得到候选敏感词的敏感主题聚类结果以扩充敏感词库,包括:
从敏感词库的不同敏感主题中各随机抽取一组种子词作为半监督主题分析模型的输入;
在半监督主题分析模型中,根据候选敏感词和种子词的狄利克雷分布进行半监督主题分析,并通过半监督主题分析模型输出候选敏感词的敏感主题聚类结果,种子词用于引导半监督主题分析模型对候选敏感词进行敏感主题聚类。
通过执行上述实施方式,有助于业务数据负面清单敏感词库自动化构建,基于半监督主题聚类分析方式对所述候选敏感词进行聚类分析得到候选敏感词的敏感主题聚类结果以扩充敏感词库,最终有利于提高业务数据文件的敏感信息辨识能力。
在一种可选的实施方式中,在半监督主题分析模型中,根据候选敏感词和种子词的狄利克雷分布进行半监督主题分析,并通过半监督主题分析模型输出候选敏感词的敏感主题聚类结果以扩充敏感词库,包括:
将候选敏感词数量、敏感数据词库中的敏感主题数据集及敏感主题数量以及随机生成每个候选敏感词对应敏感主题的单词数向量和对每类敏感主题产生词矩阵作为半监督主题分析模型的初始化参数;
基于每个候选敏感词对应敏感主题的单词数向量,通过狄利克雷分布方式产生第一敏感主题分布结果;和,基于每类敏感主题产生词矩阵,通过狄利克雷分布方式产生第二敏感主题分布结果;
基于每个候选敏感词对应的单词数向量和第一敏感主题分布结果,计算潜在狄利克雷分布的第一概率密度函数;和,基于每类敏感主题产生词矩阵和第二敏感主题分布结果,计算潜在狄利克雷分布的第二概率密度函数;
基于第一敏感主题分布结果,采用多项式分布方式计算不同待聚类主题产生每个目标单词的次数向量;
从不同待聚类主题产生每个目标单词的次数向量中选取最大次数向量对应的待聚类主题,基于第二敏感主题分布结果,采用多项式分布方式计算待聚类主题产生不同新词的词矩阵;若该待聚类主题为包括敏感主题和常规主题,敏感主题通过从种子词中产生新词,常规主题从目标词表中产生新词;
累加目标词表中的每个目标单词的次数向量和待聚类主题产生不同新词的词矩阵;
通过归一化函数处理累加后的目标词表中的每个目标单词的次数向量得到第一结果,和,通过归一化函数处理累加后的常规主题产生不同新词的词矩阵得到第二结果;
基于第一结果更新候选敏感词对应的单词数向量,基于第二结果更新每类敏感主题产生词矩阵,直到更新结果收敛,若更新结果未收敛,返回产生第一敏感主题分布结果和第二敏感主题分布结果的步骤;
获取半监督主题分析模型输出候选敏感词的敏感主题聚类结果;
将聚类后的候选敏感词加入敏感词库对应的敏感字段中,以扩充敏感词库。
通过执行上述实施方式,基于国家提供的敏感清单自动生成适用于业务数据的敏感类型负面清单敏感词,有助于业务数据负面清单敏感词库自动化构建,基于半监督主题聚类分析方式对所述候选敏感词进行聚类分析得到候选敏感词的敏感主题聚类结果,最终有利于提高业务数据文件的敏感信息辨识能力,并且可以从语义层面对电力业务数据负面清单敏感词进行更深粒度、更全覆盖率的高效识别。
根据第二方面,本实施例提供一种业务敏感数据词库构建装置,装置包括:
业务数据集获取模块,用于获取目标业务数据集;
列敏感数据识别模块,用于基于列实体识别模型,对目标业务数据集进行列实体识别得到目标敏感数据列;
候选敏感词提取模块,用于基于每个单词的位置特征、相关性特征、频率特征、出现比率,对目标敏感数据列所属目标词表进行关键词提取得到候选敏感词;
聚类结果分析模块,用于基于半监督主题聚类分析方式对候选敏感词进行聚类分析得到候选敏感词的敏感主题聚类结果以扩充敏感词库。
在一种可选的实施方式中,列敏感数据识别模块包括:
列实体识别模型构建子模块,用于将国家标准敏感清单作为训练集输入预设语言模型,并在预设语言模型中加上全连接层分类器对预设语言模型进行微调训练,以得到列实体识别模型。
在一种可选的实施方式中,列实体识别模型通过如下公式表达:
LM=finetune(M,SP);
其中,LM为列实体识别模型,M为预设语言模型,SP为国家标准敏感清单,finetune为微调函数。
在一种可选的实施方式中,候选敏感词提取模块,包括:
文本内容处理子模块,用于对目标敏感数据列所属目标词表中的单元格文本内容进行预处理;
位置特征计算子模块,用于基于句子出现位置、中位数计算函数和第一预设数值,计算目标词表中每个单词的位置特征;
相关特征计算子模块,用于基于每个单词右侧唯一出现的单词数量、每个单词左侧唯一出现的单词数量、目标词表中第i个词的出现总次数、目标词表中第i个词的最大出现次数、第二预设数值,计算目标词表中每个单词的相关性特征;
频率特征计算子模块,用于基于目标词表中第i个词的出现总次数和目标词表中的单词总数,计算目标词表中每个单词的频率特征;
出现比率计算子模块,用于基于目标词表中第i个词出现的单元格数量和单元格总数,计算目标词表中每个单词的出现比率。
在一种可选的实施方式中,目标词表中每个单词的位置特征通过如下公式计算:
p(Wi)=log(log(3+median(x)));
其中,p(Wi)为述目标词表中每个单词的位置特征,3为第一预设数值,x为句子出现位置;
计算目标词表中每个单词的相关性特征通过如下公式计算:
其中,r(Wi)为目标词表中每个单词的相关性特征,R为右侧唯一出现的单词数量,L为每个单词左侧唯一出现的单词数量,count为目标词表中第i个词的出现总次数,max(count)为目标词表中第i个词的最大出现次数,1为第二预设数值,Wi目标词表中第i个词;
目标词表中每个单词的频率特征通过如下公式计算:
其中,f(Wi)为目标词表中每个单词的频率特征,目标词表中第i个词的出现总次数,count(w)为目标词表中的单词总数;
目标词表中每个单词的出现比率通过如下公式计算:
其中,l(Wi)为目标词表中每个单词的出现比率,occur(Wi)为目标词表中第i个词出现的单元格数量,total为单元格总数。
在一种可选的实施方式中,候选敏感词提取模块,包括:
综合得分计算子模块,用于基于每个单词的位置特征、相关性特征、频率特征、出现比率,计算每个单词的综合得分;
综合排名计算子模块,用于基于每个单词的综合得分,将排名在前的k个综合得分最高的单词作为关键词,k为要提取的关键词数。
在一种可选的实施方式中,计算每个单词的综合得分通过如下公式计算:
其中,Score(Wi)为每个单词的综合得分,p(Wi)为每个单词的位置特征,r(Wi)为每个单词的相关性特征,f(Wi)为每个单词的频率特征,l(Wi)为每个单词的出现比率。
在一种可选的实施方式中,聚类结果分析模块,包括:
种子词语输入子模块,用于从敏感词库的不同敏感主题中各随机抽取一组种子词作为半监督主题分析模型的输入;
聚类结果输出子模块,用于在半监督主题分析模型中,根据候选敏感词和种子词的狄利克雷分布进行半监督主题分析,并通过半监督主题分析模型输出候选敏感词的敏感主题聚类结果以扩充敏感词库,种子词用于引导半监督主题分析模型对候选敏感词进行敏感主题聚类。
在一种可选的实施方式中,聚类结果输出子模块,包括:
初始化参数输入单元,用于将候选敏感词数量、敏感数据词库中的敏感主题数据集及敏感主题数量以及随机生成每个候选敏感词对应敏感主题的单词数向量和对每类敏感主题产生词矩阵作为半监督主题分析模型的初始化参数;
敏感主题分布单元,用于基于每个候选敏感词对应敏感主题的单词数向量,通过狄利克雷分布方式产生第一敏感主题分布结果;和,基于每类敏感主题产生词矩阵,通过狄利克雷分布方式产生第二敏感主题分布结果;
概率密度计算单元,用于基于每个候选敏感词对应的单词数向量和第一敏感主题分布结果,计算潜在狄利克雷分布的第一概率密度函数;和,基于每类敏感主题产生词矩阵和第二敏感主题分布结果,计算潜在狄利克雷分布的第二概率密度函数;
次数向量获取单元,用于基于第一敏感主题分布结果,采用多项式分布方式计算不同待聚类主题产生每个目标单词的次数向量;
待聚类主题获取单元,用于从不同待聚类主题产生每个目标单词的次数向量中选取最大次数向量对应的待聚类主题;
主题新词产生单元,用于基于第二敏感主题分布结果,采用多项式分布方式计算待聚类主题产生不同新词的词矩阵;若该待聚类主题为包括敏感主题和常规主题,敏感主题通过从种子词中产生新词,常规主题从目标词表中产生新词;
参数累加单元,用于累加目标词表中的每个目标单词的次数向量和待聚类主题产生不同新词的词矩阵,
参数归一化单元,用于通过归一化函数处理累加后的目标词表中的每个目标单词的次数向量得到第一结果,和,通过归一化函数处理累加后的常规主题产生不同新词的词矩阵得到第二结果;
参数更新单元,用于基于第一结果更新候选敏感词对应的单词数向量,基于第二结果更新每类敏感主题产生词矩阵,直到更新结果收敛,若更新结果未收敛,返回产生第一敏感主题分布结果和第二敏感主题分布结果的步骤;
聚类结果获取单元,用于获取半监督主题分析模型输出候选敏感词敏感主题聚类结果;
敏感词库扩充单元,用于将聚类后的候选敏感词加入敏感词库对应的敏感字段中,以扩充敏感词库。
根据第三方面,本实施例提供一种计算机设备,包括:
存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行第一方面或第一方面任一实施方式中的业务敏感数据词库构建装置。
根据第四方面,本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行第一方面或第一方面任一实施方式中的业务敏感数据词库构建装置。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的业务敏感数据词库构建方法的流程示意图;
图2是根据本发明实施例的另一业务敏感数据词库构建方法的流程示意图;
图3是根据本发明实施例的又一业务敏感数据词库构建方法的流程示意图;
图4是根据本发明实施例的又一业务敏感数据词库构建方法的流程示意图;
图5是根据本发明实施例的业务敏感数据词库构建装置的结构框图;
图6是本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中的业务敏感词库构建方式,一般基于已有清单或者预设关键词筛选出敏感信息关键词形成词表,然后基于敏感文本的关键词匹配算法,匹配判断待测文本是否含有敏感信息,人工构建词库效率低且识别准确率差。随着人工智能算法的深入应用,相关技术,主要通过人工采集基本敏感词汇,然后基于机器学习算法和词嵌入算法对大量网络语料库进行训练,并通过计算基本敏感词的词嵌入表示词间的语义相似度,扩展基本敏感词词汇量,完成最终敏感词库的构建。然而,相关技术中的敏感数据词库构建方法在对业务数据进行敏感识别时仍面临着以下问题:
第一,由于不同业务系统种类多,数据体量大,敏感信息类别多而复杂,因此,该业务数据负面清单敏感词库的构建,需要业务人员提前进行人工采集和筛选,导致过于消耗人力资源和时间资源,采集成本过高,缺少电力业务数据敏感关键词库的自动化构建方式。
第二,不同业务系统的敏感数据特征各不相同,且存在大量的弱特征电力敏感数据,不支持通过规则直接定义数据敏感特征,相关技术仅通过机器学习算法对一种或几种敏感特征进行敏感关键词提取和敏感词库扩展,难以从语义层面对电力业务数据负面清单敏感词进行更深粒度、更全覆盖率的高效识别。
有鉴于此,根据本发明实施例,提供了一种业务敏感数据词库构建方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种业务敏感数据词库构建方法,可用于上述的移动终端,如手机、平板电脑等(结合实际情况描述执行主体),图1是根据本发明实施例的业务敏感数据词库构建方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,获取目标业务数据集。
具体地,本实施例中的目标业务数据集可以为电力业务数据集,例如,该电力业务数据集可以为不同种类电力业务系统的电力业务数据集。
步骤S102,基于列实体识别模型,对目标业务数据集进行列实体识别得到目标敏感数据列。
具体地,本实施例中的列实体识别模型是通过预设语言模型进行列实体识别微调得到,例如,本实施例根据国家标准《GB/T35273-2020信息安全技术个人信息安全规范》附录B个人敏感信息提供的敏感清单,对采用电力业务语料库的预设语言模型进行列实体识别的微调训练,然后采用微调好的实体识别模型对目标业务数据集进行列实体识别。本实施例中提及的列实体识别可以为敏感数据列。
示例性地,假设目标业务数据集为D,使用微调好的实体识别模型LM进行列实体识别输出的目标敏感数据列为DS。
DS=LM(D);
步骤S103,基于每个单词的位置特征、相关性特征、频率特征、出现比率,对目标敏感数据列所属目标词表进行关键词提取得到候选敏感词。
具体地,本实施例中的每个单词的位置特征、相关性特征、频率特征、出现比率为词级别特征,基于该词级别特征,对目标敏感数据列所属目标词表进行关键词提取得到候选关键词,通过该候选关键词以扩充敏感词库。
步骤S104,基于半监督主题聚类分析方式对候选敏感词进行聚类分析得到候选敏感词的敏感主题聚类结果以扩充敏感词库。
具体地,本实施例基于半监督主题分析方式对候选敏感词进行主题聚类,最终可以标识候选敏感词的敏感类型并加入敏感词库。
本实施例中的业务敏感数据词库构建方法,通过获取目标业务数据集;基于列实体识别模型,对目标业务数据集进行列实体识别得到目标敏感数据列;基于每个单词的位置特征、相关性特征、频率特征、出现比率,对目标敏感数据列所属目标词表进行关键词提取得到候选敏感词;基于半监督主题聚类分析方式对候选敏感词进行聚类分析得到候选敏感词的敏感主题聚类结果;最终不但有助于目标业务数据集的负面清单敏感词库自动化构建,而且基于半监督主题分析方式,有利于从语义层面对不同类型的业务数据负面清单敏感词进行更深粒度、更全覆盖率的高效识别,最终提高了不同类型的业务数据集的敏感信息识别能力。
在一种可选的实施方式中,列实体识别模型通过如下步骤构建:
将国家标准敏感清单作为训练集输入预设语言模型,并在预设语言模型中加上全连接层分类器对预设语言模型进行微调训练,以得到列实体识别模型。
在本实施例中,本实施例中的列实体识别模型通过如下公式表达:
LM=finetune(M,SP);
其中,LM为列实体识别模型,M为预设语言模型,SP为国家标准敏感清单,finetune为微调函数。
具体地,使用国家标准敏感清单对预设语言模型进行实体识别微调。假设采用电力业务语料库,对预设语言模型M进行训练,国家标准敏感清单为SP,以国家标准敏感清单SP为训练集,对预训练语言模型M加上一个全连接层分类器L进行实体识别微调,微调函数为finetune,包括神经网络的前向传递和反向传播以及参数更新,微调好的实体识别模型为LM。
本实施例通过列实体识别模型,可以提高目标业务数据集列实体识别的精准性。
在本实施例中提供了一种业务敏感数据词库构建方法,可用于上述的移动终端,如手机、平板电脑等,图2是根据本发明实施例的业务敏感数据词库构建方法的流程图,上述步骤S103,基于每个单词的位置特征、相关性特征、频率特征、出现比率,对目标敏感数据列所属目标词表进行关键词提取得到候选敏感词,如图2所示,该流程包括如下步骤:
步骤S201,对目标敏感数据列所属目标词表中的单元格文本内容进行预处理。
具体地,本实施例中的预处理包括删除空格和标点符号、删除停用词,并进行分词处理,及将分词处理后的结果中没有重复出现的词加入目标词表中。
步骤S202,基于句子出现位置、中位数计算函数和第一预设数值,计算目标词表中每个单词的位置特征。
具体地,在本实施例中,位置特征为位置分数,位置分数越高表示单词出现在数据列更靠近顶部的位置,该单词作为关键词的效用越大。
在一种可选的实施方式中,本实施例中的目标词表中每个单词的位置特征通过如下公式计算:
p(Wi)=log(log(3+median(x)));
其中,p(Wi)为述目标词表中每个单词的位置特征,3为第一预设数值,x为句子出现位置。
通过本实施例计算目标词表中每个单词的位置特征,有利于从目标敏感数据列所属目标词表中精确提取关键词,以得到最终的候选敏感词。
步骤S203,基于每个单词右侧唯一出现的单词数量、每个单词左侧唯一出现的单词数量、目标词表中第i个词的出现总次数、目标词表中第i个词的最大出现次数、第二预设数值,计算目标词表中每个单词的相关性特征。
具体地,在本实施例中,相关性特征为相关分数,相关性越高表示单词在单元格中同时出现的单词种类越少,该单词作为关键词的效用越大。
在一种可选的实施方式中,计算目标词表中每个单词的相关性特征通过如下公式计算:
其中,r(Wi)为目标词表中每个单词的相关性特征,R为右侧唯一出现的单词数量,L为每个单词左侧唯一出现的单词数量,count为目标词表中第i个词的出现总次数,max(count)为目标词表中第i个词的最大出现次数,1为第二预设数值,Wi目标词表中第i个词。
通过本实施例计算目标词表中每个单词的相关性特征,仍然有利于从目标敏感数据列所属目标词表中精确提取关键词,以得到最终的候选敏感词。
步骤S204,基于目标词表中第i个词的出现总次数和目标词表中的单词总数,计算目标词表中每个单词的频率特征。
具体地,在本实施例中,频率特征指单词在目标敏感数据列中的出现频次,该出现频率越高表示该单词作为关键词的效用越小。
通过本实施例计算目标词表中每个单词的频率特征,仍然有利于从目标敏感数据列所属目标词表中精确提取关键词,以得到最终的候选敏感词。
步骤S205,基于目标词表中第i个词出现的单元格数量和单元格总数,计算目标词表中每个单词的出现比率。
具体地,在本实施例中,出现比率表示为该单词出现的单元格数量与单元格总数的比率,出现比率越高该单词作为关键词的效用越小。
在一种可选的实施方式中,目标词表中每个单词的出现比率通过如下公式计算:
其中,l(Wi)为目标词表中每个单词的出现比率,occur(Wi)为目标词表中第i个词出现的单元格数量,total为单元格总数。
通过本实施例计算目标词表中每个单词的出现频次,仍然有利于从目标敏感数据列所属目标词表中精确提取关键词,以得到最终的候选敏感词。
上述步骤S202-步骤S204,可以不分先后顺序。
在一种具体的实施方式中,步骤S103,基于每个单词的位置特征、相关性特征、频率特征、出现比率,对目标敏感数据列进行关键词提取得到候选敏感词,包括:
步骤a1,基于每个单词的位置特征、相关性特征、频率特征、出现比率,计算每个单词的综合得分。
在一种可选的实施方式中,计算每个单词的综合得分通过如下公式计算:
其中,Score(Wi)为每个单词的综合得分,p(Wi)为每个单词的位置特征,r(Wi)为每个单词的相关性特征,f(Wi)为每个单词的频率特征,l(Wi)为每个单词的出现比率。
步骤a2,基于每个单词的综合得分,将排名在前的k个综合得分最高的单词作为关键词,k为要提取的关键词数。
本实施例通过计算每个单词的综合得分,有利于精确提取目标词表中的关键词。
在一种可选的实施方式中,上述步骤S104,基于半监督主题聚类分析方式对候选敏感词进行聚类分析得到候选敏感词的敏感主题聚类结果以扩充敏感词库,包括:
步骤b1,从敏感词库的不同敏感主题中各随机抽取一组种子词作为半监督主题分析模型的输入。
步骤b2,在半监督主题分析模型中,根据候选敏感词和种子词的狄利克雷分布进行半监督主题分析,并通过半监督主题分析模型输出候选敏感词的敏感主题聚类结果,种子词用于引导半监督主题分析模型对候选敏感词进行敏感主题聚类。
具体地,从敏感词库的不同敏感类型中各随机抽取一组种子词作为半监督主题分析模型的输入,根据候选敏感词和种子词的狄利克雷分布进行半监督主题分析,种子词引导半监督主题分析模型对候选敏感词进行主题聚类,最终确定并标识候选敏感词的敏感类型并加入敏感词库。在本实施例中,敏感主题的种子词数量可以用size(seedi)表示。
本实施例使用半监督主题分析技术对负面清单敏感词进行主题分析和聚类,有助于不同业务数据(包括电力业务数据)的负面清单敏感词库自动化构建,提高目标业务数据(电力业务数据)的敏感信息识别能力,可以从语义层面对业务数据集的负面清单敏感词进行更深粒度、更全覆盖率的高效识别。
在本实施例中提供了一种业务敏感数据词库构建方法,可用于上述的移动终端,如手机、平板电脑等,图3是根据本发明实施例的业务敏感数据词库构建方法的流程图,步骤b2,在半监督主题分析模型中,根据候选敏感词和种子词的狄利克雷分布进行半监督主题分析,并通过半监督主题分析模型输出候选敏感词的敏感主题聚类结果以扩充敏感词库,种子词用于引导半监督主题分析模型对候选敏感词进行敏感主题聚类,如图3所示,该流程包括如下步骤:
步骤S301,将候选敏感词数量、敏感数据词库中的敏感主题数据集及敏感主题数量以及随机生成每个候选敏感词对应敏感主题的单词数向量和对每类敏感主题产生词矩阵作为半监督主题分析模型的初始化参数。
具体地,设输入的敏感字段主题集S,敏感主题数为k,候选敏感词为d,随机产生候每个选敏感词对应敏感主题的单词数向量α,α维度为k。
步骤S302,基于每个候选敏感词对应敏感主题的单词数向量,通过狄利克雷分布方式产生第一敏感主题分布结果;和,基于每类敏感主题产生词矩阵,通过狄利克雷分布方式产生第二敏感主题分布结果。
具体地,该步骤S302相当于进行主题分布选取。从候选敏感词主题向量α=(α1,α2,…,αd),根据潜在狄利克雷分布产生第一敏感主题分布结果θd=(Θ1,Θ2,…Θd)。从每类敏感主题产生词矩阵βs=(βs1,βs2,…βsk),根据潜在狄利克雷分布产生第二敏感主题分布结果φs=(φ1,φ2,…φk)。
步骤S303,基于每个候选敏感词对应的单词数向量和第一敏感主题分布结果,计算潜在狄利克雷分布的第一概率密度函数;和,基于每类敏感主题产生词矩阵和第二敏感主题分布结果,计算潜在狄利克雷分布的第二概率密度函数。
具体地,设Dir为潜在狄利克雷分布,p为潜在狄利克雷分布的概率密度函数,其中,p(φs|βs)为第一概率密度函数,p(θd|α)为第二概率密度函数,Γ为伽马函数。
φs~Dir(βs);
θd~Dir(α)。
步骤S304,基于第一敏感主题分布结果,采用多项式分布方式计算不同待聚类主题产生每个目标单词的次数向量。
步骤S305,从不同待聚类主题产生每个目标单词的次数向量中选取最大次数向量对应的待聚类主题,基于第二敏感主题分布结果,采用多项式分布方式计算待聚类主题产生不同新词的词矩阵;若该待聚类主题为包括敏感主题和常规主题,敏感主题通过从种子词中产生新词,常规主题从目标词表中产生新词。
步骤S306,累加目标词表中的每个目标单词的次数向量和待聚类主题产生不同新词的词矩阵。
具体地,遍历目标词表中的每个单词,计算该单词由不同待聚类主题产生的次数,以及在该单词对应的待聚类主题下产生不同词及其数量。
示例性地,首先从候选敏感词主题分布θd中采用多项式分布计算不同待聚类主题产生每个单词的次数向量Ti,再累加所有的次数向量并归一化作为新一轮迭代的每个选敏感词对应敏感主题的单词数向量α;取Ti中次数最大的待聚类主题Zi作为该单词的待聚类主题,若待聚类主题为敏感主题或常规主题,均采用多项式分布计算该待聚类主题产生不同新词的分布BZi,累加该待聚类主题下所有新词的分布向量并归一化作为新一轮迭代的基于每类敏感主题产生词矩阵βs,为Ti中次数最大的待聚类主题Zi通过狄利克雷分布方式产生第二敏感主题分布结果;常规主题和敏感主题的区别在于常规主题产生新词时会产生所有词表内的单词,而敏感主题只会从种子词中产生新词。设多项式分布函数为Mult,则:
Ti=Mult(θd);
步骤S307,通过归一化函数处理累加后的目标词表中的每个目标单词的次数向量得到第一结果,和,通过归一化函数处理累加后的常规主题产生不同新词的词矩阵得到第二结果。
在一具体示例中,该步骤S307相当于参数更新,累加所有的次数向量Ti并归一化作为新一轮迭代的每个选敏感词对应敏感主题的单词数向量α;累加每种敏感主题下所有的新词分布向量并归一化作为新一轮迭代的每类敏感主题产生词矩阵βs。设Norm为归一化函数,则:
α=Norm(∑Ti);
步骤S308,基于第一结果更新候选敏感词对应的单词数向量,基于第二结果更新每类敏感主题产生词矩阵,直到更新结果收敛,若更新结果未收敛,返回产生第一敏感主题分布结果和第二敏感主题分布结果的步骤S305。
具体地,基于归一化的第一结果更新候选敏感词对应的单词数向量,基于归一化的第二结果更新每类敏感主题产生词矩阵,直到更新结果收敛,若更新结果未收敛,返回产生第一敏感主题分布结果和第二敏感主题分布结果的步骤S303。
步骤S309,获取半监督主题分析模型输出的敏感主题聚类结果候选敏感词的敏感主题聚类结果。
步骤S310,将聚类后的候选敏感词加入敏感词库对应的敏感字段中,以扩充敏感词库。
如图4所示,为本实施例中业务敏感数据词库构建方法的流程框图。
本实施例可以基于国家提供的敏感清单自动生成适用于业务数据的敏感类型负面清单敏感词,有助于业务数据负面清单敏感词库自动化构建,基于半监督主题聚类分析方式对所述候选敏感词进行聚类分析得到候选敏感词的敏感主题聚类结果,最终有利于提高业务数据文件的敏感信息辨识能力,并且可以从语义层面对电力业务数据负面清单敏感词进行更深粒度、更全覆盖率的高效识别。
在本实施例中还提供了一种业务敏感数据词库构建装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种业务敏感数据词库构建装置,如图5所示,包括:
业务数据集获取模块51,用于获取目标业务数据集;
列敏感数据识别模块52,用于基于列实体识别模型,对目标业务数据集进行列实体识别得到目标敏感数据列;
候选敏感词提取模块53,用于基于每个单词的位置特征、相关性特征、频率特征、出现比率,对目标敏感数据列所属目标词表进行关键词提取得到候选敏感词;
聚类结果分析模块54,用于基于半监督主题聚类分析方式对候选敏感词进行聚类分析得到候选敏感词的敏感主题聚类结果以扩充敏感词库。
在一种可选的实施方式中,本实施例中的业务敏感数据词库构建装置,列敏感数据识别模块包括:
列实体识别模型构建子模块,用于将国家标准敏感清单作为训练集输入预设语言模型,并在预设语言模型中加上全连接层分类器对预设语言模型进行微调训练,以得到列实体识别模型。
在一种可选的实施方式中,本实施例中的业务敏感数据词库构建装置,列实体识别模型通过如下公式表达:
LM=finetune(M,SP);
其中,LM为列实体识别模型,M为预设语言模型,SP为国家标准敏感清单,finetune为微调函数。
在一种可选的实施方式中,本实施例中的业务敏感数据词库构建装置,候选敏感词提取模块,包括:
文本内容处理子模块,用于对目标敏感数据列所属目标词表中的单元格文本内容进行预处理;
位置特征计算子模块,用于基于句子出现位置、中位数计算函数和第一预设数值,计算目标词表中每个单词的位置特征;
相关特征计算子模块,用于基于每个单词右侧唯一出现的单词数量、每个单词左侧唯一出现的单词数量、目标词表中第i个词的出现总次数、目标词表中第i个词的最大出现次数、第二预设数值,计算目标词表中每个单词的相关性特征;
频率特征计算子模块,用于基于目标词表中第i个词的出现总次数和目标词表中的单词总数,计算目标词表中每个单词的频率特征;
出现比率计算子模块,用于基于目标词表中第i个词出现的单元格数量和单元格总数,计算目标词表中每个单词的出现比率。
在一种可选的实施方式中,本实施例中的业务敏感数据词库构建装置,目标词表中每个单词的位置特征通过如下公式计算:
p(Wi)=log(log(3+median(x)));
其中,p(Wi)为述目标词表中每个单词的位置特征,3为第一预设数值,x为句子出现位置;
计算目标词表中每个单词的相关性特征通过如下公式计算:
其中,r(Wi)为目标词表中每个单词的相关性特征,R为右侧唯一出现的单词数量,L为每个单词左侧唯一出现的单词数量,count为目标词表中第i个词的出现总次数,max(count)为目标词表中第i个词的最大出现次数,1为第二预设数值,Wi目标词表中第i个词;
目标词表中每个单词的频率特征通过如下公式计算:
其中,f(Wi)为目标词表中每个单词的频率特征,目标词表中第i个词的出现总次数,count(w)为目标词表中的单词总数;
目标词表中每个单词的出现比率通过如下公式计算:
其中,l(Wi)为目标词表中每个单词的出现比率,occur(Wi)为目标词表中第i个词出现的单元格数量,total为单元格总数。
在一种可选的实施方式中,本实施例中的业务敏感数据词库构建装置,候选敏感词提取模块,包括:
综合得分计算子模块,用于基于每个单词的位置特征、相关性特征、频率特征、出现比率,计算每个单词的综合得分;
综合排名计算子模块,用于基于每个单词的综合得分,将排名在前的k个综合得分最高的单词作为关键词,k为要提取的关键词数。
在一种可选的实施方式中,本实施例中的业务敏感数据词库构建装置,计算每个单词的综合得分通过如下公式计算:
其中,Score(Wi)为每个单词的综合得分,p(Wi)为每个单词的位置特征,r(Wi)为每个单词的相关性特征,f(Wi)为每个单词的频率特征,l(Wi)为每个单词的出现比率。
在一种可选的实施方式中,本实施例中的业务敏感数据词库构建装置,在图5中,聚类结果分析模块54,包括:
种子词语输入子模块,用于从敏感词库的不同敏感主题中各随机抽取一组种子词作为半监督主题分析模型的输入;
聚类结果输出子模块,用于在半监督主题分析模型中,根据候选敏感词和种子词的狄利克雷分布进行半监督主题分析,并通过半监督主题分析模型输出候选敏感词的敏感主题聚类结果以扩充敏感词库,种子词用于引导半监督主题分析模型对候选敏感词进行敏感主题聚类。
在一种可选的实施方式中,本实施例中的业务敏感数据词库构建装置,聚类结果输出子模块,包括:
初始化参数输入单元,用于将候选敏感词数量、敏感数据词库中的敏感主题数据集及敏感主题数量以及随机生成每个候选敏感词对应敏感主题的单词数向量和对每类敏感主题产生词矩阵作为半监督主题分析模型的初始化参数;
敏感主题分布单元,用于基于每个候选敏感词对应敏感主题的单词数向量,通过狄利克雷分布方式产生第一敏感主题分布结果;和,基于每类敏感主题产生词矩阵,通过狄利克雷分布方式产生第二敏感主题分布结果;
概率密度计算单元,用于基于每个候选敏感词对应的单词数向量和第一敏感主题分布结果,计算潜在狄利克雷分布的第一概率密度函数;和,基于每类敏感主题产生词矩阵和第二敏感主题分布结果,计算潜在狄利克雷分布的第二概率密度函数;
次数向量获取单元,用于基于第一敏感主题分布结果,采用多项式分布方式计算不同待聚类主题产生每个目标单词的次数向量;
待聚类主题获取单元,用于从不同待聚类主题产生每个目标单词的次数向量中选取最大次数向量对应的待聚类主题;
主题新词产生单元,用于基于第二敏感主题分布结果,采用多项式分布方式计算待聚类主题产生不同新词的词矩阵;若该待聚类主题为包括敏感主题和常规主题,敏感主题通过从种子词中产生新词,常规主题从目标词表中产生新词;
参数累加单元,用于累加目标词表中的每个目标单词的次数向量和待聚类主题产生不同新词的词矩阵,
参数归一化单元,用于通过归一化函数处理累加后的目标词表中的每个目标单词的次数向量得到第一结果,和,通过归一化函数处理累加后的常规主题产生不同新词的词矩阵得到第二结果;
参数更新单元,用于基于第一结果更新候选敏感词对应的单词数向量,基于第二结果更新每类敏感主题产生词矩阵,直到更新结果收敛,若更新结果未收敛,返回产生第一敏感主题分布结果和第二敏感主题分布结果的步骤;
聚类结果获取单元,用于获取半监督主题分析模型输出候选敏感词敏感主题聚类结果;
敏感词库扩充单元,用于将聚类后的候选敏感词加入敏感词库对应的敏感字段中,以扩充敏感词库。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本实施例中的业务敏感数据词库构建装置是以功能单元的形式来呈现,这里的单元是指ASIC(Application Specific Integrated Circuit,专用集成电路)电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
本发明实施例还提供一种计算机设备,具有上述中的业务敏感数据词库构建装置。
请参阅图6,图6是本发明可选实施例提供的一种计算机设备的结构示意图,如图6所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器10为例。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,所述存储器20存储有可由至少一个处理器10执行的指令,以使所述至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括通信接口30,用于该计算机设备与其他设备或通信网络通信。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (20)
1.一种业务敏感数据词库构建方法,其特征在于,所述方法包括:
获取目标业务数据集;
基于列实体识别模型,对所述目标业务数据集进行列实体识别得到目标敏感数据列;
基于每个单词的位置特征、相关性特征、频率特征、出现比率,对所述目标敏感数据列所属目标词表进行关键词提取得到候选敏感词;
基于半监督主题聚类分析方式对所述候选敏感词进行聚类分析得到候选敏感词的敏感主题聚类结果以扩充敏感词库。
2.根据权利要求1所述的业务敏感数据词库构建方法,其特征在于,所述列实体识别模型通过如下步骤构建:
将国家标准敏感清单作为训练集输入预设语言模型,并在所述预设语言模型中加上全连接层分类器对所述预设语言模型进行微调训练,以得到所述列实体识别模型。
3.根据权利要求2所述的业务敏感数据词库构建方法,其特征在于,所述列实体识别模型通过如下公式表达:
LM=finetune(M,SP);
其中,LM为所述列实体识别模型,M为所述预设语言模型,SP为所述国家标准敏感清单,finetune为微调函数。
4.根据权利要求1所述的业务敏感数据词库构建方法,其特征在于,所述每个单词的位置特征、相关性特征、频率特征、出现比率通过如下步骤获取:
对所述目标敏感数据列所属目标词表中的单元格文本内容进行预处理;
基于句子出现位置、中位数计算函数和第一预设数值,计算所述目标词表中每个单词的位置特征;
基于每个单词右侧唯一出现的单词数量、每个单词左侧唯一出现的单词数量、目标词表中第i个词的出现总次数、目标词表中第i个词的最大出现次数、第二预设数值,计算所述目标词表中每个单词的相关性特征;
基于目标词表中第i个词的出现总次数和目标词表中的单词总数,计算所述目标词表中每个单词的频率特征;
基于目标词表中第i个词出现的单元格数量和单元格总数,计算所述目标词表中每个单词的出现比率。
5.根据权利要求4所述的业务敏感数据词库构建方法,其特征在于,所述目标词表中每个单词的位置特征通过如下公式计算:
p(Wi)=log(log(3+median(x)));
其中,p(Wi)为述目标词表中每个单词的位置特征,3为所述第一预设数值,x为所述句子出现位置;
所述计算所述目标词表中每个单词的相关性特征通过如下公式计算:
其中,r(Wi)为所述目标词表中每个单词的相关性特征,R为右侧唯一出现的单词数量,L为每个单词左侧唯一出现的单词数量,count为所述目标词表中第i个词的出现总次数,max(count)为所述目标词表中第i个词的最大出现次数,1为所述第二预设数值,Wi所述目标词表中第i个词;
所述目标词表中每个单词的频率特征通过如下公式计算:
其中,f(Wi)为所述目标词表中每个单词的频率特征,目标词表中第i个词的出现总次数,count(w)为所述目标词表中的单词总数;
所述目标词表中每个单词的出现比率通过如下公式计算:
其中,l(Wi)为所述目标词表中每个单词的出现比率,occur(Wi)为所述目标词表中第i个词出现的单元格数量,total为所述单元格总数。
6.根据权利要求1所述的业务敏感数据词库构建方法,其特征在于,基于每个单词的位置特征、相关性特征、频率特征、出现比率,对所述目标敏感数据列进行关键词提取得到候选敏感词,包括:
基于每个单词的位置特征、相关性特征、频率特征、出现比率,计算每个单词的综合得分;
基于所述每个单词的综合得分,将排名在前的k个综合得分最高的单词作为关键词,k为要提取的关键词数。
7.根据权利要求6所述的业务敏感数据词库构建方法,其特征在于,所述计算每个单词的综合得分通过如下公式计算:
其中,Score(Wi)为所述每个单词的综合得分,p(Wi)为每个单词的位置特征,r(Wi)为每个单词的相关性特征,f(Wi)为每个单词的频率特征,l(Wi)为每个单词的出现比率。
8.根据权利要求1所述的业务敏感数据词库构建方法,其特征在于,基于半监督主题聚类分析方式对所述候选敏感词进行聚类分析得到候选敏感词的敏感主题聚类结果以扩充敏感词库,包括:
从所述敏感词库的不同敏感主题中各随机抽取一组种子词作为半监督主题分析模型的输入;
在所述半监督主题分析模型中,根据所述候选敏感词和所述种子词的狄利克雷分布进行半监督主题分析,并通过所述半监督主题分析模型输出候选敏感词的敏感主题聚类结果以扩充敏感词库,所述种子词用于引导所述半监督主题分析模型对所述候选敏感词进行敏感主题聚类。
9.根据权利要求8所述的业务敏感数据词库构建方法,其特征在于,在所述半监督主题分析模型中,根据所述候选敏感词和所述种子词的狄利克雷分布进行半监督主题分析,并通过所述半监督主题分析模型输出候选敏感词的敏感主题聚类结果以扩充敏感词库,包括:
将候选敏感词数量、敏感数据词库中的敏感主题数据集及敏感主题数量以及随机生成每个候选敏感词对应敏感主题的单词数向量和对每类敏感主题产生词矩阵作为所述半监督主题分析模型的初始化参数;
基于所述每个候选敏感词对应敏感主题的单词数向量,通过所述狄利克雷分布方式产生第一敏感主题分布结果;和,基于所述每类敏感主题产生词矩阵,通过所述狄利克雷分布方式产生第二敏感主题分布结果;
基于所述每个候选敏感词对应的单词数向量和所述第一敏感主题分布结果,计算潜在狄利克雷分布的第一概率密度函数;和,基于所述每类敏感主题产生词矩阵和所述第二敏感主题分布结果,计算潜在狄利克雷分布的第二概率密度函数;
基于所述第一敏感主题分布结果,采用多项式分布方式计算不同待聚类主题产生每个目标单词的次数向量;
从所述不同待聚类主题产生所述每个目标单词的次数向量中选取最大次数向量对应的待聚类主题,基于所述第二敏感主题分布结果,采用多项式分布方式计算所述待聚类主题产生不同新词的词矩阵;若该待聚类主题为包括敏感主题和常规主题,所述敏感主题通过从所述种子词中产生新词,所述常规主题从所述目标词表中产生新词;
累加所述目标词表中的每个目标单词的次数向量和所述待聚类主题产生不同新词的词矩阵;
通过归一化函数处理累加后的所述目标词表中的每个目标单词的次数向量得到第一结果,和,通过归一化函数处理累加后的所述常规主题产生不同新词的词矩阵得到第二结果;
基于所述第一结果更新所述候选敏感词对应的单词数向量,基于所述第二结果更新所述每类敏感主题产生词矩阵,直到更新结果收敛,若所述更新结果未收敛,返回产生所述第一敏感主题分布结果和所述第二敏感主题分布结果的步骤;
获取所述半监督主题分析模型输出所述候选敏感词的敏感主题聚类结果;
将聚类后的所述候选敏感词加入所述敏感词库对应的敏感字段中,以扩充所述敏感词库。
10.一种业务敏感数据词库构建装置,其特征在于,所述装置包括:
业务数据集获取模块,用于获取目标业务数据集;
列敏感数据识别模块,用于基于列实体识别模型,对所述目标业务数据集进行列实体识别得到目标敏感数据列;
候选敏感词提取模块,用于基于每个单词的位置特征、相关性特征、频率特征、出现比率,对所述目标敏感数据列所属目标词表进行关键词提取得到候选敏感词;
聚类结果分析模块,用于基于半监督主题聚类分析方式对所述候选敏感词进行聚类分析得到候选敏感词的敏感主题聚类结果以扩充敏感词库。
11.根据权利要求10所述的业务敏感数据词库构建装置,其特征在于,列敏感数据识别模块包括:
列实体识别模型构建子模块,用于将国家标准敏感清单作为训练集输入预设语言模型,并在所述预设语言模型中加上全连接层分类器对所述预设语言模型进行微调训练,以得到所述列实体识别模型。
12.根据权利要求11所述的业务敏感数据词库构建装置,其特征在于,所述列实体识别模型通过如下公式表达:
LM=finetune(M,SP);
其中,LM为所述列实体识别模型,M为所述预设语言模型,SP为所述国家标准敏感清单,finetune为微调函数。
13.根据权利要求10所述的业务敏感数据词库构建装置,其特征在于,所述候选敏感词提取模块,包括:
文本内容处理子模块,用于对所述目标敏感数据列所属目标词表中的单元格文本内容进行预处理;
位置特征计算子模块,用于基于句子出现位置、中位数计算函数和第一预设数值,计算所述目标词表中每个单词的位置特征;
相关特征计算子模块,用于基于每个单词右侧唯一出现的单词数量、每个单词左侧唯一出现的单词数量、目标词表中第i个词的出现总次数、目标词表中第i个词的最大出现次数、第二预设数值,计算所述目标词表中每个单词的相关性特征;
频率特征计算子模块,用于基于目标词表中第i个词的出现总次数和目标词表中的单词总数,计算所述目标词表中每个单词的频率特征;
出现比率计算子模块,用于基于目标词表中第i个词出现的单元格数量和单元格总数,计算所述目标词表中每个单词的出现比率。
14.根据权利要求13所述的业务敏感数据词库构建装置,其特征在于,所述目标词表中每个单词的位置特征通过如下公式计算:
p(Wi)=log(log(3+median(x)));
其中,p(Wi)为述目标词表中每个单词的位置特征,3为所述第一预设数值,x为所述句子出现位置;
所述计算所述目标词表中每个单词的相关性特征通过如下公式计算:
其中,r(Wi)为所述目标词表中每个单词的相关性特征,R为右侧唯一出现的单词数量,L为每个单词左侧唯一出现的单词数量,count为所述目标词表中第i个词的出现总次数,max(count)为所述目标词表中第i个词的最大出现次数,1为所述第二预设数值,Wi所述目标词表中第i个词;
所述目标词表中每个单词的频率特征通过如下公式计算:
其中,f(Wi)为所述目标词表中每个单词的频率特征,目标词表中第i个词的出现总次数,count(w)为所述目标词表中的单词总数;
所述目标词表中每个单词的出现比率通过如下公式计算:
其中,l(Wi)为所述目标词表中每个单词的出现比率,occur(Wi)为所述目标词表中第i个词出现的单元格数量,total为所述单元格总数。
15.根据权利要求10所述的业务敏感数据词库构建装置,其特征在于,所述候选敏感词提取模块,包括:
综合得分计算子模块,用于基于每个单词的位置特征、相关性特征、频率特征、出现比率,计算每个单词的综合得分;
综合排名计算子模块,用于基于所述每个单词的综合得分,将排名在前的k个综合得分最高的单词作为关键词,k为要提取的关键词数。
16.根据权利要求15所述的业务敏感数据词库构建装置,其特征在于,所述计算每个单词的综合得分通过如下公式计算:
其中,Score(Wi)为所述每个单词的综合得分,p(Wi)为每个单词的位置特征,r(Wi)为每个单词的相关性特征,f(Wi)为每个单词的频率特征,l(Wi)为每个单词的出现比率。
17.根据权利要求10所述的业务敏感数据词库构建装置,其特征在于,所述聚类结果分析模块,包括:
种子词语输入子模块,用于从所述敏感词库的不同敏感主题中各随机抽取一组种子词作为半监督主题分析模型的输入;
聚类结果输出子模块,用于在所述半监督主题分析模型中,根据所述候选敏感词和所述种子词的狄利克雷分布进行半监督主题分析,并通过所述半监督主题分析模型输出候选敏感词的敏感主题聚类结果以扩充敏感词库,所述种子词用于引导所述半监督主题分析模型对所述候选敏感词进行敏感主题聚类。
18.根据权利要求17所述的业务敏感数据词库构建装置,其特征在于,聚类结果输出子模块,包括:
初始化参数输入单元,用于将候选敏感词数量、敏感数据词库中的敏感主题数据集及敏感主题数量以及随机生成每个候选敏感词对应敏感主题的单词数向量和对每类敏感主题产生词矩阵作为所述半监督主题分析模型的初始化参数;
敏感主题分布单元,用于基于所述每个候选敏感词对应敏感主题的单词数向量,通过所述狄利克雷分布方式产生第一敏感主题分布结果;和,基于所述每类敏感主题产生词矩阵,通过所述狄利克雷分布方式产生第二敏感主题分布结果;
概率密度计算单元,用于基于所述每个候选敏感词对应的单词数向量和所述第一敏感主题分布结果,计算潜在狄利克雷分布的第一概率密度函数;和,基于所述每类敏感主题产生词矩阵和所述第二敏感主题分布结果,计算潜在狄利克雷分布的第二概率密度函数;
次数向量获取单元,用于基于所述第一敏感主题分布结果,采用多项式分布方式计算不同待聚类主题产生每个目标单词的次数向量;
待聚类主题获取单元,用于从所述不同待聚类主题产生所述每个目标单词的次数向量中选取最大次数向量对应的待聚类主题;
主题新词产生单元,用于基于所述第二敏感主题分布结果,采用多项式分布方式计算所述待聚类主题产生不同新词的词矩阵;若该待聚类主题为包括敏感主题和常规主题,所述敏感主题通过从所述种子词中产生新词,所述常规主题从所述目标词表中产生新词;
参数累加单元,用于累加所述目标词表中的每个目标单词的次数向量和所述待聚类主题产生不同新词的词矩阵,
参数归一化单元,用于通过归一化函数处理累加后的所述目标词表中的每个目标单词的次数向量得到第一结果,和,通过归一化函数处理累加后的所述常规主题产生不同新词的词矩阵得到第二结果;
参数更新单元,用于基于所述第一结果更新所述候选敏感词对应的单词数向量,基于所述第二结果更新所述每类敏感主题产生词矩阵,直到更新结果收敛,若所述更新结果未收敛,返回产生所述第一敏感主题分布结果和所述第二敏感主题分布结果的步骤;
聚类结果获取单元,用于获取所述半监督主题分析模型输出所述候选敏感词的敏感主题聚类结果;
敏感词库扩充单元,用于将聚类后的所述候选敏感词加入所述敏感词库对应的敏感字段中,以扩充所述敏感词库。
19.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至9中任一项所述的业务敏感数据词库构建装置。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至9中任一项所述的业务敏感数据词库构建装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311764455.6A CN117744634A (zh) | 2023-12-20 | 2023-12-20 | 一种业务敏感数据词库构建方法、装置、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311764455.6A CN117744634A (zh) | 2023-12-20 | 2023-12-20 | 一种业务敏感数据词库构建方法、装置、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117744634A true CN117744634A (zh) | 2024-03-22 |
Family
ID=90258915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311764455.6A Pending CN117744634A (zh) | 2023-12-20 | 2023-12-20 | 一种业务敏感数据词库构建方法、装置、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117744634A (zh) |
-
2023
- 2023-12-20 CN CN202311764455.6A patent/CN117744634A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN109684476B (zh) | 一种文本分类方法、文本分类装置及终端设备 | |
CN106294319A (zh) | 一种串并案识别方法 | |
WO2022116419A1 (zh) | 域名侵权的自动化判定方法、装置、电子设备和存储介质 | |
CN112183102A (zh) | 基于注意力机制与图注意力网络的命名实体识别方法 | |
CN110675269A (zh) | 文本审核方法以及装置 | |
CN112836029A (zh) | 一种基于图的文档检索方法、系统及其相关组件 | |
CN111539612B (zh) | 一种风险分类模型的训练方法和系统 | |
CN114547257B (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
CN115456421A (zh) | 工单的分派方法及装置、处理器和电子设备 | |
CN113761192B (zh) | 文本处理方法、文本处理装置及文本处理设备 | |
CN103377381A (zh) | 识别图像的内容属性的方法和装置 | |
CN115640603A (zh) | 隐私敏感数据识别模型构建及识别方法、装置及存储介质 | |
CN117744634A (zh) | 一种业务敏感数据词库构建方法、装置、介质及设备 | |
CN115859964B (zh) | 基于教育云平台的教育资源共享方法及系统 | |
Liu et al. | A novel text classification method for emergency event detection on social media | |
CN112347146B (zh) | 一种索引推荐方法及装置 | |
CN117708350B (zh) | 企业政策的信息关联方法、装置及电子设备 | |
CN111476037B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN115329756B (zh) | 执行主体的提取方法、装置、存储介质和电子设备 | |
CN112819205B (zh) | 工时预测方法、装置及系统 | |
CN118052205B (zh) | 基于技术情报数据的企业评估报告生成方法及装置 | |
KR102456410B1 (ko) | 크라우드-소싱 환경에서 이벤트를 분류하는 장치 및 방법 | |
CN114022291A (zh) | 生成核保结论的方法、装置、电子设备及存储介质 | |
Xu | Cross-Media Retrieval: Methodologies and Challenges |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |