CN111694961A

CN111694961A - 一种用于敏感数据泄露检测的关键词语义分类方法与系统

Info

Publication number: CN111694961A
Application number: CN202010578950.8A
Authority: CN
Inventors: 陶景龙; 梁淑云; 刘胜; 马影; 王启凡; 魏国富; 殷钱安; 余贤喆; 周晓勇
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-09-22

Abstract

本发明公开了一种用于敏感数据泄露检测的关键词语义分类方法及系统，具体步骤如下：步骤1，输入敏感关键词库；步骤2，使用自然语言处理技术对关键词库向量化；步骤3，对每个关键词对应的向量数据降维；步骤4，对已经降维的向量数据，进行聚类分析；骤5，对已经完成聚类分析的关键词向量，结合业务对关键词类别进行标识；步骤6，根据所以已经标识的类别标签，对每个类别进行关键词分组优化；步骤7，输出敏感关键词库类别。以向量化形式表达词汇，以达到对词汇的分类分级；基于特定类别的词汇，使用相似度计算，优化词汇分类；将庞大的关键词库分类细化，提高了使用者的工作效率和指定领域的数据匹配精准度。

Description

一种用于敏感数据泄露检测的关键词语义分类方法与系统

技术领域

本发明涉及计算机数据安全技术领域，具体为一种用于敏感数据泄露检测的关键词语义分类方法与系统。

背景技术

敏感数据一般指的是企业、组织或者个人保密程度较高的信息数据。

在互联网高速发展的近几年中，信息安全变的尤为重要，企业面临的敏感数据泄露风险也越来越大。对于此类问题，当前企业用的最多最广的方法是利用敏感词匹配的方法进行互联网敏感信息发现，而其中使用的敏感词汇词库会随着样本数据逐渐增加的情况下越来越庞大冗杂。

敏感数据类型繁多，提取出的敏感关键词具有领域广，种类多的特点，如何有效利用庞大的关键词库从海量的互联网信息中查找和追回数据是众多行业面临的一大考验。

当前企业利用关键词查找敏感数据的常用方法是在已有关键词库内，随机选择或者遍历所有词汇，然后使用每个关键词对互联网信息进行匹配查找敏感数据。

如申请号为201911285835.5公开的一种关键词提取方法装置及介质，首先接收原始文档，从原始文档提取候选词，将提取出的候选词构成第一词语集合；获取第一词语集合中每个第一词语与原始文档的第一关联度，根据第一关联度确定第二词语集合；针对第二词语集合中的每个第二词语，在词语关联拓扑中查询与第二词语符合关联条件的至少一个节点词构成第三词语集合；确定第二词语集合和第三词语集合的并集，获取并集中每个候选关键词与原始文档的第二关联度，根据第二关联度从并集中选择至少一个候选关键词构成原始文档的关键词集合。虽然该技术可减少计算复杂度，提升计算速度；解决现有方法中优先选择高频词的问题；有效丰富关键词的表达方式。但是依然存在丢失一些重要的敏感词。

综上所述，现有技术中的这种使用关键词匹配敏感数据方法，存在占用计算资源高、时间周期长、匹配领域没有针对性等缺点。因此，为了提升工作效率、降低计算资源，亟需找到一种能够对关键词进行准确分类分级的方案，方便工作人员，在有限的资源和时间条件下，选择优先级更高的关键词目标，以快速高效、有针对性的从海量的互联网信息中查找和追回敏感数据。

发明内容

本发明所要解决的技术问题在于如何快速高效、有针对性的从海量的互联网信息中查找和追回敏感数据。

本发明通过以下技术手段实现解决上述技术问题的：

一种用于敏感数据泄露检测的关键词语义分类方法，包括以下步骤：

S01，输入敏感关键词库；

S02，词向量化，使用自然语言处理技术对关键词库向量化；

S03，数据降维，对每个关键词对应的向量数据降维；

S04，聚类分析，对已经降维的向量数据，进行聚类分析；

S05，类别标识，对已经完成聚类分析的关键词向量，结合业务对关键词类别进行标识；

S06，类别优化，根据所有已经标识的类别标签，对每个类别进行关键词分组优化；

S07，输出敏感关键词库类别。

优选的，其特征在于：S01中的方法为：与系统维护和相关业务人员确定已经准备好的待分类的关键词库，作为输入内容，记为集合<K>。

优选的，S02中的方法为：使用自然语言处理工具BERT，对输入内容<K>中的所有词汇，进行词向量转换，生成向量化的关键词库集合<Kv>。

优选的，词向量转换具体方法为：部署Bert-serving词向量转化服务；然后使用Bert-serving对集合<K>内的所有词汇进行向量转换，生成词向量集合<Kv>。

优选的，步骤S03方法具体为：对集合<Kv>进行降维；集合<Kv>中的每个关键词向量都为768高维数组矩阵，使用TSEN降维算法将每个关键词向量处理为2维数据。

优选的，步骤S04方法具体为：使用Kmeans算法对S03生成的关键词向量集合<Kv>进行聚类分析，得出n个关键词向量类别，对应至集合<K>，即获得已经具有分类标签的关键词库Kn，其中类别n的设定是由算法模型构建过程中自动获取的最优数值。

优选的，S05中的方法为：专家介入，对Kn的类别标签进行业务属性标识，得到有业务领域分类的KN。

优选的，S06中的方法为：在S05的分析结果中，经过业务专家选定重点关注的关键词类别KNx作为后续工作使用，具体为：将KNx中的所有词作为计算对象KNx_i，然后在关键词向量集合<Kv>中寻找与计算对象语义相似度高于百分之九十的词汇补充至重点关键词类别KNx中，得到类别优化后的重点关键词汇类别KNX；

其中相似度计算采用余弦相似度计算，公式如下：

其中A、B分别代表需要计算相似度的两个对象，i代表对象位置，n代表对象长度。

本发明还提供一种用于敏感数据泄露检测的关键词语义分类系统，应用于上述的方法，包括

输入模块，输入敏感关键词库；

词向量化模块，使用自然语言处理技术对关键词库向量化；

数据降维模块，对每个关键词对应的向量数据降维；

聚类分析模块，对已经降维的向量数据，进行聚类分析；

类别标识模块，对已经完成聚类分析的关键词向量，结合业务对关键词类别进行标识；

类别优化模块，根据所有已经标识的类别标签，对每个类别进行关键词分组优化；

输出模块，输出敏感关键词库类别。

优选的，所述类别优化模块具体优化过程为：经过业务专家选定重点关注的关键词类别KNx作为后续工作使用，具体为：将KNx中的所有词作为计算对象KNx_i，然后在关键词向量集合<Kv>中寻找与计算对象语义相似度高于百分之九十的词汇补充至重点关键词类别KNx中，得到类别优化后的重点关键词汇类别KNX；

其中相似度计算采用余弦相似度计算，公式如下：

本发明的优点在于：

以向量化形式表达词汇，以达到对词汇的分类分级；基于特定类别的词汇，使用相似度计算，优化词汇分类；将庞大的关键词库分类细化，提高了使用者的工作效率和指定领域的数据匹配精准度；解决了现有技术中使用的关键词匹配敏感数据方法，存在占用计算资源高、时间周期长、匹配领域没有针对性等缺点。并提了升工作效率、降低计算资源，和对关键词进行了准确分类分级，方便工作人员，在有限的资源和时间条件下，选择优先级更高的关键词目标，以快速高效、有针对性的从海量的互联网信息中查找和追回敏感数据。

附图说明

图1为本发明实施例中一种用于敏感数据泄露检测的关键词语义分类方法的流程框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种用于敏感数据泄露检测的关键词语义分类方法，如图1所示，具体步骤如下：

步骤1，输入敏感关键词库；

步骤2，词向量化，使用自然语言处理技术对关键词库向量化；

步骤3，数据降维，对每个关键词对应的向量数据降维；

步骤4，聚类分析，对已经降维的向量数据，进行聚类分析；

步骤5，类别标识，对已经完成聚类分析的关键词向量，结合业务对关键词类别进行标识；

步骤6，类别优化，根据所以已经标识的类别标签，对每个类别进行关键词分组优化；

步骤7，输出敏感关键词库类别。

下面具体说明每个步骤内容：

步骤1中的方法为：与系统维护和相关业务人员确定已经准备好的待分类的关键词库，作为输入内容，记为集合<K>；

步骤2中的方法为：

使用自然语言处理工具BERT，对输入内容<K>中的所有词汇，进行词向量转换，生成向量化的关键词库集合<Kv>；

步骤21：部署Bert-serving词向量转化服务；

其中BERT全称是自变换器的双向编码器表征量(Bidirectional EncoderRepresentations from Transformers)，它是Google于2018年开发并发布的一种新型语言模型，在问答、命名实体识别、自然语言推理、文本分类等自然语言处理领域具有高精度应用；它利用了web上公开的海量纯文本数据，并以一种无监督的方式进行训练。BERT模型的预训练对于每种语言来说都是相当复杂的计算过程。谷歌发布了一些预先训练好的模型，供科学研究使用。在此部署的Bert-serving是基于其中的ber-base-chinese预训练模型的开发的一种功能，用于词向量生成；

步骤22：使用Bert-serving对集合<K>内的所有词汇进行向量转换，生成词向量集合<Kv>；

步骤3中的方法为：对步骤22中生成的集合<Kv>进行降维；集合<Kv>中的每个关键词向量都为768高维数组矩阵，使用TSEN降维算法将每个关键词向量处理为2维数据；

其中TSNE是由SNE衍生出的一种算法，SNE最早出现在2002年，它改变传统降维算法中基于距离不变的思想，将高维映射到低维的同时，尽量保证相互之间的分布概率不变，SNE将高维和低维中的样本分布都看作高斯分布，而Tsne将低维中的数据当做T分布，这样做的好处是为了让簇之间的距离拉大，从而解决了拥挤问题，并且对异常点不敏感，保证了该降维算法的鲁棒性，因此其拟合结果更为合理，较好的捕获了数据的整体特征，从而获得更加优质的低维数据；

步骤4中的方法为：使用Kmeans算法对步骤3生成的关键词向量集合<Kv>进行聚类分析，得出n个关键词向量类别，对应至集合<K>，即获得已经具有分类标签的关键词库Kn，其中类别n的设定是由算法模型构建过程中自动获取的最优数值；

步骤5中的方法为：专家介入，对Kn的类别标签进行业务属性标识，得到有业务领域分类的KN；

步骤6中的方法为：在步骤5的分析结果中，经过业务专家可以选定重点关注的关键词类别KNx作为后续工作使用，但是由于步骤4的聚类算法本身的局限性，会导致部分关键词遗漏，针对此类问题，我们将KNx中的所有词作为计算对象KNx_i，然后在关键词向量集合<Kv>中寻找与计算对象语义相似度高于百分之九十的词汇补充至重点关键词类别KNx中，得到类别优化后的重点关键词汇类别KNX；

其中余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度，常使用于文本相似度计算，

其中余弦相似度计算公式如下：

输入模块，输入敏感关键词库；

词向量化模块，使用自然语言处理技术对关键词库向量化；

数据降维模块，对每个关键词对应的向量数据降维；

聚类分析模块，对已经降维的向量数据，进行聚类分析；

输出模块，输出敏感关键词库类别。

下面具体说明每个模块的执行内容：

输入模块中的方法为：与系统维护和相关业务人员确定已经准备好的待分类的关键词库，作为输入内容，记为集合<K>；

词向量化模块中的方法为：

步骤21：部署Bert-serving词向量转化服务；

数据降维模块中的方法为：对步骤22中生成的集合<Kv>进行降维；集合<Kv>中的每个关键词向量都为768高维数组矩阵，使用TSEN降维算法将每个关键词向量处理为2维数据；

聚类分析模块中的方法为：使用Kmeans算法对步骤3生成的关键词向量集合<Kv>进行聚类分析，得出n个关键词向量类别，对应至集合<K>，即获得已经具有分类标签的关键词库Kn，其中类别n的设定是由算法模型构建过程中自动获取的最优数值；

类别标识模块中的方法为：专家介入，对Kn的类别标签进行业务属性标识，得到有业务领域分类的KN；

类别优化模块中的方法为：在步骤5的分析结果中，经过业务专家可以选定重点关注的关键词类别KNx作为后续工作使用，但是由于步骤4的聚类算法本身的局限性，会导致部分关键词遗漏，针对此类问题，我们将KNx中的所有词作为计算对象KNx_i，然后在关键词向量集合<Kv>中寻找与计算对象语义相似度高于百分之九十的词汇补充至重点关键词类别KNx中，得到类别优化后的重点关键词汇类别KNX；

其中余弦相似度计算公式如下：

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于敏感数据泄露检测的关键词语义分类方法，其特征在于：包括以下步骤：

S01，输入敏感关键词库；

S02，词向量化，使用自然语言处理技术对关键词库向量化；

S03，数据降维，对每个关键词对应的向量数据降维；

S04，聚类分析，对已经降维的向量数据，进行聚类分析；

S07，输出敏感关键词库类别。

2.根据权利要求1所述的一种用于敏感数据泄露检测的关键词语义分类方法，其特征在于：S01中的方法为：与系统维护和相关业务人员确定已经准备好的待分类的关键词库，作为输入内容，记为集合<K>。

3.根据权利要求1所述的一种用于敏感数据泄露检测的关键词语义分类方法，其特征在于：S02中的方法为：使用自然语言处理工具BERT，对输入内容<K>中的所有词汇，进行词向量转换，生成向量化的关键词库集合<Kv>。

4.根据权利要求3所述的一种用于敏感数据泄露检测的关键词语义分类方法，其特征在于：词向量转换具体方法为：部署Bert-serving词向量转化服务；然后使用Bert-serving对集合<K>内的所有词汇进行向量转换，生成词向量集合<Kv>。

5.根据权利要求3或4所述的一种用于敏感数据泄露检测的关键词语义分类方法，其特征在于：步骤S03方法具体为：对集合<Kv>进行降维；集合<Kv>中的每个关键词向量都为768高维数组矩阵，使用TSEN降维算法将每个关键词向量处理为2维数据。

6.根据权利要求1所述的一种用于敏感数据泄露检测的关键词语义分类方法，其特征在于：步骤S04方法具体为：使用Kmeans算法对S03生成的关键词向量集合<Kv>进行聚类分析，得出n个关键词向量类别，对应至集合<K>，即获得已经具有分类标签的关键词库Kn，其中类别n的设定是由算法模型构建过程中自动获取的最优数值。

7.根据权利要求6所述的一种用于敏感数据泄露检测的关键词语义分类方法，其特征在于：S05中的方法为：专家介入，对Kn的类别标签进行业务属性标识，得到有业务领域分类的KN。

8.根据权利要求7所述的一种用于敏感数据泄露检测的关键词语义分类方法，其特征在于：S06中的方法为：在S05的分析结果中，经过业务专家选定重点关注的关键词类别KNx作为后续工作使用，具体为：将KNx中的所有词作为计算对象KNx_i，然后在关键词向量集合<Kv>中寻找与计算对象语义相似度高于百分之九十的词汇补充至重点关键词类别KNx中，得到类别优化后的重点关键词汇类别KNX；

其中相似度计算采用余弦相似度计算，公式如下：

9.一种用于敏感数据泄露检测的关键词语义分类系统，其特征在于：应用于权利要求1至8任一所述的方法，包括

输入模块，输入敏感关键词库；

词向量化模块，使用自然语言处理技术对关键词库向量化；

数据降维模块，对每个关键词对应的向量数据降维；

聚类分析模块，对已经降维的向量数据，进行聚类分析；

输出模块，输出敏感关键词库类别。

10.根据权利要求9所述的一种用于敏感数据泄露检测的关键词语义分类系统，其特征在于：所述类别优化模块具体优化过程为：经过业务专家选定重点关注的关键词类别KNx作为后续工作使用，具体为：将KNx中的所有词作为计算对象KNx_i，然后在关键词向量集合<Kv>中寻找与计算对象语义相似度高于百分之九十的词汇补充至重点关键词类别KNx中，得到类别优化后的重点关键词汇类别KNX；

其中相似度计算采用余弦相似度计算，公式如下：