CN106202562B

CN106202562B - 一种降低敏感信息误判率的方法

Info

Publication number: CN106202562B
Application number: CN201610617799.8A
Authority: CN
Inventors: 向靓; 涂高元; 邱志斌; 陈雅贤
Original assignee: XIAMEN TIPRAY TECHNOLOGY Co Ltd
Current assignee: XIAMEN TIPRAY TECHNOLOGY Co Ltd
Priority date: 2016-07-29
Filing date: 2016-07-29
Publication date: 2020-01-31
Anticipated expiration: 2036-07-29
Also published as: CN106202562A

Abstract

本发明涉及一种降低敏感信息误判率的方法，包括以下步骤：获取敏感信息检测系统判定为敏感信息的文档；对判定为敏感信息的文档进行数据处理；对数据处理后的敏感信息文档进行聚类处理，获取聚类结果，专家根据聚类结果进行敏感信息判定。本发明的一种降低敏感信息误判率的方法，在传统敏感信息判决法的模块组成上增加了一个聚类再判定模块，对初次判定所得的敏感数据进行二次判定，即基于聚类的判定，来降低误判率，并且减轻了专家的判定负担。

Description

一种降低敏感信息误判率的方法

技术领域

本发明涉及数据安全领域，特别是涉及一种降低敏感信息误判率的方法。

背景技术

目前的敏感信息检测方法主要基于信息检索技术，依据信息检测的一般流程，将敏感信息检测研究分为查询扩展技术、文档索引技术和信息检测模型三种。

查询扩展技术主要是通过语义扩展技术将用户给定词通过多种模式进行语义扩展，形成多个扩展词来进行检索，以此提高检测的查全率和准确率。

文档索引技术是将非结构化和半结构化的文档中提取数据并且重新组织，使其能够被计算机识别。

信息检测模型主要是所有文件中查找与查询与用户给定词可以匹配的项，可以返回包含查询项及查询项出现位置的文档，其检测质量的好坏依赖于检测模型。

缺陷：这三种敏感信息检测方法均没有考虑到对检测结果进行优化，无法解决检测中误报率高的问题。

有鉴于此，本发明人专门设计了一种降低敏感信息误判率的方法，本案由此产生。

发明内容

本发明的目的在于提供一种降低敏感信息误判率的方法，其通过在传统敏感信息判决法的模块组成上增加了一个聚类再判定模块，对初次判定所得的敏感数据进行二次判定，即基于聚类的判定，来降低误判率，并且减轻了专家的判定负担。

为了实现上述目的，本发明采用的技术方案为：

一种降低敏感信息误判率的方法，包括以下步骤：

S01：获取敏感信息检测系统判定为敏感信息的文档；

S02：对判定为敏感信息的文档进行数据处理；

S03：对数据处理后的敏感信息文档进行聚类处理，获取聚类结果，专家根据聚类结果进行敏感信息判定。

优选地，所述步骤中S01数据处理具体包括以下步骤：

S021：对判定为敏感信息的文档进行预处理，包括分词及去停用词；

S022：特征提取，在不破坏文档核心信息的前提下减少待处理词汇；

S023：计算特征向量权值，形成数据特征向量，构造相似度矩阵。

优选地，所述步骤S022中，在不破坏文档核心信息的前提下减少待处理词汇，主要是通过主成分分析法来降低文本特征向量空间维数。

优选地，所述步骤S023中，计算特征向量权值，主要是采用基于统计方法的TF-IDF方法。

优选地，所述步骤S03中，聚类算法主要是采用K-medodis聚类算法，通过对所选取的文档进行相似度聚类，并从聚类中挑选出各自的中心点文档，专家判断中心点文档是否具有敏感信息，若中心点文档具有敏感信息，则认为该中心点文档所属的聚类中的所有文档均为包含敏感信息的文档；反之，则认为该中心点文档所属的聚类中的所有文档均为不包含敏感信息的文档。

本发明在传统敏感信息判决法的模块组成上增加了一个聚类再判定模块，通过对初次判定所得的敏感数据进行二次判定，即基于聚类的判定，来降低误判率，并且减轻了专家的判定负担。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明方法流程图一；

图2是本发明方法流程图二。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1和图2所示，本发明提供一种降低敏感信息误判率的方法，包括以下步骤：

S01：获取敏感信息检测系统判定为敏感信息的文档(这些文档中含有事实上不是敏感信息的文档，此类文档为系统判断导致，即误报文档)；

S02：对判定为敏感信息的文档进行数据处理；

优选地，所述步骤中S01数据处理具体包括以下步骤：

优选地，所述步骤S022中，在不破坏文档核心信息的前提下减少待处理词汇，主要是通过PCA主成分分析法来降低文本特征向量空间维数，该方法从高维度的文档特征向量空间中计算出几个可以综合表示原特征向量空间的几个分向量，作为原文档特征向量空间的主成分，从而简化计算。

优选地，所述步骤S023中，计算特征向量权值，主要是采用基于统计方法的TF-IDF方法，此方法认为某个词在其他文本中出现的次数越少，则这个词就越能代表当前文档的类型。

优选地，所述步骤S03中，聚类算法主要是采用K-medodis聚类算法，根据文档的相似度矩阵，将n(n为正整数，且n≥1)个文档进行聚类处理，形成m(m为正整数，且m≥1)个类别，然后对于每个类，顺序选取一个文档d(i)，计算用新选取文档d(i)代替旧选取文档d(j)后的消耗E[d(i)]，使得E[d(i)]最小的d(i)为新的中心点；迭代，直到簇的划分不再发生变化，从m个类别中挑出各自的的中心点文档，交由专家进行敏感信息判定，专家需要人工判断m个中心点文档是否为敏感信息，若中心点文档具有敏感信息，则认为该中心点文档所属的聚类中的所有文档均为包含敏感信息的文档；反之，则认为该中心点文档所属的聚类中的所有文档均为不包含敏感信息的文档。

本发明的一种降低敏感信息误判率的方法，在传统敏感信息判决法的模块组成上增加了一个聚类再判定模块，通过对初次判定所得的敏感数据进行二次判定，即基于聚类的判定，来降低误判率，并且减轻了专家的判定负担。

上述说明示出并描述了本发明的优选实施例，如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种降低敏感信息误判率的方法，其特征在于，包括以下步骤：

S01：获取敏感信息检测系统判定为敏感信息的文档；

S02：对判定为敏感信息的文档进行数据处理；

S03：对数据处理后的敏感信息文档进行聚类处理，获取聚类结果，专家根据聚类结果进行敏感信息判定；

所述步骤中S02数据处理具体包括以下步骤：

S023：计算特征向量权值，形成数据特征向量，构造相似度矩阵；

所述步骤S03中，聚类算法主要是采用K-medodis聚类算法，根据文档的相似度矩阵，将n个文档进行聚类处理，形成m个类别，m、n为正整数，且m≥1，n≥1，然后对于每个类，顺序选取一个文档d(i)，计算用新选取文档d(i)代替旧选取文档d(j)后的消耗E[d(i)]，使得E[d(i)]最小的d(i)为新的中心点；迭代，直到簇的划分不再发生变化，从m个类别中挑出各自的的中心点文档，交由专家进行敏感信息判定，专家需要人工判断m个中心点文档是否为敏感信息，若中心点文档具有敏感信息，则认为该中心点文档所属的聚类中的所有文档均为包含敏感信息的文档；反之，则认为该中心点文档所属的聚类中的所有文档均为不包含敏感信息的文档；

所述步骤S022中，在不破坏文档核心信息的前提下减少待处理词汇，通过PCA主成分分析法来降低文本特征向量空间维数，该方法从高维度的文档特征向量空间中计算出几个可以综合表示原特征向量空间的几个分向量，作为原文档特征向量空间的主成分，从而简化计算。

2.根据权利要求1所述的一种降低敏感信息误判率的方法，其特征在于：所述步骤S023中，计算特征向量权值，主要是采用基于统计方法的TF-IDF方法。