CN106202562A - 一种降低敏感信息误判率的方法 - Google Patents

一种降低敏感信息误判率的方法 Download PDF

Info

Publication number
CN106202562A
CN106202562A CN201610617799.8A CN201610617799A CN106202562A CN 106202562 A CN106202562 A CN 106202562A CN 201610617799 A CN201610617799 A CN 201610617799A CN 106202562 A CN106202562 A CN 106202562A
Authority
CN
China
Prior art keywords
sensitive information
document
false rate
cluster
method reducing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610617799.8A
Other languages
English (en)
Other versions
CN106202562B (zh
Inventor
向靓
涂高元
邱志斌
陈雅贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XIAMEN TIPRAY TECHNOLOGY Co Ltd
Original Assignee
XIAMEN TIPRAY TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XIAMEN TIPRAY TECHNOLOGY Co Ltd filed Critical XIAMEN TIPRAY TECHNOLOGY Co Ltd
Priority to CN201610617799.8A priority Critical patent/CN106202562B/zh
Publication of CN106202562A publication Critical patent/CN106202562A/zh
Application granted granted Critical
Publication of CN106202562B publication Critical patent/CN106202562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明涉及一种降低敏感信息误判率的方法,包括以下步骤:获取敏感信息检测系统判定为敏感信息的文档;对判定为敏感信息的文档进行数据处理;对数据处理后的敏感信息文档进行聚类处理,获取聚类结果,专家根据聚类结果进行敏感信息判定。本发明的一种降低敏感信息误判率的方法,在传统敏感信息判决法的模块组成上增加了一个聚类再判定模块,对初次判定所得的敏感数据进行二次判定,即基于聚类的判定,来降低误判率,并且减轻了专家的判定负担。

Description

一种降低敏感信息误判率的方法
技术领域
本发明涉及数据安全领域,特别是涉及一种降低敏感信息误判率的方法。
背景技术
目前的敏感信息检测方法主要基于信息检索技术,依据信息检测的一般流程,将敏感信息检测研究分为查询扩展技术、文档索引技术和信息检测模型三种。
查询扩展技术主要是通过语义扩展技术将用户给定词通过多种模式进行语义扩展,形成多个扩展词来进行检索,以此提高检测的查全率和准确率。
文档索引技术是将非结构化和半结构化的文档中提取数据并且重新组织,使其能够被计算机识别。
信息检测模型主要是所有文件中查找与查询与用户给定词可以匹配的项,可以返回包含查询项及查询项出现位置的文档,其检测质量的好坏依赖于检测模型。
缺陷:这三种敏感信息检测方法均没有考虑到对检测结果进行优化,无法解决检测中误报率高的问题。
有鉴于此,本发明人专门设计了一种降低敏感信息误判率的方法,本案由此产生。
发明内容
本发明的目的在于提供一种降低敏感信息误判率的方法,其通过在传统敏感信息判决法的模块组成上增加了一个聚类再判定模块,对初次判定所得的敏感数据进行二次判定,即基于聚类的判定,来降低误判率,并且减轻了专家的判定负担。
为了实现上述目的,本发明采用的技术方案为:
一种降低敏感信息误判率的方法,包括以下步骤:
S01:获取敏感信息检测系统判定为敏感信息的文档;
S02:对判定为敏感信息的文档进行数据处理;
S03:对数据处理后的敏感信息文档进行聚类处理,获取聚类结果,专家根据聚类结果进行敏感信息判定。
优选地,所述步骤中S01数据处理具体包括以下步骤:
S021:对判定为敏感信息的文档进行预处理,包括分词及去停用词;
S022:特征提取,在不破坏文档核心信息的前提下减少待处理词汇;
S023:计算特征向量权值,形成数据特征向量,构造相似度矩阵。
优选地,所述步骤S022中,在不破坏文档核心信息的前提下减少待处理词汇,主要是通过主成分分析法来降低文本特征向量空间维数。
优选地,所述步骤S023中,计算特征向量权值,主要是采用基于统计方法的TF-IDF方法。
优选地,所述步骤S03中,聚类算法主要是采用K-medodis聚类算法,通过对所选取的文档进行相似度聚类,并从聚类中挑选出各自的中心点文档,专家判断中心点文档是否具有敏感信息,若中心点文档具有敏感信息,则认为该中心点文档所属的聚类中的所有文档均为包含敏感信息的文档;反之,则认为该中心点文档所属的聚类中的所有文档均为不包含敏感信息的文档。
本发明在传统敏感信息判决法的模块组成上增加了一个聚类再判定模块,通过对初次判定所得的敏感数据进行二次判定,即基于聚类的判定,来降低误判率,并且减轻了专家的判定负担。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明方法流程图一;
图2是本发明方法流程图二。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1和图2所示,本发明提供一种降低敏感信息误判率的方法,包括以下步骤:
S01:获取敏感信息检测系统判定为敏感信息的文档(这些文档中含有事实上不是敏感信息的文档,此类文档为系统判断导致,即误报文档);
S02:对判定为敏感信息的文档进行数据处理;
S03:对数据处理后的敏感信息文档进行聚类处理,获取聚类结果,专家根据聚类结果进行敏感信息判定。
优选地,所述步骤中S01数据处理具体包括以下步骤:
S021:对判定为敏感信息的文档进行预处理,包括分词及去停用词;
S022:特征提取,在不破坏文档核心信息的前提下减少待处理词汇;
S023:计算特征向量权值,形成数据特征向量,构造相似度矩阵。
优选地,所述步骤S022中,在不破坏文档核心信息的前提下减少待处理词汇,主要是通过PCA主成分分析法来降低文本特征向量空间维数,该方法从高维度的文档特征向量空间中计算出几个可以综合表示原特征向量空间的几个分向量,作为原文档特征向量空间的主成分,从而简化计算。
优选地,所述步骤S023中,计算特征向量权值,主要是采用基于统计方法的TF-IDF方法,此方法认为某个词在其他文本中出现的次数越少,则这个词就越能代表当前文档的类型。
优选地,所述步骤S03中,聚类算法主要是采用K-medodis聚类算法,根据文档的相似度矩阵,将n(n为正整数,且n≥1)个文档进行聚类处理,形成m(m为正整数,且m≥1)个类别,然后对于每个类,顺序选取一个文档d(i),计算用新选取文档d(i)代替旧选取文档d(j)后的消耗E[d(i)],使得E[d(i)]最小的d(i)为新的中心点;迭代,直到簇的划分不再发生变化,从m个类别中挑出各自的的中心点文档,交由专家进行敏感信息判定,专家需要人工判断m个中心点文档是否为敏感信息,若中心点文档具有敏感信息,则认为该中心点文档所属的聚类中的所有文档均为包含敏感信息的文档;反之,则认为该中心点文档所属的聚类中的所有文档均为不包含敏感信息的文档。
本发明的一种降低敏感信息误判率的方法,在传统敏感信息判决法的模块组成上增加了一个聚类再判定模块,通过对初次判定所得的敏感数据进行二次判定,即基于聚类的判定,来降低误判率,并且减轻了专家的判定负担。
上述说明示出并描述了本发明的优选实施例,如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (5)

1.一种降低敏感信息误判率的方法,其特征在于,包括以下步骤:
S01:获取敏感信息检测系统判定为敏感信息的文档;
S02:对判定为敏感信息的文档进行数据处理;
S03:对数据处理后的敏感信息文档进行聚类处理,获取聚类结果,专家根据聚类结果进行敏感信息判定。
2.根据权利要求1所述的一种降低敏感信息误判率的方法,其特征在于:所述步骤中S02数据处理具体包括以下步骤:
S021:对判定为敏感信息的文档进行预处理,包括分词及去停用词;
S022:特征提取,在不破坏文档核心信息的前提下减少待处理词汇;
S023:计算特征向量权值,形成数据特征向量,构造相似度矩阵。
3.根据权利要求2所述的一种降低敏感信息误判率的方法,其特征在于:所述步骤S022中,在不破坏文档核心信息的前提下减少待处理词汇,主要是通过主成分分析法来降低文本特征向量空间维数。
4.根据权利要求2所述的一种降低敏感信息误判率的方法,其特征在于:所述步骤S023中,计算特征向量权值,主要是采用基于统计方法的TF-IDF方法。
5.根据权利要求1所述的一种降低敏感信息误判率的方法,其特征在于:所述步骤S03中,聚类算法主要是采用K-medodis聚类算法,通过对所选取的文档进行相似度聚类,并从聚类中挑选出各自的中心点文档,专家判断中心点文档是否具有敏感信息,若中心点文档具有敏感信息,则认为该中心点文档所属的聚类中的所有文档均为包含敏感信息的文档;反之,则认为该中心点文档所属的聚类中的所有文档均为不包含敏感信息的文档。
CN201610617799.8A 2016-07-29 2016-07-29 一种降低敏感信息误判率的方法 Active CN106202562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610617799.8A CN106202562B (zh) 2016-07-29 2016-07-29 一种降低敏感信息误判率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610617799.8A CN106202562B (zh) 2016-07-29 2016-07-29 一种降低敏感信息误判率的方法

Publications (2)

Publication Number Publication Date
CN106202562A true CN106202562A (zh) 2016-12-07
CN106202562B CN106202562B (zh) 2020-01-31

Family

ID=57497549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610617799.8A Active CN106202562B (zh) 2016-07-29 2016-07-29 一种降低敏感信息误判率的方法

Country Status (1)

Country Link
CN (1) CN106202562B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019795A (zh) * 2017-11-09 2019-07-16 普天信息技术有限公司 敏感词检测模型的训练方法和系统
CN110750981A (zh) * 2019-10-16 2020-02-04 杭州安恒信息技术股份有限公司 一种基于机器学习的高准确度网站敏感词检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933443A (zh) * 2015-06-26 2015-09-23 北京途美科技有限公司 一种敏感数据自动识别与分类的方法
CN105005610A (zh) * 2015-07-08 2015-10-28 无锡天脉聚源传媒科技有限公司 一种专辑分类方法和装置
CN105471823A (zh) * 2014-09-03 2016-04-06 阿里巴巴集团控股有限公司 一种敏感信息处理方法、装置、服务器及安全判定系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105471823A (zh) * 2014-09-03 2016-04-06 阿里巴巴集团控股有限公司 一种敏感信息处理方法、装置、服务器及安全判定系统
CN104933443A (zh) * 2015-06-26 2015-09-23 北京途美科技有限公司 一种敏感数据自动识别与分类的方法
CN105005610A (zh) * 2015-07-08 2015-10-28 无锡天脉聚源传媒科技有限公司 一种专辑分类方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019795A (zh) * 2017-11-09 2019-07-16 普天信息技术有限公司 敏感词检测模型的训练方法和系统
CN110750981A (zh) * 2019-10-16 2020-02-04 杭州安恒信息技术股份有限公司 一种基于机器学习的高准确度网站敏感词检测方法

Also Published As

Publication number Publication date
CN106202562B (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
Schubotz et al. Semantification of identifiers in mathematics for better math information retrieval
CN102289522B (zh) 一种对于文本智能分类的方法
US20150066939A1 (en) Grouping semantically related natural language specifications of system requirements into clusters
CN103984771B (zh) 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法
CN106599054A (zh) 一种题目分类及推送的方法及系统
Li et al. Distributional similarity vs. PU learning for entity set expansion
CN109582783B (zh) 热点话题检测方法及装置
CN112257386B (zh) 一种文景转换中场景空间关系信息布局生成的方法
CN112101029B (zh) 一种基于bert模型的高校导师推荐管理方法
CN109840325A (zh) 基于点互信息的文本语义相似性度量方法
Padmakumar et al. Unsupervised text summarization using sentence embeddings
CN106202562A (zh) 一种降低敏感信息误判率的方法
CN107247709B (zh) 一种百科词条标签的优化方法及系统
Jayakody et al. Sentiment analysis on product reviews on twitter using Machine Learning Approaches
CN112836008B (zh) 基于去中心化存储数据的索引建立方法
CN110222015A (zh) 一种文件数据的读取、查询方法、装置及可读存储介质
CN103218420A (zh) 一种网页标题提取方法及装置
Akkuş et al. Categorization of turkish news documents with morphological analysis
CN105159905B (zh) 基于转发关系的微博聚类方法
CN110399458B (zh) 一种基于潜在语义分析和随机投影的文本相似度计算方法
CN107491424B (zh) 一种基于多权重体系的中文文档基因匹配方法
CN107609006B (zh) 一种基于地方志研究的搜索优化方法
CN114510559B (zh) 一种基于深度学习语义蕴含的商品检索方法及存储介质
Sun Research on product attribute extraction and classification method for online review
CN114547313A (zh) 资源类型识别方法以及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant