CN106202562B - 一种降低敏感信息误判率的方法 - Google Patents

一种降低敏感信息误判率的方法 Download PDF

Info

Publication number
CN106202562B
CN106202562B CN201610617799.8A CN201610617799A CN106202562B CN 106202562 B CN106202562 B CN 106202562B CN 201610617799 A CN201610617799 A CN 201610617799A CN 106202562 B CN106202562 B CN 106202562B
Authority
CN
China
Prior art keywords
sensitive information
documents
document
judgment
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610617799.8A
Other languages
English (en)
Other versions
CN106202562A (zh
Inventor
向靓
涂高元
邱志斌
陈雅贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XIAMEN TIPRAY TECHNOLOGY Co Ltd
Original Assignee
XIAMEN TIPRAY TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XIAMEN TIPRAY TECHNOLOGY Co Ltd filed Critical XIAMEN TIPRAY TECHNOLOGY Co Ltd
Priority to CN201610617799.8A priority Critical patent/CN106202562B/zh
Publication of CN106202562A publication Critical patent/CN106202562A/zh
Application granted granted Critical
Publication of CN106202562B publication Critical patent/CN106202562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种降低敏感信息误判率的方法,包括以下步骤:获取敏感信息检测系统判定为敏感信息的文档;对判定为敏感信息的文档进行数据处理;对数据处理后的敏感信息文档进行聚类处理,获取聚类结果,专家根据聚类结果进行敏感信息判定。本发明的一种降低敏感信息误判率的方法,在传统敏感信息判决法的模块组成上增加了一个聚类再判定模块,对初次判定所得的敏感数据进行二次判定,即基于聚类的判定,来降低误判率,并且减轻了专家的判定负担。

Description

一种降低敏感信息误判率的方法
技术领域
本发明涉及数据安全领域,特别是涉及一种降低敏感信息误判率的方法。
背景技术
目前的敏感信息检测方法主要基于信息检索技术,依据信息检测的一般流程,将敏感信息检测研究分为查询扩展技术、文档索引技术和信息检测模型三种。
查询扩展技术主要是通过语义扩展技术将用户给定词通过多种模式进行语义扩展,形成多个扩展词来进行检索,以此提高检测的查全率和准确率。
文档索引技术是将非结构化和半结构化的文档中提取数据并且重新组织,使其能够被计算机识别。
信息检测模型主要是所有文件中查找与查询与用户给定词可以匹配的项,可以返回包含查询项及查询项出现位置的文档,其检测质量的好坏依赖于检测模型。
缺陷:这三种敏感信息检测方法均没有考虑到对检测结果进行优化,无法解决检测中误报率高的问题。
有鉴于此,本发明人专门设计了一种降低敏感信息误判率的方法,本案由此产生。
发明内容
本发明的目的在于提供一种降低敏感信息误判率的方法,其通过在传统敏感信息判决法的模块组成上增加了一个聚类再判定模块,对初次判定所得的敏感数据进行二次判定,即基于聚类的判定,来降低误判率,并且减轻了专家的判定负担。
为了实现上述目的,本发明采用的技术方案为:
一种降低敏感信息误判率的方法,包括以下步骤:
S01:获取敏感信息检测系统判定为敏感信息的文档;
S02:对判定为敏感信息的文档进行数据处理;
S03:对数据处理后的敏感信息文档进行聚类处理,获取聚类结果,专家根据聚类结果进行敏感信息判定。
优选地,所述步骤中S01数据处理具体包括以下步骤:
S021:对判定为敏感信息的文档进行预处理,包括分词及去停用词;
S022:特征提取,在不破坏文档核心信息的前提下减少待处理词汇;
S023:计算特征向量权值,形成数据特征向量,构造相似度矩阵。
优选地,所述步骤S022中,在不破坏文档核心信息的前提下减少待处理词汇,主要是通过主成分分析法来降低文本特征向量空间维数。
优选地,所述步骤S023中,计算特征向量权值,主要是采用基于统计方法的TF-IDF方法。
优选地,所述步骤S03中,聚类算法主要是采用K-medodis聚类算法,通过对所选取的文档进行相似度聚类,并从聚类中挑选出各自的中心点文档,专家判断中心点文档是否具有敏感信息,若中心点文档具有敏感信息,则认为该中心点文档所属的聚类中的所有文档均为包含敏感信息的文档;反之,则认为该中心点文档所属的聚类中的所有文档均为不包含敏感信息的文档。
本发明在传统敏感信息判决法的模块组成上增加了一个聚类再判定模块,通过对初次判定所得的敏感数据进行二次判定,即基于聚类的判定,来降低误判率,并且减轻了专家的判定负担。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明方法流程图一;
图2是本发明方法流程图二。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1和图2所示,本发明提供一种降低敏感信息误判率的方法,包括以下步骤:
S01:获取敏感信息检测系统判定为敏感信息的文档(这些文档中含有事实上不是敏感信息的文档,此类文档为系统判断导致,即误报文档);
S02:对判定为敏感信息的文档进行数据处理;
S03:对数据处理后的敏感信息文档进行聚类处理,获取聚类结果,专家根据聚类结果进行敏感信息判定。
优选地,所述步骤中S01数据处理具体包括以下步骤:
S021:对判定为敏感信息的文档进行预处理,包括分词及去停用词;
S022:特征提取,在不破坏文档核心信息的前提下减少待处理词汇;
S023:计算特征向量权值,形成数据特征向量,构造相似度矩阵。
优选地,所述步骤S022中,在不破坏文档核心信息的前提下减少待处理词汇,主要是通过PCA主成分分析法来降低文本特征向量空间维数,该方法从高维度的文档特征向量空间中计算出几个可以综合表示原特征向量空间的几个分向量,作为原文档特征向量空间的主成分,从而简化计算。
优选地,所述步骤S023中,计算特征向量权值,主要是采用基于统计方法的TF-IDF方法,此方法认为某个词在其他文本中出现的次数越少,则这个词就越能代表当前文档的类型。
优选地,所述步骤S03中,聚类算法主要是采用K-medodis聚类算法,根据文档的相似度矩阵,将n(n为正整数,且n≥1)个文档进行聚类处理,形成m(m为正整数,且m≥1)个类别,然后对于每个类,顺序选取一个文档d(i),计算用新选取文档d(i)代替旧选取文档d(j)后的消耗E[d(i)],使得E[d(i)]最小的d(i)为新的中心点;迭代,直到簇的划分不再发生变化,从m个类别中挑出各自的的中心点文档,交由专家进行敏感信息判定,专家需要人工判断m个中心点文档是否为敏感信息,若中心点文档具有敏感信息,则认为该中心点文档所属的聚类中的所有文档均为包含敏感信息的文档;反之,则认为该中心点文档所属的聚类中的所有文档均为不包含敏感信息的文档。
本发明的一种降低敏感信息误判率的方法,在传统敏感信息判决法的模块组成上增加了一个聚类再判定模块,通过对初次判定所得的敏感数据进行二次判定,即基于聚类的判定,来降低误判率,并且减轻了专家的判定负担。
上述说明示出并描述了本发明的优选实施例,如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (2)

1.一种降低敏感信息误判率的方法,其特征在于,包括以下步骤:
S01:获取敏感信息检测系统判定为敏感信息的文档;
S02:对判定为敏感信息的文档进行数据处理;
S03:对数据处理后的敏感信息文档进行聚类处理,获取聚类结果,专家根据聚类结果进行敏感信息判定;
所述步骤中S02数据处理具体包括以下步骤:
S021:对判定为敏感信息的文档进行预处理,包括分词及去停用词;
S022:特征提取,在不破坏文档核心信息的前提下减少待处理词汇;
S023:计算特征向量权值,形成数据特征向量,构造相似度矩阵;
所述步骤S03中,聚类算法主要是采用K-medodis聚类算法,根据文档的相似度矩阵,将n个文档进行聚类处理,形成m个类别,m、n为正整数,且m≥1,n≥1,然后对于每个类,顺序选取一个文档d(i),计算用新选取文档d(i)代替旧选取文档d(j)后的消耗E[d(i)],使得E[d(i)]最小的d(i)为新的中心点;迭代,直到簇的划分不再发生变化,从m个类别中挑出各自的的中心点文档,交由专家进行敏感信息判定,专家需要人工判断m个中心点文档是否为敏感信息,若中心点文档具有敏感信息,则认为该中心点文档所属的聚类中的所有文档均为包含敏感信息的文档;反之,则认为该中心点文档所属的聚类中的所有文档均为不包含敏感信息的文档;
所述步骤S022中,在不破坏文档核心信息的前提下减少待处理词汇,通过PCA主成分分析法来降低文本特征向量空间维数,该方法从高维度的文档特征向量空间中计算出几个可以综合表示原特征向量空间的几个分向量,作为原文档特征向量空间的主成分,从而简化计算。
2.根据权利要求1所述的一种降低敏感信息误判率的方法,其特征在于:所述步骤S023中,计算特征向量权值,主要是采用基于统计方法的TF-IDF方法。
CN201610617799.8A 2016-07-29 2016-07-29 一种降低敏感信息误判率的方法 Active CN106202562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610617799.8A CN106202562B (zh) 2016-07-29 2016-07-29 一种降低敏感信息误判率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610617799.8A CN106202562B (zh) 2016-07-29 2016-07-29 一种降低敏感信息误判率的方法

Publications (2)

Publication Number Publication Date
CN106202562A CN106202562A (zh) 2016-12-07
CN106202562B true CN106202562B (zh) 2020-01-31

Family

ID=57497549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610617799.8A Active CN106202562B (zh) 2016-07-29 2016-07-29 一种降低敏感信息误判率的方法

Country Status (1)

Country Link
CN (1) CN106202562B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019795B (zh) * 2017-11-09 2021-10-12 普天信息技术有限公司 敏感词检测模型的训练方法和系统
CN110750981A (zh) * 2019-10-16 2020-02-04 杭州安恒信息技术股份有限公司 一种基于机器学习的高准确度网站敏感词检测方法
CN113177408A (zh) * 2021-04-26 2021-07-27 北京搜狗科技发展有限公司 一种文本检测方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933443A (zh) * 2015-06-26 2015-09-23 北京途美科技有限公司 一种敏感数据自动识别与分类的方法
CN105471823A (zh) * 2014-09-03 2016-04-06 阿里巴巴集团控股有限公司 一种敏感信息处理方法、装置、服务器及安全判定系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005610B (zh) * 2015-07-08 2019-09-13 无锡天脉聚源传媒科技有限公司 一种专辑分类方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105471823A (zh) * 2014-09-03 2016-04-06 阿里巴巴集团控股有限公司 一种敏感信息处理方法、装置、服务器及安全判定系统
CN104933443A (zh) * 2015-06-26 2015-09-23 北京途美科技有限公司 一种敏感数据自动识别与分类的方法

Also Published As

Publication number Publication date
CN106202562A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN106383877B (zh) 一种社交媒体在线短文本聚类和话题检测方法
CN111104466B (zh) 一种海量数据库表快速分类的方法
CN102289522B (zh) 一种对于文本智能分类的方法
CN109815336B (zh) 一种文本聚合方法及系统
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN107908642B (zh) 基于分布式平台的行业文本实体提取方法
CN106096066A (zh) 基于随机近邻嵌入的文本聚类方法
CN109145114B (zh) 基于Kleinberg在线状态机的社交网络事件检测方法
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
CN105022740A (zh) 非结构化数据的处理方法和装置
CN111506726B (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN106202562B (zh) 一种降低敏感信息误判率的方法
CN113672718A (zh) 基于特征匹配和领域自适应的对话意图识别方法及系统
CN109670037A (zh) 基于主题模型和粗糙集的K-means文本聚类方法
CN104008177A (zh) 面向图像语义标注的规则库结构优化与生成方法及系统
Hussain et al. Design and analysis of news category predictor
CN117493906A (zh) 一种城市事件分拨方法、系统及存储介质
Zhang et al. A hot spot clustering method based on improved kmeans algorithm
CN117009596A (zh) 一种电网敏感数据的识别方法及装置
CN116776173A (zh) 一种基于卷积神经网络的电力量测数据脱敏方法
CN111191455A (zh) 一种交通事故损害赔偿中法律条文预测方法
CN114153977A (zh) 一种异常数据检测方法及系统
CN114676840A (zh) 一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant