CN109918548A

CN109918548A - 一种自动检测文档敏感信息的方法和应用

Info

Publication number: CN109918548A
Application number: CN201910124529.7A
Authority: CN
Inventors: 李宁宁
Original assignee: Shanghai Fanxiang Network Technology Co Ltd
Current assignee: Shanghai Fanxiang Network Technology Co Ltd
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2019-06-21

Abstract

本发明公开了一种自动检测文档敏感信息的方法和应用，包括以下步骤：S1、敏感词典的准备；S2、检测敏感信息，包括以下子步骤：S21、使用精确匹配进行匹配与敏感词典中的词完全相同的词，得到敏感词的位置，放入bitmap中；S22、使用模糊匹配；S3、构建REST服务：将敏感信息检测方法应用到REST服务，将其作为一个库，可以被用户使用REST‑API调用。该自动检测文档敏感信息的方法和应用，与传统的人工分析的方法来统计文档中的敏感信息相比，该方法结合了AC自动机等自然语言处理技术，能够快速准确的分析文本文档中的敏感信息，对于被模糊处理的敏感信息，如使用繁体字、拼音、形近、同音字来代替原来的汉字，也能够准确识别。

Description

一种自动检测文档敏感信息的方法和应用

技术领域

本发明涉及文本分析技术领域，具体为一种自动检测文档敏感信息的方法和应用。

背景技术

根据2018年第42次中国互联网发展状况统计报告显示，我国网民规模为8.02亿，面对如此之多的互联网用户，对于与内容服务相关的企业来讲，用户所发布的信息数量非常庞大。

而在互联网用户提供的海量、庞杂的信息中，有很多与色情、广告、涉政、暴恐等多类敏感信息。如果通过人工的方式去检测用户发布的文档是否包含敏感信息，则非常费时费力。于此同时，用户会使用一些模糊手段，将敏感信息混淆为正常信息，例如，对于“六合彩”，使用同音字“和”代替“合”，或者使用拼音“liu”代替“六”等手段来混淆敏感信息。因此如何快速、准确的检测大量文档中的敏感信息成为了一个亟待解决的问题。

目前，对于文档的敏感信息检测，AC自动机是一种有效的解决方法。AC自动机是著名的多模匹配算法之一，与Trie树和KMP模式匹配算法的关系比较大，但是它对于混淆的中文敏感信息，不能很好的工作，因此，本发明提出了一种改进的AC自动机方法，用于解决此问题。

发明内容

本发明的目的在于提供一种自动检测文档敏感信息的方法和应用，以解决上述背景技术中提出的仅用人工的方式去检测用户发布的文档是否包含敏感信息，非常费时费力，无法快速、准确的检测大量文档中的敏感信息，而AC自动机对于混淆的中文敏感信息，不能很好的工作的问题。

为实现上述目的，本发明提供如下技术方案：一种自动检测文档敏感信息的方法和应用，包括以下步骤：

S1、敏感词典的准备，包括以下子步骤：

S11、准备好敏感词典，敏感词典中的结构为词-敏感词类型-权重；

S12、根据敏感词典，构建符合需求的AC自动机；

S13、针对每个汉字，构建其相应的拼音、形近字、同音字和繁体等的模糊信息库；

S2、检测敏感信息，包括以下子步骤：

S21、使用精确匹配进行匹配与敏感词典中的词完全相同的词，得到敏感词的位置，放入bitmap中；

S22、使用模糊匹配，首先通过bitmap过滤已经精确匹配的词的位置，然后结合已建立好的信息库进行模糊匹配，匹配出与敏感词有一定相似度的词；

S23、统计每个的词的位置，所属敏感类型、敏感覆盖率以及敏感权重；

S3、构建REST服务：将敏感信息检测方法应用到REST服务，将其作为一个库，可以被用户使用REST-API调用。

优选的，所述敏感词典有三列，分别表示敏感词、敏感词类型以及权重，敏感词类有涉赌、涉毒、粗言秽语、政治反动、色情等等类型，且权重的取值范围为1到10之间。

优选的，所述AC自动机是由敏感词典、Trie树和fail指针所构建，且Trie树根据敏感词典所构建，并且fail指针是根据Trie树所建立。

优选的，所述敏感词的检测可以分为精确匹配和模糊匹配两个过程，且精确匹配指的是搜索文档中与敏感词完全一致的字符串，并且模糊搜索是通过使用与繁体、拼音、同音、形近等信息库相结合的策略进行处理。

优选的，所述敏感信息检测使用Python3来编程实现，且基于tornado框架作为REST服务的基本框架，将敏感信息检测作为一个库集成到服务中，并提供REST-API。

与现有技术相比，本发明的有益效果是：

1、与传统的人工分析的方法来统计文档中的敏感信息相比，该方法结合了AC自动机等自然语言处理技术，能够快速准确的分析文本文档中的敏感信息，对于被模糊处理的敏感信息，如使用繁体字、拼音、形近、同音字来代替原来的汉字，也能够准确识别，同时，构建了基于REST-API的敏感信息检测服务，为敏感信息检测的工程应用实现上提供了一种思路；

2、对原始的AC自动机进行了一些改进，不但可以精确检测出与敏感词库中的敏感信息，还可以准确检测被模糊处理的敏感信息，如使用形近、同音、繁体、拼音字等替换敏感信息中某个或某几个字，然后给出敏感词的在文档中的位置、所属的敏感类型以及文档的敏感指数，最后，将检测方法应用到REST服务中，提供REST-API以供使用。

附图说明

图1为本发明敏感信息的匹配流程示意图；

图2为本发明AC自动机的构建流程示意图；

图3为本发明基于REST-API的敏感信息检测服务架构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-3，本发明提供一种技术方案：一种自动检测文档敏感信息的方法和应用，包括以下步骤：

S1、敏感词典的准备，包括以下子步骤：

敏感词典有三列，分别表示敏感词、敏感词类型以及权重，敏感词有涉赌、涉毒、粗言秽语、政治反动、色情等等类型，且权重的取值范围为1到10之间；

S12、根据敏感词典，构建符合需求的AC自动机；

AC自动机是由敏感词典、Trie树和fail指针所构建，且Trie树根据敏感词典所构建，并且fail指针是根据Trie树所建立，Trie树使用哈希表来代替数组，有效的解决了空间浪费问题，fail指针通过BFS(广度优先搜索)来求得；

S13、针对每个汉字，构建其相应的繁体、拼音、同音和形近等的模糊信息库，用户可能会使用繁体、拼音、同音和形近等手段来模糊处理敏感信息。因此，我们需要分别建立繁体、拼音、同音和形近等的模糊信息库。繁体字就很简单了，就是简体字和繁体字的区别，比如“对”和“對”。拼音信息库为汉字拼音拼写相同的所有汉字，如拼音为“yi”的所有汉字。同音字信息库为读音相同的所有汉字，也就是拼音拼写相同而且音调也相同的字，比如“意”和“义”。形近字是汉字字形很相似的字，比如“人”和“入”。模糊信息库有四种，分别是繁体信息库、拼音信息库、同音信息库和形近信息库，为了便于计算机查询信息库，将这些信息库转化为哈希表的形式；

S2、检测敏感信息，包括以下子步骤：敏感词的检测可以分为精确匹配和模糊匹配两个过程，且精确匹配指的是搜索文档中与敏感词完全一致的字符串，并且模糊搜索是通过与繁体、拼音、同音、形近等信息库相结合的策略进行处理；

S21、使用精确匹配进行匹配与敏感词典中的词完全相同的词，得到敏感词的位置，放入bitmap中；匹配过程分为两种情况：

(1)当前字符匹配，表示从当前节点沿着树边有一条路径可以到达目标字符，如果当前匹配的字符是一个词语的结尾，我们可以沿着当前字符的fail指针，一直遍历到root节点，如果这些节点有结尾标记，这些节点全都是可以匹配上的节点。我们统计这些带有结尾标记的词，并且记下文档字符串的位置。此时只需沿该路径走向下一个节点继续匹配即可，文档字符串指针移向下个字符继续匹配。

(2)当前字符不匹配，则去当前节点的fail指针所指向的字符继续匹配，匹配过程随着指针指向root节点结束；

重复这两个过程中的任意一个，直到为文档字符串走到结尾为止；

S22、使用模糊匹配，首先通过bitmap过滤已经精确匹配的词的位置，然后结合已建立好的信息库进行模糊匹配，有时用户为了避免被检查到敏感词，会用一些相似的字或者拼音来代替敏感词中的某些字。这样精确匹配就没法有效的检测出这些敏感词了。对于简体汉字来讲如果使用相似的字、相同读音的字、繁体字或者拼音来代替对应的字，从语义上来讲，往往不影响用户的阅读。这里称这些词为混淆词。例如用户可以使用“liu和彩”来模糊处理敏感词“六合彩”。对于如何识别混淆词，本方法通过使用与繁体、拼音、同音、形近等信息库相结合的策略进行处理，匹配出与敏感词有一定相似度的词，同样分为两个过程。

(1)当某个字符被匹配到时，和精确匹配的处理方式一样。如果遇到结尾标记，则统计匹配到的词和文档中的位置。最后则移动文档字符串的指针到下一个字符，同时沿着Trie树往下走。

(2)如果当某个字符没有被匹配到时，首先，查询其是否是繁体，若是繁体，则转化为简体，其次，查询为否为拼音，若是拼音，则转化为所有拼音与其相同的汉字，然后，查询该字符所有可能的形近字、音近字。然后分别使用这些字做精确匹配。如果能匹配到，则目标字符指针指到下一个字符，如果没匹配到，则去当前字符的fail指针所指向的节点，继续匹配，直到指向root节点为止；

重复这两个过程中的任意一个，直到为文档字符串走到结尾为止。为了防止重复检测到精确匹配到的敏感词，本方法使用了bitmap来过滤，首先，将精确匹配到的敏感词的位置，存入到bitmap中，然后，如果模糊匹配的文档字符串的位置在bitmap中出现，则使文档字符串的指针指到下一个位置，开始新一轮匹配。

经过精确匹配和模糊匹配后，得到已经匹配的词，同时也得到了敏感词的位置信息。因此我们可以计算敏感覆盖率，其公式如下。

其中，word_i表示匹配的n个敏感词中的第i个敏感词，freq(word_i)表示敏感词出现的频率，|word_i|表示敏感词的长度，|document|表示文档的长度。敏感覆盖率越大说明文档中敏感信息的数量就越多。

举个例子，对于文档A，文档长度为20含有敏感词B和C，B和C出现的频率分别为2，1，长度分别是2，3，则敏感覆盖率为：

根据词典，我们可以获取敏感词的敏感类型以及权重。敏感词之间的权重不一样，因此我们可以计算敏感词的综合权重，公式如下所示：

其中，word_i表示匹配的n个敏感词中的第i个敏感词，freq(word_i)表示敏感词出现的频率，weight(word_i)表示敏感词的权重。根据敏感权重可以估计文档的敏感程度。

举个例子，对于匹配的敏感词B和C，它们的权重分别是1和2，频率分别是2和3，则敏感权重为：

通过敏感覆盖率和敏感权重两个维度，可以评估文档中敏感信息的严重程度。

S3、构建REST服务：将敏感信息检测方法应用到REST服务，将其作为一个库，可以被用户使用REST-API调用，敏感信息检测使用Python3来编程实现，且基于tornado框架作为REST服务的基本框架，将敏感信息检测作为一个库集成到服务中，并提供了REST-API。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种自动检测文档敏感信息的方法和应用，包括以下步骤：

S1、敏感词典的准备，包括以下子步骤：

S11、准备好词典，敏感词典中的结构为词-敏感词类型-权重；

S12、根据敏感词典，构建符合需求的AC自动机；

S2、检测敏感信息，包括以下子步骤：

2.根据权利要求1所述的一种自动检测文档敏感信息的方法和应用，其特征在于：所述敏感词典有三列，分别表示敏感词、敏感词类型以及权重，敏感词有涉赌、涉毒、粗言秽语、政治反动、色情等等类型，且权重的取值范围为1到10之间。

3.根据权利要求1所述的一种自动检测文档敏感信息的方法和应用，其特征在于：所述AC自动机是由敏感词典、Trie树和fail指针所构建，且Trie树根据敏感词典所构建，并且fail指针是根据Trie树所建立。

4.根据权利要求1所述的一种自动检测文档敏感信息的方法和应用，其特征在于：所述敏感词的检测可以分为精确匹配和模糊匹配两个过程，且精确匹配指的是搜索文档中与敏感词完全一致的字符串，并且模糊搜索是通过使用与繁体、拼音、同音、形近等信息库相结合的策略进行处理。

5.根据权利要求1所述的一种自动检测文档敏感信息的方法和应用，其特征在于：所述敏感信息检测使用Python3来编程实现，且基于tornado框架作为REST服务的基本框架，将敏感信息检测作为一个库集成到服务中，并提供REST-API。