CN104850574A

CN104850574A - 一种面向文本信息的敏感词过滤方法

Info

Publication number: CN104850574A
Application number: CN201510083247.9A
Authority: CN
Inventors: 白春玲
Original assignee: BEYONDSOFT Corp
Current assignee: Yibo interworking Enterprise Service Technology Co.,Ltd.
Priority date: 2015-02-15
Filing date: 2015-02-15
Publication date: 2015-08-19
Anticipated expiration: 2035-02-15
Also published as: CN104850574B

Abstract

本发明公开了一种面向文本信息的敏感词过滤方法，包括以下步骤：(1)接收用户的文本信息，验证文本信息的数据格式是否正确，若数据格式验证不通过，则回到步骤(1)；若通过验证，则转至步骤(2)；(2)对文本信息进行语义分析：从文本信息中取出一个词组，在语义分析库中进行匹配，得到词组的词重；按照词重对文本信息的所有词组重新排序，然后将排序后的文本信息转换成数组格式；(3)对数组格式的文本信息进行敏感词过滤；如果有敏感词存在，将匹配出的敏感词返回给用户；如果不存在，返回给用户一个空信息。本发明不仅对敏感词进行词重分类，并且对分完类的敏感词又按照字母类别分类，有效提高了敏感词的过滤速度。

Description

一种面向文本信息的敏感词过滤方法

技术领域

本发明涉及一种敏感词过滤方法，尤其涉及一种面向文本信息的敏感词过滤方法，属于网络安全技术领域。

背景技术

随着互联网行业的高速发展，网站内容日益丰富，用户数量急剧上升，给互联网管理工作带来了很大的压力。当前，不少用户将自己制作的内容通过互联网平台进行展示或者提供给其他用户，如UGC(User Generated Content，用户生产内容)网站或社交应用软件。伴随而来也会产生许多不符合互联网使用环境甚至违反国家法律法规的内容，即非法内容，如政治敏感、色情词汇等等，导致相关的网站因违反国家法律法规的强制性规定，存在安全运营风险。

因此，有必要采用技术手段对上述非法内容进行过滤。这就需要一些能够禁止或者过滤掉网站中非法内容的方法或者软件。由于互联网中存在着海量的数据，在对网站中的非法内容进行处理时，无需对整段整句内容进行检索，只需要对可能涉及到非法的敏感词进行检索即可。这就需要对敏感词进行过滤。通过敏感词过滤，可以将各种网络信息的内容里面不该出现的敏感词汇过滤掉，从而营造一个良好的互联网使用环境。

申请公布号为CN 102208992A的中国专利申请公开了一种面向互联网的不良信息过滤系统及其过滤方法。该不良信息过滤系统包括用户数据提交模块、用户服务管理系统、用户交互信息审核平台、净化服务运营平台、知识库及至少一个标引引擎，运用多项智能技术：分词、关键词匹配、向量模型，以及多个高性能的处理算法对数据进行处理，可以为互联网社区提供敏感、色情、低俗、灌水及商业广告等信息的标引服务。但是，该技术方案需要调用知识库中的实例库进行过滤。如果希望检索到更多、更全的内容时，需要更大词汇量的词库支持，这样给不良信息的过滤速度带来了很大的压力。

发明内容

针对现有技术的不足，本发明所要解决的技术问题在于提供一种面向文本信息的敏感词过滤方法。

为实现上述发明目的，本发明采用下述的技术方案：

一种面向文本信息的敏感词过滤方法，包括以下步骤：

(1)接收用户的文本信息，验证所述文本信息的数据格式是否正确，若数据格式验证不通过，则回到步骤(1)；若通过验证，则转至步骤(2)；

(2)对所述文本信息进行语义分析：从所述文本信息中取出一个词组，在语义分析库中进行匹配，得到所述词组的词重；按照词重对所述文本信息的所有词组重新排序，然后将排序后的文本信息转换成数组格式；

(3)对所述数组格式的文本信息进行敏感词过滤；如果有敏感词存在，将匹配出的敏感词返回给用户；如果不存在，返回给用户一个空信息。

其中较优地，所述步骤(1)中，所述文本信息采用可扩展标记语言XML的数据格式，包括用户ID、过滤内容和签名三个参数。

其中较优地，所述步骤(2)中，将文本信息转换成数组格式的步骤为：把每个词组的第一个字组成数组的键，把所述每个词组做成多维数组或者一维数组，所述每个词组的值为整个词组。

其中较优地，所述步骤(2)中，采用正则方式把文本信息转换成数组格式。

其中较优地，所述步骤(2)中，采用贪婪匹配算法对数组格式的文本信息进行匹配。

其中较优地，所述步骤(3)中，从做完语义分析后的文本信息中，取出第一个字的首字母，并初始化首字母对应的敏感词库，逐级检索是否存在敏感词。

其中较优地，所述敏感词库包括一级敏感词库、二级敏感词库、三级敏感词库；其中，

所述一级敏感词库、所述二级敏感词库、所述三级敏感词库中分别存有26个敏感词表，所述26个敏感词表以首字母为表名。

其中较优地，所述步骤(3)中，通过匹配过滤后的敏感词放到结果数组中保存。

与现有技术相比较，本发明不仅对敏感词进行词重分类，并且对分完类的敏感词又按照字母类别进一步分类，有效提高了过滤速度。利用本发明，可以快速、准确地为用户过滤掉违反规定的信息，从而为用户提供一个经过净化的良好网络信息环境。

附图说明

图1是本发明所提供的面向文本信息的敏感词过滤方法流程图；

图2是本发明中，文本信息语义分析的流程图；

图3是本发明中，数据打散后的多维数组结构示意图；

图4是本发明中，词库结构的示意图；

图5是本发明中，文本信息正则后的数据格式示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术内容作进一步的详细说明。

如图1所示，本发明提供了一种面向文本信息的敏感词过滤方法，包括以下步骤：

下面对上述各步骤进行详细说明。

第1步：接收文本信息，验证文本信息的格式调用是否正确。

在本发明的一个实施例中，具有敏感词过滤功能的第三方网站向某个网站开放敏感词过滤功能，需要向该网站开放对应的接口。用户访问该网站时，首先会使用第三方网站的敏感词过滤功能，即用户访问接口时，文本信息格式需要与接口的数据格式相同。本发明中采用可扩展标记语言(eXtensible Markup Language，简写为XML)的方式进行访问，即采用XML的格式。该格式有3个参数，uid为用户id，content是需要过滤的内容，sign为签名。当3个参数都存在时，并且与第三方网站的服务器的本地的数据相匹配，才可以通过验证。

例如，以下格式的数据是正确的：

第2步：接收文本信息，验证文本信息的格式，并进行语义分析。

接收到文本信息后，由于文本信息中携带成对出现的固定格式的标记，因此，需要去除文本信息中html标记以及脚本标记，去除时可以采用标签去除函数，如strip_tags函数、trim函数等。去掉标记后的文本信息放在一个变量中进行存储。这样可以防止由于文本信息中携带插入编写的代码而引起的程序处理错误，排除了影响文本信息的可用性的可能，从而达到保护文本信息的目的。

从第三方网站的服务器中的语义分析库中取出所有词组，与文本信息进行匹配，进而做语义分析，如图2所示，语义分析过程包括：(1)取出文本信息中的某一词组；(2)与语义分析库中的所有词组进行匹配，得到该词组的词重；(3)按照词重的级别，对文本信息的所有词组进行重新排序；对文本信息的词组匹配时，重新排序能够更好地提高准确率。最后把没有匹配的词组按照原格式返回，把匹配到的词组的前后面加上分隔符。(4)把每个词组的第一个字，组成数组的键(Key)；把该词组做成多维数组或者一维数组，其值(value)为整个词组。

如图3所示，第三方网站的服务器接收到文本信息“我要倒卖军刀”，可能的敏感词为“倒卖军刀”，将“倒卖军刀”词组打散成“倒”、“卖”、“军”和“刀”的单字形式。其中，(1)key名为[word]的value值为

{[id]＝>1235

[name]＝>倒卖军刀}

(2)key名为“刀”的value值为

(3)key名为“军”的value值为

(4)key名为“卖”的value值为

(5)key名为“倒”的value值为

最后形成如图3所示的多维数组或者一维数组。通过对文本信息格式的转换，即文本信息格式转换成用户数组格式，有利于提高语义分析的效率。

第3步：对语义分析过的文本信息进行敏感词过滤。

从做完语义分析后的文本信息中，取出每个词组中第一个字的首字母，并初始化首字母对应的敏感词库，逐级检索是否存在敏感词。具体地说，先从一级敏感词库开始检索，再检索二级敏感词库、三级敏感词库，依此类推。

如图4所示，在本发明的一个实施例中，具体的词库结构由一级敏感词库、二级敏感词库、三级敏感词库、扩展敏感词库与词义分词库共5个级别组成。其中，在一级敏感词库、二级敏感词库、三级敏感词库中，分别存在26个敏感词表。这26个敏感词表以首字母为表名，按照每个字的拼音首字母放入到相应的敏感词表中。各个敏感词表中存在每个词的扩展词语。另外，扩展敏感词库中为有可能存在繁杂、多重的标点符号的敏感词语。词义分词只做语气分词作用。这样原本要检索1000个的敏感词，本发明中理论上只需要检索1000/26＝39次，为原来检索工作量的1％。虽然在实际运行时会存在一些误差，本发明的检索速率也能比原来提高70％，大大提高了检索效率。

在检索敏感词的过程中，以文本信息中词组的第一个字为条件，进行模糊匹配，选出所对应的全部数据。把选出的数据利用上述方式进行打散，拆分成以每个字作为一个多维数组的key，最后一个字里的数组变成当前词语的values。把拆分的全部数据进行存储，并且过期时间设置为永久不过期。在本发明的一个实施例中，可以利用高性能的分布式内存对象缓存系统(简称为MemCache)缓存起来。由于数据存储为现有技术，在此就不具体说明了。

在本发明中，使用正则表达式，即使用单个字符串来描述、匹配一系列符合所设定句法规则的字符串，用来检索、替换文本信息中符合要求的内容。

其具体格式为：

preg_match_all('/[\w\W]/u'，strip_tags(用户的文本信息内容)，最后得到的结果)。

如图5所示，对于用户所传输过来的文本信息，采用正则方式全部变成数组，即把用户的文本信息进行打散，并匹配成一个一维数组，该一维数组由单个汉字、单个数字、单个标点符号、单个特殊字符组成。

通过MemCache系统取得缓存过的数据库，并遍历这个文本信息的一维数组，以单一元素作为Key值，取得在数据库中的词组的对应元素，其中，单一元素是不与其他元素重复的唯一性的元素。

如果在缓存中这个key值所对应的值存在，就从这个文本信息的元素开始做贪婪匹配算法，检索是否在对应的数组中存在该敏感词。

其中，贪婪匹配算法是在一段内容里面搜索一个固定内容，例如可以是一个词语、一个成语、一句话或者一段话，如果匹配到该内容的第一个字的时候，则继续往下匹配，直至匹配到不再对应该内容的文本信息时为止，或者可以说匹配到对应内容的最后一个字或者字符为止，下面举例对贪婪匹配算法作详细说明。

以“我要倒卖军刀”为例：在“我要倒卖军刀”中，搜索“倒卖军刀”敏感词，用贪婪匹配算法处理如下

(1)首先，把敏感词“倒卖军刀”打散处理成所需要的多维数组文本信息格式。

(2)其次，把文本信息“我要倒卖军刀”利用正则方式变成数组，每一个字便是数组的一个元素。

(3)再次，取得文本信息的第一个字，判断步骤(2)中敏感词的key是否存在。

上述方法就是把敏感词处理成需要的数组格式之后，确认查找的键是否存在，若相等则存在该敏感词。

例如，“我”不在敏感词第一层的key里面，第一层的key是“倒”，第二层的key是“卖”，第三层的key是“军”，第四层的key是“刀”，直到文本信息里面的“倒”，在第一层的key里面被搜索到。取出文本信息的第二个字“倒”，在敏感词的第二层进行搜索：如果搜索到，则取文本信息内容的第三个字对第三层进行搜索；如果没有搜索到，说明这个不是敏感词，或者是不需要匹配的词根据上述步骤一直匹配直到最后，整个敏感词全部匹配完成，则能取出最后一层的核心敏感词并存入设置好的数组中。上述就是贪婪匹配算法的具体处理过程。

经过对文本信息进行匹配，如果与敏感词表完全匹配，则属于真正的敏感词，同时将该文本信息存入到一个二维数组中；如果文本信息不存在于敏感词表中，那么该文本信息就不是敏感词，从而排除了敏感词的可能性，结束本次匹配。继续下一个文本信息的匹配工作，初始化对应数据表，然后依次匹配完所有数据，并把最终结果存入二维数组中。完成一级敏感词库的检索后，继续初始化二级敏感词库、三级敏感词库，并根据上述方案匹配关联敏感词，然后把结果存入二维数组中。

最后，判断存放敏感词的数组中是否为空。如数组不为空，说明有匹配到的敏感词存在，则返回状态为1，1代表成功。如数组中是空的，那么就没有敏感词存在，则返回状态为0与空值，0代表失败。

本发明通过对敏感词进行词重分类，并且对已分类的敏感词再次按照字母类别进行分类。这样可以快速、准确地为用户过滤掉违反规定的信息，从而为用户提供一个经过净化的良好网络信息环境。

以上对本发明所提供的面向文本信息的敏感词过滤方法进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质精神的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种面向文本信息的敏感词过滤方法，其特征在于包括以下步骤：

2.如权利要求1所述的敏感词过滤方法，其特征在于，

所述步骤(1)中，所述文本信息采用可扩展标记语言XML的数据格式，包括用户ID、过滤内容和签名三个参数。

3.如权利要求1所述的敏感词过滤方法，其特征在于，

所述步骤(2)中，将文本信息转换成数组格式的步骤为：把每个词组的第一个字组成数组的键，把所述每个词组做成多维数组或者一维数组，所述每个词组的值为整个词组。

4.如权利要求1所述的敏感词过滤方法，其特征在于，

所述步骤(2)中，采用正则方式把文本信息转换成数组格式。

5.如权利要求4所述的敏感词过滤方法，其特征在于，

所述步骤(2)中，采用贪婪匹配算法对数组格式的文本信息进行匹配。

6.如权利要求1所述的敏感词过滤方法，其特征在于，

所述步骤(3)中，从做完语义分析后的文本信息中，取出第一个字的首字母，并初始化首字母对应的敏感词库，逐级检索是否存在敏感词。

7.如权利要求6所述的敏感词过滤方法，其特征在于，

所述敏感词库包括一级敏感词库、二级敏感词库、三级敏感词库；其中，

8.如权利要求1所述的敏感词过滤方法，其特征在于，

所述步骤(3)中，通过匹配过滤后的敏感词放到结果数组中保存。