CN105956180A

CN105956180A - 一种敏感词过滤方法

Info

Publication number: CN105956180A
Application number: CN201610370153.4A
Authority: CN
Inventors: 王壮
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingbangda Trade Co Ltd; Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date: 2016-05-30
Filing date: 2016-05-30
Publication date: 2016-09-21
Anticipated expiration: 2036-05-30
Also published as: CN105956180B

Abstract

本发明公开了一种敏感词过滤方法，该方法包括：采用多种敏感词过滤方法的组合，对信息进行敏感词匹配；其中，多种敏感词过滤方法的组合包括：敏感词直接过滤方法，敏感词转换敏感字过滤方法，敏感词步长分析过滤方法，敏感字上下文重组过滤方法和无效信息去除重组过滤方法的组合。采用本发明能够过滤各种经过干扰、修饰过的敏感词。

Description

一种敏感词过滤方法

技术领域

本发明涉及计算机通信网络技术领域，特别涉及一种敏感词过滤方法。

背景技术

垃圾信息主要出现在论坛，留言板社交平台和购物平台。通常的垃圾信息为广告或者非法宣传等欺诈信息，主要是为了提供信息和联系手段，单纯形的垃圾信息，无效信息并不是多数。为了使论坛，留言板，微博等公共社交网站和平台的信息数据处于一个比较安全的状态，减少欺诈，色情，反动，恐吓等言论的产生，有助于网络环境的改善和良性发展，需要将垃圾信息极大程度的找出并过滤。

现有技术主要是集中在敏感词匹配技术和有监督模式的敏感词机器学习技术。

采用敏感词匹配的技术是比较多的，另外还有贝叶斯方法和决策树算法，通过对文本信息中的敏感词进行逐个匹配，分析是否存在敏感词。

另外，部分涉及到系统安全的过滤软件会对文本进行有害代码检测，防止诸如恶意链接，脚本等信息的发出。

敏感词学习技术通常采用有监督的机器学习模式，通过TREC07P和CSMS-P实验的ROC学习曲线进行有监督方式的机器学习。通过这种方式，增加敏感词的数量，提升过滤准确度。

现有技术的缺点是，

只能根据敏感词进行匹配，不能匹配一些经过干扰的文字，无法全面过滤垃圾信息。

只能检查简单的恶意代码，但是对恶意网站链接无法处理，尤其是采用隐晦的暗示性的恶意网站，无法分析。

机器学习技术难度较大，性能也不足，而且监督方式的学习，必须采用人工分析。

发明内容

本发明的目的在于提供一种敏感词过滤方法，能够过滤各种经过干扰、修饰过的敏感词。

为实现上述发明目的，本发明提供了一种敏感词过滤方法，该方法包括：

采用多种敏感词过滤方法的组合，对信息进行敏感词匹配；其中，多种敏感词过滤方法的组合包括：敏感词直接过滤方法，敏感词转换敏感字过滤方法，敏感词步长分析过滤方法，敏感字上下文重组过滤方法和无效信息去除重组过滤方法的组合。

综上所述，本发明实施例提供的敏感词过滤方法，将多种敏感词过滤手段以链式组合，形成敏感词过滤链并逐个执行。如此，本发明的方案能够更全面彻底地过滤各种经过干扰、修饰过的敏感词，大大增强垃圾信息的拦截效果。

附图说明

图1为本发明实施例采用多种敏感词过滤方法的组合，对信息进行敏感词匹配的流程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明所述方案作进一步地详细说明。

本发明采用多种敏感词过滤方法的组合，对信息进行敏感词匹配，以过滤掉信息中的敏感词。进一步地，为增强垃圾信息拦截效果，在没有直接出现的敏感词时，根据汉语语法特征对信息进行语法特征分析，拦截出可能是垃圾信息的误导信息，以供管理员参考。本发明在敏感词过滤过程中，能够将过滤到的特殊敏感词进行分析和存储，实现了敏感词库的自主学习，增强了过滤准确度和过滤速度。同时，本发明还在用户输入的信息为网址信息时，对网站内部信息进行敏感词匹配和语法特征分析，以分辨该网址是否为恶意网址。另外，本发明的方案还提供了日志记录功能，辅助管理员进行网站安全黑名单的设置；提供的统计分析功能，帮助管理员从侧面了解网站的活跃度和访问量。

本发明公开了一种敏感词过滤方法：采用多种敏感词过滤方法的组合，对信息进行敏感词匹配；其中，多种敏感词过滤方法的组合包括：敏感词直接过滤方法，敏感词转换敏感字过滤方法，敏感词步长分析过滤方法，敏感字上下文重组过滤方法和无效信息去除重组过滤方法的组合。

其中，采用多种敏感词过滤方法的组合，对信息进行敏感词匹配具体包括以下步骤，流程示意图如图1所示：

步骤A、对信息进行敏感词直接过滤，如果匹配到敏感词，则过滤掉该敏感词；如果匹配不成功，则，

执行步骤B、进行敏感词转换敏感字过滤，将敏感词拆分成敏感字数组，判断数组中的所有元素是否同时出现在该信息中，如果是，则，

执行步骤C、进行敏感词步长分析过滤，在敏感词步长不大于预设的敏感词步长阈值时，

执行步骤D、进行敏感字上下文重组过滤，如果上下文重组过滤后的词为敏感词，则将上下文重组过滤前的词作为类敏感词保存到敏感词库中；如果上下文重组过滤后的词不是敏感词，则，

执行步骤E、进行无效信息去除重组过滤，将信息中的乱码、符号和特殊字符过滤后，判断是否为敏感词，如果是，则过滤掉该敏感词。

进一步地，步骤B在进行敏感词转换敏感字过滤时，判断数组中的所有元素并不同时出现在该信息中，则进行语法特征分析，在语法特征分析无法通过时，确认所述信息为垃圾信息进行拦截，否则，发布所述信息；所述语法特征分析包括重复信息占比分析，读音相近热词替换分析和歧义词分析。

进一步地，步骤E在进行无效信息去除重组过滤时，将信息中的乱码、符号和特殊字符过滤后，判断不是敏感词，则进行语法特征分析；在语法特征分析无法通过时，确认所述信息为垃圾信息进行拦截，否则，发布所述信息；所述语法特征分析包括重复信息占比分析，读音相近热词替换分析和歧义词分析。

进一步地，步骤C在进行敏感词步长分析过滤时，如果敏感词步长大于预设的敏感词步长阈值时，直接执行步骤E。

进一步地，一般网址信息全部是字母和数字，不包含汉字，所以，如果预先确认输入的信息为网址信息，该方法还包括：建立网址链接，并获取网站内部信息，过滤掉网站内部信息中无效的标签信息和版本信息；对经过过滤的网站内部信息进行敏感词匹配和语法特征分析。

优选地，为辅助管理员优化自己的网站，本发明的方案还包括：

对信息中出现的敏感词，以及垃圾信息的出现时间和IP地址进行记录；

对所记录的信息进行统计，得到普通信息和垃圾信息的比率，垃圾信息的IP列表，以及敏感词的出现频度；

将统计得到的信息以图表形式进行显示。

所述敏感词保存在敏感词库中，为确保敏感词删除的有效性，该方法还包括：为敏感词库中的每个敏感词设置不同等级，在对信息进行敏感词匹配时，如果匹配到的敏感词等级达到过滤等级，则将信息中的该敏感词过滤掉；否则，保留该敏感词。

为清楚说明本发明，下面列举具体场景进行说明。需要说明的是，发送到论坛或者留言板上的信息往往是一段话，可以是一句话，也可以是几句话，因此本发明的方案就是将这段话中的敏感词过滤掉，或者将这段话作为垃圾信息拦截。

实施例一

例如，“通过计算机程序开发领域的设计模式”，其中，“开发”作为敏感词保存在敏感词库中。

在切词处理之后，进行敏感词直接过滤，与敏感词库逐条匹配，当匹配到“开发”时，即匹配到敏感词，将该敏感词“开发”过滤掉，结束分析。此时，过滤掉敏感词“开发”的方式有多种，可以选择将信息中的敏感词“开发”用“**”代替。

再例如，“汉字序顺不一定影响阅读”，其中，“顺序”作为敏感词保存在敏感词库中。

1)对信息进行切词处理，假设切词之后为“汉字|序顺|不一定|影响|阅读”，进行敏感词直接过滤，与敏感词库逐条匹配，没有匹配到“顺序”，则，

2)进行敏感词转换敏感字过滤，将敏感词“顺序”拆分成敏感字数组，该敏感词是包含两个元素分别为“顺”和“序”的一个数组，判断这两个元素是否同时出现在该信息中，如果是，则，

3)进行敏感词步长分析过滤，首先判断敏感词步长是否大于敏感词步长阈值，假设敏感词步长阈值为5，“序”和“顺”之间没有汉字，则敏感词步长为0，小于阈值5，则

4)进行敏感字上下文重组过滤，将“序顺”进行上下文重组，得到“顺序”，由于“顺序”是敏感词，则将“序顺”作为类敏感词保存到敏感词库中。如此，当信息中有“序顺”这个词时，通过敏感词过滤很容易找到，可以更大限度地降低发布的信息中含有敏感词的风险。而且，通过将敏感词主动加入到敏感词库，从而丰富了敏感词库，提升了敏感词过滤的准确性和便捷性。

再例如，

敏感字之间的文本中的乱码、符号、特殊字符。一部分垃圾信息，是采用特殊符号占位，如“今###天###天###气”。在步骤E、进行无效信息去除重组过滤，就是将信息中的特殊字符“###”过滤后，判断“今天天气”是否为敏感词，如果是，则过滤掉该敏感词。

再例如，“今点天点天点气”这类的形式，上下文是不能形成词组的，语法特征分析会根据句子长度及重复字占比进行分析是否存在垃圾信息，即，重复字“点”的占比如果超过阈值的话，则认为该信息是垃圾信息进行拦截，由管理员进一步确认是否发布该信息。

需要说明的是，语法特征分析是对信息中不直接包含敏感词时的进一步分析，不仅包括重复信息占比分析，还包括读音相近热词替换分析和歧义词分析。进行语法特征分析时，可以上述三种分析方法依次执行，在执行任意一种方法无法通过时，都认为是垃圾信息进行拦截。如此，敏感词过滤和语法特征分析相结合，能够更加有效地拦截垃圾信息。

实施例二

部分垃圾信息不直接显示内容，而是采取隐晦的提示信息诱导用户进入自己发出的非法网站。这种信息从敏感词和语法特征都不能准确分析，因此采取网址信息主动探测的方式，通过使用java语言的网络特性，直接建立网址链接，并获取网站内部信息，过滤掉网站内部信息中无效的标签信息和版本信息；对经过过滤的网站内部信息进行敏感词匹配和语法特征分析。如果匹配到敏感词则屏蔽该网址，如果没有匹配到敏感词，但经过语法特征分析后拦截出可能是垃圾信息的误导信息，以供管理员参考。

需要说明的是，对经过过滤的网站内部信息进行敏感词匹配和语法特征分析，就是说从步骤A开始执行，直至步骤E。“经过过滤的网站内部信息”相当于流程图中的“信息”。

实施例三

基础信息平台主要用于提供系统的核心数据-敏感词库，并支持敏感词同步更新，提升敏感词的识别度和匹配度。

除此之外，基础信息平台还提供了日志记录功能，能够对信息中出现的敏感词进行记录，还记录垃圾信息的来源和时间等信息。基础信息平台提供的统计分析功能能够将以上信息进行汇总，得到普通信息和垃圾信息的比率信息，垃圾信息IP列表，敏感词出现频度等，并且以折线图，病状图，柱状图的方式呈现给管理员。从而辅助网站管理员优化自己的网站。

另外，基础信息平台支持敏感词库的等级设置，部分敏感词，音近词可以不需要自动过滤时，通过初始等级设置就可以完成。

本发明的有益效果在于：

一、本发明能够有效的增强垃圾信息拦截的效果，提升网络环境的良性发展。采用链式结构的垃圾信息过滤方式能够显著的增强拦截层数提升安全性，并极易扩展，快速适应更新的垃圾信息过滤形式。

二、通过将敏感词主动加入到敏感词库，从而丰富了敏感词库，提升了敏感词过滤的准确性和便捷性。

三、敏感词过滤和语法特征分析相结合，能够更加有效地拦截垃圾信息。

四、本发明采用独立线程进行网址内容获取和分析，并分析是否为不良网站。

五、能够符合多种应用场景及网络环境，系统提供了运行日志负责记录垃圾信息的IP地址，辅助管理员进行网站安全黑名单的设置，从另一个方面提升了网站的安全性。

六、另外，系统提供了统计分析功能，帮助管理员从侧面了解网站的活跃度和访问量。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种敏感词过滤方法，该方法包括：

采用多种敏感词过滤方法的组合，对信息进行敏感词匹配；

其中，多种敏感词过滤方法的组合包括：敏感词直接过滤方法，敏感词转换敏感字过滤方法，敏感词步长分析过滤方法，敏感字上下文重组过滤方法和无效信息去除重组过滤方法的组合。

2.如权利要求1所述的方法，其特征在于，所述采用多种敏感词过滤方法的组合，对信息进行敏感词匹配具体包括：

3.如权利要求2所述的方法，其特征在于，该方法进一步包括：

步骤B在进行敏感词转换敏感字过滤时，判断数组中的所有元素并不同时出现在该信息中，则进行语法特征分析，在语法特征分析无法通过时，确认所述信息为垃圾信息进行拦截，否则，发布所述信息；

所述语法特征分析包括重复信息占比分析，读音相近热词替换分析和歧义词分析。

4.如权利要求2所述的方法，其特征在于，该方法进一步包括：

步骤E在进行无效信息去除重组过滤时，将信息中的乱码、符号和特殊字符过滤后，判断不是敏感词，则进行语法特征分析；在语法特征分析无法通过时，确认所述信息为垃圾信息进行拦截，否则，发布所述信息；

5.如权利要求4所述的方法，其特征在于，该方法进一步包括：

步骤C在进行敏感词步长分析过滤时，如果敏感词步长大于预设的敏感词步长阈值时，直接执行步骤E。

6.如权利要求3、4或5所述的方法，其特征在于，预先确认所述信息为网址信息，该方法还包括：

建立网址链接，并获取网站内部信息，过滤掉网站内部信息中无效的标签信息和版本信息；

对经过过滤的网站内部信息进行敏感词匹配和语法特征分析。

7.如权利要求3、4或5所述的方法，其特征在于，该方法还包括：对信息中出现的敏感词，以及垃圾信息的出现时间和IP地址进行记录。

8.如权利要求7所述的方法，其特征在于，该方法还包括：

将统计得到的信息以图表形式进行显示。

9.如权利要求1所述的方法，其特征在于，所述敏感词保存在敏感词库中，该方法还包括：为敏感词库中的每个敏感词设置不同等级，在对信息进行敏感词匹配时，如果匹配到的敏感词等级达到过滤等级，则将信息中的该敏感词过滤掉；否则，保留该敏感词。