CN106547878A

CN106547878A - 基于多关键词的快速过滤方法

Info

Publication number: CN106547878A
Application number: CN201610949845.4A
Authority: CN
Inventors: 陈豪; 弓伟
Original assignee: Beijing Micro Netcom Ltd By Share Ltd
Current assignee: Beijing Micro Netcom Ltd By Share Ltd
Priority date: 2016-10-26
Filing date: 2016-10-26
Publication date: 2017-03-29

Abstract

本发明公开了一种基于多关键词的快速过滤方法。该方法通过关键词编号，结构存储，过滤规则分解成原子规则，对内容逐字进行关键词查找的步骤实现。本发明基于多关键词的快速过滤方法大大提高了关键词过滤的性能，普通单CPU执行性能大概在100W次/秒,满足了高效和迅速的内容过滤，过滤性能约是普通正则过滤的2000倍以上。

Description

基于多关键词的快速过滤方法

技术领域

本发明涉及一种通讯词语的过滤方法，特别涉及一种基于多关键词的快速过滤方法。

背景技术

正则算法是通信过程中常用的逻辑算法，基于正则表达式，其来源可上溯至对人类神经系统如何工作的早期研究。Warren McCulloch和Walter Pitts这两位神经生理学家研究出一种数学方式来描述这些神经网络。1956年,一位叫Stephen Kleene的数学家在McCulloch和Pitts早期工作的基础上，发表了一篇标题为“神经网事件的表示法”的论文，引入了正则表达式的概念。正则表达式就是用来描述他称为“正则集的代数”的表达式，因此采用“正则表达式”这个术语。随后，发现可以将这一工作应用于使用Ken Thompson的计算搜索算法的一些早期研究，Ken Thompson是Unix的主要发明人。正则表达式的第一个实用应用程序就是Unix中的qed编辑器。正则表达式(regular expression)描述了一种字符串匹配的模式，可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。列目录时，dir*.txt或ls*.txt中的*.txt就不是一个正则表达式,因为这里*与正则式的*的含义是不同的。正则表达式是由普通字符(例如字符a到z)以及特殊字符(称为元字符)组成的文字模式。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。

在即时通信(如短信)过程中，基于内容的安全性和合法性，需要将信息里的词语进行过滤，以保证内容不违反相关法规。过滤规则涉及的关键词存在多词组合情况，存在“与”和“或”的规则。由于通信信息量大，且要保证信息的及时性，采用正则算法进行过滤，将产生严重的性能问题，而造成信息延误或积压。

发明内容

本发明的目的在于提供一种基于多关键词的快速过滤方法。

一种基于多关键词的快速过滤方法，包括如下步骤：

1)将所有关键词编号，结构存储，采用首字编码的位置索引，相同首字的关键词顺序存储。记作集合A；

2)将过滤规则分解成原子规则，原子规则即只含有单词组或“与关系”的多词组，如果原始规则中含有“或”，将被分解成多个原子规则，原子规则按照关键词编号增序排列，并对首词建立索引，相同首词的按编号增序存储，记作集合B；

3)对内容逐字进行关键词查找，在A找出内容里的不同关键词集合C，并将C集合按关键词编号进行位流标记，对集合C逐词在B中进行查找，如果B中某个首词内的规则被C包含，则内容包含这个过滤规则，过滤结束。

所述关键词规模为5000-80000个。

与现有技术相比，本发明具有如下有益效果：本发明基于多关键词的快速过滤方法大大提高了关键词过滤的性能，满足了高效和迅速的内容过滤，过滤性能约是普通正则过滤的2000倍以上。通过测试，关键词规模在10000个左右，规则在2000个，内容长度在100，普通单CPU执行性能大概在300-400次/秒，远远不能满足通信业务量的要求。采用本发明的过滤方法，普通单CPU执行性能大概在100W次/秒，大大提高了过滤性能。

附图说明

图1是本发明基于多关键词的快速过滤方法实现的逻辑流程图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

一种基于多关键词的快速过滤方法，包括如下步骤：

所述关键词规模为5000-80000个。

目前行业内对内容过滤通常采用正则规则进行过滤。正则过滤具有极高的灵活性和实用性，但在我们这个使用场景下，通用的正则过滤的几个实现工具都不能满足我们队过滤性能的要求。通过我们的测试，在关键词规模在10000个左右，规则在2000个，内容长度在100，普通单CPU执行性能大概在300-400次/秒，远远不能满足我们通信业务量的要求。采用我们自实现的过滤方法，普通单CPU执行性能大概在100W次/秒，大大提高了过滤性能。

首先，我们队规则进行的预先的原子分解，因此在实际过滤时我们不在有表达式的分析过程。假设内容长度为N，关键词规模为M，原子规则数为X，查找出的关键词集合为A。我们在进行关键词查找时，由于采用的位置索引，因此复杂度为常数级1。而在规则匹配时，复杂度A。因此整个算法复杂度为N*A。由于A在我们实际应用里，基本都是常数级的，因此整个算法大大优先于正则匹配。

以上公开的仅为本发明的具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种基于多关键词的快速过滤方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于多关键词的快速过滤方法，其特征在于，所述关键词规模为5000-80000个。