CN107402940A

CN107402940A - 敏感词检索方法

Info

Publication number: CN107402940A
Application number: CN201610533979.8A
Authority: CN
Inventors: 何兴洋
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-05-20
Filing date: 2016-07-07
Publication date: 2017-11-28
Anticipated expiration: 2036-07-07
Also published as: CN107402940B

Abstract

一种敏感词检索方法，包括：步骤(S1)，根据敏感词词库来创建敏感词词图，该敏感词词图是各个顶点分别为各个敏感词的起始字符和终止字符、且各条边分别连接了每个敏感词各自的起始字符和终止字符的无向图；步骤(S2)，预设包括各个敏感词的敏感词长度的预设值；步骤(S3)，从文本的首字符起逐一遍历每个文本字符，以当前遍历到的文本字符作为第一文本字符，当在所述敏感词词图中查找到与所述第一文本字符相一致的起始字符时，在文本中找到从第一文本字符起按敏感词长度计算得到的位置上的第二文本字符，当在敏感词词图中遍历到与第二文本字符相一致的终止字符时，启动基于逐次二分法的字符串匹配法的运算来进行敏感词判定。

Description

敏感词检索方法

技术领域

本发明涉及一种敏感词检索方法及装置，尤其涉及一种可控粒度的敏感词检索方法。

背景技术

近年，随着大数据时代的到来，数据开始呈现爆炸式的增长，给信息质量的监测和过滤带来严峻的考验。现有的网络文本信息监测大多通过敏感词的检索与告警来控制，敏感词的检索与告警是指通过制定敏感词词库，将文本信息与敏感词词库进行匹配，从而找出含有敏感信息的词汇(也称为脏词)，并对其进行告警。

敏感词检索注重的是效率和准确率，优秀的检索算法要做到：只进行一次对文本的扫描；尽可能不触发敏感词词库的检索；如果确实需要触发检索了，那么每次触发检索的时候，要尽可能减少检索所需要遍历的字符数量；每次对比敏感词词库的时候，减少运算量。

现有的敏感词检索方法主要有如下两种：

(1)自动机算法

该算法以目标文本为主体，将所有敏感词构建为词图，即是将所有敏感词组织为一个图关系，以任意一个字都可以查出以该字为开头的词。然后，对文本进行逐一搜索并看每个字是否在图中存在，如果存在看是否有对应的词存在，如果存在，则匹配成功，记录下来，继续往下搜索直到搜索完整个文本。

(2)TTMP(Terminator Triggered Multi-Pattern)算法

首先，扫描文章里面的每一个字符，只有当某一个字符是脏字表(一种表状结构的敏感词词库)中任意一个敏感词的第一个字符(称为“起始符”)，将其位置保存起来，才判断接下来是否是脏字，以触发检索。

接下来，并不是开始循环脏字表的每一个词条，而开始检索下一个字符，先看一下这个字符是否是脏字表里面的任意一个字符，如果不是，就表明不可能是脏字表中的任何一个条目，就可以退出了；如果是，就选取从第一个被检出字符到目前扫描到的字符之间的字符串，求hash值，看看能否从hash表中检出一个敏感词。如果检出来，就证明是敏感词；否则继续检索后面的字符，直至找不到，或者超出脏字表条目最大的长度。

但是，上述现有的敏感词检索方法存在如下问题：

(1)自动机算法匹配率比较低，耗内存且慢。

(2)TTMP算法使用的敏感词表结构不够简化，存在诸多冗余数据。

(3)TTMP算法并未考虑到对于检索敏感词的优先级。

(4)TTMP算法计算hash值的计算开销较大。

发明内容

本发明是鉴于现有的敏感词检索方法中的上述问题而做出的。其目的在于提供一种敏感词检索方法，能够提高敏感词检索效率，简化敏感词词库结构和使用开销，且能够动态实现敏感词检索的粒度可控。

本发明的一个方面的敏感词检索方法，在作为检索对象的文本中检索被预先设定于敏感词词库中的多个敏感词，所述敏感词检索方法包括：

敏感词词图创建步骤，根据所述敏感词词库来创建敏感词词图，该敏感词词图是各个顶点分别为各个敏感词的起始字符和终止字符、且各条边分别连接了每个敏感词各自的起始字符和终止字符的无向图；

检索预设值设定步骤，针对所述敏感词词图，预设用于检索的预设值，所述预设值包括各个敏感词的敏感词长度；和

检索执行步骤，从所述文本的首字符起逐一遍历每个文本字符，以当前遍历到的文本字符作为第一文本字符，在所述敏感词词图中查找与所述第一文本字符相一致的起始字符，当查找到时，在所述文本中找到从所述第一文本字符起按照所述敏感词长度计算得到的位置上的第二文本字符，在所述敏感词词图中逐一遍历与该起始字符相连接的所有终止字符，将当前遍历到的终止字符与所述第二文本字符相比较，当一致时，启动基于逐次二分法的字符串匹配法的运算，判定从所述第一文本字符起到所述第二文本字符为止的文本字符是否为敏感词。

根据本发明的一个方面的敏感词检索方法，所述预设值还包括：终止字符优先级，其是根据由历史检索结果统计得出的每个敏感词的出现频度，而对所述敏感词词图中的与同一起始字符相连接的终止字符设置的优先级，所述出现频度越高，则所述终止字符优先级越高。

根据本发明的一个方面的敏感词检索方法，在检索执行步骤中，在所述敏感词词图中逐一遍历与所述起始字符相连接的所有终止字符时，按所述终止字符优先级逐次进行遍历。

根据本发明的一个方面的敏感词检索方法，所述预设值还包括：二分法运算层次，其是针对每个敏感词而设置的进行所述基于逐次二分法的字符串匹配法的运算时的运算层次。

根据本发明的一个方面的敏感词检索方法，在检索执行步骤中，按照所述二分法运算层次来执行所述基于逐次二分法的字符串匹配法的运算。

根据本发明的一个方面的敏感词检索方法，在检索执行步骤中，当经所述字符串匹配法来判定从所述第一文本字符起到所述第二文本字符为止的文本字符是否为敏感词的判定结果为是敏感词时，记录下在所述文本中找到了敏感词，并以该敏感词长度计算出上述文本中该敏感词之后的字符作为继续遍历的下一个上述第一文本字符。

附图说明

图1是本发明的敏感词检索方法的整体框图。

图2是本发明的敏感词检索方法中的敏感词词图的示意图。

图3是基于逐次二分法的字符串匹配法的示意图。

图4是本发明的敏感词检索方法的检索执行步骤的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进行详细说明。

应当注意，这里描述的实施例只用于举例说明，并不用于限制本公开。在以下描述中，为了提供对本公开的透彻理解，阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本公开。

在整个说明书中，对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着：结合该实施例或示例描述的特定特征、结构或特性被包含在本公开至少一个实施例中。因此，在整个说明书的各个地方出现的短语“在一个实施例中”、“在实施例中”、“一个示例”或“示例”不一定都指同一实施例或示例。此外，可以以任何适当的组合和/或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。相同的附图标记指示相同的要素。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。

图1是本发明的敏感词检索方法的整体框图。

如图1所示，在本发明的敏感词检索方法中，包括：敏感词词图创建步骤(步骤S1)、检索预设值设置步骤(步骤S2)以及检索执行步骤(步骤S3)。

首先，在敏感词词图创建步骤(步骤S1)中，根据预先确定的(例如，存储于数据库)记录有多个敏感词的敏感词词库D，来创建敏感词词图F。该敏感词词图F是一种无向图。所谓无向图是多个顶点和多条边相互连接组成、且边仅由两个顶点连接，并且没有方向的图。

图2是本发明的敏感词检索方法中的敏感词词图F的示意图。

如图2所示，在敏感词词图F中，顶点V中分别存放了敏感词词库D中所记录的多个敏感词各自的起始字符(例如，A、I、L等)和终止字符(例如，H、F、J、K、M)。其中，也存在既作为起始字符也作为终止字符的顶点(例如B、C、D、E、L等)。另外，在敏感词词图F中，实线表示连接了各个敏感词各自的起始字符和终止字符的边F。虚线及其圆圈标号(即，①、②、③等)表示后述的终止字符优先级。

返回图1，继续说明敏感词检索方法的步骤。

接着，在检索预设值设定步骤(步骤S2)中，针对所述敏感词词图F，预设用于检索的预设值，所述预设值包括各个敏感词的敏感词长度(例如，“AXXXXXXXB”这样的敏感词，其长度为9)。

另外，为了高效地进行检索，作为优选，上述预设值还可以包括如上述图2所示的对终止字符设置的终止字符优先级。该终止字符优先级是根据由历史检索结果统计得出的每个敏感词在历史检索中出现的出现频度，而对所述敏感词词图F中的与同一起始字符相连接的终止字符设置的优先级。例如，如上述图2所示，同一起始字符“A”有两个终止字符字符“B”和“E”，由历史检索结果统计得出：在以往检索结果中，以起始字符“A”开始而以终止字符“B”结尾的敏感词出现频度高于以起始字符“A”开始而以终止字符“E”结尾的敏感词，就将终止字符“B”的终止字符优先级设定为高于终止字符“E”的终止字符优先级(例如，图2所示的虚线旁标注的“①”、“②”、“③”表示优先级为①＞②＞③)。

另外，为了能够对检索粒度进行控制，以达到提高敏感词检索效率的目的，作为优选，上述预设值还可以包括二分法运算层次，其是针对每个敏感词而设置的进行基于逐次二分法的字符串匹配法的运算时的运算层次。

图3是本领域周知的基于逐次二分法的字符串匹配法的示意图。在此，仍然以“AXXXXXXXB”这样的敏感词为例进行说明。如图3所示，对于“AXXXXXXXB”这一敏感词，通常，作为基于逐次二分法的字符串匹配法，需要进行3次(即，3层次)的二分运算，才能实现完整的字符串匹配。

在本发明中，为了达到提高敏感词检索效率，而考虑了可适当以准确率换取效率。即，还以“AXXXXXXXB”这一敏感词为例，当进行基于逐次二分法的字符串匹配法时，通过将上述二分法运算层次设定为“2”(而不是精确匹配所需要的“3”)，来进行字符串匹配的模糊匹配。这样，虽然精确度上虽有降低，但检索次数(层次)降低，通过进行这样的可控制检索粒度的检索，提高了检索效率，减轻了检索服务器的工作负担，尤其对于大量的检索内容的情况而言，是十分有利的。

返回图1，继续说明敏感词检索方法的步骤。

在检索预设值设定步骤(步骤S2)中，在创建完上述敏感词词图F且设定完用于检索的上述预设值之后，进入检索执行步骤(步骤S3)。

下面，利用图4来详细说明本发明的敏感词检索方法的检索执行步骤(步骤S3)。

图4是本发明的敏感词检索方法的检索执行步骤的流程图。如图4所示，在检索执行步骤(步骤S3)中，首先，从作为检索对象的文本T的当前首字符起逐一遍历文本字符(步骤S3-1)。接着，在上述述敏感词词图F中查找是否存在与遍历到的第一文本字符相一致的起始字符(步骤S3-2)。当查找结果为不存在(为“否”)时，返回步骤S3-1，遍历所述文本T的下一个文本字符，当查找结果为存在(为“是”)时，进入步骤S3-4(步骤S3-3)。在步骤S3-4中，在上述敏感词词图F中逐一遍历与该起始字符相连接的所有终止字符。然后，在步骤S3-5中，在上述文本T中找到从上述第一文本字符起按照所述敏感词长度计算得到的位置上的第二文本字符。然后，在步骤S3-6中，将遍历到的终止字符与上述第二文本字符相比较。当不一致(为“否”)时，返回步骤S3-4，遍历下一个终止字符，当一致(为“是”)时，进入步骤S3-8。在步骤S3-8中，启动基于逐次二分法的字符串匹配法，根据上述敏感词词库D中对应的敏感词的全部字符，判定从上述第一文本字符起到上述第二文本字符为止的文本字符是否为敏感词。当判断为不是敏感词(为“否”)时，进入步骤S3-9，进入步骤S3-11，当判断为是敏感词(为“是”)时，进入步骤S3-10。在步骤S-10中，记录下在上述文本T中找到敏感词，并以该敏感词长度计算出上述文本T中该敏感词之后的字符作为要检索的下一字符(即，上述第一文字字符)，进入步骤S3-12。在步骤S-11中，判断在上述敏感词词图F中的与上述起始字符相连接的所有终止字符是否遍历完毕，当完毕(为“是”)时，进入步骤S3-12，当未完毕(为“否”)时，返回步骤S3-4，遍历下一个终止字符。在步骤S-12中，判断该文本T的字符是否遍历完毕，当未完毕(为“否”)时，返回步骤S3-1，遍历上述文本中的下一个文本字符，当完毕(为“是”)时，文本T的敏感词检索处理结束。

此外，如上所述，当在上述检索预设值设定步骤(步骤S2)中优选地对上述预定值还设定了上述终止字符优先级的情况下，可以在检索执行步骤(步骤S3)中，在所述敏感词词图中逐一遍历与上述起始字符相连接的所有终止字符时，按上述终止字符优先级来逐次进行遍历，从而提高检索效率。

此外，如上所述，当在上述检索预设值设定步骤(步骤S2)中优选地对上述预定值还设定了上述二分法运算层次的情况下，可以在检索执行步骤(步骤S3)的步骤S3-8中，按照上述二分法运算层次来执行所述基于逐次二分法的字符串匹配法的运算，从而是检索粒度可控，并提高检索效率。

这样，根据本发明的敏感词检索方法，通过最后阶段才启动(触发)基于敏感词词库的敏感词检索，且使检索粒度可控，从而能够提高敏感词检索效率，减小敏感词词库建立的开销，减轻检索服务器的工作负担。

以上，针对本发明的任务推送方法的技术方案，以实施例为例进行了详细说明。虽然在上述的实施例中是通过软件流程的方式进行了说明，但就本领域技术人员而言，这些技术方案的一部分或全部均可以由硬件、软件或硬件与软件的组合来实现，这是不言而喻的。

以上的详细描述通过使用方框图、流程图和/或示例，已经阐述了敏感词检索方法的实施例。在这种方框图、流程图和/或示例包含一个或多个功能和/或操作的情况下，本领域技术人员应理解，这种方框图、流程图或示例中的每一功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合来单独和/或共同实现。在一个实施例中，本公开的实施例所述主题的若干部分可以通过专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、或其他集成格式来实现。然而，本领域技术人员应认识到，这里所公开的实施例的一些方面在整体上或部分地可以等同地实现在集成电路中，实现为在一台或多台计算机上运行的一个或多个计算机程序(例如，实现为在一台或多台计算机系统上运行的一个或多个程序)，实现为在一个或多个处理器上运行的一个或多个程序(例如，实现为在一个或多个微处理器上运行的一个或多个程序)，实现为固件，或者实质上实现为上述方式的任意组合，并且本领域技术人员根据本公开，将具备设计电路和/或写入软件和/或固件代码的能力。此外，本领域技术人员将认识到，本公开所述主题的机制能够作为多种形式的程序产品进行分发，并且无论实际用来执行分发的信号承载介质的具体类型如何，本公开所述主题的示例性实施例均适用。信号承载介质的示例包括但不限于：可记录型介质，如软盘、硬盘驱动器、紧致盘(CD)、数字通用盘(DVD)、数字磁带、计算机存储器等；以及传输型介质，如数字和/或模拟通信介质(例如，光纤光缆、波导、有线通信链路、无线通信链路等)。

虽然已参照典型实施例描述了本公开，但应当理解，所用的术语是说明和示例性、而非限制性的术语。由于本公开能够以多种形式具体实施而不脱离公开的精神或实质，所以应当理解，上述实施例不限于任何前述的细节，而应在随附权利要求所限定的精神和范围内广泛地解释，因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims

1.一种敏感词检索方法，在作为检索对象的文本中检索被预先设定于敏感词词库中的多个敏感词，

所述敏感词检索方法包括：

2.根据权利要求1所述的敏感词检索方法，其特征在于，

所述预设值还包括：

终止字符优先级，其是根据由历史检索结果统计得出的每个敏感词的出现频度，而对所述敏感词词图中的与同一起始字符相连接的终止字符设置的优先级，

所述出现频度越高，则所述终止字符优先级越高。

3.根据权利要求2所述的敏感词检索方法，其特征在于，

在检索执行步骤中，在所述敏感词词图中逐一遍历与所述起始字符相连接的所有终止字符时，按所述终止字符优先级逐次进行遍历。

4.根据权利要求1所述的敏感词检索方法，其特征在于，

所述预设值还包括：

二分法运算层次，其是针对每个敏感词而设置的进行所述基于逐次二分法的字符串匹配法的运算时的运算层次。

5.根据权利要求4所述的敏感词检索方法，其特征在于，

在检索执行步骤中，按照所述二分法运算层次来执行所述基于逐次二分法的字符串匹配法的运算。

6.根据权利要求1至5中任一项所述的敏感词检索方法，其特征在于，

在检索执行步骤中，当经所述字符串匹配法来判定从所述第一文本字符起到所述第二文本字符为止的文本字符是否为敏感词的判定结果为是敏感词时，记录下在所述文本中找到了敏感词，并以该敏感词长度计算出上述文本中该敏感词之后的字符作为继续遍历的下一个上述第一文本字符。