CN105260357A

CN105260357A - 基于哈希有向图的敏感词检查方法和设备

Info

Publication number: CN105260357A
Application number: CN201510661282.4A
Authority: CN
Inventors: 李中林
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2015-10-14
Filing date: 2015-10-14
Publication date: 2016-01-20
Anticipated expiration: 2035-10-14
Also published as: CN105260357B

Abstract

本发明提供了一种基于哈希有向图(HSDG)的敏感词检查方法和设备，HSDG包括敏感词集有向图(SDG)和由SDG中入度为0的节点组织成的哈希表。通过将待检文本与HSDG进行匹配检测，来检查待检文本中的敏感词。

Description

基于哈希有向图的敏感词检查方法和设备

技术领域

本发明总体上涉及敏感词检查，更具体地，涉及一种基于哈希有向图的敏感词检查方法和设备。

背景技术

随着互联网时代的到来，自由、共享、创新的互联网精神深深地影响着人们的生活和工作。互联网用户在网络上可以自由地获取知识、传播思想，而这一过程中最主要的方式是通过文字(互联网上亦称为文本)进行交流。相对于传统信息沟通交流方式(如信件、短信等)，由于网络文本服务具有内容丰富、互动性强、实时性强的特点，被越来越多的网络用户使用。

基于文本的网络服务如即时通讯工具、社区论坛、电子商务、博客微博等网络服务已经渗透到社会的各个领域。然而，网民有意或无意会发布一些未经核实或者包含不良内容的信息，这些内容不但违反相关地区国家的法律法规，也极大的损害了公众利益，破坏了互联网环境。为了遵守法律法规和维护净化互联网环境，越来越多的网络服务或应用集成了关键词/敏感词过滤功能，其在网络文本服务中发挥着不可替代的作用。要保证网络文本服务的质量，提高用户的体验，希望网络文本服务平台在提供服务时具有较快的请求响应速度。因此，设计一个高效、准确度高的过滤检查方式是非常重要且必要的。

常见的敏感词检查过滤有以下两种方式。第一种是字典检查方式(如图1所示)，这种方式主要将敏感词库的敏感词与待测文本进行逐一匹配，直到匹配完成为止。第二种方式是正则检查方式，这种方式是将敏感词库的所有词组构造成一个正则表达式，然后将正则表达式作用到文本消息，进而进行匹配检查。

字典检查方式需要反复将敏感词库中的敏感词与文本或者文本中可能出现的词组进行对比匹配，这种重复多次执行词库查找匹配大大地增加了时间消耗。对于正则检查方式，为了匹配出具体敏感词，正则表达式需要采用分组模式。JAVA正则表达式采用递归下降方式进行模式的编译处理，而另一方面，正则查找采用了子串贪婪方式进行查找，其时间效率随着待检文本长度和敏感词库的敏感词数量的增加而大大降低。

发明内容

本发明的一个方面提供了一种基于哈希有向图HSDG的敏感词检查方法，用于检查输入文本T＝(t₁，t₂，...t_k)中的敏感词，t₁～t_k依次表示T中的各个字符，k是不小于1的整数，该方法包括：

在步骤S1：扫描T中的第i个字符t_i，i≥1，i初始值为1；

在步骤S2：判断字符t_i是否在存在于HSDG的哈希表中，若存在，则执行步骤S3，否则i＝i+1，执行S1；

在步骤S3：对于T中的第j个字符t_j，在SDG(t_i)中执行字符广度优先搜索匹配算法，j的初始值为i+1，算法处理如下：

1)如果SDG(t_i)中节点t_j-1没有子节点，则记录(t_i，...t_j-1)到R中，i＝j，执行S1；

2)如果SDG(t_i)中节点t_j-1有子节点但其子节点与t_j不匹配时，则i＝j，执行S1；以及

3)其他情况下，则扫描第j+1个字符，若j+1＞k，则执行S4，否则继续执行S3；以及

在步骤S4：返回记录到检查结果集R，

其中，HSDG包括敏感词集有向图SDG和由SDG中入度为0的节点组织成的哈希表，SDG(t_i)是SDG中以节点t_i为父节点的子图。

本发明的另一个方面还提供了一种基于哈希有向图HSDG的敏感词检查设备，用于检查输入文本T＝(t₁，t₂，...t_k)中的敏感词，t_l～t_k依次表示T中的各个字符，k是不小于1的整数，该设备包括：

第一装置，用于扫描T中的第i个字符t_i，i≥1，i初始值为1；

第二装置，用于判断字符t_i是否在存在于HSDG的哈希表中，若存在，则操作第三装置，否则i＝i+1，操作第一装置；

第三装置，用于对于T中的第j个字符t_j，在SDG(t_i)中执行字符广度优先搜索匹配算法，j的初始值为i+1，算法处理如下：

1)如果SDG(t_i)中节点t_j-1没有子节点，则记录(t_i，...t_j-1)到R中，i＝j，操作第一装置；

2)如果SDG(t_i)中节点t_j-1有子节点但其子节点与t_j不匹配时，则i＝j，操作第一装置；以及

3)其他情况下，则扫描第j+1个字符，若j+1＞k，则操作第四装置，否则继续操作第三装置；以及

第四装置，用于返回记录到检查结果集R，

附图说明

为了更完整地理解本发明及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了敏感词的字典检查方式；

图2示意性示出了根据本发明实施例的基于哈希有向图的敏感词检查设备的结构框图；

图3示意性示出了根据本发明实施例的敏感词集有向图；

图4示意性示出了根据本发明实施例的具有限定的敏感词集有向图；

图5示意性示出了根据本发明实施例的哈希有向图；以及

图6示意性示出了根据本发明实施例的基于哈希有向图的敏感词检查方法的流程图。

贯穿附图，相同参考数字应理解为指示相同部分、部件和结构。

具体实施方式

根据结合附图对本发明示例性实施例的以下详细描述，本发明的其它方面、优势和突出特征对于本领域技术人员将变得显而易见。

在本发明中，术语“包括”和“含有”及其派生词意为包括而非限制；术语“或”是包含性的，意为和/或。

在本说明书中，下述用于描述本发明原理的各种实施例只是说明，不应该以任何方式解释为限制发明的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。下述描述包括多种具体细节来帮助理解，但这些细节应认为仅仅是示例性的。因此，本领域普通技术人员应认识到，在不背离本发明的范围和精神的情况下，可以对本文中描述的实施例进行多种改变和修改。此外，为了清楚和简洁起见，省略了公知功能和结构的描述。此外，贯穿附图，相同参考数字用于相似功能和操作。

图2示意性示出了根据本发明实施例的基于哈希有向图的敏感词检查设备200的结构框图。如图2所示，该设备200包括预处理装置210、哈希有向图存储装置220和敏感词检测装置230。待检文本通过预处理装置220处理，得到处理后文本，由敏感词检测装置230将处理后文本与哈希有向图存储装置220中存储的敏感词哈希有向图进行匹配，以检测文本中的敏感词。

以下具体说明各装置的操作。

预处理装置210

待检文本的长度在很大程度上影响着敏感词过滤的时间效率，文本长度越短检测时间越短。大多数网络文本内容含有大量的特殊字符包括语义字符、助词等不构成敏感词的字符或者单字单词。在本发明中，预处理装置210将文本中的这些字符或者单字单词剔除掉，以缩短待测文本的长度。例如：“ABBCDDE”，其中C是语气助词，D、E是语义字符，通过文本预处理后，待测文本长度由7缩短为3。通过文本预处理能够有效地缩短待测文本的长度，避免待检文本的全文匹配，而这一过程时间开销是很小的。

哈希有向图存储装置220

哈希有向图存储装置220用于存储基于哈希表的敏感词有向图表达(HSDG)。词组的字符排列顺序影响着词组的具体语义，例如“ABC”和“CBA”表达的语义是截然不同的，进一步而言，词组具有矢量特点。为了方便描述，定义敏感词为由一个或者多个字符按照一定顺序组成的词组。在不同的语义环境中敏感词有不同的表现形式，例如在中文语义下由一个或多个单字组成的词组，在英文语义下是由一个或多个英文字符组成的单词或短语。

由于词组的矢量性，敏感词集合S可以由有向图来表达(如图3所示)，称其为敏感词集有向图(SensitiveWordsDirectedGraph，SDG)。有向图SDG中的每一条有向路径(a₁，a₂，...a_n)即是一个敏感词表达。图3中的a～h、j、k、m和n表示特定语义环境中的字符，也称为节点。节点x的子节点数称为x的敏感度，敏感度为0的节点称为叶子节点，敏感度大于0的节点称为非叶节点；节点x的父节点数称节点x的入度。有向路径(a₁，a₂，...a_n)的长度称为敏感词长度；以节点x为父节点的子图用SDG(x)表示。如果一个词组A标记为敏感词，且文本T中包含词组A，那么则称文本T含有敏感词A。由此可以得出一个推论：如果字符序列(a₁，a₂，...a_n)定义为敏感词表达，并且(a₁，a₂，...a_n)是字符序列(b₁，b₂，...b_m)的子序列，即其中m≥n≥1，那么字符序列(b₁，b₂，...b_m)是敏感词表达。为使SDG的组成节点更精简，同时也能保证其完整的包含敏感词集合的语义，根据推论本文限定：SDG中不存在一条有向路径是敏感词表达，而其子路径也是敏感词表达。例如：敏感词集合S＝{abc，abe，abcd}，根据限定，其SDG如图4所示。

假设：敏感词集合S的敏感词有向图表达为SDG，待测文本T＝(t₁，t₂，...t_k)，其中k≥1。进一步假设，如果待测文本T中存在敏感词其中(k≥j≥i≥1，A∈S)，那么SDG中必然存在一条路径p＝(a_j，...a_j)∈SDG，且节点a_i的入度为0，a_j是敏感度为0的叶子节点。换而言之，待测文本中存在敏感词，则这些敏感词的首字符在SDG中一定是入度为0的父节点，为了快速定位待测文本中的字符是敏感词首字符，本文将SDG中入度为0的节点组织为一个哈希表，哈希表中元素a与SDG(a)进行一对一关联，那么敏感词集合S进一步可以表示为基于哈希表的有向图-简称哈希有向图(HashtableSensitiveWordsDirectedGraph，HSDG)，如图5所示。

敏感词检测装置230

装置230的输入文本为T＝(t₁，t₂，...t_k)，敏感词集合为S，输出敏感词检测结果集R。该装置的主要处理流程为如下方法：

该方法开始于步骤S0。

在步骤S1：扫描T中的第i个字符t_i，i≥1，i初始值为1；

在步骤S2：判断字符t_i是否在存在于HSDG的哈希表中，若存在，则执行S3，否则：i＝i+1，执行S1；

在步骤S3：对于T中的第j个字符t_j(其中j＞i)，初始值为i+1，在SDG(t_i)中执行字符广度优先搜索匹配算法，算法处理如下：

1)如果SDG(t_i)中节点t_j-1没有子节点，则记录(t_i，...t_j-1)到R中，i＝j，执行S1。

2)如果SDG(t_i)中节点t_j-1有子节点但其子节点与t_j不匹配时，则i＝j，执行S1。

3)其他情况下，则扫描第j+1个字符，若j+1＞k，则执行S4，否则继续执行S3。

在步骤S4：返回记录到检查结果集R。

该方法在步骤S5结束。

对于本装置输出的敏感词检测结果集R，可以结合应用场景，对文本消息中的相应敏感词进行屏蔽、替换操作。

优选地，输入文本T为待检文本经过预处理装置210处理后的文本。

本发明的预处理装置210和敏感词检测装置230可以通过有计算能力的电子设备(例如CPU)执行包含计算机指令的软件来实现。这些软件可以存储在计算机可读存储介质中。计算机可读存储介质存储一个或多个程序(软件模块)，所述一个或多个程序包括指令，当电子设备中的一个或多个处理器执行所述指令时，所述指令使得电子设备执行本发明的方法。

这些软件可以存储为易失性存储器或非易失性存储装置的形式(比如类似ROM等存储设备)，不论是可擦除的还是可重写的，或者存储为存储器的形式(例如RAM、存储器芯片、设备或集成电路)，或者被存储在光可读介质或磁可读介质上(比如，CD、DVD、磁盘或磁带等等)。应该意识到，存储设备和存储介质是适于存储一个或多个程序的机器可读存储装置的实施例，所述一个程序或多个程序包括指令，当所述指令被执行时，实现本发明的实施例。实施例提供程序和存储这种程序的机器可读存储装置，所述程序包括用于实现本发明的任何一项权利要求所述的装置或方法的代码。此外，可以经由任何介质(比如，经由有线连接或无线连接携带的通信信号)来电传递这些程序，多个实施例适当地包括这些程序。

根据本发明的实施例，敏感词检测装置230可以实现为包括：

第一装置，用于扫描T中的第i个字符t_i，i≥1，i初始值为1；

2)如果SDG(t_j)中节点t_j-1有子节点但其子节点与t_j不匹配时，则i＝j，操作第一装置；以及

第四装置，用于返回记录到检查结果集R。

本发明提出的基于HSDG的敏感词检查装置的技术方案能够快速高效的定位到文本中的敏感信息。在本方案中提出了敏感词集合的基于哈希表的敏感词有向图(HSDG)的存储表达方案以及字符SDG广度优先搜索匹配处理算法，避免了敏感词库的全量查找。由于HSDG中各级节点之间的关系采用哈希表存储，因而本发明中文本检查算法复杂度为o(l)，其中l为文本的长度。相对于现有的字典检查方式，其复杂度o(n)，n为敏感词集合S的元素个数，当n＞＞l时，本发明方案具有明显的优势。另一方面本发明提出的HSDG敏感词集合存储表达方案，由于裁剪了不必要的敏感词信息，减少了SDG的节点个数，不但减少了匹配搜索时间，还有效的节省存储空间。

尽管已经参照本发明的特定示例性实施例示出并描述了本发明，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本发明的精神和范围的情况下，可以对本发明进行形式和细节上的多种改变。因此，本发明的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种基于哈希有向图HSDG的敏感词检查方法，用于检查输入文本T＝(t₁，t₂，...t_k)中的敏感词，t₁～t_k依次表示T中的各个字符，k是不小于1的整数，该方法包括：

在步骤S1：扫描T中的第i个字符t_i，i≥1，i初始值为1；

在步骤S3：对于T中的第j个字符t_j，在SDG(t₁)中执行字符广度优先搜索匹配算法，j的初始值为i+1，算法处理如下：

在步骤S4：返回记录到检查结果集R，

2.根据权利要求1所述的方法，其中：

敏感词集有向图SDG包括至少一条有向路径；

每条有向路径包括至少一个节点，每个节点为特定语义中的一个字符；

每个节点的父节点数称为该节点的入度；以及

每条有向路径对应于一个敏感词表达。

3.根据权利要求2所述的方法，其中：

SDG中不存在一条有向路径是敏感词表达，而其子路径也是敏感词表达。

4.根据权利要求1所述的方法，还包括：在对文本T进行敏感词检查之前，对文本T进行预处理，以去除不构成敏感词的字符。

5.根据权利要求4所述的方法，其中不构成敏感词的字符包括语义字符和/或助词。

6.一种基于哈希有向图HSDG的敏感词检查设备，用于检查输入文本T＝(t₁，t₂，...t_k)中的敏感词，t₁～t_k依次表示T中的各个字符，k是不小于1的整数，该设备包括：

第一装置，用于扫描T中的第i个字符t_i，i≥1，i初始值为1；

第四装置，用于返回记录到检查结果集R，

7.根据权利要求6所述的设备，其中：

敏感词集有向图SDG包括至少一条有向路径；

每个节点的父节点数称为该节点的入度；以及

每条有向路径对应于一个敏感词表达。

8.根据权利要求7所述的设备，其中：

9.根据权利要求6所述的设备，还包括用于在对文本T进行敏感词检查之前，对文本T进行预处理，以去除不构成敏感词的字符的装置。

10.根据权利要求9所述的设备，其中不构成敏感词的字符包括语义字符和/或助词。