CN103678651B

CN103678651B - 一种敏感词查找方法及装置

Info

Publication number: CN103678651B
Application number: CN201310717063.4A
Authority: CN
Inventors: 何旺
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2013-12-20
Filing date: 2013-12-20
Publication date: 2017-09-15
Anticipated expiration: 2033-12-20
Also published as: CN103678651A

Abstract

本发明适用于信息安全技术领域，提供了一种敏感词查找方法，所述方法包括：获取文本信息，所述文本信息包含N个字符，N为大于0的整数；依次判断所述文本信息中分别以第K个字符为开头，第N个字符结尾的N个字符串是否与预设的敏感词库中的敏感词匹配，其中K为1至N的整数；如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配，标记匹配成功的M个字符串，M为大于等于0并且小于等于N的整数，本发明对于文本信息中敏感词交叠的情况，能够有效地避免遗漏标记敏感词的问题。

Description

一种敏感词查找方法及装置

技术领域

本发明属于信息安全技术领域，尤其涉及一种敏感词查找方法及装置。

背景技术

在互联网时代，网络为各种信息提供便捷的传播方式，也不可避免地带来了一些负面影响，如虚假新闻、色情广告、危害公共安全的言论和散布他人的个人隐私等，因此，对互联网中的信息进行筛选后才允许发布，对敏感词进行查找和过滤，以净化网络环境显得必不可少。

现有的敏感词查找方法对于敏感词交叠的情况，不能准确有效地查找到文本信息中的所有敏感词，容易遗漏。例如设置的敏感词为“轰炸”和“炸机”，进行敏感词查找的文本为“天上有一架轰炸机”，其中“轰炸机”为两个敏感词交叠而成，现有的敏感词查找方法只能在上述文本中查找到“轰炸”，然后从“机”开始往下查找，这样将查找不到“炸机”这个敏感词，造成遗漏。

发明内容

本发明的目的在于提供一种敏感词查找方法，旨在解决对敏感词交叠的情况现有的查找方法容易出现遗漏的问题。

本发明是这样实现的，一种敏感词查找方法，包括：

获取文本信息，所述文本信息包含N个字符，N为大于0的整数；

依次判断所述文本信息中分别以第K个字符为开头，第N个字符结尾的N个字符串是否与预设的敏感词库中的敏感词匹配，其中K为1至N的整数；

如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配，标记匹配成功的M个字符串，M为大于等于0并且小于等于N的整数。

本发明的另一目的在于提供一种敏感词查找装置，包括：

获取单元，用于获取文本信息，所述文本信息包含N个字符，N为大于0的整数；

匹配单元，用于依次判断所述文本信息中分别以第K个字符为开头，第N个字符结尾的的N个字符串是否与预设的敏感词库中的敏感词匹配其中K为1至N的整数；

标记单元，用于如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配，标记匹配成功的M个字符串，M为大于等于0并且小于等于N的整数。

在本发明中，获取文本信息，文本信息包含N个字符，依次判断文本信息中分别以第K个字符为开头，第N个字符结尾的N个字符串是否与预设的敏感词库中的敏感词匹配，其中K为1至N的整数，如果在该N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配，标记该M个字符串，对于文本信息中敏感词交叠的情况，能够有效地避免遗漏标记敏感词的问题。

附图说明

图1是本发明实施例一提供的敏感词查找方法的实现流程图；

图2是图1中步骤S102的具体实现流程图；

图3是图1的具体程序流程图；

图4是本发明实施例二提供的敏感词查找装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明实施例中，获取文本信息，文本信息包含N个字符，依次判断文本信息中分别以第K个字符为开头，第N个字符结尾的N个字符串是否与预设的敏感词库中的敏感词匹配，其中K为1至N的整数，如果在该N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配，标记该M个字符串，对于文本信息中敏感词交叠的情况，能够有效地避免遗漏标记敏感词的问题。

图1示出了本发明实施例一提供的敏感词查找方法的实现流程，详述如下：

在步骤S101中，获取文本信息，所述文本信息包含N个字符，N为大于0的整数。

在本发明实施例中，文本信息中包含若干个字符，字符可以是文字和标点符号等，获取文本信息的方式包括但不限于接收输入的文字和文章、搜索到网页链接和新闻等。

在步骤S102中，依次判断所述文本信息中分别以第K个字符为开头,第N个字符为结尾的N个字符串是否与预设的敏感词库中的敏感词匹配，其中K为1至N的整数。

在获取到的文本信息中，可能会出现敏感词交叠的情况。如预设的敏感词库中包含两个敏感词：“核武器”和“武器装备”，在文本信息中的一段文字为“核武器装备好了。”，出现两个敏感词交叠。

对于上述情况，为了在查找敏感词时不会造成遗漏，应依次将每一个字符为开头及其后续的字符形成的字符串与敏感词库中的敏感词进行匹配，遍历所有的可能。如文本“核武器装备好了。”中，以“核”为开头的字符串为“核武器装备好了。”、以“武”为开头的字符串为“武器装备好了。”、以“器”为开头的字符串为“器装备好了。”，以此类推，共有8个字符串，依次将这8个字符串与敏感词库中的敏感词进行匹配。匹配方式可以为：将字符串与敏感词进行逐字匹配，直到匹配到最长的敏感词为止。匹配方式还可以是逐字匹配到最短敏感词等等，匹配方式在此不做限定。

作为本发明的一个实施例，如图2所示，步骤S102具体为：

在S201中，判断以第一字符位置为开头，第N个字符结尾的第一字符串是否与预设的敏感词库中的敏感词匹配。

在S202中，判断以第二字符位置为开头，第N个字符结尾的第二字符串是否与预设的敏感词库中的敏感词匹配，所述第二字符位置为所述第一字符位置的下一个字符位置。

对第一字符串和第二字符串的判断为前后两次依次的判断，判断结果有4种组合，分别为第一字符串和第二字符串均不匹配、第一字符串不匹配而第二字符串匹配、第一字符串匹配而第二字符串不匹配、第一字符串和第二字符串均匹配。对于不同的判断结果，标记的方式不同，标记方式在步骤S103中详述。

在步骤S103中，如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配，标记匹配成功的M个字符串，M为大于等于0并且小于等于N的整数。

对于上述步骤的第二种判断结果，所述第一字符串与预设的敏感词库中的敏感词不匹配并且所述第二字符串与预设的敏感词库中的敏感词匹配，所述如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配，标记匹配成功的M个字符串包括：标记所述第二字符串的起始位置和结束位置。

对于上述步骤的第三种判断结果，所述第一字符串与预设的敏感词库中的敏感词匹配并且所述第二字符串与预设的敏感词库中的敏感词不匹配，所述如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配，标记匹配成功的M个字符串包括：标记所述第一字符串的起始位置和结束位置。

对于上述步骤的第四种判断结果，所述第一字符串与预设的敏感词库中的敏感词匹配并且所述第二字符串与预设的敏感词库中的敏感词匹配，所述如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配，标记匹配成功的M个字符串包括：标记所述第一字符串的起始位置和所述第二字符串的结束位置。

仍然以上述文本“核武器装备好了。”为例，其中字符与字符位置的对应关系如表一所示：

字符位置	1	2	3	4	5	6	7	8
									文本信息	核	武	器	装	备	好	了	。

表一

敏感词库中包含两个敏感词：“核武器”和“武器装备”，第一字符位置为1，第一字符串为“核武器装备好了。”，第二字符位置为2，第二字符串为“武器装备好了。”。

第一字符串中开头的“核武器”为敏感词，即第一字符串匹配成功，第二字符串中开头的“武器装备”为敏感词，即第二字符串也匹配成功，出现了敏感词交叠的情况，为上述第四种判断结果，将第一字符串中敏感词的起始位置1和第二字符串中敏感词的结束位置5标记出来，这样不会造成遗漏。

对于上述第二种和第三种判断结果，只有其中的一个字符串匹配成功，仅标记匹配成功的字符串中敏感词的起始位置和结束位置。对于上述第一种判断结果，不做标记。

从文本信息开头的第一次判断，即第一字符位置为1时，如果第一字符串匹配成功，则标记敏感词的起始位置和结束位置，然后再判断第二字符串，判断后的标记方式如上所述。

判断第二字符串后，第一字符位置后移，例如，上述第一字符位置后移之后，第一字符位置变为2，第一字符串变为“武器装备好了。”，第二字符位置为3，第二字符串为“器装备好了。”，此时，前述步骤已完成对第一字符串的判断，继续判断第二字符串，如果第二字符串匹配不成功则不做标记；如果第二字符串匹配成功并且第二字符位置位于已标记的敏感词的结束位置之前，标记时仅标记匹配到的敏感词的结束位置。以此循环，直至遍历完整个文本。

以下结合计算机的程序流程图进一步阐释本发明实施例的敏感词查找方法，如图3所示，程序的流程为：判断是否遍历完整个文本301，如果已遍历完，则程序结束，如果未遍历完，从当前字符位置开始匹配302，判断是否匹配到敏感词303，如果未匹配到敏感词，当前字符位置后移304，如果匹配到敏感词，判断当前字符位置是否在上一次标记的敏感词结束位置之前305，判断结果为否，标记当前匹配到的敏感词的起始位置和结束位置306，判断结果为是，标记当前匹配到的敏感词的结束位置307，然后当前字符位置后移304。

仍然沿用上述文本“核武器装备好了。”为例，具体为：

从当前字符位置1开始匹配，字符串为“核武器装备好了。”，并且该字符串匹配成功，此时，标记其中敏感词的起始位置1和结束位置3。

当前字符位置后移到2，此时第一字符位置为1，第一字符串为“核武器装备好了。”，第二字符位置为2，第二字符串为“武器装备好了。”。第一字符串的匹配结果已从前面的步骤得出，第二字符串匹配成功，并且当前字符位置2在上一次标记的敏感词的结束位置3之前，标记第二字符串匹配到的敏感词的结束位置5。对于这种敏感词交叠的情况，此步骤标记后的敏感词起始位置为1，结束位置为5。

当前字符位置后移到3，此时第一字符位置为2，第一字符串为“武器装备好了。”，第二字符位置为3，第二字符串为“器装备好了。”，第一字符串匹配成功，第二字符串匹配不成功，第一字符串匹配到的敏感词已在上述步骤标记，继续往下匹配。

当前字符位置后移到4，此时第一字符位置为3，第一字符串为“器装备好了。”，第二字符位置为4，第二字符串为“装备好了。”，第一字符串匹配不成功，第二字符串匹配不成功，不做标记。

当前字符位置继续后移，直至遍历完整个文本。上述例子中出现了第一字符串和第二字符串均匹配、第一字符串和第二字符串均不匹配、第一字符串匹配而第二字符串不匹配这3种情况，对于第一字符串不匹配而第二字符串匹配的情况，如图3所示的流程图仍然适用。

图4示出了本发明实施例二提供的敏感词查找装置的结构框图，该装置可以位于需要进行敏感词过滤的系统和需要对敏感词作突出显示的系统中，用于执行图1至图3描述的敏感词查找方法。为了便于说明，仅示出了与本实施例相关的部分。

参照图4，该装置包括：

获取单元41，获取文本信息，文本信息包含N个字符，N为大于0的整数。

匹配单元42，依次判断文本信息中分别以第K个字符为开头，第N个字符结尾的N个字符串是否与预设的敏感词库中的敏感词匹配，其中K为1至N的整数。

标记单元43，如果在N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配，标记匹配成功的M个字符串，M为大于等于0并且小于等于N的整数。

可选地，匹配单元42包括：

第一判断子单元，判断以第一字符位置为开头，第N个字符结尾的第一字符串是否与预设的敏感词库中的敏感词匹配。

第二判断子单元，判断以第二字符位置为开头，第N个字符结尾的第二字符串是否与预设的敏感词库中的敏感词匹配，第二字符位置为所述第一字符位置的下一个字符位置。

可选地，如果第一字符串与预设的敏感词库中的敏感词不匹配并且第二字符串与预设的敏感词库中的敏感词匹配，标记单元43具体用于标记第二字符串的起始位置和结束位置。

可选地，如果第一字符串与预设的敏感词库中的敏感词匹配并且第二字符串与预设的敏感词库中的敏感词不匹配，标记单元43具体用于标记第一字符串的起始位置和结束位置。

可选地，如果第一字符串与预设的敏感词库中的敏感词匹配并且第二字符串与预设的敏感词库中的敏感词匹配，标记单元43具体用于第一字符串的起始位置和第二字符串的结束位置。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种敏感词查找方法，其特征在于，所述方法包括：

依次判断所述文本信息中分别以第K个字符为开头，第N个字符结尾的N个字符串是否与预设的敏感词库中的敏感词匹配，其中K为1至N的整数；其中，所述N个字符串具体包括：所述文本信息中每一个字符为开头及其后续的字符形成的字符串；

2.如权利要求1所述的方法，其特征在于，所述依次判断所述文本信息中分别以第K个字符为开头，第N个字符结尾的N个字符串是否与预设的敏感词库中的敏感词匹配包括：

判断以第一字符位置为开头，第N个字符结尾的第一字符串是否与预设的敏感词库中的敏感词匹配；

判断以第二字符位置为开头，第N个字符结尾的第二字符串是否与预设的敏感词库中的敏感词匹配，所述第二字符位置为所述第一字符位置的下一个字符位置。

3.如权利要求2所述的方法，其特征在于，如果所述第一字符串与预设的敏感词库中的敏感词不匹配并且所述第二字符串与预设的敏感词库中的敏感词匹配，

所述如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配，标记匹配成功的M个字符串包括：

标记所述第二字符串的起始位置和结束位置。

4.如权利要求2所述的方法，其特征在于，如果所述第一字符串与预设的敏感词库中的敏感词匹配并且所述第二字符串与预设的敏感词库中的敏感词不匹配，

标记所述第一字符串的起始位置和结束位置。

5.如权利要求2所述的方法，其特征在于，如果所述第一字符串与预设的敏感词库中的敏感词匹配并且所述第二字符串与预设的敏感词库中的敏感词匹配，

标记所述第一字符串的起始位置和所述第二字符串的结束位置。

6.一种敏感词查找装置，其特征在于，所述装置包括：

匹配单元，用于依次判断所述文本信息中分别以第K个字符为开头，第N个字符结尾的的N个字符串是否与预设的敏感词库中的敏感词匹配，其中K为1至N的整数；其中，所述N个字符串具体包括：所述文本信息中每一个字符为开头及其后续的字符形成的字符串；

7.如权利要求6所述的装置，其特征在于，所述匹配单元包括：

第一判断子单元，用于判断以第一字符位置为开头，第N个字符结尾的第一字符串是否与预设的敏感词库中的敏感词匹配；

第二判断子单元，用于判断以第二字符位置为开头，第N个字符结尾的第二字符串是否与预设的敏感词库中的敏感词匹配，所述第二字符位置为所述第一字符位置的下一个字符位置。

8.如权利要求7所述的装置，其特征在于，如果所述第一字符串与预设的敏感词库中的敏感词不匹配并且所述第二字符串与预设的敏感词库中的敏感词匹配，

所述标记单元具体用于：标记所述第二字符串的起始位置和结束位置。

9.如权利要求7所述的装置，其特征在于，如果所述第一字符串与预设的敏感词库中的敏感词匹配并且所述第二字符串与预设的敏感词库中的敏感词不匹配，

所述标记单元具体用于：标记所述第一字符串的起始位置和结束位置。

10.如权利要求7所述的装置，其特征在于，如果所述第一字符串与预设的敏感词库中的敏感词匹配并且所述第二字符串与预设的敏感词库中的敏感词匹配，

所述标记单元具体用于：标记所述第一字符串的起始位置和所述第二字符串的结束位置。