CN108182246B

CN108182246B - 敏感词检测过滤方法、装置和计算机设备

Info

Publication number: CN108182246B
Application number: CN201711463856.2A
Authority: CN
Inventors: 赵耕弘; 崔朝辉; 赵立军; 张霞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2020-10-30
Anticipated expiration: 2037-12-28
Also published as: CN108182246A

Abstract

本申请公开了一种敏感词检测过滤方法、装置和计算机设备，其中，方法包括：获取检测文本，获取检测文本每个字符的拼音；将检测文本首字符拼音与预设的敏感词数据结构中的索引入口拼音节点进行比较；若比较获知存在与首字符拼音相同的入口拼音节点，则将检测文本首字符拼音之后的剩余字符拼音按照顺序依次与入口拼音节点对应的敏感拼音节点进行比较；若比较获知存在与剩余字符拼音相同的敏感拼音节点，则根据拼音相同的敏感拼音节点个数和检测文本字符总数判断检测文本是否满足预设的敏感词条件阈值；若判断获知满足敏感词条件阈值，则确定检测文本为变形敏感词。由此，实现了对变形敏感词的识别，提高了敏感词检测的速度和准确性。

Description

敏感词检测过滤方法、装置和计算机设备

技术领域

本申请涉及字符检测技术领域，尤其涉及一种敏感词检测过滤方法、装置和计算机设备。

背景技术

随着互联网的发展，和web2.0时代的到来，对事件发表评论是每个网民应得的权利，也是网民在对一些事件、新闻等文章表达自己意见与看法的重要手段。但是为了保证网上环境的健康等，通常会通过一些途径监管网民对一些文章的评论，对于一些敏感词语以及虚假信息做一些过滤等相关信息。

相关技术中，通过敏感词表的形式机械的对词表中出现的词进行检测，但是这种方式的敏感词检测通常会存在一个最大的问题就是这种程序的检测敏感词的能力完全取决于词表中包含的相关词数量，一些变种敏感词如果未列在词表中，则无法被检测到，比如，一些不良网民通常会通过一些特殊符号或者字母等代替敏感词中某个字，从而导致敏感词无法被检测到。

申请内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种敏感词检测过滤方法，实现了对变形敏感词的识别，提高了敏感词检测的速度和准确性。

本申请的第二个目的在于提出一种敏感词检测过滤装置。

本申请的第三个目的在于提出一种计算机设备。

本申请的第四个目的在于提出一种非临时性计算机可读存储介质。

为了实现上述目的，本申请第一方面实施例提出了一种敏感词检测过滤方法，包括：获取检测文本，获取所述检测文本每个字符的拼音；将所述检测文本首字符拼音与预设的敏感词数据结构中的索引入口拼音节点进行比较；若比较获知存在与所述首字符拼音相同的入口拼音节点，则将所述检测文本首字符拼音之后的剩余字符拼音按照顺序依次与所述入口拼音节点对应的敏感拼音节点进行比较；若比较获知存在与所述剩余字符拼音相同的敏感拼音节点，则根据拼音相同的敏感拼音节点个数和所述检测文本字符总数判断所述检测文本是否满足预设的敏感词条件阈值；若判断获知满足所述敏感词条件阈值，则确定所述检测文本为变形敏感词。

本申请实施的敏感词检测过滤方法，获取检测文本，获取检测文本每个字符的拼音，将检测文本首字符拼音与预设的敏感词数据结构中的索引入口拼音节点进行比较，若比较获知存在与首字符拼音相同的入口拼音节点，则将检测文本首字符拼音之后的剩余字符拼音按照顺序依次与入口拼音节点对应的敏感拼音节点进行比较，进而，若比较获知存在与剩余字符拼音相同的敏感拼音节点，则根据拼音相同的敏感拼音节点个数和检测文本字符总数判断检测文本是否满足预设的敏感词条件阈值，最终若判断获知满足敏感词条件阈值，则确定检测文本为变形敏感词。由此，实现了对变形敏感词的识别，提高了敏感词检测的速度和准确性。

另外，根据本申请上述实施例的敏感词检测过滤方法，还具有如下附加的技术特征：

在本申请一个实施例中，所述根据拼音相同的敏感拼音节点个数和所述检测文本字符总数判断所述检测文本是否满足预设的敏感词条件阈值，包括：计算所述拼音相同的敏感拼音节点个数与所述检测文本字符总数的比值；判断所述比值是否满足预设的与所述敏感词字符总数对应的敏感词条件阈值，若判断获知满足所述敏感词条件阈值，则确定所述检测文本为变形敏感词。

在本申请一个实施例中，在所述获取检测文本之后，还包括：如果所述检测文本的起始字符为乱码字符，获取乱码字符个数；将所述乱码字符之后的文本字符拼音作为所述检测文本首字符拼音；所述根据拼音相同的敏感拼音节点个数和所述检测文本字符总数判断所述检测文本是否满足预设的敏感词条件阈值，包括：根据所述乱码字符个数、所述拼音相同的敏感拼音节点个数和所述检测文本字符总数判断所述检测文本是否满足预设的敏感词条件阈值。

在本申请一个实施例中，所述根据所述乱码字符个数、所述拼音相同的敏感拼音节点个数和所述检测文本字符总数判断所述检测文本是否满足预设的敏感词条件阈值，包括：对所述拼音相同的敏感拼音节点个数和所述乱码字符个数求和，获取敏感字符总数，计算所述敏感字符总数与所述检测文本字符总数的比值；判断所述比值是否满足预设的与所述敏感词字符总数对应的敏感词条件阈值，若判断获知满足所述敏感词条件阈值，则确定所述检测文本为变形敏感词。

在本申请一个实施例中，还包括：将预设的敏感词字符转换成拼音；依次将每个字符拼音作为索引入口拼音节点，并以当前作为索引入口拼音节点的字符拼音为起始节点，将剩余字符拼音作为所述起始节点的敏感拼音节点建立所述敏感词数据结构。

为了实现上述目的，本申请第二方面实施例提出的一种敏感词检测过滤装置，包括：获取模块，用于获取检测文本，获取所述检测文本每个字符的拼音；第一比较模块，用于将所述检测文本首字符拼音与预设的敏感词数据结构中的索引入口拼音节点进行比较；第二比较模块，用于在比较获知存在与所述首字符拼音相同的入口拼音节点时，将所述检测文本首字符拼音之后的剩余字符拼音按照顺序依次与所述入口拼音节点对应的敏感拼音节点进行比较；判断模块，用于在比较获知存在与所述剩余字符拼音相同的敏感拼音节点时，根据拼音相同的敏感拼音节点个数和所述检测文本字符总数判断所述检测文本是否满足预设的敏感词条件阈值；处理模块，用于在判断获知满足所述敏感词条件阈值时，确定所述检测文本为变形敏感词。

本申请实施的敏感词检测过滤装置，获取检测文本，获取检测文本每个字符的拼音，将检测文本首字符拼音与预设的敏感词数据结构中的索引入口拼音节点进行比较，若比较获知存在与首字符拼音相同的入口拼音节点，则将检测文本首字符拼音之后的剩余字符拼音按照顺序依次与入口拼音节点对应的敏感拼音节点进行比较，进而，若比较获知存在与剩余字符拼音相同的敏感拼音节点，则根据拼音相同的敏感拼音节点个数和检测文本字符总数判断检测文本是否满足预设的敏感词条件阈值，最终若判断获知满足敏感词条件阈值，则确定检测文本为变形敏感词。由此，实现了对变形敏感词的识别，提高了敏感词检测的速度和准确性。

另外，根据本申请上述实施例的敏感词检测过滤装置，还具有如下附加的技术特征：

在本申请的一个实施例中，所述判断模块包括：计算单元，用于计算所述拼音相同的敏感拼音节点个数与所述检测文本字符总数的比值；判断单元，用于判断所述比值是否满足预设的与所述敏感词字符总数对应的敏感词条件阈值；所述处理模块，还用于在判断获知满足所述敏感词条件阈值时，确定所述检测文本为变形敏感词。

在本申请的一个实施例中，所述获取模块包括：获取单元，用于在所述检测文本的起始字符为乱码字符时，获取乱码字符个数；处理单元，用于将所述乱码字符之后的文本字符拼音作为所述检测文本首字符拼音；所述判断模块，还用于根据所述乱码字符个数、所述拼音相同的敏感拼音节点个数和所述检测文本字符总数判断所述检测文本是否满足预设的敏感词条件阈值。

为了实现上述目的，本申请第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，执行一种如上述实施例所述的敏感词检测过滤方法。

为了实现上述目的，本申请第四方面实施例提出了一种非临时性计算机可读存储介质，当存储介质中的指令由处理器被执行时，使得能够执行如上述实施例所述的敏感词检测过滤方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请一个实施例的敏感词检测过滤方法的流程图；

图2(a)是根据本申请一个实施例的敏感词检测过滤方法的应用场景示意图；

图2(b)是根据本申请另一个实施例的敏感词检测过滤方法的应用场景示意图；

图2(c)是根据本申请又一个实施例的敏感词检测过滤方法的应用场景示意图；

图2(d)是根据本申请再一个实施例的敏感词检测过滤方法的应用场景示意图；

图3是根据本申请另一个实施例的敏感词检测过滤方法的流程图；

图4是根据本申请又一个实施例的敏感词检测过滤方法的流程图；

图5是根据本申请一个实施例的敏感词检测过滤装置的结构示意图；

图6是根据本申请另一个实施例的敏感词检测过滤装置的结构示意图；

图7是根据本申请又一个实施例的敏感词检测过滤装置的结构示意图；以及

图8是根据本申请一个实施例的计算机设备的框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的敏感词检测过滤方法、装置和计算机设备。

图1是根据本申请一个实施例的敏感词检测过滤方法的流程图，如图1所示，该敏感词检测过滤方法包括：

步骤101，获取检测文本，获取检测文本每个字符的拼音。

可以理解，现有技术中，为了避免敏感词被检测到，可能会对敏感词进行字形变换，比如，通过一些特殊的符号、字母等代替敏感词中的某个字，比如将敏感词“山本太郎”更改为“山本大郎”等。

然而，申请人发现，即使敏感词中的某个字被伪装处理，但是伪装处理后的整个敏感词和敏感词之间的发音是较为相似的，比如敏感词“山本太郎”和处理后的敏感词“山本大郎”之间的发音就比较相似，又比如敏感词“牛逼”和处理后的敏感词“牛哔”的发音就比较相似等。

本申请中通过识别检测文本和敏感词之间的字音的相似性来确定出变形后的敏感词，以提高敏感词识别的全面性和准确性。

在本申请的实施例中通过字符的拼音识别字符的发音，具体地，获取检测文本，获取检测文本每个字符的拼音，以便于进一步根据每个字符的拼音判断出检测文本中和敏感词中的字发音相近的字。

可以理解的是，在不同的应用场景下，获取检测文本的方式不同，在一些场景下，当检测文本为一段文字形式的评论信息时，直接获取该评论信息对应的文本作为检测文本，当检测文本存在于图像中时，可以通过ORC识别的方式将图像中的文字转换为文本以获取检测文本等，在一些场景下，当检测文本为语音形式时，可以通过语音识别的方式将语音转换为文本以获取检测文本等。

步骤102，将检测文本首字符拼音与预设的敏感词数据结构中的索引入口拼音节点进行比较。

可以理解，在本申请的实施例中，预先建立敏感词数据结构，该数据结构由敏感词的各个字符对应的各个拼音节点组成，其中，该敏感词数据结构中分别以每个字符作为初始拼音节点，根据敏感词中的字符顺序将每个字符后续的字符拼音按照顺序依次串联在对应字符的拼音后形成多个由敏感词对应的字符拼音组成的路径，每个路径中的初始节点即为索引入口拼音节点，这种索引入口中拼音节点的限制方式，限定了本申请中确定的伪装的敏感词和敏感词相同发音的字符顺序是一致的，避免了敏感词的误判，比如，这种敏感词的数据结构会将检测文本“牛哔”确定为与敏感词“牛逼”的变形，但是不会将检测文本“比牛”确定为与敏感词“牛逼”的变形。

具体地，在本申请的实施例中，将检测文本首字符拼音与预设的敏感词数据结构中的索引入口拼音节点进行比较，以确定出识别当前检测文本的路径。

其中，在一些可能的实施例中，在构建该敏感词的敏感词数据结构时，将预设的敏感词字符转换成拼音，依次将每个字符拼音作为索引入口拼音节点，并以当前作为索引入口拼音节点的字符拼音为起始节点，将剩余字符拼音作为起始节点的敏感拼音节点建立敏感词数据结构。

为了更加清楚的说明本申请实施例的敏感词数据结构，下面以一种可能的示例进行举例，其中，在本示例中，包含的预设的敏感词为购物应用中为了维护良好的竞争环境所设置的“全国第一”：

则参照图2(a)，将“全国第一”提交系统后，将其转换为拼音“quan guo di yi”，进而，参照图2(b)，分别将字符拼音“quan”、“guo”、“di”、“yi”作为索引入口拼音节点，分别以“quan”、“guo”、“di”、“yi”字符拼音为起始节点，将其对应的剩余字符拼音作为起始节点的敏感拼音节点建立敏感词数据结构，其中继续参照图2(b)，该敏感词数据结构中包含的路径分别为“quan guo di yi”、“guo di yi”、“di yi”、“yi”。

另外，需要强调的是，本申请实施例的敏感词数据结构可扩展性比较强，可以应对敏感词的灵活变动，当出现新的敏感词与原有的敏感词存在发音相同的字符时，可以依赖于原有的敏感词数据结构进行灵活扩展，仅仅需要添加新的敏感词新的字符拼音节点即可，由此，在一定程度上精简了敏感词数据结构，提高了系统处理效率，便于提高敏感词的识别速度。

继续以上述场景为例说明，当新的敏感词为“全国敌对方”时，则在图2(b)所示的敏感词数据结构的基础上，如图2(c)所示，利用原有的和新的敏感词相同的字符拼音节点“quan guo di”后，增加原来敏感词数据结构中不存在的新的字符拼音节点“dui fang”，并依据相同的构建原理，将“dui fang”添加在对应的路径中。

当然，如果新的敏感词与原有的敏感词不存在发音相同的字符时，需要添加新的敏感词全部的字符拼音节点，新的敏感词的敏感词数据结构的构建方式可参照上述“全国第一”的敏感词数据结构的构建方式。

举例而言，当新的敏感词为“质量最优”时，如果原有的敏感词的字符拼音节点没有与当前新的敏感词相同的字符拼音节点，则以同样的方式构建“质量最优”的敏感词数据结构，如图2(d)所示，将“质量最优”转换成拼音后，依次将每个字符拼音作为索引入口拼音节点，并以当前作为索引入口拼音节点的字符拼音为起始节点，将剩余字符拼音作为起始节点的敏感拼音节点建立敏感词数据结构。

应当理解的是，预设的敏感词数据结构中包含了大量的敏感词数据结构，以供准确检测出检测文本中的变形敏感词。

步骤103，若比较获知存在与首字符拼音相同的入口拼音节点，则将检测文本首字符拼音之后的剩余字符拼音按照顺序依次与入口拼音节点对应的敏感拼音节点进行比较。

具体地，正如以上分析的，预设的敏感词数据结构中每个路径中的拼音节点按顺序排列，因而，在本申请的实施例中，若比较获知存在与首字符拼音相同的入口拼音节点，则将检测文本首字符拼音之后的剩余字符拼音按照顺序依次与入口拼音节点对应的敏感拼音节点进行比较，以检测当前检测文本中与敏感词的相同发音的字符的个数。

比如，当检测文本对应的字符拼音为“quan”、“yuan”、“di”、“yi”时，比较获知存在与首字符拼音相同的入口拼音节点为“quan”，以拼音节点为“quan”为起始节点的路径为“quan-guo-di-yi”、则依次将检测文本对应的第二个字符拼音“yuan”与“quan-guo-di-yi”中的第二个字符拼音“guo”比较，将检测文本对应的第三个字符拼音“di”与“quan-guo-di-yi”中的第三个字符拼音“di”比较，将检测文本对应的第四个字符拼音“yi”与“quan-guo-di-yi”中的第四个字符拼音“yi”比较。

又比如，当检测文本对应的字符拼音为“guo”、“jia”、“yuan”、“shou”，比较获知存在与首字符拼音相同的入口拼音节点为“guo”，比较获知存在与首字符拼音相同的入口拼音节点为“guo”，以拼音节点为“guo”为起始节点的路径为“guo-di-yi”、则依次将检测文本对应的第二个字符拼音“jia”与“guo-di-yi”中的第二个字符拼音“di”比较，将检测文本对应的第三个字符拼音“yuan”与“guo-di-yi”中的第三个字符拼音“yi”比较。需要强调的是，上述示例仅仅是为了清楚的说明将检测文本首字符拼音之后的剩余字符拼音按照顺序依次与入口拼音节点对应的敏感拼音节点进行比较的实施方式，实际上，由于预设的敏感词数据结构中包含了录入的大量的敏感词的数据结构，因而，可以保证检测文本中的伪装敏感词可以匹配到对应的入口拼音节点为和以拼音节点为起始节点的路径。

步骤104，若比较获知存在与剩余字符拼音相同的敏感拼音节点，则根据拼音相同的敏感拼音节点个数和检测文本字符总数判断检测文本是否满足预设的敏感词条件阈值。

步骤105，若判断获知满足敏感词条件阈值，则确定检测文本为变形敏感词。

具体地，若比较获知存在与剩余字符拼音相同的敏感拼音节点，也并不意味着，当前检测文本即为对应敏感词的变形，比如，检测文本“游动示意”和敏感词“游行示威”中虽然存在拼音相同的字符“you”和“shi”，但是显然“游动示意”不是“游行示威”的伪装变形。

具体而言，为了提高敏感词确定的准确性，在本申请的实施例中，若比较获知存在与剩余字符拼音相同的敏感拼音节点，则根据拼音相同的敏感拼音节点个数和检测文本字符总数判断检测文本是否满足预设的敏感词条件阈值，进而，若判断获知满足敏感词条件阈值，则确定检测文本为变形敏感词。

需要说明的是，根据应用场景的不同，根据拼音相同的敏感拼音节点个数和检测文本字符总数判断检测文本是否满足预设的敏感词条件阈值的实现方式不同，示例说明如下：

作为一种可能的示例，如图3所示，根据拼音相同的敏感拼音节点个数和检测文本字符总数判断检测文本是否满足预设的敏感词条件阈值的方法可包括：

步骤201，计算拼音相同的敏感拼音节点个数与检测文本字符总数的比值。

步骤202，判断比值是否满足预设的与敏感词字符总数对应的敏感词条件阈值，若判断获知满足敏感词条件阈值，则确定检测文本为变形敏感词。

其中，本示例中的敏感词条件阈值可以理解为一定的比例值，当拼音相同的敏感拼音节点个数与检测文本字符总数的比值大于该敏感词条件阈值，则判定为检测文本为敏感词的变形。

举例而言，当敏感词条件阈值为50％时，检测文本对应的字符拼音“quan guo weiyi”与敏感词对应的字符拼音“quan guo di yi”的拼音相同的敏感拼音节点个数与检测文本字符总数的比值为75％大于50％，从而确定检测文本为变形敏感词。

需要强调的是，在实际应用中，检测到的伪装敏感词后，还可根据应用场景的需要进行伪装敏感词的过滤、提醒、封号等操作，在此不一一列举。

上述实施例主要集中在伪装敏感词与敏感词的识别上进行描述，为了更加清楚的说明本申请实施例的敏感词检测过滤方法，下面结合一整段包含伪装敏感词的检测文本的检测过程进行描述。

在本示例中，检测文本包含“快看牛哔的占斗民族又要搞事情了”，预设的敏感词的数据结构中包含由敏感词“牛逼”和“战斗民族”的字符拼音组成的敏感词数据结构。

具体而言，获取检测文本后，获取检测文本每个字符的拼音后为“kuai kan niubi de zhan dou min zu you yao gao shi qing le”，将检测文本“kuai kan niu bi dezhan dou min zu you yao gao shi qing le”的首字母“kuai”与预设的敏感词数据结构中的索引入口拼音节点进行比较，没有找到与之匹配的索引入口拼音节点，进而，将剩余的检测文本“kan niu bi de zhan dou min zu you yao gao shi qing le”中的首字母“kan”与预设的敏感词数据结构中的索引入口拼音节点进行比较，没有找到与之匹配的索引入口拼音节点，进而，将剩余的检测文本“niu bi de zhan dou min zu you yao gaoshi qing le”中的首字母“niu”与预设的敏感词数据结构中的索引入口拼音节点进行比较，获知存在与索引入口拼音节点中相同的检测文本中的首字符拼音为“niu”，则将“niu”之后的字符拼音“bi”与索引入口拼音节点“niu”确定的路径后的拼音“bi”进行比较，比较结果相同，从而确定检测文本中“niu bi”对应的字符为伪装敏感词，进而，继续将剩余的检测文本的字符拼音“de zhan dou min zu you yao gao shi qing le”与索引入口中的拼音节点进行比较，获知存在与索引入口拼音节点中相同的检测文本中的新的首字符拼音为“zhan”，依据同样的检测原理，获取到与索引入库中的拼音节点“zhan”对应的路径“zhandou min zu”中的拼音节点匹配的检测文本中的另一个伪装敏感词为“zhan dou min zu”对应的字符，进一步的，继续将剩余的检测文本的字符拼音“you yao gao shi qing le”与索引入口中的拼音节点进行比较，获知不存在与索引入口拼音节点中相同的检测文本中的新的首字符拼音，由此，该文本的伪装敏感词检测完成。

由此，本申请实施例的敏感词检测过滤方法，基于字符拼音进行识别，通过细化识别的粒度，将识别限定在拼音上，有效解决了当前网络上用同音字、或者个别字符替换的方式伪装敏感词的情况。

综上所述，本申请实施的敏感词检测过滤方法，获取检测文本，获取检测文本每个字符的拼音，将检测文本首字符拼音与预设的敏感词数据结构中的索引入口拼音节点进行比较，若比较获知存在与首字符拼音相同的入口拼音节点，则将检测文本首字符拼音之后的剩余字符拼音按照顺序依次与入口拼音节点对应的敏感拼音节点进行比较，进而，若比较获知存在与剩余字符拼音相同的敏感拼音节点，则根据拼音相同的敏感拼音节点个数和检测文本字符总数判断检测文本是否满足预设的敏感词条件阈值，最终若判断获知满足敏感词条件阈值，则确定检测文本为变形敏感词。由此，实现了对变形敏感词的识别，提高了敏感词检测的速度和准确性。

由于在实际应用中，可能检测文本中初始字符为乱码字符等无法获取索引入口中的起始节点，这种情况下，为了提高识别的准确率，可以预先对检测文本进行去噪，避免一些噪音字符的干扰。

具体地，图4是根据本申请又一个实施例的敏感词检测过滤方法的流程图，如图4所示，在获取检测文本后，该敏感词检测过滤方法还包括：

步骤301，如果检测文本的起始字符为乱码字符，获取乱码字符个数。

可以理解，检测文本中如果包含大量的乱码字符，则可能该检测文本即为乱码不能传播敏感词对应语义信息，而当检测文本中如果包含少量的乱码字符，比如，4个字符中有一个乱码字符等，则认为该检测文本为敏感词的伪装变形，在本实施例中，如果检测文本的起始字符为乱码字符，获取乱码字符个数，以便于根据乱码字符个数初步确定当前检测文本是否可能是敏感词的伪装变形。

步骤302，将乱码字符之后的文本字符拼音作为检测文本首字符拼音。

具体地，为了便于根据本申请中的敏感词数据结构中的拼音节点识别检测文本，将乱码字符之后的文本字符拼音作为检测文本首字符拼音，以便于根据乱码字符之后的文本字符拼音寻找到对应的索引入口。

步骤303，根据乱码字符个数、拼音相同的敏感拼音节点个数和检测文本字符总数判断检测文本是否满足预设的敏感词条件阈值。

步骤304，若判断获知满足敏感词条件阈值，则确定检测文本为变形敏感词。

正如以上分析的，乱码字符个数、拼音相同的敏感拼音节点个数和检测文本字符总数均是考量检测文本是否为敏感词的伪装的参考因素，因而，在本申请的实施例中，根据乱码字符个数、拼音相同的敏感拼音节点个数和检测文本字符总数判断检测文本是否满足预设的敏感词条件阈值。

作为一种可能的实现方式，对拼音相同的敏感拼音节点个数和乱码字符个数求和，获取敏感字符总数，计算敏感字符总数与检测文本字符总数的比值，判断比值是否满足预设的与敏感词字符总数对应的敏感词条件阈值，若判断获知满足敏感词条件阈值，则确定检测文本为变形敏感词。

其中，本示例中的敏感词条件阈值可以理解为一定的比例值，当拼音相同的敏感拼音节点个数与乱码字符个数之和与检测文本字符总数的比值大于该敏感词条件阈值，则判定为检测文本中即使考量了乱码字数额数的影响，该检测文本与敏感词发音也较为一致，判定当前检测文本为敏感词的变形。

综上所述，本申请实施例的敏感词检测过滤方法，在获取检测文本之后，如果检测文本的起始字符为乱码字符，获取乱码字符个数，将乱码字符之后的文本字符拼音作为检测文本首字符拼音，进而，根据乱码字符个数、拼音相同的敏感拼音节点个数和检测文本字符总数判断检测文本是否满足预设的敏感词条件阈值，若判断获知满足敏感词条件阈值，则确定检测文本为变形敏感词。由此，实现了检测文本中包含乱码字符时变形敏感词的识别，进一步提高了敏感词识别的全面性和准确性。

为了实现上述实施例，本申请还提出一种敏感词检测过滤装置，图5是根据本申请一个实施例的敏感词检测过滤装置的结构示意图，如图5所示，该敏感词检测过滤装置包括：获取模块100、第一比较模块200、第二比较模块300、判断模块400和处理模块500。

其中，获取模块100，用于获取检测文本，获取检测文本每个字符的拼音。

第一比较模块200，用于将检测文本首字符拼音与预设的敏感词数据结构中的索引入口拼音节点进行比较。

第二比较模块300，用于在比较获知存在与首字符拼音相同的入口拼音节点时，将检测文本首字符拼音之后的剩余字符拼音按照顺序依次与入口拼音节点对应的敏感拼音节点进行比较。

判断模块400，用于在比较获知存在与剩余字符拼音相同的敏感拼音节点时，根据拼音相同的敏感拼音节点个数和检测文本字符总数判断检测文本是否满足预设的敏感词条件阈值。

处理模块500，用于在判断获知满足敏感词条件阈值时，确定检测文本为变形敏感词。

在本申请的一个实施例中，如图6所示，判断模块400包括计算单元410和判断单元420。

其中，计算单元410，用于计算拼音相同的敏感拼音节点个数与检测文本字符总数的比值。

判断单元420，用于判断比值是否满足预设的与敏感词字符总数对应的敏感词条件阈值。

进一步地，处理模块500还用于在判断获知满足敏感词条件阈值时，确定检测文本为变形敏感词。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

图7是根据本申请又一个实施例的敏感词检测过滤装置的结构示意图，如图7所示，在如图5所示的基础上，获取模块100包括获取单元110、处理单元120。

其中，获取单元110，用于在检测文本的起始字符为乱码字符时，获取乱码字符个数。

处理单元120，用于将乱码字符之后的文本字符拼音作为检测文本首字符拼音。

进一步地，判断模块400，还用于根据乱码字符个数、拼音相同的敏感拼音节点个数和检测文本字符总数判断检测文本是否满足预设的敏感词条件阈值。

综上所述，本申请实施例的敏感词检测过滤装置，在获取检测文本之后，如果检测文本的起始字符为乱码字符，获取乱码字符个数，将乱码字符之后的文本字符拼音作为检测文本首字符拼音，进而，根据乱码字符个数、拼音相同的敏感拼音节点个数和检测文本字符总数判断检测文本是否满足预设的敏感词条件阈值，若判断获知满足敏感词条件阈值，则确定检测文本为变形敏感词。由此，实现了检测文本中包含乱码字符时变形敏感词的识别，进一步提高了敏感词识别的全面性和准确性。

为了实现上述实施例。本申请还提出了一种计算机设备，图8示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图8显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

为了实现上述实施例，本申请还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前述实施例所述的敏感词检测过滤方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种敏感词检测过滤方法，其特征在于，包括：

将预设的敏感词字符转换成拼音；

依次将每个字符拼音作为索引入口拼音节点，并以当前作为索引入口拼音节点的字符拼音为起始节点，将所述起始节点后的所有剩余字符拼音作为所述起始节点的敏感拼音节点建立敏感词数据结构；

获取检测文本，获取所述检测文本每个字符的拼音；

将所述检测文本首字符拼音与预设的所述敏感词数据结构中的索引入口拼音节点进行比较；

若比较获知存在与所述首字符拼音相同的入口拼音节点，则将所述检测文本首字符拼音之后的剩余字符拼音按照顺序依次与所述入口拼音节点对应的敏感拼音节点进行比较；

若比较获知存在与所述剩余字符拼音相同的敏感拼音节点，则根据拼音相同的敏感拼音节点个数和所述检测文本字符总数判断所述检测文本是否满足预设的敏感词条件阈值；

若判断获知满足所述敏感词条件阈值，则确定所述检测文本为变形敏感词。

2.如权利要求1所述的方法，其特征在于，所述根据拼音相同的敏感拼音节点个数和所述检测文本字符总数判断所述检测文本是否满足预设的敏感词条件阈值，包括：

计算所述拼音相同的敏感拼音节点个数与所述检测文本字符总数的比值；

判断所述比值是否满足预设的与所述敏感词字符总数对应的敏感词条件阈值，若判断获知满足所述敏感词条件阈值，则确定所述检测文本为变形敏感词。

3.如权利要求1所述的方法，其特征在于，在所述获取检测文本之后，还包括：

如果所述检测文本的起始字符为乱码字符，获取乱码字符个数；

将所述乱码字符之后的文本字符拼音作为所述检测文本首字符拼音；

所述根据拼音相同的敏感拼音节点个数和所述检测文本字符总数判断所述检测文本是否满足预设的敏感词条件阈值，包括：

根据所述乱码字符个数、所述拼音相同的敏感拼音节点个数和所述检测文本字符总数判断所述检测文本是否满足预设的敏感词条件阈值。

4.如权利要求3所述的方法，其特征在于，所述根据所述乱码字符个数、所述拼音相同的敏感拼音节点个数和所述检测文本字符总数判断所述检测文本是否满足预设的敏感词条件阈值，包括：

对所述拼音相同的敏感拼音节点个数和所述乱码字符个数求和，获取敏感字符总数，计算所述敏感字符总数与所述检测文本字符总数的比值；

5.一种敏感词检测过滤装置，其特征在于，包括：

构建模块，用于将预设的敏感词字符转换成拼音，

获取模块，用于获取检测文本，获取所述检测文本每个字符的拼音；

第一比较模块，用于将所述检测文本首字符拼音与预设的所述敏感词数据结构中的索引入口拼音节点进行比较；

第二比较模块，用于在比较获知存在与所述首字符拼音相同的入口拼音节点时，将所述检测文本首字符拼音之后的剩余字符拼音按照顺序依次与所述入口拼音节点对应的敏感拼音节点进行比较；

判断模块，用于在比较获知存在与所述剩余字符拼音相同的敏感拼音节点时，根据拼音相同的敏感拼音节点个数和所述检测文本字符总数判断所述检测文本是否满足预设的敏感词条件阈值；

处理模块，用于在判断获知满足所述敏感词条件阈值时，确定所述检测文本为变形敏感词。

6.如权利要求5所述的装置，其特征在于，所述判断模块包括：

计算单元，用于计算所述拼音相同的敏感拼音节点个数与所述检测文本字符总数的比值；

判断单元，用于判断所述比值是否满足预设的与所述敏感词字符总数对应的敏感词条件阈值；

所述处理模块，还用于在判断获知满足所述敏感词条件阈值时，确定所述检测文本为变形敏感词。

7.如权利要求5所述的装置，其特征在于，所述获取模块包括：

获取单元，用于在所述检测文本的起始字符为乱码字符时，获取乱码字符个数；

处理单元，用于将所述乱码字符之后的文本字符拼音作为所述检测文本首字符拼音；

所述判断模块，还用于根据所述乱码字符个数、所述拼音相同的敏感拼音节点个数和所述检测文本字符总数判断所述检测文本是否满足预设的敏感词条件阈值。

8.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-4中任一项所述的敏感词检测过滤方法。

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-4中任一项所述的敏感词检测过滤方法。