CN114091436B

CN114091436B - 一种基于决策树及变体识别的敏感词检测方法

Info

Publication number: CN114091436B
Application number: CN202210072534.XA
Authority: CN
Inventors: 王飞; 田文洪; 刘文鑫
Original assignee: Wanshang Yunji Chengdu Technology Co ltd
Current assignee: Wanshang Yunji Chengdu Technology Co ltd
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-05-17
Anticipated expiration: 2042-01-21
Also published as: CN114091436A

Abstract

本发明属于自然语言处理技术领域，提供了一种基于决策树及变体识别的敏感词检测方法，方法如下，S1.构建敏感词词典并按预设周期更新，敏感词按照首字母顺序将汉字字形和对应的拼音添加至所述敏感词词典中，并根据敏感词词典构建决策树；S2.将文本输入至敏感词检测模型中，所述敏感词检测模型以所述决策树为基础通过匹配算法以及匹配标准检测文本中的敏感词，并对所述敏感词进行定位；通过本申请对字形与拼音的直接对比以及相似度对比，可有效解决未收入敏感词问题以及修改敏感词字形、拼音或英文来逃避检测的问题。

Description

一种基于决策树及变体识别的敏感词检测方法

技术领域

本发明涉及自然语言处理技术领域，具体而言，涉及一种基于决策树及变体识别的敏感词检测方法。

背景技术

随着互联网时代的发展与繁荣，海量网络资源使得人们获取信息、生活交流、消费理财等变得越来越方便快捷。但是人们在享受着互联网带来的便利的同时，也有不少人利用互联网信息传播快速广泛的特点，在网上发布各种色情、暴力、反动、迷信等非法信息，这给人们尤其是青少年带来了巨大的危害，也给社会带来了诸多的不良影响。

为了应对这种问题，不少的互联网公司以及公共信息管理部门，每时每刻都在对发布在互联网上的信息进行审查与过滤。但是由于互联网上的数据量庞大，人工审查费时费力，只能作为一种辅助手段，使用在文本内容十分严肃且重要的场合。因此基于自然语言处理的敏感信息文本自动检测方法成为研究热点。

现有的研究中，依然存在较多的问题需要解决，如仅对敏感词的汉字或拼音进行直接对比，对汉字和拼音的变体情况考虑较少，导致敏感词的过滤准确率较低等；本申请期望解决当前研究中较为突出的问题，提供一种敏感词查全率、查准率更高的方法。

发明内容

本发明的目的在于提供一种基于决策树及变体识别的敏感词检测方法，其通过对字形与拼音的直接对比以及相似度对比，有效解决未收入敏感词问题以及修改敏感词字形、拼音或英文来逃避检测的问题。

本发明的实施例通过以下技术方案实现：

一种基于决策树及变体识别的敏感词检测方法，包括如下步骤：

S1.构建敏感词词典并按预设周期更新，敏感词按照首字母顺序将汉字字形和对应的拼音添加至所述敏感词词典中，并根据敏感词词典构建决策树；

S2.将文本输入至敏感词检测模型中，所述敏感词检测模型以所述决策树为基础通过匹配算法以及匹配标准检测文本中的敏感词，并对所述敏感词进行定位。

进一步的，所述敏感词的定位具体为，所述敏感词的位置使用元组表示，所述元组的第一位为所述敏感词在文本中的起始位置，所述元组的第二位为所述敏感词在文本中的结束位置。

进一步的，所述敏感词定位后还包括，将所述敏感词与定位以字典的形式保存，其中所述字典的键值为所述敏感词，所述键值对应的值为对应所述敏感词的定位元组。

进一步的，所述决策树的结构具体为，通过类结构表示各节点，类中属性包括汉字字符、英文字符串、结束位、当前节点的下一级节点，所述汉字字符用于存储节点对应的汉字，所述英文字符串用于存储汉字的拼音和\或英文敏感词；类中的方法包括查找指定汉字的下一级节点以及查找指定拼音的下一级节点。

进一步的，所述根据敏感词构建决策树包括如下步骤：

S11.在决策树的根节点下构建二十六个目录节点，二十六个所述目录节点依次对应字母A至Z；

S12.根据所述敏感词的首字母进入至对应的所述目录节点中，构建首字母节点并插入目录节点中，进入首字母节点；

S13.遍历所述敏感词中的每一个字，若当前节点下未包含当前被判断字则进行步骤S14，否则进行步骤S15；

S14.将被判断字及其拼音作为内容构建子节点，插入当前节点的子节点集，若所述被判断字为所述敏感词的最后一个字，将节点结束位开启，结束遍历，否则进入该子节点并执行S13判断下一个字；

S15.进入当前子节点，若所述被判断字为所述敏感词的最后一个字，将节点结束位开启，结束遍历，否则继续执行S13判断下一个字。

进一步的，所述敏感词检测模型所采用的检测算法包括如下步骤：

S21. 以输入文本中首字或选择输入文本中的一个字作为起点进行判断；

S22.根据被判断字的首字母在所述决策树对应的目录节点下寻找对应的子节点，若在目录节点中寻找到对应的子节点则执行步骤S23，否则以当前被判断字之后的第一个字作为被判断字继续执行步骤S22直到遍历并判断完输入文本；

S23.进入匹配状态，保存被判断字在文本中的位置作为进入位置，并进入目录节点中对应的子节点，并以进入位置之后的第一个字作为被判断字；

S24.在当前子节点下，寻找被判断字对应的下一级子节点，若在当前子节点下寻找到对应的下一级子节点，进入步骤S25，否则退出所述匹配状态，返回所述进入位置，以进入位置之后的第一个字作为被判断字继续执行步骤S22；

S25.判断当前子节点中结束位是否开启，若结束位开启，则退出匹配状态并记录退出位置、敏感词以及位置信息，并以退出位置之后的第一个字作为被判断字执行步骤S22；否则以当前被判断字之后的第一个字作为被判断字继续执行步骤S24。

进一步的，所述位置信息包括进入位置信息与退出位置信息。

进一步的，所述S2中的匹配标准具体如下：

当待检测字符为汉字时，若能在决策树的节点中找到与其完全相同的汉字则匹配成功；若不能找到完全相同的汉字但在决策树的节点中找到完全相同的拼音则匹配成功；当汉字与拼音均不能匹配成功，则判断待检测字符与决策树的节点中汉字的字形相似度以及拼音的拼音相似度，若字形相似度与拼音相似度均高于预设阈值，则匹配成功；

当待检测字符为英文时，则将连续的英文字符构建为英文字符串进行匹配，若该英文字符串与决策树的节点中的拼音完全相同则匹配成功，否则判断该英文字符串与决策树的节点中拼音的拼音相似度，当拼音相似度高于预设阈值时则匹配成功。

进一步的，所述字形相似度的计算具体如式（1）所示，

（1）

其中，w₁表示待检测汉字的拆分体，w₂表示决策树的节点中汉字的拆分体，d为w₁和w₂的编辑距离。

进一步的，所述拼音相似度的计算具体如式（2）所示，

（2）

其中，p ₁表示待检测汉字的拼音，p ₂表示决策树的节点中汉字的拼音，D为p ₁和p ₂的编辑距离，D_final为p ₁和p ₂的韵母的编辑距离，当p ₁和p ₂的声母首字母相同时，x为0，不同时，x为1，α和β表示权重。

本发明实施例的技术方案至少具有如下优点和有益效果：

（1）本发明针对的传统DFA算法的状态存储进行了扩展，使用决策树存储DFA的每一个状态，决策树的目录节点可以快捷的定位到敏感词开始匹配的初始状态，不需要遍历整个DFA首状态，从而优化了算法的时间复杂度；

（2）对决策树的内容进行了扩展，传统决策树中，每个节点只包含了汉字没有拼音，针对目前互联网上常常使用同音字替换或者拼音替换来躲避敏感词检测的情况，我们在决策树的节点中增加了拼音信息，并且可以根据拼音来进行匹配，从而提高了敏感词检测的准确度；

（3）对敏感词匹配算法进行了扩展，现有敏感词匹配算法只是对汉字、拼音或英文进行直接对比，对汉字、拼音和英文的变体情况考虑不到位，而本发明设计出了针对汉字、拼音或英文变体的相似度计算算法，可以有效解决未收入敏感词问题以及修改敏感词字形、拼音或英文来逃避检测的问题。

附图说明

图1为本发明提供的基于决策树及变体识别的敏感词检测方法的流程示意图；

图2为本发明提供的基于决策树及变体识别的敏感词检测方法的决策树结构示意图；

图3为本发明提供的基于决策树及变体识别的敏感词检测方法中决策树构建过程的流程图；

图4为本发明提供的基于决策树及变体识别的敏感词检测方法中匹配算法的流程图；

图5为本发明提供的基于决策树及变体识别的敏感词检测方法中匹配标准的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

首先，对本申请中的敏感词与决策树做相关说明，具体如下：

敏感词的定位具体为，所述敏感词的位置使用元组表示，所述元组的第一位为所述敏感词在文本中的起始位置，所述元组的第二位为所述敏感词在文本中的结束位置。

敏感词定位后还包括，将所述敏感词与定位以字典的形式保存，其中所述字典的键值为所述敏感词，所述键值对应的值为对应所述敏感词的定位元组。

决策树的结构具体为，通过类结构表示各节点，类中属性包括汉字字符、英文字符串、结束位、当前节点的下一级节点，所述汉字字符用于存储节点对应的汉字，所述英文字符串用于存储汉字的拼音和\或英文敏感词；类中的方法包括查找指定汉字的下一级节点以及查找指定拼音的下一级节点。

需要说明的是，由于决策树的节点层级是根据敏感词长度所决定的，因此决策树的节点层级并不固定，所以在本申请中对各节点层级并不以第一节点层、第二节点层或第N节点层来命名，本申请中所描述的下一级节点都是基于当前所在节点的下一级节点。

由于现有技术中基本仅对敏感词的汉字或拼音进行直接对比，对汉字和拼音的变体情况考虑较少，导致敏感词的过滤准确率较低，以及修改敏感词字形、拼音或英文来逃避检测的问题。

因此本申请期望提供一种基于决策树及变体识别的敏感词检测方法来解决上述问题，如图1所示，该方法包括如下步骤：

S1.构建敏感词词典并按预设周期更新，敏感词按照首字母顺序将汉字字形和对应的拼音添加至所述敏感词词典中，并根据敏感词词典构建决策树。

如图2展示的决策树结构，本实施例中根据敏感词构建决策树具体包括如下步骤：

可以知晓的是，敏感词的更新同样采用上述步骤实现；本申请针对的传统DFA算法的状态存储进行了扩展，使用决策树存储DFA的每一个状态，决策树的目录节点可以快捷的定位到敏感词开始匹配的初始状态，不需要遍历整个DFA首状态，从而优化了算法的时间复杂度；另外在传统决策树中，每个节点只包含了汉字没有拼音，针对目前互联网上常常使用同音字替换或者拼音替换来躲避敏感词检测的情况，我们通过对决策树的内容进行扩展，在决策树的节点中增加了拼音信息，从而可以根据拼音来进行匹配，进而提高敏感词检测的准确度。

上述步骤的判断流程如图3所示。

其中，敏感词检测模型所采用的检测算法包括如下步骤：

需要明确的是，所述位置信息包括进入位置信息与退出位置信息。

上述步骤的匹配流程如图4所示。

匹配标准具体如下：

现有敏感词匹配算法只是对汉字、拼音或英文进行直接对比，对汉字、拼音和英文的变体情况考虑不到位，而本发明通过对敏感词匹配算法进行扩展，设计出了针对汉字、拼音或英文变体的相似度计算算法，可以有效解决未收入敏感词问题以及修改敏感词字形、拼音或英文来逃避检测的问题。

上述具体的匹配标准逻辑流程如图5所示。

对于字形相似度的计算，具体如式（1）所示，

（1）

其中，w₁表示待检测汉字的拆分体的长度，w₂表示决策树的节点中汉字的拆分体的长度，d为w₁和w₂的编辑距离，max函数表示待检测汉字的拆分体的长度与决策树的节点中汉字的拆分体的长度中较大的数值。

其中编辑距离如式（3）所示；

(3)

其中，d[i][j]表示w₁第i位与w₂第j位的编辑距离，

表示第i位待检测汉字的拆分体的长度，

表示第j位决策树的节点中汉字的拆分体的长度，s为常数，当w₁第i位和w₂第j位相同时s取值为1，当w₁第i位和w₂第j位不同时s取值为0，当w₁和w₂的长度都为0时，它们的编辑距离为0，min函数表示w₁前i-1位与w₂前j位的编辑距离加1、w₁前i位与w₂前j-1位的编辑距离加1、w₁前i-1位与w₂前j-1位的编辑距离加s中的最小值，max函数表示w₁第i位和w₂第j位的汉字拆分体长度的最大值。

对于拼音相似度的计算具体如式（2）所示，

（2）

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于决策树及变体识别的敏感词检测方法，其特征在于，包括如下步骤：

S1.构建敏感词词典并按预设周期更新，敏感词按照首字母顺序将汉字字形和对应的拼音添加至所述敏感词词典中，并根据敏感词词典构建决策树；所述决策树的结构具体为，通过类结构表示各节点，类中属性包括汉字字符、英文字符串、结束位、当前节点的下一级节点，所述汉字字符用于存储节点对应的汉字，所述英文字符串用于存储汉字的拼音和\或英文敏感词；类中的方法包括查找指定汉字的下一级节点以及查找指定拼音的下一级节点；

S2.将文本输入至敏感词检测模型中，所述敏感词检测模型以所述决策树为基础通过匹配算法以及匹配标准检测文本中的敏感词，并对所述敏感词进行定位；所述匹配算法包括如下步骤：

S25.判断当前子节点中结束位是否开启，若结束位开启，则退出匹配状态并记录退出位置、敏感词以及位置信息，并以退出位置之后的第一个字作为被判断字执行步骤S22；否则以当前被判断字之后的第一个字作为被判断字继续执行步骤S24；

所述匹配标准具体如下：

当待检测字符为英文时，则将连续的英文字符构建为英文字符串进行匹配，若该英文字符串与决策树的节点中的拼音完全相同则匹配成功，否则判断该英文字符串与决策树的节点中拼音的拼音相似度，当拼音相似度高于预设阈值时则匹配成功；

其中，所述字形相似度的计算具体如式（1）所示，

（1）

其中，w₁表示待检测汉字的拆分体的长度，w₂表示决策树的节点中汉字的拆分体的长度，d为w₁和w₂的编辑距离，max函数表示待检测汉字的拆分体长度与决策树的节点中汉字的拆分体的长度中最大的数值；

所述拼音相似度的计算具体如式（2）所示，

（2）

2.根据权利要求1所述的基于决策树及变体识别的敏感词检测方法，其特征在于，所述敏感词的定位具体为，所述敏感词的位置使用元组表示，所述元组的第一位为所述敏感词在文本中的起始位置，所述元组的第二位为所述敏感词在文本中的结束位置。

3.根据权利要求2所述的基于决策树及变体识别的敏感词检测方法，其特征在于，所述敏感词定位后还包括，将所述敏感词与定位以字典的形式保存，其中所述字典的键值为所述敏感词，所述键值对应的值为对应所述敏感词的定位元组。

4.根据权利要求1所述的基于决策树及变体识别的敏感词检测方法，其特征在于，所述根据敏感词构建决策树包括如下步骤：

5.根据权利要求1所述的基于决策树及变体识别的敏感词检测方法，其特征在于，所述位置信息包括进入位置信息与退出位置信息。