CN110851590A

CN110851590A - 一种通过敏感词检测与非法内容识别进行文本分类的方法

Info

Publication number: CN110851590A
Application number: CN201910859082.8A
Authority: CN
Inventors: 马祥祥; 张校源
Original assignee: Shanghai Eisoo Information Technology Co Ltd
Current assignee: Shanghai Eisoo Information Technology Co Ltd
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2020-02-28
Also published as: US20230015054A1; WO2021047341A1

Abstract

本发明涉及一种通过敏感词检测与非法内容识别进行文本分类的方法，包括：步骤1：获取待测文本，然后同时执行步骤2和步骤3；步骤2：通过AC自动机进行敏感词检测，然后执行步骤4；步骤3：通过循环神经网络模型进行非法内容识别，然后执行步骤6；步骤4：判断文本中是否含有敏感词汇，若是，则执行步骤5，否则，返回步骤3；步骤5：文本含有敏感词汇，根据敏感词汇判断文本类别；步骤6：判断文本中是否含有非法内容，若是，则执行步骤7，否则执行步骤8；步骤7：文本含有非法内容，根据非法内容判断文本类别；步骤8：文本不含有非法内容；步骤9：结束本轮处理逻辑。与现有技术相比，本发明具有准确率高、效率高、扩展性强等优点。

Description

一种通过敏感词检测与非法内容识别进行文本分类的方法

技术领域

本发明涉及文本分析技术领域，尤其是涉及一种通过敏感词检测与非法内容识别进行文本分类的方法。

背景技术

在文本分析领域，文本分类一直是研究的重点，更多地研究对象时普通文本的分类，比如财经、娱乐、体育等类别，对非法或政治敏感的文章研究比较少。在文本分类领域有传统的及其学习算法，比如SVM、KNN、随机森林等，还有近几年比较流行的神经网络分类方法，通过文本特征词利用算法构建模型，对文本进行分类，但是也只能对文本给出一个概率值，并没有根据某一个词就可以判定为某类文章。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种通过敏感词检测与非法内容识别进行文本分类的方法。

本发明的目的可以通过以下技术方案来实现：

一种通过敏感词检测与非法内容识别进行文本分类的方法，包括以下步骤：

步骤1：获取待测文本，然后同时执行步骤2和步骤3；

步骤2：通过AC自动机进行敏感词检测，然后执行步骤4；

步骤3：通过循环神经网络模型进行非法内容识别，然后执行步骤6；

步骤4：判断文本中是否含有敏感词汇，若是，则执行步骤5，否则，返回步骤3；

步骤5：文本含有敏感词汇，根据敏感词汇判断文本类别，然后执行步骤9；

步骤6：判断文本中是否含有非法内容，若是，则执行步骤7，否则执行步骤 8；

步骤7：文本含有非法内容，根据非法内容判断文本类别，然后执行步骤9；

步骤8：文本不含有非法内容，然后执行步骤9；

步骤9：结束本轮处理逻辑。

优选地，所述步骤2的具体步骤为：

步骤2-1：根据敏感词词典创建trie树；

步骤2-2：在trie树上添加fail指针。

优选地，所述的步骤3的具体步骤为：

步骤3-1：对文本进行预处理，然后执行步骤3-2；

步骤3-2：通过完成训练的循环神经网络模型进行非法内容检测。

优选地，所述步骤3-1中的预处理具体为文本的分词处理。

优选地，所述步骤3-2中循环神经网络模型的训练具体为：

步骤3-2-1：根据非法词库对带有标签的训练文本进行向量化操作；

步骤3-2-2：将带有标签的文本向量输入循环神经网络进行训练，输出训练好的循环神经网络模型。

优选地，所述的步骤3-2-2中的文本向量具体为训练文本中所包含的非法词库中词的词频向量。

优选地，所述步骤5具体为：根据敏感词词典判断敏感词所属类别。

优选地，所述步骤7具体为：通过循环神经网络对文本分类进行打分，分数超过设定值的类别即为文本类别。

与现有技术相比，本发明具有以下优点：

一、准确率高：本发明将敏感词检测和非法内容识别结合到一起，平滑了敏感词检测分类的绝对性，也增强了利用非法内容识别的概率性，提高了分类的准确率。

二、效率高：本发明首先通过敏感词检测对文本进行分类，然后判断是否需要进行非法内容的识别，提高了文本分类过程的效率。

三、扩展性强：本发明中的敏感词词典可使用自带词典也可通过自定义创建，增强了本发明的扩展性。

附图说明

图1为本发明的流程图；

图2为本发明实施例中trie树的结构示意图；

图3为本发明实施例中trie树和fail指针的结构示意图；

图4为本发明实施例中的匹配路径的结构示意图；

图5为本发明中循环神经网络进行非法内容识别的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

步骤1：获取待测文本，然后同时执行步骤2和步骤3；

步骤2：通过AC自动机进行敏感词检测，然后执行步骤4；

步骤8：文本不含有非法内容，然后执行步骤9；

步骤9：结束本轮处理逻辑。

在步骤2中利用AC自动机进行敏感词检测时，首先需要利用敏感词词典创建trie树，本实施例中，以[共青团、团长、青年]多个词词典为例创建trie树，如图2 所示，trie树最大的作用是储存字典里的词，只是表达的方式是以树的形式存在；然后在trie树的基础上再添加fail指针，如图3所示。

敏感词词典可以通过用户自定义创建，也可以使用自带词典。

实施例1

当传入一个字符串，如“我是一名共青团的团员”，可以匹配出共青团，匹配路径如图4所示，具体匹配过程如下：根节点的子节点只有‘共’、‘团’和‘青’字，遍历传入字符串“我是一名共青团的团员”，前四个字符‘我’‘是’‘一’‘名’都不符合，直到‘共’匹配上，‘共’的下一个节点有‘产’和‘青’，可匹配上‘青’，‘青’的下一个节点是‘团’，当匹配到‘团’后已经是这个路径的最大长度，词典中有‘共青团’这个词，可以匹配出‘共青团’，然后跳转到‘团’的fail指针位置，但是“我是一名共青团的团员”中‘团’的下一个字符是‘的’，所以‘团’ fail指针指向根节点，最终匹配出‘共青团’。

在步骤3中通过循环神经网络进行非法文本检测时主要分为两部分，如图5 所示，一个是模型训练，另一个是使用完成训练的模型进行非法内容检测。

模型的训练需要词典及带标签的训练数据，词典包括的词要尽量多，要包含非法词，也可包含一些正常词；训练数据带的标签要准确，可以通过人工标注的方式对训练数据进行打标签，从而保证准确性；模型训练利用词典查找到的训练数据中每篇文章所包含的词库里的词频向量作为输入向量进行训练。

实施例2

(1)训练参数

词典：{非法、政治、反动、禁止、合法}

训练文本：“某网站是一个非法网站,包含很多政治反动的内容,是我国禁止访问的网站”。

(2)训练预处理

文本标签：[0,1,0,0]([1,0,0,0]表示正常文本，[0,1,0,0]表示政治反动文本，[0,0,1,0] 表示色情文本，[0,0,0,1]表示其他文本)

文本向量：[1,1,1,1,0](第一个数字1代表词典中'非法'在文本中出来1次，第二个数字1表示词典中'政治'在文本中出现1此，以此类推)

(3)模型训练

把带有标签的文本向量输入循环神经网络中进行学习，输出一个训练好的模型。

(4)模型应用

模型训练完成后，即可通过图5中步骤进行非法内容检测，最终对一个文本进行分类打分，分数较高的类别即为此文本类别。

可根据以上打分结果的分数判断文章为涉政文章。

实施例3

一、对敏感词检测的测试：

1、测试文本

测试文本数量	涵盖内容	其他说明
			3944篇	时政、体育、娱乐等新闻	爬取网络新闻

2、测试敏感词词典：[“XX”：“政治敏感”,

“XXX”：“政治敏感”，

“XXX”：“政治敏感”]

3、测试结果：

4、结果说明

利用敏感词检测功能可以准确的识别出文本里含有的敏感词，利用识别出来的敏感词判断文章为政治敏感文章，设置其他类别敏感词也可准确识别出来，并判断相应类别。

二、对非法内容识别分类的测试：

1、模型创建：

在本发明的方法中，敏感词检测不需要创建模型，只编写代码即可，非法内容识别分类需要创建模型，创建模型用到的数据有：

数据类型	正常文本	政治反动	色情	其他
					数量(篇)	67265	25971	2886	11549

2、测试

2.1测试文本：

2.2测试结果：

模型	准确率	精确率	召回率	F1值
					分类模型	0.9852	0.9803	0.9984	0.992

2.3说明：

准确率、精确率、召回率和F1值定义说明：

介绍各个指标之前，看一下混淆矩阵。假如现在有一个二分类问题，那么预测结果和实际结果两两结合会出现如下四种情况。

由于用数字1、0表示不太方便阅读，我们转换一下，用T(True)代表正确、F(False)代表错误、P(Positive)代表1、N(Negative)代表0。先看预测结果(P|N)，然后再针对实际结果对比预测结果，给出判断结果(T|F)。按照上面逻辑，重新分配后为

TP、FP、FN、TN可以理解为

TP：预测为1，实际为1，预测正确。

FP：预测为1，实际为0，预测错误。

FN：预测为0，实际为1，预测错误。

TN：预测为0，实际为0，预测正确。

准确率：预测正确的结果占总样本的百分比，表达式为

精确率：针对预测结果而言的，其含义是在被所有预测为正的样本中实际为正样本的概率，表达式为

召回率：针对原样本而言的，其含义实在实际为正的样本中被预测为正样本的概率，表达式为

F1分数表达式为

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种通过敏感词检测与非法内容识别进行文本分类的方法，其特征在于，所述的文本分类方法包括以下步骤：

步骤1：获取待测文本，然后同时执行步骤2和步骤3；

步骤2：通过AC自动机进行敏感词检测，然后执行步骤4；

步骤6：判断文本中是否含有非法内容，若是，则执行步骤7，否则执行步骤8；

步骤8：文本不含有非法内容，然后执行步骤9；

步骤9：结束本轮处理逻辑。

2.根据权利要求1所述的一种通过敏感词检测与非法内容识别进行文本分类的方法，其特征在于，所述步骤2的具体步骤为：

步骤2-1：根据敏感词词典创建trie树；

步骤2-2：在trie树上添加fail指针。

3.根据权利要求1所述的一种通过敏感词检测与非法内容识别进行文本分类的方法，其特征在于，所述的步骤3的具体步骤为：

步骤3-1：对文本进行预处理，然后执行步骤3-2；

4.根据权利要求3所述的一种通过敏感词检测与非法内容识别进行文本分类的方法，其特征在于，所述步骤3-1中的预处理具体为文本的分词处理。

5.根据权利要求3所述的一种通过敏感词检测与非法内容识别进行文本分类的方法，其特征在于，所述步骤3-2中循环神经网络模型的训练具体为：

6.根据权利要求5所述的一种通过敏感词检测与非法内容识别进行文本分类的方法，其特征在于，所述的步骤3-2-2中的文本向量具体为训练文本中所包含的非法词库中词的词频向量。

7.根据权利要求1所述的一种通过敏感词检测与非法内容识别进行文本分类的方法，其特征在于，所述步骤5具体为：根据敏感词词典判断敏感词所属类别。

8.根据权利要求1所述的一种通过敏感词检测与非法内容识别进行文本分类的方法，其特征在于，所述步骤7具体为：通过循环神经网络对文本分类进行打分，分数超过设定值的类别即为文本类别。