CN110991171A

CN110991171A - 敏感词检测方法及装置

Info

Publication number: CN110991171A
Application number: CN201910945463.8A
Authority: CN
Inventors: 禹庆华; 叶盛; 李虎; 李国辉
Original assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Current assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-04-10
Anticipated expiration: 2039-09-30
Also published as: CN110991171B

Abstract

本发明实施例提供一种敏感词检测方法及装置，其中，方法包括：获取目标文本，对目标文本进行分词处理；将分词处理后的目标文本输入文本分类模型，所述文本分类模型是带有注意力机制的循环神经网络模型，获取文本分类模型输出的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重，所述类别包括：敏感和正常；若文本分类模型输出的目标文本的类别为敏感，则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词；其中，所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。本发明实施例能提高检测敏感词的效率，节省人工成本，时效性高。

Description

敏感词检测方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种敏感词检测方法及装置。

背景技术

随着信息技术的快速发展，在互联网的网页中的文本内容也以爆炸式的速度涌现，例如直播弹幕、贴吧、评论、社交平台等互联网内容类产品，随着活跃用户量的增加，这些产品会带来大量的文本。然而这些文本中可能会存在如广告类或其他不良类型等敏感词。

敏感词主要用来做网页过滤或者网页违规监测等作用，可过滤掉网页中存在的敏感词的信息。因此，敏感词检测是现代网络监控的必要功能。随着内容的增多和时间的推移，敏感词需要不断的去富集。用富集后的敏感词来过滤网页或监测，从网页过滤或监测结果中再发现新敏感词。因此，这是一个不断迭代更新的过程。

当前，敏感词收集主要还是通过人工运营来收集，人工需要查看大量的文本内容，人工检测出敏感词。但是，这种人工检测敏感词的方式效率太低，而且实时性不够。

发明内容

针对现有技术存在的问题，本发明实施例提供一种敏感词检测方法及装置。

本发明实施例提供一种敏感词检测方法，包括：

获取目标文本，对所述目标文本进行分词处理；

将分词处理后的目标文本输入文本分类模型，所述文本分类模型是带有注意力机制的循环神经网络模型，获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重，所述类别包括：敏感和正常；

若所述文本分类模型输出的所述目标文本的类别为敏感，则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词；

其中，所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。

可选地，在将分词处理后的目标文本输入文本分类模型，所述文本分类模型是带有注意力机制的循环神经网络模型，获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重之前，所述方法还包括：

获取带有类别的标注的文本样本；

对所述带有类别的标注的文本样本进行分词处理；

基于分词处理后的带有类别的标注的文本样本，对带有注意力机制的循环神经网络进行训练，生成文本分类模型。

可选地，所述文本分类模型中，所输入的分词处理后的文本中的每个词语在循环神经网络内部均有一个隐藏状态，对于所输入的分词处理后的文本中的任一词语，通过隐藏层得到当前词语的隐藏状态，把隐藏状态值输入注意力机制函数得到每个词的注意力权重，把每个词的隐藏状态值和注意力权重相乘结合在一起，结合值输入到一个全连接层，全连接层输出值是整个文本的特征向量，对所述特征向量进行类别的分类，使得所述文本分类模型输出所输入的分词处理后的文本的类别和分词处理后的文本中每个词语的注意力权重。

可选地，所述目标文本包括：从新监测到的网页中提取的文本；或者，

利用已检测出的敏感词对监测的网页进行过滤、从过滤后的网页中提取的文本。

本发明实施例提供一种敏感词检测装置，包括：

第一获取模块，用于获取目标文本，对所述目标文本进行分词处理；

第二获取模块，用于将分词处理后的目标文本输入文本分类模型，所述文本分类模型是带有注意力机制的循环神经网络模型，获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重，所述类别包括：敏感和正常；

检测模块，用于若所述文本分类模型输出的所述目标文本的类别为敏感，则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词；

可选地，所述装置还包括：

第三获取模块，用于获取带有类别的标注的文本样本；

处理模块，用于对所述带有类别的标注的文本样本进行分词处理；

训练模块，用于基于分词处理后的带有类别的标注的文本样本，对带有注意力机制的循环神经网络进行训练，生成文本分类模型。

本发明实施例提供的敏感词检测方法及装置，通过将分词处理后的目标文本输入文本分类模型，所述文本分类模型是带有注意力机制的循环神经网络模型，获取文本分类模型输出的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重，所述类别包括：敏感和正常，若文本分类模型输出的目标文本的类别为敏感，将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词，其中，文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的，由此，能够检测出目标文本中的敏感词，提高检测敏感词的效率，节省人工成本，而且时效性高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种敏感词检测方法的流程示意图；

图2为本发明一实施例提供的一种敏感词检测装置的结构示意图；

图3为本发明一实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明一实施例提供的一种敏感词检测方法的流程示意图，如图1所示，本实施例的敏感词检测方法，包括：

S1、获取目标文本，对所述目标文本进行分词处理。

需要说明的是，本实施例所述敏感词检测方法的执行主体为处理器。

可以理解的是，在具体应用中，可以利用分词工具，对所述目标文本进行分词处理，本实施例并不对所述分词工具进行限制，只要能够实现对目标文本进行分词处理功能的工具都可以。

可以理解的是，敏感词主要用来做网页过滤或者网页违规监测等作用，因此，本实施例所述目标文本可以包括：从新监测到的网页中提取的文本；或者，利用已检测出的敏感词对监测的网页进行过滤、从过滤后的网页中提取的文本。

S2、将分词处理后的目标文本输入文本分类模型，所述文本分类模型是带有注意力机制的循环神经网络模型，获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重，所述类别包括：敏感和正常。

可以理解的是，由于本实施例所述文本分类模型是带有注意力机制的循环神经网络模型，是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的，因此所述文本分类模型中，所输入的分词处理后的目标文本中的每个词语在循环神经网络内部均有一个隐藏状态，对于所输入的分词处理后的目标文本中的任一词语，通过隐藏层得到将当前词语的隐藏状态，把隐藏状态值输入注意力机制函数得到每个词的注意力权重，把每个词的隐藏状态值和注意力权重相乘结合在一起，结合值输入到一个全连接层，全连接层输出值是整个文本的特征向量，对所述特征向量进行类别的分类，使得所述文本分类模型可以输出所输入的分词处理后的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重。

S3、若所述文本分类模型输出的所述目标文本的类别为敏感，则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词。

可以理解的是，本实施例在循环神经网络中引入了注意力机制，在基于分词处理后的带有类别的标注的文本样本，对带有注意力机制的循环神经网络进行训练的过程中，可利用注意力机制能够训练出分词处理后的带有类别的标注的文本样本中每个词语的注意力权重，具体原理可参考现有技术中对注意力机制的说明，本实施例不进行详细阐述。

可以理解的是，一些网站会根据自身实际情况，预先设定一些只适用于本网站的特殊敏感词。

本实施例是先利用文本分类模型，对分词处理后的目标文本进行分类，获取目标文本的类别(目标文本的类别为敏感或者正常)和分词处理后的目标文本中每个词语的注意力权重，分词处理后的目标文本中每个词语的注意力权重的大小可以代表每一个单词对分类结果的影响程度，因此，本实施例在所述目标文本的类别为敏感时，将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词。

可以理解的是，所检测出的敏感词的注意力权重越大，则表明所检测出的敏感词对所述目标文本的类别为敏感的文本分类结果的作用/影响程度越大。

可以理解的是，由于敏感词主要用来做网页过滤或者网页违规监测等作用，本实施例检测出新的敏感词后，可以用来过滤或监测更多的网页中的文本内容，新监测到的网页也可以利用本实施例所述敏感词检测方法检测出新的敏感词，两者之间是相互迭代促进的。

本实施例提供的敏感词检测方法，通过将分词处理后的目标文本输入文本分类模型，所述文本分类模型是带有注意力机制的循环神经网络模型，获取文本分类模型输出的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重，所述类别包括：敏感和正常，若文本分类模型输出的目标文本的类别为敏感，将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词，其中，文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的，由此，能够检测出目标文本中的敏感词，提高检测敏感词的效率，节省人工成本，而且时效性高。

进一步地，在上述实施例的基础上，在所述步骤S2之前，本实施例所述方法还可以包括图中未示出的步骤P1-P3：

P1、获取带有类别的标注的文本样本。

可以理解的是，所述类别是文本的类别，包括：敏感和正常，所述类别的标注是将文本样本标注为敏感还是正常。

P2、对所述带有类别的标注的文本样本进行分词处理。

可以理解的是，在具体应用中，可以利用分词工具，对所述带有类别的标注的文本样本进行分词处理，本实施例并不对所述分词工具进行限制，只要能够实现对所述带有类别的标注的文本样本进行分词处理功能的工具都可以。

P3、基于分词处理后的带有类别的标注的文本样本，对带有注意力机制的循环神经网络进行训练，生成文本分类模型。

可以理解的是，本实施例在循环神经网络中引入了注意力机制，在基于分词处理后的带有类别的标注的文本样本，对带有注意力机制的循环神经网络进行训练的过程中，利用注意力机制能够训练出分词处理后的带有类别的标注的文本样本中每个词语的注意力权重，具体原理可参考现有技术中对注意力机制的说明，本实施例不进行详细阐述。

可以理解的是，所述文本分类模型中，

所输入的分词处理后的文本中的每个词语在循环神经网络内部均有一个隐藏状态，对于所输入的分词处理后的文本中的任一词语，通过隐藏层得到当前词语的隐藏状态，把隐藏状态值输入注意力机制函数得到每个词的注意力权重，把每个词的隐藏状态值和注意力权重相乘结合在一起，结合值输入到一个全连接层，全连接层输出值是整个文本的特征向量，对所述特征向量进行类别的分类，使得所述文本分类模型输出所输入的分词处理后的文本的类别和分词处理后的文本中每个词语的注意力权重。

本实施例提供的敏感词检测方法，利用基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的文本分类模型，获取目标文本的类别和分词处理后的目标文本中每个词语的注意力权重，将类别为敏感的分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词，相比于现有技术，能够检测出目标文本中的敏感词，提高检测敏感词的效率，节省人工成本，而且时效性高。

图2示出了本发明一实施例提供的一种敏感词检测装置的结构示意图，如图2所示，本实施例的敏感词检测装置，包括：第一获取模块21、第二获取模块22和检测模块23；其中：

所述第一获取模块21，用于获取目标文本，对所述目标文本进行分词处理；

所述第二获取模块22，用于将分词处理后的目标文本输入文本分类模型，所述文本分类模型是带有注意力机制的循环神经网络模型，获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重，所述类别包括：敏感和正常；

所述检测模块23，用于若所述文本分类模型输出的所述目标文本的类别为敏感，则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词；

具体地，所述第一获取模块21获取目标文本，对所述目标文本进行分词处理；所述第二获取模块22将分词处理后的目标文本输入文本分类模型，所述文本分类模型是带有注意力机制的循环神经网络模型，获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重，所述类别包括：敏感和正常；所述检测模块23若所述文本分类模型输出的所述目标文本的类别为敏感，则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词；其中，所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。

需要说明的是，本实施例所述敏感词检测装置应用于处理器中。

可以理解的是，在具体应用中，所述第一获取模块21可以利用分词工具，对所述目标文本进行分词处理，本实施例并不对所述分词工具进行限制，只要能够实现对目标文本进行分词处理功能的工具都可以。

可以理解的是，由于本实施例所述文本分类模型是带有注意力机制的循环神经网络模型，是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的，因此所述文本分类模型中，所输入的分词处理后的目标文本中的每个词语在循环神经网络内部均有一个隐藏状态，对于所输入的分词处理后的目标文本中的任一词语，通过隐藏层得到当前词语的隐藏状态，把隐藏状态值输入注意力机制函数得到每个词的注意力权重，把每个词的隐藏状态值和注意力权重相乘结合在一起，结合值输入到一个全连接层，全连接层输出值是整个文本的特征向量，对所述特征向量进行类别的分类，使得所述文本分类模型可以输出所输入的分词处理后的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重。

可以理解的是，由于敏感词主要用来做网页过滤或者网页违规监测等作用，本实施例所述敏感词检测装置检测出新的敏感词后，可以用来过滤或监测更多的网页中的文本内容，新监测到的网页也可以利用本实施例所述敏感词检测装置检测出新的敏感词，两者之间是相互迭代促进的。

本实施例提供的敏感词检测装置，通过第一获取模块获取目标文本，对所述目标文本进行分词处理，第二获取模块将分词处理后的目标文本输入文本分类模型，所述文本分类模型是带有注意力机制的循环神经网络模型，获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重，所述类别包括：敏感和正常，检测模块若所述文本分类模型输出的所述目标文本的类别为敏感，则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词，其中，所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的，由此，能够检测出目标文本中的敏感词，提高检测敏感词的效率，节省人工成本，而且时效性高。

进一步地，在上述实施例的基础上，本实施例所述敏感词检测装置还可以包括图中未示出的：

第三获取模块，用于获取带有类别的标注的文本样本；

可以理解的是，在具体应用中，所述第三获取模块可以利用分词工具，对所述带有类别的标注的文本样本进行分词处理，本实施例并不对所述分词工具进行限制，只要能够实现对所述带有类别的标注的文本样本进行分词处理功能的工具都可以。

可以理解的是，所述文本分类模型中，所输入的分词处理后的文本中的每个词语在循环神经网络内部均有一个隐藏状态，对于所输入的分词处理后的文本中的任一词语，通过隐藏层得到当前词语的隐藏状态，把隐藏状态值输入注意力机制函数得到每个词的注意力权重，把每个词的隐藏状态值和注意力权重相乘结合在一起，结合值输入到一个全连接层，全连接层输出值是整个文本的特征向量，对所述特征向量进行类别的分类，使得所述文本分类模型输出所输入的分词处理后的文本的类别和分词处理后的文本中每个词语的注意力权重。

本实施例提供的敏感词检测装置，利用基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的文本分类模型，获取目标文本的类别和分词处理后的目标文本中每个词语的注意力权重，将类别为敏感的分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词，相比于现有技术，能够检测出目标文本中的敏感词，提高检测敏感词的效率，节省人工成本，而且时效性高。

本发明实施例提供的敏感词检测装置，可以用于执行前述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图3示出了本发明一实施例提供的一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括存储器302、处理器301、总线303及存储在存储器302上并可在处理器301上运行的计算机程序，其中，处理器301，存储器302通过总线303完成相互间的通信。所述处理器301执行所述计算机程序时实现上述方法的步骤，例如包括：获取目标文本，对所述目标文本进行分词处理；将分词处理后的目标文本输入文本分类模型，所述文本分类模型是带有注意力机制的循环神经网络模型，获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重，所述类别包括：敏感和正常；若所述文本分类模型输出的所述目标文本的类别为敏感，则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词；其中，所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤，例如包括：获取目标文本，对所述目标文本进行分词处理；将分词处理后的目标文本输入文本分类模型，所述文本分类模型是带有注意力机制的循环神经网络模型，获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重，所述类别包括：敏感和正常；若所述文本分类模型输出的所述目标文本的类别为敏感，则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词；其中，所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种敏感词检测方法，其特征在于，包括：

获取目标文本，对所述目标文本进行分词处理；

2.根据权利要求1所述的敏感词检测方法，其特征在于，在将分词处理后的目标文本输入文本分类模型，所述文本分类模型是带有注意力机制的循环神经网络模型，获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重之前，所述方法还包括：

获取带有类别的标注的文本样本；

对所述带有类别的标注的文本样本进行分词处理；

3.根据权利要求2所述的敏感词检测方法，其特征在于，所述文本分类模型中，所输入的分词处理后的文本中的每个词语在循环神经网络内部均有一个隐藏状态，对于所输入的分词处理后的文本中的任一词语，通过隐藏层得到当前词语的隐藏状态，把隐藏状态值输入注意力机制函数得到每个词的注意力权重，把每个词的隐藏状态值和注意力权重相乘结合在一起，结合值输入到一个全连接层，全连接层输出值是整个文本的特征向量，对所述特征向量进行类别的分类，使得所述文本分类模型输出所输入的分词处理后的文本的类别和分词处理后的文本中每个词语的注意力权重。

4.根据权利要求1所述的敏感词检测方法，其特征在于，所述目标文本包括：从新监测到的网页中提取的文本；或者，

5.一种敏感词检测装置，其特征在于，包括：

6.根据权利要求5所述的敏感词检测装置，其特征在于，所述装置还包括：

第三获取模块，用于获取带有类别的标注的文本样本；

7.根据权利要求6所述的敏感词检测装置，其特征在于，所述文本分类模型中，所输入的分词处理后的文本中的每个词语在循环神经网络内部均有一个隐藏状态，对于所输入的分词处理后的文本中的任一词语，通过隐藏层得到当前词语的隐藏状态，把隐藏状态值输入注意力机制函数得到每个词的注意力权重，把每个词的隐藏状态值和注意力权重相乘结合在一起，结合值输入到一个全连接层，全连接层输出值是整个文本的特征向量，对所述特征向量进行类别的分类，使得所述文本分类模型输出所输入的分词处理后的文本的类别和分词处理后的文本中每个词语的注意力权重。

8.根据权利要求5所述的敏感词检测装置，其特征在于，所述目标文本包括：从新监测到的网页中提取的文本；或者，

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。