CN113988061A

CN113988061A - 基于深度学习的敏感词检测方法、装置、设备及存储介质

Info

Publication number: CN113988061A
Application number: CN202111231729.6A
Authority: CN
Inventors: 莫智文
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2022-01-28

Abstract

本申请适用于人工智能技术领域，提供了基于深度学习的敏感词检测方法、装置、设备及存储介质。包括：获取待检测文本；通过敏感词检测模型提取待检测文本对应的字形组合特征、字形编码特征以及拼音编码特征；根据预设的敏感词库、字形组合特征、字形编码特征以及拼音编码特征，确定待检测文本对应的多个初始敏感词；提取每个初始敏感词的词义特征；提取待检测文本的语义特征；根据语义特征和每个初始敏感词的词义特征，确定待检测文本对应的目标敏感词。上述方案中，提取汉字在字形和发音两方面的特征，融合上下文信息，使最终确定的敏感词更为准确。还提取字形组合特征，能够更好地检测出变形词对应的敏感词，进一步提升了检测敏感词的准确率。

Description

基于深度学习的敏感词检测方法、装置、设备及存储介质

技术领域

本申请属于人工智能技术领域，尤其涉及基于深度学习的敏感词检测方法、敏感词检测装置、敏感词检测设备及存储介质。

背景技术

随着移动互联网的迅速发展，网络媒体、微博、微信等工具已经成为人们生活中不可分割的一部分。同时，随着互联网的发展，社会化媒体作为重要的信息载体，对其中的报道及言论进行严格的管控和监督十分必要。

检测敏感词就是一种技术手段。现在常用的敏感词过滤方式是建立敏感词表，遍历用户的文本内容，查找与敏感词列表相匹配的词，如果用户的文本内容中包含敏感词表中的词，将词判定为敏感词。

这种检测敏感词的方式忽略了上下文关系，容易出现误检测的情况，且无法检测到变形词，导致检测的敏感词不准确。

发明内容

有鉴于此，本申请实施例提供了基于深度学习的敏感词检测方法、敏感词检测装置、敏感词检测设备及存储介质，以解决现有技术中检测敏感词的方式忽略了上下文关系，容易出现误检测的情况，且无法检测到变形词，导致检测的敏感词不准确的问题。

本申请实施例的第一方面提供了一种基于深度学习的敏感词检测方法，该敏感词检测方法包括：

获取待检测文本；

通过已训练的敏感词检测模型遍历所述待检测文本对应的每个字，并在遍历过程中检测到所述待检测文本中的字能组成新字时，根据所述新字确定所述待检测文本对应的字形组合特征；

通过所述敏感词检测模型对所述待检测文本中的每个字进行字形编码，得到所述待检测文本对应的字形编码特征，所述字形编码特征包括汉字字形编码特征和四角号码编码特征；

通过所述敏感词检测模型对所述待检测文本中的每个字进行拼音编码，得到所述待检测文本对应的拼音编码特征，所述拼音编码特征包括汉字拼音编码特征和部首拼音编码特征；

根据预设的敏感词库、所述字形组合特征、所述字形编码特征以及所述拼音编码特征，确定所述待检测文本对应的多个初始敏感词；

采用所述敏感词检测模型提取每个所述初始敏感词的词义特征；

通过所述敏感词检测模型提取所述待检测文本的语义特征；

根据所述语义特征和每个所述初始敏感词的词义特征，确定所述待检测文本对应的目标敏感词。

可选地，所述初始敏感词包括第一敏感词、第二敏感词、第三敏感词以及第四敏感词；所述根据预设的敏感词库、所述字形组合特征、所述字形编码特征以及所述拼音编码特征，确定所述待检测文本对应的多个初始敏感词，包括：

基于所述敏感词库，确定所述待检测文本对应的第一敏感词；

根据所述敏感词库和所述字形组合特征，确定所述待检测文本对应的第二敏感词；

基于所述敏感词库和所述字形编码特征，确定所述待检测文本对应的第三敏感词；

根据所述敏感词库和所述拼音编码特征，确定所述待检测文本对应的第四敏感词。

可选地，所述基于所述敏感词库，确定所述待检测文本对应的第一敏感词，包括：

对所述待检测文本进行分词处理，得到多个分词，所述分词包括词语和单字；

当在所述敏感词库中查询到任一所述分词时，将任一所述分词确定为所述第一敏感词。

可选地，所述基于所述敏感词库和所述字形编码特征，确定所述待检测文本对应的第三敏感词，包括：

在所述敏感词库中查询与所述字形编码特征匹配的敏感词；

将查询到的与所述字形编码特征匹配的敏感词，确定为所述第三敏感词。

可选地，所述根据所述敏感词库和所述拼音编码特征，确定所述待检测文本对应的第四敏感词，包括：

在所述敏感词库中查询与所述拼音编码特征匹配的敏感词；

将查询到的与所述拼音编码特征匹配的敏感词，确定为所述第四敏感词。

可选地，所述获取待检测文本之前，所述敏感词检测方法还包括：

获取预设的多个敏感词；

对每个所述敏感词进行字形编码，得到每个所述敏感词对应的字形编码敏感词；

对每个所述敏感词进行拼音编码，得到每个所述敏感词对应的拼音编码敏感词；

基于每个所述敏感词、每个所述字形编码敏感词以及每个所述拼音编码敏感词，构建所述敏感词库。

可选地，所述根据所述语义特征和每个所述初始敏感词的词义特征，确定所述待检测文本对应的目标敏感词之后，所述敏感词检测方法还包括：

在所述待检测文本中过滤所述目标敏感词。

本申请实施例的第二方面提供了一种基于深度学习的敏感词检测装置，包括：

获取单元，用于获取待检测文本；

第一确定单元，用于通过已训练的敏感词检测模型遍历所述待检测文本对应的每个字，并在遍历过程中检测到所述待检测文本中的字能组成新字时，根据所述新字确定所述待检测文本对应的字形组合特征；

第一编码单元，用于通过所述敏感词检测模型对所述待检测文本中的每个字进行字形编码，得到所述待检测文本对应的字形编码特征，所述字形编码特征包括汉字字形编码特征和四角号码编码特征；

第二编码单元，用于通过所述敏感词检测模型对所述待检测文本中的每个字进行拼音编码，得到所述待检测文本对应的拼音编码特征，所述拼音编码特征包括汉字拼音编码特征和部首拼音编码特征；

第二确定单元，用于根据预设的敏感词库、所述字形组合特征、所述字形编码特征以及所述拼音编码特征，确定所述待检测文本对应的多个初始敏感词；

第一提取单元，用于采用所述敏感词检测模型提取每个所述初始敏感词的词义特征；

第二提取单元，用于通过所述敏感词检测模型提取所述待检测文本的语义特征；

第三确定单元，用于根据所述语义特征和每个所述初始敏感词的词义特征，确定所述待检测文本对应的目标敏感词。

本申请实施例的第三方面提供了一种基于深度学习的敏感词检测设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面所述的基于深度学习的敏感词检测方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的基于深度学习的敏感词检测方法的步骤。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在敏感词检测设备上运行时，使得该设备执行上述第一方面所述的基于深度学习的敏感词检测方法的步骤。

本申请实施例提供的基于深度学习的敏感词检测方法、敏感词检测装置、敏感词检测设备及存储介质，具有以下有益效果：

获取待检测文本；通过已训练的敏感词检测模型提取待检测文本对应的字形组合特征、字形编码特征以及拼音编码特征；根据预设的敏感词库、字形组合特征、字形编码特征以及拼音编码特征，确定待检测文本对应的多个初始敏感词；采用敏感词检测模型提取每个初始敏感词的词义特征；通过敏感词检测模型提取待检测文本的语义特征；根据语义特征和每个初始敏感词的词义特征，确定待检测文本对应的目标敏感词。上述方案中，通过敏感词检测模型对待检测文本进行处理，提取了待检测文本对应的字形编码特征、拼音编码特征以及语义特征，根据提取到的这些特征确定待检测文本中的敏感词。由于不仅提取了汉字在字形和发音两方面的特征，还融合了上下文信息，即提取了语义特征，使最终确定的敏感词更为准确。同时，还提取了字形组合特征，能够更好地检测出变形词对应的敏感词，进一步提升了检测敏感词的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一示例性实施例提供的基于深度学习的敏感词检测方法的示意性流程图；

图2是本申请一示例性实施例示出的一种基于深度学习的敏感词检测方法的步骤S105的具体流程图；

图3是本申请再一示例性实施例提供的基于深度学习的敏感词检测方法的示意性流程图；

图4是本申请再一示例性实施例示出的构建敏感词库的方法的具体流程图；

图5是本申请一实施例提供的一种基于深度学习的敏感词检测装置的示意图；

图6是本申请另一实施例提供的敏感词检测设备的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习/监督学习等几大方向。

请参见图1，图1是本申请一示例性实施例提供的基于深度学习的敏感词检测方法的示意性流程图。本申请提供的基于深度学习的敏感词检测方法的执行主体为敏感词检测设备，其中，该敏感词检测设备包括但不限于智能手机、平板电脑、计算机、个人数字助理(Personal Digital Assistant，PDA)、台式电脑等移动终端，还可以包括各种类型的服务器。例如，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务。

本申请实施例中以执行主体为计算机终端为例进行说明。

如图1所示的基于深度学习的敏感词检测方法可包括：

S101～S108，具体如下：

S101：获取待检测文本。

待检测文本可以是任意需要检测敏感词的文本。例如，待检测文本可以包括：评论内容、公众号文章、游戏对话、新闻内容、网页内容、聊天信息等。此处仅为示例性说明，对此不做限定。

终端在检测到敏感词检测指令时，获取待检测文本。敏感词检测指令可以由用户触发，如用户点击终端中的敏感词检测选项。

获取的待检测文本可以是用户上传至终端的待检测文本，也可以是终端根据敏感词检测指令中包含的文件获取地址，提取待检测文本。

待检测文本还可以是实时生成的文本。例如，多个玩家在玩游戏的过程中，会进行对话，此时每个玩家发表的话语即为待检测文本。又例如，用户通过社交软件、网页等聊天，产生的聊天记录即为待检测文本。此处仅为示例性说明，对此不做限定。

S102：通过已训练的敏感词检测模型遍历待检测文本对应的每个字，并在遍历过程中检测到待检测文本中的字能组成新字时，根据新字确定待检测文本对应的字形组合特征。

示例性地，本方案中的敏感词检测模型由语音表征模型 (BidirectionalEncoder Representations from Transformers， BERT)和命名实体识别模型(BiLSTM－CRF)构成。其中，BERT为特征表示层，BiLSTM为神经网络层，CRF为筛选层。

在本实施例中，终端中预先存储有预先训练好的敏感词检测模型。该敏感词检测模型是使用深度学习算法，基于样本训练集对初始敏感词检测网络进行训练得到。其中，初始敏感词检测网络由初始BERT 网络和初始BiLSTM－CRF网络构成。

可以理解的是，敏感词检测模型可以由终端预先训练好，也可以由其他设备预先训练好后将敏感词检测模型对应的文件移植至终端中。也就是说，训练该敏感词检测模型的执行主体与使用该敏感词检测模型的执行主体可以是相同的，也可以是不同的。例如，当采用其他设备训练初始敏感词检测网络时，其他设备对初始敏感词检测网络结束训练后，固定初始敏感词检测网络的参数，得到训练好的初始敏感词检测模型对应的文件。然后将该文件移植到终端中。

示例性地，通过敏感词检测模型提取待检测文本对应的字形组合特征。以预设大小为窗口，基于敏感词检测模型遍历待检测文本，检测每个窗口中的字是否能组成新的字。若能组成新字，将该窗口中的字以及根据该窗口中的字组成的新字，确定为待检测文本对应的字形组合特征。

例如，将预设大小设定为2个字大小，以2为窗口滑动遍历待检测文本，检测每个窗口中的字是否能组成新字。例如，待检测文本为“出售手木仓，精准身寸击”，“木仓”可以组成“枪”，“身寸”可以组成“射”。则该待检测文本对应的字形组合特征为：木仓－－枪和身寸射。此处仅为示例性说明，对此不做限定。

具体地，可通过下式实现：

text_c＝{f_combine(w_u,i-1,w_u,i）},w_u,i∈user_text,i∈[1,n-1]， (1)

上述(1)式中，text_c表示待检测文本对应的字形组合特征， f_combine表示字形组合函数，w_u,i-1和w_u,i表示预设大小窗口中的字。

S103：通过敏感词检测模型对待检测文本中的每个字进行字形编码，得到待检测文本对应的字形编码特征。

示例性地，通过敏感词检测模型提取待检测文本中每个字对应的字形编码特征。

字形编码是指将字形变为编码符号，字形编码特征可以包括汉字字形编码特征和四角号码编码特征。本实施例中以对每个字进行四角号码编码为例进行说明。

例如，通过敏感词检测模型对待检测文本中每个字进行四角号码编码，得到待检测文本中每个字对应的字形编码特征。

具体地，可通过下式实现：

t_ffc,i＝ffc(w_u,i)， (2)

上述(2)式中的w_u,i表示待检测文本中的词语，ffc(·)表示四角号码编码函数。上述(3)式中，t_ffc,i表示经过四角号码编码的待检测文本，f_ffc,i表示字形编码特征，即四角号码编码特征。

S104：通过敏感词检测模型对待检测文本中的每个字进行拼音编码，得到待检测文本对应的拼音编码特征。

示例性地，通过敏感词检测模型提取待检测文本中每个字对应的拼音编码特征。拼音编码特征可以包括汉字拼音编码特征和部首拼音编码特征，本实施例中以对每个字进行汉字拼音编码为例进行说明。

例如，通过敏感词检测模型对待检测文本中每个字进行汉字拼音编码，得到待检测文本中每个字对应的拼音编码特征。

具体地，可通过下式实现：

t_pyc,i＝pyc(w_u,i)， (4)

上述(4)式中的w_u,i表示待检测文本中的词语，pyc(·)表示拼音编码函数。

上述(5)式中，t_pyc,i表示经过拼音编码的待检测文本，f_pyc,i表示拼音编码特征。

此处仅为示例性说明，对此不做限定。

S105：根据预设的敏感词库、字形组合特征、字形编码特征以及拼音编码特征，确定待检测文本对应的多个初始敏感词。

敏感词库中可以包括多个敏感词、每个敏感字对应的字形编码以及每个敏感词对应的拼音编码。

在该敏感词库中查找是否有与字形组合特征、字形编码特征以及拼音编码特征分别匹配的敏感词。若有，则将查找到的与字形组合特征、字形编码特征以及拼音编码特征分别匹配的敏感词，记为待检测文本对应的初始敏感词。

S106：采用敏感词检测模型提取每个初始敏感词的词义特征。

示例性地，可采用敏感词检测模型中的BERT模型提取每个初始敏感词的词义特征。BERT模型可包括输入层、多个隐藏层、多个全连接层、输出层。针对每个初始敏感词，BERT模型将该初始敏感词转换为多维向量，隐藏层对该多维向量进行映射以及降维处理。全连接层对降维后的向量进行特征提取，而后将结果传递至输出层，输出层输出该初始敏感词对应的词义特征。同理，对其他的初始敏感词也进行该处理，得到每个初始敏感词对应的词义特征。其中，隐藏层为若干个非线性投影函数，其用到的激活函数可以为tanh函数、Relu 函数等。

此处仅为示例性说明，对此不做限定。

S107：通过敏感词检测模型提取待检测文本的语义特征。

示例性地，可采用敏感词检测模型中的BERT模型提取待检测文本的语义特征。BERT模型可包括输入层、多个隐藏层、多个全连接层、输出层。对待检测文本进行分词处理，分词处理是指将待检测文本中连续的字序列划分为多个词序列，即得到多个分词。具体地，敏感词检测模型中可包含分词算法，利用该分词算法对待检测文本进行分词处理，得到该待检测文本对应的多个分词。

针对每个分词，通过BERT模型将每个分词转换为其对应的多维向量，隐藏层对多维向量进行映射以及降维处理，得到每个分词对应的降维向量。例如，通过BERT模型将每个分词转换为其对应的768 维向量，隐藏层对该768维向量进行映射以及降维处理，得到每个分词对应的64维向量。多个全连接层依次对这些64维向量进行语义特征提取，并将提取到的每个分词对应的语义特征进行累加，得到每个分词对应的降维向量。

由于BERT模型运用了双向Transformer神经网络作为编码器，使得对于待检测文本中每个字的预测都可以参考上下文的双方向文字信息。因此，通过BERT模型提取待检测文本的语义特征，充分考虑到了上下文的关系，使后续基于该语义特征确定敏感词时更准确。

此处仅为示例性说明，对此不做限定。

S108：根据语义特征和每个初始敏感词的词义特征，确定待检测文本对应的目标敏感词。

计算每个初始敏感词的词义特征，与待检测文本对应的语义特征之间的余弦相似度。针对每个初始敏感词对应的词义特征，将该词义特征与语义特征输入余弦距离公式进行计算，得到该词义特征与语义特征之间的余弦相似度，即该词义特征对应的初始敏感词与待检测文本之间的相关程度。余弦距离公式如下：

上述(6)式中，cosθ表示每个初始敏感词的词义特征，与待检测文本对应的语义特征之间的余弦相似度，cosθ的值越接近1，表明该初始敏感词与待检测文本越相关；A表示初始敏感词的词义特征， B表示待检测文本对应的语义特；i表示词义特征与语义特征各自对应的维度，即A_i中的i表示词义特征对应的维度，B_i中的i表示语义特征对应的维度。

采用归一化指数函数对计算得到的每个余弦相似度进行归一化处理，得到归一化的概率分布值。该概率分布值越大，表示该初始敏感词与待检测文本越相关；该概率分布值越小，表示该初始敏感词与待检测文本越不相关。

根据概率分布值从高到低的顺序对每个分词进行排序，选择排序在后的一个或若干个分词作为目标敏感词并输出。或者，根据概率分布值从低到高的顺序对每个分词进行排序，选择排序在前的一个或若干个分词作为目标敏感词并输出。

例如，某篇文章整体都在讲私自使用手枪的危害，手枪在文章中多次出现，但手枪并不应该作为敏感词被屏蔽掉，通过本实施方式的处理，确定了手枪与整篇文章高度相关。因此，不会将手枪确定为最终的目标敏感词，而是将其他的属于敏感词但是与待检测文本不是高度相关的敏感词确定为目标敏感词。此处仅为示例性说明，对此不做限定。

上述方案中，通过敏感词检测模型对待检测文本进行处理，提取了待检测文本对应的字形编码特征、拼音编码特征以及语义特征，根据提取到的这些特征确定待检测文本中的敏感词。由于不仅提取了汉字在字形和发音两方面的特征，还融合了上下文信息，即提取了语义特征，使最终确定的敏感词更为准确。同时，还提取了字形组合特征，能够更好地检测出变形词对应的敏感词，进一步提升了检测敏感词的准确率。

请参见图2，图2是本申请一示例性实施例示出的一种基于深度学习的敏感词检测方法的步骤S105的具体流程图；可选地，在本申请一些可能的实现方式中，上述S105可包括S1051～S1054，具体如下：

S1051：基于敏感词库，确定待检测文本对应的第一敏感词。

初始敏感词可以包括第一敏感词、第二敏感词、第三敏感词以及第四敏感词。其中，第一敏感词是基于敏感词库确定的，第一敏感词可以为一个或多个，以实际情况为准，对此不做限定。

敏感词库中可以包括多个敏感词。判断待检测文本中的词语是否在敏感词库中出现。若待检测文本中的词语，在敏感词库中也有，则将该词语确定为第一敏感词。若待检测文本中的多个词语，在敏感词库中均有出现，则将多个词语分别确定为多个第一敏感词。

可选地，在本申请一些可能的实现方式中，上述S1051可包括 S10511～S10512，具体如下：

S10511：对待检测文本进行分词处理，得到多个分词，分词包括词语和单字。

示例性地，可先对待检测文本进行预处理。预处理可以包括文本纠错、去停用词、剔除标点符号等处理。例如，终端对待检测文本进行去停用词、剔除标点符号等处理。其中，停用词是指没有实际意义的词，通常为限定词、语气助词、副词、介词、连接词、数学字符等。

对经过预处理的待检测文本进行分词处理。例如，通过分词算法将待检测文本中的内容分割为多个词语和/或多个单字。

S10512：当在敏感词库中查询到任一分词时，将任一分词确定为第一敏感词。

在敏感词库中查询是否有对待检测文本分词处理后得到的词语或单字。若敏感词库中有对待检测文本分词处理后得到的词语或单字，则将该词语或单字记为第一敏感词。对每个词语都进行查询，可得到一个或多个第一敏感词。

具体地，可通过下式实现：

上述(7)式中，w_u,i是待检测文本中的词语，f_v,i是敏感词库中与待检测文本对应的词语或单字。

S1052：根据敏感词库和字形组合特征，确定待检测文本对应的第二敏感词。

第二敏感词是基于敏感词库和字形组合特征确定的，第二敏感词可以为一个或多个，以实际情况为准，对此不做限定。

在S102中提取到了待检测文本对应的字形组合特征。即当窗口中的字能组成新字时，将该窗口中的字以及根据该窗口中的字组成的新字，确定为待检测文本对应的字形组合特征。检测字形组合特征中的新字是否在敏感词库中。

若字形组合特征中的新字在敏感词库中，则将该新字对应的窗口中的字确定为敏感词。例如，待检测文本为“出售手木仓，精准身寸击”，“木仓”可以组成“枪”，“身寸”可以组成“射”。则该待检测文本对应的字形组合特征为：木仓－－枪和身寸射。

检测到“枪”和“射”都在敏感词库中，将待检测文本中的“木仓”和“身寸”分别确定为待检测文本对应的第二敏感词。

可选地，在一种可能的实现方式中，当检测到字形组合特征中的新字在敏感词库中时，可用新字替换该新字对应的窗口中的字，并将替换后的新字确定为待检测文本对应的第二敏感词。

上述实现方式中，根据待检测文本对应的字形组合特征确定初始敏感词，充分考虑到了变形词构成的敏感词，避免遗漏敏感词，提升了敏感词检测的准确性。

S1053：基于敏感词库和字形编码特征，确定待检测文本对应的第三敏感词。

第三敏感词是基于敏感词库和字形编码特征确定的，第三敏感词可以为一个或多个，以实际情况为准，对此不做限定。

敏感词库中可以包括多个敏感词、每个敏感字对应的字形编码。

判断字形编码特征对应的字或词是否在敏感词库中出现。若字形编码特征对应的字或词在敏感词库中也有，则将该字或词确定为第三敏感词。

可选地，在本申请一些可能的实现方式中，上述S1053可包括 S10531～S10532，具体如下：

S10531：在敏感词库中查询与字形编码特征匹配的敏感词。

在敏感词库中查询是否有与字形编码特征匹配的敏感词。例如，对待检测文本中每个字进行四角号码编码，检测敏感词库中是否有相同的四角号码编码。

S10532：将查询到的与字形编码特征匹配的敏感词，确定为第三敏感词。

例如，若检测到敏感词库中有相同的四角号码编码，则将该四角号码编码对应的字记为第三敏感词。对待检测文本中每个字对应的四角号码编码都进行查询，可得到一个或多个第三敏感词。

S1054：根据敏感词库和拼音编码特征，确定待检测文本对应的第四敏感词。

第四敏感词是基于敏感词库和拼音编码特征确定的，第四敏感词可以为一个或多个，以实际情况为准，对此不做限定。

敏感词库中可以包括多个敏感词、每个敏感字对应的拼音编码。

判断拼音编码特征对应的字或词是否在敏感词库中出现。若拼音编码特征对应的字或词在敏感词库中也有，则将该字或词确定为第四敏感词。

可选地，在本申请一些可能的实现方式中，上述S1054可包括 S10541～S10542，具体如下：

S10541：在敏感词库中查询与拼音编码特征匹配的敏感词。

在敏感词库中查询是否有与拼音编码特征匹配的敏感词。例如，对待检测文本中每个字进行拼音编码，检测敏感词库中是否有相同的拼音编码。

S10542：将查询到的与拼音编码特征匹配的敏感词，确定为第四敏感词。

例如，若检测到敏感词库中有相同的拼音编码，则将该拼音编码对应的字记为第四敏感词。对待检测文本中每个字对应的拼音编码都进行查询，可得到一个或多个第四敏感词。

上述实现方式中，根据待检测文本对应的字形组合特征、字形编码特征以及拼音编码特征等多种特征，确定了多个初始敏感词，敏感词覆盖率高，避免遗漏敏感词。

请参见图3，图3是本申请再一示例性实施例提供的基于深度学习的敏感词检测方法的示意性流程图。本实施例与图1对应的实施例的区别在于在S208之后，还包括S209，本实施例中S201～S208与图 1所对应的实施例中的S101～S108完全相同，具体请参阅上一实施例中S101～S108的相关描述，此处不赘述。

S209：在待检测文本中过滤目标敏感词。

示例性地，在待检测文本中过滤目标敏感词的方式可以包括删除目标敏感词、替换目标敏感词等。

例如，直接删除待检测文本中的目标敏感词。或者，可通过预设符号过滤目标敏感词。通过＊、#等符号替换掉待检测文本中的目标敏感词。

可选地，可使用禁止发布的方式禁止含有目标敏感词的待检测文本发布。也可以直接屏蔽掉含有目标敏感词的待检测文本。

请参见图4，图4是本申请再一示例性实施例示出的构建敏感词库的方法的具体流程图；可选地，在本申请一些可能的实现方式中，在执行如图1所示的方法之前，还可包括构建敏感词库的方法，构建敏感词库的方法可包括：S301～S304，具体如下：

S301：获取预设的多个敏感词。

示例性地，可在网络中收集各种类型的多个敏感词，也可以是用户自定义的多个敏感词。

S302：对每个敏感词进行字形编码，得到每个敏感词对应的字形编码敏感词。

字形编码是指将字形变为编码符号，字形编码可以包括汉字字形编码和四角号码编码。

敏感词可以包括一个或多个敏感字。确定每个敏感词包括的各个敏感字对应的字形编码。

示例性地，可通过字符串相似度算法确定各个敏感字对应的字形编码。例如，通过编辑距离算法(EditDistance)、n－gram算法、 JaroWinkler算法以及Soundex算法等，确定各个敏感字对应的字形编码。

例如，对北京进行四角号码编码处理，得到北京对应的四角号码编码为：1211，0090。此处仅为示例性说明，对此不做限定。

S303：对每个敏感词进行拼音编码，得到每个敏感词对应的拼音编码敏感词。

拼音编码包括汉字拼音编码和部首拼音编码。可通过拼音编码表确定各个敏感字对应的拼音编码，得到每个敏感词对应的拼音编码敏感词。

S304：基于每个敏感词、每个字形编码敏感词以及每个拼音编码敏感词，构建敏感词库。

示例性地，每个字形编码敏感词可以理解为每个敏感字对应的字形编码，每个拼音编码敏感词可以理解为每个敏感词对应的拼音编码。基于每个敏感词、每个字形编码敏感词以及每个拼音编码敏感词，构建得到敏感词库。

敏感词库中包括多个敏感词以及每个敏感字对应的字形编码和拼音编码。

例如，构建的初始敏感词库V如下：

V＝{w_v,0,w_v,1,…,w_v,i,…,w_v,n}， (8)

上述(8)式中，V表示初始敏感词库，w_v,i表示敏感词库中的敏感词。

可选地，可通过拼音编码表确定各个敏感字对应的拼音编码。通过四角号码编码表确定各个敏感字对应的四角号码编码。具体如下：

V_ffc＝{ffc(w_v,i)},w_v,i∈V， (9)

V_pyc＝{pyc(w_v,i)},w_v,i∈V， (10)

上述(9)式中，V_ffc表示经过四角号码编码的敏感词库，ffc(·)表示四角号码编码函数。

上述(10)式中，V_pyc表示经过拼音编码的的敏感词库，pyc(·)表示拼音编码函数。

将初始敏感词库V、V_ffc以及V_pyc中的数据整合，得到最终的敏感词库。

可选地，在本申请一些可能的实现方式中，在执行如图1所示的基于深度学习的敏感词检测方法之前，还可包括训练敏感词检测模型的方法。

示例性地，使用深度学习算法，基于样本训练集对初始敏感词检测网络进行训练，得到敏感词检测模型。样本训练集包括多个样本文本，每个样本文本对应的样本敏感词。

可选地，还可将样本训练集中的一部分数据作为测试集，便于后续对训练中的初始敏感词检测网络进行测试。例如，在样本训练集中选取若干个样本文本，以及这些样本文本各自对应的样本敏感词作为测试集。

在训练过程中，初始敏感词检测网络对样本文本的处理过程，与 S102中通过敏感词检测模型对待检测文本的处理过程类似。不同的是，在训练过程中，会对每次的处理结果进行标记。

例如，提取样本文本中每个字对应的字形编码特征，检测敏感词库中是否有相同的字形编码特征，若有，则将该字形编码特征标记为 1，否则为0。提取样本文本中每个字对应的拼音编码特征，检测敏感词库中是否有相同的拼音编码特征，若有，则将该拼音编码特征标记为1，否则为0。

将获取到的多个特征拼接，并通过该拼接特征训练敏感词检测模型。

在达到预设的训练次数时，对此时的初始敏感词检测网络进行测试。示例性地，将测试集中的样本文本输入此时的初始敏感词检测网络中进行处理，此时的初始敏感词检测网络输出该样本文本对应的实际敏感词。基于损失函数计算该样本文本对应的实际敏感词与测试集中该样本文本对应的样本敏感词之间的损失值。其中，损失函数可以为交叉熵损失函数。

当损失值不满足预设条件时，调整初始敏感词检测网络的参数 (例如，调整初始敏感词检测网络的各个网络层对应的权重值)，并继续训练该初始敏感词检测网络。当损失值满足预设条件时，停止训练该初始敏感词检测网络，并将训练后的该初始敏感词检测网络作为已训练好的敏感词检测模型。

例如，假设预设条件为损失值小于或等于预设的损失值阈值。那么，当损失值大于损失值阈值时，调整初始敏感词检测网络的参数，并继续训练该初始敏感词检测网络。当损失值小于或等于损失值阈值时，停止训练该初始敏感词检测网络，并将训练后的该初始敏感词检测网络作为已训练好的敏感词检测模型。此处仅为示例性说明，对此不做限定。

示例性地，也可以是在训练初始敏感词检测网络的过程中，观察初始敏感词检测网络对应的损失函数收敛情况。当损失函数未收敛时，调整初始敏感词检测网络的参数，并基于样本训练集继续训练该初始敏感词检测网络。当损失函数收敛时，停止训练该初始敏感词检测网络，并将训练后的该初始敏感词检测网络作为已训练好的敏感词检测模型。其中，损失函数收敛是指损失函数的值趋于稳定。此处仅为示例性说明，对此不做限定。

上述实施方式中，训练敏感词检测模型，便于后续采用该敏感词检测模型快速、准确地对待检测文本进行处理，进而提升了敏感词检测的速度和准确率。

可选地，在本申请一些可能的实现方式中，本申请提供的基于深度学习的敏感词检测方法，可应用在医疗领域，例如利用基于深度学习的敏感词检测方法对与医疗相关信息进行检测，判断这些医疗相关信息中是否存在敏感词，进而对检测到敏感词进行过滤。提升了检测医疗相关信息中的敏感词的速度和准确率。

请参见图5，图5是本申请一实施例提供的一种基于深度学习的敏感词检测装置的示意图。该敏感词检测装置包括的各单元用于执行图1～图4对应的实施例中的各步骤。具体请参阅图1～图4各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图5，包括：

获取单元410，用于获取待检测文本；

第一确定单元420，用于通过已训练的敏感词检测模型遍历所述待检测文本对应的每个字，并在遍历过程中检测到所述待检测文本中的字能组成新字时，根据所述新字确定所述待检测文本对应的字形组合特征；

第一编码单元430，用于通过所述敏感词检测模型对所述待检测文本中的每个字进行字形编码，得到所述待检测文本对应的字形编码特征，所述字形编码特征包括汉字字形编码特征和四角号码编码特征；

第二编码单元440，用于通过所述敏感词检测模型对所述待检测文本中的每个字进行拼音编码，得到所述待检测文本对应的拼音编码特征，所述拼音编码特征包括汉字拼音编码特征和部首拼音编码特征；

第二确定单元450，用于根据预设的敏感词库、所述字形组合特征、所述字形编码特征以及所述拼音编码特征，确定所述待检测文本对应的多个初始敏感词；

第一提取单元460，用于采用所述敏感词检测模型提取每个所述初始敏感词的词义特征；

第二提取单元470，用于通过所述敏感词检测模型提取所述待检测文本的语义特征；

第三确定单元480，用于根据所述语义特征和每个所述初始敏感词的词义特征，确定所述待检测文本对应的目标敏感词。

可选地，所述初始敏感词包括第一敏感词、第二敏感词、第三敏感词以及第四敏感词，所述第一确定单元450具体用于：

可选地，所述第一确定单元450还用于：

在所述敏感词库中查询与所述字形编码特征匹配的敏感词；

可选地，所述第一确定单元450还用于：

在所述敏感词库中查询与所述拼音编码特征匹配的敏感词；

可选地，所述敏感词检测装置还包括构建单元，所述构建单元用于：

获取预设的多个敏感词；

可选地，所述敏感词检测装置还包括：

过滤单元，用于在所述待检测文本中过滤所述目标敏感词。

请参见图6，图6是本申请另一实施例提供的敏感词检测设备的示意图。如图6所示，该实施例的敏感词检测设备5包括：处理器 50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现上述各个基于深度学习的敏感词检测方法实施例中的步骤，例如图 1所示的S101至S108。或者，所述处理器50执行所述计算机程序 52时实现上述各实施例中各单元的功能，例如图5所示单元410至 480功能。

示例性地，所述计算机程序52可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器51中，并由所述处理器 50执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机指令段，该指令段用于描述所述计算机程序52 在所述设备5中的执行过程。例如，所述计算机程序52可以被分割为获取单元、第一确定单元、第一编码单元、第二编码单元、第二确定单元、第一提取单元、第二提取单元以及第三确定单元，各单元具体功能如上所述。

所述设备可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图6仅仅是设备5的示例，并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器50可以是中央处理单元(Central Processing Unit， CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field－Programmable Gate Array， FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述设备的内部存储单元，例如设备的硬盘或内存。所述存储器51也可以是所述设备的外部存储终端，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述设备的内部存储单元也包括外部存储终端。所述存储器51用于存储所述计算机指令以及所述终端所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机存储介质，计算机存储介质可以是非易失性，也可以是易失性，该计算机存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述各个基于深度学习的敏感词检测方法实施例中的步骤。

本申请还提供了一种计算机程序产品，当计算机程序产品在设备上运行时，使得该设备执行上述各个基于深度学习的敏感词检测方法实施例中的步骤。

本申请实施例还提供了一种芯片或者集成电路，该芯片或者集成电路包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有该芯片或者集成电路的设备执行上述各个基于深度学习的敏感词检测方法实施例中的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于深度学习的敏感词检测方法，其特征在于，包括：

获取待检测文本；

通过所述敏感词检测模型提取所述待检测文本的语义特征；

2.如权利要求1所述的敏感词检测方法，其特征在于，所述初始敏感词包括第一敏感词、第二敏感词、第三敏感词以及第四敏感词；所述根据预设的敏感词库、所述字形组合特征、所述字形编码特征以及所述拼音编码特征，确定所述待检测文本对应的多个初始敏感词，包括：

3.如权利要求2所述的敏感词检测方法，其特征在于，所述基于所述敏感词库，确定所述待检测文本对应的第一敏感词，包括：

4.如权利要求2所述的敏感词检测方法，其特征在于，所述基于所述敏感词库和所述字形编码特征，确定所述待检测文本对应的第三敏感词，包括：

在所述敏感词库中查询与所述字形编码特征匹配的敏感词；

5.如权利要求2所述的敏感词检测方法，其特征在于，所述根据所述敏感词库和所述拼音编码特征，确定所述待检测文本对应的第四敏感词，包括：

在所述敏感词库中查询与所述拼音编码特征匹配的敏感词；

6.如权利要求1所述的敏感词检测方法，其特征在于，所述获取待检测文本之前，所述敏感词检测方法还包括：

获取预设的多个敏感词；

7.如权利要求1至6任一项所述的敏感词检测方法，其特征在于，所述根据所述语义特征和每个所述初始敏感词的词义特征，确定所述待检测文本对应的目标敏感词之后，所述敏感词检测方法还包括：

在所述待检测文本中过滤所述目标敏感词。

8.一种基于深度学习的敏感词检测装置，其特征在于，包括：

获取单元，用于获取待检测文本；

9.一种基于深度学习的敏感词检测设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。