CN114580397A

CN114580397A - 一种谩骂评论的检测方法及系统

Info

Publication number: CN114580397A
Application number: CN202210244932.5A
Authority: CN
Inventors: 张磊
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-03

Abstract

本申请提供的一种谩骂评论的检测方法及系统，涉及人工智能领域和语言处理技术领域，选择多层次向量表示，并选择了参数已经在大量词库中进行最优化的二次预训练模型BERT，对评论进行编码处理。既能保证编码器能充分表示最终的语义表示，还能进一步提高检测模型的准确率和召回率。本发明充分结合策略检测与算法检测的优点，并通过两者的巧妙结合，降低人工成本，在最少算力的前提下，最大限度的保证了模型检测的准确性和有效性。

Description

一种谩骂评论的检测方法及系统

技术领域

本申请涉及人工智能领域和语言处理技术领域，具体涉及一种谩骂评论的检测方法及系统。

背景技术

关键词过滤的方式虽然能在一定程度上拦截部分谩骂评论，但存在两大问题：当谩骂词汇表的内容较少时，会导致关键词的覆盖度不够，从而导致检测模型的召回率下降；当谩骂词汇表的内容较丰富时，也就意味着会收录很多与谩骂词汇沾边的词，导致只要命中了谩骂词汇表中的内容的评论都会被过滤掉，从而导致模型检测的准确率下降。此外，谩骂词汇表的构建也存在浪费人力、特征选取效率低下的缺点。神经网络分类模型虽然在数据集的训练上效果良好，但发现当测试的数据集在模型表征上的效果存在误差时，会导致最终的检测模型准确率低下。

基于上述分析，提出一种能有效对谩骂评论检测的模型就显得尤为重要。

发明内容

针对现存的谩骂评论检测模型所存在的缺点，结合关键词过滤策略与神经网络算法的优点，本发明提出了一种谩骂评论的检测方法及系统，涉及人工智能领域和语言处理技术领域。本发明分别利用字级别和词级别的语义表示，对底层模型进行多层次建模，从而挖掘文本的深度特征，有效的提升了互联网谩骂评论的准确性，降低了人工提取特征的成本与后期谩骂词汇表的维护与更新成本。

为解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种谩骂评论的检测方法，包括：

获取待检测评论文本；

对所述待检测评论文本进行过滤；

将过滤后的待检测评论文本输入至预设的谩骂评论检测模型，得到待检测评论文本的检测结果；

其中，所述谩骂评论检测模型是通过多个历史评论文本对应的词向量和字向量训练形成的。

进一步地，在将待检测评论文本输入至预设的谩骂评论检测模型之前，还包括：

根据预设的最大长度对待检测评论文本进行截断，得到多个待检测词汇；

根据预设的谩骂词汇表对所述多个待检测词汇进行初步检测；

若所述多个待检测词汇中的至少一个词汇与所述谩骂词汇表中的谩骂词汇相匹配，则确定初步检测的结果为待检测评论文本是谩骂评论；

相对应地，所述对所述待检测评论文本进行过滤，具体为：

将初步检测结果不是谩骂评论的待检测评论文本过滤出来；

所述将待检测评论文本输入至预设的谩骂评论检测模型，具体为：

将初步检测的结果为不是谩骂评论的待检测评论文本输入值预设的谩骂评论检测模型。

进一步地，所述根据预设的谩骂词汇表对所述多个待检测词汇进行初步检测，包括：

分别对每个所述待检测词汇中以及每个所述谩骂词汇进行词嵌入操作，得到每个待检测词汇对应的第一词向量以及每个谩骂词汇对应的第二词向量；

针对每个第一词向量，分别计算其与每个第二词向量的夹角余弦值；

相对应地，当所述夹角余弦值超过预设阈值时，认为所述第一词向量对应的待检测词汇与所述第二词向量对应的谩骂词汇相匹配。

进一步地，对所述谩骂评论检测模型进行训练的步骤包括：

采集多个历史评论文本，并根据所述谩骂词汇表对每个历史评论文本进行过滤，得到未命中谩骂词汇表的训练历史评论文本；

分别采用随机初始化权重的卷积神经网络以及中文语料库对所述训练历史评论文本进行处理，得到对应的词向量和字向量；

对预设的分类模型进行预训练，使其可以学习评论文本深层语义信息；

使用所述词向量和字向量对经过预训练的分类模型进行二次训练，得到所述谩骂评论检测模型。

进一步地，所述分别采用随机初始化权重的卷积神经网络以及中文语料库对所述训练历史评论文本进行处理，得到对应的词向量和字向量，包括：

对所述训练历史评论文本进行字符分隔，得到对应的多个单字；

采用随机初始化权重的卷积神经网络对所述多个单字进行编码，得到所述训练历史评论文本对应的字向量；以及

对所述训练历史评论文本进行分词处理，得到对应的多个单词；

根据预设的中文语料库对所述多个单词进行表示，得到所述训练历史评论文本对应的词向量。

进一步地，所述使用所述词向量和字向量对经过预训练的分类模型进行二次训练，包括：

根据所述训练历史评论文本对应的词向量和字向量生成对应的上下文语义向量；

将所述训练历史评论文本对应的上下文语义向量以及预设的真实分类结果共同输入至经过预训练的分类模型，得到更新后的分类模型；

重复执行上述步骤对分类模型进行训练和更新，直至更新后的分类模型收敛；

根据收敛的分类模型参数构建神经网络模型，得到所述谩骂评论检测模型。

进一步地，所述根据所述训练历史评论文本对应的词向量和字向量生成对应的上下文语义向量，包括：

在每个训练历史评论文本的开头和结尾分别添加开头表示词以及结尾表示词，得到各训练历史评论文本对应的输入文本；

将所述训练历史评论文本对应的词向量和字向量以及所述输入文本输入一编码器，得到各训练历史评论文本的上下文语义向量。

进一步地，所述经过预训练的分类模型包括两层前向神经网络线性层；

所述将所述训练历史评论文本对应的上下文语义向量以及预设的真实分类结果共同输入至经过预训练的分类模型，得到更新后的分类模型，包括：

将所述训练历史评论文本对应的上下文语义向量以及预设的分类结果输入至第一层前向神经网络线性层进行降维处理，使所述第一层前向神经网络线性层输出上下文语义向量的降维特征向量；

将所述上下文语义向量的降维特征向量输入至第二层前向神经网络线性层，使所述第二层前向神经网络线性层输出所述训练历史评论文本的检测结果；

根据所述检测结果以及对应的真实分类结果对所述分类模型的参数进行更新，得到更新后的分类模型。

进一步地，所述将过滤后的待检测评论文本输入至预设的谩骂评论检测模型，得到待检测评论文本的检测结果，包括：

采用随机初始化权重的卷积神经网络以及中文语料库对待检测评论文本进行处理，得到对应的词向量和字向量；

根据待检测评论文本的词向量和字向量生成对应的上下文语义向量；

将待检测评论文本的上下文语义向量输入至所述谩骂评论检测模型，得到待检测评论文本的检测结果。

进一步地，所述获取待检测评论文本，包括：

获取待检测评论的完整语句；

去除待检测评论的完整语句中的非文本字符，得到所述待检测评论文本；

其中，所述非文本字符包括表情符号、标签、特殊字符。

第二方面，本申请一种谩骂评论的检测系统，包括：

文本获取模块，用于获取待检测评论文本；

文本过滤模块，用于对所述待检测评论文本进行过滤；

文本检测模块，用于将过滤后的待检测评论文本输入至预设的谩骂评论检测模型，得到待检测评论文本的检测结果；

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本申请提供的任一谩骂评论的检测方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请提供的任一谩骂评论的检测方法。

由上述技术方案可知，本申请提供的一种谩骂评论的检测方法及系统，选择多层次向量表示，并选择了参数已经在大量词库中进行最优化的二次预训练模型BERT，对评论进行编码处理。既能保证编码器能充分表示最终的语义表示，还能进一步提高检测模型的准确率和召回率。本发明充分结合策略检测与算法检测的优点，并通过两者的巧妙结合，降低人工成本，在最少算力的前提下，最大限度的保证了模型检测的准确性和有效性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中的谩骂评论的检测方法的流程示意图。

图2是本申请实施例中的谩骂评论的检测方法的另一种流程示意图。

图3是本申请实施例中的谩骂评论的检测方法的另一种流程示意图。

图4是本申请实施例中的谩骂评论的检测方法的另一种流程示意图。

图5是本申请实施例中的谩骂评论的检测方法的另一种流程示意图。

图6是本申请实施例中的谩骂评论的检测方法的另一种流程示意图

图7是本申请实施例中的谩骂评论的检测方法的另一种流程示意图。

图8是本申请实施例中的谩骂评论的检测方法的的另一种流程示意图。

图9是本申请实施例中谩骂评论的检测方法的的另一种流程示意图。

图10是本申请实施例中谩骂评论的检测系统的结构示意图。

图11是本申请实施例中谩骂评论检测模型结构示意图。

图12是本申请实施例中谩骂评论的检测系统操作流程示意图。

图13是本申请实施例中的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请可用于人工智能领域，当然，也可以用于其他领域，本申请不做限制。

目前，关键词过滤的方式虽然能在一定程度上拦截部分谩骂评论，但存在两大问题：当谩骂词汇表的内容较少时，会导致关键词的覆盖度不够，从而导致检测模型的召回率下降。

基于此，本申请提供一种谩骂评论的检测方法的实施例，参见图1，包括：

步骤S100：获取待检测评论文本；

步骤S200：对所述待检测评论文本进行过滤；

步骤S300：将过滤后的待检测评论文本输入至预设的谩骂评论检测模型，得到待检测评论文本的检测结果；其中，所述谩骂评论检测模型是通过多个历史评论文本对应的词向量和字向量训练形成的。

可以理解的是，BERT模型是由Google AI团队发布的基于双向Transformer构建的语言模型，对应的论文BERT:Pre-train of Deep Bidirectional Transformers forLanguage Understanding.该类模型属于可迁移的模型，主要是将预训练模型和下游任务模型结合在一起，属于天然的能支持文本分类任务的模型。Google根据Transformer层数的不同，以及大小写的设置，分别训练出了7种不同的模型文件，以供不同的下游任务的使用。本申请的谩骂评论检测模型可以为经过二次训练的BERT神经网络模型，预训练模型BERT的二次训练。具体做法如下：首先加载模型的初始参数，保证BERT的最大学习表征能力。由于BERT多数是在英文大型数据集上进行训练学习，为了能更好的适应中文谩骂评价数据集的下游任务，采用静态遮罩的方式，即随机对每条数据的一部分数据用“MASK”token进行替换，然后让其进行下一个句子的预测，并保存loss值最小的模型。在这个不断二次预训练与预测的过程中，参数将经过不断的调整，使其充分学习当前数据集的特征，更适用于下游任务。

选择多层次向量表示，并选择了参数已经在大量词库中进行最优化的二次预训练模型BERT，对评论进行编码处理。既能保证编码器能充分表示最终的语义表示，还能进一步提高检测模型的准确率和召回率。本发明充分结合策略检测与算法检测的优点，并通过两者的巧妙结合，降低人工成本，在最少算力的前提下，最大限度的保证了模型检测的准确性和有效性。

语义表示，是指将人类的语言转化为数据形式，使得神经网络能够进一步的处理。由于语言是由词组成的，因此可以追溯为词的表示。

在一些实施例中，利用one-hot形式进行词的表示，即将所有的词进行排序，利用高维稀疏矩阵将词对应的序号位置用1表示，其他位置为0。但这类方法维度大，词与词之间是相互独立的，无法表示词与词之间的语义信息。比如“皇帝”、“皇后”“猫”这三个词，明显能看出前两个词在语义上是有一定的联系的。而“猫”和前面两个词的语义联系不大。

此外，在一些实施例中，本发明的词表示还可以采用关于分布式表示的方法，包括基于矩阵的，基于聚类的、以及基于神经网络的分布式表示。目前较为成熟的是基于神经网络的分布式表示，典型的表示为word2vec，其核心是根据上下文的表示以及上下文与目标词之间的关系进行建模。此外，还有一些使用较为普遍的词向量工具：CNN、Glove、fasttext、ELMO等，都在不同的任务上表现出了优异的性能。

在本申请提供的谩骂评论的检测方法的一个实施例中，提供一种对待检测评论文本进行过滤的优选方式，参见图2，在将待检测评论文本输入至预设的谩骂评论检测模型之前，所述谩骂评论的检测方法还包括：

步骤S201：根据预设的最大长度对待检测评论文本进行截断，得到多个待检测词汇；

步骤S202：根据预设的谩骂词汇表对所述多个待检测词汇进行初步检测；具体为检测所述多个待检测词汇中的至少一个词汇与所述谩骂词汇表中的谩骂词汇相匹配；

步骤S203：判断初步检测的结果是否为待检测评论文本是谩骂评论；若是，则执行步骤204；若否，则执行步骤S300；

步骤S300：将过滤后的待检测评论文本输入至预设的谩骂评论检测模型；

步骤S204，输出待检测评论对应的检测结果，其中检测结果包括谩骂评论和非谩骂评论。

相对应地，所述对所述待检测评论文本进行过滤，具体为：

将初步检测结果不是谩骂评论的待检测评论文本过滤出来；

可以理解的是，谩骂词汇表的创建目的是为了能利用基于特征的方式快速找出文本中所包含的具有明显谩骂含义的词汇，进而评判待检测评论文本是否为谩骂评论，从而将其标签化。谩骂词汇表中收录有具有明显谩骂含义的词汇，即没有歧义的谩骂词汇。对于含有谩骂词汇的评论文本，通过匹配谩骂词汇表的方式可更快速的得到其检测结果，检测效率更高。因此本实施例通过谩骂词汇表匹配和模型检测两种方式的结合，既能在待检测评论含有谩骂词汇时实现快速检测，又能尽量避免隐含有谩骂含义的评论的遗漏，有助于提高谩骂评论检测的准确性和检测效率，同时减小了谩骂评论检测模型的运算压力。

其中，谩骂词汇表可以通过以下步骤形成：利用python爬虫技术，对真实的互联网评论的文本数据进行爬取；利用基于规则的方法对数据进行粗略的过滤，去除表情符号、标签、特殊字符等，保证每条评论都是纯本文的数据；最后设置最大长度，对每条评论进行截断，得到多个词汇；收录具有明显谩骂含义的词汇，建立谩骂词汇表。这里的“具有明显谩骂含义的词汇”即指没有歧义的谩骂词汇。

在一实施例中，参见图3，步骤S202，根据预设的谩骂评论表对所述多个待检测词汇进行初步检测，包括：

步骤S2021，分别对每个所述待检测词汇中以及每个所述谩骂词汇进行词嵌入操作，得到每个待检测词汇对应的第一词向量以及每个谩骂词汇对应的第二词向量；

步骤S2022，针对每个第一词向量，分别计算其与每个第二词向量的夹角余弦值；余弦值用以表征第一词向量与第二词向量的相似度。

相对应地，当所述夹角余弦值超过预设阈值时，即第一词向量和第二词向量的相似度超过预设阈值时，认为所述第一词向量对应的待检测词汇与所述第二词向量对应的谩骂词汇相匹配。

可以理解的是，先对待检测评论文本利用jieba分词工具进行分词，得到分词后的句子表示T’＝{t₁，t₂，…，t_N}。当待检测评论文本每个文字无法与其前后相邻文字组成常规词语时，则将该文字分割为单字，当该文字与其前后相邻文字组成常规词语时，将该常规词组分割为单词，单字和单次即作为步骤S021中的待检测词汇。然后对对T’中的每个待检测词汇t_i以及谩骂词汇表M中的每个谩骂词汇m_j进行Glove的词嵌入表示，得到两个词汇的向量表示：

然后利用它们之间的夹角的余弦值来计算相似度：

如果相似度大于预设阈值k，则说明待检测词汇与谩骂词汇相匹配，即标记该条待检测评论文本为谩骂评论文本。这里预设阈值例如可以设置为k＝0.8。

在本申请提供的谩骂评论的检测方法的一个实施例中，提供一种训练谩骂评论检测模型的优选方式，参见图4，通过多个历史评论文本对应的词向量和字向量训练的具体步骤，包括：

步骤S401，采集多个历史评论文本，并根据所述谩骂评论表对每个历史评论文本进行过滤，得到未命中谩骂评论表的训练历史评论文本；

具体地，过滤方法可以参照步骤S201和步骤S202中的步骤实施，对于获取到的所有历史评论文本进行过滤，得到不包含谩骂词汇的历史评论文本。可以理解的是，本申请将过滤得到的所有历史评论文本按照8：1：1进行分割形成训练集、验证集和测试集，训练集即为本申请的训练历史评论文本。

步骤S402，分别采用随机初始化权重的卷积神经网络以及中文语料库对所述训练历史评论文本进行处理，得到对应的词向量和字向量；

步骤S403，对预设的分类模型进行预训练，使其可以学习评论文本深层语义信息。

通过多方对比，本申请选择在分类任务上表现性能最为优异的BERT模型作为预设的分类模型。本申请选择加载预训练模型的方式对分类模型进行预训练，使其能最大限度上学习特征表示。预训练后的分类模型可以学习评论文本深层语义信息。

步骤S404，使用所述词向量和字向量对经过预训练的分类模型进行二次训练，得到所述谩骂评论检测模型。

本申请的谩骂评论检测模型是在可以学习评论文本深层语义信息的分类模型的基础上训练得到的，因此谩骂评论检测模型可以对待检测评论文本进行语音分析，判断待检测评论文本是否具有谩骂含义，因此确定待检测评论是否属于谩骂评论。

在一实施例中，如图5所示，步骤S402，分别采用随机初始化权重的卷积神经网络以及中文语料库对所述训练历史评论文本进行处理，得到对应的词向量和字向量，包括：

步骤S4021，对所述训练历史评论文本进行字符分隔，得到对应的多个单字；

步骤S4022，采用随机初始化权重的卷积神经网络对所述多个单字进行编码，得到所述训练历史评论文本对应的字向量；

具体地，步骤S4021和步骤S4022限定了生成字向量的过程，在字级别的表示上，不需要进行分词，直接利用CharTokenizer将文本T进行单独的字符隔开，并利用one-hot进行编码，得到文本的token表示为〖t〗^c＝{t_1^c，t_2^c，…，t_N^c}∈R^N，其中N表示字的数量。

本申请采用随机初始化权重的卷积神经网络CNN经过多个卷积层获得每个单词的有效的特征级嵌入表示，并通过池化层中的max-pooling进行特征选择与降维，只保留重要信息，从而获得每个单词的固定大小的向量表示进行字向量表示

由于需要用到BERT模型的bert_base_uncase，因此在进行嵌入式表示时，统一规定纬度为768。因此，

步骤S4023，对所述训练历史评论文本进行分词处理，得到对应的多个单词；

步骤S4024，根据预设的中文语料库对所述多个单词进行表示，得到所述训练历史评论文本对应的词向量。

具体地，步骤S4023和步骤S4024限定了生成词向量的过程，在词级别的表示上，利用哈工大NLP团队研究的jieba分词对每条评论的文本进行分词，得到分词后的token表示t^b＝{t_1^b，t_2^b，…，t_M^b}∈R^M，M表示文本中分词后的词的数量；将编码〖t〗^c、t^b输入嵌入式表示层得到对应的向量。然后s利用SpaceTokenizer将文本按照空格分开，然后采用BERT中在中文语料库上训练的google_zh_vocab去获得每个分词的固定向量表示进行词

在一实施例中，参见图6，步骤S404，使用所述词向量和字向量对经过预训练的分类模型进行二次训练，包括：

步骤S4041，根据所述训练历史评论文本对应的词向量和字向量生成对应的上下文语义向量；

具体地，字向量加上词向量的特征，不仅可以学习到上下文语义环境，还可以学习到词内部的构成特征，采用Highway network对字级别的嵌入表示与词级别的嵌入表示进行融合，获得上下文表示词

对上下文表示词进行编码得到上下文语义向量。

步骤S4042，将所述训练历史评论文本对应的上下文语义向量以及预设的真实分类结果共同输入至经过预训练的分类模型，得到更新后的分类模型；

具体地，分类模型包括一分类输出层，将每个训练历史评论文本对应的上下文语义向量及其对应的真实分类结果输入至分类输出层，分类输出层输出训练数据集中历史语句的检测结果；分类模型还包括一计算损失函数层，采用cross-entropy损失函数计算：

步骤S4043，判断更新后的分类模型是否达到收敛；若是，执行步骤S4044；若否，重复执行上述步骤S4041至步骤S4043；

具体地，判断更新后的分类模型是否达到收敛时，采用验证集进行测试，保存在验证集上表现最好的分类模型参数。判断时，将测试集进行分层和嵌入式表示之后，输入到表现最好的分类模型中。最后利用分类的准确率对模型的性能进行评估：

其中，TP表示预测为正、实际为正的样本数量，TN表示预测为负、实际为负的样本数量，FP表示预测为正、实际为负的样本数量，FN表示预测为负、实际为正的样本数量。

步骤S4044，根据收敛的分类模型参数构建神经网络模型，得到所述谩骂评论检测模型。

在一实施例中，参见图7，步骤S4041，根据所述训练历史评论文本对应的词向量和字向量生成对应的上下文语义向量，包括：

步骤S40411，在每个训练历史评论文本的开头和结尾分别添加开头表示词以及结尾表示词，得到各训练历史评论文本对应的输入文本；

步骤S40412，将所述训练历史评论文本对应的词向量和字向量以及所述输入文本输入一编码器，得到各训练历史评论文本的上下文语义向量。

可以理解的是，谩骂评论检测模型包括一编码层，采用编码层每个历史语句中的单字和单词各自对应的向量以及历史谩骂语句进行编码得到上下文语义向量，具体包括：将得到的分层嵌入表示{e₁，e₂，…，e_N}作为输入，利用二次预训练之后所得到的BERT模型进行编码。BERT模型由12层的双向变压器Transformer的编码器组成。输入模型之前，需要在句子前后添加能表示文本开头的表示[CLS]为

和能表示文本结尾的表示[SEP]。BERT模型的输入形式S₀:

T＝[CLS]+sentence+[SEP]

S₀＝E_T+E_P+E_S

其中，

在获得模型的嵌入式表示后，使用K个连续的双向变压器模块进行编码：

S_i＝Transformer(S_I-1)

其中，S_i表示第i层变压器的输出，i∈[1，12]。每个Transformer包含Maskedmulti-head attention层和feed-forward层。Multi-head attention层是把selfattention的过程做h次，然后把输出结合起来，具体计算如下：

head_i＝Attention(Q，K，V)

MultiHead(Q，K，V)＝[head₁，…，head_h]W^O

其中，Q、K、V由输入的词向量乘以对应的权值矩阵所得，

W^O属于可学习参数，

h＝12，表示Attention的层数，

其中，d_model＝768，属于BERT的默认参数设置。Q、K、V经过了一个Linear层做线性变换，然后Q、K做矩阵相乘后进行维度缩放，再进行softmax得到权值矩阵与V相乘得到每个头的输出。

Feed-forward层的具体计算如下：

其中，O_i表示经过第i个Multi-head attention层后的输出表示，

ρ、μ属于可学习参数。最后得到每一层transformer的输出

总的输出

并提取出最后每一层的CLS的编码表示

H＝{H¹，H²，…，H^h}

在一实施例中，参见图8，所述经过预训练的分类模型包括两层前向神经网络线性层；步骤S4042，将所述训练历史评论文本对应的上下文语义向量以及预设的真实分类结果共同输入至经过预训练的分类模型，得到更新后的分类模型，包括：

步骤S40421，将所述训练历史评论文本对应的上下文语义向量以及预设的分类结果输入至第一层前向神经网络线性层进行降维处理，使所述第一层前向神经网络线性层输出上下文语义向量的降维特征向量；

步骤S40422，将所述上下文语义向量的降维特征向量输入至第二层前向神经网络线性层，使所述第二层前向神经网络线性层输出所述训练历史评论文本的检测结果；

步骤S40423，根据所述检测结果以及对应的真实分类结果对所述分类模型的参数进行更新，得到更新后的分类模型。

在得到编码后的上下文语义向量后，默认选择[CLS]的语义向量作为训练历史评论文本的表示。把其作为输入经过两层前向神经网络线性层，通过线性变换，指定输出样本的大小进行降维，通过与权重矩阵的相乘，把高维特征降低成低维特征，将学到的分布式特征表示映射到样本标记空间，其中第二层的输出样本大小设置为2，用来判断是否属于谩骂评论，起到二分类的分类器作用并通过softmax计算最终的文本是否属于谩骂评论的概率：

P＝softmax(h_clsW_cls+b)

P_label＝P(C＝1|T)

其中，

属于可学习参数，lable_num＝2，h_cls表示经过BERT编码之后的[CLS]的语义表示，T为原始文本，经过线性变换后，得到最终的预测概率

当label为1，表示该文本为谩骂评论文本，label为0则表示该文本不属于谩骂评论。

可以理解的是，当更新后的分类模型达到收敛时，即可根据其参数构建具有同样结构的谩骂评论检测模型。使用谩骂评论检测模型进行评论检测时，首先采用随机初始化权重的卷积神经网络以及中文语料库对待检测评论文本进行处理，得到对应的词向量和字向量；根据待检测评论文本的词向量和字向量生成对应的上下文语义向量；将待检测评论文本的上下文语义向量输入至所述谩骂评论检测模型，得到待检测评论文本的检测结果。

在一实施例中，如图9所示，步骤S100，获取待检测评论文本，包括：

步骤S101，获取待检测评论的完整语句；

步骤S102，去除待检测评论的完整语句中的非文本字符，得到所述待检测评论文本；其中，所述非文本字符包括表情符号、标签、特殊字符。

可以理解的是，为了保证数据的多样性与实用性，利用python爬虫技术，对真实的互联网评论文本中进行数据爬取。去除网页标签之后，对数据进行预处理，具体做法为：

首先利用基于规则的方法对数据进行粗略的过滤，去除表情符号、标签、特殊字符以及不能识别的字符等，保证每条评论为纯本文的数据；由于抓取样本的长度不受控制，因此需要设置最大长度，对每条评论进行截断，最终形成样本数据集D。接着需要对清洗后的评论文本进行标签化，主要利用“众包”技术进行标签化，形成label。

从上述描述可知，本申请提供的谩骂评论检测方法，通过真实的互联网评论数据采集、数据预处理及标记，形成模型的初始数据集。结合策略+算法的双重检测，首先，谩骂词汇表的建立有助于保证将评论中包含明显谩骂语义的数据直接检测出来，在保证准确率的前提下，减少了人工成本和后期的维护成本；其次，对于非命中谩骂词汇表的评论，由于可能存在隐式谩骂或类似于谩骂的语气词，为了挖掘出评论的深层语义信息，选择多层次向量表示，并选择了参数已经在大量词库中进行最优化的二次预训练模型BERT，对评论进行编码处理。既能保证编码器能充分表示最终的语义表示，还能进一步提高检测模型的准确率和召回率。本发明充分结合策略检测与算法检测的优点，并通过两者的巧妙结合，降低人工成本，在最少算力的前提下，最大限度的保证了模型检测的准确性和有效性。

从软件层面来说，为了解决现存的谩骂评论检测模型所存在的缺点，在本申请提供的谩骂评论的检测系统一个实施例，参见图10，包括：

文本获取模块1，用于获取待检测评论文本；

文本过滤模块2，用于对所述待检测评论文本进行过滤；

文本检测模块3，用于将过滤后的待检测评论文本输入至预设的谩骂评论检测模型，得到待检测评论文本的检测结果；其中，所述谩骂评论检测模型是通过多个历史评论文本对应的词向量和字向量训练形成的。

在具体的实施方式中，谩骂评论的检测系统还包括模型训练单元，利用已确定检测结果的历史评论文本对谩骂评论检测模型进行训练，谩骂评论检测模型为BERT模型，BERT模型包括分词层(图中未示出)、嵌入式表示层(包括位置嵌入、段嵌入、令牌嵌入)、编码层以及输出层，参见图11，分词层对言论文本进行分词处理，得到多个单字以及多个单词；嵌入式表示层对言论文本进行编码得到言论文本编码表示、字向量和词向量；编码层对言论文本、字向量和词向量进行编码得到上下文语义表示；输出层根据上下文语义表示得到言论文本的检测结果P_tabel。

谩骂评论的检测系统还包括粗检测单元，粗检测单元可以先对待检测评论文本进行检测，过滤一些明显谩骂含义的评论文本，将剩余的谩骂含义不明显的评论文本输入到谩骂评论检测模型进行检测。

在具体的实施方式中，模型训练单元和粗检测单元可以与文本检测模块结合在一起。

谩骂评论的检测系统的具体流程如下，参见图12：

数据采集模块组主要是将从互联网的一些新闻、社交平台爬取一些关于评论的文本数据集，形成原始数据并传输给数据预处理模块。

数据预处理模块主要是根据一定的规则，对脏数据进行数据清洗，只保留文本形式的评论，并对数据进行标记，形成模型所需的初始数据集。

策略粗检测模块包括谩骂词汇表的建立和判断两部分。由于建立的谩骂词汇表属于没有歧义，且能影响整个句子语义信息的词汇，因此可直接根据此表对评论中的内容进行匹配，一旦命中，即视为谩骂评论。

对于非命中谩骂词汇表的评价，进行模型的训练。训练包括两部分：首先进行预训练模型BERT的二次预训练，使其能学习此类评论数据集的深层语义信息，并保存模型参数；其次是对评论分别用Char-CNN模型和BERT中的google_zh_vocab进行字级别的向量表示和词级别的向量表示后进行融合，并通过BERT模型编码器，获得整个评论的上下文高维表示。

最后通过两层前向神经网络，对代表整个句子类型信息的[CLS]的高维特征表示用线性变换进行降维处理，达到二分类的目的。而后经过softmax函数处理计算概率判断每条评论是否为谩骂评论。

以上是对整个模型进行训练的具体过程。由于BERT模型中的各种参数已经在大量数据集上进行训练过，因此只需对模型训练3-5个epoch并保存每个epoch的训练模型，利用验证集选择出最优模型，最后用测试集对学习好的检测模型进行测试，达到能检测出谩骂评论的效果。

从硬件层面来说，为了解决现有的检测模型的缺点，本申请提供一种用于实现所述谩骂评论的检测方法中的全部或部分内容的电子设备的实施例，所述电子设备具体包含有如下内容：

图13为本申请实施例的电子设备9600的系统构成的示意框图。如图13所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图13是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在一实施例中，谩骂评论的检测功能可以被集成到中央处理器中。其中，中央处理器可以被配置为进行如下控制：

步骤S100：获取待检测评论文本；

步骤S200：对所述待检测评论文本进行过滤；

本发明提供的电子设备选择多层次向量表示，并选择了参数已经在大量词库中进行最优化的二次预训练模型BERT，对评论进行编码处理。既能保证编码器能充分表示最终的语义表示，还能进一步提高检测模型的准确率和召回率。本发明充分结合策略检测与算法检测的优点，并通过两者的巧妙结合，降低人工成本，在最少算力的前提下，最大限度的保证了模型检测的准确性和有效性。

在另一个实施方式中，谩骂评论的检测系统可以与中央处理器9100分开配置，例如可以将谩骂评论的检测系统配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现谩骂评论的检测功能。

如图13所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图13中所示的所有部件；此外，电子设备9600还可以包括图13中没有示出的部件，可以参考现有技术。

如图13所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

本申请的实施例还提供能够实现上述实施例中的谩骂评论的检测方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的谩骂评论的检测方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

步骤S100：获取待检测评论文本；

步骤S200：对所述待检测评论文本进行过滤；

本申请提供的计算机可读介质，选择多层次向量表示，并选择了参数已经在大量词库中进行最优化的二次预训练模型BERT，对评论进行编码处理。既能保证编码器能充分表示最终的语义表示，还能进一步提高检测模型的准确率和召回率。本发明充分结合策略检测与算法检测的优点，并通过两者的巧妙结合，降低人工成本，在最少算力的前提下，最大限度的保证了模型检测的准确性和有效性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种谩骂评论的检测方法，其特征在于，包括：

获取待检测评论文本；

对所述待检测评论文本进行过滤；

2.根据权利要求1所述谩骂评论的检测方法，其特征在于，在将待检测评论文本输入至预设的谩骂评论检测模型之前，还包括：

相对应地，所述对所述待检测评论文本进行过滤，具体为：

将初步检测结果不是谩骂评论的待检测评论文本过滤出来；

3.根据权利要求2所述谩骂评论的检测方法，其特征在于，所述根据预设的谩骂词汇表对所述多个待检测词汇进行初步检测，包括：

4.根据权利要求1所述的谩骂评论的检测方法，其特征在于，对所述谩骂评论检测模型进行训练的步骤包括：

5.根据权利要求4所述的谩骂评论的检测方法，其特征在于，所述分别采用随机初始化权重的卷积神经网络以及中文语料库对所述训练历史评论文本进行处理，得到对应的词向量和字向量，包括：

6.根据权利要求4所述的谩骂评论的检测方法，其特征在于，所述使用所述词向量和字向量对经过预训练的分类模型进行二次训练，包括：

7.根据权利要求6所述的谩骂评论的检测方法，其特征在于，所述根据所述训练历史评论文本对应的词向量和字向量生成对应的上下文语义向量，包括：

8.根据权利要求6所述的谩骂评论的检测方法，其特征在于，所述经过预训练的分类模型包括两层前向神经网络线性层；

9.根据权利要求8所述的谩骂评论的检测方法，其特征在于，所述将过滤后的待检测评论文本输入至预设的谩骂评论检测模型，得到待检测评论文本的检测结果，包括：

10.根据权利要求1所述的谩骂评论的检测方法，其特征在于，所述获取待检测评论文本，包括：

获取待检测评论的完整语句；

其中，所述非文本字符包括表情符号、标签、特殊字符。

11.一种谩骂评论的检测系统，其特征在于，包括：

文本获取模块，用于获取待检测评论文本；

文本过滤模块，用于对所述待检测评论文本进行过滤；

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至10任一项所述的谩骂评论的检测方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的谩骂评论的检测方法。