CN112131453A

CN112131453A - 一种基于bert的网络不良短文本检测方法、装置及存储介质

Info

Publication number: CN112131453A
Application number: CN202010871788.9A
Authority: CN
Inventors: 高望; 朱珣; 邓宏涛; 刘哲; 王煜炜
Original assignee: Jianghan University
Current assignee: Jianghan University
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-12-25

Abstract

本发明涉及一种基于BERT的网络不良短文本检测方法、装置及计算机可读存储介质，一种基于BERT的网络不良短文本检测方法，包括以下步骤：采集短文本并进行标注，将标注后的短文本分为测试数据集和训练数据集，根据测试数据集和训练数据集训练BERT模型，得到基于不良短文本检测的BERT模型；将待检测短文本及其对应的额外信息输入至基于不良短文本检测的BERT模型中，获取对应的隐藏状态的语义表示，根据隐藏状态的语义表示，获取不良短文本标签；将不良短文本标签、待检测短文本及其对应的额外信息输入至基于不良短文本检测的BERT模型中，获取对应的隐藏状态的语义表示，根据隐藏状态的语义表示，判别出不良短文本的类型。该方法提高了不良短文本检测的性能。

Description

一种基于BERT的网络不良短文本检测方法、装置及存储介质

技术领域

本发明涉及不良文本信息检测技术领域，尤其涉及一种基于BERT的网络不良短文本检测方法、装置及计算机可读存储介质。

背景技术

随着移动互联网和信息技术的飞速发展，各种社交媒体平台的大量使用对人们的生活和行为方式带来了巨大的改变；例如：微博、论坛和微信等网络应用逐渐成为了人们对网络热点事件分享和讨论的主要阵地。然而，一部分用心不良的网民利用互联网的虚拟性、匿名性和便捷性等特点，在网络中传播大量不良短文本，如色情、暴恐和广告等信息。这些网络不良短文本可以迅速传播到互联网的各个角落，不仅严重污染网络环境，还影响青少年身心健康。因此，通过信息技术自动检测出网民在社交媒体平台上发布的不良短文本信息，可以大大减轻人工审核的工作量，有助于创建和谐网络环境，并提升网民信息检索效率。

网络不良短文本检测任务是将网络短文本信息划分为正常短文本和不良短文本两类；然而，由于短文本噪声大、长度短、信息稀疏等特点，传统分类方法在短文本上效果较差；很多研究者利用主题信息丰富短文本的语义特征，进而提高分类性能，但网民在社交平台上发表的短文本信息往往用语不规范，缺少词语共现信息，且主题非常宽泛。

传统主题模型从短文本中抽取高质量主题特征是非常困难的，导致了不良短文本检测的性能较低。

发明内容

有鉴于此，有必要提供一种基于BERT的网络不良短文本检测方法、装置及计算机可读存储介质，用以解决现有技术中网络不良短文本检测的性能较低的技术问题。

本发明提供一种基于BERT的网络不良短文本检测方法，包括以下步骤：

采集短文本，对所述短文本进行标注，将标注后的短文本分为测试数据集和训练数据集，根据所述测试数据集和训练数据集训练BERT模型，得到基于不良短文本检测的BERT模型；

将待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中，获取对应的隐藏状态的语义表示，根据隐藏状态的语义表示，获取不良短文本标签；

将所述不良短文本标签、待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中，获取对应的隐藏状态的语义表示，根据隐藏状态的语义表示，判别出不良短文本的类型。

进一步地，对所述短文本进行标注，将标注后的短文本分为测试数据集和训练数据集，根据所述测试数据集和训练数据集训练BERT模型，具体包括，将所述短文本标注为不良短文本或者正常短文本，将不良短文本标注为不同类型的不良短文本，将标注后的短文本分为测试数据集和训练数据集，利用测试数据集、训练数据集以及短文本的额外信息，训练BERT模型。

进一步地，利用测试数据集、训练数据集以及短文本的额外信息，训练BERT模型，具体包括，利用测试数据集、训练数据集以及短文本的额外信息，并使用Gelu作为激活函数，使用Adam优化器，使用交叉熵损失函数训练BERT模型，其中，交叉熵损失函数为

其中，y表示短文本数据集的真实标签，p表示模型预测的标签，m表示标签的数量，n表示短文本数据集的数量。

进一步地，将待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中，获取对应的隐藏状态的语义表示，根据隐藏状态的语义表示，获取不良短文本标签，具体包括，将待检测短文本及其对应的额外信息进行向量化，得到输入向量，将所述输入向量输入至所述于不良短文本检测的BERT模型，将输入向量编码为隐藏状态，获取隐藏状态的注意力权重，根据所述隐藏状态及其注意力权重，获取隐藏状态的语义表示，根据所述隐藏状态的语义表示，获取不良短文本标签。

进一步地，根据所述隐藏状态的语义表示，判别出不良短文本，具体包括，将[CLS]代表的短文本与所有隐藏状态的语义表示连接起来，形成用于分类的向量R，将向量R输入全连接层，获取不良短文本标签。

进一步地，获取隐藏状态的注意力权重，具体包括，利用注意力权重计算公式，获取获取隐藏状态的注意力权重，其中，注意力权重计算公式为

f表示关系评分函数，f(H_i,T)＝tanh(W[H_i:T]+b)，tanh表示双曲正切激活函数，W和b表示模型的参数，H_i、T分别为隐藏状态和主题特征，A_i为注意力权重。

进一步地，根据所述隐藏状态及其注意力权重，获取隐藏状态的语义表示，具体包括，利用语义表示公式，获取隐藏状态的语义表示，其中，所述语义表示公式为

进一步地，将所述不良短文本标签、待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中，获取对应的隐藏状态的语义表示，根据隐藏状态的语义表示，判别出不良短文本的类型，具体包括，所述不良短文本标签、待检测短文本及其对应的额外信息进行向量化，得到输入向量，将所述输入向量输入至所述于不良短文本检测的BERT模型，将输入向量编码为隐藏状态，获取隐藏状态的注意力权重，根据所述隐藏状态及其注意力权重，获取隐藏状态的语义表示，根据所述隐藏状态的语义表示，判别出不良短文本。

本发明还提供了一种基于BERT的网络不良短文本检测装置，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现如上述任一技术方案所述的基于BERT的网络不良短文本检测方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机该程序被处理器执行时，实现如上述任一技术方案的基于BERT的网络不良短文本检测方法。

与现有技术相比，本发明的有益效果包括：通过采集短文本，对所述短文本进行标注，将标注后的短文本分为测试数据集和训练数据集，根据所述测试数据集和训练数据集训练BERT模型，得到基于不良短文本检测的BERT模型；将待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中，获取对应的隐藏状态的语义表示，根据隐藏状态的语义表示，获取不良短文本标签；将所述不良短文本标签、待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中，获取对应的隐藏状态的语义表示，根据隐藏状态的语义表示，判别出不良短文本的类型；提高了不良短文本检测的性能。

附图说明

图1为本发明实施例1提供的基于BERT的网络不良短文本检测方法的流程示意图；

图2本发明实施例1提供的基于不良短文本检测的BERT模型的结构示意图；

图3本发明实施例1提供的TBERT模型与基准模型的性能对比实验结果。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

实施例1

本发明实施例提供了一种基于BERT的网络不良短文本检测方法，其流程示意图，如图1所示，所述方法包括以下步骤：

步骤S1、采集短文本，对所述短文本进行标注，将标注后的短文本分为测试数据集和训练数据集，根据所述测试数据集和训练数据集训练BERT模型，得到基于不良短文本检测的BERT模型；

S2、将待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中，获取对应的隐藏状态的语义表示，根据隐藏状态的语义表示，获取不良短文本标签；

S3、将所述不良短文本标签、待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中，获取对应的隐藏状态的语义表示，根据隐藏状态的语义表示，判别出不良短文本的类型。

一个具体实施例中，基于BERT的网络不良短文本检测方法包括TBERT的短文本表示生成过程，TBERT的额外信息融合过程及TBERT的两阶段分类过程；

短文本表示的生成过程是由BERT模型作为编码器完成的；在BERT模型结构中，利用Transformer对输入进行编码；

假设输入短文本用X＝(字符1，字符2，……，字符N)表示，短文本的长度用N表示；分段向量、字符向量和位置向量共同表示输入短文本X；分段向量用于区分两个不同的文本段，字符向量用于表示短文本中的每个字符，位置向量用于为模型提供位置信息；在向量化表示之后，模型的输入为向量E＝(E₁，E₂，……，E_N)；在BERT模型中，自注意力和多头注意力机制用于将向量E编码为隐藏状态H＝(H₁，H₂，……，H_N)；自注意力机制指的是一个查询到一系列键—值对的映射；令Q、K和V分别表示查询、键和值，自注意力权重可通过如下公式计算得到；

多头注意力允许模型在不同的表示子空间里都能学习到相关的信息，具体指的是每次Q、K和V进行线性变换的参数都是不一样的；然后将多次的注意力结果进行拼接，再进行一次线性变换得到的值作为多头注意力的结果，如下公式所示，

MultiHead(Q,K,V)＝Concat(head₁,head₂,...,head_h)W^O

其中，Concat表示连接操作，

表示参数矩阵；

一个具体实施例中，多头注意力层数h＝12，d_k＝d_v＝d_modeL/h＝64，由于每个多头层的维数减少，总的计算成本与全维度的单头注意力的计算成本相似，在原始的BERT模型中，[CLS]作为第一个字符被添加到字符序列，其隐藏状态H_c被用作分类任务的短文本表示R_c，本发明实施例中，将所有隐藏状态合并为用于分类的短文本向量表示，并融合了额外信息；

优选的，对所述短文本进行标注，将标注后的短文本分为测试数据集和训练数据集，根据所述测试数据集和训练数据集训练BERT模型，具体包括，将所述短文本标注为不良短文本或者正常短文本，将不良短文本标注为不同类型的不良短文本，将标注后的短文本分为测试数据集和训练数据集，利用测试数据集、训练数据集以及短文本的额外信息，训练BERT模型；

优选的，利用测试数据集、训练数据集以及短文本的额外信息，训练BERT模型，具体包括，利用测试数据集、训练数据集以及短文本的额外信息，并使用Gelu作为激活函数，使用Adam优化器，使用交叉熵损失函数训练BERT模型，其中，交叉熵损失函数为

其中，y表示短文本数据集的真实标签，p表示模型预测的标签，m表示标签的数量，n表示短文本数据集的数量；

优选的，将待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中，获取对应的隐藏状态的语义表示，根据隐藏状态的语义表示，获取不良短文本标签，具体包括，将待检测短文本及其对应的额外信息进行向量化，得到输入向量，将所述输入向量输入至所述于不良短文本检测的BERT模型，将输入向量编码为隐藏状态，获取隐藏状态的注意力权重，根据所述隐藏状态及其注意力权重，获取隐藏状态的语义表示，根据所述隐藏状态的语义表示，获取不良短文本标签；

一个具体实施例中，基于不良短文本检测的BERT模型的结构示意图，如图2所示，图2中，粗粒度标签即为不良短文本标签，细粒度即为不良短文本类型，E_L为粗粒度标签生成的向量，[SEP]为BERT模型中的字符，所述基于不良短文本检测的BERT模型，通过两种方式融合额外信息，第一种是将一部分额外信息直接添加到短文本的头部，形成一个更长的，语义特征更丰富的短文本表示，以缓解稀疏性问题；第二种是是利用主题特征来计算注意力，这决定了所有隐藏状态在输出短文本表示中的权重，与该短文本主题相关性更强的隐藏状态将在短文本表示中占有更大的权重；

优选的，根据所述隐藏状态的语义表示，判别出不良短文本，具体包括，将[CLS]代表的短文本与所有隐藏状态的语义表示连接起来，形成用于分类的向量R，将向量R输入全连接层，获取不良短文本标签。

优选的，获取隐藏状态的注意力权重，具体包括，利用注意力权重计算公式，获取获取隐藏状态的注意力权重，其中，注意力权重计算公式为

一个具体实施例中，使用GPU-DMM主题模型抽取短文本的主题特征，并使用隐藏状态H和主题特征T之间的关系来计算注意力权重；

优选的，根据所述隐藏状态及其注意力权重，获取隐藏状态的语义表示，具体包括，利用语义表示公式，获取隐藏状态的语义表示，其中，所述语义表示公式为

一个具体实施中，将[CLS]代表的短文本表示R_c和所有隐藏状态的语义表示R_H连接起来形成用于分类的向量表示R，R＝Concat(R_c,R_H)

优选的，将所述不良短文本标签、待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中，获取对应的隐藏状态的语义表示，根据隐藏状态的语义表示，判别出不良短文本的类型，具体包括，所述不良短文本标签、待检测短文本及其对应的额外信息进行向量化，得到输入向量，将所述输入向量输入至所述于不良短文本检测的BERT模型，将输入向量编码为隐藏状态，获取隐藏状态的注意力权重，根据所述隐藏状态及其注意力权重，获取隐藏状态的语义表示，根据所述隐藏状态的语义表示，判别出不良短文本。

需要说明的是，在网络不良短文本检测任务中，难以明确界定某些短文本的标签，这是因为这些短文本是由用心不良的网民特意编造的，为了使它们具有误导性和迷惑性，这些短文本既包含普通内容又含有不良信息；因此，不应将网络不良短文本检测视为一个简单的文本二分类任务，不良短文本还应细分为暴恐、涉政、广告、色情等类别；

将短文本划分为“普通”和“不良”并不能适用于网络不良短文本的所有情况，应该使用更多类别对短文本进行分类，但是，细粒度多分类模型通常要比二类别分类模型更难以训练和建模，本发明实施例提供的基于不良短文本检测的BERT模型，可以用来区分不同粒度的标签，模型的两个阶段能够相互促进；

如图2所示，基于不良短文本检测的BERT模型在两个阶段是比较相似的，TBERT首先根据粗粒度标签划分网络短文本，即“普通”和“不良”两类；然后，模型再根据细粒度标签将短文本划分为多个类别，类别数量由数据集的特性决定；在第二个阶段，该模型将第一阶段得到的粗粒度标签(即不良短文本标签)作为第二阶段输入的一部分，并遵循同样的建模方式，对所有输入进行细粒度分类，即判别出不良短文本的类型。

另一个具体实施中，将现有的支持向量机、随机森林和BERT模型作为基准模块与本发明实施例所述的基于不良短文本检测的BERT模型，使用网络不良短文本检测常用的性能评价指标即准确率、召回率和F1值对实验结果进行分析；

采集并标注了4236条短文本，其中2118条为不良短文本，类别包括敏感短文本、灌水短文本、广告短文本和色情短文本；随机选择400条不良短文本和400条正常短文本作为测试数据集，剩余的短文本作为训练数据集；对于第一部分的额外信息，评论数、微博数、作者粉丝数、点赞数经过离散化后，直接作为模型输入序列中的一部分；对于第二部分的额外信息，短文本对应主题中概率最高的10个词语构成该短文本的主题特征，用于计算注意力权重；TBERT模型(基于不良短文本检测的BERT模型)使用预训练BERT_BASE(Chinese)模型，使用Gelu作为激活函数，使用Adam优化器，学习率设置为5e-5，Dropout概率设置为0.1；TBERT模型与基准模型的性能对比实验结果，如图3所示，本发明实施例所述的基于不良短文本检测的BERT模型在3个评价指标上均要优于3种基准模型。

实施例2

本发明实施例提供了一种基于BERT的网络不良短文本检测装置，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现如实施例1所述的基于BERT的网络不良短文本检测方法。

实施例3

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机该程序被处理器执行时，实现如实施例1所述的基于BERT的网络不良短文本检测方法。

本发明公开了一种基于BERT的网络不良短文本检测方法、装置及计算机可读存储介质，通过采集短文本，对所述短文本进行标注，将标注后的短文本分为测试数据集和训练数据集，根据所述测试数据集和训练数据集训练BERT模型，得到基于不良短文本检测的BERT模型；将待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中，获取对应的隐藏状态的语义表示，根据隐藏状态的语义表示，获取不良短文本标签；将所述不良短文本标签、待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中，获取对应的隐藏状态的语义表示，根据隐藏状态的语义表示，判别出不良短文本的类型；提高了不良短文本检测的性能；

本发明所述技术方案通过学习到更鲁棒更鲁棒的短文本表示，从而提取适合网络不良短文本检测的文本特征；充分考虑到不同类型的网络不良短文本之间的关联，将检测过程划分为两个阶段，并利用额外信息丰富短文本语义，还利用所有隐藏状态特征进行分类，从而缓解短文本信息稀疏问题；还通过粗粒度分类和细粒度分类相互促进，提高不良短文本检测准确率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于BERT的网络不良短文本检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于BERT的网络不良短文本检测方法，其特征在于，对所述短文本进行标注，将标注后的短文本分为测试数据集和训练数据集，根据所述测试数据集和训练数据集训练BERT模型，具体包括，将所述短文本标注为不良短文本或者正常短文本，将不良短文本标注为不同类型的不良短文本，将标注后的短文本分为测试数据集和训练数据集，利用测试数据集、训练数据集以及短文本的额外信息，训练BERT模型。

3.根据权利要求1所述的基于BERT的网络不良短文本检测方法，其特征在于，利用测试数据集、训练数据集以及短文本的额外信息，训练BERT模型，具体包括，利用测试数据集、训练数据集以及短文本的额外信息，并使用Gelu作为激活函数，使用Adam优化器，使用交叉熵损失函数训练BERT模型，其中，交叉熵损失函数为

4.根据权利要求1所述的基于BERT的网络不良短文本检测方法，其特征在于，将待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中，获取对应的隐藏状态的语义表示，根据隐藏状态的语义表示，获取不良短文本标签，具体包括，将待检测短文本及其对应的额外信息进行向量化，得到输入向量，将所述输入向量输入至所述于不良短文本检测的BERT模型，将输入向量编码为隐藏状态，获取隐藏状态的注意力权重，根据所述隐藏状态及其注意力权重，获取隐藏状态的语义表示，根据所述隐藏状态的语义表示，获取不良短文本标签。

5.根据权利要求4所述的基于BERT的网络不良短文本检测方法，其特征在于，根据所述隐藏状态的语义表示，判别出不良短文本，具体包括，将[CLS]代表的短文本与所有隐藏状态的语义表示连接起来，形成用于分类的向量R，将向量R输入全连接层，获取不良短文本标签。

6.根据权利要求5所述的基于BERT的网络不良短文本检测方法，其特征在于，获取隐藏状态的注意力权重，具体包括，利用注意力权重计算公式，获取获取隐藏状态的注意力权重，其中，注意力权重计算公式为

7.根据权利要求6所述的基于BERT的网络不良短文本检测方法，其特征在于，根据所述隐藏状态及其注意力权重，获取隐藏状态的语义表示，具体包括，利用语义表示公式，获取隐藏状态的语义表示，其中，所述语义表示公式为

8.根据权利要求6所述的基于BERT的网络不良短文本检测方法，其特征在于，将所述不良短文本标签、待检测短文本及其对应的额外信息输入至所述基于不良短文本检测的BERT模型中，获取对应的隐藏状态的语义表示，根据隐藏状态的语义表示，判别出不良短文本的类型，具体包括，所述不良短文本标签、待检测短文本及其对应的额外信息进行向量化，得到输入向量，将所述输入向量输入至所述于不良短文本检测的BERT模型，将输入向量编码为隐藏状态，获取隐藏状态的注意力权重，根据所述隐藏状态及其注意力权重，获取隐藏状态的语义表示，根据所述隐藏状态的语义表示，判别出不良短文本。

9.一种基于BERT的网络不良短文本检测装置，其特征在于，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-8任一所述的基于BERT的网络不良短文本检测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机该程序被处理器执行时，实现如权利要求1-8任一所述的基于BERT的网络不良短文本检测方法。