CN116881449A

CN116881449A - 一种基于Bert和Bi-LSTM的恶意评论检测方法

Info

Publication number: CN116881449A
Application number: CN202310658036.8A
Authority: CN
Inventors: 邵玉斌; 李公瑾; 杜庆治; 马儀; 田地
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-10-13

Abstract

本发明公开了一种基于Bert和Bi‑LSTM的恶意评论检测方法，属于文本分类技术领域。首先利用Bert模型预训练语言模型来学习评论文本的词向量表示，在恶意评论的检测中需要结合评论文本的上下文来获得精准的语义信息，将Bert应用在恶意评论任务的检测中有效地改善了模型的效果。其次是利用Bi‑LSTM来实现特征的二次提取，捕捉双向的语义依赖关系，进一步丰富语义信息的向量表示。然后引入注意力机制给重点信息赋予更高的权重；最后通过Softmax函数来得到恶意评论的分类结果，完成对恶意评论的检测任务。本方法提升了模型对恶意评论的识别率，为防范社交媒体带来的负面影响提供了参考价值。

Description

一种基于Bert和Bi-LSTM的恶意评论检测方法

技术领域

本发明涉及一种基于Bert和Bi-LSTM的恶意评论检测方法，属于文本分类技术领域。

背景技术

随着社会加速向数字时代转型，越来越多的人通过网络社交媒体发表言论，这种传递信息的交互模式提高了人们的生活质量，但同时也带来了一些藏匿于网络的危险，近几年有多个新闻报道了由不正当言论引起的人身攻击、网络骚扰和网络欺凌事件，破坏了网络社交环境，对个人及社会产生严重的危害。研究者将具有人身攻击、侮辱、威胁和淫秽等性质的评论定义为恶意评论。为防止恶意评论对个人和社会带来的负面影响，恶意评论的检测已经成为研究的焦点。目前有很多用于恶意评论检测的方法，其中机器学习方法占多数。传统的机器学习方法通过词袋模型得到评论文本特征后再将其送入到分类模型中预测类别，这类方法直观且简单但是存在高维的特征稀疏和无法有效地编码上下文关联信息的缺陷，导致使用传统的机器学习方法检测精度低的问题。

在深度学习研究的进步中，研究者们正在尝试通过深度学习方法来提高检测的准确率。Word2vec通过CBOW(Continuous bag of words)和skip-gram两个模型降低了向量的维度，解决了稀疏性的问题，但是训练出的词向量和词是一一对应的关系，无法准确的表示具有多个意思的词语。

发明内容

为解决背景技术提出的技术问题，本发明提供了一种基于Bert和Bi-LSTM的恶意评论检测方法，具体步骤如下：

步骤1：收集评论文本数据并进行预处理得到数据集。目前关于恶意评论检测的数据集以英文数据集为主。为得到中文的恶意评论数据集，通过网络数据收集工具和人工收集的方式，从各主流社交媒体上获得评论文本数据。其中通过爬虫爬取得到的数据包含网名、点赞数量和转发数量等其它与判别评论文本是否为恶意评论无关的信息需要删除，此外评论文本一般为长度在50字以内短文本，为了使过长或过短的评论文本不影响分类的准确率，以及要把评论文本长度控制在Bert模型最佳处理长度内，需要设置长度阈值对阈值外的评论文本进行处理。

步骤2：通过Bert模型训练数据集得到向量表示，将评论文本原始的词向量输入到Bert模型，输出融合了全文语义信息的向量表示；

步骤3：构建Bi-LSTM模型，将Bert模型输出的向量表示输入到Bi-LSTM模型中捕捉双向的语义依赖关系，进一步丰富语义信息的向量表示；

步骤4：引入注意力机制，给关键信息赋予更高的权重；

步骤5：通过Softmax函数，输出分类结果；

步骤6：用测试集评估基于Bert和Bi-LSTM的恶意评论检测模型的性能。通过准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值来进行评估，计算公式如下所示：

本发明使用Bert来获得词向量表示。评论文本经过词嵌入句嵌入和位置嵌入/>的融合得到Bert的输入E＝(e₁,e₂,…,e_n),其中是评论中第i个单词的词向量；再通过多个Transformer编码器编码后得到评论文本的向量表示V＝(v₁,v₂,…,v_n)。

本发明采用Bi-LSTM有效地编码词与上下文的关联信息。Bert的输出向量v_t作为t时刻LSTM的输入，W_f、W_i、W_o、W_c分别表示遗忘门、输入门、输出门和当前输入状态的权重矩阵，b_f、b_i、b_o、b_c分别表示遗忘门、输入门、输出门和当前输入单元的偏置。计算公式如下:

f_t＝σ(W_f·[h_t-1,v_t]+b_f)

i_t＝σ(W_i·[h_t-1,v_t]+b_i)

o_t＝σ(W_o·[h_t-1,v_t]+b_o)

h_t＝o_t·tanh(c_t)

使用的Bi-LSTM学习评论文本的时序特征，从前向和后向两个方向编码信息，前向LSTM即隐藏状态输出为/>后向LSTM即/>隐藏状态输出为/>计算公式如下：

融合前向和后向的LSTM输出得到Bi-LSTM的输出向量h_t，计算公式如下：

本发明使用注意力机制进一步获取相关度最大的特征，降低维度的同时避免信息丢失。LSTM无法充分利用每个时刻的输出，但注意力机制可以对各个时刻的输出特征进行加权融合：首先计算向量和键值的相似度，得到权重；然后利用Softmax函数对步骤4.1得到的权重进行归一化；最后通过权重和对应键值的加权求和计算，输出向量a。

本发明利用Softmax函数进行分类。通过注意力机制融合后的向量a通过Softmax函数计算后将概率值最大的类别作为分类的结果y，计算公式如下：

y＝softmax(W_ca+b_c)

本发明具有的有益效果包括：利用Bert模型预训练语言模型来学习评论文本的向量表示：首先Bert模型中的Transformer特征抽取器可以通过联合调节各层的上下文表示来预训练深度的双向向量表示。Bert模型使用遮蔽语言模型来实现预训练的深度双向表示，增加了对上下文的记忆。在评论文本中需要结合上下文来获得精准的信息，将Bert应用在恶意评论检测的任务中有效地改善了模型的效果。其次是利用Bi-LSTM来实现特征的二次提取，捕捉双向的语义依赖关系，有效地编码词与上下文的关联信息，从而获取更丰富的语义信息。然后引入注意力机制给关键信息赋予更高的权重；最后通过Softmax函数来得到恶意评论的分类结果，提升模型对评论文本的识别率，为防范社交媒体带来的负面影响提供了参考价值。

附图说明

图1是本发明构建的基于Bert和Bi-LSTM的恶意评论检测方法的模型图；

图2是一种基于Bert和Bi-LSTM的恶意评论检测方法流程图；

图3是恶意评论数据收集和处理的步骤；

图4是Transformer结构图；

图5是LSTM的单元结构。

具体实施方式

下面结合附图，对本发明作进一步的具体描述，以便于本领域技术人员能够更加清楚地理解本技术方案的流程，但是有一点得特别提醒，在本发明的构思框架下，任何没有做出巨大改进措施的情况下的其他实施例，都属于本发明的保护范畴。

下面结合附图和实施例对本发明作进一步说明。

图1为本发明构建的一种基于Bert和Bi-LSTM的恶意评论检测方的模型示意图，首先将处理好的评论文本数据输入到模型中，经过嵌入层得到初步的向量表示；然后通过词嵌入、句嵌入和位置嵌入的融合得到Bert的输入向量，将向量输入到双向Transformer特征抽取器中得到具有准确语义信息的向量表示；再把Bert输出的向量表示输入到Bi-LSTM中捕捉双向的语义依赖关系，进一步丰富语义信息的向量表示；利用注意力机制计算每个时序的权重，对所有时序的向量进行加权；最后通过利用Sfotmax对注意力机制中输出的向量进行分类，得到模型预测的结果。图2是一种基于Bert和Bi-LSTM的恶意评论检测方法流程图，具体实现如下：

步骤1：收集评论文本数据并对数据进行预处理得到数据集。如图3所示，目前关于恶意评论检测的数据集以英文数据集为主。为得到中文的恶意评论数据集，通过网络数据收集工具和人工收集的方式，从各主流社交媒体获得评论文本数据。其中通过爬虫爬取得到的数据包含网名、点赞数量和转发数量等其它与判别评论文本是否为恶意评论无关的信息需要删除，此外评论文本一般为长度在50字以内短文本，为了使过长或过短的评论文本不影响分类的准确率，以及要把评论文本长度控制在Bert模型最佳处理长度内，需要设置长度阈值对阈值外的评论文本进行处理。通过对数据的收集和整理可以看出在中文社交媒体上的恶意评论主要为人身攻击、侮辱、威胁和淫秽信息四大类，其中人身攻击占多数。如表1所示，恶意评论的数量占评论总数的12.4％，各类标签的数量差距较大，采用数据增强的方法来均衡各类标签。

表1数据集标签

步骤2：通过Bert模型训练数据集得到向量表示。将评论文本原始的词向量输入到Bert模型，输出融合了全文语义信息的向量表示。本发明所提出的方法代码基于Pytorch框架，处理器为Intel(R)Core(TM)i5-12500H 3.10GHz，使用的GPU为NVIDIA GeForce RTX3050，编程语言为python 3.6。使用中文版的Bert-Base具有12层Transformer特征提取层，12头注意力机制，768隐藏单元。评论文本经过词嵌入句嵌入/>和位置嵌入/>的融合得到Bert的输入E＝(e₁,e₂,…,e_n),其中/>是评论中第i个单词的词向量；再通过多个Transformer编码器编码后得到评论文本的向量表示V＝(v₁,v₂,…,v_n)，图4是Transformer的结构。

步骤3：构建Bi-LSTM，将Bert输出的向量表示输入到Bi-LSTM中捕捉双向的语义依赖关系，进一步丰富语义信息的向量表示。发明采用Bi-LSTM有效地编码词与上下文的关联信息。Bert的输出向量v_t作为t时刻LSTM的输入，图5是LSTM的单元结构，W_f、W_i、W_o、W_c分别表示遗忘门、输入门、输出门和当前输入状态的权重矩阵，b_f、b_i、b_o、b_c分别表示遗忘门、输入门、输出门和当前输入单元的偏置。计算公式如下:

f_t＝σ(W_f·[h_t-1,v_t]+b_f)

i_t＝σ(W_i·[h_t-1,v_t]+b_i)

o_t＝σ(W_o·[h_t-1,v_t]+b_o)

h_t＝o_t·tanh(c_t)

融合前向和后向的LSTM输出，得到Bi-LSTM的输出h_t，计算公式如下：

步骤4：引入注意力机制，给重要信息赋予更高的权重；

步骤5：将向量输入到Softmax函数函数，输出分类结果；本发明利用Softmax函数进行分类。注意力机制融合后得到的向量a通过Softmax函数计算后将概率值最大的类别作为分类的结果y，计算公式如下：

y＝softmax(W_ca+b_c)

步骤6：用测试集评估Bert和Bi-LSTM模型的恶意评论检测性能。使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值来进行评估，计算公式如下所示：

。

Claims

1.一种基于Bert和Bi-LSTM的恶意评论检测方法，其特征在于：

步骤1：收集评论文本数据并进行预处理得到数据集；

步骤2：通过Bert模型训练数据集得到向量表示；

步骤4：引入注意力机制，给关键信息赋予更高的权重；

步骤5：通过Softmax函数，输出分类结果；

步骤6：用测试集评估Bert-Bi-LSTM模型的恶意评论检测性能。

2.根据权利要求1所述的一种基于Bert和Bi-LSTM的恶意评论检测方法，其特征在于，所述步骤1具体过程如下：通过网络数据收集工具和人工收集的方式，从各主流社交媒体获取评论文本数据，将与判别评论文本是否为恶意评论无关的信息需要删除，设置长度阈值对评论文本进行处理。

3.根据权利要求1所述的一种基于Bert和Bi-LSTM的恶意评论检测方法，其特征在于，所述步骤2具体过程如下：

步骤2.1：数据集中评论文本经过词嵌入、句嵌入和位置嵌入的融合得到Bert的输入向量；

步骤2.2：输入向量通过多个Transformer编码器编码后得到评论文本的向量表示。

4.根据权利要求1所述的一种基于Bert和Bi-LSTM的恶意评论检测方法，其特征在于，所述步骤3中利用Bi-LSTM学习评论文本的时序特征，从前向和后向两个方向编码信息，融合前向和后向的LSTM输出，得到语义信息丰富的向量表示。

5.根据权利要求1所述的一种基于Bert和Bi-LSTM的恶意评论检测方法，其特征在于，所述步骤4具体步骤如下：

步骤4.1：计算向量和键值的相似度，得到权重；

步骤4.2：利用Softmax函数对步骤4.1得到的权重进行归一化；

步骤4.3：通过权重和对应键值的加权求和计算，输出结果。

6.根据权利要求1所述的一种基于Bert和Bi-LSTM的恶意评论检测方法，其特征在于，所述步骤5中利用注意力机制融合后得到的向量通过Softmax函数计算后，将概率值最大的类别作为分类的结果。