CN116881449A - 一种基于Bert和Bi-LSTM的恶意评论检测方法 - Google Patents

一种基于Bert和Bi-LSTM的恶意评论检测方法 Download PDF

Info

Publication number
CN116881449A
CN116881449A CN202310658036.8A CN202310658036A CN116881449A CN 116881449 A CN116881449 A CN 116881449A CN 202310658036 A CN202310658036 A CN 202310658036A CN 116881449 A CN116881449 A CN 116881449A
Authority
CN
China
Prior art keywords
bert
lstm
comment
malicious
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310658036.8A
Other languages
English (en)
Inventor
邵玉斌
李公瑾
杜庆治
马儀
田地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202310658036.8A priority Critical patent/CN116881449A/zh
Publication of CN116881449A publication Critical patent/CN116881449A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于Bert和Bi‑LSTM的恶意评论检测方法,属于文本分类技术领域。首先利用Bert模型预训练语言模型来学习评论文本的词向量表示,在恶意评论的检测中需要结合评论文本的上下文来获得精准的语义信息,将Bert应用在恶意评论任务的检测中有效地改善了模型的效果。其次是利用Bi‑LSTM来实现特征的二次提取,捕捉双向的语义依赖关系,进一步丰富语义信息的向量表示。然后引入注意力机制给重点信息赋予更高的权重;最后通过Softmax函数来得到恶意评论的分类结果,完成对恶意评论的检测任务。本方法提升了模型对恶意评论的识别率,为防范社交媒体带来的负面影响提供了参考价值。

Description

一种基于Bert和Bi-LSTM的恶意评论检测方法
技术领域
本发明涉及一种基于Bert和Bi-LSTM的恶意评论检测方法,属于文本分类技术领域。
背景技术
随着社会加速向数字时代转型,越来越多的人通过网络社交媒体发表言论,这种传递信息的交互模式提高了人们的生活质量,但同时也带来了一些藏匿于网络的危险,近几年有多个新闻报道了由不正当言论引起的人身攻击、网络骚扰和网络欺凌事件,破坏了网络社交环境,对个人及社会产生严重的危害。研究者将具有人身攻击、侮辱、威胁和淫秽等性质的评论定义为恶意评论。为防止恶意评论对个人和社会带来的负面影响,恶意评论的检测已经成为研究的焦点。目前有很多用于恶意评论检测的方法,其中机器学习方法占多数。传统的机器学习方法通过词袋模型得到评论文本特征后再将其送入到分类模型中预测类别,这类方法直观且简单但是存在高维的特征稀疏和无法有效地编码上下文关联信息的缺陷,导致使用传统的机器学习方法检测精度低的问题。
在深度学习研究的进步中,研究者们正在尝试通过深度学习方法来提高检测的准确率。Word2vec通过CBOW(Continuous bag of words)和skip-gram两个模型降低了向量的维度,解决了稀疏性的问题,但是训练出的词向量和词是一一对应的关系,无法准确的表示具有多个意思的词语。
发明内容
为解决背景技术提出的技术问题,本发明提供了一种基于Bert和Bi-LSTM的恶意评论检测方法,具体步骤如下:
步骤1:收集评论文本数据并进行预处理得到数据集。目前关于恶意评论检测的数据集以英文数据集为主。为得到中文的恶意评论数据集,通过网络数据收集工具和人工收集的方式,从各主流社交媒体上获得评论文本数据。其中通过爬虫爬取得到的数据包含网名、点赞数量和转发数量等其它与判别评论文本是否为恶意评论无关的信息需要删除,此外评论文本一般为长度在50字以内短文本,为了使过长或过短的评论文本不影响分类的准确率,以及要把评论文本长度控制在Bert模型最佳处理长度内,需要设置长度阈值对阈值外的评论文本进行处理。
步骤2:通过Bert模型训练数据集得到向量表示,将评论文本原始的词向量输入到Bert模型,输出融合了全文语义信息的向量表示;
步骤3:构建Bi-LSTM模型,将Bert模型输出的向量表示输入到Bi-LSTM模型中捕捉双向的语义依赖关系,进一步丰富语义信息的向量表示;
步骤4:引入注意力机制,给关键信息赋予更高的权重;
步骤5:通过Softmax函数,输出分类结果;
步骤6:用测试集评估基于Bert和Bi-LSTM的恶意评论检测模型的性能。通过准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值来进行评估,计算公式如下所示:
本发明使用Bert来获得词向量表示。评论文本经过词嵌入句嵌入和位置嵌入/>的融合得到Bert的输入E=(e1,e2,…,en),其中是评论中第i个单词的词向量;再通过多个Transformer编码器编码后得到评论文本的向量表示V=(v1,v2,…,vn)。
本发明采用Bi-LSTM有效地编码词与上下文的关联信息。Bert的输出向量vt作为t时刻LSTM的输入,Wf、Wi、Wo、Wc分别表示遗忘门、输入门、输出门和当前输入状态的权重矩阵,bf、bi、bo、bc分别表示遗忘门、输入门、输出门和当前输入单元的偏置。计算公式如下:
ft=σ(Wf·[ht-1,vt]+bf)
it=σ(Wi·[ht-1,vt]+bi)
ot=σ(Wo·[ht-1,vt]+bo)
ht=ot·tanh(ct)
使用的Bi-LSTM学习评论文本的时序特征,从前向和后向两个方向编码信息,前向LSTM即隐藏状态输出为/>后向LSTM即/>隐藏状态输出为/>计算公式如下:
融合前向和后向的LSTM输出得到Bi-LSTM的输出向量ht,计算公式如下:
本发明使用注意力机制进一步获取相关度最大的特征,降低维度的同时避免信息丢失。LSTM无法充分利用每个时刻的输出,但注意力机制可以对各个时刻的输出特征进行加权融合:首先计算向量和键值的相似度,得到权重;然后利用Softmax函数对步骤4.1得到的权重进行归一化;最后通过权重和对应键值的加权求和计算,输出向量a。
本发明利用Softmax函数进行分类。通过注意力机制融合后的向量a通过Softmax函数计算后将概率值最大的类别作为分类的结果y,计算公式如下:
y=softmax(Wca+bc)
本发明具有的有益效果包括:利用Bert模型预训练语言模型来学习评论文本的向量表示:首先Bert模型中的Transformer特征抽取器可以通过联合调节各层的上下文表示来预训练深度的双向向量表示。Bert模型使用遮蔽语言模型来实现预训练的深度双向表示,增加了对上下文的记忆。在评论文本中需要结合上下文来获得精准的信息,将Bert应用在恶意评论检测的任务中有效地改善了模型的效果。其次是利用Bi-LSTM来实现特征的二次提取,捕捉双向的语义依赖关系,有效地编码词与上下文的关联信息,从而获取更丰富的语义信息。然后引入注意力机制给关键信息赋予更高的权重;最后通过Softmax函数来得到恶意评论的分类结果,提升模型对评论文本的识别率,为防范社交媒体带来的负面影响提供了参考价值。
附图说明
图1是本发明构建的基于Bert和Bi-LSTM的恶意评论检测方法的模型图;
图2是一种基于Bert和Bi-LSTM的恶意评论检测方法流程图;
图3是恶意评论数据收集和处理的步骤;
图4是Transformer结构图;
图5是LSTM的单元结构。
具体实施方式
下面结合附图,对本发明作进一步的具体描述,以便于本领域技术人员能够更加清楚地理解本技术方案的流程,但是有一点得特别提醒,在本发明的构思框架下,任何没有做出巨大改进措施的情况下的其他实施例,都属于本发明的保护范畴。
下面结合附图和实施例对本发明作进一步说明。
图1为本发明构建的一种基于Bert和Bi-LSTM的恶意评论检测方的模型示意图,首先将处理好的评论文本数据输入到模型中,经过嵌入层得到初步的向量表示;然后通过词嵌入、句嵌入和位置嵌入的融合得到Bert的输入向量,将向量输入到双向Transformer特征抽取器中得到具有准确语义信息的向量表示;再把Bert输出的向量表示输入到Bi-LSTM中捕捉双向的语义依赖关系,进一步丰富语义信息的向量表示;利用注意力机制计算每个时序的权重,对所有时序的向量进行加权;最后通过利用Sfotmax对注意力机制中输出的向量进行分类,得到模型预测的结果。图2是一种基于Bert和Bi-LSTM的恶意评论检测方法流程图,具体实现如下:
步骤1:收集评论文本数据并对数据进行预处理得到数据集。如图3所示,目前关于恶意评论检测的数据集以英文数据集为主。为得到中文的恶意评论数据集,通过网络数据收集工具和人工收集的方式,从各主流社交媒体获得评论文本数据。其中通过爬虫爬取得到的数据包含网名、点赞数量和转发数量等其它与判别评论文本是否为恶意评论无关的信息需要删除,此外评论文本一般为长度在50字以内短文本,为了使过长或过短的评论文本不影响分类的准确率,以及要把评论文本长度控制在Bert模型最佳处理长度内,需要设置长度阈值对阈值外的评论文本进行处理。通过对数据的收集和整理可以看出在中文社交媒体上的恶意评论主要为人身攻击、侮辱、威胁和淫秽信息四大类,其中人身攻击占多数。如表1所示,恶意评论的数量占评论总数的12.4%,各类标签的数量差距较大,采用数据增强的方法来均衡各类标签。
表1数据集标签
步骤2:通过Bert模型训练数据集得到向量表示。将评论文本原始的词向量输入到Bert模型,输出融合了全文语义信息的向量表示。本发明所提出的方法代码基于Pytorch框架,处理器为Intel(R)Core(TM)i5-12500H 3.10GHz,使用的GPU为NVIDIA GeForce RTX3050,编程语言为python 3.6。使用中文版的Bert-Base具有12层Transformer特征提取层,12头注意力机制,768隐藏单元。评论文本经过词嵌入句嵌入/>和位置嵌入/>的融合得到Bert的输入E=(e1,e2,…,en),其中/>是评论中第i个单词的词向量;再通过多个Transformer编码器编码后得到评论文本的向量表示V=(v1,v2,…,vn),图4是Transformer的结构。
步骤3:构建Bi-LSTM,将Bert输出的向量表示输入到Bi-LSTM中捕捉双向的语义依赖关系,进一步丰富语义信息的向量表示。发明采用Bi-LSTM有效地编码词与上下文的关联信息。Bert的输出向量vt作为t时刻LSTM的输入,图5是LSTM的单元结构,Wf、Wi、Wo、Wc分别表示遗忘门、输入门、输出门和当前输入状态的权重矩阵,bf、bi、bo、bc分别表示遗忘门、输入门、输出门和当前输入单元的偏置。计算公式如下:
ft=σ(Wf·[ht-1,vt]+bf)
it=σ(Wi·[ht-1,vt]+bi)
ot=σ(Wo·[ht-1,vt]+bo)
ht=ot·tanh(ct)
使用的Bi-LSTM学习评论文本的时序特征,从前向和后向两个方向编码信息,前向LSTM即隐藏状态输出为/>后向LSTM即/>隐藏状态输出为/>计算公式如下:
融合前向和后向的LSTM输出,得到Bi-LSTM的输出ht,计算公式如下:
步骤4:引入注意力机制,给重要信息赋予更高的权重;
步骤5:将向量输入到Softmax函数函数,输出分类结果;本发明利用Softmax函数进行分类。注意力机制融合后得到的向量a通过Softmax函数计算后将概率值最大的类别作为分类的结果y,计算公式如下:
y=softmax(Wca+bc)
步骤6:用测试集评估Bert和Bi-LSTM模型的恶意评论检测性能。使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值来进行评估,计算公式如下所示:

Claims (6)

1.一种基于Bert和Bi-LSTM的恶意评论检测方法,其特征在于:
步骤1:收集评论文本数据并进行预处理得到数据集;
步骤2:通过Bert模型训练数据集得到向量表示;
步骤3:构建Bi-LSTM模型,将Bert模型输出的向量表示输入到Bi-LSTM模型中捕捉双向的语义依赖关系,进一步丰富语义信息的向量表示;
步骤4:引入注意力机制,给关键信息赋予更高的权重;
步骤5:通过Softmax函数,输出分类结果;
步骤6:用测试集评估Bert-Bi-LSTM模型的恶意评论检测性能。
2.根据权利要求1所述的一种基于Bert和Bi-LSTM的恶意评论检测方法,其特征在于,所述步骤1具体过程如下:通过网络数据收集工具和人工收集的方式,从各主流社交媒体获取评论文本数据,将与判别评论文本是否为恶意评论无关的信息需要删除,设置长度阈值对评论文本进行处理。
3.根据权利要求1所述的一种基于Bert和Bi-LSTM的恶意评论检测方法,其特征在于,所述步骤2具体过程如下:
步骤2.1:数据集中评论文本经过词嵌入、句嵌入和位置嵌入的融合得到Bert的输入向量;
步骤2.2:输入向量通过多个Transformer编码器编码后得到评论文本的向量表示。
4.根据权利要求1所述的一种基于Bert和Bi-LSTM的恶意评论检测方法,其特征在于,所述步骤3中利用Bi-LSTM学习评论文本的时序特征,从前向和后向两个方向编码信息,融合前向和后向的LSTM输出,得到语义信息丰富的向量表示。
5.根据权利要求1所述的一种基于Bert和Bi-LSTM的恶意评论检测方法,其特征在于,所述步骤4具体步骤如下:
步骤4.1:计算向量和键值的相似度,得到权重;
步骤4.2:利用Softmax函数对步骤4.1得到的权重进行归一化;
步骤4.3:通过权重和对应键值的加权求和计算,输出结果。
6.根据权利要求1所述的一种基于Bert和Bi-LSTM的恶意评论检测方法,其特征在于,所述步骤5中利用注意力机制融合后得到的向量通过Softmax函数计算后,将概率值最大的类别作为分类的结果。
CN202310658036.8A 2023-06-05 2023-06-05 一种基于Bert和Bi-LSTM的恶意评论检测方法 Pending CN116881449A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310658036.8A CN116881449A (zh) 2023-06-05 2023-06-05 一种基于Bert和Bi-LSTM的恶意评论检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310658036.8A CN116881449A (zh) 2023-06-05 2023-06-05 一种基于Bert和Bi-LSTM的恶意评论检测方法

Publications (1)

Publication Number Publication Date
CN116881449A true CN116881449A (zh) 2023-10-13

Family

ID=88255714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310658036.8A Pending CN116881449A (zh) 2023-06-05 2023-06-05 一种基于Bert和Bi-LSTM的恶意评论检测方法

Country Status (1)

Country Link
CN (1) CN116881449A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743698A (zh) * 2024-02-05 2024-03-22 青岛国实科技集团有限公司 基于ai大模型的网络恶意写手识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743698A (zh) * 2024-02-05 2024-03-22 青岛国实科技集团有限公司 基于ai大模型的网络恶意写手识别方法及系统
CN117743698B (zh) * 2024-02-05 2024-05-24 青岛国实科技集团有限公司 基于ai大模型的网络恶意写手识别方法及系统

Similar Documents

Publication Publication Date Title
Sun et al. RpBERT: a text-image relation propagation-based BERT model for multimodal NER
CN107092596B (zh) 基于attention CNNs和CCR的文本情感分析方法
CN111144131B (zh) 一种基于预训练语言模型的网络谣言检测方法
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN111966786B (zh) 一种微博谣言检测方法
CN110990564A (zh) 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN111444367B (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN111222338A (zh) 基于预训练模型和自注意力机制的生物医学关系抽取方法
CN112784041B (zh) 一种中文短文本情感倾向性分析方法
CN112070139B (zh) 基于bert与改进lstm的文本分类方法
CN111198947B (zh) 基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类方法和系统
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN112199503B (zh) 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN116881449A (zh) 一种基于Bert和Bi-LSTM的恶意评论检测方法
CN114462420A (zh) 一种基于特征融合模型的虚假新闻检测方法
CN111814450B (zh) 一种基于残差注意力的方面级情感分析方法
CN116205222A (zh) 一种基于多通道注意力融合的方面级情感分析系统及方法
CN111353040A (zh) 基于gru的属性级别情感分析方法
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
CN109299251A (zh) 一种基于深度学习算法的异常垃圾短信识别方法及系统
CN115906816A (zh) 一种基于Bert的双通道Attention模型的文本情感分析方法
CN112906820A (zh) 基于遗传算法的对抗卷积神经网络句子相似度计算方法
CN117033558A (zh) 一种融合bert-wwm与多特征的影评情感分析方法
Xu et al. Research on depression tendency detection based on image and text fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination