CN112307755A - 基于多特征和深度学习的垃圾评论识别方法 - Google Patents

基于多特征和深度学习的垃圾评论识别方法 Download PDF

Info

Publication number
CN112307755A
CN112307755A CN202011044456.XA CN202011044456A CN112307755A CN 112307755 A CN112307755 A CN 112307755A CN 202011044456 A CN202011044456 A CN 202011044456A CN 112307755 A CN112307755 A CN 112307755A
Authority
CN
China
Prior art keywords
features
comment
gru
sequence
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011044456.XA
Other languages
English (en)
Inventor
于永新
张晴
杜亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011044456.XA priority Critical patent/CN112307755A/zh
Publication of CN112307755A publication Critical patent/CN112307755A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多特征和深度学习的垃圾评论识别方法。首先对文本进行预处理,然后使用Word2Vec的Skip‑Gram模型生成词向量,之后使用CNN和Bi‑GRU分别提取评论文本内容的局部特征和序列特征,然后手动提取评论者特征,最后将这些特征融合在一起输入到全连接层,再经过Softmax激活函数输出分类结果。本发明考虑到了评论文本内容的局部特征和序列特征、评论者特征、评论的认可特征等多个特征,使特征更加全面和丰富,从而使识别更加准确。

Description

基于多特征和深度学习的垃圾评论识别方法
技术领域
本发明涉及到数据挖掘、自然语言处理领域,特别涉及一种基于多特征和深度学习的垃 圾评论识别方法。
背景技术
随着互联网技术的飞速发展和不断成熟,互联网已经渗透到了人们的生活中,网络购物 的已经成为人们生活中主流的消费方式,由于网络的虚拟性,人们在网上选购商品时,无法 触摸到真实的商品,只能通过商品的描述和商品的评论来判断商品的质量。由于网络发言的 自由性,用户可以自由发表言论,有些用户会发表一些无关商品的,没有参考价值的的评论。 一些商家也会雇佣人们为自己撰写过度褒奖的评论或者对竞争对手撰写刻意贬低的评论。这 些垃圾评论会影响用户的购物体验,甚至会误导用户。因此在线垃圾评论检测对于维护健康 的网络环境和消费者的利益有着巨大的意义。
目前垃圾评论识别主要有两种类型,一种是基于机器学习的方法,例如朴素贝叶斯、支 持向量机等方法,这些方法需要手动构建特征并且提取不到文本的深层次的语义信息。另一 种是基于深度学习的方法,不需要手动构建特征,是通过神经网络自动学习深层语义特征, 取得了很好的效果。
目前用于自然语言处理的神经网络主要有卷积神经网络和循环神经网络。卷积神经网络 可以很好的捕捉到文本的局部信息,但是卷积过滤器宽度有限,只能感知到有限范围的信息, 不具有全局性。而循环神经网络能够对序列信息进行建模,但是其在训练过程中会出现梯度 爆炸和梯度消失的问题。LSTM在循环神经网络的基础上引入了门,较好的解决了循环神经 网络的弊端。GRU相比于LSTM,精简了网络结构,提升了训练的速度。
发明内容
鉴于上述,本发明针对现有垃圾评论识别的缺陷,提供一种基于多特征和深度学习的垃 圾评论识别方法。
本发明首先对文本进行预处理,然后使用Word2Vec的Skip-Gram模型生成词向量,之后 使用CNN和Bi-GRU分别提取评论文本内容的局部特征和序列特征,然后手动提取评论者特 征,最后将这些特征融合在一起输入到全连接层,再经过Softmax激活函数输出分类结果。 本发明考虑到了评论文本内容的局部特征和序列特征、评论者特征、评论的认可特征等多个 特征,使特征更加全面和丰富,从而使识别更加准确。
本发明的技术方案是:一种基于多特征和深度学习的垃圾评论识别方法,具体包括以下 步骤:
1)对评论文本进行预处理,使用Word2Vec的Skip-Gram模型对词语进行训练,生成词语的 词向量表示。
2)使用CNN模型对评论文本内容进行特征提取,得到评论文本内容的局部特征。
3)使用Bi-GRU模型对评论文本内容进行特征提取,得到评论文本内容的上下文序列特征。
4)手动提取评论者特征、评论的认可特征。
5)对上述得到的多种特征进行特征融合,输入到Softmax层进行分类。
有益效果
本发明的优点在于:
1.本方案分别使用CNN和Bi-GRU提取评论文本内容的局部特征和上下文序列特征,不仅 考虑了文本的局部语义信息还考虑到了文本双向的上下文语义信息,获取的特征更加全面。
2.本方案融合了评论文本内容的局部特征和上下文序列特征、评论者特征、评论的认可特征 等多个特征进行垃圾评论识别,考虑的特征更加丰富全面。
附图说明
图1是本发明垃圾评论识别流程图。
具体实施方式
一种基于多特征和深度学习的垃圾评论识别方法,具体实施流程如图1所示。本方法主 要通过CNN和Bi-GRU分别提取评论文本内容的局部特征和序列特征,手动提取评论者特征、 评论的认可特征,最后将这些特征融合在一起输入到Softmax层进行分类。
具体包括以下步骤:
1)将评论文本进行分词处理,生成单独的词语。由于评论文本中可能包含一些对研究没 有意义的词语,比如特殊符号、停用词、代词、语气词等,故需要将这些词语去除。以排除 无关信息的影响。然后将分解后的单词输入到Word2Vec的Skip-Gram模型中生成单词的向量 表示。Word2Vec是通过学习文本来用词向量的方式表征词的语义信息,即通过一个词向量空 间使得语义上相似的单词在该词向量空间上也是相近的,因此生成的词向量保留了深层语义 特征,并且避免了传统One-Hot表示方法所产生的维度灾难问题。
2)CNN可以对评论文本的局部语义信息进行提取,为了提取到多个粒度的局部信息,故 采用多个不同宽度的卷积过滤器分别进行特征提取。
2.1)输入n个d维词向量组成的二维矩阵x∈Rn×d,其中n代表词向量个数,d代表词向 量的维度;采用宽度分别为2,3,4的卷积过滤器,假设卷积核的宽度为p,卷积核的长度和词向量维度相等,w∈Wp×d,p代表卷积核能覆盖的词向量个数,卷积核从上到下在词向 量组成的矩阵中滑动,滑动到i位置,将词向量窗口和卷积核窗口进行卷积操作得到ai, ai=f(W·Xi:i+h-1+b),Xi:i+h-1代表第i个词向量到第i+h-1个词向量所构成的窗口,W代 表卷积核参数,b代表卷积核偏置,f代表激活函数,所得到的卷积结果序列为A= (a1,a2,...,an-h+1);
2.2)再采用池化层对卷积序列进行降维,采用最大池化方式提取出序列中最显著的特征, a=max(a1,a2,...,an-h+1);将多个卷积核会卷积池化的结果拼接在一起,形成新的序列 (a1,a2,...,ak),其中k为卷积核的个数,将这个序列作为局部文本特征向量。
3)GRU网络在对文本进行学习时,可以保留文本的序列信息,学习到文本中词语的上下 文序列关系,可以更好地对文本进行特征表示,本发明中使用的Bi-GRU是GRU的变体,会 从文本从前往后和从后往前两个方向来学习文本,因此可以更全面地学习文本的上下文的语 义信息。双向GRU有两层结构,每一个序列从正向和反向分别通过GRU的两层结构,这样 就学习到了文本序列的历史和未来的上下文信息。正向和反向都会保留每个时刻的隐含层输 出,将正向和反向的隐含层连接,作为最终的隐含层输出。
3.1)将该评论文本的词向量矩阵输入到Bi-GRU模型中,对评论文本的上下文序列信息 进行提取,对于一条评论文本,它包含有n个词,n个词的词向量构成了n维输入(x1,x2,...,xn), 建立Bi-GRU网络来处理这个文本,对文本从前往后和从后往前两个方向分别进行学习,得 到的正向GRU隐藏层输出为:
Figure BDA0002707585180000031
得到反向GRU隐藏层输出为:
Figure BDA0002707585180000032
再将每个时刻的正向GRU隐藏层输出和反向GRU隐藏层输出合并起来作为ht
3.2)本发明采用的是带有注意力机制的Bi-GRU,通过给隐藏层的各个节点分配不同的 权重,来使模型注意到更重要的语义特征,一个节点被分配的权重越大,那么代表其在分类 中会起到更重要的作用,将Bi-GRU输出的隐藏层序列输入到注意力机制层:
et=tanh(Ws1ht+bs1)
αt=softmax(Ws2et+bs2)
通过注意力机制层的两层神经网络,经过Softmax激活函数计算权值,获得文本各个部分的 注意力权重,最后将隐藏层节点和其权值相乘,再求和得到最终文本特征向量:
Figure BDA0002707585180000043
4)由于仅从文本内容来进行垃圾评论识别,由于特征的单一性,可能会使结果误判,所 以本方法对评论者的信息进行提取,本方法选取了评论者的粉丝数量、注册时间、评论频率、 获赞数量等作为评论者特征,获取所有评论者的数据,将这些指标进行归一化,得到评论者 特征向量。Y=(y1,y2,...,yn),yi∈[0,1]。
5)再将上述的文本特征,评论者特征进行融合,假设这些特征表达分别为F1,F2,...,Fn, 融合后的特征为
Figure BDA0002707585180000044
其中
Figure BDA0002707585180000045
代表拼接,接着将融合的特征输入到全连接层, 再使用Softmax激活函数,Output=Softmax(W·F+B),最终得到分类结果。
综上所述是本发明的具体实施方式,在本领域的普通技术人员可以在不脱离本发明宗旨 下,在自己所具备的知识范畴内,做出改进和补充。

Claims (3)

1.基于多特征和深度学习的垃圾评论识别方法,其特征在于,包括如下步骤:
1)对评论文本进行预处理,使用Word2Vec的Skip-Gram模型对词语进行训练,生成词语的词向量表示;
2)使用CNN模型对评论文本内容进行特征提取,得到评论文本内容的局部特征;
3)使用Bi-GRU模型对评论文本内容进行特征提取,得到评论文本内容的上下文序列特征;
4)手动提取评论者特征、评论的认可特征;
5)对上述得到的多种特征进行特征融合,输入到Softmax层进行分类。
2.根据权利要求1所述的基于多特征和深度学习的垃圾评论识别方法,其特征在于,所述步骤2)具体:
2.1)输入n个d维词向量组成的二维矩阵x∈Rn×d,其中n代表词向量个数,d代表词向量的维度;
采用宽度分别为2,3,4的卷积过滤器,假设卷积核的宽度为p,卷积核的长度和词向量维度相等,w∈Wp×d,p代表卷积核能覆盖的词向量个数,卷积核从上到下在词向量组成的矩阵中滑动,滑动到i位置,将词向量窗口和卷积核窗口进行卷积操作得到ai,ai=f(W·Xi:i+h-1+b),Xi:i+h-1代表第i个词向量到第i+h-1个词向量所构成的窗口,W代表卷积核参数,b代表卷积核偏置,f代表激活函数,所得到的卷积结果序列为A=(a1,a2,...,an-h+1);
2.2)再采用池化层对卷积序列进行降维,采用最大池化方式提取出序列中最显著的特征,a=max(a1,a2,...,an-h+1);
将多个卷积核会卷积池化的结果拼接在一起,形成新的序列(a1,a2,...,ak),其中k为卷积核的个数,将这个序列作为局部文本特征向量。
3.根据权利要求1所述的基于多特征和深度学习的垃圾评论识别方法,其特征在于,所述步骤3)具体:
3.1)将该评论文本的词向量矩阵输入到Bi-GRU模型中,对评论文本的上下文序列信息进行提取,对于一条评论文本,它包含有n个词,n个词的词向量构成了n维输入(x1,x2,...,xn),建立Bi-GRU网络来处理这个文本,对文本从前往后和从后往前两个方向分别进行学习,得到的正向GRU隐藏层输出为:
Figure RE-FDA0002812710300000011
得到反向GRU隐藏层输出为:
Figure RE-FDA0002812710300000021
再将每个时刻的正向GRU隐藏层输出和反向GRU隐藏层输出合并起来作为ht
3.2)采用的是带有注意力机制的Bi-GRU,通过给隐藏层的各个节点分配不同的权重,来使模型注意到更重要的语义特征,一个节点被分配的权重越大,那么代表其在分类中会起到更重要的作用,将Bi-GRU输出的隐藏层序列输入到注意力机制层:
et=tanh(Ws1ht+bs1)
αt=softmax(Ws2et+bs2)
通过注意力机制层的两层神经网络,经过Softmax激活函数计算权值,获得文本各个部分的注意力权重,最后将隐藏层节点和其权值相乘,再求和得到最终文本特征向量:
Figure RE-FDA0002812710300000022
CN202011044456.XA 2020-09-28 2020-09-28 基于多特征和深度学习的垃圾评论识别方法 Pending CN112307755A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011044456.XA CN112307755A (zh) 2020-09-28 2020-09-28 基于多特征和深度学习的垃圾评论识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011044456.XA CN112307755A (zh) 2020-09-28 2020-09-28 基于多特征和深度学习的垃圾评论识别方法

Publications (1)

Publication Number Publication Date
CN112307755A true CN112307755A (zh) 2021-02-02

Family

ID=74489159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011044456.XA Pending CN112307755A (zh) 2020-09-28 2020-09-28 基于多特征和深度学习的垃圾评论识别方法

Country Status (1)

Country Link
CN (1) CN112307755A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486227A (zh) * 2021-07-01 2021-10-08 哈尔滨理工大学 一种基于深度学习的购物平台商品垃圾评论的识别方法
CN113590818A (zh) * 2021-06-30 2021-11-02 中国电子科技集团公司第三十研究所 一种基于cnn与gru及knn融合的政务文本数据分类方法
CN113641798A (zh) * 2021-10-12 2021-11-12 成都晓多科技有限公司 一种针对商家的扰乱性评论的识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472052A (zh) * 2019-07-31 2019-11-19 西安理工大学 一种基于深度学习的中文社交平台情感分析方法
CN111428513A (zh) * 2020-05-11 2020-07-17 安徽理工大学 一种基于卷积神经网络的虚假评论分析方法
CN111666480A (zh) * 2020-06-10 2020-09-15 东北电力大学 一种基于滚动式协同训练的虚假评论识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472052A (zh) * 2019-07-31 2019-11-19 西安理工大学 一种基于深度学习的中文社交平台情感分析方法
CN111428513A (zh) * 2020-05-11 2020-07-17 安徽理工大学 一种基于卷积神经网络的虚假评论分析方法
CN111666480A (zh) * 2020-06-10 2020-09-15 东北电力大学 一种基于滚动式协同训练的虚假评论识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ASAD ABDI等: "Deep learning-based sentiment classification of evaluative text based on Multi-feature fusion", 《INFORMATION PROCESSING & MANAGEMENT》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590818A (zh) * 2021-06-30 2021-11-02 中国电子科技集团公司第三十研究所 一种基于cnn与gru及knn融合的政务文本数据分类方法
CN113590818B (zh) * 2021-06-30 2023-05-26 中国电子科技集团公司第三十研究所 一种基于cnn与gru及knn融合的政务文本数据分类方法
CN113486227A (zh) * 2021-07-01 2021-10-08 哈尔滨理工大学 一种基于深度学习的购物平台商品垃圾评论的识别方法
CN113641798A (zh) * 2021-10-12 2021-11-12 成都晓多科技有限公司 一种针对商家的扰乱性评论的识别方法及系统

Similar Documents

Publication Publication Date Title
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
Lai et al. Fine-grained emotion classification of Chinese microblogs based on graph convolution networks
CN109492229B (zh) 一种跨领域情感分类方法和相关装置
CN109977413A (zh) 一种基于改进cnn-lda的情感分析方法
CN113065577A (zh) 一种面向目标的多模态情感分类方法
CN112307755A (zh) 基于多特征和深度学习的垃圾评论识别方法
CN112861541B (zh) 一种基于多特征融合的商品评论情感分析方法
CN110765769B (zh) 一种基于子句特征的实体属性依赖情感分析方法
Zhang et al. A Contrastive learning-based Task Adaptation model for few-shot intent recognition
Zhu et al. Joint visual-textual sentiment analysis based on cross-modality attention mechanism
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
Gandhi et al. Multimodal sentiment analysis: review, application domains and future directions
Luo et al. Multi-aspect feature based neural network model in detecting fake reviews
Chen et al. Joint multimodal sentiment analysis based on information relevance
Chaudhuri Visual and text sentiment analysis through hierarchical deep learning networks
Sharma et al. Memebusters at SemEval-2020 task 8: Feature fusion model for sentiment analysis on memes using transfer learning
CN113268592B (zh) 基于多层次交互注意力机制的短文本对象情感分类方法
Shaik et al. Recurrent neural network with emperor penguin-based Salp swarm (RNN-EPS2) algorithm for emoji based sentiment analysis
Vayadande et al. Mood Detection and Emoji Classification using Tokenization and Convolutional Neural Network
CN111666410B (zh) 商品用户评论文本的情感分类方法及系统
Ashraf et al. A study of deep learning methods for same-genre and cross-genre author profiling
Wang et al. Prediction of perceived utility of consumer online reviews based on lstm neural network
Elabora et al. Evaluating citizens’ sentiments in smart cities: A deep learning approach
Upadhyaya et al. Food Items Prediction Using Sentimental Analysis
Agbesi et al. Multichannel 2D-CNN Attention-Based BiLSTM Method for Low-Resource Ewe Sentiment Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210202

WD01 Invention patent application deemed withdrawn after publication