CN112307755A

CN112307755A - 基于多特征和深度学习的垃圾评论识别方法

Info

Publication number: CN112307755A
Application number: CN202011044456.XA
Authority: CN
Inventors: 于永新; 张晴; 杜亮
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-02-02

Abstract

本发明公开了一种基于多特征和深度学习的垃圾评论识别方法。首先对文本进行预处理，然后使用Word2Vec的Skip‑Gram模型生成词向量，之后使用CNN和Bi‑GRU分别提取评论文本内容的局部特征和序列特征，然后手动提取评论者特征，最后将这些特征融合在一起输入到全连接层，再经过Softmax激活函数输出分类结果。本发明考虑到了评论文本内容的局部特征和序列特征、评论者特征、评论的认可特征等多个特征，使特征更加全面和丰富，从而使识别更加准确。

Description

基于多特征和深度学习的垃圾评论识别方法

技术领域

本发明涉及到数据挖掘、自然语言处理领域，特别涉及一种基于多特征和深度学习的垃圾评论识别方法。

背景技术

随着互联网技术的飞速发展和不断成熟，互联网已经渗透到了人们的生活中，网络购物的已经成为人们生活中主流的消费方式，由于网络的虚拟性，人们在网上选购商品时，无法触摸到真实的商品，只能通过商品的描述和商品的评论来判断商品的质量。由于网络发言的自由性，用户可以自由发表言论，有些用户会发表一些无关商品的，没有参考价值的的评论。一些商家也会雇佣人们为自己撰写过度褒奖的评论或者对竞争对手撰写刻意贬低的评论。这些垃圾评论会影响用户的购物体验，甚至会误导用户。因此在线垃圾评论检测对于维护健康的网络环境和消费者的利益有着巨大的意义。

目前垃圾评论识别主要有两种类型，一种是基于机器学习的方法，例如朴素贝叶斯、支持向量机等方法，这些方法需要手动构建特征并且提取不到文本的深层次的语义信息。另一种是基于深度学习的方法，不需要手动构建特征，是通过神经网络自动学习深层语义特征，取得了很好的效果。

目前用于自然语言处理的神经网络主要有卷积神经网络和循环神经网络。卷积神经网络可以很好的捕捉到文本的局部信息，但是卷积过滤器宽度有限，只能感知到有限范围的信息，不具有全局性。而循环神经网络能够对序列信息进行建模，但是其在训练过程中会出现梯度爆炸和梯度消失的问题。LSTM在循环神经网络的基础上引入了门，较好的解决了循环神经网络的弊端。GRU相比于LSTM，精简了网络结构，提升了训练的速度。

发明内容

鉴于上述，本发明针对现有垃圾评论识别的缺陷，提供一种基于多特征和深度学习的垃圾评论识别方法。

本发明首先对文本进行预处理，然后使用Word2Vec的Skip-Gram模型生成词向量，之后使用CNN和Bi-GRU分别提取评论文本内容的局部特征和序列特征，然后手动提取评论者特征，最后将这些特征融合在一起输入到全连接层，再经过Softmax激活函数输出分类结果。本发明考虑到了评论文本内容的局部特征和序列特征、评论者特征、评论的认可特征等多个特征，使特征更加全面和丰富，从而使识别更加准确。

本发明的技术方案是：一种基于多特征和深度学习的垃圾评论识别方法，具体包括以下步骤：

1)对评论文本进行预处理，使用Word2Vec的Skip-Gram模型对词语进行训练，生成词语的词向量表示。

2)使用CNN模型对评论文本内容进行特征提取，得到评论文本内容的局部特征。

3)使用Bi-GRU模型对评论文本内容进行特征提取，得到评论文本内容的上下文序列特征。

4)手动提取评论者特征、评论的认可特征。

5)对上述得到的多种特征进行特征融合，输入到Softmax层进行分类。

有益效果

本发明的优点在于：

1.本方案分别使用CNN和Bi-GRU提取评论文本内容的局部特征和上下文序列特征，不仅考虑了文本的局部语义信息还考虑到了文本双向的上下文语义信息，获取的特征更加全面。

2.本方案融合了评论文本内容的局部特征和上下文序列特征、评论者特征、评论的认可特征等多个特征进行垃圾评论识别，考虑的特征更加丰富全面。

附图说明

图1是本发明垃圾评论识别流程图。

具体实施方式

一种基于多特征和深度学习的垃圾评论识别方法，具体实施流程如图1所示。本方法主要通过CNN和Bi-GRU分别提取评论文本内容的局部特征和序列特征，手动提取评论者特征、评论的认可特征，最后将这些特征融合在一起输入到Softmax层进行分类。

具体包括以下步骤：

1)将评论文本进行分词处理，生成单独的词语。由于评论文本中可能包含一些对研究没有意义的词语，比如特殊符号、停用词、代词、语气词等，故需要将这些词语去除。以排除无关信息的影响。然后将分解后的单词输入到Word2Vec的Skip-Gram模型中生成单词的向量表示。Word2Vec是通过学习文本来用词向量的方式表征词的语义信息，即通过一个词向量空间使得语义上相似的单词在该词向量空间上也是相近的，因此生成的词向量保留了深层语义特征，并且避免了传统One-Hot表示方法所产生的维度灾难问题。

2)CNN可以对评论文本的局部语义信息进行提取，为了提取到多个粒度的局部信息，故采用多个不同宽度的卷积过滤器分别进行特征提取。

2.1)输入n个d维词向量组成的二维矩阵x∈R^n×d,其中n代表词向量个数，d代表词向量的维度；采用宽度分别为2，3，4的卷积过滤器，假设卷积核的宽度为p，卷积核的长度和词向量维度相等，w∈W^p×d，p代表卷积核能覆盖的词向量个数，卷积核从上到下在词向量组成的矩阵中滑动，滑动到i位置，将词向量窗口和卷积核窗口进行卷积操作得到a_i， a_i＝f(W·X_i:i+h-1+b)，X_i:i+h-1代表第i个词向量到第i+h-1个词向量所构成的窗口，W代表卷积核参数，b代表卷积核偏置，f代表激活函数，所得到的卷积结果序列为A＝ (a₁,a₂,...,a_n-h+1)；

2.2)再采用池化层对卷积序列进行降维，采用最大池化方式提取出序列中最显著的特征， a＝max(a₁,a₂,...,a_n-h+1)；将多个卷积核会卷积池化的结果拼接在一起，形成新的序列 (a₁,a₂,...,a_k)，其中k为卷积核的个数，将这个序列作为局部文本特征向量。

3)GRU网络在对文本进行学习时，可以保留文本的序列信息，学习到文本中词语的上下文序列关系，可以更好地对文本进行特征表示，本发明中使用的Bi-GRU是GRU的变体，会从文本从前往后和从后往前两个方向来学习文本，因此可以更全面地学习文本的上下文的语义信息。双向GRU有两层结构，每一个序列从正向和反向分别通过GRU的两层结构，这样就学习到了文本序列的历史和未来的上下文信息。正向和反向都会保留每个时刻的隐含层输出，将正向和反向的隐含层连接，作为最终的隐含层输出。

3.1)将该评论文本的词向量矩阵输入到Bi-GRU模型中，对评论文本的上下文序列信息进行提取，对于一条评论文本，它包含有n个词，n个词的词向量构成了n维输入(x₁,x₂,...,x_n)，建立Bi-GRU网络来处理这个文本，对文本从前往后和从后往前两个方向分别进行学习，得到的正向GRU隐藏层输出为：

得到反向GRU隐藏层输出为：

再将每个时刻的正向GRU隐藏层输出和反向GRU隐藏层输出合并起来作为h_t；

3.2)本发明采用的是带有注意力机制的Bi-GRU，通过给隐藏层的各个节点分配不同的权重，来使模型注意到更重要的语义特征，一个节点被分配的权重越大，那么代表其在分类中会起到更重要的作用，将Bi-GRU输出的隐藏层序列输入到注意力机制层：

e_t＝tanh(W_s1h_t+b_s1)

α_t＝softmax(W_s2e_t+b_s2)

通过注意力机制层的两层神经网络，经过Softmax激活函数计算权值，获得文本各个部分的注意力权重，最后将隐藏层节点和其权值相乘，再求和得到最终文本特征向量：

4)由于仅从文本内容来进行垃圾评论识别，由于特征的单一性，可能会使结果误判，所以本方法对评论者的信息进行提取，本方法选取了评论者的粉丝数量、注册时间、评论频率、获赞数量等作为评论者特征，获取所有评论者的数据，将这些指标进行归一化，得到评论者特征向量。Y＝(y₁,y₂,...,y_n),y_i∈[0,1]。

5)再将上述的文本特征，评论者特征进行融合，假设这些特征表达分别为F₁,F₂,...,F_n，融合后的特征为

其中

代表拼接，接着将融合的特征输入到全连接层，再使用Softmax激活函数，Output＝Softmax(W·F+B)，最终得到分类结果。

综上所述是本发明的具体实施方式，在本领域的普通技术人员可以在不脱离本发明宗旨下，在自己所具备的知识范畴内，做出改进和补充。

Claims

1.基于多特征和深度学习的垃圾评论识别方法，其特征在于，包括如下步骤：

1)对评论文本进行预处理，使用Word2Vec的Skip-Gram模型对词语进行训练，生成词语的词向量表示；

2)使用CNN模型对评论文本内容进行特征提取，得到评论文本内容的局部特征；

3)使用Bi-GRU模型对评论文本内容进行特征提取，得到评论文本内容的上下文序列特征；

4)手动提取评论者特征、评论的认可特征；

2.根据权利要求1所述的基于多特征和深度学习的垃圾评论识别方法，其特征在于，所述步骤2)具体：

2.1)输入n个d维词向量组成的二维矩阵x∈R^n×d,其中n代表词向量个数，d代表词向量的维度；

采用宽度分别为2，3，4的卷积过滤器，假设卷积核的宽度为p，卷积核的长度和词向量维度相等，w∈W^p×d，p代表卷积核能覆盖的词向量个数，卷积核从上到下在词向量组成的矩阵中滑动，滑动到i位置，将词向量窗口和卷积核窗口进行卷积操作得到a_i，a_i＝f(W·X_i:i+h-1+b)，X_i:i+h-1代表第i个词向量到第i+h-1个词向量所构成的窗口，W代表卷积核参数，b代表卷积核偏置，f代表激活函数，所得到的卷积结果序列为A＝(a₁,a₂,...,a_n-h+1)；

2.2)再采用池化层对卷积序列进行降维，采用最大池化方式提取出序列中最显著的特征，a＝max(a₁,a₂,...,a_n-h+1)；

将多个卷积核会卷积池化的结果拼接在一起，形成新的序列(a₁,a₂,...,a_k)，其中k为卷积核的个数，将这个序列作为局部文本特征向量。

3.根据权利要求1所述的基于多特征和深度学习的垃圾评论识别方法，其特征在于，所述步骤3)具体：

得到反向GRU隐藏层输出为：

3.2)采用的是带有注意力机制的Bi-GRU，通过给隐藏层的各个节点分配不同的权重，来使模型注意到更重要的语义特征，一个节点被分配的权重越大，那么代表其在分类中会起到更重要的作用，将Bi-GRU输出的隐藏层序列输入到注意力机制层：

e_t＝tanh(W_s1h_t+b_s1)

α_t＝softmax(W_s2e_t+b_s2)

。