CN110874397A

CN110874397A - 基于注意力机制的水军评论检测系统及方法

Info

Publication number: CN110874397A
Application number: CN201911138610.7A
Authority: CN
Inventors: 廖祥文; 温宇含; 陈志豪; 李晓滨; 陈开志
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2020-03-10

Abstract

本发明涉及一种基于注意力机制的水军评论检测系统及方法。包括文本特征处理模块，用于将文本特征进行向量化处理并提取文本的离散特征进行归一化处理；行为特征提取模块，用于将行为特征进行向量化处理并进行归一化处理；注意力机制权重计算模块，用于计算归一化后的文本特征、行为特征的注意力权重；集成学习模块，将带有权重的行为特征、文本特征作为输入，用分类函数得到评论最终的分类结果。本发明提出的系统及方法能够自动抽取出有效特征，并对特征进行抽象和组合，最终识别出分类结果。

Description

基于注意力机制的水军评论检测系统及方法

技术领域

本发明涉及情感分析和观点挖掘领域，特别是一种基于注意力机制的水军评论检测系统及方法。

背景技术

当前，有很多技术方法可用于水军评论检测。传统的检测方法单纯的从单一特征的角度出发，很难确定获取完整的特征信息。区别于传统的特征提取方法，如何获取完整的特征信息，进行针对水军评论的检测，是水军评论检测的问题关键。传统的研究工作主要是基于文本特征或者用户特征与文本特征简单结合的方法，使用支持向量机(SVM)分类器进行分类。这一类基于特征工程与浅层线性模型的方法虽然取得了一定的成效，但是对训练集样本利用不充分，耗时耗力，并且影响效性以及模型的学习能力，故而其性能还有待提升。

当前，随着深度学习的快速发展，基于自注意力机制的表示学习模型在语义表示与情感分析运用方面更具优势。许多研究者们也将这些模型用于水军评论的分类。这类方法首先将文本特征与行为特征分别提取出来，然后构建一个注意力机制模块，定义行为特征，文本特征向量的权重值，将各个带有权重的特征向量进行拼接，最后利用支持向量机对所样本进行训练建模。注意机制可以为每个训练样本学习文本和行为特征的动态权重，大幅度提升了信息的利用率。

当前，水军评论方法未充分利用文本特征与行为特征的密切联系，无法有效地挖掘出潜在的观点信息。近年来，得到了国内外许多学者和研究机构的高度重视，水军评论检测分类利用了文本中不同信息，进行文本分类，能够站在数据使用者的角度进行分析，提供更加细粒度的信息，有效提高水军评论检测的分析结果的准确程度，有助于研判人员更加了解人们对热点话题、组织、产品等各种实体的真实观点和看法，为研判人员提供更加有效而准确的信息。这就对水军评论检测技术提出了一个挑战：如何构建一个有效的水军评论检测系统来满足其需要。

发明内容

本发明的目的在于提供一种基于注意力机制的水军评论检测系统及方法，能够自动抽取出有效特征，并对特征进行抽象和组合，最终识别出文本空间特征。

为实现上述目的，本发明的技术方案是：一种基于注意力机制的水军评论检测系统，包括：

文本特征处理模块，用于将文本特征进行向量化处理并提取文本的离散特征进行归一化处理；

行为特征提取模块，用于将行为特征进行向量化处理并进行归一化处理；

注意力机制权重计算模块，用于计算归一化后的文本特征、行为特征的注意力权重；

集成学习模块，将带有权重的行为特征、文本特征作为输入，用分类函数得到评论最终的分类结果。

在本发明一实施例中，所述文本特征处理模块将文本信息利用嵌套LSTM进行特征提取，并对文本的离散特征进行归一化处理，将输入的数据的信息用向量表示。

在本发明一实施例中，所述行为特征提取模块将用户行为信息进行归一化处理，将输入的数据的信息用向量表示。

在本发明一实施例中，所述集成学习模块采用多层分类模型对输入特征进行分类。

本发明还提供了一种基于注意力机制的水军评论检测方法，包括如下步骤：

步骤S1、将输入的数据分为文本信息与行为信息，对文本信息、行为信息进行特征抽取分别获得文本特征、行为特征，并将文本特征、行为特征进行向量化提取；

步骤S2、将得到的文本特征、行为特征进行注意力权重计算，将文本特征和行为特征进行结合，得到一个包含带有权重的文本特征、行为特征的特征向量空间；

步骤S3、将步骤S2中的带有权重的文本特征、行为特征，用分类函数得到最终的分类结果。

在本发明一实施例中，所述步骤S3采用多层分类模型对输入特征进行分类。

相较于现有技术，本发明具有以下有益效果：本发明提出的系统及方法能够自动抽取出有效特征，并对特征进行抽象和组合，最终识别出分类结果。

附图说明

图1为本发明实施例的原理示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本实施例提供了一种基于注意力机制的水军评论检测系统，具体包括：

一个文本特征处理模块，用于将文本特征进行向量化处理并提取文本的离散特征进行归一化处理；

一个行为特征提取模块，用于将行为特征进行归一化处理；

一个注意力机制权重计算模块，用于计算上述特征的注意力权重；

一集成学习模块，将数据的带有权重的行为特征以及文本特征作为输入，用分类函数得到评论最终的分类结果。

在本实施例中，所述文本特征提取模块借助开元的Glove工具事先在大语料里训练得到词向量表，将输入的数据的文本信息用向量表示。

在本实施例中，所述的行为特征处理模块将用户的行为特征进行向量化处理并进行归一化处理。

在本实施例中，所属的注意力机制权重计算模块借助注意力机制学习文本和行为特征的动态权重，并将其拼接。

具体的，将文本数据利用Glove工具对其进行向量化表示以方便输入到神经网络模型中。

具体的，所述注意力机制模块是第一步是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；然后第二步一般是使用一个softmax函数对这些权重进行归一化；最后将权重和相应的键值value进行加权求和得到最后的注意力权重。key和value常常都是同一个，即key＝value。

在本实施例中，所述集成学习模块采用多分类器模型对输入进行分类。

具体的，将前面得到的文本特征与行为特征输入所述集成学习模块，集成学习模块构造多分类器模型。在训练阶段，需要将预测值与目标值求误差，并利用随机梯度下降法和后向传播对整个系统的参数进行迭代更新；否则，只需将得到的预测值输出即可。

本实施例还提供了一种基于上文所述的基于注意力机制的水军评论检测系统的基于注意力机制的水军评论检测方法，具体包括以下步骤：

步骤S1：将输入的数据分为文本信息与行为信息，对行为信息进行特征抽取获得行为特征，其中，所述行为信息例如用户之间的评论互相点赞或转发关系，用户评论总数等；将文本信息送入所述文本特征提取模块，得到包含上下文信息的文本特征，其中，文本信息主要指的是具体各个单词出现的前后顺序以及单词在句子中出现的位置，使用标记数据来优化特定任务的上下文表示，已应用于各种NLP任务，包括词义消歧，共指解析与释义检测。通用的词向量，例如word2vec和Glove，是从大规模语料库中学习、捕捉每个单词的语义及句法信息，使用神经网络都可以对文本上下文进行有效的建模。

步骤S2：将文本特征与行为特征输入到注意力机制权重计算模块，第一步是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；然后第二步一般是使用一个softmax函数对这些权重进行归一化；最后将权重和相应的键值value进行加权求和得到最后的注意力权重。key和value常常都是同一个，即key＝value。

步骤S3：将步骤S2中的特征一起输入至所述集成学习模块中，用分类函数得到评论最终的分类结果。

在本实施例中，所述文本特征提取模块借助开源的Glove工具事先在大语料里训练得到词向量表，将输入的数据的文本信息用向量表示，并利用嵌套LSTM网络将向量表示的文本信息进行文本上下文相关的特征抽取及注意力构建。

特别的，在本实施例中，在模型的训练阶段，权重矩阵都是参数，根据信息的前向传播和误差的后向传播将不断地对他们进行调整，逐步优化目标函数。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于注意力机制的水军评论检测系统，其特征在于，包括：

2.根据权利要求1所述的基于注意力机制的水军评论检测系统，其特征在于，所述文本特征处理模块将文本信息利用嵌套LSTM进行特征提取，并对文本的离散特征进行归一化处理，将输入的数据的信息用向量表示。

3.根据权利要求1所述的基于注意力机制的水军评论检测系统，其特征在于，所述行为特征提取模块将用户行为信息进行归一化处理，将输入的数据的信息用向量表示。

4.根据权利要求1所述的基于注意力机制的水军评论检测系统，其特征在于，所述集成学习模块采用多层分类模型对输入特征进行分类。

5.一种基于注意力机制的水军评论检测方法，其特征在于，包括如下步骤：

6.根据权利要求5所述的基于注意力机制的水军评论检测系统，其特征在于，所述步骤S3采用多层分类模型对输入特征进行分类。