CN110543567A

CN110543567A - 一种基于a-gcnn网络和acelm算法的中文文本情感分类方法

Info

Publication number: CN110543567A
Application number: CN201910842771.8A
Authority: CN
Inventors: 段铭杨; 刘晋
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-12-06

Abstract

本发明公开了一种基于A‑GCNN网络和ACELM算法的中文文本情感分类方法，该方法包括以下步骤：步骤1：搜索网络数据构建初始数据模型，并将初始数据模型进行预处理，获得预处理后的数据模型；步骤2：将预处理后的数据模型向量化，获得数据向量模型；步骤3：将数据向量模型输入ACELM算法模型中进行特征提取；ACELM算法模型是由Text‑CNN网络模型和A‑GCNN网络模型两大卷积层并行作用、同时进行特征提取；步骤4：将两个网络模型分别提取的同一数据的不同特征共同输入ELM模型进行深度特征提取和分类，输出分类结果。此方法解决了中文文本情感分析的准确率优化和过拟合等问题，还提出了自行编写构建数据集的原则和方法，且本发明具有普适性，方便改良后处理各类中文NLP任务。

Description

一种基于A-GCNN网络和ACELM算法的中文文本情感分类方法

技术领域

本发明涉及计算机自然语言处理领域，具体涉及一种基于A-GCNN网络和ACELM算法的中文文本情感分类方法。

背景技术

近年来，深度神经网络以其出色的能力被用来完成各种任务。随着深度学习技术在自然语言处理领域取得的一系列成就，人们意识到深度学习技术将会为NLP带来新的革命，基于深度学习的自然语言处理无论是性能指标还是应用能力都超越了传统机器学习方法。未来的一段时间里，基于深度学习的自然语言处理依旧将是人们关注的重点和主流的研究方向。

中文情感分析是自然语言处理的一个重要分支。人们的情感可以细分为很多种状态，但总体上可以分为“好感”、“中立”和“反感”三个基本类。在电商评价等领域，“好评”、“中评”、“差评”是消费者和商家对商品价值、服务品质的重要评价因素。随着互联网和电子商务产业的快速发展，指数级增长的海量自然语言中文评论数据需要被处理，计算机以其强大的数据处理能力能够很好地满足这一需求。

卷积神经网络(CNN)是一种前馈神经网络，是在基础人工神经网络的基础上增加一个由卷积层和子采样层组成的特征抽取器，其神经元可以响应一部分范围内的其他神经元，通过卷积核获得问题的空间结构和明显特征。卷积神经网络基本结构分为两个部分：特征提取层和特征映射层。特征提取层的每个神经元用于收集局部特征；每个特征映射层实际上是一个平面，平面上所有神经元的权值相等，一个映射面上的神经元共享权值，从而减少了参数(权重)的数量。

循环神经网络(RNN)是一种被用来处理序列数据的神经网络，传统的神经网络处理序列问题是低效的，而循环神经网络会对前面的信息进行记忆，将其运用在当前层的计算中，各隐藏层之间不再是无连接的，隐藏层的输入不再单纯是与输入层有关，同时也与上一时刻隐藏层的输出有关。

长短期记忆网络(LSTM)是一种更先进的循环神经网络，使用时间反向传播的算法，解决了普通循环神经网络梯度消失的问题，并且具备更高效处理序列问题的能力,使用存储单元代替常规的神经元，每个存储单元由输入门、输出门和自有状态三部分构成。

门控循环单元(GRU)，这种存储单元将遗忘门和输入门合并为一个更新门，在优化了存储单元结构的基础上提升了LSTM的性能。

基于Attention机制的LSTM模型的Encoder和Decoder都是LSTM结构， Encoder的输出仍然是序列数据结构，同时Attention机制为每一个输出赋予一个权值，信息越重要，其被赋予的权重也最大。各类传统模型虽然已经具备较好的性能，但是仍然具有很多局限性：

卷积神经网络在NLP任务中通过卷积和池化容易使得数据特征的空间性不再明显，对于文本序列来说，是语序信息消失。CNN实际上在NLP任务中把所有关键词(常用词)作为特征提取出来，再根据训练出的模型把关键词排列成句子，最后输出向量表示的新句子，而整个过程严格来说有可能与复杂文本信息相悖，比较难以捕捉文本尤其是中文文本否定、双重否定、反义等隐含语义信息，具体来说是max-pooling处理导致结构信息的丢失。

循环神经网络(RNN)及其变体长短期记忆网络(LSTM)在NLP研究中通常都有很好地表现，但依然拥有很多局限性。在RNN结构中序列信息进入某处理单元之前需要有序进入其他处理单元，这就造成了一些多余计算，容易出现梯度消失；RNN还有计算量大的特点，通常需要调用大量的硬件计算资源。使用LSTM可以很好的解决梯度消失的问题，但在LSTM结构中序列路径会被不断添加且遗忘一些路径分支，依然具有局限性。

与此同时，Text-CNN、RNN、LSTM以及GRU模型各自的优势是不可忽略的：CNN卷积神经网络具备非常好的特征挖掘性能；基于GRU的LSTM 能够很好地处理文本这种序列型数据，提取语义，如何充分利用和融合各模型的优势是值得人们关注的。

综合分析各类传统深度学习模型的局限性对本发明的模型和算法的设计有极大的参考价值。在综合各类模型的优点和规避缺陷的同时，引入Attention 机制使得模型进一步被优化。Attention机制实际上打破了传统模型过于依赖固定长度向量的局限性，其通过对输入进行选择性学习同时保留LSTM/GRU 对序列型数据的处理能力来使得模型的性能获得提升。

中文因其语法的复杂性，使得中文文本情感分析一直是人们关注的热点，虽然已经有人利用传统神经网络模型进行了效果不错的中文文本情感分析，但是如何进一步提升准确度、如何优化模型性能、以及如何有效解决传统模型容易出现过拟合等问题依然是该研究领域的痛点，并且目前各类开源平台和网站上也鲜有较为成熟中文评论文本的数据集。

发明内容

本发明的目的是提供一种基于A-GCNN网络和ACELM算法的中文文本情感分类方法。此方法旨在解决中文文本情感分析的准确率优化和过拟合等问题，还提出自行编写构建数据集的原则和方法，且本发明具有普适性，方便改良后处理各类中文NLP任务。

为达到上述目的，本发明提供了一种基于A-GCNN网络和ACELM算法的中文文本情感分类方法，该方法包括以下步骤：步骤1：搜索网络数据构建初始数据模型，并将所述初始数据模型进行预处理，获得预处理后的数据模型；步骤2：将所述预处理后的数据模型向量化，获得数据向量模型；步骤3：将所述数据向量模型输入ACELM算法模型中进行特征提取；所述 ACELM算法模型是由Text-CNN网络模型和A-GCNN网络模型两大卷积层并行作用、同时进行特征提取；步骤4：将两个网络模型分别提取的同一数据的不同特征共同输入ELM模型进行深度特征提取和分类，输出分类结果。

最优选的，ACELM算法模型包括依序设置的输入层、卷积层和输出层。

最优选的，ACELM算法模型的卷积层包括Text-CNN网络模型和 A-GCNN网络模型。

最优选的，A-GCNN网络模型包括依序设置的输入层、GRU层、Attention 机制层、卷积层、池化层和输出层。

最优选的，初始数据模型包括数据集和向量模型；初始数据模型为中文文本。

最优选的，预处理包括数据集的处理和向量模型的训练。

最优选的，数据集的处理还包括数据集的去噪、格式统一、删改内容和均衡数据各类别比例。

最优选的，均衡数据各类别比例是通过划分训练集和测试集实现的。

最优选的，向量模型的训练是通过Word2Vec网络模型训练的。

最优选的，Word2Vec网络模型结构包括输入层、投影层、隐藏层和输出层。

运用此发明，解决了中文文本情感分析的准确率优化和过拟合等问题，还提出了自行编写构建数据集的原则和方法，且本发明具有普适性，方便改良后处理各类中文NLP任务。

相对于现有技术，本发明具有以下有益效果：

1、本发明方法解决了中文文本情感分析的准确率优化和过拟合等问题。

2、本发明方法提出了自行编写构建数据集的原则和方法。

3、本发明方法具有普适性，方便改良后处理各类中文NLP任务。

4、本发明方法提出的模型同时兼备各传统神经网络的优点，算法在性能和准确率上都有很好的表现。

附图说明

图1为本发明提供的中文文本情感分类方法流程图；

图2为本发明提供的初始数据模型构建和预处理流程图；

图3为本发明提供的A-GCNN网络模型的结构示意图；

图4为本发明提供的ACELM算法模型的结构示意图。

具体实施方式

以下结合附图通过具体实施例对本发明作进一步的描述，这些实施例仅用于说明本发明，并不是对本发明保护范围的限制。

面对海量的中文文本数据，计算机以其强大的数据计算和处理能力能够很好地处理。每条主观信息都是带有主观情感的，大体上可以分为好感、中立和反感三个大类，运用深度神经网络是完成文本理解与情感分析的主要技术手段。本发明是一种基于A-GCNN网络和ACELM算法的中文文本情感分类方法，如图1所示，该方法包括以下步骤：

步骤1：搜索网络数据构建初始数据模型，并将初始数据模型进行预处理，获得预处理后的数据模型；如图2所示，初始数据模型包括数据集和向量模型；本实施例中初始数据模型为中文文本，但本发明不仅限于中文文本，仍可以运用于英文或其他语言类的数据文本，本发明对此不做限制；预处理包括数据集的处理和向量模型的训练。

数据集的自构建是利用Python爬虫等方式从各类网络平台或其他渠道收集数据，爬取了中文电商网站评论区的中文评论数据，并将其情感倾向分为好评、中评、差评三类；

数据集的处理还包括数据集的去噪、格式统一、删改内容和均衡数据各类别比例；利用Python脚本及手工等方式对数据集进行去噪和格式统一，并通过适当的删改内容来提高数据集质量，均衡各类别比例，最终自构建出包含三个类别情感、数量均衡、数据纯净度较高的数据集。

均衡数据各类别比例是通过划分训练集和测试集实现的；均衡数据集的不同类数据数目比例可以手动将数据集划分为80％和20％分别作为训练集和测试集，也可以在模型中通过设置比例参数的方式随机自动划分数据集作为训练集和测试集，以避免因数据集自身缺陷带来的分类效果下降和模型性能降低。

词向量又称作词嵌入(word embedding)或分布式表示(distributedrepresentation)，是一种基于神经网络的表示，通过神经网络对上下文之间的关系和词语词之间的关系建模。

向量模型的训练是通过Word2Vec网络模型训练的；利用各类开源的中文语料库进行中文词向量模型的训练，其中，选择维基百科中文语料库，其下载后的文件类型为.bz2压缩包文件，压缩文件大小约1.61GB，解压后是约 5.71GB大小的.xml文件，其中包含标题、类别、文本等数据近30万篇中文语料，经过Word2Vec网络模型训练后得到大小为55Mb的中文词向量模型；

Word2Vec网络模型是Google开发的一款词向量工具，使用了 NNLM(NeuralNetwork Language)算法，Word2Vec网络模型基于一个基本假设：若要衡量词语之间的相似性，需通过判断其相邻词是否相识，这就是所谓的“距离象似性”原理。Word2Vec网络模型有CBOW和Skip-Gram两种模型，均可以通过神经网络的训练将分词后的文本转化为k维向量空间中的向量，把语义之间的相似度转化为向量空间中的相似度，转换为向量之后就可以继续进行相关的自然语言处理工作。

Word2Vec网络模型结构包括输入层、投影层、隐藏层和输出层，首先为每个从输入层传递进来的词分配一个特征向量，再使用特征向量表示词组的概率函数，为最后使用词组数据学习确定特征向量和概率函数的参数。

目标是建立一个模型：

约束条件为：

f(w_t,w_t-1,...,w_t-n+2,w_t-n+1)＞0

其中，每个从输入层传递进来的词为w，t个词的词组为w_t，n代表从输入层传递来的词的个数，每个词的特征向量为C(w)，词组中第i个元素的概率函数为

Word2Vec网络模型的输入为词组w_t,w_t-1,...w_t-n+1，向量化为C(w_t)，再合并为一个Word2Vec网络模型的输出的向量为x，且满足 x＝(C(w_t),C(w_t-1),...,C(w_t-n+1))，最终我们期望最大化log-likelihood，最后再增加一个softmax层，再通过Forward运算和BP运算之后，即完成了中文词向量模型的构建。

训练中文词向量模型时可以根据任务规模的大小进行模型维数的设置，通常的三分类问题设置为256维中文词向量具有效率均衡的性能和计算量，在大型分类任务中将维度设置为400维，具备较好的分类性能。

步骤2：将预处理后的数据模型向量化，获得数据向量模型；向量化是通过训练的向量模型将预处理后的数据集向量化；其中，利用训练出的中文词向量模型进行中文文本数据的向量化，作为ACELM算法模型的输入。

步骤3：将数据向量模型输入ACELM算法模型中进行特征提取；ACELM 算法模型是由Text-CNN网络模型和A-GCNN网络模型两大卷积层并行作用、同时进行特征提取；如图3所示，ACELM算法模型包括依序设置的输入层、卷积层和输出层；卷积层包括Text-CNN网络模型和A-GCNN网络模型。

如图4所示，A-GCNN网络模型还包括依序设置的输入层、GRU层、 Attention机制层、卷积层、池化层和输出层。A-GCNN神经网络模型从左至右首先是输入层；接下来由GRU层处理序列文本词向量信息；在传入卷积层之前加入Attention机制以更好地帮助CNN提取情感极性特征；接下来利用合适的CNN进行特征提取；池化层对特征进一步压缩，简化模型计算的复杂度的同时提取最主要特征；最后的输出层是一个具有softmax激活函数的全连接层，起到分类器的作用，它能够将模型前面若干层学到的分布式特征表示映射到样本标记空间上，并完成情感分类。

A-GCNN网络模型首先接收文本数据的输入，每一个输入的文本数据均为一句中文评价文本数据，随后利用训练好的中文词向量模型将输入的文本数据转化为向量形式，即接收Word2Vec网络模型的向量x的输入，下标i 代表文本中不同的词语，下标n代表的是词向量的维度：

X_i＝(x₁,x₂,...,x_n-1,x_n)

如图3中所示，词向量表示后，模型将数据输入GRU层，双向读取词向量提升处理效率，GRU层能将不同维度的词向量输入转化为k维向量空间中的向量。GRU层模型将输入门和遗忘门改良成了一个单独的更新门，该模型将细胞状态和隐含状态进行合并，使得模型比基础LSTM更加简洁。

词向量流入GRU层后，重置门决定丢弃上一时刻的哪些信息，同时GRU 层通过计算得到候选记忆单元后，再通过更新门计算输出信息给下一时刻，根据GRU层结构的输入和需要学习的权重参数，计算得出输入门的输出结果，输入门输出结果为z_t，且满足：

z_t＝σ(W_Z·[h_t-1,x_t])

其中，h_t-1和x_t为GRU层结构的输入，W_Z为输入门单元结构需要学习的权重参数；同时计算得出更新门的输出结果，更新门输出结果为r_t，且满足：

r_t＝σ(W_t·[h_t-1,x_t])

其中，h_t-1和x_t为GRU层结构的输入，W_t为更新门单元结构需要学习的权重参数；最终的计算结果为为h_t，且满足：

其中，h_t-1和x_t为GRU层结构的输入，W_h为当前GRU单元整体需要学习的权重参数，tanh是一类激活函数，为GRU单元当前时间的候选记忆内容(该GRU单元的候选输出)，最后综合GRU单元所有门的计算结果，得到当前时间的最终输出为h_t。

GRU层计算后能够得到序列文本信息中的一些特征，同时还能将文本数据向量统一为k维向量空间，接着在进入CNN网络模型训练以前加入 Attention机制，以此来确定语义中的关键部分，为随后的CNN网络模型训练提供重要支持。Attention机制之后再将部分词向量进行拼接作为CNN网络模型的输入，拼接后的输入向量定义为C_t，且满足：

其中，L_h为总时序长度、a_ij为Attention机制的权值。

在CNN网络模型中，利用包含三种不同卷积核的模型进行训练，有效提取情感特征，CNN网络模型中除输出层之外每一层都需要加入一个偏置量以防止传递空值，则每一隐藏层的输出为L_i，且满足：

L_i＝f(W·c_i:j+m-1+b)

其中，f为双曲正切函数，W为权值信息，m为卷积核的宽度，b为偏置量。

如果单纯使用A-GCNN网络模型已经具备了较好的中文文本情感分析与分类的能力，但实践发现该模型偶尔会随着训练轮数的增大出现过拟合现象。为了避免这一情况出现，同时因为中文具有语法复杂的特点，所以将输入的中文文本进行预处理后输入ACELM算法模型，由ACELM算法模型包含的两类卷积神经网络并行作用、同时进行特征提取，即：

基于Attention机制的A-GCNN网络用于文本语义特征的提取；不基于Attention机制的轻量级Text-CNN网络用于分词之间关系特征的提取。

A-GCNN网络模型中的GRU层和Attention机制能够提取文本的上下文关系特征，且A-GCNN模型的Attention机制能够很好地通过给予关键词较大权值的方式对文本数据所属类别有更好的把控；同时Attention机制也具备适应各类不同领域数据集处理任务的普适性，在不同领域的分类任务中分别通过Attention机制抓住相对应的关键词即可具备很好的效果。

Text-CNN网络模型用于提取文本的整体语义特征，同时Text-CNN网络模型具备提取特征信息快速，准确的特点，两个模型优势互补，能够充分准确地提取出文本的语义特征。

ACELM算法模型的一个重要参数为Batch-Size，即每批数据输入数量，对于这种三分类任务，每批数据输入数量设置为128时，模型具备最优性能效率，可根据实际具体任务自行调整参数，以达到最优性能。

步骤4：将两个网络模型分别提取的同一数据的不同特征共同输入ELM 模型中，ELM模型作为一种比较浅层的神经网络，能够将两个网络提取到同一数据的不同特征进行深度特征提取和分类，并输出分类结果。

如图4所示，经过CNN网络模型训练后将结果利用Max池化层降维，同时将三个卷积核计算的输出拼接后输入给全连接层，模型最后使用softmax 激活函数全连接层得出情感分析结果的分类，全连接层将最终的结果拼接为一个向量为D_k，最终的分类结果为O_i，且分别满足：

其中，为最后一层隐藏层的输出，即全连接层的输入；W_D为最终学习到的权重参数；B_D为全连接层的偏置量，与一般的神经网络各层偏置量类似，通常设置为1，以防止输出或传递空值。

ACELM算法将最后常用的全连接层使用ELM极限学习机代替传统的 Softmax分类器，能够很好地解决A-GCNN网络模型容易过拟合等问题。同时，ELM本身就是一个浅层神经网络，其作为分类器也具备更高的分类准确性。ELM可以利用参数随机生成的扰动性能，降低分类网络对训练样本的依赖，避免过拟合，在解决了A-GCNN网络模型具有的不足，同时大大提升了分类性能。

本发明的工作原理：

搜索网络数据构建初始数据模型，并将初始数据模型进行预处理，获得预处理后的数据模型；将预处理后的数据模型向量化，获得数据向量模型；将数据向量模型输入ACELM算法模型中进行特征提取；ACELM算法模型是由Text-CNN网络模型和A-GCNN网络模型两大卷积层并行作用、同时进行特征提取；将两个网络模型分别提取的同一数据的不同特征共同输入ELM 模型进行深度特征提取和分类，输出分类结果。

综上所述，本发明方法，解决了中文文本情感分析的准确率优化和过拟合等问题，还提出了自行编写构建数据集的原则和方法，且本发明具有普适性，方便改良后处理各类中文NLP任务。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于A-GCNN网络和ACELM算法的情感分类方法，其特征在于，包括以下步骤：

步骤1：搜索网络数据构建初始数据模型，并将所述初始数据模型进行预处理，获得预处理后的数据模型；

步骤2：将所述预处理后的数据模型向量化，获得数据向量模型；

步骤3：将所述数据向量模型输入ACELM算法模型中进行特征提取；所述ACELM算法模型是由Text-CNN网络模型和A-GCNN网络模型两大卷积层并行作用、同时进行特征提取；

步骤4：将两个网络模型分别提取的同一数据的不同特征共同输入ELM模型进行深度特征提取和分类，输出分类结果。

2.如权利要求1所述的基于A-GCNN网络和ACELM算法的情感分类方法，其特征在于，所述ACELM算法模型包括依序设置的输入层、卷积层和输出层。

3.如权利要求2所述的基于A-GCNN网络和ACELM算法的情感分类方法，其特征在于，所述ACELM算法模型的卷积层包括Text-CNN网络模型和A-GCNN网络模型。

4.如权利要求3所述的基于A-GCNN网络和ACELM算法的情感分类方法，其特征在于，所述A-GCNN网络模型还包括依序设置的输入层、GRU层、Attention机制层、卷积层、池化层和输出层。

5.如权利要求1所述的基于A-GCNN网络和ACELM算法的情感分类方法，其特征在于，所述初始数据模型包括数据集和向量模型；所述初始数据模型为中文文本。

6.如权利要求5所述的基于A-GCNN网络和ACELM算法的情感分类方法，其特征在于，所述预处理包括数据集的处理和向量模型的训练。

7.如权利要求6所述的基于A-GCNN网络和ACELM算法的情感分类方法，其特征在于，所述数据集的处理还包括数据集的去噪、格式统一、删改内容和均衡数据各类别比例。

8.如权利要求7所述的基于A-GCNN网络和ACELM算法的情感分类方法，其特征在于，所述均衡数据各类别比例是通过划分训练集和测试集实现的。

9.如权利要求6所述的基于A-GCNN网络和ACELM算法的情感分类方法，其特征在于，所述向量模型的训练是通过Word2Vec网络模型训练的。

10.如权利要求9所述的基于A-GCNN网络和ACELM算法的情感分类方法，其特征在于，所述Word2Vec网络模型结构包括输入层、投影层、隐藏层和输出层。