CN108614875A

CN108614875A - 基于全局平均池化卷积神经网络的中文情感倾向性分类方法

Info

Publication number: CN108614875A
Application number: CN201810384106.4A
Authority: CN
Inventors: 曹若菡; 陈浩平; 陆月明; 韩道歧
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2018-10-02
Anticipated expiration: 2038-04-26
Also published as: CN108614875B

Abstract

本发明提供了一种基于全局平均池化卷积神经网络的中文情感倾向性分类方法，是利用计算机对从网络采集的中文文本进行分析的技术。本方法构建了一个基于全局平均池化卷积神经网络的中文情感倾向性分类模型，该模型利用三层通道变换卷积层提取语义情感特征，然后全局平均池化层对卷积层提取的特征进行池化计算，得到对应到各个输出类别的置信值，然后由Softmax输出情感分类标签。本方法设置模型参数进行多次训练，选取分类准确率最高的模型用于中文情感倾向性分类。本发明避免了传统情感分析中繁琐的特征工程，加强了模型提取语义情感特征的能力，有效避免了模型过拟合，提升了模型情感倾向性分类的性能。

Description

基于全局平均池化卷积神经网络的中文情感倾向性分类方法

技术领域

本发明属于自然语言处理技术领域，涉及利用计算机对从网络采集的中文文本进行分析的技术，具体涉及一种面向中文文本情感倾向性的分类模型，以及模型的训练和应用该模型进行的文本情感倾向性分类的方法。

背景技术

随着互联网的发展，越来越多的人倾向于通过网络的方式发表意见、表达情绪，阐述观点。社交、电商及自媒体等多种新型网络平台的蓬勃发展导致互联网信息呈现几何数量级增长。对电商商家而言，用户评论反馈是提升他们自身产品和服务质量的有效手段；对政府部门而言，及时了解群众意向和社会舆情，采取适当决策。对文本进行情感倾向性分析是从海量文本中挖掘有用信息，发现有价值情报的重要手段，具有重大意义。

如何高效、准确地对中文文本进行情感倾向性分析是一大难点。现有针对中文的情感倾向性分析主要有基于情感词典的和基于机器学习的方法。基于情感词典的方法通过构建不同情感极性的词典，然后对文本进行词汇匹配，得到其包含不同极性词的个数并计算情感分值。然而，情感词典是独立的，缺少和上下文的联系。比如“小”在“酒店房间太小”中是负面情感，而在“汽车启动噪声小”中则是正面情感。因此，基于情感词典的方法需要相应领域足够的知识来支撑，受领域限制比较大，此外还要求有足够的人力来构建、拓展和维护词典库。基于机器学习的文本分析方法需要经过特征工程，选择能代表文本内容，维度较低的特征项，常用的特征选择方法有TF-IDF(词频-逆文本频率指数)、信息熵、CHI统计量等。在实际应用中，特征工程往往依赖具体任务，而且容易引入人为干扰，过程繁杂，缺乏通用、无需人工干预的情感特性抽取方法。综上所述，研究一种适用于不同场景，无需人工干预特征选择的中文情感倾向性分析模型具有现实意义。

发明内容

本发明提供了一种基于全局平均池化卷积神经网络的中文情感倾向性分类方法，以解决现有情感分类方法特征工程繁琐，容易引入人为因素干扰、受限于特定任务等问题。

本发明的基于全局平均池化卷积神经网络的中文情感倾向性分类方法，包括如下步骤：

步骤1，对收集的中文语料进行情感倾向性标注；

步骤2，对中文语料向量化，包括：对中文语料进行分词，统一分词后的句子长度，通过词嵌入的方式将每个词替换为其词向量，得到预处理后的句子向量；

步骤3，构建基于全局平均池化卷积神经网络的中文情感倾向性分类模型，该模型利用三层通道变换卷积层提取语义情感特征，然后全局平均池化层对卷积层提取的特征进行池化计算，得到对应到各个输出类别的置信值，然后由Softmax输出情感分类标签；

步骤4，进行模型训练，包括：将预处理后的语料进行随机打乱，并划分训练集和测试集。设置模型参数进行多次训练，并测试各次模型的分类准确率；

步骤5，使用步骤4得到模型中测试的分类准确率最高的模型进行中文情感倾向性分类。

相比现有技术，本发明的优点与积极效果在于：

(1)实现自动学习语义情感特征：卷积神经网络具有自动提取特征的能力，本发明利用所提供的卷积神经网络模型通过多层卷积、多个大小不同的卷积核来抽取特征，并采用通道变换的方式考虑了通道维度的信息，加强了卷积层的情感特征提取能力；

(2)本发明方法有效避免了过拟合的问题：本发明建立的中文情感倾向性分类模型采用全局平均池化层替换传统卷积神经网络的全连接层，能避免全连接层参数冗余、容易导致模型过拟合的问题；

(3)本发明方法具有良好的可移植性：在应用于不同情感分类场景时，模型操作过程只需要修改情感类别数，语料词语长度及其他一些参数，然后重新训练即可，模型结构不变。

附图说明

图1是本发明的中文情感倾向性分类方法的整体流程示意图；

图2是本发明方法所使用的全局平均池化卷积神经网络模型示意图；

图3是本发明方法中三层通道变换卷积层的结构示意图；

图4是本发明方法中全局平均池化层的结构示意图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。显然，所描述的实施例也仅仅是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明的中文情感倾向性分类方法的整体流程，下面说明各实现步骤。

步骤1，中文语料标注。对收集到的语料进行情感倾向性标注，依据情感类别个数m分别将对应情感的语料标注为0、1、……、m-1。

针对目标情感分类场景，收集中文语料，针对不同的场景，根据需要设置不同的情感类别。例如对于某电商app，收集对该app的评论，可根据喜欢和厌烦等级来设置情感类别。对收集初始训练集的每条中文语料进行标注。

步骤2，中文语料向量化。对中文语料进行分词，统一分词后的句子长度，通过词嵌入的方式将每个词替换为其词向量，得到预处理后的句子向量；

本步骤对中文语料进行向量化，具体包括下列过程：

首先，对输入句子进行分词，并去除停用词、标点符号等；

然后，统一句子长度为n，对长度不足n的句子进行补零；对长度超过n的句子进行截断操作。n为正整数，n值大小的设置可根据语料实际情况灵活设置；此处n代表句子中的词个数。

最后，通过Skip-gram模型训练得到词向量，词向量维度为k，将输入句子中每个词语转换为词向量，未登录词的词向量随机初始化，得到句子向量维度为n×k，输入通道数d＝1，记输入的中文句子的矩阵形状shape＝(h＝n,w＝k,d＝1)。其中，高度h等于词个数，宽度w等于词向量维度。

一个包含n个词的句子x表示为

其中是连接操作，x_i:i+j表示词x_i,x_i+1,…x_i+j的连接。

步骤3，构建中文情感倾向性分类模型。构建基于全局平均池化卷积神经网络的中文情感倾向性分类模型，如图2所示，该模型包含三层通道变换卷积层和一层全局平均池化层。模型利用三层通道变换卷积层提取语义情感特征，然后全局平均池化层对卷积层提取的特征进行池化计算，得到对应到各个输出类别的置信值，然后由Softmax输出情感分类标签。

全局平均池化卷积神经网络的三层通道卷积层，如图3所示，其卷积过程如下：

卷积核W(W∈R^hc*k)覆盖hc个词，为hc×k维的矩阵，hc是卷积核的高度，hc≤n。卷积核W能够覆盖词序列x_i:i+hc-1，并提取特征：

c_i＝f(W·x_i:i+hc-1+b) (2)

其中，W是卷积核权重矩阵，b是偏置量，f是非线性函数—Relu函数。对输入句子中的词序列x_i:i+hc-1用卷积核W提取到的特征为c_i。

滑动窗口扫描完句子中所有连续词序列{x_1:hc,x_2:hc+1,…,x_n-hc+1:n}后得到特征向量C：

C＝[c₁,c₂,…,c_n-hc+1] (3)

第一卷积层输入的矩阵shape＝(h＝n,w＝k,d＝1)。该层选择三种不同高度的卷积核{hc₁₁×k,hc₁₂×k,hc₁₃×k}，学习不同N-gram(汉语语言模型)的信息。每种高度卷积核各提取n₁个feature map(特征图)，因此高度为hc_1i(i＝1,2,3)的卷积核卷积得到结果的矩阵形状shape＝(n-hc_1i+1,1,n₁)。为方便下一层卷积，本发明的模型将卷积结果形状变换，变换后的shape＝(n-hc_1i+1,n₁,1)，即把通道信息作为宽度补偿。将变换后的结果输入到下一层。

第二卷积层提供相对应三种高度的卷积核{hc₂₁×1,hc₂₂×1,hc₂₃×1}，其中{hc_2i＝n-hc_1i+1,i＝1,2,3}。每种高度卷积核提取n₂个feature map。三种高度卷积核卷积结果尺寸相同，shape＝(1,n₁,n₂)。然后对卷积结果做形状变换，将通道信息作为高度补偿，变换后shape＝(n₂,n₁,1)。最后将三种卷积核的输出变换结果在通道维度叠加，得到shape＝(n₂,n₁,3)。此时的结果可以类比成一张具有3通道的矩形图片，将其输入到下一层中。

第三卷积层采用大小为hc₃×hc₃的卷积核对前一层输出进行等宽卷积，卷积输出与输入等宽等高。卷积核输出n₃个feature map，feature map的数量与输出类别数相对应，即n₃等于输出的情感类别的数目m。

上面所出现的hc_1i(i＝1,2,3)、hc_2i(i＝1,2,3)、hc₃取值都是正整数，卷积核高度一般不超过前一层输出的高度。n₂、n₁为设置的正整数。

模型通过三层通道变换卷积层自动对输入语料进行特征抽取，特征抽取过程涵盖了卷积的通道信息，无需人工干预。

具体地，全局平均池化卷积神经网络的全局平均池化层，如图4所示，其工作过程如下：

全局平均池化层对卷积层提取的feature map进行池化计算，计算每个featuremap的平均值，池化结果将作为输出类别的置信值，因此要求其输出节点个数n₃和情感类别个数一致，即n₃＝m。通过Softmax分类器输出各情感类别的概率值，取概率值最大的类别得到情感标签。

Softmax分类器将全局平均池化结果S_j(x,θ)转换为输出标签的概率分布：

其中，θ是模型参数集合，S_j(x,θ)是句子x经全局平均池化层计算后得到的属于类别j的分数，Y是所设置的情感类别集合，|Y|＝m。通过随机梯度下降法来最小化式子(4)的负对数似然函数来调整模型的参数集θ：

其中，(x,y)表示一条训练样本x及其对应的情感类别标签y，D表示训练样本集。

步骤4，模型训练。将预处理后的语料进行随机打乱，并划分训练集和测试集。设置模型参数进行多次训练，并测试各次模型的分类准确率。

本步骤中，模型训练验证过程的参数设置包括：

将经过步骤2处理后的数据按训练测试比＝9:1进行10折交叉验证，即训练、测试各进行10次；在每次训练过程中，输入模型的数据批数量为batch，数据迭代轮数为epoch。10折交叉验证后，得到10个模型的测试分类准确率。

步骤5，情感倾向性分类。使用步骤4得到模型中测试准确率最高的模型进行中文情感倾向性分类。

选择步骤4得到的模型中测试准确率最高的模型进行中文情感倾向性分析，将待分类的语料经过步骤2处理后输入到模型当中，模型将输出语料的情感倾向性类别，本发明所提供模型支持批量语料的情感倾向性分析。

下面以酒店评论情感二分类问题来说明本发明方法具体实践的过程及可行性。

步骤(1)准备语料数据。

本实例中，语料数据是酒店评论，共包含2种情感极性：正向情感和负向情感，分别标注为1、0。如下所示：

“服务很好，我定的标准间已满，免费升级到套房，下次去厦门还住那。”1

“房间小，环境吵，早餐差，十运会期间房价涨了一倍，砍得我血淋淋。”0

前面一句是收集的酒店评论，后面的1、0是为该评论所添加的标注数据。按照该方法，对语料数据进行标注。

步骤(2)数据预处理。

首先对数据集分别进行分词，实验利用结巴分词工具完成分词，去除停用词和标点符号。然后统一句子长度，本实例中酒店评论属于短文本，因此选择句子长度n＝256。因此这一部分需要对长度小于n的句子进行补齐，对长度大于n的句子进行截断。

步骤(3)文本表示。

实例选择用来训练词向量的word2vec工具是gensim，并选用中文维基百科约23万篇语料词向量训练集。实验选择Skip-gram的方式进行词向量的训练，词向量维度k为400；将经过步骤(2)处理的语料转换为句子向量集合，一条n个词的评论将变成n*k的矩阵；未登录词的词向量随机初始化。

步骤(4)模型训练。

本实例针对酒店评论数据，模型参数为：第一层卷积层提取特征数n₁＝100，3种卷积核的高度分别为：hc₁₁＝3,hc₁₂＝4,hc₁₃＝5，第二层卷积层提取特征数n₂＝100，第三层卷积核大小为3×3，输出特征数n₃＝情感类别数m＝2。

将经过步骤(2)、步骤(3)处理后的语料，进行随机打乱，并对模型进行10折交叉验证，将用句子向量输入到模型中训练，每批数量batch＝64，不断迭代指导模型loss到达稳定极小值。然后对各个模型进行分类准确率测试，选择10次结果中准确率最高的模型作为方法最终的模型。

步骤(5)中文情感倾向性分类。

将待进行情感倾向性分类的酒店评论数据经过预处理并转为句子向量后，得到符合模型输入的格式，输入到模型中进行预测，模型将输出语料的情感倾向性类别，即正向情感(1)或负向情感(0)。模型也可以支持批量分类，即输出每条评论的情感极性。

当该模型方法应用到不同情感分类场景时，只需要修改情感类别数m，句子词语长度n及其他一些参数，然后重新训练即可，模型结构不变。

Claims

1.一种基于全局平均池化卷积神经网络的中文情感倾向性分类方法，其特征在于，包括如下步骤：

步骤1，对收集的中文语料进行情感倾向性标注；

步骤3，构建基于全局平均池化卷积神经网络的中文情感倾向性分类模型，该模型利用三层通道变换卷积层提取语义情感特征，然后用全局平均池化层对卷积层提取的特征进行池化计算，得到对应到各个输出情感类别的置信值，然后由Softmax输出情感分类标签；

步骤4，进行模型训练，包括：将预处理后的语料进行随机打乱，并划分训练集和测试集，设置模型参数进行训练，测试每次训练的模型的分类准确率；

步骤5，使用步骤4得到的分类准确率最高的模型，来进行中文情感倾向性分类。

2.根据权利要求1所述的中文情感倾向性分类方法，其特征在于，所述的步骤2具体实现包括如下步骤：

首先，对输入的中文句子进行分词，并去除停用词和标点符号；

其次，统一句子长度为n，对长度不足n的句子进行补零；对长度超过n的句子进行截断操作；n为正整数，n代表句子中词的个数；

然后，通过Skip-gram模型训练得到词向量，未登录词的词向量随机初始化；将句子中的词按序进行连接操作，得到句子的矩阵表示；

设词向量维度为k，得到句子的矩阵形状shape＝(h＝n,w＝k,d＝1)；其中，高度h等于词个数，宽度w等于词向量维度，通道数d＝1。

3.根据权利要求1所述的中文情感分类方法，其特征在于，步骤3所述的中文情感倾向性分类模型中，利用三层通道变换卷积层提取语义情感特征，具体是：

第一卷积层输入的矩阵形状shape＝(h＝n,w＝k,d＝1)；其中，高度h等于词个数n，宽度w等于词向量维度k，d为通道数；在第一卷积层选择三种不同高度的卷积核{hc₁₁×k,hc₁₂×k,hc₁₃×k}，学习不同N-gram的信息，hc_1i(i＝1,2,3)为正整数；设每种高度卷积核各提取n₁个特征图，高度为hc_1i(i＝1,2,3)的卷积核卷积结果的形状shape＝(n-hc_1i+1,1,n₁)，将卷积结果形状变换，把通道信息作为宽度补偿，变换后的矩阵形状shape＝(n-hc_1i+1,n₁,1)，将变换后的结果输入到下一层；

第二卷积层对应提供三种高度的卷积核{hc₂₁×1,hc₂₂×1,hc₂₃×1}，其中{hc_2i＝n-hc_1i+1,i＝1,2,3}；每种高度卷积核提取n₂个特征图，三种高度卷积核卷积结果尺寸相同，矩阵尺寸shape＝(1,n₁,n₂)；然后对卷积结果做形状变换，将通道信息作为高度补偿，变换后的形状shape＝(n₂,n₁,1)；最后将三种卷积核的输出变换结果在通道维度叠加，得到的结果形状shape＝(n₂,n₁,3)，将叠加后的结果输入到下一层中；n₂、n₁为正整数；

第三卷积层采用大小为hc₃×hc₃的卷积核对前一层输出进行等宽卷积，卷积输出与输入等宽等高，卷积核输出n₃个特征图，n₃等于设置的情感类别数目m。

4.根据权利要求1或3所述的中文情感分类方法，其特征在于，步骤3所述的中文情感倾向性分类模型，用全局平均池化层对卷积层提取的特征进行池化计算，具体是：计算第三卷积层输出的每个特征图的平均值，池化结果将作为输出类别的置信值；通过Softmax分类器输出各情感类别的概率值，取概率值最大的类别得到情感标签。

5.根据权利要求4所述的中文情感分类方法，其特征在于，所述的Softmax分类器，将全局平均池化结果S_j(x,θ)转换为输出标签的概率分布，如下：

其中，θ是模型参数集合，S_j(x,θ)是句子x经全局平均池化层计算后得到的属于类别j的分数，Y是设置的情感类别集合；通过随机梯度下降法来最小化概率分布公式的负对数似然函数来调整模型的参数集θ如下：

6.根据权利要求1所述的中文情感分类方法，其特征在于，所述的步骤4，设置模型参数进行训练的过程包括：将经过步骤2处理后的语料按训练测试比＝9:1进行10折交叉验证，在每次训练过程中，设置模型的数据批数量和数据迭代轮数；10折交叉验证后，得到10个模型的测试分类准确率。

7.根据权利要求1所述的中文情感分类方法，其特征在于，所述的步骤5中，将待分类的语料经过步骤2处理后，输入所得到的分类准确率最高的模型，该模型输出语料的情感类别标签。