CN111858939A

CN111858939A - 一种基于上下文信息和卷积神经网络的文本情感分类方法

Info

Publication number: CN111858939A
Application number: CN202010731311.0A
Authority: CN
Inventors: 陈福
Original assignee: Shanghai Wujie Data Technology Co Ltd
Current assignee: Shanghai Wujie Data Technology Co Ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-10-30

Abstract

本发明公开了一种基于上下文信息和卷积神经网络的文本情感分类方法，步骤包括：1)文本预处理；2)文本的词向量表示；3)文本的上下文信息生成；4)神经网络模型训练和分类。本发明在词向量基础上，抽取文本的上下文信息，并将多种不同尺度的卷积核融入卷积神经网络中，既能利用文本中更丰富的语义信息，又能捕获词语之间在不同尺度的关系，实现更准确的文本情感分类。

Description

一种基于上下文信息和卷积神经网络的文本情感分类方法

技术领域

本发明属于自然语言处理技术与模式识别领域，具体地说是一种基于上下文信息和卷积神经网络的文本情感分类方法。

背景技术

文本是互联网上信息传递的一种主要形式。与图像、声音等信息传递形式相比，文本数据量较小，但可以包含大量信息，而且可以更容易表达用户观点。互联网上存在大量带有情感倾向性的文本，这些情感倾向性文本往往以商品评论、论坛评论和博客等各种形式存在。文本情感分类是根据文本内容所体现的用户意见的情感极性将其分为正面、中性和负面三类。由于巨大的商业价值，近年来，文本情感分类在自然语言处理研究领域得到了很大的关注。传统情感分类包括支持向量机(SvM)、决策树、朴素贝叶斯分类器等。然而这些方法都存在一定缺陷，如SvM在建模复杂非线性问题时表达能力不足，决策树在噪声情况下容易出现过拟合，朴素贝叶斯分类器需要属性的独立性假设。相比传统分类方法，近年来兴起的深度学习模型则表现出了良好的自适应性和容错性。

大多数基于深度学习的文本情感分类方法直接将文本表达为词向量矩阵，并利用卷积神经网络分类。词向量是采样神经网络语言模型和N-gram语言模型将每个词语都表示成一个实数向量。然而，这种方法没有充分挖掘文本的上下文语义信息，难以表达文本中复杂的情感，使得文本情感分类的准确率仍存在提高的空间。

发明内容

本发明为克服现有技术存在的不足之处，提出一种基于上下文信息和卷积神经网络的文本情感分类方法，以期能进一步提高文本情感分类的准确性。

本发明为解决技术问题采用如下技术方案：

一种基于上下文信息和卷积神经网络的文本情感分类方法，按如下步骤进行：

步骤1：获取文本集合D＝{D₁，D₂，…，D_N{及对应的情感标签集合Y＝{y₁，y₂，…，y_N{，D_t表示第t个文本，y_t表示第t个文本的情感极性：如果D_t的情感为正面，则y_t＝1，如果D_t的情感为负面，则y_t＝2，如果D_t的情感为中性，则y_t＝3，1≤t≤N，N为文本集合D中的文本总数；

步骤2：对文本集合D中的每个文本D_t进行分词，并对分词结果进行去除停用词，从而获得第t个文本D_t所包含的词语序列

d_i表示D_t中的第i个词语；1≤i≤m_t，m_t为去除停用词后D_t中包含的词语总数，也就是文本D_t的长度；

步骤3：取文本集合D中的最长文本长度为H，将每个文本的词语序列

转换成固定长度{d₁，d₂，…，d_H}，如果m_t＜H，则在词语序列

后面补H-m_t个字符NULL；

步骤4：通过查表的方式得到文本D_t的词向量矩阵V_t＝[v₁，v₂，…，v_H]∈R^H×p，其中v_i∈R^p为词语d_i的词向量表示，NULL对应的词向量为全0的p维向量；

步骤5：根据文本D_t的词向量矩阵V_t，计算文本D_t的上下文矩阵F_t：

步骤5.1：计算文本D_t中任意两个词语d_i与d_j的相关系数：

s_ij＝w^Ttanh(W_co_ij+b_c)

其中，tanh()代表双曲正切函数，o_ij＝[v_i，v_j]为将d_i对应的词向量v_i与d_j对应的词向量v_j连接得到的向量，w和W_C为需要通过模型训练得到的权重，b_c为需要通过模型训练得到的偏置， T表示向量转置，1≤i≤H，1≤j≤H；

步骤5.2：将相关系数归一化到0和1之间：

归一化后有

步骤5.3：对文本D_t的词向量矩阵V_t＝[v₁，v₂，…，v_H]和归一化相关系数

计算词语d_i的上下文向量

步骤5.4：依次令i＝1，2，…，H，重复步骤5.3，得到文本D_t的上下文矩阵

步骤6：将文本D_t的词向量矩阵V_t和上下文矩阵F_t组合成3阶张量B_t∈R^H×p×2；

步骤7：应用同一尺度的卷积核集合{w₁，w₂，…，w_Q}和极大池化操作从文本D_t的3阶张量 B_t中抽取Q维特征向量

其中卷积核w_i的大小为l×p×2，i＝1，2，…，Q，l为卷积核窗口中词的数量；

步骤7.1：取出文本D_t中由第1到第l个词语对应的词向量和上下文向量构成的子张量 B_t，1∈R^l×p×2，取出文本D_t中由第2到第l+1个词语对应的词向量和上下文向量构成的子张量

B_t，2∈R^l×p×2，依次类推，获得子张量B_t，3，…，B_tH+1-l；

步骤7.2：将卷积核w_q与{B_t，1，B_t，2，…，B_t，H+1-l}进行卷积操作后生成特征向量c_q∈R^H+1-l， c_q的第i个元素为f₁(w_q*B_t，i+b)，i＝1，2，…，H+1-l，b为偏置项，f₁为非线性激活函数；

步骤7.3：依次令q＝1，2，…，Q，重复步骤7.2，产生卷积层的特征矩阵

C＝[c₁，c₂，…，c_Q]∈R^(H+1-l)×Q；

步骤7.4：对特征矩阵C的每一列应用极大池化(max pooling)，保留最重要的特征，得到特征向量

步骤8：若有不同尺度大小的卷积核r种，每种尺度下卷积核有Q个，对每种尺度下的所有卷积核，应用步骤7都能抽取Q维的特征向量，将所有不同尺度的卷积核抽取的特征向量连接为特征向量s∈R^Q·r；

步骤9：在特征向量s上应用全连接网络进一步抽取特征：

其中，W_fc与b_fc为需要根据数据训练的权重参数，f为非线性变换函数；

步骤10：在特征向量

上应用softmax分类器，得到文本D_t属于类别y_i的概率：

其中，α₁，α₂，α₃，β₁，β₂，β₃为softmax分类器的系数，y_i＝1表示正面情感，y_i＝2表示负面情感，y_i＝3表示中性情感；

步骤11：在模型训练阶段，采用随机梯度下降算法优化模型的参数。

本发明通过从原始文本中挖掘上下文信息，将文本的词向量矩阵和上下文信息一起作为卷积神经网络的输入，同时，为表达不同距离的词语间的关系，将多尺度卷积核引入卷积神经网络，提高了文本情感分类的准确度。与已有技术相比，本发明有益效果体现在：

1、本发明通过引入学习机制，能显式抽取文本中词语的上下文语义信息和关系，克服了词向量无法表达特定文本词语间关系的缺陷；

2、本发明通过多种尺度的卷积核，能有效表达不同距离的词语之间的多重依赖性，有助于从文本中抽取更多有利于分类的信息；

3、本发明可以应用于对互联网上采集的新闻、产品评论等文本进行情感分析，还可应用于舆情监控和信息预测等领域，本发明应用广泛。

具体实施方式

本发明为了克服现有技术存在的不足之处，提出一种基于上下文信息和卷积神经网络的文本情感分类方法，以期能解决词向量蕴含的鉴别信息不足和单一尺度卷积核的缺陷，从而进一步提高文本情感分类的准确性。

为更为具体地描述本发明，下面对本发明的技术方案进行详细说明。

本实施例一种基于多特征融合集成学习的文本情感分类方法，具体过程为：

步骤1：数据获取。获取文本集合D＝{D₁，D₂，…，D_N}及对应的情感标签集合 Y＝{y₁，y₂，…，y_N}，D_t表示第t个文本，y_t表示第t个文本的情感极性：如果D_t的情感为正面，则y_t＝1，如果D_t的情感为负面，则y_t＝2，如果D_t的情感为中性，则y_t＝3，1≤t≤N，N 为文本集合D中的文本总数；

d_i表示D_t中的第i个词语；1≤i≤m_t，m_t为去除停用词后D_t中包含的词语总数，也就是文本D_t的长度。

中文分词操作主要基于字符串匹配原理，现有的开源中文分词软件包括结巴(Jieba)分词、中科院汉语分词系统(ICTCLAS)。此步骤采用结巴(Jieba)分词进行分词操作。

去停用词即去掉分词词语中与文本情感判断不太相关的词语，如空格、特殊字符、人名、时间日期、不含语义信息的词等。

转换成固定长度{d₁，d₂，…，d_H{，如果m_t＜H，则在词语序列

后面补H-m_t个字符NULL；

步骤4：通过查表的方式得到文本D_t的词向量矩阵V_t＝[v₁，v₂，…，v_H]∈R^H×p，其中v_i∈R^p为词语d_i的词向量表示，NULL对应的词向量为全0的p维向量；词向量是将词语转换成向量表示，使得可以应用神经网络对文本进行分析和计算。词向量既可以通过gensim工具在采集的文本上训练得到，也可以直接采用开源模型。此步骤采用Google的word2vec模型。

步骤5.1：计算文本D_t中任意两个词语d_i与d_j的相关系数：

s_ij＝w^Ttanh(W_co_ij+b_c)

其中，o_ij＝[v_i，v_j]为将d_i对应的词向量v_i与d_j对应的词向量v_j连接得到的向量，w和W_C为需要通过模型训练得到的权重，b_c为需要通过模型训练得到的偏置，T表示向量转置，1≤i≤H，1≤j≤H；

步骤5.2：将相关系数归一化到0和1之间：

归一化后有

计算词语d_i的上下文向量

步骤7.1：取出文本D_t中由第1到第l个词语对应的词向量和上下文向量构成的子张量 B_t，1∈R^l×p×2，取出文本D_t中由第2到第l+1个词语对应的词向量和上下文向量构成的子张量 B_t，2∈R^l×p×2，依次类推，获得子张量B_t，3，…，B_t，H+1-l；

在本实施例中，非线性激活函数f₁取为RELU函数；

C＝[c₁，c₂，…，c_Q]∈R^(H+1-l)×Q；

在本实施例中，设计5种不同尺度的卷积核，5种尺度卷积核窗口中词的数量分别为3、 4、5、6、7，每种尺度下卷积核数量Q取为256；

步骤9：在特征向量s上应用全连接网络进一步抽取特征：

在本实施例中，全连接网络包含1024个神经元，非线性变换函数f取为RELU函数；

步骤10：在特征向量

上应用softmax分类器，得到文本D_t属于类别y_i的概率：

其中，α₁，α₂，α₃，β₁，β₂，β₃为softmax分类器的系数，同样需要通过模型训练得到，y_i＝1表示正面情感，y_i＝2表示负面情感，y_i＝3表示中性情感；

步骤11：在模型训练阶段，采用随机梯度下降算法优化模型的参数，其中模型的参数包括卷积核、W_fc、b_fc、α₁、α₂、α₃、β₁、β₂、β₃、w、w_c、b_c。采用随机梯度下降算法不仅具有较快的训练速度、适合于处理海量数据，而且可以有效跳出局部最优解，找到更优的模型参数。

Claims

1.一种基于上下文信息和卷积神经网络的文本情感分类方法，其特征在于，包括如下步骤：

步骤1：获取文本集合

D＝{D₁，D₂，…，D_N}

及对应的情感标签集合Y＝{y₁，y₂，…，y_N}，D_t表示第t个文本，y_t表示第t个文本的情感极性：如果D_t的情感为正面，则y_t＝1，如果D_t的情感为负面，则y_t＝2，如果D_t的情感为中性，则y_t＝3，1≤t≤N，N为文本集合D中的文本总数；

转换成固定长度{d₁，d2，…，d_H}，如果m_t＜H，则在词语序列

后面补H-m_t个字符NULL；

步骤4：通过查表的方式得到文本D_t的词向量矩阵V_t＝[v₁，v₂，…，v_H]∈R^H×p，其中v_i∈R^p为词语d_i的词向量表示，其中p为词向量的维度，NULL对应的词向量为全0的p维向量；

步骤5：根据文本D_t的词向量矩阵V_t，计算文本D_t的上下文矩阵F_t；

步骤7：应用同一尺度的卷积核集合{w₁，w₂，…，w_Q}和极大池化操作从文本D_t的3阶张量B_t中抽取Q维特征向量

步骤8：若有不同尺度大小的卷积核r种，每种尺度下卷积核有Q个，对每种尺度下的所有卷积核，应用步骤7都能抽取Q维的特征向量，将所有不同尺度的卷积核抽取的特征向量连接为特征向量s∈R^Qr；

步骤9：在特征向量s上应用全连接网络进一步抽取特征：

其中，W_fc与b_fc为需要根据数据训练的权重参数，f为非线性变换函数，如sigmoid、tanh、RELU；

步骤10：在特征向量

上应用softmax分类器，得到文本D_t属于类别y_i的概率：

其中，α₁，α₂，α₃，β₁，β₂，β₃为softmax分类器的系数，需要通过模型训练得到，y_i＝1表示正面情感，y_i＝2表示负面情感，y_i＝3表示中性情感。

2.根据权利要求1所述的一种基于上下文信息和卷积神经网络的文本情感分类方法，其特征在于，步骤5包括：

步骤5.1：计算文本D_t中任意两个词语d_i与d_j的相关系数：

s_ij＝w^Ttanh(W_co_ij+b_c)

其中，tanh()为双曲正切函数，o_ij＝[v_i，v_j]为将d_i对应的词向量v_i与d_j对应的词向量v_j连接得到的向量，w和W_C为需要通过模型训练得到的权重，b_c为需要通过模型训练得到的偏置，T表示向量转置，1≤i≤H，1≤j≤H；

步骤5.2：将相关系数归一化到0和1之间：

归一化后有

计算词语d_i的上下文向量

3.根据权利要求1所述的一种基于上下文信息和卷积神经网络的文本情感分类方法，其特征在于，步骤7包括：

步骤7.1：取出文本D_t中由第1到第l个词语对应的词向量和上下文向量构成的子张量B_t，1∈R^l×p×2，取出文本D_t中由第2到第l+1个词语对应的词向量和上下文向量构成的子张量B_t，2∈R^l×p×2，依次类推，获得子张量B_t，3，…，B_t，H+1-l；

步骤7.2：将卷积核w_q与{B_t，1，B_t，2，…，B_t，H+1-l}进行卷积操作后生成特征向量c_q∈R^H+1-l，c_q的第i个元素为f₁(w_q*B_t，i+b)，i＝1，2，…，H+1-l，b为偏置项，f₁为非线性激活函数；

步骤7.3：依次令q＝1，2，…，Q，重复步骤7.2，产生卷积层的特征矩阵c＝[c₁，c₂，…，c_Q]∈R^(H+1-l)×Q；

步骤7.4：对特征矩阵C的每一列应用极大池化，保留重要的特征，得到特征向量

4.根据权利要求1所述的一种基于上下文信息和卷积神经网络的文本情感分析方法，其特征在于，还包括步骤11：

在模型训练阶段，采用随机梯度下降算法优化模型的参数，其中模型的参数包括卷积核、W_fc、b_fc、α₁、α₂、α₃、β₁、β₂、β₃、w、w_c、b_c。