CN109977413A

CN109977413A - 一种基于改进cnn-lda的情感分析方法

Info

Publication number: CN109977413A
Application number: CN201910248424.2A
Authority: CN
Inventors: 张咪; 章韵
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-07-05
Anticipated expiration: 2039-03-29
Also published as: CN109977413B

Abstract

本发明公开了一种基于改进CNN‑LDA的情感分析方法，包括：爬虫豆瓣影评数据进行预处理；采用Word2vec获得语料集词向量；利用情感词典添加情感倾向权重；将Word2vec得到的词向量与情感倾向权重向量机获得情感倾向词向量；采用LDA主题生成模型获得语料集主题向量；将情感倾向词向量与主题向量叠加得到语料集的输入表征；将训练集词向量表征输入CNN模型以建立情感分析模型；最后将测试集词向量表征输入已训练网络进行分类评估。本发明提供了一种基于改进CNN‑LDA的情感分析方法，将情感倾向词向量与主题向量相结合，同时考虑了包含文本情感信息的词粒度和文本粒度层面的信息，从而可以在训练过程中更好的利用文本信息，提高文本情感分析的准确度。

Description

一种基于改进CNN-LDA的情感分析方法

技术领域

本发明涉及一种基于改进CNN-LDA的情感分析方法，属于木文本情感分析领域。

背景技术

情感分析是一种常见的自然语言处理方法的应用，特别是在以提取文本的情感内容为目标的分类方法中。而文本情感分析是对带有感情色彩的主观性文本进行分析、处理、归纳、和推理的过程，如从评论文本中分析用户对某个电影的“画面、音效、剧情、演员阵容”等属性的情感倾向。目前，情感分析技术被广泛地应用于在线翻译、用户评价分析和观点挖掘等互联网应用中。对商家而言，快速的获取用户评论的情感倾向可以为广告投放和热点话题推送等提供便利；对用户而言，准确的获取其他用户评论的情感倾向可以为作出选择和决策提供帮助。从目前市场需求和技术发展水平考虑，对情感分析技术进行研究和革新具有很大的价值和提升空间。

常见的情感分类方法主要可分为两大类：第一种是基于情感词典的方法；第二种是基于机器学习的方法。前者需要用到情感词典，通过分析词语的情感极性来决定句子的情感倾向；后者则是将词语编码为向量，通过提取句子的特征进行分类。

目前，对情感倾向分析的研究大多都着眼于语句本身，从文本、语法等挖掘能描述情感倾向的特征。卷积神经网络(CNN)可以很好的提取输入的词向量包含的特征信息，然而CNN却不能有效的“考虑”一个句子或是文本整体所包含的特征信息。在使用CNN对文本分类的过程中，受到卷积核大小的限制，往往只能提取词粒度层面的词向量矩阵，从而忽略了文本粒度层面整体语义特征的表达，虽然达到了较好的情感分类效果，但是并没有挖掘文本的深层语义信息。

发明内容

本发明要解决的技术问题是，克服单一卷积神经网络的缺陷，提供一种将LDA主题生成模型与卷积神经网络进行结合，能够对文本的深层语义信息进行挖掘，提高文本情感分析的准确度的基于改进CNN-LDA的情感分析方法。

为解决上述技术问题，本发明采用的技术方案为：

一种基于改进CNN-LDA的情感分析方法，包括以下步骤：

S01，从豆瓣平台采集豆瓣影评数据并进行预处理，豆瓣影评数据包括评论人ID、影评评论具体内容和影评星级评价，对影评评论内容中的语料进行情感分类标注，并将语料分为训练集和测试集两个集合；

S02，使用Word2Vec算法训练S01获取的影评评论内容的语料集，将语句中的单词映射为多维度的连续向量，构建词向量矩阵；

S03：构建情感词典，包括正向情感词、负向情感词、程度副词和否定副词，根据情感词典获取每条影评评论内容的正向情感词、负向情感词、程度副词和否定副词，将语料中词向量集合和情感词典作为输入，依次将语料中的词向量与词典集合中的情感词比较，计算相似度，并选取最优值作为该词向量的权值，输出词向量的情感倾向权重集合；

S04：采用向量机的方式，结合S02得到的词向量矩阵与S03得到的情感倾向权重集合，对词向量赋予不同的权重，得到情感加权词向量表征；

S05：利用LDA主题生成模型提取评论数据语料集主题特征，通过LDA训练S01获取的评论语料集，获得LDA主题分布概率，输出文本—主题、主题—词语矩阵，确定恰当个数的主题类别，将每条影评所属主题类别作为电影情感分析的主题特征，模型训练结束输出语料库任意文本的主题分布矩阵，得到主题向量表征；

S06：采用向量拼接的方式，将S04得到的情感加权词向量表征与S05得到的主题向量表征叠加在一起，形成新的词向量表征，即同时包含词义特征和整体语义特征，并且加入情感倾向关注度；

S07：将S06得到的训练集的新的词向量表征作为卷积神经网络的输入，训练模型；

S08：将S06得到的测试集的新的词向量表征输入S07中已被训练的情感分析模型，进行情感分类，并计算其准确率。

S01中，通过爬虫工具获取豆瓣影评数据，豆瓣影评数据预处理过程去除英文评价，排除同一用户可能性的多次刷评，并按照影评星级对影评打标签：1～2星标注为消极，4～5星标注为积极，3星标注为中性；通过人工筛选，将语料集划分为positive和negative两个集合，并按照7:3的比例划分训练集和测试集。

S01中，在对语料进行情感分类标注以及划分之后对语料进行文本预处理，具体为采用基于Python的结巴分词工具的精确模式对语料分词，利用正则式去除分词结果中的标点符号，采用Stopword.txt停用词表去除分词结果中的停用词。

S02中，使用python中的gensim库，对S01获取的评论语料进行训练，得到包含上下文信息和语义信息的特征向量。

S03中，使用知网HowNet融合网络流行词汇构建情感词典，包括正向情感词、负向情感词、程度副词、否定副词。情感倾向关注度算法具体实现如下：

输入：语料中词向量集合T＝{t₁,t₂…,t_n}、t₁到t_n代表词向量，情感词典集合S＝{s₁,s₂,…,s_m}，s₁到s_m代表情感词；

按照语序选取词向量集合T中第i个词向量，同时选取情感词典集合S中的第j个情感词，计算其相似度Sim_ij:

并保存到集合Sim_i＝{sim_i1,sim_i2,…,sim_im}，Sim_i代表词向量t_i对应的相似度集合；选择集合Sim_i的最优值Sim_imax作为词向量t_i的权值，构建情感倾向权重集合W＝{w₁,w₂,…,w_n}，w_i即代表词向量ti的最优权重；归一化权重，得到情感倾向关注度矩阵。

S04中，我们采用S02中word2vec算法将句子中的单词映射为多维度的连续向量以及S03中由情感词典相似度计算而获取的情感倾向权重，使用向量积的形式对词向量赋予不同的关注度，情感加成的词向量表征为：x＝{w_et₁,w_et₂,…,w_et_n}。

S05中，LDA假设电影评论文档和主题满足Dirichlet先验分布，并假设电影主题与词也满足Dirichlet先验分布，计算公式如下：

其中，θ_d是任一影评文档d的主题分布；为分布的超参数，是一个K维向量；β_k是任一影评主题k的词分布；为分布的超参数，是一个V维向量，V表示词汇表中所有词的个数；

对于影评数据中任一文档d的第n个词，其主题编号z_dn的分布可表示如下：

z_dn＝multi(θ_d) (4)

对于该主题编号，词w_dn的概率分布可表示如下：

w_dn＝multi(β_zdn) (5)

其中，θ_d是任一影评文档d的主题分布；z_dn是任一影评文档d的第n个词的主题编号；β_zdn是任一影评文档d的第n个词的主题编号z_dn下的词分布；w_dn是任一文档d的第n个词的词分布；

组成Dirichlet-multi共轭，使用贝叶斯推断的方法即可得到基于Dirichlet分布的文档主题后验分布；

如果在第d个文档中，第k个主题的词的个数为则对应的多项式分布计算可表示为：

其中，是第d个影评文档中k个主题对应的词个数的集合；

利用Dirichlet-multi共轭，得到后验分布

同理，对于影评数据中提取的主题与词的分布，假设有K个主题与词的Dirichlet分布，则也组成Dirichlet-multi共轭，可以得到Dirichlet分布的主题词的后验分布；

在第k个主题中，第v个词的个数为则对应的多项式分布的计算可以表示为：

其中，是影评文档中第k个主题中v个词相应的每个词的个数的集合；利用Dirichlet-multi共轭，得到后验分布采用Gibbs采样算法对此模型进行求解，可设置模型迭代次数，模型训练结束输出语料库任意文本的主题分布矩阵。

S06中，我们将S04中得到的情感加权词向量以及S05中得到的主题向量拼接在一起，拼接的方式可以选择直接拼接或是向量叠加，而在本发明中更倾向于使用直接拼接的方式，形成新的输入表征，即既包含情感关注的词义特征，又包含整体语义特征。

S07中，卷积神经网络的网络结构由输入层、卷积层、池化层和全连接层组成，卷积层选用多通道的方式，即选择多个滤波器进行特征提取；池化层对经过卷积层获取的特征进行下采样，采用最大池化方式，选取其中局部最优特征；全连接层对经过卷积层和池化层的特征进行平化和连接。

本发明的有益效果：本发明提供的一种基于改进CNN-LDA的情感分析方法，先通过word2vec将语料集转化为词向量，并利用情感词典，将得到的带有明确“情感信息”的特征权重对词向量进行加权处理。再是通过LDA主题生成模型深度挖掘语义特征，获取文档主题向量，主题分布体现文本的整体语义信息，丰富神经网络特征提取，为分类器提供更加准确的分类特征。将两者结合作为卷积神经网络的输入，这就意味着构造的特征同时考虑了包含文本情感信息的词粒度和文本粒度层面的信息，从而可以在训练过程中更好的利用文本信息，提高文本情感分析的准确度。

附图说明

图1为本发明一种基于改进CNN-LDA的情感分析方法的流程示意图；

图2为本发明一种基于改进CNN-LDA的情感分析方法的模型结构图。

具体实施方式

下面结合附图对本发明作进一步描述，以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1和图2所示，本发明提供的一种基于改进CNN-LDA的情感分析方法，将CNN以及LDA结合运用在情感分析任务上，主要包括以下步骤：

步骤一：通过爬虫工具的手段从豆瓣电影平台采集豆瓣影评数据，包括某部电影的评论人ID、影评评论具体内容以及影评星级评价。对影评数据进行处理，去除英文评价，排除同一用户可能性的多次刷评，并按照影评星级对影评星级评价打标签：1～2星标注为消极，4～5星标注为积极，3星标注为中性。

对影评评论内容中的语料进行情感分类标注，将做好情感标记的语料集分为训练集和测试集，训练集和测试集的划分的比例为7:3，训练集用来训练情感分类的模型，测试集用来测试模型分类的效果。

对语料进行文本预处理：我们将采用基于Python的结巴分词工具的精确模式对语料分词，可以根据句法和语法高效切分词语，保证词语完整性和原子性，分词结果包含原句中的标点符号，符号本身不具有任何词项含义，利用正则式去除分词结果中的标点符号；停用词往往会造成数据冗余，导致分类模型偏差，我们将采用Stopword.txt停用词表去除分词结果中的停用词。

步骤二：使用Word2Vec算法训练步骤一获取的评论语料集，将语句中的单词映射为多维度的连续向量，构建词向量矩阵。Word2vec能快速构建词语的词向量形式，词向量每一维的值代表一个具有一定的语义和语法上解释的特征，其核心框架包括CBOW和Skip-gram两种训练模式。我们可以直接使用python中的gensim库，对评论语料进行训练，得到包含上下文信息和语义信息的特征向量。

步骤三：构建情感词典，情感词作为文本情感分析的关键影响因素，极大程度的决定最终合成语义的分类效果。我们使用知网HowNet和融合网络流行词汇构建情感词典，包括正向情感词、负向情感词、程度副词和否定副词。情感倾向关注度(权重)算法具体实现如下：输入：语料中词向量集合T＝{t₁,t₂…,t_n}、t₁到t_n代表词向量，情感词典集合S＝{s₁,s₂,…,s_m}，s₁到s_m代表情感词；

并保存到集合Sim_i＝{sim_i1,sim_i2,…,sim_im}，Sim_i代表词向量t_i对应的相似度集合；选择集合Sim_i的最优值Sim_imax作为词向量t_i的权值，构建情感倾向权重集合W＝{w₁,w₂,…,w_n}，w_i即代表词向量t_i的最优权重；归一化权重，则可得到我们所需要的情感倾向关注度矩阵。

步骤四：步骤二中，我们采用word2vec将句子中的单词映射为多维度的连续向量；步骤三中，我们采用情感词典获取情感倾向权重，使用向量积的形式对词向量赋予不同的关注度，情感加成的词向量表征为：x＝{w_et₁,w_et₂,…,w_et_n}。

步骤五：利用LDA主题生成模型提取评论数据语料集主题特征，通过LDA训练S01获取的评论语料集，获得LDA主题分布概率，输出文本—主题、主题—词语矩阵，确定恰当个数的主题类别，将每条影评所属主题类别作为电影情感分析的主题特征，模型训练结束输出语料库任意文本的主题分布矩阵。LDA是多层的贝叶斯网络模型，包含文档、主题、词三层，其主要思想是将每个文档看作所有主题的混合概率分布，将其中的每个主题看作在词上的概率分布，能将电影评论文档的“文档—词”的高维空间映射到“文档—主题”和“主题—词”的低维空间，具有强大的降维能力。

LDA假设电影评论文档和主题满足Dirichlet先验分布，并假设电影主题与词也满足Dirichlet先验分布，计算公式如下：

z_dn＝multi(θ_d) (4)

对于该主题编号，词w_dn的概率分布可表示如下：

w_dn＝multi(β_zdn) (5)

根据贝叶斯统计理论，当后验分布与先验分布属于同类型分布时，则二者为共轭分布。LDA主题生成模型中，有M个文档主题的Dirichlet分布，则对应于有M个主题编号的多项分布，这样组成Dirichlet-multi共轭，这里α是先验分布，一个K维的超参，θ_d是任一影评文档d的主题分布；而是根据上述推论得到的K维词分布。使用贝叶斯推断的方法即可得到基于Dirichlet分布的文档主题后验分布；

其中，是第d个影评文档中k个主题对应的词个数的集合；

利用Dirichlet-multi共轭，得到后验分布

其中，是影评文档中第k个主题中v个词相应的每个词的个数的集合；利用Dirichlet-multi共轭，得到后验分布

主题—词的分布由所有影评文档统计而来，统计的是所有文档的全局信息。构建完成LDA主题生成模型，采用Gibbs采样算法对模型求解，可设置模型迭代次数。LDA模型在初始化时，可选取主题维数K为100，先验分布超参数α和β分别设定为50/K、0.01，迭代过后，模型训练结束，将输出语料库任意文本的主题分布矩阵。

步骤六：将步骤四中得到的情感加权词向量与步骤五中得到的主题向量拼接在一起，可以选择直接拼接或是向量叠加，形成新的输入表征，即同时包含词义特征和整体语义特征，并且加入情感倾向关注度。

步骤七：将步骤六中得到的词向量表征作为卷积神经网络(CNN)的输入，训练模型。CNN的网络结构主要由输入层、卷积层、池化层、全连接层组成，具体实现过程如下：

卷积层主要是为了学习文本句子的局部特征，采用不同的卷积核大小，可以提取到输入信息中不同的特征。选用多通道的方式，即选择多个滤波器进行特征提取，一般设置为[2,3,4]，得到不同卷积核的卷积序列，设置激活函数tanh，用于对卷积结果作平滑。

池化层是对高维的特征集合进行降采样操作，防止过度拟合，以及提高计算性能。对经过卷积层获取的特征进行下采样，采用最大池化方式，选取其中局部最优特征。通过池化层可以减少训练参数的数量，池化在每一个通道独立完成，因此输入矩阵的纵深保持不变；

在全连接层，对经过卷积层和池化层的特征进行平滑和连接。选择ReLU作为激活函数；选择交叉熵作为损失函数，并通过反向传播优化网络内参数；为防止过拟合，设置Dropout为0.5；选择softmax函数作为分类标准，输出分类结果。经过多轮迭代后，当准确率趋于稳定时，完成模型训练。

步骤八：将步骤六中得到的测试语料集的词向量输入步骤七中已被训练的情感分析模型，进行情感分类，并计算其准确率。

本发明将情感倾向词向量与主题向量相结合，既包含词义特征和整体语义特征。将其作为卷积神经网络的输入，这就意味着构造的特征同时考虑了包含文本情感信息的词粒度和文本粒度层面的信息，从而可以在训练过程中更好的利用文本信息，提高文本情感分析的准确度。

以上仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于改进CNN-LDA的情感分析方法，其特征在于：包括以下步骤：

S01，从豆瓣平台采集豆瓣影评数据并进行预处理，豆瓣影评数据包括评论人ID，评论内容和影评星级评价，对影评评论内容中的语料进行情感分类标注，并将语料分为训练集和测试集两个集合；

2.根据权利要求1所述的基于改进CNN-LDA的情感分析方法，其特征在于：S01中，通过爬虫工具获取豆瓣影评数据，豆瓣影评数据预处理过程去除英文评价，排除同一用户可能性的多次刷评，并按照影评星级对影评打标签：1～2星标注为消极，4～5星标注为积极，3星标注为中性；通过人工筛选，将语料集划分为positive和negative两个集合，并按照7:3的比例划分训练集和测试集。

3.根据权利要求2所述的基于改进CNN-LDA的情感分析方法，其特征在于：S01中，在对语料进行情感分类标注以及划分之后对语料进行文本预处理，具体为采用基于Python的结巴分词工具的精确模式对语料分词，利用正则式去除分词结果中的标点符号，采用Stopword.txt停用词表去除分词结果中的停用词。

4.根据权利要求1所述的基于改进CNN-LDA的情感分析方法，其特征在于：S02中，获得Word2Vec词向量输入表征需要使用python中的gensim库，对S01获取的评论语料进行训练，得到包含上下文信息和语义信息的特征向量。

5.根据权利要求1所述的基于改进CNN-LDA的情感分析方法，其特征在于：S03中，所述情感词典由知网HowNet融合网络流行词所构建，情感倾向关注度算法具体实现如下：

输入：语料中词向量集合T＝{t₁,t₂…,t_n}，t₁到t_n代表词向量；情感词典集合S＝{s₁,s₂,…,s_m}，s₁到s_m代表情感词；

并保存到集合Sim_i＝{sim_i1,sim_i2,…,sim_im}，Sim_i代表词向量t_i对应的相似度集合；选择集合Sim_i的最优值Sim_imax作为词向量t_i的权值，构建情感倾向权重集合W＝{w₁,w₂,…,w_n}，w_i即代表词向量t_i的最优权重；归一化权重，得到情感倾向关注度矩阵。

6.根据权利要求1所述的基于改进CNN-LDA的情感分析方法，其特征在于：S05中，LDA假设电影评论文档和主题满足Dirichlet先验分布，并假设电影主题与词也满足Dirichlet先验分布，计算公式如下：

z_dn＝multi(θ_d) (4)

对于该主题编号，词w_dn的概率分布可表示如下：

w_dn＝multi(β_zdn) (5)

LDA主题生成模型中，有M个文档主题的Dirichlet分布，则对应于有M个主题编号的多项分布，这样组成Dirichlet-multi共轭，使用贝叶斯推断的方法即可得到基于Dirichlet分布的文档主题后验分布；

其中，是第d个影评文档中k个主题对应的词个数的集合；

利用Dirichlet-multi共轭，得到后验分布

其中，是影评文档中第k个主题中v个词相应的每个词的个数的集合；

利用Dirichlet-multi共轭，得到后验分布

构建完成LDA主题生成模型，采用Gibbs采样算法对模型求解，可设置模型迭代次数；迭代过后，模型训练结束，将输出语料库任意文本的主题分布矩阵。

7.根据权利要求1所述的基于改进CNN-LDA的情感分析方法，其特征在于：S07中，卷积神经网络的网络结构由输入层、卷积层、池化层和全连接层组成，卷积层选用多通道的方式，即选择多个滤波器进行特征提取；池化层对经过卷积层获取的特征进行下采样，采用最大池化方式，选取其中局部最优特征；全连接层对经过卷积层和池化层的特征进行平化和连接。