CN108536870A

CN108536870A - 一种融合情感特征和语义特征的文本情感分类方法

Info

Publication number: CN108536870A
Application number: CN201810385091.3A
Authority: CN
Inventors: 吴钟强; 商琳
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2018-09-14
Anticipated expiration: 2038-04-26
Also published as: CN108536870B

Abstract

本发明公开了一种融合情感特征和语义特征的文本情感分类方法，包括：利用主题模型得到文本数据的主题概率分布，得到文本数据的语义特征，构建一种神经网络模型，训练神经网络，得到文本数据的情感特征，并利用文本的情感特征结合文本的语义特征进行文本情感倾向性的判别。对比现有的文本情感倾向性分析方法，本方法突出考虑了带有情感标签文本的情感特征和语义特征关系，并且能同时利用这两种信息进行情感倾向性的判别。在具体的数据集实验当中，可以得到更高的情感分类精度。

Description

一种融合情感特征和语义特征的文本情感分类方法

技术领域

本发明属于文本挖掘领域，尤其涉及一种融合情感特征和语义特征的文本情感分类方法。

背景技术

神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。作为机器学习中一种基于对数据进行表征学习的方法，已经在各个领域都取得了显著成功。可以自动进行特征提取工作，从而避免了大量特征工程的工作。由于其高效性，也已经成功地应用在自然语言处理等各个任务当中，如：机器翻译、序列标注、机器问答文本分类、情感分类等。

潜在狄利克雷分布是一种主题模型。已经广泛应用于在自然语言处理各个领域。通过图模型对文本进行建模，可以自动发现文本当中的潜在主题。潜在狄利克雷分布是一种无监督的模型，可以自动对文本的主题进行建模，从而捕捉文档当中的语义信息。

虽然使用神经网络模型对于情感分类已经获取了不错的效果，但目前大多数的方法都是直接使用带有情感类标的数据集，却忽略了不使用情感类标的语义信息。

发明内容

发明目的：本发明的目的是针对现有的神经网络用于情感分类没有考虑语义之间的特征，提出一种融合情感特征和语义特征的文本情感分类方法。

为实现上述目的，本发明公开了一种融合情感特征和语义特征的文本情感分类方法，包括以下步骤：

步骤一，使用无监督的方法处理计算机文本：使用主题模型潜在狄利克雷分布分别得到计算机文本的主题分布，获得文本的语义特征向量；

步骤二，使用神经网络的方法处理计算机文本：由神经网络模型训练带有情感标签的计算机文本，每一个计算机文本包含一个情感类标，情感类标为人工标注的文本情感类别，从而获得文本的情感特征向量；

步骤三，通过神经网络模型中的全连接层，将步骤一中的语义特征向量和步骤二中的情感特征向量进行拼接，得到拼接后的向量；

步骤四，将步骤三得到的拼接后的向量作为文本的新特征向量进行分类。

步骤一包括：

通过无监督的主题模型学习计算机文本集合D＝{d₁,d₂,…,d_n}的主题分布，其中d_i表示计算机文本集合中的第i个文本，d_i＝w₁,w₂,…,w_m，其中w_j表示计算机文本d_i中的第j个词，j＝1,2，…,m,m表示第i个计算机文本d_i的总词数，对于第i个计算机文本、第k个主题的分布按照吉布斯采样的方式得到：

其中，为第i个计算机文本中除去第j个词之后属于第k个主题的词的数量，α_k为狄利克雷分布的超参数，K为计算机文本的主题数；

通过上述公式学习得到第i个计算机文本的主题分布

其中，即为第i个计算机文本的语义特征向量，α_k∈(0,1)表示第i个计算机文本中第k个主题的概率，且k∈[1,K]。

步骤二包括：

所用的神经网络模型为一个函数f(参考文献：Kim Y.Convolutional NeuralNetworks for Sentence Classification[J].Eprint Arxiv,2014.)，则第i个计算机文本d_i的情感特征向量为X_i＝f(d_i)＝(x_i1,x_i2,…,x_iT)，其中T为情感特征向量的维度，x_it为第i个计算机文本d_i情感特征向量的第t维，是一个浮点数，t取值为1～T。

步骤三包括以下步骤：

将第i个文本d_i的情感特征向量X_i和语义特征向量拼接得到文本的新特征向量X'：

X'＝(x₁,x₂,…,x_T,a₁,a₂,…,a_K)。

其中x_i为第i个计算机文本的情感特征向量，且1≤i≤T。

步骤四包括：

根据文本的新特征向量X'＝(x₁,x₂,…,x_T,a₁,a₂,…,a_K)，经过神经网络模型中的全连接层，获得情感类标，神经网络模型中的类神经元的数量等于情感类标的数量，得到向量：(d₁,d₂,…,d_C)，其中d_i表示第i类的权重，C为情感类标的数量，且1≤i≤C，然后使用softmax函数进行归一化：

y’_i为经过softmax函数归一化后的概率值，y’_i表示计算机文本属于第i个情感类标的概率，e为自然常数，然后将y’_i和真实的情感类标y_i进行比较，计算损失函数，目标函数为：

其中为损失函数，min代表优化的目标是尽可能地最小化该损失函数。

根据最终训练的分类器模型，可以预测新的文本预测其情感类标。

本发明针对于现有的深度学习方法的不足，提出了一种融合语义特征的情感分类方法，从而提高文本情感分类的精度。因利用深度学习通过训练可以捕获不同情感标签的特征，这样的特征称之为情感特征向量。由于主题模型潜在狄利克雷分布(LatentDirichlet Allocation,LDA)方法的特点，可以在无监督的情况下捕捉语义信息，称之为语义特征。为了使得对一个文档特征的解读更加多样，本发明提出一种融合LDA语义特征和深度学习情感特征的情感分类方法。最后将融合的特征作为文本的新特征进行情感分类。

有益效果：本发明除了利用了深度学习模型抽取的情感特征，同时利用无监督主题模型LDA提取的语义特征，可以增加所提取特征的丰富性。而由于主题模型LDA是无监督模型，所以为较少的标注样本的情况下学习成为了可能。由于结合了情感特征和语义特征，可以增加模型的泛化性能与鲁棒性。在具体实施效果中，表现为提高文本情感分类的精度。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1是本发明方法的总体结构图。

图2是本发明方法中的潜在狄利克雷分布的图模型。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1和图2(图2中，N表示文本数据集合中的文本数目。M表示文本数据集合中的词数目。K表示该主题模型所设的主题数目。w_n,m代表观测变量，即文本数据当中的词，θ_n表示第n个文本数据的主题分布，z_n,m表示第n个文本数据的第m个词所属的主题，表示第k个主题下的所有词，α和β为模型的超参数)所示，本发明公开了一种融合情感特征和语义特征的文本情感分类方法，包括以下步骤：

步骤一包括：

通过上述公式学习得到第i个计算机文本的主题分布

步骤二包括：

步骤三包括以下步骤：

X'＝(x₁,x₂,…,x_T,a₁,a₂,…,a_K)。

其中x_i为第i个计算机文本的情感特征向量，且1≤i≤T。

步骤四包括：

y’_i为经过softmax函数归一化后的概率值，y’_i表示计算机文本属于第i个情感类标的概率，然后将y’_i和真实的情感类标y_i进行比较，计算损失函数，目标函数为：

实施例：

本实例中选取IMDB影评部分数据集，利用本发明方法来说明流程及效果。

对于句子“I really enjoyed this movie。”(大意：我真的喜欢这部电影)，其情感类标为正类。去除停用词和标点符号变为d_i＝w₁,w₂,…,w_m：d₁＝{I,really,enjoyed,movie}。

对应上面的步骤：

1.利用如图2所示的主题模型LDA训练得到文档的主题分布即为第1个文本的语义特征向量。α_k∈(0,1)表示该文本中第k个主题的概率，且k∈[1,K]。

2.使用神经网络模型训练上述带有情感类标的句子，取神经网络模型最后的全连接层得到该文本的情感特征向量X₁＝(x₁₁,x₁₂,…,x_1T)，其中T为情感特征向量的维度，x_1t为改文本d₁情感特征向量的第t维，是一个浮点数。

3.将文本d₁的情感特征向量X_i和语义特征向量拼接得到该文本的新特征向量X'：

X'＝(x₁,x₂,…,x_T,a₁,a₂,…,a_K)。

4.根据该文本的新特征向量X'＝(x₁,x₂,…,x_T,a₁,a₂,…,a_K)，经过神经网络模型中的全连接层，获得情感类标，神经网络模型中的类神经元的数量等同于情感类标的数量。可以得到浮点数的值：(d₁,d₂,…,d_C)，其中d_i表示第i类的权重，C为情感类标的数量，且1≤i≤C。然后使用softmax函数进行归一化：

y’_i为经过softmax函数归一化后的概率值，表示该文本属于第i个情感类标的概率。归一化后该文本的类别概率y’＝(0.82,0.18)，第一维度表示正类，第二维表示负类。由于正类的概率值大于负类的概率值，所以模型会将该样本归为正类情感类标。

实验所用的数据集如表1(数据集描述)所示。IMDB数据集来自文献(Maas A L,Daly R E,Pham P T,et al.Learning word vectors for sentiment analysis[C]//ACL,2011:142-150)，Rotten Tomatoes数据集来自文献(Pang B,Lee L.Seeing stars:exploiting class relationships for sentiment categorization with respect torating scales[C]//ACL,2005:115-124.)。

表1

本文采用的基准模型为文本分类中常用的神经网络模型CNN(KimY.Convolutional Neural Networks for Sentence Classification[J].Eprint Arxiv,2014.)和LSTM(Hochreiter S,Schmidhuber J.Long Short-Term Memory[J].NeuralComputation,1997,9(8):1735-1780.)。实验结果如表2(不同方法的情感分类性能比较)所示，加粗的模型是本文提出的一种融合情感特征和语义特征的文本情感分类方法，从实验结果可以看出在融合了语义特征之后的模型分类精度都有所提升。

表2

本发明提供了一种融合情感特征和语义特征的文本情感分类方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种融合情感特征和语义特征的文本情感分类方法，其特征在于，包括以下步骤：

步骤一，使用无监督的方法处理计算机文本：使用主题模型潜在狄利克雷分布得到计算机文本的主题分布，获得文本的语义特征向量；

2.根据权利要求1所述的方法，其特征在于，步骤一包括：

通过无监督的主题模型学习计算机文本集合D＝{d₁,d₂,…,d_n}的主题分布，其中d_i表示计算机文本集合中的第i个文本，d_i＝w₁,w₂,…,w_m，其中w_j表示第i个计算机文本d_i中的第j个词，j＝1,2，…,m,m表示第i个计算机文本d_i的总词数，对于第i个计算机文本、第k个主题的分布按照吉布斯采样的方式得到：

通过上述公式学习得到第i个计算机文本的主题分布

3.根据权利要求2所述的方法，其特征在于，步骤二包括：

所用的神经网络模型为一个函数f，则第i个计算机文本d_i的情感特征向量为X_i＝f(d_i)＝(x_i1,x_i2,…,x_iT)，其中T为情感特征向量的维度，x_it为第i个计算机文本d_i情感特征向量的第t维，是一个浮点数，t取值为1～T。

4.根据权利要求3所述的方法，其特征在于，步骤三包括以下步骤：

X′＝(x₁,x₂,…,x_T,a₁,a₂,…,a_K)，

其中x_i为第i个计算机文本的情感特征向量，且1≤i≤T。

5.根据权利要求4所述的方法，其特征在于，步骤四包括：