CN105824922B

CN105824922B - 一种融合深层特征和浅层特征的情感分类方法

Info

Publication number: CN105824922B
Application number: CN201610151146.5A
Authority: CN
Inventors: 唐贤伦; 周冲; 周家林; 白银; 刘想德; 张毅; 马艺玮
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2016-03-16
Filing date: 2016-03-16
Publication date: 2019-03-08
Anticipated expiration: 2036-03-16
Also published as: CN105824922A

Abstract

本发明请求保护一种融合深层特征和浅层特征的情感分类方法，选用融合Doc2vec的深层特征和TF‑IDF的浅层特征来表示文本的特征，该融合方法不仅解决了Doc2vec中固定词特征表述不清楚的问题，而且也解决了TF‑IDF方法没有考虑到词语之间语义的问题，使得文本向量对于文本的表示更加清楚。选用SVM分类方法，分类器的分类性能较好。结合上述方法处理情感分类问题可显著提高情感分类的准确率。

Description

一种融合深层特征和浅层特征的情感分类方法

技术领域

本发明属于一种情感分类方法，尤其涉及一种融合深层特征和浅层特征的情感分类方法。

背景技术

情感分析是一种常见的自然语言处理(NLP)方法的应用，特别是在以提取文本的情感内容为目标的分类方法中。情感分类已经有很多有用的实践，比如企业分析消费者对产品的反馈信息，或者检测在线评论中的差评信息。

情感文本的向量表示一般有两种表达方式，One-hot Representation和Distributed Representation。One-hot Representation最大的问题是无法分析词与词之间的语义关系，此外这种方法还容易发生维数灾难。Distributed Representation方法则很好地克服了这些缺点，其中word2vec就是Distributed Representation的典型代表。word2vec是深度学习模型，虽然word2vec很好的分析了词与词之间的语义关系并且解决了维数灾难问题，但是没有考虑到词与词之间的顺序问题，因此不同的句子可能会有相同的表示，从而导致误判率较高。Doc2vec跟word2vec很相似，Doc2vec在word2vec的模型的基础上增加了一个段落向量(Paragraph Id)。Doc2vec不但考虑到了词与词之间的语义关系，并且解决了维数灾难，还考虑到了词与词之间的顺序问题。虽然Doc2vec解决了词与词之间的语义关系，但是词语本身的特征描述却被淡化，因此，可以把Doc2vec训练出来的特征称为深层特征。

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。用TF-IDF方法来表示文本特征时，文本特征的每一维都表示文本中的一个固定的词，虽然单个词语的特征表示很清楚，却忽略了词与词之间的语义关系。因此，与深层特征相对应，把TF-IDF训练出来的特征称为浅层特征。

融合Doc2vec的深层特征和TF-IDF的浅层特征向量，可弥补两种算法各自的不足之处，使得文本的特征向量表示更准确，显著提高情感分类的准确率。

发明内容

针对以上技术的不足，提出了一种可显著提高情感分类的准确率的融合深层特征和浅层特征的情感分类方法。本发明的技术方案如下：一种融合深层特征和浅层特征的情感分类方法，其包括以下步骤：

步骤1：根据已经准备好的情感文本语料集，人工标记类别，积极情绪的文本语料标签为1，消极情绪的文本语料标签为2，并将情感文本语料集分为训练语料集和测试语料集；

步骤2：采用基于词典逆向最大匹配算法和统计分词策略相结合的中文分词算法对步骤1中经过人工标记类别的语料进行分词，然后去除语料中的停用词；

步骤3：对语料的分词、去停用词工作完成后提取语料中的标签、名词、副词、形容词和介词组成新的语料，采用TF-IDF对得到的新语料进行训练并得到情感文本的浅层特征向量；得到情感文本的浅层特征向量后采用Doc2vec对经过步骤2分词、去停用词后的语料进行训练，得到词向量模型和情感文本的深层特征向量；

步骤4：将步骤3中得到的浅层特征向量和深层特征向量进行融合，得到新的情感文本特征向量，所述新的情感文本特征向量包括训练语料集的情感文本特征向量和测试语料集的文本特征向量；

步骤5：将步骤4中得到的训练语料集的情感文本特征向量输入SVM训练出情感分类模型；

步骤6：将步骤4中得到的测试语料集的文本特征向量输入SVM，根据步骤5中已经训练好的情感分类模型进行情感类别分类并计算出情感分类的准确率。

进一步的，所述步骤2采用基于词典逆向最大匹配算法具体为：分级构造分词词典，由核心词典和临时词典两部分构成分词词典集合，统计出权威性的词条语料，采用二级哈希结构存储构造核心词典，选取情感词典作为临时词典加载的语料；分词词典初步构成后，分词系统进入自主学习阶段，对情感文本进行分词时，如果临时词典中有新统计的词，该词的词频加一，否则将该新词重新加入临时词典；累计词频后判断词频是否满足设定阈值，若满足则移到核心词典中，并在临时词典中清空该词条，统计记录学习情感文本的数量，若大于预定值，则清空临时词典；采用更新后的核心词典中的词条作为分词依据。

进一步的，步骤2中分完词后，每个文本是由以空格隔开的单词组成的文本语料；然后搜集停用词表，人工删除停用词表中对实验有用的词汇，并根据停用词表去除分完词后的语料中的停用词。

进一步的，所述步骤3利用正则表达式，提取步骤2中的得到的语料中的标签、名词、副词、形容词和介词组成新的语料。

进一步的，所述步骤3采用Doc2vec对经过步骤2分词、去停用词后的语料进行训练，具体为：使用Doc2vec中基于Hierarchical Softmax算法的PV-DM模型，将步骤2中处理好的的语料输入模型中，把每个长度可变段落和对应段落中的每个词分别映射成唯一的段落向量和唯一的词向量，将所有文本向量和所有对应的词向量累加或者连接起来，作为输出层Softmax的输入；构建目标函数，在训练过程中保持文本向量不变，使用随机梯度上升法进行词向量更新，在预测阶段保持已经更新好的词向量和输出层Softmax的参数不变，重新利用随机梯度上升法训练待预测的文本，得到最终的情感文本深层特征向量并将这些深层特征向量处理成可以使用SVM的数据格式。

进一步的，所述步骤3采用TF-IDF对得到的新语料进行训练并得到情感文本的浅层特征向量的步骤具体为：首先计算一个文本中的其中一个词的词频，然后再计算这个词的反文档频率，把这个词的词频和反文档频率相乘就得到了这个的TF-IDF值；然后将一个情感文本中的所有词语都计算一遍，将得到的TF-IDF值放入到一个新的文本中就得到了这个文本的浅层特征向量，最后计算出所有文本的浅层特征向量。

进一步的，所述步骤4：将步骤3中得到的浅层特征向量和深层特征向量进行融合，得到新的情感文本特征向量具体为：将所有文本浅层特征向量放入到一个文本中，每一行代表一个文本向量，同样将得到的所有深层文本向量也放入到一个文本中，每一行也代表一个文本向量，设定两种特征的权重比为1:1，将两个文本的每一行直接进行首尾相连，得到新的情感文本特征向量。

进一步的，所述步骤5具体为：将步骤4中得到的情感文本特征向量输入SVM，最优超平面中的核函数设计为非线性核函数，把输入空间Rⁿ映射到m维的特征空间，在高维空间中构造分界超平面：将积极情绪文本和消极情绪文本分开，式中w_j ^*是连接特征空间至输出空间的权值，b^*为偏置值，φ(x)为向量x在高维特征空间的非线性映射，训练完成后，保存情感分类模型。

进一步的，所述步骤6具体为将步骤4中的语料中的测试集的文本特征向量输入SVM，根据步骤5中已经训练好的模型进行情感类别分类，如果实际输出文本的标签等于1，判定该文本表现的是积极情绪，如果实际输出文本的标签不等于1即标签等于2，判定该文本表现的是消极情绪，统计实际输出文本的标签与期望输出文本的标签之间不同的个数，计算情感分类的准确率。

进一步的，所述Doc2vec中基于Hierarchical Softmax算法的PV-DM模型，PV-DM模型的输入是一个长度可变的段落Paragraph Id和该段落中的所有单词Words，ParagraphId代表的是情感文本，输出是根据ParagraphId和Words预测出的单词，PV-DM模型的训练过程：将每个Paragraph Id和Words分别映射成唯一的段落向量和唯一的词向量,并且将所有Paragraph Vector按列放入矩阵D和所有Word Vector按列放入矩阵W中；将ParagraphVector和WordVector累加或者连接起来，作为输出层Softmax的输入，输出层Softmax是以Paragraph Id中的词条作为叶子结点，词条在文本语料中出现的次数当作权值，构造的哈弗曼树。

本发明的优点及有益效果如下：

本发明选用融合Doc2vec的深层特征和TF-IDF的浅层特征来表示文本的特征，该方法不仅解决了TF-IDF方法没有考虑到词语之间语义的问题，而且也解决了Doc2vec中固定词特征表述不清楚的问题。选用SVM分类方法，使得分类器的分类性能得到较好的改善。结合上述方法处理情感分类问题可显著提高情感分类的准确率。

附图说明

图1是本发明提供优选实施例一种融合深层特征和浅层特征的情感分类方法的流程图。

具体实施方式

以下结合附图，对本发明作进一步说明：

如图1所示，本发明融合深层和浅层特征的情感分类方法的具体步骤是：

步骤1：从网上搜集情感文本语料集，人工标记类别，如情感表现为积极情绪的文本标签为1，情感表现为消极情绪的文本标签为2。并且去除文本的首尾空格，将文本里的数据表示成一个句子，这样方便后续的处理工作。并将语料集分为训练集和测试集。训练集用来训练情感分类的模型，测试集用来测试模型分类的效果。

步骤2：首先从网上搜集情感词典，情感词典是文本情感分析的基础资源，实际就是情感词的集合。从广义上讲，指包含感情倾向性的短语或者句子；从狭义上讲，指包含有感情倾向性的词语集合。情感词典一般包含两个部分，正面情感词词典和负面情感词词典。

然后对步骤1中的语料集进行中文分词，本文使用的分词方法是基于词典逆向最大匹配算法和统计分词策略相结合的中文分词算法。分级构造分词词典，由核心词典和临时词典两部分构成分词词典集合。统计出权威性的词条语料，采用二级哈希结构存储构造核心词典。选取情感词典作为临时词典加载的语料。分词词典初步构成后，分词系统进入自主学习的阶段，对情感文本进行分词时，如果临时词典中有新统计的词，该词的词频加一，否则将该新词重新加入临时词典。累计词频后判断词频是否满足设定阈值，若满足则移到核心词典中，并在临时词典中清空该词条。统计记录学习情感文本的数量，若大于预定值，则清空临时词典。采用更新后的核心词典中的词条作为分词依据，采用逆向最大匹配算法进行情感文本的分词。

分完词后，每个文本是由以空格隔开的单词组成的文本语料。然后搜集停用词表，人工删除停用词表中对实验有用的词汇，并根据停用词表去除分完词后的语料中的停用词。去除停用词是为了节省存储空间和提高效率。

步骤3：利用正则表达式，提取步骤2中的得到的语料中的标签、名词、副词、形容词和介词组成新的语料。如果文本过大，表示成特征向量时很容易造成维数灾难，提取文本中一部分重要的词语可以更好的表示文本，并且可以解决维数灾难问题。

步骤4：采用Doc2vec对步骤2中的语料训练出词向量模型并得到情感文本深层特征向量。Doc2vec是用来得到词和文本深层特征的浅层模型，它不但考虑到了各词之间的语义关系，而且也考虑到了词与词之间的顺序，能够很好的表示出词与文本的特征。Doc2vec用到两个重要的模型——PV-DBOW和PV-DM模型，针对PV-DBOW和PV-DM两种模型又给出了两套算法——Hierarchical Softmax和Negative Sampling。本文使用基于HierarchicalSoftmax算法的PV-DM模型。PV-DM模型的输入是一个长度可变的段落(Paragraph Id)和该段落中的所有单词(Words)，本文中的Paragraph Id代表的是情感文本。输出是根据ParagraphId和Words预测出的单词。

PV-DM模型的训练过程：

将每个Paragraph Id和Words分别映射成唯一的段落向量(Paragraph Vector)和唯一的词向量(Word Vector),并且将所有Paragraph Vector按列放入矩阵D和所有WordVector按列放入矩阵W中。将Paragraph Vector和WordVector累加或者连接起来，作为输出层Softmax的输入。输出层Softmax是以Paragraph Id中的词条作为叶子结点，词条在文本语料中出现的次数当作权值，构造的哈弗曼(Huffman)树。建立目标函数：

其中T代表词向量的个数，w_t，w_t-k等代表每个词向量。

每个y_i是每个词向量i的未规范化对数概率，y_i的计算公式为：

y＝b+Uh(w_t-k,...,w_t+k；W,D)(3)

其中U，b是Softmax的参数，h是由从D和W矩阵中提取的Paragraph Vector和WordVector累加或者连接构成的。

在训练过程中，Paragraph Id保持不变，文本中的所有单词共享着同一个Paragraph Vector，相当于每次在预测单词的概率时，都利用了整个文本的语义。对这个目标函数进行优化，从而求得最优的词的向量表示。利用随机梯度上升法对上式的目标函数进行优化，得到迭代过程中词u的向量θ^u的更新公式为：

的更新公式为：

θ^u∈Rⁿ表示词u对应的一个辅助向量，L^x(u)表示词u的标签，表示词对应的向量，σ是一个逻辑回归函数，表示词的标签，η表示学习率。在迭代过程中词u的向量θ^u和词的向量都在原来的基础上进行了更新，使得向量对词的表达能力更强，向量随着更新而不断进化，向量的表示质量也随着提升。

在预测阶段，给待预测的文本重新分配一个Paragraph Id，词向量和输出层Softmax的参数保持训练阶段得到的参数不变，重新利用随机梯度上升法训练待预测的文本。待收敛后，最终得到了文本的Paragraph Vector，也就是文本的深层特征向量，并将这些深层特征向量处理成可以使用SVM的数据格式。

步骤5：采用TF-IDF对步骤3中得到的语料进行训练并得到情感文本的浅层特征向量。

在一个给定的情感文本中，词频(term frequency，TF)指的是某一个给定的词语在该文本中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文本。(同一个词语在长文本里可能会比短文本有更高的词数，而不管该词语重要与否。)对于在某一特定文件里的词语t_i来说，它的重要性可表示为：

其中n_i,j表示该词在文本d_j中出现的次数，而分词则是在文件d_j中所有字词的出现次数之和。

逆向文件频率(inverse document frequency，IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文本数目除以包含该词语之文本的数目，再将得到的商取对数得到：

其中|D|表示情感语料库中的文本总数，|{j:t_i∈d_j}|表示包含词语t_i的文件总数，如果该词语不在语料库中，就会导致被除数为零，因此一般情况下使用1+|{j:t_i∈d_j}|，最后得到一个词语的TF-IDF值为：

tfidf_i,j＝tf_i,j×idf_i (8)

将一个情感文本中的所有词语都计算一遍，将得到的TF-IDF值放入到一个新的文本中就得到了这个文本的浅层特征向量。然后计算出所有文本的浅层特征向量。

步骤6：将步骤4中得到的所有文本的深层特征向量放入到一个文本中，每一行代表一个文本向量，同样将步骤5中得到的所有文本的浅层特征向量也放入到一个文本中，每一行也代表一个文本向量，由于步骤4中得到的深层特征和步骤5中得到的浅层特征在情感分类中同等重要，因此设定两种特征的权重比为1:1，将两个文本的每一行直接进行首尾相连，得到新的情感文本特征向量。

步骤7：将步骤6中的语料中的训练集的文本特征向量输入SVM训练出情感分类模型。

引入非线性函数φ(x)，把输入空间Rⁿ映射到m维的特征空间，然后在高维空间中构造一个分界超平面，该超平面可以定义如下：

其中w_j ^*是连接特征空间至输出空间的权值，b^*为偏置值。

为了获得最优超平面，权向量和偏置值应最小化，而且满足约束条件：y_i(wx_i+b)≥1-ξ_i,i＝1,2,...,m，式中，ξ_i是正松弛变量，增加松弛变量的可容错性。根据结构风险最小化原理，这时最小化目标函数为：

其中C是惩罚参数，依据拉格朗日定理，引入拉格朗日乘子α_i，核函数K(x_i,x)＝φ(x_i)φ(x)，可转化成求解下述目标函数最小值：

其中满足约束条件：

最优超平面可以表示为：

分类决策函数可表示为：

训练完成后，保存情感分类模型。

步骤8：将步骤6中的语料中的测试集的文本特征向量输入SVM，根据步骤7中已经训练好的模型进行情感类别分类，如果实际输出文本的标签等于1，判定该文本表现的是积极情绪，如果实际输出文本的标签不等于1(即标签等于2)，判定该文本表现的是消极情绪，统计实际输出文本的标签与期望输出文本的标签之间不同的个数，计算情感分类的准确率。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种融合深层特征和浅层特征的情感分类方法，其特征在于，包括以下步骤：

步骤1：根据准备好的情感文本语料集，人工标记类别，积极情绪的文本语料标签为1，消极情绪的文本语料标签为2，并将情感文本语料集分为训练语料集和测试语料集，并采用基于词典逆向最大匹配算法和统计分词策略相结合的中文分词算法对情感文本语料集进行分词，然后去除语料中的停用词；

步骤2：对语料的分词、去停用词工作完成后提取语料中的标签、名词、副词、形容词和介词组成新的语料，采用TF-IDF算法对得到的新语料进行训练并得到情感文本的浅层特征向量；得到情感文本的浅层特征向量后采用Doc2vec算法对经过分词、去停用词后的语料进行训练，得到词向量模型和情感文本的深层特征向量；

步骤3：将步骤2中得到的浅层特征向量和深层特征向量进行融合，得到新的情感文本特征向量，所述新的情感文本特征向量包括训练语料集的情感文本特征向量和测试语料集的文本特征向量；

步骤4：将步骤3中得到的训练语料集的情感文本特征向量输入SVM训练出情感分类模型；然后将步骤3中得到的测试语料集的文本特征向量输入SVM，根据已经训练好的情感分类模型进行情感类别分类并计算出情感分类的准确率。

2.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法，其特征在于，所述步骤1采用基于词典逆向最大匹配算法具体为：分级构造分词词典，由核心词典和临时词典两部分构成分词词典集合，统计出权威性的词条语料，采用二级哈希结构存储构造核心词典，选取情感词典作为临时词典加载的语料；分词词典初步构成后，分词系统进入自主学习阶段，对情感文本进行分词时，如果临时词典中有新统计的词，该词的词频加一，否则将该新词重新加入临时词典；累计词频后判断词频是否满足设定阈值，若满足则移到核心词典中，并在临时词典中清空该词条，统计记录学习情感文本的数量，若大于预定值，则清空临时词典；采用更新后的核心词典中的词条作为分词依据。

3.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法，其特征在于，步骤1中分完词后，每个文本是由以空格隔开的单词组成的文本语料；然后搜集停用词表，人工删除停用词表中对实验有用的词汇，并根据停用词表去除分完词后的语料中的停用词。

4.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法，其特征在于，所述步骤2利用正则表达式，提取经过步骤1分词、去停用词后的语料中的标签、名词、副词、形容词和介词组成新的语料，采用TF-IDF算法对得到的新语料进行训练并得到情感文本的浅层特征向量，步骤具体为：首先计算一个文本中的其中一个词的词频，然后再计算这个词的反文档频率，把这个词的词频和反文档频率相乘就得到了这个词的TF-IDF值；然后将一个情感文本中的所有词语都计算一遍，将得到的TF-IDF值放入到一个新的文本中就得到了这个文本的浅层特征向量，最后计算出所有文本的浅层特征向量。

5.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法，其特征在于，所述步骤2采用Doc2vec对经过步骤1分词、去停用词后的语料进行训练，具体为：使用Doc2vec中基于Hierarchical Softmax算法的PV-DM模型，将步骤2中处理好的语料输入模型中，把每个长度可变段落和对应段落中的每个词分别映射成唯一的段落向量和唯一的词向量，将所有文本向量和所有对应的词向量累加或者连接起来，作为输出层Softmax的输入；构建目标函数，在训练过程中保持文本向量不变，使用随机梯度上升法进行词向量更新，在预测阶段保持已经更新好的词向量和输出层Softmax的参数不变，重新利用随机梯度上升法训练待预测的文本，得到最终的情感文本深层特征向量。

6.根据权利要求5所述的融合深层特征和浅层特征的情感分类方法，其特征在于，所述Doc2vec中基于Hierarchical Softmax算法的PV-DM模型，PV-DM模型的输入是一个长度可变的段落Paragraph Id和该段落中的所有单词Words，Paragraph Id代表的是情感文本，输出是根据ParagraphId和Words预测出的单词，PV-DM模型的训练过程：将每个Paragraph Id和Words分别映射成唯一的段落向量和唯一的词向量,并且将所有Paragraph Vector按列放入矩阵D和所有Word Vector按列放入矩阵W中；将Paragraph Vector和WordVector累加或者连接起来，作为输出层Softmax的输入，输出层Softmax是以Paragraph Id中的词条作为叶子结点，词条在文本语料中出现的次数当作权值，构造的哈弗曼树。

7.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法，其特征在于，所述步骤3：将步骤2中得到的浅层特征向量和深层特征向量进行融合，得到新的情感文本特征向量具体为：将所有文本浅层特征向量放入到一个文本中，每一行代表一个文本向量，同样将得到的所有深层文本向量也放入到一个文本中，每一行也代表一个文本向量，设定两种特征的权重比为1:1，将两个文本的每一行直接进行首尾相连，得到新的文本，新的文本即装载有新的情感文本特征向量。

8.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法，其特征在于，所述步骤4训练SVM情感分类模型的具体步骤为：将步骤3中得到的训练语料集的情感文本特征向量输入SVM，最优超平面中的核函数设计为非线性核函数，把输入空间Rⁿ映射到m维的特征空间，在高维空间中构造分界超平面：将积极情绪文本和消极情绪文本分开，式中w_j ^*是连接特征空间至输出空间的权值，b^*为偏置值，φ(x)为向量x在高维特征空间的非线性映射，训练完成后，保存情感分类模型。

9.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法，其特征在于，所述步骤4得到情感分类模型后，将步骤3中得到的测试语料集的情感文本特征向量输入SVM，根据已经训练好的情感分类模型进行情感类别分类，如果实际输出文本的标签等于1，判定该文本表现的是积极情绪，如果实际输出文本的标签不等于1即标签等于2，判定该文本表现的是消极情绪，统计实际输出文本的标签与期望输出文本的标签之间不同的个数，计算情感分类的准确率。