CN109492105A

CN109492105A - 一种基于多特征集成学习的文本情感分类方法

Info

Publication number: CN109492105A
Application number: CN201811335524.0A
Authority: CN
Inventors: 陈福; 陈小波
Original assignee: Shanghai Wen Jun Information Technology Co Ltd
Current assignee: Shanghai Wujie Data Technology Co ltd
Priority date: 2018-11-10
Filing date: 2018-11-10
Publication date: 2019-03-19
Anticipated expiration: 2038-11-10
Also published as: CN109492105B

Abstract

本发明公开了一种基于多特征集成学习的文本情感分类方法。本方法为：文本预处理。构造词语词典和情感词典。文本在每种词典上的向量化表示。训练基分类器：在每种文本向量化表示的基础上训练分类器。最后将基分类器集成，通过多个基分类器的线性组合来决定预测文本情感的最终分类。本发明具有以下优点：通过设计词语词典和情感词典，在两个互补的特征空间对文本进行表示，可以提取文本中更丰富的情感特征。同时，集成学习可以将不同特征空间中的情感鉴别结果进行融合，提高了文本情感分类的准确度。

Description

一种基于多特征集成学习的文本情感分类方法

技术领域

本发明属于自然语言处理技术与模式识别领域，具体地说是一种基于多特征集成学习的文本情感分类方法。

背景技术

随着互联网技术的深入发展和广泛应用，人们能在网络上搜索到各种各样的信息，这些信息主要以文本、图片、音频和视频等形式表现。其中，文本是一种传递信息的重要形式。情感分类是一种按照文本所表达的情感将其分为正面、负面等类别。研究情感分类可以自动挖掘文本所蕴含的态度，可以被应用在很多场景中。如分析网民对热点事件的态度、发现购买者对产品的评价等。

文本情感分析技术可分为两类：基于情感词典的文本情感分析和基于机器学习的文本情感分析。基于情感词典的方法是采用现有的情感词典，计算文本中每个情感词语的极性及其强弱，并将这些词语的判别结果组合，得到整个文本的情感。基于机器学习的方法需要采集大量文本，并进行人工情感标注。然后使用带标注的文本作为训练数据，在特定的分类器上进行学习，得到将文本映射为对应情感的鉴别函数。由于文本内容的复杂性，基于机器学习的方法在实际问题中的分类效果往往优于基于情感词典的方法。基于机器学习的方法一般包括特征提取、特征选择、训练分类器等步骤。其中，常用的分类器一般包括支持向量机、逻辑回归、朴素贝叶斯分类器等。

传统的文本情感分析算法往往只考虑在一个词典上对文本进行向量化表示，得到文本特征空间，这种单一特征空间的方法难以表达文本中复杂的情感，本发明通过设计词语词典和情感词典，在两个互补的特征空间对文本进行表示，可以提取文本中更丰富的情感特征。同时，提出集成学习方法将不同特征空间中的情感鉴别结果进行融合，充分利用互补信息，提高了文本情感分类的准确度。

发明内容

本发明为了克服现有技术存在的不足之处，提出一种基于多特征融合集成学习的文本情感分类方法，以期能解决单一特征鉴别信息不足的问题，从而进一步提高文本情感分类的准确性。

本发明为解决技术问题采用如下技术方案：

本发明一种基于多特征融合集成学习的文本情感分类方法的特点是按如下步骤进行：

步骤1：数据获取。获取文本集合D＝{D₁，D₂，…，D_N}及对应的情感标签集合Y＝{y₁，y₂，…，y_N}，D_i表示第i个文本，y_i表示第i个文本的情感类别：如果D_i的情感为正面，则y_i＝1，如果D_i的情感为负面，则y_i＝2，如果D_i的情感为中性，则y_i＝3，1≤i≤N，N为文本集合D中的文本总数；

步骤：2：对文本集合D中的每个文本D_i进行分词，并对分词结果进行去除停用词，从而获得第i个文本的词语集合c_ij表示第i个文本中的第j个词语；1≤j≤m_i，m_i为第i个文本中的词语总数；

步骤₃：将文本集合D中N个文本的词语集合取并集，从而得到所述文本集合D的全体词语集合T＝{t₁，t₂，…，t_K}，t_k表示所述全体词语集合T中的第k个词语，K表示所述全体词语集合T所包含的词语总数，1≤k≤K；

步骤4：从全体词语集合T中选出少量词语集合其中t_(k)∈T，k＝1，2，…，K₁，K₁为子集大小，K₁≤K

步骤4.1：根据所述情感标签集合Y，使用特征选择方法计算所述全体词语集合T中第k个词语t_k的重要性得分r_k，从而获得K个词语的重要性得分集合R＝{r₁，r₂，…，r_K}；

步骤4.2：将全体词语集合T＝{t₁，t₂，…，t_K}根据重要性得分r_k按从大到小顺序排序，重要性高的词语排在前面，重要性低的词语排在后面，得到排序后的词语集合{t₍₁₎，t₍₂₎，…，t_(K))}，满足t_(k)∈T，k＝1，2，…，K，且r₍₁₎≥r₍₂₎≥…≥r_(K)；

步骤4.3：根据排序结果选出排在最前面的K₁个词语构成词语子集

步骤5：将所述文本集合D在词语子集TA上表示成向量形式{X₁，X₂，…，X_N}：

步骤5.1：将所述文本集合D中的所有文本映射到所述词语子集TA上，第i个文本D_i中第k个词语t_(k)的权重w_ik利用如下TF-IDF计算：

其中，w_ik表示第i个文本D_i中第k个词语t_(k)的权重，DF_k表示出现词语t_(k)的文本个数，TF_ik表示词语t_(k)在文本D_i中出现的次数；

步骤5.2：重复步骤5.1，从而获得第i个文本D_i中在所述词语集合TA上的向量表示X_i＝{w_i1，w_i2，…w_iK}，进而获得所述文本集合D的1-gram向量表示{X₁，X₂，…，X_N}；

步骤6：搜集多个情感极性词典，并将这些词典合并，去除重复情感词语，获得情感词语集合S＝{s₁，s₂，…，s_Q}，s_q表示所述情感词语集合S中的第q个词语，Q表示所述情感词语集合S所包含的情感词语总数，1≤q≤Q；

步骤7：从情感词语集合S中选出情感词语子集其中s_(q)∈S，q＝1，2，…，K₂，K₂为子集大小，K₂≤Q：

步骤7.1：根据所述情感标签集合Y，使用特征选择方法计算所述情感词语集合S中第q个词语s_q的重要性得分g_q，从而获得Q个词语的重要性得分集合G＝{g₁，g₂，…，g_Q}；

步骤7.2：将情感词语集合S＝{s₁，s₂，…，s_Q}根据重要性得分g_q按从大到小顺序排序，重要性高的词语排在前面，重要性低的词语排在后面，得到排序后的词语集合{s₍₁₎，s₍₂₎，…，s_(Q))}，满足s_(q)∈S，q＝1，2，…，Q，且s₍₁₎≥s₍₂₎≥…≥s_(Q)；

步骤7.3：根据排序结果选出排在最前面的K₂个词语构成情感词语子集

步骤8：将所述文本集合D在情感词语子集SA上表示成向量形式{Z₁，Z₂，…，Z_N}：

步骤8.1：将所述文本集合D中的所有文本映射到所述情感词语子集SA上，并利用TF-IDF计算第i个文本D_i中第q个词语s_q的权重z_iq

步骤8.2：重复步骤8.1，从而获得第i个文本D_i在所述情感词语子集SA上的向量表示Z_i＝{z_i1，z_i2，…，z_iQ}，进而获得所述文本集合D的情感向量表示{Z₁，Z₂，…，Z_N}；

步骤9：选择基分类器类型，以所述文本集合D在词语集合TA上的向量表示{X₁，X₂，…，X_N}和对应的情感标签Y＝{y₁，y₂，…，y_N}为训练数据，学习得到基分类器1，假设表示基分类器1预测的x∈{X₁，X₂，…，X_N}属于类别y_i的概率；

步骤10：选择基分类器类型，以所述文本集合D在词语集合SA上的向量表示{Z₁，Z₂，…，Z_N}和对应的情感标签Y＝{y₁，y₂，…，y_N}为训练数据，学习得到基分类器2，假设表示基分类器2预测的z∈{Z₁，Z₂，…，Z_N}属于类别y_i的概率；

步骤11：以加权线性组合的方式将基分类器1和基分类器2进行集成，获得最终的集成分类器

其中，f_yi表示文本属于类别y_i的概率，α表示基分类器1的重要性。

与已有技术相比，本发明有益效果体现在：

1、本发明通过构建词语词典和情感词典，对文本包含的正负面信息进行更完备的描述，克服了单一词典无法表达复杂情感上的缺陷。

2、本发明分别在词语词典和情感词典上构建基分类器，并采用线性组合的方式将两个基分类器的结果进行集成，克服了单一分类器在情感分类中正确率较低的缺陷。

3、本发明可以应用于对互联网上采集的新闻、产品评论等文本进行情感分析，还可应用于舆情监控和信息预测等领域，本发明应用广泛。

附图说明

图1为本发明提供的技术方案过程的示意图。

具体实施方式

为更为具体地描述本发明，下面结合附图和具体实施方式对本发明的技术方案进行详细说明。

图1所示的是本实施例一种基于多特征融合集成学习的文本情感分类方法的流程图，

具体过程为：

中文分词操作主要基于字符串匹配原理，现有的开源中文分词软件包括结巴(Jieba)分词、中科院汉语分词系统(ICTCLAS)。此步骤采用结巴(Jieba)分词进行分词操作。

去停用词即去掉分词词语中与文本情感判断不太相关的词语，如空格、特殊字符、人名、时间日期、不含语义信息的词等。

步骤3：将文本集合D中N个文本的词语集合取并集，从而得到所述文本集合D的全体词语集合T＝{t₁，t₂，…，t_K}，t_k表示所述全体词语集合T中的第k个词语，K表示所述全体词语集合T所包含的词语总数，1≤k≤K；

步骤4：从全体词语集合T中选出词语子集其中t_(k)∈T，k＝1，2，…，K₁，K₁为子集大小，K₁≤K

常用的特征选择方法可以分为无监督方法和有监督方法，包括卡方检验、Fisher得分、信息增益等。本步骤采用卡方检验，第k个词语t_k的重要性得分r_k的具体计算公式为：

其中A_ki为所述N个文本中包括词语t_k且属于情感类别y_i的文本数，B_ki为所述N个文本中包括词语t_k且不属于情感类别y_i的文本数，C_ki为所述N个文本中不包括词语t_k且属于情感类别y_i的文本数，D_ki为所述N个文本中不包括词语t_k且不属于情感类别y_i的文本数。

步骤4.3：根据上述排序结果选出排在最前面的K₁个词语构成词语子集

步骤5：将所述文本集合D在词语集合TA上表示成向量形式{X₁，X₂，…，X_N}：

步骤5.1：将所述文本集合D中的所有文本映射到所述词语集合TA上，第i个文本D_i中第k个词语t_(k)的权重w_ik利用如下TF-IDF计算：

步骤5.2：重复步骤5.1，从而获得第i个文本D_i中在所述词语集合TA上的向量表示X_i＝{w_i1，w_i2，…，w_iK}，进而获得所述文本集合D的1-gram向量表示{X₁，X2，…，X_N}；

步骤6：，搜集多个情感极性词典，并将这些词典合并，去除重复情感词语，获得情感词语集合S＝{s₁，s₂，…，s_Q}，s_q表示所述情感词语集合S中的第q个词语，Q表示所述情感词语集合S所包含的情感词语总数，1≤q≤Q；

此步骤，搜集了目前常用的3种情感词典，即台湾中文情感极性词典、知网情感分析用语词典和哈工大信息检索研究中心同义词词林扩展版；

此步骤中，采用与步骤4.1中类似的卡方检验计算所有情感词语的重要性得分。

步骤7.2：将情感词语集合S＝{s₁，s₂，…，s_Q}根据重要性得分g_q按从大到小顺序排序，重要性高的词语排在前面，重要性低的词语排在后面，得到排序后的词语集合{s₍₁₎，S₍₂₎，…，s_(Q))}，满足s_(q)∈T，q＝1，，…，Q，且s₍₁₎≥s₍₂₎≥…≥s_(Q)；

步骤8.1：将所述文本集合D中的所有文本映射到所述情感词语子集SA上，并利用与步骤5.1类似的方法计算第i个文本D_i中第q个词语S_q的TF-IDF权重z_iq；

步骤9：选择基分类器类型，以所述文本集合D在词语集合TA上的向量表示{X₁，X₂，…，X_N}和所述情感标签Y＝{y₁，y₂，…，y_N}为训练数据，学习得到基分类器1；

常用的分类器包括支持向量机(SVM)、逻辑回归(Logistic regression)、朴素贝叶斯分类器等。本步骤采用逻辑回归，对文本在词语集合TA上的向量表示x∈{X₁，X₂，…，X_N}，基分类器1预测其属干类别y_i的概率为：

其中，为基分类器1的系数，y_i＝1表示正面情感，y_i＝2表示负面情感，y_i＝3表示中性情感；

步骤10：选择基分类器类型，以所述文本集合D在词语集合SA上的向量表示{Z₁，Z₂，…，Z_N}和所述情感标签Y＝{y₁，y₂，…，y_N}为训练数据，学习得到基分类器2；

本步骤同样采用逻辑回归，对文本在词语集合SA上的向量表示z∈{Z₁，Z₂，…，Z_N}，基分类器2预测其属于类别y_i的概率为：

其中，为基分类器2的系数，y_i＝1表示正面情感，y_i＝2表示负面情感，y_i＝3表示中性情感；

其中，f_yi表示文本属于类别y_i的概率，α表示基分类器1的重要性；

α的取值介于0到1之间，α越大表明基分类器相对于基分类器更重要，比如若α＝0.5说明两个分类器同等重要。

从互联网上使用网络爬虫爬取的语料，进行人工情感标注，正面负面中性各1000篇，每类中90％的文本被应用于训练本发明的文本情感分类模型，剩余10％用于测试模型的分类性能，可得本发明的分类正确率是正面72％，负面68％，中性75％。

Claims

1.一种基于多特征集成学习的文本情感分类方法，其特征在于包括如下步骤：

步骤1：数据获取；获取文本集合D＝{D₁，D₂，…，D_N}及对应的情感标签集合Y＝{y₁，y₂，…，y_N}，D_i表示第i个文本，y_i表示第i个文本的情感类别：如果D_i的情感为正面，则y_i＝1，如果D_i的情感为负面，则y_i＝2，如果D_i的情感为中性，则y_i＝3，1≤i≤N，N为文本集合D中的文本总数；

步骤2：对文本集合D中的每个文本D_i进行分词，并对分词结果进行去除停用词，从而获得第i个文本的词语集合c_ij表示第i个文本中的第j个词语；1≤j≤m_i，m_i为第i个文本中的词语总数；

步骤4：从全体词语集合T中选出词语子集其中t_(k)∈T，k＝1，2，…，K₁，K₁为子集大小，K₁≤K；

步骤5：将所述文本集合D在词语集合TA上表示成向量形式{X₁，X₂，…，X_N}；

步骤7：从情感词语集合s中选出情感词语子集其中s_(q)∈T，q＝1，2，…，K₂，K₂为子集大小，K₂≤Q；

步骤8：将所述文本集合D在情感词语子集SA上表示成向量形式{Z₁，Z₂，…，Z_N}；

步骤9：选择基分类器类型，以所述文本集合D在词语子集TA上的向量表示{X₁，X₂，…，X_N}和对应的情感标签Y＝{y₁，y₂，…，y_N}为训练数据，学习得到基分类器1，假设表示基分类器1预测的x∈{X₁，X₂，…，X_N}属于类别y_i的概率；

步骤10：选择基分类器类型，以所述文本集合D在情感词语子集SA上的向量表示{Z₁，Z₂，…，Z_N}和对应的情感标签Y＝{y₁，y₂，…，y_N}为训练数据，学习得到基分类器2，假设表示基分类器2预测的z∈{Z₁，Z₂，…，Z_N}属于类别y_i的概率；

步骤11：以加权线性组合的方式将基分类器1和基分类器2进行集成，获得最终的集成分类器其中，f_yi表示文本属于类别y_i的概率，α表示基分类器1的重要性。

2.根据权利要求1所述的一种基于多特征集成学习的文本情感分类方法，其特征在于，步骤4包括：

步骤4.2：将全体词语集合T＝{t₁，t₂，…，t_K}根据重要性得分r_k按从大到小顺序排序，重要性高的词语排在前面，重要性低的词语排在后面，得到排序后的词语集合{t₍₁₎，t₍₂₎，…，t_(k)}，满足t_(k)∈T，k＝1，2，…，K，且r₍₁₎≥r₍₂₎≥…≥r_(K)；

3.根据权利要求1所述的一种基于多特征集成学习的文本情感分类方法，其特征在于，步骤5包括：

步骤5.2：重复步骤5.1，从而获得第i个文本D_i中在所述词语子集TA上的向量表示X_i＝{w_i1，w_i2，…，w_iK}，进而获得所述文本集合D的1-gram向量表示{X₁，X₂，…，X_N}。

4.根据权利要求1所述的一种基于多特征集成学习的文本情感分类方法，其特征在于，步骤7包括：

步骤7.2：将情感词语集合S＝{s₁，s₂，…，s_Q}根据重要性得分g_q按从大到小顺序排序，重要性高的词语排在前面，重要性低的词语排在后面，得到排序后的词语集合{s₍₁₎，s₍₂₎，…，s_(Q)}，满足s_(q)∈T，q＝1，2，…，Q，且s₍₁₎≥s₍₂₎≥…≥s_(Q)；

5.根据权利要求1所述的一种基于多特征集成学习的文本情感分类方法，其特征在于，步骤8包括：

步骤8.1：将所述文本集合D中的所有文本映射到所述情感词语子集SA上，并利用TF-IDF计算第i个文本D_i中第q个词语s_q的权重z_iq；

步骤8.2：重复步骤8.1，从而获得第i个文本D_i在所述情感词语子集SA上的向量表示Z_i＝{z_i1，z_i2，…，z_iQ}，进而获得所述文本集合D的情感向量表示{Z₁，Z₂，…，Z_N}。