CN110489753A

CN110489753A - 改进特征选择的神经结构对应学习跨领域情感分类方法

Info

Publication number: CN110489753A
Application number: CN201910751457.9A
Authority: CN
Inventors: 相艳; 梁俊葛; 余正涛; 线岩团; 熊馨; 许莹
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-11-22
Anticipated expiration: 2039-08-15
Also published as: CN110489753B

Abstract

本发明涉及改进特征选择的神经结构对应学习跨领域情感分类方法，属自然语言处理领域。首先，选取亚马逊评论数据集中不同的两个领域，作为源域和目标域，对源域、目标域数据进行预处理，获取源域和目标域的文本内容，其次，对文本进行词形还原，消除冗余特征，并对文本进行向量化处理，得到文本初始特征；通过卡方检验特征选择方法筛选出枢轴特征，作为跨领域任务中的枢轴特征，其余特征为非枢轴特征；再利用得到的枢轴特征，通过神经结构对应学习对两个领域的非枢轴特征进行枢轴特征预测得到特征迁移；利用源域文本的初始特征和迁移特征来训练logistics分类器，并用目标域的文本特征和迁移特征来进行测试，进而得到目标领域的分类结果。

Description

改进特征选择的神经结构对应学习跨领域情感分类方法

技术领域

本发明涉及改进特征选择的神经结构对应学习跨领域情感分类方法，属于自然语言处理技术领域。

背景技术

领域是指一类实体，不同的领域就是不同类别的实体。例如，BOOK和DVD就可以看成不同的域。由于产品评论具有很强的领域性特点。两个领域中的同一个词语所表达的情感信息不一定相同。另外，在一个领域中标记语料训练的情感分类器在另一个领域中分类准确率降低。特征迁移的领域适应工作中，最典型的方法为结构对应学习函数(StructuralCorrespondence Learning,SCL)，基于不同的领域，通过枢轴特征建立了源域和目标域之间的相关关系。但传统方法计算枢轴特征时，所用的筛选枢轴特征的方法仅仅利用了特征的互信息值MI，该方法只考虑了枢轴特征与分类标签的关联程度，而未考虑枢轴特征对于文本的重要程度以及特征冗余情况，因此所筛选的枢轴特征不够合理，从而影响特征迁移结果。

本发明的创新性在于，在筛选枢轴特征时，改进特征选择方法，通过词形还原消除冗余特征，得到更为稠密的文本向量表示，再通过卡方检验特征选择算法，选择出有着最大卡方统计量且在两域中频次超过m的特征，作为最终的两域之间的枢轴特征。

发明内容

本发明提供了改进特征选择的神经结构对应学习跨领域情感分类方法，以用于改进特征选择来更好的提取枢轴特征；通过神经结构对应学习模型，利用非枢轴特征和枢轴特征之间的映射关系，得到迁移特征；用于减少跨领域情感分类任务中，不同领域之间的域间差。通过以上方法对跨领域任务进行情感分类任务时可获得较好的结果，提高了情感分类的准确率。

本发明的技术方案是：改进特征选择的神经结构对应学习跨领域情感分类方法，所述分类方法的具体步骤如下：

Step1、选取亚马逊产品评论数据集中不同的两个领域，作为源域和目标域，获取源域D_s、目标域D_t的文本内容；

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、使用工具包xml.tree下的解析树函数ElmentTree，提取源领域D_s和目标领域D_t的互联网评论<review></review>之间的文本；

Step1.2、将来自源域D_s的有标签样本以及源域D_s、目标域D_t中无标签样本进行去停用词等处理，减少噪声干扰。

Step2、对文本进行词形还原，消除冗余特征，对文本进行向量化处理，得到文本初始特征；并通过卡方检验特征选择方法筛选出枢轴特征，作为跨领域任务中的枢轴特征，其余特征为非枢轴特征；

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、使用NLTK包中的词性标注器pos_tag来对文本进行词性标注，将对应的词性转换成WordNet词典的名形动副4种词性符号。词性标注后，再使用NLTK库中基于WordNet的词形还原工具WordNLemmatizer对特征进行词形还原，消除文本中的冗余特征；

Step2.2、通过词袋模型将文本转换为文本特征向量，得到文本的初始特征；其中，向量的行表示产品评论的数目，向量的列表示文本中的特征，向量的值表示每个词即特征在文本中出现的频次；

Step2.3、计算Step1得到的源领域D_s中训练样本的特征向量和标签向量之间的卡方统计量，通过卡方统计量，来衡量特征与标签之间的关联程度，卡方统计量越大，特征与情感极性的关联程度越大：

其中，a是情感极性为l的文本中，包含特征f的文本数目，c是该类文本中不包含特征f的文本数目；b是情感极性不为l的另一类文本中，包含特征f的文本数目，d是该类文本中不包含特征f的文本数目；χ(f,l)表示特征f与标签l之间的卡方统计量；

Step2.3、将卡方统计量值从大到小排列特征；

Step2.4、计算特征在两个领域中出现的词频，选取有着最大卡方统计量值且在两个领域中词频大于m的特征作为枢轴特征，其余特征为非枢轴特征，其中m取10。

Step3、利用枢轴特征，基于神经结构对应学习得到源领域和目标领域的特征映射矩阵，该特征映射矩阵能将两个领域的特征迁移至相同的特征空间；

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、通过Step2得到源领域D_s与目标领域D_t的枢轴特征和非枢轴特征，将非枢轴特征对应的非枢轴特征向量作为神经结构对应学习模型的输入，枢轴特征对应的枢轴特征向量作为输出；

Step3.2、固定神经结构对应学习模型隐藏层到输出层的权重矩阵，训练模型得到非枢轴与枢轴之间的映射关系，得到输入层到隐藏层的特征映射矩阵，该特征映射矩阵能将两个领域的特征迁移至统一的特征空间。

其中，获得隐藏层到输出层的权重矩阵的具体步骤为：通过源域和目标域文本内容训练出word2vec词向量，每个词对应一个500维的向量矩阵；找到枢轴特征对应的词向量，得到枢轴特征的词向量矩阵，作为神经结构对应学习中隐藏层到输出层间的权重矩阵。

Step4、利用特征映射矩阵将源领域标签文本的非枢轴特征映射至新的特征空间，得到迁移特征；根据源域的标签，利用源域初始特征和迁移特征一起来训练logistics分类器；

Step5、利用特征映射矩阵将目标域文本的非枢轴特征映射为迁移特征，将目标域的初始特征和迁移特征一起送入训练好的logistics分类器，即可得到目标领域的分类结果。

本发明的有益效果是：

1、公知的跨领域情感分类器对枢轴特征的选取并没有针对性，本发明的创新性在于，改进枢轴选择方法，在筛选枢轴特征时，通过词形还原，消除冗余特征，得到更为稠密的文本向量表示，并通过卡方检验得到特征与标签之间的联系，再选择词频在两个域中超过最小词频阈值m的特征，作为源域和目标域之间的枢轴特征；

2、由于跨领域情感分类任务属于不同领域的语料，本发明通过词形还原来去除冗余文本特征，得到更加稠密的文本向量表示，通过卡方检验选取在跨域任务中，有着鲁棒性的特征做为枢轴特征；进而使用神经网络的深度学习模型，将非枢轴特征和枢轴特征建立起连接，更好的减少不同领域间的域间差。

3、本发明对跨领域任务进行情感分类任务时可获得较好的结果，提高了情感分类的准确率。

附图说明

图1为本发明中的总的流程图；

图2为本发明中的改进后得到枢轴特征的流程图；

图3为本发明中的神经结构对应学习模型图；

图4为本发明中的跨领域情感分类流程图；

图5为本发明不同模型下的评估结果示意图。

具体实施方式

实施例1：如图1-5所示，改进特征选择的神经结构对应学习跨领域情感分类方法，所述分类方法的具体步骤如下：

Step1、采用的是亚马逊产品评论数据集。选择不同的两个领域分别作为源域和目标域数据。对数据集源域D_s的少量有标签样本以及源域D_s、目标域D_t中大量无标签样本进行文本预处理操作，去除无用的信息，并减少噪声干扰。使用工具包xml.tree下的解析树函数ElmentTree,提取互联网标签语料<review></review>之间的评论句子；

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.3、将卡方统计量值从大到小排列特征；

作为本发明的优选方案，所述步骤Step3的具体步骤为：

实施例2：如图1-5所示，改进特征选择的神经结构对应学习跨领域情感分类方法，所述分类方法的具体步骤如下：

Step1、采用的是亚马逊产品评论数据集。数据统计表如表1所示，选择不同的两个领域分别作为源域D_s和目标域D_t；由于该数据集为互联网标签数据，利用xml.etree树下的解析树函数Element.Tree，提取互联网标签语料<review></review>之间的评论句子，得到源域和目标域文本内容。将来自源域D_s的少量有标签样本以及源域D_s、目标域D_t中大量无标签样本进行去停用词等处理，减少噪声干扰。

表1亚马逊产品评论统计表

数据集	positive	negative	unlabled
				Book	1,000	1,000	6,000
Dvd	1,000	1,000	34,741
				Electrics	1,000	1,000	13,153
kitchen	1,000	1,000	16,785

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、对文本进行词形还原前，需要先对文本进行词性标注，本发明使用NLTK包中的词性标注器pos_tag来对文本进行词性标注，词性标注结果如表2，‘I love greenapples’词性标注结果为词和词性一一对应，将对应的词性转换成WordNet词典的名形动副4种词性符号。

表2

[(‘I’,‘PRP’),(‘love’,‘NNS’),(‘green’,‘JJ’),(‘apples’,‘NNS’)]

词性标注后，再使用NLTK库中基于WordNet词典的词形还原工具WordNLemmatizer对特征进行词形还原，消除文本中的冗余特征。如’was’，’were’，‘am’等特征进行词形还原后为’be’；

Step2.2、通过词袋模型将文本转换为文本特征向量，词袋模型如表3，得到文本的初始特征；其中，向量的行表示产品评论的数目，向量的列表示文本中的特征，向量的值表示每个词即特征在文本中出现的频次；如文本：’this is the first document’在词袋中的特征表示如表4。由此可得到标签数据的特征向量，以及源域D_s、目标域D_t中未标记数据的特征向量；

表3为词袋模型

‘and’,‘doucment’,’first’,’is’‘one’,’second’,’the’,’third’,’this’

表4为特征向量

and	document	first	is	one	the	third	this
								0	1	1	1	0	1	0	1

Step2.3、将卡方统计量值从大到小排列特征；

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、通过Step2得到源领域D_s与目标领域D_t的枢轴特征和非枢轴特征，将非枢轴特征对应的的非枢轴特征向量x^np、枢轴特征对应的枢轴特征向量x^p，分别作为神经网络自动编码器模型的输入、输出。为了学习到具有鲁棒性以及紧密的文本特征表示，需要学习从非枢轴特征向量x^np到枢轴特征向量间的非线性映射。采用神经网络结构，x^np作为神经网络的输入，通过编码得到低维度、共享的中间隐层特征表示，其计算公式为：

其中，w^h为特征映射矩阵，σ(·)表示sigmoid非线性激活函数。

之后用隐层特征预测枢轴特征向量x^p，计算公式为：

Step3.2、如图3所示，将隐藏层与输出层间的权重矩阵w^r，固定为枢轴特征的词向量矩阵，通过固定隐藏层与输出层间的权重矩阵w^r来得到最优的特征映射矩阵w^h；该特征映射矩阵能将两个领域的特征迁移至统一的特征空间。

其中，通过源域和目标域文本内容训练出word2vec词向量。词向量的格式如表5所示。每个词对应一个500维的向量矩阵。找到枢轴特征对应的词向量，得到枢轴特征的词向量矩阵，作为神经结构对应学习中隐藏层到输出层间的权重矩阵w^r。

表5为词向量矩阵

like	[-0.04929905 0.23486612 0.1967869-0.06404014......0.16866587 0.16544181]<sub>1*500</sub>

Step4、如图4所示，利用特征映射矩阵将源领域标签文本的非枢轴特征映射至新的特征空间，得到迁移特征；根据源域的标签，利用训练集中的源域初始特征和迁移特征一起来训练logistics分类器；

Step5、利用特征映射矩阵将目标域文本的非枢轴特征映射为迁移特征，将测试集目标域的初始特征和迁移特征一起送入训练好的logistics分类器，即可得到目标领域的分类结果。

正确率是评价目标域模型中文本标签预测正确的个数与总个数的比值，可以用来衡量模型的好坏；本发明采用准确率作为特征扩展的神经结构对应学习跨领域情感分类模型的测评标准。定义如下：

其中，N_r为测试语料中标签预测正确的个数，N_c为测试语料中标签总数，正确率越高，说明方法越好。

Step6、为了验证卡方检验和词形还原的有效性，基于亚马逊产品评论数据集，亚马逊四个数据集DVD、Book、Kitchen、Electronics(表6中分别简写为D、B、K、E)，互为源域和目标域进行的12组实验，本发明提出的模型AE-SCL-IFC在12组实验上，与基于特征提取为互信息的神经结构对应模型AE-SCL-SR，以及基于特征提取为卡方检验的神经结构对应模型AE-SCL-Chi2的实验对比，其评估结果如图5所示。表6为基于亚马逊产品评论数据集的本发明方法和其他方法对比汇总表，评价标准为测试集准确率，从表6，图5中可得出本发明模型分类效果优于其他模型。

No-DA表示的方法是：用源域文本向量和标签训练好logistics分类器，然后用这个分类器去测试目标数据所得的结果，SCL-MI、MSDA为公知方法模型。

表6为各个模型在跨领域情感分类任务上的测试集准确率

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.改进特征选择的神经结构对应学习跨领域情感分类方法，其特征在于：

所述分类方法的具体步骤如下：

Step1、对互联网评论进行预处理，获取源域D_s、目标域D_t的文本内容；

2.根据权利要求1所述的改进特征选择的神经结构对应学习跨领域情感分类方法，其特征在于：所述步骤Step1的具体步骤为：

3.根据权利要求1所述的改进特征选择的神经结构对应学习跨领域情感分类方法，其特征在于：所述步骤Step2的具体步骤为：

Step2.1、对文本进行词形还原，消除文本中的冗余特征；

Step2.3、将卡方统计量值从大到小排列特征；

4.根据权利要求1所述的改进特征选择的神经结构对应学习跨领域情感分类方法，其特征在于：所述步骤Step3的具体步骤为：

5.根据权利要求4所述的改进特征选择的神经结构对应学习跨领域情感分类方法，其特征在于：获得隐藏层到输出层的权重矩阵的具体步骤为：通过源域和目标域文本内容训练出word2vec词向量，每个词对应一个500维的向量矩阵；找到枢轴特征对应的词向量，得到枢轴特征的词向量矩阵，作为神经结构对应学习中隐藏层到输出层间的权重矩阵。