CN109753566A

CN109753566A - 基于卷积神经网络的跨领域情感分析的模型训练方法

Info

Publication number: CN109753566A
Application number: CN201910020227.5A
Authority: CN
Inventors: 孟佳娜; 于玉海
Original assignee: Dalian Nationalities University
Current assignee: Dalian Minzu University
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2019-05-14
Anticipated expiration: 2039-01-09
Also published as: CN109753566B

Abstract

基于卷积神经网络的跨领域情感分析的模型训练方法，属于跨领域情感分类领域，为了解决跨领域情感分析问题，S1.文本预处理；S2.训练词向量模型；S3.跨领域模型迁移；其中，步骤S3：通过源领域训练神经网络模型，对训练好的模型进行迁移，共享模型中卷积核的权重值，使用源领域训练好的卷积核权重提取目标领域中对应的特征，对目标领域的少部分数据进行再次训练，调整之前训练好模型的全连接层权重的参数，效果是实现了对跨领域情感文本进行模型迁移。

Description

基于卷积神经网络的跨领域情感分析的模型训练方法

技术领域

本发明属于跨领域情感分类领域，涉及一种基于卷积神经网络的跨领域情感分析的模型训练方法。

背景技术

在机器学习算法和数据挖掘的算法中，一个重要的假设就是的训练数据和将来的训练数据，一定在同一特征空间并具有相同的数据分布。然而这样的假设在实际应用案例中不会成立。因此当数据分布发生改变时，大多数的统计模型需要使用新数据的训练样本进行重建。在现实应用中，每天所产生的数据多的令人难以置信，按照当前的数据产生速度，每天都会产生2.5个五万亿字节的数据量，如果重新收集数据，再对模型进行重建这需要很大量的代价，显然这是不可能的。而且这些产生的数据是初始状态的，没有特定的标注，如果人工进行标注，这样的成本显然是无法接受的，因此如果可以降低重新收集训练数据的需求和代价，那是非常不错的。这样可以有效的打破在现有数据中的局限性，而且可以降低很大的成本和时间。

在1995年开始，迁移学习就以不同的名字收到了越来越多的人关注：终身学习，知识迁移，感应迁移，多任务学习，知识整合，前后敏感学习，元学习，增量或累计学习。迁移学习是一种多任务的学习技术，根据已有数据对未知数据进行预测，提高对数据的使用率，降低训练和标注成本是的进行迁移学习的主要目的。多任务学习可以充分利用隐含在多个相关任务的训练信息中的特定领域信息，增加其模型的泛化能力，并且近期加入对抗机制，降低特征权重对整个模型的影响。在2005年美国国防部高级研究计划局的信息处理技术办公室发表的代理公告，给出了迁移学习的新任务：把之前的任务汇总后学习到的知识和技能应用到新的任务中的能力。也就是说的任务不能只局限于训练数据中寻找特性，还要在其基础上提高到未知的应用当中，提升泛化能力。例如：可以发现学习如何辨别梨子可以有助于辨别苹果，类似的，学会了电子琴后将会有助于学习钢琴。人类可以智能的把先前学到的知识应用到新的问题上，并进而快速的更好的解决新的问题。

情感分析是在人们对产品，服务等事物上的情感计算的研究，用于判断用户对事情和事物的评估和态度等等。该领域发展是非常快速，在2000年初以来情感分析成为了自然语言处理中最活跃的研究领域之一的项目，因为产品、服务不断的增多和优化，用户的反馈意见是决定产品好坏的第一要素，现如今如果用户想要购买产品，将不再局限于家人和朋友的意见，更多的是去寻找有用的用户评价或者是网络论坛。而公司可以根据这些评论对自己的产品进行判断，对产品优化改进，看看该产品未来市场是否受到大众的喜爱，而对于公司来说，其产品是多种多样的，用了大量的人力标注了一批数据，训练了一批模型，只适用于在某一特定产品下显然是不行，而且某些产品更新换代后会产生更多样的反馈信息，这时原有的模型也可能不再适用，所以怎样从已有的数据中提升泛化能力，成为的主要研究内容，因此将迁移学习加入到情感分类中，是一项非常有意义的工作。

迁移学习在图像领域和文本领域中的应用展现了优势。Blitzer等提出的SCL方式寻找目标领域和源领域之间的共同特征，Pan等提出了SFA算法将支点与非支点数据在源领域和目标领域建立联系。目前，随着深度学习的快速发展，将深度学习的相关研究方法应用到迁移学习中的研究思路，受到国内外研究人员的重视，取得了很多研究成果，Ganin等在2016年提出了DANN算法将领域自适应学习嵌入到特征表示过程中，所得到的自的前馈神经网络能够直接应用到目标领域。

近些年，迁移学习受到人们广泛关注，最早在迁移学习领域的综述文章给出定义。它将迁移学习方法分为基于样本的迁移学习方法、基于特征的迁移学习方法、基于模型的迁移学习方法和基于关系的迁移学习方法四大类。

基于样本的迁移学习方法通过权重重用，对源领域和目标领域的样例进行迁移。就是说直接对不同的样本赋予不同权重。Dai等提出了TrAdaboost方法，提高有利于目标分类任务的实例权重，降低不利于目标分类任务的实例权重。Tan等提出了传递迁移学习方法(Transitive Transfer Learning,TTL)和远域迁移学习(Distant Domain TransferLearning,DDTL),使用联合矩阵分解和神经网络将迁移学习应用于多个不相似领域之间的知识共享。基于特征的迁移学习方法假设源领域和目标领域的特征不在一个空间，或者说他们在原来的空间上不相似，因此想办法把他们变换到一个空间里面，其特征就相似了。Blitzer等人提出了基于结构对应的学习方法，该算法可以通过映射将一个空间中独有的一些特征变换到其他所有空间的特征上。近年来，基于特征的迁移学习方法大多与神经网络进行结合。基于模型的迁移学习方法通过构建参数共享的模型进行迁移，这在神经网络里应用的比较多，因为神经网络的结构可以直接进行迁移，比如说神经网络的fine-tune就是模型参数迁移很好的体现。基于关系的迁移学习方法应用比较少，这种方法关注点在于源领域和目标领域样本之间的关系，Davis等人提出借助马尔科夫逻辑网来挖掘不同领域之间的关系相似性。

在早期的情感分类中，更多的使用机器学习进行情感分类，Pang等首次对电影评论语料使用朴素贝叶斯、最大熵和SVM方法对情感进行分类，并证明了情感分类任务比主题分类要复杂和困难。Turney的方法是将文档中词汇和短语的倾向性进行平均，来判断文本的倾向性。这种方法基于情感倾向性词典，不需要人工标注文本情感倾向性的训练语料。Liu等基于整体词典的方法进行观点挖掘，是对传统方法的改进。基于词典的方法过于依赖词典，需要良好的词典做支撑才能有很好的结果。谭松波等针对不同的领域建设词典，通过特定领域的词典能够保证一定的准确性。徐琳宏等的基于语义资源的文本情感分析方法，是利用CRF对文本逐句进行情感标注得到文本的情感链，进而判断文本的倾向性。近几年深度学习已经成为了机器学习的重要工具，Zhang等人在2018年深度学习情感分析综述中提出了多种深度学习模型，用于解决情感分类问题，赖文辉等提出在中文文本情感分类中使用词向量和卷积神经网络的方式进行识别。

研究者发现在情感分类中对于训练集和测试集分属不同领域的数据集上分类效果较差。Hu等人在研究中发现对产品的评论分类结果与在新闻和文学上的评论分类结果是不同的，所以解决跨领域问题是情感分类的重要研究方向。随着深度学习方法的深入研究，越来越多的人使用深度神经网络进行迁移学习。对比传统的非深度迁移学习方法，深度迁移学习提升了不同任务上的学习效果。

在2018年的IJCAI会议上杨强提到一种基于对抗的注意力网络模型，加入梯度反转(GRL)使共享层的参数在两个分类器中都参与梯度更新，在domain classifier上最大化分类误差，在label classifier上最小化分类误差的方式，进行跨领域的情感分析。

发明内容

为了解决跨领域情感分析问题，本发明提出如下技术方案：一种基于卷积神经网络的跨领域情感分析的模型训练方法，包括如下步骤：

S1.文本预处理；

S2.训练词向量模型；

S3.跨领域模型迁移；

其中，步骤S3：通过源领域训练神经网络模型，对训练好的模型进行迁移，共享模型中卷积核的权重值，使用源领域训练好的卷积核权重提取目标领域中对应的特征，对目标领域的少部分数据进行再次训练，调整之前训练好模型的全连接层权重的参数。

进一步的，所述步骤S1包括：

分词与词性标注：英文使用nltk分词，中文使用jieba分词，对于出现高频率的词，但是对于文本分词没有实际的作用，则将该词定义为停用词，将其去除；并在分词后对词性标注；

命名实体识别：使用bilstm+crf的方式进行命名实体识别，通过bilstm去进行特征的选择，之后使用crf进行训练识别。

进一步的，所述步骤S2中词向量模型是定向Skip-Gram模型。

进一步的，所述改进定向Skip-Gram模型，其改进模型：

其中：g(w_t+i|w_t)表示预测上下文的概率，w_t+i为词w_t的左侧或者右侧的词，表示定向(只根据上文或者下文)的w_t的权重向量，表示向量转置，表示w_t基于上下文的权重向量。

进一步的，所述跨领域模型迁移的算法描述为：

使用源领域标记数据训练卷积神经网络模型，第一层为句子以矩阵形式存储的输入层输入的源领域样本x_s，句子固定长度为n，表示在源领域输入的句子用词所对应的实数id序列。嵌入层将加入词向量模型，其中词向量维度为k，原输入层变为表示句子向量所映射的n*k的矩。，因此单独一个词可以用表示，表示句子中第i个词，表示词所对应的实数域，输入的句子表示为：

其中为连接运算符；

第二层为卷积层，卷积层提取句子特征，主要是通过h*k卷积核表示h*k的一个实数矩阵，h为输入的滤波器的大小，k为词向量维度，在输入层从上到下进行滑动，完成卷积的操作，通过卷积操作获得一个特征图c_s，特征图c_s为n-h+1的向量，即

其中，

其中f为非线性激活函数，b_s为偏置项，w_s表示卷积核的权重，因为我们滤波器的长度为h，因此i:i+h-1表示在卷积过程中扫描的词长度从第i个到i+h-1个。

第三层为池化层，池化层特征进一步提取，使用最大池化操作，取出特征值中的最大值作为主要的特征，记为max(c_s)：

最后一层为全连接层，经过全连接层后使用softmax分类器得到各个类的概率，通过概率的大小判断类别，公式如式(4.5)、(4.6)所示：

其中表示源领域数据经过全连接层的预测值，w表示全连接层的权重，b为偏置项系数，表示在源领域中样本在第i个类别下出现的概率，Label为标签种类。

使用少部分已标注的目标领域的数据集进行微调，为保证一致性我们使用x_t表示目标领域样本，并与源领域输入层保持一致，使用相同的句子长度n和词向量维度k，将输入层表示为的格式，输入句子表示为：

max(c_s)置项b_s，使用前向传播算法获取特征图c_t，公式为：

其中，

并且使用最大池化层选择出特征图c_t的每一列最大值，作为特征向量记为max(c_t)。

对最后一层全连接层中的权重使用随机梯度下降方法进行微调，w表示全连接层的权重，b为偏置项系数，表示在目标领域中样本在第i个类别下出现的概率，Label为标签种类，

在源领域数据集上使用包含三个卷积层的卷积神经网络进行训练，并保存训练好的模型结构和各层权重，在训练目标领域数据时不改变前三层已训练好的权重，而只对最后一层全连接层的权重进行微调，并使用随机梯度下降方法调整权重值，再对目标领域进行情感分类，根据概率的结果判断样本在第i个类别下的概率，样本将属于概率最大的一类作为其情感分类。

有益效果：对卷积神经网络模型进行跨领域迁移，解决情感分类问题是有效的，由具体实施例中的实验数据可以看出，实验一在中文上的准确率的均值可以达到80.72％，F1-score可以达到80.42％。实验二的目标领域提供约1/10的标注时的提升效果颇为明显，也就是说可以不用全部标注目标数据，而是在标注1/10的数据对相似模型进行微调就会有很好地效果，这样可以减少对目标数据的标注，降低成本。从实验三结果中可以看出，在中文文本中使用上述方法，比传统的机器学习方法效果要好很多，在酒店评论到图书评论之间准确率提升了15％，平均提升了约5％。从实验四中我们看出我们的模型比传统的SCL，DANN模型的效果要好，而且我们的模型不需要像SCL进行手动查询支点等人为操作，操作方便，简单，速度快，准确率还比较好。因此本次实验可以证明，使用word2vec+CNN进行模型迁移进行微调可以在跨领域迁移学习上取得很好的效果。

附图说明

图1TextCNN模型图

图2分词和词性标注的结果图

图3命名实体识别的结果图

图4使用CBOW模型训练词向量图

图5使用Skip-Gram模型训练词向量图

图6基于CNN的迁移模型框架图

图7加入不同数量目标领域数据得到的准确率结果图

图8使用传统机器学习算法与卷积神经网络进行对比图

图9与多种baseline模型对比图，a是第一种baseline模型对比图，b是第二种baseline模型对比图，c是第三种baseline模型对比图，d是第四种baseline模型对比图。

具体实施方式

实施例：

1.1解决问题

本发明提出一种基于神经网络模型迁移的方法来解决跨领域情感分析问题，常用的情感分类的研究方法，包括处理中英文语料，数据向量表示，提取特征，分类。说明了数据预处理模型的方法和使用，并且介绍Word2vec的相关数学原理和框架，验证使用深度迁移方法可以有效的解决在不同任务上的学习效果，本发明使用的深度网络框架是在CNN卷积神经网络模型的基础上进行迁移。对跨领域情感文本进行模型迁移，在目标领域中对已有的模型进行fine-truning的方式来解决跨领域情感分析的问题。

2.1情感分析

2.1.1基本概念

文本情感分类也可以看做是一种特殊的分类，即根据文本中对某一主题的观点(积极或消极)对文本进行分类。根据文本粒度大小的不同，文本情感分类可以分为短语级情感分析、句子级情感分析和文档级情感分析。一般将情感倾向划分为正面和负面，即二元情感分类，更细致的分类方式还有三元情感分类(正面、负面和中性情感)以及多元情感分类(喜、怒、哀、乐等情感)。

2.1.2基于情感词典分析

情感分类问题，是一种比较特殊的分类问题，早期可以使用情感词权重来判断情感，但是存在局限性，首先需要去收集情感词词典，这需要大量的时间进行标注，而且需要对不同的情感词赋予不同的权重，而这一部目前也没有好的自动化算法可以利用，而且词的情感应用于短文本的拼接中也是会存在很大的问题，例如：“哈哈哈，我之前生气的原因是...”，短语中提到了语气词‘哈哈哈’表示目前的主人公高兴，但是又存在‘生气’，可能表示用户存在生气的情绪，这时每句话对应的情感将由情感词权重进行求和或其他方式判断用户情感，而使用情感词典的方式，需要手动的去调节情感词典中的权重，十分的不便利，因此使用机器学习的方法会更方便快捷一些。

2.1.3传统情感分析方法

传统的使用机器学习进行文本分类方法包括，细分为监督学习和无监督学习，而常用的方法是有监督的方法进行情感分类，逻辑回归算法(LR)、支撑向量机算法(SVM)、朴素贝叶斯算法、k-近邻算法等等。下面简单的对常用的分类器做一个简单的介绍。

(1)逻辑回归算法

逻辑回归是用于处理因变量为分类变量的回归问题，也就是说虽然名字带有“回归”，实际上是一种分类算法，主要应用于二分类算法中，将原本的线性回归的拟合问题使用sigmoid函数进行一个在(0～1)区间上的映射公式如下表示：

z＝W^TX+b (2.1)

将sigmoid函数值看作为概率，就可以使用极大似然估计的思想构建其损失函数来计算梯度方向进行计算，该方法适用于二分类问题，简单易于理解，并且可以轻易地更新模型并吸收新的数据，缺点是对数据和场景的适应能力存在局限性，没有决策树算法强，可以加入正则项系数的方法增加其泛化能力。

(2)k近邻算法

k-近邻算法一种最简单的分类算法，它的思路是：一个样本在特征空间上的k个最相似(即特征空间中最邻近的前k个)的样本中存在的最多一类的个数，则判断该样本也属于这一类别，并且k通常是不大于20的整数。这个算法简单不需要训练，并且对个别噪声的影响不大，适合对稀有的事件进行分类，但是缺点是计算样本的时间复杂度度和空间复杂度很高，而且可解释性不强，无法确定那一个特征比较重要，并且k的选择也存在这很多问题，通常使用交叉验证的方式去选择最优的k。

(3)朴素贝叶斯算法

朴素贝叶斯算法的核心思想是：选择具有最高后验概率作为确定类别的指标。对于特征项而言，统计其特征在每一类中出现的概率，将所有特征相乘后选择概率最大的一项作为其类别。其实一种基于统计学的分类算法，但是由于使用过先验概率和数据分布来决定后验概率从而决定分类，因此分类决策中存在着一定的错误率。主要的用到的条件概率公式如下2.3所示：

(4)支撑向量机算法

支撑向量机算法主要是根据目前已有的数据分布，将数据映射到核函数中，使用一个超平面将不同类别的数据分割开，并且使其间隔最大化。其中损失函数存在条件的约束，因此使用拉格朗日乘子法和KKT条件将问题转化为对偶问题进行解决。常用的核函数是高斯核函数，在SVM历史中曾经有过一段辉煌的历史，simple-mkl使用多核的方式将特征映射到一个由核函数组成的再生核希尔伯特空间，并且在当时分类任务中取得了很好的效果。

2.1.4情感分析应用

在微博，论坛，购物网站等类似的网站中会产生大量的用户数据，可以产生主观的数据和客观的数据，客观的数据主要是指对人物，事物，事件进行客观的描述，带有较轻的情感倾向。而主观的数据表达作者对某一事物或事件的观点、意见、态度、评价、立场等等，带有较强烈的情感倾向。针对这些数据可以使用情感分析技术对其进行分析，可以开发出大量的价值。

对商品评论进行分析，可以了解用户对商品的满意度，进而指定好的营销策略。分析公民对热门事件的情感倾向，掌握大众舆论导向。根据用户评论预测相关信息，比如说电影票房或者获奖者等等。在现实生活中应用情感分析的场景十分的多，因此情感分析在生活中必不可少。

2.2迁移学习

2.2.1迁移学习基础概念

众所周知目前在人工智能领域分为以下三个方向，监督学习，无监督学习，半监督学习，当有足够的标签数据时，监督学习的效果往往是最好的。而目前人们获得的大量的数据是无标注的，如果人工大量的去进行标注需要很昂贵的代价。因此提出一种迁移学习的方法，迁移学习的核心是指在找到新问题与原问题的相似性，从相似性出发将问题所用到的模型或者标注数据转移到新的问题上，根据两个领域之间的相似性可以降低目标问题的难度，从而降低成本。

2.2.2迁移学习研究内容

首先给出一些迁移学习中常用的相关的定义：

领域(Domain)是指对正在进行学习的主体。领域主要是由两部分构成的，数据和生成这些数据的概率分布。通常使用D来表示一个domian，并用P来表示一个概率分布。

在迁移学习中涉及到两个重要的基本领域：源领域(source domain)和目标领域(target domain)。源领域是有大量标注数据的领域，是需要迁移的对象。目标领域就是最终的要赋予数据和标注的对象。知识从源领域传递到目标领域，就完成了迁移。领域上的数据通常使用小写的x表示，其内容为向量表示形式。例如x_i表示第i个样本或特征。用大写的X表示一个领域数据。

通常使用s和t来指代两个领域。结合领域的表示方法，使用Ds表示源领域，Dt表示目标领域。

任务(Task)：是学习的目标，任务由两部分组成，标签和标签对应的方法。通常用Y来表示一个标签空间，用f(·)来表示一个学习函数。先后赢得，源领域和目标领域的类别空间就可以分别用Ys和Yt来表示。用ys和yt表示源领域和目标领域的实际类别。

迁移学习(Transfer Learning)：给定一个有标记的源领域和一个无标记的目标领域这两个领域的数据分布P(x_s)和P(x_t)不同，即P(x_s)≠P(x_t)。迁移学习的目的就是要借助D_s的知识，来学习目标领域D_t的知识(标签)。

更进一步来说，结合之前说的迁移学习研究领域，需要对迁移学习有如下的定义：

(1)特征空间的异同，即Xs和Xt是否相等。

(2)类别空间的异同：即Ys和Yt是否相等。

(3)条件概率分布的异同：即Qs(ys|xs)和Qt(yt|xt)是否相等。

具体表示如下表所示

表2.1迁移学习常用的符号表示

2.2.3迁移学习应用

使用迁移学习方法，主要是解决以下几个重要的问题：

1.大数据少标注之间的矛盾

正身处在一个大数据时代，每时每刻都会从社交网络、智能交通、视频监控、行业物流等平台中产生大量的数据。而随着数据的产生带来了一个严重的问题，那就是没有与其对应的数据标注，如果使用无监督或者半监督的方式无法带来满意的效果，而如果要解决数据标注一类的问题需要很高昂的人工费用，并且十分耗时。

然而利用迁移学习的思想，可以使用一些与目标数据相近的有标记数据，从而利用这些数据构建模型，增加对目标数据的标注。减少目标领域对数据标注的要求，从而尽可能地解决在目标领域中的问题。

2.大数据与弱计算之间的矛盾

处理大数据需要功能强大、强计算能力的设备进行存储和计算。然而大数据的功能强大的硬件基础，是只有一部分有钱人才能玩得起的游戏，例如ResNet卷积神经网络为50层或152层，这就需要很长的时间去进行训练，绝大多数的普通用户不具备这样强的计算能力，而普通用户想用这些海量的大数据训练模型完成任务几乎是不太可能。

而可以使用迁移学习的思想，将那些大公司在大数据集上训练好的模型，迁移到的任务中。针对的任务进行微调，从而也是可以拥有在大数据上训练好的模型。更进一步，可以一种自适应更新的方式将这些模型根据的任务进行自适应调整，从而获得更好的效果。

3.普适化模型与个性化需求之间的矛盾

机器学习的目标是构建一个尽可能通用的模型，使这个模型对于不同的用户、不同的设备、不同的环境、不同的需求都可以很好地进行匹配，获得一个很好的结果，也就是说尽可能的提升机器学习的泛化能力，使其可以在不同的数据环境下适应，于是构建了很多普适化模型，在现实应用中得到很好地服务效果。对于不同的用户来说有着不同的需求，例如有人喜欢看电影，有人喜欢看书一样，这就是个性化需求。而目前所构建的模型是可以解决通用问题的，但是如果需要具体到每个个体中时，往往无法展示出比较好的效果，因此一个普适化的模型是无法满足用户需求的。

为了解决个性化需求的挑战，使用迁移学习的思想，进行了自适应的学习。考虑了用户不同需求存在相似性和差异性，可以对普适化的模型进行灵活的调整，以便可以在特定需求的任务中有一个好的表现。

4.特定的应用需求

机器学习已经广泛的用于现实生活。在这些应用中，也存在着特定的一些应用，他们面临着一些接近生活的问题。比如说推荐系统中的冷启动问题，没有足够的用户数据，如何精准的进行推荐呢？一个崭新的图片系统如果没有足够的图片标记基础，如果精准的进行服务。

相似领域知识迁移，为了满足没有足够的标签问题，可以使用对已有的数据和模型进行迁移，就好比做一款理财产品，无法确定的产品推荐给客户是否满意，可以考虑从用户的消费信息进行考虑，这样也是一种最为贴近想要的结果的一个方法。

5.负迁移问题

使用迁移学习解决目标领域中的数据不足和弱计算等问题时，迁移学习本身也会存在这问题，迁移学习的结果有时可能无法满足的要求，往往迁移后的效果没有想象中的好，而这一现象称之为负迁移。用熟悉的成语来形容，成功的迁移学习指的是“举一反三”，“照猫画虎”，而负迁移则是“东施效颦”，产生这一类问题的主要原因有两个：

1.数据问题：源领域和目标领域之间数据分布相互独立，没有相似信息，无法进行迁移

2.方法问题：源领域与目标领域存在相似信息，但是迁移学习的方法不够高，没有找到可迁移的成分。

负迁移给迁移学习的研究带来了负面的影响。在实际的应用中，找到合理的相似性，并且选择或开发合理的迁移学习方法可以避免负迁移现象。

2.3深度学习

2.3.1基础概念

深度学习(deep learning)目前是机器学习算法中的一个重要的技术，主要是建立模拟人脑进行分析学习的神经网络。深度学习的本质是根据数据观察期分层特征表示，实现将低级特征进一步的抽象为高级特征的表示，这一任务是同归神经网络来进行实现的。

深度学习是一种将人工神经网络，应用于使用多层网络的学习任务。曾经认为只有一层两层才是适用的，现如今可以利用神经网路，对数据进行更多的学习和表示。

受到人体大脑的影响，神经网络由分层组织的神经元构成，神经元就是信息处理单元，他可以通过调整神经元之间的链接权重来学习执行任务，类似于模拟人脑的思维过程。这里详细讲一下本发明将要使用的一种在短文本情感分类上效果比较好的卷积神经网络模型。2.3.2卷积神经网络在文本情感分析中的应用

卷积神经网络(CNN)是一种特殊类型的前馈神经网络，最初的用于计算机视觉领域之中。它的设计灵感主要来源于人类的视觉皮层，视觉皮层是人的大脑中的视觉机制，也就是说当看见一张照片，或者看到一组信息的时候，首先会看到一些重要的事物。视觉皮层包括许多的细胞，看见的事物在原始区域上映射称之为感受野。这些单元在输入空间中充当局部滤波器的作用，CNN是由多个卷积层组成，每层都去执行视觉皮层细胞中的功能。

情感分类在实际应用中其实是一种特殊的文本分类，在文本分类中使用CNN的卷积层进行特征提取的功能，他提取局部特征，因为他们将隐藏层的感知域限制在局部，也就是选取的滤波器的大小。这意味着CNN通过相邻层的神经元之存在着关联而且具有在特殊空间的相关性。这样的特征对于NLP中的分类是非常有用的，可以根据局部信息找出文中的关键词。例如在文本分类中，单个关键词语或者是(n-gram模型)是可以帮助确定文档的主题的，去适用分类的方法判断主题时，可以根据关键词出现在文档中的不同位置去进行判断。常见的卷积模型使用TextCNN用于文本分类，这个模型方法在情感分类上有很好的效果，模型如图1所示。

在传统的卷积神经网络中，使用三个宽度不同的filter，最后使用拼接的方式将滤波器的向量片段进行池化拼接最后送入全连接层进行分类。这是目前比较常用的一种基于卷积神经网络模型的构建方法。

在实际应用中，文本数据不能直接进行使用，需要对文本进行分词，去停用词，语义分析，命名实体识别，依存句法分析等预处理之后，在进一步的对其进行实验。本章节主要讲述对文本这种半结构化数据处理的相关方法，并介绍实验中用到的word2vec词向量表示方法，并且讨论这种词向量方式表示文本的优缺点。

3.1文本预处理

本发明将会使用中文和英文两种文本进行实验，而对于这两种文本来说，在预处理模块有着很多不同点。

3.1.1分词方法

首先中文语料不像英文的单词之间以空格的形式分隔开，因此我不能直接的像英文一样可以使用最简单的空格和标点进行分词。对于中文文本需要使用统计学的方法统计分词的概率，构建生成式模型的方式进行判别，需要有标准的语料库作为分词依据，比方说：“小明来到北京朝阳”分词后的结果为“小明/来到/北京/朝阳”。

简单的可以依靠前一个字与后一个字组合为成为一个词的概率，但是现实中一句话之间不能只看前一个词，因此使用一种N元模型，依赖于前N个词进行分词，只不过计算量增大了许多，在实际应用中N比较小因为时间复杂度太高了，N元分词方法虽然好，但是也存在这很多问题，首先出现新词就无法进行识别，而且当N大于3时的计算量是相当大的。

维特比算法，是一种寻找隐马尔可夫链的最短路径问题，通常是采用动态规划的方法来对分词进行优化的。常用的分词方式英文使用nltk，对于中文则使用jieba分词。

文本中实际还存在着一些出现高频率的词，但是对于文本分词没有实际的作用，比如说：‘的’，‘嗯’，‘哦’，这些定义为停用词，为了节省空间，并且防止过拟合将在文本的预处理部分进行去除。

分词之后将进行词性标注，区分动词，名词，形容词等。这一步更注重语义。第一步的分析结果如图2所示。

命名实体识别(NER)是自然语言处理的一个经典问题，应用相当广泛，从一句话中抽出其中的实体，包括人名、地名、或者是专业领域的专用词汇等等。传统的方法是使用条件随机场(CRF)的方式进行命名实体识别。

CRF是一种比较好的判别式概率模型，常于标注或分析序列资料，简单的说在NER的应用中给定一系列的特征标签去预测词的标签，就好比将前后词和前后词的词性进行统计做为特征，判断该词的标签是什么。

现在在命名实体识别算法中最好的算法是使用bilstm+crf的方式进行命名实体识别，其本质是通过bilstm去进行特征的选择，之后使用crf进行训练识别。

图3是一个命名实体识别的具体例子。

3.2训练词向量模型

3.2.1常用的词向量工具方法

目前文本表示通常是使用词袋模型，进行one-hot embedding，因为该模型构建简单，可以降低向量计算的复杂度。但是同时这个模型也存在很多缺点和不足：当样本数据比较大，含有丰富的关键词时，文本的特征维度会非常的高，可能导致维度爆炸；词向量矩阵特别稀疏，并且很可能导致过拟合，如果使用tf-idf或者信息增益的方式对特征降低维度，虽然可以使维度爆炸得到缓解，但是加剧了信息的流失。为了更好的提取短文本中的信息，引入一种新的特征提取的方式，将分词结果向量化。

Word2vec是Google在2013年推出的NLP工具，其特点将句子中的词向量化，可以定量的度量词与词之间的关系，挖掘词语之间的联系。Word2vec根据上下文之间的出现关系去训练词向量，有两种训练模式，Skip Gram和CBOW，其中Skip Gram根据目标单词预测上下文，CBOW根据上下文预测目标单词，最近比较流行的方法还有ELMo方法考虑词汇的一词多义对文本进行向量化。

CBOW神经网络模型训练得到目标单词的词向量，如图4所示。

首先假设词表大小为V，词向量维度为D，上下文单词为x₁,x₂,...,x_i，

其中U为权重矩阵。

极大化目标单词w(t)出现的概率p(y|x₁,x₂,...,x_i)，根据极小化负对数似然函数定义损失函数：

L＝-logp(w_t|w_t-m,...,w_t-1,w_t+1,...,w_t+m) (3.3)

L＝-logsoftmax(z_i) (3.4)

根据梯度下降算法进行求导，迭代公式为：

Skip-Gram算法与CBOW算法极为相似，他是通过一个词w_t去预测上下文位置的单词，并对其极大似然估计，公式如3.6所示：

其中|V|表示语料库中词的大小，在这里f(w_t+i|w_t)＝p(w_t+i|w_t)其表示为预测上下文单词的概率。

在这里表示w_t的权重向量，并且其中对预测结果进行判断找出其中最大的概率值作为预测值。图5描述了Skip-Gram模型。

上述两种词向量训练模型是比较常用的两种方式，训练起来比较方便、简单，但是存在一个问题，就是在大规模语料中训练时间和空间的复杂度十分的高，因此针对这一问题找到了一种新的词向量表示方式，其在训练的方法中进行了优化，大大降低了时间复杂的和空间复杂度，并且在性能上也好于这些传统的模型。

3.2.2定向Skip-Gram模型

腾讯在2018年的Tencent Lab中提出了一种新的训练词向量模型的方式，使用定向的Skip-Gram模型简称为(DSG)，本次腾讯公开的语料中的词汇有800多万中文词汇，其中每一个词汇对应一个200维度的向量，并且表现出超出其他所有传统的训练词向量模型方法的效果。

其中对于DSG而言，其主要的思想在于中文的语料结构所导致的，举一个最简单的例子，常见的词汇有‘快乐’，‘前夜’，而这两个词通常出现在‘圣诞节’这个名词之后，就变为了‘圣诞节快乐’，‘圣诞节前夜’。

因此DSG算法主要是针对某一方向，去做定向的Skip-Gram，而不是考虑左右两侧的词，也就是说当前词只由左侧或者右侧来决定。在这个前提之下会发现，其训练方式要比其他的训练方法在空间时间上的复杂度低许多。给出其改进的公式如式3.8所示：

其中w_t+i为w_t的左侧或者右侧的词，并且用一种新的向量表示δ来表示w_t。

在本次试验中将使用腾讯提供的中文词向量模型和Google提供的英文词向量模型作为文本的预训练模型，加入到本次实验中。

本发明提出一种基于多层卷积神经网络模型的迁移学习方法，来解决跨领域情感分类问题。通过源领域训练神经网络模型，对训练好的模型进行迁移，共享模型中卷积核的权重值，使用源领域训练好的卷积核权重提取目标领域中对应的特征，对目标领域的少部分数据进行再次训练，调整之前训练好模型的全连接层权重的参数。

4.1跨领域情感迁移介绍

在迁移学习领域中主要研究三个问题:迁移什么？怎么迁移？何时迁移？

“迁移什么”要进行判断哪部分知识是可以进行跨领域迁移的。某些知识存在于特定的领域中，并且某些知识可能在不同的领域之间是共同存在的，这样他们可以帮助提高目标领域中的人物和性能。当发现哪些知识可以转以后，之后会详细的说“如何转移”的这个问题。“何时转移”是在询问在哪些情况下应该完成转移，比方说对知识进行转移但是发现源领域的知识在作用域中起到不好的影响，破坏了原有模型的准确度，那么就将其定义为负迁移。对于来说“迁移什么”和“何时迁移”对来说也是尤为重要的。

于是将迁移学习设定为三个子任务，归纳迁移学习，传导迁移学习和无监督的迁移学习。

1.在归纳迁移学习中，无论源领域和目标领域是否相同，目标任务都不同于源任务。在这种情况下需要目标领域中的一些标注数据作为引导目标领域的预测模型。另外根据源领域中标记和未标记数据的情况，可以进一步将归纳学习设置为两种情况：

第一种源领域中有很多标记可以用。这种情况下，归纳迁移学习任务就类似于多任务学习机制，归纳迁移学习主要是通过从源任务中迁移知识来实现目标任务中的高性能，同时多任务学习可以同时学习目标领域任务和源领域任务。

第二种源领域中不存在标记数据可用，在这种情况下归纳迁移学习就类似于自学习过程，在自学习学习中，源领域和目标领域之间的标签空间可能不同，这意味着源领域的辅助信息是不可以直接拿来使用的。

2.在传递迁移学习中源领域和目标领域的任务是相同的，但是源领域和目标领域的数据是不同的。在这种情况下，当源领域存在大量的标记数据可用时，目标领域中没有标注数据可用。另外根据源领域和目标领域的不同情况，可以进一步的将传递迁移学习分为两种情况：第一种，源于和目标领域的特征空间不同；第二种，两个领域之间的特征空间相同，但是输入数据的边缘概率分布是不同的。

3.最后在无监督的迁移学习设置中，类似于归纳迁移学习。目标领域任务不同于源领域任务但是与源领域任务相关。然而在无监督迁移学习中的重点是解决目标领域中的无监督学习任务，如聚类，降维，密度估计等等。在这种情况下源领域和目标领域之间不存在任何的标记数据。

4.2跨领域模型迁移

4.2.1具体流程

在深度网络中，fine-tuning是深度模型中的一个重要的概念，简言之，fine-tuning是利用别人训练好的网络模型，应用到自己的任务，在根据自己的任务进行调整。在实际应用中通常不会针对一个新的任务，就重新训练一个神经网络模型，这样的操作是相当浪费时间的。尤其是的数据不可能像ImageNet那么大，可以训练到泛化能力非常好的地步。

在文本领域如果无法获得那么多标记文本数据，可以将别人已训练好的模型拿到目标领域中进行fine-tuning。而进行这一部分目的主要是解决一个问题那就是目标领域的任务是与源领域中的任务是不同的，因此需要对源领域模型进行调整，调整后在应用到目标领域中。本发明在其基础上加入了大规模词向量模型作为embedding层的初始化参数。本发明使用的算法流程图6所示。

本发明提出一种基于多层卷积神经网络模型迁移方法，来解决跨领域情感分类问题，整体流程图如图6所示。通过源领域训练神经网络模型，对训练好的模型进行迁移，共享模型中卷积核的权重值，使用源领域训练好的卷积核权重提取目标领域中对应的特征，对目标领域的少部分数据进行再次训练，调整之前训练好模型的全连接层权重的参数。

4.2.2算法描述

首先使用源领域标记数据训练神经网络模型。第一层为句子以矩阵形式存储的输入层句子固定长度为n(句子不足n，则用0进行补充)，嵌入层通过使用Word2vec将原本的输入层变为k为词向量维度。表示句子中第i个词，因此输入的句子可以表示为：

其中为连接运算符。

第二层为卷积层，卷积层的作用是提取句子特征。主要是通过h×k的卷积核在输入层从上到下进行滑动，完成卷积的操作，通过卷积操作获得一个特征图，特征图的列为1，行为n-h+1，即

其中，

其中f为非线性激活函数，b_s为偏置项。在训练模型时可能会出现过拟合现象，为了提高模型的泛化能力使用Hinton等人提出的Dropout提高神经网络结构性能。Dropout的主要功能是随机的忽略卷积层中的神经元，降低隐藏层神经元之间的互相作用。

第三层为池化层，池化层的作用是对特征进一步的提取，将最重要的特征提取出来。本发明使用最大池化操作，即取出特征值中的最大值作为主要的特征。

最后一层为全连接层，全连接层通过使用softmax分类器得到各个类的概率，通过概率的大小判断类别。公式如式(10)、(11)所示：

接下来使用少部分已标注的目标领域的数据集进行微调。同样的第一层输入层使用Word2vec将输入层表示为的格式，因此输入句子表示为：

第二层卷积层使用训练好卷积核的权重w_s，使用前向传播算法获取特征图，公式为：

对最后一层全连接层中的权重使用随机梯度下降方法进行微调，

在源领域数据集上使用包含三个卷积层的卷积神经网络(3-CNN)进行训练，并保存训练好的模型结构和各层权重，在训练目标领域数据时不改变前三层已训练好的权重，而只对最后一层全连接层的权重进行微调。并使用随机梯度下降方法调整权重值，再对目标领域进行情感分类。

本次实验分别使用了中文和英文进行实验，实验的模型都使用统一的模型，对卷积神经网络进行迁移，将会使用公开的数据集与已有的算法进行比对。

5.1实验环境

本次实验是在linux上进行开发，使用开源的keras框架搭建神经网络模型，keras是基于Theano和Tensorflow的深度学习库，在大规模矩阵运算上GPU的计算能力要比CPU好很多，因此本次实验使用GPU版本的Keras构建模型，其中实验环境如表5.1所示：

表5.1实验环境

5.2实验数据来源

5.2.1中文语料

中文语料来源于选取了京东书籍评论，京东电脑产品评价和谭松波整理的携程网酒店评论数据进行实验，这三个不同领域的数据都包含正向评论和负向评论各2000条，共12000条数据，在这三个不同的领域上进行跨领域情感分类。详细的统计数据如表5.1所示。

表5.2中文实验数据

5.2.2英文语料

英文语料使用目前公开的亚马逊图书语料库，其中分为四大类，图书，厨房，电子产品和dvd影视产品。这四个不同领域的数据都包含正向评论和负向评论各2000条，共16000条数据，在这四个不同的领域进行跨领域情感分析。详细的统计数据如表5.2所示。

表5.3英文实验数据

5.3实验参数设置

实验中以词为基本单位构建词向量，对深度学习来说，数据量越大，泛化能力越强，预测的数据也越准确。

模型训练时先对数据集进行预处理，并取前100个文本单元，再构建对应的Word2vec向量，因此一个句子将转化为100×64的固定大小。卷积神经网络采用三层卷积层，一层池化层，一层全连接层的结构。具体参数如下：卷积核滤波器的词长度分别为3、4、5，宽度为64，Dropout参数为0.2，批处理(batch size)大小为32，迭代次数(epoch)为20，给定参数k为目标领域已标注数据用于微调的个数。表5.4列出了实验中CNN的参数设置。

表5.4 CNN的参数设置

5.4实验结以及分析

本发明做了四组对比实验，前三组实验是对中文文本进行的，实验一根据模型的性能进行评估，选用精确率，召回率和F值作为评估标准为评价指标。实验二根据目标领域已有的标记数量进行调整，判断目标领域数据进行微调对模型优化的影响。实验三将本发明方法与一些传统的机器学习baseline模型进行对比。实验四使用英文语料，与传统的情感迁移模型SCL，DANN进行对比实验，比较结果。

5.4.1中文跨领域情感实验

本发明实验使用准确率(Accuracy)，精确率(Precision)，召回率(Recall)和F值(F1-scroe)为评价指标，公式如下所示：

不同于英文，中文文本需要提前进行分词操作，本次试验使用jieba分词器进行分词。本次试验取k＝500个目标领域标注数据(250条正例，250条负例)进行微调，并使用10倍交叉验证方法选取准确率为测试指标，如表5.5所示，其中Book→Hotel表示源领域为Book，目标领域为Hotel，其它行数据依次类推。

表5.5k＝500时的CNN模型迁移结果

5.4.2调整目标领域文本数量对比实验

为了比较目标领域数据对模型迁移的影响，本发明通过增加二次训练时加入的目标领域数据集的大小进行对比试验，目标领域的训练数据大小k的取值分别为0、200、500和1000。

在图7中，k＝0表示CNN模型中没有使用目标领域数据，k＝200、k＝500和k＝1000分别表示使用了目标领域200条、500条和1000条的标注数据调整CNN权重参数。从图7的结果看出，使用卷积神经网络模型进行迁移，在谭松波酒店数据到京东书籍的迁移效果最好，准确率可以达到86.91％，在京东电脑评价数据到酒店数据迁移的效果一般，达到74.57％。加入目标领域数据进行训练，对大多数训练数据集来说，准确率都有提高。从图5.1最后一列表示的平均结果看出，加入目标领域的标注数据后，准确率逐步获得提升，在k＝200时准确率均值提升较高，平均提升了5％，而k＝1000较k＝500时获得的提高较低。

5.4.3与传统方法对比实验

为了突出cnn模型的优势，与传统的机器学习模型进行对比，取k＝500，将目标领域中的500条数据加入到源领域进行对比。对比结果如下图8所示。

如图8所示，实验结果表明，使用cnn模型进行迁移学习的效果比传统机器学习有着明显的提高，在酒店评论迁移当当图书评论提升效果最为明显约15％，在京东电脑评论到酒店评论提升效果不明显，整体平均提升了约5％。

5.4.4英文语料与目前方法对比实验

实验四使用亚马逊公开语料库语料进行实验，并与一些迁移学习方法进行对比，实验中与SGD，SCL，SCL-ML和DANN进行实验对比，在模型不变的情况下加入了google公开发布的文本预训练word2vec模型GoogleNews，其中词向量维度为300维，其中包括三百万个词汇基础，模型大小达到4个G，实验结果如图9所示。

根据图9所示，本发明提出的算法在跨领域情感分类中取得了不错的效果，对比其他的传统算法发现，的算法在对每一类进行迁移时都有提升，在book迁移到DVD中迁移效果提升最为明显提升了5％，而且其中有六项可以达到80％以上，electronics产品到kitchen领域的迁移效果最好可以达到85.35％。

5.5实验总结

从前面的四组实验中看出，对卷积神经网络模型进行跨领域迁移，解决情感分类问题是有效的，实验一中可以看出，在中文上的准确率的均值可以达到80.72％，F1-score可以达到80.42％。从实验二可以看出，目标领域提供约1/10的标注时的提升效果颇为明显，也就是说可以不用全部标注目标数据，而是在标注1/10的数据对相似模型进行微调就会有很好地效果，这样可以减少对目标数据的标注，降低成本。从实验三结果中可以看出，在中文文本中使用提出的方法，比传统的机器学习方法效果要好很多，在酒店评论到图书评论之间准确率提升了15％，平均提升了约5％。从实验四中看出的模型比传统的SCL，DANN模型的效果要好，而且的模型不需要像SCL进行手动查询支点等人为操作，操作方便，简单，速度快，准确率还比较好。因此本次实验可以证明，使用word2vec+CNN进行模型迁移进行微调可以在跨领域迁移学习上取得很好的效果。

Claims

1.一种基于卷积神经网络的跨领域情感分析的模型训练方法，其特征在于，包括如下步骤：

S1.文本预处理；

S2.训练词向量模型；

S3.跨领域模型迁移；

2.如权利要求1所述的一种基于卷积神经网络的跨领域情感分析的模型训练方法，其特征在于，所述步骤S1包括：

分词与词性标注：英文使用nltk分词，中文使用jieba分词，对于出现高频率的词，但是对于文本分词没有实际的作用，则将该词定义为停用词，将其去除；并在分词后对词性标注；命名实体识别：使用bilstm+crf的方式进行命名实体识别，通过bilstm去进行特征的选择，之后使用crf进行训练识别。

3.如权利要求1所述的一种基于卷积神经网络的跨领域情感分析的模型训练方法，其特征在于，所述步骤S2中词向量模型是定向Skip-Gram模型。

4.如权利要求3所述的一种基于卷积神经网络的跨领域情感分析的模型训练方法，其特征在于，所述改进定向Skip-Gram模型，其改进模型：

其中：g(w_t+i|w_t)表示预测上下文的概率，w_t+i为词w_t的左侧或者右侧的词，表示定向的w_i的权重向量，表示向量转置，表示w_i基于上下文的权重向量。

5.如权利要求1所述的一种基于卷积神经网络的跨领域情感分析的模型训练方法，其特征在于，所述跨领域模型迁移的算法描述为：

使用源领域标记数据训练卷积神经网络模型，第一层为句子以矩阵形式存储的输入层输入的源领域样本x_s，句子固定长度为n，表示在源领域输入的句子用词所对应的实数id序列，嵌入层将加入词向量模型，其中词向量维度为k，原输入层变为表示句子向量所映射的n*k的矩，单独一个词可用表示，表示句子中第i个词，表示词所对应的实数域，输入的句子表示为：

其中为连接运算符；

其中，

其中f为非线性激活函数，b_s为偏置项，w_s表示卷积核的权重，滤波器的长度为h，i：i+h-1表示在卷积过程中扫描的词长度从第i个到i+h-1个；

其中表示源领域数据经过全连接层的预测值，w表示全连接层的权重，b为偏置项系数，表示在源领域中样本在第i个类别下出现的概率，Label为标签种类；

max(c_s)置项b_s，使用前向传播算法获取特征图c_t，公式为：

其中，

并且使用最大池化层选择出特征图c_t的每一列最大值，作为特征向量记为max(c_t)；

对最后一层全连接层中的权重使用随机梯度下降方法进行微调，w表示全连接层的权重，b为偏置项系数，表示在目标领域中样本在第i个类别下出现的概率，Label为标签种类；