CN110472115A

CN110472115A - 一种基于深度学习的社交网络文本情感细粒度分类方法

Info

Publication number: CN110472115A
Application number: CN201910728636.0A
Authority: CN
Inventors: 韩东红; 汤玉莹; 王涛; 王波涛; 吴刚; 刘辉林; 乔白友; 夏利
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2019-11-19
Anticipated expiration: 2039-08-08
Also published as: CN110472115B

Abstract

本发明提供一种基于深度学习的社交网络文本情感细粒度分类方法，涉及情感多分类领域，本发明使用Scrapy框架爬取社交网络文本数据，进行数据清洗、分词，将分词结果作为word2vec的输入进行词向量转化；基于CNN模型进行文本的情感8分类，将词向量转化结果作为CNN嵌入层的输入，进行卷积、池化、概率计算等前向、反向传播过程训练模型，实现对网络评论情感分类的迁移学习，对社交网络文本进行二轮抽样实现实例迁移、训练分类器，并对评论进行情感预测；对前述工作进行系统设计，对分析结果进行可视化展示，利用MVC三层架构设计展示模块，并针对单文本或多文本情感细粒度分类、跨平台迁移学习文本情感细粒度分类、社交网络热度地图等三方面功能对界面进行设计。

Description

一种基于深度学习的社交网络文本情感细粒度分类方法

技术领域

本发明涉及情感多分类技术领域，具体涉及一种基于深度学习的社交网络文本情感细粒度分类方法。

背景技术

随着互联网和移动设备的爆发式发展，人与人之间的互动和联系越来越依赖于社交网络。这些社交网站给人们的生活带来了翻天覆地的变化，巨大地便利了人们之间的联系。社交网络如国内的新浪微博、腾讯微博、百度贴吧、微信朋友圈，国外的Facebook、Twitter、Instagram，已是现代人日常生活中必不可少的一部分。2017年8月9日，微博发布了2017年第二季度及全年财报。财报显示，微博的用户规模、活跃度和收入均实现高速增长。截止二季度末，微博月活跃用户达到3.61亿，同比增长28％，日活跃用户达到1.59亿，同比增长26％。毋庸置疑，微博作为社交网络重要的成员之一，正在改变着现代人的生活方式。越来越多的人借助微博这一社交网络平台表达或分享自己的情感、观点和建议。

社交网络改变了信息传播的方式，扩大了信息的传播范围，改变了人们的交流方式。在社交网络中人们可以在浏览各种文本、视频、图片信息的同时也可以表达自己的看法。而挖掘社交网络的情感并且进行情感分析，对于诸多应用领域比如电子商务、舆情分析、推荐系统、心理健康等均有重要的现实意义。比如在电子商务领域，可以通过对商品评价的文本进行情感分析，发现用户对产品的情感倾向，以利于厂家对商品做出积极的改进。在网络舆情方面，可以通过分析微博用户对热点事件或热点话题做出相应的情感分析，进而了解用户所要表达的舆情和民声，有助于政府做出有效的应对措施。由此可见，社交网络情感分析具有重要的理论研究以及实际应用价值。

微博作为一种重要的社交网络形式，每天会产生大量的数据，仅靠人工的方法来收集以及分析这些数据的情感费时费力。与此同时，因为与传统的社交媒体(博客、贴吧等)相比，微博有很多其自身的特点：简短、实时、多样，传统的情感分析方法不适用于微博数据集。并且，目前中文文本的短文本情感分类大部分是情感的粗粒度分类，但是因为用户表达的情感是丰富多样的，在140字以内的微博中，可能是“厌烦”，可能是“悲伤”，也可能是“愤怒”，单单的粗粒度的“消极”不能表达出用户的具体情感，这使得原来的粗粒度的情感分类方法不能适用于新的情感分类任务中。因此，研究适合微博的情感细粒度分类方法非常重要。

同时电商评论的标记数据匮乏，导致训练模型的不充分。微博文本与电商文本之间存在共性，那么能否利用已经标记好的微博数据，通过某种实例迁移的方法将已标注微博数据扩充到电商的评论集中，增大电商评论的训练集，改善电商评论因为训练集小分类器训练不充分而导致的分类准确率低的问题。

发明内容

针对现有技术存在的问题，本发明提供一种基于深度学习的社交网络文本情感细粒度分类方法，使用基于word2vec和卷积神经网络的方法来完成对社交网络文本进行细粒度情感分析的任务，同时通过实例迁移的方法将微博数据迁移到社交网络文本评论平台增加社交网络的训练集，提升社交网络评价文本分类器的训练效果。

一种基于深度学习的社交网络文本情感细粒度分类方法，具体步骤如下：

步骤1：对待分类的社交网络文本数据进行获取并对数据进行预训练处理；

步骤2：利用CNN模型对预训练处理后的社交网络文本数据进行文本情感细粒度分类；

步骤3：采用二轮抽样的方法，通过对社交网络文本的实例迁移，对社交网络评价文本训练集的补充，提升社交网络评价文本分类的准确性；

步骤4：对社交网络评价文本分析结果进行数据显示，实现基于深度学习的社交网络文本情感细粒度分类系统的可视化显示功能。

步骤1的具体步骤为：

步骤1.1：利用Scrapy框架爬取社交网络文本数据，提取出社交网络文本数据中的各个句子；

步骤1.2：采用三轮数据清洗法对提取到的社交网络文本数据进行过滤；

所述三轮数据清洗法的具体过程如下：第一轮清洗，过滤掉社交网络文本数据中的垃圾文本数据；第二轮清洗，过滤掉社交网络文本数据中纯转发而不评论和回复、重复发布的文本数据；第三轮清洗，过滤掉转发的社交网络文本数据，只保留原创性的社交网络文本数据；

步骤1.3：对过滤后的社交网络文本数据进行分词，得到含有g个句子的社交网络文本集合G＝{d₁,...,d_i,...,d_g}；

步骤1.4：按照篇章对社交网络文本集合G进行处理，得到g个由词组成的集合d_i＝{w₁,...,w_j,...,w_n}，其中，w_j为句子中的第j个单词，然后将第i个集合d_i中的每一个单词w_n送入到word2vec进行词向量的预训练，使其转化为R^n×1空间中的特征向量f_i＝(m_i1,...,m_ij,...,m_in)，将特征向量f_i由上至下串联得到g个集合d_i的R^g×n维特征矩阵F_i。

步骤2的具体步骤为：

步骤2.1：设置CNN模型嵌入层的维数为特征矩阵F_i的维数n，宽度为特征矩阵F_i的最大宽度Max_d记为Md，卷积层卷积核C_i的宽度为k；

步骤2.2：将R^g×n维特征矩阵F_i作为CNN模型嵌入层的输入，不足嵌入层宽度的向量矩阵自动补零，在CNN模型的卷积层利用卷积核C_i与特征矩阵F_i从上至下的Md-k+1个子矩阵T_p∈R^k×n分别进行卷积操作，得到卷积矩阵S₁，...，S_i，...，S_g，其中，p∈[1，Md-k+1]；

所述卷积操作的公式如下：

A_g×n*B_g×n＝sigmod(∑_{p∈[1，g]，q∈[1，n]}(a_pq×b_pq+bias_pq)) (1)

其中，A_g×n、B_g×n均表示一个g列n行的矩阵，a_pq为矩阵A_g×n中第p列第q行的元素，b_pq为矩阵B_g×n中第p列第q行的元素，bias_pq是偏置矩阵的一个分量；sigmod函数的作用是对特征值归一化；

步骤2.3：文本d_i的特征矩阵F_i与任意一个卷积核C_i均进行Md-k+1次卷积操作，得到卷积矩阵S₁，S₂，S₃，....S_m；在CNN模型的池化层对得到卷积矩阵S₁，...，S_i，...，S_g进行池化操作，简化降维后得到R^g×1的空间特征向量P_i＝(p₁，...，p_i，...，p_m)，即抽取出的高效情感特征，池化运算公式为：

pooling(S_(d-k+1)×1)＝β(s₁，s₂，…，s_d-k+1) (3)

其中β代表的运算可以是平均值池化、最小值池化、最大值池化等方式；经过池化操作后每一个卷积矩阵都变为一个具体的特征数值，m个卷积矩阵得到一个R^m×1的空间特征向量P_i＝(p₁，p₂，p₃…，p_m)，然后将其送入分类器中，训练分类器计算具体的情感类别；

步骤2.4：将特征向量P_i＝(p₁，...，p_j，...，p_m)送入CNN模型的全连接层，利用softmax函数得到第m个特征向量p_m的函数值y_i；

所述第m个特征向量p_m的函数值y_i的计算公式如下：

y_i＝softmax(p_m) (4)

其中，y_i为第m个特征向量p_m对应第i类情感的概率；

步骤2.5：采用梯度下降法对CNN模型的权值和偏置进行更新；

所述对CNN模型的权值和偏置进行更新的方法如下：通过计算卷积层和全连接层的权值差与偏置差的键值对<w,Δw>、<b,Δb>，对函数值y_i进行更新，直到找到CNN模型的权值和偏置的全局最优解时结束对CNN模型的训练，并更新整个CNN模型的权值和偏置；

所述对函数值y_i进行更新的公式如下：

其中，E为CNN模型各层之间的权重值，e_i代表文本d_i的情感标注标签，(d₁,e₁)，(d₂,e₂)，…，(d_i,e_i)即为组成CNN模型训练集S_tr的元素；

步骤2.6：将特征向量P_i＝(p₁,...,p_j,...,p_m)送入CNN模型的分类器中进行训练，得到分词后各文本数据的具体情感类别。

步骤3的具体步骤为：

步骤3.1：定义频繁特征和连接特征，分别构造源域的频繁特征集F_s和目标域的频繁特征集F_t，取其交集F＝F_t∩F_s，针对每种情感e_i和频繁特征交集F中的每个特征f进行PMI计算；所述频繁特征为在微博领域和电商评论领域都频繁出现、并且频数达到一定阈值的特征；所述连接特征为在两个领域同时出现的频繁特征称；

所述PMI计算的公式如下：

其中，PMI(f,e)为衡量特征f和情感e_i是否具有相关性的判定条件，P(f)和P(e)分别表示特征f和情感e出现的频率，P(f,e)表示特征f和情感e同时出现的概率；

步骤3.2：判断PMI(f,e)是否大于0，若是，则表示特征f和情感e_i具有正相关，选择与源域和目标域情感正相关的特征加入到连接特征集同时，选择含有连接特征集中包含的文本的社交网络数据加入到集合S中，作为第一轮抽样的结果，若否，则表示特征f和情感e_i不具有正相关，将特征f对应的文本数据舍弃；

步骤3.3：定义集合PFN为某一情感既出现在该情感的正向样本中，也出现在该情感的负向样本中的频繁特征集，在第一轮抽样结果的基础上，寻找目标域中既出现在正向样本，又出现在负向样本的频繁特征进行二次抽样；

步骤3.4：判断集合S中的每个文本s是否含有小于阈值NOSS的特征，若是，则将文本s加入到集合S’中，作为第二轮抽样的结果，若否，则将文本s舍弃；所述阈值NOSS为某一文本的特征向量与PFN相重的特征个数；

步骤3.5：取集合S’与社交网络平台的评论文本集的并集D，采用集合D对CNN模型进行训练，提升社交网络文本分类的准确性。

步骤4的具体步骤为：

步骤4.1：采用MVC三层架构，设计由四部分构成的结果展示模块：单文本情感细粒度分类系统，主要分为单文本输入模块、文本分词显示模块、情感分类结果显示模块；

步骤4.2：针对单文本/多文本情感细粒度分类、跨平台迁移学习文本情感细粒度分类、社交网络文本的热度地图等三方面功能对界面进行设计。

本发明的有益效果：本发明提出一种基于深度学习的社交网络文本情感细粒度分类方法，可以较大程度提升社交网络文本情感细粒度分类的准确性，同时通过对不同方法的优缺点比较以及局限性分析，证明了该方法在中文微博情感细分类的可行性和有效性。

附图说明

图1为本发明实施例中基于深度学习的社交网络文本情感细粒度分类方法的总体框图；

图2为本发明实施例中数据清洗框架；

图3为本发明实施例中词预训练方式对分类准确性的影响；

图4为本发明实施例中学习率对情感分类准确性影响的变化曲线；

图5为本发明实施例中向量维度对情感分类准确性影响的变化曲线；

图6为本发明实施例中卷积核数量对情感分类准确性影响的变化曲线；

图7为本发明实施例中卷积核大小对情感分类准确性影响的变化曲线；

图8为本发明实施例中池化方式对比实验的条形分布直方图；

图9为本发明实施例中迁移学习分类算法对比实验。

具体实施方式

为了使本发明的目的、技术方案及优势更加清晰，下面结合附图和具体实施例对本发明做进一步详细说明。此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

一种基于深度学习的社交网络文本情感细粒度分类方法，流程如图1所示，包括如下步骤：

步骤1.1：利用Scrapy框架爬取社交网络文本数据，本实施例中选择新浪微博数据；通过Item Pipeline处理被spider提取出来的item，处理包含清理、验证及持久化，该处理起到将爬取到的有用数据下载到本地数据库，并且持久化的作用；

所述三轮数据清洗法的具体过程图2所示：第一轮清洗，过滤掉社交网络文本数据中的垃圾文本数据；第二轮清洗，过滤掉社交网络文本数据中纯转发而不评论和回复、重复发布的文本数据；第三轮清洗，过滤掉转发的社交网络文本数据，只保留原创性的社交网络文本数据。

步骤1.3：本实施例选用ICTCLAS做为分词工具，对过滤后的社交网络文本数据进行分词，得到含有g个句子的社交网络文本集合G＝{d₁,...,d_i,...,d_g}；

步骤1.4：按照篇章对社交网络文本集合G进行处理，得到g个由词组成的集合d_i＝{w₁,...,w_j,...,w_n}，其中，w_j为句子中的第j个单词，然后将第i个集合d_i中的每一个单词w_n送入到word2vec进行词向量的预训练，使其转化为R^n×1空间中的特征向量f_i＝(m_i1,...,m_ij,...,m_in)，将特征向量f_i由上至下串联得到g个集合d_i的R^g×n维特征矩阵F_i；

本实施例中爬取90000条微博文本和6037条京东商城对iphone8手机的评论信息，经过三轮数据清洗，最终选取13500条高质量情感微博和4194条电商评论，并对其进行人工细粒度情感标注。情感8分类的具体划分方法是：

表1情感8分类标准

经过数据清洗及标注后得到如下结果：

表2实验数据集情感分布

步骤2.2：将R^g×n维特征矩阵F_i作为CNN模型嵌入层的输入，不足嵌入层宽度的向量矩阵自动补零，在CNN模型的卷积层利用卷积核C_i与特征矩阵F_i从上至下的Md-k+1个子矩阵T_p∈R^k×n分别进行卷积操作，得到卷积矩阵S₁，..，S_i，...，S_g，其中，p∈[1，Md-k+1]；

所述卷积操作的公式如下：

A_g×n*B_g×n＝sigmod(∑_{p∈[1，g]，q∈[1，n]}(a_pq×b_pq+bias_pq)) (1)

步骤2.3：文本d_i的特征矩阵F_i与任意一个卷积核C_i均进行Md-k+1次卷积操作，得到卷积矩阵S₁，S₂，S₃，....S_m；在CNN模型的池化层对得到卷积矩阵S₁，...，S_i，...，S_g进行池化操作，简化降维后得到R^g×1的空间特征向量P_i＝(p₁，...p_j，...p_m)，即抽取出的高效情感特征，池化运算公式为：

pooling(S_(d-k+1)×1)＝β(s₁，s₂，…，s_d-k+1) (3)

所述第m个特征向量p_m的函数值y_i的计算公式如下：

y_i＝softmax(p_m) (4)

其中，y_i为第m个特征向量p_m对应第i类情感的概率，概率最大的则对应为相应的感情；

步骤2.5：采用梯度下降法对CNN模型的权值和偏置进行更新；

所述对CNN模型的权值和偏置进行更新的方法如下：通过缩小准确值与期望值之间的误差来调整各层之间转移矩阵的权重值，同时记录每次卷积层和全连接层的权值差与偏置差的键值对〈w，Δw>、〈b，Δb>；通过计算卷积层和全连接层的权值差与偏置差的键值对〈w，Δw>、〈b，Δb>，对函数值y_i进行更新，直到找到CNN模型的权值和偏置的全局最优解时结束对CNN模型的训练，并更新整个CNN模型的权值和偏置；

所述“准确值”是指经过网络计算后所得出的实际输出值，“期望值”是指由数据标签得到的真实值，也可以认为是标准答案。在反向传播时，将输出误差(也就是准确值与期望值之差)按照原通路反传计算，将误差分摊给各层的各个单元，获得各层各单元的误差信号，并将其作为修正各单元权值的根据，最终使误差信号减小到最低限度。

所述对函数值y_i进行更新的公式如下：

其中，E为CNN模型各层之间的权重值，e_i代表文本d_i的情感标注标签，(d₁，e₁)，(d₂，e₂)，...，(d_i，e_i)即为组成CNN模型训练集S_tr的元素；

步骤2.6：将特征向量P_i＝(p₁，...p_j，...p_m)送入CNN模型的分类器中进行训练，得到分词后各文本数据的具体情感类别；

本实施例中，如图3所示，预训练方式不同会影响分类结果的准确性，将清洗后的文本送入到ICTCLAS进行分词，将分词结果用word2vec进行词向量转化。由微博文本d_i形成的R^d×n的特征矩阵F_i作为CNN的输入S_tr＝{(d₁，e₁)，(d₂，e₂)...(d_i，e_i)。由公式(1)至公式(5)进行CNN的前向传播和反向传播训练过程来对模型进行训练。

步骤3：采用二轮抽样的方法，通过对社交网络文本的实例迁移，对电商评价文本训练集的补充，提升电商文本分类的准确性；

所述PMI计算的公式如下：

其中，PMI(f，e)为衡量特征f和情感e_i是否具有相关性的判定条件，P(f)和P(e)分别表示特征f和情感e出现的频率，P(f，e)表示特征f和情感e同时出现的概率；

步骤3.5：取集合S’与电商平台的评论文本集的并集D，采用集合D对CNN模型进行训练，提升电商文本分类的准确性。

图4～图7分别为学习率、向量维度、卷积核数量、卷积核大小对情感分类准确性的影响，图8为池化方式对比实验的条形分布。本实施例以设置对比实验为原则，根据实验数据将待调优的5个超参数，学习率(Learning_rate)、卷积核数目(FilterNumber)、卷积核大小(FilterSize)、池化方法(Pooling)、训练词向量维度(Embedding_dim)的最优值设置为：

表3 CNN最优参数设置

步骤4：对通过以上步骤得到的分析结果进行数据可视化展示；

步骤4.1：采用MVC三层架构，设计由四部分构成的结果展示模块：单文本情感细粒度分类系统，主要分为单文本输入模块、文本分词显示模块、情感分类结果显示模块；多文本情感细粒度分类系统，主要分为多文本输入模块、多文本分词显示模块、多文本细粒度情感分布饼状图显示模块；社交网络文本的热度地图，主要是以地图的形式对社交网络文本的活跃度进行展示，活跃度越高，圆圈颜色越红，数值越大；实例迁移跨领域文本分类系统，主要是对非社交网络领域的商品评价系统进行细粒度分类。可以分为汽车、电影、音乐、电子等领域，对不同领域的评价均可以进行细粒度的情感分类，进而体现卷积神经网络的细粒度情感分类的迁移学习的能力。

步骤4.2：针对单文本/多文本情感细粒度分类、跨平台迁移学习文本情感细粒度分类、社交网络文本的热度地图等三方面功能对界面进行设计。饼状图来源于E-charts的图表库，将图表库的图表与本文提供的数据进行连接后，就可以展示本文的饼状图和微博热度地图的相关功能。

本实施例中实现对电商评论情感分类的迁移学习。对微博文本数据进行二次抽样后，剩下的只适用于电商评论的高质量的数据数量为：

表3二次抽样后微博数据

筛选出样本后进行对比实验，分别选择只使用电商数据、使用电商数据+未抽样的微博数据、使用电商数据+二次抽样的微博数据三种组合作为训练集，对电商评论做情感分类预测，迁移学习分类算法对比实验如图9所示。三种情况下的分类结果为：

表4不同训练集对比实验结果

将进行过二次抽样的微博数据加入到电商评论的训练集中，比只用电商数据作为训练集，分类器的分类效果提升了3.6％，从而证明了实例的迁移的有效性。另外将本发明方法与SVM的情感细粒度分类准确性进行比较：

表5 CNN与SVM的细粒度分类准确性比较

基于CNN-word2vec的方法相比于经典的机器学习方法在准确率上提升了2.8％，说明本发明方法更适合于情感的多分类问题。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；因而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于深度学习的社交网络文本情感细粒度分类方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的社交网络文本情感细粒度分类方法，其特征在于：所述步骤1的具体步骤为：

3.根据权利要求1所述的一种基于深度学习的社交网络文本情感细粒度分类方法，其特征在于：所述步骤2的具体步骤为：

步骤2.2：将R^g×n维特征矩阵F_i作为CNN模型嵌入层的输入，不足嵌入层宽度的向量矩阵自动补零，在CNN模型的卷积层利用卷积核C_i与特征矩阵F_i从上至下的Md-k+1个子矩阵T_p∈R^k×n分别进行卷积操作，得到卷积矩阵S₁,...,S_i,...,S_g，其中，p∈[1,Md-k+1]；

所述卷积操作的公式如下：

A_g×n*B_g×n＝sigmod(∑_{p∈[1,g],q∈[1,n]}(a_pq×b_pq+bias_pq)) (1)

步骤2.3：文本d_i的特征矩阵F_i与任意一个卷积核C_i均进行Md-k+1次卷积操作，得到卷积矩阵S₁，S₂，S₃，...，S_m；在CNN模型的池化层对得到卷积矩阵S₁,...,S_i,...,S_g进行池化操作，简化降维后得到R^g×1的空间特征向量P_i＝(p₁,...,p_j,...,p_m)，即抽取出的高效情感特征，池化运算公式为：

pooling(S_(d-k+1)×1)＝β(s₁，s₂，…，s_d-k+1) (3)

步骤2.4：将特征向量P_i＝(p₁,...,p_j,...,p_m)送入CNN模型的全连接层，利用softmax函数得到第m个特征向量p_m的函数值y_i；

所述第m个特征向量p_m的函数值y_i的计算公式如下：

y_i＝softmax(p_m) (4)

其中，y_i为第m个特征向量p_m对应第i类情感的概率；

步骤2.5：采用梯度下降法对CNN模型的权值和偏置进行更新；

所述对函数值y_i进行更新的公式如下：

4.根据权利要求1所述的一种基于深度学习的社交网络文本情感细粒度分类方法，其特征在于：所述步骤3的具体步骤为：

步骤3.1：定义频繁特征和连接特征，分别构造源域的频繁特征集F_s和目标域的频繁特征集F_t，取其交集F＝F_t∩F_s，针对每种情感e_i和频繁特征交集F中的每个特征f进行PMI计算；所述频繁特征为在社交网络文本领域和社交网络评论领域都频繁出现、并且频数达到一定阈值的特征；所述连接特征为在两个领域同时出现的频繁特征称；

所述PMI计算的公式如下：

5.根据权利要求1所述的一种基于深度学习的社交网络文本情感细粒度分类方法，其特征在于：所述步骤4的具体步骤为：