CN110472115A - 一种基于深度学习的社交网络文本情感细粒度分类方法 - Google Patents
一种基于深度学习的社交网络文本情感细粒度分类方法 Download PDFInfo
- Publication number
- CN110472115A CN110472115A CN201910728636.0A CN201910728636A CN110472115A CN 110472115 A CN110472115 A CN 110472115A CN 201910728636 A CN201910728636 A CN 201910728636A CN 110472115 A CN110472115 A CN 110472115A
- Authority
- CN
- China
- Prior art keywords
- text
- social networks
- emotion
- feature
- cnn model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 39
- 230000002996 emotional effect Effects 0.000 claims abstract description 22
- 238000005070 sampling Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims abstract description 12
- 238000013526 transfer learning Methods 0.000 claims abstract description 9
- 238000013508 migration Methods 0.000 claims abstract description 8
- 230000005012 migration Effects 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 238000013461 design Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 42
- 238000004140 cleaning Methods 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000003780 insertion Methods 0.000 claims description 6
- 230000037431 insertion Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 239000000047 product Substances 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 10
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 230000011218 segmentation Effects 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 36
- 238000002474 experimental method Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 6
- 244000097202 Rathbunia alamosensis Species 0.000 description 2
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000002688 persistence Effects 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于深度学习的社交网络文本情感细粒度分类方法,涉及情感多分类领域,本发明使用Scrapy框架爬取社交网络文本数据,进行数据清洗、分词,将分词结果作为word2vec的输入进行词向量转化;基于CNN模型进行文本的情感8分类,将词向量转化结果作为CNN嵌入层的输入,进行卷积、池化、概率计算等前向、反向传播过程训练模型,实现对网络评论情感分类的迁移学习,对社交网络文本进行二轮抽样实现实例迁移、训练分类器,并对评论进行情感预测;对前述工作进行系统设计,对分析结果进行可视化展示,利用MVC三层架构设计展示模块,并针对单文本或多文本情感细粒度分类、跨平台迁移学习文本情感细粒度分类、社交网络热度地图等三方面功能对界面进行设计。
Description
技术领域
本发明涉及情感多分类技术领域,具体涉及一种基于深度学习的社交网络文本情感细粒度分类方法。
背景技术
随着互联网和移动设备的爆发式发展,人与人之间的互动和联系越来越依赖于社交网络。这些社交网站给人们的生活带来了翻天覆地的变化,巨大地便利了人们之间的联系。社交网络如国内的新浪微博、腾讯微博、百度贴吧、微信朋友圈,国外的Facebook、Twitter、Instagram,已是现代人日常生活中必不可少的一部分。2017年8月9日,微博发布了2017年第二季度及全年财报。财报显示,微博的用户规模、活跃度和收入均实现高速增长。截止二季度末,微博月活跃用户达到3.61亿,同比增长28%,日活跃用户达到1.59亿,同比增长26%。毋庸置疑,微博作为社交网络重要的成员之一,正在改变着现代人的生活方式。越来越多的人借助微博这一社交网络平台表达或分享自己的情感、观点和建议。
社交网络改变了信息传播的方式,扩大了信息的传播范围,改变了人们的交流方式。在社交网络中人们可以在浏览各种文本、视频、图片信息的同时也可以表达自己的看法。而挖掘社交网络的情感并且进行情感分析,对于诸多应用领域比如电子商务、舆情分析、推荐系统、心理健康等均有重要的现实意义。比如在电子商务领域,可以通过对商品评价的文本进行情感分析,发现用户对产品的情感倾向,以利于厂家对商品做出积极的改进。在网络舆情方面,可以通过分析微博用户对热点事件或热点话题做出相应的情感分析,进而了解用户所要表达的舆情和民声,有助于政府做出有效的应对措施。由此可见,社交网络情感分析具有重要的理论研究以及实际应用价值。
微博作为一种重要的社交网络形式,每天会产生大量的数据,仅靠人工的方法来收集以及分析这些数据的情感费时费力。与此同时,因为与传统的社交媒体(博客、贴吧等)相比,微博有很多其自身的特点:简短、实时、多样,传统的情感分析方法不适用于微博数据集。并且,目前中文文本的短文本情感分类大部分是情感的粗粒度分类,但是因为用户表达的情感是丰富多样的,在140字以内的微博中,可能是“厌烦”,可能是“悲伤”,也可能是“愤怒”,单单的粗粒度的“消极”不能表达出用户的具体情感,这使得原来的粗粒度的情感分类方法不能适用于新的情感分类任务中。因此,研究适合微博的情感细粒度分类方法非常重要。
同时电商评论的标记数据匮乏,导致训练模型的不充分。微博文本与电商文本之间存在共性,那么能否利用已经标记好的微博数据,通过某种实例迁移的方法将已标注微博数据扩充到电商的评论集中,增大电商评论的训练集,改善电商评论因为训练集小分类器训练不充分而导致的分类准确率低的问题。
发明内容
针对现有技术存在的问题,本发明提供一种基于深度学习的社交网络文本情感细粒度分类方法,使用基于word2vec和卷积神经网络的方法来完成对社交网络文本进行细粒度情感分析的任务,同时通过实例迁移的方法将微博数据迁移到社交网络文本评论平台增加社交网络的训练集,提升社交网络评价文本分类器的训练效果。
一种基于深度学习的社交网络文本情感细粒度分类方法,具体步骤如下:
步骤1:对待分类的社交网络文本数据进行获取并对数据进行预训练处理;
步骤2:利用CNN模型对预训练处理后的社交网络文本数据进行文本情感细粒度分类;
步骤3:采用二轮抽样的方法,通过对社交网络文本的实例迁移,对社交网络评价文本训练集的补充,提升社交网络评价文本分类的准确性;
步骤4:对社交网络评价文本分析结果进行数据显示,实现基于深度学习的社交网络文本情感细粒度分类系统的可视化显示功能。
步骤1的具体步骤为:
步骤1.1:利用Scrapy框架爬取社交网络文本数据,提取出社交网络文本数据中的各个句子;
步骤1.2:采用三轮数据清洗法对提取到的社交网络文本数据进行过滤;
所述三轮数据清洗法的具体过程如下:第一轮清洗,过滤掉社交网络文本数据中的垃圾文本数据;第二轮清洗,过滤掉社交网络文本数据中纯转发而不评论和回复、重复发布的文本数据;第三轮清洗,过滤掉转发的社交网络文本数据,只保留原创性的社交网络文本数据;
步骤1.3:对过滤后的社交网络文本数据进行分词,得到含有g个句子的社交网络文本集合G={d1,...,di,...,dg};
步骤1.4:按照篇章对社交网络文本集合G进行处理,得到g个由词组成的集合di={w1,...,wj,...,wn},其中,wj为句子中的第j个单词,然后将第i个集合di中的每一个单词wn送入到word2vec进行词向量的预训练,使其转化为Rn×1空间中的特征向量fi=(mi1,...,mij,...,min),将特征向量fi由上至下串联得到g个集合di的Rg×n维特征矩阵Fi。
步骤2的具体步骤为:
步骤2.1:设置CNN模型嵌入层的维数为特征矩阵Fi的维数n,宽度为特征矩阵Fi的最大宽度Max_d记为Md,卷积层卷积核Ci的宽度为k;
步骤2.2:将Rg×n维特征矩阵Fi作为CNN模型嵌入层的输入,不足嵌入层宽度的向量矩阵自动补零,在CNN模型的卷积层利用卷积核Ci与特征矩阵Fi从上至下的Md-k+1个子矩阵Tp∈Rk×n分别进行卷积操作,得到卷积矩阵S1,...,Si,...,Sg,其中,p∈[1,Md-k+1];
所述卷积操作的公式如下:
Ag×n*Bg×n=sigmod(∑p∈[1,g],q∈[1,n](apq×bpq+biaspq)) (1)
其中,Ag×n、Bg×n均表示一个g列n行的矩阵,apq为矩阵Ag×n中第p列第q行的元素,bpq为矩阵Bg×n中第p列第q行的元素,biaspq是偏置矩阵的一个分量;sigmod函数的作用是对特征值归一化;
步骤2.3:文本di的特征矩阵Fi与任意一个卷积核Ci均进行Md-k+1次卷积操作,得到卷积矩阵S1,S2,S3,....Sm;在CNN模型的池化层对得到卷积矩阵S1,...,Si,...,Sg进行池化操作,简化降维后得到Rg×1的空间特征向量Pi=(p1,...,pi,...,pm),即抽取出的高效情感特征,池化运算公式为:
pooling(S(d-k+1)×1)=β(s1,s2,…,sd-k+1) (3)
其中β代表的运算可以是平均值池化、最小值池化、最大值池化等方式;经过池化操作后每一个卷积矩阵都变为一个具体的特征数值,m个卷积矩阵得到一个Rm×1的空间特征向量Pi=(p1,p2,p3…,pm),然后将其送入分类器中,训练分类器计算具体的情感类别;
步骤2.4:将特征向量Pi=(p1,...,pj,...,pm)送入CNN模型的全连接层,利用softmax函数得到第m个特征向量pm的函数值yi;
所述第m个特征向量pm的函数值yi的计算公式如下:
yi=softmax(pm) (4)
其中,yi为第m个特征向量pm对应第i类情感的概率;
步骤2.5:采用梯度下降法对CNN模型的权值和偏置进行更新;
所述对CNN模型的权值和偏置进行更新的方法如下:通过计算卷积层和全连接层的权值差与偏置差的键值对<w,Δw>、<b,Δb>,对函数值yi进行更新,直到找到CNN模型的权值和偏置的全局最优解时结束对CNN模型的训练,并更新整个CNN模型的权值和偏置;
所述对函数值yi进行更新的公式如下:
其中,E为CNN模型各层之间的权重值,ei代表文本di的情感标注标签,(d1,e1),(d2,e2),…,(di,ei)即为组成CNN模型训练集Str的元素;
步骤2.6:将特征向量Pi=(p1,...,pj,...,pm)送入CNN模型的分类器中进行训练,得到分词后各文本数据的具体情感类别。
步骤3的具体步骤为:
步骤3.1:定义频繁特征和连接特征,分别构造源域的频繁特征集Fs和目标域的频繁特征集Ft,取其交集F=Ft∩Fs,针对每种情感ei和频繁特征交集F中的每个特征f进行PMI计算;所述频繁特征为在微博领域和电商评论领域都频繁出现、并且频数达到一定阈值的特征;所述连接特征为在两个领域同时出现的频繁特征称;
所述PMI计算的公式如下:
其中,PMI(f,e)为衡量特征f和情感ei是否具有相关性的判定条件,P(f)和P(e)分别表示特征f和情感e出现的频率,P(f,e)表示特征f和情感e同时出现的概率;
步骤3.2:判断PMI(f,e)是否大于0,若是,则表示特征f和情感ei具有正相关,选择与源域和目标域情感正相关的特征加入到连接特征集同时,选择含有连接特征集中包含的文本的社交网络数据加入到集合S中,作为第一轮抽样的结果,若否,则表示特征f和情感ei不具有正相关,将特征f对应的文本数据舍弃;
步骤3.3:定义集合PFN为某一情感既出现在该情感的正向样本中,也出现在该情感的负向样本中的频繁特征集,在第一轮抽样结果的基础上,寻找目标域中既出现在正向样本,又出现在负向样本的频繁特征进行二次抽样;
步骤3.4:判断集合S中的每个文本s是否含有小于阈值NOSS的特征,若是,则将文本s加入到集合S’中,作为第二轮抽样的结果,若否,则将文本s舍弃;所述阈值NOSS为某一文本的特征向量与PFN相重的特征个数;
步骤3.5:取集合S’与社交网络平台的评论文本集的并集D,采用集合D对CNN模型进行训练,提升社交网络文本分类的准确性。
步骤4的具体步骤为:
步骤4.1:采用MVC三层架构,设计由四部分构成的结果展示模块:单文本情感细粒度分类系统,主要分为单文本输入模块、文本分词显示模块、情感分类结果显示模块;
步骤4.2:针对单文本/多文本情感细粒度分类、跨平台迁移学习文本情感细粒度分类、社交网络文本的热度地图等三方面功能对界面进行设计。
本发明的有益效果:本发明提出一种基于深度学习的社交网络文本情感细粒度分类方法,可以较大程度提升社交网络文本情感细粒度分类的准确性,同时通过对不同方法的优缺点比较以及局限性分析,证明了该方法在中文微博情感细分类的可行性和有效性。
附图说明
图1为本发明实施例中基于深度学习的社交网络文本情感细粒度分类方法的总体框图;
图2为本发明实施例中数据清洗框架;
图3为本发明实施例中词预训练方式对分类准确性的影响;
图4为本发明实施例中学习率对情感分类准确性影响的变化曲线;
图5为本发明实施例中向量维度对情感分类准确性影响的变化曲线;
图6为本发明实施例中卷积核数量对情感分类准确性影响的变化曲线;
图7为本发明实施例中卷积核大小对情感分类准确性影响的变化曲线;
图8为本发明实施例中池化方式对比实验的条形分布直方图;
图9为本发明实施例中迁移学习分类算法对比实验。
具体实施方式
为了使本发明的目的、技术方案及优势更加清晰,下面结合附图和具体实施例对本发明做进一步详细说明。此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
一种基于深度学习的社交网络文本情感细粒度分类方法,流程如图1所示,包括如下步骤:
步骤1:对待分类的社交网络文本数据进行获取并对数据进行预训练处理;
步骤1.1:利用Scrapy框架爬取社交网络文本数据,本实施例中选择新浪微博数据;通过Item Pipeline处理被spider提取出来的item,处理包含清理、验证及持久化,该处理起到将爬取到的有用数据下载到本地数据库,并且持久化的作用;
步骤1.2:采用三轮数据清洗法对提取到的社交网络文本数据进行过滤;
所述三轮数据清洗法的具体过程图2所示:第一轮清洗,过滤掉社交网络文本数据中的垃圾文本数据;第二轮清洗,过滤掉社交网络文本数据中纯转发而不评论和回复、重复发布的文本数据;第三轮清洗,过滤掉转发的社交网络文本数据,只保留原创性的社交网络文本数据。
步骤1.3:本实施例选用ICTCLAS做为分词工具,对过滤后的社交网络文本数据进行分词,得到含有g个句子的社交网络文本集合G={d1,...,di,...,dg};
步骤1.4:按照篇章对社交网络文本集合G进行处理,得到g个由词组成的集合di={w1,...,wj,...,wn},其中,wj为句子中的第j个单词,然后将第i个集合di中的每一个单词wn送入到word2vec进行词向量的预训练,使其转化为Rn×1空间中的特征向量fi=(mi1,...,mij,...,min),将特征向量fi由上至下串联得到g个集合di的Rg×n维特征矩阵Fi;
本实施例中爬取90000条微博文本和6037条京东商城对iphone8手机的评论信息,经过三轮数据清洗,最终选取13500条高质量情感微博和4194条电商评论,并对其进行人工细粒度情感标注。情感8分类的具体划分方法是:
表1情感8分类标准
经过数据清洗及标注后得到如下结果:
表2实验数据集情感分布
步骤2:利用CNN模型对预训练处理后的社交网络文本数据进行文本情感细粒度分类;
步骤2.1:设置CNN模型嵌入层的维数为特征矩阵Fi的维数n,宽度为特征矩阵Fi的最大宽度Max_d记为Md,卷积层卷积核Ci的宽度为k;
步骤2.2:将Rg×n维特征矩阵Fi作为CNN模型嵌入层的输入,不足嵌入层宽度的向量矩阵自动补零,在CNN模型的卷积层利用卷积核Ci与特征矩阵Fi从上至下的Md-k+1个子矩阵Tp∈Rk×n分别进行卷积操作,得到卷积矩阵S1,..,Si,...,Sg,其中,p∈[1,Md-k+1];
所述卷积操作的公式如下:
Ag×n*Bg×n=sigmod(∑p∈[1,g],q∈[1,n](apq×bpq+biaspq)) (1)
其中,Ag×n、Bg×n均表示一个g列n行的矩阵,apq为矩阵Ag×n中第p列第q行的元素,bpq为矩阵Bg×n中第p列第q行的元素,biaspq是偏置矩阵的一个分量;sigmod函数的作用是对特征值归一化;
步骤2.3:文本di的特征矩阵Fi与任意一个卷积核Ci均进行Md-k+1次卷积操作,得到卷积矩阵S1,S2,S3,....Sm;在CNN模型的池化层对得到卷积矩阵S1,...,Si,...,Sg进行池化操作,简化降维后得到Rg×1的空间特征向量Pi=(p1,...pj,...pm),即抽取出的高效情感特征,池化运算公式为:
pooling(S(d-k+1)×1)=β(s1,s2,…,sd-k+1) (3)
其中β代表的运算可以是平均值池化、最小值池化、最大值池化等方式;经过池化操作后每一个卷积矩阵都变为一个具体的特征数值,m个卷积矩阵得到一个Rm×1的空间特征向量Pi=(p1,p2,p3…,pm),然后将其送入分类器中,训练分类器计算具体的情感类别;
步骤2.4:将特征向量Pi=(p1,...,pj,...,pm)送入CNN模型的全连接层,利用softmax函数得到第m个特征向量pm的函数值yi;
所述第m个特征向量pm的函数值yi的计算公式如下:
yi=softmax(pm) (4)
其中,yi为第m个特征向量pm对应第i类情感的概率,概率最大的则对应为相应的感情;
步骤2.5:采用梯度下降法对CNN模型的权值和偏置进行更新;
所述对CNN模型的权值和偏置进行更新的方法如下:通过缩小准确值与期望值之间的误差来调整各层之间转移矩阵的权重值,同时记录每次卷积层和全连接层的权值差与偏置差的键值对〈w,Δw>、〈b,Δb>;通过计算卷积层和全连接层的权值差与偏置差的键值对〈w,Δw>、〈b,Δb>,对函数值yi进行更新,直到找到CNN模型的权值和偏置的全局最优解时结束对CNN模型的训练,并更新整个CNN模型的权值和偏置;
所述“准确值”是指经过网络计算后所得出的实际输出值,“期望值”是指由数据标签得到的真实值,也可以认为是标准答案。在反向传播时,将输出误差(也就是准确值与期望值之差)按照原通路反传计算,将误差分摊给各层的各个单元,获得各层各单元的误差信号,并将其作为修正各单元权值的根据,最终使误差信号减小到最低限度。
所述对函数值yi进行更新的公式如下:
其中,E为CNN模型各层之间的权重值,ei代表文本di的情感标注标签,(d1,e1),(d2,e2),...,(di,ei)即为组成CNN模型训练集Str的元素;
步骤2.6:将特征向量Pi=(p1,...pj,...pm)送入CNN模型的分类器中进行训练,得到分词后各文本数据的具体情感类别;
本实施例中,如图3所示,预训练方式不同会影响分类结果的准确性,将清洗后的文本送入到ICTCLAS进行分词,将分词结果用word2vec进行词向量转化。由微博文本di形成的Rd×n的特征矩阵Fi作为CNN的输入Str={(d1,e1),(d2,e2)...(di,ei)。由公式(1)至公式(5)进行CNN的前向传播和反向传播训练过程来对模型进行训练。
步骤3:采用二轮抽样的方法,通过对社交网络文本的实例迁移,对电商评价文本训练集的补充,提升电商文本分类的准确性;
步骤3.1:定义频繁特征和连接特征,分别构造源域的频繁特征集Fs和目标域的频繁特征集Ft,取其交集F=Ft∩Fs,针对每种情感ei和频繁特征交集F中的每个特征f进行PMI计算;所述频繁特征为在微博领域和电商评论领域都频繁出现、并且频数达到一定阈值的特征;所述连接特征为在两个领域同时出现的频繁特征称;
所述PMI计算的公式如下:
其中,PMI(f,e)为衡量特征f和情感ei是否具有相关性的判定条件,P(f)和P(e)分别表示特征f和情感e出现的频率,P(f,e)表示特征f和情感e同时出现的概率;
步骤3.2:判断PMI(f,e)是否大于0,若是,则表示特征f和情感ei具有正相关,选择与源域和目标域情感正相关的特征加入到连接特征集同时,选择含有连接特征集中包含的文本的社交网络数据加入到集合S中,作为第一轮抽样的结果,若否,则表示特征f和情感ei不具有正相关,将特征f对应的文本数据舍弃;
步骤3.3:定义集合PFN为某一情感既出现在该情感的正向样本中,也出现在该情感的负向样本中的频繁特征集,在第一轮抽样结果的基础上,寻找目标域中既出现在正向样本,又出现在负向样本的频繁特征进行二次抽样;
步骤3.4:判断集合S中的每个文本s是否含有小于阈值NOSS的特征,若是,则将文本s加入到集合S’中,作为第二轮抽样的结果,若否,则将文本s舍弃;所述阈值NOSS为某一文本的特征向量与PFN相重的特征个数;
步骤3.5:取集合S’与电商平台的评论文本集的并集D,采用集合D对CNN模型进行训练,提升电商文本分类的准确性。
图4~图7分别为学习率、向量维度、卷积核数量、卷积核大小对情感分类准确性的影响,图8为池化方式对比实验的条形分布。本实施例以设置对比实验为原则,根据实验数据将待调优的5个超参数,学习率(Learning_rate)、卷积核数目(FilterNumber)、卷积核大小(FilterSize)、池化方法(Pooling)、训练词向量维度(Embedding_dim)的最优值设置为:
表3 CNN最优参数设置
步骤4:对通过以上步骤得到的分析结果进行数据可视化展示;
步骤4.1:采用MVC三层架构,设计由四部分构成的结果展示模块:单文本情感细粒度分类系统,主要分为单文本输入模块、文本分词显示模块、情感分类结果显示模块;多文本情感细粒度分类系统,主要分为多文本输入模块、多文本分词显示模块、多文本细粒度情感分布饼状图显示模块;社交网络文本的热度地图,主要是以地图的形式对社交网络文本的活跃度进行展示,活跃度越高,圆圈颜色越红,数值越大;实例迁移跨领域文本分类系统,主要是对非社交网络领域的商品评价系统进行细粒度分类。可以分为汽车、电影、音乐、电子等领域,对不同领域的评价均可以进行细粒度的情感分类,进而体现卷积神经网络的细粒度情感分类的迁移学习的能力。
步骤4.2:针对单文本/多文本情感细粒度分类、跨平台迁移学习文本情感细粒度分类、社交网络文本的热度地图等三方面功能对界面进行设计。饼状图来源于E-charts的图表库,将图表库的图表与本文提供的数据进行连接后,就可以展示本文的饼状图和微博热度地图的相关功能。
本实施例中实现对电商评论情感分类的迁移学习。对微博文本数据进行二次抽样后,剩下的只适用于电商评论的高质量的数据数量为:
表3二次抽样后微博数据
筛选出样本后进行对比实验,分别选择只使用电商数据、使用电商数据+未抽样的微博数据、使用电商数据+二次抽样的微博数据三种组合作为训练集,对电商评论做情感分类预测,迁移学习分类算法对比实验如图9所示。三种情况下的分类结果为:
表4不同训练集对比实验结果
将进行过二次抽样的微博数据加入到电商评论的训练集中,比只用电商数据作为训练集,分类器的分类效果提升了3.6%,从而证明了实例的迁移的有效性。另外将本发明方法与SVM的情感细粒度分类准确性进行比较:
表5 CNN与SVM的细粒度分类准确性比较
基于CNN-word2vec的方法相比于经典的机器学习方法在准确率上提升了2.8%,说明本发明方法更适合于情感的多分类问题。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;因而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (5)
1.一种基于深度学习的社交网络文本情感细粒度分类方法,其特征在于:包括以下步骤:
步骤1:对待分类的社交网络文本数据进行获取并对数据进行预训练处理;
步骤2:利用CNN模型对预训练处理后的社交网络文本数据进行文本情感细粒度分类;
步骤3:采用二轮抽样的方法,通过对社交网络文本的实例迁移,对社交网络评价文本训练集的补充,提升社交网络评价文本分类的准确性;
步骤4:对社交网络评价文本分析结果进行数据显示,实现基于深度学习的社交网络文本情感细粒度分类系统的可视化显示功能。
2.根据权利要求1所述的一种基于深度学习的社交网络文本情感细粒度分类方法,其特征在于:所述步骤1的具体步骤为:
步骤1.1:利用Scrapy框架爬取社交网络文本数据,提取出社交网络文本数据中的各个句子;
步骤1.2:采用三轮数据清洗法对提取到的社交网络文本数据进行过滤;
所述三轮数据清洗法的具体过程如下:第一轮清洗,过滤掉社交网络文本数据中的垃圾文本数据;第二轮清洗,过滤掉社交网络文本数据中纯转发而不评论和回复、重复发布的文本数据;第三轮清洗,过滤掉转发的社交网络文本数据,只保留原创性的社交网络文本数据;
步骤1.3:对过滤后的社交网络文本数据进行分词,得到含有g个句子的社交网络文本集合G={d1,...,di,...,dg};
步骤1.4:按照篇章对社交网络文本集合G进行处理,得到g个由词组成的集合di={w1,...,wj,...,wn},其中,wj为句子中的第j个单词,然后将第i个集合di中的每一个单词wn送入到word2vec进行词向量的预训练,使其转化为Rn×1空间中的特征向量fi=(mi1,...,mij,...,min),将特征向量fi由上至下串联得到g个集合di的Rg×n维特征矩阵Fi。
3.根据权利要求1所述的一种基于深度学习的社交网络文本情感细粒度分类方法,其特征在于:所述步骤2的具体步骤为:
步骤2.1:设置CNN模型嵌入层的维数为特征矩阵Fi的维数n,宽度为特征矩阵Fi的最大宽度Max_d记为Md,卷积层卷积核Ci的宽度为k;
步骤2.2:将Rg×n维特征矩阵Fi作为CNN模型嵌入层的输入,不足嵌入层宽度的向量矩阵自动补零,在CNN模型的卷积层利用卷积核Ci与特征矩阵Fi从上至下的Md-k+1个子矩阵Tp∈Rk×n分别进行卷积操作,得到卷积矩阵S1,...,Si,...,Sg,其中,p∈[1,Md-k+1];
所述卷积操作的公式如下:
Ag×n*Bg×n=sigmod(∑p∈[1,g],q∈[1,n](apq×bpq+biaspq)) (1)
其中,Ag×n、Bg×n均表示一个g列n行的矩阵,apq为矩阵Ag×n中第p列第q行的元素,bpq为矩阵Bg×n中第p列第q行的元素,biaspq是偏置矩阵的一个分量;sigmod函数的作用是对特征值归一化;
步骤2.3:文本di的特征矩阵Fi与任意一个卷积核Ci均进行Md-k+1次卷积操作,得到卷积矩阵S1,S2,S3,...,Sm;在CNN模型的池化层对得到卷积矩阵S1,...,Si,...,Sg进行池化操作,简化降维后得到Rg×1的空间特征向量Pi=(p1,...,pj,...,pm),即抽取出的高效情感特征,池化运算公式为:
pooling(S(d-k+1)×1)=β(s1,s2,…,sd-k+1) (3)
其中β代表的运算可以是平均值池化、最小值池化、最大值池化等方式;经过池化操作后每一个卷积矩阵都变为一个具体的特征数值,m个卷积矩阵得到一个Rm×1的空间特征向量Pi=(p1,p2,p3…,pm),然后将其送入分类器中,训练分类器计算具体的情感类别;
步骤2.4:将特征向量Pi=(p1,...,pj,...,pm)送入CNN模型的全连接层,利用softmax函数得到第m个特征向量pm的函数值yi;
所述第m个特征向量pm的函数值yi的计算公式如下:
yi=softmax(pm) (4)
其中,yi为第m个特征向量pm对应第i类情感的概率;
步骤2.5:采用梯度下降法对CNN模型的权值和偏置进行更新;
所述对CNN模型的权值和偏置进行更新的方法如下:通过计算卷积层和全连接层的权值差与偏置差的键值对<w,Δw>、<b,Δb>,对函数值yi进行更新,直到找到CNN模型的权值和偏置的全局最优解时结束对CNN模型的训练,并更新整个CNN模型的权值和偏置;
所述对函数值yi进行更新的公式如下:
其中,E为CNN模型各层之间的权重值,ei代表文本di的情感标注标签,(d1,e1),(d2,e2),…,(di,ei)即为组成CNN模型训练集Str的元素;
步骤2.6:将特征向量Pi=(p1,...,pj,...,pm)送入CNN模型的分类器中进行训练,得到分词后各文本数据的具体情感类别。
4.根据权利要求1所述的一种基于深度学习的社交网络文本情感细粒度分类方法,其特征在于:所述步骤3的具体步骤为:
步骤3.1:定义频繁特征和连接特征,分别构造源域的频繁特征集Fs和目标域的频繁特征集Ft,取其交集F=Ft∩Fs,针对每种情感ei和频繁特征交集F中的每个特征f进行PMI计算;所述频繁特征为在社交网络文本领域和社交网络评论领域都频繁出现、并且频数达到一定阈值的特征;所述连接特征为在两个领域同时出现的频繁特征称;
所述PMI计算的公式如下:
其中,PMI(f,e)为衡量特征f和情感ei是否具有相关性的判定条件,P(f)和P(e)分别表示特征f和情感e出现的频率,P(f,e)表示特征f和情感e同时出现的概率;
步骤3.2:判断PMI(f,e)是否大于0,若是,则表示特征f和情感ei具有正相关,选择与源域和目标域情感正相关的特征加入到连接特征集同时,选择含有连接特征集中包含的文本的社交网络数据加入到集合S中,作为第一轮抽样的结果,若否,则表示特征f和情感ei不具有正相关,将特征f对应的文本数据舍弃;
步骤3.3:定义集合PFN为某一情感既出现在该情感的正向样本中,也出现在该情感的负向样本中的频繁特征集,在第一轮抽样结果的基础上,寻找目标域中既出现在正向样本,又出现在负向样本的频繁特征进行二次抽样;
步骤3.4:判断集合S中的每个文本s是否含有小于阈值NOSS的特征,若是,则将文本s加入到集合S’中,作为第二轮抽样的结果,若否,则将文本s舍弃;所述阈值NOSS为某一文本的特征向量与PFN相重的特征个数;
步骤3.5:取集合S’与社交网络平台的评论文本集的并集D,采用集合D对CNN模型进行训练,提升社交网络文本分类的准确性。
5.根据权利要求1所述的一种基于深度学习的社交网络文本情感细粒度分类方法,其特征在于:所述步骤4的具体步骤为:
步骤4.1:采用MVC三层架构,设计由四部分构成的结果展示模块:单文本情感细粒度分类系统,主要分为单文本输入模块、文本分词显示模块、情感分类结果显示模块;
步骤4.2:针对单文本/多文本情感细粒度分类、跨平台迁移学习文本情感细粒度分类、社交网络文本的热度地图等三方面功能对界面进行设计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910728636.0A CN110472115B (zh) | 2019-08-08 | 2019-08-08 | 一种基于深度学习的社交网络文本情感细粒度分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910728636.0A CN110472115B (zh) | 2019-08-08 | 2019-08-08 | 一种基于深度学习的社交网络文本情感细粒度分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110472115A true CN110472115A (zh) | 2019-11-19 |
CN110472115B CN110472115B (zh) | 2022-08-02 |
Family
ID=68511474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910728636.0A Active CN110472115B (zh) | 2019-08-08 | 2019-08-08 | 一种基于深度学习的社交网络文本情感细粒度分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472115B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046179A (zh) * | 2019-12-03 | 2020-04-21 | 哈尔滨工程大学 | 一种面向特定领域开放网络问句的文本分类方法 |
CN113731832A (zh) * | 2021-11-04 | 2021-12-03 | 南京信息工程大学 | 一种用于垃圾转运站的垃圾分拣处理方法和系统 |
CN116522908A (zh) * | 2023-07-04 | 2023-08-01 | 西安羚控电子科技有限公司 | 指挥控制系统消息管理方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8605996B2 (en) * | 2008-12-16 | 2013-12-10 | Microsoft Corporation | Sentiment classification using out of domain data |
CN106096004A (zh) * | 2016-06-23 | 2016-11-09 | 北京工业大学 | 一种建立大规模跨领域文本情感倾向性分析框架的方法 |
CN107423408A (zh) * | 2017-07-28 | 2017-12-01 | 广州多益网络股份有限公司 | 一种微博文本跨领域情感分析方法及系统 |
US9916542B2 (en) * | 2016-02-02 | 2018-03-13 | Xerox Corporation | Domain adaptation by multi-noising stacked marginalized denoising encoders |
CN109271522A (zh) * | 2018-11-20 | 2019-01-25 | 深圳大学 | 基于深度混合模型迁移学习的评论情感分类方法及系统 |
CN109740154A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 一种基于多任务学习的在线评论细粒度情感分析方法 |
-
2019
- 2019-08-08 CN CN201910728636.0A patent/CN110472115B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8605996B2 (en) * | 2008-12-16 | 2013-12-10 | Microsoft Corporation | Sentiment classification using out of domain data |
US9916542B2 (en) * | 2016-02-02 | 2018-03-13 | Xerox Corporation | Domain adaptation by multi-noising stacked marginalized denoising encoders |
CN106096004A (zh) * | 2016-06-23 | 2016-11-09 | 北京工业大学 | 一种建立大规模跨领域文本情感倾向性分析框架的方法 |
CN107423408A (zh) * | 2017-07-28 | 2017-12-01 | 广州多益网络股份有限公司 | 一种微博文本跨领域情感分析方法及系统 |
CN109271522A (zh) * | 2018-11-20 | 2019-01-25 | 深圳大学 | 基于深度混合模型迁移学习的评论情感分类方法及系统 |
CN109740154A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 一种基于多任务学习的在线评论细粒度情感分析方法 |
Non-Patent Citations (6)
Title |
---|
RISHABH MEHROTRA等: "Dictionary based sparse representation for domain adaptation", 《PROCEEDINGS OF THE 21ST ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 * |
SHIMIN DI 等: "Transfer Learning via Feature Isomorphism Discovery", 《24TH ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING (KDD)》 * |
孟佳娜: "特征和实例迁移相融合的跨领域倾向性分析", 《中文信息学报》 * |
廖祥文等: "结合表示学习和迁移学习的跨领域情感分类", 《北京大学学报(自然科学版)》 * |
李怀玉: "基于大数据的用户评论情感分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
魏晓聪: "面向评论文本的迁移学习研究及应用", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046179A (zh) * | 2019-12-03 | 2020-04-21 | 哈尔滨工程大学 | 一种面向特定领域开放网络问句的文本分类方法 |
CN111046179B (zh) * | 2019-12-03 | 2022-07-15 | 哈尔滨工程大学 | 一种面向特定领域开放网络问句的文本分类方法 |
CN113731832A (zh) * | 2021-11-04 | 2021-12-03 | 南京信息工程大学 | 一种用于垃圾转运站的垃圾分拣处理方法和系统 |
CN113731832B (zh) * | 2021-11-04 | 2022-02-15 | 南京信息工程大学 | 一种用于垃圾转运站的垃圾分拣处理方法和系统 |
CN116522908A (zh) * | 2023-07-04 | 2023-08-01 | 西安羚控电子科技有限公司 | 指挥控制系统消息管理方法及装置 |
CN116522908B (zh) * | 2023-07-04 | 2023-12-05 | 西安羚控电子科技有限公司 | 指挥控制系统消息管理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110472115B (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Modeling method of internet public information data mining based on probabilistic topic model | |
Paolanti et al. | Tourism destination management using sentiment analysis and geo-location information: a deep learning approach | |
Li et al. | Joint stance and rumor detection in hierarchical heterogeneous graph | |
CN110472115A (zh) | 一种基于深度学习的社交网络文本情感细粒度分类方法 | |
Ramya et al. | Sentiment analysis of movie review using machine learning techniques | |
Baier Fuentes et al. | A bibliometric overview of the international journal of interactive multimedia and artificial intelligence | |
Al Sari et al. | Sentiment analysis for cruises in Saudi Arabia on social media platforms using machine learning algorithms | |
Troussas et al. | Trends on sentiment analysis over social networks: pre-processing ramifications, stand-alone classifiers and ensemble averaging | |
Yu et al. | DPTCN: A novel deep CNN model for short text classification | |
Tu et al. | Bidirectional sensing of user preferences and application changes for dynamic mobile app recommendations | |
Liu et al. | Clickbait detection on WeChat: A deep model integrating semantic and syntactic information | |
Widianto et al. | Sentiment analysis towards cryptocurrency and nft in bahasa indonesia for twitter large amount data using bert | |
Chou et al. | Rating prediction based on merge-CNN and concise attention review mining | |
Zhu et al. | MMLUP: Multi-Source & Multi-Task Learning for User Profiles in Social Network. | |
Kuamri et al. | Real time analysis of social media data to understand people emotions towards national parties | |
Ali et al. | Big social data as a service (BSDaaS): a service composition framework for social media analysis | |
Vo et al. | Handling negative mentions on social media channels using deep learning | |
Yang et al. | A multi-model fusion framework based on deep learning for sentiment classification | |
Li et al. | Multi-preference book recommendation method based on graph convolution neural network | |
CN112434126B (zh) | 一种信息处理方法、装置、设备和存储介质 | |
Ahmed et al. | Visual sentiment prediction with transfer learning and big data analytics for smart cities | |
Amiri et al. | Research topics and trends of the hashtag recommendation domain | |
Oro et al. | A Cognitive Automation Approach for a Smart Lending and Early Warning Application. | |
Ecemiş et al. | Temporal Sentiment Analysis of Socially Important Locations of Social Media Users | |
Amira et al. | Opinion Analysis of Traveler Based on Tourism Site Review Using Sentiment Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |