CN110472115B - 一种基于深度学习的社交网络文本情感细粒度分类方法 - Google Patents
一种基于深度学习的社交网络文本情感细粒度分类方法 Download PDFInfo
- Publication number
- CN110472115B CN110472115B CN201910728636.0A CN201910728636A CN110472115B CN 110472115 B CN110472115 B CN 110472115B CN 201910728636 A CN201910728636 A CN 201910728636A CN 110472115 B CN110472115 B CN 110472115B
- Authority
- CN
- China
- Prior art keywords
- text
- social network
- emotion
- data
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013135 deep learning Methods 0.000 title claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000011176 pooling Methods 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims abstract description 25
- 238000004140 cleaning Methods 0.000 claims abstract description 18
- 238000005070 sampling Methods 0.000 claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000013526 transfer learning Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims abstract description 4
- 230000000007 visual effect Effects 0.000 claims abstract description 3
- 239000011159 matrix material Substances 0.000 claims description 41
- 238000011156 evaluation Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 9
- 238000013508 migration Methods 0.000 claims description 9
- 230000005012 migration Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000000875 corresponding effect Effects 0.000 claims description 8
- 230000002996 emotional effect Effects 0.000 claims description 5
- 230000002596 correlated effect Effects 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 abstract 2
- 238000013527 convolutional neural network Methods 0.000 description 36
- 238000002474 experimental method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于深度学习的社交网络文本情感细粒度分类方法,涉及情感多分类领域,本发明使用Scrapy框架爬取社交网络文本数据,进行数据清洗、分词,将分词结果作为word2vec的输入进行词向量转化;基于CNN模型进行文本的情感8分类,将词向量转化结果作为CNN嵌入层的输入,进行卷积、池化、概率计算等前向、反向传播过程训练模型,实现对网络评论情感分类的迁移学习,对社交网络文本进行二轮抽样实现实例迁移、训练分类器,并对评论进行情感预测;对前述工作进行系统设计,对分析结果进行可视化展示,利用MVC三层架构设计展示模块,并针对单文本或多文本情感细粒度分类、跨平台迁移学习文本情感细粒度分类、社交网络热度地图等三方面功能对界面进行设计。
Description
技术领域
本发明涉及情感多分类技术领域,具体涉及一种基于深度学习的社交网络文本情感细粒度分类方法。
背景技术
随着互联网和移动设备的爆发式发展,人与人之间的互动和联系越来越依赖于社交网络。这些社交网站给人们的生活带来了翻天覆地的变化,巨大地便利了人们之间的联系。社交网络如国内的新浪微博、腾讯微博、百度贴吧、微信朋友圈,国外的Facebook、Twitter、Instagram,已是现代人日常生活中必不可少的一部分。2017年8月9日,微博发布了2017年第二季度及全年财报。财报显示,微博的用户规模、活跃度和收入均实现高速增长。截止二季度末,微博月活跃用户达到3.61亿,同比增长28%,日活跃用户达到1.59亿,同比增长26%。毋庸置疑,微博作为社交网络重要的成员之一,正在改变着现代人的生活方式。越来越多的人借助微博这一社交网络平台表达或分享自己的情感、观点和建议。
社交网络改变了信息传播的方式,扩大了信息的传播范围,改变了人们的交流方式。在社交网络中人们可以在浏览各种文本、视频、图片信息的同时也可以表达自己的看法。而挖掘社交网络的情感并且进行情感分析,对于诸多应用领域比如电子商务、舆情分析、推荐系统、心理健康等均有重要的现实意义。比如在电子商务领域,可以通过对商品评价的文本进行情感分析,发现用户对产品的情感倾向,以利于厂家对商品做出积极的改进。在网络舆情方面,可以通过分析微博用户对热点事件或热点话题做出相应的情感分析,进而了解用户所要表达的舆情和民声,有助于政府做出有效的应对措施。由此可见,社交网络情感分析具有重要的理论研究以及实际应用价值。
微博作为一种重要的社交网络形式,每天会产生大量的数据,仅靠人工的方法来收集以及分析这些数据的情感费时费力。与此同时,因为与传统的社交媒体(博客、贴吧等)相比,微博有很多其自身的特点:简短、实时、多样,传统的情感分析方法不适用于微博数据集。并且,目前中文文本的短文本情感分类大部分是情感的粗粒度分类,但是因为用户表达的情感是丰富多样的,在140字以内的微博中,可能是“厌烦”,可能是“悲伤”,也可能是“愤怒”,单单的粗粒度的“消极”不能表达出用户的具体情感,这使得原来的粗粒度的情感分类方法不能适用于新的情感分类任务中。因此,研究适合微博的情感细粒度分类方法非常重要。
同时电商评论的标记数据匮乏,导致训练模型的不充分。微博文本与电商文本之间存在共性,那么能否利用已经标记好的微博数据,通过某种实例迁移的方法将已标注微博数据扩充到电商的评论集中,增大电商评论的训练集,改善电商评论因为训练集小分类器训练不充分而导致的分类准确率低的问题。
发明内容
针对现有技术存在的问题,本发明提供一种基于深度学习的社交网络文本情感细粒度分类方法,使用基于word2vec和卷积神经网络的方法来完成对社交网络文本进行细粒度情感分析的任务,同时通过实例迁移的方法将微博数据迁移到社交网络文本评论平台增加社交网络的训练集,提升社交网络评价文本分类器的训练效果。
一种基于深度学习的社交网络文本情感细粒度分类方法,具体步骤如下:
步骤1:对待分类的社交网络文本数据进行获取并对数据进行预训练处理;
步骤2:利用CNN模型对预训练处理后的社交网络文本数据进行文本情感细粒度分类;
步骤3:采用二轮抽样的方法,通过对社交网络文本的实例迁移,对社交网络评价文本训练集的补充,提升社交网络评价文本分类的准确性;
步骤4:对社交网络评价文本分析结果进行数据显示,实现基于深度学习的社交网络文本情感细粒度分类系统的可视化显示功能。
步骤1的具体步骤为:
步骤1.1:利用Scrapy框架爬取社交网络文本数据,提取出社交网络文本数据中的各个句子;
步骤1.2:采用三轮数据清洗法对提取到的社交网络文本数据进行过滤;
所述三轮数据清洗法的具体过程如下:第一轮清洗,过滤掉社交网络文本数据中的垃圾文本数据;第二轮清洗,过滤掉社交网络文本数据中纯转发而不评论和回复、重复发布的文本数据;第三轮清洗,过滤掉转发的社交网络文本数据,只保留原创性的社交网络文本数据;
步骤1.3:对过滤后的社交网络文本数据进行分词,得到含有g个句子的社交网络文本集合G={d1,...,di,...,dg};
步骤1.4:按照篇章对社交网络文本集合G进行处理,得到g个由词组成的集合di={w1,...,wj,...,wn},其中,wj为句子中的第j个单词,然后将第i个集合di中的每一个单词wn送入到word2vec进行词向量的预训练,使其转化为Rn×1空间中的特征向量fi=(mi1,...,mij,...,min),将特征向量fi由上至下串联得到g个集合di的Rg×n维特征矩阵Fi。
步骤2的具体步骤为:
步骤2.1:设置CNN模型嵌入层的维数为特征矩阵Fi的维数n,宽度为特征矩阵Fi的最大宽度Max_d记为Md,卷积层卷积核Ci的宽度为k;
步骤2.2:将Rg×n维特征矩阵Fi作为CNN模型嵌入层的输入,不足嵌入层宽度的向量矩阵自动补零,在CNN模型的卷积层利用卷积核Ci与特征矩阵Fi从上至下的Md-k+1个子矩阵Tp∈Rk×n分别进行卷积操作,得到卷积矩阵S1,...,Si,...,Sg,其中,p∈[1,Md-k+1];
所述卷积操作的公式如下:
Ag×n*Bg×n=sigmod(∑p∈[1,g],q∈[1,n](apq×bpq+biaspq)) (1)
其中,Ag×n、Bg×n均表示一个g列n行的矩阵,apq为矩阵Ag×n中第p列第q行的元素,bpq为矩阵Bg×n中第p列第q行的元素,biaspq是偏置矩阵的一个分量;sigmod函数的作用是对特征值归一化;
步骤2.3:文本di的特征矩阵Fi与任意一个卷积核Ci均进行Md-k+1次卷积操作,得到卷积矩阵S1,S2,S3,....Sm;在CNN模型的池化层对得到卷积矩阵S1,...,Si,...,Sm进行池化操作,简化降维后得到Rg×1的空间特征向量Pi=(p1,...,pj,...,pm),即抽取出的高效情感特征,池化运算公式为:
pooling(S(d-k+1)×1)=β(s1,s2,···,sd-k+1) (3)
其中β代表的运算是平均值池化、最小值池化、最大值池化其中之一;经过池化操作后每一个卷积矩阵都变为一个具体的特征数值,m个卷积矩阵得到一个Rm×1的空间特征向量Pi=(p1,p2,p3···,pm),然后将其送入分类器中,训练分类器计算具体的情感类别;
步骤2.4:将特征向量Pi=(p1,...,pj,...,pm)送入CNN模型的全连接层,利用softmax函数得到第m个特征向量pm的函数值yi;
所述第m个特征向量pm的函数值yi的计算公式如下:
yi=softmax(pm) (4)
其中,yi为第m个特征向量pm对应第i类情感的概率;
步骤2.5:采用梯度下降法对CNN模型的权值和偏置进行更新;
所述对CNN模型的权值和偏置进行更新的方法如下:通过计算卷积层和全连接层的权值差与偏置差的键值对<w,Δw>、<b,Δb>,对函数值yi进行更新,直到找到CNN模型的权值和偏置的全局最优解时结束对CNN模型的训练,并更新整个CNN模型的权值和偏置;
所述对函数值yi进行更新的公式如下:
其中,E为CNN模型各层之间的权重值,ei代表文本di的情感标注标签,(d1,e1),(d2,e2),…,(di,ei)即为组成CNN模型训练集Str的元素;
步骤2.6:将特征向量Pi=(p1,...,pj,...,pm)送入CNN模型的分类器中进行训练,得到分词后各文本数据的具体情感类别。
步骤3的具体步骤为:
步骤3.1:定义频繁特征和连接特征,分别构造源域的频繁特征集Fs和目标域的频繁特征集Ft,取其交集F=Ft∩Fs,针对每种情感ei和频繁特征交集F中的每个特征f进行PMI计算;所述频繁特征为在微博领域和电商评论领域都频繁出现、并且频数达到一定阈值的特征;所述连接特征为在两个领域同时出现的频繁特征;
所述PMI计算的公式如下:
其中,PMI(f,e)为衡量特征f和情感ei是否具有相关性的判定条件,P(f)和P(e)分别表示特征f和情感e出现的频率,P(f,e)表示特征f和情感e同时出现的概率;
步骤3.2:判断PMI(f,e)是否大于0,若是,则表示特征f和情感ei具有正相关,选择与源域和目标域情感正相关的特征加入到连接特征集LJFei,同时,选择含有连接特征集中包含的文本的社交网络数据加入到集合S中,作为第一轮抽样的结果,若否,则表示特征f和情感ei不具有正相关,将特征f对应的文本数据舍弃;
步骤3.3:在第一轮抽样结果的基础上,寻找目标域中既出现在正向样本,又出现在负向样本的频繁特征进行二次抽样,得到的结果即为集合PFN;
步骤3.4:判断集合S中的每个文本s是否含有小于阈值NOSS的特征,若是,则将文本s加入到集合S’中,作为第二轮抽样的结果,若否,则将文本s舍弃;所述阈值NOSS为某一文本的特征向量与PFN相重的特征个数;
步骤3.5:取集合S’与社交网络平台的评论文本集的并集D,采用集合D对CNN模型进行训练,提升社交网络评价文本分类的准确性。
步骤4的具体步骤为:
步骤4.1:采用MVC三层架构,设计由四部分构成的结果展示模块:单文本情感细粒度分类系统,主要分为单文本输入模块、文本分词显示模块、情感分类结果显示模块;
步骤4.2:针对单文本/多文本情感细粒度分类、跨平台迁移学习文本情感细粒度分类、社交网络文本的热度地图三方面功能对界面进行设计。
本发明的有益效果:本发明提出一种基于深度学习的社交网络文本情感细粒度分类方法,可以较大程度提升社交网络文本情感细粒度分类的准确性,同时通过对不同方法的优缺点比较以及局限性分析,证明了该方法在中文微博情感细分类的可行性和有效性。
附图说明
图1为本发明实施例中基于深度学习的社交网络文本情感细粒度分类方法的总体框图;
图2为本发明实施例中数据清洗框架;
图3为本发明实施例中词预训练方式对分类准确性的影响;
图4为本发明实施例中学习率对情感分类准确性影响的变化曲线;
图5为本发明实施例中向量维度对情感分类准确性影响的变化曲线;
图6为本发明实施例中卷积核数量对情感分类准确性影响的变化曲线;
图7为本发明实施例中卷积核大小对情感分类准确性影响的变化曲线;
图8为本发明实施例中池化方式对比实验的条形分布直方图;
图9为本发明实施例中迁移学习分类算法对比实验。
具体实施方式
为了使本发明的目的、技术方案及优势更加清晰,下面结合附图和具体实施例对本发明做进一步详细说明。此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
一种基于深度学习的社交网络文本情感细粒度分类方法,流程如图1所示,包括如下步骤:
步骤1:对待分类的社交网络文本数据进行获取并对数据进行预训练处理;
步骤1.1:利用Scrapy框架爬取社交网络文本数据,本实施例中选择新浪微博数据;通过Item Pipeline处理被spider提取出来的item,处理包含清理、验证及持久化,该处理起到将爬取到的有用数据下载到本地数据库,并且持久化的作用;
步骤1.2:采用三轮数据清洗法对提取到的社交网络文本数据进行过滤;
所述三轮数据清洗法的具体过程图2所示:第一轮清洗,过滤掉社交网络文本数据中的垃圾文本数据;第二轮清洗,过滤掉社交网络文本数据中纯转发而不评论和回复、重复发布的文本数据;第三轮清洗,过滤掉转发的社交网络文本数据,只保留原创性的社交网络文本数据。
步骤1.3:本实施例选用ICTCLAS做为分词工具,对过滤后的社交网络文本数据进行分词,得到含有g个句子的社交网络文本集合G={d1,...,di,...,dg};
步骤1.4:按照篇章对社交网络文本集合G进行处理,得到g个由词组成的集合di={w1,...,wj,...,wn},其中,wj为句子中的第j个单词,然后将第i个集合di中的每一个单词wn送入到word2vec进行词向量的预训练,使其转化为Rn×1空间中的特征向量fi=(mi1,...,mij,...,min),将特征向量fi由上至下串联得到g个集合di的Rg×n维特征矩阵Fi;
本实施例中爬取90000条微博文本和6037条京东商城对iphone8手机的评论信息,经过三轮数据清洗,最终选取13500条高质量情感微博和4194条电商评论,并对其进行人工细粒度情感标注。情感8分类的具体划分方法是:
表1情感8分类标准
经过数据清洗及标注后得到如下结果:
表2实验数据集情感分布
步骤2:利用CNN模型对预训练处理后的社交网络文本数据进行文本情感细粒度分类;
步骤2.1:设置CNN模型嵌入层的维数为特征矩阵Fi的维数n,宽度为特征矩阵Fi的最大宽度Max_d记为Md,卷积层卷积核Ci的宽度为k;
步骤2.2:将Rg×n维特征矩阵Fi作为CNN模型嵌入层的输入,不足嵌入层宽度的向量矩阵自动补零,在CNN模型的卷积层利用卷积核Ci与特征矩阵Fi从上至下的Md-k+1个子矩阵Tp∈Rk×n分别进行卷积操作,得到卷积矩阵S1,...,Si,...,Sg,其中,p∈[1,Md-k+1];
所述卷积操作的公式如下:
Ag×n*Bg×n=sigmod(∑p∈[1,g],q∈[1,n](apq×bpq+biaspq)) (1)
其中,Ag×n、Bg×n均表示一个g列n行的矩阵,apq为矩阵Ag×n中第p列第q行的元素,bpq为矩阵Bg×n中第p列第q行的元素,biaspq是偏置矩阵的一个分量;sigmod函数的作用是对特征值归一化;
步骤2.3:文本di的特征矩阵Fi与任意一个卷积核Ci均进行Md-k+1次卷积操作,得到卷积矩阵S1,S2,S3,…Sm;在CNN模型的池化层对得到卷积矩阵S1,...,Si,...,Sm进行池化操作,简化降维后得到Rg×1的空间特征向量Pi=(p1,...,pj,...,pm),即抽取出的高效情感特征,池化运算公式为:
pooling(S(d-k+1)×1)=β(s1,s2,···,sd-k+1) (3)
其中β代表的运算是平均值池化、最小值池化、最大值池化其中之一;经过池化操作后每一个卷积矩阵都变为一个具体的特征数值,m个卷积矩阵得到一个Rm×1的空间特征向量Pi=(p1,p2,p3···,pm),然后将其送入分类器中,训练分类器计算具体的情感类别;
步骤2.4:将特征向量Pi=(p1,...,pj,...,pm)送入CNN模型的全连接层,利用softmax函数得到第m个特征向量pm的函数值yi;
所述第m个特征向量pm的函数值yi的计算公式如下:
yi=softmax(pm) (4)
其中,yi为第m个特征向量pm对应第i类情感的概率,概率最大的则对应为相应的感情;
步骤2.5:采用梯度下降法对CNN模型的权值和偏置进行更新;
所述对CNN模型的权值和偏置进行更新的方法如下:通过缩小准确值与期望值之间的误差来调整各层之间转移矩阵的权重值,同时记录每次卷积层和全连接层的权值差与偏置差的键值对<w,Δw>、<b,Δb>;通过计算卷积层和全连接层的权值差与偏置差的键值对<w,Δw>、<b,Δb>,对函数值yi进行更新,直到找到CNN模型的权值和偏置的全局最优解时结束对CNN模型的训练,并更新整个CNN模型的权值和偏置;
所述“准确值”是指经过网络计算后所得出的实际输出值,“期望值”是指由数据标签得到的真实值,也可以认为是标准答案。在反向传播时,将输出误差(也就是准确值与期望值之差)按照原通路反传计算,将误差分摊给各层的各个单元,获得各层各单元的误差信号,并将其作为修正各单元权值的根据,最终使误差信号减小到最低限度。
所述对函数值yi进行更新的公式如下:
其中,E为CNN模型各层之间的权重值,ei代表文本di的情感标注标签,(d1,e1),(d2,e2),…,(di,ei)即为组成CNN模型训练集Str的元素;
步骤2.6:将特征向量Pi=(p1,...,pj,...,pm)送入CNN模型的分类器中进行训练,得到分词后各文本数据的具体情感类别;
本实施例中,如图3所示,预训练方式不同会影响分类结果的准确性,将清洗后的文本送入到ICTCLAS进行分词,将分词结果用word2vec进行词向量转化。由微博文本di形成的Rd×n的特征矩阵Fi作为CNN的输入Str={(d1,e1),(d2,e2)…(di,ei)。由公式(1)至公式(5)进行CNN的前向传播和反向传播训练过程来对模型进行训练。
步骤3:采用二轮抽样的方法,通过对社交网络文本的实例迁移,对电商评价文本训练集的补充,提升电商文本分类的准确性;
步骤3.1:定义频繁特征和连接特征,分别构造源域的频繁特征集Fs和目标域的频繁特征集Ft,取其交集F=Ft∩Fs,针对每种情感ei和频繁特征交集F中的每个特征f进行PMI计算;所述频繁特征为在微博领域和电商评论领域都频繁出现、并且频数达到一定阈值的特征;所述连接特征为在两个领域同时出现的频繁特征;
所述PMI计算的公式如下:
其中,PMI(f,e)为衡量特征f和情感ei是否具有相关性的判定条件,P(f)和P(e)分别表示特征f和情感e出现的频率,P(f,e)表示特征f和情感e同时出现的概率;
步骤3.2:判断PMI(f,e)是否大于0,若是,则表示特征f和情感ei具有正相关,选择与源域和目标域情感正相关的特征加入到连接特征集LJFei,同时,选择含有连接特征集中包含的文本的社交网络数据加入到集合S中,作为第一轮抽样的结果,若否,则表示特征f和情感ei不具有正相关,将特征f对应的文本数据舍弃;
步骤3.3:在第一轮抽样结果的基础上,寻找目标域中既出现在正向样本,又出现在负向样本的频繁特征进行二次抽样,得到的结果即为集合PFN;
步骤3.4:判断集合S中的每个文本s是否含有小于阈值NOSS的特征,若是,则将文本s加入到集合S’中,作为第二轮抽样的结果,若否,则将文本s舍弃;所述阈值NOSS为某一文本的特征向量与PFN相重的特征个数;
步骤3.5:取集合S’与电商平台的评论文本集的并集D,采用集合D对CNN模型进行训练,提升电商文本分类的准确性。
图4~图7分别为学习率、向量维度、卷积核数量、卷积核大小对情感分类准确性的影响,图8为池化方式对比实验的条形分布。本实施例以设置对比实验为原则,根据实验数据将待调优的5个超参数,学习率(Learning_rate)、卷积核数目(FilterNumber)、卷积核大小(FilterSize)、池化方法(Pooling)、训练词向量维度(Embedding_dim)的最优值设置为:
表3 CNN最优参数设置
步骤4:对通过以上步骤得到的分析结果进行数据可视化展示;
步骤4.1:采用MVC三层架构,设计由四部分构成的结果展示模块:单文本情感细粒度分类系统,主要分为单文本输入模块、文本分词显示模块、情感分类结果显示模块;多文本情感细粒度分类系统,主要分为多文本输入模块、多文本分词显示模块、多文本细粒度情感分布饼状图显示模块;社交网络文本的热度地图,主要是以地图的形式对社交网络文本的活跃度进行展示,活跃度越高,圆圈颜色越红,数值越大;实例迁移跨领域文本分类系统,主要是对非社交网络领域的商品评价系统进行细粒度分类。可以分为汽车、电影、音乐、电子等领域,对不同领域的评价均可以进行细粒度的情感分类,进而体现卷积神经网络的细粒度情感分类的迁移学习的能力。
步骤4.2:针对单文本/多文本情感细粒度分类、跨平台迁移学习文本情感细粒度分类、社交网络文本的热度地图三方面功能对界面进行设计。饼状图来源于E-charts的图表库,将图表库的图表与本文提供的数据进行连接后,就可以展示本文的饼状图和微博热度地图的相关功能。
本实施例中实现对电商评论情感分类的迁移学习。对微博文本数据进行二次抽样后,剩下的只适用于电商评论的高质量的数据数量为:
表3二次抽样后微博数据
筛选出样本后进行对比实验,分别选择只使用电商数据、使用电商数据+未抽样的微博数据、使用电商数据+二次抽样的微博数据三种组合作为训练集,对电商评论做情感分类预测,迁移学习分类算法对比实验如图9所示。三种情况下的分类结果为:
表4不同训练集对比实验结果
将进行过二次抽样的微博数据加入到电商评论的训练集中,比只用电商数据作为训练集,分类器的分类效果提升了3.6%,从而证明了实例的迁移的有效性。另外将本发明方法与SVM的情感细粒度分类准确性进行比较:
表5 CNN与SVM的细粒度分类准确性比较
基于CNN-word2vec的方法相比于经典的机器学习方法在准确率上提升了2.8%,说明本发明方法更适合于情感的多分类问题。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;因而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (1)
1.一种基于深度学习的社交网络文本情感细粒度分类方法,其特征在于:包括以下步骤:
步骤1:对待分类的社交网络文本数据进行获取并对数据进行预训练处理;
步骤1.1:利用Scrapy框架爬取社交网络文本数据,提取出社交网络文本数据中的各个句子;
步骤1.2:采用三轮数据清洗法对提取到的社交网络文本数据进行过滤;
所述三轮数据清洗法的具体过程如下:第一轮清洗,过滤掉社交网络文本数据中的垃圾文本数据;第二轮清洗,过滤掉社交网络文本数据中纯转发而不评论和回复、重复发布的文本数据;第三轮清洗,过滤掉转发的社交网络文本数据,只保留原创性的社交网络文本数据;
步骤1.3:对过滤后的社交网络文本数据进行分词,得到含有g个句子的社交网络文本集合G={d1,...,di,...,dg};
步骤1.4:按照篇章对社交网络文本集合G进行处理,得到g个由词组成的集合di={w1,...,wj,...,wn},其中,wj为句子中的第j个单词,然后将第i个集合di中的每一个单词wn送入到word2vec进行词向量的预训练,使其转化为Rn×1空间中的特征向量fi=(mi1,...,mij,...,min),将特征向量fi由上至下串联得到g个集合di的Rg×n维特征矩阵Fi;
步骤2:利用CNN模型对预训练处理后的社交网络文本数据进行文本情感细粒度分类;
步骤2.1:设置CNN模型嵌入层的维数为特征矩阵Fi的维数n,宽度为特征矩阵Fi的最大宽度Max_d记为Md,卷积层卷积核Ci的宽度为k;
步骤2.2:将Rg×n维特征矩阵Fi作为CNN模型嵌入层的输入,不足嵌入层宽度的向量矩阵自动补零,在CNN模型的卷积层利用卷积核Ci与特征矩阵Fi从上至下的Md-k+1个子矩阵Tp∈Rk×n分别进行卷积操作,得到卷积矩阵S1,...,Si,...,Sg,其中,p∈[1,Md-k+1];
所述卷积操作的公式如下:
Ag×n*Bg×n=sigmod(∑p∈[1,g],q∈[1,n](apq×bpq+biaspq)) (1)
其中,Ag×n、Bg×n均表示一个g列n行的矩阵,apq为矩阵Ag×n中第p列第q行的元素,bpq为矩阵Bg×n中第p列第q行的元素,biaspq是偏置矩阵的一个分量;sigmod函数的作用是对特征值归一化;
步骤2.3:文本di的特征矩阵Fi与任意一个卷积核Ci均进行Md-k+1次卷积操作,得到卷积矩阵S1,S2,S3,....Sm;在CNN模型的池化层对得到卷积矩阵S1,...,Si,...,Sm进行池化操作,简化降维后得到Rg×1的空间特征向量Pi=(p1,...,pj,...,pm),即抽取出的高效情感特征,池化运算公式为:
pooling(S(d-k+1)×1)=β(s1,s2,···,sd-k+1) (3)
其中β代表的运算是平均值池化、最小值池化、最大值池化其中之一;经过池化操作后每一个卷积矩阵都变为一个具体的特征数值,m个卷积矩阵得到一个Rm×1的空间特征向量Pi=(p1,p2,p3···,pm),然后将其送入分类器中,训练分类器计算具体的情感类别;
步骤2.4:将特征向量Pi=(p1,...,pj,...,pm)送入CNN模型的全连接层,利用softmax函数得到第m个特征向量pm的函数值yi;
所述第m个特征向量pm的函数值yi的计算公式如下:
yi=softmax(pm) (4)
其中,yi为第m个特征向量pm对应第i类情感的概率;
步骤2.5:采用梯度下降法对CNN模型的权值和偏置进行更新;
所述对CNN模型的权值和偏置进行更新的方法如下:通过计算卷积层和全连接层的权值差与偏置差的键值对<w,Δw>、<b,Δb>,对函数值yi进行更新,直到找到CNN模型的权值和偏置的全局最优解时结束对CNN模型的训练,并更新整个CNN模型的权值和偏置;
所述对函数值yi进行更新的公式如下:
其中,E为CNN模型各层之间的权重值,ei代表文本di的情感标注标签,(d1,e1),(d2,e2),…,(di,ei)即为组成CNN模型训练集Str的元素;
步骤2.6:将特征向量Pi=(p1,...,pj,...,pm)送入CNN模型的分类器中进行训练,得到分词后各文本数据的具体情感类别;
步骤3:采用二轮抽样的方法,通过对社交网络文本的实例迁移,对社交网络评价文本训练集的补充,提升社交网络评价文本分类的准确性;
步骤3.1:定义频繁特征和连接特征,分别构造源域的频繁特征集Fs和目标域的频繁特征集Ft,取其交集F=Ft∩Fs,针对每种情感ei和频繁特征交集F中的每个特征f进行PMI计算;所述频繁特征为在社交网络文本领域和社交网络评论领域都频繁出现、并且频数达到一定阈值的特征;所述连接特征为在两个领域同时出现的频繁特征;
所述PMI计算的公式如下:
其中,PMI(f,e)为衡量特征f和情感ei是否具有相关性的判定条件,P(f)和P(e)分别表示特征f和情感e出现的频率,P(f,e)表示特征f和情感e同时出现的概率;
步骤3.2:判断PMI(f,e)是否大于0,若是,则表示特征f和情感ei具有正相关,选择与源域和目标域情感正相关的特征加入到连接特征集LJFei,同时,选择含有连接特征集中包含的文本的社交网络数据加入到集合S中,作为第一轮抽样的结果,若否,则表示特征f和情感ei不具有正相关,将特征f对应的文本数据舍弃;
步骤3.3:在第一轮抽样结果的基础上,寻找目标域中既出现在正向样本,又出现在负向样本的频繁特征进行二次抽样,得到的结果即为集合PFN;
步骤3.4:判断集合S中的每个文本s是否含有小于阈值NOSS的特征,若是,则将文本s加入到集合S’中,作为第二轮抽样的结果,若否,则将文本s舍弃;所述阈值NOSS为某一文本的特征向量与PFN相重的特征个数;
步骤3.5:取集合S’与社交网络平台的评论文本集的并集D,采用集合D对CNN模型进行训练,提升社交网络评价文本分类的准确性;
步骤4:对社交网络评价文本分析结果进行数据显示,实现基于深度学习的社交网络文本情感细粒度分类系统的可视化显示功能;
步骤4.1:采用MVC三层架构,设计由四部分构成的结果展示模块:单文本情感细粒度分类系统,主要分为单文本输入模块、文本分词显示模块、情感分类结果显示模块;
步骤4.2:针对单文本/多文本情感细粒度分类、跨平台迁移学习文本情感细粒度分类、社交网络文本的热度地图三方面功能对界面进行设计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910728636.0A CN110472115B (zh) | 2019-08-08 | 2019-08-08 | 一种基于深度学习的社交网络文本情感细粒度分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910728636.0A CN110472115B (zh) | 2019-08-08 | 2019-08-08 | 一种基于深度学习的社交网络文本情感细粒度分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110472115A CN110472115A (zh) | 2019-11-19 |
CN110472115B true CN110472115B (zh) | 2022-08-02 |
Family
ID=68511474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910728636.0A Active CN110472115B (zh) | 2019-08-08 | 2019-08-08 | 一种基于深度学习的社交网络文本情感细粒度分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472115B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046179B (zh) * | 2019-12-03 | 2022-07-15 | 哈尔滨工程大学 | 一种面向特定领域开放网络问句的文本分类方法 |
CN113731832B (zh) * | 2021-11-04 | 2022-02-15 | 南京信息工程大学 | 一种用于垃圾转运站的垃圾分拣处理方法和系统 |
CN116522908B (zh) * | 2023-07-04 | 2023-12-05 | 西安羚控电子科技有限公司 | 指挥控制系统消息管理方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8605996B2 (en) * | 2008-12-16 | 2013-12-10 | Microsoft Corporation | Sentiment classification using out of domain data |
CN106096004A (zh) * | 2016-06-23 | 2016-11-09 | 北京工业大学 | 一种建立大规模跨领域文本情感倾向性分析框架的方法 |
CN107423408A (zh) * | 2017-07-28 | 2017-12-01 | 广州多益网络股份有限公司 | 一种微博文本跨领域情感分析方法及系统 |
US9916542B2 (en) * | 2016-02-02 | 2018-03-13 | Xerox Corporation | Domain adaptation by multi-noising stacked marginalized denoising encoders |
CN109271522A (zh) * | 2018-11-20 | 2019-01-25 | 深圳大学 | 基于深度混合模型迁移学习的评论情感分类方法及系统 |
CN109740154A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 一种基于多任务学习的在线评论细粒度情感分析方法 |
-
2019
- 2019-08-08 CN CN201910728636.0A patent/CN110472115B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8605996B2 (en) * | 2008-12-16 | 2013-12-10 | Microsoft Corporation | Sentiment classification using out of domain data |
US9916542B2 (en) * | 2016-02-02 | 2018-03-13 | Xerox Corporation | Domain adaptation by multi-noising stacked marginalized denoising encoders |
CN106096004A (zh) * | 2016-06-23 | 2016-11-09 | 北京工业大学 | 一种建立大规模跨领域文本情感倾向性分析框架的方法 |
CN107423408A (zh) * | 2017-07-28 | 2017-12-01 | 广州多益网络股份有限公司 | 一种微博文本跨领域情感分析方法及系统 |
CN109271522A (zh) * | 2018-11-20 | 2019-01-25 | 深圳大学 | 基于深度混合模型迁移学习的评论情感分类方法及系统 |
CN109740154A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 一种基于多任务学习的在线评论细粒度情感分析方法 |
Non-Patent Citations (6)
Title |
---|
Dictionary based sparse representation for domain adaptation;Rishabh Mehrotra等;《Proceedings of the 21st ACM international conference on Information and knowledge management》;20121031;全文 * |
Transfer Learning via Feature Isomorphism Discovery;Shimin Di 等;《24th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD)》;20180823;全文 * |
基于大数据的用户评论情感分析;李怀玉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190415;正文第3.1-3.2小节 * |
特征和实例迁移相融合的跨领域倾向性分析;孟佳娜;《中文信息学报》;20150731;第29卷(第4期);全文 * |
结合表示学习和迁移学习的跨领域情感分类;廖祥文等;《北京大学学报(自然科学版)》;20190131;第55卷(第1期);正文第1小节 * |
面向评论文本的迁移学习研究及应用;魏晓聪;《中国博士学位论文全文数据库 信息科技辑》;20180815;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110472115A (zh) | 2019-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740148B (zh) | 一种BiLSTM结合Attention机制的文本情感分析方法 | |
CN109271522B (zh) | 基于深度混合模型迁移学习的评论情感分类方法及系统 | |
CN108763362B (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
US20220405480A1 (en) | Text sentiment analysis method based on multi-level graph pooling | |
CN109544306B (zh) | 一种基于用户行为序列特征的跨领域推荐方法及装置 | |
CN110472115B (zh) | 一种基于深度学习的社交网络文本情感细粒度分类方法 | |
CN109145112A (zh) | 一种基于全局信息注意力机制的商品评论分类方法 | |
CN106021364A (zh) | 图片搜索相关性预测模型的建立、图片搜索方法和装置 | |
Jain et al. | A comparative study of machine learning and deep learning techniques for sentiment analysis | |
WO2019056628A1 (zh) | 关注点文案的生成 | |
CN104951518B (zh) | 一种基于动态增量更新的上下文推荐方法 | |
WO2023065859A1 (zh) | 物品推荐方法、装置及存储介质 | |
CN112765480B (zh) | 一种信息推送方法、装置及计算机可读存储介质 | |
CN104063481A (zh) | 一种基于用户实时兴趣向量的电影个性化推荐方法 | |
CN111177559B (zh) | 文旅服务推荐方法、装置、电子设备及存储介质 | |
CN107357793A (zh) | 信息推荐方法和装置 | |
CN103353872A (zh) | 一种基于神经网络的教学资源个性化推荐方法 | |
CN107590558A (zh) | 一种基于多层集成学习的微博转发预测方法 | |
CN113449204B (zh) | 基于局部聚合图注意力网络的社会事件分类方法、装置 | |
CN111460157A (zh) | 用于多领域文本分类的循环卷积多任务学习方法 | |
CN115860880B (zh) | 基于多层异质图卷积模型的个性化商品推荐方法及系统 | |
Baier Fuentes et al. | A bibliometric overview of the international journal of interactive multimedia and artificial intelligence | |
CN111966888A (zh) | 融合外部数据的基于方面类别的可解释性推荐方法及系统 | |
Li | Accurate digital marketing communication based on intelligent data analysis | |
CN112132633A (zh) | 一种基于消费事理图谱的消费意图识别和预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |