CN107247703A - 基于卷积神经网络和集成学习的微博情感分析方法 - Google Patents
基于卷积神经网络和集成学习的微博情感分析方法 Download PDFInfo
- Publication number
- CN107247703A CN107247703A CN201710425862.2A CN201710425862A CN107247703A CN 107247703 A CN107247703 A CN 107247703A CN 201710425862 A CN201710425862 A CN 201710425862A CN 107247703 A CN107247703 A CN 107247703A
- Authority
- CN
- China
- Prior art keywords
- neural networks
- convolutional neural
- word
- text
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于卷积神经网络和集成学习的微博情感分析方法,包括:文本预处理。向量化表示。利用卷积神经网络提取抽象特征。训练集成分类器:把得到的抽象特征输入到基分类器中,训练该样本下的弱分类器,在训练集中随机抽取不同样本,重复步骤2)3),得到若干弱分类器;最后把所有弱分类集成起来,通过多个弱分类器分类结果的组合来决定预测集微博情感的最终分类,以取得更加准确的微博情感分析。
Description
技术领域
本发明属于基于深度学习的文本分类技术领域,具体涉及一种基于卷积神经网络和集成学习的微博情感分析方法
背景技术
随着社交网络的发展和普及,人们逐渐由传统的接触式社交向非接触式社交过渡。2007 年,新浪微博正式进军中国市场,开启了我国的微博时代。作为一种通过关注机制分享简短实时信息的广播式社交网络平台,微博可以在极短时间内汇聚大量有关热门事件的讨论信息,及时了解人们每时每刻的想法和最新动态。因此,准确的微博文本情感分析有助于对把握舆论动向,从而为政府相关部门提供较为合理的应对措施。
目前对于文本分类的研究主要分为机器学习方法和情感词典方法两种。在基于机器学习的方法中,通常用采用的具体模型和方法有:支持向量机、K邻近算法和朴素贝叶斯模型。但由于微博文本的简短性和随意性,这些方法和模型往往得到的效果不佳。在基于情感词典的方法中,情感词典的选择十分关键。但网络文化日新月异,词语更新速度极快,加之微博文本带有表情字符的独特性,目前尚未有合适的情感词库。可喜的是,深度学习的出现给我们提供了全新的思考方式。目前深度学习已经成为互联网大数据挖掘和人工智能设计的主要研究手段之一,是机器学习研究领域的进一步拓展。其动机在于模仿人脑的机制,通过多层次非线性映射结构组合低层特征来形成更加抽象的高层特征,以发现数据的分布式特征。因此,基于深度学习的微博情感分析方法的研究对把握舆论动向、处理公众关系具有十分重要的研究价值。本发明利用深度学习中的卷积神经网络模型提取微博文本的抽象特征,通过集成学习的方法将Softmax分类器作为基分类器合成效果更好的集成分类器,从而对微博文本进行更加准确的分类和分析。
发明内容
本发明所要解决的技术问题是:提供一种更加准确的微博文本情感分析方法,在已知情感的微博文本数据集基础上训练一个合理的分类器,利用该分类器对测试集微博文本进行预测,试图使得到的预测正确率最高。本发明的技术方案如下:
一种基于卷积神经网络和集成学习的微博情感分析方法,包括下列步骤:
1)文本预处理:首先通过“爬虫”手段获取微博文本,采用人工标注的方式对微博文本进行情感标注,以此作为数据集;然后用中文分词工具进行分词预处理,将微博文本切成一个个单独的词,再重新组合成词序列;最后将预处理后的数据集划分为训练集和预测集,用训练集训练合理的分类器,用测试集对分类器的性能进行检测。
2)向量化表示:设一条微博文本s由n个词构成,经分词预处理后表示为s={s1,s2,...,sn};每个词都用k维向量表示,每一条微博文本都可以表示为一个n*k的矩阵,其中,向量值由 word2vec工具训练得到,若某词未出现在word2vec的训练语料中,则采用随机初始化方式对该词对应的向量进行赋值。
3)利用卷积神经网络提取抽象特征:该卷积神经网络由输入层和卷积层组成,其中输入层为某条微博文本经步骤1)和2)后得到的矩阵,而卷积层又分为卷积和池化两部分,首先利用不同长度的卷积核对输入层的矩阵依次进行卷积,并通过Sigmoid激活函数得到相应的不同长度的卷积结果;为使结果归一化,可采用池化方法选取每个卷积核卷积后最大值作为该卷积核下的局部特征,用局部特征代替整条微博的抽象特征。
4)训练集成分类器。把步骤3)中得到的抽象特征输入到基分类器中,训练该样本下的弱分类器,在训练集中随机抽取不同样本,重复步骤2)3),得到若干弱分类器;最后把所有弱分类集成起来,通过多个弱分类器分类结果的组合来决定预测集微博情感的最终分类,以取得更加准确的微博情感分析。
本发明优点在于:引入深度学习中的卷积神经网,相比传统的机器学习模型,提取的微博文本特征更加抽象、更具代表性。同时在分类器的训练过程中,采用集成学习的思想,与单个分类器相比,这种集成学习、共同决策的方法可以提高微博文本情感分析的准确率。本发明可以快速准确地对未知情感的微博文本做出情感分析,对于把握舆论动向、金融决策分析,恐怖组织识别等有重要的应用价值。
附图说明
图1为基于卷积神经网络和集成学习的微博情感分析机制
图2为卷积神经网络模型在微博文本中的应用
具体实施方式
本发明提出了一种基于卷积神经网络和集成学习的微博情感分析方法,在提取微博文本抽象特征的基础上运用多个分类器共同决策微博情感,使得情感分析更加精确。图1显示了本方法提出的基于卷积神经网络和集成学习的微博情感分析机制。图2显示了卷积神经网络模型在微博文本处理中的具体应用。
具体实施步骤如下:
1)首先采用爬虫的手段采集微博文本数据集,并根据情感的不同对其进行情感划分,如积极、消极和中立;或者是主观和客观;再或者是更加细致的情感,如愤怒、生气、紧张、开心、难过等等。然后用现有的分词系统对微博文本进行分词处理,现有的分词系统有百度分词、结巴分词和中科院分词系统等等。如果一条微博文本s由n个词组构成,经分词预处理后可以表示为s={s1,s2,...,sn},这里包括表情字符转化后的对应词组。
2)用Word2vec工具对大规模语料进行训练,将词转化为数值型向量,每个词组选取其k维特征构建k维向量。如果微博文本中的词Si出现在训练语料中,那么就将Word2vec训练出的向量作为该词的词向量;如果未出现在训练语料中,就采取随机初始化的方式进行向量表示。这样每一条微博短文本都一个n*k的矩阵。
3)划分训练集和测试集,采用随机抽样的方式从训练集提取出m个训练样本。
4)利用卷积神经网络提取抽象特征。该模型每层卷积神经网络都由输入层和卷积层组成。第一层卷积网络的输入层为分词预处理和向量化表示后的矩阵。卷积层分为卷积和池化两部分,该层的核心思想是运用卷积获取文本的深层特征,同时配合池化来降低特征维度,归一化特征。每一个卷积核w为h*k的矩阵,h为卷积核长度。用该卷积核依次对文本进行卷积,过程如下:
zi=f(w*si:i+h-1+b)
其中,si:i+h-1为由第i个组到第i+h-1个词组所构成的长度为h的连续文本片段,*为卷积运算符,w为长度为h的卷积核,b为偏置项,f为激活函数ReLu(Rectified LinearUnits)。当卷积核w对整个文本作为卷积运算后,即可生成特征集Z={z1,z2,…,zn+h-1}。
由于卷积核长度h取值不同,得到的特征集长度也有所不同,为了归一化和降低权值数量,本文采用池化操作,将特征集中的最大值作为代表特征。这样,每一个卷积核均可以得到一个长度为k维的向量。
4)训练基分类器。把步骤3)中得到的抽象特征输入到基分类器Softmax中,该分类器通过计算该文本属于各类别的概率来判断其类别的划分:
其中,Pj为该文本属于类别j的概率,X,w,b分别为分类层的输入、权值矩阵和偏置项, L为类别数量。
5)用集成分类器对预测集文本进行分类。通过步骤3)4)可以在每一个训练样本上训练出一个弱分类器,因此一共可以训练出m个弱分类器,可采用投票法共同决策测试集微博文本的情感类别。
Claims (1)
1.一种基于卷积神经网络和集成学习的微博情感分析方法,包括下列步骤:
1)文本预处理:首先通过“爬虫”手段获取微博文本,采用人工标注的方式对微博文本进行情感标注,以此作为数据集;然后用中文分词工具进行分词预处理,将微博文本切成一个个单独的词,再重新组合成词序列;最后将预处理后的数据集划分为训练集和预测集,用训练集训练合理的分类器,用测试集对分类器的性能进行检测;
2)向量化表示:设一条微博文本s由n个词构成,经分词预处理后表示为s={s1,s2,...,sn};每个词都用k维向量表示,每一条微博文本都可以表示为一个n*k的矩阵,其中,向量值由word2vec工具训练得到,若某词未出现在word2vec的训练语料中,则采用随机初始化方式对该词对应的向量进行赋值;
3)利用卷积神经网络提取抽象特征:该卷积神经网络由输入层和卷积层组成,其中输入层为某条微博文本经步骤1)和2)后得到的矩阵,而卷积层又分为卷积和池化两部分,首先利用不同长度的卷积核对输入层的矩阵依次进行卷积,并通过Sigmoid激活函数得到相应的不同长度的卷积结果;为使结果归一化,可采用池化方法选取每个卷积核卷积后最大值作为该卷积核下的局部特征,用局部特征代替整条微博的抽象特征;
4)训练集成分类器;把步骤3)中得到的抽象特征输入到基分类器中,训练该样本下的弱分类器,在训练集中随机抽取不同样本,重复步骤2)3),得到若干弱分类器;最后把所有弱分类集成起来,通过多个弱分类器分类结果的组合来决定预测集微博情感的最终分类,以取得更加准确的微博情感分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710425862.2A CN107247703A (zh) | 2017-06-08 | 2017-06-08 | 基于卷积神经网络和集成学习的微博情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710425862.2A CN107247703A (zh) | 2017-06-08 | 2017-06-08 | 基于卷积神经网络和集成学习的微博情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107247703A true CN107247703A (zh) | 2017-10-13 |
Family
ID=60019078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710425862.2A Pending CN107247703A (zh) | 2017-06-08 | 2017-06-08 | 基于卷积神经网络和集成学习的微博情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107247703A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908715A (zh) * | 2017-11-10 | 2018-04-13 | 中国民航大学 | 基于Adaboost和分类器加权融合的微博情感极性判别方法 |
CN108334605A (zh) * | 2018-02-01 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN108714026A (zh) * | 2018-03-27 | 2018-10-30 | 杭州电子科技大学 | 基于深度卷积神经网络和在线决策融合的细粒度心电信号分类方法 |
CN108959243A (zh) * | 2018-05-17 | 2018-12-07 | 中国电子科技集团公司第二十八研究所 | 一种面向用户角色的通用舆论信息情感识别方法 |
CN108984775A (zh) * | 2018-07-24 | 2018-12-11 | 南京新贝金服科技有限公司 | 一种基于商品评论的舆情监控方法及系统 |
CN109697413A (zh) * | 2018-12-13 | 2019-04-30 | 合肥工业大学 | 基于头部姿态的人格分析方法、系统和存储介质 |
CN109871889A (zh) * | 2019-01-31 | 2019-06-11 | 内蒙古工业大学 | 突发事件下大众心理评估方法 |
CN110059183A (zh) * | 2019-03-22 | 2019-07-26 | 重庆邮电大学 | 一种基于大数据的汽车行业用户观点情感分类方法 |
CN110209824A (zh) * | 2019-06-13 | 2019-09-06 | 中国科学院自动化研究所 | 基于组合模型的文本情感分析方法、系统、装置 |
CN110362819A (zh) * | 2019-06-14 | 2019-10-22 | 中电万维信息技术有限责任公司 | 基于卷积神经网络的文本情感分析方法 |
CN112507115A (zh) * | 2020-12-07 | 2021-03-16 | 重庆邮电大学 | 一种弹幕文本中情感词的分类方法、装置及存储介质 |
CN113076846A (zh) * | 2021-03-26 | 2021-07-06 | 山东大学 | 心音分类识别方法及系统 |
CN113486752A (zh) * | 2021-06-29 | 2021-10-08 | 吉林大学 | 基于心电信号的情感识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103679185A (zh) * | 2012-08-31 | 2014-03-26 | 富士通株式会社 | 卷积神经网络分类器系统、其训练方法、分类方法和用途 |
CN106250832A (zh) * | 2016-07-25 | 2016-12-21 | 华南理工大学 | 一种基于集成卷积神经网络的民族识别方法 |
CN106776740A (zh) * | 2016-11-17 | 2017-05-31 | 天津大学 | 一种基于卷积神经网络的社交网络文本聚类方法 |
-
2017
- 2017-06-08 CN CN201710425862.2A patent/CN107247703A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103679185A (zh) * | 2012-08-31 | 2014-03-26 | 富士通株式会社 | 卷积神经网络分类器系统、其训练方法、分类方法和用途 |
CN106250832A (zh) * | 2016-07-25 | 2016-12-21 | 华南理工大学 | 一种基于集成卷积神经网络的民族识别方法 |
CN106776740A (zh) * | 2016-11-17 | 2017-05-31 | 天津大学 | 一种基于卷积神经网络的社交网络文本聚类方法 |
Non-Patent Citations (1)
Title |
---|
卢兴: "基于统计方法的中文短文本情感分析", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908715A (zh) * | 2017-11-10 | 2018-04-13 | 中国民航大学 | 基于Adaboost和分类器加权融合的微博情感极性判别方法 |
WO2019149200A1 (zh) * | 2018-02-01 | 2019-08-08 | 腾讯科技(深圳)有限公司 | 文本分类方法、计算机设备及存储介质 |
CN108334605A (zh) * | 2018-02-01 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
US11562145B2 (en) | 2018-02-01 | 2023-01-24 | Tencent Technology (Shenzhen) Company Limited | Text classification method, computer device, and storage medium |
CN108714026A (zh) * | 2018-03-27 | 2018-10-30 | 杭州电子科技大学 | 基于深度卷积神经网络和在线决策融合的细粒度心电信号分类方法 |
CN108959243A (zh) * | 2018-05-17 | 2018-12-07 | 中国电子科技集团公司第二十八研究所 | 一种面向用户角色的通用舆论信息情感识别方法 |
CN108984775A (zh) * | 2018-07-24 | 2018-12-11 | 南京新贝金服科技有限公司 | 一种基于商品评论的舆情监控方法及系统 |
CN108984775B (zh) * | 2018-07-24 | 2020-05-22 | 南京新贝金服科技有限公司 | 一种基于商品评论的舆情监控方法及系统 |
CN109697413A (zh) * | 2018-12-13 | 2019-04-30 | 合肥工业大学 | 基于头部姿态的人格分析方法、系统和存储介质 |
CN109697413B (zh) * | 2018-12-13 | 2021-04-06 | 合肥工业大学 | 基于头部姿态的人格分析方法、系统和存储介质 |
CN109871889A (zh) * | 2019-01-31 | 2019-06-11 | 内蒙古工业大学 | 突发事件下大众心理评估方法 |
CN109871889B (zh) * | 2019-01-31 | 2019-12-24 | 内蒙古工业大学 | 突发事件下大众心理评估方法 |
CN110059183A (zh) * | 2019-03-22 | 2019-07-26 | 重庆邮电大学 | 一种基于大数据的汽车行业用户观点情感分类方法 |
CN110059183B (zh) * | 2019-03-22 | 2022-08-23 | 重庆邮电大学 | 一种基于大数据的汽车行业用户观点情感分类方法 |
CN110209824B (zh) * | 2019-06-13 | 2021-06-22 | 中国科学院自动化研究所 | 基于组合模型的文本情感分析方法、系统、装置 |
CN110209824A (zh) * | 2019-06-13 | 2019-09-06 | 中国科学院自动化研究所 | 基于组合模型的文本情感分析方法、系统、装置 |
CN110362819A (zh) * | 2019-06-14 | 2019-10-22 | 中电万维信息技术有限责任公司 | 基于卷积神经网络的文本情感分析方法 |
CN110362819B (zh) * | 2019-06-14 | 2023-03-31 | 中电万维信息技术有限责任公司 | 基于卷积神经网络的文本情感分析方法 |
CN112507115A (zh) * | 2020-12-07 | 2021-03-16 | 重庆邮电大学 | 一种弹幕文本中情感词的分类方法、装置及存储介质 |
CN112507115B (zh) * | 2020-12-07 | 2023-02-03 | 重庆邮电大学 | 一种弹幕文本中情感词的分类方法、装置及存储介质 |
CN113076846A (zh) * | 2021-03-26 | 2021-07-06 | 山东大学 | 心音分类识别方法及系统 |
CN113486752A (zh) * | 2021-06-29 | 2021-10-08 | 吉林大学 | 基于心电信号的情感识别方法及系统 |
CN113486752B (zh) * | 2021-06-29 | 2023-06-16 | 吉林大学 | 基于心电信号的情感识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107247703A (zh) | 基于卷积神经网络和集成学习的微博情感分析方法 | |
Adoma et al. | Comparative analyses of bert, roberta, distilbert, and xlnet for text-based emotion recognition | |
CN109271522B (zh) | 基于深度混合模型迁移学习的评论情感分类方法及系统 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN110287320A (zh) | 一种结合注意力机制的深度学习多分类情感分析模型 | |
CN109766432B (zh) | 一种基于生成对抗网络的中文摘要生成方法和装置 | |
CN109558487A (zh) | 基于层次性多注意力网络的文档分类方法 | |
CN109241255A (zh) | 一种基于深度学习的意图识别方法 | |
CN107038480A (zh) | 一种基于卷积神经网络的文本情感分类方法 | |
CN107092596A (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN107608953B (zh) | 一种基于不定长上下文的词向量生成方法 | |
Cai et al. | Intelligent question answering in restricted domains using deep learning and question pair matching | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
Alvarez-Gonzalez et al. | Uncovering the limits of text-based emotion detection | |
CN110851593B (zh) | 一种基于位置与语义的复值词向量构建方法 | |
Chen et al. | Joint learning with both classification and regression models for age prediction | |
CN111222318A (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN108733675A (zh) | 基于大量样本数据的情感评价方法及装置 | |
CN105975497A (zh) | 微博话题自动推荐方法及装置 | |
CN110046353A (zh) | 一种基于多语言层次机制的方面级情感分析方法 | |
Wan | Sentiment analysis of Weibo comments based on deep neural network | |
CN108038166A (zh) | 一种基于词项主客观偏向性的中文微博情感分析方法 | |
CN115630653A (zh) | 一种基于BERT与BiLSTM的网络流行语情感分析方法 | |
CN108920451A (zh) | 基于动态阈值和多分类器的文本情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171013 |