CN106777040A - 一种基于情感极性感知算法的跨媒体微博舆情分析方法 - Google Patents
一种基于情感极性感知算法的跨媒体微博舆情分析方法 Download PDFInfo
- Publication number
- CN106777040A CN106777040A CN201611128106.5A CN201611128106A CN106777040A CN 106777040 A CN106777040 A CN 106777040A CN 201611128106 A CN201611128106 A CN 201611128106A CN 106777040 A CN106777040 A CN 106777040A
- Authority
- CN
- China
- Prior art keywords
- analysis
- information
- image
- tendency
- microblogging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于情感极性感知算法的跨媒体微博舆情分析方法,涉及文本情感分析。1)利用机器人爬虫自动抓取微博上的热门话题下的信息;2)对抓取到的信息进行预处理,过滤不相关的内容,并以规定的格式存储到数据库待分析;3)训练一个bag‑of‑words深度网络模型,并以该模型对输入的文本信息进行倾向性预测;4)训练一个bag‑of‑image‑words深度网络模型,并对输入的图像信息进行倾向性预测;5)综合步骤3)与4)中倾向性分析结果,给出最终结果,并以地理、话题、用户、时间等多维度的方式可视化展示,对倾向性信息进行统计学分析,获得关于舆情的宏观分析结果,对舆情的历史走势,将来发展做出描绘与评估。
Description
技术领域
本发明涉及文本情感分析,尤其是涉及一种基于情感极性感知算法的跨媒体微博舆情分析方法。
背景技术
现有的舆情情感分析算法,主要是利用文本特征进行情感分类,在社交媒体这种多媒体环境中,有时候文本信息是缺失的,这时候这些传统的算法就会失效,同理,仅仅利用图像的信息的话,图像信息缺失的情况下,算法也会失效;
文本情感分析有两大主流方法,一种是基于字典的方法,另一种是基于机器学习的方法。其中基于字典的方法,由Turney(Turney P.Thumbs up or thumbs down:Semanticorientation applied to unsupervised classification of reviews.Proc.of theACL.Morristown:ACL,2002,417-424)提出,主要手段是文本中首先提取情感相关的词组,然后据此计算整段文本的特征,从而得出情感分析结果。另一种是基于机器学习的方法,利用文本中提取到的特征,输入到朴素贝叶斯分类器、支持向量机等算法中进行训练和分类。(B.Pang,L.Lee el al.Thumbs up:sentiment classification using machine learningtechniques.In Proc.of the ACL-02conference on Empirical methods in naturallanguage processing-Volume 10,2002,79-86.)
关于图像情感分析,现有的算法数量要比文本情感分析算法少的多。D Borth etal.提出了一种运用ANP(形容词名词对)中层特征的情感分析方法。具体手段为对于输入图像,用若干个ANP检测子对其进行分析,输出对应ANP维数的中层特征,利用这些中层特征进行情感分类。
现有的情感分析技术都是针对文本或图像单一通道的,在实际运用场景中,若图像/文本信息有缺失,这些算法都会失效;同时,现有技术仅仅停留在算法研究阶段,没有对分析结果进行面向应用的组织。
发明内容
本发明的目的在于提供一种基于情感极性感知算法的跨媒体微博舆情分析方法。
本发明包括以下步骤:
1)利用机器人爬虫自动抓取微博上的热门话题下的信息;
2)对抓取到的信息进行预处理,过滤掉不相关的内容,并以规定的格式存储到数据库待分析;
3)对于文本信息,利用已有情感倾向性标注的训练数据训练一个bag-of-words深度网络模型,并以该模型对输入的文本信息进行倾向性预测;
4)对于图像信息,利用已有情感倾向性标注的训练数据训练一个bag-of-image-words深度网络模型,并以该模型对输入的图像信息进行倾向性预测;
5)综合步骤3)与4)中倾向性分析结果,给出最终结果,并以地理、话题、用户、时间等多维度的方式可视化展示,对倾向性信息进行统计学分析,进而获得关于舆情的宏观分析结果,对舆情的历史走势,将来发展做出描绘与评估。
在步骤1)中,所述信息包括但不限于文本、图像、链接、表情、用户地理位置、发布时间、用户名等有价值的数据。
本发明具有以下优点:
本发明全面综合了图像与文本的信息,互相补充,互相印证,同时在应用层面,以地理、时间、微博、话题等组织形式对算法分析结果做出了统计学分析,相较于单纯的算法,更有现实意义;同时引入深度网络算法,相较于传统方法,大大提升了算法的准确率。
传统的方法一般只关注文本信息,则情感分析问题可描述为:
yt=ft(T)
其中
T={w1,...,wj,...,wm},代表文本信息,wm代表第m个词,yt代表情感极性的分析结果,ft代表分析函数。
而本发明中,结合了文本与图像的跨媒体信息,则问题可描述为:
y=λft(T)+(1-λ)fp(I)
T和I分别代表文本和图像信息。用文本和图像分析结果的加权和代表最终情感倾向性分析结果,λ代表一个权重系数,用来平衡文本和图像信息的权重。
用bag-of-words的方法来表示一条文本信息为x:
as x={w1,...,wi,...,wm,p1,...,pj,...,pd}
其中w代表文本特征,p代表图像特征。因为图像和文本的底层特征通常非常不同,所以将其转化为代表词表示:Bag of Text Words以及Bag of Image Words
其中Bag of Text Words:
Ti={wi,1,...,wi,j,...,wi,m}
Wi,1代表积极情感的词在文本中的数量,其他的含义如表1所示。
表1
与此同时,在训练语料数目足够多的情况下,本发明可以用时间递归网络(LSTM,如图1所示)来端到端(end-to-end)的配合处理语料。利用足够多的有标数据,可以训练一个LSTM模型用于将语料直接映射到情感倾向分布,提高预测的精确度。
Bag of Image Words(词袋模型)则用top-N ANP来表示:
ANP即形容词名词对,对每种统计中经常出现的每个形容词名词对训练一个检测子,对应-2到2的情感极性评分。其中响应最高的top-N个ANP构成Bag of Image Words。
对于输入的特征:
xi={Ti,Ii}={wi,1,...,wi,j,...,wi,m,pi,1,...,pi,k,...,pi,d}
运用逻辑回归算法ytp=ftp(x)来做训练与预测:
其中Pr(C=k|X=x)代表对于输入x,其情感倾向为C=k的概率,βk0代表偏置项,代表K类的权重向量,且:
即对特定输入x,所有情感倾向的概率之和为1
训练过程可以表示为如下优化问题:
c*=argmaccPr(C=c|x)
即求出对于给定x输入的最大似然类别。
当模型训练收敛后,利用该模型就可以对情感倾向性进行预测和分类。
同时,在训练数据规模增大后,本发明中可以利用使用如图2所示的深度卷积网络(CNN)来替换上述模块,利用深度卷积网络端到端(end-to-end)训练的特性,将每一个ANP视为标签信息,利用输入图像和对应的标签信息在经典模型alexnet(结构如图2所示)上训练,训练收敛后,利用深度网络模型就可以对未知的输入图片进行检测,探测这张图片在n个ANP上的响应值,并将这些响应值视为中层特征,用于后续的情感倾向性检测工作。
在社交媒体中,如微博,利用爬虫技术抓取微博的图像及文本信息,处理成特定格式后,利用上述算法抽取特征并进行情感倾向性分析。特别的、当图像缺失或文本较短信息不足时候,上述方法能通过跨媒体获得信息进行补充,进而正常工作。在获得单条微博的倾向性后,在时间、地理、话题上对倾向性信息进行统计学分析,进而获得关于舆情的宏观分析结果,对舆情的历史走势,将来发展做出描绘与评估。
本发明不仅利用了社交媒体中的文本信息,还引入了对图像情感的分析,并将两者结合起来给出远较利用单个媒体信息的算法置信度更高的结果;本发明还实现了从数据爬取、数据预处理、数据分析到前台展示一体化架构,可以实时在线运行分析。
1,本发明整合了文本到图像的跨媒体情感分析模式,能够有效解决利用单个媒体做情感分析时准确率不高的现实问题;
2,本发明在情感分析的算法基础上,利用分析结果实现了对社交媒体信息在地理尺度、时间尺度、话题尺度、单条微博尺度上的实时舆情监控算法,搭建了从抓取信息到分析到展示一站式平台;
3,本发明在实际舆情环境中运行测试,验证了系统的可行性与实用性。
附图说明
图1为RNN(递归神经网络)LSTM(时间递归神经网络)的基本单元示意图。
图2为CNN(卷积神经网络)Alexnet的基本结构示意图。
具体实施方式
本发明包括以下步骤:
1)利用机器人爬虫自动抓取微博上的热门话题下的信息,所述信息包括但不限于文本、图像、链接、表情、用户地理位置、发布时间、用户名等有价值的数据;
2)对抓取到的信息进行预处理,过滤掉不相关的内容,并以规定的格式存储到数据库待分析;
3)对于文本信息,利用已有情感倾向性标注的训练数据训练一个bag-of-words深度网络模型,并以该模型对输入的文本信息进行倾向性预测;
4)对于图像信息,利用已有情感倾向性标注的训练数据训练一个bag-of-image-words深度网络模型,并以该模型对输入的图像信息进行倾向性预测;
5)综合步骤3)与4)中倾向性分析结果,给出最终结果,并以地理、话题、用户、时间等多维度的方式可视化展示,对倾向性信息进行统计学分析,进而获得关于舆情的宏观分析结果,对舆情的历史走势,将来发展做出描绘与评估。
本发明具有以下优点:
本发明全面综合了图像与文本的信息,互相补充,互相印证,同时在应用层面,以地理、时间、微博、话题等组织形式对算法分析结果做出了统计学分析,相较于单纯的算法,更有现实意义。
传统的方法一般只关注文本信息,则情感分析问题可描述为:
yt=ft(T)
其中
T={w1,...,wj,...,wm},代表文本信息,wm代表第m个词,yt代表情感极性的分析结果,ft代表分析函数。
而本发明中,结合了文本与图像的跨媒体信息,则问题可描述为:
y=λft(T)+(1-λ)fp(I)
T和I分别代表文本和图像信息。用文本和图像分析结果的加权和代表最终情感倾向性分析结果,λ代表一个权重系数,用来平衡文本和图像信息的权重。
用bag-of-words的方法来表示一条文本信息为x:
as X={w1,...,wi,...,wm,p1,...,pj,...,Pd}
其中w代表文本特征,p代表图像特征。因为图像和文本的底层特征通常非常不同,所以将其转化为代表词表示:Bag of Text Words以及Bag of Image Words
其中Bag of Text Words:
Ti={wi,1,...,wi,j,...,wi,m}
Wi,1代表积极情感的词在文本中的数量,其他的含义如表1所示:
表1
Bag of Image Words(词袋模型)则用top-N ANP来表示:
ANP即形容词名词对,对每种统计中经常出现的每个形容词名词对训练一个检测子,对应-2到2的情感极性评分。其中响应最高的top-N个ANP构成Bag of Image Words。
对于输入的特征:
xi={Ti,Ii}={wi,1,...,wi,j,...,wi,m,pi,1,...,pi,k,...,pi,d}
运用逻辑回归算法ytp=ftp(x)来做训练与预测:
其中Pr(C=k|X=x)代表对于输入x,其情感倾向为C=k的概率,βk0代表偏置项,代表K类的权重向量,且:
即对特定输入x,所有情感倾向的概率之和为1。
训练过程可以表示为如下优化问题:
c*=argmaccPr(C=c|x)
即求出对于给定x输入的最大似然类别。
当模型训练收敛后,利用该模型就可以对情感倾向性进行预测和分类。
在社交媒体中,如微博,利用爬虫技术抓取微博的图像及文本信息,处理成特定格式后,利用上述算法抽取特征并进行情感倾向性分析。特别的、当图像缺失或文本较短信息不足时候,上述方法能通过跨媒体获得信息进行补充,进而正常工作。在获得单条微博的倾向性后,在时间、地理、话题上对倾向性信息进行统计学分析,进而获得关于舆情的宏观分析结果,对舆情的历史走势,将来发展做出描绘与评估。
Claims (2)
1.一种基于情感极性感知算法的跨媒体微博舆情分析方法,其特征在于包括以下步骤:
1)利用机器人爬虫自动抓取微博上的热门话题下的信息;
2)对抓取到的信息进行预处理,过滤掉不相关的内容,并以规定的格式存储到数据库待分析;
3)对于文本信息,利用已有情感倾向性标注的训练数据训练一个bag-of-words深度网络模型,并以该模型对输入的文本信息进行倾向性预测;
4)对于图像信息,利用已有情感倾向性标注的训练数据训练一个bag-of-image-words深度网络模型,并以该模型对输入的图像信息进行倾向性预测;
5)综合步骤3)与4)中倾向性分析结果,给出最终结果,并以地理、话题、用户、时间多维度的方式可视化展示,对倾向性信息进行统计学分析,进而获得关于舆情的宏观分析结果,对舆情的历史走势,将来发展做出描绘与评估。
2.如权利要求1所述一种基于情感极性感知算法的跨媒体微博舆情分析方法,其特征在于在步骤1)中,所述信息包括但不限于文本、图像、链接、表情、用户地理位置、发布时间、用户名。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611128106.5A CN106777040A (zh) | 2016-12-09 | 2016-12-09 | 一种基于情感极性感知算法的跨媒体微博舆情分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611128106.5A CN106777040A (zh) | 2016-12-09 | 2016-12-09 | 一种基于情感极性感知算法的跨媒体微博舆情分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106777040A true CN106777040A (zh) | 2017-05-31 |
Family
ID=58874806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611128106.5A Pending CN106777040A (zh) | 2016-12-09 | 2016-12-09 | 一种基于情感极性感知算法的跨媒体微博舆情分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106777040A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330613A (zh) * | 2017-06-29 | 2017-11-07 | 平安万家医疗投资管理有限责任公司 | 一种舆情监控方法、设备及计算机可读存储介质 |
CN107402997A (zh) * | 2017-07-20 | 2017-11-28 | 中国电子科技集团公司电子科学研究院 | 网络舆情态势的安全评估方法、终端及计算机存储介质 |
CN108108849A (zh) * | 2017-12-31 | 2018-06-01 | 厦门大学 | 一种基于弱监督多模态深度学习的微博情感预测方法 |
CN110083726A (zh) * | 2019-03-11 | 2019-08-02 | 北京比速信息科技有限公司 | 一种基于ugc图片数据的目的地形象感知方法 |
CN110162606A (zh) * | 2018-02-13 | 2019-08-23 | 国际商业机器公司 | 用于解决客户端服务请求的会话代理学习模型服务选择 |
CN111178586A (zh) * | 2019-12-06 | 2020-05-19 | 浙江工业大学 | 网络爱国舆情事件跟踪、预测和疏导方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034626A (zh) * | 2012-12-26 | 2013-04-10 | 上海交通大学 | 情感分析系统及方法 |
CN104537097A (zh) * | 2015-01-09 | 2015-04-22 | 成都布林特信息技术有限公司 | 微博舆情监测系统 |
CN106202413A (zh) * | 2016-07-11 | 2016-12-07 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
-
2016
- 2016-12-09 CN CN201611128106.5A patent/CN106777040A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034626A (zh) * | 2012-12-26 | 2013-04-10 | 上海交通大学 | 情感分析系统及方法 |
CN104537097A (zh) * | 2015-01-09 | 2015-04-22 | 成都布林特信息技术有限公司 | 微博舆情监测系统 |
CN106202413A (zh) * | 2016-07-11 | 2016-12-07 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
Non-Patent Citations (3)
Title |
---|
SAVITCH: "一篇给力的Bag-of-words模型入门介绍文章~", 《HTTPS://BLOG.CSDN.NET/WSJ998689AA/ARTICLE/DETAILS/47089153》 * |
董志南: "用"一袋子词"进行情感分析", 《HTTPS://WWW.INFOQ.CN/ARTICLE/SENTIMENT-ANALYSIS-USING-BAG-OF-WORDS》 * |
黄微 等: "网络舆情信息语义识别关键技术分析", 《图书情报工作》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330613A (zh) * | 2017-06-29 | 2017-11-07 | 平安万家医疗投资管理有限责任公司 | 一种舆情监控方法、设备及计算机可读存储介质 |
CN107402997A (zh) * | 2017-07-20 | 2017-11-28 | 中国电子科技集团公司电子科学研究院 | 网络舆情态势的安全评估方法、终端及计算机存储介质 |
CN107402997B (zh) * | 2017-07-20 | 2020-08-07 | 中国电子科技集团公司电子科学研究院 | 网络舆情态势的安全评估方法、终端及计算机存储介质 |
CN108108849A (zh) * | 2017-12-31 | 2018-06-01 | 厦门大学 | 一种基于弱监督多模态深度学习的微博情感预测方法 |
CN110162606A (zh) * | 2018-02-13 | 2019-08-23 | 国际商业机器公司 | 用于解决客户端服务请求的会话代理学习模型服务选择 |
CN110162606B (zh) * | 2018-02-13 | 2023-05-09 | 国际商业机器公司 | 用于解决客户端服务请求的会话代理学习模型服务选择 |
CN110083726A (zh) * | 2019-03-11 | 2019-08-02 | 北京比速信息科技有限公司 | 一种基于ugc图片数据的目的地形象感知方法 |
CN111178586A (zh) * | 2019-12-06 | 2020-05-19 | 浙江工业大学 | 网络爱国舆情事件跟踪、预测和疏导方法 |
CN111178586B (zh) * | 2019-12-06 | 2022-09-23 | 浙江工业大学 | 网络爱国舆情事件跟踪、预测和疏导方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | An image-text consistency driven multimodal sentiment analysis approach for social media | |
Zhang et al. | A gated peripheral-foveal convolutional neural network for unified image aesthetic prediction | |
Guimaraes et al. | Age groups classification in social network using deep learning | |
CN106777040A (zh) | 一种基于情感极性感知算法的跨媒体微博舆情分析方法 | |
CN109508375A (zh) | 一种基于多模态融合的社交情感分类方法 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN108427670A (zh) | 一种基于语境词向量和深度学习的情感分析方法 | |
CN107590134A (zh) | 文本情感分类方法、存储介质及计算机 | |
CN110781668B (zh) | 文本信息的类型识别方法及装置 | |
CN108664932B (zh) | 一种基于多源信息融合的学习情感状态识别方法 | |
CN104899298A (zh) | 一种基于大规模语料特征学习的微博情感分析方法 | |
CN106649603A (zh) | 一种基于网页文本数据情感分类的指定信息推送方法 | |
CN107491435A (zh) | 基于计算机自动识别用户情感的方法及装置 | |
Pong-Inwong et al. | Improved sentiment analysis for teaching evaluation using feature selection and voting ensemble learning integration | |
CN106355446B (zh) | 一种网络和手机游戏的广告推荐系统 | |
Wang et al. | A machine learning analysis of Twitter sentiment to the Sandy Hook shootings | |
CN111309936A (zh) | 一种电影用户画像的构建方法 | |
CN110263822A (zh) | 一种基于多任务学习方式的图像情感分析方法 | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
CN112800225B (zh) | 一种微博评论情绪分类方法和系统 | |
CN115982473A (zh) | 一种基于aigc的舆情分析编排系统 | |
CN114416969A (zh) | 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统 | |
CN112364852B (zh) | 融合全局信息的动作视频段提取方法 | |
Saha et al. | The corporeality of infotainment on fans feedback towards sports comment employing convolutional long-short term neural network | |
Drishya et al. | Cyberbully image and text detection using convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |
|
RJ01 | Rejection of invention patent application after publication |