CN112765350A - 基于表情图和文本信息的微博评论情感分类方法 - Google Patents
基于表情图和文本信息的微博评论情感分类方法 Download PDFInfo
- Publication number
- CN112765350A CN112765350A CN202110059360.9A CN202110059360A CN112765350A CN 112765350 A CN112765350 A CN 112765350A CN 202110059360 A CN202110059360 A CN 202110059360A CN 112765350 A CN112765350 A CN 112765350A
- Authority
- CN
- China
- Prior art keywords
- emotion
- microblog
- expression
- text
- emoticon
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于微博评论情感分类领域,提出一种基于表情图和文本信息的微博评论情感分类方法,包括:首先,对微博评论进行预处理,并构建表情图加权网络,计算表情图的五维情感值,同时构建表情图情感描述词典,结合情感词典获得表情图向量,其中,每条微博评论至少包含一个表情图,且文本长度至少为5;其次,将微博评论中的文本句子和表情序列送入双向LSTM模型,获得文本句子表示和表情图表示;然后,结合文本句子表示和表情图表示学习得到微博评论最终嵌入,利用Softmax分类器对其进行情感分类。本发明能够有机地结合表情图和文本句子的信息,利用深度学习的双向LSTM模型进行微博评论情感分类,保证微博评论情感分类的准确性。
Description
技术领域
本发明涉及微博评论情感分类领域,特别涉及一种基于表情图和文本信息的微博评论情感分类方法。
背景技术
微博用户广泛使用表情图和文字信息,表达个人情感,表情图作为文字信息情感表达的重要补充,两者结合研究才能正确传达微博用户的真实情感。
情感分析的任务是从互联网上各种各样的评论数据中挖掘出用户的态度和情感倾向。通过情感分析系统,可以将非结构化信息转化成结构化信息。但是,表情图所表达的情感丰富,不便于挖掘和处理,传统的微博情感分析一般不考虑表情图蕴含的情感信息,情感分析准确率不够高。
随着深度学习技术的快速发展,神经网络模型广泛地运用于情感分析研究。基于深度学习模型强大的特征抽取能力,构建基于表情图和文本信息的深度学习情感分析方法具有广阔的应用前景,有利于获得较高分类准确度。
发明内容
本发明的目的是提供一种基于表情图和文本信息的微博评论情感分类方法,能够有机地结合表情图和文本句子的信息,利用深度学习的双向LSTM模型进行微博评论情感分类,保证微博评论情感分类的准确性。
本发明解决其技术问题,采用的技术方案是:
本发明提出一种基于表情图和文本信息的微博评论情感分类方法,包括如下步骤:
步骤1.对微博评论进行预处理,并构建表情图加权网络,计算表情图的五维情感值,同时构建表情图情感描述词典,结合情感词典获得表情图向量,其中,每条微博评论至少包含一个表情图,且文本长度至少为5;
步骤2.将微博评论中的文本句子和表情序列送入双向LSTM模型,获得文本句子表示和表情图表示;
步骤3.结合文本句子表示和表情图表示学习得到微博评论最终嵌入,利用Softmax分类器对其进行情感分类。
进一步的是,步骤1中:
首先,对每条微博评论进行处理,去除不含表情图,且文本长度少于5的微博评论,获得微博评论;
其次,构建表情图加权网络,其中,顶点为微博评论中的表情图,边上的权重为表情图之间的相似度;
然后,将表情图分为喜欢、开心、愤怒、悲伤和厌恶五维情感,对每个表情图建立五维向量,基于微博评论中表情图序列,得到表情图序列的情感矩阵;
最后,基于表情图五维情感,构建表情图的情感描述词典,结合表情序列的情感矩阵,得到表情图情感向量。
进一步的是,步骤1具体包括如下步骤:
步骤101.对获取的微博评论,去除不含表情图和文本长度小于5的微博评论,构建微博评论集,划分为微博评论句子集和表情图集;
步骤102.构建表情图加权网络,其中顶点为微博评论中的表情图,边上的权重为表情图之间的相似度;
步骤103.计算表情图的五维情感值;
步骤104.计算表情图集的初始情感矩阵和情感转移矩阵;
步骤105.利用Softmax函数,得到表情图集的最终情感矩阵;
步骤106.分别对喜欢、开心、愤怒、悲伤及厌恶进行情感描述词扩充,构建情感描述词词典;
步骤107.分别计算喜欢、开心、愤怒、悲伤及厌恶五类情感对应的最终情感向量;
步骤108.计算表情图向量。
进一步的是,步骤2具体包括如下步骤:
步骤201.利用Jieba分词工具得到每条微博评论的词序列,建立文本词典,进而获得文本嵌入矩阵;
步骤202.利用表情图情感向量,得到表情图嵌入矩阵;
步骤203.再将文本嵌入矩阵和表情图嵌入矩阵送入双向LSTM模型,获得文本句子表示和表情图表示。
进一步的是,步骤203具体包括如下步骤:
步骤2021.获得隐层向量与表情图序列嵌入之间的关系;
步骤2022.计算表情图与文本句子之间的相关程度;
步骤2023.计算表情图表示。
进一步的是,步骤3中具体包括如下步骤:
步骤301.结合文本句子表示和表情图表示学习得到微博评论最终嵌入;
步骤302.将最终嵌入送入到Softmax分类器中进行情感分类;
步骤303.利用Softmax分类器计算情感三分类分布;
步骤304.选择情感三分类分布中最大元素对应的情感类作为微博评论文本的情感极性;
步骤305.采用交叉熵对涉及的参数进行优化。
本发明的有益效果是,通过上述基于表情图和文本信息的微博评论情感分类方法,通过构建表情图加权网络和表情图描述词词典,获得表情图向量,能够增强了微博评论的情感信息,并且,有机地结合表情图和文本句子的信息,利用深度学习的双向LSTM模型进行微博评论情感分类,能够得到的文本句子表示和表情图表示具有更强的微博评论特征信息,另外,采用交叉熵函数对微博评论情感分类方法中涉及的参数进行优化,能够使得Softmax分类器所获得的情感分类更加准确。
附图说明
图1为本发明实施例中基于表情图和文本信息的微博评论情感分类方法的流程图;
图2为本发明实施例中基于表情图和文本信息的微博评论情感分类方法的整体架构图。
具体实施方式
下面结合附图及实施例,详细描述本发明的技术方案。
实施例
本发明实施例提出一种基于表情图和文本信息的微博评论情感分类方法,其流程图见图1,其中,该方法包括如下步骤:
S1.对微博评论进行预处理,并构建表情图加权网络,计算表情图的五维情感值,同时构建表情图情感描述词典,结合情感词典获得表情图向量,其中,每条微博评论至少包含一个表情图,且文本长度至少为5。
S2.将微博评论中的文本句子和表情序列送入双向LSTM模型,获得文本句子表示和表情图表示。
S3.结合文本句子表示和表情图表示学习得到微博评论最终嵌入,利用 Softmax分类器对其进行情感分类。
参见图2的整体结构图,其中,S1包括:
S1-1:对每条微博评论进行处理,去除不含表情图,文本长度少于5的微博评论,获得微博评论数据(含有表情图)。
S1-2:计算两个表情图的相似性,作为它们之间边的权重,构建表情图加权网络。
S1-3:基于心理学家Parrot的人类情感分类,将表情图分为喜欢、开心、愤怒、悲伤和厌恶五维情感,对每个表情图建立五维向量,考虑微博评论中表情图序列的影响,最终得到表情图序列的情感矩阵。
S1-4:基于表情图五维情感,构建表情图的情感描述词典,结合表情序列的情感矩阵,得到表情图情感向量。
具体实施过程中,本实施例的S1可按如下方式实现:
(1)对获取的微博评论,去除不含表情图和文本长度小于5的微博评论,构建微博评论数据集,划分为微博评论句子集C={ci|1≤i≤n}和表情图集ES={ej|1≤j≤m},其中ci表示C中的第i个评论,ej表示ES中第j个表情图。
(2)构建表情图加权网络,其中顶点为微博评论中的表情图,边上的权重为表情图之间的相似度,计算ej与ek的相似度为:
其中,coN(ej,ek)和N(ej)分别表示微博评论中同时包含表情图 ej和ek的评论数量和包含表情图ej的评论数量。
(3)计算表情图的五维情感值,设表情图ej的五维向量为:
(4)计算表情图集的初始情感矩阵和情感转移矩阵:
(5)利用Softmax函数,得到表情图集的最终情感矩阵:
(6)分别对喜欢、开心、愤怒、悲伤、厌恶进行情感描述词扩充,构建情感描述词词典,设每类情感的描述词向量序列为 Ft=(iw1,iw2,…,iwp)∈Rd×p,其中t为五类情感中的一种。
(7)分别计算喜欢、开心、愤怒、悲伤、厌恶五类情感对应的最终情感向量:
其中,iwj(kj)表示iwj,的第k行的值,k=1,2,…,d.因此,情感向量矩阵V=[v1,v2,v3v4,v5]。
(8)计算表情图向量:
需要指出的是,本实施例中,S2包括:
S2-1:利用Jieba分词工具得到每条微博评论的词序列,建立文本词典,进而获得文本嵌入矩阵。
S2-2:利用表情图情感向量,得到表情图嵌入矩阵。
S2-3:将文本嵌入矩阵和表情图嵌入矩阵送入双向LSTM模型,获得文本句子表示和表情图表示。
本实施例中,S2具体可按以下步骤实现:
(1)利用Jieba分词工具得到每条微博评论的词序列,建立文本词典,将微博评论中的文本句子对应的文本嵌入矩阵送入双向LSTM模型:
(2)基于表情图向量,得到表情图序列嵌入矩阵,送入双向LSTM,获得表情图表示。
这里,首先,获得隐层向量与表情图序列嵌入之间的关系:
M=tanh(EUHT)
其次,计算表情图与文本句子之间的相关程度:
score(ei)=maxcol(M),
其中,maxcol(M)表示M按列最大池化。
最后,计算表情图表示:
需要说明的是,本实施例中,S3包括:
S3-1:结合文本句子表示和表情图表示学习得到微博评论最终嵌入。
S3-2:将最终嵌入送入到Softmax分类器中进行情感分类。
S3-3:利用交叉熵函数不断优化模型参数,保证情感分类准确性。
本实施例中,S3具体可按以下步骤实现:
(1)结合文本句子表示和表情图表示学习得到微博评论最终嵌入:
d=tanh(Wts+Wrr+b),
其中,Wt,Wr∈Rd×d分别表示文本表示s和表情图r的参数,b表示偏执项。
(2)利用Softmax分类器计算情感三分类分布:
p=softmax(d)。
这里,选择p中最大元素对应的情感类作为微博评论文本的情感极性:
sent_polarity(S)=argmax(p)。
这里D为微博评论数据训练集,pk(d)表示样本d属于k类(积极、中性和消极)的概率,yk(d)表示指示变量,k=1,2,3:预测分类和样本分类一致,其值为1,反之为0。
所以,本实施例通过构建表情图加权网络和表情图描述词词典,获得了表情图向量,并有机地结合表情图和文本句子的信息,利用深度学习的双向LSTM 模型进行微博评论情感分类,保证了微博评论情感分类的准确性。
Claims (6)
1.基于表情图和文本信息的微博评论情感分类方法,其特征在于,包括如下步骤:
步骤1.对微博评论进行预处理,并构建表情图加权网络,计算表情图的五维情感值,同时构建表情图情感描述词典,结合情感词典获得表情图向量,其中,每条微博评论至少包含一个表情图,且文本长度至少为5;
步骤2.将微博评论中的文本句子和表情序列送入双向LSTM模型,获得文本句子表示和表情图表示;
步骤3.结合文本句子表示和表情图表示学习得到微博评论最终嵌入,利用Softmax分类器对其进行情感分类。
2.根据权利要求1所述的基于表情图和文本信息的微博评论情感分类方法,其特征在于,步骤1中:
首先,对每条微博评论进行处理,去除不含表情图,且文本长度少于5的微博评论,获得微博评论;
其次,构建表情图加权网络,其中,顶点为微博评论中的表情图,边上的权重为表情图之间的相似度;
然后,将表情图分为喜欢、开心、愤怒、悲伤和厌恶五维情感,对每个表情图建立五维向量,基于微博评论中表情图序列,得到表情图序列的情感矩阵;
最后,基于表情图五维情感,构建表情图的情感描述词典,结合表情序列的情感矩阵,得到表情图情感向量。
3.根据权利要求2所述的基于表情图和文本信息的微博评论情感分类方法,其特征在于,步骤1具体包括如下步骤:
步骤101.对获取的微博评论,去除不含表情图和文本长度小于5的微博评论,构建微博评论集,划分为微博评论句子集和表情图集;
步骤102.构建表情图加权网络,其中顶点为微博评论中的表情图,边上的权重为表情图之间的相似度;
步骤103.计算表情图的五维情感值;
步骤104.计算表情图集的初始情感矩阵和情感转移矩阵;
步骤105.利用Softmax函数,得到表情图集的最终情感矩阵;
步骤106.分别对喜欢、开心、愤怒、悲伤及厌恶进行情感描述词扩充,构建情感描述词词典;
步骤107.分别计算喜欢、开心、愤怒、悲伤及厌恶五类情感对应的最终情感向量;
步骤108.计算表情图向量。
4.根据权利要求1所述的基于表情图和文本信息的微博评论情感分类方法,其特征在于,步骤2具体包括如下步骤:
步骤201.利用Jieba分词工具得到每条微博评论的词序列,建立文本词典,进而获得文本嵌入矩阵;
步骤202.利用表情图情感向量,得到表情图嵌入矩阵;
步骤203.再将文本嵌入矩阵和表情图嵌入矩阵送入双向LSTM模型,获得文本句子表示和表情图表示。
5.根据权利要求4所述的基于表情图和文本信息的微博评论情感分类方法,其特征在于,步骤203具体包括如下步骤:
步骤2021.获得隐层向量与表情图序列嵌入之间的关系;
步骤2022.计算表情图与文本句子之间的相关程度;
步骤2023.计算表情图表示。
6.根据权利要求1所述的基于表情图和文本信息的微博评论情感分类方法,其特征在于,步骤3中具体包括如下步骤:
步骤301.结合文本句子表示和表情图表示学习得到微博评论最终嵌入;
步骤302.将最终嵌入送入到Softmax分类器中进行情感分类;
步骤303.利用Softmax分类器计算情感三分类分布;
步骤304.选择情感三分类分布中最大元素对应的情感类作为微博评论文本的情感极性;
步骤305.采用交叉熵对涉及的参数进行优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110059360.9A CN112765350A (zh) | 2021-01-15 | 2021-01-15 | 基于表情图和文本信息的微博评论情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110059360.9A CN112765350A (zh) | 2021-01-15 | 2021-01-15 | 基于表情图和文本信息的微博评论情感分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112765350A true CN112765350A (zh) | 2021-05-07 |
Family
ID=75702334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110059360.9A Pending CN112765350A (zh) | 2021-01-15 | 2021-01-15 | 基于表情图和文本信息的微博评论情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765350A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN105912720A (zh) * | 2016-05-04 | 2016-08-31 | 南京大学 | 一种计算机中涉及情感的文本数据分析方法 |
CN108563638A (zh) * | 2018-04-13 | 2018-09-21 | 武汉大学 | 一种基于主题识别和集成学习的微博情感分析方法 |
CN109376251A (zh) * | 2018-09-25 | 2019-02-22 | 南京大学 | 一种基于词向量学习模型的微博中文情感词典构建方法 |
US20190122232A1 (en) * | 2017-10-25 | 2019-04-25 | Mashwork Inc. Dba Canvs | Systems and methods for improving classifier accuracy |
CN111008274A (zh) * | 2019-12-10 | 2020-04-14 | 昆明理工大学 | 特征扩展卷积神经网络的案件微博观点句识别构建方法 |
CN111324734A (zh) * | 2020-02-17 | 2020-06-23 | 昆明理工大学 | 融合情绪知识的案件微博评论情绪分类方法 |
CN111523319A (zh) * | 2020-04-10 | 2020-08-11 | 广东海洋大学 | 基于情景lstm结构网络的微博情感分析方法 |
-
2021
- 2021-01-15 CN CN202110059360.9A patent/CN112765350A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN105912720A (zh) * | 2016-05-04 | 2016-08-31 | 南京大学 | 一种计算机中涉及情感的文本数据分析方法 |
US20190122232A1 (en) * | 2017-10-25 | 2019-04-25 | Mashwork Inc. Dba Canvs | Systems and methods for improving classifier accuracy |
CN108563638A (zh) * | 2018-04-13 | 2018-09-21 | 武汉大学 | 一种基于主题识别和集成学习的微博情感分析方法 |
CN109376251A (zh) * | 2018-09-25 | 2019-02-22 | 南京大学 | 一种基于词向量学习模型的微博中文情感词典构建方法 |
CN111008274A (zh) * | 2019-12-10 | 2020-04-14 | 昆明理工大学 | 特征扩展卷积神经网络的案件微博观点句识别构建方法 |
CN111324734A (zh) * | 2020-02-17 | 2020-06-23 | 昆明理工大学 | 融合情绪知识的案件微博评论情绪分类方法 |
CN111523319A (zh) * | 2020-04-10 | 2020-08-11 | 广东海洋大学 | 基于情景lstm结构网络的微博情感分析方法 |
Non-Patent Citations (1)
Title |
---|
张家波: "融合emoji表情的中文微博文本情感分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 December 2020 (2020-12-15), pages 3 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866117B (zh) | 一种基于语义增强与多层次标签嵌入的短文本分类方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN108763326B (zh) | 一种基于特征多样化的卷积神经网络的情感分析模型构建方法 | |
US11631007B2 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN111930942A (zh) | 文本分类方法、语言模型训练方法、装置及设备 | |
Rasheed et al. | Handwritten Urdu characters and digits recognition using transfer learning and augmentation with AlexNet | |
Zouzou et al. | Text sentiment analysis with CNN & GRU model using GloVe | |
CN111581974A (zh) | 一种基于深度学习的生物医学实体识别方法 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN112925904A (zh) | 一种基于Tucker分解的轻量级文本分类方法 | |
Jia | Chinese sentiment classification based on Word2vec and vector arithmetic in human–robot conversation | |
Sari et al. | Sequential models for text classification using recurrent neural network | |
CN109670169B (zh) | 一种基于特征提取的深度学习情感分类方法 | |
CN111950592B (zh) | 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法 | |
CN117195148A (zh) | 基于表情、脑电及语音多模态融合的矿工情绪识别方法 | |
CN111737467A (zh) | 一种基于分段卷积神经网络的对象级情感分类方法 | |
Baccour et al. | Applications and comparisons of fuzzy similarity measures | |
Xia | Label oriented hierarchical attention neural network for short text classification | |
CN113190681B (zh) | 一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法 | |
CN114239575B (zh) | 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备 | |
CN112765350A (zh) | 基于表情图和文本信息的微博评论情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210507 |
|
RJ01 | Rejection of invention patent application after publication |