CN109933664B - 一种基于情感词嵌入的细粒度情绪分析改进方法 - Google Patents

一种基于情感词嵌入的细粒度情绪分析改进方法 Download PDF

Info

Publication number
CN109933664B
CN109933664B CN201910182419.6A CN201910182419A CN109933664B CN 109933664 B CN109933664 B CN 109933664B CN 201910182419 A CN201910182419 A CN 201910182419A CN 109933664 B CN109933664 B CN 109933664B
Authority
CN
China
Prior art keywords
emotion
word
word vector
semantic
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910182419.6A
Other languages
English (en)
Other versions
CN109933664A (zh
Inventor
李芳芳
畅帅
毛星亮
施荣华
石金晶
胡超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mido Technology Co ltd
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201910182419.6A priority Critical patent/CN109933664B/zh
Publication of CN109933664A publication Critical patent/CN109933664A/zh
Application granted granted Critical
Publication of CN109933664B publication Critical patent/CN109933664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于情感词嵌入的细粒度情绪分析改进方法,包括:文本数据集的获取、人工标注及预处理。计算文本数据集中每个单词对应的语义词向量。获取情感词集合。计算训练数据集中每个单词对应的一组情感词组。计算训练数据集中每个单词对应的情绪词向量。构建训练数据集中每个单词对应的情感词嵌入。训练分类器得到细粒度情绪分析模型。本发明利用先验情感知识结合词嵌入模型,并构造适用于细粒度情绪分析的情感词嵌入进行情绪分析。本发明可以更好地识别词语级别的情绪信息,更加精准、细粒度的描述用户的情绪,可以用于细粒度的情绪分析任务,例如:用户的消费习惯分析,用户对商品的评论分析等。

Description

一种基于情感词嵌入的细粒度情绪分析改进方法
技术领域
本发明属于中文文本情绪分析技术领域,特别涉及一种针对中文短文本如微博、网络评论的基于情感词嵌入的细粒度情绪分析改进方法细粒度情绪分析方法。
背景技术
互联网发展如此迅猛,每天有数百万人使用社交网络,如微博、贴吧等在线平台表达他们对产品、服务、新闻、事件等的看法。分析用户所表达的意见或者观点对营销专业人员和研究人员来说非常重要。由于微博在中国社会的普及,微博文本的情绪分析变得越来越重要。自2013年起,中国计算机学会(简称CCF)在第二届自然语言处理与中文计算会议(简称NLPCC)中专门设立了中文微博情感分类评测任务,从此之后吸引了国内外众多研究人员和研究机构参与评测。2018年该会议已成功举办七届,为中文微博情绪分析做出了巨大贡献。
微博与电影评论等传统长文本的情绪分析有若干不同之处。首先,它不超过140个中文单词。内容极为的简短但是所包含的信息非常丰富。其次,中文在某种程度上与英语有很大的不同,如语法或句子结构,所以英文文本如twitter的情绪分析研究成果难以适用于中文微博分析。第三,微博中使用的词比正式文本更加随意。例如,网络流行词有“麻麻”、“跪了”。“跪了”原本指传统上没有情感极性的行为,但现在它等于一种令人沮丧的情绪。第四,这些网络流行词中的一些词由于其非正式性,甚至具有不同的意义和不同的情绪。
情绪分析是指从包含人们意见的潜在信息的原始数据集中识别主观信息的过程,通常包括对文本进行积极、消极、中性的识别。专利200910219161.9 根据不同主题文本的语言表达方式估计主题语言模型,计算待处理文本的语言模型与正负情感模型的距离,选取距离最近的情感模型的情感倾向赋予该文本。专利201210088366.X基于正负情感词典判断所有包含主题词的句子的极性,计算结果集合中正面句子极性之和及负面句子极性之和,从而得出整条微博的情感倾向性。专利201310036034.1利用对象属性与情感词之间的关联信息以及情感词与修饰词之间的关系实现细粒度情感强度量化的统计和计算。专利201410178056.6基于细粒度情感词典,通过对语句结果关系进行判断,将语句拆分为简单句,计算句子情感值从而进行细粒度情感分析。专利 201810569997.0对文本中包含的每一个语句构建词嵌入,将构建的每一个词嵌入输入至基于长短记忆网络模型训练得到的文本情感分析模型中,以输出每一个所述词嵌入的情感标签,作为对应于每一个语句的情感标签。
目前已有的情绪分析技术,主要分为基于规则的分析、基于无监督的分类和基于有监督的分类。相比较而言最后一类表现较好。基于监督分类技术的有效性依赖于分类任务中使用的特征。常用的特征如词袋(BoW)、词汇和句法特征。词袋特征及其加权方案广泛用于自然语言处理,进而提供文档的简化表示。但是这些方法在情感分析任务中存在一定的局限性:词嵌入通过学习词的低维连续值向量表示实现许多NLP任务,然而传统的词嵌入方法所得到的词表示仅包含文本语料中的语义信息,未考虑文本语料中的情绪信息。而词语之间的情绪信息对于情绪分析来说同样至关重要。因此,本发明提出了一种基于情感词嵌入的细粒度情绪分析改进方法,将文本语料的语义信息与情绪信息相结合,共同构建情感词嵌入作为有监督分类器的输入,能够进行情绪的更加细粒度划分,并提高情绪分析的精度。
发明内容
本发明的目的在于克服上述技术存在的不足,提供一种基于情感词嵌入进行细粒度的情绪分析方法,该方法不仅关注情感的褒义、贬义、中性等极性,而且关注情绪的细粒度类别,如“好、乐、哀、怒、惧、恶、惊”,这是一个更具挑战性的任务,可更好的支撑相关的应用研究,例如:通过对网络上各种信息,特别是主观性文本的倾向性分析可以更好地理解用户的消费习惯、用户对商品的评论分析等。
为了实现上述技术目的,本发明的技术方案是,
一种基于情感词嵌入的细粒度情绪分析改进方法,包括以下步骤:
步骤一:文本数据集的获取、人工标注及预处理:首先,获取用于情绪分析的文本数据集作为情绪分析模型的训练数据集,并对文本数据集中的单个句子进行人工标注;然后,对文本数据集进行预处理,预处理后的文本数据集被表示为一个个单词的集合;
步骤二:计算文本数据集中每个单词对应的语义词向量:搜集用于训练词向量模型的大规模语料,并利用词向量工具对该语料进行训练得到词向量模型,然后利用该模型对步骤一得到的集合中的每个单词进行词向量表示,进而得到每个单词对应的一个语义词向量;
步骤三:获取情感词集合:搜集中文情感词典,并基于步骤二中得到的语义词向量,逐一筛选符合条件的情感词,得到筛选后的情感词集合;
步骤四:计算训练数据集中每个单词对应的一组情感词组:基于步骤三中得到的情感词集合,为步骤一中训练数据集的每个单词选取一组对应的情感词组,该情感词组在语义上和情感极性上都与该单词最为相似;
步骤五:计算训练数据集中每个单词对应的情绪词向量:基于步骤四中得到的每个单词对应的一组情感词组,对该情感词组的语义词向量进行修正,并在该修正后的语义词向量基础上,构建情绪词向量;
步骤六:构建训练数据集中每个单词对应的情感词嵌入:基于步骤二中单词对应的语义词向量,以及步骤五中单词对应的情绪词向量,构建该单词的情感词嵌入,最后得到训练数据集的情感词嵌入;
步骤七:训练分类器得到细粒度情绪分析模型:将训练数据集的情感词嵌入作为分类器的输入,训练分类器,得到细粒度情绪分析模型。
所述的一种基于情感词嵌入的细粒度情绪分析改进方法,所述的步骤一,具体为采用如下步骤:
A、通过爬虫采集微博数据作为文本数据集;
B、人工对所有文本数据集中的句子进行情绪标注,标注的情绪标签分为七大类:“好、乐、哀、怒、惧、恶、惊”,标注后每个句子对应一个情绪标签,用于后续分类器的训练和测试集的精度验证;
C、对文本数据集进行包括文本分词、删除特殊符号和停用词在内的预处理,其中文本分词指的是将文本数据集中的句子切分成一个个单独的词。
所述的一种基于情感词嵌入的细粒度情绪分析改进方法,所述的步骤二,具体为采用如下步骤:
A、首先,搜集大规模中文语料作为训练词向量模型的语料,并且进行数据预处理,预处理过程同步骤一中的预处理;
B、然后,使用Python的Gensim软件包,利用Word2Vec工具对经过预处理后的大规模语料进行训练,得到词向量模型;
C、接下来,利用该词向量模型对步骤一中得到的每个单词进行词向量表示,并将该词向量作为单词的语义词向量,使单词集合被表示为一个语义词向量集合,每个单词对应一个语义词向量。
所述的一种基于情感词嵌入的细粒度情绪分析改进方法,所述的步骤三,具体为采用如下步骤:
A、首先,搜集中文情感词典;
B、然后,对该情感词典中的情感词进行逐一筛选,若某个情感词经过语义词向量表示后,在步骤二中得到的语义词向量集合中找不到对应的语义词向量,则将其删除,得到经过筛选后的情感词集合。
所述的一种基于情感词嵌入的细粒度情绪分析改进方法,所述的步骤四,具体为采用如下步骤:
A、语义筛选:计算步骤一中训练数据集的每个单词与步骤三中的所有情感词的余弦相似度,通过设定相似度阈值,高于该阈值的情感词均归为一组,作为与该单词对应的语义上最为相似的一组情感词组;
B、情感筛选:在步骤A得到的与该单词对应的语义上最为相似的一组情感词组中,进一步进行情感极性的筛选,此处所述情感极性是指褒义、贬义、中性三大极性,每个单词在情感词典中都有其对应的极性,情感极性的筛选是查找这组情感词组中的每个情感词在情感词典中的极性是否与该单词一致,删除语义上一致但极性上不一致的情感词,保留语义和极性上都一致的情感词。
所述的一种基于情感词嵌入的细粒度情绪分析改进方法,所述的步骤五,具体为采用如下步骤:
A、首先,基于步骤二中得到的词向量模型,对步骤四中得到的情感词组中的每个情感词进行语义词向量表示;
B、由于在情感上完全相反的两个单词可能在词向量空间中反而具有相当高的余弦相似度,故对情感词组的语义词向量进行修正:
对于某单词和对应的一组情感词组,其情感词组的语义词向量的修正步骤如下:基于该情感词组的语义词向量构建表示相似情感词组的语义词向量与经过修正后的语义词向量之间的距离之和的目标函数,然后,通过最小化目标函数,求解情感词组经过修正后的语义词向量,进一步地具体如下:
设V={V(1),V(2)…,V(n)}为该情感词组对应的语义词向量空间,X为该情感词组经过修正后的语义词向量,目标函数
Figure BDA0001991701490000061
被定义为:
Figure BDA0001991701490000062
其中,n表示情感词组中情感词的个数,Vj (i)表示第i个情感词对应的语义词向量的第j个维度,Xj表示向量X的第j个维度,k为语义词向量的维度;
求解目标函数:在此选择拟牛顿法进行求解,该方法使得修正后的词向量距离修正前的词向量以及相似情感词的词向量之间的距离之和最小;
C、最后,在该修正后的语义词向量空间基础上,构建情绪词向量,具体步骤如下:对修正后的语义词向量进行加权平均,构造该词语的情绪词向量:
以X={X(1),X(2),…X(m)}为修正后的语义词向量,其中X(i)(1<i<m)表示第 i个情感词对应的语义词向量,αi为给每个语义词向量赋予的权重,权重根据其情感词的情感强度以及与目标单词的相似度进行赋值,则为目标单词t构建的情绪词向量Et为:
Figure BDA0001991701490000063
其中,m为词向量个数。上述步骤在具体计算过程中,还需对αi进行归一化处理,用归一化后的向量权重α′i参与运算,标准化公式如下:
Figure BDA0001991701490000071
所述的一种基于情感词嵌入的细粒度情绪分析改进方法,所述的步骤六,具体为采用如下步骤:
当语义词向量与情绪词向量具有不同的维度时,则将语义词向量与情绪词向量直接连接进行结合;
当语义词向量与情绪词向量具有相同的维度时,则将语义词向量与情绪词向量相加进行结合。
所述的一种基于情感词嵌入的细粒度情绪分析改进方法,所述的步骤七,具体为采用如下步骤:
对训练数据集中的所有单词构建情感词嵌入,将构建好的情感词嵌入输入常用分类器进行训练,通过训练分类器得到情绪分析模型。
本发明的技术效果在于,(1)目前已有的情绪分析方法主要将情绪分为两类:正向和负向,在情绪类别的划分方面属于粗粒度的文本情绪分析。为了进一步挖掘文本中的情绪信息,本发明对中文微博文本做进一步的细粒度情绪分析。(2)本发明提出的方法是对词向量在情感领域的扩展和应用。对 Word2Vec神经网络模型的神经网络结构进行改进后,将原始只包含语义的词向量作为词嵌入的前一部分,本发明中构建的情绪词向量作为词嵌入的后一部分,并提出了两种构建情感词嵌入的方法,用于文本的细粒度情绪分类。本发明可以避免原始词向量语义近似但情感差距较大的缺陷,同时又能够从大量未标注的语料中学习词的语义信息,因此可以取得较好的情绪分类结果。
附图说明
图1为本发明的语义词向量修正流程图;
图2为基于情感词嵌入进行细粒度情绪分类流程图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案作进一步详细地说明。
本发明包括如下步骤:
步骤一:文本数据集的获取、人工标注及预处理。首先,获取用于情绪分析的文本数据集,并对文本数据集中的单个句子进行人工标注。然后,对文本数据集进行预处理,预处理后的文本数据集被表示为一个个单词的集合。具体为采用如下步骤:
A、通过爬虫采集微博数据作为文本数据集;
B、人工对所有文本数据集中的句子进行情绪标注,标注的情绪标签分为七大类:“好、乐、哀、怒、惧、恶、惊”。标注后每个句子对应一个情绪标签,用于后续分类器的训练和测试集的精度验证;
C、对文本数据集进行包括文本分词、删除特殊符号和停用词在内的预处理,其中文本分词指的是将文本数据集中的句子切分成一个个单独的词。采用的分词工具为中科院分词工具ICTCLA2018。由于网络文本数据中包含很多未知符号和表情,因此在处理的过程中将“@#!$&”等特殊符号删除,并去掉对于情绪分析任务无用的停用词,比如“了”、“呢”等。
步骤二:计算文本数据集中每个单词对应的语义词向量。搜集用于训练词向量模型的大规模语料,并利用词向量工具对该语料进行训练得到词向量模型,然后利用该模型对步骤一得到的集合中的每个单词进行词向量表示,进而得到每个单词对应的一个语义词向量。具体为采用如下步骤:
A、首先,搜集大规模中文语料作为训练词向量模型的语料,语料规模越大越好。对其进行数据预处理,预处理过程同步骤一中的预处理;
B、然后,使用Python的Gensim软件包,利用Word2Vec工具对经过预处理后的大规模语料进行训练,得到词向量模型。其中Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF、LSA、LDA和Word2Vec在内的多种主题模型算法。Word2Vec是Google开源的一款用于词向量计算的工具。 Word2Vec可以在百万数量级的词典和上亿的数据集上进行高效地训练,该工具得到的训练结果——词向量,可以很好地度量词与词之间的相似性;
C、接下来,利用该词向量模型对步骤一中得到的每个单词进行词向量表示。并将该词向量作为单词的语义词向量,使单词集合被表示为一个语义词向量集合,每个单词对应一个语义词向量。
步骤三:获取情感词集合。搜集中文情感词典,并基于步骤二中得到的语义词向量,逐一筛选符合条件的情感词,得到筛选后的情感词集合。具体为采用如下步骤:
A、首先,本发明使用的中文情感词典为发布的公开情感词典,由大连理工大学信息检索研究室整理和标注的一个中文情感词典。词典中的情绪共分为7大类:“好、乐、哀、怒、惧、恶、惊”,共含有情感词27466个,情感强度分为:1,3,5,7,9这5档,9表示强度最大,1为强度最小。该词典从不同角度描述一个中文单词或者短语,包括单词的词性种类、情感类别、情感强度及极性等信息;
情感词典中,一般的格式如表1所示。情绪分类举例如表2所示:
表1情感词典格式举例
Figure DEST_PATH_IMAGE001
表2情绪分类举例
Figure DEST_PATH_IMAGE002
B、然后,对该情感词典中的情感词进行逐一筛选,若某个情感词经过语义词向量表示后,在步骤二中得到的语义词向量集合中找不到对应的语义词向量,则将其删除,得到经过筛选后的情感词集合。
步骤四:计算训练数据集中每个单词对应的一组情感词组。基于步骤三中得到的情感词集合,为步骤一中训练数据集的每个单词选取一组对应的情感词组,该情感词组在语义上和情感极性上都与该单词最为相似。具体为采用如下步骤:
A、语义筛选:计算步骤一中训练数据集的每个单词与步骤三中的所有情感词的相似度,通过设定相似度阈值,高于该阈值的情感词均归为一组,作为与该单词对应的语义上最为相似的一组情感词组。具体如下:相似度计算公式采用余弦相似度,设定相似度阈值选择与该单词最为相似的一组情感词,阈值选择一般为0.8或0.9,阈值越大则该情感词在语义上与该单词越相近。公式如下:
cos(wi,wj)=consine(wi,wj)
式中wi,wj为词语对应的词向量,consine(wi,wj)为两个向量的余弦相似度;
B、情感筛选:在步骤A得到的与该单词对应的语义上最为相似的一组情感词组中,进一步进行情感极性的筛选。此处所述情感极性是指褒义、贬义、中性三大极性,每个单词在情感词典中都有其对应的极性。情感极性的筛选是查找这组情感词组中的每个情感词在情感词典中的极性是否与该单词一致,删除语义上一致但极性上不一致的情感词,保留语义和极性上都一致的情感词,如“好吃”和“难吃”,因为通常出现在相同的上下文中,所以词嵌入模型捕捉到的语义信息相同,即词向量语义距离往往非常接近,但是情感极性完全相反。
步骤五:计算训练数据集中每个单词对应的情绪词向量。基于步骤四中得到的每个单词对应的一组情感词组,对该情感词组的语义词向量进行修正,并在该修正后的语义词向量基础上,构建情绪词向量。具体为采用如下步骤:
A、首先,基于步骤二中得到的词向量模型,对步骤四中得到的情感词组中的每个情感词进行语义词向量表示;
B、然后,对情感词组的语义词向量进行修正。需要进行修正的原因如下:由于现有的词向量模型存在一些缺点:在情感上完全相反的两个单词可能在词向量空间中反而具有相当高的余弦相似度,导致得到的语义词向量可能存在一定的误差,因此需要进行修正。
以某个单词和其对应的一组情感词组为例,其情感词组的语义词向量的修正步骤如下:基于该情感词组的语义词向量构建表示相似情感词组的语义词向量与经过修正后的语义词向量之间的距离之和的目标函数。然后,通过最小化目标函数,求解情感词组经过修正后的语义词向量。进一步地具体如下:
设V={V(1),V(2)…,V(n)}为该情感词组对应的语义词向量空间,X为该情感词组经过修正后的语义词向量,目标函数
Figure BDA0001991701490000121
被定义为:
Figure BDA0001991701490000122
其中,n表示情感词组中情感词的个数,Vj (i)表示第i个情感词对应的语义词向量的第j个维度,Xj表示向量X的第j个维度,k为语义词向量的维度。
求解目标函数:在此选择拟牛顿法进行求解。拟牛顿法在求解无约束极小化问题方面,是一种常用且高效的方法。该方法使得修正后的词向量距离修正前的词向量以及相似情感词的词向量之间的距离之和最小。
C、最后,在该修正后的语义词向量空间基础上,构建情绪词向量。具体步骤如下:对修正后的语义词向量进行加权平均,构造该词语的情绪词向量:
假设X={X(1),X(2),…X(m)}为修正后的语义词向量,其中X(i)(1<i<m)表示第i个情感词对应的语义词向量,αi为给每个语义词向量赋予的权重,权重根据其情感词的情感强度以及与目标单词的相似度进行赋值,则为目标单词t 构建的情绪词向量Et为:
Figure BDA0001991701490000131
其中,m为词向量个数。上述步骤在具体计算过程中,还需对αi进行归一化处理,用归一化后的向量权重α′i参与运算,标准化公式如下:
Figure BDA0001991701490000132
步骤六:构建训练数据集中每个单词对应的情感词嵌入。基于步骤二中单词对应的语义词向量,以及步骤五中单词对应的情绪词向量,构建该单词的情感词嵌入。具体为采用如下步骤:
本发明提出了两种构建情感词嵌入的方法,分别适用于不同的情形。
方法一:将语义词向量与情绪词向量直接连接进行结合,形成情感词嵌入。具体方法为:将给定单词的语义词向量和情绪词向量直接进行连接。该方法适用的情形:语义词向量与情绪词向量具有不同的维度。
Figure BDA0001991701490000138
其中xnew为混合词向量,xe为情感词向量,xs为语义词向量。
由于本发明采用余弦相似度来计算两个向量之间的相似性,对于余弦相似度来说,关键因素是点积。假设
Figure BDA0001991701490000133
Figure BDA0001991701490000134
分别代表两个不同的情绪词嵌入,
Figure BDA0001991701490000135
由语义词向量X1和情绪词向量X2连接形成,
Figure BDA0001991701490000136
由语义词向量Y1和情绪词向量Y2连接形成,它们的点积结果为:
Figure BDA0001991701490000137
从点积结果来看,余弦相似性由矢量分量点积的线性组合来确定,因此将两个词语之间的语义关系和情绪关系一起作为特征进行区分,其中X1·Y1分代表语义关系特征的区分,X2·Y2代表情绪关系特征的区分;
方法二:将语义词向量与情绪词向量相加进行结合,形成情感词嵌入。具体方法为:将语义词向量与情绪词向量进行累加。该方法适用的情形:语义词向量与情绪词向量具有相同的维度。
xnew=xe+xs
对于两个向量的直接叠加,从向量的点积结果来看是将两个向量的特征分量进行组合来进行特征区分,使得不同情感特征之间的区分度提高。
步骤七:训练分类器得到细粒度情绪分析模型。将情感词嵌入作为分类器的输入,训练分类器,得到情绪分析模型。具体为采用如下步骤:
对训练数据集中的所有单词构建情感词嵌入,将构建好的情感词嵌入输入常用分类器进行训练,常用的分类器有Support Vector Machine(SVM)、逻辑回归、神经网络等,通过训练分类器得到情绪分析模型。
下面给出现有技术作为对比例,并给出本申请的具体实施例。
对比例1:
中国专利201810569997.0在构建神经网络模型的输入时,采用当前流行的词嵌入方法,通过在大型语料库中使用无监督方法学习单词的低维向量来进行表示。但该专利中的词嵌入方法仅考虑来自文档的统计信息,而仅考虑统计信息如两个单词的共现规律,并不能充分的学习到这两个单词的情绪信息。对于一个给定的情感分析任务来说,其它辅助信息如语义信息、情绪信息等等同样非常重要,而且这些辅助信息已被证明有助于提高这种任务的精度。
对比例2:
中国专利201410178056.6基于细粒度情感词典,通过对语句结果关系进行判断,将语句拆分为简单句,从而计算句子的情感值来进行细粒度情感分析。该专利是基于规则的文本情感分析,其句子的情感倾向是通过计算句内情感词的情感倾向得来。该专利未考虑句子中的语义信息,而对于包含复杂语义的句子,仅仅通过分析句子中的情感词的极性无法准确判断该句子的情感极性。基于规则的情感分析方法无法适用于数据集中所有的句子,而且人工构造规则的方法在面对大规模的微博文本时过于复杂,耗费时间太长。
实施例1:
本实施例将本专利提出的基于情感词嵌入进行情绪分析的方法应用于网络购物平台评论数据。
步骤一:文本数据集的获取、人工标注及预处理。具体为采用如下步骤:
A、收集用于情感分析任务的网络评论数据;
B、人工对所有网络评论数据中的句子进行情绪标注,本专利将其情感标签分为三分类的情感标签:“积极、消极、中立”,标注后每个句子对应一个情绪标签;
C、对文本数据集进行包括文本分词、删除特殊符号和停用词在内的预处理,其中文本分词指的是将文本数据集中的句子切分成一个个单独的词。采用的分词工具为中科院分词工具ICTCLA2018。由于网络文本数据中包含很多未知符号和表情,因此在处理的过程中将“@#!$&”等特殊符号删除,并去掉对于情绪分析任务无用的停用词,比如“了”、“呢”等。
步骤二:计算文本数据集中每个单词对应的语义词向量。搜集用于训练词向量模型的大规模语料,并利用词向量工具对该语料进行训练得到词向量模型,然后利用该模型对上述单词集合中的每个单词进行词向量表示,进而得到每个单词对应的一个语义词向量。具体为采用如下步骤:
A、首先,搜集大规模中文语料作为训练词向量模型的语料,语料规模越大越好。此处搜集的大规模语料为从复旦和搜狗实验室以及维基百科下载的开源中文语料,规模为500万条左右。对其进行数据预处理,预处理过程同步骤一中的预处理;
B、然后,使用Python的Gensim软件包,利用Word2Vec工具对经过预处理后的大规模语料进行训练,得到词向量模型;
C、接下来,利用该词向量模型对步骤一中得到的每个单词进行词向量表示。并将该词向量作为单词的语义词向量,使单词集合被表示为一个语义词向量集合,每个单词对应一个语义词向量。
步骤三:获取情感词集合。搜集中文情感词典,并基于步骤二中得到的语义词向量,逐一筛选符合条件的情感词,得到筛选后的情感词集合。具体为采用如下步骤:
A、首先,使用的中文情感词典为从大连理工大学信息检索研究室发布的公开情感词典。该情感词典从不同角度描述一个中文单词或者短语,包括单词的词性种类、情感类别、情感强度及情感极性等信息;
B、然后,对该情感词典中的情感词进行逐一筛选,若某个情感词经过语义词向量表示后,在步骤二中得到的语义词向量集合中找不到对应的语义词向量,则将其删除,得到经过筛选后的情感词集合。
步骤四:计算训练数据集中每个单词对应的一组情感词组。基于步骤三中得到的情感词集合,为步骤一中训练数据集的每个单词选取一组对应的情感词组,该情感词组在语义上和情感极性上都与该单词最为相似。具体为采用如下步骤:
A、语义筛选:计算步骤一中训练数据集的每个单词与步骤三中的所有情感词的余弦相似度,通过设定相似度阈值,高于该阈值的情感词均归为一组,作为与该单词对应的语义上最为相似的一组情感词组。具体如下:通过设定相似度阈值选择与该单词最为相似的一组情感词,阈值选择一般为0.8或0.9,阈值越大则该情感词在语义上与该单词越相近。余弦相似度的公式如下:
cos(wi,wj)=consine(wi,wj)
式中wi,wj为词语对应的词向量,consine(wi,wj)为两个向量的余弦相似度;
B、情感筛选:在步骤A得到的与该单词对应的语义上最为相似的一组情感词组中,进一步进行情感极性的筛选。此处所述情感极性是指褒义、贬义、中性三大极性,每个单词在情感词典中都有其对应的极性。情感极性的筛选是查找这组情感词组中的每个情感词在情感词典中的极性是否与该单词一致,删除语义上一致但极性上不一致的情感词,保留语义和极性上都一致的情感词。
步骤五:计算训练数据集中每个单词对应的情绪词向量。基于步骤四中得到的每个单词对应的一组情感词组,对该情感词组的语义词向量进行修正,并在该修正后的语义词向量基础上,构建情绪词向量。具体为采用如下步骤:
A、首先,基于步骤二中得到的词向量模型,对步骤四中得到的情感词组中的每个情感词进行语义词向量表示。
B、然后,对情感词组的语义词向量进行修正。需要进行修正的原因如下:由于现有的词向量模型存在一些缺点:在情感上完全相反的两个单词可能在词向量空间中反而具有相当高的余弦相似度,导致得到的语义词向量可能存在一定的误差,因此需要进行修正。
以某个单词和其对应的一组情感词组为例,其情感词组的语义词向量的修正步骤如下:基于该情感词组的语义词向量构建表示相似情感词组的语义词向量与经过修正后的语义词向量之间的距离之和的目标函数。然后,通过最小化目标函数,求解情感词组经过修正后的语义词向量。进一步地具体如下:
设V={V(1),V(2)…,V(n)}为该情感词组对应的语义词向量空间,X为该情感词组经过修正后的语义词向量,目标函数
Figure BDA0001991701490000181
被定义为:
Figure BDA0001991701490000182
其中,n表示情感词组中情感词的个数,Vj (i)表示第i个情感词对应的语义词向量的第j个维度,Xj表示向量X的第j个维度,k为语义词向量的维度。
求解目标函数:在此选择拟牛顿法进行求解。拟牛顿法在求解无约束极小化问题方面,是一种常用且高效的方法。该方法使得修正后的词向量距离修正前的词向量以及相似情感词的词向量之间的距离之和最小。
C、最后,在该修正后的语义词向量空间基础上,构建情绪词向量。具体步骤如下:对修正后的语义词向量进行加权平均,构造该词语的情绪词向量:
假设X={X(1),X(2),…X(m)}为修正后的语义词向量,其中X(i)(1<i<m)表示第i个情感词对应的语义词向量,αi为给每个语义词向量赋予的权重,权重根据其情感词的情感强度以及与目标单词的相似度进行赋值,则为目标单词t 构建的情绪词向量Et为:
Figure BDA0001991701490000183
其中,m为词向量个数。上述步骤在具体计算过程中,还需对αi进行归一化处理,用归一化后的向量权重α′i参与运算,标准化公式如下:
Figure BDA0001991701490000184
例如,对于“好评”一词,通过以上步骤选取出其相似情感词组为:“赞叹不已”、“交口称赞”、“有口皆碑”、“好评如潮”等。这些情感词组即代表了“好评”一词的情感信息,利用这些词语的修正词向量求“好评”一词的情绪词向量。假设“赞叹不已”、“交口称赞”、“有口皆碑”、“好评如潮”一组词的修正词向量为V“赞叹不已”、V“交口称赞”、V“有口皆碑”、V“好评如潮”,对应相似度为
Figure BDA0001991701490000191
对应的情感强度为
Figure BDA0001991701490000192
Figure BDA0001991701490000193
情感词“赞叹不已”对应的权重向量为:
Figure BDA0001991701490000194
Figure BDA0001991701490000195
归一化后的权重向量
Figure BDA0001991701490000196
依此类推。
步骤六:构建训练数据集中每个单词对应的情感词嵌入。基于步骤二中单词对应的语义词向量,以及步骤五中单词对应的情绪词向量,构建该单词的情感词嵌入,最后得到训练数据集的情感词嵌入。具体为采用如下步骤:
本发明提出了两种构建情感词嵌入的方法,分别适用于不同的情形。
方法一:将语义词向量与情绪词向量直接连接进行结合,形成情感词嵌入。具体方法为:将给定单词的语义词向量和情绪词向量直接进行连接。该方法适用的情形:语义词向量与情绪词向量具有不同的维度。
Figure BDA0001991701490000197
其中xnew为混合词向量,xe为情感词向量,xs为语义词向量;
方法二:将语义词向量与情绪词向量相加进行结合,形成情感词嵌入。具体方法为:将语义词向量与情绪词向量进行累加。该方法适用的情形:语义词向量与情绪词向量具有相同的维度:
xnew=xe+xs
步骤七:训练分类器得到细粒度情绪分析模型。将训练数据集的情感词嵌入作为分类器的输入,训练分类器,得到细粒度情绪分析模型。具体为采用如下步骤:
对训练数据集中的所有单词构建情感词嵌入,将构建好的情感词嵌入输入分类器进行训练,常用的分类器有Support Vector Machine(SVM)、逻辑回归、神经网络等,通过训练分类器得到情绪分析模型。
实施例2:
本实施例将本专利提出的基于情感词嵌入进行情绪分析的方法应用于微博文本数据。
步骤一:文本数据集的获取、人工标注及预处理。具体为采用如下步骤:
A、收集用于情感分析任务的微博数据;
B、人工对所有网络评论数据中的句子进行情绪标注,本专利将其情感标签分为七分类的情感标签:“好、乐、哀、怒、惧、恶、惊”。标注后每个句子对应一个情绪标签;
C、对文本数据集进行包括文本分词、删除特殊符号和停用词在内的预处理,其中文本分词指的是将文本数据集中的句子切分成一个个单独的词。采用的分词工具为中科院分词工具ICTCLA2018。由于网络文本数据中包含很多未知符号和表情,因此在处理的过程中将“@#!$&”等特殊符号删除,并去掉对于情绪分析任务无用的停用词,比如“了”、“呢”等。
步骤二:计算文本数据集中每个单词对应的语义词向量。搜集用于训练词向量模型的大规模语料,并利用词向量工具对该语料进行训练得到词向量模型,然后利用该模型对上述单词集合中的每个单词进行词向量表示,进而得到每个单词对应的一个语义词向量。具体为采用如下步骤:
A、首先,搜集大规模中文语料作为训练词向量模型的语料,语料规模越大越好。此处搜集的大规模语料为从复旦和搜狗实验室以及维基百科下载的开源中文语料,规模为500万条左右。对其进行数据预处理,预处理过程同步骤一中的预处理;
B、然后,使用Python的Gensim软件包,利用Word2Vec工具对经过预处理后的大规模语料进行训练,得到词向量模型;
C、接下来,利用该词向量模型对步骤一中得到的每个单词进行词向量表示。并将该词向量作为单词的语义词向量,使单词集合被表示为一个语义词向量集合,每个单词对应一个语义词向量。
步骤三:获取情感词集合。搜集中文情感词典,并基于步骤二中得到的语义词向量,逐一筛选符合条件的情感词,得到筛选后的情感词集合。具体为采用如下步骤:
A、首先,使用的中文情感词典为从大连理工大学信息检索研究室发布的公开情感词典。该情感词典从不同角度描述一个中文单词或者短语,包括单词的词性种类、情感类别、情感强度及情感极性等信息;
B、然后,对该情感词典中的情感词进行逐一筛选,若某个情感词经过语义词向量表示后,在步骤二中得到的语义词向量集合中找不到对应的语义词向量,则将其删除,得到经过筛选后的情感词集合。
步骤四:计算训练数据集中每个单词对应的一组情感词组。基于步骤三中得到的情感词集合,为步骤一中训练数据集的每个单词选取一组对应的情感词组,该情感词组在语义上和情感极性上都与该单词最为相似。具体为采用如下步骤:
A、语义筛选:计算步骤一中训练数据集的每个单词与步骤三中的所有情感词的余弦相似度,通过设定相似度阈值,高于该阈值的情感词均归为一组,作为与该单词对应的语义上最为相似的一组情感词组。具体如下:通过设定相似度阈值选择与该单词最为相似的一组情感词,阈值选择一般为0.8或0.9,阈值越大则该情感词在语义上与该单词越相近。余弦相似度的公式如下:
cos(wi,wj)=consine(wi,wj)
式中wi,wj为词语对应的词向量,consine(wi,wj)为两个向量的余弦相似度;
B、情感筛选:在步骤A得到的与该单词对应的语义上最为相似的一组情感词组中,进一步进行情感极性的筛选。此处所述情感极性是指褒义、贬义、中性三大极性,每个单词在情感词典中都有其对应的极性。情感极性的筛选是查找这组情感词组中的每个情感词在情感词典中的极性是否与该单词一致,删除语义上一致但极性上不一致的情感词,保留语义和极性上都一致的情感词。
步骤五:计算训练数据集中每个单词对应的情绪词向量。基于步骤四中得到的每个单词对应的一组情感词组,对该情感词组的语义词向量进行修正,并在该修正后的语义词向量基础上,构建情绪词向量。具体为采用如下步骤:
A、首先,基于步骤二中得到的词向量模型,对步骤四中得到的情感词组中的每个情感词进行语义词向量表示;
B、然后,对情感词组的语义词向量进行修正。需要进行修正的原因如下:由于现有的词向量模型存在一些缺点:在情感上完全相反的两个单词可能在词向量空间中反而具有相当高的余弦相似度,导致得到的语义词向量可能存在一定的误差,因此需要进行修正。
以某个单词和其对应的一组情感词组为例,其情感词组的语义词向量的修正步骤如下:基于该情感词组的语义词向量构建表示相似情感词组的语义词向量与经过修正后的语义词向量之间的距离之和的目标函数。然后,通过最小化目标函数,求解情感词组经过修正后的语义词向量。进一步地具体如下:
设V={V(1),V(2)…,V(n)}为该情感词组对应的语义词向量空间,X为该情感词组经过修正后的语义词向量,目标函数
Figure BDA0001991701490000231
被定义为:
Figure BDA0001991701490000232
其中,n表示情感词组中情感词的个数,Vj (i)表示第i个情感词对应的语义词向量的第j个维度,Xj表示向量X的第j个维度,k为语义词向量的维度。
求解目标函数:在此选择拟牛顿法进行求解。拟牛顿法在求解无约束极小化问题方面,是一种常用且高效的方法。该方法使得修正后的词向量距离修正前的词向量以及相似情感词的词向量之间的距离之和最小。
C、最后,在该修正后的语义词向量空间基础上,构建情绪词向量。具体步骤如下:对修正后的语义词向量进行加权平均,构造该词语的情绪词向量:
假设X={X(1),X(2),…X(m)}为修正后的语义词向量,其中X(i)(1<i<m)表示第i个情感词对应的语义词向量,αi为给每个语义词向量赋予的权重,权重根据其情感词的情感强度以及与目标单词的相似度进行赋值,则为目标单词t 构建的情绪词向量Et为:
Figure BDA0001991701490000233
其中,m为词向量个数。上述步骤在具体计算过程中,还需对αi进行归一化处理,用归一化后的向量权重α′i参与运算,标准化公式如下:
Figure BDA0001991701490000234
例如,对于“高兴”一词,通过以上步骤选取出其相似情感词组为:“愉悦”,“幽默”,“兴高采烈”,“神采飞扬”等。这些情感词组即代表了“高兴”一词的情感信息,利用这些词语的修正词向量求“高兴”一词的情绪词向量。假设“愉悦”,“幽默”,“兴高采烈”,“神采飞扬”一组词的修正词向量为V“愉悦”、 V“幽默”、V“兴高采烈”、V“神采飞扬”,对应相似度为
Figure BDA0001991701490000241
Figure BDA0001991701490000242
对应的情感强度为
Figure BDA0001991701490000243
Figure BDA0001991701490000244
情感词“愉悦”对应的权重向量为:
Figure BDA0001991701490000245
归一化后的权重向量
Figure BDA0001991701490000246
依此类推。
步骤六:构建训练数据集中每个单词对应的情感词嵌入。基于步骤二中单词对应的语义词向量,以及步骤五中单词对应的情绪词向量,构建该单词的情感词嵌入,最后得到训练数据集的情感词嵌入。具体为采用如下步骤:
本发明提出了两种构建情感词嵌入的方法,分别适用于不同的情形。
方法一:将语义词向量与情绪词向量直接连接进行结合,形成情感词嵌入。具体方法为:将给定单词的语义词向量和情绪词向量直接进行连接。该方法适用的情形:语义词向量与情绪词向量具有不同的维度。
Figure BDA0001991701490000247
其中xnew为混合词向量,xe为情感词向量,xs为语义词向量;
方法二:将语义词向量与情绪词向量相加进行结合,形成情感词嵌入。具体方法为:将语义词向量与情绪词向量进行累加。该方法适用的情形:语义词向量与情绪词向量具有相同的维度:
xnew=xe+xs
步骤七:训练分类器得到细粒度情绪分析模型。将情感词嵌入作为分类器的输入,训练分类器,得到细粒度情绪分析模型。具体为采用如下步骤:
对训练数据集中的所有单词构建情感词嵌入,将构建好的情感词嵌入输入分类器进行训练,常用的分类器有Support Vector Machine(SVM)、逻辑回归、神经网络等,通过训练分类器得到情绪分析模型。

Claims (6)

1.一种基于情感词嵌入的细粒度情绪分析改进方法,其特征在于,包括以下步骤:
步骤一:文本数据集的获取、人工标注及预处理:首先,获取用于情绪分析的文本数据集作为情绪分析模型的训练数据集,并对文本数据集中的单个句子进行人工标注;然后,对文本数据集进行预处理,预处理后的文本数据集被表示为单词的集合;
步骤二:计算文本数据集中每个单词对应的语义词向量:搜集用于训练词向量模型的大规模语料,并利用词向量工具对该语料进行训练得到词向量模型,然后利用该模型对步骤一得到的集合中的每个单词进行词向量表示,进而得到每个单词对应的一个语义词向量;
步骤三:获取情感词集合:搜集中文情感词典,并基于步骤二中得到的语义词向量,逐一筛选符合条件的情感词,得到筛选后的情感词集合;
步骤四:计算训练数据集中每个单词对应的一组情感词组:基于步骤三中得到的情感词集合,为步骤一中训练数据集的每个单词选取一组对应的情感词组,该情感词组在语义上和情感极性上都与该单词最为相似;
步骤五:计算训练数据集中每个单词对应的情绪词向量:基于步骤四中得到的每个单词对应的一组情感词组,对该情感词组的语义词向量进行修正,并在修正后的语义词向量基础上,构建情绪词向量;
步骤六:构建训练数据集中每个单词对应的情感词嵌入:基于步骤二中单词对应的语义词向量,以及步骤五中单词对应的情绪词向量,构建该单词的情感词嵌入,最后得到训练数据集的情感词嵌入;
步骤七:训练分类器得到细粒度情绪分析模型:将训练数据集的情感词嵌入作为分类器的输入,训练分类器,得到细粒度情绪分析模型;
所述的步骤五,具体为采用如下步骤:
A、首先,基于步骤二中得到的词向量模型,对步骤四中得到的情感词组中的每个情感词进行语义词向量表示;
B、由于在情感上完全相反的两个单词可能在词向量空间中反而具有相当高的余弦相似度,故对情感词组的语义词向量进行修正:
对于某单词和对应的一组情感词组,其情感词组的语义词向量的修正步骤如下:基于该情感词组的语义词向量构建表示相似情感词组的语义词向量与经过修正后的语义词向量之间的距离之和的目标函数,然后,通过最小化目标函数,求解情感词组经过修正后的语义词向量,进一步地具体如下:
设V={V(1),V(2)...,V(n)}为该情感词组对应的语义词向量空间,X为该情感词组经过修正后的语义词向量,目标函数
Figure FDA0003113404400000021
被定义为:
Figure FDA0003113404400000022
其中,n表示情感词组中情感词的个数,Vi (i)表示第i个情感词对应的语义词向量的第j个维度,Xj表示向量X的第j个维度,k为语义词向量的维度;
求解目标函数:在此选择拟牛顿法进行求解,该方法使得修正后的词向量距离修正前的词向量以及相似情感词的词向量之间的距离之和最小;
C、最后,在该修正后的语义词向量空间基础上,构建情绪词向量,具体步骤如下:对修正后的语义词向量进行加权平均,构造修正后的语义词向量的情绪词向量:
以X={X(1),X(2),...X(m)}为修正后的语义词向量,其中X(i)(1<i<m)表示第i个情感词对应的语义词向量,αi为给每个语义词向量赋予的权重,权重根据其情感词的情感强度以及与目标单词的相似度进行赋值,则为目标单词t构建的情绪词向量Et为:
Figure FDA0003113404400000031
其中,m为词向量个数;上述步骤在具体计算过程中,还需对αi进行归一化处理,用归一化后的向量权重α′i参与运算,标准化公式如下:
Figure FDA0003113404400000032
所述的步骤六,具体为采用如下步骤:
当语义词向量与情绪词向量具有不同的维度时,则将语义词向量与情绪词向量直接连接进行结合;
当语义词向量与情绪词向量具有相同的维度时,则将语义词向量与情绪词向量相加进行结合。
2.根据权利要求1所述的一种基于情感词嵌入的细粒度情绪分析改进方法,其特征在于,所述的步骤一,具体为采用如下步骤:
A、通过爬虫采集微博数据作为文本数据集;
B、人工对所有文本数据集中的句子进行情绪标注,标注的情绪标签分为七大类:“好、乐、哀、怒、惧、恶、惊”,标注后每个句子对应一个情绪标签,用于后续分类器的训练和测试集的精度验证;
C、对文本数据集进行包括文本分词、删除特殊符号和停用词在内的预处理,其中文本分词指的是将文本数据集中的句子切分成一个个单独的词。
3.根据权利要求1所述的一种基于情感词嵌入的细粒度情绪分析改进方法,其特征在于,所述的步骤二,具体为采用如下步骤:
A、首先,搜集大规模中文语料作为训练词向量模型的语料,并且进行数据预处理,预处理过程同步骤一中的预处理;
B、然后,使用Python的Gensim软件包,利用Word2Vec工具对经过预处理后的大规模语料进行训练,得到词向量模型;
C、接下来,利用该词向量模型对步骤一中得到的每个单词进行词向量表示,并将该词向量作为单词的语义词向量,使单词集合被表示为一个语义词向量集合,每个单词对应一个语义词向量。
4.根据权利要求1所述的一种基于情感词嵌入的细粒度情绪分析改进方法,其特征在于,所述的步骤三,具体为采用如下步骤:
A、首先,搜集中文情感词典;
B、然后,对该情感词典中的情感词进行逐一筛选,若某个情感词经过语义词向量表示后,在步骤二中得到的语义词向量集合中找不到对应的语义词向量,则将其删除,得到经过筛选后的情感词集合。
5.根据权利要求1所述的一种基于情感词嵌入的细粒度情绪分析改进方法,其特征在于,所述的步骤四,具体为采用如下步骤:
A、语义筛选:计算步骤一中训练数据集的每个单词与步骤三中的所有情感词的余弦相似度,通过设定相似度阈值,高于该阈值的情感词均归为一组,作为与该单词对应的语义上最为相似的一组情感词组;
B、情感筛选:在步骤A得到的与该单词对应的语义上最为相似的一组情感词组中,进一步进行情感极性的筛选,此处所述情感极性是指褒义、贬义、中性三大极性,每个单词在情感词典中都有其对应的极性,情感极性的筛选是查找这组情感词组中的每个情感词在情感词典中的极性是否与这个情感词一致,删除语义上一致但极性上不一致的情感词,保留语义和极性上都一致的情感词。
6.根据权利要求1所述的一种基于情感词嵌入的细粒度情绪分析改进方法,其特征在于,所述的步骤七,具体为采用如下步骤:
对训练数据集中的所有单词构建情感词嵌入,将构建好的情感词嵌入输入常用分类器进行训练,通过训练分类器得到情绪分析模型。
CN201910182419.6A 2019-03-12 2019-03-12 一种基于情感词嵌入的细粒度情绪分析改进方法 Active CN109933664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910182419.6A CN109933664B (zh) 2019-03-12 2019-03-12 一种基于情感词嵌入的细粒度情绪分析改进方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910182419.6A CN109933664B (zh) 2019-03-12 2019-03-12 一种基于情感词嵌入的细粒度情绪分析改进方法

Publications (2)

Publication Number Publication Date
CN109933664A CN109933664A (zh) 2019-06-25
CN109933664B true CN109933664B (zh) 2021-09-07

Family

ID=66986959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910182419.6A Active CN109933664B (zh) 2019-03-12 2019-03-12 一种基于情感词嵌入的细粒度情绪分析改进方法

Country Status (1)

Country Link
CN (1) CN109933664B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457693B (zh) * 2019-07-29 2023-01-17 北京智齿博创科技有限公司 基于用户会话行为的细粒度情绪分析方法
CN110390956A (zh) * 2019-08-15 2019-10-29 龙马智芯(珠海横琴)科技有限公司 情感识别网络模型、方法及电子设备
US20210074398A1 (en) * 2019-09-10 2021-03-11 Medstar Health, Inc. Evaluation of patient safety event reports from free-text descriptions
CN110807323A (zh) * 2019-09-20 2020-02-18 平安科技(深圳)有限公司 情绪向量的生成方法及装置
CN111079406B (zh) * 2019-12-13 2022-01-11 华中科技大学 自然语言处理模型训练方法、任务执行方法、设备及系统
CN111160034B (zh) * 2019-12-31 2024-02-27 东软集团股份有限公司 一种实体词的标注方法、装置、存储介质及设备
CN111414475A (zh) * 2020-03-03 2020-07-14 北京明略软件系统有限公司 文本情感信息的识别方法和装置
CN111414755A (zh) * 2020-03-20 2020-07-14 中国计量大学 一种基于细粒度情感字典的网络情绪分析方法
CN111506700B (zh) * 2020-03-24 2021-01-19 杭州电子科技大学 基于上下文感知嵌入的细粒度情感分析方法
CN112463966B (zh) * 2020-12-08 2024-04-05 北京邮电大学 虚假评论检测模型训练方法、检测方法及装置
CN113409821B (zh) * 2021-05-27 2023-04-18 南京邮电大学 一种语音信号未知情绪状态识别方法
CN113204624B (zh) * 2021-06-07 2022-06-14 吉林大学 一种多特征融合的文本情感分析模型及装置
CN114417814B (zh) * 2021-12-14 2022-11-15 桂林电子科技大学 一种基于情感知识增强的词语分布式表示学习系统
CN114639139A (zh) * 2022-02-16 2022-06-17 南京邮电大学 一种基于强化学习的情绪化图像描述方法及系统
CN114861632B (zh) * 2022-06-02 2024-04-16 武汉科技大学 一种基于ALBERT-BiLSTM模型和SVM-NB分类的文本情绪识别方法
CN114822495B (zh) * 2022-06-29 2022-10-14 杭州同花顺数据开发有限公司 声学模型训练方法、装置及语音合成方法
CN115080924B (zh) * 2022-07-25 2022-11-15 南开大学 一种基于自然语言理解的软件许可证条款抽取方法
CN117436446B (zh) * 2023-12-21 2024-03-22 江西农业大学 基于弱监督的农业社会化销售服务用户评价数据分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516947A (zh) * 2014-12-03 2015-04-15 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN108108468A (zh) * 2017-12-29 2018-06-01 华中科技大学鄂州工业技术研究院 一种基于概念和文本情感的短文本情感分析方法和装置
CN109299459A (zh) * 2018-09-17 2019-02-01 北京神州泰岳软件股份有限公司 一种单语义监督的词向量训练方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10628738B2 (en) * 2017-01-31 2020-04-21 Conduent Business Services, Llc Stance classification of multi-perspective consumer health information
CN108460009B (zh) * 2017-12-14 2022-09-16 中山大学 嵌入情感词典的注意力机制循环神经网络文本情感分析法
CN108536870B (zh) * 2018-04-26 2022-06-07 南京大学 一种融合情感特征和语义特征的文本情感分类方法
CN109213861B (zh) * 2018-08-01 2022-03-29 上海电力学院 结合At_GRU神经网络与情感词典的旅游评价情感分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516947A (zh) * 2014-12-03 2015-04-15 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN108108468A (zh) * 2017-12-29 2018-06-01 华中科技大学鄂州工业技术研究院 一种基于概念和文本情感的短文本情感分析方法和装置
CN109299459A (zh) * 2018-09-17 2019-02-01 北京神州泰岳软件股份有限公司 一种单语义监督的词向量训练方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
An Approach to Constructing Sentiment;Jianfeng Zhou, Boyu Chen, and Yangqing Lin;《SETE 2017, LNCS 10676》;20171231;全文 *

Also Published As

Publication number Publication date
CN109933664A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
Kumar et al. Sentiment analysis of multimodal twitter data
Li et al. Sentiment analysis of danmaku videos based on naïve bayes and sentiment dictionary
Perone et al. Evaluation of sentence embeddings in downstream and linguistic probing tasks
CN109753566A (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
Xu et al. Hierarchical emotion classification and emotion component analysis on Chinese micro-blog posts
CN113254637B (zh) 一种融合语法的方面级文本情感分类方法及系统
CN112861541B (zh) 一种基于多特征融合的商品评论情感分析方法
CN110765769B (zh) 一种基于子句特征的实体属性依赖情感分析方法
Das et al. Sarcasm detection on flickr using a cnn
Reganti et al. Modeling satire in English text for automatic detection
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
Gosai et al. A review on a emotion detection and recognization from text using natural language processing
Liu et al. Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm
Tang et al. Evaluation of Chinese sentiment analysis APIs based on online reviews
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
Chaudhuri Visual and text sentiment analysis through hierarchical deep learning networks
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Dixit et al. A customizable framework for multimodal emotion recognition using ensemble of deep neural network models
Reddy et al. Classification of user’s review using modified logistic regression technique
CN111694960A (zh) 基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型
CN115269833B (zh) 基于深度语义和多任务学习的事件信息抽取方法及系统
CN114817533A (zh) 基于时间特征的弹幕情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Li Fangfang

Inventor after: Chang Shuai

Inventor after: Mao Xingliang

Inventor after: Shi Ronghua

Inventor after: Shi Jinjing

Inventor after: Hu Chao

Inventor before: Chang Shuai

Inventor before: Li Fangfang

Inventor before: Mao Xingliang

Inventor before: Shi Ronghua

Inventor before: Shi Jinjing

Inventor before: Hu Chao

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220607

Address after: Room 301ab, No. 10, Lane 198, zhangheng Road, China (Shanghai) pilot Free Trade Zone, Shanghai, 201203

Patentee after: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Yuelu District City, Hunan province 410083 Changsha Lushan Road No. 932

Patentee before: CENTRAL SOUTH University

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An improved fine-grained emotion analysis method based on emotion word embedding

Effective date of registration: 20230215

Granted publication date: 20210907

Pledgee: Shanghai Rural Commercial Bank Co.,Ltd. Pudong branch

Pledgor: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2023310000031

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 301ab, No.10, Lane 198, zhangheng Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 201204

Patentee after: Shanghai Mido Technology Co.,Ltd.

Address before: Room 301ab, No. 10, Lane 198, zhangheng Road, China (Shanghai) pilot Free Trade Zone, Shanghai, 201203

Patentee before: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd.

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20210907

Pledgee: Shanghai Rural Commercial Bank Co.,Ltd. Pudong branch

Pledgor: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2023310000031