CN107885883A - 一种基于社会媒体的宏观经济领域情感分析方法及系统 - Google Patents

一种基于社会媒体的宏观经济领域情感分析方法及系统 Download PDF

Info

Publication number
CN107885883A
CN107885883A CN201711248804.3A CN201711248804A CN107885883A CN 107885883 A CN107885883 A CN 107885883A CN 201711248804 A CN201711248804 A CN 201711248804A CN 107885883 A CN107885883 A CN 107885883A
Authority
CN
China
Prior art keywords
emotion
social media
features
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711248804.3A
Other languages
English (en)
Inventor
付博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guoxin Macro Digital Technology Co Ltd
Original Assignee
Beijing Guoxin Macro Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guoxin Macro Digital Technology Co Ltd filed Critical Beijing Guoxin Macro Digital Technology Co Ltd
Priority to CN201711248804.3A priority Critical patent/CN107885883A/zh
Publication of CN107885883A publication Critical patent/CN107885883A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种基于社会媒体的宏观经济领域情感分析方法及系统,其特征在于,所述方法包括:通过数据模块抓取经济领域的社会媒体数据,并对所述社会媒体数据进行预处理;通过分类特征模块定义社会媒体数据的分类特征;根据所述分类特征通过分类器模型训练模块构建分类器模型,对所述分类器模型进行训练学习;利用所述分类器模型通过判定模块对经过预处理的所述社会媒体数据进行情感判定。本申请提出的基于社会媒体的宏观经济领域情感分析方法,一方面解决了通用领域情感分析方法不适用于特定领域情感分析算法的问题,另一方面提出了针对宏观经济领域研究情感分析算法的有效特征,可供后续研究借鉴。

Description

一种基于社会媒体的宏观经济领域情感分析方法及系统
技术领域
本申请涉及数据分析领域,特别地,涉及一种基于社会媒体的宏观经济领域情感分析方法及系统。
背景技术
随着网络媒体技术的发展和普及,Twitter、新浪微博等社会媒体成为了最普遍的信息发布、传播和共享的工具。用户在这些工具生成的数据中包含有大量的带有情感色彩的信息,这些信息表达了人们各种情感色彩和情感倾向,如“喜”、“怒”、“哀”、“愁”、“惊”等情感的表达,以及“积极”、“消极”等态度的表达。通过浏览统计这些带有主观色彩的信息,可以了解大众舆论对于某一事件或国家政策的看法。例如,互联网(如微博、论坛等)上发布了大量的国家政策、股票行情等有价值的新闻信息,用户通过对这些新闻、事件、政策等发表不同的言论,如针对北京医改政策,有网民表示对药费下降的事情持正面情绪,也有网民表示对挂号费大幅提高的事情持负面情绪。因此,利用互联网数据进行情感分析用以辅助政府决策成为该领域研究的热点问题。
情感分析是指从无结构的文本中自动地分析、抽取和整理带有主观色彩的文本。情感分析的任务繁多,最初的情感分析研究主要是对带有情感色彩的词语的分析,简称情感词。情感词是带有褒义或者贬义色彩的词语,是决定情感类型的重要的特征词语。如“全面”是带有褒义色彩的词语,而“严峻”是带有贬义色彩的词语。随着互联网上大量的带有情感色彩的文本出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句子的研究,继而为舆情监控与信息预测服务。按照任务的不同,情感分析包含情感分类、情感元素抽取、情感词典构建、情感摘要、情感检索等。
情感分析在众多应用领域中都有重要的意义。例如情感分析搭建了大众与政府沟通的桥梁,改变了以往需要通过问卷调查等了解民情的传统方式。通过对社交媒体文本的情感分析,政府部门可以方便地收集到广大民众对政策法规的态度,为改进政府工作和预防公众不满情绪提供决策依据。此外,情感分析还可以促进人工智能等相关领域的发展,甚至可为社会学、传播学、语言学、管理学等社会科学提供实证基础。
如下表1所示,示出了微博中的情感句和非情感句的实例:
类别 实例
正面 2008年,华能收购了新加坡大士能源100%的股权
负面 宏观经济政策,购房首付下调了,可是依然买不起房……
中性 面对重大资产重组停牌不超过3个月的停复牌新规,仍有上市公司视而不见
表1微博情感句与非情感句实例
目前,现有技术中情感分析主要包含两类方法,分别是基于情感词典匹配的文本情感分类和基于大规模数据的机器学习的方法。
基于情感词典匹配的方法是基于已构建的情感词典完成对某类情感句的识别和抽取。这种方法虽然高效快速,但其依赖于具体领域,可移植性差。
基于机器学习的方法通常把事件抽取任务看作分类问题,主要的问题则是在分类器的构建以及特征的选择和发现上。相对而言,这种方法较为客观,不需要太多的人工模板的指定和领域相关知识的依赖。因此,目前的情感分析研究大多是采用基于机器学习的方法,研究者的工作主要体现在特征选择和分类算法两个方面。但是此种研究算法仅适用于通用领域,不适用于特定领域。
发明内容
本申请提供一种基于社会媒体的宏观经济领域情感分析方法及系统,用于解决现有技术对于社会媒体数据分析不适用于特定领域,移植性差的问题。
本申请公开的一种基于社会媒体的宏观经济领域情感分析方法,其特征在于,所述方法包括:
通过数据模块抓取经济领域的社会媒体数据,并对所述社会媒体数据进行预处理;
通过分类特征模块定义社会媒体数据的分类特征;
根据所述分类特征通过分类器模型训练模块构建分类器模型,并对所述分类器模型进行训练学习;
利用所述分类器模型通过判定模块对经过预处理的所述社会媒体数据进行情感判定。
优选地,所述通过数据模块抓取社会媒体数据,并对所述社会媒体数据进行预处理,具体包括:
从互联网上抓取经济领域社会媒体数据,将所述数据进行去重和去噪预处理,划分成多个情感句子。
优选的,所述分类特征包括词汇特征、情感词特征、表情符特征、情感上下文特征和符号特征。
优选的,所述词汇特征,指通过分词工具对句子进行分词后将句中出现的词汇表示成词向量形式,定义词汇特征属于布尔值特征;
所述情感词特征,指将句子中出现的正面情感词的个数、出现的情感词的分值总和、出现的情感词的最大情感值分值和最后一个情感词的分值作为情感词特征;
所述表情符特征,指收集带有同类表情符的社会媒体数据,定义表情符极性规则,根据所述表情符极性规则获得表情符情感词典;
所述情感上下文特征,指对于含有多个分句以及分句中含有转折词语的情感句,整句的情感值为含有转折词语的转折句的情感值;对于含有否定词语的情感句,整句的情感值等于原情感值取反;
所述视觉特征,指通过视觉捕捉到的特征,包括延长词语、连续标点符号、短链接、提及特征和话题;其中,所述延长词语指重复次数超过2次的词语。
优选的,所述情感词的分值来源于情感词典,所述情感词典是指对经济领域的文本进行情感标注后统计正负面极性得出的情感词典,所述情感词典包括情感词和所述情感词的极性得分。
优选地,所述根据所述表情符极性规则获得表情符情感词典,具体包括:
利用表情符获取大量社会媒体数据;
修正所述表情符,得出表情符数据;
只收集带有同类表情符的社会媒体数据,定义表情符极性规则为:包含正面表情符且不包含负面表情符的社会媒体数据具有正面情感极性,包含负面表情符且不包含正面表情符的社会媒体数据具有负面情感极性;
根据所述表情符极性规则进行修正,获得表情符情感词典。
优选地,所述根据所述分类特征通过分类器模型训练模块构建分类器模型,对所述分类器模型进行训练学习,具体包括:
将所述分类特征加入到分类器模型中,对所述分类器模型进行训练学习;
所述训练学习采用的评价指标为正确率、准确率、召回率和F值,所述F值指正确率和召回率的调和平均值。
本申请公开的一种基于社会媒体的宏观经济领域情感分析系统,其特征在于,所述系统包括:
数据模块,用于抓取经济领域的社会媒体数据,并对所述社会媒体数据进行预处理;
分类特征模块,用于定义社会媒体数据的分类特征;
分类器模型训练模块,用于根据所述分类特征构建分类器模型,对所述分类器模型进行训练学习;
判定模块,用于利用所述分类器模型对经过预处理的所述社会媒体数据进行情感判定。
与现有技术相比,本申请具有以下优点:本申请将情感分析视为句子级的情感分类问题,判定任意句子S的情感为正面、负面和中性。本申请采用的情感分类器使用了5类特征,对提高情感判定的效果均有明显帮助。采用本申请对句子情感判断的准确率高达67%。同时,在进一步的实验中将本申请用于实例,证明了本申请的实际应用价值。
附图说明
附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例一种基于社会媒体的宏观经济领域情感分析方法的流程图;
图2为本申请涉及的现有的CBOW模型和Skip-gram模型的示意图;
图3为本申请的情感分析方法对全国不同地区针对特色小镇这一话题的情感分析结果;
图4为本申请实施例一种基于社会媒体的宏观经济领域情感分析系统的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。术语“包括”、“包含”及类似术语应该被理解为是开放性的术语,即“包括/包含但不限于”。术语“基于”是“至少部分地基于”。术语“一实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。
参照图1,示出了本申请实施例一种基于社会媒体的宏观经济领域情感分析方法,本优选方法实施例包括以下步骤:
步骤S101:通过数据模块抓取经济领域的社会媒体数据,并对所述社会媒体数据进行预处理。
本实施例中以微博作为社会媒体的一个具体示例。
数据模块从互联网上抓取财经类微博语料,经过去重、去噪预处理后将其划分为多个情感句子,获得11224条微博语料句子。
步骤S102:通过分类特征模块定义社会媒体数据的分类特征。
所述分类特征包括词汇特征、情感词特征、表情符特征、情感上下文特征和符号特征。
词语语义表示是指学习基本语义单元的语义表示。一般地,词语或词汇被认为是文本的基本组成单位,理解词语的语义是理解文本的基础。传统的词向量表示方法是将词语表示为计算机可识别的高维、稀疏的离散向量,这种词向量表示方法通常维度为词表长度,每一维度对应词表中的一个词,被称为独热(One-hot)的表示形式。当表示一个词时,可以将词在词表中对应维度的值置为1,否则置为0。因此采用常用的词向量表示方法对词进行特征表示时必然会遇到严重的数据稀疏问题,同时该方法不利于计算词与词之间的语义相似度,更加易于使语言模型产生过拟合现象。
与传统的词向量表示方法相比,词汇的分布表示将一个词语映射到一个低维实数的向量空间,以使得词的分布表示更加平滑,因此可以一定程度地缓解所研究任务中的数据稀疏问题。目前,基于神经网络的词汇分布表示(Word Embedding)方法在词语语义表示方面表现出很好的性能,受到广泛关注。各种词汇分布的表示方法之间并无明显的优劣之别,其性能的好坏通常根据待处理的具体问题以及待处理数据的效率要求等决定。
有人提出了一种多层神经网络的方法自动学习词汇分布表示,多层神经网络模型主要包括输入层、隐含层和输出层共三个层次。该方法学习词汇分布表示的基本假设是一个词的语义会受到与其相邻词的影响。具体的,对于任意一个词w,他们从训练数据集X中选取窗口为n的片段x作为输入层,经过隐含层后得到分数f(x)。随后,将随机抽取某个词x(r)替换掉片段x中间的词,同样得到分类f(x(r))。因此,训练目标就是优化以下的损失函数:
与上述替换中间词的词汇分布表示方法不同,有人进一步发现词汇分布表示可以通过简单的向量偏移来刻画词语之间的语义关系,利用对数线性模型将深度学习的模型降低到可接受范围内。进而提出了两个对数线性模型来有效地学习词汇分布表示,分别是连续跳克模型(Continuous Skip-gram Model,Skip-gram)和连续词包模型(ContinuousBag-of-Words Model,CBOW)。其中,Skip-gram模型是在给定当前词wt和其左右k个词的前提下,利用对数线性函数来预测wt的上下文词语,Content(wt)=wt-2,wt-1,wt+1,wt+2。而CBOW模型则是利用当前词的上下文词语来预测当前词的概率。此后,两种模型都使用随机梯度下降法(Stochastic Gradient Descent,SGD)来优化目标函数,即从而学习获得了词汇的分布表示。
上面介绍了Skip-gram模型和CBOW模型,这两种模型都可以基于开源工具包Word2vec实现,本申请选择使用CBOW模型来学习词汇分布表示。有研究显示,通过Word2vec学习词汇分布后,简单的向量相加获得将语义更加相近的词,相近词w之间的词汇分布表示v(w)经过向量加法进行组合仍会输出有意义的结果,有v(king)-v(queen)≈v(man)-v(woman),即v(国王)-v(王后)≈v(男人)-v(女人),以上利用向量加法来进行词向量组合也会得到比较有意义的结果如上所述。因此,我们希望通过词汇分布表示的学习,可以将具有情感意图的文本中表达相似的词语作为特征以提高分类器的性能。
参照图2,示出了CBOW模型和Skip-gram模型的结构。
在CBOW模型中,同样也包括输入层、隐层和输出层共三个层次,参见图2左图所示。在已知当前词wt的在一定窗口范围内的上下文词语的前提下,即wt左右各k个词语作为上下文词Content(wt)=wt-2,wt-1,wt+1,wt+2,随后在大规模的源领域训练语料上,使用随机梯度下降法优化目标函数,最终预测当前词wt的概率。即计算如下:
这里,p是一个softmax函数。该函数的计算方法如下:
特征1:Word2vec特征,即词汇特征(F1)
所述词汇特征(F1),指通过分词工具对句子进行分词后将句中出现的词汇表示成词向量形式,定义词汇特征属于布尔值特征。
词汇特征通常是自然语言处理中的基本特征单元,因此被广泛应用于情感分析、词性标注、命名实体识别等相关研究中。本申请中也将词汇特征用于事件判定的研究中。虽然词汇特征相对来说比较简单,但词汇特征对提升事件判定的性能也是有帮助的。例如,类似“撑控”、“筹划”等这样的词汇常常使用在事件句子中,而“天气”、“活动”等词汇往往使用在非事件的句子中。本申请通过分词工具对句子进行分词后将句中出现的词汇表示成词向量形式,即定义词汇特征属于布尔值特征。
特征2:情感词特征(F2)
所述情感词特征(F2),指将句子中出现的正面情感词的个数、出现的情感词的分值总和、出现的情感词的最大情感值分值和最后一个情感词的分值作为情感词特征;所述情感词的分值来源于情感词典,所述情感词典是指对经济领域的文本进行情感标注后统计正负面极性得出的情感词典,所述情感词典包括情感词和所述情感词的极性得分。
情感词是情感分析任务中的重要的组成成分。它是指具有明显褒贬倾向性的词语,如喜欢、端庄等词为褒义情感词,而讨厌、丑陋等词为贬义情感词。以往的研究表明情感词语对于情感分析的效果具有很大的影响,可以对情感倾向性的判定有很大的帮助。但由于中文表达方法的多样性、歧义性,同样的词在不同领域内的倾向性可以不同。
基于以上的考虑,我们构建了适用于宏观经济领域的情感词典。对经济领域的文本进行情感标注,并人工统计了正负面的情感词典,包含总数为13744个情感词,以及情感词的极性得分,如表2所示。
情感词 极性 分值
喜欢 正面 0.375
宽裕 正面 0.5
丑恶 负面 -0.875
下跌 负面 -0.375
表2情感词典
其中,我们将句中出现的正面情感词的个数、出现的情感词的分值总和、出现的情感词的最大情感值分值以及最后一个情感词的分值作为情感词特征。
特征3:表情符特征(F3)
所述表情符特征,指收集带有同类表情符的社会媒体数据,定义表情符极性规则,根据所述表情符极性规则获得表情符情感词典。
为了获取大规模的包含情感信息的文本作为训练数据,我们在新浪微博上使用褒贬表情符自动收集数据。由于在发布微博时,用户经常使用表情符表达自己的情感,例如用户在表达正面情感时习惯使用褒义表情符,如“我今天很开心”,表达了用户正面的情感,在这条微博中用户使用了褒义表情符,由此我们便知道“我今天很开心”是一个正面的句子。相应地,我们可以利用表情符自动获取大量的褒义的微博,获取贬义微博的方法也类似。
由于表达褒义和贬义的表情符不但数量多,而且有些表情符具有模糊性和歧义性,为了保证自动获取的含有不同极性的微博质量,可对表情符进行修正,参见表3。
极性 正面 负面
表情符数量 46 34
自动抽取微博数量 214897 148442
表3表情符及对应的微博数量
具体实施时,可利用表情符获取大量社会媒体数据;对所述表情符进行修正,得出表情符数据;只收集带有同类表情符的社会媒体数据,定义表情符极性规则为:包含正面表情符且不包含负面表情符的社会媒体数据具有正面情感极性,包含负面表情符且不包含正面表情符的社会媒体数据具有负面情感极性;根据所述表情符极性规则进行修正,获得表情符情感词典。
对自动收集的带有情感的文本数据进行过滤,只收集带有同类表情符的微博数据,即定义包含正面表情符且不包含负面表情符的微博具有正面情感极性,包含负面表情符且不包含正面表情符的微博具有负面情感极性,最终经过修正获得微博情感词典。算法如下表4所示:
表4基于表情符的情感词典抽取算法
特征4:情感上下文特征(F4)
所述情感上下文特征,指对于含有多个分句以及分句中含有转折词语的情感句,整句的情感值为含有转折词语的转折句的情感值;对于含有否定词语的情感句,整句的情感值等于原情感值取反。
为了更好的识别用户对宏观经济领域的情感倾向性,可对包含情感词的句子的上下文进行判断。一方面,句子中若包含明显的总结性连词或转折性连词,对句子的情感判断起决定性作用;另一方面,否定词指可以反转或否定情感倾向的词语,如“不”、“没有”等。通过否定词的定义可以发现否定词对主观情感的表达具有至关重要的影响,如“我不喜欢这个手机”,如果不考虑否定词“不”,会将这个句子错误地识别为褒义句。因此,我们采用如下策略:对于含有多个分句以及分句中含有转折词语的情感句,整句的情感值等于含有转折词语的转折句的情感值;对于含有否定词语的情感句,整句的情感值等于原情感值取反。
特征5:视觉特征(F5)
所述视觉特征,指通过视觉捕捉到的特征,包括延长词语、连续标点符号、短链接、提及特征和话题;其中,所述延长词语指重复次数超过2次的词语。
有研究提出了视觉特征对于网页信息抽取的重要性的结论。本申请在研究情感分析时也认为视觉特征具有重要作用。一般地,具有强烈情感的微博会出现重复的词语,即延长词语,所述延长词语指某个字符重得超过2次的词语。另外,也可以出现连续标点符号,如句号(。。)、问号(??)和感叹号(!!)等。此外,微博中含有一些特殊的特征,包括短链接(URL),提及特征(@用户名)、话题(#)等,这些特征都可以通过视觉所捕捉到,因此被称为视觉特征。
步骤S103:根据所述分类特征通过分类器模型训练模块构建分类器模型,对所述分类器模型进行训练学习。
将所述分类特征加入到分类器模型中,对所述分类器模型进行训练学习;
所述训练学习采用的评价指标为正确率、准确率、召回率和F值,所述F指指正确率和召回率的调和平均值。
目前,可用于二元分类的学习算法和工具很多,主要包括基于支持向量机(SVM)和最大熵(ME)等模型的分类器。这些分类器没有绝对的优劣之分,因而本申请在训练数据时选择的二元分类器均为支持向量机分类器,并通过libsvm-3.1工具包进行实验。此分类器可以输出类别以及预测类别标签,继而在数据集上利用本申请上述提出的5类特征对SVM分类器进行了实验。以下简要介绍该分类器对类别概率估计的原理。
假设给定样本数据集为{(x1,y1),(x2,y2),K,(xN,yN)},其中xi∈R为d维向量,类别标记yi∈{1,-1},i∈[1,N],则线性判别函数可记为如下形式:
f(x)=h(x)+b
其中,这里称为再生核希尔伯特空间中的函数。我们的目标是去估计如下概率值:
这里,对于这一概率,可通过已知的训练数据和其决策函数的最大似然函数来实现,因此这一问题即解决以下的最优化问题:
将传统基于词典的方法和基于词典、规则的方法与本申请基于分类器及分类特征的方法进行实验比较。
方法1:基于词典的方法
情感词典的构建实质上就是在词语级别的情感分类,即按照不同的情感倾向(例如“褒义/贬义/中性”等)对情感词进行分类,然后得到的词典。基于情感词典及规则方法,即按照构建的情感词典和相关情感计算规则来进行情感倾向性判定的方法。其计算公式如下:
其中,上述公式中Polarity是指需要判断文本的情感倾向性,Positivecount为该文本中褒义词出现的个数,Negativecount为该文本中贬义词出现的个数。
方法2:基于词典+规则的方法
传统的词典评分方法为简单的褒贬词频的统计,然后求差。这种模型算法简单,但是伴随而来的是较低的准确率。为了使评分算法更具普适性,可对常见的但是原先算法无法正确判断的句式进行归纳总结,并且提出解决办法,如表5所示:
ID 句子示例 特点 判定依据 权值相加规则
1 这件衣服好看 情感词 情感词词典 1*score
2 这件衣服还算好看 程度副词+情感词 弱程度副词词典 2*score
3 这件衣服不好看 否定词+情感词 否定词词典 -1*score
4 这件衣服哪里好看? 疑问词+情感词 疑问词词典 0
表5基于词典+规则方法
其中,score为情感词典中的情感分值。
本申请的实验用来评价本申请提出的基于社会媒体的宏观经济领域的情感分析方法中分类特征与分类器的有效性验证。
1、训练数据标注
由于二元分类的方法需要训练语料,而目前国内外并没有公开发布的用于经济领域情感分析的相关语料,因此,本实验首先通过人工标注的方法构建一个训练集。以微博语料为例,从网上抓取了财经类微博语料,经过去重、去噪等预处理后获得11224条微博句,将这些句子进行人工标注,得到正例(正面情感句)为2713条句子,负例(负面情感句)为3903条句子,中性4608(无情感的句子)。
2、对基于表示学习的情感分析方法基于分类器模型和分类特征有效性的评价
利用上述标注数据对本文提出的分类特征进行评价。这里采用的评价指标为正确率Acc.,准确率P,召回率R以及F-值F,所述F值指正确率和召回率的调和平均值。具体定义为P=|A∩B|/|A|,R=|A∩B|/|B,F=2PR/(P+R)。其中,A表示分类器识别为正例的数据集,B表示人工标注为正例的数据集合。本实验使用的分类器为SVM模型、LibLinear模型和最大熵模型,特征F1至特征F5为上述全部的5类特征。
为了考察本实验使用的5类特征是否对情感分析都有作用,我们进行了5组实验,每组实验依次加入Word2vec特征(F1)、情感词特征(F2)、表情符特征(F3)、情感上下文特征(F4)和视觉特征(F5)。其实验结果见表6:
表6基于5类特征的对比实验结果
从表6中我们可以看到,随着加入每一类特征,分类的F值均达到最高。这说明本实验中所采用的5类特征对于提高分类器的性能都是有帮助的。也就是说,全部5类特征均有助于情感分析的任务。需要说明的是,在验证特征有效性的时候,我们使用的是LR分类器。
通过另一组实验来比较不同方法在情感分析这一任务上的性能。参见表7,表7结果表明,提取上述5类特征在情感分析这一任务上是有效的,其中正确率最高时达到了64.47%,同时F值达到了61.94%。由于情感分析任务中,准确率P的指标性能更加重要,因此选用SVM分类器进行分类。
方法 Acc. F
基于词典的方法 40.9% 38.9%
基于词典+规则的方法 45.9% 43.7%
分类器SVM+全部特征 64.5% 61.6%
分类器Liblinear+全部特征 63.5% 61.9%
表7各种方法的总体对比情况
步骤S104:利用所述分类器模型通过判定模块对经过预处理的所述社会媒体数据进行情感判定。
基于所述分类器模型对经过预处理的微博情感句子进行情感判定,可快速分析宏观经济领域下用户对某一政策的情感倾向态度。
参见图3,示出了依据本申请的情感分析方法对全国不同地区针对特色小镇这一话题的情感分析结果。
本申请提出的基于社会媒体的宏观经济领域情感分析方法,一方面解决了通用领域情感分析方法不适用于特定领域情感分析算法的问题,另一方面提出了针对宏观经济领域研究情感分析算法的有效特征,可供后续研究借鉴。同时,本申请将情感分析问题作为三元分类问题来解决,尝试了多种特征分类,并对特征进行比较、分析、归纳,有利于后续的研究。
对于前述的各方法实施例,为了描述简单,故将其都表述为一系列的动作组合,但是本领域的技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为根据本申请,某些步骤可以采用其他顺序或同时执行;其次,本领域技术人员也应该知悉,上述方法实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
参照图4,示出了本申请实施例一种基于社会媒体的宏观经济领域情感分析系统的结构框图,所述系统包括:
数据模块41,用于抓取经济领域的社会媒体数据,并对所述社会媒体数据进行预处理;
分类特征模块42,用于定义社会媒体数据的分类特征;
分类器模型训练模块43,用于根据所述分类特征构建分类器模型,对所述分类器模型进行训练学习;
判定模块44,用于利用所述分类器模型对经过预处理的所述社会媒体数据进行情感判定。
其中,所述分类特征包括词汇特征、情感词特征、表情符特征、情感上下文特征和符号特征。
所述词汇特征,指通过分词工具对句子进行分词后将句中出现的词汇表示成词向量形式,定义词汇特征属于布尔值特征;
所述情感词特征,指将句子中出现的正面情感词的个数、出现的情感词的分值总和、出现的情感词的最大情感值分值和最后一个情感词的分值作为情感词特征;
所述表情符特征,指收集带有同类表情符的社会媒体数据,定义表情符极性规则,根据所述表情符极性规则获得表情符情感词典;
所述情感上下文特征,指对于含有多个分句以及分句中含有转折词语的情感句,整句的情感值为含有转折词语的转折句的情感值;对于含有否定词语的情感句,整句的情感值等于原情感值取反;
所述视觉特征,指通过视觉捕捉到的特征,包括延长词语、连续标点符号、短链接、提及特征和话题;其中,所述延长词语指重复次数超过2次的词语。
需要说明的是,上述系统实施例属于优选实施例,所涉及的单元和模块并不一定是本申请所必须的。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于本申请的系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请所提供的一种基于社会媒体的宏观经济领域情感分析方法及系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种基于社会媒体的宏观经济领域情感分析方法,其特征在于,所述方法包括:
通过数据模块抓取经济领域的社会媒体数据,并对所述社会媒体数据进行预处理;
通过分类特征模块定义社会媒体数据的分类特征;
根据所述分类特征通过分类器模型训练模块构建分类器模型,并对所述分类器模型进行训练学习;
利用所述分类器模型通过判定模块对经过预处理的所述社会媒体数据进行情感判定。
2.根据权利要求1所述的方法,其特征在于,所述通过数据模块抓取社会媒体数据,并对所述社会媒体数据进行预处理,具体包括:
从互联网上抓取经济领域社会媒体数据,将所述数据进行去重和去噪预处理,划分成多个情感句子。
3.根据权利要求1或2所述的方法,其特征在于,所述分类特征包括词汇特征、情感词特征、表情符特征、情感上下文特征和符号特征。
4.根据权利要求3所述的方法,其特征在于,
所述词汇特征,指通过分词工具对句子进行分词后将句中出现的词汇表示成词向量形式,定义词汇特征属于布尔值特征;
所述情感词特征,指将句子中出现的正面情感词的个数、出现的情感词的分值总和、出现的情感词的最大情感值分值和最后一个情感词的分值作为情感词特征;
所述表情符特征,指收集带有同类表情符的社会媒体数据,定义表情符极性规则,根据所述表情符极性规则获得表情符情感词典;
所述情感上下文特征,指对于含有多个分句以及分句中含有转折词语的情感句,整句的情感值为含有转折词语的转折句的情感值;对于含有否定词语的情感句,整句的情感值等于原情感值取反;
所述视觉特征,指通过视觉捕捉到的特征,包括延长词语、连续标点符号、短链接、提及特征和话题;其中,所述延长词语指重复次数超过2次的词语。
5.根据权利要求4所述的方法,其特征在于,
所述情感词的分值来源于情感词典,所述情感词典是指对经济领域的文本进行情感标注后统计正负面极性得出的情感词典,所述情感词典包括情感词和所述情感词的极性得分。
6.根据权利要求4所述的方法,其特征在于,所述根据所述表情符极性规则获得表情符情感词典,具体包括:
利用表情符获取大量社会媒体数据;
修正所述表情符,得出表情符数据;
只收集带有同类表情符的社会媒体数据,定义表情符极性规则为:包含正面表情符且不包含负面表情符的社会媒体数据具有正面情感极性,包含负面表情符且不包含正面表情符的社会媒体数据具有负面情感极性;
根据所述表情符极性规则进行修正,获得表情符情感词典。
7.根据权利要求1所述的方法,其特征在于,所述根据所述分类特征通过分类器模型训练模块构建分类器模型,对所述分类器模型进行训练学习,具体包括:
将所述分类特征加入到分类器模型中,对所述分类器模型进行训练学习;
所述训练学习采用的评价指标为正确率、准确率、召回率和F值,所述F值指正确率和召回率的调和平均值。
8.一种基于社会媒体的宏观经济领域情感分析系统,其特征在于,所述系统包括:
数据模块,用于抓取经济领域的社会媒体数据,并对所述社会媒体数据进行预处理;
分类特征模块,用于定义社会媒体数据的分类特征;
分类器模型训练模块,用于根据所述分类特征构建分类器模型,对所述分类器模型进行训练学习;
判定模块,用于利用所述分类器模型对经过预处理的所述社会媒体数据进行情感判定。
9.根据权利要求8所述的系统,其特征在于,所述分类特征包括词汇特征、情感词特征、表情符特征、情感上下文特征和符号特征。
10.根据权利要求9所述的系统,其特征在于,
所述词汇特征,指通过分词工具对句子进行分词后将句中出现的词汇表示成词向量形式,定义词汇特征属于布尔值特征;
所述情感词特征,指将句子中出现的正面情感词的个数、出现的情感词的分值总和、出现的情感词的最大情感值分值和最后一个情感词的分值作为情感词特征;
所述表情符特征,指收集带有同类表情符的社会媒体数据,定义表情符极性规则,根据所述表情符极性规则获得表情符情感词典;
所述情感上下文特征,指对于含有多个分句以及分句中含有转折词语的情感句,整句的情感值为含有转折词语的转折句的情感值;对于含有否定词语的情感句,整句的情感值等于原情感值取反;
所述视觉特征,指通过视觉捕捉到的特征,包括延长词语、连续标点符号、短链接、提及特征和话题;其中,所述延长词语指重复次数超过2次的词语。
CN201711248804.3A 2017-12-01 2017-12-01 一种基于社会媒体的宏观经济领域情感分析方法及系统 Pending CN107885883A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711248804.3A CN107885883A (zh) 2017-12-01 2017-12-01 一种基于社会媒体的宏观经济领域情感分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711248804.3A CN107885883A (zh) 2017-12-01 2017-12-01 一种基于社会媒体的宏观经济领域情感分析方法及系统

Publications (1)

Publication Number Publication Date
CN107885883A true CN107885883A (zh) 2018-04-06

Family

ID=61776522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711248804.3A Pending CN107885883A (zh) 2017-12-01 2017-12-01 一种基于社会媒体的宏观经济领域情感分析方法及系统

Country Status (1)

Country Link
CN (1) CN107885883A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595440A (zh) * 2018-05-11 2018-09-28 厦门市美亚柏科信息股份有限公司 短文本内容分类方法和系统
CN108664469A (zh) * 2018-05-07 2018-10-16 首都师范大学 一种情感类别确定方法、装置及服务器
CN109087205A (zh) * 2018-08-10 2018-12-25 北京字节跳动网络技术有限公司 舆情指数的预测方法及装置、计算机设备和可读存储介质
CN109284389A (zh) * 2018-11-29 2019-01-29 北京国信宏数科技有限责任公司 一种文本数据的信息处理方法、装置
CN109460550A (zh) * 2018-10-22 2019-03-12 平安科技(深圳)有限公司 利用大数据的证券研报情感分析方法、装置及计算机设备
CN109684634A (zh) * 2018-12-17 2019-04-26 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN111767398A (zh) * 2020-06-30 2020-10-13 国网新疆电力有限公司电力科学研究院 基于卷积神经网络的二次设备故障短文本数据分类方法
CN111767712A (zh) * 2019-04-02 2020-10-13 北京地平线机器人技术研发有限公司 基于语言模型的业务数据筛选方法和装置、介质、设备
CN111949852A (zh) * 2020-08-31 2020-11-17 东华理工大学 一种基于互联网大数据的宏观经济分析方法及系统
CN112163607A (zh) * 2020-09-17 2021-01-01 平顶山学院 基于多维度和多层次联合建模的网络社会媒体情感分类方法
CN112347259A (zh) * 2020-11-17 2021-02-09 河北工程大学 一种结合词典与机器学习的评论文本情感分析方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799899A (zh) * 2012-06-29 2012-11-28 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
CN103150367A (zh) * 2013-03-07 2013-06-12 宁波成电泰克电子信息技术发展有限公司 一种中文微博的情感倾向分析方法
US20140201126A1 (en) * 2012-09-15 2014-07-17 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
CN104915636A (zh) * 2015-04-15 2015-09-16 北京工业大学 基于多级框架显著性特征的遥感影像道路识别方法
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN106202584A (zh) * 2016-09-20 2016-12-07 北京工业大学 一种基于标准词典和语义规则的微博情感分析方法
CN106445914A (zh) * 2016-09-13 2017-02-22 清华大学 微博情感分类器的构建方法及构建装置
CN106528533A (zh) * 2016-11-08 2017-03-22 浙江理工大学 一种基于动态情感词和特殊修饰词的文本情感分析方法
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799899A (zh) * 2012-06-29 2012-11-28 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
US20140201126A1 (en) * 2012-09-15 2014-07-17 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN103150367A (zh) * 2013-03-07 2013-06-12 宁波成电泰克电子信息技术发展有限公司 一种中文微博的情感倾向分析方法
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
CN104915636A (zh) * 2015-04-15 2015-09-16 北京工业大学 基于多级框架显著性特征的遥感影像道路识别方法
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN106445914A (zh) * 2016-09-13 2017-02-22 清华大学 微博情感分类器的构建方法及构建装置
CN106202584A (zh) * 2016-09-20 2016-12-07 北京工业大学 一种基于标准词典和语义规则的微博情感分析方法
CN106528533A (zh) * 2016-11-08 2017-03-22 浙江理工大学 一种基于动态情感词和特殊修饰词的文本情感分析方法
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HSUAN-TIEN LIN 等: ""A note on Platt’s probabilistic outputs for support vector machines"", 《HTTPS://DOI.ORG/10.1007/S10994-007-5018-6》 *
朱浩然 等: ""金融领域中文微博情感分析"", 《第八届(2013)中国管理学年会¬---金融分会场》 *
贾坤 等: ""遥感影像分类方法研究进展"", 《光谱学与光谱分析》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664469A (zh) * 2018-05-07 2018-10-16 首都师范大学 一种情感类别确定方法、装置及服务器
CN108664469B (zh) * 2018-05-07 2021-11-19 首都师范大学 一种情感类别确定方法、装置及服务器
CN108595440B (zh) * 2018-05-11 2022-03-18 厦门市美亚柏科信息股份有限公司 短文本内容分类方法和系统
CN108595440A (zh) * 2018-05-11 2018-09-28 厦门市美亚柏科信息股份有限公司 短文本内容分类方法和系统
CN109087205B (zh) * 2018-08-10 2020-09-18 北京字节跳动网络技术有限公司 舆情指数的预测方法及装置、计算机设备和可读存储介质
CN109087205A (zh) * 2018-08-10 2018-12-25 北京字节跳动网络技术有限公司 舆情指数的预测方法及装置、计算机设备和可读存储介质
CN109460550A (zh) * 2018-10-22 2019-03-12 平安科技(深圳)有限公司 利用大数据的证券研报情感分析方法、装置及计算机设备
CN109284389A (zh) * 2018-11-29 2019-01-29 北京国信宏数科技有限责任公司 一种文本数据的信息处理方法、装置
CN109684634A (zh) * 2018-12-17 2019-04-26 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN109684634B (zh) * 2018-12-17 2023-07-25 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN111767712A (zh) * 2019-04-02 2020-10-13 北京地平线机器人技术研发有限公司 基于语言模型的业务数据筛选方法和装置、介质、设备
CN111767398A (zh) * 2020-06-30 2020-10-13 国网新疆电力有限公司电力科学研究院 基于卷积神经网络的二次设备故障短文本数据分类方法
CN111949852A (zh) * 2020-08-31 2020-11-17 东华理工大学 一种基于互联网大数据的宏观经济分析方法及系统
CN112163607A (zh) * 2020-09-17 2021-01-01 平顶山学院 基于多维度和多层次联合建模的网络社会媒体情感分类方法
CN112163607B (zh) * 2020-09-17 2024-07-05 平顶山学院 基于多维度和多层次联合建模的网络社会媒体情感分类方法
CN112347259A (zh) * 2020-11-17 2021-02-09 河北工程大学 一种结合词典与机器学习的评论文本情感分析方法

Similar Documents

Publication Publication Date Title
CN107885883A (zh) 一种基于社会媒体的宏观经济领域情感分析方法及系统
Kumar et al. Sentiment analysis of multimodal twitter data
Asghar et al. T‐SAF: Twitter sentiment analysis framework using a hybrid classification scheme
CN108763326B (zh) 一种基于特征多样化的卷积神经网络的情感分析模型构建方法
Xu et al. Hierarchical emotion classification and emotion component analysis on Chinese micro-blog posts
CN102789498B (zh) 基于集成学习的中文评论文本的情感分类方法与系统
Alowaidi et al. Semantic sentiment analysis of Arabic texts
Shi et al. Sentiment analysis of Chinese microblogging based on sentiment ontology: a case study of ‘7.23 Wenzhou Train Collision’
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN102929861B (zh) 一种文本情感指数计算方法和系统
CN107357889A (zh) 一种基于内容或情感相似性的跨社交平台图片推荐算法
CN111914087B (zh) 一种舆情分析方法
CN102663046A (zh) 一种面向微博短文本的情感分析方法
CN103034626A (zh) 情感分析系统及方法
Lavanya et al. Twitter sentiment analysis using multi-class SVM
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
Pan et al. Deep neural network-based classification model for Sentiment Analysis
CN112861541A (zh) 一种基于多特征融合的商品评论情感分析方法
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
Wei et al. Sentiment classification of Chinese Weibo based on extended sentiment dictionary and organisational structure of comments
Yamamoto et al. Multidimensional sentiment calculation method for Twitter based on emoticons
Kuo et al. Integrated microblog sentiment analysis from users’ social interaction patterns and textual opinions
CN114742071A (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
Zhang et al. Predicting and visualizing consumer sentiments in online social media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20221223

AD01 Patent right deemed abandoned