CN107402917B - 藏文短文本情感分析方法及装置 - Google Patents

藏文短文本情感分析方法及装置 Download PDF

Info

Publication number
CN107402917B
CN107402917B CN201710631444.9A CN201710631444A CN107402917B CN 107402917 B CN107402917 B CN 107402917B CN 201710631444 A CN201710631444 A CN 201710631444A CN 107402917 B CN107402917 B CN 107402917B
Authority
CN
China
Prior art keywords
tibetan
emotional
emotion
features
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710631444.9A
Other languages
English (en)
Other versions
CN107402917A (zh
Inventor
闫晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minzu University of China
Original Assignee
Minzu University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minzu University of China filed Critical Minzu University of China
Priority to CN201710631444.9A priority Critical patent/CN107402917B/zh
Publication of CN107402917A publication Critical patent/CN107402917A/zh
Application granted granted Critical
Publication of CN107402917B publication Critical patent/CN107402917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种藏文短文本情感分析方法及装置,属于大数据处理领域,本发明提供的方法包括:设置提取情感特征的多种特征类型;获取藏文短文本,根据预设多种特征类型从藏文短文本中自动选择藏文情感特征;利用信息增益法对该藏文短文本提取藏文情感特征;将自动选择的藏文情感特征及利用信息增益法提取的藏文情感特征进行融合处理,得到最终藏文情感特征。所述装置包括存储模块、自动匹配模块、特征提取模块和特征融合模块。本发明通过融合自动选择情感特征及利用算法抽取情感特征的方法,实现两种方式优势互补效果,从而提高藏文文本情感分析的正确率。

Description

藏文短文本情感分析方法及装置
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种藏文短文本情感分析方法及设备。
背景技术
文本情感分析(Text Sentiment Analysis),亦可称作意见挖掘(OpinionMining),是对带有情感色彩的主观文本进行分析、处理、归纳和推理的过程。这些年来,情感分析成为自然语言处理领域中的非常重要、热门的研究课题之一,同时它在数据挖掘、Web挖掘和文本挖掘领域也备受关注
目前文本情感分析成为自然语言处理领域中非常重要、热门的研究课题之一,同时它在数据挖掘、Web挖掘和文本挖掘领域备受关注,中、英文文本情感分类方面的研究相对成熟,而对于起步较晚的藏文信息,目前成熟的中英文情感分类方法无法直接应用在藏语中。
目前对于中英文的文本情感分析方法大致有两类:第一类是基于情感词典和多种特征类型的方法,通过抽取句子中出现的情感词、否定词、转折词等的极性、位置及个数等信息,依据特定语言的语法特征制定对应的情感计算多种特征类型对整个句子进行情感值得打分。如通过WordNet计算单个词的情感值,然后对待分析句子中所有带情感极性的词语进行简单的线性加权计算,最终得到该句子的情感打分,从而实现对句子情感的褒贬分类。第二类基于统计机器学习的方法,将句子情感倾向判断当作一个分类问题来处理,通过对文本的情感特征的抽取,完成文本的情感分类。如基于半监督的最大熵-朴素贝叶斯情感分类方法,跟基于监督的方法不同的是该方法只需要少量的标记语料和一些未标记的语料。
上述第一类方法依赖情感词典的规模和质量,且由于多种特征类型之间容易出现冲突,判别准确率不高;第二类方法能够适应大量、情况复杂的语料分析环境,但无法直接应用在藏文短文本情感分析中。
现有技术中对于藏文短文本情感分析的方法较少,有一种基于语义空间的藏文微博情感分析方法,其通过使用句法树生成句法结构并结合语义特征向量构建特征空间,运用K-means方法确定文本的情感倾向性,该方案通过构建情感倾向性特征的方式进行分析,分析的准确性较差。
发明内容
本发明实施例提出了一种藏文短文本情感分析方法及设备,提出利用多种特征类型自动选择情感特征及利用算法抽取情感特征相融合的方式,提高了藏文文本情感分析的正确率。
第一方面,本发明实施例提供了一种藏文短文本情感分析方法,所述方法包括:
预设情感特征的特征类型表,所述特征类型表中包括多种特征类型与藏文情感特征的对应关系;
获取藏文短文本,根据所述特征类型表从所述藏文短文本中自动选择藏文情感特征得到第一藏文情感特征集集;
利用信息增益法提取所述藏文短文本中的藏文情感特征得到第二藏文情感特征集;
将所述第一藏文情感特征集集和所述第二藏文情感特征集进行融合处理,得到最终藏文情感特征。
第二方面,本发明实施例提供了一种藏文短文本情感分析装置,所述装置包括:
存储模块,用于设置提取情感特征的特征类型表,并存储所述特征类型表,所述特征类型表中包括多种特征类型与藏文情感特征的对应关系;
自动匹配模块,用于对藏文短文本进行分析得到多个特征,将所述多个特征与所述特征类型表进行匹配,自动选择出第一藏文情感特征集;
特征提取模块,用于利用信息增益法提取第二藏文情感特征集;
特征融合模块,用于将所述自动匹配模块得到的第一藏文情感特征集与所述特征提取模块提取的第二藏文情感特征集进行融合得到最终藏文情感特征。
有益效果如下:
本发明提出藏文短文本情感分析方法和装置,通过融合自动选择情感特征及利用算法抽取情感特征的方法,实现两种方式优势互补效果,从而提高藏文文本情感分析的正确率。
附图说明
下面将参照附图描述本发明的具体实施例,其中:
图1示出了本发明实施例一中藏文短文本情感分析方法的流程示意图;
图2示出了本发明实施例二中藏文短文本情感分析方法的流程示意图;
图3示出了本发明实施例二中特征融合框架示意图;
图4示出了本发明实施例二中基于SVM多特征融合的藏文情感分类整体框架图;
图5示出了本发明实施例三中藏文短文本情感分析装置的结构示意图;
图6示出了本发明实施例三中藏文短文本情感分析装置的另一结构示意图;
图7示出了本发明实验验证中不同特征维度对分类效果的影响对比图;
图8示出了本发明实验验证中对三种方法的四个实验的整体正确率的对比柱状图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图对本发明的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本发明的一部分实施例,而不是所有实施例的穷举。并且在不冲突的情况下,本说明中的实施例及实施例中的特征可以互相结合。
发明人在发明过程中注意到:基于机器学习的特征选择方法,对于系统性能起到关键的作用,而自动选择的特征具有直观和一般性特点,情感词特征的好坏较为依赖于所构建情感词典的质量;而特征选择算法所抽取的特征不是很直观,但是能一定程度上抽取出当前训练语料中特有的类别信息。
因此本发明通过融合自动选择特征和算法抽取特征的方法,实现两种方式优势互补效果,从而提高藏文文本情感分析的正确率。
实施例一
图1示出了本发明实施例中藏文短文本情感分析方法的流程示意图,如图所示,包括:
步骤101、预设情感特征的特征类型表,特征类型表中包括多种特征类型与藏文情感特征的对应关系;
步骤102、获取藏文短文本,根据特征类型表从藏文短文本中自动选择藏文情感特征,得到第一藏文情感特征集;
步骤103、利用信息增益法提取藏文短文本中的藏文情感特征,得到第二藏文情感特征集;
步骤104、将第一藏文情感特征集和所述第二藏文情感特征集进行融合处理,得到最终藏文情感特征。
本发明提供的方法,通过设置多种特征类型,基于设置的情感特征类型自动提取藏文情感特征,并可根据特征提取算法提取出藏文情感特征,进而利用融合方法将两者提取的藏文情感特征进行融合,有效实现两种方法的优点,能够提升整体分析的性能,提高藏文文本情感分析的正确率。
实施例二
本发明实施例二以实际中藏文短文本情感分析方法为例,对本发明实施例一进行详细描述。
图2示出了本发明实施例中藏文短文本情感分析方法的流程示意图,如图所示,包括:
步骤201、提取情感特征的多种特征类型生成特征类型表,该特征类型至少包括藏语词性特征、藏语情感词特征、藏语否定词特征和藏语程度副词特征;
其中,在语料规模不是特别大的情况下,可以将藏文短文本中出现的全部词语组成的特征,选择成为情感特征,这种简单直接的方法能够取得一定的效果;而当语料规模稍大些,将所有的单词作为特征的做法,会造成维度过大,经常达到上万维,这种方式一方面将会造成文本特征空间的高维性和文本向量的稀疏性,极大的浪费计算资源,一方面影响分析结果的精确性。
实际过程中,往往需要采用特征选择法对段文本特征空间进行降维,提取区分度较高、对情感分类有利的特征。
本发明构建了一个特征类型表,特征类型表中包括多种特征类型与藏文情感特征的对应关系,多种特征类型至少包括:藏语词性特征、藏语情感词特征、藏语否定词特征和藏语程度副词特征。
藏语词性特征,根据《藏语自动分词及词性标注系统》中定义的词性得到。
藏语情感词特征,通过对藏汉大辞典和中文情感词典的比较分析,得到情感色彩较为浓厚的藏文词语,将情感词特征包括正向情感词特征和负向情感词特征,具体的,本发明中一共包含4363个藏语情感词特征,正向藏语情感词特征2275个,负向藏语情感词特征2088个。
藏语否定词特征,本发明构建了26个藏语否定词特征,包括
Figure GDA0001386595750000051
(不)、
Figure GDA0001386595750000052
(不是)、
Figure GDA0001386595750000053
(没有)、
Figure GDA0001386595750000054
(从不)、
Figure GDA0001386595750000055
(几乎不)等。
藏语程度副词特征,本发明构建了40个藏语程度副词特征,包括
Figure GDA0001386595750000061
(最)、
Figure GDA0001386595750000062
(极其)、
Figure GDA0001386595750000063
(非常)、
Figure GDA0001386595750000064
(特别)、
Figure GDA0001386595750000065
(相当)、
Figure GDA0001386595750000066
(十分)等。
另外,本发明设置的特征类型,除了上述藏语词性特征、藏语情感词特征、藏语否定词特征、藏语程度副词特征外,还包括藏语转折词特征。实际中,需要考虑藏文短文本中出现的转折词,段文本的整体倾向性往往取决于转折词后面部分的内容,因此,构建了6个藏语转折词特征,包括
Figure GDA0001386595750000067
(可是)、
Figure GDA0001386595750000068
(但是)等,并把藏语转折词特征也作为情感分析的一个特征。
步骤202、获取藏文短文本,根据步骤201中的特征类型表从该藏文短文本中自动选择藏文情感特征;
其中,可将步骤201中设置的提取情感特征的多种特征类型设置为列表,预置在系统中,系统能够提取藏文短文本中出现的特征,并将该特征与列表中的情感特征相匹配,若有匹配的情感特征,则选择出藏文情感特征。
具体实现时,首先获取藏文短文本,对该藏文短文本进行分析,将藏文短文本拆分为多个情感特征;然后将拆分得到的多个情感特征,分别与步骤201中预设的特征类型表进行匹配;当匹配出情感特征时,提取出情感特征,对拆分成的所有特征依次进行匹配,直到所有的特征均匹配结束,得到自动选择的第一藏文情感特征集。
上述设置的情感词特征是最为直观也是最为重要的特征之一,情感词特征抽取的好坏特别依赖于所构建的藏语情感词典的质量,而由于同一个情感词在不同的上下文环境中的情感倾向可能不同,一个情感词典很难运用在不同领域的语料中,在此,本发明提出情感特征选择算法。
步骤203、利用信息增益法,对步骤201中获取的藏文短文本提取藏文情感特征;
特征选择算法是通过构造一个评价函数来对特征词集合中的所有特征进行打分,保留对分类贡献较大的特征词,剔除其他词,通过特征选择能够减少了文本向量的维度,使特征向量能够更好地表示文本;此外,文本向量维度的减少能够减少分类器的噪声,对分类器的效率和精度都有一定程度的提高。本发明采用信息增益(IG)方法进行藏语短文本的情感特征抽取,得到第二藏文情感特征集。
信息增益(Information Gain)采用了信息论中熵(entropy)的概念,以各个特征的取值情况来划分学习样本空间,通过所获得的信息增益的多少来筛选有效的特征。特征t的信息增益可以定义如下述公式(1)所示。
Figure GDA0001386595750000071
其中P(ci)表示属于类别ci的文本在整个文本集合中出现的概率,P(t)表示词条t在整个文本集合中出现的概率,P(ci|t)表示包含词条t的文本属于类别ci的概率,
Figure GDA0001386595750000072
表示在整个文本集合中不包含词条t的概率,
Figure GDA0001386595750000073
表示一个文档不包含词语t时属于类别ci的概率,n代表类别的数量。
由于信息增益值能够反映出特征词所含的分类信息量,因此本发明将IG值作为特征词的特征值。
步骤204、将步骤202得到的第一藏文情感特征集及步骤203得到的第二藏文情感特征集进行融合处理,得到最终藏文情感特征。
多特征融合(multi-feature fusion,MFF)是一种多分类器融合,它能整合来自多种不同的角度从样本中抽取特征,并且减少单信息源中可能存在的不确定性,从而提升分类器的整体性能。
本发明选择两个大类特征,包括步骤202自动选择的藏文情感特征以及步骤203通过特征选择算法选取的藏文情感特征。其中,自动选择的藏文情感特征更加直观和一般性,但情感词特征的好坏较为依赖于所构建情感词典的质量;而特征算法所抽取的特征不是很直观,但是能一定程度上抽取出当前训练语料中特有的类别信息。通过融合两种抽取的特征形成优势互补的效果,从而提高藏文文本情感分类的正确率,特征融合框架及基于SVM多特征融合的藏文情感分类整体框架图如图3、4所示。
具体的,本发明采用乘法规则对第一藏文情感特征集和第二藏文情感特征集进行融合。
假设有R个参加组合的分类器fk(k=1,…,R),这些分类器给样本x的分类结果为Lk(Lk=c1,…,cm)。样本dk属于各个类别的条件概率表示为:Pk=[p(c1|dk),…,p(cm|dk)]t,其中p(ci|dk)表示样本dk属于类别ci的概率。
则乘法规则可表示为公式(2)和公式(3)所示。
assign y→cj (2)
Figure GDA0001386595750000081
上述两个公式表示,若各个分类器的结果满足公式(3)则样本dk属于类别y即cj
本发明提供的方法,通过设置多种特征类型,基于设置的情感特征类型自动提取藏文情感特征,并可根据特征提取算法提取出藏文情感特征,进而利用融合方法将两者提取的藏文情感特征进行融合,有效实现两种方法的优点,能够提升整体分析的性能,提高藏文文本情感分析的正确率。
实施例三
基于同一发明构思,本发明实施例中还提供了一种藏文短文本情感分析装置,由于这些装置解决问题的原理与一种藏文短文本情感分析方法相似,因此这些装置的实施可以参见方法的实施,重复之处不再赘述。
如图5所示,藏文短文本情感分析装置可以包括:
存储模块301,用于预设并存储情感特征的特征类型表,所述特征类型表中包括多种特征类型与藏文情感特征的对应关系;
获取模块302,用于获取藏文短文本;
自动匹配模块303,用于根据所述特征类型表从所述藏文短文本中自动选择藏文情感特征,得到第一藏文情感特征集;
特征提取模块304,用于利用信息增益法提取所述藏文短文本中的藏文情感特征,得到第二藏文情感特征集;
特征融合模块305,用于将所述自动匹配模块303得到的第一藏文情感特征集与所述特征提取模块304提取的第二藏文情感特征集进行融合得到最终藏文情感特征。
其中,参见图6,藏文短文本情感分析装置的存储模块301包括:
设置单元3011,用于设置多种特征类型,至少包括藏语词性特征、藏语情感词特征、藏语否定词特征、藏语程度副词特征;
存储单元3012,用于存储所述设置单元3011设置的多种特征类型及对应的情感特征。
具体的,设置单元设置的词性特征为《藏语自动分词及词性标注系统》中定义的词性;
藏语情感词特征有包含4363个,其中,正向藏语情感词2275个,负向藏语情感词2088个;
藏语否定词特征有26个,包括
Figure GDA0001386595750000091
(不)、
Figure GDA0001386595750000092
(不是)、
Figure GDA0001386595750000093
(没有)、
Figure GDA0001386595750000094
(从不)、
Figure GDA0001386595750000095
(几乎不)等;
藏语程度副词特征有40个,包括
Figure GDA0001386595750000096
(最)、
Figure GDA0001386595750000097
(极其)、
Figure GDA0001386595750000098
(非常)、
Figure GDA0001386595750000099
(特别)、
Figure GDA00013865957500000910
(相当)、
Figure GDA00013865957500000911
(十分)等。
另外,该设置单元3011设置的特征类型还包括藏语转折词特征,包括6个藏语转折词特征,包括
Figure GDA00013865957500000912
(可是)、
Figure GDA00013865957500000913
(但是)等。
其中,藏文短文本情感分析装置的自动匹配模块303包括:
分析单元3031,用于对藏文短文本进行分析,将藏文短文本拆分为多个情感特征;
匹配单元3032,用于将分析单元3031得到的多个情感特征,分别与存储模块301中的特征类型表进行匹配;
具体的,匹配单元将多个情感特征与特征类型表中的情感特征一一进行匹配。
选择单元3033,用于在匹配单元3032匹配出情感特征时,提取所述情感特征,对拆分后的所有特征依次进行匹配,直到所有特征均匹配结束,得到第一藏文情感特征集。
本发明提供的藏文短文本情感分析装置,通过对藏文设置有多种情感特征类型,基于多种情感特征类型从藏文短文本中提取情感特征,并基于信息增益法提取藏文情感特征,进而将两种方式提取的藏文情感特征进行融合得到最终的藏文情感特征,融合后的藏文情感特征有较高的正确率。
实验验证
下面本发明对上述实现方式进行了实验分析
本实验采用的SVM分类器是使用LibSVM,因为LibSVM的程序较小,使用较为灵活,需要输入的参数也较少,此外它还是开源的,比较容易扩展,所以目前它成为国内外使用最多的SVM库。
实验中涉及到的参数c和参数g的取值,本发明通过LibSVM提供的网格寻优工具计算得到的。核函数的选择是径向机核函数(RBF),其他设置和参数均使用默认的参数设置。
语料来源及实验数据集
一般来说,购物网站、新闻网站、博客、微博、论坛等是情感语料的主要来源,在经过大量的调研后发现,仅存在一两个藏文购物网站而且这些购物网站中的商品评论数也是屈指可数了;藏文新闻网站的数量有不少,可是几乎都没有提供新闻评论的功能;藏文博客方面是有几个较大的网站,评论数量也不少,但这些博客大多数都是用于发表个人的文学作品(如诗歌、散文等),其评论较为专业,考虑到个人不具备该方面的专业知识以及时间精力有限,因此不考虑将其作为研究的对象;最后发现,在新浪微博中存在大量的藏文微博以及微博评论,并且这些微博及评论多为日常用语,方便后期的标注工作,因此本发明选择新浪微博作为藏文情感语料的来源。
通过编写网络爬虫程序对新浪微博上的藏文微博和藏文评论进行爬取,并将爬取到的文本语料以txt的格式保存。
经统计计算,一共爬取了19.8M以txt格式存储的藏文微博文本,大约为23万条。经过预处理后,对这些藏语文本进行人工标注、校验以得到一个可用的藏文情感语料库。标注规则如下:对积极的文本条目用标签“+1”标记,消极的文本条目用标签“-1”标记,中性的文本条目用标签“0”标记,而对于在预处理中未能去除的无用文本条目用标签“2”进行标记。最终的标记结果统计如下表1所示。
类别 Negative Positive Neutral Useless
数量 3717 8836 16842 1083
表1标记后语料统计结果
从上表可以发现负极性的样本数量要远远少于正极性的样本数量。为了避免不平衡语料在模型训练的过程中较少的或几乎不关注少样本的类目信息的问题,本发明采用全部的3717个负极性样本以及从正极性样本中随机选取4000条的样本作为实验的数据集。同时分别从实验的数据集中分别随机抽取400条正极性样本和负极性样本作为测试集,其余样本作为训练样本集。
一般自然语言处理中经常采用的三个实验评测指标为:准确率P、召回率R和F1值。
准确率(Accuracy Rate)是系统正确分类的某类别样本数目与系统返回该类别记录总数的比率,衡量的是检索系统的查准率,计算公式如公式(4)所示。
Figure GDA0001386595750000121
召回率(Recall Rate,另名查全率)是系统正确分类的某类别样本数目和测试语料中该类别样本总数的比率,衡量的是模型系统的查全率,其公式如公式(5)所示。
Figure GDA0001386595750000122
准确率P和召回率R在很多情况下是相互矛盾的,一个值高,另一个值就低。F1值是综合了R和P计算得到,其公式如公式(6)所示。
Figure GDA0001386595750000123
本发明设计了三组实验来研究采用不同特征类型情况下基于SVM的藏文短文本情感分类效果。分别是:采用自动选取特征的情感分类实验、采用信息增益方法选取特征的情感分类实验以及融合了两类特征后的分类实验。
1)自动选取特征分类实验
采用上述步骤201中设置的所有特征集进行藏文情感分析,实验的结果如表2所示。
Figure GDA0001386595750000124
表2基准分类效果
从实验结果中可以发现,采用自动选取的特征对藏语短文本进行极性分类的效果不理想。通过对实验中错误分类的样本进行分析,发现许多样本中包含的情感词在情感词典找不到,如“
Figure GDA0001386595750000125
(现出虚伪的笑脸)”在词典中并没有“
Figure GDA0001386595750000126
(虚伪)”这个情感词,而情感词特征在情感分类任务中是最重要的特征之一。
此外,在错误分类的样本中发现了部分样本,所包含的情感词在词典中都能找到,但是内容中存在转折词。因此,将转折词特征也加入基本的情感分类特征集中进行实验,结果如表3所示。
Figure GDA0001386595750000131
表3加入转折词的分类效果
从上表的结果发现,在加入转折词特征后,正、负两类的F值都有所提高,这表明转折词特征在进行情感分类的过程中起到了一定的作用,但提高的幅度并不大,很有可能是因为本发明情感语料库中包含转折词的样本数量并不多。
2)信息增益特征分类实验
在使用信息增益(IG)方法选择特征时,选取信息增益打分值较高的前k个词作为分类分类器的特征,而k值的选择对分类器的分类效果也是有很大影响,如果k值太小,则所抽取的特征不能很好的作用于分类器;如果k值太大,则不能达到降维的作用,一方面会增大训练器的计算量,另一方面对分类结果也会有一定的影响。因此,分别选取了100、300、600、1000、1500、2000作为k值的预选值。实验结果如表4所示。
Figure GDA0001386595750000132
Figure GDA0001386595750000141
表4不同特征维度实验结果比较表
通过上面这组实验可以看出采用信息增益提取的特征比采用自动选择的情感特征更加有效,并且正极性和负极性都有明显的提升。这组实验结果说明,在藏语情感分类问题中信息增益算法能够较有效地提取藏语文本中的情感特征。当选取的信息增益特征维度为1000时分类器的效果最好,总体的正确率达到了79.58%,比使用常用情感特征时提升了9.75个百分点。此外,从上表中发现并不是特征维度越高,准确率就越高,为了更直观地对比不同信息增益抽取的特征维度对每个类别准确率的影响,做了以下简要分析,如图7所示。
如上图7所示,采用信息增益提取特征维度从100增加到300这一阶段,两个类的准确度都随之上升,并且上升速度较快,这很可能是这个阶段分类器从中学习到的知识增加得比较多;而在300增加到1000这个阶段,分类的准确率也有随之上升,但变化不大,这是因为这个时候分类器从增加的特征中学习到的知识量在不断变小;而当超过1000维时,分类器的效果反而下降了,这是因为当达到一定程度后,继续增加特征维度会使维度空间变大,造成数据稀疏,从而导致准确率下降。因此,在进行特征选择时,应选取适当维度的特征进行分类器的训练,而不是一味地增加特征维度。
3)特征融合实验
在上一小结中取不同维度信息增益特征的对比实验中,确定了选取特征的最佳维度为1000。因此,通过乘法规则对选取前1000维的信息增益特征训练的SVM分类器与采用人工选择特征训练的SVM分类器进行融合。实验结果如下表5所示。
Figure GDA0001386595750000151
表5特征融合实验结果表
采用不同的特征一共做了四个藏文情感分类实验,为了对实验结果有一个更直观的展现,图8给出了上述三种方法中四个实验的整体正确率的对比柱状图,可见,基于IG特征方法的分类效果要优于基于人工选择特征方法;基于特征融合方法的分类效果优于只采用常用情感特征的或IG特征的SVM方法,这也说明融合了人工选择特征和信息增益特征的分类器确实能从多个角度对藏文文本进行情感判断进而提高提高分类效果。
综上,本发明提出了融合自动选择特征与算法选择特征的藏文情感分析方案,使分类器能够学习到多个角度的情感分类特征从而提升分类器的分类效果。实验证明,在融合了信息增益特征后的分类效果最优。
为了描述的方便,以上装置的各部分以功能分为各种模块或单元分别描述。当然,在实施本发明时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (7)

1.一种藏文短文本情感分析方法,其特征在于,所述方法包括:
预设情感特征的特征类型表,所述特征类型表中包括多种特征类型与藏文情感特征的对应关系;所述多种特征类型具体包括:藏语词性特征、藏语情感词特征、藏语否定词特征和藏语程度副词特征;
获取藏文短文本,根据所述特征类型表从所述藏文短文本中自动选择藏文情感特征,得到第一藏文情感特征集;
利用信息增益法提取所述藏文短文本中的藏文情感特征,得到第二藏文情感特征集;
将所述第一藏文情感特征集和所述第二藏文情感特征集进行融合处理,得到最终藏文情感特征;
将所述第一藏文情感特征集和所述第二藏文情感特征集进行融合处理,得到最终藏文情感特征,具体包括:
采用乘法规则对所述第一藏文情感特征集和所述第二藏文情感特征集进行融合;
假设有R个参加组合的分类器fk(k=1,…,R),这些分类器给样本x的分类结果为Lk(Lk=c1,…,cm),样本dk属于各个类别的条件概率表示为:Pk=[p(c1|dk),…,p(cm|dk)]t,其中p(ci|dk)表示样本dk属于类别ci的概率,
则乘法规则表示为assign y→cj
Figure FDA0002849616750000011
若所述第一藏文情感特征集和所述第二藏文情感特征集结果满足
Figure FDA0002849616750000012
Figure FDA0002849616750000013
则样本dk属于类别y即cj,p(ci)表示属于类别ci的文本在所述藏文短文本中出现的概率。
2.如权利要求1所述的方法,其特征在,所述多种特征类型还包括:藏语转折词特征,至少包括
Figure FDA0002849616750000014
Figure FDA0002849616750000015
3.如权利要求1或2所述的方法,其特征在于,所述藏语情感词特征包括正向藏语情感词特征和负向藏语情感词特征;
所述藏语否定词特征至少包括
Figure FDA0002849616750000021
Figure FDA0002849616750000022
所述藏语程度副词特征至少包括
Figure FDA0002849616750000023
Figure FDA0002849616750000024
4.如权利要求1所述的方法,其特征在于,根据所述特征类型表从所述藏文短文本中自动选择藏文情感特征,得到第一藏文情感特征集,具体包括:
将所述藏文短文本拆分为多个情感特征;
将拆分得到的所述多个情感特征,分别与所述特征类型表进行匹配;当在所述特征类型表中匹配出情感特征时,提取所述情感特征;
对拆分后的所有特征依次进行匹配,直到所有特征均匹配结束,得到第一藏文情感特征集。
5.权利要求1所述的方法,其特征在于,所述信息增益法具体包括:
信息增益
Figure FDA0002849616750000025
其中p(ci)表示属于类别ci的文本在所述藏文短文本中出现的概率,p(t)表示词条t在所述藏文短文本中出现的概率,p(ci|t)表示包含词条t的所述藏文短文本属于类别ci的概率,
Figure FDA0002849616750000026
表示在所述藏文短文本中不包含词条t的概率,
Figure FDA0002849616750000027
表示所述藏文短文本不包含词条t时属于类别ci的概率,n代表类别的数量。
6.一种藏文短文本情感分析装置,其特征在于,所述装置包括:存储模块,用于预设并存储情感特征的特征类型表,所述特征类型表中包括多种特征类型与藏文情感特征的对应关系;
所述存储模块包括设置单元和存储单元;所述设置单元,用于设置多种特征类型,至少包括藏语词性特征、藏语情感词特征、藏语否定词特征和藏语程度副词特征;
所述存储单元,用于存储所述设置单元设置的多种特征类型及对应的情感特征;
获取模块,用于获取藏文短文本;
自动匹配模块,用于根据所述特征类型表从所述藏文短文本中自动选择藏文情感特征,得到第一藏文情感特征集;
特征提取模块,用于利用信息增益法提取所述藏文短文本中的藏文情感特征,得到第二藏文情感特征集;
特征融合模块,用于将所述自动匹配模块得到的第一藏文情感特征集与所述特征提取模块提取的第二藏文情感特征集进行融合,得到最终藏文情感特征;
将所述第一藏文情感特征集和所述第二藏文情感特征集进行融合处理,得到最终藏文情感特征,具体包括:
采用乘法规则对所述第一藏文情感特征集和所述第二藏文情感特征集进行融合;
假设有R个参加组合的分类器fk(k=1,…,R),这些分类器给样本x的分类结果为Lk(Lk=c1,…,cm),样本dk属于各个类别的条件概率表示为:Pk=[p(c1|dk),…,p(cm|dk)]t,其中p(ci|dk)表示样本dk属于类别ci的概率,
则乘法规则表示为assign y→cj
Figure FDA0002849616750000031
若所述第一藏文情感特征集和所述第二藏文情感特征集结果满足
Figure FDA0002849616750000032
Figure FDA0002849616750000033
则样本dk属于类别y即cj,p(ci)表示属于类别ci的文本在所述藏文短文本中出现的概率。
7.如权利要求6所述的装置,其特征在于,所述自动匹配模块包括:分析单元、匹配单元和选择单元;
所述分析单元用于对藏文短文本进行分析,将藏文短文本拆分为多个情感特征;
所述匹配单元用于将所述分析单元得到的多个情感特征,分别与所述存储模块中的特征类型表进行匹配;
所述选择单元,用于在所述匹配单元匹配出情感特征时,提取所述情感特征,对拆分后的所有特征依次进行匹配,直到所有特征均匹配结束,得到第一藏文情感特征集。
CN201710631444.9A 2017-07-28 2017-07-28 藏文短文本情感分析方法及装置 Active CN107402917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710631444.9A CN107402917B (zh) 2017-07-28 2017-07-28 藏文短文本情感分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710631444.9A CN107402917B (zh) 2017-07-28 2017-07-28 藏文短文本情感分析方法及装置

Publications (2)

Publication Number Publication Date
CN107402917A CN107402917A (zh) 2017-11-28
CN107402917B true CN107402917B (zh) 2021-02-12

Family

ID=60402536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710631444.9A Active CN107402917B (zh) 2017-07-28 2017-07-28 藏文短文本情感分析方法及装置

Country Status (1)

Country Link
CN (1) CN107402917B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682124B (zh) * 2012-05-16 2014-07-09 苏州大学 一种文本的情感分类方法及装置
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN105138506B (zh) * 2015-07-09 2018-07-03 天云融创数据科技(北京)有限公司 一种金融文本情感分析方法
CN106202032B (zh) * 2016-06-24 2018-08-28 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Research on construction of Tibetan emotion dictionary;Xiaodong Yan et al.;《2015 18th International Conference on Network-Based Information Systems》;20151210;第570-572页 *
Tibetan Sentence Sentiment Analysis Based on the Maximum Entropy Model;Xiaodong Yan et al.;《2015 10th International Conference on Broadband and Wireless Computing, Communication and Applications》;20160303;第594-597页 *
基于Stacking组合分类方法的中文情感分类研究;李寿山 等;《中文信息学报》;20100930;第24卷(第5期);第56-61页 *
藏文文本情感分析方法研究;李苗苗;《中国优秀硕士学位论文全文数据库信息科技辑》;20170715;第I138-986页 *

Also Published As

Publication number Publication date
CN107402917A (zh) 2017-11-28

Similar Documents

Publication Publication Date Title
CN106156204B (zh) 文本标签的提取方法和装置
CN111177365A (zh) 一种基于图模型的无监督自动文摘提取方法
US10831993B2 (en) Method and apparatus for constructing binary feature dictionary
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
Lou et al. Multilabel subject-based classification of poetry
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
JP2019082841A (ja) 生成プログラム、生成方法及び生成装置
Armouty et al. Automated keyword extraction using support vector machine from Arabic news documents
Shetty et al. Auto text summarization with categorization and sentiment analysis
Ashna et al. Lexicon based sentiment analysis system for malayalam language
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN107402917B (zh) 藏文短文本情感分析方法及装置
CN114896398A (zh) 一种基于特征选择的文本分类系统及方法
KR101240330B1 (ko) 다차원 문서 분류 시스템 및 방법
Imran et al. Twitter Sentimental Analysis using Machine Learning Approaches for SemeVal Dataset
Smith et al. Classification of text to subject using LDA
CN111241846A (zh) 一种主题挖掘模型中主题维度自适应确定方法
Biswas et al. Predicting Wikipedia Infobox Type Information using Word Embeddings on Categories.
Maciołek et al. Using shallow semantic analysis and graph modelling for document classification
CN112528045B (zh) 基于开放百科图谱的领域图谱关系的判定方法及系统
CN112463918B (zh) 一种信息推荐方法、系统及存储介质和终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant