CN105320960B - 一种基于投票的跨语言主客观情感分类方法 - Google Patents
一种基于投票的跨语言主客观情感分类方法 Download PDFInfo
- Publication number
- CN105320960B CN105320960B CN201510662283.0A CN201510662283A CN105320960B CN 105320960 B CN105320960 B CN 105320960B CN 201510662283 A CN201510662283 A CN 201510662283A CN 105320960 B CN105320960 B CN 105320960B
- Authority
- CN
- China
- Prior art keywords
- emotion
- word
- words
- subjective
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于投票的跨语言主客观情感分类方法,包括如下步骤:S1,根据源语言的情感词典构建目标语言的情感词典;S2,采用规则算法、机器翻译与统计机器学习相结合的算法、极性特征值计算算法三种算法分别从待标注文本中的句子中提取词,根据构建的目标语言的情感词典,判断词的情感极性,进而进行句子的主客观性质判断;S3,获得根据三种算法得到的句子的主客观性质的判断结果,通过投票对句子的主客观性质进行判定。该方法可以在一定准确度的前提下,充分考虑目标语言的语境和使用习惯,有效地解决了目标语言的标注语料稀缺的问题,在保证召回率的前提下进一步提高分类准确率。
Description
技术领域
本发明涉及一种跨语言主客观情感分类方法,尤其涉及一种基于投票的跨语言主客观情感分类方法,属于计算机自然语言处理技术领域。
背景技术
随着微博等社交网络平台的快速发展,文本情感分类技术已成为文本信息处理的热点。有标注的情感资源为文本情感识别研究提供了基础。目前,英文领域的语料资源有SentiWordNet、细粒度情感分析语料MPQA等;中文领域有HowNet(知网)、同义词词林等。然而,有标注的语料在不同语言下的分布是不均衡的。当缺乏某种语言的有标注语料时,利用其它语言的有标注语料来辅助进行情感识别已成为一个热门课题。
跨语言情感分析(Cross Lingual Sentiment Analysis,CLSA)是指利用已有语言的有标注语料,辅助另一种语言来进行情感倾向性分析。现有的CLSA技术有一种方式是利用双语词典或对齐语料库建立两种语言的对应关系,再运用相似技术进行目标语言的情感分析。也有一种方式是利用机器翻译技术,先将不同语言翻译成同一种语言,再在单语上应用情感分析方法。Wan等人利用机器翻译技术将有标注的英文文本与未标注的中文文本互译,再运用Co-Training算法进行中文情感识别。徐军针对机器翻译的不准确性问题提出了一种迁移自学习算法,通过自动标记训练集中的高置信度翻译样本,对分类器进行迭代训练。上述研究都是基于不同语料背景的。当已有语料资源的背景不同时,CLSA策略也有所区别。而且,现今可使用的语料资源绝大部分为英文语料,而其他语言的语料质量参差不齐,数量也相对稀少,很难达到英文语料的质量水平。如果特定语言相关的情感资源缺乏,跨语言情感分析的准确率会受到很大的影响。
为了解决上述问题,在公开号为CN 103530286A的中国发明专利申请文件中公开了一种跨语言情感分类方法,包括以下步骤:S1,从语料库获取预设数目的已标注英文语料以及未标注的中文语料,将已标注的英文语料翻译成中文语料,并进行标注。S2,从所述中文语料中提取已标注部分,将所述中文语料中剩余的未标注部分进行情感分类。S3,根据已标注中文语料中正类分类正确的样本数P、已标注中文语料中负类分类正确的样本数N,以及中文语料的总样本数A,计算分类准确率。
但是,由于中英文语言的特点以及使用习惯上与其他国家的巨大差异,直接将已标注的英文语料使用中英双语词典或机器翻译系统翻译成中文语料,并进行标注,则会出现诸多问题。如一词多义以及词语境用法不一致等。通过此种方法得到的情感词典是不准确的,不能满足跨语言情感分析对准确性的要求。
发明内容
针对现有技术的不足,本发明所要解决的技术问题在于提供一种基于投票的跨语言主客观情感分类方法。
为实现上述发明目的,本发明采用下述的技术方案:
一种基于投票的跨语言主客观情感分类方法,包括如下步骤:
S1,根据源语言的情感词典构建目标语言的情感词典;
S2,采用规则算法、机器翻译与统计机器学习相结合的算法、极性特征值计算算法三种算法分别从待标注文本中的句子中提取词,根据构建的目标语言的情感词典,判断所述词的情感极性,进而进行句子的主客观性质判断;
S3,获得根据三种算法得到的句子的主客观性质的判断结果,通过投票对句子的主客观性质进行判定。
其中较优地,在步骤S1中,根据源语言的情感词典构建目标语言的情感词典,包括如下步骤:
S11,获取源语言的情感词典中的强情感词,使用双语词典将所述强情感词翻译为目标语言,得到初始的强正向情感词集合以及初始的强负向情感词集合;
S12,根据语料的使用情况,采用双筛选机制,对两个初始的情感词集合分别进行筛选,得到强正向情感词集合和强负向情感词集合;
S13,通过类似点互信息的方式对得到的强正向情感词集合和强负向情感词集合进行扩展,将情感词典中的情感极性扩展成5级。
其中较优地,在步骤S11中,获取源语言的情感词典中的强情感词,使用双语词典将所述强情感词翻译为目标语言,在翻译过程中,采用词典使用频率最高的翻译作为目标语言中的词语意思。
其中较优地,在步骤S12中,采用双筛选机制,对两个初始的情感词集合分别进行筛选,包括如下步骤:
筛选出在中文大规模未标注料中出现次数少的翻译;
把不是情感词或翻译错误的词从集合中删除,得到强正向情感词集合和强负向情感词集合。
其中较优地,在步骤S13中,通过类似点互信息的方式对得到的强正向情感词集合和强负向情感词集合进行扩展,包括如下步骤:
S131,将SO-PMI值的大小设置5个区间,每个区间对应一个分值,使用SO-PMI算法对分词器从翻译成目标语言的已标注语料中分出来的所有词进行打分,根据分值的分布来确定其情感极性;
S132,在情感极性的每级中,找出SO-PMI值的绝对值最高的前十个词,加入情感词典,将情感词典中的情感极性扩展成5级。
其中较优地,步骤S131包括如下步骤:
S1311,计算两个词之间的点互信息PMI,采用如下公式:
其中,P(word1&word2)为两个词word1和word2同时在句子中出现的概率;
S1312,根据两个词之间的点互信息计算一个词的SO-PMI,采用如下公式:
SO-PMI(word)=∑pword∈SetPPMI(word,pword)-∑nword∈SetNPMI(word,nword)
其中,SetP为正向情感词集,SetN为负向情感词集;pword为正向情感词集中的词,nword为负向情感词集中的词;word为获取的分词器从翻译成目标语言的已标注语料中分出来的词;
S1313,将SO-PMI值的大小设置5个区间,每个区间对应一个分值,根据获得的每个词的SO-PMI值,对所述词进行打分,根据分值的分布来确定其情感倾向。
其中较优地,在步骤S13中,对情感词典进行扩展过程中,进行扩展的词还包括给定语料中的新词,发现给定语料中的新词,包括如下步骤:
S1311,将源语料切分成n-gram片段;其中,n-gram片段为将文本中任何相邻的n个字组成一个片段,n取大于1的整数;
S1312,计算每个n-gram片段的凝固度与自由度;
记片段w=abc,片段w的凝固度Coh(w)计算公式如下:
其中,p(x)表示x出现的概率;
自由度Free(w)计算公式如下:
Free(w)=min{cfree(ls),cfree(rs)};
其中,ls表示片段w的左邻字集,rs表示片段w的右邻字集;
S1313,将凝固度、自由度和词频数都满足阈值条件的片段筛选出来,作为候选新词集;
S1314,从候选新词集中移除给定词典中存在的词,输出新词集合。
其中较优地,在步骤S2中,所述规则算法,包括如下步骤:
对待标注文本中的句子进行分词处理;
将分词处理后产生的词带入情感词典以及主题相关情感词典进行比较,判断句子中的词是否满足以下规则:
规则1:句中包含一个或一个以上的强情感极性的情感词;
规则2:句中包含两个或两个以上的弱情感词;
如果同时满足规则1和规则2,则所述句子是主观句,否则,判定所述句子为客观句。
其中较优地,在步骤S2中,所述机器翻译与统计机器学习相结合的算法,包括如下步骤:
将源语言的标注语料通过机器翻译翻译为目标语言语料;
对翻译的目标语言语料抽取分类特征,根据情感词典和主题相关情感词典构建特征列表;
将源语言的标注信息通过标注投影的方式标注到目标语料,补充到特征列表中,根据特征列表训练目标语言的SVM分类器;
采用SVM分类器对待标注文本中的句子进行主客观情感分类。
其中较优地,所述主题相关情感词典是评价对象和情感词组成的情感词典,通过对主题相关文本做主题聚类之后,抽取评价对象和情感词获得。
其中较优地,在步骤S2中,所述极性特征值计算算法,包括如下步骤:
计算待标注文本中句子的极性特征值,采用如下计算公式:
设定阈值f,根据设定的阈值对得到的极性特征值进行判断;
如果得到的极性特征值在区间[-f,+f]之内,则所述句子为客观句;否则,所述句子为主观句。
其中较优地,在步骤S3中,包括如下步骤:
根据三种算法获得句子的主客观性质的判断结果;
判断三种算法获得的句子的主客观性质的判断结果是否相同;
如果相同,则判断结果即为句子的主客观性质;
如果不同,则选择其中两种算法认定的判断结果作为所述句子的主客观性质的判断结果。
本发明所提供的基于投票的跨语言主客观情感分类方法,首先,根据源语言的情感词典构建目标语言的情感词典;可以在一定准确度的前提下,充分考虑中文的语境和使用习惯,有效地解决了目标语言的标注语料稀缺的问题。另外,情感词典的扩展保证了目标语言的情感词典的情感词的数量,为后续主客观情感分类打下了很好地基础。然后,采用规则算法、机器翻译与统计机器学习相结合的算法、极性特征值计算算法三种算法分别从待标注文本中的句子中提取词,根据构建的目标语言的情感词典,判断词的情感极性,进而进行句子的主客观性质判断;最后,获得根据三种算法得到的句子的主客观性质判断结果,通过投票对句子的主客观性质进行判定,实现文本主客观情感分类,可以在保证召回率的前提下进一步提高分类准确率。
附图说明
图1为本发明所提供的基于投票的跨语言主客观情感分类方法的流程图;
图2为本发明中,使用机器翻译与统计机器学习相结合的算法进行待标注文本中句子的主客观性质判断的流程图。
具体实施方式
下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。
如图1所示,本发明所提供的基于投票的跨语言主客观情感分类方法,包括如下步骤:首先,根据源语言的情感词典构建目标语言的情感词典;然后,采用规则算法、机器翻译与统计机器学习相结合的算法、极性特征值计算算法三种算法分别从待标注文本中的句子中提取词,根据构建的目标语言的情感词典,判断词的情感极性,进而进行句子的主客观性质判断;最后,获得根据三种算法得到的句子的主客观性质判断,通过投票对句子的主客观性质进行判定,实现文本主客观情感分类。下面对这一过程做详细具体的说明。
S1,根据源语言的情感词典构建目标语言的情感词典。
根据源语言的情感词典构建目标语言的情感词典,源语言和目标语言可以是任何国家语言,在本发明所提供的实施例中,设定中文为目标语言,英文为源语言。
为了构建目标语言的情感词典,首先获取到源语言的情感词典。英文的情感语料库MPQA已经广为人知并且使用广泛。MPQA情感资源语料库收集了从2002年5月份到2003年6月期间,来自世界各地的,共计有187种来源的英文版新闻文章。并且这些新闻文章都被做了详细的标注。其中包含一个英文情感词典,每一个情感词的标注分为强正向极性、弱正向极性、中性、弱负向极性、强负向极性五类,并对单词的词性做了标注。
由于中英文语言以及使用习惯上的巨大差异,如果直接将该英文词典使用中英双语词典或机器翻译系统翻译成中文词典,则会出现诸多问题。如一词多义,以及词语境用法不一致等。通过此种方法得到的情感词典是不准确的。考虑采用选取种子情感词并对其进行扩展的方法获取目标语言的情感词典,具体包括如下步骤:
S11,获取源语言的情感词典中的强情感词,使用双语词典将它们翻译为目标语言,得到初始的强正向情感词集合SetP0以及初始的强负向情感词集合SetN0。
首先将MPQA情感词典中的强情感词,即标注为强正向情感词和强负向情感词的情感词找出来,使用双语词典将它们翻译为中文。在翻译过程中,只采用词典返回的第一个意思,即使用频率最高的翻译。这样便得到了初始的强正向情感词集合SetP0以及初始的强负向情感词集合SetN0。
S12,根据语料的使用情况,采用双筛选机制,对两个初始的情感词集合分别进行筛选,得到情感词集合SetP和SetN。
得到强正向情感词集合SetP以及强负向情感词集合SetN之后,根据语料的使用情况,采用双筛选机制,对两个情感词集合分别进行筛选。具体包括如下步骤:首先筛选出在中文大规模未标注料中出现次数过少的翻译。在本发明所提供的实施例中,将中文大规模未标注料作为测试集,第一次筛选主要针对测试集的语料分布空间,在测试集范围内筛选情感词。最后再把明显不是情感词或翻译错误的词从集合中删除,得到最终的情感词集合SetP和SetN。筛选的主要目的是尽量刨除情感倾向错误或翻译错误的情感词,以保证集合中的情感词极性标注正确。而情感词的数量则不需要太多。
S13,通过类似点互信息的方式对得到的情感词集合SetP和SetN进行扩展,将情感词典中的情感极性扩展成5级。
在得到正负向两种情感极性的情感词集合SetP和SetN之后,为了得到最终的目标语言的情感词典,需要对两个集合进行扩展,将情感词典中的情感极性扩展成5级,以满足使用的需要。
主要通过类似点互信息的方式对已有的两个情感词集合进行扩展。对于所有分词器分出来的词进行极性判别,找出极性明显的词作为情感词,具体包括如下步骤:
S131,将SO-PMI值的大小设置5个区间,每个区间对应一个分值,使用SO-PMI算法对分词器从翻译成目标语言的已标注语料中分出来的所有词进行打分,根据分值的分布来确定其情感极性。
获取分词器分出来的词之后,为判定该词的情感倾向,在本发明所提供的实施例中,先使用SO-PMI算法对每个词进行打分,然后根据分值的分布来确定其情感极性(强正向极性、弱正向极性、中性、弱负向极性、强负向极性)。具体包括如下步骤:
S1311,计算两个词之间的点互信息PMI,采用如下公式(1.1):
S1312,根据两个词之间的点互信息计算一个词的SO-PMI,采用如下公式(1.2):
SO-PMI(word)=
∑pword∈SetPPMI(word,pword)-∑nword∈SetNPMI(word,nword) (1.2)
其中,SetP为正向情感词集,SetN为负向情感词集。pword为正向情感词集中的词,nword为负向情感词集中的词,word为获取的分词器分出来的词。
S1313,将SO-PMI值的大小设置5个区间,每个区间对应一个分值,根据获得的每个词的SO-PMI值,对该词进行打分,根据分值的分布来确定其情感倾向。
根据获得的每个词的SO-PMI值,对这些情感词进行打分,在本发明所提供的实施例中,分值为离散的1分到5分,其中1分为强负向极性情感词,2分为弱负向极性情感词,4分为弱正向极性情感词,5分为强正向极性情感词,而3分则认为是中性或没有情感极性。根据获得的的每个词的SO-PMI值的取值范围,将其归到相应的分值内,根据分值的分布来确定其情感倾向。
S132,在情感极性的每级中,找出SO-PMI值的绝对值最高的前十个词,加入情感词典,将情感词典中的情感极性扩展成5级。
通过以上处理过程对原来的两个情感词典SetP和SetN进行扩展,判断文本中所有词的情感词极性,并把最有把握或者说情感极性最强的词加入情感词典。同时这些词在最初的筛选中也考虑到他们出现的频率,以致出现频率极低的词不会被找出来。
在对得到的情感词集合进行扩展的过程中,用于扩展情感词典的源情感词除了分词器从已标注语料中分出来的词之外,还包括一些发现的新词。中文、日文等语言与印欧语言不同。在中文中,任何相邻字符都有构成词的可能性,而没有特定符号来表示词的界限。而互联网时代的今天,网络上充斥的各种评论,如微博、BBS等,各种新鲜的网络词汇层出不穷、频繁出现,很多词汇都带有很强的情感极性或主观色彩。如果不对这些新出现的未登录词进行识别,那么在分析网络产品、新闻等文本评论时,如果文本中出现这类新词,则其准确性容易受到较大的影响。目前的研究已经有很多,其中非监督的方法包括基于启发式规则和基于普通重复串统计的方法等。
在本发明所提供的实施例中,以中文为例,解决在目标语言下的新词发现问题。在多数情况下,一个文本的片段或某一个字符串如果出现的频数足够多,则可以看作为一个词。因此引入第一个新词判断的参数—频繁度。
然而事实上,只考虑频繁度是远远不够的。某些文本片段即便经常出现也有可能并不是一个词,而是多个词组成的短语或短语片段。例如虚词“的”经常跟在某个词后面或前面而频繁出现。比较典型的就是偏正短语,这样的短语显然不是一个词。又例如“辈子”这个词,能和该词搭配组成新短语的字或词非常有限。
所以,在本发明所提供的实施例中,判断频繁出现的文本片段是否组成一个新词,还需要引入两个新的变量—凝固度和自由度。凝固度表示几个有序字符同时出现的频率,如词“[<ABC>]”每次出现时都是“A”、“B”、“C”三个字同时出现并且按照“ABC”的顺序出现。自由度表示该词自由运用的程度,包括左自由度和右自由度。当“[X<ABC>]”类型的短语出现时,词“ABC”左边的“X”这个字符有多种情况,将X的信息熵定义为词“ABC”的左自由度,同理可定义右自由度。
由此,发现给定语料中的新词,具体包括如下步骤:
S1311,将源语料切分成n-gram片段;其中,n-gram片段为将文本中任何相邻的n个字组成一个片段,n取大于1的整数。
S1312,计算每个n-gram片段的凝固度与自由度;
计算每个n-gram片段的凝固度与自由度,在本发明所提供的实施例中,以3-gram为例,记片段w=abc,片段w的凝固度Coh(w)计算如公式(1.3),自由度Free(w)计算如公式(1.4)。
其中,p(x)表示x出现的概率。
Free(w)=min{cfree(ls),cfree(rs)} (1.4)
其中,ls表示片段w的左邻字集,rs表示片段w的右邻字集。
S1313,将凝固度、自由度和词频数都满足阈值条件的片段筛选出来,作为候选新词集;
S1314,从候选新词集中移除给定词典中存在的词,输出新词集合。
对大规模目标语言语料进行新词发现的分析后,将得到的新词放入分词器的词库中,采用上述步骤S131~S132的过程进行情感词典的补充扩展,将符合条件的新词加入到情感词典中,以提升对目标语言文本的分析准确度。
S2,采用规则算法、机器翻译与统计机器学习相结合的算法、极性特征值计算算法三种算法分别从待标注文本中的句子中提取词,根据构建的目标语言的情感词典,判断词的情感极性,进而进行句子的主客观性质判断。
情感分析更多的是研究主观性文本,因此需要从大量语料中区分出主观性文本和客观性文本。主观性文本是带有情感信息的文本,而客观文本多数为描述客观事实,不具备情感信息,而情感分析以研究主观性文本为主。
面向目标语言的主客观文本分类是构建目标语言的情感词典的根本目的所在。前面介绍了目标语言的情感词典的构建过程。首先获取源语言,即英语的情感词典,通过双语词典翻译,和人工筛选,找出情感极性较为明显且极性较强的情感词,然后进行情感词典的扩展将将情感词典中的情感极性扩展成5级。将情感极性分为5级主要用于主观文本的抽取。
主观文本的抽取最大的难度在于没有目标语言标注语料。因此使用传统机器学习的方法做监督学习是不可行的。
本发明所提供的基于投票的跨语言主客观情感分类方法对待标注文本分别采用规则算法、机器翻译与统计机器学习相结合的算法、Mpolarity值计算算法三种算法分别进行主客观文本分类。并最终使用这三种算法得出的结果进行投票,根据投票结果判定最终的分类结果。
考虑到中文文本,尤其是互联网上的中文文本的复杂性和多样性,针对中文文本,在本发明所提供的实施例中,做了如下细节处理,以尽量提高分类准确度。
首先,针对网民喜爱使用的讽刺、反讽等语气,对“就算”、“竟”等词进行一定程度的收集,将这些词作为后期分类使用的特征。讽刺的情况非常复杂,很多时候人都无法分辨出来。在此只对该语言现象做简单处理,作为一种特征来分析。
其次是程度副词,增强语气的词,包括“彻头彻尾”、“地地道道”、“极速”等。弱化语气的有“有点”、“颇为”、“未免”等。程度词可以影响一句话或半句话,对一句话的情感极性有较强的影响。同时一般含有程度副词的话,多数也有情感极性。总之程度副词是判断主观句的特征之一。
否定词在情感极性判别方面具有重要意义,在情感极性二分类问题中具有很高的互信息值。在主观抽取任务中,虽然否定词的作用不如情感极性分类的贡献大,但是否定词和情感词同时出现的概率较大。因此否定词出现也经常标志着句子的主客观特性,可以作为一种主客观分类的特征。
最后是话题自适应,每个情感词一定对应着某个情感对象即主题很多情感词具有主题相关性,其情感极性以及是否为情感词,跟其所修饰的成分或主题相关。对主题相关文本做主题聚类之后,抽取评价对象和情感词,可以得到一个新的主题相关情感词典。此外,主题相关文本也可以使用主题爬虫在互联网上爬取。在此便不再赘述了。
对中文文本做了细节处理之后,对待标注文本分别采用规则算法、机器翻译与统计机器学习相结合的算法、Mpolarity值计算算法三种算法分别进行主客观文本分类。其中,采用规则算法对待标注文本进行主客观文本分类,利用构建的情感词典以及前文提到的主题相关情感词典作为资源,对目标语言的文本分析。
采用规则算法做短文本主客观分类较为简单,包括如下步骤:
对待标注文本中的句子进行分词处理;
将分词处理后产生的词带入情感词典以及主题相关情感词典进行比较,判断句子中的词是否满足以下规则:
规则1:句中包含一个或一个以上的强情感极性的情感词。
规则2:句中包含两个或两个以上的弱情感词。
如果同时满足规则1和规则2,则该句是主观句,否则,判定为客观句。
规则算法虽然简单,但该算法的重点在于情感词典的建立,上文已经阐述过。情感词典的质量和情感词数量会影响该算法的效果。如果情感词的数量不够多,无法覆盖待分类文本涉及的范围。也可能由于语言多样性的影响,情感词在不同语境下改变了情感极性。即某些情感词在特定语境下失去了情感极性成为了普通的词。如果遇到这些情况,简单的规则算法则会得到错误结果。所以创建情感词典的过程很重要,简单的通过机器翻译获得情感词典不能满足规则算法的要求。
即便如此,简单的规则分析一样可以得到与统计机器学习相比还不错的结果。同时为了最终的分类结果,三个算法投票的机制会使得整个分类模型的鲁棒性更强。
使用传统的统计机器学习的方法对目标文本做主客观分类,最大的问题在于在没有标注语料的前提下,很难对文本做主观文本抽取。而使用非监督方法很难对主客观文本做分类。所以,在本发明所提供的实施例中,使用机器翻译与统计机器学习相结合的算法进行主客观文本分类。使用机器翻译技术,借助源语言的有标注语料来实现面向目标语言监督学习方法。使用机器翻译和加权SVM相结合的算法,算法流程如图2所示,具体包括如下步骤:
首先,将源语言的标注语料通过机器翻译系统翻译为目标语言语料;
之后,对翻译的目标语言语料抽取分类特征,根据情感词典和主题相关情感词典(两个词典有部分是重叠的)构建特征列表。特征列表如下:
F1:普通情感词+主题情感词
F2:不规范标点
F3:否定词
F4:程度词
F5:表情符号
F6:特殊符号
F7:叹词与带有情感色彩的标点融合
F8:主张词
F9:第一、二人称代词
F10:祝愿、但愿、希望等表达愿望的词
F11:程度词+情感词
F12:否定词+程度词+情感词
F13:其它词的特征
然后,将源语言的标注信息通过标注投影的方式标注到目标语料,补充到特征列表中,根据特征列表训练目标语言的SVM分类器;
最后,采用SVM分类器对待标注文本中的句子进行主客观情感分类。
在本发明所提供的实施例中,上述特征列表中的特征,均是通过实验获取的对SVM分类器进行情感词分类训练有益的特征。此外对于加权,以上F1-F12特征的权重较高,其它词的特征通过去停用词进行筛选,使用tf-idf值构建VSM模型。此外,主题情感词、F2、F4、F5、F7-12这几个特征的权重更高,具体使用的权重因子根据语料具体情况决定。
极性特征值也称作Mpolarity值,是一个描述文本主观倾向性程度的参数。通过计算Mpolarity值对待标注文本中句子的极性进行判断。计算该值可以剔除正负向极性都有的文本,得到极性较为单一的文本,这样可以为极性二分类工作打好基础。在本发明所提供的实施例中,采用极性特征值计算算法对待标注文本中的句子进行主客观性质判断,极性特征值计算算法,具体包括如下步骤:
首先,计算待标注文本中句子的极性特征值,采用如下计算公式:
其中,c表示该句子中出现了情感词典中的情感词;Pos和Neg分别表示情感词典中的正负向情感词集合;θ1和θ2用于数据平滑,该参数可根据数据集平衡情况进行调整。为情感词典的平衡因子,如果情感词典中正负极性的情感词数量相当或者覆盖率相当,则可以取值“1”。由于构建的情感词典其平衡性和目标语言文本的词汇平衡性不相符,需要一个平衡因子对情感词典和目标语言文本进行平衡和协调,以使得判别更准确。
然后,设定阈值f,根据设定的阈值对得到的极性特征值进行判断;
如果得到的极性特征值在区间[-f,+f]之内,则其为客观句;否则,其为主观句。
S3,获得根据三种算法得到的句子的主客观性质的判断结果,通过投票对句子的主客观性质进行判定,实现文本主客观情感分类。
获得根据三种算法得到的句子的主客观性质判断结果,通过投票对句子的主客观性质进行判定,实现文本主客观情感分类,具体包括如下步骤:
根据三种算法获得句子的主客观性质的判断结果,判断三种算法获得的句子的主客观性质的判断结果是否相同,如果相同,该判断结果即为句子的主客观性质;如果不同,则选择其中两种算法认定的判断结果作为该句子的主客观性质。
下面根据实验,使用本发明所提供的基于投票规则的跨语言主客观情感分类方法,使用公开测试集,验证其准确率、召回率和F值。
本实验使用的数据集为中国计算机协会(CCF)提供的微博情感分析评测数据,该数据集为2012年CCF中文信息技术专委会学术年会(NLP&CC 2012),第一届自然语言处理与中文计算会议评测数据集中的微博情感分析评测数据集。该数据集包含“90后当教授”、“食用油涨价”、“韩寒方舟子之争”等20个热点社会问题的相关微博,并对这些微博进行了分句详细标注。每个热点社会问题的微博约有100条左右,不同主题微博数量不同,但比较接近。
实验中涉及到的评价指标包括准确率、召回率和F1值(以下简称F值)。对于二分类问题,以将文本分为C1和C2两类为例,分类器的计算结果可以用表1表示。
属于C1类 | 属于C2类 | |
测为C1类 | A | B |
测为C2类 | C | D |
表1分类器分类结果展示表
表中A表示被预测为C1类的文本实际从属于C1类的文本数,B表示被预测为C1类的文本实际从属于C2类的文本数,C表示被预测为C2类的文本实际从属于C1类的文本数,D表示被预测为C2类的文本实际从属于C2类的文本数。
则对于C1分类有:
一般来说,准确率和召回率是互相影响的,理想情况下两者都高,但通常如果保证准确率高,召回率会偏低,如果保证召回率高,则准确率会偏低。而F值是综合评定这两种指标的综合评价指标。
此外实验中用到了微平均和宏平均。微平均以整个数据集为一个评价单元,计算整体的评价指标,宏平均以每个话题为一个评价单元,计算参评系统在该话题中的评价指标,最后计算所有话题上各指标的平均值。
根据本发明所提供的基于投票规则的跨语言主客观情感分类方法,在CCF微博倾向性评测数据集上得到的实验结果如表2所示。
表2 CCF提供的微博倾向性评测数据的实验结果展示表
通过实验结果可以看出,规则方法虽然非常简单,但却达到了最高准确率。影响规则方法的关键还是情感词典的质量。加权SVM的方法虽然准确率比规则方法略低,然而召回率却超过了90%,因此F值也更高。而Mpolarity值计算的方法准确率则是最低的,只有60%左右,然而造成准确率低的原因是为了确保召回率。该方法最终F值依然是比规则方法高的。而最后的综合方法,即综合三种方法进行投票,取得了准确率和召回率的平衡。在准确率略微提高的同时,保证了召回率,从而提高了F值。
本实验重点在于提高模型的F值。如果使用普通SVM或者朴素贝叶斯方法,准确率可能会更高,但召回率可能会降低。本文为了平衡准确率和召回率,综合了三种不同特点的方法,从而得到了较高的F值。
综上所述,本发明所提供的基于投票的跨语言主客观情感分类方法,首先,根据源语言的情感词典构建目标语言的情感词典;通过对种子词扩展的方法生成中文分级的情感词典,可以在一定准确度的前提下,充分考虑中文的语境和使用习惯,有效地解决了目标语言的标注语料稀缺的问题。另外,情感词典的扩展保证了目标语言的情感词典的情感词的数量,为后续主客观情感分类打下了很好地基础。然后,采用规则算法、机器翻译与统计机器学习相结合的算法、极性特征值计算算法三种算法分别从待标注文本中的句子中提取词,根据构建的目标语言的情感词典,判断词的情感极性,进而进行句子的主客观性质判断;最后,获得根据三种算法得到的句子的主客观性质判断结果,通过投票对句子的主客观性质进行判定,实现文本主客观情感分类。本方法可以在保证召回率的前提下进一步提高分类准确率。
上面对本发明所提供的基于投票的跨语言主客观情感分类方法进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。
Claims (9)
1.一种基于投票的跨语言主客观情感分类方法,其特征在于包括如下步骤:
S1,根据源语言的情感词典构建目标语言的情感词典;
S2,采用规则算法、机器翻译与统计机器学习相结合的算法、极性特征值计算算法三种算法分别从待标注文本中的句子中提取词,根据构建的目标语言的情感词典,判断所述词的情感极性,进而进行句子的主客观性质判断;
S3,获得根据三种算法得到的句子的主客观性质的判断结果,通过投票对句子的主客观性质进行判定,
其中,在步骤S1中,根据源语言的情感词典构建目标语言的情感词典,包括如下步骤:
S11,获取源语言的情感词典中的强情感词,使用双语词典将所述强情感词翻译为目标语言,得到初始的强正向情感词集合以及初始的强负向情感词集合;
S12,根据语料的使用情况,采用双筛选机制,对两个初始的情感词集合分别进行筛选,得到强正向情感词集合和强负向情感词集合;
S13,通过类似点互信息的方式对得到的强正向情感词集合和强负向情感词集合进行扩展,将情感词典中的情感极性扩展成5级,
在所述步骤S13中,通过类似点互信息的方式对得到的强正向情感词集合和强负向情感词集合进行扩展,包括如下步骤:
S131,将SO-PMI值的大小设置5个区间,每个区间对应一个分值,使用SO-PMI算法对分词器从翻译成目标语言的已标注语料中分出来的所有词进行打分,根据分值的分布来确定其情感极性;
S132,在情感极性的每级中,找出SO-PMI值的绝对值最高的前十个词,加入情感词典,将情感词典中的情感极性扩展成5级,
所述步骤S131包括如下子步骤:
S1311,计算两个词之间的点互信息PMI,采用如下公式:
S1312,根据两个词之间的点互信息计算一个词的SO-PMI,采用如下公式:
SO-PMI(word)=
∑pword∈SetPPMI(word,pword)-∑nword∈SetNPMI(word,nword)
其中,SetP为正向情感词集,SetN为负向情感词集;pword为正向情感词集中的词,nword为负向情感词集中的词;word为获取的分词器从翻译成目标语言的已标注语料中分出来的词;
S1313,将SO-PMI值的大小设置5个区间,每个区间对应一个分值,根据获得的每个词的SO-PMI值,对所述词进行打分,根据分值的分布来确定其情感倾向。
2.如权利要求1所述的基于投票的跨语言主客观情感分类方法,其特征在于:
在步骤S11中,获取源语言的情感词典中的强情感词,使用双语词典将所述强情感词翻译为目标语言,在翻译过程中,采用词典使用频率最高的翻译作为目标语言中的词语意思。
3.如权利要求1所述的基于投票的跨语言主客观情感分类方法,其特征在于在步骤S12中,采用双筛选机制,对两个初始的情感词集合分别进行筛选,包括如下步骤:
筛选出在中文大规模未标注语料中出现次数少的翻译;
把不是情感词或翻译错误的词从集合中删除,得到强正向情感词集合和强负向情感词集合。
4.如权利要求1所述的基于投票的跨语言主客观情感分类方法,其特征在于在步骤S13中,对情感词典进行扩展过程中,进行扩展的词还包括给定语料中的新词,发现给定语料中的新词,包括如下步骤:
S1311,将源语料切分成n-gram片段;其中,n-gram片段为将文本中任何相邻的n个字组成一个片段,n取大于1的整数;
S1312,计算每个n-gram片段的凝固度与自由度;
记片段w=abc,片段w的凝固度Coh(w)计算公式如下:
其中,p(x)表示x出现的概率;
自由度Free(w)计算公式如下:
Free(w)=min{cfree(ls),cfree(rs)};
其中,ls表示片段w的左邻字集,rs表示片段w的右邻字集;
S1313,将凝固度、自由度和词频数都满足阈值条件的片段筛选出来,作为候选新词集;
S1314,从候选新词集中移除给定词典中存在的词,输出新词集合。
5.如权利要求1所述的基于投票的跨语言主客观情感分类方法,其特征在于在步骤S2中,所述规则算法,包括如下步骤:
对待标注文本中的句子进行分词处理;
将分词处理后产生的词带入情感词典以及主题相关情感词典进行比较,判断句子中的词是否满足以下规则:
规则1:句中包含一个或一个以上的强情感极性的情感词;
规则2:句中包含两个或两个以上的弱情感词;
如果同时满足规则1和规则2,则所述句子是主观句,否则,判定所述句子为客观句。
6.如权利要求1所述的基于投票的跨语言主客观情感分类方法,其特征在于在步骤S2中,所述机器翻译与统计机器学习相结合的算法,包括如下步骤:
将源语言的标注语料通过机器翻译翻译为目标语言语料;
对翻译的目标语言语料抽取分类特征,根据情感词典和主题相关情感词典构建特征列表;
将源语言的标注信息通过标注投影的方式标注到目标语料,补充到特征列表中,根据特征列表训练目标语言的SVM分类器;
采用SVM分类器对待标注文本中的句子进行主客观情感分类。
7.如权利要求6所述的基于投票的跨语言主客观情感分类方法,其特征在于:
所述主题相关情感词典是评价对象和情感词组成的情感词典,通过对主题相关文本做主题聚类之后,抽取评价对象和情感词获得。
9.如权利要求1所述的基于投票的跨语言主客观情感分类方法,其特征在于在步骤S3中,包括如下步骤:
根据三种算法获得句子的主客观性质的判断结果;
判断三种算法获得的句子的主客观性质的判断结果是否相同;
如果相同,则判断结果即为句子的主客观性质;
如果不同,则选择其中两种算法认定的判断结果作为所述句子的主客观性质的判断结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510662283.0A CN105320960B (zh) | 2015-10-14 | 2015-10-14 | 一种基于投票的跨语言主客观情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510662283.0A CN105320960B (zh) | 2015-10-14 | 2015-10-14 | 一种基于投票的跨语言主客观情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105320960A CN105320960A (zh) | 2016-02-10 |
CN105320960B true CN105320960B (zh) | 2022-04-05 |
Family
ID=55248314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510662283.0A Active CN105320960B (zh) | 2015-10-14 | 2015-10-14 | 一种基于投票的跨语言主客观情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105320960B (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868185A (zh) * | 2016-05-16 | 2016-08-17 | 南京邮电大学 | 一种购物评论情感分析中基于词性标注的词典构建方法 |
CN106295702B (zh) * | 2016-08-15 | 2019-10-25 | 西北工业大学 | 一种基于个体情感行为分析的社交平台用户分类方法 |
CN106407999A (zh) * | 2016-08-25 | 2017-02-15 | 北京物思创想科技有限公司 | 结合规则来进行机器学习的方法及系统 |
CN106610955A (zh) * | 2016-12-13 | 2017-05-03 | 成都数联铭品科技有限公司 | 基于词典的多维度情感分析方法 |
CN106681985A (zh) * | 2016-12-13 | 2017-05-17 | 成都数联铭品科技有限公司 | 基于主题自动匹配的多领域词典构建系统 |
CN107545905B (zh) * | 2017-08-21 | 2021-01-05 | 北京合光人工智能机器人技术有限公司 | 基于声音特性的情绪识别方法 |
CN107807918A (zh) * | 2017-10-20 | 2018-03-16 | 传神联合(北京)信息技术有限公司 | 泰语词语识别的方法及装置 |
CN108415901A (zh) * | 2018-02-07 | 2018-08-17 | 大连理工大学 | 一种基于词向量和上下文信息的短文本主题模型 |
CN110134938A (zh) * | 2018-02-09 | 2019-08-16 | 优酷网络技术(北京)有限公司 | 评论分析方法及装置 |
CN109190768A (zh) * | 2018-08-09 | 2019-01-11 | 北京中关村科金技术有限公司 | 一种数据增强语料在神经网络中训练方法 |
CN111309898A (zh) * | 2018-11-26 | 2020-06-19 | 中移(杭州)信息技术有限公司 | 一种用于新词发现的文本挖掘方法及装置 |
CN109858023B (zh) * | 2019-01-04 | 2020-07-03 | 北京车慧科技有限公司 | 一种语句纠错装置 |
CN110046250A (zh) * | 2019-03-17 | 2019-07-23 | 华南师范大学 | 三嵌入卷积神经网络模型及其文本多分类方法 |
CN113033187B (zh) * | 2019-12-25 | 2022-08-05 | 厦门铠甲网络股份有限公司 | 一种可迭代语料库的建立方法 |
CN111178098B (zh) * | 2019-12-31 | 2023-09-12 | 苏州大学 | 一种文本翻译方法、装置、设备及计算机可读存储介质 |
CN111259141A (zh) * | 2020-01-13 | 2020-06-09 | 北京工业大学 | 一种基于多模型融合的社交媒体语料情感分析方法 |
CN113536802A (zh) * | 2020-04-21 | 2021-10-22 | 北京中科闻歌科技股份有限公司 | 小语种文本数据的情感判别方法、装置、设备和存储介质 |
CN111695342B (zh) * | 2020-06-12 | 2023-04-25 | 复旦大学 | 基于语境信息的文本内容校正方法 |
CN111767399B (zh) * | 2020-06-30 | 2022-12-06 | 深圳平安智慧医健科技有限公司 | 一种基于不均衡文本集的情感分类器构建方法、装置、设备和介质 |
CN112711941B (zh) * | 2021-01-08 | 2022-12-27 | 浪潮云信息技术股份公司 | 一种基于情感词典实体的情感得分的分析处理方法 |
CN113255368B (zh) * | 2021-06-07 | 2021-11-05 | 中国平安人寿保险股份有限公司 | 针对文本数据进行情感分析的方法、装置及相关设备 |
CN113536787A (zh) * | 2021-07-14 | 2021-10-22 | 福建亿榕信息技术有限公司 | 一种建立审计专业词库的方法及设备 |
CN113657123A (zh) * | 2021-07-14 | 2021-11-16 | 内蒙古工业大学 | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 |
CN116362237B (zh) * | 2023-04-17 | 2024-07-19 | 内蒙古工业大学 | 一种混合策略感知的文本情感强度标注方法及系统 |
CN116680575B (zh) * | 2023-08-04 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 模型处理方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488623A (zh) * | 2013-09-04 | 2014-01-01 | 中国科学院计算技术研究所 | 多种语言文本数据分类处理方法 |
CN103995853A (zh) * | 2014-05-12 | 2014-08-20 | 中国科学院计算技术研究所 | 基于关键句的多语言情感数据处理分类方法及系统 |
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
CN104331506A (zh) * | 2014-11-20 | 2015-02-04 | 北京理工大学 | 一种面向双语微博文本的多类情感分析方法与系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352405B2 (en) * | 2011-04-21 | 2013-01-08 | Palo Alto Research Center Incorporated | Incorporating lexicon knowledge into SVM learning to improve sentiment classification |
-
2015
- 2015-10-14 CN CN201510662283.0A patent/CN105320960B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488623A (zh) * | 2013-09-04 | 2014-01-01 | 中国科学院计算技术研究所 | 多种语言文本数据分类处理方法 |
CN103995853A (zh) * | 2014-05-12 | 2014-08-20 | 中国科学院计算技术研究所 | 基于关键句的多语言情感数据处理分类方法及系统 |
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
CN104331506A (zh) * | 2014-11-20 | 2015-02-04 | 北京理工大学 | 一种面向双语微博文本的多类情感分析方法与系统 |
Non-Patent Citations (6)
Title |
---|
Multi-lingual support for lexicon-based sentiment analysis guided by semantics;Alexander Hogenboom等;《Decision Support Systems》;20140320;全文 * |
Semi-supervised Learning on Cross-Lingual Sentiment Analysis with Space Transfer;Xiaonan He 等;《2015 IEEE First International Conference on Big Data Computing Service and Applications》;20150402;全文 * |
双语情感分类方法研究;苏艳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131115;第3-4章 * |
基于投票机制的文本主客观分类系统研究;周志杰 等;《微型电脑应用 研究与设计》;20150220;第31卷(第2期);第1-2节以及第3.1.4节 * |
基于概率图模型的文本情感分析;吴钰洁 等;《小型微型计算机系统》;20150731;第36卷(第7期);全文 * |
维吾尔文网络查询扩展词的构建研究;年梅 等;《计算机工程》;20150430;第41卷(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN105320960A (zh) | 2016-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105320960B (zh) | 一种基于投票的跨语言主客观情感分类方法 | |
CN106919673B (zh) | 基于深度学习的文本情绪分析系统 | |
Karimi et al. | Machine transliteration survey | |
US8170868B2 (en) | Extracting lexical features for classifying native and non-native language usage style | |
CN109635297B (zh) | 一种实体消歧方法、装置、计算机装置及计算机存储介质 | |
CN109376251A (zh) | 一种基于词向量学习模型的微博中文情感词典构建方法 | |
Jauhiainen et al. | HeLI-based experiments in Swiss German dialect identification | |
WO2009035863A2 (en) | Mining bilingual dictionaries from monolingual web pages | |
CN102779135B (zh) | 跨语言获取搜索资源的方法和装置及对应搜索方法和装置 | |
CN112668319A (zh) | 基于中文信息和越南语句法指导的越南语新闻事件检测方法 | |
CN105912720B (zh) | 一种计算机中涉及情感的文本数据分析方法 | |
CN105786971B (zh) | 一种面向国际汉语教学的语法点识别方法 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
Ashna et al. | Lexicon based sentiment analysis system for malayalam language | |
CN109241521B (zh) | 一种基于引用关系的科技文献高关注度句子提取方法 | |
Venčkauskas et al. | Problems of authorship identification of the national language electronic discourse | |
Antici et al. | A corpus for sentence-level subjectivity detection on english news articles | |
CN114298021A (zh) | 基于情感值选择评论的谣言检测方法 | |
CN110888940B (zh) | 文本信息提取方法、装置、计算机设备及存储介质 | |
Tran et al. | Context-aware detection of sneaky vandalism on wikipedia across multiple languages | |
Arora et al. | Pre-processing of English-Hindi corpus for statistical machine translation | |
Amin et al. | Kurdish Language Sentiment Analysis: Problems and Challenges | |
Sazzed | A lexicon for profane and obscene text identification in Bengali | |
Ion | PEXACC: A Parallel Sentence Mining Algorithm from Comparable Corpora. | |
Tofighi et al. | Author's native language identification from web-based texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |