CN102682124B - 一种文本的情感分类方法及装置 - Google Patents

一种文本的情感分类方法及装置 Download PDF

Info

Publication number
CN102682124B
CN102682124B CN201210151571.6A CN201210151571A CN102682124B CN 102682124 B CN102682124 B CN 102682124B CN 201210151571 A CN201210151571 A CN 201210151571A CN 102682124 B CN102682124 B CN 102682124B
Authority
CN
China
Prior art keywords
emotion
sentence
evaluation object
classification
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210151571.6A
Other languages
English (en)
Other versions
CN102682124A (zh
Inventor
李寿山
张慧
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201210151571.6A priority Critical patent/CN102682124B/zh
Publication of CN102682124A publication Critical patent/CN102682124A/zh
Application granted granted Critical
Publication of CN102682124B publication Critical patent/CN102682124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本的情感分类方法及装置,所述方法经过对相关领域情感语料的分析处理,构建了一个多类分类器,再利用多类分类器将待分类文本分为多种评价对象类别的句子,利用不同评价对象的句子集合分别构建一个基情感分类器,以判断评价对象类别句子的情感倾向,最后融合不同评价对象类别中表示相同情感等级的后验概率,选取后验概率融合结果大的情感等级为所述待分类文本的情感类别。通过本发明实施例公开的文本的情感分类方法及装置,将评价对象归为固定的几个类别,分别分析每一个评价对象类别的句子的情感倾向,再将不同评价对象类别的情感倾向融合,根据融合结果判断待分类文本的情感类别;这种方法大大提高了文本情感分类的准确率。

Description

一种文本的情感分类方法及装置
技术领域
本发明涉及自然语言处理技术领域,更具体的说,是涉及一种文本的情感分类方法及装置。
背景技术
伴随着计算机的日益普及和互联网的迅速发展,网络已成为许多领域的用户发表和反馈个人观点、评论的主要途径。这些共享的评论信息不仅为用户提供了产品使用体验交流的平台,也可以作为其他用户使用产品前的借鉴。但是,网络中的这些评论信息量非常大,如果对每一条评论信息都人工阅读分析评论好坏,会浪费用户大量的时间。因此,如何让用户在短时间内就能够客观的了解某个产品的评论信息所反映出的总体评价好坏情况,即对网络中的评论文本进行情感分析分类,是非常必要的。
文本情感分析,就是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。文本情感分类是利用底层情绪信息抽取的结果将情感文本分为了若干类别,例如分为褒贬两类。现有技术中,情感分类是基于整篇待分类文本或整条待分类评论信息来判断其情感倾向性,即褒贬态度。例如:一条评论信息为“酒店的房间很大,我很喜欢,但是服务人员态度很差,希望下次改进。”。这条评论信息中包括“房间”和“服务人员”两个评价对象,按照现有技术将整条评论信息作为评价对象进行情感分类,利用分词工具识别出该评论信息中含有情感转折词“但是”,且“但是”后识别出“差”、“改进”等词,那么对这条评论信息的情感分类结果就为贬义。可是,这样的情感分类结果忽略了“酒店的房间很大,我很喜欢”所表达的褒义情感。
综上所述可以看出,现有技术对文本进行情感分类是将整篇文本视为一个评价对象来进行情感分类,这种方法对待分类文本中包含多个评价对象的文本并不适用。因此现有技术的对文本进行情感分类的方法存在不准确性。
发明内容
有鉴于此,本发明提供了一种文本的情感分类方法及装置,以克服现有技术中由于将整篇文本视为一个评价对象来进行情感分类而造成的文本情感分类不准确的问题。
为实现上述目的,本发明提供如下技术方案:
一种文本的情感分类方法,包括:
预处理过程:
选取待分类文本对应领域的情感语料;
对所述情感语料进行分析处理,获取标注有不同评价对象类别的句子;
以所述标注有不同评价对象类别的句子为训练集构建多类分类器;
分类过程:
利用所述多类分类器将待分类文本分为标注有不同评价对象类别的句子;
从获得的标注有不同评价对象类别的句子中,确定包含标注有同一评价对象类别的句子的集合;
分别以所述包含标注有同一评价对象类别的句子的集合为训练集,构建与其对应的基情感分类器;
采用所述基情感分类器对与其对应的评价对象类别的情感等级进行划分,得到多个情感等级,并分别得到与所述多个情感等级对应的后验概率;
根据乘法融合规则融合每一个基情感分类器的分类结果中同一情感等级的后验概率;
选取后验概率融合结果大的情感等级为所述待分类文本的情感类别。
可选的,所述评价对象类别包括整体、硬件和软件。
可选的,所述对所述情感语料进行分析处理,获取标注有不同评价对象类别的句子,包括:
采用分句、分词和词性标注工具对所述情感语料进行分句、分词和词性标注;
根据分词和词性标注的结果和预设的评价对象对应关系表为每一个句子标注评价对象类别,所述评价对象对应关系表中记录了所述待分类文本对应领域的所有评价对象与评价对象类别中整体、硬件或软件的对应关系。
可选的,所述构建多类分类器,包括:
采用机器学习分类方法中的最大熵分类方法来构建多类分类器。
可选的,所述利用所述多类分类器将待分类文本分为带有不同评价对象类别的句子,包括:
利用分句、分词和词性标注工具将待分类文本分句、分词及词性标注;
将分好的句子中后验概率大的评价对象类型标注在所述句子中。
可选的,所述融合每一个基情感分类器的分类结果,包括:
分别融合每一个基情感分类器的分类结果中对所述句子表示褒义情感和贬义情感的后验概率。
可选的,所述根据融合的结果选取待分类文本的情感类别,包括:
选取后验概率融合结果大的褒义情感或贬义情感为待分类文本的情感类别。
一种文本的情感分类装置,包括预处理模块和分类模块;所述预处理模块包括:
语料选取模块,用于选取待分类文本对应领域的情感语料;
句子标注模块,用于对所述情感语料进行分析处理,获取标注有不同评价对象类别的句子;
多类分类器构建模块,用于以所述标注有不同评价对象类别的句子为训练集构建多类分类器;
所述分类模块包括:
分句标注模块,用于利用所述多类分类器将待分类文本分为标注有不同评价对象类别的句子;
基情感分类器构建模块,用于从获得的标注有不同评价对象类别的句子中,确定包含标注有同一评价对象类别的句子的集合;分别以所述包含标注有同一评价对象类别的句子的集合为训练集,构建与其对应的基情感分类器;
概率获取模块,用于采用所述基情感分类器对与其对应的评价对象类别的情感等级进行划分,得到多个情感等级,并分别得到与所述多个情感等级对应的后验概率;
概率融合模块,用于根据乘法融合规则融合每一个基情感分类器的分类结果中同一情感等级的后验概率;
类别确定模块,用于选取后验概率融合结果大的情感等级为所述待分类文本的情感类别。
可选的,所述多类分类器构建模块包括:
构建子模块,用于采用机器学习分类方法中的最大熵分类方法来构建多类分类器。
可选的,所述分句标注模块包括:
分句模块,用于利用分句、分词和词性标注工具将待分类文本分句、分词及词性标注;
类型标注模块,用于将所述句子中后验概率大的评价对象类型标注在所述句子中。
经由上述的技术方案可知,与现有技术相比,本发明实施例公开了一种文本的情感分类方法及装置,所述方法包括预处理过程和分类过程。所述预处理过程首先从待分类文本对应的领域选取情感语料,经过对所述情感语料的分析处理得到标注有不同评价对象类别的句子,并以所述标注有不同评价对象类别的句子为训练集构建多类分类器;所述分类过程首先利用所述多类分类器将待分类文本分为带有不同评价对象类别的句子,再以带有每一类评价对象的句子为训练集构建一个对应的基情感分类器,采用所述基情感分类器对与其对应的评价对象类别的情感等级进行划分,并分别得到划分的多个情感等级对应的后验概率,最后根据乘法融合规则融合每一个基情感分类器的分类结果并根据所述结果判断出待分类文本的情感分类。通过本发明实施例公开的文本的情感分类方法及装置,将待分类文本根据评价对象类别进行细化,然后分别对每一个评价对象类别的句子的情感倾向进行分析,最后将不同评价对象类别的情感倾向进行融合,提高了文本的情感分类的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的文本的情感分类方法流程图;
图2为本发明实施例公开的为情感语料标注评价对象类别的流程图;
图3为本发明实施例公开的标注待分类文本的流程图;
图4为本发明实施例公开的文本的情感分类装置结构示意图;
图5为本发明实施例公开的分句标注模块结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明实施例公开的文本的情感分类方法流程图,参见图1所示,所述方法可以包括:
步骤101:选取待分类文本对应领域的情感语料;
由于不同领域相关的评价对象不同,因此,本发明实施例公开的文本的情感分类方法虽然适用于各个领域,但是也需要针对领域的不同选取不同领域的情感语料;例如:酒店领域的评价对象一般为设施、环境、服务价格等;笔记本领域的评价对象一般为硬盘、显示器、操作系统等;
步骤102:对所述情感语料进行分析处理,获取标注有不同评价对象类别的句子;
往往某个领域的评价对象会很多,例如酒店领域的评价对象除了服务和价格等这些抽象的评价对象外,酒店房间内的任何设施都可以是评价对象;为了使得评价对象不会过细粒度化而使得文本的情感分类变得异常复杂,本发明实施例中将每一个评价对象都归属于某几个特定的类别;可以将评价对象类别分为整体、硬件和软件三类;不管在什么领域,凡是具体的设施、设备及部件,可以归为硬件类、而一些抽象的评价对象,例如客服、速度、价格等可以统一归为软件类;在情感语料的句子中出现总之、总体、整体等词语时,可以将相关句子归为整体类;当然,评价对象类别也可以根据实际情况从不同的角度划分为不同个数的类别;
图2为本发明实施例公开的为情感语料标注评价对象类别的流程图,参见图2所示,在将评价对象分为整体、硬件和软件三大类的情况下,为情感语料标注评价对象类别的步骤可以包括:
步骤201:采用分句、分词和词性标注工具对所述情感语料进行分句、分词和词性标注;
例如一个分好的句子是“键盘很好按”,那么利用分词工具就会将此句分为“键盘”、“很好”和“按”三个词,词性标注工具会将“键盘”标注为名词;将“很好”标注为形容词;将“按”标注为动词;
步骤202:根据分词和词性标注的结果和预设的评价对象对应关系表为每一个句子标注评价对象类别;
在预设的评价对象对应关系表中查找步骤201中标注出的名词或动词,所述评价对象对应关系表中记录了所述待分类文本对应领域的所有评价对象与评价对象类别中整体、硬件或软件的对应关系;如果查找到,将评价对象对应关系表中与所述名词或动词对应的评价对象类别标注在所述名词所在的句子中;
步骤103:以所述标注有不同评价对象类别的句子为训练集构建多类分类器;
本发明实施例中,采用机器学习分类方法中的最大熵分类方法来构建多类分类器;
最大熵分类方法:最大熵分类方法是基于最大熵信息理论,其基本思想是在满足系统当前提供的所有条件下寻求分别最均匀的模型,将已知事实作为制约条件,求的可使熵最大化的概率分布作为正确的概率分布;该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此,该方法适合融合各种不一样的特征,而无需考虑它们之间的影响;
在最大熵模型中,通常用二值特征函数表示特征函数,定义如下:
f i ( a , b ) = 1 , if b ∈ a 0 , others
在最大熵模型下,预测条件概率p*(a|b)的公式如下:
p * ( a | b ) = 1 π ( b ) exp ( Σ i = 1 k λ i f i ( a , b ) )
其中,π(b)是归一化因子,
Figure GDA00003575644200073
λi是参数,可以通过GIS算法求出;
步骤104:利用所述多类分类器将待分类文本分为标注有不同评价对象类别的句子;
图3为本发明实施例公开的标注待分类文本的流程图,参见图3所示,所述标注待分类文本可以包括:
步骤301:利用分句、分词和词性标注工具将待分类文本分句、分词及词性标注;
步骤302:将分好的句子中后验概率大的评价对象类型标注在所述句子中;
后验概率是指在得到结果的信息后重新修正的概率;为了便于理解,举例如下:待分类文本中一个句子是“前台服务很周到”,句子中会识别出“前台”、“服务”等词,这里可以将前台归为硬件类,将服务归为软件类,那么就无法判断此句的评价对象类别,但是,句子中还识别出了“周到”这个形容词,而这个词只能是用来形容“服务”这一特定的评价对象,不能用来形容“前台”,那么此时,这个句子包含的评价对象类别为软件的后验概率就高一些,这个句子被标注上的评价对象类别就为“软件”;
步骤105:从获得的标注有不同评价对象类别的句子中,确定包含标注有同一评价对象类别的句子的集合,并分别以所述包含标注有同一评价对象类别的句子的集合为训练集,构建与其对应的基情感分类器;
如果评价对象类别包括整体、硬件和软件三类,那么相应的会有三个训练集,并对应的生成三个基情感分类器;
步骤106:采用所述基情感分类器对与其对应的评价对象类别的情感等级进行划分,得到多个情感等级,并分别得到与所述多个情感等级对应的后验概率;
可以将评价对象类别的情感等级分为褒义和贬义两种,并分别得到待分类文本三个评价对象类别(整体、硬件和软件)为褒义和贬义的后验概率;例如:整体评价为褒义的后验概率为0.6,为贬义的后验概率为0.4;硬件评价为褒义的后验概率为0.3,为贬义的后验概率为0.7;软件评价为褒义的后验概率为0.8,为贬义的后验概率为0.2;
步骤107:根据乘法融合规则融合每一个基情感分类器的分类结果中同一情感等级的后验概率;
乘法融合规则:假设有个参加组合的分类器fk(k=1,...R),这些分类器给样本x的分类结果为Lk(Lk=c1,...cm);另外,他们提供出了属于每个类别的概率信息为Pk=<p(c1|dk),...,p(cm|dk)>t,其中p(ci|dk)表示样本dk属于类别ci的后验概率;
乘法规则是通过将每个基分类器的后验概率相乘,然后使用相乘后的概率来决定测试样本属于哪一类,具体的乘法规则可以描述为:
乘法规则的条件:assign y→cj
规则: j = arg max i p ( c i ) Π k = 1 R p ( c i | d k )
为了便于理解,继续沿用步骤106中的例子,根据乘法融合规则分别融合每一个基情感分类器的分类结果中对所述句子表示褒义情感和贬义情感的后验概率;则褒义评价后验概率的融合为0.6*0.3*0.8=0.144;贬义评价后验概率的融合为0.4*0.7*0.2=0.056;
步骤108:选取后验概率融合结果大的情感等级为所述待分类文本的情感类别;
沿用步骤107中的例子,选取后验概率融合结果大的褒义情感或贬义情感为待分类文本的情感类别,表示褒义的0.144大于表示贬义的0.056,那么待分类文本的情感类别就为褒义;上述例子是将情感等级分为两种的例子,实际应用中,可以根据需要将情感等级分为三种或更多种。
本实施例中,首先对相关领域的情感语料进行分析处理,构建了一个多类分类器,再利用多类分类器将待分类文本分为多种评价对象类别的句子,利用不同评价对象的句子集合分别构建一个基情感分类器,以判断评价对象类别句子的情感倾向,最后融合不同评价对象类别中表示相同情感等级的后验概率,选取后验概率融合结果大的情感等级为所述待分类文本的情感类别。通过本发明实施例公开的文本的情感分类方法,将评价对象归为固定的几个类别,分别分析每一个评价对象类别的句子的情感倾向,再将不同评价对象类别的情感倾向融合,根据融合结果判断待分类文本的情感类别;克服了现有技术中将整篇文本视为一个评价对象来进行情感分类的弊端,提高了文本情感分类的准确率。
上述本发明公开的实施例中详细描述了方法,对于本发明的方法可采用多种形式的装置实现,因此本发明还公开了一种装置,下面给出具体的实施例进行详细说明。
实施例二
图4为本发明实施例公开的文本的情感分类装置结构示意图,参见图4所示,所述文本的情感分类装置40可以包括预处理模块401和分类模块402;
所述预处理模块401可以包括:
语料选取模块4011,用于选取待分类文本对应领域的情感语料;
句子标注模块4012,用于对所述情感语料进行分析处理,获取标注有不同评价对象类别的句子;
多类分类器构建模块4013,用于以所述标注有不同评价对象类别的句子为训练集构建多类分类器;
所述多类分类器构建模块4013可以包括构建子模块,用来采用机器学习分类方法中的最大熵分类方法来构建多类分类器;
所述分类模块402包括:
分句标注模块4021,用于利用所述多类分类器将待分类文本分为标注有不同评价对象类别的句子;
在一个示意性的示例中,所述分句标注模块4021的具体结构可以参见图5,图5为本发明实施例公开的分句标注模块结构示意图,参见图5所示,所述分句标注模块4021可以包括:
分句模块501,用于利用分句、分词和词性标注工具将待分类文本分句、分词及词性标注;
类型标注模块502,用于将所述句子中后验概率大的评价对象类型标注在所述句子中;
基情感分类器构建模块4022,用于从获得的标注有不同评价对象类别的句子中,确定包含标注有同一评价对象类别的句子的集合;分别以所述包含标注有同一评价对象类别的句子的集合为训练集,构建与其对应的基情感分类器;
概率获取模块4023,用于采用所述基情感分类器对与其对应的评价对象类别的情感等级进行划分,得到多个情感等级,并分别得到与所述多个情感等级对应的后验概率;
概率融合模块4024,用于根据乘法融合规则融合每一个基情感分类器的分类结果中同一情感等级的后验概率;
类别确定模块4025,用于选取后验概率融合结果大的情感等级为所述待分类文本的情感类别。
本实施例中,首先对相关领域的情感语料进行分析处理,构建了一个多类分类器,再利用多类分类器将待分类文本分为多种评价对象类别的句子,利用不同评价对象的句子集合分别构建一个基情感分类器,以判断评价对象类别句子的情感倾向,最后融合不同评价对象类别中表示相同情感等级的后验概率,选取后验概率融合结果大的情感等级为所述待分类文本的情感类别。通过本发明实施例公开的文本的情感分类装置,将评价对象归为固定的几个类别,分别分析每一个评价对象类别的句子的情感倾向,再将不同评价对象类别的情感倾向融合,根据融合结果判断待分类文本的情感类别;克服了现有技术中将整篇文本视为一个评价对象来进行情感分类的弊端,提高了文本情感分类的准确率。
本说明书各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种文本的情感分类方法,其特征在于,包括:
预处理过程:
选取待分类文本对应领域的情感语料;
对所述情感语料进行分析处理,获取标注有不同评价对象类别的句子;
以所述标注有不同评价对象类别的句子为训练集构建多类分类器;
分类过程:
利用所述多类分类器将待分类文本分为标注有不同评价对象类别的句子;
从获得的标注有不同评价对象类别的句子中,确定包含标注有同一评价对象类别的句子的集合;
分别以所述包含标注有同一评价对象类别的句子的集合为训练集,构建与其对应的基情感分类器;
采用所述基情感分类器对与其对应的评价对象类别的情感等级进行划分,得到多个情感等级,并分别得到与所述多个情感等级对应的后验概率;
根据乘法融合规则融合每一个基情感分类器的分类结果中同一情感等级的后验概率;
选取后验概率融合结果大的情感等级为所述待分类文本的情感类别;
所述评价对象类别包括整体、硬件和软件;
其中,所述对所述情感语料进行分析处理,获取标注有不同评价对象类别的句子,包括:
采用分句、分词和词性标注工具对所述情感语料进行分句、分词和词性标注;
根据分词和词性标注的结果和预设的评价对象对应关系表为每一个句子标注评价对象类别,所述评价对象对应关系表中记录了所述待分类文本对应领域的所有评价对象与评价对象类别中整体、硬件或软件的对应关系;
所述利用所述多类分类器将待分类文本分为带有不同评价对象类别的句子,包括:
利用分句、分词和词性标注工具将待分类文本分句、分词及词性标注;
将分好的句子中后验概率大的评价对象类型标注在所述句子中。
2.根据权利要求1所述的方法,其特征在于,所述构建多类分类器,包括:
采用机器学习分类方法中的最大熵分类方法来构建多类分类器。
3.根据权利要求1所述的方法,其特征在于,所述融合每一个基情感分类器的分类结果,包括:
分别融合每一个基情感分类器的分类结果中对所述句子表示褒义情感和贬义情感的后验概率。
4.根据权利要求3所述的方法,其特征在于,所述根据融合的结果选取待分类文本的情感类别,包括:
选取后验概率融合结果大的褒义情感或贬义情感为待分类文本的情感类别。
5.一种文本的情感分类装置,其特征在于,包括预处理模块和分类模块;所述预处理模块包括:
语料选取模块,用于选取待分类文本对应领域的情感语料;
句子标注模块,用于对所述情感语料进行分析处理,获取标注有不同评价对象类别的句子;
多类分类器构建模块,用于以所述标注有不同评价对象类别的句子为训练集构建多类分类器;
所述分类模块包括:
分句标注模块,用于利用所述多类分类器将待分类文本分为标注有不同评价对象类别的句子;
基情感分类器构建模块,用于从获得的标注有不同评价对象类别的句子中,确定包含标注有同一评价对象类别的句子的集合;分别以所述包含标注有同一评价对象类别的句子的集合为训练集,构建与其对应的基情感分类器;
概率获取模块,用于采用所述基情感分类器对与其对应的评价对象类别的情感等级进行划分,得到多个情感等级,并分别得到与所述多个情感等级对应的后验概率;
概率融合模块,用于根据乘法融合规则融合每一个基情感分类器的分类结果中同一情感等级的后验概率;
类别确定模块,用于选取后验概率融合结果大的情感等级为所述待分类文本的情感类别;
所述分句标注模块包括:
分句模块,用于利用分句、分词和词性标注工具将待分类文本分句、分词及词性标注;
类型标注模块,用于将所述句子中后验概率大的评价对象类型标注在所述句子中。
6.根据权利要求5所述的装置,其特征在于,所述多类分类器构建模块包括:
构建子模块,用于采用机器学习分类方法中的最大熵分类方法来构建多类分类器。
CN201210151571.6A 2012-05-16 2012-05-16 一种文本的情感分类方法及装置 Active CN102682124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210151571.6A CN102682124B (zh) 2012-05-16 2012-05-16 一种文本的情感分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210151571.6A CN102682124B (zh) 2012-05-16 2012-05-16 一种文本的情感分类方法及装置

Publications (2)

Publication Number Publication Date
CN102682124A CN102682124A (zh) 2012-09-19
CN102682124B true CN102682124B (zh) 2014-07-09

Family

ID=46814049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210151571.6A Active CN102682124B (zh) 2012-05-16 2012-05-16 一种文本的情感分类方法及装置

Country Status (1)

Country Link
CN (1) CN102682124B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929861B (zh) * 2012-10-22 2015-07-22 杭州东信北邮信息技术有限公司 一种文本情感指数计算方法和系统
CN103020249A (zh) * 2012-12-19 2013-04-03 苏州大学 分类器的构建方法及装置、中文文本情感分类方法及系统
CN104063399B (zh) * 2013-03-22 2017-03-22 杭州娄文信息科技有限公司 一种自动识别文本所承载的情感概率的方法及系统
CN103324610A (zh) * 2013-06-09 2013-09-25 苏州大学 一种应用于移动设备的样本训练方法及装置
CN103324758B (zh) * 2013-07-10 2017-07-14 苏州大学 一种新闻分类方法和系统
CN103488782B (zh) * 2013-09-30 2016-07-27 华北电力大学 一种利用歌词识别音乐情感的方法
CN103631961B (zh) * 2013-12-17 2017-01-18 苏州大学张家港工业技术研究院 一种情感词与评价对象的关系识别方法
CN103678720B (zh) * 2014-01-02 2017-02-22 中国标准化研究院 用户反馈数据处理方法和装置
CN104809128A (zh) * 2014-01-26 2015-07-29 中国科学院声学研究所 一种获取语句情感倾向性的方法及系统
CN104199980A (zh) * 2014-09-24 2014-12-10 苏州大学 一种应用于评论语料的情感信息压缩方法及系统
CN104331451B (zh) * 2014-10-30 2017-12-26 南京大学 一种基于主题的网络用户评论的推荐度评分方法
CN104573114A (zh) * 2015-02-04 2015-04-29 苏州大学 一种音乐分类方法及装置
CN104731873B (zh) * 2015-03-05 2018-12-18 北京汇行科技有限公司 一种评价信息生成方法和装置
CN104731874B (zh) * 2015-03-05 2018-12-18 北京汇行科技有限公司 一种评价信息生成方法和装置
CN104809232B (zh) * 2015-05-11 2018-06-01 苏州大学 一种基于句子间情绪转移概率的句子级情绪分类方法
CN104794241A (zh) * 2015-05-11 2015-07-22 苏州大学 一种基于情绪倾向性的新闻分类方法及系统
CN105243094A (zh) * 2015-09-11 2016-01-13 苏州大学张家港工业技术研究院 一种基于微博文本和个人信息的用户职业分类方法及系统
CN105631022B (zh) * 2015-12-29 2019-03-05 上海智臻智能网络科技股份有限公司 信息处理方法及装置
CN106372058B (zh) * 2016-08-29 2019-10-15 中译语通科技股份有限公司 一种基于深度学习的短文本情感要素抽取方法及装置
CN107807914A (zh) * 2016-09-09 2018-03-16 阿里巴巴集团控股有限公司 情感倾向的识别方法、对象分类方法及数据处理系统
CN106528528A (zh) * 2016-10-18 2017-03-22 哈尔滨工业大学深圳研究生院 文本情感分析的方法及装置
CN108255803B (zh) * 2016-12-29 2022-03-01 北京国双科技有限公司 文档情感的判断方法和装置
CN106844743B (zh) * 2017-02-14 2020-04-24 国网新疆电力公司信息通信公司 维吾尔语文本的情感分类方法及装置
CN106897439B (zh) * 2017-02-28 2020-04-14 百度在线网络技术(北京)有限公司 文本的情感识别方法、装置、服务器以及存储介质
CN106951472A (zh) * 2017-03-06 2017-07-14 华侨大学 一种网络文本的多重情感分类方法
CN107402917B (zh) * 2017-07-28 2021-02-12 中央民族大学 藏文短文本情感分析方法及装置
CN107679075B (zh) * 2017-08-25 2020-06-02 北京德塔精要信息技术有限公司 网络监控方法和设备
CN107526831B (zh) 2017-09-04 2020-03-31 华为技术有限公司 一种自然语言处理方法和装置
CN108804524B (zh) * 2018-04-27 2020-03-27 成都信息工程大学 基于层次化分类体系的情感判别和重要性划分方法
US11031003B2 (en) 2018-05-25 2021-06-08 Microsoft Technology Licensing, Llc Dynamic extraction of contextually-coherent text blocks
CN110245227B (zh) * 2019-04-25 2021-12-28 义语智能科技(广州)有限公司 文本分类的融合分类器的训练方法及设备
CN110489522B (zh) * 2019-07-26 2022-04-12 湖南大学 一种基于用户评分的情感词典构建方法
CN111651604B (zh) * 2020-06-04 2023-11-10 腾讯科技(深圳)有限公司 基于人工智能的情感分类方法和相关装置
CN112784583A (zh) * 2021-01-26 2021-05-11 浙江香侬慧语科技有限责任公司 一种多角度情感分析方法、系统、存储介质及设备
CN113505227B (zh) * 2021-07-21 2022-06-10 兰州大学 文本分类方法、装置、电子设备及可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
CN102023986B (zh) * 2009-09-22 2015-09-30 日电(中国)有限公司 参考外部知识构建文本分类器的方法和设备
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置

Also Published As

Publication number Publication date
CN102682124A (zh) 2012-09-19

Similar Documents

Publication Publication Date Title
CN102682124B (zh) 一种文本的情感分类方法及装置
Asmussen et al. Smart literature review: a practical topic modelling approach to exploratory literature review
CN103631961B (zh) 一种情感词与评价对象的关系识别方法
Gu et al. " what parts of your apps are loved by users?"(T)
Smeureanu et al. Applying supervised opinion mining techniques on online user reviews
CN103678564B (zh) 一种基于数据挖掘的互联网产品调研系统
Luyckx et al. The effect of author set size and data size in authorship attribution
Sehgal et al. Sops: stock prediction using web sentiment
CN102541838B (zh) 用于优化情感分类器的方法和设备
CN104794212A (zh) 基于用户评论文本的上下文情感分类方法及分类系统
Gkotsis et al. It's all in the content: state of the art best answer prediction based on discretisation of shallow linguistic features
Derungs et al. Characterising landscape variation through spatial folksonomies
CN103020249A (zh) 分类器的构建方法及装置、中文文本情感分类方法及系统
CN104573114A (zh) 一种音乐分类方法及装置
Antunes et al. Readability of web content
Rahman et al. Social crisis detection using Twitter based text mining-a machine learning approach
CN106445914A (zh) 微博情感分类器的构建方法及构建装置
CN106997340A (zh) 词库的生成以及利用词库的文档分类方法及装置
CN103345525B (zh) 文本分类方法、装置及处理器
Klein et al. A combined approach for extracting financial instrument-specific investor sentiment from weblogs
Lepekhin et al. Estimating confidence of predictions of individual classifiers and their ensembles for the genre classification task
Williams et al. Zipf's law is a consequence of coherent language production
Fiarni et al. Implementing rule-based and naive bayes algorithm on incremental sentiment analysis system for Indonesian online transportation services review
Sumathi et al. Sentiment Analysis on Feedback Data of E-commerce Products Based on NLP
Sharapov et al. Method for Sentiment Text Analysis based on Statistical and Semantic Properties of Words

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant