CN102236636A - 情感倾向性分析方法和装置 - Google Patents
情感倾向性分析方法和装置 Download PDFInfo
- Publication number
- CN102236636A CN102236636A CN2010101577840A CN201010157784A CN102236636A CN 102236636 A CN102236636 A CN 102236636A CN 2010101577840 A CN2010101577840 A CN 2010101577840A CN 201010157784 A CN201010157784 A CN 201010157784A CN 102236636 A CN102236636 A CN 102236636A
- Authority
- CN
- China
- Prior art keywords
- emotion tendency
- emotion
- fine
- descriptor
- granularity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种用于分析对研究对象的情感倾向性的方法和装置。所述方法包括:获取粗粒度的情感倾向性;获取细粒度的情感倾向性;以及将粗粒度的情感倾向性和细粒度的情感倾向性结合,获取对该研究对象的情感倾向性;其中获取细粒度的情感倾向性的步骤包括:基于在句子粒度或者段落粒度上确定的与主题词相关的情感词进行情感倾向性分析;其中获取粗粒度的情感倾向性的步骤包括:基于在段落粒度或者文档粒度上确定的与主题词相关的情感词进行情感倾向性分析。
Description
技术领域
本发明总体上涉及信息处理领域,尤其涉及一种用于分析对研究对象的情感倾向性的方法和装置。
背景技术
在当前的信息时代,越来越多的信息以电子信息的方式出现。例如随着互联网的快速发展,越来越多的人喜欢在网上发表他们对事情的意见,因而在网络上出现大量包含倾向性的评论信息。人们希望通过信息处理手段来获取这些电子信息中包含的情感倾向性。例如,在购买电子商品之前,人们会希望先得知别人对于该商品的评价是好是坏。政府部门会希望获得人们对某一项新政策的反馈信息。如何分析和监测电子评论信息,如何减轻人们阅读大量相关评论信息的工作,成为了信息处理领域中的一个研究热点。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明旨在实现以比较高的准确度来分析对于研究对象的情感倾向性。为此,本发明的一个目的是提供一种用于分析情感倾向性的方法和装置,借助该方法和装置可以比较高的准确度来判断对于研究对象的情感倾向性。
本发明的另一个目的是提供在被计算设备执行时使计算设备能够执行上述方法的处理过程的计算机程序代码,以及其上存储有该计算机程序代码的计算机可读存储介质及计算机程序产品。
为了实现上述目的,根据本发明的一个方面,提供了一种用于分析对研究对象的情感倾向性的方法,包括:获取粗粒度的情感倾向性;获取细粒度的情感倾向性;以及将粗粒度的情感倾向性和细粒度的情感倾向性结合,获取对该研究对象的情感倾向性;其中获取细粒度的情感倾向性的步骤包括:基于在句子粒度或者段落粒度上确定的与主题词相关的情感词进行情感倾向性分析;其中获取粗粒度的情感倾向性的步骤包括:基于在段落粒度或者文档粒度上确定的与主题词相关的情感词进行情感倾向性分析。
根据本发明的另一个方面,提供了一种用于分析对研究对象的情感倾向性的装置,包括:粗粒度情感倾向性获取器,其获取粗粒度的情感倾向性;细粒度情感倾向性获取器,其获取细粒度的情感倾向性;以及情感倾向性结合器,其将粗粒度的情感倾向性和细粒度的情感倾向性结合,获取对该研究对象的情感倾向性;其中细粒度情感倾向性获取器基于在句子粒度或者段落粒度上确定的与主题词相关的情感词进行情感倾向性分析;其中粗粒度情感倾向性获取器基于在段落粒度或者文档粒度上确定的与主题词相关的情感词进行情感倾向性分析。
依据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
在本发明所提出的方案中,结合了粗粒度分析和细粒度分析的优点,因而提高了情感倾向性分析的性能。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1示出了根据本发明的一个实施例的用于分析对研究对象的情感倾向性的方法的流程图;
图2示出了用于获取细粒度的情感倾向性的过程的流程图;
图3示出了根据本发明的一个实施例的用于分析对研究对象的情感倾向性的装置的示意性结构图;
图4示出了细粒度情感倾向性获取器的示意性结构图;
图5示出了在其中可以实现根据本发明实施例的方法和/或装置的通用个人计算机的示例性结构的方框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
目前,为了在文档级别上分析对研究对象的情感倾向性,主要是以文档整体作为研究对象,将情感倾向性判断归结为情感分类问题,采用机器学习的方法,利用人工标注文本倾向性的训练语料、基于一元(Unigram)和二元(Bigram)等特征以及采用贝叶斯(Bayesian)、支持向量机(SupportVector Machine)、最大熵(Maximum Entropy)学习分类器,或者利用情感倾向性词典,通过将文档中的词和短语的倾向性进行平均,来判断文档的倾向性。也就是说,现有技术中主要在粗粒度的水平上来分析文档级别的情感倾向性。
发明人注意到,一个文档中可能包含多个主题,对每个主题可能具有不同的情感。因此仅仅在文档粒度上分析情感倾向性可能不能达到满意的精确率。例如对于某个电子产品如手机,其包括多个部件,例如屏幕、按键、色彩等等。这些部件的重要程度彼此不同,并且对于每个部件都可能存在不同的情感倾向性,而文档粒度的分析并未对此加以考虑。
因此,本发明提出了从多个粒度来衡量情感倾向性的方案,其中不但考虑了文档整体的倾向性,还针对所给定的主题,获取该主题的细粒度的情感倾向性,并采用组合的方式对得到的结果进行分析,从而得到最终的结果。
图1是示出了根据本发明一个实施例的用于分析对研究对象的情感倾向性的方法的流程图。
需要说明的是,在执行根据图1所示的方法之前,已经获取了给定主题的文档信息。例如,可以首先接收从网络上收集到的各种商品评论信息。在此,可以采用现有的各种信息收集方法,例如,采用面向互联网的网络爬虫的方式,或者采用指定数据来源的方式,来定期地自动从网络上收集评论信息。随后可以对所收集到的评论信息进行包括分句、分词、词性标注等在内的各种预处理,以获得包括在所收集到的评论信息中的众多评论语句的词、词性向量。在此可以采用已有的自然语言处理方法来对评论信息进行预处理。
并且,对于上述处理之后的文档信息进行了特征选择,从全体特征集合中选择出对分类有较大贡献的特征组成特征子集,并且尽可能不失去原有数据价值。例如,在对评论信息进行分词等处理之后,在特征集合中包括分词处理得到的所有词,这些词中通常只有一部分对于分类是有用的。因此可以利用文档频度、互信息、信息增益、CHI统计、信息增益等,从不同的方面来对特征对文档的重要程度进行度量,以选择出对分类有较大贡献的特征组成特征子集。本发明采用向量空间模型进行文本的形式化表示,采用文本中出现的词特征作为文本的特征项。
为了分析情感倾向性,除包含主题信息的特征外,还引入了情感词典,获取了情感信息特征。例如,在对于手机这种电子产品的评论信息中,“清晰”可能具有褒义的情感信息特征,而“模糊”可能具有贬义的情感信息特征。
上述预处理是本领域技术人员所熟知的,因此这里不再进一步详述。
在上述处理之后,本发明提出了一种用于分析对研究对象的情感倾向性的方法。
在步骤S110中,获取粗粒度的情感倾向性。特别地,粗粒度可以是文档粒度或者段落粒度,也即在该步骤中获取文档级别或者段落级别上的情感倾向性。为了在粗粒度上进行情感倾向性分析,在此可以使用传统的文本分类方法来进行分析,其中融入在预处理中获取的、情感分类特有的情感信息特征,从而判断对研究对象的粗粒度的情感倾向性,例如判断对于研究对象的观点的褒贬义。对此优选的是采用支持向量机分类方法。当然也可以使用其它任何分类方法。
支持向量机分类方法是一种统计学习方法,它是基于有序风险最小化归纳法,通过在特征空间构建具有最大间隔的最佳超平面来进行的。在使用支持向量机来分类之前,已经事先对支持向量机进行了训练,训练语料包括客观文档集合、主观褒义文档集合、主观贬义文档集合等等。每个文档集合含有指定的文档数目,如1,000篇。支持向量机分类方法是本领域技术人员常用的分类方法,因此这里不再详细阐述。
通过进行粗粒度的分析,可以得到对于研究对象的粗粒度的情感倾向性。例如,可以将情感倾向性分为多个级别,例如根据实际需要可以分为褒义、中性和贬义,或者也可能分为褒义、偏褒义、中性、偏贬义、贬义等等。下面主要以情感倾向性分为褒义、中性和贬义来进行阐述。对于更多级别的划分,本领域技术人员容易根据本发明的方案进行相应的修改。由于在粗粒度分析中考虑了所有出现在文档或者段落中的内容信息和情感信息,可以衡量研究对象的整体上的主观性,因此粗粒度的分析性能比较稳定。
然而,发明人注意到,一个研究对象的主题词可能包含多个下级主题词,对每个下级主题词可能具有不同的情感倾向性。例如对于主题词“手机”,可能还包含下级主题词“屏幕”、“按键”、“外观”、“电池”等等。这些下级主题词可能具有不同的重要性,而简单地将整篇文档的情感倾向性作为研究对象的主题词的情感倾向性来获得的粗粒度的情感倾向性并没有对此加以考虑,因而其精确度有待进一步提高。
因此,在根据本发明的用于分析对研究对象的情感倾向性的方法中,还进一步包括步骤S120:获取细粒度的情感倾向性。特别地,细粒度可以是段落粒度或者句子粒度,也即在该步骤中获取段落级别或者句子级别上的情感倾向性。在此需要说明的是,细粒度是相对于粗粒度而确定的,当粗粒度是文档粒度时,细粒度可以是段落粒度或者句子粒度,而当粗粒度是段落粒度时,细粒度是句子粒度。
图2示出了用于获取细粒度的情感倾向性的过程的一种实施方式的流程图。如图2所示,为了获取细粒度的情感倾向性,在步骤S1201中首先获取与主题词相关的情感词。考虑到同一研究对象可能具有不同的称谓,并且如前所述可能具有不同的下级主题,研究对象的主题词可以首先根据词典、知识库以及网络信息等等进行一定的扩展,以使信息更为准确。例如,对于研究对象手机,除了主题词“手机”之外,还可以考虑扩展的主题词“移动电话”、“蜂窝电话”等等。此外,主题词也可以包括下级主题词,例如主题词“手机”可以包括下级主题词“屏幕”、“按键”、“外观”、“电池”等等。与主题词相关的情感词包括与下级主题词相关的情感词。
需要说明的是,与主题词的相关包括与主题词在空间上相关、和/或在语义上相关和/或在逻辑上相关。在空间上相关例如可以是与主题词在同一个句子中、在同一段中等等。在语义上相关例如指的是某个情感词在语义上是用于修饰主题词的,例如“清晰”通常是用于修饰“屏幕”等等。逻辑上相关指的是某个情感词从逻辑上分析应当是修饰某个主题词的。由于在大多数情况下主题词和相关的情感词会在相同的句子中出现,因此优选的是,仅考虑与主题词和情感词在相同句子中出现的情况,也即针对文档中的同时包含主题词和情感词的句子来获取细粒度的情感倾向性。这种方式的优点是可以比较简单地得到细粒度的分析结果。
发明人注意到,人们在进行评论时习惯于在主题词附近给出其情感或评论信息,因此优选的是以主题词为中心,基于情感词典采用最近邻匹配方法确定与主题词相关的情感词。该最近邻匹配方法是本领域技术人员常用的手段,在此不再详细描述。
在获取了与主题词相关的情感词之后,在步骤S1203中确定细粒度的情感倾向性。
优选的是,在确定细粒度的情感倾向性的步骤中,根据情感词在词典中的倾向性,考虑转折、否定等句式,对其极性进行判别。
此外,根据一种实施形式,可以根据与同一主题词相关的情感词中的褒义词与贬义词的个数来确定对该主题词的细粒度的情感倾向性。例如,可以使用基于学习的分类器来确定对该主题词的细粒度的情感倾向性。这种分类器事先已经过训练,从而可以根据对该主题词的褒义词与贬义词的个数来确定情感倾向性。此外,例如也可以根据褒义词与贬义词的个数的比值来确定对该主题词的细粒度的情感倾向性。具体而言,可以利用如下公式:
Polarity(D)=N(pos)/N(neg)
其中Polarity(D)表示文档D的针对某个主题词的情感倾向性,N(pos)表示在文档D中包含的具有褒义的主题词-情感词对的个数,而N(neg)表示在文档D中包含的具有贬义的主题词-情感词对的个数。可以认为当Polarity(D)大于1时,针对该主题词的情感倾向性为褒义,小于1时为贬义,等于1时为中性。当然也可以设置相应的阈值,例如认为Polarity(D)在1.1到0.9之间为中性,大于1.1为褒义,小于0.9为贬义。对于将情感倾向性划分为更多级别的情况,本领域技术人员可以相应地设置阈值。
此外,由于不同的褒义词和贬义词例如“还可以”、“不错”、“非常好”表达的褒贬情感的程度不同,因此可以对于褒义词与贬义词分别设置相应的分值,并根据褒义词与贬义词的分值的平均数来确定对该主题词的细粒度的情感倾向性。在此需要说明的是,分值的平均数指的是褒义词和贬义词的分值在整个文档/段落上的平均表现。例如,可以对于“不错”设置分值为1,“非常好”设置分值为2,“较差”设置分值为-1,而“非常差”设置分值为-2。在分析情感倾向性时可以将所有褒义词和贬义词的分值相加,以此作为平均数,如果大于零或者大于某个阈值,则认为是褒义,等等。此外也可能的是,将褒义词和贬义词按照分值先进行求和,随后利用特定函数将该分值的和转化到特定区间中。例如利用Sigmoid函数来将分值的和转化到特定区间,并将该转化后的值作为平均数。利用特定函数来转化分值的和到特定区间是本领域技术人员的常用手段,在此不再进一步阐述。
在获取细粒度的情感倾向性的步骤S120之后,在根据本发明的用于分析对研究对象的情感倾向性的方法中,还进一步包括步骤S130:将粗粒度的情感倾向性和细粒度的情感倾向性结合,获取对该研究对象的情感倾向性。
根据一种实施形式,可以根据要求对粗粒度的情感倾向性和细粒度的情感倾向性分别设置不同的权重,并将粗粒度的情感倾向性和细粒度的情感倾向性进行加权组合。
发明人注意到,由于粗粒度的情感倾向性分析的精确度往往不能令人满意,而细粒度的情感倾向性分析虽然查全率可能比较低,但是对于所获取的主题词-情感词对的分析结果精确度比较高。因此优选的是,将粗粒度的情感倾向性和细粒度的情感倾向性结合的步骤包括:将粗粒度的情感倾向性作为初始倾向性,当粗粒度的情感倾向性不是中性时,利用细粒度的情感倾向性来修正粗粒度的情感倾向性,而当粗粒度的情感倾向性是中性时,不对该情感倾向性来进行修正。例如,当粗粒度的情感倾向性分析结果为褒义,而细粒度的情感倾向性分析结果为贬义时,则采用细粒度的情感倾向性分析结果作为最终的结果。事实上,这种组合方式可以视为是前述“加权组合”方式的一种特例。
在根据本发明上述实施例的用于分析对研究对象的情感倾向性的方法中,结合了粗粒度分析和细粒度分析的优点,因而提高了情感倾向性分析的性能。
相应地,图3示出了根据本发明的一个实施例的用于分析对研究对象的情感倾向性的装置30的示意性结构图。
如从图3中可以看到的那样,用于分析对研究对象的情感倾向性的装置20包括:粗粒度情感倾向性获取器310,细粒度情感倾向性获取器320,以及情感倾向性结合器330。
粗粒度情感倾向性获取器310被配置用于获取粗粒度的情感倾向性。特别地,粗粒度可以是文档粒度或者段落粒度,也即粗粒度情感倾向性获取器310被配置用于获取文档级别或者段落级别上的情感倾向性。为了在粗粒度上进行情感倾向性分析,在此可以使用传统的文本分类方法来进行分析,其中融入在预处理中获取的、情感分类特有的情感信息特征,从而判断对研究对象的粗粒度的情感倾向性,例如判断对于研究对象的观点的褒贬义。对此优选的是采用支持向量机分类方法。当然也可以使用其它任何分类方法。
通过进行粗粒度的分析,可以得到对于研究对象的粗粒度的情感倾向性。由于在粗粒度分析中考虑了所有出现在文档或者段落中的内容信息和情感信息,可以衡量研究对象的整体上的主观性,因此粗粒度的分析性能比较稳定。
此外,装置20中的细粒度情感倾向性获取器320被配置用于获取细粒度的情感倾向性。特别地,细粒度可以是段落粒度或者句子粒度,也即在该步骤中获取段落级别或者句子级别上的情感倾向性。在此需要说明的是,细粒度是相对于粗粒度而确定的,当粗粒度是文档粒度时,细粒度可以是段落粒度或者句子粒度,而当粗粒度是段落粒度时,细粒度是句子粒度。
图4示出了细粒度情感倾向性获取器320的示意性结构图。如图4所示,细粒度情感倾向性获取器320包括情感词获取器3201,其被配置用于获取与主题词相关的情感词。考虑到同一研究对象可能具有不同的称谓,并且如前所述可能具有不同的下级主题,研究对象的主题词可以首先根据词典、知识库以及网络信息等等进行一定的扩展,以使信息更为准确。关于如何获取与主题词相关的情感词以及对主题词的扩展,具体可以参照方法部分的描述,这里不再赘述。。
此外,细粒度情感倾向性获取器320还包括细粒度情感倾向性确定器3203,其被配置用于确定细粒度的情感倾向性。
优选的是,细粒度情感倾向性确定器3203被配置用于在确定细粒度的情感倾向性的过程中,根据情感词在词典中的倾向性,考虑转折、否定等句式,对其极性进行判别。
此外,根据一种实施形式,细粒度情感倾向性确定器3203可以被配置用于根据与同一主题词相关的情感词中的褒义词与贬义词的个数来确定对该主题词的细粒度的情感倾向性。可以使用基于学习的分类器来确定对该主题词的细粒度的情感倾向性。这种分类器事先已经过训练,从而可以根据对该主题词的褒义词与贬义词的个数来确定情感倾向性。此外,例如也可以根据褒义词与贬义词的个数的比值来确定对该主题词的细粒度的情感倾向性。。具体而言,可以利用如下公式:
Polarity(D)=N(pos)/N(neg)
其中Polarity(D)表示文档D的针对某个主题词的情感倾向性,N(pos)表示在文档D中包含的具有褒义的主题词-情感词对的个数,而N(neg)表示在文档D中包含的具有贬义的主题词-情感词对的个数。可以认为当Polarity(D)大于1时,针对该主题词的情感倾向性为褒义,小于1时为贬义,等于1时为中性。当然也可以设置相应的阈值,例如认为Polarity(D)在1.1到0.9之间为中性,大于1.1为褒义,小于0.9为贬义。对于将情感倾向性划分为更多级别的情况,本领域技术人员可以相应地设置阈值。
此外,由于不同的褒义词和贬义词例如“还可以”、“不错”、“非常好”表达的褒贬情感的程度不同,因此细粒度情感倾向性确定器3203可以被配置用于对于褒义词与贬义词分别设置相应的分值,并根据褒义词与贬义词的分值的平均数来确定对该主题词的细粒度的情感倾向性。
装置30的情感倾向性结合器330被配置用于将粗粒度的情感倾向性和细粒度的情感倾向性结合,获取对该研究对象的情感倾向性。
根据一种实施形式,情感倾向性结合器330可以根据要求对粗粒度的情感倾向性和细粒度的情感倾向性分别设置不同的权重,并将粗粒度的情感倾向性和细粒度的情感倾向性进行加权组合。
发明人注意到,由于粗粒度的情感倾向性分析的精确度往往不能令人满意,而细粒度的情感倾向性分析虽然查全率可能比较低,但是对于所获取的主题词-情感词对的分析结果精确度比较高。因此优选的是,情感倾向性结合器330被配置用于将粗粒度的情感倾向性作为初始倾向性,当粗粒度的情感倾向性不是中性时,利用细粒度的情感倾向性来修正粗粒度的情感倾向性,而当粗粒度的情感倾向性是中性时,不对该情感倾向性来进行修正。例如,当粗粒度的情感倾向性分析结果为褒义,而细粒度的情感倾向性分析结果为贬义时,则采用细粒度的情感倾向性分析结果作为最终的结果。
在根据本发明上述实施例的用于分析对研究对象的情感倾向性的装置30中,结合了粗粒度分析和细粒度分析的优点,因而提高了情感倾向性分析的性能。
另外,应理解,本文所述的各种示例和实施例均是示例性的,本发明不限于此。
上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中,也根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。
下述部件连接到输入/输出接口505:输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要,驱动器510也可连接到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
通过以上的描述不难看出,根据本发明的实施例,提供了如下的方案:
附记1.一种用于分析对研究对象的情感倾向性的方法,包括:
-获取粗粒度的情感倾向性;
-获取细粒度的情感倾向性;以及
-将粗粒度的情感倾向性和细粒度的情感倾向性结合,获取对该研究对象的情感倾向性;
其中获取细粒度的情感倾向性的步骤包括:基于在句子粒度或者段落粒度上确定的与主题词相关的情感词进行情感倾向性分析;
其中获取粗粒度的情感倾向性的步骤包括:基于在段落粒度或者文档粒度上确定的与主题词相关的情感词进行情感倾向性分析。
附记2.根据附记1所述的方法,其中获取细粒度的情感倾向性的步骤被进一步配置为:根据与同一主题词相关的情感词中的褒义词与贬义词的个数来确定对该主题词的细粒度的情感倾向性。
附记3.根据附记2所述的方法,其中获取细粒度的情感倾向性的步骤被进一步配置为:根据所述褒义词与贬义词的个数的比值来确定对该主题词的细粒度的情感倾向性。
附记4.根据附记2所述的方法,其中获取细粒度的情感倾向性的步骤被进一步配置为:根据所述褒义词与贬义词的分值的平均数来确定对该主题词的细粒度的情感倾向性。
附记5.根据附记1所述的方法,其中所述主题词包括下级主题词,与所述主题词相关的情感词包括与下级主题词相关的情感词。
附记6.根据附记2所述的方法,其中与主题词相关包括与主题词在空间上相关、和/或在语义上相关和/或在逻辑上相关。
附记7.根据附记1所述的方法,其中将粗粒度的情感倾向性和细粒度的情感倾向性结合的步骤包括:将粗粒度的情感倾向性和细粒度的情感倾向性进行加权组合。
附记8.根据附记1所述的方法,其中将粗粒度的情感倾向性和细粒度的情感倾向性结合的步骤包括:将文档粒度的情感倾向性作为初始倾向性,当文档粒度的情感倾向性不是中性时,利用细粒度的情感倾向性来修正文档粒度的情感倾向性。
附记9.一种用于分析对研究对象的情感倾向性的装置(20),包括:
-粗粒度情感倾向性获取器(310),其获取粗粒度的情感倾向性;
-细粒度情感倾向性获取器(320),其获取细粒度的情感倾向性;以及
-情感倾向性结合器(330),其将粗粒度的情感倾向性和细粒度的情感倾向性结合,获取对该研究对象的情感倾向性;
其中细粒度情感倾向性获取器(320)基于在句子粒度或者段落粒度上确定的与主题词相关的情感词进行情感倾向性分析;
其中粗粒度情感倾向性获取器(310)基于在段落粒度或者文档粒度上确定的与主题词相关的情感词进行情感倾向性分析。
附记10.根据附记9所述的装置(20),其中细粒度情感倾向性获取器(320)包括:细粒度情感倾向性确定器(3203),其用于根据与同一主题词相关的情感词中的褒义词与贬义词的个数来确定对该主题词的细粒度的情感倾向性。
附记11.根据附记10所述的装置(20),其中细粒度情感倾向性确定器(3203)进一步根据所述褒义词与贬义词的个数的比值来确定对该主题词的细粒度的情感倾向性。
附记12.根据附记10所述的装置(20),其中细粒度情感倾向性确定器(3203)进一步根据所述褒义词与贬义词的分值的平均数来确定对该主题词的细粒度的情感倾向性。
附记13.根据附记9所述的装置(20),其中所述主题词包括下级主题词,与所述主题词相关的情感词包括与下级主题词相关的情感词。
附记14.根据附记9所述的装置(20),其中与主题词相关包括与主题词在空间上相关、和/或在语义上相关和/或在逻辑上相关。
附记15.根据附记9所述的装置(20),其中情感倾向性结合器(330)将粗粒度的情感倾向性和细粒度的情感倾向性进行加权组合。
附记16.根据附记9所述的装置(20),其中情感倾向性结合器(330)将文档粒度的情感倾向性作为初始倾向性,当文档粒度的情感倾向性不是中性时,利用细粒度的情感倾向性来修正文档粒度的情感倾向性。
附记17.一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行如附记1所述的方法。
附记18.一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行如附记1所述的方法。
Claims (9)
1.一种用于分析对研究对象的情感倾向性的方法,包括:
-获取粗粒度的情感倾向性;
-获取细粒度的情感倾向性;以及
-将粗粒度的情感倾向性和细粒度的情感倾向性结合,获取对该研究对象的情感倾向性;
其中获取细粒度的情感倾向性的步骤包括:基于在句子粒度或者段落粒度上确定的与主题词相关的情感词进行情感倾向性分析;
其中获取粗粒度的情感倾向性的步骤包括:基于在段落粒度或者文档粒度上确定的与主题词相关的情感词进行情感倾向性分析。
2.一种用于分析对研究对象的情感倾向性的装置(20),包括:
-粗粒度情感倾向性获取器(310),其获取粗粒度的情感倾向性;
-细粒度情感倾向性获取器(320),其获取细粒度的情感倾向性;以及
-情感倾向性结合器(330),其将粗粒度的情感倾向性和细粒度的情感倾向性结合,获取对该研究对象的情感倾向性;
其中细粒度情感倾向性获取器(320)基于在句子粒度或者段落粒度上确定的与主题词相关的情感词进行情感倾向性分析;
其中粗粒度情感倾向性获取器(310)基于在段落粒度或者文档粒度上确定的与主题词相关的情感词进行情感倾向性分析。
3.根据权利要求2所述的装置(20),其中细粒度情感倾向性获取器(320)包括:细粒度情感倾向性确定器(3203),其用于根据与同一主题词相关的情感词中的褒义词与贬义词的个数来确定对该主题词的细粒度的情感倾向性。
4.根据权利要求3所述的装置(20),其中细粒度情感倾向性确定器(3203)进一步根据所述褒义词与贬义词的个数的比值来确定对该主题词的细粒度的情感倾向性。
5.根据权利要求3所述的装置(20),其中细粒度情感倾向性确定器(3203)进一步根据所述褒义词与贬义词的分值的平均数来确定对该主题词的细粒度的情感倾向性。
6.根据权利要求2所述的装置(20),其中所述主题词包括下级主题词,与所述主题词相关的情感词包括与下级主题词相关的情感词。
7.根据权利要求2所述的装置(20),其中与主题词相关包括与主题词在空间上相关、和/或在语义上相关和/或在逻辑上相关。
8.根据权利要求2所述的装置(20),其中情感倾向性结合器(330)将粗粒度的情感倾向性和细粒度的情感倾向性进行加权组合。
9.根据权利要求2所述的装置(20),其中情感倾向性结合器(330)将文档粒度的情感倾向性作为初始倾向性,当文档粒度的情感倾向性不是中性时,利用细粒度的情感倾向性来修正文档粒度的情感倾向性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101577840A CN102236636A (zh) | 2010-04-26 | 2010-04-26 | 情感倾向性分析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101577840A CN102236636A (zh) | 2010-04-26 | 2010-04-26 | 情感倾向性分析方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102236636A true CN102236636A (zh) | 2011-11-09 |
Family
ID=44887295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101577840A Pending CN102236636A (zh) | 2010-04-26 | 2010-04-26 | 情感倾向性分析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102236636A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN103885933A (zh) * | 2012-12-21 | 2014-06-25 | 富士通株式会社 | 用于评价文本的情感度的方法和设备 |
CN104298659A (zh) * | 2014-11-12 | 2015-01-21 | 广州出益信息科技有限公司 | 一种语义识别方法及装置 |
CN104331451A (zh) * | 2014-10-30 | 2015-02-04 | 南京大学 | 一种基于主题的网络用户评论的推荐度评分方法 |
CN104537080A (zh) * | 2014-12-31 | 2015-04-22 | 北京畅游天下网络技术有限公司 | 资讯推荐方法和系统 |
CN105068988A (zh) * | 2015-07-21 | 2015-11-18 | 中国科学院自动化研究所 | 多维度和多粒度情感分析方法 |
CN105095179A (zh) * | 2014-05-14 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 对用户评价进行处理的方法及装置 |
CN106294312A (zh) * | 2015-06-29 | 2017-01-04 | 北京大学 | 信息处理方法和信息处理系统 |
CN106599063A (zh) * | 2016-11-15 | 2017-04-26 | 武汉璞华大数据技术有限公司 | 基于主题情感语义提取的细粒度观点挖掘方法 |
CN106598938A (zh) * | 2015-10-16 | 2017-04-26 | 北京国双科技有限公司 | 一种确定文档情感倾向性的方法及装置 |
CN108416375A (zh) * | 2018-02-13 | 2018-08-17 | 中国联合网络通信集团有限公司 | 工单分类方法及装置 |
CN109153811A (zh) * | 2016-05-16 | 2019-01-04 | 马丁斯韦克有限公司 | 产品及其用途 |
CN109740154A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 一种基于多任务学习的在线评论细粒度情感分析方法 |
CN110169770A (zh) * | 2019-05-24 | 2019-08-27 | 西安电子科技大学 | 情绪脑电的细粒度可视化系统和方法 |
CN114610876A (zh) * | 2022-01-28 | 2022-06-10 | 广东横琴数说故事信息科技有限公司 | 一种可高效配置的细粒度情感分析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN101593204A (zh) * | 2009-06-05 | 2009-12-02 | 北京大学 | 一种基于新闻评论网页的情感倾向性分析系统 |
CN101634983A (zh) * | 2008-07-21 | 2010-01-27 | 华为技术有限公司 | 一种文本分类方法和装置 |
CN101639824A (zh) * | 2009-08-27 | 2010-02-03 | 北京理工大学 | 一种针对不良信息的基于情感倾向性分析的文本过滤方法 |
-
2010
- 2010-04-26 CN CN2010101577840A patent/CN102236636A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101634983A (zh) * | 2008-07-21 | 2010-01-27 | 华为技术有限公司 | 一种文本分类方法和装置 |
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN101593204A (zh) * | 2009-06-05 | 2009-12-02 | 北京大学 | 一种基于新闻评论网页的情感倾向性分析系统 |
CN101639824A (zh) * | 2009-08-27 | 2010-02-03 | 北京理工大学 | 一种针对不良信息的基于情感倾向性分析的文本过滤方法 |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN103885933A (zh) * | 2012-12-21 | 2014-06-25 | 富士通株式会社 | 用于评价文本的情感度的方法和设备 |
CN103885933B (zh) * | 2012-12-21 | 2017-03-01 | 富士通株式会社 | 用于评价文本的情感度及用于评价实体的方法和设备 |
CN105095179B (zh) * | 2014-05-14 | 2019-03-26 | 腾讯科技(深圳)有限公司 | 对用户评价进行处理的方法及装置 |
CN105095179A (zh) * | 2014-05-14 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 对用户评价进行处理的方法及装置 |
CN104331451A (zh) * | 2014-10-30 | 2015-02-04 | 南京大学 | 一种基于主题的网络用户评论的推荐度评分方法 |
CN104331451B (zh) * | 2014-10-30 | 2017-12-26 | 南京大学 | 一种基于主题的网络用户评论的推荐度评分方法 |
CN104298659A (zh) * | 2014-11-12 | 2015-01-21 | 广州出益信息科技有限公司 | 一种语义识别方法及装置 |
CN104537080A (zh) * | 2014-12-31 | 2015-04-22 | 北京畅游天下网络技术有限公司 | 资讯推荐方法和系统 |
CN104537080B (zh) * | 2014-12-31 | 2018-08-07 | 北京畅游天下网络技术有限公司 | 资讯推荐方法和系统 |
CN106294312A (zh) * | 2015-06-29 | 2017-01-04 | 北京大学 | 信息处理方法和信息处理系统 |
CN106294312B (zh) * | 2015-06-29 | 2019-02-26 | 北京大学 | 信息处理方法和信息处理系统 |
CN105068988B (zh) * | 2015-07-21 | 2018-01-30 | 中国科学院自动化研究所 | 多维度和多粒度情感分析方法 |
CN105068988A (zh) * | 2015-07-21 | 2015-11-18 | 中国科学院自动化研究所 | 多维度和多粒度情感分析方法 |
CN106598938B (zh) * | 2015-10-16 | 2019-12-10 | 北京国双科技有限公司 | 一种确定文档情感倾向性的方法及装置 |
CN106598938A (zh) * | 2015-10-16 | 2017-04-26 | 北京国双科技有限公司 | 一种确定文档情感倾向性的方法及装置 |
CN109153811B (zh) * | 2016-05-16 | 2021-03-16 | 马丁斯韦克有限公司 | 铝产品及其在具有高热导率的聚合物组合物中的用途 |
CN109153811A (zh) * | 2016-05-16 | 2019-01-04 | 马丁斯韦克有限公司 | 产品及其用途 |
CN106599063A (zh) * | 2016-11-15 | 2017-04-26 | 武汉璞华大数据技术有限公司 | 基于主题情感语义提取的细粒度观点挖掘方法 |
CN108416375B (zh) * | 2018-02-13 | 2020-07-07 | 中国联合网络通信集团有限公司 | 工单分类方法及装置 |
CN108416375A (zh) * | 2018-02-13 | 2018-08-17 | 中国联合网络通信集团有限公司 | 工单分类方法及装置 |
CN109740154A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 一种基于多任务学习的在线评论细粒度情感分析方法 |
CN109740154B (zh) * | 2018-12-26 | 2021-10-26 | 西安电子科技大学 | 一种基于多任务学习的在线评论细粒度情感分析方法 |
CN110169770A (zh) * | 2019-05-24 | 2019-08-27 | 西安电子科技大学 | 情绪脑电的细粒度可视化系统和方法 |
CN110169770B (zh) * | 2019-05-24 | 2021-10-29 | 西安电子科技大学 | 情绪脑电的细粒度可视化系统和方法 |
CN114610876A (zh) * | 2022-01-28 | 2022-06-10 | 广东横琴数说故事信息科技有限公司 | 一种可高效配置的细粒度情感分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102236636A (zh) | 情感倾向性分析方法和装置 | |
US11227120B2 (en) | Open domain targeted sentiment classification using semisupervised dynamic generation of feature attributes | |
McFarland et al. | Differentiating language usage through topic models | |
Rüdiger et al. | Topic modeling revisited: New evidence on algorithm performance and quality metrics | |
CN103207913B (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN102214233B (zh) | 一种对文本进行分类的方法及装置 | |
CN102541838B (zh) | 用于优化情感分类器的方法和设备 | |
Cohen | An effective general purpose approach for automated biomedical document classification | |
CN104778283B (zh) | 一种基于微博的用户职业分类方法及系统 | |
Flores et al. | Active learning for biomedical text classification based on automatically generated regular expressions | |
CN112199940A (zh) | 一种项目评审方法、存储介质 | |
EP2613275B1 (en) | Search device, search method, search program, and computer-readable memory medium for recording search program | |
CN115203570A (zh) | 预测模型的训练方法、专家推荐匹配方法、装置以及介质 | |
Obagbuwa et al. | Supervised machine learning models for depression sentiment analysis | |
Ahmed et al. | Arabic Text Detection Using Rough Set Theory: Designing a Novel Approach | |
Al-Salemi et al. | Boosting algorithms with topic modeling for multi-label text categorization: A comparative empirical study | |
Atandoh et al. | Scalable deep learning framework for sentiment analysis prediction for online movie reviews | |
Qian et al. | Satiindicator: Leveraging user reviews to evaluate user satisfaction of sourceforge projects | |
Kong et al. | Construction of microblog-specific chinese sentiment lexicon based on representation learning | |
Abel et al. | Sentiment-analysis for German employer reviews | |
CN114357152A (zh) | 信息处理方法、装置、计算机可读存储介质和计算机设备 | |
Elyassami et al. | Intelligent models for mining social media data | |
Pradeepa et al. | HGATT_LR: transforming review text classification with hypergraphs attention layer and logistic regression | |
Okpanachi et al. | Analysis of Serious Games for Nutrition Using NLP Techniques | |
Balasundaram et al. | Social Media Monitoring Of Airbnb Reviews Using AI: A Sentiment Analysis Approach For Immigrant Perspectives In The UK |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20111109 |