CN102375848A - 评价对象聚类方法和装置 - Google Patents

评价对象聚类方法和装置 Download PDF

Info

Publication number
CN102375848A
CN102375848A CN2010102607504A CN201010260750A CN102375848A CN 102375848 A CN102375848 A CN 102375848A CN 2010102607504 A CN2010102607504 A CN 2010102607504A CN 201010260750 A CN201010260750 A CN 201010260750A CN 102375848 A CN102375848 A CN 102375848A
Authority
CN
China
Prior art keywords
evaluation object
cluster
morpheme
evaluation
outside
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010102607504A
Other languages
English (en)
Other versions
CN102375848B (zh
Inventor
张姝
贾文杰
夏迎炬
孟遥
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201010260750.4A priority Critical patent/CN102375848B/zh
Publication of CN102375848A publication Critical patent/CN102375848A/zh
Application granted granted Critical
Publication of CN102375848B publication Critical patent/CN102375848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种用于将评价对象聚类的方法和装置。所述方法包括:基于语素提取评价对象的语素特征;基于评价对象的上下文提取评价对象的外部关联词语,作为所述评价对象的外部关联特征;以及利用所述语素特征和所述外部关联特征对所述评价对象进行第一聚类。

Description

评价对象聚类方法和装置
技术领域
本发明涉及自然语言处理领域。特别地,本发明涉及一种用于将评价对象聚类的方法和装置。
背景技术
对于文本倾向性分析,根据其处理粒度的不同可以将其分为篇章级、句子级以及属性级。面向篇章级和句子级的倾向性分析主要是判断其是否具有褒义、贬义或中性等情感倾向。仅给出其倾向性不能满足许多应用需求,因此开始了面向更细粒度的属性级倾向性分析。该任务不但要求给出倾向性,还需找出被评论的对象,这些信息可被用来进一步分析观点倾向或生成评论文摘等。
发明内容
本发明的一个目的是,提供一种用于将评价对象聚类的方法和装置。在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本发明的一个实施例,基于语素提取评价对象的语素特征;基于评价对象的上下文提取评价对象的外部关联词语,作为所述评价对象的外部关联特征;以及利用所述语素特征和所述外部关联特征对所述评价对象进行第一聚类。
在根据本发明的实施例中,由于通过语素考虑了评价对象的内部关联特性,并且通过外部关联词语考虑了评价对象的外部关联特性,因此可以更有效地对评价对象进行聚类。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的上述以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1示出了根据本发明的一个实施例的用于将评价对象聚类的方法的流程图;
图2示出了根据本发明的另一个实施例的用于将评价对象聚类的方法的流程图;
图3示出了根据本发明的另一个实施例的用于将评价对象聚类的方法的流程图;
图4示出了根据本发明的一个实施例的用于将评价对象聚类的装置的示意性结构图;
图5示出了根据本发明的另一个实施例的用于将评价对象聚类的装置的示意性结构图;
图6示出了根据本发明的另一个实施例的用于将评价对象聚类的装置的示意性结构图;并且
图7示出了可用于实施根据本发明的实施例的计算机的示意性框图。
在附图中,相同或者相应的方法步骤或者部件使用了相同的或者相应的参考标记。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构,而省略了与本发明关系不大的其他细节。
随着博客、论坛、社区等社会化媒体的发展,如何挖掘其中的信息是一个具有科学性和商业性的问题。发明人注意到,对于评价对象(例如产品属性)的信息而言,由于其通常由用户自由撰写,因此对于同一评价对象会有多种词语来表达。例如,在数码相机的评论中“外壳”、“样子”、“外形”等都是指数码相机的外观这一评价对象。措辞的多样化使得抽取出的评价对象信息过于细化、琐碎,不便于用户和商家浏览和总结,也不利于人工分析。因此,发明人研究了如何挖掘评价对象之间的关系,将具有相同、相近含义的评价对象自动归类。
根据本发明的一个实施例,提出了一种用于将评价对象聚类的方法。图1示出了根据本发明的一个实施例的用于将评价对象聚类的方法的流程图。
从图1中可以看到,该方法包括如下步骤:
步骤S110,基于语素提取评价对象的语素特征。
如上面所提及的那样,发明人注意到由于用户的随意性,对于同一评价对象可能会使用多种措辞。目前在分析这些评价对象时通常以词作为最小的语言单位来对两个词语之间的相似度进行衡量,然而对于一些评价对象难以达到令人满意的结果。例如对于评价对象“电池”、“电池续航能力”和“电源”,如果以词为最小单元进行相似度计算,则“电池”和“电池续航能力”之间由于有“电池”而具有一定关联,而“电池”和“电源”,“电池续航能力”和“电源”之间则因为没有共有词而没有关联。然而从常识可以判断,“电池”及“电池续航能力”与“电源”之间实际上是有一定关联的。
为此,发明人注意到,为了进一步挖掘评价对象之间的关联性,可以利用语素作为最小的语言单位来对评价对象之间的相关性进行分析。通过引入语素,可以从比词更小的语言单位获取评价对象之间的关联信息。语素是最小的语法单位,也是最小的语音、语义结合体。语素按音节分类可以分为:单音节语素,双音节语素和多音节语素。单音节语素如土、人、水、风等。双音节语素是指组成该语素的两个音节合起来才有意思,分开来没有与该语素有关的意义,双音节语素主要包括连绵词、外来词和专有名词,如蜻蜓、牡丹、芭蕾等。多音节语素主要是拟声词、专用名词和音译外来词。如:喜马拉雅、珠穆朗玛、法兰克福等。在中文中,语素作为比词语小的语言单位,具有很好的语言显著性。同时,语素在评论信息中出现的频率要高于词语出现的频率,因此选择语素为研究单元在一定程度上还可以对数据稀疏起到缓解作用。
在上面的例子中,对于评价对象“电池”、“电池续航能力”和“电源”,利用语素作为最小的语言单位来进行分析,由于它们三者都具有“电”这一语素,因此可以分析得出它们之间具有一定的关联。同样对于另一评价对象的例子“显示屏”、“屏幕”、“触摸屏”,如果采用词作为最小单位来进行分析,则会认为它们之间没有关联,然而通过利用语素作为最小的语言单位来进行分析,由于它们三者都具有“屏”这一语素,因此可以分析得出它们之间具有一定的关联。
语素是包含在评价对象词内的语言单位,因此可以认为语素是评价对象的一种内部关联特征。
根据图1的方法还包括步骤S130:基于评价对象的上下文提取评价对象的外部关联词语,作为所述评价对象的外部关联特征。
发明人在研究中注意到,在中文产品评论信息中,人们喜欢用简单的句子表达对产品的喜好。评论中的句子主要由被评价对象和评价词构成。以数码相机领域为例,评论信息如下面所示:
Figure BSA00000241162600041
外观漂亮,小巧。
Figure BSA00000241162600042
屏幕超级大,颜色也很绚丽,拍的效果也不错。
Figure BSA00000241162600043
屏幕大,造型时尚。
Figure BSA00000241162600044
造型非常漂亮,电池不耐用。
Figure BSA00000241162600045
触摸屏比较容易脏。
Figure BSA00000241162600046
显示屏大,很好!
可以看出,评论信息中评价词常出现在被评价的评价对象周围,评价词与评价对象之间具有很强的关联程度,评价词对于评价对象之间的关系具有很好的指示作用。研究表明,对于某些语义相近的词语,其上下文信息也具有一定的相似程度,即上下文信息具有很好的指示作用。因此,在对评价对象聚类时如果进一步考虑评价对象的上下文中的评价词,也即考虑评价对象的外部关联特征,则应该可以进一步改进聚类的结果。
例如,“外观”、“造型”两者在以语素作为最小单元时,无法发现其具有内部关联。如果考虑与其关联的评价词,可以发现“漂亮”、“小巧”、“时尚”等评价词常用来修饰外观这一属性,“外观”、“造型”在这一方面具有一定的关联性。这说明了在衡量评价对象之间的外部关联时,评价词具有一定的语义信息来反映评价对象之间的关系。
发明人注意到,程度副词、否定副词虽然可使得倾向性截然相反,然而由于它们可以和多种评价词连用,相当于通用词汇,因此并没有很好的类别指示作用。如常见的程度副词“非常”,否定副词“不”,它们可以修饰“耐用”、“漂亮”等评价词。而“耐用”多用来指电池属性,“漂亮”多指外观属性。这些副词的引入容易使得类别之间的区分度降低。因此优选的是,只采用上下文中出现的评价词作为评价对象的外部关联词语来衡量评价对象的外部关联性,而并未使用所有的词语。
研究表明,人们习惯于在被评价对象附近(例如在同一个句子中)给出对被评价对象的意见,因此,认为与评价对象近距离出现的评价词与该评价对象有关系。例如,可以假设与评价对象相距距离在某个阈值之下的评价内容与该评价对象有关,这里的距离可以是指词的个数。因此,根据本发明的一个实施方式提出了,所述外部关联特征是包括所述评价对象的预定大小的窗口内的评价词。
当然,本领域技术人员也可以使用任何其他可能的方法来确定与评价对象关联的评价词,以作为评价对象的外部关联特征。例如,可以认为与评价对象在同一个句子中的评价词就可能与该评价对象关联,或者也可以使用依存句法分析方法等。其中依存句法分析方法中通过对句子进行句法分析来将句子由线性序列转化为结构化的依存分析数,从而分析各部分信息之间的关联。
在步骤S110中获取评价对象的语素特征并且在步骤S130中获取评价对象的外部关联特征之后,在步骤S150中利用所述语素特征和所述外部关联特征对所述评价对象进行第一聚类。
本领域技术人员知道,可以使用多种聚类算法来进行上述第一聚类。例如可以使用常用的K-Means算法作为聚类算法,也可以采用其他的聚类算法如,K-MEDOIDS算法、CLARANS算法等。下面以K-Means算法作为例子来进行说明。
在K-Means算法中首先接收输入量k(k为自然数);然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足如下条件:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得的一个“中心对象”(引力中心)来进行计算的。
K-Means算法的说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。k个聚类具有以下特点:各聚类本身尽可能地紧凑,而各聚类之间尽可能地分开。
在K-Means算法中,针对每个评价对象xi确定其相应的特征向量Vector(xi)={yi1,yi2,...,yi1,oin,oi2,...,oim},其中yi1,yi2,...,yi1是xi中的语素,oin,oi2,...,oim是与xi的距离在给定窗口内的评价词。窗口设定可以是{-t1,t2},即句子中在xi左面的t1个词和右面的t2个词,也可以是在一个分句内,或在一个句子内。需要说明的是,该特征向量并非局限于只包括上述语素特征和评价词特征,本领域技术人员也可以根据需要引入其他特征,例如评价对象内的词语特征、评价对象上下文的其他词语特征等等。针对特征向量中的每个特征,可以基于评价对象和与该评价对象关联的特征之间的共现关系来确定所述特征的权重。例如可以采用点互信息(PMI)方法来确定特征的权重,当然也可以采用其他本领域技术人员所熟知的方法来确定特征的权重。
在PMI方法中针对向量中的某个特征
Figure BSA00000241162600061
利用下式来计算其权重:
PMI ( f j i , x i ) = log 2 P ( f j i , x i ) P ( f j i ) P ( x i )
其中
Figure BSA00000241162600063
是xi
Figure BSA00000241162600064
在语料中的联合概率,也即xi
Figure BSA00000241162600065
在语料中相互关联地同时出现的概率,
Figure BSA00000241162600066
Figure BSA00000241162600067
在语料中出现的概率,P(xi)是xi在语料中出现的概率。上式的计算结果是对xi
Figure BSA00000241162600068
之间的一种统计依赖关系衡量,因此可以确定相应的特征
Figure BSA00000241162600069
的权重。
随后,基于上述特征向量和向量中的各特征的权重利用K-Means算法得到第一聚类的结果。
这里需要说明的是,虽然在上面的实施例中提出了将评价对象的语素特征和外部关联特征相结合,由此对评价对象来进行第一聚类,然而本领域技术人员容易想到的是,也可能单独地仅仅利用评价对象的语素特征或者评价对象的外部关联特征来对评价对象进行聚类。
另外,也可能的是,在提取评价对象的外部关联词语时,对外部关联词语进行聚类,并将同一类的外部关联词语作为相同的外部关联词语,由此可以进一步提高对评价对象聚类的准确性。
图2示出了根据本发明的另一个实施例的用于将评价对象聚类的方法的流程图。从图中可以看到,图2所示的方法和图1相比,在第一聚类步骤S150之后还进一步包括第二聚类步骤S170。在步骤S170中,将第一聚类的结果作为约束条件,对评价对象进行第二聚类,以获取进一步的聚类结果。
可以根据第一聚类的结果获得两种约束条件:必属于同一类(Must-Link)的约束条件和不属于同一类(Cannot-Link)的约束条件。其中Must-Link的约束条件是指两个评价对象必须在一个类别中,而Cannot-Link的约束条件是指两个评价对象一定不在一个类别中。通过利用这两种约束条件,或者通过利用这两种约束条件其中之一,可以进一步对评价对象进行第二聚类来改进聚类结果。例如,可以使用COP-Kmeans半监督聚类方法来进行第二聚类。该COP-Kmeans半监督聚类方法的思想是将已有知识融入到K-Means算法中。关于该半监督聚类方法的具体描述,可以参见Wagstaff,Kiri等人于2001年所著的Constrainded K-meansClustering with Background Knowledge,Proceedings of 18th InternationalConference on Machine Learning,第577-584页,因此这里不再赘述。
通过引入第二聚类步骤,进一步改进了对评价对象的聚类结果。
在研究中,发明人注意到:高频的评价对象通常会具有更稳定、更丰富的统计信息。因此,如果先选出一定数目的评价对象来进行第一聚类,然后将聚类结果转化为约束条件,随后对所有评价对象进行半监督聚类,则一方面可以在第一聚类步骤中节省资源,而另一方面同样可以实现比较好的聚类结果。图3示出了根据本发明的另一个实施例的用于将评价对象聚类的方法的流程图。从图中可以看到,图3所示的方法和图2相比,在步骤S110之前还包括步骤S100:确定用于第一聚类的评价对象。优选的是,根据评价对象在语料中出现的频度来确定用于第一聚类的评价对象。例如选择在语料中具有高的出现频度的评价对象作为用于第一聚类的评价对象。或者也可以根据评价对象和评价词之间的关系来确定用于第一聚类的评价对象,其理由是,通常评价对象与越多的评价词有关,则该评价对象的语义关系通常越丰富。
因此在步骤S100中确定用于第一聚类的评价对象之后,继续执行提取语素特征、提取外部关联特征、第一聚类、第二聚类等步骤。这些步骤的具体描述可参见前面的实施例,这里不再赘述。区别仅仅在于,在第一聚类步骤中是针对步骤S100中所选择的评价对象来执行,而在第二聚类步骤中则是针对语料中的所有评价对象来执行的。
图4示出了根据本发明的一个实施例的用于将评价对象聚类的装置的示意性结构图。该实施例对应于上面针对图1所描述的方法实施例。
从图中可以看到,该用于将评价对象聚类的装置包括:语素特征提取器410,其被配置用于基于语素提取评价对象的语素特征;外部关联特征提取器430,其被配置用于基于评价对象的上下文提取评价对象的外部关联词语,作为所述评价对象的外部关联特征;以及第一聚类器450,其被配置用于利用所述语素特征和所述外部关联特征对所述评价对象进行第一聚类。其中上述语素特征可以包括评价对象的单音节语素、双音节语素和多音节语素,而所述外部关联特征可以是包括所述评价对象的预定大小的窗口内的评价词。
优选地,外部关联特征提取器430可以包括关联词语聚类器,其被配置用于对所述外部关联词语进行聚类,将同一类的外部关联词语作为相同的外部关联词语,由此可以进一步提高对评价对象聚类的准确性。
优选地,第一聚类器450可以进一步包括特征权重确定器,其被配置用于基于评价对象和与该评价对象关联的特征之间的共现关系来确定所述特征的权重。
关于上述各部件具体如何执行各相应的步骤以及其他相关细节,可以相应地参见上面针对图1所描述的方法实施例,这里不再赘述。
图5示出了根据本发明的另一个实施例的用于将评价对象聚类的装置的示意性结构图。该实施例对应于上面针对图2所描述的方法实施例。与图4相比可以看到,根据该实施例的装置还包括第二聚类器470,其被配置用于将第一聚类的结果作为约束条件,对评价对象进行第二聚类,以获取进一步的聚类结果。关于如何进行第二聚类可以参见上面针对图2所描述的方法实施例,这里不再赘述。
图6示出了根据本发明的另一个实施例的用于将评价对象聚类的装置的示意性结构图。该实施例对应于上面针对图3所描述的方法实施例。从图6中可以看到,该装置还包括评价对象选择器400,其被配置用于根据评价对象在语料中出现的频度或者根据评价对象与评价词之间的关系来确定用于第一聚类的评价对象。相应地,在该实施例中,第一聚类器450针对评价对象选择器400所选择的评价对象来进行第一聚类,而第二聚类器470针对语料中的所有评价对象来进行第二聚类。关于这些具体细节,同样可以参见上面针对图3所描述的方法实施例,这里不再赘述。
上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图7所示的通用计算机700)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,也根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件连接到输入/输出接口705:输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡比如LAN卡、调制解调器等)。通信部分709经由网络比如因特网执行通信处理。根据需要,驱动器710也可连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
通过以上的描述不难看出,根据本发明的实施例,提供了如下的方案:
附记1.一种用于将评价对象聚类的方法,包括:
-基于语素提取评价对象的语素特征;
-基于评价对象的上下文提取评价对象的外部关联词语,作为所述评价对象的外部关联特征;
-利用所述语素特征和所述外部关联特征对所述评价对象进行第一聚类。
附记2.根据附记1所述的方法,其中所述语素特征包括评价对象的单音节语素、双音节语素和多音节语素。
附记3.根据附记1所述的方法,其中所述外部关联特征包括所述评价对象的预定大小的窗口内的评价词。
附记4.根据附记1所述的方法,进一步包括,对所述外部关联词语进行聚类,将同一类的外部关联词语作为相同的外部关联词语。
附记5.如附记1-4之一所述的方法,进一步包括:
-将所述第一聚类的结果作为约束条件,对评价对象进行第二聚类,以获取进一步的聚类结果。
附记6.根据附记1-4之一所述的方法,其中,根据评价对象在语料中出现的频度或者根据评价对象与评价词之间的关系来确定用于第一聚类的评价对象。
附记7.根据附记1-4之一所述的方法,其中基于评价对象和与该评价对象关联的特征之间的共现关系来确定所述特征的权重。
附记8.根据附记5所述的方法,所述约束条件包括必属于同一类的约束条件和不属于同一类的约束条件。
附记9.一种用于将评价对象聚类的装置,包括:
-语素特征提取器(410),其被配置用于基于语素提取评价对象的语素特征;
-外部关联特征提取器(430),其被配置用于基于评价对象的上下文提取评价对象的外部关联词语,作为所述评价对象的外部关联特征;
-第一聚类器(450),其被配置用于利用所述语素特征和所述外部关联特征对所述评价对象进行第一聚类。
附记10.根据附记9所述的装置,其中所述语素特征包括评价对象的单音节语素、双音节语素和多音节语素。
附记11.根据附记9所述的装置,其中所述外部关联特征包括所述评价对象的预定大小的窗口内的评价词。
附记12.根据附记9所述的装置,其中所述外部关联特征提取器(430)包括关联词语聚类器,其被配置用于对所述外部关联词语进行聚类,将同一类的外部关联词语作为相同的外部关联词语。
附记13.如附记9-12之一所述的装置,进一步包括:
-第二聚类器(470),其被配置用于将所述第一聚类的结果作为约束条件,对评价对象进行第二聚类,以获取进一步的聚类结果。
附记14.根据附记9-12之一所述的装置,进一步包括评价对象选择器(400),其被配置用于根据评价对象在语料中出现的频度或者根据评价对象与评价词之间的关系来确定用于第一聚类的评价对象。
附记15.根据附记9-12之一所述的装置,其中第一聚类器(450)进一步包括特征权重确定器,其被配置用于基于评价对象和与该评价对象关联的特征之间的共现关系来确定所述特征的权重。
附记16.根据附记13所述的装置,所述约束条件包括必属于同一类的约束条件和不属于同一类的约束条件。
附记17.一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行如附记1至8中的任一项所述的方法。
附记18.一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行如附记1至8中的任一项所述的方法。

Claims (9)

1.一种用于将评价对象聚类的方法,包括:
-基于语素提取评价对象的语素特征;
-基于评价对象的上下文提取评价对象的外部关联词语,作为所述评价对象的外部关联特征;
-利用所述语素特征和所述外部关联特征对所述评价对象进行第一聚类。
2.一种用于将评价对象聚类的装置,包括:
-语素特征提取器(410),其被配置用于基于语素提取评价对象的语素特征;
-外部关联特征提取器(430),其被配置用于基于评价对象的上下文提取评价对象的外部关联词语,作为所述评价对象的外部关联特征;
-第一聚类器(450),其被配置用于利用所述语素特征和所述外部关联特征对所述评价对象进行第一聚类。
3.根据权利要求2所述的装置,其中所述语素特征包括评价对象的单音节语素、双音节语素和多音节语素。
4.根据权利要求2所述的装置,其中所述外部关联特征包括所述评价对象的预定大小的窗口内的评价词。
5.根据权利要求2所述的装置,其中所述外部关联特征提取器(430)包括关联词语聚类器,其被配置用于对所述外部关联词语进行聚类,将同一类的外部关联词语作为相同的外部关联词语。
6.如权利要求2-5之一所述的装置,进一步包括:
-第二聚类器(470),其被配置用于将所述第一聚类的结果作为约束条件,对评价对象进行第二聚类,以获取进一步的聚类结果。
7.根据权利要求2-5之一所述的装置,进一步包括评价对象选择器(400),其被配置用于根据评价对象在语料中出现的频度或者根据评价对象与评价词之间的关系来确定用于第一聚类的评价对象。
8.根据权利要求2-5之一所述的装置,其中第一聚类器(450)进一步包括特征权重确定器,其被配置用于基于评价对象和与该评价对象关联的特征之间的共现关系来确定所述特征的权重。
9.根据权利要求6所述的装置,所述约束条件包括必属于同一类的约束条件和不属于同一类的约束条件。
CN201010260750.4A 2010-08-17 2010-08-17 评价对象聚类方法和装置 Active CN102375848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010260750.4A CN102375848B (zh) 2010-08-17 2010-08-17 评价对象聚类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010260750.4A CN102375848B (zh) 2010-08-17 2010-08-17 评价对象聚类方法和装置

Publications (2)

Publication Number Publication Date
CN102375848A true CN102375848A (zh) 2012-03-14
CN102375848B CN102375848B (zh) 2016-03-02

Family

ID=45794470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010260750.4A Active CN102375848B (zh) 2010-08-17 2010-08-17 评价对象聚类方法和装置

Country Status (1)

Country Link
CN (1) CN102375848B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577452A (zh) * 2012-07-31 2014-02-12 国际商业机器公司 用于丰富网站内容的方法和装置、网站服务器
CN108268470A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于演化聚类的评论文本分类提取方法
CN109783638A (zh) * 2018-12-17 2019-05-21 南京航空航天大学 一种基于半监督学习的用户评论聚类方法
CN111709226A (zh) * 2020-06-18 2020-09-25 中国银行股份有限公司 一种文本处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004310404A (ja) * 2003-04-07 2004-11-04 Nippon Telegr & Teleph Corp <Ntt> 関連語の抽出装置、関連語の抽出方法、プログラムおよび記憶媒体
CN1855102A (zh) * 2005-03-31 2006-11-01 索尼株式会社 信息处理装置,信息处理方法和程序
CN101593204A (zh) * 2009-06-05 2009-12-02 北京大学 一种基于新闻评论网页的情感倾向性分析系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004310404A (ja) * 2003-04-07 2004-11-04 Nippon Telegr & Teleph Corp <Ntt> 関連語の抽出装置、関連語の抽出方法、プログラムおよび記憶媒体
CN1855102A (zh) * 2005-03-31 2006-11-01 索尼株式会社 信息处理装置,信息处理方法和程序
CN101593204A (zh) * 2009-06-05 2009-12-02 北京大学 一种基于新闻评论网页的情感倾向性分析系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高滢: "多关系聚类分析方法研究", 《中国博士学位论文全文数据库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577452A (zh) * 2012-07-31 2014-02-12 国际商业机器公司 用于丰富网站内容的方法和装置、网站服务器
CN108268470A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于演化聚类的评论文本分类提取方法
CN109783638A (zh) * 2018-12-17 2019-05-21 南京航空航天大学 一种基于半监督学习的用户评论聚类方法
CN109783638B (zh) * 2018-12-17 2021-04-06 南京航空航天大学 一种基于半监督学习的用户评论聚类方法
CN111709226A (zh) * 2020-06-18 2020-09-25 中国银行股份有限公司 一种文本处理方法及装置
CN111709226B (zh) * 2020-06-18 2023-10-13 中国银行股份有限公司 一种文本处理方法及装置

Also Published As

Publication number Publication date
CN102375848B (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
CN110704598B (zh) 一种语句信息的抽取方法、抽取装置及可读存储介质
CN105824922B (zh) 一种融合深层特征和浅层特征的情感分类方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN102012985B (zh) 一种基于数据挖掘的敏感数据动态识别方法
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN104834747A (zh) 基于卷积神经网络的短文本分类方法
CN107193801A (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
JP6335898B2 (ja) 製品認識に基づく情報分類
CN103617157A (zh) 基于语义的文本相似度计算方法
CN108549634A (zh) 一种中文专利文本相似度计算方法
CN108038725A (zh) 一种基于机器学习的电商产品客户满意度分析方法
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
CN109635297A (zh) 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN103064969A (zh) 自动建立关键词索引表的方法
CN103473380B (zh) 一种计算机文本情感分类方法
CN106547875A (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
US20220138424A1 (en) Domain-Specific Phrase Mining Method, Apparatus and Electronic Device
CN103164428A (zh) 确定微博与给定实体的相关性的方法和装置
CN106372640A (zh) 一种字频文本分类方法
CN111160041A (zh) 语义理解方法、装置、电子设备和存储介质
JP5965260B2 (ja) 文書分類プログラム及び文書分類装置
CN102375848A (zh) 评价对象聚类方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant