CN103646097A - 一种基于约束关系的意见目标和情感词联合聚类方法 - Google Patents

一种基于约束关系的意见目标和情感词联合聚类方法 Download PDF

Info

Publication number
CN103646097A
CN103646097A CN201310701519.8A CN201310701519A CN103646097A CN 103646097 A CN103646097 A CN 103646097A CN 201310701519 A CN201310701519 A CN 201310701519A CN 103646097 A CN103646097 A CN 103646097A
Authority
CN
China
Prior art keywords
suggestion
emotion
emotion word
target
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310701519.8A
Other languages
English (en)
Other versions
CN103646097B (zh
Inventor
牛振东
黄胜
刘沙
陈杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201310701519.8A priority Critical patent/CN103646097B/zh
Publication of CN103646097A publication Critical patent/CN103646097A/zh
Application granted granted Critical
Publication of CN103646097B publication Critical patent/CN103646097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于Web评论文本的意见挖掘技术领域,涉及一种基于约束关系的意见目标和情感词联合聚类方法。该方法通过引入意见目标之间的正向和反向约束关系,提供了意见目标之间属于相同特征类或者不同特征类的先验关系,从而在对意见目标集合进行基于特征的聚类过程中,提高意见目标聚类结果的准确率。通过引入情感词之间的正向和反向约束关系,提供了情感词之间关联于相同特征类或者不同特征类的先验关系,从而在对情感词集合按照与评价特征类的关联关系进行聚类的过程中,提高情感词聚类结果的准确率。与传统无约束的意见目标和情感词聚类方法相比,本发明所述方法应归属为有约束的方法。并且在聚类的效果中,准确率提高8.3%,召回率提高7.7%。

Description

一种基于约束关系的意见目标和情感词联合聚类方法
技术领域
本发明属于Web评论文本的意见挖掘技术领域,涉及一种基于约束关系的意见目标和情感词联合聚类方法,用于解决互联网上用户生成的主观性评论文本中意见目标和情感词的聚类问题。 
背景技术
近年来,随着电子商务的快速发展以及网络购物人数的增加,互联网上用户关于商品的意见评论也越来越丰富。用户可以自由地针对意见目标发表自己的主观情感。例如,在数码相机领域的用户评论“The photo quality of Canon camera is excellent”中,意见目标是“photo quality”,用户情感词是“excellent”。由于用户评论的随意性和表达习惯不同,针对同一意见特征,不同的用户可能会采用不同的表达方式。例如,在相机领域中,“photo”与“image”均用于描述照片特征。此外,同一个表达短语在不同领域中也可能描述不同的意见特征。如电影领域中“picture”代表画面特征,而在手机领域中“picture”则表示图片特征。随着Web上用户评论文本的规模日益增大,抽取的意见目标和情感词数也不断扩大,亟需一种对离散的意见目标集合和情感词集合进行自动归类的方法。本发明提出一种基于约束关系的意见目标和情感词的联合聚类方法,对意见目标集合按照意见特征自动归类,对情感词集合按照与意见特征类的关联进行归类。 
现有的意见目标归类方法主要分为基于无监督学习的方法和基于主题建模的方法。早期的研究主要采用无监督学习方法,核心思想是计算意见目标之间的相似度,采用分类算法对意见目标集合进行自动归类。但是,在计算相似度方面,利用人工构建的词汇语义关系的算法准确率不高,因为其忽略了意见目标相似度的领域依赖性,同时也会产生覆盖率不足的问题。基于领域语料库的方法利用意见目标的上下文信息计算相似度,虽然在一定程度上缓解了意见目标相似度的领域依赖性问题,却面临计算空间的高维度和稀疏性问题。 
基于主题建模的方法通过在评论语料上的统计学习,训练主题生成模型, 将生成的主题对应为意见目标类别。然而,这些方法生成的主题粒度较粗,并不能很好地对应细粒度的评价特征类,同时,基于对评论语料统计学习的算法忽略了局部上下文特征。 
发明内容
本发明的目的是为了克服现有用户意见目标和情感词聚类方法的不足,提出了一种基于约束关系的意见目标和情感词联合聚类方法。为了克服传统聚类方法缺乏先验知识和不能有效地利用评论对象的上下文关系的问题,通过引入意见目标之间的正反向约束关系,并且充分挖掘意见目标与情感词之间的关联,引入情感词之间的正反向约束关系,对意见目标和情感词进行联合聚类,从而有效地提高了评论文本中意见目标和情感词的聚类效果。 
本发明所采用的技术方案如下: 
首先对意见目标的约束关系进行定义。 
意见目标的正向约束关系:如果两个意见目标之间存在共同的名词或者名词短语,则定义两者之间存在意见目标的正向约束关系。 
意见目标的反向约束关系:在同一个评论文本单元中,如果意见目标之间存在句子级别上的共现关系,或者意见目标之间具有相反的评价意见倾向,则定义它们之间存在意见目标的反向约束关系。 
其次对情感词的约束关系进行定义。 
已知
Figure BDA0000440932580000021
Figure BDA0000440932580000022
分别表示与情感词oi与oj相关联的的意见目标集合,定义
Figure BDA0000440932580000023
与 
Figure BDA0000440932580000024
之间的重合度Overlap为: 
Overlap ( F o i , F o j ) = | F o i ∩ F o j | | F o i | + | F o j | - | F o i ∩ F o j |
其中,
Figure BDA0000440932580000026
表示对集合
Figure BDA0000440932580000027
取模操作。定义λ1为正向约束阈值参数,λ2为反向约束阈值参数,如果
Figure BDA0000440932580000028
则定义情感词oi和oj之间具有情感词的正向约束关系;如果则定义oi和oj之间具有情感词的反向约束关系。 
根据上述意见目标和情感词的约束关系定义,对意见目标和情感词进行联合聚类。本发明的一种基于约束关系的意见目标和情感词联合聚类方法具体步骤如下: 
步骤1、在用户评论数据中对意见目标、情感词以及情感词对应的意见目标集合进行采集和预处理 
给定用户的评论文本集合,将集合的每一个句子作为一个抽取目标,抽取句子中出现的意见目标词以及对应的情感词。同时,统计出每一个情感词在用户评论文本集合中所修饰和关联的所有意见目标。最后,对抽取的结果进行数据清理,包含重复词过滤,拼写检查和词干化。 
步骤2、在步骤1抽取的意见目标集合基础上,抽取意见目标的正向和反向约束关系 
(1)意见目标的正向约束关系抽取:根据本发明定义的意见目标的正向约束关系,利用词法分析技术抽取意见目标之间的正向约束关系。 
(2)意见目标的反向约束关系抽取:根据本发明定义的意见目标的反向约束关系,在用户评论文本集合中,抽取意见目标之间的反向约束关系。 
(3)冲突消解:抽取的意见目标集合中可能存在着两个结点之间同时存在正向约束和反向约束的情况。当正向约束和反向约束发生冲突时,仅保留出现频率较高的约束关系类型。 
步骤3、在步骤1抽取的情感词集合以及与情感词相关联的意见目标集合的基础上,抽取情感词的正向和反向约束关系 
根据本发明定义的情感词的正向和反向约束关系,利用与情感词相关联的意见目标集合计算情感词之间的重合度,以此来识别情感词之间的正向和反向约束关系。 
步骤4、在步骤2和步骤3的基础上,构建意见目标约束关系矩阵和情感词约束关系矩阵 
(1)根据意见目标集合F中意见目标词之间的正向约束关系构建意见目标的正向约束关系矩阵DF,如下所示: 
其中[DF]ij表示矩阵DF中的元素。fi和fj分别代表意见目标集合F中的两个意见目标词。i和j代表意见目标集合中第i个意见目标和第j个意见目标。 
(2)根据意见目标集合F中意见目标词之间的反向约束关系构建意见目标的反向约束关系矩阵RF,如下所示: 
Figure BDA0000440932580000041
其中[RF]ij表示矩阵RF中的元素。fi和fj分别代表意见目标集合F中的两个意见目标词。i和j代表意见目标集合中第i个意见目标和第j个意见目标。 
(3)根据情感词集合O中情感词之间的正向约束关系构建情感词的正向约束关系矩阵DO,如下所示: 
Figure BDA0000440932580000042
其中[Do]ij表示矩阵Do中的元素。oi和oj分别代表情感词集合O中的两个情感词。i和j代表情感词集合中第i个情感词和第j个情感词。 
(4)根据情感词集合O中情感词之间的反向约束关系构建情感词的反向约束关系矩阵RO,如下所示: 
Figure BDA0000440932580000043
其中[RO]ij表示矩阵RO中的元素。oi和oj分别代表情感词集合O中的两个情感词。i和j代表情感词集合中第i个情感词和第j个情感词。 
步骤5、构建意见目标和情感词关联矩阵 
(1)意见目标与情感词在句子级别的共现关联矩阵构建:以每条评论句为单位,采用互信息公式PMI计算意见目标集合F和情感词集合O之间的句子共现关联矩阵
E ‾ = PMI ( f i , o j ) = log p ( f i , o j ) p ( f i ) * p ( o j )
其中Eij为意见目标fi和情感词oj在句子级别的共现关联度值,p(fi,oj)表示fi和oj在用户评论集合中的共现概率,p(fi)和p(oj)分别表示fi和oj在用户评论集合中单独的出现概率。 
(2)意见目标与情感词在文档级别的共现关联矩阵构建:以用户评论集合中每个用户评论单元为“文档”,意见目标和情感词作为“单词”,采用词频-逆文档频率TF-IDF公式计算意见目标集合F和情感词集合O之间在文档级别的共现关联度矩阵
Figure BDA0000440932580000051
E ~ = W F · W O T
其中
Figure BDA0000440932580000053
表示意见目标fi和情感词oj在文档级别的共现关联度值。矩阵WF表示意见目标词集合F与评论文本集合之间的“特征词-文档”二维矩阵,利用TF-IDF方法计算得到。矩阵WO表示情感词集合O与评论文本集合之间的“特征词-文档”二维矩阵,利用TF-IDF方法计算得到,
Figure BDA0000440932580000054
为WO的转置矩阵。 
(3)意见目标与情感词的关联矩阵构建:综合句子共现关联矩阵
Figure BDA0000440932580000055
和文档共现关联度矩阵
Figure BDA0000440932580000056
计算F和O之间的关联矩阵E如下: 
E = α E ‾ + ( 1 - α ) E ~
其中元素Eij∈E表示fi和oj之间的关联度值,参数0<α<1用于平衡句子共现关联度和文档共现关联度的相对权重。 
步骤6、在步骤4和步骤5的基础上,进行基于约束的联合聚类求解 
本发明应用残值平方和(sum-squared residues)最小化问题的求解策略来进行约束的联合聚类求解。已知意见目标和情感词关联矩阵E,其中行维度表示意见目标,列维度表示情感词,通过一个通用的约束联合聚类求解框架,在初始化行聚类划分矩阵和列聚类划分矩阵之后,迭代地优化行聚类和列聚类直至收敛。 
在元素的划分中,定义集合I包含属于同一个意见目标类的行结点,集合J包含属于同一个情感词类的列结点,则I和J唯一确定子矩阵EIJ∈E,称为联合类(co-cluster)。 
在每次迭代过程中,在满足先验约束条件(意见目标的约束关系矩阵和情感词的约束关系矩阵)的前提下,将行(列)结点划分到距离最近的行(列)类中,使得目标函数值逐步递减。目标函数如下所示: 
| | H | | 2 = &Sigma; I , J | | H IJ | | 2 = &Sigma; I , J &Sigma; i &Element; I , j &Element; J H ij 2
其中,H=[Hij]M×N为意见目标和情感词关联矩阵E对应的残值矩阵,M表示意见目标集合的元素个数,N表示情感词集合的元素个数,||H||表示矩阵H的范数。残值(residue)Hij表示Eij在联合类EIJ上的残值,如下所示: 
H ij = E ij - &Sigma; i &Element; I E ij | I | - &Sigma; j &Element; J E ij | J | + &Sigma; i &Element; I , j &Element; J E ij | I | &CenterDot; | J |
步骤7、根据步骤6的求解结果,将意见目标集合和情感词集合进行类别划分和关联配对 
对用户评论文本的意见目标集合按照意见目标维度聚类后的结果划分类别,对用户评论文本的情感词集合按照情感词维度聚类后的结果划分类别,同时选择具有最大关联概率的意见目标类和情感词类进行配对,构建意见目标类和情感类的关联关系,用于意见挖掘任务中后续的生成评论摘要和产品情感倾向性分析等。 
有益效果 
与传统无约束条件的意见目标和情感词聚类方法相比,本发明从意见目标和情感词两个维度进行联合聚类,在聚类过程中加入了意见目标和情感词之间的约束关系。通过实验证明,本发明所述方法在聚类准确率指标上提高8.3%,召回率指标中提高7.7%。从划分的结果上看,每一个意见目标类能够更加准确地表达产品的一方面属性特征,同时与该意见目标类相关联的情感词类能够更多地覆盖修饰该产品属性的常用形容词。 
附图说明
图1为聚类过程流程图; 
图2为意见目标与情感词结点之间的关联及约束关系示例; 
图3为情感词约束关系判别流程图。 
具体实施方式
下面结合附图和实施实例对本发明的技术方案做进一步的详细描述。 
以互联网上数码相机的评论数据为例,利用本发明中基于约束的网络意见目标联合聚类方法,对评论中的意见目标和情感词进行聚类,其流程如附图1所示。 
一、在用户评论数据中对意见目标、情感词以及情感词对应的意见目标集合进行采集和预处理 
从亚马逊网站(www.amzon.com)中采集关于Canon A2500型号数码相机的所有用户评价内容。每一条用户的评论作为一个独立的评论文本单位,抽取每个评论句子中出现的意见目标词及对应的情感词。同时,统计出每一个情感词在用户评论文本中所修饰和关联的所有意见目标集合。对抽取的结果进行数据清理,包含重复词过滤,拼写检查和词干化。在实际方案中,抽取方式可以采用人工标注的方法,也可以利用细粒度意见挖掘系统进行自动抽取。 
例如,评论文本单元为:“The
Figure BDA0000440932580000074
is exquisite,the
Figure BDA0000440932580000075
is easy and theis OK.…”。句子中,我们用斜体加粗表示意见目标,下划线表示情感词。这里,抽取的意见目标包括“appearance”,“operation”,“photo effect”等,情感词为“exquisite”,“easy”,“OK”等。利用F表示抽取的意见目标词集合F={f1,f2,…,fM},O表示抽取的情感词集合O={o1,o2,…,oN}。M表示意见目标集合的元素个数,N表示情感词集合的元素个数。 
对于情感词集合O中的每一个情感词oi,根据评价文本单元句子中意见目标和相关联的情感词的距离,统计出与该情感词相关联的所有意见目标的集合 例如:情感词“exquisite”相关联的意见目标集合
Figure BDA0000440932580000072
情感词easy相关联的意见目标集合
Figure BDA0000440932580000073
二、抽取意见目标的约束关系 
在实际方案中,抽取意见目标正向约束关系的方法为: 
在目标集合F中,利用词法关系抽取意见目标之间的正向约束关系。在去除代词和常用的停用词之后,如果两个意见目标之间存在共同的名词或者名词短语,则两者之间标记为意见目标的正向约束关系。例如意见目标词“battery life”与“battery charger”含有共同的名词“battery”,因此这两个词被标记成意见目标的正向约束关系。 
在实际方案中,抽取意见目标反向约束关系的方法为: 
首先利用意见目标之间在评论句子级别上的共现关系,抽取意见目标之间的反向约束关系。如果一个评论句中出现多个意见目标词,则这些词被标注为反向约束关系。如评论句子“this camera has an absolutely amazing
Figure BDA0000440932580000077
are top notch,
Figure BDA0000440932580000078
is incredible and great
Figure BDA0000440932580000079
is possible as well”,抽取的意见目标分别为“zoom”、“optics”、“macro mode”和“video recording”。由于这三个意见目标在同一个评论句子中出现,则这三个意见目标相互之间具有意见目 标的反向约束关系。 
其次利用属于同一特征类的意见目标之间在局部评价文本单元范围内存在的局部情感倾向一致性关系,抽取意见目标之间的反向约束关系。 
如在同一个用户评价文本中的两个句子 
(a)“The
Figure BDA0000440932580000088
is big.” 
(b)“The
Figure BDA0000440932580000089
is poor to use.” 
意见目标词screen与battery life存在相反的情感倾向,则定义这两个意见目标词之间为意见目标的反向约束关系。 
抽取的意见目标约束关系参见附图2。 
三、抽取情感词的约束关系 
结合附图3,情感词的约束关系需要借助与情感词相关联的意见目标集合进行判定。对于两个情感词,计算与情感词关联的意见目标集合的重合度值。当重合度值大于正向约束阈值参数时,情感词之间满足正向约束关系;当重合度值小于反向约束阈值参数时,情感词之间满足反向约束关系。重合度计算公式如下: 
Overlap ( F o i , F o j ) = | F o i &cap; F o j | | F o i | + | F o j | - | F o i &cap; F o j |
通常,正向约束阈值参数λ1通常在[0.7,1]范围内取值,λ2通常在[0,0.3]范围内取值。在实际方案中,λ1经验地取值为0.8,λ2的值为0。例如计算情感词“beautiful”与“elegant”之间的约束关系: 
Obeautiful修饰的意见目标词集为 
F O beautiful = { interface , design , screen , appearance , style }
Oelegant修饰的意见目标词集为 
F O elegant = { interface , design , appearance , style }
由意见目标集合可以得到: | F O beautiful &cap; F O elegant | = 4 , | F O beautiful | = 5 , | F O elegant | = 4 . 则它们之间的重合度为 Overlap ( F O beautiful , F O elegant ) = 0.8 > = &lambda; 1 属于正向约束关系。 
抽取的情感词约束关系参见附图2。 
四、构建意见目标约束关系矩阵和情感词约束关系矩阵 
通过抽取得意见目标约束关系和情感词约束关系,构建意见目标约束关系矩阵和情感词约束关系矩阵。 
1.根据意见目标集合F中意见目标词之间的正向约束关系,构建意见目标的正向约束关系矩阵DF如下所示: 
Figure BDA0000440932580000091
2.根据意见目标集合F中意见目标词之间的反向约束关系,构建意见目标的反向约束关系矩阵RF如下所示: 
Figure BDA0000440932580000092
3.根据情感词集合O中情感词之间的正向约束关系,构建情感词的正向约束关系矩阵DO如下: 
4.根据情感词集合O中情感词之间的反向约束关系,构建情感词的反向约束关系矩阵RO如下所示: 
Figure BDA0000440932580000094
在实际方案中,例如抽取意见目标集合F={design,screen,appearance},并且“design”与“screen”存在反向约束关系,“appearance”与“screen”存在正向约束关系,O表示抽取的情感词集合O={big,beautiful,expensive},“beautiful”与“expensive”存在反向约束关系,其余词无关系。构造意见目标正向约束矩阵DF,意见目标反向约束矩阵RF,情感词正向约束矩阵DO,情感词反向约束矩阵RO如下所示(矩阵元素顺序按照集合中的元素顺序): 
D F = 0 0 0 0 0 1 0 1 0 R F = 0 1 0 1 0 0 0 0 0
D O = 0 0 0 0 0 0 0 0 0 R O = 0 0 0 0 0 1 0 1 0
五、构建意见目标和情感词关联矩阵 
1.意见目标与情感词在句子级别的共现关联矩阵构建:以每条评论句为单位,采用互信息公式PMI计算意见目标集合F和情感词集合O之间的句子共现关联矩阵
Figure BDA0000440932580000103
E &OverBar; = PMI ( f i , o j ) = log p ( f i , o j ) p ( f i ) * p ( o j )
其中Eij为意见目标fi和情感词oj在句子级别的共现关联度值,p(fi,oj)表示fi和oj在用户评论集合中的共现概率,p(fi)和p(oj)分别表示fi和oj在用户评论集合中单独的出现概率。 
在实际方案中,p(fi,oj)可以用意见目标fi和情感词oj在句子中共同出现的评论句子数量来表达,p(fi)和p(oj)直接统计每个词在语料库句子中出现的频率。 
例如意见目标词“screen”和情感词“big”在评论数据文本里的8个评论句子中共同出现过,因此p(fscreen,obig)=8。“screen”在语料库句子中单独出现10次,p(fscreen)=10。“big”在语料库句子中单独出现15次,p(obig)=15。由此可以计算出PMI(fscreen,obig)的实际值。 
2.意见目标与情感词在文档级别的共现关联矩阵构建:以用户评论集合中每个用户评论单元为“文档”,意见目标和情感词作为“单词”,采用词频-逆文档频率TF-IDF公式计算意见目标集合F和情感词集合O之间在文档级别的共现关联度矩阵
Figure BDA0000440932580000105
E ~ = W F &CenterDot; W O T
其中
Figure BDA0000440932580000107
表示意见目标fi和情感词oj在文档级别的共现关联度值。矩阵WF表示意见目标词集合F与评论文本集合之间的“特征词-文档”二维矩阵,利用TF-IDF方法计算得到。矩阵WO表示情感词集合O与评论文本集合之间的“特征词-文档”二维矩阵,利用TF-IDF方法计算得到,
Figure BDA0000440932580000108
为WO的转置矩阵。 
3.意见目标与情感词的关联矩阵构建:综合句子共现关联矩阵和文档共现关联度矩阵
Figure BDA00004409325800001010
计算F和O之间的关联矩阵E如下: 
E = &alpha; E &OverBar; + ( 1 - &alpha; ) E ~
其中元素Eij∈E表示fi和oj之间的关联度值,参数0<α<1用于平衡句子共 现关联度和文档共现关联度的相对权重。 
六、进行基于约束的联合聚类求解 
在实际方案中,假设意见目标集合F中包含k个产品特征类,情感词集合包含l个关联于产品特征类的情感词类。基于约束的联合聚类旨在满足意见目标之间约束关系矩阵DF和RF以及情感词之间约束关系矩阵DO和RO的条件下,将F划分为k个产品特征类,将O划分为l个关联于产品特征类的情感词类。本方案中取l=k,下面表示意见目标类和情感词类之间的对应关系。 
c F : { f 1 , f 2 , . . . , f M } &RightArrow; { f ^ 1 , f ^ 1 , . . . , f ^ k }
c O : { O 1 , O 2 , . . . , O N } &RightArrow; { O ^ 1 , O ^ 2 , . . . , O ^ l }
CF和CO表示一个聚类的映射。
Figure BDA0000440932580000113
Figure BDA0000440932580000114
表示最终的意见目标类i以及最终的情感词类j。 
对于聚类的优化问题有很多种解决方法,本发明应用残值平方和(sum-squared residues)最小化问题的求解策略来进行约束的联合聚类的求解。已知意见目标和情感词关联矩阵E,其中行维度表示意见目标,列维度表示情感词,通过一个通用的约束联合聚类求解框架,在初始化行聚类划分矩阵和列聚类划分矩阵之后,迭代地优化行聚类和列聚类直至收敛。 
在元素的划分中,定义集合I包含属于同一个意见目标类的行结点,集合J包含属于同一个情感词类的列结点,则I和J唯一确定子矩阵EIJ∈E,称为联合类(co-cluster)。 
在每次迭代过程中,在满足先验约束条件(意见目标的约束关系矩阵和情感词的约束关系矩阵)的前提下,将行(列)结点划分到距离最近的行(列)类中,使得目标函数值逐步递减。目标函数如下所示: 
| | H | | 2 = &Sigma; I , J | | H IJ | | 2 = &Sigma; I , J &Sigma; i &Element; I , j &Element; J H ij 2
其中,H=[Hij]M×N为意见目标和情感词关联矩阵E对应的残值矩阵,M表示意见目标集合的元素个数,N表示情感词集合的元素个数,||H||表示矩阵H的范数。残值(residue)Hij表示Eij在联合类EIJ上的残值,如下所示: 
H ij = E ij - &Sigma; i &Element; I E ij | I | - &Sigma; j &Element; J E ij | J | + &Sigma; i &Element; I , J &Element; J E ij | I | &CenterDot; | J |
七、将意见目标集合和情感词集合进行类别划分和关联配对 
对用户评论文本的意见目标集合按照意见目标维度聚类后的结果划分类别,对用户评论文本的情感词集合按照情感词维度聚类后的结果划分类别,同时选择具有最大关联概率的意见目标类和情感词类进行配对,构建意见目标类和情感类的关联关系。 
在实际方案中,预期的聚类后的意见目标和情感词划分如下表所示 
意见目标 情感词
style,button,appearance,effect,frame,sensation extravagant,precious,elegant,novel
luminance,plasma,articulation,resolution ratio outstanding,clear,nature,fast,fluency
audio,noise,stereo,perception track soft,lively,loud and clear,pure
price,market,need,specification suitable,easy,high,enough,practical,small
第一列描述意见目标,第二列描述情感词。其中,第一行(不包含标题)的意见目标描述该型号相机样式和外观等特征,第一行的情感词描述样式和外观等特征的常用形容词。第二行的意见目标描述该型号相机的屏幕的一些特征,而相应的第二行的情感词是描述屏幕属性的形容词。 

Claims (4)

1.一种基于约束关系的意见目标和情感词联合聚类方法,其特征在于, 
首先对意见目标的约束关系进行定义: 
意见目标的正向约束关系:如果两个意见目标之间存在共同的名词或者名词短语,则定义两者之间存在意见目标的正向约束关系; 
意见目标的反向约束关系:在同一个评论文本单元中,如果意见目标之间存在句子级别上的共现关系,或者意见目标之间具有相反的评价意见倾向,则定义它们之间存在意见目标的反向约束关系; 
其次对情感词的约束关系进行定义; 
已知
Figure FDA0000440932570000012
分别表示与情感词oi与oj相关联的的意见目标集合,定义
Figure FDA0000440932570000013
与 
Figure FDA0000440932570000014
之间的重合度Overlap为: 
其中,
Figure FDA0000440932570000016
表示对集合
Figure FDA0000440932570000017
取模操作;定义λ1为正向约束阈值参数,λ2为反向约束阈值参数,如果则定义情感词oi和oj之间具有情感词的正向约束关系;如果
Figure FDA0000440932570000019
则定义oi和oj之间具有情感词的反向约束关系; 
根据上述意见目标和情感词的约束关系定义,对意见目标和情感词进行基于约束关系的联合聚类,具体步骤如下: 
步骤1、在用户评论数据中对意见目标、情感词以及情感词对应的意见目标集合进行采集和预处理 
步骤2、在步骤1抽取的意见目标集合基础上,抽取意见目标的正向和反向约束关系 
(1)意见目标的正向约束关系抽取:根据本发明定义的意见目标的正向约束关系,利用词法分析技术抽取意见目标之间的正向约束关系; 
(2)意见目标的反向约束关系抽取:根据本发明定义的意见目标的反向约束关系,在用户评论文本集合中,抽取意见目标之间的反向约束关系; 
(3)冲突消解:抽取的意见目标集合中可能存在着两个结点之间同时存在正 向约束和反向约束的情况;当正向约束和反向约束发生冲突时,仅保留出现频率较高的约束关系类型; 
步骤3、在步骤1抽取的情感词集合以及与情感词相关联的意见目标集合的基础上,抽取情感词的约束关系 
根据本发明定义的情感词的正向和反向约束关系,利用与情感词相关联的意见目标集合计算情感词之间的重合度,以此来识别情感词之间的正向和反向约束关系; 
步骤4、在步骤2和步骤3的基础上,构建意见目标约束关系矩阵和情感词约束关系矩阵 
(1)根据意见目标集合F中意见目标词之间的正向约束关系构建意见目标的正向约束关系矩阵DF,如下所示: 
Figure FDA0000440932570000021
其中[DF]ij表示矩阵DF中的元素;fi和fj分别代表意见目标集合F中的两个意见目标词;i和j代表意见目标集合中第i个意见目标和第j个意见目标; 
(2)根据意见目标集合F中意见目标词之间的反向约束关系构建意见目标的反向约束关系矩阵RF,如下所示: 
Figure FDA0000440932570000022
其中[RF]ij表示矩阵RF中的元素;fi和fj分别代表意见目标集合F中的两个意见目标词;i和j代表意见目标集合中第i个意见目标和第j个意见目标; 
(3)根据情感词集合O中情感词之间的正向约束关系构建情感词的正向约束关系矩阵DO,如下所示: 
Figure FDA0000440932570000023
其中[Do]ij表示矩阵Do中的元素;oi和oj分别代表情感词集合O中的两 个情感词;i和j代表情感词集合中第i个情感词和第j个情感词; 
(4)根据情感词集合O中情感词之间的反向约束关系构建情感词的反向约束关系矩阵RO,如下所示: 
Figure FDA0000440932570000031
其中[RO]ij表示矩阵RO中的元素;oi和oj分别代表情感词集合O中的两个情感词;i和j代表情感词集合中第i个情感词和第j个情感词; 
步骤5、构建意见目标和情感词关联矩阵 
步骤6、在步骤4和步骤5的基础上,进行基于约束的联合聚类求解 
步骤7、根据步骤6的求解结果,将意见目标集合和情感词集合进行类别划分和关联配对 
对用户评论文本的意见目标集合按照意见目标维度聚类后的结果划分类别,对用户评论文本的情感词集合按照情感词维度聚类后的结果划分类别,同时选择具有最大关联概率的意见目标类和情感词类进行配对,构建意见目标类和情感类的关联关系,用于意见挖掘任务中后续的生成评论摘要和产品情感倾向性分析等。
2.根据权利要求1所述的一种基于约束关系的意见目标和情感词联合聚类方法,其特征在于,步骤1中给定用户的评论文本集合,是将集合的每一个句子作为一个抽取目标,抽取句子中出现的意见目标词以及对应的情感词;同时,统计出每一个情感词在用户评论文本集合中所修饰和关联的所有意见目标;最后,对抽取的结果进行数据清理,包含重复词过滤,拼写检查和词干化。 
3.根据权利要求1所述的一种基于约束关系的意见目标和情感词联合聚类方法,其特征在于,步骤5中意见目标和情感词之间的关联矩阵的构造可以采用如下方法: 
(1)意见目标与情感词在句子级别的共现关联矩阵构建:以每条评论句为单位,采用互信息公式PMI计算意见目标集合F和情感词集合O之间的句子共现关联矩阵
Figure FDA0000440932570000033
其中Eij为意见目标fi和情感词oj在句子级别的共现关联度值,p(fi,oj)表示fi和oj在用户评论集合中的共现概率,p(fi)和p(oj)分别表示fi和oj在用户评论集合 中单独的出现概率; 
(2)意见目标与情感词在文档级别的共现关联矩阵构建:以用户评论集合中每个用户评论单元为“文档”,意见目标和情感词作为“单词”,采用词频-逆文档频率TF-IDF公式计算意见目标集合F和情感词集合O之间在文档级别的共现关联度矩阵
Figure FDA0000440932570000041
Figure FDA0000440932570000042
其中
Figure FDA0000440932570000043
表示意见目标fi和情感词oj在文档级别的共现关联度值;矩阵WF表示意见目标词集合F与评论文本集合之间的“特征词-文档”二维矩阵,利用TF-IDF方法计算得到;矩阵WO表示情感词集合O与评论文本集合之间的“特征词-文档”二维矩阵,利用TF-IDF方法计算得到,为WO的转置矩阵; 
(3)意见目标与情感词的关联矩阵构建:综合句子共现关联矩阵和文档共现关联度矩阵
Figure FDA0000440932570000048
计算F和O之间的关联矩阵E如下: 
Figure FDA0000440932570000045
其中元素Eij∈E表示fi和oj之间的关联度值,参数0<α<1用于平衡句子共现关联度和文档共现关联度的相对权重; 
对于意见目标和情感词之间的关联矩阵的构造也可以采用其他类似的方法。 
4.根据权利要求1所述的一种基于约束关系的意见目标和情感词联合聚类方法,其特征在于,步骤6中基于约束的联合聚类求解可以采用如下方法: 
应用残值平方和(sum-squared residues)最小化问题的求解策略来进行约束的联合聚类求解;已知意见目标和情感词关联矩阵E,其中行维度表示意见目标,列维度表示情感词,通过一个通用的约束联合聚类求解框架,在初始化行聚类划分矩阵和列聚类划分矩阵之后,迭代地优化行聚类和列聚类直至收敛; 
在元素的划分中,定义集合I包含属于同一个意见目标类的行结点,集合J包含属于同一个情感词类的列结点,则I和J唯一确定子矩阵EIJ∈E,称为联合类(co-cluster); 
在每次迭代过程中,在满足先验约束条件(意见目标的约束关系矩阵和情感词的约束关系矩阵)的前提下,将行(列)结点划分到距离最近的行(列)类中,使得目标函数值逐步递减;目标函数如下所示: 
Figure FDA0000440932570000046
其中,H=[Hij]M×N为意见目标和情感词关联矩阵E对应的残值矩阵,M表示意见目标集合的元素个数,N表示情感词集合的元素个数,||H||表示矩阵H的范数;残值(residue)Hij表示Eij在联合类EIJ上的残值,如下所示: 
Figure FDA0000440932570000051
对于基于约束的联合聚类求解也可以采用其他类似的方法。 
CN201310701519.8A 2013-12-18 2013-12-18 一种基于约束关系的意见目标和情感词联合聚类方法 Active CN103646097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310701519.8A CN103646097B (zh) 2013-12-18 2013-12-18 一种基于约束关系的意见目标和情感词联合聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310701519.8A CN103646097B (zh) 2013-12-18 2013-12-18 一种基于约束关系的意见目标和情感词联合聚类方法

Publications (2)

Publication Number Publication Date
CN103646097A true CN103646097A (zh) 2014-03-19
CN103646097B CN103646097B (zh) 2016-09-07

Family

ID=50251311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310701519.8A Active CN103646097B (zh) 2013-12-18 2013-12-18 一种基于约束关系的意见目标和情感词联合聚类方法

Country Status (1)

Country Link
CN (1) CN103646097B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260356A (zh) * 2015-10-10 2016-01-20 西安交通大学 基于多任务学习的中文交互文本情感与话题识别方法
CN106294506A (zh) * 2015-06-10 2017-01-04 华中师范大学 领域自适应的观点数据分类方法及装置
CN108763214A (zh) * 2018-05-30 2018-11-06 河海大学 一种针对商品评论的情感词典自动构建方法
CN108763226A (zh) * 2016-06-28 2018-11-06 大连民族大学 商品评论要素的抽取方法
CN110490667A (zh) * 2019-08-26 2019-11-22 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN111767389A (zh) * 2020-05-22 2020-10-13 湖南正宇软件技术开发有限公司 一种根据提案内容推荐办案单位的方法和装置
CN111859898A (zh) * 2019-04-16 2020-10-30 中森云链(成都)科技有限责任公司 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质
CN113157899A (zh) * 2021-05-27 2021-07-23 东莞心启航联贸网络科技有限公司 一种大数据画像分析方法、服务器及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344890A (zh) * 2008-08-22 2009-01-14 清华大学 一种基于观点检索的信息检索文档的评分方法
US20100114901A1 (en) * 2008-11-03 2010-05-06 Rhee Young-Ho Computer-readable recording medium, content providing apparatus collecting user-related information, content providing method, user-related information providing method and content searching method
CN102890702A (zh) * 2012-07-19 2013-01-23 中国人民解放军国防科学技术大学 一种面向网络论坛的意见领袖挖掘方法
CN103064971A (zh) * 2013-01-05 2013-04-24 南京邮电大学 一种基于评分和中文情感分析的垃圾评论检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344890A (zh) * 2008-08-22 2009-01-14 清华大学 一种基于观点检索的信息检索文档的评分方法
US20100114901A1 (en) * 2008-11-03 2010-05-06 Rhee Young-Ho Computer-readable recording medium, content providing apparatus collecting user-related information, content providing method, user-related information providing method and content searching method
CN102890702A (zh) * 2012-07-19 2013-01-23 中国人民解放军国防科学技术大学 一种面向网络论坛的意见领袖挖掘方法
CN103064971A (zh) * 2013-01-05 2013-04-24 南京邮电大学 一种基于评分和中文情感分析的垃圾评论检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
庞俊: "基于确定话题和情感极性的博客文本聚类研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
李实等: "挖掘中文网络客户评论的产品特征及情感倾向", 《计算机应用研究》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294506B (zh) * 2015-06-10 2020-04-24 华中师范大学 领域自适应的观点数据分类方法及装置
CN106294506A (zh) * 2015-06-10 2017-01-04 华中师范大学 领域自适应的观点数据分类方法及装置
CN105260356B (zh) * 2015-10-10 2018-02-06 西安交通大学 基于多任务学习的中文交互文本情感与话题识别方法
CN105260356A (zh) * 2015-10-10 2016-01-20 西安交通大学 基于多任务学习的中文交互文本情感与话题识别方法
CN108763226A (zh) * 2016-06-28 2018-11-06 大连民族大学 商品评论要素的抽取方法
CN108763214A (zh) * 2018-05-30 2018-11-06 河海大学 一种针对商品评论的情感词典自动构建方法
CN108763214B (zh) * 2018-05-30 2021-09-24 河海大学 一种针对商品评论的情感词典自动构建方法
CN111859898A (zh) * 2019-04-16 2020-10-30 中森云链(成都)科技有限责任公司 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质
CN111859898B (zh) * 2019-04-16 2024-01-16 中森云链(成都)科技有限责任公司 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质
CN110490667A (zh) * 2019-08-26 2019-11-22 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110490667B (zh) * 2019-08-26 2023-07-21 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN111767389A (zh) * 2020-05-22 2020-10-13 湖南正宇软件技术开发有限公司 一种根据提案内容推荐办案单位的方法和装置
CN113157899A (zh) * 2021-05-27 2021-07-23 东莞心启航联贸网络科技有限公司 一种大数据画像分析方法、服务器及可读存储介质
CN113157899B (zh) * 2021-05-27 2022-01-14 叉烧(上海)新材料科技有限公司 一种大数据画像分析方法、服务器及可读存储介质

Also Published As

Publication number Publication date
CN103646097B (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
CN103646097B (zh) 一种基于约束关系的意见目标和情感词联合聚类方法
CN110825876B (zh) 电影评论观点情感倾向性分析方法
CN102165435B (zh) 使用因特网语料库的自动上下文相关语言产生、校正和增强
US11675981B2 (en) Neural network systems and methods for target identification from text
CN105117428A (zh) 一种基于词语对齐模型的web评论情感分析方法
CN103870001B (zh) 一种生成输入法候选项的方法及电子装置
Li et al. Recursive deep learning for sentiment analysis over social data
CN107544959B (zh) 一种评价对象的提取方法和装置
Wang et al. Multi-modal knowledge graphs representation learning via multi-headed self-attention
WO2021217772A1 (zh) 基于ai的面试语料分类方法、装置、计算机设备和介质
CN103473380A (zh) 一种计算机文本情感分类方法
Fu et al. Bag of meta-words: A novel method to represent document for the sentiment classification
Feng et al. Dialogue discourse-aware graph convolutional networks for abstractive meeting summarization
Tiwari et al. Ensemble approach for twitter sentiment analysis
Lai et al. Transconv: Relationship embedding in social networks
CN110110220A (zh) 融合社交网络和用户评价的推荐模型
CN113297387B (zh) 一种基于nkd-gnn的图文不匹配新闻检测方法
Jin et al. Towards improving coherence and diversity of slogan generation
Jin et al. Combining user-based and global lexicon features for sentiment analysis in twitter
Gao et al. Sentiment classification of time-sync comments: A semi-supervised hierarchical deep learning method
Rajendran et al. Is something better than nothing? automatically predicting stance-based arguments using deep learning and small labelled dataset
Compiani et al. Demand Estimation with Text and Image Data
Soni et al. Comparative analysis of rotten tomatoes movie reviews using sentiment analysis
CN113449517A (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
CN116958997B (zh) 一种基于异质图神经网络的图文摘要方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant