CN103646097A - 一种基于约束关系的意见目标和情感词联合聚类方法 - Google Patents
一种基于约束关系的意见目标和情感词联合聚类方法 Download PDFInfo
- Publication number
- CN103646097A CN103646097A CN201310701519.8A CN201310701519A CN103646097A CN 103646097 A CN103646097 A CN 103646097A CN 201310701519 A CN201310701519 A CN 201310701519A CN 103646097 A CN103646097 A CN 103646097A
- Authority
- CN
- China
- Prior art keywords
- suggestion
- emotion
- emotion word
- target
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于Web评论文本的意见挖掘技术领域,涉及一种基于约束关系的意见目标和情感词联合聚类方法。该方法通过引入意见目标之间的正向和反向约束关系,提供了意见目标之间属于相同特征类或者不同特征类的先验关系,从而在对意见目标集合进行基于特征的聚类过程中,提高意见目标聚类结果的准确率。通过引入情感词之间的正向和反向约束关系,提供了情感词之间关联于相同特征类或者不同特征类的先验关系,从而在对情感词集合按照与评价特征类的关联关系进行聚类的过程中,提高情感词聚类结果的准确率。与传统无约束的意见目标和情感词聚类方法相比,本发明所述方法应归属为有约束的方法。并且在聚类的效果中,准确率提高8.3%,召回率提高7.7%。
Description
技术领域
本发明属于Web评论文本的意见挖掘技术领域,涉及一种基于约束关系的意见目标和情感词联合聚类方法,用于解决互联网上用户生成的主观性评论文本中意见目标和情感词的聚类问题。
背景技术
近年来,随着电子商务的快速发展以及网络购物人数的增加,互联网上用户关于商品的意见评论也越来越丰富。用户可以自由地针对意见目标发表自己的主观情感。例如,在数码相机领域的用户评论“The photo quality of Canon camera is excellent”中,意见目标是“photo quality”,用户情感词是“excellent”。由于用户评论的随意性和表达习惯不同,针对同一意见特征,不同的用户可能会采用不同的表达方式。例如,在相机领域中,“photo”与“image”均用于描述照片特征。此外,同一个表达短语在不同领域中也可能描述不同的意见特征。如电影领域中“picture”代表画面特征,而在手机领域中“picture”则表示图片特征。随着Web上用户评论文本的规模日益增大,抽取的意见目标和情感词数也不断扩大,亟需一种对离散的意见目标集合和情感词集合进行自动归类的方法。本发明提出一种基于约束关系的意见目标和情感词的联合聚类方法,对意见目标集合按照意见特征自动归类,对情感词集合按照与意见特征类的关联进行归类。
现有的意见目标归类方法主要分为基于无监督学习的方法和基于主题建模的方法。早期的研究主要采用无监督学习方法,核心思想是计算意见目标之间的相似度,采用分类算法对意见目标集合进行自动归类。但是,在计算相似度方面,利用人工构建的词汇语义关系的算法准确率不高,因为其忽略了意见目标相似度的领域依赖性,同时也会产生覆盖率不足的问题。基于领域语料库的方法利用意见目标的上下文信息计算相似度,虽然在一定程度上缓解了意见目标相似度的领域依赖性问题,却面临计算空间的高维度和稀疏性问题。
基于主题建模的方法通过在评论语料上的统计学习,训练主题生成模型, 将生成的主题对应为意见目标类别。然而,这些方法生成的主题粒度较粗,并不能很好地对应细粒度的评价特征类,同时,基于对评论语料统计学习的算法忽略了局部上下文特征。
发明内容
本发明的目的是为了克服现有用户意见目标和情感词聚类方法的不足,提出了一种基于约束关系的意见目标和情感词联合聚类方法。为了克服传统聚类方法缺乏先验知识和不能有效地利用评论对象的上下文关系的问题,通过引入意见目标之间的正反向约束关系,并且充分挖掘意见目标与情感词之间的关联,引入情感词之间的正反向约束关系,对意见目标和情感词进行联合聚类,从而有效地提高了评论文本中意见目标和情感词的聚类效果。
本发明所采用的技术方案如下:
首先对意见目标的约束关系进行定义。
意见目标的正向约束关系:如果两个意见目标之间存在共同的名词或者名词短语,则定义两者之间存在意见目标的正向约束关系。
意见目标的反向约束关系:在同一个评论文本单元中,如果意见目标之间存在句子级别上的共现关系,或者意见目标之间具有相反的评价意见倾向,则定义它们之间存在意见目标的反向约束关系。
其次对情感词的约束关系进行定义。
根据上述意见目标和情感词的约束关系定义,对意见目标和情感词进行联合聚类。本发明的一种基于约束关系的意见目标和情感词联合聚类方法具体步骤如下:
步骤1、在用户评论数据中对意见目标、情感词以及情感词对应的意见目标集合进行采集和预处理
给定用户的评论文本集合,将集合的每一个句子作为一个抽取目标,抽取句子中出现的意见目标词以及对应的情感词。同时,统计出每一个情感词在用户评论文本集合中所修饰和关联的所有意见目标。最后,对抽取的结果进行数据清理,包含重复词过滤,拼写检查和词干化。
步骤2、在步骤1抽取的意见目标集合基础上,抽取意见目标的正向和反向约束关系
(1)意见目标的正向约束关系抽取:根据本发明定义的意见目标的正向约束关系,利用词法分析技术抽取意见目标之间的正向约束关系。
(2)意见目标的反向约束关系抽取:根据本发明定义的意见目标的反向约束关系,在用户评论文本集合中,抽取意见目标之间的反向约束关系。
(3)冲突消解:抽取的意见目标集合中可能存在着两个结点之间同时存在正向约束和反向约束的情况。当正向约束和反向约束发生冲突时,仅保留出现频率较高的约束关系类型。
步骤3、在步骤1抽取的情感词集合以及与情感词相关联的意见目标集合的基础上,抽取情感词的正向和反向约束关系
根据本发明定义的情感词的正向和反向约束关系,利用与情感词相关联的意见目标集合计算情感词之间的重合度,以此来识别情感词之间的正向和反向约束关系。
步骤4、在步骤2和步骤3的基础上,构建意见目标约束关系矩阵和情感词约束关系矩阵
(1)根据意见目标集合F中意见目标词之间的正向约束关系构建意见目标的正向约束关系矩阵DF,如下所示:
其中[DF]ij表示矩阵DF中的元素。fi和fj分别代表意见目标集合F中的两个意见目标词。i和j代表意见目标集合中第i个意见目标和第j个意见目标。
(2)根据意见目标集合F中意见目标词之间的反向约束关系构建意见目标的反向约束关系矩阵RF,如下所示:
其中[RF]ij表示矩阵RF中的元素。fi和fj分别代表意见目标集合F中的两个意见目标词。i和j代表意见目标集合中第i个意见目标和第j个意见目标。
(3)根据情感词集合O中情感词之间的正向约束关系构建情感词的正向约束关系矩阵DO,如下所示:
其中[Do]ij表示矩阵Do中的元素。oi和oj分别代表情感词集合O中的两个情感词。i和j代表情感词集合中第i个情感词和第j个情感词。
(4)根据情感词集合O中情感词之间的反向约束关系构建情感词的反向约束关系矩阵RO,如下所示:
其中[RO]ij表示矩阵RO中的元素。oi和oj分别代表情感词集合O中的两个情感词。i和j代表情感词集合中第i个情感词和第j个情感词。
步骤5、构建意见目标和情感词关联矩阵
(1)意见目标与情感词在句子级别的共现关联矩阵构建:以每条评论句为单位,采用互信息公式PMI计算意见目标集合F和情感词集合O之间的句子共现关联矩阵
其中Eij为意见目标fi和情感词oj在句子级别的共现关联度值,p(fi,oj)表示fi和oj在用户评论集合中的共现概率,p(fi)和p(oj)分别表示fi和oj在用户评论集合中单独的出现概率。
(2)意见目标与情感词在文档级别的共现关联矩阵构建:以用户评论集合中每个用户评论单元为“文档”,意见目标和情感词作为“单词”,采用词频-逆文档频率TF-IDF公式计算意见目标集合F和情感词集合O之间在文档级别的共现关联度矩阵
其中表示意见目标fi和情感词oj在文档级别的共现关联度值。矩阵WF表示意见目标词集合F与评论文本集合之间的“特征词-文档”二维矩阵,利用TF-IDF方法计算得到。矩阵WO表示情感词集合O与评论文本集合之间的“特征词-文档”二维矩阵,利用TF-IDF方法计算得到,为WO的转置矩阵。
其中元素Eij∈E表示fi和oj之间的关联度值,参数0<α<1用于平衡句子共现关联度和文档共现关联度的相对权重。
步骤6、在步骤4和步骤5的基础上,进行基于约束的联合聚类求解
本发明应用残值平方和(sum-squared residues)最小化问题的求解策略来进行约束的联合聚类求解。已知意见目标和情感词关联矩阵E,其中行维度表示意见目标,列维度表示情感词,通过一个通用的约束联合聚类求解框架,在初始化行聚类划分矩阵和列聚类划分矩阵之后,迭代地优化行聚类和列聚类直至收敛。
在元素的划分中,定义集合I包含属于同一个意见目标类的行结点,集合J包含属于同一个情感词类的列结点,则I和J唯一确定子矩阵EIJ∈E,称为联合类(co-cluster)。
在每次迭代过程中,在满足先验约束条件(意见目标的约束关系矩阵和情感词的约束关系矩阵)的前提下,将行(列)结点划分到距离最近的行(列)类中,使得目标函数值逐步递减。目标函数如下所示:
其中,H=[Hij]M×N为意见目标和情感词关联矩阵E对应的残值矩阵,M表示意见目标集合的元素个数,N表示情感词集合的元素个数,||H||表示矩阵H的范数。残值(residue)Hij表示Eij在联合类EIJ上的残值,如下所示:
步骤7、根据步骤6的求解结果,将意见目标集合和情感词集合进行类别划分和关联配对
对用户评论文本的意见目标集合按照意见目标维度聚类后的结果划分类别,对用户评论文本的情感词集合按照情感词维度聚类后的结果划分类别,同时选择具有最大关联概率的意见目标类和情感词类进行配对,构建意见目标类和情感类的关联关系,用于意见挖掘任务中后续的生成评论摘要和产品情感倾向性分析等。
有益效果
与传统无约束条件的意见目标和情感词聚类方法相比,本发明从意见目标和情感词两个维度进行联合聚类,在聚类过程中加入了意见目标和情感词之间的约束关系。通过实验证明,本发明所述方法在聚类准确率指标上提高8.3%,召回率指标中提高7.7%。从划分的结果上看,每一个意见目标类能够更加准确地表达产品的一方面属性特征,同时与该意见目标类相关联的情感词类能够更多地覆盖修饰该产品属性的常用形容词。
附图说明
图1为聚类过程流程图;
图2为意见目标与情感词结点之间的关联及约束关系示例;
图3为情感词约束关系判别流程图。
具体实施方式
下面结合附图和实施实例对本发明的技术方案做进一步的详细描述。
以互联网上数码相机的评论数据为例,利用本发明中基于约束的网络意见目标联合聚类方法,对评论中的意见目标和情感词进行聚类,其流程如附图1所示。
一、在用户评论数据中对意见目标、情感词以及情感词对应的意见目标集合进行采集和预处理
从亚马逊网站(www.amzon.com)中采集关于Canon A2500型号数码相机的所有用户评价内容。每一条用户的评论作为一个独立的评论文本单位,抽取每个评论句子中出现的意见目标词及对应的情感词。同时,统计出每一个情感词在用户评论文本中所修饰和关联的所有意见目标集合。对抽取的结果进行数据清理,包含重复词过滤,拼写检查和词干化。在实际方案中,抽取方式可以采用人工标注的方法,也可以利用细粒度意见挖掘系统进行自动抽取。
例如,评论文本单元为:“Theis exquisite,theis easy and theis OK.…”。句子中,我们用斜体加粗表示意见目标,下划线表示情感词。这里,抽取的意见目标包括“appearance”,“operation”,“photo effect”等,情感词为“exquisite”,“easy”,“OK”等。利用F表示抽取的意见目标词集合F={f1,f2,…,fM},O表示抽取的情感词集合O={o1,o2,…,oN}。M表示意见目标集合的元素个数,N表示情感词集合的元素个数。
对于情感词集合O中的每一个情感词oi,根据评价文本单元句子中意见目标和相关联的情感词的距离,统计出与该情感词相关联的所有意见目标的集合 例如:情感词“exquisite”相关联的意见目标集合情感词easy相关联的意见目标集合
二、抽取意见目标的约束关系
在实际方案中,抽取意见目标正向约束关系的方法为:
在目标集合F中,利用词法关系抽取意见目标之间的正向约束关系。在去除代词和常用的停用词之后,如果两个意见目标之间存在共同的名词或者名词短语,则两者之间标记为意见目标的正向约束关系。例如意见目标词“battery life”与“battery charger”含有共同的名词“battery”,因此这两个词被标记成意见目标的正向约束关系。
在实际方案中,抽取意见目标反向约束关系的方法为:
首先利用意见目标之间在评论句子级别上的共现关系,抽取意见目标之间的反向约束关系。如果一个评论句中出现多个意见目标词,则这些词被标注为反向约束关系。如评论句子“this camera has an absolutely amazingare top notch,is incredible and greatis possible as well”,抽取的意见目标分别为“zoom”、“optics”、“macro mode”和“video recording”。由于这三个意见目标在同一个评论句子中出现,则这三个意见目标相互之间具有意见目 标的反向约束关系。
其次利用属于同一特征类的意见目标之间在局部评价文本单元范围内存在的局部情感倾向一致性关系,抽取意见目标之间的反向约束关系。
如在同一个用户评价文本中的两个句子
意见目标词screen与battery life存在相反的情感倾向,则定义这两个意见目标词之间为意见目标的反向约束关系。
抽取的意见目标约束关系参见附图2。
三、抽取情感词的约束关系
结合附图3,情感词的约束关系需要借助与情感词相关联的意见目标集合进行判定。对于两个情感词,计算与情感词关联的意见目标集合的重合度值。当重合度值大于正向约束阈值参数时,情感词之间满足正向约束关系;当重合度值小于反向约束阈值参数时,情感词之间满足反向约束关系。重合度计算公式如下:
通常,正向约束阈值参数λ1通常在[0.7,1]范围内取值,λ2通常在[0,0.3]范围内取值。在实际方案中,λ1经验地取值为0.8,λ2的值为0。例如计算情感词“beautiful”与“elegant”之间的约束关系:
Obeautiful修饰的意见目标词集为
Oelegant修饰的意见目标词集为
由意见目标集合可以得到: 则它们之间的重合度为 属于正向约束关系。
抽取的情感词约束关系参见附图2。
四、构建意见目标约束关系矩阵和情感词约束关系矩阵
通过抽取得意见目标约束关系和情感词约束关系,构建意见目标约束关系矩阵和情感词约束关系矩阵。
1.根据意见目标集合F中意见目标词之间的正向约束关系,构建意见目标的正向约束关系矩阵DF如下所示:
2.根据意见目标集合F中意见目标词之间的反向约束关系,构建意见目标的反向约束关系矩阵RF如下所示:
3.根据情感词集合O中情感词之间的正向约束关系,构建情感词的正向约束关系矩阵DO如下:
4.根据情感词集合O中情感词之间的反向约束关系,构建情感词的反向约束关系矩阵RO如下所示:
在实际方案中,例如抽取意见目标集合F={design,screen,appearance},并且“design”与“screen”存在反向约束关系,“appearance”与“screen”存在正向约束关系,O表示抽取的情感词集合O={big,beautiful,expensive},“beautiful”与“expensive”存在反向约束关系,其余词无关系。构造意见目标正向约束矩阵DF,意见目标反向约束矩阵RF,情感词正向约束矩阵DO,情感词反向约束矩阵RO如下所示(矩阵元素顺序按照集合中的元素顺序):
五、构建意见目标和情感词关联矩阵
其中Eij为意见目标fi和情感词oj在句子级别的共现关联度值,p(fi,oj)表示fi和oj在用户评论集合中的共现概率,p(fi)和p(oj)分别表示fi和oj在用户评论集合中单独的出现概率。
在实际方案中,p(fi,oj)可以用意见目标fi和情感词oj在句子中共同出现的评论句子数量来表达,p(fi)和p(oj)直接统计每个词在语料库句子中出现的频率。
例如意见目标词“screen”和情感词“big”在评论数据文本里的8个评论句子中共同出现过,因此p(fscreen,obig)=8。“screen”在语料库句子中单独出现10次,p(fscreen)=10。“big”在语料库句子中单独出现15次,p(obig)=15。由此可以计算出PMI(fscreen,obig)的实际值。
2.意见目标与情感词在文档级别的共现关联矩阵构建:以用户评论集合中每个用户评论单元为“文档”,意见目标和情感词作为“单词”,采用词频-逆文档频率TF-IDF公式计算意见目标集合F和情感词集合O之间在文档级别的共现关联度矩阵
其中表示意见目标fi和情感词oj在文档级别的共现关联度值。矩阵WF表示意见目标词集合F与评论文本集合之间的“特征词-文档”二维矩阵,利用TF-IDF方法计算得到。矩阵WO表示情感词集合O与评论文本集合之间的“特征词-文档”二维矩阵,利用TF-IDF方法计算得到,为WO的转置矩阵。
其中元素Eij∈E表示fi和oj之间的关联度值,参数0<α<1用于平衡句子共 现关联度和文档共现关联度的相对权重。
六、进行基于约束的联合聚类求解
在实际方案中,假设意见目标集合F中包含k个产品特征类,情感词集合包含l个关联于产品特征类的情感词类。基于约束的联合聚类旨在满足意见目标之间约束关系矩阵DF和RF以及情感词之间约束关系矩阵DO和RO的条件下,将F划分为k个产品特征类,将O划分为l个关联于产品特征类的情感词类。本方案中取l=k,下面表示意见目标类和情感词类之间的对应关系。
对于聚类的优化问题有很多种解决方法,本发明应用残值平方和(sum-squared residues)最小化问题的求解策略来进行约束的联合聚类的求解。已知意见目标和情感词关联矩阵E,其中行维度表示意见目标,列维度表示情感词,通过一个通用的约束联合聚类求解框架,在初始化行聚类划分矩阵和列聚类划分矩阵之后,迭代地优化行聚类和列聚类直至收敛。
在元素的划分中,定义集合I包含属于同一个意见目标类的行结点,集合J包含属于同一个情感词类的列结点,则I和J唯一确定子矩阵EIJ∈E,称为联合类(co-cluster)。
在每次迭代过程中,在满足先验约束条件(意见目标的约束关系矩阵和情感词的约束关系矩阵)的前提下,将行(列)结点划分到距离最近的行(列)类中,使得目标函数值逐步递减。目标函数如下所示:
其中,H=[Hij]M×N为意见目标和情感词关联矩阵E对应的残值矩阵,M表示意见目标集合的元素个数,N表示情感词集合的元素个数,||H||表示矩阵H的范数。残值(residue)Hij表示Eij在联合类EIJ上的残值,如下所示:
七、将意见目标集合和情感词集合进行类别划分和关联配对
对用户评论文本的意见目标集合按照意见目标维度聚类后的结果划分类别,对用户评论文本的情感词集合按照情感词维度聚类后的结果划分类别,同时选择具有最大关联概率的意见目标类和情感词类进行配对,构建意见目标类和情感类的关联关系。
在实际方案中,预期的聚类后的意见目标和情感词划分如下表所示
意见目标 | 情感词 |
style,button,appearance,effect,frame,sensation | extravagant,precious,elegant,novel |
luminance,plasma,articulation,resolution ratio | outstanding,clear,nature,fast,fluency |
audio,noise,stereo,perception track | soft,lively,loud and clear,pure |
price,market,need,specification | suitable,easy,high,enough,practical,small |
第一列描述意见目标,第二列描述情感词。其中,第一行(不包含标题)的意见目标描述该型号相机样式和外观等特征,第一行的情感词描述样式和外观等特征的常用形容词。第二行的意见目标描述该型号相机的屏幕的一些特征,而相应的第二行的情感词是描述屏幕属性的形容词。
Claims (4)
1.一种基于约束关系的意见目标和情感词联合聚类方法,其特征在于,
首先对意见目标的约束关系进行定义:
意见目标的正向约束关系:如果两个意见目标之间存在共同的名词或者名词短语,则定义两者之间存在意见目标的正向约束关系;
意见目标的反向约束关系:在同一个评论文本单元中,如果意见目标之间存在句子级别上的共现关系,或者意见目标之间具有相反的评价意见倾向,则定义它们之间存在意见目标的反向约束关系;
其次对情感词的约束关系进行定义;
根据上述意见目标和情感词的约束关系定义,对意见目标和情感词进行基于约束关系的联合聚类,具体步骤如下:
步骤1、在用户评论数据中对意见目标、情感词以及情感词对应的意见目标集合进行采集和预处理
步骤2、在步骤1抽取的意见目标集合基础上,抽取意见目标的正向和反向约束关系
(1)意见目标的正向约束关系抽取:根据本发明定义的意见目标的正向约束关系,利用词法分析技术抽取意见目标之间的正向约束关系;
(2)意见目标的反向约束关系抽取:根据本发明定义的意见目标的反向约束关系,在用户评论文本集合中,抽取意见目标之间的反向约束关系;
(3)冲突消解:抽取的意见目标集合中可能存在着两个结点之间同时存在正 向约束和反向约束的情况;当正向约束和反向约束发生冲突时,仅保留出现频率较高的约束关系类型;
步骤3、在步骤1抽取的情感词集合以及与情感词相关联的意见目标集合的基础上,抽取情感词的约束关系
根据本发明定义的情感词的正向和反向约束关系,利用与情感词相关联的意见目标集合计算情感词之间的重合度,以此来识别情感词之间的正向和反向约束关系;
步骤4、在步骤2和步骤3的基础上,构建意见目标约束关系矩阵和情感词约束关系矩阵
(1)根据意见目标集合F中意见目标词之间的正向约束关系构建意见目标的正向约束关系矩阵DF,如下所示:
其中[DF]ij表示矩阵DF中的元素;fi和fj分别代表意见目标集合F中的两个意见目标词;i和j代表意见目标集合中第i个意见目标和第j个意见目标;
(2)根据意见目标集合F中意见目标词之间的反向约束关系构建意见目标的反向约束关系矩阵RF,如下所示:
其中[RF]ij表示矩阵RF中的元素;fi和fj分别代表意见目标集合F中的两个意见目标词;i和j代表意见目标集合中第i个意见目标和第j个意见目标;
(3)根据情感词集合O中情感词之间的正向约束关系构建情感词的正向约束关系矩阵DO,如下所示:
其中[Do]ij表示矩阵Do中的元素;oi和oj分别代表情感词集合O中的两 个情感词;i和j代表情感词集合中第i个情感词和第j个情感词;
(4)根据情感词集合O中情感词之间的反向约束关系构建情感词的反向约束关系矩阵RO,如下所示:
其中[RO]ij表示矩阵RO中的元素;oi和oj分别代表情感词集合O中的两个情感词;i和j代表情感词集合中第i个情感词和第j个情感词;
步骤5、构建意见目标和情感词关联矩阵
步骤6、在步骤4和步骤5的基础上,进行基于约束的联合聚类求解
步骤7、根据步骤6的求解结果,将意见目标集合和情感词集合进行类别划分和关联配对
对用户评论文本的意见目标集合按照意见目标维度聚类后的结果划分类别,对用户评论文本的情感词集合按照情感词维度聚类后的结果划分类别,同时选择具有最大关联概率的意见目标类和情感词类进行配对,构建意见目标类和情感类的关联关系,用于意见挖掘任务中后续的生成评论摘要和产品情感倾向性分析等。
2.根据权利要求1所述的一种基于约束关系的意见目标和情感词联合聚类方法,其特征在于,步骤1中给定用户的评论文本集合,是将集合的每一个句子作为一个抽取目标,抽取句子中出现的意见目标词以及对应的情感词;同时,统计出每一个情感词在用户评论文本集合中所修饰和关联的所有意见目标;最后,对抽取的结果进行数据清理,包含重复词过滤,拼写检查和词干化。
3.根据权利要求1所述的一种基于约束关系的意见目标和情感词联合聚类方法,其特征在于,步骤5中意见目标和情感词之间的关联矩阵的构造可以采用如下方法:
(1)意见目标与情感词在句子级别的共现关联矩阵构建:以每条评论句为单位,采用互信息公式PMI计算意见目标集合F和情感词集合O之间的句子共现关联矩阵
其中Eij为意见目标fi和情感词oj在句子级别的共现关联度值,p(fi,oj)表示fi和oj在用户评论集合中的共现概率,p(fi)和p(oj)分别表示fi和oj在用户评论集合 中单独的出现概率;
(2)意见目标与情感词在文档级别的共现关联矩阵构建:以用户评论集合中每个用户评论单元为“文档”,意见目标和情感词作为“单词”,采用词频-逆文档频率TF-IDF公式计算意见目标集合F和情感词集合O之间在文档级别的共现关联度矩阵
其中表示意见目标fi和情感词oj在文档级别的共现关联度值;矩阵WF表示意见目标词集合F与评论文本集合之间的“特征词-文档”二维矩阵,利用TF-IDF方法计算得到;矩阵WO表示情感词集合O与评论文本集合之间的“特征词-文档”二维矩阵,利用TF-IDF方法计算得到,为WO的转置矩阵;
其中元素Eij∈E表示fi和oj之间的关联度值,参数0<α<1用于平衡句子共现关联度和文档共现关联度的相对权重;
对于意见目标和情感词之间的关联矩阵的构造也可以采用其他类似的方法。
4.根据权利要求1所述的一种基于约束关系的意见目标和情感词联合聚类方法,其特征在于,步骤6中基于约束的联合聚类求解可以采用如下方法:
应用残值平方和(sum-squared residues)最小化问题的求解策略来进行约束的联合聚类求解;已知意见目标和情感词关联矩阵E,其中行维度表示意见目标,列维度表示情感词,通过一个通用的约束联合聚类求解框架,在初始化行聚类划分矩阵和列聚类划分矩阵之后,迭代地优化行聚类和列聚类直至收敛;
在元素的划分中,定义集合I包含属于同一个意见目标类的行结点,集合J包含属于同一个情感词类的列结点,则I和J唯一确定子矩阵EIJ∈E,称为联合类(co-cluster);
在每次迭代过程中,在满足先验约束条件(意见目标的约束关系矩阵和情感词的约束关系矩阵)的前提下,将行(列)结点划分到距离最近的行(列)类中,使得目标函数值逐步递减;目标函数如下所示:
其中,H=[Hij]M×N为意见目标和情感词关联矩阵E对应的残值矩阵,M表示意见目标集合的元素个数,N表示情感词集合的元素个数,||H||表示矩阵H的范数;残值(residue)Hij表示Eij在联合类EIJ上的残值,如下所示:
对于基于约束的联合聚类求解也可以采用其他类似的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310701519.8A CN103646097B (zh) | 2013-12-18 | 2013-12-18 | 一种基于约束关系的意见目标和情感词联合聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310701519.8A CN103646097B (zh) | 2013-12-18 | 2013-12-18 | 一种基于约束关系的意见目标和情感词联合聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103646097A true CN103646097A (zh) | 2014-03-19 |
CN103646097B CN103646097B (zh) | 2016-09-07 |
Family
ID=50251311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310701519.8A Active CN103646097B (zh) | 2013-12-18 | 2013-12-18 | 一种基于约束关系的意见目标和情感词联合聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103646097B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260356A (zh) * | 2015-10-10 | 2016-01-20 | 西安交通大学 | 基于多任务学习的中文交互文本情感与话题识别方法 |
CN106294506A (zh) * | 2015-06-10 | 2017-01-04 | 华中师范大学 | 领域自适应的观点数据分类方法及装置 |
CN108763214A (zh) * | 2018-05-30 | 2018-11-06 | 河海大学 | 一种针对商品评论的情感词典自动构建方法 |
CN108763226A (zh) * | 2016-06-28 | 2018-11-06 | 大连民族大学 | 商品评论要素的抽取方法 |
CN110490667A (zh) * | 2019-08-26 | 2019-11-22 | 联想(北京)有限公司 | 一种数据处理方法、装置及电子设备 |
CN111767389A (zh) * | 2020-05-22 | 2020-10-13 | 湖南正宇软件技术开发有限公司 | 一种根据提案内容推荐办案单位的方法和装置 |
CN111859898A (zh) * | 2019-04-16 | 2020-10-30 | 中森云链(成都)科技有限责任公司 | 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质 |
CN113157899A (zh) * | 2021-05-27 | 2021-07-23 | 东莞心启航联贸网络科技有限公司 | 一种大数据画像分析方法、服务器及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101344890A (zh) * | 2008-08-22 | 2009-01-14 | 清华大学 | 一种基于观点检索的信息检索文档的评分方法 |
US20100114901A1 (en) * | 2008-11-03 | 2010-05-06 | Rhee Young-Ho | Computer-readable recording medium, content providing apparatus collecting user-related information, content providing method, user-related information providing method and content searching method |
CN102890702A (zh) * | 2012-07-19 | 2013-01-23 | 中国人民解放军国防科学技术大学 | 一种面向网络论坛的意见领袖挖掘方法 |
CN103064971A (zh) * | 2013-01-05 | 2013-04-24 | 南京邮电大学 | 一种基于评分和中文情感分析的垃圾评论检测方法 |
-
2013
- 2013-12-18 CN CN201310701519.8A patent/CN103646097B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101344890A (zh) * | 2008-08-22 | 2009-01-14 | 清华大学 | 一种基于观点检索的信息检索文档的评分方法 |
US20100114901A1 (en) * | 2008-11-03 | 2010-05-06 | Rhee Young-Ho | Computer-readable recording medium, content providing apparatus collecting user-related information, content providing method, user-related information providing method and content searching method |
CN102890702A (zh) * | 2012-07-19 | 2013-01-23 | 中国人民解放军国防科学技术大学 | 一种面向网络论坛的意见领袖挖掘方法 |
CN103064971A (zh) * | 2013-01-05 | 2013-04-24 | 南京邮电大学 | 一种基于评分和中文情感分析的垃圾评论检测方法 |
Non-Patent Citations (2)
Title |
---|
庞俊: "基于确定话题和情感极性的博客文本聚类研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
李实等: "挖掘中文网络客户评论的产品特征及情感倾向", 《计算机应用研究》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294506B (zh) * | 2015-06-10 | 2020-04-24 | 华中师范大学 | 领域自适应的观点数据分类方法及装置 |
CN106294506A (zh) * | 2015-06-10 | 2017-01-04 | 华中师范大学 | 领域自适应的观点数据分类方法及装置 |
CN105260356B (zh) * | 2015-10-10 | 2018-02-06 | 西安交通大学 | 基于多任务学习的中文交互文本情感与话题识别方法 |
CN105260356A (zh) * | 2015-10-10 | 2016-01-20 | 西安交通大学 | 基于多任务学习的中文交互文本情感与话题识别方法 |
CN108763226A (zh) * | 2016-06-28 | 2018-11-06 | 大连民族大学 | 商品评论要素的抽取方法 |
CN108763214A (zh) * | 2018-05-30 | 2018-11-06 | 河海大学 | 一种针对商品评论的情感词典自动构建方法 |
CN108763214B (zh) * | 2018-05-30 | 2021-09-24 | 河海大学 | 一种针对商品评论的情感词典自动构建方法 |
CN111859898A (zh) * | 2019-04-16 | 2020-10-30 | 中森云链(成都)科技有限责任公司 | 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质 |
CN111859898B (zh) * | 2019-04-16 | 2024-01-16 | 中森云链(成都)科技有限责任公司 | 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质 |
CN110490667A (zh) * | 2019-08-26 | 2019-11-22 | 联想(北京)有限公司 | 一种数据处理方法、装置及电子设备 |
CN110490667B (zh) * | 2019-08-26 | 2023-07-21 | 联想(北京)有限公司 | 一种数据处理方法、装置及电子设备 |
CN111767389A (zh) * | 2020-05-22 | 2020-10-13 | 湖南正宇软件技术开发有限公司 | 一种根据提案内容推荐办案单位的方法和装置 |
CN113157899A (zh) * | 2021-05-27 | 2021-07-23 | 东莞心启航联贸网络科技有限公司 | 一种大数据画像分析方法、服务器及可读存储介质 |
CN113157899B (zh) * | 2021-05-27 | 2022-01-14 | 叉烧(上海)新材料科技有限公司 | 一种大数据画像分析方法、服务器及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103646097B (zh) | 2016-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103646097B (zh) | 一种基于约束关系的意见目标和情感词联合聚类方法 | |
CN110825876B (zh) | 电影评论观点情感倾向性分析方法 | |
CN102165435B (zh) | 使用因特网语料库的自动上下文相关语言产生、校正和增强 | |
US11675981B2 (en) | Neural network systems and methods for target identification from text | |
CN105117428A (zh) | 一种基于词语对齐模型的web评论情感分析方法 | |
CN103870001B (zh) | 一种生成输入法候选项的方法及电子装置 | |
Li et al. | Recursive deep learning for sentiment analysis over social data | |
CN107544959B (zh) | 一种评价对象的提取方法和装置 | |
Wang et al. | Multi-modal knowledge graphs representation learning via multi-headed self-attention | |
WO2021217772A1 (zh) | 基于ai的面试语料分类方法、装置、计算机设备和介质 | |
CN103473380A (zh) | 一种计算机文本情感分类方法 | |
Fu et al. | Bag of meta-words: A novel method to represent document for the sentiment classification | |
Feng et al. | Dialogue discourse-aware graph convolutional networks for abstractive meeting summarization | |
Tiwari et al. | Ensemble approach for twitter sentiment analysis | |
Lai et al. | Transconv: Relationship embedding in social networks | |
CN110110220A (zh) | 融合社交网络和用户评价的推荐模型 | |
CN113297387B (zh) | 一种基于nkd-gnn的图文不匹配新闻检测方法 | |
Jin et al. | Towards improving coherence and diversity of slogan generation | |
Jin et al. | Combining user-based and global lexicon features for sentiment analysis in twitter | |
Gao et al. | Sentiment classification of time-sync comments: A semi-supervised hierarchical deep learning method | |
Rajendran et al. | Is something better than nothing? automatically predicting stance-based arguments using deep learning and small labelled dataset | |
Compiani et al. | Demand Estimation with Text and Image Data | |
Soni et al. | Comparative analysis of rotten tomatoes movie reviews using sentiment analysis | |
CN113449517A (zh) | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 | |
CN116958997B (zh) | 一种基于异质图神经网络的图文摘要方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |