CN103646097A

CN103646097A - 一种基于约束关系的意见目标和情感词联合聚类方法

Info

Publication number: CN103646097A
Application number: CN201310701519.8A
Authority: CN
Inventors: 牛振东; 黄胜; 刘沙; 陈杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2013-12-18
Filing date: 2013-12-18
Publication date: 2014-03-19
Anticipated expiration: 2033-12-18
Also published as: CN103646097B

Abstract

本发明属于Web评论文本的意见挖掘技术领域，涉及一种基于约束关系的意见目标和情感词联合聚类方法。该方法通过引入意见目标之间的正向和反向约束关系，提供了意见目标之间属于相同特征类或者不同特征类的先验关系，从而在对意见目标集合进行基于特征的聚类过程中，提高意见目标聚类结果的准确率。通过引入情感词之间的正向和反向约束关系，提供了情感词之间关联于相同特征类或者不同特征类的先验关系，从而在对情感词集合按照与评价特征类的关联关系进行聚类的过程中，提高情感词聚类结果的准确率。与传统无约束的意见目标和情感词聚类方法相比，本发明所述方法应归属为有约束的方法。并且在聚类的效果中，准确率提高8.3%，召回率提高7.7%。

Description

一种基于约束关系的意见目标和情感词联合聚类方法

技术领域

本发明属于Web评论文本的意见挖掘技术领域，涉及一种基于约束关系的意见目标和情感词联合聚类方法，用于解决互联网上用户生成的主观性评论文本中意见目标和情感词的聚类问题。

背景技术

近年来，随着电子商务的快速发展以及网络购物人数的增加，互联网上用户关于商品的意见评论也越来越丰富。用户可以自由地针对意见目标发表自己的主观情感。例如，在数码相机领域的用户评论“The photo quality of Canon camera is excellent”中，意见目标是“photo quality”，用户情感词是“excellent”。由于用户评论的随意性和表达习惯不同，针对同一意见特征，不同的用户可能会采用不同的表达方式。例如，在相机领域中，“photo”与“image”均用于描述照片特征。此外，同一个表达短语在不同领域中也可能描述不同的意见特征。如电影领域中“picture”代表画面特征，而在手机领域中“picture”则表示图片特征。随着Web上用户评论文本的规模日益增大，抽取的意见目标和情感词数也不断扩大，亟需一种对离散的意见目标集合和情感词集合进行自动归类的方法。本发明提出一种基于约束关系的意见目标和情感词的联合聚类方法，对意见目标集合按照意见特征自动归类，对情感词集合按照与意见特征类的关联进行归类。

现有的意见目标归类方法主要分为基于无监督学习的方法和基于主题建模的方法。早期的研究主要采用无监督学习方法，核心思想是计算意见目标之间的相似度，采用分类算法对意见目标集合进行自动归类。但是，在计算相似度方面，利用人工构建的词汇语义关系的算法准确率不高，因为其忽略了意见目标相似度的领域依赖性，同时也会产生覆盖率不足的问题。基于领域语料库的方法利用意见目标的上下文信息计算相似度，虽然在一定程度上缓解了意见目标相似度的领域依赖性问题，却面临计算空间的高维度和稀疏性问题。

基于主题建模的方法通过在评论语料上的统计学习，训练主题生成模型，将生成的主题对应为意见目标类别。然而，这些方法生成的主题粒度较粗，并不能很好地对应细粒度的评价特征类，同时，基于对评论语料统计学习的算法忽略了局部上下文特征。

发明内容

本发明的目的是为了克服现有用户意见目标和情感词聚类方法的不足，提出了一种基于约束关系的意见目标和情感词联合聚类方法。为了克服传统聚类方法缺乏先验知识和不能有效地利用评论对象的上下文关系的问题，通过引入意见目标之间的正反向约束关系，并且充分挖掘意见目标与情感词之间的关联，引入情感词之间的正反向约束关系，对意见目标和情感词进行联合聚类，从而有效地提高了评论文本中意见目标和情感词的聚类效果。

本发明所采用的技术方案如下：

首先对意见目标的约束关系进行定义。

意见目标的正向约束关系：如果两个意见目标之间存在共同的名词或者名词短语，则定义两者之间存在意见目标的正向约束关系。

意见目标的反向约束关系：在同一个评论文本单元中，如果意见目标之间存在句子级别上的共现关系，或者意见目标之间具有相反的评价意见倾向，则定义它们之间存在意见目标的反向约束关系。

其次对情感词的约束关系进行定义。

已知

和

分别表示与情感词o_i与o_j相关联的的意见目标集合，定义

与

之间的重合度Overlap为：

Overlap (F_{o_{i}}, F_{o_{j}}) = \frac{| F_{o_{i}} \cap F_{o_{j}} |}{| F_{o_{i}} | + | F_{o_{j}} | - | F_{o_{i}} \cap F_{o_{j}} |}

其中，

表示对集合

取模操作。定义λ₁为正向约束阈值参数，λ₂为反向约束阈值参数，如果

则定义情感词o_i和o_j之间具有情感词的正向约束关系；如果则定义o_i和o_j之间具有情感词的反向约束关系。

根据上述意见目标和情感词的约束关系定义，对意见目标和情感词进行联合聚类。本发明的一种基于约束关系的意见目标和情感词联合聚类方法具体步骤如下：

步骤1、在用户评论数据中对意见目标、情感词以及情感词对应的意见目标集合进行采集和预处理

给定用户的评论文本集合，将集合的每一个句子作为一个抽取目标，抽取句子中出现的意见目标词以及对应的情感词。同时，统计出每一个情感词在用户评论文本集合中所修饰和关联的所有意见目标。最后，对抽取的结果进行数据清理，包含重复词过滤，拼写检查和词干化。

步骤2、在步骤1抽取的意见目标集合基础上，抽取意见目标的正向和反向约束关系

(1)意见目标的正向约束关系抽取：根据本发明定义的意见目标的正向约束关系，利用词法分析技术抽取意见目标之间的正向约束关系。

(2)意见目标的反向约束关系抽取：根据本发明定义的意见目标的反向约束关系，在用户评论文本集合中，抽取意见目标之间的反向约束关系。

(3)冲突消解：抽取的意见目标集合中可能存在着两个结点之间同时存在正向约束和反向约束的情况。当正向约束和反向约束发生冲突时，仅保留出现频率较高的约束关系类型。

步骤3、在步骤1抽取的情感词集合以及与情感词相关联的意见目标集合的基础上，抽取情感词的正向和反向约束关系

根据本发明定义的情感词的正向和反向约束关系，利用与情感词相关联的意见目标集合计算情感词之间的重合度，以此来识别情感词之间的正向和反向约束关系。

步骤4、在步骤2和步骤3的基础上，构建意见目标约束关系矩阵和情感词约束关系矩阵

(1)根据意见目标集合F中意见目标词之间的正向约束关系构建意见目标的正向约束关系矩阵D_F，如下所示：

其中[D_F]_ij表示矩阵D_F中的元素。f_i和f_j分别代表意见目标集合F中的两个意见目标词。i和j代表意见目标集合中第i个意见目标和第j个意见目标。

(2)根据意见目标集合F中意见目标词之间的反向约束关系构建意见目标的反向约束关系矩阵R_F，如下所示：

其中[R_F]_ij表示矩阵R_F中的元素。f_i和f_j分别代表意见目标集合F中的两个意见目标词。i和j代表意见目标集合中第i个意见目标和第j个意见目标。

(3)根据情感词集合O中情感词之间的正向约束关系构建情感词的正向约束关系矩阵D_O，如下所示：

其中[D_o]_ij表示矩阵D_o中的元素。o_i和o_j分别代表情感词集合O中的两个情感词。i和j代表情感词集合中第i个情感词和第j个情感词。

(4)根据情感词集合O中情感词之间的反向约束关系构建情感词的反向约束关系矩阵R_O，如下所示：

其中[R_O]_ij表示矩阵R_O中的元素。o_i和o_j分别代表情感词集合O中的两个情感词。i和j代表情感词集合中第i个情感词和第j个情感词。

步骤5、构建意见目标和情感词关联矩阵

(1)意见目标与情感词在句子级别的共现关联矩阵构建：以每条评论句为单位，采用互信息公式PMI计算意见目标集合F和情感词集合O之间的句子共现关联矩阵

\overset{&OverBar;}{E} = PMI (f_{i}, o_{j}) = \log \frac{p (f_{i}, o_{j})}{p (f_{i}) * p (o_{j})}

其中E_ij为意见目标f_i和情感词o_j在句子级别的共现关联度值，p(f_i,o_j)表示f_i和o_j在用户评论集合中的共现概率，p(f_i)和p(o_j)分别表示f_i和o_j在用户评论集合中单独的出现概率。

(2)意见目标与情感词在文档级别的共现关联矩阵构建：以用户评论集合中每个用户评论单元为“文档”，意见目标和情感词作为“单词”，采用词频-逆文档频率TF-IDF公式计算意见目标集合F和情感词集合O之间在文档级别的共现关联度矩阵

\tilde{E} = W_{F} \cdot W_{O}^{T}

其中

表示意见目标f_i和情感词o_j在文档级别的共现关联度值。矩阵W_F表示意见目标词集合F与评论文本集合之间的“特征词-文档”二维矩阵，利用TF-IDF方法计算得到。矩阵W_O表示情感词集合O与评论文本集合之间的“特征词-文档”二维矩阵，利用TF-IDF方法计算得到，

为W_O的转置矩阵。

(3)意见目标与情感词的关联矩阵构建：综合句子共现关联矩阵

和文档共现关联度矩阵

计算F和O之间的关联矩阵E如下:

E = α \overset{&OverBar;}{E} + (1 - α) \tilde{E}

其中元素E_ij∈E表示f_i和o_j之间的关联度值，参数0<α<1用于平衡句子共现关联度和文档共现关联度的相对权重。

步骤6、在步骤4和步骤5的基础上，进行基于约束的联合聚类求解

本发明应用残值平方和(sum-squared residues)最小化问题的求解策略来进行约束的联合聚类求解。已知意见目标和情感词关联矩阵E，其中行维度表示意见目标，列维度表示情感词，通过一个通用的约束联合聚类求解框架，在初始化行聚类划分矩阵和列聚类划分矩阵之后，迭代地优化行聚类和列聚类直至收敛。

在元素的划分中，定义集合I包含属于同一个意见目标类的行结点，集合J包含属于同一个情感词类的列结点，则I和J唯一确定子矩阵E_IJ∈E，称为联合类(co-cluster)。

在每次迭代过程中，在满足先验约束条件(意见目标的约束关系矩阵和情感词的约束关系矩阵)的前提下，将行(列)结点划分到距离最近的行(列)类中，使得目标函数值逐步递减。目标函数如下所示：

{| | H | |}^{2} = \underset{I, J}{Σ} {| | H_{IJ} | |}^{2} = \underset{I, J}{Σ} \underset{i &Element; I, j &Element; J}{Σ} H_{ij}^{2}

其中，H=[H_ij]_M×N为意见目标和情感词关联矩阵E对应的残值矩阵，M表示意见目标集合的元素个数，N表示情感词集合的元素个数，||H||表示矩阵H的范数。残值(residue)H_ij表示E_ij在联合类E_IJ上的残值，如下所示：

H_{ij} = E_{ij} - \frac{Σ_{i &Element; I} E_{ij}}{| I |} - \frac{Σ_{j &Element; J} E_{ij}}{| J |} + \frac{Σ_{i &Element; I, j &Element; J} E_{ij}}{| I | \cdot | J |}

步骤7、根据步骤6的求解结果，将意见目标集合和情感词集合进行类别划分和关联配对

对用户评论文本的意见目标集合按照意见目标维度聚类后的结果划分类别，对用户评论文本的情感词集合按照情感词维度聚类后的结果划分类别，同时选择具有最大关联概率的意见目标类和情感词类进行配对，构建意见目标类和情感类的关联关系，用于意见挖掘任务中后续的生成评论摘要和产品情感倾向性分析等。

有益效果

与传统无约束条件的意见目标和情感词聚类方法相比，本发明从意见目标和情感词两个维度进行联合聚类，在聚类过程中加入了意见目标和情感词之间的约束关系。通过实验证明，本发明所述方法在聚类准确率指标上提高8.3%，召回率指标中提高7.7%。从划分的结果上看，每一个意见目标类能够更加准确地表达产品的一方面属性特征，同时与该意见目标类相关联的情感词类能够更多地覆盖修饰该产品属性的常用形容词。

附图说明

图1为聚类过程流程图；

图2为意见目标与情感词结点之间的关联及约束关系示例；

图3为情感词约束关系判别流程图。

具体实施方式

下面结合附图和实施实例对本发明的技术方案做进一步的详细描述。

以互联网上数码相机的评论数据为例，利用本发明中基于约束的网络意见目标联合聚类方法，对评论中的意见目标和情感词进行聚类，其流程如附图1所示。

一、在用户评论数据中对意见目标、情感词以及情感词对应的意见目标集合进行采集和预处理

从亚马逊网站（www.amzon.com）中采集关于Canon A2500型号数码相机的所有用户评价内容。每一条用户的评论作为一个独立的评论文本单位，抽取每个评论句子中出现的意见目标词及对应的情感词。同时，统计出每一个情感词在用户评论文本中所修饰和关联的所有意见目标集合。对抽取的结果进行数据清理，包含重复词过滤，拼写检查和词干化。在实际方案中，抽取方式可以采用人工标注的方法，也可以利用细粒度意见挖掘系统进行自动抽取。

例如，评论文本单元为：“The

is exquisite,the

is easy and theis OK.…”。句子中，我们用斜体加粗表示意见目标，下划线表示情感词。这里，抽取的意见目标包括“appearance”，“operation”，“photo effect”等，情感词为“exquisite”，“easy”，“OK”等。利用F表示抽取的意见目标词集合F={f₁,f₂,…,f_M}，O表示抽取的情感词集合O={o₁,o₂,…,o_N}。M表示意见目标集合的元素个数，N表示情感词集合的元素个数。

对于情感词集合O中的每一个情感词o_i，根据评价文本单元句子中意见目标和相关联的情感词的距离，统计出与该情感词相关联的所有意见目标的集合例如：情感词“exquisite”相关联的意见目标集合

情感词easy相关联的意见目标集合

二、抽取意见目标的约束关系

在实际方案中，抽取意见目标正向约束关系的方法为：

在目标集合F中，利用词法关系抽取意见目标之间的正向约束关系。在去除代词和常用的停用词之后，如果两个意见目标之间存在共同的名词或者名词短语，则两者之间标记为意见目标的正向约束关系。例如意见目标词“battery life”与“battery charger”含有共同的名词“battery”，因此这两个词被标记成意见目标的正向约束关系。

在实际方案中，抽取意见目标反向约束关系的方法为：

首先利用意见目标之间在评论句子级别上的共现关系，抽取意见目标之间的反向约束关系。如果一个评论句中出现多个意见目标词，则这些词被标注为反向约束关系。如评论句子“this camera has an absolutely amazing

are top notch,

is incredible and great

is possible as well”，抽取的意见目标分别为“zoom”、“optics”、“macro mode”和“video recording”。由于这三个意见目标在同一个评论句子中出现，则这三个意见目标相互之间具有意见目标的反向约束关系。

其次利用属于同一特征类的意见目标之间在局部评价文本单元范围内存在的局部情感倾向一致性关系，抽取意见目标之间的反向约束关系。

如在同一个用户评价文本中的两个句子

(a)“The

is big.”

(b)“The

is poor to use.”

意见目标词screen与battery life存在相反的情感倾向，则定义这两个意见目标词之间为意见目标的反向约束关系。

抽取的意见目标约束关系参见附图2。

三、抽取情感词的约束关系

结合附图3，情感词的约束关系需要借助与情感词相关联的意见目标集合进行判定。对于两个情感词，计算与情感词关联的意见目标集合的重合度值。当重合度值大于正向约束阈值参数时，情感词之间满足正向约束关系；当重合度值小于反向约束阈值参数时，情感词之间满足反向约束关系。重合度计算公式如下：

Overlap (F_{o_{i}}, F_{o_{j}}) = \frac{| F_{o_{i}} \cap F_{o_{j}} |}{| F_{o_{i}} | + | F_{o_{j}} | - | F_{o_{i}} \cap F_{o_{j}} |}

通常，正向约束阈值参数λ₁通常在[0.7,1]范围内取值，λ₂通常在[0,0.3]范围内取值。在实际方案中，λ₁经验地取值为0.8，λ₂的值为0。例如计算情感词“beautiful”与“elegant”之间的约束关系：

O_beautiful修饰的意见目标词集为

F_{O_{beautiful}} = {interface, design, screen, appearance, style}

O_elegant修饰的意见目标词集为

F_{O_{elegant}} = {interface, design, appearance, style}

由意见目标集合可以得到：

| F_{O_{beautiful}} \cap F_{O_{elegant}} | = 4,

| F_{O_{beautiful}} | = 5,

| F_{O_{elegant}} | = 4 .

则它们之间的重合度为

Overlap (F_{O_{beautiful}}, F_{O_{elegant}}) = 0.8 > = λ_{1}

属于正向约束关系。

抽取的情感词约束关系参见附图2。

四、构建意见目标约束关系矩阵和情感词约束关系矩阵

通过抽取得意见目标约束关系和情感词约束关系，构建意见目标约束关系矩阵和情感词约束关系矩阵。

1.根据意见目标集合F中意见目标词之间的正向约束关系，构建意见目标的正向约束关系矩阵D_F如下所示：

2.根据意见目标集合F中意见目标词之间的反向约束关系，构建意见目标的反向约束关系矩阵R_F如下所示：

3.根据情感词集合O中情感词之间的正向约束关系，构建情感词的正向约束关系矩阵D_O如下：

4.根据情感词集合O中情感词之间的反向约束关系，构建情感词的反向约束关系矩阵R_O如下所示：

在实际方案中，例如抽取意见目标集合F={design,screen,appearance}，并且“design”与“screen”存在反向约束关系，“appearance”与“screen”存在正向约束关系，O表示抽取的情感词集合O={big,beautiful,expensive}，“beautiful”与“expensive”存在反向约束关系，其余词无关系。构造意见目标正向约束矩阵D_F，意见目标反向约束矩阵R_F，情感词正向约束矩阵D_O，情感词反向约束矩阵R_O如下所示（矩阵元素顺序按照集合中的元素顺序）：

D_{F} = [\begin{matrix} 0 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{matrix}]

R_{F} = [\begin{matrix} 0 & 1 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 0 \end{matrix}]

D_{O} = [\begin{matrix} 0 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{matrix}]

R_{O} = [\begin{matrix} 0 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{matrix}]

五、构建意见目标和情感词关联矩阵

1.意见目标与情感词在句子级别的共现关联矩阵构建：以每条评论句为单位，采用互信息公式PMI计算意见目标集合F和情感词集合O之间的句子共现关联矩阵

\overset{&OverBar;}{E} = PMI (f_{i}, o_{j}) = \log \frac{p (f_{i}, o_{j})}{p (f_{i}) * p (o_{j})}

在实际方案中，p(f_i,o_j)可以用意见目标f_i和情感词o_j在句子中共同出现的评论句子数量来表达，p(f_i)和p(o_j)直接统计每个词在语料库句子中出现的频率。

例如意见目标词“screen”和情感词“big”在评论数据文本里的8个评论句子中共同出现过，因此p(f_screen,o_big)=8。“screen”在语料库句子中单独出现10次，p(f_screen)=10。“big”在语料库句子中单独出现15次，p(o_big)=15。由此可以计算出PMI(f_screen,o_big)的实际值。

2.意见目标与情感词在文档级别的共现关联矩阵构建：以用户评论集合中每个用户评论单元为“文档”，意见目标和情感词作为“单词”，采用词频-逆文档频率TF-IDF公式计算意见目标集合F和情感词集合O之间在文档级别的共现关联度矩阵

\tilde{E} = W_{F} \cdot W_{O}^{T}

其中

为W_O的转置矩阵。

3.意见目标与情感词的关联矩阵构建：综合句子共现关联矩阵和文档共现关联度矩阵

计算F和O之间的关联矩阵E如下:

E = α \overset{&OverBar;}{E} + (1 - α) \tilde{E}

六、进行基于约束的联合聚类求解

在实际方案中，假设意见目标集合F中包含k个产品特征类，情感词集合包含l个关联于产品特征类的情感词类。基于约束的联合聚类旨在满足意见目标之间约束关系矩阵D_F和R_F以及情感词之间约束关系矩阵D_O和R_O的条件下，将F划分为k个产品特征类，将O划分为l个关联于产品特征类的情感词类。本方案中取l=k，下面表示意见目标类和情感词类之间的对应关系。

c_{F} : {f_{1}, f_{2}, . . ., f_{M}} &RightArrow; {{\hat{f}}_{1}, {\hat{f}}_{1}, . . ., {\hat{f}}_{k}}

c_{O} : {O_{1}, O_{2}, . . ., O_{N}} &RightArrow; {{\hat{O}}_{1}, {\hat{O}}_{2}, . . ., {\hat{O}}_{l}}

C_F和C_O表示一个聚类的映射。

和

表示最终的意见目标类i以及最终的情感词类j。

对于聚类的优化问题有很多种解决方法，本发明应用残值平方和(sum-squared residues)最小化问题的求解策略来进行约束的联合聚类的求解。已知意见目标和情感词关联矩阵E，其中行维度表示意见目标，列维度表示情感词，通过一个通用的约束联合聚类求解框架，在初始化行聚类划分矩阵和列聚类划分矩阵之后，迭代地优化行聚类和列聚类直至收敛。

{| | H | |}^{2} = \underset{I, J}{Σ} {| | H_{IJ} | |}^{2} = \underset{I, J}{Σ} \underset{i &Element; I, j &Element; J}{Σ} H_{ij}^{2}

H_{ij} = E_{ij} - \frac{Σ_{i &Element; I} E_{ij}}{| I |} - \frac{Σ_{j &Element; J} E_{ij}}{| J |} + \frac{Σ_{i &Element; I, J &Element; J} E_{ij}}{| I | \cdot | J |}

七、将意见目标集合和情感词集合进行类别划分和关联配对

对用户评论文本的意见目标集合按照意见目标维度聚类后的结果划分类别，对用户评论文本的情感词集合按照情感词维度聚类后的结果划分类别，同时选择具有最大关联概率的意见目标类和情感词类进行配对，构建意见目标类和情感类的关联关系。

在实际方案中，预期的聚类后的意见目标和情感词划分如下表所示

意见目标	情感词
		style,button,appearance,effect,frame,sensation	extravagant,precious,elegant,novel
luminance,plasma,articulation,resolution ratio	outstanding,clear,nature,fast,fluency
		audio,noise,stereo,perception track	soft,lively,loud and clear,pure
price,market,need,specification	suitable,easy,high,enough,practical,small

第一列描述意见目标，第二列描述情感词。其中，第一行（不包含标题）的意见目标描述该型号相机样式和外观等特征，第一行的情感词描述样式和外观等特征的常用形容词。第二行的意见目标描述该型号相机的屏幕的一些特征，而相应的第二行的情感词是描述屏幕属性的形容词。

Claims

1.一种基于约束关系的意见目标和情感词联合聚类方法，其特征在于，

首先对意见目标的约束关系进行定义：

意见目标的正向约束关系：如果两个意见目标之间存在共同的名词或者名词短语，则定义两者之间存在意见目标的正向约束关系；

意见目标的反向约束关系：在同一个评论文本单元中，如果意见目标之间存在句子级别上的共现关系，或者意见目标之间具有相反的评价意见倾向，则定义它们之间存在意见目标的反向约束关系；

其次对情感词的约束关系进行定义；

已知和

分别表示与情感词o_i与o_j相关联的的意见目标集合，定义

与

之间的重合度Overlap为：

其中，

表示对集合

取模操作；定义λ₁为正向约束阈值参数，λ₂为反向约束阈值参数，如果则定义情感词o_i和o_j之间具有情感词的正向约束关系；如果

则定义o_i和o_j之间具有情感词的反向约束关系；

根据上述意见目标和情感词的约束关系定义，对意见目标和情感词进行基于约束关系的联合聚类，具体步骤如下：

(1)意见目标的正向约束关系抽取：根据本发明定义的意见目标的正向约束关系，利用词法分析技术抽取意见目标之间的正向约束关系；

(2)意见目标的反向约束关系抽取：根据本发明定义的意见目标的反向约束关系，在用户评论文本集合中，抽取意见目标之间的反向约束关系；

(3)冲突消解：抽取的意见目标集合中可能存在着两个结点之间同时存在正向约束和反向约束的情况；当正向约束和反向约束发生冲突时,仅保留出现频率较高的约束关系类型；

步骤3、在步骤1抽取的情感词集合以及与情感词相关联的意见目标集合的基础上，抽取情感词的约束关系

根据本发明定义的情感词的正向和反向约束关系，利用与情感词相关联的意见目标集合计算情感词之间的重合度，以此来识别情感词之间的正向和反向约束关系；

其中[D_F]_ij表示矩阵D_F中的元素；f_i和f_j分别代表意见目标集合F中的两个意见目标词；i和j代表意见目标集合中第i个意见目标和第j个意见目标；

其中[R_F]_ij表示矩阵R_F中的元素；f_i和f_j分别代表意见目标集合F中的两个意见目标词；i和j代表意见目标集合中第i个意见目标和第j个意见目标；

其中[D_o]_ij表示矩阵D_o中的元素；o_i和o_j分别代表情感词集合O中的两个情感词；i和j代表情感词集合中第i个情感词和第j个情感词；

其中[R_O]_ij表示矩阵R_O中的元素；o_i和o_j分别代表情感词集合O中的两个情感词；i和j代表情感词集合中第i个情感词和第j个情感词；

步骤5、构建意见目标和情感词关联矩阵

2.根据权利要求1所述的一种基于约束关系的意见目标和情感词联合聚类方法，其特征在于，步骤1中给定用户的评论文本集合，是将集合的每一个句子作为一个抽取目标，抽取句子中出现的意见目标词以及对应的情感词；同时，统计出每一个情感词在用户评论文本集合中所修饰和关联的所有意见目标；最后，对抽取的结果进行数据清理，包含重复词过滤，拼写检查和词干化。

3.根据权利要求1所述的一种基于约束关系的意见目标和情感词联合聚类方法，其特征在于，步骤5中意见目标和情感词之间的关联矩阵的构造可以采用如下方法：

其中E_ij为意见目标f_i和情感词o_j在句子级别的共现关联度值，p(f_i,o_j)表示f_i和o_j在用户评论集合中的共现概率，p(f_i)和p(o_j)分别表示f_i和o_j在用户评论集合中单独的出现概率；

其中

表示意见目标f_i和情感词o_j在文档级别的共现关联度值；矩阵W_F表示意见目标词集合F与评论文本集合之间的“特征词-文档”二维矩阵，利用TF-IDF方法计算得到；矩阵W_O表示情感词集合O与评论文本集合之间的“特征词-文档”二维矩阵，利用TF-IDF方法计算得到，为W_O的转置矩阵；

(3)意见目标与情感词的关联矩阵构建：综合句子共现关联矩阵和文档共现关联度矩阵

计算F和O之间的关联矩阵E如下:

其中元素E_ij∈E表示f_i和o_j之间的关联度值，参数0<α<1用于平衡句子共现关联度和文档共现关联度的相对权重；

对于意见目标和情感词之间的关联矩阵的构造也可以采用其他类似的方法。

4.根据权利要求1所述的一种基于约束关系的意见目标和情感词联合聚类方法，其特征在于，步骤6中基于约束的联合聚类求解可以采用如下方法：

应用残值平方和(sum-squared residues)最小化问题的求解策略来进行约束的联合聚类求解；已知意见目标和情感词关联矩阵E，其中行维度表示意见目标，列维度表示情感词，通过一个通用的约束联合聚类求解框架，在初始化行聚类划分矩阵和列聚类划分矩阵之后，迭代地优化行聚类和列聚类直至收敛；

在元素的划分中，定义集合I包含属于同一个意见目标类的行结点，集合J包含属于同一个情感词类的列结点，则I和J唯一确定子矩阵E_IJ∈E，称为联合类(co-cluster)；

在每次迭代过程中，在满足先验约束条件(意见目标的约束关系矩阵和情感词的约束关系矩阵)的前提下，将行(列)结点划分到距离最近的行(列)类中，使得目标函数值逐步递减；目标函数如下所示：

其中，H=[H_ij]_M×N为意见目标和情感词关联矩阵E对应的残值矩阵，M表示意见目标集合的元素个数，N表示情感词集合的元素个数，||H||表示矩阵H的范数；残值(residue)H_ij表示E_ij在联合类E_IJ上的残值，如下所示：

对于基于约束的联合聚类求解也可以采用其他类似的方法。