CN106372208B

CN106372208B - 一种基于语句相似度的话题观点聚类方法

Info

Publication number: CN106372208B
Application number: CN201610801675.5A
Authority: CN
Inventors: 杨鹏; 袁志伟; 顾梁; 赵丹丹
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2016-09-05
Filing date: 2016-09-05
Publication date: 2019-07-12
Anticipated expiration: 2036-09-05
Also published as: CN106372208A

Abstract

本发明公开了一种基于语句相似度的话题观点聚类方法。本发明可以对互联网中围绕某一话题的主要观点进行聚类，首先利用人机结合的方式构建针对话题的观点词库，然后抽取话题的所有观点语句并利用观点语句的相似度进行观点聚类，最后根据语句平均相似度为每一观点类选取代表观点语句。本发明的优势在于能够确保聚类结果更加多样化和精细化，让用户能更清晰地了解该话题的各方观点及其细节，有效避免观点聚类及描述的模糊性和片面性。

Description

一种基于语句相似度的话题观点聚类方法

技术领域

本发明涉及一种基于语句相似度的话题观点聚类方法，可用于实现互联网热门话题的观点聚类和观点挖掘等，属于计算机网络技术领域。

背景技术

随着移动互联网的飞速发展，网络上的内容信息纷繁复杂，观点多元化特征明显。为了增加对互联网内容话题的深度认知和避免被片面的信息误导，人们越来越需要从大量互联网信息中获取其他人对某一话题的观点，并通过对相关不同观点进行对比，帮助自己做出更加合理的决策。例如，在电子购物时，人们往往需要根据商品评论的倾向性，判断该商品是否值得购买。观点聚类是解决此类问题的主要方法，通过对大量的商品评论进行观点聚类，可以增加用户对商品优点和缺陷的认识，从而更加理性地决策是否应该购买该商品。

传统的观点聚类方法所针对的对象一般是网络短文本，如商品评论、新闻评论、意见征询等观点密度较高的文本。通常的做法是，首先识别出文本中的感情词，然后计算感情词的极性大小，最后通过感情词极性累加求和的方式，获得文本的观点倾向值。但是，由于传统方法在进行观点聚类时的主要依据是文本观点倾向值，所关注的是对特定话题的整体感觉，通常只是将文本分成三类：正面、反面和中性等。因此分类粒度较为粗糙，用户一般只能了解每一类别的极性，而无法了解类别的论点、论据和论证过程。并且，对于观点数量较多的话题，或者难以简单地用正和反来描述观点的话题，传统观点聚类方法的效果有很大局限性，很难满足用户的需求。因此，针对这类应用，亟需设计一种更加精细化的观点聚类方法，以便用户能更清晰地了解某一话题的各方观点及其细节，增加用户见闻，厘清各种观点，避免被片面性的观点所误导等。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供一种基于语句相似度的话题观点聚类方法，可以对围绕某一话题的主要观点进行聚类，确保聚类结果更加多样化和精细化，从而让用户能更清晰地了解该话题的各方观点及其细节，有效避免观点聚类及描述的模糊性和片面性。

技术方案：一种基于语句相似度的话题观点聚类方法，首先利用人机结合的方式构建针对话题的观点词库，然后抽取话题的所有观点语句(包含观点词的语句)并利用观点语句的相似度进行观点聚类，最后根据语句平均相似度为每一观点类选取代表观点语句。具体可以分为三个步骤：

步骤1，构建观点词库。先通过人工方式从互联网中围绕待聚类话题的文本中筛选该话题的种子观点词，之后利用同义词扩展规则对种子观点词进行扩展，最终形成针对该话题的观点词库。

步骤2，话题观点聚类。抽取该话题所有相关文本中的观点语句(包含观点词的语句)，利用语句相似度计算公式计算这些观点语句之间的相似度，再利用自底向上的层次聚类方法完成话题观点聚类。

步骤3，抽取观点代表语句。对于聚类所得的该话题每一观点类，从隶属该观点类的所有观点语句中，按照语句平均相似度最高的原则，选取其中最具代表性的语句作为该观点类的代表观点语句。

有益效果：

1.采用能够反映立场、看法、主张等的观点词作为观点语句的标志，有利于表征和抽取长文本中蕴含观点的多个语句(即观点语句)。

2.通过语句相似度来量化表示观点语句间的相似关系，以此为基础进行观点语句聚类，可以确保聚类结果更加多样化和精细化，并能有效避免观点聚类及其描述的模糊性和片面性。

3.不但能够对话题观点进行聚类，而且能够根据语句平均相似度为每一观点类选取代表观点语句，从而方便用户能更清晰地了解话题主要观点类的论点、论据和论证过程等细节。

附图说明

图1为本发明实施例中种子观点词的示例；

图2为哈工大信息检索研究室《同义词词林扩展版》的五层结构；

图3为本发明实施例所得的观点词库示例；

图4为本发明进行话题观点聚类的计算流程。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明在具体实施时，先通过网络爬虫等工具从互联网采集与待聚类话题相关的文本，然后按照构建观点词库、话题观点聚类、抽取观点代表语句等3个步骤进行观点聚类，具体各步骤的实施如下：

步骤1，构建观点词库。首先根据话题相关文本，通过经验知识、观察阅读与分析等，为待聚类话题选择最基本的“种子”观点词，图1为“种子”观点词的示例。互联网中的内容信息纷繁复杂，但仅通过人工方式筛选搜集的“种子”观点词数量一般较少，因此其覆盖度相对有限，难以构成比较完整、全面的观点词库。所以，本发明采用哈工大信息检索研究室《同义词词林扩展版》建立同义词规则，对经人工方式所得的“种子”观点词进行扩展。

《同义词词林扩展版》是哈尔滨工业大学信息检索实验室在梅家驹等人编撰的《同义词词林》基础上，参照多部电子词典资源及人民日报语料库等所编写的比较权威的汉语同义词词表，一共包含77343条词语。《同义词词林扩展版》将中文词条按照语义的相近性组织成树状层次结构，它所采用的五层结构如图2所示。所有词条都位于树的叶结点上，两个词的距离越近则它们的语义相似度越高；而同一个叶结点下的词条，语义基本相似，彼此互为同义词。借助于同义词规则，进一步对“种子”观点词集合进行扩展，过程如下：

首先，将经人工方式获得的基本“种子”观点词作为初始数据，加入到观点词集合中；然后，根据《同义词词林扩展版》及同义词规则，对观点词集合中的“种子”观点词进行扩展，把“种子”观点词的同义词也加入到观点词集合中；最后，对经扩展所得的观点词集合，再进行一轮人工筛选，确保观点词集合的合理性和有效性。按上述过程最终获得的观点词集合如图3所示。

步骤2，话题观点聚类。首先根据分句规则对网页正文进行分句，然后抽取该话题所有相关文本中的观点语句(包含观点词的语句)，构建该话题的观点语句库。接下来，利用语句相似度计算公式计算这些观点语句之间的相似度，最后利用自底向上的层次聚类方法完成话题观点聚类。该步骤具体又分为4个子步骤，具体实施方式如下：

子步骤2-1，网页正文分句。首先根据分句规则对网页正文进行分句。假设网页集合DS＝{d₁,d₂,d₃,...}，对每一个网页d_i根据以下3条规则进行分句：

分句规则(1)：句子结束符规则。利用句号、叹号、问号作为句子结束符进行分句，拆分出的每一个句子都是一个单句。

分句规则(2)：问号删除规则。当一个单句以问号结尾时，删除该单句。

分句规则(3)：连词和分号规则。当单句中含有分号的时候，使用分号对单句进行拆分；单句中含有“但是”、“而且”等连词的时候，使用连词对单句进行拆分。

子步骤2-2：构建观点语句库。初始化观点语句库对子步骤2-1中每一条拆分出的单句s_i，都遍历观点词集合，判断s_i是否含有观点词。如果s_i含有观点词，则把s_i加入到观点语句库SS中；否则，抛弃s_i。设最后获得的观点语句集合为SS＝{s₁,s₂,s₃,...,s_k}。

子步骤2-3：计算观点语句间的相似度。不失一般性，不妨设SS中任意两条不同的观点语句分别为s_i,s_j。接下来，按照公式(1)计算s_i和s_j之间的语句相似度SimS(s_i,s_j)：

SimS(s_i,s_j)＝SimB(s_i,s_j)·SimR(s_i,s_j) 公式(1)

其中，SimB(s_i,s_j)表示s_i和s_j之间基于词袋模型的语句相似度，SimR(s_i,s_j)表示s_i和s_j之间基于词序关系的语句相似度，它们的具体计算方式如下：

(1)计算s_i和s_j之间基于词袋模型的语句相似度SimB(s_i,s_j)

假定语句s_i和s_j经过分词并去除停用词之后，所得到的单词集合分别是和并且，它们之间的共有单词集合SV_i,j＝SV_i∪SV_j＝{wd₁,wd₂,wd₃,...,wd_t}。则基于词袋模型的语句相似度计算方式如下：

设语句s_i所对应的词袋向量是而语句s_j所对应的词袋向量是其中计算BV_i的分量的公式如下：

公式(2)中的SimW中表示单词之间的相似度，δ表示阀值，在本实施例中取δ＝0.3。对于单词相似度的计算，根据单词wd₁和wd₂是否都被包含在《同义词词林扩展版》中，将单词相似度分为基于字典的单词相似度和基于搜索引擎的单词相似度两类进行计算：

若单词wd₁、wd₂都被包含在《同义词词林扩展版》中，则采用公式(3)计算基于字典的单词相似度：

公式(3)中的Dst(wd₁,wd₂)表示单词wd₁、wd₂在《同义词词林扩展版》中的最短距离，即结点wd₁到结点wd₂最短路径的步数；Dep(wd₁,wd₂)表示wd₁和wd₂的最近公共父结点的深度；α和β代表系数，取α＝0.5，β＝0.2。

若单词wd₁、wd₂不都被包含在《同义词词林扩展版》中时，则采用公式(4)计算基于搜索引擎的单词相似度：

公式(4)中的Doc(wd₁)和Doc(wd₂)分别表示以wd₁和wd₂作为关键词进行搜索时，搜索引擎所返回的文档数量，而Doc(wd₁,wd₂)表示同时以wd₁和wd₂作为关键词进行搜索时，搜索引擎返回的文档数量。

以公式(3)和公式(4)为基础，应用公式(2)计算出词袋向量BV_i和BV_j的具体取值之后，进而计算BV_i和BV_j的相似度SimBV(BV_i,BV_j)，并以它作为语句s_i和s_j之间基于词袋模型的语句相似度SimB(s_i,s_j)。本实施例采用基于余弦相似度的公式(5)，计算词袋向量BV_i和BV_j的相似度：

(2)计算s_i和s_j之间基于词序关系的语句相似度SimR(s_i,s_j)

假定语句s_i对应的词序向量为而语句s_j对应的词序向量为其中计算RV_i的分量的公式如下：

公式(6)中的SimW表示单词之间的相似度，δ表示阀值，本发明中取δ＝0.3；Index(wd_k,SV_i)表示wd_k在词序向量SV_i中的下标，如

应用公式(6)计算出词序向量RV_i和RV_j的具体取值之后，采用公式(7)计算RV_i和RV_j的相似度SimBV(BV_i,BV_j)，并以它作为语句s_i和s_j之间基于词序关系的语句相似度SimR(s_i,s_j)：

子步骤2-4：采用自底向上聚类方法完成观点聚类。具体过程如下：

(1)：首先根据k条观点语句进行初始化，得到k个初始观点类，它们构成的集合VC_Set＝{VC₁,VC₂,VC₃,...,VC_k}；

(2)：计算集合VC_Set中每两个观点类的类间相似度，寻找类间相似度最大的两个观点类(不妨记为VC_i和VC_j)，按照公式(8)计算它们的类间相似度SimVC(VC_i,VC_j)：

接着将SimVC(VC_i,VC_j)的具体取值与阀值λ(本发明取λ＝0.2)进行比较，若大于阀值λ，跳转至(3)，否则，跳转至(4)；

(3)：将观点类VC_j中的观点语句加入观点类VC_i中，并从集合VC_Set中删除VC_j，即完成观点类VC_i和VC_j的合并，然后跳转至(2)；

(4)：完成观点聚类，输出经聚类后的观点类集合VC_Set。

步骤3：抽取观点代表语句。最后，对于聚类所得的该话题每一观点类，从隶属该观点类的所有观点语句中，按照语句平均相似度最高的原则，选取其中最具代表性的语句作为该观点类的代表观点语句，以便用户快速了解每一个观点类的细节。例如，对于观点类VC_i，它的代表观点语句sc_i满足公式(9)：

在上述公式(9)中，Sim_Avg的计算方法如公式(10)所示：

Claims

1.一种基于语句相似度的话题观点聚类方法，其特征在于：首先利用人机结合的方式构建针对话题的观点词库，然后抽取话题的所有观点语句并利用观点语句的相似度进行观点聚类，最后根据语句平均相似度为每一观点类选取代表观点语句；具体可以分为三个步骤：

步骤1，构建观点词库；从互联网中围绕待聚类话题的文本中筛选该话题的种子观点词，之后利用同义词扩展规则对种子观点词进行扩展，最终形成针对该话题的观点词库；

步骤2，话题观点聚类；抽取该话题所有相关文本中的观点语句，利用语句相似度计算公式计算这些观点语句之间的相似度，再利用自底向上的层次聚类方法完成话题观点聚类；

步骤3，抽取观点代表语句；对于聚类所得的该话题每一观点类，从隶属该观点类的所有观点语句中，按照语句平均相似度最高的原则，选取其中最具代表性的语句作为该观点类的代表观点语句；

该步骤2具体又分为4个子步骤：

子步骤2-1，网页正文分句；根据分句规则对网页正文进行分句；

子步骤2-2：构建观点语句库；初始化观点语句库对子步骤2-1中每一条拆分出的单句s_i，遍历观点词集合，判断s_i是否含有观点词；如果s_i含有观点词，则把s_i加入到观点语句库SS中；否则，抛弃s_i；设最后获得的观点语句集合为SS＝{s₁,s₂,s₃,...,s_k}；

子步骤2-3：计算观点语句间的相似度；设SS中任意两条不同的观点语句分别为s_i,s_j；接下来，按照公式(1)计算s_i和s_j之间的语句相似度SimS(s_i,s_j)：

SimS(s_i,s_j)＝SimB(s_i,s_j)·SimR(s_i,s_j) 公式(1)

(1)计算s_i和s_j之间基于词袋模型的语句相似度SimB(s_i,s_j)

假定语句s_i和s_j经过分词并去除停用词之后，所得到的单词集合分别是和并且，它们之间的共有单词集合SV_i,j＝SV_i∪SV_j＝{wd₁,wd₂,wd₃,...,wd_t}，则基于词袋模型的语句相似度计算方式如下：

公式(2)中的SimW中表示单词之间的相似度，δ表示阈值；应用公式(2)计算出词袋向量BV_i和BV_j的具体取值之后，进而计算BV_i和BV_j的相似度SimBV(BV_i,BV_j)，并以它作为语句s_i和s_j之间基于词袋模型的语句相似度SimB(s_i,s_j)；

(2)计算s_i和s_j之间基于词序关系的语句相似度SimR(s_i,s_j)

公式(6)中的SimW表示单词之间的相似度，δ表示阈值；Index(wd_k,SV_i)表示wd_k在词序向量SV_i中的下标；

应用公式(6)计算出词序向量RV_i和RV_j的具体取值之后，采用公式(7)计算RV_i和RV_j的相似度SimRV(RV_i,RV_j)，并以它作为语句s_i和s_j之间基于词序关系的语句相似度SimR(s_i,s_j)：

子步骤2-4：采用自底向上聚类方法完成观点聚类。

2.如权利要求1所述的基于语句相似度的话题观点聚类方法，其特征在于：子步骤2-4的具体过程如下：

(2)：计算集合VC_Set中每两个观点类的类间相似度，寻找类间相似度最大的两个观点类，记为VC_i和VC_j，按照公式(8)计算它们的类间相似度SimVC(VC_i,VC_j)：

接着将SimVC(VC_i,VC_j)的具体取值与阈值λ进行比较，若大于阈值λ，跳转至(3)，否则，跳转至(4)；

(4)：完成观点聚类，输出经聚类后的观点类集合VC_Set。

3.如权利要求2所述的基于语句相似度的话题观点聚类方法，其特征在于：假设网页集合DS＝{d₁,d₂,d₃,...}，对每一个网页d_i根据以下3条规则进行分句：

分句规则(1)：句子结束符规则；利用句号、叹号、问号作为句子结束符进行分句，拆分出的每一个句子都是一个单句；

分句规则(2)：问号删除规则；当一个单句以问号结尾时，删除该单句；

分句规则(3)：连词和分号规则；当单句中含有分号的时候，使用分号对单句进行拆分；单句中含有连词的时候，使用连词对单句进行拆分。

4.如权利要求2所述的基于语句相似度的话题观点聚类方法，其特征在于：对于聚类所得的该话题每一观点类，从隶属该观点类的所有观点语句中，按照语句平均相似度最高的原则，选取其中最具代表性的语句作为该观点类的代表观点语句，以便用户快速了解每一个观点类的细节；对于观点类VC_i，它的代表观点语句sc_i满足公式(9)：

在上述公式(9)中，Sim_Avg的计算方法如公式(10)所示：