CN106294314A

CN106294314A - 主题挖掘方法及装置

Info

Publication number: CN106294314A
Application number: CN201610575339.3A
Authority: CN
Inventors: 鲍昕平; 蔡龙军; 王雷; 丁希晨
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2016-07-19
Filing date: 2016-07-19
Publication date: 2017-01-04

Abstract

本发明提供了一种主题挖掘方法及装置，其中的方法包括：获取待挖掘文本；对文本进行切词处理，得到文档集；针对所述文档集进行特征词筛选，其中，提高亚频词筛选权重、降低高频词筛选权重，所述高频词是指出现频率高于第一频率的词项，亚频词是指出现频率高于第二频率且小于第一频率的词项，所述第一频率和第二频率是预置的值，且第一频率大于第二频率；根据筛选出的特征词，采用主题聚类算法，计算得到各个主题的概率分布。本发明可以提高主题的话题覆盖能力。

Description

主题挖掘方法及装置

技术领域

本发明涉及信息检索技术领域，特别是涉及一种主题挖掘改进方法及装置。

背景技术

随着社交网络产品的发展以及智能设备的普及,使用社交产品的用户群体越来越多，在网络平台上发表的观点及评论数据也变得更加庞大。结合深度及广度内容的主题挖掘可以更好的发现用户关注的内容主题。

内容主题发现技术沿革经历了从LSA、pLSA到文档主题生成模型(LDA，LatentDirichlet Allocation)的过程。LDA之所以成为当前的主流技术，其中主要原因有2个：

1)LDA在语料准备上比监督模型更容易，不需要人工的标注信息；

2)LDA提出了用隐含层(主题层)对文档和词项进行了关联，可更好的对文本内容进行聚类。

但是，由于LDA对分词的处理采用了词袋的方法，使得高频词更容易被随机抽取到。最终使得LDA模型的主题分布会向高频词倾斜，导致能够代表主题的多数词被少量高频词淹没，从而降低了主题的表达能力。另外，LDA实际是将每一篇文档作为一个词频向量，没有考虑词项与词项之间的顺序，使得聚类后的主题没有清晰的逻辑关系，导致用户无法准确的把握主题。

发明内容

为了提高主题表达能力，本发明实施例提供一种主题挖掘改进方法及装置。

一种主题挖掘方法，包括：获取待挖掘文本；对文本进行切词处理，得到文档集；针对所述文档集进行特征词筛选，其中，提高亚频词筛选权重、降低高频词筛选权重；所述高频词是指出现频率高于第一频率的词项，亚频词是指出现频率高于第二频率且小于第一频率的词项，所述第一频率和第二频率是预置的值，且第一频率大于第二频率；根据筛选出的特征词，采用主题聚类算法，计算得到各个主题的概率分布。

优选的，采用如下公式实现所述提高亚频词筛选权重、降低高频词筛选权重：

其中，tfidf(d)表示词项d的筛选权重。

优选的，在计算得到各个主题的概率分布之后，还包括：基于主题的语句相似度，生成主题的候选语句列表。

优选的，所述基于主题的语句相似度，生成主题的候选语句列表，包括：针对一个主题聚类得到的语句堆，计算各语句之间的相似度；选择出相似度大于预定相似度阈值的所有语句，计算各个语句的权重；按照语句的权重从高至低，选择出预置数量的相关语句，生成所述主题的候选语句列表。

优选的，所述计算各语句之间的相似度包括：针对待计算相似度的两个语句，分别针对两个语句中的切词构建两个词项向量；利用余弦相似度计算并判断两个词项向量的相似度，从而得到这两个语句的相似度。

优选的，在对文本进行切词处理之后、得到文档集之前，所述方法还包括：针对切词得到的词项进行垃圾内容过滤，由过滤后的词项构成文档集。

优选的，所述针对切词得到的词项进行垃圾内容过滤，包括：针对词项进行停用词过滤；和/或，针对词项进行高频词过滤；和/或，针对词项进行广告、推销、游戏内容的过滤。

一种主题挖掘装置，包括：文本获取单元，用于获取待挖掘文本；切词单元，用于对文本进行切词处理，得到文档集；特征词筛选单元，用于针对所述文档集进行特征词筛选，其中，提高亚频词筛选权重、降低高频词筛选权重；所述高频词是指出现频率高于第一频率的词项，亚频词是指出现频率高于第二频率且小于第一频率的词项，所述第一频率和第二频率是预置的值，且第一频率大于第二频率；主题聚类单元，用于根据筛选出的特征词，采用主题聚类算法，计算得到各个主题的概率分布。

优选的，所述特征词筛选单元具体用于，采用如下公式实现所述提高亚频词筛选权重、降低高频词筛选权重：

其中，tfidf(d)表示词项d的筛选权重。

优选的，还包括：相似语句候选单元，用于基于主题的语句相似度，生成主题的候选语句列表。

优选的，所述相似语句候选单元具体用于，针对一个主题聚类得到的语句堆，计算各语句之间的相似度；并选择出相似度大于预定相似度阈值的所有语句，计算各个语句的权重；以及，按照语句的权重从高至低，选择出预置数量的相关语句，生成所述主题的候选语句列表。

优选的，所述相似语句候选单元具体用于，针对待计算相似度的两个语句，分别针对两个语句中的切词构建两个词项向量；利用余弦相似度计算并判断两个词项向量的相似度，从而得到这两个语句的相似度。

优选的，所述装置还包括：垃圾内容过滤单元，用于针对切词得到的词项进行垃圾内容过滤，由过滤后的词项构成文档集。

优选的，所述垃圾内容过滤单元具体用于，针对词项进行停用词过滤；和/或，针对词项进行高频词过滤；和/或，针对词项进行广告、推销、游戏内容的过滤。

可见，本发明上述实施例通过增加亚频词的权重而同时降低高频词的权重，可以使得聚类的主题表达更丰富，提高主题的话题覆盖能力。

在优选方案中，首先对获取的文本进行垃圾内容过滤，提高主题质量，然后通过改善特征词权重的步骤，增强主题的话题覆盖能力。最后针对主题聚类后的语句，根据语句与其他语句的相似度大小去判断语句在评论文本中的重要程度，通过语句的重要程度语句排序，可以有助于更好的理解主题。

附图说明

图1是本发明一个实施例提供的一种主题挖掘方法流程图；

图2是本发明另一个实施例提供的一种主题挖掘方法流程图；

图3是本发明一个实施例提供的一种主题挖掘装置结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供一种主题挖掘方法，旨在改进现有的主题挖掘方法，使挖掘的主题内容更加丰富、准确。

参见图1，为本发明实施例提供的一种主题挖掘方法流程图，该方法包括：

S101：获取待挖掘文本。

其中，待挖掘的文本一般是指从互联网评论平台中获取的文本，例如，在某影视APP中获取的针对某个电视剧的评论。文本主要是文字，以及还包括将表情符会转意成的文字。

S102：对文本进行切词处理，得到文档集。

中文切词(又称中文分词，Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词项进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。除了对中文进行切词，本发明方案还适用于对英文进行切词，例如，可采用Porter stemmer等算法对英文进行切词。本发明方案对中文和英文都适用，但是为了说明方便，主要以中文切词进行说明。

每个文档可看作一个词项序列，例如，文档d看作一个词项序列<w1,w2,...,wn>，wi表示第i个词，设d有n个词。文档集，顾名思义，是由多个文档构成的集合。

在具体操作中，可以使用切词工具进行切词处理。切词工具可以是开源系统中任意一种模型如条件随机场模型。例如，针对影视剧评论的主题挖掘，可使用考虑影视剧中特有的新词如“五毛特效”，“七星鲁王宫”等专有词汇的工具。

S103：针对文档集进行特征词筛选，其中，提高亚频词筛选权重、降低高频词筛选权重；其中，高频词是指出现频率高于第一频率的词项，亚频词是指出现频率高于第二频率且小于第一频率的词项，第一频率和第二频率是预置的值，且第一频率大于第二频率。

所谓特征词，是最能表达主题的词。

现有的对文本主题聚类问题的应用技术主要是LDA，LDA构建了“文档->主题->分词”三层贝叶斯概率模型，对文本进行概率聚类，最终可以得到文档有几个主题、几个主题的占比、每个主题下分词占的比重有多少。对特征词的选取，主要有tf方法及tf-idf方法。传统的tf-idf方法是(ft/max_ft)*log(ncorpus/ndocs)，也有文献使用高斯加权公式对文档中的每个词项进行加权：am＝exp(fm-fi)^2/(2*delt^2),fi是平均词频，fm是词项m的词频。可见，在现有LDA中，采用词袋方法进行随机取词，这一方式使得无意义没有表达观点的扰乱高频词更容易被随机抽取到，最终使得LDA模型的主题分布向高频词倾斜，导致能够代表主题的多数词被少量高频词淹没，使主题的表达能力降低。

本发明中，通过降低这些无意义的高频词的权重，提高有主题表达意见的亚高频词的权重来增加亚高频词被选中的概率，目的是容纳尽可能丰富的信息，尽可能覆盖话题的多个侧面。

其中，“高频词”是在多数文本(评论)中重复出现的无观点性词，比如，在针对一个影视剧的评论中，该影视剧的名称或某位主演的姓名被反复提及，显然它不具有评论的实质性观点。“亚频词”是在某些评论中反复提及但是并不是在每一个评论中都提及的具有观点性的词。由于每个人从不同角度去评论/分析一件事，角度不同，观点不同，每个观点都会集中体现在一些词语上，通过将这些词语提取出来，可以很全面的吸收各个角度的评论。本发明中，可以通过判断词出现的频率的方式确定出高频词和亚频词。例如，高频词是指出现频率高于第一频率的词，亚频词是指出现频率高于第二频率且小于第一频率的词，所述第一频率和第二频率是预置的值，且第一频率大于第二频率。

应用主题聚类算法(如LDA)之前，现有构建文档-词项矩阵时，文档-词项矩阵的构建先通过切词合并文档中出现的所有词项，这一步叫除重唯一化。然后，除重后的词项构成文档-词矩阵的列特征向量，评论文本则作为行向量。这样每条评论文档经切词后都能在列特征向量中对应自己的位置。出现一次，词项的频率就会加一次。通过统计词项在所有文档的频率，构成文档-词项矩阵。

本发明中，通过加强在文档中那些出现的次数少、表现丰富的亚频词的权重，来提高主题词的表达能力。

具体的，可采用如下公式实现所述提高亚频词筛选权重、降低高频词筛选权重：

其中，tfidf(d)表示词项d的筛选权重。

从上面的tf-idf公式可以看出，如果一个词项出现的次数较少，它的权重值会比频繁出现的词项的tf-idf高。这样，就可以提高亚频词项的权重，从而使选出的词项更丰富，而不是仅仅根据词项的频率去判断。

S104：根据筛选出的特征词，采用主题聚类算法，计算得到各个主题的概率分布。

对于采取何种主题聚类算法，本发明不做限制，例如可以采用较为流行的LDA算法，当然也可以采用其他聚类算法，例如，LSA、pLSA、K-means、unigram、Mixture ofunigram、层次聚类、SOM聚类、FCM等等。

可见，本发明上述实施例通过增加亚频词的权重而同时降低高频词的权重，可以使得聚类的主题表达更丰富，即提高主题的话题覆盖能力。

在上述方案基础上，本发明还可以对主题聚类涉及的其他环节进行改进，从而进一步提升聚类效率或效果。

参见图2，为本发明另一实施例提供的主题聚类方法流程图，其中，与图1实施例相比，主要区别在于步骤S203和S206。下面从这两点区别进行展开描述，对于其余相似的地方则不赘述。

该方法包括：

S201：获取待挖掘文本。

S202：对文本进行切词处理。

S203：针对切词得到的词项进行垃圾内容过滤，由过滤后的词项构成文档集。

步骤S203中所谓的针对切词得到的词项进行垃圾内容过滤，主要包括三个方面的内容过滤：一是针对停用词的过滤；二是针对高频词的过滤；三十针对广告、推销、游戏等内容的过滤。

首先，通过停用词列表进行停用词过滤。停用词列表指的是汇总的语气助词、副词、介词、连接词、冠词等无实际意义的词汇表。然后，可进行高频词过滤。高频词指的是在一部剧评论中，经常讨论的词，一般为电影名、演员姓名等。最后，利用标注的数据进行垃圾分类器训练，对诸如广告、推销、游戏内容进行过滤。其中标注数据的正样本主要来自于权威评论网站(如：豆瓣评论)，负样本主要来自于微博评论(如：广告、推销、体育彩票、游戏，等)。分类器可以是朴素贝叶斯分类器，也可以逻辑回归等其他分类算法。

上述从三个方面介绍了内容过滤，实际上，可以仅实施其中一个或两个，也可以达到一定的垃圾内容过滤效果。当然，上述仅是示例性描述，并不限于上述的过滤内容和方式以及顺序。

S204：针对文档集进行特征词筛选，其中，提高亚频词筛选权重、降低高频词筛选权重。

S205：根据筛选出的特征词，采用主题聚类算法，计算得到各个主题的概率分布。

S206：基于各主题下语句相似度，生成各主题的候选语句列表。

现有的主题聚类方法(如LDA)中，是基于词袋的随机取词方法，将每一篇文档构成一个词频向量，没有考虑词与词之间的顺序，使得聚出的主题没有一种很清晰的逻辑关系，导致用户无法准确的把握主题。对于LDA聚出的主题，假如文档集本身分类主题比较清楚，则LDA可以很好的聚出相应的类别，而且主题区分也比较清晰(不同主题，特征词的差别明显)，但是对于主题混合不是很清楚的，往往聚出的主题很难去解读。当前的聚类方法主要是找出各个主题中的中心对应的关键语句作为主题句。由于语句向量之间没有语义的区分，这种按照距离聚类容易造成异词同义句之间的距离差别较大。

因此，本发明从语句的相似度入手，根据语句与其他语句的相似度大小去判断语句在评论文本中的重要程度。通过重要语句排序，帮助用户更好的理解主题。

步骤S206中“基于各主题下语句相似度，生成各主题的候选语句列表”，可以通过如下步骤实现：

(1)针对一个主题聚类得到的语句堆，计算各语句之间的相似度；

其中，语句堆，顾名思义，可以理解是多个(一堆)语句构成的语句集合。

计算语句之间相似度的方式可以是：

针对待计算相似度的两个语句，分别针对两个语句中的切词构建两个词项向量；利用余弦相似度计算并判断两个词项向量的相似度，从而得到这两个语句的相似度。

(2)选择出相似度大于预定相似度阈值的所有语句，计算各个语句的权重；

(3)按照语句的权重从高至低，选择出预置数量的相关语句，生成主题的候选语句列表。

下面以LDA聚类为例，描述步骤S206的具体实现。

首先通过LDA聚类，可以得到所有语句在聚出类别中的排序。然后执行以下步骤实现步骤S206。

1)将LDA推荐的语句切词生成向量空间模型(Vector Space Model)；

2)计算语句的相似度，得到语句的相似度矩阵；

语句是LDA聚类后的一堆语句。相似度矩阵，例如是指某社交APP的评论句与其他语句的相似程度矩阵。计算相似度时，也是先将切词构建词项向量，然后利用余弦相似度计算来判断两个词项向量(也就是之前的经切词的语句)的相似度程度，从而得到这两个语句的相似程度。通常词项向量夹角越小，表示两个语句就越相似。

具体的，计算语句的相似度中，可设两个语句A和B，A、B是LDA聚类后，同一主题下的任意2个语句，它们所有有效词构成向量空间为的V＝{X₁,X₂,…,X_n}，语句A对应的向量V_A＝{w₁,w₂,…,w_n}，其中wi是语句A中有效词Xi对应的tfidf值，语句B对应的向量其中是语句B中有效词Xi对应的tfidf值。则两个语句的相似度为

3)利用LexRank计算语句的权重；

计算语句权重时，把语句当成图模型方法(Graphic Models，由点和线组成的用以描述系统的图形的方法)中的节点看待，语句之间的相似度当成边看待。根据相似度矩阵，可以指定一个阈值，高于该阈值就表明语句之间有联系。也就说2个节点(2个语句)之间存在一条边。如果一个节点(语句)与其他节点(语句)有边存在，也就是说，该语句与其他句都有联系，该语句包括的信息量也就多，那该语句的权重就高。反之亦然。

4)根据语句的权重按由高到低排序，得到候选语句列表。

可见，步骤S206的目的是，不同于现有技术中每个主题下一堆语句毫无逻辑关系而堆放的状态，而是从这些语句中选取数个(例如5个)相关的语句进行展示，这些被选取的语句一般是包含该主题下关键词最多的语句，即具有相似度且权重靠前的语句。

上述参考图2对本发明实施例进行了介绍。实际上，上述两个追加改进点(S203和S206)仅实施一个即可达到相应的效果。可以理解，图2方案是较优选的方式，但并不是限定本发明方案仅限于此方式。

在上述图2所示的方案中，首先对获取的网络数据进行文本内容过滤。过滤掉无关的内容然后构建文档-词项矩阵，然后对tf-idf权重进行改造，使之能增大那些词频低但含有丰富信息量的词项，而不至于被高频词淹没掉，从而增强了主题发现的话题覆盖能力，最后针对主题聚类后的语句，利用图模型方法，从语句的相似度入手，根据语句与其他语句的相似度大小去判断语句在评论文本中的重要程度，通过重要语句排序，有助于更好的理解主题。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，是本发明实施例提供的一种主题挖掘装置结构示意图。该装置包括：

文本获取单元301，用于获取待挖掘文本；

切词单元302，用于对文本进行切词处理，得到文档集；

特征词筛选单元303，用于针对所述文档集进行特征词筛选，其中，提高亚频词筛选权重、降低高频词筛选权重；所述高频词是指出现频率高于第一频率的词项，亚频词是指出现频率高于第二频率且小于第一频率的词项，所述第一频率和第二频率是预置的值，且第一频率大于第二频率；

主题聚类单元304，用于根据筛选出的特征词，采用主题聚类算法，计算得到各个主题的概率分布。

优选的，所述特征词筛选单元303具体用于，采用如下公式实现所述提高亚频词筛选权重、降低高频词筛选权重：

其中，tfidf(d)表示词项d的筛选权重。

优选的，该装置还包括：

相似语句候选单元305，用于基于主题下语句的相似度，生成该主题的候选语句列表。

优选的，所述相似语句候选单元305具体用于，针对一个主题聚类得到的语句堆，计算各语句之间的相似度；并选择出相似度大于预定相似度阈值的所有语句，计算各个语句的权重；以及，按照语句的权重从高至低，选择出预置数量的相关语句，生成所述主题的候选语句列表。

优选的，所述相似语句候选单元305具体用于，针对待计算相似度的两个语句，分别针对两个语句中的切词构建两个词项向量；利用余弦相似度计算并判断两个词项向量的相似度，从而得到这两个语句的相似度。

优选的，所述装置还包括：

垃圾内容过滤单元306，用于针对切词得到的词项进行垃圾内容过滤，由过滤后的词项构成文档集。

优选的，所述垃圾内容过滤单元306具体用于，针对词项进行停用词过滤；和/或，针对词项进行高频词过滤；和/或，针对词项进行广告、推销、游戏内容的过滤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种关系型数据库的调度方法及系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种主题挖掘方法，其特征在于，包括：

获取待挖掘文本；

对文本进行切词处理，得到文档集；

针对所述文档集进行特征词筛选，其中，提高亚频词筛选权重、降低高频词筛选权重；所述高频词是指出现频率高于第一频率的词项，亚频词是指出现频率高于第二频率且小于第一频率的词项，所述第一频率和第二频率是预置的值，且第一频率大于第二频率；

根据筛选出的特征词，采用主题聚类算法，计算得到各个主题的概率分布。

2.如权利要求1所述的方法，其特征在于，采用如下公式实现所述提高亚频词筛选权重、降低高频词筛选权重：

其中，tfidf(d)表示词项d的筛选权重。

3.如权利要求1所述的方法，其特征在于，在所述计算得到各个主题的概率分布之后，还包括：

基于主题的语句相似度，生成主题的候选语句列表。

4.如权利要求3所述的方法，其特征在于，所述基于主题的语句相似度，生成主题的候选语句列表，包括：

针对一个主题聚类得到的语句堆，计算各语句之间的相似度；

选择出相似度大于预定相似度阈值的所有语句，计算各个语句的权重；

按照语句的权重从高至低，选择出预置数量的相关语句，生成所述主题的候选语句列表。

5.如权利要求4所述的方法，其特征在于，所述计算各语句之间的相似度包括：

针对待计算相似度的两个语句，分别针对两个语句中的切词构建两个词项向量；

利用余弦相似度计算并判断两个词项向量的相似度，从而得到这两个语句的相似度。

6.如权利要求1所述的方法，其特征在于，在对文本进行切词处理之后、得到文档集之前，所述方法还包括：

针对切词得到的词项进行垃圾内容过滤，由过滤后的词项构成文档集。

7.如权利要求6所述的方法，其特征在于，所述针对切词得到的词项进行垃圾内容过滤，包括：针对词项进行停用词过滤；和/或，针对词项进行高频词过滤；和/或，针对词项进行广告、推销、游戏内容的过滤。

8.一种主题挖掘装置，其特征在于，包括：

文本获取单元，用于获取待挖掘文本；

切词单元，用于对文本进行切词处理，得到文档集；

特征词筛选单元，用于针对所述文档集进行特征词筛选，其中，提高亚频词筛选权重、降低高频词筛选权重；所述高频词是指出现频率高于第一频率的词项目，亚频词是指出现频率高于第二频率且小于第一频率的词项，所述第一频率和第二频率是预置的值，且第一频率大于第二频率；

主题聚类单元，用于根据筛选出的特征词，采用主题聚类算法，计算得到各个主题的概率分布。

9.如权利要求8所述的装置，其特征在于，所述特征词筛选单元具体用于，采用如下公式实现所述提高亚频词筛选权重、降低高频词筛选权重：

其中，tfidf(d)表示词项d的筛选权重。

10.如权利要求7所述的装置，其特征在于，还包括：

相似语句候选单元，用于基于主题的语句相似度，生成主题的候选语句列表。

11.如权利要求9所述的装置，其特征在于，所述相似语句候选单元具体用于，针对一个主题聚类得到的语句堆，计算各语句之间的相似度；并选择出相似度大于预定相似度阈值的所有语句，计算各个语句的权重；以及，按照语句的权重从高至低，选择出预置数量的相关语句，生成所述主题的候选语句列表。

12.如权利要求11所述的装置，其特征在于，所述相似语句候选单元具体用于，针对待计算相似度的两个语句，分别针对两个语句中的切词构建两个词项向量；利用余弦相似度计算并判断两个词项向量的相似度，从而得到这两个语句的相似度。

13.如权利要求7所述的装置，其特征在于，所述装置还包括：垃圾内容过滤单元，用于针对切词得到的词项进行垃圾内容过滤，由过滤后的词项构成文档集。

14.如权利要求13所述的装置，其特征在于，所述垃圾内容过滤单元具体用于，针对词项进行停用词过滤；和/或，针对词项进行高频词过滤；和/或，针对词项进行广告、推销、游戏内容的过滤。