CN103870474B

CN103870474B - 一种新闻话题组织方法及装置

Info

Publication number: CN103870474B
Application number: CN201210534034.XA
Authority: CN
Inventors: 彭卫华; 王亚伟; 韩兴凯; 陈洪亮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-12-11
Filing date: 2012-12-11
Publication date: 2018-06-08
Anticipated expiration: 2032-12-11
Also published as: CN103870474A

Abstract

本发明公开了一种新闻话题组织方法及装置，一种新闻话题组织方法包括：获取距当前时刻TW1时段内所发布的新闻文档，根据文档内容对所获取的新闻文档进行聚类，生成若干类簇；获取已当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题，判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值；如果是，则对新生成的类簇内容与相应的新闻话题内容进行合并；如果否，则针对新生成的类簇创建新的新闻话题。应用本发明方案，可以更好地满足用户阅读新闻时的时效性需求。

Description

一种新闻话题组织方法及装置

技术领域

本发明涉及互联网技术领域，特别是涉及一种新闻话题组织方法及装置。

背景技术

随着互联网的飞速发展，网络上的信息量也呈爆炸性增长。其中，在互联网阅读新闻已经成为人们获取信息的重要手段。面对海量的互联网新闻，如何令用户快速、准确地从中获取自身所关注的信息，特别是最近一段时间发生的热点或重大事件，已经成为当前一个重要的研究方向。

根据现有技术的实现方式，对于一定数量的新闻，可以采用特定的算法进行聚类，然后根据聚类结果辅以人工整理，得到若干新闻话题分类。这种方案可以在一定程度把内容相关联的新闻归为同类，以便用户有选择、有针对性地阅读。

然而，对于新闻消息而言，“时效性”是一个重要的特性，例如：如果一些新闻消息如果过去很久，有可能是事件已经停止了，用户的实际关注度也会降低；也可能是事情还在继续发展，但是用户具体关注的中心主题发生了偏移。现有技术仅仅是静态地对已有的新闻进行聚类，因此无法满足用户对新闻话题阅读的时效性要求。

发明内容

为解决上述技术问题，本发明实施例提供一种新闻话题组织方法及装置，技术方案如下：

本发明实施例提供一种新闻话题组织方法，该方法包括：

获取距当前时刻TW1时段内所发布的新闻文档，根据文档内容对所获取的新闻文档进行聚类，生成若干类簇；

获取已当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题，判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值；

如果是，则对新生成的类簇内容与相应的新闻话题内容进行合并；

如果否，则针对新生成的类簇创建新的新闻话题；

其中，TW1和TW2均为预设的时间长度，TW1＜TW2。

根据本发明的一种具体实施方式，所述对所获取的新闻文档进行聚类，具体实现为：

利用层次聚类算法，对所获取的新闻文档进行聚类。

根据本发明的一种具体实施方式，所述判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值，具体实现为：

利用单遍聚类算法，判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值。

根据本发明的一种具体实施方式，在对新生成的类簇内容与相应的新闻话题内容进行合并之后，还包括：

根据合并结果，计算该新闻话题的新聚类中心，所述聚类中心内容用于生成该新闻话题的子话题。

根据本发明的一种具体实施方式，所述根据合并结果，计算该新闻话题的新聚类中心，具体实现为：

判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第二阈值，如果是，则根据合并结果计算新的聚类中心；其中，所述第二阈值不小于所述第一阈值。

本发明实施例还提供一种新闻话题组织装置，该装置包括：第一聚类单元、第二聚类单元、话题合并单元和话题创建单元；

第一聚类单元，用于获取距当前时刻TW1时段内所发布的新闻文档，根据文档内容对所获取的新闻文档进行聚类，生成若干类簇；

第二聚类单元，用于获取已当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题，判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值；

如果是，则触发所述话题合并单元对新生成的类簇内容与相应的新闻话题内容进行合并；

如果否，则触发所述话题创建单元针对新生成的类簇创建新的新闻话题；

其中，TW1和TW2均为预设的时间长度，TW1＜TW2。

根据本发明的一种具体实施方式，所述第一聚类单元，具体用于：

利用层次聚类算法，对所获取的新闻文档进行聚类。

根据本发明的一种具体实施方式，所述第二聚类单元，具体用于：

利用单遍聚类算法，对新生成的类簇内容与相应的新闻话题内容进行合并。

根据本发明的一种具体实施方式，所述话题合并单元，还用于：

在对新生成的类簇内容与相应的新闻话题内容进行合并之后，根据合并结果，计算该新闻话题的新聚类中心，所述聚类中心内容用于生成该新闻话题的子话题。

根据本发明的一种具体实施方式，所述话题合并单元，具体用于：

本发明实施例提供了一种基于双时间窗和二次聚类的新闻话题组织方法。首先利用第一次聚类，针对最近一段时间内的新闻生成若干类簇，由于新闻流存在边缘效应，即相比其它发布时间间隔较远的消息，发布时间间隔较近的消息更有可能是讨论相关的话题，因此利用第一时间窗TW1限制第一次聚类的范围，可以更有效地生成潜在的新闻话题。进一步利用第二次聚类，判断最新生成的类簇是合并到之前创建的某个话题中，还是需要新创建一个话题，第二次聚类的范围利用第二时间窗TW2来限定，避免与很多已经结束的话题进行比较，不仅可以提高计算效率，而且最终组织出的话题结果也能够更好地满足用户阅读新闻时的“时效性”需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例新闻话题组织方法的一种流程图；

图2为本发明实施例聚类算法的一种示意图；

图3为本发明实施例新闻话题组织装置的一种结构示意图。

具体实施方式

首先对本发明实施例所提供的一种新闻话题组织方法，该方法包括：

如果否，则针对新生成的类簇创建新的新闻话题。

上述方案提供了一种基于双时间窗和二次聚类的新闻话题组织方法。首先利用第一次聚类，针对最近一段时间内的新闻生成若干类簇，由于新闻流存在边缘效应，即相比其它发布时间间隔较远的消息，发布时间间隔较近的消息更有可能是讨论相关的话题，因此利用第一时间窗TW1限制第一次聚类的范围，可以更有效地生成潜在的新闻话题。进一步利用第二次聚类，判断最新生成的类簇是合并到之前创建的某个话题中，还是需要新创建一个话题，第二次聚类的范围利用第二时间窗TW2来限定，避免与很多已经结束的话题进行比较，不仅可以提高计算效率，而且最终组织出的话题结果也能够更好地满足用户阅读新闻时的“时效性”需求。

为了使本领域技术人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行详细地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明保护的范围。

图1所示，为本发明实施例所提供的一种新闻话题组织方法的流程示意图，该方法可以包括以下步骤：

S101，获取距当前时刻TW1时段内所发布的新闻文档，根据文档内容对所获取的新闻文档进行聚类，生成若干类簇；

根据新闻报导的一般特性，描述同一话题的新闻报道会集中在一段时间内发布的，为了对这一段的时间内的信息进行处理，本发明实施例所提供的方案是：在新进来的新闻报道流里加一个时间窗，在这个时间窗内等待或缓冲新闻流。等到这个时间窗到达结尾时，再对这个时间窗内的新闻报道进行局部聚类，形成一些候选的话题簇。每个候选话题簇既可能描述了一个新事件，也可能是某个旧话题中的相关事件。后续可以利用这些新生成的候选话题簇与之前的旧话题比较相似度，进行归并或生成新话题。

这里定义的时间窗（Time Window）是指某个时间段内的长度，可以以天数或小时为单位，本发明实施例共涉及两个时间窗，对于上述出现的第一个时间窗，记为TW1，TW1可以预先根据实际的话题更新需求进行设置，例如设置TW1=1天。

新出现的新闻报导，其涉及内容五花八门，为了实现更好的聚类效果，在本发明的一种优选实施方式中，在时间窗TW1内，可以使用HAC（凝聚式层次聚类）算法对最新的新闻文档进行聚类。这种算法相比基于划分的聚类算法（例如K-means）来说，不需要事先指定簇的数目，而且聚类准确率更高，因此更适用于内容存在较大不确定性的最新报道的处理。

在时间窗TW1内使用HAC算法是一个局部聚类的过程，其输入是TW1时间窗内的文档集docSet，输出是TW1时间窗内的候选话题簇集合C，基本处理过程描述如下：

如果存在历史DF（文档频率）记录，则首先在内存中加载该记录，该记录的格式是“词条—文档ID列表”，如表1所示：

词条	文档ID
		军令	8896,9418,9420,9519,9523
军区	9942,12454,13230,15440,15786
		军医	40830,41068,45021,45542
军售	47205,49452,50109
		军团	829,1939,1943,2241,2290,2294
......

表1

对TW1内的文档集docSet进行包括分词、去除停用词等预处理操作，生成词频向量；然后使用式(1)所示的增量IDF（逆文档频率）模型来对已有的文档频率进行更新；

其中df_t(w)表示词条w在t时刻的文档频率，df_t-1(w)表示词条w在时间t-1时刻（即前一次更新的时刻）的文档频率，df_Ct(w)表示词条w在t时刻在候选话题簇集合C中（即C_t内包含词条w的文档数）的文档频率。

使用式(2)所示的加权公式对每篇文档D_i（D_i∈docSet(i＝1,2,...,n)的特征项进行加权，n是docSet的文档数；

其中f(d,w)表示词条w在新闻报道d中的频率，N_t是时间t时刻的所有新闻报道的数目，而Z_t(d)是一个归一化值，定义为：

将每篇文档D_i初始化为一个类簇C_i，即令C₁＝D₁,...,C_n＝D_n(C_i∈C)，C_i的聚类中心即为D_i的带权值特征向量＜t_i，1：w_i,1;t_i，2：w_i,2;...;t_i，m:w_i,m>；其中t_i，1表示C_i中第一个词条t_i，1，w_i,1为对应的词条权重。

使用式(4)所示的公式计算两两类簇之间的相似度sim_t(C_i,C_j)，依次插入到最大堆MaxHeap。

将MaxHeap堆顶元素的值与预设的阈值θ_tw1进行比较，根据比较结果输出聚类结果：

如果则计算结束，将最新的DF的信息保存到历史DF记录上，然后把集合C的所有类簇作为结果输出；

如果则把属于C_j的新闻报道元素归并到C_i中，重新计算C_i的聚类中心，以便将与其他成员过于分散的成员从类簇中去除，如图2所示。然后把权值低于某个阈值（比如0.01）的特征去掉，从而实现去除会影响聚类精度的噪声词条，并且降低聚类计算复杂度。把C_j从类簇集合C中移除，接着把与C_i、C_j计算过相似度的元素从MaxHeap移除，重新计算C_i与其他类簇的相似度，再压入MaxHeap中。

对时间窗TW1内的文档集docSet，利用上述算法进行计算后，最终输出为若干类簇：C₁，C₂,C₃......其中每个类簇代表一个候选的话题，对于图2b所示的情况，每个离群点也分别会作为一个类簇输出，实际对应的是一些相关报道很少的冷门话题。

经过对时间窗TW1的新闻流进行局部聚类后形成了一系列的候选话题簇。这样做除了为后面与旧话题归并的过程带来了批处理的方便外，还充分考虑到了新闻流的“边缘效应（Side Effect）”特性，即在新闻流中，相比其它发布时间间隔较远的报道，发布时间间隔较近的报道更有可能是讨论相关的话题，因此利用第一时间窗TW1限制第一次聚类的范围，可以更有效地生成潜在的新闻话题。

S102，获取已当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题，判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值；如果是，执行S103，否则执行S104；

S103，对新生成的类簇内容与相应的新闻话题内容进行合并；

S104，针对新生成的类簇创建新的新闻话题。

任何新闻话题都有其生命周期，如果直接使用在TW1内局部聚类生成候选话题簇与之前所有的旧话题计算相似度，会与很多已经结束的话题作无意义的比较，不仅计算量巨大，而且在计算过程中很多已经结束的话题需要占据着大量内存，严重影响计算性能。为解决该问题，本发明实施例使用了第二个时间窗TW2限制与TW1中生成的候选话题比较的旧话题的数量。TW2可以根据话题的一般生存期限进行设置，例如设置TW2=30天，可见，TW2一般应该明显大于TW1。

在本发明实施例中，对“旧话题”的定义是：当前已经创建的话题。如果某个旧话题在距当前时刻TW2时段内没有发生内容更新，说明该话题已经过于陈旧，不会用来与新的话题进行比较，反之，如果某个旧话题在距当前时刻TW2时段内发生过内容更新，则说明该话题对应的事件仍然处在发展进程中，需要与新的话题比较并且对话题内容进行更新。

将新话题与旧话题归并的过程和在TW1内的局部聚类不同，旧话题虽然有TW2时间窗的限制，但由于TW2事件跨度较大，所积累的话题数量还是非常庞大的。如果采用时间复杂度较高的聚类算法（例如HAC），会对处理性能造成一定影响。

在本发明的一种实施方式中，在时间窗TW2内，可以使用Single-Pass（单遍聚类）算法，对新生成的话题类簇与旧话题进行合并。单遍聚类的算法思想主要是：如果当前没有存在的类簇，则当前要处理的第一篇文档d₁作为第一个类簇C₁；如果已存在类簇集合C，则把d₁与C中所有类簇计算相似度，取最大的相似度sim_max，如果sim_max大于预先给定的阈值θ，则把d₁归并到与其相似度为sim_max的类簇中；否则把d₁作为新类簇生成；重复以上过程直到将所有需要处理的文档处理完毕。

单遍聚类算法属于非层次聚类，其聚类过程是一个迭代过程，算法效率较高，适合于处理数据规模较大的语料；另一方面，单遍聚类对处理的数据顺序很敏感，数据顺序不同，最后的聚类结果一般都不同，这一特性很适合新闻流对时间顺序的敏感性，能够更好地满足将“新话题”合并到“旧话题”的实际应用需求。

在时间窗TW2内使用单遍聚类算法，输入为TW2内的旧话题oldTopicsInTW2、TW1内的新话题集合新闻报道newTopicsInTW1，输出为更新后的话题集合T。

首先利用TW1内的的聚类结果构成候选话题簇candidateClusters，并对其按各候选话题簇中最新一篇报道的发布时间，按照从新到旧的顺序进行排列：C_cand1,C_cand2,...,C_candm，其中m是candidateClusters类簇的数目；

先设一变量i(i∈[1,m])，初始化令i＝1，对于任意的i值，可能出现以下几种分支情况：

分支a）：如果oldTopicsInTW2为空，即n＝0（n为oldTopicsInTW2中话题的数目），则把C_candi作为一个新话题，加入到oldTopicsInTW2中；

分支b）：如果oldTopicsInTW2不为空，则把C_candi与oldTopicsInTW2里的所有话题使用公式(4)依次计算相似度，假设其中相似度的最大的两个类簇分别是C_candi和C_oldj（C_oldj∈oldTopicsInTW2(j＝1,2,...,n)），其中，相似度值为sim_t(C_candi，C_oldj)；

分支b1）：

如果sim_t(C_candi,C_oldj)大于或等于预先给定的阈值θ_tw2，则把C_candi的成员归入C_oldj的成员里。

分支b2）：

如果sim_t(C_candi,C_oldj)小于预先给定的阈值θ_tw2，则把C_candi当作一个新话题生成，并把C_candi加入到oldTopicsInTW2；

对于任意的i值，完成上述分支后，令n←n+1，然后重复上述分支判断，直到i＝m，即遍历所有的新话题后，算法结束。

可以理解的是，S102-S104都是第二次聚类算法的描述，上述的分支b1对应S103的情况，分支b2则对应S104的情况，分支a中由于不存在旧话题，因此相似度为0，也应视为S104的一种特殊情况。

对于一个较大的事件，随着时间的推移，可能事件关注的重点也会不断变化，例如“美国总统竞选”这一事件，可能会经历拉票→投票→结果宣布等过程，其中，每一个阶段都可以形成整个话题下的一个子话题。为了体现子话题随时间的变化特性，在本发明的一种优选实施方式中，在将新话题内容与旧话题内容合并后，由于该话题的聚类成员发生了变化，因此聚类中心也可能发生相应变化，通过重新计算聚类中心，可以挖据出新的新的子话题。

由于聚类本质上是一种近似计算，难免会在一个类簇中引入一些与主题相关性较小的文档，这种情况下，如果频繁对聚类更新并且更新子话题，可能会造成“话题偏移”现象，因此本发明的一种优选实施方式中，对子话题的更新频率进行控制：仅当新引入话题的内容与原话题的内容“非常相似”的情况下，才对聚类中心进行更新，从而避免话题偏移现象。具体而言，可以设置一个相似度阈值θ_up，并且设置θ_tw2＜θ_up，仅当新生成的类簇内容与旧话题的相似度大于θ_up时，才执行聚类中心更新的计算操作。

假设需要更新的旧话题簇为originCluster，新生成的类簇为addInCluster，则聚类中心的具体更新过程如下所示：

首先设size_o为originCluster的成员个数、size_a为addInCluster的成员个数；commonTermSet为originCluster和addInCluster公共的特征项，originTermSet为originCluster有而addInCluster没有的特征项，addInTermSet为addInCluster有而originCluster没有的特征项；

对于t∈commonTermSet，w_o,t是originCluster中特征项t的权值，w_a，t是addInCluster中特征项t的权值，更新为：w_o,t←(w_o，t·size_o+w_a，t·size_a)/(size_o+size_a)

对于t∈originTermSet，更新为：w_o，t←w_o，t·size_o/(size_o+size_a)；

对于t∈addInTermSet，令：w_a,t←w_a，t·size_a/(size_o+size_a)，然后把<t:w_a,t>插入到originCluster的聚类中心向量中；

最后使用式(3)所示归一化因子对新的originCluster的聚类中心进行归一化。

根据本发明所提供的上述实施例，在第一个时间窗TW1内使用HAC聚类，可以获得很高的聚类准确度，同时还可以带来边缘效应的好处，进一步，在将候选话题簇生成新话题或者归并到旧话题时，采用对TW1内生成的候选话题簇与TW2内的旧话题使用单遍聚类算法，既能提高计算效率，又能够适应新闻流对时间顺序的敏感性需求。

当然，可以理解的是，本发明方案的基本思想在于基于双时间窗对新闻进行二次聚类，而以上具体聚类方法的选择仅是本发明的优选实施方式，并不应该理解为对本发明方案的限定，本领域技术人员可以根据实际需求，对具体聚类算法（例如公式的中涉及的权值、修正因子、判决阈值等等）进行调整，或者选用其他完全不同的聚类算法（比如k-means等），这些并不影响本发明的实现。

下面结合一个实际的例子，对本发明的实施方案做进一步的说明：

比如现在需要要处理最近24小时内新产生的新闻，即TW1=24小时。

首先对TW1时间窗内的新闻进行局部聚类，产生局部的候选话题簇集合C；比如聚类成了“钓鱼岛”、“罗姆尼”等专题。

然后把C与历史新闻专题O进行归并，由于历史新闻专题很多，因此只与在时间窗TW2（例如两个月之内）的历史专题进行相似度计算。假设当前O中仅存在一个“罗姆尼”专题：

如果C与O相似度小于一个阈值θ_tw2，则相应创建新的专题，比如钓鱼岛专题。

如果C与O相似度大于一个阈值θ_tw2，则把C归入O，假设在历史专题O中，已经存在一个“罗姆尼”专题。则会把C中的罗姆尼专题归并到O中的罗姆尼专题中。进一步地，如果相似度大于阈值θ_up（θ_tw2＜θ_up），还需要更新聚类中心。聚类中心可以看成是事件特征模板，比如罗姆尼历史专题O的事件特征模板是：<罗姆尼:0.5，美国:0.4，总统:0.3>，C中的罗姆尼专题事件特征模板是：<罗姆尼:0.3，美国:0.2>，则更新后的聚类中心是：<罗姆尼:0.4=(0.5+0.3)/2，美国:0.3=(0.4+0.2)/2，总统:0.15=0.3/2>。

相应于上面的方法实施例，本发明还提供一种新闻话题组织装置，参见图3所示，该装置可以包括：第一聚类单元110、第二聚类单元120、话题合并单元130和话题创建单元140；

第一聚类单元110，用于获取距当前时刻TW1时段内所发布的新闻文档，根据文档内容对所获取的新闻文档进行聚类，生成若干类簇；

其中。第一聚类单元110，具体可以利用层次聚类算法，对所获取的新闻文档进行聚类。

第二聚类单元120，用于获取已当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题，判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的阈值θ_tw2；如果是，则触发所述话题合并单元130对新生成的类簇内容与相应的新闻话题内容进行合并；如果否，则触发所述话题创建单元140针对新生成的类簇创建新的新闻话题；

其中第二聚类单元120，具体可以利用单遍聚类算法，对新生成的类簇内容与相应的新闻话题内容进行合并。

话题合并单元130在对新生成的类簇内容与相应的新闻话题内容进行合并之后，还可以根据合并结果，计算该新闻话题的新聚类中心，以便利用聚类中心生成该新闻话题的子话题。

进一步地，话题合并单元还可以对子话题的更新频率进行控制：仅当新引入话题的内容与原话题的内容“非常相似”的情况下，才对聚类中心进行更新，从而避免话题偏移现象。具体而言，可以设置一个相似度阈值θ_up，并且设置θ_tw2＜θ_up，仅当新生成的类簇内容与旧话题的相似度大于θ_up时，才执行聚类中心更新的计算操作。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种新闻话题组织方法，其特征在于，该方法包括：

获取当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题，判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值；

如果是，则对新生成的类簇内容与相应的新闻话题内容进行合并；判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第二阈值，如果是，则根据合并结果计算新的聚类中心，所述聚类中心内容用于生成该新闻话题的子话题；其中，所述第二阈值不小于所述第一阈值；

如果否，则针对新生成的类簇创建新的新闻话题；

其中，TW1和TW2均为预设的时间长度，TW1＜TW2。

2.根据权利要求1所述的方法，其特征在于，所述对所获取的新闻文档进行聚类，具体实现为：

利用层次聚类算法，对所获取的新闻文档进行聚类。

3.根据权利要求1所述的方法，其特征在于，所述判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值，具体实现为：

4.一种新闻话题组织装置，其特征在于，该装置包括：第一聚类单元、第二聚类单元、话题合并单元和话题创建单元；

第二聚类单元，用于获取当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题，判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值；

如果是，则触发所述话题合并单元对新生成的类簇内容与相应的新闻话题内容进行合并；判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第二阈值，如果是，则根据合并结果计算新的聚类中心，所述聚类中心内容用于生成该新闻话题的子话题；其中，所述第二阈值不小于所述第一阈值；

其中，TW1和TW2均为预设的时间长度，TW1＜TW2。

5.根据权利要求4所述的装置，其特征在于，所述第一聚类单元，具体用于：

利用层次聚类算法，对所获取的新闻文档进行聚类。

6.根据权利要求4所述的装置，其特征在于，所述第二聚类单元，具体用于：