CN102831193A

CN102831193A - 基于分布式多级聚类的话题检测装置及方法

Info

Publication number: CN102831193A
Application number: CN2012102747797A
Authority: CN
Inventors: 杨青; 李德聪
Original assignee: PEOPLE SEARCH NETWORK AG
Current assignee: PEOPLE SEARCH NETWORK AG
Priority date: 2012-08-03
Filing date: 2012-08-03
Publication date: 2012-12-19

Abstract

本发明公开了一种基于分布式多级聚类的话题检测装置及方法，该装置主要包括新闻采集模块、新闻分类模块、话题检测模块和话题整合模块以及话题展示模块；该方法包括：题检测方法，其特征在于，该方法包括：A、对新闻进行采集的步骤；B、对所述新采集的新闻进行分类的步骤；C、对各频道并行地进行多级聚类的步骤；D、计算所有话题的热度，筛选出全系统内的热点话题和每个频道内的热点话题。采用本发明，能够解决在互联网环境中大量文档快速更新的条件下，话题检测面临的检测效果与时间开销的尖锐矛盾。

Description

基于分布式多级聚类的话题检测装置及方法

技术领域

本发明涉及文本信息处理中的网络信息分析、文本分类和文本聚类技术，尤其涉及一种基于分布式多级聚类的话题检测装置及方法。

背景技术

随着互联网的高速发展，网络上的信息越来越多元和丰富，与此同时，网络舆情的社会影响力不断增强，很多社会热点事件都是在网络中第一时间披露和传播，网络话题检测因而愈发显现出其重要价值。在互联网环境中，存在大量自然语言形式的文档，其类型包括新闻、博客、论坛帖子，以及新兴的微博等，这些文档为发现热点话题提供了最基本的数据来源。

美国国防部开展的话题检测与跟踪项目（TDT，Topic Detection and Tracking）最早展开了该领域的系统性研究。多种TDT技术在该领域已经做出了有益探索。现有话题检测技术大多串行地处理每个新产生文档，基于向量空间模型或其他模型，采用单路径聚类、凝聚层次聚类等聚类算法，考察其与现有话题集合中各话题的相关程度，并决定将其合并入现有话题或将其视为一个新话题。

然而，由于这些方法采用串行方式处理每一个文档，一旦面临较大的数据量，如果不在聚类算法的选择上采用复杂度较低但效果较差的算法，便难以保证具有实用意义的处理速度。并且，由于没有采取预先有效降低噪声的措施，其检测效果也有待改善。总之，由于网络环境中新的文档每时每刻都在大量产生，如何对它们进行即有效又快速的分析，检测出热点话题，对现有技术构成了很大挑战。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于分布式多级聚类的话题检测装置及方法，以解决在互联网环境中大量文档快速更新的条件下，话题检测面临的检测效果与时间开销的尖锐矛盾。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于分布式多级聚类的话题检测装置，该装置主要包括：

新闻采集模块，用于实时采集网络新闻，并抽取出结构化信息；

新闻分类模块，用于对采集的新闻按主题类别进行分类，分发到各个频道；

话题检测模块，分为多个彼此独立的模块，每个频道对应一个模块，采用并行方式在各频道内进行多级聚类，计算各话题热度，并筛选出频道热门话题；

话题整合模块，用于综合各频道热门话题，筛选出全系统的热门话题。

其中，所述话题检测装置进一步包括：

话题展示模块，用于将各话题及其相关信息组织成用户易使用的形式。

一种基于分布式多级聚类的话题检测方法，该方法包括：

A、对新闻进行采集的步骤，从各类网站实时采集网络新闻；

B、对所述新采集的新闻进行分类的步骤，按其主题类别进行自动化分类，每类对应一个频道，并将分类后的新闻分发到各个频道的多级聚类模块中；

C、对各频道并行地进行多级聚类的步骤；在所述的每个频道中，对新进入该频道的新闻抽取特征，再对频道内全部数据进行多级聚类，将聚类产生的每一个集合或簇作为一个话题；

D、计算所有话题的热度，筛选出全系统内的热点话题和每个频道内的热点话题。

其中，步骤A具体包括：

A1、由网络爬虫采集目标网站列表中的网页；

A2、对采集到的原始网页做页面分析，抽取出标题、正文、摘要、作者、来源、发表时间、图片、视频信息，并组织成结构化信息。

步骤B所述按新闻主题类别进行自动化分类，包括国内、国际、社会、财经、体育、娱乐、汽车、科技和互联网类，并将所述类别作为相应的频道。

步骤B具体包括：

B1、采用预先专门训练的朴素贝叶斯分类器，抽取网页的标题、正文、URL的特征，并结合若干规则，判定本周期内新采集到的各网页是否属于新闻，如果是，进一步判定其属于哪一个频道；

B2、将新采集到的新闻发送给对应的频道。

7、根据权利要求3所述的基于分布式多级聚类的话题检测方法，其特征在于，步骤C所述对各频道并行地进行多级聚类的步骤，具体包括：

C1、去除频道内长时间无变化的话题，以降低后续聚类处理的数据量，避免过时话题对聚类可能造成的干扰；

C2、对当前周期内进入本频道的各条新闻抽取特征；

C3、对步骤C2中生成的一批特征向量进行层次聚类，聚类算法采用非加权组中心UPGMC算法，在该算法中，聚类结果中的每个集合或簇都拥有一个中心向量；相似度的计算方法为采用两个簇的中心向量的余弦相似度；

C4、对上述步骤C3中产生的每一个簇，找出与该簇的相似度最大的话题。相似度的计算方式仍为取余弦相似度；

C5、对本频道内所有话题再进行一次UPGMC层次聚类，聚类结果的所有簇即为本周期结束后本频道内的全部话题。

步骤C2还包括：

首先对新闻的标题和正文进行分词、词性标注、去停用词、专名识别、同义词归并，处理的结果以词或短语为单位，统称为token，对每个token，计算其TF.IWF分值作为基础权重，并结合其在文中的位置、词性、专名类型信息，确定其最终的权重；然后再将token及其分值构造成一个基于向量空间模型的特征向量，用以描述该新闻。

步骤C4还包括：如果该相似度大于预定阀值，将该簇合并到该话题中，并修正其中心向量和更新时间；否则，将该簇被视为一个新的话题，其诞生时间和更新时间均为系统当前时间。

步骤D具体包括：

D1、对每个频道内的话题，依据其所含新闻的数量及其发表时间分布、话题的诞生时间、更新时间的因素综合计算，得出其热度；

D2、再于频道内对各话题按热度排序，从而筛选出各频道内的热门话题；

D3、最后对整个系统内的话题按热度排序，筛选出全系统热门话题，展示给用户。

本发明所提供的基于分布式多级聚类的话题检测装置及方法，具有以下优点：

在互联网新闻快速、大量产生的环境中，宏观上，对于所有新闻，基于“属于同一话题的新闻基本属于相同主题类别”这一合理假设，对新闻按主题类别（频道）采取分而治之的分布式处理策略；而微观上，对于每一频道内的新闻，基于“属于同一话题的新闻在时间序列上倾向于相对集中”这一合理假设，采取先局部再整体，先增量再全量的多级聚类方式。二者相结合，既大幅度降低了话题检测时无关和弱相关数据的干扰，便于有针对性地对不同类别的数据设置不同参数，有效保证了检测效果，又显著提高了整个系统的并行化程度，降低了时间开销。出于实际产品的需求和其他原因的考虑，本发明主要针对处理的文档类型为网络新闻，还可以扩展到博客、微博等其他自然语言形式的文档领域。

附图说明

图1为本发明的基于分布式多级聚类的话题检测方法的总体流程图；

图2为应用本发明针对新闻采集的流程图；

图3为应用本发明进行新闻分类的流程图；

图4为应用本发明进行多级聚类的流程图；

图5为应用本发明进行热门话题筛选的流程图；

图6为本发明的一个具体实现装置的模块组成图。

具体实施方式

下面结合附图及本发明的实施例对本发明的基于分布式多级聚类的话题检测装置及方法作进一步详细的说明。

图1为本发明的基于分布式多级聚类的话题检测方法的总体流程图，如图1所示，该流程为周期性执行，主要包括以下步骤：

步骤S1：新闻采集，从各类网站实时采集网络新闻，并抽取出结构化信息。

步骤S2：新闻分类，对本周期内新采集的新闻按其主题类别进行自动化分类，分发到各个频道。

步骤S3：在各频道并行开展多级聚类。在每个频道中，对本周期内新进入该频道的新闻抽取特征，再对频道内全部数据进行多级层次聚类，聚类产生的每一个簇视为一个“话题”。该步骤是本发明的核心。

步骤S4：计算所有话题的热度，筛选出全系统内的热点话题和每个频道内的热点话题，呈现给用户。

如图2所示，所述步骤S1，进一步包括：

步骤S11：采用网络爬虫采集目标网站列表中的网页，这些网站不仅包含各类专业新闻网站（例如网易、新浪、搜狐等），也包括登载新闻的非新闻网站（例如各政府机关、事业单位、企业的官方网站）。

步骤S12：对采集到的原始网页做页面分析，抽取出标题、正文、摘要、作者、来源、发表时间、图片、视频等信息，并组织成结构化信息，以利于进一步处理。

如图3所示，步骤S2对网页进行分类，其分类体系包括国内、国际、社会、财经、体育、娱乐、汽车、科技、互联网等频道。该步骤S2执行以下步骤：

步骤S21，采用预先训练的朴素贝叶斯分类器，利用网页的标题、正文、url等特征，结合若干规则，判定本周期内新采集到的各网页是否属于新闻，如果是，判定该网页属于哪一个频道。

步骤S22，将新采集到的新闻发送给对应的频道。

如图4所示，该步骤S3并行地对属于各个频道的新闻分别进行多级聚类，是整个流程的核心。在每个频道内执行以下子步骤：

步骤S31：去除本频道内长时间没有变化的话题。每个话题都记录了其最近更新时间，如该时间距离当前时间之差超过一定预值，则视为该话题已不可能再成为热点。

步骤S32：对本周期内新进入本频道的各条新闻抽取特征，采用向量空间模型（VSM）刻划其特征向量。首先对新闻的标题和正文进行分词、停用词去除、词性标注、专名识别、同义词归并等自然语言处理步骤，再把处理的结果进行整合（比如一个专名可能包含多个相邻的分词结果单元，例如专名“北京大学经济学院”由包含分词结果“北京大学”、“经济”和“学院”），整合结果以词或短语为步骤位，统称为token。对每个token，计算其权重，计算时综合考虑以下几项因素：

1）token的TF.IWF分值。这一分值表征token在文档中的重要性，与时间相关，构成token的基本权重。其计算公式为：

其中：

Figure 2012102747797100002DEST_PATH_IMAGE002

，

。

公式中的t代表某一周期，w代表token，d代表包含w的文档，tf(w,d) 代表w在d中出现的频次，wft(w) 代表w在t时刻的频次总数，d(t) 代表t时刻前出现的d。

2）token在网页中的位置：如果token在标题中出现，权重提高；

3）token的词性：实词（名词、动词等）的权重提高，虚词的权重降低甚至去除；

4）token的专名类型（如果是专名）：依据新闻所属的具体频道而定。本系统拥有专门开发的专名识别模块，对专名类别的划分较为细致。例如在汽车频道，汽车型号等专名的权重提高；在体育频道，体育运动员等专名的权重提高。

确定每个token的权重后，把各token及其权重构造成一个特征向量，用以描述该新闻。

步骤S33：对这批新的新闻进行层次聚类，聚类算法采用UPGMC算法，该算法属于凝聚式层次聚类，每个聚类结果（簇）都拥有一个中心向量。在初始阶段，该算法把输入的每一条新闻都视为一个簇，簇的中心向量为该新闻的特征向量，然后执行以下步骤：

1）计算所有簇两两之间的相似度。在本发明中，我们采用簇中心向量的余弦相似度作为这两个簇之间的相似度度量。

2）找出以上相似度中最大的相似度，若其高于预定阀值，则把对应的两个簇合并，合并后的新簇的中心向量为两个簇的中心向量之和，为去除噪声并避免维度过高，新中心向量中权重过低的分量将被去除，然后返回第1）步继续执行。否则算法结束。

步骤S34：对新产生的簇和频道内既有话题进行合并。对每一个新产生的簇，依此考察本频道中的每个话题，找出与该簇的相似度最大的话题。相似度的计算方法为：计算簇中心向量和话题中心向量的余弦相似度。如果该相似度大于预定阀值，就把该簇合并到该话题中，并修正其中心向量和更新时间。否则，该簇被视为一个新的话题，其诞生时间和更新时间都是系统当前时间。

步骤S35：对本频道内所有话题（包括步骤S34产生的新话题）再进行一次UPGMC层次聚类，同样采用余弦相似度计算簇的相似度。如果有若干话题合并成新话题，新话题的更新时间亦为系统当前时间。聚类结果产生的各个簇即为本周期结束后本频道内的全部话题。

如图5所示，所述的步骤S4负责筛选热门话题。其进一步包括如下两个步骤：

步骤S41：并行地考察各个频道中所有话题的热度。对于一个话题，依据其所含新闻的数量及其发表时间分布、话题的诞生时间、更新时间等因素综合计算，得出其热度：

其中：p、base均为可调节的参数，时间以小时为单位。该公式总体上与话题中的新闻数成正比，与话题生命长度成反比。在这两项因子中则都考虑了时间分布情况，使得近期数据获得额外关注。

接下来系统按热度对本频道内所有话题进行部分排序（partial sort），选出前m个作为本频道的热门话题展示给用户。

步骤S42，对各频道的热门话题，按热度执行多路归并排序并选择前n名，作为整个系统中检测到的热门话题展示给用户。

至此，结合附图详细阐述了本发明的具体实施方式。

基于以上实施方式，图6给出了本发明的一种具体实现装置的组成。该装置的模块分为：

新闻采集模块：负责实时采集网络新闻，并抽取出结构化信息。

新闻分类模块：对采集的新闻按其主题类别进行分类，分发到各个频道。

话题检测模块：分为多个彼此独立的模块（每个频道一个对应模块），并行在各频道内进行多级聚类，计算各话题热度，并筛选出频道内热门话题。

话题整合模块：综合各频道热门话题，筛选出全系统的热门话题。

话题展示模块：将各话题及其相关信息组织成用户易使用的形式。

以上装置已投入实际使用，实践表明可以有效解决大量文档快速更新条件下，话题检测面临的检测效果与时间开销的尖锐矛盾，在两方面都取得了比较满意的结果。

出于实际产品的需求和某些非技术原因的考虑，本发明主要处理的数据类型为网络新闻，但由于博客、微博、论坛帖子等数据类型同属于自然语言形式的文档，因而只需在本发明的新闻分类、抽取新闻特征向量等环节做简单的非实质性调整，就可以处理这些文档。因此，这种拓展应被视为本发明的保护范围之内。

此外，在不脱离本发明基本原理和框架的前提下，具体实现方式可以做出一些改进和变形，但这些改进和变形也应同样视为本发明的保护范围之内。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种基于分布式多级聚类的话题检测装置，其特征在于，该装置主要包括：

2.根据权利要求1所述的基于分布式多级聚类的话题检测装置，其特征在于，所述话题检测装置进一步包括：

3.一种基于分布式多级聚类的话题检测方法，其特征在于，该方法包括：

A、对新闻进行采集的步骤，从各类网站实时采集网络新闻；

4.根据权利要求3所述的基于分布式多级聚类的话题检测方法，其特征在于，步骤A具体包括：

A1、由网络爬虫采集目标网站列表中的网页；

5.根据权利要求3所述的基于分布式多级聚类的话题检测方法，其特征在于，步骤B所述按新闻主题类别进行自动化分类，包括国内、国际、社会、财经、体育、娱乐、汽车、科技和互联网类，并将所述类别作为相应的频道。

6.根据权利要求3或5所述的基于分布式多级聚类的话题检测方法，其特征在于，步骤B具体包括：

B2、将新采集到的新闻发送给对应的频道。

7.根据权利要求3所述的基于分布式多级聚类的话题检测方法，其特征在于，步骤C所述对各频道并行地进行多级聚类的步骤，具体包括：

C2、对当前周期内进入本频道的各条新闻抽取特征；

C4、对上述步骤C3中产生的每一个簇，找出与该簇的相似度最大的话题；相似度的计算方式仍为取余弦相似度；

8.根据权利要求7所述的基于分布式多级聚类的话题检测方法，其特征在于，步骤C2还包括：

9.根据权利要求7所述的基于分布式多级聚类的话题检测方法，其特征在于，步骤C4还包括：

如果该相似度大于预定阀值，将该簇合并到该话题中，并修正其中心向量和更新时间；否则，将该簇被视为一个新的话题，其诞生时间和更新时间均为系统当前时间。

10.根据权利要求3所述的基于分布式多级聚类的话题检测方法，其特征在于，步骤D具体包括：