CN108304502A

CN108304502A - 基于海量新闻数据的快速热点检测方法及系统

Info

Publication number: CN108304502A
Application number: CN201810044908.0A
Authority: CN
Inventors: 曾大军; 郑晓龙; 何赛克; 张曈
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2018-07-20
Anticipated expiration: 2038-01-17
Also published as: CN108304502B

Abstract

本发明涉及一种基于海量新闻数据的快速热点检测方法及系统，所述快速热点检测方法包括：对多个待处理新闻文本进行链式聚类，得到粗聚类集合；基于快速搜索和寻找密度峰值方法，对所述粗聚类集合进行搜索，得到细聚类集合；提取所述细聚类集合中的代表性短语，所述代表性短语为热点词语。本发明可直接对多个待处理新闻文本进行链式聚类，得到粗聚类集合；进一步基于快速搜索和寻找密度峰值方法，进行聚类，从而得到细聚类集合，并从中提取代表性短语，从而可快速捕捉到新闻文本中的热点词语，可提高计算效率和准确性。

Description

基于海量新闻数据的快速热点检测方法及系统

技术领域

本发明涉及自然语言处理和数据挖掘领域，具体涉及一种基于海量新闻数据的快速热点检测方法及系统。

背景技术

随着互联网的迅猛发展与广泛普及，现如今互联网的新闻报道已成为人们获取信息的主要手段。许多商业网站都会第一时间为用户收集并提供丰富的新闻报道。然而每天发布的新闻数量非常庞大，信息量呈指数增长，针对同一话题也有很多类似的报导，而用户的精力十分有限，不可能通过阅读所有的新闻获取需要的信息。因此，如何提高信息获取效率，快速准确的获取新闻关键信息，筛选掉冗杂重复信息，是一个亟待解决的问题。

在检测新闻热点话题，需要从新闻报道中获取代表性短语。然而直接基于海量新闻数据提取代表性短语，计算复杂度极高。此外，互联网上的数据存在大量重复的内容，无论对于搜索引擎的网页，还是新闻门户网站、社交媒体等，都需要对文本进行去重和过滤。

针对上述问题，对于新闻热点检测，需要把海量新闻数据进行聚类，把同类型的新闻数据汇聚到一起，再进行新闻热点的代表性短语提取。热点检测算法中重要的一步就是文本聚类。

传统基于文本相似性的计算方法主要利用空间向量模型，计算分词后的文本的特征向量的相似性。这类方法能够保证一定的性能需求，但是无法针对海量的文本进行两两的相似性判断，存在明显弊端：一是码本规模巨大，捕捉信息效率低；二是对内容变异不敏感，导致遗漏相似样本。

发明内容

为了解决现有技术中的上述问题，即为了解决捕捉信息效率低的问题，本发明提供一种基于海量新闻数据的快速热点检测方法及系统。

为解决上述技术问题，本发明提供了如下方案：

一种基于海量新闻数据的快速热点检测方法，所述快速热点检测方法包括：

对多个待处理新闻文本进行链式聚类，得到粗聚类集合；

基于快速搜索和寻找密度峰值方法，对所述粗聚类集合进行搜索，得到细聚类集合；

提取所述细聚类集合中的代表性短语，所述代表性短语为热点词语。

可选的，所述对多个待处理新闻文本进行链式聚类，得到粗聚类集合，具体包括：

抽取每个待处理新闻文本中的关键词及所述关键词对应的权重，每个关键词及对应的权重为一对词组，多对词组形成对应该待处理新闻文本的文本特征向量集feature_weight_pairs；其中， feature_weight_pairs＝[fw1，fw2，fw3，...，fwn]， fwn＝(feature_n,weight_n)，feature_n表示第n个关键词，weight_n表示关键词feature_n对应的权重；

采用哈希算法对每一文本特征向量集中的词组进行映射，得到对应待处理新闻文本的哈希特征向量集hash_weight_pairs，其中， hash_weight-pairs＝[hw1,hw2,...,hwn]，hwn＝(hash(feature-n),weight-n)， hash(feature-n)表示关键词feature-n的映射哈希值，且hash(feature-n)的位数为 count_bits_n；

根据所述哈希特征向量集hash-weight-pairs中的各哈希值，生成表征内容指纹的二进制字符串；

根据各二进制字符串计算两个文本的相似度；

根据各相似度，对各待处理新闻文本进行划分，得到多个粗聚类集合。

可选的，所述根据所述哈希特征向量集hash-weight-pairs中的各哈希值，生成表征内容指纹的字符串，具体包括：

根据所述哈希特征向量集hash-weight-pairs中的各哈希值中各位的值，确定加权值：

如果为1，则对应向量维度处加上对应的权值；如果所在位是0，则对应向量维度处减去对应的权值；

对加权值进行位的纵向累加，生成位字符串；

对所述位字符串进行0、1转换，得到表征内容指纹的二进制字符串：

如果所述位字符串中的所在位大于0，则将该位转换为1；如果所述位字符串中的所在位小于0，则将该位转换为0。

可选的，所述根据各二进制字符串计算两个文本的相似度的方法包括：

采用海明距离方法或余弦相似方法，计算任意两个文本的相似度；

根据各相似度对相似的文本进行初步筛选，获得初步相似文本；

引用决策树转引关系判决方法，判别初步相似文本是否相似，以从各初步相似文本中选择出最终相似文本，根据最终相似文本确定对应的相似度。

可选的，所述基于快速搜索和寻找密度峰值方法对所述粗聚类集合进行搜索，得到细聚类集合，具体包括：

从各所述粗聚类集合中随机选择K个中心点；

计算每个中心点的局部密度ρ_i，i表示中心点序号， i＝1,2,…,K；

对于每个中心点，计算与其他局部密度比它大的点的距离，取距离值的最小值，即最小距离δ_i；

绘制局部密度ρ_i-最小距离δ_i图；

根据各局部密度ρ_i-最小距离δ_i图确定细聚类集合：局部密度ρ_i-最小距离δ_i图中的离群点为新的聚类中心，将新的聚类中心与最近邻点归为一个类簇，得到细聚类集合，其中细聚类集合中的各点分别表示同一类的短语。

可选的，从各所述粗聚类集合中随机选择K个中心点，具体包括：

从各所述粗聚类集合中随机选一个点作为一个结果集的初始化中心点；

从各所述粗聚类集合中选取距离这个点最远的点作为第二个结果集的中心点；

选取到前两个点距离和最远的点作为第三个结果集的中心点，以此类推，递归选择全部中心点。

可选的，所述计算每个中心点的局部密度ρ_i，具体包括：

根据以下公式确定ρ_i：

ρ_i＝∑_jχ(d_ij-d_c)

d_ij表示中心点i与中心点j的距离，d_c表示截断距离。

可选的，所述对于每个中心点，计算与其他局部密度比它大的点的距离，取距离值的最小值，具体包括：

对于每个中心点，统计局部密度大于该中心点的局部密度的其他中心点；

分别计算统计的其他中心点与该中心点的距离；

从各距离中选择最小值，所述最小值为该中心点的最小距离 δ_i。

可选的，所述提取所述细聚类集合中的代表性短语，具体包括：

根据以下公式计算各细聚类集合中的各个短语的词频tf_u,v：

其中，q_u,v表示该短语在新闻文本d_v中的出现次数，∑_wq_w,v表示在新闻文本d_v中所有短语的出现次数之和；

根据以下公式计算各细聚类集合中的各个短语的逆向文件频率idf_u：

其中，|D|是当前细聚类集合中新闻文本的总数，|{v:t_v∈d_v}|表示包含短语t_v的新闻文本的数目；

根据以下公式计算各细聚类集合中各个短语的加权值 tfidf_u：

tfidf_u＝tf_u,v×idf_u；

按降序排列每一个细聚类集合中各个短语的加权值；

选择前设定数量的加权值对应的短语，选择的短语为该细聚类集合中的代表性短语。

为解决上述技术问题，本发明还提供了如下方案：

一种基于海量新闻数据的快速热点检测系统，所述快速热点检测系统包括：

粗聚类单元，用于对多个待处理新闻文本进行链式聚类，得到粗聚类集合；

细聚类单元，用于基于快速搜索和寻找密度峰值方法，对所述粗聚类集合进行搜索，得到细聚类集合；

提取单元，用于提取所述细聚类集合中的代表性短语，所述代表性短语为热点词语。

根据本发明的实施例，本发明公开了以下技术效果：

本发明可直接对多个待处理新闻文本进行链式聚类，得到粗聚类集合；进一步基于快速搜索和寻找密度峰值方法，进行聚类，从而得到细聚类集合，并从中提取代表性短语，从而可快速捕捉到新闻文本中的热点词语，可提高计算效率和准确性。

附图说明

图1是本发明基于海量新闻数据的快速热点检测方法的流程图；

图2是链式聚类的流程图；

图3是得到细聚类集合的流程图；

图4是本发明基于海量新闻数据的快速热点检测系统的模块结构示意图。

符号说明：

粗聚类单元—1，细聚类单元—2，提取单元—3。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明提供一种基于海量新闻数据的快速热点检测方法，可直接对多个待处理新闻文本进行链式聚类，得到粗聚类集合；进一步基于快速搜索和寻找密度峰值方法，进行聚类，从而得到细聚类集合，并从中提取代表性短语，从而可快速捕捉到新闻文本中的热点词语，可提高计算效率和准确性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，对m个待处理新闻文本，本发明基于海量新闻数据的快速热点检测方法包括：

步骤100：对多个待处理新闻文本进行链式聚类，得到粗聚类集合；

步骤200：基于快速搜索和寻找密度峰值方法，对所述粗聚类集合进行搜索，得到细聚类集合；

步骤300：提取所述细聚类集合中的代表性短语，所述代表性短语为热点词语。

如图2所示，在步骤100中，所述对多个待处理新闻文本进行链式聚类，得到粗聚类集合，具体包括：

步骤101：抽取每个待处理新闻文本x_1:m中的关键词及所述关键词对应的权重，每个关键词及对应的权重为一对词组，多对词组形成对应该待处理新闻文本的文本特征向量集feature-weight-pairs。

其中，feature_weight_pairs＝[fw1,fw2,fw3,...,fwn]， fwn＝(feature_n,weight_n)，feature-n表示第n个关键词，weight-n表示关键词feature_n对应的权重。

步骤102：采用哈希算法对每一文本特征向量集中的词组进行映射，得到对应待处理新闻文本的哈希特征向量集hash-weight-pairs，其中，hash_weight_pairs＝[hw1,hw2,...,hwn]，hwn＝(hash(feature-n),weight-n)， hash(feature-n)表示关键词feature-n的映射哈希值，且hash(feature-n)的位数为 count_bits_n。

步骤103：根据所述哈希特征向量集hash-weight-pairs中的各哈希值，生成表征内容指纹的二进制字符串。

步骤104：根据各二进制字符串计算两个文本的相似度。

步骤105：根据各相似度，对各待处理新闻文本进行划分，得到多个粗聚类集合。

进一步地，在步骤103中根据所述哈希特征向量集 hash_weight_pairs中的各哈希值，生成表征内容指纹的二进制字符串，具体包括：

步骤1031：根据所述哈希特征向量集hash-weight-pairs中的各哈希值中各位的值，确定加权值：

步骤1032：对加权值进行位的纵向累加，生成位字符串；

步骤1033：对所述位字符串进行0、1转换，得到表征内容指纹的二进制字符串：

在步骤104中，所述根据各二进制字符串计算两个文本的相似度的方法包括：

步骤1041：采用海明距离方法或余弦相似方法，计算任意两个文本的相似度；

步骤1042：根据各相似度对相似的文本进行初步筛选，获得初步相似文本；

步骤1043：引用决策树转引关系判决方法，判别初步相似文本是否相似，以从各初步相似文本中选择出最终相似文本，根据最终相似文本确定对应的相似度。

其中，所述最终相似文本的相似度从采用海明距离方法或余弦相似方法计算的各相似度中直接选择。

具体的，所述海明距离方法具体包括：

如果两个新闻文本的海明距离小于或等于m,m∈[2,4]，则判定两个新闻文本为初步相似文本。

所述余弦相似判别方法具体包括：

对于n维向量，假设A是[A₁,A₂,...,A_n]，B是[B₁,B₂,...,B_n]，根据如下公式确定A和B的夹角cosθ：

余弦值cosθ越接近1，表明夹角越接近0度，也就是两个新闻文本对应的向量越相似。

如图3所示，在步骤200中基于快速搜索和寻找密度峰值方法，对所述粗聚类集合进行搜索，得到细聚类集合，具体包括：

步骤201：从各所述粗聚类集合中随机选择K个中心点；

步骤202：计算每个中心点的局部密度ρ_i，i表示中心点序号，i＝1,2,…,K；

步骤203：对于每个中心点，计算与其他局部密度比它大的点的距离，取距离值的最小值，即最小距离δ_i；

步骤204：绘制局部密度ρ_i-最小距离δ_i图；

步骤205：根据各局部密度ρ_i-最小距离δ_i图确定细聚类集合：局部密度ρ_i-最小距离δ_i图中的离群点为新的聚类中心，将新的聚类中心与最近邻点归为一个类簇，得到细聚类集合，其中细聚类集合中的各点分别表示同一类的短语。

进一步地，在步骤201中，从各所述粗聚类集合中随机选择 K个中心点，具体包括：

步骤2011：从各所述粗聚类集合中随机选一个点作为一个结果集的初始化中心点；

步骤2012：从各所述粗聚类集合中选取距离这个点最远的点作为第二个结果集的中心点；

步骤2013：选取到前两个点距离和最远的点作为第三个结果集的中心点，以此类推，递归选择全部中心点。

在步骤202中，根据以下公式确定每个中心点的局部密度 ρ_i：

ρ_i＝∑_jχ(d_ij-d_c)-------(2)；

d_ij表示中心点i与中心点j的距离，d_c表示截断距离，是一个超参数，因此，所以ρ_i相当于距离点i的距离小于d_c的点的个数。

在步骤203中，所述对于每个中心点，计算与其他局部密度比它大的点的距离，取距离值的最小值，具体包括：

步骤2031：对于每个中心点，统计局部密度大于该中心点的局部密度的其他中心点；

步骤2032：分别计算统计的其他中心点与该中心点的距离；

步骤2033：从各距离中选择最小值，所述最小值为该中心点的最小距离δ_i。

到高局部密度点的最小距离δ_i：对于密度最大的点，设置δ_i＝max_j(d_ij)，注意只有那些密度是局部或者全局最大的点才会有远大于正常的相邻点间距。

在步骤300中，所述提取所述细聚类集合中的代表性短语，具体包括：

步骤301：根据以下公式计算各细聚类集合中的各个短语的词频tf_u,v：

其中，q_u,v表示该短语在新闻文本d_v中的出现次数， ∑_wq_w,v表示在新闻文本d_v中所有短语的出现次数之和。

步骤302：根据以下公式计算各细聚类集合中的各个短语的逆向文件频率idf_u：

其中，|D|是当前细聚类集合中新闻文本的总数，|{v:t_v∈d_v}|表示包含短语t_v的新闻文本的数目。

步骤303：根据以下公式计算各细聚类集合中各个短语的加权值tfidf_u：

tfidf_u＝tf_u,v×idf_u-------(6)。

步骤304：按降序排列每一个细聚类集合中各个短语的加权值。

步骤305：选择前设定数量的加权值对应的短语，选择的短语为该细聚类集合中的代表性短语。

本发明在文本聚类时采用了内容指纹算法，与以往基于向量空间模型实现的相似短文本识别相比，不仅大大提高了相似文本的查找性能，而且解决了计算效率低、对内容变异不敏感的问题；此外，细过滤时采用的通过快速搜索和寻找密度峰值方法进行聚类，算法的鲁棒性高，为第一步聚类可能发生的描述相同事件被聚成两个类的情况进行二次聚类，细化了聚类过程，提高了信息提取的准确性。

本发明还提供一种基于海量新闻数据的快速热点检测系统。如图4所示，本发明基于海量新闻数据的快速热点检测系统包括粗聚类单元1、细聚类单元2及提取单元3。

所述粗聚类单元1用于对多个待处理新闻文本进行链式聚类，得到粗聚类集合；所述细聚类单元2用于基于快速搜索和寻找密度峰值方法，对所述粗聚类集合进行搜索，得到细聚类集合；所述提取单元3 用于提取所述细聚类集合中的代表性短语，所述代表性短语为热点词语。

相对于现有技术，本发明基于海量新闻数据的快速热点检测系统与上述基于海量新闻数据的快速热点检测方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于海量新闻数据的快速热点检测方法，其特征在于，所述快速热点检测方法包括：

对多个待处理新闻文本进行链式聚类，得到粗聚类集合；

2.根据权利要求1所述的基于海量新闻数据的快速热点检测方法，其特征在于，所述对多个待处理新闻文本进行链式聚类，得到粗聚类集合，具体包括：

抽取每个待处理新闻文本中的关键词及所述关键词对应的权重，每个关键词及对应的权重为一对词组，多对词组形成对应该待处理新闻文本的文本特征向量集feature-weight-pairs；其中，feature_weight_pairs＝[fw1,fw2,fw3,...,fwn]，fwn＝(feature_n,weight_n)，feature-n表示第n个关键词，weight-n表示关键词feature-n对应的权重；

采用哈希算法对每一文本特征向量集中的词组进行映射，得到对应待处理新闻文本的哈希特征向量集hash_weight_pairs，其中，hash_weight_pairs＝[hw1,hw2,...,hwn]，hwn＝(hash(feature_n),weight_n)，hash(feature_n)表示关键词feature_n的映射哈希值，且hash(feature_n)的位数为count_bits_n；

根据所述哈希特征向量集hash_weight_pairs中的各哈希值，生成表征内容指纹的二进制字符串；

根据各二进制字符串计算两个文本的相似度；

3.根据权利要求2所述的基于海量新闻数据的快速热点检测方法，其特征在于，所述根据所述哈希特征向量集hash_weight_pairs中的各哈希值，生成表征内容指纹的字符串，具体包括：

根据所述哈希特征向量集hash_weight_pairs中的各哈希值中各位的值，确定加权值：

对加权值进行位的纵向累加，生成位字符串；

4.根据权利要求2所述的基于海量新闻数据的快速热点检测方法，其特征在于，所述根据各二进制字符串计算两个文本的相似度的方法包括：

采用海明距离方法或余弦相似方法计算任意两个文本的相似度；

5.根据权利要求1所述的基于海量新闻数据的快速热点检测方法，其特征在于，所述基于快速搜索和寻找密度峰值方法对所述粗聚类集合进行搜索，得到细聚类集合，具体包括：

从各所述粗聚类集合中随机选择K个中心点；

计算每个中心点的局部密度ρ_i，i表示中心点序号，i＝1,2,…,K；

绘制局部密度ρ_i-最小距离δ_i图；

6.根据权利要求5所述的基于海量新闻数据的快速热点检测方法，其特征在于，从各所述粗聚类集合中随机选择K个中心点，具体包括：

7.根据权利要求5所述的基于海量新闻数据的快速热点检测方法，其特征在于，所述计算每个中心点的局部密度ρ_i，具体包括：

根据以下公式确定ρ_i：

ρ_i＝∑_jχ(d_ij-d_c)

其中，d_ij表示中心点i与中心点j的距离，d_c表示截断距离。

8.根据权利要求5所述的基于海量新闻数据的快速热点检测方法，其特征在于，所述对于每个中心点，计算与其他局部密度比它大的点的距离，取距离值的最小值，具体包括：

分别计算统计的其他中心点与该中心点的距离；

从各距离中选择最小值，所述最小值为该中心点的最小距离δ_i。

9.根据权利要求5所述的基于海量新闻数据的快速热点检测方法，其特征在于，所述提取所述细聚类集合中的代表性短语，具体包括：

根据以下公式计算各细聚类集合中的各个短语的词频tf_u,v：

根据以下公式计算各细聚类集合中各个短语的加权值tfidf_u：

tfidf_u＝tf_u,v×idf_u；

按降序排列每一个细聚类集合中各个短语的加权值；

10.一种基于海量新闻数据的快速热点检测系统，其特征在于，所述快速热点检测系统包括：