CN108304502A - 基于海量新闻数据的快速热点检测方法及系统 - Google Patents
基于海量新闻数据的快速热点检测方法及系统 Download PDFInfo
- Publication number
- CN108304502A CN108304502A CN201810044908.0A CN201810044908A CN108304502A CN 108304502 A CN108304502 A CN 108304502A CN 201810044908 A CN201810044908 A CN 201810044908A CN 108304502 A CN108304502 A CN 108304502A
- Authority
- CN
- China
- Prior art keywords
- phrase
- cluster
- hash
- central point
- hot spot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000001514 detection method Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 238000012512 characterization method Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000000205 computational method Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于海量新闻数据的快速热点检测方法及系统,所述快速热点检测方法包括:对多个待处理新闻文本进行链式聚类,得到粗聚类集合;基于快速搜索和寻找密度峰值方法,对所述粗聚类集合进行搜索,得到细聚类集合;提取所述细聚类集合中的代表性短语,所述代表性短语为热点词语。本发明可直接对多个待处理新闻文本进行链式聚类,得到粗聚类集合;进一步基于快速搜索和寻找密度峰值方法,进行聚类,从而得到细聚类集合,并从中提取代表性短语,从而可快速捕捉到新闻文本中的热点词语,可提高计算效率和准确性。
Description
技术领域
本发明涉及自然语言处理和数据挖掘领域,具体涉及一种基 于海量新闻数据的快速热点检测方法及系统。
背景技术
随着互联网的迅猛发展与广泛普及,现如今互联网的新闻报 道已成为人们获取信息的主要手段。许多商业网站都会第一时间为用户 收集并提供丰富的新闻报道。然而每天发布的新闻数量非常庞大,信息 量呈指数增长,针对同一话题也有很多类似的报导,而用户的精力十分 有限,不可能通过阅读所有的新闻获取需要的信息。因此,如何提高信 息获取效率,快速准确的获取新闻关键信息,筛选掉冗杂重复信息,是 一个亟待解决的问题。
在检测新闻热点话题,需要从新闻报道中获取代表性短语。 然而直接基于海量新闻数据提取代表性短语,计算复杂度极高。此外, 互联网上的数据存在大量重复的内容,无论对于搜索引擎的网页,还是 新闻门户网站、社交媒体等,都需要对文本进行去重和过滤。
针对上述问题,对于新闻热点检测,需要把海量新闻数据进行 聚类,把同类型的新闻数据汇聚到一起,再进行新闻热点的代表性短语提取。 热点检测算法中重要的一步就是文本聚类。
传统基于文本相似性的计算方法主要利用空间向量模型,计算 分词后的文本的特征向量的相似性。这类方法能够保证一定的性能需求,但 是无法针对海量的文本进行两两的相似性判断,存在明显弊端:一是码本规 模巨大,捕捉信息效率低;二是对内容变异不敏感,导致遗漏相似样本。
发明内容
为了解决现有技术中的上述问题,即为了解决捕捉信息效率 低的问题,本发明提供一种基于海量新闻数据的快速热点检测方法及系 统。
为解决上述技术问题,本发明提供了如下方案:
一种基于海量新闻数据的快速热点检测方法,所述快速热点 检测方法包括:
对多个待处理新闻文本进行链式聚类,得到粗聚类集合;
基于快速搜索和寻找密度峰值方法,对所述粗聚类集合进行 搜索,得到细聚类集合;
提取所述细聚类集合中的代表性短语,所述代表性短语为热 点词语。
可选的,所述对多个待处理新闻文本进行链式聚类,得到粗 聚类集合,具体包括:
抽取每个待处理新闻文本中的关键词及所述关键词对应的 权重,每个关键词及对应的权重为一对词组,多对词组形成对应该待处 理新闻文本的文本特征向量集feature_weight_pairs;其中, feature_weight_pairs=[fw1,fw2,fw3,...,fwn], fwn=(feature_n,weight_n),feature_n表示第n个关键词,weight_n表 示关键词feature_n对应的权重;
采用哈希算法对每一文本特征向量集中的词组进行映射,得 到对应待处理新闻文本的哈希特征向量集hash_weight_pairs,其中, hash_weight-pairs=[hw1,hw2,...,hwn],hwn=(hash(feature-n),weight-n), hash(feature-n)表示关键词feature-n的映射哈希值,且hash(feature-n)的位数为 count_bits_n;
根据所述哈希特征向量集hash-weight-pairs中的各哈希值,生 成表征内容指纹的二进制字符串;
根据各二进制字符串计算两个文本的相似度;
根据各相似度,对各待处理新闻文本进行划分,得到多个粗 聚类集合。
可选的,所述根据所述哈希特征向量集hash-weight-pairs中的 各哈希值,生成表征内容指纹的字符串,具体包括:
根据所述哈希特征向量集hash-weight-pairs中的各哈希值中 各位的值,确定加权值:
如果为1,则对应向量维度处加上对应的权值;如果所在位 是0,则对应向量维度处减去对应的权值;
对加权值进行位的纵向累加,生成位字符串;
对所述位字符串进行0、1转换,得到表征内容指纹的二进制 字符串:
如果所述位字符串中的所在位大于0,则将该位转换为1;如 果所述位字符串中的所在位小于0,则将该位转换为0。
可选的,所述根据各二进制字符串计算两个文本的相似度的 方法包括:
采用海明距离方法或余弦相似方法,计算任意两个文本的相 似度;
根据各相似度对相似的文本进行初步筛选,获得初步相似文 本;
引用决策树转引关系判决方法,判别初步相似文本是否相 似,以从各初步相似文本中选择出最终相似文本,根据最终相似文本确 定对应的相似度。
可选的,所述基于快速搜索和寻找密度峰值方法对所述粗聚 类集合进行搜索,得到细聚类集合,具体包括:
从各所述粗聚类集合中随机选择K个中心点;
计算每个中心点的局部密度ρi,i表示中心点序号, i=1,2,…,K;
对于每个中心点,计算与其他局部密度比它大的点的距离, 取距离值的最小值,即最小距离δi;
绘制局部密度ρi-最小距离δi图;
根据各局部密度ρi-最小距离δi图确定细聚类集合:局部密 度ρi-最小距离δi图中的离群点为新的聚类中心,将新的聚类中心与最 近邻点归为一个类簇,得到细聚类集合,其中细聚类集合中的各点分别 表示同一类的短语。
可选的,从各所述粗聚类集合中随机选择K个中心点,具体 包括:
从各所述粗聚类集合中随机选一个点作为一个结果集的初 始化中心点;
从各所述粗聚类集合中选取距离这个点最远的点作为第二 个结果集的中心点;
选取到前两个点距离和最远的点作为第三个结果集的中心 点,以此类推,递归选择全部中心点。
可选的,所述计算每个中心点的局部密度ρi,具体包括:
根据以下公式确定ρi:
ρi=∑jχ(dij-dc)
dij表示中心点i与中心点j的距离,dc表示截断距离。
可选的,所述对于每个中心点,计算与其他局部密度比它大 的点的距离,取距离值的最小值,具体包括:
对于每个中心点,统计局部密度大于该中心点的局部密度的 其他中心点;
分别计算统计的其他中心点与该中心点的距离;
从各距离中选择最小值,所述最小值为该中心点的最小距离 δi。
可选的,所述提取所述细聚类集合中的代表性短语,具体包 括:
根据以下公式计算各细聚类集合中的各个短语的词频tfu,v:
其中,qu,v表示该短语在新闻文本dv中的出现次数,∑wqw,v表示在新闻文本dv中所有短语的出现次数之和;
根据以下公式计算各细聚类集合中的各个短语的逆向文件 频率idfu:
其中,|D|是当前细聚类集合中新闻文本的总数,|{v:tv∈dv}|表 示包含短语tv的新闻文本的数目;
根据以下公式计算各细聚类集合中各个短语的加权值 tfidfu:
tfidfu=tfu,v×idfu;
按降序排列每一个细聚类集合中各个短语的加权值;
选择前设定数量的加权值对应的短语,选择的短语为该细聚 类集合中的代表性短语。
为解决上述技术问题,本发明还提供了如下方案:
一种基于海量新闻数据的快速热点检测系统,所述快速热点 检测系统包括:
粗聚类单元,用于对多个待处理新闻文本进行链式聚类,得 到粗聚类集合;
细聚类单元,用于基于快速搜索和寻找密度峰值方法,对所 述粗聚类集合进行搜索,得到细聚类集合;
提取单元,用于提取所述细聚类集合中的代表性短语,所述 代表性短语为热点词语。
根据本发明的实施例,本发明公开了以下技术效果:
本发明可直接对多个待处理新闻文本进行链式聚类,得到粗 聚类集合;进一步基于快速搜索和寻找密度峰值方法,进行聚类,从而 得到细聚类集合,并从中提取代表性短语,从而可快速捕捉到新闻文本 中的热点词语,可提高计算效率和准确性。
附图说明
图1是本发明基于海量新闻数据的快速热点检测方法的流 程图;
图2是链式聚类的流程图;
图3是得到细聚类集合的流程图;
图4是本发明基于海量新闻数据的快速热点检测系统的模 块结构示意图。
符号说明:
粗聚类单元—1,细聚类单元—2,提取单元—3。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人 员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非 旨在限制本发明的保护范围。
本发明提供一种基于海量新闻数据的快速热点检测方法,可 直接对多个待处理新闻文本进行链式聚类,得到粗聚类集合;进一步基 于快速搜索和寻找密度峰值方法,进行聚类,从而得到细聚类集合,并 从中提取代表性短语,从而可快速捕捉到新闻文本中的热点词语,可提 高计算效率和准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下 面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,对m个待处理新闻文本,本发明基于海量新 闻数据的快速热点检测方法包括:
步骤100:对多个待处理新闻文本进行链式聚类,得到粗聚 类集合;
步骤200:基于快速搜索和寻找密度峰值方法,对所述粗聚 类集合进行搜索,得到细聚类集合;
步骤300:提取所述细聚类集合中的代表性短语,所述代表 性短语为热点词语。
如图2所示,在步骤100中,所述对多个待处理新闻文本进 行链式聚类,得到粗聚类集合,具体包括:
步骤101:抽取每个待处理新闻文本x1:m中的关键词及所述 关键词对应的权重,每个关键词及对应的权重为一对词组,多对词组形 成对应该待处理新闻文本的文本特征向量集feature-weight-pairs。
其中,feature_weight_pairs=[fw1,fw2,fw3,...,fwn], fwn=(feature_n,weight_n),feature-n表示第n个关键词,weight-n表示关键 词feature_n对应的权重。
步骤102:采用哈希算法对每一文本特征向量集中的词组进 行映射,得到对应待处理新闻文本的哈希特征向量集hash-weight-pairs,其 中,hash_weight_pairs=[hw1,hw2,...,hwn],hwn=(hash(feature-n),weight-n), hash(feature-n)表示关键词feature-n的映射哈希值,且hash(feature-n)的位数为 count_bits_n。
步骤103:根据所述哈希特征向量集hash-weight-pairs中的各 哈希值,生成表征内容指纹的二进制字符串。
步骤104:根据各二进制字符串计算两个文本的相似度。
步骤105:根据各相似度,对各待处理新闻文本进行划分, 得到多个粗聚类集合。
进一步地,在步骤103中根据所述哈希特征向量集 hash_weight_pairs中的各哈希值,生成表征内容指纹的二进制字符串,具体 包括:
步骤1031:根据所述哈希特征向量集hash-weight-pairs中的各 哈希值中各位的值,确定加权值:
如果为1,则对应向量维度处加上对应的权值;如果所在位 是0,则对应向量维度处减去对应的权值;
步骤1032:对加权值进行位的纵向累加,生成位字符串;
步骤1033:对所述位字符串进行0、1转换,得到表征内容 指纹的二进制字符串:
如果所述位字符串中的所在位大于0,则将该位转换为1; 如果所述位字符串中的所在位小于0,则将该位转换为0。
在步骤104中,所述根据各二进制字符串计算两个文本的相 似度的方法包括:
步骤1041:采用海明距离方法或余弦相似方法,计算任意 两个文本的相似度;
步骤1042:根据各相似度对相似的文本进行初步筛选,获 得初步相似文本;
步骤1043:引用决策树转引关系判决方法,判别初步相似 文本是否相似,以从各初步相似文本中选择出最终相似文本,根据最终 相似文本确定对应的相似度。
其中,所述最终相似文本的相似度从采用海明距离方法或余 弦相似方法计算的各相似度中直接选择。
具体的,所述海明距离方法具体包括:
如果两个新闻文本的海明距离小于或等于m,m∈[2,4],则判 定两个新闻文本为初步相似文本。
所述余弦相似判别方法具体包括:
对于n维向量,假设A是[A1,A2,...,An],B是[B1,B2,...,Bn],根据 如下公式确定A和B的夹角cosθ:
余弦值cosθ越接近1,表明夹角越接近0度,也就是两个新 闻文本对应的向量越相似。
如图3所示,在步骤200中基于快速搜索和寻找密度峰值方 法,对所述粗聚类集合进行搜索,得到细聚类集合,具体包括:
步骤201:从各所述粗聚类集合中随机选择K个中心点;
步骤202:计算每个中心点的局部密度ρi,i表示中心点序 号,i=1,2,…,K;
步骤203:对于每个中心点,计算与其他局部密度比它大的 点的距离,取距离值的最小值,即最小距离δi;
步骤204:绘制局部密度ρi-最小距离δi图;
步骤205:根据各局部密度ρi-最小距离δi图确定细聚类集 合:局部密度ρi-最小距离δi图中的离群点为新的聚类中心,将新的聚 类中心与最近邻点归为一个类簇,得到细聚类集合,其中细聚类集合中 的各点分别表示同一类的短语。
进一步地,在步骤201中,从各所述粗聚类集合中随机选择 K个中心点,具体包括:
步骤2011:从各所述粗聚类集合中随机选一个点作为一个 结果集的初始化中心点;
步骤2012:从各所述粗聚类集合中选取距离这个点最远的 点作为第二个结果集的中心点;
步骤2013:选取到前两个点距离和最远的点作为第三个结 果集的中心点,以此类推,递归选择全部中心点。
在步骤202中,根据以下公式确定每个中心点的局部密度 ρi:
ρi=∑jχ(dij-dc)-------(2);
dij表示中心点i与中心点j的距离,dc表示截断距离,是 一个超参数,因此,所以ρi相当于距离点i的距离小于dc的点的个数。
在步骤203中,所述对于每个中心点,计算与其他局部密度 比它大的点的距离,取距离值的最小值,具体包括:
步骤2031:对于每个中心点,统计局部密度大于该中心点 的局部密度的其他中心点;
步骤2032:分别计算统计的其他中心点与该中心点的距离;
步骤2033:从各距离中选择最小值,所述最小值为该中心 点的最小距离δi。
到高局部密度点的最小距离δi:对于 密度最大的点,设置δi=maxj(dij),注意只有那些密度是局部或者全局 最大的点才会有远大于正常的相邻点间距。
在步骤300中,所述提取所述细聚类集合中的代表性短语, 具体包括:
步骤301:根据以下公式计算各细聚类集合中的各个短语的 词频tfu,v:
其中,qu,v表示该短语在新闻文本dv中的出现次数, ∑wqw,v表示在新闻文本dv中所有短语的出现次数之和。
步骤302:根据以下公式计算各细聚类集合中的各个短语的 逆向文件频率idfu:
其中,|D|是当前细聚类集合中新闻文本的总数,|{v:tv∈dv}|表 示包含短语tv的新闻文本的数目。
步骤303:根据以下公式计算各细聚类集合中各个短语的加 权值tfidfu:
tfidfu=tfu,v×idfu-------(6)。
步骤304:按降序排列每一个细聚类集合中各个短语的加权 值。
步骤305:选择前设定数量的加权值对应的短语,选择的短 语为该细聚类集合中的代表性短语。
本发明在文本聚类时采用了内容指纹算法,与以往基于向量 空间模型实现的相似短文本识别相比,不仅大大提高了相似文本的查找 性能,而且解决了计算效率低、对内容变异不敏感的问题;此外,细过 滤时采用的通过快速搜索和寻找密度峰值方法进行聚类,算法的鲁棒性 高,为第一步聚类可能发生的描述相同事件被聚成两个类的情况进行二次聚类,细化了聚类过程,提高了信息提取的准确性。
本发明还提供一种基于海量新闻数据的快速热点检测系统。 如图4所示,本发明基于海量新闻数据的快速热点检测系统包括粗聚类 单元1、细聚类单元2及提取单元3。
所述粗聚类单元1用于对多个待处理新闻文本进行链式聚 类,得到粗聚类集合;所述细聚类单元2用于基于快速搜索和寻找密度峰 值方法,对所述粗聚类集合进行搜索,得到细聚类集合;所述提取单元3 用于提取所述细聚类集合中的代表性短语,所述代表性短语为热点词语。
相对于现有技术,本发明基于海量新闻数据的快速热点检测 系统与上述基于海量新闻数据的快速热点检测方法的有益效果相同,在 此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技 术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然 不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域 技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换 之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种基于海量新闻数据的快速热点检测方法,其特征在于,所述快速热点检测方法包括:
对多个待处理新闻文本进行链式聚类,得到粗聚类集合;
基于快速搜索和寻找密度峰值方法,对所述粗聚类集合进行搜索,得到细聚类集合;
提取所述细聚类集合中的代表性短语,所述代表性短语为热点词语。
2.根据权利要求1所述的基于海量新闻数据的快速热点检测方法,其特征在于,所述对多个待处理新闻文本进行链式聚类,得到粗聚类集合,具体包括:
抽取每个待处理新闻文本中的关键词及所述关键词对应的权重,每个关键词及对应的权重为一对词组,多对词组形成对应该待处理新闻文本的文本特征向量集feature-weight-pairs;其中,feature_weight_pairs=[fw1,fw2,fw3,...,fwn],fwn=(feature_n,weight_n),feature-n表示第n个关键词,weight-n表示关键词feature-n对应的权重;
采用哈希算法对每一文本特征向量集中的词组进行映射,得到对应待处理新闻文本的哈希特征向量集hash_weight_pairs,其中,hash_weight_pairs=[hw1,hw2,...,hwn],hwn=(hash(feature_n),weight_n),hash(feature_n)表示关键词feature_n的映射哈希值,且hash(feature_n)的位数为count_bits_n;
根据所述哈希特征向量集hash_weight_pairs中的各哈希值,生成表征内容指纹的二进制字符串;
根据各二进制字符串计算两个文本的相似度;
根据各相似度,对各待处理新闻文本进行划分,得到多个粗聚类集合。
3.根据权利要求2所述的基于海量新闻数据的快速热点检测方法,其特征在于,所述根据所述哈希特征向量集hash_weight_pairs中的各哈希值,生成表征内容指纹的字符串,具体包括:
根据所述哈希特征向量集hash_weight_pairs中的各哈希值中各位的值,确定加权值:
如果为1,则对应向量维度处加上对应的权值;如果所在位是0,则对应向量维度处减去对应的权值;
对加权值进行位的纵向累加,生成位字符串;
对所述位字符串进行0、1转换,得到表征内容指纹的二进制字符串:
如果所述位字符串中的所在位大于0,则将该位转换为1;如果所述位字符串中的所在位小于0,则将该位转换为0。
4.根据权利要求2所述的基于海量新闻数据的快速热点检测方法,其特征在于,所述根据各二进制字符串计算两个文本的相似度的方法包括:
采用海明距离方法或余弦相似方法计算任意两个文本的相似度;
根据各相似度对相似的文本进行初步筛选,获得初步相似文本;
引用决策树转引关系判决方法,判别初步相似文本是否相似,以从各初步相似文本中选择出最终相似文本,根据最终相似文本确定对应的相似度。
5.根据权利要求1所述的基于海量新闻数据的快速热点检测方法,其特征在于,所述基于快速搜索和寻找密度峰值方法对所述粗聚类集合进行搜索,得到细聚类集合,具体包括:
从各所述粗聚类集合中随机选择K个中心点;
计算每个中心点的局部密度ρi,i表示中心点序号,i=1,2,…,K;
对于每个中心点,计算与其他局部密度比它大的点的距离,取距离值的最小值,即最小距离δi;
绘制局部密度ρi-最小距离δi图;
根据各局部密度ρi-最小距离δi图确定细聚类集合:局部密度ρi-最小距离δi图中的离群点为新的聚类中心,将新的聚类中心与最近邻点归为一个类簇,得到细聚类集合,其中细聚类集合中的各点分别表示同一类的短语。
6.根据权利要求5所述的基于海量新闻数据的快速热点检测方法,其特征在于,从各所述粗聚类集合中随机选择K个中心点,具体包括:
从各所述粗聚类集合中随机选一个点作为一个结果集的初始化中心点;
从各所述粗聚类集合中选取距离这个点最远的点作为第二个结果集的中心点;
选取到前两个点距离和最远的点作为第三个结果集的中心点,以此类推,递归选择全部中心点。
7.根据权利要求5所述的基于海量新闻数据的快速热点检测方法,其特征在于,所述计算每个中心点的局部密度ρi,具体包括:
根据以下公式确定ρi:
ρi=∑jχ(dij-dc)
其中,dij表示中心点i与中心点j的距离,dc表示截断距离。
8.根据权利要求5所述的基于海量新闻数据的快速热点检测方法,其特征在于,所述对于每个中心点,计算与其他局部密度比它大的点的距离,取距离值的最小值,具体包括:
对于每个中心点,统计局部密度大于该中心点的局部密度的其他中心点;
分别计算统计的其他中心点与该中心点的距离;
从各距离中选择最小值,所述最小值为该中心点的最小距离δi。
9.根据权利要求5所述的基于海量新闻数据的快速热点检测方法,其特征在于,所述提取所述细聚类集合中的代表性短语,具体包括:
根据以下公式计算各细聚类集合中的各个短语的词频tfu,v:
其中,qu,v表示该短语在新闻文本dv中的出现次数,∑wqw,v表示在新闻文本dv中所有短语的出现次数之和;
根据以下公式计算各细聚类集合中的各个短语的逆向文件频率idfu:
其中,|D|是当前细聚类集合中新闻文本的总数,|{v:tv∈dv}|表示包含短语tv的新闻文本的数目;
根据以下公式计算各细聚类集合中各个短语的加权值tfidfu:
tfidfu=tfu,v×idfu;
按降序排列每一个细聚类集合中各个短语的加权值;
选择前设定数量的加权值对应的短语,选择的短语为该细聚类集合中的代表性短语。
10.一种基于海量新闻数据的快速热点检测系统,其特征在于,所述快速热点检测系统包括:
粗聚类单元,用于对多个待处理新闻文本进行链式聚类,得到粗聚类集合;
细聚类单元,用于基于快速搜索和寻找密度峰值方法,对所述粗聚类集合进行搜索,得到细聚类集合;
提取单元,用于提取所述细聚类集合中的代表性短语,所述代表性短语为热点词语。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810044908.0A CN108304502B (zh) | 2018-01-17 | 2018-01-17 | 基于海量新闻数据的快速热点检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810044908.0A CN108304502B (zh) | 2018-01-17 | 2018-01-17 | 基于海量新闻数据的快速热点检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304502A true CN108304502A (zh) | 2018-07-20 |
CN108304502B CN108304502B (zh) | 2020-10-02 |
Family
ID=62865741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810044908.0A Active CN108304502B (zh) | 2018-01-17 | 2018-01-17 | 基于海量新闻数据的快速热点检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304502B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299747A (zh) * | 2018-10-24 | 2019-02-01 | 北京字节跳动网络技术有限公司 | 一种类簇中心的确定方法、装置、计算机设备及存储介质 |
CN109739975A (zh) * | 2018-11-15 | 2019-05-10 | 东软集团股份有限公司 | 热点事件抽取方法、装置、可读存储介质及电子设备 |
CN110851592A (zh) * | 2019-09-19 | 2020-02-28 | 昆明理工大学 | 一种基于聚类的新闻文本最优主题数计算方法 |
CN111104511A (zh) * | 2019-11-18 | 2020-05-05 | 腾讯科技(深圳)有限公司 | 一种提取热点话题的方法、装置及存储介质 |
WO2020114100A1 (zh) * | 2018-12-06 | 2020-06-11 | 中兴通讯股份有限公司 | 一种信息处理方法、装置和计算机存储介质 |
CN112463952A (zh) * | 2020-12-22 | 2021-03-09 | 安徽商信政通信息技术股份有限公司 | 一种基于近邻搜索的新闻文本聚合方法及系统 |
CN114528375A (zh) * | 2022-01-26 | 2022-05-24 | 北京金堤科技有限公司 | 一种相似舆情文本识别方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464910A (zh) * | 2009-01-12 | 2009-06-24 | 浙江大学 | 基于数据相似的平衡聚类压缩方法 |
CN102004792A (zh) * | 2010-12-07 | 2011-04-06 | 百度在线网络技术(北京)有限公司 | 一种热搜词生成方法及系统 |
US20120254188A1 (en) * | 2011-03-30 | 2012-10-04 | Krzysztof Koperski | Cluster-based identification of news stories |
CN103164540A (zh) * | 2013-04-15 | 2013-06-19 | 武汉大学 | 一种专利热点发现与趋势分析方法 |
CN106254321A (zh) * | 2016-07-26 | 2016-12-21 | 中国人民解放军防空兵学院 | 一种全网络异常数据流分类方法 |
-
2018
- 2018-01-17 CN CN201810044908.0A patent/CN108304502B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464910A (zh) * | 2009-01-12 | 2009-06-24 | 浙江大学 | 基于数据相似的平衡聚类压缩方法 |
CN102004792A (zh) * | 2010-12-07 | 2011-04-06 | 百度在线网络技术(北京)有限公司 | 一种热搜词生成方法及系统 |
US20120254188A1 (en) * | 2011-03-30 | 2012-10-04 | Krzysztof Koperski | Cluster-based identification of news stories |
CN103164540A (zh) * | 2013-04-15 | 2013-06-19 | 武汉大学 | 一种专利热点发现与趋势分析方法 |
CN106254321A (zh) * | 2016-07-26 | 2016-12-21 | 中国人民解放军防空兵学院 | 一种全网络异常数据流分类方法 |
Non-Patent Citations (1)
Title |
---|
蔡旭芬 等: "一种面向高维数据的密度峰值聚类模型", 《中国传媒大学学报自然科学版》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299747A (zh) * | 2018-10-24 | 2019-02-01 | 北京字节跳动网络技术有限公司 | 一种类簇中心的确定方法、装置、计算机设备及存储介质 |
CN109299747B (zh) * | 2018-10-24 | 2020-12-15 | 北京字节跳动网络技术有限公司 | 一种类簇中心的确定方法、装置、计算机设备及存储介质 |
CN109739975A (zh) * | 2018-11-15 | 2019-05-10 | 东软集团股份有限公司 | 热点事件抽取方法、装置、可读存储介质及电子设备 |
CN109739975B (zh) * | 2018-11-15 | 2021-03-09 | 东软集团股份有限公司 | 热点事件抽取方法、装置、可读存储介质及电子设备 |
WO2020114100A1 (zh) * | 2018-12-06 | 2020-06-11 | 中兴通讯股份有限公司 | 一种信息处理方法、装置和计算机存储介质 |
CN111291177A (zh) * | 2018-12-06 | 2020-06-16 | 中兴通讯股份有限公司 | 一种信息处理方法、装置和计算机存储介质 |
CN110851592A (zh) * | 2019-09-19 | 2020-02-28 | 昆明理工大学 | 一种基于聚类的新闻文本最优主题数计算方法 |
CN111104511A (zh) * | 2019-11-18 | 2020-05-05 | 腾讯科技(深圳)有限公司 | 一种提取热点话题的方法、装置及存储介质 |
CN111104511B (zh) * | 2019-11-18 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 一种提取热点话题的方法、装置及存储介质 |
CN112463952A (zh) * | 2020-12-22 | 2021-03-09 | 安徽商信政通信息技术股份有限公司 | 一种基于近邻搜索的新闻文本聚合方法及系统 |
CN112463952B (zh) * | 2020-12-22 | 2023-05-05 | 安徽商信政通信息技术股份有限公司 | 一种基于近邻搜索的新闻文本聚合方法及系统 |
CN114528375A (zh) * | 2022-01-26 | 2022-05-24 | 北京金堤科技有限公司 | 一种相似舆情文本识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108304502B (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304502A (zh) | 基于海量新闻数据的快速热点检测方法及系统 | |
Wang et al. | PDRCNN: Precise phishing detection with recurrent convolutional neural networks | |
Zhu et al. | OFS-NN: an effective phishing websites detection model based on optimal feature selection and neural network | |
CN105488196B (zh) | 一种基于互联语料的热门话题自动挖掘系统 | |
Zhou et al. | Event detection over twitter social media streams | |
Unar et al. | Detected text‐based image retrieval approach for textual images | |
Yin et al. | Gps2vec: Towards generating worldwide gps embeddings | |
Adams et al. | Crowdsourcing the character of a place: Character‐level convolutional networks for multilingual geographic text classification | |
Jaiswal et al. | Aird: Adversarial learning framework for image repurposing detection | |
Li et al. | An automatic approach for generating rich, linked geo-metadata from historical map images | |
Liu et al. | SPWalk: Similar property oriented feature learning for phishing detection | |
CN113449111A (zh) | 基于时空语义知识迁移的社会治理热点话题自动识别方法 | |
Zhu et al. | CCBLA: a lightweight phishing detection model based on CNN, BiLSTM, and attention mechanism | |
Ya et al. | NeuralAS: Deep word-based spoofed URLs detection against strong similar samples | |
Chapuis et al. | Geodabs: Trajectory indexing meets fingerprinting at scale | |
Ying et al. | Inferring event geolocation based on Twitter | |
Malik et al. | Performance Evaluation of Classification Algorithms for Intrusion Detection on NSL-KDD Using Rapid Miner | |
Zheng et al. | Shadowdga: toward evading DGA detectors with GANs | |
Ding et al. | Detecting Domain Generation Algorithms with Bi-LSTM. | |
Luo et al. | Fingerprint matching based on global minutia cylinder code | |
Chen et al. | Phishing target identification based on neural networks using category features and images | |
Shi | A method of discriminating user's identity similarity based on username feature greedy matching | |
Sha et al. | Limited dictionary builder: An approach to select representative tokens for malicious URLs detection | |
CN114880572B (zh) | 新闻客户端智能推荐系统 | |
Zheng et al. | Themis: A Novel Detection Approach for Detecting Mixed Algorithmically Generated Domains |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |