CN110019556A

CN110019556A - 一种话题新闻获取方法、装置及其设备

Info

Publication number: CN110019556A
Application number: CN201711444974.9A
Authority: CN
Inventors: 吴保华; 孙艳; 吴云崇; 闵万里
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2019-07-16
Anticipated expiration: 2037-12-27
Also published as: CN110019556B

Abstract

本申请提供一种话题新闻获取方法、装置及其设备，该方法包括：获取多个新闻，并从获取的新闻中选取关键词；获取所述关键词的话题分，并根据所述话题分获取新闻的突发分；根据所述突发分，从所述多个新闻中选取候选新闻；根据所述候选新闻获取突发性的话题新闻。通过本申请的技术方案，可以自动获取突发性的话题新闻，提高业务体验，避免管理人员人工分析出突发性的话题新闻，提高突发性的话题新闻的获取效率。

Description

一种话题新闻获取方法、装置及其设备

技术领域

本申请涉及互联网领域，尤其涉及一种话题新闻获取方法、装置及其设备。

背景技术

随着互联网媒体的高速发展，越来越多的人通过网络发布信息、获取信息、参与讨论、发表意见等，因此，网络舆情已经成为政府以及企业的重要信息来源和参考。进一步的，网络舆情中的突发性的话题新闻，能够反映舆论的风向，因此，及时发现并追踪突发性的话题新闻，是进一步采取控制措施的关键步骤。

在传统方式中，需要管理人员人工分析出突发性的话题新闻，其效率很低，目前，并没有针对突发性的话题新闻的有效获取方式，业务体验均较差。

发明内容

本申请提供一种话题新闻获取方法，所述方法包括：

获取多个新闻，并从获取的新闻中选取关键词；

获取所述关键词的话题分，并根据所述话题分获取新闻的突发分；

根据所述突发分，从所述多个新闻中选取候选新闻；

根据所述候选新闻获取突发性的话题新闻。

本申请提供一种话题新闻获取方法，所述方法包括：

获取新闻的突发分；

根据所述突发分，从多个新闻中选取候选新闻；

从候选新闻中提取多个原始主题，并利用所述原始主题对所述候选新闻进行第一次聚类，得到K个第一聚类主题；利用所述第一聚类主题对所述候选新闻进行第二次聚类，得到M个第二聚类主题；M小于K；

将候选新闻数量高的L个第二聚类主题确定为突发性话题；L小于M；

将所述突发性话题对应的新闻确定为突发性的话题新闻。

本申请提供一种话题新闻获取装置，所述装置包括：

第一获取模块，用于获取多个新闻，并从获取的新闻中选取关键词；

第二获取模块，用于获取所述关键词的话题分，并根据所述话题分获取新闻的突发分；

选取模块，用于根据所述突发分，从所述多个新闻中选取候选新闻；

第三获取模块，用于根据所述候选新闻获取突发性的话题新闻。

本申请提供一种话题新闻获取装置，所述装置包括：

获取模块，用于获取新闻的突发分；

选取模块，用于根据所述突发分，从多个新闻中选取候选新闻；

聚类模块，用于从候选新闻中提取多个原始主题，并利用所述原始主题对所述候选新闻进行第一次聚类，得到K个第一聚类主题；利用所述第一聚类主题对所述候选新闻进行第二次聚类，得到M个第二聚类主题；M小于K；

确定模块，用于将候选新闻数量高的L个第二聚类主题确定为突发性话题；L小于M；将所述突发性话题对应的新闻确定为突发性的话题新闻。

本申请提供一种话题新闻获取设备，包括：

处理器，用于获取多个新闻，并从获取的新闻中选取关键词；获取所述关键词的话题分，并根据所述话题分获取新闻的突发分；根据所述突发分，从所述多个新闻中选取候选新闻；根据所述候选新闻获取突发性的话题新闻。

本申请提供一种话题新闻获取设备，包括：处理器，用于获取新闻的突发分；根据所述突发分，从多个新闻中选取候选新闻；从候选新闻中提取多个原始主题，利用所述原始主题对所述候选新闻进行第一次聚类，得到K个第一聚类主题；利用所述第一聚类主题对所述候选新闻进行第二次聚类，得到M个第二聚类主题；M小于K；将候选新闻数量高的L个第二聚类主题确定为突发性话题；L小于M；将所述突发性话题对应的新闻确定为突发性的话题新闻。

基于上述技术方案，本申请实施例中，针对网络上传播的新闻，可以从新闻中自动抽取关键词，并根据关键词的话题分获取新闻的突发分(新闻的突发分用于度量新闻的突发性)，然后，根据新闻的突发分从多个新闻中选取候选新闻(即选取突发性高的新闻为候选新闻)，并根据候选新闻获取突发性的话题新闻。这样，就可以自动获取突发性的话题新闻，提高业务体验，避免管理人员人工分析出突发性的话题新闻，提高突发性的话题新闻的获取效率。

附图说明

为了更加清楚地说明本申请实施例或者现有技术中的技术方案，下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本申请实施例的这些附图获得其它的附图。

图1是本申请一种实施方式中的话题新闻获取方法的流程图；

图2A是本申请一种实施方式中的应用场景示意图；

图2B是本申请另一种实施方式中的话题新闻获取方法的流程图；

图3是本申请另一种实施方式中的话题新闻获取方法的流程图；

图4是本申请一种实施方式中的话题新闻获取装置的结构图；

图5是本申请一种实施方式中的话题新闻获取装置的结构图。

具体实施方式

在本申请实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请实施例中提出一种话题新闻获取方法，该方法可以应用于获取设备，该获取设备用于获取话题新闻，如该获取设备用于获取突发性的话题新闻，对此获取设备的类型不做限制，例如，该获取设备可以是PC(Personal Computer，个人计算机)、笔记本电脑、移动终端、服务器、数据平台、电商平台等。

参见图1所示，为该话题新闻获取方法的流程示意图，该方法可以包括：

步骤101，获取多个新闻，并从获取的新闻中选取关键词。

在一个例子中，可以实时批量地从媒体(如互联网媒体)发布的新闻中抽取多个新闻(或可以称为文章)，并将获取的新闻保存到数据库中。其中，新闻的获取数量可以根据实际需要而定，如可以为1000000等，对此不做限制。

其中，在将新闻保存到数据库时，可以先将新闻转换为结构化的新闻，并将结构化的新闻保存到数据库中。进一步的，结构化的新闻可以包括但不限于：新闻标题、新闻作者、新闻内容、新闻采集时间、新闻来源、新闻分类等信息。

其中，对于从媒体发布的新闻中抽取多个新闻的方式，可以采用webmagic开源框架，也可以采用其它抽取方式，对此抽取方式不做限制。其中，webmagic开源框架是一个无须配置、便于二次开发的爬虫框架，通过提供简单灵活的API(Application ProgrammingInterface，应用程序编程接口)，使得只需要少量代码即可以实现一个爬虫，从而可以通过爬虫从媒体发布的新闻中抽取多个新闻。

在一个例子中，针对“从获取的新闻中选取关键词”的过程，可以包括但不限于如下方式：对获取的新闻进行分词处理，得到多个词语；获取词语的重要程度，并根据所述重要程度从多个词语中选取关键词，如选取多个关键词。

其中，针对获取的每个新闻，可以将该新闻标记为d_i，d_i表示第i个新闻的新闻标识，不同新闻的新闻标识不同，即新闻标识具有唯一性，通过新闻标识可以找到唯一的新闻。通过对新闻d_i进行分词处理，可以得到R个词语，针对每个词语，可以将该词语标记为w_ij(j＝1,2,3,…R)，w_ij表示第i个新闻的第j词语。

其中，可以采用分词技术(如字符串匹配的分词方法、词义分词法、统计分词法等)对每个新闻d_i进行分词处理，对此分词过程不做详加限制。在分词处理结束之后，针对每个新闻d_i，均可以得到多个词语，而得到的词语数量与新闻d_i内容的多少有关，且不同新闻d_i对应的词语数量可以相同或者不同。

其中，对于分词后得到的词语，其词性可以为名词、动词、形容词等，对此词性不做限制。在后续过程中，是针对名词或者动词的词语进行处理。

其中，针对每个新闻d_i的每个词语w_ij(词性为名词或动词)，可以获取词语w_ij的重要程度tfidf_ij，该重要程度tfidf_ij用于表示该词语对该新闻的重要程度。例如，词语w₁₁的重要程度tfidf₁₁表示新闻d₁中的词语w₁对新闻d₁的重要程度，词语w₁₂的重要程度tfidf₁₂表示新闻d₁中的词语w₂对新闻d₁的重要程度，词语w₂₁的重要程度tfidf₂₁表示新闻d₂中的词语w₁对新闻d₂的重要程度，以此类推。

其中，可以根据TF-IDF(Term Frequency–Inverse Document Frequency，词频逆向文件频率)统计算法获取词语w_ij的重要程度tfidf_ij。TF-IDF统计算法是一种统计方法，用于评估一个词语对于一个新闻的重要程度；TF-IDF实际上是TF*IDF；TF为词频，TF表示词语在新闻中出现的频率；IDF为逆向文件频率，是一个词语普遍重要性的度量，某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。进一步的，在得到词语w_ij对应的TF和IDF后，就可以获取到w_ij的重要程度tfidf_ij，对此不做限制。

其中，在得到每个新闻d_i的每个词语w_ij的重要程度tfidf_ij后，就可以根据每个词语w_ij的重要程度tfidf_ij从多个词语中选取关键词。例如，按照重要程度tfidf_ij从大到小的顺序，对新闻d_i的所有词语w_ij进行排序，并选取排序靠前的T个词语作为新闻d_i的关键词。T为预设的数值(如50个)，或词语总数量的比例，如新闻d_i的词语总数量是1000时，T的取值可以为1000*10％，即100个。

例如，针对新闻d₁，可以根据每个词语w_1j的重要程度，从新闻d₁的所有词语中选取重要程度高的50个词语；针对新闻d₂，可以根据每个词语w_2j的重要程度，从新闻d₂的所有词语中选取重要程度高的50个词语；以此类推。

在一个例子中，针对“从新闻中选取关键词”的过程，可以是针对当前周期的新闻，执行选取关键词的步骤，并执行后续步骤。例如，当以“天”为周期时，则只从当天的新闻中选取关键词，并执行后续步骤；当以“小时”为周期时，则只从当前小时的新闻中选取关键词，并执行后续步骤；以此类推。

步骤102，获取关键词的话题分，并根据所述话题分获取新闻的突发分。

在一个例子中，针对每个新闻d_i，可以获取该新闻d_i的每个关键词的话题分，由于每个关键词的话题分的获取方式相同，因此，以一个关键词为例进行说明。具体的，针对“获取关键词的话题分”的过程，可以包括但不限于如下方式：统计所述关键词在当前周期的第一次数、在过去周期的第二次数；统计所述关键词之外的其它词语在当前周期的第三次数、在过去周期的第四次数；根据第一次数、第二次数、第三次数和第四次数获取所述关键词的话题分。

进一步的，针对“根据第一次数、第二次数、第三次数和第四次数获取所述关键词的话题分”的过程，可以包括但不限于如下方式：可以采用卡方检验算法，对上述第一次数、第二次数、第三次数和第四次数进行运算，以得到所述关键词的卡方值；然后，将所述关键词的卡方值确定为关键词的话题分。

参见表1所示，为卡方检验的四格表的一个示例，n₁表示关键词w_j在当前周期(即recent)的第一次数，n₂表示关键词w_j在过去周期(即baseline)的第二次数，m₁表示关键词w_j之外的其它词语在当前周期的第三次数，m₂表示关键词w_j之外的其它词语在过去周期的第四次数。其中，当前周期可以是获取话题新闻的当天(以天为统计周期)，而过去周期可以是当天之前的连续N天(如7天、15天、30天等)，当然，上述当前周期和过去周期只是一个示例，对此不做限制。例如，若需要获取2017年09月10日的话题新闻，则当前周期可以是2017年09月10日，过去周期可以是2017年09月03日-2017年09月09日。

表1

	C<sub>recent</sub>	C<sub>baseline</sub>
			w<sub>j</sub>＝A	n<sub>1</sub>	n<sub>2</sub>
w<sub>j</sub>≠A	m<sub>1</sub>	m<sub>2</sub>

其中，假设关键词是A，为了获取到关键词A的话题分，先统计关键词A在2017年09月10日的所有新闻中出现的次数，该次数为第一次数n₁，并统计关键词A在2017年09月03日-2017年09月09日的所有新闻中出现的次数，该次数为第二次数n₂。然后，统计关键词A之外的其它词语(如从所有新闻中获取到的所有关键词，关键词A除外)在2017年09月10日的所有新闻中出现的次数，该次数为第三次数m₁，并统计关键词A之外的其它词语在2017年09月03日-2017年09月09日的所有新闻中出现的次数，该次数为第四次数m₂。

在一个例子中，在得到第一次数n₁、第二次数n₂、第三次数m₁和第四次数m₂后，就可以采用卡方检验算法，对第一次数n₁、第二次数n₂、第三次数m₁和第四次数m₂进行运算，以得到关键词w_j的卡方值cs_j(表示第j个关键词的卡方值)。对此卡方检验算法不做限制，只要能够基于第一次数n₁、第二次数n₂、第三次数m₁和第四次数m₂得到卡方值cs_j即可。例如，可以通过如下公式计算卡方值cs_j：n*(n₁*m₂-n₂*m₁)^2/(n₁+n₂)(m₁+m₂)(n₁+m₁)(n₂+m₂)，n＝n₁+n₂₊m₁+m₂。当然，上述公式只是计算卡方值cs_j的一个示例，对此计算公式不做限制。

在得到关键词w_j的卡方值cs_j之后，就可以将所述卡方值cs_j确定为关键词w_j的话题分，也就是说，该关键词w_j的话题分是所述关键词w_j的卡方值cs_j。

在一个例子中，针对“根据所述话题分获取新闻的突发分”的过程，可以包括但不限于如下方式：方式一、确定新闻对应的每个关键词的话题分，并将每个关键词的话题分的和，确定为所述新闻的突发分。方式二、获取新闻对应的关键词的重要程度，并根据所述关键词的话题分和所述关键词的重要程度，获取所述新闻的突发分。进一步的，针对“根据所述关键词的话题分和所述关键词的重要程度，获取所述新闻的突发分”的过程，可以包括但不限于：确定所述关键词对应的子突发分为所述关键词的话题分与所述关键词的重要程度的积，并将所述新闻的所有关键词对应的子突发分的和确定为所述新闻的突发分。

在方式一中，假设新闻包括关键词w₁、关键词w₂和关键词w₃，则新闻的突发分为关键词w₁的话题分cs₁+关键词w₂的话题分cs₂+关键词w₃的话题分cs₃。

在方式二中，可以先获取新闻对应的每个关键词w_j的重要程度，该重要程度表示该关键词w_j对该新闻的重要程度，且该重要程度是根据TF-IDF统计算法获取的。在上述过程中，已经介绍重要程度的获取方式，在此不再重复赘述。

然后，假设新闻包括关键词w₁、关键词w₂和关键词w₃，则关键词w₁的子突发分1为关键词w₁的话题分cs₁*关键词w₁的重要程度，关键词w₂的子突发分2为关键词w₂的话题分cs₂*关键词w₂的重要程度，关键词w₃的子突发分3为关键词w₃的话题分cs₃*关键词w₃的重要程度。然后，可以确定新闻的突发分为关键词w₁的子突发分1+关键词w₂的子突发分2+关键词w₃的子突发分3。

步骤103，根据新闻的突发分，从多个新闻中选取候选新闻。

在步骤101中，可以获取到多个新闻，在步骤102中，可以获取每个新闻的突发分，在步骤103中，可以利用每个新闻的突发分，从多个新闻中选取候选新闻。具体的，针对“根据新闻的突发分，从多个新闻中选取候选新闻”的过程，可以包括但不限于如下方式：按照突发分从大到小的顺序，对多个新闻进行排序；将排序靠前的N个新闻，选取为候选新闻。或者，按照突发分从小到大的顺序，对多个新闻进行排序；将排序靠后的N个新闻，选取为候选新闻。

其中，N为预设的数值(如10个)，或者，针对新闻总数的比例，如新闻总数为150个时，若比例为10％，则N的取值可以为150*10％，即15个。

在一个例子中，由于候选新闻是基于突发分选取的，也就是说，选取突发分大的新闻作为候选新闻，因此，候选新闻是突发性的新闻，具有突发性。例如，新闻A的内容在2017年09月10日频繁出现，但是在2017年09月03日-2017年09月09日没有出现过，则说明新闻A是突发性的新闻，具有突发性；若新闻A的内容在2017年09月10日频繁出现，且在2017年09月03日-2017年09月09日也频繁出现，则说明新闻A不是突发性的新闻，不具有突发性。

进一步的，由于新闻的突发分是基于每个关键词的话题分获得，而关键词的话题分与该关键词在2017年09月10日的所有新闻中出现的次数、该关键词在2017年09月03日-2017年09月09日的所有新闻中出现的次数有关，因此，新闻的突发分能够衡量新闻的突发性，最终分析新闻是否为突发性的新闻。

步骤104，根据所述候选新闻获取突发性的话题新闻。

其中，由于候选新闻是突发性的新闻，具有突发性，因此，通过候选新闻得到的话题新闻，也就是突发性的话题新闻。突发性的话题新闻是指：在当前周期出现的频率很高的新闻，在过去周期还未出现或者还未频繁出现。

在一个例子中，上述执行顺序只是为了方便描述给出的一个示例，在实际应用中，还可以改变步骤之间的执行顺序，对此执行顺序不做限制。而且，在其它实施例中，并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其它实施例中可能被分解为多个步骤进行描述；本说明书中所描述的多个步骤，在其它实施例也可能被合并为单个步骤进行描述。

在一个例子中，针对“根据所述候选新闻获取突发性的话题新闻”的过程，可以包括但不限于如下方式：从候选新闻中提取多个原始主题，并利用所述原始主题对所述候选新闻进行第一次聚类，得到K个第一聚类主题；然后，利用所述第一聚类主题对所述候选新闻进行第二次聚类，得到M个第二聚类主题；然后，将候选新闻数量高的L个第二聚类主题确定为突发性话题，并将突发性话题对应的新闻确定为突发性的话题新闻。其中，M小于K，且L小于M。

其中，针对“从候选新闻中提取多个原始主题”的过程，可以包括但不限于：采用LDA(Latent Dirichlet Allocation，隐含狄利克雷分布)算法，从候选新闻中提取多个原始主题。当然，LDA算法只是从候选新闻中提取原始主题的一个示例，对此算法不做限制，只要能够从候选新闻中提取原始主题即可。

LDA算法是一种概率主题模型，可以度量新闻的主题分布，并按照概率分布p(z|c_i)的形式给出每篇新闻的主题。基于此，针对每个候选新闻，可以采用LDA算法给出该候选新闻的主题概率分布。z的取值可以根据经验配置，如200。例如，采用LDA算法给出候选新闻1的主题概率分布，主题个数可以设置为200。

其中，针对“利用原始主题对候选新闻进行第一次聚类，得到K个第一聚类主题”的过程，可以包括但不限于：采用K均值算法(k-means算法)，对包括原始主题的候选新闻进行第一次聚类，得到K个第一聚类主题；其中，K的取值为预先配置的数值。当然，K均值算法只是对候选新闻进行第一次聚类的一个示例，对此算法不做限制，只要能够对候选新闻进行第一次聚类即可。

k-means算法的输入是聚类数量K和包括原始主题的候选新闻(即所有候选新闻)，输出是满足方差最小标准的K个聚类，每个聚类对应一个第一聚类主题，因此，k-means算法的输出可以是K个第一聚类主题。具体的，k-means算法可以将所有数据对象(即所有候选新闻)划分为K个聚类，而获得的K个聚类均满足如下条件：同一聚类中的对象相似度较高，而不同聚类中的对象相似度较小。由于是按照原始主题对候选新闻进行聚类，因此，K个聚类就对应K个原始主题，为了区分方便，可以将这K个原始主题称为第一聚类主题，K的取值可以根据经验配置，为预先配置的数值，表示聚类数量，如K为150。

例如，候选新闻1包括200个原始主题，候选新闻2包括200个原始主题，以此类推，不同候选新闻的原始主题可能相同，也可能不同。通过k-means算法对这些候选新闻进行聚类时，可以得到150个主题，对此聚类过程不做限制，只要能够得到150个主题即可，为区分方便，将150个主题称为第一聚类主题。

在得到150个第一聚类主题后，还可以记录候选新闻与第一聚类主题的对应关系。例如，候选新闻a包括原始主题1、原始主题2和原始主题3，原始主题1和原始主题3被聚类到第一聚类主题1，原始主题2被聚类到第一聚类主题2，则可以记录候选新闻a与第一聚类主题1、第一聚类主题2的对应关系。

其中，针对“利用第一聚类主题对候选新闻进行第二次聚类，得到M个第二聚类主题”的过程，可以包括但不限于：采用层次聚类算法，对包括第一聚类主题的候选新闻进行第二次聚类，得到M个第二聚类主题；其中，M的相似度阈值为预先配置的数值。当然，层次聚类算法只是对候选新闻进行第二次聚类的一个示例，对此算法不做限制，只要能够对候选新闻进行第二次聚类即可。

在采用k-means算法进行第一次聚类时，聚类数量K是预先指定，聚类数量K的取值比较大，从而导致第一聚类主题的数量比较多。因此，还可以采用层次聚类算法进行第二次聚类，得到M个第二聚类主题，由于M的取小于K的取值，因此第二聚类主题数量小于第一聚类主题数量，从而减少主题的数量。

层次聚类算法(Hierarchical Clustering)是通过对数据集按照某种方法进行层次分解，直到满足某种条件为止，按照分类原理的不同，可以分为凝聚和分裂。凝聚的层次聚类(如AGNES算法)是一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有的对象都在一个簇中，或者某个终结条件被满足。分裂的层次聚类(如DIANA算法)与凝聚的层次聚类相反，采用自顶向下的策略，首先将所有对象置于同一个簇中，然后逐渐细分为越来越小的簇，直到每个对象自成一簇，或者达到某个终止条件。

综上所述，可以采用层次聚类算法(如凝聚的层次聚类算法或者分裂的层次聚类算法)对候选新闻进行聚类，由于是按照第一聚类主题对候选新闻进行聚类，因此，得到的M个聚类就对应M个主题，为了区分方便，可以将这M个主题称为第二聚类主题，M的相似度阈值可以根据经验配置，如M为15等。

例如，基于150个第一聚类主题，通过层次聚类算法对候选新闻进行聚类时，可以得到15个主题，聚类过程主要是对150个第一聚类主题进行合并处理，对此聚类过程不做限制，为了区分方便，将这15个主题称为第二聚类主题。

在得到15个第二聚类主题后，还可以记录候选新闻与第二聚类主题的对应关系。例如，候选新闻a对应第一聚类主题1、第一聚类主题2，如果第一聚类主题1被聚类到第二聚类主题3，第一聚类主题2被聚类到第二聚类主题1，则可以记录候选新闻a与第二聚类主题3、第二聚类主题1的对应关系。

其中，针对“将候选新闻数量高的L个第二聚类主题确定为突发性话题”的过程，可以包括但不限于：在记录候选新闻与第二聚类主题的对应关系后，可以统计出每个第二聚类主题对应的候选新闻数量，并可以按照候选新闻数量从高到低的顺序，对所有第二聚类主题进行排序，然后，将排序靠前的L个第二聚类主题确定为突发性话题，如将第一个第二聚类主题确定为突发性话题。

由于记录有候选新闻与第二聚类主题的对应关系，因此，在确定突发性话题(即某个或者某些第二聚类主题)后，可以查询到与该突发性话题对应的候选新闻，并将突发性话题对应的新闻确定为突发性的话题新闻，至此，可以成功获取到突发性的话题新闻，并将这些突发性的话题新闻组成一个新闻簇。

在一个例子中，在根据候选新闻获取突发性的话题新闻之后，还可以获取该话题新闻对应的文章向量；利用该文章向量获取与该话题新闻关联的目标新闻；其中，该目标新闻对应的文章向量与该话题新闻对应的文章向量之间的相似度大于阈值；将该话题新闻和该目标新闻构成新闻簇，并根据该新闻簇追踪话题新闻的动向，即目标新闻就是追踪到的与话题新闻关联的新的新闻。

其中，针对利用文章向量获取与话题新闻关联的目标新闻，包括：获取新的新闻对应的文章向量；若新的新闻对应的文章向量与话题新闻对应的文章向量之间的相似度大于阈值，将所述新的新闻确定为与话题新闻关联的目标新闻。

其中，针对“获取该话题新闻对应的文章向量”的过程，可以包括：训练该话题新闻对应的关键词的词向量(如话题新闻对应的每个关键词的词向量)，并将该话题新闻对应的所有关键词的词向量的和，确定为该话题新闻对应的文章向量。进一步的，针对“训练该话题新闻对应的关键词的词向量”的过程，可以包括：采用词向量训练算法，训练该话题新闻对应的关键词的词向量。

在上述步骤中，已经对新闻进行分词处理，得到多个词语，也就是说，对话题新闻进行了分词处理，得到多个词语，然后，可以采用词向量训练算法训练每个词语的词向量，并将每个词语的词向量的和，确定为该话题新闻对应的文章向量。或者，可以采用词向量训练算法训练话题新闻的每个关键词的词向量，并将每个关键词的词向量的和，确定为该话题新闻对应的文章向量。

其中，词向量训练算法可以包括但不限于word2vec，word2vec是一种用于词向量计算的工具，是能够将词语表征为实数值向量的高效算法，其可以在百万数量级的词典和上亿的数据集上进行高效地训练，其训练结果就可以是词向量(word embedding)，可以很好地度量词语与词语之间的相似性。word2vec利用深度学习的思想，可以通过训练，将文本内容的处理简化为多维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。

为了分析出与话题新闻关联的目标新闻，还可以获取话题新闻之外的其它新闻(即新的新闻)的文章向量(获取方式与话题新闻的文章向量的获取方式类似)，若该新闻的文章向量与该话题新闻的文章向量之间的相似度大于阈值h(可以根据经验进行配置)，将该新闻确定为与话题新闻关联的目标新闻，并将该话题新闻和该目标新闻构成新闻簇。若该新闻的文章向量与该话题新闻的文章向量之间的相似度不大于阈值h，该新闻不是与话题新闻关联的目标新闻。

基于上述技术方案，本申请实施例中，针对网络上传播的新闻，可以从新闻中自动抽取关键词，并根据关键词的话题分获取新闻的突发分(新闻的突发分用于度量新闻的突发性)，然后，根据新闻的突发分从多个新闻中选取候选新闻(即选取突发性高的新闻为候选新闻)，并对候选新闻采用层次聚类算法，发现突发性的话题新闻，并对已发生话题新闻的传播进行实时追踪。这样，就可以自动获取突发性的话题新闻，提高业务体验，并可以避免管理人员人工分析出突发性的话题新闻，从而可以提高突发性的话题新闻的获取效率。

以下结合具体实施例，对上述话题新闻获取方法进行详细说明。参见图2A所示，为本实施例的应用场景示意图，话题新闻获取过程可以包括数据采集阶段、关键词抽取阶段、话题突发性计算阶段、新闻聚类阶段、新闻追踪阶段。

参见图2B所示，为上述话题新闻获取方法的详细流程。

其中，数据采集阶段可以包括步骤201，关键词抽取阶段可以包括步骤202和步骤203，话题突发性计算阶段可以包括步骤204-步骤206，新闻聚类阶段可以包括步骤207-步骤211，新闻追踪阶段可以包括步骤212-步骤214。

步骤201，获取多个新闻，并将获取的每个新闻保存到数据库中。

步骤202，对获取的每个新闻进行分词处理，得到多个词语。

步骤203，针对每个新闻的多个词语，获取每个词语的重要程度，并根据每个词语的重要程度从所述多个词语中选取关键词，如选取多个关键词。

步骤204，采用卡方检验算法，获取每个关键词的话题分。

步骤205，针对每个新闻的每个关键词，根据所述关键词的话题分和所述关键词的重要程度(即上述词语的重要程度)，获取所述新闻的突发分。

步骤206，根据每个新闻的突发分，从多个新闻中选取候选新闻。

步骤207，采用LDA算法，从候选新闻中提取多个原始主题。

步骤208，采用K均值算法(k-means算法)，利用原始主题对候选新闻进行第一次聚类，得到K个第一聚类主题。其中，K为预先配置的数值。

步骤209，采用层次聚类算法，利用第一聚类主题对候选新闻进行第二次聚类，得到M个第二聚类主题。其中，M为预先配置的数值，且M小于K。

步骤210，将候选新闻数量高的L个第二聚类主题确定为突发性话题。

步骤211，将突发性话题对应的新闻确定为突发性的话题新闻。

步骤212，训练该话题新闻对应的每个关键词的词向量，并将该话题新闻对应的所有关键词的词向量的和，确定为该话题新闻对应的文章向量。

步骤213，利用该文章向量获取与该话题新闻关联的目标新闻；其中，该目标新闻对应的文章向量与该话题新闻对应的文章向量之间的相似度大于阈值。

步骤214，将该话题新闻和该目标新闻构成新闻簇。

其中，步骤201-步骤214的过程，与上述实施例类似，在此不再赘述。

基于与上述方法同样的申请构思，本申请实施例中还提出一种话题新闻获取方法，参见图3所示，为该话题新闻获取方法的流程图，该方法可以包括：

步骤301，获取新闻的突发分。

步骤302，根据该突发分，从多个新闻中选取候选新闻。

步骤303，从该候选新闻中提取多个原始主题，并利用该原始主题对候选新闻进行第一次聚类，得到K个第一聚类主题；利用该第一聚类主题对候选新闻进行第二次聚类，得到M个第二聚类主题。

其中，从候选新闻中提取多个原始主题，可以包括：

采用LDA算法，从候选新闻中提取多个原始主题。

其中，利用原始主题对候选新闻进行第一次聚类，得到K个第一聚类主题，可以包括：采用K均值算法，对包括原始主题的候选新闻进行第一次聚类，得到K个第一聚类主题；其中，K的取值为预先配置的数值。

其中，利用第一聚类主题对候选新闻进行第二次聚类，得到M个第二聚类主题，可以包括：采用层次聚类算法，对包括第一聚类主题的候选新闻进行第二次聚类，得到M个第二聚类主题；其中，M的相似度阈值为预先配置的数值。

步骤304，将候选新闻数量高的L个第二聚类主题确定为突发性话题。

步骤305，将突发性话题对应的新闻确定为突发性的话题新闻。

其中，所述M可以小于所述K，所述L可以小于所述M。

基于与上述方法同样的申请构思，本申请实施例还提供一种话题新闻获取装置，如图4所示，为所述话题新闻获取装置的结构图，所述装置包括：

第一获取模块401，用于获取多个新闻，并从获取的新闻中选取关键词；

第二获取模块402，用于获取所述关键词的话题分，并根据所述话题分获取新闻的突发分；

选取模块403，用于根据所述突发分，从所述多个新闻中选取候选新闻；

第三获取模块404，用于根据所述候选新闻获取突发性的话题新闻。

所述第二获取模块402，具体用于在获取所述关键词的话题分的过程中，统计所述关键词在当前周期的第一次数、在过去周期的第二次数；统计所述关键词之外的其它词语在当前周期的第三次数、在过去周期的第四次数；根据所述第一次数、第二次数、第三次数和第四次数获取所述关键词的话题分。

所述第三获取模块404，具体用于在根据所述候选新闻获取突发性的话题新闻的过程中，从候选新闻中提取多个原始主题，并利用所述原始主题对所述候选新闻进行第一次聚类，得到K个第一聚类主题；利用所述第一聚类主题对所述候选新闻进行第二次聚类，得到M个第二聚类主题；其中，所述M小于所述K；将候选新闻数量高的L个第二聚类主题确定为突发性话题，并将所述突发性话题对应的新闻确定为突发性的话题新闻；其中，所述L小于所述M。

所述第三获取模块404，还用于获取所述话题新闻对应的文章向量；利用所述文章向量获取与所述话题新闻关联的目标新闻；所述目标新闻对应的文章向量与所述话题新闻对应的文章向量之间的相似度大于阈值；将所述话题新闻和所述目标新闻构成新闻簇；根据所述新闻簇追踪所述话题新闻的动向。

基于与上述方法同样的申请构思，本申请实施例提供一种话题新闻获取设备，可以包括处理器，用于获取多个新闻，从获取的新闻中选取关键词；获取所述关键词的话题分，并根据所述话题分获取新闻的突发分；根据所述突发分，从所述多个新闻中选取候选新闻；根据所述候选新闻获取突发性的话题新闻。

基于与上述方法同样的申请构思，本申请实施例还提供一种机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述计算机指令被执行时进行如下处理：获取多个新闻，并从获取的新闻中选取关键词；获取所述关键词的话题分，并根据所述话题分获取新闻的突发分；根据所述突发分，从所述多个新闻中选取候选新闻；根据所述候选新闻获取突发性的话题新闻。

基于与上述方法同样的申请构思，本申请实施例还提供一种话题新闻获取装置，如图5所示，为所述话题新闻获取装置的结构图，所述装置包括：

获取模块501，用于获取新闻的突发分；

选取模块502，用于根据所述突发分，从多个新闻中选取候选新闻；

聚类模块503，用于从候选新闻中提取多个原始主题，并利用所述原始主题对所述候选新闻进行第一次聚类，得到K个第一聚类主题；利用所述第一聚类主题对所述候选新闻进行第二次聚类，得到M个第二聚类主题；M小于K；

确定模块504，用于将候选新闻数量高的L个第二聚类主题确定为突发性话题；L小于M；将所述突发性话题对应的新闻确定为突发性的话题新闻。

本申请实施例提供一种话题新闻获取设备，包括处理器，用于获取新闻的突发分；根据所述突发分，从多个新闻中选取候选新闻；从候选新闻中提取多个原始主题，利用所述原始主题对所述候选新闻进行第一次聚类，得到K个第一聚类主题；利用所述第一聚类主题对所述候选新闻进行第二次聚类，得到M个第二聚类主题；M小于K；将候选新闻数量高的L个第二聚类主题确定为突发性话题；L小于M；将所述突发性话题对应的新闻确定为突发性的话题新闻。

本申请实施例还提供一种机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述计算机指令被执行时进行如下处理：获取新闻的突发分；根据所述突发分，从多个新闻中选取候选新闻；从候选新闻中提取多个原始主题，利用所述原始主题对所述候选新闻进行第一次聚类，得到K个第一聚类主题；利用所述第一聚类主题对所述候选新闻进行第二次聚类，得到M个第二聚类主题；M小于K；将候选新闻数量高的L个第二聚类主题确定为突发性话题；L小于M；将所述突发性话题对应的新闻确定为突发性的话题新闻。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可以提供为方法、系统、或计算机程序产品。因此，本申请可以采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应当理解，可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可以提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或者其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或者其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能够引导计算机或者其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令，产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种话题新闻获取方法，其特征在于，所述方法包括：

获取多个新闻，并从获取的新闻中选取关键词；

根据所述突发分，从所述多个新闻中选取候选新闻；

根据所述候选新闻获取突发性的话题新闻。

2.根据权利要求1所述的方法，其特征在于，

所述从获取的新闻中选取关键词的过程，具体包括：

对获取的新闻进行分词处理，得到多个词语；

获取词语的重要程度，根据所述重要程度从所述多个词语中选取关键词。

3.根据权利要求1所述的方法，其特征在于，

所述根据所述话题分获取新闻的突发分的过程，具体包括：

获取所述关键词的重要程度；

根据所述关键词的话题分和所述关键词的重要程度，获取新闻的突发分。

4.根据权利要求2或3所述的方法，其特征在于，

所述重要程度是根据词频逆向文件频率TF-IDF统计算法获取的；

其中，所述重要程度表示所述关键词对所述新闻的重要程度。

5.根据权利要求3所述的方法，其特征在于，所述根据所述关键词的话题分和所述关键词的重要程度，获取新闻的突发分的过程，具体包括：

确定关键词对应的子突发分为所述关键词的话题分与所述关键词的重要程度的积，并将新闻的所有关键词对应的子突发分的和确定为所述新闻的突发分。

6.根据权利要求1所述的方法，其特征在于，

所述获取所述关键词的话题分的过程，具体包括：

统计所述关键词在当前周期的第一次数、在过去周期的第二次数；统计所述关键词之外的其它词语在当前周期的第三次数、在过去周期的第四次数；

根据第一次数、第二次数、第三次数和第四次数获取所述关键词的话题分。

7.根据权利要求6所述的方法，其特征在于，所述根据第一次数、第二次数、第三次数和第四次数获取所述关键词的话题分的过程，具体包括：

采用卡方检验算法，对第一次数、第二次数、第三次数和第四次数进行运算，得到所述关键词的卡方值；将所述卡方值确定为所述关键词的话题分。

8.根据权利要求1所述的方法，其特征在于，

所述根据所述突发分，从所述多个新闻中选取候选新闻的过程，具体包括：

按照所述突发分从大到小的顺序，对所述多个新闻进行排序；

将排序靠前的N个新闻，选取为所述候选新闻；

其中，所述N为预设的数值，或者，针对新闻总数的比例。

9.根据权利要求1所述的方法，其特征在于，

所述根据所述候选新闻获取突发性的话题新闻的过程，具体包括：

从候选新闻中提取多个原始主题，并利用所述原始主题对所述候选新闻进行第一次聚类，得到K个第一聚类主题；利用所述第一聚类主题对所述候选新闻进行第二次聚类，得到M个第二聚类主题；其中，所述M小于所述K；

将候选新闻数量高的L个第二聚类主题确定为突发性话题，并将所述突发性话题对应的新闻确定为突发性的话题新闻；其中，所述L小于所述M。

10.根据权利要求9所述的方法，其特征在于，

所述从候选新闻中提取多个原始主题的过程，具体包括：

采用隐含狄利克雷分布LDA算法，从候选新闻中提取多个原始主题。

11.根据权利要求9所述的方法，其特征在于，所述利用所述原始主题对所述候选新闻进行第一次聚类，得到K个第一聚类主题的过程，具体包括：

采用K均值算法，对包括所述原始主题的候选新闻进行第一次聚类，得到K个第一聚类主题；其中，所述K的取值为预先配置的数值。

12.根据权利要求9所述的方法，其特征在于，所述利用所述第一聚类主题对所述候选新闻进行第二次聚类，得到M个第二聚类主题的过程，具体包括：

采用层次聚类算法，对包括所述第一聚类主题的候选新闻进行第二次聚类，得到M个第二聚类主题；其中，所述M的相似度阈值为预先配置的数值。

13.根据权利要求1所述的方法，其特征在于，

所述根据所述候选新闻获取突发性的话题新闻之后，所述方法还包括：

获取所述话题新闻对应的文章向量；

利用所述文章向量获取与所述话题新闻关联的目标新闻；所述目标新闻对应的文章向量与所述话题新闻对应的文章向量之间的相似度大于阈值；

将所述话题新闻和所述目标新闻构成新闻簇；

根据所述新闻簇追踪所述话题新闻的动向。

14.根据权利要求13所述的方法，其特征在于，

所述利用所述文章向量获取与所述话题新闻关联的目标新闻，包括：

获取新的新闻对应的文章向量；

若新的新闻对应的文章向量与所述话题新闻对应的文章向量之间的相似度大于阈值，则将所述新的新闻确定为与所述话题新闻关联的目标新闻。

15.根据权利要求13或14所述的方法，其特征在于，

所述获取所述话题新闻对应的文章向量的过程，具体包括：

训练所述话题新闻对应的关键词的词向量，并将所述话题新闻对应的所有关键词的词向量的和，确定为所述话题新闻对应的文章向量。

16.根据权利要求15所述的方法，其特征在于，

所述训练所述话题新闻对应的关键词的词向量的过程，具体包括：

采用词向量训练算法，训练所述话题新闻对应的关键词的词向量。

17.根据权利要求16所述的方法，其特征在于，

所述词向量训练算法包括：word2vec算法。

18.一种话题新闻获取方法，其特征在于，所述方法包括：

获取新闻的突发分；

根据所述突发分，从多个新闻中选取候选新闻；

将所述突发性话题对应的新闻确定为突发性的话题新闻。

19.根据权利要求18所述的方法，其特征在于，

所述从候选新闻中提取多个原始主题，包括：

20.根据权利要求18所述的方法，其特征在于，所述利用所述原始主题对所述候选新闻进行第一次聚类，得到K个第一聚类主题，包括：

21.根据权利要求18所述的方法，其特征在于，所述利用所述第一聚类主题对所述候选新闻进行第二次聚类，得到M个第二聚类主题，包括：

22.一种话题新闻获取装置，其特征在于，所述装置包括：

23.根据权利要求22所述的装置，其特征在于，

所述第二获取模块，具体用于在获取所述关键词的话题分的过程中，统计所述关键词在当前周期的第一次数、在过去周期的第二次数；统计所述关键词之外的其它词语在当前周期的第三次数、在过去周期的第四次数；根据所述第一次数、第二次数、第三次数和第四次数获取所述关键词的话题分。

24.根据权利要求22所述的装置，其特征在于，

所述第三获取模块，具体用于在根据所述候选新闻获取突发性的话题新闻的过程中，从候选新闻中提取多个原始主题，并利用所述原始主题对所述候选新闻进行第一次聚类，得到K个第一聚类主题；利用所述第一聚类主题对所述候选新闻进行第二次聚类，得到M个第二聚类主题；其中，所述M小于所述K；将候选新闻数量高的L个第二聚类主题确定为突发性话题，并将所述突发性话题对应的新闻确定为突发性的话题新闻；其中，所述L小于所述M。

25.根据权利要求22所述的装置，其特征在于，

所述第三获取模块，还用于获取所述话题新闻对应的文章向量；利用所述文章向量获取与所述话题新闻关联的目标新闻；所述目标新闻对应的文章向量与所述话题新闻对应的文章向量之间的相似度大于阈值；将所述话题新闻和所述目标新闻构成新闻簇；根据所述新闻簇追踪所述话题新闻的动向。

26.一种话题新闻获取装置，其特征在于，所述装置包括：

获取模块，用于获取新闻的突发分；

27.一种话题新闻获取设备，其特征在于，包括：

28.一种话题新闻获取设备，其特征在于，包括：处理器，用于获取新闻的突发分；根据所述突发分，从多个新闻中选取候选新闻；从候选新闻中提取多个原始主题，利用所述原始主题对所述候选新闻进行第一次聚类，得到K个第一聚类主题；利用所述第一聚类主题对所述候选新闻进行第二次聚类，得到M个第二聚类主题；M小于K；将候选新闻数量高的L个第二聚类主题确定为突发性话题；L小于M；将所述突发性话题对应的新闻确定为突发性的话题新闻。