CN105677894A

CN105677894A - 基于网络事件模型的新闻事件监测方法和装置

Info

Publication number: CN105677894A
Application number: CN201610074912.2A
Authority: CN
Inventors: 黄永峰; 刘佳伟; 吴方照; 袁志刚; 吴思行
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2016-02-02
Filing date: 2016-02-02
Publication date: 2016-06-15

Abstract

本发明公开了一种基于网络事件模型的新闻事件检测方法和装置，其中，该方法包括以下步骤：实时获取L个媒体新闻门户网站发布的M个新闻的网页文本信息；对第i个新闻的网页文本信息进行分析，提取第i个新闻的第一特征信息；根据第i个新闻的第一特征信息计算第i个新闻与N个预先建立的事件簇的N个相似度值；以及根据N个相似度值检测第i个新闻是否属于N个预先建立的事件簇。因此，本发明实施例提供的基于网络事件模型的新闻事件检测方法和装置，能够实时得到新闻分析结果，在保证实时、准确的分析处理能力的同时还提高了检测新闻的效率，从而提升了网络舆情分析处理的效果。

Description

基于网络事件模型的新闻事件监测方法和装置

技术领域

本发明涉及网络数据挖掘领域，特别涉及一种基于网络事件模型的新闻事件检测方法和装置。

背景技术

新闻事件检测是网络舆情分析处理的一个重要部分。新闻是指网络上各个新闻门户给出的一篇新闻报道、分析、文章等，是网络新闻舆情的一个重要的载体，而事件是指一系列报道相同事物的新闻的集合。

在对新闻事件检测的数据挖掘任务中，常常采用无监督学习的方法来确定一堆新闻数据中的事件关系，即哪些新闻构成一个事件集合。当新闻能以事件的形式展现的时候，使舆情监测的任务得到极大的简化，毕竟用户是为了了解某一个事件的相关信息而查找和阅读相关的新闻报道。经过新闻事件检测分析之后，新闻以各个事件集合的形式呈现给用户，用户只需要关注自己感兴趣的事件，即可高效、聚焦、全面地获取到自己希望获得的信息。

其中，传统的新闻事件检测方法，是基于比较两篇新闻文本相似度来实现的，然而，在面对网络上每天成千上万的新闻流数据，传统方法的处理速度在新闻流数据流很大时难以得到实时的分析结果，并且准确性也不高，这两点对于网络舆情监测来说是极大的缺陷。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于网络事件模型的新闻事件检测方法，该方法能够实时得到新闻分析结果，在保证实时、准确的分析处理能力的同时还提高了检测新闻的效率，从而提升了网络舆情分析处理的效果。

本发明的第二目的在于提出一种基于网络事件模型的新闻事件检测装置。

为实现上述目的，本发明第一方面实施例提出了一种基于网络事件模型的新闻事件检测方法，包括以下步骤：实时获取L个媒体新闻门户网站发布的M个新闻的网页文本信息，其中，所述网页文本信息包括所述新闻的标题信息和所述新闻的文本内容信息，L、M均为正整数；对第i个新闻的网页文本信息进行分析，提取所述第i个新闻的第一特征信息，其中，i为正整数，且1≤i≤M；根据所述第i个新闻的第一特征信息计算所述第i个新闻与N个预先建立的事件簇的N个相似度值，其中，N为正整数；以及根据所述N个相似度值检测所述第i个新闻是否属于所述N个预先建立的事件簇。

根据本发明实施例的基于网络事件模型的新闻事件检测方法，首先实时获取L个媒体新闻门户网站发布的M个新闻的网页文本信息，然后对第i个新闻的网页文本信息进行分析，提取第i个新闻的第一特征信息，而后根据第i个新闻的第一特征信息计算第i个新闻与N个预先建立的事件簇的N个相似度值，最后根据N个相似度值检测第i个新闻是否属于N个预先建立的事件簇。因此，该方法能够实时得到新闻分析结果，在保证实时、准确的分析处理能力的同时还提高了检测新闻的效率，从而提升了网络舆情分析处理的效果。

另外，根据本发明上述基于网络事件模型的新闻事件检测方法还可以具有如下附加的技术特征：

在本发明的一个实施例中，所述根据所述N个相似度值检测所述第i个新闻是否属于所述N个预先建立的事件簇，包括：获取所述N个相似度值中的最大相似度值；判断所述最大相似度值是否大于或等于第一预设阈值；如果所述最大相似度值大于或等于所述第一预设阈值，则判断所述第i个新闻属于所述最大相似度值所对应的预先建立的事件簇；如果所述最大相似度值小于所述第一预设阈值，则判断所述第i个新闻属于新的事件。

在本发明的一个实施例中，其中，第一特征信息包括时间信息、内容信息、地点信息和人物信息，所述对第i个新闻的网页文本信息进行分析，提取所述第i个新闻的第一特征信息，包括：对所述第i个新闻的标题和文本内容信息进行分词处理，得到所述第i个新闻的多个语素；对所述多个语素进行识别以确定对应的词性，并根据所述词性提取所述第i个新闻的内容信息、地点信息和人物信息；对所述第i个新闻的网页文本信息进行解析以得到所述第i个新闻的发布时间戳，并将所述发布时间戳作为所述第i个新闻的时间信息。

在本发明的一个实施例中，所述根据所述第i个新闻的第一特征信息计算所述第i个新闻与N个预先建立的事件簇的N个相似度值，包括：针对每个预先建立的事件簇，将所述每个预先建立的事件簇中的各个新闻的特征信息计算所述事件簇的总特征，以获取所述每个预先建立的事件簇的第二特征信息；基于所述第i个新闻的第一特征信息中的第j特征，计算所述第j特征与所述第二特征信息中对应的特征之间的第j相似度值，其中，j为正整数，且1≤j≤所述第一特征信息所包含特征的个数；基于所述所述第i个新闻的第一特征信息以及所述第二特征信息，根据所述第j相似度值计算所述第i个新闻与所述每个预先建立的事件簇的相似度值。

在本发明的一个实施例中，所述根据所述第j相似度值计算所述第i个新闻与所述每个预先建立的事件簇的相似度值，包括：判断所述第j相似度值是否大于或等于对应的第二预设阈值；如果所述第j相似度值大于或等于所述对应的第二预设阈值，则根据所述第j相似度值计算所述第i个新闻与所述每个预先建立的事件簇的相似度值；如果所述第j相似度值小于所述对应的第二预设阈值，则计算所述第i个新闻与对应的预先建立的事件簇的相似度值为零。

在本发明的一个实施例中，所述预先建立的事件簇通过以下步骤建立：实时获取L个媒体新闻门户网站发布的多个新闻的网页文本信息，其中，所述网页文本信息包括所述新闻的标题信息和所述新闻的文本内容信息，L为正整数；对所述多个新闻的网页文本信息进行分析，提取所述多个新闻的第一特征信息；根据所述多个新闻的第一特征信息计算两两新闻之间的相似度值；当判断所述两两新闻之间的相似度值大于或等于第三预设阈值时，将所述两两新闻进行组合，以建立对应的事件簇。

在本发明的一个实施例中，在判断所述第i个新闻属于所述最大相似度值所对应的预先建立的事件簇之后，还包括：将所述第i个新闻添加至所述最大相似度值所对应的预先建立的事件簇；根据所述第i个新闻的第一特征信息对所述最大相似度值所对应的预先建立的事件簇的第二特征信息进行更新。

在本发明的一个实施例中，上述基于网络事件模型的新闻事件检测方法还包括：针对所述N个预先建立的事件簇，获取第k预先建立的事件簇中所包含的新闻数目，其中，k为正整数，1≤k≤N；判断所述第k预先建立的事件簇中所包含的新闻数目是否大于或等于第四预设阈值；如果大于或等于所述第四预设阈值，则计算所述第k预先建立的事件簇中所包含的每个新闻与所述第k预先建立的事件簇之间的相似度值；判断所述第k预先建立的事件簇中所包含的每个新闻与所述第k预先建立的事件簇之间的相似度值是否小于第五预设阈值；如果小于所述第五预设阈值，则将小于所述第五预设阈值对应的新闻从所述第k预先建立的事件簇中进行移除；如果所述第k预先建立的事件簇中所包含的新闻数目小于所述第四预设阈值，和/或，所述第k预先建立的事件簇中所包含的每个新闻与所述第k预先建立的事件簇之间的相似度值大于或等于所述第五预设阈值，则计算所述第k预先建立的事件簇与第g预先建立的事件簇之间的相似度值，其中，g为正整数，1≤g≤N，且g≠k；判断所述第k预先建立的事件簇与第g预先建立的事件簇之间的相似度值是否大于或等于第六预设阈值；如果大于或等于所述第六预设阈值，则将所述第k预先建立的事件簇与第g预先建立的事件簇进行合并。

为实现上述目的，本发明第二方面实施例提出了一种基于网络事件模型的新闻事件检测装置，包括：第一获取模块，用于实时获取L个媒体新闻门户网站发布的M个新闻的网页文本信息，其中，所述网页文本信息包括所述新闻的标题信息和所述新闻的文本内容信息，L、M均为正整数；提取模块，用于对第i个新闻的网页文本信息进行分析，提取所述第i个新闻的第一特征信息，其中，i为正整数，且1≤i≤M；第一计算模块，用于根据所述第i个新闻的第一特征信息计算所述第i个新闻与N个预先建立的事件簇的N个相似度值，其中，N为正整数；以及检测模块，用于根据所述N个相似度值检测所述第i个新闻是否属于所述N个预先建立的事件簇。

根据本发明实施例的基于网络事件模型的新闻事件检测装置，首先通过第一获取模块实时获取L个媒体新闻门户网站发布的M个新闻的网页文本信息，然后通过提取模块对第i个新闻的网页文本信息进行分析，提取第i个新闻的第一特征信息，而后第一计算模块根据第i个新闻的第一特征信息计算第i个新闻与N个预先建立的事件簇的N个相似度值，最后检测模块根据N个相似度值检测第i个新闻是否属于N个预先建立的事件簇。因此，该装置能够实时得到新闻分析结果，在保证实时、准确的分析处理能力的同时还提高了检测新闻的效率，从而提升了网络舆情分析处理的效果。

上述基于网络事件模型的新闻事件检测装置还可以具有如下附加的技术特征：

在本发明的一个实施例中，所述检测模块，具体用于：获取所述N个相似度值中的最大相似度值；判断所述最大相似度值是否大于或等于第一预设阈值；如果所述最大相似度值大于或等于所述第一预设阈值，则判断所述第i个新闻属于所述最大相似度值所对应的预先建立的事件簇；如果所述最大相似度值小于所述第一预设阈值，则判断所述第i个新闻属于新的事件。

在本发明的一个实施例中，其中，第一特征信息包括时间信息、内容信息、地点信息和人物信息，所述提取模块，具体用于：对所述第i个新闻的标题和文本内容信息进行分词处理，得到所述第i个新闻的多个语素；对所述多个语素进行识别以确定对应的词性，并根据所述词性提取所述第i个新闻的内容信息、地点信息和人物信息；对所述第i个新闻的网页文本信息进行解析以得到所述第i个新闻的发布时间戳，并将所述发布时间戳作为所述第i个新闻的时间信息。

在本发明的一个实施例中，所述第一计算模块，具体用于：针对每个预先建立的事件簇，将所述每个预先建立的事件簇中的各个新闻的特征信息计算所述事件簇的总特征，以获取所述每个预先建立的事件簇的第二特征信息；基于所述第i个新闻的第一特征信息中的第j特征，计算所述第j特征与所述第二特征信息中对应的特征之间的第j相似度值，其中，j为正整数，且1≤j≤所述第一特征信息所包含特征的个数；基于所述所述第i个新闻的第一特征信息以及所述第二特征信息，根据所述第j相似度值计算所述第i个新闻与所述每个预先建立的事件簇的相似度值。

在本发明的一个实施例中，上述基于网络事件模型的新闻事件检测装置还包括：获取单元，用于实时获取L个媒体新闻门户网站发布的多个新闻的网页文本信息，其中，所述网页文本信息包括所述新闻的标题信息和所述新闻的文本内容信息，L为正整数；提取单元，用于对所述多个新闻的网页文本信息进行分析，提取所述多个新闻的第一特征信息；计算单元，用于根据所述多个新闻的第一特征信息计算两两新闻之间的相似度值；组合单元，用于当判断所述两两新闻之间的相似度值大于或等于第三预设阈值时，将所述两两新闻进行组合，以建立对应的事件簇。

在本发明的一个实施例中，上述基于网络事件模型的新闻事件检测装置还包括：第二获取模块，用于针对所述N个预先建立的事件簇，获取第k预先建立的事件簇中所包含的新闻数目，其中，k为正整数，1≤k≤N；第一判断模块，用于判断所述第k预先建立的事件簇中所包含的新闻数目是否大于或等于第四预设阈值；第二计算模块，用于如果所述第一判断模块判断判断所述第k预先建立的事件簇中所包含的新闻数目大于或等于所述第四预设阈值，则计算所述第k预先建立的事件簇中所包含的每个新闻与所述第k预先建立的事件簇之间的相似度值；第二判断模块，用于判断所述第k预先建立的事件簇中所包含的每个新闻与所述第k预先建立的事件簇之间的相似度值是否小于第五预设阈值；移除模块，用于如果所述第二判断模块判断所述第k预先建立的事件簇中所包含的每个新闻与所述第k预先建立的事件簇之间的相似度值，则将小于所述第五预设阈值对应的新闻从所述第k预先建立的事件簇中进行移除；第三计算模块，用于如果所述第一判断模块判断所述第k预先建立的事件簇中所包含的新闻数目小于所述第四预设阈值，和/或，所述第二判断模块判断所述第k预先建立的事件簇中所包含的每个新闻与所述第k预先建立的事件簇之间的相似度值大于或等于所述第五预设阈值，则计算所述第k预先建立的事件簇与第g预先建立的事件簇之间的相似度值，其中，g为正整数，1≤g≤N，且g≠k；第三判断模块，用于判断所述第k预先建立的事件簇与第g预先建立的事件簇之间的相似度值是否大于或等于第六预设阈值；合并模块，用于如果所述第三判断模块判断所述第k预先建立的事件簇与第g预先建立的事件簇之间的相似度值大于或等于第六预设阈值，则将所述第k预先建立的事件簇与第g预先建立的事件簇进行合并。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是根据本发明一个实施例的基于网络事件模型的新闻事件检测方法的流程图。

图2是根据本发明实施例的整体流程图。

图3是根据本发明一个实施例的对第i个新闻的网页文本信息进行分析，提取第i个新闻的第一特征信息的流程图。

图4是根据本发明一个实施例的根据第i个新闻的第一特征信息计算第i个新闻与N个预先建立的事件簇的N个相似度值的流程图。

图5是根据本发明一个实施例的根据第j相似度值计算第i个新闻与每个预先建立的事件簇的相似度值的流程图。

图6是根据本发明一个实施例的预先建立事件簇的流程图。

图7是根据本发明一个实施例的根据N个相似度值检测第i个新闻是否属于N个预先建立的事件簇的流程图。

图8是根据本发明另一个实施例的基于网络事件模型的新闻事件检测方法的流程图。

图9是根据本发明实施例的后台数据更新框图。

图10是根据本发明一个实施例的基于网络事件模型的新闻事件检测装置的方框示意图。

图11是根据本发明一个实施例的预先建立事件簇的方框示意图。

图12是根据本发明另一个实施例的基于网络事件模型的新闻事件检测装置的方框示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图来描述根据本发明实施例提出的基于网络事件模型的新闻事件检测方法和装置。

如图1所示，该基于网络事件模型的新闻事件检测方法包括以下步骤：

S1，实时获取L个媒体新闻门户网站发布的M个新闻的网页文本信息，其中，网页文本信息包括新闻的标题信息和新闻的文本内容信息，L、M均为正整数。

例如，如图2所示的数据准备阶段，可利用网络爬虫实时获取各大主流媒体新闻门户网站发布的新闻报道数据，即获取L个媒体新闻门户网站发布的M个新闻的网页文本信息。具体地，通过(HttpURLConnection)URL.openConnection()方法对网站中指定的URL界面进行连接，之后通过URLConnection.getInputStream()方法得到该URL下的HTML文本，最后通过Jsoup的parse工具对HTML进行解析，利用指定的规则和正则表达式等方法将HTML中我们感兴趣的新闻文本提取出来。

并对得到的数据进行预处理，可包括滤除噪声，统一格式等操作，首先将新闻在内存中用统一的数据结构表示，再将内存中的数据存入数据库中，以便后续的分析过程使用。

其中，利用网络爬虫实时获取各大主流媒体新闻门户网站发布的新闻报道(即，新闻爬取)的实现代码如下：

S2，对第i个新闻的网页文本信息进行分析，提取第i个新闻的第一特征信息，其中，i为正整数，且1≤i≤M。

例如，如图2所示的数据分析处理阶段，首先从数据库中读出新闻，并在内存中以特定的数据结构表示，而后根据训练数据中建立词语倒频率表(TF·IDF模型)，存放于内存中，并根据当前新闻的新文本数据对词语倒频率表进行更新。

其中，各个词语的权重计算方法如下：

I D F (t) = \log_{2} \frac{N}{T F (t) + 1} - - - (1)

根据上述公式(1)，计算方式的代码实现如下：

其中，在本发明的一个实施例中，上述第一特征信息包括时间信息、内容信息、地点信息和人物信息。

其中，在本发明的另一个实施例中，如图3所示，对第i个新闻的网页文本信息进行分析，提取第i个新闻的第一特征信息的具体实施过程可包括：

S21，对第i个新闻的标题和文本内容信息进行分词处理，得到第i个新闻的多个语素。

S22，对多个语素进行识别以确定对应的词性，并根据词性提取第i个新闻的内容信息、地点信息和人物信息。

S23，对第i个新闻的网页文本信息进行解析以得到第i个新闻的发布时间戳，并将发布时间戳作为第i个新闻的时间信息。

例如，如图2所示的数据分析处理阶段，可对新闻的标题和内容进行分析，可采用相应的分词工具，首先对文章进行分词处理，得到文章的各个语素，之后将语素识别成不同的词性。最后提取了整篇新闻文章的人物、地点和内容三类要素，时间要素通过HTML中解析新闻发布的时间戳获得。最后将这四个特征储存起来，作为事件模型的四个特征。

再例如，由上述步骤中可知，已经根据TF·IDF模型计算了不同特征词语的权重，对于人物、地点和内容三个特征，可通过如下的方法计算这三个特征在两篇不同文章中的相似度：

s i m = \frac{Σ n e w s 1. c o u n t * n e w s 2. c o u n t * {iDF}^{2}}{\sqrt{Σ n e w s 1. {count}^{2} * {iDF}^{2}} \sqrt{Σ n e w s 2. {count}^{2} * {iDF}^{2}}} - - - (2)

其代码实现如下：

squareSum1+＝(double)doc1.get(word)*iDF.get(word)*(double)doc1.get(word)*iDF.get(word)；

squareSum2+＝(double)doc1.get(word)*iDF.get(word)*(double)doc1.get(word)*iDF.get(word)；

sim＝product/Math.sqrt(squareSum1)/Math.sqrt(squareSum2)；

又例如，在聚类算法中，将相似的数据合并，不相似的分开，在新闻事件检测中表现为，将属于同一个事件的新闻分到同一个集合下，属于不同事件的新闻分到不同的集合，新闻事件检测的本质就是使簇内的相似度最大，簇间的相似度最小。根据上述方法得到了人物、地点和内容的相似度，而时间的相似度可用两新闻发布时间差的负指数幂形式得到，其计算方式如下：

{sim}_{t i m e} = \exp (- \frac{{time}_{n o w - m i l s} - {time}_{n e w s - m i l s}}{1000 * 60 * 60 * 24}) - - - (3)

其中，上述公式(3)中的时间以毫秒(mils)计算。

最后需要将上述除了时间外的三个特征的相似度以某种形式统一起来，得到不同新闻或簇之间的相似度。

S3，根据第i个新闻的第一特征信息计算第i个新闻与N个预先建立的事件簇的N个相似度值，其中，N为正整数。

其中，在本发明的一个实施例中，如图4所示，根据第i个新闻的第一特征信息计算第i个新闻与N个预先建立的事件簇的N个相似度值的具体实施过程可包括：

S31，针对每个预先建立的事件簇，将每个预先建立的事件簇中的各个新闻的特征信息计算事件簇的总特征，以获取每个预先建立的事件簇的第二特征信息。

S32，基于第i个新闻的第一特征信息中的第j特征，计算第j特征与第二特征信息中对应的特征之间的第j相似度值，其中，j为正整数，且1≤j≤第一特征信息所包含特征的个数

S33，基于第i个新闻的第一特征信息以及第二特征信息，根据第j相似度值计算第i个新闻与每个预先建立的事件簇的相似度值。

其中，在本发明的一个实施例中，如图5所示，上述步骤S33中根据第j相似度值计算第i个新闻与每个预先建立的事件簇的相似度值的具体实施过程可包括：

S331，判断第j相似度值是否大于或等于对应的第二预设阈值。其中，第二预设阀值可以根据实际情况进行标定。

S332，如果第j相似度值大于或等于对应的第二预设阈值，则根据第j相似度值计算第i个新闻与每个预先建立的事件簇的相似度值。

S333，如果第j相似度值小于对应的第二预设阈值，则计算第i个新闻与对应的预先建立的事件簇的相似度值为零。

例如，如图2所示的数据分析处理阶段，可对于每一个在某时刻到达的新闻，需要和现有的每一个簇(事件)进行比较，找出其最相似的一个簇并将此新闻划归到这个簇中。将一个事件簇中的各个新闻的特征进行叠加，作为簇的特征，这样可以将各个簇可以作为一篇独立的新闻报道来处理，当一个有n篇新闻在内的簇接收了一篇新的新闻时，其簇的特征的更新方式可如下：

feature_new＝(feature_old*n+feature_news)/(n+1)(4)

对于新闻与新闻/簇的一次比较，有人物、地点、时间、内容四组特征，对于人物和地点特征由于其实词包特征(wordbagfeatrue)可用上述公式(2)计算，对于时间特征，可用上述公式(3)计算其相似度，在得到四个特征的相似度之后，可采用如下的方式计算两个新闻/簇之间的总相似度得分：

S c o r e = (\frac{{sim}_{c h a r a c t e r}}{{threshold}_{c h a r}} - 1) + (\frac{{sim}_{l o c a t i o n}}{{threshold}_{l o c}} - 1)

+ 0.3 * (\frac{{sim}_{t i m e}}{{threshold}_{t i m e}} - 1) + (\frac{{sim}_{c o n t e n t}}{{threshold}_{c o n}} - 1) - - - (5)

其中，考虑到每一个特征相似度的权重不同，这里根据对大量新闻计算的彼此之间的相似度的不同值，对不同相似度训练了不同的阈值，如果人物、时间、地点、内容的相似度均大于其阈值，则其相似度得分根据上述公式(5)计算，否则其相似度得分为0。

该过程的实例代码如下：

S4，根据N个相似度值检测第i个新闻是否属于N个预先建立的事件簇。

其中，在本发明的一个实施例中，如图6所示，上述预先建立的事件簇可通过以下步骤建立：

S101，实时获取L个媒体新闻门户网站发布的多个新闻的网页文本信息，其中，网页文本信息包括新闻的标题信息和新闻的文本内容信息，L为正整数。

S102，对多个新闻的网页文本信息进行分析，提取多个新闻的第一特征信息。

S103，根据多个新闻的第一特征信息计算两两新闻之间的相似度值。

S104，当判断两两新闻之间的相似度值大于或等于第三预设阈值时，将两两新闻进行组合，以建立对应的事件簇。其中，第三预设阀值可以根据实际情况进行标定。

在本发明的一个实施例中，如图7所示，步骤S4的具体实施过程可包括：

S41，获取N个相似度值中的最大相似度值。

S42，判断最大相似度值是否大于或等于第一预设阈值。其中，第一预设阀值可以根据实际情况进行标定。

S43，如果最大相似度值大于或等于第一预设阈值，则判断第i个新闻属于最大相似度值所对应的预先建立的事件簇。

其中，在本发明的一个实施例中，在判断第i个新闻属于最大相似度值所对应的预先建立的事件簇之后，还可包括将第i个新闻添加至最大相似度值所对应的预先建立的事件簇，以及根据第i个新闻的第一特征信息对最大相似度值所对应的预先建立的事件簇的第二特征信息进行更新。

S44，如果最大相似度值小于第一预设阈值，则判断第i个新闻属于新的事件。

例如，在完成对某一则新闻的比较分析之后，需要对新闻具体应该划分至哪个事件还是作为异常点/噪声点做出一个判断。一则新闻通过与各个簇的比较，得到一系列的相似度，理应将该新闻划分到最大相似度对应的簇中，然而当最大的相似度过于小的时候，说明该新闻可能与目前已有的任何事件均不匹配，这是则将其作为一个单独的簇，如果一个只有一篇或少数几则新闻的簇在一段较长时间内没有更新(即没有新的新闻加入)，则将这个簇作为异常点处理，不能成为一个事件。

如果各个特征的相似度都大于其训练得到的阈值，则计算其超过阈值的各个倍数之和，作为最终的相似度的得分，对应的分数最大的类对应该新闻应该属于的事件，否则该新闻独立成为一个新的事件。当然如果一篇新闻中缺少某一个特征，则不对这个特征进行比较。

该过程的实例代码如下：

进一步地，在本发明的一个实施例中，如图8所示，上述基于网络事件模型的新闻事件检测方法还可包括：

S5，针对N个预先建立的事件簇，获取第k预先建立的事件簇中所包含的新闻数目，其中，k为正整数，1≤k≤N。

S6，判断第k预先建立的事件簇中所包含的新闻数目是否大于或等于第四预设阈值。其中，第四预设阀值可以根据实际情况进行标定。

S7，如果大于或等于第四预设阈值，则计算第k预先建立的事件簇中所包含的每个新闻与第k预先建立的事件簇之间的相似度值。

S8，判断第k预先建立的事件簇中所包含的每个新闻与第k预先建立的事件簇之间的相似度值是否小于第五预设阈值。其中，第五预设阀值可以根据实际情况进行标定。

S9，如果小于第五预设阈值，则将小于第五预设阈值对应的新闻从第k预先建立的事件簇中进行移除。

S10,如果第k预先建立的事件簇中所包含的新闻数目小于第四预设阈值，和/或，第k预先建立的事件簇中所包含的每个新闻与第k预先建立的事件簇之间的相似度值大于或等于第五预设阈值，则计算第k预先建立的事件簇与第g预先建立的事件簇之间的相似度值，其中，g为正整数，1≤g≤N，且g≠k。

S11,判断第k预先建立的事件簇与第g预先建立的事件簇之间的相似度值是否大于或等于第六预设阈值。其中，第六预设阀值可以根据实际情况进行标定。

S12,如果大于或等于第六预设阈值，则将第k预先建立的事件簇与第g预先建立的事件簇进行合并。

例如，如图2中的数据更新阶段和图9所示，对于一篇新闻寻找其应该属于的事件时，考虑了历史所有新闻已经形成的事件簇的信息对当前新闻的影响，但是并没有考虑到当前新闻对于历史新闻和事件簇的影响。因此，每隔一定的时间，检查某一些新闻数量大于一定值(例如，20)的簇，如果某一簇中有偏离簇中心距离较大的点，则将该点作为异常点从该簇中移除。

其中，该过程的实例代码如下：

再例如，为了解决一个事件的新闻被分到不同的簇中的情况，这时需要靠簇的二次聚类以完成簇的合并。第二次聚类时提取的特征可以以汉字特征作为特征，需要新闻之间的结构相似度，具体实行步骤可与上述实施例中提及的相似度的计算方式相同。

其中，该过程的实例代码如下：

在本发明的实施例中，上述数据在后台根据新的信息更新之后，再次更新数据库，以更新前端的展示数据。

为了实现上述实施例，本发明还提出一种基于网络事件模型的新闻事件检测装置。

如图10所示，该基于网络事件模型的新闻事件检测装置包括第一获取模块100、提取模块200、第一计算模块300和检测模块400。

具体地，第一获取模块100用于实时获取L个媒体新闻门户网站发布的M个新闻的网页文本信息，其中，网页文本信息包括新闻的标题信息和新闻的文本内容信息，L、M均为正整数。

提取模块200用于对第i个新闻的网页文本信息进行分析，提取第i个新闻的第一特征信息，其中，i为正整数，且1≤i≤M。

其中，在本发明的另一个实施例中，上述提取模块200具体用于对第i个新闻的标题和文本内容信息进行分词处理，得到第i个新闻的多个语素；对多个语素进行识别以确定对应的词性，并根据词性提取第i个新闻的内容信息、地点信息和人物信息；对第i个新闻的网页文本信息进行解析以得到第i个新闻的发布时间戳，并将发布时间戳作为第i个新闻的时间信息。

第一计算模块300用于根据第i个新闻的第一特征信息计算第i个新闻与N个预先建立的事件簇的N个相似度值，其中，N为正整数。

其中，在本发明的一个实施例中，上述第一计算模块300具体用于针对每个预先建立的事件簇，将每个预先建立的事件簇中的各个新闻的特征信息进行叠加，以获取每个预先建立的事件簇的第二特征信息；基于第i个新闻的第一特征信息中的第j特征，计算第j特征与第二特征信息中对应的特征之间的第j相似度值，其中，j为正整数，且1≤j≤第一特征信息所包含特征的个数；基于第i个新闻的第一特征信息以及第二特征信息，根据第j相似度值计算第i个新闻与每个预先建立的事件簇的相似度值。

其中，在本发明的一个实施例中，根据第j相似度值计算第i个新闻与每个预先建立的事件簇的相似度值，包括判断第j相似度值是否大于或等于对应的第二预设阈值；如果第j相似度值大于或等于对应的第二预设阈值，则根据第j相似度值计算第i个新闻与每个预先建立的事件簇的相似度值；如果第j相似度值小于对应的第二预设阈值，则计算第i个新闻与对应的预先建立的事件簇的相似度值为零。其中，第二预设阀值可以根据实际情况进行标定。

检测模块400用于根据N个相似度值检测第i个新闻是否属于N个预先建立的事件簇。

其中，在本发明的一个实施例中，如图11所示，上述基于网络事件模型的新闻事件检测装置还可包括获取单元10、提取单元20、计算单元30和组合单元40用于预先建立事件簇，其中，

获取单元10用于实时获取L个媒体新闻门户网站发布的多个新闻的网页文本信息，其中，网页文本信息包括新闻的标题信息和新闻的文本内容信息，L为正整数。

提取单元20用于对多个新闻的网页文本信息进行分析，提取多个新闻的第一特征信息。

计算单元30用于根据多个新闻的第一特征信息计算两两新闻之间的相似度值。

组合单元40用于当判断两两新闻之间的相似度值大于或等于第三预设阈值时，将两两新闻进行组合，以建立对应的事件簇。其中，第三预设阀值可以根据实际情况进行标定。

在本发明的一个实施例中，上述检测模块400具体用于获取N个相似度值中的最大相似度值；如果最大相似度值大于或等于第一预设阈值，则判断第i个新闻属于最大相似度值所对应的预先建立的事件簇；如果最大相似度值小于第一预设阈值，则判断第i个新闻属于新的事件。其中，第一预设阀值可以根据实际情况进行标定。

进一步地，在本发明的一个实施例中，如图12所示，上述基于网络事件模型的新闻事件检测装置还可包括：第二获取模块500、第一判断模块600、第二计算模块700、第二判断模块800、移除模块900、第三计算模块1000、第三判断模块1100和合并模块1200。

具体地，第二获取模块500用于针对N个预先建立的事件簇，获取第k预先建立的事件簇中所包含的新闻数目，其中，k为正整数，1≤k≤N；

第一判断模块600用于判断第k预先建立的事件簇中所包含的新闻数目是否大于或等于第四预设阈值。其中，第四预设阀值可以根据实际情况进行标定。

第二计算模块700用于如果第一判断模块判断判断第k预先建立的事件簇中所包含的新闻数目大于或等于第四预设阈值，则计算第k预先建立的事件簇中所包含的每个新闻与第k预先建立的事件簇之间的相似度值。

第二判断模块800用于判断第k预先建立的事件簇中所包含的每个新闻与第k预先建立的事件簇之间的相似度值是否小于第五预设阈值。其中，第五预设阀值可以根据实际情况进行标定。

移除模块900用于如果第二判断模块判断第k预先建立的事件簇中所包含的每个新闻与第k预先建立的事件簇之间的相似度值，则将小于第五预设阈值对应的新闻从第k预先建立的事件簇中进行移除。

第三计算模块1000用于如果第一判断模块判断第k预先建立的事件簇中所包含的新闻数目小于第四预设阈值，和/或，第二判断模块判断第k预先建立的事件簇中所包含的每个新闻与第k预先建立的事件簇之间的相似度值大于或等于第五预设阈值，则计算第k预先建立的事件簇与第g预先建立的事件簇之间的相似度值，其中，g为正整数，1≤g≤N，且g≠k。

第三判断模块1100用于判断第k预先建立的事件簇与第g预先建立的事件簇之间的相似度值是否大于或等于第六预设阈值。其中，第六预设阀值可以根据实际情况进行标定。

合并模块1200用于如果第三判断模块判断第k预先建立的事件簇与第g预先建立的事件簇之间的相似度值大于或等于第六预设阈值，则将第k预先建立的事件簇与第g预先建立的事件簇进行合并。

需要说明的是，前述对基于网络事件模型的新闻事件检测方法实施例的解释说明也适用于该实施例的基于网络事件模型的新闻事件检测装置，此处不再赘述。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于网络事件模型的新闻事件检测方法，其特征在于，包括以下步骤：

实时获取L个媒体新闻门户网站发布的M个新闻的网页文本信息，其中，所述网页文本信息包括所述新闻的标题信息和所述新闻的文本内容信息，L、M均为正整数；

对第i个新闻的网页文本信息进行分析，提取所述第i个新闻的第一特征信息，其中，i为正整数，且1≤i≤M；

根据所述第i个新闻的第一特征信息计算所述第i个新闻与N个预先建立的事件簇的N个相似度值，其中，N为正整数；以及

根据所述N个相似度值检测所述第i个新闻是否属于所述N个预先建立的事件簇。

2.如权利要求1所述的基于网络事件模型的新闻事件检测方法，其特征在于，所述根据所述N个相似度值检测所述第i个新闻是否属于所述N个预先建立的事件簇，包括：

获取所述N个相似度值中的最大相似度值；

判断所述最大相似度值是否大于或等于第一预设阈值；

如果所述最大相似度值大于或等于所述第一预设阈值，则判断所述第i个新闻属于所述最大相似度值所对应的预先建立的事件簇；

如果所述最大相似度值小于所述第一预设阈值，则判断所述第i个新闻属于新的事件。

3.如权利要求1所述的基于网络事件模型的新闻事件检测方法，其特征在于，其中，第一特征信息包括时间信息、内容信息、地点信息和人物信息，所述对第i个新闻的网页文本信息进行分析，提取所述第i个新闻的第一特征信息，包括：

对所述第i个新闻的标题和文本内容信息进行分词处理，得到所述第i个新闻的多个语素；

对所述多个语素进行识别以确定对应的词性，并根据所述词性提取所述第i个新闻的内容信息、地点信息和人物信息；

对所述第i个新闻的网页文本信息进行解析以得到所述第i个新闻的发布时间戳，并将所述发布时间戳作为所述第i个新闻的时间信息。

4.如权利要求1所述的基于网络事件模型的新闻事件检测方法，其特征在于，所述根据所述第i个新闻的第一特征信息计算所述第i个新闻与N个预先建立的事件簇的N个相似度值，包括：

针对每个预先建立的事件簇，将所述每个预先建立的事件簇中的各个新闻的特征信息计算所述事件簇的总特征，以获取所述每个预先建立的事件簇的第二特征信息；

基于所述第i个新闻的第一特征信息中的第j特征，计算所述第j特征与所述第二特征信息中对应的特征之间的第j相似度值，其中，j为正整数，且1≤j≤所述第一特征信息所包含特征的个数；

基于所述所述第i个新闻的第一特征信息以及所述第二特征信息，根据所述第j相似度值计算所述第i个新闻与所述每个预先建立的事件簇的相似度值。

5.如权利要求4所述的基于网络事件模型的新闻事件检测方法，其特征在于，所述根据所述第j相似度值计算所述第i个新闻与所述每个预先建立的事件簇的相似度值，包括：

判断所述第j相似度值是否大于或等于对应的第二预设阈值；

如果所述第j相似度值大于或等于所述对应的第二预设阈值，则根据所述第j相似度值计算所述第i个新闻与所述每个预先建立的事件簇的相似度值；

如果所述第j相似度值小于所述对应的第二预设阈值，则计算所述第i个新闻与对应的预先建立的事件簇的相似度值为零。

6.如权利要求1所述的基于网络事件模型的新闻事件检测方法，其特征在于，所述预先建立的事件簇通过以下步骤建立：

实时获取L个媒体新闻门户网站发布的多个新闻的网页文本信息，其中，所述网页文本信息包括所述新闻的标题信息和所述新闻的文本内容信息，L为正整数；

对所述多个新闻的网页文本信息进行分析，提取所述多个新闻的第一特征信息；

根据所述多个新闻的第一特征信息计算两两新闻之间的相似度值；

当判断所述两两新闻之间的相似度值大于或等于第三预设阈值时，将所述两两新闻进行组合，以建立对应的事件簇。

7.如权利要求2所述的基于网络事件模型的新闻事件检测方法，其特征在于，在判断所述第i个新闻属于所述最大相似度值所对应的预先建立的事件簇之后，还包括：

将所述第i个新闻添加至所述最大相似度值所对应的预先建立的事件簇；

根据所述第i个新闻的第一特征信息对所述最大相似度值所对应的预先建立的事件簇的第二特征信息进行更新。

8.如权利要求1所述的基于网络事件模型的新闻事件检测方法，其特征在于，还包括：

针对所述N个预先建立的事件簇，获取第k预先建立的事件簇中所包含的新闻数目，其中，k为正整数，1≤k≤N；

判断所述第k预先建立的事件簇中所包含的新闻数目是否大于或等于第四预设阈值；

如果大于或等于所述第四预设阈值，则计算所述第k预先建立的事件簇中所包含的每个新闻与所述第k预先建立的事件簇之间的相似度值；

判断所述第k预先建立的事件簇中所包含的每个新闻与所述第k预先建立的事件簇之间的相似度值是否小于第五预设阈值；

如果小于所述第五预设阈值，则将小于所述第五预设阈值对应的新闻从所述第k预先建立的事件簇中进行移除；

如果所述第k预先建立的事件簇中所包含的新闻数目小于所述第四预设阈值，和/或，所述第k预先建立的事件簇中所包含的每个新闻与所述第k预先建立的事件簇之间的相似度值大于或等于所述第五预设阈值，则计算所述第k预先建立的事件簇与第g预先建立的事件簇之间的相似度值，其中，g为正整数，1≤g≤N，且g≠k；

判断所述第k预先建立的事件簇与第g预先建立的事件簇之间的相似度值是否大于或等于第六预设阈值；

如果大于或等于所述第六预设阈值，则将所述第k预先建立的事件簇与第g预先建立的事件簇进行合并。

9.一种基于网络事件模型的新闻事件检测装置，其特征在于，包括：

第一获取模块，用于实时获取L个媒体新闻门户网站发布的M个新闻的网页文本信息，其中，所述网页文本信息包括所述新闻的标题信息和所述新闻的文本内容信息，L、M均为正整数；

提取模块，用于对第i个新闻的网页文本信息进行分析，提取所述第i个新闻的第一特征信息，其中，i为正整数，且1≤i≤M；

第一计算模块，用于根据所述第i个新闻的第一特征信息计算所述第i个新闻与N个预先建立的事件簇的N个相似度值，其中，N为正整数；以及

检测模块，用于根据所述N个相似度值检测所述第i个新闻是否属于所述N个预先建立的事件簇。

10.如权利要求9所述的基于网络事件模型的新闻事件检测装置，其特征在于，所述检测模块，具体用于：

获取所述N个相似度值中的最大相似度值；

判断所述最大相似度值是否大于或等于第一预设阈值；

11.如权利要求9所述的基于网络事件模型的新闻事件检测装置，其特征在于，其中，第一特征信息包括时间信息、内容信息、地点信息和人物信息，所述提取模块，具体用于：

12.如权利要求9所述的基于网络事件模型的新闻事件检测装置，其特征在于，所述第一计算模块，具体用于：

13.如权利要求12所述的基于网络事件模型的新闻事件检测装置，其特征在于，所述根据所述第j相似度值计算所述第i个新闻与所述每个预先建立的事件簇的相似度值，包括：

判断所述第j相似度值是否大于或等于对应的第二预设阈值；

14.如权利要求9所述的基于网络事件模型的新闻事件检测装置，其特征在于，还包括：

获取单元，用于实时获取L个媒体新闻门户网站发布的多个新闻的网页文本信息，其中，所述网页文本信息包括所述新闻的标题信息和所述新闻的文本内容信息，L为正整数；

提取单元，用于对所述多个新闻的网页文本信息进行分析，提取所述多个新闻的第一特征信息；

计算单元，用于根据所述多个新闻的第一特征信息计算两两新闻之间的相似度值；

组合单元，用于当判断所述两两新闻之间的相似度值大于或等于第三预设阈值时，将所述两两新闻进行组合，以建立对应的事件簇。

15.如权利要求10所述的基于网络事件模型的新闻事件检测装置，其特征在于，在判断所述第i个新闻属于所述最大相似度值所对应的预先建立的事件簇之后，还包括：

16.如权利要求9所述的基于网络事件模型的新闻事件检测装置，其特征在于，还包括：

第二获取模块，用于针对所述N个预先建立的事件簇，获取第k预先建立的事件簇中所包含的新闻数目，其中，k为正整数，1≤k≤N；

第一判断模块，用于判断所述第k预先建立的事件簇中所包含的新闻数目是否大于或等于第四预设阈值；

第二计算模块，用于如果所述第一判断模块判断判断所述第k预先建立的事件簇中所包含的新闻数目大于或等于所述第四预设阈值，则计算所述第k预先建立的事件簇中所包含的每个新闻与所述第k预先建立的事件簇之间的相似度值；

第二判断模块，用于判断所述第k预先建立的事件簇中所包含的每个新闻与所述第k预先建立的事件簇之间的相似度值是否小于第五预设阈值；

移除模块，用于如果所述第二判断模块判断所述第k预先建立的事件簇中所包含的每个新闻与所述第k预先建立的事件簇之间的相似度值，则将小于所述第五预设阈值对应的新闻从所述第k预先建立的事件簇中进行移除；

第三计算模块，用于如果所述第一判断模块判断所述第k预先建立的事件簇中所包含的新闻数目小于所述第四预设阈值，和/或，所述第二判断模块判断所述第k预先建立的事件簇中所包含的每个新闻与所述第k预先建立的事件簇之间的相似度值大于或等于所述第五预设阈值，则计算所述第k预先建立的事件簇与第g预先建立的事件簇之间的相似度值，其中，g为正整数，1≤g≤N，且g≠k；

第三判断模块，用于判断所述第k预先建立的事件簇与第g预先建立的事件簇之间的相似度值是否大于或等于第六预设阈值；

合并模块，用于如果所述第三判断模块判断所述第k预先建立的事件簇与第g预先建立的事件簇之间的相似度值大于或等于第六预设阈值，则将所述第k预先建立的事件簇与第g预先建立的事件簇进行合并。