CN105718598A

CN105718598A - 基于at的时间模型构建方法与网络突发事件预警方法

Info

Publication number: CN105718598A
Application number: CN201610127898.8A
Authority: CN
Inventors: 于瑞国; 林榆旺; 赵满坤; 喻梅; 王建荣; 于健
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-03-07
Filing date: 2016-03-07
Publication date: 2016-06-29

Abstract

本发明属于数据挖掘、自然语言处理和网络信息处理领域，为实现：(1)选取符合需求的聚类方法，从而得到较为准确的聚类结果。(2)使得事件模型更契合实际情况。(3)进行热点事件以及突发事件的检测及预警并保证较高的准确率。本发明采用的技术方案是，基于AT的时间模型构建方法与网络突发事件预警方法，步骤如下：步骤一：定制网络爬虫，爬取网络新闻文档；步骤二：对爬取的网络新闻文档进行中文分词和其它预处理；步骤三：对文档中的词语进行词语权重计算；步骤四：文本表示及相似度计算；步骤五：对文档进行聚类；步骤六：选取营养转换因子和营养衰减因子；步骤七：突发事件检测与预警。本发明主要应用于网络通信和处理信息。

Description

基于AT的时间模型构建方法与网络突发事件预警方法

技术领域

本发明属于数据挖掘、自然语言处理和信息检索领域，涉及网络突发事件模型构建和发展分析，用于对网络文档流进行建模，并通过对模型计算得到的结果做进一步处理，对可能的突发事件进行预警。具体讲，涉及基于AT的时间模型构建方法与网络突发事件预警方法。

背景技术

文本分类技术首次出现在上世纪50年代末，Luhn提出了一种基于词频的文本自动分类方法。随着近年来信息技术的迅猛发展，文本分类已经成为信息检索领域内的研究热点。

话题检测与跟踪(TopicDetectionandTracking，TDT)与文本分类技术一脉相承，是文本分类技术的一种更为具体的应用，它最早由美国国防高级研究计划署(DARPA)提出，是一种能在没有人工干预的情况下自动判断新闻数据流的主题的新技术。主要涉及准确地进行话题检测和跟踪已知话题的动态演化过程。

为话题和文档建立计算机可以表示的模型是TDT中最为基础的研究内容，目前文本表示模型主要有向量空间模型(VectorSpaceModel，VSM)、概率检索模型(ProbabilityRetrievalModel)、词汇链模型和图模型(GraphsModels,GM)。

在文本表示模型中需要对文档进行特征提取，而权重计算是特征提取的最重要一环，目前最为广泛的权重计算方法为TF-IDF(词频-逆文档频率)。近年来，研究人员在其基础上改进，提出了解决短期内热点发现的TF-PDF方法。

话题检测算法在本质上是对文档库中的文档进行聚类，将描述较为相似的、很可能属于同一个话题的文档聚类到一个文本簇中，而这个文本簇就是话题的原型。文本聚类是一种无监督的机器学习方法，其主要依据这样一个著名的聚类假设：同类的文档相似度较大，不同类的文档相似度较小，也就是说，两个文档的相似度越大，它们属于同一个类的概率越大，反之亦然。在话题检测技术中常用的文本聚类方法包括层次聚类方法，基于划分的聚类方法以及增量聚类方法。

生物成长理论(AgingTheory，AT)可以使用微生物在培养基上的生长情况为代表来进行说明。如图2所示，为微生物的生长曲线。微生物的生长需要经历四个过程，首先是调整期，此时微生物刚刚接种到培养基之上，其代谢系统需要适应新的环境，同时要合成酶、辅酶、其他代谢中间代谢产物等，所以此时期的细胞数目没有明显增加；然后进入对数增长期，经过调整期的准备，为此时期的微生物生长提供了足够的物质基础，同时外界环境也是最佳状态；第三个阶段是稳定期，由于营养的消耗使营养物比例失调、有害代谢产物积累、PH值EH值等理化条件不适宜，使得细胞数目保持相对稳定，总细菌数达到最高水平，细胞代谢产物积累达到最高峰；最后是衰亡期，在此阶段，主要是外界环境对继续生长越来越不利、细胞的分解代谢大于合成代谢、继而导致大量细菌死亡。类似于生物生长的自然规律，一个事件在网络中被讨论的热度，也会随着时间的推移呈现出类似于微生物生长的趋势变化曲线。

发明内容

为克服现有技术的不足，本发明旨在：

(1)利用最前沿的话题检测技术，改进检测方案，选取符合需求的聚类方法，从而得到较为准确的聚类结果。

(2)改进的生长理论为话题构建生命周期模型，考虑诸多因素使得事件模型更契合实际情况。

(3)在已构建的生命周期模型的基础上进行热点事件以及突发事件的检测及预警并保证较高的准确率。

本发明采用的技术方案是，基于AT的时间模型构建方法与网络突发事件预警方法，步骤如下：

步骤一：定制网络爬虫，爬取网络新闻文档；

步骤二：对爬取的网络新闻文档进行中文分词和其它预处理；

步骤三：对文档中的词语进行词语权重计算；

步骤四：文本表示及相似度计算；

步骤五：对文档进行聚类；

步骤六：选取营养转换因子和营养衰减因子；

步骤七：突发事件检测与预警。

步骤二在步骤一的基础上对爬取的网络新闻文档进行中文分词和其它预处理，具体步骤如下：降噪处理，删除爬取到的垃圾信息；去重处理，去除完全相同的新闻报道；去停用词，停用词没有任何实际意义，对此进行过滤处理；中文分词处理，将中文句子分成单独的一个一个词。

步骤三在步骤二的基础上对文档中的词语进行词语权重计算，具体步骤如下：

在增量TF-IDF计算词语w的权重时，需要对在i时刻包含w的文档个数df_i(w)以及当前获取的文档总数N_i进行更新，其更新的公式如1和2所示；其中表示在第i个时间段内新加入的包含w的文档个数，表示在第i个时间段内新加入的总的文档个数，df_i(w)表示前i个时间窗内包含词语w的文档数,df_i-1(w)表示前i-1个时间窗内包含词语w的文档数,N_i表示前i个时间窗内文档总数：

{df}_{i} (w) = {df}_{i - 1} (w) + {df}_{t_{i}} (w) - - - (1)

N_{i} = N_{i - 1} + N_{t_{i}} - - - (2)

利用公式(3)计算词语w的增量TF-IDF值，其中tfidf′(w,d)表示文档d中词语w的权重，count(w,d)表示文档d中词语w出现的次数，count(w′,d)表示文档d中词语w’出现的次数，log()是以10为底的对数函数：

{tfidf}^{'} (w, d) = \frac{c o u n t (w, d)}{\sqrt{\underset{w^{'} &Element; d}{Σ} {(c o u n t (w^{'}, d))}^{2}}} * \log (\frac{N_{i} + 1}{{df}_{i} (w) + 1}) - - - (3) .

将词语的位置信息考虑到词语的权重计算中，对表示地点、人物等名词加大权重，得到加权TF-IDF计算方法，如公式4所示。其中tfidf”(w,d)表示词语w在文档d中的加权权重，W_headline和W_entity权重因子。

tfidf”(w,d)＝(1.0+W_headline+W_entity)*tfidf′(w,d)(4)

W_headline和W_entity计算方式如公式5所示。

加入时间距离因子，时间距离因子TIF的计算方法如公式8所示，其中docuPublish代表当前文档的发布时间，topicUpdate则表示话题中的文档集合最后一次更新的时间，时间单位为秒，

T I F = \frac{10}{10 + l o g (d o c u P u b l i s h - t o p i c U p d a t e + 1)} - - - (8)

结合时间距离因子后，计算文档和话题的相似度Sim(d,t)的方法如公式9所示：

Sim(d,t)＝similarity′(d,t)*TIF(9)。

步骤四在步骤三的基础上对文档中的词语进行词语权重计算，具体步骤如下：

采用空间向量模型来表示话题和文档，对每一个文档D，都可以将其表示为一个由n个关键词组成的n维向量，而后就可以将文档中的内容转换为向量空间中的向量进行运算，在将话题和文档使用向量空间模型表示为向量以后，就可以使用向量夹角来对文档与话题之间的相似度进行量化；在将话题和文档使用向量空间模型表示为向量以后，使用向量夹角来对文档与话题之间的相似度进行量化，如公式7所示，其中similarity′(d,t)表示文档d和话题t的相似度，tfidf(w,d)表示词语w在文档d中的权重，tfidf(w,t)表示词语w在话题t的权重。

{similarity}^{'} (d, t) = \frac{\underset{w &Element; d \cap t}{Σ} t f i d f (w, d) * t f i d f (w, t)}{\sqrt{\underset{w &Element; d}{Σ} {(t f i d f (w, d))}^{2}} \sqrt{\underset{w &Element; t}{Σ} {(t f i d f (w, t))}^{2}}} - - - (7) .

步骤五在步骤四的基础上对文档进行聚类，具体步骤如下：使用Single-Pass作为在线话题检测的增量聚类方法，利用该方法并结合时间距离因子将新闻文档进行分类，具体是：

(1)输入一篇网络文档d；

(2)计算文档d与当前已有话题中的各个话题中的每一篇文档的相似度，并选取其中的最大值作为与该话题的相似度；

(3)在所有话题中选出与文档d相似度最大的一个话题，并记录此时的相似度值S；

(4)如果S大于聚类阈值Tc，文档d被分配给这个话题模型的文本类，跳转至(6)；

(5)如果S小于聚类阈值Tc，说明文档d不属于当前已有的话题集合中的任意话题，创建新话题并将文档d加入该新话题；

(6)聚类结束，等待新文档的到来。

步骤六在步骤五的基础上选取营养转换因子和营养衰减因子，具体步骤如下：

对一个话题V，记在一个时间窗t内所有的属于该话题的文档与其相似度的累加和为x_t，设置营养转换因子α(NutritionTransferredFactor)和营养衰减因子β(NutritionDecayedFactor)，α决定了新闻文档能够贡献给话题的营养值，β则代表营养衰减因子，通过设定相关函数，并通过机器学习的方法获得最佳的营养转换因子和营养衰减因子，根据实际情况，网络新闻发布数量不是按时间均匀分布的，在新闻报道重量较少的情况下，话题的能量值会衰减过快，因此考虑实际情况在计算β时乘上一个与该时间窗内文档数量有关的函数；同时在新话题建立初期，营养值会出现增长过快的情况，在计算当前文档对话题的影响时乘上一个与该话题当前文档数相关的函数以进行抑制。

步骤六进一步具体形式是：

对于一个话题V，记在一个时间窗t内所有的属于该话题的文档与其相似度的累加和为x_t，在t时刻话题的能量值可记为一个与α和β以及每一个时间段内的加入话题的文档相似度的累加和(x₁,x₂,...x_t)相关的联合函数如式10所示：

y_t＝g(x₁,...,x_t,α,β)(10)

定义一个能量函数F(y)用于计算话题的热度值，该函数的参数是该文档的营养值，函数需满足以下属性，如式11所示：

0≤F(y)≤1

严格单调递增(11)

F(0)＝0,F(∞)＝1

对能量函数进行更为具体的定义如式12所示：

\begin{matrix} F (r * y_{T}) = s \\ y_{T} = Σ_{i = 1}^{T} {αx}_{i} \end{matrix} - - - (12)

其中，r指的是营养值的系数，s是一个常量，T是时间窗口的数目，r和s均由用户进行选择；

考虑一种极端的情况，话题的能量值不随着时间有所衰减，即衰减因子为0，这样话题的营养值就仅仅与营养转换因子有关，在T时刻话题的能量值就可以表示为式13：

F (r * Σ_{i = 1}^{T} {αx}_{i}) = s - - - (13)

由于F是一个严格单调递增函数，该式的两边取反可得式14：

r * Σ_{i = 1}^{T} {αx}_{i} = F^{- 1} (s) - - - (14)

通过两边同时除以来计算α，得式15：

α^{*} = F^{- 1} (s) / (r * Σ_{i = 1}^{T} {αx}_{i}) - - - (15)

定义一个营养衰减因子来表示每个时间段内话题能量的衰减值，因此可使用公式16计算t时刻话题的营养值：

y_{t} = Σ_{i = 1}^{t} ({αx}_{i} - β) = α Σ_{i = 1}^{t} x_{i} - β t - - - (16)

选取两组不同的参数(r₁,s₁)和(r₂,s₂)，即可获得转换因子及衰减因子的计算公式17和式18：

α^{*} = [t_{2} F^{- 1} (s_{1}) - t_{1} F^{- 1} (s_{2})] / [(r_{1} t_{2} - r_{2} t_{1}) Σ_{i = 1}^{T} x_{i}] - - - (17)

β^*＝{r₁[t₂F^-1(s₁)-t₁F^-1(s₂)]/(r₁t₂-r₂t₁)-F^-1(s₁)}/l(18)

使用的营养衰减因子的计算方法如式19所示：

β_i＝β*log(1.0+n_i/avg)(19)

其中，β_i指的是在第i个时间窗口内的动态衰减阈值，n_i指在第i个时间窗口内总的新闻报道数目，avg是一个常量经验值，代表在一个时间窗口内平均发布的新闻报道数目；

一篇文档对当前话题贡献的营养值的计算方法可以表示如式20所示：

△Nutrition＝α*sim*log_Enum(Tnum)(20)

其中Tnum表示当前话题中的文档数目，Enum为经验值，sim表示当前文档与该话题的相似度。

步骤七在步骤六的基础上进行突发事件检测与预警，具体步骤如下：

通过计算一阶增长率，二阶增长率，并设置相应的阈值，通过对事件的增长率与阈值进行比较，判断一个时间是否可能成为热点事件或者突发事件。如图3所示为使用增长率进行预测流程。

本发明的特点及有益效果是：

在在线话题检测的过程中加入时间距离因子，对检测的效果具有一定程度的提升。观察两表可以看到，尽管对某些话题F值不升反降，但对大部分的话题来说，加入TIF都是能够有效提高聚类效果的。本发明中所提出的时间距离相关的话题检测更倾向于对短期内出现大量报道的新闻话题进行检测。而短期内的话题检测也恰恰能够满足本发明用于突发事件预警的需求。

附图说明：

图1话题检测与跟踪技术的流程及其主要方法。

图2微生物的生长曲线。

图3使用增长率进行预测流程。

图4事件发展过程中能量值的增长率变化曲线。

具体实施方式

本发明的目的是通过话题检测技术以及生物成长理论构建网络话题的生命周期模型，而后对模型进行预测与分析从而完成热点发现、突发事件检测、突发事件预警这三个任务。为实现本发明的目的具体目标如下：

本发明的技术方案是：

步骤一：定制网络爬虫，爬取网络新闻文档；

步骤三：对文档中的词语进行词语权重计算；

步骤四：文本表示及相似度计算；

步骤五：对文档进行聚类；

步骤六：选取营养转换因子和营养衰减因子；

步骤七：突发事件检测与预警。

步骤一进行了定制网络爬虫，爬取网络信息文档，具体步骤如下：

本发明采用Python语言定制网络爬虫，并从互联网中爬取新闻内容。新闻内容包括新闻标题、新闻URL、来源、发布时间以及文本内容等。本发明选取中新网、人民网、凤凰资讯、网易新闻、新浪新闻这五个国内主要的新闻门户网站作为网络新闻的数据来源。

在一个实施例中，步骤二在步骤一的基础上对爬取的网络新闻文档进行中文分词和其它预处理，具体步骤如下：

降噪处理，删除爬取到的垃圾信息；去重处理，去除完全相同的新闻报道；去停用词，停用词没有任何实际意义，对此进行过滤处理；中文分词处理，将中文句子分成单独的一个一个词。

采用增量TF-IDF对文档的词语进行权重计算，增量的TF-IDF在计算词语权重时会对文档总数进行更新，然后再对词进行权重计算。同时考虑不同词性的重要程度不同，因此采用加权TF-IDF增加特定类型的词的权重。

采用空间向量模型来表示话题和文档，对每一个文档D，都可以将其表示为一个由n个关键词组成的n维向量，而后就可以将文档中的内容转换为向量空间中的向量进行运算。在将话题和文档使用向量空间模型表示为向量以后，就可以使用向量夹角来对文档与话题之间的相似度进行量化。

步骤五在步骤四的基础上对文档进行聚类，具体步骤如下：

本发明使用Single-Pass作为在线话题检测的增量聚类方法，利用该方法并结合时间距离因子将新闻文档进行分类。

对一个话题V，记在一个时间窗t内所有的属于该话题的文档与其相似度的累加和为x_t，设置营养转换因子α(NutritionTransferredFactor)和营养衰减因子β(NutritionDecayedFactor)，α决定了新闻文档能够贡献给话题的营养值，β则代表每一个时间窗口话题的营养衰减值。通过设定相关函数，并通过机器学习的方法获得最佳的营养转换因子和营养衰减因子。根据实际情况，网络新闻发布数量不是按时间均匀分布的，在新闻报道重量较少的情况下，话题的能量值会衰减过快，因此考虑实际情况在计算营养衰减因子β时乘上一个与该时间窗内文档数量有关的函数。同时在新话题建立初期，营养值会出现增长过快的情况，在计算当前文档对话题的影响时乘上一个与该话题当前文档数相关的函数以进行抑制。

在一个实施例中，步骤七在步骤六的基础上进行突发事件检测与预警，具体步骤如下：

下面结合附图和具体实施方式进一步详细说明本发明。

本发明提供了一种基于AT的时间模型构建方法，本发明改进的重点为处理文档在每个时间段分布不均的情况和话题在初始时能量增长过快的问题，本发明的最佳实施方式如下：

步骤S0101：使用Python作为编程语言，编写爬虫程序，对五个国内主要的新闻门户网站进行爬取。爬取内容包含新闻标题、新闻URL、来源、发布时间以及文本内容等。

步骤S0201：对爬取的页面进行降噪处理，删除不需要的垃圾信息。这些垃圾信息包括一些网页上的非内容部分以及所采集到的非核心内容部分。主要包括页面中的导航信息，底部的版权信息，加载到页面的各种广告与应用，最新的新闻推送信息，RSS订阅，关注微博等等。

步骤S0202：对爬取的新闻文档做去重处理，通过对比两篇报道的标题、发布时间、内容相似度来对两篇文档是否完全相同进行判断，并去除内容完全相同的新闻报道。

步骤S0203：对爬取的新闻进行去停用词处理，本发明使用的去停用词表由哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表组成。

步骤S0204：使用ICTCLAS2014(又称为NLPIR2014)作为分词工具，对新闻文档进行分词处理。

步骤S0301：在增量TF-IDF计算词语w的权重时，需要对在i时刻包含w的文档个数df_i(w)以及当前获取的文档总数N_i进行更新，其更新的公式如1和2所示。其中表示在第i个时间段内新加入的包含w的文档个数，表示在第i个时间段内新加入的总的文档个数，df_i(w)表示前i个时间窗内包含词语w的文档数,df_i-1(w)表示前i-1个时间窗内包含词语w的文档数，N_i表示前i个时间窗内文档总数。

{df}_{i} (w) = {df}_{i - 1} (w) + {df}_{t_{i}} (w) - - - (1)

N_{i} = N_{i - 1} + N_{t_{i}} - - - (2)

步骤S0302：利用公式3计算词语w的增量TF-IDF值，其中tfidf′(w,d)表示文档d中词语w的权重，count(w,d)表示文档d中词语w出现的次数，count(w′,d)表示文档d中词语w’出现的次数，log()是以10为底的对数函数。

{tfidf}^{'} (w, d) = \frac{c o u n t (w, d)}{\sqrt{\underset{w^{'} &Element; d}{Σ} {(c o u n t (w^{'}, d))}^{2}}} * \log (\frac{N_{i} + 1}{{df}_{i} (w) + 1}) - - - (3)

步骤S0303：将词语的位置信息考虑到词语的权重计算中，对表示地点、人物等名词加大权重(特征词的词性由分词工具可得)，得到加权TF-IDF计算方法，如公式4所示。其中tfidf”(w,d)表示词语w在文档d中的加权权重，W_headline和W_entity权重因子。

tfidf”(w,d)＝(1.0+W_headline+W_entity)*tfidf′(w,d)(4)

W_headline和W_entity计算方式如公式5所示。

步骤S0401：对每一个文档D，都可以将其表示为一个由n个关键词组成的n维向量，而后就可以将文档中的内容转换为向量空间中的向量进行运算，记为(d₁,d₂,......,d_n)，称d_i为D的第i个分量。考虑到计算的时间复杂度，选取文档中权重较高的K个词作为该文档的向量维数。同样的，为了方便相似度的计算，对于话题集合中的话题，也采用向量空间模型来对其进行表示。这样，每一个文档和话题都能够使用一个向量进行量化表示，如式6其中w_i表示d_i在文档D中的权重。

D＝(w₁,w₂,...,w_n)(6)

步骤S0402：在将话题和文档使用向量空间模型表示为向量以后，使用向量夹角来对文档与话题之间的相似度进行量化。如公式7所示，其中similarity′(d,t)表示文档d和话题t的相似度，tfidf(w,d)表示词语w在文档d中的权重，tfidf(w,t)表示词语w在话题t的权重。

{similarity}^{'} (d, t) = \frac{\underset{w &Element; d \cap t}{Σ} t f i d f (w, d) * t f i d f (w, t)}{\sqrt{\underset{w &Element; d}{Σ} {(t f i d f (w, d))}^{2}} \sqrt{\underset{w &Element; t}{Σ} {(t f i d f (w, t))}^{2}}} - - - (7)

步骤S0403：加入时间距离因子，时间距离因子TIF的计算方法如公式8所示，其中docuPublish代表当前文档的发布时间，topicUpdate则表示话题中的文档集合最后一次更新的时间，时间单位为秒。

T I F = \frac{10}{10 + l o g (d o c u P u b l i s h - t o p i c U p d a t e + 1)} - - - (8)

结合时间距离因子后，计算文档和话题的相似度Sim(d,t)的方法如公式9所示。

Sim(d,t)＝similarity′(d,t)*TIF(9)

步骤S0501：使用Single-Pass作为在线话题检测的增量聚类方法。基本流程如下：

(1)输入一篇网络文档d；

(6)聚类结束，等待新文档的到来。

步骤S0601：本发明将连续的时间序列划分为长度相同的时间段(timesolt)，并以每个时间窗口为单位对话题的进行能量值计算，本发明选取10分钟作为一个时间窗口的长度。

步骤S0602：对于一个话题V，记在一个时间窗t内所有的属于该话题的文档与其相似度的累加和为x_t，设置营养转换因子α(NutritionTransferredFactor)和营养衰减因子β(NutritionDecayedFactor)，其中α决定了新闻文档能够贡献给该话题的营养值，β则代表营养衰减因子。另外，在t时刻话题的能量值可记为一个与α和β以及每一个时间段内的加入话题的文档相似度的累加和(x₁,x₂,...x_t)相关的联合函数如式10所示：

y_t＝g(x₁,...,x_t,α,β)(10)

步骤S0603：定义一个能量函数F(y)用于计算话题的热度值，该函数的参数是该文档的营养值。函数需满足以下属性，如式11所示：

0≤F(y)≤1

严格单调递增(11)

F(0)＝0,F(∞)＝1

步骤S0604：对能量函数进行更为具体的定义如式12所示：

\begin{matrix} F (r * y_{T}) = s \\ y_{T} = Σ_{i = 1}^{T} {αx}_{i} \end{matrix} - - - (12)

其中，r指的是营养值的系数(考虑到衰减因子等因素，r不是一个常量)，s是一个常量，T是时间窗口的数目，r和s均由用户进行选择。

步骤S0605：考虑一种极端的情况，话题的能量值不随着时间有所衰减，即衰减因子为0。这样话题的营养值就仅仅与营养转换因子有关，在T时刻话题的能量值就可以表示为式13：

F (r * Σ_{i = 1}^{T} {αx}_{i}) = s - - - (13)

由于F是一个严格单调递增函数，该式的两边取反可得式14：

r * Σ_{i = 1}^{T} {αx}_{i} = F^{- 1} (s) - - - (14)

这样就可以通过两边同时除以来计算α，得式15：

α^{*} = F^{- 1} (s) / (r * Σ_{i = 1}^{T} {αx}_{i}) - - - (15)

步骤S0606:S0605讨论的极端情况是不符合现实情况的，不论在生物的成长过程还是在网络新闻事件的发展过程中，其能量值总是要随着时间的推移而有所衰减的。所以，本发明中定义一个营养衰减因子来表示每个时间段内话题能量的衰减值。因此可使用公式15计算t时刻话题的营养值：

y_{t} = Σ_{i = 1}^{t} ({αx}_{i} - β) = α Σ_{i = 1}^{t} x_{i} - β t - - - (16)

步骤S0607：选取两组不同的参数(r₁,s₁)和(r₂,s₂)，即可获得转换因子及衰减因子的计算公式17和式18：

α^{*} = [t_{2} F^{- 1} (s_{1}) - t_{1} F^{- 1} (s_{2})] / [(r_{1} t_{2} - r_{2} t_{1}) Σ_{i = 1}^{T} x_{i}] - - - (17)

β^*＝{r₁[t₂F^-1(s₁)-t₁F^-1(s₂)]/(r₁t₂-r₂t₁)-F^-1(s₁)}/t₁(18)

步骤S0608:考虑客观影响因子，不同时间段新闻报道的数量不同，在报道量较小的时间段会产生话题的能力值下降过快下降的情况。本发明所使用的营养衰减因子的计算方法如式19所示：

β_i＝β*log(1.0+n_i/avg)(19)

其中，β_i指的是在第i个时间窗口内的动态衰减阈值，β指营养衰减因子，n_i指在第i个时间窗口内总的新闻报道数目，avg是一个常量经验值，代表在一个时间窗口内平均发布的新闻报道数目。

步骤S0609：同样考虑话题刚刚建立时由于营养值的迅速增加，事件的热度值也会有一个快速的增长而跳过事件发展生命周期中的萌芽期，同时这也会造成新话题的热度值虚高，从而影响到热点发现及突发预警的结果。所以需要在话题中所包含的文档数较少的时候对能量值的增长进行抑制。本课题通过改进营养值的计算方法来解决这个问题。一篇文档对当前话题贡献的营养值的计算方法可以表示如式20所示：

△Nutrition＝α*sim*log_Enum(Tnum)(20)

步骤S0610：综上本发明所使用的模型构建方法可以描述为算法如下：

本文使用了在国内几大新闻门户网站上爬取的从2013年12月1号到12月5号之间的50000篇新闻作为数据来源。从中随机选取5000篇作为话题检测的数据集。然后从中选取新闻文档数较多(超过20篇)的9个话题做人工标注，选取这些话题相关的新闻报道作为训练集。表1中列出了这些话题的报道数目。

表1话题报道数量

首先，使用训练集对建模过程中用到的各个参数进行训练，得到较优的聚类阈值threshold＝0.17，而后通过上文中的方法对营养转换因子α以及营养衰减因子β进行训练，得到α＝0.14332,β＝0.01467。

本发明通过对比原始话题检测方法(NormalTDT)和时间距离相关的话题检测方法(TIFTDT)得到的准确率(Precision)，召回率(Recall)和F值来评估方法的效果。如表2，表3所示为两种方法的准确率，召回率和F值的比较。

表2原始话题检测方法(NormalTDT)

表3时间距离相关的话题检测方法(TIFTDT)

由表2和表3的对比结果。可知，在在线话题检测的过程中加入时间距离因子，对检测的效果具有一定程度的提升。观察两表可以看到，尽管对某些话题F值不升反降，但对大部分的话题来说，加入TIF都是能够有效提高聚类效果的。本发明中所提出的时间距离相关的话题检测更倾向于对短期内出现大量报道的新闻话题进行检测。而短期内的话题检测也恰恰能够满足本发明用于突发事件预警的需求。

在突发事件预测上，使用增长率预测方法对2014年3月1日到7日的新闻进行突发预警，得到如表4所示的结果。

表4使用增长率预测突发事件

使用自检测方案来评估预测的准确性，由实验结果可以看到，在预警出的5个事件中，有3个在后来的发展过程中成为突发事件，并且有一定的提前量。表中的预测提前量是指对突发事件的报警时间与该事件成为突发事件的时间之间的间隔。

Claims

1.一种基于AT的时间模型构建方法与网络突发事件预警方法，其特征是，步骤如下：

步骤一：定制网络爬虫，爬取网络新闻文档；

步骤三：对文档中的词语进行词语权重计算；

步骤四：文本表示及相似度计算；

步骤五：对文档进行聚类；

步骤六：选取营养转换因子和营养衰减因子；

步骤七：突发事件检测与预警。

2.如权利要求1所述的基于AT的时间模型构建方法与网络突发事件预警方法，其特征是，步骤二在步骤一的基础上对爬取的网络新闻文档进行中文分词和其它预处理，具体步骤如下：降噪处理，删除爬取到的垃圾信息；去重处理，去除完全相同的新闻报道；去停用词，停用词没有任何实际意义，对此进行过滤处理；中文分词处理，将中文句子分成单独的一个一个词。

3.如权利要求2所述的基于AT的时间模型构建方法与网络突发事件预警方法，其特征是，步骤三在步骤二的基础上对文档中的词语进行词语权重计算，具体步骤如下：

在增量TF-IDF计算词语w的权重时，需要对在i时刻包含w的文档个数df_i(w)以及当前获取的文档总数N_i进行更新，其更新的公式如1和2所示；其中表示在第i个时间段内新加入的包含w的文档个数，表示在第i个时间段内新加入的总的文档个数，df_i(w)表示前i个时间窗内包含词语w的文档数，df_i-1(w)表示前i-1个时间窗内包含词语w的文档数，N_i表示前i个时间窗内文档总数：

{df}_{i} (w) = {df}_{i - 1} (w) + {df}_{t_{i}} (w) - - - (1)

N_{i} = N_{i - 1} + N_{t_{i}} - - - (2)

利用公式(3)计算词语w的增量TF-IDF值，其中tfidf'(w，d)表示文档d中词语w的权重，count(w，d)表示文档d中词语w出现的次数，count(w'，d)表示文档d中词语w’出现的次数，log()是以10为底的对数函数：

{tfidf}^{'} (w, d) = \frac{c o u n t (w, d)}{\sqrt{\underset{w^{'} &Element; d}{Σ} {(c o u n t (w^{'}, d))}^{2}}} * \log (\frac{N_{i} + 1}{{df}_{i} (w) + 1}) - - - (3)

将词语的位置信息考虑到词语的权重计算中，对表示地点、人物等名词加大权重，得到加权TF-IDF计算方法，如公式4所示。其中tfidf”(w，d)表示词语w在文档d中的加权权重，W_headline和W_entity权重因子：

tfidf”(w，d)＝(1.0+W_headline+W_entity)*tfidf'(w，d)(4)

W_headline和W_entity计算方式如公式5所示：

4.如权利要求1所述的基于AT的时间模型构建方法与网络突发事件预警方法，其特征是，加入时间距离因子，时间距离因子TIF的计算方法如公式8所示，其中docuPublish代表当前文档的发布时间，topicUpdate则表示话题中的文档集合最后一次更新的时间，时间单位为秒，

T I F = \frac{10}{10 + l o g (d o c u P u b l i s h - t o p i c U p d a t e + 1)} - - - (8)

结合时间距离因子后，计算文档和话题的相似度Sim(d，t)的方法如公式9所示。

Sim(d，t)＝similarity'(d，t)*TIF(9)。

5.如权利要求1所述的基于AT的时间模型构建方法与网络突发事件预警方法，其特征是，步骤四在步骤三的基础上对文档中的词语进行词语权重计算，具体步骤如下：采用空间向量模型来表示话题和文档，对每一个文档D，都可以将其表示为一个由n个关键词组成的n维向量，而后就可以将文档中的内容转换为向量空间中的向量进行运算，在将话题和文档使用向量空间模型表示为向量以后，就可以使用向量夹角来对文档与话题之间的相似度进行量化；在将话题和文档使用向量空间模型表示为向量以后，使用向量夹角来对文档与话题之间的相似度进行量化，如公式7所示，其中similarity'(d，t)表示文档d和话题t的相似度，tfidf(w，d)表示词语w在文档d中的权重，tfidf(w，t)表示词语w在话题t的权重，

{similarity}^{'} (d, t) = \frac{\underset{w &Element; d \cap t}{Σ} t f i d f (w, d) * t f i d f (w, t)}{\sqrt{\underset{w &Element; d}{Σ} {(t f i d f (w, d))}^{2}} \sqrt{\underset{w &Element; t}{Σ} {(t f i d f (w, t))}^{2}}} - - - (7) .

6.如权利要求1所述的基于AT的时间模型构建方法与网络突发事件预警方法，其特征是，步骤五在步骤四的基础上对文档进行聚类，具体步骤如下：使用Single-Pass作为在线话题检测的增量聚类方法，利用该方法并结合时间距离因子将新闻文档进行分类，具体是：

(1)输入一篇网络文档d；

(6)聚类结束，等待新文档的到来。

7.如权利要求1所述的基于AT的时间模型构建方法与网络突发事件预警方法，其特征是，步骤六在步骤五的基础上选取营养转换因子和营养衰减因子，具体步骤如下：对一个话题V，记在一个时间窗t内所有的属于该话题的文档与其相似度的累加和为x_t，设置营养转换因子α(NutritionTransferredFactor)和营养衰减因子β(NutritionDecayedFactor)，α决定了新闻文档能够贡献给话题的营养值，β则代表每一个时间窗口话题的营养衰减值。通过设定相关函数，并通过机器学习的方法获得最佳的营养转换因子和营养衰减因子。根据实际情况，网络新闻发布数量不是按时间均匀分布的，在新闻报道重量较少的情况下，话题的能量值会衰减过快，因此考虑实际情况在计算能量衰减因子β时乘上一个与该时间窗内文档数量有关的函数；同时在新话题建立初期，营养值会出现增长过快的情况，在计算当前文档对话题的影响时乘上一个与该话题当前文档数相关的函数以进行抑制。

8.如权利要求1所述的基于AT的时间模型构建方法与网络突发事件预警方法，其特征是，步骤六进一步具体形式是：

对于一个话题V，记在一个时间窗t内所有的属于该话题的文档与其相似度的累加和为x_t，在t时刻话题的能量值可记为一个与α和β以及每一个时间段内的加入话题的文档相似度的累加和(x₁，x₂，...x_t)相关的联合函数如式10所示：

y_t＝g(x₁，...，x_t，α，β)(10)

0≤F(y)≤1

严格单调递增(11)

F(0)＝0，F(∞)＝1

对能量函数进行更为具体的定义如式12所示：

\begin{matrix} F (r * y_{T}) = s \\ y_{T} = Σ_{i = 1}^{T} {αx}_{i} \end{matrix} - - - (12)

F (r * Σ_{i = 1}^{T} {αx}_{i}) = s - - - (13)

由于F是一个严格单调递增函数，该式的两边取反可得式14：

r * Σ_{i = 1}^{T} {αr}_{i} = F^{- 1} (s) - - - (14)

通过两边同时除以来计算α，得式15：

α^{*} = F^{- 1} (s) / (r * Σ_{i = 1}^{T} {αx}_{i}) - - - (15)

y_{t} = Σ_{i = 1}^{t} ({αx}_{i} - β) = α Σ_{i = 1}^{t} x_{i} - β t - - - (16)

选取两组不同的参数(r₁，s₁)和(r₂，s₂)，即可获得转换因子及衰减因子的计算公式17和式18：

α^{*} = [t_{2} F^{- 1} (s_{1}) - t_{1} F^{- 1} (s_{2})] / [(r_{1} t_{2} - r_{2} t_{1}) Σ_{i = 1}^{T} x_{i}] - - - (17)

β^*＝{r₁[t₂F^-1(s₁)-t₁F^-1(s₂)]/(r₁t₂-r₂t₁)-F^-1(s₁)}(18)

使用的营养衰减因子的计算方法如式19所示：

β_i＝β*log(1.0+n_i/avg)(19)

△Nutrition＝α*sim*log_Enum(Tnum)(20)

9.如权利要求1所述的基于AT的时间模型构建方法与网络突发事件预警方法，其特征是，通过计算一阶增长率，二阶增长率，并设置相应的阈值，通过对事件的增长率与阈值进行比较，判断一个时间是否可能成为热点事件或者突发事件。