CN104182504A

CN104182504A - 一种新闻事件的动态跟踪和总结算法

Info

Publication number: CN104182504A
Application number: CN201410406784.8A
Authority: CN
Inventors: 吴信东; 强继朋; 谢飞
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2014-08-18
Filing date: 2014-08-18
Publication date: 2014-12-03
Anticipated expiration: 2034-08-18
Also published as: CN104182504B

Abstract

本发明公开了一种新闻事件的动态跟踪和总结算法，其特征是按如下步骤进行：步骤1、输入与新闻事件相关的查询语句进行检索，获取新闻文档及对应的发布时间；步骤2、构建词共现图；步骤3、采用社区发现算法从词共现图中提取与新闻事件相关的多个主题；步骤4、选取主题集合中每个主题相对应的句子组序列及对应的发生时间标签；步骤5、对主题集合中的每个主题按照发生时间，从所对应的句子组序列中获得与各自主题相对应的摘要集合，从而生成与各自主题相对应的总结。本发明在能够充分利用所查到的新闻文档中保留多个新闻主题，并对各个主题进行动态跟踪和总结，从而能让用户更全面性和针对性的了解所关心的新闻摘要。

Description

一种新闻事件的动态跟踪和总结算法

技术领域

本发明属于多文档摘要领域，具体来说是一种新闻事件的动态跟踪的动态跟踪和总结方法。

背景技术

随着互联网技术的快速发展，人们的生活也在不断地发生着变化。人们利用互联网获取更多信息的同时，也因互联网信息量的巨大，受每天阅读许多重复信息的困扰，导致许多不必要的时间被浪费。针对互联网上新闻事件的频繁发生，用户希望能获得新闻事件发展的来龙去脉的总结，而不是与相关的许多新闻链接。针对新闻事件，依据发生时间，顺序生成该新闻的摘要技术，被称之为新闻事件的动态跟踪。如何从互联网上大量的新闻数据中，依据相关的新闻文档生成新闻事件的总结，以便了解事件的发展过程成为现在的研究趋势。

现有的一些新闻事件的动态跟踪和总结方法，只依赖于查询语句和新闻文档之间的相关性，并没有对查询到的相关新闻文档进行充分挖掘，往往遗漏很多重要信息，或者产生许多冗余重复的信息，从而导致产生的新闻摘要很难概括出或体现出事件的前因后果和发展历程。

发明内容

本发明为了克服现有技术的不足，提出一种新的新闻事件的动态跟踪和总结算法，能够充分利用所查到的新闻文档中保留多个新闻主题，并对各个主题进行动态跟踪和总结，从而能让用户更全面性和针对性的了解所关心的新闻摘要。

本发明为解决技术问题采用如下技术方案：

本发明一种新闻事件的动态跟踪和总结算法的特点是按如下步骤进行：

步骤1、在搜索引擎上，输入与新闻事件相关的查询语句Q进行检索，并返回若干个新闻文档，利用爬虫工具从所述若干个新闻文档中爬取排序为前U个新闻文档及对应的发布时间，分别构成初始返回新闻列表X＝{x₁,x₂,…,x_i,…,x_U}及对应的发布时间序列T＝{t₁,t₂,…,t_i,…,t_U}，x_i表示在所述初始返回新闻列表X中第i个新闻文档，t_i表示在所述发布时间序列T中与第i个新闻文档x_i所对应的发布时间；1≤i≤U；

步骤2、构建词共现图G；

步骤3、采用社区发现算法从所述词共现图G中提取与新闻事件相关的多个主题Q；

步骤4、从所述初始返回新闻列表X及对应的发布时间序列T中选取所述主题集合Q中每个主题相对应的句子组序列及对应的发生时间标签；

步骤5、对所述主题集合Q中的每个主题进行处理，按照发生时间，从所对应的句子组序列中获得与各自主题相对应的摘要集合，从而生成与各自主题相对应的总结。

本发明新闻事件的动态跟踪和总结算法的特点也在于，

所述步骤2是按下步骤进行：

步骤2.1、利用分词工具对初始返回新闻列表X中的新闻文档进行分词和词性标注，并选取名词词性的词语构成词语集合W＝{w₁,w₂,…,w_r,…,w_R}，w_r表示在所述词语集合W中第r个名词词性的词语，1≤r≤R；

利用式(1)获得任一词语w_r的文档频率DF_r，从而获得文档频率集合DF＝{DF₁,DF₂,…,DF_r,…,DF_R}；

{DF}_{r} = Σ_{i = 1}^{U} 1 {w_{r} &Element; x_{i}} - - - (1)

式(1)中，若第r个名词词性的词语w_r属于新闻文档x_i，则1{w_r∈x_i}＝1，否则为0；

步骤2.2、将所述词语集合W中的每个词语分别作为节点并对所述返回新闻列表X进行扫描，若在所述词语集合W中存在任意两个节点w_α和w_β同时出现在一个新闻文档中，则连接节点w_α和w_β获得邻边e_α,β，令所述邻边e_α,β的权重为初始化权重所述权重的值为所述节点w_α和w_β在所述初始返回新闻列表X中不同新闻文档中出现的次数；

步骤2.3、删除文档频率DF_r小于阈值node_min_df的节点以及权重小于阈值edge_min_df的邻边；

步骤2.4、利用式(2)和式(3)分别获得邻边e_α,β的条件随机概率p(k_α|k_β)和p(k_β|k_α)：

p (k_{α} | k_{β}) = \frac{{DF}_{e_{α, β}}}{{DF}_{β}} - - - (2)

p (k_{β} | k_{α}) = \frac{{DF}_{e_{α, β}}}{{DF}_{α}} - - - (3)

式(2)中，条件随机概率p(k_α|k_β)表示在节点w_β出现在任意新闻文档中时，节点w_α同时出现的条件概率；条件随机概率p(k_β|k_α)表示在节点w_α出现在任意新闻文档中时，节点w_β同时出现的条件概率；若所述条件随机概率p(k_α|k_β)和p(k_β|k_α)均小于阈值edge_min_prob，则删除所述邻边e_α,β；从而构建词共现图G。

所述步骤3是按下步骤进行：

步骤3.1、利用式(4)获得所述词共现图G中邻边e_α,β的介数B_e，从而获得词共现图G中所有邻边的介数；

B_{e} = \underset{ω &NotEqual; v}{Σ} \frac{C_{e} (ω, v)}{C (ω, v)} - - - (4)

式(4)中，介数B_e表示所述词共现图G中任意两个节点w_ω和w_ν的最短路径中经过所述邻边e_α,β的最短路径的次数的比重；C_e(ω,ν)表示所述词共现图G中任意两个节点w_ω和w_ν之间的最短路径中经过邻边e_α,β的次数；C(ω,ν)表示所述词共现图G中任意两个节点w_ω和w_ν间的最短路径的总数目；

步骤3.2、从所述词共现图G中所有邻边的介数中找到最大介数所对应的邻边，若最大介数小于阈值B_max，则跳到步骤3.3执行，否则，删除所述最大介数所对应的邻边，并跳到步骤3.1执行；

步骤3.3、由通过邻边连接的节点或单独的节点分别构成一个主题，从而形成主题集合Q＝{Q₁,Q₂,…,Q_η,…,Q_y}，Q_η表示在所述主题集合Q中第η个主题，1≤η≤y，y表示所述主题的个数；第η个主题Q_η中所包含的词语为{q₁,q₂,…,q_f…,q_l}，记为Q_η＝{q₁,q₂,…,q_f…,q_l}；q_f表示所述第η个主题Q_η中第f个词语，1≤f≤l，l表示所述第η个主题Q_η中词语的个数。

所述步骤4是按下步骤进行：

步骤4.1、将第i个新闻文档x_i所对应的发布时间t_i作为所述第i个新闻文档x_i的初始参考时间，将所述第i个新闻文档x_i中包含时间信息的句子提取出来，从而获得初始返回新闻列表X中所有新闻文档所包含时间信息的句子构成的句子集合S＝{s₁,s₂,…,s_φ,…,s_N}及对应的发生时间序列T_s＝{t_s1,t_s2,…,t_sφ…,t_sN}；N表示句子集合S中句子的数目；t_sφ表示在所述发生时间序列T_s中与第φ个句子s_φ所对应的发生时间；

步骤4.2、提取所述句子集合S和主题集合Q中所有不同的词语，获得词语特征序列W_g＝{w₁,w₂,…,w_h,…,w_g}；w_h表示词语特征序列中第h个词语，1≤h≤g；

利用式(5)获得所述词语特征序列W_g中任意个词语w_h在所在句子或主题中的文档与反文档频率tf-isf(w_h)，从而利用所述文档与反文档频率表示所述句子集合S和主题集合Q中的每个句子和每个主题；

tf - isf (w_{h}) = {tf}_{w_{h}} \times \log \frac{N}{n_{h}} - - - (5)

式(5)中，表示词语w_h在所在的句子或主题中出现的次数，n_h表示在所述句子集合S和主题集合Q中出现词语w_h的次数；若每个句子或每个主题中不包含第h个词语w_h，则tf-isf(w_h)＝0；

步骤4.3、利用式(6)所示的余弦相似度计算方法分别获得第φ个句子s_φ和第η个主题Q_η的相似度cosine(s_φ,Q_η)，从而获得每个句子与每个主题的相似度，若相似度cosine(s_φ,Q_η)大于指定阈值min_sis，则第φ个句子s_φ属于第η个主题Q_η：

\cos ine (s_{φ}, Q_{η}) = \frac{Σ_{h = 1}^{g} s_{φ}^{h} Q_{η}^{h}}{\sqrt{Σ_{h = 1}^{g} {(s_{φ}^{h})}^{2}} \times \sqrt{Σ_{h = 1}^{g} {(Q_{η}^{h})}^{2}}} - - - (6)

式(6)中，第φ个句子s_φ用所述的文档与反文档频率表示为表示词语特征序列W_g中第h个词语w_h在第φ个句子s_φ中的文档与反文档频率为第η个主题Q_η用所述的文档与反文档频率表示为表示词语特征序列W_g中第h个词语w_h在第η个主题Q_η中的文档与反文档频率为

步骤4.4、根据所述发生时间序列T_s，将第η个主题Q_η中具有相同发生时间的句子进行聚合，并按照发生时间的先后进行排序，从而获得句子组序列{F₁,F₂,…,F_m,…,F_M}及对应的发生时间标签{t_s1,t_s2,…,t_sm,…,t_sM}；F_m表示在发生时间标签t_sm下的第m组句子；1≤m≤M；从而获得每个主题中各自的句子组序列及对应的发生时间标签。

所述步骤5是按下步骤进行：

步骤5.1、初始化m＝1；

步骤5.2、利用式(7)获得与所述第η个主题Q_η相对应的句子组集合{F₁,F₂,…,F_m,…,F_M}中第m组句子F_m所需提取的句子数目num(F_m)；

num (F_{m}) = \frac{| F_{m} | \times M}{Σ_{m = 1}^{M} | F_{m} |} - - - (7)

式(7)中，|F_m|表示所述第m组句子F_m中包含句子的总个数；

步骤5.3、判断num(F_m)≥1是否成立，若成立，则执行步骤5.4；否则，将m+1赋值给m，并执行步骤5.2，直到m＝M为止；

步骤5.4、提取所述第m组句子F_m与所述第η个主题Q_η中所有不同的词语，获得词语特征序列W_m＝{w₁,w₂,…,w_ε,…,w_b}；w_ε表示词语特征序列W_m中第ε个词语，1≤ε≤b；

利用式(8)和式(9)分别获得所述词语特征序列W_m中任意个词语w_ε在所在句子s_θ和主题Q_η中的文档与反文档频率和从而利用所述文档与反文档频率表示所述第m组句子F_m中的每个句子和所述第η个主题Q_η；

tf - isf (w_{s_{θ}}^{ϵ}) = {tf}_{s_{θ}}^{ϵ} \times \log \frac{N}{n_{ϵ}} - - - (8)

tf - isf (w_{Q_{η}}^{ϵ}) = {tf}_{Q_{η}}^{ϵ} \times \log \frac{N}{n_{ϵ}} - - - (9)

式(8)和式(9)中，表示词语w_ε在句子s_θ中出现的次数，表示词语w_ε在主题Q_η中出现的次数，n_ε表示在所述第m组句子F_m中出现词语w_ε的次数；若任意句子或任意主题中不包含第ε个词语w_ε，则相应的句子或主题的文档与反文档频率为0；

步骤5.5、利用式(10)所示的余弦相似度计算方法获得第m组句子F_m中任意两个句子s_θ和s_ρ之间的相似度值；利用式(11)所示的余弦相似度计算方法获得第m组句子F_m中任意一个句子s_θ和所述第η个主题Q_η之间的相似度值；

\cos ine (s_{θ}, s_{ρ}) = \frac{Σ_{ϵ = 1}^{b} s_{θ}^{ϵ} s_{ρ}^{ϵ}}{\sqrt{Σ_{ϵ = 1}^{b} {(s_{θ}^{ϵ})}^{2}} \times \sqrt{Σ_{ϵ = 1}^{b} {(s_{ρ}^{ϵ})}^{2}}} - - - (10)

\cos ine (s_{θ}, Q_{η}) = \frac{Σ_{ϵ = 1}^{b} s_{θ}^{ϵ} Q_{η}^{ϵ}}{\sqrt{Σ_{ϵ = 1}^{b} {(s_{θ}^{ϵ})}^{2}} \times \sqrt{Σ_{ϵ = 1}^{b} {(Q_{η}^{ϵ})}^{2}}} - - - (11)

式(10)和式(11)中，第θ个句子s_θ用所述的文档与反文档频率表示为表示词语特征序列W_m中第ε个词语w_ε在第m组句子F_m中句子s_φ中的文档与反文档频率为第ρ个句子s_ρ用所述的文档与反文档频率表示为表示词语特征序列W_m中第ε个词语w_ε在第m组句子F_m中句子s_ρ中的文档与反文档频率第η个主题Q_η用所述的文档与反文档频率表示为表示词语特征序列W_m中第ε个词语w_ε在主题Q_η中的文档与反文档频率

步骤5.6、定义方阵A表示第m组句子F_m中任意两个句子s_θ和s_ρ之间相似度，令方阵A中的任意元素为A_θ,ρ＝cosine(s_θ,s_ρ)，令A_θ,θ＝0；1≤θ，ρ≤|F_m|；

定义矩阵H，令方阵H中的任意元素为H_c,θ＝cosine(s_θ,Q_η)，1≤c≤|F_m|，并对所述方阵A和方阵B进行归一化处理，使得每一行元素之和为1；定义所述第m组句子F_m中作为摘要的句子数目E＝0；

步骤5.7、迭代执行，获取向量V^*；

步骤5.7.1、定义向量V，所述向量V的维数为所述第m组句子F_m中包含句子的总个数|F_m|；初始化V中每个元素的值为1/|F_m|；

步骤5.7.2、执行V^*＝[dA+(1-d)B]^TV；d为自定义的调节因子；

步骤5.7.3、判断||V^*-V||是否小于阈值min_iter，若小于则迭代终止；否则将V^*赋值给V，并执行步骤5.7.2；

步骤5.8、根据所述向量V^*中最大元素值所对应的维数ψ，在第m组句子F_m中选择第ψ个句子s_ψ作为摘要并移入所述摘要集合中，删除F_m中的第ψ个句子s_ψ，并将E+1赋值给E；1≤ψ≤|F_m|；

步骤5.9、判断E是否等于num(F_m)；若E等于num(F_m)，则执行步骤5.10，否则，执行步骤5.11；

步骤5.10、返回所述摘要集合从而生成了第η个主题Q_η在发生时间标签t_sm下的总结从而获得所述第η个主题Q_η对应的总结

{Sum}_{Q_{η}} = {{Sum}_{Q_{η}}^{F_{1}}, {Sum}_{Q_{η}}^{F_{2}}, . . ., {Sum}_{Q_{η}}^{F_{m}}, . . ., {Sum}_{Q_{η}}^{F_{M}}};

从而获得所述主题集合Q＝{Q₁,Q₂,…,Q_η,…,Q_y}中每个主题所对应的总结

{Sum}_{Q} = {{Sum}_{Q_{1}}, {Sum}_{Q_{1}}, . . ., {Sum}_{Q_{η}}, . . ., {Sum}_{Q_{y}}};

表示所述主题Q中第η个主题Q_η相对应的总结；

步骤5.11、利用式(12)对第m组句子F_m中的每个句子进行冗余惩罚后返回步骤5.8；

V_{χ}^{*} = V_{χ}^{*} - A_{χ,ψ} \times {V^{*}}_{ψ} - - - (12)

式(12)中，表示向量V^*在χ维对应的值，χ≤|F_m|，V^* _ψ表示向量V^*在ψ维对应的值，χ≤|F_m|，ψ≤|F_m|；A_χ,ψ表示所述方阵A的第χ行第ψ列的值。

与已有技术相比，本发明有益效果体现在：

1、本发明利用词语之间的共现关系，构建了词共现图；采用社区发现算法从词共现图中获取多个主题，社区发现算法借鉴了社交网络中社区发现的思想，对于查询相关的新闻文档形成描述特定主题的社区(词语集合)；然后对各个主题进行动态跟踪和总结，不仅能够体现摘要的连续性，而且能从多个主题对新闻的发展进行更全面和针对性的跟踪和总结；

2、本发明利用不同文档之间描述同一主题会倾向于采用相同的一组词语的思想，根据词语在文档中的共现关系，再删除出现频率低和共现频率低的词语，从而构建了词共现图；利用词共现图能够有效的分析词语之间紧密关系，抓住词语之间的语义关系，从而克服了传统方法中查询语句包含信息少的缺陷；

3、本发明从词共现图提取主题的过程中，根据词共现图中描述相同主题的词语之间联系紧密，描述不同主题的词语之间联系稀松的特征，从而利用社交网络分析中常用的社区发现算法从词共现图中进行主题发现，以克服现有技术中只针对查询语句进行跟踪和总结的缺点；

4、本发明在针对主题提取摘要过程中，先从与查询相关的新闻文档中获取每个主题的带时间标签的句子组集合；根据时间标签中时间发生的先后顺序，生成每个时间标签下的摘要；在生成摘要的过程中，不仅考虑选取的摘要内容和主题的相关性、选取的摘要是句子组中核心的内容，还考虑了摘要内容的多样性，从而能够更为准确的跟踪和总结该主题。

具体实施方式

本实施例中，一种新闻事件的动态跟踪和总结算法是按如下步骤进行：

步骤1、在搜索引擎上，例如，搜索引擎google新闻引擎下的“http://news.google.co.in/”，输入与新闻事件相关的查询语句Q进行检索，一个查询语句是表示新闻事件的查询语句，如，查询语句“MH370”，并返回若干个新闻文档，利用爬虫工具从返回的若干个新闻文档中爬取排序为前U个新闻文档及对应的发布时间，分别构成初始返回新闻列表X＝{x₁,x₂,…,x_i,…,x_U}及对应的发布时间序列T＝{t₁,t₂,…,t_i,…,t_U}，x_i表示初始返回新闻列表X中第i个新闻文档，t_i表示发布时间序列T中与第i个新闻文档x_i所对应的发布时间；1≤i≤U；本实施例中，U取值200，即爬取前200个新闻文档及对应的发布时间；

步骤2、构建词共现图G：词共现分析是自然语言处理技术在信息检索中的成功应用之一，核心思想是词之间的共现频率在某种程度上反映了词项之间语义关联；词共现的方法大都基于这样的一个假设，在语料集中，如果两个词项频繁地出现在同一篇文档中，就可以认为这两个词项的组合较为稳定，在语义上相互关联，共现的频率反映词项之间的语义紧密程度；而不同文档之间描述同主题会倾向于采用相同的一组关键词，词之间的联系会更紧密；描述不同主题的词之间共现关系较弱，共同出现的次数较低；因此，通过文档中一个个词项之间的共现情况，我们可以逆向推得哪些词是主题相关的(即用来描述同一主题)，从而达到主题发现的目的；

步骤2.1、利用分词工具，如Part-Of-Speech Tagger，对初始返回新闻列表X中的新闻文档进行分词和词性标注，并选取名词词性的词语，去除名词里的停用词，从而构成词语集合W＝{w₁,w₂,…,w_r,…,w_R}，w_r表示词语集合W中第r个名词词性的词语，1≤r≤R；

{DF}_{r} = Σ_{i = 1}^{U} 1 {w_{r} &Element; x_{i}} - - - (1)

步骤2.2、将词语集合W中的每个词语分别作为节点并对返回新闻列表X进行扫描，若词语集合W中存在任意两个节点w_α和w_β同时出现在一个新闻文档中，则连接节点w_α和w_β获得邻边e_α,β，令邻边e_α,β的权重为初始化权重权重的值为节点w_α和w_β在初始返回新闻列表X中不同新闻文档中出现的次数；

在词共现关系图建立好后，为了降低图的规模，剔除噪音信息等目的，需要对生成的图进行处理，剔除一些边；具体如步骤2.3和步骤2.4；

步骤2.3、删除文档频率DF_r小于阈值node_min_df的节点以及权重小于阈值edge_min_df的邻边；阈值node_min_df和edge_min_df的取值范围为(1,U)；本实施例中，node_min_df取值为35，edge_min_df取值为25；

p (k_{α} | k_{β}) = \frac{{DF}_{e_{α, β}}}{{DF}_{β}} - - - (2)

p (k_{β} | k_{α}) = \frac{{DF}_{e_{α, β}}}{{DF}_{α}} - - - (3)

式(2)中，条件随机概率p(k_α|k_β)表示在节点w_β出现在任意新闻文档中时，节点w_α同时出现的条件概率；条件随机概率p(k_β|k_α)表示在节点w_α出现在任意新闻文档中时，节点w_β同时出现的条件概率；若条件随机概率p(k_α|k_β)和p(k_β|k_α)均小于阈值edge_min_prob，则删除邻边e_α,β；从而构建词共现图G；阈值edge_min_prob的取值范围为(0,1)；本实施例中，阈值edge_min_prob取值为0.15；

步骤3、采用社区发现算法从词共现图G中提取与新闻事件相关的多个主题Q：在词共现图G中，描述相同主题的词项联系紧密，而描述不同话题的词项之间联系稀松，由此可以借鉴社交网络中社区发现的思想，对该关系网络进行划分，形成描述不同主题的“社区”—表示特定主题的词集合；

主题发现可以使用介数(Betweenness)来发现两个社区之间连接的边。社区发现算法基于这样的直观认识，对于连接两个社区之间的边，在两个不同社区中的节点计算最短路径时，必然通过该边，则对于这一类边，其介数中心度值较高；因此通过计算介数中心度，可以发现横跨两个社区之间的边；通过移除介数中心度值较高的边，则相当于切断了与该边相关的两个社区之间的通路，从而实现了社区发现即主题发现的任务；

步骤3.1、利用式(4)获得词共现图G中邻边e_α,β的介数B_e，从而获得词共现图G中所有邻边的介数：

B_{e} = \underset{ω &NotEqual; v}{Σ} \frac{C_{e} (ω, v)}{C (ω, v)} - - - (4)

式(4)中，介数B_e表示词共现图G中任意两个节点w_ω和w_ν的最短路径中经过邻边e_α,β的最短路径的次数的比重；C_e(ω,ν)表示词共现图G中任意两个节点w_ω和w_ν之间的最短路径中经过邻边e_α,β的次数；C(ω,ν)表示词共现图G中任意两个节点w_ω和w_ν间的最短路径的总数目；任意两个节点之间最短路径选用Dijkstra算法，该算法可以参考Cormen等人编写的书“Introduction to Algorithms”的第二版，出版时间2001年；

步骤3.2、从词共现图G中所有邻边的介数中找到最大介数所对应的邻边，若最大介数小于阈值B_max，则跳到步骤3.3执行，否则，删除最大介数所对应的邻边，并跳到步骤3.1执行；阈值B_max的取值范围为(1,200)；本实施例中，阈值B_max取值为50，

步骤3.3、由通过邻边连接的节点或单独的节点分别构成一个主题，从而形成主题集合Q＝{Q₁,Q₂,…,Q_η,…,Q_y}，Q_η表示主题集合Q中第η个主题，1≤η≤y，y表示主题的个数；第η个主题Q_η中所包含的词语为{q₁,q₂,…,q_f…,q_l}，记为Q_η＝{q₁,q₂,…,q_f…,q_l}；q_f表示第η个主题Q_η中第f个词语，1≤f≤l，l表示第η个主题Q_η中词语的个数；

步骤4、从初始返回新闻列表X及对应的发布时间序列T中选取主题集合Q中每个主题相对应的句子组序列及对应的发生时间标签；

步骤4.1、将第i个新闻文档x_i所对应的发布时间t_i作为第i个新闻文档x_i的初始参考时间，采用分割工具，如openNLP工具将新闻文档分成句子，将第i个新闻文档x_i中包含时间信息的句子利用基于英国谢菲尔特德大学开发的GATE系统提取出来并转变成统一格式(月月/日日/年年年年)，从而获得初始返回新闻列表X中所有新闻文档所包含时间信息的句子构成的句子集合S＝{s₁,s₂,…,s_φ,…,s_N}及对应的发生时间序列T_s＝{t_s1,t_s2,…,t_sφ…,t_sN}；N表示句子集合S中句子的数目；t_sφ表示发生时间序列T_s中与第φ个句子s_φ所对应的发生时间；

步骤4.2、提取句子集合S和主题集合Q中所有不同的词语，获得词语特征序列W_g＝{w₁,w₂,…,w_h,…,w_g}；w_h表示词语特征序列中第h个词语，1≤h≤g；

利用式(5)获得词语特征序列W_g中任意个词语w_h在所在句子或主题中的文档与反文档频率tf-isf(w_h)，从而利用文档与反文档频率表示句子集合S和主题集合Q中的每个句子和每个主题；

tf - isf (w_{h}) = {tf}_{w_{h}} \times \log \frac{N}{n_{h}} - - - (5)

式(5)中，表示词语w_h在所在的句子或主题中出现的次数，n_h表示句子集合S和主题集合Q中出现词语w_h的次数；若每个句子或每个主题中不包含第h个词语w_h，则tf-isf(w_h)＝0；

步骤4.3、利用式(6)所示的余弦相似度计算方法分别获得第φ个句子s_φ和第η个主题Q_η的相似度cosine(s_φ,Q_η)，从而获得每个句子与每个主题的相似度，若相似度cosine(s_φ,Q_η)大于指定阈值min_sis，则第φ个句子s_φ属于第η个主题Q_η；阈值min_sis的取值范围为(0,1)，本实施例中，阈值min_sis的取值为0.2；

\cos ine (s_{φ}, Q_{η}) = \frac{Σ_{h = 1}^{g} s_{φ}^{h} Q_{η}^{h}}{\sqrt{Σ_{h = 1}^{g} {(s_{φ}^{h})}^{2}} \times \sqrt{Σ_{h = 1}^{g} {(Q_{η}^{h})}^{2}}} - - - (6)

式(6)中，第φ个句子s_φ用文档与反文档频率表示为表示词语特征序列W_g中第h个词语w_h在第φ个句子s_φ中的文档与反文档频率即第η个主题Q_η用文档与反文档频率表示为表示词语特征序列W_g中第h个词语w_h在第η个主题Q_η中的文档与反文档频率即

步骤4.4、根据发生时间序列T_s，将第η个主题Q_η中具有相同发生时间的句子进行聚合，并按照发生时间的先后进行排序，从而获得句子组序列{F₁,F₂,…,F_m,…,F_M}及对应的发生时间标签{t_s1,t_s2,…,t_sm,…,t_sM}；F_m表示在发生时间标签t_sm下的第m组句子；第m组句子F_m中至少包含一个句子，1≤m≤M；从而获得每个主题中各自的句子组序列及对应的发生时间标签；

步骤5、对主题集合Q中的每个主题进行处理，按照发生时间的先后顺序，从所对应的句子组序列中获得与各自主题相对应的摘要集合，从而生成与各自主题相对应的总结；下面将针对每个句子组序列分别提取摘要，然后把所有句子组的摘要作为针对新闻事件的摘要；

对主题集合Q＝{Q₁,Q₂,…,Q_η,…,Q_y}中第η个主题Q_η相对应的句子组集合{F₁,F₂,…,F_m,…,F_M}中每组句子依次提取摘要，获得第η个主题Q_η对应的总结

{Sum}_{Q_{η}} = {{Sum}_{Q_{η}}^{F_{1}}, {Sum}_{Q_{η}}^{F_{2}}, . . ., {Sum}_{Q_{η}}^{F_{m}}, . . ., {Sum}_{Q_{η}}^{F_{M}}},

表示第m组句子F_m所提取的摘要；从而获得主题集合Q＝{Q₁,Q₂,…,Q_η,…,Q_y}中每个主题所对应的总结

{Sum}_{Q} = {{Sum}_{Q_{1}}, {Sum}_{Q_{1}}, . . ., {Sum}_{Q_{η}}, . . ., {Sum}_{Q_{y}}};

表示主题Q中第η个主题Q_η相对应的总结；对第m组句子F_m进行提取摘要，不仅要考虑选择的句子代表第m组句子F_m中核心的句子，还要考虑与第η个主题Q_η有很高的相关度，最后还要考虑选择的句子自己本身不要有太高的冗余度；采用基于图的排序算法对句子集合中的句子进行打分，该方法利用了page‐rank中的随机游走的思想，每个句子的重要性有其相似的邻居的数量和邻居的重要性相关；

步骤5.1、初始化m＝1；

num (F_{m}) = \frac{| F_{m} | \times M}{Σ_{m = 1}^{M} | F_{m} |} - - - (7)

式(7)中，|F_m|表示所述第m组句子F_m中包含句子的总个数；可以看出，每个句子组集合选取的句子数目和每个句子组集合的句子数目占句子组集合总数目的比重有关，通过式(7)可以达到只对新闻文档中发生时间报道较多的句子感兴趣；

步骤5.3、判断num(F_m)≥1是否成立，若成立，则执行步骤5.4；否则，将m+1赋值给m，并执行步骤5.2，直到m＝M为止；num(F_m)小于1表示该发生时间t_sm下的句子数目占句子组总数目的比重太小，从而不对其提取摘要；

步骤5.4、提取第m组句子F_m与第η个主题Q_η中所有不同的词语，获得词语特征序列W_m＝{w₁,w₂,…,w_ε,…,w_b}；w_ε表示词语特征序列W_m中第ε个词语，1≤ε≤b；

利用式(8)和式(9)分别获得所述词语特征序列W_m中任意个词语w_ε在所在句子s_θ和主题Q_η中的文档与反文档频率和从而利用所述文档与反文档频率表示所述第m组句子F_m中的每个句子和第η个主题Q_η；

tf - isf (w_{s_{θ}}^{ϵ}) = {tf}_{s_{θ}}^{ϵ} \times \log \frac{N}{n_{ϵ}} - - - (8)

tf - isf (w_{Q_{η}}^{ϵ}) = {tf}_{Q_{η}}^{ϵ} \times \log \frac{N}{n_{ϵ}} - - - (9)

式(8)和式(9)中，表示词语w_ε在句子s_θ中出现的次数，表示词语w_ε在主题Q_η中出现的次数，n_ε表示在所述第m组句子F_m中出现词语w_ε的次数；若任意句子或任意主题中不包含第ε个词语w_ε，则相应的句子或主题的文档与反文档频率为0，即若句子s_θ不包含第ε个词语w_ε，则若主题Q_η中不包含第ε个词语w_ε，

\cos ine (s_{θ}, s_{ρ}) = \frac{Σ_{ϵ = 1}^{b} s_{θ}^{ϵ} s_{ρ}^{ϵ}}{\sqrt{Σ_{ϵ = 1}^{b} {(s_{θ}^{ϵ})}^{2}} \times \sqrt{Σ_{ϵ = 1}^{b} {(s_{ρ}^{ϵ})}^{2}}} - - - (10)

\cos ine (s_{θ}, Q_{η}) = \frac{Σ_{ϵ = 1}^{b} s_{θ}^{ϵ} Q_{η}^{ϵ}}{\sqrt{Σ_{ϵ = 1}^{b} {(s_{θ}^{ϵ})}^{2}} \times \sqrt{Σ_{ϵ = 1}^{b} {(Q_{η}^{ϵ})}^{2}}} - - - (11)

式(10)和式(11)中，第θ个句子s_θ用文档与反文档频率表示为表示词语特征序列W_m中第ε个词语w_ε在第m组句子F_m中句子s_φ中的文档与反文档频率为即第ρ个句子s_ρ用文档与反文档频率表示为表示词语特征序列W_m中第ε个词语w_ε在第m组句子F_m中句子s_ρ中的文档与反文档频率即第η个主题Q_η用文档与反文档频率表示为表示词语特征序列W_m中第ε个词语w_ε在主题Q_η中的文档与反文档频率即

tf - isf (w_{Q_{η}}^{ϵ});

定义矩阵H，令方阵H中的任意元素为H_c,θ＝cosine(s_θ,Q_η)，1≤c≤|F_m|，并对方阵A和方阵B进行归一化处理，使得每一行元素之和为1；定义第m组句子F_m中作为摘要的句子数目E＝0；

步骤5.7、迭代执行，获取向量V^*；

步骤5.7.1、定义向量V，向量V的维数为第m组句子F_m中包含句子的总个数|F_m|；初始化V中每个元素的值为1/|F_m|；

步骤5.7.2、执行V^*＝[dA+(1-d)B]^TV；d为自定义的调节因子，其取值范围为(0,1)，调节因子d的取值高表示选择句子组中的核心内容占主要因素，取值低表示与主题相关占主要因素；本实施例中，调节因子d取值为0.3；

步骤5.7.3、判断||V^*-V||是否小于阈值min_iter，若小于则迭代终止；否则将V^*赋值给V，并执行步骤5.7.2；阈值min_iter取值范围为(0,0.01)；本实施例中，min_iter取值为0.0001；

步骤5.8、根据向量V^*中最大元素值所对应的维数ψ，在第m组句子F_m中选择第ψ个句子s_ψ作为摘要并移入所述摘要集合中，删除F_m中的第ψ个句子s_ψ，并将E+1赋值给E；1≤ψ≤|F_m|；

步骤5.9、判断E是否等于num(F_m)；若E等于num(F_m)，则执行步骤5.10，否则，说明摘要数目还没达到num(F_m)，执行步骤5.11；

{Sum}_{Q_{η}} = {{Sum}_{Q_{η}}^{F_{1}}, {Sum}_{Q_{η}}^{F_{2}}, . . ., {Sum}_{Q_{η}}^{F_{m}}, . . ., {Sum}_{Q_{η}}^{F_{M}}};

{Sum}_{Q} = {{Sum}_{Q_{1}}, {Sum}_{Q_{1}}, . . ., {Sum}_{Q_{η}}, . . ., {Sum}_{Q_{y}}},

即对新闻事件的动态跟踪和总结的结果；表示所述主题Q中第η个主题Q_η相对应的总结；

步骤5.11、利用式(12)对第m组句子F_m中的每个句子进行冗余惩罚后，返回步骤5.8；因为不同句子可能包含相似的内容，为了防止摘要的冗余，增加摘要中内容的覆盖度，采用了贪心的算法对句子进行惩罚；

V_{χ}^{*} = V_{χ}^{*} - A_{χ,ψ} \times {V^{*}}_{ψ} - - - (12)

式(12)中，表示向量V^*在χ维对应的值，χ≤|F_m|，V^*ψ表示向量V^*在ψ维对应的值，χ≤|F_m|，ψ≤|F_m|；A_χ,ψ表示所述方阵A的第χ行第ψ列的值。

Claims

1.一种新闻事件的动态跟踪和总结算法，其特征是按如下步骤进行：

步骤2、构建词共现图G；

2.根据权利要求1所述的新闻事件的动态跟踪和总结算法，其特征是，所述步骤2是按下步骤进行：

{DF}_{r} = Σ_{i = 1}^{U} 1 {w_{r} &Element; x_{i}} - - - (1)

p (k_{α} | k_{β}) = \frac{{DF}_{e_{α, β}}}{{DF}_{β}} - - - (2)

p (k_{β} | k_{α}) = \frac{{DF}_{e_{α, β}}}{{DF}_{α}} - - - (3)

3.根据权利要求1所述的新闻事件的动态跟踪和总结算法，其特征是，所述步骤3是按下步骤进行：

B_{e} = \underset{ω &NotEqual; v}{Σ} \frac{C_{e} (ω, v)}{C (ω, v)} - - - (4)

4.根据权利要求1所述的新闻事件的动态跟踪和总结算法，其特征是，所述步骤4是按下步骤进行：

tf - isf (w_{h}) = {tf}_{w_{h}} \times \log \frac{N}{n_{h}} - - - (5)

\cos ine (s_{φ}, Q_{η}) = \frac{Σ_{h = 1}^{g} s_{φ}^{h} Q_{η}^{h}}{\sqrt{Σ_{h = 1}^{g} {(s_{φ}^{h})}^{2}} \times \sqrt{Σ_{h = 1}^{g} {(Q_{η}^{h})}^{2}}} - - - (6)

5.根据权利要求1所述的新闻事件的动态跟踪和总结算法，其特征是，所述步骤5是按下步骤进行：

步骤5.1、初始化m＝1；

num (F_{m}) = \frac{| F_{m} | \times M}{Σ_{m = 1}^{M} | F_{m} |} - - - (7)

式(7)中，|F_m|表示所述第m组句子F_m中包含句子的总个数；

tf - isf (w_{s_{θ}}^{ϵ}) = {tf}_{s_{θ}}^{ϵ} \times \log \frac{N}{n_{ϵ}} - - - (8)

tf - isf (w_{Q_{η}}^{ϵ}) = {tf}_{Q_{η}}^{ϵ} \times \log \frac{N}{n_{ϵ}} - - - (9)

\cos ine (s_{θ}, s_{ρ}) = \frac{Σ_{ϵ = 1}^{b} s_{θ}^{ϵ} s_{ρ}^{ϵ}}{\sqrt{Σ_{ϵ = 1}^{b} {(s_{θ}^{ϵ})}^{2}} \times \sqrt{Σ_{ϵ = 1}^{b} {(s_{ρ}^{ϵ})}^{2}}} - - - (10)

\cos ine (s_{θ}, Q_{η}) = \frac{Σ_{ϵ = 1}^{b} s_{θ}^{ϵ} Q_{η}^{ϵ}}{\sqrt{Σ_{ϵ = 1}^{b} {(s_{θ}^{ϵ})}^{2}} \times \sqrt{Σ_{ϵ = 1}^{b} {(Q_{η}^{ϵ})}^{2}}} - - - (11)

步骤5.7、迭代执行，获取向量V^*；

步骤5.7.2、执行V^*＝[dA+(1-d)B]^TV；d为自定义的调节因子；

{Sum}_{Q_{η}} = {{Sum}_{Q_{η}}^{F_{1}}, {Sum}_{Q_{η}}^{F_{2}}, . . ., {Sum}_{Q_{η}}^{F_{m}}, . . ., {Sum}_{Q_{η}}^{F_{M}}};

{Sum}_{Q} = {{Sum}_{Q_{1}}, {Sum}_{Q_{1}}, . . ., {Sum}_{Q_{η}}, . . ., {Sum}_{Q_{y}}};

表示所述主题Q中第η个主题Q_η相对应的总结；

V_{χ}^{*} = V_{χ}^{*} - A_{χ,ψ} \times {V^{*}}_{ψ} - - - (12)