CN104182504A - 一种新闻事件的动态跟踪和总结算法 - Google Patents
一种新闻事件的动态跟踪和总结算法 Download PDFInfo
- Publication number
- CN104182504A CN104182504A CN201410406784.8A CN201410406784A CN104182504A CN 104182504 A CN104182504 A CN 104182504A CN 201410406784 A CN201410406784 A CN 201410406784A CN 104182504 A CN104182504 A CN 104182504A
- Authority
- CN
- China
- Prior art keywords
- sentence
- theme
- word
- document
- epsiv
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种新闻事件的动态跟踪和总结算法,其特征是按如下步骤进行:步骤1、输入与新闻事件相关的查询语句进行检索,获取新闻文档及对应的发布时间;步骤2、构建词共现图;步骤3、采用社区发现算法从词共现图中提取与新闻事件相关的多个主题;步骤4、选取主题集合中每个主题相对应的句子组序列及对应的发生时间标签;步骤5、对主题集合中的每个主题按照发生时间,从所对应的句子组序列中获得与各自主题相对应的摘要集合,从而生成与各自主题相对应的总结。本发明在能够充分利用所查到的新闻文档中保留多个新闻主题,并对各个主题进行动态跟踪和总结,从而能让用户更全面性和针对性的了解所关心的新闻摘要。
Description
技术领域
本发明属于多文档摘要领域,具体来说是一种新闻事件的动态跟踪的动态跟踪和总结方法。
背景技术
随着互联网技术的快速发展,人们的生活也在不断地发生着变化。人们利用互联网获取更多信息的同时,也因互联网信息量的巨大,受每天阅读许多重复信息的困扰,导致许多不必要的时间被浪费。针对互联网上新闻事件的频繁发生,用户希望能获得新闻事件发展的来龙去脉的总结,而不是与相关的许多新闻链接。针对新闻事件,依据发生时间,顺序生成该新闻的摘要技术,被称之为新闻事件的动态跟踪。如何从互联网上大量的新闻数据中,依据相关的新闻文档生成新闻事件的总结,以便了解事件的发展过程成为现在的研究趋势。
现有的一些新闻事件的动态跟踪和总结方法,只依赖于查询语句和新闻文档之间的相关性,并没有对查询到的相关新闻文档进行充分挖掘,往往遗漏很多重要信息,或者产生许多冗余重复的信息,从而导致产生的新闻摘要很难概括出或体现出事件的前因后果和发展历程。
发明内容
本发明为了克服现有技术的不足,提出一种新的新闻事件的动态跟踪和总结算法,能够充分利用所查到的新闻文档中保留多个新闻主题,并对各个主题进行动态跟踪和总结,从而能让用户更全面性和针对性的了解所关心的新闻摘要。
本发明为解决技术问题采用如下技术方案:
本发明一种新闻事件的动态跟踪和总结算法的特点是按如下步骤进行:
步骤1、在搜索引擎上,输入与新闻事件相关的查询语句Q进行检索,并返回若干个新闻文档,利用爬虫工具从所述若干个新闻文档中爬取排序为前U个新闻文档及对应的发布时间,分别构成初始返回新闻列表X={x1,x2,…,xi,…,xU}及对应的发布时间序列T={t1,t2,…,ti,…,tU},xi表示在所述初始返回新闻列表X中第i个新闻文档,ti表示在所述发布时间序列T中与第i个新闻文档xi所对应的发布时间;1≤i≤U;
步骤2、构建词共现图G;
步骤3、采用社区发现算法从所述词共现图G中提取与新闻事件相关的多个主题Q;
步骤4、从所述初始返回新闻列表X及对应的发布时间序列T中选取所述主题集合Q中每个主题相对应的句子组序列及对应的发生时间标签;
步骤5、对所述主题集合Q中的每个主题进行处理,按照发生时间,从所对应的句子组序列中获得与各自主题相对应的摘要集合,从而生成与各自主题相对应的总结。
本发明新闻事件的动态跟踪和总结算法的特点也在于,
所述步骤2是按下步骤进行:
步骤2.1、利用分词工具对初始返回新闻列表X中的新闻文档进行分词和词性标注,并选取名词词性的词语构成词语集合W={w1,w2,…,wr,…,wR},wr表示在所述词语集合W中第r个名词词性的词语,1≤r≤R;
利用式(1)获得任一词语wr的文档频率DFr,从而获得文档频率集合DF={DF1,DF2,…,DFr,…,DFR};
式(1)中,若第r个名词词性的词语wr属于新闻文档xi,则1{wr∈xi}=1,否则为0;
步骤2.2、将所述词语集合W中的每个词语分别作为节点并对所述返回新闻列表X进行扫描,若在所述词语集合W中存在任意两个节点wα和wβ同时出现在一个新闻文档中,则连接节点wα和wβ获得邻边eα,β,令所述邻边eα,β的权重为初始化权重所述权重的值为所述节点wα和wβ在所述初始返回新闻列表X中不同新闻文档中出现的次数;
步骤2.3、删除文档频率DFr小于阈值node_min_df的节点以及权重小于阈值edge_min_df的邻边;
步骤2.4、利用式(2)和式(3)分别获得邻边eα,β的条件随机概率p(kα|kβ)和p(kβ|kα):
式(2)中,条件随机概率p(kα|kβ)表示在节点wβ出现在任意新闻文档中时,节点wα同时出现的条件概率;条件随机概率p(kβ|kα)表示在节点wα出现在任意新闻文档中时,节点wβ同时出现的条件概率;若所述条件随机概率p(kα|kβ)和p(kβ|kα)均小于阈值edge_min_prob,则删除所述邻边eα,β;从而构建词共现图G。
所述步骤3是按下步骤进行:
步骤3.1、利用式(4)获得所述词共现图G中邻边eα,β的介数Be,从而获得词共现图G中所有邻边的介数;
式(4)中,介数Be表示所述词共现图G中任意两个节点wω和wν的最短路径中经过所述邻边eα,β的最短路径的次数的比重;Ce(ω,ν)表示所述词共现图G中任意两个节点wω和wν之间的最短路径中经过邻边eα,β的次数;C(ω,ν)表示所述词共现图G中任意两个节点wω和wν间的最短路径的总数目;
步骤3.2、从所述词共现图G中所有邻边的介数中找到最大介数所对应的邻边,若最大介数小于阈值B_max,则跳到步骤3.3执行,否则,删除所述最大介数所对应的邻边,并跳到步骤3.1执行;
步骤3.3、由通过邻边连接的节点或单独的节点分别构成一个主题,从而形成主题集合Q={Q1,Q2,…,Qη,…,Qy},Qη表示在所述主题集合Q中第η个主题,1≤η≤y,y表示所述主题的个数;第η个主题Qη中所包含的词语为{q1,q2,…,qf…,ql},记为Qη={q1,q2,…,qf…,ql};qf表示所述第η个主题Qη中第f个词语,1≤f≤l,l表示所述第η个主题Qη中词语的个数。
所述步骤4是按下步骤进行:
步骤4.1、将第i个新闻文档xi所对应的发布时间ti作为所述第i个新闻文档xi的初始参考时间,将所述第i个新闻文档xi中包含时间信息的句子提取出来,从而获得初始返回新闻列表X中所有新闻文档所包含时间信息的句子构成的句子集合S={s1,s2,…,sφ,…,sN}及对应的发生时间序列Ts={ts1,ts2,…,tsφ…,tsN};N表示句子集合S中句子的数目;tsφ表示在所述发生时间序列Ts中与第φ个句子sφ所对应的发生时间;
步骤4.2、提取所述句子集合S和主题集合Q中所有不同的词语,获得词语特征序列Wg={w1,w2,…,wh,…,wg};wh表示词语特征序列中第h个词语,1≤h≤g;
利用式(5)获得所述词语特征序列Wg中任意个词语wh在所在句子或主题中的文档与反文档频率tf-isf(wh),从而利用所述文档与反文档频率表示所述句子集合S和主题集合Q中的每个句子和每个主题;
式(5)中,表示词语wh在所在的句子或主题中出现的次数,nh表示在所述句子集合S和主题集合Q中出现词语wh的次数;若每个句子或每个主题中不包含第h个词语wh,则tf-isf(wh)=0;
步骤4.3、利用式(6)所示的余弦相似度计算方法分别获得第φ个句子sφ和第η个主题Qη的相似度cosine(sφ,Qη),从而获得每个句子与每个主题的相似度,若相似度cosine(sφ,Qη)大于指定阈值min_sis,则第φ个句子sφ属于第η个主题Qη:
式(6)中,第φ个句子sφ用所述的文档与反文档频率表示为 表示词语特征序列Wg中第h个词语wh在第φ个句子sφ中的文档与反文档频率为第η个主题Qη用所述的文档与反文档频率表示为 表示词语特征序列Wg中第h个词语wh在第η个主题Qη中的文档与反文档频率为
步骤4.4、根据所述发生时间序列Ts,将第η个主题Qη中具有相同发生时间的句子进行聚合,并按照发生时间的先后进行排序,从而获得句子组序列{F1,F2,…,Fm,…,FM}及对应的发生时间标签{ts1,ts2,…,tsm,…,tsM};Fm表示在发生时间标签tsm下的第m组句子;1≤m≤M;从而获得每个主题中各自的句子组序列及对应的发生时间标签。
所述步骤5是按下步骤进行:
步骤5.1、初始化m=1;
步骤5.2、利用式(7)获得与所述第η个主题Qη相对应的句子组集合{F1,F2,…,Fm,…,FM}中第m组句子Fm所需提取的句子数目num(Fm);
式(7)中,|Fm|表示所述第m组句子Fm中包含句子的总个数;
步骤5.3、判断num(Fm)≥1是否成立,若成立,则执行步骤5.4;否则,将m+1赋值给m,并执行步骤5.2,直到m=M为止;
步骤5.4、提取所述第m组句子Fm与所述第η个主题Qη中所有不同的词语,获得词语特征序列Wm={w1,w2,…,wε,…,wb};wε表示词语特征序列Wm中第ε个词语,1≤ε≤b;
利用式(8)和式(9)分别获得所述词语特征序列Wm中任意个词语wε在所在句子sθ和主题Qη中的文档与反文档频率和从而利用所述文档与反文档频率表示所述第m组句子Fm中的每个句子和所述第η个主题Qη;
式(8)和式(9)中,表示词语wε在句子sθ中出现的次数,表示词语wε在主题Qη中出现的次数,nε表示在所述第m组句子Fm中出现词语wε的次数;若任意句子或任意主题中不包含第ε个词语wε,则相应的句子或主题的文档与反文档频率为0;
步骤5.5、利用式(10)所示的余弦相似度计算方法获得第m组句子Fm中任意两个句子sθ和sρ之间的相似度值;利用式(11)所示的余弦相似度计算方法获得第m组句子Fm中任意一个句子sθ和所述第η个主题Qη之间的相似度值;
式(10)和式(11)中,第θ个句子sθ用所述的文档与反文档频率表示为 表示词语特征序列Wm中第ε个词语wε在第m组句子Fm中句子sφ中的文档与反文档频率为第ρ个句子sρ用所述的文档与反文档频率表示为 表示词语特征序列Wm中第ε个词语wε在第m组句子Fm中句子sρ中的文档与反文档频率第η个主题Qη用所述的文档与反文档频率表示为 表示词语特征序列Wm中第ε个词语wε在主题Qη中的文档与反文档频率
步骤5.6、定义方阵A表示第m组句子Fm中任意两个句子sθ和sρ之间相似度,令方阵A中的任意元素为Aθ,ρ=cosine(sθ,sρ),令Aθ,θ=0;1≤θ,ρ≤|Fm|;
定义矩阵H,令方阵H中的任意元素为Hc,θ=cosine(sθ,Qη),1≤c≤|Fm|,并对所述方阵A和方阵B进行归一化处理,使得每一行元素之和为1;定义所述第m组句子Fm中作为摘要的句子数目E=0;
步骤5.7、迭代执行,获取向量V*;
步骤5.7.1、定义向量V,所述向量V的维数为所述第m组句子Fm中包含句子的总个数|Fm|;初始化V中每个元素的值为1/|Fm|;
步骤5.7.2、执行V*=[dA+(1-d)B]TV;d为自定义的调节因子;
步骤5.7.3、判断||V*-V||是否小于阈值min_iter,若小于则迭代终止;否则将V*赋值给V,并执行步骤5.7.2;
步骤5.8、根据所述向量V*中最大元素值所对应的维数ψ,在第m组句子Fm中选择第ψ个句子sψ作为摘要并移入所述摘要集合中,删除Fm中的第ψ个句子sψ,并将E+1赋值给E;1≤ψ≤|Fm|;
步骤5.9、判断E是否等于num(Fm);若E等于num(Fm),则执行步骤5.10,否则,执行步骤5.11;
步骤5.10、返回所述摘要集合从而生成了第η个主题Qη在发生时间标签tsm下的总结从而获得所述第η个主题Qη对应的总结 从而获得所述主题集合Q={Q1,Q2,…,Qη,…,Qy}中每个主题所对应的总结 表示所述主题Q中第η个主题Qη相对应的总结;
步骤5.11、利用式(12)对第m组句子Fm中的每个句子进行冗余惩罚后返回步骤5.8;
式(12)中,表示向量V*在χ维对应的值,χ≤|Fm|,V* ψ表示向量V*在ψ维对应的值,χ≤|Fm|,ψ≤|Fm|;Aχ,ψ表示所述方阵A的第χ行第ψ列的值。
与已有技术相比,本发明有益效果体现在:
1、本发明利用词语之间的共现关系,构建了词共现图;采用社区发现算法从词共现图中获取多个主题,社区发现算法借鉴了社交网络中社区发现的思想,对于查询相关的新闻文档形成描述特定主题的社区(词语集合);然后对各个主题进行动态跟踪和总结,不仅能够体现摘要的连续性,而且能从多个主题对新闻的发展进行更全面和针对性的跟踪和总结;
2、本发明利用不同文档之间描述同一主题会倾向于采用相同的一组词语的思想,根据词语在文档中的共现关系,再删除出现频率低和共现频率低的词语,从而构建了词共现图;利用词共现图能够有效的分析词语之间紧密关系,抓住词语之间的语义关系,从而克服了传统方法中查询语句包含信息少的缺陷;
3、本发明从词共现图提取主题的过程中,根据词共现图中描述相同主题的词语之间联系紧密,描述不同主题的词语之间联系稀松的特征,从而利用社交网络分析中常用的社区发现算法从词共现图中进行主题发现,以克服现有技术中只针对查询语句进行跟踪和总结的缺点;
4、本发明在针对主题提取摘要过程中,先从与查询相关的新闻文档中获取每个主题的带时间标签的句子组集合;根据时间标签中时间发生的先后顺序,生成每个时间标签下的摘要;在生成摘要的过程中,不仅考虑选取的摘要内容和主题的相关性、选取的摘要是句子组中核心的内容,还考虑了摘要内容的多样性,从而能够更为准确的跟踪和总结该主题。
具体实施方式
本实施例中,一种新闻事件的动态跟踪和总结算法是按如下步骤进行:
步骤1、在搜索引擎上,例如,搜索引擎google新闻引擎下的“http://news.google.co.in/”,输入与新闻事件相关的查询语句Q进行检索,一个查询语句是表示新闻事件的查询语句,如,查询语句“MH370”,并返回若干个新闻文档,利用爬虫工具从返回的若干个新闻文档中爬取排序为前U个新闻文档及对应的发布时间,分别构成初始返回新闻列表X={x1,x2,…,xi,…,xU}及对应的发布时间序列T={t1,t2,…,ti,…,tU},xi表示初始返回新闻列表X中第i个新闻文档,ti表示发布时间序列T中与第i个新闻文档xi所对应的发布时间;1≤i≤U;本实施例中,U取值200,即爬取前200个新闻文档及对应的发布时间;
步骤2、构建词共现图G:词共现分析是自然语言处理技术在信息检索中的成功应用之一,核心思想是词之间的共现频率在某种程度上反映了词项之间语义关联;词共现的方法大都基于这样的一个假设,在语料集中,如果两个词项频繁地出现在同一篇文档中,就可以认为这两个词项的组合较为稳定,在语义上相互关联,共现的频率反映词项之间的语义紧密程度;而不同文档之间描述同主题会倾向于采用相同的一组关键词,词之间的联系会更紧密;描述不同主题的词之间共现关系较弱,共同出现的次数较低;因此,通过文档中一个个词项之间的共现情况,我们可以逆向推得哪些词是主题相关的(即用来描述同一主题),从而达到主题发现的目的;
步骤2.1、利用分词工具,如Part-Of-Speech Tagger,对初始返回新闻列表X中的新闻文档进行分词和词性标注,并选取名词词性的词语,去除名词里的停用词,从而构成词语集合W={w1,w2,…,wr,…,wR},wr表示词语集合W中第r个名词词性的词语,1≤r≤R;
利用式(1)获得任一词语wr的文档频率DFr,从而获得文档频率集合DF={DF1,DF2,…,DFr,…,DFR};
式(1)中,若第r个名词词性的词语wr属于新闻文档xi,则1{wr∈xi}=1,否则为0;
步骤2.2、将词语集合W中的每个词语分别作为节点并对返回新闻列表X进行扫描,若词语集合W中存在任意两个节点wα和wβ同时出现在一个新闻文档中,则连接节点wα和wβ获得邻边eα,β,令邻边eα,β的权重为初始化权重权重的值为节点wα和wβ在初始返回新闻列表X中不同新闻文档中出现的次数;
在词共现关系图建立好后,为了降低图的规模,剔除噪音信息等目的,需要对生成的图进行处理,剔除一些边;具体如步骤2.3和步骤2.4;
步骤2.3、删除文档频率DFr小于阈值node_min_df的节点以及权重小于阈值edge_min_df的邻边;阈值node_min_df和edge_min_df的取值范围为(1,U);本实施例中,node_min_df取值为35,edge_min_df取值为25;
步骤2.4、利用式(2)和式(3)分别获得邻边eα,β的条件随机概率p(kα|kβ)和p(kβ|kα):
式(2)中,条件随机概率p(kα|kβ)表示在节点wβ出现在任意新闻文档中时,节点wα同时出现的条件概率;条件随机概率p(kβ|kα)表示在节点wα出现在任意新闻文档中时,节点wβ同时出现的条件概率;若条件随机概率p(kα|kβ)和p(kβ|kα)均小于阈值edge_min_prob,则删除邻边eα,β;从而构建词共现图G;阈值edge_min_prob的取值范围为(0,1);本实施例中,阈值edge_min_prob取值为0.15;
步骤3、采用社区发现算法从词共现图G中提取与新闻事件相关的多个主题Q:在词共现图G中,描述相同主题的词项联系紧密,而描述不同话题的词项之间联系稀松,由此可以借鉴社交网络中社区发现的思想,对该关系网络进行划分,形成描述不同主题的“社区”—表示特定主题的词集合;
主题发现可以使用介数(Betweenness)来发现两个社区之间连接的边。社区发现算法基于这样的直观认识,对于连接两个社区之间的边,在两个不同社区中的节点计算最短路径时,必然通过该边,则对于这一类边,其介数中心度值较高;因此通过计算介数中心度,可以发现横跨两个社区之间的边;通过移除介数中心度值较高的边,则相当于切断了与该边相关的两个社区之间的通路,从而实现了社区发现即主题发现的任务;
步骤3.1、利用式(4)获得词共现图G中邻边eα,β的介数Be,从而获得词共现图G中所有邻边的介数:
式(4)中,介数Be表示词共现图G中任意两个节点wω和wν的最短路径中经过邻边eα,β的最短路径的次数的比重;Ce(ω,ν)表示词共现图G中任意两个节点wω和wν之间的最短路径中经过邻边eα,β的次数;C(ω,ν)表示词共现图G中任意两个节点wω和wν间的最短路径的总数目;任意两个节点之间最短路径选用Dijkstra算法,该算法可以参考Cormen等人编写的书“Introduction to Algorithms”的第二版,出版时间2001年;
步骤3.2、从词共现图G中所有邻边的介数中找到最大介数所对应的邻边,若最大介数小于阈值B_max,则跳到步骤3.3执行,否则,删除最大介数所对应的邻边,并跳到步骤3.1执行;阈值B_max的取值范围为(1,200);本实施例中,阈值B_max取值为50,
步骤3.3、由通过邻边连接的节点或单独的节点分别构成一个主题,从而形成主题集合Q={Q1,Q2,…,Qη,…,Qy},Qη表示主题集合Q中第η个主题,1≤η≤y,y表示主题的个数;第η个主题Qη中所包含的词语为{q1,q2,…,qf…,ql},记为Qη={q1,q2,…,qf…,ql};qf表示第η个主题Qη中第f个词语,1≤f≤l,l表示第η个主题Qη中词语的个数;
步骤4、从初始返回新闻列表X及对应的发布时间序列T中选取主题集合Q中每个主题相对应的句子组序列及对应的发生时间标签;
步骤4.1、将第i个新闻文档xi所对应的发布时间ti作为第i个新闻文档xi的初始参考时间,采用分割工具,如openNLP工具将新闻文档分成句子,将第i个新闻文档xi中包含时间信息的句子利用基于英国谢菲尔特德大学开发的GATE系统提取出来并转变成统一格式(月月/日日/年年年年),从而获得初始返回新闻列表X中所有新闻文档所包含时间信息的句子构成的句子集合S={s1,s2,…,sφ,…,sN}及对应的发生时间序列Ts={ts1,ts2,…,tsφ…,tsN};N表示句子集合S中句子的数目;tsφ表示发生时间序列Ts中与第φ个句子sφ所对应的发生时间;
步骤4.2、提取句子集合S和主题集合Q中所有不同的词语,获得词语特征序列Wg={w1,w2,…,wh,…,wg};wh表示词语特征序列中第h个词语,1≤h≤g;
利用式(5)获得词语特征序列Wg中任意个词语wh在所在句子或主题中的文档与反文档频率tf-isf(wh),从而利用文档与反文档频率表示句子集合S和主题集合Q中的每个句子和每个主题;
式(5)中,表示词语wh在所在的句子或主题中出现的次数,nh表示句子集合S和主题集合Q中出现词语wh的次数;若每个句子或每个主题中不包含第h个词语wh,则tf-isf(wh)=0;
步骤4.3、利用式(6)所示的余弦相似度计算方法分别获得第φ个句子sφ和第η个主题Qη的相似度cosine(sφ,Qη),从而获得每个句子与每个主题的相似度,若相似度cosine(sφ,Qη)大于指定阈值min_sis,则第φ个句子sφ属于第η个主题Qη;阈值min_sis的取值范围为(0,1),本实施例中,阈值min_sis的取值为0.2;
式(6)中,第φ个句子sφ用文档与反文档频率表示为 表示词语特征序列Wg中第h个词语wh在第φ个句子sφ中的文档与反文档频率即第η个主题Qη用文档与反文档频率表示为 表示词语特征序列Wg中第h个词语wh在第η个主题Qη中的文档与反文档频率即
步骤4.4、根据发生时间序列Ts,将第η个主题Qη中具有相同发生时间的句子进行聚合,并按照发生时间的先后进行排序,从而获得句子组序列{F1,F2,…,Fm,…,FM}及对应的发生时间标签{ts1,ts2,…,tsm,…,tsM};Fm表示在发生时间标签tsm下的第m组句子;第m组句子Fm中至少包含一个句子,1≤m≤M;从而获得每个主题中各自的句子组序列及对应的发生时间标签;
步骤5、对主题集合Q中的每个主题进行处理,按照发生时间的先后顺序,从所对应的句子组序列中获得与各自主题相对应的摘要集合,从而生成与各自主题相对应的总结;下面将针对每个句子组序列分别提取摘要,然后把所有句子组的摘要作为针对新闻事件的摘要;
对主题集合Q={Q1,Q2,…,Qη,…,Qy}中第η个主题Qη相对应的句子组集合{F1,F2,…,Fm,…,FM}中每组句子依次提取摘要,获得第η个主题Qη对应的总结 表示第m组句子Fm所提取的摘要;从而获得主题集合Q={Q1,Q2,…,Qη,…,Qy}中每个主题所对应的总结 表示主题Q中第η个主题Qη相对应的总结;对第m组句子Fm进行提取摘要,不仅要考虑选择的句子代表第m组句子Fm中核心的句子,还要考虑与第η个主题Qη有很高的相关度,最后还要考虑选择的句子自己本身不要有太高的冗余度;采用基于图的排序算法对句子集合中的句子进行打分,该方法利用了page‐rank中的随机游走的思想,每个句子的重要性有其相似的邻居的数量和邻居的重要性相关;
步骤5.1、初始化m=1;
步骤5.2、利用式(7)获得与所述第η个主题Qη相对应的句子组集合{F1,F2,…,Fm,…,FM}中第m组句子Fm所需提取的句子数目num(Fm);
式(7)中,|Fm|表示所述第m组句子Fm中包含句子的总个数;可以看出,每个句子组集合选取的句子数目和每个句子组集合的句子数目占句子组集合总数目的比重有关,通过式(7)可以达到只对新闻文档中发生时间报道较多的句子感兴趣;
步骤5.3、判断num(Fm)≥1是否成立,若成立,则执行步骤5.4;否则,将m+1赋值给m,并执行步骤5.2,直到m=M为止;num(Fm)小于1表示该发生时间tsm下的句子数目占句子组总数目的比重太小,从而不对其提取摘要;
步骤5.4、提取第m组句子Fm与第η个主题Qη中所有不同的词语,获得词语特征序列Wm={w1,w2,…,wε,…,wb};wε表示词语特征序列Wm中第ε个词语,1≤ε≤b;
利用式(8)和式(9)分别获得所述词语特征序列Wm中任意个词语wε在所在句子sθ和主题Qη中的文档与反文档频率和从而利用所述文档与反文档频率表示所述第m组句子Fm中的每个句子和第η个主题Qη;
式(8)和式(9)中,表示词语wε在句子sθ中出现的次数,表示词语wε在主题Qη中出现的次数,nε表示在所述第m组句子Fm中出现词语wε的次数;若任意句子或任意主题中不包含第ε个词语wε,则相应的句子或主题的文档与反文档频率为0,即若句子sθ不包含第ε个词语wε,则若主题Qη中不包含第ε个词语wε,
步骤5.5、利用式(10)所示的余弦相似度计算方法获得第m组句子Fm中任意两个句子sθ和sρ之间的相似度值;利用式(11)所示的余弦相似度计算方法获得第m组句子Fm中任意一个句子sθ和所述第η个主题Qη之间的相似度值;
式(10)和式(11)中,第θ个句子sθ用文档与反文档频率表示为 表示词语特征序列Wm中第ε个词语wε在第m组句子Fm中句子sφ中的文档与反文档频率为 即第ρ个句子sρ用文档与反文档频率表示为 表示词语特征序列Wm中第ε个词语wε在第m组句子Fm中句子sρ中的文档与反文档频率 即第η个主题Qη用文档与反文档频率表示为 表示词语特征序列Wm中第ε个词语wε在主题Qη中的文档与反文档频率即
步骤5.6、定义方阵A表示第m组句子Fm中任意两个句子sθ和sρ之间相似度,令方阵A中的任意元素为Aθ,ρ=cosine(sθ,sρ),令Aθ,θ=0;1≤θ,ρ≤|Fm|;
定义矩阵H,令方阵H中的任意元素为Hc,θ=cosine(sθ,Qη),1≤c≤|Fm|,并对方阵A和方阵B进行归一化处理,使得每一行元素之和为1;定义第m组句子Fm中作为摘要的句子数目E=0;
步骤5.7、迭代执行,获取向量V*;
步骤5.7.1、定义向量V,向量V的维数为第m组句子Fm中包含句子的总个数|Fm|;初始化V中每个元素的值为1/|Fm|;
步骤5.7.2、执行V*=[dA+(1-d)B]TV;d为自定义的调节因子,其取值范围为(0,1),调节因子d的取值高表示选择句子组中的核心内容占主要因素,取值低表示与主题相关占主要因素;本实施例中,调节因子d取值为0.3;
步骤5.7.3、判断||V*-V||是否小于阈值min_iter,若小于则迭代终止;否则将V*赋值给V,并执行步骤5.7.2;阈值min_iter取值范围为(0,0.01);本实施例中,min_iter取值为0.0001;
步骤5.8、根据向量V*中最大元素值所对应的维数ψ,在第m组句子Fm中选择第ψ个句子sψ作为摘要并移入所述摘要集合中,删除Fm中的第ψ个句子sψ,并将E+1赋值给E;1≤ψ≤|Fm|;
步骤5.9、判断E是否等于num(Fm);若E等于num(Fm),则执行步骤5.10,否则,说明摘要数目还没达到num(Fm),执行步骤5.11;
步骤5.10、返回所述摘要集合从而生成了第η个主题Qη在发生时间标签tsm下的总结从而获得所述第η个主题Qη对应的总结 从而获得所述主题集合Q={Q1,Q2,…,Qη,…,Qy}中每个主题所对应的总结 即对新闻事件的动态跟踪和总结的结果;表示所述主题Q中第η个主题Qη相对应的总结;
步骤5.11、利用式(12)对第m组句子Fm中的每个句子进行冗余惩罚后,返回步骤5.8;因为不同句子可能包含相似的内容,为了防止摘要的冗余,增加摘要中内容的覆盖度,采用了贪心的算法对句子进行惩罚;
式(12)中,表示向量V*在χ维对应的值,χ≤|Fm|,V*ψ表示向量V*在ψ维对应的值,χ≤|Fm|,ψ≤|Fm|;Aχ,ψ表示所述方阵A的第χ行第ψ列的值。
Claims (5)
1.一种新闻事件的动态跟踪和总结算法,其特征是按如下步骤进行:
步骤1、在搜索引擎上,输入与新闻事件相关的查询语句Q进行检索,并返回若干个新闻文档,利用爬虫工具从所述若干个新闻文档中爬取排序为前U个新闻文档及对应的发布时间,分别构成初始返回新闻列表X={x1,x2,…,xi,…,xU}及对应的发布时间序列T={t1,t2,…,ti,…,tU},xi表示在所述初始返回新闻列表X中第i个新闻文档,ti表示在所述发布时间序列T中与第i个新闻文档xi所对应的发布时间;1≤i≤U;
步骤2、构建词共现图G;
步骤3、采用社区发现算法从所述词共现图G中提取与新闻事件相关的多个主题Q;
步骤4、从所述初始返回新闻列表X及对应的发布时间序列T中选取所述主题集合Q中每个主题相对应的句子组序列及对应的发生时间标签;
步骤5、对所述主题集合Q中的每个主题进行处理,按照发生时间,从所对应的句子组序列中获得与各自主题相对应的摘要集合,从而生成与各自主题相对应的总结。
2.根据权利要求1所述的新闻事件的动态跟踪和总结算法,其特征是,所述步骤2是按下步骤进行:
步骤2.1、利用分词工具对初始返回新闻列表X中的新闻文档进行分词和词性标注,并选取名词词性的词语构成词语集合W={w1,w2,…,wr,…,wR},wr表示在所述词语集合W中第r个名词词性的词语,1≤r≤R;
利用式(1)获得任一词语wr的文档频率DFr,从而获得文档频率集合DF={DF1,DF2,…,DFr,…,DFR};
式(1)中,若第r个名词词性的词语wr属于新闻文档xi,则1{wr∈xi}=1,否则为0;
步骤2.2、将所述词语集合W中的每个词语分别作为节点并对所述返回新闻列表X进行扫描,若在所述词语集合W中存在任意两个节点wα和wβ同时出现在一个新闻文档中,则连接节点wα和wβ获得邻边eα,β,令所述邻边eα,β的权重为初始化权重所述权重的值为所述节点wα和wβ在所述初始返回新闻列表X中不同新闻文档中出现的次数;
步骤2.3、删除文档频率DFr小于阈值node_min_df的节点以及权重小于阈值edge_min_df的邻边;
步骤2.4、利用式(2)和式(3)分别获得邻边eα,β的条件随机概率p(kα|kβ)和p(kβ|kα):
式(2)中,条件随机概率p(kα|kβ)表示在节点wβ出现在任意新闻文档中时,节点wα同时出现的条件概率;条件随机概率p(kβ|kα)表示在节点wα出现在任意新闻文档中时,节点wβ同时出现的条件概率;若所述条件随机概率p(kα|kβ)和p(kβ|kα)均小于阈值edge_min_prob,则删除所述邻边eα,β;从而构建词共现图G。
3.根据权利要求1所述的新闻事件的动态跟踪和总结算法,其特征是,所述步骤3是按下步骤进行:
步骤3.1、利用式(4)获得所述词共现图G中邻边eα,β的介数Be,从而获得词共现图G中所有邻边的介数;
式(4)中,介数Be表示所述词共现图G中任意两个节点wω和wν的最短路径中经过所述邻边eα,β的最短路径的次数的比重;Ce(ω,ν)表示所述词共现图G中任意两个节点wω和wν之间的最短路径中经过邻边eα,β的次数;C(ω,ν)表示所述词共现图G中任意两个节点wω和wν间的最短路径的总数目;
步骤3.2、从所述词共现图G中所有邻边的介数中找到最大介数所对应的邻边,若最大介数小于阈值B_max,则跳到步骤3.3执行,否则,删除所述最大介数所对应的邻边,并跳到步骤3.1执行;
步骤3.3、由通过邻边连接的节点或单独的节点分别构成一个主题,从而形成主题集合Q={Q1,Q2,…,Qη,…,Qy},Qη表示在所述主题集合Q中第η个主题,1≤η≤y,y表示所述主题的个数;第η个主题Qη中所包含的词语为{q1,q2,…,qf…,ql},记为Qη={q1,q2,…,qf…,ql};qf表示所述第η个主题Qη中第f个词语,1≤f≤l,l表示所述第η个主题Qη中词语的个数。
4.根据权利要求1所述的新闻事件的动态跟踪和总结算法,其特征是,所述步骤4是按下步骤进行:
步骤4.1、将第i个新闻文档xi所对应的发布时间ti作为所述第i个新闻文档xi的初始参考时间,将所述第i个新闻文档xi中包含时间信息的句子提取出来,从而获得初始返回新闻列表X中所有新闻文档所包含时间信息的句子构成的句子集合S={s1,s2,…,sφ,…,sN}及对应的发生时间序列Ts={ts1,ts2,…,tsφ…,tsN};N表示句子集合S中句子的数目;tsφ表示在所述发生时间序列Ts中与第φ个句子sφ所对应的发生时间;
步骤4.2、提取所述句子集合S和主题集合Q中所有不同的词语,获得词语特征序列Wg={w1,w2,…,wh,…,wg};wh表示词语特征序列中第h个词语,1≤h≤g;
利用式(5)获得所述词语特征序列Wg中任意个词语wh在所在句子或主题中的文档与反文档频率tf-isf(wh),从而利用所述文档与反文档频率表示所述句子集合S和主题集合Q中的每个句子和每个主题;
式(5)中,表示词语wh在所在的句子或主题中出现的次数,nh表示在所述句子集合S和主题集合Q中出现词语wh的次数;若每个句子或每个主题中不包含第h个词语wh,则tf-isf(wh)=0;
步骤4.3、利用式(6)所示的余弦相似度计算方法分别获得第φ个句子sφ和第η个主题Qη的相似度cosine(sφ,Qη),从而获得每个句子与每个主题的相似度,若相似度cosine(sφ,Qη)大于指定阈值min_sis,则第φ个句子sφ属于第η个主题Qη:
式(6)中,第φ个句子sφ用所述的文档与反文档频率表示为 表示词语特征序列Wg中第h个词语wh在第φ个句子sφ中的文档与反文档频率为第η个主题Qη用所述的文档与反文档频率表示为 表示词语特征序列Wg中第h个词语wh在第η个主题Qη中的文档与反文档频率为
步骤4.4、根据所述发生时间序列Ts,将第η个主题Qη中具有相同发生时间的句子进行聚合,并按照发生时间的先后进行排序,从而获得句子组序列{F1,F2,…,Fm,…,FM}及对应的发生时间标签{ts1,ts2,…,tsm,…,tsM};Fm表示在发生时间标签tsm下的第m组句子;1≤m≤M;从而获得每个主题中各自的句子组序列及对应的发生时间标签。
5.根据权利要求1所述的新闻事件的动态跟踪和总结算法,其特征是,所述步骤5是按下步骤进行:
步骤5.1、初始化m=1;
步骤5.2、利用式(7)获得与所述第η个主题Qη相对应的句子组集合{F1,F2,…,Fm,…,FM}中第m组句子Fm所需提取的句子数目num(Fm);
式(7)中,|Fm|表示所述第m组句子Fm中包含句子的总个数;
步骤5.3、判断num(Fm)≥1是否成立,若成立,则执行步骤5.4;否则,将m+1赋值给m,并执行步骤5.2,直到m=M为止;
步骤5.4、提取所述第m组句子Fm与所述第η个主题Qη中所有不同的词语,获得词语特征序列Wm={w1,w2,…,wε,…,wb};wε表示词语特征序列Wm中第ε个词语,1≤ε≤b;
利用式(8)和式(9)分别获得所述词语特征序列Wm中任意个词语wε在所在句子sθ和主题Qη中的文档与反文档频率和从而利用所述文档与反文档频率表示所述第m组句子Fm中的每个句子和所述第η个主题Qη;
式(8)和式(9)中,表示词语wε在句子sθ中出现的次数,表示词语wε在主题Qη中出现的次数,nε表示在所述第m组句子Fm中出现词语wε的次数;若任意句子或任意主题中不包含第ε个词语wε,则相应的句子或主题的文档与反文档频率为0;
步骤5.5、利用式(10)所示的余弦相似度计算方法获得第m组句子Fm中任意两个句子sθ和sρ之间的相似度值;利用式(11)所示的余弦相似度计算方法获得第m组句子Fm中任意一个句子sθ和所述第η个主题Qη之间的相似度值;
式(10)和式(11)中,第θ个句子sθ用所述的文档与反文档频率表示为 表示词语特征序列Wm中第ε个词语wε在第m组句子Fm中句子sφ中的文档与反文档频率为第ρ个句子sρ用所述的文档与反文档频率表示为 表示词语特征序列Wm中第ε个词语wε在第m组句子Fm中句子sρ中的文档与反文档频率第η个主题Qη用所述的文档与反文档频率表示为 表示词语特征序列Wm中第ε个词语wε在主题Qη中的文档与反文档频率
步骤5.6、定义方阵A表示第m组句子Fm中任意两个句子sθ和sρ之间相似度,令方阵A中的任意元素为Aθ,ρ=cosine(sθ,sρ),令Aθ,θ=0;1≤θ,ρ≤|Fm|;
定义矩阵H,令方阵H中的任意元素为Hc,θ=cosine(sθ,Qη),1≤c≤|Fm|,并对所述方阵A和方阵B进行归一化处理,使得每一行元素之和为1;定义所述第m组句子Fm中作为摘要的句子数目E=0;
步骤5.7、迭代执行,获取向量V*;
步骤5.7.1、定义向量V,所述向量V的维数为所述第m组句子Fm中包含句子的总个数|Fm|;初始化V中每个元素的值为1/|Fm|;
步骤5.7.2、执行V*=[dA+(1-d)B]TV;d为自定义的调节因子;
步骤5.7.3、判断||V*-V||是否小于阈值min_iter,若小于则迭代终止;否则将V*赋值给V,并执行步骤5.7.2;
步骤5.8、根据所述向量V*中最大元素值所对应的维数ψ,在第m组句子Fm中选择第ψ个句子sψ作为摘要并移入所述摘要集合中,删除Fm中的第ψ个句子sψ,并将E+1赋值给E;1≤ψ≤|Fm|;
步骤5.9、判断E是否等于num(Fm);若E等于num(Fm),则执行步骤5.10,否则,执行步骤5.11;
步骤5.10、返回所述摘要集合从而生成了第η个主题Qη在发生时间标签tsm下的总结从而获得所述第η个主题Qη对应的总结 从而获得所述主题集合Q={Q1,Q2,…,Qη,…,Qy}中每个主题所对应的总结 表示所述主题Q中第η个主题Qη相对应的总结;
步骤5.11、利用式(12)对第m组句子Fm中的每个句子进行冗余惩罚后返回步骤5.8;
式(12)中,表示向量V*在χ维对应的值,χ≤|Fm|,V* ψ表示向量V*在ψ维对应的值,χ≤|Fm|,ψ≤|Fm|;Aχ,ψ表示所述方阵A的第χ行第ψ列的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410406784.8A CN104182504B (zh) | 2014-08-18 | 2014-08-18 | 一种新闻事件的动态跟踪和总结算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410406784.8A CN104182504B (zh) | 2014-08-18 | 2014-08-18 | 一种新闻事件的动态跟踪和总结算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104182504A true CN104182504A (zh) | 2014-12-03 |
CN104182504B CN104182504B (zh) | 2017-06-06 |
Family
ID=51963543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410406784.8A Active CN104182504B (zh) | 2014-08-18 | 2014-08-18 | 一种新闻事件的动态跟踪和总结算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104182504B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598629A (zh) * | 2015-02-05 | 2015-05-06 | 北京航空航天大学 | 基于流式图模型的社交网络突发事件检测方法 |
CN104636324A (zh) * | 2015-01-21 | 2015-05-20 | 深圳市北科瑞讯信息技术有限公司 | 话题溯源方法和系统 |
CN107688652A (zh) * | 2017-08-31 | 2018-02-13 | 苏州大学 | 面向互联网新闻事件的演化式摘要生成方法 |
CN108170671A (zh) * | 2017-12-19 | 2018-06-15 | 中山大学 | 一种提取新闻事件发生时间的方法 |
CN108427667A (zh) * | 2017-02-15 | 2018-08-21 | 北京国双科技有限公司 | 一种法律文书的分段方法及装置 |
CN109190017A (zh) * | 2018-08-02 | 2019-01-11 | 腾讯科技(北京)有限公司 | 热点信息的确定方法、装置、服务器及存储介质 |
CN109446336A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻筛选的方法、装置、计算机设备和存储介质 |
CN109522410A (zh) * | 2018-11-09 | 2019-03-26 | 北京百度网讯科技有限公司 | 文档聚类方法及平台、服务器和计算机可读介质 |
CN110020169A (zh) * | 2017-12-28 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 一种确定对象相关性的方法和装置 |
CN110334159A (zh) * | 2019-05-29 | 2019-10-15 | 苏宁金融服务(上海)有限公司 | 基于关系图谱的信息查询方法和装置 |
CN110399491A (zh) * | 2019-07-19 | 2019-11-01 | 电子科技大学 | 一种基于特征词共现图的微博事件演化分析方法 |
CN113641817A (zh) * | 2021-08-30 | 2021-11-12 | 山东新一代信息产业技术研究院有限公司 | 一种基于主题和时间线摘要的报告生成方法及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7792925B1 (en) * | 2001-03-20 | 2010-09-07 | Apple Inc. | One click full-screen video system and method |
CN102646114A (zh) * | 2012-02-17 | 2012-08-22 | 清华大学 | 一种基于突破点的新闻话题时间线摘要生成方法 |
US20130102271A1 (en) * | 2011-05-21 | 2013-04-25 | Frank Stempski | Instantaneous Event Reporting (IER) remote system_Instantaneous Crime Report(ICR) cell system |
CN103246732A (zh) * | 2013-05-10 | 2013-08-14 | 合肥工业大学 | 一种在线Web新闻内容的抽取方法及系统 |
CN103473263A (zh) * | 2013-07-18 | 2013-12-25 | 大连理工大学 | 一种面向新闻事件演变过程的可视化展现方法 |
-
2014
- 2014-08-18 CN CN201410406784.8A patent/CN104182504B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7792925B1 (en) * | 2001-03-20 | 2010-09-07 | Apple Inc. | One click full-screen video system and method |
US20130102271A1 (en) * | 2011-05-21 | 2013-04-25 | Frank Stempski | Instantaneous Event Reporting (IER) remote system_Instantaneous Crime Report(ICR) cell system |
CN102646114A (zh) * | 2012-02-17 | 2012-08-22 | 清华大学 | 一种基于突破点的新闻话题时间线摘要生成方法 |
CN103246732A (zh) * | 2013-05-10 | 2013-08-14 | 合肥工业大学 | 一种在线Web新闻内容的抽取方法及系统 |
CN103473263A (zh) * | 2013-07-18 | 2013-12-25 | 大连理工大学 | 一种面向新闻事件演变过程的可视化展现方法 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636324A (zh) * | 2015-01-21 | 2015-05-20 | 深圳市北科瑞讯信息技术有限公司 | 话题溯源方法和系统 |
CN104598629B (zh) * | 2015-02-05 | 2017-11-03 | 北京航空航天大学 | 基于流式图模型的社交网络突发事件检测方法 |
CN104598629A (zh) * | 2015-02-05 | 2015-05-06 | 北京航空航天大学 | 基于流式图模型的社交网络突发事件检测方法 |
CN108427667A (zh) * | 2017-02-15 | 2018-08-21 | 北京国双科技有限公司 | 一种法律文书的分段方法及装置 |
CN108427667B (zh) * | 2017-02-15 | 2021-08-10 | 北京国双科技有限公司 | 一种法律文书的分段方法及装置 |
CN107688652A (zh) * | 2017-08-31 | 2018-02-13 | 苏州大学 | 面向互联网新闻事件的演化式摘要生成方法 |
CN107688652B (zh) * | 2017-08-31 | 2020-12-29 | 苏州大学 | 面向互联网新闻事件的演化式摘要生成方法 |
CN108170671A (zh) * | 2017-12-19 | 2018-06-15 | 中山大学 | 一种提取新闻事件发生时间的方法 |
CN110020169A (zh) * | 2017-12-28 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 一种确定对象相关性的方法和装置 |
CN109190017B (zh) * | 2018-08-02 | 2020-11-10 | 腾讯科技(北京)有限公司 | 热点信息的确定方法、装置、服务器及存储介质 |
CN109190017A (zh) * | 2018-08-02 | 2019-01-11 | 腾讯科技(北京)有限公司 | 热点信息的确定方法、装置、服务器及存储介质 |
CN109446336A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻筛选的方法、装置、计算机设备和存储介质 |
CN109446336B (zh) * | 2018-09-18 | 2024-05-03 | 平安科技(深圳)有限公司 | 新闻筛选的方法、装置、计算机设备和存储介质 |
CN109522410A (zh) * | 2018-11-09 | 2019-03-26 | 北京百度网讯科技有限公司 | 文档聚类方法及平台、服务器和计算机可读介质 |
CN110334159A (zh) * | 2019-05-29 | 2019-10-15 | 苏宁金融服务(上海)有限公司 | 基于关系图谱的信息查询方法和装置 |
CN110399491A (zh) * | 2019-07-19 | 2019-11-01 | 电子科技大学 | 一种基于特征词共现图的微博事件演化分析方法 |
CN113641817A (zh) * | 2021-08-30 | 2021-11-12 | 山东新一代信息产业技术研究院有限公司 | 一种基于主题和时间线摘要的报告生成方法及设备 |
CN113641817B (zh) * | 2021-08-30 | 2024-05-07 | 浪潮智能物联技术有限公司 | 一种基于主题和时间线摘要的报告生成方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104182504B (zh) | 2017-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104182504A (zh) | 一种新闻事件的动态跟踪和总结算法 | |
Thakkar et al. | Approaches for sentiment analysis on twitter: A state-of-art study | |
Gerber et al. | Bootstrapping the linked data web | |
Bellaachia et al. | Ne-rank: A novel graph-based keyphrase extraction in twitter | |
CN101398814B (zh) | 一种同时抽取文档摘要和关键词的方法及系统 | |
Hasan et al. | TwitterNews: Real time event detection from the Twitter data stream | |
CN103678412A (zh) | 一种文档检索的方法及装置 | |
Urvoy et al. | Tracking Web Spam with Hidden Style Similarity. | |
Deveaud et al. | Effective tweet contextualization with hashtags performance prediction and multi-document summarization | |
Peng et al. | High quality information extraction and query-oriented summarization for automatic query-reply in social network | |
Xia et al. | Building terrorist knowledge graph from global terrorism database and wikipedia | |
Cataldi et al. | Estimating domain-based user influence in social networks | |
Wang et al. | Seeft: Planned social event discovery and attribute extraction by fusing twitter and web content | |
Simanovsky et al. | Mining text patterns for synonyms extraction | |
Chen et al. | An unsupervised approach to cluster web search results based on word sense communities | |
Elsayed et al. | Resolving personal names in email using context expansion | |
Zhang et al. | Event-based summarization for scientific literature in chinese | |
Song et al. | Generative models for name disambiguation | |
Burk et al. | Apollo: Near-duplicate detection for job ads in the online recruitment domain | |
Heinzerling et al. | Trust, but verify! Better entity linking through automatic verification | |
Tu et al. | Research intelligence involving information retrieval–An example of conferences and journals | |
Li et al. | Adding Lexical Chain to Keyphrase Extraction | |
Mai et al. | Contrastive Hierarchical Discourse Graph for Vietnamese Extractive Multi-Document Summarization | |
Ševcech et al. | Query construction for related document search based on user annotations | |
Baliyan et al. | Related Blogs’ Summarization With Natural Language Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |