CN105005590A - 一种信息媒介的专题阶段性摘要的生成方法 - Google Patents

一种信息媒介的专题阶段性摘要的生成方法 Download PDF

Info

Publication number
CN105005590A
CN105005590A CN201510366843.8A CN201510366843A CN105005590A CN 105005590 A CN105005590 A CN 105005590A CN 201510366843 A CN201510366843 A CN 201510366843A CN 105005590 A CN105005590 A CN 105005590A
Authority
CN
China
Prior art keywords
topic
information
sentence
information media
special
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510366843.8A
Other languages
English (en)
Other versions
CN105005590B (zh
Inventor
张仰森
尤建清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201510366843.8A priority Critical patent/CN105005590B/zh
Publication of CN105005590A publication Critical patent/CN105005590A/zh
Application granted granted Critical
Publication of CN105005590B publication Critical patent/CN105005590B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种信息媒介的专题阶段性摘要的生成方法,包括获取特定时间段内的各信息媒介的文档;对所述信息媒介的文档进行主题抽取并生成主题集,以及对所述主题集利用话题检测与追踪技术进行话题聚类,并生成信息媒介专题的阶段性摘要,本发明实施例的信息媒介的专题阶段性摘要的生成方法具有生成的专题阶段性摘要有较好的召回率的优点。

Description

一种信息媒介的专题阶段性摘要的生成方法
技术领域
本发明涉及语言信息处理领域,特别是一种信息媒介的专题阶段性摘要的生成方法。
背景技术
有统计显示,通过网络获取资讯的网民数量正呈现出持续增长的趋势,“上网看新闻”更是已经成为网民们的一种习惯。对于一些新闻专题来说,时间跨度较长,内容涉及方方面面,可能产生几十篇甚至几千篇的系列报道。以2014年3月8日发生的马来西亚航空公司MH370航班“失联”为例,在短短1个月的时间内,腾讯新闻网形成了70个页面约计3500篇新闻(平均每日有100多篇)的专题报道,这其中还不包括各类的相关新闻评论!如此规模的专题报道,凸显了网络新闻的特点——多角度和全方位。但随之而来的问题是,面对接踵而至的专题内容,新闻读者却难以抉择,很难有足够多的时间、并且也不可能去阅读每一篇新闻的详细内容,对新闻专题的相关内容了解不多,对整个专题的发展、演化只能望“闻”兴叹。
因此,如何设计一种能够向网民准确的呈现信息媒介的专题阶段性摘要的生成方法以方便网民根据专题阶段性摘要从大量新闻中快速选择新闻进行阅读是业界亟需解决的课题。
发明内容
为了解决上述现有的技术问题,本发明提供一种信息媒介的专题阶段性摘要的生成方法对所述信息媒介的文档进行主题抽取并生成主题集,并对所述主题集利用话题检测与追踪技术进行话题聚类,以生成信息媒介专题的阶段性摘要具有较好的召回率。
本发明提供一种信息媒介的专题阶段性摘要的生成方法,包括步骤:
获取特定时间段内的各信息媒介的文档;
对所述各信息媒介的文档进行主题抽取并生成主题集;
对所述主题集利用话题检测与追踪技术进行话题聚类,并生成信息媒介专题的阶段性摘要。
优选地,所述对所述各信息媒介的文档进行主题抽取并生成主题集的步骤包括:
计算各信息媒介的文档中句子的度中心性;
计算信息媒介的句子的位置信息;
结合句子的度中心性和位置信息完成对信息媒介主题的抽取。
优选地,所述信息媒介的文档中句子的度中心性的计算依据如下公式:
S i m ( s i , s j ) = Σ l n w i k × w j k Σ l n w i k 2 × Σ 1 n w j k 2
其中,si、sj是待计算相似度的两个句子,wik是第k个词在句子si中的tfidf值,wjk是第k个词在句子sj的余弦相似度值。
优选地,所述计算信息媒介的句子的位置信息依据公式:
L o c ( s i ) = n - i + 1 n ,
Loc(si)表示新闻句子的位置信息对主题抽取的加权。n表示每篇新闻文档的句子总数。
优选地,所述结合句子的度中心性和位置信息完成对信息媒介主题的抽取依据如下公式:
ET(Si)=a∑Siml(si,sj)+bLoc(si)
其中si、sj表示文档D的第i、j(i≠j)句,∑Siml(si,sj)表示句子Si与其他句子之间的相似度之和,Loc(si)表示新闻句子的位置信息对主题抽取的加权,a和b是系数,a=b=0.5。
优选地,所述生成信息媒介专题的阶段性摘要的步骤包括:
对所述生成的主题集进行基于时间流的双向聚类;
对经过双向聚类生成的话题进行差集或交集分析以提取共同关注的话题和新产生的话题;
对聚类生成的重复的话题进行二次聚类生成所述信息媒介专题的阶段性摘要。
优选地,所述生成信息媒介专题的阶段性摘要的聚类或双向聚类是基于Single Pass聚类算法生成的。
相较于现有技术,本发明实施例的信息媒介的专题阶段性摘要的生成方法利用主题抽取方法对各新闻文档进行主题抽取从而完成文档集到主题集的转换,然后利用话题检测与追踪技术对主题集进行话题的二次聚类,最后根据聚类结果来完成新闻专题阶段性摘要的生成。相较于现有的多文档摘要技术,本发明的方法具有生成的专题阶段性摘要有较好的召回率的优点。
附图说明
图1为本发明优选实施例的信息媒介的专题阶段性摘要的生成方法方框图;
图2为本发明优选实施例中新闻专题阶段性摘要生成的简要流程示意图;
图3为本发明优选实施例中双向聚类结果示意图;
图4为本发明优选实施例中Rouge-S4R折线示意图;
图5为本发明优选实施例中Rouge-S9R折线示意图。
具体实施方式
下面结合附图说明及具体实施方式对本发明进进一步说明。
本发明的所述信息媒介包括网络文本新闻,下文为方便描述主要以新闻代表信息媒介。
新闻主题:本发明中特指单个新闻文档的主题信息。本发明不涉及各种主题模型的构建及其应用,而是依照传统的做法,以新闻的主题句代表新闻的主题,因此可以利用主题句的抽取技术来获取新闻的主题信息。新闻专题:指与某一核心的新闻事件或新闻话题有关的新闻集合,通常连续报道并形成一定规模,具有新闻的时效性、内容的丰富性和信息的集成性等特点。例如,本文讨论的“马航MH370航班失联”属于一个新闻专题。目前大部分的新闻专题都是指网络新闻专题,都包含了一定的人工环节,例如专题的策划报道和跟进或者报道后文本的归类等。本发明的描述中只讨论新闻专题的文本及其内容,而不考虑新闻专题的新闻学特点。
新闻话题:话题检测与追踪(Topic Detection and Tracking,TDT)评测任务对话题的定义是:一个核心事件或活动以及所有与之直接相关的事件和活动。我们将该定义应用于新闻,由此产生新闻话题的概念。尽管新闻专题和新闻话题的概念相差不多,但我们认为新闻专题比新闻话题的范围更广:新闻专题是从新闻学的角度描述、报道甚至评论新闻核心事件进而形成整个文档的集合,而新闻话题更侧重于内容的分类。例如,在“马航MH370航班失联”专题中,凡是涉及“MH370”航班的相关报道都可以被认为是属于该专题的内容,但这些内容不一定属于同一个话题(或分类)。在新闻专题中,经常会从某些特定视角进行报道或讨论,每个特定视角都可以被称为新闻专题的一个话题。因此,一个新闻专题可能包含了多个话题,而且话题之间具有一定的交集或关联。在“马航MH370航班失联”专题中,“探索搜救区域”、“中国政府行动”等视角是两个存在一定交集的新闻话题。一个新闻话题通常由多个新闻文档汇聚而成,可以利用TDT技术对多篇内容相关的新闻进行分析和处理,进而获得其话题信息。
新闻专题的阶段性摘要:指新闻专题在一个特定时间阶段的内容摘要。
请参阅图1,其是本发明优选实施例的信息媒介的专题阶段性摘要的生成方法的方框图。
本发明优选实施例的信息媒介的专题阶段性摘要的生成方法包括步骤:
S1:获取特定时间段内的各信息媒介的文档;
本步骤中,用于在一个时间段内获取各种信息媒介的文档,以便于进行生成主题集。
S2:对所述各信息媒介的文档进行主题抽取并生成主题集;
S3:对生成的所述主题集利用话题检测与追踪技术进行话题聚类并生成信息媒介专题的阶段性摘要。
在步骤S2中,所述对所述各信息媒介的文档进行主题抽取并生成主题集的步骤包括:
计算各信息媒介的文档中句子的度中心性;
计算信息媒介的句子的位置信息;
结合句子的度中心性和位置信息完成对信息媒介主题的抽取。
具体地,在各类主题抽取算法中,这里以基于图论的主题抽取为例进行说明。借助于图论的概念,在将文档划分为句子的集合后,若以句子之间的关系表示图的边,整篇文档就可以表示为一个以句子为节点的关系图。如果一个句子在图中对应节点的度中心性(Degree Centrality)越大,那么它在句子集合中将处于越中心(central)的位置,对主题的贡献也就越大,越有可能成为主题句。由于是单文档的主题抽取,句子之间都存在一定的关联,我们直接将句子与其他句子的相似度之和作为句子在图中的度中心性的度量。句子相似度可以利用句子的词的tfidf(tfidf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。)值计算余弦相似度而得到。生成过程如下:
S i m ( s i , s j ) = Σ l n w i k × w j k Σ l n w i k 2 × Σ 1 n w j k 2 - - - ( 1 )
其中,si、sj是待计算相似度的两个句子,wik是第k个词在句子si中的tfidf值,wjk是第k个词在句子sj中的tfidf值。
在新闻中,首句通常是对整篇新闻内容的概括或综述,传递的信息量较大:其他位置的句子,对突出主题的作用略低。因此在抽取主题时,需要考虑新闻句子的位置加权[11]
L o c ( s i ) = n - i + 1 n - - - ( 2 )
其中,n表示每篇新闻文档的句子总数。
因此,结合度中心性和新闻的位置信息,可以完成对新闻主题的抽取。对于待抽取主题的新闻文档D,有:
ET(Si)=aΣSiml(si,sj)+bLoc(si)    (3)
其中si、sj表示文档D的第i、j(i≠j)句,ΣSiml(si,sj)表示句子Si与其他句子之间的相似度之和,Loc(si)表示新闻句子的位置信息对主题抽取的加权,a和b是系数,a=b=0.5。
进一步地,所述生成信息媒介专题的阶段性摘要的步骤包括:
对所述生成的主题集进行基于时间流的双向聚类;
对经过双向聚类生成的话题进行差集或交集分析以提取共同关注的话题和新产生的话题;
对聚类生成的重复的话题进行二次聚类生成所述信息媒介专题的阶段性摘要。
具体地,这里首先对Single Pass聚类算法进行介绍。Single Pass聚类算法常被用来实现话题的检测和追踪。其主要思想是,对于依次到达的数据流,通过判断当前的待处理数据与已有的话题类别的匹配程度(通常是比较内容的余弦相似度与聚类阈值的大小),将该数据归类到已有话题类别或者为其创建新的话题类别,从而实现对整个数据流集合的动态聚类和类别划分。Single Pass算法是一种单向聚类,最终的类别划分结果依赖于数据流的输入次序,即对于同一数据流集合不同的输入次序会导致不同的聚类结果。Single Pass算法有一个优点,即在聚类过程中,无需事先指定类别的数量,该算法能在聚类过程中根据需要自动创建新的类别。这优点正是其他一些聚类算法如K-means(K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。)所不具备的。在面对新闻报道过程中随时可能产生的新话题时,Single Pass聚类算法具有较大优势。本发明利用SinglePass算法对新闻专题进行基于时间流的双向聚类,然后再对双向聚类结果的差集或交集进行分析和处理,不仅能够降低Single Pass算法的单向性聚类带来的负面影响,也能够有效区分被共同关注的话题和新形成的话题(或正在消亡的话题),提高话题检测和追踪的效果。本发明采用SinglePass进行新闻专题的阶段性摘要生成过程如图2的简单流程图所示。根据本发明上述S2步骤中的主题抽取算法对新闻专题一个时间段内各新闻文档进行单文档的主题抽取形成主题集,然后按照时间顺序对主题集进行基于时间流的Single Pass双向聚类,分别得到正向和逆向的聚类结果。
再请参阅图3,图3是采用Single Pass算法进行的双向聚类结果示意图。图3中的Cf和Cb分别表示正向和逆向聚类得到的类别,类别中的点分别表示单个新闻文档的主题。在这些类别中,存在一些不重叠的区域(如图3中类别Cft和Cbs各自的差集)或单独的区域(如图3中的类别Cfj和Cbi),可能分别对应了不同的新形成的话题(或正在消亡的话题)分布,这些话题在双向聚类时已经被发现,因此不需要再次聚类。但聚类结果中还可能存在一些特殊的重叠区域,对应了正逆向聚类结果的主题集交集(如图3中正向类别Cft和逆向Cbs的交集),包含了该时间段内已存在的、被多篇新闻共同关注的重要话题,对重叠区域内的主题集合再次进行聚类可以得到其话题内容。结合第一次的基于时间流的双向聚类和第二次的重叠区域再聚类,也即二次聚类,我们可以得到新闻专题在该时间段内的阶段性摘要。
通过上述步骤S1、S2和S3,在完成对新闻专题某时间段的新闻文档集的各文档进行主题抽取之后,文档集就转换成了主题集,以及对其进行基于时间流的Single Pass双向聚类和二次聚类完成生成新闻专题的阶段性摘要。
进一步地,为了尽量将所有的文档分到具体的类别里,我们双向聚类的过程中进行了迭代。下面是详细的算法:
详细的算法。
输入:按照时间顺序的新闻专题的某时间段文档集对应的主题集T={t1,t2,…,tn}(ti表示编号为i的文档的主题信息)、聚类的阈值threshold以及判断一个类别能否真正成为话题类的成类阈值λ。
输出:新闻专题在该时间段的阶段性摘要。
⑴if(Sim(t1,tn))>=threshold,返回tn作为最终摘要,聚类结束。这种情况通常出现在新闻专题的消亡期,该阶段的话题基本只有一个,集合内第一条主题信息和最后一条的主题信息基本一样,很少有新的变化,返回时间靠后的主题信息tn作为阶段性摘要。
⑵双向聚类初始化:对于正向聚类,Cf1={t1},Cf={Cf1},Tf=T-{t1}={t2,…,tn};对于逆向聚类,Cb1={tn},Cb={Cb1},Tb=逆序(T)-{tn}={tn-1,…,t1}。初始化的作用是,根据聚类方向将该方向上的第一个文档的主题信息预设为第一个话题,同时将余下的主题集作为待聚类的信息。
⑶正向聚类,并迭代。
①对集合Tf中的每一个ti,逐一计算ti与Cf中所有类别的相似度,得到最大值maxSim。如果maxSim>=threshold,则将ti划入maxSim对应的类,并更新该类别的中心;否则创建新类Cfk={ti},其中k=|Cf|+1。更新Tf(即将已聚类的主题信息ti从Tf中删去),更新Cf(即将新类别Cfk加入到Cf)。
②更新迭代次数。并再次聚类直至迭代次数为0。
③正向聚类结束,得到Cf,并删去Cf中文档数小于成类阈值的类别(这里我们设定成类阈值为该阶段新闻文档总数的10%,小于这个值的类别被认为是较为离散的类别,不具备成为摘要的潜在价值)。
⑷逆向聚类,并迭代。
①依次对集合Tb中的每一个ti,逐一计算ti与Cb中所有类别的相似度,得到最大值maxSim。如果maxSim>=threshold,则将ti划入maxSim对应的类,并更新该类别的中心;否则创建新类Cbk={ti},其中k=|Cb|+1。更新Tb,更新Cb。
②更新迭代次数。并再次聚类直至迭代次数为0。
③逆向聚类结束,得到Cb,并删去Cb中文档数小于成类阈值的类别。
⑸主题交集再聚类。令TS=∪(Cfm∩Cbn),其中Cfm和Cbn分别指Cf和Cb中的任一话题类别,Ts表示正逆向聚类结果中被重复聚类的主题集合,对应了T中的已经存在的、被共同关注的重要话题,我们简单地将其视为该阶段内重要的话题信息。直接计算Ts的质心,然后按照时间顺序依次计算该集合的每条主题信息与质心的相似度,如果大于threshold,将该主题信息划入再聚类的类别Cs中,否则从Ts删去该主题信息。直至Ts为空,再聚类结束并得到最终的Cs
⑹阶段性摘要生成。对Cs类中取距离类中心最近的三个新闻文档,对Cf和Cb的每个类分别取距离类中心最近的一个新闻文档,将这些文档的主题按照时间次序生成新闻的阶段性摘要。
步骤(5)中,Ts的获取我们采用过程如:经过第一次的双向聚类后,分别得到一些正逆向的聚类结果。但由于Single Pass算法的单向性,对于任一方向上的聚类,每条主题信息要么被成功聚类只在该方向的某个类别中出现一次,要么聚类不成功根本不会出现在该方向上的任一类别中,也即每条主题信息在该方向的聚类结果中最多只可能出现一次(正逆向皆是如此),因此直接统计正逆向聚类结果中的所有主题信息,次数等于2的被直接划分到集合Ts中。
另外,在通过本发明的信息媒介的专题阶段性摘要的生成方法生成专题阶段性摘要后,本发明在设计过程中还对实验进行结果分析,具体如下:
提供语料:
我们收集了2010年5月到2014年8月期间的163个新闻专题,并设计了专门的爬虫,从腾讯新闻网3进行页面抓取,共34547篇新闻。但是由于已标注语料的匮乏及其权威性问题,我们选择“马航MH370航班失联”专题的一个时间段作为研究对象,即3月8日至4月9日,共有33天3404篇新闻。阶段性摘要的标注语料来自“中国政府网”的“我们在行动”专栏4,该专栏有3月8日至4月9日期间有关“马航MH370航班失联”的每日简短摘要,分为“外方事件全纪录”和“政府行动”。我们以天为单位,将每天的“政府行动”的每篇链接新闻的首段以及“外方事件全纪录”的内容合并作为当天的阶段性摘要的人工摘要(标注语料),用以评价生成的阶段性摘要的质量。其中3月8日至3月31日的语料作为我们的训练集,4月1日至4月9日的语料作为测试集。在实验过程中,我们未讨论如何对“马航MH370航班失联”的阶段进行划分,而是以天为时间单位对比和分析本文方法生成的阶段性摘要的质量。
设计评价指标并进行评价:
Rouge[文献信息:Chin-Yew Lin.Rouge:A Package for AutomaticEvaluation of Summaries[C].In Proceeding of Workshop on TextSummarization Branches Out,Post-Conference Workshop of ACL2004,Barcelona,Spain.]指标最早应用于文档理解会议(Document UnderstandConference,DUC)的评测比赛中,它通过对比自动摘要和人工摘要之间的词(或词序列)的共现程度,来定量计算自动摘要与人工摘要的对比质量,从而衡量自动摘要算法的性能。Rouge包含多个具体的指标,本文只计算一些指标对应的召回率(Rouge-R)。
①Rouge-NR:通过计算自动摘要(Candidate Summaries,CS)与人工摘要(Reference Summaries,RS)中的共同出现的n-gram词对与人工摘要的n-gram词对的比值,来判断自动摘要的质量。本文采用Rouge-1R和Rouge-2。
R o u g e - N R = Σ S ∈ { R S } Σ gram n ∈ S Count m a t c h ( gram n ) Σ S ∈ { R S } Σ gram n ∈ S C o u n t ( gram n ) - - - ( 3 )
②Rouge-LR:通过计算自动摘要和人工摘要的最长公共子序列(Longest Common Subsequence,LCS)长度与人工摘要长度的比值,来判断自动摘要的质量。
R o u g e - L R = L e n g t h ( L C S ( R S , C S ) ) L e n g t h ( R S ) - - - ( 4 )
③Rouge-SR:该指标与Rouge-NR做法有点类似,Rouge-NR是统计N-gram词对的匹配情况,而Rouge-SR统计skip(n)-gram词对的匹配情况,即两个词之间最多可以间隔n个词。C(Length(RS),n)是组合数本文采用Rouge-S4R和Rouge-S9R。
R o u g e - S R = SKIP n ( R S , C S ) C ( L e n g t h ( R S ) , n ) - - - ( 5 )
④Rouge-WR:该指标是对Rouge-LR的改进。考虑到LCS中的连续子串比单个字符(或词)具有更佳的匹配作用,因此计算时WLCS(即Weighted LCS)对LCS中的连续子串进行了加权。f是加权函数,这里我们取f(k)=k2,f-1是f的逆函数。
R o u g e - W R = f - 1 ( W L C S ( R S , C S ) f ( L e n g t h ( R S ) ) ) - - - ( 6 )
实验及实验结果:
为了验证本发明实施例的方法的新闻专题阶段性摘要的生成方法有效性,我们对本发明的方法(记为SD-FEL2C)进行了实验,即在生成新闻专题的阶段性摘要时按照FELC的思路,先对各新闻文档进行主题抽取,然后在话题聚类阶段采用上述介绍的二次聚类算法。我们还进行了一项对比实验,记为SD-FEL1C,它与SD-FEL2C的区别在于话题聚类阶段只是进行了Single Pass双向聚类而未进行主题交集的再聚类,用以验证第二次聚类的必要性。此外我们进行了SD-FCLE实验,即直接对新闻文档的集合按照本文的二次聚类思路进行话题聚类,而后根据聚类结果对相应文档进行主题抽取生成阶段性摘要,用于比较主题抽取和话题聚类的先后顺序对摘要的影响。
实验结果如表1:
表1. 4月1日至4月9日的Rouge-R平均值对比
表1给出了上述对比方法的一组数据,统计的是语料中2014年4月1日至4月9日Rouge-R指标的9天平均值。我们可以发现,无论是KE、BC还是本文方法的对比实验中,在生成新闻专题的阶段性摘要时,FELC的比FCLE的效果好,Rouge-R的各项指标都有不同程度的提高。二元词的召回率Rouge-2R指标中,KE-FELC比KE-FCLE提高3.26%,BC-FELC比BC-FCLE提高3.01%,SD-FEL2C比SD-FCLE提高3.59%,说明在生成新闻专题的阶段性摘要时,先文档集进行主题抽取形成主题集,然后再对主题集进行话题聚类,能够提升摘要的质量。我们分析,由于新闻文档的篇幅较长、字句较多,并且大部分的新闻稿件经常采用先在新闻的首段进行概述而后详细展开内容的写作形式,文中经常引述一些相关人物的观点甚至言论全文,多种新闻学因素造成了信息的冗余,并带来杂音或噪声,对文档的向量表示和相关计算产生额外的干扰,影响话题聚类的效果。先进行主题抽取再进行话题聚类的做法,能够突出文档的重要内容而略去低信息量词语(或句子)在新闻文档中的作用,不仅降低了文档表示时的向量空间维度,有利于缓解数据的稀疏性,也增强了相关新闻文档的耦合性,提高话题检测与追踪的效果。因此,在生成新闻专题的阶段性摘要时,先对新闻文档进行主题抽取而后对主题集进行话题聚类,有助于对摘要的质量的提高。
表1中,二次聚类(SD-FEL2C)的效果明显优于单次聚类(SD-FEL1C)的效果,前者的各项Rouge-R指标均比后者的指标有显著的提高,证实了基于时间流的双向聚类过程中有多个文档同时被正向类别和逆向类别所包含,也说明了新闻专题阶段性摘要的生成过程中第二次聚类的必要性。此外,从表1中我们可以看出,SD-FEL1C除了Rouge-2R略低,但其他Rouge-R指标均比SD-FCLE高,也佐证了先主题抽取再话题聚类的顺序较适合于新闻专题阶段性摘要的生成。在多文档摘要的生成方法对比上,表1中的LexRank和ETTS方法的Rouge-1R和Rouge-LR指标尚佳,但其他Rouge指标偏低。在计算Rouge值时,为了避免重复信息或冗余信息的作用被放大,我们对多次出现的同一个词或词串只统计一次,弱化了这些对Rouge的贡献。而LexRank和ETTS在向量的迭代计算过程中,中心性(Centrality)的作用过于突出,导致了信息的重要性被增强而信息的多样性被弱化,因此LexRank和ETTS方法生成的摘要中更多地强调新闻文档中的一些重复信息。
例如,LexRank和ETTS方法生成的摘要中,4月1日都重复强调澳大利亚成立了“多国协调中心”,4月5日都重复介绍了当日“搜寻海域”的情况,4月6日都重复提及中国“海巡-01”号监测到的信号与失联客机黑匣子所发信号频率一致。由于摘要都有句数或篇幅的限制,这些重复的信息尽管突出了“马航MH370航班失联”专题在当时的重要话题,但另一方面却影响了其他话题在摘要中的体现,导致了信息的多样性不佳。以Rouge-S4R和Rouge-S9R为例,图3和图4分别给出了对语料中4月1日至4月9日的每日新闻集采用SD-FEL2C、LexRank和ETTS三种方法生成的摘要折线图,可以发现LexRank和ETTS这两种方法在4月1日、5日、6日、9日的几项Rouge-R指标均不如本文方法SD-FEL2C。
请参阅表2,表2给出了利用本文方法对语料中2014年4月1日至4月9日的每日新闻文档集生成的自动摘要的各项Rouge-R值。
表2.本文方法4月1日至4月9日的Rouge-R值
从表2可以看出,各天的Rouge-R不是很均衡,彼此相差较大,其中4月1日、5日、6日的自动摘要质量较好,4月2日、3日、4日、8日的自动摘要质量较差。一方面说明了本文的算法还是有提升的空间,另一方面是由于自动摘要和人工摘要的内容存在一些偏差,主要表现在:
①标注语料的人工局限性。标注语料通常都需要人工进行,工作量巨大,难免出现一些疏漏。以4月2日为例,当天的新闻集出现多篇有关MH370航班的法律索赔的新闻文本,形成一个有关法律索赔的新话题,但本文的标注语料中却没有体现,导致了4月2日部分Rouge指标较低。
②新闻话题的信息滞后性。由于信息的滞后性,新闻见稿时只能报道之前发生的事件或内容,而来不及报道最新进展。新闻专题的阶段性摘要也存在这种现象。标注语料中,有几天的人工摘要突出了前一天重要的新闻话题,而较少提及当天的新闻话题的。例如,4月3日的人工摘要中,涉及了4月2日召开的家属见面会话题和4月2日捞起的航班残骸疑似物话题,但对4月3日举行的马来西亚和澳大利亚两国元首举行的关于最新进展的新闻发布会话题没有提及,而该话题的相关内容却出现在4月4日的人工摘要中,导致了4月3日和4月4日部分Rouge指标较低。
相较于现有技术,本发明实施例的信息媒介的专题阶段性摘要的生成方法利用主题抽取方法对各新闻文档进行主题抽取从而完成文档集到主题集的转换,然后利用TDT技术对主题集进行话题的二次聚类,最后根据聚类结果来完成新闻专题阶段性摘要的生成。相较于现有的多文档摘要技术,本发明的方法具有较好的召回率的优点。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (7)

1.一种信息媒介的专题阶段性摘要的生成方法,其特征在于,包括步骤:
获取特定时间段内的各信息媒介的文档;
对所述各信息媒介的文档进行主题抽取并生成主题集;
对所述主题集利用话题检测与追踪技术进行话题聚类,并生成信息媒介专题的阶段性摘要。
2.根据权利要求1所述的信息媒介的专题阶段性摘要的生成方法,其特征在于,所述对信息媒介的文档进行主题抽取并生成主题集的步骤包括:
计算各信息媒介的文档中句子的度中心性;
计算信息媒介的句子的位置信息;
结合句子的度中心性和位置信息完成对信息媒介主题的抽取。
3.根据权利要求2所述的信息媒介的专题阶段性摘要的生成方法,其特征在于,所述信息媒介的文档中句子的度中心性的计算依据如下公式:
S i m ( s i , s j ) Σ l n w i k × w j k Σ l n w i k 2 × Σ l n w j k 2
其中,si、sj是待计算相似度的两个句子,wik是第k个词在句子si中的tfidf值,wjk是第k个词在句子Sj的余弦相似度值。
4.根据权利要求3所述的信息媒介的专题阶段性摘要的生成方法,其特征在于,所述计算信息媒介的句子的位置信息依据公式:
L o c ( s i ) = n - i + 1 n ,
Loc(si)表示新闻句子的位置信息对主题抽取的加权。n表示每篇新闻文档的句子总数。
5.根据权利要求4所述的信息媒介的专题阶段性摘要的生成方法,其特征在于,所述结合句子的度中心性和位置信息完成对信息媒介主题的抽取依据如下公式:
ET(Si)=aΣSim1(si,sj)+bLoc(si)
其中si、sj表示文档D的第i、j(i≠j)句,ΣSim1(si,sj)表示句子Si与其他句子之间的相似度之和,Loc(si)表示新闻句子的位置信息对主题抽取的加权,a和b是系数,a=b=0.5。
6.根据权利要求2所述的信息媒介的专题阶段性摘要的生成方法,其特征在于,所述生成信息媒介专题的阶段性摘要的步骤包括:
对所述生成的主题集进行基于时间流的双向聚类;
对经过双向聚类生成的话题进行差集或交集分析以提取共同关注的话题和新产生的话题;
对聚类生成的重复的话题进行二次聚类生成所述信息媒介专题的阶段性摘要。
7.根据权利要求6所述的信息媒介的专题阶段性摘要的生成方法,其特征在于,所述生成信息媒介专题的阶段性摘要的聚类或双向聚类是基于Single Pass聚类算法生成的。
CN201510366843.8A 2015-06-29 2015-06-29 一种信息媒介的专题阶段性摘要的生成方法 Expired - Fee Related CN105005590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510366843.8A CN105005590B (zh) 2015-06-29 2015-06-29 一种信息媒介的专题阶段性摘要的生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510366843.8A CN105005590B (zh) 2015-06-29 2015-06-29 一种信息媒介的专题阶段性摘要的生成方法

Publications (2)

Publication Number Publication Date
CN105005590A true CN105005590A (zh) 2015-10-28
CN105005590B CN105005590B (zh) 2019-02-22

Family

ID=54378266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510366843.8A Expired - Fee Related CN105005590B (zh) 2015-06-29 2015-06-29 一种信息媒介的专题阶段性摘要的生成方法

Country Status (1)

Country Link
CN (1) CN105005590B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787121A (zh) * 2016-03-25 2016-07-20 大连理工大学 一种基于多故事线的微博事件摘要提取方法
CN105912526A (zh) * 2016-04-15 2016-08-31 北京大学 一种面向体育比赛直播文字的体育新闻自动构建方法及装置
CN106372208A (zh) * 2016-09-05 2017-02-01 东南大学 一种基于语句相似度的话题观点聚类方法
CN106778895A (zh) * 2016-12-29 2017-05-31 西安工程大学 基于局部密度和single‑pass的核k均值方法
CN108304445A (zh) * 2017-12-07 2018-07-20 新华网股份有限公司 一种文本摘要生成方法和装置
CN110633406A (zh) * 2018-06-06 2019-12-31 北京百度网讯科技有限公司 事件专题的生成方法、装置、存储介质和终端设备
CN112597269A (zh) * 2020-12-25 2021-04-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 流式数据事件文本专题及检测系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘静 等: "基于依存句法分析的多主题文本摘要研究", 《情报杂志》 *
吴少凯: "基于桶的二次聚类新闻热点话题挖掘及应用", 《中国优秀硕士论文全文数据库》 *
廉捷 等: "网络舆情中的信息预处理与自动摘要算法", 《北京交通大学学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787121A (zh) * 2016-03-25 2016-07-20 大连理工大学 一种基于多故事线的微博事件摘要提取方法
CN105787121B (zh) * 2016-03-25 2018-08-14 大连理工大学 一种基于多故事线的微博事件摘要提取方法
CN105912526A (zh) * 2016-04-15 2016-08-31 北京大学 一种面向体育比赛直播文字的体育新闻自动构建方法及装置
CN106372208A (zh) * 2016-09-05 2017-02-01 东南大学 一种基于语句相似度的话题观点聚类方法
CN106372208B (zh) * 2016-09-05 2019-07-12 东南大学 一种基于语句相似度的话题观点聚类方法
CN106778895A (zh) * 2016-12-29 2017-05-31 西安工程大学 基于局部密度和single‑pass的核k均值方法
CN108304445A (zh) * 2017-12-07 2018-07-20 新华网股份有限公司 一种文本摘要生成方法和装置
CN108304445B (zh) * 2017-12-07 2021-08-03 新华网股份有限公司 一种文本摘要生成方法和装置
CN110633406A (zh) * 2018-06-06 2019-12-31 北京百度网讯科技有限公司 事件专题的生成方法、装置、存储介质和终端设备
CN112597269A (zh) * 2020-12-25 2021-04-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 流式数据事件文本专题及检测系统

Also Published As

Publication number Publication date
CN105005590B (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
CN105005590A (zh) 一种信息媒介的专题阶段性摘要的生成方法
CN101398814B (zh) 一种同时抽取文档摘要和关键词的方法及系统
CN110362674B (zh) 一种基于卷积神经网络的微博新闻摘要抽取式生成方法
CN107122413A (zh) 一种基于图模型的关键词提取方法及装置
CN104915446A (zh) 基于新闻的事件演化关系自动提取方法及其系统
CN101174273A (zh) 基于元数据分析的新闻事件检测方法
CN101320375A (zh) 基于用户点击行为的数字图书搜索方法
CN101609450A (zh) 基于训练集的网页分类方法
CN111581474A (zh) 基于多头注意力机制的涉案微博评论的评价对象抽取方法
CN103823896A (zh) 一种学科特征值算法及基于其的项目评审专家推荐算法
CN105488077A (zh) 生成内容标签的方法和装置
Kumar et al. Legal document summarization using latent dirichlet allocation
CN106407113A (zh) 一种基于Stack Overflow和commit库的bug定位方法
O'Neill et al. An analysis of topic modelling for legislative texts
CN106202065A (zh) 一种跨语言话题检测方法及系统
CN110781679A (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN110134847A (zh) 一种基于互联网金融信息的热点挖掘方法及系统
CN112016294B (zh) 一种基于文本的新闻重要性评估方法、装置及电子设备
CN105183765A (zh) 一种基于大数据的话题抽取方法
CN111984782A (zh) 藏文文本摘要生成方法和系统
CN114647715A (zh) 一种基于预训练语言模型的实体识别方法
CN103744838A (zh) 一种用于度量主流情感信息的中文情感文摘系统及方法
Zhang et al. A hierarchical attention seq2seq model with copynet for text summarization
CN115146912A (zh) 企业专利集与业务相关性测量方法和系统
Govindaraju et al. Handwritten document retrieval strategies

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190222

Termination date: 20200629

CF01 Termination of patent right due to non-payment of annual fee