CN1710563A - 一种重要新闻事件检测和摘要的方法 - Google Patents

一种重要新闻事件检测和摘要的方法 Download PDF

Info

Publication number
CN1710563A
CN1710563A CN 200510084213 CN200510084213A CN1710563A CN 1710563 A CN1710563 A CN 1710563A CN 200510084213 CN200510084213 CN 200510084213 CN 200510084213 A CN200510084213 A CN 200510084213A CN 1710563 A CN1710563 A CN 1710563A
Authority
CN
China
Prior art keywords
incident
cluster
event
similarity
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200510084213
Other languages
English (en)
Inventor
彭宇新
吴於茜
陈晓欧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Inst Of Computer Science & Technology Peking University
Peking University Founder Group Co Ltd
Original Assignee
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Inst Of Computer Science & Technology Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIDA FANGZHENG TECHN INST Co Ltd BEIJING, Inst Of Computer Science & Technology Peking University, Peking University Founder Group Co Ltd filed Critical BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Priority to CN 200510084213 priority Critical patent/CN1710563A/zh
Publication of CN1710563A publication Critical patent/CN1710563A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于视频分析和检索技术领域,具体涉及一种重要新闻事件检测和摘要的方法。现有的视频摘要方法主要是针对一段视频进行摘要,但如何在多个电视台或电视频道的新闻视频数据库里,自动检测重要新闻,并按照重要度从高到低形成用户指定时间的新闻摘要,现有技术并没有涉及。本发明首先使用视频事件相似度的度量方法,计算出新闻视频库里所有新闻事件的相似度;然后,使用聚类算法,把同一新闻事件的不同报道分割为一个个聚类;最后,根据每个事件聚类中的成员数目及播报的频道和时间,自动检测重要新闻事件,并按照重要度高低,形成用户指定时间的新闻摘要。实践结果表明,本发明能够有效检测重要新闻并形成相应的新闻摘要。

Description

一种重要新闻事件检测和摘要的方法
技术领域
本发明属于视频分析和检索技术领域,具体涉及一种重要新闻事件检测和摘要的方法。
背景技术
随着电视台视频节目的积累、网上数字视频的增加,以及数字图书馆、视频点播、远程教学等大量的多媒体应用,如何有效组织海量视频数据库,以方便人们的快速浏览和检索,一直是计算机领域的热点问题。在各种类型的视频中,新闻视频可以说是最重要的一种视频形式。它不仅具有重要的现实利用价值,还具有宝贵的历史珍藏价值,对于政府、电视台、新闻媒体及普通用户都是不可缺少的。目前,除了已有的海量新闻视频库以外,全世界每天都有大量的新闻报道,人们不可能观看全世界所有国家所有频道的所有新闻报道。在这种情况下,下列应用对于人们是至关重要的,例如:(1)人们需要观看关于同一个新闻事件的不同报道,如关于伦敦爆炸事件的新闻汇总,以了解世界不同媒体的报道视角和报道内容等;(2)在人们不知道当天发生什么新闻事件的前提下,他们希望观看当天的重要新闻事件;(3)在每天新闻报道难以计数的情况下,人们也会希望看到当天新闻报道的一个摘要。在上述这些应用中,一个基本的问题是如何找到同一个事件的不同报道?全世界不同国家、不同地区、不同频道对同一个新闻事件的报道,画面及内容会有很大区别。即使是同一国家的同一地区的同一频道对同一个事件的报道,即使播出的时间不同,内容也会有所差异。如黄金时间的简短报道和其它时间的详细报道。因此,让计算机自动检测不同的新闻报道是否属于同一个事件,是现有技术面临的一个非常困难的技术问题。在上述这些应用中,要解决的两个基本的问题是:(1)如何度量两个新闻视频的相似度?(2)如何把同一事件的新闻报道聚类在一起?
关于新闻视频的研究,目前已经有了一些工作。但大多数研究集中在新闻事件的检测上。因为新闻视频由新闻事件组成,而每一个新闻事件基本上先由播音员概要介绍该事件的主要内容,然后是关于该事件的详细报道。根据这个视频结构,新闻事件检测的基本方法是播音员的检测,因为两个播音员之间通常是一个新闻事件。播音员检测的基本方法包括播音员建模的方法(文献“Automatic parsing of news video,”[H.J.Zhang,Y.Gong,S.W.Smoliar,and S.Y.Tan,International Conference on Multimedia Computing and Systems,1994,pp.45-54.])和基于新闻结构的聚类方法(文献“The Segmentation ofNews Video into Story Units,”[L Chaisorn,T-S Chua,and C-H Lee,International Conference on Multimedia and Expo,2002.])。另外,一些大型的新闻视频检索系统也已经出现,如CMU的InfoMedia项目,目前已经发展到InfoMedia II。国立新加坡大学的VideoQA系统。InfoMedia项目的最新进展是提出了Video Collages,以此作为一个有效接口来浏览和检索新闻视频库。该系统支持用户通过地图、文本和其它结构化信息进行的检索。在VideoQA系统里,用户通过文本信息进行检索,系统返回相关的新闻片断作为答案。已有的新闻检索系统,主要是基于查询的检索:用户给出要查询的新闻例子,系统检索新闻视频库里是否有该新闻?如有,则返回检索到的新闻作为答案。这种方法要求用户必须有一个查询例子,但是,当用户没有查询例子时,这种方法则无法检索。实际上,没有查询例子的检索,如查询“今天的重要新闻是什么?”,“播放今天重要新闻的一个摘要”等,即关于重要新闻事件检测和摘要的方法,目前还没有看到相关的工作、文献和专利。
发明内容
针对上述现有技术的不足,本发明的目的是提出一种重要新闻事件检测和摘要的方法。该方法能够在新闻视频数据库里,自动检测重要新闻,并按重要度从高到低形成用户指定时间的新闻摘要,从而更加充分发挥视频分析和检索技术在当今信息社会中的巨大作用。
本发明的目的是这样实现的:一种重要新闻事件检测的方法,包括以下步骤:
(1)使用视频片断相似度的度量方法,计算出新闻视频库里所有新闻事件的相似度;
(2)根据新闻事件的相似度,采用聚类算法,把所有新闻事件分割为一个个新闻事件聚类;
(3)基于上述得到的事件聚类,根据聚类中的成员数目及播报的频道和时间信息,检测出新闻中的重要事件。
具体来说,在上述步骤(1)中,首先进行镜头边界检测,把新闻视频库中的每个新闻事件分割为镜头;然后把每对相似镜头的相似值作为权值赋给G={X,Y,E}的每条边,这时的G就转化为一个带权的二分图,其中,X和Y表示两个新闻事件,E表示事件X和Y中每对镜头的相似值。使用图论的最优匹配算法,计算两个新闻事件X和Y的相似度为
Sim OM ( X , Y ) = ω OM ( X , Y ) min ( p , q ) - - - ( 1 )
其中,ωOM(X,Y)是在最优匹配算法以后得到的总权值。p和q表示事件X和Y的镜头数目,min(p,q)表示取p和q中的较小值,它的作用是把ωOM(X,Y)正则化到[0,1]。
更进一步,步骤(1)中,进行镜头边界检测最好使用时空切片算法。计算两个新闻事件X和Y的相似度时,采用的图论的最优匹配算法最好是Kuhn-Munkres算法。
再具体来说,在上述步骤(2)中,采用的聚类算法如下:给定新闻视频库中的所有事件,把所有事件之间的相似度建模为一个带权图G=(V,E),其中,V是新闻事件的集合,E是边的集合,表示新闻事件之间的相似度。本发明分解G为一个个子图(或聚类)。分解的原则是最小化聚类里的距离,同时最大化聚类间的距离。基于这个原则,本发明采用了标准化分割算法(Normalized Cut),循环地分解G为事件的聚类。标准化分割算法可以全局优化地分割G为两个不相邻的集合A和B,这是通过最小化下列公式实现的:
Ncut ( A , B ) = cut ( A , B ) volume ( A ) + cut ( A , B ) volume ( B ) - - - ( 2 )
其中
cut ( A , B ) = Σ X ∈ A , Y ∈ B Si m OM ( X , Y ) - - - ( 3 )
volume ( A ) = Σ X ∈ A , Y ∈ V Si m OM ( X , Y ) - - - ( 4 )
volume ( B ) = Σ X ∈ B , Y ∈ V Si m OM ( X , Y ) - - - ( 5 )
cut(A,B)是集合A中的事件和集合B中事件相似度的总和,volume(A)是集合A和集合V中事件相似度的总和,volume(B)是集合B和集合V中事件相似度的总和,SimOM(X,Y)是指公式(1),表示事件X与事件Y的相似度。公式(2)可以表示为:
D - 1 2 ( D - W ) D - 1 2 z = λz - - - ( 6 )
其中,D和W是|V|×|V|的矩阵,D是一个对角阵, D ( X , Y ) = Σ y ∈ V Si m OM ( X , Y ) , W是一个对称阵,W(X,Y)=SimOM(X,Y)。在公式(6),对应第二小特征值的特征向量被用于找到集合A和B。0被选择作为分割点,分割特征向量成为对应集合A和B的两个部分。上述算法被循环使用,直到某个聚类里所有事件相似度的平均值小于μ+ασ,μ和σ分别是图G中所有事件相似度的均值和方差,α是一个试验参数。
更进一步,步骤(3)中,检测重要新闻事件并形成摘要使用下面两个规则:
(A)  聚类大小规则:即一个事件播报次数的多少决定它是否是重要事件,根据用户指定的摘要时间,按照事件聚类成员的数目,从高到低选择重要事件;
(B)  播报的频道和时间规则:即如果几个事件聚类中的成员数目一样,则不同电视频道播报的事件,比仅仅一个频道播报的事件重要;和在不同时间段播报的同一事件,比仅仅一天的某一个时间播报的事件重要。
一种重要新闻事件摘要的方法,包括以下步骤:
(1)计算出新闻视频库里所有新闻事件的相似度;
(2)根据新闻事件的相似度,采用聚类算法,把所有新闻事件分割为一个个新闻事件聚类;
(3)基于上述得到的事件聚类,根据聚类中的成员数目及播报的频道和时间信息,检测出新闻中的重要事件;
(4)通过聚类中的代表事件来表示检测到的重要事件,并在选择的重要事件聚类C中,选择一个代表事件作为重要新闻摘要。
再进一步,在上述步骤(4)中,在选择的重要事件聚类C中,选择一个代表事件作为新闻摘要的方法如下:选择在事件聚类中的中心点即中心事件作为该聚类的代表事件。中心事件Mc,是在该聚类中和所有其它事件的相似度的和是最大的事件,如下列公式所示:
M c = max x ∈ C { Σ y ∈ C Si m OM ( x , y ) } - - - ( 7 )
其中,Mc表示选取的中心事件,max表示最大值,C表示选择的重要事件聚类,SimOM(X,Y)表示两个事件X和Y的相似度。
本发明的效果在于:现有的视频摘要方法主要是针对一段视频进行摘要,但如何在多个电视台或电视频道的新闻视频数据库里,自动检测重要新闻,并按照重要度从高到低形成用户指定时间的新闻摘要,现有技术并没有涉及。本发明提出了这个应用问题,并给出了解决这个问题的一个方法。采用本发明,不仅能够检测新闻视频库里的重要新闻事件,而且可以形成用户指定时间长度的重要新闻摘要。
本发明之所以具有如此显著的技术效果,其原因在于:
一、如前面技术内容所述,本发明提出利用图论的最优匹配算法来度量两个新闻事件的相似性,计算出新闻库里所有新闻事件的相似度;
二、然后,所有新闻事件被建模为一个完全的带权图,提出使用标准化分割算法(Normalized Cut)全局优化地分割这个带权图为一个个事件聚类;
三、最后,考虑结果聚类中的成员数目及播报的频道和时间,重要新闻事件可以被自动检测,并按照重要度的高低,形成用户指定时间长度的新闻摘要。在10个小时新闻视频库上的试验结果表明,本发明取得了很好的结果。
附图说明
图1是本发明的总体框架,是本发明中各步方法的流程示意图;
图2是本发明对一个新闻事件的聚类结果。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的描述。
图1列出了本发明各步方法的流程示意图,包括以下步骤:
1、镜头边界检测
首先使用时空切片算法(spatio-temporal slice)进行镜头边界检测,把新闻视频库中的每个新闻事件分割为镜头,关于时空切片算法的详细描述可以参考文献“Video Partitioning by Temporal Slice Coherency”[C.W.Ngo,T.C.Pong,and R.T.Chin,IEEE Transactions on Circuits and Systems for VideoTechnology,Vol.11,No.8,pp.941-953,August,2001]。
除了本发明所使用的时空切片算法以外,进行镜头分割的方法还有多种,例如:相邻帧相减,相邻帧的直方图求差,压缩域分割镜头等方法。这些方法都是本领域内的公知技术。
2、计算新闻事件之间的相似度
利用图论的最优匹配算法度量两个新闻事件的相似度的方法如下:把每对相似镜头的相似值作为杈值赋给G={X,Y,E}的每条边,这时的G就转化为一个带权的二分图,其中,X和Y表示两个新闻事件,E表示事件X和Y中每对镜头的相似值。本实施例中,具体计算最优匹配的Kuhn_Munkres算法如下:
(1)给出初始标 l ( x i ) = max j ω ij , l(yj)=0,i,j=1,2…,t,t=max(p,q),其中,p和q表示新闻事件X和Y的镜头数目;
(2)求出边集El={(xi,yj)|l(xi)+l(yj}=ωij)、Gl=(X,Y,El)及Gl中的一个匹配M;
(3)如M已饱和X的所有结点,则M即是G的最优匹配,计算结束,否则进行下一步;
(4)在X中找一M非饱和点x0,令A←{x0},B←φ,A,B是两个集合;
(5)若 N G l ( A ) = B , 则转第(9)步,否则进行下一步,其中, N G l ( A ) ⊆ Y k , 是与A中结点邻接的结点集合;
(6)找一结点 y ∈ N G l ( A ) - B ;
(7)若y是M饱和点,则找出y的配对点z,令A←A∪{z},B←B∪{y},转第(5)步,否则进行下一步;
(8)存在一条从x0到y的可增广路P,令M←ME(P),转第(3)步;
(9)按下式计算a值: a = min x i ∈ A y j ∉ N G l ( A ) { l ( x i ) + l ( y j ) - ω ij } , 修改标号:
根据l′求El′及Gl′
(10)l←l′,Gl←Gl′,转第(6)步;
这样,两个事件X和Y的相似度定义为
Sim OM ( X , Y ) = ω OM ( X , Y ) min ( p , q ) - - - ( 1 )
其中,ωOM(X,Y)是在Kuhn-Munkres算法以后得到的总权值。min(p,q)表示取p和q中的较小值,它的作用是把ωOM(X,Y)正则化到[0,1]。
视频事件相似度的度量方法,除了本发明使用的最优匹配方法以外,还有其它方法,如基于关键帧的直方图相交法,动态规划方法等。另外,实现最优匹配的方法除了上述的Kuhn-Munkres算法以外,还有其它方法,如最大网络流方法等。这些方法都是本领域内的公知技术。
3、新闻事件聚类
给定新闻视频库中的所有事件,把所有事件之间的相似度建模为一个带权图G=(V,E),其中,V是新闻事件的集合,E是边的集合,表示新闻事件之间的相似度。本发明分解G为一个个子图(或聚类)。分解的原则是最小化聚类里的距离,同时最大化聚类间的距离。基于这个原则,本发明采用了标准化分割算法(Normalized Cut),循环地分解G为事件的聚类。标准化分割算法可以全局优化地分割G为两个不相邻的集合A和B,这是通过最小化下列公式实现的:
Ncut ( A , B ) = cut ( A , B ) volume ( A ) + cut ( A , B ) volume ( B ) - - - ( 2 )
其中
cut ( A , B ) = Σ X ∈ A , Y ∈ B Si m OM ( X , Y ) - - - ( 3 )
volume ( A ) = Σ X ∈ A , Y ∈ V Si m OM ( X , Y ) - - - ( 4 )
volume ( B ) = Σ X ∈ B , Y ∈ V Si m OM ( X , Y ) - - - ( 5 )
cut(A,B)是集合A中的事件和集合B中事件相似度的总和,volume(A)是集合A和集合V中事件相似度的总和。SimOM(X,Y)是指公式(1),表示事件X与事件Y的相似度。公式(2)可以表示为:
D - 1 2 ( D - W ) D - 1 2 z = λz - - - ( 6 )
其中,D和W是|V|×|V|的矩阵,D是一个对角阵, D ( X , Y ) = Σ y ∈ V S im OM ( X , Y ) ,
W是一个对称阵,W(X,Y)=SimOM(X,Y)。在公式(6),对应第二小特征值的特征向量被用于找到集合A和B。0被选择作为分割点,分割特征向量成为对应集合A和B的两个部分。上述算法被循环使用,直到某个聚类里所有事件相似度的平均值小于μ+ασ,μ和σ分别是图G中所有事件相似度的均值和方差,α是一个试验参数。
关于聚类的方法,除了本发明使用的标准化分割算法(Normalized Cut)以外,还有其它方法,如K-means方法,single pass方法等。这些方法都是本领域内的公知技术。
4、重要新闻事件的检测和摘要
基于上述得到的事件聚类,根据聚类中的成员数目及播报的频道和时间,可以检测新闻中的重要事件。通过选择聚类中的代表事件,可以表示检测到的重要事件。当用户指定摘要时间,本实施例使用下面两个规则选择重要事件形成摘要:
(A)聚类大小。重要事件具有下列主要特征:不同的电视台和电视频道会在不同的时间段重复播报重要事件。如伊拉克战争,伦敦爆炸事件,因为是重要新闻,世界上绝大多数电视台都会在不同的时间段反复播报最新的进展。因此,一个事件播报的次数可以决定它是否是重要事件。根据用户指定的摘要时间,可以按照事件聚类成员的数目,从高到低选择重要事件形成新闻摘要。
(B)播报的频道和时间。如果几个事件聚类中的成员数目一样,本发明采用下列两个规则来决定这几个事件哪个更重要。(1)频道数目:不同电视频道播报的一个事件,比仅仅一个频道播报的事件重要;(2)时间段:在不同时间段播报的同一事件(例如,早上,中午,晚上),比仅仅一天的某一个时间播报的事件重要。在选择的重要事件聚类C中,一个代表事件被选择作为新闻摘要的方法如下:选择在事件聚类中的中心点(中心事件)作为该聚类的代表事件。中心事件Mc,是在该聚类中和所有其它事件的相似度的和是最大的事件,如下列公式所示:
M c = max x ∈ C { Σ y ∈ C Si m OM ( x , y ) } - - - ( 7 )
其中,Mc表示选取的中心点即中心事件,max表示最大值,C表示选择的重要事件聚类,SimOM(X,Y)表示两个事件X和Y的相似度。
关于在选择的重要事件聚类C中,选择一个代表事件作为重要新闻摘要的方法,除了本发明使用的事件聚类中心点的方法以外,还有其它方法,如选择聚类中时间长度最长的事件,或者时间长度居中的事件,或者时间长度最短的事件。
下面用试验结果来说明本发明的实际效果。使用了10个小时的新闻视频库做试验。这些新闻是从7个电视频道在4天的时间里连续录制的。通过观察这些新闻视频,同一个重要新闻事件,会被不同的电视频道反复播报,不同的播报会有编辑和侧重点的不同,但它们都会有一些共同的画面,如主要人物、地点和事件等。即使同一个频道,也会对重要事件在不同的时间段反复播报,播报的内容也会有编辑和时间长短的区别。
试验新闻视频库被分割为一个个新闻事件。总共有439个新闻事件。其中,报道超过一次的事件数目如表1所示,总共,有115次报道涉及41个事件。本发明的目标是:(1)把描绘同一事件的新闻报道分割到一个聚类里;(2)按照新闻事件重要度的高低,选取重要事件形成摘要。
表1  试验数据库中报道次数超过一次的新闻事件数目
    报道次数     具有该报道次数的事件数目
    6     3
    4     5
    3     11
    2     22
(1)聚类
本发明使用F-measure评价新闻事件聚类的性能。F-measure通过比较检测到的聚类和正确结果聚类(ground-truth)来评价聚类的质量。让T表示正确结果聚类,D表示检测到的聚类,F-measure定义为
F = 1 Z Σ C i ∈ T | C i | max C j ∈ D { F ( C i , C j ) } - - - ( 8 )
F ( C i , C j ) = 2 × Recall ( C i , C j ) × Precision ( C i , C j ) Recall ( C i , C j ) + Precision ( C i , C j ) - - - ( 9 )
其中,
Recall ( C i , C j ) = | C i ∩ C j | | C i | - - - ( 10 )
Precision ( C i , C j ) = | C i ∩ C j | | C j | - - - ( 11 )
Z = Σ C i ∈ T | C i |
是正则化常量。F-measure的范围在[0,1],它的值越大,表示聚类结果越好,反之越差。使用本发明的标准化分割算法(Normalized Cut)以后,得到291个聚类,F-measure=0.8225。其中,正确聚类的结果T=290,检测到的聚类D=291。一些重要新闻事件的聚类结果如表2所示。一些事件的聚类,如第1个事件和第3个事件的聚类,被分割成两个聚类。另外,在表2的聚类结果里,也包括了错误的事件,如第1个事件的聚类里包括了2个错误事件;第2个事件的聚类里也包括了2个错误事件,这是由于错误事件和正确事件在背景颜色上的相似性,使得最优匹配的相似度度量方法认为它们相似。因为本发明选择聚类的中心点(中心事件)作为聚类的代表,在形成新闻摘要时,如表2所示的错误事件都没有被选择作为视频摘要。图2显示了表2中事件6的聚类结果。虽然该事件的三个报道来自不同的频道,但它们都被正确地分割到一个聚类里,并且没有包括错误事件。
                   表2  重要新闻事件的聚类结果
    序号 新闻事件   报道次数 所有报道中镜头的平均数目 聚类结果 聚类中包括的错误事件
    1 北京六方会谈   6 55 2 2
    2 中国的新财政政策   6 22 1 2
    3 伊拉克宗教领袖死于炸弹   6 21 2 0
    4 伊拉克的一次冲突事件   4 15 1 2
    5 北京的经济发展   4 8 1 1
    6 以色列和巴勒斯坦的冲突   3 11 1 0
    7 冲击波病毒的报道   3 6 1 0
(2)摘要
当用户指定摘要的时间长度,本发明能够根据事件重要度的高低自动形成摘要。如前所述,这是根据聚类大小和播报的频道和时间来实现的,聚类的中心事件(中心点)被选择作为摘要。为了进行试验对比,基于正确的人工聚类结果,正确的人工摘要也被产生。例如,当摘要时间等于10分钟时,正确的人工摘要包括报道6次的3个事件和报道4次的3个事件(见表3)。表3显示了摘要的结果。试验结果表明,本发明能够包括大多数正确的重要事件形成摘要。在摘要里,一些重要事件重复出现了,这是因为一些聚类被分割成多个聚类的结果。
                     表3:重要新闻事件的摘要结果
  用户指定摘要时间 摘要应该包括的重要新闻事件(标准答案) 本发明的摘要包括的重要新闻事件 检测到的重要事件 漏掉的重要事件   重复包括的重要事件
  10分钟 6 8 4 2   0
  20分钟 11 14 8 3   0
  30分钟 24 26 21 3   0
  40分钟 39 39 31 8   1
  45分钟 41 42 34 7   2
本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。

Claims (9)

1、一种重要新闻事件检测的方法,包括以下步骤:
(1)计算出新闻视频库里所有新闻事件的相似度;
(2)根据新闻事件的相似度,采用聚类算法,把所有新闻事件分割为一个个新闻事件聚类;
(3)基于上述得到的事件聚类,根据聚类中的成员数目及播报的频道和时间信息,检测出新闻中的重要事件。
2、如权利要求1所述的一种重要新闻事件检测的方法,其特征在于:步骤(1)中,首先进行镜头边界检测,把新闻视频库中的每个新闻事件分割为镜头;然后把每对相似镜头的相似值作为权值赋给G=(X,Y,E}的每条边,这时的G就转化为一个带权的二分图,其中,X和Y表示两个新闻事件,E表示事件X和Y中每对镜头的相似值,使用图论的最优匹配算法,计算两个新闻事件X和Y的相似度为
Sim OM ( X , Y ) = ω OM ( X , Y ) min ( p , q ) - - ( 1 )
其中,ωOM(X,Y)是在最优匹配算法以后得到的总权值,p和q表示事件X和Y的镜头数目,min(p,q)表示取p和q中的最小值。
3、如权利要求2所述的一种重要新闻事件检测的方法,其特征在于:步骤(1)中,使用时空切片算法进行镜头边界检测。
4、如权利要求2所述的一种重要新闻事件检测的方法,其特征在于:步骤(1)中,计算两个新闻事件X和Y的相似度时,采用的图论的最优匹配算法是Kuhn-Munkres算法。
5、如权利要求1或4所述的一种重要新闻事件检测的方法,其特征在于:步骤(2)中,采用的聚类算法如下:
给定新闻视频库中的所有事件,把所有事件之间的相似度建模为一个带权图G=(V,E),其中,V是新闻事件的集合,E是边的集合,表示新闻事件之间的相似度,本发明分解G为一个个子图,分解的原则是最小化聚类里的距离,同时最大化聚类间的距离,基于这个原则,本发明采用了标准化分割算法,循环地分解G为事件的聚类,标准化分割算法可以全局优化地分割G为两个不相邻的集合A和B,这是通过最小化下列公式实现的:
Ncut ( A , B ) = cut ( A , B ) volume ( A ) + cut ( A , B ) volume ( B ) - - - ( 2 )
其中
cut ( A , B ) = Σ X ∈ A , Y ∈ B Sim OM ( X , Y ) - - - ( 3 )
volume ( A ) = Σ X ∈ A , Y ∈ V Sim OM ( X , Y ) - - - ( 4 )
volume ( B ) = Σ X ∈ B , Y ∈ V Sim OM ( X , Y ) - - - ( 5 )
cut(A,B)是集合A中的事件和集合B中事件相似度的总和,volume(A)是集合A和集合V中事件相似度的总和,volume(B)是集合B和集合V中事件相似度的总和,SimOM(X,Y)是指公式(1),表示事件X与事件Y的相似度,公式(2)可以表示为:
D - 1 2 ( D - W ) D - 1 2 z = λz - - - ( 6 )
其中,D和W是|V|×|V|的矩阵,D是一个对角阵, D ( X , Y ) = Σ y ∈ V Sim OM ( X , Y ) , W是一个对称阵,W(X,Y)=SimOM(X,Y),在公式(6),对应第二小特征值的特征向量被用于找到集合A和B,0被选择作为分割点,分割特征向量成为对应集合A和B的两个部分,上述算法被循环使用,直到某个聚类里所有事件相似度的平均值小于μ+ασ,μ和σ分别是图G中所有事件相似度的均值和方差,α是一个试验参数。
6、如权利要求5所述的一种重要新闻事件检测的方法,其特征在于:步骤(3)中,检测重要新闻事件使用下面两个规则:
(A)聚类大小规则:即一个事件播报次数的多少决定它是否是重要事件,根据用户指定的摘要时间,按照事件聚类成员的数目,从高到低选择重要事件;
(B)播报的频道和时间规则:即如果几个事件聚类中的成员数目一样,则不同电视频道播报的事件,比仅仅一个频道播报的事件重要;和在不同时间段播报的同一事件,比仅仅一天的某一个时间播报的事件重要。
7、如权利要求1所述的一种重要新闻事件检测的方法,其特征在于:步骤(3)中,检测重要新闻事件使用下面两个规则:
(A)聚类大小规则:即一个事件播报次数的多少决定它是否是重要事件,根据用户指定的摘要时间,按照事件聚类成员的数目,从高到低选择重要事件形成新闻摘要;
(B)播报的频道和时间规则:即如果几个事件聚类中的成员数目一样,则不同电视频道播报的事件,比仅仅一个频道播报的事件重要;和在不同时间段播报的同一事件,比仅仅一天的某一个时间播报的事件重要。
8、一种重要新闻事件摘要的方法,包括以下步骤:
(1)计算出新闻视频库里所有新闻事件的相似度;
(2)根据新闻事件的相似度,采用聚类算法,把所有新闻事件分割为一个个新闻事件聚类;
(3)基于上述得到的事件聚类,根据聚类中的成员数目及播报的频道和时间信息,检测出新闻中的重要事件;
(4)通过聚类中的代表事件来表示检测到的重要事件,并在选择的重要事件聚类C中,选择一个代表事件作为重要新闻摘要。
9、如权利要求8所述的一种重要新闻事件摘要的方法,其特征在于:步骤(4)在选择的重要事件聚类C中,选择一个代表事件作为新闻摘要的方法如下:选择在事件聚类中的中心点即中心事件作为该聚类的代表事件,所述的中心事件M。是在该聚类中和所有其它事件的相似度的和是最大的事件,如下列公式所示:
M c = max x ∈ C { Σ y ∈ C Sim OM ( x , y ) } - - - ( 7 )
其中,Mc表示选取的中心点即中心事件,max表示取最大值,C表示选择的重要事件聚类,SimOM(X,Y)表示两个事件X和Y的相似度。
CN 200510084213 2005-07-18 2005-07-18 一种重要新闻事件检测和摘要的方法 Pending CN1710563A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200510084213 CN1710563A (zh) 2005-07-18 2005-07-18 一种重要新闻事件检测和摘要的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200510084213 CN1710563A (zh) 2005-07-18 2005-07-18 一种重要新闻事件检测和摘要的方法

Publications (1)

Publication Number Publication Date
CN1710563A true CN1710563A (zh) 2005-12-21

Family

ID=35706805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200510084213 Pending CN1710563A (zh) 2005-07-18 2005-07-18 一种重要新闻事件检测和摘要的方法

Country Status (1)

Country Link
CN (1) CN1710563A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100461177C (zh) * 2006-02-14 2009-02-11 北大方正集团有限公司 一种自动检测新闻事件的方法
CN102469350A (zh) * 2010-11-16 2012-05-23 北大方正集团有限公司 广告统计的方法、装置和系统
CN104216925A (zh) * 2013-06-05 2014-12-17 中国科学院声学研究所 一种视频内容去重的处理方法
CN104636461A (zh) * 2015-02-06 2015-05-20 北京中搜网络技术股份有限公司 一种基于knn的动态事件聚类和提取的方法
CN107688652A (zh) * 2017-08-31 2018-02-13 苏州大学 面向互联网新闻事件的演化式摘要生成方法
CN107944001A (zh) * 2017-12-05 2018-04-20 北京金山安全软件有限公司 热点新闻的检测方法、装置及电子设备
CN108345700A (zh) * 2018-03-29 2018-07-31 百度在线网络技术(北京)有限公司 文章代表图片的选取方法、装置和计算机设备
CN110381392A (zh) * 2019-06-06 2019-10-25 五邑大学 一种视频摘要提取方法及其系统、装置、存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100461177C (zh) * 2006-02-14 2009-02-11 北大方正集团有限公司 一种自动检测新闻事件的方法
CN102469350A (zh) * 2010-11-16 2012-05-23 北大方正集团有限公司 广告统计的方法、装置和系统
CN104216925A (zh) * 2013-06-05 2014-12-17 中国科学院声学研究所 一种视频内容去重的处理方法
CN104636461A (zh) * 2015-02-06 2015-05-20 北京中搜网络技术股份有限公司 一种基于knn的动态事件聚类和提取的方法
CN107688652A (zh) * 2017-08-31 2018-02-13 苏州大学 面向互联网新闻事件的演化式摘要生成方法
CN107944001A (zh) * 2017-12-05 2018-04-20 北京金山安全软件有限公司 热点新闻的检测方法、装置及电子设备
CN108345700A (zh) * 2018-03-29 2018-07-31 百度在线网络技术(北京)有限公司 文章代表图片的选取方法、装置和计算机设备
CN110381392A (zh) * 2019-06-06 2019-10-25 五邑大学 一种视频摘要提取方法及其系统、装置、存储介质
CN110381392B (zh) * 2019-06-06 2021-08-10 五邑大学 一种视频摘要提取方法及其系统、装置、存储介质

Similar Documents

Publication Publication Date Title
EP3709184B1 (en) Sample set processing method and apparatus, and sample querying method and apparatus
CN1710563A (zh) 一种重要新闻事件检测和摘要的方法
EP2263180B1 (en) Indexing large-scale gps tracks
CN112131449B (zh) 一种基于ElasticSearch的文化资源级联查询接口的实现方法
CN111209261B (zh) 基于信令大数据的用户出行轨迹提取方法和系统
CN1717685A (zh) 信息存储与检索
JP2001155169A (ja) ビデオ画像の分割、分類、および要約のための方法およびシステム
CN105653700A (zh) 视频检索方法及系统
CN101079033A (zh) 一种综合搜索结果的排序系统及方法
CN1947421A (zh) 用于对视频新闻片段进行管理的媒体资源管理系统以及相关的方法
CN1577392A (zh) 测量视觉相似性的设备和方法
Weyand et al. Visual landmark recognition from internet photo collections: A large-scale evaluation
CN1912872A (zh) 一种提取新词的方法和系统
CN109710792B (zh) 一种基于索引的快速人脸检索系统应用
CN1629844A (zh) 动态内容聚类
CN1687932A (zh) 一种用于基于内容的海量图片快速检索的索引构建方法
CN1746891A (zh) 信息处理
CN106570166B (zh) 一种基于多个局部敏感哈希表的视频检索方法及装置
CN107153670A (zh) 基于多幅图像融合的视频检索方法及系统
CN1131637C (zh) 数据流索引文件生成及用该文件访问帧和切变镜头的方法
KR20180126792A (ko) 분산인메모리기반 복합형스트림 데이터처리시스템 및 방법
CN101030230A (zh) 一种图像检索方法及系统
CN1968358A (zh) 基于时间约束的频繁镜头模式的视频摘要自动生成方法
CN1495647A (zh) 信息存储和检索
Kitamoto Digital typhoon: Near real-time aggregation, recombination and delivery of typhoon-related information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20051221