CN102799637A - 一种电视节目内部自动生成主要人物摘要的方法 - Google Patents
一种电视节目内部自动生成主要人物摘要的方法 Download PDFInfo
- Publication number
- CN102799637A CN102799637A CN2012102159511A CN201210215951A CN102799637A CN 102799637 A CN102799637 A CN 102799637A CN 2012102159511 A CN2012102159511 A CN 2012102159511A CN 201210215951 A CN201210215951 A CN 201210215951A CN 102799637 A CN102799637 A CN 102799637A
- Authority
- CN
- China
- Prior art keywords
- classification
- interviewer
- paragraph
- clustering
- personage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种电视节目内部自动生成主要人物摘要的方法。该法结合视频中图像特征和无监督聚类方法,实现对节目视频主要人物的提取、采访者和受访者的标记,并生成主要人物摘要预览,提升用户体验感。首先基于有标志的视频段落,均匀时间间隔提取关键帧并做人脸检测、特征提取,基于特征对人脸图像进行线性聚类,利用人脸图像的时间信息和空间信息得到粗略的人物类别,再通过基于图论的聚类得到精细的聚类结果,使用自适应的方法过滤出单独段落的主要人物类别,最后综合所有段落过滤结果,二次应用基于图论的聚类,基于规则判断出采访者与受访者,标记并生成各段落主要人物摘要。本发明基于无监督聚类方法,结构简单、易于实现,具有较强的普适性和鲁棒性。
Description
技术领域
本发明属于多媒体信息处理与检索领域,利用对视频中图像的人物人脸特征的提取和分析,关于电视内容主要人物摘要的一种方法。应用此发明方法可以自动生成人物的摘要,并能标记出采访者和受访者,是一种计算自动的、鲁棒性强的以及算法复杂度低的电视节目视频内容处理方法。
背景技术
现如今,随着广播电视以及互联网的迅速传播和蓬勃发展,多媒体信息作为其中数据的一面也得到了长足的增长,这些海量的数据催生出许多新兴的应用:数字电视、网络电视、视频网站等,用户浏览体验和观赏感受等需求也相应的提高,能够在网络端和移动设备端上提供更好的服务成为迫切的要求。
对电视节目内容进行分析,一般预处理的方法是先进行宏分割,切分为多个内部段落。相应的处理方法分为:人工标注分割和机器自动分割。人工标注分割耗时耗力,面对海量的视频数据,人工的方法将会变得棘手,而机器自动分割正是适应了这样的条件。机器自动分割的方法有很多种,例如基于主持人场景的自动分割、基于重复片段的自动分割等,而越来越多的电视节目在播放过程中会使用电台标志或者节目特有标志(统称为标志),这一举措主要注重知识产权的保护,其实对于结构化的宏分割来说,提供了更充足的分割依据:在电视节目内部非独有产权的段落(如电影简介集锦、商业广告等),将不会加载标志;而播报和采访等享有知识产权的部分,将加载标志,这些标志在时间上不连续,为结构性的分割提供依据。
在分割内容后,基于分割为了提供更加具有观赏体验的服务,在每个段落上需进行分析。以往,我们在一些网络或者移动端所能看到的电视节目视频能够提供关键帧的预览(例如视频网站优酷、土豆等),而能提供主要人物摘要的预览的电视节目少之甚少,人物摘要预览比关键帧预览带来的有用信息更多,能够去除很多的冗余(例如冗杂的背景),并且服务体验感更强,能够预览某段落节目内容主要的人物对于用户来说更加实用且更加具有吸引力。同样,面对海量的视频数据,人工标注的方法将不再适用,所以需要提出自动(无人工标注)处理且快速(算法复杂度低)的方法。本方法正是适应了这样的条件要求。另外,对于一段节目视频,无法得知一些先验知识,例如访谈出现的人物信息,所以只能运用无监督学习的方法来提取出人物信息,并且无先验知识得知提取出多少人物,而是自适应提取出主要人物,这样的算法具有普适性、鲁棒性,能够很方便的应用到更多的电视节目中。
发明内容
为设计一个电视节目视频主要人物自动摘要系统,有效且快速的实现主要人物提取,并准确的标记采访者已经受访者,本发明提出了一个基于有标志镜头段落的节目视频主要人物摘要生成的方法。该方法首先对每个单独的有标志的镜头段落按时间均匀间隔地提取关键帧,并做人脸提取、特征提取,基于特征做线性聚类,然后再通过基于图论的聚类方法将人脸图像聚类,再通过自适应的方法对聚类结果处理,过滤出每个段落的主要人物类别。在此基础上,将每个段落的主要人物类别聚集起来,再次进行基于图论的聚类算法,进行一次全部标志段落的人脸图像聚类,通过判断准则得分,选出采访者和受访者,并分别标记,然后返回至各个段落并生成主要人物摘要。
本发明提出的方法可以通过文本或者图片形式表示出每个有标志段落主要人物摘要的结果。能够自适应的选取出每个标志段落的主要人物,而不是依据先验信息,并且在此后对于第二次应用基于图论聚类算法来说,滤除(减少)了一些初始类别,也等效于降低了聚类时间,提高了效率。
附图说明
图1为本发明的系统总框图
图2为区域重叠度计算框图
图3为电视节目结构示例图
图4为电视节目展现以及人物摘要预览例图
具体实施方式
下面结合附图具体来对本发明做进一步详细的描述。如图3所示,视频节目内容分为有标志的镜头段落和无标志的镜头段落,并且分布在整个视频的各个时间段落里,本发明通过对有标志镜头段落的分析,对每个有标志镜头段落进行主要人物摘要。对于如何得到有标志镜头段落的时间位置信息,已经有很多方法和发明已经描述过,例如,将固定位置的特有的标志从关键帧中提取出来,得到正负样本,使用支持向量机(SVM)训练出判别是否为标志的模板,对待处理的节目视频提取出的关键帧使用模板,决策是否为有标志镜头段落的关键帧,从而整合这些关键帧的时间信息,得到有标志的镜头段落。
如图1所示,基于有标志镜头段落,本发明方案分为以下几个步骤:
(1).关键帧提取以及人脸检测;
(2).人脸图像特征提取、线性聚类以及基于图论的聚类;
(3).自适应主要人物选取;
(4).融合各段落主要人物、基于图论聚类;
(5).基于规则来评分标记采访者和受访者并生成人物摘要。
接下来对以上各步骤做详细的说明:
一.关键帧提取及人脸检测
对每个单独的有标志的镜头段落按时间τ均匀间隔地提取关键帧,用以代表镜头段落的信息,并对关键帧图像进行人脸检测,提取出其中的人脸得到人物人脸图像。本系统中τ为0.4s。
二.人脸图像特征提取、线性聚类以及基于图论的聚类
(一).提取人脸图像特征
人脸特征主要分为两个方面:
1.区域重叠度
通常来说,人脸的位置在视频段落中是比较稳定的,因此,可以利用人脸位置区域的重叠度来计算不同人脸图像的相似距离,重叠度越高相似性越强。如图2所示,计算重叠度Oi,j规则如下,对于人脸i位置向量(xi,yi,wi,hi)以及人脸j位置向量(xj,yj,wj,hj)来说,其中yi,yi,wi,hi分别代表人脸i的横坐标、纵坐标、宽度、长度,人脸j位置向量表示依然如此:
(1).如果满足xi>xj+wj||xj>xi+wi||yi>yj+hj||yj>yi+hi,即无重叠区域:
Oi,j=0
(2).否则:
ri,j=wi,j·hi,j
其中,||代表逻辑或运算,wi,j和hi,j分别代表重叠区域的宽度和高度,ri,j代表重叠区域的面积。
2.Gabor特征
Gabor可以像放大镜一样放大灰度的变化,这样在人脸一些关键区域,例如眼睛、鼻子、嘴、眉等局部特征被强化,有利于区别不同的人脸图像,因此Gabor特征具有很好的鲁棒性。本系统采用二维Gabor小波特征,内核采用8个方向和5个尺度的采样,对于100*100像素的图像,用这40万维向量来表征每个人脸图像。
(二).线性聚类
一般来说,时间上连续的两个关键帧中的人脸图像在位置上可能是相关的,也就是区域会发生重叠,区域重叠度越高的人脸图像属于同一人物的可能性越高,可以将满足区域重叠度高于一定阈值的人脸聚合成同一类别。此次聚类是利用时间、空间信息来进行类别的粗略聚类,简单、有效且快速。
(三).基于图论的聚类
对于线性聚类的结果,再通过Gabor特征和基于图论聚类对上述粗略聚类做精细聚类,将段落中相似的人脸图像聚集到一起,这样无需任何的先验知识,便可以快速有效的得到段落中人物的类别以及聚类后每个类别所携带的信息(例如人物类别的持续时间等)。
线性聚类后每一类别都是基于图论聚类的无向图结点,两个类别之间的距离,即结点的边的权值,为两个类别所包含图像两两之间Gabor距离平均值。即:
其中wi,j为属于m和n类别其中一幅i和j图像的Gabor距离:
此式子中,A和B分别代表Gabor内核8个方向和5个尺度采样集合,NA和NB则分别代表上述两个集合的元素个数。P则是图像像素集合,NP表示此集合元素个数。Gi(α,β,p)和Gi(α,β,p)分别代表第i幅和第j幅图像在α方向、β尺度和p像素上得Gabor特征值。|·|代表1-范数。
构造无向图G=<V,E>,将线性聚类后每个类别当做特征空间上的结点,然后对于这些结点建立最小生成树,也是就要找到一棵树T=<V,E′>,满足E′是E的子集,且边的权值和最小。利用预先设定好的阈值,对最小生成树中大于阈值的边进行砍枝。这样,在集合内,边连通的结点成为一类,每一类代表一个人物类别。
三.自适应主要人物选取
计算每一类人物的持续时间。Tk表示为第k个人物类别的持续时间:
对这些时间值进行模糊二均值聚类,比较小的类别中心作为选取的阈值,大于阈值的类别被选取为本段落的主要人物类别。
四.融合各段落主要人物、基于图论聚类
对于每个有标志片段自适应主要人物选取的结果,将这些主要人物类别视为无向图的结点,再次进行基于图论的聚类,将整个视频的中(即全部有标志镜头段落)所有人物类别做聚集,将可能重复出现的人物类别聚集到同一个类别,为标记采访者和受访者做准备。
五.基于规则来评分标记采访者和受访者并生成人物摘要
步骤一,计算每个类别的持续时间,第k类的为Tk;
先计算第k类的时间均值μk,再计算时间方差:
步骤三,融合持续时间和时间方差信息,计算每个类别的得分;
步骤四,选出得分最高的作为采访者类别,标记采访者和受访者。
最高得分的算法为:l=argmax(||Sk||2),l类别标记为采访者,其余类别都标记为受访者,其中||·||2代表2-范数,argmax(·)代表使范数满足最大值时参数k的值。
无论是采访者还是受访者,都选取出每个有标志镜头段落中尺寸最大的人脸图像作为此段落摘要图像,如图4所示。
Claims (6)
1.一种电视节目内部自动生成主要人物摘要的方法,包括对电视节目视频进行镜头切割、关键帧提取、判别有标志的镜头段落和无标志的镜头段落,其特征在于,该方法还包括以下步骤:
步骤一,对每个单独的有标志的镜头段落按时间均匀间隔地提取关键帧,对关键帧图像进行人脸检测得到人物人脸图像;
步骤二,对人脸图像进行特征提取,再通过基于线性聚类的算法以及基于图论的聚类算法进行人物聚类;
步骤三,基于聚类的结果自适应地进行主要人物选取;
步骤四,融合上述所有各个单独的有标志镜头段落的主要人物类别,再进行一次基于图论的聚类算法进行人物再聚类;
步骤五,对聚类结果中人物类别进行评分,选取出采访者,对采访者和受访者作标记并生成主要人物摘要。
2.根据权利要求1所述的方法,其特征在于对人脸图像进行特征提取,再通过基于线性聚类的算法以及基于图论的聚类算法进行人物聚类包括:
步骤一,对提取出来的时间连续的人脸计算空间位置区域重叠度,并提取Gabor特征后计算人脸间的Gabor距离,综合重叠度和Gabor距离将时间连续的相似人脸聚类;
步骤二,基于线性聚类的结果,再进行一次基于图论的聚类,把所有线性聚类得到的每个人物类别作为图的结点,构建一个无向图,根据阈值对图的最小生成树进行剪枝,结果为多棵子树,即为多个人物类别。
3.根据权利要求1所述的方法,其特征在于基于聚类结果自适应地进行主要人物选取包括:计算每一类人物的持续时间,对这些时间值进行模糊二均值聚类,比较小的类别中心作为选取的阈值,大于阈值的类别被选取为主要人物。
4.根据权利要求1所述的方法,其特征在于对聚类结果中人物类别进行评分,选取出采访者,对采访者和受访者作标记并生成主要人物摘要包括:
步骤一,计算每个类别的持续时间;
步骤二,计算每个类别的时间方差;
步骤三,融合持续时间和时间方差信息,计算每个类别的得分;
步骤四,选出得分最高的作为采访者类别,标记采访者和受访者。
6.根据权利要求4所述的方法,其特征在于,选出得分最高的作为采访者类别,并标记采访者和受访者包括:
步骤一,最高得分的算法为:l=argmax(||Sk||2),l类别标记为采访者,其余类别都标记为受访者,其中||·||2代表2-范数,argmax(·)代表使范数满足最大值时参数k的值;
步骤二,无论是采访者还是受访者,都选取出每个有标志镜头段落中尺寸最大的人脸图像作为此段落摘要图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102159511A CN102799637A (zh) | 2012-06-27 | 2012-06-27 | 一种电视节目内部自动生成主要人物摘要的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102159511A CN102799637A (zh) | 2012-06-27 | 2012-06-27 | 一种电视节目内部自动生成主要人物摘要的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102799637A true CN102799637A (zh) | 2012-11-28 |
Family
ID=47198747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012102159511A Pending CN102799637A (zh) | 2012-06-27 | 2012-06-27 | 一种电视节目内部自动生成主要人物摘要的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102799637A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104252628A (zh) * | 2013-06-28 | 2014-12-31 | 广州华多网络科技有限公司 | 人脸图像标注方法和系统 |
CN104320670A (zh) * | 2014-11-17 | 2015-01-28 | 东方网力科技股份有限公司 | 一种网络视频的摘要信息提取方法及系统 |
CN105100894A (zh) * | 2014-08-26 | 2015-11-25 | Tcl集团股份有限公司 | 面部自动标注方法及系统 |
CN105554348A (zh) * | 2015-12-25 | 2016-05-04 | 北京奇虎科技有限公司 | 基于视频信息的图像显示方法及装置 |
CN105913275A (zh) * | 2016-03-25 | 2016-08-31 | 哈尔滨工业大学深圳研究生院 | 一种基于视频主角识别的服装广告投放方法及系统 |
CN106446797A (zh) * | 2016-08-31 | 2017-02-22 | 腾讯科技(深圳)有限公司 | 图像聚类方法及装置 |
CN106557783A (zh) * | 2016-11-21 | 2017-04-05 | 厦门优莱柏网络科技有限公司 | 一种漫画主要角色的自动提取系统及方法 |
CN106874827A (zh) * | 2015-12-14 | 2017-06-20 | 北京奇虎科技有限公司 | 视频识别方法和装置 |
CN108391180A (zh) * | 2018-02-09 | 2018-08-10 | 北京华录新媒信息技术有限公司 | 视频摘要生成装置及视频摘要生成方法 |
CN109948409A (zh) * | 2018-11-30 | 2019-06-28 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
CN110263633A (zh) * | 2019-05-13 | 2019-09-20 | 广州烽火众智数字技术有限公司 | 基于时空关联的涉毒人员检测预警方法、系统及存储介质 |
CN110933488A (zh) * | 2018-09-19 | 2020-03-27 | 传线网络科技(上海)有限公司 | 视频剪辑方法及装置 |
CN113609303A (zh) * | 2021-07-14 | 2021-11-05 | 上海电力大学 | 一种基于知识图谱的国内外电力市场研究热点追踪方法 |
CN113762016A (zh) * | 2021-01-05 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 关键帧选取方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6137544A (en) * | 1997-06-02 | 2000-10-24 | Philips Electronics North America Corporation | Significant scene detection and frame filtering for a visual indexing system |
CN1298522A (zh) * | 1998-12-23 | 2001-06-06 | 皇家菲利浦电子有限公司 | 个性化视频分类与获取系统 |
CN102098449A (zh) * | 2010-12-06 | 2011-06-15 | 北京邮电大学 | 一种利用标志检测进行电视节目内部自动分割的方法 |
CN102156707A (zh) * | 2011-02-01 | 2011-08-17 | 刘中华 | 一种视频摘要形成和搜索的方法、系统 |
-
2012
- 2012-06-27 CN CN2012102159511A patent/CN102799637A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6137544A (en) * | 1997-06-02 | 2000-10-24 | Philips Electronics North America Corporation | Significant scene detection and frame filtering for a visual indexing system |
CN1298522A (zh) * | 1998-12-23 | 2001-06-06 | 皇家菲利浦电子有限公司 | 个性化视频分类与获取系统 |
CN102098449A (zh) * | 2010-12-06 | 2011-06-15 | 北京邮电大学 | 一种利用标志检测进行电视节目内部自动分割的方法 |
CN102156707A (zh) * | 2011-02-01 | 2011-08-17 | 刘中华 | 一种视频摘要形成和搜索的方法、系统 |
Non-Patent Citations (1)
Title |
---|
谷列先 等: "基于人物关系分析的视频自动摘要算法", 《高技术通讯》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104252628A (zh) * | 2013-06-28 | 2014-12-31 | 广州华多网络科技有限公司 | 人脸图像标注方法和系统 |
CN104252628B (zh) * | 2013-06-28 | 2020-04-10 | 广州华多网络科技有限公司 | 人脸图像标注方法和系统 |
CN105100894A (zh) * | 2014-08-26 | 2015-11-25 | Tcl集团股份有限公司 | 面部自动标注方法及系统 |
CN105100894B (zh) * | 2014-08-26 | 2020-05-05 | Tcl科技集团股份有限公司 | 面部自动标注方法及系统 |
CN104320670A (zh) * | 2014-11-17 | 2015-01-28 | 东方网力科技股份有限公司 | 一种网络视频的摘要信息提取方法及系统 |
CN106874827A (zh) * | 2015-12-14 | 2017-06-20 | 北京奇虎科技有限公司 | 视频识别方法和装置 |
CN105554348A (zh) * | 2015-12-25 | 2016-05-04 | 北京奇虎科技有限公司 | 基于视频信息的图像显示方法及装置 |
CN105913275A (zh) * | 2016-03-25 | 2016-08-31 | 哈尔滨工业大学深圳研究生院 | 一种基于视频主角识别的服装广告投放方法及系统 |
CN106446797A (zh) * | 2016-08-31 | 2017-02-22 | 腾讯科技(深圳)有限公司 | 图像聚类方法及装置 |
CN106446797B (zh) * | 2016-08-31 | 2019-05-07 | 腾讯科技(深圳)有限公司 | 图像聚类方法及装置 |
CN106557783B (zh) * | 2016-11-21 | 2019-09-20 | 厦门优莱柏网络科技有限公司 | 一种漫画主要角色的自动提取系统及方法 |
CN106557783A (zh) * | 2016-11-21 | 2017-04-05 | 厦门优莱柏网络科技有限公司 | 一种漫画主要角色的自动提取系统及方法 |
CN108391180A (zh) * | 2018-02-09 | 2018-08-10 | 北京华录新媒信息技术有限公司 | 视频摘要生成装置及视频摘要生成方法 |
CN108391180B (zh) * | 2018-02-09 | 2020-06-26 | 北京华录新媒信息技术有限公司 | 视频摘要生成装置及视频摘要生成方法 |
CN110933488A (zh) * | 2018-09-19 | 2020-03-27 | 传线网络科技(上海)有限公司 | 视频剪辑方法及装置 |
CN109948409A (zh) * | 2018-11-30 | 2019-06-28 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
CN110263633A (zh) * | 2019-05-13 | 2019-09-20 | 广州烽火众智数字技术有限公司 | 基于时空关联的涉毒人员检测预警方法、系统及存储介质 |
CN113762016A (zh) * | 2021-01-05 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 关键帧选取方法和装置 |
CN113609303A (zh) * | 2021-07-14 | 2021-11-05 | 上海电力大学 | 一种基于知识图谱的国内外电力市场研究热点追踪方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102799637A (zh) | 一种电视节目内部自动生成主要人物摘要的方法 | |
CN105100894B (zh) | 面部自动标注方法及系统 | |
CN108898145A (zh) | 一种结合深度学习的图像显著目标检测方法 | |
CN105740758A (zh) | 基于深度学习的互联网视频人脸识别方法 | |
CN106682108A (zh) | 一种基于多模态卷积神经网络的视频检索方法 | |
CN106446015A (zh) | 一种基于用户行为偏好的视频内容访问预测与推荐方法 | |
CN102968635B (zh) | 一种基于稀疏编码的图像视觉特征提取方法 | |
CN106845513B (zh) | 基于条件随机森林的人手检测器及方法 | |
Rani et al. | Social media video summarization using multi-Visual features and Kohnen's Self Organizing Map | |
CN110351580B (zh) | 基于非负矩阵分解的电视节目专题推荐方法及系统 | |
CN102426647A (zh) | 一种台标识别的方法、装置 | |
Yu et al. | Learning realistic facial expressions from web images | |
CN109272440B (zh) | 一种联合文本和图像内容的缩略图生成方法及系统 | |
CN105912684A (zh) | 基于视觉特征和语义特征的跨媒体检索方法 | |
CN109635647B (zh) | 一种基于约束条件下的多图片多人脸的聚类方法 | |
CN110879974A (zh) | 一种视频分类方法和装置 | |
CN101271465A (zh) | 一种基于信息瓶颈理论的镜头聚类方法 | |
CN103020120A (zh) | 一种基于超图的图像混合摘要生成方法 | |
Mohammad et al. | Searching surveillance video contents using convolutional neural network | |
Yadav et al. | DroneAttention: Sparse weighted temporal attention for drone-camera based activity recognition | |
CN104331717A (zh) | 一种整合特征字典结构与视觉特征编码的图像分类方法 | |
CN110766093A (zh) | 一种基于多帧特征融合的视频目标重识别方法 | |
CN102945255A (zh) | 跨媒体多视角非完美标签学习方法 | |
CN106066887A (zh) | 一种广告序列图像快速检索和分析方法 | |
KR102526263B1 (ko) | 이미지 다중 캡션 자동 생성 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20121128 |