CN102331990B - 一种基于字幕提取的新闻视频检索方法 - Google Patents
一种基于字幕提取的新闻视频检索方法 Download PDFInfo
- Publication number
- CN102331990B CN102331990B CN 201010599994 CN201010599994A CN102331990B CN 102331990 B CN102331990 B CN 102331990B CN 201010599994 CN201010599994 CN 201010599994 CN 201010599994 A CN201010599994 A CN 201010599994A CN 102331990 B CN102331990 B CN 102331990B
- Authority
- CN
- China
- Prior art keywords
- texture
- news
- frame
- video
- camera lens
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于字幕提取的新闻视频检索方法,包括新闻镜头分割、特殊镜头检测、新闻结构化分析、镜头帧融合、文本标题定位、字符识别和建立标题字幕索引等步骤,该方法克服现有技术存在的缺陷,能提取出视频中的标题字幕并加以组织和管理,用于基于内容的视频检索。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于字幕提取的新闻视频检索方法。
背景技术
视频是多媒体环境中的重要元素,它在众多不同领域中有着广泛应用。新闻视频是视频的一个重要分支,它们包含着大量的有用信息。基于内容的视频检索系统指的通过文本、图片或视频的其他特征在视频集中搜索需要的信息。要实现基于内容的视频检索,首先要将视频进行适当的分割,建立用于检索的索引之后,使用户可以通过文本等内容检索视频。基于字幕的检索就是其中一种方法。对于新闻视频,由于视频中的新闻标题对新闻故事内容进行了良好的描述,可以作为文字标签用于基于内容的新闻视频检索。
基于像素比较法视频分割:该方法是通过比较连续两帧相应像素的差值,如亮度或色度等判断镜头是否发生变化,由此进行视频分割。通常首先计算像素之差的绝对值的总和,并设定一个阈值与之比较,超过阈值时认为镜头发生了切换,进行分割。然而该方法的性能完全依赖阈值的设定,而在这种方法上单一阈值常常不能胜任所以情形,对噪声敏感,漏检和错检情况都比较多。
基于直方图的视频分割:该方法将亮度、灰度等分为多个等级,并统计一帧中在各等级中的像素数量,形成直方图,通过直方图比较来考察视频帧之间的差距。比较常见的有灰度直方图法、颜色空间直方图法等。该方法常常会与基于块的比较方法,将视频帧分为M个块,在每个块中分别进行比较。该方法对物体和摄像机的缓慢移动不敏感,仍然对镜头强烈晃动、光照快速变化等比较敏感,容易错检,而当相邻镜头颜色比例相似时,又容易漏检。
ECR视频分割:ECR(Edge Change Ratio)即边缘变化率。该方法考虑通过视频帧之间边缘的变化来判断镜头的转换进行分割。R.Zabhi等人为了减少镜头对运动物体和颜色变化的敏感性,提出了基于边缘变化的镜头分割方法,先对帧进行高斯模糊,去掉太过细小的边缘,再用Canny算子提取边缘,然后进行边缘扩大。计算后一帧中新出现的边缘 、前一帧中出现而未出现在后一帧的边缘,分别除以后一帧中的边缘数量和前一帧中的边缘数量获得边缘进入率和边缘消失率,二者间较大者为ECR取值。如果ECR值明显增大,则认为镜头发生了转换。对于简单的视频镜头该方法效果较好,然后对如毛发、波光粼粼的水面这样边缘复杂的不停发生微小变化的实际镜头中表现不佳。在光线较弱和轮廓不明显时,也容易漏检,加上大量的运算,大大限制了该方法的实际应用。
视频单一帧字符识别:为了将传统光学字符识别的方法应用到视频中,该方法首先在每个镜头中提取一个关键帧,然后进行图像增强等操作,最后提交给字符识别模块进行识别。然而关键帧提取的方法一般与字符出现情况没有太多关系,单一帧识别的方法一般只是选择任意一个含有字符的帧进行处理和识别。这浪费了视频流中更多有用帧中的信息,也可能产生大量和主题无关的文本,如在新闻中的滚动新闻,这往往与当前视频画面中的新闻并无太大关系,这样很可能造成错误的索引。
SQL数据库:SQL(Structured Quevy Language)即结构化查询语言,是为数据库等查询系统设计的一组操作指令,提供查、插、删、改等齐全的数据库操作,功能强大,由具体数据库系统实现并支持。当前主流数据库都支持SQL。然而各数据库提供商对SQL的实现不完全相同,执行不同的标准。而且,如果用作全文搜索,效率比较低下,需要单独的索引,不支持相似性搜索和相似度排序等。
发明内容
本发明所要解决的问题是:如何提供一种基于字幕提取的新闻视频检索方法,该方法克服现有技术存在的缺陷,能提取出视频中的标题字幕并加以组织和管理,用于基于内容的视频检索。
本发明所提出的技术问题是这样解决的:提供一种基于字幕提取的新闻视频检索方法,其特征在于,包括以下步骤:
步骤1 新闻镜头分割
采用时空切片的方法,提取视频的时空切片,检测镜头剪辑的位置,进行镜头分割;
步骤2 特殊镜头检测
根据对新闻视频结构信息的研究,对单个节目提取其结构支撑性镜头,在这里,我们取主持人镜头和广告镜头,训练一个或一组支持向量机,并用该支持向量机对同一节目进行特殊镜头检测,以用于结构分析;
步骤3 新闻结构化分析
根据提取出的特殊镜头,将新闻进行结构化分析,并分组标记;
步骤4 镜头帧融合
对每个镜头进行最小值帧融合,减弱动态背景内容而增强固定的文本内容,得到融合帧;
步骤5 文本标题定位
由于文字区域的纹理特性表现为密集而同时有纵横纹理,对融合帧进行纹理分析,提取符合上述特征的区域,并提取最小矩形作为标题位置;
步骤6 字符识别
将提取出的字符区域进行二值化,交给字符识别模块,字符识别的结果作为提取出的标题字幕信息;
步骤7 建立标题字幕索引
将提取出的字符信息按照预先定义好的新闻结构存入数据库,同时利用索引模块进行数据库外部增量索引用于检索。
按照本发明所提供的基于字幕提取的新闻视频检索方法,其特征在于,步骤1中具体方法为:
然后扩展剩下的纵向纹理,通过5*3的矩形,进行形态学膨胀操作,
再次对膨胀后的纵向纹理提取边缘,以得到连通边缘,
;
再利用7*1的矩形进行形态学腐蚀操作,去除非横向纹理便可留下纵向纹理不连续处的纹理,
则为融合成的融合帧,该融合帧中动态背景内容被减弱,静态文本被加强。
按照本发明所提供的基于字幕提取的新闻视频检索方法,其特征在于,首先通过边缘检测获得融合帧的纹理,
然后分别用1*3和3*1的核进行腐蚀操作分别取得纵向和横向的纹理,
;
然后通过与操作获取纵向纹理和横向纹理的连接部分,在此操作前,为了更容易找到这些连接,首先膨胀这些纵向和横向文理,分别采用4*7和7*4的核对两个纹理进行膨胀,
;
接着对膨胀后的两个纹理图像进行与操作以获得连接处的纹理,
最后,只需要提取纹理集中区域的边缘并计算可以包括此区域的最小矩形,即可获得标题文本的定位。
本发明的有益效果:
1、为视频提供了文本标签。当前数据挖掘的研究中,文本数据挖掘技术较为成熟,而基于内容的其他多媒体检索问题并没有很好的解决方法。本发明自动为新闻视频提取标题字幕,用这些标题字幕作为视频的文本标签,以用于检索,由于新闻视频中的标题字幕包含了对新闻内容较好的概括,此方法连接了文本挖掘的技术优势和新闻视频中丰富的信息,为基于内容的视频检索提供了途径。
2、对提取出的标题进行了索引和管理。通常的视频字幕搜索只是把字幕信息存入数据库,搜索时对数据库进行查找。本发明中对提取出的字幕进行数据库外部索引,可以提供高速索引、高速搜索、搜索相似度排序、分布式搜索等优点,甚至利用更多文本数据挖掘的优势。
3、提高镜头分割准确性。本发明中采用时空切片的方法进行镜头分割,不同于各种帧间差比较的方法,而是在保有视频连续信息的时空切片上通过考察连续性判断镜头分段从而分割镜头。本方法针对新闻视频的特点,克服了其他分割方法的缺点。
4、镜头分类处理。本发明通过支持向量机分类,对不同的镜头做出不同的处理,不需要对广告镜头进行采集,对主持人镜头判断并作为新闻故事开始结束的标记等,从而在结构上对分割的视频片段进行更好的管理。
5、使用多帧融合的融合帧进行文本提取,不但增了文本区域,减弱了变化的复杂背景,而且针对新闻视频中不同字幕出现情况的特性,避开了只出现一瞬间的与主题无关的文字区域以及与当前新闻无关的滚动新闻字幕,能提取出只和当前新闻故事主题相关的文本标题,用于检索效力更佳。
附图说明
图1新闻镜头分割流程图;
图2时空切片示意图;
图3 Grid-search结果示意图;
图4文本标题定位流程图。
具体实施方式
下面结合附图对本发明作进一步描述:
本发明根据新闻视频的特性,先将新闻视频进行镜头分割,然后通过支持向量机分类出不同类别的镜头。根据新闻的结构特性,通过特殊镜头的位置对新闻进行结构化分析。对于可能存在有用字幕的帧进行帧融合后,在经过增强的融合帧中提取字符区域及其中的字符交由字符识别模块识别以提取出标题字幕。提取出的字幕存入数据库的同时进行外部索引,以提高搜索效率和提供相关性排序和相关性查询。
1、新闻镜头分割
新闻镜头分割的流程总体如图1所示。采用时空切片的方法进行镜头分割,不同于各种帧间差比较的方法,而是在保有视频连续信息的时空切片上通过考察连续性判断镜头分段从而分割镜头。首先提取镜头的时空切片。如图2所示,设定好固定的位置,如中垂线,对角线,然后对连续的每一帧视频提取该相同位置的像素,拼接在一起,形成视频流的时空切片,形如图2左下角时空切片。对该时空切片首先进行边缘检测。令为时空切片的像素集合,对于,为时空切片边缘,即
然后扩展剩下的纵向纹理。通过5*3的矩形,进行形态学膨胀操作,
再次对膨胀后的纵向纹理提取边缘,以得到连通边缘,
然后,再利用7*1的矩形进行形态学腐蚀操作,去除非横向纹理便可留下纵向纹理不连续处的纹理,
最后,设定一个阈值对剩下的纹理进行判断,找到剪辑发生的地方,进行视频分割。
2、特殊镜头检测
为了进行新闻视频的结构化分析,需要首先提取出对结构起着支撑作用的特殊镜头,在这里,我们取主持人镜头和广告镜。本发明采用支持向量机作为分类器,对于每个节目,首先选出一定数量主持人帧(如,500帧)作为正向样本,和一定数量其他帧(如,1500帧)作为负向样本,训练的支持向量机采用RBF核,
其中有核函数参数和惩罚因子需要设定,可以采用Grid-search技术进行参数调优,结果如图3所示,横轴、纵轴分别表示核函数参数和惩罚因子的变化,等高线表示取得的精度,越内圈的精度越高。本发明采用调优后的结果。经过训练,支持向量机可以用于主持人镜头和普通镜头的分类。
3、新闻结构化分析
经过主持人镜头检测,就可以根据这些镜头的位置将新闻视频分割成一段一段的新闻故事,一个新闻故事中的镜头包含相同的主题,由一个主持人镜头开始,而下一个主持人镜头结束。
4、镜头帧融合
同一视频镜头是由许多视频帧组成的。视频镜头中包含大量的动态的信息,而我们需要提取出标题文字部分。标题文字的特点是在同一个视频镜头中通常是不变的,甚至跨越多个镜头。因此,本发明采用镜头帧融合的方法,减弱动态变化的背景图像,加强固定不变的标题文本。采用最小值融合法,对于镜头中的帧有
5、文本标题定位
对融合后的融合帧进行文本标题定位。本发明利用文本在视频中的纹理特性,表现为密集而同时有纵横纹理,而且有密集的不同方向纹理的交接点,即笔画转折处。由此,本发明采用基于纹理特征的定位方法。图4展示了文本标题定为的流程。首先通过边缘检测获得融合帧的纹理,
然后分别用1*3和3*1的核进行腐蚀操作分别取得纵向和横向的纹理,
;
然后通过与操作获取纵向纹理和横向纹理的连接部分。在此操作前,为了更容易找到这些连接,首先膨胀这些纵向和横向文理。分别采用4*7和7*4的核对两个纹理进行膨胀,
接着对膨胀后的两个纹理图像进行与操作以获得连接处的纹理,
最后,只需要提取纹理集中区域的边缘并计算可以包括此区域的最小矩形,即可获得标题文本的定位。需要说明的是,一个镜头中可能有超过一个文本标题区域,也可能没有。
6、字符识别
将上一步骤提取出的字符区域提交给字符识别模块进行处理。此处的字符识别模块可以根据需要选择。本发明调用的是微软公司提供的MODI模块。
7、建立标题字幕索引
对上一步骤提取出的字幕,首先与视频中出现的位置对应存入数据库,同时,提交给外部索引模块。这样做的目的是提高搜索时的速度,并提供相似检索,相似度排序等普通SQL数据库不能提供的能力。本发明采用免费开源的索引引擎Sphinx。通过配置文件,指定索引数据源,索引模块就可以自己工作了,并提供搜索,相关性排序等能力,弥补了SQL数据库单一的查询模式功能上和效率上的不足。
Claims (4)
1.一种基于字幕提取的新闻视频检索方法,其特征在于,包括以下步骤:
步骤1 新闻镜头分割
采用时空切片的方法,提取视频的时空切片,检测镜头剪辑的位置,进行镜头分割;
步骤2 特殊镜头检测
根据对新闻视频结构信息的研究,对单个节目提取其结构支撑性镜头,训练一个或一组支持向量机,用该支持向量机对同一节目进行特殊镜头检测,以用于结构分析;
步骤3 新闻结构化分析
根据提取出的特殊镜头,将新闻进行结构化分析,并分组标记;
步骤4 镜头帧融合
对每个镜头进行最小值帧融合,减弱动态背景内容而增强固定的文本内容,得到融合帧;
步骤5 文本标题定位
由于文字区域的纹理特性表现为密集而同时有纵横纹理,对融合帧进行纹理分析,提取符合上述特征的区域,并提取最小矩形作为标题位置;
步骤6 字符识别
将提取出的字符区域进行二值化,交给字符识别模块,字符识别的结果作为提取出的标题字幕信息;
步骤7 建立标题字幕索引
将提取出的字符信息按照预先定义好的新闻结构存入数据库,同时利用索引模块进行数据库外部增量索引用于检索。
2.根据权利要求1所述的基于字幕提取的新闻视频检索方法,其特征在于,步骤1中具体方法为:
然后扩展剩下的纵向纹理,通过5*3的矩形,进行形态学膨胀操作,
再次对膨胀后的纵向纹理提取边缘,以得到连通边缘,
再利用7*1的矩形进行形态学腐蚀操作,去除非横向纹理便可留下纵向纹理不连续处的纹理,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010599994 CN102331990B (zh) | 2010-12-22 | 2010-12-22 | 一种基于字幕提取的新闻视频检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010599994 CN102331990B (zh) | 2010-12-22 | 2010-12-22 | 一种基于字幕提取的新闻视频检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102331990A CN102331990A (zh) | 2012-01-25 |
CN102331990B true CN102331990B (zh) | 2013-06-19 |
Family
ID=45483769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010599994 Expired - Fee Related CN102331990B (zh) | 2010-12-22 | 2010-12-22 | 一种基于字幕提取的新闻视频检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102331990B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102780856B (zh) * | 2012-04-12 | 2013-11-27 | 天脉聚源(北京)传媒科技有限公司 | 一种新闻视频字幕标注方法 |
CN104298982B (zh) * | 2013-07-16 | 2019-03-08 | 深圳市腾讯计算机系统有限公司 | 一种文字识别方法及装置 |
CN104156479B (zh) * | 2014-08-26 | 2017-08-11 | 中译语通科技(北京)有限公司 | 一种基于视频特征的互联网视频字幕索引方法 |
CN105516802B (zh) * | 2015-11-19 | 2018-10-23 | 上海交通大学 | 多特征融合的新闻视频摘要提取方法 |
CN106845390B (zh) * | 2017-01-18 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 视频标题生成方法及装置 |
CN107977645B (zh) * | 2017-12-19 | 2021-01-22 | 北京奇艺世纪科技有限公司 | 一种视频新闻海报图的生成方法及装置 |
CN110309353A (zh) * | 2018-02-06 | 2019-10-08 | 上海全土豆文化传播有限公司 | 视频索引方法及装置 |
CN108551584B (zh) * | 2018-05-17 | 2021-03-16 | 北京奇艺世纪科技有限公司 | 一种新闻分割的方法及装置 |
CN108734166B (zh) * | 2018-05-23 | 2022-03-11 | 深圳市茁壮网络股份有限公司 | 一种新闻标题检测方法及装置 |
CN109299157B (zh) * | 2018-08-27 | 2021-11-23 | 杭州安恒信息技术股份有限公司 | 一种分布式大单表的数据导出方法及装置 |
CN109583443B (zh) * | 2018-11-15 | 2022-10-18 | 四川长虹电器股份有限公司 | 一种基于文字识别的视频内容判断方法 |
CN113127685A (zh) * | 2019-12-31 | 2021-07-16 | 广州科技贸易职业学院 | 一种视频检索装置及方法 |
CN111401368B (zh) * | 2020-03-24 | 2023-04-18 | 武汉大学 | 一种基于深度学习的新闻视频标题提取方法 |
CN111445902B (zh) * | 2020-03-27 | 2023-05-30 | 北京字节跳动网络技术有限公司 | 数据收集方法、装置、存储介质及电子设备 |
CN113807085B (zh) * | 2021-11-19 | 2022-03-04 | 成都索贝数码科技股份有限公司 | 一种针对新闻场景的标题字幕提取方法 |
CN113920507B (zh) * | 2021-12-13 | 2022-04-12 | 成都索贝数码科技股份有限公司 | 一种针对新闻场景的滚动字幕提取方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021857A (zh) * | 2006-10-20 | 2007-08-22 | 鲍东山 | 基于内容分析的视频搜索系统 |
CN101031035A (zh) * | 2006-03-03 | 2007-09-05 | 广州市纽帝亚资讯科技有限公司 | 基于视频序列分析的新闻视频单元自动分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100411340B1 (ko) * | 2001-03-09 | 2003-12-18 | 엘지전자 주식회사 | 뉴스 비디오 콘텐트의 뉴스 기사 기반 요약 및 브라우징시스템 |
-
2010
- 2010-12-22 CN CN 201010599994 patent/CN102331990B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101031035A (zh) * | 2006-03-03 | 2007-09-05 | 广州市纽帝亚资讯科技有限公司 | 基于视频序列分析的新闻视频单元自动分割方法 |
CN101021857A (zh) * | 2006-10-20 | 2007-08-22 | 鲍东山 | 基于内容分析的视频搜索系统 |
Non-Patent Citations (4)
Title |
---|
基于主题字幕提取的新闻视频检索研究;王艳;《中国优秀硕士学位论文全文数据库》;20081130;全文 * |
基于字幕的新闻视频检索算法;蓝照华等;《广播与电视技术》;20100531(第5期);64-66 * |
王艳.基于主题字幕提取的新闻视频检索研究.《中国优秀硕士学位论文全文数据库》.2008,全文. |
蓝照华等.基于字幕的新闻视频检索算法.《广播与电视技术》.2010,(第5期),64-66. |
Also Published As
Publication number | Publication date |
---|---|
CN102331990A (zh) | 2012-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102331990B (zh) | 一种基于字幕提取的新闻视频检索方法 | |
US11776267B2 (en) | Intelligent cataloging method for all-media news based on multi-modal information fusion understanding | |
Shim et al. | Automatic text extraction from video for content-based annotation and retrieval | |
US8255793B2 (en) | Automatic visual segmentation of webpages | |
CN101533474B (zh) | 基于视频图像的字符和图像识别系统和方法 | |
CN101102419B (zh) | 一种定位视频字幕区域的方法 | |
Bertini et al. | Content-based indexing and retrieval of TV news | |
CN100589532C (zh) | 字幕区域提取装置和方法 | |
CN101650958A (zh) | 对电影类视频进行场景片段抽取方法及其建立索引的方法 | |
CN107451120B (zh) | 一种公开文本情报的内容冲突检测方法及系统 | |
CN104244073A (zh) | 一种视频中滚动字幕的自动检测和识别方法 | |
CN112819837B (zh) | 一种基于多源异构遥感影像的语义分割方法 | |
CN108710860B (zh) | 一种视频新闻分割方法和装置 | |
Smeaton et al. | TRECVID 2003-an overview | |
Bartolini et al. | Shiatsu: semantic-based hierarchical automatic tagging of videos by segmentation using cuts | |
CN104504162A (zh) | 一种基于机器人视觉平台的视频检索方法 | |
CN104199950B (zh) | 一种基于图像相似度快速匹配的学术论文搜索方法 | |
KR19990047501A (ko) | 뉴스 비디오 자막 추출 및 인식 방법 | |
Memon et al. | Region based localized matching image retrieval system using color-size features for image retrieval | |
Paliwal et al. | A survey on various text detection and extraction techniques from videos and images | |
Mahajan et al. | A decade on script identification from natural images/videos: a review | |
JP2006157688A (ja) | 映像シーンに対する意味ラベル付与方法及び装置及びプログラム | |
Van Gool et al. | Mining from large image sets | |
CN102053980A (zh) | 视频简编 | |
Al-Asadi et al. | Arabic-text extraction from video images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130619 Termination date: 20131222 |