CN102331990A

CN102331990A - 一种基于字幕提取的新闻视频检索方法

Info

Publication number: CN102331990A
Application number: CN201010599994A
Authority: CN
Inventors: 章毅; 彭德中; 张蕾; 吕建成; 张海仙; 郑伯川; 郭泉
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2010-12-22
Filing date: 2010-12-22
Publication date: 2012-01-25
Anticipated expiration: 2030-12-22
Also published as: CN102331990B

Abstract

本发明公开了一种基于字幕提取的新闻视频检索方法，包括新闻镜头分割、特殊镜头检测、新闻结构化分析、镜头帧融合、文本标题定位、字符识别和建立标题字幕索引等步骤，该方法克服现有技术存在的缺陷，能提取出视频中的标题字幕并加以组织和管理，用于基于内容的视频检索。

Description

一种基于字幕提取的新闻视频检索方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于字幕提取的新闻视频检索方法。

背景技术

视频是多媒体环境中的重要元素，它在众多不同领域中有着广泛应用。新闻视频是视频的一个重要分支，它们包含着大量的有用信息。基于内容的视频检索系统指的通过文本、图片或视频的其他特征在视频集中搜索需要的信息。要实现基于内容的视频检索，首先要将视频进行适当的分割，建立用于检索的索引之后，使用户可以通过文本等内容检索视频。基于字幕的检索就是其中一种方法。对于新闻视频，由于视频中的新闻标题对新闻故事内容进行了良好的描述，可以作为文字标签用于基于内容的新闻视频检索。

基于像素比较法视频分割：该方法是通过比较连续两帧相应像素的差值，如亮度或色度等判断镜头是否发生变化，由此进行视频分割。通常首先计算像素之差的绝对值的总和，并设定一个阈值与之比较，超过阈值时认为镜头发生了切换，进行分割。然而该方法的性能完全依赖阈值的设定，而在这种方法上单一阈值常常不能胜任所以情形，对噪声敏感，漏检和错检情况都比较多。

基于直方图的视频分割：该方法将亮度、灰度等分为多个等级，并统计一帧中在各等级中的像素数量，形成直方图，通过直方图比较来考察视频帧之间的差距。比较常见的有灰度直方图法、颜色空间直方图法等。该方法常常会与基于块的比较方法，将视频帧分为M个块，在每个块中分别进行比较。该方法对物体和摄像机的缓慢移动不敏感，仍然对镜头强烈晃动、光照快速变化等比较敏感，容易错检，而当相邻镜头颜色比例相似时，又容易漏检。

ECR视频分割：ECR（Edge Change Ratio）即边缘变化率。该方法考虑通过视频帧之间边缘的变化来判断镜头的转换进行分割。R.Zabhi等人为了减少镜头对运动物体和颜色变化的敏感性，提出了基于边缘变化的镜头分割方法，先对帧进行高斯模糊，去掉太过细小的边缘，再用Canny算子提取边缘，然后进行边缘扩大。计算后一帧中新出现的边缘

、前一帧中出现而未出现在后一帧的边缘

，分别除以后一帧中的边缘数量和前一帧中的边缘数量获得边缘进入率和边缘消失率，二者间较大者为ECR取值。如果ECR值明显增大，则认为镜头发生了转换。对于简单的视频镜头该方法效果较好，然后对如毛发、波光粼粼的水面这样边缘复杂的不停发生微小变化的实际镜头中表现不佳。在光线较弱和轮廓不明显时，也容易漏检，加上大量的运算，大大限制了该方法的实际应用。

视频单一帧字符识别：为了将传统光学字符识别的方法应用到视频中，该方法首先在每个镜头中提取一个关键帧，然后进行图像增强等操作，最后提交给字符识别模块进行识别。然而关键帧提取的方法一般与字符出现情况没有太多关系，单一帧识别的方法一般只是选择任意一个含有字符的帧进行处理和识别。这浪费了视频流中更多有用帧中的信息，也可能产生大量和主题无关的文本，如在新闻中的滚动新闻，这往往与当前视频画面中的新闻并无太大关系，这样很可能造成错误的索引。

SQL数据库：SQL（Structured Quevy Language）即结构化查询语言，是为数据库等查询系统设计的一组操作指令，提供查、插、删、改等齐全的数据库操作，功能强大，由具体数据库系统实现并支持。当前主流数据库都支持SQL。然而各数据库提供商对SQL的实现不完全相同，执行不同的标准。而且，如果用作全文搜索，效率比较低下，需要单独的索引，不支持相似性搜索和相似度排序等。

发明内容

本发明所要解决的问题是：如何提供一种基于字幕提取的新闻视频检索方法，该方法克服现有技术存在的缺陷，能提取出视频中的标题字幕并加以组织和管理，用于基于内容的视频检索。

本发明所提出的技术问题是这样解决的：提供一种基于字幕提取的新闻视频检索方法，其特征在于，包括以下步骤：

步骤1 新闻镜头分割

采用时空切片的方法，提取视频的时空切片，检测镜头剪辑的位置，进行镜头分割；

步骤2 特殊镜头检测

根据对新闻视频结构信息的研究，对单个节目提取其结构支撑性镜头，在这里，我们取主持人镜头和广告镜头，训练一个或一组支持向量机，并用该支持向量机对同一节目进行特殊镜头检测，以用于结构分析；

步骤3 新闻结构化分析

根据提取出的特殊镜头，将新闻进行结构化分析，并分组标记；

步骤4 镜头帧融合

对每个镜头进行最小值帧融合，减弱动态背景内容而增强固定的文本内容，得到融合帧；

步骤5 文本标题定位

由于文字区域的纹理特性表现为密集而同时有纵横纹理，对融合帧进行纹理分析，提取符合上述特征的区域，并提取最小矩形作为标题位置；

步骤6 字符识别

将提取出的字符区域进行二值化，交给字符识别模块，字符识别的结果作为提取出的标题字幕信息；

步骤7 建立标题字幕索引

将提取出的字符信息按照预先定义好的新闻结构存入数据库，同时利用索引模块进行数据库外部增量索引用于检索。

按照本发明所提供的基于字幕提取的新闻视频检索方法，其特征在于，步骤1中具体方法为：

提取镜头的时空切片，对该时空切片进行边缘检测：令

为时空切片的像素集合，对于

，

为时空切片边缘，即

通过形态学膨胀腐蚀操作检出纵向不连续标记为剪辑处以进行分割：用

表示形态学膨胀操作，用

表示形态学腐蚀操作，先使用形态学腐蚀操作，采用1*7的纵向矩形，去除不是纵向边缘的纹理，

,

然后扩展剩下的纵向纹理，通过5*3的矩形，进行形态学膨胀操作，

；

再次对膨胀后的纵向纹理提取边缘，以得到连通边缘，

,

再利用7*1的矩形进行形态学腐蚀操作，去除非横向纹理便可留下纵向纹理不连续处的纹理，

；

设定一个阈值对剩下的纹理进行判断，找到剪辑发生的地方，进行视频分割。

按照本发明所提供的基于字幕提取的新闻视频检索方法，其特征在于，步骤4中具体方法如下：采用最小值融合法，对于镜头中的帧

有

，

则

为融合成的融合帧，该融合帧中动态背景内容被减弱，静态文本被加强。

按照本发明所提供的基于字幕提取的新闻视频检索方法，其特征在于，首先通过边缘检测获得融合帧的纹理，

,

然后分别用1*3和3*1的核进行腐蚀操作分别取得纵向和横向的纹理，

,

.

然后通过与操作获取纵向纹理和横向纹理的连接部分，在此操作前，为了更容易找到这些连接，首先膨胀这些纵向和横向文理，分别采用4*7和7*4的核对两个纹理进行膨胀，

,

接着对膨胀后的两个纹理图像进行与操作以获得连接处的纹理，

.

最后，只需要提取纹理集中区域的边缘并计算可以包括此区域的最小矩形，即可获得标题文本的定位。

本发明的有益效果：

1、为视频提供了文本标签。当前数据挖掘的研究中，文本数据挖掘技术较为成熟，而基于内容的其他多媒体检索问题并没有很好的解决方法。本发明自动为新闻视频提取标题字幕，用这些标题字幕作为视频的文本标签，以用于检索，由于新闻视频中的标题字幕包含了对新闻内容较好的概括，此方法连接了文本挖掘的技术优势和新闻视频中丰富的信息，为基于内容的视频检索提供了途径。

2、对提取出的标题进行了索引和管理。通常的视频字幕搜索只是把字幕信息存入数据库，搜索时对数据库进行查找。本发明中对提取出的字幕进行数据库外部索引，可以提供高速索引、高速搜索、搜索相似度排序、分布式搜索等优点，甚至利用更多文本数据挖掘的优势。

3、提高镜头分割准确性。本发明中采用时空切片的方法进行镜头分割，不同于各种帧间差比较的方法，而是在保有视频连续信息的时空切片上通过考察连续性判断镜头分段从而分割镜头。本方法针对新闻视频的特点，克服了其他分割方法的缺点。

4、镜头分类处理。本发明通过支持向量机分类，对不同的镜头做出不同的处理，不需要对广告镜头进行采集，对主持人镜头判断并作为新闻故事开始结束的标记等，从而在结构上对分割的视频片段进行更好的管理。

5、使用多帧融合的融合帧进行文本提取，不但增了文本区域，减弱了变化的复杂背景，而且针对新闻视频中不同字幕出现情况的特性，避开了只出现一瞬间的与主题无关的文字区域以及与当前新闻无关的滚动新闻字幕，能提取出只和当前新闻故事主题相关的文本标题，用于检索效力更佳。

附图说明

图1新闻镜头分割流程图；

图2时空切片示意图；

图3 Grid-search结果示意图；

图4文本标题定位流程图。

具体实施方式

下面结合附图对本发明作进一步描述：

本发明根据新闻视频的特性，先将新闻视频进行镜头分割，然后通过支持向量机分类出不同类别的镜头。根据新闻的结构特性，通过特殊镜头的位置对新闻进行结构化分析。对于可能存在有用字幕的帧进行帧融合后，在经过增强的融合帧中提取字符区域及其中的字符交由字符识别模块识别以提取出标题字幕。提取出的字幕存入数据库的同时进行外部索引，以提高搜索效率和提供相关性排序和相关性查询。

1、新闻镜头分割

新闻镜头分割的流程总体如图1所示。采用时空切片的方法进行镜头分割，不同于各种帧间差比较的方法，而是在保有视频连续信息的时空切片上通过考察连续性判断镜头分段从而分割镜头。首先提取镜头的时空切片。如图2所示，设定好固定的位置，如中垂线，对角线，然后对连续的每一帧视频提取该相同位置的像素，拼接在一起，形成视频流的时空切片，形如图2左下角时空切片。对该时空切片首先进行边缘检测。令

为时空切片的像素集合，对于

，

为时空切片边缘，即

.

然后，通过形态学膨胀腐蚀操作检出纵向不连续标记为剪辑处以进行分割。这里用

表示形态学膨胀操作，用表示形态学腐蚀操作。先使用形态学腐蚀操作，采用1*7的纵向矩形，去除不是纵向边缘的纹理，

,

然后扩展剩下的纵向纹理。通过5*3的矩形，进行形态学膨胀操作，

,

再次对膨胀后的纵向纹理提取边缘，以得到连通边缘，

,

然后，再利用7*1的矩形进行形态学腐蚀操作，去除非横向纹理便可留下纵向纹理不连续处的纹理，

.

最后，设定一个阈值对剩下的纹理进行判断，找到剪辑发生的地方，进行视频分割。

2、特殊镜头检测

为了进行新闻视频的结构化分析，需要首先提取出对结构起着支撑作用的特殊镜头，在这里，我们取主持人镜头和广告镜。本发明采用支持向量机作为分类器，对于每个节目，首先选出一定数量主持人帧（如，500帧）作为正向样本，和一定数量其他帧（如，1500帧）作为负向样本，训练的支持向量机采用RBF核，

，

其中有核函数参数

和惩罚因子

需要设定，可以采用Grid-search技术进行参数调优，结果如图3所示，横轴、纵轴分别表示核函数参数

和惩罚因子

的变化，等高线表示取得的精度，越内圈的精度越高。本发明采用调优后的结果

。经过训练，支持向量机可以用于主持人镜头和普通镜头的分类。

3、新闻结构化分析

经过主持人镜头检测，就可以根据这些镜头的位置将新闻视频分割成一段一段的新闻故事，一个新闻故事中的镜头包含相同的主题，由一个主持人镜头开始，而下一个主持人镜头结束。

4、镜头帧融合

同一视频镜头是由许多视频帧组成的。视频镜头中包含大量的动态的信息，而我们需要提取出标题文字部分。标题文字的特点是在同一个视频镜头中通常是不变的，甚至跨越多个镜头。因此，本发明采用镜头帧融合的方法，减弱动态变化的背景图像，加强固定不变的标题文本。采用最小值融合法，对于镜头

中的帧

有

，

则为融合成的融合帧，该融合帧中动态背景内容被减弱，静态文本被加强。

5、文本标题定位

对融合后的融合帧进行文本标题定位。本发明利用文本在视频中的纹理特性，表现为密集而同时有纵横纹理，而且有密集的不同方向纹理的交接点，即笔画转折处。由此，本发明采用基于纹理特征的定位方法。图4展示了文本标题定为的流程。首先通过边缘检测获得融合帧的纹理，

,

,

.

然后通过与操作获取纵向纹理和横向纹理的连接部分。在此操作前，为了更容易找到这些连接，首先膨胀这些纵向和横向文理。分别采用4*7和7*4的核对两个纹理进行膨胀，

,

,

.

最后，只需要提取纹理集中区域的边缘并计算可以包括此区域的最小矩形，即可获得标题文本的定位。需要说明的是，一个镜头中可能有超过一个文本标题区域，也可能没有。

6、字符识别

将上一步骤提取出的字符区域提交给字符识别模块进行处理。此处的字符识别模块可以根据需要选择。本发明调用的是微软公司提供的MODI模块。

7、建立标题字幕索引

对上一步骤提取出的字幕，首先与视频中出现的位置对应存入数据库，同时，提交给外部索引模块。这样做的目的是提高搜索时的速度，并提供相似检索，相似度排序等普通SQL数据库不能提供的能力。本发明采用免费开源的索引引擎Sphinx。通过配置文件，指定索引数据源，索引模块就可以自己工作了，并提供搜索，相关性排序等能力，弥补了SQL数据库单一的查询模式功能上和效率上的不足。