CN101137017A

CN101137017A - 一种快速检测在线视频流中静态叠加文字的方法及系统

Info

Publication number: CN101137017A
Application number: CNA2007101761264A
Authority: CN
Inventors: 李甲; 田永鸿; 黄铁军; 高文
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2007-10-19
Filing date: 2007-10-19
Publication date: 2008-03-05
Anticipated expiration: 2027-10-19
Also published as: CN100515048C

Abstract

本发明涉及一种图像和视频处理方法及系统，特别是关于一种快速检测在线视频流中静态叠加文字的方法及系统。静态叠加文字检测方法利用帧间相关信息及小波域建模等方法，可以有效的去除运动文字和背景区域，并保留静态叠加文字区域。本方法可以实现对在线视频流中静态叠加文字位置的快速检测。同时，基于静态叠加文字检测方法构建了一种在线视频流检索系统。本系统中，在各个用户终端上使用不同的参数族进行快速的文字检测，并将结果通过OCR控件转化为文本流。在各用户终端将文本流传输至集中检索服务器进行整合后，可以提供对各频道的多时间粒度的检索功能，并提供对各频道的基于内容的快速浏览功能。本发明可以在不侵犯版权的情况下，实现对多路多种质量的在线视频流进行同步分析、索引、检索以及浏览的功能，并且不需要对各种视频流建立专门的服务器。

Description

一种快速检测在线视频流中静态叠加文字的方法及系统

技术领域

本发明涉及一种图像和视频处理方法及系统，特别是关于一种快速检测在线视频流中静态叠加文字的方法及系统。

背景技术

近10年来，网络媒体技术的迅速兴起极大的拓展了人们接收信息的途径和方式，在众多的网络媒体技术中，以在线视频流技术的发展最为引人注目。在某种意义上，在线视频流可以被理解为网络上的广播频道。如著名的PPLive视频广播系统，在任意时刻都有数百个频道在进行广播。为了在数以千记的网络广播频道中查找出用户感兴趣的频道，用户迫切需要一种有效的手段来对频道当前节目的内容进行快速的浏览和检索。然而，目前的基于源数据信息的检索方式，如通过频道的描述性文字、频道标题等进行检索的方法，无法快速的描述各网络频道的最新的播放内容，因此无法满足用户的检索需求。

同时，数字化技术的迅速兴起拓展了人们开发更多自动化技术的想象空间。在图像/视频处理领域，自动的对象检测和识别技术引起了人们越来越多的关注。其中，图像/视频文字检测就是一个十分有意义的研究方向。为了在数百万的视频文件中快速搜索到用户所感兴趣的视频，人们开发了一种用于对视频文件中的静态叠加文字进行检测和识别的自动化技术。通过对检测出的静态叠加文字，如对白字幕、标题等进行光学字符识别(OCR)，可以有效的推知当前视频的内容。通过这种技术，人们可以通过静态叠加文字来检索和快速浏览视频文件。然而，在将这种方法应用到在线视频流时，会遇到以下各问题：

1、版权问题。一般的网络广播，如网络影视频道、网络新闻广播等，其流媒体发布商具有对广播内容的版权，如果按照“下载-分析”的方法对广播内容进行储存和分析，则会侵犯相应的版权。

2、实时性问题。与传统的视频文件检索不同，在线流媒体的检索对实时性有很高的要求，例如用户需要通过检索或浏览，了解到最近一分钟内或五分钟内某些在线视频流的节目内容。然而，现有的文字检测算法往往需要进行大量的计算，使得检测速度远远低于视频流的正常播放速度，使用这种方法对在线的视频流进行文字检测，会造成大量的漏检，从而不能提供完整的节目内容描述。

3、频道数量问题。如上所述，为了确保得到完整的节目内容描述，需要对各频道进行快速的文字检测和识别。因此，在线视频流的分析过程不可能像传统的视频文件分析技术一样可以串行进行，而是必须对几千路乃至上万路在线视频流进行并发的分析。然而，由于在线视频流的数目庞大且具有高度可变性，不可能采用对每路在线视频流建立单独的分析服务器进行分析的方法。

4、视频质量问题。因为网络带宽的限制以及不同的编码格式，在线视频流将具有多种分辨率和多种压缩质量，然而，现有的采用固定阈值的文字检测算法以及采用先验规则的自适应阈值文字检测算法无法适用于多种质量的视频，进而无法对多种质量的视频流都达到最佳的文字检测结果。

通过对国内外的相关文献和专利进行检索可以发现，目前主要的静态叠加文字的检测方法仍是基于单帧图像进行的，如论文 “Fast and robust textdetection in images and video frames.”(图像与文字帧中快速鲁棒的文字检测方法)中，对单幅图像进行小波变换，并通过支持向量机及从小波域提取的特征，来检测文字区域。论文“A comprehensive method for multilingual video textdetection，localization，and extraction”(一种全面的多语言视频文字检测、定位及提取方法)中，通过Sobel边缘检测算子在单幅图像中检测到文字的大致区域，并通过局部阈值处理及水平、垂直投影来精确定位文字区域。专利“利用支持向量机进行视频字幕定位和提取的方法”，其主要思想在于通过支持向量机和图像灰度特征，在单幅图像中检测文字区域。专利“视频字幕内容分析系统”，其主要思想在于通过灰度边缘信息以及预先确定的规则，在单独的视频帧上定位文字区域。然而，这些方法并没考虑到利用帧间信息进行加速计算。虽然有些论文和专利使用了直观的边缘强度对文字区域进行了帧间跟踪，但这种直观的跟踪方法不能够有效地反映出边缘的变化情况，从而会造成许多文字区域的漏检测和误检测。此外，在使用字幕文字进行视频检索方面，现有的论文和专利还停留在通过对视频文件进行不计代价的字幕提取，从而对视频文件建立文本索引以供检索的阶段。但是，为实现在线视频流的实时索引，需要能够快速检测静态文字区域的文字检测算法，因此，上述使用复杂计算的分析方法并不能直接应用于在线视频流的文字检测，从而无法对在线视频流提供完整的文本描述。

由以上分析可知，由于在线视频流分析的特殊性质，直接对其使用现有的对视频文件的分析和检索技术具有一定的困难。为此，需要一种能解决上述各问题的在线视频流检索系统。

发明内容

本发明的目的在于提供一种快速检测在线视频流中静态叠加文字的方法及系统。在对检测到的文字区域进行分割和识别，并将其转为文本格式后，将多路在线视频流的文字分析结果进行整合，进而构建了一个在线视频流检索系统，以提供多时间粒度的在线视频流检索功能以及基于其内容的快速浏览功能。

为实现上述目的，本发明采取以下技术方案：

一种快速检测在线视频流中静态叠加文字的方法，其大致工作流程如下：首先在用户终端上快速检测出视频流中的静态叠加文字区域并进行识别，然后将各用户终端识别所得出的字符文本结果上传至集中式检索服务器，在这些字符文本中提取关键词并依时间顺序进行整合，以供用户进行检索和浏览。

为实现视频流中静态叠加文字区域的快速检测，首先对视频各帧进行必要的缩放，以减少要处理的数据量，其后的检测过程主要包括以下几个步骤：1、在小波域上定义帧间相关信息用于描述边缘的稳定性，并去除运动背景区域和非静态叠加文字区域；2、使用泛化高斯模型对小波子带的系数分布进行建模，以模拟小波系数的分布情况并推导出相应的阈值，以用于提取强边缘区域；3、对经由上述两步剩余的区域，使用形态学的相关操作，分割成候选文字行；4、对候选文字行，使用步骤1)中所计算出的帧间相关信息进行帧间跟踪，以去除不是本帧首次出现的候选文字行；5、对剩余的候选文字行，在小波域提取相应的特征，并使用支持向量机做为分类器，以获取真实的文字行，即为本帧新出现的静态叠加文字。

此外，为实现对多路视频流的快速浏览和检索，首先需要在各用户终端上，在不影响观看效果的前提下采用多种可能的参数族以检测静态叠加文字区域。因此，为在各客户端上实施上述静态叠加文字检测方法，除了上述文字检测模块外，还增加了以下模块：1、视频帧抓取模块，从在线视频流中按一定的帧采样率同时抓取当前播放的视频帧及其前后两帧，以供提取新增加的静态叠加文字区域；2、随机参数产生模块，在特定用户终端上，对检测中所采用的参数族，在预设范围内进行随机取值，用于该用户终端上的所有文字检测任务；3、分析速度估计模块，根据当前数帧的文字检测速度，决定视频帧抓取模块对在线视频流的帧采样率，以保证流畅的观看速度。

通过在各用户终端上应用此静态叠加文字检测系统，我们发明了一种基于静态叠加文字的在线视频流检索和浏览的方法，包括以下步骤：1、利用各用户终端上的空余计算资源，在不影响观看效果的情况下，对当前视频流进行静态叠加文字的检测；2、利用现有的文字分割和光学字符识别方法，对检测出的静态叠加文字区域进行识别，并将获得的文本以固定的格式发送至集中检索服务器；3、集中检索服务器上，使用现有方法对所接收的文本提出关键词，并按频道进行整合，以获得在线视频流的文字索引；4、集中检索服务器上，使用提取出的各频道的关键词索引，提供对各频道的多时间粒度的检索功能；5、集中检索服务器上，使用提取出的各频道的关键词索引，提供对各频道的基于内容的快速浏览功能。

基于此方法，我们开发了一种检索和浏览在线视频流的系统，在此系统上，各用户终端对自己正在观看的在线视频流进行文字检测，并将检测结果识别成文本格式传输给集中检索服务器。集中检索服务器对各客户端的分析结果进行整合，形成对在线视频流的文本索引。此后，集中检索服务器依托这些文本，向用户提供对各频道的多时间粒度的检索功能，并提供对各频道的基于内容的快速浏览功能。

本发明由于采取以上技术方案，其与已有方法相比，主要创新点在于：1、在检测过程中，只需使用用户当前时刻观看的数帧视频，从而有效的避免了下载导致的侵权的问题。2、提出了一种鲁棒的帧间相关性的描述方法用于快速移除非静态叠加文字区域，并采用了多种方法保证静态叠加文字检测的速度。从而解决了分析的实时性问题。3、在检测过程中，利用用户终端的空余资源进行文字检测，以实现对多路在线视频流的并发检测。从而解决了频道数量的问题。4、利用用户终端的分布特性，在静态叠加文字检测流程中，在不同的用户终端上使用不同的参数族取值，以适应多种分辨率、多种压缩质量的在线视频流，进而确保能够检测到正确的文字区域。从而解决了视频质量问题。5、通过对终端用户的运算结果整合并进行再发布，提供给用户以多时间粒度的在线视频流的检索方法以及基于内容的快速浏览。6、给定一段网络在线视频流，本发明的静态叠加文字检测方法可以在任何含有处理器的电子浏览终端上产生，如个人电脑、智能手机等。7、本发明同样也适用于通过采集卡、电视卡获取的电视广播。通过收集各终端的分析结果并进行整合，可以得到对任意以流媒体形式呈现的视频的实时文字描述，从而使用户对各种在线视频流的多时间粒度的检索和基于内容的快速浏览成为可能。

附图说明

图1是本发明快速静态叠加文字检测系统模块示意图

图2是本发明快速静态叠加文字检测方法流程示意图

图3是本发明视频流分析和检索系统架构示意图

图4是本发明基于快速检测在线视频流中静态叠加文字的方法来检索在线视频流的系统结构示意图

具体实施方式

下面通过实施例并结合附图对本发明进行详细的描述。

如图1所示，本发明静态叠加文字检测系统主要包括以下各基本模块：

1)视频帧抓取模块1，从在线视频流中按一定的帧采样率同时抓取当前播放的视频帧及其前后两帧；

2)小波分解模块2，将当前视频帧及其前后两帧分别分解为相应的小波子带。

3)时域分析模块4，根据帧间相关性，去除运动背景和非静态叠加文字区域；

4)空域分析模块5，根据小波域参数，去除简单背景区域；

5)后处理模块6，将时域、空域分析模块的结果进行组合，并划分文字行，通过已计算的与前帧的帧间相关性进行帧间跟踪，以及通过支持向量机进行文字行真实性判决；

为保证在用户终端上，在不影响用户观看的前提下实现对视频流的采样，在用户终端上具体实施此文字检测系统时，还增加了以下两个模块：

1)随机参数产生模块3，在特定用户终端上，对检测中所采用的参数族，在预设范围内进行随机取值，用于该用户终端上的所有文字检测任务；

2)分析速度估计模块7，根据当前数帧的文字检测速度，决定视频帧抓取模块对在线视频流的帧采样率，以保证流畅的观看速度

模块间的数据流关系如下：视频流数据依次经由视频帧抓取模块1、小波分解模块2、时域分析模块4、空域分析模块5及后处理模块6。后处理模块6的输出包括文字区域信息及控制信息。其中控制信息如分析用时等，将传送至分析速度估计模块7，以决定下一次分析所使用的采样频率。同时，随机参数产生模块3将产生不同的随机参数，并将这些参数输出至时域分析模块4和空域分析模块5，以控制文字检测的过程。

如图2所示，是本发明的文字检测流程，为了避免侵犯版权，在检测第i帧的静态叠加文字区域时，仅选择与其相邻的前后两帧，用于提取帧间相关信息。一般来说，可以认为文字区域是高频边缘的集合，而与滚动新闻、自然场景文字等“运动”文字相比，静态叠加文字，特别是人为叠加的标题、对白字幕等，会含有相对静止的边缘。因此，帧间相关性分析的目的，即为通过对比当前帧与前后两帧的边缘，获知边缘的运动情况，从而得出富含静止边缘的区域。

由于静态叠加文字区域内常常包含有复杂的静止边缘，因此，直接通过前后两帧同一位置的边缘强度进行静止边缘检测的方法是不可取的。首先，这种方法对噪声的干扰非常敏感。其次，静态叠加文字区域的背景变化会导致文字的边缘强度变化，从而可能对边缘的是否稳定产生误判。最后，使用硬阈值及边缘强度的变化来判断边缘是否静止的方法无法适用于不同分辨率、不同压缩质量的在线视频流。为了解决上述问题，本发明提出一种鲁棒的帧间相关性的定义，量化的表示边缘的稳定情况。

对视频流数据，通过视频帧抓取模块1抓取连续三帧，首先通过小波分解模块2进行分解，将每一帧分解为LL，HL，LH，HH等四个小波子带。本发明使用以下方法来避免直接比较边缘强度方法中的问题：

1、噪声处理。在四个小波子带中，LH和HL子带分别代表水平和垂直方向的边缘，在HH子带中包括对角线方向的边缘。一般认为在HH子带中，包含有大量的孤立噪声点造成的伪边缘。常用的降噪方法是对HH子带进行滤波处理。为了简化数据量以达到实时处理的效果，在此本发明仅仅使用HL和LH子带中的边缘，从而去除噪声的影响。

2、背景变化引起的边缘强度变化。在视频中，相同的文字叠加在不同背景上时，其文字边缘也会发生变化。例如，对同样的文字，当其分别处于白色背景上和灰色背景上时，其边缘强度差别很大，如果直接按照边缘强度进行比较，很容易造成误判。为了解决这个问题，一种直观的方法是：不使用两帧相应位置边缘的强度进行直接对比，而是使用相应位置边缘的相对强度进行比较。为此，为了获得第i-1帧和第i帧的小波子带WS(WS∈{LH，HL})中点(x，y)处边缘的稳定性，本发明计算以该点为中心的一个邻域内的边缘强度的方差：

{\overset{&OverBar;}{σ}}_{i}^{2} (x, y, WS) = \frac{1}{{(2 M + 1)}^{2}} Σ_{a = x - M}^{x + M} Σ_{b = y - M}^{y + M} W S_{i} {(a, b)}^{2} - - - (1)

上式中，WS_i(a，b)为第i帧的小波子带WS中，(a，b)处的小波系数(即该方向上的边缘强度)。通过对其(2M+1)×(2M+1)邻域内的小波系数进行平均，可以有效的避免由于压缩效应和噪声对边缘强度造成的影响。之后，计算第i-1帧和第i帧的小波子带WS中点(x，y)处的协方差如下：

{\overset{&OverBar;}{σ}}_{[i - 1, i]} (x, y, WS) = \frac{1}{{(2 M + 1)}^{2}} Σ_{a = x - M}^{x + M} Σ_{b = y - M}^{y + M} M S_{i - 1} (a, b) W S_{i} (a, d) - - - (2)

上式中，协方差可以用来表示两帧相应子带的小波系数在(a，b)周围的局部小区域内的耦合情况，为了量化的表示相对边缘变化情况，定义子带WS中某点的帧间相关性如下：

ISCC (x, y, i - 1, i, WS) = \{\begin{matrix} - 1 & {\overset{&OverBar;}{σ}}_{i - 1} (x, y, WS) {\overset{&OverBar;}{σ}}_{i} (x, y, WS) < ϵ \\ \max (\min (1, \frac{{\overset{&OverBar;}{σ}}_{[i - 1, j]} (x, y, WS)}{{\overset{&OverBar;}{σ}}_{i - 1} (x, y, WS) {\overset{&OverBar;}{σ}}_{i} (x, y, WS)}), - 1) & elsewise, \end{matrix} - - - (3)

由帧间相关性的定义可以看出，帧间相关性不仅考虑了局部区域内的平均边缘强度变化以减少噪声和压缩效应的影响，还通过计算两帧间局部区域的耦合性，来反映这些边缘点的运动情况。而通过耦合程度与平均边缘强度之积的比值，相当于使用相对边缘强度来表示点(x，y)所在的局部区域内，边缘位置的变化情况。为了量化的表示边缘的稳定程度，在(3)式中将帧间相关性的取值限定在-1和1之间。而ε为预定义的一个比较小的数值，表明对无边缘区域，其相关性取为-1，以减少计算量。

通过帧间相关性的定义，可以有效的在摒弃噪声和压缩效应的情况下，计算背景发生改变的两帧特定子带特定位置的边缘稳定性。通过两两计算第i-1和第i帧，以及第i和第i+1帧中，LH和HL子带中各点的相关性，可以从两个空间方向和两个时间方向量化的衡量第i帧中任意边缘的稳定性。在此，本发明定义某边缘点的稳定性为这四种稳定性中的最大值，从而得到第i帧各点的时域稳定性图。此图中，任一处(x，y)的数值，表示该点各时、空方向的最大稳定性。

3、阈值的选取。根据实验，静态叠加文字区域的时域稳定性值会在0.4-1.0之间，而非静态叠加文字区域的时域稳定性值一般接近0或为负值。为了获取稳定的边缘区域，需要使用一个阈值对时域稳定性图进行二值化，以区分稳定的边缘和不稳定的边缘。为了使算法适用于不同分辨率、不同压缩质量的在线视频流，阈值的选取非常重要。在此，本发明使用一种工程性的方法来达到此目的，具体细节将在视频流检索的系统架构中着重详述。

通过帧间相关性的计算和二值化操作，可以得到时间轴上相对稳定的区域。为了简化计算，本发明同时通过帧间相关性进行文字区域跟踪，以去除曾经在前面帧中出现过的静态叠加文字区域。通过这种只检测和处理本帧中新增加的文字区域的方法，可以大大加快检测和识别的速度。

与一般的纹理背景和简单边缘区域相比，静止文字区域具有更强更密集的边缘。这种特征反映在小波域上即为密集且较强的小波系数。为了反映这一特点，本发明使用泛化高斯模型(GMM)来对小波域进行快速建模，其目的即为以通过简单的均值、方差、形状因子来反映某小波子带中的边缘分布直方图。建模的具体算法及推导可参考文献“Estimation of shape parameter for generalizedGaussian distribution in subband decompositions of video”(视频子带分解中泛化高斯分布的形状参数估计)，在此，仅给出其估计上述参数的简要流程：

对小波子带WS，估计其参数的流程如下：

1、计算子带WS中，小波系数的均值μ和方差σ²

2、计算子带WS中，小波系数与其均值μ之差的绝对值的数学期望

E (| WS |) = (1 / MN) Σ_{m = 1}^{M} Σ_{n = 1}^{N} | WS (m . n) - μ |

3、计算方差与此期望值的比值：ρ＝σ²/E²(|WS|)

4、通过查表法查找方程f(γ)＝r(1/γ)Г(3/γ)Г²(2/γ)＝ρ的解。其中Г(·)为Gamma方程，其具体形式为：

Γ (x) = {&Integral;}_{0}^{\infty} t^{x - 1} e^{- t} dt

(x>0)，γ即为形状因子。

通过这些简单的参数，对子带WS，本发明确定了一个简单阈值：

{threshold}_{WS} = C \times \sqrt{r_{WS}} {\times σ}_{WS}

并使用此阈值去除此子带中大部分的背景区域，同时保留具有复杂边缘的区域。上式中其中，γ_WS为子带WS相应的泛化高斯模型的形状因子。在具有相同的方差时，γ_WS小，则意味着子带WS中低频系数越多，即一个相对“干净”的背景，因此，相应的阈值也可以取的较小。C为用来进行加权的常数。经实验可知，C的取值一般可以取在[2.5，5.5]之间。为了使算法适用于不同分辨率、不同压缩质量的在线视频流，本发明使用一种工程性的方法来确定C的取值，具体细节将在视频流检索的系统架构中进行说明。

对第i帧的两个子带HL和LH分别使用上述阈值进行二值化操作，并保留小波系数绝对值大于此阈值的点，从而可以去除两子带的简单背景。将两个子带的结果使用“或”操作组合起来即可得到在空间各个方向上的复杂边缘区域。

通过将空间各方向上的复杂边缘区域和时间轴上相对稳定的区域通过“或”操作进行组合，可以得到在空域上复杂的、在时间轴某方向上相对稳定的边缘区域，即可能的静态叠加文字区域。

为了在这些可能的静态叠加文字区域内检测出真正的静态叠加文字区域，并将这些区域以文字行的形式表现出来，本发明通过后处理模块6采用了简单的后处理以及基于规则的文字行划分方法。对可能的文字行，提取该区域小波系数的各阶矩和直方图特征，通过事先训练的支持向量机，来判别其是否为真实的文字行。

为了保证文字检测算法的速度，在上述文字检测方法中，采用了以下算法来加快检测速度：

1、对高分辨率的在线视频流，通过降低分辨率的方法减少运算量。

2、小波分解后，只使用子带LH和HL，不使用富含噪声的子带HH

3、计算帧间相关性中，使用二维可分离均值滤波器计算局部方差和帧间协方差，从而极大地减少了计算量。

4、在小波域建模中，使用了快速算法进行参数估计，并推导阈值。

5、使用支持向量机进行文字行判别时，使用了简单而有效的特征。通过以上减少运算量的算法和快速算法，可以有效的减少文字检测所需的时间。实验证明，在合理的帧采样率下，该算法完全可以保证检测的实时性。通过这种方法检测出的文字行一般包括标题、对白字幕以及其它的一些静态叠加文字。通过现有的文字分割方法和光学字符识别的方法，即可得到这些文字区域的文本表示。为了加快处理速度，本发明只对每帧中新出现的文字行进行文字分割和识别，而对前帧已有的文字区域，直接使用已有的识别结果。从而进一步的加快了检测速度。

为了验证本发明的算法的有效性，在此，使用了1 5段共计6小时49分钟的视频对上述算法进行了测试。视频分辨率统一为400*320。同时，本发明将本发明的算法与以下两篇文章中的算法进行了比较：

1、Lyu，M.R.，Jiqiang Song，and Min Cai.A comprehensive method formultilingual video text detection，localization，and extraction.IEEETrans on circuits and systems for video technology，Volume 15，Issue 2，Feb.2005 Page(s)：243-255(Lyu，M.R.等，一种全面的多语言视频文字检测、定位及提取方法)。

2、Qixiang Ye，Qingming Huang，Wen Gao，and Debin Zhao.Fast and robusttext detection in images and video frames.Image and Vision Computing.Vol.23，No.6，pp565-576，Mar.2005(叶齐祥等，”图像与文字帧中快速鲁棒的文字检测方法”)。

为了保证比较的公平，本发明统一采用2帧每秒的采样速度对上述视频进行帧采样。三种算法分别在静态叠加文字的查全率、误检率以及检测速度等方面进行了比较，比较结果如表1所示：

表1：不同文字检测算法的比较

算法	查全率(％)	误检率(％)	检测速度(帧/秒)
算法	查全率(％)	误检率(％)	检测速度(帧/秒)	本文算法	90.66	28.98	9.09
论文(1)的算法	82.11	38.17	4.46	本文算法	90.66	28.98	9.09
论文(1)的算法	82.11	38.17	4.46	论文(2)的算法	88.68	37.49	1.18

由上比较结果可以看出，由于有效的利用了帧间信息，本发明的算法可以达到一个较高的检测速度。同时，本发明的算法也达到了较高的查全率和较低的误检测率。

由于各用户终端的剩余资源数量不同，为了保证在不影响用户观看的前提下尽可能快的进行文字检测，在各用户终端上实施上述文字检测算法模块时，本发明同时也增加了以下两个模块：

1、分析速度估计模块7。根据当前数帧的文字检测速度，决定视频帧抓取模块对在线视频流的帧采样率，并控制视频帧抓取模块的帧采样率。

2、随机参数产生模块3。一般来说，对不同分辨率、不同压缩质量的网络视频流，需要用不同的参数来达到最佳的文字检测效果。由于频道的观看用户众多，在不同的用户终端上可以采用不同的参数设定进行文字检测。而参数族的某些取值可以接近最佳的参数，从而得到接近最佳效果的文字检测结果。因此在本发明的系统中，通过时域分析模块4不同的终端对时域稳定性图可以采用在范围[0.4，1.0]间的不同的阈值进行二值化，并且在空域分析模块5中，由泛化高斯模型的参数来推导出小波域二值化使用的阈值时，参数C的取值也可以在范围[2.5，5.5]间自由的波动。在特定用户终端上，对检测中所采用的参数族，在预设范围内进行随机取值，用于该用户终端上的所有文字检测任务。

如图3所示，是在加入了上述三种模块后，一种已实现的分析视频中静态叠加文字的原型系统。为了展示该静态叠加文字检测系统的可行性，本发明对检测出的文字进行了识别处理。由此图可以看出，由于检测到的位置与实际静态叠加文字的位置相吻合，基本上可以正确的对检测到的文字区域进行识别并提取关键词。这证明本发明的基于静态叠加文字对视频流进行索引的构想完全可行。

如图4所示，为了整合各用户终端的文字检测、分割和识别结果，并向用户提供多时间粒度的检索以及基于内容的快速浏览，本发明提出一种在线视频流检索架构。此视频流分析与检索系统主要由三部分组成：视频提供商、终端用户、集中式检索服务器。视频提供商的主要作用为提供视频流服务，可以将其看作为具有唯一网络地址的网络广播频道，即视频流数据模块。

终端用户是视频流服务的接收者。用户终端部分主要包括静态叠加文字检测模块和光学字符识别模块。其作用为在不影响用户终端上视频流正常观看的情况下，对用户当前观看的视频流通过上述快速静态叠加文字检测算法和光学字符识别技术，检测出当前帧的静态叠加文字区域并转换为字符文本。由于每个用户终端上的静态叠加文字检测模块中的随机参数产生部分都将针对当前观看频道在允许范围内产生随机阈值，以供文字检测。因此，当观看用户足够多时，可以确保检测出的最佳的文字区域逼近真实区域。

在不同终端上随机产生不同的参数族进行文字的检测，并对检测到的区域分别进行文字分割和识别后即可获取相应的字符文本。此后，将字符文本传输给集中式检索服务器以进行进一步整合以及再发布。上传的字符文本具有以下格式：

表格2：上传字符文本格式设定

字段1	字段2	字段3	字段4		字段N	字段N+1
字段1	字段2	字段3	字段4		字段N	字段N+1	频道标识	时间标识	文字位置	字符文本		文字位置	字符文本

集中式检索服务器主要包括关键词提取模块、关键词整合模块、多时间粒度检索模块以及基于内容的快速浏览模块。各模块的主要功能如下：

1、关键词提取模块及关键词整合模块：对各用户终端传输来的文本按时间顺序进行整合。首先，根据新增文字的位置及投票原则，去除采用某些参数时误检测到的文字区域。此外，由于用户检索一般是通过关键词而非单字进行，而参数选择错误导致检测效果不佳的情况下，字符识别的结果往往会出现较多的单字。为此，本发明首先使用关键词提取模块对同一频道各用户终端提交的文本进行关键词标注，并使用关键词整合模块对这些关键词进行整合，以用于对视频流当前内容进行标注。

2、多时间粒度检索模块：主要提供用户检索功能。由现有终端用户分析出的某个网络频道结果文本，提供不同时间粒度上的检索结果。如用户使用关键词“法制”进行搜索，则分别提供以法制为关键词，与一分钟内、五分钟内、十五分钟内、一小时内等不同时间粒度的各频道文本关键词进行比对，并根据此关键词出现的频率与和查询时间的时间距离，对查询结果进行排序。

3、基于内容的快速浏览模块：主要向用户提供快速浏览功能。除了搜索功能外，还应提供用户快速浏览功能。当用户选择快速浏览功能时，对每个频道截取当前帧作为频道标识，以图像的方式给用户提供直观印象。并将最近提取的关键词以文本的方式提供给用户，以供用户快速了解在最近一段时间内的各频道节目的概要。

这样，通过有效的整合用户终端的计算资源进行快速静态叠加文字的检测和识别，获取了对在线视频的基于内容的索引，从而可使用户使用现有的文本检索技术对多路在线视频流进行多时间粒度的检索和基于内容的快速浏览。

Claims

1.一种快速检测在线视频流中静态叠加文字的方法，包括下列步骤：

1)在小波域上定义帧间相关信息用于描述边缘的稳定性，并去除运动背景区域和非静态叠加文字区域；

2)使用泛化高斯模型对小波子带的系数分布进行建模，以模拟小波系数的分布情况并推导出相应的阈值，以用于提取强边缘区域；

3)对经由上述两步剩余的区域，使用形态学的相关操作，分割成候选文字行；

4)对候选文字行，使用步骤1)中所计算出的帧间相关信息进行帧间跟踪，以去除不是本帧首次出现的候选文字行；

5)对剩余的候选文字行，在小波域提取相应的特征，并使用支持向量机做为分类器，以获取真实的文字行，即为本帧新出现的静态叠加文字。

2.如权利要求1所述的快速检测在线视频流中静态叠加文字的方法，其特征在于：所述步骤1)的在小波域上定义帧间相关信息是利用当前帧与前后两帧的小波特征，在小波域中计算局部方差和局部协方差，并由此定义了鲁棒的边缘稳定性描述方法，即帧间相关系数。

3.如权利要求1所述的快速检测在线视频流中静态叠加文字的方法，其特征在于：所述步骤2)中使用泛化高斯模型是对当前帧的各小波子带的小波系数分布进行建模，通过快速算法估计模型的参数后，使用这些参数估计出一个全局阈值，用于区分强边缘区域和简单背景区域。

4.一种快速检测在线视频流静态叠加文字的系统，其特征在于：包括从在线视频流中按一定的帧采样率同时抓取当前播放的视频帧及其前后两帧的视频帧抓取模块，将当前视频帧及其前后两帧分别分解为相应的小波子带的小波分解模块，根据帧间相关性，去除运动背景和非静态叠加文字区域的时域分析模块，根据小波域参数，去除简单背景区域的空域分析模块，将时域、空域分析模块的结果进行组合，并划分文字行，通过已计算的与前帧的帧间相关性进行帧间跟踪，以及通过支持向量机进行文字行真实性判决的后处理模块；所述视频流数据依次经由视频帧抓取模块、小波分解模块、时域分析模块、空域分析模块及后处理模块，输出文字区域信息及控制信息。

5.如权利要求4所述的一种快速检测在线视频流静态叠加文字的系统，其特征在于：还包括在特定用户终端上，对检测中所采用的参数族，在预设范围内进行随机取值，用于该用户终端上的所有文字检测任务的随机参数产生模块和根据当前数帧的文字检测速度，决定视频帧抓取模块对在线视频流的帧采样率，以保证流畅的观看速度的分析速度估计模块；当所述控制信息被使用时，其被传送至所述分析速度估计模块，以决定下一次分析所使用的采样频率，同时，所述随机参数产生模块产生随机参数，并将这些参数输出至所述时域分析模块和空域分析模块，以控制文字检测的过程。

6.一种利用权利要求1所述的快速检测在线视频流中静态叠加文字的方法来检索在线视频流的方法，包括如下步骤：

1)利用各用户终端上的空余计算资源，在不影响观看效果的情况下，对当前视频流进行静态叠加文字的检测；

2)利用现有的文字分割和光学字符识别方法，对检测出的静态叠加文字区域进行识别，并将获得的文本以固定的格式发送至集中检索服务器；

3)集中检索服务器上，使用现有方法对所接收的文本提出关键词，并按频道进行整合，以获得在线视频流的文字索引；

4)集中检索服务器上，使用提取出的各频道的关键词索引，提供对各频道的多时间粒度的检索功能；

5)集中检索服务器上，使用提取出的各频道的关键词索引，提供对各频道的基于内容的快速浏览功能。

7.如权利要求6所述的在线视频流的检索方法，其特征在于步骤(3)还包括根据关键词的频率、位置、时间标记等，对不同用户终端的文本结果进行整合，形成对特定在线视频流任意时刻的文本描述及其权重。

8.如权利要求6所述的在线视频流的检索方法，其特征在于步骤(4)还包括通过用户检索时设定的检索时间粒度，使用此时间粒度内的关键词及其权重，对所有的在线视频流进行排序，并将结果提交给用户。

9.如权利要求6所述的在线视频流的检索方法，其中步骤(5)还包括根据用户进行浏览的时刻，抓取各在线视频流的当前帧以及最近短时间段内的文本描述，以供用户进行基于内容的快速浏览。

10.一种检索在线视频流的系统，其特征在于：包括快速检测在线视频流静态叠加文字模块，利用各用户终端上的空余计算资源，在不影响观看效果的情况下，对当前观看的视频流进行静态叠加文字的检测；识别模块，利用现有的文字分割和光学字符识别方法，在各用户终端上对检测出的静态叠加文字区域进行识别，并将获得的文本以固定的格式发送至集中检索服务器；关键词提取模块，在集中检索服务器上，使用现有方法对所接收的各路文本提出关键词，并按频道进行整合，以获得在线视频流的文字索引。使用提取出的各频道的关键词索引，提供对各频道的多时间粒度的检索功能，并提供对各频道的基于内容的快速浏览功能。