CN100593792C

CN100593792C - 一种视频中的文本跟踪和多帧增强方法

Info

Publication number: CN100593792C
Application number: CN200810101653A
Authority: CN
Inventors: 朱成军; 李超; 秦思思; 熊璋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2008-03-10
Filing date: 2008-03-10
Publication date: 2010-03-10
Anticipated expiration: 2028-03-10
Also published as: CN101276416A

Abstract

本发明涉及一种视频中的文本跟踪和多帧增强方法。视频中的文本，大都叠加在复杂背景中，将其直接送入OCR(光学字符识别)软件识别，识别率较低，所以还需要进行文本增强操作，以便将文本和背景分离。视频中的文本，大都要持续数十帧甚至上百帧，并且在相邻帧中，文本颜色基本保持不变，而背景是动态变化的，所以多帧之间具有大量的互补信息可用于文本增强。本发明的方法利用文本笔画具有边缘对的特点消除背景边缘像素的影响，然后使用Hausdorff距离度量方法跟踪文本在相邻帧的位置，在得到文本图像在相邻帧的多个副本之后，利用最小像素搜索法消除背景，得到具有干净背景的二值文本图像，可以大大提高OCR软件对视频文本的识别率。

Description

一种视频中的文本跟踪和多帧增强方法

发明领域

本发明涉及基于内容的多媒体检索技术领域，更具体地，本发明涉及视频中的文本识别。本发明利用视频场景中的文本行在多帧之间具有大量的互补信息的特点，提出了一种视频中的文本跟踪和多帧增强方法。本发明的方法可以消除背景，提高视频文本的光学字符软件(OCR，Optical Character Recognition)识别率。

发明背景

视频中的文本提供了和视频内容高度相关的信息，比如场景地点、事件时间，以及体育比赛中的比分、运动员姓名等信息，但是相对于文档图像中的文本，视频中的文本识别面临以下难点：(1)由于电视制式、视频传输和存储的原因，视频图像分辨率较低；(2)视频中的文本往往叠加在视频场景中。由于大多数商用光学字符识别(OCR，Optical Character Recognition)软件只能处理具有干净背景的二值图像，所以在检测到视频中的文本区域以后，还必须将文本和背景分离开来，得到具有干净背景的文本图像，然后才能进行OCR识别。关于图像二值化，已经有了很多的相关工作，但是这些方法并不适用于视频文本的二值化操作。

综合起来，视频文本区域在时域具有以下特点：(1)同一文本会持续几十帧甚至几百帧；(2)当文本有运动时，呈现水平或者垂直的线型运动；(3)文字的生存期，文字像素颜色保持不变，背景像素颜色可能具有很大的变化。

所以，如果能将多帧的文本区域信息综合起来，生成新的文本图像，动态变换的背景像素会被削弱，有利于文本的进一步识别。

视频中文本的运动总体来说可以分为两类：刚性运动和非刚性运动。刚性运动是指文本在运动过程中没有缩放、扭曲等艺术效果，整个运动周期过程中文本的尺寸没有发生变化，固定不变；非刚性运动与刚性运动相反，文本在运动过程中具有缩放、淡入淡出、扭曲等形式。对于具有非刚性运动的视频文本，由于在运动过程中文本尺寸发生了变化，同时可能具有多种艺术表现形式，导致文本在空域中的几何属性发生了改变。所以，在非刚性运动情况下，文本行在多帧的不同表现形式对于消除背景，增强文本并没有太大的意义。同时，视频中的文本，比如新闻和电影视频中的文本，统计可以发现，大部分都是刚性运动，所以本发明的方法只考虑文本具有刚性运动情形时的文本跟踪和增强问题。

近些年，在视频文本自动追踪领域主要有两种常用的技术：基于SSD(Sum of SquaredDifference)的跟踪方法和基于M估计模板匹配的追踪方法。在“Text Enhancement in Digital VideoUsing Multiple Frame Integration.Proceedings of ACM Multimedia[C]，Orlando FL，USA，1999：19～22”中，Huiping Li.公开了一种利用基于SSD跟踪文本，利用多帧信息增强文本的方法，而在博士论文“视频文本的提取.杭州：浙江大学，2006”中，章东平公开了一种基于M估计模板匹配的追踪方法。然而，无论是基于SSD或者是M估计模板匹配的方法，当文本位于运动背景或者文本颜色具有变化效果的时候，跟踪效果都不是很理想，这是由两种方法本身的匹配规则说决定的。文本行区域在整个运动周期期间，文本像素颜色本身也可能会发生变化，比如文本像素颜色具有同一个色调，但是饱和度或者亮度会发生渐进改变。此时，基于SSD的方法会在匹配时产生较大的匹配值，最终不能正确跟踪文本在相邻帧的位置。另外，基于M估计模板匹配的方法本身计算复杂度较高，虽说可以追踪具有平移、缩小、放大、旋转、淡入淡出和部分被遮挡的水平或倾斜排列文本，但是追踪文本在相邻帧的位置主要是用于多帧增强文本质量，利用文本区域的时域特征消除背景，而当文本被遮挡或者缩小放大时，追踪到的文本行文本像素本身的空域信息已经变得不完整，对于提高文本的质量，获得高质量的文本二值图像没有太大的意义。所以，本发明提出了一种新的并能适应文本具有变化背景、文本像素颜色不一致时的文本跟踪和多帧增强算法

中国发明专利00807661.8公开了一种“文本增强的方法”，该方法根据空域信息增强文本质量，和本文基于时域增强文本的思路具有较大差异。

发明内容

本发明要解决的问题：克服现有技术的不足，提供一种利用多帧互补信息增强视频文本的方法，该方法即使在文本具有运动背景时也具有更好的跟踪效果，显著提高了OCR软件对视频文本的识别准确率。

本发明的技术解决方案：一种视频中的文本跟踪和多帧增强方法，包括以下步骤：

(1)利用文本检测算法检测视频序列第i帧中出现的文本区域，记为文本图像f_i，将参考图像R_f设置为f_i，令C代表文本图像f_i多个副本的集合，将f_i添加到集合C中；

(2)跟踪文本图像f_i在相邻帧的位置，跟踪过程如下：

步骤2.1：利用Canny边缘算子提取参考图像R_f的边缘图EM；

步骤2.2：估算参考图像R_f在后续帧的出现区域，记为R′；

步骤2.3：利用Canny边缘算子提取R′的边缘图EM1；

步骤2.4：利用文本笔画形成的边缘具有边缘对的特点，删除边缘图EM和EM1中的背景对象形成的边缘；

步骤2.5：采用Chamfer 5-7-11距离变换将边缘图EM和EM1进行Hausdorff距离变换；

步骤2.6：计算R′和R_f之间的Hausdorff距离值v，如果v小于预先设定的阈值，R′中取得值v所在的区域f′就是参考图像R_f在相邻帧的匹配区域；如果v大于预先设定的阈值，完成文本跟踪过程；

步骤2.7：将参考图像R_f设置f′，将R_f添加到集合C中，转到步骤(2.1)，继续跟踪；

(3)利用最小像素搜索法，经由集合C中的多个文本图像，得到一个新的文本图像f，此时变换的背景已经被大大减弱消除；

(4)利用最小均方差的二值化方法，对文本图像f进行二值化操作，最终得到具有干净背景的文本二值化图像。

所述步骤(2.4)的方法如下：

(1)计算文本图像每个像素点的梯度方向θ(x，y)，计算公式如下：

\{\begin{matrix} g_{xx} = {| \frac{&PartialD; R}{&PartialD; x} |}^{2} + {| \frac{&PartialD; G}{&PartialD; x} |}^{2} {+ | \frac{&PartialD; B}{&PartialD; x} |}^{2} \\ g_{yy} = {| \frac{&PartialD; R}{&PartialD; y} |}^{2} + {| \frac{&PartialD; G}{&PartialD; y} |}^{2} + {| \frac{&PartialD; B}{&PartialD; y} |}^{2} \\ g_{xy} = \frac{&PartialD; R}{&PartialD; x} \frac{&PartialD; R}{&PartialD; y} + \frac{&PartialD; G}{&PartialD; x} \frac{&PartialD; G}{&PartialD; y} + \frac{&PartialD; B}{&PartialD; x} \frac{&PartialD; B}{&PartialD; y} \\ θ (x, y) = 1 / 2 \arctan [2 g_{xy} / (g_{xx} + g_{yy}) \end{matrix}

(2)如果在相邻的距离[D_min，D_max]范围内出现梯度方向平行的两个像素，则认为这两个像素构成像素对，其中D_min和D_max的值由需要跟踪的文本字体的大小决定；

(3)令EM代表边缘集合，边缘对(p₁，p₂)集合记为E_p，则E_p对E的重构定义为R_E(EΘE_p)，E经由E_p重构后得到结果主要由文本边缘组成。

所述步骤(2.2)的方法如下：

(1)假定视频的分辨率为R_H×R_V(R_V、R_H分别为垂直、水平分辨率)，帧率s帧/秒，如果文本的出现时间为δt，那么当前文本在相邻帧垂直和水平方向上的偏移值：

δv = \frac{R_{V}}{s \times δt}

δh = \frac{R_{H}}{s \times δt}

(2)设置δt的最小估计值，根据上述公式，在相邻帧得到文本的最大偏帧垂直偏移值和最大水平方向偏移值，如果当前文本区f_i的矩形面积为w×h，根据最大偏移值δv和δh，可以估计出参考图像R_f在相邻下一帧的匹配区域面积大小(w_i+2×δh)×(h_i+2×δv)。

本发明与现有技术相比的优点在于：

(1)本发明在跟踪文本图像f_i的算法中利用了文本笔画边缘对的特点，采用Hausdorff距离值跟踪文本，能有效消除在文本跟踪过程中背景对象引入的误差，跟踪算法具有更好的适应性，能有效提取文本图像在多帧的副本。最终通过多帧增强，在文本或者背景具有运动的情形下，可以显著提高OCR软件识别的准确率。

(2)本发明的方法通过步骤(2)得到同一文本在多个视频帧的图像区域集合；由于叠加在视频中的文本笔画颜色是固定不变的，而背景画面是运动的，根据文本颜色保持不变，而背景变化的特点，再在步骤(3)中采取最小像素搜索法，将多个文本图像的信息综合起来，更有效地消除了背景，得到一个具有简单背景的文本图像，进一步提高了OCR软件对视频文本的识别准确率。

(3)本发明在步骤(4)中利用最小均方差的二值化方法，对多帧综合的结果进行二值化操作，能够得到具有干净背景的文本二值化图像，使得对视频文本的识别准确率更加提高。

附图说明

图1为本发明的方法流程图；

图2为视频中检测到的文本图像；

图3为本发明的基于文本笔画边缘对的二值模板，其中3a、3b、3c分别代表第1帧文本图像的边缘、边缘对、以及边缘经由边缘对重构后的边缘图；3d、3e、3f、3g、3h、3i分别表示第10帧和第20帧的边缘图、边缘对和重构后的边缘图；

图4为本发明的Chamfer 5-7-11距离变换系数图；

图5为本发明的Chamfer5-7-11距离变换示意图，其中5a为二值图像，5b为对应的Hausdorff距离图像；

图6为本发明的简单背景下文本行跟踪算法比较，其中6a是和已有算法的性能对比图，6b-6e为视频序列中的视频帧；

图7为本发明的复杂背景下文本行跟踪算法比较，其中7a是和已有算法的性能对比图，7b-7e为视频序列中的视频帧；

图8为本发明的文本行增强的结果，其中8a、8d代表初始的文本图像，8b、8e代表多帧增强后的文本图像，8c、8f代表二值化后的文本图像。

具体实施方式

在对本发明的技术方案进行详细说明前，先对涉及的关键概念Hausdorff距离度量进行说明。给定两组有限点集合A＝{a₁，.....，a_p}和B＝{b₁，......，b_q}，Hausdorff距离定义为：

H(A，B)＝max(h(A，B)，h(B，A))

其中：

h (A, B) = \max_{a &Element; A} \min_{b &Element; B} | | a - b | |,

h (B, A) = \max_{b &Element; B} \min_{a &Element; A} | | b - a | |

函数h(A，B)称为从A到B的有向Hausdorff距离，其意义是对集合A的任意一点a∈A到集合B中所有点距离中选出最近距离，再考虑集合A的每一点到集合B最近距离集合中选择最大值。h(B，A)的意义同h(A，B)相似，称为反向Hausdorff距离。

如图1所示，本发明的具体实施步骤如下：

1.利用文本检测算法，比如本发明专利申请人在“Chengjun Zhu，Yuanxin Ouyang，Lei Gao，Zhenyong Chen，Zhang Xiong，“An Automatic Video Text Detection，Localization and ExtractionApproach”，the 2th International Conference on Signal-Image Technology & Internet-Based Systems(SITIS 2006)，http://www.u-bourgogne.fr/SITIS/06/index.html”中公开的文本检测算法，检测视频中文本出现的初始区域，记为文本图像f_i，将参考图像R_f设置为f_i，令C代表文本图像f_i多个副本的集合，将f_i添加到集合C中；；

2.具体的文本跟踪过程如下：

步骤2.1：利用Canny边缘算子提取R_f的边缘图EM，Canny边缘检测算子是图像处理领域常见的边缘提取算子之一，边缘图像的二值图像如图3a、3d和3g所示；

步骤2.2：估算参考图像R_f在后续帧的出现区域，记为R′。

当在下一帧中匹配当前文本时，为了降低算法时间复杂度，提高匹配效率，本发明提出通过估计文本的最大运动速度来缩小匹配范围。由于文本需要辅助观众理解视频内容，所以文本不可能运动速度太快。假定视频的分辨率为R_H×R_V(R_V、R_H分别为垂直、水平分辨率)，帧率为s帧/秒，如果文本的显示时间为δt，那么当前文本在相邻帧垂直和水平方向上的偏移值可以由下面的公式计算得到：

δv = \frac{R_{V}}{s \times δt}

δh = \frac{R_{H}}{s \times δt}

由于网络带宽和存储的原因，现在的视频分辨率大多限制在352×240以下，帧率大约在20-30帧/秒之间。根据视频中的文本时间滞留时间统计，本发明设置δt的最小估计值为3秒，所以根据公式，在相邻帧，文本的最大偏移值可以设置为δv≈4像素、δh≈6像素。

如果当前文本区域f的矩形面积为w×h，根据最大偏移值δv和δh，可以估计出在相邻下一帧的匹配区域R′的面积大小(w_i+12)×(h_i+8)。

步骤2.3：利用Canny边缘算子提取R′的边缘图EM1；

步骤2.4：利用文本笔画形成的边缘具有边缘对的特点，删除边缘图EM和EM1中的背景对象形成的边缘。具体过程如下：

(a)计算文本图像每个像素点的梯度方向θ(x，y)，计算公式如下：

\{\begin{matrix} g_{xx} = {| \frac{&PartialD; R}{&PartialD; x} |}^{2} + {| \frac{&PartialD; G}{&PartialD; x} |}^{2} {+ | \frac{&PartialD; B}{&PartialD; x} |}^{2} \\ g_{yy} = {| \frac{&PartialD; R}{&PartialD; y} |}^{2} + {| \frac{&PartialD; G}{&PartialD; y} |}^{2} + {| \frac{&PartialD; B}{&PartialD; y} |}^{2} \\ g_{xy} = \frac{&PartialD; R}{&PartialD; x} \frac{&PartialD; R}{&PartialD; y} + \frac{&PartialD; G}{&PartialD; x} \frac{&PartialD; G}{&PartialD; y} + \frac{&PartialD; B}{&PartialD; x} \frac{&PartialD; B}{&PartialD; y} \\ θ (x, y) = 1 / 2 \arctan [2 g_{xy} / (g_{xx} + g_{yy}) \end{matrix}

(b)如果在相邻的距离[D_min，D_max]范围内出现梯度方向平行的两个像素，则认为这两个像素构成像素对，其中D_min和D_max的值由需要跟踪的文本字体的大小决定。

(c)令EM代表边缘集合，边缘对(p₁，p₂)集合记为E_p，则E_p对E的重构定义为R_E(EΘE_p)，E经由E_p重构后得到结果主要由文本边缘组成，由图3可以看出，E经由结构算子E_p重构后得到结果主要由文本边缘E_T组成。如图3c、3f和3i所示，经过边缘对重构后的边缘图像主要包含了文本笔画形成的边缘。

步骤2.5：采用Chamfer 5-7-11距离变换将边缘图EM和EM1进行Hausdorff距离变换，Chamfer5-7-11变换系数的值如图4所示；

在实际计算Hausdorff距离时，是将已知模板二值图像与将匹配的未知二值图像转换为距离函数。距离函数是将二值图像转换为另一种灰度图像，二值图像的“1”，对应于距离图像的“0”。而二值图像的“0”，依据距离变换系数转换为不同的值，在距离图像中离“0”越近，距离值越小，反之会很大。使用Chamfer 5-7-11距离有较高的精度。

对一个给定的二值图像(M×N)，DT的初始化是边缘点赋值为零，非边缘像素点赋值为无限或有限的极大值。用两步迭代实现距离变换，前向距离变换从左到右从上到下扫描，而后向距离变换从右向左从下到上扫描，其大致程序描述如下：

Initialization：

ForI＝1，to M do

Forj＝1 to N do

If(I，j)is edge pixel then

DT(I，j)＝0

Else

DT(I，j)＝∞

Forward transformation：

ForI＝2 to M do

For j＝2 to N do

DT(I，j)＝minimum[DT(I-1，j-2)+11，

DT(I+1，j-2)+11，

DT(I-2，j-1)+11，

DT(I-1，j-1)+7，

DT(I+0，j-1)+5，

DT(I+1，j-1)+7，

DT(I+2，j-1)+11，

DT(I-1，j+0)+5]

Backward Transformation

For I＝M-1 to 1 do

For j＝N-1 to 1 do

DT(I，j)＝minimum[DT(I-1，j+2)+11，

DT(I+1，j+2)+11，

DT(I-2，j+1)+11，

DT(I-1，j+1)+7，

DT(I+0，j+1)+5，

DT(I+1，j+1)+7，

DT(I+2，j+1)+11，

DT(I+1，j+0)+5]；

图5a是一个二值图像示例，5b是其对应的Hausdorff距离图像；

3.得到文本图像在多个视频帧的副本集合C后，本发明采用了最小像素搜索法来进行文本质量增强。将每个像素灰度值在时间维的值看作一维向量，由于文本的灰度值是稳定的，而背景是变换的，在时间方向上取每个像素值的最小值，可以减少背景的影响。公式表示如下：

\hat{γ} = \min_{f_{t} &Element; C_{i}} γ_{i} (f_{i})

其中C_i视频帧集合，帧f_t∈C_i包含同一个文本区域r_i(f_t)。图8a和8d分别是视频中的两个文本行，图8b和8e分别是其多帧综合后的结果，可以看出，相对于原图像8a和8d，背景复杂度大大降低了。

4.对于多帧增强后的结果，利用最小方差的二值化方法来进行二值化。背景像素用黑色”0”表示，文本像素用白色“1”表示。

图8c和8f分别是图8b和8e二值化后的结果，可以看出，已经达到OCR软件识别的要求。

本发明适用于需要对视频内容进行自动理解的场合，比如多媒体检索系统、手机牌照识别场景中的文字以、智能监控场景下识别衣服上的号码等场合。本发明的方法可以采用Delphi、visual c++等编程语言来实现生成文本增强软件，与视频文本检测算法相结合，将文本检测算法的输出作为输入，输入到本发明的方法中，本发明的方法输出高质量的二值化文本图像，可以输入到OCR软件进行OCR识别。常用的OCR软件包括汉王、清华紫光等。

如图3所示，可以看出，经过边缘对分析，背景形成的边缘大部分都被消除。

得到二值边缘模板后，采用Chamfer 5-7-11系数对二值图像进行变换，Chamfer 5-7-11系数如图4所示。二值图像变换后的结果如图5所示。

追踪过程采用本发明提出Hausdorff距离比较的方法，可以得到文本图像在多帧的副本，图6和图7给出了两个本发明跟踪算法的结果，可以看出，相对于以往的基于SSD值得算法，具有更好的适应性。

图8给出了两个通过多帧增强后，具有干净黑背景的文本增强结果。

Claims

1、一种视频中的文本跟踪和多帧增强方法，其特征在于：包括以下步骤：

(2)跟踪文本图像f_i在相邻帧的位置，跟踪过程如下：

步骤2.1：利用Canny边缘算子提取参考图像R_f的边缘图EM；

步骤2.2：估算参考图像R_f在后续帧的出现区域，记为R′；

步骤2.3：利用Canny边缘算子提取R′的边缘图EM1；

步骤2.6：计算R′和R_f之间的Hausdorff距离值v，如果v小于预先设定的阈值，R′中取得值v所在的区域f就是参考图像R_f在相邻帧的匹配区域；如果v大于预先设定的阈值，完成文本跟踪过程；

步骤2.7：将参考图像R_f设置f′，将R_f添加到集合C中，转到步骤2.1，继续跟踪；

2、根据权利要求1所述的一种视频中的文本跟踪和多帧增强方法，其特征在于：所述步骤2.4的方法如下：

\{\begin{matrix} g_{xx} = {| \frac{&PartialD; R}{&PartialD; x} |}^{2} + {| \frac{&PartialD; G}{&PartialD; x} |}^{2} + {| \frac{&PartialD; B}{&PartialD; x} |}^{2} \\ g_{yy} = {| \frac{&PartialD; R}{&PartialD; y} |}^{2} + {| \frac{&PartialD; G}{&PartialD; y} |}^{2} + {| \frac{&PartialD; B}{&PartialD; y} |}^{2} \\ g_{xy} = \frac{&PartialD; R}{&PartialD; x} \frac{&PartialD; R}{&PartialD; y} + \frac{&PartialD; G}{&PartialD; x} \frac{&PartialD; G}{&PartialD; y} + \frac{&PartialD; B}{&PartialD; x} \frac{&PartialD; B}{&PartialD; y} \\ θ (x, y) = 1 / 2 \arctan [2 g_{xy} / (g_{xx} + g_{yy}) \end{matrix}

3、根据权利要求1所述的一种视频中的文本跟踪和多帧增强方法，其特征在于：所述步骤2.2的方法如下：

(1)假定视频的分辨率为R_H×R_V，R_V、R_H分别为垂直、水平分辨率，帧率s帧/秒，如果文本的出现时间为δt，那么当前文本在相邻帧垂直和水平方向上的偏移值：

δv = \frac{R_{V}}{s \times δt}

δh = \frac{R_{H}}{s \times δt}

(2)设置δt的最小估计值，根据上述公式，在相邻帧得到文本的最大偏帧垂直偏移值和最大水平方向偏移值，如果当前文本区f_i的矩形面积为w×h，根据最大偏移值δv和δh，估计出参考图像R_f在相邻下一帧的匹配区域面积大小(w_i+2×δh)×(h_i+2×δv)。