CN101276461A

CN101276461A - 一种利用边缘特征的视频文本增强方法

Info

Publication number: CN101276461A
Application number: CNA2008101015865A
Authority: CN
Inventors: 朱成军; 李超; 刘伟; 熊璋
Original assignee: Beihang University
Current assignee: Beihang University; Beijing University of Aeronautics and Astronautics
Priority date: 2008-03-07
Filing date: 2008-03-07
Publication date: 2008-10-01
Anticipated expiration: 2028-03-07
Also published as: CN101276461B

Abstract

一种基于边缘采样的视频文本增强方法：(1)检测视频帧中出现的文本图像f；(2)对文本图像f进行颜色降维操作；(3)利用彩色空间的梯度算子计算文本图像f的梯度图；(4)将梯度图的相对高频部分作为边缘，将边缘像素对应的图像f的RGB值作为采样点，得到采样点集合P；(5)利用k－均值聚类算法将集合P的元素聚集为5个子类Q_j；(6)根据Q_j计算子类采样点的均值和方差，作为平均颜色估计u_j和分割半径T_j；(7)利用马氏距离度量将文本图像f分割为5个二值图像g_i；(8)对分割操作得到的二值图像g_i进行连通域分析，从中挑选出包含文本的二值图像，作为文本图像f的文本增强结果。本发明能够较好的估计出文本和背景的颜色分布范围，同时即使在文本颜色不一致，或者背景颜色具有相似色调时，也能很好的将文本和背景分离开来，达到文本增强的目的。

Description

一种利用边缘特征的视频文本增强方法

技术领域

本发明涉及视频中的文本识别，特别是一种利用边缘特征的视频文本增强方法，属于多媒体检索技术和数字图像处理领域。

背景技术

视频中的文本提供了和视频内容高度相关的信息，比如场景地点、事件时间，以及体育比赛中的比分、运动员姓名等信息，但是相对于文档图像中的文本，视频中的文本识别面临以下难点：(1)由于电视制式、视频传输和存储的原因，视频图像分辨率较低；(2)视频中的文本往往叠加在视频场景中。由于大多数商用光学字符识别(OCR，Optical Character Recognition)软件只能处理具有干净背景的二值图像，所以在检测到视频中的文本区域以后，还必须将文本和背景分离开来，得到具有干净背景的文本图像，然后才能进行OCR识别。关于图像二值化，已经有了很多的相关工作，但是这些方法并不适用于视频文本的二值化操作。

在“Victor Wu，Raghavan Manmatha，Edward M.Riseman.TextFinder：an Automatic System toDetect and Recognize Text in Image.IEEE Trans.Pattern anal.Machine Intelllgence，1999，V21(11)：1224-1229”中，Wu等人公开了一种利用局部阈值的方法分割图片中的文字的方法，由于灰度图并不能反映彩色图像的边缘信息，且其采用的灰度直方图可能会具有多个波谷，该方法对于稍微复杂的背景效果不理想。

在“C.M Tsai and H.J Lee.Binarization of Color Document Images via Luminance and SaturationColorFeatures.IEEE Trans.on Image Processing，2002，V11(4)，2002”中，Tsai等人公开了一种基于阈值的方法对图像中的文本进行分割的方法，其方法中采用了强度和饱和度两种特征，然而接近黑色和白色时，饱和度值跳度较大，而文本像素的颜色大都是白色的，同时由于解压缩的影响，文本像素的颜色往往会具有一定的渐变。所以该方法只是在高质量视频文本的分割中有效，不能适应文本颜色具有较渐变的情况。

在“Qixiang Ye，Wen Gao，Qingming Huang，Automatic text segmentation from complexbackground，IEEE International Conference on Image Processing(ICIP 2004)，Singapore，Oct.24-27，2004，pp：2905-2908”中，Ye等人公开了一种基于采样规则获得文字像素并训练建立混合高斯模型，最后使用建立的混合高斯模型和文字笔画的空域连接性综合在一起分割所有文字像素的方法。但是视频中的像素颜色组合具有很多的变化，该混合高斯模型并不能完全预测，对于不同的测试图片集合，还需要对模型进行重新训练。

中国专利申请00807661.8公开了一种“文本增强”的方法，该方法并没有涉及如何将视频中检测到的文本如何从复杂的背景中分离出来。

发明内容

本发明的技术解决问题：本发明能解决视频中的文本存在以下情况时的背景分离问题：(1)文本像素颜色不一致，具有渐变性；(2)背景中存在和文本像素颜色值类似的区域。本发明的思路是事先根据边缘处的颜色信息估计出文本像素颜色的渐变范围以及背景像素的颜色值分布情况，分别统计其平均值和方差作为分割种子点和分割半径，最终将文本从文本图像中分割出来。分割后的文本图像具有干净的背景，能显著提高视频中文本的OCR识别率。

本发明的技术解决方案：一种基于边缘采样的视频文本增强方法，包括以下步骤：

(1)利用文本检测方法检测视频帧中出现的文本区域，记为文本图像f；

(2)对文本图像f进行颜色降维操作，其RGB通道值以8bit的高4位bit来代替；

(3)利用彩色空间的梯度算子计算文本图像f的梯度图；

(4)将梯度图的相对高频部分作为边缘，将边缘像素对应的文本图像f的RGB值作为种子点，得到种子点集合P，对于采样点集合P中的每一个元素p_i，p_i＝(r_i，g_i，b_i)是一个三维矢量；

(5)利用k-均值聚类算法将集合P的元素聚集为5个子类Q_j(j＝1，2，…，5)；

(6)根据Q_j计算子类采样点的平均颜色估计u_j和分割半径T_j；

(7)利用马氏距离度量将马氏(Mahalanobis)距离文本图像f分割为5个二值图像g_i(i＝1，…，5)；

(8)对分割操作得到的二值图像g_i进行连通域分析，从中挑选出包含文本的二值图像，作为文本图像f的文本增强结果。

本发明的方法在步骤(2)-(6)中，充分利用了文本和背景具有高对比度的特点对文本和背景的颜色分布进行采样，然后利用了数字图像处理领域中的图像分割技术，分离背景和文本。

本发明与现有技术相比的优点在于：事先根据边缘处的颜色信息估计出文本像素颜色的渐变范围以及背景像素的颜色值分布情况，分别统计其平均值和方差作为分割种子点和分割半径，可以容易的将背景和文本分割开来。解决了文本像素颜色不一致，具有渐变性以及背景中存在和文本像素颜色值类似的区域时，文本和背景的分离问题，能显著提高视频中文本的OCR识别率。

附图说明

图1为本发明方法的流程图；

图2为本发明的基于边缘的采样示例，其中2a为原文本图像；2b为梯度图像；2c为高频边缘图像；2d为边缘点对应的原图像中的像素；

图3为图2a的分割结果示例图，其中3a、3b、3c、3d为包含背景像素的分割结果；3e为包含文本的正确分割结果。

具体实施方式

如图1所示，本发明具体实现方法如下：

1.利用文本检测算法，比如本发明专利申请人在“Chengjun Zhu，Yuanxin Ouyang，Lei Gao，Zhenyong Chen，Zhang Xiong，“An Automatic Video Text Detection，Localization and ExtractionApproach”，the 2th International Conference on Signal-Image Technology & Internet-Based Systems(SITIS 2006)，http://www.u-bourgogne.fr/SITIS/06/index.html”中公开的文本检测算法，检测视频中的文本区域，记为文本图像f；

2.对文本图像f进行颜色降维，将RGB通道中8bit中的低4位置为0，也是仅以高4位bit代替该通道的值，该过程其实是一个对图像颜色空间进行重新量化的过程，由于低4位bit的取值范围是0～15，所以其相当于以16为间距量化各通道的值，比如某个像素的R通道二进制值为”11110111”，进行颜色降维后以“11110000”代替。经过降维操作后，图像的在RGB颜色空间的值分布复杂性大大降低，而图像的视觉效果并没有收到影响。

3.计算文本图像f的梯度值

将文本图像看着一个标量函数f(x，y)，其梯度是一个在坐标(x，y)处的最大变化率的方向上的向量，令r，g和b是RGB彩色空间沿R，G和B轴的单位向量，定义向量u和v：

u = \frac{&PartialD; R}{&PartialD; x} r + \frac{&PartialD; G}{&PartialD; x} g + \frac{&PartialD; B}{&PartialD; x} b

v = \frac{&PartialD; R}{&PartialD; y} r + \frac{&PartialD; G}{&PartialD; y} g + \frac{&PartialD; B}{&PartialD; y} b

令g_xx，g_yy和g_xy是这些向量的点积，如下所示：

g_{xx} = u \cdot u = u^{T} u = {| \frac{&PartialD; R}{&PartialD; x} |}^{2} + {| \frac{&PartialD; G}{&PartialD; x} |}^{2} + {| \frac{&PartialD; B}{&PartialD; x} |}^{2}

g_{yy} = v \cdot v = v^{T} v = {| \frac{&PartialD; R}{&PartialD; y} |}^{2} + {| \frac{&PartialD; G}{&PartialD; y} |}^{2} + {| \frac{&PartialD; B}{&PartialD; y} |}^{2}

g_{xy} = u \cdot v = u^{T} v = \frac{&PartialD; R}{&PartialD; x} \frac{&PartialD; R}{&PartialD; y} + \frac{&PartialD; G}{&PartialD; x} \frac{&PartialD; G}{&PartialD; y} + \frac{&PartialD; B}{&PartialD; x} \frac{&PartialD; B}{&PartialD; y}

于是，最大变化率的方向角度可由下式求得：

θ (x, y) = \frac{1}{2} \arctan [{2 g}_{xy} / (g_{xx} + g_{yy})

变化率的值，即梯度值在由θ(x，y)的元素给出的方向上由下式给出：

F_{θ} (x, y) = {\frac{1}{2} [(g_{xx} + g_{yy}) + (g_{xx} + g_{yy}) \cos 2 θ + {2 g}_{xy} \sin 2 θ]}^{1 / 2} .

令Mean(F_θ(x，y))为图像f(x，y)的梯度平均值，图像的采样点集合P定义为：

P＝{p(x，y)|F_θ(x，y)≥Mean(F_θ)}

如图2所示，图2b和2c分别是文本图像2a的梯度图和采样点集合，其对应的原文本图像中的像素点集合如2d所示。

4.利用K-均值聚类计算分割种子点和半径。

对于采样点集合P中的每一个元素p_i，p_i＝(r_i，g_i，b_i)是一个三维矢量，根据其距离的远近，可以聚集为不同的类Q_j(j＝1，2，…，5)，计算类的均值和方差可作为图像分割的种子点和分割半径。K-均值聚类法是常用的将矢量空间划分为K个聚类的方法，在本发明中，设定k＝5，具体步骤如下：

(1)设定K个聚类中心的初始值{u₁ ⁽⁰⁾，…，u_K ⁽⁰⁾}；

(\begin{matrix} u_{1}^{(0)} \\ u_{2}^{(0)} \\ u_{3}^{(0)} \\ u_{4}^{(0)} \\ u_{5}^{(0)} \end{matrix}) = (\begin{matrix} 2.7 & 2.7 & 2.7 \\ 5.4 & 5.4 & 5.4 \\ 8.1 & 8.1 & 8.1 \\ 10.8 & 10.8 & 10.8 \\ 13.5 & 13.5 & 13.5 \end{matrix})

(2)在第w次迭代时，根据下述准则将每个p_i都赋予K类之一(m＝1，2，…，K，n＝1，2，…，K，m≠n)，即：

p_{i} &Element; Q_{m}^{(w)}, if | | p_{i} - u_{m}^{(w)} | | < | | p_{i} - u_{n}^{(w)} | |

即将每个p_i赋予离它最近的类。

(3)对j＝1，2，…，K，更新类均值u_j ^(w+1)：

u_{j}^{(w + 1)} = \frac{1}{N_{j}} \underset{p_{i} &Element; Q_{j}^{(w)}}{Σ} p_{i}

(4)如果对所有的j＝1，2，…，K，有

u_{j}^{(w)} = u_{j}^{(w + 1)},

则算法收敛，结束。否则退回步骤(2)继续下一次迭代。

5.文本图像分割。

分割的目标是对文本图像中的每一个RGB像素进行归类，最理想的结果是指定的分割种子点和分割半径能包括文本笔画像素所有的颜色范围。通过上一步对采样点集合P进行空间聚类，得到聚类结果Q_j(j＝1，1，…，5)，根据Q_j可以计算平均的颜色估计u_j，分割半径T_j，其计算公式可以表示为：

u_{j} = \frac{1}{| | Q_{j} | |} \underset{p_{i} &Element; Q_{j}}{Σ} p_{i}, (\begin{matrix} p_{i} = [\begin{matrix} r_{i} & g_{i} & b_{i} \end{matrix}] \end{matrix})

T_{j} = \sqrt{\frac{1}{| | Q_{j} | | - 1} \underset{p_{i} &Element; Q_{j}}{Σ} {(p_{i} - u_{j})}^{2}}

在求得平均的颜色估计u_j，分割半径T_j，我们需要指定一个相似性度量来将文本图像的每个像素归类到种子点代表的类别中。最简单的度量是欧几里德距离，令z表示RGB空间的任意点，z和种子点u_j的距离由下式给出：

D (u_{j}, z) = | | u_{j} - z | | = {[{{(u}_{j} - m)}^{T} (u_{j} - m)]}^{1 / 2}

= {[{(u_{jR} - m_{R})}^{2} + {(u_{jG} - m_{G})}^{2} + {(u_{jB} - m_{B})}^{2}]}^{1 / 2}

另外一个在彩色图像分割中常用的距离度量是马氏(Mahalanobis)距离，其距离定义如下：

D (u_{j}, z) = {[{(z - u_{j})}^{T} C_{j}^{- 1} (z - u_{j})]}^{1 / 2}

其中C_j采样值表示的协方差矩阵，由下式求得：

C_{j} = \frac{1}{| | Q_{j} | | - 1} \underset{p_{i} &Element; Q_{j}}{Σ} (p_{i} - u_{i}) {(p_{i} - u_{i})}^{T}

在RGB空间中，满足D(u_j，z)＜T_j的点在以马氏距离作为相似性度量时，点的轨迹是一个实心三维椭圆体，而以欧式距离作为距离度量时，点的轨迹是一个半径为T_j的实心圆球。所以相对于欧氏距离，马氏距离具有一个重要属性，其主轴取在最大的数据扩展方向上，因此根据聚类结果Q_j会产生更为理想的分割结果。

6.连通域分析

由文本图像f会得到分割结果g_i(i＝1，…，5)，由图3可以看出，其中只有一个分割结果图3e包含文本，所以还需要根据文本的笔画结构特点从g_i中挑选出正确的分割结果。连通域分析包括以下三个步骤：

第1步：删除过大或者过小的连通域。对g_i(i＝1，…，5)中的每个连通域，计算其像素数Area和外接矩形宽度Width。Area值应该在一个合理的范围内，太小和太大都可视为原图像中的背景区域，考虑到汉字有笔画“点”，所以Area的最小值取A_min＝10，最大值取点阵的3/4，即A_max＝1200。对于Width，取字符高度即W_max＝40像素。最终，g_i(i＝1，…，5)中，删除不满足A_min＜Area＜A_max或者Width＞W_max的连通域。

第2步：经过以上连通域分析处理后，g_i(i＝1，…，5)中保留了合理尺寸的连通域。在“张炘中.汉字识别技术.北京：清华大学出版社，1992”中，公开了对6763个汉字的笔画统计数据，在40×40的汉字点阵中，汉字像素总和的均值为424.1(26.5％)像素，均方差为86.9。英文字符的笔画数相对较少，但是为了便于阅读，笔画尺寸一般也较大，其文字像素面积也在点阵的20％以上。根据这个特点，计算前景像素数目和图像大小的比值R_i：

R_{i} = \frac{Σ g_{i} (x, y)}{count (g_{i})}

对于R_i＜20％的g_i，作为背景排除掉。

第3步：由于笔画是连接的，所以文本主要由几个大的连通域构成，反之背景由于被文字笔画分开，形成大量的小连通域。利用这个特点，计算连通域的平均尺寸，平均尺寸较大者即可视为正确的文本分割结果。

通过以上3个连通域分析步骤，最终可以排除掉包含背景的分割结果，如图3a-3d，然后挑选出正确的分割结果图3e。

Claims

1、一种基于边缘采样的视频文本增强方法，其特征在于包括以下步骤：

(3)利用彩色空间的梯度算子计算文本图像f的梯度图；

(4)将梯度图的相对高频部分作为边缘，将边缘像素对应的文本图像f的RGB值作为采样点，得到采样点集合P，对于采样点集合P中的每一个元素p_i，p_i＝(r_i，g_i，b_i)是一个三维矢量；

(5)利用k-均值聚类算法将集合P的元素聚集为5个子类Q_j，j＝1，2，…，5；

(6)根据Q_j计算子类采样点的平均颜色估计u_j和分割半径T_j；

(7)利用马氏距离度量将马氏Mahalanobis距离文本图像f分割为5个二值图像g_i，i＝1，…，5；

2、根据权利要求1所述的一种基于边缘采样的视频文本增强方法，其特征在于：所述的步骤(2)的具体实现过程为：对彩色文本图像f的RGB通道值的低4bit设置为0，即以8bit的高4位bit来代替。

3、根据权利要求1所述的一种基于边缘采样的视频文本增强方法，其特征在于：所述的步骤(3)利用彩色空间的梯度算子计算文本图像f的梯度图F_θ(x，y)的过程为：

(1)将文本图像看着一个标量函数f(x，y)，其梯度是一个在坐标(x，y)处的最大变化率的方向上的向量，令r，g和b是RGB彩色空间沿R，G和B轴的单位向量，定义向量u和v：

u = \frac{&PartialD; R}{&PartialD; x} r + \frac{&PartialD; G}{&PartialD; x} g + \frac{&PartialD; B}{&PartialD; x} b

v = \frac{&PartialD; R}{&PartialD; y} r + \frac{&PartialD; G}{&PartialD; y} g + \frac{&PartialD; B}{&PartialD; y} b

(2)令g_xx，g_yy和g_xy是这些向量的点积，公式如下所示：

g_{xx} = u \cdot u = u^{T} u = {| \frac{&PartialD; R}{&PartialD; x} |}^{2} + {| \frac{&PartialD; G}{&PartialD; x} |}^{2} + {| \frac{&PartialD; B}{&PartialD; x} |}^{2}

g_{yy} = v \cdot v = v^{T} v = {| \frac{&PartialD; R}{&PartialD; y} |}^{2} + {| \frac{&PartialD; G}{&PartialD; y} |}^{2} + {| \frac{&PartialD; B}{&PartialD; y} |}^{2}

g_{xy} = u \cdot v = u^{T} v = \frac{&PartialD; R}{&PartialD; x} \frac{&PartialD; R}{&PartialD; y} + \frac{&PartialD; G}{&PartialD; x} \frac{&PartialD; G}{&PartialD; y} + \frac{&PartialD; B}{&PartialD; x} \frac{&PartialD; B}{&PartialD; y}

(3)计算最大变化率的方向角度，公式如下：

θ (x, y) = \frac{1}{2} \arctan [{2 g}_{xy} / (g_{xx} + g_{yy})

(4)在由θ(x，y)的元素给出的方向上由以下公式给出梯度图：

F_{θ} (x, y) = {\frac{1}{2} [(g_{xx} + g_{yy}) + (g_{xx} + g_{yy}) \cos 2 θ + {2 g}_{xy} \sin 2 θ]}^{1 / 2} .

4、根据权利要求1所述的一种基于边缘采样的视频文本增强方法，其特征在于：所述的步骤(4)中梯度图的相对高频部分作为边缘，将边缘像素对应的文本图像f的RGB值作为采样点，得到采样点集合P，令Mean(F_θ(x，y))为图像f(x，y)的梯度平均值，图像的采样点集合P定义为：

P＝{p(x，y)|F_θ(x，y)≥Mean(F_θ)}

5、根据权利要求1所述的一种基于边缘采样的视频文本增强方法，其特征在于：所述的步骤(5)中利用k-均值聚类算法将集合P的元素聚集为5个子类Q_j(j＝1，2，…，5)的过程为：

(1)设定K个聚类中心的初始值{u₁ ⁽⁰⁾，…，u_K ⁽⁰⁾}，如下：

(\begin{matrix} u_{1}^{(0)} \\ u_{2}^{(0)} \\ u_{3}^{(0)} \\ u_{4}^{(0)} \\ u_{5}^{(0)} \end{matrix}) = (\begin{matrix} 2.7 & 2.7 & 2.7 \\ 5.4 & 5.4 & 5.4 \\ 8.1 & 8.1 & 8.1 \\ 10.8 & 10.8 & 10.8 \\ 13.5 & 13.5 & 13.5 \end{matrix})

(2)在第w次迭代时，根据下述准则将每个pi都赋予K类之一(m＝1，2，…，K，n＝1，2，…，K，m≠n)，即：

p_{i} &Element; Q_{m}^{(w)}, if | | p_{i} - u_{m}^{(w)} | | < | | p_{i} - u_{n}^{(w)} | |

(3)对j＝1，2，…，K，更新类均值u_j ^(w+1)：

u_{j}^{(w + 1)} = \frac{1}{N_{j}} \underset{p_{i} &Element; Q_{j}^{(w)}}{Σ} p_{i}

(4)如果对所有的j＝1，2，…，K，有u_j ^(w)＝u_j ^(w+1)，则算法收敛，结束。否则退回(2)继续下一次迭代。

6、根据权利要求1所述的一种基于边缘采样的视频文本增强方法，其特征在于：所述的步骤(6)根据Q_j计算子类采样点的平均颜色估计u_j和分割半径T_j的过程为：计算平均颜色估计u_j和分割半径T_j，公式如下：

u_{j} = \frac{1}{| | Q_{j} | |} \underset{p_{i} &Element; Q_{j}}{Σ} p_{i}, (\begin{matrix} p_{i} = [\begin{matrix} r_{i} & g_{i} & b_{i} \end{matrix}] \end{matrix})

T_{j} = \sqrt{\frac{1}{| | Q_{j} | | - 1} \underset{p_{i} &Element; Q_{j}}{Σ} {(p_{i} - u_{j})}^{2}} .

7、根据权利要求1所述的一种基于边缘采样的视频文本增强方法，其特征在于：所述的步骤(7)利用马氏距离度量将马氏Mahalanobis距离文本图像f分割为5个二值图像g_i的过程为：

(1)指定马氏(Mahalanobis)距离作为相似性度量来将文本图像的每个像素归类到种子点代表的类别中，距离定义如下：

D (u_{j}, z) = {[{(z - u_{j})}^{T} C_{j}^{- 1} (z - u_{j})]}^{1 / 2}

(2)满足D(u_j，z)＜T_j的点作为分割结果g_i。

8、根据权利要求1所述的一种基于边缘采样的视频文本增强方法，其特征在于：所述的步骤(8)对分割操作得到的二值图像g_i进行连通域分析，从中挑选出包含文本的二值图像，作为文本图像f的文本增强结果的过程为：

(1)删除过大或者过小的连通域，对g_i，i＝1，…，5中的每个连通域，计算其像素数Area和外接矩形宽度Width。Area值应该在一个合理的范围内，太小和太大都可视为原图像中的背景区域，考虑到汉字有笔画“点”，所以Area的最小值取A_min＝10，最大值取点阵的3/4，即A_max＝1200。对于Width，取字符高度即W_max＝40像素，最终，g_i中，删除不满足A_min＜Area＜A_max或者Width＞W_max的连通域；

(2)经过以上连通域分析处理后，g_i中保留了合理尺寸的连通域。计算前景像素数目和图像大小的比值R_i：

R_{i} = \frac{Σ g_{i} (x, y)}{count (g_{i})}

对于R_i＜20％的g_i，作为背景排除掉；

(3)由于笔画是连接的，文本主要由几个大的连通域构成，反之背景由于被文字笔画分开，形成大量的小连通域，利用这个特点，计算连通域的平均尺寸，平均尺寸较大者即可视为正确的文本分割结果。