CN103020618A

CN103020618A - 视频图像文字的检测方法及系统

Info

Publication number: CN103020618A
Application number: CN2011104280915A
Authority: CN
Inventors: 苏鹏宇; 徐洪伟
Original assignee: BEIJING JETSEN TECHNOLOGY Co Ltd
Current assignee: Beijing Jetsen Technology Co., Ltd.
Priority date: 2011-12-19
Filing date: 2011-12-19
Publication date: 2013-04-03
Anticipated expiration: 2031-12-19
Also published as: CN103020618B

Abstract

本发明公开了一种视频图像文字的检测方法及系统，涉及图像文字检测技术领域，所述方法包括步骤：视频图像文字区域粗定位和视频图像文字区域定位验证，具体步骤为：步骤A，视频图像文字区域粗定位：计算视频图像的高斯金字塔多尺度图像，采用阈值分割方法分割出图像文字区域，然后利用数学形态学中膨胀、腐蚀技术合并文字区域，最后通过连通域分析、文字行分割和剔除规则分析定位候选文字区域；步骤B：视频图像文字区域定位验证：采用harr特征训练adaboost分类器，利用adaboost分类器检测候选文字区域内是否有文字，剔除未检测文字的候选文字区域。本发明能够提高视频图像文字检测的准确性和查全率。

Description

视频图像文字的检测方法及系统

技术领域

本发明涉及图像文字检测技术领域，尤其涉及一种视频图像文字的检测方法及系统。

背景技术

随着数字化网络化的发展，数字图像和视频越来愈多，图片或视频中文字能够提供直接的高层语义信息，因此开发视频图像文字检测技术，有助于理解和管理视频图像等。比如检测和分析图片中文字内容，有助于为不良内容图片过滤和监控提供有效的特征，新闻视频中的标题通常标示新闻的时间地点人物，对于新闻内容分析和检索提供支撑，体育比赛视频中，比赛出现的比分，运动员号码对于自动视频内容分析，精彩体育瞬间检测具有重要作用。在自然场景中图像文字同样包含重要信息，如交通指示牌内容分析，可以帮助外国游客理解中国交通规则，帮助盲人在街道无障碍行走(文字转为语音)。因此图片中的文字检索一直以来都是一个非常有意义的工作，同时也是一具有挑战性的工作。

对于文字的检测方法的研究，学者们也提出了不少各种各样的方法，主要即针对本检测对象文字的某些特征进行提取，大致分为三类方法：基于边缘特征的方法，基于连通成分颜色特征的方法，和基于纹理特征的文字检索。

直接的观察，文字区域一般具有较强的边缘特征，卡内基梅隆大学smith等人在“video skimming for quike browsing based on audio andimage characterization”一文中将视频中文字区域定义为水平的包含大量边缘的矩形结构，通过这种边缘特征检测文字，这种方法比较直观，对于检测和背景具有较大对比度的文字行具有较好的检测效果。T.sato等人在“video ocr for digital news archives”一文中采用和smith类似的边缘特征和结构限制方法检测视频中的标题文字。浙江大学的张引，潘云鹤等人在“复杂背景下文本提取的彩色边缘检测算子设计”一文中提出了一种十分有效的边缘检测算子用于检测视频文本，其边缘检测在彩色图像上进行，使用全局直方图分析的方法确定边缘检测阈值。基于边缘的方法通常利用边缘算子检测图像边缘，然后通过一些经验或者启发式的规则给出文字候选区域。这种方法保证较高查全率同时也会有较多的误检。

基于颜色连通的方法，考虑到图像中文字区域的连通和颜色一直性，一般利用图像分割或者颜色聚类的方法将颜色相同的文字从背景中分割出来，再通过启发式规则过滤文字区域。学者Jain和Yu提出的方法“automatic text location in images and video frames”一文基于颜色连接成份分析是一种经典的文字检测算法，在其算法中，利用聚类算法将图像首先分解许多值，颜色相同的成分经过空间连接分析形成区域，然后定义一些判定文字非文字的准则。这种方法对于同行文字出现不同颜色时，效果并不好。

基于纹理的方法，现在研究也比较多，有学者使用小波系数的均值，二阶和三阶中心矩作为纹理特征，在神经网络的框架内进行文字块的检测，对于检测到的图像块，小的和孤立的块被删除，大并且密集的文字块被连接成文字区域。中科院自动化所Yan等人的方法“automatic text detection in video frames based on bootstrap artificialneural network and CED”基于小波系数提取纹理特征，然后使用Bootstrap神经网络分类文字非文字。这类方法在背景复杂时，直接使用纹理特征往往不能得出较好的分类效果。

由于视频中图像的文字大小不一，视频文字行长短不一、字体颜色多种多样，文字图像对比度低等原因，传统的方法存在文字检测的准确性和查全率低等缺陷。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：提供一种视频图像文字的检测方法及系统，其能够提高视频图像文字检测的准确性和查全率。

(二)技术方案

为解决上述问题，本发明提供了一种视频图像文字的检测方法，包括步骤：视频图像文字区域粗定位和视频图像文字区域定位验证，具体步骤为：

步骤A，视频图像文字区域粗定位：计算视频图像的高斯金字塔多尺度图像，采用阈值分割方法分割出图像文字区域，然后利用数学形态学中膨胀、腐蚀技术合并文字区域，最后通过连通域分析、文字行分割和剔除规则分析定位候选文字区域；

步骤B，视频图像文字区域定位验证：采用harr特征训练adaboost分类器，利用adaboost分类器检测候选文字区域内是否有文字，剔除未检测文字的候选文字区域。

优选地，所述计算视频图像的高斯金字塔多尺度图像，具体步骤包括：计算I_σ(x，y)在x和y方向的梯度I_x和I_y，计算图像两个方向梯度的乘积，使用高斯函数φ对

I_xy进行高斯加权，生成矩阵M，计算每个像素对应的harris值R＝det(M)-α(trace(M))，α∈(0.04，0.06)，并对小于预定阈值的R置为0，在5x5的领域内进行非极大值抑制，局部极大值点即为图像的角点，其中，

M = [\begin{matrix} I_{x}^{2} &CircleTimes; φ & I_{x, y} &CircleTimes; φ \\ I_{x, y} &CircleTimes; φ & I_{y}^{2} &CircleTimes; φ \end{matrix}] .

优选地，采用阈值分割方法分割出图像文字区域，具体步骤包括：根据角点分布，对具有角点特征的领域进行密度估计，分割出角点密度图大于预定值的区域作为图像文字区域。

优选地，所述连通域分析，具体包括：采用种子填充的方法获得8连通图像，并计算连通图像的长和宽以及起始位置，从而获得文字区域的位置。

优选地，所述文字行分割，具体包括：先对候选文字矩形框区域进行二值化处理，将文字行区域水平投影，根据文字行与文字行之间在水平投影方向产生的波峰和波谷进行文字行切割。

一种利用前述方法进行视频图像文字检测的系统，包括：粗定位单元和定位验证单元，

所述粗定位单元包括：

分割模块，用于计算视频图像的高斯金字塔多尺度图像，采用阈值分割方法分割出图像文字区域；

合并模块，用于利用数学形态学中膨胀、腐蚀技术合并文字区域；

定位模块，用于通过连通域分析、文字行分割和剔除规则分析定位候选文字区域；

所述定位验证单元包括：

训练模块，用于采用harr特征训练adaboost分类器；

判断剔除模块，用于利用adaboost分类器检测候选文字区域内是否有文字，并剔除未检测文字的候选文字区域。

优选地，所述分割模块包括多尺度图像计算模块，用于通过计算I_σ(x，y)在x和y方向的梯度I_x和I_y，及图像两个方向梯度的乘积I_xy，使用高斯函数φ对

I_xy进行高斯加权，生成矩阵M，计算每个像素对应的harris值R，并对小于预定阈值的R置为0，在5x5的领域内进行非极大值抑制，得到局部极大值点即为图像的角点，其中，

M = [\begin{matrix} I_{x}^{2} &CircleTimes; φ & I_{x, y} &CircleTimes; φ \\ I_{x, y} &CircleTimes; φ & I_{y}^{2} &CircleTimes; φ \end{matrix}] .

优选地，所述分割模块还包括阈值分割模块，用于根据角点分布，对具有角点特征的领域进行密度估计，分割出角点密度图大于预定值的区域作为图像文字区域。

优选地，所述定位模块包括连通域分析模块，用于采用种子填充的方法获得8连通图像，并计算连通图像的长和宽以及起始位置，以获得文字区域的位置。

优选地，所述定位模块包括文字行分割模块，用于对候选文字矩形框区域进行二值化处理，将文字行区域水平投影，并根据文字行与文字行之间在水平投影方向产生的波峰和波谷进行文字行切割。

(三)有益效果

本发明采用两级文本行提取办法，第一级主要进行文本行的粗提取，这一级利用文本字体区域角点密度比较大的特征提取文本字体，可保证文本的查全率，尽量保证能够查找到较多的文本字。在第二级阶段，采用基于adaboost分类器的方法，验证文字和非文字区域，可保证文字行检测的正确率。因而，本发明能够提高视频图像文字检测的准确性和查全率。

附图说明

图1为本发明实施方式中所述视频图像文字的检测方法的流程图；

图2为本发明实施方式中所述进行视频图像文字检测的系统的结构图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本发明提供了一种视频图像文字的检测方法，包括步骤：视频图像文字区域粗定位和视频图像文字区域定位验证，具体步骤为：

本步骤中，所述计算视频图像的高斯金字塔多尺度图像，具体步骤包括：计算I_σ(x，y)在x和y方向的梯度I_x和I_y，计算图像两个方向梯度的乘积，使用高斯函数

其中，X＝(x，y)^T∈R²对

I_xy进行高斯加权，生成矩阵M，计算每个像素对应的harris值R，并对小于预定阈值的R置为0，在5x5的领域内进行非极大值抑制，局部极大值点即为图像的角点，其中，

M = [\begin{matrix} I_{x}^{2} &CircleTimes; φ & I_{x, y} &CircleTimes; φ \\ I_{x, y} &CircleTimes; φ & I_{y}^{2} &CircleTimes; φ \end{matrix}] .

此步骤中可先对视频图像进行预处理获取增强图片。

采用阈值分割方法分割出图像文字区域，具体步骤包括：根据角点分布，对具有角点特征的领域进行密度估计，分割出角点密度图大于预定值的区域作为图像文字区域。

定义如下：

density (i, j) = Σ_{m = - 2}^{2} Σ_{n = - 10}^{10} corner (i + m, j + n)

由于在进行角点计算时，角点为单个孤立的像素点，为了增加鲁棒性，在计算corner时，选择角点所在的3x3区域，其中，corner为角点分布图，density为角点密度图，m，n为角点领域窗口长宽，汉字一般书写以行为方向，因此我们也特意考虑在计算角点区域密度时，区域的选择m(行方向)较小而n(列方向)较大。

然后，根据角点密度图对图像进行分割，得到二值图像，定义如下：

{bw}_{σ} (i, j) = \{\begin{matrix} 1 & density (i, j) > T \\ 0 & else \end{matrix} T &Element; [1,5]

由汉字的书写特点，在当前像素点的10x10领域内当角点的密度大于某一给定值T时，认为是文字区域，T一般选择2。

分别计算每个尺度下角点密度bw_σ图像，将其按照尺度对应到和原始图像大小相同的图像BW，对应关系如下

BW (i, j) = \underset{σ}{\cup} {bw}_{σ} (i, j) .

所述连通域分析，具体包括：采用种子填充的方法获得8连通图像，并计算连通图像的长和宽以及起始位置，从而获得文字区域的位置。

假设连通区域是由一系列点集组成，表示为：

Graph＝{(x，y)|(x₁，y₁)，(x₂，y₂)…(x_n，y_n)}

那么连通图起始位置(x_s，y_s)和终止位置分别为(x_e，y_e)：

x_s＝min({x_i|i＝1，2，3，…n})

y_s＝min({y_i|i＝1，2，3，…n})

(x_s，y_s)∈Graph

x_e＝max({x_i|i＝1，2，3，…n})

y_e＝max({y_i|i＝1，2，3，…n})

(x_e，y_e)∈Graph

长和宽分别为：

width＝x_e-x_s

height＝y_e-y_s

所述文字行分割，具体包括：先对候选文字矩形框区域进行二值化处理，将文字行区域水平投影，根据文字行与文字行之间在水平投影方向产生的波峰和波谷进行文字行切割。

所述的剔除规则分析：考虑到视频中文字的一些，通常规则，采用如下的方法去除一些非文字区域：

1、图像中的文字区域一般出现在距离图像边界20个像素以内的范围；

2、图像中的文字除非特别需求，一般文字的高会大于5个像素，而且太小的文字对于ocr识别来说也是难点；

3、其他一些引用场景比如新闻等，一般文字会出现在屏幕下方1/3处。通过这些规则来剔除一些非满足要求的文字区域。

所述采用harr特征训练adaboost分类器，具体包括：给定弱学习算法以及训练样本集，在训练集的不同子集上多次调用弱学习算法训练出不同的弱分类器，并按照加权投票的方式，融合多个弱分类器得到学习结果。

1、Harr特征的选择

Harr特征能够很好的反映出图像局部灰度的变化，而且根据“Robust Real-time Object Detection”一文中所述的方法利用积分图像快速计算harr特征。常用的harr特征有以下几种，边缘、线性和中心特征。

考虑到汉字在文本行中的分布，如汉字一般在文字候选图像中行出现，且汉字本身的结构特点，可另添加两个特征命名形状特征。

2、正负样本挑选

通过手工挑选裁剪文字，包含数字、中文，以及一些文字行，并将图像缩放赴澳20*20大小，负样本为挑选的一些非文字图像。

3、adaboost算法

给定训练样本集{(x₁ y₁)}{(x₂ y₂)}…{(x_n y_n)}，其中y_i＝1，0分别对应正样本和负样本.初始化样本权重(设w_i，t)为第t轮第i个样本的误差权重)，当y_i＝1时，w_i，t＝1/(2ρ).当y_i＝0时，w_i，t＝1/(2β)，其中，ρ，β分别为正负样本数目。t＝1，2，...，T(经过T轮迭代)

a、权重归一化：

w_{i, t} = w_{i, t} / \underset{j}{Σ} w_{j, t},

b、针对每一个特征k，训练一个弱分类器h_k，也即确定弱分类器阈值θ_k和偏置p_k，使得当前特征分类器k的分类误差

ϵ_{k} = \underset{i}{Σ} w_{i, t} (| h_{k} (x_{i} - y_{i}) |)

达到最小。

c、从2)所计算的一类特征k中选择一个分类误差最小的特征h_t。

d、更新每个样本对应的权重。

其中e_i的计算方法为当第i个样本被正确分类，则e_i＝0，否则e_i＝1，κ_t＝ε_t/(1-ε_t)。

迭代T次后形成最后的强分类器

如图2所示，一种利用前述方法进行视频图像文字检测的系统，包括：粗定位单元1和定位验证单元2，

所述粗定位单元1包括：

分割模块3，用于计算视频图像的高斯金字塔多尺度图像，采用阈值分割方法分割出图像文字区域；

合并模块4，用于利用数学形态学中膨胀、腐蚀技术合并文字区域；

定位模块5，用于通过连通域分析、文字行分割和剔除规则分析定位候选文字区域；

所述定位验证单元2包括：

训练模块6，用于采用harr特征训练adaboost分类器；

判断剔除模块7，用于利用adaboost分类器检测候选文字区域内是否有文字，并剔除未检测文字的候选文字区域。

所述分割模块3包括多尺度图像计算模块8，用于通过计算I_σ(x，y)在x和y方向的梯度I_x和I_y，及图像两个方向梯度的乘积I_xy，使用高斯函数φ对I_xy进行高斯加权，生成矩阵M，计算每个像素对应的harris值R，并对小于预定阈值的R置为0，在5x5的领域内进行非极大值抑制，得到局部极大值点即为图像的角点，其中，

M = [\begin{matrix} I_{x}^{2} &CircleTimes; φ & I_{x, y} &CircleTimes; φ \\ I_{x, y} &CircleTimes; φ & I_{y}^{2} &CircleTimes; φ \end{matrix}] .

所述分割模块3还包括阈值分割模块9，用于根据角点分布，对具有角点特征的领域进行密度估计，分割出角点密度图大于预定值的区域作为图像文字区域。

所述定位模块5包括连通域分析模块10，用于采用种子填充的方法获得8连通图像，并计算连通图像的长和宽以及起始位置，以获得文字区域的位置。

所述定位模块5包括文字行分割模块11，用于对候选文字矩形框区域进行二值化处理，将文字行区域水平投影，并根据文字行与文字行之间在水平投影方向产生的波峰和波谷进行文字行切割。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种视频图像文字的检测方法，其特征在于，包括步骤：视频图像文字区域粗定位和视频图像文字区域定位验证，具体步骤为：

2.如权利要求1所述的视频图像文字的检测方法，其特征在于，所述计算视频图像的高斯金字塔多尺度图像，具体步骤包括：计算I_σ(x，y)在x和y方向的梯度I_x和I_y，计算图像两个方向梯度的乘积，使用高斯函数φ对

M = [\begin{matrix} I_{x}^{2} &CircleTimes; φ & I_{x, y} &CircleTimes; φ \\ I_{x, y} &CircleTimes; φ & I_{y}^{2} &CircleTimes; φ \end{matrix}] .

3.如权利要求1所述的视频图像文字的检测方法，其特征在于，采用阈值分割方法分割出图像文字区域，具体步骤包括：根据角点分布，对具有角点特征的领域进行密度估计，分割出角点密度图大于预定值的区域作为图像文字区域。

4.如权利要求1所述的视频图像文字的检测方法，其特征在于，所述连通域分析，具体包括：采用种子填充的方法获得8连通图像，并计算连通图像的长和宽以及起始位置，从而获得文字区域的位置。

5.如权利要求1所述的视频图像文字的检测方法，其特征在于，所述文字行分割，具体包括：先对候选文字矩形框区域进行二值化处理，将文字行区域水平投影，根据文字行与文字行之间在水平投影方向产生的波峰和波谷进行文字行切割。

6.一种利用权利要求1-5中任一项所述方法进行视频图像文字检测的系统，其特征在于，包括：粗定位单元(1)和定位验证单元(2)，

所述粗定位单元(1)包括：

分割模块(3)，用于计算视频图像的高斯金字塔多尺度图像，采用阈值分割方法分割出图像文字区域；

合并模块(4)，用于利用数学形态学中膨胀、腐蚀技术合并文字区域；

定位模块(5)，用于通过连通域分析、文字行分割和剔除规则分析定位候选文字区域；

所述定位验证单元(2)包括：

训练模块(6)，用于采用harr特征训练adaboost分类器；

判断剔除模块(7)，用于利用adaboost分类器检测候选文字区域内是否有文字，并剔除未检测文字的候选文字区域。

7.如权利要求6所述的进行视频图像文字检测的系统，其特征在于，所述分割模块(3)包括多尺度图像计算模块(8)，用于通过计算I_σ(x，y)在x和y方向的梯度I_x和I_y，及图像两个方向梯度的乘积I_xy，使用高斯函数φ对

M = [\begin{matrix} I_{x}^{2} &CircleTimes; φ & I_{x, y} &CircleTimes; φ \\ I_{x, y} &CircleTimes; φ & I_{y}^{2} &CircleTimes; φ \end{matrix}] .

8.如权利要求6所述的进行视频图像文字检测的系统，其特征在于，所述分割模块(3)还包括阈值分割模块(9)，用于根据角点分布，对具有角点特征的领域进行密度估计，分割出角点密度图大于预定值的区域作为图像文字区域。

9.如权利要求6所述的进行视频图像文字检测的系统，其特征在于，所述定位模块(5)包括连通域分析模块(10)，用于采用种子填充的方法获得8连通图像，并计算连通图像的长和宽以及起始位置，以获得文字区域的位置。

10.如权利要求6所述的进行视频图像文字检测的系统，其特征在于，所述定位模块(5)包括文字行分割模块(11)，用于对候选文字矩形框区域进行二值化处理，将文字行区域水平投影，并根据文字行与文字行之间在水平投影方向产生的波峰和波谷进行文字行切割。