CN103699895B

CN103699895B - 一种视频中文字的检测与提取方法

Info

Publication number: CN103699895B
Application number: CN201310689506.3A
Authority: CN
Inventors: 褚晶辉; 吕卫; 董越
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2013-12-12
Filing date: 2013-12-12
Publication date: 2018-02-09
Anticipated expiration: 2033-12-12
Also published as: CN103699895A

Abstract

一种视频中文字的检测与提取方法，包括：启动算法，将彩色图像转换为灰度图像；对其进行降采样处理；分别获取图像I（x，y）的小波综合图像和角点特征图像；分别从角点特征图像和小波综合图像提取7个统计特征，产生14维的特征向量并归一化；将特征向量放入k‑means分类器中作分类；对角点特征图像进行二值化处理，再作形态学处理；根据二值图像的饱和度和方向两个特征作候选文字区域的筛选，对筛选后获得的文字区域做一次掩膜不超过N/2的膨胀；进行文字提取。本发明结合小波变换高频综合图像和角点特征图像，提取统计特征获取文字区域，并运用彩色空间和非监督分类器来提取文字像素。有较好的检测率和缺失率，无需训练样本，算法的复杂度相对较低。

Description

一种视频中文字的检测与提取方法

技术领域

本发明涉及一种视频检测。特别是涉及一种视频中文字的检测与提取方法。

背景技术

随着宽带网络、通信器材、存储设备以及数字电视等多媒体载体及处理设备的快速发展，视频下载和传输的安全问题越来越突出。如何有效地对视频的内容进行监控，确保视频的内容安全成为了研究的热点。通过检测视频中的文字信息是否含有特定的词语，可以实现对视频内容的有效监控。在对视频内容进行归档或检索时，也可把视频中的文字信息作为一种重要依据。在这些应用场合中，从视频中检测并提取在画面中嵌入的文字是关键的处理步骤。

文字检测的方法可分为以下三大类：基于边缘和梯度的方法、基于纹理的方法和基于连通域的方法。文字字符与背景会形成比较明显的边缘，可以利用此特点来检测文字区域，但是在复杂背景的情况下，应用边缘来检测文字会产生很多误判。基于连通域的方法是在文字字符具有相同的颜色或者灰度级这一假设上提出的，对文字检测有很大的局限性。基于纹理的方法利用图像中的文本有着与背景不同的纹理特性来决定一个像素点或图像块是否属于文本区域，该方法可以提取不同分辨率图像中不同尺寸、不同语言和不同字体的文本，具有一定的通用性，但是，它存在着计算量大和定位精度不高的缺点。

现今虽已提出很多文字检测的方法，但各种方法都有自身的优点和不足，加上复杂的背景和文字不同的颜色尺寸字体等问题使得文字检测仍然很具挑战性。

发明内容

本发明所要解决的技术问题是，提供一种有较好的检测率和缺失率的一种视频中文字的检测与提取方法。

本发明所采用的技术方案是：一种视频中文字的检测与提取方法，首先进行文字检测，然后进行文字提取，具体包括如下步骤：

1）启动算法，将彩色图像转换为灰度图像；

2）对灰度图像进行降采样处理，设定图像宽度的阈值为t1,当图像的宽度＞t1时，作降采样处理，当图像的宽度t1≤时，不作任何处理，获取的图像设为I（x，y）；

3）分别获取步骤2）中得到的图像I（x，y）的小波综合图像和角点特征图像；

4）结合角点特征图像和小波综合图像的统计特征来作为区分文字和非文字区域的特性，分别从角点特征图像和小波综合图像提取7个统计特征，产生14维的特征向量并归一化；

5）将特征向量放入k-means分类器中作分类，设定k=2，分类后将连通的文字块区域的外接矩形作为候选的文字区域；

6）对步骤3）中的角点特征图像进行二值化处理，再对处理后的二值化图像作形态学处理；

7）根据形态学处理后的二值图像的饱和度和方向两个特征作候选文字区域的筛选，对筛选后获得的文字区域做一次掩膜不超过N/2的膨胀；

8）进行文字提取，包括：

（1）根据步骤7）获取的文字位置信息，获取彩色文字条；

（2）在RGB彩色空间中对子通道图像分别运用大津法获得阈值作二值化处理，再合并三个二值图像，仅保留文字像素的交集，即候选文字像素区域；

（3）只将候选的文字像素区域的灰度值放入k-means分类器中做分类，区分标记后获取最终的文字像素区域。

步骤3）中所述的获取图像I（x，y）的小波综合图像，是对图像I(x，y)运用二维小波一级变换，分解结果为LL低频子带、LH水平方向高频子带、HL垂直方向高频子带和HH对角线方向高频子带，综合小波的三个高频子带得到小波综合图像S（x，y），小波综合图像S（x，y）的定义：

步骤3）中所述的获取图像I（x，y）的角点特征图像，是采用如下公式：

CR(x，y)＝Ax²+2Cxy+By²

其中A＝W*(I_x)²

B＝W*(I_y)²

C＝W*I_x*I_y

W(u，v)＝exp-(u²+v²)/2

I_x，I_y分别为I(x,y)在x和y方向的边缘幅值，W(u,v)为光滑作用的高斯模板。

步骤4）中所述的提取7个统计特征是，分别将步骤3）中的图像S（x，y）和CR（x，y）分割为N×N大小的块G（i,j），其中N=10，高和宽都扩展至N的倍数，扩展区域填充为0，分类后只保留扩展前的部分，对每个N×N大小的块提取7个统计特征，统计特征分别为能量、熵、惯量、局部同态性、均值、二阶中心距和三阶中心距，共7个，具体公式如下：

步骤4）中所述的产生14维的特征向量并归一化是，由于分别从角点特征图像和小波综合图像中提取7个特征，共得到14个特征，设F为这14维特征向量，对F作归一化处理，使特征值范围规范至0到1，算法为：

其中Max=max(F)，Min=min(F)。

步骤5）中，将特征向量放入k-means分类器中作分类，设定k=2，以文字块个数比非文字块个数小为准则，修改k-means的分类结果，使文字块为1，非文字块为0，对于同一行的块，若一非文字块位于两个文字块的中间，则也被定义为文字块。

步骤6）所述的形态学处理是：先作闭运算，使角点响应较强的部分连通，再膨胀，形成区域，最后作开运算，为使区域和区域之间的小缝隙断开分别独立。

步骤7）所述的饱和度和方向分别是：

饱和度：设Rs为角点区域饱和度，Rc为候选文字区域内角点所占面积，Rb为该候选文字区域的面积，Rs=Rc/Rb，如果Rs<a，则该文字区域判定为伪文字区域，阈值a设定在0.2-0.3之间；

方向：设误差为5°，如果角点区域的方向不是0°～5°或者85°～90°，该候选文字区域则被判定为伪文字区域，这里使用的方向是角点区域逼近椭圆的方向。

步骤8）所述的只将候选的文字像素区域的灰度值放入k-means分类器中做分类，区分标记后获取最终的文字像素区域是，将k设定为2，分类后的结果是比较干净的文字像素和文字边缘及干扰，以边缘和干扰的分类结果图中的连通域个数明显比文字像素分类结果图中的连通域个数多作为判断准则，准确标记k-means分类后的结果，标记文字像素为1，边缘和干扰像素为0，即得到最终提取的二值图像。

本发明的一种视频中文字的检测与提取方法，结合小波变换高频综合图像和角点特征图像，提取统计特征获取文字区域，并运用彩色空间和非监督分类器来提取文字像素。经实验比较，有较好的检测率和缺失率，并且无需训练样本，算法的复杂度相对较低。

附图说明

图1是本发明文字检测的流程图；

图2是本发明文字提取的流程图；

图3是采用本发明方法的样本效果图。

具体实施方式

下面结合实施例和附图对本发明的一种视频中文字的检测与提取方法做出详细说明。

如图1、图2所示，本发明的一种视频中文字的检测与提取方法，首先进行文字检测，然后进行文字提取，具体包括如下步骤：

1）将彩色图像转换为灰度图像；

2）对灰度图像进行降采样处理，因为无论是算法中阈值的确定，还是图像分割块的大小，都与原图像的分辨率息息相关，所以要对原灰度图像作降采样，使图像的分辨率都在某个范围内，以获取更高的效率和鲁棒性。在对灰度图像进行降采样处理时，设定图像宽度的阈值为t1,当图像的宽度＞t1时，作降采样处理，当图像的宽度t1≤时，不作任何处理，获取的图像设为I（x，y）；

由于小波的局部显微特性，小波系数大的地方总是出现在图像的边缘部分，在高频子带中字幕区域表现非常明显，从而小波分解后的细节分量能较好地体现字幕位置的信息。而发明综合小波的三个高频子带，可以更好地突出字幕位置。本发明所述的获取图像I（x，y）的小波综合图像，是对图像I(x，y)运用二维小波一级变换，分解结果为LL低频子带、LH水平方向高频子带、HL垂直方向高频子带和HH对角线方向高频子带，综合小波的三个高频子带得到小波综合图像S（x，y），小波综合图像S（x，y）的定义：

角点被定义为两条边缘的交叉点或是具有两条主要边缘方向的点，是在文字检测中常用并且高效的纹理类型。因为角点是对于旋转和移动不变的量，所以与其他低级特征相比，角点具备更好的鲁棒性和稳定性，其结果也对背景噪声有一定程度的抑制，针对角点设定一些规则也可以很好的区分文字和非文字区域，本发明使用角点检测特征图而非角点图像主要是因为文字的检测是基于文字区域的，而非像素点，我们不需要知道角点的个数和具体位置，只需要知道哪一个区域趋于生成角点即可，并且对而后的形态学操作也更有利所述的获取图像I（x，y）的角点特征图像，本发明所述的获取角点特征图像是采用如下公式：

CR(x，y)＝Ax²+2Cxy+By²

其中A＝W*(I_x)²

B＝W*(I_y)²

C＝W*I_x*I_y

W(u，v)＝exp-(u²+v²)/2

所述的提取7个统计特征是，分别将步骤3）中的图像S（x，y）和CR（x，y）分割为N×N大小的块G（i,j），其中N=10，高和宽都扩展至N的倍数，扩展区域填充为0，分类后只保留扩展前的部分，对每个N×N大小的块提取7个统计特征，统计特征分别为能量、熵、惯量、局部同态性、均值、二阶中心距和三阶中心距，共7个，具体公式如下：

所述的产生14维的特征向量并归一化是，由于分别从角点特征图像和小波综合图像中提取7个特征，共得到14个特征，设F为这14维特征向量，对F作归一化处理，使特征值范围规范至0到1，算法为：

其中Max=max(F)，Min=min(F)。

5）将14个特征向量放入k-means分类器中作分类，设定k=2，分类后将连通的文字块区域的外接矩形作为候选的文字区域，将特征向量放入k-means分类器中作分类，设定k=2，以文字块个数比非文字块个数小为准则，修改k-means的分类结果，使文字块为1，非文字块为0，对于同一行的块，若一非文字块位于两个文字块的中间，则也被定义为文字块。

所述的形态学处理是：先作闭运算，使角点响应较强的部分连通，再膨胀，形成区域，最后作开运算，为使区域和区域之间的小缝隙断开分别独立。

7）根据形态学处理后的二值图像的饱和度和方向两个特征作候选文字区域的筛选，由于分割块大小为N×N，很有可能有部分文字在非文字块内，所以还要对筛选后获得的文字区域做一次掩膜不超过N/2的膨胀；所述的饱和度和方向分别是：

饱和度：设Rs为角点区域饱和度，Rc为候选文字区域内角点所占面积，Rb为该候选文字区域的面积，Rs=Rc/Rb，在文字区域，若真包含文字，则角点区域占一定的比例，如果Rs<a，则该文字区域判定为伪文字区域，经过实验，阈值a设定在0.2-0.3之间较为合理；

方向：假设文字条的方向只有水平和垂直两种，则文字的方向为0°或90°，但由于并不是所有的中文文字都包含丰富的角点信息，笔画较少的文字则信息较少，所以也会导致方向的偏差，设误差为5°，如果角点区域的方向不是0°～5°或者85°～90°，该候选文字区域则被判定为伪文字区域，这里使用的方向是角点区域逼近椭圆的方向。

8）进行文字提取，包括：

（1）根据步骤7）获取的文字位置信息，获取彩色文字条；

（2）在RGB彩色空间中对子通道图像分别运用大津法(OTSU)获得阈值作二值化处理，再合并三个二值图像，仅保留文字像素的交集，即候选文字像素区域；

（3）只将候选的文字像素区域的灰度值放入k-means分类器中做分类，区分标记后获取最终的文字像素区域。具体是运用k-means分类器作灰度值的分类，放入k-means分类器中的是在初步提取结果图的文字像素区域中的原图像灰度值，将k设定为2，分类后的结果是比较干净的文字像素和文字边缘及干扰，由于边缘和干扰的分类结果图中的连通域个数明显比文字像素分类结果图中的连通域个数多，以边缘和干扰的分类结果图中的连通域个数明显比文字像素分类结果图中的连通域个数多作为判断准则，准确标记k-means分类后的结果，标记文字像素为1，边缘和干扰像素为0，即得到最终提取的二值图像。

实验结果分析，运用OpenCV实现算法，并进行了大量的测试。测试所用的视频来自于多种多样的生活类视频，如电影、电视剧、综艺节目、新闻等。所有图像皆在复杂背景下，同时也包含低对比度文字图像和无文字图像。

为了更好地判断文字检测的性能，检测到文字区域主要分为以下四大类：

检测正确的文字区域：检测到的文字区域包含文字。

检测错误的文字区域：检测到的文字区域不包含文字。

遗漏信息的文字区域：检测到的文字区域包含文字但是丢失一些字符。

边界有误的文字区域：检测到的文字包含文字但是边界宽于文字本身的边界。

相应的，判断文字检测性能也有如下四个指标：

通过实验，如图3样本效果示例所示，本发明的一种视频中文字的检测与提取方法可以在复杂背景下检测到不同方向（水平和竖直），不同字体和大小的文字。为了更直观的评价算法性能，我们将传统算法之一与本发明的方法进行比较，该算法运用彩色空间和Harris角点来检测定位文字。经过对实验结果的统计计算，检测性能如表1所示。

表1 文字检测结果

从表1的数据来看，与对传统算法相比，本发明的方法有比较高的检测率和较低的缺失率，传统算法只运用Harris角点来检测定位，由于文字尤其是中文有很多常见字符包含的笔画很少，角点也相应会少，导致缺失率较高，而本发明的方法结合了小波变换，相比之下，有较丰富的纹理特征，检测率也会相应提高。虽然丰富的纹理信息也会增高误判率，但是比较完善的误判筛选让误判率保持在相对合理的水平上。

Claims

1.一种视频中文字的检测与提取方法，其特征在于，首先进行文字检测，然后进行文字提取，具体包括如下步骤：

1)启动算法，将彩色图像转换为灰度图像；

2)对灰度图像进行降采样处理，设定图像宽度的阈值为t1,当图像的宽度＞t1时，作降采样处理，当图像的宽度≤t1时，不作任何处理，获取的图像设为I(x，y)；

3)分别获取步骤2)中得到的图像I(x，y)的小波综合图像和角点特征图像；

4)结合角点特征图像和小波综合图像的统计特征来作为区分文字和非文字区域的特性，分别从角点特征图像和小波综合图像提取7个统计特征，产生14维的特征向量并归一化；

5)将特征向量放入k-means分类器中作分类，设定k＝2，分类后将连通的文字块区域的外接矩形作为候选的文字区域；

6)对步骤3)中的角点特征图像进行二值化处理，再对处理后的二值化图像作形态学处理；

7)根据形态学处理后的二值图像的饱和度和方向两个特征作候选文字区域的筛选，由于分割块大小为N×N，对筛选后获得的文字区域做一次掩膜不超过N/2的膨胀；

8)进行文字提取，包括：

(1)根据步骤7)获取的文字位置信息，获取彩色文字条；

(2)在RGB彩色空间中对子通道图像分别运用大津法获得阈值作二值化处理，再合并三个二值图像，仅保留文字像素的交集，即候选文字像素区域；

(3)只将候选的文字像素区域的灰度值放入k-means分类器中做分类，区分标记后获取最终的文字像素区域；

所述的只将候选的文字像素区域的灰度值放入k-means分类器中做分类，区分标记后获取最终的文字像素区域是，将k设定为2，分类后的结果是比较干净的文字像素和文字边缘及干扰，以边缘和干扰的分类结果图中的连通域个数明显比文字像素分类结果图中的连通域个数多作为判断准则，准确标记k-means分类后的结果，标记文字像素为1，边缘和干扰像素为0，即得到最终提取的二值图像。

2.根据权利要求1所述的一种视频中文字的检测与提取方法，其特征在于，步骤3)中所述的获取图像I(x，y)的小波综合图像，是对图像I(x，y)运用二维小波一级变换，分解结果为LL低频子带、LH水平方向高频子带、HL垂直方向高频子带和HH对角线方向高频子带，综合小波的三个高频子带得到小波综合图像S(x，y)，小波综合图像S(x，y)的定义：

<mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <msup> <mi>LH</mi> <mn>2</mn> </msup> <mo>+</mo> <msup> <mi>HL</mi> <mn>2</mn> </msup> <mo>+</mo> <msup> <mi>HH</mi> <mn>2</mn> </msup> </mrow> </msqrt> <mo>.</mo> </mrow> 。

3.根据权利要求1所述的一种视频中文字的检测与提取方法，其特征在于，步骤3)中所述的获取图像I(x，y)的角点特征图像，是采用如下公式：

CR(x，y)＝Ax²+2Cxy+By²

其中A＝W*(I_x)²

B＝W*(I_y)²

C＝W*I_x*I_y

W(x，y)＝cxp-(x²+y²)/2

I_x，I_y分别为I(x,y)在x和y方向的边缘幅值，W(x，y)为光滑作用的高斯模板。

4.根据权利要求1所述的一种视频中文字的检测与提取方法，其特征在于，步骤4)中所述的提取7个统计特征是，分别将步骤3)中得到的小波综合图像S(x，y)和角点特征图像CR(x，y)分割为N×N大小的块G(i,j)，其中N＝10，高和宽都扩展至N的倍数，扩展区域填充为0，分类后只保留扩展前的部分，对每个N×N大小的块提取7个统计特征，统计特征分别为能量、熵、惯量、局部同态性、均值、二阶中心距和三阶中心距，共7个，具体公式如下：

(1)能量 E＝∑_i，jG(i，j)²

(2)熵 Et＝Σ_i，jG(i，j).logG(i，j)

(3)惯量 I＝∑_i，j(i-j)²G(i，j)

(4)局部同态性

(5)均值

(6)二阶中心距

(7)三阶中心距

5.根据权利要求1所述的一种视频中文字的检测与提取方法，其特征在于，步骤4)中所述的产生14维的特征向量并归一化是，由于分别从角点特征图像和小波综合图像中提取7个特征，共得到14个特征，设F为这14维特征向量，对F作归一化处理，使特征值范围规范至0到1，算法为：

其中Max＝max(F)，Min＝min(F)。

6.根据权利要求1所述的一种视频中文字的检测与提取方法，其特征在于，步骤5)中，将特征向量放入k-means分类器中作分类，设定k＝2，以文字块个数比非文字块个数小为准则，修改k-means的分类结果，使文字块为1，非文字块为0，对于同一行的块，若一非文字块位于两个文字块的中间，则也被定义为文字块。

7.根据权利要求1所述的一种视频中文字的检测与提取方法，其特征在于，步骤6)所述的形态学处理是：先作闭运算，使角点响应较强的部分连通，再膨胀，形成区域，最后作开运算，为使区域和区域之间的小缝隙断开分别独立。

8.根据权利要求1所述的一种视频中文字的检测与提取方法，其特征在于，步骤7)所述的饱和度和方向分别是：

饱和度：设Rs为角点区域饱和度，Rc为候选文字区域内角点所占面积，Rb为该候选文字区域的面积，Rs＝Rc/Rb，如果Rs<a，则该文字区域判定为伪文字区域，阈值a设定在0.2-0.3之间；