CN104766076B

CN104766076B - 一种视频图像文字的检测方法和装置

Info

Publication number: CN104766076B
Application number: CN201510091888.9A
Authority: CN
Inventors: 许�鹏; 王涛; 张彦刚
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2015-02-28
Filing date: 2015-02-28
Publication date: 2019-01-01
Anticipated expiration: 2035-02-28
Also published as: CN104766076A

Abstract

本发明实施例提供了一种视频图像文字的检测方法和装置，其中的方法具体包括：对视频图像进行文字检测，确定所述视频图像的文本区域；利用所述视频图像的颜色信息对所述视频图像的文本区域进行文字和背景分割，得到二值化文字图像；对所述二值化文字图像进行过滤处理，得到过滤后的文字图像。本发明实施例能够提高视频图像文字检测的效果。

Description

一种视频图像文字的检测方法和装置

技术领域

本发明涉及视频文字处理技术领域，特别是涉及一种视频图像文字的检测方法和装置。

背景技术

随着数字化网络化的发展，数字图像和视频越来越多，图片或视频中的文字能够提供直接的高层语义信息，因此开发视频图像文字的检测技术，有助于对视频图像进行理解和管理。

现有的光学字符识别技术(Optical Character Recognition，OCR)主要针对的是图像，尤其是照片中文字的检测，并且对图像预处理效果较为敏感。若想获得较好的文字识别效果，必须通过图像处理技术，将文字与背景清晰的分割出来。然而，对于视频文字检测，由于背景较为复杂，视频压缩造成的画质损失，以及为了视觉效果在视频文字的边缘加入阴影等处理，使得通用的文字检测技术如OCR，很难取得满意的检测效果。

此外，还有一个比较重要的影响因素是光照变化，因此必须考虑文字颜色的变化问题。而视频文字一般为后期添加，虽然背景比较复杂，但是文字颜色比较均一，因此，若使用针对图像的检测方法，由于考虑了不必要的因素，会导致检测精度有所降低。

发明内容

本发明实施例所要解决的技术问题是提供一种视频图像文字的检测方法和装置，能够提高视频图像文字检测的效果。

为了解决上述问题，本发明公开了一种视频图像文字的检测方法，包括：

对视频图像进行文字检测，确定所述视频图像的文本区域；

利用所述视频图像的颜色信息对所述视频图像的文本区域进行文字和背景分割，得到二值化文字图像；

对所述二值化文字图像进行过滤处理，得到过滤后的文字图像。

优选地，所述确定所述视频图像的文本区域之后，还包括：

对所述视频图像的文本区域进行侵蚀处理，得到侵蚀后的文本区域。

优选地，所述利用所述视频图像的颜色信息对所述视频图像的文本区域进行文字和背景分割，得到二值化文字图像的步骤，包括：

确定所述视频图像文字对应的三通道中心像素值；

判断所述文本区域中每个像素点与所述中心像素值是否符合预置条件，若符合，则确定当前像素点为文字；若不符合，则确定当前像素点为背景。

优选地，所述确定所述视频图像文字对应的三通道中心像素值的步骤，包括：

利用所述文本区域作为掩板，从所述视频图像中过滤掉背景，得到文字；

提取所述文字的三通道像素值；

对每个通道提取的像素值进行排序，并依据排序结果确定中位数为所述文字对应的三通道中心像素值。

优选地，所述对所述二值化文字图像进行过滤处理，得到过滤后的文字图像的步骤，包括：

依据对所述文本区域分割出的文字，获取所述文字的笔画宽度信息以及所述文字的宽度信息；

依据所述文字的笔画宽度信息和所述文字的宽度信息，对所述文本区域的文字进行切割紧缩处理；

对所述切割紧缩处理后的文本区域进行去噪处理，得到过滤后的文字图像。

优选地，所述得到过滤后的文字图像之后，还包括：

利用所述过滤后的文字图像作为掩板，从所述视频图像中获取文字颜色信息，得到彩色文字图像。

优选地，所述对视频图像进行文字检测，确定所述视频图像的文本区域的步骤，包括：

利用笔画宽度变换的检测方法对所述视频图像进行文字检测，确定所述视频图像的文本区域。

依据本发明的另一个方面，提供了一种视频图像文字的检测装置，包括：

检测模块，用于对视频图像进行文字检测，确定所述视频图像的文本区域；

分割模块，用于利用所述视频图像的颜色信息对所述视频图像的文本区域进行文字和背景分割，得到二值化文字图像；

过滤模块，用于对所述二值化文字图像进行过滤处理，得到过滤后的文字图像。

优选地，所述装置还包括：

侵蚀模块，用于对所述视频图像的文本区域进行侵蚀处理，得到侵蚀后的文本区域。

优选地，所述分割模块，具体包括：

中心确定子模块，用于确定所述视频图像文字对应的三通道中心像素值；

判断子模块，用于判断所述文本区域中每个像素点与所述中心像素值是否符合预置条件，若符合，则确定当前像素点为文字；若不符合，则确定当前像素点为背景。

优选地，所述中心确定子模块，具体包括：

背景过滤单元，用于利用所述文本区域作为掩板，从所述视频图像中过滤掉背景，得到文字；

提取单元，用于提取所述文字的三通道像素值；

中心确定单元，用于对每个通道提取的像素值进行排序，并依据排序结果确定中位数为所述文字对应的三通道中心像素值。

优选地，所述过滤模块，具体包括：

文字信息获取子模块，用于依据对所述文本区域分割出的文字，获取所述文字的笔画宽度信息以及所述文字的宽度信息；

切割紧缩子模块，用于依据所述文字的笔画宽度信息和所述文字的宽度信息，对所述文本区域的文字进行切割紧缩处理；

去噪子模块，用于对所述切割紧缩处理后的文本区域进行去噪处理，得到过滤后的文字图像。

优选地，所述装置还包括：

颜色获取模块，用于利用所述过滤后的文字图像作为掩板，从所述视频图像中获取文字颜色信息，得到彩色文字图像。

优选地，所述检测模块，具体包括：

检测子模块，用于利用笔画宽度变换的检测方法对所述视频图像进行文字检测，确定所述视频图像的文本区域。

与现有技术相比，本发明实施例包括以下优点：

本发明实施例首先对视频图像进行文字检测，确定文本区域，然后利用颜色信息对文本区域的文字和背景进行分割，得到二值化文字图像，最后对二值化文字图像进行过滤得到去除噪点的文字图像。由于视频图像文字具有背景复杂、文字颜色均一的特点，而本发明实施例在对视频图像进行文字检测之后，再利用颜色信息进行图像分割，可以进一步地区分文字和复杂的背景，避免单独利用针对图像的边缘检测方法如OCR导致检测效果较差的问题；此外，由于视频文字颜色均一，利用颜色信息进行图像分割，还可以避免光照变化对于检测效果的影响，从而可以提高视频图像文字检测的效果。

附图说明

图1示出了本发明的一种视频图像文字的检测方法实施例的步骤流程图；

图2示出了两幅视频图像的局部图像示意图；

图3示出了应用SWT算法对图2中的视频图像进行文字检测的结果示意图；

图4示出了本发明的一种基于颜色信息进行图像分割后得到的二值化文字图像示意图；

图5示出了本发明的一种对ROI侵蚀处理后的结果示意图；

图6示出了本发明利用所述视频图像的颜色信息对所述视频图像的文本区域进行文字和背景分割，得到二值化文字图像的步骤流程图；

图7示出了本发明对二值化文字图像进行过滤处理，得到过滤后的文字图像的步骤流程图；

图8示出了本发明的一种获取文字笔画宽度的示意图；

图9示出了本发明的一种文字垂直方向灰度投影的结果示意图；

图10示出了本发明的一种文字水平方向灰度投影的结果示意图；

图11示出了本发明的一种切割粘连文字的结果示意图；

图12示出了本发明对二值化文字图像去除噪音后的结果示意图；

图13示出了本发明的一种视频图像文字的检测方法系统流程图；

图14示出了图13对应的检测方法步骤流程图；及

图15示出了本发明一种视频图像文字的检测装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

参照图1，示出了本发明的一种视频图像文字的检测方法实施例的步骤流程图，具体可以包括：

步骤101、对视频图像进行文字检测，确定所述视频图像的文本区域；

本发明实施例可以应用于公司新闻拆分系统等各种应用场景中，用于提高应用场景中视频图像文字检测的效果。例如，在应用于公司新闻拆分系统时，一方面，由于标题一般出现在相关新闻段落的开头，所以可以采用本发明实施例识别出每个新闻段落的标题，从而可以分割开各标题对应的新闻段落；另一方面，文字检测结果还可以作为分割出来的新闻段落的标题，因此，本发明实施例能够减轻编辑手工输入新闻标题的工作量。

在具体实现中，对视频图像进行文字检测的算法很多，比如基于梯度、基于能量或基于学习模型的文字检测算法等。但是有的算法速度较慢，比如基于能量的算法，有的算法的检测精度不能满足要求，有的算法需要大量样本，如学习模型的文字检测算法，在综合考虑了各个算法的效果和效率后，本发明实施例优选采用笔画宽度变换(Stroke WidthTransform，SWT)的算法对视频图像进行文字检测。当然，本领域技术人员可以灵活选择文字检测算法，本发明对文字检测的具体算法不加以限制。

SWT算法是一种通用的效果较好的文字检测算法，一般情况下，应用该算法能够很好的找到视频图像中文字所在的位置，本发明实施例利用其检测文字，作为进一步图像分割的基础。参照图2，示出了两幅视频图像的局部图像示意图，以及参照图3，示出了应用SWT算法对图2中的视频图像进行文字检测的结果示意图，从图3中可以看出，SWT算法可以初步检测出文字的大体轮廓，但是单独使用SWT算法等基于边缘的检测方法，视频图像的文字检测效果较差，例如图3中的文字还有部分残缺。

步骤102、利用所述视频图像的颜色信息对所述视频图像的文本区域进行文字和背景分割，得到二值化文字图像；

由于视频图像文字具有背景复杂、文字颜色均一的特点，因此，本发明实施例在对视频图像进行文字检测确定视频图像的文本区域，也即获取到文字的位置之后，例如，使用SWT算法进行文字检测，确定视频图像的文本区域之后，再利用颜色信息对该文本区域进行图像分割，即可以依据文字的颜色信息判断当前文本区域中每一个像素是属于文字还是背景，得到分割后的二值化文字图像。参照图4，示出了本发明的一种基于颜色信息进行图像分割后得到的二值化文字图像示意图，其利用基于颜色信息的方法对图3的结果进行了进一步的图像分割处理，可以弥补前述文字检测方法中的不足，通过文字的颜色属性可以判断出文字残缺部分的像素是属于文字而不是背景，在图像分割处理完成之后，从图4可以看出，得到的二值化文字图像中的文字已经非常清晰，可以准确的识别出图中的文字。

图像的二值化处理就是将图像上的点的灰度置为0或255，也就是将整个图像呈现出明显的黑白效果。即将256个亮度等级的灰度图像通过适当的阈值选取而获得仍然可以反映图像整体和局部特征的二值化图像。在数字图像处理中，二值图像占有非常重要的地位，图像的二值化有利于对图像做进一步处理，图像的集合性质只与像素值为0或255的点的位置有关，不再涉及像素的多级值，使处理变得简单，而且数据的处理和压缩量小，能凸显出感兴趣的目标的轮廓。

步骤103、对所述二值化文字图像进行过滤处理，得到过滤后的文字图像。

由于分割后得到的二值化文字图像，仍然存在诸如文字粘连，同一文字部首间间距过大，噪音点多等问题，所以需要对二值化文字图像进行进一步过滤处理。

上述过滤处理过程具体可以包括：对二值化文字图像查找粘连点，并对粘连点进行切割处理，以及对部首间间距过大的文字进行紧缩处理，以缩短部首间的间距，然后再进行去除噪音点等处理，得到过滤后的文字图像。过滤后的文字图像中的文字已经更加清晰可辨，并且没有噪音点的干扰，因此可以将该文字图像用于文字识别，并且能够提高文字识别的准确率。

综上，本发明实施例首先对视频图像进行文字检测，确定文本区域，然后利用颜色信息对文本区域的文字和背景进行分割，得到二值化文字图像，最后对二值化文字图像进行过滤得到去除噪点的文字图像。由于视频图像文字具有背景复杂、文字颜色均一的特点，而本发明实施例在对视频图像进行文字检测之后，再利用颜色信息进行图像分割，可以进一步地区分文字和复杂的背景，避免单独利用针对图像的边缘检测方法如OCR导致检测效果较差的问题；此外，由于视频文字颜色均一，基于颜色进行图像分割，还可以避免光照变化对于检测效果的影响，从而可以提高视频图像文字检测的效果。

此外，使用SWT和颜色信息相结合的方法进行图像分割，对图像质量不高的视频图像，也能够具有良好的分割效果。由于视频图像质量不高，会导致文字边缘不清晰，文字和背景颜色不好区分，这样单独利用基于边缘或基于颜色的算法会导致效果较差，而本发明实施例结合利用基于边缘的SWT和利用颜色信息的图像分割算法能够解决这个问题。

实施例二

在本发明的一种优选实施例中，确定所述视频图像的文本区域之后，所述方法还可以包括：

通过观察可以发现，通常图像中部的噪音较少，因此本发明实施例可以选取图像中部1/2宽的区域作为感兴趣区域(Region of Interest,简称ROI)，以此区域进行侵蚀处理。由于视频压缩的原因，文字笔画边缘的像素较为杂乱，因此，对图像进行侵蚀处理，可以定位到笔画最中间较为均一的像素，该像素的特征最能代表视频文字的特征。参照图5，示出了本发明的一种对ROI侵蚀处理后的结果示意图。

本发明实施例可以依据侵蚀后的文本区域进行图像分割处理，以提高图像分割的准确度。但需要注意的是，在具体实施时，图像分割处理可以依据任意的文本区域，并不局限于依据侵蚀后的文本区域进行图像分割处理。

参照图6，示出了本发明利用所述视频图像的颜色信息对所述视频图像的文本区域进行文字和背景分割，得到二值化文字图像的步骤流程图，具体可以包括：

步骤601、确定所述视频图像文字对应的三通道中心像素值；

具体地，可以将文本区域作为掩板，从源视频图像中过滤掉背景，从而得到文字，提取文字的三通道像素值，然后对每个通道提取的像素值进行排序，并依据排序结果取中位数作为视频图像文字对应的三通道中心像素值。

其中，中位数(Median)又称中值，对于有限的数集，可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。

步骤602、判断所述文本区域中每个像素点与所述中心像素值是否符合预置条件，若符合，则确定当前像素点为文字；若不符合，则确定当前像素点为背景。

具体地，判断所述文本区域中每个像素点与所述中心像素值是否符合预置条件，可以通过判断所述文本区域中的每个像素点，是否满足下述不等式来实现：

若满足上述不等式，则认为该像素点是文字，否则认为该像素为背景。其中，p_i为像素点的值，MedianText_i为第i个通道的中心像素值；threshold为通过实验获得的一个阈值。如图4，示出了分割后的效果。

优选地，可以依据侵蚀后的文本区域进行图像分割处理，由于侵蚀后剩下的像素点可以认为是较清晰的文字笔画的中心点，因此，这些像素的颜色值可以认为是文字的颜色值。对这些颜色值在RGB三个通道内分别排序，获得三个通道的颜色中位数，即为MedianText_i。而文字的像素会分布在以这个中位数为中心的一个范围内。这个范围就是一个实验得到的阈值threshold。本领域技术人员可以根据实际应用确定该阈值的大小，本发明对此不加以限制。

实施例三

参照图7，示出了本发明对二值化文字图像进行过滤处理，得到过滤后的文字图像的步骤流程图，具体可以包括：

步骤701、依据对所述文本区域分割出的文字，获取文字笔画宽度信息；

具体地，可以对分割后得到的二值化文字图像的感兴趣区域(Region ofInterest,ROI)进行文字纵向扫描，统计每个x坐标黑色区域高度的大小，对每个高度值出现的次数排序，得到次数最多的值，即为笔画宽度。

参照图8，示出了本发明的一种获取文字笔画宽度的示意图，其中，两条垂直线段为用于演示的垂直方向扫描线，在实际应用中，x方向上的每个像素都会有这样一条扫描线。在扫描过程中，记录每个扫描线穿过的黑色区域的高度，扫描完成后，统计记录中出现次数最多的那个值，认为是文字笔画宽度信息。如图8所示，记录图中的高度值为{4,13,4,4}，则可以确定该文字笔画宽度为4。

步骤702、获取文字的宽度信息；

由于文字纵向高度信息通常较为清晰，而且同一个文字的高度和宽度不会差别太大，因此可以先提取文字的高度信息，再由文字的高度信息来确定宽度信息。具体地，可以对ROI区域灰度进行垂直方向投影，投影值为0的区域边界间隔即为文字的高度(ChHeight)信息。参照图9，示出了本发明的一种文字垂直方向灰度投影的结果示意图。

接下来，可以对ROI区域做灰度纵向投影，统计投影值为0的区域边界间隔，对间隔值按照出现次数排序，对其中排序最高，且范围在[ChHeight /1.5,ChHeight *1.5]之间的值，可以定义为文字的宽度(ChWidth)信息。参照图10，示出了本发明的一种文字水平方向灰度投影的结果示意图。

具体地，如图10(b)中，找到水平方向投影所有为0点的位置，记为{x₀，x₁，...，x_n}，然后与相邻的点相减，得到{x₁-x₀，x₂-x₁，...，x_n-x_n-1}。在这n个值中，找到出现次数最多，且在[ChHeight /1.5, ChHeight *1.5]范围内的值，确定该值为文字的宽度信息。

一般情况下，认为文字的宽度和高度不会超过1.5倍。本发明实施例做这一限制主要是为了避免由于文字相连造成的错误和数字、标点符号较窄造成的错误。当然，在实际应用中，本领域技术人员可以根据需要灵活设置上述范围，本发明对此不加以限制。

步骤703、依据文字的笔画宽度信息和文字的宽度信息，对文本区域的文字进行切割紧缩处理；

其中，对文本区域进行切割紧缩处理可以包括以下子步骤：

子步骤S1、判断文字粘连点，并对粘连点进行切割处理；

参照图11，示出了本发明的一种切割粘连文字的结果示意图，其中，(a)为切割前的图像，(b)为切割后的图像。

具体地，在图像灰度水平投影的结果[H_x，x＝1，2，...，ImageWidth]中，在某一坐标x处，若满足H_x＞0，且H_x-ChWidth，H_x，H_x+ChWidht三个点的灰度均小于1.5*StrokeWidth，则认为该点为文字粘连点，对该粘连点进行切割处理，即将该横坐标处所有像素标0。

其中，H_x为x处水平投影得到的值，意义是在这个x坐标处，笔画的像素点累计个数。设置小于1.5*StrokeWidth这一条件是因为可以认为相粘连的部分高度一般不会超过笔画宽度的1.5倍。

子步骤S2、对部首间间隔过大的文字进行紧缩处理。

具体地，若在两个间隔ChWidth的坐标之间，有连续大于1个像素的水平投影值为零，则认为该间隔过大，可以移动文字的左右部分，直到间隔为1。

步骤704、对切割紧缩处理后的文本区域进行去噪处理，得到过滤后的文字图像。

具体地，可以针对前述步骤得到的二值化文字图像，计算每个连通域面积，若面积小于(StrokeWidth*StrokeWidth)，或大于(ChWidth*Chheight)，则认为该连通域是噪音，将其删除。

其中，连通域面积有常用的标准算法，例如可以利用opecv函数来计算连通域面积。对于过小的点(比汉字里的点小)或过大的(面积大于一个字)连通域，都可以认为是噪音。参照图12，示出了本发明对二值化文字图像去除噪音后的结果示意图。

在本发明的一种优选实施例中，所述得到过滤后的文字图像之后，还可以包括：

由于过滤后的文字图像还是二值化图像，为保留源视频图像中的文字颜色信息，可以将完成过滤的二值化文字图像作为掩板，在源彩色视频图像中，得到彩色文字，若为白底黑字，则背景填充为黑色；若为黑底白字，则将背景填充为白色。

实施例四

参照图13，示出了本发明的一种视频图像文字的检测方法系统流程图，以及参照图14，示出了图13对应的检测方法步骤流程图，具体可以包括：

步骤1401、通过SWT算法对视频图像进行文字检测，确定所述视频图像的文本区域；

步骤1402、对所述视频图像的文本区域进行侵蚀处理，得到侵蚀后的文本区域；

步骤1403、利用所述文本区域作为掩板，从所述视频图像中过滤掉背景，得到文字；

步骤1404、提取所述文字的三通道像素值；

步骤1405、对每个通道提取的像素值进行排序，并依据排序结果确定中位数为中心像素值；

步骤1406、判断所述文本区域中每个像素点与所述中心像素值是否符合预置条件，若符合，则确定当前像素点为文字；若不符合，则确定当前像素点为背景；

步骤1407、依据对所述文本区域分割出的文字，获取所述文字的笔画宽度信息以及所述文字的宽度信息；

步骤1408、依据所述文字的笔画宽度信息和所述文字的宽度信息，对所述文本区域的文字进行切割紧缩处理；

步骤1409、对所述切割紧缩处理后的文本区域进行去噪处理，得到过滤后的文字图像；

步骤1410、利用所述过滤后的文字图像作为掩板，从所述视频图像中获取文字颜色信息，得到彩色文字图像。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图15，示出了本发明一种视频图像文字的检测装置的结构框图，具体可以包括：

检测模块1510，用于对视频图像进行文字检测，确定所述视频图像的文本区域；

分割模块1520，用于利用所述视频图像的颜色信息对所述视频图像的文本区域进行文字和背景分割，得到二值化文字图像；及

过滤模块1530，用于对所述二值化文字图像进行过滤处理，得到过滤后的文字图像。

优选地，所述装置还包括：

优选地，所述分割模块1520，具体包括：

优选地，所述中心确定子模块，具体包括：

提取单元，用于提取所述文字的三通道像素值；

优选地，所述过滤模块1530，具体包括：

优选地，所述装置还包括：

优选地，所述检测模块，具体用于利用笔画宽度变换的检测方法对所述视频图像进行文字检测，确定所述视频图像的文本区域。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种视频图像文字的检测方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频图像文字的检测方法，其特征在于，所述方法包括：

对视频图像进行文字检测，确定所述视频图像的文本区域；

对所述视频图像的文本区域进行侵蚀处理，得到侵蚀后的文本区域；利用所述视频图像的颜色信息对所述视频图像的文本区域进行文字和背景分割，得到二值化文字图像，包括：利用所述文本区域作为掩板，从所述视频图像中过滤掉背景，得到文字；提取所述文字的三通道像素值；对每个通道提取的像素值进行排序，并依据排序结果确定中位数为所述文字对应的三通道中心像素值；判断所述文本区域中每个像素点与所述中心像素值是否符合预置条件，若符合，则确定当前像素点为文字；若不符合，则确定当前像素点为背景；

对所述二值化文字图像进行过滤处理，得到过滤后的文字图像；

其中，所述对所述二值化文字图像进行过滤处理，得到过滤后的文字图像的步骤，包括：

依据所述文字的笔画宽度信息和所述文字的宽度信息，对所述文本区域的文字进行切割紧缩处理；其中，对所述文本区域的文字进行切割紧缩处理包括：判断文字粘连点，并对粘连点进行切割处理；对部首间间隔过大的文字进行紧缩处理；

2.如权利要求1所述的方法，其特征在于，所述得到过滤后的文字图像之后，还包括：

3.如权利要求1所述的方法，其特征在于，所述对视频图像进行文字检测，确定所述视频图像的文本区域的步骤，包括：

4.一种视频图像文字的检测装置，其特征在于，所述装置包括：

侵蚀模块，用于对所述视频图像的文本区域进行侵蚀处理，得到侵蚀后的文本区域；

分割模块，用于利用所述视频图像的颜色信息对所述视频图像的文本区域进行文字和背景分割，得到二值化文字图像；包括：背景过滤单元，用于利用所述文本区域作为掩板，从所述视频图像中过滤掉背景，得到文字；提取单元，用于提取所述文字的三通道像素值；中心确定单元，用于对每个通道提取的像素值进行排序，并依据排序结果确定中位数为所述文字对应的三通道中心像素值；判断子模块，用于判断所述文本区域中每个像素点与所述中心像素值是否符合预置条件，若符合，则确定当前像素点为文字；若不符合，则确定当前像素点为背景；

过滤模块，用于对所述二值化文字图像进行过滤处理，得到过滤后的文字图像；

其中，所述过滤模块，具体包括：

切割紧缩子模块，用于依据所述文字的笔画宽度信息和所述文字的宽度信息，对所述文本区域的文字进行切割紧缩处理；其中，对所述文本区域的文字进行切割紧缩处理包括：判断文字粘连点，并对粘连点进行切割处理；对部首间间隔过大的文字进行紧缩处理；

5.如权利要求4所述的装置，其特征在于，所述装置还包括：

6.如权利要求4所述的装置，其特征在于，所述检测模块，具体用于利用笔画宽度变换的检测方法对所述视频图像进行文字检测，确定所述视频图像的文本区域。