CN102750540A

CN102750540A - 基于形态滤波增强的最稳定极值区视频文本检测方法

Info

Publication number: CN102750540A
Application number: CN2012101926925A
Authority: CN
Inventors: 陈丽娇; 卢湖川
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2012-06-12
Filing date: 2012-06-12
Publication date: 2012-10-24
Anticipated expiration: 2032-06-12
Also published as: CN102750540B

Abstract

本发明属于视频检索技术领域，涉及到图像处理相关知识，特别涉及到视频文字检测方法。其特征是从待测视频中提取出视频字幕用于识别和视频检索。首先，利用梯度幅度图（GAM）来增强输入图像的文本边界；其次，使用两个方向的形态滤波滤除部分背景干扰并增强了文本与背景的对比度；再次，我们使用最稳定极值区（MSER）区域检测器来检测视频文本的显著图，利用Graph Cuts得到文本的最佳分割；最后利用文本的几何分布特性将文本连成文本行，并用多帧确认和一些启发教育的方法去除非文本区域。本发明的效果和益处是克服了在本文检测中比较敏感的文本边界模糊、对比度低以及背景复杂等技术难题，并且检测结果可以直接用于文字识别。

Description

基于形态滤波增强的最稳定极值区视频文本检测方法

技术领域

本发明属于视频检索领域，涉及到图像处理相关知识，特别涉及到视频文字检测方法。

背景技术

自上世纪九十年代以来，基于视频字幕信息的视频检索技术倍受研究者关注，出现了很多优秀的技术和方法，研究的热点主要集中在视频图像文本检测与定位上。下面将对从2005年开始陆续发表的具有代表性的文章以及专利描述如下。

Lyu，M.R等人在“A comprehensive method for multilingual video text detection，localization，and extraction.In T-CSVT，2005”文中通过分析文本的sobel边缘密度来定位文本的位置。Wonjun Kim等人在文章“A New Approach for Overlay TextDetection and Extraction From Complex Video Scene.In TIP，2009”利用颜色的过度图来定位文本的位置。Palaiahnakote Shivakumara等人在总结前人工作的基础上提出了一种新的变换域分析法，在文章“ALaplacian approach to multi-orientedtext detection in video.In PAMI，2011”中提出了一个两步处理法，称为Fourier-Laplacian滤波法。

该方法第一步使用一个理想的低通滤波器在频率域对图像进行去噪处理，依据的原理是噪声在傅里叶变换域呈现很高的频率，应该予以处理掉。第二步，在傅里叶变换域使用拉普拉斯变换，得到文本区域的显著图，在文本区域会有一个很大的正向峰值，在背景区域会有一个负向峰值，通过前景与背景的差分值来突出文本区域，然后利用文本的差分值的欧氏距离将计算的差分值聚成两类，一类是文本区，另一类是背景区，最后通过提取区域骨架来区分文本区域与背景区域，去除错误的候选文本区域。

在专利ZL2008102365033中公开了《一种快速准确的视频字幕提取方法》，利用小波变换生成视频关键帧亮度图像的纹理图，利用纹理图投影差分的方法来定位关键帧图像中字幕条的位置；利用字幕点匹配方法来判断两帧是否存在同一条字幕，确定字幕条在视频中的起始帧和终止帧；利用OTSU分割同一条字幕的多帧亮度图像的字幕条区域的平均和图像，得到文本区域，去除非文字噪声。在专利ZL2007101185950中公开了《一种视频字幕提取的方法》，首先使用改进后的Sobel边缘检测算子计算每个像素点的边缘强度值；然后，根据背景的复杂程度自动调整分割尺度，多次应用水平垂直投影的方法分割出字幕区域，确认字幕颜色是深色还是浅色，反转浅色字幕的灰度图为深色字幕图片；最后根据对灰度图片进行基于局部窗口分析二值化，并进行OCR软件识别。

上述方法多数是通过文本的边缘或纹理的特征来定位文本的特征，然而，当背景具有与字幕区相似的纹理结构或视频背景比较复杂时，基于纹理的方法提取字幕将变得比较困难，而且这些方法定位后的文本不能直接用于识别，需要经过进一步处理后才能用于识别。

发明内容

本发明要解决的技术问题是：在视频有损压缩促使文本边界出现模糊的情况、视频背景与视频文本对比度比较低的情况、视频中含有与字幕的纹理及颜色等特征非常相似的复杂背景，例如：窗格、栅栏、树叶等情况下提取视频中的两种颜色极的文本，并且提取的视频文本可以直接用于识别。

本发明的技术方案是：依据视频文字与视频背景间的亮度差异，利用基于连通域的方法来检测文本，采用最稳定极值区(MSER)作为区域检测算子来检测文本连通区域的显著图。由于MSER对复杂背景、文本边缘模糊、视频文本与背景对比度低都比较敏感，本发明使用梯度幅度图来增强视频文本的边缘，采用形态滤波的方法不仅滤除了复杂背景干扰，而且增强视频文本与背景的对比度。得到文本的连通域的显著图后，利用颜色和亮度特征使用Graph Cuts算法得到文本的最佳分割。在本发明中我们还提出了一种基于文本几何特征去除背景干扰的方案，并通过多帧确认的方法来确认输出候选文本区，去除误检。具体实现步骤包括：

(1)图像变换与处理：从视频中每隔五帧取一帧图像，通过线性内插的方法把视频图像大小转换为448×336像素；HSI颜色空间是近似的均匀颜色空间，相对于RGB空间，它更符合人眼的直觉感受。另外，它有个重要的特征：亮度分量与色度分量(H，S)是分开的，亮度分量I与图像的色彩信息无关，所以我们将RGB彩色图像转换到HSI颜色空间再做处理。

(2)文本边界增强：为了克服文字边界模糊给视频文字检索带来的困难，本发明使用局部亮度的梯度幅值图(简称为GAM)来增强视频文本的边界，依据的基本思想是视频文本的边界和背景之间的亮度会有很大的梯度变化，视频文本的形状和轮廓可以由梯度的幅度值来表征，并且由于HSI颜色空间的图像的色度和亮度之间具有相对独立的特征，因此，在本发明中我们仅使用图像的亮度值I来求梯度值，为了方便计算，我们将所求梯度值拉伸到0-255之间，梯度幅度计算公式如下：

g (i, j) = \sqrt{{(I (i, j) - I (i - 1, j))}^{2} + {(I (i, j) - I (i, j - 1))}^{2}} - - - (1)

梯度幅度值拉伸后用ValueMapT表示，计算如下：

ValueMapT (i, j) = \frac{g (i, j)}{\max (g)} \times 255 - - - (2)

我们使用如下公式分别来增强暗背景上的亮颜色极文字和亮背景上的暗颜色极文字的边界，计算如下：

L(i，j)＝I(i，j)-μ×ValueMapT(i，j) (3)

D(i，j)＝I(i，j)+μ×ValueMapT(i，j) (4)

其中L代表边界增强后的暗背景亮颜色极文字的图像，D代表边界增强后亮背景暗颜色极文字的图像，μ为系数。

(3)形态滤波增强MSER

我们知道MSER对于边界模糊和复杂背景都很敏感，对于边界模糊的问题我们在上一步骤已通过GAM方法得到很好的解决，对于克服复杂背景和文本与背景对比度低的问题，在本发明中我们使用了高/底帽变换组合的方法来滤除部分背景，并增强文本与背景的对比度。

统计分析显示，英文笔画中多为垂直方向，在中文、日文、朝鲜文中含有基本均等的四个方向(垂直方向、水平方向、左对角方向、右对角方向)笔画密度，但是经过实验分析得知图像左右对角方向的干扰背景比较多，因此本发明仅使用水平和垂直两个方向的高底帽变换的组合来增强文本，从而抑制干扰背景。

两个方向高/底帽滤波分别用Itop0，Itop90，Ibot0，Ibot90表示，综合两个方向高帽变换，用Itop表示：

Itop(i，j)＝max(Itop0(i，j)，Itop90(i，j)) (5)

综合两个方向的底帽变换，用Ibot表示：

Ibot(i，j)＝max(Ibot0(i，j)，Ibot90(i，j)) (6)

亮颜色极文字增强图像由下面公式计算得到，用bEnhanceImg表示：

bEnhanceImg(i，j)＝a×Itop(i，j)-β×Ibot(i，j) (7)

暗颜色极文字增强图像由下面公式计算得到，用dEnhanceImg表示：

dEnhanceImg(i，j)＝α×Ibot(i，j)-β×Itop(i，j) (8)

至此，我们得到了亮颜色极文字增强的图像bEnhanceImg和暗颜色极文字增强的图像dEnhanceImg，然后，先对亮颜色极文字增强图像dEnhanceImg使用MSER区域检测算子得到亮颜色极文本的连通区域，其中，α、β为权重系数。

(4)使用Graph Cuts算法进行文本分割

在上一步中我们通过使用边界增强算法及高底/帽变换的方法显著增强了视频的文本区域，并抑制了部分背景，使得MSER区域检测算法检测到的文本的连通区域图更加清晰了，但是对于有些文字与背景的对比度相对比较小的视频图片来说，在文本区域附近会有部分干扰背景，这部分背景区域有以下几个特点：区域面积比较小，与文字笔画区域大小相近；掺杂在文本区域中，甚至与文本区域相连；并且该类背景区域的纹理、颜色与文本区域相近，用几何和分类算法都很难以去除。

这类背景的存在不仅影响后续定位的精确性，而且会大大降低文本的识别率。我们使用Graph Cuts算法来得到一个最佳分割。

Graph Cuts的能量函数为：

E(f)＝E_data(f)+λE_smooth(f) (9)

E_data代表数据项，E_smooth代表光滑项，λ为调节二者权重系数，f代表像素到标签集的映射。

①数据项选取：

我们使用MSER检测算子检测到区域的亮度均值作为标签集，区域均值的计算分为两种情况：对于亮颜色极文本图像，我们使用MSER区域检测算子检测到的每个连通区域的亮度均值作为每个区域的亮度值，得到亮度均值图像MeanImg，对于暗颜色极图像，首先对亮度图像图像取反，即：

I(i，j)＝255-I(i，j) (10)

对于二值分割，标签集的取值范围为[0，1]，因此，得到区域亮度均值图像MeanImg后，进行归一化处理：

MeanImg (i, j) = \frac{MeanImg (i, j)}{\max (MeanImg)} - - - (11)

在本发明中，没有设定前景(obj)和背景(bkg)种子点用以得到前景和背景的特征从而计算终端项，而是直接利用亮度均值图来定义终端项，即：

E_data(obj)＝MeanImg (12)

E_data(bkg)＝1-MeanImg (13)

其中E_data(Obj)表示前景终端，E_bkj(bkg)表示背景终端。

②平滑项选取

本发明使用色度和亮度信息的欧式距离作为平滑项，对于亮度通道I有：当分割亮颜色极文本时令I＝L，分割暗颜色极文本时令I＝D。Graph Cuts能量函数的光滑项为：

E_{smooth}^{(p, q)} = \exp (- \underset{F &Element; {H, S, I}}{Σ} \frac{{(F_{p} - F_{q})}^{2}}{{2 σ}^{2}}) \cdot \frac{1}{dist (p, q)} - - - (14)

其中dist(p，q)表示像素p，q间的距离，F_p，F_q分别为对应颜色通道值。Graph Cuts算法较为合理将发明中使用的MSER检测算子得到区域均值不显著的像素分为背景，并把原显著性图中漏检的显著目标的一部分重新分为前景。但是，由于Graph Cuts算法的终端项选取并不是那么准确，因此，分割后会有少部分背景被保存下来。

(5)候选文本定位

通过观察发现视频的文字的中心点都在同一水平线上(本发明只考虑水平方向文本)，并且同行字体基本相等，而干扰背景不具备这样规则的特征。但是，由于汉语与韩语等语言中有上下结构的文字，因此，这些语言的文字可能由多个连通域组成，并且连通域的中心点会偏离中心线。本发明首先对亮颜色极文本图像在水平和垂直方向上使用游程平滑算法，得到水平游程平滑图像和垂直游程平滑图像，然后对两幅图像做与运算，得到分割单字符的连通域图，称为游程平滑图像(RLSA)。此时，文本的中心点处于同一水平直线上，而背景中连通区域是随机排列的，利用文本的这个特性去除不在同一水平线上或字体大小不一致的背景连通区域。最后使用多重水平垂直投影得到候选文本区域。

我们知道，文本的字体具有一定的高度，一般文本行中多于三个字符，因此，在本发明中通过限定字体的最小高度和候选文本框的宽高比来去除部分误检文本框。得到亮颜色极候选文本区后，用该文本区先去除暗颜色极文本图像中的干扰背景，然后对暗颜色极文本增强图像做相同的文本分割与定位工作，得到暗颜色极文本候选文本区域，亮颜色极与暗颜色极候选文本区统称为候选文本区。

由于视觉的具有暂留的特点，为了看清视频中的文字，就要让视频中的字幕停留一段时间，因此，相同的一行字幕会在多帧视频图像中出现，而视频的背景是在不断的变换的。根据视频字幕的暂留性和视频背景的动态变化的特点，在本发明中提出了一种简单且有效的多帧为本确认方式，我们以五帧为间隔对视频图像进行采样，对比当前帧与其前面第五帧和后面第五帧中文本检测情况，对于真正的文本框若在前面第五帧中对应的位置没有出现，那么肯定会出现在后面第五帧中；若当前帧候选文本框既没有出现在前面第五帧对应的位置上，也没有出现在后面第五帧对应位置上那么确认该候选文本框为假，丢弃处理。最终，输出正确检出文本区域。

本发明的效果和益处是克服了在本文检测中比较敏感的文本边界模糊、颜色渗透和图像背景与文本对比度低以及背景复杂的技术难题，并且检测结果可以直接用于文字识别。

附图说明

图1是系统框图。

图2(a)是原图中心点位置示意图。

图2(b)是RLSA平滑后图像字符中心点位置示意图。

图3(a)是垂直投影图。

图3(b)是修正后的投影图。

图4是输出候选文本多帧确认的过程示意图。

具体实施方式

步骤一：在本发明的框架中，由于字幕具有暂存特征，因此，无需对每帧图像都做处理，我们每隔五帧取一帧图像进行处理。本发明是基于像素进行处理的，如果图片过大，处理一帧图像时间会比较长，这样实时性会变差，所以在图像处理前首先通过线性内插的方法把视频图像大小转换为448×336。

HSI颜色空间两点的欧氏距离与人的感知程度近似成正比，并且其有个重要的特征：亮度分量与色度分量是分开的，亮度分量I与图像的色彩信息无关，即HSI颜色空间的图像的色度和亮度之间具有相对独立的特征，因此在本发明中首先将RGB彩色图像转换到HSI颜色空间上，利用文本与背景的亮度差异来检测视频文本的显著区域。

步骤二由于视频文本在有损压缩或视频分辨率较低的情况下会出现边界模糊的现象，并且在视频中既含有叠加在暗背景上的亮颜色极文字，又含有叠加在亮背景上的暗颜色极文字，因此，本发明分别利用文本的梯度特征来增强两种颜色极的文本边界(GAM)，梯度图计算见公式(1)、(2)，两种颜色极文本增强图由公式(3)(4)计算得到，其中μ＝0.5，由实验验证得到。

步骤三：利用高底帽变换的组合来分别增强亮颜色极和暗颜色极文字，从而抑制复杂的背景干扰，得到文本形态滤波增强图，文本的形态滤波增强图由公式(5)(6)(7)(8)得到。在得到文本的显著性图以后，对于亮颜色极形态滤波增强图使用MSER算法作为区域检测算子，检测亮颜色极文本区域的显著图。

步骤四：使用Graph Cuts算法得到文本的最佳分割，Graph Cuts的能量函数如公式(9)所示，我们直接利用MSER检测到显著图的亮度均值图来定义终端项，见公式(10)，(11)。在本发明中，我们使用色度信息和亮度信息的欧式距离作为平滑项，这里亮度通道I是经过GAM算法处理过的，即当分割亮颜色极文本时令I＝L，分割暗颜色极文本时令I＝D。Graph Cuts能量函数的光滑项由公式(14)计算的到，通过调节N-Link与T-Link的权重系数λ得到文本的最佳分割。

步骤五：对于英文字符而言，一般只由一个连通区域组成，中心点也基本在一条直线上，但是，对于中文，日文和朝鲜文等文字有一部分字符是上下结构构成的，例如：汉字中的“是”“最”等，对于这类文字有多个连通域组成，相应的会有多个中心点，这样文字的部分偏旁部首的中心点就会偏离文本行的中心，如图2(a)所示。因此，本发明使用游程平滑算法(RLSA)来将这类文字平滑成一个连通区域，如图2(b)所示。然后我们使用下述步骤去除非文本区域。剔除非文本区域的步骤：

step1：标记连通区域，连通区域标签为inds，个数为nm；

step2：对每个连通区域做矩形拟合，计算外接矩形中心点；

step3：Begin for inds＝1：nm

Begin for i＝1：nm

if i！＝inds&&两个区域大小基本相同&&中心点的纵坐标在同一条直线上

step4：输出被剔除干扰背景的图像。

步骤六：由于视频中的字幕多数是水平方向排列的，在本发明中也只考虑水平排列的文本，要想定位文本行的位置，只需知道文本行的上下边界和左右边界的坐标值就能定位文本的位置，因此，我们使用水平和垂直方向投影就能得到文本的上下边界坐标和左右边界的坐标值。水平投影过程的过程如下：

Step1：在水平方向上统计每行白点(值为“1”的点)的个数，得到投影点数直方图；

Step2：找到直方图的峰值h_max；

Step3：对投影点数直方图进行修正，当投影值小于阈值Th，则将该投影值值为“0”，否则设为值“1”，阈值Th＝0.2×h_max；

Step4：对图像进行逐行扫描，若水平投影直方图从“0”向“1”跳变，则该行的行号就是文本行的上边界坐标，记为B_up，然后寻找对应从“1”向“0”跳变点，该点即是文本行的下边界坐标，记为B_bottom；

Step5：文本都具有一定的高度，在这里假设文本最小高度为Min_Font，若B_bottom-B_up＜Min_font，则丢弃，否则进入Step6；

Step6：行坐标为B_up到B_bottom之间的二值图做垂直投影，重复步骤四到步骤六，直到扫描完最后一行为止。

行坐标为B_up到B_bottom之间的二值图的垂直投影如3(a)所示，垂直投影过程如下：

Step1：在垂直方向上统计每一列的白点(值为“1”的点)的个数，得到投影点数直方图，如图3(a)所示。

Step2：找到直方图的峰值V_max。

Step3：对投影点数直方图进行修正，当投影值小于阈值Th，则将该投影值值为“0”，否则设为值“1”，阈值Th＝0.15×V_max。

Step4：对修正后的直方图使用游程平滑算法，若相邻的两个1-游程之间的0-游程的游程长度小于阈值T，则将此0-游程平滑为1-游程，这里T＝2×(B_bottom-B_up)，如图3(b)所示。

Step5：对图像的每一列进行扫描，若垂直投影直方图从“0”向“1”跳变，则该列的列号就是文本行的左边界坐标，记为B_left，然后寻找对应从“1”向“0”跳变点，该点即是文本行的右边界坐标，记为B_right。

Step6：重复Step5，直到扫描完最后一列为止。

通过水平垂直投影输出候选文本框，该候选文本框有两个作用：一是输出候选文本；二是去除暗颜色极图像的干扰背景，如图1所示。使用同样的文本分割与定位方法得到暗颜色极文本的候选文本区。在本发明中还使用了多种启发教育的方法去除误检文本框，这些启发教育条件为：

(1)文本框高度要大于最小字体高度Min_Font；(2)文本框的宽高比大于aspect_ratio。在实验中我们设最小字体高度为5个像素高度，即Min_Font＝5，输出文本框的最小宽高比aspect_ratio＝2.5，得到亮颜色极和暗颜色极候选文本区域的统称为候选文本区。

步骤七：通常情况下，相同的视频字幕行会至少持续出现在25帧图像中，这是由视频文本的暂存性决定的，但是对于视频中的背景来说，大多数情况下，视频中背景的场景、视角、光线的明暗等都是变化的。因此，本发明根据视频文字的暂存性和背景的多变性提出了一个新的应用多帧确认的方法来确认文本区域，从而去除误检文本框。

图4给出了本发明多帧确认的步骤图，在图4(b)中检测到了三个候选文本框，正检文本框(标记为3)如果没有在前面第五帧(图4(a))对应位置上出现，那么必然会在后面第五帧(图4(c))对应位置上出现，对于这样的文本框我们认为是正检文本框，对于误检文本框(标记为1，2)由于背景的变化既没有在前面第五帧对应的位置上出现，也没有在后面第五帧的对应位置上出现，因此认为是误检文本框，丢弃。最终输出结果如图4(d)所示。本发明提出的多帧确认的方法简单，且计算量很小，有效利用了多帧信息去除了误检文本框。

Claims

1.基于形态滤波增强的最稳定极值区视频文本检测方法，其特征包括如下步骤：

（1）图像抽取与色彩空间变换：从视频中每隔五帧取一帧图像，通过线性内插的方法把视频图像大小转换为448×336像素，再将RGB彩色图像转换到HSI颜色空间；

（2）文本边界增强：对亮颜色极文本和暗颜色极文本分别使用梯度幅度图来增强视频文本的边界，梯度幅度图计算如下：

g (i, j) = \sqrt{{(I (i, j) - I (i - 1, j))}^{2} + {(I (i, j) - I (i, j - 1))}^{2}} - - - (1)

梯度幅度值拉伸为0-255，计算如下，拉伸后的值用ValueMapT表示：

ValueMapT (i, j) = \frac{g (i, j)}{\max (g)} \times 255 - - - (2)

对于亮颜色极文本，文本边界增强公式为，边界增强后的图像用L表示：

L(i，j)＝I(i，j)-μ×ValueMapT(i，j)（3）

对于暗颜色极文本，文本边界增强公式为，边界增强后的图像用D表示：

D(i，j)＝I(i，j)+μ×ValueMapT(i，j)（4）

μ为梯度图权重系数。

（3）形态滤波增强MSER：利用水平和垂直两方向高底帽变换的组合来分别增强亮颜色极和暗颜色极文字，抑制复杂的背景干扰，得到文本的显著性图，两个方向高/底帽滤波分别用Itop0，Itop90，Ibot0，Ibot90表示，综合两个方向高帽变换，用Itop表示：

Itop(i，j)＝max(Itop0(i，j)，Itop90(i，j))（5）

综合两个方向的底帽变换，用Ibot表示：

Ibot(i，j)＝max(Ibot0(i，j)，Ibot90(i，j))（6）

bEnhanceImg(i，j)=α×Itop(i，j)-β×Ibot(i，j)（7）

dEnhanceImg(i，j)=α×Ibot(i，j)-β×Itop(i，j)(8)

α，β为权重系数。

使用MSER算法作为区域检测算子，检测亮颜色极文本显著图的连通区域；

(4)使用Graph Cuts算法进行文本分割：

Graph Cuts算法的能量函数如公式(9)所示，E_data数据项，E_smooth为光滑项，λ为光滑项权重系数，f代表像素到标签集的映射：

E(f)＝E_data(f)+λE_smooth(f) (9)

利用SMER检测到的区域亮度均值图来定义终端项，对于暗颜色极的文本检测,首先对亮度图进行取反，即

I(i,j)＝255-I(i，j) (10)

得到区域亮度均值图像MeanImg后,归一化为：

MeanImg (i, j) = \frac{MeanImg (i, j)}{\max (MeanImg)} - - - (11)

终端项为：

E_data(obj)＝MeanImg (10)

E_data(bkg)＝1-MeanImg (11)

Graph Cuts算法的能量函数如公式(9)所示,E_data数据项,为光E_data(Obj)表示前景终端，E_bkj(bkg)表示背景终端。

使用H、S、I三通道的欧氏距离作为光滑项，对于亮度通道有：当分割亮颜色极文本时令I=L，分割暗颜色极文本时令I=D；Graph Cuts能量函数的光滑项为：

E_{smooth}^{(p, q)} = \exp (- \underset{F &Element; {H, S, I}}{Σ} \frac{{(F_{p} - F_{q})}^{2}}{{2 σ}^{2}}) \cdot \frac{1}{dist (p, q)} - - - (12)

其中dist(p，q)表示像素p，q间的距离，F_p，F_q分别为对应颜色通道值。通过增加Graph Cuts算法的平滑项权重系数，增强像素间的关系，将使用的MSER检测算子得到区域均值不显著的像素分为背景，并把原显著性图中漏检的显著目标的一部分重新分为前景；

（5）文本定位：使用游程平滑算法（RLSA）将文本视频字幕中的上下结构的字符平滑成为一个连通区域，通过文本排列的几何特征：视频文本的中心点排列在同一条水平直线上，去除干扰背景区域；使用水平和垂直投影定位文本区域，通过限制最小字体和文本框的宽高比去除误检文本区域，并利用视频字幕的多帧信息确定候选文本区域，去除误检。