CN102542268A

CN102542268A - 用于视频中文本区域检测与定位的方法

Info

Publication number: CN102542268A
Application number: CN2011104518266A
Authority: CN
Inventors: 刘成林; 白博; 殷飞
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Beijing Zhongke Yueshen Technology Co Ltd
Priority date: 2011-12-29
Filing date: 2011-12-29
Publication date: 2012-07-04
Anticipated expiration: 2031-12-29
Also published as: CN102542268B

Abstract

一种用于视频中文本区域检测与定位的方法，其特征在于，包含如下步骤：输入视频，按等时间间隔对输入视频进行采样；对采样得到的图像进行边缘检测；利用检测后得到的图像生成文本置信度图；根据生成的文本置信度图提取文本候选区域；对文本候选区域近似相同的多帧图像的文本候选区域进行融合；对融合后的文本区域图像进行分行。本发明的文本检测与定位方法能够实时地对视频中出现的多语言文本进行准确定位。可以适用于视频内容编辑、索引与检索等多种用途。

Description

用于视频中文本区域检测与定位的方法

技术领域

本发明属于模式识别与计算机视觉领域，特别是涉及一种用于视频中文本区域检测与定位方法。

背景技术

如今，视频作为一种最为流行的媒体形式，通过电视台、网络广泛地传播。为了使用户更方便、快捷的寻找到感兴趣的视频内容，视频检索与分类逐渐成为模式识别与计算机视觉领域研究的焦点。在这其中，视频中的文本信息，特别是字幕信息对于视频的检索以及分类效果最为显著。这是因为：(1)视频中的文本信息与视频的当前内容紧密相关；(2)视频中的字符有非常明显的视觉特征，便于提取；(3)字符识别(OCR)技术较目前的语音识别技术和图像分类技术更为准确、成熟。

视频中的文本识别过程包括三个主要步骤：(1)文本检测与定位，(2)文本提取，(3)字符识别。其中，步骤(1)文本检测与定位所得结果的优劣，直接影响到后面文本提取与字符识别的精度。针对步骤(1)涌现出了很多方法：如中国知识产权局2005年8月24日公开的公开号为1658227的专利(“检测视频文本的方法和装置”)主要根据帧间图像变化检测文本区域。然而，在现有的方法中，文字多变的字体、颜色、大小，复杂的背景与光照，中英文混合等，仍然是没有解决的难题。传统的方法很多都是针对单一语言、通过假设文本区域特定背景来部分地解决问题。然而在视频内容快速发展的今天，这些方法已经不能满足人们的需要。

针对上述未解决的技术问题，本发明提出了一种鲁棒高效的用于视频中文本区域检测与定位的方法。

发明内容

本发明的目的是为了克服视频中文本区域中字符的字体、颜色、大小的多变性，语言的多样性，以及背景区域的高度复杂性，从而提出一种鲁棒的对视频中的文本进行快速检测和定位的方法。

本发明提出的一种用于视频中文本区域检测与定位方法采用的技术方案为：步骤S1：输入视频，按等时间间隔对输入视频进行采样；步骤S2：对采样得到的图像进行边缘检测；步骤S3：生成文本置信度图；步骤S4：根据得到的文本置信度图提取文本候选区域；步骤S5：对文本候选区域近似相同的多帧图像的文本候选区域进行融合；步骤S6：对融合后的文本区域图像进行分行。

本发明还提出一种用于视频中文本区域检测与定位的系统，该系统包括：视频输入模块，用于获取视频图像；文本置信度生成模块，对采样得到的图像进行边缘检测，利用检测后得到的图像生成文本置信度图；文本候选区域生成模块，根据生成的文本置信度图提取文本候选区域；融合分行模块，对文本候选区域近似相同的多帧图像的文本候选区域进行融合，并对融合后的文本区域图像进行分行。

本发明提出的视频中文本检测和定位方法的有益效果为：能够对视频中出现的不同字体、颜色、大小的文本进行定位；能够同时对视频中出现的中文、英文进行定位；能够克服视频中复杂的背景；本发明通过对文本候选区域近似相同的多帧图像进行融合，得到对比度较高、背景相对单一的文本区域图像；本发明提出的方法对视频中文本的检测和定位速度快，能够做到实时处理。

本发明的文本检测与定位方法能够实时地对视频中出现的多语言文本进行准确定位。可以适用于视频内容编辑、索引与检索等多种用途。

附图说明

图1为本发明的视频中文本检测与定位方法流程图；

图2为本发明中对边缘点进行8方向分类的示意图；

图3为本发明中生成文本置信度图的流程图；

图4为本发明中对得到的文本置信度图进行文本候选区域提取的流程图。

图5为本发明的视频中文本检测与定位方法的实现原理图；

图6为本发明中生成文本候选区域的图像示例；

图7为本发明中多帧融合和文本区域分行的图像示例。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明视频中文本检测与定位方法的原理主要是：：对输入视频进行采样，对采样所得到的视频图像进行边缘检测，利用检测后得到的图像生成文本置信度图，从生成的文本置信度图中提取到文本候选区域，对文本候选区域近似相同的多帧图像的文本候选区域进行融合，得到最终的文本区域，并根据水平和垂直投影对文本区域进行分行。

图1为本发明的视频中文本检测与定位方法流程图。

参照图1，在步骤S1输入视频，按等时间间隔对输入视频进行采样，其中每隔3帧抽取一帧图像进行处理。

在步骤S2对采样得到的图像进行边缘检测。步骤S2进一步包括步骤S21和S22。

在步骤S21，将输入的图像转化为灰度图，具体过程是：设输入图像中的每一个像素点的R、G、B值分别为r、g、b，则变换后的灰度图中该像素点的灰度值为gray＝0.299×r+0.587×g+0.114×b。

在步骤S22，计算灰度图像每个像素点的边缘强度和方向，具体为利用Sobel梯度算子计算每个像素点水平和竖直方向的边缘强度dx、dy，则每个像素点的边缘强度为：

将r(x，y)线性变换到0到255之间，当r(x，y)＞0时，记该点为边缘点。参照图2，将得到的边缘点按梯度方向分为8类，用θ，λ这两个参数来表示，其中θ表示四个基本方向(θ∈{0，45，90，135})，λ表示每个基本方向中的极性(λ∈{+1，-1})。

在步骤S3生成文本置信度图。参照图3，利用边缘图像，生成文本置信度图的具体过程包括如下步骤：

步骤S31：以每个像素点的位置(x₀，y₀)为中心，取宽w＝15、高h＝15的矩形邻域δ，计算该邻域内的平均边缘强度D(x₀，y₀)作为该中心点的边缘强度，计算公式为：

D (x_{0}, y_{0}, δ) = \frac{1}{w \times h} Σ_{x = - (w - 1) / 2}^{(w - 1) / 2} Σ_{y = - (h - 1) / 2}^{(h - 1) / 2} r (x_{0} + x, y_{0} + y);

步骤S32：计算图像中每一点周围边缘的方向多样性，具体为：以每个像素点的位置(x₀，y₀)为中心，取宽w＝15、高h＝15的矩形邻域δ，计算该邻域内边缘点方向的多样性，即：四个基本方向边缘点的数目的平衡惩罚因子f_EOV。计算公式为：

f_{EOV} (x_{0}, y_{0}, δ) = - \underset{θ}{Σ} {(\frac{4 \underset{λ}{Σ} n (x_{0}, y_{0}, θ, λ, δ) - N (x_{0}, y_{0}, δ)}{3 N (x_{0}, y_{0}, δ)})}^{2},

其中n(x₀，y₀，θ，λ，δ)表示点(x₀，y₀)的邻域δ内方向为(θ，λ)的边缘点数。N(x₀，y₀，δ)为点(x₀，y₀)的邻域δ内的所有边缘点数；

步骤S33：计算图像中每一点周围极性相反的边缘点对含量，具体为：以每个像素点的位置(x₀，y₀)为中心，取宽w＝15、高h＝15的矩形邻域δ，计算该邻域内每个基本方向内极性相反的边缘点对含量f_OEP，计算公式为即各个基本方向上极性相反的边缘点对惩罚因子f_oep的和，其中单一方向的边缘点对惩罚因子f_oep计算公式为：

其中为点(x₀，y₀)的邻域δ内方向为θ的边缘点中，两个极性边缘点数的差，计算公式为：φ(x₀，y₀，θ，δ)为的邻域δ内方向为θ的边缘点数和，计算公式为：φ(x₀，y₀，θ，δ)＝n(x₀，y₀，θ，+1，δ)+n(x₀，y₀，θ，-1，δ)，当分母为0时(即该基本方向上没有边缘)，惩罚因子为t₃＝-2；

在步骤S34对综合S31，S32，S33的结果进行综合处理，计算图像中每个像素点的文本置信度TC(x，y，δ)，计算公式为：

TC(x，y，δ)＝D(x，y，δ)exp[f_EOV(x，y，δ)+f_OEP(x，y，δ)]；

在步骤S35将得到的每一点的文本置信度线性归一化到[0，255]，得到最终的文本置信度图。

生成文本置信度图后，在步骤S4，根据得到的文本置信度图提取文本候选区域。参照图4，根据得到的文本置信度图，提取文本候选区域的具体过程包括如下步骤：

步骤S41：对文本置信度图进行二值化，具体为利用大津法(Otsu)对得到的文本置信度图进行二值化，置信度较高的区域为前景，得到二值图像；

步骤S42：对得到的二值图像提取连通部件，计算每个连通部件外接矩形的宽text_box_width，高text_box_height，去掉满足下面条件之一的连通部件(视为噪声)：

(1)min(text_box_width，text_box_height)＜15，

(2)max(text_box_width，text_box_height)＜40；

剩下的连通部件即构成文本候选区域。

提取到候选文本区域后，在步骤S5，对候选文本区域近似相同的多帧图像的文本候选区域进行融合。如果两帧图像的文本候选区域的面积重叠率大于0.9且文本内容相似度大于0.8，即认为文本候选区域近似相同；文本候选区域面积重叠率R_overlap计算公式为：

其中S1和S2分别表示两帧图像的文本候选区域面积；文本内容相似度R_caption计算公式为：

R_{caption} = 1 - \frac{1}{w \times h} Σ_{x = 0}^{w} Σ_{y = 0}^{h} | {Edge}_{1} (x, y) - {Edge}_{2} (x, y) |,

其中Edge₁(x，y)和Edge₂(x，y)表示两帧图像中对应文本候选区域的边缘图(二值图像，边缘点为1，非边缘点为0)，w、h为重叠区域外接矩形的宽、高；如果从视频的第i帧开始，一直到第j帧结束的j-i+1帧图像均含有近似相同的文本候选区域，而第i-1帧和j+1帧图像所含的文本候选区域不同或不包含文本区域，则由第i帧到第j帧图像的文本候选区域构成一个文本序列，其中第i帧为该文本序列的起始帧，第j帧为该文本序列的终止帧，j-i+1为该文本序列的持续时间，第i帧中文本候选区域的位置和内容，为该文本序列的位置和内容。

对文本候选区域近似相同的多帧图像文本候选区域进行融合的具体过程进一步包括步骤S51和S52。

在步骤S51，寻找文本序列的起始帧，具体过程为：对于在第i帧视频图像中检测到的文本候选区域S1，如果在第i-1帧中S1对应的位置没有检测到文本候选区域，或者检测到的文本候选区域S2与S1的面积重叠率小于0.9或者内容相似度小于0.8，则第i帧被认定为一个文本序列的起始帧；

在步骤S52，寻找文本序列的终止帧，具体过程为：设第i帧为文本序列T的起始帧，第j帧中属于文本序列T的文本候选区域为S2，如果在第j+1帧中S2对应的位置没有检测到文本候选区域，或者检测到的文本候选区域S3与S2的面积重叠率小于0.9或者内容相似度小于0.8，则第j帧被认定为该文本序列T的终止帧；

在步骤S53，计算文本序列的持续时间，删除噪声。具体过程为：如果文本序列T的持续帧数过少，即无法在连续3个抽样帧中检测到该文本，则该文本序列被判定为噪声(由于每3帧抽样一次，所以当一个文本序列持续帧数t＜7时，一定被判定为噪声，t＞8时，一定被判定为真实文本序列，7≤t≤8时的判定结果依赖于起始帧是否在帧采样中被采集到)，删除该文本序列并返回步骤S51继续寻找其他文本序列；否则进行步骤S54；

在步骤S54，对文本序列进行融合。具体为：设文本序列T的持续时间为t，T中包含的每个采样帧的文本候选区域为region_i，融合后得到的结果为region，由于各region_i不是完全重叠，因此region面积的大小为所有region_i的并集，即region中每一个点(x，y)在整个文本序列中对应文本候选区域的数量t(x，y)满足：1≤t(x，y)≤t，因此region中每一个点(x，y)的灰度值gray(x，y)的计算公式为

其中gray_i(x，y)为region中点(x，y)对应的第i个文本候选区域中对应像素点的灰度值。

对文本候选区域近似相同的多帧图像文本候选区域进行融合后，在步骤S6，对融合后的文本区域图像进行分行，得到最终的单行文本，分行步骤进一步包括步骤S61到S65。

在步骤S61，对融合后得到的图像用Sobel梯度算子进行边缘提取，得到二值的边缘图像(边缘点为1，非边缘点为0)。

在步骤S62，判断文字排列方向，如排列方向为竖直方向，需要将图像旋转，具体为：设融合后图像的宽为w、高为h，当h＞w时，说明该文本区域的文字为竖直排列，需要将该文本区域顺指针旋转90°，变成水平排列的文本区域进行后续处理。

在步骤S63，对得到的边缘图像进行水平投影，即分别统计每一个像素行中的边缘点数n_i。

在步骤S64，对每一像素行的边缘点数n_i进行平滑，得到平滑后每一像素行最终的边缘点数N_i，计算公式为：

在步骤S65，根据每一像素行的最终边缘点数N_i对图像进行文本行分割，得到一个或多个文本行图像，具体为：从第一像素行开始，从上到下逐行进行扫描，当满足N_i＞t₄并且N_i-1＜t₄时，第i像素行为一个文本行的起始行；当满足N_i＞t₄并且N_i+1＜t₄或者第i像素行为图像最后一行时，第i像素行为一个文本行的终止行；其中t₄为阈值，计算公式为：

h为图像高度。

图5为本发明用于视频中文本区域检测与定位的系统结构图。参照图5，该系统包括：视频输入模块101，用于获取视频图像。视频解码转换模块102，用于对视频文件进行解码，得到每一帧的图像。帧采样模块103，每隔3帧抽取一帧图像用于后续处理。文本置信度生成模块104，对图像进行边缘提取，利用边缘密度、边缘多样性和极性相反的边缘点对含量生成文本置信度图。文本候选区域生成模块105，对文本置信度图进行二值化，通过连通部件提取和噪声去除，得到文本候选区域。融合分行模块106，对检测到的文本候选区域进行融合，得到背景比较简单的文本区域图像，再利用其边缘图像水平、竖直方向的投影，对融合后的文本区域图像进行分行，得到单行文本图像。

其中文本置信度生成模块104、文本候选区域生成模块105以及文本区域融合分行模块106是该系统中的主要模块，其他模块均为辅助的输入/输出或控制模块。

图6为本发明中生成文本候选区域的图像示例。图7为本发明中多帧融合和文本区域分行的图像示例。

本发明的具体实施效果如图6至图7所示。

参照图6，从上到下，从左到右依次为：原始图像、边缘图像、文本置信度图(经Otsu二值化后)，文本候选区域。

参照图7，从上到下，前三幅为一个文本序列中的三幅文本候选区域图像，第四幅为他们的融合结果，第五幅为在融合的文本区域图像上的分行结果。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于视频中文本区域检测与定位的方法，其特征在于，该方法包含步骤：

步骤S1，输入视频，按等时间间隔对输入视频进行采样；

步骤S2，对采样得到的图像进行边缘检测；

步骤S3，利用检测后得到的图像生成文本置信度图；

步骤S4，根据生成的文本置信度图提取文本候选区域；

步骤S5，对文本候选区域近似相同的多帧图像的文本候选区域进行融合；

步骤S6，对融合后的文本区域图像进行分行。

2.根据权利要求1所述的用于视频中文本区域检测与定位的方法，其特征在于，所述步骤S2包括：

步骤S21，将抽取的图像转化为灰度图；

步骤S22，计算灰度图像每个像素点的边缘强度和方向，根据边缘强度确定该像素点是否为边缘点。

3.根据权利要求2所述的用于视频中文本区域检测与定位的方法，其特征在于，

步骤S21进一步包括：将抽取的图像中的每一个像素点的R、G、B值分别设为r、g、b，则变换后的灰度图中的该像素点的灰度值为gray＝0.299×r+0.587×g+0.114×b；

步骤S22进一步包括：利用Sobel梯度算子计算每个像素点水平和竖直方向的边缘强度dx、dy，则每个像素点的边缘强度

将r(x，y)线性变换到0到255之间，当r＞0时，记该点为边缘点。

4.根据权利要求3所述的用于视频中文本区域检测与定位的方法，其特征在于，步骤S22进一步包括：将得到的边缘点按方向分为八类，用参数θ，λ来表示，其中θ表示四个基本方向，θ∈{0，45，90，135}，0表示水平、45表示右上到左下、90表示竖直、135表示左上到右下，λ表示每个基本方向的极性，λ∈{+1，-1}，+1表示一个基本方向中向上或向左的方向，-1表示一个基本方向中向下或者向右的方向。

5.根据权利要求1所述的用于视频中文本区域检测与定位的方法，其特征在于，所述步骤S3包括：

步骤S31，计算采样得到的图像中的每一像素点的边缘强度；步骤S32，计算该图像中每一像素点周围边缘的方向多样性；

步骤S33，计算图像中每一像素点周围极性相反的边缘点对含量；

步骤S34，基于步骤S31，S23，S33的结果，计算图像中每个像素点的文本置信度；

步骤S35，将得到的每一点的文本置信度线性归一化到[0，255]，得到最终的文本置信度图。

6.根据权利要求5所述的用于视频中文本区域检测与定位的方法，其特征在于，

步骤S31包括：以每个像素点的位置(x₀，y₀)为中心取宽w、高h的矩形邻域δ，计算该邻域内的平均边缘强度D(x₀，y₀)作为该中心点的边缘强度，计算公式为：

D (x_{0}, y_{0}, δ) = \frac{1}{w \times h} Σ_{x = - (w - 1) / 2}^{(w - 1) / 2} Σ_{y = - (h - 1) / 2}^{(h - 1) / 2} r (x_{0} + x, y_{0} + y);

步骤S32包括：以每个像素点的位置(x₀，y₀)为中心，取宽w、高h的矩形邻域δ，计算该邻域内边缘点方向的多样性，即，四个基本方向边缘点的数目的平衡惩罚因子f_EOV，计算公式为：

f_{EOV} (x_{0}, y_{0}, δ) = - \underset{θ}{Σ} {(\frac{4 \underset{λ}{Σ} n (x_{0}, y_{0}, θ, λ, δ) - N (x_{0}, y_{0}, δ)}{3 N (x_{0}, y_{0}, δ)})}^{2},

其中n(x₀，y₀，θ，λ，δ)表示点(x₀，y₀)的邻域δ内方向为(θ，λ)的边缘点数，N(x₀，y₀，δ)为点(x₀，y₀)的邻域δ内的所有边缘点数；

步骤S33包括：以每个像素点的位置(x₀，y₀)为中心，取宽w、高h的矩形邻域δ，计算该邻域内每个基本方向内极性相反的边缘点对含量f_OEP，计算公式为

即各个基本方向上极性相反的边缘点对惩罚因子f_oep的和，其中单一方向的边缘点对惩罚因子f_oep计算公式为：

其中

为点(x₀，y₀)的邻域δ内方向为θ的边缘点中两个极性边缘点数的差，计算公式为：

φ(x₀，y₀，θ，δ)为的邻域δ内方向为θ的边缘点数和，计算公式为：φ(x₀，y₀，θ，δ)＝n(x₀，y₀，θ，+1，δ)+n(x₀，y₀，θ，-1，δ)，当分母为0时，即该基本方向上没有边缘，惩罚因子为t₃＝-2；

步骤S34包括：计算图像中每个像素点的文本置信度TC(x，y，δ)，计算公式为：

TC(x，y，δ)＝D(x，y，δ)exp[f_EOV(x，y，δ)+f_OEP(x，y，δ)]；

7.根据权利要求1所述的用于视频中文本区域检测与定位的方法，其特征在于，步骤S4包括：

步骤S41，利用大津法(Otsu)对得到的文本置信度图进行二值化；

步骤S42，对得到的二值图像，进行连通部件提取，计算每个连通部件外接矩形的宽text_box_width，高text_box_height，去掉满足下面条件之一的连通部件：

(1)min(text_box_width，text_box_height)＜15，

(2)max(text_box_width，text_box_height)＜40。

8.根据权利要求1所述的用于视频中文本区域检测与定位的方法，其特征在于，步骤S5包括：

步骤S50，如果两帧图像的文本候选区域的面积重叠率大于0.9且文本内容相似度大于0.8，即认为文本候选区域近似相同，文本候选区域面积重叠率R_overlap计算公式为：

其中S1和S2分别表示两帧图像的文本候选区域面积，文本内容相似度R_caption计算公式为：

R_{caption} = 1 - \frac{1}{w \times h} Σ_{x = 0}^{w} Σ_{y = 0}^{h} | {Edge}_{1} (x, y) - {Edge}_{2} (x, y) |,

其中Edge₁(x，y)和Edge₂(x，y)表示两帧图像中对应文本候选区域的边缘图，该边缘图为二值图像，边缘点为1，非边缘点为0，w、h为重叠区域外接矩形的宽、高，如果从视频的第i帧开始，一直到第j帧结束的j-i+1帧图像均含有近似相同的文本候选区域，而第i-1帧和j+1帧图像所含的文本候选区域不同或不包含文本区域，则由第i帧到第j帧图像的文本候选区域构成一个文本序列，其中第i帧为该文本序列的起始帧，第j帧为该文本序列的终止帧，j-i+1为该文本序列的持续时间，第i帧中文本候选区域的位置和内容，为该文本序列的位置和内容；

步骤S51，寻找文本序列的起始帧，对于在第i帧视频图像中检测到的文本候选区域S1，如果在第i-1帧中S1对应的位置没有检测到文本候选区域，或者检测到的文本候选区域S2与S1的面积重叠率小于0.9或者内容相似度小于0.8，则第i帧被认定为一个文本序列的起始帧；

步骤S52，寻找文本序列的终止帧，设第i帧为文本序列T的起始帧，第j帧中属于文本序列T的文本候选区域为S2，如果在第j+1帧中S2对应的位置没有检测到文本候选区域，或者检测到的文本候选区域S3与S2的面积重叠率小于0.9或者内容相似度小于0.8，则第j帧被认定为该文本序列T的终止帧；

步骤S53：计算文本序列的持续时间，删除噪声。具体过程为：如果文本序列T的持续帧数过少，即无法在连续3个抽样帧中检测到该文本，则该文本序列被判定为噪声(由于每3帧抽样一次，所以当一个文本序列持续帧数t＜7时，一定被判定为噪声，t＞8时，一定被判定为真实文本序列，7≤t≤8时的判定结果依赖于起始帧是否在帧采样中被采集到)，删除该文本序列并返回步骤S51继续寻找其他文本序列，否则进行步骤S54；

步骤S54，对文本序列进行融合，设文本序列T的持续时间为t，T中包含的每个采样帧的文本候选区域为region_i，融合后得到的结果为region，由于各region_i不是完全重叠，因此region面积的大小为所有region_i的并集，即region中每一个点(x，y)在整个文本序列中对应文本候选区域的数量t(x，y)满足：1≤t(x，y)≤t，因此region中每一个点(x，y)的灰度值gray(x，y)的计算公式为

9.根据权利要求1所述的用于视频中文本区域检测与定位的方法，其特征在于，步骤S6包括：

步骤S61，对融合后得到的图像用Sobel梯度算子进行边缘提取，得到二值的边缘图像，边缘点为1，非边缘点为0；

步骤S62，判断文字排列方向，如排列方向为竖直方向，需要将图像旋转；

步骤S63，对旋转后的图像进行水平投影，即分别统计每一个像素行中的边缘点数n_i；

步骤S64，对每一像素行的边缘点数n_i进行平滑，得到平滑后每一像素行最终的边缘点数N_i，计算公式为：

步骤S65：根据每一像素行的最终边缘点数N_i对图像进行文本行分割，得到一个或多个文本行图像，从第一像素行开始，从上到下逐行进行扫描，当满足N_i＞t₄并且N_i-1＜t₄时，第i像素行为一个文本行的起始行；当满足N_i＞t₄并且N_i+1＜t₄或者第i像素行为图像最后一行时，第i像素行为一个文本行的终止行，其中t₄为阈值，计算公式为：

h为图像高度。

10.一种视频中文本区域检测与定位的系统，该系统包括：

视频输入模块，用于获取视频图像；

文本置信度生成模块，对采样得到的图像进行边缘检测，利用检测后得到的图像生成文本置信度图；

文本候选区域生成模块，根据生成的文本置信度图提取文本候选区域；

融合分行模块，对文本候选区域近似相同的多帧图像的文本候选区域进行融合，并对融合后的文本区域图像进行分行。