CN101615255B

CN101615255B - 一种视频文字多帧融合的方法

Info

Publication number: CN101615255B
Application number: CN2009100888750A
Authority: CN
Inventors: 易剑; 彭宇新; 肖建国
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2009-07-21
Filing date: 2009-07-21
Publication date: 2012-03-21
Anticipated expiration: 2029-07-21
Also published as: CN101615255A

Abstract

本发明公开了一种视频文字多帧融合的方法，用于对出现在多个连续视频帧的相同文字区域进行融合，包括如下步骤：1)在连续视频帧的文字区域检测结果中识别文字区域组，所述文字区域组指包含相同内容的多个文字区域；2)对步骤1)中得到的文字区域组进行过滤，去除会对融合结果造成负面影响的模糊的文字区域；3)对步骤2)中过滤后的文字区域组进行融合，得到融合结果。使用本发明的方法避免了模糊文字区域对于融合结果的影响；能够高效准确地检测连续视频帧中包含相同内容的多个文字区域；能够在简化背景的同时，得到较高的对比度和清晰的文字融合结果。

Description

一种视频文字多帧融合的方法

技术领域

本发明属于视频内容分析和检索技术领域，具体涉及一种视频文字多帧融合的方法。

背景技术

随着互联网技术与多媒体技术的迅速发展，网络上出现了海量的视频内容；由于业务的需要，电视台等媒体单位积累了大量的视频资料；远程教学，视频点播，数字图书馆等多媒体技术的广泛应用，也产生了大量的视频。面对如此海量视频信息，如何对之进行索引，使用户能够迅速检索到想要的内容，成为了一个急待解决的问题。传统的方法基于人工标注的关键词进行检索，这种方法因为主观性强，手工标注等缺点，不能适用于海量视频内容的分析与检索，因此，基于内容的视频检索技术成为了研究的热点。在现有的相关研究中，大量视频包含了丰富的文字信息，这些文字信息一般同视频的内容密切相关，能够对之进行较为准确的描述，如果能够正确识别这些文字，必将大大有利于视频检索技术的发展。

现有的视频文字识别方法主要是基于单帧的，这些方法把视频看作是相互独立的视频帧序列，在各个视频帧中分别提取和识别文字。然而，视频中的文字一般会持续出现于多个连续的视频帧中，存在着冗余的信息，对这些冗余的文字信息进行融合，可以达到平滑文字背景，提高文字对比度和获取清晰文字笔画的目的，从而大大提高文字提取与识别的准确率。因此，近年来，一些研究者提出了多帧融合的方法，对出现在多个连续视频帧中，包含相同内容的文字区域进行融合。

把出现在连续视频帧中，包含相同文字的多个文字区域称为一个文字区域组，现有的多帧融合方法主要解决两个问题：即文字区域组的识别，和文字区域组的融合。在现有关于文字区域组识别的研究中，有的方法采用了图像匹配的方法在相邻的视频帧中搜索包含相同文字的区域，这种方法较为准确，但复杂度较高；其它一些方法简单地认为在相邻视频帧的同一位置上检测到的文字区域包含了相同的文字，这种方法效率较高，但其准确度较差，当不同的文字在相邻视频帧中出现的时候，容易发生错误。在关于文字组融合的研究中，现有方法有的采用了平均融合，这种方法能够对简化复杂的背景，但不能提高文字与背景的对比度；有的方法采用了最小值融合，这种方法可以提高文字与背景的对比度，但容易受到噪声的影响，产生含有模糊文字的融合结果。这些方法都不能同时取得简单的背景，较高的对比度以及清晰的文字。此外，现有多帧融合方法的另一个不足之处在于，这些方法都没有考虑融合过程中模糊文字对于融合结果的影响，而这些模糊的文字会对多帧融合的结果产生较大影响，使得融合得到的文字模糊不清，从而导致较差的文字提取与识别结果。

2002年在IEEE International Conference on Image Processing上发表的文献“A comprehensive method for multilingual video text detection，localization，andextraction”(作者是Xian-Sheng Hua，Pei Yin和Hong-Jiang Zhang)，提出了一种视频文字多帧融合的方法。

该文献认为，相同文字在连续视频帧中持续出现，并处于同样的位置，因此首先根据文字区域的位置信息来识别具有相同内容的多个文字区域；然后根据文字区域内是否包含一定数量的低灰度值像素，来判断文字区域是否具有较高的对比度，并舍弃那些对比度较低的文字区域；最后对具有较高对比度的文字区域进行融合，得到融合结果。经过该方法的处理，能够得到文字笔画更为清晰的文字区域，从而有效改进了文字提取与识别的结果。然而，这种方法具有如下不足：当含有不同内容的文字区域在连续视频帧中处于相近位置时，容易把它们错误判断为含有相同的文字；同时，该方法也没有考虑模糊的文字区域对于融合结果的影响，对于图像质量比较差的视频，融合结果较差，因此，该方法还需要得到改进。

发明内容

针对现有方法的不足，本发明提出了一种视频文字多帧融合的方法，用于对出现在连续视频帧中，包含相同内容的多个文字区域进行融合。

本发明的技术方案如下：

一种视频文字多帧融合的方法，用于对出现在多个连续视频帧中，包含相同内容的文字区域进行融合，包括如下步骤：

1)在连续视频帧的文字区域检测结果中识别文字区域组，所述文字区域组指包含相同内容的多个文字区域；

2)对步骤1)中得到的文字区域组进行过滤，去除会对融合结果造成负面影响的模糊文字区域；

3)对步骤2)中过滤后的文字区域组进行融合，得到融合结果。

进一步，上述的一种视频文字多帧融合的方法，所述步骤1)中，按照如下方法识别文字区域组：维护一个缓冲区T_buffer，初始情况下，T_buffer为空；按照时间顺序对视频帧进行处理，设f_curr为当前正在处理的视频帧，T_curr为在f_curr中检测到的文字区域集合，t_curr为T_curr中的任一文字区域，把t_curr同T_buffer中的所有文字区域进行比较，如果t_curr同T_buffer中的任一文字区域t_buffer包含相同的内容，则把t_curr加入t_buffer所属的文字区域组，如果t_curr和T_buffer中的所有文字区域都不含相同的内容，则把t_curr放入T_buffer中，并把t_curr看作是一个新文字区域组的开始；检查T_buffer中的任一文字区域t_buffer，若t_buffer既不是在当前帧f_curr中新检测到的文字区域，也不和T_curr中的任何文字区域包含相同内容，则认为t_buffer是其所属文字区域组的结束，并把t_buffer移出T_buffer。

进一步，上述的一种视频文字多帧融合的方法，所述识别文字区域组时，判断两个文字区域包含相同内容的方法是，两个文字区域同时满足如下三个条件：

条件一：两个文字区域在连续视频帧中处于相近的位置；

条件二：两个文字区域包含相似的边缘分布；

条件三：两个文字区域包含相近的对比度。

若两个文字区域同时满足上述三个条件，则认为它们包含相同的内容。

进一步，上述的一种视频文字多帧融合的方法，所述识别文字区域组时，判断两个文字区域t_a和t_b满足上述三个条件的具体方法是，t_a和t_b同时满足以下三个公式：

公式一：Overlap(t_a，t_b)＞r₁×Min(area(t_a)，area(t_b))

Overlap(t_a，t_b)表示文字区域t_a与t_b在不同视频帧中位置上重叠的部分，r₁是取值范围为0到1的一个常数，Min(area(t_a)，area(t_b))是t_a和t_b中较小文字区域的面积，该公式表示，若t_a与t_b有足够大的重叠面积，则认为文字区域t_a与t_b在不同视频帧中处于相近的位置；

公式二：NoneZero(E_a，E_b)＞r₂×Overlap(t_a，t_b)

E_a与E_b分别是t_a和t_b的边缘图，NoneZero(E_a，E_b)是在E_a与E_b中边缘强度值都不为0的像素集合，NoneZero(E_a，E_b)＝{p|E_a(p)＞0 & E_b(p)＞0}，NoneZero(E_a，E_b)用来衡量E_a与E_b中边缘分布的情况，r₂是取值范围0到1之间的一个常数，该公式表示，当NoneZero(E_a，E_b)中包含的像素个数大于r₂与Overlap(t_a，t_b)的乘积时，认为t_a与t_b具有类似的边缘分布；

公式三：EdgeIDiff(t_a，t_b)＜D_MAX×Overlap(t_a，t_b)

D_MAX是一个预先定义的阈值，是取值范围0到255之间的一个常数，EdgeDiff(t_a，t_b)是边缘图E_a与E_b中位置相同的边缘点强度值之差的累加和，即EdgeIDiff(t_a，t_b)＝Sum(|E_a(p)-E_b(p)|)，该公式表示，当EdgeDiff(t_a，t_b)的值小于D_MAX与Overlap(t_a，t_b)的乘积时，认为t_a与t_b对比度差异不大，它们具有相似的对比度。

进一步，上述的一种视频文字多帧融合的方法，所述步骤2)中，对文字区域组进行过滤时，首先计算得到文字区域组内任一文字区域t_i的文字笔画强度图TIMap_i，1≤i≤M，然后把TIMap_i分成两个部分：文字部分TIMap_i ^text和背景部分TIMap_i ^back，并在文字部分TIMap_i ^text上计算t_i的文字笔画清晰程度TextClarity_i，TextClarity_i越高，表示文字越清晰，反之文字越模糊，过滤时，去除那些TextClarity_i值较小的模糊文字区域；这样，设过滤之前，文字区域组中包含M个文字区域，记为t₁，t₂，...t_M；过滤后，文字区域组就只剩下M′个TextClarity_i值较大的文字区域，记为t′₁，t′₂，...t′_M′。

进一步，上述的一种视频文字多帧融合的方法，所述对文字区域组进行过滤时，文字笔画强度图由公式四计算得到：

公式四：

{TIMap}_{i} = Max ({TInt}_{i}^{H}, {TInt}_{i}^{V}, {TInt}_{i}^{LD}, {TInt}_{i}^{RD})

在公式四中，TInt_i ^H，TInt_i ^V，TInt_i ^LD和TInt_i ^RD分别表示用水平、垂直，左对角线，和右对角线四个方向上的文字笔画强度检测算子在原图t_i上进行卷积得到的文字笔画强度图。

进一步，上述的一种视频文字多帧融合的方法，按照公式五、六将文字笔画强度图TIMap_i ^text分成文字部分和背景部分：

公式五：

{TIMap}_{i}^{text} = {p | t_{Avg} (p) > H_{otsu}}

公式六：

{TIMap}_{i}^{back} = {p | t_{Avg} (p) \leq H_{otsu}}

其中，t_Avg是对文字区域组中的文字区域t₁，t₂，...t_M进行平均得到的图像，H_otsu是在t_Avg中用OTSU方法求得的局部阈值，p是TIMap_i中的一个像素，t_Avg(p)是该像素在t_Avg中相应位置的强度值，如果t_Avg(p)大于H_otsu，则认为该p属于文字部分TIMap_i ^text，否则属于背景部分TIMap_i ^back，这是因为在视频中，相对于背景，文字一般具有较高的强度值。

进一步，上述的一种视频文字多帧融合的方法，所述表示文字清晰程度的TextClarity_i值由公式七计算得到，其中，TIMap_i ^text表示TIMap_i中的文字部分，p是TIMap_i ^text中的像素，|TIMap_i ^text|是TIMap_i ^text中像素的数目；

公式七：

{TextClarity}_{i} = Σ_{p &Element; {TIMap}_{i}^{text}} {TIMap}_{i} (p) / | {TIMap}_{i}^{text} |

进一步，上述的一种视频文字多帧融合的方法，所述步骤3)中，在文字区域的文字部分和背景部分分别采用不同的方法进行融合，融合方法如公式八所示：在背景部分取像素的平均值；在文字部分取像素的最小值；

公式八：

t_{int} (p) = \{\begin{matrix} \min {{t^{'}}_{i} (p)} 1 \leq i \leq M^{'} & p &Element; {t_{i}^{'}}^{back} \\ \underset{1 \leq i \leq M^{'}}{Σ} {t^{'}}_{i} (p) / M^{'} & p &Element; {t_{i}^{'}}^{text} \end{matrix}

公式九：t′_i ^text＝{p|t_Avg(p)＞H_otsu}

公式十：t′_i ^back＝{p|t_Avg(p)≤H_otsu}

其中，t′₁，t′₂，...t′_M′是文字区域组t₁，t₂，...t_M中过滤后的，含有较为清晰文字笔画的文字区域，t_int是多帧融合的结果，t′_i ^text和t′_i ^back分别代表t′₁，t′₂，...t′_M′的文字部分和背景部分，1≤i≤M′，它们由公式九、十计算得到；公式九、十中，t_Avg是对文字区域t₁，t₂，...t_M进行平均得到的图像，H_otsu是在t_Avg中用OTSU方法求得的局部阈值，p表示文字区域t′₁，t′₂，...t′_M′中同一位置的一个像素，t_Avg(p)是这个像素在t_Avg中相应位置的强度值，如果t_Avg(p)大于H_otsu，则认为该p属于文字部分t′_i ^text，否则属于背景部分t′_i ^back。

与现有技术相比，本发明具有如下三个优点：(1)在文字区域组的识别中，综合考虑了文字区域的三个有效特征，包括位置、边缘分布以及对比度等，能够高效准确地检测连续视频帧中包含相同内容的多个文字区域；(2)引入了文字区域组过滤，用文字笔画强度图来衡量图像中文字的清晰程度，只选取那些含有清晰笔画的文字区域进行融合，从而避免了模糊文字区域对于融合结果的影响；(3)在文字区域组融合中，综合了平均融合和最小值融合的优点，在图像的文字和背景部分分别采用了平均融合和最小值融合，能够在简化背景的同时，得到较高的对比度和清晰的文字融合结果。

附图说明

图1a是水平方向上的文字笔画强度检测算子；

图1b是垂直方向上的文字笔画强度检测算子；

图1c是左对角线方向上的文字笔画强度检测算子；

图1d是右对角线方向上的文字笔画强度检测算子；

图2是包含本发明方法的视频文字识别流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述。

如附图2所示，基于多帧的视频文字识别方法主要包含四个步骤：视频文字检测步骤，多帧融合步骤，视频文字提取步骤和OCR软件识别步骤。本发明主要是关于多帧融合方法的，因此，本实施方式在其他三个步骤上采用了现有的方法，其中，在视频文字检测和视频文字提取步骤采用了2005年在IEEE Transactions on Circuits and Systems for Video Technology上发表的文献“A comprehensive method for multilingual video text detection，localization，andextraction”(作者是Michael R.Lyu，Jiqiang Song，Min Cai，页码是243-254)中的方法来检测文字区域，和把文字从图像背景中提取出来；在OCR软件识别步骤，采用了现有的商业软件，方正锐思OCR来识别二值文字图像，得到文本结果。本发明对文字区域检测结果进行融合，得到背景更为平滑，对比度更高和笔画更为清晰的文字区域图像，主要包括以下步骤：

(1)在连续视频帧的文字区域检测结果中按照如下方法识别文字区域组。

维护一个缓冲区T_buffer，初始情况下，T_buffer为空；按照时间顺序对视频帧进行处理，设f_curr为当前正在处理的视频帧，T_curr为在f_curr中检测到的文字区域集合，t_curr为T_curr中的任一文字区域，把t_curr同T_buffer中的所有文字区域进行比较，如果t_curr同T_buffer中的任一文字区域t_buffer包含相同的内容，则把t_curr加入t_buffer所属的文字区域组，如果t_curr和T_buffer中的所有文字区域都不含相同的内容，则把t_curr放入T_buffer中，并把t_curr看作是一个新文字区域组的开始；检查T_buffer中的任一文字区域t_buffer，若t_buffer既不是在当前帧f_curr中新检测到的文字区域，也不和T_curr中的任何文字区域包含相同内容，则认为t_buffer是其所属文字区域组的结束，并把t_buffer移出T_buffer。

在上述过程中，判断两个文字区域是否包含相同内容，就看这两个文字区域是否同时满足如下三个条件：

条件一：两个文字区域在连续视频帧中处于相近的位置；

条件二：两个文字区域包含相似的边缘分布；

条件三：两个文字区域包含相近的对比度。

若两个文字区域同时满足这三个条件，则认为它们包含相同的内容。

判断文字区域t_a和t_b是否满足上述三个条件的具体方法是，看t_a和t_b是否同时满足如下三个公式：

公式一：Overlap(t_a，t_b)＞r₁×Min(area(t_a)，area(t_b))

Overlap(t_a，t_b)表示文字区域t_a与t_b在不同视频帧中位置上重叠的部分，r₁是取值范围为0到1的一个常数，Min(area(t_a)，area(t_b))是t_a和t_b中较小文字区域的面积，该公式表示，若t_a与t_b有足够大的重叠面积，则认为文字区域t_a与t_b在不同视频帧中处于相近的位置，在本实施例中，r₁的值取为0.9；

公式二：NoneZero(E_a，E_b)＞r₂×Overlap(t_a，t_b)

E_a与E_b分别是t_a和t_b的边缘图，NoneZero(E_a，E_b)是在E_a与E_b中边缘强度值都不为0的像素集合，NoneZero(E_a，E_b)＝{p|E_a(p)＞0 & E_b(p)＞0}，NoneZero(E_a，E_b)用来衡量E_a与E_b中边缘分布的情况，r₂是取值范围0到1之间的一个常数，该公式表示，当NoneZero(E_a，E_b)中包含的像素个数大于r₂与Overlap(t_a，t_b)的乘积时，认为t_a与t_b具有类似的边缘分布，在本实施例中，r₂的值取为0.85；

公式三：EdgeIDiff(t_a，t_b)＜D_MAX×Overlap(t_a，t_b)

D_MAX是一个预先定义的阈值，取值范围为1到255，EdgeDiff(t_a，t_b)是边缘图E_a与E_b中位置相同的边缘点强度值之差的累加和，即EdgeIDiff(t_a，t_b)＝Sum(|E_a(p)-E_b(p)|)，该公式表示，当EdgeDiff(t_a，t_b)的值小于D_MAX与Overlap(t_a，t_b)的乘积时，认为t_a与t_b对比度差异不大，它们具有相似的对比度，在本实施例中，D_MAX的值取为40。

除上述方法之外，还有其他方法可以实现文字区域组的识别，例如，2002年在IEEE International Conference on Image Processing上发表的文献“Acomprehensive method for multilingual video text detection，localization，andextraction”(作者是Xian-Sheng Hua，Pei Yin和Hong-Jiang Zhang)中认为，出现在连续视频帧中，具有相近位置的文字区域包含了相同的文字，这种方法只考虑了位置信息，当不同文字位于视频中的相同位置时，容易出错，因此该方法不如本实施例的方法更为有效。

(2)对文字区域组进行过滤，去除会对融合结果造成负面影响的模糊文字区域。

对文字区域组进行过滤时，首先计算得到文字区域组内任一文字区域t_i的文字笔画强度图TIMap_i，1≤i≤M，然后把TIMap_i分成两个部分：文字部分TIMap_i ^text和背景部分TIMap_i ^back，并在文字部分TIMap_i ^text上计算t_i的文字笔画清晰程度TextClarity_i，TextClarity_i越高，表示文字越清晰，反之文字越模糊，过滤时，去除那些TextClarity_i值较小的模糊文字区域。

在上述过程中，文字笔画强度图TIMap_i由公式四计算得到，其中，TInt_i ^H，TInt_i ^V，TInt_i ^LD和TInt_i ^RD分别是用图1a、图1b、图1c和图1d中所示的四个方向上的文字笔画强度检测算子在原图上进行卷积得到的水平，垂直以及两个对角线方向的文字笔画强度图。

公式四：

{TIMap}_{i} = Max ({TInt}_{i}^{H}, {TInt}_{i}^{V}, {TInt}_{i}^{LD}, {TInt}_{i}^{RD})

在上述过程中，在得到文字笔画强度图之后，按照公式五、六将文字笔画强度图TIMap_i分成文字部分和背景部分。其中，t_Avg是对文字区域组中的文字区域t₁，t₂，...t_M进行平均得到的图像，H_otsu是在t_Avg中用OTSU方法求得的局部阈值，p是TIMap_i中的一个像素，t_Avg(p)是该像素在t_Avg中相应位置的强度值，如果t_Avg(p)大于H_otsu，则认为该p属于文字部分TIMap_i ^text，否则属于背景部分TIMap_i ^back。

公式五：

{TIMap}_{i}^{text} = {p | t_{Avg} (p) > H_{otsu}}

公式六：

{TIMap}_{i}^{back} = {p | t_{Avg} (p) \leq H_{otsu}}

在上述过程中，表示文字清晰程度的TextClarity_i值由公式七计算得到，其中，TIMap_i ^text表示TIMap_i中的文字部分，p是TIMap_i ^text中的像素，|TIMap_i ^text|是TIMap_i ^text中像素的数目。

公式七：

{TextClarity}_{i} = Σ_{p &Element; {TIMap}_{i}^{text}} {TIMap}_{i} (p) / | {TIMap}_{i}^{text} |

除上述方法之外，还有其他方法可以实现文字区域组的过滤，例如，2002年在IEEE International Conference on Image Processing上发表的文献“Acomprehensive method for multilingual video text detection，localization，andextraction”(作者是Xian-Sheng Hua，Pei Yin和Hong-Jiang Zhang)过滤掉对比度较低的文字区域，但这种方法没有考虑模糊文字区域的影响，对于图像质量较差的视频，融合效果较差。

(3)对文字区域组进行融合，得到融合结果。

设过滤之前，文字区域组中包含M个文字区域，记为t₁，t₂，...t_M；过滤后，文字区域组就只剩下M′个TextClarity_i值较大的文字区域，记为t′₁，t′₂，...t′_M′。在文字区域的文字部分和背景部分分别采用不同的策略对t′₁，t′₂，...t′_M′进行融合，融合方法如公式八所示：在背景部分取像素的平均值；在文字部分取像素的最小值。在公式八中，t_int是多帧融合的结果，t′_i ^text和t′_i ^back分别代表t′₁，t′₂，...t′_M′的文字部分和背景部分，1≤i≤M′，它们由公式九、十计算得到；公式九、十中，t_Avg是对文字区域t₁，t₂，...t_M进行平均得到的图像，H_otsu是在t_Avg中用OTSU方法求得的局部阈值，p表示文字区域t′₁，t′₂，...t′_M′中同一位置的一个像素，t_Avg(p)是这个像素在t_Avg中相应位置的强度值，如果t_Avg(p)大于H_otsu，则认为该p属于文字部分t′_i ^text，否则属于背景部分t′_i ^back。

公式八：

t_{int} (p) = \{\begin{matrix} \min {{t^{'}}_{i} (p)} 1 \leq i \leq M^{'} & p &Element; {t_{i}^{'}}^{back} \\ \underset{1 \leq i \leq M^{'}}{Σ} {t^{'}}_{i} (p) / M^{'} & p &Element; {t_{i}^{'}}^{text} \end{matrix}

公式九：t′_i ^text＝{p|t_Avg(p)＞H_otsu}

公式十：t′_i ^back＝{p|t_Avg(p)≤H_otsu}

除上述方法之外，还有其他方法可以实现文字区域组的融合，例如，2002年在IEEE Transactions on Circuits and Systems for Video Technology上发表的文献“Localizing and Segmenting Text in Images and Videos”(作者是R.Lienhart和A.Wernicke，页码是256-268)采用了最小值融合来对整个文字区域进行融合，然而，这种方法容易受到噪声的影响。

下面的实验结果表明，与现有方法相比，本发明可以取得更好地融合视频中冗余的文字信息，得到背景更为简化，文字对比度更高和笔画更为清晰的文字区域，从而得到更好的视频文字提取与识别结果，充分发挥视频文字信息在视频内容分析和检索中的巨大作用。

本实施例中建立的数据库包含10段从多个著名的网站上下载到的视频，如CCTV，Xinhuanet，以及China News等，分辨率为320×240.经统计，这些视频中共包含1809行不同内容的文字，每行文字均出现在多个连续的相邻视频帧中，总字数为11312.这些视频中的背景往往比较复杂，具有较低的对比度.同时，由于这些视频的压缩率较高，图像质量较差，文字也比较模糊，因此对之进行检测和提取更为困难，有助于证明本发明方法对各种情况的适应性以及最终结果的有效性。

如上所述，本实施例在视频文字检测步骤，视频文字提取步骤和OCR软件识别步骤采用了现有的方法，而在多帧融合步骤采用了本发明的方法，多帧融合方法的性能可以用文字识别的结果进行评测。为了同现有的方法进行比较，我们在多帧融合步骤测试了以下三种不同的方法作为实验对比：

I.现有方法：2002年在IEEE International Conference on ImageProcessing上发表的文献“A comprehensive method for multilingual video textdetection，localization，and extraction”(作者是Xian-Sheng Hua，Pei Yin和Hong-Jiang Zhang)，该方法首先根据文字区域的位置信息来识别具有相同内容的多个文字区域；然后根据文字区域内是否包含一定数量的低灰度值像素，来判断文字区域是否具有较高的对比度，并舍弃那些对比度较低的文字区域；最后对具有较高对比度的文字区域进行融合，得到融合结果。

II.本具体实施例：用本具体实施例的文字区域组识别方法代替在上述现有方法中识别包含相同内容文字区域的部分；

III.本具体实施例：包括文字区域组识别，文字区域组过滤和文字区域组融合。

实验采用了三个评价指标，文字识别查全率(Recall)，文字识别查准率(Precision)和文字识别重复率(Repeat)。其中，文字识别查全率和文字识别查准率被用来衡量正确识别文字的能力，这两个指标都是越高越好；而文字识别重复率用来同一文字被重复识别的频率，这个指标则是越低越好。在视频文字识别中，文字识别查全率和文字识别查准率更为重要，因为正确识别文字的能力远比是否重复识别了文字更有意义，这三个指标的定义如下：

Recall＝WN_correct/WN_all

Precision＝WN_allcorrect/WN_all

Repeat＝WN_repeat/WN_all

其中，WN_correct是正确识别的文字数目，去除了重复识别的部分；WN_repeat是正确识别的文字中重复识别的部分；WN_allcorrect是正确识别的所有文字的数目，WN_allcorrect等于WN_correct与WN_repeat之和；WN_all是识别出的所有文字数目，包括了正确识别和错误识别的文字。

表1 实验结果对比

从表1中可以看出，本发明的方法II和方法III在文字识别查全率和查准率上都比现有方法I要高，这是因为，本发明综合考虑了文字区域的三个有效特征，包括位置、边缘分布以及对比度等，能够高效准确地检测连续视频帧中包含相同内容的多个文字区域，从而能够正确地对包含相同内容的文字区域进行融合。对比本发明的方法II和III，方法III比方法II取得了更好的文字识别结果，这是因为本发明引入的文字区域组过滤方法能够有效去除那些较为模糊的文字区域，从而避免了模糊文字区域对于融合结果的影响；同时，本发明综合了平均融合和最小值融合的优点，在图像的文字和背景部分分别采用了平均融合和最小值融合，能够在简化背景的同时，得到较高的对比度和清晰的文字融合结果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视频文字多帧融合的方法，用于对出现在多个连续视频帧中的相同文字区域进行融合，包括如下步骤：

1)在连续视频帧的文字区域检测结果中识别文字区域组，并放入缓冲区等待处理，所述文字区域组指包含相同内容的多个文字区域；

3)对步骤2)中过滤后的文字区域组进行融合，得到融合结果。

2.如权利要求1中所述的视频文字多帧融合方法，其特征在于，所述步骤1)中，按照如下方法识别文字区域组：维护一个缓冲区T_buffer，初始情况下，T_buffer为空；按照时间顺序对视频帧进行处理，设f_curr为当前正在处理的视频帧，T_curr为在f_curr中检测到的文字区域集合，t_curr为T_curr中的任一文字区域，把t_curr同T_buffer中的所有文字区域进行比较，如果t_curr同T_buffer中的任一文字区域t_bufffer包含相同的内容，则把t_curr加入t_buffer所属的文字区域组，如果t_curr和T_buffer中的所有文字区域都不含相同的内容，则把t_curr放入T_buffer中，并把t_curr看作是一个新文字区域组的开始；检查T_buffer中的任一文字区域t_buffer，若t_buffer既不是在当前帧f_curr中新检测到的文字区域，也不和T_curr中的任何文字区域包含相同内容，则认为t_buffer是其所属文字区域组的结束，并把t_buffer移出T_buffer。

3.如权利要求1或2所述的视频文字多帧融合方法，其特征在于，判断两个文字区域包含相同内容的方法是，两个文字区域同时满足如下三个条件：

条件一：两个文字区域在连续视频帧中处于相近的位置；

条件二：两个文字区域包含相似的边缘分布；

条件三：两个文字区域包含相近的对比度。

4.如权利要求3所述的视频文字多帧融合方法，其特征在于，判断两个文字区域t_a和t_b同时满足三个条件的具体方法是：

t_a和t_b同时满足以下三个公式：

公式一：Overlap(t_a，t_b)＞r₁×Min(area(t_a)，area(t_b))

公式二：NoneZero(E_a，E_b)＞r₂×Overlap(t_a，t_b)

E_a与E_b分别是t_a和t_b的边缘图，NoneZero(E_a，E_b)是在E_a与E_b中边缘强度值都不为0的像素集合，NoneZero(E_a，E_b)＝{p|E_a(p)＞0&E_b(p)＞0}，NoneZero(E_a，E_b)用来衡量E_a与E_b中边缘分布的情况，r₂是取值范围0到1之间的一个常数，该公式表示，当NoneZero(E_a，E_b)中包含的像素个数大于r₂与Overlap(t_a，t_b)的乘积时，认为t_a与t_b具有类似的边缘分布；

公式三：EdgeIDiff(t_a，t_b)＜D_MAX×Overlap(t_a，t_b)

5.如权利要求1中所述的视频文字多帧融合方法，其特征在于，所述步骤2)中对文字区域组进行过滤时，首先计算得到文字区域组内任一文字区域t_i的文字笔画强度图TIMap_i，1≤i≤M，然后把TIMap_i分成两个部分：文字部分

和背景部分

并在文字部分

上计算t_i的文字笔画清晰程度TextClarity_i，TextClarity_i越高，表示文字越清晰，反之文字越模糊，过滤时，去除那些TextClarity_i值较小的模糊文字区域；这样，设过滤之前，文字区域组中包含M个文字区域，记为t₁，t₂，...t_M；过滤后，文字区域组就只剩下M′个TextClarity_i值较大的文字区域，记为t′₁，t′₂，...t′_M′。

6.如权利要求5中所述的视频文字多帧融合方法，其特征在于，所述的文字笔画强度图由公式四计算得到：

公式四：

{TIMap}_{i} = Max ({TInt}_{i}^{H}, {TInt}_{i}^{V}, {TInt}_{i}^{LD}, {TInt}_{i}^{RD})

在公式四中，

和

分别表示用水平、垂直，左对角线，和右对角线四个方向上的文字笔画强度检测算子在原图t_i上进行卷积得到的文字笔画强度图。

7.如权利要求5中所述的视频文字多帧融合方法，其特征在于，所述的将文字笔画强度图TIMap_i分成文字部分和背景部分按照公式五、六计算得到：

公式五：

{TIMap}_{i}^{text} = {p | t_{Avg} (p) > H_{otsu}}

公式六：

{TIMap}_{i}^{back} = {p | t_{Avg} (p) \leq H_{otsu}}

其中，t_Avg是对文字区域组中的文字区域t₁，t₂，...t_M进行平均得到的图像，H_otsu是在t_Avg中用OTSU方法求得的局部阈值，p是TIMap_i中的一个像素，t_Avg(p)是该像素在t_Avg中相应位置的强度值，如果t_Avg(p)大于H_otsu，则认为该p属于文字部分

否则属于背景部分

8.如权利要求5中所述的视频文字多帧融合方法，其特征在于，所述表示文字清晰程度的TextClarity_i值由公式七计算得到，其中，

表示TIMap_i中的文字部分，p是

中的像素，

是

中像素的数目；

公式七：

TextClar {ity}_{i} = Σ_{p &Element; {TIMap}_{i}^{text}} {TIMap}_{i} (p) / | {TIMap}_{i}^{text} | .

9.如权利要求1中所述的视频文字多帧融合方法，其特征在于，所述步骤3)中的融合方法在文字区域的文字部分和背景部分分别采用不同的方法进行融合，融合方法如公式八所示：在背景部分取像素的平均值；在文字部分取像素的最小值；

公式八：

t_{int} (p) = \{\begin{matrix} \min {{t^{'}}_{i} (p)} 1 \leq i \leq M^{'} & p &Element; {t_{i}^{'}}^{back} \\ \underset{1 \leq i \leq M^{'}}{Σ} {t^{'}}_{i} (p) / M^{'} & p &Element; {t_{i}^{'}}^{text} \end{matrix}

公式九：t′_i ^text＝{p|t_Avg(p)＞H_otsu}

公式十：t′_i ^back＝{p|t_Avg(p)≤H_otsu}

其中，t′₁，t′₂，...t′_M′是文字区域组t₁，t₂，...t_M中过滤后的，含有较为清晰文字笔画的文字区域，t_int是多帧融合的结果，t′_i ^text和t′_i ^back分别代表t′₁，t′₂，...t′M_′的文字部分和背景部分，1≤i≤M′，它们由公式九、十计算得到；公式九、十中，t_Avg是对文字区域t₁，t₂，...t_M进行平均得到的图像，H_otsu是在t_Avg中用OTSU方法求得的局部阈值，p表示文字区域t′₁，t′₂，...t′_M′中同一位置的一个像素，t_Avg(p)是这个像素在t_Avg中相应位置的强度值，如果t_Avg(p)大于H_otsu，则认为该p属于文字部分t′_i ^text，否则属于背景部分t′_i ^back。