CN104835128A

CN104835128A - 一种用于模糊视频文本信息增强的多光谱融合方法

Info

Publication number: CN104835128A
Application number: CN201510186012.2A
Authority: CN
Inventors: 路通; 翁炀冰
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2015-04-17
Filing date: 2015-04-17
Publication date: 2015-08-12
Anticipated expiration: 2035-04-17
Also published as: CN104835128B

Abstract

本发明公开了一种用于模糊视频文本信息增强的多光谱融合方法，包括以下步骤：步骤1，输入一个待增强文字信息的模糊视频帧；步骤2，将输入视频帧分别转化为灰度图、R值图、G值图和B值图，并分别进行简单的增强操作；步骤3，将灰度图、R值图、G值图和B值图的增强图按照最小值、最大值、和值、均值、中值操作融合成五幅图；步骤4，将五幅融合图分别进行k等于2的k-means操作，得到五幅二值图；步骤5，将五幅二值图按照中值操作融合成增强图，完成增强工作。

Description

一种用于模糊视频文本信息增强的多光谱融合方法

技术领域

本发明涉及一种文本信息的增强方法，特别是一种用于模糊视频文本信息增强的多光谱融合方法。

背景技术

在图像处理、模式识别和视频文档分析领域，视频文本检测和识别是当前研究工作中的一项新兴分支。这对于一些实时应用是很有用的，比如：基于语义的事件检索、突出事件提取、盲人协助、安全驾驶、导航和监测。典型的算法有，鲁棒的二值化方法，超分辨率方法和提取降级不变特征等。

在视频文本检测和识别任务中，多种因素会影响检测和识别的结果，比如：光照、遮挡和退化等。因此，一个鲁棒的文本信息增强算法对于退化的视频文本检测和识别工作是很有必要的。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种用于模糊视频文本信息增强的多光谱融合方法，从而使模糊视频帧中的文本信息得到增强。

为了解决上述技术问题，本发明公开了一种用于模糊视频文本信息增强的多光谱融合方法，包括以下步骤：

步骤1，输入一个待增强文字信息的模糊视频帧作为目标视频帧，所述待增强文字信息的模糊视频帧由模糊的文字和非文字构成；

步骤2，将输入视频帧分别转化为四个通道图，分别是灰度图、R值图、G值图和B值图，分别计算各幅图的局部最小值和局部最大值，通过局部最大值和局部最小值计算得到四个通道图的简单增强图；

步骤3，将灰度图、R值图、G值图和B值图的简单增强图按照最小值、最大值、和值、均值、中值操作融合成五幅图；

步骤4，将五幅融合图分别进行k＝2的k-means操作，得到五幅二值图；

步骤5，将五幅二值图按照中值操作融合成增强图，完成增强工作。

本发明步骤2中包括如下步骤：

将输入视频帧转化为灰度图、R值图、G值图、B值图，分别记为I_gray(x,y)，I_R(x,y)，I_G(x,y)和I_B(x,y)，这里(x,y)代表图的像素点；

对于灰度图I_gray(x,y)，计算其局部最小值和局部最大值，分别记为I_min(x,y)和 I_max(x,y)，计算公式为：

I_min(x,y)＝min({I(x_k,y_k):(x_k,y_k)∈W})，

I_max(x,y)＝max({I(x_k,y_k):(x_k,y_k)∈W})，

其中W表示以像素点(x,y)为圆心，两个像素为半径的圆形窗口，k表示窗口W内像素位置；

计算灰度图I_gray(x,y)的增强图，公式为：

E_{gray} (x, y) = \frac{\exp (- \frac{{[I_{gray} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}})}{\exp (- \frac{{[I_{gray} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}}) + \exp (- \frac{{[I_{gray} (x, y) - μ_{\min}]}^{2}}{2 σ_{\min}^{2}})},

其中，μ_min和μ_max分别表示局部最小值图I_min(x,y)和局部最大值图I_max(x,y)的平均像素值，σ_min和σ_max分别表示局部最小值图I_min(x,y)和局部最大值图I_max(x,y)的像素值的标准差；

同样的方法求得I_R(x,y)，I_G(x,y)和I_B(x,y)的增强图，分别为E_R(x,y)，E_G(x,y)和E_B(x,y)：

E_{R} (x, y) = \frac{\exp (- \frac{{[I_{R} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}})}{\exp (- \frac{{[I_{R} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}}) + \exp (- \frac{{[I_{R} (x, y) - μ_{\min}]}^{2}}{2 σ_{\min}^{2}})},

E_{G} (x, y) = \frac{\exp (- \frac{{[I_{G} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}})}{\exp (- \frac{{[I_{G} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}}) + \exp (- \frac{{[I_{G} (x, y) - μ_{\min}]}^{2}}{2 σ_{\min}^{2}})},

E_{B} (x, y) = \frac{\exp (- \frac{{[I_{B} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}})}{\exp (- \frac{{[I_{B} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}}) + \exp (- \frac{{[I_{B} (x, y) - μ_{\min}]}^{2}}{2 σ_{\min}^{2}})} .

本发明步骤3中，所述最小值操作的计算方法如下：

fsMin(x,y)＝min({E_j(x_j,y_j):j＝1,2,3,4})，

其中E_j(x_j,y_j)按照j取值从1到4分别表示灰度增强图、R值增强图、G值增强图、B值增强图；

最大值操作的计算方法如下：

fsMax(x,y)＝max({E_j(x_j,y_h):j＝1,2,3,4})，

和值操作的计算方法如下：

fsSum (x, y) = Σ_{j = 1}^{4} ({E_{j} (x_{j}, y_{j})}),

均值操作的计算方法如下：

fsAvg (x, y) = \frac{1}{4} Σ_{j = 1}^{4} ({E_{j} (x_{j}, y_{j})}),

中值操作的计算方法如下：

fsMed＝median({E_j(x_j,y_j):j＝1,2,3,4})，

其中，median操作即取集合中元素的中位数；

本发明步骤5中，所述中值操作的计算方法如下:

F(x,y)＝median({B_r(x_r,y_r):r＝1,2,3,4,5})，

其中B_r(x_r,y_r)按照r取值从1到5分别表示最小值融合图、最大值融合图、和值融合图、均值融合图和中值融合图。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和或其他方面的优点将会变得更加清楚。

图1为本发明流程图。

图2为含有模糊文本信息的视频帧。

图3为最后的增强图。

具体实施方式：

本发明所述的一种用于模糊视频文本信息增强的多光谱融合方法的基本出发点是通过对模糊视频帧的多个通道分别进行增强，按照一定融合规则将几个通道的结果进行融合，对不同规则下的融合结果分别进行聚类操作，并再次进行融合，得到最终的图像增强结果。

下面结合附图对本发明做更加详细的解释：

如图1所示，步骤1，输入一个待增强文字信息的模糊视频帧作为目标视频帧，记为目标视频帧I。

步骤2，将目标视频帧分别转化为四个通道图，分别是灰度图、R值图、G值图、 B值图，分别记为I_gray(x,y)，I_R(x,y)，I_G(x,y)和I_B(x,y)，这里(x,y)代表图的像素点。

步骤3，分别将灰度图、R值图、G值图和B值图做简单增强。对于灰度图I_gray(x,y)，计算其局部最小值和局部最大值，分别记为I_min(x,y)和I_max(x,y)，计算公式为：

I_min(x,y)＝min({I(x_k,y_k):(x_k,y_k)∈W})，

I_max(x,y)＝max({I(x_k,y_k):(x_k,y_k)∈W})，

其中W表示以像素点(x,y)为圆心，两个像素为半径的圆形窗口；

计算灰度图I_gray(x,y)的增强图，公式为：

E_{gray} (x, y) = \frac{\exp (- \frac{{[I_{gray} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}})}{\exp (- \frac{{[I_{gray} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}}) + \exp (- \frac{{[I_{gray} (x, y) - μ_{\min}]}^{2}}{2 σ_{\min}^{2}})},

E_{R} (x, y) = \frac{\exp (- \frac{{[I_{R} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}})}{\exp (- \frac{{[I_{R} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}}) + \exp (- \frac{{[I_{R} (x, y) - μ_{\min}]}^{2}}{2 σ_{\min}^{2}})},

E_{G} (x, y) = \frac{\exp (- \frac{{[I_{G} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}})}{\exp (- \frac{{[I_{G} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}}) + \exp (- \frac{{[I_{G} (x, y) - μ_{\min}]}^{2}}{2 σ_{\min}^{2}})},

E_{B} (x, y) = \frac{\exp (- \frac{{[I_{B} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}})}{\exp (- \frac{{[I_{B} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}}) + \exp (- \frac{{[I_{B} (x, y) - μ_{\min}]}^{2}}{2 σ_{\min}^{2}})} .

步骤4，将灰度图、R值图、G值图和B值图的简单增强图按照最小值、最大值、和值、均值、中值操作融合成五幅融合图，分别记为fsMin(x,y),fsMax(x,y),fsSum(x,y),fsAvg(x,y)和fsMed(x,y)。

最小值操作的计算方法如下：

fsMin(x,y)＝min({E_j(x_j,y_j):j＝1,2,3,4})，

最大值操作的计算方法如下：

fsMax(x,y)＝max({E_j(x_j,y_j):j＝1,2,3,4})，

和值操作的计算方法如下：

fsSum (x, y) = Σ_{j = 1}^{4} ({E_{j} (x_{j}, y_{j})}),

均值操作的计算方法如下：

fsAvg (x, y) = \frac{1}{4} Σ_{j = 1}^{4} ({E_{j} (x_{j}, y_{j})}),

中值操作的计算方法如下：

fsMed(x,y)＝median({E_j(x_j,y_j):j＝1,2,3,4})，

其中，median操作即取集合中元素的中位数；

步骤5，将五幅融合图分别进行k＝2的k-means操作，得到五幅二值图；

步骤6，将五幅二值图按照中值操作融合成增强图。中值操作的计算方法如下

F(x,y)＝median({B_r(x_r,y_r):r＝1,2,3,4,5})，

步骤7，输出增强图。

实施例:

本实施例包括以下部分：

1.输入视频帧

本实例的数据集来自于ICDAR数据集以及通过相机采集的一些含有模糊文本信息的视频，总共包含200个视频帧。图2就是其中的一个视频帧。

2.多通道增强

将图2(由于本发明的特殊性不可避免的使用灰度照片)所示的目标视频帧分别转化为四个通道图，分别是灰度图、R值图、G值图、B值图，分别记为I_gray(x,y)，I_R(x,y)，I_G(x,y)和I_B(x,y)。然后将四个通道图分别进行简单的增强操作，这里对灰度图作说明。

I_min(x,y)＝min({I(x_k,y_k):(x_k,y_k)∈W})，

I_max(x,y)＝max({I(x_k,y_k):(x_k,y_k)∈W})；

计算灰度图I_gray(x,y)的增强图，公式为：

E_{gray} (x, y) = \frac{\exp (- \frac{{[I_{gray} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}})}{\exp (- \frac{{[I_{gray} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}}) + \exp (- \frac{{[I_{gray} (x, y) - μ_{\min}]}^{2}}{2 σ_{\min}^{2}})},

同样的方法求得I_R(x，y)，I_G(x,y)和I_B(x,y)的增强图，分别为E_R(x,y)，E_G(x,y)和E_B(x,y)：

E_{R} (x, y) = \frac{\exp (- \frac{{[I_{R} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}})}{\exp (- \frac{{[I_{R} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}}) + \exp (- \frac{{[I_{R} (x, y) - μ_{\min}]}^{2}}{2 σ_{\min}^{2}})},

E_{G} (x, y) = \frac{\exp (- \frac{{[I_{G} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}})}{\exp (- \frac{{[I_{G} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}}) + \exp (- \frac{{[I_{G} (x, y) - μ_{\min}]}^{2}}{2 σ_{\min}^{2}})},

E_{B} (x, y) = \frac{\exp (- \frac{{[I_{B} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}})}{\exp (- \frac{{[I_{B} (x, y) - μ_{\max}]}^{2}}{2 σ_{\max}^{2}}) + \exp (- \frac{{[I_{B} (x, y) - μ_{\min}]}^{2}}{2 σ_{\min}^{2}})} .

3.第一次融合

将灰度图、R值图、G值图和B值图的简单增强图按照最小值、最大值、和值、均值、中值操作融合成五幅融合图，分别记为fsMin(x,y),fsMax(x,y),fsSum(x,y),fsAvg(x,y)和fsMed(x,y)。

最小值操作的计算方法如下：

fsMin(x,y)＝min({E_j(x_j,y_j):j＝1,2,3,4})，

最大值操作的计算方法如下：

fsMax(x,y)＝max({E_j(x_j,y_j):j＝1,2,3,4})，

和值操作的计算方法如下：

fsSum (x, y) = Σ_{j = 1}^{4} ({E_{j} (x_{j}, y_{j})}),

均值操作的计算方法如下：

fsAvg (x, y) = \frac{1}{4} Σ_{j = 1}^{4} ({E_{j} (x_{j}, y_{j})}),

中值操作的计算方法如下：

fsMed(x,y)＝median({E_j(x_j,y_j):j＝1,2,3,4})。

4.聚类与第二次融合

将五幅融合图分别进行k＝2的k-means操作，得到五幅二值图。然后将五幅二值图按照中值操作融合成最终的增强图。中值操作的计算方法如下：

F(x,y)＝median({B_r(x_r,y_r):r＝1,2,3,4,5})，

如此得到最后的增强图，如图3所示。

本发明提供了一种用于模糊视频文本信息增强的多光谱融合方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种用于模糊视频文本信息增强的多光谱融合方法，其特征在于，包括以下步骤：

步骤1，输入一个待增强文字信息的模糊视频帧作为目标视频帧，所述待增强文字信息的模糊视频帧包含有模糊的文字；

步骤2，将目标视频帧分别转化为四个通道图，分别是灰度图、R值图、G值图和B值图，分别计算各个通道图的局部最小值和局部最大值，通过局部最大值和局部最小值计算得到四个通道图的简单增强图；

步骤4，将五幅融合图分别进行k＝2的k-means聚类处理，得到五幅二值图；

2.根据权利要求1所述的一种用于模糊视频文本信息增强的多光谱融合方法，其特征在于，步骤2中包括如下步骤：

将输入的目标视频帧转化为灰度图、R值图、G值图、B值图，分别记为I_gray(x，y)，I_R(x，y)，I_G(x，y)和I_B(x，y)，其中(x，y)代表目标视频帧的像素点；

对于灰度图I_gray(x，y)，计算其局部最小值和局部最大值，分别记为I_min(x，y)和I_max(x，y)，计算公式为：

I_min(x，y)＝min({I(x_k，y_k)：(x_k，y_k)∈W})，

I_max(x，y)＝max({I(x_k，y_k)：(x_k，y_k)∈W})，

其中W表示以像素点(x，y)为圆心，两个像素为半径的圆形窗口，k表示窗口W内像素位置；

计算灰度图I_gray(x，y)的增强图E_gray(x，y)，公式为：

E_{gray} (x, y) = \frac{\exp (- \frac{{[I_{gray} (x, y) - μ_{\max}]}^{2}}{{2 σ}_{\max}^{2}})}{\exp (- \frac{{[I_{gray} (x, y) - μ_{\max}]}^{2}}{{2 σ}_{\max}^{2}}) + \exp (- \frac{{[I_{gray} (x, y) - μ_{\min}]}^{2}}{{2 σ}_{\min}^{2}})},

其中，μ_min和μ_max分别表示局部最小值图I_min(x，y)的平均像素值和局部最大值图I_max(x，y)的平均像素值，σ_min和σ_max分别表示局部最小值图I_min(x，y)的像素值的标准差和局部最大值图I_max(x，y)的像素值的标准差；

计算R值图I_R(x，y)，G值图I_G(x，y)和B值图I_B(x，y)的增强图，分别为E_R(x，y)，E_G(x，y)和E_B(x，y)：

E_{R} (x, y) = \frac{\exp (- \frac{{[I_{R} (x, y) - μ_{\max}]}^{2}}{{2 σ}_{\max}^{2}})}{\exp (- \frac{{[I_{R} (x, y) - μ_{\max}]}^{2}}{{2 σ}_{\max}^{2}}) + \exp (- \frac{{{[I}_{R} (x, y) - μ_{\min}]}^{2}}{{2 σ}_{\min}^{2}})},

E_{G} (x, y) = \frac{\exp (- \frac{{[I_{G} (x, y) - μ_{\max}]}^{2}}{{2 σ}_{\max}^{2}})}{\exp (- \frac{{[I_{G} (x, y) - μ_{\max}]}^{2}}{{2 σ}_{\max}^{2}}) + \exp (- \frac{{{[I}_{G} (x, y) - μ_{\min}]}^{2}}{{2 σ}_{\min}^{2}})},

E_{B} (x, y) = \frac{\exp (- \frac{{[I_{B} (x, y) - μ_{\max}]}^{2}}{{2 σ}_{\max}^{2}})}{\exp (- \frac{{[I_{B} (x, y) - μ_{\max}]}^{2}}{{2 σ}_{\max}^{2}}) + \exp (- \frac{{{[I}_{B} (x, y) - μ_{\min}]}^{2}}{{2 σ}_{\min}^{2}})} .

3.根据权利要求2所述的一种用于模糊视频文本信息增强的多光谱融合方法，其特征在于，步骤3中，所述最小值fsMin(x，y)操作的计算方法如下：

fsMin(x，y)＝min({E_j(x_j，y_j)：j＝1，2，3，4})，

其中E_j(x_j，y_j)按照j取值从1到4分别表示灰度增强图、R值增强图、G值增强图、B值增强图；

最大值fsMax(x，y)操作的计算方法如下：

fsMax(x，y)＝max({E_j(x_j，y_j)：j＝1，2，3，4})，

和值fsSum(x，y)操作的计算方法如下：

fsSum (x, y) = Σ_{j = 1}^{4} ({E_{j} (x_{j}, y_{j})}),

均值fsAvg(x，y)操作的计算方法如下：

fsAvg (x, y) = \frac{1}{4} Σ_{j = 1}^{4} ({E_{j} (x_{j}, y_{j})}),

中值fsMed(x，y)操作的计算方法如下：

fsMed(x，y)＝median({E_j(x_j，y_j)：j＝1，2，3，4})。

4.根据权利要求3所述的一种用于模糊视频文本信息增强的多光谱融合方法，其特征在于，步骤5中，所述中值F(x，y)操作的计算方法如下：

F(x，y)＝median({B_r(x_r，y_r)：r＝1，2，3，4，5})，

其中B_r(x_r，y_r)按照r取值从1到5分别表示最小值融合图、最大值融合图、和值融合图、均值融合图和中值融合图。