CN104794504A

CN104794504A - 基于深度学习的图形图案文字检测方法

Info

Publication number: CN104794504A
Application number: CN201510207913.5A
Authority: CN
Inventors: 于慧敏; 李天豪
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-04-28
Filing date: 2015-04-28
Publication date: 2015-07-22
Anticipated expiration: 2035-04-28
Also published as: CN104794504B

Abstract

本发明公开了一种基于深度学习的图形图案文字检测方法，首先，通过图形图案文字样本合成训练深度卷积自编码网络，然后使用已标记的样本，通过稀疏字典进行分类。随机从样本库中抽取图形图案文字，并进行旋转、平移、透射等变换，再与纯背景图进行融合；之后使用合成的样本集，建立深度卷积自编码网络，并使用分层训练、整体调优的方式学习特征模板；然后对已有的标记样本，使用深度网络学习得到的特征模板进行特征提取；最后把提取的特征上采样至原图大小，并以单个分块作为识别的单位，训练稀疏字典以及分类器。在完成训练步骤后，对待处理的图像进行多分辨率分解，并使用特征模板提取特征，再使用稀疏字典进行分类获取结果。

Description

基于深度学习的图形图案文字检测方法

技术领域

本发明涉及一种计算机视觉技术领域的图形图案文字检测算法，具体为一种基于深度学习的图形图案文字检测方法。

背景技术

随着互联网的发展，网络带宽的不断提高，图像、视频由于易于理解，符合现代人快速的生活节奏，逐渐取代文本成为主要的信息传播载体。由于微博类网站对文本长度的限制，要发表较丰富的内容通常需要图文结合的方式，同时,图片分享类网站的蓬勃发展，给图像检索和理解领域带来新的机遇和挑战。

图像检索一般来说有两种方向，一种是直接基于图像的特征进行匹配，另一种是先对图像进行标记然后再基于标签进行检索。前者计算量较大，相对图像检索，文本搜索技术相对成熟，使用标签进行检索可有效利用文本搜索的成熟技术，并可通过预处理加快检索速度。标签的加注可由用户手工完成，但由于大量图片是未经标注，而且用户标注具有随意性，并一定能准确地描述图像的信息，因此图像的自动标记显得尤为重要。相比于文字，图像的冗余信息更多，而且信息不明确，使用图像中的特定的图形图案文字作为标签是有效的图像标注方案之一。

对于视频监控和基于位置的服务(LBS)等应用，通过识别图像中的图形图案文字，如招牌、标识等内容，对定位图像拍摄地点有重要的参考作用。

因此，图形图案文字检测和识别作为图像理解的重要一环，一直受到研究者的关注。自然图像中的背景复杂，图形图案文字出现的位置随机，大小随意，由于拍摄角度不同，还可能造成倾斜、旋转和透视变换等变化，这是自然图像中图形图案文字检测问题的主要难点。除了问题本身的复杂性之外，图形图案文字检测问题可使用的标记样本并不多，标记样本必须使用人工标记，十分费时。由于样本不足，设计算法时必须要控制参数的数量，同时在分类器中通常要加入正则项，避免过拟合。

总的来说，与其他图像识别的问题相似，图形图案文字检测问题的主要可分为特征提取和分类器训练两个部分。针对特征提取部分，无监督学习特征在越来越多的图像的图像识别任务中崭露头角，取得了比人工设计的特征更好的效果。Krizhevsky等人于2012年在《Advances in neuralinformation processing systems》发表的“Imagenet classification with deepconvolutional neural networks”一文，提出建立多层深度卷积网络学习具有层级的特征进行识别任务，并取得优异的效果。而在分类器的研究上，稀疏表达被证实除了可应用于图像去噪和图像还原上，在图像识别领域同样效果明显。Jiang等人于2011年在《Computer Vision and Pattern Recognition》发表的“Learning a discriminative dictionary for sparse coding via labelconsistent K-SVD”一问，提出使用LC-KSVD算法，在稀疏字典的目标函数中加入标记的约束，建立统一的稀疏字典和分类器的模型，对多分类任务唯一的稀疏字典进行识别，降低系统复杂度。

为了挖掘自然图像中表征图形图案文字的有效特征，提高分类器的准确度，以及图形图案文字检测系统的适用性，本发明使用深度卷积自编码网络无监督学习特征，同时使用样本合成的方式解决由于深度网络的参数较多而造成的过拟合问题，并使用稀疏字典作为分类器，提高了自然图像检测系统的准确性和鲁棒性。

发明内容

本发明为了解决现有技术中的问题，提出一种基于深度学习的图形图案文字检测方法，利用合成样本和深度卷积自编码网络无监督学习提取最能最佳表达训练样本的特征，并结合稀疏字典进行识别，从而提升现有图形图案文字检测方法的鲁棒性和准确性。

本发明采用以下技术方案：一种基于深度学习的图形图案文字检测方法，包括以下步骤：

步骤1：预处理：输入彩色图像，并将输入的彩色图像转为灰度图，并进行多分辨率分解，输出不同分辨率的图像；

步骤2：特征提取：对步骤1输出的每一个分辨率的图像，分别通过深度卷积自编码网络提取特征图；其中深度卷积自编码网络是通过训练获得；

步骤3：稀疏编码求解：把步骤2提取得到的所有特征图，上采样至原图大小。对该组特征图进行分块，每一块分别通过稀疏字典和线性分类器进行分类识别。

步骤4：图形图案文字定位：对步骤3输出的每个分块的分类识别结果进行区域融合，合成最终的定位结果。

进一步地，步骤1所述的多分辨率分解，具体步骤是：以灰度图为初始图像，使用高斯金字塔对初始图像进行下采样(通过对灰度图进行高斯内核卷积，并去除偶数行和偶数列)，获得第一下采样图像；以第一下采样图像为初始图像，使用高斯金字塔对初始图像进行下采样，获得第二下采样图像；重复上述步骤，获得多个下采样图像，即不同分辨率的图像。

进一步地，步骤2所述的深度卷积自编码网络是由多个卷积层级联而成，卷积层之间使用下采样层连接；每一个分辨率的图像依次通过各层计算后，最后一层卷积层的输出即为所提取的特征图，其中卷积层计算、下采样层计算的具体过程如下：

卷积层计算：

设输入图像为x，则经过单个滤波器的输出图像为

h^k _W,b(x)＝σ(W^k*x+b^k)

其中，K为卷积层包含的滤波器数量，W是滤波器的集合，b是滤波器偏移量的集合，而W^k表示第k个滤波器，b^k表示第k个滤波器的偏移量，k∈[1,K]。*是图像卷积操作符，σ是非线性激励函数。

下采样层计算：

对卷积层输出的每一个图像分别使用最大值池化进行下采样。最大化池化是取图像中每一个分块的最大值作为输出。假设输入图像x大小为n×m，用最大值池化进行下采样后的图像大小为(n/w)×(m/h)，其中，w×h为池化大小。

上述卷积层计算和下采用计算中的输入图像为：上一层计算后获得的图像，第一个卷积层的输入图像为步骤1获得的不同分辨率的图像。

进一步地，步骤2所述的深度卷积自编码网络的训练方法是使用训练集进行分层训练、整体调优。具体过程如下：

步骤2.1.1：分层训练：

当训练第i层参数时，要求除第i层参数外的其余参数保持不变，同时以前一层的输出作为后一层的输入，从接近输入端的一层开始依次向输出层训练。

设第i层的输入图像为x_i，则输出的图像是

h^k＝h^k _W,b(x_i)＝σ(W^k*x_i+b^k)

其中，*是图像卷积操作符，σ是非线性激励函数。

通过K个滤波器的输出图像可重构原图像，即

其中，是W^k旋转180°的重构矩阵，*是图像卷积操作符，c是每个通道的偏移量。

训练目标是使重构的图像与输入图像尽可能接近，即最小化

E (θ) = \frac{1}{2} {(x_{i} - y_{i})}^{2}

其中，x_i和y_i分别是单幅输入图像和对应的重构图像。

然后使用梯度下降更新网络参数值，

W^{k} = W^{k} - α \frac{&PartialD;}{{&PartialD; W}^{k}} E (θ),

b^{k} = b^{k} - α \frac{&PartialD;}{{&PartialD; b}^{k}} E (θ) .

其中，α是学习速率。

步骤2.1.2：整体调优：

对网络的参数使用梯度下降法进行整体调优。训练集中的每个训练样本x经深度卷积自编码器得到输出y，x下采样至输出y的大小为x′，以后一层重构的图像作为前一层的目标输出。每一层均使用步骤2.1.1提出的分层训练方式。

进一步地，步骤2所述的深度卷积自编码网络的训练集由多个训练样本x组成，训练样本x是通过合成的方式获得，具体过程是：从本地样本库中随机选取图片P，所述图片P包含有待检测元素，所述待检测元素包括图形、图案、文字；根据待检测元素的使用频率，生成单个检测元素或多个检测元素组合的图像Q；对图像Q进行随机的形变，所述形变包括旋转、移动、透射变换；将形变后的图像Q与随机选择的背景进行融合。其中形变后的图像Q与随机选择的背景融合过程如下：

步骤2.2.1：随机背景选取方法如下：

选取不包含检测元素的图片，从该图片中随机选取与图像Q相同大小的窗口，该窗口中的图像即所选取的背景图。若该背景图的灰度均值大于0.9或标准差小于0.2，则重新选择新的图片。

步骤2.2.2：图形图案文字与背景融合方法如下：

从均匀线性随机数生成器中取出范围是0.3到0.7的随机数β，则合成的训练样本x为：

x＝(1-β)*x_f+β*x_b

其中，x_b是背景图、x_f是字符图像。

进一步地，步骤3中所述的稀疏字典和线性分类器是通过训练获得，使用的样本是已有的标记样本，通过步骤2的特征提取，并把特征图像上采样至原图大小再进行切块获得。输入图像切块和稀疏字典训练，具体过程如下：

步骤3.1：输入图像切块：

对一张输入图像，以及其相应的标记，以步骤2使用的样本大小对图像进行50％的重叠分块。其中标记是指输入图像中图形图案文字的位置，分别使用单独的矩形来表示。若分块中图形图案文字的像素点数量大于像素总数的80％，则该分块为正样本；若分块中图形图案文字的像素点数量小于整块的像素总数的20％，则该分块为负样本；否则丢弃该分块。

步骤3.2：稀疏字典训练：

稀疏字典的目标函数是

\begin{matrix} < D, W^{'}, A, X > = \arg \min_{D, W^{'}, A, X} {| | Y - DX | |}_{2}^{2} + γ {| | E - AX | |}_{2}^{2} + μ {| | H - W^{'} X | |}_{2}^{2} \\ s . t . &ForAll; i {| | x_{i} | |}_{0} \leq T \end{matrix},

其中，Y是输入图像，D是稀疏字典，X是稀疏编码，E是单位矩阵，H是输入图像的标记值，A是转换矩阵，T是稀疏性约束，W′是线性分类器的权重，γ和μ是调整权值。

将目标函数重写为

\begin{matrix} < D, W^{'}, A, X > = \arg \min_{D, W^{'}, A, X} {| | (\begin{matrix} Y \\ \sqrt{γ} E \\ \sqrt{μ} H \end{matrix}) - (\begin{matrix} D \\ \sqrt{γ} A \\ \sqrt{μ} W^{'} \end{matrix}) | |}_{2}^{2} \\ s . t . &ForAll; i {| | x_{i} | |}_{0} \leq T \end{matrix}

并通过KSVD算法求解，得到稀疏字典即分类器参数＜D,W′,A,X＞。

进一步地，步骤3中使用稀疏字典和线性分类器进行分类识别的具体过程为：使用训练得到的稀疏字典，根据

x^{*} = \arg \min_{x} {| | y - Dx | |}_{2}^{2} s . t . {| | x | |}_{0} \leq T

求得稀疏编码x^*。

使用训练得到的线性分类器求得标签

l＝W′x^*,

则所输入的样本的分类即为l中元素最大值对应的索引。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1)本发明使用样本合成的方式结合无监督特征学习，有效解决了标记样本不足以及过拟合问题；

2)与现有技术相比，本发明采用深度卷积自编码网络无监督学习特征，避免了人工设计特征的麻烦，同时具有更强适用性，并通过挖掘图像本身的层级特征，使识别效果更加准确；

3)本发明利用图像本身信息冗余的特性，通过稀疏字典训练，在保持准确度的同时，降低训练和识别的计算复杂度。

附图说明

图1为本发明的整体流程示意图。

图2为本实施例中的不同分辨率的图像。

图3为本实施例中的检测结果。

具体实施方式

下面结合具体实施例，对本发明的技术方案做进一步的详细说明。

以下实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

本实施例对某一组带有文字位置标记的图像进行训练，并对一组不带标记的图像进行文字定位，在本发明的实施例中，该方法包括以下步骤：

步骤1：预处理：把输入的彩色图像转为灰度图，并进行多分辨率分解，输出不同分辨率的图像；

步骤2：特征提取：对步骤1输出的每一个分辨率的图像，分别通过深度卷积自编码网络提取特征图。其中深度卷积自编码网络是通过训练获得；

步骤4：文字定位：对步骤3输出的每个分块的分类识别结果进行区域融合，合成最终的定位结果。

在本实施例中，步骤1所述的多分辨率分解，具体步骤是：以灰度图为初始图像，使用高斯金字塔对初始图像进行下采样(通过对灰度图进行高斯内核卷积，并去除偶数行和偶数列)，获得第一下采样图像；以第一下采样图像为初始图像，使用高斯金字塔对初始图像进行下采样，获得第二下采样图像；重复上述步骤两次，共获得三张下采样图像，即不同分辨率的图像，如图2所示。

在本实施例中，步骤2所述的深度卷积自编码网络是由三个卷积层级联而成，卷积层之间使用下采样层连接；每一个分辨率的图像依次通过各层计算后，最后一层卷积层的输出即为所提取的特征图，其中卷积层计算、下采样层计算的具体过程如下：

卷积层计算：

设输入图像为x，x∈R^n×m,R表示实数集，是通用的数学符号；则经过单个滤波器的输出图像为

h^k _W,b(x)＝σ(W^k*x+b^k)

其中，卷积层包含的滤波器数量为16，W是滤波器的集合，b是滤波器偏移量的集合，而W^k表示第k个滤波器，b^k表示第k个滤波器的偏移量，k∈[1,16]。*是图像卷积操作符，σ是非线性激励函数。

下采样层计算：

对卷积层输出的每一个图像分别使用最大值池化进行下采样。最大化池化是取图像中每一个分块的最大值作为输出。假设输入图像大小为n×m，用最大值池化进行下采样后的图像大小为(n/2)×(m/2)，其中，池化大小为2×2。

上述卷积层计算和下采用计算中的输入图像为上一层计算后获得的图像，第一个卷积层的输入图像为步骤1获得的不同分辨率的图像。

在本实施例中，步骤2所述的深度卷积自编码网络的训练方法是使用训练集进行分层训练、整体调优。具体过程如下：

步骤2.1.1：分层训练：

设第i层的输入图像为x_i，则输出的图像是

h^k＝h^k _W,b(x_i)＝σ(W^k*x_i+b^k)

其中，*是图像卷积操作符，σ是非线性激励函数。

通过16个滤波器的输出图像可重构原图像，即

训练目标是使重构的图像与输入图像尽可能接近，即最小化

E (θ) = \frac{1}{2} {(x_{i} - y_{i})}^{2}

其中，x_i和y_i分别是单幅输入图像和对应的重构图像。

然后使用梯度下降更新网络参数值，

W^{k} = W^{k} - α \frac{&PartialD;}{{&PartialD; W}^{k}} E (θ),

b^{k} = b^{k} - α \frac{&PartialD;}{{&PartialD; b}^{k}} E (θ) .

其中，α是学习速率，值为0.001。

步骤2.1.2：整体调优：

在本实施例中，步骤2所述的深度卷积自编码网络的训练集由多个训练样本x组成，训练样本x是通过合成的方式获得，具体过程是：从本地样本库中随机选取图片P，所述图片P包含有待检测的文字；根据待检测元素的使用频率，生成单个检测元素或多个检测元素组合的图像Q；对图像Q进行随机的形变，所述形变包括旋转、移动、透射变换；将形变后的图像Q与随机选择的背景进行融合。其中形变后的图像Q与随机选择的背景融合过程如下：

步骤2.2.1：随机背景选取方法如下：

步骤2.2.2：图形图案文字与背景融合方法如下：

x＝(1-β)*x_f+β*x_b

其中，x_b是背景图、x_f是字符图像。

在本实施例中，步骤3中所述的稀疏字典和线性分类器是通过训练获得，使用的样本是已有的标记样本，通过步骤2的特征提取，并把特征图像上采样至原图大小再进行切块获得。输入图像切块和稀疏字典训练，具体过程如下：

步骤3.1：输入图像切块：

步骤3.2：稀疏字典训练：

稀疏字典的目标函数是

\begin{matrix} < D, W^{'}, A, X > = \arg \min_{D, W^{'}, A, X} {| | Y - DX | |}_{2}^{2} + γ {| | E - AX | |}_{2}^{2} + μ {| | H - W^{'} X | |}_{2}^{2} \\ s . t . &ForAll; i {| | x_{i} | |}_{0} \leq T \end{matrix},

其中，Y是输入图像；D是稀疏字典；X是稀疏编码；E是单位矩阵；H是输入图像的标记值，若Y是背景，则

H = (\begin{matrix} 1 \\ 0 \end{matrix}),

若Y是文字，则

H = (\begin{matrix} 1 \\ 0 \end{matrix});

A是转换矩阵；T是稀疏性约束，值为30；W′是线性分类器的权重；γ和μ是调整权值，分别设为16和4。

将目标函数重写为

\begin{matrix} < D, W^{'}, A, X > = \arg \min_{D, W^{'}, A, X} {| | (\begin{matrix} Y \\ \sqrt{γ} E \\ \sqrt{μ} H \end{matrix}) - (\begin{matrix} D \\ \sqrt{γ} A \\ \sqrt{μ} W^{'} \end{matrix}) | |}_{2}^{2} \\ s . t . &ForAll; i {| | x_{i} | |}_{0} \leq T \end{matrix}

在本实施例中，步骤3中使用稀疏字典和线性分类器进行分类识别的具体过程为：使用训练得到的稀疏字典，根据

x^{*} = \arg \min_{x} {| | y - Dx | |}_{2}^{2} s . t . {| | x | |}_{0} \leq T

求得稀疏编码x^*。

使用训练得到的线性分类器求得标签

l＝W′x^*,

则所输入的样本的分类即为l中元素最大值对应的索引。如图3所示，输入分块不包含文字的索引为0，即背景；输入分块包含文字的索引为1。

Claims

1.一种基于深度学习的图形图案文字检测方法，其特征在于，包括以下步骤：

2.权利要求1所述的一种基于深度学习的图形图案文字检测方法，其特征在于：步骤1所述的多分辨率分解，具体步骤是：以灰度图为初始图像，使用高斯金字塔对初始图像进行下采样(通过对灰度图进行高斯内核卷积，并去除偶数行和偶数列)，获得第一下采样图像；以第一下采样图像为初始图像，使用高斯金字塔对初始图像进行下采样，获得第二下采样图像；重复上述步骤，获得多个下采样图像，即不同分辨率的图像。

3.根据权利要求1所述的一种基于深度学习的图形图案文字检测方法，其特征在于：步骤2所述的深度卷积自编码网络是由多个卷积层级联而成，卷积层之间使用下采样层连接；每一个分辨率的图像依次通过各层计算后，最后一层卷积层的输出即为所提取的特征图，其中卷积层计算、下采样层计算的具体过程如下：

卷积层计算：

设输入图像为x，则经过单个滤波器的输出图像为

h^k _W,b(x)＝σ(W^k*x+b^k)

下采样层计算：

4.根据权利要求3所述的一种基于深度学习的图形图案文字检测方法，其特征在于：步骤2所述的深度卷积自编码网络的训练方法是使用训练集进行分层训练、整体调优。具体过程如下：

步骤2.1.1：分层训练：

设第i层的输入图像为x_i，则输出的图像是

h^k＝h^k _W,b(x_i)＝σ(W^k*x_i+b^k)

其中，*是图像卷积操作符，σ是非线性激励函数。

通过K个滤波器的输出图像可重构原图像，即

训练目标是使重构的图像与输入图像尽可能接近，即最小化

E (θ) = \frac{1}{2} {(x_{i} - y_{i})}^{2}

其中，x_i和y_i分别是单幅输入图像和对应的重构图像。

然后使用梯度下降更新网络参数值，

W^{k} = W^{k} - α \frac{&PartialD;}{&PartialD; W^{k}} E (θ),

b^{k} = b^{k} - α \frac{&PartialD;}{&PartialD; b^{k}} E (θ);

其中，α是学习速率。

步骤2.1.2：整体调优：

5.根据权利要求4所述的一种基于深度学习的图形图案文字检测方法，其特征在于：步骤2所述的深度卷积自编码网络的训练集由多个训练样本x组成，训练样本x是通过合成的方式获得，具体过程是：从本地样本库中随机选取图片P，所述图片P包含有待检测元素，所述待检测元素包括图形、图案、文字；根据待检测元素的使用频率，生成单个检测元素或多个检测元素组合的图像Q；对图像Q进行随机的形变，所述形变包括旋转、移动、透射变换；将形变后的图像Q与随机选择的背景进行融合。其中形变后的图像Q与随机选择的背景融合过程如下：

步骤2.2.1：随机背景选取方法如下：

步骤2.2.2：图形图案文字与背景融合方法如下：

x＝(1-β)*x_f+β*x_b

其中，x_b是背景图、x_f是字符图像。

6.根据权利要求1所述的一种基于深度学习的图形图案文字检测方法，其特征在于：步骤3中所述的稀疏字典和线性分类器是通过训练获得，使用的样本是已有的标记样本，通过步骤2的特征提取，并把特征图像上采样至原图大小再进行切块获得。输入图像切块和稀疏字典训练，具体过程如下：

步骤3.1：输入图像切块：

步骤3.2：稀疏字典训练：

稀疏字典的目标函数是

< D, W^{'}, A, X > = \arg \min_{D, W^{'}, A, X} {| | Y - DX | |}_{2}^{2} + γ {| | E - AX | |}_{2}^{2} + μ {| | H - W^{'} X | |}_{2}^{2}

s . t . &ForAll; i {| | x_{i} | |}_{0} \leq T,

将目标函数重写为

< D, W^{'}, A, X > = \arg \min_{D, W^{'}, A, X} {| | (\begin{matrix} Y \\ \sqrt{γ} E \\ \sqrt{μ} H \end{matrix}) - (\begin{matrix} D \\ \sqrt{γ} A \\ \sqrt{μ} W^{'} \end{matrix}) X | |}_{2}^{2}

s . t . &ForAll; i {| | x_{i} | |}_{0} \leq T

7.根据权利要求6所述的一种基于深度学习的图形图案文字检测方法，其特征在于：步骤3中使用稀疏字典和线性分类器进行分类识别的具体过程为：使用训练得到的稀疏字典，根据

x^{*} = \arg \min_{x} {| | y - Dx | |}_{2}^{2} s . t . {| | x | |}_{0} \leq T

求得稀疏编码x^*。

使用训练得到的线性分类器求得标签

l＝W′x^*,

则所输入的样本的分类即为l中元素最大值对应的索引。