CN104794504A - 基于深度学习的图形图案文字检测方法 - Google Patents

基于深度学习的图形图案文字检测方法 Download PDF

Info

Publication number
CN104794504A
CN104794504A CN201510207913.5A CN201510207913A CN104794504A CN 104794504 A CN104794504 A CN 104794504A CN 201510207913 A CN201510207913 A CN 201510207913A CN 104794504 A CN104794504 A CN 104794504A
Authority
CN
China
Prior art keywords
image
training
degree
input picture
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510207913.5A
Other languages
English (en)
Other versions
CN104794504B (zh
Inventor
于慧敏
李天豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201510207913.5A priority Critical patent/CN104794504B/zh
Publication of CN104794504A publication Critical patent/CN104794504A/zh
Application granted granted Critical
Publication of CN104794504B publication Critical patent/CN104794504B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于深度学习的图形图案文字检测方法,首先,通过图形图案文字样本合成训练深度卷积自编码网络,然后使用已标记的样本,通过稀疏字典进行分类。随机从样本库中抽取图形图案文字,并进行旋转、平移、透射等变换,再与纯背景图进行融合;之后使用合成的样本集,建立深度卷积自编码网络,并使用分层训练、整体调优的方式学习特征模板;然后对已有的标记样本,使用深度网络学习得到的特征模板进行特征提取;最后把提取的特征上采样至原图大小,并以单个分块作为识别的单位,训练稀疏字典以及分类器。在完成训练步骤后,对待处理的图像进行多分辨率分解,并使用特征模板提取特征,再使用稀疏字典进行分类获取结果。

Description

基于深度学习的图形图案文字检测方法
技术领域
本发明涉及一种计算机视觉技术领域的图形图案文字检测算法,具体为一种基于深度学习的图形图案文字检测方法。
背景技术
随着互联网的发展,网络带宽的不断提高,图像、视频由于易于理解,符合现代人快速的生活节奏,逐渐取代文本成为主要的信息传播载体。由于微博类网站对文本长度的限制,要发表较丰富的内容通常需要图文结合的方式,同时,图片分享类网站的蓬勃发展,给图像检索和理解领域带来新的机遇和挑战。
图像检索一般来说有两种方向,一种是直接基于图像的特征进行匹配,另一种是先对图像进行标记然后再基于标签进行检索。前者计算量较大,相对图像检索,文本搜索技术相对成熟,使用标签进行检索可有效利用文本搜索的成熟技术,并可通过预处理加快检索速度。标签的加注可由用户手工完成,但由于大量图片是未经标注,而且用户标注具有随意性,并一定能准确地描述图像的信息,因此图像的自动标记显得尤为重要。相比于文字,图像的冗余信息更多,而且信息不明确,使用图像中的特定的图形图案文字作为标签是有效的图像标注方案之一。
对于视频监控和基于位置的服务(LBS)等应用,通过识别图像中的图形图案文字,如招牌、标识等内容,对定位图像拍摄地点有重要的参考作用。
因此,图形图案文字检测和识别作为图像理解的重要一环,一直受到研究者的关注。自然图像中的背景复杂,图形图案文字出现的位置随机,大小随意,由于拍摄角度不同,还可能造成倾斜、旋转和透视变换等变化,这是自然图像中图形图案文字检测问题的主要难点。除了问题本身的复杂性之外,图形图案文字检测问题可使用的标记样本并不多,标记样本必须使用人工标记,十分费时。由于样本不足,设计算法时必须要控制参数的数量,同时在分类器中通常要加入正则项,避免过拟合。
总的来说,与其他图像识别的问题相似,图形图案文字检测问题的主要可分为特征提取和分类器训练两个部分。针对特征提取部分,无监督学习特征在越来越多的图像的图像识别任务中崭露头角,取得了比人工设计的特征更好的效果。Krizhevsky等人于2012年在《Advances in neuralinformation processing systems》发表的“Imagenet classification with deepconvolutional neural networks”一文,提出建立多层深度卷积网络学习具有层级的特征进行识别任务,并取得优异的效果。而在分类器的研究上,稀疏表达被证实除了可应用于图像去噪和图像还原上,在图像识别领域同样效果明显。Jiang等人于2011年在《Computer Vision and Pattern Recognition》发表的“Learning a discriminative dictionary for sparse coding via labelconsistent K-SVD”一问,提出使用LC-KSVD算法,在稀疏字典的目标函数中加入标记的约束,建立统一的稀疏字典和分类器的模型,对多分类任务唯一的稀疏字典进行识别,降低系统复杂度。
为了挖掘自然图像中表征图形图案文字的有效特征,提高分类器的准确度,以及图形图案文字检测系统的适用性,本发明使用深度卷积自编码网络无监督学习特征,同时使用样本合成的方式解决由于深度网络的参数较多而造成的过拟合问题,并使用稀疏字典作为分类器,提高了自然图像检测系统的准确性和鲁棒性。
发明内容
本发明为了解决现有技术中的问题,提出一种基于深度学习的图形图案文字检测方法,利用合成样本和深度卷积自编码网络无监督学习提取最能最佳表达训练样本的特征,并结合稀疏字典进行识别,从而提升现有图形图案文字检测方法的鲁棒性和准确性。
本发明采用以下技术方案:一种基于深度学习的图形图案文字检测方法,包括以下步骤:
步骤1:预处理:输入彩色图像,并将输入的彩色图像转为灰度图,并进行多分辨率分解,输出不同分辨率的图像;
步骤2:特征提取:对步骤1输出的每一个分辨率的图像,分别通过深度卷积自编码网络提取特征图;其中深度卷积自编码网络是通过训练获得;
步骤3:稀疏编码求解:把步骤2提取得到的所有特征图,上采样至原图大小。对该组特征图进行分块,每一块分别通过稀疏字典和线性分类器进行分类识别。
步骤4:图形图案文字定位:对步骤3输出的每个分块的分类识别结果进行区域融合,合成最终的定位结果。
进一步地,步骤1所述的多分辨率分解,具体步骤是:以灰度图为初始图像,使用高斯金字塔对初始图像进行下采样(通过对灰度图进行高斯内核卷积,并去除偶数行和偶数列),获得第一下采样图像;以第一下采样图像为初始图像,使用高斯金字塔对初始图像进行下采样,获得第二下采样图像;重复上述步骤,获得多个下采样图像,即不同分辨率的图像。
进一步地,步骤2所述的深度卷积自编码网络是由多个卷积层级联而成,卷积层之间使用下采样层连接;每一个分辨率的图像依次通过各层计算后,最后一层卷积层的输出即为所提取的特征图,其中卷积层计算、下采样层计算的具体过程如下:
卷积层计算:
设输入图像为x,则经过单个滤波器的输出图像为
hk W,b(x)=σ(Wk*x+bk)
其中,K为卷积层包含的滤波器数量,W是滤波器的集合,b是滤波器偏移量的集合,而Wk表示第k个滤波器,bk表示第k个滤波器的偏移量,k∈[1,K]。*是图像卷积操作符,σ是非线性激励函数。
下采样层计算:
对卷积层输出的每一个图像分别使用最大值池化进行下采样。最大化池化是取图像中每一个分块的最大值作为输出。假设输入图像x大小为n×m,用最大值池化进行下采样后的图像大小为(n/w)×(m/h),其中,w×h为池化大小。
上述卷积层计算和下采用计算中的输入图像为:上一层计算后获得的图像,第一个卷积层的输入图像为步骤1获得的不同分辨率的图像。
进一步地,步骤2所述的深度卷积自编码网络的训练方法是使用训练集进行分层训练、整体调优。具体过程如下:
步骤2.1.1:分层训练:
当训练第i层参数时,要求除第i层参数外的其余参数保持不变,同时以前一层的输出作为后一层的输入,从接近输入端的一层开始依次向输出层训练。
设第i层的输入图像为xi,则输出的图像是
hk=hk W,b(xi)=σ(Wk*xi+bk)
其中,*是图像卷积操作符,σ是非线性激励函数。
通过K个滤波器的输出图像可重构原图像,即
其中,是Wk旋转180°的重构矩阵,*是图像卷积操作符,c是每个通道的偏移量。
训练目标是使重构的图像与输入图像尽可能接近,即最小化
E ( θ ) = 1 2 ( x i - y i ) 2
其中,xi和yi分别是单幅输入图像和对应的重构图像。
然后使用梯度下降更新网络参数值,
W k = W k - α ∂ ∂ W k E ( θ ) ,
b k = b k - α ∂ ∂ b k E ( θ ) .
其中,α是学习速率。
步骤2.1.2:整体调优:
对网络的参数使用梯度下降法进行整体调优。训练集中的每个训练样本x经深度卷积自编码器得到输出y,x下采样至输出y的大小为x′,以后一层重构的图像作为前一层的目标输出。每一层均使用步骤2.1.1提出的分层训练方式。
进一步地,步骤2所述的深度卷积自编码网络的训练集由多个训练样本x组成,训练样本x是通过合成的方式获得,具体过程是:从本地样本库中随机选取图片P,所述图片P包含有待检测元素,所述待检测元素包括图形、图案、文字;根据待检测元素的使用频率,生成单个检测元素或多个检测元素组合的图像Q;对图像Q进行随机的形变,所述形变包括旋转、移动、透射变换;将形变后的图像Q与随机选择的背景进行融合。其中形变后的图像Q与随机选择的背景融合过程如下:
步骤2.2.1:随机背景选取方法如下:
选取不包含检测元素的图片,从该图片中随机选取与图像Q相同大小的窗口,该窗口中的图像即所选取的背景图。若该背景图的灰度均值大于0.9或标准差小于0.2,则重新选择新的图片。
步骤2.2.2:图形图案文字与背景融合方法如下:
从均匀线性随机数生成器中取出范围是0.3到0.7的随机数β,则合成的训练样本x为:
x=(1-β)*xf+β*xb
其中,xb是背景图、xf是字符图像。
进一步地,步骤3中所述的稀疏字典和线性分类器是通过训练获得,使用的样本是已有的标记样本,通过步骤2的特征提取,并把特征图像上采样至原图大小再进行切块获得。输入图像切块和稀疏字典训练,具体过程如下:
步骤3.1:输入图像切块:
对一张输入图像,以及其相应的标记,以步骤2使用的样本大小对图像进行50%的重叠分块。其中标记是指输入图像中图形图案文字的位置,分别使用单独的矩形来表示。若分块中图形图案文字的像素点数量大于像素总数的80%,则该分块为正样本;若分块中图形图案文字的像素点数量小于整块的像素总数的20%,则该分块为负样本;否则丢弃该分块。
步骤3.2:稀疏字典训练:
稀疏字典的目标函数是
< D , W &prime; , A , X > = arg min D , W &prime; , A , X | | Y - DX | | 2 2 + &gamma; | | E - AX | | 2 2 + &mu; | | H - W &prime; X | | 2 2 s . t . &ForAll; i | | x i | | 0 &le; T ,
其中,Y是输入图像,D是稀疏字典,X是稀疏编码,E是单位矩阵,H是输入图像的标记值,A是转换矩阵,T是稀疏性约束,W′是线性分类器的权重,γ和μ是调整权值。
将目标函数重写为
< D , W &prime; , A , X > = arg min D , W &prime; , A , X | | Y &gamma; E &mu; H - D &gamma; A &mu; W &prime; | | 2 2 s . t . &ForAll; i | | x i | | 0 &le; T
并通过KSVD算法求解,得到稀疏字典即分类器参数<D,W′,A,X>。
进一步地,步骤3中使用稀疏字典和线性分类器进行分类识别的具体过程为:使用训练得到的稀疏字典,根据
x * = arg min x | | y - Dx | | 2 2 s . t . | | x | | 0 &le; T
求得稀疏编码x*
使用训练得到的线性分类器求得标签
l=W′x*,
则所输入的样本的分类即为l中元素最大值对应的索引。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1)本发明使用样本合成的方式结合无监督特征学习,有效解决了标记样本不足以及过拟合问题;
2)与现有技术相比,本发明采用深度卷积自编码网络无监督学习特征,避免了人工设计特征的麻烦,同时具有更强适用性,并通过挖掘图像本身的层级特征,使识别效果更加准确;
3)本发明利用图像本身信息冗余的特性,通过稀疏字典训练,在保持准确度的同时,降低训练和识别的计算复杂度。
附图说明
图1为本发明的整体流程示意图。
图2为本实施例中的不同分辨率的图像。
图3为本实施例中的检测结果。
具体实施方式
下面结合具体实施例,对本发明的技术方案做进一步的详细说明。
以下实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
本实施例对某一组带有文字位置标记的图像进行训练,并对一组不带标记的图像进行文字定位,在本发明的实施例中,该方法包括以下步骤:
步骤1:预处理:把输入的彩色图像转为灰度图,并进行多分辨率分解,输出不同分辨率的图像;
步骤2:特征提取:对步骤1输出的每一个分辨率的图像,分别通过深度卷积自编码网络提取特征图。其中深度卷积自编码网络是通过训练获得;
步骤3:稀疏编码求解:把步骤2提取得到的所有特征图,上采样至原图大小。对该组特征图进行分块,每一块分别通过稀疏字典和线性分类器进行分类识别。
步骤4:文字定位:对步骤3输出的每个分块的分类识别结果进行区域融合,合成最终的定位结果。
在本实施例中,步骤1所述的多分辨率分解,具体步骤是:以灰度图为初始图像,使用高斯金字塔对初始图像进行下采样(通过对灰度图进行高斯内核卷积,并去除偶数行和偶数列),获得第一下采样图像;以第一下采样图像为初始图像,使用高斯金字塔对初始图像进行下采样,获得第二下采样图像;重复上述步骤两次,共获得三张下采样图像,即不同分辨率的图像,如图2所示。
在本实施例中,步骤2所述的深度卷积自编码网络是由三个卷积层级联而成,卷积层之间使用下采样层连接;每一个分辨率的图像依次通过各层计算后,最后一层卷积层的输出即为所提取的特征图,其中卷积层计算、下采样层计算的具体过程如下:
卷积层计算:
设输入图像为x,x∈Rn×m,R表示实数集,是通用的数学符号;则经过单个滤波器的输出图像为
hk W,b(x)=σ(Wk*x+bk)
其中,卷积层包含的滤波器数量为16,W是滤波器的集合,b是滤波器偏移量的集合,而Wk表示第k个滤波器,bk表示第k个滤波器的偏移量,k∈[1,16]。*是图像卷积操作符,σ是非线性激励函数。
下采样层计算:
对卷积层输出的每一个图像分别使用最大值池化进行下采样。最大化池化是取图像中每一个分块的最大值作为输出。假设输入图像大小为n×m,用最大值池化进行下采样后的图像大小为(n/2)×(m/2),其中,池化大小为2×2。
上述卷积层计算和下采用计算中的输入图像为上一层计算后获得的图像,第一个卷积层的输入图像为步骤1获得的不同分辨率的图像。
在本实施例中,步骤2所述的深度卷积自编码网络的训练方法是使用训练集进行分层训练、整体调优。具体过程如下:
步骤2.1.1:分层训练:
当训练第i层参数时,要求除第i层参数外的其余参数保持不变,同时以前一层的输出作为后一层的输入,从接近输入端的一层开始依次向输出层训练。
设第i层的输入图像为xi,则输出的图像是
hk=hk W,b(xi)=σ(Wk*xi+bk)
其中,*是图像卷积操作符,σ是非线性激励函数。
通过16个滤波器的输出图像可重构原图像,即
其中,是Wk旋转180°的重构矩阵,*是图像卷积操作符,c是每个通道的偏移量。
训练目标是使重构的图像与输入图像尽可能接近,即最小化
E ( &theta; ) = 1 2 ( x i - y i ) 2
其中,xi和yi分别是单幅输入图像和对应的重构图像。
然后使用梯度下降更新网络参数值,
W k = W k - &alpha; &PartialD; &PartialD; W k E ( &theta; ) ,
b k = b k - &alpha; &PartialD; &PartialD; b k E ( &theta; ) .
其中,α是学习速率,值为0.001。
步骤2.1.2:整体调优:
对网络的参数使用梯度下降法进行整体调优。训练集中的每个训练样本x经深度卷积自编码器得到输出y,x下采样至输出y的大小为x′,以后一层重构的图像作为前一层的目标输出。每一层均使用步骤2.1.1提出的分层训练方式。
在本实施例中,步骤2所述的深度卷积自编码网络的训练集由多个训练样本x组成,训练样本x是通过合成的方式获得,具体过程是:从本地样本库中随机选取图片P,所述图片P包含有待检测的文字;根据待检测元素的使用频率,生成单个检测元素或多个检测元素组合的图像Q;对图像Q进行随机的形变,所述形变包括旋转、移动、透射变换;将形变后的图像Q与随机选择的背景进行融合。其中形变后的图像Q与随机选择的背景融合过程如下:
步骤2.2.1:随机背景选取方法如下:
选取不包含检测元素的图片,从该图片中随机选取与图像Q相同大小的窗口,该窗口中的图像即所选取的背景图。若该背景图的灰度均值大于0.9或标准差小于0.2,则重新选择新的图片。
步骤2.2.2:图形图案文字与背景融合方法如下:
从均匀线性随机数生成器中取出范围是0.3到0.7的随机数β,则合成的训练样本x为:
x=(1-β)*xf+β*xb
其中,xb是背景图、xf是字符图像。
在本实施例中,步骤3中所述的稀疏字典和线性分类器是通过训练获得,使用的样本是已有的标记样本,通过步骤2的特征提取,并把特征图像上采样至原图大小再进行切块获得。输入图像切块和稀疏字典训练,具体过程如下:
步骤3.1:输入图像切块:
对一张输入图像,以及其相应的标记,以步骤2使用的样本大小对图像进行50%的重叠分块。其中标记是指输入图像中图形图案文字的位置,分别使用单独的矩形来表示。若分块中图形图案文字的像素点数量大于像素总数的80%,则该分块为正样本;若分块中图形图案文字的像素点数量小于整块的像素总数的20%,则该分块为负样本;否则丢弃该分块。
步骤3.2:稀疏字典训练:
稀疏字典的目标函数是
< D , W &prime; , A , X > = arg min D , W &prime; , A , X | | Y - DX | | 2 2 + &gamma; | | E - AX | | 2 2 + &mu; | | H - W &prime; X | | 2 2 s . t . &ForAll; i | | x i | | 0 &le; T ,
其中,Y是输入图像;D是稀疏字典;X是稀疏编码;E是单位矩阵;H是输入图像的标记值,若Y是背景,则 H = 1 0 , 若Y是文字,则 H = 1 0 ; A是转换矩阵;T是稀疏性约束,值为30;W′是线性分类器的权重;γ和μ是调整权值,分别设为16和4。
将目标函数重写为
< D , W &prime; , A , X > = arg min D , W &prime; , A , X | | Y &gamma; E &mu; H - D &gamma; A &mu; W &prime; | | 2 2 s . t . &ForAll; i | | x i | | 0 &le; T
并通过KSVD算法求解,得到稀疏字典即分类器参数<D,W′,A,X>。
在本实施例中,步骤3中使用稀疏字典和线性分类器进行分类识别的具体过程为:使用训练得到的稀疏字典,根据
x * = arg min x | | y - Dx | | 2 2 s . t . | | x | | 0 &le; T
求得稀疏编码x*
使用训练得到的线性分类器求得标签
l=W′x*,
则所输入的样本的分类即为l中元素最大值对应的索引。如图3所示,输入分块不包含文字的索引为0,即背景;输入分块包含文字的索引为1。

Claims (7)

1.一种基于深度学习的图形图案文字检测方法,其特征在于,包括以下步骤:
步骤1:预处理:输入彩色图像,并将输入的彩色图像转为灰度图,并进行多分辨率分解,输出不同分辨率的图像;
步骤2:特征提取:对步骤1输出的每一个分辨率的图像,分别通过深度卷积自编码网络提取特征图;其中深度卷积自编码网络是通过训练获得;
步骤3:稀疏编码求解:把步骤2提取得到的所有特征图,上采样至原图大小。对该组特征图进行分块,每一块分别通过稀疏字典和线性分类器进行分类识别。
步骤4:图形图案文字定位:对步骤3输出的每个分块的分类识别结果进行区域融合,合成最终的定位结果。
2.权利要求1所述的一种基于深度学习的图形图案文字检测方法,其特征在于:步骤1所述的多分辨率分解,具体步骤是:以灰度图为初始图像,使用高斯金字塔对初始图像进行下采样(通过对灰度图进行高斯内核卷积,并去除偶数行和偶数列),获得第一下采样图像;以第一下采样图像为初始图像,使用高斯金字塔对初始图像进行下采样,获得第二下采样图像;重复上述步骤,获得多个下采样图像,即不同分辨率的图像。
3.根据权利要求1所述的一种基于深度学习的图形图案文字检测方法,其特征在于:步骤2所述的深度卷积自编码网络是由多个卷积层级联而成,卷积层之间使用下采样层连接;每一个分辨率的图像依次通过各层计算后,最后一层卷积层的输出即为所提取的特征图,其中卷积层计算、下采样层计算的具体过程如下:
卷积层计算:
设输入图像为x,则经过单个滤波器的输出图像为
hk W,b(x)=σ(Wk*x+bk)
其中,K为卷积层包含的滤波器数量,W是滤波器的集合,b是滤波器偏移量的集合,而Wk表示第k个滤波器,bk表示第k个滤波器的偏移量,k∈[1,K]。*是图像卷积操作符,σ是非线性激励函数。
下采样层计算:
对卷积层输出的每一个图像分别使用最大值池化进行下采样。最大化池化是取图像中每一个分块的最大值作为输出。假设输入图像x大小为n×m,用最大值池化进行下采样后的图像大小为(n/w)×(m/h),其中,w×h为池化大小。
上述卷积层计算和下采用计算中的输入图像为:上一层计算后获得的图像,第一个卷积层的输入图像为步骤1获得的不同分辨率的图像。
4.根据权利要求3所述的一种基于深度学习的图形图案文字检测方法,其特征在于:步骤2所述的深度卷积自编码网络的训练方法是使用训练集进行分层训练、整体调优。具体过程如下:
步骤2.1.1:分层训练:
当训练第i层参数时,要求除第i层参数外的其余参数保持不变,同时以前一层的输出作为后一层的输入,从接近输入端的一层开始依次向输出层训练。
设第i层的输入图像为xi,则输出的图像是
hk=hk W,b(xi)=σ(Wk*xi+bk)
其中,*是图像卷积操作符,σ是非线性激励函数。
通过K个滤波器的输出图像可重构原图像,即
其中,是Wk旋转180°的重构矩阵,*是图像卷积操作符,c是每个通道的偏移量。
训练目标是使重构的图像与输入图像尽可能接近,即最小化
E ( &theta; ) = 1 2 ( x i - y i ) 2
其中,xi和yi分别是单幅输入图像和对应的重构图像。
然后使用梯度下降更新网络参数值,
W k = W k - &alpha; &PartialD; &PartialD; W k E ( &theta; ) ,
b k = b k - &alpha; &PartialD; &PartialD; b k E ( &theta; ) ;
其中,α是学习速率。
步骤2.1.2:整体调优:
对网络的参数使用梯度下降法进行整体调优。训练集中的每个训练样本x经深度卷积自编码器得到输出y,x下采样至输出y的大小为x′,以后一层重构的图像作为前一层的目标输出。每一层均使用步骤2.1.1提出的分层训练方式。
5.根据权利要求4所述的一种基于深度学习的图形图案文字检测方法,其特征在于:步骤2所述的深度卷积自编码网络的训练集由多个训练样本x组成,训练样本x是通过合成的方式获得,具体过程是:从本地样本库中随机选取图片P,所述图片P包含有待检测元素,所述待检测元素包括图形、图案、文字;根据待检测元素的使用频率,生成单个检测元素或多个检测元素组合的图像Q;对图像Q进行随机的形变,所述形变包括旋转、移动、透射变换;将形变后的图像Q与随机选择的背景进行融合。其中形变后的图像Q与随机选择的背景融合过程如下:
步骤2.2.1:随机背景选取方法如下:
选取不包含检测元素的图片,从该图片中随机选取与图像Q相同大小的窗口,该窗口中的图像即所选取的背景图。若该背景图的灰度均值大于0.9或标准差小于0.2,则重新选择新的图片。
步骤2.2.2:图形图案文字与背景融合方法如下:
从均匀线性随机数生成器中取出范围是0.3到0.7的随机数β,则合成的训练样本x为:
x=(1-β)*xf+β*xb
其中,xb是背景图、xf是字符图像。
6.根据权利要求1所述的一种基于深度学习的图形图案文字检测方法,其特征在于:步骤3中所述的稀疏字典和线性分类器是通过训练获得,使用的样本是已有的标记样本,通过步骤2的特征提取,并把特征图像上采样至原图大小再进行切块获得。输入图像切块和稀疏字典训练,具体过程如下:
步骤3.1:输入图像切块:
对一张输入图像,以及其相应的标记,以步骤2使用的样本大小对图像进行50%的重叠分块。其中标记是指输入图像中图形图案文字的位置,分别使用单独的矩形来表示。若分块中图形图案文字的像素点数量大于像素总数的80%,则该分块为正样本;若分块中图形图案文字的像素点数量小于整块的像素总数的20%,则该分块为负样本;否则丢弃该分块。
步骤3.2:稀疏字典训练:
稀疏字典的目标函数是
< D , W &prime; , A , X > = arg min D , W &prime; , A , X | | Y - DX | | 2 2 + &gamma; | | E - AX | | 2 2 + &mu; | | H - W &prime; X | | 2 2
s . t . &ForAll; i | | x i | | 0 &le; T ,
其中,Y是输入图像,D是稀疏字典,X是稀疏编码,E是单位矩阵,H是输入图像的标记值,A是转换矩阵,T是稀疏性约束,W′是线性分类器的权重,γ和μ是调整权值。
将目标函数重写为
< D , W &prime; , A , X > = arg min D , W &prime; , A , X | | Y &gamma; E &mu; H - D &gamma; A &mu; W &prime; X | | 2 2
s . t . &ForAll; i | | x i | | 0 &le; T
并通过KSVD算法求解,得到稀疏字典即分类器参数<D,W′,A,X>。
7.根据权利要求6所述的一种基于深度学习的图形图案文字检测方法,其特征在于:步骤3中使用稀疏字典和线性分类器进行分类识别的具体过程为:使用训练得到的稀疏字典,根据
x * = arg min x | | y - Dx | | 2 2 s . t . | | x | | 0 &le; T
求得稀疏编码x*
使用训练得到的线性分类器求得标签
l=W′x*,
则所输入的样本的分类即为l中元素最大值对应的索引。
CN201510207913.5A 2015-04-28 2015-04-28 基于深度学习的图形图案文字检测方法 Active CN104794504B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510207913.5A CN104794504B (zh) 2015-04-28 2015-04-28 基于深度学习的图形图案文字检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510207913.5A CN104794504B (zh) 2015-04-28 2015-04-28 基于深度学习的图形图案文字检测方法

Publications (2)

Publication Number Publication Date
CN104794504A true CN104794504A (zh) 2015-07-22
CN104794504B CN104794504B (zh) 2018-05-22

Family

ID=53559291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510207913.5A Active CN104794504B (zh) 2015-04-28 2015-04-28 基于深度学习的图形图案文字检测方法

Country Status (1)

Country Link
CN (1) CN104794504B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469047A (zh) * 2015-11-23 2016-04-06 上海交通大学 基于无监督学习深度学习网络的中文检测方法及系统
CN105608454A (zh) * 2015-12-21 2016-05-25 上海交通大学 基于文字结构部件检测神经网络的文字检测方法及系统
CN106096605A (zh) * 2016-06-02 2016-11-09 史方 一种基于深度学习的图像模糊区域检测方法及装置
CN106295629A (zh) * 2016-07-15 2017-01-04 北京市商汤科技开发有限公司 结构化文本检测方法和系统
CN106503106A (zh) * 2016-10-17 2017-03-15 北京工业大学 一种基于深度学习的图像哈希索引构建方法
CN106682419A (zh) * 2016-12-27 2017-05-17 深圳先进技术研究院 一种医学图像参数的拟合方法和装置
CN106855996A (zh) * 2016-12-13 2017-06-16 中山大学 一种基于卷积神经网络的灰阶图像着色方法及其装置
CN107169031A (zh) * 2017-04-17 2017-09-15 广东工业大学 一种基于深度表达的图片素材推荐方法
CN107657615A (zh) * 2017-11-10 2018-02-02 西安电子科技大学 基于增量cae的高分辨sar图像变化检测方法
CN107688808A (zh) * 2017-08-07 2018-02-13 电子科技大学 一种快速的自然场景文本检测方法
CN107688493A (zh) * 2016-08-05 2018-02-13 阿里巴巴集团控股有限公司 训练深度神经网络的方法、装置及系统
CN107992897A (zh) * 2017-12-14 2018-05-04 重庆邮电大学 基于卷积拉普拉斯稀疏编码的商品图像分类方法
CN108256629A (zh) * 2018-01-17 2018-07-06 厦门大学 基于卷积网络和自编码的eeg信号无监督特征学习方法
CN108564103A (zh) * 2018-01-09 2018-09-21 众安信息技术服务有限公司 数据处理方法与装置
CN108876849A (zh) * 2018-04-24 2018-11-23 哈尔滨工程大学 基于辅助标识的深度学习目标识别及定位方法
WO2018233708A1 (zh) * 2017-06-23 2018-12-27 华为技术有限公司 图像显著性物体检测方法和装置
CN109168006A (zh) * 2018-09-05 2019-01-08 高新兴科技集团股份有限公司 一种图形和图像共存的视频编解码方法
CN109697439A (zh) * 2017-10-24 2019-04-30 北京京东尚科信息技术有限公司 汉字定位方法及装置、存储介质和电子设备
CN109726719A (zh) * 2017-10-31 2019-05-07 比亚迪股份有限公司 基于自动编码器的文字识别方法、装置及计算机设备
CN110033003A (zh) * 2019-03-01 2019-07-19 华为技术有限公司 图像分割方法和图像处理装置
CN110321777A (zh) * 2019-04-25 2019-10-11 重庆理工大学 一种基于栈式卷积稀疏去噪自编码器的人脸识别方法
CN110336947A (zh) * 2019-07-15 2019-10-15 西安邮电大学 一种基于深度学习的图像识别系统
WO2019196718A1 (zh) * 2018-04-10 2019-10-17 阿里巴巴集团控股有限公司 元素图像生成方法、装置及系统
CN110490232A (zh) * 2019-07-18 2019-11-22 北京捷通华声科技股份有限公司 训练文字行方向预测模型的方法、装置、设备、介质
CN110738084A (zh) * 2018-07-20 2020-01-31 马上消费金融股份有限公司 网纹图片生成方法及装置、存储介质及电子设备
WO2020073497A1 (zh) * 2018-10-11 2020-04-16 平安科技(深圳)有限公司 中文训练图像生成方法、装置、计算机设备及存储介质
CN112733857A (zh) * 2021-01-08 2021-04-30 北京匠数科技有限公司 自动分割字符区域的图像文字检测模型训练方法及装置
CN115307582A (zh) * 2022-10-11 2022-11-08 南通电博士自动化设备有限公司 一种电线电缆的截面积测量方法
CN117314900A (zh) * 2023-11-28 2023-12-29 诺比侃人工智能科技(成都)股份有限公司 一种基于半自监督特征匹配缺陷检测方法
CN110738084B (zh) * 2018-07-20 2024-04-16 马上消费金融股份有限公司 网纹图片生成方法及装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102005029A (zh) * 2009-09-01 2011-04-06 致伸科技股份有限公司 图像处理方法及装置
CN104050471A (zh) * 2014-05-27 2014-09-17 华中科技大学 一种自然场景文字检测方法及系统
CN104268594A (zh) * 2014-09-24 2015-01-07 中安消技术有限公司 一种视频异常事件检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102005029A (zh) * 2009-09-01 2011-04-06 致伸科技股份有限公司 图像处理方法及装置
CN104050471A (zh) * 2014-05-27 2014-09-17 华中科技大学 一种自然场景文字检测方法及系统
CN104268594A (zh) * 2014-09-24 2015-01-07 中安消技术有限公司 一种视频异常事件检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ADAM COATES等: "Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning", 《2011 INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》 *

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469047B (zh) * 2015-11-23 2019-02-22 上海交通大学 基于无监督学习深度学习网络的中文检测方法及系统
CN105469047A (zh) * 2015-11-23 2016-04-06 上海交通大学 基于无监督学习深度学习网络的中文检测方法及系统
CN105608454A (zh) * 2015-12-21 2016-05-25 上海交通大学 基于文字结构部件检测神经网络的文字检测方法及系统
CN105608454B (zh) * 2015-12-21 2019-08-09 上海交通大学 基于文字结构部件检测神经网络的文字检测方法及系统
CN106096605B (zh) * 2016-06-02 2019-03-19 史方 一种基于深度学习的图像模糊区域检测方法及装置
CN106096605A (zh) * 2016-06-02 2016-11-09 史方 一种基于深度学习的图像模糊区域检测方法及装置
CN106295629A (zh) * 2016-07-15 2017-01-04 北京市商汤科技开发有限公司 结构化文本检测方法和系统
WO2018010657A1 (zh) * 2016-07-15 2018-01-18 北京市商汤科技开发有限公司 结构化文本检测方法和系统、计算设备
US10937166B2 (en) 2016-07-15 2021-03-02 Beijing Sensetime Technology Development Co., Ltd. Methods and systems for structured text detection, and non-transitory computer-readable medium
CN106295629B (zh) * 2016-07-15 2018-06-15 北京市商汤科技开发有限公司 结构化文本检测方法和系统
CN107688493B (zh) * 2016-08-05 2021-06-18 阿里巴巴集团控股有限公司 训练深度神经网络的方法、装置及系统
CN107688493A (zh) * 2016-08-05 2018-02-13 阿里巴巴集团控股有限公司 训练深度神经网络的方法、装置及系统
CN106503106B (zh) * 2016-10-17 2019-10-18 北京工业大学 一种基于深度学习的图像哈希索引构建方法
CN106503106A (zh) * 2016-10-17 2017-03-15 北京工业大学 一种基于深度学习的图像哈希索引构建方法
CN106855996B (zh) * 2016-12-13 2020-01-03 中山大学 一种基于卷积神经网络的灰阶图像着色方法及其装置
CN106855996A (zh) * 2016-12-13 2017-06-16 中山大学 一种基于卷积神经网络的灰阶图像着色方法及其装置
CN106682419B (zh) * 2016-12-27 2019-05-07 深圳先进技术研究院 一种医学图像参数的拟合方法和装置
CN106682419A (zh) * 2016-12-27 2017-05-17 深圳先进技术研究院 一种医学图像参数的拟合方法和装置
CN107169031B (zh) * 2017-04-17 2020-05-19 广东工业大学 一种基于深度表达的图片素材推荐方法
CN107169031A (zh) * 2017-04-17 2017-09-15 广东工业大学 一种基于深度表达的图片素材推荐方法
WO2018233708A1 (zh) * 2017-06-23 2018-12-27 华为技术有限公司 图像显著性物体检测方法和装置
US11430205B2 (en) 2017-06-23 2022-08-30 Huawei Technologies Co., Ltd. Method and apparatus for detecting salient object in image
CN107688808B (zh) * 2017-08-07 2021-07-06 电子科技大学 一种快速的自然场景文本检测方法
CN107688808A (zh) * 2017-08-07 2018-02-13 电子科技大学 一种快速的自然场景文本检测方法
CN109697439A (zh) * 2017-10-24 2019-04-30 北京京东尚科信息技术有限公司 汉字定位方法及装置、存储介质和电子设备
CN109726719A (zh) * 2017-10-31 2019-05-07 比亚迪股份有限公司 基于自动编码器的文字识别方法、装置及计算机设备
CN107657615B (zh) * 2017-11-10 2019-07-23 西安电子科技大学 基于增量cae的高分辨sar图像变化检测方法
CN107657615A (zh) * 2017-11-10 2018-02-02 西安电子科技大学 基于增量cae的高分辨sar图像变化检测方法
CN107992897A (zh) * 2017-12-14 2018-05-04 重庆邮电大学 基于卷积拉普拉斯稀疏编码的商品图像分类方法
CN108564103A (zh) * 2018-01-09 2018-09-21 众安信息技术服务有限公司 数据处理方法与装置
CN108256629A (zh) * 2018-01-17 2018-07-06 厦门大学 基于卷积网络和自编码的eeg信号无监督特征学习方法
CN108256629B (zh) * 2018-01-17 2020-10-23 厦门大学 基于卷积网络和自编码的eeg信号无监督特征学习方法
WO2019196718A1 (zh) * 2018-04-10 2019-10-17 阿里巴巴集团控股有限公司 元素图像生成方法、装置及系统
CN108876849A (zh) * 2018-04-24 2018-11-23 哈尔滨工程大学 基于辅助标识的深度学习目标识别及定位方法
CN108876849B (zh) * 2018-04-24 2021-11-23 哈尔滨工程大学 基于辅助标识的深度学习目标识别及定位方法
CN110738084A (zh) * 2018-07-20 2020-01-31 马上消费金融股份有限公司 网纹图片生成方法及装置、存储介质及电子设备
CN110738084B (zh) * 2018-07-20 2024-04-16 马上消费金融股份有限公司 网纹图片生成方法及装置、存储介质及电子设备
CN109168006A (zh) * 2018-09-05 2019-01-08 高新兴科技集团股份有限公司 一种图形和图像共存的视频编解码方法
WO2020073497A1 (zh) * 2018-10-11 2020-04-16 平安科技(深圳)有限公司 中文训练图像生成方法、装置、计算机设备及存储介质
CN110033003A (zh) * 2019-03-01 2019-07-19 华为技术有限公司 图像分割方法和图像处理装置
WO2020177651A1 (zh) * 2019-03-01 2020-09-10 华为技术有限公司 图像分割方法和图像处理装置
CN110033003B (zh) * 2019-03-01 2023-12-15 华为技术有限公司 图像分割方法和图像处理装置
CN110321777B (zh) * 2019-04-25 2023-03-28 重庆理工大学 一种基于栈式卷积稀疏去噪自编码器的人脸识别方法
CN110321777A (zh) * 2019-04-25 2019-10-11 重庆理工大学 一种基于栈式卷积稀疏去噪自编码器的人脸识别方法
CN110336947A (zh) * 2019-07-15 2019-10-15 西安邮电大学 一种基于深度学习的图像识别系统
CN110490232A (zh) * 2019-07-18 2019-11-22 北京捷通华声科技股份有限公司 训练文字行方向预测模型的方法、装置、设备、介质
CN110490232B (zh) * 2019-07-18 2021-08-13 北京捷通华声科技股份有限公司 训练文字行方向预测模型的方法、装置、设备、介质
CN112733857A (zh) * 2021-01-08 2021-04-30 北京匠数科技有限公司 自动分割字符区域的图像文字检测模型训练方法及装置
CN112733857B (zh) * 2021-01-08 2021-10-15 北京匠数科技有限公司 自动分割字符区域的图像文字检测模型训练方法及装置
CN115307582A (zh) * 2022-10-11 2022-11-08 南通电博士自动化设备有限公司 一种电线电缆的截面积测量方法
CN117314900A (zh) * 2023-11-28 2023-12-29 诺比侃人工智能科技(成都)股份有限公司 一种基于半自监督特征匹配缺陷检测方法
CN117314900B (zh) * 2023-11-28 2024-03-01 诺比侃人工智能科技(成都)股份有限公司 一种基于半自监督特征匹配缺陷检测方法

Also Published As

Publication number Publication date
CN104794504B (zh) 2018-05-22

Similar Documents

Publication Publication Date Title
CN104794504A (zh) 基于深度学习的图形图案文字检测方法
CN109726657B (zh) 一种深度学习场景文本序列识别方法
CN110276402B (zh) 一种基于深度学习语义边界增强的盐体识别方法
CN108460403A (zh) 一种图像中多尺度特征融合的目标检测方法与系统
CN108230339A (zh) 一种基于伪标签迭代标注的胃癌病理切片标注补全方法
CN107729865A (zh) 一种手写体数学公式离线识别方法及系统
JP2014232533A (ja) Ocr出力検証システム及び方法
CN110334724B (zh) 基于lstm的遥感对象自然语言描述及多尺度矫正方法
CN101714262A (zh) 单幅图像的三维场景重建方法
CN110188762B (zh) 中英文混合商户门店名称识别方法、系统、设备及介质
Weinman et al. Deep neural networks for text detection and recognition in historical maps
CN105608454A (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
CN112347908B (zh) 一种基于空间分组注意力模型的外科手术器械图像识别方法
CN109977958A (zh) 一种离线手写体数学公式识别重构方法
CN109635805A (zh) 图像文本定位方法及装置、图像文本识别方法及装置
Dong et al. High-resolution land cover mapping through learning with noise correction
CN112418209A (zh) 文字识别方法、装置、计算机设备及存储介质
CN113888547A (zh) 基于gan网络的无监督域自适应遥感道路语义分割方法
CN111241970A (zh) 基于yolov3算法与滑动窗口策略的SAR影像海面舰船检测方法
CN109492610A (zh) 一种行人重识别方法、装置及可读存储介质
Zhou et al. ECA-mobilenetv3 (large)+ SegNet model for binary sugarcane classification of remotely sensed images
CN110580507A (zh) 一种城市肌理分类识别方法
CN104899551B (zh) 一种表单图像分类方法
CN110768864B (zh) 一种网络流量批量生成图像的方法及装置
CN112801109A (zh) 一种基于多尺度特征融合的遥感图像分割方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant