CN110321894A - 一种基于深度学习ocr的图书馆图书快速定位方法 - Google Patents

一种基于深度学习ocr的图书馆图书快速定位方法 Download PDF

Info

Publication number
CN110321894A
CN110321894A CN201910326586.3A CN201910326586A CN110321894A CN 110321894 A CN110321894 A CN 110321894A CN 201910326586 A CN201910326586 A CN 201910326586A CN 110321894 A CN110321894 A CN 110321894A
Authority
CN
China
Prior art keywords
books
label
convblock
size
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910326586.3A
Other languages
English (en)
Other versions
CN110321894B (zh
Inventor
方路平
盛邱煬
潘�清
李心怡
曹平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910326586.3A priority Critical patent/CN110321894B/zh
Publication of CN110321894A publication Critical patent/CN110321894A/zh
Application granted granted Critical
Publication of CN110321894B publication Critical patent/CN110321894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度学习OCR的图书馆图书快速定位方法,包括以下步骤:(1)书脊识别准备:拍摄目标书籍所在书架区域的照片作为输入图像,并输入目标书籍的编号;(2)标签区域检测:使用FCN‑32定位输入图像中的标签区域,将标签区域子图切割出馈送至(3);(3)标签文字识别:使用卷积模块+序列模块+解译模块三层模块级联的深度学习OCR方法识别标签区域子图中的文字,即识别出书籍编号,并被馈送至(4);(4)目标书籍定位步骤:将识别出的所有书籍编号与读者输入的目标书籍编号进行相似性匹配,相似性最高的书籍编号对应的文字区域在照片中被醒目标识出来。本发明在查阅图书时能更快更方便地找出目标书籍。

Description

一种基于深度学习OCR的图书馆图书快速定位方法
技术领域
本发明涉及光学字符识别、深度学习领域,具体为一种基于深度学习OCR的图书馆图书快速定位方法。
背景技术
图书馆是整理、收藏图书供人阅览的机构,是人们最常用的获取信息的渠道之一。人们去图书馆查阅图书时,通常会首先使用终端主机查阅目标书籍的馆藏信息,了解其所在区域。图书在书架上的摆放很密集,标签字体很小,找出目标书籍需逐一辨别书名或标签,比较吃力,对于视力不佳者、行动不便者而言尤其如此。使用技术手段来协助人们方便快捷地从书架上定位目标书籍具有现实意义。
图书馆的图书通常以一定的规则被编号收录。其编号及部分基本信息记录在一张矩形标签上,而矩形标签则被粘贴在图书的书脊上。图书的摆放形式通常是书脊朝外的,以便读者查阅。如果能利用智能手机的拍照功能并对于照片中的图书标签进行自动定位识别,则可以帮助读者快速找到目标书籍。传统的基于模板匹配或支持向量机的OCR(OpticalCharacter Recognition,光学字符识别)算法通常要求文字版面简单可分性强,字体工整。对于识别图书馆图书标签文字而言,传统OCR技术易受到场景的复杂性(如光照、不相关文字区域),文字的复杂性(如字号、字体)等问题的干扰,达不到较好的识别效果。
发明内容
针对已有图书馆图书查阅方式不方便的问题,为了使人们可以在查阅图书时更快更方便地找出目标书籍,本发明提供了一种基于深度学习OCR的图书馆图书快速定位方法。
本发明解决其技术问题所采用的技术方案是:
一种基于深度学习OCR的图书馆图书快速定位方法,设读者已通过查阅图书馆终端主机等方式获知目标书籍所在区域,以及目标书籍的编号,包括以下步骤:
(1)书脊识别准备:拍摄目标书籍所在书架区域的照片作为输入图像,并输入目标书籍的编号;
(2)标签区域检测:使用FCN-32定位输入图像中的标签区域,并将标签区域子图切割出馈送至下一步骤;
(3)标签文字识别:使用基于卷积模块+序列模块+解译模块三层模块级联的深度学习OCR方法识别标签区域子图中的文字,即识别出书籍编号,识别出的书籍编号被馈送至下一步骤;所述标签文字识别的过程如下:
(31)接受步骤(2)中获得的标签区域子图,调整至固定尺寸,输入至三层深度OCR网络中进行文字行识别;
(32)卷积模块基于传统深度卷积网络和STN(Spatial Transformer Network,空间变换网络)结构实现,接受固定尺寸的标签区域子图,并提取其所包含的不同方向、字号、字体的文字的字符特征;
(33)序列模块基于两个叠加的双向LSTM(Bi-directional Long Short-TermMemory Network,长短期记忆网络)实现,接受来自卷积模块的字符特征序列,并预测特征序列中每一帧的标签分布;
(34)解译模块基于CTC(Connectionist Temporal Classification,联结时序分类器)实现,解译是将序列模块输出的每帧类别预测转换为标签文字序列的过程,在网络训练阶段,CTC被当作损失函数使用,避免了训练数据的额外对齐处理,以实现端到端的训练;
(4)目标书籍定位步骤:将识别出的所有书籍编号与读者输入的目标书籍编号进行相似性匹配,相似性最高的书籍编号对应的文字区域在照片中被醒目标识出来,即完成对目标书籍的定位。
所述(31)中,深度OCR网络由卷积模块、序列模块、解译模块三层模块级联实现,接受固定尺寸的标签区域子图以进行文字行识别。
进一步,所述(32)的处理过程如下:
(321)卷积模块基于传统深度卷积网络和STN(Spatial Transformer Network,空间变换网络)结构实现,接受固定尺寸的标签区域子图,并提取其所包含的不同方向、字号、字体的文字的字符特征;
(322)STN主要由三个部分组成,定位网络、网格生成器和像素采样器,其中,定位网络接受任意通道数的特征图,输出一个形状为(2,3)仿射变换参数表θ,θ中的6个参数实现对特征图不同程度的平移、旋转、缩放和剪切变换,网格生成器Tθ(G)用于得到输出特征图的坐标点对应的输入特征图的坐标点的位置,其计算方式如下:
其中,θ为定位网络输出的仿射变换参数表。xi,yi代表像素i的坐标。s代表输入特征图,t代表输出特征图,像素采样器利用插值方法计算出某坐标位置上的像素的强度。具体的插值计算方式如下所示:
Vi c为输出特征图中c通道上像素i的强度值,为输入特征图中c通道上坐标为(n,m)的像素的强度值;
(323)卷积模块的主结构为4个级联的ConvBlock。ConvBlock由卷积激活层和池化层组成。在卷积激活层中,卷积层的卷积核尺寸为3×3,步长为1,并具有补零运算,激活层激活函数为Relu。而池化层执行2×2的下采样运算。设输入图像尺寸为l×w,ConvBlock-1包含2个通道数为64的卷积激活层和一个池化层,输出特征图尺寸为(l/2,w/2,64)。ConvBlock-2包含2个通道数为128的卷积激活层和一个池化层,输出特征图尺寸为(l/4,w/4,128);ConvBlock-3包含2个通道数为256的卷积激活层和一个池化层,输出特征图尺寸为(l/8,w/8,256)。ConvBlock-4包含2个通道数为512的卷积激活层和一个池化层,输出特征图尺寸为(l/16,w/16,512);此外,ConvBlock-1和ConvBlock-2之间加入了STN结构,为STN-1。ConvBlock-2和ConvBlock-3之间也加入了STN结构,为STN-2,ConvBlock-4的输出被作为卷积模块的输出馈送至下一个模块,即序列模块。
再进一步,所述(33)的处理过程如下:
(331)一个基本的LSTM结构由一个cell和三个门组成。三个门分别为输入门i、输出门o和遗忘门g,基本LSTM的前向计算如下式所示:
ft=σg(Wfxt+Ufht-1+bf)
it=σg(Wixt+Uiht-1+bi)
ot=σg(Woxt+Uoht-1+bo)
ct=ftct-1+itσc(Wcxt+Ucht-1+bc)
ht=otσg(ct)
其中,运算定义为Hadamard乘积,t代表时间步。c0和h0值为0。xt∈Rd为LSTM的输入向量,ft∈Rh为遗忘门激活向量,it∈Rh为输入门的激活向量,ot∈Rh为输出门的激活向量。ht∈Rh为隐状态向量,也是LSTM的输出变量。ct∈Rh为cell状态向量。W∈Rh×d,U∈Rh×h和b∈Rh分别为权重参数和偏置向量参数。d和h分别为输入特征的数量和隐藏单元的数量。σg为Sigmoid函数,如下式所示:
σc和σh为双曲正切函数,如下式所示:
其中,x为函数输入,e为自然对底数。
(332)双向LSTM是两个方向相反的基本LSTM的堆叠。其中,基本LSTM的cell数量为256,则整个双向LSTM的cell数量为512;
(333)序列模块由两个双向LSTM结构堆叠组成。第一个双向LSTM接收卷积模块的输出,则输入为形如(l/8,w/8,256)的特征图,在序列模块中,该特征图被视为一个长l/8的序列数据,其中单帧的序列数据形如(w/8,256),第二个双向LSTM输出形如(l/8,w/8,512)的特征图,最后接上一个全连接层,输出为每一帧内文字的类别预测概率。
更进一步,所述(34)的处理过程如下:
(341)CTC损失函数L如下式所示:
其中,p(z|x)代表给定输入x,输出序列z的概率,S为训练集;
(342)在使用阶段,CTC将直接输出标签文字序列的识别结果。识别出的标签文字被馈送至步骤(4)。
所述步骤(1)中,书脊识别准备过程如下:
(11)读者使用随身智能终端(智能手机、平板电脑等)拍摄书架区域,获得多本书籍书脊标签区域清晰的照片;
(12)读者输入目标书籍的编号;
(13)拍摄的照片被作为输入图像进行预处理。预处理主要包括:光线矫正,模糊矫正。
所述(2)中,标签区域检测过程如下:
(21)FCN-32(Fully Convolutional Network,全卷积神经网络)对来自(1)的输入图像进行分割,分割出一系列标签区域掩码;
(22)利用二值图像连通性分析技术和图像处理算法处理标签区域分割掩码,得到一系列形状规则的连通区域。这些连通区域对应的原图位置即标签文字所在处。计算并记录每个连通区域的位置(在图中的具体坐标值);
(23)根据记录的团标号及对应位置信息,通过图像的膨胀和腐蚀运算,使各个团变化为形状规则的连通区域;
(24)根据获得的连通区域轮廓及对应位置信息,从原图像中切割出所有的标签区域子图,馈送至步骤(3)。
进一步,所述(21)的处理过程如下:
(211)FCN-32由级联的5个ConvBlock、2个FcBlock、上采样层和输出层组成,ConvBlock由卷积激活层和池化层组成。在卷积激活层中,卷积层卷积核尺寸为3×3,步长为1,并具有补零运算。激活层激活函数为Relu。而池化层执行2×2的下采样运算。设输入图像尺寸为L×W,ConvBlock-1包含2个通道数为64的卷积激活层和一个池化层,输出特征图尺寸为(L/2,W/2,64)。ConvBlock-2包含2个通道数为64的卷积激活层和一个池化层,输出特征图尺寸为(L/4,W/4,64)。ConvBlock-3包含3个通道数为256的卷积激活层和一个池化层,输出特征图尺寸为(L/8,W/8,256)。ConvBlock-4包含3个通道数为512的卷积激活层和一个池化层,输出特征图尺寸为(L/16,W/16,512)。ConvBlock-5包含3个通道数为512的卷积激活层和一个池化层,输出特征图尺寸为(L/32,W/32,512)。FcBlock-1由2个通道数为4096的卷积激活层组成,输出特征图尺寸为(L/32,W/32,4096)。FcBlock-2由1个通道数为2的卷积层组成,输出特征图尺寸为(L/32,W/32,2)。上采样层使用双线性插值算法恢复特征图尺寸,输出特征图尺寸为(L,W,2)。输出层使用Softmax函数。
(212)双线性插值算法如下所述:
假设待插值位置坐标为(x,y),已知四个点的值分别为Q11=(x1,y1)、Q12=(x1,y2)、Q21=(x2,y1)和Q22=(x2,y2),则双线性插值结果f(x,y)为:
计算获得的f(x,y)值需要先取整再进行插值。
(213)Softmax函数σ(z)如下式所示:
其中,z为一K维向量,e为自然对底数,输出层输出尺寸为(L,W,2)的预测概率图。最终,根据设定的阈值,将预测概率图转化为输入图像的分割掩码。
所述(22)的过程如下:
(221)在二值图像连通性分析技术中,首先逐行扫描图像,每一行中连续的白色像素区域称为一个团。记录下每个团的起点、终点及所在行的编号;
(222)对所有的非第一行内的团,如果它与前一行中的所有团都没有重合区域,则给予它一个新的标号,若与上一行的团有重合区域,则给予它上一个团的标号,若与多个团重合,则将这些团标记为等价对;
(223)遍历所有团,将各个等价对内的团都标记为同一标号。最后记录所有的团标号及对应位置。
所述步骤(4)中,目标书籍定位过程如下:
(41)从步骤(3)中识别到的标签文字中提取出所有书籍编号;
(42)建立书籍编号和标签区域位置间的映射关系,并将所有书籍编号与读者输入的目标书籍编号进行相似度匹配;
(43)根据储存的标签区域位置坐标,将相似度最高的识别编号对应的标签区域在原图像中醒目标识出,即完成对目标书籍的定位;。
(44)若不存在某一识别编号相似度高于设定阈值,则反馈读者,目标书籍不在此处,读者应另选书架区域,并重新以步骤(1)(2)(3)(4)的顺序定位目标书籍。
本发明采用基于深度学习的OCR方法,较好弥补了现有技术的缺点,可以实现复杂场景下的标签区域的鲁棒定位,对于各种不同字号、字体、色彩、方向的文字也通常具有更好的识别效果。
本发明的有益效果主要表现在:实现复杂场景下的标签区域的鲁棒定位,具有更好的识别效果。
附图说明
图1为本发明的流程示意图,共四个步骤,包含(1)书脊识别准备、(2)标签区域检测、(3)标签文字识别、(4)目标书籍定位。
图2为标签区域检测步骤中应用的FCN-32。FCN-32由5个ConvBlock、2个FcBlock、上采样层和输出层组成。5个ConvBlock分别为ConvBlock-1、ConvBlock-2、ConvBlock-3、ConvBlock-4、ConvBlock-5。2个FcBlock分别为FcBlock-1和FcBlock-2。上采样层使用双线性插值算法恢复图像分辨率,输出层使用Softmax函数。设输入图像尺寸为(L,W),网络每个部分都标注了输出特征图尺寸。
图3为FCN输出的包含了一系列标签区域掩码的分割图像。
图4为STN结构示意图。主要由三个部分组成,定位网络、网格生成器和像素采样器。
图5为卷积模块示意图。主结构为4个级联的ConvBlock,分别为ConvBlock-1、ConvBlock-2、ConvBlock-3和ConvBlock-4。ConvBlock-1和ConvBlock-2之间加入了STN结构,为STN-1。ConvBlock-2和ConvBlock-3之间也加入了STN结构,为STN-2。设输入图像尺寸为(l,w),网络每个部分都标注了输出特征图尺寸。
图6为基本的LSTM结构示意图。由一个cell和三个门组成。三个门分别为输入门i、输出门o和遗忘门g。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图6,一种基于深度学习OCR的图书馆图书快速定位方法,设读者已通过查阅图书馆终端主机等方式获知目标书籍所在区域,以及目标书籍的编号,包括以下步骤:
(1)书脊识别准备:读者使用随身智能终端(智能手机、平板电脑等)拍摄目标书籍所在书架区域的照片作为输入图像,并输入目标书籍的编号;
(2)标签区域检测:使用FCN-32定位输入图像中的标签区域,并将标签区域子图切割出馈送至下一步骤;
(3)标签文字识别:使用卷积模块+序列模块+解译模块三层模块级联的深度学习OCR方法识别标签区域子图中的文字,即识别出书籍编号,识别出的书籍编号被馈送至下一步骤;所述标签文字识别的过程如下:
(31)接受步骤(2)中获得的标签区域子图,调整至固定尺寸,输入至三层深度OCR网络中进行文字行识别;
(32)卷积模块基于传统深度卷积网络和STN(Spatial Transformer Network,空间变换网络)结构实现,接受固定尺寸的标签区域子图,并提取其所包含的不同方向、字号、字体的文字的字符特征;
(33)序列模块基于两个叠加的双向LSTM(Bi-directional Long Short-TermMemory Network,长短期记忆网络)实现,接受来自卷积模块的字符特征序列,并预测特征序列中每一帧的标签分布;
(34)解译模块基于CTC(Connectionist Temporal Classification,联结时序分类器)实现,解译是将序列模块输出的每帧类别预测转换为标签文字序列的过程,在网络训练阶段,CTC被当作损失函数使用,避免了训练数据的额外对齐处理,以实现端到端的训练;
(4)目标书籍定位步骤:将识别出的所有书籍编号与读者输入的目标书籍编号进行相似性匹配。相似性最高的书籍编号对应的文字区域在照片中被醒目标识出来,即完成对目标书籍的定位。
所述(31)中,深度OCR网络由卷积模块、序列模块、解译模块三层模块级联实现,接受固定尺寸的标签区域子图以进行文字行识别。
进一步,所述(32)的处理过程如下:
(321)卷积模块基于传统深度卷积网络和STN(Spatial Transformer Network,空间变换网络)结构实现,接受固定尺寸的标签区域子图,并提取其所包含的不同方向、字号、字体的文字的字符特征;
(322)STN主要由三个部分组成,定位网络、网格生成器和像素采样器,其中,定位网络接受任意通道数的特征图,输出一个形状为(2,3)仿射变换参数表θ,θ中的6个参数实现对特征图不同程度的平移、旋转、缩放和剪切变换,网格生成器Tθ(G)用于得到输出特征图的坐标点对应的输入特征图的坐标点的位置,其计算方式如下:
其中,θ为定位网络输出的仿射变换参数表。xi,yi代表像素i的坐标。s代表输入特征图,t代表输出特征图,像素采样器利用插值方法计算出某坐标位置上的像素的强度。具体的插值计算方式如下所示:
Vi c为输出特征图中c通道上像素i的强度值,为输入特征图中c通道上坐标为(n,m)的像素的强度值;
(323)卷积模块的主结构为4个级联的ConvBlock。ConvBlock由卷积激活层和池化层组成。在卷积激活层中,卷积层的卷积核尺寸为3×3,步长为1,并具有补零运算,激活层激活函数为Relu。而池化层执行2×2的下采样运算。设输入图像尺寸为1×w,ConvBlock-1包含2个通道数为64的卷积激活层和一个池化层,输出特征图尺寸为(l/2,w/2,64)。ConvBlock-2包含2个通道数为128的卷积激活层和一个池化层,输出特征图尺寸为(l/4,w/4,128);ConvBlock-3包含2个通道数为256的卷积激活层和一个池化层,输出特征图尺寸为(l/8,w/8,256)。ConvBlock-4包含2个通道数为512的卷积激活层和一个池化层,输出特征图尺寸为(l/16,w/16,512);此外,ConvBlock-1和ConvBlock-2之间加入了STN结构,为STN-1。ConvBlock-2和ConvBlock-3之间也加入了STN结构,为STN-2,ConvBlock-4的输出被作为卷积模块的输出馈送至下一个模块,即序列模块。
再进一步,所述(33)的处理过程如下:
(331)一个基本的LSTM结构由一个cell和三个门组成。三个门分别为输入门i、输出门o和遗忘门g,基本LSTM的前向计算如下式所示:
ft=σg(Wfxt+Ufht-1+bf)
it=σg(Wixt+Uiht-1+bi)
ot=σg(Woxt+Uoht-1+bo)
ct=ftct-1+itσc(Wcxt+Ucht-1+bc)
ht=otσg(ct)
其中,运算定义为Hadamard乘积,t代表时间步。c0和h0值为0。xt∈Rd为LSTM的输入向量,ft∈Rh为遗忘门激活向量,it∈Rh为输入门的激活向量,ot∈Rh为输出门的激活向量。ht∈Rh为隐状态向量,也是LSTM的输出变量。ct∈Rh为cell状态向量。W∈Rh×d,U∈Rh×h和b∈Rh分别为权重参数和偏置向量参数。d和h分别为输入特征的数量和隐藏单元的数量。σg为Sigmoid函数,如下式所示:
σc和σh为双曲正切函数,如下式所示:
其中,x为函数输入,e为自然对底数。
(332)双向LSTM是两个方向相反的基本LSTM的堆叠。其中,基本LSTM的cell数量为256,则整个双向LSTM的cell数量为512;
(333)序列模块由两个双向LSTM结构堆叠组成。第一个双向LSTM接收卷积模块的输出,则输入为形如(l/8,w/8,256)的特征图,在序列模块中,该特征图被视为一个长l/8的序列数据,其中单帧的序列数据形如(w/8,256),第二个双向LSTM输出形如(l/8,w/8,512)的特征图,最后接上一个全连接层,输出为每一帧内文字的类别预测概率。
更进一步,所述(34)的处理过程如下:
(341)CTC损失函数L如下式所示:
其中,p(z|x)代表给定输入x,输出序列z的概率,S为训练集;
(342)在使用阶段,CTC将直接输出标签文字序列的识别结果。识别出的标签文字被馈送至步骤(4)。
所述步骤(1)中,书脊识别准备过程如下:
(11)读者使用随身智能终端(智能手机、平板电脑等)拍摄书架区域,获得多本书籍书脊标签区域清晰的照片;
(12)读者输入目标书籍的编号;
(13)拍摄的照片被作为输入图像进行预处理。预处理主要包括:光线矫正,模糊矫正。
所述(2)中,标签区域检测过程如下:
(21)FCN-32(Fully Convolutional Network,全卷积神经网络)对来自(1)的输入图像进行分割,分割出一系列标签区域掩码;所述(21)的过程如下:
(211)FCN-32由级联的5个ConvBlock、2个FcBlock、上采样层和输出层组成,ConvBlock由卷积激活层和池化层组成。在卷积激活层中,卷积层卷积核尺寸为3×3,步长为1,并具有补零运算。激活层激活函数为Relu。而池化层执行2×2的下采样运算。设输入图像尺寸为L×W,ConvBlock-1包含2个通道数为64的卷积激活层和一个池化层,输出特征图尺寸为(L/2,W/2,64)。ConvBlock-2包含2个通道数为64的卷积激活层和一个池化层,输出特征图尺寸为(L/4,W/4,64)。ConvBlock-3包含3个通道数为256的卷积激活层和一个池化层,输出特征图尺寸为(L/8,W/8,256)。ConvBlock-4包含3个通道数为512的卷积激活层和一个池化层,输出特征图尺寸为(L/16,W/16,512)。ConvBlock-5包含3个通道数为512的卷积激活层和一个池化层,输出特征图尺寸为(L/32,W/32,512)。FcBlock-1由2个通道数为4096的卷积激活层组成,输出特征图尺寸为(L/32,W/32,4096)。FcBlock-2由1个通道数为2的卷积层组成,输出特征图尺寸为(L/32,W/32,2)。上采样层使用双线性插值算法恢复特征图尺寸,输出特征图尺寸为(L,W,2)。输出层使用Softmax函数。
(212)双线性插值算法如下所述:
假设待插值位置坐标为(x,y),已知四个点的值分别为Q11=(x1,y1)、Q12=(x1,y2)、Q21=(x2,y1)和Q22=(x2,y2),则双线性插值结果f(x,y)为:
计算获得的f(x,y)值需要先取整再进行插值。
(213)Softmax函数σ(z)如下式所示:
其中,z为一K维向量,e为自然对底数,输出层输出尺寸为(L,W,2)的预测概率图。最终,根据设定的阈值,将预测概率图转化为输入图像的分割掩码。
(22)利用二值图像连通性分析技术和图像处理算法处理标签区域分割掩码,得到一系列形状规则的连通区域。这些连通区域对应的原图位置即标签文字所在处,计算并记录每个连通区域的位置(在图中的具体坐标值);所述(22)的过程如下:
(221)在二值图像连通性分析技术中,首先逐行扫描图像,每一行中连续的白色像素区域称为一个团。记录下每个团的起点、终点及所在行的编号;
(222)对所有的非第一行内的团,如果它与前一行中的所有团都没有重合区域,则给予它一个新的标号,若与上一行的团有重合区域,则给予它上一个团的标号,若与多个团重合,则将这些团标记为等价对;
(223)遍历所有团,将各个等价对内的团都标记为同一标号。最后记录所有的团标号及对应位置;
(23)根据记录的团标号及对应位置信息,通过图像的膨胀和腐蚀运算,使各个团变化为形状规则的连通区域;
(24)根据获得的连通区域轮廓及对应位置信息,从原图像中切割出所有的标签区域子图,馈送至步骤(3)。
所述步骤(4)中,目标书籍定位过程如下:
(41)从步骤(3)中识别到的标签文字中提取出所有书籍编号;
(42)建立书籍编号和标签区域位置间的映射关系,并将所有书籍编号与读者输入的目标书籍编号进行相似度匹配;
(43)根据储存的标签区域位置坐标,将相似度最高的识别编号对应的标签区域在原图像中醒目标识出,即完成对目标书籍的定位;。
(44)若不存在某一识别编号相似度高于设定阈值,则反馈读者,目标书籍不在此处,读者应另选书架区域,并重新以步骤(1)(2)(3)(4)的顺序定位目标书籍。

Claims (10)

1.一种基于深度学习OCR的图书馆图书快速定位方法,其特征在于,设读者已通过查阅图书馆终端主机等方式获知目标书籍所在区域,以及目标书籍的编号,包括以下步骤:
(1)书脊识别准备:拍摄目标书籍所在书架区域的照片作为输入图像,并输入目标书籍的编号;
(2)标签区域检测:使用FCN-32定位输入图像中的标签区域,并将标签区域子图切割出馈送至下一步骤;
(3)标签文字识别:使用卷积模块+序列模块+解译模块三层模块级联的深度学习OCR方法识别标签区域子图中的文字,即识别出书籍编号,识别出的书籍编号被馈送至下一步骤;所述标签文字识别的过程如下:
(31)接受步骤(2)中获得的标签区域子图,调整至固定尺寸,输入至三层深度OCR网络中进行文字行识别;
(32)卷积模块基于传统深度卷积网络和空间变换网络STN结构实现,接受固定尺寸的标签区域子图,并提取其所包含的不同方向、字号、字体的文字的字符特征;
(33)序列模块基于两个叠加的双向LSTM实现,接受来自卷积模块的字符特征序列,并预测特征序列中每一帧的标签分布;
(34)解译模块基于CTC实现,解译是将序列模块输出的每帧类别预测转换为标签文字序列的过程,在网络训练阶段,CTC被当作损失函数使用,避免了训练数据的额外对齐处理,以实现端到端的训练;
(4)目标书籍定位步骤:将识别出的所有书籍编号与读者输入的目标书籍编号进行相似性匹配,相似性最高的书籍编号对应的文字区域在照片中被醒目标识出来,即完成对目标书籍的定位。
2.如权利要求1所述的一种基于深度学习OCR的图书馆图书快速定位方法,其特征在于,所述(31)中,深度OCR网络由卷积模块、序列模块、解译模块三层模块级联实现,接受固定尺寸的标签区域子图以进行文字行识别。
3.如权利要求1或2所述的一种基于深度学习OCR的图书馆图书快速定位方法,其特征在于,所述(32)的处理过程如下:
(321)卷积模块基于传统深度卷积网络和空间变换网络STN结构实现,接受固定尺寸的标签区域子图,并提取其所包含的不同方向、字号、字体的文字的字符特征;
(322)STN由三个部分组成,定位网络、网格生成器和像素采样器,其中,定位网络接受任意通道数的特征图,输出一个形状为(2,3)仿射变换参数表θ,θ中的6个参数实现对特征图不同程度的平移、旋转、缩放和剪切变换,网格生成器Tθ(G)用于得到输出特征图的坐标点对应的输入特征图的坐标点的位置,其计算方式如下:
其中,θ为定位网络输出的仿射变换参数表,xi,yi代表像素i的坐标,s代表输入特征图,t代表输出特征图,像素采样器利用插值方法计算出某坐标位置上的像素的强度,插值计算方式如下所示:
为输出特征图中c通道上像素i的强度值,为输入特征图中c通道上坐标为(n,m)的像素的强度值;
(323)卷积模块的主结构为4个级联的ConvBlock,ConvBlock由卷积激活层和池化层组成,在卷积激活层中,卷积层的卷积核尺寸为3×3,步长为1,并具有补零运算,激活层激活函数为Relu,而池化层执行2×2的下采样运算,设输入图像尺寸为l×w,ConvBlock-1包含2个通道数为64的卷积激活层和一个池化层,输出特征图尺寸为(l/2,w/2,64),ConvBlock-2包含2个通道数为128的卷积激活层和一个池化层,输出特征图尺寸为(l/4,w/4,128);ConvBlock-3包含2个通道数为256的卷积激活层和一个池化层,输出特征图尺寸为(l/8,w/8,256),ConvBlock-4包含2个通道数为512的卷积激活层和一个池化层,输出特征图尺寸为(l/16,w/16,512);此外,ConvBlock-1和ConvBlock-2之间加入了STN结构,为STN-1,ConvBlock-2和ConvBlock-3之间也加入了STN结构,为STN-2,ConvBlock-4的输出被作为卷积模块的输出馈送至下一个模块,即序列模块。
4.如权利要求1或2所述的一种基于深度学习OCR的图书馆图书快速定位方法,其特征在于,所述(33)的处理过程如下:
(331)一个基本的LSTM结构由一个cell和三个门组成,三个门分别为输入门i、输出门o和遗忘门g,基本LSTM的前向计算如下式所示:
ft=σg(Wfxt+Ufht-1+bf)
it=σg(Wixt+Uiht-1+bi)
ot=σg(Woxt+Uoht-1+bo)
其中,o运算定义为Hadamard乘积,t代表时间步,c0和h0值为0,xt∈Rd为LSTM的输入向量,ft∈Rh为遗忘门激活向量,it∈Rh为输入门的激活向量,ot∈Rh为输出门的激活向量,ht∈Rh为隐状态向量,也是LSTM的输出变量,ct∈Rh为cell状态向量,W∈Rh×d,U∈Rh×h和b∈Rh分别为权重参数和偏置向量参数。d和h分别为输入特征的数量和隐藏单元的数量。σg为Sigmoid函数,如下式所示:
σc和σh为双曲正切函数,如下式所示:
其中,x为函数输入,e为自然对底数;
(332)双向LSTM是两个方向相反的基本LSTM的堆叠,其中,基本LSTM的cell数量为256,则整个双向LSTM的cell数量为512;
(333)序列模块由两个双向LSTM结构堆叠组成,第一个双向LSTM接收卷积模块的输出,则输入为形如(l/8,w/8,256)的特征图,在序列模块中,该特征图被视为一个长l/8的序列数据,其中单帧的序列数据形如(w/8,256),第二个双向LSTM输出形如(l/8,w/8,512)的特征图,最后接上一个全连接层,输出为每一帧内文字的类别预测概率。
5.如权利要求1或2所述的一种基于深度学习OCR的图书馆图书快速定位方法,其特征在于,所述(34)的处理过程如下:
(341)CTC损失函数L如下式所示:
其中,p(z|x)代表给定输入x,输出序列z的概率,S为训练集;
(342)在使用阶段,CTC将直接输出标签文字序列的识别结果,识别出的标签文字被馈送至步骤(4)。
6.如权利要求1或2所述的一种基于深度学习OCR的图书馆图书快速定位方法,其特征在于,所述步骤(1)中,书脊识别准备过程如下:
(11)读者使用随身智能终端(智能手机、平板电脑等)拍摄书架区域,获得多本书籍书脊标签区域清晰的照片;
(12)读者输入目标书籍的编号;
(13)拍摄的照片被作为输入图像进行预处理,预处理包括光线矫正和模糊矫正。
7.如权利要求1或2所述的一种基于深度学习OCR的图书馆图书快速定位方法,其特征在于,所述步骤(2)中,标签区域检测过程如下:
(21)FCN-32对来自(1)的输入图像进行分割,分割出一系列标签区域掩码;
(22)利用二值图像连通性分析技术和图像处理算法处理标签区域分割掩码,得到一系列形状规则的连通区域,这些连通区域对应的原图位置即标签文字所在处,计算并记录每个连通区域的位置;
(23)根据记录的团标号及对应位置信息,通过图像的膨胀和腐蚀运算,使各个团变化为形状规则的连通区域;
(24)根据获得的连通区域轮廓及对应位置信息,从原图像中切割出所有的标签区域子图,馈送至步骤(3)。
8.如权利要求7所述的一种基于深度学习OCR的图书馆图书快速定位方法,其特征在于,所述(21)的处理过程如下:
(211)FCN-32由级联的5个ConvBlock、2个FcBlock、上采样层和输出层组成,ConvBlock由卷积激活层和池化层组成,在卷积激活层中,卷积层卷积核尺寸为3×3,步长为1,并具有补零运算,激活层激活函数为Relu,而池化层执行2×2的下采样运算,设输入图像尺寸为L×W,ConvBlock-1包含2个通道数为64的卷积激活层和一个池化层,输出特征图尺寸为(L/2,W/2,64),ConvBlock-2包含2个通道数为64的卷积激活层和一个池化层,输出特征图尺寸为(L/4,W/4,64),ConvBlock-3包含3个通道数为256的卷积激活层和一个池化层,输出特征图尺寸为(L/8,W/8,256),ConvBlock-4包含3个通道数为512的卷积激活层和一个池化层,输出特征图尺寸为(L/16,W/16,512),ConvBlock-5包含3个通道数为512的卷积激活层和一个池化层,输出特征图尺寸为(L/32,W/32,512),FcBlock-1由2个通道数为4096的卷积激活层组成,输出特征图尺寸为(L/32,W/32,4096),FcBlock-2由1个通道数为2的卷积层组成,输出特征图尺寸为(L/32,W/32,2),上采样层使用双线性插值算法恢复特征图尺寸,输出特征图尺寸为(L,W,2),输出层使用Softmax函数;
(212)双线性插值算法如下所述:
假设待插值位置坐标为(x,y),已知四个点的值分别为Q11=(x1,y1)、Q12=(x1,y2)、Q21=(x2,y1)和Q22=(x2,y2),则双线性插值结果f(x,y)为:
计算获得的f(x,y)值需要先取整再进行插值;
(213)Softmax函数σ(z)如下式所示:
其中,z为一K维向量,e为自然对底数,输出层输出尺寸为(L,W,2)的预测概率图。最终,根据设定的阈值,将预测概率图转化为输入图像的分割掩码。
9.如权利要求7所述的一种基于深度学习OCR的图书馆图书快速定位方法,其特征在于,所述(22)的过程如下:
(221)在二值图像连通性分析技术中,首先逐行扫描图像,每一行中连续的白色像素区域称为一个团,记录下每个团的起点、终点及所在行的编号;
(222)对所有的非第一行内的团,如果它与前一行中的所有团都没有重合区域,则给予它一个新的标号,若与上一行的团有重合区域,则给予它上一个团的标号,若与多个团重合,则将这些团标记为等价对;
(223)遍历所有团,将各个等价对内的团都标记为同一标号,最后记录所有的团标号及对应位置。
10.如权利要求1或2所述的一种基于深度学习OCR的图书馆图书快速定位方法,其特征在于,所述步骤(4)中,目标书籍定位过程如下:
(41)从步骤(3)中识别到的标签文字中提取出所有书籍编号;
(42)建立书籍编号和标签区域位置间的映射关系,并将所有书籍编号与读者输入的目标书籍编号进行相似度匹配;
(43)根据储存的标签区域位置坐标,将相似度最高的识别编号对应的标签区域在原图像中醒目标识出,即完成对目标书籍的定位;
(44)若不存在某一识别编号相似度高于设定阈值,则反馈读者,目标书籍不在此处,读者应另选书架区域,并重新以步骤(1)(2)(3)(4)的顺序定位目标书籍。
CN201910326586.3A 2019-04-23 2019-04-23 一种基于深度学习ocr的图书馆图书快速定位方法 Active CN110321894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910326586.3A CN110321894B (zh) 2019-04-23 2019-04-23 一种基于深度学习ocr的图书馆图书快速定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910326586.3A CN110321894B (zh) 2019-04-23 2019-04-23 一种基于深度学习ocr的图书馆图书快速定位方法

Publications (2)

Publication Number Publication Date
CN110321894A true CN110321894A (zh) 2019-10-11
CN110321894B CN110321894B (zh) 2021-11-23

Family

ID=68113116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910326586.3A Active CN110321894B (zh) 2019-04-23 2019-04-23 一种基于深度学习ocr的图书馆图书快速定位方法

Country Status (1)

Country Link
CN (1) CN110321894B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889404A (zh) * 2019-11-21 2020-03-17 山东浪潮人工智能研究院有限公司 一种基于修正网络的不规则文本识别系统及方法
CN110909743A (zh) * 2019-11-25 2020-03-24 章志亮 图书盘点方法及图书盘点系统
CN111027529A (zh) * 2019-12-04 2020-04-17 深圳市新国都金服技术有限公司 减少深度学习ocr的参数量和计算量的方法与计算机设备及存储介质
CN111079749A (zh) * 2019-12-12 2020-04-28 创新奇智(重庆)科技有限公司 一种带姿态校正的端到端商品价签文字识别方法和系统
CN112926616A (zh) * 2019-12-06 2021-06-08 顺丰科技有限公司 图像匹配方法和装置、电子设备、计算机可读存储介质
CN113569871A (zh) * 2021-08-03 2021-10-29 内蒙古工业大学 一种基于深度学习的图书馆自动盘书方法及系统
CN114241407A (zh) * 2021-12-10 2022-03-25 电子科技大学 一种基于深度学习的近距离屏幕监控方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130114914A1 (en) * 2011-11-03 2013-05-09 Xerox Corporation Signature mark detection
US20140226856A1 (en) * 2013-02-06 2014-08-14 Fujitsu Limited Method and apparatus for semi-automatic finger extraction
CN107617573A (zh) * 2017-09-30 2018-01-23 浙江瀚镪自动化设备股份有限公司 一种基于多任务深度学习的物流编码识别和分拣方法
CN108399408A (zh) * 2018-03-06 2018-08-14 李子衿 一种基于深度空间变换网络的变形字符矫正方法
CN108921160A (zh) * 2018-05-04 2018-11-30 广东数相智能科技有限公司 一种图书识别方法、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130114914A1 (en) * 2011-11-03 2013-05-09 Xerox Corporation Signature mark detection
US20140226856A1 (en) * 2013-02-06 2014-08-14 Fujitsu Limited Method and apparatus for semi-automatic finger extraction
CN107617573A (zh) * 2017-09-30 2018-01-23 浙江瀚镪自动化设备股份有限公司 一种基于多任务深度学习的物流编码识别和分拣方法
CN108399408A (zh) * 2018-03-06 2018-08-14 李子衿 一种基于深度空间变换网络的变形字符矫正方法
CN108921160A (zh) * 2018-05-04 2018-11-30 广东数相智能科技有限公司 一种图书识别方法、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
THOMAS M. BREUEL ET AL.: "High-Performance OCR for Printed English and Fraktur Using LSTM Networks", 《2013 12TH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》 *
姚国章 等: "智慧图书馆的总体设计与应用系统建设研究", 《南京邮电大学学报(自然科学版)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889404A (zh) * 2019-11-21 2020-03-17 山东浪潮人工智能研究院有限公司 一种基于修正网络的不规则文本识别系统及方法
CN110909743A (zh) * 2019-11-25 2020-03-24 章志亮 图书盘点方法及图书盘点系统
CN110909743B (zh) * 2019-11-25 2023-08-11 章志亮 图书盘点方法及图书盘点系统
CN111027529A (zh) * 2019-12-04 2020-04-17 深圳市新国都金服技术有限公司 减少深度学习ocr的参数量和计算量的方法与计算机设备及存储介质
CN112926616A (zh) * 2019-12-06 2021-06-08 顺丰科技有限公司 图像匹配方法和装置、电子设备、计算机可读存储介质
CN112926616B (zh) * 2019-12-06 2024-03-05 顺丰科技有限公司 图像匹配方法和装置、电子设备、计算机可读存储介质
CN111079749A (zh) * 2019-12-12 2020-04-28 创新奇智(重庆)科技有限公司 一种带姿态校正的端到端商品价签文字识别方法和系统
CN111079749B (zh) * 2019-12-12 2023-12-22 创新奇智(重庆)科技有限公司 一种带姿态校正的端到端商品价签文字识别方法和系统
CN113569871A (zh) * 2021-08-03 2021-10-29 内蒙古工业大学 一种基于深度学习的图书馆自动盘书方法及系统
CN114241407A (zh) * 2021-12-10 2022-03-25 电子科技大学 一种基于深度学习的近距离屏幕监控方法

Also Published As

Publication number Publication date
CN110321894B (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN110321894A (zh) 一种基于深度学习ocr的图书馆图书快速定位方法
Luo et al. Moran: A multi-object rectified attention network for scene text recognition
CN111339903B (zh) 一种多人人体姿态估计方法
CN109993160B (zh) 一种图像矫正及文本与位置识别方法及系统
Chen et al. A new LDA-based face recognition system which can solve the small sample size problem
Tuzel et al. Pedestrian detection via classification on riemannian manifolds
Lin et al. STAN: A sequential transformation attention-based network for scene text recognition
Choo et al. iVisClassifier: An interactive visual analytics system for classification based on supervised dimension reduction
Nakajima et al. Full-body person recognition system
JP2923913B2 (ja) 物体認識方法及び装置
CN105138998B (zh) 基于视角自适应子空间学习算法的行人重识别方法及系统
CN109376611A (zh) 一种基于3d卷积神经网络的视频显著性检测方法
CN104318219A (zh) 基于局部特征及全局特征结合的人脸识别方法
CN110781744A (zh) 一种基于多层次特征融合的小尺度行人检测方法
Manesh et al. Facial part displacement effect on template-based gender and ethnicity classification
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN112395442A (zh) 移动互联网上的低俗图片自动识别与内容过滤方法
CN112580480A (zh) 一种高光谱遥感影像分类方法及装置
Anwar et al. Deep ancient Roman Republican coin classification via feature fusion and attention
CN109977963A (zh) 图像处理方法、设备、装置以及计算机可读介质
Yuan et al. Learning discriminated and correlated patches for multi-view object detection using sparse coding
Fan et al. Multi-task and multi-modal learning for rgb dynamic gesture recognition
Bengamra et al. A comprehensive survey on object detection in Visual Art: taxonomy and challenge
Zullich et al. An artificial intelligence system for automatic recognition of punches in fourteenth-century panel painting
CN108960005A (zh) 一种智能视觉物联网中对象视觉标签的建立及显示方法、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20191011

Assignee: FOSHAN DOUQI TECHNOLOGY Co.,Ltd.

Assignor: JIANG University OF TECHNOLOGY

Contract record no.: X2024980000081

Denomination of invention: A Fast Library Book Location Method Based on Deep Learning OCR

Granted publication date: 20211123

License type: Common License

Record date: 20240104

EE01 Entry into force of recordation of patent licensing contract