CN110321894A

CN110321894A - 一种基于深度学习ocr的图书馆图书快速定位方法

Info

Publication number: CN110321894A
Application number: CN201910326586.3A
Authority: CN
Inventors: 方路平; 盛邱煬; 潘�清; 李心怡; 曹平
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-10-11
Anticipated expiration: 2039-04-23
Also published as: CN110321894B

Abstract

一种基于深度学习OCR的图书馆图书快速定位方法，包括以下步骤：(1)书脊识别准备：拍摄目标书籍所在书架区域的照片作为输入图像，并输入目标书籍的编号；(2)标签区域检测：使用FCN‑32定位输入图像中的标签区域，将标签区域子图切割出馈送至(3)；(3)标签文字识别：使用卷积模块+序列模块+解译模块三层模块级联的深度学习OCR方法识别标签区域子图中的文字，即识别出书籍编号，并被馈送至(4)；(4)目标书籍定位步骤：将识别出的所有书籍编号与读者输入的目标书籍编号进行相似性匹配，相似性最高的书籍编号对应的文字区域在照片中被醒目标识出来。本发明在查阅图书时能更快更方便地找出目标书籍。

Description

一种基于深度学习OCR的图书馆图书快速定位方法

技术领域

本发明涉及光学字符识别、深度学习领域，具体为一种基于深度学习OCR的图书馆图书快速定位方法。

背景技术

图书馆是整理、收藏图书供人阅览的机构，是人们最常用的获取信息的渠道之一。人们去图书馆查阅图书时，通常会首先使用终端主机查阅目标书籍的馆藏信息，了解其所在区域。图书在书架上的摆放很密集，标签字体很小，找出目标书籍需逐一辨别书名或标签，比较吃力，对于视力不佳者、行动不便者而言尤其如此。使用技术手段来协助人们方便快捷地从书架上定位目标书籍具有现实意义。

图书馆的图书通常以一定的规则被编号收录。其编号及部分基本信息记录在一张矩形标签上，而矩形标签则被粘贴在图书的书脊上。图书的摆放形式通常是书脊朝外的，以便读者查阅。如果能利用智能手机的拍照功能并对于照片中的图书标签进行自动定位识别，则可以帮助读者快速找到目标书籍。传统的基于模板匹配或支持向量机的OCR(OpticalCharacter Recognition，光学字符识别)算法通常要求文字版面简单可分性强，字体工整。对于识别图书馆图书标签文字而言，传统OCR技术易受到场景的复杂性(如光照、不相关文字区域)，文字的复杂性(如字号、字体)等问题的干扰，达不到较好的识别效果。

发明内容

针对已有图书馆图书查阅方式不方便的问题，为了使人们可以在查阅图书时更快更方便地找出目标书籍，本发明提供了一种基于深度学习OCR的图书馆图书快速定位方法。

本发明解决其技术问题所采用的技术方案是：

一种基于深度学习OCR的图书馆图书快速定位方法，设读者已通过查阅图书馆终端主机等方式获知目标书籍所在区域，以及目标书籍的编号，包括以下步骤：

(1)书脊识别准备：拍摄目标书籍所在书架区域的照片作为输入图像，并输入目标书籍的编号；

(2)标签区域检测：使用FCN-32定位输入图像中的标签区域，并将标签区域子图切割出馈送至下一步骤；

(3)标签文字识别：使用基于卷积模块+序列模块+解译模块三层模块级联的深度学习OCR方法识别标签区域子图中的文字，即识别出书籍编号，识别出的书籍编号被馈送至下一步骤；所述标签文字识别的过程如下：

(31)接受步骤(2)中获得的标签区域子图，调整至固定尺寸，输入至三层深度OCR网络中进行文字行识别；

(32)卷积模块基于传统深度卷积网络和STN(Spatial Transformer Network，空间变换网络)结构实现，接受固定尺寸的标签区域子图，并提取其所包含的不同方向、字号、字体的文字的字符特征；

(33)序列模块基于两个叠加的双向LSTM(Bi-directional Long Short-TermMemory Network，长短期记忆网络)实现，接受来自卷积模块的字符特征序列，并预测特征序列中每一帧的标签分布；

(34)解译模块基于CTC(Connectionist Temporal Classification，联结时序分类器)实现，解译是将序列模块输出的每帧类别预测转换为标签文字序列的过程，在网络训练阶段，CTC被当作损失函数使用，避免了训练数据的额外对齐处理，以实现端到端的训练；

(4)目标书籍定位步骤：将识别出的所有书籍编号与读者输入的目标书籍编号进行相似性匹配，相似性最高的书籍编号对应的文字区域在照片中被醒目标识出来，即完成对目标书籍的定位。

所述(31)中，深度OCR网络由卷积模块、序列模块、解译模块三层模块级联实现，接受固定尺寸的标签区域子图以进行文字行识别。

进一步，所述(32)的处理过程如下：

(321)卷积模块基于传统深度卷积网络和STN(Spatial Transformer Network，空间变换网络)结构实现，接受固定尺寸的标签区域子图，并提取其所包含的不同方向、字号、字体的文字的字符特征；

(322)STN主要由三个部分组成，定位网络、网格生成器和像素采样器，其中，定位网络接受任意通道数的特征图，输出一个形状为(2，3)仿射变换参数表θ，θ中的6个参数实现对特征图不同程度的平移、旋转、缩放和剪切变换，网格生成器T_θ(G)用于得到输出特征图的坐标点对应的输入特征图的坐标点的位置，其计算方式如下：

其中，θ为定位网络输出的仿射变换参数表。x_i，y_i代表像素i的坐标。s代表输入特征图，t代表输出特征图，像素采样器利用插值方法计算出某坐标位置上的像素的强度。具体的插值计算方式如下所示：

V_i ^c为输出特征图中c通道上像素i的强度值，为输入特征图中c通道上坐标为(n，m)的像素的强度值；

(323)卷积模块的主结构为4个级联的ConvBlock。ConvBlock由卷积激活层和池化层组成。在卷积激活层中，卷积层的卷积核尺寸为3×3，步长为1，并具有补零运算，激活层激活函数为Relu。而池化层执行2×2的下采样运算。设输入图像尺寸为l×w，ConvBlock-1包含2个通道数为64的卷积激活层和一个池化层，输出特征图尺寸为(l/2，w/2，64)。ConvBlock-2包含2个通道数为128的卷积激活层和一个池化层，输出特征图尺寸为(l/4，w/4，128)；ConvBlock-3包含2个通道数为256的卷积激活层和一个池化层，输出特征图尺寸为(l/8，w/8，256)。ConvBlock-4包含2个通道数为512的卷积激活层和一个池化层，输出特征图尺寸为(l/16，w/16，512)；此外，ConvBlock-1和ConvBlock-2之间加入了STN结构，为STN-1。ConvBlock-2和ConvBlock-3之间也加入了STN结构，为STN-2，ConvBlock-4的输出被作为卷积模块的输出馈送至下一个模块，即序列模块。

再进一步，所述(33)的处理过程如下：

(331)一个基本的LSTM结构由一个cell和三个门组成。三个门分别为输入门i、输出门o和遗忘门g，基本LSTM的前向计算如下式所示：

f_t＝σ_g(W_fx_t+U_fh_t-1+b_f)

i_t＝σ_g(W_ix_t+U_ih_t-1+b_i)

o_t＝σ_g(W_ox_t+U_oh_t-1+b_o)

c_t＝f_tc_t-1+i_tσ_c(W_cx_t+U_ch_t-1+b_c)

h_t＝o_tσ_g(c_t)

其中，运算定义为Hadamard乘积，t代表时间步。c₀和h₀值为0。x_t∈R^d为LSTM的输入向量，f_t∈R^h为遗忘门激活向量，i_t∈R^h为输入门的激活向量，o_t∈R^h为输出门的激活向量。h_t∈R^h为隐状态向量，也是LSTM的输出变量。c_t∈R^h为cell状态向量。W∈R^h×d，U∈R^h×h和b∈R^h分别为权重参数和偏置向量参数。d和h分别为输入特征的数量和隐藏单元的数量。σ_g为Sigmoid函数，如下式所示：

σ_c和σ_h为双曲正切函数，如下式所示：

其中，x为函数输入，e为自然对底数。

(332)双向LSTM是两个方向相反的基本LSTM的堆叠。其中，基本LSTM的cell数量为256，则整个双向LSTM的cell数量为512；

(333)序列模块由两个双向LSTM结构堆叠组成。第一个双向LSTM接收卷积模块的输出，则输入为形如(l/8，w/8，256)的特征图，在序列模块中，该特征图被视为一个长l/8的序列数据，其中单帧的序列数据形如(w/8，256)，第二个双向LSTM输出形如(l/8，w/8，512)的特征图，最后接上一个全连接层，输出为每一帧内文字的类别预测概率。

更进一步，所述(34)的处理过程如下：

(341)CTC损失函数L如下式所示：

其中，p(z|x)代表给定输入x，输出序列z的概率，S为训练集；

(342)在使用阶段，CTC将直接输出标签文字序列的识别结果。识别出的标签文字被馈送至步骤(4)。

所述步骤(1)中，书脊识别准备过程如下：

(11)读者使用随身智能终端(智能手机、平板电脑等)拍摄书架区域，获得多本书籍书脊标签区域清晰的照片；

(12)读者输入目标书籍的编号；

(13)拍摄的照片被作为输入图像进行预处理。预处理主要包括：光线矫正，模糊矫正。

所述(2)中，标签区域检测过程如下：

(21)FCN-32(Fully Convolutional Network，全卷积神经网络)对来自(1)的输入图像进行分割，分割出一系列标签区域掩码；

(22)利用二值图像连通性分析技术和图像处理算法处理标签区域分割掩码，得到一系列形状规则的连通区域。这些连通区域对应的原图位置即标签文字所在处。计算并记录每个连通区域的位置(在图中的具体坐标值)；

(23)根据记录的团标号及对应位置信息，通过图像的膨胀和腐蚀运算，使各个团变化为形状规则的连通区域；

(24)根据获得的连通区域轮廓及对应位置信息，从原图像中切割出所有的标签区域子图，馈送至步骤(3)。

进一步，所述(21)的处理过程如下：

(211)FCN-32由级联的5个ConvBlock、2个FcBlock、上采样层和输出层组成，ConvBlock由卷积激活层和池化层组成。在卷积激活层中，卷积层卷积核尺寸为3×3，步长为1，并具有补零运算。激活层激活函数为Relu。而池化层执行2×2的下采样运算。设输入图像尺寸为L×W，ConvBlock-1包含2个通道数为64的卷积激活层和一个池化层，输出特征图尺寸为(L/2，W/2，64)。ConvBlock-2包含2个通道数为64的卷积激活层和一个池化层，输出特征图尺寸为(L/4，W/4，64)。ConvBlock-3包含3个通道数为256的卷积激活层和一个池化层，输出特征图尺寸为(L/8，W/8，256)。ConvBlock-4包含3个通道数为512的卷积激活层和一个池化层，输出特征图尺寸为(L/16，W/16，512)。ConvBlock-5包含3个通道数为512的卷积激活层和一个池化层，输出特征图尺寸为(L/32，W/32，512)。FcBlock-1由2个通道数为4096的卷积激活层组成，输出特征图尺寸为(L/32，W/32，4096)。FcBlock-2由1个通道数为2的卷积层组成，输出特征图尺寸为(L/32，W/32，2)。上采样层使用双线性插值算法恢复特征图尺寸，输出特征图尺寸为(L，W，2)。输出层使用Softmax函数。

(212)双线性插值算法如下所述：

假设待插值位置坐标为(x，y)，已知四个点的值分别为Q₁₁＝(x₁，y₁)、Q₁₂＝(x₁，y₂)、Q₂₁＝(x₂，y₁)和Q₂₂＝(x₂，y₂)，则双线性插值结果f(x，y)为：

计算获得的f(x，y)值需要先取整再进行插值。

(213)Softmax函数σ(z)如下式所示：

其中，z为一K维向量，e为自然对底数，输出层输出尺寸为(L，W，2)的预测概率图。最终，根据设定的阈值，将预测概率图转化为输入图像的分割掩码。

所述(22)的过程如下：

(221)在二值图像连通性分析技术中，首先逐行扫描图像，每一行中连续的白色像素区域称为一个团。记录下每个团的起点、终点及所在行的编号；

(222)对所有的非第一行内的团，如果它与前一行中的所有团都没有重合区域，则给予它一个新的标号，若与上一行的团有重合区域，则给予它上一个团的标号，若与多个团重合，则将这些团标记为等价对；

(223)遍历所有团，将各个等价对内的团都标记为同一标号。最后记录所有的团标号及对应位置。

所述步骤(4)中，目标书籍定位过程如下：

(41)从步骤(3)中识别到的标签文字中提取出所有书籍编号；

(42)建立书籍编号和标签区域位置间的映射关系，并将所有书籍编号与读者输入的目标书籍编号进行相似度匹配；

(43)根据储存的标签区域位置坐标，将相似度最高的识别编号对应的标签区域在原图像中醒目标识出，即完成对目标书籍的定位；。

(44)若不存在某一识别编号相似度高于设定阈值，则反馈读者，目标书籍不在此处，读者应另选书架区域，并重新以步骤(1)(2)(3)(4)的顺序定位目标书籍。

本发明采用基于深度学习的OCR方法，较好弥补了现有技术的缺点，可以实现复杂场景下的标签区域的鲁棒定位，对于各种不同字号、字体、色彩、方向的文字也通常具有更好的识别效果。

本发明的有益效果主要表现在：实现复杂场景下的标签区域的鲁棒定位，具有更好的识别效果。

附图说明

图1为本发明的流程示意图，共四个步骤，包含(1)书脊识别准备、(2)标签区域检测、(3)标签文字识别、(4)目标书籍定位。

图2为标签区域检测步骤中应用的FCN-32。FCN-32由5个ConvBlock、2个FcBlock、上采样层和输出层组成。5个ConvBlock分别为ConvBlock-1、ConvBlock-2、ConvBlock-3、ConvBlock-4、ConvBlock-5。2个FcBlock分别为FcBlock-1和FcBlock-2。上采样层使用双线性插值算法恢复图像分辨率，输出层使用Softmax函数。设输入图像尺寸为(L，W)，网络每个部分都标注了输出特征图尺寸。

图3为FCN输出的包含了一系列标签区域掩码的分割图像。

图4为STN结构示意图。主要由三个部分组成，定位网络、网格生成器和像素采样器。

图5为卷积模块示意图。主结构为4个级联的ConvBlock，分别为ConvBlock-1、ConvBlock-2、ConvBlock-3和ConvBlock-4。ConvBlock-1和ConvBlock-2之间加入了STN结构，为STN-1。ConvBlock-2和ConvBlock-3之间也加入了STN结构，为STN-2。设输入图像尺寸为(l，w)，网络每个部分都标注了输出特征图尺寸。

图6为基本的LSTM结构示意图。由一个cell和三个门组成。三个门分别为输入门i、输出门o和遗忘门g。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图6，一种基于深度学习OCR的图书馆图书快速定位方法，设读者已通过查阅图书馆终端主机等方式获知目标书籍所在区域，以及目标书籍的编号，包括以下步骤：

(1)书脊识别准备：读者使用随身智能终端(智能手机、平板电脑等)拍摄目标书籍所在书架区域的照片作为输入图像，并输入目标书籍的编号；

(3)标签文字识别：使用卷积模块+序列模块+解译模块三层模块级联的深度学习OCR方法识别标签区域子图中的文字，即识别出书籍编号，识别出的书籍编号被馈送至下一步骤；所述标签文字识别的过程如下：

(4)目标书籍定位步骤：将识别出的所有书籍编号与读者输入的目标书籍编号进行相似性匹配。相似性最高的书籍编号对应的文字区域在照片中被醒目标识出来，即完成对目标书籍的定位。

进一步，所述(32)的处理过程如下：

(323)卷积模块的主结构为4个级联的ConvBlock。ConvBlock由卷积激活层和池化层组成。在卷积激活层中，卷积层的卷积核尺寸为3×3，步长为1，并具有补零运算，激活层激活函数为Relu。而池化层执行2×2的下采样运算。设输入图像尺寸为1×w，ConvBlock-1包含2个通道数为64的卷积激活层和一个池化层，输出特征图尺寸为(l/2，w/2，64)。ConvBlock-2包含2个通道数为128的卷积激活层和一个池化层，输出特征图尺寸为(l/4，w/4，128)；ConvBlock-3包含2个通道数为256的卷积激活层和一个池化层，输出特征图尺寸为(l/8，w/8，256)。ConvBlock-4包含2个通道数为512的卷积激活层和一个池化层，输出特征图尺寸为(l/16，w/16，512)；此外，ConvBlock-1和ConvBlock-2之间加入了STN结构，为STN-1。ConvBlock-2和ConvBlock-3之间也加入了STN结构，为STN-2，ConvBlock-4的输出被作为卷积模块的输出馈送至下一个模块，即序列模块。

再进一步，所述(33)的处理过程如下：

f_t＝σ_g(W_fx_t+U_fh_t-1+b_f)

i_t＝σ_g(W_ix_t+U_ih_t-1+b_i)

o_t＝σ_g(W_ox_t+U_oh_t-1+b_o)

c_t＝f_tc_t-1+i_tσ_c(W_cx_t+U_ch_t-1+b_c)

h_t＝o_tσ_g(c_t)

σ_c和σ_h为双曲正切函数，如下式所示：

其中，x为函数输入，e为自然对底数。

更进一步，所述(34)的处理过程如下：

(341)CTC损失函数L如下式所示：

其中，p(z|x)代表给定输入x，输出序列z的概率，S为训练集；

所述步骤(1)中，书脊识别准备过程如下：

(12)读者输入目标书籍的编号；

所述(2)中，标签区域检测过程如下：

(21)FCN-32(Fully Convolutional Network，全卷积神经网络)对来自(1)的输入图像进行分割，分割出一系列标签区域掩码；所述(21)的过程如下：

(212)双线性插值算法如下所述：

计算获得的f(x，y)值需要先取整再进行插值。

(213)Softmax函数σ(z)如下式所示：

(22)利用二值图像连通性分析技术和图像处理算法处理标签区域分割掩码，得到一系列形状规则的连通区域。这些连通区域对应的原图位置即标签文字所在处，计算并记录每个连通区域的位置(在图中的具体坐标值)；所述(22)的过程如下：

(223)遍历所有团，将各个等价对内的团都标记为同一标号。最后记录所有的团标号及对应位置；

所述步骤(4)中，目标书籍定位过程如下：

(41)从步骤(3)中识别到的标签文字中提取出所有书籍编号；

Claims

1.一种基于深度学习OCR的图书馆图书快速定位方法，其特征在于，设读者已通过查阅图书馆终端主机等方式获知目标书籍所在区域，以及目标书籍的编号，包括以下步骤：

(32)卷积模块基于传统深度卷积网络和空间变换网络STN结构实现，接受固定尺寸的标签区域子图，并提取其所包含的不同方向、字号、字体的文字的字符特征；

(33)序列模块基于两个叠加的双向LSTM实现，接受来自卷积模块的字符特征序列，并预测特征序列中每一帧的标签分布；

(34)解译模块基于CTC实现，解译是将序列模块输出的每帧类别预测转换为标签文字序列的过程，在网络训练阶段，CTC被当作损失函数使用，避免了训练数据的额外对齐处理，以实现端到端的训练；

2.如权利要求1所述的一种基于深度学习OCR的图书馆图书快速定位方法，其特征在于，所述(31)中，深度OCR网络由卷积模块、序列模块、解译模块三层模块级联实现，接受固定尺寸的标签区域子图以进行文字行识别。

3.如权利要求1或2所述的一种基于深度学习OCR的图书馆图书快速定位方法，其特征在于，所述(32)的处理过程如下：

(321)卷积模块基于传统深度卷积网络和空间变换网络STN结构实现，接受固定尺寸的标签区域子图，并提取其所包含的不同方向、字号、字体的文字的字符特征；

(322)STN由三个部分组成，定位网络、网格生成器和像素采样器，其中，定位网络接受任意通道数的特征图，输出一个形状为(2,3)仿射变换参数表θ，θ中的6个参数实现对特征图不同程度的平移、旋转、缩放和剪切变换，网格生成器T_θ(G)用于得到输出特征图的坐标点对应的输入特征图的坐标点的位置，其计算方式如下：

其中，θ为定位网络输出的仿射变换参数表，x_i，y_i代表像素i的坐标，s代表输入特征图，t代表输出特征图，像素采样器利用插值方法计算出某坐标位置上的像素的强度，插值计算方式如下所示：

为输出特征图中c通道上像素i的强度值，为输入特征图中c通道上坐标为(n，m)的像素的强度值；

(323)卷积模块的主结构为4个级联的ConvBlock，ConvBlock由卷积激活层和池化层组成，在卷积激活层中，卷积层的卷积核尺寸为3×3，步长为1，并具有补零运算，激活层激活函数为Relu，而池化层执行2×2的下采样运算，设输入图像尺寸为l×w，ConvBlock-1包含2个通道数为64的卷积激活层和一个池化层，输出特征图尺寸为(l/2,w/2,64)，ConvBlock-2包含2个通道数为128的卷积激活层和一个池化层，输出特征图尺寸为(l/4,w/4,128)；ConvBlock-3包含2个通道数为256的卷积激活层和一个池化层，输出特征图尺寸为(l/8,w/8,256)，ConvBlock-4包含2个通道数为512的卷积激活层和一个池化层，输出特征图尺寸为(l/16,w/16,512)；此外，ConvBlock-1和ConvBlock-2之间加入了STN结构，为STN-1，ConvBlock-2和ConvBlock-3之间也加入了STN结构，为STN-2，ConvBlock-4的输出被作为卷积模块的输出馈送至下一个模块，即序列模块。

4.如权利要求1或2所述的一种基于深度学习OCR的图书馆图书快速定位方法，其特征在于，所述(33)的处理过程如下：

(331)一个基本的LSTM结构由一个cell和三个门组成，三个门分别为输入门i、输出门o和遗忘门g，基本LSTM的前向计算如下式所示：

f_t＝σ_g(W_fx_t+U_fh_t-1+b_f)

i_t＝σ_g(W_ix_t+U_ih_t-1+b_i)

o_t＝σ_g(W_ox_t+U_oh_t-1+b_o)

其中，o运算定义为Hadamard乘积，t代表时间步，c₀和h₀值为0，x_t∈R^d为LSTM的输入向量，f_t∈R^h为遗忘门激活向量，i_t∈R^h为输入门的激活向量，o_t∈R^h为输出门的激活向量，h_t∈R^h为隐状态向量，也是LSTM的输出变量，c_t∈R^h为cell状态向量，W∈R^h×d,U∈R^h×h和b∈R^h分别为权重参数和偏置向量参数。d和h分别为输入特征的数量和隐藏单元的数量。σ_g为Sigmoid函数，如下式所示：

σ_c和σ_h为双曲正切函数，如下式所示：

其中，x为函数输入，e为自然对底数；

(332)双向LSTM是两个方向相反的基本LSTM的堆叠，其中，基本LSTM的cell数量为256，则整个双向LSTM的cell数量为512；

(333)序列模块由两个双向LSTM结构堆叠组成，第一个双向LSTM接收卷积模块的输出，则输入为形如(l/8,w/8,256)的特征图，在序列模块中，该特征图被视为一个长l/8的序列数据，其中单帧的序列数据形如(w/8,256)，第二个双向LSTM输出形如(l/8,w/8,512)的特征图，最后接上一个全连接层，输出为每一帧内文字的类别预测概率。

5.如权利要求1或2所述的一种基于深度学习OCR的图书馆图书快速定位方法，其特征在于，所述(34)的处理过程如下：

(341)CTC损失函数L如下式所示：

其中，p(z|x)代表给定输入x，输出序列z的概率，S为训练集；

(342)在使用阶段，CTC将直接输出标签文字序列的识别结果，识别出的标签文字被馈送至步骤(4)。

6.如权利要求1或2所述的一种基于深度学习OCR的图书馆图书快速定位方法，其特征在于，所述步骤(1)中，书脊识别准备过程如下：

(12)读者输入目标书籍的编号；

(13)拍摄的照片被作为输入图像进行预处理，预处理包括光线矫正和模糊矫正。

7.如权利要求1或2所述的一种基于深度学习OCR的图书馆图书快速定位方法，其特征在于，所述步骤(2)中，标签区域检测过程如下：

(21)FCN-32对来自(1)的输入图像进行分割，分割出一系列标签区域掩码；

(22)利用二值图像连通性分析技术和图像处理算法处理标签区域分割掩码，得到一系列形状规则的连通区域，这些连通区域对应的原图位置即标签文字所在处，计算并记录每个连通区域的位置；

8.如权利要求7所述的一种基于深度学习OCR的图书馆图书快速定位方法，其特征在于，所述(21)的处理过程如下：

(211)FCN-32由级联的5个ConvBlock、2个FcBlock、上采样层和输出层组成，ConvBlock由卷积激活层和池化层组成，在卷积激活层中，卷积层卷积核尺寸为3×3，步长为1，并具有补零运算，激活层激活函数为Relu，而池化层执行2×2的下采样运算，设输入图像尺寸为L×W，ConvBlock-1包含2个通道数为64的卷积激活层和一个池化层，输出特征图尺寸为(L/2,W/2,64)，ConvBlock-2包含2个通道数为64的卷积激活层和一个池化层，输出特征图尺寸为(L/4,W/4,64)，ConvBlock-3包含3个通道数为256的卷积激活层和一个池化层，输出特征图尺寸为(L/8,W/8,256)，ConvBlock-4包含3个通道数为512的卷积激活层和一个池化层，输出特征图尺寸为(L/16,W/16,512)，ConvBlock-5包含3个通道数为512的卷积激活层和一个池化层，输出特征图尺寸为(L/32,W/32,512)，FcBlock-1由2个通道数为4096的卷积激活层组成，输出特征图尺寸为(L/32,W/32,4096)，FcBlock-2由1个通道数为2的卷积层组成，输出特征图尺寸为(L/32,W/32,2)，上采样层使用双线性插值算法恢复特征图尺寸，输出特征图尺寸为(L,W,2)，输出层使用Softmax函数；

(212)双线性插值算法如下所述：

计算获得的f(x，y)值需要先取整再进行插值；

(213)Softmax函数σ(z)如下式所示：

其中，z为一K维向量，e为自然对底数，输出层输出尺寸为(L,W,2)的预测概率图。最终，根据设定的阈值，将预测概率图转化为输入图像的分割掩码。

9.如权利要求7所述的一种基于深度学习OCR的图书馆图书快速定位方法，其特征在于，所述(22)的过程如下：

(221)在二值图像连通性分析技术中，首先逐行扫描图像，每一行中连续的白色像素区域称为一个团，记录下每个团的起点、终点及所在行的编号；

(223)遍历所有团，将各个等价对内的团都标记为同一标号，最后记录所有的团标号及对应位置。

10.如权利要求1或2所述的一种基于深度学习OCR的图书馆图书快速定位方法，其特征在于，所述步骤(4)中，目标书籍定位过程如下：

(41)从步骤(3)中识别到的标签文字中提取出所有书籍编号；

(43)根据储存的标签区域位置坐标，将相似度最高的识别编号对应的标签区域在原图像中醒目标识出，即完成对目标书籍的定位；