CN111680684A

CN111680684A - 一种基于深度学习的书脊文本识别方法、设备及存储介质

Info

Publication number: CN111680684A
Application number: CN202010182949.3A
Authority: CN
Inventors: 蔡君; 付鸿添; 廖丽平; 陈庆珊
Original assignee: Guangdong Xingxi Intelligent Technology Co ltd; Guangdong Polytechnic Normal University
Current assignee: Guangdong Xingxi Intelligent Technology Co ltd; Guangdong Polytechnic Normal University
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2020-09-18
Anticipated expiration: 2040-03-16
Also published as: CN111680684B

Abstract

本发明公开了一种基于深度学习的书脊文本识别方法，包括：制作合成书脊、单字多字体和真实书脊数据集；基于CTPN模型对单本书脊进行文本检测；针对文本模糊特点搭建基于ResNet10的书脊文本识别模型STRNet；针对字体多样特点制作SK‑NNS分类器；基于我们制作的数据集对STRNet、SK‑NNS分类器进行训练；基于误识别概率点wp对STRNet，SK‑NNS模型进行集成，基于log_softmax预测概率对STRNet可能识别错的单字进行SK‑NNS二次识别；识别文本后处理使用自然语言处理技术进行词条语法纠错，保证识别准确率。STRNet能够提取更多的书脊文本特征，SK‑NNS能够识别不同字体的单字，两个模型优势互补，使得本方法在书脊文本识别场景的应用准确率更高。

Description

一种基于深度学习的书脊文本识别方法、设备及存储介质

技术领域

本发明涉及神经网络文本识别领域，尤其涉及一种基于深度学习的书脊文本识别方法、设备及存储介质。

背景技术

图书数字化是未来发展的趋势，但是数字图书代替不了纸质图书所带来的触碰质感，当前，纸质图书仍是图书资源的主要组成部分。但是百万级图书的常规性盘点工作需要耗费大量的人力物力成本，利用计算机视觉技术模拟人工识别能力是建设智能化图书馆的一个发展方向，对书脊进行高精度文本识别是其中一个重要子课题。传统用人工或者条形码对书脊文本进行识别的方式效率低、成本高、错误率高，近年来，基于深度学习的文本识别技术在文档图像分析与识别(DAR)、光学字符识别(OCR)、在线文字识别(OnlineHCR)领域取得了巨大的成功。与传统的书脊文本识别方式相比，基于深度学习的书脊文本识别方法在提升效率的同时具备更高的识别准确率。近年来与本发明相近的技术如下。

CRNN模型：此方法是一种通用模型，能够实现普通场景文本的识别，对于背景简单，排版规律单一的文本识别准确率较高，但针对书脊文本识别性能较差，因为书脊具备文本模糊、字体多样，排版规律不确定的特点，所以此方法对于模糊，字体不统一，排版复杂书脊会出现漏识别或错识别的情况。这就导致这个方法在书脊识别场景无法进行高精度的识别。

传统人工识别或条形码识别书脊文本的模式效率已然落后于科技的发展，本发明方法的提出能够有效提升书脊文本识别的准确率，对比目前的主流的场景文本识别方法，本发明具有明显优势。

发明内容

本发明是针对书脊的场景文本识别方法，书脊文本识别相对于车牌、票据、证件等的场景文本识别，书脊具备文本模糊、字体形式多样、排版多样、中英文横纵混排等的多种特点，使得书脊的识别难度比一般的场景文本识别难度更大。其中文本模糊，字体形态多样是造成书脊文本识别性能下降的主要原因。

本发明基于残差神经网络、双向长短时记忆网络、连续时序分类算法、K近邻单纯型分类算法设计出一种准确率更高，鲁棒性更强的新型书脊文本识别方法，利用残差神经网络来获取更多的文本特征，以克服模糊文本对模型性能的不良影响；利用K近邻单纯型算法对误识别的单字进行二次识别，以克服艺术字体及其他形态字体对模型识别性能的不良影响。

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开了一种基于深度学习的书脊文本识别方法，包括如下步骤：

步骤1，制作合成书脊训练集，单字多字体训练集；

步骤2，在图书馆采集真实书脊图片，使用CTPN模型对单本书脊进行文本检测与裁剪、标注得到真实书脊数据集；

步骤3，搭建ResNet10+BiLSTM+CTC的网络模型；

步骤4，搭建SK-NNS分类器模型；

步骤5，通过使用所述合成书脊训练集、单字多字体训练集及真实书脊数据集的数据集对搭建的所述网络模型及所述分类器模型进行训练；

步骤6，基于log_softmax预测概率对训练好的STRNet与SK-NNS分类器进行结合；

步骤7，识别结果进行语法纠错，将有语病的单词或者词组进行纠正。

进一步地，所述步骤1进一步包括：对书籍包含书目、出版社、作者的文本信息采集，通过数据清洗，合成多种字体形式以及多种背景的书脊文本图片；同时采集中英文数字常用字符共2536个，制作包含艺术体，街景字体类型的多种字体单字图片数据集。

进一步地，所述步骤5进一步包括：首先使用单字数据集对SK-NNS分类器进行预训练得到一个能够对单字分类性能较好的模型，再使用合成数据与真实数据对STRNet，SK-NNS联合训练，其中，书脊文本先经STRNet模型，ResNet10对书脊文本进行特征抽取，BiLSTM对特征序列进行预测，并在BiLSTM网络中的log_softmax层加入用于在训练时采集误识别文本的预测概率值的一个变量wp(wrong percent)，当STRNet 模型的识别结果与输入的序列不一致时，制定了易错字二次训练的策略，通过CTC对预测结果进行转换成标签，并对比输入与输出序列文本，进行输入输出文本序列对齐的CTC-Loss计算进而对BiLSTM与ResNet10网络进行反向更新参数。

进一步地，当检测到字识别有误时，系统对误识别的单字进行反向SK-NNS训练操作，首先保存此帧特征图邻近三帧范围内的预测结果为所述误识别的单字的误识别特征图的预测值，然后从ResNet10的特征图中抽取所述误识别的单字特征图进行合成为单字图片，将该单字图片与标签为所述误识别的单字送入SK-NNS分类器中进行训练，在每次训练结束后，将所有误识别的log_softmax预测值进行取平均数，并存储到wp 变量中，随着模型的训练所述wp会保持动态更新，直到更新最优的误识别概率值。

进一步地，所述步骤6进一步包括：当所有特征图序列的log_softmax概率大于 wp时，直接输出CTC转换结果到后处理模块；当存在特征图预测概率小于wp时，抽取该特征图邻近三帧范围内预测结果相同的特征图送入SK-NNS分类器中进行二次识别，并将分类器输出的结果与STRNet识别的结果进行错字替换操作，最后输出替换后的结果到后处理模块。

本发明进一步公开了一种电子设备，包括：数据集制作模块、书脊文本检测模块、书脊文本识别模块、文本分类器模块、双模型训练模块、双模型集合模块、识别结果后处理模块，及处理器；以及，存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述的基于深度学习的书脊文本识别方法。

本发明进一步公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于深度学习的书脊文本识别方法。

与现有技术相比，本发明的有益效果为：在普通场景文本识别领域普遍采用CRNN基础模型进行文本识别，对于背景简单，字体形式单一的文本识别准确率较高，但对书脊文本识别性能较差，因为书脊存在文本模糊、字体多样，排版规律不确定的特点，所以此方法对于文本模糊，字体不统一，排版复杂书脊会出现漏识别或错识别的情况。这就导致这个方法在书脊识别场景无法进行高精度的识别。而本发明提出的书脊文本识别方法，能够有效克服文本模糊，字体多样等问题对书脊文本识别准确率的影响。利用针对文本模糊，字体多样的书脊文本场景，我们把STRNet与SK-NNS分类器结合，利用STRNet提取更多的文本特征，使用SK-NNS对多种字体形式的单字进行高精度识别，本发明基于log_softmax预测概率把STRNet模型预测的结果中可能预测错的复杂单字使用SK-NNS模型进行二次识别，在将STRNet识别结果与SK-NNS识别结果进行组合。最后输出结果在进行后处理词条语法纠错操作，以此保证识别的准确率。在实际书脊文本识别场景中能够对书脊文本进行准确的识别，对背景复杂、文本模糊、有艺术字的书脊识别也有更好的效果。本发明方法的提出为书脊场景文本识别提供了新的思路，旨在实现书脊文本自动化、高精度识别，以此提升图书管理的工作效率。即，本发明提出的STRNet，SK-NNS双模型的识别方法，能够有效提升书脊文本识别准确率。基于连续时序分类算法的转换规则使得模型训练数据不需要字符级别的标注，减少数据标注的人力成本；基于残差神经网络构建书脊特征提取网络，有效解决梯度弥散/爆炸问题，同时提高模型精度；基于K近邻单纯型算法的分类器能够有效提升多种字体的单字识别准确率。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1是本发明的基于深度学习的书脊文本识别方法的流程图；

图2是本发明基于深度学习的书脊文本识别方法的STRNet，SK-NNS模型的联合训练流程图；

图3是本发明基于深度学习的书脊文本识别方法的残差网络的基本单元结构图。

具体实施方式

本实施进一步公开了一种基于深度学习的书脊文本识别方法，具体包括如下步骤：

步骤(1)、制作合成书脊训练集，单字多字体训练集；

过程包含书目、出版社、作者文本信息采集，数据清洗，合成多种字体形式以及多种背景的书脊文本图片；采集中英文数字常用字符共2536个，制作包含艺术体，街景字体等的多种字体单字图片数据集。

步骤(2)、在图书馆采集真实书脊图片，使用CTPN模型对单本书脊进行文本检测与裁剪、标注得到真实书脊数据集；

步骤(3)、搭建ResNet10+BiLSTM+CTC的网络模型；

ResNet10在此模型中的作用主要是进行书脊特征的提取。本文将改进后的ResNet网络作为模型的主干网络，残差网络的基本单元为：

所述残差网络的基本单元如图3所示。

下面的式子是残差模块中的基本形式：

y_k＝h(x_t)+F(x_k，W_k) (1)

x_k+1＝f(y_k) (2)

h(x)是恒等映射，F是网络中的变化，f(x)是对于叠加之后值的变换，网络通过学习其中的F来减小loss。假设f是恒等映射，其中x_k又可以拆分为上一模块的输出和k层残差模块的加和，则能够得到循环后的通式：

因此整个网络都是残差结构的，这样就保证了整个网络的向前传播的能力。改进后网络的反向传播公式如下：

可以看到，对于任何一层的x的梯度由两部分组成，其中一部分直接就由K层不加任何衰减和改变的直接传导k层，这保证了梯度传播的有效性,另一部分也由链式法则的累乘变为了累加，这样有更好的稳定性。我们简化卷积操作，给h乘上一个系数 λ，公式3则变成

反向传播则为：

由此可以看到随着λ大于1或者小于1，会产生梯度爆炸或者弥散的情况。于是我们使用ResNet10代替传统的卷积网络。本发明使用改进后残差神经网模型络进行书脊文本特征提取，残差神经网络对于其他的特征提取网络有更优越的特征学习能力，对背景模糊场景文本的特征提取有更强的鲁棒性。

BiLSTM在此模型中的作用主要是进行特征向量的结果预测。输入图片经ResNet网络处理后，转变w/4个序列特征向量(X1...Xn)，这些序列特征向量作为时间片输入到循环神经网络中。LSTM是一种改良的RNN模型，其数学表达式为：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i) (7)

f_t＝σ(W_x-x_t+W_h-h_t-1+W_c-c_t-1+b_f) (8)

c_t＝f_xc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c) (9)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o) (10)

h_t＝o_ttanh(c_t) (11)

其中，σ是sigmod函数，i,f,o分别是输入门、输出门、遗忘门。Ct称作记忆元(cell)。所有门的输出向量都和隐藏层h具有相同的维度。门是lstm的主要部件，它将输入向量按元素乘以其系数。本文使用双向长短时记忆网络(BiLSTM)对输入的特征序列进行处理与预测，BiLSTM能够同时利用到特征序列两侧的图像信息，叠加多层Bilstm网络能够带来更好的学习效果

CTC在模型中的作用是将预测结果翻译成最后的识别结果，并对比输入输出序列文本计算Loss值进行反向模型参数更新。CTC定义了一种单帧预测序列到标签序列的转换规则，根据此规则对预测序列做去重以及去空白处理，从而得到最终的标签序列。对于BiLSTM给定输入Xi的情况下，输出结果为l的概率为：

其中

π∈B^-1(l)

代表所有经过B变换后是l的路径π，对于任意的一条路径π有：

这里的

下标t表示π路径的每一个时刻。CTC采用了隐马尔科夫(HMM)的 “向前-向后(forward-backward)”算法来计算p(l|x)。CTC是一种Loss计算方法，用CTC代替Softmax Loss，训练样本无需对齐，并引入blank字符，解决有些位置没有字符的问题。通过递推，快速计算梯度实现端到端的训练。

步骤(4)、制作SK-NNS分类器模型；

K近邻单纯型算法是常用的分类算法，其以算法简洁，实现方便，性能优良等特点著称，K-NN算法也适用于样本容量比较大的自动分类场景。本文使用一种最近单纯型分类器，算法描述如下：

定义训练样本集：

定义SK-NNS，由K个局部样本x_j…x_k线性组合构成：

对于样本x_i，他到某个类别的距离最小值表达式为：

其中集合{N(i)}^k _i＝1是训练样本中与样本点距离最近的K个局部点集合。然后利用每类样本中的最近邻样本点，建立KNNS，计算出样本点到没类KNNS的距离。本发明基于K近邻单纯型算法(K-NNS)设计了专用于常用字符的多种字体样式(包含艺术体)文本分类器，致力于解决因为多种字体形式而导致书脊文本识别性能下降的问题。步骤(5)、使用(1)，(2)的数据集对(3)、(4)搭建的模型进行训练。训练流程如图2所示，下面对训练流程进行详细介绍。

首先我们使用单字数据集对SK-NNS分类器进行预训练得到一个能够对单字分类性能较好的模型，然后我们使用合成数据与真实数据对STRNet，SK-NNS联合训练。

书脊文本先经STRNet模型，ResNet10对书脊文本进行特征抽取，BiLSTM对特征序列进行预测，CTC对预测结果进行转换成标签，并对比输入与输出序列文本，进行输入输出文本序列对齐的CTC-Loss计算进而对BiLSTM与ResNet10网络进行反向更新参数。

值得一提的是我们在BiLSTM网络中的log_softmax层加入一个变量wp(wrongpercent)，用于在训练时采集误识别文本的预测概率值，当STRNet模型的识别结果与输入的序列不一致时，我们制定了易错字二次训练的策略。

假设有字符“脊”字识别有误，系统对误识别的单字进行反向SK-NNS训练操作，首先保存此帧特征图邻近三帧范围内预测结果为“脊”的误识别特征图的预测值，然后从ResNet10的特征图中抽取“脊”特征图进行合成为单字图片，将该单字图片与标签“脊”送入SK-NNS分类器中进行训练，在每次训练结束后，将所有误识别的 log_softmax预测值进行取平均数，并存储到wp变量中，随着模型的训练wp会保持动态更新，直到更新最优的误识别概率值。

本发明设计的训练流程能够实现一套书脊数据同时对两个模型进行训练，即能够提高STRNet模型对整体序列识别的准确率，也能够提升SK-NNS模型对易错单字识别的准确率。

步骤(6)、基于log_softmax预测概率对训练好的STRNet模型与SK-NNS分类器进行结合；其经步骤(5)训练后，我们能够得到一个性能优越的STRNet模型与SK- NNS分类器以及一个误识别区间(wp—-∞)。

在实际识别过程中，本发明基于BiLSTM网络log_softmax层的特征图序列预测概率，把STRNet模型与SK-NNS分类器进行结合。当所有特征图序列的Softmax概率大于wp时，直接输出CTC转换结果到后处理模块。当存在特征图预测概率小于wp时，抽取该特征图邻近3帧范围内预测结果相同的特征图送入SK-NNS分类器中进行二次识别，并将分类器输出的结果与STRNet识别的结果进行错字替换操作，最后输出替换后的结果到后处理模块。

步骤(7)、识别的结果进行语法纠错，将有语病的单词或者词组进行纠正，从而保证识别的准确率。

在普通场景文本识别领域普遍采用CRNN基础模型进行文本识别，对于背景简单，字体形式单一的文本识别准确率较高，但对书脊文本识别性能较差，因为书脊存在文本模糊、字体多样，排版规律不确定的特点，所以此方法对于文本模糊，字体不统一，排版复杂书脊会出现漏识别或错识别的情况。这就导致这个方法在书脊识别场景无法进行高精度的识别。

本发明提出的书脊文本识别方法，能够有效克服文本模糊，字体多样等问题对书脊文本识别准确率的影响。利用针对文本模糊，字体多样的书脊文本场景，我们把 STRNet与SK-NNS分类器结合，利用STRNet提取更多的文本特征，使用SK-NNS对多种字体形式的单字进行高精度识别，本发明基于log_softmax预测概率把STRNet模型预测的结果中可能预测错的复杂单字使用SK-NNS模型进行二次识别，在将STRNet识别结果与SK-NNS识别结果进行组合。最后输出结果在进行后处理词条语法纠错操作，以此保证识别的准确率。在实际书脊文本识别场景中能够对书脊文本进行准确的识别，对背景复杂、文本模糊、有艺术字的书脊识别也有更好的效果。本发明方法的提出为书脊场景文本识别提供了新的思路，旨在实现书脊文本自动化、高精度识别，以此提升图书管理的工作效率。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于深度学习的书脊文本识别方法，其特征在于，包括如下步骤：

步骤1，制作合成书脊训练集，单字多字体训练集；

步骤3，搭建ResNet10+BiLSTM+CTC的网络模型；

步骤4，搭建SK-NNS分类器模型；

2.如权利要求1所述的一种基于深度学习的书脊文本识别方法，其特征在于，所述步骤1进一步包括：对书籍包含书目、出版社、作者的文本信息采集，通过数据清洗，合成多种字体形式以及多种背景的书脊文本图片；同时采集中英文数字常用字符共2536个，制作包含艺术体，街景字体类型的多种字体单字图片数据集。

3.如权利要求2所述的一种基于深度学习的书脊文本识别方法，其特征在于，所述步骤5进一步包括：首先使用单字数据集对SK-NNS分类器进行预训练得到一个能够对单字分类性能较好的模型，再使用合成数据与真实数据对STRNet，SK-NNS联合训练，其中，书脊文本先经STRNet模型，ResNet10对书脊文本进行特征抽取，BiLSTM对特征序列进行预测，并在BiLSTM网络中的log_softmax层加入用于在训练时采集误识别文本的预测概率值的一个变量wp(wrong percent)，当STRNet模型的识别结果与输入的序列不一致时，制定了易错字二次训练的策略，通过CTC对预测结果进行转换成标签，并对比输入与输出序列文本，进行输入输出文本序列对齐的CTC-Loss计算进而对BiLSTM与ResNet10网络进行反向更新参数。

4.如权利要求3所述的一种基于深度学习的书脊文本识别方法，其特征在于，当检测到字识别有误时，系统对误识别的单字进行反向SK-NNS训练操作，首先保存此帧特征图左右预设范围窗口内的预测结果为所述误识别的单字的误识别特征图的预测值，然后从ResNet10的特征图中抽取所述误识别的单字特征图进行合成为单字图片，将该单字图片与标签为所述误识别的单字送入SK-NNS分类器中进行训练，在每次训练结束后，将所有误识别的log_softmax预测值进行取平均数，并存储到wp变量中，随着模型的训练所述wp会保持动态更新，直到更新最优的误识别概率值。

5.如权利要求3所述的一种基于深度学习的书脊文本识别方法，其特征在于，所述步骤6进一步包括：当所有特征图序列的log_softmax概率大于wp时，直接输出CTC转换结果到后处理模块；当存在特征图预测概率小于wp时，抽取该特征图邻近三帧范围内预测结果相同的特征图送入SK-NNS分类器中进行二次识别，并将分类器输出的结果与STRNet识别的结果进行错字替换操作，最后输出替换后的结果到后处理模块。

6.一种电子设备，其特征在于，包括：数据集制作模块、书脊文本检测模块、书脊文本识别模块、文本分类器模块、双模型训练模块、双模型集合模块、识别结果后处理模块，及处理器；以及，存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-5任一项所述的基于深度学习的书脊文本识别方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的基于深度学习的书脊文本识别方法。