CN111680684A - 一种基于深度学习的书脊文本识别方法、设备及存储介质 - Google Patents
一种基于深度学习的书脊文本识别方法、设备及存储介质 Download PDFInfo
- Publication number
- CN111680684A CN111680684A CN202010182949.3A CN202010182949A CN111680684A CN 111680684 A CN111680684 A CN 111680684A CN 202010182949 A CN202010182949 A CN 202010182949A CN 111680684 A CN111680684 A CN 111680684A
- Authority
- CN
- China
- Prior art keywords
- spine
- text
- nns
- training
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 238000003860 storage Methods 0.000 title claims description 8
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000012937 correction Methods 0.000 claims abstract description 6
- 238000001514 detection method Methods 0.000 claims abstract description 6
- 239000000284 extract Substances 0.000 claims abstract 2
- 238000012805 post-processing Methods 0.000 claims description 10
- 230000002441 reversible effect Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000002864 sequence alignment Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 208000011977 language disease Diseases 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000004519 manufacturing process Methods 0.000 abstract description 3
- 230000000295 complement effect Effects 0.000 abstract 1
- 238000003058 natural language processing Methods 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000007635 classification algorithm Methods 0.000 description 4
- 102100032202 Cornulin Human genes 0.000 description 3
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 206010025482 malaise Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的书脊文本识别方法,包括:制作合成书脊、单字多字体和真实书脊数据集;基于CTPN模型对单本书脊进行文本检测;针对文本模糊特点搭建基于ResNet10的书脊文本识别模型STRNet;针对字体多样特点制作SK‑NNS分类器;基于我们制作的数据集对STRNet、SK‑NNS分类器进行训练;基于误识别概率点wp对STRNet,SK‑NNS模型进行集成,基于log_softmax预测概率对STRNet可能识别错的单字进行SK‑NNS二次识别;识别文本后处理使用自然语言处理技术进行词条语法纠错,保证识别准确率。STRNet能够提取更多的书脊文本特征,SK‑NNS能够识别不同字体的单字,两个模型优势互补,使得本方法在书脊文本识别场景的应用准确率更高。
Description
技术领域
本发明涉及神经网络文本识别领域,尤其涉及一种基于深度学习的书脊文本识别方法、设备及存储介质。
背景技术
图书数字化是未来发展的趋势,但是数字图书代替不了纸质图书所带来的触碰质感,当前,纸质图书仍是图书资源的主要组成部分。但是百万级图书的常规性盘点工 作需要耗费大量的人力物力成本,利用计算机视觉技术模拟人工识别能力是建设智能 化图书馆的一个发展方向,对书脊进行高精度文本识别是其中一个重要子课题。传统 用人工或者条形码对书脊文本进行识别的方式效率低、成本高、错误率高,近年来, 基于深度学习的文本识别技术在文档图像分析与识别(DAR)、光学字符识别(OCR)、 在线文字识别(OnlineHCR)领域取得了巨大的成功。与传统的书脊文本识别方式相 比,基于深度学习的书脊文本识别方法在提升效率的同时具备更高的识别准确率。近 年来与本发明相近的技术如下。
CRNN模型:此方法是一种通用模型,能够实现普通场景文本的识别,对于背景 简单,排版规律单一的文本识别准确率较高,但针对书脊文本识别性能较差,因为书 脊具备文本模糊、字体多样,排版规律不确定的特点,所以此方法对于模糊,字体不 统一,排版复杂书脊会出现漏识别或错识别的情况。这就导致这个方法在书脊识别场 景无法进行高精度的识别。
传统人工识别或条形码识别书脊文本的模式效率已然落后于科技的发展,本发明方法的提出能够有效提升书脊文本识别的准确率,对比目前的主流的场景文本识别方 法,本发明具有明显优势。
发明内容
本发明是针对书脊的场景文本识别方法,书脊文本识别相对于车牌、票据、证件等的场景文本识别,书脊具备文本模糊、字体形式多样、排版多样、中英文横纵混排 等的多种特点,使得书脊的识别难度比一般的场景文本识别难度更大。其中文本模糊, 字体形态多样是造成书脊文本识别性能下降的主要原因。
本发明基于残差神经网络、双向长短时记忆网络、连续时序分类算法、K近邻单纯型分类算法设计出一种准确率更高,鲁棒性更强的新型书脊文本识别方法,利用残差 神经网络来获取更多的文本特征,以克服模糊文本对模型性能的不良影响;利用K近 邻单纯型算法对误识别的单字进行二次识别,以克服艺术字体及其他形态字体对模型 识别性能的不良影响。
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了一种基于深度学习的书脊文本识别方法,包括如下步骤:
步骤1,制作合成书脊训练集,单字多字体训练集;
步骤2,在图书馆采集真实书脊图片,使用CTPN模型对单本书脊进行文本检测与裁剪、标注得到真实书脊数据集;
步骤3,搭建ResNet10+BiLSTM+CTC的网络模型;
步骤4,搭建SK-NNS分类器模型;
步骤5,通过使用所述合成书脊训练集、单字多字体训练集及真实书脊数据集的数据集对搭建的所述网络模型及所述分类器模型进行训练;
步骤6,基于log_softmax预测概率对训练好的STRNet与SK-NNS分类器进行结 合;
步骤7,识别结果进行语法纠错,将有语病的单词或者词组进行纠正。
进一步地,所述步骤1进一步包括:对书籍包含书目、出版社、作者的文本信息 采集,通过数据清洗,合成多种字体形式以及多种背景的书脊文本图片;同时采集中 英文数字常用字符共2536个,制作包含艺术体,街景字体类型的多种字体单字图片数 据集。
进一步地,所述步骤5进一步包括:首先使用单字数据集对SK-NNS分类器进行预训练得到一个能够对单字分类性能较好的模型,再使用合成数据与真实数据对STRNet,SK-NNS联合训练,其中,书脊文本先经STRNet模型,ResNet10对书脊文本进行特征 抽取,BiLSTM对特征序列进行预测,并在BiLSTM网络中的log_softmax层加入用于 在训练时采集误识别文本的预测概率值的一个变量wp(wrong percent),当STRNet 模型的识别结果与输入的序列不一致时,制定了易错字二次训练的策略,通过CTC对 预测结果进行转换成标签,并对比输入与输出序列文本,进行输入输出文本序列对齐 的CTC-Loss计算进而对BiLSTM与ResNet10网络进行反向更新参数。
进一步地,当检测到字识别有误时,系统对误识别的单字进行反向SK-NNS训练操作,首先保存此帧特征图邻近三帧范围内的预测结果为所述误识别的单字的误识别特 征图的预测值,然后从ResNet10的特征图中抽取所述误识别的单字特征图进行合成为 单字图片,将该单字图片与标签为所述误识别的单字送入SK-NNS分类器中进行训练, 在每次训练结束后,将所有误识别的log_softmax预测值进行取平均数,并存储到wp 变量中,随着模型的训练所述wp会保持动态更新,直到更新最优的误识别概率值。
进一步地,所述步骤6进一步包括:当所有特征图序列的log_softmax概率大于 wp时,直接输出CTC转换结果到后处理模块;当存在特征图预测概率小于wp时,抽 取该特征图邻近三帧范围内预测结果相同的特征图送入SK-NNS分类器中进行二次识别, 并将分类器输出的结果与STRNet识别的结果进行错字替换操作,最后输出替换后的结 果到后处理模块。
本发明进一步公开了一种电子设备,包括:数据集制作模块、书脊文本检测模块、书脊文本识别模块、文本分类器模块、双模型训练模块、双模型集合模块、识别结果 后处理模块,及处理器;以及,存储器,用于存储所述处理器的可执行指令;其中, 所述处理器配置为经由执行所述可执行指令来执行上述的基于深度学习的书脊文本识 别方法。
本发明进一步公开了一种计算机可读存储介质,其上存储有计算机程序,所述 计算机程序被处理器执行时实现上述的基于深度学习的书脊文本识别方法。
与现有技术相比,本发明的有益效果为:在普通场景文本识别领域普遍采用CRNN基础模型进行文本识别,对于背景简单,字体形式单一的文本识别准确率较高,但对 书脊文本识别性能较差,因为书脊存在文本模糊、字体多样,排版规律不确定的特点, 所以此方法对于文本模糊,字体不统一,排版复杂书脊会出现漏识别或错识别的情况。 这就导致这个方法在书脊识别场景无法进行高精度的识别。而本发明提出的书脊文本 识别方法,能够有效克服文本模糊,字体多样等问题对书脊文本识别准确率的影响。 利用针对文本模糊,字体多样的书脊文本场景,我们把STRNet与SK-NNS分类器结合, 利用STRNet提取更多的文本特征,使用SK-NNS对多种字体形式的单字进行高精度识 别,本发明基于log_softmax预测概率把STRNet模型预测的结果中可能预测错的复杂 单字使用SK-NNS模型进行二次识别,在将STRNet识别结果与SK-NNS识别结果进行组 合。最后输出结果在进行后处理词条语法纠错操作,以此保证识别的准确率。在实际 书脊文本识别场景中能够对书脊文本进行准确的识别,对背景复杂、文本模糊、有艺 术字的书脊识别也有更好的效果。本发明方法的提出为书脊场景文本识别提供了新的 思路,旨在实现书脊文本自动化、高精度识别,以此提升图书管理的工作效率。即, 本发明提出的STRNet,SK-NNS双模型的识别方法,能够有效提升书脊文本识别准确率。 基于连续时序分类算法的转换规则使得模型训练数据不需要字符级别的标注,减少数 据标注的人力成本;基于残差神经网络构建书脊特征提取网络,有效解决梯度弥散/爆 炸问题,同时提高模型精度;基于K近邻单纯型算法的分类器能够有效提升多种字体 的单字识别准确率。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在图中,在不同的视图中,相同的附图标记指 定对应的部分。
图1是本发明的基于深度学习的书脊文本识别方法的流程图;
图2是本发明基于深度学习的书脊文本识别方法的STRNet,SK-NNS模型的联合训练流程图;
图3是本发明基于深度学习的书脊文本识别方法的残差网络的基本单元结构图。
具体实施方式
本实施进一步公开了一种基于深度学习的书脊文本识别方法,具体包括如下步骤:
步骤(1)、制作合成书脊训练集,单字多字体训练集;
过程包含书目、出版社、作者文本信息采集,数据清洗,合成多种字体形式以及 多种背景的书脊文本图片;采集中英文数字常用字符共2536个,制作包含艺术体,街 景字体等的多种字体单字图片数据集。
步骤(2)、在图书馆采集真实书脊图片,使用CTPN模型对单本书脊进行文本检 测与裁剪、标注得到真实书脊数据集;
步骤(3)、搭建ResNet10+BiLSTM+CTC的网络模型;
ResNet10在此模型中的作用主要是进行书脊特征的提取。本文将改进后的ResNet网络作为模型的主干网络,残差网络的基本单元为:
所述残差网络的基本单元如图3所示。
下面的式子是残差模块中的基本形式:
yk=h(xt)+F(xk,Wk) (1)
xk+1=f(yk) (2)
h(x)是恒等映射,F是网络中的变化,f(x)是对于叠加之后值的变换,网络通过 学习其中的F来减小loss。假设f是恒等映射,其中xk又可以拆分为上一模块的输出 和k层残差模块的加和,则能够得到循环后的通式:
因此整个网络都是残差结构的,这样就保证了整个网络的向前传播的能力。改进后网络的反向传播公式如下:
可以看到,对于任何一层的x的梯度由两部分组成,其中一部分直接就由K层不 加任何衰减和改变的直接传导k层,这保证了梯度传播的有效性,另一部分也由链式法 则的累乘变为了累加,这样有更好的稳定性。我们简化卷积操作,给h乘上一个系数 λ,公式3则变成
反向传播则为:
由此可以看到随着λ大于1或者小于1,会产生梯度爆炸或者弥散的情况。于是我们使用ResNet10代替传统的卷积网络。本发明使用改进后残差神经网模型络进行书脊 文本特征提取,残差神经网络对于其他的特征提取网络有更优越的特征学习能力,对 背景模糊场景文本的特征提取有更强的鲁棒性。
BiLSTM在此模型中的作用主要是进行特征向量的结果预测。输入图片经ResNet网络处理后,转变w/4个序列特征向量(X1...Xn),这些序列特征向量作为时间片输入 到循环神经网络中。LSTM是一种改良的RNN模型,其数学表达式为:
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (7)
ft=σ(Wx-xt+Wh-ht-1+Wc-ct-1+bf) (8)
ct=fxct-1+ittanh(Wxcxt+Whcht-1+bc) (9)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo) (10)
ht=ottanh(ct) (11)
其中,σ是sigmod函数,i,f,o分别是输入门、输出门、遗忘门。Ct称作记忆元(cell)。所有门的输出向量都和隐藏层h具有相同的维度。门是lstm的主要部件, 它将输入向量按元素乘以其系数。本文使用双向长短时记忆网络(BiLSTM)对输入的 特征序列进行处理与预测,BiLSTM能够同时利用到特征序列两侧的图像信息,叠加多 层Bilstm网络能够带来更好的学习效果
CTC在模型中的作用是将预测结果翻译成最后的识别结果,并对比输入输出序列文 本计算Loss值进行反向模型参数更新。CTC定义了一种单帧预测序列到标签序列的转换规则,根据此规则对预测序列做去重以及去空白处理,从而得到最终的标签序列。 对于BiLSTM给定输入Xi的情况下,输出结果为l的概率为:
其中
π∈B-1(l)
代表所有经过B变换后是l的路径π,对于任意的一条路径π有:
这里的下标t表示π路径的每一个时刻。CTC采用了隐马尔科夫(HMM)的 “向前-向后(forward-backward)”算法来计算p(l|x)。CTC是一种Loss计算方 法,用CTC代替Softmax Loss,训练样本无需对齐,并引入blank字符,解决有些位 置没有字符的问题。通过递推,快速计算梯度实现端到端的训练。
步骤(4)、制作SK-NNS分类器模型;
K近邻单纯型算法是常用的分类算法,其以算法简洁,实现方便,性能优良等特点著称,K-NN算法也适用于样本容量比较大的自动分类场景。本文使用一种最近单纯型 分类器,算法描述如下:
定义训练样本集:
定义SK-NNS,由K个局部样本xj…xk线性组合构成:
对于样本xi,他到某个类别的距离最小值表达式为:
其中集合{N(i)}k i=1是训练样本中与样本点距离最近的K个局部点集合。然后利用每类样本中的最近邻样本点,建立KNNS,计算出样本点到没类KNNS的距离。本发 明基于K近邻单纯型算法(K-NNS)设计了专用于常用字符的多种字体样式(包含艺术 体)文本分类器,致力于解决因为多种字体形式而导致书脊文本识别性能下降的问题。 步骤(5)、使用(1),(2)的数据集对(3)、(4)搭建的模型进行训练。训练流 程如图2所示,下面对训练流程进行详细介绍。
首先我们使用单字数据集对SK-NNS分类器进行预训练得到一个能够对单字分类性 能较好的模型,然后我们使用合成数据与真实数据对STRNet,SK-NNS联合训练。
书脊文本先经STRNet模型,ResNet10对书脊文本进行特征抽取,BiLSTM对特征 序列进行预测,CTC对预测结果进行转换成标签,并对比输入与输出序列文本,进行 输入输出文本序列对齐的CTC-Loss计算进而对BiLSTM与ResNet10网络进行反向更新 参数。
值得一提的是我们在BiLSTM网络中的log_softmax层加入一个变量wp(wrongpercent),用于在训练时采集误识别文本的预测概率值,当STRNet模型的识别结果 与输入的序列不一致时,我们制定了易错字二次训练的策略。
假设有字符“脊”字识别有误,系统对误识别的单字进行反向SK-NNS训练操作, 首先保存此帧特征图邻近三帧范围内预测结果为“脊”的误识别特征图的预测值,然 后从ResNet10的特征图中抽取“脊”特征图进行合成为单字图片,将该单字图片与标 签“脊”送入SK-NNS分类器中进行训练,在每次训练结束后,将所有误识别的 log_softmax预测值进行取平均数,并存储到wp变量中,随着模型的训练wp会保持 动态更新,直到更新最优的误识别概率值。
本发明设计的训练流程能够实现一套书脊数据同时对两个模型进行训练,即能够提高STRNet模型对整体序列识别的准确率,也能够提升SK-NNS模型对易错单字识别 的准确率。
步骤(6)、基于log_softmax预测概率对训练好的STRNet模型与SK-NNS分类器 进行结合;其经步骤(5)训练后,我们能够得到一个性能优越的STRNet模型与SK- NNS分类器以及一个误识别区间(wp—-∞)。
在实际识别过程中,本发明基于BiLSTM网络log_softmax层的特征图序列预测概率,把STRNet模型与SK-NNS分类器进行结合。当所有特征图序列的Softmax概率大 于wp时,直接输出CTC转换结果到后处理模块。当存在特征图预测概率小于wp时, 抽取该特征图邻近3帧范围内预测结果相同的特征图送入SK-NNS分类器中进行二次识 别,并将分类器输出的结果与STRNet识别的结果进行错字替换操作,最后输出替换后 的结果到后处理模块。
步骤(7)、识别的结果进行语法纠错,将有语病的单词或者词组进行纠正,从而 保证识别的准确率。
在普通场景文本识别领域普遍采用CRNN基础模型进行文本识别,对于背景简单,字体形式单一的文本识别准确率较高,但对书脊文本识别性能较差,因为书脊存在文 本模糊、字体多样,排版规律不确定的特点,所以此方法对于文本模糊,字体不统一, 排版复杂书脊会出现漏识别或错识别的情况。这就导致这个方法在书脊识别场景无法 进行高精度的识别。
本发明提出的书脊文本识别方法,能够有效克服文本模糊,字体多样等问题对书脊文本识别准确率的影响。利用针对文本模糊,字体多样的书脊文本场景,我们把 STRNet与SK-NNS分类器结合,利用STRNet提取更多的文本特征,使用SK-NNS对多 种字体形式的单字进行高精度识别,本发明基于log_softmax预测概率把STRNet模型 预测的结果中可能预测错的复杂单字使用SK-NNS模型进行二次识别,在将STRNet识 别结果与SK-NNS识别结果进行组合。最后输出结果在进行后处理词条语法纠错操作, 以此保证识别的准确率。在实际书脊文本识别场景中能够对书脊文本进行准确的识别, 对背景复杂、文本模糊、有艺术字的书脊识别也有更好的效果。本发明方法的提出为 书脊场景文本识别提供了新的思路,旨在实现书脊文本自动化、高精度识别,以此提 升图书管理的工作效率。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他 性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素, 而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设 备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素, 并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施 例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算 机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机 程序产品的形式。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。因此,其旨在上述详细描述被认为是例示 性的而非限制性的,并且应当理解,以下权利要求(包括所有等同物)旨在限定本发明 的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保 护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修 改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (7)
1.一种基于深度学习的书脊文本识别方法,其特征在于,包括如下步骤:
步骤1,制作合成书脊训练集,单字多字体训练集;
步骤2,在图书馆采集真实书脊图片,使用CTPN模型对单本书脊进行文本检测与裁剪、标注得到真实书脊数据集;
步骤3,搭建ResNet10+BiLSTM+CTC的网络模型;
步骤4,搭建SK-NNS分类器模型;
步骤5,通过使用所述合成书脊训练集、单字多字体训练集及真实书脊数据集的数据集对搭建的所述网络模型及所述分类器模型进行训练;
步骤6,基于log_softmax预测概率对训练好的STRNet与SK-NNS分类器进行结合;
步骤7,识别结果进行语法纠错,将有语病的单词或者词组进行纠正。
2.如权利要求1所述的一种基于深度学习的书脊文本识别方法,其特征在于,所述步骤1进一步包括:对书籍包含书目、出版社、作者的文本信息采集,通过数据清洗,合成多种字体形式以及多种背景的书脊文本图片;同时采集中英文数字常用字符共2536个,制作包含艺术体,街景字体类型的多种字体单字图片数据集。
3.如权利要求2所述的一种基于深度学习的书脊文本识别方法,其特征在于,所述步骤5进一步包括:首先使用单字数据集对SK-NNS分类器进行预训练得到一个能够对单字分类性能较好的模型,再使用合成数据与真实数据对STRNet,SK-NNS联合训练,其中,书脊文本先经STRNet模型,ResNet10对书脊文本进行特征抽取,BiLSTM对特征序列进行预测,并在BiLSTM网络中的log_softmax层加入用于在训练时采集误识别文本的预测概率值的一个变量wp(wrong percent),当STRNet模型的识别结果与输入的序列不一致时,制定了易错字二次训练的策略,通过CTC对预测结果进行转换成标签,并对比输入与输出序列文本,进行输入输出文本序列对齐的CTC-Loss计算进而对BiLSTM与ResNet10网络进行反向更新参数。
4.如权利要求3所述的一种基于深度学习的书脊文本识别方法,其特征在于,当检测到字识别有误时,系统对误识别的单字进行反向SK-NNS训练操作,首先保存此帧特征图左右预设范围窗口内的预测结果为所述误识别的单字的误识别特征图的预测值,然后从ResNet10的特征图中抽取所述误识别的单字特征图进行合成为单字图片,将该单字图片与标签为所述误识别的单字送入SK-NNS分类器中进行训练,在每次训练结束后,将所有误识别的log_softmax预测值进行取平均数,并存储到wp变量中,随着模型的训练所述wp会保持动态更新,直到更新最优的误识别概率值。
5.如权利要求3所述的一种基于深度学习的书脊文本识别方法,其特征在于,所述步骤6进一步包括:当所有特征图序列的log_softmax概率大于wp时,直接输出CTC转换结果到后处理模块;当存在特征图预测概率小于wp时,抽取该特征图邻近三帧范围内预测结果相同的特征图送入SK-NNS分类器中进行二次识别,并将分类器输出的结果与STRNet识别的结果进行错字替换操作,最后输出替换后的结果到后处理模块。
6.一种电子设备,其特征在于,包括:数据集制作模块、书脊文本检测模块、书脊文本识别模块、文本分类器模块、双模型训练模块、双模型集合模块、识别结果后处理模块,及处理器;以及,存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-5任一项所述的基于深度学习的书脊文本识别方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的基于深度学习的书脊文本识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010182949.3A CN111680684B (zh) | 2020-03-16 | 2020-03-16 | 一种基于深度学习的书脊文本识别方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010182949.3A CN111680684B (zh) | 2020-03-16 | 2020-03-16 | 一种基于深度学习的书脊文本识别方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111680684A true CN111680684A (zh) | 2020-09-18 |
CN111680684B CN111680684B (zh) | 2023-09-05 |
Family
ID=72451389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010182949.3A Active CN111680684B (zh) | 2020-03-16 | 2020-03-16 | 一种基于深度学习的书脊文本识别方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680684B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033377A (zh) * | 2021-03-16 | 2021-06-25 | 北京有竹居网络技术有限公司 | 字符位置修正方法、装置、电子设备和存储介质 |
CN114615183A (zh) * | 2022-03-14 | 2022-06-10 | 广东技术师范大学 | 基于资源预测的路由方法、装置、计算机设备及存储介质 |
CN115331114A (zh) * | 2022-10-14 | 2022-11-11 | 青岛恒天翼信息科技有限公司 | 基于船号深度学习的船舶身份识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN110276253A (zh) * | 2019-05-15 | 2019-09-24 | 中国科学院信息工程研究所 | 一种基于深度学习的模糊文字检测识别方法 |
CN110399845A (zh) * | 2019-07-29 | 2019-11-01 | 上海海事大学 | 一种图像中连续成段文本检测与识别方法 |
-
2020
- 2020-03-16 CN CN202010182949.3A patent/CN111680684B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN110276253A (zh) * | 2019-05-15 | 2019-09-24 | 中国科学院信息工程研究所 | 一种基于深度学习的模糊文字检测识别方法 |
CN110399845A (zh) * | 2019-07-29 | 2019-11-01 | 上海海事大学 | 一种图像中连续成段文本检测与识别方法 |
Non-Patent Citations (1)
Title |
---|
刘汝翠;: "基于自动智能分类器的图书馆乱架图书检测" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033377A (zh) * | 2021-03-16 | 2021-06-25 | 北京有竹居网络技术有限公司 | 字符位置修正方法、装置、电子设备和存储介质 |
CN114615183A (zh) * | 2022-03-14 | 2022-06-10 | 广东技术师范大学 | 基于资源预测的路由方法、装置、计算机设备及存储介质 |
CN114615183B (zh) * | 2022-03-14 | 2023-09-05 | 广东技术师范大学 | 基于资源预测的路由方法、装置、计算机设备及存储介质 |
CN115331114A (zh) * | 2022-10-14 | 2022-11-11 | 青岛恒天翼信息科技有限公司 | 基于船号深度学习的船舶身份识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111680684B (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Handwritten mathematical expression recognition via paired adversarial learning | |
CN110110585B (zh) | 基于深度学习的智能阅卷实现方法及系统、计算机程序 | |
Zhang et al. | Watch, attend and parse: An end-to-end neural network based approach to handwritten mathematical expression recognition | |
CN111581961B (zh) | 一种中文视觉词汇表构建的图像内容自动描述方法 | |
CN110443818B (zh) | 一种基于涂鸦的弱监督语义分割方法与系统 | |
CN110750959B (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN106484674B (zh) | 一种基于深度学习的中文电子病历概念抽取方法 | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN110033008B (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111680684B (zh) | 一种基于深度学习的书脊文本识别方法、设备及存储介质 | |
CN110705399A (zh) | 一种数学公式自动识别的方法 | |
CN116432655B (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
Hamida et al. | Handwritten computer science words vocabulary recognition using concatenated convolutional neural networks | |
Zhang et al. | Image caption generation using contextual information fusion with Bi-LSTM-s | |
CN114048354B (zh) | 基于多元表征和度量学习的试题检索方法、装置及介质 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
Al Ghamdi | A novel approach to printed Arabic optical character recognition | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
Ma et al. | Bootstrapping structured page segmentation | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
Drobac | OCR and post-correction of historical newspapers and journals | |
CN113934922A (zh) | 一种智能推荐的方法、装置、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |