CN109800756B - 一种用于中文历史文献密集文本的文字检测识别方法 - Google Patents

一种用于中文历史文献密集文本的文字检测识别方法 Download PDF

Info

Publication number
CN109800756B
CN109800756B CN201811533332.0A CN201811533332A CN109800756B CN 109800756 B CN109800756 B CN 109800756B CN 201811533332 A CN201811533332 A CN 201811533332A CN 109800756 B CN109800756 B CN 109800756B
Authority
CN
China
Prior art keywords
neural network
layer
convolutional neural
text
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811533332.0A
Other languages
English (en)
Other versions
CN109800756A (zh
Inventor
黄伟国
金连文
杨海林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Original Assignee
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Zhuhai Institute of Modern Industrial Innovation of South China University of Technology filed Critical South China University of Technology SCUT
Priority to CN201811533332.0A priority Critical patent/CN109800756B/zh
Publication of CN109800756A publication Critical patent/CN109800756A/zh
Application granted granted Critical
Publication of CN109800756B publication Critical patent/CN109800756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种用于中文历史文献密集文本的文字检测识别方法,包括步骤:(1)数据获取:采集历史文献图像,进行人工标注;(2)数据预处理:对历史文献图像进行竖直投影做列切分,将历史文献中竖直的文本按列切开;(3)构建并预训练一个单行文本识别的卷积神经网络;(4)构建一个对单行文本进行文字检测的卷积神经网络,与进行单行文本识别的卷积神经网络共享浅层参数,同时进行训练;文字检测卷积神经网络利用文本识别卷积神经网络所提供的文本信息,对检测的位置进行微调,实现精确检测历史文献中密集文本的单个文字位置。本发明采用了卷积神经网络实现文本识别,并且充分利用文本识别分类器的指导信息,检测的效果可以更加精确。

Description

一种用于中文历史文献密集文本的文字检测识别方法
技术领域
本发明涉及模式识别和人工智能技术领域,尤其涉及一种用于中文历史文献密集文本的文字检测识别方法。
背景技术
大量的历史文献是过去的文明留下来的珍贵遗产,解读和保护这些历史文献最有效的方法就是将它们电子化,包括将其中的文字和符号识别并保存下来。近年来,深度学习算法在计算机视觉领域取得了一系列突破性的进展,通用的物体检测算法和场景文本检测算法都有很大的提升,然而,对于中文历史文献中密集的文本,通用的物体检测算法和场景文本检测框架效果并不太理想,而检测的效果又影响了进一步对历史文献进行文字识别,因此,对历史文献中的密集文本进行精确的检测,对将历史文献进行电子化具有重大的意义。
发明内容
本发明的目的在于克服现有技术中的缺点与不足,提供一种用于中文历史文献密集文本的文字检测识别方法,减少网络的参数量,同时使检测的效果更加有效。
为实现以上目的,本发明采取如下技术方案:
一种用于中文历史文献密集文本的文字检测识别方法,包括下述步骤:
S1、数据获取:采集历史文献图片,并进行人工标注,以形成标签数据集;
S2、数据预处理:对步骤S1所采集的历史文献图片进行竖直投影做列切分,将历史文献图片中竖直的文本按列切开,形成图片数据集;
S3、构建一个用于识别单行文本的识别卷积神经网络,利用步骤S1获得的标签数据集和步骤S2预处理获得的图片数据集对所述识别卷积神经网络进行训练;
S4、构建一个用于检测密集文本文字的检测卷积神经网络,与步骤S3中所述识别卷积神经网络共享浅层参数,并同时进行训练;所述检测卷积神经网络利用所述识别卷积神经网络输出的文本信息,对文字检测的位置进行微调,实现精确检测历史文献图片中密集文本的单个文字位置。
作为有选优的技术方案,步骤S1具体包括下述步骤:
S11、通过文档扫描或相机拍照的方式获取原始的历史文献图片;
S12、通过人工标注的方式,将步骤S11中收集得到的原始历史文献图片中的文本位置与文本信息标注出来,具体的方式是:在原始的历史文献图片中用文本框将单个文字框出来,并将对应的文本文字输入记录,形成标签数据集。
作为有选优的技术方案,步骤S2具体包括下述步骤:
S21、根据需要处理的文本特点对步骤S1采集的历史文献图片使用投影法进行列切分,将历史文献图片中竖直的文本按列切开,形成图片数据集;具体如下:
由于输入的历史文献图片中竖直文本为列格式,故利用垂直投影,即计算每一个像素列上的像素总和,通过寻找所述历史文献图片中列的分界点,来进行列切分,形成图片数据集;将图片按像素投影到x轴,定义分割临界值c,c由公式(1)计算可得,
Figure BDA0001906257680000021
其中,cavg是平均像素值,dmin是当前历史文献图片的最小像素值,a和b是经验参数;w为垂直投影与分割临界值c的水平线相交的宽度,
Figure BDA0001906257680000022
为垂直投影与平均像素值cavg的水平线相交的宽度,当w满足式(2)时,将当前历史文献图片按分割临界值c分割为列图片;
Figure BDA0001906257680000031
式中,γ、δ为自适应参数;
Figure BDA0001906257680000032
表示对
Figure BDA0001906257680000033
求平均值。
作为有选优的技术方案,步骤S3具体包括下述步骤:
S31、构建用于识别单行文本的识别卷积神经网络,该网络包括十七层结构,第一层为输入层,首先将输入该层的历史文献图片预处理为1000*100大小的列图片;第二层、第四层、第六层为对历史文献图片进行浅层特征提取的卷积层,通道数分别为16、32、64,卷积核大小均为3*3,步长均为1*1;第三层、第五层、第七层为池化层,核大小均为2*2,步长均为2*2;第八层、第十层、第十二层为深层特征提取的卷积层,通道数分别为128、256、512,卷积核大小分别为3*3、3*3、3*1,步长分别为1*1、1*1、3*1;第九层、第十一层为池化层,核大小均为2*2,步长均为2*2;第十三层为批归一化处理层;第十四层为转置层,对矩阵进行转置操作;第十五层、第十六层为全连接层,表示对前一层得到的特征按照不同的权重进行学习;第十七层为解码处理层;
所述解码处理层的输入维度为N*1,其中N表示要进行识别的字的类别数加一个额外的“空白”类别;所述解码处理层的输出中每个“时间点”对应一个字符,通过计算可找到这个字符在输入图片中对应的位置,即对应的感受野;假设ri表示当前“时间点”在第i个卷积层所对应的区域大小,(xi,yi)表示在第i个卷积层对应区域的中心位置,具体通过以下公式计算:
ri=(ri+1-1)×Si+Ki (3)
Figure BDA0001906257680000034
Figure BDA0001906257680000041
其中,ri+1为当前“时间点”在第i+1个卷积层所对应的区域大小,(xi+1,yi+1)表示在第i+1个卷积层所述对应区域的中心位置,Ki为第i个卷积层的卷积核大小,Si为第i个卷积层的步长,Pi为第i个卷积层的填充尺寸;
S32、将所述标签数据集的标签和所述图片数据集的图片进行分组,以对步骤S31构建的识别卷积神经网络进行多批次训练,具体如下:
设定每一批进行训练的图片数量为BS1张,将步骤S21预处理切分产生的T1张图片随机分为T1/BS1组,根据预处理切分的列图片,将对应的人工标注的文本行信息作为切分图片对应的真实标签,对步骤S31所构建的识别卷积神经网络进行训练时,采用多批次训练,每批次使用一组数据进行批量训练;
S33、利用所述标签数据集和所述图片数据集对步骤S32批次训练后的识别卷积神经网络进行训练,具体如下:
采用随机梯度下降方法对步骤S32中多批次训练后的识别卷积神经网络进行训练,初始学习率为lr0,学习率惩罚系数为λ,最大训练迭代次数为itermax,学习率按照公式(6)更新:
Figure BDA0001906257680000042
其中,iter为当前迭代次数;lriter为当前学习率;γ表示学习率调整的速率;stepsize表示学习率调整的步长。
作为有选优的技术方案,步骤S4具体包括下述步骤:
S41、构建一个对检测密集文本文字的检测卷积神经网络,将输入该网络的图片预处理成1000*100大小的列图片;所述检测卷积神经网络与识别卷积神经网络共享浅层参数,即共享前七层参数;所述检测卷积神经网络的第八层、第十层为深层特征提取的卷积层,通道数分别为128、256,卷积核大小分别为3*3、3*3,步长均为1*1;所述检测卷积神经网络的第九层、第十一层为池化层,核大小均为2*2,步长均为2*2;所述检测卷积神经网络的第十二层为卷积层,通道数为4,卷积核大小为3*1,步长为3*1;所述检测卷积神经网络的第十三层为批归一化处理层,第十四层为损失函数层;
S42、利用所述图像数据集对所述检测卷积神经网络进行训练,具体如下:
所述检测卷积神经网络与识别卷积神经网络采用随机梯度下降方法同时进行训练,用于训练所述检测卷积神经网络的图片为预切分的T2张列图片和对应的人工标注的文字位置信息,每BS2张图片为一组,分为T2/BS2组进行训练,其中T2=T1,BS2=BS1
S43、所述检测卷积神经网络对所述识别卷积神经网络计算出来的感受野进行微调,具体如下:
通过步骤S31中式(3)、式(4)、式(5)的计算,所述识别卷积神经网络最后一层的每一个输出对应在输入图片中的位置即可作为检测卷积神经网络的有效候选框,所述检测卷积神经网络输出有效候选框四个顶点的偏移值,对有效候选框的位置进行微调,来达到更加紧密的检测定位效果;
S44、合并整理最终的候选框与识别结构,具体如下:
在所述检测卷积神经网络的输出中,存在多个候选框,即文本框,采用简化的非最大值抑制方法对最终的文本框进行筛选,具体过程是:相邻的两个框如果在识别卷积神经网络中是相同的文字识别结果,当它们的重叠面积比,即两个框重叠的面积/两个框的面积总和大于阈值t,那么在识别卷积神经网络输出的结果中对应置信度最大的将成为检测的结果,从而实现精确检测历史文献中密集文本的单个文字位置,同时得到对应的识别文本。
作为有选优的技术方案,步骤S41中,所述检测卷积神经网络的输出维度为4*1,其中4表示对应感受野的4个定点的偏移值;为了保持相同位置上的特征向量对应的感受野大小一致,将识别卷积神经网络与检测卷积神经网络的特征一直保持在相同的维度;所述检测卷积神经网络的损失函数由以下公式计算:
Figure BDA0001906257680000061
Figure BDA0001906257680000062
其中T为识别出的字符个数,Pj为检测卷积神经网络在第j个位置检测的输出结果,Gj为第j个位置的真实位置标签,smoothL1(·)为平滑L1范数函数,计算方法如下式(9):
Figure BDA0001906257680000063
本发明相对于现有技术具有如下的优点和效果:
(1)本发明采用识别卷积神经网络和检测据卷积神经网络共享浅层参数共同训练的方式,有效地提高两个卷积神经网络的性能,同时又减少了网络计算和存储的参数量。
(2)本发明采用识别卷积神经网络来为检测卷积神经网络提供有效的候选框,大大减少了候选框的数目;通过计算识别字符对应的感受野(即这个字符在输入图片中对应的位置),再对感受野的四个顶点进行偏移预测,对感受野进一步进行微调,相对于其他检测框架使用更少的参数量即可达到更加紧密而有效的检测结果。
附图说明
图1是本发明用于中文历史文献密集文本的文字检测识别方法流程图;
图2是本发明步骤S4中共享参数的两个卷积神经网络;
图3是本发明步骤S4中检测神经网络对计算的感受野进行微调的过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本发明主要解决通用物体检测和场景文本检测框架对于密集文本的检测不够精确的问题,参考人类阅读的特点,利用一个文本识别分类器来提供文本信息,来帮助训练文本检测器,从而提高文本检测器的精确性,在相对情况下,利用很少的参数量可以实现更加紧密而有效的检测定位。
如图1所示,一种用于中文历史文献密集文本的文字检测识别方法,包括下述步骤:
S1、数据获取:采集历史文献图片,并进行人工标注,以形成标签数据集;
S2、数据预处理:对步骤S1所采集的历史文献图片进行竖直投影做列切分,将历史文献图片中竖直的文本按列切开,形成图片数据集;
S3、构建一个用于识别单行文本的识别卷积神经网络,利用步骤S1获得的标签数据集和步骤S2预处理获得的图片数据集对所述识别卷积神经网络进行训练;
S4、构建一个用于检测密集文本文字的检测卷积神经网络,与步骤S3中所述识别卷积神经网络共享浅层参数,并同时进行训练;所述检测卷积神经网络利用所述识别卷积神经网络输出的文本信息,对文字检测的位置进行微调,实现精确检测历史文献图片中密集文本的单个文字位置。
以下分别对本发明的技术方案进行详细说明。
步骤S1、数据获取:采集历史文献图片,并进行人工标注,以形成标签数据集;包括下述步骤:
S11、通过文档扫描或相机拍照的方式获取原始的历史文献图片;
S12、通过人工标注的方式,将步骤S11中采集的原始历史文献图片中的文本位置与文本信息标注出来,具体的方式是:在原始的历史文献图片中用文本框将单个文字框出来,并将对应的文本文字输入记录,形成标签数据集。
步骤S2、数据预处理:对步骤S1所采集的历史文献图片进行竖直投影做列切分,将历史文献图片中竖直的文本按列切开,形成图片数据集;包括下述步骤:
S21、根据需要处理的文本特点对历史文献图片使用投影法进行列切分,将历史文献图片中竖直的文本按列切开,得到T1张图片;具体如下:
由于输入的历史文献图片中竖直文本为列格式,故利用垂直投影,即计算每一个像素列上的像素总和,通过寻找所述历史文献图片中列的分界点,来进行列切分,形成图片数据集;将图片按像素投影到x轴,定义分割临界值c,具体由公式(1)计算可得,
Figure BDA0001906257680000081
其中,cavg是平均像素值,dmin是当前历史文献图片的最小像素值,a和b是经验参数;w为垂直投影与分割临界值c的水平线相交的宽度,
Figure BDA0001906257680000082
为垂直投影与平均像素值cavg的水平线相交的宽度,当w满足式(2)时,将当前历史文献图片按分割临界值c分割为列图片;
Figure BDA0001906257680000091
式中,γ、δ表示自适应参数,本实施例中均取值1.5;
Figure BDA0001906257680000092
表示对
Figure BDA0001906257680000093
求平均值。
步骤S3、构建一个用于识别单行文本的识别卷积神经网络,利用步骤S1获得的标签数据集和步骤S2预处理获得的图片数据集对所述识别卷积神经网络进行训练;包括下述步骤:
S31、构建用于识别单行文本的识别卷积神经网络,该网络包括十七层结构,第一层为输入层,首先将输入该层的历史文献图片预处理为1000*100大小的列图片;第二层、第四层、第六层为对历史文献图片进行浅层特征提取的卷积层,通道数分别为16、32、64,卷积核大小均为3*3,步长均为1*1;第三层、第五层、第七层为池化层,核大小均为2*2,步长均为2*2;第八层、第十层、第十二层为深层特征提取的卷积层,通道数分别为128、256、512,卷积核大小分别为3*3、3*3、3*1,步长分别为1*1、1*1、3*1;第九层、第十一层为池化层,核大小均为2*2,步长均为2*2;第十三层为批归一化处理层;第十四层为转置层,对矩阵进行转置操作;第十五层、第十六层为全连接层,表示对前一层得到的特征按照不同的权重进行学习;第十七层为CTC解码处理层;
所述CTC解码处理层的输入维度为N*1,其中N表示要进行识别的字的类别数加一个额外的“空白”类别;所述解码处理层的输出中每个“时间点”对应一个字符,通过计算可找到这个字符在输入图片中对应的位置(感受野);假设ri表示当前“时间点”在第i个卷积层所对应的区域大小(宽度/高度),(xi,yi)表示在第i个卷积层对应区域的中心位置,具体通过以下公式计算:
ri=(ri+1-1)×Si+Ki (3)
Figure BDA0001906257680000101
Figure BDA0001906257680000102
其中,ri+1为当前“时间点”在第i+1个卷积层所对应的区域大小,(xi+1,yi+1)表示在第i+1个卷积层所述对应区域的中心位置,Ki为第i个卷积层的卷积核大小,Si为第i个卷积层的步长,Pi为第i个卷积层的填充尺寸。
S32、将标签数据集的标签和图片数据集的图片进行分组,以对步骤S31构建的识别卷积神经网络进行多批次训练,
设定每一批进行训练的图片数量为BS1张,将步骤S21预处理产生的T1张图片随机分为T1/BS1组,根据预处理切分的列图片,将对应的人工标注的文本行信息作为切分图片对应的真实标签,对步骤S31所构建的识别卷积神经网络进行训练时,采用多批次训练,每批次使用一组数据进行批量训练;
S33、利用标签数据集和图片数据集对步骤S32批次训练后的识别卷积神经网络进行训练,具体如下:
采用随机梯度下降方法对步骤S32中批次训练后的识别卷积神经网络进行训练,初始学习率(神经网络算法在训练样本空间寻找最优解的更新速率)为lr0,学习率惩罚系数(用于防止神经网络对训练样本出现过拟合)为λ,最大训练迭代次数为itermax,学习率按照公式(6)更新:
Figure BDA0001906257680000103
其中,iter为当前迭代次数;lriter为当前学习率;γ表示学习率调整的速率;stepsize表示学习率调整的步长;在本实施例中,lr0取值为1、0.5或0.1;λ取值为0.01、0.005、0.001;itermax范围取值为10000-20000;γ范围取值为0.0001-0.0003;stepsize范围取值为2000-3000;
步骤S4、如图2所示,构建一个用于检测密集文本文字的检测卷积神经网络,与步骤S3中所述识别卷积神经网络共享浅层参数,并同时进行训练;所述检测卷积神经网络利用所述识别卷积神经网络提供的文本信息,对文字检测的位置进行微调,实现精确检测历史文献图片中密集文本的单个文字位置;具体包括下述步骤:
S41、构建一个对检测密集文本文字的检测卷积神经网络,将输入该网络的图片预处理成1000*100大小的列图片;所述检测卷积神经网络与识别卷积神经网络共享浅层参数,即共享前七层参数;所述检测卷积神经网络的第八层、第十层为深层特征提取的卷积层,通道数分别为128、256,卷积核大小分别为3*3、3*3,步长均为1*1;所述检测卷积神经网络的第九层、第十一层为池化层,核大小均为2*2,步长均为2*2;所述检测卷积神经网络的第十二层为卷积层,通道数为4,卷积核大小为3*1,步长为3*1;所述检测卷积神经网络的第十三层为批归一化处理层,第十四层为损失函数层;
所述检测卷积神经网络的输出维度为4*1,其中4表示对应感受野的4个定点的偏移值;为了保持相同位置上的特征向量对应的感受野大小一致,将识别卷积神经网络与检测卷积神经网络的特征一直保持在相同的维度;所述检测卷积神经网络的损失函数由以下公式计算:
Figure BDA0001906257680000111
Figure BDA0001906257680000112
其中T为识别出的字符个数,Pj为检测卷积神经网络在第j个位置检测的输出结果,Gj为第j个位置的真实位置标签,smoothL1(·)为平滑L1范数函数,计算方法如下式(9):
Figure BDA0001906257680000121
S42、利用所述图像数据集对所述检测卷积神经网络进行训练,具体如下:
所述检测卷积神经网络与所述识别卷积神经网络采用随机梯度下降方法同时进行训练,用于训练所述检测卷积神经网络的图片为预切分的T2张列图片和对应的人工标注的文字位置信息,每BS2张图片为一组,分为T2/BS2组进行训练,其中T2=T1,BS2=BS1
S43、如图3所示,所述检测卷积神经网络对所述识别卷积神经网络计算出来的感受野进行微调,具体如下:
通过步骤S31中式(3)、式(4)、式(5)的计算,所述识别卷积神经网络最后一层的每一个输出对应在输入图片中的位置即可作为检测卷积神经网络的有效候选框,检测卷积神经网络利用识别卷积神经网络提供的文本指导信息,可以大大减少候选框的数量,相对其他检测框架,用更少的参数就可以实现字符级别的文字检测;所述检测卷积神经网络输出有效候选框四个顶点的偏移值,对有效候选框的位置进行微调,来达到更加紧密的检测定位效果;
S44、合并整理最终的候选框与识别结构,具体如下:
在所述检测卷积神经网络的输出中,存在多个候选框,即文本框,采用简化的非最大值抑制方法对最终的文本框进行筛选,具体过程是:相邻的两个框如果在识别卷积神经网络中是相同的文字识别结果,当它们的重叠面积比,即两个框重叠的面积/两个框的面积总和大于阈值t,那么在识别卷积神经网络输出的结果中对应置信度最大的将成为检测的结果,从而实现精确检测历史文献中密集文本的单个文字位置,同时得到对应的识别文本;本实施例中,t取值0.5。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以权利要求所述为准。

Claims (5)

1.一种用于中文历史文献密集文本的文字检测识别方法,其特征在于,包括下述步骤:
S1、数据获取:采集历史文献图片,并进行人工标注,以形成标签数据集;
S2、数据预处理:对步骤S1所采集的历史文献图片进行竖直投影做列切分,将历史文献图片中竖直的文本按列切开,形成图片数据集;
S3、构建一个用于识别单行文本的识别卷积神经网络,利用步骤S1获得的标签数据集和步骤S2预处理获得的图片数据集对所述识别卷积神经网络进行训练;
S4、构建一个用于检测密集文本文字的检测卷积神经网络,与步骤S3中所述识别卷积神经网络共享浅层参数,并同时进行训练;所述检测卷积神经网络利用所述识别卷积神经网络输出的文本信息,对文字检测的位置进行微调,实现精确检测历史文献图片中密集文本的单个文字位置;
步骤S2具体包括下述步骤:
S21、根据需要处理的文本特点对步骤S1采集的历史文献图片使用投影法进行列切分,将历史文献图片中竖直的文本按列切开,形成图片数据集;具体如下:
由于输入的历史文献图片中竖直文本为列格式,故利用垂直投影,即计算每一个像素列上的像素总和,通过寻找所述历史文献图片中列的分界点,来进行列切分,形成图片数据集;将图片按像素投影到x轴,定义分割临界值c,c由公式(1)计算可得,
Figure FDA0002732441740000011
其中,cavg是平均像素值,dmin是当前历史文献图片的最小像素值,a和b是经验参数;w为垂直投影与分割临界值c的水平线相交的宽度,
Figure FDA0002732441740000012
为垂直投影与平均像素值cavg的水平线相交的宽度,当w满足式(2)时,将当前历史文献图片按分割临界值c分割为列图片;
Figure FDA0002732441740000021
式中,γ、δ为自适应参数;
Figure FDA0002732441740000022
表示对
Figure FDA0002732441740000023
求平均值。
2.如权利要求1所述的用于中文历史文献密集文本的文字检测识别方法,其特征在于,步骤S1具体包括下述步骤:
S11、通过文档扫描或相机拍照的方式获取原始的历史文献图片;
S12、通过人工标注的方式,将步骤S11中收集得到的原始历史文献图片中的文本位置与文本信息标注出来,具体的方式是:在原始的历史文献图片中用文本框将单个文字框出来,并将对应的文本文字输入记录,形成标签数据集。
3.如权利要求2所述的用于中文历史文献密集文本的文字检测识别方法,其特征在于,步骤S3具体包括下述步骤:
S31、构建用于识别单行文本的识别卷积神经网络,该网络包括十七层结构,第一层为输入层,首先将输入该层的历史文献图片预处理为1000*100大小的列图片;第二层、第四层、第六层为对历史文献图片进行浅层特征提取的卷积层,通道数分别为16、32、64,卷积核大小均为3*3,步长均为1*1;第三层、第五层、第七层为池化层,核大小均为2*2,步长均为2*2;第八层、第十层、第十二层为深层特征提取的卷积层,通道数分别为128、256、512,卷积核大小分别为3*3、3*3、3*1,步长分别为1*1、1*1、3*1;第九层、第十一层为池化层,核大小均为2*2,步长均为2*2;第十三层为批归一化处理层;第十四层为转置层,对矩阵进行转置操作;第十五层、第十六层为全连接层,表示对前一层得到的特征按照不同的权重进行学习;第十七层为解码处理层;
所述解码处理层的输入维度为N*1,其中N表示要进行识别的字的类别数加一个额外的“空白”类别;所述解码处理层的输出中每个“时间点”对应一个字符,通过计算可找到这个字符在输入图片中对应的位置,即对应的感受野;假设ri表示当前“时间点”在第i个卷积层所对应的区域大小,(xi,yi)表示在第i个卷积层对应区域的中心位置,具体通过以下公式计算:
ri=(ri+1-1)×Si+Ki (3)
Figure FDA0002732441740000031
Figure FDA0002732441740000032
其中,ri+1为当前“时间点”在第i+1个卷积层所对应的区域大小,(xi+1,yi+1)表示在第i+1个卷积层所述对应区域的中心位置,Ki为第i个卷积层的卷积核大小,Si为第i个卷积层的步长,Pi为第i个卷积层的填充尺寸;
S32、将所述标签数据集的标签和所述图片数据集的图片进行分组,以对步骤S31构建的识别卷积神经网络进行多批次训练,具体如下:
设定每一批进行训练的图片数量为BS1张,将步骤S21预处理切分产生的T1张图片随机分为T1/BS1组,根据预处理切分的列图片,将对应的人工标注的文本行信息作为切分图片对应的真实标签,对步骤S31所构建的识别卷积神经网络进行训练时,采用多批次训练,每批次使用一组数据进行批量训练;
S33、利用所述标签数据集和所述图片数据集对步骤S32批次训练后的识别卷积神经网络进行训练,具体如下:
采用随机梯度下降方法对步骤S32中多批次训练后的识别卷积神经网络进行训练,初始学习率为lr0,学习率惩罚系数为λ,最大训练迭代次数为itermax,学习率按照公式(6)更新:
Figure FDA0002732441740000041
其中,iter为当前迭代次数;lriter为当前学习率;γ表示学习率调整的速率;stepsize表示学习率调整的步长。
4.如权利要求3所述的用于中文历史文献密集文本的文字检测识别方法,其特征在于,步骤S4具体包括下述步骤:
S41、构建一个对检测密集文本文字的检测卷积神经网络,将输入该网络的图片预处理成1000*100大小的列图片;所述检测卷积神经网络与识别卷积神经网络共享浅层参数,即共享前七层参数;所述检测卷积神经网络的第八层、第十层为深层特征提取的卷积层,通道数分别为128、256,卷积核大小分别为3*3、3*3,步长均为1*1;所述检测卷积神经网络的第九层、第十一层为池化层,核大小均为2*2,步长均为2*2;所述检测卷积神经网络的第十二层为卷积层,通道数为4,卷积核大小为3*1,步长为3*1;所述检测卷积神经网络的第十三层为批归一化处理层,第十四层为损失函数层;
S42、利用图片数据集对所述检测卷积神经网络进行训练,具体如下:
所述检测卷积神经网络与识别卷积神经网络采用随机梯度下降方法同时进行训练,用于训练所述检测卷积神经网络的图片为预切分的T2张列图片和对应的人工标注的文字位置信息,每BS2张图片为一组,分为T2/BS2组进行训练,其中T2=T1,BS2=BS1
S43、所述检测卷积神经网络对所述识别卷积神经网络计算出来的感受野进行微调,具体如下:
通过步骤S31中式(3)、式(4)、式(5)的计算,所述识别卷积神经网络最后一层的每一个输出对应在输入图片中的位置即可作为检测卷积神经网络的有效候选框,所述检测卷积神经网络输出有效候选框四个顶点的偏移值,对有效候选框的位置进行微调,来达到更加紧密的检测定位效果;
S44、合并整理最终的候选框与识别结构,具体如下:
在所述检测卷积神经网络的输出中,存在多个候选框,即文本框,采用简化的非最大值抑制方法对最终的文本框进行筛选,具体过程是:相邻的两个框如果在识别卷积神经网络中是相同的文字识别结果,当它们的重叠面积比,即两个框重叠的面积/两个框的面积总和大于阈值t,那么在识别卷积神经网络输出的结果中对应置信度最大的将成为检测的结果,从而实现精确检测历史文献中密集文本的单个文字位置,同时得到对应的识别文本。
5.如权利要求4所述的用于中文历史文献密集文本的文字检测识别方法,其特征在于,步骤S41中,所述检测卷积神经网络的输出维度为4*1,其中4表示对应感受野的4个定点的偏移值;为了保持相同位置上的特征向量对应的感受野大小一致,将识别卷积神经网络与检测卷积神经网络的特征一直保持在相同的维度;所述检测卷积神经网络的损失函数由以下公式计算:
Figure FDA0002732441740000051
Figure FDA0002732441740000052
其中T为识别出的字符个数,Pj为检测卷积神经网络在第j个位置检测的输出结果,Gj为第j个位置的真实位置标签,smoothL1(·)为平滑L1范数函数,计算方法如下式(9):
Figure FDA0002732441740000053
CN201811533332.0A 2018-12-14 2018-12-14 一种用于中文历史文献密集文本的文字检测识别方法 Active CN109800756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811533332.0A CN109800756B (zh) 2018-12-14 2018-12-14 一种用于中文历史文献密集文本的文字检测识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811533332.0A CN109800756B (zh) 2018-12-14 2018-12-14 一种用于中文历史文献密集文本的文字检测识别方法

Publications (2)

Publication Number Publication Date
CN109800756A CN109800756A (zh) 2019-05-24
CN109800756B true CN109800756B (zh) 2021-02-12

Family

ID=66556788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811533332.0A Active CN109800756B (zh) 2018-12-14 2018-12-14 一种用于中文历史文献密集文本的文字检测识别方法

Country Status (1)

Country Link
CN (1) CN109800756B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222613A (zh) * 2019-05-28 2019-09-10 绍兴数鸿科技有限公司 一种基于卷积神经网络的竖排版繁体中文识别方法
CN110490191B (zh) * 2019-07-16 2022-03-04 北京百度网讯科技有限公司 端到端模型的训练方法与系统、及中文识别方法与系统
CN110363252B (zh) * 2019-07-24 2021-06-04 山东大学 趋向于端到端的场景文字检测与识别方法以及系统
CN111126128A (zh) * 2019-10-29 2020-05-08 福建两岸信息技术有限公司 一种文献版面区域检测分割的方法
CN110909728A (zh) * 2019-12-03 2020-03-24 中国太平洋保险(集团)股份有限公司 一种多语种保单自动识别的控制算法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101097600A (zh) * 2006-06-29 2008-01-02 北大方正集团有限公司 一种字体识别方法及系统
CN102156865A (zh) * 2010-12-14 2011-08-17 上海合合信息科技发展有限公司 手写文本行字符切分方法、识别方法
US8965127B2 (en) * 2013-03-14 2015-02-24 Konica Minolta Laboratory U.S.A., Inc. Method for segmenting text words in document images
CN106295631A (zh) * 2016-07-27 2017-01-04 新疆大学 一种图像维吾尔文单词识别方法及装置
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101097600A (zh) * 2006-06-29 2008-01-02 北大方正集团有限公司 一种字体识别方法及系统
CN102156865A (zh) * 2010-12-14 2011-08-17 上海合合信息科技发展有限公司 手写文本行字符切分方法、识别方法
US8965127B2 (en) * 2013-03-14 2015-02-24 Konica Minolta Laboratory U.S.A., Inc. Method for segmenting text words in document images
CN106295631A (zh) * 2016-07-27 2017-01-04 新疆大学 一种图像维吾尔文单词识别方法及装置
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法

Also Published As

Publication number Publication date
CN109800756A (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
CN109800756B (zh) 一种用于中文历史文献密集文本的文字检测识别方法
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
CN110543837B (zh) 一种基于潜在目标点的可见光机场飞机检测方法
CN109670429B (zh) 一种基于实例分割的监控视频多目标人脸检测方法及系统
WO2019238063A1 (zh) 文本检测分析方法、装置及设备
EP3819859B1 (en) Sky filter method for panoramic images and portable terminal
CN110647829A (zh) 一种票据的文本识别方法及系统
WO2017016240A1 (zh) 一种钞票冠字号识别方法
CN110287963B (zh) 用于综合性能试验的ocr识别方法
CN109886978B (zh) 一种基于深度学习的端到端告警信息识别方法
CN110008844B (zh) 一种融合slic算法的kcf长期手势跟踪方法
CN105550641B (zh) 基于多尺度线性差分纹理特征的年龄估计方法和系统
CN109711268B (zh) 一种人脸图像筛选方法及设备
CN111626292B (zh) 一种基于深度学习技术的楼宇指示标识的文字识别方法
CN115393861B (zh) 一种手写体文本精准分割方法
CN112418225B (zh) 一种面向地址场景识别的离线文字识别方法
CN111368632A (zh) 一种签名识别方法及设备
CN110443184A (zh) 身份证信息提取方法、装置及计算机存储介质
CN112686258A (zh) 体检报告信息结构化方法、装置、可读存储介质和终端
CN111860407A (zh) 一种视频中人物的表情识别方法、装置、设备及存储介质
CN111160107B (zh) 一种基于特征匹配的动态区域检测方法
CN113971809A (zh) 一种基于深度学习的文本识别方法、设备及存储介质
CN110503090B (zh) 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器
CN111507353A (zh) 一种基于文字识别的中文字段检测方法及系统
CN105956563B (zh) 基于多示例学习进行新闻图像中人脸标注的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant