CN114140803A - 基于深度学习的文档单字坐标检测和修正方法及系统 - Google Patents

基于深度学习的文档单字坐标检测和修正方法及系统 Download PDF

Info

Publication number
CN114140803A
CN114140803A CN202210113541.XA CN202210113541A CN114140803A CN 114140803 A CN114140803 A CN 114140803A CN 202210113541 A CN202210113541 A CN 202210113541A CN 114140803 A CN114140803 A CN 114140803A
Authority
CN
China
Prior art keywords
character
text
coordinate
single character
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210113541.XA
Other languages
English (en)
Other versions
CN114140803B (zh
Inventor
周神特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Real Intelligence Technology Co ltd
Original Assignee
Hangzhou Real Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Real Intelligence Technology Co ltd filed Critical Hangzhou Real Intelligence Technology Co ltd
Priority to CN202210113541.XA priority Critical patent/CN114140803B/zh
Publication of CN114140803A publication Critical patent/CN114140803A/zh
Application granted granted Critical
Publication of CN114140803B publication Critical patent/CN114140803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明属于文档单字检测技术领域,具体涉及基于深度学习的文档单字坐标检测和修正方法及系统。方法包括S1,对文本图片进行图像预处理;S2,对文本图片进行文字检测,识别出文本行,并对文本行进行矫正;S3,对文本行进行文字识别;S4,对文字识别中的CTC解码结果进行优化;S5,对单字坐标进行修正;S6,根据每个单字的文字中心,反算获得文本行中单字的坐标信息。系统包括文本检测模块,文本识别模块,CTC优化模块,单字符坐标修正模块。本发明具有能准确、高效、稳定地解析文本图片中的文本行位置内容,实现单字符的识别和检测的特点。

Description

基于深度学习的文档单字坐标检测和修正方法及系统
技术领域
本发明属于文档单字检测技术领域,具体涉及基于深度学习的文档单字坐标检测和修正方法及系统。
背景技术
OCR是一种通过计算机视觉技术将电子文档上的字符进行提取和转化为计算机可读的文本数据的技术。这里的电子文档可以是通过扫描仪得到的纸质文档的影印件,也可以是通过高拍仪、相机、手机等拍摄得到的纸质文档的拍摄件,OCR技术在本发明中主要用于识别文档中的文字符号。
传统的文字检测方法通常主要依赖于从输入图像中提取手工设计的特征向量。连接组件分析标签和滑动窗口等方法被广泛用于该任务。目前,随着深度学习技术的发展,OCR检测识别技术都得到了显著的改善。不同于传统的OCR检测技术框架,现有的OCR检测模型主要有基于分割的检测模型和基于回归的检测模型的两大类模型。依赖于深度学习的OCR文字检测一般用到的模型算法主要有CTPN、DB、EAST、Pixel Link等。
传统的OCR识别过程主要分为两步:单字切割和分类。而目前基于深度学习的文字识别主要是端到端的文字识别,即不需要显式进行文字切割,而是将直接文字识别转化为序列学习问题。目前基于深度学习的端到端OCR技术主要有:CRNN OCR和Attention OCR。其主要区别在于翻译层的不同。这两大主流技术在其特征学习阶段都采用了CNN+RNN的网络结构,CRNN OCR在对齐时采取的方式是CTC算法,而Attention OCR采取的方式则是Attention机制。
目前深度学习的OCR检测算法输出是文本行内容,再由文字识别模型,将文本行内容识别转化为序列问题,识别出文本行内容。在此技术上进行单字坐标的检测,进而辅助定位到文档中文字信息,对文档文本进行审核、对比、纠错。
现有的文档单字检测相关技术存在以下缺点:
1、无法精确定位文本行中单字位置:
目前主流的深度学习算法检测的是整个文本行的区域,识别模型是基于文本行进行识别,很少有针对单字符检测的深度学习模型,一般流程是先对文档图像进行预处理,对原图进行文字位置的检测,检测结果可能是水平矩形框,也有可能是倾斜的矩形框。再将原图中文字框对应的图片切片,在进行旋转矫正,得到水平的切片图;得到切片图后再以此送入识别网络,识别出相应的文字内容。其中切片文本做了旋转矫正,对应原图位置困难,并且检测区域的单字宽高不一,其中标点符号所占的区域较小,需要对每个文字字符进行长高自适应检测。
2、传统的检测技术效果不稳定:
如传统的检测单字算法:最大稳定极值区域(MSER-Maximally Stable ExtremalRegions),是一种检测图像中文本区域的传统图像算法,主要是基于分水岭的思想来对图像进行斑点(blob)区域检测。MSER对灰度图像取阈值进行二值化处理,阈值从0到255依次进行递增,阈值的递增类似于分水岭算法,部分文字边缘会被处理,尤其是一些小的标点符号,而且阈值设定困难,检测效果不稳定。
基于上述问题,设计一种能准确、高效、稳定地解析文本图片中的文本行位置内容,根据识别的文本行内容和结果,对CTC进行优化,结合位置变化信息进行逆变换,进而实现单字符的识别和检测的基于深度学习的文档单字坐标检测和修正方法及系统,就显得十分重要。
例如,申请号为CN201911225976.8的中国专利文献描述的一种基于多任务深度学习的票据文本检测方法,所述方法包括:构建多层卷积神经网络作为图像特征提取骨干网络,实现票据图像的特征提取;在卷积特征图上标注票据文本区域及区域中心线并训练,实现票据文本信息区域分割与文本中心线检测;在票据文本信息区域内通过滑动窗口方法沿着文本中心线前行,实现票据文本信息区域的单字符分割;依次对分割后的单个字符进行分类识别,形成完成票据文本信息。虽然利用深度学习强大的特征提取、归纳能力,提出采用端到端的多任务学习方法,实现票据文本区域分割、文本字符分割、文本字符识别,解决经典票据文本信息检测方法适用性不足、效率不高的问题,但是其缺点在于,仍然存在无法精确定位文本行中单字位置以及检测技术效果不稳定的问题。
发明内容
本发明是为了克服现有技术中,现有的文档单字检测技术存在无法精确定位文本行中单字位置以及检测技术效果不稳定的问题,提供了一种能准确、高效、稳定地解析文本图片中的文本行位置内容,根据识别的文本行内容和结果,对CTC进行优化,结合位置变化信息进行逆变换,进而实现单字符的识别和检测的基于深度学习的文档单字坐标检测和修正方法及系统。
为了达到上述发明目的,本发明采用以下技术方案:
基于深度学习的文档单字坐标检测和修正方法,包括如下步骤;
S1,将文档处理成文本图片,并对文本图片进行图像预处理;
S2,对图像预处理后的文本图片进行文字检测,识别出文本行,并对识别出的文本行进行矫正;
S3,对矫正后的文本行进行文字识别;
S4,对文字识别中的CTC解码结果进行优化,获得单字坐标;
S5,对单字坐标进行修正,定位到单字的文字中心;
S6,根据每个单字的文字中心,并结合矫正信息进行坐标逆变换以及宽度的换算,反算获得文本行中单字的坐标信息,同时获得单字对应的字符位置内容。
作为优选,步骤S1中所述图像预处理包括对图片进行亮度、对比度、光照、透视变形和残缺遮挡处理。
作为优选,步骤S2包括如下步骤:
S21,用框标识出文本图片中所有文字的位置,并输出所有文本行位置;
S22,对所有倾斜、宽高比例不协调的文本行进行旋转矫正,同时将旋转辅助标志位传入文字识别过程。
作为优选,步骤S3包括如下步骤:
S31,采用CRNN+CTC网络结构,在卷积层内将文本行图片转换为卷积特征矩阵;
S32,将文本行图片在固定长宽比的情况下缩放到32*W*3,W表示任意宽度,然后经过CNN网络后变为1*(W/4)*512,同时针对深层双向LSTM网络设置T=(W/4),并将卷积特征矩阵输入深层双向LSTM网络;
S33,对深层双向LSTM网络的输出内容做softmax后,将文本行内容转化为单字符信息输出。
CTC是将CRNN输出作为输入,计算最大概率对应的输出序列。如果假设时间片之间相互独立,那么只需将每一时间片对应概率最大的字符作为预测值,然后组成序列,最后做去重等处理得到最终结果。
作为优选,步骤S4包括如下步骤:
S41,设定列表a存储CTC解码的全部结果,列表b对相邻的解码结果进行计数;
S42,得到居中的单字解码结果:单字坐标=列表a中的CTC解码结果+列表b/2。
作为优选,步骤S5包括如下步骤:
S51,设定单字的坐标序号为i,则文本行输出的单字中心点坐标为:
Figure DEST_PATH_IMAGE002
式中,i为文本行中单字对应的坐标序号,
Figure DEST_PATH_IMAGE004
为单字符坐标修正后的横坐标,
Figure DEST_PATH_IMAGE006
为单字符坐标修正后的纵坐标;设定在保持文本行图片长宽比的情况下,将文本行图片的高缩放到32,则各个文字的中心点高度
Figure 722246DEST_PATH_IMAGE006
均为16;
S52,设定旋转矫正后的文本行中,单字中心点坐标为:
Figure DEST_PATH_IMAGE008
式中,
Figure DEST_PATH_IMAGE010
为旋转矫正后的单字横坐标,
Figure 50328DEST_PATH_IMAGE010
为旋转矫正后的单字纵坐标,
Figure DEST_PATH_IMAGE012
为文本行图片的宽度,透视变换为:
Figure DEST_PATH_IMAGE014
其中,xy为源点,XY为目标点,M为透视变换矩阵,Z为目标点在图像坐标系中z轴上的坐标;
Figure DEST_PATH_IMAGE016
则最终得到透视变换后的单字中心点坐标为:
Figure DEST_PATH_IMAGE018
其中,Xi、Yi、Zi分别表示透视变换后单字在图像坐标系的横坐标、纵坐标和Z轴坐标。
作为优选,步骤S6包括如下步骤:
S61,对旋转矫正后的单字中心点坐标,进行逆变换得到的坐标为:
Figure DEST_PATH_IMAGE020
其中,
Figure DEST_PATH_IMAGE022
,为透视变换后的单字中心点坐标;
S62,求解步骤S61中的方程组,得到源坐标
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE026
式中,
Figure DEST_PATH_IMAGE028
为反算后的单字中心点横坐标,
Figure DEST_PATH_IMAGE030
为反算后的单字中心点纵坐标,所述源坐标对应检测出的文本行单字坐标;
S63,设定两个单字CTC解码的中心点距离的一半,为对应单字的宽度,同时结合CTC解码的结果内容,获得单字对应的字符位置内容。
本发明还提供了基于深度学习的文档单字坐标检测和修正系统,包括:
文本检测模块,用于对图像预处理后的文本图片进行文字检测,识别出文本行,并对识别出的文本行进行矫正;
文本识别模块,用于对矫正后的文本行进行文字识别;
CTC优化模块,用于对文字识别中的CTC解码结果进行优化,获得单字坐标;
单字符坐标修正模块,用于对单字坐标进行修正,定位到单字的文字中心,并根据每个单字的文字中心,并结合矫正信息进行坐标逆变换以及宽度的换算,反算获得文本行中单字的坐标信息,同时获得单字对应的字符位置内容。
作为优选,基于深度学习的文档单字坐标检测和修正系统还包括;
文本图片生成模块,用于将文档处理成文本图片。
作为优选,基于深度学习的文档单字坐标检测和修正系统还包括;
图像预处理模块,用于对文本图片进行图像预处理。
本发明与现有技术相比,有益效果是:(1)本发明独创性地将对文本识别进行优化;首先借助OCR通用小模型的文字检测和文字识别技术,快速定位文本图片中文本行信息位置;其次,采用CTC优化、字符序列编码自适应字符宽高等技术对识别的单字内容进行中心点修正,以便得到更为准确的文字中心点;最后对于文本识别时的输入信息作为单字坐标的先验,引入了文字宽度和高度的修正,进而确定对应的文字区域,可以大幅缩小单字区域的误差,通过一系列逆变换可以精确得到单字在原图的位置;(2)通过本发明技术方案,可以实现文本识别场景下的高效、准确、鲁棒的单字检测和识别。
附图说明
图1为本发明中基于深度学习的文档单字坐标检测和修正方法的一种流程图;
图2为本发明中文本识别过程的一种流程图;
图3为本发明中文字矫正位置变换操作过程的一种流程图;
图4为本发明实施例所提供的单字检测应用于文档比对场景下的一种流程图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
实施例1:
如图1所示,本发明提供了基于深度学习的文档单字坐标检测和修正方法,包括如下步骤;
S1,将文档处理成文本图片,并对文本图片进行图像预处理;
所述图像预处理包括对图片进行亮度、对比度、光照、透视变形和残缺遮挡处理。
S2,对图像预处理后的文本图片进行文字检测,识别出文本行,并对识别出的文本行进行矫正;
步骤S2具体包括如下步骤:
S21,用框标识出文本图片中所有文字的位置,并输出所有文本行位置;
S22,对所有倾斜、宽高比例不协调的文本行进行旋转矫正,同时将旋转辅助标志位传入文字识别过程;
相比于传统检测技术,本发明基于深度学习的文字检测包含大量的标注样本,且更加稳定和可控。将旋转辅助标志位传入文字识别过程,用于进一步辅助定位单字符位置。
S3,对矫正后的文本行进行文字识别;
如图2所示,步骤S3具体包括如下步骤:
S31,采用CRNN+CTC网络结构,在卷积层内将文本行图片转换为卷积特征矩阵;
S32,将文本行图片在固定长宽比的情况下缩放到32*W*3,W表示任意宽度,然后经过CNN网络后变为1*(W/4)*512,同时针对深层双向LSTM网络设置T=(W/4),并将卷积特征矩阵输入深层双向LSTM网络;
S33,对深层双向LSTM网络的输出内容做softmax后,将文本行内容转化为单字符信息输出。
深层双向LSTM网络有256个隐藏节点,经过LSTM后变为长度为T×nclass的向量,再经过softmax处理,列向量每个元素代表对应的字符预测概率,最后再将这个T的预测结果去冗余合并成一个完整识别结果即可。
S4,对文字识别中的CTC解码结果进行优化,获得单字坐标;
步骤S4具体包括如下步骤:
S41,设定列表a存储CTC解码的全部结果,列表b对相邻的解码结果进行计数;
S42,得到居中的单字解码结果:单字坐标=列表a中的CTC解码结果+列表b/2。
S5,对单字坐标进行修正,定位到单字的文字中心;
得到CTC解码的序号位置,就可以反推单字符在文本行中的大致位置,如图3所示,步骤S5具体包括如下步骤:
S51,设定单字的坐标序号为i,则文本行输出的单字中心点坐标为:
Figure DEST_PATH_IMAGE002A
式中,i为文本行中单字对应的坐标序号,
Figure 496441DEST_PATH_IMAGE004
为单字符坐标修正后的横坐标,
Figure 815558DEST_PATH_IMAGE006
为单字符坐标修正后的纵坐标;设定在保持文本行图片长宽比的情况下,将文本行图片的高缩放到32,则各个文字的中心点高度
Figure 608940DEST_PATH_IMAGE006
均为16;
由于padding是在图片后进行padding,故不影响单字符的位置,在旋转矫正中,文本行会检测出宽度小于高度的文本行进行旋转,确保高度为32。
S52,设定旋转矫正后的文本行中,单字中心点坐标为:
Figure DEST_PATH_IMAGE008A
式中,
Figure 69875DEST_PATH_IMAGE010
为旋转矫正后的单字横坐标,
Figure 219097DEST_PATH_IMAGE010
为旋转矫正后的单字纵坐标,透视变换为:
Figure DEST_PATH_IMAGE014A
其中,xy为源点,XY为目标点,M为透视变换矩阵,Z为目标点在图像坐标系中z轴上的坐标;
Figure DEST_PATH_IMAGE016A
其中,M矩阵内的各个aij为透视变换矩阵M的具体数值,通过计算得到。
则最终得到透视变换后的单字中心点坐标为:
Figure DEST_PATH_IMAGE018A
其中,Xi、Yi、Zi分别表示透视变换后单字在图像坐标系的横坐标、纵坐标和Z轴坐标。
S6,根据每个单字的文字中心,并结合矫正信息进行坐标逆变换以及宽度的换算,反算获得文本行中单字的坐标信息,同时获得单字对应的字符位置内容。
步骤S6具体包括如下步骤:
S61,对旋转矫正后的单字中心点坐标,进行逆变换得到的坐标为:
Figure DEST_PATH_IMAGE020A
其中,
Figure 207650DEST_PATH_IMAGE022
,为透视变换后的单字中心点坐标;
S62,求解步骤S61中的方程组,得到源坐标:
Figure DEST_PATH_IMAGE026A
式中,
Figure 426011DEST_PATH_IMAGE028
为反算后的单字中心点横坐标,
Figure 908945DEST_PATH_IMAGE030
为反算后的单字中心点纵坐标,所述源坐标对应检测出的文本行单字坐标;
S63,设定两个单字CTC解码的中心点距离的一半,为对应单字的宽度,同时结合CTC解码的结果内容,获得单字对应的字符位置内容。
综上,原有的CTC解码坐标,就可以映射到矫正前的文本行坐标。此时得到的坐标为单字符中心点坐标,由于矫正后文字高度和宽度比较准确,高度可直接采用同样方式进行映射。
但是对文字宽度,无法确定,在CTC解码中,包含了文字序列信息,可利用这一信息来确定单文字的范围。为避免漏识造成的误差,不直接采用解码列表b中每个字符长度来估计宽度,而是通过两个不同解码中心的距离确定:两个文字解码的中心点距离的一半可初步估计为相应文字宽度。此时的文字宽度正好贴合文字内容,为避免识别误差造成宽度计算异常,对宽度做了自适应限制。
将逆变换前的单字坐标中心点、宽、高经过以上映射即可得到最终文本行中的距离坐标。再结合解码内容,得到精确的单字坐标和内容。
本发明还提供了基于深度学习的文档单字坐标检测和修正系统,包括:
文本检测模块,用于对图像预处理后的文本图片进行文字检测,识别出文本行,并对识别出的文本行进行矫正;
文本检测模块类似于目标检测,即用框标识出文本图片中所有文字的位置。解决的是文本图片中哪里有文字,文字的范围是多少。模块采用的是DBNet文本检测算法,DBNet是基于深度学习的文字检测算法,主干网络为ResNet18,输入是一张文本图片,输出是文本图片所有文本行位置。在文本行矫正中,对所有倾斜、宽高比例不协调的文本行进行矫正,确保文本识别的精准。
文本识别模块,用于对矫正后的文本行进行文字识别;
文本识别模块用于对定位好的文字行区域进行识别,主要解决的问题是每个文字是什么,将文本行中的文字区域进转化为字符信息。文本识别模块采用的是CRNN+CTC网络结构。另外,在处理输入图像的时候,在保持长宽比的情况下将高缩放到32,这样能够尽量不破坏图像中的文本细节,提高文字识别的精度和准确度。
CTC优化模块,用于对文字识别中的CTC解码结果进行优化,获得单字坐标;
CTC优化模块对普通CTC解码进行优化,普通CTC在解码的过程中,相邻的同一解码结果取第一次出现的结果,这样会导致在文字解码的过程中预测的文字坐标整体偏左,为了得到文字较为准确的中心点坐标,做出步骤S41和步骤S42的优化过程。提供CTC优化模块得到的CTC解码结果使得单字坐标更为的准确。
单字符坐标修正模块,用于对单字坐标进行修正,定位到单字的文字中心,并根据每个单字的文字中心,并结合矫正信息进行坐标逆变换以及宽度的换算,反算获得文本行中单字的坐标信息,同时获得单字对应的字符位置内容。
单字符坐标修正模块通过得到CTC解码的序号位置,反推单字符在文本行中的大致位置。
进一步的,基于深度学习的文档单字坐标检测和修正系统还包括;
文本图片生成模块,用于将文档处理成文本图片。
进一步的,基于深度学习的文档单字坐标检测和修正系统还包括;
图像预处理模块,用于对文本图片进行图像预处理。
基于本发明的技术方案,在具体实施和操作过程中,以图4所示单字检测应用于文档比对场景下的流程图说明本发明具体实施流程。
如图4所示,具体实施流程如下:
1.输入文本图片1,文本图片2;
2.将2张图输入文本检测,分别检测出所有文本行坐标;
3.将第2步检测出的文本行经过文本行矫正操作后,送入文本识别器(文本识别模块);
4.在文本识别器解码部分,对单字坐标进行修正和设计,并逆变换所有坐标相关操作(此逆变换需要集合矫正中的信息);
5.解码出的位置和内容经过逆变换对应到文本行,再对应到文本行在原图的位置坐标,实现原图文本内容的单字检测;
6.将2张文本图片识别的内容进行比对,输出差异内容,并返回差异点的坐标信息。
本发明将文本识别得到的信息反向输入利用到单字检测中,在OCR基础上来解决单字符无法定位的问题。在文本识别解码的过程中,对单字符文字进行修正,设计了单字符自适应宽度计算,可以自适应文字的宽度,且将检测识别过程中的所有关于坐标的运算进行逆变换,可以准确定位单字符的位置。
本发明在文本识别过程中,利用解码信息来预测单字符的中心点坐标,并首次提出了对解码过程文字中心点的坐标进行自适应的修正。
本发明预测出单字符文字的中心点后,设计了单字符宽度自适应算法,结合文本行高度,准确定位单字区域。
本发明针对文字识别过程中预测的单字区域,提出了针对所有位置进行逆变换的算法,可准确映射回单字在原图的源坐标,效果稳定。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (10)

1.基于深度学习的文档单字坐标检测和修正方法,其特征在于,包括如下步骤;
S1,将文档处理成文本图片,并对文本图片进行图像预处理;
S2,对图像预处理后的文本图片进行文字检测,识别出文本行,并对识别出的文本行进行矫正;
S3,对矫正后的文本行进行文字识别;
S4,对文字识别中的CTC解码结果进行优化,获得单字坐标;
S5,对单字坐标进行修正,定位到单字的文字中心;
S6,根据每个单字的文字中心,并结合矫正信息进行坐标逆变换以及宽度的换算,反算获得文本行中单字的坐标信息,同时获得单字对应的字符位置内容。
2.根据权利要求1所述的基于深度学习的文档单字坐标检测和修正方法,其特征在于,步骤S1中所述图像预处理包括对图片进行亮度、对比度、光照、透视变形和残缺遮挡处理。
3.根据权利要求1所述的基于深度学习的文档单字坐标检测和修正方法,其特征在于,步骤S2包括如下步骤:
S21,用框标识出文本图片中所有文字的位置,并输出所有文本行位置;
S22,对所有倾斜、宽高比例不协调的文本行进行旋转矫正,同时将旋转辅助标志位传入文字识别过程。
4.根据权利要求1所述的基于深度学习的文档单字坐标检测和修正方法,其特征在于,步骤S3包括如下步骤:
S31,采用CRNN+CTC网络结构,在卷积层内将文本行图片转换为卷积特征矩阵;
S32,将文本行图片在固定长宽比的情况下缩放到32*W*3,W表示任意宽度,然后经过CNN网络后变为1*(W/4)*512,同时针对深层双向LSTM网络设置T=(W/4),并将卷积特征矩阵输入深层双向LSTM网络;
S33,对深层双向LSTM网络的输出内容做softmax后,将文本行内容转化为单字符信息输出。
5.根据权利要求1所述的基于深度学习的文档单字坐标检测和修正方法,其特征在于,步骤S4包括如下步骤:
S41,设定列表a存储CTC解码的全部结果,列表b对相邻的解码结果进行计数;
S42,得到居中的单字解码结果:单字坐标=列表a中的CTC解码结果+列表b/2。
6.根据权利要求1所述的基于深度学习的文档单字坐标检测和修正方法,其特征在于,步骤S5包括如下步骤:
S51,设定单字的坐标序号为i,则文本行输出的单字中心点坐标为:
Figure 868821DEST_PATH_IMAGE002
式中,i为文本行中单字对应的坐标序号,
Figure DEST_PATH_IMAGE003
为单字符坐标修正后的横坐标,
Figure 313578DEST_PATH_IMAGE004
为单字 符坐标修正后的纵坐标;设定在保持文本行图片长宽比的情况下,将文本行图片的高缩放 到32,则各个文字的中心点高度
Figure 149947DEST_PATH_IMAGE004
均为16;
S52,设定旋转矫正后的文本行中,单字中心点坐标为:
Figure 719468DEST_PATH_IMAGE006
式中,
Figure DEST_PATH_IMAGE007
为旋转矫正后的单字横坐标,
Figure 915963DEST_PATH_IMAGE007
为旋转矫正后的单字纵坐标,透视变换为:
Figure DEST_PATH_IMAGE009
其中,xy为源点,XY为目标点,M为透视变换矩阵,Z为目标点在图像坐标系中z轴上的坐标;
Figure DEST_PATH_IMAGE011
则最终得到透视变换后的单字中心点坐标为:
Figure DEST_PATH_IMAGE013
其中,Xi、Yi、Zi分别表示透视变换后单字在图像坐标系的横坐标、纵坐标和Z轴坐标。
7.根据权利要求6所述的基于深度学习的文档单字坐标检测和修正方法,其特征在于,步骤S6包括如下步骤:
S61,对旋转矫正后的单字中心点坐标,进行逆变换得到的坐标为:
Figure DEST_PATH_IMAGE015
其中,
Figure 922883DEST_PATH_IMAGE016
,为透视变换后的单字中心点坐标;
S62,求解步骤S61中的方程组,得到源坐标
Figure DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE019
式中,
Figure 835213DEST_PATH_IMAGE020
为反算后的单字中心点横坐标,
Figure DEST_PATH_IMAGE021
为反算后的单字中心点纵坐标,所述源坐 标对应检测出的文本行单字坐标;
S63,设定两个单字CTC解码的中心点距离的一半,为对应单字的宽度,同时结合CTC解码的结果内容,获得单字对应的字符位置内容。
8.基于深度学习的文档单字坐标检测和修正系统,其特征在于,包括:
文本检测模块,用于对图像预处理后的文本图片进行文字检测,识别出文本行,并对识别出的文本行进行矫正;
文本识别模块,用于对矫正后的文本行进行文字识别;
CTC优化模块,用于对文字识别中的CTC解码结果进行优化,获得单字坐标;
单字符坐标修正模块,用于对单字坐标进行修正,定位到单字的文字中心,并根据每个单字的文字中心,并结合矫正信息进行坐标逆变换以及宽度的换算,反算获得文本行中单字的坐标信息,同时获得单字对应的字符位置内容。
9.根据权利要求8所述的基于深度学习的文档单字坐标检测和修正系统,其特征在于,还包括;
文本图片生成模块,用于将文档处理成文本图片。
10.根据权利要求8所述的基于深度学习的文档单字坐标检测和修正系统,其特征在于,还包括:
图像预处理模块,用于对文本图片进行图像预处理。
CN202210113541.XA 2022-01-30 2022-01-30 基于深度学习的文档单字坐标检测和修正方法及系统 Active CN114140803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210113541.XA CN114140803B (zh) 2022-01-30 2022-01-30 基于深度学习的文档单字坐标检测和修正方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210113541.XA CN114140803B (zh) 2022-01-30 2022-01-30 基于深度学习的文档单字坐标检测和修正方法及系统

Publications (2)

Publication Number Publication Date
CN114140803A true CN114140803A (zh) 2022-03-04
CN114140803B CN114140803B (zh) 2022-06-17

Family

ID=80381938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210113541.XA Active CN114140803B (zh) 2022-01-30 2022-01-30 基于深度学习的文档单字坐标检测和修正方法及系统

Country Status (1)

Country Link
CN (1) CN114140803B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035541A (zh) * 2022-06-27 2022-09-09 中核核电运行管理有限公司 一种大尺寸复杂pdf工程图纸文本检测与识别方法
CN115690806A (zh) * 2022-10-11 2023-02-03 杭州瑞成信息技术股份有限公司 一种基于图像数据处理的非结构化文档格式识别方法
CN116758562A (zh) * 2023-08-22 2023-09-15 杭州实在智能科技有限公司 通用文本验证码识别方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902622A (zh) * 2019-02-26 2019-06-18 中国科学院重庆绿色智能技术研究院 一种用于登机牌信息验证的文字检测识别方法
CN110059572A (zh) * 2019-03-22 2019-07-26 中国科学院自动化研究所 基于单字匹配的文档图像中文关键词检测方法、系统
CN110110585A (zh) * 2019-03-15 2019-08-09 西安电子科技大学 基于深度学习的智能阅卷实现方法及系统、计算机程序
CN110399845A (zh) * 2019-07-29 2019-11-01 上海海事大学 一种图像中连续成段文本检测与识别方法
CN111460927A (zh) * 2020-03-17 2020-07-28 北京交通大学 对房产证图像进行结构化信息提取的方法
US20200364485A1 (en) * 2019-05-16 2020-11-19 Bank Of Montreal Deep-learning-based system and process for image recognition
CN112733639A (zh) * 2020-12-28 2021-04-30 贝壳技术有限公司 文本信息结构化提取方法及装置
CN113762269A (zh) * 2021-09-08 2021-12-07 深圳市网联安瑞网络科技有限公司 基于神经网络的中文字符ocr识别方法、系统、介质及应用

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902622A (zh) * 2019-02-26 2019-06-18 中国科学院重庆绿色智能技术研究院 一种用于登机牌信息验证的文字检测识别方法
CN110110585A (zh) * 2019-03-15 2019-08-09 西安电子科技大学 基于深度学习的智能阅卷实现方法及系统、计算机程序
CN110059572A (zh) * 2019-03-22 2019-07-26 中国科学院自动化研究所 基于单字匹配的文档图像中文关键词检测方法、系统
US20200364485A1 (en) * 2019-05-16 2020-11-19 Bank Of Montreal Deep-learning-based system and process for image recognition
CN110399845A (zh) * 2019-07-29 2019-11-01 上海海事大学 一种图像中连续成段文本检测与识别方法
CN111460927A (zh) * 2020-03-17 2020-07-28 北京交通大学 对房产证图像进行结构化信息提取的方法
CN112733639A (zh) * 2020-12-28 2021-04-30 贝壳技术有限公司 文本信息结构化提取方法及装置
CN113762269A (zh) * 2021-09-08 2021-12-07 深圳市网联安瑞网络科技有限公司 基于神经网络的中文字符ocr识别方法、系统、介质及应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAIKANG YAN 等: "Crnn-Ctc Based Mandarin Keywords Spotting", 《ICASSP 2020 - 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
叶俊健 等: "基于深度强化学习与图像智能识别的输电线路在线监测系统", 《工业技术创新》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035541A (zh) * 2022-06-27 2022-09-09 中核核电运行管理有限公司 一种大尺寸复杂pdf工程图纸文本检测与识别方法
CN115690806A (zh) * 2022-10-11 2023-02-03 杭州瑞成信息技术股份有限公司 一种基于图像数据处理的非结构化文档格式识别方法
CN115690806B (zh) * 2022-10-11 2023-06-13 杭州瑞成信息技术股份有限公司 一种基于图像数据处理的非结构化文档格式识别方法
CN116758562A (zh) * 2023-08-22 2023-09-15 杭州实在智能科技有限公司 通用文本验证码识别方法及系统
CN116758562B (zh) * 2023-08-22 2023-12-08 杭州实在智能科技有限公司 通用文本验证码识别方法及系统

Also Published As

Publication number Publication date
CN114140803B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN114140803B (zh) 基于深度学习的文档单字坐标检测和修正方法及系统
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN108549893B (zh) 一种任意形状的场景文本端到端识别方法
CN110390251B (zh) 一种基于多神经网络模型融合处理的图像文字语义分割方法
CN113591546B (zh) 语义增强型场景文本识别方法及装置
US20180137349A1 (en) System and method of character recognition using fully convolutional neural networks
Mathew et al. Benchmarking scene text recognition in Devanagari, Telugu and Malayalam
CN112836650B (zh) 一种质量检验报告扫描图像表格语义解析方法与系统
US11790675B2 (en) Recognition of handwritten text via neural networks
CN110647795A (zh) 一种表格识别方法
CN111914698A (zh) 图像中人体的分割方法、分割系统、电子设备及存储介质
CN115331245B (zh) 一种基于图像实例分割的表格结构识别方法
CN113065396A (zh) 基于深度学习的扫描档案图像的自动化归档处理系统及方法
CN112818949A (zh) 一种产证文字的识别方法及系统
CN113033558A (zh) 一种用于自然场景的文本检测方法及装置、存储介质
CN115810197A (zh) 一种多模态电力表单识别方法及装置
Naosekpam et al. Scene text recognition with orientation rectification via IC-STN
Gao et al. Progressive rectification network for irregular text recognition
CN110147785B (zh) 图像识别方法、相关装置和设备
US20230245483A1 (en) Handwriting recognition method and apparatus, and electronic device and storage medium
US11087122B1 (en) Method and system for processing candidate strings detected in an image to identify a match of a model string in the image
CN111612802A (zh) 一种基于现有图像语义分割模型的再优化训练方法及应用
JP5211449B2 (ja) 認識距離を調整するプログラム、装置および方法、ならびに文字列を認識するプログラム
CN116030472A (zh) 文字坐标确定方法及装置
CN110826564A (zh) 一种复杂场景图像中的小目标语义分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant