CN117975469A - 基于深度学习的文档图像形状校正方法及系统 - Google Patents
基于深度学习的文档图像形状校正方法及系统 Download PDFInfo
- Publication number
- CN117975469A CN117975469A CN202410163594.1A CN202410163594A CN117975469A CN 117975469 A CN117975469 A CN 117975469A CN 202410163594 A CN202410163594 A CN 202410163594A CN 117975469 A CN117975469 A CN 117975469A
- Authority
- CN
- China
- Prior art keywords
- layer
- convolution
- image
- network
- control point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012937 correction Methods 0.000 title claims abstract description 41
- 238000013135 deep learning Methods 0.000 title claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 25
- 238000003702 image correction Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 47
- 230000004913 activation Effects 0.000 claims description 33
- 238000010606 normalization Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 13
- 239000011800 void material Substances 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 9
- 238000006073 displacement reaction Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000012015 optical character recognition Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 5
- 239000013069 drug device combination product Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 238000002203 pretreatment Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Abstract
本发明属于文档校正技术领域,具体公开了一种基于深度学习的文档图像形状校正方法及系统,该方法包括如下步骤:S1,获取输入文档图像并输入前处理网络,得到文档mask图像;S2,文档mask图像与原输入文档图像进行点乘,得到去除背景的文档图像;S3,去除背景的文档图像作为编码器网络的输入,得到包含丰富几何失真的特征图;S4,将包含丰富几何失真的特征图输入解码器网络和空洞卷积金字塔模块,得到文本行mask预测图和控制点坐标图;S5,基于控制点坐标图中的控制点在原始图像上采用TPS插值方法,得到最终的校正图像。采用本技术方案,去除背景像素对图像校正产生的影响,关注文本内容的细微变形,提高校正的准确性和鲁棒性。
Description
技术领域
本发明属于文档校正技术领域,涉及一种基于深度学习的文档图像形状校正方法及系统。
背景技术
文档图像是指使用智能手机或相机拍摄的含有丰富文本、图像、表格等信息的图像,且随着智能手机和相机的普及,越来越多人选择手工拍摄照片的方式来快速、及时地保存信息。
OCR(Optical Character Recognition,光学字符识别)是指对图片中的文字进行查找、提取、识别的一种技术,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。与扫描图像不同,在自然场景下,手工拍摄的文档图像常因为种种因素对OCR的提取和识别信息产生干扰,造成信息错误或丢失的情况,如相机角度不平衡、纸张表面褶皱不平、光照不均匀等。
在深度学习普及之前,大多数对文档图像的校正方法是通过估计文档图像的三维形状来构建2D或3D的校正模型,主要方法有:1)利用辅助硬件来捕捉弯曲文档的3D结构;2)利用文档图像的几何属性来建立数学模型;3)利用文档图像的视觉线索(纸张边界、文本行、阴影明暗信息)来构建文档表面形状。
随着深度学习的研究不断深入,许多学者使用从大量扭曲变形的文档图像中学习到的特征来恢复文档图像。目前主流的方法是通过卷积神经网络或Transform来提取文档图像的2D或3D变形特征,预测文档图像的后向映射图,再通过在原图上插值得到去扭曲的校正图像。
但是使用逐像素预测的方法效率低下,且需要大量的训练数据。通过估计图像控制点和参考点的去扭曲方法是一种简单有效的去除图像变形的方法。控制点是指失真图像中用于描述文档的几何变形的一组N×N的顶点,参考点是指真值图像中与控制点坐标位置一一对应的一组顶点。通过在失真图像上进行控制点与参考点之间的匹配与插值,来恢复文档的几何失真。对比一些逐像素回归方法,基于控制点回归的方法在图像校正中具有模型简单、速度快、平滑性好的优点。
而目前基于控制点方法的文档图像校正方法主要存在以下几个弊端:
1.受无关背景干扰,文档边缘控制点出现溢出
在自然场景下,手工拍摄的照片为了保持完整的文档信息,无法避免地会拍摄到与文本内容完全无关的背景,如纸张所在的办公桌桌面、杂物等,这些无关背景如果与文档内容颜色相近,在图像特征提取时往往会被网络误以为是可以学习的特征,造成控制点溢出边界的问题,从而在后续匹配和插值时影响校正效果。
2.控制点难以处理文本细微变形
文档图像中含有大量密集的文本内容,同时文本行走向也反映了文档图像的变形特征,尽管控制点方法在恢复纸张变形时十分有效,但是此前的工作控制点的走向往往很难与文本行走向一致,进而影响校正文本内容的效果。这在OCR中文本的变形会非常影响文本提取和识别的精度。
3.2D文档变形的估计依赖于图像内容
文档内容例如文本行、插图、边界的扭曲在一定程度上可以反映纸张的变形情况,但原本文档中的曲线可能会对变形特征的学习造成干扰。例如文本行的走向和插图中的线条可以反映纸张的几何变形特征,但是对于含有大量插图或弯曲文本的文档图像,此时文档内容并不能完全反映纸张变形,甚至会对纸张变形的特征提取产生误导。
发明内容
本发明的目的在于提供一种基于深度学习的文档图像形状校正方法及系统,提高校正的准确性。
为了达到上述目的,本发明的基础方案为:一种基于深度学习的文档图像形状校正方法,包括如下步骤:
S1,获取输入文档图像并输入前处理网络进行前处理,得到文档mask图像;
S2,文档mask图像与原输入文档图像进行点乘,得到去除背景的文档图像;
S3,去除背景的文档图像作为编码器网络的输入,在编码器网络中融合图像全局和局部语义信息,得到包含丰富几何失真的特征图;
S4,将包含丰富几何失真的特征图输入解码器网络,得到文本行mask预测图;
将包含丰富几何失真的特征图输入空洞卷积金字塔模块,提取图像的全局形变信息,进而回归预测控制点坐标图;
S5,基于控制点坐标图中的控制点在原始图像上采用TPS插值方法,得到最终的校正图像。
本基础方案的工作原理和有益效果在于:本技术方案引入文档定位的前处理模块,通过去除图像背景解决控制点生成任务中控制点溢出文档边缘的问题,在自然场景下准确提取文档边界和前景像素,去除背景像素对图像校正产生的影响。
基于文本行感知的控制点坐标预测,通过预测文本行位置来学习纸张表面变形,使校正模型更加关注文本内容的细微变形,解决了文本细微变形的校正问题,提升了校正图像的视觉质量和OCR精度,提高校正的准确性。
进一步,所述前处理的方法为:
S11,将文档图像插值至固定尺寸H×W,其中,H为图像横向像素点个数,W为图像纵向像素点个数;
S12,采用U2Net网络,提取文档图像主体内容,得到文档mask图像。
提取文档图像主体内容,利于后续使用。
进一步,所述编码器网络得到包含丰富几何失真的特征图的方法为:
去除背景的文档图像输入卷积下采样层使特征图大小缩小,输出通道数增加;
卷积下采样层输出图像至残差空洞卷积层,通过空洞卷积操作和残差连接,扩大特征图的感受野,关注全局信息;
残差空洞卷积层输出的图像依次输入第一残差卷积层、第二残差卷积层,以及第三残差卷积层,对特征图下采样,使特征图大小缩小,输出通道数增加。
通过编码器网络对文档图像的卷积下采样和空洞卷积操作,获取包含丰富几何失真的特征图,
进一步,空洞卷积金字塔模块设置2个预测分支,通过线性层预测控制点的水平和垂直间隔(v,h),并通过Conv层整合通道数和特征图大小,预测控制点坐标,控制点坐标图大小为(2,H/32,W/32),控制点坐标图的2通道分别代表坐标的横坐标、纵坐标x,y值;
Conv层由1个3×3卷积模块、PRelu激活函数和1个输出通道为2的3×3卷积模块构成,最后预测输出控制点坐标图。
基于文本行感知的控制点坐标预测,通过预测文本行位置来学习纸张表面变形,使校正模型更加关注文本内容的细微变形。
进一步,将孪生网络引入编码器网络中,获取两张内容不同的输入文档图像,并进行相同的变形预处理,变形预处理后的输入文档图像输入前处理网络中,执行步骤S2-S4,得到控制点坐标对。
在原有DDCP网络中引入孪生网络结构和一致性损失函数,解决了控制点生成任务中杂乱文档内容影响变形特征提取的问题,通过学习输出的控制点对之间的一致性损失,减少了图像的无关特征对控制点生成的影响,提升了模型的准确性和鲁棒性。
进一步,损失函数包括控制点损失LC、文本行损失LB、孪生网络一致性损失LCons:
控制点损失LC包括控制点间隔损失Lr、控制点位置损失LsmoothL1和局部平滑损失Llocal:
对于每个控制点PCent,计算其与它上、下、左、右四个点P1、P2、P3、P4的相对位移趋势δ:
局部平滑性损失函数定义为:
其中,dh和dv分别代表水平和垂直方向的控制点间隔的真值,和/>分别代表水平和垂直方向的控制点间隔的预测值;v,h分别代表相邻2个控制点的水平和垂直间隔;Nc代表控制点个数;zi代表每个控制点与真值之间的平滑L1损失,i是控制点序号;k表示点的个数,Pj表示第j个点;/>与δi分别代表第i个控制点的相对位移趋势的预测值和真值;
文本行损失LB引入二值交叉熵损失:
其中,yj为像素点j是否属于文本行的标签值,取值范围为{0,1};pj为像素点j的预测结果,取值范围为{0,1};Ns为图像中像素点个数,Ns=H×W;
孪生网络一致性损失LCons为:
最终的损失函数L为:
L=LsmoothL1+αLr+βLlocal+LCons+λLB
其中,α,β,λ为超参数;wi代表孪生网络预测出的2个控制点图中对应控制点的L1距离。
引入损失函数,优化网络模型。
本发明还提供一种基于深度学习的文档图像形状校正系统,包括前处理网络、点乘处理模块、编码器网络、解码器网络、空洞卷积金字塔模块和图像校正模块;
所述前处理网络用于接收输入文档图像,前处理网络的输出端与点乘处理模块的第一输入端连接,所述点乘处理模块的第二输入端用于接收输入文档图像;
所述点乘处理模块的输出端与编码器网络连接,所述编码器网络的输出端与解码器网络和空洞卷积金字塔模块连接,所述解码器网络和空洞卷积金字塔模块的输出端与图像校正模块的输入端连接。
利用该系统通过前处理网络去除图像背景解决了控制点生成任务中控制点溢出文档边缘的问题。点乘处理模块得到去除背景的文档图像,避免无关背景像素对控制点的生成产生干扰。编码器网络和解码器网络实现多任务预测,还能通过文本行预测来引导控制点的生成,提升校正图像的视觉质量和OCR精度。
进一步,所述编码器网络包括依次连接的1个卷积下采样层,3个残差空洞卷积层,4个第一残差卷积层,6个第二残差卷积层,以及3个第三残差卷积层;
所述卷积下采样层包括依次连接的第一下采样层、第一Relu激活函数层、第一批量归一化层、第二下采样层、第二Relu激活函数层和第二批量归一化层;
所述残差空洞卷积层包括依次连接的第一扩张卷积层、第三批量归一化层、第三Relu激活函数层、第二扩张卷积层、第四批量归一化层和第四Relu激活函数层,所述残差空洞卷积层的输入与第四批量归一化层和第四Relu激活函数层之间连接;
残差卷积层包括依次连接的第一卷积层、第五批量归一化层、第五Relu激活函数层、第二卷积层、第六批量归一化层和第六Relu激活函数层,残差卷积层的输入通过第三下采样层与第六批量归一化层和第六Relu激活函数层之间连接。
编码器网络通过扩大特征图的感受野、关注全局信息以更好地提取图像形变特征。
进一步,所述空洞卷积金字塔模块包括并联的6个不同膨胀率的空洞卷积网络层;
所述空洞卷积网络层包括3×3卷积层、第七批量归一化层和第七Relu激活函数层;
前3层空洞卷积网络层的空洞卷积膨胀系数分别为1、2、5,第4-6层空洞卷积网络层的每一层都由3个空洞卷积层构成,膨胀系数分别为(8,3,2)、(12,7,4)、(18,12,6);
将所有空洞卷积网络层的输出特征进行聚合操作,通过1×1卷积层调整通道数为128,得到融合特征图。
在6层级联的空洞卷积金字塔模块中,以扩大感受野,学习全局特征。
进一步,所述解码器网络包括与编码器网络各层残差连接的3层卷积上采样层,卷积上采样层包括第三卷积层和上采样层;
第三卷积层包括3×3卷积、第八批量归一化层和第八Relu激活函数层,且引入残差边,上采样层使用反卷积操作将特征图的大小上采样2倍;
在经过3层卷积上采样过程后,特征图尺寸分别上采样至2、4、8倍,最终还原至原图像宽高H×W,最后一层卷积输出通道为1,预测出概率图,再通过二值化形成文本行mask图。
在控制点生成任务中引入解码器网络,即文本行mask预测分支,实现了通过文本行走向来引导控制点的生成,使网络更加关注文档图像中的文本变形,解决了文本细微变形的校正问题,提升了校正图像的视觉质量和OCR精度。
附图说明
图1是本发明基于深度学习的文档图像形状校正方法的流程示意图;
图2是本发明基于深度学习的文档图像形状校正方法的结构示意图;
图3是本发明基于深度学习的文档图像形状校正系统的卷积下采样层的结构示意图;
图4是本发明基于深度学习的文档图像形状校正系统的残差空洞卷积层的结构示意图;
图5是本发明基于深度学习的文档图像形状校正系统的残差卷积层的结构示意图;
图6是本发明基于深度学习的文档图像形状校正系统的解码器网络的结构示意图;
图7是本发明基于深度学习的文档图像形状校正方法的控制点的相对位移趋势的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明公开了一种基于深度学习的文档图像形状校正方法,通过提取文档图像文本行,来引导控制点回归,进行文档图像形状校正。如图1和图2所示,文档图像形状校正方法包括如下步骤:
S1,获取输入文档图像并输入前处理网络(如U2Net网络)进行前处理,得到文档mask图像;
S2,文档mask图像与原输入文档图像进行点乘,得到去除背景的文档图像;在自然场景下准确提取文档边界和前景像素,去除背景像素对图像校正产生的影响,避免无关背景像素对控制点的生成产生干扰;
S3,去除背景的文档图像作为编码器网络(如DDCP编码器(Encoder)网络)的输入,在编码器网络中融合图像全局和局部语义信息,得到包含丰富几何失真的特征图;
S4,将包含丰富几何失真的特征图输入解码器网络(解码器网络通过一系列卷积和上采样将特征图大小还原为输入文档图像尺寸H×W,最后预测生成文本行mask),得到文本行mask(文本行掩码图)预测图;
包含丰富几何失真的特征图输入空洞卷积金字塔模块,提取图像的全局形变信息,进而回归预测控制点坐标图;预测文本行mask图与预测控制点坐标图是是两个并行的步骤,前者起到一个引导后者更加关注文本行走向从而更快学习到形变特征的作用;基于文本行感知的控制点坐标预测,通过预测文本行位置来学习纸张表面变形,使校正模型更加关注文本内容的细微变形;
S5,基于控制点坐标图中的控制点在原始图像上采用TPS插值方法,得到最终的校正图像,去除文档图像形变。
本发明的一种优选方案中,前处理的方法为:
S11,将文档图像插值至固定尺寸H×W,其中,H为图像横向像素点个数,W为图像纵向像素点个数;
S12,采用U2Net网络,提取文档图像主体内容,得到文档mask图像。
本发明的一种优选方案中,编码器网络得到包含丰富几何失真的特征图的方法为:
去除背景的文档图像输入卷积下采样层使特征图大小缩小,输出通道数增加;
卷积下采样层输出图像至残差空洞卷积层,通过空洞卷积操作和残差连接,扩大特征图的感受野,关注全局信息;
残差空洞卷积层输出的图像依次输入第一残差卷积层、第二残差卷积层,以及第三残差卷积层,对特征图下采样,使特征图大小缩小,输出通道数增加。本发明的一种优选方案中,空洞卷积金字塔模块设置2个预测分支(线性层、Conv层),通过线性层(nn.Linear)预测控制点的水平和垂直间隔(v,h),并通过Conv层整合通道数和特征图大小,预测控制点坐标,控制点坐标图大小为(2,H/32,W/32),控制点坐标图的2通道分别代表坐标的横坐标、纵坐标x,y值;
Conv层由1个3×3卷积模块、PRelu激活函数和1个输出通道为2的3×3卷积模块构成,最后预测输出控制点坐标图。
2个预测分支共享编码器网络,这样不仅能实现多任务预测,还能通过文本行预测来引导控制点的生成。
本发明的一种优选方案中,将孪生网络引入编码器网络中,获取两张内容不同的输入文档图像,并进行相同的变形预处理,例如,将扫描图像通过施加随机的背景、阴影、仿射变换、折痕和卷曲,然后为了方便生成控制点的尺寸大小相同,将图像插值至固定尺寸H×W(H=992,W=992)。
为了使学习到的图像变形特征更加准确、减少对文档内容的依赖,将两张内容不同的图像施加相同的变形作为输入文档图像,生成的输入文档图像对的背景和文档内容均不相同,但是二者的纸张变形情况是完全一致的。
变形预处理后的一对固定宽高H×W的输入文档图像输入前处理网络中,执行步骤S2-S4,得到控制点坐标对。
由于输入文档图像对(2张图像)的文档变形完全相同,因此它们通过共享权重的孪生网络后预测的控制点坐标也应相同,对于2张图像预测输出的控制点坐标数据,计算二者之间的一致性损失。
通过引入孪生网络结构和控制点的一致性损失函数,将2张图像输入到孪生结构的编码器网络,产生的预测使用L1 loss来计算损失,在网络对两张图像的对比学习中减少了无关文档内容对提取图像变形特征时产生的干扰,减少图像纹理对提取变形特征的影响,在对抗学习中去除杂乱图像内容对纸张变形估计的影响,提高校正模型的准确性和鲁棒性。
本发明的一种优选方案中,损失函数包括控制点损失LC、文本行损失LB、孪生网络一致性损失LCons:
控制点损失LC包括控制点间隔损失Lr、控制点位置损失LsmoothL1和局部平滑损失Llocal:
通过局部平滑性损失Llocal来预测控制点的相对位置,预测出控制点相对位置与真值越接近,校正图像的局部细节更好,文档图像的可识别性越强。如图7所示,图7中δh和δv分别代表水平和垂直方向的位移趋势;对于每个控制点PCent,计算其与它上、下、左、右四个点P1、P2、P3、P4的相对位移趋势δ:
局部平滑性损失函数定义为:
其中,dh和dv分别代表水平和垂直方向的控制点间隔的真值,和/>分别代表水平和垂直方向的控制点间隔的预测值;v,h分别代表相邻2个控制点的水平和垂直间隔;Nc代表控制点个数;zi代表每个控制点与真值之间的平滑L1损失,i是控制点序号;k表示点的个数,Pj表示第j个点;/>与δi分别代表第i个控制点的相对位移趋势的预测值和真值;
文本行损失LB引入二值交叉熵损失:
其中,yj为像素点j是否属于文本行的标签值,取值范围为{0,1};pj为像素点j的预测结果,取值范围为{0,1};Ns为图像中像素点个数,Ns=H×W;
孪生网络一致性损失LCons为:
最终的损失函数L为:
L=LsmoothL1+αLr+βLlocal+LCons+λLB
其中,α,β,λ为超参数;wi代表孪生网络预测出的2个控制点图中对应控制点的L1距离。
本发明还提供一种基于深度学习的文档图像形状校正系统,包括前处理网络、点乘处理模块、编码器网络、解码器网络、空洞卷积金字塔模块和图像校正模块。前处理网络用于接收输入文档图像,前处理网络的输出端与点乘处理模块的第一输入端连接,点乘处理模块的第二输入端用于接收输入文档图像。
点乘处理模块的输出端与编码器网络连接,编码器网络的输出端与解码器网络和空洞卷积金字塔模块连接,解码器网络和空洞卷积金字塔模块的输出端与图像校正模块的输入端连接。
本发明的一种优选方案中,如图3、图4和图5所示,编码器网络包括依次连接的1个卷积下采样层(Layer 1),3个残差空洞卷积层(Layer 2),4个第一残差卷积层(Layer 3),6个第二残差卷积层(Layer 3),以及3个第三残差卷积层(Layer 3);
卷积下采样层包括依次连接的第一下采样层(DownSample)、第一Relu激活函数层、第一批量归一化层(BatchNorm)、第二下采样层、第二Relu激活函数层和第二批量归一化层;下采样层包括stride为2,padding为1的3×3卷积层。通过2个DownSample层后特征图大小缩小了4倍(H/4,W/4),输出通道数为32。
残差空洞卷积层包括依次连接的第一扩张卷积层(DilationConv)、第三批量归一化层、第三Relu激活函数层、第二扩张卷积层、第四批量归一化层和第四Relu激活函数层,残差空洞卷积层的输入与第四批量归一化层和第四Relu激活函数层之间连接;扩张卷积层由膨胀率为3的3×3卷积构成。Layer 2引入残差连接,通过空洞卷积操作和残差连接,可以扩大特征图的感受野、关注全局信息以更好地提取图像形变特征。经过3个Layer 2层后特征图大小和通道数不变。
残差卷积层包括依次连接的第一卷积层(Conv)、第五批量归一化层、第五Relu激活函数层、第二卷积层、第六批量归一化层和第六Relu激活函数层,残差卷积层的输入通过第三下采样层与第六批量归一化层和第六Relu激活函数层之间连接。Layer 3中的第1个Conv 3×3由步长为2的3×3卷积构成,对特征图大小实现了下采样2倍的效果,第2个Conv3×3的步长为1,不改变特征图尺寸。
在残差连接的设计上,为了保持特征图大小一致,只有第1个残差连接是将特征图下采样2倍后进行连接(实线部分),其余3个都是直接连接(虚线部分)。DownSample层由stride为2的3×3卷积构成。
经过4个Layer 3层后特征图大小缩小了2倍(H/8,W/8),输出通道数为64。
数据再依次通过6个Layer 3层和3个Layer3层,特征图大小依次缩小2倍,输出通道数变为128,256。最终编码器网络输出特征图大小为(256,H/32,W/32)。
本发明的一种优选方案中,空洞卷积金字塔模块包括并联的6个不同膨胀率的空洞卷积网络层。空洞卷积网络层包括3×3卷积层(膨胀率d与padding一致,不改变特征图大小)、第七批量归一化层(BN)和第七Relu激活函数层。
前3层空洞卷积网络层的空洞卷积膨胀系数分别为1、2、5,第4-6层空洞卷积网络层的每一层都由3个空洞卷积层构成,膨胀系数分别为(8,3,2)、(12,7,4)、(18,12,6);通过逐级增加空洞卷积的膨胀系数,在学习图像变形特征时获得更大的感受野,提取全局信息;
将所有空洞卷积网络层的输出特征进行聚合操作,通过1×1卷积层调整通道数为128,得到融合特征图。
本发明的一种优选方案中,如图6所示,解码器(Decoder)网络包括与编码器网络各层残差连接的3层卷积上采样层,卷积上采样层包括第三卷积层和上采样层;
第三卷积层包括3×3卷积、第八批量归一化层和第八Relu激活函数层,且引入残差边,上采样层使用反卷积操作将特征图的大小上采样2倍;
在经过3层卷积上采样过程后,特征图尺寸分别上采样至2、4、8倍,最终还原至原图像宽高H×W,最后一层卷积输出通道为1,预测出概率图,再通过二值化形成文本行mask图。由于引入了孪生结构,需要对预测的图像对分别进行二值交叉熵损失计算。
本发明引入了文档定位的前处理模块,通过去除图像背景解决了控制点生成任务中控制点溢出文档边缘的问题。在原有DDCP网络中引入孪生网络结构和一致性损失函数,解决了控制点生成任务中杂乱文档内容影响变形特征提取的问题,通过学习输出的控制点对之间的一致性损失,减少图像的无关特征对控制点生成的影响,提升模型的准确性和鲁棒性。
本发明在控制点生成任务中引入了文本行mask预测分支,实现了通过文本行走向来引导控制点的生成,使网络更加关注文档图像中的文本变形,解决了文本细微变形的校正问题,提升了校正图像的视觉质量和OCR精度。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (10)
1.一种基于深度学习的文档图像形状校正方法,其特征在于,包括如下步骤:
S1,获取输入文档图像并输入前处理网络进行前处理,得到文档mask图像;
S2,文档mask图像与原输入文档图像进行点乘,得到去除背景的文档图像;
S3,去除背景的文档图像作为编码器网络的输入,在编码器网络中融合图像全局和局部语义信息,得到包含丰富几何失真的特征图;
S4,将包含丰富几何失真的特征图输入解码器网络,得到文本行mask预测图;
将包含丰富几何失真的特征图输入空洞卷积金字塔模块,提取图像的全局形变信息,进而回归预测控制点坐标图;
S5,基于控制点坐标图中的控制点在原始图像上采用TPS插值方法,得到最终的校正图像。
2.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,所述前处理的方法为:
S11,将文档图像插值至固定尺寸H×W,其中,H为图像横向像素点个数,W为图像纵向像素点个数;
S12,采用U2Net网络,提取文档图像主体内容,得到文档mask图像。
3.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,所述编码器网络得到包含丰富几何失真的特征图的方法为:
去除背景的文档图像输入卷积下采样层使特征图大小缩小,输出通道数增加;
卷积下采样层输出图像至残差空洞卷积层,通过空洞卷积操作和残差连接,扩大特征图的感受野,关注全局信息;
残差空洞卷积层输出的图像依次输入第一残差卷积层、第二残差卷积层,以及第三残差卷积层,对特征图下采样,使特征图大小缩小,输出通道数增加。
4.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,空洞卷积金字塔模块设置2个预测分支,通过线性层预测控制点的水平和垂直间隔(v,h),并通过Conv层整合通道数和特征图大小,预测控制点坐标,控制点坐标图大小为(2,H/32,W/32),控制点坐标图的2通道分别代表坐标的横坐标、纵坐标x,y值;
Conv层由1个3×3卷积模块、PRelu激活函数和1个输出通道为2的3×3卷积模块构成,最后预测输出控制点坐标图。
5.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,将孪生网络引入编码器网络中,获取两张内容不同的文档图像,并进行相同的变形预处理,变形预处理后的文档图像输入前处理网络中,执行步骤S2-S4,得到控制点坐标对。
6.如权利要求5所述的基于深度学习的文档图像形状校正方法,其特征在于,损失函数包括控制点损失LC、文本行损失LB、孪生网络一致性损失LCons:
控制点损失LC包括控制点间隔损失Lr、控制点位置损失LsmoothL1和局部平滑损失Llocal:
对于每个控制点PCent,计算其与它上、下、左、右四个点P1、P2、P3、P4的相对位移趋势δ:
局部平滑性损失函数定义为:
其中,dh和dv分别代表水平和垂直方向的控制点间隔的真值,和/>分别代表水平和垂直方向的控制点间隔的预测值;v,h分别代表相邻2个控制点的水平和垂直间隔;Nc代表控制点个数;zi代表每个控制点与真值之间的平滑L1损失,i是控制点序号;k表示点的个数,Pj表示第j个点;/>与δi分别代表第i个控制点的相对位移趋势的预测值和真值;
文本行损失LB引入二值交叉熵损失:
其中,yj为像素点j是否属于文本行的标签值,取值范围为{0,1};pj为像素点j的预测结果,取值范围为{0,1};Ns为图像中像素点个数,Ns=H×W;
孪生网络一致性损失LCons为:
最终的损失函数L为:
L=LsmoothL1+αLr+βLlocal+LCons+λLB
其中,α,β,λ为超参数;wi代表孪生网络预测出的2个控制点图中对应控制点的L1距离。
7.一种基于深度学习的文档图像形状校正系统,其特征在于,包括前处理网络、点乘处理模块、编码器网络、解码器网络、空洞卷积金字塔模块和图像校正模块;
所述前处理网络用于接收输入文档图像,前处理网络的输出端与点乘处理模块的第一输入端连接,所述点乘处理模块的第二输入端用于接收输入文档图像;
所述点乘处理模块的输出端与编码器网络连接,所述编码器网络的输出端与解码器网络和空洞卷积金字塔模块连接,所述解码器网络和空洞卷积金字塔模块的输出端与图像校正模块的输入端连接。
8.如权利要求7所述的基于深度学习的文档图像形状校正系统,其特征在于,所述编码器网络包括依次连接的1个卷积下采样层,3个残差空洞卷积层,4个第一残差卷积层,6个第二残差卷积层,以及3个第三残差卷积层;
所述卷积下采样层包括依次连接的第一下采样层、第一Relu激活函数层、第一批量归一化层、第二下采样层、第二Relu激活函数层和第二批量归一化层;
所述残差空洞卷积层包括依次连接的第一扩张卷积层、第三批量归一化层、第三Relu激活函数层、第二扩张卷积层、第四批量归一化层和第四Relu激活函数层,所述残差空洞卷积层的输入与第四批量归一化层和第四Relu激活函数层之间连接;
残差卷积层包括依次连接的第一卷积层、第五批量归一化层、第五Relu激活函数层、第二卷积层、第六批量归一化层和第六Relu激活函数层,残差卷积层的输入通过第三下采样层与第六批量归一化层和第六Relu激活函数层之间连接。
9.如权利要求7所述的基于深度学习的文档图像形状校正系统,其特征在于,所述空洞卷积金字塔模块包括并联的6个不同膨胀率的空洞卷积网络层;
所述空洞卷积网络层包括3×3卷积层、第七批量归一化层和第七Relu激活函数层;
前3层空洞卷积网络层的空洞卷积膨胀系数分别为1、2、5,第4-6层空洞卷积网络层的每一层都由3个空洞卷积层构成,膨胀系数分别为(8,3,2)、(12,7,4)、(18,12,6);
将所有空洞卷积网络层的输出特征进行聚合操作,通过1×1卷积层调整通道数为128,得到融合特征图。
10.如权利要求7所述的基于深度学习的文档图像形状校正系统,其特征在于,所述解码器网络包括与编码器网络各层残差连接的3层卷积上采样层,卷积上采样层包括第三卷积层和上采样层;
第三卷积层包括3×3卷积、第八批量归一化层和第八Relu激活函数层,且引入残差边,上采样层使用反卷积操作将特征图的大小上采样2倍;
在经过3层卷积上采样过程后,特征图尺寸分别上采样至2、4、8倍,最终还原至原图像宽高H×W,最后一层卷积输出通道为1,预测出概率图,再通过二值化形成文本行mask图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410163594.1A CN117975469A (zh) | 2024-02-05 | 2024-02-05 | 基于深度学习的文档图像形状校正方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410163594.1A CN117975469A (zh) | 2024-02-05 | 2024-02-05 | 基于深度学习的文档图像形状校正方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117975469A true CN117975469A (zh) | 2024-05-03 |
Family
ID=90845825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410163594.1A Pending CN117975469A (zh) | 2024-02-05 | 2024-02-05 | 基于深度学习的文档图像形状校正方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117975469A (zh) |
-
2024
- 2024-02-05 CN CN202410163594.1A patent/CN117975469A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
KR102640237B1 (ko) | 이미지 프로세싱 방법, 장치, 전자 디바이스 및 컴퓨터 판독가능 저장 매체 | |
CN109993160B (zh) | 一种图像矫正及文本与位置识别方法及系统 | |
US10353271B2 (en) | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF | |
CN113343707B (zh) | 一种基于鲁棒性表征学习的场景文本识别方法 | |
CN111861880B (zh) | 基于区域信息增强与块自注意力的图像超分与融合方法 | |
CN110766020A (zh) | 一种面向多语种自然场景文本检测与识别的系统及方法 | |
CN111899295B (zh) | 一种基于深度学习的单目场景深度预测方法 | |
CN112633220B (zh) | 一种基于双向序列化建模的人体姿态估计方法 | |
CN112950477A (zh) | 一种基于双路径处理的高分辨率显著性目标检测方法 | |
CN114048822A (zh) | 一种图像的注意力机制特征融合分割方法 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN112258436A (zh) | 图像处理模型的训练方法、装置、图像处理方法及模型 | |
CN113538569A (zh) | 一种弱纹理物体位姿估计方法和系统 | |
CN117496518A (zh) | 基于文本检测和表格检测的电子卷宗图像智能矫正方法 | |
CN115511705A (zh) | 一种基于可变形残差卷积神经网络的图像超分辨率重建方法 | |
CN113486894A (zh) | 一种卫星图像特征部件语义分割方法 | |
CN111612802A (zh) | 一种基于现有图像语义分割模型的再优化训练方法及应用 | |
CN115115860A (zh) | 一种基于深度学习的图像特征点检测匹配网络 | |
CN117975469A (zh) | 基于深度学习的文档图像形状校正方法及系统 | |
CN115546796A (zh) | 一种基于视觉计算的无接触式数据采集方法及系统 | |
CN112597998A (zh) | 一种基于深度学习的扭曲图像矫正方法、装置和存储介质 | |
CN112419208A (zh) | 一种基于施工图审查矢量图纸编译方法及系统 | |
CN112529081A (zh) | 基于高效注意力校准的实时语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication |