CN112767270A - 褶皱文档图像矫正系统 - Google Patents

褶皱文档图像矫正系统 Download PDF

Info

Publication number
CN112767270A
CN112767270A CN202110068838.4A CN202110068838A CN112767270A CN 112767270 A CN112767270 A CN 112767270A CN 202110068838 A CN202110068838 A CN 202110068838A CN 112767270 A CN112767270 A CN 112767270A
Authority
CN
China
Prior art keywords
document
image
correction
document image
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110068838.4A
Other languages
English (en)
Other versions
CN112767270B (zh
Inventor
李厚强
周文罡
冯浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110068838.4A priority Critical patent/CN112767270B/zh
Publication of CN112767270A publication Critical patent/CN112767270A/zh
Application granted granted Critical
Publication of CN112767270B publication Critical patent/CN112767270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/10Selection of transformation methods according to the characteristics of the input images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/44Morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种褶皱文档图像矫正系统,包括:文档区域定位模块,通过检测输入的褶皱文档图像中每个像素的置信度,得到前景文档区域的掩模矩阵,从而去除输入的褶皱文档图像的背景区域,提取出文档区域图像;渐进矫正模块,通过提取文档区域图像的语义特征,通过门控循环单元技术,循环的重复矫正,结合最后一次矫正得到的坐标映射矩阵对输入的褶皱文档图像进行映射,得到矫正后的文档图像。该系统使得矫正后的文档图像能够复原原始文档的全部内容,且尽可能地减少矫正内容的扭曲程度。同时,系统仅仅需要较小的计算开销和适用于各种不规则的文档图像的矫正,以利于其广泛地推广使用。

Description

褶皱文档图像矫正系统
技术领域
本发明涉及图像矫正技术领域,尤其涉及一种褶皱文档图像矫正系统。
背景技术
随着便携式相机和智能手机的快速进步和普及,纸质文档的数字化相比于以往变得日益便捷。然而,由于相机位置不确定,光照强度不均匀以及各种不可控的纸张变形(即折叠,弯曲和褶皱)等因素,由这些设备拍摄的文档图像往往带有不种程度的失真和变形。这给下游任务处理带来了极大的困难,例如自动文本识别,内容分析,编辑和保存,同时这也不利于日常生活中的沟通与交流。为了解决这个问题,近年来,褶皱文档图像矫正已经成为新兴的研究课题。
传统的解决方案多是基于3D重建技术。这些方法往往依赖于附加的硬件设备(例如,激光扫描仪,深度相机等)或是围绕褶皱纸张拍摄的多视角图像,去重建纸张的三维立体结构,获得立体结构后再去将纸张展平做矫正。然而,由于较高的硬件成本或者繁琐的拍摄要求,这些技术的推广使用受到了极大的限制。
当前很多智能手机都内置有文档矫正算法。这些技术基于对拍摄的图像中文档的四条直线边缘或者纸张四个角点的检测,得到文档所在的四边形区域,后运用投影变换技术,将其映射至规整的矩形空图像,从而完成对拍摄文档图像的矫正。
近年来,基于深度学习的方法被引入到褶皱文档图像矫正领域。通过在渲染合成的数据集上训练,神经网络具有了矫正文档褶皱的能力。输入单张褶皱的RGB文档图像,神经网络即可输出逐像素的坐标映射矩阵,将输入图像中褶皱文档区域中的像素映射到待填充的空图像中,最终得到完整的矫正图像。
但是,上述介绍的各项现有技术中仍主要存在如下技术问题:
1、现有的基于深度学习的技术所存在的技术问题。
1)矫正后的文档边缘不完整。现有的基于深度学习的技术直接将单张褶皱的RGB图像输入到神经网络进行形变的矫正。然而,在输入的褶皱图像中,纸张往往置于各种各样的背景环境中。这给网络模型的训练优化增加了额外的负担,即神经网络需要首先识别图像中的文档像素区域,再去进行对形变的几何矫正。换句话说,神经网络需要兼顾文档区域分割和几何形变矫正两个任务。因此,使用这样的技术矫正的文档图像往往边缘不完整,且形变的矫正也不完善。
2)矫正后的文本图像中文本等内容依然存在不同程度的扭曲。现有的基于深度学习的技术在训练几何矫正的神经网络时,仅仅依赖于对映射坐标矩阵进行像素级约束,缺乏对文档扭曲的直接约束。因此,在实际应用时,矫正的文档图像中文本行或者其他内容仍然存在不同程度的扭曲。
3)网络模型参数量较大和推理时间较长。褶皱文档图像矫正技术广泛应用于智能手机,因此在保证矫正效果鲁棒性的同时,还需要确保可接受的计算开销。现有的基于深度学习的技术,其网络模型过大或推理时间过长,不适用于推广使用。
2、智能手机内置的文档矫正算法所存在的技术问题。
当前智能手机内置的文档矫正算法,适用场景受限,仅适用于无形变的矩形文档的图像,即该纸质文档无折叠,弯曲和揉皱。当前手机内置的文档矫正算法,基于这一先验,利用投影变换技术实现视角转换。换句话说,一旦纸质文档不是规则的矩形形状,便不能完成矫正。
发明内容
本发明的目的是提供一种褶皱文档图像矫正系统,使得矫正后的文档图像能够复原原始文档的全部内容,且尽可能地减少矫正内容的扭曲程度。同时,该系统仅仅需要较小的计算开销和适用于各种不规则形变的文档图像的矫正,以利于其广泛地推广使用。
本发明的目的是通过以下技术方案实现的:
一种褶皱文档图像矫正系统,包括:
文档区域定位模块,通过检测输入的褶皱文档图像中每个像素的置信度,得到前景文档区域的掩模矩阵,从而去除输入的褶皱文档图像的背景区域,提取出文档区域图像;
渐进矫正模块,通过提取文档区域图像的语义特征,通过门控循环单元技术,循环地重复矫正,结合最后一次矫正得到的后向坐标映射矩阵对输入的褶皱文档图像进行像素映射,得到矫正后的文档图像。
由上述本发明提供的技术方案可以看出,矫正系统拓展了当前智能手机普遍搭载的文档矫正算法的适用范围,即适用于现实生活场景中各类不规则的文档形变。它首先显式地移除输入文档图像中的复杂背景区域,从而避免了其对矫正过程的干扰,并且保证了矫正后文档的完整性;然后,它对移除背景的文档图像进行渐进地几何矫正,循环地多次矫正和扭曲代价的引入使其能够充分还原原始文档内容,降低了矫正后文档的扭曲程度。除此之外,在达到上述矫正质量的同时,相比于以往基于神经网络的技术,本系统需要较小的计算开销,有利于其搭载于智能手机等其他带有相机的智能设备,方便其推广使用。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种褶皱文档图像矫正系统的结构示意图;
图2为本发明实施例提供的基于迭代的渐进矫正单元的原理图;
图3为本发明实施例提供的扭曲代价函数的原理图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种褶皱文档图像矫正系统,该系统基于神经网络技术实现,如图1所示,其主要包括:
1)文档区域定位模块,通过检测输入的褶皱文档图像中每个像素的置信度,得到前景文档区域的掩模矩阵,从而去除输入的褶皱文档图像的背景区域(减少其对后续的几何矫正过程的干扰,提高矫正文档图像的完整性和还原质量),提取出文档区域图像。
2)渐进矫正模块,通过提取文档区域图像的语义特征,通过门控循环单元(GRU)技术,循环地重复矫正,结合最后一次矫正得到的后向坐标映射矩阵对输入的褶皱文档图像进行像素映射,得到矫正后的文档图像。相比于现有技术只进行一次矫正的方法,这样的技术设计保证了最终矫正结果的优越性及鲁棒性。此外,该模块较小的计算开销保证了整体矫正体统的运行效率。
3)系统中的上述两个模块需要预先进行优化,利用输入褶皱图像和输出矫正图像的像素坐标位置的联系,设计了一个优化矫正图像扭曲的代价函数。它对输出的矫正图像中所有的行像素和列像素添加直线正则约束。通过大量样本的训练学习,降低矫正图像的扭曲程度,提高还原质量。
为了便于理解,下面针对本发明实施例上述系统中各模块工作过程以及相关的优化算法进行介绍。
一、文档区域定位模块。
输入的褶皱文档图像为RGB褶皱文档图像ID,文档区域定位模块处理过程包括:
首先,通过多尺度的降采样和上采样结构,预测每个像素属于前景文档区域的置信度,从而得到置信度矩阵;示例性的,置信度范围为[0,1],数值越高表明像素属于前景文档区域的概率越大。
然后,利用设定阈值(例如,0.5)将置信度矩阵二值化,得到前景文档区域的掩模矩阵
Figure BDA0002905253000000041
最后,将前景文档区域的掩模矩阵
Figure BDA0002905253000000042
逐通道地与RGB褶皱文档图像ID进行矩阵相乘,得到文档区域图像Id
文档区域图像Id是背景干净的褶皱文档图像,此处的背景干净指的是背景区域像素值置为0。该模块可替换为其他任何用于语义分割或者显著性目标检测的神经网络。
本发明实施例中,
Figure BDA0002905253000000043
其中,
Figure BDA0002905253000000044
为实数集符号,H与W为图像的高度与宽度,数值3与1均为图像的通道数目。
二、渐进矫正模块。
渐进矫正模块将门控循环单元(GRU)技术迁移至图像领域,循环地重复矫正过程,输出后向坐标映射矩阵的序列{f1,…,fK},实现渐进地文档矫正,此处K表示循环矫正的次数,示例性的,数值范围可以为[10,20]。
本发明实施例中,所述渐进矫正模块包括:语义特征提取器、以及基于迭代的渐进矫正单元。
如图2所示,所述语义特征提取器Gθ,用于提取文档区域图像Id的语义特征c0。语义特征c0仅需要提取一次,之后将被输入到循环单元用于后续的渐进矫正。示例性的,语义特征提取器可以由多层卷积层(ConvolutionalLayer)组成。
基于迭代的渐进矫正单元,结合语义特征c0进行K次循环矫正,得到后向坐标映射矩阵的序列{f1,…,fK},其中,
Figure BDA0002905253000000051
Figure BDA0002905253000000052
Figure BDA0002905253000000053
分别代表水平和垂直方向的后向坐标映射;取第K次循环矫正得到后向坐标映射矩阵fK对输入的褶皱文档图像,基于双线性插值算法进行像素映射,得到矫正后的文档图像Ir
Figure BDA0002905253000000054
其中,(x,y)代表像素坐标。
本发明实施例中,k=1,…,K,f0初始化为0矩阵,即坐标指向于当前自身像素位置。如图2所示,以第k次矫正为例,过程如下:
1)使用第k-1次矫正输出的后向坐标映射矩阵fk-1对语义特征c0进行空间变换(图1与图2中用符号W表示空间变换操作),得到矫正空间的图像特征ck-1
Figure BDA0002905253000000055
其中,(x,y)代表像素坐标;同样的,
Figure BDA0002905253000000056
Figure BDA0002905253000000057
分别代表水平和垂直方向的后向坐标映射。
2)如图2所示,用两个结构相同的卷积模块Fθ和Wθ分别对后向坐标映射矩阵fk-1以及图像特征ck-1分别进行特征提取操作,并将提取出的特征与语义特征c0在通道层面进行拼接。示例性的,特征提取操作可以通过设置的两个卷积模块(卷积层)实现,每一卷积模块各自提取fk-1、ck-1的特征。
3)拼接后的特征与第k-1次矫正输出的隐状态特征hk-1一起输入至循环单元,循环单元是门控循环单元(GRU)技术在图像领域的应用,即将其中的全连接层替换为卷积层,称为ConvGRU。ConvGRU输出第k次矫正的隐状态特征hk和对第k-1次矫正输出的后向坐标映射矩阵fk-1的修正残差Δfk,从而得到第k次矫正的后向坐标映射矩阵fk
fk=fk-1+Δfk
三、系统的优化算法。
系统各模块需要预先进行优化。优化阶段,文档区域定位模块的损失函数为对置信度矩阵的二值交叉熵损失;渐进矫正模块的损失函数为K次矫正损失的指数加权:
Figure BDA0002905253000000061
其中,λ与α均为设定的系数,
Figure BDA0002905253000000062
分别为第k次矫正的后向坐标映射矩阵的回归损失、扭曲代价。示例性的,λ的取值范围为[0.8,0.9],α的取值范围为[0.3,0.5]。
优选的,本发明实施例中,基于褶皱图像和矫正图像的像素坐标映射关系,设计了扭曲代价函数。如图3所示,上方虚线框展示了褶皱图像(左侧图像)和预测的矫正图像(右侧图像)的像素位置联系,下方虚线框展示了真实值的前向像素坐标映射矩阵(左侧图像)和迭代矫正预测的后向坐标映射矩阵(右侧图像)的坐标联系,①和②表示计算计算扭曲代价的过程。具体地,第k次矫正的扭曲代价的计算方式为:首先,根据第k次矫正预测的后向坐标映射矩阵fk,对输入褶皱图像ID进行矫正,得到矫正图像
Figure BDA0002905253000000063
接着,将矫正图像
Figure BDA0002905253000000064
的每一行及每一列的像素,映射回褶皱文档图像ID中;然后,将映射后的每一行像素和每一列像素根据真实值的前向坐标映射矩阵
Figure BDA0002905253000000065
映射回矫正的图像
Figure BDA0002905253000000066
中;最后,此时行像素的行坐标方差和列像素的列坐标的方差(在完美矫正的情况下应该为0),即为相应行和相应列的扭曲代价;将所有行和列的扭曲代价求和并取平均,即得到第k次矫正的扭曲代价。
在推理阶段,最后一次(第K次)矫正输出的后向坐标映射矩阵fK,对输入的褶皱文档图像ID基于双线性插值算法进行像素映射,得到矫正的文档图像Ir
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (6)

1.一种褶皱文档图像矫正系统,其特征在于,包括:
文档区域定位模块,通过检测输入的褶皱文档图像中每个像素的置信度,得到前景文档区域的掩模矩阵,从而去除输入的褶皱文档图像的背景区域,提取出文档区域图像;
渐进矫正模块,通过提取文档区域图像的语义特征,通过门控循环单元技术,循环地重复矫正,结合最后一次矫正得到的后向坐标映射矩阵对输入的褶皱文档图像进行像素映射,得到矫正后的文档图像。
2.根据权利要求1所述的一种褶皱文档图像矫正系统,其特征在于,所述文档区域定位模块的工作过程包括:
输入的褶皱文档图像为RGB褶皱文档图像ID
首先,通过多尺度的降采样和上采样结构,预测每个像素属于前景文档区域的置信度,从而得到置信度矩阵;
然后,利用设定阈值将置信度矩阵二值化,得到前景文档区域的掩模矩阵
Figure FDA0002905252990000011
最后,将前景文档区域的掩模矩阵
Figure FDA0002905252990000012
逐通道地与RGB褶皱文档图像ID进行矩阵相乘,得到文档区域图像Id
3.根据权利要求1所述的一种褶皱文档图像矫正系统,其特征在于,所述渐进矫正模块包括:语义特征提取器、以及基于迭代的渐进矫正单元;
所述语义特征提取器,用于提取文档区域图像Id的语义特征c0
基于迭代的渐进矫正单元,结合语义特征c0进行K次循环矫正,得到后向坐标映射矩阵的序列{f1,...,fK},取第K次循环矫正得到后向坐标映射矩阵fK对输入的褶皱文档图像,基于双线性插值算法进行像素映射,得到矫正后的文档图像Ir,矫正公式为:
Figure FDA0002905252990000013
其中,ID为输入的褶皱文档图像,
Figure FDA0002905252990000014
Figure FDA0002905252990000015
Figure FDA0002905252990000016
分别代表水平和垂直方向的后向坐标映射,(x,y)代表像素坐标。
4.根据权利要求3所述的一种褶皱文档图像矫正系统,其特征在于,第k次矫正的过程包括:
使用第k-1次矫正输出的后向坐标映射矩阵fk-1对语义特征c0进行空间变换,得到矫正空间的图像特征ck-1
Figure FDA0002905252990000021
其中,(x,y)代表像素坐标;k=1,...,K;f0初始化为0矩阵;
Figure FDA0002905252990000022
Figure FDA0002905252990000023
分别代表水平和垂直方向的后向坐标映射;
对后向坐标映射矩阵fk-1以及图像特征ck-1分别进行特征提取操作,并将提取出的特征与语义特征c0拼接后,通过门控循环单元技术计算出第k-1次矫正输出的后向坐标映射矩阵fk-1的修正残差Δfk,从而得到第k次矫正的后向坐标映射矩阵fk
fk=fk-1+Δfk
5.根据权利要求1所述的一种褶皱文档图像矫正系统,其特征在于,文档区域定位模块与渐进矫正模块预先进行优化;
优化阶段,文档区域定位模块的损失函数为对置信度矩阵的二值交叉熵损失;渐进矫正模块的损失函数为K次矫正损失的指数加权:
Figure FDA0002905252990000024
其中,λ与α均为设定的系数,
Figure FDA0002905252990000025
分别为第k次矫正的后向坐标映射矩阵的回归损失、扭曲代价。
6.根据权利要求1所述的一种褶皱文档图像矫正系统,其特征在于,第k次矫正的扭曲代价的计算方式为:
首先,根据第k次矫正的后向坐标映射矩阵fk,对输入褶皱文档图像ID进行矫正,得到矫正图像
Figure FDA0002905252990000026
然后,将矫正图像
Figure FDA0002905252990000027
的每一行及每一列的像素,映射回褶皱文档图像ID中;再将映射后的每一行像素和每一列像素根据真实值的前向坐标映射矩阵B映射回矫正的图像
Figure FDA0002905252990000028
中;最后,此时行像素的行坐标方差和列像素的列坐标的方差,即为相应行和相应列的扭曲代价;将所有行和列的扭曲代价求和并取平均,即得到第k次矫正的扭曲代价。
CN202110068838.4A 2021-01-19 2021-01-19 褶皱文档图像矫正系统 Active CN112767270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110068838.4A CN112767270B (zh) 2021-01-19 2021-01-19 褶皱文档图像矫正系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110068838.4A CN112767270B (zh) 2021-01-19 2021-01-19 褶皱文档图像矫正系统

Publications (2)

Publication Number Publication Date
CN112767270A true CN112767270A (zh) 2021-05-07
CN112767270B CN112767270B (zh) 2022-07-15

Family

ID=75703114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110068838.4A Active CN112767270B (zh) 2021-01-19 2021-01-19 褶皱文档图像矫正系统

Country Status (1)

Country Link
CN (1) CN112767270B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723289A (zh) * 2021-08-30 2021-11-30 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN114418869A (zh) * 2021-12-22 2022-04-29 华南理工大学 一种文档图像几何校正方法、系统、装置及介质
CN114550186A (zh) * 2022-04-21 2022-05-27 北京世纪好未来教育科技有限公司 文档图像的校正方法、装置、电子设备及存储介质
CN116740720A (zh) * 2023-08-14 2023-09-12 西交利物浦大学 基于关键点引导的拍照文档弯曲矫正方法及设备
CN116912831A (zh) * 2023-09-15 2023-10-20 东莞市将为防伪科技有限公司 信码防伪印刷物的采集信息处理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10671878B1 (en) * 2019-01-11 2020-06-02 Capital One Services, Llc Systems and methods for text localization and recognition in an image of a document
CN111507181A (zh) * 2020-03-11 2020-08-07 平安科技(深圳)有限公司 票据图像的矫正方法、装置及计算机设备
CN111626941A (zh) * 2020-05-11 2020-09-04 东莞市七宝树教育科技有限公司 一种基于深度学习语义分割的文档矫正方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10671878B1 (en) * 2019-01-11 2020-06-02 Capital One Services, Llc Systems and methods for text localization and recognition in an image of a document
CN111507181A (zh) * 2020-03-11 2020-08-07 平安科技(深圳)有限公司 票据图像的矫正方法、装置及计算机设备
CN111626941A (zh) * 2020-05-11 2020-09-04 东莞市七宝树教育科技有限公司 一种基于深度学习语义分割的文档矫正方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BADR ABDULLAH,AND ETC: "Dynamic Extension of ASR Lexicon Using Wikipedia Data", 《2018 IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP (SLT)》 *
张振宇等: "一种面向银行票据文字自动化识别的高效人工智能方法", 《温州大学学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723289A (zh) * 2021-08-30 2021-11-30 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN113723289B (zh) * 2021-08-30 2024-03-08 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN114418869A (zh) * 2021-12-22 2022-04-29 华南理工大学 一种文档图像几何校正方法、系统、装置及介质
CN114418869B (zh) * 2021-12-22 2024-08-13 华南理工大学 一种文档图像几何校正方法、系统、装置及介质
CN114550186A (zh) * 2022-04-21 2022-05-27 北京世纪好未来教育科技有限公司 文档图像的校正方法、装置、电子设备及存储介质
CN116740720A (zh) * 2023-08-14 2023-09-12 西交利物浦大学 基于关键点引导的拍照文档弯曲矫正方法及设备
CN116740720B (zh) * 2023-08-14 2023-10-27 西交利物浦大学 基于关键点引导的拍照文档弯曲矫正方法及设备
CN116912831A (zh) * 2023-09-15 2023-10-20 东莞市将为防伪科技有限公司 信码防伪印刷物的采集信息处理方法及系统

Also Published As

Publication number Publication date
CN112767270B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN112767270B (zh) 褶皱文档图像矫正系统
You et al. Multiview rectification of folded documents
CN111583097A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
Fantoni et al. Accurate and automatic alignment of range surfaces
CN115205489A (zh) 一种大场景下的三维重建方法、系统及装置
CN111507333A (zh) 一种图像矫正方法、装置、电子设备和存储介质
CN114255337A (zh) 文档图像的矫正方法、装置、电子设备及存储介质
CN111353955A (zh) 一种图像处理方法、装置、设备和存储介质
Zhang et al. Marior: Margin removal and iterative content rectification for document dewarping in the wild
Feng et al. DocScanner: Robust document image rectification with progressive learning
CN113506305B (zh) 三维点云数据的图像增强方法、语义分割方法及装置
CN113421210B (zh) 一种基于双目立体视觉的表面点云重建方法
WO2024174726A1 (zh) 基于深度学习的手写及打印文本检测方法和装置
Wang et al. Perception-guided multi-channel visual feature fusion for image retargeting
Li et al. Layout-aware single-image document flattening
Gong et al. Combining edge difference with nonlocal self-similarity constraints for single image super-resolution
CN117575891A (zh) 图像处理方法、装置及终端设备
CN112150384A (zh) 一种基于残差网络与动态卷积网络模型融合的方法及系统
CN116403226A (zh) 无约束褶皱文档图像矫正方法、系统、设备及存储介质
CN116934591A (zh) 多尺度特征提取的图像拼接方法、装置、设备及存储介质
Lin et al. High-resolution multi-view stereo with dynamic depth edge flow
Yu et al. Intensity guided depth upsampling using edge sparsity and super-weighted $ l_0 $ gradient minimization
Shibayama et al. Reconstruction of 3D surface and restoration of flat document image from monocular image sequence
CN113793264B (zh) 一种基于卷积模型的档案图像处理方法、系统和电子设备
CN109785367A (zh) 三维模型追踪中外点滤除方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant