CN112597998A - 一种基于深度学习的扭曲图像矫正方法、装置和存储介质 - Google Patents

一种基于深度学习的扭曲图像矫正方法、装置和存储介质 Download PDF

Info

Publication number
CN112597998A
CN112597998A CN202110018743.1A CN202110018743A CN112597998A CN 112597998 A CN112597998 A CN 112597998A CN 202110018743 A CN202110018743 A CN 202110018743A CN 112597998 A CN112597998 A CN 112597998A
Authority
CN
China
Prior art keywords
image
neural network
distorted image
training
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110018743.1A
Other languages
English (en)
Inventor
朱远平
吴磊
张立新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Normal University
Original Assignee
Tianjin Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Normal University filed Critical Tianjin Normal University
Priority to CN202110018743.1A priority Critical patent/CN112597998A/zh
Publication of CN112597998A publication Critical patent/CN112597998A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供了一种基于深度学习的扭曲图像矫正方法、装置和存储介质,涉及图像处理技术领域,包括:提取扭曲图像的特征数据;以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型;根据特征数据,识别出扭曲图像中的待矫正元素;利用用于矫正的深度神经网络模型预测待矫正元素的偏移图,生成预测偏移图;根据预测偏移图矫正扭曲图像。该方法基于图像特征识别缩小了处理范围,从而有效降低扭曲图像中背景、干扰图形和光照等因素对于矫正效果的影响,提高基于深度学习的扭曲矫正方法的效果。

Description

一种基于深度学习的扭曲图像矫正方法、装置和存储介质
技术领域
本发明涉及图像处理技术领域,具体而言,涉及一种基于深度学习的扭曲图像矫正方法、装置和存储介质。
背景技术
在传统的文档数字化过程中,通常使用扫描仪对文档进行扫描,得到清晰平整的文档图像进行存储。但是扫描仪体积过大,不易携带,需要对文档进行按压,使用不便。随着移动产品的发展,使用手机等移动设备进行文档扫描已经是一种趋势,虽然手机的出现很大程度上代替了扫描仪,随之而来也出现了一些问题,比如使用手机拍摄文档时由于拍摄设备和文档平面不平行导致的透视形变,以及文档本身没有完全展开,存在弯曲甚至折痕。这会严重影响后续的光学字符识别等任务。目前,针对扭曲文档矫正的方法一般主要可以分为:基于三维重建的方法;基于模型的方法和基于深度学习的方法。对于三维重建的方法,通常使用专门的硬件设备来完成矫正,比如结构光源、立体照相机或者激光相机。通过这些设备获得文档的三维信息。通过三维重建得到变形文档和平整文档之间的映射关系,最后完成矫正,此方法可以有效处理变形,得到比较优秀的效果,但是此类方法对于硬件的要求过高,限制了方法的应用,通过手机无法完成矫正。对于基于模型的方法,通过将弯曲文档的表面建模为广义圆柱体来完成矫正,此类方法通常矫正效果不错但是适应的场景不多,大多数扭曲和理想的模型差距较大。对于基于深度学习的方法,通常使用语义分割的模型对扭曲原图进行偏移图的预测,此类方法适用于弯曲和折叠等多种复杂场景,但是矫正效果不够理想。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一,公开了一种基于深度学习的扭曲图像矫正方法、装置和存储介质,通过改良基于深度学习的矫正方法,降低扭曲图像中的背景、光照和干扰图形等噪声的影响,达到更好的矫正效果,提高矫正效率,降低运算量。
本发明的第一方面公开了一种基于深度学习的扭曲图像矫正方法,包括:提取扭曲图像的特征数据;以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型;根据特征数据,识别出扭曲图像中的待矫正元素;利用用于矫正的深度神经网络模型预测待矫正元素的偏移图,生成预测偏移图;根据预测偏移图矫正扭曲图像。
在该技术方案中,提取待矫正扭曲图像的特征数据,根据特征数据识别出待矫正图像中的目标元素(待矫正元素),例如,根据文本行检测算法,获得图像的文本特征图(此时特征数据即为文本特征图)以识别出图像中的文档,准确定位待矫正图像中的目标元素,针对目标元素进行计算,减少背景噪声对矫正结果的影响,降低了运算量。
根据本发明公开的基于深度学习的扭曲图像矫正方法,优选地,提取扭曲图像的特征数据的步骤,具体包括:利用深度神经网络模型对扭曲图像进行文本行检测,提取文本行中心线,生成扭曲图像的文本特征图作为所述特征数据。
在该技术方案中,针对扭曲文档的复杂场景,使用神经网络模型对扭曲的文档图像进行文本行检测,提取文本行的中心线特征用于训练和矫正。直接使用文本特征而不是原图进行训练和预测可以有效的降低扭曲场景的复杂度,排除背景、光照和图像等影响,提高矫正的鲁棒性。
根据本发明公开的基于深度学习的扭曲图像矫正方法,优选地,利用深度神经网络模型对扭曲图像进行文本行检测,提取文本行中心线,生成扭曲图像的文本特征图的步骤,具体包括:使用预训练的语义分割模型提取扭曲图像的文本区域特征图和文本行中心线特征图;使用文本区域特征图和文本行中心线特征图进行后处理,生成精准化的文本行中心线特征图。
根据本发明公开的基于深度学习的扭曲图像矫正方法,优选地,以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型的步骤,具体包括:获取非扭曲图像,对非扭曲图像做扭曲处理,生成自建扭曲图像作为训练图像,生成对应于扭曲处理过程的偏移图作为训练图像对应的偏移图,以构建用于矫正的深度神经网络模型。
在本发明中,自建扭曲图像即合成图像,使用自建扭曲图像可以提升训练集素材量,提高训练效果。此外,使用采集的平整文档图像(非扭曲图像),合成扭曲的文档图像和偏移图,作为训练数据。有效解决训练数据难以采集的问题。
根据本发明公开的基于深度学习的扭曲图像矫正方法,优选地,扭曲处理具体包括:根据非扭曲图像的尺寸随机生成扭曲参数,其中,扭曲参数包括扭曲的初始点、方向、扭曲程度和形变的类型,形变的类型包括弯曲和折叠;根据扭曲参数计算每个像素的形变量;重复随机生成扭曲参数的步骤以及根据扭曲参数计算每个像素的形变量的步骤,进行多次扭曲,叠加每次扭曲的形变;使用插值算法将非扭曲图像变换为自建扭曲图像。
根据本发明公开的基于深度学习的扭曲图像矫正方法,优选地,以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型的步骤,具体还包括:构建基于编码器-解码器结构的卷积神经网络模型,使用自建扭曲图像作为输入,使用生成的标签作为训练标签,输出偏移图;对基于编码器-解码器结构的卷积神经网络模型进行多次训练,使卷积神经网络的损失值下降收敛至预期范围内。
根据本发明公开的基于深度学习的扭曲图像矫正方法,优选地,利用用于矫正的深度神经网络模型预测待矫正元素的偏移图,生成预测偏移图的步骤,具体包括:对通过文本行检测生成的文本特征图进行预处理并输入到用于矫正的深度神经网络模型中,以输出预测偏移图,其中,待矫正元素包括文本特征图。
本发明的第二方面公开了一种基于深度学习的扭曲图像矫正装置,包括:存储器,用于存储程序指令;处理器,用于调用所述存储器中存储的所述程序指令以实现如上述任一项技术方案所述的基于深度学习的扭曲图像矫正方法。
本发明的第三方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有程序代码,所述程序代码用于实现如上述任一项技术方案所述的基于深度学习的扭曲图像矫正方法。
本发明的有益效果至少包括:针对待矫正扭曲图像的复杂场景,使用神经网络模型对待矫正扭曲图像进行特征数据检测(例如文本行检测),提取扭曲图像的特征数据用于训练和矫正,而不是使用原图进行训练和预测可以有效的降低扭曲场景的复杂度,排除背景、光照和图像等影响,提高矫正的鲁棒性。使用自建的扭曲图像和偏移图,作为训练数据。有效解决训练数据难以采集的问题。使用自建扭曲图像作为训练数据,对应的偏移图作为训练标签,使用神经网络作为模型,训练模型用于预测待矫正扭曲图像的偏移图,生成预测偏移图,使用预测偏移图完成待矫正扭曲图像到平整图像的矫正,提高矫正效率,降低运算量。
附图说明
图1示出了根据本发明的一个实施例的基于深度学习的扭曲图像矫正方法的示意流程图。
图2示出了根据本发明的又一个实施例的基于深度学习的扭曲图像矫正方法的示意系统框图。
图3示出了根据本发明的实施例的生成的扭曲文档数据的原图。
图4示出了根据本发明的实施例的生成的扭曲文档数据的文本特征图。
图5示出了根据本发明的实施例的生成的扭曲文档数据的X方向偏移图。
图6示出了根据本发明的实施例的生成的扭曲文档数据的Y方向偏移图。
图7示出了根据本发明的实施例的矫正结果图。
图8示出了根据本发明的实施例的基于深度学习的扭曲图像矫正装置的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
如图1所示,本发明的实施例之一公开了一种基于深度学习的扭曲图像矫正方法,包括:步骤S102,提取扭曲图像的特征数据;步骤S104,以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型;步骤S106,根据特征数据,识别出扭曲图像中的待矫正元素;步骤S108,利用用于矫正的深度神经网络模型预测待矫正元素的偏移图,生成预测偏移图;步骤S110,根据预测偏移图矫正扭曲图像。
在该实施例中,提取待矫正扭曲图像的特征数据,根据特征数据识别出待矫正图像中的目标元素(待矫正元素),例如,根据文本行检测算法,获得图像的文本特征图(此时特征数据即为文本特征图)以识别出图像中的文档,准确定位待矫正图像中的目标元素,针对目标元素进行计算,减少背景噪声对矫正结果的影响,降低了运算量。
根据上述实施例,优选地,提取扭曲图像的特征数据的步骤,具体包括:利用深度神经网络模型对扭曲图像进行文本行检测,提取文本行中心线,生成扭曲图像的文本特征图作为所述特征数据。
在该实施例中,针对扭曲文档的复杂场景,使用神经网络模型对扭曲的文档图像进行文本行检测,提取文本行的中心线特征用于训练和矫正。直接使用文本特征而不是原图进行训练和预测可以有效的降低扭曲场景的复杂度,排除背景、光照和图像等影响,提高矫正的鲁棒性。
根据上述实施例,优选地,利用深度神经网络模型对扭曲图像进行文本行检测,提取文本行中心线,生成扭曲图像的文本特征图的步骤,具体包括:使用预训练的语义分割模型提取扭曲图像的文本区域特征图和文本行中心线特征图;使用文本区域特征图和文本行中心线特征图进行后处理,生成精准化的文本行中心线特征图。
根据上述实施例,优选地,以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型的步骤,具体包括:获取非扭曲图像,对非扭曲图像做扭曲处理,生成自建扭曲图像作为训练图像,生成对应于扭曲处理过程的偏移图作为训练图像对应的偏移图,以构建用于矫正的深度神经网络模型。
在该实施例中,使用采集的平整文档图像(非扭曲图像),合成扭曲的文档图像和偏移图,作为训练数据。有效解决训练数据难以采集的问题。
根据上述实施例,优选地,扭曲处理具体包括:根据非扭曲图像的尺寸随机生成扭曲参数,其中,扭曲参数包括扭曲的初始点、方向、扭曲程度和形变的类型,形变的类型包括弯曲和折叠;根据扭曲参数计算每个像素的形变量;重复随机生成扭曲参数的步骤以及根据扭曲参数计算每个像素的形变量的步骤,进行多次扭曲,叠加每次扭曲的形变;使用插值算法将非扭曲图像变换为自建扭曲图像。
根据上述实施例,优选地,以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型的步骤,具体还包括:构建基于编码器-解码器结构的卷积神经网络模型,使用自建扭曲图像作为输入,使用生成的标签作为训练标签,输出偏移图;对基于编码器-解码器结构的卷积神经网络模型进行多次训练,使卷积神经网络的损失值下降收敛至预期范围内。
根据上述实施例,优选地,利用用于矫正的深度神经网络模型预测待矫正元素的偏移图,生成预测偏移图的步骤,具体包括:对通过文本行检测生成的文本特征图进行预处理并输入到用于矫正的深度神经网络模型中,以输出预测偏移图,其中,待矫正元素包括文本特征图。
如图2至图7所示,本发明的实施例之一还公开了一种基于深度学习的扭曲图像矫正方法,包括:利用深度神经网络模型对扭曲的文档图像进行文本行检测,提取文本行中心线,获得图像的文本特征图;使用采集的平整文档图像,合成扭曲的文档图像和对应的训练标签,作为训练数据,构建用于矫正的深度神经网络模型;根据文本特征图,使用深度神经网络进行推理来预测图像的偏移图,基于该偏移图将扭曲的文档图像矫正为平整图像。
优选地,在使用深度神经网络对扭曲文档图像进行文本行检测时,具体包括:使用一个预训练的语义分割模型提取扭曲图像的文本区域特征图和文本行中心线特征图;使用文本区域特征图和文本行中心线特征图进行后处理,得到精准的文本行中心线特征图。
优选地,在使用平整文档图像合成扭曲文档图像数据时,包括如下步骤:
步骤1.1根据图像的尺寸随机生成扭曲的参数,扭曲参数包括扭曲的初始点、方向、扭曲程度和形变的类型,形变的类型包括弯曲和折叠两种类型;
步骤1.2根据形变参数计算每个像素的形变量;
步骤1.3重复步骤1.1和步骤1.2,进行多次扭曲,叠加每次扭曲的形变;
步骤1.4使用插值算法将平整图像变换为扭曲图像。
优选地,在利用深度神经网络预测文本特征图的偏移图之前进行深度神经网络模型的训练时,具体包括:构建基于编码器-解码器结构的卷积神经网络模型,使用生成的扭曲图像作为网络的输入,使用生成的标签作为训练标签,模型输出2通道的偏移图;对卷积神经网络模型进行多次训练,使卷积神经网络模型的损失值下降收敛至预期范围内。
优选地,在利用深度神经网络模型预测文本特征图的偏移图,具体包括:对通过文本行检测生成的文本特征图进行预处理;将文本特征图输入到训练完成的深度神经网络模型中,模型输出两个通道的偏移图,且尺寸与输入尺寸一致。
优选地,在使用深度神经网络预测的偏移图生成平整图像时,映射特征图的两个通道分别代表当前像素在平整图像中对应像素的偏移值。
上述实施例针对扭曲文档的复杂场景,使用神经网络模型对扭曲的文档图像进行文本行检测,提取文本行的中心线特征用于训练和矫正,直接使用文本特征而不是原图进行训练和预测可以有效的降低扭曲场景的复杂度,排除背景、光照和图像等影响,提高矫正的鲁棒性;使用采集的平整文档图像,合成扭曲的文档图像和偏移图,作为训练数据,有效解决训练数据难以采集的问题;使用生成的扭曲文档图像作为训练数据,对应的偏移图作为训练标签,使用基于语义分割任务的神经网络作为模型,训练模型用于预测真实扭曲文档的偏移图,使用偏移图完成扭曲文档到平整文档的矫正。其中,基于文本特征的扭曲文档图像矫正方法可以分为训练和矫正两部分,系统工作流程图如图2所示:
一、训练部分
步骤1.1:采集平整文档图像;
使用扫描仪采集完全平整的文档图像(非扭曲图像),采集的文档类型尽量多种形式,比如论文、杂志等不同的类型,以提高数据的多样性。
步骤1.2:生成训练文档图像数据;
对于采集的每一张平整文档图像,生成扭曲文档图像(自建扭曲图像)和偏移图作为训练数据。首先,按照扭曲模型,生成平整文档图像等大小的偏移图。如某平整图像的尺寸为(W,H,3),那么生成尺寸为(W,H,2)的偏移图,偏移图的第一个通道表示像素在X方向的像素偏移值,第二个通道表示像素在Y方向的像素偏移值。偏移图生成时,需要在同一个偏移图上实现多个扭曲的叠加,以达到同一张图有多种扭曲的目的,更好地模仿真实的场景。在进行一个扭曲的生成时,首先在偏移图的尺寸范围内随机生成扭曲的参数,扭曲的参数包括扭曲的初始点、扭曲的方向、扭曲的类型以及扭曲的程度,其中扭曲的类型包括卷曲和折叠。在实践中我们发现,扭曲的初始点的位置会对扭曲效果产生较大的影响,对于一些在文档边缘的扭曲初始点,会造成扭曲效果不足的影响,所以我们人为地排除在文档边缘生成扭曲初始点。利用这些扭曲参数就可以计算每一个像素在这次扭曲中产生的偏移值,叠加多次扭曲的偏移值就得到了最终的偏移图。为了使模型更好的泛化到真实的扭曲场景,我们人为控制不同扭曲类型的样本数量的比例,在实验中我们通常生成30%的折叠效果的样本和70%的弯曲效果的样本。然后,使用偏移图对原始的平整图像进行采样,即生成训练文档图像数据,包括扭曲图像和对应的偏移图。扭曲文档图像(自建扭曲图像)如图3所示,偏移图可视化为图5和图6。
步骤1.3:对训练文档图像进行文本特征提取;
对于每一张生成的扭曲图像(自建扭曲图像),使用基于语义分割的神经网络模型提取文本的中心线特征,该神经网络使用扭曲的原图像作为输入,输出文本区域特征图和文本中心线特征图,对于文本中心线特征图,神经网络可能产生一些错误的识别,包含一些图像和表格等非文本区域,但在文本区域特征图中不会产生错误,所以使用文本区域特征图对所有文本中心线进行鉴别筛选,提取准确的文本中心线特征图,如图4所示。
步骤1.4:训练矫正网络;
首先构建一个深度卷积神经网络,由于本发明针对的扭曲矫正任务与语义分割任务具有相似性,所以可以使用语义分割任务中的神经网络模型,本发明中使用UNet和DeepLab系列网络。通过实验,确定使用在语义分割任务中表现更优的DeepLab系列模型。该模型与UNet相比,具有空洞空间卷积池化金字塔(ASPP)结构,ASPP结构使用不同采样率的空洞卷积并行采样,在多个尺度捕捉图像的上下文,有效提高矫正效果。DeepLab同时在参数量上优于两个堆叠的UNet,更少的参数量可以带来更快速的训练和矫正速度,提高本发明的可用性。在损失函数的设计方面,申请人经过多次的实验对比后,使用逐像素的交叉熵损失的均值作为损失函数。
该网络模型输入一张扭曲图像的文本特征图,输出一张与原图同样尺寸的两个通道的偏移图,与步骤1.2中生成的偏移图相同,第一个通道的值表示预测的该像素的X方向的偏移值,第二个通道的值表示预测的该像素的Y方向的偏移值。通过多轮次的深度学习训练,使该深度卷积神经网络的损失值收敛至预期的范围内,神经网络能够较好的拟合训练样本,即完成了矫正网络的训练。
二、矫正部分
步骤2.1:扭曲文档图像的文本特征提取;
与步骤1.3所述方法相同,对需要矫正的扭曲文档进行文本特征提取,得到文本特征图用于矫正。
步骤2.2:预测偏移图;
对于步骤2.1中生成的文本特征图,使用步骤1.4中使用的深度卷积神经网络进行偏移图预测,因为上述训练步骤中神经网络已经可以较好的拟合训练样本,且训练样本包含了丰富的扭曲场景,因此可以较好的泛化到真实的扭曲图像中。
步骤2.3:生成平整图像;
利用步骤2.2中神经网络预测的偏移图,具体地,对于X方向的偏移图Px和Y方向的偏移图Py,原图O的像素在平整图像D中的坐标应为像素坐标与偏移图对应像素值之和,即O(i,j)=D(i+Px(i,j),j+Py(i,j)),由于神经网络预测的偏移图的数值类型为浮点型,在生成结果中由于浮点数到整数转换的精度丢失会导致生成图像产生撕裂,所以采用双线性插值算法来实现这一变换过程。通过上述的使用偏移图对扭曲原图进行变换即可得到矫正后的文档图像。生成结果如图7所示。
如图8所示,根据本发明的实施例之一,公开了基于深度学习的扭曲图像矫正装置800,包括:存储器802,用于存储程序指令;处理器804,用于调用所述存储器中存储的所述程序指令以实现如上述任一实施例所述的基于深度学习的扭曲图像矫正方法。
根据本发明的实施例之一,还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有程序代码,所述程序代码用于实现如上述任一实施例所述的基于深度学习的扭曲图像矫正方法。
根据本发明的上述实施例,针对现有的扭曲文档矫正方法中,一类基于硬件的矫正方法,需要通过特殊的硬件采集文档的深度信息,容易受到操作门槛和使用场景等因素的制约,还有一类基于模型的矫正方法,需要对使用者的拍摄角度做出限制且应用场景不多,仅限理想的弯曲矫正,本发明提供一种基于文本特征的深度学习扭曲文档矫正方法,无需额外的硬件设备,也无需限制使用者的拍摄角度,降低了使用移动设备采集文档的操作门槛并且提高了采集效果,并且本发明借助基于深度学习的图像处理技术,面对复杂的扭曲文档也可以表现出良好的矫正效果。
上述实施例的各种方法中的全部或部分步骤是可以通过程序来控制相关的硬件来完成,该程序可以存储于可读存储介质中,存储介质包括只读存储器(Read—OnlyMemory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read—Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的可读的任何其他介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于深度学习的扭曲图像矫正方法,其特征在于,包括:
提取扭曲图像的特征数据;
以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型;
根据所述特征数据,识别出所述扭曲图像中的待矫正元素;
利用所述用于矫正的深度神经网络模型预测所述待矫正元素的偏移图,生成预测偏移图;
根据所述预测偏移图矫正所述扭曲图像。
2.根据权利要求1所述的基于深度学习的扭曲图像矫正方法,其特征在于,所述提取扭曲图像的特征数据的步骤,具体包括:
利用深度神经网络模型对所述扭曲图像进行文本行检测,提取文本行中心线,生成所述扭曲图像的文本特征图。
3.根据权利要求2所述的基于深度学习的扭曲图像矫正方法,其特征在于,所述利用深度神经网络模型对所述扭曲图像进行文本行检测,提取文本行中心线,生成所述扭曲图像的文本特征图的步骤,具体包括:
使用预训练的语义分割模型提取所述扭曲图像的文本区域特征图和文本行中心线特征图;
使用所述文本区域特征图和所述文本行中心线特征图进行后处理,生成精准化的文本行中心线特征图。
4.根据权利要求1所述的基于深度学习的扭曲图像矫正方法,其特征在于,所述以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型的步骤,具体包括:
获取非扭曲图像,对所述非扭曲图像做扭曲处理,生成自建扭曲图像作为所述训练图像,生成对应于扭曲处理过程的偏移图作为所述训练图像对应的偏移图,以构建所述用于矫正的深度神经网络模型。
5.根据权利要求4所述的基于深度学习的扭曲图像矫正方法,其特征在于,所述扭曲处理具体包括:
根据所述非扭曲图像的尺寸随机生成扭曲参数,其中,扭曲参数包括扭曲的初始点、方向、扭曲程度和形变的类型,形变的类型包括弯曲和折叠;
根据所述扭曲参数计算每个像素的形变量;
重复随机生成扭曲参数的步骤以及根据扭曲参数计算每个像素的形变量的步骤,进行多次扭曲,叠加每次扭曲的形变;
使用插值算法将所述非扭曲图像变换为所述自建扭曲图像。
6.根据权利要求5所述的基于深度学习的扭曲图像矫正方法,其特征在于,所述以训练图像和训练图像对应的偏移图作为训练数据,构建用于矫正的深度神经网络模型的步骤,具体还包括:
构建基于编码器-解码器结构的卷积神经网络模型,使用所述自建扭曲图像作为输入,使用生成的标签作为训练标签,输出偏移图;
对所述基于编码器-解码器结构的卷积神经网络模型进行多次训练,使卷积神经网络的损失值下降收敛至预期范围内。
7.根据权利要求2所述的基于深度学习的扭曲图像矫正方法,其特征在于,所述利用所述用于矫正的深度神经网络模型预测所述待矫正元素的偏移图,生成预测偏移图的步骤,具体包括:
对通过文本行检测生成的文本特征图进行预处理并输入到所述用于矫正的深度神经网络模型中,以输出所述预测偏移图,其中,所述待矫正元素包括所述文本特征图。
8.一种基于深度学习的扭曲图像矫正装置,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的所述程序指令以实现如权利要求1至7中任一项所述的基于深度学习的扭曲图像矫正方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序代码,所述程序代码用于实现如权利要求1至7中任一项所述的基于深度学习的扭曲图像矫正方法。
CN202110018743.1A 2021-01-07 2021-01-07 一种基于深度学习的扭曲图像矫正方法、装置和存储介质 Pending CN112597998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110018743.1A CN112597998A (zh) 2021-01-07 2021-01-07 一种基于深度学习的扭曲图像矫正方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110018743.1A CN112597998A (zh) 2021-01-07 2021-01-07 一种基于深度学习的扭曲图像矫正方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN112597998A true CN112597998A (zh) 2021-04-02

Family

ID=75207489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110018743.1A Pending CN112597998A (zh) 2021-01-07 2021-01-07 一种基于深度学习的扭曲图像矫正方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN112597998A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034406A (zh) * 2021-04-27 2021-06-25 中国平安人寿保险股份有限公司 扭曲文档恢复方法、装置、设备及介质
CN116503686A (zh) * 2023-03-28 2023-07-28 北京百度网讯科技有限公司 图像矫正模型的训练方法、图像矫正方法、装置及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753971A (zh) * 2017-11-06 2019-05-14 阿里巴巴集团控股有限公司 扭曲文字行的矫正方法及装置、字符识别方法及装置
CN109829437A (zh) * 2019-02-01 2019-05-31 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子系统
CN111260586A (zh) * 2020-01-20 2020-06-09 北京百度网讯科技有限公司 扭曲文档图像的矫正方法和装置
CN111507181A (zh) * 2020-03-11 2020-08-07 平安科技(深圳)有限公司 票据图像的矫正方法、装置及计算机设备
CN111626941A (zh) * 2020-05-11 2020-09-04 东莞市七宝树教育科技有限公司 一种基于深度学习语义分割的文档矫正方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753971A (zh) * 2017-11-06 2019-05-14 阿里巴巴集团控股有限公司 扭曲文字行的矫正方法及装置、字符识别方法及装置
CN109829437A (zh) * 2019-02-01 2019-05-31 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子系统
CN111260586A (zh) * 2020-01-20 2020-06-09 北京百度网讯科技有限公司 扭曲文档图像的矫正方法和装置
CN111507181A (zh) * 2020-03-11 2020-08-07 平安科技(深圳)有限公司 票据图像的矫正方法、装置及计算机设备
CN111626941A (zh) * 2020-05-11 2020-09-04 东莞市七宝树教育科技有限公司 一种基于深度学习语义分割的文档矫正方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHENGQUAN ZHANG等: "Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes", 《ARXIV》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034406A (zh) * 2021-04-27 2021-06-25 中国平安人寿保险股份有限公司 扭曲文档恢复方法、装置、设备及介质
CN116503686A (zh) * 2023-03-28 2023-07-28 北京百度网讯科技有限公司 图像矫正模型的训练方法、图像矫正方法、装置及介质

Similar Documents

Publication Publication Date Title
JP4806230B2 (ja) 劣化辞書生成プログラム、方法および装置
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN112597998A (zh) 一种基于深度学习的扭曲图像矫正方法、装置和存储介质
CN110647795A (zh) 一种表格识别方法
CN110827297A (zh) 基于改进的条件生成对抗网络的绝缘子分割方法
CN113435240A (zh) 一种端到端的表格检测和结构识别方法及系统
JP2008052602A (ja) 画像濃度変換方法、画像強調処理装置、およびそのプログラム
JPH06301781A (ja) コンピュータによるパターン認識のためのイメージ変換方法及び装置
CN115331245A (zh) 一种基于图像实例分割的表格结构识别方法
CN112926648B (zh) 一种烟叶烘烤过程中烟叶尖部异常的检测方法及装置
CN108710881B (zh) 神经网络模型、候选目标区域生成方法、模型训练方法
CN110378167B (zh) 一种基于深度学习的条码图像补正方法
CN113688821A (zh) 一种基于深度学习的ocr文字识别方法
CN110097604B (zh) 图像颜色风格转移方法
CN117036756A (zh) 基于变分自动编码器的遥感图像匹配方法及系统
JP4834693B2 (ja) パターン認識パラメータ学習装置、パターン認識装置、パターン認識パラメータ学習方法
CN111951287A (zh) 一种二维码检测和识读方法
CN114322793B (zh) 基于全局分割网络的工件尺寸测量方法、装置及存储介质
CN109871759B (zh) 基于TensorFlow和OpenCV的车道线识别方法
JP2007304899A (ja) 識別辞書生成装置及び識別辞書生成方法
JP4687558B2 (ja) 画像照合装置、画像照合方法及びプログラム
CN117975469A (zh) 基于深度学习的文档图像形状校正方法及系统
JP2891211B2 (ja) 光学式文字読取装置および方法
Dandekar et al. Image Super Resolution using U-Net architecture and SRGAN: Comparative Analysis
WO2024030105A1 (en) Multi-stage fusion matcher for dirty fingerprint and dirty palm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210402

WD01 Invention patent application deemed withdrawn after publication