CN113808033A - 图像文档校正方法、系统、终端及介质 - Google Patents

图像文档校正方法、系统、终端及介质 Download PDF

Info

Publication number
CN113808033A
CN113808033A CN202110901444.2A CN202110901444A CN113808033A CN 113808033 A CN113808033 A CN 113808033A CN 202110901444 A CN202110901444 A CN 202110901444A CN 113808033 A CN113808033 A CN 113808033A
Authority
CN
China
Prior art keywords
image
correction
original image
perspective transformation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110901444.2A
Other languages
English (en)
Inventor
韦建
周异
陈凯
黄征
周曲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Shangji Network Technology Co ltd
Shanghai Shenyao Intelligent Technology Co ltd
Original Assignee
Xiamen Shangji Network Technology Co ltd
Shanghai Shenyao Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Shangji Network Technology Co ltd, Shanghai Shenyao Intelligent Technology Co ltd filed Critical Xiamen Shangji Network Technology Co ltd
Priority to CN202110901444.2A priority Critical patent/CN113808033A/zh
Publication of CN113808033A publication Critical patent/CN113808033A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种图像文档校正方法及系统,包括:基于原始图像预设多个位置参考点;构建图像特征提取模型,将原始图像输入至图像特征提取模型提取图像特征;构建基于透视变换的图像校正模型,将图像特征输入至图像校正模型,预测得到每一个位置参考点在校正后图像上的相对位置坐标变化;根据位置参考点在原始图像中的位置和位置参考点在校正后图像上的位置的相对位置坐标变化,计算形变校正矩阵,并将形变校正矩阵作用到原始图像,对原始图像进行校正。同时提供了一种相应的终端及介质。本发明针对各种复杂情况下的图像形变问题,不需要检测保持固定位置关系的多个锚点,不依赖图像前背景检测结果,能对任意拍照不完整的图像文档进行形变校正。

Description

图像文档校正方法、系统、终端及介质
技术领域
本发明涉及图像处理技术领域,具体地,涉及一种图像文档校正方法、系统、终端及介质。
背景技术
传统图像处理方法一般使用通过扫描仪得到的图像,图像质量清晰,形变小。近几年来,随着手机端应用和智能驾驶的广泛使用,基于拍照图片的应用越来越多,比如文字定位与识别、文档理解等应用。拍照使用虽然很方便,但是基于手机或者摄像头拍照的图像容易受到拍摄角度,拍摄距离以及摄像头的参数影响,基本都存在图像形变,并且大部分拍照图像形变较大,从而导致应用的准确率下降较大。
目前常用的图像形变校正方法,基于透视变换原理,通过线检测,目标边缘检测等方法获取已知固定位置关系的4个锚点,然后通过计算检测到的4点与固定位置关系的四点间的映射关系获取形变矩阵,将形变图像校正为正常无形变图像,如图1所示。
也就是说,目前常用的图像形变校正方法,通常基于检测到4个保持矩形关系的锚点,但是在实际应用中,由于拍照不全导致图像文档被截断、前背景相近以及目标本身的复杂性等情况,很难检测有效的4个锚点,如图2所示,导致形变校正的性能很差。
经过检索发现:
公开号为CN111860489A的中国发明专利申请《一种证件图像校正方法、装置、设备及存储介质》,采用预设校正模型,获取待识别图像中的证件角点的待校正角点坐标,所述预设校正模型由样本集合训练获取,所述样本集合包括多个样本证件图像,每个所述样本证件图像标注有角点坐标;根据校正后证件的各目标角点坐标和对应的所述待校正证件角点坐标,计算获取变换矩阵;根据所述变换矩阵对所述待识别图像中的证件进行透视变换,得到校正后的证件图像,解决现有技术中校正方法受图像背景图案影响较大,若图像中存在其他边缘线信息,会干扰证件的边缘线检测的问题,达到提高校正效果的作用。该专利技术面向证件图像,通过训练模型预测证件的四个角点在校正后的位置,是基于具体的图像锚点来实现校正的功能,存在较大的局限性,无法适用于通用的文档校正场景。
公开号为CN110674815A的中国发明专利申请《基于深度学习关键点检测的发票图像畸变校正方法》,首先,训练数据标注及增强;其次,设置网络结构及训练参数;然后,利用网络结构及训练参数设置训练关键点检测模型,保存训练后的模型;再然后,利用训练后的模型进行票据关键点检测;最后,利用检测到的关键点进行票据对齐。本发明可以快速、精确、适用于自然场景,对校正后的图片进行识别很大程度上提高了OCR识别的准确率,为下游OCR应用减少人力物力投入,节省资源。该方法面向发票图像,通过训练模型预测发票上的关键点,然后通过检测到的关键点和标准发票的关键点的位置,计算相应的透视变换矩阵,其中关键点的定义是指图像上一些有固定特征的点,比如表格的角点、固定文字区域的位置。该方法也是基于具体的图像锚点来实现校正的功能,存在较大的局限性,无法适用于通用的文档校正场景。
发明内容
本发明针对现有技术中存在的上述不足,提供了一种图像文档校正方法、系统、终端及介质。
根据本发明的一个方面,提供了一种图像文档校正方法,包括:
基于原始图像预设多个位置参考点;
构建图像特征提取模型,将所述原始图像输入至所述图像特征提取模型提取图像特征;
构建基于透视变换的图像校正模型,将所述图像特征输入至所述图像校正模型,预测得到每一个所述位置参考点在校正后图像上的相对位置坐标变化;
根据所述位置参考点在所述原始图像中的位置和所述位置参考点在校正后图像上的位置的相对位置坐标变化,计算形变校正矩阵,并将所述形变校正矩阵作用到所述原始图像,对所述原始图像进行校正。
优选地,所述基于原始图像预设多个位置参考点,包括:
将所述原始图像分成mⅹn个区域块,其中,m≥1,n≥1;
将每个区域块的一个顶点作为一个参考点,则所述位置参考点的总数量为:(m+1)ⅹ(n+1)。
优选地,所述构建图像特征提取模型,将所述原始图像输入至所述图像特征提取模型提取图像特征,包括:
获取多张训练图像,根据需要提取的目标特征,对所述训练图像中目标特征所属的像素区域进行标注,构建训练样本。
获取一个或多个深度学习网络模型,利用所述训练样本对每一个所述深度学习网络模型进行训练,得到用于提取不同目标特征的特征提取网络,构建图像特征提取模型;
利用所述图像特征提取模型,将所述原始图像分别作为每一个特征提取网络的输入,输出相应的初始图像特征;
对所述初始图像特征进行组合,得到最终所需的图像特征。
优选地,所述深度学习网络模型采用语义分割模型。
优选地,所述初始图像特征包括如下任意一个或任意多个:
原图特征,所述原图特征为基于整张原始图像提取的特征;
文字分布特征:所述文字分布特征为文字位置分布的概率图或二值化图;
线分布特征:所述线分布特征为线位置分布的概率图或二值化图;
分隔区域特征:所述分隔区域特征为分隔行或分隔列的位置分布概率图或二值化图。
优选地,所述对所述初始图像特征进行组合,包括:带权重的逐位相加、相乘、连接、堆叠中的任意一种或任意多种的组合。
优选地,所述构建图像校正模型,将所述图像特征输入至所述图像校正模型,预测得到每一个所述位置参考点在校正后图像上的相对位置坐标变化,包括:
构建深度校正模型网络,并对所述深度校正模型网络进行透视变换训练,得到图像校正模型;
将所述图像特征作为所述图像校正模型的输入,输出所述位置参考点在图像校正前后的相对位置坐标变化值。
优选地,所述深度校正模型网络,包括:卷积层、池化层和全连接层,所述图像特征经过卷积层、池化层、全连接层的前向传播得到输出值。
优选地,所述池化层采用金字塔分层池化;所述全连接层的输出维度为所述位置参考点的总数量ⅹ2(x,y),其中,(x,y)表示位置参考点在校正后图像上的x轴和y轴的坐标。
优选地,所述透视变换训练,包括:
对所述深度校正模型网络的各网络层权值初始化;
采用透视变换方法,构建训练样本,所述训练样本包括训练样本图像及其透视变换后的位置参考点坐标标注值;
利用所述训练样本对所述深度校正模型网络进行训练;
计算根据所述深度校正模型网络输出值得到的位置参考点坐标与所述训练样本的标注值之间的损失,即根据所述输出值校正后的的位置参考点坐标与标注值之间的距离误差;
当所述损失大于设定的阈值时,将所述距离误差反馈至所述深度校正模型网络,对所述深度校正模型网络的各网络层权值进行更新,并重新对所述深度校正模型网络进行训练和计算损失;
当所述损失小于等于设定阈值时,训练结束。
优选地,所述根据所述相对位置坐标变化,计算形变校正矩阵,并将所述形变校正矩阵作用到所述原始图像,对所述原始图像进行校正,包括:
获取位置参考点在原始图像中的位置以及在校正后图像中的预测位置,求解透视变换矩阵,即为形变校正矩阵;
利用所述透视变换矩阵,将所述原始图像投影到一个新的视平面,获取形变校正后的图像,完成对所述原始图像的校正。
优选地,所述获取位置参考点在原始图像中的位置以及在校正后图像中的预测位置,求解透视变换矩阵,包括如下任意一种方法:
-a,直接选取原始图像的4个顶点的预测结果计算透视变换矩阵;
-b,对于位于原始图像边缘上(最外围)的各个参考点,利用所述图像校正模型,预测每一个参考点在校正后图像上的位置,组成外接轮廓,通过四边形拟合的方式选取最符合拟合结果的4个位置参考点,并以此计算透视变换矩阵;
-c,对于原始图像每个区域块的4个位置参考点,计算相应的透视变换矩阵,并以此对每一个区域块进行透视变换。
优选地,所述利用所述透视变换矩阵,将所述原始图像投影到一个新的视平面,获取形变校正后的图像,包括:
针对方法a和方法b:
对于原始图像上的任意一点,采用如下公式,通过透视变换矩阵在校正后图像上得到与之对应的坐标点:
Figure BDA0003200019000000051
其中,M为透视变换矩阵,mij为透视变换矩阵中元素,(x,y)原始图像上的任意一点的坐标,(x,y)为校正后图像上得到的对应的坐标点;
根据变换后的对应坐标点,得到形变校正后的图像;
针对方法c:
对于原始图像任一区域块上的任意一点,采用如下公式,通过透视变换矩阵在校正后图像上得到与之对应的坐标点:
Figure BDA0003200019000000052
其中,M为透视变换矩阵,mij为透视变换矩阵中元素,(x,y)原始图像上的任意一点的坐标,(x,y)为校正后图像上得到的对应的坐标点;
根据变换后的对应坐标点,得到每一个区域块形变校正后的图像;
将每一个区域块的形变校正后的图像进行拼接,组成原始图像的校正后图像,并对所述原始图像的校正后图像进行填充,得到最终的校正后图像。
优选地,所述图像特征提取模型和所述图像校正模型融合为一个网络模型。
根据本发明的另一个方面,提供了一种图像文档校正系统,包括:
位置参考点获取模块,该模块基于原始图像预设多个位置参考点;
图像特征提取模块,该模块构建图像特征提取模型,将所述原始图像输入至所述图像特征提取模型提取图像特征;
透视变换模块,该模块构建基于透视变换的图像校正模型,将所述图像特征输入至所述图像校正模型,预测得到每一个所述位置参考点在校正后图像上的相对位置坐标变化;
图像校正模块,该模块根据所述位置参考点在所述原始图像中的位置和所述位置参考点在校正后图像上的位置的相对位置坐标变化,计算形变校正矩阵,并将所述形变校正矩阵作用到所述原始图像,对所述原始图像进行校正。
根据本发明的第三个方面,提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述任一项所述的方法,或,运行上述的系统。
根据本发明的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述任一项所述的方法,或,运行上述的系统。
由于采用了上述技术方案,本发明与现有技术相比,具有如下至少一项的有益效果:
本发明提供的图像文档校正方法、系统、终端及介质,针对各种复杂情况下的图像形变问题,不需要检测保持固定位置关系的多个锚点,不依赖图像前背景检测结果,可适应任意拍照不完整的图像文档进行形变校正。
本发明提供的图像文档校正方法、系统、终端及介质,基于深度学习方法直接预测输入图像的多个预设的参考点所对应的在校正图像上的位置变化,通过透视变换原理获取形变校正矩阵,避免使用传统方法带来的锚点获取不准确的问题,从而提高形变校正的准确率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为现有技术中基于4个锚点的图像校正示意图;其中,(a)为原始图像,(b)为校正后图像;
图2为实际应用中很难通过基于4个锚点进行图像校正的图像示例;
图3为本发明一实施例中图像文档校正方法流程图;
图4为本发明一优选实施例中图像文档校正方法流程图;
图5为本发明一优选实施例中位置参考点选取示意图;其中,(a)为原始图像,(b)为位置参考点;
图6为本发明一实施例中图像文档校正组成模块示意图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
图3为本发明一实施例提供的图像文档校正方法流程图。
如图3所示,该实施例提供的图像文档校正方法,可以包括如下步骤:
S100,基于原始图像预设多个位置参考点;
S200,构建图像特征提取模型,将原始图像输入至图像特征提取模型提取图像特征;
S300,构建基于透视变换的图像校正模型,将图像特征输入至图像校正模型,预测得到每一个位置参考点在校正后图像上的相对位置坐标变化;
S400,根据位置参考点在原始图像中的位置和位置参考点在校正后图像上的位置的相对位置坐标变化,计算形变校正矩阵,并将形变校正矩阵作用到原始图像,对原始图像进行校正。
在该实施例的S100中,作为一优选实施例,基于原始图像预设多个位置参考点,可以包括如下步骤:
S101,将原始图像分成mⅹn个区域块,其中,m≥1,n≥1;
S102,将每个区域块的一个顶点作为一个参考点,则位置参考点的总数量为:(m+1)ⅹ(n+1)。
在该实施例的S200中,作为一优选实施例,构建图像特征提取模型,将原始图像输入至图像特征提取模型提取图像特征,可以包括如下步骤:
S201,获取多张训练图像,根据需要提取的目标特征,对训练图像中目标特征所属的像素区域进行标注,构建训练样本。
S202,获取一个或多个深度学习网络模型,利用训练样本对每一个深度学习网络模型进行训练,得到用于提取不同目标特征的特征提取网络,构建图像特征提取模型;
S203,利用图像特征提取模型,将原始图像分别作为每一个特征提取网络的输入,输出相应的初始图像特征;
S204,对初始图像特征进行组合,得到最终所需的图像特征。
在该实施例的S202中,作为一优选实施例,深度学习网络模型可以采用语义分割模型。
在该实施例的S203中,作为一优选实施例,初始图像特征可以包括如下任意一个或任意多个:
原图特征,原图特征为基于整张原始图像提取的特征;
文字分布特征:文字分布特征为文字位置分布的概率图或二值化图;
线分布特征:线分布特征为线位置分布的概率图或二值化图;
分隔区域特征:分隔区域特征为分隔行或分隔列的位置分布概率图或二值化图。
在该实施例的S204中,作为一优选实施例,对初始图像特征进行组合,可以包括:带权重的逐位相加、相乘、连接、堆叠中的任意一种或任意多种的组合。
在该实施例的S300中,作为一优选实施例,构建图像校正模型,将图像特征输入至图像校正模型,预测得到每一个位置参考点在校正后图像上的相对位置坐标变化,可以包括如下步骤:
S301,构建深度校正模型网络,并对深度校正模型网络进行透视变换训练,得到图像校正模型;
S302,将图像特征作为图像校正模型的输入,输出位置参考点在图像校正前后的相对位置坐标变化值。
在该实施例的S301中,作为一优选实施例,深度校正模型网络,可以包括:卷积层、池化层和全连接层,图像特征经过卷积层、池化层、全连接层的前向传播得到输出值。
进一步地,作为一优选实施例,池化层可以采用金字塔分层池化;全连接层的输出维度可以为位置参考点的总数量ⅹ2(x,y),其中,(x,y)表示位置参考点在校正后图像上的x轴和y轴的坐标。
在该实施例的S301中,作为一优选实施例,透视变换训练,可以包括如下步骤:
S301,对深度校正模型网络的各网络层权值初始化;
S302,采用透视变换方法,构建训练样本,训练样本包括训练样本图像及其透视变换后的位置参考点坐标标注值;
S303,利用训练样本对深度校正模型网络进行训练;
S304,计算根据深度校正模型网络输出值得到的位置参考点坐标与训练样本的标注值之间的损失,即根据输出值校正后的位置参考点坐标与标注值之间的距离误差;
当损失大于设定的阈值时,将距离误差反馈至深度校正模型网络,对深度校正模型网络的各网络层权值进行更新,并重新对深度校正模型网络进行训练和计算损失;
当损失小于等于设定阈值时,训练结束。
在该实施例的S304中,进一步地,根据输出值校正位置参考点坐标的方法为:
在标注值的原始参考点位置坐标上加上输出的变化值参考点位置坐标,即得到校正后的位置参考点坐标。
在该实施例的S400中,作为一优选实施例,根据相对位置坐标变化,计算形变校正矩阵,并将形变校正矩阵作用到原始图像,对原始图像进行校正,可以包括如下步骤:
S401,获取位置参考点在原始图像中的位置以及在校正后图像中的预测位置,求解透视变换矩阵,即为形变校正矩阵;
S402,利用透视变换矩阵,将原始图像投影到一个新的视平面,获取形变校正后的图像,完成对原始图像的校正。
在该实施例的S401中,进一步地,获取校正后图像中的预测位置的方法为:
根据图像校正模型输出的相对位置坐标变化,在预设的位置参考点上加上该变化值即得到校正后图像中的预测位置。
在该实施例的S401中在,作为一具体应用实例,可以采用opencv的getPerspectiveTransform函数,输入原始图像中的预设位置坐标,输出目标图像中的位置坐标,即得到相应的透视变换矩。
在该实施例的S401中,作为一优选实施例,获取位置参考点在原始图像中的位置以及在校正后图像中的预测位置,求解透视变换矩阵,可以包括如下任意一种方法:
第一种方法,直接选取原始图像的4个顶点的预测结果计算透视变换矩阵;
第二种方法,对于位于原始图像最外围(边缘上)的各个参考点,采用图像校正模型,预测它们在校正后图像上的位置,组成外接轮廓,通过四边形拟合的方式选取最符合拟合结果的4个位置参考点,并以此计算透视变换矩阵;
第三种方法,对于每个区域块的4个位置参考点,计算相应的透视变换矩阵,并以此对该区域块进行透视变换。在该实施例的S402中,作为一优选实施例,针对第一种和第二种方法,利用透视变换矩阵,将原始图像投影到一个新的视平面,获取形变校正后的图像,可以包括如下步骤:
S4021,对于原始图像上的任意一点,通过透视变换矩阵在校正后图像上得到与之对应的坐标点,其变换方法为:
Figure BDA0003200019000000091
其中,M为透视变换矩阵,mij为透视变换矩阵中元素,(x,y)原始图像上的任意一点的坐标,(x’,y’)为校正后图像上得到的对应的坐标点;
S4022,根据变换后的对应坐标点,得到形变校正后的图像。
在该实施例的S402中,作为一优选实施例,针对第三种方法,利用透视变换矩阵,将原始图像投影到一个新的视平面,获取形变校正后的图像,可以包括如下步骤:
S4021c,对于原始图像任一区域块上的任意一点,采用如下透视变换公式,通过透视变换矩阵在校正后图像上得到与之对应的坐标点:
Figure BDA0003200019000000101
其中,M为透视变换矩阵,mij为透视变换矩阵中元素,(x,y)原始图像上的任意一点的坐标,(x’,y’)为校正后图像上得到的对应的坐标点;
S4022c,根据变换后的对应坐标点,得到每一个区域块形变校正后的图像;
S4023c,将每一个区域块的形变校正后的图像进行拼接,组成原始图像的校正后图像,并对原始图像的校正后图像进行填充,得到最终的校正后图像。
通过透视变换矩阵将原始图像投影到新的视平面。透视变换矩阵是三维空间的线性变换。根据上述透视变换公式对原始图像的所有像素点进行位置变换,最终形成的图像则是一个处于新的视平面的图像。
在第一种和第二种方法中,均得到一个透视变换矩阵,根据该透视变换矩阵,完成对所述原始图像的校正。
在第三种方法中,将得到多个透视变换矩阵,因此该方法还需要进行额外的处理,即,对各个区域块进行校正之后,将各个区域块的校正结果拼接起来,组成原始图像的校正后图像。同时为了防止各区域块图像之间出现裂隙,对各区域快图像采用了插值方法进行填充,插值方法可包括但不限于:最近邻(Nearest)、双线性(Bilinear)、三次样条(cubic)等。
在该实施例中,作为一优选实施例,可以将S200中的图像特征提取模型和S300中的图像校正模型融合为一个网络模型。
图4为本发明一优选实施例提供的图像文档校正方法流程图。
如图4所示,该优选实施例提供的图像文档校正方法,可以包括如下步骤:
步骤1:从输入的待校正图像(原始图像)选取一定数目的位置参考点;
步骤2:利用图像特征提取模型提取图像特征。其中图像特征提取模型为深度学习模型,图像特征包括其中至少一种或者多种图像特征:
(1)原图特征:
基于整张原图提取的特征;
(2)文字分布特征:
文字分布特征可以是文字位置分布的概率图或二值化图;
(3)线分布特征:
线位置分布的概率图或二值化图;
(4)分隔区域特征:
分隔行或分隔列的位置分布概率图或二值化图;
步骤3:输入提取的图像特征,利用图像校正模型预测所选取的位置参考点在无形变图像(校正后图像)上的位置坐标变化;
步骤4:根据所选取参考点在待校正图像中的位置和预测的在无形变图像上的位置的信息计算形变校正矩阵,将形变校正矩阵作用到待校正图像,计算得到校正后的图像。
作为一优选实施例,步骤1从输入的待校正图像选取一定数目的位置参考点,包括如下步骤:
步骤1.1:
可以是将待校正图像分成mⅹn个区域块,然后选取每个区域块的一个顶点作为位置参考点,n≥1,m≥1,位置参考点的总数目=(m+1)ⅹ(n+1),如图5中(a)和(b)所示。
作为一优选实施例,步骤2中利用图像特征提取模型提取图像特征,包括:
步骤2.1:使用一个或多个预训练的深度学习网络模型构建图像特征提取模型实现图像特征提取;图像特征提取模型可以与步骤三中的图像校正模型融合为一个网络模型。
步骤2.2:可以采用多种方式组合不同种类的图像特征,包括带权重的逐位相加、相乘或者连接、堆叠等。
其中,深度学习网络模型可以采用常用的语义分割模型,如U-Net、FCN、PSPNet、DeepLab等。而分割目标可以包括文本、线条、分隔区域等等。需要提取相应的目标特征则只需对图像中目标所属的像素区域进行标注,进而对网络进行训练。
作为一优选实施例,步骤3包括如下步骤:
步骤3.1:将步骤2所获得的图像特征,输入图像校正模型,预测步骤1中的各个位置参考点在无形变图像上的对应位置;
其中深度模型校正网络的构建如下。
(一)主体网络结构:
总体结构为卷积层加池化层加全连接层,其中池化层可采用金字塔分层池化,全连接层的输出维度等于总参考点数目ⅹ2(x,y),(x,y)为无形变图像的x和y轴坐标。
(二)网络的训练,整个模型的训练过程可以分为4个步骤:1、网络进行权值的初始化;2、输入训练数据经过卷积层、池化层、全连接层的前向传播得到输出值;3、求出网络的输出值与标注值之间的损失(Loss)。当损失大于预设的阈值时,进入第4步,当损失小于阈值时,则结束训练;4、将误差传回网络中,进行各个网络层的权值更新,然后进入到第2步继续训练。
其中:
1、训练数据(训练样本)生成
训练数据采用透视变换的方式,可以通过机器自动生成或人工标注来获得。
在一具体应用实例中,机器自动生成方法包括:
获取一张无形变的原图像,经过透视变换得到相应的透视变换图像及其位置参考点在原图像上的坐标标注值,得到训练样本透视变换图像及其坐标标注值。
在一具体应用实例中,人工标注方法包括:
获取一张有形变的原图像并进行锚点人工标记,经过透视变换得到人工标记锚点的对应坐标标注值,得到训练样本原图像及其坐标标注值。
2、损失函数设计
对任一训练样本图像Pi,将网络损失定义为模型预测的各个参考点在无形变图像上的对应坐标Gi *与实际标注记录的坐标Gi之间的距离误差。具体的损失函数可采用但不限于常用的回归损失函数,如绝对误差(L1 loss)、平方误差(L2 loss)等。
3、模型输出结果设计
为了使模型的输出值能够处在一定范围的区间内,本优选实施例不选择让模型直接预测参考点校正后的绝对坐标,而是预测参考点校正前后的坐标相对变化大小。具体地,假设某参考点坐标为(x1,y1),校正后坐标为(x2,y2),则模型需要预测的值是(x2-x1)/w,(y2-y1)/h,其中w,h分别表示该图像的宽和高。
作为一优选实施例,步骤4包括:
步骤4.1:获取参考点在输入图像中的位置,获取校正图像中的预测位置,求解透视变换矩阵。具体求解透视矩阵包括但不限于如下方式:
(一)直接选取图像的4个顶点的预测结果计算透视变换矩阵。
(二)对于图像最外围的各个参考点,预测它们在无形变图像上的位置,进而组成外接轮廓,通过四边形拟合的方式选取最符合拟合结果的4个参考点,并以此计算透视变换矩阵。
(三)对于每个图像块的4个参考点,计算相应的透视变换矩阵,并以此对该块进行透视变换。
步骤4.2:用计算得到的透视变换矩阵将输入图像投影到一个新的视平面,以获取形变校正后的图像。具体地,对于输入图像Pi上任意一点坐标A(x,y),通过透视变换矩阵M可在校正图像上得到与之对应的坐标点A′(x′,y′),变换方法为:
Figure BDA0003200019000000131
其中,M为透视变换矩阵,mij为透视变换矩阵中元素,(x,y)原始图像上的任意一点的坐标,(x’,y’)为校正后图像上得到的对应的坐标点。
根据变换后的对应坐标点,得到形变校正后的图像。
针对第(三)种求解透视变换矩阵的情况,还需要进行如下操作:
对各个区域块进行校正之后,将各个区域块的校正结果拼接起来,组成原始图像的校正后图像。同时为了防止各区域块图像之间出现裂隙,对各区域快图像采用了插值方法进行填充,插值方法可包括但不限于:最近邻(Nearest)、双线性(Bilinear)、三次样条(cubic)等。
该优选实施例提供的图像文档校正方法,对于输入的原始图片,采用图像特征提取模型分别获得相应的特征图(如文字分布特征),将上述特征图输入图像校正模型,输出一组结果向量,表示各个参考点在校正后图像上的相对坐标变化。最后计算透视变换矩阵,对原始图像进行校正。
图6为本发明一实施例提供的图像文档校正系统组成模块示意图。
如图6所示,该实施例提供的图像文档校正系统,可以包括:位置参考点获取模块、图像特征提取模块、透视变换模块和图像校正模块。其中:
位置参考点获取模块,该模块基于原始图像预设多个位置参考点;
图像特征提取模块,该模块构建图像特征提取模型,将原始图像输入至图像特征提取模型提取图像特征;
透视变换模块,该模块构建基于透视变换的图像校正模型,将图像特征输入至图像校正模型,预测得到每一个位置参考点在校正后图像上的相对位置坐标变化;
图像校正模块,该模块根据位置参考点在原始图像中的位置和位置参考点在校正后图像上的位置的相对位置坐标变化,计算形变校正矩阵,并将形变校正矩阵作用到原始图像,对原始图像进行校正。
本发明一实施例提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时可用于执行上述实施例中任一项的方法,或,运行上述实施例中的系统。
本发明一实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述实施例中任一项的方法,或,运行上述实施例中的系统。
在上述两个实施例中,可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic RandomAccess Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。
本发明上述实施例提供的图像文档校正方法、系统、终端及介质,针对各种复杂情况下的图像形变问题,不需要检测保持固定位置关系的多个锚点,不依赖图像前背景检测结果,可适应任意拍照不完整的图像文档进行形变校正。基于深度学习方法直接预测输入图像的多个预设的参考点所对应的在校正图像上的位置变化,通过透视变换原理获取形变校正矩阵,避免使用传统方法带来的锚点获取不准确的问题,从而提高形变校正的准确率。
需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照方法的技术方案实现系统的组成,即,方法中的实施例可理解为构建系统的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (14)

1.一种图像文档校正方法,其特征在于,包括:
基于原始图像预设多个位置参考点;
构建图像特征提取模型,将所述原始图像输入至所述图像特征提取模型提取图像特征;
构建基于透视变换的图像校正模型,将所述图像特征输入至所述图像校正模型,预测得到每一个所述位置参考点在校正后图像上的相对位置坐标变化;
根据所述位置参考点在所述原始图像中的位置和所述位置参考点在校正后图像上的位置的相对位置坐标变化,计算形变校正矩阵,并将所述形变校正矩阵作用到所述原始图像,对所述原始图像进行校正。
2.根据权利要求1所述的图像文档校正方法,其特征在于,所述基于原始图像预设多个位置参考点,包括:
将所述原始图像分成mⅹn个区域块,其中,m≥1,n≥1;
将每个区域块的一个顶点作为一个参考点,则所述位置参考点的总数量为:(m+1)ⅹ(n+1)。
3.根据权利要求1所述的图像文档校正方法,其特征在于,所述构建图像特征提取模型,将所述原始图像输入至所述图像特征提取模型提取图像特征,包括:
获取多张训练图像,根据需要提取的目标特征,对所述训练图像中目标特征所属的像素区域进行标注,构建训练样本;
获取一个或多个深度学习网络模型,利用所述训练样本对每一个所述深度学习网络模型进行训练,得到用于提取不同目标特征的特征提取网络,构建图像特征提取模型;
利用所述图像特征提取模型,将所述原始图像分别作为每一个特征提取网络的输入,输出相应的初始图像特征;
对所述初始图像特征进行组合,得到最终所需的图像特征。
4.根据权利要求3所述的图像文档校正方法,其特征在于,还包括如下任意一项或任意多项:
-所述深度学习网络模型采用语义分割模型;
-所述初始图像特征包括如下任意一个或任意多个:
原图特征,所述原图特征为基于整张原始图像提取的特征;
文字分布特征:所述文字分布特征为文字位置分布的概率图或二值化图;
线分布特征:所述线分布特征为线位置分布的概率图或二值化图;
分隔区域特征:所述分隔区域特征为分隔行或分隔列的位置分布概率图或二值化图;
-所述对所述初始图像特征进行组合,包括:带权重的逐位相加、相乘、连接、堆叠中的任意一种或任意多种的组合。
5.根据权利要求1所述的图像文档校正方法,其特征在于,所述构建图像校正模型,将所述图像特征输入至所述图像校正模型,预测得到每一个所述位置参考点在校正后图像上的相对位置坐标变化,包括:
构建深度校正模型网络,并对所述深度校正模型网络进行透视变换训练,得到图像校正模型;
将所述图像特征作为所述图像校正模型的输入,输出所述位置参考点在图像校正前后的相对位置坐标变化值。
6.根据权利要求5所述的图像文档校正方法,其特征在于,所述深度校正模型网络,包括:卷积层、池化层和全连接层,所述图像特征经过卷积层、池化层、全连接层的前向传播得到输出值;其中:
所述池化层采用金字塔分层池化;所述全连接层的输出维度为所述位置参考点的总数量ⅹ2(x,y),其中,(x,y)表示位置参考点在校正后图像上的x轴和y轴的坐标。
7.根据权利要求6所述的图像文档校正方法,其特征在于,所述透视变换训练,包括:
对所述深度校正模型网络的各网络层权值初始化;
采用透视变换方法,构建训练样本,所述训练样本包括训练样本图像及其透视变换后的位置参考点坐标标注值;
利用所述训练样本对所述深度校正模型网络进行训练;
计算根据所述深度校正模型网络输出值得到的位置参考点坐标与所述训练样本的标注值之间的损失,即根据所述输出值校正后的位置参考点坐标与标注值之间的距离误差;
当所述损失大于设定的阈值时,将所述距离误差反馈至所述深度校正模型网络,对所述深度校正模型网络的各网络层权值进行更新,并重新对所述深度校正模型网络进行训练和计算损失;
当所述损失小于等于设定阈值时,训练结束。
8.根据权利要求1所述的图像文档校正方法,其特征在于,所述根据所述相对位置坐标变化,计算形变校正矩阵,并将所述形变校正矩阵作用到所述原始图像,对所述原始图像进行校正,包括:
获取位置参考点在原始图像中的位置以及在校正后图像中的预测位置,求解透视变换矩阵,即为形变校正矩阵;
利用所述透视变换矩阵,将所述原始图像投影到一个新的视平面,获取形变校正后的图像,完成对所述原始图像的校正。
9.根据权利要求8所述的图像文档校正方法,其特征在于,所述获取位置参考点在原始图像中的位置以及在校正后图像中的预测位置,求解透视变换矩阵,包括如下任意一种方法:
-a,直接选取原始图像的4个顶点的预测结果计算透视变换矩阵;
-b,对于位于原始图像边缘上的各个参考点,利用所述图像校正模型,预测每一个参考点在校正后图像上的位置,组成外接轮廓,通过四边形拟合的方式选取最符合拟合结果的4个位置参考点,并以此计算透视变换矩阵;
-c,对于原始图像每个区域块的4个位置参考点,计算相应的透视变换矩阵,对每一个区域块进行透视变换。
10.根据权利要求8所述的图像文档校正方法,其特征在于,所述利用所述透视变换矩阵,将所述原始图像投影到一个新的视平面,获取形变校正后的图像,包括:
针对方法a和方法b:
对于原始图像上的任意一点,采用如下公式,通过透视变换矩阵在校正后图像上得到与之对应的坐标点:
Figure FDA0003200018990000031
其中,M为透视变换矩阵,mij为透视变换矩阵中元素,(x,y)原始图像上的任意一点的坐标,(x’,y’)为校正后图像上得到的对应的坐标点;
根据变换后的对应坐标点,得到形变校正后的图像;
针对方法c:
对于原始图像任一区域块上的任意一点,采用如下公式,通过透视变换矩阵在校正后图像上得到与之对应的坐标点:
Figure FDA0003200018990000041
其中,M为透视变换矩阵,mij为透视变换矩阵中元素,(x,y)原始图像上的任意一点的坐标,(x’,y’)为校正后图像上得到的对应的坐标点;
根据变换后的对应坐标点,得到每一个区域块形变校正后的图像;
将每一个区域块的形变校正后的图像进行拼接,组成原始图像的校正后图像,并对所述原始图像的校正后图像进行填充,得到最终的校正后图像。
11.根据权利要求1-10中任一项所述的图像文档校正方法,其特征在于,所述图像特征提取模型和所述图像校正模型融合为一个网络模型。
12.一种图像文档校正系统,其特征在于,包括:
位置参考点获取模块,该模块基于原始图像预设多个位置参考点;
图像特征提取模块,该模块构建图像特征提取模型,将所述原始图像输入至所述图像特征提取模型提取图像特征;
透视变换模块,该模块构建基于透视变换的图像校正模型,将所述图像特征输入至所述图像校正模型,预测得到每一个所述位置参考点在校正后图像上的相对位置坐标变化;
图像校正模块,该模块根据所述位置参考点在所述原始图像中的位置和所述位置参考点在校正后图像上的位置的相对位置坐标变化,计算形变校正矩阵,并将所述形变校正矩阵作用到所述原始图像,对所述原始图像进行校正。
13.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-11中任一项所述的方法,或,运行权利要求12所述的系统。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可用于执行权利要求1-11中任一项所述的方法,或,运行权利要求12所述的系统。
CN202110901444.2A 2021-08-06 2021-08-06 图像文档校正方法、系统、终端及介质 Pending CN113808033A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110901444.2A CN113808033A (zh) 2021-08-06 2021-08-06 图像文档校正方法、系统、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110901444.2A CN113808033A (zh) 2021-08-06 2021-08-06 图像文档校正方法、系统、终端及介质

Publications (1)

Publication Number Publication Date
CN113808033A true CN113808033A (zh) 2021-12-17

Family

ID=78893342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110901444.2A Pending CN113808033A (zh) 2021-08-06 2021-08-06 图像文档校正方法、系统、终端及介质

Country Status (1)

Country Link
CN (1) CN113808033A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114677684A (zh) * 2022-03-23 2022-06-28 平安普惠企业管理有限公司 扭曲图像校正方法、装置、设备及计算机可读存储介质
WO2023130966A1 (zh) * 2022-01-10 2023-07-13 杭州睿胜软件有限公司 图像处理方法、图像处理装置、电子设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130195351A1 (en) * 2012-01-27 2013-08-01 Sony Corporation Image processor, image processing method, learning device, learning method and program
CN108305233A (zh) * 2018-03-06 2018-07-20 哈尔滨工业大学 一种针对微透镜阵列误差的光场图像校正方法
CN108921161A (zh) * 2018-06-08 2018-11-30 Oppo广东移动通信有限公司 模型训练方法、装置、电子设备和计算机可读存储介质
CN111444922A (zh) * 2020-03-27 2020-07-24 Oppo广东移动通信有限公司 图片处理方法、装置、存储介质及电子设备
CN111860527A (zh) * 2019-10-24 2020-10-30 北京嘀嘀无限科技发展有限公司 图像校正方法、图像校正装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130195351A1 (en) * 2012-01-27 2013-08-01 Sony Corporation Image processor, image processing method, learning device, learning method and program
CN108305233A (zh) * 2018-03-06 2018-07-20 哈尔滨工业大学 一种针对微透镜阵列误差的光场图像校正方法
CN108921161A (zh) * 2018-06-08 2018-11-30 Oppo广东移动通信有限公司 模型训练方法、装置、电子设备和计算机可读存储介质
CN111860527A (zh) * 2019-10-24 2020-10-30 北京嘀嘀无限科技发展有限公司 图像校正方法、图像校正装置、计算机设备及存储介质
CN111444922A (zh) * 2020-03-27 2020-07-24 Oppo广东移动通信有限公司 图片处理方法、装置、存储介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
潘梅森;郭国强;: "基于图像矩的车牌号码倾斜校正", 计算机辅助设计与图形学学报, no. 08, 15 August 2007 (2007-08-15) *
田文利;: "基于霍夫直线检测与二维透视变换的图像校正恢复算法", 电子测量技术, no. 09, 15 September 2017 (2017-09-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023130966A1 (zh) * 2022-01-10 2023-07-13 杭州睿胜软件有限公司 图像处理方法、图像处理装置、电子设备、存储介质
CN114677684A (zh) * 2022-03-23 2022-06-28 平安普惠企业管理有限公司 扭曲图像校正方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN115601549B (zh) 基于可变形卷积和自注意力模型的河湖遥感图像分割方法
CN110458112B (zh) 车辆检测方法、装置、计算机设备和可读存储介质
CN110163193B (zh) 图像处理方法、装置、计算机可读存储介质和计算机设备
US8755630B2 (en) Object pose recognition apparatus and object pose recognition method using the same
WO2019113572A1 (en) Computer vision systems and methods for geospatial property feature detection and extraction from digital images
CN114143519B (zh) 投影图像自动匹配幕布区域的方法及装置,投影仪
CN110827202A (zh) 目标检测方法、装置、计算机设备和存储介质
CN113689578B (zh) 一种人体数据集生成方法及装置
CN114418869B (zh) 一种文档图像几何校正方法、系统、装置及介质
CN113808033A (zh) 图像文档校正方法、系统、终端及介质
CN106952247B (zh) 一种双摄像头终端及其图像处理方法和系统
CN113724379B (zh) 融合图像与激光点云的三维重建方法及装置
CN115082450A (zh) 基于深度学习网络的路面裂缝检测方法和系统
CN114140623A (zh) 一种图像特征点提取方法及系统
CN112036342B (zh) 单证抓拍方法、设备及计算机存储介质
CN117522963A (zh) 棋盘格的角点定位方法、装置、存储介质及电子设备
US20120038785A1 (en) Method for producing high resolution image
CN111932594A (zh) 一种基于光流的十亿像素视频对齐方法及装置、介质
CN111738061A (zh) 基于区域特征提取的双目视觉立体匹配方法及存储介质
CN114998412B (zh) 基于深度网络和双目视觉的阴影区域视差计算方法和系统
CN113112531B (zh) 一种图像匹配方法及装置
CN114998630A (zh) 一种从粗到精的地对空图像配准方法
US11227166B2 (en) Method and device for evaluating images, operating assistance method, and operating device
CN112615993A (zh) 深度信息获取方法、双目摄像模组、存储介质及电子设备
CN112084938A (zh) 一种基于图结构提高平面目标表征稳定性的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination