CN113177885A - 校正图像的方法、装置、存储介质及电子设备 - Google Patents

校正图像的方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN113177885A
CN113177885A CN202110342875.XA CN202110342875A CN113177885A CN 113177885 A CN113177885 A CN 113177885A CN 202110342875 A CN202110342875 A CN 202110342875A CN 113177885 A CN113177885 A CN 113177885A
Authority
CN
China
Prior art keywords
target image
edge
target
vertex
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110342875.XA
Other languages
English (en)
Inventor
王少康
马志国
张飞飞
杜竹君
郝双
阚海鹏
刘腾龙
麻凯利
王彦君
杨明坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Oriental Education Technology Group Co ltd
Original Assignee
New Oriental Education Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New Oriental Education Technology Group Co ltd filed Critical New Oriental Education Technology Group Co ltd
Priority to CN202110342875.XA priority Critical patent/CN113177885A/zh
Publication of CN113177885A publication Critical patent/CN113177885A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/181Segmentation; Edge detection involving edge growing; involving edge linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种校正图像的方法、装置、存储介质及电子设备,所述方法包括:将待校正的目标图像输入预先训练的关键点检测模型,得到所述目标图像对应的热力图,所述热力图包括所述目标图像的每条边对应的边热力图;根据所述边热力图,获取所述目标图像的每条边对应的拟合直线;获取每两条相邻的拟合直线的交汇点,得到所述目标图像对应的拟合顶点;根据所述拟合顶点对所述目标图像进行透视变换,得到所述目标图像对应的第一校正图像。这样,可以明确切分出目标图像中的前景,滤除该目标图像中的背景干扰,从而提高图像校正的效果。

Description

校正图像的方法、装置、存储介质及电子设备
技术领域
本公开涉及图像处理技术领域,具体地,涉及一种校正图像的方法、装置、存储介质及电子设备。
背景技术
在图像识别方面,基于深度学习的OCR(Optical Character Recognition,光学字符识别)识别以其识别精度高、识别速度快等优点被业界广泛采用。OCR识别的精度不仅受限于识别算法的好坏,还受限于文本检测的效果,而图像质量对文本检测效果的影响较为显著,其中,图像畸变(非平拍)对图像文字区域的定位和识别的影响尤为明显。因此,为了提高OCR识别的准确率,在对图像进行识别之前,可以先对采集到的图像进行校正。
相关技术中,可以通过基于深度学习的顶点回归任务对图像进行校正,但是,这种方法对前景和背景区分度相差较大的图像的校正效果比较好,对前景和背景相似的图像顶点的预测存在较大偏差,导致图像的校正效果较差。
发明内容
为了解决上述问题,本公开提供一种校正图像的方法、装置、存储介质及电子设备。
第一方面,本公开提供一种校正图像的方法,所述方法包括:
将待校正的目标图像输入预先训练的关键点检测模型,得到所述目标图像对应的热力图,所述热力图包括所述目标图像的每条边对应的边热力图;
根据所述边热力图,获取所述目标图像的每条边对应的拟合直线;
获取每两条相邻的拟合直线的交汇点,得到所述目标图像对应的拟合顶点;
根据所述拟合顶点对所述目标图像进行透视变换,得到所述目标图像对应的第一校正图像。
可选地,所述热力图还包括顶点热力图,在所述根据所述拟合顶点对所述目标图像进行透视变换前,所述方法还包括:
根据所述顶点热力图中每个像素点的像素值,确定所述目标图像对应的预测顶点;
所述根据所述拟合顶点对所述目标图像进行透视变换包括:
根据所述拟合顶点和所述预测顶点的误差,确定所述目标图像对应的目标顶点;
根据所述目标顶点对所述目标图像进行透视变换。
可选地,所述根据所述拟合顶点和所述预测顶点的误差,确定所述目标图像对应的目标顶点包括:
在所述误差小于预设误差阈值的情况下,将所述预测顶点作为所述目标顶点;或者,
在所述误差大于或等于所述预设误差阈值的情况下,将所述拟合顶点作为所述目标顶点。
可选地,在所述根据所述边热力图,获取所述目标图像的每条边对应的拟合直线前,所述方法还包括:
确定所述边热力图是否包含关键点;
所述根据所述边热力图,获取所述目标图像的每条边对应的拟合直线包括:
在确定所述边热力图包含所述关键点的情况下,对所述边热力图中的所述关键点进行拟合,得到所述目标图像的每条边对应的拟合直线;
在确定所述边热力图未包含所述关键点的情况下,确定所述边热力图对应的目标边,并将所述目标图像中与所述目标边对应的边缘,作为所述边热力图对应的拟合直线。
可选地,所述方法还包括:
在所述目标图像包括特征线的情况下,在得到所述第一校正图像后,获取所述第一校正图像中的特征线对应的目标直线,所述特征线包括位于所述第一校正图像的相对两端,并且长度大于或等于第一预设长度阈值的线条;
获取所述目标直线的端点;
根据所述端点对所述第一校正图像进行透视变换,得到所述目标图像对应的第二校正图像。
可选地,在所述特征线为实线的情况下,所述获取所述第一校正图像中的特征线对应的目标直线包括:
获取所述目标图像对应的多个水平直线特征点,所述水平直线特征点包括水平直线对应的两个端点;
对所述水平直线特征点进行合并,得到所述目标图像对应的多条合并直线;
针对多条所述合并直线中的每条合并直线,获取该合并直线的长度,以及该合并直线距离所述目标图像的相对两端的边缘的距离;
将所述长度大于或等于第二预设长度阈值,并且所述距离小于或等于预设距离阈值的合并直线作为所述目标直线。
可选地,在所述特征线为虚线的情况下,所述获取所述第一校正图像中的特征线对应的目标直线包括:
对所述第一校正图像进行直线检测,得到所述第一校正图像中的多条检测直线;
获取多条所述检测直线中长度小于或等于第三预设长度阈值的特征直线;
将所述特征直线合并后作为所述目标直线。
第二方面,本公开提供一种校正图像的装置,所述装置包括:
热力图获取模块,用于将待校正的目标图像输入预先训练的关键点检测模型,得到所述目标图像对应的热力图,所述热力图包括所述目标图像的每条边对应的边热力图;
拟合直线获取模块,用于根据所述边热力图,获取所述目标图像的每条边对应的拟合直线;
拟合顶点获取模块,用于获取每两条相邻的拟合直线的交汇点,得到所述目标图像对应的拟合顶点;
第一校正图像获取模块,用于根据所述拟合顶点对所述目标图像进行透视变换,得到所述目标图像对应的第一校正图像。
可选地,所述热力图还包括顶点热力图,所述装置还包括:
预测顶点确定模块,用于根据所述顶点热力图中每个像素点的像素值,确定所述目标图像对应的预测顶点;
第一校正图像获取模块,还用于根据所述拟合顶点和所述预测顶点的误差,确定所述目标图像对应的目标顶点;根据所述目标顶点对所述目标图像进行透视变换。
可选地,第一校正图像获取模块,还用于:
在所述误差小于预设误差阈值的情况下,将所述预测顶点作为所述目标顶点;或者,
在所述误差大于或等于所述预设误差阈值的情况下,将所述拟合顶点作为所述目标顶点。
可选地,所述装置还包括:
关键点确定模块,用于确定所述边热力图是否包含关键点;
所述拟合直线获取模块,还用于:
在确定所述边热力图包含所述关键点的情况下,对所述边热力图中的所述关键点进行拟合,得到所述目标图像的每条边对应的拟合直线;
在确定所述边热力图未包含所述关键点的情况下,确定所述边热力图对应的目标边,并将所述目标图像中与所述目标边对应的边缘,作为所述边热力图对应的拟合直线。
可选地,所述装置还包括:
目标直线获取模块,用于在所述目标图像包括特征线的情况下,在得到所述第一校正图像后,获取所述第一校正图像中的特征线对应的目标直线,所述特征线包括位于所述第一校正图像的相对两端,并且长度大于或等于第一预设长度阈值的线条;
端点获取模块,用于获取所述目标直线的端点;
第二校正图像获取模块,用于根据所述端点对所述第一校正图像进行透视变换,得到所述目标图像对应的第二校正图像。
可选地,在所述特征线为实线的情况下,所述目标直线获取模块,还用于:
获取所述目标图像对应的多个水平直线特征点,所述水平直线特征点包括水平直线对应的两个端点;
对所述水平直线特征点进行合并,得到所述目标图像对应的多条合并直线;
针对多条所述合并直线中的每条合并直线,获取该合并直线的长度,以及该合并直线距离所述目标图像的相对两端的边缘的距离;
将所述长度大于或等于第二预设长度阈值,并且所述距离小于或等于预设距离阈值的合并直线作为所述目标直线。
可选地,在所述特征线为虚线的情况下,所述目标直线获取模块,还用于:
对所述第一校正图像进行直线检测,得到所述第一校正图像中的多条检测直线;
获取多条所述检测直线中长度小于或等于第三预设长度阈值的特征直线;
将所述特征直线合并后作为所述目标直线。
第三方面,本公开提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面所述方法的步骤。
第四方面,本公开提供一种终端,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面所述方法的步骤。
通过上述技术方案,将待校正的目标图像输入预先训练的关键点检测模型,得到所述目标图像对应的热力图,所述热力图包括所述目标图像的每条边对应的边热力图;根据所述边热力图,获取所述目标图像的每条边对应的拟合直线;获取每两条相邻的拟合直线的交汇点,得到所述目标图像对应的拟合顶点;根据所述拟合顶点对所述目标图像进行透视变换,得到所述目标图像对应的第一校正图像。这样,可以明确切分出目标图像中的前景,滤除该目标图像中的背景干扰,从而提高图像校正的效果。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开一示例性实施例示出的一种校正图像的方法的流程图;
图2是本公开一示例性实施例示出的一种目标图像的示意图;
图3是本公开一示例性实施例示出的一种热力图;
图4是本公开一示例性实施例示出的另一种校正图像的方法的流程图;
图5是本公开一示例性实施例示出的第二种目标图像的示意图;
图6是本公开一示例性实施例示出的一种拟合直线的示意图;
图7是本公开一示例性实施例示出的一种拟合顶点的示意图;
图8是本公开一示例性实施例示出的第三种目标图像的示意图;
图9是本公开一示例性实施例示出的另一种热力图;
图10是本公开一示例性实施例示出的一种校正图像的示意图;
图11是本公开一示例性实施例示出的一种水平直线特征点示意图;
图12是本公开一示例性实施例示出的一种合并直线的示意图;
图13是本公开一示例性实施例示出的一种目标直线的示意图;
图14是本公开一示例性实施例示出的一种校正图像的装置的结构示意图;
图15是本公开一示例性实施例示出的第二种校正图像的装置的结构示意图;
图16是本公开一示例性实施例示出的第三种校正图像的装置的结构示意图;
图17是本公开一示例性实施例示出的第四种校正图像的装置的结构示意图;
图18是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
在下文中的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
首先,对本公开的应用场景进行介绍。本公开可以应用于图像识别,例如OCR,OCR技术一般分为文本检测和文本识别两个技术分支,而OCR识别精度不仅受限于识别算法的好坏,也受限于文本检测的效果,而图像质量对文本检测效果的影响也较为显著。在移动互联网时代下,移动设备的兴起使得普通用户对OCR应用的需求也日益增大,然而,由于用户行为的不可控性,各种场景下移动设备采集到的图像也千差万别。其中,图像畸变(非平拍)对图像文字区域定位与识别的影响尤为明显,如果能在图像识别之前对采集到的图像进行校正,则能有效提高文字识别的准确度。
相关技术中,可以通过基于深度学习的顶点回归任务、基于深度学习的语义分割任务或者基于深度学习的顶点关键点检测任务对图像进行校正,但是,这种方法,基于深度学习的顶点回归任务对前景和背景相似的图像顶点的预测存在较大偏差,导致校正后的图像会引入新的透视变换现象;基于深度学习的语义分割任务虽然对前景与背景的区分较为明显,但是,当拍摄的图像为多张纸叠放时,会对语义分割造成干扰,导致图像校正的效果较差;基于深度学习的顶点关键点检测任务针对缺失顶点的图像,会存在误检的现象,从而导致图像校正的效果较差。
为了解决上述存在的问题,本公开提供一种校正图像的方法、装置、存储介质及电子设备,通过关键点检测模型获取待校正目标图像对应的热力图,根据边热力图获取该目标图像的每条边对应的拟合直线,根据该拟合直线确定该目标图像对应的拟合顶点,并根据该拟合顶点对该目标图像进行透视变换,得到该目标图像对应的第一校正图像,在对该目标图像校正过程中,能够减少该目标图像的背景对图像校正的影响,从而提高了图像校正的效果。
以下结合具体的实施例对本公开进行说明。
图1是本公开一示例性实施例示出的一种校正图像的方法的流程图,如图1所示,该方法可以包括:
S101、将待校正的目标图像输入预先训练的关键点检测模型,得到该目标图像对应的热力图。
其中,该热力图可以包括该目标图像的每条边对应的边热力图,该目标图像的边可以是该目标图像的主体部分的边缘,示例地,图2是本公开一示例性实施例示出的一种目标图像的示意图,如图2所示,该目标图像的主体部分为拍摄的纸张,该目标图像的边为该纸张的边缘。
图3是本公开一示例性实施例示出的一种热力图,如图3所示,该热力图中包括该目标图像对应的四个边热力图,从左往右,第一个边热力图为图2所示的目标图像中拍摄的纸张的上边缘对应的热力图,第二个边热力图为图2所示的目标图像中拍摄的纸张的右边缘对应的热力图,第三个边热力图为图2所示的目标图像中拍摄的纸张的下边缘对应的热力图,第四个边热力图为图2所示的目标图像中拍摄的纸张的左边缘对应的热力图。
在本步骤中,可以通过现有技术的模型训练方法对初始模型进行训练,得到该关键点检测模型,此处不再赘述。该初始模型可以是深度卷积神经网络,也可以是其它神经网络,本公开对此不作限定。
S102、根据该边热力图,获取该目标图像的每条边对应的拟合直线。
在本步骤中,在得到该目标图像对应的边热力图后,针对每个边热力图,将该边热力图对应的多个关键点进行最小二乘法拟合,得到该目标图像的每条边对应的拟合直线。
S103、获取每两条相邻的拟合直线的交汇点,得到该目标图像对应的拟合顶点。
在本步骤中,在得到该目标图像的每条边对应的拟合直线后,通过现有技术的方法获取没两条拟合直线的交汇点,得到该目标图像对应的拟合顶点,此处不再赘述。
S104、根据该拟合顶点对该目标图像进行透视变换,得到该目标图像对应的第一校正图像。
在本步骤中,在得到该目标图像对应的拟合顶点后,通过现有技术的方法,根据该拟合顶点对该目标图像进行透视变化,得到该目标图像对应的第一校正图像,此处不再赘述。
采用上述方法,通过关键点检测模型获取待校正目标图像对应的热力图,根据边热力图获取该目标图像的每条边对应的拟合直线,根据该拟合直线确定该目标图像对应的拟合顶点,并根据该拟合顶点对该目标图像进行透视变换,得到该目标图像对应的第一校正图像,在对该目标图像校正过程中,能够减少该目标图像的背景对图像校正的影响,这样,可以明确切分出目标图像中的前景,滤除该目标图像中的背景干扰,从而提高图像校正的效果。
图4是本公开一示例性实施例示出的另一种校正图像的方法的流程图,如图4所示,该方法可以包括:
S401、将待校正的目标图像输入预先训练的关键点检测模型,得到该目标图像对应的热力图。
其中,该热力图可以包括边热力图和顶点热力图,该边热力图可以是该目标图像的每条边对应的热力图,该顶点热力图可以是该目标图像的每个顶点对应的热力图,该目标图像的边可以是该目标图像的主体部分的边缘,该目标图像的顶点可以是该目标图像的主体部分中每两个边缘的交汇点。
该热力图可以是以特殊高亮的形式显示的该目标图像的关键点所属区域的图像,该目标图像的关键点可以根据该热力图的类型确定,在该热力图为边热力图的情况下,该目标图像的关键点可以是组成该目标图像的每条边的点,在该热力图为顶点热力图的情况下,该目标图像的关键点可以是组成该目标图像的每个顶点的点。
S402、确定该边热力图是否包含关键点,在确定该边热力图包含该关键点的情况下,执行步骤S403,在确定该边热力图未包含该关键点的情况下,执行步骤S404。
在本步骤中,考虑到实际情况中该目标图像中主体部分可能存在缺失,例如,该目标图像中拍摄的纸张只有三个边,缺少一个边,图5是本公开一示例性实施例示出的第二种目标图像的示意图,如图5所示,该目标图像中拍摄的纸张的左边缘缺失。在这种情况下,得到的该目标图像对应的边热力图也会不准确,导致最终的图像校正效果较差。因此,在得到该目标图像对应的边热力图后,先确定该边热力图是否包括关键点。
S403、对该边热力图中的关键点进行拟合,得到该目标图像的每条边对应的拟合直线。
在本步骤中,图6是本公开一示例性实施例示出的一种拟合直线的示意图,如图6所示,对图3所示的边热力图的关键点进行拟合后,可以得到该目标图像的每条边对应的拟合直线。
S404、确定该边热力图对应的目标边,并将该目标图像中与该目标边对应的边缘,作为该边热力图对应的拟合直线。
在本步骤中,在确定该边热力图未包含该关键点的情况下,表示该边热力图对应的边缘未包含在该目标图像中,在这种情况下,可以先确定该边热力图对应的目标边,该目标边为该目标图像的主体部分的其中一个边缘。继续以图5所示的目标图像为例,该目标图像的主体部分为拍摄的纸张,在得到该目标图像对应的四个边热力图后,可以确定其中一个边热力图中未包含关键点,进而确定该边热力图对应的目标边为该目标图像所拍摄的纸张的左边缘。
进一步地,在确定该边热力图对应的目标边后,可以确定该目标图像中与该目标边对应的边缘,并将该边缘作为该边热力图对应的拟合直线。继续以图5所示的目标图像为例,在该目标边为该目标图像的主体部分的左边缘的情况下,可以确定该目标图像中与该目标边对应的边缘为该目标图像的左边缘。
S405、获取每两条相邻的拟合直线的交汇点,得到该目标图像对应的拟合顶点。
在本步骤中,可以根据每两条相邻的拟合直线的交汇点,得到该目标图像对应的四个拟合顶点。图7是本公开一示例性实施例示出的一种拟合顶点的示意图,如图7所示,图中的四个圆点即为该目标图像对应的拟合顶点。
S406、根据该顶点热力图中每个像素点的像素值,确定该目标图像对应的预测顶点。
需要说明的是,在步骤S401中获取该目标图像对应的热力图时,可以同时获取该目标图像对应的边热力图和顶点热力图,也可以在步骤S401中仅获取该目标图像对应的边热力图,在本步骤中获取该目标图像对应的顶点热力图,本公开对此不作限定。
图8是本公开一示例性实施例示出的第三种目标图像的示意图,如图8所示,该目标图像中拍摄的纸张缺少一个角。图9是本公开一示例性实施例示出的另一种热力图,如图9所示,该热力图中包括该目标图像对应的四个顶点热力图,从左往右,第一个顶点热力图为图8所示的目标图像中拍摄的纸张的左上角对应的热力图,第二个顶点热力图为图8所示的目标图像中拍摄的纸张的右上角对应的热力图,第三个顶点热力图为图8所示的目标图像中拍摄的纸张的右下角对应的热力图,第四个顶点热力图为图8所示的目标图像中拍摄的纸张的左下角对应的热力图。前三个顶点热力图中可以明显看到该目标图像对应的顶点,而第四个热力图中不能明显看到该目标图像对应的顶点。
在本步骤中,在得到该目标图像对应的顶点热力图后,针对每个顶点热力图,可以获取该顶点热力图中每个像素点的像素值,将像素值最大的像素点作为该目标图像对应的预测顶点。
S407、根据该拟合顶点和该预测顶点的误差,确定该目标图像对应的目标顶点。
在本步骤中,在确定该目标图像对应的拟合顶点和预测顶点后,可以获取该拟合顶点和该预测顶点之间的误差,在该误差小于预设误差阈值的情况下,将该预测顶点作为该目标顶点;或者,在该误差大于或等于该预设误差阈值的情况下,将该拟合顶点作为该目标顶点。
其中,该拟合顶点和该预测顶点之间的误差可以是MSE均方误差,这里,可以通过现有技术的方式获取该拟合顶点和该预测顶点之间的MSE均方误差,此处不再赘述。在该误差小于该预设误差阈值的情况下,表示该拟合顶点和该预测顶点之间的误差很小,可以将该拟合顶点作为该目标顶点;在该误差大于或等于该预设误差阈值的情况下,表示该拟合顶点和该预测顶点之前的误差较大,在误差较大的情况下,拟合顶点的准确率比预测顶点的准确率更高,可以将该拟合顶点作为该目标顶点。
S408、根据该目标顶点对该目标图像进行透视变换,得到该目标图像对应的第一校正图像。
在本步骤中,在得到该目标图像对应的目标顶点后,通过现有技术的方法,根据该目标顶点对该目标图像进行透视变化,得到该目标图像对应的第一校正图像,此处不再赘述。图10是本公开一示例性实施例示出的一种校正图像的示意图,如图10所示,是对图2所述的目标图像进行校正后得到的第一校正图像。
S409、在该目标图像包括特征线的情况下,在得到该第一校正图像后,获取该第一校正图像中的特征线对应的目标直线。
其中,该特征线包括位于该第一校正图像的相对两端,并且长度大于或等于第一预设长度阈值的线条,该线条可以是实线,也可以是虚线,本公开对此不作限定。示例地,如图2所示,该特征线可以是位于该目标图像所拍摄的纸张的最上端和最下端的两条线,该纸张上的文字部分位于两条线中间。
在本步骤中,在得到该第一校正图像后,可以先将该第一校正图像旋转至目标方向,该目标方向可以是特征线位于该目标图像的上下两端的方向。进一步地,在该特征线为实线的情况下,可以获取该目标图像对应的多个水平直线特征点,该水平直线特征点包括水平直线对应的两个端点;对该水平直线特征点进行合并,得到该目标图像对应的多条合并直线;针对多条合并直线中的每条合并直线,获取该合并直线的长度,以及该合并直线距离该目标图像的相对两端的边缘的距离;将该长度大于或等于第二预设长度阈值,并且该距离小于或等于预设距离阈值的合并直线作为该目标直线。
其中,可以通过y方向的sobel算子获取该目标图像对应的多个水平直线特征点,图11是本公开一示例性实施例示出的一种水平直线特征点示意图,如图11所示,该目标图像的每条特征线均包括多个水平直线特征点,不同水平特征点对应的线条的高度可能不同,并且每两个水平特征点之间可能存在一定间隔,而实际的特征线是一条水平直线,因此,本公开可以通过霍夫线检测、最小外接矩阵等方法将多个水平直线特征点进行合并,得到该目标图像对应的多条合并直线。
示例地,图12是本公开一示例性实施例示出的一种合并直线的示意图,如图12所示,是将图11所示的水平直线特征点进行合并后得到的合并直线。针对每个水平直线特征点,可以根据该水平直线特征点对应的坐标,确定该水平直线特征点对应的高度和与该水平直线特征点相邻的目标水平直线特征点,在该目标水平直线特征点与该水平直线特征点的高度差小于或等于预设差值阈值的情况下,将该目标水平直线特征点和该水平直线特征点中不相邻的两个端点作为合并直线的两个端点,得到该合并直线,其中,该预设差值阈值可以根据经验预先设置,不同的合并方法对应的预设差值阈值可以不同。例如,若该目标水平直线特征点位于该水平直线特征点的右侧,则在该目标水平直线特征点与该水平直线特征点的高度差小于或等于该预设差值阈值的情况下,将该水平直线特征点的左侧端点和该目标水平直线特征点的右侧端点作为合并直线的两个端点,得到该合并直线。
如图11所示,图中除了特征线对应的水平直线特征点外,也会得到正文部分的水平直线特征点,在得到多条合并直线后,可以先获取第二预设长度阈值和预设距离阈值,该第二预设长度阈值可以是该目标图像对应的特征线的长度,不同的目标图像对应的特征线的长度可以不同,且该特征线的长度大于该目标图像中文字部分的宽度;该预设距离阈值可以是该特征线距离该目标图像的相对两端的距离,以图2所述的目标图像为例,该预设距离阈值可以是该目标图像拍摄的纸张中上面的特征线距离纸张的上边缘的距离,以及该目标图像拍摄的纸张中下面的特征线距离纸张的下边缘的距离。之后,针对每条合并直线,可以获取该合并直线的长度和该合并直线距离该目标图像的两端的距离,将长度大于或等于该第二预设长度阈值,并且该距离小于或等于预设距离阈值的合并直线作为该目标直线。图13是本公开一示例性实施例示出的一种目标直线的示意图,如图13所示,是根据图12所示的合并直线得到的目标直线。
在该特征线为虚线的情况下,可以对该第一校正图像进行直线检测,得到该第一校正图像中的多条检测直线;获取多条检测直线中长度小于或等于第三预设长度阈值的特征直线;将该特征直线合并后作为该目标直线。示例地,可以通过霍夫线检测方法对该第一校正图像进行直线检测,得到该第一校正图像中的多条检测直线,之后,可以获取该第三预设长度阈值,该第三预设长度阈值可以是该目标图像的特征线对应的每一段直线的长度,获取多条检测直线中长度小于或等于该第三预设长度阈值的特征直线,最后,将该特征直线合并后作为该目标直线。其中,合并特征直线的方法可以参考上述获取合并直线的方法,此处不再赘述。
S410、获取该目标直线的端点。
在本步骤中,在得到该目标直线后,针对每条目标直线,可以获取该目标直线的两个端点,最终得到该目标直线对应的四个端点。
S411、根据该端点对该第一校正图像进行透视变换,得到该目标图像对应的第二校正图像。
在本步骤中,在得到该目标直线的端点后,可以通过现有技术的方法,根据该目标直线的四个端点对该第一校正图像进行透视变换,得到该目标图像对应的第二校正图像。
采用上述方法,通过关键点检测模型获取待校正目标图像对应的热力图,根据边热力图获取该目标图像的每条边对应的拟合直线,根据该拟合直线确定该目标图像对应的拟合顶点,并根据该拟合顶点对该目标图像进行透视变换,得到该目标图像对应的第一校正图像,在对该目标图像校正过程中,能够减少该目标图像的背景对图像校正的影响,这样,可以明确切分出目标图像中的前景,滤除该目标图像中的背景干扰,从而提高图像校正的效果。进一步地,在得到该第一校正图像后,可以根据该第一校正图像的特征线进一步对该第一校正图像进行校正,针对目标图像中拍摄的纸张有部分重叠或者畸变的情况,可以更进一步提高图像校正的效果。
图14是本公开一示例性实施例示出的一种校正图像的装置的结构示意图,如图14所示,该装置可以包括:
热力图获取模块1401,用于将待校正的目标图像输入预先训练的关键点检测模型,得到该目标图像对应的热力图,该热力图包括该目标图像的每条边对应的边热力图;
拟合直线获取模块1402,用于根据该边热力图,获取该目标图像的每条边对应的拟合直线;
拟合顶点获取模块1403,用于获取每两条相邻的拟合直线的交汇点,得到该目标图像对应的拟合顶点;
第一校正图像获取模块1404,用于根据该拟合顶点对该目标图像进行透视变换,得到该目标图像对应的第一校正图像。
可选地,该热力图还包括顶点热力图,图15是本公开一示例性实施例示出的第二种校正图像的装置的结构示意图,如图15所示,该装置还包括:
预测顶点确定模块1405,用于根据该顶点热力图中每个像素点的像素值,确定该目标图像对应的预测顶点;
第一校正图像获取模块1404,还用于根据该拟合顶点和该预测顶点的误差,确定该目标图像对应的目标顶点;根据该目标顶点对该目标图像进行透视变换。
可选地,第一校正图像获取模块1404,还用于:
在该误差小于预设误差阈值的情况下,将该预测顶点作为该目标顶点;或者,
在该误差大于或等于该预设误差阈值的情况下,将该拟合顶点作为该目标顶点。
可选地,图16是本公开一示例性实施例示出的第三种校正图像的装置的结构示意图,如图16所示,该装置还包括:
关键点确定模块1406,用于确定该边热力图是否包含关键点;
该拟合直线获取模块1403,还用于:
在确定该边热力图包含该关键点的情况下,对该边热力图中的该关键点进行拟合,得到该目标图像的每条边对应的拟合直线;
在确定该边热力图未包含该关键点的情况下,确定该边热力图对应的目标边,并将该目标图像中与该目标边对应的边缘,作为该边热力图对应的拟合直线。
可选地,图17是本公开一示例性实施例示出的第四种校正图像的装置的结构示意图,如图17所示,该装置还包括:
目标直线获取模块1407,用于在该目标图像包括特征线的情况下,在得到该第一校正图像后,获取该第一校正图像中的特征线对应的目标直线,该特征线包括位于该第一校正图像的相对两端,并且长度大于或等于第一预设长度阈值的线条;
端点获取模块1408,用于获取该目标直线的端点;
第二校正图像获取模块1409,用于根据该端点对该第一校正图像进行透视变换,得到该目标图像对应的第二校正图像。
可选地,在该特征线为实线的情况下,该目标直线获取模块1407,还用于:
获取该目标图像对应的多个水平直线特征点,该水平直线特征点包括水平直线对应的两个端点;
对该水平直线特征点进行合并,得到该目标图像对应的多条合并直线;
针对多条该合并直线中的每条合并直线,获取该合并直线的长度,以及该合并直线距离该目标图像的相对两端的边缘的距离;
将该长度大于或等于第二预设长度阈值,并且该距离小于或等于预设距离阈值的合并直线作为该目标直线。
可选地,在该特征线为虚线的情况下,该目标直线获取模块1407,还用于:
对该第一校正图像进行直线检测,得到该第一校正图像中的多条检测直线;
获取多条该检测直线中长度小于或等于第三预设长度阈值的特征直线;
将该特征直线合并后作为该目标直线。
通过上述装置,通过关键点检测模型获取待校正目标图像对应的热力图,根据边热力图获取该目标图像的每条边对应的拟合直线,根据该拟合直线确定该目标图像对应的拟合顶点,并根据该拟合顶点对该目标图像进行透视变换,得到该目标图像对应的第一校正图像,在对该目标图像校正过程中,能够减少该目标图像的背景对图像校正的影响,这样,可以明确切分出目标图像中的前景,滤除该目标图像中的背景干扰,从而提高图像校正的效果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图18是根据一示例性实施例示出的一种电子设备1800的框图。如图18所示,该电子设备1800可以包括:处理器1801,存储器1802。该电子设备1800还可以包括多媒体组件1803,输入/输出(I/O)接口1804,以及通信组件1805中的一者或多者。
其中,处理器1801用于控制该电子设备1800的整体操作,以完成上述的校正图像的方法中的全部或部分步骤。存储器1802用于存储各种类型的数据以支持在该电子设备1800的操作,这些数据例如可以包括用于在该电子设备1800上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器1802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件1803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1802或通过通信组件1805发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口1804为处理器1801和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件1805用于该电子设备1800与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件1805可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备1800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的校正图像的方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的校正图像的方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1802,上述程序指令可由电子设备1800的处理器1801执行以完成上述的校正图像的方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的校正图像的方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种校正图像的方法,其特征在于,所述方法包括:
将待校正的目标图像输入预先训练的关键点检测模型,得到所述目标图像对应的热力图,所述热力图包括所述目标图像的每条边对应的边热力图;
根据所述边热力图,获取所述目标图像的每条边对应的拟合直线;
获取每两条相邻的拟合直线的交汇点,得到所述目标图像对应的拟合顶点;
根据所述拟合顶点对所述目标图像进行透视变换,得到所述目标图像对应的第一校正图像。
2.根据权利要求1所述的方法,其特征在于,所述热力图还包括顶点热力图,在所述根据所述拟合顶点对所述目标图像进行透视变换前,所述方法还包括:
根据所述顶点热力图中每个像素点的像素值,确定所述目标图像对应的预测顶点;
所述根据所述拟合顶点对所述目标图像进行透视变换包括:
根据所述拟合顶点和所述预测顶点的误差,确定所述目标图像对应的目标顶点;
根据所述目标顶点对所述目标图像进行透视变换。
3.根据权利要求2所述的方法,其特征在于,所述根据所述拟合顶点和所述预测顶点的误差,确定所述目标图像对应的目标顶点包括:
在所述误差小于预设误差阈值的情况下,将所述预测顶点作为所述目标顶点;或者,
在所述误差大于或等于所述预设误差阈值的情况下,将所述拟合顶点作为所述目标顶点。
4.根据权利要求1所述的方法,其特征在于,在所述根据所述边热力图,获取所述目标图像的每条边对应的拟合直线前,所述方法还包括:
确定所述边热力图是否包含关键点;
所述根据所述边热力图,获取所述目标图像的每条边对应的拟合直线包括:
在确定所述边热力图包含所述关键点的情况下,对所述边热力图中的所述关键点进行拟合,得到所述目标图像的每条边对应的拟合直线;
在确定所述边热力图未包含所述关键点的情况下,确定所述边热力图对应的目标边,并将所述目标图像中与所述目标边对应的边缘,作为所述边热力图对应的拟合直线。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
在所述目标图像包括特征线的情况下,在得到所述第一校正图像后,获取所述第一校正图像中的特征线对应的目标直线,所述特征线包括位于所述第一校正图像的相对两端,并且长度大于或等于第一预设长度阈值的线条;
获取所述目标直线的端点;
根据所述端点对所述第一校正图像进行透视变换,得到所述目标图像对应的第二校正图像。
6.根据权利要求5所述的方法,其特征在于,在所述特征线为实线的情况下,所述获取所述第一校正图像中的特征线对应的目标直线包括:
获取所述目标图像对应的多个水平直线特征点,所述水平直线特征点包括水平直线对应的两个端点;
对所述水平直线特征点进行合并,得到所述目标图像对应的多条合并直线;
针对多条所述合并直线中的每条合并直线,获取该合并直线的长度,以及该合并直线距离所述目标图像的相对两端的边缘的距离;
将所述长度大于或等于第二预设长度阈值,并且所述距离小于或等于预设距离阈值的合并直线作为所述目标直线。
7.根据权利要求5所述的方法,其特征在于,在所述特征线为虚线的情况下,所述获取所述第一校正图像中的特征线对应的目标直线包括:
对所述第一校正图像进行直线检测,得到所述第一校正图像中的多条检测直线;
获取多条所述检测直线中长度小于或等于第三预设长度阈值的特征直线;
将所述特征直线合并后作为所述目标直线。
8.一种校正图像的装置,其特征在于,所述装置包括:
热力图获取模块,用于将待校正的目标图像输入预先训练的关键点检测模型,得到所述目标图像对应的热力图,所述热力图包括所述目标图像的每条边对应的边热力图;
拟合直线获取模块,用于根据所述边热力图,获取所述目标图像的每条边对应的拟合直线;
拟合顶点获取模块,用于获取每两条相邻的拟合直线的交汇点,得到所述目标图像对应的拟合顶点;
第一校正图像获取模块,用于根据所述拟合顶点对所述目标图像进行透视变换,得到所述目标图像对应的第一校正图像。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
CN202110342875.XA 2021-03-30 2021-03-30 校正图像的方法、装置、存储介质及电子设备 Pending CN113177885A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110342875.XA CN113177885A (zh) 2021-03-30 2021-03-30 校正图像的方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110342875.XA CN113177885A (zh) 2021-03-30 2021-03-30 校正图像的方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN113177885A true CN113177885A (zh) 2021-07-27

Family

ID=76922638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110342875.XA Pending CN113177885A (zh) 2021-03-30 2021-03-30 校正图像的方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113177885A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648542A (zh) * 2022-03-11 2022-06-21 联宝(合肥)电子科技有限公司 一种目标物提取方法、装置、设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001084365A (ja) * 1999-09-10 2001-03-30 Sanyo Electric Co Ltd 画像のあおり補正方法、画像のあおり補正装置およびあおり補正用プログラムを記録したコンピュータ読み取り可能な記録媒体
CN109063704A (zh) * 2018-07-05 2018-12-21 西安交通大学 基于投影法的两阶段文档图像非线性失真校正方法
CN110163193A (zh) * 2019-03-25 2019-08-23 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN111145124A (zh) * 2019-12-30 2020-05-12 北京华宇信息技术有限公司 一种图像倾斜的校正方法及装置
CN111598917A (zh) * 2020-07-15 2020-08-28 腾讯科技(深圳)有限公司 数据嵌入方法、装置、设备及计算机可读存储介质
CN112001859A (zh) * 2020-08-10 2020-11-27 深思考人工智能科技(上海)有限公司 一种人脸图像的修复方法及系统
CN112053305A (zh) * 2020-09-09 2020-12-08 成都市精卫鸟科技有限责任公司 一种利于图像截取和校正的排版结构、页面、图书及图像截取和校正方法、装置、设备、介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001084365A (ja) * 1999-09-10 2001-03-30 Sanyo Electric Co Ltd 画像のあおり補正方法、画像のあおり補正装置およびあおり補正用プログラムを記録したコンピュータ読み取り可能な記録媒体
CN109063704A (zh) * 2018-07-05 2018-12-21 西安交通大学 基于投影法的两阶段文档图像非线性失真校正方法
CN110163193A (zh) * 2019-03-25 2019-08-23 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN111145124A (zh) * 2019-12-30 2020-05-12 北京华宇信息技术有限公司 一种图像倾斜的校正方法及装置
CN111598917A (zh) * 2020-07-15 2020-08-28 腾讯科技(深圳)有限公司 数据嵌入方法、装置、设备及计算机可读存储介质
CN112001859A (zh) * 2020-08-10 2020-11-27 深思考人工智能科技(上海)有限公司 一种人脸图像的修复方法及系统
CN112053305A (zh) * 2020-09-09 2020-12-08 成都市精卫鸟科技有限责任公司 一种利于图像截取和校正的排版结构、页面、图书及图像截取和校正方法、装置、设备、介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
魏剑飞;张荣福;张仁杰;: "边缘缺失的畸变图像校正算法研究", 软件导刊, no. 09, pages 215 - 219 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648542A (zh) * 2022-03-11 2022-06-21 联宝(合肥)电子科技有限公司 一种目标物提取方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN108885699B (zh) 字符识别方法、装置、存储介质及电子设备
US10896349B2 (en) Text detection method and apparatus, and storage medium
CN108776970B (zh) 图像处理方法和装置
US10127471B2 (en) Method, device, and computer-readable storage medium for area extraction
WO2019201035A1 (zh) 对图像中的对象节点的识别方法、装置、终端及计算机可读存储介质
JP4928310B2 (ja) ナンバープレート認識装置、その制御方法、コンピュータプログラム
CN110569341B (zh) 配置聊天机器人的方法、装置、计算机设备和存储介质
CN110647882A (zh) 图像校正方法、装置、设备及存储介质
CN110942004A (zh) 基于神经网络模型的手写识别方法、装置及电子设备
KR102158799B1 (ko) 심층신경망 모델을 이용한 건물 식별 방법, 컴퓨터 프로그램 및 장치
WO2022134771A1 (zh) 表格处理方法、装置、电子设备及存储介质
US11281930B2 (en) System and method for object detection
CN111985465A (zh) 文本识别方法、装置、设备及存储介质
JP2018180945A (ja) 物体検出装置及びプログラム
CN111126108A (zh) 图像检测模型的训练和图像检测方法及装置
CN108665495B (zh) 图像处理方法及装置、移动终端
CN104268512A (zh) 基于光学字符识别的图像中字符识别方法及装置
CN113177885A (zh) 校正图像的方法、装置、存储介质及电子设备
CN113112511B (zh) 试卷批改的方法、装置、存储介质及电子设备
CN114332794A (zh) 用于列车线阵图像的目标检测方法、系统、装置及介质
CN113850238A (zh) 文档检测方法、装置、电子设备及存储介质
CN111126109B (zh) 一种车道线识别方法、装置和电子设备
US20180082426A1 (en) Algorithmic method for detection of documents in images
CN110874814B (zh) 一种图像处理方法、图像处理装置及终端设备
CN113505745B (zh) 一种文字识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination