CN110647882A - 图像校正方法、装置、设备及存储介质 - Google Patents

图像校正方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110647882A
CN110647882A CN201910894601.4A CN201910894601A CN110647882A CN 110647882 A CN110647882 A CN 110647882A CN 201910894601 A CN201910894601 A CN 201910894601A CN 110647882 A CN110647882 A CN 110647882A
Authority
CN
China
Prior art keywords
image
text region
text
correction
inverted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910894601.4A
Other languages
English (en)
Inventor
周康明
杨海林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eye Control Technology Co Ltd
Original Assignee
Shanghai Eye Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eye Control Technology Co Ltd filed Critical Shanghai Eye Control Technology Co Ltd
Priority to CN201910894601.4A priority Critical patent/CN110647882A/zh
Publication of CN110647882A publication Critical patent/CN110647882A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Character Input (AREA)

Abstract

本发明实施例提供一种图像校正方法、装置、设备及存储介质,该方法包括:获取待校正的第一图像,其中,所述第一图像中包含多个文本区域;通过分割模型检测对所述第一图像进行倾斜校正;从所述第一图像中提取各个文本区域所在的文本区域图像,并通过分类模型识别各个文本区域图像中的文本是否倒置;在文本倒置的文本区域图像的个数大于文本非倒置的文本区域图像的个数时,确定所述第一图像为倒置,并将所述第一图像旋转为正立的图像。本发明实施例能够通过分割模型检测对第一图像进行倾斜校正,通过分类模型准确确定第一图像是否倒置,在第一图像为倒置时将第一图像旋转为正立的图像,从而实现对第一图像的倒置的校正。

Description

图像校正方法、装置、设备及存储介质
技术领域
本发明实施例涉及图像处理技术领域,尤其涉及一种图像校正方法、装置、设备及存储介质。
背景技术
在现今数字信息化高速发展的大时代背景下,随着数码产品的拍照能力越来越出色,更多的将信息存储和传输依赖在数字图像这一媒介。而文本的数字图像化,如数字化图书库、电子书、文本扫描的发展,对文本转换技术提出了更高的要求。由于人为因素和硬件设备的限制,扫描的文本图像不可避免的存在某种程度倾斜,容易造成文字识别错误。
现有技术中,通过采用基于投影的方法、基于Hough变换的方法、基于K-最近邻簇方法等基于传统图像处理方法,对文本图像进行倾斜校正。
然而,现有的图像校正方法只能对文本图像进行倾斜校正,将倾斜的文本校正为非倾斜文本,但无法检测文本图像中的文本是否倒置,无法对文本图像的倒置进行校正,而倒置的文本图像难以进行文本识别。
发明内容
本发明实施例提供一种图像校正方法、装置、设备及存储介质,以解决现有的图像校正方法无法对文本图像的倒置进行校正的问题。
第一方面,本发明实施例提供一种图像校正方法,包括:
获取待校正的第一图像,其中,所述第一图像中包含多个文本区域;
通过分割模型对所述第一图像进行倾斜校正;
从所述第一图像中提取各个文本区域所在的文本区域图像,并通过分类模型识别各个文本区域图像中的文本是否倒置,以得到识别结果;
在文本倒置的文本区域图像的个数大于文本非倒置的文本区域图像的个数时,确定所述第一图像为倒置,并将所述第一图像旋转为正立的图像。
在一种可能的实施方式中,通过分割模型对所述第一图像进行倾斜校正,包括:
通过所述分割模型检测所述第一图像中的各个文本区域,得到掩膜图像;
确定所述掩膜图像上各个文本区域对应的旋转外接矩形的倾斜角度;
对各个旋转外接矩形的倾斜角度进行投票统计,选取票数最多的倾斜角度作为所述第一图像的倾斜角度;
根据所述第一图像的倾斜角度,对所述第一图像进行倾斜校正。
在一种可能的实施方式中,确定所述掩膜图像上各个文本区域对应的旋转外接矩形的倾斜角度,包括:
确定所述掩膜图像上各个文本区域对应的旋转外接矩形的顶点坐标;
针对每个文本区域,根据该文本区域对应的旋转外接矩形的顶点坐标,计算该文本区域对应的旋转外接矩形的倾斜角度。
在一种可能的实施方式中,根据所述第一图像的倾斜角度,对所述第一图像进行倾斜校正,包括:
根据所述第一图像的倾斜角度,确定旋转矩阵;
根据所述旋转矩阵,对所述第一图像进行倾斜校正;
从所述第一图像中提取各个文本区域所在的文本区域图像,包括:
根据所述旋转矩阵和各个文本区域对应的旋转外接矩形的顶点坐标,计算倾斜校正后第一图像中各个文本区域对应的外接矩形的顶点坐标;
针对每个文本图像,根据倾斜校正后第一图像中该文本区域对应的外接矩形的顶点坐标,提取该顶点坐标对应的图像作为该文本区域所在的文本区域图像。
在一种可能的实施方式中,从所述第一图像中提取各个文本区域所在的文本区域图像,包括:
从所述第一图像中确定预设范围参数对应的区域;
从所述预设范围参数对应的区域中提取各个文本区域所在的文本区域图像。
第二方面,本发明实施例提供一种图像校正装置,包括:
获取模块,用于获取待校正的第一图像,其中,所述第一图像中包含多个文本区域;
倾斜校正模块,用于通过分割模型对所述第一图像进行倾斜校正;
识别模块,用于从所述第一图像中提取各个文本区域所在的文本区域图像,并通过分类模型识别各个文本区域图像中的文本是否倒置;
处理模块,用于在文本倒置的文本区域图像的个数大于文本非倒置的文本区域图像的个数时,确定所述第一图像为倒置,并将所述第一图像旋转为正立的图像。
在一种可能的实施方式中,所述倾斜校正模块,具体用于:
从所述第一图像中提取各个文本区域所在的文本区域图像之前,通过所述分割模型检测所述第一图像中的各个文本区域,得到掩膜图像;
确定所述掩膜图像上各个文本区域对应的旋转外接矩形的倾斜角度;
对各个旋转外接矩形的倾斜角度进行投票统计,选取票数最多的倾斜角度作为所述第一图像的倾斜角度;
根据所述第一图像的倾斜角度,对所述第一图像进行倾斜校正。
在一种可能的实施方式中,所述倾斜校正模块,具体用于:
确定所述掩膜图像上各个文本区域对应的旋转外接矩形的顶点坐标;
针对每个文本区域,根据该文本区域对应的旋转外接矩形的顶点坐标,计算该文本区域对应的旋转外接矩形的倾斜角度。
第三方面,本发明实施例提供一种图像校正设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的实施方式所述的图像校正方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的实施方式所述的图像校正方法。
本实施例提供的图像校正方法、装置、设备及存储介质,通过获取待校正的第一图像,其中,第一图像中包含多个文本区域;通过分割模型对第一图像进行倾斜校正;从第一图像中提取各个文本区域所在的文本区域图像,并通过分类模型识别各个文本区域图像中的文本是否倒置;在文本倒置的文本区域图像的个数大于文本非倒置的文本区域图像的个数时,确定所述第一图像为倒置,并将第一图像旋转为正立的图像,能够通过分割模型对第一图像进行倾斜校正,通过分类模型准确确定第一图像是否倒置,在第一图像为倒置时将第一图像旋转为正立的图像,从而实现对第一图像的倒置的校正。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的图像校正方法的流程示意图;
图2为本发明又一实施例提供的图像校正方法的流程示意图;
图3为本发明另一实施例提供的图像校正方法的流程示意图;
图4为本发明实施例提供的掩膜图像的示意图;
图5为本发明实施例提供的选取预设范围参数对应的区域的示意图;
图6为本发明一实施例提供的图像校正装置的结构示意图;
图7为本发明一实施例提供的图像校正设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,通过采用基于投影的方法、基于Hough变换的方法、基于K-最近邻簇方法等传统图像处理方法,对文本图像进行倾斜校正。传统图像处理方法只能对文本图像进行倾斜校正,将倾斜的文本校正为非倾斜文本,但无法检测文本图像中的文本是否倒置,无法对文本图像的倒置进行校正。而倒置的文本图像难以进行文本识别,倒置的文本图像会导致文本识别失败,需要在文本识别失败后将倒置的文本图像进行旋转处理,再重新对旋转处理后的文本图像进行文本识别。这样由于倒置的图像需要进行前后两次的文本识别,识别效率低。
本实施例能够通过分割模型对第一图像进行倾斜校正,通过分类模型准确确定第一图像是否倒置,在第一图像为倒置时将第一图像旋转为正立的图像,从而实现对第一图像的倒置的校正,以便后续对校正后的第一图像进行文字识别。由于在对文本识别前已经将倒置的第一图像校正为正立的图像,可以提高文本识别的成功率,避免在文本识别失败后需要对图像进行旋转再重新识别的情况,提高识别的效率。
图1为本发明一实施例提供的图像校正方法的流程示意图。如图1所示,该方法包括:
S101、获取待校正的第一图像,其中,所述第一图像中包含多个文本区域。
在本实施例中,第一图像为需要进行校正处理的图像,第一图像包括多个文本区域。每个文本区域中包含一个或多个文本。文本可以是汉字、数字、英文等字符,在此不作限定。例如,可以将第一图像中一行文本字符所在的区域作为一个文本区域,或者将位置相邻的多个文本字符所在的区域作为一个文本区域,在此不作限定。
可以获取摄像机、扫描仪等设备采集的图像,或者获取其他电子设备存储的图像,在此不作限定。例如,第一图像可以为拍摄书籍、纸张、票据等得到的图像,第一图像的文本可能是倾斜的,也可能是倒置或正立的。
S102、通过分割模型对所述第一图像进行倾斜校正。
在本实施例中,分割模型可以为基于深度学习的分割模型。例如,分割模型可以为卷积神经网络(Convolutional Neural Networks,CNN)模型、条件随机场(ConditionalRandom Field,CRF)模型、完全卷积网络(Fully Convolutional Networks,FCN)模型等,在此不作限定。可以根据分割分割模型对第一图像进行倾斜校正。
S103、从所述第一图像中提取各个文本区域所在的文本区域图像,并通过分类模型识别各个文本区域图像中的文本是否倒置。
在本实施例中,每个文本区域对应于一个文本区域图像。对于每个文本区域,可以将该文本区域从第一图像中提取出来作为该文本区域所在的文本区域图像。分类模型可以是基于深度学习的分类模型,能够识别区域图像中的文本是否为倒置。例如,分类模型可以为卷积神经网络(Convolutional Neural Networks,CNN)模型、VGG(Visual GeometryGroup)网络模型、GoogLeNet网络模型等,在此不作限定。可以预先利用经过标记的训练图像对分类模型进行训练,从而提高分类模型的识别准确度。可以将各个文本区域图像分别输入到分类模型中,分类模型分别对各个文本区域图像进行识别,确定各个文本区域图像中的文本为倒置还是非倒置。
S104、在文本倒置的文本区域图像的个数大于文本非倒置的文本区域图像的个数时,确定所述第一图像为倒置,将所述第一图像旋转为正立的图像。
在本实施例中,可以统计文本倒置的文本区域图像个数和文本非倒置的文本区域图像个数。在文本倒置的文本区域图像的个数大于文本非倒置的文本区域图像个数时,确定第一图像为倒置。在文本倒置的文本区域图像的个数不大于文本非倒置的文本区域图像个数时,确定第一图像为正立。例如,通过分类模型对第一图像中的20个文本区域进行识别,得到的识别结果中,16个文本区域中的文本为倒置,4个文本区域中的文本为正立,表明第一图像中文本为倒置的区域占多数,因此确定第一图像为倒置。
通过对分类模型得到的识别结果进行分析,利用文本倒置的文本区域图像个数与文本非倒置的文本区域图像个数的对比,确定第一图像是否为倒置,能够提高判断的准确度。在确定第一图像为倒置时,可以对第一图像进行旋转处理,将第一图像旋转180度,得到正立的第一图像,以便后续对正立的第一图像进行文本识别处理。
本发明实施例通过获取待校正的第一图像,其中,第一图像中包含多个文本区域;通过分割模型对第一图像进行倾斜校正;从第一图像中提取各个文本区域所在的文本区域图像,并通过分类模型识别各个文本区域图像中的文本是否倒置;在文本倒置的文本区域图像的个数大于文本非倒置的文本区域图像的个数时,确定所述第一图像为倒置,并将第一图像旋转为正立的图像,能够通过分割模型对第一图像进行倾斜校正,通过分类模型准确确定第一图像是否倒置,在第一图像为倒置时将第一图像旋转为正立的图像,从而实现对第一图像的倒置的校正。
图2为本发明又一实施例提供的图像校正方法的流程示意图。本实施例对第一图像的倾斜进行校正的具体实现过程进行了详细说明。如图2所示,该方法包括:
S201、获取待校正的第一图像,其中,所述第一图像中包含多个文本区域。
在本实施例中,S201与图1实施例中的S101类似,此处不再赘述。
S202、通过分割模型检测所述第一图像中的各个文本区域,得到掩膜图像。
在本实施例中,可以通过分割模型识别第一图像中的各个文本区域,得到掩膜图像。如图4所示,掩膜图像可以为二值化图像,其中,文本区域对应的像素为255(白色),非文本区域对应的像素为0(黑色)。
可选地,S202之前,该方法还可以包括:
建立基于深度学习的分割模型;
根据训练图像和训练图像对应的标签图像,对所述分割模型进行训练。
在本实施例中,可以预先建立基于深度学习的分割模型,然后通过训练图像和训练图像对应的标签图像,对建立的分割模型进行训练。例如,可以获取不同质量、不同倾斜角度和格式不一样的文本图像,作为训练图像。在文本图像中用轮廓标记出文本区域,轮廓内的标签值为1,没有被标记的非文本区域标签值为0,代表背景,从而获得训练图像对应的标签图像。用上述训练图像和对应的标签图像训练建立的分割模型。在训练过程中由于训练图像中的背景面积占比大,所以可以调小背景的阈值,调大文字的阈值,以提高训练的准确度。
可选地,在S202之后,可以对得到的掩膜图像进行去噪处理。例如,可以采用中值滤波处理掩膜图像,从而去除掩膜图像中孤立的小的点,采用形态学腐蚀处理掩膜图像,从而去除毛躁的文字边缘。
S203、确定所述掩膜图像上各个文本区域对应的旋转外接矩形的倾斜角度。
在本实施例中,可以首先确定掩膜图像上各个文本区域的轮廓的旋转外接矩形,然后计算每个旋转外接矩形的倾斜角度。例如,可以调用opencv函数库中的函数findContours在掩膜图像上查找轮廓。在获得的轮廓簇上调用函数cv::minAreaRect(contour)获取轮廓的旋转外接矩形,得到相应的旋转外接矩形集合。然后再分别计算各个旋转外接矩形的倾斜角度。
可选地,S203可以包括:
确定所述掩膜图像上各个文本区域对应的旋转外接矩形的顶点坐标;
针对每个文本区域,根据该文本区域对应的旋转外接矩形的顶点坐标,计算该文本区域对应的旋转外接矩形的倾斜角度。
在本实施例中,可以建立坐标系,在坐标系中确定掩膜图像上各个文本区域对应的旋转外接矩形的顶点坐标。其中,顶点坐标可以是矩形的四个顶点坐标,也可以是其中至少三个顶点的顶点坐标,在此不作限定。针对每个文本区域,可以根据该文本区域对应的旋转外接矩形的顶点坐标,以及在坐标系中预设的参照线,计算该文本区域对应的旋转外接矩形的倾斜角度。其中,在坐标系中预设的参照线可以为坐标系的坐标轴所在直线,或者在第一图像为矩形时第一图像的边缘线,在此不作限定。
S204、对各个旋转外接矩形的倾斜角度进行投票统计,选取票数最多的倾斜角度作为所述第一图像的倾斜角度。
例如,第一图像共识别出20个文本区域,相应有20个旋转外接矩形,其中,倾斜角度为15度的旋转外接矩形是3个,倾斜角度为20度的旋转外接矩形是4个,倾斜角度为18度的旋转外接矩形是13个,则确定第一图像的倾斜角度为18度。
S205、根据所述第一图像的倾斜角度,对所述第一图像进行倾斜校正。
在本实施例中,可以根据得到的第一图像的倾斜角度,将第一图像进行相应的旋转,对第一图像进行倾斜校正。倾斜校正后的图像只能保证第一图像不再倾斜,但无法确定第一图像是倒置的还是正立的。
可选地,S205可以包括:
根据所述第一图像的倾斜角度,确定旋转矩阵;
根据所述旋转矩阵,对所述第一图像进行倾斜校正。
在本实施例中,旋转矩阵可以表示为:
其中,θ为第一图像的倾斜角度。可以利用上述旋转矩阵,对第一图像进行倾斜校正。具体地,可以通过opencv函数库中的函数cv::getRotationMatrix2D得到旋转矩阵,然后根据旋转矩阵调用opencv函数库中的函数cv::warpAffine旋转图像。
S206、从所述第一图像中提取各个文本区域所在的文本区域图像,并通过分类模型识别各个文本区域图像中的文本是否倒置。
在本实施例中,S206与图1实施例中的S103类似,此处不再赘述。
可选地,根据所述旋转矩阵和各个文本区域对应的旋转外接矩形的顶点坐标,计算倾斜校正后第一图像中各个文本区域对应的外接矩形的顶点坐标;
针对每个文本图像,根据倾斜校正后第一图像中该文本区域对应的外接矩形的顶点坐标,提取该顶点坐标对应的图像作为该文本区域所在的文本区域图像。
在本实施例中,由于在对第一图像进行倾斜校正过程中已经得到各个文本区域对应的旋转外接矩形的顶点坐标,在倾斜校正后可以直接利用旋转矩阵对各个文本区域对应的旋转外接矩形进行旋转,将旋转后的外接矩形内的图像提取出来作为各个文本区域所在的区域图像。
S207、在文本倒置的文本区域图像的个数大于文本非倒置的文本区域图像的个数时,确定所述第一图像为倒置,并将所述第一图像旋转为正立的图像。
在本实施例中,S207与图1实施例中的S104类似,此处不再赘述。
本实施例通过首先对第一图像进行倾斜校正,然后再对倾斜校正后的第一图像进行倒置校正,能够提高倒置校正的准确度,并且最终得到的图像为无倾斜的正立图像,便于后续的文本识别。
图3为本发明另一实施例提供的图像校正方法的流程示意图。本实施例中选取第一图像中预设范围参数对应的区域中的文本区域进行识别。如图3所示,该方法包括:
S301、获取待校正的第一图像,其中,所述第一图像中包含多个文本区域。
在本实施例中,S301与图1实施例中的S101类似,此处不再赘述。
S302、通过分割模型对所述第一图像进行倾斜校正。
在本实施例中,S302与图1实施例中的S102类似,此处不再赘述。
S303、从所述第一图像中确定预设范围参数对应的区域。
S304、从所述预设范围参数对应的区域中提取各个文本区域所在的文本区域图像。
在本实施例中,第一图像的边缘可能由于倾斜导致存在干扰信息。例如,第一图像为拍摄桌面上纸张得到的图像,在拍摄纸张时,第一图像的边缘不属于纸张而是桌面上的其他信息。这些干扰信息可能会导致第一图像的校正出现误差。因此,可以通过设置预设范围参数选择位于第一图像中间位置没有干扰信息的文本区域。
预设范围参数的具体取值可以根据实际需求进行调节,在此不作限定。预设范围参数可以是所选取区域的边界信息,如坐标值等。例如,可以在第一图像上构建矩形区域,该矩形区域的起点坐标为(x,y),x为第一图像宽度×0.15,y为第一图像的高度×0.15。中间区域的矩形区域的宽度为图片宽度×0.7,矩形区域的高度为图片高度×0.7。该矩形区域即为预设范围参数对应的区域。如图5所示,线框51为第一图像的边界,线框52为第一图像中待校正的纸张的边界,线框51与线框52之间的区域为背景干扰信息。线框53为预设范围参数对应的区域边界。通过仅选取第一图像中线框53所围区域内的文本区域,可以有效防止背景干扰信息对校正的影响。
S305、从所述第一图像中提取各个文本区域所在的文本区域图像,并通过分类模型识别各个文本区域图像中的文本是否倒置。
在本实施例中,S305与图1实施例中的S103类似,此处不再赘述。
S306、在文本倒置的文本区域图像的个数大于文本非倒置的文本区域图像的个数时,确定所述第一图像为倒置,并将所述第一图像旋转为正立的图像。
在本实施例中,S306与图1实施例中的S104类似,此处不再赘述。
本实施例通过从预设范围参数对应的区域中提取各个文本区域所在的区域图像,能够避免第一图像边界背景信息的干扰,提高校正的准确度。
本发明实施例提出的图像校正方法,是基于深度学习的通用文本倾斜校正方法,可以适用于任意场景的文本图像倾斜校正。通过分割模型识别各个文本区域的倾斜角度,进而确定文本图像的倾斜角度;通过分类模型识别各个文本区域中的文本是否倒置,进而确定文本图像是否倒置,能够实现对文本图像的准确校正。
图6为本发明一实施例提供的图像校正装置的结构示意图。如图6所示,该图像校正装置60包括:获取模块601、倾斜校正模块602、识别模块603、处理模块604。
获取模块601,用于获取待校正的第一图像,其中,所述第一图像中包含多个文本区域。
倾斜校正模块602,用于通过分割模型对所述第一图像进行倾斜校正。
识别模块603,用于从所述第一图像中提取各个文本区域所在的文本区域图像,并通过分类模型识别各个文本区域图像中的文本是否倒置。
处理模块604,用于在文本倒置的文本区域图像的个数大于文本非倒置的文本区域图像的个数时,确定所述第一图像为倒置,并将所述第一图像旋转为正立的图像。
本实施例提供的图像校正方法、装置、设备及存储介质,通过获取待校正的第一图像,其中,第一图像中包含多个文本区域;通过分割模型对第一图像进行倾斜校正;从第一图像中提取各个文本区域所在的文本区域图像,并通过分类模型识别各个文本区域图像中的文本是否倒置;在文本倒置的文本区域图像的个数大于文本非倒置的文本区域图像的个数时,确定所述第一图像为倒置,并将第一图像旋转为正立的图像,能够通过分割模型对第一图像进行倾斜校正,通过分类模型准确确定第一图像是否倒置,在第一图像为倒置时将第一图像旋转为正立的图像,从而实现对第一图像的倒置的校正。
可选地,所述倾斜校正模块602,具体用于:
从所述第一图像中提取各个文本区域所在的文本区域图像之前,通过分割模型检测所述第一图像中的各个文本区域,得到掩膜图像;
确定所述掩膜图像上各个文本区域对应的旋转外接矩形的倾斜角度;
对各个旋转外接矩形的倾斜角度进行投票统计,选取票数最多的倾斜角度作为所述第一图像的倾斜角度;
根据所述第一图像的倾斜角度,对所述第一图像进行倾斜校正。
可选地,所述倾斜校正模块602,具体用于:
确定所述掩膜图像上各个文本区域对应的旋转外接矩形的顶点坐标;
针对每个文本区域,根据该文本区域对应的旋转外接矩形的顶点坐标,计算该文本区域对应的旋转外接矩形的倾斜角度。
可选地,所述倾斜校正模块602,用于:
根据所述第一图像的倾斜角度,确定旋转矩阵;
根据所述旋转矩阵,对所述第一图像进行倾斜校正;
所述识别模块603,用于:
根据所述旋转矩阵和各个文本区域对应的旋转外接矩形的顶点坐标,计算倾斜校正后第一图像中各个文本区域对应的外接矩形的顶点坐标;
针对每个文本图像,根据倾斜校正后第一图像中该文本区域对应的外接矩形的顶点坐标,提取该顶点坐标对应的图像作为该文本区域所在的区域图像。
可选地,所述识别模块603,用于:
从所述第一图像中确定预设范围参数对应的区域;
从所述预设范围参数对应的区域中提取各个文本区域所在的文本区域图像。
本发明实施例提供的图像校正装置,可用于执行上述的方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
图7为本发明一实施例提供的图像校正设备的硬件结构示意图。如图7所示,本实施例提供的图像校正设备70包括:至少一个处理器701和存储器702。该图像校正设备70还包括通信部件703。其中,处理器701、存储器702以及通信部件703通过总线704连接。
在具体实现过程中,至少一个处理器701执行所述存储器702存储的计算机执行指令,使得至少一个处理器701执行如上的图像校正方法。
处理器701的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图7所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上的图像校正方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种图像校正方法,其特征在于,包括:
获取待校正的第一图像,其中,所述第一图像中包含多个文本区域;
通过分割模型对所述第一图像进行倾斜校正;
从所述第一图像中提取各个文本区域所在的文本区域图像,并通过分类模型识别各个文本区域图像中的文本是否倒置;
在文本倒置的文本区域图像的个数大于文本非倒置的文本区域图像的个数时,确定所述第一图像为倒置,并将所述第一图像旋转为正立的图像。
2.根据权利要求1所述的方法,其特征在于,通过分割模型对所述第一图像进行倾斜校正,包括:
通过所述分割模型检测所述第一图像中的各个文本区域,得到掩膜图像;
确定所述掩膜图像上各个文本区域对应的旋转外接矩形的倾斜角度;
对各个旋转外接矩形的倾斜角度进行投票统计,选取票数最多的倾斜角度作为所述第一图像的倾斜角度;
根据所述第一图像的倾斜角度,对所述第一图像进行倾斜校正。
3.根据权利要求2所述的方法,其特征在于,确定所述掩膜图像上各个文本区域对应的旋转外接矩形的倾斜角度,包括:
确定所述掩膜图像上各个文本区域对应的旋转外接矩形的顶点坐标;
针对每个文本区域,根据该文本区域对应的旋转外接矩形的顶点坐标,计算该文本区域对应的旋转外接矩形的倾斜角度。
4.根据权利要求3所述的方法,其特征在于,根据所述第一图像的倾斜角度,对所述第一图像进行倾斜校正,包括:
根据所述第一图像的倾斜角度,确定旋转矩阵;
根据所述旋转矩阵,对所述第一图像进行倾斜校正;
从所述第一图像中提取各个文本区域所在的文本区域图像,包括:
根据所述旋转矩阵和各个文本区域对应的旋转外接矩形的顶点坐标,计算倾斜校正后第一图像中各个文本区域对应的外接矩形的顶点坐标;
针对每个文本图像,根据倾斜校正后第一图像中该文本区域对应的外接矩形的顶点坐标,提取该顶点坐标对应的图像作为该文本区域所在的文本区域图像。
5.根据权利要求1-3任一项所述的方法,其特征在于,从所述第一图像中提取各个文本区域所在的文本区域图像,包括:
从所述第一图像中确定预设范围参数对应的区域;
从所述预设范围参数对应的区域中提取各个文本区域所在的文本区域图像。
6.一种图像校正装置,其特征在于,包括:
获取模块,用于获取待校正的第一图像,其中,所述第一图像中包含多个文本区域;
倾斜校正模块,用于通过分割模型对所述第一图像进行倾斜校正;
识别模块,用于从所述第一图像中提取各个文本区域所在的文本区域图像,并通过分类模型识别各个文本区域图像中的文本是否倒置;
处理模块,用于在文本倒置的文本区域图像的个数大于文本非倒置的文本区域图像的个数时,确定所述第一图像为倒置,并将所述第一图像旋转为正立的图像。
7.根据权利要求6所述的装置,其特征在于,所述倾斜校正模块,具体用于:
从所述第一图像中提取各个文本区域所在的文本区域图像之前,通过所述分割模型检测所述第一图像中的各个文本区域,得到掩膜图像;
确定所述掩膜图像上各个文本区域对应的旋转外接矩形的倾斜角度;
对各个旋转外接矩形的倾斜角度进行投票统计,选取票数最多的倾斜角度作为所述第一图像的倾斜角度;
根据所述第一图像的倾斜角度,对所述第一图像进行倾斜校正。
8.根据权利要求7所述的装置,其特征在于,所述倾斜校正模块,具体用于:
确定所述掩膜图像上各个文本区域对应的旋转外接矩形的顶点坐标;
针对每个文本区域,根据该文本区域对应的旋转外接矩形的顶点坐标,计算该文本区域对应的旋转外接矩形的倾斜角度。
9.一种图像校正设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-5任一项所述的图像校正方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-5任一项所述的图像校正方法。
CN201910894601.4A 2019-09-20 2019-09-20 图像校正方法、装置、设备及存储介质 Pending CN110647882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910894601.4A CN110647882A (zh) 2019-09-20 2019-09-20 图像校正方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910894601.4A CN110647882A (zh) 2019-09-20 2019-09-20 图像校正方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110647882A true CN110647882A (zh) 2020-01-03

Family

ID=69010932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910894601.4A Pending CN110647882A (zh) 2019-09-20 2019-09-20 图像校正方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110647882A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260569A (zh) * 2020-01-10 2020-06-09 百度在线网络技术(北京)有限公司 图像倾斜校正的方法、装置、电子设备和存储介质
CN111553344A (zh) * 2020-04-17 2020-08-18 携程旅游信息技术(上海)有限公司 文本图像的倾斜校正方法、系统、设备和存储介质
CN111768345A (zh) * 2020-05-12 2020-10-13 北京奇艺世纪科技有限公司 身份证背面图像的校正方法、装置、设备及存储介质
CN111768344A (zh) * 2020-05-12 2020-10-13 北京奇艺世纪科技有限公司 身份证正面图像的校正方法、装置、设备及存储介质
CN111768346A (zh) * 2020-05-12 2020-10-13 北京奇艺世纪科技有限公司 身份证背面图像的校正方法、装置、设备及存储介质
CN112801995A (zh) * 2021-02-05 2021-05-14 重庆小爱科技有限公司 一种鞋子定制化制作方法
CN112818983A (zh) * 2021-01-22 2021-05-18 常州友志自动化科技有限公司 一种利用图片相识度判断字符倒置的方法
CN112971265A (zh) * 2021-02-05 2021-06-18 重庆小爱科技有限公司 一种定制化多功能鞋及制作方法
CN112971273A (zh) * 2021-02-05 2021-06-18 重庆小爱科技有限公司 一种鞋子定制化全流程制作方法
WO2022179471A1 (zh) * 2021-02-25 2022-09-01 华为技术有限公司 卡证文本识别方法、装置和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1834992A (zh) * 2005-03-17 2006-09-20 株式会社理光 检测文档图像中的字符的方向
CN101639933A (zh) * 2009-07-16 2010-02-03 上海合合信息科技发展有限公司 图像旋转校正方法及系统、电子设备
US20110052094A1 (en) * 2009-08-28 2011-03-03 Chunyu Gao Skew Correction for Scanned Japanese/English Document Images
CN102419817A (zh) * 2010-09-27 2012-04-18 贵州黔驰电力信息技术有限公司 一种基于智能图像识别的自动文档扫描分析处理系统
CN107609482A (zh) * 2017-08-15 2018-01-19 天津大学 一种基于汉字笔画特征的中文文本图像倒置判别方法
CN108549843A (zh) * 2018-03-22 2018-09-18 南京邮电大学 一种基于图像处理的增值税发票识别方法
CN109145907A (zh) * 2018-09-11 2019-01-04 上海中信信息发展股份有限公司 基于常用字字频统计的文本图像倒置检测方法及装置
CN109919155A (zh) * 2019-03-13 2019-06-21 厦门商集网络科技有限责任公司 一种文本图像的倾斜角矫正方法及终端
CN110188747A (zh) * 2019-04-28 2019-08-30 广州华多网络科技有限公司 一种文本图像的倾斜校正方法、装置以及图像处理设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1834992A (zh) * 2005-03-17 2006-09-20 株式会社理光 检测文档图像中的字符的方向
CN101639933A (zh) * 2009-07-16 2010-02-03 上海合合信息科技发展有限公司 图像旋转校正方法及系统、电子设备
US20110052094A1 (en) * 2009-08-28 2011-03-03 Chunyu Gao Skew Correction for Scanned Japanese/English Document Images
CN102419817A (zh) * 2010-09-27 2012-04-18 贵州黔驰电力信息技术有限公司 一种基于智能图像识别的自动文档扫描分析处理系统
CN107609482A (zh) * 2017-08-15 2018-01-19 天津大学 一种基于汉字笔画特征的中文文本图像倒置判别方法
CN108549843A (zh) * 2018-03-22 2018-09-18 南京邮电大学 一种基于图像处理的增值税发票识别方法
CN109145907A (zh) * 2018-09-11 2019-01-04 上海中信信息发展股份有限公司 基于常用字字频统计的文本图像倒置检测方法及装置
CN109919155A (zh) * 2019-03-13 2019-06-21 厦门商集网络科技有限责任公司 一种文本图像的倾斜角矫正方法及终端
CN110188747A (zh) * 2019-04-28 2019-08-30 广州华多网络科技有限公司 一种文本图像的倾斜校正方法、装置以及图像处理设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PYTHON程序员: "通过OpenCV和Python进行文本倾斜校正", 《微信公众号》 *
杜金辉,等: "一种快速稳定的倾斜文档校正方法", 《电子器件》 *
王景中,等.: "基于汉字笔画特征的文本图像倒置判断算法", 《计算机技术与发展》 *
齐力: "《公共安全大数据技术与应用》", 31 December 2017, 上海科学技术出版社 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260569B (zh) * 2020-01-10 2023-09-01 百度在线网络技术(北京)有限公司 图像倾斜校正的方法、装置、电子设备和存储介质
CN111260569A (zh) * 2020-01-10 2020-06-09 百度在线网络技术(北京)有限公司 图像倾斜校正的方法、装置、电子设备和存储介质
CN111553344A (zh) * 2020-04-17 2020-08-18 携程旅游信息技术(上海)有限公司 文本图像的倾斜校正方法、系统、设备和存储介质
CN111768344B (zh) * 2020-05-12 2023-06-30 北京奇艺世纪科技有限公司 身份证正面图像的校正方法、装置、设备及存储介质
CN111768345A (zh) * 2020-05-12 2020-10-13 北京奇艺世纪科技有限公司 身份证背面图像的校正方法、装置、设备及存储介质
CN111768344A (zh) * 2020-05-12 2020-10-13 北京奇艺世纪科技有限公司 身份证正面图像的校正方法、装置、设备及存储介质
CN111768346A (zh) * 2020-05-12 2020-10-13 北京奇艺世纪科技有限公司 身份证背面图像的校正方法、装置、设备及存储介质
CN111768346B (zh) * 2020-05-12 2023-09-01 北京奇艺世纪科技有限公司 身份证背面图像的校正方法、装置、设备及存储介质
CN112818983A (zh) * 2021-01-22 2021-05-18 常州友志自动化科技有限公司 一种利用图片相识度判断字符倒置的方法
CN112971273A (zh) * 2021-02-05 2021-06-18 重庆小爱科技有限公司 一种鞋子定制化全流程制作方法
CN112971265A (zh) * 2021-02-05 2021-06-18 重庆小爱科技有限公司 一种定制化多功能鞋及制作方法
CN112801995A (zh) * 2021-02-05 2021-05-14 重庆小爱科技有限公司 一种鞋子定制化制作方法
WO2022179471A1 (zh) * 2021-02-25 2022-09-01 华为技术有限公司 卡证文本识别方法、装置和存储介质

Similar Documents

Publication Publication Date Title
CN110647882A (zh) 图像校正方法、装置、设备及存储介质
CN110046529B (zh) 二维码识别方法、装置及设备
US8611662B2 (en) Text detection using multi-layer connected components with histograms
US9076056B2 (en) Text detection in natural images
US20140161365A1 (en) Method of Perspective Correction For Devanagari Text
WO2023284502A1 (zh) 图像处理方法、装置、设备和存储介质
EP2974261A2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
CN107992869B (zh) 用于倾斜文字校正的方法、装置及电子设备
WO2022134771A1 (zh) 表格处理方法、装置、电子设备及存储介质
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
JPWO2017141802A1 (ja) 画像処理装置、文字認識装置、画像処理方法及びプログラム記録媒体
CN112419207A (zh) 一种图像矫正方法及装置、系统
CN112597940B (zh) 证件图像识别方法、装置及存储介质
CN110610163B (zh) 一种自然场景下基于椭圆拟合的表格提取方法及系统
CN112800824A (zh) 扫描文件的处理方法、装置、设备及存储介质
CN113076952A (zh) 一种文本自动识别和增强的方法及装置
WO2019019681A1 (zh) 身份证图像的倾斜值获取方法及装置、终端、存储介质
CN115410191B (zh) 文本图像识别方法、装置、设备和存储介质
US8891822B2 (en) System and method for script and orientation detection of images using artificial neural networks
CN116030472A (zh) 文字坐标确定方法及装置
CN115862044A (zh) 用于从图像中提取目标文档部分的方法、设备和介质
CN111814780B (zh) 一种票据图像处理方法、装置、设备及存储介质
CN113159037A (zh) 图片矫正方法、装置、计算机设备及存储介质
CN113255637A (zh) 图像边界的定位方法、图像处理设备、装置和存储介质
CN111695557A (zh) 一种图像处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200103