CN117252767A - 文本图片矫正方法及装置 - Google Patents
文本图片矫正方法及装置 Download PDFInfo
- Publication number
- CN117252767A CN117252767A CN202210653831.3A CN202210653831A CN117252767A CN 117252767 A CN117252767 A CN 117252767A CN 202210653831 A CN202210653831 A CN 202210653831A CN 117252767 A CN117252767 A CN 117252767A
- Authority
- CN
- China
- Prior art keywords
- text
- contour
- picture
- determining
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012937 correction Methods 0.000 title claims abstract description 44
- 238000001514 detection method Methods 0.000 claims description 72
- 230000011218 segmentation Effects 0.000 claims description 60
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 10
- 238000012015 optical character recognition Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000003702 image correction Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种文本图片矫正方法及装置,其中,文本图片矫正方法包括:从原始文本图片中提取至少一个文本行轮廓,从文本行轮廓中确定主轮廓;在主轮廓为弯曲轮廓的情况下,确定主轮廓的N+1组第一基准点;基于N+1组第一基准点,确定矫正文本图片的N+1组第二基准点;基于N+1组第一基准点和N+1组第二基准点,对主轮廓对应的文本行图片进行矫正,得到矫正文本图片。在主轮廓为弯曲轮廓的情况下,利用主轮廓的N+1组第一基准点和矫正文本图片的N+1组第二基准点,能够对主轮廓对应的文本行图片进行矫正,从而提高弯曲文本识别的准确率。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种文本图片矫正方法及装置。
背景技术
随着图像处理技术的发展,人们经常需要对包含有文本的照片、图片进行文本识别,以满足多样化的使用需求,例如识别并提取照片中的文字等等。
相关技术中,对照片、图片等进行文本识别通常需要先进行文本检测,然后将检测到的文本直接送入文本识别模型进行文本识别。
然而,在实际应用中,很多照片、图片中的文本行都是弯曲的,文本识别模型对弯曲的文本行进行识别时,其识别结果的准确率会大大降低,影响了人们的阅读体验。因此,如何对文本图片中弯曲的文本行进行矫正,是目前迫切需要解决的问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种文本图片矫正方法及装置。
本发明提供一种文本图片矫正方法,包括:
从原始文本图片中提取至少一个文本行轮廓,从所述文本行轮廓中确定主轮廓;
在所述主轮廓为弯曲轮廓的情况下,确定所述主轮廓的N+1组第一基准点;N为正整数;
基于所述N+1组第一基准点,确定矫正文本图片的N+1组第二基准点;每组第一基准点分别对应一组第二基准点;
基于所述N+1组第一基准点和所述N+1组第二基准点,对所述主轮廓对应的文本行图片进行矫正,得到所述矫正文本图片。
可选地,所述确定所述主轮廓的N+1组第一基准点,包括:
将所述主轮廓等分为N个子轮廓单元;
确定所述N个子轮廓单元对应的N+1组第一基准点;
其中,所述N个子轮廓单元包括一个第一子轮廓单元、一个第二子轮廓单元及N-2个第三子轮廓单元;所述第一子轮廓单元及所述第二子轮廓单元位于所述主轮廓的两端;每个第三子轮廓单元对应两个等分界线;相邻的两个第三子轮廓单元共用一组第一基准点;N大于或等于3;
所述N+1组第一基准点包括所述第三子轮廓单元对应的第一基准点、所述第一子轮廓单元对应的第一基准点及所述第二子轮廓单元对应的第一基准点。
可选地,所述确定所述N个子轮廓单元对应的N+1组第一基准点,包括:
确定所述第三子轮廓单元对应的两个等分界线,并确定所述两个等分界线对应的两组第一基准点,其中,每组第一基准点包括一个上界基准点和一个下界基准点;
将所述两个等分界线对应的两组第一基准点确定为所述第三子轮廓单元对应的两组第一基准点;
基于所述第一子轮廓单元的最小外接矩形的顶点,确定所述第一子轮廓单元对应的一组第一基准点;
基于所述第二子轮廓单元的最小外接矩形的顶点,确定所述第二子轮廓单元对应的一组第一基准点。
可选地,所述确定所述两个等分界线对应的两组第一基准点,包括:
针对每个所述等分界线,从所述等分界线的上顶点开始向下查询所述第三子轮廓单元对应的文本行图片中各像素点的像素值,将像素值为预设值的像素点确定为所述第三子轮廓单元对应的上界基准点;及从等分界线的下顶点开始向上查询所述第三子轮廓单元对应的文本行图片中各像素点的像素值,将像素值为预设值的像素点确定为所述第三子轮廓单元对应的下界基准点。
可选地,所述基于所述N+1组第一基准点,确定矫正文本图片的N+1组第二基准点,包括:
基于每组第一基准点的上界基准点和下界基准点的坐标的差值,确定矫正文本图片的宽度;
基于所述N+1组第一基准点中相邻组基准点的距离,确定所述矫正文本图片的长度;
基于所述宽度和所述长度,将所述矫正文本图片等分为N个图片区域,基于每个图片区域的顶点,确定所述矫正文本图片的N+1组第二基准点。
可选地,所述基于所述N+1组第一基准点和所述N+1组第二基准点,对所述主轮廓对应的文本行图片进行矫正,得到所述矫正文本图片,包括:
基于所述N+1组第一基准点的坐标,确定第一矩阵;所述第一矩阵包括:所述N+1组第一基准点的坐标及所述主轮廓对应的文本行图片中像素点的坐标;
基于所述N+1组第二基准点的坐标,确定第二矩阵;所述第二矩阵包括:所述N+1组第二基准点的坐标及所述矫正文本图片对应的像素点的坐标;
将所述主轮廓对应的文本行图片中的像素点的坐标,对应插值到所述矫正文本图片对应的像素点的坐标,得到所述矫正文本图片。
可选地,所述从原始文本图片中提取至少一个文本行轮廓,从所述文本行轮廓中确定主轮廓,包括:
检测所述原始文本图片中的至少一个文本分割二值图,并提取各所述文本分割二值图对应的文本行轮廓;
计算各所述文本行轮廓的面积,确定面积最大的文本行轮廓为所述主轮廓。
可选地,所述检测所述原始文本图片中的至少一个文本分割二值图,并提取各所述文本分割二值图对应的文本行轮廓,包括:
对所述原始文本图片进行文本检测处理,得到文本分割二值图和文本检测框;
对每个文本检测框内的文本分割二值图进行轮廓查询,得到各所述文本分割二值图对应的文本行轮廓。
可选地,在从所述文本行轮廓中确定主轮廓之后,所述方法还包括:
确定所述主轮廓的轮廓面积、及所述主轮廓对应的文本检测框面积;
确定所述主轮廓的轮廓面积与所述文本检测框面积的比值;
在所述比值小于预设阈值的情况下,确定所述主轮廓为弯曲轮廓。
本发明还提供一种文本图片矫正装置,包括:
提取模块,用于从原始文本图片中提取至少一个文本行轮廓,从所述文本行轮廓中确定主轮廓;
第一基准点确定模块,用于在所述主轮廓为弯曲轮廓的情况下,确定所述主轮廓的N+1组第一基准点;N为正整数;
第二基准点确定模块,用于基于所述N+1组第一基准点,确定矫正文本图片的N+1组第二基准点;每组第一基准点分别对应一组第二基准点;
矫正模块,用于基于所述N+1组第一基准点和所述N+1组第二基准点,对所述主轮廓对应的文本行图片进行矫正,得到所述矫正文本图片。
可选地,第一基准点确定模块,进一步用于:
将主轮廓等分为N个子轮廓单元;
确定N个子轮廓单元对应的N+1组第一基准点;
其中,N个子轮廓单元包括一个第一子轮廓单元、一个第二子轮廓单元及N-2个第三子轮廓单元;第一子轮廓单元及第二子轮廓单元位于主轮廓的两端;每个第三子轮廓单元对应两个等分界线;相邻的两个第三子轮廓单元共用一组第一基准点;N大于或等于3;
N+1组第一基准点包括第三子轮廓单元对应的第一基准点、第一子轮廓单元对应的第一基准点及第二子轮廓单元对应的第一基准点。
可选地,第一基准点确定模块,进一步用于:
确定第三子轮廓单元对应的两个等分界线,并确定两个等分界线对应的两组第一基准点,其中,每组第一基准点包括一个上界基准点和一个下界基准点;
将两个等分界线对应的两组第一基准点确定为第三子轮廓单元对应的两组第一基准点;
基于第一子轮廓单元的最小外接矩形的顶点,确定第一子轮廓单元对应的一组第一基准点;
基于第二子轮廓单元的最小外接矩形的顶点,确定第二子轮廓单元对应的一组第一基准点。
可选地,第一基准点确定模块,进一步用于:
针对每个等分界线,从等分界线的上顶点开始向下查询第三子轮廓单元对应的文本行图片中各像素点的像素值,将像素值为预设值的像素点确定为第三子轮廓单元对应的上界基准点;及从等分界线的下顶点开始向上查询第三子轮廓单元对应的文本行图片中各像素点的像素值,将像素值为预设值的像素点确定为第三子轮廓单元对应的下界基准点。
可选地,第二基准点确定模块,进一步用于:
基于每组第一基准点的上界基准点和下界基准点的坐标的差值,确定矫正文本图片的宽度;
基于N+1组第一基准点中相邻组基准点的距离,确定矫正文本图片的长度;
基于宽度和长度,将矫正文本图片等分为N个图片区域,基于每个图片区域的顶点,确定矫正文本图片的N+1组第二基准点。
可选地,矫正模块,进一步用于:
基于N+1组第一基准点的坐标,确定第一矩阵;第一矩阵包括:N+1组第一基准点的坐标及主轮廓对应的文本行图片中像素点的坐标;
基于N+1组第二基准点的坐标,确定第二矩阵;第二矩阵包括:N+1组第二基准点的坐标及矫正文本图片对应的像素点的坐标;
将主轮廓对应的文本行图片中的像素点的坐标,对应插值到矫正文本图片对应的像素点的坐标,得到矫正文本图片。
可选地,提取模块,进一步用于:
检测原始文本图片中的至少一个文本分割二值图,并提取各文本分割二值图对应的文本行轮廓;
计算各文本行轮廓的面积,确定面积最大的文本行轮廓为主轮廓。
可选地,提取模块,进一步用于:
对原始文本图片进行文本检测处理,得到文本分割二值图和文本检测框;
对每个文本检测框内的文本分割二值图进行轮廓查询,得到各文本分割二值图对应的文本行轮廓。
可选地,所述装置还包括:
第一确定模块,用于确定主轮廓的轮廓面积、及主轮廓对应的文本检测框面积;
第二确定模块,用于确定主轮廓的轮廓面积与文本检测框面积的比值;
第三确定模块,用于在比值小于预设阈值的情况下,确定主轮廓为弯曲轮廓。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本图片矫正方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本图片矫正方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本图片矫正方法。
本发明提供的文本图片矫正方法及装置,通过从原始文本图片中提取至少一个文本行轮廓,并从文本行轮廓中确定出主轮廓;在主轮廓为弯曲轮廓的情况下,确定主轮廓的N+1组第一基准点,从而能够准确的确定出主轮廓对应的文本行图片在原始文本图片中的位置;然后基于N+1组第一基准点,确定矫正文本图片的N+1组第二基准点;基于N+1组第一基准点和N+1组第二基准点,能够将主轮廓对应的文本行图片进行矫正,从而得到矫正文本图片,通过对矫正文本图片进行文本识别,进而能够提高弯曲文本识别的准确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文本图片矫正方法的流程示意图;
图2是本发明提供的N+1组第一基准点示意图;
图3是本发明提供的文本行轮廓示意图;
图4是本发明提供的文本检测框坐标系示意图;
图5是本发明提供的文本图片矫正方法的矫正过程示意图;
图6是本发明提供的原始文本图片示意图;
图7是本发明提供的N+1组第二基准点示意图;
图8是本发明提供的文本图片矫正装置的结构示意图;
图9是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着图像处理技术的发展,人们经常需要对包含有文本的照片、图片进行文本识别,以满足多样化的使用需求,例如识别并提取照片中的文字等等。
目前,一般采用光学字符识别(Optical Character Recognition,OCR)技术对照片、图片等文本图片进行识别,一般的OCR识别流程都是先对文本图片进行文本检测,然后将文本检测后的检测框映射回原图裁剪文本行后便直接送入文本识别模型。
然而,在实际应用中,很多照片、图片中的文本行都是弯曲的,文本识别模型对弯曲的文本行进行识别时,其识别结果的准确率会大大降低,影响了人们的阅读体验。
基于上述存在的问题,本发明实施例提供一种文本图片矫正方法及装置,从而实现对文本图片中的弯曲文本行进行矫正,进而能够在对文本图片进行文本识别时,提高针对弯曲文本识别的准确率。
下面结合图1-图7描述本发明的文本图片矫正方法。
参见图1,图1是本发明提供的文本图片矫正方法的流程示意图,具体包括步骤101-步骤104:
步骤101、从原始文本图片中提取至少一个文本行轮廓,从文本行轮廓中确定主轮廓。
需要说明的是,本发明的执行主体可以是具有文本图片矫正功能的任何电子设备,例如可以为智能手机、智能手表、台式电脑、手提电脑等任何一种。
具体地,在本实施例中,首先需要获取原始文本图片,实际应用中,原始文本图片的格式有多种,例如可以是jpg格式、png格式、tif格式,也可以是pdf格式等,本发明对原始文本图片的格式不做限定。
在获取到原始文本图片后,需要从原始文本图片中提取至少一个文本行轮廓,其中,文本行轮廓中包含有原始文本图片中的文本行。
从原始文本图片中提取文本行轮廓的方式有多种,例如可以直接对原始文本图片进行文本行轮廓的提取;也可以是将原始文本图片转化为二值图,然后基于二值图提取文本行轮廓。
在提取出至少一个文本行轮廓后,需要从文本行轮廓中确定主轮廓,需要说明的是,主轮廓为各文本行轮廓中需要进行矫正的文本行图片所对应的轮廓。
步骤102、在主轮廓为弯曲轮廓的情况下,确定主轮廓的N+1组第一基准点;N为正整数。
具体地,在本实施例中,在从文本行轮廓中确定主轮廓,并确定该主轮廓为弯曲轮廓的情况下,需要确定出主轮廓的N+1组第一基准点,其中,第一基准点用于确定主轮廓对应的文本行图片在原始文本图片中的位置。如图2所示,图2是本发明提供的N+1组第一基准点示意图。在图2中,原始文本图片中有三个文本行,分别为“X”、“Y”以及“Z”。将原始文本图片中的文本行“Y”所对应的文本行轮廓确定为主轮廓,则在该主轮廓中确定主轮廓的N+1组第一基准点。主轮廓的N+1组第一基准点包括基准点1-基准点22,示例的,基准点1和基准点2为一组第一基准点。
在实际应用中,可以将N设置为10,也即,在主轮廓为弯曲轮廓的情况下,确定主轮廓的11组第一基准点。需要说明的是,将N设置为10,其原因是经过数据集评估,在将N设置为10的情况下,基于11组第一基准点对主轮廓对应的文本行图片进行矫正后,对矫正文本图片进行文本识别的准确率最高。
步骤103、基于N+1组第一基准点,确定矫正文本图片的N+1组第二基准点;每组第一基准点分别对应一组第二基准点。
具体地,在本实施例中,在确定出主轮廓的N+1组第一基准点之后,便需要基于N+1组第一基准点,确定矫正文本图片的N+1组第二基准点,每组第一基准点分别对应一组第二基准点。其中,第二基准点用于确定矫正文本图片中文本行的位置,矫正文本图片为矩形。
也就是说,每组第二基准点是基于每组第一基准点确定的,因此,每组第一基准点分别对应一组第二基准点。
步骤104、基于N+1组第一基准点和N+1组第二基准点,对主轮廓对应的文本行图片进行矫正,得到矫正文本图片。
具体地,在本实施例中,在确定出主轮廓的N+1组第一基准点以及矫正文本图片的N+1组第二基准点之后,便基于N+1组第一基准点和N+1组第二基准点,对主轮廓对应的文本行图片进行矫正,得到矫正文本图片,其中,文本行图片可以是原始文本图片的全部或部分,矫正文本图片中的文本行为非弯曲文本行。
本发明提供的文本图片矫正方法,通过从原始文本图片中提取至少一个文本行轮廓,并从文本行轮廓中确定出主轮廓;在主轮廓为弯曲轮廓的情况下,确定主轮廓的N+1组第一基准点,从而能够准确的确定出主轮廓对应的文本行图片在原始文本图片中的位置;然后基于N+1组第一基准点,确定矫正文本图片的N+1组第二基准点;基于N+1组第一基准点和N+1组第二基准点,能够将主轮廓对应的文本行图片进行矫正,从而得到矫正文本图片,通过对矫正文本图片进行文本识别,进而能够提高弯曲文本识别的准确率。
下面对本发明提供的文本图片矫正方法的具体实现方式进行详细说明。
可选地,在本发明实施例一种可能的实现方式中,从原始文本图片中提取至少一个文本行轮廓,从文本行轮廓中确定主轮廓,具体可以通过以下步骤实现,具体包括步骤1)-步骤2):
步骤1)、检测原始文本图片中的至少一个文本分割二值图,并提取各文本分割二值图对应的文本行轮廓;
步骤2)、计算各文本行轮廓的面积,确定面积最大的文本行轮廓为主轮廓。
具体地,在本实施例中,首先需要检测原始文本图片中的至少一个文本分割二值图,并提取各文本分割二值图对应的文本行轮廓。
也就是说,首先需要将原始文本图片转化为二值图,其中,二值图是指每一个像素只有两种可能的取值或灰度等级状态的图片。
在实际应用中,将原始文本图片转化为二值图的方式有多种,例如可以设置一个像素阈值,将原始图片中超出像素阈值的像素点设置为黑色,未超出像素阈值的像素点设置为白色,从而可以将原始文本图片转化为二值图。还可以将原始文本图片输入训练好的神经网络模型中,进而可以将原始文本图片转化为二值图。
在将原始文本图片转化为二值图后,将二值图进行分割得到至少一个分割二值图作为文本分割二值图。然后检测至少一个文本分割二值图,并提取各文本分割二值图对应的文本行轮廓。
在提取出各文本分割二值图对应的文本行轮廓后,计算各文本行轮廓的面积,根据先验知识,将面积最大的文本行轮廓确定为主轮廓,需要说明的是,根据先验知识,将面积最大的文本行轮廓确定为主轮廓,是因为在通常情况下,原始文本图片中面积最大的文本行轮廓所对应的文本行图片是期望进行文本矫正的文本行图片,因此,将面积最大的文本行轮廓确定为主轮廓,并对主轮廓对应的文本行图片进行矫正,可以避免对无需矫正的文本行图片进行矫正,进而能够提高文本矫正的效率。
在上述实施方式中,通过检测原始文本图片中的至少一个文本分割二值图,并提取各文本分割二值图对应的文本行轮廓;然后计算各文本行轮廓的面积,从而可以确定出各文本行轮廓中需要进行矫正的文本行图片所对应的轮廓,即主轮廓;对主轮廓对应的文本行图片进行矫正,可以避免对无需矫正的文本行图片进行矫正,进而能够提高文本矫正的效率。
可选地,在本说明书实施例一种可能的实现方式中,检测原始文本图片中的至少一个文本分割二值图,并提取各文本分割二值图对应的文本行轮廓,具体可以通过以下步骤实现,具体包括步骤1.1)-步骤1.2):
步骤1.1)、将原始文本图片进行文本检测处理,得到文本分割二值图和文本检测框;
步骤1.2)、对每个文本检测框内的文本分割二值图进行轮廓查询,得到各文本分割二值图对应的文本行轮廓。
在本实施例中,可以将原始文本图片输入训练好的文本检测模型,其中,文本检测模型用于对原始图片中的文本行进行检测,具体地,文本检测模型的种类有多种,例如可以是像素链接(Pixel Link)模型、可微二值化(Differentiable Binarization,DB)模型等,本发明对文本检测模型的种类不做具体限定。
将原始文本图片输入文本检测模型之后,得到文本分割二值图和文本检测框,其中,文本分割二值图是利用文本检测框对文本检测模型输出的二值图进行分割得到的。
在得到文本分割二值图和文本检测框之后,需要对每个文本检测框内的文本分割位置图进行轮廓查询,得到各文本分割二值图对应的文本行轮廓。
也就是说,在利用文本检测框对文本检测模型输出的二值图进行分割,得到至少一个文本分割二值图以后,需要对各文本分割二值图进行轮廓查询,进而得到各文本分割二值图对应的文本行轮廓。
其中,对各文本分割二值图进行轮廓查询是指在包含文本行和背景的文本分割二值图中,忽略背景和文本行内部的纹理以及噪声干扰的影响,采用一定的技术和方法来实现文本轮廓提取的过程。
在实际应用中,对各文本分割二值图进行轮廓查询可以通过以下方式实现:对各文本分割二值图的像素点进行分类,判断像素点是否属于文本行,得到文本分割二值图中文本行区域的概率图,然后对概率图进行后处理进而得到文本行区域的包围曲线,也即各文本分割二值图对应的文本行轮廓。
文本行轮廓具体可以参见图3所示,图3是本发明提供的文本行轮廓示意图。在图3中,白色区域为文本行轮廓,黑色区域为文本分割二值图的背景,文本行轮廓对应的外接矩形为文本检测框。
在上述实施方式中,通过将原始文本图片进行文本检测处理,得到文本分割二值图和文本检测框;然后对每个文本检测框内的文本分割二值图进行轮廓查询,可以准确的得到各文本分割二值图对应的文本行轮廓,进而能够从各文本行轮廓中准确的确定出主轮廓,以实现对主轮廓对应的文本行图片进行矫正。
可选地,在本发明实施例一种可能的实现方式中,在从文本行轮廓中确定主轮廓之后,还需要确定该主轮廓是否为弯曲轮廓。在主轮廓是弯曲轮廓的情况下,便对主轮廓对应的文本行图片进行矫正。
具体地,确定该主轮廓是否为弯曲轮廓,可以通过以下步骤实现,具体包括步骤(1)-步骤(3):
步骤(1)、确定主轮廓的轮廓面积、及主轮廓对应的文本检测框面积;
步骤(2)、确定主轮廓的轮廓面积与文本检测框面积的比值;
步骤(3)、在比值小于预设阈值的情况下,确定主轮廓为弯曲轮廓。
具体地,在本实施例中,在确定主轮廓是否为弯曲轮廓时,需要确定主轮廓的轮廓面积以及主轮廓对应的文本检测框面积;之后计算主轮廓的轮廓面积与文本检测框面积的比值,在比值小于预设阈值的情况下,确定主轮廓为弯曲轮廓。
可以理解的是,在通常情况下文本检测框为规则的矩形,若主轮廓为非弯曲轮廓,则主轮廓与文本检测框的面积之比趋近于1,反之,若主轮廓为弯曲轮廓,则主轮廓与文本检测框的面积之比越小于1。
因此,需要设置一个预设阈值,例如,预设阈值为0.7,则计算主轮廓的轮廓面积与文本检测框面积的比值,在比值大于0.7的情况下,确定主轮廓为非弯曲轮廓;在比值小于0.7的情况下,确定主轮廓为弯曲轮廓。
在上述实施方式中,在从文本行轮廓中确定主轮廓之后,通过确定主轮廓的轮廓面积与文本检测框面积的比值,从而能够确定出主轮廓是否为弯曲轮廓,在主轮廓是弯曲轮廓的情况下,便对主轮廓对应的文本行图片进行矫正,通过上述方法,能够判断出主轮廓是否为弯曲轮廓,从而能够避免对非弯曲轮廓对应的文本行图片进行矫正,进而能够提高文本矫正的效率。
可选地,在本发明实施例一种可能的实现方式中,确定主轮廓的N+1组第一基准点,具体可以通过以下步骤实现,具体包括步骤(a)-步骤(b):
步骤(a)、将主轮廓等分为N个子轮廓单元;
步骤(b)、确定N个子轮廓单元对应的N+1组第一基准点;
其中,N个子轮廓单元包括一个第一子轮廓单元、一个第二子轮廓单元及N-2个第三子轮廓单元;第一子轮廓单元及第二子轮廓单元位于主轮廓的两端;每个第三子轮廓单元对应两个等分界线;相邻的两个第三子轮廓单元共用一组第一基准点;N大于或等于3;
N+1组第一基准点包括第三子轮廓单元对应的第一基准点、第一子轮廓单元对应的第一基准点及第二子轮廓单元对应的第一基准点。
具体地,在本实施例中,以N等于10为例,在主轮廓为弯曲轮廓的情况下,首先需要将主轮廓等分为10个轮廓单元,在实际应用中,可以将主轮廓横向进行等分,也可以以任一方向进行等分。
在本实施例中以将主轮廓横向进行等分为例,将主轮廓横向等分为10个轮廓单元,其中,10个轮廓单元包括位于主轮廓两端的1个第一子轮廓单元和1个第二子轮廓单元、以及8个除第一子轮廓单元及第二子轮廓单元之外的第三子轮廓单元。每个第三子轮廓单元对应两个等分界线;相邻的两个第三子轮廓单元共用一组第一基准点;N大于或等于3;
需要说明的是,由于是将主轮廓横向等分为N个轮廓单元,因此,可以以主轮廓对应的文本检测框为基础,建立文本检测框坐标系,并以该文本检测框坐标系为基础,将主轮廓横向等分为N个轮廓单元。
具体参见图4所示,图4是本发明提供的文本检测框坐标系示意图,在图4中,将文本检测框的边r作为文本检测框坐标系的X轴,以文本检测框的高h作为文本检测框坐标系的Y轴。以该文本检测框坐标系的X轴为基础,将主轮廓横向等分为N个轮廓单元。
进一步地,在将主轮廓横向等分为N个轮廓单元之后,便确定N个子轮廓单元对应的N+1组第一基准点。在上述实施方式中,通过将主轮廓等分为N个子轮廓单元,确定出N个子轮廓单元对应的N+1组第一基准点,从而能够基于N+1组第一基准点准确的确定出主轮廓对应的文本行图片在原始文本图片中的位置,基于该第一基准点对主轮廓对应的文本行图片进行矫正,从而能够提高弯曲文本识别的准确率。
可选地,确定N个子轮廓单元对应的N+1组第一基准点,具体可以通过以下步骤实现,具体包括步骤(b1)-步骤(b4):
步骤(b1)、确定第三子轮廓单元对应的两个等分界线,并确定两个等分界线对应的两组第一基准点,其中,每组第一基准点包括一个上界基准点和一个下界基准点;
步骤(b2)、将两个等分界线对应的两组第一基准点确定为第三子轮廓单元对应的两组第一基准点;
步骤(b3)、基于第一子轮廓单元的最小外接矩形的顶点,确定第一子轮廓单元对应的一组第一基准点;
步骤(b4)、基于第二子轮廓单元的最小外接矩形的顶点,确定第二子轮廓单元对应的一组第一基准点。
具体地,在本实施例中,由于主轮廓的轮廓单元是基于文本检测框坐标系的X轴确定的,因此,每个第三子轮廓单元都对应有垂直方向的两个等分界线,且根据X轴可以得知该等分线的X轴坐标。
进一步地,基于第三子轮廓单元对应的两个等分界线,便能够确定出第三子轮廓单元中两个等分界线对应的两组第一基准点,其中,每组第一基准点包括一个上界基准点和一个下界基准点。然后将两个等分界线对应的两组第一基准点确定为第三子轮廓单元对应的两组第一基准点。
可选地,确定两个等分界线对应的两组第一基准点,具体可以通过以下步骤(b1.1)实现:
步骤(b1.1)、针对每个等分界线,从等分界线的上顶点开始向下查询第三子轮廓单元对应的文本行图片中各像素点的像素值,将像素值为预设值的像素点确定为第三子轮廓单元对应的上界基准点;及从等分界线的下顶点开始向上查询第三子轮廓单元对应的文本行图片中各像素点的像素值,将像素值为预设值的像素点确定为第三子轮廓单元对应的下界基准点。
具体地,在本实施例中,由于基于文本检测框坐标系的X轴可知每个第三子轮廓单元对应垂直方向的等分界线的X轴坐标,且文本检测框中的文本行图片是以分割二值图的形式存在的,因此,第三子轮廓单元中两个等分界线对应的两组第一基准点可以通过以下方式确定:
针对每个等分界线,以每个等分界线的上顶点为起点(即以坐标为(x,y=0)为起点),沿着文本检测框坐标系的Y轴开始向下查询第三子轮廓单元对应的文本行图片中各像素点的像素值,将像素值为预设值的像素点(例如预设值为255的白色像素点)确定为第三子轮廓单元对应的上界基准点;
同理,第三子轮廓单元对应的下界基准点可以通过以下方式确定:
针对每个等分界线,以每个等分界线的下顶点为起点(即以坐标为(x,y=h)为起点),沿着文本检测框坐标系的Y轴开始向上查询第三子轮廓单元对应的文本行图片中各像素点的像素值,将像素值为预设值的像素点(例如预设值为255的白色像素点)确定为第三子轮廓单元对应的下界基准点。
在上述实施方式中,通过从等分界线的上顶点和下顶点分别查询各像素点的像素值,从而可以准确的确定出第三子轮廓单元对应的上界基准点以及下界基准点,且上界基准点和下界基准点共同构成一组第一基准点,基于该第一基准点,能够准确的确定出第三子轮廓单元对应的文本行图片在原始文本图片中的位置。
在本实施例中,在确定第三子轮廓单元对应的第一基准点的同时,还需要基于第一子轮廓单元的最小外接矩形的顶点,确定第一子轮廓单元对应的一组第一基准点;并基于第二子轮廓单元的最小外接矩形的顶点,确定第二子轮廓单元对应的一组第一基准点。
可以理解的是,基于第一子轮廓单元的最小外接矩形的顶点以及第二子轮廓单元的最小外接矩形的顶点,确定一组第一子轮廓单元对应的一组基准点以及一组第二子轮廓单元对应的一组基准点,是因为第一子轮廓单元和第二子轮廓单元分别位于主轮廓的两端,其轮廓形状通常不规则,因此不能直接通过等分界线确定基准点。
因此,可以根据文本检测框坐标系,分别将第一子轮廓单元的最小外接矩形的顶点坐标以及第二子轮廓单元的最小外接矩形的顶点坐标,确定为第一子轮廓单元对应的一组基准点以及第二子轮廓单元对应的一组基准点,从而能够提高第一基准点定位的准确性。
在上述实施方式中,充分考虑了主轮廓两端形状不规则的特点,利用第三子轮廓单元对应的等分界线确定第三子轮廓单元对应的第一基准点,以及利用最小外接矩形的顶点确定第一子轮廓单元和第二子轮廓单元的第一基准点,从而能够基于N+1组第一基准点准确的确定出主轮廓对应的文本行图片在原始文本图片中的位置;在主轮廓为弯曲轮廓的情况下,基于主轮廓的N+1组第一基准点,从而能够精确的确定出矫正文本图片的N+1组第二基准点,进而能够对主轮廓对应的文本行图片进行矫正,进而提高弯曲文本识别的准确率。
可选地,在本发明实施例一种可能的实现方式中,基于N+1组第一基准点,确定矫正文本图片的N+1组第二基准点,具体可以通过以下步骤实现,具体包括步骤[a]-步骤[c]:
步骤[a]、基于每组第一基准点的上界基准点和下界基准点的坐标的差值,确定矫正文本图片的宽度;
步骤[b]、基于N+1组第一基准点中相邻组基准点的距离,确定矫正文本图片的长度;
步骤[c]、基于宽度和长度,将矫正文本图片等分为N个图片区域,基于每个图片区域的顶点,确定矫正文本图片的N+1组第二基准点。
具体地,在本实施例中,由于在确定N+1组第一基准点时,根据文本检测框坐标系中的X轴以及Y轴,可以确定出每组第一基准点的具体坐标。
因此,在基于N+1组第一基准点,确定矫正文本图片的N+1组第二基准点时,需要基于每组第一基准点的上界基准点和下界基准点的坐标的差值,确定矫正文本图片的宽度。
在实际应用中,例如可以基于每组第一基准点的上界基准点和下界基准点的Y轴坐标的差值,计算出N+1组第一基准点对应的平均差值,将该平均差值作为矫正文本图片的宽度。
然后根据文本检测框坐标系中N+1组第一基准点的X轴坐标,将相邻第一组基准点的距离累加,从而计算出矫正文本图片的长度。
在确定出矫正文本图片的宽度和长度之后,将矫正文本图片等分为N个图片区域,基于每个图片区域的顶点,确定矫正文本图片的N+1组第二基准点。需要说明的是,在对矫正文本图片进行等分时,可以将矫正文本图片横向进行等分,也可以以任一方向进行等分,但是,对矫正文本图片进行等分的方向需要与主轮廓进行等分的方向保持一致。
在上述实施方式中,通过第一基准点可以确定出矫正文本图片的宽度和长度,然后将矫正文本图片横向N等分,从而可以确定出矫正文本图片的N+1组第二基准点,基于N+1组第一基准点以及N+1组第二基准点,进而能够对主轮廓对应的文本行图片进行矫正,从而提高弯曲文本识别的准确率。
可选地,在本发明实施例一种可能的实现方式中,基于N+1组第一基准点和N+1组第二基准点,对主轮廓对应的文本行图片进行矫正,得到矫正文本图片,具体可以通过以下步骤实现,具体包括步骤[1]-步骤[3]:
步骤[1]、基于N+1组第一基准点的坐标,确定第一矩阵;第一矩阵包括:N+1组第一基准点的坐标及主轮廓对应的文本行图片中像素点的坐标;
步骤[2]、基于N+1组第二基准点的坐标,确定第二矩阵;第二矩阵包括:N+1组第二基准点的坐标及矫正文本图片对应的像素点的坐标;
步骤[3]、将主轮廓对应的文本行图片中的像素点的坐标,对应插值到矫正文本图片对应的像素点的坐标,得到矫正文本图片。
具体地,在本实施例中,可以基于N+1组第一基准点的坐标以及N+1组第二基准点的坐标,采用移动最小二乘法对主轮廓对应的文本行图片进行矫正,得到矫正文本图片。
具体地,移动最小二乘法的图像变形算法(Image Deformation Using MovingLeast Square)是指通过控制一些基准点来修改这些点的位置,并根据变形函数来改变周围像素点位置而使得图像产生变形效果的一种算法。
例如,在实际应用中,假设主轮廓对应的文本行图片像素为h*w,先选择该图像上面的N+1组第一基准点,进而构建出第一矩阵,其中,第一矩阵包括:N+1组第一基准点的坐标以及主轮廓对应的文本行图片中像素点的坐标。
根据该第一矩阵可以预先计算出一系列的中间变量,然后根据N+1组第二基准点坐标计算得到第二矩阵,其中,第二矩阵包括N+1组第二基准点的坐标以及矫正文本图片中像素点的坐标,第二矩阵中的每个元素分别对应第一矩阵中的一个元素。
最后将主轮廓对应的文本行图片中的像素点,一一对应地插值到矫正文本图片中像素点的坐标,进而完成图像变形,得到矫正文本图片。
一般地,在实际应用中,可以基于N+1组第一基准点和N+1组第二基准点,采用移动最小二乘法中的仿射变换、相似变换或者刚性变换,对主轮廓对应的文本行图片进行矫正,得到矫正文本图片。
在上述实施方式中,基于N+1组第一基准点和N+1组第二基准点,采用移动最小二乘法对主轮廓对应的文本行图片进行矫正,能够准确地对主轮廓对应的文本行图片进行矫正,进而得到文本行为非弯曲的矫正文本图片,对该矫正文本图片进行文本识别,从而能够提高弯曲文本识别的准确率。
可选地,在本发明实施例一种可能的实现方式中,基于N+1组第一基准点和N+1组第二基准点,对主轮廓对应的文本行图片进行矫正,得到矫正文本图片之后,采用OCR技术,对矫正文本图片进行文本识别,得到文本识别结果。
具体地,在本实施例中,在得到矫正文本图片之后,还需要采用OCR技术对矫正文本图片进行文本识别。
例如,针对矫正文本图片,运用OCR技术,识别出文字区域,然后对文字区域进行矩形分割,拆分成不同的字符,然后对字符进行分类进而识别出文本识别结果。
通过上述实施方式,基于矫正文本图片,利用OCR技术进行文本识别,能够有效地提高文本识别的准确率。
下述结合图5,以本发明提供的文本图片矫正方法在针对原始文本图片文本图片矫正的应用为例,对文本图片矫正方法进行进一步说明。图5是本发明提供的文本图片矫正方法的矫正过程示意图。
本发明提供的文本图片矫正方法的矫正过程,包括:
步骤一、获取原始文本图片。
具体地,在本实施例中,原始文本图片如图6所示,图6是本发明提供的原始文本图片示意图。在图6中,原始文本图片中有三个文本行,分别为“X”、“Y”以及“Z”。
步骤二、将原始文本图片输入文本检测模型,获得文本分割二值图和文本检测框。
步骤三、对每个文本检测框内的文本分割二值图进行轮廓查询,得到各文本分割二值图对应的文本行轮廓,并从文本行轮廓中提取主轮廓。
具体地,在本实施例中,主轮廓如图3所示。
步骤四、判断主轮廓是否为弯曲轮廓,在主轮廓是弯曲轮廓的情况下,执行步骤五;在主轮廓是非弯曲轮廓的情况下,执行步骤八。
步骤五、原图基准点查询。
具体地,原图基准点查询即上文提及的确定主轮廓的N+1组第一基准点。其中,第一基准点参见图2所示。
参见图2,将原始文本图片中的文本行“Y”所对应的文本行轮廓确定为主轮廓,则在该主轮廓中确定主轮廓的N+1组第一基准点。具体地,在图2中,N取值为10,即图2中主轮廓的第一基准点为11组。
步骤六、目标图基准点查询。
具体地,原图基准点查询即上文提及的确定矫正文本图片的N+1组第二基准点。其中,第二基准点参见图7所示,图7是本发明提供的N+1组第二基准点示意图。
在本实施例中,N取值为10,即图7中的第二基准点为11组,并且每组第一基准点分别对应一组第二基准点。
步骤七、利用移动最小二乘法矫正主轮廓对应的文本行图片。
步骤八、基于矫正文本图片或主轮廓是非弯曲轮廓的原始文本图片,获取单行文本图。
步骤九、将单行文本图输入文字识别模型进行文本识别。
具体地,在本实施例中,将单行文本图输入文字识别模型进行文本识别,即采用光学字符识别OCR技术,对矫正文本图片或主轮廓是非弯曲轮廓的原始文本图片进行文本识别。
步骤十、得到文字识别模型的文字识别结果,即文本。
本发明提供的文本图片矫正方法,通过从原始文本图片中提取至少一个文本行轮廓,并从文本行轮廓中确定出主轮廓;在主轮廓为弯曲轮廓的情况下,确定主轮廓的N+1组第一基准点,从而能够准确的确定出主轮廓对应的文本行图片在原始文本图片中的位置;然后基于N+1组第一基准点,确定矫正文本图片的N+1组第二基准点;基于N+1组第一基准点和N+1组第二基准点,能够将主轮廓对应的文本行图片进行矫正,从而得到矫正文本图片,通过对矫正文本图片进行文本识别,进而能够提高弯曲文本识别的准确率。
下面对本发明提供的文本图片矫正装置进行描述,下文描述的文本图片矫正装置与上文描述的文本图片矫正方法可相互对应参照。参见图8,图8是本发明提供的文本图片矫正装置800的结构示意图。
提取模块801,用于从原始文本图片中提取至少一个文本行轮廓,从文本行轮廓中确定主轮廓;
第一基准点确定模块802,用于在主轮廓为弯曲轮廓的情况下,确定主轮廓的N+1组第一基准点;N为正整数;
第二基准点确定模块803,用于基于N+1组第一基准点,确定矫正文本图片的N+1组第二基准点;每组第一基准点分别对应一组第二基准点;
矫正模块804,用于基于N+1组第一基准点和N+1组第二基准点,对主轮廓对应的文本行图片进行矫正,得到矫正文本图片。
本发明提供的文本图片矫正装置,通过从原始文本图片中提取至少一个文本行轮廓,并从文本行轮廓中确定出主轮廓;在主轮廓为弯曲轮廓的情况下,确定主轮廓的N+1组第一基准点,从而能够准确的确定出主轮廓对应的文本行图片在原始文本图片中的位置;然后基于N+1组第一基准点,确定矫正文本图片的N+1组第二基准点;基于N+1组第一基准点和N+1组第二基准点,能够将主轮廓对应的文本行图片进行矫正,从而得到矫正文本图片,通过对矫正文本图片进行文本识别,进而能够提高弯曲文本识别的准确率。
可选地,第一基准点确定模块802,进一步用于:
将主轮廓等分为N个子轮廓单元;
确定N个子轮廓单元对应的N+1组第一基准点;
其中,N个子轮廓单元包括一个第一子轮廓单元、一个第二子轮廓单元及N-2个第三子轮廓单元;第一子轮廓单元及第二子轮廓单元位于主轮廓的两端;每个第三子轮廓单元对应两个等分界线;相邻的两个第三子轮廓单元共用一组第一基准点;N大于或等于3;
N+1组第一基准点包括第三子轮廓单元对应的第一基准点、第一子轮廓单元对应的第一基准点及第二子轮廓单元对应的第一基准点。
可选地,第一基准点确定模块802,进一步用于:
确定第三子轮廓单元对应的两个等分界线,并确定两个等分界线对应的两组第一基准点,其中,每组第一基准点包括一个上界基准点和一个下界基准点;
将两个等分界线对应的两组第一基准点确定为第三子轮廓单元对应的两组第一基准点;
基于第一子轮廓单元的最小外接矩形的顶点,确定第一子轮廓单元对应的一组第一基准点;
基于第二子轮廓单元的最小外接矩形的顶点,确定第二子轮廓单元对应的一组第一基准点。
可选地,第一基准点确定模块802,进一步用于:
针对每个等分界线,从等分界线的上顶点开始向下查询第三子轮廓单元对应的文本行图片中各像素点的像素值,将像素值为预设值的像素点确定为第三子轮廓单元对应的上界基准点;及从等分界线的下顶点开始向上查询第三子轮廓单元对应的文本行图片中各像素点的像素值,将像素值为预设值的像素点确定为第三子轮廓单元对应的下界基准点。
可选地,第二基准点确定模块803,进一步用于:
基于每组第一基准点的上界基准点和下界基准点的坐标的差值,确定矫正文本图片的宽度;
基于N+1组第一基准点中相邻组基准点的距离,确定矫正文本图片的长度;
基于宽度和长度,将矫正文本图片等分为N个图片区域,基于每个图片区域的顶点,确定矫正文本图片的N+1组第二基准点。
可选地,矫正模块804,进一步用于:
基于N+1组第一基准点的坐标,确定第一矩阵;第一矩阵包括:N+1组第一基准点的坐标及主轮廓对应的文本行图片中像素点的坐标;
基于N+1组第二基准点的坐标,确定第二矩阵;第二矩阵包括:N+1组第二基准点的坐标及矫正文本图片对应的像素点的坐标;
将主轮廓对应的文本行图片中的像素点的坐标,对应插值到矫正文本图片对应的像素点的坐标,得到矫正文本图片。
可选地,提取模块801,进一步用于:
检测原始文本图片中的至少一个文本分割二值图,并提取各文本分割二值图对应的文本行轮廓;
计算各文本行轮廓的面积,确定面积最大的文本行轮廓为主轮廓。
可选地,提取模块801,进一步用于:
对原始文本图片进行文本检测处理,得到文本分割二值图和文本检测框;
对每个文本检测框内的文本分割二值图进行轮廓查询,得到各文本分割二值图对应的文本行轮廓。
可选地,所述装置还包括:
第一确定模块,用于确定主轮廓的轮廓面积、及主轮廓对应的文本检测框面积;
第二确定模块,用于确定主轮廓的轮廓面积与文本检测框面积的比值;
第三确定模块,用于在比值小于预设阈值的情况下,确定主轮廓为弯曲轮廓。
图9是本发明提供的电子设备900的结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行文本图片矫正方法,该方法包括:从原始文本图片中提取至少一个文本行轮廓,从文本行轮廓中确定主轮廓;在主轮廓为弯曲轮廓的情况下,确定主轮廓的N+1组第一基准点;N为正整数;基于N+1组第一基准点,确定矫正文本图片的N+1组第二基准点;每组第一基准点分别对应一组第二基准点;基于N+1组第一基准点和N+1组第二基准点,对主轮廓对应的文本行图片进行矫正,得到矫正文本图片。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述文本图片矫正方法,该方法包括:从原始文本图片中提取至少一个文本行轮廓,从文本行轮廓中确定主轮廓;在主轮廓为弯曲轮廓的情况下,确定主轮廓的N+1组第一基准点;N为正整数;基于N+1组第一基准点,确定矫正文本图片的N+1组第二基准点;每组第一基准点分别对应一组第二基准点;基于N+1组第一基准点和N+1组第二基准点,对主轮廓对应的文本行图片进行矫正,得到矫正文本图片。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述文本图片矫正方法,该方法包括:从原始文本图片中提取至少一个文本行轮廓,从文本行轮廓中确定主轮廓;在主轮廓为弯曲轮廓的情况下,确定主轮廓的N+1组第一基准点;N为正整数;基于N+1组第一基准点,确定矫正文本图片的N+1组第二基准点;每组第一基准点分别对应一组第二基准点;基于N+1组第一基准点和N+1组第二基准点,对主轮廓对应的文本行图片进行矫正,得到矫正文本图片。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文本图片矫正方法,其特征在于,包括:
从原始文本图片中提取至少一个文本行轮廓,从所述文本行轮廓中确定主轮廓;
在所述主轮廓为弯曲轮廓的情况下,确定所述主轮廓的N+1组第一基准点;N为正整数;
基于所述N+1组第一基准点,确定矫正文本图片的N+1组第二基准点;每组第一基准点分别对应一组第二基准点;
基于所述N+1组第一基准点和所述N+1组第二基准点,对所述主轮廓对应的文本行图片进行矫正,得到所述矫正文本图片。
2.根据权利要求1所述的文本图片矫正方法,其特征在于,所述确定所述主轮廓的N+1组第一基准点,包括:
将所述主轮廓等分为N个子轮廓单元;
确定所述N个子轮廓单元对应的N+1组第一基准点;
其中,所述N个子轮廓单元包括一个第一子轮廓单元、一个第二子轮廓单元及N-2个第三子轮廓单元;所述第一子轮廓单元及所述第二子轮廓单元位于所述主轮廓的两端;每个第三子轮廓单元对应两个等分界线;相邻的两个第三子轮廓单元共用一组第一基准点;N大于或等于3;
所述N+1组第一基准点包括所述第三子轮廓单元对应的第一基准点、所述第一子轮廓单元对应的第一基准点及所述第二子轮廓单元对应的第一基准点。
3.根据权利要求2所述的文本图片矫正方法,其特征在于,所述确定所述N个子轮廓单元对应的N+1组第一基准点,包括:
确定所述第三子轮廓单元对应的两个等分界线,并确定所述两个等分界线对应的两组第一基准点,其中,每组第一基准点包括一个上界基准点和一个下界基准点;
将所述两个等分界线对应的两组第一基准点确定为所述第三子轮廓单元对应的两组第一基准点;
基于所述第一子轮廓单元的最小外接矩形的顶点,确定所述第一子轮廓单元对应的一组第一基准点;
基于所述第二子轮廓单元的最小外接矩形的顶点,确定所述第二子轮廓单元对应的一组第一基准点。
4.根据权利要求3所述的文本图片矫正方法,其特征在于,所述确定所述两个等分界线对应的两组第一基准点,包括:
针对每个所述等分界线,从所述等分界线的上顶点开始向下查询所述第三子轮廓单元对应的文本行图片中各像素点的像素值,将像素值为预设值的像素点确定为所述第三子轮廓单元对应的上界基准点;及从等分界线的下顶点开始向上查询所述第三子轮廓单元对应的文本行图片中各像素点的像素值,将像素值为预设值的像素点确定为所述第三子轮廓单元对应的下界基准点。
5.根据权利要求3所述的文本图片矫正方法,其特征在于,所述基于所述N+1组第一基准点,确定矫正文本图片的N+1组第二基准点,包括:
基于每组第一基准点的上界基准点和下界基准点的坐标的差值,确定矫正文本图片的宽度;
基于所述N+1组第一基准点中相邻组基准点的距离,确定所述矫正文本图片的长度;
基于所述宽度和所述长度,将所述矫正文本图片等分为N个图片区域,基于每个图片区域的顶点,确定所述矫正文本图片的N+1组第二基准点。
6.根据权利要求1所述的文本图片矫正方法,其特征在于,所述基于所述N+1组第一基准点和所述N+1组第二基准点,对所述主轮廓对应的文本行图片进行矫正,得到所述矫正文本图片,包括:
基于所述N+1组第一基准点的坐标,确定第一矩阵;所述第一矩阵包括:所述N+1组第一基准点的坐标及所述主轮廓对应的文本行图片中像素点的坐标;
基于所述N+1组第二基准点的坐标,确定第二矩阵;所述第二矩阵包括:所述N+1组第二基准点的坐标及所述矫正文本图片对应的像素点的坐标;
将所述主轮廓对应的文本行图片中的像素点的坐标,对应插值到所述矫正文本图片对应的像素点的坐标,得到所述矫正文本图片。
7.根据权利要求1所述的文本图片矫正方法,其特征在于,所述从原始文本图片中提取至少一个文本行轮廓,从所述文本行轮廓中确定主轮廓,包括:
检测所述原始文本图片中的至少一个文本分割二值图,并提取各所述文本分割二值图对应的文本行轮廓;
计算各所述文本行轮廓的面积,确定面积最大的文本行轮廓为所述主轮廓。
8.根据权利要求7所述的文本图片矫正方法,其特征在于,所述检测所述原始文本图片中的至少一个文本分割二值图,并提取各所述文本分割二值图对应的文本行轮廓,包括:
对所述原始文本图片进行文本检测处理,得到文本分割二值图和文本检测框;
对每个文本检测框内的文本分割二值图进行轮廓查询,得到各所述文本分割二值图对应的文本行轮廓。
9.根据权利要求1所述的文本图片矫正方法,其特征在于,在从所述文本行轮廓中确定主轮廓之后,所述方法还包括:
确定所述主轮廓的轮廓面积、及所述主轮廓对应的文本检测框面积;
确定所述主轮廓的轮廓面积与所述文本检测框面积的比值;
在所述比值小于预设阈值的情况下,确定所述主轮廓为弯曲轮廓。
10.一种文本图片矫正装置,其特征在于,包括:
提取模块,用于从原始文本图片中提取至少一个文本行轮廓,从所述文本行轮廓中确定主轮廓;
第一基准点确定模块,用于在所述主轮廓为弯曲轮廓的情况下,确定所述主轮廓的N+1组第一基准点;N为正整数;
第二基准点确定模块,用于基于所述N+1组第一基准点,确定矫正文本图片的N+1组第二基准点;每组第一基准点分别对应一组第二基准点;
矫正模块,用于基于所述N+1组第一基准点和所述N+1组第二基准点,对所述主轮廓对应的文本行图片进行矫正,得到所述矫正文本图片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210653831.3A CN117252767A (zh) | 2022-06-09 | 2022-06-09 | 文本图片矫正方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210653831.3A CN117252767A (zh) | 2022-06-09 | 2022-06-09 | 文本图片矫正方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117252767A true CN117252767A (zh) | 2023-12-19 |
Family
ID=89131883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210653831.3A Pending CN117252767A (zh) | 2022-06-09 | 2022-06-09 | 文本图片矫正方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117252767A (zh) |
-
2022
- 2022-06-09 CN CN202210653831.3A patent/CN117252767A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110046529B (zh) | 二维码识别方法、装置及设备 | |
CN108520254B (zh) | 一种基于格式化图像的文本检测方法、装置以及相关设备 | |
CN107045634B (zh) | 一种基于最大稳定极值区域与笔画宽度的文本定位方法 | |
CN105528614B (zh) | 一种漫画图像版面的识别方法和自动识别系统 | |
CN110020692B (zh) | 一种基于印刷体模板的手写体分离与定位方法 | |
CN110647795A (zh) | 一种表格识别方法 | |
US9235757B1 (en) | Fast text detection | |
CN108256518B (zh) | 文字区域检测方法及装置 | |
CN114333338A (zh) | 一种车牌辨识系统与方法 | |
CN111507337A (zh) | 基于混合神经网络的车牌识别方法 | |
CN111461131A (zh) | 身份证号码信息识别方法、装置、设备及存储介质 | |
CN112686265A (zh) | 一种基于层级轮廓提取的象形文字分割方法 | |
CN113297870A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN111199240A (zh) | 银行卡识别模型的训练方法、银行卡识别方法以及装置 | |
CN111444903B (zh) | 漫画气泡内文字定位方法、装置、设备及可读存储介质 | |
CN111325199B (zh) | 一种文字倾斜角度检测方法及装置 | |
CN116030472A (zh) | 文字坐标确定方法及装置 | |
CN117252767A (zh) | 文本图片矫正方法及装置 | |
Qiu et al. | An optimized license plate recognition system for complex situations | |
CN109871910B (zh) | 一种手写字符识别方法及装置 | |
CN114758340A (zh) | 物流地址智能识别方法、装置、设备及存储介质 | |
US20090245658A1 (en) | Computer-readable recording medium having character recognition program recorded thereon, character recognition device, and character recognition method | |
CN113516103A (zh) | 一种基于支持向量机的表格图像倾斜角度确定方法 | |
CN113537216B (zh) | 一种点阵字体文本行倾斜校正方法及装置 | |
CN115995080B (zh) | 基于ocr识别的档案智能管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |