CN113449724A - 一种图像文本校正方法、装置、设备及存储介质 - Google Patents
一种图像文本校正方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113449724A CN113449724A CN202110643271.9A CN202110643271A CN113449724A CN 113449724 A CN113449724 A CN 113449724A CN 202110643271 A CN202110643271 A CN 202110643271A CN 113449724 A CN113449724 A CN 113449724A
- Authority
- CN
- China
- Prior art keywords
- curve
- determining
- target
- text
- target area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012937 correction Methods 0.000 title claims abstract description 36
- 238000001514 detection method Methods 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims description 47
- 230000015654 memory Effects 0.000 claims description 27
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000005452 bending Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003702 image correction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Analysis (AREA)
Abstract
本申请提供一种图像文本校正方法、装置、设备及存储介质,涉及图像处理技术领域,用于提升自然场景下的文本识别效果。该方法包括:对原始图像进行文本检测,确定原始图像中目标文本所在的目标区域,并基于目标区域生成目标文本掩膜;对目标文本掩膜进行曲线拟合,获得目标文本掩膜的第一曲线,第一曲线用于指示目标文字发生形变的走向;根据第一曲线,确定目标文本掩膜的多条第二曲线;确定校正后的文本图像的边框中与第二曲线对应的多条边框直线,并分别确定多条边框直线中每条边框直线,与相应的第二曲线上的各个点之间的一一对应关系;基于获得的一一对应关系对目标区域进行校正。
Description
技术领域
本申请涉及图像处理技术领域,提供一种图像文本校正方法、装置、设备及存储介质。
背景技术
随着人们生活水平的提高,人们也变得越来越热爱拍摄,但是,在自然场景下进行拍摄,由于角度的问题,例如侧拍,可能会导致拍摄出来的图片中的文本存在倾斜或者弯曲变形等情况,这样图片中的文本便与真实自然场景下的本文存在差异,因此,为了提高对自然场景下文本的识别,通常需要对变形的文本进行校正。
但是,现有的校正方法中大部分只考虑到字符在直线排列情况下的倾斜透视变形,因而,这类方法仅对倾斜透视变形的图像校正有效果,而对其他类型如弯曲变形的校正效果较差。此外,也存在基于人工神经网络的方法来可以解决自然场景下的文本识别效果差的问题,但是,训练网络需要大量图像样本,且完成校正也需要较大计算代价。
发明内容
本申请实施例提供一种图像文本校正方法、装置、设备及存储介质,用于提升自然场景下的文本识别效果。
一方面,提供一种图像文本校正方法,所述方法包括:
对原始图像进行文本检测,确定所述原始图像中目标文本所在的目标区域,并基于所述目标区域生成目标文本掩膜;其中,所述目标区域的外轮廓呈非矩形的形状;
对所述目标文本掩膜进行曲线拟合,获得所述目标文本掩膜的第一曲线,所述第一曲线用于指示所述目标文字发生形变的走向;
根据所述第一曲线,确定所述目标文本掩膜的多条第二曲线;其中,所述第二曲线为与所述第一曲线具有相同走向的所述目标文本掩膜的外轮廓曲线;
确定校正后的文本图像的边框中与所述第二曲线对应的多条边框直线,并分别确定所述多条边框直线中每条边框直线,与相应的第二曲线上的各个点之间的一一对应关系;
基于获得的一一对应关系对所述目标区域进行校正;其中,所述校正后的目标区域的外轮廓呈矩形的形状。
一方面,提供一种图像文本校正装置,所述装置包括:
第一确定单元,用于对原始图像进行文本检测,确定所述原始图像中目标文本所在的目标区域,并基于所述目标区域生成目标文本掩膜;其中,所述目标区域的外轮廓呈非矩形的形状;
曲线拟合单元,用于对所述目标文本掩膜进行曲线拟合,获得所述目标文本掩膜的第一曲线,所述第一曲线用于指示所述目标文字发生形变的走向;
第二确定单元,用于根据所述第一曲线,确定所述目标文本掩膜的多条第二曲线;其中,所述第二曲线为与所述第一曲线具有相同走向的所述目标文本掩膜的外轮廓曲线;
第三确定单元,用于确定校正后的文本图像的边框中与所述第二曲线对应的多条边框直线,并分别确定所述多条边框直线中每条边框直线,与相应的第二曲线上的各个点之间的一一对应关系;
校正单元,用于基于获得的一一对应关系对所述目标区域进行校正;其中,所述校正后的目标区域的外轮廓呈矩形的形状。
可选的,所述第二确定单元,具体用于:
确定所述第一曲线与所述目标文本掩膜的外轮廓之间的两个交点,每个交点对应于所述目标区域中的一个像素点;
从所述第一曲线上位于所述两个交点之间的部分,确定N个采样点;其中,N为不小于2的整数;
针对所述N个采样点,分别执行如下操作:针对一个采样点,确定所述第一曲线在所述一个采样点处的法线,与所述目标文本掩膜的外轮廓之间的多个交点;
根据确定的所述N个采样点各自对应的多个交点,确定所述第二曲线。
可选的,所述第二确定单元,具体还用于:
确定所述第一曲线在所述一个采样点处的切线斜率;
根据所述切线斜率,确定所述第一曲线在所述一个采样点处的法线;
确定所述法线与所述目标文本掩膜的外轮廓之间的多个交点。
可选的,所述第三确定单元,具体用于:
针对所述多条边框直线,分别执行如下操作:
针对一条边框直线,在所述一条边框直线上确定M个第一基准点,每两个相邻的第一基准点之间的线段长度相同;以及,
在所述一条边框直线相应的第二曲线上确定M个第二基准点,每两个相邻的第二基准点之间的曲线长度相同;
基于所述M个第一基准点以及所述M个第二基准点,确定所述一条边框直线与相应的第二曲线之间的一一对应关系。
可选的,所述校正单元,具体用于:
根据所述M个第一基准点以及所述M个第二基准点,确定所述目标区域的每个像素点与在所述校正后的文本图像中对应像素点之间进行坐标转换的转换矩阵;
针对所述校正后的文本图像中各个像素点,分别执行如下操作:
针对一个像素点,确定所述一个像素点与所述M个第一基准点之间的欧氏距离;
基于获得的各个欧氏距离以及所述转换矩阵,确定所述一个像素点在所述目标区域中的对应的像素点坐标;
根据所述校正后的文本图像中各个像素点与在所述目标区域中的对应的像素点坐标,获得所述校正后的文本图像。
一方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方面所述的方法的步骤。
一方面,提供一种计算机存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述方面所述的方法的步骤。
本申请实施例中,可以通过对原始图像进行文本检测,来确定出原始图像中目标文本所在的目标区域,并基于该目标区域生成目标文本掩膜;进而对目标文本掩膜进行曲线拟合,以获得能够指示目标文字发生形变的走向的目标文本掩膜的第一曲线;进而根据该第一曲线,确定出目标文本掩膜的多条与第一曲线具有相同走向的目标文本掩膜的第二曲线,即,目标文本掩膜的外轮廓曲线;然后,在校正后的文本图像的边框中,确定出与第二曲线对应的多条边框直线,并分别确定多条边框直线中每条边框直线,与相应的第二曲线上的各个点之间的一一对应关系;进而,基于获得的一一对应关系对目标区域进行校正,以使得校正后的目标区域的外轮廓呈矩形的形状。因此,在本申请实施例中,可以在不采用人工神经网络的情况下,通过确定校正后的文本图像的边框上的点与目标文本掩膜的外轮廓曲线上的点一一对应关系,来对图像进行校正,从而可以不需要大量的标注数据做训练,而是仅通过几何处理图像区域关键点的定位来校正文本图像,且不仅可以对倾斜透视变形文本进行校正,还可以对弯曲文本等复杂变形文本进行校正,大大简化了自然场景下的文本识别过程,且相应提升了自然场景下的文本识别效果。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种应用场景示意图;
图2为本申请实施例提供的图像文本校正方法的流程示意图;
图3为本申请实施例提供的确定的目标区域的示意图;
图4为本申请实施例提供的生成的目标文本掩膜的一种示意图;
图5为本申请实施例提供的获取的目标区域拟合曲线的一种示意图;
图6为本申请实施例提供的确定第二曲线的流程示意图;
图7为本申请实施例提供的确定的第二曲线的示意图;
图8为在校正后的文本图像中等间距取采样点的示意图;
图9为本申请实施例提供的校正像素点坐标值的一种流程示意图;
图10为本申请实施例提供的图像文本校正装置的一种结构示意图;
图11为本申请实施例提供的计算机设备的一种结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
目前,现有的校正方法中大部分只考虑到字符在直线排列情况下的倾斜透视变形,因而,这类方法仅对倾斜透视变形的图像校正有效果,而对其他类型如弯曲变形的校正效果较差。此外,也存在基于人工神经网络的方法来可以解决自然场景下的文本识别效果差的问题,但是,训练网络需要大量图像样本,且完成校正也需要较大计算代价。
基于此,本申请实施例中,本申请实施例中,可以通过对原始图像进行文本检测,来确定出原始图像中目标文本所在的目标区域,并基于该目标区域生成目标文本掩膜;进而对目标文本掩膜进行曲线拟合,以获得能够指示目标文字发生形变的走向的目标文本掩膜的第一曲线;进而根据该第一曲线,确定出目标文本掩膜的多条与第一曲线具有相同走向的目标文本掩膜的第二曲线,即,目标文本掩膜的外轮廓曲线;然后,在校正后的文本图像的边框中,确定出与第二曲线对应的多条边框直线,并分别确定多条边框直线中每条边框直线,与相应的第二曲线上的各个点之间的一一对应关系;进而,基于获得的一一对应关系对目标区域进行校正,以使得校正后的目标区域的外轮廓呈矩形的形状。因此,在本申请实施例中,可以在不采用人工神经网络的情况下,通过确定校正后的文本图像的边框上的点与目标文本掩膜的外轮廓曲线上的点一一对应关系,来对图像进行校正,从而可以不需要大量的标注数据做训练,而是仅通过几何处理图像区域关键点的定位来校正文本图像,且不仅可以对倾斜透视变形文本进行校正,还可以对弯曲文本等复杂变形文本进行校正,大大简化了自然场景下的文本识别过程,且相应提升了自然场景下的文本识别效果。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
如图1所示,为本申请实施例提供的一种应用场景示意图,其中,该图像文本校正的应用场景可以包括图像文本校正设备10。
图像文本校正设备10是具有一定处理能力的计算机设备,例如可以为个人计算机(personal computer,PC)、笔记本电脑或者服务器等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
该图像文本校正设备10可以包括一个或多个处理器101、存储器102以及与其他设备交互的I/O接口103等。此外,图像文本校正设备10还可以配置数据库104,数据库104可以用于存储本申请实施例提供的方案中涉及到的获取到的图像数据。其中,图像文本校正设备10的存储器102中可以存储本申请实施例提供的图像文本校正方法的程序指令,这些程序指令被处理器101执行时能够用以实现本申请实施例提供的图像文本校正方法的步骤,以使变形的图像文本得到校正。
在本申请实施例中,当检测到从I/O接口103输入的自然场景图像中的文本为形变文本时,则会调用存储器102中存储的图像文本校正方法的程序指令,并通过处理器101来执行这些程序指令,以使变形的图像文本得到校正,且在程序指令执行过程中产生的图像数据以及图像校正结果被存储于数据库104中。
当然,本申请实施例提供的方法并不限用于图1所示的应用场景中,还可以用于其他可能的应用场景,本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。下面,将结合附图对本申请实施例的方法进行介绍。
如图2所示,为本申请实施例的图像文本校正方法的流程示意图,该方法可以通过图1中的图像文本校正设备10来执行,该方法的流程介绍如下。
步骤201:对原始图像进行文本检测,确定原始图像中目标文本所在的目标区域,并基于目标区域生成目标文本掩膜。
在本申请实施例中,目标文本为发生了倾斜或者弯曲变形的文本,目标区域的外轮廓呈非矩形的形状,一般而言,文本图像中文字未发生变形或者倾斜时,文本图像是呈矩形状的,这里的非矩形则是指除矩形之外的任意形状,即文本发生变形或者倾斜后所可能的任何形状,例如,可以为扇形、梯形、圆形或者其它任意的不规则图形等。
为了便于对自然场景图像中的目标文本进行校正,在获得原始图像之后,可以对该原始图像进行文本检测,以确定出该原始图像是否存在目标文本,若存在目标文本时,可以确定出在该原始图像中目标文本所在的目标区域,如图 3所示,为本申请实施例的确定的目标区域的示意图,在图3中,小圆圈表示背景内容,被灰色阴影框起来的英文字母所对应的区域表示目标区域,可以看出该目标区域的外轮廓为弧形,即呈现为非矩形的形状。
进而,在确定了目标区域之后,为了减小处理时的处理负担,可仅对该目标区域进行处理,那么可以对原始图像基于目标区域进行掩膜处理,生成目标文本对应的目标文本掩膜,以提取出需要进行处理的目标区域,并屏蔽掉不需要进行处理的背景区域,使得目标区域变得突出。如图4所示,为本申请实施例的生成的目标文本掩膜的一种示意图,其中,在进行掩膜处理之后,处理后的原始图像中仅剩下目标区域中的目标文本还能进行显出,而原始图像中的背景内容则会被遮掩。
步骤202:对目标文本掩膜进行曲线拟合,获得目标文本掩膜的第一曲线。
在本申请实施例中,第一曲线用于指示目标文字发生形变的走向。
目标文本掩膜对应存在多个像素点,可以对该多个像素点进行曲线拟合,以获取可以指示目标文本发生形变的走向的目标文本掩膜的第一曲线。
这里以假设该第一曲线为多项式曲线为例,那么,可用如下多项式方程进行表述:
y=a0+a1x+…+an-1xn-2+anxn-1
其中,a0,a1,…,an-1,an多项式的系数,n为多项式的幂。
将目标文本掩膜对应存在多个像素点的像素坐标代入上述多项式方程,则可以获得如下的多项式方程组:
其中,(x1,y1),…,(xi,yi)∈目标文本掩膜区域中像素点对应的坐标,i为像素点的编号数。
在一种可能的实施方式中,可以采用最小二乘法来对目标文本掩膜中的多个像素点进行拟合,根据矩阵理论,可以确定通过最小二乘法进行曲线拟合时,第一曲线的多项式方程对应的多项式系数为:
其中,
如图5所示,为本申请实施例的获取目标区域拟合曲线的一种示意图,在目标区域中存在一条拟合曲线Y,该拟合曲线Y的延伸方向与目标文本发生形变的走向相同。
步骤203:根据第一曲线,确定目标文本掩膜的多条第二曲线。
在本申请实施例中,第二曲线为与第一曲线具有相同走向的目标文本掩膜的外轮廓曲线。
如图6所示,为本申请实施例提供的确定第二曲线的流程示意图,具体的流程介绍如下。
步骤2031:确定第一曲线与目标文本掩膜的外轮廓之间的两个交点,每个交点对应于目标区域中的一个像素点。
如图7所示,为本申请实施例提供的确定的第二曲线的示意图,其中,对第一曲线进行延长时,该第一曲线与目标文本掩膜的外轮廓目标区域的左右两侧存在交点,即图7所示的Pl和Pr。由于第一曲线是通过像素点坐标进行拟合获得的,因此,第一曲线与目标文本掩膜的外轮廓目标区域的每个交点都可以对应于目标区域中的一个像素点。
步骤2032:从第一曲线上位于两个交点之间的部分,确定N个采样点。
在本申请实施例中,N为不小于2的整数。
在一种可能的实施方式中,在第一曲线上位于交点Pl和Pr之间的部分,可以等间距确定N个采样点。例如,可以如图7所示,等间距确定7个采样点,分别为P1,P2,…,P7,它们的坐标可以分别为(x1,y1),(x2,y2),…,(x7,y7)。
步骤2033:针对N个采样点,分别执行如下操作:针对每一个采样点,确定第一曲线在该采样点处的法线,与目标文本掩膜的外轮廓之间的多个交点。
具体的,针对第一曲线上的第i个采样点Pi(其中,点Pi的坐标为(xi,yi), i∈[2,N]),在该第i个采样点Pi处的切线斜率可以用如下公式进行求解:
那么,根据切线斜率,便可以确定出第一曲线在该第i个采样点Pi处的法线斜率为:
ki=-1/k
进而,第一曲线在该第i个采样点Pi处的法线为:
y-yi=ki(x-xi)
那么,延长该第i个采样点Pi处的法线,可以确定该第i个采样点Pi处的法线与目标文本掩膜的外轮廓之间存在两个交点,如图7所示,采样点P3处的法线与目标文本掩膜的上边界相交,可获得上边界交点Pu3,与下边界相交,可获得上边界交点Pb3。
进而,便可以获得与目标文本掩膜的上边界相交得到的多个上边界交点,以及与目标文本掩膜的下边界相交得到的多个下边界交点。当然,如图7所示,针对第一曲线上的点Pl也可以根据自身的法线与目标文本掩膜的上边界相交,以获得上边界交点Pul,以及与下边界相交,获得上边界交点Pbl,同样的,点Pr也可以获得对应的上、下边界点Pur和Pbr。
步骤2034:根据确定的N个采样点各自对应的多个交点,确定第二曲线。
如图7所示,在确定了多个上边界交点之后,便可采用拟合的方式,对这多个上边界交点进行拟合,以获得上边界所对应的拟合曲线,同样的,可以对多个下边界交点进行拟合,以获得下边界所对应的拟合曲线,因此,可以看出,图7所示的目标掩膜区域具有2条第二曲线。
步骤204:校正后的文本图像的边框中与第二曲线对应的多条边框直线,并分别确定多条边框直线中每条边框直线,与相应的第二曲线上的各个点之间的一一对应关系。
具体的,由于校正后的文本图像的边框中存在与第二曲线对应的多条边框直线,而这多条边框直线中每一条边框直线与相应的第二曲线之间的对应关系相同,因此,下面仅针对一条边框直线来进行具体介绍。
首先,针对校正后的文本图像的一条边框直线,在该一条边框直线上可以确定M个第一基准点,且每两个相邻的第一基准点之间的线段长度相同。
如图8所示,为在校正后的文本图像中等间距取采样点的示意图,可以假设校正后的文本图像的宽度为w,高度为h,那么,在校正后的文本图像的上边界线上等间距获取M个采样点(该M个采样点包括校正后的文本图像在上边界线上的2个角点,即点P′ul和点P′ur)时,在上边界线上可以分别获得点P′ul, P′u1,P′u2,…,P′u,M-2,P′ur,且它们各自对应的坐标可以为
然后,在校正后的文本图像的一条边框直线相应的第二曲线确定M个第二基准点,每两个相邻的第二基准点之间的曲线长度相同。
例如,如图7所示,可以在与上边界对应的第二曲线上的Pul和Pur之间,等间距获取M个采样点,即,在上边界对应的第二曲线上可以获得的点分别 Pul,Pu1,Pu2,…,Pu,M-2,Pur。
同样的,可以在与下边界对应的第二曲线上的Pbl和Pbr之间,等间距同样获取M个采样点,即,在下边界对应的第二曲线上可以获得的点分别Pbl,Pb1,Pb2,…,Pb,M-2,Pbr。
接下来,基于M个第一基准点以及M个第二基准点,便可以确定一条边框直线与相应的第二曲线之间的一一对应关系。
例如,校正后的文本图像的上边界线上的点P′ul,P′u1,P′u2,…,P′u,M-2, P′ur与对应的第二曲线上的点Pul,Pu1,Pu2,…,Pu,M-2,Pur一一对应。
校正后的文本图像的下边界线上的点P′bl,P′b1,P′b2,…,P′b,M-2,P′br与对应的第二曲线上的点Pbl,Pb1,Pb2,…,Pb,M-2,Pbr一一对应。
步骤205:基于获得的一一对应关系对目标区域进行校正。
在本申请实施例中,校正后的目标区域的外轮廓呈矩形的形状。
具体的,可以采用薄板样条插值(thin plate spline,TPS)来进行相应像素点的坐标值进行校正。如图9所示,为校正像素点坐标值的一种流程示意图,具体的流程介绍如下。
步骤901:根据M个第一基准点以及M个第二基准点,确定目标区域的每个像素点与在校正后的文本图像中对应像素点之间进行坐标转换的转换矩阵。
该转换矩阵T可以采用如下公式进行求解:
步骤902:针对校正后的文本图像任一个像素点,确定该任一个像素点与 M个第一基准点之间的欧氏距离。
由于,目标区域中每一个像素点所对应的坐标补偿值的求解过程相同,因此,此处,就以目标区域中一个像素点为例进行介绍。
具体的,校正后的文本图像内部的像素点可以用E′={e′i}i=1,…,F表示,其中,e′i表示校正后的文本图像内部的第i个像素点,且其所对应的坐标为(x′i,y′i), F是像素点的编号数。对于校正后的文本图像上的每个点e′i,我们在目标区域中可以找到对应的坐标为(xi,yi)的像素点ei。
那么校正后的文本图像的任一个像素点e′i与第一基准点P′k之间的欧氏距离为:
其中,dist(e′i,P′k)表示求解像素点e′i与第一基准点P′k之间的欧氏距离。
步骤903:基于获得的校正后的文本图像的所有像素点所对应的欧氏距离以及转换矩阵,确定校正后的文本图像的所有像素点在目标区域中对应的像素点坐标。
具体的,校正后的文本图像区域内部像素点e′i与目标区域中的像素点ei可以通过如下式子进行相应的转换:
其中,di,k是校正后的文本图像的像素点e′i与第一基准点P′k之间的欧氏距离。
进而,可以通过迭代校正后的文本图像区域内部的所有像素点,以获得到目标区域中对应的像素点ei的坐标(xi,yi)。
步骤904:根据获得的目标区域中的所有像素点的坐标,获得校正后的文本图像。
由于已经获取了校正后的文本图像所有像素点在目标区域中所对应的像素点坐标,所以,可以将目标区域中各个像素点按照获取的像素点ei=(xi,yi) 进行移动即可。
在本申请实施例中,通过上述的过程进行文本校正之后,则可以利用校正后的文本参与后续的应用,例如可以基于校正后的文本图像进行文本识别。
综上所述,在本申请实施例中,可以在不采用人工神经网络的情况下,通过确定校正后的文本图像的边框上的点与目标文本掩膜的外轮廓曲线上的点一一对应关系,来对图像进行校正,从而可以不需要大量的标注数据做训练,而是仅通过几何处理图像区域关键点的定位来校正文本图像,且不仅可以对倾斜透视变形文本进行校正,还可以对弯曲文本等复杂变形文本进行校正,大大简化了自然场景下的文本识别过程,且相应提升了自然场景下的文本识别效果。
如图10所示,基于同一发明构思,本申请实施例提供一种图像文本校正装置100,该装置包括:
第一确定单元1001,用于对原始图像进行文本检测,确定原始图像中目标文本所在的目标区域,并基于目标区域生成目标文本掩膜;其中,目标区域的外轮廓呈非矩形的形状;
曲线拟合单元1002,用于对目标文本掩膜进行曲线拟合,获得目标文本掩膜的第一曲线,第一曲线用于指示目标文字发生形变的走向;
第二确定单元1003,用于根据第一曲线,确定目标文本掩膜的多条第二曲线;其中,第二曲线为与第一曲线具有相同走向的目标文本掩膜的外轮廓曲线;
第三确定单元1004,用于确定校正后的文本图像的边框中与第二曲线对应的多条边框直线,并分别确定多条边框直线中每条边框直线,与相应的第二曲线上的各个点之间的一一对应关系;
校正单元1005,用于基于获得的一一对应关系对目标区域进行校正;其中,校正后的目标区域的外轮廓呈矩形的形状。
可选的,第二确定单元1003,具体用于:
确定第一曲线与目标文本掩膜的外轮廓之间的两个交点,每个交点对应于目标区域中的一个像素点;
从第一曲线上位于两个交点之间的部分,确定N个采样点;其中,N为不小于2的整数;
针对N个采样点,分别执行如下操作:针对一个采样点,确定第一曲线在一个采样点处的法线,与目标文本掩膜的外轮廓之间的多个交点;
根据确定的N个采样点各自对应的多个交点,确定第二曲线。
可选的,第二确定单元1003,具体还用于:
确定第一曲线在一个采样点处的切线斜率;
根据切线斜率,确定第一曲线在一个采样点处的法线;
确定法线与目标文本掩膜的外轮廓之间的多个交点。
可选的,第三确定单元1004,具体用于针对多条边框直线,分别执行如下操作:
针对一条边框直线,在一条边框直线上确定M个第一基准点,每两个相邻的第一基准点之间的线段长度相同;以及,
在一条边框直线相应的第二曲线上确定M个第二基准点,每两个相邻的第二基准点之间的曲线长度相同;
基于M个第一基准点以及M个第二基准点,确定一条边框直线与相应的第二曲线之间的一一对应关系。
可选的,校正单元1005,具体用于:
根据M个第一基准点以及M个第二基准点,确定目标区域的每个像素点与在校正后的文本图像中对应像素点之间进行坐标转换的转换矩阵;
针对校正后的文本图像中各个像素点,分别执行如下操作:
针对一个像素点,确定一个像素点与M个第一基准点之间的欧氏距离;
基于获得的各个欧氏距离以及转换矩阵,确定一个像素点在目标区域中的对应的像素点坐标;
根据校正后的文本图像中各个像素点与在目标区域中的对应的像素点坐标,获得校正后的文本图像。
该装置可以用于执行图2~图9所示的实施例中所述的方法,因此,对于该装置的各功能模块所能够实现的功能等可参考图2~图9所示的实施例的描述,不多赘述。
请参见图11,基于同一技术构思,本申请实施例还提供了一种计算机设备 110,可以包括存储器1101和处理器1102。
所述存储器1101,用于存储处理器1102执行的计算机程序。存储器1101 可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据计算机设备的使用所创建的数据等。处理器1102,可以是一个中央处理单元(central processing unit, CPU),或者为数字处理单元等等。本申请实施例中不限定上述存储器1101和处理器1102之间的具体连接介质。本申请实施例在图11中以存储器1101和处理器1102之间通过总线1103连接,总线1103在图11中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线1103 可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1101可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1101也可以是非易失性存储器 (non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘 (hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器1101 是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1101可以是上述存储器的组合。
处理器1102,用于调用所述存储器1101中存储的计算机程序时执行如图 2~图9所示的实施例中设备所执行的方法。
在一些可能的实施方式中,本申请提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行如图2~图9所示的实施例中所述的方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(read-only memory,ROM)、随机存取存储器(random rccess memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (12)
1.一种图像文本校正方法,其特征在于,所述方法包括:
对原始图像进行文本检测,确定所述原始图像中目标文本所在的目标区域,并基于所述目标区域生成目标文本掩膜;其中,所述目标区域的外轮廓呈非矩形的形状;
对所述目标文本掩膜进行曲线拟合,获得所述目标文本掩膜的第一曲线,所述第一曲线用于指示所述目标文字发生形变的走向;
根据所述第一曲线,确定所述目标文本掩膜的多条第二曲线;其中,所述第二曲线为与所述第一曲线具有相同走向的所述目标文本掩膜的外轮廓曲线;
确定校正后的文本图像的边框中与所述第二曲线对应的多条边框直线,并分别确定所述多条边框直线中每条边框直线,与相应的第二曲线上的各个点之间的一一对应关系;
基于获得的一一对应关系对所述目标区域进行校正;其中,所述校正后的目标区域的外轮廓呈矩形的形状。
2.如权利要求1所述的方法,其特征在于,根据所述第一曲线,确定所述目标文本掩膜的第二曲线,包括:
确定所述第一曲线与所述目标文本掩膜的外轮廓之间的两个交点,每个交点对应于所述目标区域中的一个像素点;
从所述第一曲线上位于所述两个交点之间的部分,确定N个采样点;其中,N为不小于2的整数;
针对所述N个采样点,分别执行如下操作:针对一个采样点,确定所述第一曲线在所述一个采样点处的法线,与所述目标文本掩膜的外轮廓之间的多个交点;
根据确定的所述N个采样点各自对应的多个交点,确定所述第二曲线。
3.如权利要求2所述的方法,其特征在于,针对一个采样点,确定所述第一曲线在所述一个采样点处的法线,与所述目标文本掩膜的外轮廓之间的多个交点,包括:
确定所述第一曲线在所述一个采样点处的切线斜率;
根据所述切线斜率,确定所述第一曲线在所述一个采样点处的法线;
确定所述法线与所述目标文本掩膜的外轮廓之间的多个交点。
4.如权利要求2所述的方法,其特征在于,确定校正后的文本图像的边框中与所述第二曲线对应的多条边框直线,并分别确定所述多条边框直线中每条边框直线,与相应的第二曲线上的各个点之间的一一对应关系,包括:
针对所述多条边框直线,分别执行如下操作:
针对一条边框直线,在所述一条边框直线上确定M个第一基准点,每两个相邻的第一基准点之间的线段长度相同;以及,
在所述一条边框直线相应的第二曲线上,确定M个第二基准点,每两个相邻的第二基准点之间的曲线长度相同;
基于所述M个第一基准点以及所述M个第二基准点,确定所述一条边框直线与相应的第二曲线之间的一一对应关系。
5.如权利要求4所述的方法,其特征在于,基于获得的一一对应关系对所述目标区域进行校正,包括:
根据所述M个第一基准点以及所述M个第二基准点,确定所述目标区域的每个像素点与在所述校正后的文本图像中对应像素点之间进行坐标转换的转换矩阵;
针对所述校正后的文本图像中各个像素点,分别执行如下操作:
针对一个像素点,确定所述一个像素点与所述M个第一基准点之间的欧氏距离;
基于获得的各个欧氏距离以及所述转换矩阵,确定所述一个像素点在所述目标区域中的对应的像素点坐标;
根据所述校正后的文本图像中各个像素点与在所述目标区域中的对应的像素点坐标,获得所述校正后的文本图像。
6.一种图像文本校正装置,其特征在于,所述装置包括:
第一确定单元,用于对原始图像进行文本检测,确定所述原始图像中目标文本所在的目标区域,并基于所述目标区域生成目标文本掩膜;其中,所述目标区域的外轮廓呈非矩形的形状;
曲线拟合单元,用于对所述目标文本掩膜进行曲线拟合,获得所述目标文本掩膜的第一曲线,所述第一曲线用于指示所述目标文字发生形变的走向;
第二确定单元,用于根据所述第一曲线,确定所述目标文本掩膜的多条第二曲线;其中,所述第二曲线为与所述第一曲线具有相同走向的所述目标文本掩膜的外轮廓曲线;
第三确定单元,用于确定校正后的文本图像的边框中与所述第二曲线对应的多条边框直线,并分别确定所述多条边框直线中每条边框直线,与相应的第二曲线上的各个点之间的一一对应关系;
校正单元,用于基于获得的一一对应关系对所述目标区域进行校正;其中,所述校正后的目标区域的外轮廓呈矩形的形状。
7.如权利要求6所述的装置,其特征在于,所述第二确定单元,具体用于:
确定所述第一曲线与所述目标文本掩膜的外轮廓之间的两个交点,每个交点对应于所述目标区域中的一个像素点;
从所述第一曲线上位于所述两个交点之间的部分,确定N个采样点;其中,N为不小于2的整数;
针对所述N个采样点,分别执行如下操作:针对一个采样点,确定所述第一曲线在所述一个采样点处的法线,与所述目标文本掩膜的外轮廓之间的多个交点;
根据确定的所述N个采样点各自对应的多个交点,确定所述第二曲线。
8.如权利要求7所述的装置,其特征在于,所述第二确定单元,具体还用于:
确定所述第一曲线在所述一个采样点处的切线斜率;
根据所述切线斜率,确定所述第一曲线在所述一个采样点处的法线;
确定所述法线与所述目标文本掩膜的外轮廓之间的多个交点。
9.如权利要求7所述的装置,其特征在于,所述第三确定单元,具体用于:
针对所述多条边框直线,分别执行如下操作:
针对一条边框直线,在所述一条边框直线上确定M个第一基准点,每两个相邻的第一基准点之间的线段长度相同;以及,
在所述一条边框直线相应的第二曲线上确定M个第二基准点,每两个相邻的第二基准点之间的曲线长度相同;
基于所述M个第一基准点以及所述M个第二基准点,确定所述一条边框直线与相应的第二曲线之间的一一对应关系。
10.如权利要求9所述的装置,其特征在于,所述校正单元,具体用于:
根据所述M个第一基准点以及所述M个第二基准点,确定所述目标区域的每个像素点与在所述校正后的文本图像中对应像素点之间进行坐标转换的转换矩阵;
针对所述校正后的文本图像中各个像素点,分别执行如下操作:
针对一个像素点,确定所述一个像素点与所述M个第一基准点之间的欧氏距离;
基于获得的各个欧氏距离以及所述转换矩阵,确定所述一个像素点在所述目标区域中的对应的像素点坐标;
根据所述校正后的文本图像中各个像素点与在所述目标区域中的对应的像素点坐标,获得所述校正后的文本图像。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,
所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法的步骤。
12.一种计算机存储介质,其上存储有计算机程序指令,其特征在于,
该计算机程序指令被处理器执行时实现权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110643271.9A CN113449724B (zh) | 2021-06-09 | 2021-06-09 | 一种图像文本校正方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110643271.9A CN113449724B (zh) | 2021-06-09 | 2021-06-09 | 一种图像文本校正方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113449724A true CN113449724A (zh) | 2021-09-28 |
CN113449724B CN113449724B (zh) | 2023-06-16 |
Family
ID=77810964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110643271.9A Active CN113449724B (zh) | 2021-06-09 | 2021-06-09 | 一种图像文本校正方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449724B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461019A (zh) * | 2020-04-01 | 2020-07-28 | 黑龙江文茁教育科技有限公司 | 一种汉字书写质量的评价方法、系统及设备 |
CN114092695A (zh) * | 2022-01-21 | 2022-02-25 | 武汉精立电子技术有限公司 | 一种基于分割模型的roi提取方法及装置 |
WO2024078233A1 (zh) * | 2022-10-10 | 2024-04-18 | 杭州睿胜软件有限公司 | 包含文本的图像处理方法、系统及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7072527B1 (en) * | 1998-06-30 | 2006-07-04 | Sharp Kabushiki Kaisha | Image correction apparatus |
CN109829437A (zh) * | 2019-02-01 | 2019-05-31 | 北京旷视科技有限公司 | 图像处理方法、文本识别方法、装置和电子系统 |
WO2020097909A1 (zh) * | 2018-11-16 | 2020-05-22 | 北京比特大陆科技有限公司 | 文本检测方法、装置及存储介质 |
CN111612009A (zh) * | 2020-05-21 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、设备和存储介质 |
CN112434696A (zh) * | 2020-12-11 | 2021-03-02 | 上海眼控科技股份有限公司 | 一种文本方向校正方法、装置、设备及存储介质 |
CN112801088A (zh) * | 2020-12-31 | 2021-05-14 | 科大讯飞股份有限公司 | 一种扭曲文本行图像矫正的方法和相关装置 |
-
2021
- 2021-06-09 CN CN202110643271.9A patent/CN113449724B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7072527B1 (en) * | 1998-06-30 | 2006-07-04 | Sharp Kabushiki Kaisha | Image correction apparatus |
WO2020097909A1 (zh) * | 2018-11-16 | 2020-05-22 | 北京比特大陆科技有限公司 | 文本检测方法、装置及存储介质 |
CN109829437A (zh) * | 2019-02-01 | 2019-05-31 | 北京旷视科技有限公司 | 图像处理方法、文本识别方法、装置和电子系统 |
CN111612009A (zh) * | 2020-05-21 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、设备和存储介质 |
CN112434696A (zh) * | 2020-12-11 | 2021-03-02 | 上海眼控科技股份有限公司 | 一种文本方向校正方法、装置、设备及存储介质 |
CN112801088A (zh) * | 2020-12-31 | 2021-05-14 | 科大讯飞股份有限公司 | 一种扭曲文本行图像矫正的方法和相关装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461019A (zh) * | 2020-04-01 | 2020-07-28 | 黑龙江文茁教育科技有限公司 | 一种汉字书写质量的评价方法、系统及设备 |
CN111461019B (zh) * | 2020-04-01 | 2023-04-07 | 黑龙江文茁教育科技有限公司 | 一种汉字书写质量的评价方法、系统及设备 |
CN114092695A (zh) * | 2022-01-21 | 2022-02-25 | 武汉精立电子技术有限公司 | 一种基于分割模型的roi提取方法及装置 |
WO2024078233A1 (zh) * | 2022-10-10 | 2024-04-18 | 杭州睿胜软件有限公司 | 包含文本的图像处理方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113449724B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113449724A (zh) | 一种图像文本校正方法、装置、设备及存储介质 | |
US10929648B2 (en) | Apparatus and method for data processing | |
US20220284638A1 (en) | Method for image processing, computer device, and storage medium | |
CN112733794B (zh) | 人脸图像的视线矫正方法、装置、设备及存储介质 | |
CN112733797B (zh) | 人脸图像的视线矫正方法、装置、设备及存储介质 | |
WO2021164269A1 (zh) | 基于注意力机制的视差图获取方法和装置 | |
BRPI0615219A2 (pt) | treinamento de redes neurais convolucionais em unidades de processamento grÁfico | |
WO2023035531A1 (zh) | 文本图像超分辨率重建方法及其相关设备 | |
CN111553936B (zh) | 一种点云配准方法、系统、装置和存储介质 | |
CN113870293A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110992243B (zh) | 椎间盘截面图像构建方法、装置、计算机设备及存储介质 | |
US10949523B2 (en) | Method and electronic device for providing image-based CAPTCHA challenge | |
CN112329752B (zh) | 人眼图像处理模型的训练方法、图像处理方法及装置 | |
EP4309116A1 (en) | User input based distraction removal in media items | |
CN116071601A (zh) | 训练模型的方法、装置、设备和介质 | |
US20220020113A1 (en) | Image resizing using seam carving | |
EP4075381B1 (en) | Image processing method and system | |
CN113516697A (zh) | 图像配准的方法、装置、电子设备及计算机可读存储介质 | |
CN113762173B (zh) | 人脸光流估计及光流值预测模型的训练方法和装置 | |
CN115187834A (zh) | 一种票据识别的方法及装置 | |
CN113361511B (zh) | 修正模型的建立方法、装置、设备及计算机可读存储介质 | |
CN115861417A (zh) | 车位重建方法、装置、电子设备和存储介质 | |
WO2020192212A1 (zh) | 图片处理方法、图集处理方法、计算机设备和存储介质 | |
CN114676496A (zh) | 一种用于对导弹的外流场网格进行处理的方法和相关产品 | |
CN113920525A (zh) | 文本矫正方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |