CN109829437A - 图像处理方法、文本识别方法、装置和电子系统 - Google Patents

图像处理方法、文本识别方法、装置和电子系统 Download PDF

Info

Publication number
CN109829437A
CN109829437A CN201910106716.2A CN201910106716A CN109829437A CN 109829437 A CN109829437 A CN 109829437A CN 201910106716 A CN201910106716 A CN 201910106716A CN 109829437 A CN109829437 A CN 109829437A
Authority
CN
China
Prior art keywords
line
text
image
point
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910106716.2A
Other languages
English (en)
Other versions
CN109829437B (zh
Inventor
贺欣
姚聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN201910106716.2A priority Critical patent/CN109829437B/zh
Publication of CN109829437A publication Critical patent/CN109829437A/zh
Application granted granted Critical
Publication of CN109829437B publication Critical patent/CN109829437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种图像处理方法、文本识别方法、装置和电子系统;其中,该图像处理方法包括:获取待处理图像;通过预先训练完成的特征提取网络,从待处理图像中提取特征图;特征图中包含有文本行的几何属性;根据几何属性,确定文本行的矫正基准点;根据矫正基准点的当前位置和预设的目标位置,确定矫正变换函数;根据矫正变换函数变换特征图,以通过变换后的特征图得到矫正后的图像。本发明中,由于文本行的几何属性可以准确地描述文本行的形状,即使是形变严重的文本行,基于几何属性确定的矫正变化函数也可以使文本行矫正至规则形状,从而提高了后续文本识别的准确性。

Description

图像处理方法、文本识别方法、装置和电子系统
技术领域
本发明涉及图像处理技术领域,尤其是涉及一种图像处理方法、文本识别方法、装置和电子系统。
背景技术
在文本识别过程中,对于图像中形状不规则的文本行(如倾斜、弯曲的文本行),通常先将这些文本行矫正到规则形状再进行识别,以文本保证识别准确率。相关技术中,通常预先训练矫正模型,通过该矫正模型对图像进行矫正;但是这些矫正模型大多通过弱监督的方式训练而得,对于形变严重的文本行,矫正模型难以将文本行矫正至规则形状,从而影响了后续文本识别的准确率。
发明内容
有鉴于此,本发明的目的在于提供一种图像处理方法、文本识别方法、装置和电子系统,以使文本行矫正至规则形状,从而提高后续文本识别的准确性。
第一方面,本发明实施例提供了一种图像处理方法,该方法包括:获取待处理图像;通过预先训练完成的特征提取网络,从待处理图像中提取特征图;特征图中包含有文本行的几何属性;根据几何属性,确定文本行的矫正基准点;根据矫正基准点的当前位置和预设的目标位置,确定矫正变换函数;根据矫正变换函数变换特征图,以通过变换后的特征图得到矫正后的图像。
在本发明较佳的实施例中,上述特征提取网络包括残差网络和特征金字塔网络;上述通过预先训练完成的特征提取网络,从待处理图像中提取特征图的步骤,包括:将待处理图像输入至残差网络中,输出预设层级数量的初始特征图;通过特征金字塔网络对多个初始特征图进行融合处理,得到融合后的特征图。
在本发明较佳的实施例中,上述根据几何属性,确定文本行的矫正基准点的步骤,包括:根据几何属性,确定文本行的中心线;其中,中心线由多个中心点组成;根据中心线和几何属性,确定文本行的矫正基准点。
在本发明较佳的实施例中,上述几何属性包括:待处理图像中每个点位于文本行的中心线的概率和文本行的中心线在待处理图像中每个点上的切线与水平线的内角;上述根据几何属性,确定文本行的中心线的步骤,包括:根据待处理图像中每个点位于文本行的中心线的概率,确定待处理图像中文本行的中心线区域;随机从中心线区域中选取一个目标点;根据文本行的中心线在目标点上的切线与水平线的内角,确定目标点对应的中心点;按照预设的步长,沿着文本行的中心线在目标点上的切线的两个方向分别选取一个新的目标点,继续执行确定目标点对应的中心点的步骤,直至到达中心线区域的两端;将确定出的各个中心点作为文本行的中心线。
在本发明较佳的实施例中,上述根据待处理图像中每个点位于文本行的中心线的概率,确定待处理图像中文本行的中心线区域的步骤,包括:将特征图中,包含有待处理图像中每个点位于文本行的中心线的概率的子特征图中,低于预设概率阈值的特征点置零处理,得到处理后的子特征图;将处理后的子特征图中的非零区域对应的图像区域,确定为待处理图像中文本行的中心线区域。
在本发明较佳的实施例中,上述根据文本行的中心线在目标点上的切线与水平线的内角,确定目标点对应的中心点的步骤,包括:根据文本行的中心线在目标点上的切线与水平线的内角,确定文本行的中心线在目标点上的法线;将法线位于中心线区域中的线段的中心点确定为目标点对应的中心点。
在本发明较佳的实施例中,上述几何属性包括:待处理图像中每个点对应的字符尺寸、和文本行的中心线的每个点对应的字符方向线与水平线的内角;上述根据中心线和几何属性,确定文本行的矫正基准点的步骤,包括:对于中心线上的每个中心点或者按照预设的采样间隔采样后的每个中心点,根据当前中心点对应的字符尺寸,以及字符方向线与水平线的内角,确定当前中心点对应的矫正基准点;将所有中心点对应的矫正基准点确定为文本行的矫正基准点。
在本发明较佳的实施例中,上述根据当前中心点对应的字符尺寸,以及字符方向线与水平线的内角,确定当前中心点对应的矫正基准点的步骤,包括:
其中,ci为第i个当前中心点;si为第i个当前中心点的对应的字符尺寸;为第i个当前中心点的对应的字符方向线与水平线的内角;p2i-1为第i个当前中心点的对应的、位于文本行上边缘的矫正基准点;p2i为第i个当前中心点的对应的、位于文本行下边缘的矫正基准点。
在本发明较佳的实施例中,上述根据矫正基准点的当前位置和预设的目标位置,确定矫正变换函数的步骤,包括:根据矫正基准点的当前位置和预设的目标位置,建立约束方程;求解约束方程,得到预设的矫正变换函数中的约束参数值;矫正变换函数为薄板样条变换函数;将约束参数值代入至矫正变换函数中,得到最终的矫正变换函数。
第二方面,本发明实施例还提供一种文本识别方法,该方法包括:获取待识别图像;通过上述图像处理方法,对待识别图像进行图像处理,得到处理后的待识别图像的特征图;将处理后的待识别图像的特征图输入至预先训练完成的文本识别网络,输出待识别图像中的文本行识别结果。
在本发明较佳的实施例中,上述文本识别网络包括:包含有多层卷积层的卷积网络、双向递归神经网络和全连接层。
第三方面,本发明实施例还提供一种图像处理装置,该装置包括:第一图像获取模块,用于获取待处理图像;特征图提取模块,用于通过预先训练完成的特征提取网络,从待处理图像中提取特征图;特征图中包含有文本行的几何属性;基准点确定模块,用于根据几何属性,确定文本行的矫正基准点;函数确定模块,用于根据矫正基准点的当前位置和预设的目标位置,确定矫正变换函数;特征图变换模块,用于根据矫正变换函数变换特征图,以通过变换后的特征图得到矫正后的图像。
第四方面,本发明实施例还提供一种文本识别装置,该装置包括:第二图像获取模块,用于获取待识别图像;矫正模块,用于通过上述图像处理方法,对待识别图像进行图像处理,得到处理后的待识别图像的特征图;文本行识别模块,用于将处理后的待识别图像的特征图输入至预先训练完成的文本识别网络,输出待识别图像中的文本行识别结果。
第五方面,本发明实施例还提供一种电子系统,电子系统包括:图像采集设备、处理设备和存储装置;图像采集设备,用于获取预览视频帧或图像数据;存储装置上存储有计算机程序,计算机程序在被处理设备运行时执行如上述图像处理方法,或者上述文本识别方法的步骤。
第六方面,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行如上述图像处理方法,或者上述文本识别方法的步骤。
本发明实施例提供的一种图像处理方法、文本识别方法、装置和电子系统,首先通过预先训练完成的特征提取网络,从待处理图像中提取包含有文本行的几何属性的特征图;根据该几何属性可以确定文本行的矫正基准点,进而确定矫正变换函数;最后根据该矫正变换函数变换特征图,以通过变换后的特征图得到矫正后的图像。该方式中,由于文本行的几何属性可以准确地描述文本行的形状,即使是形变严重的文本行,基于几何属性确定的矫正变化函数也可以使文本行矫正至规则形状,从而提高了后续文本识别的准确性。
本发明的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本发明的上述技术即可得知。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施方式,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种电子系统的结构示意图;
图2为本发明实施例提供的一种图像处理方法的流程图;
图3为本发明实施例提供的另一种图像处理方法中,通过特征提取网络从图像中提取特征图的示意图;
图4为本发明实施例提供的另一种图像处理方法中,确定目标点对应的中心点的示意图;
图5为本发明实施例提供的另一种图像处理方法中,确定当前中心点对应的矫正基准点的示意图;
图6为本发明实施例提供的另一种图像处理方法的流程图;
图7为本发明实施例提供的一种文本识别方法的流程图;
图8为本发明实施例提供的一种文本识别网络的网络结构示意图;
图9为本发明实施例提供的一种图像处理装置的结构示意图;
图10为本发明实施例提供的一种文本识别装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到现有的文本行矫正方式对于形变严重的文本行矫正效果较差,从而影响后续文本识别的准确率的问题,本发明实施例提供了一种图像处理方法、文本识别方法、装置和电子系统,该技术可以应用于服务器、计算机、相机、手机、平板电脑、车辆中控设备等多种设备中,该技术可采用相应的软件和硬件实现,以下对本发明实施例进行详细介绍。
实施例一:
首先,参照图1来描述用于实现本发明实施例的图像处理方法、文本识别方法、装置和电子系统的示例电子系统100。
如图1所示的一种电子系统的结构示意图,电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子系统100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子系统也可以具有其他组件和结构。
所述处理设备102可以是网关,也可以为智能终端,或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对所述电子系统100中的其它组件的数据进行处理,还可以控制所述电子系统100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理设备102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述图像采集设备110可以采集预览视频帧或图像数据,并且将采集到的预览视频帧或图像数据存储在所述存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的图像处理方法、文本识别方法、装置和电子系统的示例电子系统中的各器件可以集成设置,也可以分散设置,诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体,而将图像采集设备110设置于可以采集到目标图像的指定位置。当上述电子系统中的各器件集成设置时,该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。
实施例二:
本实施例提供了一种图像处理方法,该方法由上述电子系统中的处理设备执行;该处理设备可以是具有数据处理能力的任何设备或芯片。该处理设备可以独立对接收到的信息进行处理,也可以与服务器相连,共同对信息进行分析处理,并将处理结果上传至云端。如图2所示,该图像处理方法包括如下步骤:
步骤S202,获取待处理图像。
该待处理图像可以是设备采集的原始图像或原始视频帧,也可以是从原始图像或原始视频帧中截取的局部图像。获取待处理图像时,具体可以由人工判断图像中是否包含有文本行,也可以通过预先训练的网络模型识别图像中是否包含有文本行,进而将包含有文本行的图像进行后续处理;另外,还可以无需上述判断过程,直接对图像进行后续处理。
步骤S204,通过预先训练完成的特征提取网络,从待处理图像中提取特征图;该特征图中包含有文本行的几何属性。
该特征提取网络可以通过多种卷积神经网络实现,如残差网络、VGG网络等。文本行的几何属性通常包括文本行的宽度、长度、中心位置、各个位置的弯曲程度、整体形状、文本行中各个文字或符号的方向等。上述特征图通常包含多层二维矩阵,可以预设特征提取网络输出的特征图中各层二维矩阵中的几何属性类别。
步骤S206,根据上述几何属性,确定文本行的矫正基准点。
该文本行的矫正基准点通常为文本行区域中的指定点,如文本行区域的端点、轮廓点、中心点、中轴点等。通过对上述几何属性进行几何变换等处理,可以得到文本行的矫正基准点。
步骤S208,根据矫正基准点的当前位置和预设的目标位置,确定矫正变换函数。
对数据矩阵(如图像、特征图等)的矫正过程,可以理解为将当前矩阵中的各个点逐一映射至另一矩阵中的过程;当前矩阵中的某个点映射至另一矩阵中的哪个点,可以通过上述矫正变换函数确定,即该矫正变换函数表征了当前矩阵与另一矩阵之间的映射关系。为了确定该矫正变换函数,可以在另一矩阵对应的平面上预先选定目标位置,在选定过程中,当前矩阵中的每个矫正基准点在另一矩阵对应的平面上都对应有目标位置。通过每个矫正基准点,以及对应的目标位置,可以求得当前矩阵与另一矩阵之间的变换约束参数;矫正变换函数可以通过多种变换函数实现,如薄板样条函数、规则样条函数、张力样条函数。这些变换函数均设置有初始的函数结构,将上述求得的变换约束参数代入至初始的函数结构,即可得到完整的矫正变换函数。
步骤S210,根据矫正变换函数变换特征图,以通过变换后的特征图得到矫正后的图像。
在实际实现时,可以针对特征图中的每个点采用矫正变换函数确定该点在变换后的特征图中的位置。在变换过程中,可能特征图中的多个点对应变换后的特征图中的同一位置,此时可以通过预设规则或采用随机的方式确定放置在该同一位置上的点;在变换过程中,也可能特征图中的一个点对应变换后的特征图中的位置多个位置,此时可以采用插值方式,基于该点或该点附近的多个点确定多个位置上的点,进而将确定的点放置在多个位置上。
变换后的特征图后续可以用于文本行识别,此时可以将变换后的特征图输入至预先训练的文本行识别模型中,即可输出图像中包含的文本内容;变换后的特征图后续也可以用于变换得到矫正后的图像,此时可以将该变换后的特征图进行卷积计算,即可得到矫正后的图像。当然,基于该矫正后的图像也可以识别图像中的文本内容,具体通常是先对矫正后的图像提取特征图,再根据该特征图识别图像中的文本内容。
本发明实施例提供的一种图像处理方法,首先通过预先训练完成的特征提取网络,从待处理图像中提取包含有文本行的几何属性的特征图;根据该几何属性可以确定文本行的矫正基准点,进而确定矫正变换函数;最后根据该矫正变换函数变换特征图,以通过变换后的特征图得到矫正后的图像。该方式中,由于文本行的几何属性可以准确地描述文本行的形状,即使是形变严重的文本行,基于几何属性确定的矫正变化函数也可以使文本行矫正至规则形状,从而提高了后续文本识别的准确性。
实施例三:
本实施例提供了另一种图像处理方法,该方法在上述实施例的基础上实现;本实施例重点描述通过预先训练完成的特征提取网络,从待处理图像中提取特征图的具体过程。本实施例中的特征提取网络包括残差网络(如ResNet网络)和特征金字塔网络;其中,相对于其他类型的卷积神经网络,残差网络中通常包含有更多层数的卷积层,因而可以提取更深层次的特征。特征金字塔网络也可以称为FPN(feature pyramid networks)网络,可以对残差网络中指定层级的卷积层输出的初始特征图进行融合,从而得到融合有各个层级特征的融合特征图。
基于上述描述,本实施例中的图像处理方法包括如下步骤:
步骤302,获取待处理图像。
步骤304,将待处理图像输入至残差网络中,输出预设层级数量的初始特征图;
步骤306,通过特征金字塔网络对多个初始特征图进行融合处理,得到融合后的特征图。
具体可以通过多种形式对多个初始特征图进行融合处理,如从顶部的初始特征图开始,当前层的初始特征图融合至下一层的初始特征图中,直至最底层级的初始特征图,得到最终的特征图;再如,当前层的初始特征图融合至下一层的初始特征图之前,还可以与其他层或其他层组合的初始特征图进行融合,再将融合后的初始特征图融合至下一层的初始特征图,直至最底层级的初始特征图,得到最终的特征图。
基于上述描述,上述步骤306还可以通过下述步骤02-08实现:
步骤02,根据初始特征图的尺度,将预设层级数量的初始特征图依次排列;其中,最顶层级的初始特征图的尺度最小;最底层级的初始特征图的尺度最大;且预设层级数量的初始特征图中,最顶层级至最低层级的初始特征图的尺寸逐渐由小变大。通常,最顶层级的初始特征图包含有高语义低分辨率特征;而最低层级的初始特征图包含有低语义高分辨率特征。
通常,对于卷积神经网络,较浅层级(即靠近输入端)的卷积层输出的初始特征图较大,较深层级(即靠近输出端)的卷积层输出的初始特征图较小。
步骤04,将最顶层级的初始特征图确定为最顶层级的融合特征图;
由于最顶层级的初始特征图不存在上一层极的初始特征图,因而在对每个层级的初始特征图进行融合过程中,最顶层级的初始特征图不再进行融合处理,直接将该初始特征图确定为最顶层级的融合特征图。
步骤06,除最顶层级以外,将当前层级的初始特征图和当前层级的上一层级的融合特征图进行融合,得到当前层级的融合特征图,直至得到指定层级的融合特征图;
例如,对于第二层级的初始特征图(即最顶层级的初始特征图的下一层的初始特征图),将第二层级的初始特征图与最顶层级的融合特征图进行融合,得到第二层级的融合特征图。依次类推,得到第三层级的融合特征图、第四层级的融合特征图等。需要说明的是,可以根据实际需求预先确定上述指定层级,该指定层级可以为最低层级,也可以为中间层级中的某个层级。
由于初始特征图间尺度可能不同,在进行融合之前通常需要对相融合的初始特征图进行预处理(如卷积运算、差值运算等),以使相融合的初始特征图间的尺度相互匹配;初始特征图间进行融合时,相应的特征点间可以进行点乘、点加或其他逻辑运算。基于此,上述步骤06中,将当前层级的初始特征图和当前层级的上一层级的融合特征图进行融合的过程,还可以通过下述步骤(1)-(3)实现:
步骤(1),将当前层级的初始特征图进行第一卷积运算。
该第一卷积运算可以通过1*1的卷积核实现,该第一卷积运算可以减少初始特征图的层数,但不改变初始特征图的宽度和高度。
步骤(2),将当前层级的上一层级的融合特征图进行插值运算。
具体可以根据当前层级的初始特征图的尺度,对当前层级的上一层级的融合特征图进行插值运算,得到与当前层级的初始特征图的尺度相匹配的当前层级的上一层级的融合特征图。
由于当前层级的上一层级的融合特征图的尺度小于当前层级的初始特征图,为了便于融合,需要对当前层级的上一层级的融合特征图“拉伸”至与当前层级的初始特征图的尺度相同,该“拉伸”的过程即可通过上述插值运算实现。以线性插值为例,简单举例说明插值运算的过程,例如,融合特征图中的局部三个特征点的数值分别为5、7、9,为了使该融合特征图拉伸至预设尺度,需要将上述三个特征点扩展至五个特征点,此时可以将特征点5和特征点7的均值,即特征点6插入至特征点5和特征点7之间,将特征点7和特征点9的均值,即特征点9插入至特征点7和特征点9之间,至此即可将局部三个特征点扩展为五个特征点,分别为5、6、7、8、9。
除上述线性插值外,还可以使用其他插值算法,如双线性插值;双线性插值通常分别从x方向和y方向分别进行插值运算;具体而言,首先从融合特征图中选择四个特征点,分别为Q11、Q12、Q21和Q22,这四个特征点在融合特征图中呈矩形分布;在x方向,Q11和Q21的x坐标经线性插值后得到的一个插值点R1,Q12和Q22的x坐标经线性插值后得到的一个插值点R2;再在y方向,将插值点R1和插值点R2经线性插值后得到最终的差值点P,该点P即为一次双线性插值后的新增特征点。
步骤(3),将卷积运算后的当前层级的初始特征图与插值运算后的当前层级的上一层级的融合特征图进行逐点相加运算,得到当前层级的融合特征图。
经插值运算后,当前层级的上一层级的融合特征图的尺度与当前层级的初始特征图相同,因此,可以将对应的特征点进行逐点相加运算,当然也可以进行逐点相乘或其他逻辑运算,当前层级的融合特征图。
步骤08,将指定层级的融合特征图确定为最终的融合后的特征图。
该指定层级可以为最低层级,也可以为某一中间层级;当指定层级为中间层级时,该指定层级以后的初始特征图将不再参与融合过程。
图3所示为一种通过特征提取网络从图像中提取特征图的示意图;待处理图像输入至残差网络后,输出不同尺度的多层初始特征图;FPN网络再对多层初始特征图进行逐层融合处理。图3还示出了将当前层级的初始特征图和当前层级的上一层级的融合特征图进行融合的具体过程;以第二层级的初始特征图和最顶层级的融合特征图进行融合为例,A端为最顶层级的融合特征图,B端为第二层级的初始特征图;最顶层级的融合特征图将双线性插值运算(即图3中的“2ⅹup”),第二层级的初始特征图经1ⅹ1卷积计算,再将卷积运算后的第二层级的初始特征图与插值运算后的最顶层级的融合特征图进行逐点相加运算,得到当前层级的融合特征图(即图3中的C端)。
另外,为了进一步优化特征提取网络输出的特征图,上述特征提取网络还包括预设层数的卷积层;通过该预设层数的卷积层可以对融合后的特征图进行特征映射处理,得到处理后的特征图。该预设层数的卷积层与上述特征金字塔网络的输出端连接;作为一种示例,该预设层数的卷积层可以为两层卷积层,每层卷积层包含有32个卷积核,卷积核大小为3ⅹ3。
步骤308,根据上述特征图中包含的几何属性,确定文本行的矫正基准点。
步骤310,根据矫正基准点的当前位置和预设的目标位置,确定矫正变换函数。
步骤312,根据矫正变换函数,变换特征图,以通过变换后的特征图得到矫正后的图像。
上述方式中,通过特征提取网络中的残差网络提取待处理图像的多层初始特征图,通过特征金字塔网络将多个初始特征图进行融合,得到包含有文本行的几何属性的特征图;进而根据该几何属性可以确定文本行的矫正基准点,进而确定矫正变换函数;最后根据该矫正变换函数,变换特征图,以通过变换后的特征图得到矫正后的图像。该方式中,由于文本行的几何属性可以准确地描述文本行的形状,即使是形变严重的文本行,基于几何属性确定的矫正变化函数也可以使文本行矫正至规则形状,从而提高了后续文本识别的准确性。
实施例四:
本实施例提供了另一种图像处理方法,该方法在上述实施例的基础上实现;本实施例重点描述文本行的矫正基准点以及矫正变换函数的确定过程。
本实施例中,为了确定文本行的校正基准点,可以首先根据文本行的几何属性,确定文本行的中心线;该中心线由多个中心点组成,也可以理解为多个中心点的集合;进而再根据该中心线和几何属性,确定文本行的矫正基准点。其中,中心线可以较为准确地描述文本行的形状、长度等特征,具体可以根据文本行几何属性中描述待处理图像中各点的位置属性,确定出一个大致的文本行的中心区域,进而再基于中心区域各处的宽度,确定中心点,从而得到文本行的中心线。该中心线可以作为文本行的基准线条,再结合几何属性可以定位到文本行各个位置的位置点,因此,可以根据预先设置的规则,从各个位置点中确定文本行的矫正基准点。
上述特征提取网络输出的特征图中,具体可以包含如下几种几何属性:待处理图像中每个点位于文本行的中心线的概率、文本行的中心线在待处理图像中每个点上的切线与水平线的内角、待处理图像中每个点对应的字符尺寸、以及文本行的中心线的每个点对应的字符方向线与水平线的内角。其中,待处理图像中每个点对应的字符尺寸可以理解为待处理图像中每个点所处的字符的高度;文本行的中心线在待处理图像中每个点上的切线与水平线的内角具体可以表示为文本行的中心线在待处理图像中每个点上的切线与水平线的内角的正弦值和余弦值;文本行的中心线的每个点对应的字符方向线与水平线的内角具体可以表示为文本行的中心线的每个点对应的字符方向线与水平线的内角的正弦值和余弦值。在实际实现时,可以通过特征图中的一层子特征图(也可以称为一个channel的子特征图)表征一种几何属性。
基于上述描述,本实施例中的图像处理方法包括如下步骤:
步骤402,获取待处理图像。
步骤404,将待处理图像输入至残差网络中,输出预设层级数量的初始特征图;
步骤406,通过特征金字塔网络对多个初始特征图进行融合处理,得到融合后的特征图。
步骤408,根据待处理图像中每个点位于文本行的中心线的概率,确定待处理图像中文本行的中心线区域;
该中心线区域可以理解为包含有文本行的中心线的区域。越是靠近文本行的中心线的点,概率越大;因此可以设置一个概率阈值,基于该概率阈值对待处理图像中的每个点进行筛选,从而得到文本行的中心线区域。基于此,上述步骤408还可以通过下述步骤12-14实现:
步骤12,将特征图中,包含有待处理图像中每个点位于文本行的中心线的概率的子特征图中,低于预设概率阈值的特征点置零处理,得到处理后的子特征图;
步骤14,将处理后的子特征图中的非零区域对应的图像区域,确定为待处理图像中文本行的中心线区域。
作为示例,该概率阈值可以设置为0.7、0.8等。由于子特征图中的每个点均对应有待处理图像中的一个或多个点,因此可以从待处理图像中确定出处理后的子特征图中的非零区域对应的图像区域,该图像区域即为待处理图像中文本行的中心线区域。
步骤410,随机从中心线区域中选取一个目标点;
该目标点可以为中心线区域中的任一点,只需该目标点属于该中心线区域即可,具体位置不影响后续中心点的确定。
步骤412,根据文本行的中心线在目标点上的切线与水平线的内角,确定目标点对应的中心点;
文本行的中心线在目标点上的切线与水平线的内角,即目标点上的切线的方向,基于该切线的方向,可以得到目标点上的法线的角度,穿过目标点作法线,该法线位于中心线区域内的线段位置即可确定,该线段的中心点即上述目标点对应的中心点。基于该描述,并结合图4,上述步骤412还可以通过下述步骤22-24实现:
步骤22,根据文本行的中心线在目标点上的切线与水平线的内角,确定文本行的中心线在目标点上的法线;
由于水平线的方向确定,根据文本行的中心线在目标点上的切线与水平线的内角,即可确定切线的方向,通过目标点即可做出切线;与该切线90度夹角的方向,即法线的方向,通过目标点即可做出法线。
步骤24,将法线位于中心线区域中的线段的中心点确定为目标点对应的中心点。
法线位于中心线区域中的线段即图4中的PQ线段,其中,P点和Q点位法线与中心线区域边缘线条的两个交点;由于P点和Q点的位置已知,PQ线段的中心点M的位置也很容易得出。该中心点M即目标点对应的中心点。
步骤414,按照预设的步长,沿着文本行的中心线在目标点上的切线的两个方向分别选取一个新的目标点,继续执行确定目标点对应的中心点的步骤,直至到达中心线区域的两端;将确定出的各个中心点作为文本行的中心线。
如图4中,新的目标点位于目标点的两个方向,目标点以及两个新的目标点均位于切线上;上述步长可以预先设置,可以理解,步长越小,确定出的中心点越多,中心线越准确;步长越大,确定出的中心点越少,中心线越粗糙;如果基于该步长选取的新的目标点位于中心线区域以外,可以逐渐缩小该步长,直至选取的新的目标点位于中心线区域以内;但如果步长缩小至一定长度后,选取的新的目标点依然位于中心线区域以外,则说明当前的目标点可能已经到达了中心线区域的两端,则不再选取的新的目标点。
步骤416,对于中心线上的每个中心点或者按照预设的采样间隔采样后的每个中心点,根据当前中心点对应的字符尺寸,以及字符方向线与水平线的内角,确定当前中心点对应的矫正基准点;将所有中心点对应的矫正基准点确定为文本行的矫正基准点。
可以理解,确定出的中心线不仅是中心线区域的中心线,也是文本行的中心线。中心线上的每个中心点均可确定出一个或多个矫正基准点。如图5所示,对于中心点W,根据字符方向线与水平线的内角,可以确定通过该中心点W的字符方向线的位置,再根据该中心点W的位置,以及该中心点W对应的字符尺寸,可以确定该中心点W处文本行的宽度,以及该中心点W处文本行的边缘,如5中的点R和点L,即该中心点W处文本行的边缘点,这两个边缘点即可作为该中心点W对应的矫正基准点。
上述步骤416中,确定当前中心点对应的矫正基准点的过程还可以通过公式的方式实现:
其中,ci为第i个当前中心点;si为第i个当前中心点的对应的字符尺寸;为第i个当前中心点的对应的字符方向线与水平线的内角;p2i-1为第i个当前中心点的对应的、位于文本行上边缘的矫正基准点;p2i为第i个当前中心点的对应的、位于文本行下边缘的矫正基准点。
基于上述方式,每个中心点可以确定出两个矫正基准点,可以把所有的中心点对应的矫正基准点确定为文本行的矫正基准点,也可以从所有的中心点对应的矫正基准点中按照预设间隔筛选出部分矫正基准点,作为文本行的矫正基准点。
步骤418,根据矫正基准点的当前位置和预设的目标位置,建立约束方程;
预设的目标位置可以排列为一条或多条直线,目标位置的总长度可以参考图像中的中心线的长度设置。假设矫正基准点有L个点,各个矫正基准点的当前位置表示为预设的目标位置可以理解为L个点经矫正变换函数变换后的函数值,表示为vi,i=1,2,…,L。以薄板样条变换函数为例,该函数通常有L+3个约束参数,因此,建立的约束方程包括L个f(xi,yi)=vi,以及其中,w是预设向量。
步骤420,求解上述约束方程,得到预设的矫正变换函数中的约束参数值;该矫正变换函数为薄板样条变换函数;
上述约束方程建立后,可以通过如下方程求得约束参数值:
其中,S为薄板样条变换函数的作用矩阵;Q=[11×L;X;Y],a、w和v均为预设向量;
步骤422,将约束参数值代入至矫正变换函数中,得到最终的矫正变换函数。
步骤412,根据上述矫正变换函数变换特征图,以通过变换后的特征图得到矫正后的图像。
通过上述约束参数值得到最终的矫正变换函数,由于矫正变换函数较为复杂,难以通过一个固定的函数进行表达,但通过该矫正变换函数可以计算特征图中的每个点经变换后的位置;例如,特征图中的点(x,y)经变换后的(x’,y’)可通过下述公式计算:
其中,B(i,j)=||(xi,yi)-(ui,vi)||2;(ui,vi)为上述预设的目标位置;
图6示出了一种图像处理方法的流程图;包含有文本行“WIGAN”的图片经残差网络和FPN网络后,输出包含有文本行几何属性的特征图,该特征图包括六个子特征图,其中,子特征图1为待处理图像中每个点位于文本行的中心线的概率、子特征图2为待处理图像中每个点对应的字符尺寸、子特征图3为文本行的中心线在待处理图像中每个点上的切线与水平线的内角的余弦值、子特征图4为文本行的中心线在待处理图像中每个点上的切线与水平线的内角的正弦值、子特征图5为文本行的中心线的每个点对应的字符方向线与水平线的内角的余弦值、子特征图6为文本行的中心线的每个点对应的字符方向线与水平线的内角的正弦值。
通过上述特征图,可以得到文本行区域的多个中心点组成中心线,这些中心点采样后得到部分中心点ci;基于每个采样后的中心点可以得到两个矫正基准点即p2i-1和p2i;基于该矫正基准点,即可对上述特征图进行变换,得到变换后的图像。观察图6可知,原始图像中的文本行呈弧线状,而变换后的图像中的文本行呈规则的矩形。
上述方式中,从待处理图像中提取到包含有文本行的几何属性的特征图后,根据该几何属性可以确定文本行的矫正基准点,进而确定矫正变换函数;最后根据该矫正变换函数,变换特征图,以通过变换后的特征图得到矫正后的图像。该方式中,由于文本行的几何属性可以准确地描述文本行的形状,即使是形变严重的文本行,基于几何属性确定的矫正变化函数也可以使文本行矫正至规则形状,从而提高了后续文本识别的准确性。
实施例五:
对应于上述图像处理方法,本实施例还提供一种文本识别方法,如图7所示,该方法包括如下步骤:
步骤S702,获取待识别图像;
步骤S704,通过上述图像处理方法,对待识别图像进行图像处理,得到矫正后的待识别图像的特征图;
步骤S706,将矫正后的待识别图像的特征图输入至预先训练完成的文本识别网络,输出图像中的文本行识别结果。
该文本识别方法中,首先通过上述图像处理方法,对待识别图像进行图像处理,得到矫正后的待识别图像的特征图,进而再基于该特征图,使用文本识别网络识别图像中的文本行识别结果;该方式中,由于再图像处理过程中,使用文本行的几何属性准确地描述文本行的形状,基于几何属性确定的矫正变化函数可以使文本行矫正至规则形状,从而提高了文本识别的准确性。
进一步地,上述文本识别网络包括:包含有多层卷积层的卷积网络、双向递归神经网络和全连接层。其中,双向递归神经网络具体可以为双向LSTM(Long Short-TermMemory,长短期记忆网络)网络。图8示出了一种该文本识别网络的网络结构;其中,该文本识别网络包含四层卷积层(即conv1-x、conv2-x、conv3-x和conv4-x),一层双向LSTM网络(即Bi-LSTM)和一层全连接层(即fc)。
需要说明的是,上述各方法实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
实施例六:
对应于上述方法实施例,参见图9所示的一种图像处理装置的结构示意图,该装置包括:
第一图像获取模块90,用于获取待处理图像;
特征图提取模块91,用于通过预先训练完成的特征提取网络,从待处理图像中提取特征图;该特征图中包含有文本行的几何属性;
基准点确定模块92,用于根据几何属性,确定文本行的矫正基准点;
函数确定模块93,用于根据矫正基准点的当前位置和预设的目标位置,确定矫正变换函数;
特征图变换模块94,用于根据矫正变换函数变换特征图,以通过变换后的特征图得到矫正后的图像。
进一步地,上述特征提取网络包括残差网络和特征金字塔网络;上述特征图提取模块用于:通过预先训练完成的特征提取网络,从待处理图像中提取特征图的步骤,包括:将待处理图像输入至残差网络中,输出预设层级数量的初始特征图;通过特征金字塔网络对多个初始特征图进行融合处理,得到融合后的特征图。
进一步地,上述基准点确定模块用于:根据几何属性,确定文本行的中心线;其中,中心线由多个中心点组成;根据中心线和几何属性,确定文本行的矫正基准点。
进一步地,上述几何属性包括:待处理图像中每个点位于文本行的中心线的概率和文本行的中心线在待处理图像中每个点上的切线与水平线的内角;上述基准点确定模块具体用于:根据待处理图像中每个点位于文本行的中心线的概率,确定待处理图像中文本行的中心线区域;随机从中心线区域中选取一个目标点;根据文本行的中心线在目标点上的切线与水平线的内角,确定目标点对应的中心点;按照预设的步长,沿着文本行的中心线在目标点上的切线的两个方向分别选取一个新的目标点,继续执行确定目标点对应的中心点的步骤,直至到达中心线区域的两端;将确定出的各个中心点作为文本行的中心线。
进一步地,上述基准点确定模块具体用于:将特征图中,包含有待处理图像中每个点位于文本行的中心线的概率的子特征图中,低于预设概率阈值的特征点置零处理,得到处理后的子特征图;将处理后的子特征图中的非零区域对应的图像区域,确定为待处理图像中文本行的中心线区域。
进一步地,上述基准点确定模块具体用于:根据文本行的中心线在目标点上的切线与水平线的内角,确定文本行的中心线在目标点上的法线;将法线位于中心线区域中的线段的中心点确定为目标点对应的中心点。
进一步地,上述几何属性包括:待处理图像中每个点对应的字符尺寸、和文本行的中心线的每个点对应的字符方向线与水平线的内角;上述基准点确定模块具体用于:对于中心线上的每个中心点或者按照预设的采样间隔采样后的每个中心点,根据当前中心点对应的字符尺寸,以及字符方向线与水平线的内角,确定当前中心点对应的矫正基准点;将所有中心点对应的矫正基准点确定为文本行的矫正基准点。
进一步地,上述基准点确定模块具体用于:
其中,ci为第i个当前中心点;si为第i个当前中心点的对应的字符尺寸;为第i个当前中心点的对应的字符方向线与水平线的内角;p2i-1为第i个当前中心点的对应的、位于文本行上边缘的矫正基准点;p2i为第i个当前中心点的对应的、位于文本行下边缘的矫正基准点。
进一步地,上述函数确定模块用于:根据矫正基准点的当前位置和预设的目标位置,建立约束方程;求解约束方程,得到预设的矫正变换函数中的约束参数值;矫正变换函数为薄板样条变换函数;将约束参数值代入至矫正变换函数中,得到最终的矫正变换函数。
本发明实施例提供的一种图像处理装置,首先通过预先训练完成的特征提取网络,从待处理图像中提取包含有文本行的几何属性的特征图;根据该几何属性可以确定文本行的矫正基准点,进而确定矫正变换函数;最后根据该矫正变换函数,变换特征图,以通过变换后的特征图得到矫正后的图像。该方式中,由于文本行的几何属性可以准确地描述文本行的形状,即使是形变严重的文本行,基于几何属性确定的矫正变化函数也可以使文本行矫正至规则形状,从而提高了后续文本识别的准确性。
参见图10所示的一种文本识别装置的结构示意图,该装置包括:
第二图像获取模块100,用于获取待识别图像;
矫正模块101,用于通过上述图像处理方法,对待识别图像进行图像处理,得到矫正后的待识别图像的特征图;
文本行识别模块102,用于将矫正后的待识别图像的特征图输入至预先训练完成的文本识别网络,输出图像中的文本行识别结果。
上述文本识别网络包括:包含有多层卷积层的卷积网络、双向递归神经网络和全连接层。
该文本识别装置中,首先通过上述图像处理方法,对待识别图像进行图像处理,得到矫正后的待识别图像的特征图,进而再基于该特征图,使用文本识别网络识别图像中的文本行识别结果;该方式中,由于再图像处理过程中,使用文本行的几何属性准确地描述文本行的形状,基于几何属性确定的矫正变化函数可以使文本行矫正至规则形状,从而提高了文本识别的准确性。
实施例七:
本发明实施例提供了一种电子系统,该电子系统包括:图像采集设备、处理设备和存储装置;图像采集设备,用于获取预览视频帧或图像数据;存储装置上存储有计算机程序,计算机程序在被处理设备运行时执行如上述图像处理方法,或者上述图像处理方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行如上述图像处理方法,或者上述图像处理方法的步骤。
本发明实施例所提供的图像处理方法、文本识别方法、装置和电子系统的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和/或装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (15)

1.一种图像处理方法,其特征在于,所述方法包括:
获取待处理图像;
通过预先训练完成的特征提取网络,从所述待处理图像中提取特征图;所述特征图中包含有文本行的几何属性;
根据所述几何属性,确定所述文本行的矫正基准点;
根据所述矫正基准点的当前位置和预设的目标位置,确定矫正变换函数;
根据所述矫正变换函数变换所述特征图,以通过变换后的所述特征图得到矫正后的图像。
2.根据权利要求1所述的方法,其特征在于,所述特征提取网络包括残差网络和特征金字塔网络;
所述通过预先训练完成的特征提取网络,从所述待处理图像中提取特征图的步骤,包括:
将所述待处理图像输入至所述残差网络中,输出预设层级数量的初始特征图;
通过所述特征金字塔网络对多个所述初始特征图进行融合处理,得到融合后的特征图。
3.根据权利要求1所述的方法,其特征在于,根据所述几何属性,确定所述文本行的矫正基准点的步骤,包括:
根据所述几何属性,确定所述文本行的中心线;其中,所述中心线由多个中心点组成;
根据所述中心线和所述几何属性,确定所述文本行的矫正基准点。
4.根据权利要求3所述的方法,其特征在于,所述几何属性包括:所述待处理图像中每个点位于文本行的中心线的概率和文本行的中心线在所述待处理图像中每个点上的切线与水平线的内角;
所述根据所述几何属性,确定所述文本行的中心线的步骤,包括:
根据所述待处理图像中每个点位于文本行的中心线的概率,确定所述待处理图像中文本行的中心线区域;
随机从所述中心线区域中选取一个目标点;
根据所述文本行的中心线在所述目标点上的切线与水平线的内角,确定所述目标点对应的中心点;
按照预设的步长,沿着所述文本行的中心线在所述目标点上的切线的两个方向分别选取一个新的目标点,继续执行确定所述目标点对应的中心点的步骤,直至到达所述中心线区域的两端;
将确定出的各个中心点作为所述文本行的中心线。
5.根据权利要求4所述的方法,其特征在于,根据所述待处理图像中每个点位于文本行的中心线的概率,确定所述待处理图像中文本行的中心线区域的步骤,包括:
将所述特征图中,包含有所述待处理图像中每个点位于文本行的中心线的概率的子特征图中,低于预设概率阈值的特征点置零处理,得到处理后的所述子特征图;
将处理后的所述子特征图中的非零区域对应的图像区域,确定为所述待处理图像中文本行的中心线区域。
6.根据权利要求4所述的方法,其特征在于,根据所述文本行的中心线在所述目标点上的切线与水平线的内角,确定所述目标点对应的中心点的步骤,包括:
根据所述文本行的中心线在所述目标点上的切线与水平线的内角,确定所述文本行的中心线在所述目标点上的法线;
将所述法线位于所述中心线区域中的线段的中心点确定为所述目标点对应的中心点。
7.根据权利要求3所述的方法,其特征在于,所述几何属性包括:所述待处理图像中每个点对应的字符尺寸、和文本行的中心线的每个点对应的字符方向线与水平线的内角;
所述根据所述中心线和所述几何属性,确定所述文本行的矫正基准点的步骤,包括:
对于所述中心线上的每个中心点或者按照预设的采样间隔采样后的每个中心点,根据当前中心点对应的字符尺寸,以及字符方向线与水平线的内角,确定所述当前中心点对应的矫正基准点;
将所有中心点对应的矫正基准点确定为所述文本行的矫正基准点。
8.根据权利要求7所述的方法,其特征在于,根据当前中心点对应的字符尺寸,以及字符方向线与水平线的内角,确定所述当前中心点对应的矫正基准点的步骤,包括:
其中,ci为第i个当前中心点;si为第i个当前中心点的对应的字符尺寸;为第i个当前中心点的对应的字符方向线与水平线的内角;p2i-1为第i个当前中心点的对应的、位于所述文本行上边缘的矫正基准点;p2i为第i个当前中心点的对应的、位于所述文本行下边缘的矫正基准点。
9.根据权利要求1所述的方法,其特征在于,根据所述矫正基准点的当前位置和预设的目标位置,确定矫正变换函数的步骤,包括:
根据所述矫正基准点的当前位置和预设的目标位置,建立约束方程;
求解所述约束方程,得到预设的矫正变换函数中的约束参数值;所述矫正变换函数为薄板样条变换函数;
将所述约束参数值代入至所述矫正变换函数中,得到最终的矫正变换函数。
10.一种文本识别方法,其特征在于,所述方法包括:
获取待识别图像;
通过权利要求1-9任一项所述的图像处理方法,对所述待识别图像进行图像处理,得到处理后的所述待识别图像的特征图;
将处理后的所述待识别图像的特征图输入至预先训练完成的文本识别网络,输出所述待识别图像中的文本行识别结果。
11.根据权利要求10所述的方法,其特征在于,所述文本识别网络包括:包含有多层卷积层的卷积网络、双向递归神经网络和全连接层。
12.一种图像处理装置,其特征在于,所述装置包括:
第一图像获取模块,用于获取待处理图像;
特征图提取模块,用于通过预先训练完成的特征提取网络,从所述待处理图像中提取特征图;所述特征图中包含有文本行的几何属性;
基准点确定模块,用于根据所述几何属性,确定所述文本行的矫正基准点;
函数确定模块,用于根据所述矫正基准点的当前位置和预设的目标位置,确定矫正变换函数;
特征图变换模块,用于根据所述矫正变换函数变换所述特征图,以通过变换后的所述特征图得到矫正后的图像。
13.一种文本识别装置,其特征在于,所述装置包括:
第二图像获取模块,用于获取待识别图像;
矫正模块,用于通过权利要求1-9任一项所述的图像处理方法,对所述待识别图像进行图像处理,得到处理后的所述待识别图像的特征图;
文本行识别模块,用于将处理后的所述待识别图像的特征图输入至预先训练完成的文本识别网络,输出所述待识别图像中的文本行识别结果。
14.一种电子系统,其特征在于,所述电子系统包括:图像采集设备、处理设备和存储装置;
所述图像采集设备,用于获取预览视频帧或图像数据;
所述存储装置上存储有计算机程序,所述计算机程序在被所述处理设备运行时执行如权利要求1至9任一项所述的图像处理方法,或者权利要求10或11所述的文本识别方法的步骤。
15.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理设备运行时执行如权利要求1至9任一项所述的图像处理方法,或者权利要求10或11所述的文本识别方法的步骤。
CN201910106716.2A 2019-02-01 2019-02-01 图像处理方法、文本识别方法、装置和电子系统 Active CN109829437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910106716.2A CN109829437B (zh) 2019-02-01 2019-02-01 图像处理方法、文本识别方法、装置和电子系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910106716.2A CN109829437B (zh) 2019-02-01 2019-02-01 图像处理方法、文本识别方法、装置和电子系统

Publications (2)

Publication Number Publication Date
CN109829437A true CN109829437A (zh) 2019-05-31
CN109829437B CN109829437B (zh) 2022-03-25

Family

ID=66863407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910106716.2A Active CN109829437B (zh) 2019-02-01 2019-02-01 图像处理方法、文本识别方法、装置和电子系统

Country Status (1)

Country Link
CN (1) CN109829437B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427852A (zh) * 2019-07-24 2019-11-08 北京旷视科技有限公司 文字识别方法、装置、计算机设备和存储介质
CN110458164A (zh) * 2019-08-07 2019-11-15 深圳市商汤科技有限公司 图像处理方法、装置、设备及计算机可读存储介质
CN110472564A (zh) * 2019-08-14 2019-11-19 成都中科云集信息技术有限公司 一种基于特征金字塔网络的双向lstm微表情识别抑郁症方法
CN110533119A (zh) * 2019-09-04 2019-12-03 北京迈格威科技有限公司 标识识别方法及其模型的训练方法、装置及电子系统
CN110543877A (zh) * 2019-09-04 2019-12-06 北京迈格威科技有限公司 标识识别方法及其模型的训练方法、装置和电子系统
CN111008624A (zh) * 2019-12-05 2020-04-14 嘉兴太美医疗科技有限公司 光学字符识别方法和产生光学字符识别的训练样本的方法
CN111131660A (zh) * 2019-12-24 2020-05-08 贝壳技术有限公司 一种图像数据处理方法、装置、电子设备及其存储介质
CN111260586A (zh) * 2020-01-20 2020-06-09 北京百度网讯科技有限公司 扭曲文档图像的矫正方法和装置
CN111652205A (zh) * 2020-06-04 2020-09-11 广东小天才科技有限公司 基于深度学习的文本矫正方法、装置、设备和介质
CN111753832A (zh) * 2020-07-02 2020-10-09 杭州睿琪软件有限公司 图像处理方法、图像处理装置、电子设备和存储介质
CN112597998A (zh) * 2021-01-07 2021-04-02 天津师范大学 一种基于深度学习的扭曲图像矫正方法、装置和存储介质
WO2021098861A1 (zh) * 2019-11-21 2021-05-27 上海高德威智能交通系统有限公司 识别文本的方法、装置、识别设备和存储介质
CN113033531A (zh) * 2019-12-24 2021-06-25 上海智臻智能网络科技股份有限公司 一种图像中文本识别方法、装置及电子设备
CN113139545A (zh) * 2021-05-08 2021-07-20 金陵科技学院 一种弯曲文字矫正方法、存储介质和电子装置
CN113191345A (zh) * 2021-04-28 2021-07-30 北京有竹居网络技术有限公司 一种文本行方向确定方法及其相关设备
CN113449724A (zh) * 2021-06-09 2021-09-28 浙江大华技术股份有限公司 一种图像文本校正方法、装置、设备及存储介质
CN113505741A (zh) * 2021-07-27 2021-10-15 京东科技控股股份有限公司 一种文本图像处理方法、装置、电子设备及存储介质
CN115631112A (zh) * 2022-11-18 2023-01-20 北京飞渡科技有限公司 一种基于深度学习的建筑轮廓矫正方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020613A (ja) * 2007-07-10 2009-01-29 Fujitsu Ltd 画像処理プログラム、画像処理方法及び画像処理装置
CN105225218A (zh) * 2014-06-24 2016-01-06 佳能株式会社 用于文档图像的畸变校正方法和设备
US20170083762A1 (en) * 2015-06-22 2017-03-23 Photomyne Ltd. System and Method for Detecting Objects in an Image
CN105740909B (zh) * 2016-02-02 2017-06-13 华中科技大学 一种基于空间变换的自然场景下文本识别方法
CN107845068A (zh) * 2016-09-18 2018-03-27 富士通株式会社 图像视角变换装置以及方法
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
US20180285639A1 (en) * 2017-03-30 2018-10-04 Idemia Identity & Security France Method for analyzing a structured document likely to be deformed
CN108805131A (zh) * 2018-05-22 2018-11-13 北京旷视科技有限公司 文本行检测方法、装置及系统
CN109145927A (zh) * 2017-06-16 2019-01-04 杭州海康威视数字技术股份有限公司 一种对形变图像的目标识别方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020613A (ja) * 2007-07-10 2009-01-29 Fujitsu Ltd 画像処理プログラム、画像処理方法及び画像処理装置
CN105225218A (zh) * 2014-06-24 2016-01-06 佳能株式会社 用于文档图像的畸变校正方法和设备
US20170083762A1 (en) * 2015-06-22 2017-03-23 Photomyne Ltd. System and Method for Detecting Objects in an Image
CN105740909B (zh) * 2016-02-02 2017-06-13 华中科技大学 一种基于空间变换的自然场景下文本识别方法
CN107845068A (zh) * 2016-09-18 2018-03-27 富士通株式会社 图像视角变换装置以及方法
US20180285639A1 (en) * 2017-03-30 2018-10-04 Idemia Identity & Security France Method for analyzing a structured document likely to be deformed
CN109145927A (zh) * 2017-06-16 2019-01-04 杭州海康威视数字技术股份有限公司 一种对形变图像的目标识别方法及装置
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108805131A (zh) * 2018-05-22 2018-11-13 北京旷视科技有限公司 文本行检测方法、装置及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BAOGUANG SHI等: "Robust Scene Text Recognition with Automatic Rectification", 《2016 COMPUTER VISION AND PATTERN RECOGNITION(CVPR)》 *
G MENG等: "Metric Rectification of curved document images", 《IEEE TRANSACITON ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
张再银等: "基于文本域分割和文本行检测的扭曲文档图像校正", 《电脑与信息技术》 *
白翔等: "基于深度学习的场景文字检测和识别", 《中国科学.信息科学》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427852A (zh) * 2019-07-24 2019-11-08 北京旷视科技有限公司 文字识别方法、装置、计算机设备和存储介质
CN110427852B (zh) * 2019-07-24 2022-04-15 北京旷视科技有限公司 文字识别方法、装置、计算机设备和存储介质
CN110458164A (zh) * 2019-08-07 2019-11-15 深圳市商汤科技有限公司 图像处理方法、装置、设备及计算机可读存储介质
CN110472564A (zh) * 2019-08-14 2019-11-19 成都中科云集信息技术有限公司 一种基于特征金字塔网络的双向lstm微表情识别抑郁症方法
CN110533119A (zh) * 2019-09-04 2019-12-03 北京迈格威科技有限公司 标识识别方法及其模型的训练方法、装置及电子系统
CN110543877A (zh) * 2019-09-04 2019-12-06 北京迈格威科技有限公司 标识识别方法及其模型的训练方法、装置和电子系统
WO2021098861A1 (zh) * 2019-11-21 2021-05-27 上海高德威智能交通系统有限公司 识别文本的方法、装置、识别设备和存储介质
US11928872B2 (en) 2019-11-21 2024-03-12 Shanghai Goldway Intelligent Transportation System Co., Ltd. Methods and apparatuses for recognizing text, recognition devices and storage media
EP4064122A4 (en) * 2019-11-21 2023-01-04 Shanghai Goldway Intelligent Transportation System Co., Ltd. TEXT RECOGNITION METHOD, APPARATUS, RECOGNITION DEVICE AND STORAGE MEDIA
CN111008624A (zh) * 2019-12-05 2020-04-14 嘉兴太美医疗科技有限公司 光学字符识别方法和产生光学字符识别的训练样本的方法
CN111131660A (zh) * 2019-12-24 2020-05-08 贝壳技术有限公司 一种图像数据处理方法、装置、电子设备及其存储介质
CN113033531A (zh) * 2019-12-24 2021-06-25 上海智臻智能网络科技股份有限公司 一种图像中文本识别方法、装置及电子设备
CN113033531B (zh) * 2019-12-24 2023-10-27 上海智臻智能网络科技股份有限公司 一种图像中文本识别方法、装置及电子设备
US11756170B2 (en) 2020-01-20 2023-09-12 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for correcting distorted document image
CN111260586A (zh) * 2020-01-20 2020-06-09 北京百度网讯科技有限公司 扭曲文档图像的矫正方法和装置
CN111652205A (zh) * 2020-06-04 2020-09-11 广东小天才科技有限公司 基于深度学习的文本矫正方法、装置、设备和介质
CN111753832B (zh) * 2020-07-02 2023-12-08 杭州睿琪软件有限公司 图像处理方法、图像处理装置、电子设备和存储介质
CN111753832A (zh) * 2020-07-02 2020-10-09 杭州睿琪软件有限公司 图像处理方法、图像处理装置、电子设备和存储介质
CN112597998A (zh) * 2021-01-07 2021-04-02 天津师范大学 一种基于深度学习的扭曲图像矫正方法、装置和存储介质
CN113191345A (zh) * 2021-04-28 2021-07-30 北京有竹居网络技术有限公司 一种文本行方向确定方法及其相关设备
CN113139545B (zh) * 2021-05-08 2023-07-18 金陵科技学院 一种弯曲文字矫正方法、存储介质和电子装置
CN113139545A (zh) * 2021-05-08 2021-07-20 金陵科技学院 一种弯曲文字矫正方法、存储介质和电子装置
CN113449724A (zh) * 2021-06-09 2021-09-28 浙江大华技术股份有限公司 一种图像文本校正方法、装置、设备及存储介质
CN113505741A (zh) * 2021-07-27 2021-10-15 京东科技控股股份有限公司 一种文本图像处理方法、装置、电子设备及存储介质
CN113505741B (zh) * 2021-07-27 2024-04-09 京东科技控股股份有限公司 一种文本图像处理方法、装置、电子设备及存储介质
CN115631112A (zh) * 2022-11-18 2023-01-20 北京飞渡科技有限公司 一种基于深度学习的建筑轮廓矫正方法及装置

Also Published As

Publication number Publication date
CN109829437B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN109829437A (zh) 图像处理方法、文本识别方法、装置和电子系统
CN109614922B (zh) 一种动静态手势识别方法和系统
CN107341473B (zh) 手掌特征识别方法、手掌特征识别设备、及存储介质
WO2022116282A1 (zh) 基于动态手势识别的人机交互方法及系统
CN108304820B (zh) 一种人脸检测方法、装置及终端设备
CN108520247A (zh) 对图像中的对象节点的识别方法、装置、终端及可读介质
CN108764041B (zh) 用于下部遮挡人脸图像的人脸识别方法
CN108717524B (zh) 一种基于双摄手机和人工智能系统的手势识别系统
CN103530599B (zh) 一种真实人脸和图片人脸的区别方法和系统
CN108062543A (zh) 一种面部识别方法及装置
Prokhorov A convolutional learning system for object classification in 3-D lidar data
CN104143080B (zh) 基于三维点云的三维人脸识别装置及方法
CN104881671B (zh) 一种基于2D‑Gabor的高分遥感影像局部特征提取方法
CN106203342A (zh) 基于多角度局部特征匹配的目标识别方法
CN104850838A (zh) 基于表情不变区域的三维人脸识别方法
CN105550641B (zh) 基于多尺度线性差分纹理特征的年龄估计方法和系统
CN107944435A (zh) 一种三维人脸识别方法、装置及处理终端
CN109598234A (zh) 关键点检测方法和装置
CN109451634B (zh) 基于手势控制电灯的方法及其智能电灯系统
CN110678878B (zh) 一种表观特征的描述属性识别方法及装置
CN110287952B (zh) 一种维语图片字符的识别方法及系统
CN106650615A (zh) 一种图像处理方法及终端
CN112465801B (zh) 一种分尺度提取掩码特征的实例分割方法
CN111091075A (zh) 人脸识别方法、装置、电子设备及存储介质
CN107092917A (zh) 一种基于流形学习的汉字笔画自动提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant