CN111709420A - 文本检测方法、电子设备及计算机可读介质 - Google Patents
文本检测方法、电子设备及计算机可读介质 Download PDFInfo
- Publication number
- CN111709420A CN111709420A CN202010560807.6A CN202010560807A CN111709420A CN 111709420 A CN111709420 A CN 111709420A CN 202010560807 A CN202010560807 A CN 202010560807A CN 111709420 A CN111709420 A CN 111709420A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- text region
- boundary
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种文本检测方法、电子设备和计算机可读介质,其中,所述文本检测方法包括:对待检测文本图像进行特征提取和图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征;对所述文本区域概率图进行二值化,获得文本区域二值图;根据所述文本区域二值图和所述图像特征,获取至少一个文本连通域;获取至少一个所述文本连通域的文本区域近似边界;根据所述文本区域近似边界和预设的边界阈值,获得所述待检测文本图像的文本检测结果。通过本发明实施例,提高了文本检测尤其是密集文本检测的速度和效率。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种文本检测方法、电子设备和计算机可读介质。
背景技术
文本检测是一种检测图像中的文本区域并标记其边界框的技术,文本检测应用范围广泛,是很多计算机视觉任务的前置步骤,比如图像搜索、文字识别,身份认证和视觉导航等。
文本检测的主要目的是定位文本行或字符在图像中的位置,目前一种比较流行的文本检测方法是基于滑动窗口的文本检测方法。该方法基于通用目标检测的思想,设置大量不同长宽比、不同大小的锚点框,以这些锚点框为滑动窗口,在图像上或者在从图像上进行过卷积操作得到的特征映射图上进行遍历搜索,对于每个搜索到的位置框,进行框内是否是文本的分类判定。
但是,这种方法计算量过大,不仅需要耗费大量计算资源,而且耗时较长。
发明内容
本发明提供了一种文本检测方案,以至少部分解决上述问题。
根据本发明实施例的第一方面,提供了一种文本检测方法,包括:对待检测文本图像进行特征提取和图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征;对所述文本区域概率图进行二值化,获得文本区域二值图;根据所述文本区域二值图和所述图像特征,获取至少一个文本连通域;获取至少一个所述文本连通域的文本区域近似边界;根据所述文本区域近似边界和预设的边界阈值,获得所述待检测文本图像的文本检测结果。
根据本发明实施例的第二方面,提供了一种电子设备,所述设备包括:一个或多个处理器;计算机可读介质,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的文本检测方法。
根据本发明实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的文本检测方法。
根据本发明实施例提供的方案,在进行文本检测,尤其是文字密度较大的密集文本检测时,可以先根据对待检测文本图像的特征提取和图像分割的结果,获得文本区域概率图和待检测文本图像的图像特征;进而,对文本区域概率图进行二值化,获得相应的文本区域二值图;再基于该文本区域二值图和所述图像特征获得待检测文本图像中的一个或多个连通域;在获得连通域的文本区域近似边界后,可根据预设的边界阈值,获得文本检测结果,即具有各自边界的各个文本区域。一方面,本发明实施例提供的方案基于文本区域二值图进行处理,相较于其它形式的文本区域图像,待处理的数据量更少,处理速度更快,且可节省计算资源;另一方面,依据文本区域二值图对所述图像特征进行处理,可保留有用特征而过滤掉无用特征,进一步减少了计算量,节省了计算资源,且提升了计算速度;再一方面,基于获得的各个文本连通域的文本区域近似边界,根据预设边界阈值来进行准确的边界确认和划分,相较于通过模型进行文本框检测等方式,实现更为简单、快速、边界确定效率也更高,且也可减少计算量,降低计算资源消耗。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1A为根据本发明实施例一的一种文本检测方法的步骤流程图;
图1B为一种像素聚合网络PAN的结构示意图;
图1C为一种可微分二值化网络的结构示意图;
图1D为根据本发明实施例的一种神经网络模型的结构示意图;
图2为根据本发明实施例二的一种文本检测方法的示意性流程图;
图3为根据本发明实施例三的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅配置为解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
实施例一
参照图1,示出了根据本发明实施例一的一种文本检测方法的步骤流程图。
本实施例的文本检测方法包括以下步骤:
步骤S102:对待检测文本图像进行特征提取和图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征。
本发明实施例的方案可适用于具有各种文本密度的文本检测,包括但不限于常规密度文本、密集密度文本、稀疏密度文本,尤其是密集密度文本。其中,确定某个文本是否为密集文本的具体指标可以由本领域技术人员根据实际情况适当设置,包括但不限于:根据文本之间的间距(如间距小于2磅等)、根据单位范围内的文本的数量(如每平方厘米中的文本数量多于3个等)等等,本发明实施例对此不作限制。
对待检测文本图像进行特征提取,获得特征提取结果即相应的特征,这些特征形成特征映射图。本实施例中,在获得特征映射图之后,会基于特征映射图进行图像分割,至少得到待检测文本图像的文本区域概率图和待检测文本图像的图像特征。其中,文本区域概率图可以表征待检测文本图像中的像素点属于前景或是背景的概率,以便后续较为准确地确定文本区域。本实施例中,待检测文本图像的图像特征主要用于后续结合文本区域二值图进行文本连通域的确定,该图像特征是可学习的,即,其初始值可由本领域技术人员根据实际情况适当设置,或者,该初始值可以是神经网络模型进行对待检测文本图像进行特征提取后生成的特征值,在使用神经网络模型实现本发明实施例的文本检测方案的情况下,该图像特征可随着模型的迭代训练,而不断更新其特征,以使其为后续的文本连通域的确定提供准确的特征数据。
在一种可行方式中,本步骤可以实现为:对待检测文本图像进行特征提取,获得特征映射图;将特征映射图进行上采样,并串联上采样后的特征;基于串联后的特征对应的特征映射图进行图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征。由此,实现文本区域概率图和图像特征的准确、快速获取。
可选地,为快速地获得较为准确的文本区域概率图和所述图像特征,在一种可行方式中,可以通过神经网络模型实现该过程。
例如,神经网络模型可以包括PAN(像素聚合网络)结构和DB(可微分二值化网络)结构,使用神经网络模型的PAN结构对待检测文本图像进行特征提取,获得PAN特征提取结果;将所述PAN特征提取结果输入所述神经网络模型的DB结构进行上采样,通过DB结构对上采样后的特征进行串联;并基于串联后的特征对应的特征映射图进行特征提取和图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征。这种方式中,使用了PAN的处理速度较快的前向处理部分进行特征提取,和DB的处理速度较快的后向处理部分进行文本区域概率图和图像特征获取,提升了特征提取、文本区域概率图获取及图像特征获取的速度和效率,也进一步提升了文本检测的速度和效率。
具体地,在使用PAN结构对所述待检测文本图像进行特征提取,获得PAN特征提取结果时,可以:将所述待检测文本图像输入所述PAN结构中的残差网络部分(如Resnet网络),获得第一文本图像特征。但为了进一步提升图像特征的表征能力,可选地,在获得第一文本图像特征之后,还可以再将所述第一文本图像特征输入所述PAN结构中的特征金字塔增强结构部分,获得第二文本图像特征。使用PAN的前向处理部分进行特征提取,提高了特征提取的处理速度。
此外,所述第一文本图像特征和所述第二文本图像特征均可以包括以下至少之一:所述待检测文本所在图像区域的纹理特征、边缘特征、角点特征、语义特征。这些特征均可有效地表征文本所在图像区域的特性,以为后续处理提供依据。
其中,像素聚合网络简称PAN,一种PAN的结构如图1B所示。图1B中,通过输入层接收输入的文本图像,主干网络部分采用了ResNet,ResNet对文本图像进行特征提取,并将提取的特征交给两个FPEM(Feature Pyramid Enhancement Module,特征金字塔增强模块),FPEM可再次提取特征,以进行特征增强,使特征更具表征能力。在两个FPEM之后,特征融合模块FFM对FPEM输出的特征进行融合,进而,将文本区域中的文字像素引导到正确的核中去,实现文本检测。
本发明实施例中使用了PAN的部分结构,包括Resnet18(残差网络部分)和FPEM(Feature Pyramid Enhancement Module,特征金字塔增强模块),如图1B中点线状虚线部分所示。具体到本实施例,使用的PAN结构部分以Resnet18为基础网络骨架,对输入的待检测文本图像提取纹理、边缘、角点和语义信息等特征,这些特征由4组大小不同的多通道特征映射表征。然后将提取得到的特征经过2个FPEM模块,再次提取纹理、边缘、角点和语义信息等特征。
相较于单个FPEM模块,2个FPEM模块可以达到最好的效果。每个FPEM模块的处理相同,包括:对得到的4组大小不同的多通道特征映射,按照从大到小的,从前往后的次序,依次称为正向第一、正向第二、正向第三、正向第四组特征映射,先对正向第四组特征映射进行2倍上采样,即将其大小扩大2倍,然后将其与正向第三组特征映射按照通道逐点相加,对结果进行一次深度可分离卷积操作之后,再进行一次卷积、批归一化和激活函数作用操作,得到的结果称为反向第二组特征映射,同样的操作用于反向第二组特征映射和正向第二组特征映射得到反向第三组特征映射,然后同样的操作作用于反向第三组特征映射和正向第一组特征映射,得到反向第四组特征映射,同时将正向第四组特征映射视为反向第一组特征映射,由此得到4组反向特征映射;将第四组反向特征映射作为目标第一组特征映射,然后对目标第一组特征映射进行2倍下采样,即大小缩小2倍,然后将其与反向第三组特征映射按通道逐点相加,对结果进行一次深度可分离卷积操作之后,再进行一次卷积、批归一化和激活函数作用操作,得到的结果称为目标第二组特征映射,同样的操作作用于目标第二组特征映射和反向第二组特征映射,得到目标第三组特征映射,然后同样的操作作用于目标第三组特征映射和反向第一组特征映射,得到目标第四组特征映射,目标第一、目标第二、目标第三和目标第四组特征映射便是FPEM模块的输出。第2个FPEM模块是以第1个FPEM模块的输出作为输入,进行同样的操作,得到输出。该输出中包括形成至少一个特征映射图的特征,或者说,输出的特征可以形成特征映射图。
在一种可行方式中,使用可微分二值化网络DB结构,接收PAN特征提取结果并进行上采样,将上采样后的特征进行串联,基于串联后的特征对应的特征映射图进行特征提取和图像分割,至少获得所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征。图像分割是一种把图像分成若干个区域并提出感兴趣目标的过程,其将数字图像划分成互不相交的区域。图像分割的过程也是一个标记过程,即把属于同一区域的像素赋予相同的编号。本实施例中,通过DB结构实现图像分割,并获得相应的文本区域概率图,相较于其它方式获得的文本区域概率图,通过DB结构获得的文本区域概率图更为准确,并且,DB结构的特征处理速度也更快。通过DB结构获得的文本区域概率图为内缩后的内缩文本区概率图。此外,通过DB结构中的特征提取,还可至少获得待检测文本图像的图像特征。
但不限于此,在一种可行方式中,通过对待检测文本图像进行特征提取和图像分割,可以获取待检测文本图像的内缩文本区域概率图、内缩文本区域像素点距离最近文本区域边界点的横坐标偏移量、内缩文本区域像素点距离最近文本区域边界点的纵坐标偏移量、和待检测文本图像的图像特征。当通过DB结构实现该过程时,DB结构先对PAN特征提取结果进行上采样,再对上采样后的特征进行串联;并基于串联后的特征对应的特征映射图进行特征提取和图像分割,获得四通道的特征映射图,其中,第一通道表示待检测文本图像的内缩文本区域概率图,第二通道表示内缩文本区域像素点距离最近文本区域边界点的横坐标偏移量,第三通道表示内缩文本区域像素点距离最近文本区域边界点的纵坐标偏移量,第四通道表示待检测文本图像的图像特征,如,特征映射图大小个一维向量特征。
具体地,可以使用DB结构,将所述通过PAN结构获得的特征上采样至所述待检测文本图像的原始图片的预设大小如1/4大小;再将上采样后的特征进行串联,根据串联结果进行进一步的特征提取和图像分割,获得待检测文本图像的内缩文本区域概率图、内缩文本区域像素点距离最近文本区域边界点的横坐标偏移量、内缩文本区域像素点距离最近文本区域边界点的纵坐标偏移量、和待检测文本图像的图像特征。
可微分二值化网络也称为DB(Differentiable Binarization)网络,其也是以Resnet18为基础网络架构,一种DB的示意结构如图1C所示。图1C中,输入图像被馈送至一个金字塔特征的backbone;金字塔特征被上采样为同一大小,并被级联以生产特征F;接着,通过特征F同时预测概率图(P)和阈值图(T);最后,通过P和F计算近似的二值图。本发明实施例中,使用DB的部分结构,如图1C中点线状虚线框所示,在训练过程中,PAN结构部分输出的特征映射图被输入至该DB部分,该DB部分对其提取特征,然后将提取到的特征全部上采样到原始图像大小的1/4并串联起来,然后经过一次卷积操作,得到一个4通道的特征映射图作为输出,其大小与原图相同,结合PAN结构与DB结构,其第一个通道表示内缩文本区域的内缩文本区域概率图,第二个通道表示内缩文本区域的每个像素点相对于距离它最近文本区域边界点的横坐标偏移量(X轴偏移量),第三个通道表示内缩文本区域的每个像素点相对于距离它最近文本区域边界点的纵坐标偏移量(Y轴偏移量),第四个通道表示特征映射图大小个一维向量特征。
一种结合了上述PAN结构和DB结构的神经网络模型的结构如图1D所示。从图1D中可见,本发明实施例的神经网络模型有效利用了PAN中的前向处理部分和DB中的后向处理部分。需要说明的是,图1D中仅示意至上采样后特征映射图的输出,针对输出的具体的特征映射图及对这些特征映射图进行的处理,以及后续处理部分等,本领域技术人员可以结合本发明实施例的文字部分获得。通过图1D所示结构,即可实现使用PAN结构和DB结构对待检测文本图像进行特征提取和图像分割,获取待检测文本图像的内缩文本区域概率图、内缩文本区域像素点距离最近文本区域边界点的横坐标偏移量、内缩文本区域像素点距离最近文本区域边界点的纵坐标偏移量、和所述待检测文本图像的图像特征。
步骤S104:对所述文本区域概率图进行二值化,获得文本区域二值图。
例如,可以使用预设的阈值对文本区域概率图进行二值化,得到文本区域二值图。其中,所述预设的阈值可以由本领域技术人员根据实际需求适当设置,可使待检测文本图像中的像素点可被有效区分以获得有效的二值图即可。一种方式中,预设的阈值可以根据之前模型训练阶段的阈值设定;另一种方式中,预设的阈值可以通过对大量的文本区域概率图进行二值化处理中,对使用的大量阈值的分析确定。
步骤S106:根据所述文本区域二值图和所述图像特征,获取至少一个文本连通域。
如前所述,本实施例中,所述图像特征实现为一个一维向量特征,其大小与特征映射图如文本区域概率图的大小相同,其是可学习的。本发明实施例中,基于所述图像特征,使用文本区域二值图实现待检测图像的文本连通域检测。
例如,文本区域二值图中,每个像素点都对应有相应的像素值0或者1,文本区域的像素点的像素值通常为1,非文本区域的像素点的像素值通常为0。将文本区域二值图中的各像素点的像素值与其对应的一维的图像特征相乘,则会保留图像特征中文本区域像素点对应的特征,而去除非文本区域像素点对应的特征。据此,可获得至少一个文本区域。
在一种可行方式中,根据所述文本区域二值图和所述图像特征,获取至少一个文本连通域可以实现为:确定与所述文本区域二值图中的文本区域像素点对应的一维向量特征;对确定的所述一维向量特征进行排序,根据排序结果和预设的连通分类阈值,获取至少一个文本连通域。其中,所述连通分类阈值由本领域技术人员根据实际情况适当设置,例如可设置为【0.5,1】之间的数值,本发明实施例对此不作限制。对确定的一维向量特征进行排序,特征上越接近的像素点在位置上也越接近,通过适当的连通分类阈值,可将位置上接近的像素点划归到不同的分类,不同的分类可对应不同的连通域。由此,实现了待检测图像的文本连通域的快速确定。
对于神经网络模型来说,因通过一维向量特征表达的图像特征会随着模型训练不断学习,以实现识别文本区域连通域目的。在模型完成训练后投入应用中,通过该模型即可实现对输入的待检测文本图像的第四通道的有效特征提取,即提取的特征可具有表征文本连通域的特性。
可选地,在对确定的所述一维向量特征进行排序,根据排序结果和预设的连通分类阈值,获取至少一个文本连通域时,可以对确定的所述一维向量特征进行排序,获得排序后的特征;在排序后的特征中,将相邻特征间的差值小于预设的连通分类阈值的特征划分为同一类;根据划分结果,获取至少一个文本连通域。如前所述,同一类表示一个文本连通域。在内缩文本区域的情况下,同一类表示一个内缩文本区域。在确定了文本连通域后,可确定像素点所对应的连通域,以及像素点的连通域坐标。
步骤S108:获取至少一个所述文本连通域的文本区域近似边界。
例如,针对每个文本连通域,在该文本连通域确定后,其边界点及其坐标即可确定,由此,则可获得文本区域近似边界。
而若基于内缩文本区域,则获得的连通域及文本区域近似边界也均为内缩的,需对其进行外扩,以确定其在待检测文本图像中的原始位置。
为此,在一种可行方式中,基于前述获取的待检测文本图像的内缩文本区域概率图、内缩文本区域像素点距离最近文本区域边界点的横坐标偏移量、内缩文本区域像素点距离最近文本区域边界点的纵坐标偏移量、和待检测文本图像的图像特征,本步骤可以实现为:针对每个文本连通域,根据文本连通域的每个边界像素点的横坐标与每个边界像素点对应的横坐标偏移量之和,以及,每个边界像素点的纵坐标与每个边界像素点对应的纵坐标偏移量之和,确定文本区域候选边界点的坐标,其中,所述边界像素点对应的横坐标偏移量为所述内缩文本区域中与当前文本连通域对应的边界像素点距离最近文本区域边界点的横坐标偏移量;所述边界像素点对应的纵坐标偏移量为所述内缩文本区域中与当前文本连通域对应的边界像素点距离最近文本区域边界点的纵坐标偏移量;根据所述文本区域候选边界点的坐标,确定近似中心点坐标;根据所述近似中心点坐标与所述文本区域候选边界点的坐标,确定近似中心点与所述文本区域候选边界点的几何关系;根据所述几何关系,获取对应的文本区域近似边界。
其中,可以根据所述文本区域候选边界点的坐标的平均值,确定近似中心点坐标。以实现快速、准确的近似中心点坐标确定。近似中心点坐标也为描述文本区域的边界坐标,基于近似中心点坐标与所述文本区域候选边界点的几何关系,可实现更为准确的文本区域近似边界确定。
而在根据所述几何关系,获取对应的文本区域近似边界时,可以根据所述几何关系和预设拓展阈值,对所述文本区域候选边界点进行拓展,得到文本区域拓展边界点;根据所述文本区域候选边界点和所述文本区域拓展边界点,获取对应的文本区域近似边界。根据所述几何关系对文本区域候选边界点进行拓展,可以获得更多个边界点,以为后续文本区域边界提供更多的参考和更多的依据,使得边界确定更为准确。其中,所述预设拓展阈值可由本领域技术人员根据实际需求设定,例如,可为文本区域候选边界点的数量的倍数,如2倍等。
步骤S110:根据所述文本区域近似边界和预设的边界阈值,获得所述待检测文本图像的文本检测结果。
其中,所述预设的边界阈值可以由本领域技术人员根据实际需求适当设置,能对近似边界上的边界点进行相对准确的分类即可。在一种可行方式中,本步骤可以实现为:以所述文本区域近似边界中的文本区域拓展边界点为中心,根据预设的边界阈值,对所述文本区域候选边界点进行聚类,获得聚类结果;根据所述聚类结果的平均值,获得所述待检测文本图像的文本检测结果。以每个拓展边界点为中心进行文本区域候选边界点的聚类,可获得较为丰富的聚类结果,从而使得对候选边界点所属文本区域的判定更为客观,也更为准确;进一步地,再对每一类聚类结果取平均值,可以最终获得的更为整齐和准确的文本区域,进而获得本发明实施例中待检测文本图像的文本检测结果。
根据本发明实施例提供的方案,在进行文本检测,尤其是文字密度较大的密集文本检测时,可以先根据对待检测文本图像的特征提取和图像分割的结果,获得文本区域概率图和待检测文本图像的图像特征;进而,对文本区域概率图进行二值化,获得相应的文本区域二值图;再基于该文本区域二值图和所述图像特征获得待检测文本图像中的一个或多个连通域;在获得连通域的文本区域近似边界后,可根据预设的边界阈值,获得文本检测结果,即具有各自边界的各个文本区域。一方面,本发明实施例提供的方案基于文本区域二值图进行处理,相较于其它形式的文本区域图像,待处理的数据量更少,处理速度更快,且可节省计算资源;另一方面,依据文本区域二值图对所述图像特征进行处理,可保留有用特征而过滤掉无用特征,进一步减少了计算量,节省了计算资源,且提升了计算速度;再一方面,基于获得的各个文本连通域的文本区域近似边界,根据预设边界阈值来进行准确的边界确认和划分,相较于通过模型进行文本框检测等方式,实现更为简单、快速、边界确定效率也更高,且也可减少计算量,降低计算资源消耗。
本实施例的文本检测方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例二
参照图2,示出了根据本发明实施例二的一种文本检测方法的示意性流程图。
本实施例的文本检测方法通过如图1D中所示的神经网络模型实现,该文本检测方法包括以下步骤:
步骤S202:将待检测文本图像输入Resnet18网络。
本实施例中,Resnet18网络作为PAN的一部分,为训练完成的网络,通过该网络可以提取输入图像的特征,某个通道的特征形成该通道的特征映射图。
步骤S204:通过Resnet18网络,进行特征提取。
为便于与后续的特征提取相区别,本步骤中的特征提取标记为提取特征1,通过提取特征1可以提取到待检测文本图像的纹理、边缘、角点和语义信息等特征。
步骤S206:将提取到的特征,经过两个FPEM模块,再次提取特征。
本步骤中,基于步骤S204提取的特征1,通过两个FPEM模块再次进行特征提取,标记为提取特征2,通过提取特征2可以再次对待检测文本图像的纹理、边缘、角点和语义信息等特征进行提取,并得到对应的4组特征映射图。
例如,可以在1次卷积操作,2次反卷积操作后,再将经这些操作获取的特征上采样至与原始图像同样大小的4通道特征映射图。
上述步骤S202-S206,实现了PAN结构部分(采用了PAN的前处理部分)的处理,PAN由于使用FPEM模块,使其前向计算速度更快。其中,使用的Resnet18网络和FPEM模块的结构及处理均可参照PAN网络,在此不再赘述。
步骤S208:将再次提取的特征形成的特征映射图上采样到原始图像1/4大小并串联。
本步骤中,将步骤S206再次提取特征得到的4组特征映射的特征映射图大小全部上采样到原始图像的1/4大小,并串联在一起,此处串联的含义是指将4组与原始图片1/4大小一样的特征映射,以通道为轴串在一起,举例来说,如果每组特征映射通道为512,则串联在一起之后得到一组特征映射,其通道数量为512。
步骤S210:根据串联后的特征获得四通道的特征映射图。
例如,将串联后的特征进行1次卷积操作,2次反卷积操作,输出特征映射通道数为4,特征映射图大小与原图大小一致的特征映射图,其第一个通道表示内缩文本区域的内缩文本区域概率图,第二个通道表示内缩文本区域的每个像素点相对于距离它最近文本区域边界点的横坐标偏移量(X轴偏移量),第三个通道表示内缩文本区域的每个像素点相对于距离它最近文本区域边界点的纵坐标偏移量(Y轴偏移量),第四个通道表示特征映射图大小个一维向量特征(即所述图像特征)。
其中,在训练阶段,当内缩文本区域概率图对应的内缩文本区域包括多个时,所述一维向量特征通过以下方式训练得到:针对每个内缩文本区域,获取内缩文本区域的像素点对应的所述一维向量特征,根据获取的所述一维向量特征的平均值确定聚类中心;计算内缩文本区域的边界点对应的所述一维向量特征与所述边界点对应的聚类中心的第一特征空间距离;并获取所述第一特征空间距离与第一距离阈值的第一比较结果;以及,计算多个内缩文本区域的多个聚类中心之间的第二特征空间距离,并获取所述第二特征空间距离与第二距离阈值的第二比较结果;根据所述第一比较结果和所述第二比较结果,计算向量聚类损失函数的损失值;根据所述损失值,对所述一维向量特征进行训练。
例如,在训练阶段,基于训练样本图像和预设的损失函数,对所述神经网络模型进行训练。包括:使用交并比(DiceLoss)作为目标损失函数对第一个通道表示的内缩文本区域概率图进行训练;使用平滑L1损失函数对第二个通道表示的内缩文本区域的每个像素点相对于距离它最近文本区域边界点的横坐标偏移量(X轴偏移量)和第三个通道表示的内缩文本区域的每个像素点相对于距离它最近文本区域边界点的纵坐标偏移量(Y轴偏移量)进行训练;使用PAN中的向量聚类损失函数对第四通道表示的一维向量特征进行训练。
其中,在通过对神经网络模型的训练来实现对所述一维向量特征的训练时,可以取每个内缩文本区域对应的像素点位置的一维向量特征的平均值作为聚类中心,然后,计算每个内缩文本区域边界上像素点位置对应的一维向量特征与该内缩文本区域对应的聚类中心的向量L2范数(第一特征空间距离),设置一个阈值(第一距离阈值),L2范数的结果与其比较,获得比较结果(第一比较结果);同时,各个内缩文本区域的聚类中心之间计算L2范数(第二特征空间距离),也设置一个阈值(第二距离阈值)与L2范数结果进行比较,获得比较结果(第二比较结果);根据上述两个比较结果,计算向量聚类损失函数的值(损失值),以此引导一维向量特征的训练。需要说明的是,初始时,该一维向量特征可以由本领域技术人员设置初始向量值,或者,使用模型进行特征提取后的特征值。随着模型训练的迭代进行,该一维向量特征也随之调整其向量值,最终训练完成的一维向量特征可以较为准确地实现基于文本区域概率图确定文本连通域的功能。
而在测试阶段,使用训练得到的神经网络模型即可输出一个4通道特征映射图,即:第一个通道表示内缩文本区域概率图,第二个通道表示内缩文本区域的每个像素点相对于距离它最近文本区域边界点的横坐标偏移量(X轴偏移量),第三个通道表示内缩文本区域的每个像素点相对于距离它最近文本区域边界点的纵坐标偏移量(Y轴偏移量),第四个通道表示特征映射图大小个一维向量特征(即所述图像特征)。
步骤S212:对第一通道表示的内缩文本区域概率图进行二值化,得到内缩文本区域二值图。
例如,可以根据先验知识设定二值化阈值,对内缩文本区域概率图进行二值化,得到内缩文本区域二值图。
步骤S214:提取内缩文本区域二值图的内缩文本区域对应位置的第4通道表示的一维向量特征。
步骤S216:对提取的一维向量特征进行排序,并设定分类阈值;排序后的向量特征序列做差,将小于分类阈值的向量特征划归为一类。
例如,取内缩文本区域二值图中表示内缩文本区域的位置对应的一维向量特征,接着对一维向量特征进行分类,即:先对对应位置的一维向量特征进行排序,然后根据设定的分类阈值,将向量特征之间的差值小于分类阈值的划归为同一类,同一类表示一个内缩文本区域,以此获得内缩文本区域的连通域坐标。
步骤S218:获得内缩文本区域的连通域坐标。
划归为一类的向量特征对应的像素的坐标点,就是一个内缩文本区域的连通域坐标。
步骤S220:根据内缩文本区域的连通域坐标,获得文本区域候选边界点的坐标。
例如,每个内缩文本区域的连通域中的像素点的横坐标加上其在第二个通道表示的特征映射图中的横坐标偏移量,即为可能的文本区域候选边界点的横坐标;同理,每个内缩文本框的连通域中的像素点的纵坐标加上第三个通道表示特征映射图中的纵坐标偏移量,即为可能的文本区域候选边界点的纵坐标。
步骤S222:根据文本区域候选边界点的坐标,获得近似中心点坐标。
例如,将所有可能的文本区域候选边界点的坐标求取平均值,得到一个近似中心点坐标。
步骤S224:根据近似中心点坐标和文本区域候选边界点的坐标,确定近似中心点和文本区域候选边界点的几何关系;根据所述几何关系,对文本区域候选边界点进行拓展,得到至少一个文本区域近似边界。
例如,根据所述几何关系,以一定的拓展阈值向外拓展多个文本区域候选边界点(如果边界由4个点描述,则向外拓展4个点,如果边界由14个点描述,则向外拓展14个点)。由此,获得更多的边界点,以这些边界点为依据,确定文本区域的近似边界。
步骤S226:以近似边界上的边界点为中心,对文本区域候选边界点进行聚类,获得聚类结果。
步骤S228:根据所述聚类结果的平均值,获得待检测文本图像的文本检测结果。
例如,将步骤S224中拓展得到的多个近似边界点为中心,然后将前述得到的可能的文本区域候选边界点按照一定的阈值进行归类,然后对每一类文本区域候选边界点取平均值,得到最终的边界点,由边界点确定文本区域边界。至此,密集文本检测完成。
根据本发明实施例提供的方案,在进行文本检测,尤其是文字密度较大的密集文本检测时,可以先根据对待检测文本图像的特征提取和图像分割的结果,获得文本区域概率图和待检测文本图像的图像特征;进而,对文本区域概率图进行二值化,获得相应的文本区域二值图;再基于该文本区域二值图和所述图像特征获得待检测文本图像中的一个或多个连通域;在获得连通域的文本区域近似边界后,可根据预设的边界阈值,获得文本检测结果,即具有各自边界的各个文本区域。一方面,本发明实施例提供的方案基于文本区域二值图进行处理,相较于其它形式的文本区域图像,待处理的数据量更少,处理速度更快,且可节省计算资源;另一方面,依据文本区域二值图对所述图像特征进行处理,可保留有用特征而过滤掉无用特征,进一步减少了计算量,节省了计算资源,且提升了计算速度;再一方面,基于获得的各个文本连通域的文本区域近似边界,根据预设边界阈值来进行准确的边界确认和划分,相较于通过模型进行文本框检测等方式,实现更为简单、快速、边界确定效率也更高,且也可减少计算量,降低计算资源消耗。
此外,本实施例中,将PAN与DB的优势结合起来,在保证最终的文本检测效果的前提下,实现了比PAN和DB更少的计算量,相比于PAN和DB,大大提升了密集文本检测速度。
本实施例的文本检测方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例三
图3为本发明实施例三中电子设备的硬件结构;如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303、以及通信总线304。
其中:
处理器301、通信接口302、以及存储器303通过通信总线304完成相互间的通信。
通信接口302,用于与其它电子设备或服务器进行通信。
处理器301,用于执行程序305,具体可以执行上述文本检测方法实施例中的相关步骤。
具体地,程序305可以包括程序代码,该程序代码包括计算机操作指令。
处理器301可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器303,用于存放程序305。存储器303可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序305具体可以用于使得处理器301执行以下操作:对待检测文本图像进行特征提取和图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征;对所述文本区域概率图进行二值化,获得文本区域二值图;根据所述文本区域二值图和所述图像特征,获取至少一个文本连通域;获取至少一个所述文本连通域的文本区域近似边界;根据所述文本区域近似边界和预设的边界阈值,获得所述待检测文本图像的文本检测结果。
在一种可选的实施方式中,所述图像特征为一维向量特征;程序305还用于使得处理器301在根据所述文本区域二值图和所述图像特征,获取至少一个文本连通域时:确定与所述文本区域二值图中的文本区域像素点对应的一维向量特征;对确定的所述一维向量特征进行排序,根据排序结果和预设的连通分类阈值,获取至少一个文本连通域。
在一种可选的实施方式中,程序305还用于使得处理器301在对确定的所述一维向量特征进行排序,根据排序结果和预设的连通分类阈值,获取至少一个文本连通域时:对确定的所述一维向量特征进行排序,获得排序后的特征;在排序后的特征中,将相邻特征间的差值小于预设的连通分类阈值的特征划分为同一类;根据划分结果,获取至少一个文本连通域。
在一种可选的实施方式中,程序305还用于使得处理器301在对待检测文本图像进行特征提取和图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征时:对待检测文本图像进行特征提取和图像分割,获取所述待检测文本图像的内缩文本区域概率图、内缩文本区域像素点距离最近文本区域边界点的横坐标偏移量、内缩文本区域像素点距离最近文本区域边界点的纵坐标偏移量、和所述待检测文本图像的图像特征。
在一种可选的实施方式中,程序305还用于使得处理器301在获取至少一个所述文本连通域的文本区域近似边界时:针对每个文本连通域,根据文本连通域的每个边界像素点的横坐标与每个边界像素点对应的横坐标偏移量之和,以及,每个边界像素点的纵坐标与每个边界像素点对应的纵坐标偏移量之和,确定文本区域候选边界点的坐标,其中,所述边界像素点对应的横坐标偏移量为所述内缩文本区域中与当前文本连通域对应的边界像素点距离最近文本区域边界点的横坐标偏移量;所述边界像素点对应的纵坐标偏移量为所述内缩文本区域中与当前文本连通域对应的边界像素点距离最近文本区域边界点的纵坐标偏移量;根据所述文本区域候选边界点的坐标,确定近似中心点坐标;根据所述近似中心点坐标与所述文本区域候选边界点的坐标,确定近似中心点与所述文本区域候选边界点的几何关系;根据所述几何关系,获取对应的文本区域近似边界。
在一种可选的实施方式中,程序305还用于使得处理器301在根据所述文本区域候选边界点的坐标,确定近似中心点坐标时:根据所述文本区域候选边界点的坐标的平均值,确定近似中心点坐标。
在一种可选的实施方式中,程序305还用于使得处理器301在根据所述几何关系,获取对应的文本区域近似边界时:根据所述几何关系和预设拓展阈值,对所述文本区域候选边界点进行拓展,得到文本区域拓展边界点;根据所述文本区域拓展边界点,获取对应的文本区域近似边界。
在一种可选的实施方式中,程序305还用于使得处理器301在根据所述文本区域近似边界和预设的边界阈值,获得所述待检测文本图像的文本检测结果时:以所述文本区域近似边界中的文本区域拓展边界点为中心,根据预设的边界阈值,对所述文本区域候选边界点进行聚类,获得聚类结果;根据所述聚类结果的平均值,获得所述待检测文本图像的文本检测结果。
在一种可选的实施方式中,程序305还用于使得处理器301在对待检测文本图像进行特征提取和图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征时:对待检测文本图像进行特征提取,获得特征映射图;将所述特征映射图进行上采样,并串联上采样后的特征;基于串联后的特征对应的特征映射图进行特征提取和图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征。
在一种可选的实施方式中,程序305还用于使得处理器301在对所述待检测文本图像进行特征提取,获得特征映射图时:使用神经网络模型的PAN结构对所述待检测文本图像进行特征提取,获得PAN特征提取结果;程序305还用于使得处理器301在将所述特征映射图进行上采样,并串联上采样后的特征;基于串联后的特征对应的特征映射图进行特征提取和图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征时:将所述PAN特征提取结果输入所述神经网络模型的DB结构进行上采样,通过DB结构对上采样后的特征进行串联;并基于串联后的特征对应的特征映射图进行特征提取和图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征。
在一种可选的实施方式中,程序305还用于使得处理器301在使用神经网络模型的PAN结构对所述待检测文本图像进行特征提取,获得PAN特征提取结果时:将所述待检测文本图像输入所述PAN结构中的残差网络部分,获得第一文本图像特征。
在一种可选的实施方式中,程序305还用于使得处理器301在获得第一文本图像特征之后,再将所述第一文本图像特征输入所述PAN结构中的特征金字塔增强结构部分,获得第二文本图像特征。
在一种可选的实施方式中,程序305还用于使得处理器301在基于串联后的特征对应的特征映射图进行图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征时:基于串联后的特征对应的特征映射图进行图像分割,至少获取所述待检测文本图像的内缩文本区域概率图、内缩文本区域像素点距离最近文本区域边界点的横坐标偏移量、内缩文本区域像素点距离最近文本区域边界点的纵坐标偏移量、和用于表征所述待检测文本图像的图像特征的一维向量特征。
在一种可选的实施方式中,程序305还用于使得处理器301基于训练样本图像和预设的损失函数,对所述神经网络模型进行训练;其中,所述损失函数包括以下至少之一:用于对内缩文本区域概率图进行训练的交并比损失函数;用于对内缩文本区域像素点距离最近文本区域边界点的横坐标偏移量和内缩文本区域像素点距离最近文本区域边界点的纵坐标偏移量进行训练的平滑L1损失函数;用于对所述图像特征进行训练的向量聚类损失函数。
在一种可选的实施方式中,当所述内缩文本区域概率图对应的内缩文本区域包括多个,所述损失函数包括所述向量聚类损失函数时;程序305还用于使得处理器301在通过以下方式训练得到用于表征所述图像特征的一维向量特征:针对每个内缩文本区域,获取内缩文本区域的像素点对应的所述一维向量特征,根据获取的所述一维向量特征的平均值确定聚类中心;计算内缩文本区域的边界点对应的所述一维向量特征与所述边界点对应的聚类中心的第一特征空间距离;并获取所述第一特征空间距离与第一距离阈值的第一比较结果;以及,计算多个内缩文本区域的多个聚类中心之间的第二特征空间距离,并获取所述第二特征空间距离与第二距离阈值的第二比较结果;根据所述第一比较结果和所述第二比较结果,计算向量聚类损失函数的损失值;根据所述损失值,对所述一维向量特征进行训练。
程序305中各步骤的具体实现可以参见上述文本检测方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,在进行文本检测,尤其是文字密度较大的密集文本检测时,可以先根据对待检测文本图像的特征提取和图像分割的结果,获得文本区域概率图和待检测文本图像的图像特征;进而,对文本区域概率图进行二值化,获得相应的文本区域二值图;再基于该文本区域二值图和所述图像特征获得待检测文本图像中的一个或多个连通域;在获得连通域的文本区域近似边界后,可根据预设的边界阈值,获得文本检测结果,即具有各自边界的各个文本区域。一方面,本发明实施例提供的方案基于文本区域二值图进行处理,相较于其它形式的文本区域图像,待处理的数据量更少,处理速度更快,且可节省计算资源;另一方面,依据文本区域二值图对所述图像特征进行处理,可保留有用特征而过滤掉无用特征,进一步减少了计算量,节省了计算资源,且提升了计算速度;再一方面,基于获得的各个文本连通域的文本区域近似边界,根据预设边界阈值来进行准确的边界确认和划分,相较于通过模型进行文本框检测等方式,实现更为简单、快速、边界确定效率也更高,且也可减少计算量,降低计算资源消耗。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本发明实施例中的方法中限定的上述功能。需要说明的是,本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明实施例中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写配置为执行本发明实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系,但这些先后关系只是示例性的,在具体实现的时候,这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括接入模块和发送模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例中所描述的文本检测方法。
作为另一方面,本发明实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:对待检测文本图像进行特征提取,获取所述待检测文本图像的文本区域概率图;根据所述文本区域概率图,确定所述待检测文本图像的文本区域二值图;提取所述文本区域二值图的边缘信息,获得文本区域边缘图;对所述文本区域边缘图进行连通域检测,根据检测结果获得文本区域的最小外接矩形;根据所述最小外接矩形,获得对所述待检测文本图像的文本检测结果。
在本发明的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (17)
1.一种文本检测方法,其特征在于,包括:
对待检测文本图像进行特征提取和图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征;
对所述文本区域概率图进行二值化,获得文本区域二值图;
根据所述文本区域二值图和所述图像特征,获取至少一个文本连通域;
获取至少一个所述文本连通域的文本区域近似边界;
根据所述文本区域近似边界和预设的边界阈值,获得所述待检测文本图像的文本检测结果。
2.根据权利要求1所述的方法,其特征在于,所述图像特征为一维向量特征;
所述根据所述文本区域二值图和所述图像特征,获取至少一个文本连通域,包括:
确定与所述文本区域二值图中的文本区域像素点对应的一维向量特征;
对确定的所述一维向量特征进行排序,根据排序结果和预设的连通分类阈值,获取至少一个文本连通域。
3.根据权利要求2所述的方法,其特征在于,所述对确定的所述一维向量特征进行排序,根据排序结果和预设的连通分类阈值,获取至少一个文本连通域,包括:
对确定的所述一维向量特征进行排序,获得排序后的特征;
在排序后的特征中,将相邻特征间的差值小于预设的连通分类阈值的特征划分为同一类;
根据划分结果,获取至少一个文本连通域。
4.根据权利要求1所述的方法,其特征在于,所述对待检测文本图像进行特征提取和图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征,包括:
对待检测文本图像进行特征提取和图像分割,获取所述待检测文本图像的内缩文本区域概率图、内缩文本区域像素点距离最近文本区域边界点的横坐标偏移量、内缩文本区域像素点距离最近文本区域边界点的纵坐标偏移量和所述待检测文本图像的图像特征。
5.根据权利要求4所述的方法,其特征在于,所述获取至少一个所述文本连通域的文本区域近似边界,包括:
针对每个文本连通域,根据文本连通域的每个边界像素点的横坐标与每个边界像素点对应的横坐标偏移量之和,以及,每个边界像素点的纵坐标与每个边界像素点对应的纵坐标偏移量之和,确定文本区域候选边界点的坐标,其中,所述边界像素点对应的横坐标偏移量为所述内缩文本区域中与当前文本连通域对应的边界像素点距离最近文本区域边界点的横坐标偏移量;所述边界像素点对应的纵坐标偏移量为所述内缩文本区域中与当前文本连通域对应的边界像素点距离最近文本区域边界点的纵坐标偏移量;
根据所述文本区域候选边界点的坐标,确定近似中心点坐标;
根据所述近似中心点坐标与所述文本区域候选边界点的坐标,确定近似中心点与所述文本区域候选边界点的几何关系;
根据所述几何关系,获取对应的文本区域近似边界。
6.根据权利要求5所述的方法,其特征在于,所述根据所述文本区域候选边界点的坐标,确定近似中心点坐标,包括:
根据所述文本区域候选边界点的坐标的平均值,确定近似中心点坐标。
7.根据权利要求5所述的方法,其特征在于,所述根据所述几何关系,获取对应的文本区域近似边界,包括:
根据所述几何关系和预设拓展阈值,对所述文本区域候选边界点进行拓展,得到文本区域拓展边界点;
根据所述文本区域拓展边界点,获取对应的文本区域近似边界。
8.根据权利要求7所述的方法,其特征在于,所述根据所述文本区域近似边界和预设的边界阈值,获得所述待检测文本图像的文本检测结果,包括:
以所述文本区域近似边界中的文本区域拓展边界点为中心,根据预设的边界阈值,对所述文本区域候选边界点进行聚类,获得聚类结果;
根据所述聚类结果的平均值,获得所述待检测文本图像的文本检测结果。
9.根据权利要求4所述的方法,其特征在于,所述对待检测文本图像进行特征提取和图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征,包括:
对待检测文本图像进行特征提取,获得特征映射图;
将所述特征映射图进行上采样,并串联上采样后的特征;基于串联后的特征对应的特征映射图进行特征提取和图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征。
10.根据权利要求9所述的方法,其特征在于,
所述对所述待检测文本图像进行特征提取,获得特征映射图,包括:使用神经网络模型的PAN结构对所述待检测文本图像进行特征提取,获得PAN特征提取结果;
所述将所述特征映射图进行上采样,并串联上采样后的特征;基于串联后的特征对应的特征映射图进行特征提取和图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征,包括:将所述PAN特征提取结果输入所述神经网络模型的DB结构进行上采样,通过DB结构对上采样后的特征进行串联;并基于串联后的特征对应的特征映射图进行特征提取和图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征。
11.根据权利要求10所述的方法,其特征在于,所述使用神经网络模型的PAN结构对所述待检测文本图像进行特征提取,获得PAN特征提取结果,包括:
将所述待检测文本图像输入所述PAN结构中的残差网络部分,获得第一文本图像特征。
12.根据权利要求11所述的方法,其特征在于,在所述获得第一文本图像特征之后,所述方法还包括:
再将所述第一文本图像特征输入所述PAN结构中的特征金字塔增强结构部分,获得第二文本图像特征。
13.根据权利要求10所述的方法,其特征在于,所述基于串联后的特征对应的特征映射图进行图像分割,至少获取所述待检测文本图像的文本区域概率图和所述待检测文本图像的图像特征,包括:
基于串联后的特征对应的特征映射图进行图像分割,至少获取所述待检测文本图像的内缩文本区域概率图、内缩文本区域像素点距离最近文本区域边界点的横坐标偏移量、内缩文本区域像素点距离最近文本区域边界点的纵坐标偏移量和用于表征所述待检测文本图像的图像特征的一维向量特征。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
基于训练样本图像和预设的损失函数,对所述神经网络模型进行训练;其中,所述损失函数包括以下至少之一:
用于对内缩文本区域概率图进行训练的交并比损失函数;
用于对内缩文本区域像素点距离最近文本区域边界点的横坐标偏移量和内缩文本区域像素点距离最近文本区域边界点的纵坐标偏移量进行训练的平滑L1损失函数;
用于对所述图像特征进行训练的向量聚类损失函数。
15.根据权利要求14所述的方法,其特征在于,当所述内缩文本区域概率图对应的内缩文本区域包括多个,所述损失函数包括所述向量聚类损失函数时,所述基于训练样本图像和预设的损失函数,对所述神经网络模型进行训练,包括::
针对每个内缩文本区域,获取内缩文本区域的像素点对应的用于表征所述图像特征的一维向量特征,根据获取的所述一维向量特征的平均值确定聚类中心;计算内缩文本区域的边界点对应的所述一维向量特征与所述边界点对应的聚类中心的第一特征空间距离;并获取所述第一特征空间距离与第一距离阈值的第一比较结果;
以及,计算多个内缩文本区域的多个聚类中心之间的第二特征空间距离,并获取所述第二特征空间距离与第二距离阈值的第二比较结果;
根据所述第一比较结果和所述第二比较结果,计算向量聚类损失函数的损失值;
根据所述损失值,对所述一维向量特征进行训练。
16.一种电子设备,其特征在于,所述设备包括:
一个或多个处理器;
计算机可读介质,配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-15中任一项所述的文本检测方法。
17.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-15中任一项所述的文本检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010560807.6A CN111709420B (zh) | 2020-06-18 | 2020-06-18 | 文本检测方法、电子设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010560807.6A CN111709420B (zh) | 2020-06-18 | 2020-06-18 | 文本检测方法、电子设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709420A true CN111709420A (zh) | 2020-09-25 |
CN111709420B CN111709420B (zh) | 2022-06-24 |
Family
ID=72541960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010560807.6A Active CN111709420B (zh) | 2020-06-18 | 2020-06-18 | 文本检测方法、电子设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709420B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967460A (zh) * | 2020-10-23 | 2020-11-20 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN111967545A (zh) * | 2020-10-26 | 2020-11-20 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN111967449A (zh) * | 2020-10-20 | 2020-11-20 | 北京易真学思教育科技有限公司 | 文本检测方法、电子设备及计算机可读介质 |
CN112183322A (zh) * | 2020-09-27 | 2021-01-05 | 成都数之联科技有限公司 | 一种任意形状的文本检测和矫正方法 |
CN112200191A (zh) * | 2020-12-01 | 2021-01-08 | 北京京东尚科信息技术有限公司 | 图像处理方法、装置、计算设备及介质 |
CN112612933A (zh) * | 2021-01-05 | 2021-04-06 | 同方知网(北京)技术有限公司 | 一种分类数据可视化方法 |
CN112686245A (zh) * | 2021-01-04 | 2021-04-20 | 福州大学 | 基于字符响应的字符和文本并行检测方法 |
CN112712072A (zh) * | 2021-03-26 | 2021-04-27 | 北京世纪好未来教育科技有限公司 | 文本的识别方法和识别装置 |
CN112801045A (zh) * | 2021-03-18 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 一种文本区域检测方法、电子设备及计算机存储介质 |
CN112990204A (zh) * | 2021-05-11 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN113033400A (zh) * | 2021-03-25 | 2021-06-25 | 新东方教育科技集团有限公司 | 识别数学式子的方法、装置、存储介质及电子设备 |
CN113269280A (zh) * | 2021-07-21 | 2021-08-17 | 北京世纪好未来教育科技有限公司 | 文本检测方法、装置、电子设备及计算机可读存储介质 |
CN114897046A (zh) * | 2022-04-01 | 2022-08-12 | 腾讯科技(深圳)有限公司 | 媒体资源的语义特征确定方法和装置、存储介质及设备 |
CN115272682A (zh) * | 2022-07-29 | 2022-11-01 | 上海弘玑信息技术有限公司 | 目标对象检测方法、目标检测模型的训练方法及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
US20180046641A1 (en) * | 2005-10-26 | 2018-02-15 | Cortica, Ltd. | System and method for enriching a concept database |
CN110781967A (zh) * | 2019-10-29 | 2020-02-11 | 华中科技大学 | 一种基于可微分二值化的实时文本检测方法 |
-
2020
- 2020-06-18 CN CN202010560807.6A patent/CN111709420B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180046641A1 (en) * | 2005-10-26 | 2018-02-15 | Cortica, Ltd. | System and method for enriching a concept database |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN110781967A (zh) * | 2019-10-29 | 2020-02-11 | 华中科技大学 | 一种基于可微分二值化的实时文本检测方法 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183322A (zh) * | 2020-09-27 | 2021-01-05 | 成都数之联科技有限公司 | 一种任意形状的文本检测和矫正方法 |
CN112183322B (zh) * | 2020-09-27 | 2022-07-19 | 成都数之联科技股份有限公司 | 一种任意形状的文本检测和矫正方法 |
CN111967449A (zh) * | 2020-10-20 | 2020-11-20 | 北京易真学思教育科技有限公司 | 文本检测方法、电子设备及计算机可读介质 |
CN111967460A (zh) * | 2020-10-23 | 2020-11-20 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN111967460B (zh) * | 2020-10-23 | 2021-02-23 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN111967545A (zh) * | 2020-10-26 | 2020-11-20 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN111967545B (zh) * | 2020-10-26 | 2021-02-26 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN112200191A (zh) * | 2020-12-01 | 2021-01-08 | 北京京东尚科信息技术有限公司 | 图像处理方法、装置、计算设备及介质 |
CN112686245B (zh) * | 2021-01-04 | 2022-05-13 | 福州大学 | 基于字符响应的字符和文本并行检测方法 |
CN112686245A (zh) * | 2021-01-04 | 2021-04-20 | 福州大学 | 基于字符响应的字符和文本并行检测方法 |
CN112612933A (zh) * | 2021-01-05 | 2021-04-06 | 同方知网(北京)技术有限公司 | 一种分类数据可视化方法 |
CN112612933B (zh) * | 2021-01-05 | 2024-03-26 | 同方知网(北京)技术有限公司 | 一种分类数据可视化方法 |
CN112801045A (zh) * | 2021-03-18 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 一种文本区域检测方法、电子设备及计算机存储介质 |
CN113033400A (zh) * | 2021-03-25 | 2021-06-25 | 新东方教育科技集团有限公司 | 识别数学式子的方法、装置、存储介质及电子设备 |
CN113033400B (zh) * | 2021-03-25 | 2024-01-19 | 新东方教育科技集团有限公司 | 识别数学式子的方法、装置、存储介质及电子设备 |
CN112712072A (zh) * | 2021-03-26 | 2021-04-27 | 北京世纪好未来教育科技有限公司 | 文本的识别方法和识别装置 |
CN112712072B (zh) * | 2021-03-26 | 2021-07-23 | 北京世纪好未来教育科技有限公司 | 文本的识别方法和识别装置 |
CN112990204A (zh) * | 2021-05-11 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN113269280A (zh) * | 2021-07-21 | 2021-08-17 | 北京世纪好未来教育科技有限公司 | 文本检测方法、装置、电子设备及计算机可读存储介质 |
CN114897046A (zh) * | 2022-04-01 | 2022-08-12 | 腾讯科技(深圳)有限公司 | 媒体资源的语义特征确定方法和装置、存储介质及设备 |
CN115272682A (zh) * | 2022-07-29 | 2022-11-01 | 上海弘玑信息技术有限公司 | 目标对象检测方法、目标检测模型的训练方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111709420B (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709420B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN111652217B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN111652218A (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN112016551B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN107392141B (zh) | 一种基于显著性检测和lsd直线检测的机场提取方法 | |
CN108229504B (zh) | 图像解析方法及装置 | |
CN111932577B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN108305260B (zh) | 一种图像中角点的检测方法、装置及设备 | |
CN111967545B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN111145209A (zh) | 一种医学图像分割方法、装置、设备及存储介质 | |
CN111507226B (zh) | 道路图像识别模型建模方法、图像识别方法及电子设备 | |
CN110070548B (zh) | 一种深度学习训练样本优化方法 | |
CN111507337A (zh) | 基于混合神经网络的车牌识别方法 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN114492619A (zh) | 一种基于统计和凹凸性的点云数据集构建方法及装置 | |
CN113591719A (zh) | 一种自然场景任意形状文本检测方法、装置和训练方法 | |
CN112991536A (zh) | 一种专题地图地理面要素自动提取和矢量化方法 | |
CN111967449B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN117541546A (zh) | 图像裁剪效果的确定方法和装置、存储介质及电子设备 | |
Zhang et al. | A novel approach for binarization of overlay text | |
CN112101347B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN109241865B (zh) | 一种弱对比度交通场景下的车辆检测分割算法 | |
CN111967460B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN114511862B (zh) | 表格识别方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |