CN111967460B - 文本检测方法、装置、电子设备及计算机存储介质 - Google Patents

文本检测方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN111967460B
CN111967460B CN202011149033.4A CN202011149033A CN111967460B CN 111967460 B CN111967460 B CN 111967460B CN 202011149033 A CN202011149033 A CN 202011149033A CN 111967460 B CN111967460 B CN 111967460B
Authority
CN
China
Prior art keywords
text
region
horizontal
vertical
connected domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011149033.4A
Other languages
English (en)
Other versions
CN111967460A (zh
Inventor
李盼盼
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yizhen Xuesi Education Technology Co Ltd
Original Assignee
Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yizhen Xuesi Education Technology Co Ltd filed Critical Beijing Yizhen Xuesi Education Technology Co Ltd
Priority to CN202011149033.4A priority Critical patent/CN111967460B/zh
Publication of CN111967460A publication Critical patent/CN111967460A/zh
Application granted granted Critical
Publication of CN111967460B publication Critical patent/CN111967460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/145Illumination specially adapted for pattern recognition, e.g. using gratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种文本检测方法、装置、电子设备及计算机存储介质,该文本检测方法包括:对待检测文本图像进行特征提取,得到待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图;对水平区域概率图和垂直区域概率图进行二值化,获得对应的水平区域二值图和垂直区域二值图;对水平区域二值图和垂直区域二值图求取连通域,根据连通域获得待检测文本图像的文本检测结果。本申请通过对文本区域对应的水平区域二值图和垂直区域二值图求取连通域,然后根据连通域获得文本检测结果,针对两个粘连的文本区域,可以根据各自的连通域进行分割,使得粘连的区域划分到各自的文本区域,提高了文本检测的准确性。

Description

文本检测方法、装置、电子设备及计算机存储介质
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种文本检测方法、装置、电子设备及计算机存储介质。
背景技术
文本检测是一种检测图像中的文本区域并标记其边界框的技术,文本检测应用范围广泛,是很多计算机视觉任务的前置步骤,比如图像搜索、文字识别,身份认证和视觉导航等。
文本检测的主要目的是定位文本行或字符在图像中的位置,目前一种比较流行的文本检测方法是基于计算连通域的方法,也称基于分割思想的方法,该方法是根据全卷积神经网络模型提取图像特征,然后对特征图进行二值化并计算其连通域,然后通过后处理算法,确定文本行位置,从而实现对文本区域进行分割和检测。
但是,若文本图像中两个相邻的文本区域发生粘连,也就是两个文本区域有重叠的部分,通常情况下,在对两个粘连的文本区域进行分割时,将粘连的部分划分给其中一个文本区域,或者不再对两个粘连的文本区域进行分割,使得检测结果不准确。
发明内容
有鉴于此,本申请实施例提供一种文本检测方法、装置、电子设备及计算机存储介质,用以克服现有技术中在检测文本时检测结果不准确的缺陷。
第一方面,本申请实施例提供了一种文本检测方法,所述方法包括:
对待检测文本图像进行特征提取,得到所述待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图;
对所述水平区域概率图和所述垂直区域概率图进行二值化,获得对应的水平区域二值图和垂直区域二值图;
对所述水平区域二值图和所述垂直区域二值图求取连通域,根据所述连通域获得所述待检测文本图像的文本检测结果。
第二方面,本申请实施例提供了一种文本检测装置,所述装置包括特征提取模块、二值化模块和结果获取模块;
所述特征提取模块用于对待检测文本图像进行特征提取,得到所述待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图;
所述二值化模块用于对所述水平区域概率图和所述垂直区域概率图进行二值化,获得对应的水平区域二值图和垂直区域二值图;
所述结果获取模块用于对所述水平区域二值图和所述垂直区域二值图求取连通域,根据所述连通域获得所述待检测文本图像的文本检测结果。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一个可执行指令,所述可执行指令使所述处理器执行如第一方面或第一方面的任意一个实施例中所述的文本检测方法对应的操作。
第四方面,本申请实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第一方面的任意一个实施例中所述的文本检测方法。
本申请实施例提供的文本检测方案,对待检测文本图像进行特征提取,得到待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图;对水平区域概率图和垂直区域概率图进行二值化,获得对应的水平区域二值图和垂直区域二值图;对水平区域二值图和垂直区域二值图求取连通域,根据连通域获得待检测文本图像的文本检测结果。本申请实施例中通过对文本区域对应的水平区域二值图和垂直区域二值图求取连通域,然后根据连通域获得文本检测结果,针对两个粘连的文本区域,可以根据各自的连通域进行分割,使得粘连的区域划分到各自的文本区域,提高了文本检测的准确性;本申请实施例无需反复卷积,也无需将内缩文本区域向外扩得到真实文本区域的步骤,减少了文本检测计算量,也节省了计算资源,提高了文本检测效率和速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本检测方法的流程图;
图2为本申请实施例提供的一种文本区域对应的水平区域的示意图;
图3为本申请实施例提供的一种文本区域对应的垂直区域的示意图;
图4为本申请实施例提供的另一种文本检测方法的流程图;
图5为本申请实施例提供的一种文本检测装置的结构框图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
需要说明的是,本申请中的第一和第二只是为了区分名称,并不代表顺序关系,不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,例如,第一文本特征、第二文本特征,第一交并比损失函数、第二交并比损失函数,第一损失值、第二损失值。
下面结合附图进一步说明本申请实施例具体实现。
实施例一、
本申请实施例一提供一种文本检测方法,如图1所示,图1为本申请实施例提供的一种文本检测方法的流程图,该文本检测方法包括以下步骤:
步骤S101、对待检测文本图像进行特征提取,得到待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图。
需要说明的是,本申请实施例中的文本检测方法可适用于具有各种文本密度的文本检测,包括但不限于常规密度文本、密集密度文本、稀疏密度文本,尤其是密集密度文本。其中,确定某个文本是否为密集文本的具体指标可以由本领域技术人员根据实际情况适当设置,包括但不限于:根据文本之间的间距(如间距小于2磅等)、根据单位范围内的文本的数量(如每平方厘米中的文本数量多于3个等)等等,本申请实施例对此不作限制。
本申请中的待检测文本图像包括至少一个文本区域,文本区域对应的水平区域概率图用于表征像素点属于文本区域的水平区域的概率;文本区域对应的垂直区域概率图用于表征像素点属于文本区域的垂直区域的概率。
其中,水平区域用于表征文本区域在水平方向上内缩后的区域,如图2所示,图2为本申请实施例提供的一种文本区域对应的水平区域的示意图;垂直区域用于表征文本区域在垂直方向上内缩后的区域,如图3所示,图3为本申请实施例提供的一种文本区域对应的垂直区域的示意图。
可选地,在本申请的一种实施例中,水平区域和垂直区域的宽度均大于或等于预设宽度。
示例地,预设宽度是3个像素点,以水平区域和垂直区域的宽度均等于3个像素点为例进行说明,水平区域指宽度为3个像素点的水平内缩文本,垂直区域指宽度为3个像素点的垂直内缩文本,可以理解的是,水平区域和垂直区域的宽度也可以是3个以上的像素点,本申请实施例将水平区域和垂直区域的宽度设置为大于或等于预设宽度,可保证一个文本区域的水平区域和垂直区域是连续的,提高了文本区域的水平区域和垂直区域的准确性。
步骤S102、对水平区域概率图和垂直区域概率图进行二值化,获得对应的水平区域二值图和垂直区域二值图。
本申请实施例根据预设阈值对水平区域概率图和垂直区域概率图进行二值化,从而获得待检测文本图像中至少一个文本区域的水平区域二值图和垂直区域二值图。其中,预设阈值可以由本领域技术人员根据实际需求适当设置,使得待检测文本图像中的像素点被有效区分即可,一种可实现的方式中,预设阈值可以根据模型训练阶段时的阈值设定,另一种可实现的方式中,预设阈值可以通过对大量的真实文本概率图进行二值化处理中,对使用的大量阈值的分析确定。
步骤S103、对水平区域二值图和垂直区域二值图求取连通域,根据连通域获得待检测文本图像的文本检测结果。
根据本申请提供的文本检测方法,在进行文本检测时,是通过对文本区域对应的水平区域二值图和垂直区域二值图求取连通域,然后根据文本区域各自对应的连通域对待检测文本图像进行分割,获得文本检测结果。对于待检测文本图像来说,存在文本粘连的情况,也就是两个文本区域相交,此种情况下,针对两个粘连的文本区域,可以根据各自对应的连通域进行分割,使得粘连的区域划分到各自的文本区域,从而获得待检测文本图像的文本检测结果,提高了文本检测的准确性。通过本申请实施例的方案,无需反复卷积,也无需将内缩文本区域向外扩得到真实文本区域的步骤,减少了文本检测计算量,也节省了计算资源,提高了文本检测效率和速度。
本实施例的文本检测方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、PC机、甚至高性能的移动终端等。
实施例二、
本申请实施例二基于实施例一的方案,可选地,在本申请的一种实施例中,其中的步骤S103可以实现为以下步骤S103a和步骤S103b。
示例地,步骤S103a、对水平区域二值图和垂直区域二值图分别求取连通域,获得对应的至少一个水平连通域和至少一个垂直连通域;步骤S103b、根据至少一个水平连通域和至少一个垂直连通域,获得待检测文本图像的文本检测结果。
一个文本区域对应一个水平连通域和一个垂直连通域,示例地,若一个待检测文本图像中包括100个文本区域,则对水平区域二值图和垂直区域二值图分别求取连通域之后,可以得到100个水平连通域和100个垂直连通域。在得到100个水平连通域和100个垂直连通域之后,本申请实施例还对水平连通域和垂直连通域进行匹配,示例地,将100个水平连通域和100个垂直连通域分别进行匹配,找到水平连通域和其对应的垂直连通域,根据该水平连通域和其对应的垂直连通域可以确定一个文本区域,从而得到待检测文本图像中的100个真实文本区域。
在对水平连通域和垂直连通域进行匹配时,可选地,在本申请的一种实施例中,步骤S103b还可以包括步骤S103b1和步骤S103b2。
步骤S103b1、根据至少一个水平连通域和至少一个垂直连通域确定至少一个文本中心区域,文本中心区域用于指示水平连通域与垂直连通域的重叠区域。
本申请实施例在对水平连通域和垂直连通域进行匹配时,以100个水平连通域和100个垂直连通域为例进行说明,实际情况中,一个文本区域的水平连通域和垂直连通域是交叉的,有重叠的区域,先根据100个水平连通域和100个垂直连通域确定出100个文本区域中心,若水平连通域和垂直连通域的宽度是3个像素点,则得到的文本区域中心是9个像素点。
可选地,在本申请的一种实施例中,将至少一个水平连通域和至少一个垂直连通域中坐标相同的像素点进行归类,得到至少一个文本中心区域。
本申请实施例在根据至少一个水平连通域和至少一个垂直连通域确定至少一个文本中心区域时,是先找出坐标相同的像素点,然后对坐标相同的像素点进行归类,得到至少一个文本中心区域。
步骤S103b2、根据至少一个文本中心区域、至少一个水平连通域和至少一个垂直连通域,获得待检测文本图像的文本检测结果。
本申请实施例中将文本中心区域对应的水平连通域和垂直连通域合并在一起,从而根据合并后的水平连通域和垂直连通域得到一个真实文本区域。
可选地,在本申请的一种实施例中,针对每个文本中心区域,根据文本中心区域确定文本中心区域对应的水平连通域和垂直连通域;根据确定的水平连通域的坐标和垂直连通域的坐标,确定文本中心区域对应的真实文本区域坐标;根据真实文本区域坐标,获得待检测文本图像的文本检测结果。
在得到文本中心区域对应的水平连通域和垂直连通域之后,直接根据文本中心区域对应的水平连通域和垂直连通域的坐标得到文本区域的坐标。示例地,水平连通域的两端是文本区域横坐标的两个坐标值,垂直连通域的两端是文本区域纵坐标的两个坐标值。具体的,如果一个文本区域对应的水平区域的两个端点坐标是(1,10)和(15,10),垂直区域的两个端点坐标是(8,7)和(8,13),由此可以得到该文本区域的四个顶点坐标分别为(1,7)、(15,7)、(15,13)和(1,13)。
本申请实施例也可以对文本中心区域对应的水平连通域和垂直连通域再次求取连通域,得到十字形连通域,再根据十字形连通域的四个端点坐标确定真实文本区域坐标。
本申请实施例在确定出待检测文本图像上的所有真实文本区域坐标,可以根据真实文本区域坐标对文本图像中的文本区域进行复制或剪切等其他处理,从而获得待检测文本图像的文本检测结果。
本申请实施例通过求取文本区域的至少一个水平连通域和垂直连通域,然后根据同一个文本区域的水平连通域和垂直连通域存在坐标相同的像素点,找的至少一个文本中心区域,根据文本中心区域对每个水平连通域匹配一个垂直连通域,从而根据文本中心区域对应的水平连通域和垂直连通域确定真实文本区域的坐标,实现了对粘连文本区域的分割,将粘连的区域划分到各自的文本区域,提高了文本区域的准确性,并且,相较于传统方式,避免了将内缩文本区域外扩得到真实文本区域的步骤,节省了时间,提高了文本检测速度和效率。
实施例三、
本申请实施例三基于实施例一和实施例二的方案,其中的步骤S101还可以实现为下述步骤S101a-步骤S101d。
步骤S101a、对待检测文本图像进行第一文本特征提取。
本申请实施例在对待检测文本图像进行特征提取时,可以将待检测文本图像输入残差网络部分(如Resnet网络),进行第一文本特征的提取,如对输入图像提取纹理、边缘、角点和语义信息等特征,这些特征由4组大小不同的特征映射表征。以待检测文本图像为原始图像、Resnet网络对原始图像进行特征提取为例进行说明,Resnet18网络由4个block块串联构建,每个block块包括若干层卷积操作,第一个block块输出的特征映射大小为原始图像的1/4,第二个block块输出的特征映射大小为原始图像的1/8,第三个block块输出的特征映射大小为原始图像的1/16,第四个block块输出的特征映射大小为原始图像的1/32,每个block块输出的特征映射数量都为128,然后将4组大小不同的特征映射全部通过插值的方式将其大小变为原始图像的1/4大小,并串联在一起,得到第一文本特征。
步骤S101b、对第一文本特征的特征进行增强处理得到第二文本特征。
将步骤S101a提取到的第一文本特征,经过两个特征金字塔增强模块(FeaturePyramid Enhancement Module,简称FPEM)模块,对特征进行增强处理,再次提取纹理、边缘、角点和语义信息等第二文本特征,并得到该第二文本特征对应的4组特征映射。
步骤S101c、对第二文本特征进行上采样,并将上采样后的文本特征进行串联,得到串联后的特征。
将得到的4组特征映射的特征图大小全部上采样到原始图像1/4大小,并串联在一起,此处串联的含义是指将4组与原始图像1/4大小一样的特征映射,以通道为轴串在一起,举例来说,如果每组特征映射通道为512,则串联在一起之后得到一组特征映射,其通道数量为512。
步骤S101d、将串联后的特征进行卷积操作,得到待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图。
将串联后的特征映射进行一次卷积操作,两次反卷积操作,得到与输入的原始图像大小一致的2通道输出,其中第一个通道表示水平区域概率图,用于表征像素点属于文本区域的水平区域的概率,第二个通道表示垂直区域概率图,用于表征像素点属于文本区域的垂直区域的概率。
需要说明的是,相较于单个FPEM模块,两个FPEM模块可以达到最好的效果。每个FPEM模块的处理相同,包括:对得到的4组大小不同的多通道特征映射,按照从大到小的,从前往后的次序,依次称为正向第一、正向第二、正向第三、正向第四组特征映射,先对正向第四组特征映射进行2倍上采样,即将其大小扩大2倍,然后将其与正向第三组特征映射按照通道逐点相加,对结果进行一次深度可分离卷积操作之后,再进行一次卷积、批归一化和激活函数作用操作,得到的结果称为反向第二组特征映射,同样的操作用于反向第二组特征映射和正向第二组特征映射得到反向第三组特征映射,然后同样的操作作用于反向第三组特征映射和正向第一组特征映射,得到反向第四组特征映射,同时将正向第四组特征映射视为反向第一组特征映射,由此得到4组反向特征映射;将第四组反向特征映射作为目标第一组特征映射,然后对目标第一组特征映射进行2倍下采样,即大小缩小2倍,然后将其与反向第三组特征映射按通道逐点相加,对结果进行一次深度可分离卷积操作之后,再进行一次卷积、批归一化和激活函数作用操作,得到的结果称为目标第二组特征映射,同样的操作作用于目标第二组特征映射和反向第二组特征映射,得到目标第三组特征映射,然后同样的操作作用于目标第三组特征映射和反向第一组特征映射,得到目标第四组特征映射,目标第一、目标第二、目标第三和目标第四组特征映射便是FPEM模块的输出。第二个FPEM模块是以第一个FPEM模块的输出作为输入,进行同样的操作,得到输出。该输出中包括形成至少一个特征映射图的特征,或者说,输出的特征可以形成特征映射图。
实施例四、
本申请实施例四基于实施例一至实施例三的方案,在实现步骤S101中的特征提取时,可以通过文本检测模型进行特征提取,示例地,将待检测文本图像输入文本检测模型,通过文本检测模型获得待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图。
本申请实施例在应用阶段时,通过训练好的文本检测模型获得待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图。而在训练阶段,还需要执行实施例三中的步骤S101a-步骤S101d,在得到至少一个文本区域对应的水平区域概率图和垂直区域概率图之后,还对水平区域概率图和垂直区域概率图进行训练,从而得到训练好的文本检测模型。
可选地,在本申请的一种实施例中,在将待检测文本图像输入文本检测模型之前,本申请还包括对文本检测模型进行训练的过程,使用训练图像样本,对文本检测模型进行训练。
示例地,获取训练图像样本,并将训练图像样本输入文本检测模型;通过文本检测模型得到训练图像样本中的至少一个文本区域水平区域预测概率图和垂直区域预测概率图;根据水平区域预测概率图和预设的第一交并比损失函数,获得对应的第一损失值;且,根据垂直区域预测概率图和预设的第二交并比损失函数,获得对应的第二损失值;根据第一损失值和第二损失值对文本检测模型进行训练。其中,训练图像样本包含有各个文本区域的水平区域和垂直区域的标注信息。
本申请实施例是使用交并比值(DiceLoss)作为目标损失函数分别对水平区域预测概率图和垂直区域预测概率图进行训练优化,计算水平区域预测概率图对应的第一损失值和垂直区域预测概率图对应的第二损失值,从而根据第一损失值和第二损失值对文本检测模型进行训练,直至达到训练终止条件,例如,训练次数达到预设次数,或者,损失值达到预设阈值等。
其中,本申请实施例中水平区域预测概率图的交并比损失函数的公式为
Figure 979101DEST_PATH_IMAGE001
,公式中的
Figure 980555DEST_PATH_IMAGE003
指第i个像素点属于水平区域的预测值,
Figure DEST_PATH_IMAGE005
指第i个像素点属于水平区域的真实值。再次,需要说明的是,垂直区域预测概率图的交并比损失函数与水平区域预测概率图的交并比损失函数一致,不同是的,公式中的
Figure 710614DEST_PATH_IMAGE006
指第i个像素点属于垂直区域的预测值,
Figure 379492DEST_PATH_IMAGE005
指第i个像素点属于垂直区域的真实值。
进一步的,列举一个具体的示例对本申请实施例中对待检测文本图像的文本检测进行说明,如图4所示,图4为本申请实施例提供的另一种文本检测方法的流程图,可以包括以下步骤:
步骤S401、将待检测的文本图像输入Resnet18网络,进行第一文本特征提取。
步骤S402、将提取到的第一文本特征,经过两个FPEM模块,再次提取第二文本特征,并得到该第二文本特征对应的4组特征映射。
步骤S403、将步骤S402得到的4组特征映射的特征图大小全部上采样到原始图像1/4大小,并串联在一起。
步骤S404、将串联后的特征映射进行一次卷积操作,两次反卷积操作,输出待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图。
步骤S405、根据设定阈值,对水平区域概率图和垂直区域概率图分别进行二值化,得到水平区域二值图和垂直区域二值图。
步骤S406、分别对水平区域二值图和垂直区域二值图求取连通域,得到至少一个水平连通域和至少一个垂直连通域。
其中,有相同坐标点的垂直连通域和水平连通域属于同一个文本区域。本申请实施例中相同坐标点表示坐标相同的像素点。
步骤S407、根据同一个文本区域对应的水平连通域和垂直连通域得到该文本区域的坐标。
由上述过程可见,通过本申请提供的文本检测方法,根据水平连通域和垂直连通域存在相同坐标点,也就是同一个文本区域的水平连通域和垂直连通域存在重叠区域,先根据至少一个水平连通域和至少一个垂直连通域找到多个相同坐标点,再根据坐标点找到同一个文本区域的水平连通域和垂直连通域,然后根据水平连通域和垂直连通域的坐标得到该文本区域的坐标。通过本申请实施例将粘连文本区分开,实现了对粘连文本区域的分割,将粘连的区域划分到各自的文本区域,提高了文本区域的准确性,并且,相较于传统方式,避免了将内缩文本区域外扩得到真实文本区域的步骤,节省了时间,提高了文本检测速度和效率。
实施例五、
本申请实施例提供了一种文本检测装置,如图5所示,图5为本申请实施例提供的一种文本检测装置,文本检测装置50包括特征提取模块501、二值化模块502和结果获取模块503;
特征提取模块501用于对待检测文本图像进行特征提取,得到待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图;
二值化模块502用于对水平区域概率图和垂直区域概率图进行二值化,获得对应的水平区域二值图和垂直区域二值图;
结果获取模块503用于对水平区域二值图和垂直区域二值图求取连通域,根据连通域获得待检测文本图像的文本检测结果。
可选地,在本申请的一种实施例中,结果获取模块503还用于对水平区域二值图和垂直区域二值图分别求取连通域,获得对应的至少一个水平连通域和至少一个垂直连通域;根据至少一个水平连通域和至少一个垂直连通域,获得待检测文本图像的文本检测结果。
可选地,在本申请的一种实施例中,结果获取模块503还用于根据至少一个水平连通域和至少一个垂直连通域确定至少一个文本中心区域,文本中心区域用于指示水平连通域与垂直连通域的重叠区域;根据至少一个文本中心区域、至少一个水平连通域和至少一个垂直连通域,获得待检测文本图像的文本检测结果。
可选地,在本申请的一种实施例中,结果获取模块503还用于针对每个文本中心区域,根据文本中心区域确定文本中心区域对应的水平连通域和垂直连通域;根据确定的水平连通域的坐标和垂直连通域的坐标,确定文本中心区域对应的真实文本区域坐标;根据真实文本区域坐标,获得待检测文本图像的文本检测结果。
可选地,在本申请的一种实施例中,结果获取模块503还用于将至少一个水平连通域和至少一个垂直连通域中坐标相同的像素点进行归类,得到至少一个文本中心区域。
可选地,在本申请的一种实施例中,水平区域和垂直区域的宽度均大于或等于预设宽度。
可选地,在本申请的一种实施例中,特征提取模块501还用于对待检测文本图像进行第一文本特征提取;对第一文本特征的特征进行增强处理得到第二文本特征;对第二文本特征进行上采样,并将上采样后的文本特征进行串联,得到串联后的特征;将串联后的特征进行卷积操作,得到待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图。
可选地,在本申请的一种实施例中,特征提取模块501还用于将待检测文本图像输入文本检测模型,通过文本检测模型获得待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图。
可选地,在本申请的一种实施例中,文本检测装置50包括训练模块,训练模块用于使用训练图像样本,对文本检测模型进行训练。
可选地,在本申请的一种实施例中,训练模块还用于获取训练图像样本,并将训练图像样本输入文本检测模型;通过文本检测模型得到训练图像样本中的至少一个文本区域水平区域预测概率图和垂直区域预测概率图;根据水平区域预测概率图和预设的第一交并比损失函数,获得对应的第一损失值;且,根据垂直区域预测概率图和预设的第二交并比损失函数,获得对应的第二损失值;根据第一损失值和第二损失值对文本检测模型进行训练。
本实施例的文本检测装置用于实现前述多个方法实施例中相应的文本检测方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的文本检测装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
实施例六、
基于上述实施例一至实施例四描述的任一项文本检测方法,本申请实施例提供了一种电子设备,需要说明的,本实施例的文本检测方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。如图6所示,图6为本申请实施例提供的一种电子设备的结构图。本申请具体实施例并不对电子设备的具体实现做限定。该电子设备60可以包括:处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。
其中:处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。
通信接口604,用于与其它电子设备或服务器进行通信。
处理器602,用于执行计算机程序610,具体可以执行上述文本检测方法实施例中的相关步骤。
具体地,计算机程序610可以包括计算机程序代码,该计算机程序代码包括计算机操作指令。
处理器602可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器606,用于存放计算机程序610。存储器606可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
计算机程序610具体可以用于使得处理器602执行以下操作:
对待检测文本图像进行特征提取,得到待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图;
对水平区域概率图和垂直区域概率图进行二值化,获得对应的水平区域二值图和垂直区域二值图;
对水平区域二值图和垂直区域二值图求取连通域,根据连通域获得待检测文本图像的文本检测结果。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602在对水平区域二值图和垂直区域二值图求取连通域,根据连通域获得待检测文本图像的文本检测结果时,对水平区域二值图和垂直区域二值图分别求取连通域,获得对应的至少一个水平连通域和至少一个垂直连通域;根据至少一个水平连通域和至少一个垂直连通域,获得待检测文本图像的文本检测结果。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602在根据至少一个水平连通域和至少一个垂直连通域,获得待检测文本图像的文本检测结果时,根据至少一个水平连通域和至少一个垂直连通域确定至少一个文本中心区域,文本中心区域用于指示水平连通域与垂直连通域的重叠区域;根据至少一个文本中心区域、至少一个水平连通域和至少一个垂直连通域,获得待检测文本图像的文本检测结果。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602在根据至少一个文本中心区域、至少一个水平连通域和至少一个垂直连通域,获得待检测文本图像的文本检测结果时,针对每个文本中心区域,根据文本中心区域确定文本中心区域对应的水平连通域和垂直连通域;根据确定的水平连通域的坐标和垂直连通域的坐标,确定文本中心区域对应的真实文本区域坐标;根据真实文本区域坐标,获得待检测文本图像的文本检测结果。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602在根据至少一个水平连通域和至少一个垂直连通域确定至少一个文本中心区域时,将至少一个水平连通域和至少一个垂直连通域中坐标相同的像素点进行归类,得到至少一个文本中心区域。
在一种可选地实施方式中,水平区域和垂直区域的宽度均大于或等于预设宽度。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602在对待检测文本图像进行特征提取,得到待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图时,对待检测文本图像进行第一文本特征提取;对第一文本特征的特征进行增强处理得到第二文本特征;对第二文本特征进行上采样,并将上采样后的文本特征进行串联,得到串联后的特征;将串联后的特征进行卷积操作,得到待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602在对待检测文本图像进行特征提取,得到待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图时,将待检测文本图像输入文本检测模型,通过文本检测模型获得待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602执行以下操作:使用训练图像样本,对文本检测模型进行训练。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602在使用训练图像样本,对文本检测模型进行训练时,获取训练图像样本,并将训练图像样本输入文本检测模型;通过文本检测模型得到训练图像样本中的至少一个文本区域水平区域预测概率图和垂直区域预测概率图;根据水平区域预测概率图和预设的第一交并比损失函数,获得对应的第一损失值;且,根据垂直区域预测概率图和预设的第二交并比损失函数,获得对应的第二损失值;根据第一损失值和第二损失值对文本检测模型进行训练。
可以理解的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
实施例七、
基于上述实施例一至实施例四所描述的文本检测方法,本申请实施例提供了一种计算机存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现如实施例一至实施例四所描述的文本检测方法。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的文本检测方法。此外,当通用计算机访问用于实现在此示出的文本检测方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的文本检测方法的专用计算机。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例地单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。

Claims (11)

1.一种文本检测方法,其特征在于,所述方法包括:
对待检测文本图像进行特征提取,得到所述待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图,其中,水平区域用于表征文本区域在水平方向上内缩后的区域,垂直区域用于表征文本区域在垂直方向上内缩后的区域;
对所述水平区域概率图和所述垂直区域概率图进行二值化,获得对应的水平区域二值图和垂直区域二值图;
对所述水平区域二值图和所述垂直区域二值图求取连通域,根据所述连通域获得所述待检测文本图像的文本检测结果,包括:
对所述水平区域二值图和所述垂直区域二值图分别求取连通域,获得对应的至少一个水平连通域和至少一个垂直连通域;根据所述至少一个水平连通域和所述至少一个垂直连通域确定至少一个文本中心区域,所述文本中心区域用于指示水平连通域与垂直连通域的重叠区域;根据所述至少一个文本中心区域、所述至少一个水平连通域和所述至少一个垂直连通域,获得所述待检测文本图像的文本检测结果。
2.根据权利要求1所述的方法,其特征在于,根据所述至少一个文本中心区域、所述至少一个水平连通域和所述至少一个垂直连通域,获得所述待检测文本图像的文本检测结果,包括:
针对每个文本中心区域,根据文本中心区域确定所述文本中心区域对应的水平连通域和垂直连通域;
根据确定的所述水平连通域的坐标和所述垂直连通域的坐标,确定所述文本中心区域对应的真实文本区域坐标;
根据所述真实文本区域坐标,获得所述待检测文本图像的文本检测结果。
3.根据权利要求1所述的方法,其特征在于,根据所述至少一个水平连通域和所述至少一个垂直连通域确定至少一个文本中心区域,包括:
将所述至少一个水平连通域和所述至少一个垂直连通域中坐标相同的像素点进行归类,得到所述至少一个文本中心区域。
4.根据权利要求1-3任一项所述的方法,其特征在于,水平区域和垂直区域的宽度均大于或等于预设宽度。
5.根据权利要求1所述的方法,其特征在于,所述对待检测文本图像进行特征提取,得到所述待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图,包括:
对所述待检测文本图像进行第一文本特征提取;
对所述第一文本特征的特征进行增强处理得到第二文本特征;
对所述第二文本特征进行上采样,并将上采样后的文本特征进行串联,得到串联后的特征;
将所述串联后的特征进行卷积操作,得到所述待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图。
6.根据权利要求1所述的方法,其特征在于,所述对待检测文本图像进行特征提取,得到所述待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图,包括:
将所述待检测文本图像输入文本检测模型,通过所述文本检测模型获得所述待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图。
7.根据权利要求6所述的方法,其特征在于,在将所述待检测文本图像输入文本检测模型之前,所述方法还包括:
使用训练图像样本,对所述文本检测模型进行训练。
8.根据权利要求7所述的方法,其特征在于,所述使用训练图像样本,对所述文本检测模型进行训练,包括:
获取所述训练图像样本,并将所述训练图像样本输入所述文本检测模型;
通过所述文本检测模型得到所述训练图像样本中的至少一个文本区域水平区域预测概率图和垂直区域预测概率图;
根据所述水平区域预测概率图和预设的第一交并比损失函数,获得对应的第一损失值;且,根据所述垂直区域预测概率图和预设的第二交并比损失函数,获得对应的第二损失值;
根据所述第一损失值和所述第二损失值对所述文本检测模型进行训练。
9.一种文本检测装置,其特征在于,所述装置包括特征提取模块、二值化模块和结果获取模块;
所述特征提取模块用于对待检测文本图像进行特征提取,得到所述待检测文本图像中的至少一个文本区域对应的水平区域概率图和垂直区域概率图,其中,水平区域用于表征文本区域在水平方向上内缩后的区域,垂直区域用于表征文本区域在垂直方向上内缩后的区域;
所述二值化模块用于对所述水平区域概率图和所述垂直区域概率图进行二值化,获得对应的水平区域二值图和垂直区域二值图;
所述结果获取模块用于对所述水平区域二值图和所述垂直区域二值图求取连通域,根据所述连通域获得所述待检测文本图像的文本检测结果;
其中,所述结果获取模块还用于对所述水平区域二值图和所述垂直区域二值图分别求取连通域,获得对应的至少一个水平连通域和至少一个垂直连通域;根据所述至少一个水平连通域和所述至少一个垂直连通域确定至少一个文本中心区域,所述文本中心区域用于指示水平连通域与垂直连通域的重叠区域;根据所述至少一个文本中心区域、所述至少一个水平连通域和所述至少一个垂直连通域,获得所述待检测文本图像的文本检测结果。
10.一种电子设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一个可执行指令,所述可执行指令使所述处理器执行如权利要求1-8中任一项所述的文本检测方法对应的操作。
11.一种计算机存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-8中任一所述的文本检测方法。
CN202011149033.4A 2020-10-23 2020-10-23 文本检测方法、装置、电子设备及计算机存储介质 Active CN111967460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011149033.4A CN111967460B (zh) 2020-10-23 2020-10-23 文本检测方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011149033.4A CN111967460B (zh) 2020-10-23 2020-10-23 文本检测方法、装置、电子设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN111967460A CN111967460A (zh) 2020-11-20
CN111967460B true CN111967460B (zh) 2021-02-23

Family

ID=73387194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011149033.4A Active CN111967460B (zh) 2020-10-23 2020-10-23 文本检测方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN111967460B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990203B (zh) * 2021-05-11 2022-01-28 北京世纪好未来教育科技有限公司 目标检测方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951741A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN106063247A (zh) * 2014-02-28 2016-10-26 奥林巴斯株式会社 图像处理装置、图像处理方法和图像处理程序
CN111709420A (zh) * 2020-06-18 2020-09-25 北京易真学思教育科技有限公司 文本检测方法、电子设备及计算机可读介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975955B (zh) * 2016-05-27 2019-07-02 北京医拍智能科技有限公司 一种图像中文本区域的检测方法
CN111310758A (zh) * 2020-02-13 2020-06-19 上海眼控科技股份有限公司 文本检测方法、装置、计算机设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106063247A (zh) * 2014-02-28 2016-10-26 奥林巴斯株式会社 图像处理装置、图像处理方法和图像处理程序
CN104951741A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN111709420A (zh) * 2020-06-18 2020-09-25 北京易真学思教育科技有限公司 文本检测方法、电子设备及计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Mixed Vertical-and-Horizontal-Text Traffic Sign Detection and Recognition for Street-Level Scene;GUO,Jiefeng 等;《IEEE Access》;20200408;全文 *

Also Published As

Publication number Publication date
CN111967460A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN112016551B (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN111709420B (zh) 文本检测方法、电子设备及计算机可读介质
CN111652217B (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN110008809B (zh) 表格数据的获取方法、装置和服务器
CN111652218A (zh) 文本检测方法、电子设备及计算机可读介质
CN109002820B (zh) 一种车牌识别方法、装置及相关设备
CN107392141B (zh) 一种基于显著性检测和lsd直线检测的机场提取方法
CN111967545B (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN111797821A (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN111932577B (zh) 文本检测方法、电子设备及计算机可读介质
CN111967449B (zh) 文本检测方法、电子设备及计算机可读介质
CN111967460B (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN113326766B (zh) 文本检测模型的训练方法及装置、文本检测方法及装置
CN110991414A (zh) 一种交通要素高精度分割方法、电子设备及存储介质
CN112101347B (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN110826488B (zh) 一种针对电子文档的图像识别方法、装置及存储设备
CN111898555A (zh) 基于图像与文本的图书盘点识别方法、装置、设备及系统
CN110555344B (zh) 车道线识别方法、装置、电子设备、存储介质
CN114842482B (zh) 一种图像分类方法、装置、设备和存储介质
CN112801045B (zh) 一种文本区域检测方法、电子设备及计算机存储介质
CN115619813A (zh) Sem图像前景提取方法、装置、计算机设备及存储介质
CN111028313B (zh) 桌台分布图像生成方法及装置
CN113947529A (zh) 图像增强方法、模型训练方法、构件识别方法及相关设备
CN113139617A (zh) 一种输电线路自主定位方法、装置及终端设备
CN114663378B (zh) 一种浮游植物计数方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant