CN111932577B - 文本检测方法、电子设备及计算机可读介质 - Google Patents

文本检测方法、电子设备及计算机可读介质 Download PDF

Info

Publication number
CN111932577B
CN111932577B CN202010975427.9A CN202010975427A CN111932577B CN 111932577 B CN111932577 B CN 111932577B CN 202010975427 A CN202010975427 A CN 202010975427A CN 111932577 B CN111932577 B CN 111932577B
Authority
CN
China
Prior art keywords
text
pixel point
image
probability
point category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010975427.9A
Other languages
English (en)
Other versions
CN111932577A (zh
Inventor
杨家博
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yizhen Xuesi Education Technology Co Ltd
Original Assignee
Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yizhen Xuesi Education Technology Co Ltd filed Critical Beijing Yizhen Xuesi Education Technology Co Ltd
Priority to CN202010975427.9A priority Critical patent/CN111932577B/zh
Publication of CN111932577A publication Critical patent/CN111932577A/zh
Application granted granted Critical
Publication of CN111932577B publication Critical patent/CN111932577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种文本检测方法,通过对待检测文本图像进行特征提取,得到待检测文本图像对应的真实文本概率图、多个像素点类别概率图和文本特征图;然后基于真实文本概率图得到真实文本二值图,再根据真实文本二值图和多个像素点类别概率图生成多个像素点类别二值图,并获得每个像素点类别二值图对应的连通域;然后根据确定的每个连通域对应的文本区域表征向量,获得当前像素点类别二值图对应的连通域与其它像素点类别二值图对应的连通域之间的关系,并根据该关系获得待检测文本图像的文本检测结果。相比于相关技术,无需对特征图进行遍历并逐个进行框内是否存在文本的分类判定,在保证文本检测效果的前提下提升了文本检测速度。

Description

文本检测方法、电子设备及计算机可读介质
技术领域
本发明实施例涉及文本识别技术领域,尤其涉及一种文本检测方法、电子设备及计算机可读介质。
背景技术
文本检测是一种检测图像中的文本区域并标记其边界框的技术,文本检测应用范围广泛,是很多计算机视觉任务的前置步骤,比如图像搜索、文字识别,身份认证和视觉导航等。
文本检测的主要目的是定位文本行或字符在图像中的位置,目前一种比较流行的文本检测方法是基于滑动窗口的文本检测方法。该方法基于通用目标检测的思想,设置大量不同长宽比、不同大小的锚点框,以这些锚点框为滑动窗口,在图像上或者在从图像上进行过卷积操作得到的特征图上进行遍历搜索,对于每个搜索到的位置框,进行框内是否是文本的分类判定。
但是,这种方法计算量过大,不仅需要耗费大量计算资源,而且耗时较长,降低文本检测的速度。
发明内容
本发明提供了一种文本检测方案,以至少部分解决上述问题。
根据本发明实施例的第一方面,提供了一种文本检测方法,所述方法包括:对待检测文本图像进行特征提取,得到所述待检测文本图像对应的真实文本概率图、多个像素点类别概率图和文本特征图;其中,所述像素点类别概率图用于指示所述待检测文本图像中的像素点属于各个不同区域类型的概率;对所述真实文本概率图进行二值化,得到真实文本二值图;根据所述真实文本二值图和多个所述像素点类别概率图,生成多个像素点类别二值图;获得每个所述像素点类别二值图对应的连通域,根据每个连通域和所述文本特征图,确定每个连通域对应的文本区域表征向量;根据每个连通域对应的文本区域表征向量,获得当前像素点类别二值图对应的连通域与其它像素点类别二值图对应的连通域之间的关系,并根据所述关系获得所述待检测文本图像的文本检测结果。
根据本发明实施例的第二方面,提供了一种文本检测装置,所述装置包括:特征提取模块,二值化模块,生成模块,确定模块,结果获取模块;所述特征提取模块,用于对待检测文本图像进行特征提取,得到所述待检测文本图像对应的真实文本概率图、多个像素点类别概率图和文本特征图;其中,所述像素点类别概率图用于指示所述待检测文本图像中的像素点属于各个不同区域类型的概率;所述二值化模块,用于对所述真实文本概率图进行二值化,得到真实文本二值图;所述生成模块,用于根据所述真实文本二值图和多个所述像素点类别概率图,生成多个像素点类别二值图;所述确定模块,用于获得每个所述像素点类别二值图对应的连通域,根据每个连通域和所述文本特征图,确定每个连通域对应的文本区域表征向量;所述结果获取模块,用于根据每个连通域对应的文本区域表征向量,获得当前像素点类别二值图对应的连通域与其它像素点类别二值图对应的连通域之间的关系,并根据所述关系获得所述待检测文本图像的文本检测结果。
根据本发明实施例的第三方面,提供了一种电子设备,所述设备包括:一个或多个处理器;计算机可读介质,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的文本检测方法。
根据本发明实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的文本检测方法。
根据本发明实施例提供的方案,在对文本进行检测,尤其是对存在文本相交情况的待检测文本图像进行文本检测时,文本所在区域可按照各个文本的相交情况被划分为不同区域类型,通过本方案的像素点类别概率图可明确标示像素点的区域类型;进而,基于真实文本二值图和像素点类别概率图可获得不同区域对应的像素点类别二值图;再基于每个素点类别二值图对应的连通域,由于每个连通域在上述文本特征图中存在对应的文本特征,该文本特征为可学习的文本特征,可有效表征不同像素点关系,如,通过像素点间距离表征不同部分像素点间的相似度,故基于该文本特征图,可确定每个连通域对应的文本区域表征向量,通过该文本区域表征向量表征多个连通域是否属于同一文本区域,根据当前像素点类别二值图中连通域的文本区域表征向量与其他像素点类别二值图中连通域的文本区域表征向量的关系,获得待检测文本图像的文本检测结果。相比于相关技术,在得到真实文本概率图后,无需反复卷积,也无需对特征图进行遍历并逐个进行框内是否存在文本的分类判定,在保证文本检测效果的前提下,实现了比相关技术中更简单的后处理思路,提升了文本检测速度,尤其是密集文本的文本检测速度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例提供的一种文本检测方法的步骤流程图;
图2A为本发明实施例提供的一种非重叠文本区域的示意图;
图2B为本发明实施例提供的一种两两重叠文本区域的示意图;
图2C为本发明实施例提供的一种三个文本区域重叠的示意图;
图2D为本发明实施例提供的一种四个文本区域重叠的示意图;
图2E为本发明实施例提供的文本检测方法的步骤流程图;
图3为本发明实施例提供的文本检测方法的另一种步骤流程图;
图4为本发明实施例提供的一种文本检测装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅配置为解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
实施例一
参照图1,示出了根据本发明实施例一的一种文本检测方法的步骤流程图。
本实施例的文本检测方法包括以下步骤:
步骤S101、对待检测文本图像进行特征提取,得到待检测文本图像对应的真实文本概率图、多个像素点类别概率图和文本特征图。
需要说明的是,本申请实施例中的文本检测方法可适用于具有各种文本密度的文本检测,包括但不限于常规密度文本、密集密度文本、稀疏密度文本,尤其是密集密度文本。其中,确定某个文本是否为密集文本的具体指标可以由本领域技术人员根据实际情况适当设置,包括但不限于:根据文本之间的间距(如间距小于2磅等)、根据单位范围内的文本的数量(如每平方厘米中的文本数量多于3个等)等等,本申请实施例对此不作限制。
在本实施例中,待检测文本图像可以为包含上述密集密度文本的图像,其中,真实文本概率图可以表征待检测文本图像中的像素点属于文本或是背景的概率,像素点类别概率图用于指示待检测文本图像中的像素点属于各个不同区域类型的概率,文本特征图通过可学习的文本特征不断学习得到,可以用于表征待检测文本图像中不同像素点间的距离,通过该距离可辅助判断像素点属于某一文本区域的概率。
可选地,上述区域类型包括以下至少之一:非重叠文本区域和重叠文本区域。其中,重叠文本区域可以包括:两个文本区域相互重叠的区域,和/或,三个文本区域相互重叠的区域,和/或,四个文本区域相互重叠的区域。
在本实施例中,若一待检测文本图像中各个文本区域之间不重叠,即各个文本区域之间不存在交集,则可以认为该待检测文本图像中只包括一种像素点类别的像素点,如图2A所示,图2A为本申请实施例提供的一种非重叠的文本区域示意图,上述提到的一种像素点类别的像素点为所有非重叠的文本区域内的像素点,在图2A中以数字1表示。若一待检测文本图像中有多个文本区域且重叠部分最多出现在两个文本区域中,则可以认为该待检测文本图像中包括两种像素点类别的像素点,如图2B所示,图2B为本申请实施例提供的一种两两重叠的文本区域示意图,图2B中第一种像素点类别的像素点是所有未重叠的文本区域的像素点,在图2B中以数字1表示;图2B中第二种像素点类别的像素点是所有重叠的文本区域的像素点,在图2B中以数字2表示。若一待检测文本图像中有多个文本区域且重叠部分最多出现在三个文本区域中,则该待检测文本图像中包括三种像素点类别的像素点,如图2C所示,图2C为本申请实施例提供的一种三个文本区域重叠的示意图,图2C中第一种像素点类别的像素点是所有未重叠的文本区域的像素点,在图2C中以数字1表示;图2C中第二种像素点类别的像素点是所有两两重叠的文本区域的像素点,在图2C中以数字2表示;图2C中第三种像素点类别的像素点是三个重叠的文本区域的交集区域的像素点,在图2C中以数字3表示。若一待检测文本图像有多个文本区域且重叠部分最多出现在四个文本区域中,则该待检测文本图像中包括四种像素点类别的像素点,如图2D所示,图2D为本申请实施例提供的一种四个文本区域重叠的示意图,图2D中第一种像素点类别的像素点是所有未重叠文本区域的像素点,在图2D中以数字1表示;图2D中第二种像素点类别的像素点是所有两两重叠的文本区域的像素点,在图2D中以数字2表示;图2D中第三种像素点类别的像素点是三个文本区域重叠后交集区域的像素点,在图2D中以数字3表示;图2D中第四种像素点类别的像素点是四个文本区域重叠后交集区域的像素点,在图2D中以数字4表示。可以理解,上述待检测文本图像中可以包括至少一个文本区域,且文本区域之间可以重叠,也可以不重叠。需要说明的是,本实施例中图2A-图2D仅是对文本区域之间不存在或存在重叠区域进行示例性说明,并不代表待检测文本图像中文本区域的数量和实际重叠情况,本申请实施例中的待检测文本图像中可以包括两种像素点类别的像素点、三种像素点类别的像素点或四种像素点类别的像素点,对此本实施例不做限制。
步骤S102、对真实文本概率图进行二值化,得到真实文本二值图。
在本实施例中,可以根据预设阈值对真实文本概率图进行二值化,从而获得待检测文本图像的真实文本二值图。其中,预设阈值可以由本领域技术人员根据实际需求适当设置,使得待检测文本图像中的像素点被有效区分即可。一种可实现的方式中,预设阈值可以根据文本检测模型训练阶段时的阈值设定,另一种可实现的方式中,预设阈值可以通过对大量的真实文本概率图进行二值化处理中,对使用的大量阈值的分析确定。通过进行二值化操作,可获得后续处理使用的有效数据信息,减小噪声数据影响。
步骤S103、根据真实文本二值图和多个像素点类别概率图,生成多个像素点类别二值图。
在本实施例中,以待检测文本图像中包括四类像素点为例进行说明,可以根据真实文本二值图和四个像素点类别概率图,生成四个像素点类别二值图。参见图2D,第一个像素点类别二值图中的所有像素点属于第一类像素点,第一类像素点位于非重叠的文本区域中,图中用1标识;第二个像素点类别二值图中的所有像素点属于第二类像素点,第二类像素点位于两两重叠的文本区域中;第三个像素点类别二值图中的所有像素点属于第三类像素点,第三类像素点位于三个文本区域重叠后的交集区域中;第四个像素点类别二值图中的所有像素点属于第四类像素点,第四类像素点位于四个文本区域重叠后的交集区域中。需要说明的是,如果一个待检测文本图像中有两类像素点,那么在本申请中的四个像素点类别二值图中,只有第一个像素点类别二值图和第二个像素点类别二值图中包括像素点,剩余的两个像素点类别二值图中没有像素点,也就是说,本申请实施例提供的文本检测方法可以同时适用于包括四类像素点或者三类像素点或者二类像素点的文本图像。
可选地,在一种可行方式中,步骤S103可以包括:
步骤103a:根据多个像素点类别概率图,确定待检测文本图像中每个像素点的像素点类别。
在本实施例中,同样以一个待检测文本图像中包括4类像素点类别为例进行说明,每一个像素点类别概率图表示待检测文本图像中每个像素点属于该类别的概率,示例性的,若待检测文本图像中包括200个像素点,第一个像素点类别概率图表示200个像素点属于第一类像素点的概率,也就是这200个像素点位于非重叠区域的概率。同样的,第二至第四个像素点类别概率图分别表示200个像素点属于第二类至第四类像素点的概率。也就是说待检测文本图像中每个像素点是对应四个概率的,分别是属于第一类像素点概率、属于第二类像素点概率、属于第三类像素点概率、属于第四类像素点概率。因此需要先确定待检测文本图像中每个像素点的像素点类别。
具体地,可以将上述每个像素点在多个像素点类别概率图中概率最大的像素点类别,确定为每个像素点的像素点类别。
如上所述的待检测文本图像中,像素点A对应四个概率,假设属于第一类像素点的概率为0.05、属于第二类像素点的概率为0.2、属于第三类像素点的概率为0.15、属于第四类像素点的概率为0.6,本申请实施例将概率最大的像素点类别作为每个像素点的像素点类别,例如,将概率最大值0.6对应的第四类像素点类别作为像素点A的像素点类别。本申请实施例将每个像素点在多个像素点类别概率图中概率最大的像素点类别,确定为每个像素点的像素点类别,得到的每个像素点的像素点类别能够最大可能的代表该像素点所属文本区域类型,从而提高根据像素点类别划分得到不同像素点类别二值图的准确度。
步骤103b:根据每个像素点的像素点类别和真实文本二值图,生成不同像素点类别对应的像素点类别二值图。
在本实施例中,可以根据像素点类别对真实文本二值图进行划分,将像素点类别一致的像素点划分为一个像素点类别二值图,示例性的,步骤103a可以得到四类像素点,根据像素点类别对真实文本二值图进行划分后,同样可以得到四个像素点类别二值图。
本申请实施例通过像素点类别概率图确定每个像素点的像素点类别,从而根据像素点类别对真实文本二值图进行划分得到的像素点类别二值图,像素点类别二值图中包括的像素点属于同一像素点类别,即属于同一个文本区域类型,为后续连通域的获取奠定了基础。
步骤S104、获得每个像素点类别二值图对应的连通域,根据每个连通域和上述文本特征图,确定每个连通域对应的文本区域表征向量。
在本实施例中,示例性的,文本特征图中每个像素点可以对应一个可学习的特征向量,以4维特征向量为例,该4维特征向量可以表示对应的像素点与其它像素点之间的距离,通过该距离可间接确定该像素点属于某一文本区域的概率,且文本特征图中的像素点与每个像素点类别二值图中的像素点有对应关系。因此,获得每个像素点类别二值图对应的连通域后,可以基于像素点的对应关系,获得每个连通域在文本特征图中对应的文本特征,然后确定每个连通域对应的文本区域表征向量。通过上述过程,可有效确定像素点形成的连通域及连通域间的关系信息。
具体地,可以在获得每个像素点类别二值图对应的连通域后,对每个连通域所包含的像素点在文本特征图中对应的文本特征的特征向量求均值,得到每个连通域对应的文本区域表征向量。求均值的方式计算简单,可高效确定每个连通域对应的文本区域表征向量。
在本实施例中,可以基于上述像素点的对应关系,获取到每个像素点类别二值图中的像素点的4维向量,然后可以将每个像素点类别二值图对应的连通域作为像素点的集合,将该集合内所有的像素点的4维特征向量求均值,得到每个连通域对应的文本区域表征向量。示例性的,参见图2C,以待检测文本图像中包括3个像素点类别为例进行说明,即像素点类别二值图为3个为例进行说明,可以理解,对该3个像素点类别二值图求取连通域后,可以得到6个连通域,即,从第一个像素点类别二值图中求得的连通域可以认为是图2C中的三个1表示的文本区域,从第二个像素点类别二值图中求得的连通域可以认为是图2C中的两个2表示的文本区域,从第三个像素点类别二值图中求得的连通域可以认为是图2C中的3表示的文本区域,因此得到6个连通域。每个连通域中包含的像素点,对应于文本特征图均对应一个4维特征向量,对每个连通域中的像素点的4维特征向量求均值,得到6个文本区域表征向量,分别对应上述6个连通域。
本实施例通过文本区域表征向量表征连通域间的关系,在后续合并文本区域时,可以利用文本区域表征向量,将文本重叠的区域合并至不同的文本区域,相比于相关技术中文本重叠的区域只能分给一个文本区域,导致存在像素点损失,本方法可以避免像素点的损失。
步骤S105、根据每个连通域对应的文本区域表征向量,获得当前像素点类别二值图对应的连通域与其它像素点类别二值图对应的连通域之间的关系,并根据该关系获得待检测文本图像的文本检测结果。
在本实施例中,具体地,可以针对每个像素点类别二值图,分别计算当前像素点类别二值图中的连通域对应的文本区域表征向量与其它像素点类别二值图中的连通域对应的文本区域表征向量之间的距离,根据该距离获得待检测文本图像的文本检测结果。
其中,上述距离例如可以是欧氏距离、曼哈顿距离等,本实施例不做限制。
上述实施例通过计算当前像素点类别二值图中的连通域对应的文本区域表征向量与其它像素点类别二值图中的连通域对应的文本区域表征向量之间的距离,可以通过距离获得当前像素点类别二值图与其它像素点类别二值图的可合并性。
进一步地,若上述距离小于预设距离,则将该小于预设距离的距离对应的两个像素点类别二值图中的连通域进行合并;根据合并结果,获得待检测文本图像的文本检测结果。以像素点类别二值图为单位,进行图与图之间的连通域合并,既保证的合并结果的准确性,又避免了对同一二值图中连通域进行处理导致的额外数据处理负担。
在本实施例中,预设距离可以根据人工经验或者试验结果进行设置,在此不做具体限定,若上述距离小于预设距离,则表明该距离对应的两个像素点类别二值图中的连通域很大概率属于同一文本区域,则将这两个像素点类别二值图中的连通域进行合并,得到完整的文本区域,例如,可以将第一个像素点类别二值图中的连通域对应的文本区域表征向量分别与其他像素点类别二值图中的连通域对应的文本区域表征向量进行距离计算,也可以将第三个像素点类别二值图中的连通域对应的文本区域表征向量分别与其他像素点类别二值图中的连通域对应的文本区域表征向量进行距离计算,可以理解,只要是不同像素点类别二值图中的文本区域表征向量两两进行距离计算即可,本实施例不做限定。
例如,以图2C中所示为简单示例,其中,在第一类像素点类别二值图中包括三个“1”部分的连通域,在第二类像素点类别二值图中包括两个“2”部分的连通域,在第三类像素点类别二值图中包括一个“3”部分的连通域。则,左上“1”部分连通域对应有文本区域表征向量1,指示了左上“1”部分中的像素点与右上“1”部分像素点、右下“1”部分像素点、左“2”部分像素点、右“2”部分像素点、以及“3”部分像素点之间的距离;类似地,右上“1”部分连通域对应有文本区域表征向量2,指示了右上“1”部分中的像素点与左上“1”部分像素点、右下“1”部分像素点、左“2”部分像素点、右“2”部分像素点、以及“3”部分像素点之间的距离;右下“1”部分连通域对应有文本区域表征向量3,指示了右下“1”部分中的像素点与左上“1”部分像素点、右上“1”部分像素点、左“2”部分像素点、右“2”部分像素点、以及“3”部分像素点之间的距离;左“2”部分连通域对应有文本区域表征向量4,指示了左“2”部分中的像素点与左上“1”部分像素点、右上“1”部分像素点、右下“1”部分像素点、右“2”部分像素点、以及“3”部分像素点之间的距离;右“2”部分连通域对应有文本区域表征向量5,指示了右“2”部分中的像素点与左上“1”部分像素点、右上“1”部分像素点、右下“1”部分像素点、左“2”部分像素点、以及“3”部分像素点之间的距离;“3”部分连通域对应有文本区域表征向量6,指示了“3”部分中的像素点与左上“1”部分像素点、右上“1”部分像素点、右下“1”部分像素点、左“2”部分像素点、以及右“2”部分像素点之间的距离。据此,可根据各文本区域表征向量之间的相似度,确定真实文本区域1包括左上“1”部分像素点、左“2”部分像素点和“3”部分像素点;真实文本区域2包括右上“1”部分像素点、左“2”部分像素点、右“2”部分像素点和“3”部分像素点;真实文本区域3包括右下“1”部分像素点、右“2”部分像素点和“3”部分像素点。
可见,上述实施例通过设置预设距离,并将小于预设距离的两个像素点类别二值图中的连通域进行合并,使得得到的真实文本区域更加准确。
在一可选的实施方式中,可以将上述每个连通域对应的文本区域表征向量用矩阵的方式表示,通过GPU对该矩阵进行乘法计算,得到当前像素点类别二值图中的连通域对应的文本区域表征向量,与其它像素点类别二值图中的连通域对应的文本区域表征向量之间的距离,然后根据该距离获得待检测文本图像的文本检测结果。因GPU具有较高的算力性能,且可进行并行计算,使得极大提升了文本检测的速度。
根据本发明实施例提供的方案,在对文本进行检测,尤其是对存在文本相交情况的待检测文本图像进行文本检测时,文本所在区域可按照各个文本的相交情况被划分为不同区域类型,通过本方案的像素点类别概率图可明确标示像素点的区域类型;进而,基于真实文本二值图和像素点类别概率图可获得不同区域对应的像素点类别二值图;再基于每个素点类别二值图对应的连通域,由于每个连通域在上述文本特征图中存在对应的文本特征,该文本特征为可学习的文本特征,可有效表征不同像素点关系,如,通过像素点间距离表征不同部分像素点间的相似度,故基于该文本特征图,可确定每个连通域对应的文本区域表征向量,通过该文本区域表征向量表征多个连通域是否属于同一文本区域,根据当前像素点类别二值图中连通域的文本区域表征向量与其他像素点类别二值图中连通域的文本区域表征向量的关系,获得待检测文本图像的文本检测结果。相比于相关技术,在得到真实文本概率图后,无需反复卷积,也无需对特征图进行遍历并逐个进行框内是否存在文本的分类判定,在保证文本检测效果的前提下,实现了比相关技术中更简单的后处理思路,提升了文本检测速度,尤其是密集文本的文本检测速度。
本实施例的文本检测方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例二
可选的,在本申请的一种实施例中,实施例一中的步骤S101可以包括步骤101a-步骤101d,如图2E所示。
步骤101a、对待检测文本图像进行第一文本特征提取。
本申请实施例中,以使用文本检测模型进行文本检测为例。其中,在对待检测文本图像进行特征提取时,可以将待检测文本图像输入文本检测模型的残差网络部分(如Resnet网络),进行第一文本特征的提取,例如,对输入的待检测文本图像提取纹理、边缘、角点和语义信息等特征,这些特征由4组大小不同的多通道特征图表征。
步骤101b、对第一文本特征的特征进行增强处理得到第二文本特征。
将第一步提取到的第一文本特征,经过两个特征金字塔增强模块(FeaturePyramid Enhancement Module,简称FPEM)模块,对特征进行增强处理,再次提取纹理、边缘、角点和语义信息等第二文本特征,并得到该第二文本特征对应的4组特征图。
步骤101c、对第二文本特征进行上采样,并将上采样后的文本特征进行串联,得到串联后的特征。
例如,将得到的4组特征图大小全部上采样到原始图像1/4大小,并串联在一起,此处串联的含义是指将4组与原始图片1/4大小一样的特征图,以通道为轴串在一起,举例来说,如果每组特征图通道为512,则串联在一起之后得到一组特征图,其通道数量为512。
步骤101d、将串联后的特征进行积分变换,得到真实文本概率图、多个像素点类别概率图,以及,用于表征待检测文本图像中不同像素点间的距离的文本特征图。
例如,将串联后的特征进行一次卷积操作,两次反卷积操作,输出特征映射通道数为1,大小与原图大小一致的特征图,其表示真实文本概率图;将串联后的特征进行一次卷积操作,两次反卷积操作,输出特征映射通道数为n,其表示多个像素点类别概率图,n的数值依据像素点类别而定,大小与原图大小一致的特征图,其表示待检测文本图像中每个位置像素点属于各个不同区域类型的概率;将串联后的特征进行一次卷积操作,两次反卷积操作,输出特征映射通道数为4的特征图,其每个像素点对应一个可学习的特征向量,例如可以是可学习的4维特征向量,用于表示对应像素点与其它像素点之间的距离,通过该距离可间接确定该像素点属于某一文本区域的概率。
需要说明的是,相较于单个FPEM模块,2个FPEM模块可以达到最好的效果。每个FPEM模块的处理相同,包括:对得到的4组大小不同的多通道特征,按照从大到小的,从前往后的次序,依次称为正向第一组特征、正向第二组特征、正向第三组特征、正向第四组特征,先对正向第四组特征进行2倍上采样,即将其大小扩大2倍,然后将其与正向第三组特征按照通道逐点相加,对结果进行一次深度可分离卷积操作之后,再进行一次卷积、批归一化和激活函数作用操作,得到的结果称为反向第二组特征,同样的操作用于反向第二组特征和正向第二组特征得到反向第三组特征,然后同样的操作作用于反向第三组特征和正向第一组特征,得到反向第四组特征,同时将正向第四组特征视为反向第一组特征,由此得到4组反向特征;将第四组反向特征作为目标第一组特征,然后对目标第一组特征进行2倍下采样,即大小缩小2倍,然后将其与反向第三组特征按通道逐点相加,对结果进行一次深度可分离卷积操作之后,再进行一次卷积、批归一化和激活函数作用操作,得到的结果称为目标第二组特征,同样的操作作用于目标第二组特征和反向第二组特征,得到目标第三组特征,然后同样的操作作用于目标第三组特征和反向第一组特征,得到目标第四组特征,目标第一组特征、目标第二组特征、目标第三组特征和目标第四组特征便是FPEM模块的输出。第2个FPEM模块是以第1个FPEM模块的输出作为输入,进行同样的操作,得到输出。该输出中包括形成至少一个特征图的特征,或者说,输出的特征可以形成特征图。在获得真实文本概率图、多个像素点类别概率图,以及,文本特征图后,文本检测方案继续后续如实施例一中所述的步骤S102-S105。
需要说明的是,本实施例中的文本检测模型除包括上述残差网络部分、特征金字塔增强部分、用于进行特征串联的特征融合部分、用于得到不同特征图的卷积部分等外,还包括后处理部分,该后处理部分可执行实施例一中的步骤S102-S105,在此不再赘述。
上述实施例中,通过使用FPEM模块对第一文本特征的特征进行增强处理,再次提取纹理、边缘、角点和语义信息等,使得提取到的特征更加精细化,能够更加充分的表征输入的待检测文本图像。
实施例三
如实施例二中所述,可选的,在本申请的一种实施例中,在实现步骤S101中的特征提取时,可以通过文本检测模型进行特征提取,示例的,将待检测文本图像输入文本检测模型,通过文本检测模型获得待检测文本图像对应的真实文本概率图、多个像素点类别概率图,和文本特征图。
本申请实施例在应用阶段时,通过训练好的文本检测模型获得待检测文本图像对应的真实文本概率图、多个像素点类别概率图,和文本特征图。而在训练阶段,还需要执行实施例二中的步骤101a-步骤101d,得到待检测文本图像对应的真实文本概率图、多个像素点类别概率图,和文本特征图之后,对待检测文本图像对应的真实文本概率图、多个像素点类别概率图,和文本特征图进行训练,从而得到训练好的文本检测模型。
可选的,本申请还包括对文本检测模型进行训练的过程,获取用于训练的文本图像样本,并将文本图像样本输入文本检测模型;通过文本检测模型得到真实文本预测概率图、多个像素点类别预测概率图和文本特征预测图;根据所述真实文本预测概率图和预设的交并比损失函数,获得对应的第一损失值;且,根据多个所述像素点类别预测概率图和预设的多分类交叉熵函数,获得对应的第二损失值;且,根据所述文本特征预测图和聚合损失函数与区分损失函数,获得对应的第三损失值;根据所述第一损失值、所述第二损失值和所述第三损失值对所述文本检测模型进行训练。
本申请实施例中,使用交并比值(DiceLoss)作为目标损失函数对表示真实文本区域概率图的1通道特征进行训练优化,计算1通道特征对应的第一损失值,从而根据第一损失值对文本检测模型进行训练。
其中,本申请实施例中的交并比损失函数的公式为:
Figure 501324DEST_PATH_IMAGE001
公式中
Figure 729360DEST_PATH_IMAGE003
指真实文本预测概率图分布中的第i个结果,
Figure 390148DEST_PATH_IMAGE004
指文本区域的ground truth,ground truth表示用于训练的文本图像样本中正确标注的文本区域的数据。
使用多分类交叉熵损失函数作为目标函数对表示像素点类别的n通道特征进行训练优化,计算n通道特征对应的第二损失值,从而根据第二损失值对文本检测模型进行训练。
使用聚合损失函数与区分损失函数对4通道特征进行训练优化,获得对应的第三损失值,从而根据第三损失值对文本检测模型进行训练。
其中,本申请实施例中的聚合损失函数与区分损失函数的公式为:
Figure 594734DEST_PATH_IMAGE005
,(1)
Figure 682775DEST_PATH_IMAGE006
,(2)
Figure 215388DEST_PATH_IMAGE007
,(3)
Figure 414288DEST_PATH_IMAGE008
,(4)
上述公式中,
Figure 66855DEST_PATH_IMAGE009
表示文本区域表征向量之间的聚合损失loss,
Figure 653694DEST_PATH_IMAGE010
表示文本区域表征向量之间的区分损失loss,N表示用于训练的文本图像样本中文本区域的数量,Ti表示第i个文本区域,|Ti|表示第i个文本区域内像素点数量,p表示文本区域内的像素点,
Figure 798237DEST_PATH_IMAGE011
表示文本区域内的像素点与文本区域之间的距离;
Figure 535249DEST_PATH_IMAGE012
表示第i个文本区域的相似向量,
Figure 324213DEST_PATH_IMAGE013
表示文本区域内的像素点的相似向量,
Figure 19637DEST_PATH_IMAGE014
表示聚合损失函数,可以理解,同一个文本区域的像素点距离这个文本区域应该相近。Tj表示第j个文本区域,
Figure 526841DEST_PATH_IMAGE015
表示区分损失函数,
Figure 801965DEST_PATH_IMAGE016
表示第j个文本区域的相似向量,
Figure 586381DEST_PATH_IMAGE017
表示第i个文本区域以及第j个文本区域之间的距离,可以理解,不同文本区域之间的距离应该相互远离。
举例来说,参见图2B,两个文本区域有相交区域时,那么两个文本区域各自除了相交区域外是两个小文本区域,图中用1表示,相交部分用2表示,即一共有3个小文本区域,那么两个1区域的文本区域表征向量之间的区分loss应该非常大,聚合loss接近0;而1区域与2区域的聚合loss应该非常大,区分loss应该接近0。
此外,如前所述文本特征图由对可学习的文本特征不断训练学习得到,初始时,文本特征可按照高斯分布设置或者由本领域技术人员根据实际需求适当设置。随着文本检测模型的不断迭代训练,可学习的文本特征也不断学习更新。在文本检测模型完成训练后,针对输入的文本图像可有效预测出不同像素点间的距离。
进一步的,列举一个具体的示例对本申请实施例中对文本图像的文本检测进行说明,如图3所示,图3为本申请实施例提供的另一种文本检测方法的流程图,可以包括以下步骤:
步骤S311、将待检测的文本图像输入Resnet18网络,进行第一文本特征提取。
步骤S312、将提取到的第一文本特征,经过两个FPEM模块,再次提取第二文本特征,并得到该第二文本特征对应的4组特征图。
步骤S313、将步骤S312得到的4组特征图大小全部上采样到原始图像1/4大小,并将特征图的对应特征串联在一起。
步骤S314、将串联后的特征进行一次卷积操作,两次反卷积操作,输出通道数为1,大小与原图大小一致的特征图,表示真实文本概率图。
步骤S315、将串联后的特征进行一次卷积操作,两次反卷积操作,输出特征映射通道数为n的特征图,即n个像素点类别概率图,其中n的数值依据像素点类别而定,其大小与原图大小一致,表示每个位置像素点属于每种区域类型的概率。
步骤S316、将串联后的特征进行一次卷积操作,两次反卷积操作,输出特征映射通道数为4的特征图,即文本特征图,其中每个像素点可以对应一个可学习的特征向量,例如4维特征向量,表示对应的像素点与其它像素点之间的距离,通过该距离可间接确定该像素点属于某一文本区域的概率。
步骤S317、根据设定阈值,将真实文本概率图二值化,得到真实文本二值图。
步骤S318、将每个像素点在n个像素点类别概率图中概率最大的像素点类别,确定为每个像素点的像素点类别。
步骤S319、根据像素点类别将真实文本二值图划分为n类像素点类别二值图,依次称为第一类像素点类别二值图、第二类像素点类别二值图、…、第n类像素点类别二值图。
步骤S320、对n类像素点类别二值图求取连通域,得到第一类连通域、第二类连通域、…、第n类连通域。
步骤S321、对每个连通域中所包含的像素点在文本特征图中对应的4维向量求均值,得到每个连通域对应的文本区域表征向量。
步骤S322、针对每个像素点类别二值图,分别计算第一类像素点类别二值图中的连通域对应的文本区域表征向量与其它像素点类别二值图中的连通域对应的文本区域表征向量之间的距离。
步骤S323、若所述距离小于预设距离,则将所述距离对应的两个像素点类别二值图中的连通域进行合并;根据合并结果,获得所述待检测文本图像的文本检测结果。
由上述过程可见,通过本申请提供的文本检测方法,在对n类像素点二值图求取连通域时,可以同时处理得到第1到n类连通域,节省时间;并且在确定两个像素点类别二值图中的连通域的可合并性时,是通过文本区域表征向量来确定的,相比于相关技术中需要基于像素点确定,极大的提高了检测速度和效率。
实施例四
本申请实施例提供了一种文本检测装置,如图4所示,图4为本申请实施例提供的一种文本检测装置,包括:
特征提取模块401,二值化模块402,生成模块403,确定模块404,结果获取模块405;
特征提取模块401,用于对待检测文本图像进行特征提取,得到待检测文本图像对应的真实文本概率图、多个像素点类别概率图和文本特征图;其中,像素点类别概率图用于指示待检测文本图像中的像素点属于各个不同区域类型的概率;
二值化模块402,用于对真实文本概率图进行二值化,得到真实文本二值图;
生成模块403,用于根据真实文本二值图和多个像素点类别概率图,生成多个像素点类别二值图;
确定模块404,用于获得每个像素点类别二值图对应的连通域,根据每个连通域和所述文本特征图,确定每个连通域对应的文本区域表征向量;
结果获取模块405,用于根据每个连通域对应的文本区域表征向量,获得当前像素点类别二值图对应的连通域与其它像素点类别二值图对应的连通域之间的关系,并根据该关系获得待检测文本图像的文本检测结果。
可选的,在本申请的一种实施例中,区域类型包括以下至少之一:非重叠文本区域、多个文本区域中两两重叠的区域、多个文本区域均重叠的区域。
可选的,在本申请的一种实施例中,生成模块403,具体用于根据多个像素点类别概率图,确定待检测文本图像中每个像素点的像素点类别;根据每个像素点的像素点类别和真实文本二值图,生成不同像素点类别对应的像素点类别二值图。
可选的,在本申请的一种实施例中,生成模块403,具体用于将每个像素点在多个像素点类别概率图中概率最大的像素点类别,确定为每个像素点的像素点类别。
可选的,在本申请的一种实施例中,确定模块404,具体用于获得每个像素点类别二值图对应的连通域,对每个连通域所包含的像素点在文本特征图中对应的文本特征的特征向量求均值,得到每个连通域对应的文本区域表征向量。
可选的,在本申请的一种实施例中,结果获取模块405,具体用于针对每个像素点类别二值图,分别计算当前像素点类别二值图中的连通域对应的文本区域表征向量,与其它像素点类别二值图中的连通域对应的文本区域表征向量之间的距离,根据距离获得待检测文本图像的文本检测结果。
可选的,在本申请的一种实施例中,结果获取模块405,具体用于若距离小于预设距离,则将距离小于预设距离对应的两个像素点类别二值图中的连通域进行合并;根据合并结果,获得待检测文本图像的文本检测结果;
可选的,在本申请的一种实施例中,特征提取模块401,具体用于对待检测文本图像进行第一文本特征的提取;对第一文本特征进行增强处理得到第二文本特征;对第二文本特征进行上采样,并将上采样后的文本特征进行串联,得到串联后的特征;将串联后的特征进行积分变换,得到真实文本概率图、多个像素点类别概率图,以及,用于表征待检测文本图像中不同像素点间的距离的文本特征图。
可选的,在本申请的一种实施例中,特征提取模块401,具体用于将待检测文本图像输入文本检测模型,通过文本检测模型获得待检测文本图像对应的真实文本概率图、多个像素点类别概率图,和文本特征图。
可选的,在本申请的一种实施例中,装置还包括训练模块,该训练模块用于:获取用于训练的文本图像样本,并将文本图像样本输入文本检测模型;通过文本检测模型得到真实文本预测概率图、多个像素点类别预测概率图,和文本特征预测图;根据真实文本预测概率图和预设的交并比损失函数,获得对应的第一损失值;且,根据多个像素点类别预测概率图和预设的多分类交叉熵函数,获得对应的第二损失值;且,根据文本特征预测图和聚合损失函数与区分损失函数,获得对应的第三损失值;根据第一损失值、第二损失值和第三损失值对文本检测模型进行训练。
实施例五
图5为本发明实施例三中电子设备的硬件结构;如图5所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303、以及通信总线304。
其中:
处理器301、通信接口302、以及存储器303通过通信总线304完成相互间的通信。
通信接口302,用于与其它电子设备或服务器进行通信。
处理器301,用于执行程序305,具体可以执行上述文本检测方法实施例中的相关步骤。
具体地,程序305可以包括程序代码,该程序代码包括计算机操作指令。
处理器301可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器303,用于存放程序305。存储器303可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序305具体可以用于使得处理器301执行以下操作:对待检测文本图像进行特征提取,得到所述待检测文本图像对应的真实文本概率图、多个像素点类别概率图和文本特征图;其中,所述像素点类别概率图用于指示所述待检测文本图像中的像素点属于各个不同区域类型的概率;对所述真实文本概率图进行二值化,得到真实文本二值图;根据所述真实文本二值图和多个所述像素点类别概率图,生成多个像素点类别二值图;获得每个所述像素点类别二值图对应的连通域,根据每个连通域和所述文本特征图,确定每个连通域对应的文本区域表征向量;根据每个连通域对应的文本区域表征向量,获得当前像素点类别二值图对应的连通域与其它像素点类别二值图对应的连通域之间的关系,并根据所述关系获得所述待检测文本图像的文本检测结果。
在一种可选的实施方式中,所述区域类型包括以下至少之一:非重叠文本区域、多个文本区域中两两重叠的区域、多个文本区域均重叠的区域。
在一种可选的实施方式中,程序305还用于使得处理器301在根据所述真实文本二值图和多个所述像素点类别概率图,生成多个像素点类别二值图时:根据多个所述像素点类别概率图,确定所述待检测文本图像中每个像素点的像素点类别;根据所述每个像素点的像素点类别和所述真实文本二值图,生成不同像素点类别对应的像素点类别二值图。
在一种可选的实施方式中,程序305还用于使得处理器301在根据多个所述像素点类别概率图,确定所述待检测文本图像中每个像素点的像素点类别时:将所述每个像素点在多个所述像素点类别概率图中概率最大的像素点类别,确定为所述每个像素点的像素点类别。
在一种可选的实施方式中,程序305还用于使得处理器301在获得每个所述像素点类别二值图对应的连通域,根据每个连通域和所述文本特征图,确定每个连通域对应的文本区域表征向量时:获得每个所述像素点类别二值图对应的连通域,对每个连通域所包含的像素点在所述文本特征图中对应的文本特征的特征向量求均值,得到每个连通域对应的文本区域表征向量。
在一种可选的实施方式中,程序305还用于使得处理器301在根据每个连通域对应的文本区域表征向量,获得当前像素点类别二值图对应的连通域与其它像素点类别二值图对应的连通域之间的关系,并根据所述关系获得所述待检测文本图像的文本检测结果时:针对每个所述像素点类别二值图,分别计算当前像素点类别二值图中的连通域对应的文本区域表征向量,与其它像素点类别二值图中的连通域对应的文本区域表征向量之间的距离,根据所述距离获得所述待检测文本图像的文本检测结果。
在一种可选的实施方式中,程序305还用于使得处理器301在根据所述距离获得所述待检测文本图像的文本检测结果时:若所述距离小于预设距离,则将所述距离小于预设距离对应的两个像素点类别二值图中的连通域进行合并;根据合并结果,获得所述待检测文本图像的文本检测结果。
在一种可选的实施方式中,程序305还用于使得处理器301在对待检测文本图像进行特征提取,得到所述待检测文本图像对应的真实文本概率图、多个像素点类别概率图和文本特征图时:对所述待检测文本图像进行第一文本特征的提取;对所述第一文本特征进行增强处理得到第二文本特征;对所述第二文本特征进行上采样,并将上采样后的文本特征进行串联,得到串联后的特征;将所述串联后的特征进行积分变换,得到所述真实文本概率图、多个所述像素点类别概率图,以及,用于表征所述待检测文本图像中不同像素点间的距离的所述文本特征图。
在一种可选的实施方式中,程序305还用于使得处理器301在对待检测文本图像进行特征提取,得到所述待检测文本图像对应的真实文本概率图、多个像素点类别概率图和文本特征图时:将所述待检测文本图像输入文本检测模型,通过所述文本检测模型获得所述待检测文本图像对应的真实文本概率图、多个像素点类别概率图,和文本特征图。
在一种可选的实施方式中,程序305还用于使得处理器301执行以下操作:获取用于训练的文本图像样本,并将所述文本图像样本输入文本检测模型;通过所述文本检测模型得到真实文本预测概率图、多个所述像素点类别预测概率图,和文本特征预测图;根据所述真实文本预测概率图和预设的交并比损失函数,获得对应的第一损失值;且,根据多个所述像素点类别预测概率图和预设的多分类交叉熵函数,获得对应的第二损失值;且,根据所述文本特征预测图和聚合损失函数与区分损失函数,获得对应的第三损失值;根据所述第一损失值、所述第二损失值和所述第三损失值对所述文本检测模型进行训练。
程序305中各步骤的具体实现可以参见上述文本检测方法实施例中的相应步骤中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,在对文本进行检测,尤其是对存在文本相交情况的待检测文本图像进行文本检测时,文本所在区域可按照各个文本的相交情况被划分为不同区域类型,通过本方案的像素点类别概率图可明确标示像素点的区域类型;进而,基于真实文本二值图和像素点类别概率图可获得不同区域对应的像素点类别二值图;再基于每个素点类别二值图对应的连通域,由于每个连通域在上述文本特征图中存在对应的文本特征,该文本特征为可学习的文本特征,可有效表征不同像素点关系,如,通过像素点间距离表征不同部分像素点间的相似度,故基于该文本特征图,可确定每个连通域对应的文本区域表征向量,通过该文本区域表征向量表征多个连通域是否属于同一文本区域,根据当前像素点类别二值图中连通域的文本区域表征向量与其他像素点类别二值图中连通域的文本区域表征向量的关系,获得待检测文本图像的文本检测结果。相比于相关技术,在得到真实文本概率图后,无需反复卷积,也无需对特征图进行遍历并逐个进行框内是否存在文本的分类判定,在保证文本检测效果的前提下,实现了比相关技术中更简单的后处理思路,提升了文本检测速度,尤其是密集文本的文本检测速度。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本发明实施例中的方法中限定的上述功能。需要说明的是,本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明实施例中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写配置为执行本发明实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系,但这些先后关系只是示例性的,在具体实现的时候,这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括接入模块和发送模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例中所描述的文本检测方法。
作为另一方面,本发明实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:对待检测文本图像进行特征提取,得到所述待检测文本图像对应的真实文本概率图、多个像素点类别概率图和文本特征图;其中,所述像素点类别概率图用于指示所述待检测文本图像中的像素点属于各个不同区域类型的概率;对所述真实文本概率图进行二值化,得到真实文本二值图;根据所述真实文本二值图和多个所述像素点类别概率图,生成多个像素点类别二值图;获得每个所述像素点类别二值图对应的连通域,根据每个连通域和所述文本特征图,确定每个连通域对应的文本区域表征向量;根据每个连通域对应的文本区域表征向量,获得当前像素点类别二值图对应的连通域与其它像素点类别二值图对应的连通域之间的关系,并根据所述关系获得所述待检测文本图像的文本检测结果。
在本发明的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (13)

1.一种文本检测方法,其特征在于,所述方法包括:
对待检测文本图像进行特征提取,得到所述待检测文本图像对应的真实文本概率图、多个像素点类别概率图和文本特征图;其中,所述像素点类别概率图用于指示所述待检测文本图像中的像素点属于各个不同区域类型的概率;所述区域类型包括以下至少之一:非重叠文本区域和重叠文本区域;
对所述真实文本概率图进行二值化,得到真实文本二值图;
根据所述真实文本二值图和多个所述像素点类别概率图,生成多个像素点类别二值图;
获得每个所述像素点类别二值图对应的连通域,根据每个连通域和所述文本特征图,确定每个连通域对应的文本区域表征向量;
根据每个连通域对应的文本区域表征向量,获得当前像素点类别二值图对应的连通域与其它像素点类别二值图对应的连通域之间的关系,并根据所述关系获得所述待检测文本图像的文本检测结果。
2.根据权利要求1所述的方法,其特征在于,所述重叠文本区域包括以下至少之一:多个文本区域中两两重叠的区域、多个文本区域均重叠的区域。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述真实文本二值图和多个所述像素点类别概率图,生成多个像素点类别二值图,包括:
根据多个所述像素点类别概率图,确定所述待检测文本图像中每个像素点的像素点类别;
根据所述每个像素点的像素点类别和所述真实文本二值图,生成不同像素点类别对应的像素点类别二值图。
4.根据权利要求3所述的方法,其特征在于,所述根据多个所述像素点类别概率图,确定所述待检测文本图像中每个像素点的像素点类别,包括:
将所述每个像素点在多个所述像素点类别概率图中概率最大的像素点类别,确定为所述每个像素点的像素点类别。
5.根据权利要求1或2所述的方法,其特征在于,所述获得每个所述像素点类别二值图对应的连通域,根据每个连通域和所述文本特征图,确定每个连通域对应的文本区域表征向量,包括:
获得每个所述像素点类别二值图对应的连通域,对每个连通域所包含的像素点在所述文本特征图中对应的文本特征的特征向量求均值,得到每个连通域对应的文本区域表征向量。
6.根据权利要求5所述的方法,其特征在于,所述根据每个连通域对应的文本区域表征向量,获得当前像素点类别二值图对应的连通域与其它像素点类别二值图对应的连通域之间的关系,并根据所述关系获得所述待检测文本图像的文本检测结果,包括:
针对每个所述像素点类别二值图,分别计算当前像素点类别二值图中的连通域对应的文本区域表征向量,与其它像素点类别二值图中的连通域对应的文本区域表征向量之间的距离,根据所述距离获得所述待检测文本图像的文本检测结果。
7.根据权利要求6所述的方法,其特征在于,所述根据所述距离获得所述待检测文本图像的文本检测结果,包括:
若所述距离小于预设距离,则将所述距离小于预设距离对应的两个像素点类别二值图中的连通域进行合并;根据合并结果,获得所述待检测文本图像的文本检测结果。
8.根据权利要求1所述的方法,其特征在于,所述对待检测文本图像进行特征提取,得到所述待检测文本图像对应的真实文本概率图、多个像素点类别概率图和文本特征图,包括:
对所述待检测文本图像进行第一文本特征的提取;
对所述第一文本特征进行增强处理得到第二文本特征;
对所述第二文本特征进行上采样,并将上采样后的文本特征进行串联,得到串联后的特征;
将所述串联后的特征进行积分变换,得到所述真实文本概率图、多个所述像素点类别概率图,以及,用于表征所述待检测文本图像中不同像素点间的距离的所述文本特征图。
9.根据权利要求1所述的方法,其特征在于,所述对待检测文本图像进行特征提取,得到所述待检测文本图像对应的真实文本概率图、多个像素点类别概率图和文本特征图,包括:
将所述待检测文本图像输入文本检测模型,通过所述文本检测模型获得所述待检测文本图像对应的真实文本概率图、多个像素点类别概率图,和文本特征图。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
获取用于训练的文本图像样本,并将所述文本图像样本输入文本检测模型;
通过所述文本检测模型得到真实文本预测概率图、多个所述像素点类别预测概率图,和文本特征预测图;
根据所述真实文本预测概率图和预设的交并比损失函数,获得对应的第一损失值;且,根据多个所述像素点类别预测概率图和预设的多分类交叉熵函数,获得对应的第二损失值;且,根据所述文本特征预测图和聚合损失函数与区分损失函数,获得对应的第三损失值;
根据所述第一损失值、所述第二损失值和所述第三损失值对所述文本检测模型进行训练。
11.一种文本检测装置,其特征在于,所述装置包括:特征提取模块,二值化模块,生成模块,确定模块,结果获取模块;
所述特征提取模块,用于对待检测文本图像进行特征提取,得到所述待检测文本图像对应的真实文本概率图、多个像素点类别概率图和文本特征图;其中,所述像素点类别概率图用于指示所述待检测文本图像中的像素点属于各个不同区域类型的概率;所述区域类型包括以下至少之一:非重叠文本区域和重叠文本区域;
所述二值化模块,用于对所述真实文本概率图进行二值化,得到真实文本二值图;
所述生成模块,用于根据所述真实文本二值图和多个所述像素点类别概率图,生成多个像素点类别二值图;
所述确定模块,用于获得每个所述像素点类别二值图对应的连通域,根据每个连通域和所述文本特征图,确定每个连通域对应的文本区域表征向量;
所述结果获取模块,用于根据每个连通域对应的文本区域表征向量,获得当前像素点类别二值图对应的连通域与其它像素点类别二值图对应的连通域之间的关系,并根据所述关系获得所述待检测文本图像的文本检测结果。
12.一种电子设备,其特征在于,所述设备包括:
一个或多个处理器;
计算机可读介质,配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一项所述的文本检测方法。
13.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一项所述的文本检测方法。
CN202010975427.9A 2020-09-16 2020-09-16 文本检测方法、电子设备及计算机可读介质 Active CN111932577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010975427.9A CN111932577B (zh) 2020-09-16 2020-09-16 文本检测方法、电子设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010975427.9A CN111932577B (zh) 2020-09-16 2020-09-16 文本检测方法、电子设备及计算机可读介质

Publications (2)

Publication Number Publication Date
CN111932577A CN111932577A (zh) 2020-11-13
CN111932577B true CN111932577B (zh) 2021-01-08

Family

ID=73333821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010975427.9A Active CN111932577B (zh) 2020-09-16 2020-09-16 文本检测方法、电子设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN111932577B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329761A (zh) * 2021-01-05 2021-02-05 北京易真学思教育科技有限公司 文本检测方法、装置、设备及存储介质
CN112801097B (zh) * 2021-04-14 2021-07-16 北京世纪好未来教育科技有限公司 文本检测模型的训练方法、装置及可读存储介质
CN112990203B (zh) * 2021-05-11 2022-01-28 北京世纪好未来教育科技有限公司 目标检测方法、装置、电子设备及存储介质
CN113254654B (zh) * 2021-07-05 2021-09-21 北京世纪好未来教育科技有限公司 模型训练、文本识别方法、装置、设备和介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050487B (zh) * 2014-06-06 2017-06-16 华东师范大学 一种基于布局信息分析的邮件图像方向辨别方法
US9430704B2 (en) * 2015-01-16 2016-08-30 Sony Corporation Image processing system with layout analysis and method of operation thereof
CN108304835B (zh) * 2018-01-30 2019-12-06 百度在线网络技术(北京)有限公司 文字检测方法和装置
CN111259878A (zh) * 2018-11-30 2020-06-09 中移(杭州)信息技术有限公司 一种检测文本的方法和设备

Also Published As

Publication number Publication date
CN111932577A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111652217B (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN111709420B (zh) 文本检测方法、电子设备及计算机可读介质
CN111932577B (zh) 文本检测方法、电子设备及计算机可读介质
CN111652218A (zh) 文本检测方法、电子设备及计算机可读介质
CN113761976A (zh) 基于全局引导选择性上下文网络的场景语义解析方法
CN111914654B (zh) 一种文本版面分析方法、装置、设备和介质
CN113704531A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN115249332A (zh) 基于空谱双分支卷积网络的高光谱图像分类方法及设备
CN112149526B (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN115861462B (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN114581710A (zh) 图像识别方法、装置、设备、可读存储介质及程序产品
CN111340831A (zh) 点云边缘检测方法和装置
CN113591719A (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
CN111967449B (zh) 文本检测方法、电子设备及计算机可读介质
CN111476226B (zh) 一种文本定位方法、装置及模型训练方法
CN115393868B (zh) 文本检测方法、装置、电子设备和存储介质
CN112101347B (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN113139617B (zh) 一种输电线路自主定位方法、装置及终端设备
CN112801960B (zh) 图像处理方法及装置、存储介质、电子设备
CN114495058A (zh) 交通标志检测方法和装置
CN117974988B (zh) 一种轻量化目标检测方法、装置、计算机程序产品
CN113255665B (zh) 一种目标文本提取方法及系统
CN112668582B (zh) 图像识别方法、装置、设备和存储介质
CN116071625B (zh) 深度学习模型的训练方法、目标检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant