CN112016551A - 文本检测方法、装置、电子设备及计算机存储介质 - Google Patents

文本检测方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN112016551A
CN112016551A CN202011149032.XA CN202011149032A CN112016551A CN 112016551 A CN112016551 A CN 112016551A CN 202011149032 A CN202011149032 A CN 202011149032A CN 112016551 A CN112016551 A CN 112016551A
Authority
CN
China
Prior art keywords
text
boundary point
text region
coordinates
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011149032.XA
Other languages
English (en)
Other versions
CN112016551B (zh
Inventor
杨家博
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yizhen Xuesi Education Technology Co Ltd
Original Assignee
Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yizhen Xuesi Education Technology Co Ltd filed Critical Beijing Yizhen Xuesi Education Technology Co Ltd
Priority to CN202011149032.XA priority Critical patent/CN112016551B/zh
Publication of CN112016551A publication Critical patent/CN112016551A/zh
Application granted granted Critical
Publication of CN112016551B publication Critical patent/CN112016551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Abstract

本申请实施例提供了一种文本检测方法、装置、电子设备及计算机存储介质,该文本检测方法包括:对待检测文本图像进行特征提取,得到待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量;对文本区域阈值图和文本区域边界点概率图分别进行二值化,得到对应的文本边框二值图和文本区域边界点二值图;根据文本边框二值图和文本区域边界点二值图,确定边界点坐标集合;根据边界点坐标集合,以及文本区域边界点与相邻边界点的坐标偏移量,得到文本区域的边界点坐标,从而获得文本检测结果,提高了文本检测的准确性;通过上述方法,提高了文本检测效率和速度。

Description

文本检测方法、装置、电子设备及计算机存储介质
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种文本检测方法、装置、电子设备及计算机存储介质。
背景技术
文本检测是一种检测图像中的文本区域并标记其边界框的技术,文本检测应用范围广泛,是很多计算机视觉任务的前置步骤,比如图像搜索、文字识别,身份认证和视觉导航等。
文本检测的主要目的是定位文本行或字符在图像中的位置,目前一种比较流行的文本检测方法是基于滑动窗口的文本检测方法。该方法基于通用目标检测的思想,设置大量不同长宽比、不同大小的锚点框,以这些锚点框为滑动窗口,在图像上或者在从图像上进行过卷积操作得到的特征映射图上进行遍历搜索,对于每个搜索到的位置框,进行框内是否是文本的分类判定。
但是,这种方法计算量过大,不仅需要耗费大量计算资源,而且耗时较长,降低文本检测的速度。
发明内容
有鉴于此,本申请实施例提供一种文本检测方法、装置、电子设备及计算机存储介质,用以客服现有技术中在检测文本时耗费大量计算资源、耗时较长的缺陷。
第一方面,本申请实施例提供了一种文本检测方法,所述方法包括:
对待检测文本图像进行特征提取,得到所述待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量;
对所述文本区域阈值图和所述文本区域边界点概率图分别进行二值化,得到对应的文本边框二值图和文本区域边界点二值图;
根据所述文本边框二值图和所述文本区域边界点二值图,确定边界点坐标集合;
根据所述边界点坐标集合,以及所述文本区域边界点与相邻边界点的坐标偏移量,获得所述待检测文本图像的文本检测结果。
第二方面,本申请实施例提供了一种文本检测装置,所述装置包括特征提取模块,二值化模块,坐标集合确定模块和结果获取模块;
所述特征提取模块用于对待检测文本图像进行特征提取,得到所述待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量;
所述二值化模块用于对所述文本区域阈值图和所述文本区域边界点概率图分别进行二值化,得到对应的文本边框二值图和文本区域边界点二值图;
所述坐标集合确定模块用于根据所述文本边框二值图和所述文本区域边界点二值图,确定边界点坐标集合;
所述结果获取模块用于根据所述边界点坐标集合,以及所述文本区域边界点与相邻边界点的坐标偏移量,获得所述待检测文本图像的文本检测结果。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一个可执行指令,所述可执行指令使所述处理器执行如第一方面或第一方面的任意一个实施例中所述的文本检测方法对应的操作。
第四方面,本申请实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第一方面的任意一个实施例中所述的文本检测方法。
本申请实施例提供的文本检测方案,对待检测文本图像进行特征提取,得到待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量;对文本区域阈值图和文本区域边界点概率图分别进行二值化,得到对应的文本边框二值图和文本区域边界点二值图;根据文本边框二值图和文本区域边界点二值图,确定边界点坐标集合;根据边界点坐标集合,以及文本区域边界点与相邻边界点的坐标偏移量,获得待检测文本图像的文本检测结果。本申请实施例通过文本边框二值图和文本区域边界点二值图,确定边界点坐标集合,然后根据边界点坐标集合以及文本区域边界点与相邻边界点的坐标偏移量得到每个文本区域的所有边界点坐标,从而获得文本检测结果,提高了文本检测的准确性;本申请实施例无需反复卷积,也无需将内缩文本区域向外扩得到真实文本区域的步骤,减少了文本检测计算量,也节省了计算资源,提高了文本检测效率和速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本检测方法的流程图;
图2为本申请实施例提供的一种文本区域的边框上的边界点的示意图;
图3为本申请实施例提供的一种文本区域的边框上的边界区域的示意图;
图4为本申请实施例提供一种文本区域的示意图;
图5为本申请实施例提供另一种文本区域的示意图;
图6为本申请实施例提供再一种文本区域的示意图;
图7为本申请实施例提供的另一种文本检测方法的流程图;
图8为本申请实施例提供的一种文本检测装置的结构框图;
图9为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
需要说明的是,本申请中的第一和第二只是为了区分名称,并不代表顺序关系,不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,例如,第一方向、第二方向,第一文本特征、第二文本特征,第一交并比损失函数、第二交并比损失函数,第一平滑L1损失函数、第二平滑L1损失函数,第一损失值、第二损失值;本申请中多个指两个及两个以上,例如,多个边界点。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
实施例一、
本申请实施例一提供一种文本检测方法,如图1所示,图1为本申请实施例提供的一种文本检测方法的流程图,该文本检测方法包括以下步骤:
步骤S101、对待检测文本图像进行特征提取,得到待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量。
需要说明的是,本申请实施例中的文本检测方法可适用于具有各种文本密度的文本检测,包括但不限于常规密度文本、密集密度文本、稀疏密度文本,尤其是密集密度文本。其中,确定某个文本是否为密集文本的具体指标可以由本领域技术人员根据实际情况适当设置,包括但不限于:根据文本之间的间距(如间距小于2磅等)、根据单位范围内的文本的数量(如每平方厘米中的文本数量多于3个等)等等,本申请实施例对此不作限制。
本申请中文本区域边界点表示位于文本区域的边框上的像素点,文本区域阈值图用于表征待检测文本图像中的像素点是否位于文本区域的边框,文本区域边界点概率图用于表征待检测文本图像中像素点属于文本区域边界点或非文本区域边界点的概率,文本区域边界点与相邻边界点的坐标偏移量用于表征位于文本区域的边框上的边界点与相邻边界点之间的横纵坐标偏移量,可选的,相邻边界点包括相邻上边界点和相邻下边界点。
步骤S102、对文本区域阈值图和文本区域边界点概率图分别进行二值化,得到对应的文本边框二值图和文本区域边界点二值图。
本申请实施例根据预设阈值对文本区域阈值图进行二值化,从而获得文本边框二值图,预设阈值可以由本领域技术人员根据实际需求适当设置,使得待检测文本图像中文本区域的边框上的像素点被有效区分即可,一种可实现的方式中,预设阈值可以根据模型训练阶段时的阈值设定,另一种可实现的方式中,预设阈值可以通过对大量的文本区域的边框上的像素点进行二值化处理中,对使用的大量阈值的分析确定。并根据预设阈值对文本区域边界点概率图进行二值化,从而获得文本区域边界点二值图,预设阈值可以由本领域技术人员根据实际需求适当设置,使得待检测文本图像中文本区域边界点被有效区分即可,一种可实现的方式中,预设阈值可以根据模型训练阶段时的阈值设定,另一种可实现的方式中,预设阈值可以通过对大量的文本区域边界点概率图进行二值化处理中,对使用的大量阈值的分析确定。
步骤S103、根据文本边框二值图和文本区域边界点二值图,确定边界点坐标集合。
文本边框二值图中的像素点的像素值是0或1,像素值0表示非文本边框、像素值1表示文本边框,文本区域边界点二值图中的像素点的像素值是0或1,像素值0表示非文本区域的边界点、像素值1表示文本区域的边界点。待检测文本图像中包括至少一个文本区域,一个文本区域对应至少一个边界点,本申请通过结合文本边框二值图和文本区域边界点二值图可以得到所有文本区域对应的边界点坐标集合。
步骤S104、根据边界点坐标集合,以及文本区域边界点与相邻边界点的坐标偏移量,获得待检测文本图像的文本检测结果。
根据文本区域对应的至少一个边界点坐标,以及文本区域边界点与相邻边界点的坐标偏移量,可以得到该文本区域对应的其他的边界点坐标,从而得到该文本区域的所有边界点坐标,即该文本区域对应的真实文本区域坐标,从而获得待检测文本图像的文本检测结果。
根据本申请提供的文本检测方法,在进行文本检测时,根据文本边框二值图和文本区域边界点二值图确定边界点坐标集合,然后根据边界点坐标集合以及文本区域边界点与相邻边界点的坐标偏移量得到每个文本区域的所有边界点坐标,从而获得文本检测结果,提高了文本检测的准确性;通过本申请实施例的方案,无需反复卷积,也无需对特征映射图进行遍历并逐个进行框内是否存在文本的分类判定,减少了文本检测计算量,也节省了计算资源,提高了文本检测效率和速度。
本实施例的文本检测方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、PC机、甚至高性能的移动终端等。
实施例二、
本申请实施例二基于实施例一的方案,可选地,在本申请的一种实施例中,其中的步骤S103可以实现为以下步骤S103a和步骤S103b。
示例的,步骤S103a、将文本边框二值图和文本区域边界点二值图进行与操作,得到文本区域边界图。
其中,文本区域边界图用于表征位于文本区域的边框上的边界点。通过与操作,可以对文本区域边界点二值图中有效像素点进行保留,或,对文本区域边界点二值图中噪声像素点进行滤除。
可选的,在本申请的一种实施例中,步骤S103a通过以下方式实现:将文本区域边界点二值图中与文本边框二值图中表示文本边框的像素点的对应位置的像素点确定为有效像素点;将保留有效像素点后的文本区域边界点二值图确定为文本区域边界图;或者,将文本区域边界点二值图中与文本边框二值图中表示非文本边框的像素点的对应位置的像素点确定为噪声像素点;将滤除噪声像素点后的文本区域边界点二值图确定为文本区域边界图。
文本边框二值图中的像素点的像素值是0或1,像素值0表示非文本边框、像素值1表示文本边框,文本区域边界点二值图中的像素点的像素值是0或1,像素值0表示非文本区域的边界点、像素值1表示文本区域的边界点。将文本边框二值图和文本区域边界点二值图进行与操作之后,可以将文本区域边界点二值图中以及文本边框二值图中,在对应位置上像素值均为1的像素点保留下来,也就是作为有效像素点保留下来,并将其他情况下的像素点滤除,也就是作为噪声像素点进行滤除,在此,列举三个示例对将其他情况下的像素点滤除中的其他情况进行说明,第一个示例,文本区域边界点二值图中像素值1的像素点,在对应位置上文本边框二值图中像素值是0;第二个示例,文本区域边界点二值图中像素值0的像素点,在对应位置上文本边框二值图中像素值是1;第三个示例,文本区域边界点二值图中以及文本边框二值图中,在对应位置上像素值均为0。
本申请实施例通过将文本边框二值图和文本区域边界点二值图进行与操作,得到文本区域边界图,将噪声像素点进行滤除,提高了文本区域边界图中位于文本区域的边框上的边界点的准确性。
步骤S103b、对文本区域边界图求连通域,得到边界点坐标集合。
通过对文本区域边界图求连通域,可以得到边界点坐标集合,一个文本区域对应至少一个边界点坐标。
在得到边界点坐标集合时,可选地,在本申请的一种实施例中,步骤S103b还可以包括:对文本区域边界图求连通域,得到至少一个边界区域;将边界区域的中心点坐标确定为边界点坐标,得到边界点坐标集合。
在本申请实施例中,边界点不仅可以是一个坐标点,还可以是一个边界区域。如图2所示,图2为本申请实施例提供了一种文本区域的边框上的边界点的示意图,图2中边界点是一个坐标点,坐标点可以由横纵坐标进行表示,如图3所示,图3为本申请实施例提供的一种文本区域的边框上的边界区域的示意图,图3中边界点并不是一个坐标点,而是一个边界区域,该边界区域是一个圆形区域,还需要对该边界区域求取连通域,将其连通域对应的中心点作为边界点,将其连通域对应的中心点坐标作为边界点坐标。可以理解的是,图3中的边界区域也可以是方形区域,或,其他形状的区域,图3仅是以圆形区域表示边界区域进行示例性说明,本申请实施例对边界区域的形状不做限制。
本申请实施例中文本区域的边框上的边界点不仅可以是一个坐标点,也可以是一个边界区域,通过对边界区域求取连通域,并将其连通域对应的中心点坐标作为边界点坐标。以连通域对应的中心点坐标作为边界点坐标,提高了文本区域的边框上的边界点的准确性,并且在后续的计算过程中均是以边界点为参考,减轻了后续数据处理的负担,简化了计算步骤,也节省了计算资源,提高了文本检测效率和速度。
基于实施例一的方案,可选地,在本申请的一种实施例中,其中的步骤S104可以实现为以下步骤S104a-步骤S104b。
步骤S104a、在边界点坐标集合中确定起始边界点坐标;步骤S104b、根据起始边界点坐标,以及文本区域边界点与相邻边界点的坐标偏移量,确定起始边界点坐标对应的相邻边界点坐标;步骤S104c、根据起始边界点坐标和起始边界点坐标对应的相邻边界点坐标,确定真实文本区域坐标;步骤S104d、根据真实文本区域坐标,获得待检测文本图像的文本检测结果。
需要说明的是,至少一个边界点中的任意一个边界点均可以是起始边界点。将起始边界点坐标,加上文本区域边界点与相邻边界点的坐标偏移量,可以得到起始边界点坐标对应的相邻边界点坐标,再将相邻边界点坐标加上其与相邻边界点的坐标偏移量,得到下一个相邻边界点坐标,由此可以得到文本区域的所有边界点坐标,从而根据所有边界点坐标得到真实文本区域坐标。本申请实施例在确定出待检测文本图像上的所有真实文本区域坐标之后,可以根据真实文本区域坐标对文本图像中的文本区域进行复制或剪切等其他处理,从而获得待检测文本图像的文本检测结果。
可选的,在本申请的一种实施例中,步骤S104c还可以实现为步骤S104c1和步骤S104c2;步骤S104c1、根据起始边界点坐标对应的相邻边界点坐标,以及文本区域边界点与相邻边界点的坐标偏移量,依次确定其他相邻边界点坐标;步骤S104c2、根据起始边界点坐标、起始边界点坐标对应的相邻边界点坐标和其他相邻边界点坐标,确定真实文本区域坐标。
如图4所示,图4为本申请实施例提供一种文本区域的示意图,图4中文本区域包括14个边界点,图4中用边界点A表示起始边界点,将边界点A的坐标,加上文本区域边界点与相邻边界点的坐标偏移量,可以得到边界点A对应的相邻边界点B的坐标,再将边界点B坐标加上与相邻边界点的坐标偏移量,得到下一个相邻边界点的坐标,依次类推,可以得到其他相邻边界点坐标,其他相邻边界点包括边界点C、边界点D、边界点E、边界点F、边界点G、边界点H、边界点I、边界点J、边界点K、边界点L、边界点M、边界点N,由此可以得到文本区域的起始边界点坐标、起始边界点坐标对应的相邻边界点坐标和其他相邻边界点坐标,即文本区域的所有边界点坐标,从而根据边界点A顺时针到边界点N的坐标得到文本区域坐标。
此外,图4中是以顺时针的顺序对边界点A的相邻边界点进行查找,可以理解的是,也可以以逆时针的顺序对边界点A的相邻边界点进行查找,如图5所示,图5为本申请实施例提供另一种文本区域的示意图,图5中以边界点A为起始边界点查找相邻边界点,将边界点A的坐标,加上文本区域边界点与相邻边界点的坐标偏移量,可以得到边界点A对应的相邻边界点N的坐标,再将边界点N坐标加上与相邻边界点的坐标偏移量,得到下一个相邻边界点的坐标,依次类推,可以得到其他相邻边界点坐标,其他相邻边界点包括边界点M、边界点L、边界点K、边界点J、边界点I、边界点H、边界点G、边界点F、边界点E、边界点D、边界点C、边界点B,由此可以得到文本区域的起始边界点坐标、起始边界点坐标对应的相邻边界点坐标和其他相邻边界点坐标,即文本区域的所有边界点坐标,从而根据边界点A逆时针到边界点B的坐标得到文本区域坐标。
可以理解的是,本申请实施例图4和图5是以边界点A为起始边界点查找相邻边界点,当然也可以以任何一个边界点为起始边界点查找相邻边界点,图4和图5中仅是以边界点A为起始边界点为例进行说明;文本区域也可以包括但不限于14个边界点,本申请实施例对文本区域的边界点的数量不做限制;图4和图5中提供的文本区域是以正文本框的形式示出,本申请实施例提供的文本检测方法同样适用于弯曲文本,如图6所示,图6为本申请实施例提供再一种文本区域的示意图,图6中是一个弯曲文本,利用本申请实施例中的文本检测方法,可以得到一个弯曲文本区域的坐标。与通用目标检测中通过设置大量不同长宽比、不同大小的锚点框,以这些锚点框为滑动窗口进行遍历搜索的方案相比,使用本申请实施例提供的文本检测方法检测得到的文本区域坐标更准确。
需要说明的是,图2至图6中的文本区域的长宽比例仅是示意性表示,并不代表文本区域的真实比例,图2至图6中边界点的分布位置仅是示意性表示,并不代表真实文本区域中边界点位置。
进一步的,在确定真实文本区域的边界点之后,将上述确定是真实文本区域的边界点从边界点集合中剔除,在剔除确定边界点后的边界点集合中对下一个文本区域的边界点进行筛选,以得到下一个真实文本区域的坐标,从而获得文本检测结果,提高了文本检测的准确性。
通过边界点以及文本区域边界点与相邻边界点的坐标偏移量,依次确定相邻边界点坐标,利用边界点坐标及其相邻边界点坐标,按照顺时针或逆时针确定一个完整文本区域,还可以实现对粘连文本区域的分割,对于两个粘连文本区域,将粘连的区域划分到各自的文本区域,提高了文本区域的完整性。
可选的,在本申请的一种实施例中,步骤S104c2包括:根据起始边界点坐标、起始边界点坐标对应的相邻上边界点坐标和其他相邻上边界点坐标,按照第一方向确定完整文本区域坐标;根据起始边界点坐标、起始边界点坐标对应的相邻下边界点坐标和其他相邻下边界点坐标,按照第二方向确定完整文本区域坐标;将按照第一方向确定的完整文本区域坐标和按照第二方向确定的完整文本区域坐标进行合并,得到真实文本区域坐标,其中,相邻边界点包括相邻上边界点和相邻下边界点。
本申请中第一方向与第二方向不相同,可选的,第一方向可以是逆时针方向,如图5所示,图5中边界点B的相邻上边界点是边界点A,按照逆时针方向确定一个完整文本区域;第二方向可以是顺时针方向,如图4所示,图4中边界点B的相邻下边界点是边界点C,按照顺时针方向确定一个完整文本区域。需要说明的是,在理想情况下,无论是根据顺时针方向还是逆时针方向得到的一个文本区域的边界点都是14个,但是在实际情况下,还存在得到的一个文本区域的边界点并不是14个,有可能是12个或15个,也就是说,得到的一个文本区域的边界点的数量可能会出现漏掉或多余的现象,因此,本申请实施例还将按照逆时针方向确定的完整文本区域坐标和按照顺时针方向确定的完整文本区域坐标进行合并,将漏掉的边界点补上,或将多余的边界点去掉,将得到的文本区域坐标互相验证,从而得到真实文本区域坐标,提高了文本区域坐标的准确性。
实施例三、
本申请实施例三基于实施例一和实施例二的方案,其中的步骤S101还可以实现为下述步骤S101a-步骤S101d。
步骤S101a、对待检测文本图像进行第一文本特征提取。
本申请实施例在对待检测文本图像进行特征提取时,是将待检测文本图像输入残差网络部分(如Resnet网络),进行第一文本特征的提取,对输入图像提取纹理、边缘、角点和语义信息等特征,这些特征由4组大小不同的特征映射表征。以待检测文本图像为原始图像、Resnet网络对原始图像进行特征提取为例进行说明,Resnet18网络由4个block块串联构建,每个block块包括若干层卷积操作,第一个block块输出的特征映射大小为原始图像的1/4,第二个block块输出的特征映射大小为原始图像的1/8,第三个block块输出的特征映射大小为原始图像的1/16,第四个block块输出的特征映射大小为原始图像的1/32,每个block块输出的特征映射数量都为128,然后将4组大小不同的特征映射全部通过插值的方式将其大小变为原始图像的1/4大小,并串联在一起,得到第一文本特征。
步骤S101b、对第一文本特征的特征进行增强处理得到第二文本特征。
将步骤S101a提取到的第一文本特征,经过两个特征金字塔增强模块(FeaturePyramid Enhancement Module,简称FPEM)模块,对特征进行增强处理,再次提取纹理、边缘、角点和语义信息等第二文本特征,并得到该第二文本特征对应的4组特征映射。
步骤S101c、对第二文本特征进行上采样,并将上采样后的文本特征进行串联,得到串联后的特征。
将得到的4组特征映射的特征图大小全部上采样到原始图像1/4大小,并串联在一起,此处串联的含义是指将4组与原始图像1/4大小一样的特征映射,以通道为轴串在一起,举例来说,如果每组特征映射通道为512,则串联在一起之后得到一组特征映射,其通道数量为512。
步骤S101d、将串联后的特征进行卷积操作,得到待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量。
将串联后的特征映射进行一次卷积操作,两次反卷积操作,得到三个特征图,其中第一个特征图表示文本区域阈值图,用于表征待检测文本图像中的像素点是否位于文本区域的边框;第二个特征图表示本区域边界点概率图,用于表征待检测文本图像中像素点属于文本区域边界点或非文本区域边界点的概率;第三个特征图表示文本区域边界点与相邻边界点的坐标偏移量,用于表征位于文本区域的边框上的边界点与相邻边界点之间的横纵坐标偏移量,其中第三个特征图包括文本区域边界点与相邻上边界点的X轴坐标偏移量、文本区域边界点与相邻上边界点的Y轴坐标偏移量、文本区域边界点与相邻下边界点的X轴坐标偏移量和文本区域边界点与相邻下边界点的Y轴坐标偏移量。
需要说明的是,相较于单个FPEM模块,两个FPEM模块可以达到最好的效果。每个FPEM模块的处理相同,包括:对得到的4组大小不同的多通道特征映射,按照从大到小的,从前往后的次序,依次称为正向第一、正向第二、正向第三、正向第四组特征映射,先对正向第四组特征映射进行2倍上采样,即将其大小扩大2倍,然后将其与正向第三组特征映射按照通道逐点相加,对结果进行一次深度可分离卷积操作之后,再进行一次卷积、批归一化和激活函数作用操作,得到的结果称为反向第二组特征映射,同样的操作用于反向第二组特征映射和正向第二组特征映射得到反向第三组特征映射,然后同样的操作作用于反向第三组特征映射和正向第一组特征映射,得到反向第四组特征映射,同时将正向第四组特征映射视为反向第一组特征映射,由此得到4组反向特征映射;将第四组反向特征映射作为目标第一组特征映射,然后对目标第一组特征映射进行2倍下采样,即大小缩小2倍,然后将其与反向第三组特征映射按通道逐点相加,对结果进行一次深度可分离卷积操作之后,再进行一次卷积、批归一化和激活函数作用操作,得到的结果称为目标第二组特征映射,同样的操作作用于目标第二组特征映射和反向第二组特征映射,得到目标第三组特征映射,然后同样的操作作用于目标第三组特征映射和反向第一组特征映射,得到目标第四组特征映射,目标第一、目标第二、目标第三和目标第四组特征映射便是FPEM模块的输出。第二个FPEM模块是以第一个FPEM模块的输出作为输入,进行同样的操作,得到输出。该输出中包括形成至少一个特征映射图的特征,或者说,输出的特征可以形成特征映射图。
实施例四、
本申请实施例四基于实施例一至实施例三的方案,在实现步骤S101中的特征提取时,可以通过文本检测模型进行特征提取,示例地,将待检测文本图像输入文本检测模型,通过文本检测模型获得待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量。
本申请实施例在应用阶段时,通过训练好的文本检测模型获得待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量。而在训练阶段,还需要执行实施例三中的步骤S101a-步骤S101d,在得到文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量之后,还对文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量进行训练,从而得到训练好的文本检测模型。
可选地,在本申请的一种实施例中,在将待检测文本图像输入文本检测模型之前,本申请还包括对文本检测模型进行训练的过程,使用训练图像样本,对文本检测模型进行训练。
示例地,获取训练图像样本,并将训练图像样本输入初始文本检测模型;通过初始文本检测模型得到文本区域预测概率图、文本区域预测阈值图、文本区域边界点预测概率图,以及,文本区域边界点与相邻边界点的预测坐标偏移量;根据文本区域预测概率图和预设的第一交并比损失函数,获得对应的第一损失值;且,根据文本区域预测阈值图和预设的第一平滑L1损失函数,获得对应的第二损失值;且,根据文本区域边界点预测概率图和预设的第二交并比损失函数,获得对应的第三损失值;根据文本区域边界点与相邻边界点的预测坐标偏移量和预设的第二平滑L1损失函数,获得对应的第四损失值;根据第一损失值、第二损失值、第三损失值和第四损失值对初始文本检测模型进行训练,得到文本检测模型。其中,训练图像样本包含有各个文本区域的边界点的标注信息。
需要说明的是,本申请实施例在训练阶段中对训练图像样本进行特征提取还得到了文本区域预测概率图,文本区域预测概率图用于表征训练图像样本中的像素点属于文本或背景的概率,但是在应用阶段,并没有用到文本区域概率图。本申请实施例在训练阶段,在对文本区域预测阈值图、文本区域边界点预测概率图、文本区域边界点与相邻边界点的预测坐标偏移量进行训练的同时,还对文本区域预测概率图进行训练,是为了更好的训练文本区域预测阈值图、文本区域边界点预测概率图、文本区域边界点与相邻边界点的预测坐标偏移量,这四个特征图之间相互监督训练,以提高文本检测模型的训练效果。
具体的,本申请实施例是使用交并比值(DiceLoss)作为目标损失函数,对文本区域预测概率图进行训练优化,计算文本区域预测概率图对应的第一损失值;将第一平滑L1损失函数作为目标损失函数,对文本区域预测阈值图进行训练优化,计算文本区域预测阈值图对应的第二损失值;使用交并比值(DiceLoss)作为目标损失函数,对文本区域边界点预测概率图进行训练优化,计算文本区域边界点预测概率图对应的第三损失值;将第一平滑L1损失函数作为目标损失函数,对文本区域边界点与相邻边界点的预测坐标偏移量进行训练优化,计算坐标偏移量对应的第四损失值;然后根据第一损失值、第二损失值、第三损失值和第四损失值对初始文本检测模型进行训练,得到文本检测模型,直至达到训练终止条件,例如,训练次数达到预设次数,或者,损失值达到预设阈值等。
在获取训练图像样本时,可选的,在本申请的一种实施例中,获取初始训练图像样本,以初始训练图像样本的文本区域中心为中心点;根据中心点和预设圆心角度,确定文本区域的多个边界点并生成对应的边界点标签;根据文本区域的边界点标签,获取初始训练图像样本的标签信息;根据初始训练图像样本和初始训练图像样本的标签信息得到训练图像样本。
在对初始训练图像样本添加边界点标签时,一个初始训练图像样本包括至少一个文本区域,以一个文本区域添加14个边界点为例进行说明,以文本区域中心为中心点,以360度除14为预设圆心角度,向外发射14条射线,将射线与文本区域的边框的交点作为边界点,可以得到14个边界点,从而生成文本区域的边界点标签,边界点标签可以包括边界点在图像样本中的坐标位置和其相邻边界点的坐标偏移量等,根据至少一个文本区域的边界点标签获取初始训练图像样本的标签信息,将初始训练图像样本和初始训练图像样本的标签信息作为训练图像样本。
可以理解的是,也可以以不均匀的预设圆心角度,向外发射射线,在垂直方向的附近发射密集点的射线,而在水平方向的附近发射稀疏点的射线,例如,以0度、180度表示水平方向,以90度、270度表示垂直方向,以发射14条射线为例,分别在25度、55度、75度、90度、105度、125度、155度、205度、235度、255度、270度、285度、305度、335度发射射线;若需要为一个文本区域添加16个边界点,则以文本区域中心为中心点,以360度除16为预设圆心角度,向外发射16条射线,从而得到16个边界点。
进一步的,列举一个具体的示例对本申请实施例中对待检测文本图像的文本检测进行说明,如图7所示,图7为本申请实施例提供的另一种文本检测方法的流程图,可以包括以下步骤:
步骤S701、将待检测的文本图像输入Resnet18网络,进行第一文本特征提取。
步骤S702、将提取到的第一文本特征,经过两个FPEM模块,再次提取第二文本特征,并得到该第二文本特征对应的7组特征映射。
步骤S703、将步骤S702得到的7组特征映射的特征图大小全部上采样到原始图像1/7大小,并串联在一起。
步骤S704、将串联后的特征映射进行一次卷积操作,两次反卷积操作,输出待检测文本图像对应的7通道的特征图。
上述7通道的特征图与输入的待检测文本图像大小一致,其中,第一个通道的特征图表示文本区域概率图,第二个通道的特征图表示文本区域阈值图,第三个通道的特征图表示文本区域边界点概率图,第四个通道的特征图表示文本区域边界点与相邻上边界点的X轴坐标偏移量,第五个通道的特征图表示文本区域边界点与相邻上边界点的Y轴坐标偏移量,第六个通道的特征图表示文本区域边界点与相邻下边界点的X轴坐标偏移量,第七个通道的特征图表示文本区域边界点与相邻下边界点的Y轴坐标偏移量。
需要说明的是,在训练阶段对文本检测模型进行训练时用到第一个通道的特征图表示的文本区域概率图,在应用阶段不需要用到第一个通道的特征图表示的文本区域概率图。
步骤S705、根据设定阈值对第二通道表示的文本区域阈值图和第三通道表示的文本区域边界点概率图分别进行二值化,得到文本边框二值图和文本区域边界点二值图。
步骤S706、将文本边框二值图和文本区域边界点二值图进行与操作,滤除噪声像素点,得到文本区域边界图。
步骤S707、对文本区域边界图求取连通域,得到多个边界点坐标。
步骤S708、将多个边界点坐标和第四至第七通道的特征图中对应位置的坐标偏移量相加,得到每个边界点对应的上一个边界点坐标和下一个边界点坐标。
步骤S709、当边界点坐标顺时针指引形成一个环后,顺时针得到完整文本区域,和,当边界点坐标逆时针指引形成一个环后,逆时针得到完整文本区域,并将这些边界点从边界点集合中剔除。
需要说明的是步骤S709中,顺时针指引边界点坐标形成一个环和逆时针指引边界点坐标形成一个环的步骤没有先后执行顺序,可以同时执行,也可以分开执行,对此本申请实施例不做限制。
步骤S710、将顺时针得到的完整文本区域坐标和逆时针得到的完整文本区域坐标进行合并,得到真实文本区域坐标。
在进行文本检测时,通过本实施例提供的文本检测方法,可以将文本边框二值图和文本区域边界点二值图进行与操作,得到文本区域边界图,将噪声像素点进行滤除,提高了文本区域边界图中位于文本区域的边框上的边界点的准确性;对文本区域边界图求连通域,得到边界点坐标集合;然后根据边界点坐标集合以及文本区域边界点与相邻边界点的坐标偏移量得到每个文本区域中每个边界点对应的上一个边界点坐标和下一个边界点坐标;当边界点坐标顺时针指引形成一个环后,可以顺时针得到完整文本区域,且,当边界点坐标逆时针指引形成一个环后,可以逆时针得到完整文本区域,再将顺时针得到的完整文本区域坐标和逆时针得到的完整文本区域坐标进行合并,将漏掉的边界点补上,或将多余的边界点去掉,将得到的文本区域坐标互相验证,从而得到真实文本区域坐标,提高了文本区域坐标的准确性;然后将上述确定是真实文本区域的边界点从边界点集合中剔除,在剔除确定边界点后的边界点集合中对下一个文本区域的边界点进行筛选,以得到下一个真实文本区域的坐标,从而获得文本检测结果,提高了文本检测的准确性;通过边界点以及文本区域边界点与相邻边界点的坐标偏移量,依次确定相邻边界点坐标,利用边界点坐标及其相邻边界点坐标,按照顺时针或逆时针确定一个完整文本区域,还可以实现对粘连文本区域的分割,对于两个粘连文本区域,将粘连的区域划分到各自的文本区域,提高了文本区域的完整性;通过本申请实施例的方案,无需反复卷积,也无需对特征映射图进行遍历并逐个进行框内是否存在文本的分类判定,减少了文本检测计算量,也节省了计算资源,提高了文本检测效率和速度。
实施例五、
本申请实施例提供了一种文本检测装置,如图8所示,图8为本申请实施例提供的一种文本检测装置,文本检测装置80包括特征提取模块801,二值化模块802,坐标集合确定模块803和结果获取模块804;
特征提取模块801用于对待检测文本图像进行特征提取,得到待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量;
二值化模块802用于对文本区域阈值图和文本区域边界点概率图分别进行二值化,得到对应的文本边框二值图和文本区域边界点二值图;
坐标集合确定模块803用于根据文本边框二值图和文本区域边界点二值图,确定边界点坐标集合;
结果获取模块804用于根据边界点坐标集合,以及文本区域边界点与相邻边界点的坐标偏移量,获得待检测文本图像的文本检测结果。
可选的,在本申请的一种实施例中,坐标集合确定模块803还用于将文本边框二值图和文本区域边界点二值图进行与操作,得到文本区域边界图;对文本区域边界图求连通域,得到边界点坐标集合。
可选的,在本申请的一种实施例中,坐标集合确定模块803还用于对文本区域边界图求连通域,得到至少一个边界区域;将边界区域的中心点坐标确定为边界点坐标,得到边界点坐标集合。
可选的,在本申请的一种实施例中,结果获取模块804还用于在边界点坐标集合中确定起始边界点坐标;根据起始边界点坐标,以及文本区域边界点与相邻边界点的坐标偏移量,确定起始边界点坐标对应的相邻边界点坐标;根据起始边界点坐标和起始边界点坐标对应的相邻边界点坐标,确定真实文本区域坐标;根据真实文本区域坐标,获得待检测文本图像的文本检测结果。
可选的,在本申请的一种实施例中,结果获取模块804还用于根据起始边界点坐标对应的相邻边界点坐标,以及文本区域边界点与相邻边界点的坐标偏移量,依次确定其他相邻边界点坐标;根据起始边界点坐标、起始边界点坐标对应的相邻边界点坐标和其他相邻边界点坐标,确定真实文本区域坐标。
可选的,在本申请的一种实施例中,结果获取模块804还用于根据起始边界点坐标、起始边界点坐标对应的相邻上边界点坐标和其他相邻上边界点坐标,按照第一方向确定完整文本区域坐标;根据起始边界点坐标、起始边界点坐标对应的相邻下边界点坐标和其他相邻下边界点坐标,按照第二方向确定完整文本区域坐标;将按照第一方向确定的完整文本区域坐标和按照第二方向确定的完整文本区域坐标进行合并,得到真实文本区域坐标,其中,相邻边界点包括相邻上边界点和相邻下边界点。
可选的,在本申请的一种实施例中,特征提取模块801还用于对待检测文本图像进行第一文本特征提取;对第一文本特征的特征进行增强处理得到第二文本特征;对第二文本特征进行上采样,并将上采样后的文本特征进行串联,得到串联后的特征;将串联后的特征进行卷积操作,得到文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量。
可选的,在本申请的一种实施例中,特征提取模块801还用于将待检测文本图像输入文本检测模型,通过文本检测模型获得待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量。
可选的,在本申请的一种实施例中,文本检测装置80还包括训练模块,训练模块用于获取训练图像样本,并将训练图像样本输入初始文本检测模型;通过初始文本检测模型得到文本区域预测概率图、文本区域预测阈值图、文本区域边界点预测概率图,以及,文本区域边界点与相邻边界点的预测坐标偏移量;根据文本区域预测概率图和预设的第一交并比损失函数,获得对应的第一损失值;且,根据文本区域预测阈值图和预设的第一平滑L1损失函数,获得对应的第二损失值;且,根据文本区域边界点预测概率图和预设的第二交并比损失函数,获得对应的第三损失值;根据文本区域边界点与相邻边界点的预测坐标偏移量和预设的第二平滑L1损失函数,获得对应的第四损失值;根据第一损失值、第二损失值、第三损失值和第四损失值对初始文本检测模型进行训练,得到文本检测模型。
可选的,在本申请的一种实施例中,训练模块还用于获取初始训练图像样本,以初始训练图像样本的文本区域中心为中心点;根据中心点和预设圆心角度,确定文本区域的多个边界点并生成对应的边界点标签;根据文本区域的边界点标签,获取初始训练图像样本的标签信息;根据初始训练图像样本和初始训练图像样本的标签信息得到训练图像样本。
本实施例的文本检测装置用于实现前述多个方法实施例中相应的文本检测方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的文本检测装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
实施例六、
基于上述实施例一至实施例四描述的任一项文本检测方法,本申请实施例提供了一种电子设备,需要说明的,本实施例的文本检测方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。如图9所示,图9为本申请实施例提供的一种电子设备的结构图。本申请具体实施例并不对电子设备的具体实现做限定。该电子设备90可以包括:处理器(processor)902、通信接口(CommunicationsInterface)904、存储器(memory)906、以及通信总线908。
其中:处理器902、通信接口904、以及存储器906通过通信总线908完成相互间的通信。
通信接口904,用于与其它电子设备或服务器进行通信。
处理器902,用于执行计算机程序910,具体可以执行上述文本检测方法实施例中的相关步骤。
具体地,计算机程序910可以包括计算机程序代码,该计算机程序代码包括计算机操作指令。
处理器902可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器906,用于存放计算机程序910。存储器906可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
计算机程序910具体可以用于使得处理器902执行以下操作:
对待检测文本图像进行特征提取,得到待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量;对文本区域阈值图和文本区域边界点概率图分别进行二值化,得到对应的文本边框二值图和文本区域边界点二值图;根据文本边框二值图和文本区域边界点二值图,确定边界点坐标集合;根据边界点坐标集合,以及文本区域边界点与相邻边界点的坐标偏移量,获得待检测文本图像的文本检测结果。
可选地,在本申请的一种实施例中,计算机程序910还可以用于使得处理器902在根据文本边框二值图和文本区域边界点二值图,确定边界点坐标集合时,将文本边框二值图和文本区域边界点二值图进行与操作,得到文本区域边界图;对文本区域边界图求连通域,得到边界点坐标集合。
可选地,在本申请的一种实施例中,计算机程序910还可以用于使得处理器902在对文本区域边界图求连通域,得到边界点坐标集合时,对文本区域边界图求连通域,得到至少一个边界区域;将边界区域的中心点坐标确定为边界点坐标,得到边界点坐标集合。
可选地,在本申请的一种实施例中,计算机程序910还可以用于使得处理器902在根据边界点坐标集合,以及文本区域边界点与相邻边界点的坐标偏移量,获得待检测文本图像的文本检测结果时,在边界点坐标集合中确定起始边界点坐标;根据起始边界点坐标,以及文本区域边界点与相邻边界点的坐标偏移量,确定起始边界点坐标对应的相邻边界点坐标;根据起始边界点坐标和起始边界点坐标对应的相邻边界点坐标,确定真实文本区域坐标;根据真实文本区域坐标,获得待检测文本图像的文本检测结果。
可选地,在本申请的一种实施例中,计算机程序910还可以用于使得处理器902在根据起始边界点坐标和起始边界点坐标对应的相邻边界点坐标,确定真实文本区域坐标时,根据起始边界点坐标对应的相邻边界点坐标,以及文本区域边界点与相邻边界点的坐标偏移量,依次确定其他相邻边界点坐标;根据起始边界点坐标、起始边界点坐标对应的相邻边界点坐标和其他相邻边界点坐标,确定真实文本区域坐标。
可选地,在本申请的一种实施例中,计算机程序910还可以用于使得处理器902在根据起始边界点坐标、起始边界点坐标对应的相邻边界点坐标和其他相邻边界点坐标,确定真实文本区域坐标时,根据起始边界点坐标、起始边界点坐标对应的相邻上边界点坐标和其他相邻上边界点坐标,按照第一方向确定完整文本区域坐标;根据起始边界点坐标、起始边界点坐标对应的相邻下边界点坐标和其他相邻下边界点坐标,按照第二方向确定完整文本区域坐标;将按照第一方向确定的完整文本区域坐标和按照第二方向确定的完整文本区域坐标进行合并,得到真实文本区域坐标,其中,相邻边界点包括相邻上边界点和相邻下边界点。
可选地,在本申请的一种实施例中,计算机程序910还可以用于使得处理器902在对待检测文本图像进行特征提取,得到待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量时,对待检测文本图像进行第一文本特征提取;对第一文本特征的特征进行增强处理得到第二文本特征;对第二文本特征进行上采样,并将上采样后的文本特征进行串联,得到串联后的特征;将串联后的特征进行卷积操作,得到文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量。
可选地,在本申请的一种实施例中,计算机程序910还可以用于使得处理器902在对待检测文本图像进行特征提取,得到待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量时,将待检测文本图像输入文本检测模型,通过文本检测模型获得待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量。
可选地,在本申请的一种实施例中,计算机程序910还可以用于使得处理器902执行以下操作:获取训练图像样本,并将训练图像样本输入初始文本检测模型;通过初始文本检测模型得到文本区域预测概率图、文本区域预测阈值图、文本区域边界点预测概率图,以及,文本区域边界点与相邻边界点的预测坐标偏移量;根据文本区域预测概率图和预设的第一交并比损失函数,获得对应的第一损失值;且,根据文本区域预测阈值图和预设的第一平滑L1损失函数,获得对应的第二损失值;且,根据文本区域边界点预测概率图和预设的第二交并比损失函数,获得对应的第三损失值;根据文本区域边界点与相邻边界点的预测坐标偏移量和预设的第二平滑L1损失函数,获得对应的第四损失值;根据第一损失值、第二损失值、第三损失值和第四损失值对初始文本检测模型进行训练,得到文本检测模型。
可选地,在本申请的一种实施例中,计算机程序910还可以用于使得处理器902在获取训练图像样本时,获取初始训练图像样本,以初始训练图像样本的文本区域中心为中心点;根据中心点和预设圆心角度,确定文本区域的多个边界点并生成对应的边界点标签;根据文本区域的边界点标签,获取初始训练图像样本的标签信息;根据初始训练图像样本和初始训练图像样本的标签信息得到训练图像样本。
可以理解的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
实施例七、
基于上述实施例一至实施例四所描述的文本检测方法,本申请实施例提供了一种计算机存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现如实施例一至实施例四所描述的文本检测方法。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的文本检测方法。此外,当通用计算机访问用于实现在此示出的文本检测方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的文本检测方法的专用计算机。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例地单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。

Claims (13)

1.一种文本检测方法,其特征在于,所述方法包括:
对待检测文本图像进行特征提取,得到所述待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量;
对所述文本区域阈值图和所述文本区域边界点概率图分别进行二值化,得到对应的文本边框二值图和文本区域边界点二值图;
根据所述文本边框二值图和所述文本区域边界点二值图,确定边界点坐标集合;
根据所述边界点坐标集合,以及所述文本区域边界点与相邻边界点的坐标偏移量,获得所述待检测文本图像的文本检测结果。
2.根据权利要求1所述的方法,其特征在于,根据所述文本边框二值图和所述文本区域边界点二值图,确定边界点坐标集合,包括:
将所述文本边框二值图和所述文本区域边界点二值图进行与操作,得到文本区域边界图;
对所述文本区域边界图求连通域,得到所述边界点坐标集合。
3.根据权利要求2所述的方法,其特征在于,对所述文本区域边界图求连通域,得到所述边界点坐标集合,包括:
对所述文本区域边界图求连通域,得到至少一个边界区域;
将所述边界区域的中心点坐标确定为边界点坐标,得到所述边界点坐标集合。
4.根据权利要求1所述的方法,其特征在于,根据所述边界点坐标集合,以及所述文本区域边界点与相邻边界点的坐标偏移量,获得所述待检测文本图像的文本检测结果,包括:
在所述边界点坐标集合中确定起始边界点坐标;
根据所述起始边界点坐标,以及所述文本区域边界点与相邻边界点的坐标偏移量,确定所述起始边界点坐标对应的相邻边界点坐标;
根据所述起始边界点坐标和所述起始边界点坐标对应的相邻边界点坐标,确定真实文本区域坐标;
根据所述真实文本区域坐标,获得所述待检测文本图像的文本检测结果。
5.根据权利要求4所述的方法,其特征在于,根据所述起始边界点坐标和所述起始边界点坐标对应的相邻边界点坐标,确定真实文本区域坐标,包括:
根据所述起始边界点坐标对应的相邻边界点坐标,以及所述文本区域边界点与相邻边界点的坐标偏移量,依次确定其他相邻边界点坐标;
根据所述起始边界点坐标、所述起始边界点坐标对应的相邻边界点坐标和所述其他相邻边界点坐标,确定所述真实文本区域坐标。
6.根据权利要求5所述的方法,其特征在于,根据所述起始边界点坐标、所述起始边界点坐标对应的相邻边界点坐标和所述其他相邻边界点坐标,确定所述真实文本区域坐标,包括:
根据所述起始边界点坐标、起始边界点坐标对应的相邻上边界点坐标和其他相邻上边界点坐标,按照第一方向确定完整文本区域坐标;
根据所述起始边界点坐标、起始边界点坐标对应的相邻下边界点坐标和其他相邻下边界点坐标,按照第二方向确定完整文本区域坐标;
将按照第一方向确定的完整文本区域坐标和按照第二方向确定的完整文本区域坐标进行合并,得到所述真实文本区域坐标,其中,所述相邻边界点包括所述相邻上边界点和所述相邻下边界点。
7.根据权利要求1所述的方法,其特征在于,所述对待检测文本图像进行特征提取,得到所述待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量,包括:
对所述待检测文本图像进行第一文本特征提取;
对所述第一文本特征的特征进行增强处理得到第二文本特征;
对所述第二文本特征进行上采样,并将上采样后的文本特征进行串联,得到串联后的特征;
将所述串联后的特征进行卷积操作,得到所述文本区域阈值图、所述文本区域边界点概率图,以及,所述文本区域边界点与相邻边界点的坐标偏移量。
8.根据权利要求1所述的方法,其特征在于,所述对待检测文本图像进行特征提取,得到所述待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量,包括:
将所述待检测文本图像输入文本检测模型,通过所述文本检测模型获得所述待检测文本图像对应的所述文本区域阈值图、所述文本区域边界点概率图,以及,所述文本区域边界点与相邻边界点的坐标偏移量。
9.根据权利要求8所述的方法,其特征在于,在将所述待检测文本图像输入文本检测模型之前,所述方法还包括:
获取训练图像样本,并将所述训练图像样本输入初始文本检测模型;
通过所述初始文本检测模型得到文本区域预测概率图、文本区域预测阈值图、文本区域边界点预测概率图,以及,文本区域边界点与相邻边界点的预测坐标偏移量;
根据所述文本区域预测概率图和预设的第一交并比损失函数,获得对应的第一损失值;且,根据所述文本区域预测阈值图和预设的第一平滑L1损失函数,获得对应的第二损失值;且,根据所述文本区域边界点预测概率图和预设的第二交并比损失函数,获得对应的第三损失值;根据所述文本区域边界点与相邻边界点的预测坐标偏移量和预设的第二平滑L1损失函数,获得对应的第四损失值;
根据所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值对所述初始文本检测模型进行训练,得到所述文本检测模型。
10.根据权利要求9所述的方法,其特征在于,所述获取训练图像样本,包括:
获取初始训练图像样本,以所述初始训练图像样本的文本区域中心为中心点;
根据所述中心点和预设圆心角度,确定文本区域的多个边界点并生成对应的边界点标签;
根据所述文本区域的边界点标签,获取所述初始训练图像样本的标签信息;
根据所述初始训练图像样本和所述初始训练图像样本的标签信息得到所述训练图像样本。
11.一种文本检测装置,其特征在于,所述装置包括:特征提取模块,二值化模块,坐标集合确定模块和结果获取模块;
所述特征提取模块用于对待检测文本图像进行特征提取,得到所述待检测文本图像对应的文本区域阈值图、文本区域边界点概率图,以及,文本区域边界点与相邻边界点的坐标偏移量;
所述二值化模块用于对所述文本区域阈值图和所述文本区域边界点概率图分别进行二值化,得到对应的文本边框二值图和文本区域边界点二值图;
所述坐标集合确定模块用于根据所述文本边框二值图和所述文本区域边界点二值图,确定边界点坐标集合;
所述结果获取模块用于根据所述边界点坐标集合,以及所述文本区域边界点与相邻边界点的坐标偏移量,获得所述待检测文本图像的文本检测结果。
12.一种电子设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一个可执行指令,所述可执行指令使所述处理器执行如权利要求1-10中任一项所述的文本检测方法对应的操作。
13.一种计算机存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-10中任一所述的文本检测方法。
CN202011149032.XA 2020-10-23 2020-10-23 文本检测方法、装置、电子设备及计算机存储介质 Active CN112016551B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011149032.XA CN112016551B (zh) 2020-10-23 2020-10-23 文本检测方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011149032.XA CN112016551B (zh) 2020-10-23 2020-10-23 文本检测方法、装置、电子设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN112016551A true CN112016551A (zh) 2020-12-01
CN112016551B CN112016551B (zh) 2021-04-09

Family

ID=73527864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011149032.XA Active CN112016551B (zh) 2020-10-23 2020-10-23 文本检测方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112016551B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580638A (zh) * 2021-02-28 2021-03-30 北京易真学思教育科技有限公司 文本检测方法、装置、存储介质及电子设备
CN112801045A (zh) * 2021-03-18 2021-05-14 北京世纪好未来教育科技有限公司 一种文本区域检测方法、电子设备及计算机存储介质
CN112990204A (zh) * 2021-05-11 2021-06-18 北京世纪好未来教育科技有限公司 目标检测方法、装置、电子设备及存储介质
CN113033400A (zh) * 2021-03-25 2021-06-25 新东方教育科技集团有限公司 识别数学式子的方法、装置、存储介质及电子设备
CN113076814A (zh) * 2021-03-15 2021-07-06 腾讯科技(深圳)有限公司 文本区域的确定方法、装置、设备及可读存储介质
CN113159020A (zh) * 2021-03-10 2021-07-23 国网河北省电力有限公司 基于核尺度扩张的文本检测方法
CN114399782A (zh) * 2022-01-18 2022-04-26 腾讯科技(深圳)有限公司 文本图像处理方法、装置、设备、存储介质及程序产品
TWI810623B (zh) * 2021-08-04 2023-08-01 中國信託商業銀行股份有限公司 文件校對方法及裝置、電腦可讀取的記錄媒體

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182744A (zh) * 2013-05-24 2014-12-03 佳能株式会社 文本检测方法和装置以及文本信息提取方法和系统
CN107368830A (zh) * 2016-05-13 2017-11-21 佳能株式会社 文本检测方法和装置以及文本识别系统
CN111753839A (zh) * 2020-05-18 2020-10-09 北京捷通华声科技股份有限公司 一种文本检测方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201053B (zh) * 2010-12-10 2013-07-24 上海合合信息科技发展有限公司 一种文本图像的切边方法
CN111652217B (zh) * 2020-06-03 2022-05-03 北京易真学思教育科技有限公司 文本检测方法、装置、电子设备及计算机存储介质
CN111652218A (zh) * 2020-06-03 2020-09-11 北京易真学思教育科技有限公司 文本检测方法、电子设备及计算机可读介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182744A (zh) * 2013-05-24 2014-12-03 佳能株式会社 文本检测方法和装置以及文本信息提取方法和系统
CN107368830A (zh) * 2016-05-13 2017-11-21 佳能株式会社 文本检测方法和装置以及文本识别系统
CN111753839A (zh) * 2020-05-18 2020-10-09 北京捷通华声科技股份有限公司 一种文本检测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIAO M等: "TextBoxes++: A Single-Shot Oriented Scene Text Detector", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580638A (zh) * 2021-02-28 2021-03-30 北京易真学思教育科技有限公司 文本检测方法、装置、存储介质及电子设备
CN112580638B (zh) * 2021-02-28 2021-06-18 北京易真学思教育科技有限公司 文本检测方法、装置、存储介质及电子设备
CN113159020A (zh) * 2021-03-10 2021-07-23 国网河北省电力有限公司 基于核尺度扩张的文本检测方法
CN113159020B (zh) * 2021-03-10 2023-06-06 国网河北省电力有限公司 基于核尺度扩张的文本检测方法
CN113076814A (zh) * 2021-03-15 2021-07-06 腾讯科技(深圳)有限公司 文本区域的确定方法、装置、设备及可读存储介质
CN112801045A (zh) * 2021-03-18 2021-05-14 北京世纪好未来教育科技有限公司 一种文本区域检测方法、电子设备及计算机存储介质
CN113033400A (zh) * 2021-03-25 2021-06-25 新东方教育科技集团有限公司 识别数学式子的方法、装置、存储介质及电子设备
CN113033400B (zh) * 2021-03-25 2024-01-19 新东方教育科技集团有限公司 识别数学式子的方法、装置、存储介质及电子设备
CN112990204A (zh) * 2021-05-11 2021-06-18 北京世纪好未来教育科技有限公司 目标检测方法、装置、电子设备及存储介质
TWI810623B (zh) * 2021-08-04 2023-08-01 中國信託商業銀行股份有限公司 文件校對方法及裝置、電腦可讀取的記錄媒體
CN114399782A (zh) * 2022-01-18 2022-04-26 腾讯科技(深圳)有限公司 文本图像处理方法、装置、设备、存储介质及程序产品
CN114399782B (zh) * 2022-01-18 2024-03-22 腾讯科技(深圳)有限公司 文本图像处理方法、装置、设备、存储介质及程序产品

Also Published As

Publication number Publication date
CN112016551B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN112016551B (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN111709420B (zh) 文本检测方法、电子设备及计算机可读介质
CN110008809B (zh) 表格数据的获取方法、装置和服务器
CN111652217B (zh) 文本检测方法、装置、电子设备及计算机存储介质
US9235759B2 (en) Detecting text using stroke width based text detection
CN111967545B (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN111797821B (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN111652218A (zh) 文本检测方法、电子设备及计算机可读介质
CN109697414B (zh) 一种文本定位方法及装置
JP2018081674A (ja) 手書きテキスト画像に対する行及び単語切り出し方法
CN111932577B (zh) 文本检测方法、电子设备及计算机可读介质
CN111415364A (zh) 一种计算机视觉中图像分割样本的转换方法、系统及存储介质
CN111967449B (zh) 文本检测方法、电子设备及计算机可读介质
CN113326766B (zh) 文本检测模型的训练方法及装置、文本检测方法及装置
CN110598771A (zh) 一种基于深度语义分割网络的视觉目标识别方法和装置
CN111967460B (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN112101347B (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN109101973B (zh) 文字识别方法、电子设备、存储介质
CN112801045B (zh) 一种文本区域检测方法、电子设备及计算机存储介质
CN113032071B (zh) 页面元素定位方法、页面测试方法、装置、设备和介质
CN111028313B (zh) 桌台分布图像生成方法及装置
CN114842482A (zh) 一种图像分类方法、装置、设备和存储介质
CN113887375A (zh) 一种文本识别方法、装置、设备及存储介质
CN110826488B (zh) 一种针对电子文档的图像识别方法、装置及存储设备
CN114511862A (zh) 表格识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant