CN112101347B

CN112101347B - 文本检测方法、装置、电子设备及计算机存储介质

Info

Publication number: CN112101347B
Application number: CN202010881268.6A
Authority: CN
Inventors: 秦勇; 李兵
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2021-04-30
Anticipated expiration: 2040-08-27
Also published as: CN112101347A

Abstract

本申请实施例提供了一种文本检测方法、装置、电子设备及计算机存储介质，在进行文本检测时，先对待检测文本图像进行特征提取，得到待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图；再对真实文本概率图进行二值化，得到真实文本二值图，并根据真实文本二值图和至少一个像素点类别概率图，生成至少一个像素点类别二值图；从至少一个像素点类别二值图中确定基准像素点类别二值图，并计算基准像素点类别二值图对应的多个基准连通域；根据多个基准连通域和至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图，即可得到待检测文本图像中每个真实的文本区域的坐标，获得待检测文本图像的文本检测结果。通过上述方法，提高了文本检测的速度和效率。

Description

文本检测方法、装置、电子设备及计算机存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种文本检测方法、装置、电子设备及计算机存储介质。

背景技术

文本检测是一种检测图像中的文本区域并标记其边界框的技术，文本检测应用范围广泛，是很多计算机视觉任务的前置步骤，比如图像搜索、文字识别，身份认证和视觉导航等。

文本检测的主要目的是定位文本行或字符在图像中的位置，目前一种比较流行的文本检测方法是基于滑动窗口的文本检测方法。该方法基于通用目标检测的思想，设置大量不同长宽比、不同大小的锚点框，以这些锚点框为滑动窗口，在图像上或者在从图像上进行过卷积操作得到的特征映射图上进行遍历搜索，对于每个搜索到的位置框，进行框内是否是文本的分类判定。

但是，这种方法计算量过大，不仅需要耗费大量计算资源，而且耗时较长，降低文本检测的速度。

发明内容

有鉴于此，本申请实施例提供一种文本检测方法、装置、电子设备及计算机存储介质，用以克服现有技术中在检测文本时耗费大量计算资源、耗时较长的缺陷。

第一方面，本申请实施例提供了一种文本检测方法，所述方法包括：对待检测文本图像进行特征提取，得到所述待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图，其中，所述像素点类别概率图用于指示所述待检测文本图像中的像素点属于各个不同区域类型的概率；

对所述真实文本概率图进行二值化，得到真实文本二值图；

根据所述真实文本二值图和所述至少一个像素点类别概率图，生成至少一个像素点类别二值图；

从所述至少一个像素点类别二值图中确定基准像素点类别二值图，并计算所述基准像素点类别二值图对应的多个基准连通域；

根据所述多个基准连通域和所述至少一个像素点类别二值图中除去所述基准像素点类别二值图外的二值图，获得所述待检测文本图像的文本检测结果。

第二方面，本申请实施例提供了一种文本检测装置，所述装置包括：提取模块、二值化模块、生成模块、计算模块、结果获取模块；

所述提取模块用于对待检测文本图像进行特征提取，得到所述待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图，其中，所述像素点类别概率图用于指示所述待检测文本图像中的像素点属于各个不同区域类型的概率；

所述二值化模块用于对所述真实文本概率图进行二值化，得到真实文本二值图；

所述生成模块用于根据所述真实文本二值图和所述至少一个像素点类别概率图，生成至少一个像素点类别二值图；

所述计算模块用于从所述至少一个像素点类别二值图中确定基准像素点类别二值图，并计算所述基准像素点类别二值图对应的多个基准连通域；

所述结果获取模块用于根据所述多个基准连通域和所述至少一个像素点类别二值图中除去所述基准像素点类别二值图外的二值图，获得所述待检测文本图像的文本检测结果。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一个可执行指令，所述可执行指令使所述处理器执行如第一方面或第一方面的任意一个实施例中所述的文本检测方法对应的操作。

第四方面，本申请实施例提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第一方面的任意一个实施例中所述的文本检测方法。

本申请实施例提供了一种文本检测方法、装置、电子设备及计算机存储介质，根据本申请提供的文本检测方法，在进行文本检测时，先对待检测文本图像进行特征提取，得到待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图，其中，该像素点类别概率图用于指示待检测文本图像中的像素点属于各个不同区域类型的概率；再对真实文本概率图进行二值化，得到真实文本二值图，并根据真实文本二值图和至少一个像素点类别概率图，生成至少一个像素点类别二值图；从至少一个像素点类别二值图中确定基准像素点类别二值图，并计算基准像素点类别二值图对应的多个基准连通域；根据多个基准连通域和至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图，即可得到待检测文本图像中每个真实的文本区域的坐标，获得待检测文本图像的文本检测结果。

对于待检测文本图像来说，存在文本相交的情况，此种情况下，文本所在区域的区域类型可被划分为各个文本的不相交区域和相交区域，而通过像素点类别概率图可明确标示像素点的区域类型；进而，基于真实文本二值图和像素点类别概率图可获得不同区域对应的像素点类别二值图；再基于从中确定的基准像素点二值的基准连通域与其它像素点类别二值图的关系，可确定相交区域与不相交区域的关系，由此区分出不同文本区域。通过本申请实施例的方案，无需反复卷积，也无需对特征映射图进行遍历并逐个进行框内是否存在文本的分类判定，减少了文本检测计算量，也节省了计算资源，提升了文本检测效率和速度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本检测方法的流程图；

图2A为本申请实施例提供的一种非重叠文本区域的示意图；

图2B为本申请实施例提供的一种两两重叠文本区域的示意图；

图2C为本申请实施例提供的一种三个文本区域均重叠的示意图，

图2D为本申请实施例提供的一种四个文本区域均重叠的示意图；

图3为本申请实施例提供的另一种文本检测方法的流程图；

图4为本申请实施例提供的一种文本检测装置的结构框图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

需要说明的是，本申请中的第一和第二只是为了区分名称，并不代表顺序关系，不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量，例如，第一文本特征、第二文本特征；本申请中多个指两个及两个以上，例如，多个基准连通域、多个文本区域。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

实施例一、

本申请实施例一提供一种文本检测方法，如图1所示，图1为本申请实施例提供的一种文本检测方法的流程图，该文本检测方法包括以下步骤：

步骤101、对待检测文本图像进行特征提取，得到待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图。

需要说明的是，本申请实施例中的文本检测方法可适用于具有各种文本密度的文本检测，包括但不限于常规密度文本、密集密度文本、稀疏密度文本，尤其是密集密度文本。其中，确定某个文本是否为密集文本的具体指标可以由本领域技术人员根据实际情况适当设置，包括但不限于：根据文本之间的间距（如间距小于2磅等）、根据单位范围内的文本的数量（如每平方厘米中的文本数量多于3个等）等等，本申请实施例对此不作限制。

本申请中真实文本概率图可以表征待检测文本图像中的像素点属于文本或是背景的概率；像素点类别概率图用于指示待检测文本图像中的像素点属于各个不同区域类型的概率。

可选的，区域类型包括以下至少之一：非重叠文本区域和重叠文本区域；其中，重叠文本区域可以是：至少两个文本区域中两两重叠的区域、至少三个文本区域中三个文本区域均重叠的区域、至少三个文本区域中两个文本区域重叠的区域、至少四个文本区域中四个文本区域均重叠的区域、至少四个文本区域中三个文本区域重叠的区域、至少四个文本区域中两个文本区域重叠的区域等。

若一个文本图像中只有非重叠文本区域，也就是两两文本区域之间均不重叠，则该文本图像中包括一种像素点类别的像素点，非重叠文本区域表示文本区域之间没有重叠的部分，如图2A所示，图2A为本申请实施例提供的一种非重叠文本区域的示意图，图2A中只有一种像素点类别的像素点，该种类别的像素点位于所有非重叠区域，在图2A中以数字1表示第一类像素点。若在一个文本图像中，有多个文本区域，且重叠部分最多出现在两个文本区域之间，则该文本图像中包括两种像素点类别的像素点，如图2B所示，图2B为本申请实施例提供的一种两两重叠文本区域的示意图，图2B中第一种像素点类别中的像素点是所有非重叠区域的像素点，在图2B中以数字1表示第一类像素点，图2B中第二种像素点类别中的像素点是所有两两重叠区域的像素点，在图2B中以数字2表示第二类像素点；若在一个文本图像中，有多个文本区域，且重叠部分最多出现在三个文本区域之间，则该文本图像中包括三种像素点类别的像素点，如图2C所示，图2C为本申请实施例提供的一种三个文本区域均重叠的示意图，图2C中第一种像素点类别中的像素点是所有非重叠区域的像素点，在图2C中以数字1表示第一类像素点，图2C中第二种像素点类别中的像素点是所有两两重叠区域的像素点，在图2C中以数字2表示第二类像素点，图2C中第三种像素点类别中的像素点是所有三个文本区域重叠的像素点，在图2C中以数字3表示第三类像素点；若在一个文本图像中，有多个文本区域，且重叠部分最多出现在四个文本区域之间，则该文本图像中包括四种像素点类别的像素点，如图2D所示，图2D为本申请实施例提供的一种四个文本区域均重叠的示意图，图2D中第一种像素点类别中的像素点是所有非重叠区域的像素点，在图2D中以数字1表示第一类像素点，图2D中第二种像素点类别中的像素点是所有两两重叠区域的像素点，在图2D中以数字2表示第二类像素点，图2D中第三种像素点类别中的像素点是所有三个文本区域重叠的像素点，在图2D中以数字3表示第三类像素点，图2D中第四种像素点类别中的像素点是所有四个文本区域重叠的像素点，在图2D中以数字4表示第四类像素点。可以理解的是，一个文本图像中可以包括至少一个文本区域，其中文本区域之间可以重叠，也可以不重叠，图2A-图2D中仅是对文本区域之间不存在或存在重叠区域进行示例性说明，并不代表文本图像中文本区域的数量和重叠实际情况，本申请实施例中的像素点类别可以是第一种像素点类别、第二种像素点类别、第三种像素点类别或第四种像素点类别，像素点可以属于第一类像素点、第二类像素点、第三类像素点或第四类像素点，对此本申请实施例不做限制。

步骤102、对真实文本概率图进行二值化，得到真实文本二值图。

本申请实施例根据预设阈值对真实文本概率图进行二值化，从而获得待检测文本图像的真实文本二值图。其中，预设阈值可以由本领域技术人员根据实际需求适当设置，使得待检测文本图像中的像素点被有效区分即可，一种可实现的方式中，预设阈值可以根据模型训练阶段时的阈值设定，另一种可实现的方式中，预设阈值可以通过对大量的真实文本概率图进行二值化处理中，对使用的大量阈值的分析确定。

步骤103、根据真实文本二值图和至少一个像素点类别概率图，生成至少一个像素点类别二值图。

以一个待检测文本图像中包括四种像素点类别的像素点为例进行说明，根据真实文本二值图和四个像素点类别概率图，生成四种像素点类别二值图。其中，第一种像素点类别二值图中的所有像素点属于第一类像素点，第一类像素点位于非重叠区域，第二种像素点类别二值图中的所有像素点属于第二类像素点，第二类像素点位于两两重叠的区域，第三种像素点类别二值图中的所有像素点属于第第三类像素点，第三类像素点位于三个文本区域重叠的区域，第四种像素点类别二值图中的所有像素点属于第四类像素点，第四类像素点位于四个文本区域重叠的区域。需要说明的是，如果一个待检测文本图像中仅有非重叠文本区域，那么在本申请中的四种像素点类别二值图中，只有第一种像素点类别二值图中是包括像素点的，剩余的三种像素点类别二值图中没有像素点，也就是本申请提供的文本检测方法不仅适用于包括四种像素点类别的像素点的文本图像，也适用于只有第一类像素点的文本图像，也适用于包括第一类和第二类像素点的文本图像，也适用于包括第一类、第二类和第三类像素点的文本图像，对此本申请实施例不做限制。

步骤104、从至少一个像素点类别二值图中确定基准像素点类别二值图，并计算基准像素点类别二值图对应的多个基准连通域。

以四种像素点类别二值图为例进行说明，本申请实施例是从四种像素点类别二值图中将第一种像素点类别二值图确定为基准像素点类别二值图，可以理解的是，一个待检测文本图像中包括有多个文本区域，文本区域可能重叠，也可能不重叠，如果一个待检测文本图像中只有非重叠区域，那么就只有第一种像素点类别二值图，也就是说第一种像素点类别二值图在每个待检测文本图像中是一定存在的，因此，将四种像素点类别二值图中的第一种像素点类别二值图确定为基准像素点类别二值图。

一个基准像素点类别二值图中包括有多个文本区域，计算基准像素点类别二值图的连通域，可以得到多个基准连通域。

步骤105、根据多个基准连通域和至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图，获得待检测文本图像的文本检测结果。

以四种像素点类别二值图为例进行说明，其中针对每个基准连通域，根据基准连通域和第二种到第四种像素点类别二值图，求取基准连通域对应的真实文本坐标，由此得到每个基准连通域的真实文本区域坐标。由于基准连通域是对第一种像素点类别二值图求取连通域得到的，若一个待检测文本图像中包括有100个文本区域，不管这100个文本区域是否有重叠，对第一种像素点类别二值图求取连通域必然会得到的100个基准连通域，剩余的第二种到第四种像素点类别二值图中的连通域或像素点坐标等信息均是与基准连通域有关联的，在得到每个基准连通域的真实文本区域坐标之后，可以根据真实文本区域坐标对文本图像中的文本区域进行复制或剪切等处理，获得待检测文本图像的文本检测结果。

根据本申请提供的文本检测方法，在进行文本检测时，是根据基准连通域和剩余的像素点类别二值图，求取待检测文本图像中每个真实文本区域的坐标，从而获得待检测文本图像的文本检测结果。对于待检测文本图像来说，存在文本相交的情况，此种情况下，文本所在区域的区域类型可被划分为各个文本的不相交区域和相交区域，而通过像素点类别概率图可明确标示像素点的区域类型；进而，基于真实文本二值图和像素点类别概率图可获得不同区域对应的像素点类别二值图；再基于从中确定的基准像素点二值的基准连通域与其它像素点类别二值图的关系，可确定相交区域与不相交区域的关系，由此区分出不同文本区域。通过本申请实施例的方案，无需反复卷积，也无需对特征映射图进行遍历并逐个进行框内是否存在文本的分类判定，减少了文本检测计算量，也节省了计算资源，提升了文本检测效率和速度。

此外，本申请实施例中提供的文本检测方法，若文本图像中包括两两文本区域重叠的文本区域，如图2B所示，则检测到的两个文本区域均是区域1+区域2，其中区域2的部分在两个文本区域中是一样的，也就是将重叠区域中的文本分配给两个重叠的文本区域。一种示例中，文本检测方法中先到先得，即将重叠区域中的文本分配给先处理的文本区域，那么另一个文本区域是不完整，与该示例的文本检测方法相比，本申请中的文本检测方法提高了得到文本区域的完整性。

实施例二、

可选的，在本申请的一种实施例中，步骤103还可以包括步骤103a和步骤103b。

步骤103a、根据至少一个像素点类别概率图，确定待检测文本图像中每个像素点的像素点类别。

以一个待检测文本图像中包括四种像素点类别的像素点为例进行说明，每一种像素点类别概率图表示待检测文本图像中每个像素点属于该类别的概率，示例的，待检测文本图像中包括200个像素点，第一种像素点类别概率图表示200个像素点属于第一类像素点的概率，也就是这200个像素点位于非重叠区域的概率。同样的，第二种至第四种像素点类别概率图分别表示200个像素点属于第二类至第四类像素点的概率。也就是说待检测文本图像中每个像素点是对应四个概率的，分别是属于第一类像素点概率、属于第二类像素点概率、属于第三类像素点概率、属于第四类像素点概率。因此需要先确定待检测文本图像中每个像素点的像素点类别。

可选的，将每个像素点在至少一个像素点类别概率图中概率最大的像素点类别，确定为每个像素点的像素点类别。

以一个待检测文本图像中包括四种像素点类别的像素点为例进行说明，像素点A对应四个概率，分别是属于第一类像素点的概率为0.3、属于第二类像素点的概率为0.3、属于第三类像素点的概率为0.5、属于第四类像素点的概率为0.8，本申请实施例将概率最大的像素点类别作为每个像素点的像素点类别，例如，将概率最大值0.8对应的第四种像素点类别作为像素点A的像素点类别。本申请实施例将每个像素点在至少一个像素点类别概率图中概率最大的像素点类别，确定为每个像素点的像素点类别，得到的每个像素点的像素点类别最大可能的代表该像素点所属文本区域类型，从而提高根据像素点类别划分得到不同像素点类别二值图的准确度。

步骤103b、根据每个像素点的像素点类别和真实文本二值图，生成不同像素点类别对应的像素点类别二值图。

以一个待检测文本图像中包括四种像素点类别的像素点为例进行说明，根据像素点类别对真实文本二值图进行划分，将像素点类别一致的像素点划分为一种像素点类别二值图，示例的，待检测文本图像中包括200个像素点，通过步骤103a，得到120个像素点属于第一类像素点，30个像素点属于第二类像素点，36个像素点属于第三类像素点，14个像素点属于第四类像素点，根据像素点类别对真实文本二值图进行划分，得到四个像素点类别二值图，其中第一种像素点类别二值图包括120个像素点，第二种像素点类别二值图包括30个像素点，第三种像素点类别二值图包括36个像素点，第四种像素点类别二值图包括14个像素点。

本申请实施例通过像素点类别概率图确定每个像素点的像素点类别，从而根据像素点类别对真实文本二值图进行划分得到的像素点类别二值图，像素点类别二值图中包括的像素点属于同一种像素点类别，也就是同一个文本区域类型，有利于后续根据像素点类别二值图获取真实文本区域坐标。

实施例三、

可选的，在本申请的一种实施例中，步骤105还可以包括步骤105a1-步骤105a3。

步骤105a1、分别对至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图求取连通域，得到至少一个待选连通域。

以四种像素点类别二值图为例进行说明，一个像素点类别二值图中包括有至少一个文本区域，对剩余的第二种到第四种像素点类别二值图均求取连通域，可以得到第二类到第四类连通域，将第二类到第四类连通域作为待选连通域，也就是至少一个连通域包括第二类连通域、第三类连通域和第四类连通域。步骤105a1中在求取至少一个待选连通域时，可以并行处理，也就是同时对四种像素点类别二值图中除去基准像素点类别二值图外的二值图求取连通域，节省时间，提高了求取待选连通域的速度和效率。

步骤105a2、针对每个基准连通域，根据基准连通域的像素点坐标和至少一个待选连通域的像素点坐标，确定真实文本区域坐标。

以四种连通域为例进行说明，基准连通域是第一类连通域中的任意一个连通域，本申请实施例根据基准连通域的像素点坐标和剩余的第二类到第四类连通域的像素点坐标，确定该基准连通域的真实文本区域坐标。

可选的，根据基准连通域的像素点坐标确定基准连通域对应的初始像素坐标点集合；将至少一个待选连通域中的每个待选连通域的像素点坐标依次加入初始像素坐标点集合中；根据加入像素点坐标后的初始像素坐标点集合中的像素坐标点的数量，确定真实文本区域坐标。

在根据基准连通域的像素点坐标确定基准连通域对应的初始像素坐标点集合时，一种可实现的方式中，可以直接将基准连通域中的像素点坐标形成初始像素坐标点集合；另一种可实现的方式中，可以直接将基准连通域的四条边的像素点坐标形成初始像素坐标点集合；再一种可实现的方式中，可以直接将基准连通域的每条边的像素点坐标形成初始像素坐标点集合；又一种可实现的方式中，对基准连通域的像素点坐标进行外扩或内缩等处理，根据处理后的像素点坐标形成初始像素坐标点集合，对此本申请实施例不做限制。可选的，在确定初始像素坐标点集合时，本申请实施例是基于基准连通域的四条边的像素点坐标，对基准连通域进行外扩；根据外扩后的基准连通域的像素点坐标，形成基准连通域对应的初始像素坐标点集合。

将基准连通域的上下左右四条边的像素点坐标依次向上下左右移动一个像素，也就是对基准连通域进行外扩，可以理解的是，也可以依次向上下左右移动两个或三个像素，在此，本申请实施例仅是以一个像素进行示例性说明，并不代表本申请实施例局限于此。在将基准连通域的四条边外扩之后，一种可实现的方式中，将外扩后的基准连通域的像素点坐标，作为基准连通域对应的初始像素坐标点集合；另一种可实现的方式中，将外扩后的基准连通域的四条边的像素点坐标，作为基准连通域对应的初始像素坐标点集合；再一种可实现的方式中，将外扩后的基准连通域的每条边的像素点坐标，作为基准连通域对应的初始像素坐标点集合。本申请实施例对基准连通域进行外扩，可以将基准连通域最边缘的像素点也考虑进来，以便在后续根据初始像素坐标点集合确定基准连通域的关联连通域时，使得找到基准连通域关联的连通域的更全面，提高基准连通域对应的真实连通域的准确性。

在得到初始像素坐标点集合后，将至少一个待选连通域中的每个待选连通域的像素点坐标依次加入初始像素坐标点集合中，以至少一个待选连通域包括第二类连通域、第三类连通域和第四类连通域为例进行说明，先将第二类连通域中的每个连通域的像素点坐标与初始像素坐标点集合进行合并操作，然后是第三类连通域，然后是第四类连通域，并且，每加入一个待选连通域的像素点坐标，对合并后的像素坐标点集合进行判断，判断加入的待选连通域是否为基准连通域的关联连通域。

可选的，在每加入一个待选连通域的像素点坐标后，根据加入像素点坐标后的初始像素坐标点集合中的像素坐标点的数量，判断加入的待选连通域是否为基准连通域的关联连通域；若为关联连通域，则将加入像素点坐标后的初始像素坐标点集合作为新集合，并根据新集合和剩余的待选连通域，确定真实文本区域坐标；或者，若不为关联连通域，则根据初始像素坐标点集合和剩余的待选连通域，确定真实文本区域坐标。

本申请实施例中，若为关联连通域，则将加入像素点坐标后的初始像素坐标点集合作为新集合，再从剩余的待选连通域中的任意一个待选连通域的像素点坐标加入新集合中，再次判断加入的待选连通域是否为基准连通域的关联连通域，从而确定出最终像素坐标点集合，该最终像素坐标点集合就是基准连通域对应的真实文本区域坐标。

可选的，在判断加入的待选连通域是否为基准连通域的关联连通域时，包括：若在加入待选连通域的像素点坐标后，初始像素坐标点集合中像素点坐标的数量，小于，加入前初始像素坐标点集合中像素点坐标的数量与加入的待选连通域的像素点坐标的数量之和，则确定加入的待选连通域是基准连通域的关联连通域；或者，若在加入待选连通域的像素点坐标后，初始像素坐标点集合中像素点坐标数量，等于，加入前初始像素坐标点集合中像素点坐标的数量与加入的待选连通域的像素点坐标的数量之和，则确定加入的待选连通域不是基准连通域的关联连通域。

以基准连通域A对应的初始像素坐标点集合包括10个像素点、待选连通域B的像素点坐标数量为20个为例进行说明，在加入待选连通域B的像素点坐标之前，初始像素坐标点集合与待选连通域B的像素点坐标数量之和为30，若在加入待选连通域B的像素点坐标后，初始像素坐标点集合中像素点坐标的数量为24个，小于30，说明基准连通域A和待选连通域B之间的像素点坐标有一部分是重复的，也就是待选连通域B与基准连通域A是连通的，待选连通域B是基准连通域A的关联连通域；若在加入待选连通域B的像素点坐标后，初始像素坐标点集合中像素点坐标的数量为30个，说明基准连通域A和待选连通域B之间的像素点坐标时没有重复的，也就是待选连通域B与基准连通域A是不连通的，待选连通域B不是基准连通域A的关联连通域。

需要说明的是，本申请实施例中在确定每个基准连通域的真实文本区域坐标时，均需要将基准连通域的像素点坐标和至少一个待选连通域的像素点坐标进行集合操作，也就是执行步骤105a2。

步骤105a3、根据真实文本区域坐标，获得待检测文本图像的文本检测结果。

在确定出每个基准连通域对应的真实文本区域坐标后，也就是得到待检测文本图像上的所有真实文本区域坐标，可以根据真实文本区域坐标对文本图像中的文本区域进行复制或剪切等其他处理，从而获得待检测文本图像的文本检测结果。

需要说明的是，在确定每个基准连通域的关联连通域时，可以是同时对多个基准连通域的关联连通域进行计算处理，也可以分开处理，或者按照每个基准连通域在基准二值图中的顺序对每个基准连通域的关联连通域进行计算处理，只要是对所有基准连通域的关联连通域进行计算处理，均在本申请的保护范围之内。

本申请实施例，在对至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图求取连通域时，可以同时处理得到至少一个待选连通域，节省时间，并且在确定基准连通域对应的真实文本区域坐标时，可以同时对多个基准连通域进行处理，确定每个基准连通域对应的真实文本区域坐标，节省时间，无需反复卷积，也无需对特征映射图进行遍历并逐个进行框内是否存在文本的分类判定，减少了文本检测计算量，也节省了计算资源，提升了文本检测效率和速度。

实施例四、

可选的，在本申请的一种实施例中，步骤105还可以包括步骤105b1-步骤105b3。

步骤105b1、根据多个基准连通域的坐标信息，对基准像素点类别二值图进行划分得到多个基准二值图。

以基准像素点类别二值图中包括m个基准连通域为例进行说明，根据m个基准连通域的坐标信息，对基准像素点类别二值图进行划分得到m个基准二值图，一个基准连通域单独对应一个基准二值图，也就是一个基准二值图上只有一个连通域。

步骤105b2、针对每个基准二值图，根据基准二值图和至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图，确定真实文本连通域。

以四种像素点类别二值图为例进行说明，基准二值图对应第一种像素点类别二值图，根据剩余的第二种到第四种像素点类别二值图和基准二值图确定基真实文本连通域，该真实文本连通域对应于基准二值图中的连通域，从而得到m个基准二值图的真实文本连通，也就是待检测文本图像中的所有真实文本连通。

可选的，在本申请的一种实施例中，将基准二值图，与至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图中的像素点依次相加，得到多个候选二值图；针对每个候选二值图，对候选二值图求取连通域，得到候选连通域；根据候选连通域与基准连通域是否相交的结果，确定真实文本连通域。

以四种像素点类别二值图为例进行说明，将基准二值图依次与剩余的第二种到第四种像素点类别二值图中的像素点逐点相加，也就是，先与第二种像素点类别二值图中的像素点逐点相加，再与第三种像素点类别二值图中的像素点逐点相加，最后与第四种像素点类别二值图中的像素点逐点相加，并且每加一次，得到一个候选二值图，对候选二值图求取连通域，得到候选连通域，判断候选连通域是否与基准连通域相交。

可选的，若候选连通域与基准连通域相交，则对候选连通域二值化，并将候选连通域对应的二值图，依次与剩余的像素点类别二值图中的像素点相加，直到确定真实文本连通域；或者，若候选连通域与基准连通域不相交，则将基准二值图，依次与剩余的像素点类别二值图中的像素点相加，直到确定真实文本连通域。

若候选连通域与基准连通域相交，则保留候选连通域，并对候选连通域二值化，继续与剩余的第二种到第四种像素点类别二值图中的像素点逐点相加，直到得到最终的完整连通域，若候选连通域与基准连通域不相交，则基准二值图继续与剩余的第二种到第四种像素点类别二值图中的像素点逐点相加，直到得到最终的完整连通域。

需要说明的是，本申请实施例中在确定每个基准二值图的真实文本区域坐标时，均需要将每个基准二值图和至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图中的像素点逐点相加，也就是执行步骤105b2。

步骤105b3、根据真实文本连通域确定真实文本区域坐标，获得待检测文本图像的文本检测结果。

本申请实施例还根据真实文本连通域确定该基准连通域的真实文本区域坐标，在确定出每个基准连通域对应的真实文本区域坐标后，也就是得到待检测文本图像上的所有真实文本区域坐标，可以根据真实文本区域坐标对文本图像中的文本区域进行复制或剪切等其他处理，从而获得待检测文本图像的文本检测结果。

在确定每个基准连通域的完整连通域时，可以是同时对多个基准二值图与第二种到第四种像素点类别二值图中的像素点进行计算处理，也可以分开处理，或者按照顺序进行处理，只要是对所有基准连通域的完整连通域进行计算处理，均在本申请的保护范围之内。

本申请实施例在根据基准二值图与第二种到第四种像素点类别二值图中的像素点确定每个基准连通域的完整连通域时，可以同时对多个基准连通域进行处理，确定每个基准连通域对应的真实文本区域坐标，节省时间，无需反复卷积，也无需对特征映射图进行遍历并逐个进行框内是否存在文本的分类判定，减少了文本检测计算量，也节省了计算资源，提升了文本检测效率和速度。

需要说明的是，实施例四和实施例三均是实施例一中步骤105的具体实现方式，实施例四与实施例三中的不同之处在于，实施例四中的文本检测方法中只对基准像素点类别二值图求取连通域，而实施例三中需要对基准像素点类别二值图以及剩余的像素点类别二值图求取连通域。实施例四和实施例三中均节省了时间，提高了文本检测的速度和效率。

实施例五、

可选的，在本申请的一种实施例中，步骤101可以包括步骤101a-步骤101d。

步骤101a、对待检测文本图像进行第一文本特征提取。

本申请实施例在对待检测文本图像进行特征提取时，是将待检测文本图像输入残差网络部分（如Resnet网络），进行第一文本特征的提取，对输入图像提取纹理、边缘、角点和语义信息等特征，这些特征由4组大小不同的多通道特征映射表征。

步骤101b、对第一文本特征的特征进行增强处理得到第二文本特征。

将第一步提取到的第一文本特征，经过两个特征金字塔增强模块（FeaturePyramid Enhancement Module，简称FPEM）模块，对特征进行增强处理，再次提取纹理、边缘、角点和语义信息等第二文本特征，并得到该第二文本特征对应的4组特征映射。

步骤101c、对第二文本特征进行上采样，并将上采样后的文本特征进行串联，得到串联后的特征。

将得到的4组特征映射的特征图大小全部上采样到原始图像1/4大小，并串联在一起，此处串联的含义是指将4组与原始图片1/4大小一样的特征映射，以通道为轴串在一起，举例来说，如果每组特征映射通道为512，则串联在一起之后得到一组特征映射，其通道数量为512。

步骤101d、将串联后的特征进行卷积操作，输出真实文本概率图和至少一个像素点类别概率图。

将串联后的特征映射进行一次卷积操作，两次反卷积操作，输出特征映射通道数为1，特征映射大小与原图大小一致的特征映射图，其表示真实文本概率图；将串联后的特征映射进行一次卷积操作，两次反卷积操作，输出特征映射通道数为n，其表示至少一个像素点类别概率图，n的数值依据像素点类别而定，特征映射大小与原图大小一致的特征映射图，其表示待检测文本图像中每个位置像素点属于各个不同区域类型的概率。

需要说明的是，相较于单个FPEM模块，两个FPEM模块可以达到最好的效果。每个FPEM模块的处理相同，包括：对得到的4组大小不同的多通道特征映射，按照从大到小的，从前往后的次序，依次称为正向第一、正向第二、正向第三、正向第四组特征映射，先对正向第四组特征映射进行2倍上采样，即将其大小扩大2倍，然后将其与正向第三组特征映射按照通道逐点相加，对结果进行一次深度可分离卷积操作之后，再进行一次卷积、批归一化和激活函数作用操作，得到的结果称为反向第二组特征映射，同样的操作用于反向第二组特征映射和正向第二组特征映射得到反向第三组特征映射，然后同样的操作作用于反向第三组特征映射和正向第一组特征映射，得到反向第四组特征映射，同时将正向第四组特征映射视为反向第一组特征映射，由此得到4组反向特征映射；将第四组反向特征映射作为目标第一组特征映射，然后对目标第一组特征映射进行2倍下采样，即大小缩小2倍，然后将其与反向第三组特征映射按通道逐点相加，对结果进行一次深度可分离卷积操作之后，再进行一次卷积、批归一化和激活函数作用操作，得到的结果称为目标第二组特征映射，同样的操作作用于目标第二组特征映射和反向第二组特征映射，得到目标第三组特征映射，然后同样的操作作用于目标第三组特征映射和反向第一组特征映射，得到目标第四组特征映射，目标第一、目标第二、目标第三和目标第四组特征映射便是FPEM模块的输出。第二个FPEM模块是以第一个FPEM模块的输出作为输入，进行同样的操作，得到输出。该输出中包括形成至少一个特征映射图的特征，或者说，输出的特征可以形成特征映射图。

实施例六、

可选的，在本申请的一种实施例中，在实现步骤101中的特征提取时，可以通过文本检测模型进行特征提取，示例的，将待检测文本图像输入文本检测模型，通过文本检测模型获得待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图。

本申请实施例在应用阶段时，通过训练好的文本检测模型获得待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图。而在训练阶段，还需要执行实施例五中的步骤101a-步骤101d，得到真实文本概率图和至少一个像素点类别概率图之后，对真实文本概率图和至少一个像素点类别概率图进行训练，从而得到训练好的文本检测模型。

可选的，本申请还包括对文本检测模型进行训练的过程，获取训练图像样本，并将图像样本输入文本检测模型；通过文本检测模型得到真实文本预测概率图和至少一个像素点类别预测概率图；根据真实文本预测概率图和预设的交并比损失函数，获得对应的第一损失值；且，根据至少一个像素点类别预测概率图和预设的多分类交叉熵函数，获得对应的第二损失值；根据第一损失值和第二损失值对文本检测模型进行训练。

本申请实施例是使用交并比值（DiceLoss）作为目标损失函数对表示真实文本区域概率图的1通道特征映射进行训练优化，计算1通道特征映射对应的第一损失值，从而根据第一损失值对文本检测模型进行训练。

其中，本申请实施例中的交并比损失函数的公式为：

，公式中的

指逐像素点预测区域分布中的第i个结果，

指文字区域的ground truth，ground truth表示文本图像中正确标注的文字区域的数据。

使用多分类交叉熵损失函数作为目标函数对表示像素点类别的n通道特征映射进行训练优化，计算n通道特征映射对应的第二损失值，从而根据第二损失值对文本检测模型进行训练。

进一步的，列举一个具体的示例对本申请实施例中对文本图像的文本检测进行说明，如图3所示，图3为本申请实施例提供的另一种文本检测方法的流程图，可以包括以下步骤：

步骤301、将待检测的文本图像输入Resnet18网络，进行第一文本特征提取。

步骤302、将提取到的第一文本特征，经过两个FPEM模块，再次提取第二文本特征，并得到该第二文本特征对应的4组特征映射。

步骤303、将步骤302得到的4组特征映射的特征图大小全部上采样到原始图像1/4大小，并串联在一起。

步骤304、将串联后的特征映射进行一次卷积操作，两次反卷积操作，输出特征映射通道数为1，特征映射大小与原图大小一致的特征映射图，表示真实文本概率图。

步骤305、将串联后的特征映射进行一次卷积操作，两次反卷积操作，输出特征映射通道数为n，其中n的数值依据像素点类别而定，特征映射大小与原图大小一致的特征映射图，表示每个位置像素点属于每种区域类型的概率。

步骤306、根据设定阈值，将真实文本概率图二值化，得到真实文本二值图。

步骤307、根据n通道像素点类别概率，取概率值最高的类别作为其对应位置像素点类别，得到每个位置像素点的像素点类别。

步骤308、根据像素点类别将真实文本二值图划分为n种像素点类别二值图，依次称为第一种像素点类别二值图、第二种像素点类别二值图、…、第n种像素点类别二值图。

步骤309、对n种像素点类别二值图求取连通域，得到第一类连通域、第二类连通域、…、第n类连通域。

步骤310、以步骤309求得的第一类连通域中的任意一个连通域作为基准连通域，将基准连通域的上下左右四边坐标依次向上下左右移动一个像素，然后，每条边依次与剩下n-1类连通域坐标进行集合操作。

步骤311、步骤310每次集合操作之后，如果集合内元素数量等于放入的两组坐标点数量，第一组是基准连通域的每条边的像素点坐标，第二组是放入的待选连通域的像素点坐标，那么这个加入的待选连通域和基准连通域不连通，舍弃，如果集合内元素数量小于放入的两组坐标点的数量，那么这个加入的待选连通域和基准连通域连通，保留这个加入的待选连通域坐标，找到和基准连通域连通的所有连通域，然后合并坐标，得到第一个基准连通域的真实文本区域坐标。

步骤312、第一种像素点类别二值图求得所有连通域可以并行的进行步骤310和步骤311的操作，得到整张图像上所有的真实文本区域。至此，文本图像检测完成。

由上述过程可见，通过本申请提供的文本检测方法，在对n种像素点类别二值图求取连通域时，可以同时处理得到第一到n类连通域，节省时间；并且在确定基准连通域对应的真实文本区域坐标时，可以同时对多个基准连通域进行处理，确定每个基准连通域对应的真实文本区域坐标，实现了对具有重叠文本区域的密集文本的有效检测，并且，相较于传统方式节省了时间，提高了检测速度和效率，具有更强的抗干扰能力。

实施例七、

本申请实施例提供了一种文本检测装置，如图4所示，图4为本申请实施例提供的一种文本检测装置，文本检测装置40包括：提取模块401、二值化模块402、生成模块403、计算模块404、结果获取模块405；

提取模块401用于对待检测文本图像进行特征提取，得到待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图，其中，像素点类别概率图用于指示待检测文本图像中的像素点属于各个不同区域类型的概率；

二值化模块402用于对真实文本概率图进行二值化得到真实文本二值图；

生成模块403用于根据真实文本二值图和至少一个像素点类别概率图，生成至少一个像素点类别二值图；

计算模块404用于从至少一个像素点类别二值图中确定基准像素点类别二值图，并计算基准像素点类别二值图对应的多个基准连通域；

结果获取模块405用于根据多个基准连通域和至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图，获得待检测文本图像的文本检测结果。

可选的，在本申请的一种实施例中，区域类型包括以下至少之一：非重叠文本区域、多个文本区域中两两重叠的区域、多个文本区域均重叠的区域。

可选的，在本申请的一种实施例中，生成模块403还用于根据至少一个像素点类别概率图，确定待检测文本图像中每个像素点的像素点类别；根据每个像素点的像素点类别和真实文本二值图，生成不同像素点类别对应的像素点类别二值图。

可选的，在本申请的一种实施例中，生成模块403还用于将每个像素点在至少一个像素点类别概率图中概率最大的像素点类别，确定为每个像素点的像素点类别。

可选的，在本申请的一种实施例中，结果获取模块405还用于分别对至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图求取连通域，得到至少一个待选连通域；针对每个基准连通域，根据基准连通域的像素点坐标和至少一个待选连通域的像素点坐标，确定真实文本区域坐标；根据真实文本区域坐标，获得待检测文本图像的文本检测结果。

可选的，在本申请的一种实施例中，结果获取模块405还用于根据基准连通域的像素点坐标确定基准连通域对应的初始像素坐标点集合；将至少一个待选连通域中的每个待选连通域的像素点坐标依次加入初始像素坐标点集合中；根据加入像素点坐标后的初始像素坐标点集合中的像素坐标点的数量，确定真实文本区域坐标。

可选的，在本申请的一种实施例中，结果获取模块405还用于在每加入一个待选连通域的像素点坐标后，根据加入像素点坐标后的初始像素坐标点集合中的像素坐标点的数量，判断加入的待选连通域是否为基准连通域的关联连通域；若为关联连通域，则将加入像素点坐标后的初始像素坐标点集合作为新集合，并根据新集合和剩余的待选连通域，确定真实文本区域坐标；或者，若不为关联连通域，则根据初始像素坐标点集合和剩余的待选连通域，确定真实文本区域坐标。

可选的，在本申请的一种实施例中，结果获取模块405还用于若在加入待选连通域的像素点坐标后，初始像素坐标点集合中像素点坐标的数量，小于，加入前初始像素坐标点集合中像素点坐标的数量与加入的待选连通域的像素点坐标的数量之和，则确定加入的待选连通域是基准连通域的关联连通域；或者，若在加入待选连通域的像素点坐标后，初始像素坐标点集合中像素点坐标数量，等于，加入前初始像素坐标点集合中像素点坐标的数量与加入的待选连通域的像素点坐标的数量之和，则确定加入的待选连通域不是基准连通域的关联连通域。

可选的，在本申请的一种实施例中，结果获取模块405还用于基于基准连通域的四条边的像素点坐标，对基准连通域进行外扩；根据外扩后的基准连通域的像素点坐标，形成基准连通域对应的初始像素坐标点集合。

可选的，在本申请的一种实施例中，结果获取模块405还用于根据多个基准连通域的坐标信息，对基准像素点类别二值图进行划分得到多个基准二值图；针对每个基准二值图，根据基准二值图和至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图，确定真实文本连通域；根据真实文本连通域确定真实文本区域坐标，获得待检测文本图像的文本检测结果。

可选的，在本申请的一种实施例中，结果获取模块405还用于将基准二值图，与至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图中的像素点依次相加，得到多个候选二值图；针对每个候选二值图，对候选二值图求取连通域，得到候选连通域；根据候选连通域与基准连通域是否相交的结果，确定真实文本连通域。

可选的，在本申请的一种实施例中，结果获取模块405还用于若候选连通域与基准连通域相交，则对候选连通域二值化，并将候选连通域对应的二值图，依次与剩余的像素点类别二值图中的像素点相加，直到确定真实文本连通域；或者，若候选连通域与基准连通域不相交，则将基准二值图，依次与剩余的像素点类别二值图中的像素点相加，直到确定真实文本连通域。

可选的，在本申请的一种实施例中，提取模块401还用于对待检测文本图像进行第一文本特征提取；对第一文本特征的特征进行增强处理得到第二文本特征；对第二文本特征进行上采样，并将上采样后的文本特征进行串联，得到串联后的特征；将串联后的特征进行卷积操作，输出真实文本概率图和至少一个像素点类别概率图。

可选的，在本申请的一种实施例中，提取模块401还用于将待检测文本图像输入文本检测模型，通过文本检测模型获得待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图。

可选的，在本申请的一种实施例中，文本检测装置40还包括训练模块，训练模块用于获取训练图像样本，并将图像样本输入文本检测模型；通过文本检测模型得到真实文本预测概率图和至少一个像素点类别预测概率图；根据真实文本预测概率图和预设的交并比损失函数，获得对应的第一损失值；且，根据至少一个像素点类别预测概率图和预设的多分类交叉熵函数，获得对应的第二损失值；根据第一损失值和第二损失值对文本检测模型进行训练。

本实施例的文本检测装置用于实现前述多个方法实施例中相应的文本检测方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的文本检测装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例八、

基于上述实施例一至实施例五描述的任一项文本检测方法，本申请实施例提供了一种电子设备，需要说明的，本实施例的文本检测方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端（如手机、PAD等）和PC机等。如图5所示，图5为本申请实施例提供的一种电子设备的结构图。本申请具体实施例并不对电子设备的具体实现做限定。该电子设备50可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它电子设备或服务器进行通信。

处理器502，用于执行计算机程序510，具体可以执行上述文本检测方法实施例中的相关步骤。

具体地，计算机程序510可以包括计算机程序代码，该计算机程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放计算机程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

计算机程序510具体可以用于使得处理器502执行以下操作：

对待检测文本图像进行特征提取，得到待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图，其中，像素点类别概率图用于指示待检测文本图像中的像素点属于各个不同区域类型的概率；

对真实文本概率图进行二值化，得到真实文本二值图；

根据真实文本二值图和至少一个像素点类别概率图，生成至少一个像素点类别二值图；

从至少一个像素点类别二值图中确定基准像素点类别二值图，并计算基准像素点类别二值图对应的多个基准连通域；

根据多个基准连通域和至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图，获得待检测文本图像的文本检测结果。

在一种可选的实施方式中，区域类型包括以下至少之一：非重叠文本区域、多个文本区域中两两重叠的区域、多个文本区域均重叠的区域。

可选的，在本申请的一种实施例中，计算机程序510还可以用于使得处理器502在根据真实文本二值图和至少一个像素点类别概率图，生成至少一个像素点类别二值图时，根据至少一个像素点类别概率图，确定待检测文本图像中每个像素点的像素点类别；根据每个像素点的像素点类别和真实文本二值图，生成不同像素点类别对应的像素点类别二值图。

可选的，在本申请的一种实施例中，计算机程序510还可以用于使得处理器502在根据至少一个像素点类别概率图，确定待检测文本图像中每个像素点的像素点类别时，将每个像素点在至少一个像素点类别概率图中概率最大的像素点类别，确定为每个像素点的像素点类别。

可选的，在本申请的一种实施例中，计算机程序510还可以用于使得处理器502在根据多个基准连通域和至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图，获得待检测文本图像的文本检测结果时，分别对至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图求取连通域，得到至少一个待选连通域；针对每个基准连通域，根据基准连通域的像素点坐标和至少一个待选连通域的像素点坐标，确定真实文本区域坐标；根据真实文本区域坐标，获得待检测文本图像的文本检测结果。

可选的，在本申请的一种实施例中，计算机程序510还可以用于使得处理器502在根据基准连通域的像素点坐标和至少一个待选连通域的像素点坐标，确定真实文本区域坐标时，根据基准连通域的像素点坐标确定基准连通域对应的初始像素坐标点集合；将至少一个待选连通域中的每个待选连通域的像素点坐标依次加入初始像素坐标点集合中；根据加入像素点坐标后的初始像素坐标点集合中的像素坐标点的数量，确定真实文本区域坐标。

可选的，在本申请的一种实施例中，计算机程序510还可以用于使得处理器502在根据加入像素点坐标后的初始像素坐标点集合中的像素坐标点的数量，确定真实文本区域坐标时，在每加入一个待选连通域的像素点坐标后，根据加入像素点坐标后的初始像素坐标点集合中的像素坐标点的数量，判断加入的待选连通域是否为基准连通域的关联连通域；若为关联连通域，则将加入像素点坐标后的初始像素坐标点集合作为新集合，并根据新集合和剩余的待选连通域，确定真实文本区域坐标；或者，若不为关联连通域，则根据初始像素坐标点集合和剩余的待选连通域，确定真实文本区域坐标。

可选的，在本申请的一种实施例中，计算机程序510还可以用于使得处理器502在判断加入的待选连通域是否为基准连通域的关联连通域时，若在加入待选连通域的像素点坐标后，初始像素坐标点集合中像素点坐标的数量，小于，加入前初始像素坐标点集合中像素点坐标的数量与加入的待选连通域的像素点坐标的数量之和，则确定加入的待选连通域是基准连通域的关联连通域；或者，若在加入待选连通域的像素点坐标后，初始像素坐标点集合中像素点坐标数量，等于，加入前初始像素坐标点集合中像素点坐标的数量与加入的待选连通域的像素点坐标的数量之和，则确定加入的待选连通域不是基准连通域的关联连通域。

可选的，在本申请的一种实施例中，计算机程序510还可以用于使得处理器502在根据基准连通域的像素点坐标确定基准连通域对应的初始像素坐标点集合时，基于基准连通域的四条边的像素点坐标，对基准连通域进行外扩；根据外扩后的基准连通域的像素点坐标，形成基准连通域对应的初始像素坐标点集合。

可选的，在本申请的一种实施例中，计算机程序510还可以用于使得处理器502在根据多个基准连通域和至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图，获得待检测文本图像的文本检测结果时，根据多个基准连通域的坐标信息，对基准像素点类别二值图进行划分得到多个基准二值图；针对每个基准二值图，根据基准二值图和至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图，确定真实文本连通域；根据真实文本连通域确定真实文本区域坐标，获得待检测文本图像的文本检测结果。

可选的，在本申请的一种实施例中，计算机程序510还可以用于使得处理器502在根据基准二值图，和至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图，确定真实文本连通域时，将基准二值图，与至少一个像素点类别二值图中除去基准像素点类别二值图外的二值图中的像素点依次相加，得到多个候选二值图；针对每个候选二值图，对候选二值图求取连通域，得到候选连通域；根据候选连通域与基准连通域是否相交的结果，确定真实文本连通域。

可选的，在本申请的一种实施例中，计算机程序510还可以用于使得处理器502在根据候选连通域与基准连通域是否相交的结果，确定真实文本连通域时，若候选连通域与基准连通域相交，则对候选连通域二值化，并将候选连通域对应的二值图，依次与剩余的像素点类别二值图中的像素点相加，直到确定真实文本连通域；或者，若候选连通域与基准连通域不相交，则将基准二值图，依次与剩余的像素点类别二值图中的像素点相加，直到确定真实文本连通域。

可选的，在本申请的一种实施例中，计算机程序510还可以用于使得处理器502在对待检测文本图像进行特征提取，得到待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图时，对待检测文本图像进行第一文本特征提取；对第一文本特征的特征进行增强处理得到第二文本特征；对第二文本特征进行上采样，并将上采样后的文本特征进行串联，得到串联后的特征；将串联后的特征进行卷积操作，输出真实文本概率图和至少一个像素点类别概率图。

可选的，在本申请的一种实施例中，计算机程序510还可以用于使得处理器502在对待检测文本图像进行特征提取，得到待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图时，将待检测文本图像输入文本检测模型，通过文本检测模型获得待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图。

可选的，在本申请的一种实施例中，计算机程序510还可以用于使得处理器502执行以下操作：获取训练图像样本，并将图像样本输入文本检测模型；通过文本检测模型得到真实文本预测概率图和至少一个像素点类别预测概率图；根据真实文本预测概率图和预设的交并比损失函数，获得对应的第一损失值；且，根据至少一个像素点类别预测概率图和预设的多分类交叉熵函数，获得对应的第二损失值；根据第一损失值和第二损失值对文本检测模型进行训练。

可以理解的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

实施例九、

基于上述实施例一至实施例五所描述的文本检测方法，本申请实施例提供了一种计算机存储介质，其存储有计算机程序，该计算机程序被处理器执行时实现如实施例一至实施例五所描述的文本检测方法。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的文本检测方法。此外，当通用计算机访问用于实现在此示出的文本检测方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的文本检测方法的专用计算机。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种文本检测方法，其特征在于，所述方法包括：

对待检测文本图像进行特征提取，得到所述待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图，其中，所述像素点类别概率图用于指示所述待检测文本图像中的像素点属于各个不同区域类型的概率，所述区域类型包括以下至少之一：非重叠文本区域和重叠文本区域；

对所述真实文本概率图进行二值化，得到真实文本二值图；

2.根据权利要求1所述的方法，其特征在于，所述重叠文本区域包括以下至少之一：多个文本区域中两两重叠的区域、多个文本区域均重叠的区域。

3.根据权利要求1所述的方法，其特征在于，根据所述真实文本二值图和所述至少一个像素点类别概率图，生成至少一个像素点类别二值图，包括：

根据所述至少一个像素点类别概率图，确定所述待检测文本图像中每个像素点的像素点类别；

根据所述每个像素点的像素点类别和所述真实文本二值图，生成不同像素点类别对应的像素点类别二值图。

4.根据权利要求3所述的方法，其特征在于，根据所述至少一个像素点类别概率图，确定所述待检测文本图像中每个像素点的像素点类别，包括：

将所述每个像素点在至少一个像素点类别概率图中概率最大的像素点类别，确定为所述每个像素点的像素点类别。

5.根据权利要求1所述的方法，其特征在于，根据所述多个基准连通域和所述至少一个像素点类别二值图中除去所述基准像素点类别二值图外的二值图，获得所述待检测文本图像的文本检测结果，包括：

分别对所述至少一个像素点类别二值图中除去所述基准像素点类别二值图外的二值图求取连通域，得到至少一个待选连通域；

针对每个所述基准连通域，根据所述基准连通域的像素点坐标和所述至少一个待选连通域的像素点坐标，确定真实文本区域坐标；

根据所述真实文本区域坐标，获得所述待检测文本图像的文本检测结果。

6.根据权利要求5所述的方法，其特征在于，根据基准连通域的像素点坐标和所述至少一个待选连通域的像素点坐标，确定真实文本区域坐标，包括：

根据所述基准连通域的像素点坐标确定所述基准连通域对应的初始像素坐标点集合；

将所述至少一个待选连通域中的每个待选连通域的像素点坐标依次加入所述初始像素坐标点集合中；

根据加入像素点坐标后的所述初始像素坐标点集合中的像素坐标点的数量，确定所述真实文本区域坐标。

7.根据权利要求6所述的方法，其特征在于，根据加入像素点坐标后的所述初始像素坐标点集合中的像素坐标点的数量，确定所述真实文本区域坐标，包括：

在每加入一个待选连通域的像素点坐标后，根据加入像素点坐标后的所述初始像素坐标点集合中的像素坐标点的数量，判断加入的待选连通域是否为所述基准连通域的关联连通域；

若为关联连通域，则将加入像素点坐标后的所述初始像素坐标点集合作为新集合，并根据所述新集合和剩余的待选连通域，确定真实文本区域坐标；

或者，若不为关联连通域，则根据所述初始像素坐标点集合和剩余的待选连通域，确定真实文本区域坐标。

8.根据权利要求7所述的方法，其特征在于，判断加入的待选连通域是否为所述基准连通域的关联连通域，包括：

若在加入待选连通域的像素点坐标后，所述初始像素坐标点集合中像素点坐标的数量小于加入前初始像素坐标点集合中像素点坐标的数量与加入的待选连通域的像素点坐标的数量之和，则确定所述加入的待选连通域是所述基准连通域的关联连通域；

或者，若在加入待选连通域的像素点坐标后，所述初始像素坐标点集合中像素点坐标数量等于加入前初始像素坐标点集合中像素点坐标的数量与加入的待选连通域的像素点坐标的数量之和，则确定所述加入的待选连通域不是所述基准连通域的关联连通域。

9.根据权利要求6所述的方法，其特征在于，根据所述基准连通域的像素点坐标确定所述基准连通域对应的初始像素坐标点集合，包括：

基于所述基准连通域的四条边的像素点坐标，对所述基准连通域进行外扩；

根据外扩后的基准连通域的像素点坐标，形成所述基准连通域对应的初始像素坐标点集合。

10.根据权利要求1所述的方法，其特征在于，根据所述多个基准连通域和所述至少一个像素点类别二值图中除去所述基准像素点类别二值图外的二值图，获得所述待检测文本图像的文本检测结果，包括：

根据所述多个基准连通域的坐标信息，对所述基准像素点类别二值图进行划分得到多个基准二值图；

针对每个所述基准二值图，根据所述基准二值图和所述至少一个像素点类别二值图中除去所述基准像素点类别二值图外的二值图，确定真实文本连通域；

根据所述真实文本连通域确定真实文本区域坐标，获得所述待检测文本图像的文本检测结果。

11.根据权利要求10所述的方法，其特征在于，根据所述基准二值图，和所述至少一个像素点类别二值图中除去所述基准像素点类别二值图外的二值图，确定真实文本连通域，包括：

将所述基准二值图，与所述至少一个像素点类别二值图中除去所述基准像素点类别二值图外的二值图中的像素点依次相加，得到多个候选二值图；

针对每个所述候选二值图，对所述候选二值图求取连通域，得到候选连通域；

根据所述候选连通域与所述基准连通域是否相交的结果，确定真实文本连通域。

12.根据权利要求11所述的方法，其特征在于，根据所述候选连通域与所述基准连通域是否相交的结果，确定真实文本连通域，包括：

若所述候选连通域与所述基准连通域相交，则对所述候选连通域二值化，并将所述候选连通域对应的二值图，依次与剩余的像素点类别二值图中的像素点相加，直到确定所述真实文本连通域；

或者，若候选连通域与所述基准连通域不相交，则将所述基准二值图，依次与剩余的像素点类别二值图中的像素点相加，直到确定所述真实文本连通域。

13.根据权利要求1所述的方法，其特征在于，对待检测文本图像进行特征提取，得到所述待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图，包括：

对所述待检测文本图像进行第一文本特征提取；

对所述第一文本特征的特征进行增强处理得到第二文本特征；

对所述第二文本特征进行上采样，并将上采样后的文本特征进行串联，得到串联后的特征；

将所述串联后的特征进行卷积操作，输出所述真实文本概率图和所述至少一个像素点类别概率图。

14.根据权利要求1所述的方法，其特征在于，对待检测文本图像进行特征提取，得到所述待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图，包括：

将所述待检测文本图像输入文本检测模型，通过所述文本检测模型获得所述待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图。

15.根据权利要求14所述的方法，其特征在于，所述方法还包括：

获取训练图像样本，并将所述图像样本输入文本检测模型；

通过所述文本检测模型得到真实文本预测概率图和至少一个像素点类别预测概率图；

根据所述真实文本预测概率图和预设的交并比损失函数，获得对应的第一损失值；且，根据所述至少一个像素点类别预测概率图和预设的多分类交叉熵函数，获得对应的第二损失值；

根据所述第一损失值和所述第二损失值对所述文本检测模型进行训练。

16.一种文本检测装置，其特征在于，所述装置包括：提取模块、二值化模块、生成模块、计算模块、结果获取模块；

所述提取模块用于对待检测文本图像进行特征提取，得到所述待检测文本图像对应的真实文本概率图和至少一个像素点类别概率图，其中，所述像素点类别概率图用于指示所述待检测文本图像中的像素点属于各个不同区域类型的概率，所述区域类型包括以下至少之一：非重叠文本区域和重叠文本区域；

17.一种电子设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一个可执行指令，所述可执行指令使所述处理器执行如权利要求1-15中任一项所述的文本检测方法对应的操作。

18.一种计算机存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-15中任一所述的文本检测方法。