CN111738233B

CN111738233B - 文本检测方法、电子设备及计算机可读介质

Info

Publication number: CN111738233B
Application number: CN202010786573.7A
Authority: CN
Inventors: 张子浩; 李兵; 杨家博
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-12-11
Anticipated expiration: 2040-08-07
Also published as: CN111738233A

Abstract

本发明实施例公开了一种文本检测方法、电子设备和计算机可读介质，其中，文本检测方法包括：对包含有文本的待检测图像进行文本检测，获取所述待检测图像中的多个文本预测框；从所述多个文本预测框中确定待合并的文本预测框；根据所述待合并的文本预测框的宽度与所述待检测图像的宽度之间的关系，对所述待合并的文本预测框中的文本预测框进行合并，获得合并框；根据所述合并框，确定所述待检测图像的文本检测结果。通过本发明实施例，确保了相应的文本预测框可得到合并，使得后续LANMS可以对文本预测框进行有效处理，实现对长文本的准确检测。

Description

文本检测方法、电子设备及计算机可读介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种文本检测方法、电子设备和计算机可读介质。

背景技术

文本检测是一种检测图像中的文本区域并标记其边界即文本框的技术，文本检测应用范围广泛，是很多计算机视觉任务的前置步骤，比如图像搜索、文字识别，身份认证和视觉导航等。随着机器学习技术的发展，越来越多的神经网络模型被广泛应用于文本检测中，EAST（Efficient and Accurate Scene Text）模型便是其中重要的一种。

EAST模型的模型结构通常包括：特征提取层、特征融合层和输出层。使用EAST模型进行文本检测包括两个阶段，即：全卷积网络阶段和NMS（Non-Maximum Suppression，非极大值抑制）阶段。其中，在全卷积网络阶段，采用特征提取层对检测图像进行特征提取，形成不同尺度的多个特征映射图；通过特征融合层基于多个特征映射图进行特征融合，形成融合特征图；而输出层则通过卷积操作，将融合特征图映射到1个通道的分数特征图和一个多通道的几何图形特征图。几何图形特征图可以表达检测图像中的多个预测文本边界，即文本预测框。但因文本预测框数量较多，需要进入NMS阶段，通过NMS算法对其进行处理，以获得最终的文本框。

上述检测过程的一个过程示例如图1所示，该示例中，EAST模型采用ResNet50为主干网络，并采用FPN（特征金字塔网络）结构进行特征提取。由图1中可见，检测图像输入ResNet50网络和FPN进行特征提取后，形成C1、C2、C3和C4四个尺度的特征映射图；接着，对这四个特征映射图进行特征融合，形成相应的融合特征图M1；然后，通过一个卷积层conv映射为一个分数特征图score map和一个几何图形特征图geometry map；进而，基于分数特征图score map和几何图形特征图geometry map，通过LANMS（局部感知NMS）对文本预测框进行抑制处理，并获得最终的文本框。

然而，上述EAST模型针对某些文本，如长文本却无法有效进行检测。这是因为，因较常规文本长度更长，所以一个长文本通常会被预测至多个文本预测框，但又因该多个文本预测框之间的IOU（Intersection over Union，交并比）较小，不能够被合并，由此使得LANMS不能对这多个文本预测框进行有效处理，导致不能准确地对长文本进行检测。

发明内容

本发明提供了一种文本检测方案，以至少部分解决上述问题。

根据本发明实施例的第一方面，提供了一种文本检测方法，包括：对包含有文本的待检测图像进行文本检测，获取所述待检测图像中的多个文本预测框；从所述多个文本预测框中确定待合并的文本预测框；根据所述待合并的文本预测框的宽度与所述待检测图像的宽度之间的关系，对所述待合并的文本预测框中的文本预测框进行合并，获得合并框；根据所述合并框，确定所述待检测图像的文本检测结果。

根据本发明实施例的第二方面，提供了一种电子设备，所述设备包括：一个或多个处理器；计算机可读介质，配置为存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的文本检测方法。

根据本发明实施例的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的文本检测方法。

根据本发明实施例提供的方案，在获得待检测图像中的文本预测框，并从中确定出待合并的文本预测框后，依据文本预测框的宽度与待检测图像的宽度之间的关系，来确定对文本预测框的合并方式，进而根据合并后的合并框获得最终的文本检测结果。一般来说，不同长度的文本与待检测图像的宽度的关系不同，文本越长其相对于待检测图像的宽度占比也就越大，反之，则越小。基于此，对于图像中的长文本来说，可以先将其对应的多个文本预测框进行适当合并，以确定出与该长文本最相适应的合并框，基于该合并框即可较为准确地检测出该长文本对应的文本框。由此，在进行文本预测框合并时，充分使用文本预测框与待检测图像的宽度的关系，而不单纯依赖于文本预测框之间的IOU，确保了相应的文本预测框可得到合并，使得后续LANMS可以对文本预测框进行有效处理，实现对长文本的准确检测。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为相关技术中的一种使用EAST模型进行文本检测的过程示意图；

图2为根据本发明实施例一的一种文本检测方法的步骤流程图；

图3A为根据本发明实施例二的一种文本检测方法的步骤流程图；

图3B为图3A所示实施例中的一种使用改进后的EAST模型进行文本检测的过程示意图；

图3C为图3A所示实施例中的一种LANMS的流程示意图；

图3D为图3A所示实施例中的一种合并框聚类的流程示意图；

图4为根据本发明实施例四的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅配置为解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

实施例一

参照图2，示出了根据本发明实施例一的一种文本检测方法的步骤流程图。

本实施例的文本检测方法包括以下步骤：

步骤S102：对包含有文本的待检测图像进行文本检测，获取待检测图像中的多个文本预测框。

本实施例中，对待检测图像的文本检测可采用任意适当的方式实现，包括但不限于使用神经网络模型如EAST模型进行文本检测的方式。

一般来说，在进行目标检测时通常会采用窗口滑动的方式，在待检测图像上生成很多的候选框，然后把这些候选框进行特征提取后送入分类器，得到每个候选框对应的分数。该方式对文本检测同样适用。基于此，本实施例中，对包含文本的待检测图像进行文本检测后，也会获得针对文本的多个候选框，即本实施例中的多个文本预测框。

步骤S104：从多个文本预测框中确定待合并的文本预测框。

在目标检测中，如果待检测图像中仅有一个目标对象，则需要对该目标对象的多个候选框进行合并；而若有多个目标对象，则需要分别对这些目标对象各自对应的多个候选框进行合并。类似地，在文本检测中，若待检测图像中仅存在一个文本，则该文本对应的多个文本预测框即为待合并的文本预测框；而若待检测图像中存在多个文本，则每个文本对应有相应的多个文本预测框待合并，此种情况下，本步骤中的待合并的文本预测框包括多个文本分别对应的待合并的文本预测框。

在实际应用中，可以通过文本预测框之间的IOU与预设IOU阈值的关系，来确定待合并的文本预测框。若两个文本预测框之间IOU较小或者为0，则表明这两个文本预测框可能用于框注不同的文本，则无需进行合并；否则，需要进行合并。其中，预设IOU阈值可由本领域技术人员根据实际需求适当设定，本发明实施例对此不作限制。

步骤S106：根据待合并的文本预测框的宽度与待检测图像的宽度之间的关系，对待合并的文本预测框中的文本预测框进行合并，获得合并框。

如前所述，文本检测中使用窗口滑动的方式生成文本对应的多个文本预测框。一般来说，窗口的设置可满足常规文本长度的需求。但对于长文本来说，却可能将一个长文本检测为两个或更多个文本，或者，仅能检测出长文本中的一部分。需要说明的是，本发明实施例中，在确定一个文本是否为长文本时，可根据文本的长度是否超过常规文本长度（通过大数据统计或一定数量的文本长度统计或经验值获得），或者，根据文本的字数是否超过预设字数来确定。此外，在一种可行方式中，还可以将在图像中文本长度超过图像宽或高一半以上的文本，确定为长文本。

针对单个文本及其对应的多个文本预测框，常规方式中，通常根据多个文本预测框的分数，选取分数最高的文本预测框作为基准框，再分别计算其它的文本预测框与分数最高的基准框的重合程度即IOU，如果重合程度大于一定阈值则删除，经多次迭代计算，最终的文本预测框将被作为该文本对应的文本框。但对于上述长文本的情况，若其被检测为两个或更多个文本，则通过上述IOU方式仍会出现一个长文本对应两个或更多个文本框的情况；而若该长文本仅有部分被检测到，则通过上述IOU方式获得的文本框也仍无法将长文本完全检测到。

基于此，本发明实施例中，使用了待检测图像的宽度作为文本预测框合并的依据。一般来说，长文本的长度相对于待检测图像会有更大的占比，同样地，长文本对应的文本预测框的宽度相对于待检测图像的宽度也会有更大的占比。据此，可以根据待合并的文本预测框的宽度与待检测图像的宽度之间的关系，来确定当前文本为常规长度文本还是长文本，进而采用相对应的方式来进行文本预测框合并。例如，对于长文本，可以多个文本预测框的最大边界来合并文本预测框，以避免合并后获得的合并框不能完全框住长文本。

步骤S108：根据所述合并框，确定待检测图像的文本检测结果。

通过上述结合文本预测框的宽度和待检测图像的宽度的处理，不管是常规长度的文本还是长文本，均可获得较为准确的合并框，最终确定的合并框即为文本的文本框。由此，可确定待检测图像的文本检测结果，即各个文本的文本框。

通过本实施例，在获得待检测图像中的文本预测框，并从中确定出待合并的文本预测框后，依据文本预测框的宽度与待检测图像的宽度之间的关系，来确定对文本预测框的合并方式，进而根据合并后的合并框获得最终的文本检测结果。一般来说，不同长度的文本与待检测图像的宽度的关系不同，文本越长其相对于待检测图像的宽度占比也就越大，反之，则越小。基于此，对于图像中的长文本来说，可以先将其对应的多个文本预测框进行适当合并，以确定出与该长文本最相适应的合并框，基于该合并框即可较为准确地检测出该长文本对应的文本框。由此，在进行文本预测框合并时，充分使用文本预测框与待检测图像的宽度的关系，而不再单纯依赖于文本预测框之间的IOU，确保了相应的文本预测框可得到合并，使得后续LANMS可以对文本预测框进行有效处理，实现对长文本的准确检测。

本实施例的文本检测方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、和PC机等。

实施例二

本实施例中，基于EAST模型，并对其检测流程进行改进后，对待检测图像进行文本检测，以实现本发明实施例的文本检测方案。

参照图3A，示出了根据本发明实施例二的一种文本检测方法的步骤流程图。本实施例的文本检测方法包括以下步骤：

步骤S202：对包含有文本的待检测图像进行文本检测，获取待检测图像中的多个文本预测框。

本实施例中，将包含有文本的待检测图像输入EAST模型进行文本检测，获得用于表征待检测图像中的多个文本预测框的几何图形特征图和分数特征图。

如前所述，EAST模型包括特征提取层、特征融合层和输出层，在一种可行方式中，可以将包含有文本的待检测图像输入EAST模型，依次经特征提取层进行特征提取，获得多个不同尺度的特征映射图；再将多个特征映射图输入特征融合层进行特征融合，获得融合特征图；通过输出层对融合特征图进行卷积，映射为几何图形特征图geometry map和分数特征图score map。

本实施例的另一可行方式中，对上述EAST模型进行了改进，如图3B所示，在进行特征融合时增加了空洞卷积ASPP部分。具体地，将包含有文本的待检测图像输入EAST模型，通过EAST模型的特征提取层对待检测图像进行特征提取，获取四通道的、不同尺度的特征映射图；对最低尺度的特征映射图进行空洞卷积，通过EAST模型的特征融合层对进行了空洞卷积后的特征映射图和所述四通道中的其它尺度的特征映射图进行特征融合，获取融合特征图；对融合特征图进行卷积，并映射为所述几何图形特征图和分数特征图。通过空洞卷积，可以增大EAST模型对大尺寸目标如长文本的感受野，以优化大目标或长文本的检测。

如图3B中所示，EAST模型采用ResNet50为主干网络，结合FPN结构进行特征提取，形成四个尺度的特征映射图，按尺度从高往低依次为C1、C2、C3和C4；接着，在对这四个特征映射图进行特征融合时，对最低尺度的C4进行空洞卷积后，再与C3、C2和C1进行特征融合，形成融合特征图M1。本实施例中，空洞卷积部分分别采用普通卷积、rate为6的空洞卷积和rate为12的空洞卷积，三个卷积层分别对C4特征映射图进行特征提取，获得3个特征映射图，将该3个特征映射图进行concat后，再进行3*3卷积，最后进行unpool和C3特征映射图进行合并，得到C3和C4合并后的特征映射图。然后，再将C3和C4合并后的特征映射图，与C2合并，得到C3、C4和C2合并后的特征映射图。再将C3、C4和C2合并后的特征映射图与C1合并，得到C3、C4、C2和C1合并后的特征映射图，即融合特征图M1。

在得到融合特征图M1后，如图3B中所示，通过一个卷积层conv映射为一个分数特征图score map和一个几何图形特征图geometry map。后续，可以基于该分数特征图scoremap和几何图形特征图geometry map，通过LANMS对文本预测框进行抑制处理，并获得最终的文本框。因本实施例中对LANMS进行了改进，因此，图3B中示意为LANMS++，以与原EAST模型使用的LANMS相区别。

步骤S204：从多个文本预测框中确定待合并的文本预测框。

如前所述，每个文本对应有多个文本预测框，当待检测图像中包括多个文本时，每个文本同样对应有多个文本预测框，这些需要进行合并的文本预测框均为待合并的文本预测框。

例如，若待检测图像中仅包含文本A，该文本A对应有A1、A2、A3三个文本预测框，则A1、A2、A3为待合并的文本预测框。若待检测图像中包含有文本A和B，文本A对应有A1、A2、A3三个文本预测框，文本B对应有B1、B2二个文本预测框，则{A1、A2、A3}和{B1、B2}均为待合并的文本预测框。在实际进行合并时，对待合并的文本预测框分别进行合并，如对{A1、A2、A3}和{B1、B2}分别进行合并。为便于说明，本实施例中仅以一个文本及其对应的文本预测框为示例，对文本预测框合并进行说明。但本领域技术人员应当明了的是，对于多个文本的情况，可参照本实施例对每个文本均同样执行本实施例的文本预测框合并即可。

步骤S206：根据待合并的文本预测框的宽度与待检测图像的宽度之间的关系，对待合并的文本预测框中的文本预测框进行合并，获得合并框。

在一种可行方式中，在进行文本预测框的合并时，可以先获取待合并的文本预测框的顶点坐标和预测框权重；根据所述顶点坐标和所述预测框权重，以及待合并的文本预测框的宽度与待检测图像的宽度之间的关系，对待合并的文本预测框中的文本预测框进行合并，获得合并框。通过这种方式，可有效提高长文本的检测精度。

当采用EAST模型进行文本检测时，可以根据EAST模型输出的几何图形特征图，获取待合并的文本预测框的顶点坐标；根据EAST模型输出的分数特征图，获取待合并的文本预测框的预测框权重。

在进行文本预测框合并时，通常是两两进行合并，为使得合并可针对不同宽度的文本预测框采用相适配的合并方式，取得较为准确的合并结果。本实施例中，根据所述顶点坐标和所述预测框权重，以及待合并的文本预测框的宽度与待检测图像的宽度之间的关系，对待合并的文本预测框中的文本预测框进行合并可以包括：从待合并的文本预测框中确定基准框，从除基准框外的其它文本预测框中选择与基准框进行合并的准合并框；根据基准框的顶点坐标和准合并框的顶点坐标，分别确定基准框的宽度和准合并框的宽度；若基准框的宽度和准合并框的宽度均小于预设宽度阈值，则按照第一合并规则，根据基准框的顶点坐标和准合并框的顶点坐标，以及，基准框的预测框权重和准合并框的预测框权重，对基准框和所述准合并框进行合并；若基准框的宽度和准合并框的宽度中，至少有一个大于预设宽度阈值，则按照第二合并规则，根据基准框的顶点坐标和准合并框的顶点坐标，以及，基准框的预测框权重和准合并框的预测框权重，对基准框和所述准合并框进行合并；其中，预设宽度阈值根据待检测图像的宽度设定。

其中，按照第一合并规则，根据基准框的顶点坐标和准合并框的顶点坐标，以及，基准框的预测框权重和准合并框的预测框权重，对基准框和准合并框进行合并可以包括：分别计算基准框的顶点坐标与基准框的预测框权重的第一乘积，准合并框的顶点坐标与准合并框的预测框权重的第二乘积，以及，基准框的预测框权重和准合并框的预测框权重的权重之和，根据第一乘积、第二乘积和所述权重之和，对基准框和准合并框进行合并。

而按照第二合并规则，根据基准框的顶点坐标和准合并框的顶点坐标，以及，基准框的预测框权重和准合并框的预测框权重，对基准框和准合并框进行合并可以包括：分别计算基准框和准合并框的左边界顶点坐标中的小值，与基准框和准合并框的预测框权重中的大值的第三乘积；计算基准框和准合并框的左边界顶点坐标中的大值，与基准框和准合并框的预测框权重中的小值的第四乘积；根据第三乘积和第四乘积，确定基准框和准合并框合并后的左边界顶点坐标；以及，分别计算基准框和准合并框的右边界顶点坐标中的小值，与基准框和准合并框的预测框权重中的小值的第五乘积；计算基准框和准合并框的右边界顶点坐标中的大值，与基准框和准合并框的预测框权重中的大值的第六乘积；根据第五乘积和第六乘积，确定基准框和准合并框合并后的右边界顶点坐标；根据所述左边界顶点坐标和所述右边界顶点坐标，对基准框和准合并框进行合并。

在一个具体示例中，根据待检测图像的宽度设定预设宽度阈值，例如，可将预设宽度阈值设定为待检测图像的宽度的一半，即0.5*待检测图像的宽度。当文本预测框大于该预设宽度阈值就认为其框注的文本为长文本，需要采用长文本合并，并且加强预测较好的文本预测框的权重。

以下，以一个示例对上述过程进行示例性说明，如图3C所示。该过程包括：

步骤A1：获取合并操作参数。

所述参数包括：（1）预测框集合S1，其为待合并的文本预测框的集合，其中包括步骤S204中确定的文本及该文本对应的待合并的文本预测框，以一个文本为例，设定其对应的待合并的文本预测框的数据为N，即，S1中包括N个待合并的文本预测框。（2）合并框集合S2，本示例中，S2不仅用于存放对N个待合并的文本预测框进行合并后的合并框，也存放无需进行合并的文本预测框。（3）合并框P，表示对N个待合并的文本预测框进行合并后的合并框。初始时，P=None。（4）计数值i，1<=i<N+1。

步骤B1：判定i<N+1是否成立；若是，则执行步骤C1；否则，执行步骤M1。

其中，i的初始值为1。

步骤C1：获取预测框集合S1中的第i个文本预测框，记作Q。

步骤D1：i++

计数值i自增1。

步骤E1：判断P是否为None，即，是否P==None。若是，则执行步骤F1；若否，则执行步骤G1。

P==None，表示没有合并框。

步骤F1：将P更新为Q。然后，返回步骤B1继续执行。

步骤G1：若P不为None，则计算Q和P的IOU。

步骤H1：判断IOU是否大于预设的IOU阈值threshold；若大于，则执行步骤I1；否则，执行步骤K1。

其中，threshold可由本领域技术人员根据实际情况适当设置，本实施例中设定为0.3。若大于该threshold，则表示P和Q需要合并；否则，表示不需要合并。

步骤I1：将P和Q进行合并，得到合并框C。

此时，可认为P为基准框，Q为准合并框。

其中，P和Q进行合并的具体方式可参照前述有关文本预测框的合并的相关描述实现，或者，可参照下述公式1-6及其描述实现。

步骤J1：将P更新为合并框C。然后，返回步骤B1。

步骤K1：将P添加到S2中。

步骤L1：将P更新为Q。然后，返回步骤B1。

步骤M1：若i<N+1不成立，则对集合S2进行fast LANMS。

也即，对预测框集合S1中的文本预测框都进行过合并处理后，对获得的合并框进行LANMS处理。本实施例中，因对传统的LANMS进行了改进，因此称为fast LANMS以进行区分。fast LANMS的实现可参照图3D中所示流程实现，在此不再详述。

但本领域技术人员应当明了的是，传统LANMS也同样可适用于本发明实施例的方案，以实现对合并框的处理。

以下，以待合并的两个文本预测框为示例，进行进一步说明。其中，对于待合并的多个文本预测框来说，初始时，可以score map中分数最高的文本预测框为基准框，然后，将其与其它待合并的文本预测框进行合并。

具体地，假设待合并的两个文本预测框为a、b，其中，a为基准框，b为准合并框。文本预测框a的回归点集合为{左上角坐标 (X1a,Y1a)、右上角坐标(X2a,Y2a)、右下角坐标(X3a，Y3a)、左下角坐标(X4a,Y4a)}，文本预测框b的回归点集合为{左上角坐标 (X1b，Y1b)、右上角坐标(X2b，Y2b)、右下角坐标(X3b，Y3b)、左下角坐标(X4b,Y4b)}。其中，待检测图像的宽度为W，预设宽度阈值为0.5*W。

当文本预测框a的宽度和文本预测框b的宽度均小于0.5*W时，采用下述公式1、公式2进行文本预测框合并，得到合并框c。

公式1：

公式2：

其中上述公式1-2中，Sa和Sb分别代表文本预测框a和b的分数，也即文本预测框对应的预测框权重。在使用EAST模型进行文本检测时，Sa和Sb可通过score map获得，即在score map中与geometry map中的文本预测框a和b对应的预测框的分数。

可见，对于常规长度的文本，通过上述公式1和2，将文本预测框a和文本预测框b的x值分别乘以其对应的权重即对应的分数，再相加；然后，除以两者分数的和，即可获得合并后的四个顶点坐标，以此为合并后获得的合并框的四个顶点坐标，即可实现文本预测框a和文本预测框b的合并。

反之，当文本预测框a的宽度和文本预测框b的宽度中任何一个大于0.5*W时，采用下述公式3、公式4、公式5、公式6进行文本预测框合并，得到合并框c。

公式3：

公式4：

公式5：

公式6：

可见，通过上述公式3-4，可分别获得合并后的四个顶点坐标，以此为合并后获得的合并框的四个顶点坐标，即可实现文本预测框a和文本预测框b的合并。

其中，上述公式3-6中，Sa和Sb分别代表文本预测框a和b的分数，也即文本预测框对应的预测框权重。在使用EAST模型进行文本检测时，Sa和Sb可通过score map获得，即在score map中与geometry map中的文本预测框a和b对应的预测框的分数。

可见，在针对长文本进行文本预测框的合并时，需要分别考虑左边界和右边界的合并策略。在具体合并时，将文本预测框更靠左边的坐标给予最大的权重，相对偏右的给予较小的权重，以此获得更好的左边界的预测。而对于右边界，则左边界相反，更靠右的坐标给予最大的权重，相对偏左的坐标给予较小的权重，以此获得更好的右边界的预测。

上述过程以两个文本预测框的合并为例，但本领域技术人员应当明了的是，在实际应用中，若某个文本对应的文本预测框有更多个，则均需要进行合并。此时，可以新合并获得的合并框为基准框，与其它文本预测框进行合并。该合并过程迭代进行，直至除当前合并框外，不再有其它的待合并的文本预测框。

通过上述过程，即可通过合并框对待检测图像中的各个文本进行较为准确的框注。

步骤S208：根据所述合并框，确定待检测图像的文本检测结果。

在得到合并框后，虽然可以采用EAST模型的传统方式，将得到的合并框全部送入StandardNMS进行筛选。但这种方式下，当实际的合并框较多时，筛选时间会呈线性增长，并且筛选后仍可能存在高度重合的框，导致进入NMS后时间复杂度变高。

为避免上述传统方式的问题，本实施例中，根据各个合并框之间的距离，对多个合并框进行聚类，获得多个合并框集合；针对多个合并框集合中的每个合并框集合，对每个合并框集合中的合并框进行非极大值抑制NMS处理，获得与多个合并框集合对应的多个NMS结果；对所述多个NMS结果再次进行NMS处理，根据处理结果确定待检测图像的文本检测结果。例如，可以采用快速聚类的方法将合并框进行聚类，将相似的合并框聚在一起；然后，获取K个聚类结果，将K个聚类结果中的每个合并框分别进行NMS，获得与K个聚类结果对应的K个NMS结果；最后，再将K个NMS结果再进行NMS，得到最终的文本框。

一种上述过程的示例性流程如图3D所示，该过程包括：

步骤A2：获取所有合并框。

步骤B2：对所有合并框进行聚类，获取K个聚类结果。

聚类时，可以根据每个合并框之间的距离，如每个合并框中心点的欧式距离来进行聚类。可选地，聚类阈值可以为10。

步骤C2：设定计数值i=0，聚类集合M。

其中，i为用于对K个聚类结果中的每个聚类结果的合并框进行NMS操作的计数值，0<= i <K。聚类集合M用于存储每个聚类结果的合并框进行NMS操作后的结果（仍为合并框）。

步骤D2：判断i<K是否成立，若是，执行步骤E2；若否，执行步骤G2。

步骤E2：对第i个聚类结果进行NMS处理，将处理结果存在聚类集合M中。

本实施例中，NMS处理为LANMS处理。对第i个聚类结果进行LANMS处理意味着对第i个聚类结果中的所有合并框进行LANMS处理，获得第i个聚类结果对应的最终的合并框。

步骤F2：i++，然后转D2继续执行。

即，i值自增1。

步骤G2：对聚类集合M进行NMS处理。

与前述类似，本步骤的NMS处理也为LANMS处理。在对每个聚类结果都进行LANMS处理后，将获得K个聚类结果对应的K个处理后的合并框。然后，再对这K个处理后的合并框再进行LANMS处理，即可获得最终的合并框，即对应的文本的文本框。

步骤S210：输出针对待检测图像的文本检测结果。

如，输出用于标注待检测图像中的文本的一个或多个文本框。

为验证本发明实施例提供的文本检测方案的效果，将本发明实施例的方案应用于ICDAR2015数据集上，经测试，与传统EAST模型进行文本检测相比，本发明实施例的方案在检测精度方面提高了约1.9个百分点、在召回率方面提高了约0.9个百分点，在F-score方面提高了约0.5个百分点。如下表1所示。

此外，在检测速度方面，与传统EAST模型进行文本检测相比，本发明实施例的方案在文本框有40个左右的图像中处理速度比传统EAST模型快10ms，提速45%。在文本框有100个以上的图像中，本发明实施例的方案处理速度为54ms，比传统EAST模型快了106ms，快了近66%。如下表2所示。

由上，通过本实施例，在获得待检测图像中的文本预测框，并从中确定出待合并的文本预测框后，依据文本预测框的宽度与待检测图像的宽度之间的关系，来确定对文本预测框的合并方式，进而根据合并后的合并框获得最终的文本检测结果。一般来说，不同长度的文本与待检测图像的宽度的关系不同，文本越长其相对于待检测图像的宽度占比也就越大，反之，则越小。基于此，对于图像中的长文本来说，可以先将其对应的多个文本预测框进行适当合并，以确定出与该长文本最相适应的合并框，基于该合并框即可较为准确地检测出该长文本对应的文本框。由此，在进行文本预测框合并时，充分使用文本预测框与待检测图像的宽度的关系，而不再单纯依赖于文本预测框之间的IOU，确保了相应的文本预测框可得到合并，使得后续LANMS可以对文本预测框进行有效处理，实现对长文本的准确检测。

实施例三

图4为本发明实施例三中电子设备的硬件结构，如图4所示，该电子设备可以包括：处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403、以及通信总线404。

其中：

处理器401、通信接口402、以及存储器403通过通信总线404完成相互间的通信。

通信接口402，用于与其它电子设备或服务器进行通信。

处理器401，用于执行程序405，具体可以执行上述文本检测方法实施例中的相关步骤。

具体地，程序405可以包括程序代码，该程序代码包括计算机操作指令。

处理器401可能是中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器403，用于存放程序405。存储器403可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序405具体可以用于使得处理器401执行以下操作：对包含有文本的待检测图像进行文本检测，获取所述待检测图像中的多个文本预测框；从所述多个文本预测框中确定待合并的文本预测框；根据所述待合并的文本预测框的宽度与所述待检测图像的宽度之间的关系，对所述待合并的文本预测框中的文本预测框进行合并，获得合并框；根据所述合并框，确定所述待检测图像的文本检测结果。

在一种可选的实施方式中，程序405还用于使得处理器401在根据所述待合并的文本预测框的宽度与所述待检测图像的宽度之间的关系，对所述待合并的文本预测框中的文本预测框进行合并，获得合并框时：获取待合并的文本预测框的顶点坐标和预测框权重；根据所述顶点坐标和所述预测框权重，以及所述待合并的文本预测框的宽度与所述待检测图像的宽度之间的关系，对所述待合并的文本预测框中的文本预测框进行合并，获得合并框。

在一种可选的实施方式中，程序405还用于使得处理器401在根据所述顶点坐标和所述预测框权重，以及所述待合并的文本预测框的宽度与所述待检测图像的宽度之间的关系，对所述待合并的文本预测框中的文本预测框进行合并时：从待合并的文本预测框中确定基准框，从除所述基准框外的其它文本预测框中选择与所述基准框进行合并的准合并框；根据所述基准框的顶点坐标和所述准合并框的顶点坐标，分别确定所述基准框的宽度和所述准合并框的宽度；若所述基准框的宽度和所述准合并框的宽度均小于预设宽度阈值，则按照第一合并规则，根据所述基准框的顶点坐标和所述准合并框的顶点坐标，以及，所述基准框的预测框权重和所述准合并框的预测框权重，对所述基准框和所述准合并框进行合并；若所述基准框的宽度和所述准合并框的宽度中，至少有一个大于所述预设宽度阈值，则按照第二合并规则，根据所述基准框的顶点坐标和所述准合并框的顶点坐标，以及，所述基准框的预测框权重和所述准合并框的预测框权重，对所述基准框和所述准合并框进行合并；其中，所述预设宽度阈值根据所述待检测图像的宽度设定。

在一种可选的实施方式中，程序405还用于使得处理器401在按照第一合并规则，根据所述基准框的顶点坐标和所述准合并框的顶点坐标，以及，所述基准框的预测框权重和所述准合并框的预测框权重，对所述基准框和所述准合并框进行合并时：分别计算所述基准框的顶点坐标与所述基准框的预测框权重的第一乘积，所述准合并框的顶点坐标与所述准合并框的预测框权重的第二乘积，以及，所述基准框的预测框权重和所述准合并框的预测框权重的权重之和，根据所述第一乘积、所述第二乘积和所述权重之和，对所述基准框和所述准合并框进行合并。

在一种可选的实施方式中，程序405还用于使得处理器401在按照第二合并规则，根据所述基准框的顶点坐标和所述准合并框的顶点坐标，以及，所述基准框的预测框权重和所述准合并框的预测框权重，对所述基准框和所述准合并框进行合并时：分别计算所述基准框和所述准合并框的左边界顶点坐标中的小值，与所述基准框和所述准合并框的预测框权重中的大值的第三乘积；计算所述基准框和所述准合并框的左边界顶点坐标中的大值，与所述基准框和所述准合并框的预测框权重中的小值的第四乘积；根据所述第三乘积和所述第四乘积，确定所述基准框和所述准合并框合并后的左边界顶点坐标；以及，分别计算所述基准框和所述准合并框的右边界顶点坐标中的小值，与所述基准框和所述准合并框的预测框权重中的小值的第五乘积；计算所述基准框和所述准合并框的右边界顶点坐标中的大值，与所述基准框和所述准合并框的预测框权重中的大值的第六乘积；根据所述第五乘积和所述第六乘积，确定所述基准框和所述准合并框合并后的右边界顶点坐标；根据所述左边界顶点坐标和所述右边界顶点坐标，对所述基准框和所述准合并框进行合并。

在一种可选的实施方式中，程序405还用于使得处理器401在根据所述合并框，确定所述待检测图像的文本检测结果时：根据各个合并框之间的距离，对多个合并框进行聚类，获得多个合并框集合；针对多个合并框集合中的每个合并框集合，对每个合并框集合中的合并框进行非极大值抑制NMS处理，获得与多个合并框集合对应的多个NMS结果；对所述多个NMS结果再次进行NMS处理，根据处理结果确定所述待检测图像的文本检测结果。

在一种可选的实施方式中，程序405还用于使得处理器401在对包含有文本的待检测图像进行文本检测，获取所述待检测图像中的多个文本预测框时：将包含有文本的待检测图像输入EAST模型进行文本检测，获得用于表征所述待检测图像中的多个文本预测框的几何图形特征图和分数特征图。

在一种可选的实施方式中，程序405还用于使得处理器401在将包含有文本的待检测图像输入EAST模型进行文本检测，获得用于表征所述待检测图像中的多个文本预测框的几何图形特征图和分数特征图时：将包含有文本的待检测图像输入EAST模型，通过所述EAST模型的特征提取层对所述待检测图像进行特征提取，获取四通道的、不同尺度的特征映射图；对最低尺度的特征映射图进行空洞卷积，通过所述EAST模型的特征融合层对进行了空洞卷积后的特征映射图和所述四通道中的其它尺度的特征映射图进行特征融合，获取融合特征图；对所述融合特征图进行卷积，并映射为所述几何图形特征图和分数特征图。

在一种可选的实施方式中，程序405还用于使得处理器401在获取待合并的文本预测框的顶点坐标和预测框权重时：根据所述几何图形特征图，获取待合并的文本预测框的顶点坐标；根据所述分数特征图，获取所述待合并的文本预测框的预测框权重。

程序405中各步骤的具体实现可以参见上述文本检测方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，在获得待检测图像中的文本预测框，并从中确定出待合并的文本预测框后，依据文本预测框的宽度与待检测图像的宽度之间的关系，来确定对文本预测框的合并方式，进而根据合并后的合并框获得最终的文本检测结果。一般来说，不同长度的文本与待检测图像的宽度的关系不同，文本越长其相对于待检测图像的宽度占比也就越大，反之，则越小。基于此，对于图像中的长文本来说，可以先将其对应的多个文本预测框进行适当合并，以确定出与该长文本最相适应的合并框，基于该合并框即可较为准确地检测出该长文本对应的文本框。由此，在进行文本预测框合并时，充分使用文本预测框与待检测图像的宽度的关系，而不再依赖于文本预测框之间的IOU，确保了相应的文本预测框可得到合并，使得后续LANMS可以对文本预测框进行有效处理，实现对长文本的准确检测。

需要说明的是，本发明实施例的多个实施例中虽然着重对待检测图像中的长文本的文本检测进行说明，但本领域技术人员应当明了的是，本发明实施例的文本检测方案对常规长度的文本也同样适用。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的文本检测方法。此外，当通用计算机访问用于实现在此示出的文本检测方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的文本检测方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种文本检测方法，其特征在于，包括：

对包含有文本的待检测图像进行文本检测，获取所述待检测图像中的多个文本预测框；

从所述多个文本预测框中确定待合并的文本预测框；

根据所述待合并的文本预测框的宽度与所述待检测图像的宽度之间的关系，对所述待合并的文本预测框中的文本预测框进行合并，获得合并框；

根据所述合并框，确定所述待检测图像的文本检测结果；

所述对包含有文本的待检测图像进行文本检测，获取所述待检测图像中的多个文本预测框，包括：

将包含有文本的待检测图像输入EAST模型，通过所述EAST模型的特征提取层对所述待检测图像进行特征提取，获取四通道的、不同尺度的特征映射图；对最低尺度的特征映射图进行空洞卷积，通过所述EAST模型的特征融合层对进行了空洞卷积后的特征映射图和所述四通道中的其它尺度的特征映射图进行特征融合，获取融合特征图；对所述融合特征图进行卷积，并映射为用于表征所述待检测图像中的多个文本预测框的几何图形特征图和分数特征图。

2.根据权利要求1所述的方法，其特征在于，所述根据所述待合并的文本预测框的宽度与所述待检测图像的宽度之间的关系，对所述待合并的文本预测框中的文本预测框进行合并，获得合并框，包括：

获取待合并的文本预测框的顶点坐标和预测框权重；

根据所述顶点坐标和所述预测框权重，以及所述待合并的文本预测框的宽度与所述待检测图像的宽度之间的关系，对所述待合并的文本预测框中的文本预测框进行合并，获得合并框。

3.根据权利要求2所述的方法，其特征在于，所述根据所述顶点坐标和所述预测框权重，以及所述待合并的文本预测框的宽度与所述待检测图像的宽度之间的关系，对所述待合并的文本预测框中的文本预测框进行合并，包括：

从待合并的文本预测框中确定基准框，从除所述基准框外的其它文本预测框中选择与所述基准框进行合并的准合并框；

根据所述基准框的顶点坐标和所述准合并框的顶点坐标，分别确定所述基准框的宽度和所述准合并框的宽度；

若所述基准框的宽度和所述准合并框的宽度均小于预设宽度阈值，则按照第一合并规则，根据所述基准框的顶点坐标和所述准合并框的顶点坐标，以及，所述基准框的预测框权重和所述准合并框的预测框权重，对所述基准框和所述准合并框进行合并；

若所述基准框的宽度和所述准合并框的宽度中，至少有一个大于所述预设宽度阈值，则按照第二合并规则，根据所述基准框的顶点坐标和所述准合并框的顶点坐标，以及，所述基准框的预测框权重和所述准合并框的预测框权重，对所述基准框和所述准合并框进行合并；

其中，所述预设宽度阈值根据所述待检测图像的宽度设定。

4.根据权利要求3所述的方法，其特征在于，所述按照第一合并规则，根据所述基准框的顶点坐标和所述准合并框的顶点坐标，以及，所述基准框的预测框权重和所述准合并框的预测框权重，对所述基准框和所述准合并框进行合并，包括：

分别计算所述基准框的顶点坐标与所述基准框的预测框权重的第一乘积，所述准合并框的顶点坐标与所述准合并框的预测框权重的第二乘积，以及，所述基准框的预测框权重和所述准合并框的预测框权重的权重之和，根据所述第一乘积、所述第二乘积和所述权重之和，对所述基准框和所述准合并框进行合并。

5.根据权利要求3所述的方法，其特征在于，所述按照第二合并规则，根据所述基准框的顶点坐标和所述准合并框的顶点坐标，以及，所述基准框的预测框权重和所述准合并框的预测框权重，对所述基准框和所述准合并框进行合并，包括：

分别计算所述基准框和所述准合并框的左边界顶点坐标中的小值，与所述基准框和所述准合并框的预测框权重中的大值的第三乘积；计算所述基准框和所述准合并框的左边界顶点坐标中的大值，与所述基准框和所述准合并框的预测框权重中的小值的第四乘积；根据所述第三乘积和所述第四乘积，确定所述基准框和所述准合并框合并后的左边界顶点坐标；

以及，

分别计算所述基准框和所述准合并框的右边界顶点坐标中的小值，与所述基准框和所述准合并框的预测框权重中的小值的第五乘积；计算所述基准框和所述准合并框的右边界顶点坐标中的大值，与所述基准框和所述准合并框的预测框权重中的大值的第六乘积；根据所述第五乘积和所述第六乘积，确定所述基准框和所述准合并框合并后的右边界顶点坐标；

根据所述左边界顶点坐标和所述右边界顶点坐标，对所述基准框和所述准合并框进行合并。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述根据所述合并框，确定所述待检测图像的文本检测结果，包括：

根据各个合并框之间的距离，对多个合并框进行聚类，获得多个合并框集合；

针对多个合并框集合中的每个合并框集合，对每个合并框集合中的合并框进行非极大值抑制NMS处理，获得与多个合并框集合对应的多个NMS结果；

对所述多个NMS结果再次进行NMS处理，根据处理结果确定所述待检测图像的文本检测结果。

7.根据权利要求2-5任一项所述的方法，其特征在于，所述获取待合并的文本预测框的顶点坐标和预测框权重，包括：

根据所述几何图形特征图，获取待合并的文本预测框的顶点坐标；

根据所述分数特征图，获取所述待合并的文本预测框的预测框权重。

8.一种电子设备，其特征在于，所述设备包括：

一个或多个处理器；

计算机可读介质，配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的文本检测方法。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的文本检测方法。