CN109948533B

CN109948533B - 一种文本检测方法、装置、设备及可读存储介质

Info

Publication number: CN109948533B
Application number: CN201910208074.7A
Authority: CN
Inventors: 毛钺铖; 王丹; 王光新; 韩涛; 宋腾飞; 贾若然; 李国玉; 谭昶
Original assignee: Iflytek Information Technology Co Ltd
Current assignee: Iflytek Information Technology Co Ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2021-02-09
Anticipated expiration: 2039-03-19
Also published as: CN109948533A

Abstract

本申请提供了一种文本检测方法、装置、设备及可读存储介质，方法包括：从待检测文本中获取文本框相关信息，文本框的相关信息至少包括四个顶点集，一顶点集对应一顶点类别；以三个有序顶点为一组生成候选文本框，获得候选文本框集，生成一候选文本框的三个有序顶点取自四个顶点集中的三个不同顶点集，且该三个有序顶点中的每个顶点在对应的候选文本框中所属的顶点类别与其所属的顶点集对应的顶点类别一致，且该三个有序顶点形成的夹角与预设角度的差值的绝对值小于预设角度阈值；从候选文本框集中确定待检测文本中文本行的目标文本框。本申请提供的文本检测方法具有较高的检测效率和检测准确度，检测效果较好。

Description

一种文本检测方法、装置、设备及可读存储介质

技术领域

本申请涉及信息检测技术领域，更具体地说，涉及一种文本检测方法、装置、设备及可读存储介质。

背景技术

光学字符识别是计算机视觉的子方向，其目标是从图像数据中识别出文字，并保存为计算机文本数据，光学字符识别通常包含两步操作，第一步为文本检测，第二步为识别，即，文本检测是识别的基础，即进行准确高效的文本检测是光学字符识别的关键，然而现有技术中并不存在效果较好的文本检测方案。

发明内容

有鉴于此，本申请提供了一种文本检测方法、装置、设备及可读存储介质，用以提供一种效果较好的文本检测方法，其技术方案如下：

一种文本检测方法，包括：

从待检测文本中获取文本框的相关信息，其中，所述文本框为所述待检测文本中文本行的边框，一文本框由四个顶点组成，每个顶点对应一顶点类别，所述文本框的相关信息至少包括四个顶点集，任一顶点集对应一顶点类别，其由多个文本框的顶点中属于同一顶点类别的顶点组成；

以三个有序顶点为一组生成候选文本框，获得候选文本框集，其中，生成一候选文本框的三个有序顶点取自所述四个顶点集中的三个不同顶点集，且该三个有序顶点中的每个顶点在对应的候选文本框中所属的顶点类别与其所属的顶点集对应的顶点类别一致，且该三个有序顶点形成的夹角与预设角度的差值的绝对值小于预设角度阈值；

从所述候选文本框集中确定所述待检测文本中文本行的目标文本框。

可选的，所述从待检测文本中获取文本框的相关信息，包括：

将待检测文本的图像输入预先建立的文本检测模型，获得文本检测结果，所述文本检测结果至少包括多个顶点框和每个顶点框对应的顶点类别，一个顶点框对应一顶点，一个顶点框对应的顶点类别为五种类别中的一种，其中，所述五种类别为组成文本框的四个顶点分别对应的类别以及背景类；

从所述多个顶点框中删除冗余顶点框和顶点类别为背景的顶点框，获得剩余顶点框；

基于剩余顶点框和所述剩余顶点框对应的顶点类别，将所述剩余顶点框对应的顶点组成所述四个顶点集。

可选的，所述以三个有序顶点为一组生成候选文本框，获得候选文本框集，包括：

基于组成文本框的四个顶点中任意三个相邻顶点的顶点类别以及该三个相邻顶点的位置关系，以三个顶点集为一组对所述四个顶点集合进行组合，获得四个顶点集组；

组合每个顶点集组中取自三个有序顶点集中的三个有序顶点生成候选文本框，获得所述候选文本框集。

可选的，所述组合每个顶点集组中取自三个有序顶点集中的三个有序顶点生成候选文本框，获得所述候选文本框集，包括：

从每个顶点集组中获取顶点组合，得到多个顶点组合，其中，从任一顶点集组中获取的任一顶点组合包括三个顶点，所述三个顶点取自该顶点集组中的三个顶点集，且每个顶点在该顶点组合中的位置与其对应的顶点集在该顶点集组中的位置相同；

从所述多个顶点组合中确定出有效的顶点组合，其中，一有效的顶点组合满足：基于该顶点组合形成的夹角与所述预设角度的差值的绝对值小于所述预设角度阈值；

基于所述有效的顶点组合生成候选文本框，获得所述候选文本框集，其中，一个有效的顶点组合生成一个候选文本框。

可选的，所述文本框的相关信息还包括：四个分数图，其中，任一分数图能够表征所述待检测文本的各个文本框进行田字形分后，相同位置的图像块中像素的得分；

所述从所述候选文本框集中确定所述待检测文本中文本行的目标文本框，包括：

针对所述候选文本框集中的任一候选文本框，将该候选文本框进行田字形分割，获得四个子块，基于所述四个分数图中、每个子块的分数图确定每个子块的分数，并通过每个子块的分数确定该候选文本框的分数，以得到所述候选文本框集中每个候选文本框的分数；

将所述候选文本框集中分数小于预设分数阈值的候选文本框删除，剩余的候选文本框组成的集合作为目标文本框集合；所述目标文本框集合中的文本框作为所述待检测文本中文本行的目标文本框。

可选的，基于所述四个分数图中、一个子块对应的分数图确定该子块的分数，包括：

确定该子块与其对应的分数图的交集区域；

从所述交集区域中获取多个连通域，并从所述多个连通域中确定出面积最大的连通域作为目标区域；

基于所述目标区域与其最小外接矩形的面积比，确定该子块所属的候选文本框是否为无效的文本框；

若该子块所属的候选文本框为有效的文本框，则基于所述目标区域的像素值和该子块的面积，确定该子块的分数；若该子块所属的候选文本框为无效的文本框，则将该子块所属的文本框删除。

可选的，所述文本检测方法还包括：

基于所述目标文本框集合中文本框的分数和面积，从所述目标文本框集合中删除冗余文本框，以使所述待检测文本中的一个文本行对应一个文本框；

删除冗余文本框后，剩余的文本框作为所述待检测文本中文本行的目标文本框。

可选的，所述基于所述目标文本框集合中文本框的分数和面积，从所述目标文本框集合中删除冗余文本框，包括：

基于所述目标文本框集合中文本框的分数，对所述目标文本框集合中的文本框进行降序排序，获得一有序文本框序列；

将所述有序文本框序列作为初始的目标文本框序列，按顺序从目标文本框序列中获取一未处理文本框，基于所述未处理文本框与其后的至少一个文本框的分数和面积，从所述未处理文本框和其后的文本框中确定出需要删除的文本框并删除，删除文本框后的有序文本框序列作为新的目标文本框序列，执行所述按顺序从所述目标文本框序列中获取一未处理文本框，直至目标文本框序列中没有需要处理的文本框；

最终保留下来的文本框为所述待检测文本中文本行的目标文本框。

可选的，所述基于所述未处理文本框与其后的至少一个文本框的分数和面积，从所述未处理文本框和其后的文本框中确定出需要删除的文本框并删除，包括：

依次遍历所述未处理文本框后的文本框：

在当前遍历到的文本框与所述未处理文本框满足第一条件时，确定所述未处理文本框为需要删除的文本框并删除，此次遍历结束，获得新的目标文本框序列；

在当前遍历到的文本框与所述未处理文本框不满足第一条件时，若当前遍历到的文本框与所述未处理文本框满足第二条件，则确定当前遍历到的文本框为需要删除的文本框并删除；若当前遍历到的文本框与所述未处理文本框不满足所述第二条件，则向后遍历下一个文本框，直至所有需要遍历的文本框遍历完，获得新的目标文本框序列；

其中，所述第一条件为所述未处理文本框与当前遍历到的文本框的分数差小于预设分数，且所述未处理文本框与当前遍历到的文本框的交集区域与所述未处理文本框的面积比大于第一面积比阈值，且，所述未处理文本框的面积小于当前遍历到的文本框的面积；所述第二条件为所述未处理文本框与当前遍历到的文本框的交小面积比大于第二面积比阈值。

确定所述未处理文本框与其后的各个文本框的目标值，基于所述未处理文本框与其后的各个文本框的目标值，从所述未处理文本框和其后的文本框中确定出需要删除的文本框并删除；

其中，两个文本框的目标值通过如下方式确定：

若两个文本框满足第一条件，则两个文本框的目标值为第一预设值，所述第一条件为两个文本框的坐标相同；

若两个文本框满足第二条件，则两个文本框的目标值为第二预设值，所述第二条件为两个文本框的交集的面积为0；

若两个文本框满足第三条件，则两个文本框的目标值为第三预设值，其中，所述第三条件为两个文本框的分数差的绝对值小于预设分数阈值，且两个文本框的交集与分数较大的文本框的面积比大于预设面积阈值，且分数较大的文本框的面积小于分数较小的文本框的面积；

若两个文本框不满足所述第一条件、所述第二条件和所述第三条件，则两个文本框的目标值为两个文本框的交小面积比。

一种文本检测装置，包括：信息获取模块、候选文本框获取模块和目标文本框确定模块；

所述信息获取模块，用于从待检测文本中获取文本框的相关信息，其中，所述文本框为所述待检测文本中文本行的边框，一文本框由四个顶点组成，每个顶点对应一顶点类别，所述文本框的相关信息至少包括四个顶点集，任一顶点集对应一顶点类别，其由多个文本框的顶点中属于同一顶点类别的顶点组成；

所述候选文本框获取模块，用于以三个有序顶点为一组生成候选文本框，获得候选文本框集，其中，生成一候选文本框的三个有序顶点取自所述四个顶点集中的三个不同顶点集，且该三个有序顶点中的每个顶点在对应的候选文本框中所属的顶点类别与其所属的顶点集对应的顶点类别一致，且该三个有序顶点形成的夹角与预设角度的差值的绝对值小于预设角度阈值；

所述目标文本框确定模块，用于从所述候选文本框集中确定所述待检测文本中文本行的目标文本框。

所述目标文本框确定模块包括：分数确定模块和文本框删除模块；

所述分数确定子模块，用于针对所述候选文本框集中的任一候选文本框，将该候选文本框进行田字形分割，获得四个子块，基于所述四个分数图中、每个子块的分数图确定每个子块的分数，并通过每个子块的分数确定该候选文本框的分数，以得到所述候选文本框集中每个候选文本框的分数；

所述文本框删除模块，用于将所述候选文本框集中分数小于预设分数阈值的候选文本框删除，剩余的候选文本框组成的集合作为目标文本框集合；所述目标文本框集合中的文本框作为所述待检测文本中文本行的目标文本框。

可选的，所述分数确定模块在基于所述四个分数图中、一个子块对应的分数图确定该子块的分数时，具体用于确定该子块与其对应的分数图的交集区域；从所述交集区域中获取多个连通域，并从所述多个连通域中确定出面积最大的连通域作为目标区域；基于所述目标区域与其最小外接矩形的面积比，确定该子块所属的候选文本框是否为无效的文本框；若该子块所属的候选文本框为有效的文本框，则基于所述目标区域的像素值和该子块的面积，确定该子块的分数；若该子块所属的候选文本框为无效的文本框，则将该子块所属的文本框删除。

可选的，所述文本检测装置还包括：冗余文本框删除模块；

所述冗余文本框删除模块，具体用于基于所述目标文本框集合中文本框的分数和面积，从所述目标文本框集合中删除冗余文本框，以使所述待检测文本中的一个文本行对应一个文本框；删除冗余文本框后，剩余的文本框作为所述待检测文本中文本行的目标文本框。

一种文本检测设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现所述文本检测方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现所述文本检测方法的各个步骤。

经由上述方案可知，本申请提供的文本检测方法、装置、设备及可读存储介质，首先从待检测文本中获取四类顶点组成的四个顶点集合，然后以取自四个顶点集中的三个不同顶点集的三个有序顶点为一组生成候选文本框，从而获得候选文本框集，最后从候选文本框集中确定出待检测文本中文本行的目标文本框。由此可见，本申请以取自三个顶点集中的三个有序顶点为一组生成候选文本框，由于三个顶点可生成夹角，而基于夹角可将明显不是文本框的四边形框滤除，从而获得数量较少且很可能为文本框的四边形框组成候选文本框集，进而能够提高候选文本框的后处理速度，且能提高文本框的检测准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的文本检测方法的流程示意图；

图2为本申请实施例提供的组成文本框的四个顶点的示意图；

图3为本申请实施例提供的由三个有序顶点组成四边形框的示意图；

图4为本申请实施例提供的由三个有序顶点所形成的夹角的示意图；

图5为本申请实施例提供的文本检测方法中，从待检测文本中获取文本框的相关信息的实现过程的流程示意图；

图6为本申请实施例提供的文本框的四个顶点框以及对文本框进行田字型分割的示意图；

图7为本申请实施例提供的文本检测方法中，以三个有序顶点为一组生成候选文本框，获得候选文本框集的流程示意图；

图8为本申请实施例提供的文本检测方法中，从候选文本框集中确定待检测文本中文本行的目标文本框的流程示意图；

图9为本申请实施例提供的跨行文本框的示意图；

图10为本申请实施例提供的文本检测方法中，基于目标文本框集合中文本框的分数和面积，从目标文本框集合中删除冗余文本框的实现方式的流程示意图；

图11为本申请实施例提供的文本检测方法中，基于目标文本框集合中文本框的分数和面积，从目标文本框集合中删除冗余文本框的一具体实例的流程示意图；

图12为本申请实施例提供的两个文本框的交小面积比的示意图；

图13为本申请实施例提供的文本检测装置的结构示意图；

图14为本申请实施例提供的文本检测设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了能够获得检测效果较好的文本检测方案，本案发明人进行了深入研究，最终提出了一种文本检测方法，请参阅图1，示出了该文本检测方法的流程示意图，可以包括：

步骤S101：从待检测文本中获取文本框的相关信息。

其中，待检测文本可以为多种语言的文本，比如中文文本、英文文本等。文本框为待检测文本中文本行的边框，需要说明的是，文本检测的目的在于从待检测文本中检测出文本行，而一文本框是将一文本行框起来的边框，因此，检测出文本框相当于检测出了文本行。

如图2所示，一文本行的文本框由四个顶点组成，四个顶点分别为文本框的左上方顶点、右上方顶点、右下方顶点和左下方顶点。鉴于组成文本框的每个顶点对应一顶点类别，本实施例中文本框的相关信息至少包括四个顶点集，每一顶点集对应一顶点类别，一个顶点集由多个文本框的顶点中属于同一顶点类别的顶点组成，即待检测文本的多个文本框(一个文本行对应一文本框，此处的多个文本框可以为待检测文本中部分文本行的文本框或者所有文本行的文本框)的所有左上方顶点组成一个顶点集、所有右上方顶点组成一个顶点集、所有右下方顶点组成一个顶点集、以及所有左下方顶点组成一个顶点集。

步骤S102：以三个有序顶点为一组生成候选文本框，获得候选文本框集。

其中，对于任一候选文本框而言，生成该候选文本框的三个有序顶点取自四个顶点集中的三个不同顶点集，且该三个有序顶点中的每个顶点在对应的候选文本框中所属的顶点类别与其所属的顶点集对应的顶点类别一致，并且该三个有序顶点形成的夹角与预设角度的差值的绝对值小于预设角度阈值。

假设四个顶点集合分别为S0、S1、S2和S3，其中，S0对应的顶点类别为“左上”，S1对应的顶点类别为“右上”，S2对应的顶点类别为“右下”，S3对应的顶点类别为“左下”，假设三个有序顶点为s0、s1、s2，如图3所示，在由三个有序顶点为s0、s1、s2组成的四边形框中，s0位于四边形框的左上方，即其对应的顶点类别为“左上”，s1位于四边形框的右上方，即其对应的顶点类别为“右上”，s2位于四边形框的右下方，即其对应的顶点类别为“右下”，若顶点s0取自S0，顶点s1取自S1，顶点s2取自S2，则表明三个有序顶点中的每个顶点在对应的四边形框中所属的顶点类别与其所属的顶点集对应的顶点类别一致。若顶点s0取自S3，顶点s1取自S1，顶点s2取自S2，则在基于三个有序顶点为s0、s1、s2组成的四边形框中，s0位于四边形框的左上方，即其在该四边形框中对应的顶点类别为“左上”，而由于其来自S3，即其真正的顶点类别为“左下”，因此，基于三个有序顶点为s0、s1、s2组成的四边形框为无效的文本框。

可以理解的是，三个有序顶点可形成一夹角，请参阅图4，示出了由三个有序顶点s0、s1、s2所形成的夹角的示意图，文本框的夹角通常为90度或接近90度，若三个有序顶点形成的夹角与90度偏差很大，则基于这三个有序顶点生成的文本框必然是无效的文本框，相应的，这三个有序顶点组成的顶点组合为无效的顶点组合，基于此，本实施例通过判断基于三个有序顶点形成的夹角与预设角度(90度)的差值的绝对值是否小于预设角度阈值(如5度～10度中的任一角度)来确定三个有序顶点形成的夹角是否为90度或接近90度，若三个有序顶点形成的夹角为90度或接近90度，则表明该三个有序顶点为有效的顶点组合，则基于该三个有序顶点生成候选文本框，即本实施例中的候选文本框均是基于有效的顶点组合生成。

需要说明的是，本申请以三个有序顶点为一组生成候选文本框，由于三个顶点可形成文本框的一个夹角，而文本框的夹角通常为90度或接近90度，因此，通过夹角可过滤掉大量明显不能生成有效文本框的顶点组合，相当于将明显不是文本框的四边形框滤除，从而获得数量较少的候选文本框，以提高后续处理过程的处理速度。

步骤S103：从候选文本框集中确定待检测文本中文本行的目标文本框。

待检测文本中的文本行可以为一行，也可以为多行，待检测文本中的待检测文本行可以为待检测文本中的全部文本行，也可以为部分文本行，经过步骤S103，可获得待检测文本中每个待检测文本行的目标文本框。

本申请实施例提供的文本检测方法，首先从待检测文本中获取四类顶点组成的四个顶点集合，然后以取自四个顶点集中的三个不同顶点集的三个有序顶点为一组生成候选文本框，从而获得候选文本框集，最后从候选文本框集中确定出待检测文本中文本行的目标文本框。由此可见，本申请实施例以取自三个顶点集中的三个有序顶点为一组生成候选文本框，由于三个顶点可生成夹角，基于夹角可将明显不是文本框的四边形框滤除，从而获得数量较少且很可能为文本框的四边形框组成候选文本框集，对数量较少的候选文本框进行处理，将大大提高处理速率且能提高文本框的检测准确率。

在本申请的另一实施例中，对上述实施例中的“步骤S101：从待检测文本中获取文本框的相关信息”进行介绍。

请参阅图5，示出了从待检测文本中获取文本框的相关信息的实现过程的流程示意图，可以包括：

步骤S501：将待检测文本的图像输入预先建立的文本检测模型，获得文本检测结果。

其中，文本检测结果至少包括多个顶点框和每个顶点框对应的顶点类别，一个顶点框对应一顶点，一个顶点框对应的顶点的坐标为该顶点框的中心点的坐标，一个顶点框对应的顶点类别为五种类别中的一种，其中，五种类别为组成文本框的四个顶点分别对应的类别(比如左上、右上、右下、左下)以及背景类。

步骤S502：从多个顶点框中删除冗余顶点框和顶点类别为背景的顶点框，获得剩余顶点框。

其中，冗余顶点框为属于同一顶点类别的顶点框中距离比较近的顶点。

步骤S503：基于剩余顶点框以及剩余顶点框对应的顶点类别，将剩余顶点框对应的顶点组成四个顶点集。

对于剩余顶点框中的每个顶点框可获得一顶点(顶点框的中心即为顶点)，顶点对应的顶点类别即为对应顶点框对应的顶点类别，将属于同一顶点类别的顶点组成一个顶点集合，如此可获得四个顶点集合。

以下对建立文本检测模型的过程进行介绍。

首先对文本检测模型的拓扑结构进行介绍，本实施例中的文本检测模型可以包括顶点信息确定模块，还可以包括分数图确定模块。

其中，顶点信息确定模块可以为DSSD(Deconvolutional Single Shot Detector)网络，其可包括两个分支，分别为分类分支和回归分支。其中，分类分支用于预测顶点的类别，顶点的类别包括背景类以及组成文本框的四个顶点分别对应的类别(左上、右上、右下、左下)，5个类别可分别用0、1、2、3、4表示；回归分支用于得到表征顶点的顶点框(顶点框可以为正方形)在图像空间标准化后左上和右下顶点坐标。分类分支训练时使用OHEM(OnlineHard Example Mining)在线提取困难负例样本进行训练，使得正负样本比例为预设比例(比如1:3)，特征提取网络可以为VGG16。

其中，分数图确定模块可以为CLRS中的分割分支，其对DSSD的多个尺度层特征图进行融合并放大，用于预测文本框分数图。

本实施例中的文本检测模型采用标注有文本框的训练样本训练得到，标注的文本框通常用四点八值表示，即(x₀,y₀),(x₁,y₁),(x₂,y₂),(x₃,y₃)，其中，x_i和y_i分别表示第i个顶点在图像空间的横坐标值和纵坐标值。

由于标注数据的数据量比较大，因此，可能会有标注错误的情况，为了能够获得质量较好的标注数据，可先对标注数据进行预处理，具体的，对坐标值为负数的值进行剪裁，使其不小于零，然后将组成文本框的四个顶点进行顺时针初步排序，利用式(1)对排序后的坐标计算面积，以检查文本框的有效性：

其中，n为多边形顶点数量，本实施例中n＝4，A为有符号面积。在图像坐标系中，面积A为负数，则表示顶点是按照顺时针排列，即为有效，反之，面积为正数，则表示顶点是按照逆时针排列，即为无效，将无效数据滤除。另外，对于面积值特别小的框也予以过滤。

为了扩大训练集的样本空间，本实施例可对训练集进行数据增强，训练样本通常为RGB三通道彩色图像，对训练样本进行随机裁剪，然后对裁剪后的图片块进行旋转变换，旋转范围可以为[-180°,180°]，任意角度旋转操作使得文本检测模型可以学习检测任意角度的文本，但对于复杂场景会增加训练难度，可使用公式(2)对上述预处理后的坐标进行更新：

由于一个顶点实际包含信息量很小，仅仅只有一个像素，如果直接预测顶点坐标，顶点可能被模型当作噪点，有鉴于此，本实施例预测以顶点为中心的正方形框，即预测顶点框，并使用其四分分割图来对模型预测的候选框进行计分，文本框被切割成上下左右四个小块，形似“田”字，每个小块内部使用填充值1分别填充到初始值为0的掩膜板。如图6所示，图中的600为文本框，601～604为模型预测的顶点框，文本检测模型的分割分支预测四个分数图，一分数图能够表征输入文本中的文本框进行田字形分割后，位于相同位置的小块中像素的得分，即四个分数图分别表征所有文本框的左上方小块中像素的得分、右上方小块中像素的得分、右下方小块中像素的得分、左下方小块中像素的得分。

每个真实框的坐标经过上述的预处理后均为顺时针排列，然后为排列后的顶点按顺序给予一个类别标签，这里默认训练样本中的文字都是方向朝上，在图像空间坐标系内，一个文本框的四个顶点中，与坐标系原点(0，0)构成的四个向量中，欧式范数(Euclideannorm)最小的顶点的类别标签为1，按照顺时针方向，其它顶点的类别标签分别为2、3、4，标签0用于表示背景类，由于本实施例进行5分类，因此，对于每个DSSD而言，一个文本框的每个像素在分类分支需5个通道，在回归分支需4个通道，对于k个文本框而言，每个像素在分类分支需要k*5个通道，在回归分支需要k*4个通道。

在本实施例中，训练文本检测模型时使用的损失函数有三个：

其一，用于上述分类分支的softmax cross entropy函数，如下式(3)：

式(3)中的

通过下式(4)确定：

其中，x_i为分类分支输出的一个节点的值，由于本实施例中分类分支执行的是5分类任务，因此，i的取值为0～4，或者为1～5，

为softmax计算后的概率预测值，p_i为真实标注的one-hot编码值。

其二，用于上述回归分支的平滑L1函数，如下式(5)：

其中，y和y^*分别为回归分支的真实值和预测值，x为y-y^*或y^*-y。

其三，用于上述分割分支的dice loss函数，如下式(6)：

其中，S和S^*分别为真实的分数图和分割分支预测的分数图，其是一个与待检测图像尺寸相同的图像，真实的分数图中每个像素的取值为0或1，分割分支预测的分数图中每个像素的取值范围为0～1。

将上述的三个损失函数L_cls、L_reg和L_scr加权求和得最终的目标函数，如下式(7)：

其中，N为正样本的数量，λ₁、λ₂和λ₃为权重系数，其取值可均为1。

本实施例在对文本检测模型进行训练时，可采用Adam优化器进行反向传播更新模型的参数。

在本申请的另一实施例中，对上述实施例中的“步骤S102：以三个有序顶点为一组生成候选文本框，获得候选文本框集”进行介绍。

请参阅图7，示出了以三个有序顶点为一组生成候选文本框，获得候选文本框集的实现过程的流程示意图，可以包括：

步骤S701：基于组成文本框的四个顶点中任意三个相邻顶点的顶点类别以及该三个相邻顶点的位置关系，以三个顶点集为一组对四个顶点集合进行组合，获得四个顶点集组。

请参阅图2，以组成文本框的四个顶点中的三个相邻且有序的顶点为一组进行组合，可获得四个有序顶点组合，分别为：左上顶点-右上顶点-右下顶点、右上顶点-右下顶点-左下顶点、右下顶点-左下顶点-左上顶点、左下顶点-左上顶点-右上顶点，基于这四个顶点组合，对四个顶点集进行组合，假设四个顶点集分别为S0、S1、S2和S3，其中，S0对应的顶点类别为“左上”、S1对应的顶点类别为“右上”、S2对应的顶点类别为“右下”，S3对应的顶点类别为“左下”，则基于每个顶点组合中所包含的顶点的类别以及三个类型的顶点的顺序，将四个顶点集进行有序组合，可获得四个顶点集组，分别为：S0-S1-S2、S1-S2-S3、S2-S3-S0、S3-S0-S1。

步骤S702：组合每个顶点集组中取自三个有序顶点集中的三个有序顶点生成候选文本框，获得候选文本框集。

具体的，组合每个顶点集组中取自三个有序顶点集中的三个有序顶点生成候选文本框，获得候选文本框集的实现过程可以包括：

步骤S7021：从每个顶点集组中获取顶点组合，得到多个顶点组合。

其中，从任一顶点集组中获取的任一顶点组合包括三个顶点，三个顶点取自该顶点集组中的三个顶点集，且每个顶点在该顶点组合中的位置与其对应的顶点集在该顶点集组中的位置相同。

示例性的，对于一顶点集组S0-S1-S2而言，假设从S0中取一顶点v0，从S1中取一顶点v1，从S2中取一顶点v2，则将v0、v1和v2组成一个顶点组合v0-v1-v2，即，在该顶点组合中，三个顶点分别来自三个顶点集S0、S1、S2，且三个顶点的顺序依次为v0、v1、v2。

在一种可能的实现方式中，可采用笛卡尔乘积对四个顶点集组中的顶点进行组合：

Si×Sj×Sk＝{(v0，v1，v2)|v0∈Si∧v1∈Sj∧v2∈Sk} (8)

其中，v0为Si中的顶点，v1为Sj中的顶点，v2为Sk中的顶点，i-j-k的取值为0-1-2、1-2-3、2-3-0、3-0-1中的任意一种。

步骤S7022：从多个顶点组合中确定出有效的顶点组合。

其中，一个有效的顶点组合满足：基于该顶点组合形成的夹角与预设角度的差值的绝对值小于预设角度阈值。

本实施例针对多个顶点组合中的任一顶点组合，通过判断基于该顶点组合形成的夹角与预设角度(比如90度)的差值的绝对值是否小于预设角度阈值(比如5度～10度中的任一角度)来确定该顶点组合是否为有效的顶点组合，若该顶点为有效的顶点组合，则保留，若该顶点组合为无效的顶点组合，则基于该顶点组合生成的文本框必然为无效文本框，为了避免生成无效文本框量，浪费后续的计算资源，将无效的顶点组合删除。本实施例通过该步骤将明显无法生成有效文本框的顶点组合滤除，以降低后续的数据处理量，提高后续的数据处理速度。

步骤S7023：基于确定出的有效顶点组合生成候选文本框，获得候选文本框集。其中，一个有效的顶点组合生成一个候选文本框。

在一种可能的实现方式中，上述实施例中通过步骤S101获取的文本框的相关信息除了包括四个顶点集外，还可以包括四个分数图，四个分数图通过上述的文本检测模型确定(请参阅上述文本检测模型的介绍)。其中，四个分数图中的任一分数图用于表征待检测文本的各个文本框进行田字形分后，相同位置的图像块中像素的得分。需要说明的是，每个分数图的尺寸与待检测文本的图像的尺寸相同。

以下对上述实施例中的“步骤S103：从候选文本框集中确定待检测文本中文本行的目标文本框”进行介绍。

请参阅图8，示出了步骤从候选文本框集中确定待检测文本中文本行的目标文本框的实现过程的流程示意图，可以包括：

步骤S801：针对候选文本框集中的任一候选文本框，将该候选文本框进行田字形分割，获得四个子块，基于四个分数图中、每个子块的分数图确定每个子块的分数，通过每个子块的分数确定该候选文本框的分数，以得到候选文本框集中每个候选文本框的分数。

对于一候选文本框，在获得其四个子块的分数后，可对四个子块的分数求取平均值，求得的平均值作为该候选文本框的分数。

其中，对于一候选文本框的四个子块中的任一子块，基于四个分数图中、该子块对应的分数图确定该子块的分数的过程可以包括：

步骤S8011：确定该子块与其对应的分数图的交集区域。

其中，该子块与其对应的分数图的交集区域指的是该子块与其对应的分数图中像素值相同的区域。

步骤S8012：从交集区域中获取多个连通域，并从多个连通域中确定出面积最大的连通域作为目标区域。

具体的，首先对交集区域进行二值化，获得交集区域的二值化图像，然后，对交集区域的二值化图像进行连通域分析，获得多个连通域，接着，确定各个连通域的面积，最后从多个连通域中确定出面积最大的连通域。

需要说明的是，由于文本检测模型预测的分数图可能并不完美，有很多的杂点，因此，基于交集区域获得的连通域中可能会有很多比较小的、与杂点有关的连通域，为了避免杂点的影响，本实施例从多个连通域中选取面积最大的连通域进行后续计算。

步骤S8013：基于目标区域与其最小外接矩形的面积比，判断该子块所属的候选文本框是否为无效文本框，若是，则执行步骤S8014a，否则，执行步骤S8014b。

需要说明的是，候选文本框集中可能存在跨行的候选文本框，如图9中的文本框901，而这种文本框为无效的文本框，需要将其检测出来并删除。经研究发现，有效的文本框与分数图的交集区域的形状通常接近于矩形，而无效的文本框(即跨行文本框)与分数图的交集区域的形状为其它形状(比如三角形等)，基于此，可通过检测候选文本框与分数图的交集区域的几何形状是否接近于矩形，来确定候选文本框是否为无效的文本框。

基于上述思想，本实施例在获得目标区域后，通过判断目标区域与其外接矩形的面积比是否小于预设的面积比阈值，来确定该子块所属的候选文本框是否为无效文本框。

假设从一个子块中获得的连通域为R₁、R₂、…、R_n，其中，目标区域(即面积最大的连通域)为R_max，目标区域的面积为A_max，目标区域的外接矩形的面积为A_{max_bbox}，则目标区域与其最小外接矩形的面积比ratio通过下式计算：

在获得目标区域与其最小外接矩形的面积比ratio后，判断ratio是否小于预设的面积比阈值th_ratio(比如，0.7)，若ratio小于th_ratio，表明目标区域的几何形状不接近矩形，则确定该子块所属的候选文本框为无效文本框，若ratio大于或等于th_ratio，表明目标区域的几何形状接近矩形，则确定该子块所属的文本框为有效的文本框。

步骤S8014a：基于目标区域的像素值和该子块的面积，确定该子块的分数。

假设目标区域为R_max，该子块的面积为A_Bin，则该子块的分数可通过下式确定：

其中，P为R_max中所有像素值的和，具体通过下式确定：

步骤S8014b：将该子块所属的文本框删除。

需要说明的是，一旦有一个子块的目标区域与其最小外接矩形的面积比小于预设的面积比阈值，就可确定该子块所属的文本框为无效文本框，将该文本框删除。

通过上述过程不但可将候选文本框集中无效的文本框(跨行文本框)滤除，还可获得每个有效的候选文本框的分数。

步骤S802：将候选文本框集中分数小于预设分数阈值(比如0.5)的候选文本框删除，剩余的候选文本框组成的集合作为目标文本框集合。

需要说明的是，候选文本框的分数越高，候选文本框为目标文本框的可能性越大。步骤S802获得的目标文本框集合中的文本框可作为待检测文本中文本行的目标文本框。

需要说明的是，通过上述过程获得的目标文本框集合中可能存在重合度比较高的文本框，以待检测文本为中文文本为例，中文文本以字为单位，由于上述的文本检测模型预测的是顶点，而文本行的顶点与几个字或单个字的顶点的定义比较模糊，因此，对字间距比较大的文本行进行预测时，很容易把一个文本行拆成多个，从而存在同一行的同一个字被预测得到的多个不同文本框包含在内的情况，即一个文本行可能会对应有多个文本框。

对于待检测文本中的任一待检测文本行，为了能够准确获得其唯一的文本框，在本申请的另一实施例中，上述实施例提供的文本检测方法还可以包括：基于目标文本框集合中文本框的分数和面积，从目标文本框集合中删除冗余文本框，以使待检测文本中的一个文本行对应一个文本框。删除冗余文本框后，剩余的文本框作为待检测文本中文本行的目标文本框。

请参阅图10，示出了基于目标文本框集合中文本框的分数和面积，从目标文本框集合中删除冗余文本框的实现过程的流程示意图，可以包括：

步骤S1001：基于目标文本框集合中文本框的分数，对目标文本框集合中的文本框进行降序排序，获得一有序文本框序列，将有序文本框序列作为初始的目标文本框序列。

步骤S1002：按顺序从目标文本框序列中获取一未处理文本框，基于未处理文本框与其后的至少一个文本框的分数和面积，从未处理文本框和其后的文本框中确定出需要删除的文本框并删除，删除文本框后的有序文本框序列作为新的目标文本框序列。

需要说明的是，每次获取的未处理文本框均为所有未处理文本框中分数最高的文本框。

步骤S1003：判断新的目标文本框序列中是否还有需要处理的文本框，若是，则执行步骤S1002，若否，则执行步骤S1004。

步骤S1004：最终保留下来的文本框确定为待检测文本中文本行的目标文本框。

需要说明的是，上述步骤S1002中：“基于未处理文本框与其后的至少一个文本框的分数和面积，从未处理文本框和其后的文本框中确定出需要删除的文本框并删除”的实现方式有多种：

在一种可能的实现方式中，基于未处理文本框与其后的至少一个文本框的分数和面积，从未处理文本框和其后的文本框中确定出需要删除的文本框并删除，可以包括：依次遍历未处理文本框后的文本框：在当前遍历到的文本框与未处理文本框满足第一条件时，确定未处理文本框为需要删除的文本框并删除，此次遍历结束，获得新的目标文本框序列；在当前遍历到的文本框与未处理文本框不满足第一条件时，若当前遍历到的文本框与未处理文本框满足第二条件，则确定当前遍历到的文本框为需要删除的文本框并删除；若当前遍历到的文本框与未处理文本框不满足第二条件，则向后遍历下一个文本框，直至所有需要遍历的文本框遍历完，获得新的目标文本框序列。

其中，第一条件为未处理文本框与当前遍历到的文本框的分数差小于预设分数，且未处理文本框与当前遍历到的文本框的交集区域与未处理文本框的面积比大于第一面积比阈值，且，未处理文本框的面积小于当前遍历到的文本框的面积；第二条件为未处理文本框与当前遍历到的文本框的交小面积比大于第二面积比阈值。

在另一种可能的实现方式中，基于未处理文本框与其后的至少一个文本框的分数和面积，从未处理文本框和其后的文本框中确定出需要删除的文本框并删除，可以包括：确定未处理文本框与其后的各个文本框的目标值，基于未处理文本框与其后的各个文本框的目标值，从未处理文本框和其后的文本框中确定出需要删除的文本框并删除。

其中，两个文本框的目标值通过如下方式确定：

若两个文本框满足第一条件，则两个文本框的目标值为第一预设值(比如，为1)，第一条件为两个文本框的坐标相同(即两个文本框的重合度较高)；若两个文本框满足第二条件，则两个文本框的目标值为第二预设值(比如，为0)，第二条件为两个文本框的交集的面积为0(即两个文本框不重合，交集为0)；若两个文本框满足第三条件，则两个文本框的目标值为第三预设值(比如，为-1)，其中，第三条件为两个文本框的分数差的绝对值小于预设分数阈值(比如0.3)，且两个文本框的交集与分数较大的文本框的面积比大于预设面积阈值(比如，0.8)，且分数较大的文本框的面积小于分数较小的文本框的面积；若两个文本框不满足第一条件、第二条件和第三条件，则两个文本框的目标值为两个文本框的交小面积比。

在上述实施例的基础上，先给出一种基于目标文本框集合中文本框的分数和面积，从目标文本框集合中删除冗余文本框的实现过程的一具体实例，请参阅图11，可以包括：

步骤S1101：基于目标文本框集合中文本框的分数，对目标文本框集合中的文本框进行降序排序。

步骤S1102：存储排序后的文本框的索引值于队列中。

步骤S1103：从队列中弹出一个索引值作为目标索引值。

步骤S1104：遍历队列中的索引值，判断目标索引值对应的文本框与当前遍历到的索引值对应的文本框是否满足第一条件，若是，则执行步骤S1105:删除目标索引值，然后执行步骤S1106；若否，则执行步骤S1107。

其中，第一条件为目标索引值对应的文本框与当前遍历到的索引值对应的文本框的分数差的绝对值小于预设分数，且目标索引值对应的文本框与当前遍历到的索引值对应的文本框的交集区域与目标索引值对应的文本框的面积比大于第一面积比阈值，且目标索引值对应的文本框的面积小于当前遍历到的索引值对应的文本框的面积。

步骤S1106：判断队列中是否还有可弹出的索引值，若是，则执行步骤S1103；若否，则执行步骤S1111。

步骤S1107：判断当前遍历到的索引值对应的文本框与目标索引值对应的文本框是否满足第二条件，若是，则执行步骤S1108：删除当前遍历到的索引值，然后执行步骤S1104；若否，则执行步骤S1109。

其中，第二条件为目标索引值对应的文本框与当前遍历到的索引值对应的文本框的交小面积比大于第二面积比阈值。需要说明的是，两个文本框的交小面积比为两个文本框的交集区域的面积与两个文本框中较小文本框的面积的比值。

如图12所示，文本框g与文本框p的交小面积比为文本框g与文本框p的交集区域的面积与文本框p、g中较小的文本框的面积的比值，即：

其中，IoM表示文本框g与文本框p的交小面积比，Intersection(g,p)表示文本框g与文本框p的交集区域的面积，area(g)表示文本框g的面积，area(p)表示文本框p的面积，图12中，较小的文本框为p，因此，min(area(g),area(p))＝area(p)。

步骤S1109：判断队列中是否还有未遍历的索引值，若是，则返回步骤S1104；若否，则执行步骤S1110：保留目标索引值，然后执行步骤S1106。

步骤S1111：将保留的所有索引值对应的文本框确定为待检测文本中文本行的目标文本框。

再给出一种基于目标文本框集合中文本框的分数和面积，从目标文本框集合中删除冗余文本框的实现过程的一具体实例，可以包括：基于目标文本框集合中文本框的分数，对目标文本框集合中的文本框进行降序排序；遍历排序后的文本框的索引值，对于当前遍历到索引值，确定其后的各个索引值对应的文本框与当前遍历到的索引值对应的文本框的目标值，并基于确定出的目标值确定出冗余文本框，将冗余文本框的索引值删除，然后遍历下一个索引值，直至所有需遍历的索引值遍历完；将最终保留下来的索引值对应的文本框作为待检测文本中文本行的目标文本框。

其中，确定各个索引值对应的文本框与当前遍历到的索引值对应的文本框的目标值的过程可参见上述确定两个文本框的目标值的方式，在此不作赘述。

需要说明的是，对于目标值为第一预设值的两个文本框、目标值为第二预设值的两个文本、目标值为交小面积比的两个文本框而言，其交小面积比均在0～1之间，若两个文本框的交小面积比大于设定阈值(比如，0.4)，说明两个文本框的重合度较高，则删除分数较低的文本框的索引，如果两个文本框的交小面积比小于或等于设定阈值(比如，0.4)，则保留两个文本框的索引。对于目标值为第三预设值的两个文本框，可将面积较小的文本框的索引删除，或者，交换两个文本框的分数。

需要说明的是，上述两个具体实例均是基于队列和索引实现冗余文本框的删除，本实施例并不限定于此，还可采用其它方式，比如还可以基于数组和索引实现冗余文本框的删除，其具体实现过程与基于队列和索引的实现方式类似，本实施例在此不作赘述。

本申请实施例提供的文本检测方法，一方面，以三个有序顶点为一组生成候选文本框，可将明显不是文本框的四边形框滤除，从而获得数量较少的候选文本框，进而能够提高候选文本框的后处理速率；另一方面，通过检测候选文本框与分数图的交集区域是否接近于矩形来判定跨行文本框，从而将跨行文本框滤除，提高文本框的检测准确率；最后，结合文本框的分数和面积去除重合度较高的文本框，使一个文本行对应一个准确唯一的目标文本框，鉴于上述三个方面，本申请实施例提供的文本检测方法的检测效果较好。

本申请实施例还提供了一种文本检测装置，下面对本申请实施例提供的文本检测装置进行描述，下文描述的文本检测装置与上文描述的文本检测方法可相互对应参照。

请参阅图13，示出了本申请实施例提供的一种文本检测装置的结构示意图，如图13所示，该装置可以包括：信息获取模块1301、候选文本框获取模块1302和目标文本框确定模块1303。

信息获取模块1301，用于从待检测文本中获取文本框的相关信息。

其中，所述文本框为所述待检测文本中文本行的边框，一文本框由四个顶点组成，每个顶点对应一顶点类别，所述文本框的相关信息至少包括四个顶点集，任一顶点集对应一顶点类别，其由多个文本框的顶点中属于同一顶点类别的顶点组成；

候选文本框获取模块1302，用于以三个有序顶点为一组生成候选文本框，获得候选文本框集。

其中，生成一候选文本框的三个有序顶点取自所述四个顶点集中的三个不同顶点集，且该三个有序顶点中的每个顶点在对应的候选文本框中所属的顶点类别与其所属的顶点集对应的顶点类别一致，且该三个有序顶点形成的夹角与预设角度的差值的绝对值小于预设角度阈值；

目标文本框确定模块1303，用于从所述候选文本框集中确定所述待检测文本中文本行的目标文本框。

本申请实施例提供的文本检测装置以取自三个顶点集中的三个有序顶点为一组生成候选文本框，由于三个顶点可生成夹角，而基于夹角可将明显不是文本框的四边形框滤除，从而获得数量较少且很可能为文本框的四边形框组成候选文本框集，进而能够提高候选文本框的后处理速度，且能提高文本框的检测准确率。

在一种可能的实现方式中，上述实施例中的信息获取模块1301可以包括：检测子模块、顶点处理子模块和顶点集确定子模块。

检测模块，用于将待检测文本的图像输入预先建立的文本检测模型，获得文本检测结果，所述文本检测结果至少包括多个顶点框和每个顶点框对应的顶点类别，一个顶点框对应一顶点，一个顶点框对应的顶点类别为五种类别中的一种，其中，所述五种类别为组成文本框的四个顶点分别对应的类别以及背景类。

顶点处理模块，用于从所述多个顶点框中删除冗余顶点框和顶点类别为背景的顶点框，获得剩余顶点框。

顶点集确定模块，用于基于剩余顶点框和所述剩余顶点框对应的顶点类别，将所述剩余顶点框对应的顶点组成所述四个顶点集。

在一种可能的实现方式中，上述实施例中的候选文本框获取模块1302包括：顶点集组合模块和候选文本框生成模块。

顶点集组合模块，用于基于组成文本框的四个顶点中任意三个相邻顶点的顶点类别以及该三个相邻顶点的位置关系，以三个顶点集为一组对所述四个顶点集合进行组合，获得四个顶点集组；

候选文本框生成模块，用于组合每个顶点集组中取自三个有序顶点集中的三个有序顶点生成候选文本框，获得所述候选文本框集。

在一种可能的实现方式中，上述的候选文本框生成模块，包括：顶点组合子模块、有效顶点组合确定子模块和候选文本框生成子模块。

顶点组合子模块，用于从每个顶点集组中获取顶点组合，得到多个顶点组合，其中，从任一顶点集组中获取的任一顶点组合包括三个顶点，所述三个顶点取自该顶点集组中的三个顶点集，且每个顶点在该顶点组合中的位置与其对应的顶点集在该顶点集组中的位置相同。

有效顶点组合确定子模块，用于从所述多个顶点组合中确定出有效的顶点组合，其中，一有效的顶点组合满足：基于该顶点组合形成的夹角与所述预设角度的差值的绝对值小于所述预设角度阈值。

候选文本框生成子模块，用于基于所述有效的顶点组合生成候选文本框，获得所述候选文本框集，其中，一个有效的顶点组合生成一个候选文本框。

在一种可能的实现方式中，上述实施例中信息获取模块1301获取的所述文本框的相关信息还包括：四个分数图，其中，任一分数图能够表征所述待检测文本的各个文本框进行田字形分后，相同位置的图像块中像素的得分。

则目标文本框确定模块1303包括：分数确定模块和文本框删除模块。

分数确定模块，用于针对所述候选文本框集中的任一候选文本框，将该候选文本框进行田字形分割，获得四个子块，基于所述四个分数图中、每个子块对应的分数图确定每个子块的分数，并通过每个子块的分数确定该候选文本框的分数，以得到所述候选文本框集中每个候选文本框的分数。

文本框删除模块，用于将所述候选文本框集中分数小于预设分数阈值的候选文本框删除，剩余的候选文本框组成的集合作为目标文本框集合；所述目标文本框集合中的文本框作为所述待检测文本中文本行的目标文本框。

在一种可能的实现方式中，上述的分数确定模块，在基于所述四个分数图中、一个子块对应的分数图确定该子块的分数时，具体用于确定该子块与其对应的分数图的交集区域；从所述交集区域中获取多个连通域，并从所述多个连通域中确定出面积最大的连通域作为目标区域；基于所述目标区域与其最小外接矩形的面积比，确定该子块所属的候选文本框是否为无效的文本框；若该子块所属的候选文本框为有效的文本框，则基于所述目标区域的像素值和该子块的面积，确定该子块的分数。需要说明的是，若一子块所属的候选文本框为无效的文本框，则由上述的文本删除模块将该无效的文本框删除。

在一种可能的实现方式中，上述实施例提供的文本检测装置还可以包括：冗余文本框删除模块。

冗余文本框删除模块，用于基于所述目标文本框集合中文本框的分数和面积，从所述目标文本框集合中删除冗余文本框，以使所述待检测文本中的一个文本行对应一个文本框；删除冗余文本框后，剩余的文本框作为所述待检测文本中文本行的目标文本框。

在一种可能的实现方式中，冗余文本框删除模块包括：排序模块、冗余文本框确定及删除模块和目标文本框获取模块。

排序模块，用于基于所述目标文本框集合中文本框的分数，对所述目标文本框集合中的文本框进行降序排序，获得一有序文本框序列；

冗余文本框确定及删除模块，用于将所述有序文本框序列作为初始的目标文本框序列，按顺序从目标文本框序列中获取一未处理文本框，基于所述未处理文本框与其后的至少一个文本框的分数和面积，从所述未处理文本框和其后的文本框中确定出需要删除的文本框并删除，删除文本框后的有序文本框序列作为新的目标文本框序列，执行所述按顺序从所述目标文本框序列中获取一未处理文本框，直至目标文本框序列中没有需要处理的文本框；

目标文本框获取模块，用于将最终保留下来的文本框确定为所述待检测文本中文本行的目标文本框。

在一种可能的实现方式中，冗余文本框确定及删除模块在基于所述未处理文本框与其后的至少一个文本框的分数和面积，从所述未处理文本框和其后的文本框中确定出需要删除的文本框并删除时，具体用于：

依次遍历所述未处理文本框后的文本框：在当前遍历到的文本框与所述未处理文本框满足第一条件时，确定所述未处理文本框为需要删除的文本框并删除，此次遍历结束，获得新的目标文本框序列；在当前遍历到的文本框与所述未处理文本框不满足第一条件时，若当前遍历到的文本框与所述未处理文本框满足第二条件，则确定当前遍历到的文本框为需要删除的文本框并删除；若当前遍历到的文本框与所述未处理文本框不满足所述第二条件，则向后遍历下一个文本框，直至所有需要遍历的文本框遍历完，获得新的目标文本框序列。

确定所述未处理文本框与其后的各个文本框的目标值，基于所述未处理文本框与其后的各个文本框的目标值，从所述未处理文本框和其后的文本框中确定出需要删除的文本框并删除。

其中，两个文本框的目标值通过如下方式确定：

本申请实施例还提供了一种文本检测设备，请参阅图14，示出了该文本检测设备的结构示意图，该设备可以包括：至少一个处理器1401，至少一个通信接口1402，至少一个存储器1403和至少一个通信总线1404；

在本申请实施例中，处理器1401、通信接口1402、存储器1403、通信总线1404的数量为至少一个，且处理器1401、通信接口1402、存储器1403通过通信总线1404完成相互间的通信；

处理器1401可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器1403可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本检测方法，其特征在于，包括：

从待检测文本中获取文本框的相关信息，其中，所述文本框为所述待检测文本中文本行的边框，一文本框由四个顶点组成，每个顶点对应一顶点类别，所述文本框的相关信息至少包括四个顶点集，一顶点集对应一顶点类别，其由多个文本框的顶点中属于同一顶点类别的顶点组成；

2.根据权利要求1所述的文本检测方法，其特征在于，所述从待检测文本中获取文本框的相关信息，包括：

3.根据权利要求1或2所述的文本检测方法，其特征在于，所述以三个有序顶点为一组生成候选文本框，获得候选文本框集，包括：

4.根据权利要求3所述的文本检测方法，其特征在于，所述组合每个顶点集组中取自三个有序顶点集中的三个有序顶点生成候选文本框，获得所述候选文本框集，包括：

5.根据权利要求1中任意一项所述的文本检测方法，其特征在于，所述文本框的相关信息还包括：四个分数图，其中，任一分数图能够表征所述待检测文本的各个文本框进行田字形分后，相同位置的图像块中像素的得分；

针对所述候选文本框集中的任一候选文本框，将该候选文本框进行田字形分割，获得四个子块，基于所述四个分数图中、每个子块对应的分数图确定每个子块的分数，并通过每个子块的分数确定该候选文本框的分数，以得到所述候选文本框集中每个候选文本框的分数；

6.根据权利要求5所述的文本检测方法，其特征在于，基于所述四个分数图中、一个子块对应的分数图确定该子块的分数，包括：

确定该子块与其对应的分数图的交集区域；

7.根据权利要求5所述的文本检测方法，其特征在于，还包括：

8.根据权利要求7所述的文本检测方法，其特征在于，所述基于所述目标文本框集合中文本框的分数和面积，从所述目标文本框集合中删除冗余文本框，包括：

9.根据权利要求8所述的文本检测方法，其特征在于，所述基于所述未处理文本框与其后的至少一个文本框的分数和面积，从所述未处理文本框和其后的文本框中确定出需要删除的文本框并删除，包括：

依次遍历所述未处理文本框后的文本框：

在当前遍历到的文本框与所述未处理文本框不满足所述第一条件时，若当前遍历到的文本框与所述未处理文本框满足第二条件，则确定当前遍历到的文本框为需要删除的文本框并删除；若当前遍历到的文本框与所述未处理文本框不满足所述第二条件，则向后遍历下一个文本框，直至所有需要遍历的文本框遍历完，获得新的目标文本框序列；

其中，所述第一条件为所述未处理文本框与当前遍历到的文本框的分数差小于预设分数，且所述未处理文本框与当前遍历到的文本框的交集区域与所述未处理文本框的面积比大于第一面积比阈值，且，所述未处理文本框的面积小于当前遍历到的文本框的面积；所述第二条件为所述未处理文本框与当前遍历到的文本框的交小面积比大于第二面积比阈值，其中，两个文本框的交小面积比为两个文本框的交集区域的面积与两个文本框中较小文本框的面积的比值。

10.根据权利要求8所述的文本检测方法，其特征在于，所述基于所述未处理文本框与其后的至少一个文本框的分数和面积，从所述未处理文本框和其后的文本框中确定出需要删除的文本框并删除，包括：

其中，两个文本框的目标值通过如下方式确定：

若两个文本框不满足所述第一条件、所述第二条件和所述第三条件，则两个文本框的目标值为两个文本框的交小面积比，其中，两个文本框的交小面积比为两个文本框的交集区域的面积与两个文本框中较小文本框的面积的比值。

11.一种文本检测装置，其特征在于，包括：信息获取模块、候选文本框获取模块和目标文本框确定模块；

12.根据权利要求11所述的文本检测装置，其特征在于，所述文本框的相关信息还包括：四个分数图，其中，任一分数图能够表征所述待检测文本的各个文本框进行田字形分后，相同位置的图像块中像素的得分；

所述分数确定子模块，用于针对所述候选文本框集中的任一候选文本框，将该候选文本框进行田字形分割，获得四个子块，基于所述四个分数图中、每个子块对应的分数图确定每个子块的分数，并通过每个子块的分数确定该候选文本框的分数，以得到所述候选文本框集中每个候选文本框的分数；

13.根据权利要求12所述的文本检测装置，其特征在于，所述分数确定模块在基于所述四个分数图中、一个子块对应的分数图确定该子块的分数时，具体用于确定该子块与其对应的分数图的交集区域；从所述交集区域中获取多个连通域，并从所述多个连通域中确定出面积最大的连通域作为目标区域；基于所述目标区域与其最小外接矩形的面积比，确定该子块所属的候选文本框是否为无效的文本框；若该子块所属的候选文本框为有效的文本框，则基于所述目标区域的像素值和该子块的面积，确定该子块的分数；若该子块所属的候选文本框为无效的文本框，则将该子块所属的文本框删除。

14.根据权利要求12所述的文本检测装置，其特征在于，还包括：冗余文本框删除模块；

15.一种文本检测设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～10中任一项所述的文本检测方法的各个步骤。

16.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～10中任一项所述的文本检测方法的各个步骤。