CN110619333B

CN110619333B - 一种文本行分割方法、文本行分割装置及电子设备

Info

Publication number: CN110619333B
Application number: CN201910753127.3A
Authority: CN
Inventors: 赵振兴; 王洪斌
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2022-06-14
Anticipated expiration: 2039-08-15
Also published as: CN110619333A

Abstract

本申请公开了文本行分割方法、装置及电子设备，其中，该方法包括：将待分割的文本图像输入至已训练好的检测模型中，得到包含有字符的两个以上目标检测框；基于两个以上目标检测框的纵坐标，确定属于同一文本行的目标检测框，并归入至同一检测框集合中，得到一个以上检测框集合；针对任一检测框集合，基于检测框集合中各个目标检测框的横坐标，对各个目标检测框进行排序；在检测框集合中的各个目标检测框排序完成后，根据各个目标检测框的高度确定检测框集合的目标文本高度；通过目标文本高度，分割出该检测框集合中的各个目标检测框，并基于各个目标检测框在检测框集合中的排序结果输出。本申请方案可实现包含有数学公式的文本行的智能分割。

Description

一种文本行分割方法、文本行分割装置及电子设备

技术领域

本申请属于图像处理技术领域，尤其涉及一种文本行分割方法、文本行分割装置、电子设备及计算机可读存储介质。

背景技术

在对文本图像进行图像分析处理之前，往往需要首先对文本图像中所包含的文本内容进行文本行分割，才能使得后续的文本行倾斜矫正、文本识别等图像分析处理能够顺利完成。通常来说，上述文本图像中所包含的文本内容可以是印刷文本，也可以是手写文本。然而，当前大部分的文本分割技术都只能对不包含数学公式的文本行进行分割，而无法对包含有数学公式的文本行进行分割。实际上，由于不包含数学公式的文本行的高度通常保持一致，且各个字符间的距离也大致相等，因而在分割时易于找到文本行的分割规律；而包含数学公式的文本行的高度存在不确定性的变化，且各个字符之间的距离也难以确定，这使得当前文本分割技术对包含有数学公式的文本行的分割较为不准确，分割出来的文本行容易出现不完整的情况，导致后续进一步的图像分析处理被影响。

发明内容

有鉴于此，本申请提供了一种文本行分割方法、文本行分割装置、电子设备及计算机可读存储介质，可帮助用户实现包含有数学公式的文本行的智能分割。

本申请的第一方面提供了一种文本行分割方法，包括：

将待分割的文本图像输入至已训练好的检测模型中，得到包含有字符的两个以上目标检测框；

基于上述两个以上目标检测框的纵坐标，确定属于同一文本行的目标检测框；

将属于同一文本行的目标检测框归入至同一检测框集合中，得到一个以上检测框集合；

针对任一检测框集合，基于上述检测框集合中各个目标检测框的横坐标，对上述检测框集合中的各个目标检测框进行排序；

在上述检测框集合中的各个目标检测框排序完成后，根据各个目标检测框的高度确定上述检测框集合的目标文本高度；

通过上述检测框集合的目标文本高度，分割出上述检测框集合中的各个目标检测框，并基于各个目标检测框在上述检测框集合中的排序结果输出，以得到与上述检测框集合相关联的文本行分割结果。

本申请的第二方面提供了一种文本行分割装置，包括：

输入单元，用于将待分割的文本图像输入至已训练好的检测模型中，得到包含有字符的两个以上目标检测框；

划分单元，用于基于上述两个以上目标检测框的纵坐标，确定属于同一文本行的目标检测框；

检测单元，用于将属于同一文本行的目标检测框归入至同一检测框集合中，得到一个以上检测框集合；

排序单元，用于针对任一检测框集合，基于上述检测框集合中各个目标检测框的横坐标，对上述检测框集合中的各个目标检测框进行排序；

确定单元，用于在上述检测框集合中的各个目标检测框排序完成后，根据各个目标检测框的高度确定上述检测框集合的目标文本高度；

分割单元，用于通过上述检测框集合的目标文本高度，分割出上述检测框集合中的各个目标检测框，并基于各个目标检测框在上述检测框集合中的排序结果输出，以得到与上述检测框集合相关联的文本行分割结果。

本申请的第三方面提供了一种电子设备，上述电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。

本申请的第四方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。

本申请的第五方面提供了一种计算机程序产品，上述计算机程序产品包括计算机程序，上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。

由上可见，在本申请方案中，首先将待分割的文本图像输入至已训练好的检测模型中，得到包含有字符的两个以上目标检测框，然后基于上述两个以上目标检测框的纵坐标，确定属于同一文本行的目标检测框，接着将属于同一文本行的目标检测框归入至同一检测框集合中，得到一个以上检测框集合，针对任一检测框集合，基于上述检测框集合中各个目标检测框的横坐标，对上述检测框集合中的各个目标检测框进行排序，在上述检测框集合中的各个目标检测框排序完成后，根据各个目标检测框的高度确定上述检测框集合的目标文本高度，最后通过上述检测框集合的目标文本高度，分割出上述检测框集合中的各个目标检测框，并基于各个目标检测框在上述检测框集合中的排序结果输出，以得到与上述检测框集合相关联的文本行分割结果。通过本申请方案，针对包含有数学公式的文本图像也能实现完整的文本行分割，避免出现字符被截或字符丢失的情况，方便用户基于得到的文本行分割结果对文本作进一步分析处理。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文本行分割方法的实现流程示意图；

图2是本申请实施例提供的文本行分割方法中，步骤101的具体流程示意图；

图3是本申请实施例提供的文本行分割方法中，步骤102的具体流程示意图；

图4是本申请实施例提供的文本行分割方法中，步骤105的具体流程示意图；

图5-a是本申请实施例提供的一个检测框集合的示例图；

图5-b是本申请实施例提供的一个文本行分割结果的示例图；

图6是本申请实施例提供的文本行分割装置的结构框图；

图7是本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请上述的技术方案，下面通过具体实施例来进行说明。

实施例一

在本申请实施例中，流程的执行主体为电子设备。该电子设备包括但不限于：服务器、计算机、智能手机以及平板电脑等能够执行文本行分割操作的设备。图1示出了本申请实施例一提供的文本行分割方法的实现流程图，详述如下：

在步骤101中，将待分割的文本图像输入至已训练好的检测模型中，得到包含有字符的两个以上目标检测框；

在本申请实施例中，用户可以通过电子设备的摄像头进行拍摄，以获取上述待分割的文本图像；或者，用户也可以通过电子设备进行扫描的方式获取上述待分割的文本图像；或者，用户还可以使用电子设备联网获取上述待分割的文本图像，此处不作限定。可选地，由于在上述拍摄获取、扫描获取以及联网获取的过程中，无法保证所获取到的图像包含有待分割的文本，因而，在拍摄获取、扫描获取以及联网获取到图像后，可以先对获取到的上述图像进行文本识别，在识别到上述图像包含有文本后，才将上述图像确定为待分割的文本图像。可选地，上述文本图像中所包含的文本可以是印刷文本，也可以是手写文本，此处不作限定。可选地，图2示出了上述步骤101的具体实现流程图，详述如下：

在步骤1011中，将上述文本图像输入至已训练好的yolov3检测模型中，得到两个以上检测框及每个检测框的得分；

在本申请实施例中，上述yolov3检测模型为一文本检测模型，其输入为上述文本图像，输出为若干个在文本图像上各个随机滑动位置的检测框，同时还会输出各个检测框的得分。在对上述yolov3检测模型进行训练时，可以先在ICDAR2017中随机抽取若干训练图像，通过所抽取到的若干训练图像对上述yolov3检测模型进行训练、验证及测试，以得到训练好的yolov检测模型，其中，上述ICDAR2017指的是中文场景文本检测与识别数据集。上述得分指示了检测框包含有字符的概率，上述得分越高，则代表该检测框包含有字符的概率越大；反之，上述得分越低，则代表该检测框包含有字符的概率越小。

在步骤1012中，针对任一检测框，检测上述检测框的得分是否超过预设的得分阈值；

在本申请实施例中，由于是对文本图像进行文本行分割，因而所分割的对象需要包含有文本，也即字符。基于此，用户或者电子设备可以预先设定一得分阈值，若检测框的得分超过上述的得分阈值，则可初步认定该检测框包含有字符，可以将该检测框作为后续进行文本行分割的基础。

在步骤1013中，将得分超过上述得分阈值的检测框保留为目标检测框。

在本申请实施例中，只有得分超过上述得分阈值的检测框才能被保留下来作为目标检测框，而其它得分未超过上述得分阈值的检测框则被丢弃。通过上述步骤1011至1013，可以获得包含有字符的两个以上目标检测框。这里限定上述目标检测框的数量为两个以上，是因为在只获得一个目标检测框时，将有且只有一行文本行，且该文本行中只存在一个字符(也即目标检测框中的字符)，此时直接基于这一个检测框对其进行文本行分割并不会发生分割错误的情况；基于此，才需要将上述检测框的数量限定为两个以上。

在步骤102中，基于上述两个以上目标检测框的纵坐标，确定属于同一文本行的目标检测框；

在本申请实施例中，此处以文本图像的左上顶点作为坐标系的原点，将上述文本图像正放后，以原点水平向右为x轴正方向，以原点竖直向下为y轴正方向。上述目标检测框的位置根据文本图像中所包含的文本的位置而检测得出；并且，考虑到检测框尺寸的不确定性，所获得的两个以上目标检测框通常情况下无法保持完全一致；也即，往往会获得尺寸不一的多个目标检测框。进一步地，由于上述检测模型的输出为若干个在文本图像上各个随机滑动位置的检测框，因而此处所获得的目标检测框往往排列的较为杂乱；基于此，需要首先通过各个目标检测框的纵坐标判断各个目标检测框在文本图像中的所处位置，以确定属于同一文本行的目标检测框。可选地，图3示出了上述步骤102的具体实现流程图，详述如下：

在步骤1021中，针对任一目标检测框，将上述目标检测框的指定顶点的纵坐标作为上述目标检测框的纵坐标；

在本申请实施例中，上述指定顶点指的是检测框指定方位的顶点，例如，可以将各个目标检测框的左上顶点确定为指定方位的顶点，则针对任一目标检测框，其纵坐标为左上顶点的纵坐标；也即统一将各个目标检测框的左上顶点的纵坐标作为对应目标检测框的纵坐标。当然，上述指定顶点也可以是左下顶点、右上顶点、右下顶点，此处不作限定，只要保证各个目标检测框都采用统一方位的顶点的纵坐标作为其自身的纵坐标即可。

在步骤1022中，基于上述两个以上目标检测框的纵坐标的大小，对上述两个以上目标检测框进行排序；

在步骤1023中，根据排序的顺序，检测任意相邻的两个目标检测框的纵坐标之间的距离是否超过预设的距离阈值；

在本申请实施例中，可以基于各个目标检测框的纵坐标的大小，以由大至小或由小至大的顺序进行排序；在排序完成后，基于当前排序的顺序，对相邻的两个目标检测框的纵坐标之间的距离进行检测。通常情况下，位于同一文本行的字符，其纵坐标往往相近；因而，通过对各个目标检测框的纵坐标进行排序，将纵坐标相近的目标检测框初步划分为同一文本行。此处由用户或者电子设备预先设定一距离阈值，将该距离阈值作为评判两个检测框的纵坐标是否相近的标准。

在步骤1024中，将上述距离未超过上述距离阈值的相邻两个目标检测框确定为属于同一文本行。

在本申请实施例中，若相邻两个目标检测框的纵坐标之间的距离未超过上述距离阈值，则认为上述两个目标检测框之间相距较近；相应地，若相邻两个目标检测框的纵坐标之间的距离已超过上述距离阈值，则认为上述两个目标检测框之间相距较远，同时，考虑到这两个目标检测框在基于纵坐标大小的排序中处于相邻位置，因而，可以确定这两个目标检测框之间存在文本行换行操作，也即，这两个目标检测框处于相邻的两行文本行。例如，通过检测发现目标检测框a1、a2、a3的纵坐标由小至大的排序顺序为a1、a3、a2；其中，a1与a3的纵坐标之间的距离小于预设的距离阈值，a3与a2的纵坐标之间的距离大于预设的距离阈值，则可以确定a1与a3在同一文本行A1中；而a2则在A1文本行的下一文本行A2中。

在步骤103中，将属于同一文本行的目标检测框归入至同一检测框集合中，得到一个以上检测框集合；

在本申请实施例中，通过对各个目标检测框的纵坐标进行排序，将纵坐标相近的目标检测框初步划分为同一文本行；随后为了处理方便，将纵坐标相近的目标检测框，也即属于同一文本行的目标检测框归类至同一检测框集合中。可见，同一检测框集合内的各个目标检测框属于同一文本行，且各个检测框集合所对应的文本行不同。通过这种方式，初步得到若干个检测框集合。

在步骤104中，针对任一检测框集合，基于上述检测框集合中各个目标检测框的横坐标，对上述检测框集合中的各个目标检测框进行排序；

在本申请实施例中，以任一检测框集合为例，该检测框集合中的各个目标检测框均属于同一行，但还未能区分出各个目标检测框的左右顺序，也即，该检测框集合中的各个目标检测框还处于乱序状态。基于此，可以基于上述检测框集合中各个目标检测框的横坐标，对上述检测框集合中的各个目标检测框进行排序。与上述步骤102相似地，可以将上述目标检测框的指定顶点的横坐标作为上述目标检测框的横坐标，具体地，本步骤中的指定顶点的方位与上述步骤102中指定顶点的方位保持一致，例如。若上述步骤102中将各个目标检测框的左上顶点确定为指定顶点，则本步骤中，也继续将各个目标检测框的左上顶点确定为指定顶点。

在步骤105中，在上述检测框集合中的各个目标检测框排序完成后，根据各个目标检测框的高度确定上述检测框集合的目标文本高度；

在本申请实施例中，在上述检测框集合中的各个目标检测框排序完成后，可以开始进行文本行分割的工作。而在对该文本图像进行整行分割时，需要将一行文本行看做一个整体进行分割，在这种情况下，该文本行的目标文本高度仅为一个。为了避免出现字符被截断或字符丢失的情况，此处需要选定合适的目标文本高度对文本图像进行文本行分割，例如，可以根据各个目标检测框的高度确定上述检测框集合的目标文本高度；可选地，图4示出了上述步骤105的具体实现流程图，详述如下：

在步骤1051中，遍历上述检测框集合中的各个目标检测框的高度，获得高度最大值；

在步骤1052中，根据上述检测框集合中的各个目标检测框的高度，计算得到高度平均值；

在步骤1053中，检测上述高度最大值与上述高度平均值之间的差异是否超过预设的差异范围，若是，则执行步骤1054，若否，则执行步骤1055；

在步骤1054中，基于上述高度最大值确定目标文本高度；

在步骤1055中，基于上述高度平均值确定目标文本高度。

在本申请实施例中，目标检测框的高度可以通过该目标检测框中处于对角线位置的两个顶点的纵坐标之差而得出，例如，计算目标检测框的左上顶点与右下顶点的纵坐标之差，即可得到该目标检测框的高度；当然，也可以通过计算目标检测框的右上顶点与左下顶点的纵坐标之差来计算目标检测框的高度，此处不作限定。针对任一检测框集合(也即任一文本行)，可以先计算该检测框集合中的各个目标检测框的高度平均值，同时获取该检测框集合中的各个目标检测框中的高度最大值，随后检测该高度平均值与高度最大值之间的差异。具体地，计算差异时，可以是检测该高度最大值与高度平均值的比值是否超过预设的比值阈值，上述比值阈值可以被设定为1.5；也即，在这种情况下，如果高度最大值是高度平均值的1.5倍以上，则认为超过了预设的差异范围，此时可以基于高度最大值确定目标高度，例如，将高度最大值加上预设的调整参数后作为目标文本高度。反之，若该差异未超过预设的差异范围；也即，在这种情况下，如果高度最大值没有达到高度平均值的1.5倍以上，则认为未超过预设的差异范围，此时，可以基于高度平均值确定目标高度，例如，将高度平均值加上预设的调整参数后作为目标高度。上述调整参数的作用是为了给该文本行中的各个目标检测框提供一定的缓冲区间，可以看作是对文本行高度的补偿，用以避免出现某个字符过高时被截断的现象，因而通过加上该调整参数，保障该文本行中的各个字符都能够被完整的截取分割。具体地，上述调整参数为用户的预设值，具体可根据不同文本图像而设定，此处不作限定。可选地，也可以通过高度平均值与高度最大值的差值进行差异的检测，若上述差值超过预设的差值阈值，则确定上述高度平均值与上述高度最大值之间的差异超过预设的差异范围，若上述差值未超过预设的差值阈值，则确定上述高度平均值与上述高度最大值之间的差异未超过预设的差异范围；当然，也可以通过其他方式确定高度平均值与高度最大值之间的差异是否超过预设的差异范围，此处不作限定。

在步骤106中，通过上述检测框集合的目标文本高度，分割出上述检测框集合中的各个目标检测框，并基于各个目标检测框在上述检测框集合中的排序结果输出，以得到与上述检测框集合相关联的文本行分割结果。

在本申请实施例中，通过步骤105已经得到了各个检测框集合所对应的目标文本高度，则可以基于该目标文本高度对相应的检测框集合进行文本行分割。具体地，针对任一检测框集合来说，该检测框集合中的各个目标检测框的高度不一，此处通过该检测框集合所对应的目标文本高度，分别在待分割的文本图像上对各个目标检测框进行截取，以得到高度一致的文本行分割结果。具体地，可以是先基于各个目标检测框的对角线顶点的纵坐标，通过均值处理得到各个目标检测框的中点纵坐标；随后基于该中点纵坐标，计算得到分割上限的纵坐标及分割下限的纵坐标。例如，一个检测框集合中有n目标检测框，其中各个目标检测框的左上顶点的纵坐标分别是y₁、y₂、…、y₃，各个目标检测框的右下顶点的纵坐标分别是y₁’、y₂’、…、y_n’，则将上述y₁、y₂、…、y₃及y₁’、y₂’、…、y_n’相加后除以2n，得到均值处理的结果，即中点纵坐标Y；假设目标文本高度为H，则随后即可确定Y+(H/2)为文本行分割时下边界的纵坐标，Y-(H/2)为文本行分割时上边界的纵坐标。同时，为了保障文本的可读性，在输出分割的结果时，基于各个目标检测框在上述检测框集合中的排序结果输出，即可得到排序准确的文本行分割结果，使得文本行分割结果中的各个字符能够符合用户的正常阅读顺序。示例性地，请参阅图5-a，图5-a示出了一个目标检测框集合，其中包含有若干个高度不一的检测框；请参阅图5-b，图5-b示出了基于图5-a中的检测框集合所输出得到的文本行分割结果。

由上可见，通过本申请方案，首先将待分割的文本图像输入至已训练好的检测模型中，得到包含有字符的两个以上目标检测框，然后基于上述两个以上目标检测框的纵坐标，确定属于同一文本行的目标检测框，接着将属于同一文本行的目标检测框归入至同一检测框集合中，得到一个以上检测框集合，针对任一检测框集合，基于上述检测框集合中各个目标检测框的横坐标，对上述检测框集合中的各个目标检测框进行排序，在上述检测框集合中的各个目标检测框排序完成后，根据各个目标检测框的高度确定上述检测框集合的目标文本高度，最后通过上述检测框集合的目标文本高度，分割出上述检测框集合中的各个目标检测框，并基于各个目标检测框在上述检测框集合中的排序结果输出，以得到与上述检测框集合相关联的文本行分割结果。通过本申请方案，针对包含有数学公式的文本图像也能实现完整的文本行分割，避免出现字符被截或字符丢失的情况，方便用户基于得到的文本行分割结果对文本作进一步分析处理；并且，针对处于同一文本行的字符，采用一个目标文本高度对该文本行进行整行分割，不用考虑同一文本行中的不同区域，可避免出现文本行分割时的漏检情况，效率较高。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

实施例二

本申请实施例二提供了一种文本行分割装置，上述文本行分割装置可集成于电子设备中，如图6所示，本申请实施例中的文本行分割装置600包括：

输入单元601，用于将待分割的文本图像输入至已训练好的检测模型中，得到包含有字符的两个以上目标检测框；

划分单元602，用于基于上述两个以上目标检测框的纵坐标，确定属于同一文本行的目标检测框；

检测单元603，用于将属于同一文本行的目标检测框归入至同一检测框集合中，得到一个以上检测框集合；

排序单元604，用于针对任一检测框集合，基于上述检测框集合中各个目标检测框的横坐标，对上述检测框集合中的各个目标检测框进行排序；

确定单元605，用于在上述检测框集合中的各个目标检测框排序完成后，根据各个目标检测框的高度确定上述检测框集合的目标文本高度；

分割单元606，用于通过上述检测框集合的目标文本高度，分割出上述检测框集合中的各个目标检测框，并基于各个目标检测框在上述检测框集合中的排序结果输出，以得到与上述检测框集合相关联的文本行分割结果。

可选地，上述输入单元601包括：

文本图像输入子单元，用于将上述文本图像输入至已训练好的yolov3检测模型中，得到两个以上检测框及每个检测框的得分；

检测框得分检测子单元，用于针对任一检测框，检测上述检测框的得分是否超过预设的得分阈值；

目标检测框确定子单元，用于将得分超过上述得分阈值的检测框保留为目标检测框。

可选地，上述划分单元602包括：

纵坐标确定子单元，用于针对任一目标检测框，将上述目标检测框的指定顶点的纵坐标作为上述目标检测框的纵坐标；

纵坐标排序子单元，用于基于上述两个以上目标检测框的纵坐标的大小，对上述两个以上目标检测框进行排序；

纵坐标距离检测子单元，用于根据排序的顺序，检测任意相邻的两个目标检测框的纵坐标之间的距离是否超过预设的距离阈值；

文本行确定子单元，用于将上述距离未超过上述距离阈值的相邻两个目标检测框确定为属于同一文本行。

可选地，上述确定单元605包括：

高度最大值获取子单元，用于遍历上述检测框集合中的各个目标检测框的高度，获得高度最大值；

高度平均值获取子单元，用于根据上述检测框集合中的各个目标检测框的高度，计算得到高度平均值；

差异检测子单元，用于检测上述高度最大值与上述高度平均值之间的差异是否超过预设的差异范围；

目标文本高度确定子单元，用于若上述差异超过上述差异范围，则基于上述高度最大值确定目标文本高度，若上述差异未超过上述差异范围，则基于上述高度平均值确定目标文本高度。

可选地，上述差异检测子单元包括：

差值计算子单元，用于计算上述高度平均值与上述高度最大值的差值；

第一差异确定子单元，用于若上述差值超过预设的差值阈值，则确定上述高度平均值与上述高度最大值之间的差异超过预设的差异范围，若上述差值未超过预设的差值阈值，则确定上述高度平均值与上述高度最大值之间的差异未超过预设的差异范围。

可选地，上述差异检测子单元包括：

比值计算子单元，用于计算上述高度最大值与上述高度平均值的比值；

第二差异确定子单元，用于若上述比值超过预设的比值阈值，则确定上述高度平均值与上述高度最大值之间的差异超过预设的差异范围，若上述比值未超过预设的比值阈值，则确定上述高度平均值与上述高度最大值之间的差异未超过预设的差异范围。

由上可见，通过本申请方案，文本行分割装置首先将待分割的文本图像输入至已训练好的检测模型中，得到包含有字符的两个以上目标检测框，然后基于上述两个以上目标检测框的纵坐标，确定属于同一文本行的目标检测框，接着将属于同一文本行的目标检测框归入至同一检测框集合中，得到一个以上检测框集合，针对任一检测框集合，基于上述检测框集合中各个目标检测框的横坐标，对上述检测框集合中的各个目标检测框进行排序，在上述检测框集合中的各个目标检测框排序完成后，根据各个目标检测框的高度确定上述检测框集合的目标文本高度，最后通过上述检测框集合的目标文本高度，分割出上述检测框集合中的各个目标检测框，并基于各个目标检测框在上述检测框集合中的排序结果输出，以得到与上述检测框集合相关联的文本行分割结果。通过本申请方案，针对包含有数学公式的文本图像也能实现完整的文本行分割，避免出现字符被截或字符丢失的情况，方便用户基于得到的文本行分割结果对文本作进一步分析处理；并且，针对处于同一文本行的字符，采用一个目标文本高度对该文本行进行整行分割，不用考虑同一文本行中的不同区域，可避免出现文本行分割时的漏检情况，效率较高。

实施例三

本申请实施例三提供了一种电子设备，请参阅图7，本申请实施例中的电子设备7包括：存储器701，一个或多个处理器702(图7中仅示出一个)及存储在存储器701上并可在处理器上运行的计算机程序。其中：存储器701用于存储软件程序以及模块，处理器702通过运行存储在存储器701的软件程序以及单元，从而执行各种功能应用以及数据处理，以获取上述预设事件对应的资源。具体地，处理器702通过运行存储在存储器701的上述计算机程序时实现以下步骤：

假设上述为第一种可能的实施方式，则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中，上述将待分割的文本图像输入至已训练好的检测模型中，得到包含有字符的两个以上目标检测框，包括：

将上述文本图像输入至已训练好的yolov3检测模型中，得到两个以上检测框及每个检测框的得分；

针对任一检测框，检测上述检测框的得分是否超过预设的得分阈值；

将得分超过上述得分阈值的检测框保留为目标检测框。

在上述第一种可能的实施方式作为基础而提供的第三种可能的实施方式中，上述基于上述两个以上目标检测框的纵坐标，确定属于同一文本行的目标检测框，包括：

针对任一目标检测框，将上述目标检测框的指定顶点的纵坐标作为上述目标检测框的纵坐标；

基于上述两个以上目标检测框的纵坐标的大小，对上述两个以上目标检测框进行排序；

根据排序的顺序，检测任意相邻的两个目标检测框的纵坐标之间的距离是否超过预设的距离阈值；

将上述距离未超过上述距离阈值的相邻两个目标检测框确定为属于同一文本行。

在上述第一种可能的实施方式作为基础而提供的第四种可能的实施方式中，上述根据各个目标检测框的高度确定上述检测框集合的目标文本高度，包括：

遍历上述检测框集合中的各个目标检测框的高度，获得高度最大值；

根据上述检测框集合中的各个目标检测框的高度，计算得到高度平均值；

检测上述高度最大值与上述高度平均值之间的差异是否超过预设的差异范围；

若上述差异超过上述差异范围，则基于上述高度最大值确定目标文本高度；

若上述差异未超过上述差异范围，则基于上述高度平均值确定目标文本高度。

在上述第四种可能的实施方式作为基础而提供的第五种可能的实施方式中，上述检测上述高度最大值与上述高度平均值之间的差异是否超过预设的差异范围，包括：

计算上述高度平均值与上述高度最大值的差值；

若上述差值超过预设的差值阈值，则确定上述高度平均值与上述高度最大值之间的差异超过预设的差异范围；

若上述差值未超过预设的差值阈值，则确定上述高度平均值与上述高度最大值之间的差异未超过预设的差异范围。

在上述第四种可能的实施方式作为基础而提供的第六种可能的实施方式中，上述检测上述高度平均值与上述高度最大值之间的差异是否超过预设的差异范围，包括：

计算上述高度最大值与上述高度平均值的比值；

若上述比值超过预设的比值阈值，则确定上述高度平均值与上述高度最大值之间的差异超过预设的差异范围；

若上述比值未超过预设的比值阈值，则确定上述高度平均值与上述高度最大值之间的差异未超过预设的差异范围。

应当理解，在本申请实施例中，所称处理器702可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器701可以包括只读存储器和随机存取存储器，并向处理器702提供指令和数据。存储器701的一部分或全部还可以包括非易失性随机存取存储器。例如，存储器701还可以存储设备类型的信息。

由上可见，通过本申请方案，电子设备首先将待分割的文本图像输入至已训练好的检测模型中，得到包含有字符的两个以上目标检测框，然后基于上述两个以上目标检测框的纵坐标，确定属于同一文本行的目标检测框，接着将属于同一文本行的目标检测框归入至同一检测框集合中，得到一个以上检测框集合，针对任一检测框集合，基于上述检测框集合中各个目标检测框的横坐标，对上述检测框集合中的各个目标检测框进行排序，在上述检测框集合中的各个目标检测框排序完成后，根据各个目标检测框的高度确定上述检测框集合的目标文本高度，最后通过上述检测框集合的目标文本高度，分割出上述检测框集合中的各个目标检测框，并基于各个目标检测框在上述检测框集合中的排序结果输出，以得到与上述检测框集合相关联的文本行分割结果。通过本申请方案，针对包含有数学公式的文本图像也能实现完整的文本行分割，避免出现字符被截或字符丢失的情况，方便用户基于得到的文本行分割结果对文本作进一步分析处理；并且，针对处于同一文本行的字符，采用一个目标文本高度对该文本行进行整行分割，不用考虑同一文本行中的不同区域，可避免出现文本行分割时的漏检情况，效率较高。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者外部设备软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读存储介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机可读存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括是电载波信号和电信信号。

以上上述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种文本行分割方法，其特征在于，包括：

基于所述两个以上目标检测框的纵坐标，确定属于同一文本行的目标检测框；

针对任一检测框集合，基于所述检测框集合中各个目标检测框的横坐标，对所述检测框集合中的各个目标检测框进行排序；

在所述检测框集合中的各个目标检测框排序完成后，根据各个目标检测框的高度确定所述检测框集合的目标文本高度，包括：遍历所述检测框集合中的各个目标检测框的高度，获得高度最大值；根据所述检测框集合中的各个目标检测框的高度，计算得到高度平均值；检测所述高度最大值与所述高度平均值之间的差异是否超过预设的差异范围；若所述差异超过所述预设的差异范围，则基于所述高度最大值确定目标文本高度；若所述差异未超过所述预设的差异范围，则基于所述高度平均值确定目标文本高度；

通过所述检测框集合的目标文本高度，分割出所述检测框集合中的各个目标检测框，并基于各个目标检测框在所述检测框集合中的排序结果输出，以得到与所述检测框集合相关联的文本行分割结果，包括：将所述检测框集合作为整体通过检测框集合对应的目标文本高度进行分割。

2.如权利要求1所述的文本行分割方法，其特征在于，所述将待分割的文本图像输入至已训练好的检测模型中，得到包含有字符的两个以上目标检测框，包括：

将所述文本图像输入至已训练好的yolov3检测模型中，得到两个以上检测框及每个检测框的得分；

针对任一检测框，检测所述检测框的得分是否超过预设的得分阈值；

将得分超过所述得分阈值的检测框保留为目标检测框。

3.如权利要求1所述的文本行分割方法，其特征在于，所述基于所述两个以上目标检测框的纵坐标，确定属于同一文本行的目标检测框，包括：

针对任一目标检测框，将所述目标检测框的指定顶点的纵坐标作为所述目标检测框的纵坐标；

基于所述两个以上目标检测框的纵坐标的大小，对所述两个以上目标检测框进行排序；

将所述距离未超过所述距离阈值的相邻两个目标检测框确定为属于同一文本行。

4.如权利要求1所述的文本行分割方法，且特征在于，所述检测所述高度最大值与所述高度平均值之间的差异是否超过预设的差异范围，包括：

计算所述高度平均值与所述高度最大值的差值；

若所述差值超过预设的差值阈值，则确定所述高度平均值与所述高度最大值之间的差异超过预设的差异范围；

若所述差值未超过预设的差值阈值，则确定所述高度平均值与所述高度最大值之间的差异未超过预设的差异范围。

5.如权利要求1所述的文本行分割方法，且特征在于，所述检测所述高度平均值与所述高度最大值之间的差异是否超过预设的差异范围，包括：

计算所述高度最大值与所述高度平均值的比值；

若所述比值超过预设的比值阈值，则确定所述高度平均值与所述高度最大值之间的差异超过预设的差异范围；

若所述比值未超过预设的比值阈值，则确定所述高度平均值与所述高度最大值之间的差异未超过预设的差异范围。

6.一种文本行分割装置，其特征在于，包括：

划分单元，用于基于所述两个以上目标检测框的纵坐标，确定属于同一文本行的目标检测框；

排序单元，用于针对任一检测框集合，基于所述检测框集合中各个目标检测框的横坐标，对所述检测框集合中的各个目标检测框进行排序；

确定单元，用于在所述检测框集合中的各个目标检测框排序完成后，根据各个目标检测框的高度确定所述检测框集合的目标文本高度；确定单元包括：高度最大值获取子单元，用于遍历所述检测框集合中的各个目标检测框的高度，获得高度最大值；高度平均值获取子单元，用于根据所述检测框集合中的各个目标检测框的高度，计算得到高度平均值；差异检测子单元，用于检测所述高度最大值与所述高度平均值之间的差异是否超过预设的差异范围；目标文本高度确定子单元，用于若所述差异超过所述预设的差异范围，则基于所述高度最大值确定目标文本高度，若所述差异未超过所述预设的差异范围，则基于所述高度平均值确定目标文本高度；

分割单元，用于通过所述检测框集合的目标文本高度，分割出所述检测框集合中的各个目标检测框，并基于各个目标检测框在所述检测框集合中的排序结果输出，以得到与所述检测框集合相关联的文本行分割结果，包括：将所述检测框集合作为整体通过检测框集合对应的目标文本高度进行分割。

7.如权利要求6所述的文本行分割装置，其特征在于，所述输入单元包括：

文本图像输入子单元，用于将所述文本图像输入至已训练好的yolov3检测模型中，得到两个以上检测框及每个检测框的得分；

检测框得分检测子单元，用于针对任一检测框，检测所述检测框的得分是否超过预设的得分阈值；

目标检测框确定子单元，用于将得分超过所述得分阈值的检测框保留为目标检测框。

8.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。