CN113033563B

CN113033563B - 文本分割方法、装置、电子设备及存储介质

Info

Publication number: CN113033563B
Application number: CN201911360203.0A
Authority: CN
Inventors: 高佳妮; 何小坤
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2022-07-12
Anticipated expiration: 2039-12-25
Also published as: CN113033563A

Abstract

本申请公开了文本分割方法、装置、电子设备及存储介质，涉及图像处理领域。具体实现方案为：将包含目标文本区域的第一灰度图进行二值化处理，得到第一二值图；对所述第一二值图进行形态学变换，得到对应所述目标文本区域的行轮廓的第一掩膜图；采用所述第一掩膜图对包含目标文本区域的第一图像进行掩膜处理，得到所述目标文本区域中每一行字符对应的行文本区域；分别对所述每一行字符对应的行文本区域进行分割，得到所述目标文本区域中的各个字符对应的字符区域。本申请实施例能够实现对作文格子文本图像的自动分割。

Description

文本分割方法、装置、电子设备及存储介质

技术领域

本申请涉及一种图像处理领域，尤其涉及一种文本分割方法、装置、电子设备及存储介质。

背景技术

当前针对文本分割的图像处理技术中，通常是基于行的分割。例如，对表格的分割；表格中包括多行，每行内包括多个字符。对于作文格子文本，目前没有相应的分割方法。其中，作文格子文本是指包括横向框线和纵向框线的文本，并且由横向框线及纵向框线构成的每个框格内至多含有一个汉字等字符。

发明内容

本申请实施例提出一种文本分割方法及装置，以实现对作文格子文本的自动分割。

第一方面，本申请实施例提出一种文本分割方法，包括：

将包含目标文本区域的第一灰度图进行二值化处理，得到第一二值图；

对所述第一二值图进行形态学变换，得到对应所述目标文本区域的行轮廓的第一掩膜图；

采用所述第一掩膜图对包含目标文本区域的第一图像进行掩膜处理，得到所述目标文本区域中每一行字符对应的行文本区域；

分别对所述每一行字符对应的行文本区域进行分割，得到所述目标文本区域中的各个字符对应的字符区域。

在一种实施方式中，所述第一灰度图为对包含所述目标文本区域的第一原始图像进行灰度化处理得到的图像；

所述第一图像为所述第一原始图像、所述第一灰度图或所述第一二值图。

在一种实施方式中，所述第一二值图中的亮色像素对应所述目标文本区域中的字符及作文格子轮廓；

所述对所述第一二值图进行形态学变换，得到对应所述目标文本区域的行轮廓的第一掩膜图，包括：

对所述第一二值图进行膨胀处理，得到第一膨胀图；

查找所述第一膨胀图中的多个外轮廓；

获取各个所述外轮廓的高度，根据获取的高度计算所述多个外轮廓的平均高度；

根据所述平均高度对多个外轮廓进行截断处理；

将截断处理之后的多个外轮廓的内部区域用亮色像素填充，对填充后的图像进行腐蚀处理，得到对应所述目标文本区域的行轮廓的第一掩膜图。

在一种实施方式中，所述分别对所述每一行对应的行文本区域进行分割，包括：

计算所述第一灰度图的纵向梯度图；

对所述纵向梯度图进行二值化处理，得到第二二值图；

对所述第二二值图进行膨胀处理，得到第二膨胀图；

采用所述第二膨胀图，对所述第一二值图进行反掩膜处理，得到框格竖线像素图；

对所述框格竖线像素图进行膨胀处理，得到第三膨胀图；

采用所述第三膨胀图，对所述第一掩膜图进行反掩膜处理，得到文字范围模板图；所述文字范围模板图包括多个行分割图像，每个所述行分割图像对应一个所述行文本区域；

针对各个所述行分割图像，计算所述行分割图像的纵向投影值，确定所述纵向投影值的最低波谷，将所述最低波谷所在的纵线作为所述行分割图像对应的行文本区域的分割线，采用所述分割线对所述行文本区域进行分割。

在一种实施方式中，所述计算所述第一灰度图的纵向梯度图，包括：

对所述第一灰度图进行高斯模糊处理，得到第一平滑图像；

采用纵向梯度算子对所述第一平滑图像进行卷积，得到所述第一灰度图的纵向梯度图。

在一种实施方式中，所述将包含目标文本区域的第一灰度图进行二值化处理之前，还包括：

获取作文文本图像；

将所述作文文本图像进行尺寸规范化处理，得到第一规范图像；

提取所述第一规范图像中的目标文本区域；

将提取的目标文本区域进行水平校正，得到包含目标文本区域的第一原始图像；

对所述包含目标文本区域的第一原始图像进行灰度化处理，得到所述包含目标文本区域的第一灰度图。

在一种实施方式中，所述提取所述第一规范图像中的目标文本区域，包括：

对所述第一规范图像进行能量检测，得到所述目标文本区域对应的检测能量图；

对所述检测能量图进行二值化处理，得到检测能量图的二值图；

采用所述检测能量图的二值图，提取所述第一规范图像中的目标文本区域。

在一种实施方式中，所述将提取的目标文本区域进行水平校正，得到包含目标文本区域的第一原始图像，包括：

对所述第一规范图像进行二值化处理，得到第一规范图像的二值图；

采用所述检测能量图的二值图，对所述第一规范图像的二值图进行掩膜处理，得到文字区域图像；

对所述文字区域图像进行膨胀处理，得到膨胀后的文字区域图像；

查找所述膨胀后的文字区域图像中的轮廓，确定所述轮廓的最小外接矩形；

计算所述最小外接矩形的平均倾斜角度；

根据所述平均倾斜角度，将所述提取的目标文本区域进行水平校正，得到包含目标文本区域的第一原始图像。

第二方面，本申请实施例提出一种作文格子文本分割装置，包括：

行划分模块，用于将包含目标文本区域的第一灰度图进行二值化处理，得到第一二值图；对所述第一二值图进行形态学变换，得到对应所述目标文本区域的行轮廓的第一掩膜图；采用所述第一掩膜图对包含目标文本区域的第一图像进行掩膜处理，得到所述目标文本区域中每一行字符对应的行文本区域；

单格划分模块，用于分别对所述每一行字符对应的行文本区域进行分割，得到所述目标文本区域中的各个字符对应的字符区域。

所述行划分模块，用于对所述第一二值图进行膨胀处理，得到第一膨胀图；查找所述第一膨胀图中的多个外轮廓；获取各个所述外轮廓的高度，根据获取的高度计算所述多个外轮廓的平均高度；根据所述平均高度对多个外轮廓进行截断处理；将截断处理之后的多个外轮廓的内部区域用亮色像素填充，对填充后的图像进行腐蚀处理，得到对应所述目标文本区域的行轮廓的第一掩膜图。

在一种实施方式中，所述单格划分模块，用于计算所述第一灰度图的纵向梯度图；对所述纵向梯度图进行二值化处理，得到第二二值图；对所述第二二值图进行膨胀处理，得到第二膨胀图；采用所述第二膨胀图，对所述第一二值图进行反掩膜处理，得到框格竖线像素图；对所述框格竖线像素图进行膨胀处理，得到第三膨胀图；采用所述第三膨胀图，对所述第一掩膜图进行反掩膜处理，得到文字范围模板图；所述文字范围模板图包括多个行分割图像，每个所述行分割图像对应一个所述行文本区域；针对各个所述行分割图像，计算所述行分割图像的纵向投影值，确定所述纵向投影值的最低波谷，将所述最低波谷所在的纵线作为所述行分割图像对应的行文本区域的分割线，采用所述分割线对所述行文本区域进行分割。

第三方面，本申请实施例提出一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面中任一项所述的方法。

第四方面，本申请实施例提出一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行第一方面中任一项所述的方法

上述申请中的一个实施例具有如下优点或有益效果：本申请实施例通过采用形态学变换及掩膜处理等方式，首先将包含作文格子图像的目标文本区域进行分行，得到各行字符对应的行文本区域；再对各个行文本区域进行分割，得到各个作文格子中的字符对应的字符区域，从而实现对作文格子文本图像的自动分割。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为根据本申请实施例的一种文本分割方法的实现流程图；

图2A为根据本申请实施例的包含目标文本区域的第一灰度图的示意图；

图2B为根据本申请实施例的第一二值图的示意图；

图2C为根据本申请实施例的第一膨胀图的示意图；

图2D为根据本申请实施例的第一掩膜图的示意图；

图2E为目标文本区域中每一行字符对应的行文本区域；

图2F为根据本申请实施例划分出的多个字符区域的示意图；

图2G为根据本申请实施例的第一灰度图的纵向梯度图的示意图；

图2H为根据本申请实施例的第二膨胀图的示意图；

图2I为根据本申请实施例的对第二膨胀图取反后所得图的示意图；

图2J为根据本申请实施例的框格竖线像素图的示意图；

图2K为根据本申请实施例的第三膨胀图的示意图；

图2L为根据本申请实施例的对第三膨胀图取反后所得图的示意图；

图2M为根据本申请实施例的文字范围模板图的示意图；

图2N为文字范围模板图中的第一个行分割图像的纵向投影值的波值图；

图2O为文字范围模板图中的第二个行分割图像的纵向投影值的波值图；

图3为根据本申请实施例的一种文本分割方法中，步骤S12的实现流程图；

图4为根据本申请实施例的一种文本分割方法中，步骤S14的实现流程图；

图5为根据本申请实施例的一种文本分割方法中，采用初始的作文文本图像变换得到目标文本区域的第一灰度图的实现流程图；

图6A为根据本申请实施例的第一规范图像的示意图；

图6B为根据本申请实施例的检测能量图的示意图；

图6C为根据本申请实施例中检测能量图的二值图的示意图；

图6D为根据本申请实施例的第一规范图像的二值图的示意图；

图6E为根据本申请实施例的文字区域图像的示意图；

图6F为根据本申请实施例的膨胀后的文字区域图像的示意图；

图7为根据本申请实施例的一种文本分割方法中，提取第一规范图像中的目标文本区域的实现流程图；

图8为根据本申请实施例的一种文本分割方法中，将提取的目标文本区域进行水平校正，得到包含目标文本区域的第一原始图像的实现流程图；

图9为根据本申请实施例的作文格子文本分割装置结构示意图；

图10是用来实现本申请实施例的文本分割方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例提出一种文本分割方法，图1为根据本申请实施例的一种文本分割方法的实现流程图，包括：

步骤S11：将包含目标文本区域的第一灰度图进行二值化处理，得到第一二值图；

步骤S12：对第一二值图进行形态学变换，得到对应目标文本区域的行轮廓的第一掩膜图；

步骤S13：采用第一掩膜图对包含目标文本区域的第一图像进行掩膜处理，得到目标文本区域中每一行字符对应的行文本区域；

步骤S14：分别对每一行字符对应的行文本区域进行分割，得到目标文本区域中的各个字符对应的字符区域。

上述步骤中，目标文本区域可以指一幅作文图片中所有行的作文格子的区域，行文本区域可以指一幅作文图片中单独一行作文格子的区域，字符区域可以指一幅作文图片中单独一个作文格子的区域。

图2A为根据本申请实施例的包含目标文本区域的第一灰度图的示意图。如图2A所示，目标文本区域包括多行作文格子的区域；在第一灰度图中，作文格子内部的字符及作文格子的框线显示为暗色、其余部分显示为亮色。

上述第一灰度图可以指对包含目标文本区域的第一原始图像进行灰度化处理得到的图像；其中，第一原始图像可以指：对摄像机或扫描仪获取到的作文文本图像进行尺寸规范化处理、提取目标文本区域及水平校正之后得到的图像。第一原始图像的生成方式将在后续实施例中详细介绍。

图2B为根据本申请实施例的第一二值图的示意图。如图2B所示，第一二值图中的亮色像素对应目标文本区域中作文格子内部的字符及作文格子的框线，暗色像素对应目标文本区域中的背景区域。

图3为根据本申请实施例的一种文本分割方法中，步骤S12的实现流程图，包括：

步骤S121：对第一二值图(如图2B所示)进行膨胀处理，得到第一膨胀图。图2C为根据本申请实施例的第一膨胀图的示意图。膨胀是形态学变换中的一种基本操作，膨胀处理是针对图片中的亮色区域，使图片中的亮色区域变大。由图2B和图2C的对比可见，与图2B相比，图2C中的字符笔画及作文格子的框线均变粗。在一种实施方式中，可以采用较小的卷积核进行膨胀处理。

步骤S122：查找第一膨胀图(如图2C所示)中的多个外轮廓。

步骤S123：获取各个外轮廓的高度，根据获取的高度计算多个外轮廓的平均高度。

步骤S124：根据平均高度对多个外轮廓进行截断处理。

步骤S125：将截断处理之后的多个外轮廓的内部区域用亮色像素填充，对填充后的图像进行腐蚀处理，得到对应目标文本区域的行轮廓的第一掩膜图。腐蚀是形态学变换中的另一种基本操作，腐蚀处理是针对图片中的亮色区域，使图片中的亮色区域变小。在一种实施方式中，可以采用比步骤S121使用的卷积核稍大一些的卷积核进行腐蚀处理。

图2D为根据本申请实施例的第一掩膜图的示意图。如图2D所示，第一掩膜图中的亮色像素对应目标文本区域中各行作文格子的区域，暗色像素对应其他区域。

由于步骤S122中查找到的外轮廓中可能存在两行作文格子或多行作文格子粘连的情况，为了将这些粘连的外轮廓拆开，采用了上述步骤S123及步骤S124对存在粘连情况的外轮廓进行纵向截断。

在步骤S124中，可以将各个外轮廓的高度分别与预设倍数的平均高度进行比较，识别出高度大于预设倍数的平均高度的外轮廓，这些识别出的外轮廓即为存在粘连情况的外轮廓。对于各个存在粘连情况的外轮廓，在一种可能的实施方式中，可以检测该外轮廓中最长的水平直线(最长的水平直线可能存在一条或一条以上)，利用最长的水平直线对该外轮廓进行截断处理，得到两个或多个新的外轮廓。或者，在另一种可能的实施方式中，可以计算高度不大于预设倍数的平均高度的外轮廓的平均高度，采用该平均高度对存在粘连情况的外轮廓进行截断处理。后续地，对截断处理后得到的新的外轮廓以及原始外轮廓(即高度不大于预设倍数的平均高度的外轮廓)，继续执行上述步骤S125。

上述步骤S13中，采用第一掩膜图对包含目标文本区域的第一图像进行掩膜处理，得到目标文本区域中每一行字符对应的行文本区域。其中，第一图像可以为第一原始图像、第一灰度图(如图2A所示)或第一二值图(如图2B所示)。与第一灰度图相比，第一原始图像可以是彩色图像。

掩膜处理可以指采用预先制作的掩膜图与待处理图像相乘，得到待处理图像中感兴趣区的图像，其中，感兴趣区是指掩膜图中亮色像素所在的区域。掩膜处理之后，待处理图像中感兴趣区内的图像像素保持不变，而感兴趣区外的图像像素被屏蔽掉。以步骤S13中的第一图像是第一灰度图为例，采用第一掩膜图(如图2D所示)对第一灰度图(如图2A所示)进行掩膜处理，得到目标文本区域中每一行字符对应的行文本区域，如图2E所示。

经过上述步骤S11至步骤S13，实现了将每一行字符对应的行文本区域划分开来。后续采用上述步骤S14，可以分别对每一行字符对应的行文本区域进行分割，从而实现将每个字符对应的字符区域划分出来。图2F为根据本申请实施例划分出的多个字符区域的示意图。为了实现对行文本区域中的字符区域的分割，步骤S14中可以首先识别出每一个行文本区域中作文格子的框格竖线所在的位置，之后将该位置所在的纵线作为分割线，采用分割线对该行文本区域进行分割。

图4为根据本申请实施例的一种文本分割方法中，步骤S14的实现流程图，包括：

步骤S141：计算第一灰度图的纵向梯度图。

在一种实施方式中，可以先对第一灰度图(如图2A所示)进行高斯模糊处理，得到第一平滑图像；例如，采用尺寸为3×3的卷积核对第一灰度图进行卷积，得到第一平滑图像。高斯模糊可以实现降低图像噪声及降低细节层次。第一平滑图像与第一灰度图从肉眼看差别不大，故不再提供第一平滑图像的示意图，可以参考图2A所示的第一灰度图。之后，可以采用纵向梯度算子对第一平滑图像进行卷积，得到第一灰度图的纵向梯度图；例如，采用尺寸为3×3、差分阶数为1的纵向索贝尔(Sobel)算子对第一平滑图像进行卷积。或者，在另一种实施方式中，也可以直接采用纵向梯度算子对第一灰度图进行卷积，得到第一灰度图的纵向梯度图。

具体地，可以采用式子(1)进行计算：

S_sobely(x，y)＝Gy*A (1)

其中，S_sobely(x，y)表示纵向梯度图中横坐标为x、纵坐标为y的像素的灰度值；

Gy为表示尺寸为3×3、差分阶数为1的纵向索贝尔(Sobel)算子；Gy可以采用式子(2)表示：

*表示卷积；

A表示第一灰度图中以横坐标为x、纵坐标为y的像素为中心的，尺寸为3×3的9个像素的灰度值组成的矩阵；该矩阵的维度为3×3，该矩阵中每个元素的值等于对应位置像素的灰度值。

图2G为根据本申请实施例的第一灰度图的纵向梯度图的示意图。如图2G所示，第一灰度图的纵向梯度图中去掉了作文格子的框格竖线及作文格子中文字的竖向笔画，保留了作文格子的框格横线及作文格子中文字的横向笔画。在图2G中，笔画及框线显示为亮色像素，其余显示为暗色像素。

步骤S142：对纵向梯度图进行二值化处理，得到第二二值图。

第二二值图与纵向梯度图从肉眼看差别不大，故不再提供第二二值图的示意图。

步骤S143：对第二二值图进行膨胀处理，得到第二膨胀图。

图2H为根据本申请实施例的第二膨胀图的示意图。如图2H所示，由于汉字的特性，每个作文格子中的汉字所在区域会被膨胀后的笔画填充。

步骤S144：采用第二膨胀图，对第一二值图(如图2B所示)进行反掩膜处理，得到框格竖线像素图。

在一种实施方式中，上述反掩膜处理可以指：首先对第二膨胀图进行取反，之后采用取反后的图对第一二值图进行掩膜处理。其中，取反可以指将将图中的亮色像素变为暗色像素，并将图中的暗色像素变为亮色像素。图2I为根据本申请实施例的对第二膨胀图取反后所得图的示意图。

采用取反后的图对第一二值图(如图2B所示)进行掩膜处理，得到框格竖线像素图。图2J为根据本申请实施例的框格竖线像素图的示意图。如图2J所示，框格竖线像素图中去掉了作文格子中的汉字及框格横线，仅保留了框格竖线、以及作文格子中残留的少量汉字笔画；框格竖线及残留的汉字笔画用亮色像素表示，其余部分用暗色像素表示。

步骤S145：对框格竖线像素图进行膨胀处理，得到第三膨胀图。

图2K为根据本申请实施例的第三膨胀图的示意图。

步骤S146：采用第三膨胀图，对第一掩膜图(如图2D所示)进行反掩膜处理，得到文字范围模板图；所述文字范围模板图包括多个行分割图像，每个所述行分割图像对应一个所述行文本区域。

本步骤中的反掩膜处理与上述步骤S144中的反掩膜处理方式相同，即，首先对第三膨胀图进行取反，图2L为根据本申请实施例的对第三膨胀图取反后所得图的示意图。之后，采用取反后得到的图对第一掩膜图进行掩膜处理，得到文字范围模板图。图2M为根据本申请实施例的文字范围模板图的示意图。如图2M所示，文字范围模板图中去掉了作文格子的框格横线及竖线像素。

步骤S147：针对文字范围模板图中的各个行分割图像，计算行分割图像的纵向投影值，确定纵向投影值的最低波谷，将最低波谷所在的纵线作为该行分割图像对应的行文本区域的分割线，采用该分割线对该行文本区域进行分割。其中，图2E中包含多个行文本区域。

如图2M所示，文字范围模板图中存在一些汉字笔画区域的像素噪点(暗色像素)，造成一些作文格子的框格内部存在空洞。但是，这些空洞不会使框格内部的连通区域断开，因此可以利用每一行的纵向投影值的最低波谷对每个作文格子的区域进行分割。

在一种实施方式中，计算行分割图像的纵向投影值可以指：统计行分割图像的每一列像素中包含的亮色像素的个数，将亮色像素的个数作为该列像素所在位置的纵向投影值；可见，亮色像素个数越少，该列像素所在位置的纵向投影值越小。

图2N为文字范围模板图中的第一个行分割图像的纵向投影值的波值图，图2O为文字范围模板图中的第二个行分割图像的纵向投影值的波值图。如图2N和图2O所示，纵向投影值的最低波谷均出现在作文格子的框格竖线所在的位置；作文格子内部也可能出现纵向投影值的波谷，但这些波谷并不是最低波谷，这些波谷的纵向投影值相对较低，是由于文字范围模板图中存在的汉字笔画区域的像素噪点造成的。

采用图2N所示纵向投影值的波值图中的最低波谷所在的纵线，作为图2E中第一个行文本区域的分割线，将图2E中的第一个行文本区域分割为字符对应的字符区域。同样地，采用图2O所示纵向投影值的波值图中的最低波谷所在的纵线，作为图2E中第二个行文本区域的分割线，将图2E中的第二个行文本区域分割为字符对应的字符区域。按照同样的方式对图2E中的各个行文本区域进行分割，最终得到目标文本区域中的各个字符对应的字符区域，如图2F即示出了部分字符对应的字符区域。

以上过程需要使用包含目标文本区域的第一灰度图(如图2A所示)，最终实现了对目标文本区域中的字符区域的分割。其中，目标文本区域的第一灰度图是由初始的作文文本图像经过一系列变换得到的；在以下实施例中，将介绍对初始的作文文本图像变换，得到目标文本区域的第一灰度图的具体实现方式。

图5为根据本申请实施例的一种文本分割方法中，采用初始的作文文本图像变换得到目标文本区域的第一灰度图的实现流程图，包括：

步骤S51：获取作文文本图像。其中，作文文本图像可以采用摄像装置或扫描仪获取。

步骤S52：将作文文本图像进行尺寸规范化处理，得到第一规范图像。

例如，对于宽w大于规定规范宽度W、或者高h大于规定规范高度H的作文文本图像，可以按比例缩小，缩小比例为

得到第一规范图像，以使第一规范图像满足规定尺寸。图6A为根据本申请实施例的第一规范图像的示意图。

步骤S53：提取第一规范图像中的目标文本区域。

在一种实施方式中，目标文本区域为作文格子包含的区域。

步骤S54：将提取的目标文本区域进行水平校正，得到包含目标文本区域的第一原始图像；

步骤S55：对包含目标文本区域的第一原始图像进行灰度化处理，得到所述包含目标文本区域的第一灰度图(如图2A所示)。第一原始图像与第一灰度图类似，不同点在于，第一原始图像中为彩色图像。

以下结合附图，分别介绍上述步骤S53和步骤S54。

图7为根据本申请实施例的一种文本分割方法中，提取第一规范图像中的目标文本区域(上述步骤S53)的实现流程图，包括：

步骤S531：对第一规范图像进行能量检测，得到目标文本区域对应的检测能量图。

在一种实施方式中，可以采用TextSnake模型进行能量检测。图6B为根据本申请实施例的检测能量图的示意图，比较图6A和图6B可见，图6A中存在字符的作文格子内部区域，对应在图6B中为较亮区域。

步骤S532：对检测能量图进行二值化处理，得到检测能量图的二值图。

图6C为根据本申请实施例中检测能量图的二值图的示意图。比较图6C和图6B可见，由于图6C是二值图，只存在2种像素，因此图6C的黑白界限更为清晰。在图6C中，前景区域(亮色像素所在的区域)即为存在字符的作文格子所在区域。

步骤S533：采用检测能量图的二值图，提取第一规范图像中的目标文本区域。

在一种实施方式中，可以根据检测能量图的二值图中各个亮色区域的范围，确定能够涵盖所有亮色区域的最小范围；采用确定出的最小范围，从第一规范图像中提取目标文本区域。

图8为根据本申请实施例的一种文本分割方法中，将提取的目标文本区域进行水平校正，得到包含目标文本区域的第一原始图像(上述步骤S54)的实现流程图，包括：

步骤S541：对第一规范图像(如图6A所示)进行二值化处理，得到第一规范图像的二值图。

图6D为根据本申请实施例的第一规范图像的二值图的示意图。在图6D中，作文格子框线及字符笔画用亮色像素表示，其余部分用暗色像素表示。

步骤S542：采用检测能量图的二值图(如图6C所示)，对第一规范图像的二值图(如图6D所示)进行掩膜处理，得到文字区域图像。

图6E为根据本申请实施例的文字区域图像的示意图。

步骤S543：对文字区域图像进行膨胀处理，得到膨胀后的文字区域图像。

在一种实施方式中，可以对文字区域图像进行横向的膨胀。图6F为根据本申请实施例的膨胀后的文字区域图像的示意图。

步骤S544：查找膨胀后的文字区域图像中的轮廓，确定轮廓的最小外接矩形。

在一种实施方式中，查找到轮廓之后，可以根据预设的轮廓尺寸阈值，去除尺寸过大或过小的轮廓；确定剩余轮廓的最小外接矩形。确定出的每个最小外接矩形包含多个连续的作文格子。

步骤S545：计算最小外接矩形的平均倾斜角度。

在一种实施方式中，最小外接矩形的倾斜角度的确定方式可以为：

首先确定坐标系：将整个图像的左上角作为原点，水平方向作为x轴，竖直方向作为y轴；

之后，将x轴以原点为基准做逆时针旋转，确定最小外接矩形中首先与旋转后的x轴平行的边；

最后，确定该边的延长线与旋转之前的x轴的夹角，该夹角即为最小外接矩形的倾斜角度。

最小外接矩形的平均倾斜角度基本可以等同于目标文本区域的倾斜角度。据此，可以对目标文本区域进行水平校正，即继续执行以下步骤S546。

步骤S546：根据最小外接矩形的平均倾斜角度，将提取的目标文本区域进行水平校正，得到包含目标文本区域的第一原始图像。

包含目标文本区域的第一原始图像与图2A所示的包含目标文本区域的第一灰度图类似；不同点在于，前者是彩色图像，后者是灰度图像。

在一种实施方式中，上述水平校正可以采用式子(3)所示的变换公式实现：

其中(x₀，y₀)表示提取的目标文本区域中像素的坐标；

(x，y)表示水平校正后对应像素的坐标；

θ表示最小外接矩形的平均倾斜角度。

以上通过图5至图8对应的相关步骤及附图，介绍了从初始的作文格子文本图像得到包含目标文本区域的第一灰度图的实现流程。再结合图1至图4所示的分割过程，实现了将作文格子文本图像自动分割为各个字符对应的图像区域。

本申请实施例还提出一种作文格子文本分割装置，图9为根据本申请实施例的作文格子文本分割装置结构示意图，包括：

行划分模块910，用于将包含目标文本区域的第一灰度图进行二值化处理，得到第一二值图；对所述第一二值图进行形态学变换，得到对应所述目标文本区域的行轮廓的第一掩膜图；采用所述第一掩膜图对包含目标文本区域的第一图像进行掩膜处理，得到所述目标文本区域中每一行字符对应的行文本区域；

单格划分模块920，用于分别对所述每一行字符对应的行文本区域进行分割，得到所述目标文本区域中的各个字符对应的字符区域。

在一种实施方式中，第一二值图中的亮色像素对应所述目标文本区域中的字符及作文格子轮廓；

所述行划分模块910，用于对所述第一二值图进行膨胀处理，得到第一膨胀图；查找所述第一膨胀图中的多个外轮廓；获取各个所述外轮廓的高度，根据获取的高度计算所述多个外轮廓的平均高度；根据所述平均高度对多个外轮廓进行截断处理；将截断处理之后的多个外轮廓的内部区域用亮色像素填充，对填充后的图像进行腐蚀处理，得到对应所述目标文本区域的行轮廓的第一掩膜图。

在一种实施方式中，所述单格划分模块920，用于计算所述第一灰度图的纵向梯度图；对所述纵向梯度图进行二值化，得到第二二值图；对所述第二二值图进行膨胀处理，得到第二膨胀图；采用所述第二膨胀图，对所述第一二值图进行反掩膜处理，得到框格竖线像素图；对所述框格竖线像素图进行膨胀处理，得到第三膨胀图；采用所述第三膨胀图，对所述第一掩膜图进行反掩膜处理，得到文字范围模板图；所述文字范围模板图包括多个行分割图像，每个所述行分割图像对应一个所述行文本区域；针对各个所述行分割图像，计算所述行分割图像的纵向投影值，确定所述纵向投影值的最低波谷，将所述最低波谷所在的纵线作为所述行分割图像对应的行文本区域的分割线，采用所述分割线对所述行文本区域进行分割。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图10所示，是根据本申请实施例的文本分割方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示，该电子设备包括：一个或多个处理器1001、存储器1002，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。

存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的文本分割方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的文本分割方法。

存储器1002作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的文本分割方法对应的程序指令/模块(例如，附图9所示的行划分模块910和单格划分模块920)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的文本分割方法。

存储器1002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据文本分割的电子设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1002可选包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至作文格子文本分割的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

文本分割方法的电子设备还可以包括：输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接，图10中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息，以及产生与文本分割的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(Liquid Crystal Display，LCD)、发光二极管(Light EmittingDiode，LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuits，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(programmable logic device，PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode Ray Tube，阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种文本分割方法，其特征在于，包括：

计算所述第一灰度图的纵向梯度图；

对所述纵向梯度图进行二值化处理，得到第二二值图；

对所述第二二值图进行膨胀处理，得到第二膨胀图；

对所述框格竖线像素图进行膨胀处理，得到第三膨胀图；

采用所述第三膨胀图，对所述第一掩膜图进行反掩膜处理，得到文字范围模板图；所述文字范围模板图包括多个行分割图像，每个所述行分割图像对应一个行文本区域；

分别对每个所述行分割图像对应的行文本区域进行分割，得到所述目标文本区域中的各个字符对应的字符区域。

2.根据权利要求1所述的方法，其特征在于，

所述第一灰度图为对包含所述目标文本区域的第一原始图像进行灰度化处理得到的图像；

第一图像为所述第一原始图像、所述第一灰度图或所述第一二值图。

3.根据权利要求1或2所述的方法，其特征在于，所述第一二值图中的亮色像素对应所述目标文本区域中的字符及作文格子轮廓；

对所述第一二值图进行膨胀处理，得到第一膨胀图；

查找所述第一膨胀图中的多个外轮廓；

根据所述平均高度对多个外轮廓进行截断处理；

4.根据权利要求1所述的方法，其特征在于，所述分别对每个所述行分割图像对应的行文本区域进行分割，包括：

5.根据权利要求1所述的方法，其特征在于，所述计算所述第一灰度图的纵向梯度图，包括：

对所述第一灰度图进行高斯模糊处理，得到第一平滑图像；

6.根据权利要求2所述的方法，其特征在于，所述将包含目标文本区域的第一灰度图进行二值化处理之前，还包括：

获取作文文本图像；

提取所述第一规范图像中的目标文本区域；

7.根据权利要求6所述的方法，其特征在于，所述提取所述第一规范图像中的目标文本区域，包括：

8.根据权利要求7所述的方法，其特征在于，所述将提取的目标文本区域进行水平校正，得到包含目标文本区域的第一原始图像，包括：

计算所述最小外接矩形的平均倾斜角度；

9.一种文本分割装置，其特征在于，包括：

行划分模块，用于将包含目标文本区域的第一灰度图进行二值化处理，得到第一二值图；对所述第一二值图进行形态学变换，得到对应所述目标文本区域的行轮廓的第一掩膜图；计算所述第一灰度图的纵向梯度图；对所述纵向梯度图进行二值化处理，得到第二二值图；对所述第二二值图进行膨胀处理，得到第二膨胀图；采用所述第二膨胀图，对所述第一二值图进行反掩膜处理，得到框格竖线像素图；对所述框格竖线像素图进行膨胀处理，得到第三膨胀图；采用所述第三膨胀图，对所述第一掩膜图进行反掩膜处理，得到文字范围模板图；所述文字范围模板图包括多个行分割图像，每个所述行分割图像对应一个行文本区域；

单格划分模块，用于分别对每个所述行分割图像对应的行文本区域进行分割，得到所述目标文本区域中的各个字符对应的字符区域。

10.根据权利要求9所述的装置，其特征在于，所述第一二值图中的亮色像素对应所述目标文本区域中的字符及作文格子轮廓；

11.根据权利要求10所述的装置，其特征在于，所述单格划分模块，用于针对各个所述行分割图像，计算所述行分割图像的纵向投影值，确定所述纵向投影值的最低波谷，将所述最低波谷所在的纵线作为所述行分割图像对应的行文本区域的分割线，采用所述分割线对所述行文本区域进行分割。

12.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。