CN112598004A

CN112598004A - 一种基于扫描的英语作文试卷版面分析方法

Info

Publication number: CN112598004A
Application number: CN202011514723.5A
Authority: CN
Inventors: 李哲; 侯冲; 陈家海; 叶家鸣; 吴波
Original assignee: Anhui Seven Day Education Technology Co ltd
Current assignee: Anhui Seven Day Education Technology Co ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-04-02

Abstract

本发明公开了一种基于扫描的英语作文试卷版面分析方法，涉及文本检测领域。针对扫描的英语作文试卷这种特殊的文档图像数据，提出了基于语义分割方法解决手写文本检测的方案。整体基于语义分割网络架构，利用Resnet‑Block(残差结构)提取手写文本特征，实现英语作文试卷前景和背景的分离，并设计了多比例特征图融合机制和特殊的图像标签预处理机制，提高了手写文本检测召回率，提高了不规则形状文本检测效果，解决了近邻文本行的易粘连难分割问题，简化了语义分割的后处理过程，提高了OCR(光学字符识别)效率。本发明主要包含以下步骤：数据预处理、网络结构设计、目标函数设计、网络输出后处理。

Description

一种基于扫描的英语作文试卷版面分析方法

技术领域

本发明涉及深度学习图像语义分割领域，具体涉及到一种基于扫描的英语试卷作文版面分析方法。

背景技术

现有的基于英语作文试卷版面分析方法主要分为基于传统图像处理算法和基于深度学习方法。不同的方法都是基于提取图像中的内容特征区分手写文本区域和其他区域。

传统图像处理算法主要提取图像中几何信息，例如作文答题区域边界框，以及答题框内答题线信息来确定学生手写英语文本位置信息。通过调研和实验发现提取几何信息能够检测提取出文本位置信息，但是当扫描图片包含扫描噪声，学生涂改书写错误答案破坏答题线，作文答题线非常规几何形状的时候，传统算法并不能很好的泛化上述情况，无法有效完整提取学生答题区域。

基于深度学习方法主要分为文本行检测和文本语义分割。文本行检测能够有效检测水平竖直倾斜文本，能够有效定位学生手写文本，能够有效区分非答题机器打印文本和手写文本，但是学生答题文档与普通打印文档不同在于，学生在修改答题答案时，在空白处书写非水平文本，文本检测方法很难处理任意形状文本定位。基于文本语义分割能够有效分割手写文本区域和非手写文本区域，能够解决处理书写文本的不规则形状，但是分割方法在处理密集文本时，非常容易将多行文本融合提取，不能分割文本行相互重叠的情况，导致后处理非常复杂。

综上所述，对于英语作文试卷文本区域提取，采用现有方法并不可行。本发明将基于英语作文答题试卷上述的特性，提出一种合理高效高准确率的版面分析方法。

发明内容

本发明的目的在于：针对英语作文试卷进行版面分析，设计合理的方法，分割学生答题区域和非答题区域，提取答题区域文本，消除依赖几何信息提取文本区域，能够检测任意形状手写文本以及密集文本分割不粘连，提供一种基于扫描的英语试卷作文版面分析方法。

本发明采用的技术方案如下：

一种基于扫描的英语作文试卷版面分析方法，基于语义分割网络U-net结构设计，其主要特征在于，包含Resnet-Block特征提取部分、多尺度特征图融合部分、网络输出定义部分以及数据标签预处理部分。

其中包含Resnet-Block特征提取部分：作文图片特征提取使用U-net结构网络，图像特征提取过程维度变换如图2所示，矩形代表三维图像特征，数字表示图像通道数。其中，为了更好的捕捉图像细节特征，同时减少网络参数，卷积模块使用Resnet结构的Resnet-Block，如图3所示。

其中多尺度特征图融合部分：在图像下采样阶段分别保存原始图像尺寸的二分之一、四分之一、八分之一和十六分之一大小的特征图，在图像特征上采样的过程中分别融合不同尺度大小的特征图，使用特征通道拼接，然后使用1x1卷积进行特征融合。不同尺度的特征能够分割不同尺寸大小的文本行，尺寸较大特征图能够保留图片中较短文本行特征，比如每个段落最后一行短文本或者书信格式作文的开头落款文本；尺寸较小特征图由于拥有较大的感受野，能够保留原始图片中长文本行的图像特征；通过1x1卷积进行特征融合能够减少网络参数，融合长短文本所需图像特征，能够有效检测出英语作文图片中不同尺寸的文本行，网络结构如图4所示。

其中网络输出定义部分：由于英语作文试卷学生答题的多样性，既包含整行长文本又包含单词级别短文本，在保证网络前向推理速度和文本分割召回率的同时，使用原始图像长宽一半大小的特征图作为网络的最终输出。输出图像包含7层channel，即输出特征图为(H/2,W/2,7)维度。其中第一个channel维度表示原始图像文本区域Mask表示，第二和第三维度表示文本区域属于文本开始部分还是结束部分，第四五六七维度则表示文本开头或结尾部分回归的坐标值。整体输出如图4所示。根据网络输出第一维度信息确定分割文本位置，根据第二三维度信息确定文本区域头部和尾部，最后根据最后四个维度的坐标信息确定最终文本行位置。

其中数据标签预处理部分：英语作文试卷中的文本信息与传统扫描文档文本信息稍有区别，传统文档文本行之间具有较明显空隙，行与行之间没有任何粘连，英语作文试卷会包含行与行间隙较小，字符粘连等问题，如图5所示，对于传统分割算法是灾难性的。为了避免Ground Truth相互重叠，将Ground Truth等长宽等比例缩减20％，在不影响训练收敛情况增大文本行之间间距。同时为了更好预测文本的连续性，需要标注文本行的头尾信息，仅根据头尾信息预测文本行的左上角和右下角边界坐标，能够有效降低计算量并同时提高坐标回归的准确度。

其中，包括以下具体步骤：

步骤一、数据预处理：由于英语作文试卷文本粘连，文本行间距小的特性，在标注数据时，对原始Ground Truth进行范围缩小，原始Ground Truth与新Ground Truth对比如图7所示。其中，外层深灰色框表示文本原始标注Ground Truth，内层深灰色框表示缩减之后Ground Truth，浅灰色框标记文本行头尾部分。经过上述处理，在不影响训练情况下，文本行之间不具有粘连情况，最终Ground Truth如图8所示。

步骤二、网络结构设计：针对英语作文答题区域文本分割，使用U-net结构网络加Resnet-Block结构，分别提取原始图像长宽维度的二分之一，四分之一，八分之一和十六分之一高级抽象特征。网络感受野覆盖所有文本尺寸，其中小尺度特征图负责分割大长文本，大尺度特征图负责分割小文本，保证文本分割的召回率，网络实现结构如图9所示。

步骤三、训练目标表示设计：网络的训练目标主要针对网络的输出三个部分，分别是Score map(文本区域置信度)，Side vertex(边界顶点分类)和Side coordinate(边界顶点)。其中文本置信度和边界顶点分类属于分类问题，使用分类损失即可，例如交叉熵损失。边界顶点预测属于回归问题，使用回归损失，例如L1损失，L2损失或者Smooth L1损失等。将三部分损失加权求和作为训练总目标函数进行训练，使用梯度下降法优化参数，寻找最优解。

步骤四、网络输出后处理：根据网络输出文本区域置信度和边界顶点分类确定文本位置，根据头部节点集合内所有点预测的左上角坐标加权平均值确定文本边框的左上角顶点位置，同样根据尾部节点集合内所有点预测的右下角坐标加权平均值确定文本框的右下角顶点位置，根据左上角和右下角坐标信息可以确定文本框位置，根据NMS算法合并多余的重复的文本框，最终得到学生答题文本区域，效果如图1所示。

有益效果

一种基于扫描的英语作文试卷版面分析方法，提高了手写文本检测召回率，提高了不规则形状文本检测准确率，解决了近邻文本行的易粘连难分割问题，简化了语义分割的后处理过程，提高了OCR(光学字符识别)准确率与效率。

附图说明

图1为本发明的分割及提取学生答题区域效果图；

图2为本发明的特征提取图像变换图；

图3为本发明的Resnet-Block结构图；

图4为本发明的网络输出结构图；

图5为本发明的作文试卷样本图；

图6为本发明的整体流程图；

图7为本发明的样本标签缩减对比图；

图8为本发明的训练样本Ground Truth效果图；

图9为本发明的特征提取网络设计图。

具体实施方式

具体实施主要包含数据预处理，网络结构设计，训练目标表示设计及数据后处理几个步骤，整体流程如图6所示。

Claims

1.一种基于扫描的英语作文试卷版面分析方法，基于语义分割网络U-net结构设计，其特征在于，包含Resnet-Block特征提取部分、多尺度特征图融合部分、网络输出定义部分以及数据标签预处理部分。

2.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法，其特征在于，所述Resnet-Block特征提取部分能够在加大网络层数的同时，不增加网络参数的优化难度；在计算机视觉里，特征的等级随着网络深度的加深而变高，提高网络深度是实现好的效果的重要因素之一；然而梯度消散或爆炸成为训练深层次的网络的障碍，导致无法收敛；虽然初始归一化、层输入归一化等方式可以使得网络的深度提升为原来的数倍，然而，目标损失收敛了，但网络却开始退化了，即增加网络层数却导致更大的误差；Resnet-Block结构的设计，使得网络梯度反向传播始终保持较大值，能够保持网络深度的同时，保证网络不退化。

3.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法，其特征在于，所述多尺度特征图融合部分具体描述为：在图像下采样阶段分别保存原始图像尺寸二分之一、四分之一、八分之一和十六分之一大小的特征图，在图像特征上采样的过程中分别融合不同尺度大小的特征图，使用特征通道拼接，然后使用1x1卷积进行特征融合；不同尺度的特征能够分割不同尺寸大小的文本行，尺寸较大特征图能够保留图片中较短文本行特征，每个段落最后一行短文本或者书信格式作文的开头落款文本；尺寸较小特征图由于拥有较大的感受野，能够保留原始图片中长文本行的图像特征；通过1x1卷积进行特征融合能够减少网络参数，融合长短文本所需图像特征，能够有效检测出英语作文图片中不同尺寸的文本行。

4.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法，其特征在于，所述网络输出定义部分具体描述为：输出图像包含7层channel(通道)，即输出特征图为(H/2,W/2,7)维度；其中第一个channel维度表示原始图像文本区域Mask表示，第二和第三维度表示文本区域属于文本开始部分还是结束部分，第四五六七维度则表示文本开头或结尾部分回归的坐标值；根据网络输出第一维度信息确定分割文本位置，根据第二三维度信息确定文本区域头部和尾部，最后根据最后四个维度的坐标信息确定最终文本行位置。

5.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法，其特征在于，所述数据标签预处理部分具体描述为：英语作文试卷中的文本信息与传统扫描文档文本信息稍有区别，传统文档文本行之间具有较明显空隙，行与行之间没有任何粘连，英语作文试卷会包含行与行间隙较小、字符粘连等问题，对于传统分割算法是灾难性的。为了避免GroundTruth(标签)相互重叠，将Ground Truth等长宽等比例缩减20％，在不影响训练收敛情况增大文本行之间间距；同时为了更好预测文本的连续性，需要标注文本行的头尾信息，仅根据头尾信息预测文本行的左上角和右下角边界坐标，能够有效降低计算量并提高坐标回归准确度。

6.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法，其特征在于，包括以下具体步骤：

步骤一、数据预处理：由于英语作文试卷文本粘连，文本行间距小的特性，在标注数据时，对原始Ground Truth进行范围缩小，在新Ground Truth中按照一定比例选取文本行头部份像素集合和文本行尾部份像素集合；

步骤二、网络结构设计：针对英语作文答题区域文本分割，使用U-net结构网络加Resnet-Block结构，分别提取原始图像长宽维度的二分之一，四分之一，八分之一和十六分之一高级抽象特征；网络感受野覆盖所有文本尺寸，其中小尺度特征图负责分割大长文本，大尺度特征图负责分割小文本，保证文本分割的召回率；

步骤三、训练目标表示设计：网络的训练目标主要针对网络的输出三个部分，分别是Score map(文本区域置信度)，Side vertex(边界顶点分类)和Side coordinate(边界顶点)；其中文本置信度和边界顶点分类属于分类问题，使用分类损失即可，例如交叉熵损失；边界顶点预测属于回归问题，使用回归损失，例如L1损失，L2损失或者Smooth L1损失等。将三部分损失加权求和作为训练总目标函数进行训练，使用梯度下降法优化参数，寻找最优解；

步骤四、网络输出后处理：根据网络输出文本区域置信度和边界顶点分类确定文本位置，根据头部节点集合内所有点预测的左上角坐标加权平均值确定文本边框的左上角顶点位置，同样根据尾部节点集合内所有点预测的右下角坐标加权平均值确定文本框的右下角顶点位置，根据左上角和右下角坐标信息可以确定文本框位置，根据NMS算法合并多余的重复的文本框，最终得到学生答题文本区域。