CN110705535A

CN110705535A - 一种试卷版面文字行自动检测的方法

Info

Publication number: CN110705535A
Application number: CN201910884264.0A
Authority: CN
Inventors: 严军峰; 闫琦; 陈家海; 叶家鸣; 吴波
Original assignee: Anhui Seven Days Education Technology Co Ltd
Current assignee: Anhui Seven Days Education Technology Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-01-17

Abstract

本发明涉及图像目标检测技术领域，且公开了一种试卷版面文字行自动检测的方法，该系统基于改进后的PixelLink网络架构设计，引入PMDT算法金字塔标签生成思想，主要包含仿真数据生成、金字塔标签生成、图片特征提取与融合以及特征层预测部分；该试卷版面文字行自动检测的方法在原算法基础上，对文本、非文本分类预测进行了改进，引入PMDT算法思想，像素点0或1的文本、非文本预测改为[0‑1]之间的区间预测，从而解决该算法在字符间距较大时，文字行多段检测等问题，本发明主要包含以下步骤：数据仿真、数据预处理、网络训练、模型输出，利用本发明，可提升试卷版面文字行自动检测的精度和召回率。

Description

一种试卷版面文字行自动检测的方法

技术领域

本发明涉及图像目标检测技术领域，具体为一种试卷版面文字行自动检测的方法。

背景技术

文字行检测作为场景文字识别的重要一步，在OCR领域得到了广泛应用，其检测性能直接影响识别准确率。传统文字行检测采用opencv中的腐蚀和膨胀将文字行连接成一个大的连通域，通过寻找图片中连通域的方法得到文字行位置信息，或者对文字行字符切分，然后单个字符识别。近年来，利用深度学习技术检测文字行的方法不断涌现，也取得了不错的检测效果。而通常应用在印刷体版面识别中的文字行检测算法主要目标是检测矩形框样式的文字行区域，试卷版面作为一种特殊的印刷体格式，由于拍摄或扫描过程存在倾斜，导致整个试卷版面文字行呈现非标准排列，此时输出矩形框格式的文字行检测算法则不能很好地处理这种情况。自然场景下的文字行检测算法可以输出文字行区域四点坐标，以四边形格式对文字行定位，但当文字字符间距较大时，存在文字行多段检测问题，不能完整检测一整行文字，例如PixelLink算法。本文针对以上问题，将PMDT算法思想引入到PixelLink算法中，提出了一种专门针对试卷版面文字行自动检测的新方法。

目前，针对试卷版面文字行自动检测中，很多都是基于现有的目标检测方法，例如yolo、ssd、PixelLink、Maskrcnn等。Yolo需要指定anchor，而且anchor需要通过对训练样本聚类得到。Yolo和ssd只适应试卷版面没有倾斜的情况，当拍摄或扫描试卷存在一定程度角度倾斜时，该算法会出现很多误检，其对输入样本要求较高。PixelLink算法输出四边形样式文本区域，即使输入试卷版面存在一定程度倾斜，其也能输出每个文字行的四个点坐标，后处理通过透视变换即可将文字行摆正。但当文字行字符间距较大时，该算法不能完整定位整行文字区域，只能分散的多段检测文字区域，为后处理带来很大耗时操作，Maskrcnn算法通过先检测文字行区域，然后再检测框的基础上将文字行和背景分开，其最终效果取决于文字框检测的好坏，而PMDT算法针对Maskrcnn的缺点进行改进，将文本框像素值从0或1的二分类变成[0-1]之间的区间值，取得了很好的效果。

现有的试卷版面文字行自动检测大都使用yolo、ssd、PixelLink、maskrcnn等方式进行检测，这类方式不仅存在局限性，还对试卷摆放的位置和文字行字符间距的要求较高。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种试卷版面文字行自动检测的方法，解决了PixelLink算法中字符间距较大时出现的多段检测和手动标注文字行信息耗时问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种试卷版面文字行自动检测的方法，该系统基于改进后的PixelLink网络架构设计，引入PMDT算法金字塔标签生成思想，主要包含仿真数据生成、金字塔标签生成、图片特征提取与融合以及特征层预测部分。

优选的，所述仿真数据生成具体描述为：使用程序设计语言批量仿真训练数据，仿真程序通过内置参数设置来控制生成的样本格式和样本总量，仿真过程随机选取一张白色背景图片，在背景图片上按照不同试卷版面依次写入文字行信息，并记录写入的坐标位置信息，文字行间距在10-25像素之间随机选取，为保证模型具有良好的鲁棒性，文字行信息字体随机选择，包括常用印刷体和个别手写体格式的.ttf字体，本次通过仿真程序仿真60万张训练数据用于训练，其中5万张用于测试集，另外5万张用于验证集，验证集上的对比效果以文字行检测精度和召回率作为指标。

优选的，所述金字塔标签生成具体描述为：本方法中使用基于PMDT算法中的金字塔标签生成过程，基本思路为改变原始PixelLink算法关于文本框中像素点为1，其他像素点为0的groundtruth做法，使用groundtruth是[0,1]区间内的值，groundtruth的取值请参阅图2，PMDT将文本框的中心称为金字塔顶，且该点的取值为1，金字塔底部为文字区域标定的边，图中每条三角形边的取值均采用线性插值得到，PMDT关于文字框中任意一点的像素score得分取值定义如下：对于给定的四个点A(x_a,y_a),B(x_b,y_b),C(x_c,y_c)

对于框中的一点P(x_p,y_p)的值score_p的计算如下：首先对于金字塔尖(文字行所在框的中心点)的计算为x_o＝(x_a+x_b+x_c+x_d)/4，y_o＝(y_a+y_b+y_c+y_d)/4，对于每个M_OMN，其中M和N为A、B、C、D四点中的任意两个点，也就是区域R_OAB、R_OBC、R_OCD、R_ODA，其中，可以用如下式分解：

因此其中的α，β可以通过如下获得

因为p点在R区域内，因此α，β满足α≥0,orβ≥0，P点的取值为score_p＝max(1-(α+β),0)，由此计算出每个文字行区域中像素点在0-1之间的像素值。

优选的，所述图片特征提取与融合具体描述为：主干网络vgg提取特征并进行特征融合，原有PixelLink网络使用vgg网络提取特征，提取到的四个特征经过1x1大小卷积融合后，输出通道数为16的特征图，输出特征图与上层特征图拼接并上采样，最后输出特征图大小为原图1/4大小的特征图用于预测。

优选的，所述特征层预测具体描述为：使用融合后的特征图预测，原始PixelLink网络直接在融合特征图分别进行两个大小为1x1的卷积，得到通道数为2的特征图用于像素点文本、非文本的pixel预测。另外，得到一个通道数为16的特征图用于判定像素点与周围8个方向像素是否连接的link判定，其预测过程中pixel和link使用不同score阈值判定，最后将满足pixel得分阈值要求的像素点标记为文本区域，根据link阈值获取文本连通区域。本方法在得到融合feature map后，经过1x1卷积得到通道数为16的特征图直接用于link判定，此时由于像素点pixel得分值在0-1之间，此处使用PMDT的后处理思路，得到所有pixel大于0.1的像素点，然后对这些点进行平面聚类，将该部分后处理操作改成PMDT算法思路，最后结合link点输出每个检测到的文字行区域坐标信息。

优选的，包括以下具体步骤：

步骤一、仿真训练数据：本方法面向试卷版面文字行自动检测，试卷版面文字行检测模型训练需要大量具有文字行位置标注信息的图片，而实际情况是手动标注现有试卷版面中所有文字行位置坐标信息很难实现，而且标注过程较慢，难免出现标注错误等情况，因此需要通过程序仿真出大量与真实试卷版面接近的图片数据，同时自带文字行标注信息。通过仿真程序仿真60万张训练数据用于训练，其中5万张用于测试集，另外5万张用于验证集，验证集上的对比效果以文字行检测精度和召回率作为指标；

步骤二、数据预处理：将仿真后的试卷中各版面坐标位置信息写入.txt文件，文件中按照版面中文字行位置坐标[xmin，ymin，xmax，ymax]的形式存放，仿真的每张试卷版面中存在多个文字行时，其各文字行坐标位置信息按照该格式依次追加；

步骤三、训练神经网络：将网络结构按照上述描述架构整合，产生新的试卷版面文字行自动检测算法，网络整体采用端到端的训练模式，网络超参数设置如下：

(1)、学习率：初始学习率设置为0.01，每训练10轮减小10％；

(2)、优化器：使用adam或sgd优化器(实施过程根据模型训练情况决定)；

(3)、其它：batchsize大小设置为8，与显存容量有关，总共训练轮数为200，训练过程对训练数据随机-45°到45°之间旋转；

步骤四、模型预测输出：加载训练好的模型，分别在1000张真实和仿真数据中进行模型预测，计算验证集中文字行检测精度和召回率，并对该模型进行评估分析。

(三)有益效果

本发明提供了一种试卷版面文字行自动检测的方法，具备以下有益效果：

本发明针对以上现状，本方法提出一种试卷版面文字行自动检测的方法，本方法主要将PMDT核心思想引入到PixelLink算法中，提出专门针对试卷版面文字行自动检测的新算法，新算法更加考虑文字行形状信息，使检测结果更加紧凑，解决了PixelLink算法中字符间距较大时出现的多段检测和手动标注文字行信息耗时问题。

附图说明

图1为本发明的整体实施流程图；

图2为整体实施流程中PMDT算法的金字塔标签生成结构图；

图3为整体实施流程中PixelLink算法主干网络流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-3所示，本发明提供一种技术方案：一种试卷版面文字行自动检测的方法，包括数据仿真部分、金字塔标签生成部分、图片特征提取与融合部分和特征层预测部分组成：

数据仿真部分：主要描述本方法中使用的训练数据制作思路，基本思路为使用程序设计语言批量仿真训练数据，仿真程序通过内置参数设置来控制生成的样本格式和样本总量，仿真过程随机选取一张白色背景图片，在背景图片上按照不同试卷版面依次写入文字行信息，并记录写入的坐标位置信息，文字行间距在10-25像素之间随机选取。为保证模型具有良好的鲁棒性，文字行信息字体随机选择，包括常用印刷体和个别手写体格式的.ttf字体。本次通过仿真程序仿真60万张训练数据用于训练，其中5万张用于测试集，另外5万张用于验证集，验证集上的对比效果以文字行检测精度和召回率作为指标。

金字塔标签生成部分：主要描述本方法中使用的基于PMDT算法中的金字塔标签生成过程，基本思路为改变原始PixelLink算法关于文本框中像素点为1，其他像素点为0的groundtruth做法，使用groundtruth是[0,1]区间内的值，groundtruth的取值请参阅图2。PMDT将文本框的中心称为金字塔顶，且该点的取值为1，金字塔底部为文字区域标定的边，图中每条三角形边的取值均采用线性插值得到，PMDT关于文字框中任意一点的像素score得分取值定义如下：对于给定的四个点A(x_a,y_a),B(x_b,y_b),C(x_c,y_c),D(x_d,y_d)，对于框中的一点P(x_p,y_p)的值score_p的计算如下：

首先对于金字塔尖(文字行所在框的中心点)的计算为x_o＝(x_a+x_b+x_c+x_d)/4，y_o＝(y_a+y_b+y_c+y_d)/4，对于每个M_OMN，其中M和N为A、B、C、D四点中的任意两个点，也就是区域R_OAB、R_OBC、R_OCD、R_ODA，其中，

可以用如下式分解：

因此其中的α，β可以通过如下获得

图片特征提取与融合部分：主要描述主干网络如何提取特征并进行特征融合，原有PixelLink网络使用vgg网络提取特征，提取到的四个特征分别对应如图3所示网络结构，各层网络经过1x1大小卷积后，输出通道数为16的特征图，输出特征图与上层特征图拼接并上采样，最后输出特征图大小为原图1/4大小的特征图用于预测。

特征层预测部分：主要描述如何使用融合后的特征图预测，原始PixelLink网络直接在融合特征图分别进行两个大小为1x1的卷积，得到通道数为2的特征图用于像素点文本、非文本的pixel预测，另外得到一个通道数为16的特征图用于判定像素点与周围8个方向像素是否连接的link判定，其预测过程中pixel和link使用不同score阈值判定，最后将满足pixel得分阈值要求的像素点标记为文本区域，根据link阈值获取文本连通区域，本方法在得到融合feature map后，经过1x1卷积得到通道数为16的特征图直接用于link判定，此时由于像素点pixel得分值在0-1之间，此处使用PMDT的后处理思路，得到所有pixel大于0.1的像素点，然后对这些点进行平面聚类，最后结合link点输出每个检测到的文字行区域坐标信息。

一种试卷版面文字行自动检测的方法，包括以下步骤：

步骤一、仿真训练数据：本方法面向试卷版面文字行自动检测，试卷版面文字行检测模型训练需要大量具有文字行位置标注信息的图片，而实际情况是手动标注现有试卷版面中所有文字行位置坐标信息很难实现，而且标注过程较慢，难免出现标注错误等情况，因此需要通过程序仿真出大量与真实试卷版面接近的图片数据，同时自带文字行标注信息，通过仿真程序仿真60万张训练数据用于训练，其中5万张用于测试集，另外5万张用于验证集，验证集上的对比效果以文字行检测精度和召回率作为指标。

步骤二、数据预处理：将仿真后的试卷中各版面坐标位置信息写入.txt文件，文件中按照版面中文字行位置坐标[xmin，ymin，xmax，ymax]的形式存放，仿真的每张试卷版面中存在多个文字行时，其各文字行坐标位置信息按照该格式依次追加。

步骤三、训练神经网络：将网络结构按照上述描述架构整合，产生新的试卷版面文字行自动检测算法，网络整体采用端到端的模式，设置如下：

(1)、学习率：初始学习率设置为0.01，每训练10轮减小10％；

步骤四、模型预测输出：加载训练好的模型，分别在1000张真实和仿真数据中进行模型预测，计算验证集中文字行检测精度和召回率。并对该模型进行评估分析。

本发明针对试卷图像，通过深度学习的方法，实现试卷中文字行自动检测，输出试卷中所有文字行位置坐标信息，为大规模试卷数据库建设和试卷自动转录奠定了基础。

综上可得，本发明对以上现状，本方法提出一种试卷版面文字行自动检测的方法，本方法主要将PMDT核心思想引入到PixelLink算法中，提出专门针对试卷版面文字行自动检测的新算法，新算法更加考虑文字行形状信息，使检测结果更加紧凑，解决了PixelLink算法中字符间距较大时出现的多段检测和手动标注文字行信息耗时问题。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种试卷版面文字行自动检测的方法，其特征在于：该系统基于改进后的PixelLink网络架构设计，引入PMDT算法金字塔标签生成思想，主要包含仿真数据生成、金字塔标签生成、图片特征提取与融合以及特征层预测部分。

2.根据权利要求1所述的一种试卷版面文字行自动检测的方法，其特征在于：所述仿真数据生成具体描述为：使用程序设计语言批量仿真训练数据，仿真程序通过内置参数设置来控制生成的样本格式和样本总量，仿真过程随机选取一张白色背景图片，在背景图片上按照不同试卷版面依次写入文字行信息，并记录写入的坐标位置信息，文字行间距在10-25像素之间随机选取，为保证模型具有良好的鲁棒性，文字行信息字体随机选择，包括常用印刷体和个别手写体格式的.ttf字体，本次通过仿真程序仿真60万张训练数据用于训练，其中5万张用于测试集，另外5万张用于验证集，验证集上的对比效果以文字行检测精度和召回率作为指标。

3.根据权利要求1所述的一种试卷版面文字行自动检测的方法，其特征在于：所述金字塔标签生成具体描述为：本方法中使用基于PMDT算法中的金字塔标签生成过程，基本思路为改变原始PixelLink算法关于文本框中像素点为1，其他像素点为0的groundtruth做法，使用groundtruth是[0,1]区间内的值，groundtruth的取值请参阅图2，PMDT将文本框的中心称为金字塔顶，且该点的取值为1，金字塔底部为文字区域标定的边，图中每条三角形边的取值均采用线性插值得到，PMDT关于文字框中任意一点的像素score得分取值定义如下：对于给定的四个点A(x_a,y_a),B(x_b,y_b),C(x_c,y_c),D(x_d,y_d)，对于框中的一点P(x_p,y_p)的值score_p的计算如下：首先对于金字塔尖(文字行所在框的中心点)的计算为x_o＝(x_a+x_b+x_c+x_d)/4，y_o＝(y_a+y_b+y_c+y_d)/4，对于每个M_OMN，其中M和N为A、B、C、D四点中的任意两个点，也就是区域R_OAB、R_OBC、R_OCD、R_ODA，其中，可以用如下式分解：

因此其中的α，β可以通过如下获得

4.根据权利要求1所述的一种试卷版面文字行自动检测的方法，其特征在于：所述图片特征提取与融合具体描述为：主干网络vgg提取特征并进行特征融合，原有PixelLink网络使用vgg网络提取特征，提取到的四个特征经过1x1大小卷积融合后，输出通道数为16的特征图，输出特征图与上层特征图拼接并上采样，最后输出特征图大小为原图1/4大小的特征图用于预测。

5.根据权利要求1所述的一种试卷版面文字行自动检测的方法，其特征在于：所述特征层预测具体描述为：使用融合后的特征图预测，原始PixelLink网络直接在融合特征图分别进行两个大小为1x1的卷积，得到通道数为2的特征图用于像素点文本、非文本的pixel预测，另外得到一个通道数为16的特征图用于判定像素点与周围8个方向像素是否连接的link判定，其预测过程中pixel和link使用不同score阈值判定，最后将满足pixel得分阈值要求的像素点标记为文本区域，根据link阈值获取文本连通区域。本方法在得到融合feature map后，经过1x1卷积得到通道数为16的特征图直接用于link判定，此时由于像素点pixel得分值在0-1之间，此处使用PMDT的后处理思路，得到所有pixel大于0.1的像素点，然后对这些点进行平面聚类，将该部分后处理操作改成PMDT算法思路，最后结合link点输出每个检测到的文字行区域坐标信息。

6.根据权利要求1所述的一种试卷版面文字行自动检测的方法，其特征在于：包括以下具体步骤：

步骤一、仿真训练数据：本方法面向试卷版面文字行自动检测，试卷版面文字行检测模型训练需要大量具有文字行位置标注信息的图片，而实际情况是手动标注现有试卷版面中所有文字行位置坐标信息很难实现，而且标注过程较慢，难免出现标注错误等情况。因此需要通过程序仿真出大量与真实试卷版面接近的图片数据，同时自带文字行标注信息。通过仿真程序仿真60万张训练数据用于训练，其中5万张用于测试集，另外5万张用于验证集，验证集上的对比效果以文字行检测精度和召回率作为指标；

(1)、学习率：初始学习率设置为0.01，每训练10轮减小10％；