CN112597878A

CN112597878A - 一种扫描试卷版面分析的样本制作及识别方法

Info

Publication number: CN112597878A
Application number: CN202011514989.XA
Authority: CN
Inventors: 吕达; 汤敏; 陈家海; 叶家鸣; 吴波
Original assignee: Anhui Seven Day Education Technology Co ltd
Current assignee: Anhui Seven Day Education Technology Co ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-04-02

Abstract

本发明涉及人工智能ocr版面分析领域，且公开了一种通过解析修改word的officexml自动标注word，然后转成图片通过图像处理方法获取坐标，将未标注的word转成图片来仿造扫描试卷样本。本发明使用了一种多分枝的DB分割算法用以检测扫描试卷中的各个类别结构。其特征在于：包含以下几个步骤，通过解析修改word的officexml标注各个类别得到标注word，人工检查后修改officexml恢复成未标注的word，将标注的word及对应的未标注word随机转成各样大小的图片并通过图像处理方法法获取标注图片相关结构元素位置的坐标，通过训练多个分枝的DB分割算法训练出可以检测出各个结构类别的版面分析算法模型。本发明解决了样本难获取及标注的问题，节省大量的人工成本，并且模型算法精度高速度快。

Description

一种扫描试卷版面分析的样本制作及识别方法

技术领域

本发明涉及人工智能ocr版面分析领域，具体涉及一种扫描试卷版面分析的样本制作及识别方法。

背景技术

版面分析是现在ocr识别任务中不可缺少的一部分，现在很多ocr的需求均需要进行版面分析，一款好的版面分析模型除了需要一个好的算法还需要高质量的数据，常常人工标注样本数据需要耗费大量的时间和人力成本，现在网上也开源了不少文档的版面分析数据集，但是其数据与试卷本身样式差异较大，而考虑到扫描的试卷一般噪声少比较干净,可以通过word试卷生成仿制的扫描试卷样本,这样可以节省人工和时间成本而且可以生成大量的样本满足需求。DB(Real-time Scene Text Detection with DifferentiableBinarization算法是AAAI2020一篇效果和性能都创新高的文本检测算法，本发明的版面分析算法在此基础上变成多分枝，继承了DB算法的高性能而且能精准检测出多分类。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种扫描版试卷版面分析的样本制作及识别的方法，可以制作大量的样本的同时还可以节省人力时间，而且版面分析算法的精度高速度快。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种扫描版试卷版面分析的样本制作及识别的方法，包括修改word的officexml标注各个结构元素类别得到标注word，人工检查删除错误内容并修改xml恢复未标注word,将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注word图像的各个类别结构的坐标,通过使用4个分枝的DB算法对不同类型进行识别分割。

优选的，所述修改word的officexml标注各个类别得到标注word，通过分析修改officexml将文本行背景、公式背景、表格背景分别调成不同颜色，图像加粗黑色边缘框。例如通过解析xml寻找<w:tbl></w:tbl>设置<w:tbl>下<w:shd w:fill＝”FFF000”>将表格背景标注成黄色，寻找并设置<w:object>下<v:shape filled＝”t”fillcolor＝”#FF0000”>或<m:oMath>下<highlight w:val＝’red’>将公式标注成红色，寻找并设置<w:tc>下<highlight w:val＝’blue’>将文本行设置成蓝色，寻找并设置<w:drawing>下<a:ln w＝’150612’>或<w:pict>下<v:stroke color＝’#000000’weight:6pt>将图像设置黑粗边框，等等一系列xml修改。

优选的，所述人工检查删除错误内容并修改xml恢复成未标注word。人工检查删除word中未标注的内容或者错误标注的内容得到完全标注的word，随后重新解析修改officexml去掉文本、公式、表格颜色背景及图像的黑色边缘框，恢复成干净未标注的word，而word中各个结构元素位置均未发生变化。

优选的，所述将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注图像的各个类别结构的坐标。文本的坐标是通过将标注图像不是文本背景的颜的像素均设为0寻找到文本背景颜色区域，例如文本背景是蓝色将标注图像中不是蓝色的像素均设为0得到的蓝色区域即文本区域。然后黑白二值化，使用连通域寻找框后对每一个框左右各扩展5个像素并对框域白色填充，在进行连通域框查找获取到文本的框坐标。公式的框坐标是通过将标注图像不是公式背景颜色的像素都设置为0寻找到公式背景颜色区域，然后黑白二值化，使用连通域寻找框后对每一个框左右各扩展3个像素并对框域白色填充，在进行连通域框查找获取到公式的框坐标。表格的框坐标是通过将标注图像不是表格背景颜色的像素都设置为0寻找表格背景颜色区域，然后黑白二值化，使用连通域寻找框后对每一个框上下左右各扩展5个像素并对框域白色填充，在进行连通域框查找获取到表格的框坐标。图像的框坐标是通过先将标注图像上下左右膨胀10个像素，然后将标注图像中不是黑色像素的设为0是黑色像素的设为255，在使用连通域框查找获取到图像的框坐标。

优选的，所述通过使用4个分枝的DB算法对不同类型进行分割，使用4个分枝的DB算法对不同类型进行识别分割，使用了一种建立在DB(Real-time Scene Text Detectionwith Differentiable Binarization)分割算法的基础上，但是在提取特征backbone基础上由单个分枝变成了四个分枝分别分割文本、公式、表格、图像四类。

有益效果

本发明提供了一种扫描试卷版面分析的样本制作及识别的方法，具备以下有益效果：

可以制作生成大量的仿扫描版的试卷标注样本，减少了纯人工标注的成本。同时4个分枝的DB算法，在吸取了DB算法优点的基础上可以分割多类版面元素结构精度高速度快。

附图说明

图1为本发明的制作样本流程图；

图2为本发明的标注图像获取文本框坐标的图像处理流程图；

图3为本发明的标注图像获取公式框坐标的图像处理流程图；

图4为本发明的标注图像获取表格框坐标的图像处理流程图；

图5为本发明的标注图像获取图像框坐标的图像处理流程图；

图6为DB算法框架图；

图7为本发明的DB算法框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供一种技术方案：一种扫描试卷版面分析的样本制作及识别方法，其包括修改word的officexml标注各个结构元素类别得到标注word，人工检查删除错误内容并修改xml恢复未标注word,将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注word图像的各个类别结构的坐标,通过使用4个分枝的DB算法对不同类型进行识别分割。

具体的，所述修改word的officexml标注各个类别得到标注word，通过分析修改officexml将文本行背景、公式背景、表格背景调成不同颜色，图像加粗黑色边缘框。例如通过解析xml寻找<w:tbl></w:tbl>设置<w:tbl>下<w:shd w:fill＝”FFF00”>将表格背景标注成黄色，寻找并设置<w:object>下<v:shape filled＝”t”fillcolor＝”#FF0000”>或<m:oMath>下<highlight w:val＝’red’>将公式标注成红色，寻找并设置<w:tc>下<highlightw:val＝’blue’>将文本行设置成蓝色，寻找并设置<w:drawing>下<a:ln w＝’150612’>或<w:pict>下<v:stroke color＝’#000000’weight:6pt>将图像设置黑粗边框，等等一系列xml修改。

具体的，所述人工检查删除错误内容并修改xml恢复成未标注word。人工检查删除word中未标注的内容或者错误标注的内容得到完全标注的word，随后重新解析修改officexml去掉文本、公式、表格颜色背景及图像的黑色边缘框，恢复成干净未标注的word，而word中各个结构元素位置均未发生变化。

具体的，所述将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注word图像的各个类别结构的坐标。请参阅图2-5，文本的坐标是通过将标注的图像不是文本背景颜色的像素均设为0寻找到文本区域，然后黑白二值化，使用连通域寻找框后对每一个框左右各扩展5个像素并对框域白色填充，在进行连通域框查找获取到文本的框坐标。公式的框坐标是通过将标注图像不是公式背景颜色的像素都设置为0寻找到公式区域，然后黑白二值化，使用连通域寻找框后对每一个框左右各扩展3个像素并对框域白色填充，在进行连通域框查找获取到公式的框坐标。表格的框坐标是通过将标注图像不是表格背景颜色的像素都设置为0寻找表格区域，然后黑白二值化，使用连通域寻找框后对每一个框上下左右各扩展5个像素并对框域白色填充，在进行连通域框查找获取到表格的框坐标。图像的框坐标是通过先将标注图像上下左右膨胀10个像素，然后将标注图像中不是黑色像素的设为0是黑色像素的设为255，在使用连通域框查找获取到图像的框坐标。

具体的，所述通过使用4个分枝的DB算法对不同类型进行分割，请参阅图6-7，使用4个分枝的DB算法对不同类型进行识别分割，使用了一种建立在DB(Real-time Scene TextDetection with Differentiable Binarization)分割算法的基础上，但是在提取特征backbone基础上由单个分枝变成了四个分枝分别分割文本、公式、表格、图像四类。

综上可得，本发明可以制作生成大量的仿扫描版的试卷标注样本，减少了纯人工标注的成本。同时4个分枝的DB算法，可以分割出文本、公式、表格、图像这些多类版面元素而且精度比较高时间快。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种扫描试卷版面分析的样本制作及识别方法，其特征在于：包括修改word的officexml标注各个结构元素类别得到标注word，人工检查删除错误内容并修改xml恢复未标注word,将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注word图像的各个类别结构的坐标,通过使用4个分枝的DB算法对不同类型进行识别分割。

2.根据权利要求1所述的一种扫描试卷版面分析的样本制作及识别方法，其特征在于：修改word的officexml标注各个类别得到标注word，通过分析修改officexml将文本行背景、公式背景、表格背景分别调成不同的颜色，图像加粗黑色边缘框。

3.根据权利要求1所述的一种扫描试卷版面分析的样本制作及识别方法，其特征在于：人工检查删除错误内容并修改xml恢复成未标注word。人工检查删除word中未标注的内容或者错误标注的内容得到完全标注的word，随后重新解析修改officexml去掉文本公式表格颜色背景及图像的黑色边缘框，恢复成干净未标注的word，而word中各个结构元素位置均未发生变化。

4.根据权利要求1所述的一种扫描试卷版面分析的样本制作及识别方法，其特征在于：将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注word图像的各个类别结构的坐标。文本区域的坐标是通过将标注图像不是文本背景颜色的像素均设为0寻找到文本背景颜色的区域，然后黑白二值化，使用连通域寻找框后对每一个框左右各扩展5个像素并对框域白色填充，在进行连通域框查找获取到文本的框坐标，公式的框坐标是通过将标注图像不是公式背景颜色的像素都设置为0寻找到公式背景颜色区域，然后黑白二值化，使用连通域寻找框后对每一个框左右各扩展3个像素并对框域白色填充，在进行连通域框查找获取到公式的框坐标。表格的框坐标是通过将标注图像不是表格背景颜色的像素都设置为0寻找表格背景颜色的区域，然后黑白二值化，使用连通域寻找框后对每一个框上下左右各扩展5个像素并对框域白色填充，在进行连通域框查找获取到表格的框坐标。图像的框坐标是通过先将标注图像上下左右膨胀10个像素，然后将标注图像中不是黑色像素的设为0是黑色像素的设为255，在使用连通域框查找获取到图像的框坐标。

5.根据权利要求1所述的一种扫描试卷版面分析的样本制作及识别方法，其特征在于：通过使用4个分枝的DB算法对不同类型进行识别分割，使用了一种建立在DB(Real-timeScene Text Detection with Differentiable Binarization)分割算法的基础上，但是在提取特征backbone基础上由单个分枝变成了四个分枝分别分割文本、公式、表格、图像四类。