CN112597878A - 一种扫描试卷版面分析的样本制作及识别方法 - Google Patents

一种扫描试卷版面分析的样本制作及识别方法 Download PDF

Info

Publication number
CN112597878A
CN112597878A CN202011514989.XA CN202011514989A CN112597878A CN 112597878 A CN112597878 A CN 112597878A CN 202011514989 A CN202011514989 A CN 202011514989A CN 112597878 A CN112597878 A CN 112597878A
Authority
CN
China
Prior art keywords
word
frame
image
coordinates
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011514989.XA
Other languages
English (en)
Inventor
吕达
汤敏
陈家海
叶家鸣
吴波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Seven Day Education Technology Co ltd
Original Assignee
Anhui Seven Day Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Seven Day Education Technology Co ltd filed Critical Anhui Seven Day Education Technology Co ltd
Priority to CN202011514989.XA priority Critical patent/CN112597878A/zh
Publication of CN112597878A publication Critical patent/CN112597878A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/40Filling a planar surface by adding surface attributes, e.g. colour or texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/273Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及人工智能ocr版面分析领域,且公开了一种通过解析修改word的officexml自动标注word,然后转成图片通过图像处理方法获取坐标,将未标注的word转成图片来仿造扫描试卷样本。本发明使用了一种多分枝的DB分割算法用以检测扫描试卷中的各个类别结构。其特征在于:包含以下几个步骤,通过解析修改word的officexml标注各个类别得到标注word,人工检查后修改officexml恢复成未标注的word,将标注的word及对应的未标注word随机转成各样大小的图片并通过图像处理方法法获取标注图片相关结构元素位置的坐标,通过训练多个分枝的DB分割算法训练出可以检测出各个结构类别的版面分析算法模型。本发明解决了样本难获取及标注的问题,节省大量的人工成本,并且模型算法精度高速度快。

Description

一种扫描试卷版面分析的样本制作及识别方法
技术领域
本发明涉及人工智能ocr版面分析领域,具体涉及一种扫描试卷版面分析的样本制作及识别方法。
背景技术
版面分析是现在ocr识别任务中不可缺少的一部分,现在很多ocr的需求均需要进行版面分析,一款好的版面分析模型除了需要一个好的算法还需要高质量的数据,常常人工标注样本数据需要耗费大量的时间和人力成本,现在网上也开源了不少文档的版面分析数据集,但是其数据与试卷本身样式差异较大,而考虑到扫描的试卷一般噪声少比较干净,可以通过word试卷生成仿制的扫描试卷样本,这样可以节省人工和时间成本而且可以生成大量的样本满足需求。DB(Real-time Scene Text Detection with DifferentiableBinarization算法是AAAI2020一篇效果和性能都创新高的文本检测算法,本发明的版面分析算法在此基础上变成多分枝,继承了DB算法的高性能而且能精准检测出多分类。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种扫描版试卷版面分析的样本制作及识别的方法,可以制作大量的样本的同时还可以节省人力时间,而且版面分析算法的精度高速度快。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种扫描版试卷版面分析的样本制作及识别的方法,包括修改word的officexml标注各个结构元素类别得到标注word,人工检查删除错误内容并修改xml恢复未标注word,将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注word图像的各个类别结构的坐标,通过使用4个分枝的DB算法对不同类型进行识别分割。
优选的,所述修改word的officexml标注各个类别得到标注word,通过分析修改officexml将文本行背景、公式背景、表格背景分别调成不同颜色,图像加粗黑色边缘框。例如通过解析xml寻找<w:tbl></w:tbl>设置<w:tbl>下<w:shd w:fill=”FFF000”>将表格背景标注成黄色,寻找并设置<w:object>下<v:shape filled=”t”fillcolor=”#FF0000”>或<m:oMath>下<highlight w:val=’red’>将公式标注成红色,寻找并设置<w:tc>下<highlight w:val=’blue’>将文本行设置成蓝色,寻找并设置<w:drawing>下<a:ln w=’150612’>或<w:pict>下<v:stroke color=’#000000’weight:6pt>将图像设置黑粗边框,等等一系列xml修改。
优选的,所述人工检查删除错误内容并修改xml恢复成未标注word。人工检查删除word中未标注的内容或者错误标注的内容得到完全标注的word,随后重新解析修改officexml去掉文本、公式、表格颜色背景及图像的黑色边缘框,恢复成干净未标注的word,而word中各个结构元素位置均未发生变化。
优选的,所述将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注图像的各个类别结构的坐标。文本的坐标是通过将标注图像不是文本背景的颜的像素均设为0寻找到文本背景颜色区域,例如文本背景是蓝色将标注图像中不是蓝色的像素均设为0得到的蓝色区域即文本区域。然后黑白二值化,使用连通域寻找框后对每一个框左右各扩展5个像素并对框域白色填充,在进行连通域框查找获取到文本的框坐标。公式的框坐标是通过将标注图像不是公式背景颜色的像素都设置为0寻找到公式背景颜色区域,然后黑白二值化,使用连通域寻找框后对每一个框左右各扩展3个像素并对框域白色填充,在进行连通域框查找获取到公式的框坐标。表格的框坐标是通过将标注图像不是表格背景颜色的像素都设置为0寻找表格背景颜色区域,然后黑白二值化,使用连通域寻找框后对每一个框上下左右各扩展5个像素并对框域白色填充,在进行连通域框查找获取到表格的框坐标。图像的框坐标是通过先将标注图像上下左右膨胀10个像素,然后将标注图像中不是黑色像素的设为0是黑色像素的设为255,在使用连通域框查找获取到图像的框坐标。
优选的,所述通过使用4个分枝的DB算法对不同类型进行分割,使用4个分枝的DB算法对不同类型进行识别分割,使用了一种建立在DB(Real-time Scene Text Detectionwith Differentiable Binarization)分割算法的基础上,但是在提取特征backbone基础上由单个分枝变成了四个分枝分别分割文本、公式、表格、图像四类。
有益效果
本发明提供了一种扫描试卷版面分析的样本制作及识别的方法,具备以下有益效果:
可以制作生成大量的仿扫描版的试卷标注样本,减少了纯人工标注的成本。同时4个分枝的DB算法,在吸取了DB算法优点的基础上可以分割多类版面元素结构精度高速度快。
附图说明
图1为本发明的制作样本流程图;
图2为本发明的标注图像获取文本框坐标的图像处理流程图;
图3为本发明的标注图像获取公式框坐标的图像处理流程图;
图4为本发明的标注图像获取表格框坐标的图像处理流程图;
图5为本发明的标注图像获取图像框坐标的图像处理流程图;
图6为DB算法框架图;
图7为本发明的DB算法框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供一种技术方案:一种扫描试卷版面分析的样本制作及识别方法,其包括修改word的officexml标注各个结构元素类别得到标注word,人工检查删除错误内容并修改xml恢复未标注word,将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注word图像的各个类别结构的坐标,通过使用4个分枝的DB算法对不同类型进行识别分割。
具体的,所述修改word的officexml标注各个类别得到标注word,通过分析修改officexml将文本行背景、公式背景、表格背景调成不同颜色,图像加粗黑色边缘框。例如通过解析xml寻找<w:tbl></w:tbl>设置<w:tbl>下<w:shd w:fill=”FFF00”>将表格背景标注成黄色,寻找并设置<w:object>下<v:shape filled=”t”fillcolor=”#FF0000”>或<m:oMath>下<highlight w:val=’red’>将公式标注成红色,寻找并设置<w:tc>下<highlightw:val=’blue’>将文本行设置成蓝色,寻找并设置<w:drawing>下<a:ln w=’150612’>或<w:pict>下<v:stroke color=’#000000’weight:6pt>将图像设置黑粗边框,等等一系列xml修改。
具体的,所述人工检查删除错误内容并修改xml恢复成未标注word。人工检查删除word中未标注的内容或者错误标注的内容得到完全标注的word,随后重新解析修改officexml去掉文本、公式、表格颜色背景及图像的黑色边缘框,恢复成干净未标注的word,而word中各个结构元素位置均未发生变化。
具体的,所述将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注word图像的各个类别结构的坐标。请参阅图2-5,文本的坐标是通过将标注的图像不是文本背景颜色的像素均设为0寻找到文本区域,然后黑白二值化,使用连通域寻找框后对每一个框左右各扩展5个像素并对框域白色填充,在进行连通域框查找获取到文本的框坐标。公式的框坐标是通过将标注图像不是公式背景颜色的像素都设置为0寻找到公式区域,然后黑白二值化,使用连通域寻找框后对每一个框左右各扩展3个像素并对框域白色填充,在进行连通域框查找获取到公式的框坐标。表格的框坐标是通过将标注图像不是表格背景颜色的像素都设置为0寻找表格区域,然后黑白二值化,使用连通域寻找框后对每一个框上下左右各扩展5个像素并对框域白色填充,在进行连通域框查找获取到表格的框坐标。图像的框坐标是通过先将标注图像上下左右膨胀10个像素,然后将标注图像中不是黑色像素的设为0是黑色像素的设为255,在使用连通域框查找获取到图像的框坐标。
具体的,所述通过使用4个分枝的DB算法对不同类型进行分割,请参阅图6-7,使用4个分枝的DB算法对不同类型进行识别分割,使用了一种建立在DB(Real-time Scene TextDetection with Differentiable Binarization)分割算法的基础上,但是在提取特征backbone基础上由单个分枝变成了四个分枝分别分割文本、公式、表格、图像四类。
综上可得,本发明可以制作生成大量的仿扫描版的试卷标注样本,减少了纯人工标注的成本。同时4个分枝的DB算法,可以分割出文本、公式、表格、图像这些多类版面元素而且精度比较高时间快。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种扫描试卷版面分析的样本制作及识别方法,其特征在于:包括修改word的officexml标注各个结构元素类别得到标注word,人工检查删除错误内容并修改xml恢复未标注word,将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注word图像的各个类别结构的坐标,通过使用4个分枝的DB算法对不同类型进行识别分割。
2.根据权利要求1所述的一种扫描试卷版面分析的样本制作及识别方法,其特征在于:修改word的officexml标注各个类别得到标注word,通过分析修改officexml将文本行背景、公式背景、表格背景分别调成不同的颜色,图像加粗黑色边缘框。
3.根据权利要求1所述的一种扫描试卷版面分析的样本制作及识别方法,其特征在于:人工检查删除错误内容并修改xml恢复成未标注word。人工检查删除word中未标注的内容或者错误标注的内容得到完全标注的word,随后重新解析修改officexml去掉文本公式表格颜色背景及图像的黑色边缘框,恢复成干净未标注的word,而word中各个结构元素位置均未发生变化。
4.根据权利要求1所述的一种扫描试卷版面分析的样本制作及识别方法,其特征在于:将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注word图像的各个类别结构的坐标。文本区域的坐标是通过将标注图像不是文本背景颜色的像素均设为0寻找到文本背景颜色的区域,然后黑白二值化,使用连通域寻找框后对每一个框左右各扩展5个像素并对框域白色填充,在进行连通域框查找获取到文本的框坐标,公式的框坐标是通过将标注图像不是公式背景颜色的像素都设置为0寻找到公式背景颜色区域,然后黑白二值化,使用连通域寻找框后对每一个框左右各扩展3个像素并对框域白色填充,在进行连通域框查找获取到公式的框坐标。表格的框坐标是通过将标注图像不是表格背景颜色的像素都设置为0寻找表格背景颜色的区域,然后黑白二值化,使用连通域寻找框后对每一个框上下左右各扩展5个像素并对框域白色填充,在进行连通域框查找获取到表格的框坐标。图像的框坐标是通过先将标注图像上下左右膨胀10个像素,然后将标注图像中不是黑色像素的设为0是黑色像素的设为255,在使用连通域框查找获取到图像的框坐标。
5.根据权利要求1所述的一种扫描试卷版面分析的样本制作及识别方法,其特征在于:通过使用4个分枝的DB算法对不同类型进行识别分割,使用了一种建立在DB(Real-timeScene Text Detection with Differentiable Binarization)分割算法的基础上,但是在提取特征backbone基础上由单个分枝变成了四个分枝分别分割文本、公式、表格、图像四类。
CN202011514989.XA 2020-12-21 2020-12-21 一种扫描试卷版面分析的样本制作及识别方法 Pending CN112597878A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011514989.XA CN112597878A (zh) 2020-12-21 2020-12-21 一种扫描试卷版面分析的样本制作及识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011514989.XA CN112597878A (zh) 2020-12-21 2020-12-21 一种扫描试卷版面分析的样本制作及识别方法

Publications (1)

Publication Number Publication Date
CN112597878A true CN112597878A (zh) 2021-04-02

Family

ID=75199554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011514989.XA Pending CN112597878A (zh) 2020-12-21 2020-12-21 一种扫描试卷版面分析的样本制作及识别方法

Country Status (1)

Country Link
CN (1) CN112597878A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610068A (zh) * 2021-10-11 2021-11-05 江西风向标教育科技有限公司 基于试卷图像的试题拆解方法、系统、存储介质及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537146A (zh) * 2018-03-22 2018-09-14 五邑大学 一种印刷体与手写体混合文本行提取系统
CN109948609A (zh) * 2019-03-06 2019-06-28 南京邮电大学 基于深度学习的智能阅卷定位方法
CN110390324A (zh) * 2019-07-27 2019-10-29 苏州过来人科技有限公司 一种融合视觉与文本特征的简历版面分析算法
CN110705535A (zh) * 2019-09-19 2020-01-17 安徽七天教育科技有限公司 一种试卷版面文字行自动检测的方法
CN110765907A (zh) * 2019-10-12 2020-02-07 安徽七天教育科技有限公司 一种基于深度学习的视频中试卷纸质文档信息提取系统及方法
CN110781672A (zh) * 2019-10-30 2020-02-11 北京爱学习博乐教育科技有限公司 基于机器智能的题库生产方法及系统
CN110781648A (zh) * 2019-10-12 2020-02-11 安徽七天教育科技有限公司 一种基于深度学习的试卷自动转录系统及方法
CN111627088A (zh) * 2020-04-03 2020-09-04 安徽七天教育科技有限公司 一种用于数学试卷图像识别的样本自动生成方法
CN111652218A (zh) * 2020-06-03 2020-09-11 北京易真学思教育科技有限公司 文本检测方法、电子设备及计算机可读介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537146A (zh) * 2018-03-22 2018-09-14 五邑大学 一种印刷体与手写体混合文本行提取系统
CN109948609A (zh) * 2019-03-06 2019-06-28 南京邮电大学 基于深度学习的智能阅卷定位方法
CN110390324A (zh) * 2019-07-27 2019-10-29 苏州过来人科技有限公司 一种融合视觉与文本特征的简历版面分析算法
CN110705535A (zh) * 2019-09-19 2020-01-17 安徽七天教育科技有限公司 一种试卷版面文字行自动检测的方法
CN110765907A (zh) * 2019-10-12 2020-02-07 安徽七天教育科技有限公司 一种基于深度学习的视频中试卷纸质文档信息提取系统及方法
CN110781648A (zh) * 2019-10-12 2020-02-11 安徽七天教育科技有限公司 一种基于深度学习的试卷自动转录系统及方法
CN110781672A (zh) * 2019-10-30 2020-02-11 北京爱学习博乐教育科技有限公司 基于机器智能的题库生产方法及系统
CN111627088A (zh) * 2020-04-03 2020-09-04 安徽七天教育科技有限公司 一种用于数学试卷图像识别的样本自动生成方法
CN111652218A (zh) * 2020-06-03 2020-09-11 北京易真学思教育科技有限公司 文本检测方法、电子设备及计算机可读介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610068A (zh) * 2021-10-11 2021-11-05 江西风向标教育科技有限公司 基于试卷图像的试题拆解方法、系统、存储介质及设备

Similar Documents

Publication Publication Date Title
CN110363102B (zh) 一种pdf文件的对象识别处理方法及装置
Yang et al. Lecture video indexing and analysis using video ocr technology
CN101122952A (zh) 一种图片文字检测的方法
US20090148043A1 (en) Method for extracting text from a compound digital image
Zhang et al. A novel text detection system based on character and link energies
CN102208023A (zh) 基于边缘信息和分布熵的视频字幕识别设计方法
KR102600475B1 (ko) 제품 결함 검출 학습을 위한 딥러닝 기반 데이터 증강 방법
CN110276279B (zh) 一种基于图像分割的任意形状场景文本探测方法
CN112507876A (zh) 一种基于语义分割的有线表格图片解析方法和装置
CN113158969A (zh) 一种苹果外观缺陷识别系统及方法
CN113033558A (zh) 一种用于自然场景的文本检测方法及装置、存储介质
CN115795096A (zh) 一种影视素材的视频元数据标注方法
Kaundilya et al. Automated text extraction from images using OCR system
CN115761773A (zh) 基于深度学习的图像内表格识别方法及系统
CN112597878A (zh) 一种扫描试卷版面分析的样本制作及识别方法
CN113392819B (zh) 一种批量化学术图像自动分割标注装置和方法
CN110674802A (zh) 一种改进的平行四边形候选框的文本检测方法
CN113435438A (zh) 一种图像和字幕融合的视频报幕板提取及视频切分方法
CN111414908B (zh) 一种视频中字幕字符的识别方法及装置
Sambyal et al. Automatic text extraction and character segmentation using maximally stable extremal regions
CN113743159A (zh) 一种应用于电力企业的ocr方法
CN116030472A (zh) 文字坐标确定方法及装置
CN116416624A (zh) 一种基于版面校正的文档电子化方法、装置以及存储介质
CN113052820A (zh) 一种基于神经网络技术的电路设备缺陷识别方法
Rani et al. Object Detection in Natural Scene Images Using Thresholding Techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210402