CN111627088A

CN111627088A - 一种用于数学试卷图像识别的样本自动生成方法

Info

Publication number: CN111627088A
Application number: CN202010708248.9A
Authority: CN
Inventors: 汤敏; 李哲; 陈家海; 叶家鸣; 吴波
Original assignee: Anhui Seven Day Education Technology Co ltd
Current assignee: Anhui Seven Day Education Technology Co ltd
Priority date: 2020-04-03
Filing date: 2020-07-22
Publication date: 2020-09-04

Abstract

本发明涉及自然语言处理和图像处理领域，具体公开了一种用于数学试卷图像识别的样本自动生成方法，针对用深度学习技术进行OCR数学试题识别所需训练数据量大、数据难以获取，人工标注方法成本昂贵，任务具体精细、不易泛化迁移、可实操性差、周期漫长等困难，提出了一种以word试卷(或类似可解析类型文档)作为输入语料，通过3种方法并行处理解析文档针对性地截取不同样式的文本样本，然后以复合方式和简单方式分流画图，自动生成包含汉字、英文、数字和公式等多种样式混合的数学试题图片样本。

Description

一种用于数学试卷图像识别的样本自动生成方法

技术领域

本发明属于自然语言处理和图像处理领域，具体是一种用于数学试卷图像识别的样本自动生成方法。

背景技术

OCR识别技术借助深度学习的强大力量实现了跨越式的发展，在生产生活诸多领域都落地开花，例如牌号的识别、身份证的识别、发票的识别、保险单据的识别、医疗诊单的识别等，不胜枚举。在教育领域应用潜力亦非常巨大，例如在线辅导、拍照搜题、智能阅卷、智能组卷都离不开OCR技术的支撑，而这其中非常关键的问题是如何让理论、模型和研究成果落地，投入实际生产生活环境中，从而让更多的人享受技术进步带来的便捷和好处，同时通过真实场景的数据反馈不断迭代和升级已有的模型和技术。

基于深度学习的OCR识别技术要实现产业化落地首先需要解决的问题是如何让模型具有良好的泛化性能，也就是说在不同的噪声、阴影、光照、污损等背景条件下仍能够保持足够高的识别准确率。答案是显然的，让训练样本数据集足够大、足够全，能够全方位无死角覆盖所有的目标场景。但是考虑现实情况却不具有实操性。目前深度学习主流方法仍然是有监督的学习方法，而监督学习必须先有标准答案即数据的标签。因此随着人工智能的兴起，给数据打标签已经成为了继快递、外卖之后一个新兴的产业，为国民经济发展创造了很多就业岗位。然而OCR所需要的标签数据集由于数据量庞大、种类过于繁多，若通过人工标注的方式来获取则耗资巨大、周期漫、得不偿失。

根据目前人工智能在图像处理领域的发展和应用，人工标注图像数据主要有以下常的几种方式：1)根据图像内容进行分类，例如人、猫、狗等，其操作类似做选择题，只需点击确认；2)对图像中某一类别或多个类别的物体对其位置进行标定；常用的操作方式是外轮廓上多点连线画多边形的方式；3)对图像中某一类别的物体进行关键点标注，例如人体骨骼关键点、人脸关键点，通常关键点的数量是确定的，十几个到几十个不等，通过点击加选择确定的方式操作。而OCR识别则比较麻烦一些，例如汉字的常用字符多达数千个，不太可能让标注工人通过选择点击的方式操作实现，可行的办法是打字录入图像中的文本，这对人力的要求就提高了，成本也相应增加了。

另一方面，数学试题不同于普通的文本识别，如前文提到的身份证、牌、保险单、医疗诊单等主要是字符的识别，数学试题中往往还包含有特定的结构关系型文本，例如上下标、分式、根式，这些文本的输入和标记都需要特别的处理，即使是专业的打字员可能也难以胜任。

总之，在现有技术条件下，人工合成样本的方法几乎是解决数学试题OCR识别训练所需大量样本的唯一可行方法。

目前市场上有很多OCR识别引擎，由于底层技术和数据样本的限制，大多数是只包含字符的识别，而不包含结构类型文本的识别，比如身份证，发票等识别引擎；也有另外一种类型的识别引擎，是纯公式类型的识别，这一类型的识别引擎能较好地处理结构信息，但是通常字符集都很小，只包含常的数学公式符号，这对中文的使用者不是非常友好。要开发能同时识别中文、英文、数字、特定的结构信息的识别引擎，前提是有足够多这种混合样式的数据样本，因此本专利解决的问题是如何借助文档语料信息合成中文、英文、数字、公式等多种样式混合的数学试题图片样本，使其能更好地拟合打印输出的数学试题试卷的效果，从而实现研究模型产品落地的目的。

发明内容

(一)解决的技术问题

解决用深度学习技术进行OCR识别所需训练数据集人工标注方法困难多、成本高昂、周期漫长的问题，提供一个模拟真实场景生成中文、英文、数字和公式混合的数学试题文本图片样本的合成方法，同时也为目前OCR识别数学试题纯字符文本和公式需要分别训练两个识别引擎提供了新的方法思路。

(二)技术方案

为了实现上述目标，在调研和实验的基础上，我们得到如下结论：

(1)用深度学习技术进行OCR识别业务场景中标注数据集是极少的并且成本高昂。通常训练深度学习模型所需的数据集都有特定的统一的格式要求，例如图片尺寸大小32x280，字符数9～15个，要覆盖足够全，图片样本数量从数百万到上千万不等。

(2)人工合成数据集训练的模型有可能可以泛化实现产业应用落地，已有一些研究分别表明纯字符文本、纯数学公式、以及手写体识别用合成方法生成样本训练的模型可以泛化推广到真实场景中。

(3)现在的深度学习模型RNN可以结合文本的上下文信息进行更有效的学习。

本发明基于以上结论采用的技术方案如下：

一种用于数学试卷图像识别的样本自动生成方法是以word版试卷或类似可解析类型文档作为输入语料，通过用3种不同方法解析文档针对性地截取不同样式的文本样本，即纯字符文本样本的定长截取、包含word上下标输入的定位定长截取、包含数学公式编辑器输入的定位定长截取3种方式，再以所截取的样本作为输入文本分成复合方式和简单方式两个不同流程绘制图像，进行真实场景效果拟合自动地生成样本图片。该方法包括4个主要部分：制定字符表、截取语料样本、数据均衡处理、生成样本图像和拟合真实场景效果。

其中，所述制定字符表具体描述为：

首先，遍历全部文档文本，以字典数据结构进行符号统计。对文档中每个字符判断其是否已经存在于字典中，如果没有则在字典中新加一个键值对(key-value),其中key是该字符，value为1表示当前出现频次，如果key存在则对应的value数值加1。将字典的全部key(或频次高于某一阈值的字符集合)作为纯文本目标字符表。

然后，word转Latex格式，根据试卷文档的目标知识范围和Latex数学公式基本元素表制定初始数学公式符号表，如果没有确定知识范围，则以Latex数学公式基本元素表作为初始数学公式符号表，然后解析文本通过正则匹配查找提取全部数学公式，统计其在初始数学公式符号表上的词频分布，再删除该初始数学公式符号表上出现频次为0(或低于某一阈值)的符号作为数学公式目标符号表。

最后，将上述两步产生的目标符号表进行合并去重，对于在word文档和在Latex文档中表示形式不同而打印显示效果相同的符号建立映射表进行转换，因为在OCR识别中应当使显示效果相同的字符只有唯一的类别编号。

其中，所述从文档截取语料样本是指根据试卷文本的特点和人们的输入习惯使用三路并行的文档解析截取样本方法，即纯字符文本样本的定长截取、包含word上下标输入的定位定长截取、包含数学公式编辑器输入的定位定长截取3种方式，以充分利用试卷提供的语料信息和多种样式。

其中，所述纯字符文本样本的定长截取描述为：解析word，遍历文档的段落，从段落文本中截取一定长度范围内的样本语料，如果遇到不是字符表上的字符则舍弃，继续前进。这是非常简单快捷的方式，也是最常出现的样式，通用的OCR识别引擎可以只需要这样的语料样本就足够了。

其中，所述包含word上下标输入的定位定长截取具体描述为：解析word，定位各个段落样式中字体属性为上标或下标的位置，然后以该样式位置为中心向前后两端随机推移一定距离截取一定长度范围内的字符串，拼接成一个包含上下标的文本样本。这可以覆盖对于比较简单的数学公式(或者化学式)人们可能不会使用word内置的数学公式编辑器来输入的情况。

其中，所述包含数学公式编辑器输入的定位定长截取具体描述为：将word文档转化为Latex文本，通过正则匹配查找定位用数学公式编辑器输入的公式的位置，然后获取公式长度，如果长度超出目标长度范围则舍弃继续查找，若公式长度在目标范围内则从公式两端的上下文中随机截取一定长度的字符拼接成一个混合样式的文本样本。

其中，所述数据均衡处理具体描述为：统计所截取的全部样本的字符词频，取平均值，出现频次少于平均值m倍(如m＝0.1)的则表示该字符出现频次过低，对于出现频次过低的字符进行增强处理，具体实现可以包括两个方面：其一，对已经截取的包含低频字符的样本通过截断、添加符号、随机替换符号多种方式生产新样本；其二，对于包含低频字符的样本进行重复利用，随机修改文本画图的参数和属性如字体、大小、背景、位置等。

其中，所述生成样本图像具体描述为：根据生成的文本样本是否含上下标或公式分流进行画图以提高效率。对于混合类型的文本以复合方式画图，对于纯字符类型的文本以简单方式画图。

其中，所述复合方式画图具体描述为：

首先，分别设置纯字符文本和数学公式文本的字体属性，例如通常实际场景中汉字的字体和数学公式的字体是不同的，不同字体包含的字符也是不同的。在合适的范围内随机选择字体后，检查是否输入样本每个字符都在所选字体的符号表中。因为一种字体只提供UNICODE字符集中全部字符的一个子集，所以需要进行检验，如果不是则重新选择字体。

然后，在纯白色背景上通过拼贴嵌合的方式画出汉字、英文、数字和公式多种样式混合的数学试题文本样本图像；也就是说混合型的文本样本图片是通过多个图像的排列组合或拼接得到的，公式部分的图像可以独立于纯字符文本部分绘制，最终只需要按照合适的间隔和样本文本顺序在画布上正确排布即可。如果需要，随机增加透视变换处理。

最后，用矩阵处理方法高效地进行图像裁剪。对于混合类型的文本样本图像，由于其开始是在纯白色背景上画的图像，所以可以先进行二值化，然后对二值图进行简单的矩阵处理：找到所有数值为0的元素的坐标位置，分别算出横坐标和纵坐标的最大最小值，即可获取目标裁剪区域。

其中，所述简单方式画图具体描述为：随机选择真实场景下的背景图片，处理成目标尺寸大小；随机选择字体，检查输入样本是否每个字符都在所选字体符号表中，如果不是则重新选择字体；然后在背景图上画出文本图像。

其中，所述拟合真实场景效果具体描述为收集多个真实场景的背景图像图片，随机选择背景图片和文本图像融合，进行透视变换、模糊滤波，随机添加噪声等处理，拟合真实场景效果步骤可进行调整。

其中，一种用于数学试卷图像识别的样本自动生成方法，具体包括以下关键步骤：

步骤一、制定字符表，分别统计word文档中的纯字符文本构建字符表和将文档转换成Latex格式文本统计数学公式符号构建公式符号表，最后将两个字符表合并去重即构成目标字符表；

步骤二、解析word文档，有序从段落文本中随机截取一定长度范围内的纯字符文本样本；

步骤三、解析word文档，找到段落文本样式中字体属性是上标或下标的位置，以该位置为中心向两端随机移动一定距离截取一定长度范围内的包含上下标输入的文本样本；

步骤四、将word文档转化为Latex格式文本后，通过公式标记符号用正则匹配查找定位段落中的公式起止位置，如果公式长度在目标范围内，从公式起止位置向两端随机移动一定距离，截取一定长度范围内包含数学公式编辑器输入的文本样本；

步骤五、统计所截取样本的词频分布，进行数据均衡处理，对于出现频次低于所设阈值的字符进行样本增强；

步骤六、以复合方式画混合样式的文本图像，先分别设置纯字符文本和公式文本的字体和属性，检查样本字符是否都包含在字体中，然后在纯白色背景上通过拼贴内嵌的方式画出汉字、英文、数字和公式混合的文本图像，可随机对图像进行透视变换，最后根据文本外包围框对图像进行裁剪；

步骤七、以简单方式画纯字符样式的文本图像，先随机选择背景图片并适当进行缩放、设置字体属性、检查样本字符是否都包含在字体中、再在背景图片上画出样本文本图像；

步骤八、进行模糊滤波、添加噪声处理以拟合真实场景效果。

(三)有益效果

本发明提出了一种用于数学试卷图像识别的样本自动生成方法，具备以下有益效果：

本方法主要解决用深度学习技术进行OCR识别所需的训练数据不易得、人工标注成本高昂、周期漫长的问题以及数学试题的识别需要单独分开训练纯字符文本和纯数学公式两个识别引擎的问题。根据该场景特点，创造性地提出了一种基于word试卷语料生成带标签的中文、英文、数字和公式混合的文本图片样本的合成方法，以3种不同的方式截取特定样式的文本样本，根据文本截取的方式使用不同的流程绘制文本图像，既提高了样本的多样性和覆盖率同时也提高了画图效率，此外还考虑了数据不均衡和随机选择字体不包含特定字符的问题，提出了有效的解决方法。

附图说明

图1为本发明整体流程示意图；

图2为本发明解析文档截取语料样本的具体流程示意图；

图3为本发明生成样本图像和拟合真实场景效果的具体流程示意图。

具体实施方式

为了使本发明的目的/技术方案及其优点更加清楚明白，以下结合附图以及案例对本发明进一步详细说明。此处所描述的具体案例仅解释本发明，但不用于限制本发明。

参阅图1，一种用于数学试卷图像识别的样本自动生成方法，以word版试卷或类似可解析类型文档作为输入语料，通过用3种不同方法解析文档针对性地截取不同样式的文本样本，即纯字符文本样本的定长截取、包含word上下标输入的定位定长截取、包含数学公式编辑器输入的定位定长截取3种方式，再以所截取的样本作为输入文本分成复合方式和简单方式两个不同流程绘制图像，进行真实场景效果拟合自动地生成样本图片。该方法包括4个主要部分：制定字符表、截取语料样本、数据均衡处理、生成样本图像和拟合真实场景效果。具体包括以下步骤：

参阅图2，截取语料样本，以word试卷作为输入数据，根据所需截取的样本的样式构成有3种并行的方式，这是根据实际生成word文档过程中人们的输入习惯以及考虑训练深度学习模型样本应该覆盖全、分布合理的需求设计的。第1种方式是依序解析word文档的段落，提取段落中文本，进行一定长度范围内的随机截取，这种方式截取的是纯字符类型的文本；第2种方式是依序解析word文档的每一段落的样式，判断样式字体属性是否为上标或下标，如果是则从前后样式的上下文中截取一定长度的文本，拼接在一起构成一个包含上下标结构的文本样本；第3种方式是先将word文档转换为Latex格式，根据Latex的语法用正则匹配方法查找和提取公式，判断公式长度是否合适，如果在目标范围内再从公式前后位置的上下文中截取一定长度的文本拼接在一起构成一个文本样本。这三种方法都是以word试卷为语料截取样本，比随机生成的方法的优点是样本包含丰富的上下文信息，有利于使用RNN循环卷积网络提升模型的识别性能。

参阅图3，画出文本样本图像，并使之和真实场景下的图像效果相似或一致。根据文本样本的构成本发明使用了不同的绘图流程，纯字符类型的样本直接在随机选择的背景图像上绘制再添加后处理，步骤简洁速度更快。而混合了公式类型的文本则是先分别设置纯字符文本和数学公式的字体属性，然后在纯白色的背景上用拼接嵌合的方式绘制文本图像，再根据文本外包围框位置进行裁剪，然后融合背景图像，再进行后处理。

以上所述仅为本发明的解释案例，并不限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于数学试卷图像识别的样本自动生成方法，其特征在于以word版试卷或类似可解析类型文档作为输入语料，通过用3种不同方法解析文档针对性地截取不同样式的文本样本，即纯字符文本样本的定长截取、包含word上下标输入的定位定长截取、包含数学公式编辑器输入的定位定长截取3种方式，再以所截取的样本作为输入文本分成复合方式和简单方式两个不同流程绘制图像，最后进行真实场景效果拟合自动地生成样本图片。该方法包括4个主要部分：制定字符表、截取语料样本、数据均衡处理、生成样本图像和拟合真实场景效果。

2.如权利要求1所述的一种用于数学试卷图像识别的样本自动生成方法，其特征在于，所述制定字符表具体描述为：

首先，遍历全部文档文本，以字典数据结构进行符号统计。对文档中每个字符判断其是否已经存在于字典中，如果没有则在字典中新加一个键值对(key-value),其中key是该字符，value为1表示当前出现频次，如果key存在则对应的value数值加1。将字典的全部key(或频次高于某一阈值的字符集合)作为纯文本目标字符表；

然后，word转Latex格式，根据试卷文档的目标知识范围和Latex数学公式基本元素表制定初始数学公式符号表，如果没有确定知识范围，则以Latex数学公式基本元素表作为初始数学公式符号表，然后解析文本通过正则匹配查找提取全部数学公式，统计其在初始数学公式符号表上的词频分布，再删除该初始数学公式符号表上出现频次为0(或低于某一阈值)的符号以作为数学公式目标符号表；

3.如权利要求1所述的一种用于数学试卷图像识别的样本自动生成方法，其特征在于，所述截取语料样本是指用3种处理方法并行处理截取文本样本，即纯字符文本样本的定长截取、包含word上下标输入的定位定长截取、包含数学公式编辑器输入的定位定长截取3种方式，以充分利用试卷提供的语料信息和多种样式。

4.如权利要求3所述的一种用于数学试卷图像识别的样本自动生成方法，其特征在于，所述纯字符文本样本的定长截取具体描述为：解析word，遍历文档的段落，从段落文本中截取一定长度范围内的样本语料，如果遇到不是字符表上的字符则舍弃，继续前进，这是非常简单快捷的方式，也是最常出现的样式，通用的OCR识别引擎可以只需要这样的语料样本就足够了。

5.如权利要求3所述的一种用于数学试卷图像识别的样本自动生成方法，其特征在于，所述包含word上下标输入的定位定长截取具体描述为：解析word，定位各个段落样式中字体属性为上标或下标的位置，然后以该样式位置为中心向前后两端随机推移一定距离截取一定长度范围内的字符串，拼接成一个包含上下标的文本样本；这可以覆盖对于比较简单的数学公式(或者化学式)人们可能不会使用word内置的数学公式编辑器来输入的情况。

6.如权利要求3所述的一种用于数学试卷图像识别的样本自动生成方法，其特征在于，所述包含数学公式编辑器输入的定位定长截取具体描述为：将word文档转化为Latex文本，通过正则匹配查找定位用数学公式编辑器输入的公式的位置，然后获取公式长度，如果长度超出目标长度范围则舍弃继续查找，若公式长度在目标范围内则从公式两端的上下文中随机截取一定长度的字符拼接成一个混合样式的文本样本。

7.如权利要求1所述的一种用于数学试卷图像识别的样本自动生成方法，其特征在于，所述数据均衡处理具体描述为：统计所截取的全部样本的字符词频，取平均值，出现频次少于平均值m倍(如m＝0.1)的则表示该字符出现频次过低，对于出现频次过低的字符进行增强处理，具体实现可以包括两个方面：其一，对已经截取的包含低频字符的样本通过截断、添加符号、随机替换符号多种方式生产新样本；其二，对于包含低频字符的样本进行重复利用，通过随机修改画图的参数和属性如字体、大小、背景、位置等多次绘图。

8.如权利要求1所述的一种用于数学试卷图像识别的样本自动生成方法，其特征在于，所述生产样本图像具体描述为：根据生成的文本样本是否含上下标或公式分流进行画图以提高效率；对于混合类型的文本以复合方式画图，对于纯字符类型的文本以简单方式画图。

9.如权利要求8所述的一种用于数学试卷图像识别的样本自动生成方法，其特征在于，所述以复合方式画图具体描述为：

首先，分别设置纯字符文本和数学公式文本的字体属性，例如通常实际场景中汉字的字体和数学公式的字体是不同的，不同字体包含的字符也是不同的。在合适的范围内随机选择字体后，检查是否输入样本每个字符都在所选字体的符号表中。因为一种字体只提供UNICODE字符集中全部字符的一个子集，所以需要进行检验，如果不是则重新选择字体；

然后，在纯白色背景上通过拼贴嵌合的方式画出汉字、英文、数字和公式多种样式混合的数学试题文本样本图像；也就是说混合型的文本样本图片是通过多个图像的排列组合或拼接得到的，公式部分的图像可以独立于纯字符文本部分绘制，最终只需要按照合适的间隔和样本文本顺序在画布上正确排布即可。如果需要，随机增加透视变换处理；

10.如权利要求8所述的一种用于数学试卷图像识别的样本自动生成方法，其特征在于，所述以简单方式画图具体描述为：随机选择真实场景下的背景图片，处理成目标尺寸大小；随机选择字体，检查输入样本是否每个字符都在所选字体符号表中，如果不是则重新选择字体；然后在背景图上画出文本图像；再进行模糊滤波和添加噪声等后处理。

11.如权利要求1所述的一种用于数学试卷图像识别的样本自动生成方法，其特征在于，所述拟合真实场景效果具体描述为收集多个真实场景的背景图像图片，随机选择背景图片和文本图像融合，进行透视变换、模糊滤波，随机添加噪声等处理，拟合真实场景效果步骤可进行调整。

12.如权利要求1所述的一种用于数学试卷图像识别的样本自动生成方法，其特征在于，具体关键步骤如下：