CN106778730B

CN106778730B - 一种用于快速生成ocr训练样本的自适应方法及系统

Info

Publication number: CN106778730B
Application number: CN201611239121.7A
Authority: CN
Inventors: 王经宇; 潘嵘; 郑华斌; 刘思聪; 费行健
Original assignee: Shenzhen Ipin Information Technology Co ltd
Current assignee: Shenzhen Ipin Information Technology Co ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2020-07-07
Anticipated expiration: 2036-12-29
Also published as: CN106778730A

Abstract

本发明涉及一种用于快速生成OCR训练样本的自适应方法及系统，其方法包括：利用编辑器生成模板字符数据，标记特征点，并将模板数据打印作为模板；获取屏幕坐标系下特征点及每个所述字符的中心坐标，对模板进行拍照并获取相机图像坐标系下每个所述字符的中心点的坐标；在不同条件下对模板进行多组不同清晰度的拍照，提取出模板上所述特征点的位置坐标；然后利用屏幕坐标系下的所述特征点坐标与所提取的相机图像坐标系下特征点坐标得到两个坐标系之间的线性变换矩阵，再利用该线性变换矩阵得到屏幕坐标系下所述字符中心坐标在实际所拍摄的照片中所对应的字符中心坐标。本发明能够自适应各种真实场景，能够模拟相机和文档的相对运动导致的模糊，提高了样本生成的速率及真实性。

Description

一种用于快速生成OCR训练样本的自适应方法及系统

技术领域

本发明涉及一种光学字符识别（OCR）训练样本生成方法，更具体的，涉及一种快速生成OCR训练样本的自适应方法及系统。

背景技术

OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。现有技术中基于统计的机器学习方法，在OCR任务中，需要百万量级的训练样本，来提取字符的有效特征，因此样本的真实性和有效性在OCR任务中占据重要地位。在样本生成上，国内公开的方法均一般利用OpenCV自动生成字符图片，然后使用不同频域带宽的高斯滤波器生成模糊的样本，以此模拟真实情况下相机拍摄纸质文档所产生的信息失真，再利用得到的模糊照片，提取字符的轮廓，最后将轮廓作为卷积神经网络的输入样本训练模型。

一般在拍摄文档过程中，诸多因素影响最终文档的成像质量，例如相机镜头的滤光效应，被拍摄文档的水平姿态，拍摄相机的抖动和相对运动，相机CMOS的感光能力和白平衡等，均能够影响拍摄到的字符照片的质量。背景技术中提到的高斯滤波模拟真实场景的方法，存在以下技术问题：

1）从被拍摄物体到相机成像平面的映射不是一个简单的高斯函数模型，高斯函数是对这一过程的假设和简化，所以高斯模糊并不能得到精确的真实情况下的样本，这种方式生成的样本和真实情况比较，会带有人为的噪声，影响算法对真实字符照片的判断；

2）高斯滤波器不能模拟真实情况下相机和文档存在相对运动时导致的模糊，因为高斯滤波是全局应用到待处理字符图片，模拟的是全局效果，而真实情况下运动模糊一般是局部的字符模糊，因为在景深范围内，图像的成像是清晰的，只有超出景深的范围部分，成像才是模糊的；

3）高斯滤波器的频域带宽比较难选择，这会导致大量不真实的样本产生，这会导致基于统计的机器学习方法的失败。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

为此，本发明的目的在于，本发明提出一种快速生成在各种真实场景下的训练样本的方法，没有语言的限制，能够自适应各种真实场景，没有人为设定高斯滤波器的频率带宽的过程，并且能够模拟相机和文档的相对运动导致的模糊，直接生成真实使用情况下的训练样本。

为实现上述目的，本发明提供了一种用于快速生成OCR训练样本的自适应方法，其特征在于，包括如下步骤：

步骤1，模板制作，利用编辑器生成模板字符数据，并在模板数据的上下左右标记四个特征点，将模板数据打印出来作为模板；

步骤2，选取屏幕坐标系作为参考坐标系，在辑器中得到所述模板中所述四个特征点及每个所述字符的中心坐标，对模板进行拍照并保证模板上每个所述字符的轮廓清晰，采用相关算法获取相机图像坐标系下每个所述字符的中心点的坐标；

步骤3，在不同条件下对模板进行多组不同清晰度的拍照，采用图像形态学方法，提取出模板上下左右四个所述特征点的位置坐标；

步骤4，样本生成，利用步骤2中屏幕坐标系下的所述特征点坐标与步骤3中所述提取的特征点坐标得到两个坐标系之间的线性变换矩阵，再利用该线性变换矩阵得到步骤2中屏幕坐标系下所述字符中心坐标在步骤3中所拍摄的照片中所对应的字符中心坐标。

更具体的，所述步骤1中的特征点为十字交叉符号。

更具体的，所述步骤2中对模板进行拍照并保证模板上每个所述字符的轮廓清晰，采用相关算法获取相机图像坐标系下每个所述字符的中心点的坐标包括：

对模板拍照，保证模板上的每个字符轮廓清晰，选取相机图像坐标系为参考坐标系，对得到的图像首先二值化，然后利用图像形态学或者模板匹配找到所述特征点，再采用行分割和列分割算法计算得到每个所述字符的中心点坐标。

更具体的，所述步骤3具体包括：

在不同距离下，采用不同品牌的摄像头，加入适量抖动对所述模板进行拍照，得到所述模板不同清晰度的样本图像，拍照过程中保证能够肉眼看到四个所述特征点，然后，采用图像形态学方法，提取出所述模板上所述特征点的位置坐标。

根据本发明的另一方面，还提供了一种用于快速生成OCR训练样本的自适应系统，该系统包括：

模板制作模块，利用编辑器生成模板字符数据，并在模板数据的上下左右标记四个特征点，将模板数据打印出来作为模板；

字符中心坐标计算模块，选取屏幕坐标系作为参考坐标系，得到编辑器中下得到所述模板中所述四个特征点及每个所述字符的中心坐标，对模板进行拍照并保证模板上每个所述字符的轮廓清晰，采用相关算法获取相机图像坐标系下每个所述字符的中心点的坐标；

特征点提取模块，在不同条件下对模板进行多组不同清晰度的拍照，采用图像形态学方法，提取出模板上下左右四个所述特征点的位置坐标；

样本生成模块，利用所述字符中心坐标计算模块中屏幕坐标系下的所述特征点坐标与所述特征点提取模块中所述提取的特征点坐标得到两个坐标系之间的线性变换矩阵，再利用该线性变换矩阵得到步骤2中屏幕坐标系下所述字符中心坐标在步骤3中所拍摄的照片中所对应的字符中心坐标。

更具体的，所述模板制作模块中的特征点为十字交叉符号。

更具体的，所述特征点提取模块中对模板进行拍照并保证模板上每个所述字符的轮廓清晰，采用相关算法获取相机图像坐标系下每个所述字符的中心点的坐标具体实现为：

对模板拍照，保证模板上的每个字符轮廓清晰，取相机图像坐标系为参考坐标系，对得到的图像首先二值化，然后利用图像形态学或者模板匹配找到所述特征点，采用行分割和列分割算法计算得到每个所述字符的中心点坐标。

更具体的，所述特征点提取模块实现为：

本发明通过设计一种快速生成在各种真实场景下的训练样本的方法，能够自适应各种真实场景，没有语言的限制，没有人为设定高斯滤波器的频率带宽的过程，并且能够模拟相机和文档的相对运动导致的模糊，直接生成真实使用情况下的训练样本，提高了样本生成的速率及真实性。

本发明的附加方面和优点将在下面的描述部分中给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了根据本发明一种用于快速生成OCR训练样本的自适应方法的流程图；

图2示出了本发明一实施例的用于快速生成OCR训练样本的自适应方法流程图；

图3示出了根据本发明实施例生成的OCR训练样本效果图；

图4示出了根据背景技术生成的OCR训练样本效果图；

图5示出了本发明一种用于快速生成OCR训练样本的自适应系统的系统框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明一种用于快速生成OCR训练样本的自适应方法的流程图。

如图1所示，根据本发明的一种用于快速生成OCR训练样本的自适应方法，该方法包括如下步骤：

步骤2，选取屏幕坐标系作为参考坐标系，在编辑器中得到所述模板中所述四个特征点及每个所述字符的中心坐标，对模板进行拍照并保证模板上每个所述字符的轮廓清晰，采用相关算法获取相机图像坐标系下每个所述字符的中心点的坐标；

更具体的，所述步骤1中的特征点为十字交叉符号。

更具体的，所述步骤2中在编辑器中得到上下左右四个点以及每个字符的中心坐标，这个参考坐标系是屏幕坐标系，得到的坐标点是屏幕上的像素点的表示，在不同分辨率的显示器上可能有不同的坐标表示，但这并不影响本发明的技术效果。对模板图像拍照，保证模板上的每个字符轮廓清晰即可，对得到的图像首先二值化，然后寻找上下左右的四个标记点，这个可以用图像形态学计算或者模板匹配得到。然后采用行分割和列分割算法将得到每个字符的中心点坐标，这个参考坐标系是相机图像坐标系，得到的数值和在屏幕坐标系下得到的数值一般是不一样的，但是他们之间仅仅通过平移旋转和缩放操作，即可实现等价。

更具体的，所述步骤3具体包括：

在不同距离下，采用不同品牌的摄像头，加入适量抖动对所述模板进行拍照，得到所述模板不同清晰度的样本图像，拍照过程中保证能够肉眼看到四个所述特征点，然后，采用图像形态学方法，提取出所述模板上所述特征点的位置坐标。之所以采用形态学，因其速度比较快，可以根据区域的长度或者宽度来提取特征点，本发明不限于此，也可以采用其它方法提取特征点。

更具体的，所述步骤2和步骤3中分别得到了不同参考坐标系下的特征点坐标，这两个参考坐标系之间存在一个变换，使得在这两个坐标系下同一个物体的坐标表示相等。这就是本发明的核心思想，本发明就是利用线性空间变换的思想，由两个参考坐标系之间的转换，解得这两个参考坐标系之间的线性变换矩阵，这样利用步骤2中比较清晰的字符坐标信息，经过同样的线性变换矩阵后，可得到步骤3中对应字符的坐标，实现了样本的分割。步骤3中比较模糊的字符，或者左右结构的字符，一般比较难分割出来，但是线性变换使得可以先得到清晰条件下的字符坐标，然后经过变换得到模糊样本下的字符坐标，这样得到的样本，比用高斯滤波器生成的样本，更真实。而且速度快，因为一个模板上面可以设计636个字符左右，这样一次変换就能得到636个样本，而且可以批处理。

需要说明的是，本发明有两个关键点：1）在拍摄模板照片的时候，尽量将保持相机镜头的中心线轴垂直于模板，减少镜头畸变带来的影响；2）保持模板(纸张)的平整度，类似于刚体平面(不要褶皱纸张)，在计算模板照片顶点的时候，保证肉眼能够看清特征点（十字交叉点），方便在图像中定位到准确的坐标点。

图2示出了本发明一实施例的一种用于快速生成OCR训练样本的自适应方法流程图。

如图2所示，首先，准备一份需要生成的字符样本列表并在编辑器中均匀排列，在A4纸的上下左右标记一个十字交叉符号，再用A4纸打印出来；在编辑器中得到上下左右四个点以及每个字符的中心坐标，这个参考坐标系是屏幕坐标系；对模板图像拍照，确保模板上的每个字符轮廓清晰，对得到的拍照图像二值化，利用图像形态学计算或者模板匹配寻找上下左右的四个标记点，然后采用行分割和列分割算法将得到每个字符的中心点坐标，这个参考坐标系是相机图像坐标系；在真实环境下，选取不同距离，不同品牌的摄像头，加入适量抖动对所述模板进行拍照，得到所述模板不同清晰度的样本图像，拍照过程中保证能够肉眼看到四个所述特征点，然后，采用图像形态学方法，提取出所述模板上所述特征点的位置坐标；利用屏幕坐标系下的所述特征点坐标与真实拍照环境中相机图像坐标系下提取的特征点坐标得到两个坐标系之间的线性变换矩阵，再利用该线性变换矩阵得到屏幕坐标系下所述字符中心坐标在真实环境下所拍摄的照片中所对应的字符中心坐标。

图3示出了根据本发明实施例生成的OCR训练样本效果图，图4示出了根据背景技术生成的OCR训练样本效果图，由结果可知，本发明中经过变换得到模糊样本下的字符坐标样本，比用高斯滤波器生成的样本，更真实，而且速度更快。

根据本发明的另一方面，还提供了一种用于快速生成OCR训练样本的自适应系统，图5示出了本发明一种用于快速生成OCR训练样本的自适应系统的系统框图。

如图5所示，该系统包括：

更具体的，所述模板制作模块中的特征点为十字交叉符号。

对模板拍照，保证模板上的每个字符轮廓清晰，选取相机图像坐标系为参考坐标系，对得到的图像首先二值化，然后利用图像形态学或者模板匹配找到所述特征点，采用行分割和列分割算法计算得到每个所述字符的中心点坐标。

更具体的，所述特征点提取模块实现为：

本发明能够自适应各种真实场景，没有语言的限制，没有人为设定高斯滤波器的频率带宽的过程，并且能够模拟相机和文档的相对运动导致的模糊，直接生成真实使用情况下的训练样本，提高了样本生成的速率及真实性。

在本说明书的描述中，术语“一个实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于快速生成OCR训练样本的自适应方法，其特征在于，包括如下步骤：

步骤2，选取屏幕坐标系作为参考坐标系，在编辑器中下得到所述四个特征点及每个所述字符的中心坐标，对模板进行拍照并保证模板上每个所述字符的轮廓清晰，采用相关算法获取相机图像坐标系下每个所述字符的中心点坐标，在拍摄模板照片的时候，尽量将保持相机镜头的中心线轴垂直于模板；保持模板的平整度，保证刚体平面，在计算模板照片顶点的时候，保证肉眼能够看清特征点，方便在图像中定位到准确的坐标点；

2.根据权利要求1所述的一种用于快速生成OCR训练样本的自适应方法，其特征在于，所述步骤1中的特征点为十字交叉符号。

3.根据权利要求1所述的一种用于快速生成OCR训练样本的自适应方法，其特征在于，所述步骤2中所述对模板进行拍照并保证模板上每个所述字符的轮廓清晰，采用相关算法获取相机图像坐标系下每个所述字符的中心点的坐标具体包括：

4.根据权利要求1所述的一种用于快速生成OCR训练样本的自适应方法，其特征在于，所述步骤3具体包括：

5.一种用于快速生成OCR训练样本的自适应系统，其特征在于，该系统包括：

字符中心坐标计算模块，选取屏幕坐标系作为参考坐标系，在编辑器中得到所述四个特征点及每个所述字符的中心坐标，对模板进行拍照并保证模板上每个所述字符的轮廓清晰，采用相关算法获取相机图像坐标系下每个所述字符的中心点的坐标；在拍摄模板照片的时候，尽量将保持相机镜头的中心线轴垂直于模板；保持模板的平整度，保证刚体平面，在计算模板照片顶点的时候，保证肉眼能够看清特征点，方便在图像中定位到准确的坐标点；

6.根据权利要求5所述的一种用于快速生成OCR训练样本的自适应系统，其特征在于，所述模板制作模块中的特征点为十字交叉符号。

7.根据权利要求5所述的一种用于快速生成OCR训练样本的自适应系统，其特征在于，所述特征点提取模块中所述对模板进行拍照并保证模板上每个所述字符的轮廓清晰，采用相关算法获取相机图像坐标系下每个所述字符的中心点的坐标具体实现为：

8.根据权利要求5所述的一种用于快速生成OCR训练样本的自适应系统，其特征在于，所述特征点提取模块具体实现为：