CN111967457A

CN111967457A - 一种基于深度学习的ocr检测方法

Info

Publication number: CN111967457A
Application number: CN202010781247.7A
Authority: CN
Inventors: 孙余顺; 邹易; 赖伟海; 赖明钟
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-11-20

Abstract

本发明提供了一种基于深度学习的OCR检测方法，包括：步骤1：采集待测字符图片信息；步骤2：将待测字符图片送入字符检测网络中进行单个字符的位置提取，确定待测字符图片中每个单字符大致的外包矩形区域；步骤3：根据待测字符图片中的可能字符外包矩形区域进行字符笔画区域分割，采集图片中的字符区域；步骤4：根据字符区域分割的信息，对字符外包矩形位置进行调整，采集字符区域内各个字符的准确外包矩形区域；步骤5：对采集到的各个字符信息进行识别确认，完成OCR检测过程。本发明提供了一种通用结合深度学习和传统算法各自优点的方法，很好的解决OCR工业自动化应用的挑战。

Description

一种基于深度学习的OCR检测方法

技术领域

本发明涉及一种OCR检测方法，特别涉及一种基于深度学习的OCR检测方法。

背景技术

从20世纪70年代开始，光学字符识别技术就已经广泛地应用于各种商业应用，现在又开始运用到自动化任务中，如通行证处理、安全文件处理（支票、财务文件、账单）、邮件追踪、出版、消费品包装（单号、批号、有效期）及临床应用等。

光学字符识别（Optical Character Recognition），简称OCR，是一种将图像内的文字，转变成计算机文字，进而进行进一步判断的技术。OCR主要优点在于，它可以以一种让机器和肉眼都能识别的格式对信息进行编码。

但是当前，在工业自动化应用中面临几个方面的挑战：

一、工业字符多种多样一致性差。比如金属零件上点刻字符，注塑产品上的浮雕字符，电子元器件上的激光蚀刻字符，喷码点阵字符等。

二、字符不在一个平面上。比如瓶盖或瓶身四周的字符。

三、字符背景复杂，很多字符印刷在复杂背景图案内部，字符对比度低。

四、字符可能存在严重的扭曲、变形、断裂，粘连等。

传统的OCR算法对于上面提到的情况不能识别或者参数设置困难，通用性很差。

随着深度学习技术的发展，基于深度学习的OCR技术取得快速的发展，很多基于深度学习的算法已经取得很多应用，但是和传统OCR算法一样，单纯基于深度学习的算法只能在特定情况下效果较好，通用性依然不好。

发明内容

本发明提供了一种通用结合深度学习和传统算法各自优点的方法，很好的解决OCR工业自动化应用的挑战。

本发明提供了一种基于深度学习的OCR检测方法，包括：

步骤1：采集待测字符图片信息；

步骤2：将待测字符图片送入字符检测网络中进行单个字符的位置提取，确定待测字符图片中每个单字符大致的外包矩形区域；

步骤3：根据待测字符图片中的可能字符外包矩形区域进行字符笔画区域分割，采集图片中的字符区域；

步骤4：根据字符区域分割的信息，对字符外包矩形位置进行调整，采集字符区域内各个字符的准确外包矩形区域；

步骤5：对采集到的各个字符信息进行识别确认，完成OCR检测过程。

进一步地，所述字符检测网络的训练方法如下：

步骤1：采集字符样本；

步骤2：对字符样本进行丰富，并退化处理，送入神经网络；

步骤3：将各个字符样本作为同一目标类型进行训练，得到字符检测网络。

更进一步地，所述退化处理包括对字符样本的模拟扭曲、缩放、笔画粗细变更、亮度变化、对比度变化、随机位置、随机角度调整。

更进一步地，所述模拟扭曲的具体过程如下：

A、加入输入的字符样本Image，长宽分别为W和H，生成两张向量图ImageX，ImageY，长宽分别为W/A、H/A，A的取值为3~8

B、使用随机数生成算法用随机数填充ImageX和ImageY的每个像素，随机数的范围为-2~2；将ImageX和ImageY用立方插值的方法将长宽缩放到W和H；

C、将字符样本Image的每个像素根据ImageX和ImageY对应位置的值分别移动，得到扭曲后图像ImageDistortion。

更进一步地，所述字符检测网络的训练方法包括：

对于416x416的输入尺寸，在YOLOV3tiny前两层的特征图分别为13x13、26x26，在主干网络后继续增加两个或两个以上的upsample层，分别得到52x52、104x104的特征图，提高了小目标的检出率。

更进一步地，所述字符检测网络的训练方法包括：

训练网络时，将传统的IOU计算改为两个矩形框的交集与两个矩形框各自分别进行比值。

更进一步地，所述字符检测网络的训练方法包括：

在计算anchor的时候，利用已有数据集标注的box的尺寸信息，进行kmeans聚类，得到更接近于数据集的anchor值，加速训练过程的收敛。

进一步地，所述步骤3中，阈值分割后，扩大字符区域，使用动态阈值分割技术提取字符前景。

更进一步地，所述提取字符前景的具体方法为：

假设输入图像为Image，对每个像素计算其MxN邻域内的图像均值ImageMean和方差ImageDeviation，实际使用的阈值为ImageThreshold=ImageMean–S*ImageDeviation，S取值范围为0.05~2，并逐像素比较Image和ImageThreshold，Image中像素灰度值低于ImageThreshold的为字符像素。

进一步地，所述步骤4采用深度学习进行字符分割，具体方法如下：利用深度学习将字符区域内的单个字符设置为单一字符检测框，生成一个边界可能位置的直方图DeepHisto；对于单一字符检测框，从中心为开始计算，将中心位置设置为0，线性过度到边界位置为1，0标识出现字符分割点的可能性为0，1表示出现字符分割点的可能性为1，所有字符采用同样的方法，得到一个字符分割点出现概率的DeepHisto；使用DeepHisto调制HoriHisto，将HoriHist的局部最小值作为精确字符位置，得到最可能的字符分割点，完成字符分割。

本发明相对于现有技术，利用深度学习样本扩充技术，在无法获取大量样本的条件下使用特殊算法模拟样本的各种退化，尤其是最多的扭曲退化。同时，本发明正对工业现场图像特点，增加深度学习分类网络层数，提高对小目标的识别能力，提高OCR场景下的检测泛化能力，使用深度学习检测框调制字符投影直方图，采用模糊控制技术识别单个字符的分割点，准确分割单个字符区域。

附图说明

图1为本发明实施例字符检测网络的训练图；

图2为本发明实施例OCR检测流程图；

图3为本发明实施例步骤3阈值分割图；

图4为本发明实施例步骤3阈值分割后扩大字符区域图；

图5为本发明实施例字符前景图；

图6为本发明实施例投影直方图；

图7为本发明实施例DeepHisto图；

图8为本发明实施例多个字符的DeepHisto图；

图9为本发明实施例多个字符的DeepHisto去背景图；

图10为本发明实施例调制HoriHisto图；

图11为本发明实施例精确提取字符图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。

本发明提供了一种基于深度学习的OCR检测方法，如图2所示，包括：

步骤1：采集待测字符图片信息；

可选的，如图1所示，所述字符检测网络的训练方法如下：

步骤1：采集字符样本；

步骤2：对字符样本进行丰富，并退化处理，送入神经网络；

特别的，所述退化处理包括对字符样本的模拟扭曲、缩放、笔画粗细变更、亮度变化、对比度变化、随机位置、随机角度调整。

其中，OCR检测网络的训练过程具体如下：

一、采集并标注各种字符样本；

二、对字符样本进行丰富，采用算法模拟扭曲、缩放、笔画粗细、亮度变化、对比度变化、随机位置等，模仿各种样本可能的退化，送入神经网络；

三、将各种样本作为“同一目标”类型进行训练，不用区分具体字符种类，专门构建了特殊的目标检测网络，检测类型为1类；

四、训练得到字符检测网络（只用检测字符，不用区分具体何种字符）；

五、在面对多变的工业字符时，虽然能检测到字符，但是字符位置可能会存在微小偏差；

六、扩大字符区域，使用动态阈值分割技术提取字符前景；

七、字符前景可能包含部分临近字符，获取临近字符粘连，根据深度学习的字符区域动态提取字符前景；

八、根据字符投影微调字符区域，精确定位单个字符；

九、使用小型神经网络识别字符；

特别的，所述模拟扭曲的具体过程如下：

A、加入输入的字符样本Image，长宽分别为W和H，生成两张向量图ImageX，ImageY，长款分别为W/A、H/A，A的取值为3~8

B、使用随机数生成算随机填充ImageX和ImageY的每个像素，随机数的范围为-2~2；将ImageX和ImageY立方插值的方法将尺寸缩放到W和H；

特别的，由于把所有字符当成单一目标，深度学习网络只需要泛化所有字符的特征，不用区分各种字符之间的区别。有个工业中很多对比度低的点阵蚀刻字符，为提高神经网络在该场景下的泛化能力，因此构建深度神经网络和训练时做如下修改：

对于416x416的输入尺寸，在YOLOV3tiny前两层的特征图分别为13x13、26x26，在主干网络后继续增加两个或两个以上的upsample层，分别得到52x52、104x104的特征图，提高了小目标的检出率；

训练网络时，将传统的IOU计算改为两个矩形框的交集与两个矩形框各自分别进行比值；

可选的，所述步骤3中，阈值分割后，扩大字符区域，使用动态阈值分割技术提取字符前景。

特别的，如图5所示，所述提取字符前景的具体方法为：

假设输入图像为Image，计算MxN的图像均值ImageMean和方差ImageDeviation，实际使用的阈值为ImageThreshold=ImageMean–S*ImageDeviation，S取值范围为0.05~2，并逐像素比较Image和ImageThreshold，Image中像素灰度值小的为字符像素。

其中，如图3所示，对输入图片进行深度学习，深度学习很好的检测到了几个字符的位置，但是0号框和1号框有重叠，2号框和4号框提取的字符不完整，6号框下边缘不完整。如果直接进行字符分割，单个字符很难切开，很容易导致误识别。由于深度网络定位的字符区域存在偏差，在计算式采用下面步骤：

1、将深度网络提取的所有字符区域取并集，并计算旋转外接矩形；

由于深度学习识别的字符区域在上下方向也可能存在偏差，为了提高字符区域的提取精度，提取所有字符区域的旋转外接矩形，扩大字符区域，尽可能精确的提取字符所在区域，如图4所示；

2、如图4所示，图中字符印刷在纹理背景上，干扰点较多，而且从左到右亮度不均匀，部分区域字符间距较大，部分区域字符间距较小。传统的阈值固定阈值分割方法很难准确分割字符。因此本发明实施例使用动态阈值算法，提取字符前景区域CharsRegion，具体方法为：

假设输入图像为Image，计算MxN（范围为11~21）的图像均值ImageMean和方差ImageDeviation，实际使用的阈值为ImageThreshold=ImageMean– S*ImageDeviation，S取值范围为0.05~2；再逐像素比较Image和ImageThreshold，Image中像素灰度值小的为字符像素，结果如图5所示；

3、采用Chars Region进行竖直方向投影，投影直方图如图6所示。

4、从图6上可以看出，红框位置标注的很难判断具体的字符切分位置在哪里，后面20和27中间的投影位置也不是特征也不是很强烈，很容易受到噪声的干扰，因此需要配合深度学习进行字符分割，具体方法如下：利用深度学习将字符区域内的单个字符设置为单一字符检测框，生成一个边界可能位置的直方图DeepHisto；对于单一字符检测框，从中心为开始计算，将中心位置设置为0，线性过度到边界位置为1，0标识出现字符分割点的可能性为0，1表示出现字符分割点的可能性为1，如图7所示，所有字符采用同样的方法，得到一个字符分割点出现概率的DeepHisto，如图8所示，为便于显示，去掉背景图像（图9）；如图10所示，使用调制HoriHisto，将HoriHist的局部最小值作为精确字符位置，得到最可能的字符分割点；根据DeepHist的信息，每个小横线段必然会出现一个字符分割位置，在小横线段内寻找HoriHist的局部最小值作为精确的字符位置，得到作中的图像分割结果，校正后的结果如图11所示。

传统OCR方法和基于深度学习的方法，在使用中都各自的缺点和不足：

1、传统算法在面对复杂背景下的浮雕字符、点刻字符时，很难将字符和背景分开，无法准确提取到单个字符位置，无法完成识别。

2、传统算法在面对连体字符时，无法字符准确切分开，导致识别错误。

3、基于深度学习的算法需要大量样本参与训练，在工业应用中很难获取到大量有代表性的样本。即便获取了足够的样本，训练时间也很长，最终的训练结果也不可控。

4、基于深度学习的算法在单一场景下，通过大量样本训练可以取得不错的效果，但是多种场景下的字符合并到一起，泛化能力急剧下降，样本加到一定量后，再添加样本识别率很难进一步提高，在工业行可操作性不好。

5、深度学习训练需要大量样本和专用显卡，部署成本高，通用性差。

本发明实施例利用深度学习样本扩充技术，在无法获取大量样本的条件下使用特殊算法模拟样本的各种退化，尤其是最多的扭曲退化。同时，本发明实施例正对工业现场图像特点，增加深度学习分类网络层数，提高对小目标的识别能力，提高OCR场景下的检测泛化能力，使用深度学习检测框调制字符投影直方图，采用模糊控制技术识别单个字符的分割点，准确分割单个字符区域。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解，技术人员阅读本申请说明书后依然可以对本发明的具体实施方式进行修改或者等同替换，但这些修改或变更均未脱离本发明申请待批权利要求保护范围之内。

Claims

1.一种基于深度学习的OCR检测方法，其特征在于，包括：

步骤1：采集待测字符图片信息；

2.根据权利要求1所述基于深度学习的OCR检测方法，其特征在于，所述字符检测网络的训练方法如下：

步骤1：采集字符样本；

步骤2：对字符样本进行丰富，并退化处理，送入神经网络；

3.根据权利要求2所述基于深度学习的OCR检测方法，其特征在于，所述退化处理包括对字符样本的模拟扭曲、缩放、笔画粗细变更、亮度变化、对比度变化、随机位置、随机角度调整。

4.根据权利要求3所述基于深度学习的OCR检测方法，其特征在于，所述模拟扭曲的具体过程如下：

5.根据权利要求2所述基于深度学习的OCR检测方法，其特征在于，所述字符检测网络的训练方法包括：

6.根据权利要求2所述基于深度学习的OCR检测方法，其特征在于，所述字符检测网络的训练方法包括：

训练网络时，将传统的IOU计算改为两个矩形框的交集与两个矩形框各自分别进行比值，取较大者作为结果。

7.根据权利要求2所述基于深度学习的OCR检测方法，其特征在于，所述字符检测网络的训练方法包括：

8.根据权利要求1所述基于深度学习的OCR检测方法，其特征在于，所述步骤3中，阈值分割后，扩大字符区域，使用动态阈值分割技术提取字符前景。

9.根据权利要求8所述基于深度学习的OCR检测方法，其特征在于，所述提取字符前景的具体方法为：

10.根据权利要求1所述基于深度学习的OCR检测方法，其特征在于，所述步骤4采用深度学习进行字符分割，具体方法如下：利用深度学习将字符区域内的单个字符设置为单一字符检测框，生成一个边界可能位置的直方图DeepHisto；对于单一字符检测框，从中心为开始计算，将中心位置设置为0，线性过度到边界位置为1，0标识出现字符分割点的可能性为0，1表示出现字符分割点的可能性为1，所有字符采用同样的方法，得到一个字符分割点出现概率的DeepHisto；使用DeepHisto调制HoriHisto，将HoriHist的局部最小值作为精确字符位置，得到最可能的字符分割点，完成字符分割。