CN111754525A

CN111754525A - 一种基于非精确切分的工业字符检测流程

Info

Publication number: CN111754525A
Application number: CN202010582179.1A
Authority: CN
Inventors: 邢述达; 汪雪林; 顾庆毅
Original assignee: Suzhou Zhongke Whole Elephant Intelligent Technology Co ltd
Current assignee: Suzhou Zhongke Whole Elephant Intelligent Technology Co ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-10-09
Anticipated expiration: 2040-06-23
Also published as: CN111754525B

Abstract

本发明公开了一种基于非精确切分的工业字符检测流程，属于通用机器视觉技术领域，包括离线阶段和在线检测阶段，在离线阶段得到字符参考模型，用于在线检测阶段中；其中在线检测阶段中，在图像分割中，采用改进最大稳定极值区域算法，增加了算法的鲁棒性；在字符分割中，对于非粘连字符和粘连等宽字符，采用投影分割的方式进行字符分割；若字符是粘连非等宽字符，则采用投影极值的方式进行字符分割。可以通过一边识别、一边分割的方式很好地确定字符的位置，降低了在线阶段的字符分割难度。

Description

一种基于非精确切分的工业字符检测流程

技术领域

本发明属于通用机器视觉技术领域，具体涉及一种基于非精确切分的工业字符检测流程。

背景技术

工业字符检测属于机器视觉技术领域，被广泛应用于工业生产过程中，例如：为了产品的可追溯，在产品上贴上序列号，这些序列号都需要读取并记录；还有某些场景使用序列号来控制生产流程。

当前光学字符检测主要分为传统的基于分割识别的方法和深度学习的方法。传统的方法主要分为两个步骤：将字符分割成单个字符和单个字符的分类。深度学习方法，可以将字符的识别和定位一起完成。但是后者需要大量的样本作为基础，对于工业普遍的应用场景，更多的希望通过少量的(或者1张)图片实现识别的任务。

中国发明专利申请CN108898137A(一种基于深度神经网络的自然图像字符识别方法及系统)中，识别方法包括图像采集融合、字符定位、字符识别以及合理性判断的步骤，系统包括图像采集融合单元、字符检测单元、字符识别单元和合理性判断单元；字符检测单元通过训练得到的字符探测器自动定位图像中字符所在区域，字符识别单元可将字符分为中文、英文和数字三大类后，在对相应类别的字符进行识别，合理性判断单元将其与基于字符的LSTM模型预测结果融合，提高中文连续字符识别的合理性。这种识别方法和系统能够智能识别自然图像中的字符，最大程度地模拟人脑，具有较高的鲁棒性和识别精度。中国发明专利申请CN110807453A(基于OCR的产品字符在线检测方法、装置及系统)中，首先用机器视觉镜头获取待检测产品的字符画面，对字符画面中的所有字符进行识别并排序后，得到一一对应的字符检测项和检测值，对每个检测值中的每个字符进行OCR识别，得到识别结果，将识别结果与对应的预定检测结果进行比对，若两者完全相同，则判定字符检测通过，反之则判定不通过。上述两件专利申请中，都是直接对采集到的图像中字符进行识别后比对判断，需要将识别结果与模型进行对比，因此增加了识别的运算量，识别效率较低。

中国发明专利申请CN101576956A(基于机器视觉的在线字符检测方法和系统)中，公开了一种在线字符检测方法，该方法包括图像预处理、目标提取、字模提取、字符序列模式产生、字符检测等多个软件模块，可形成产品建立操作流程和字符实时检测流程这两个独立的流程；其硬件设备包括摄像机、光源、图像采集卡和计算器，摄像机用来在线采集包含字符的图像，图像经图像采集卡传送至计算机，光源是包围摄像机的环形光源，在计算机内部存储有对参考图像进行预处理、目标提取和字模提取后生成的数据以及字符序列模式数据，并存储有对图像进行预处理、目标定位以及字符检测软件，用于对静态字符序列、动态字符序列和空字符进行在线检测；这种检测方法结合了图像处理、模式识别、机器视觉技术，能够有效提取目标和字符的特征信息，并进行检测，鲁棒性强，能够有效降低由于环境或其他因素导致的亮度、对比度、质量、字符笔画等图像变化的影响，可实现快速字符区域定位，实现字符的在线检测。采用该专利申请中的方法进行字符检测时，若字符之间存在粘连，则难以有效地提取出字符，并对字符进行检测，因此不适用于存在粘连字符的工业测量。

因此，需要开发出一种更好的算法，适合非精确切分的工业字符检测流程，可以针对粘连字符实现在线及离线的工业测量，并能够快速识别所有字符。

发明内容

本发明欲解决的技术问题是现有技术中在非精确切分的工业字符检测中，当字符存在粘连时，检测难度大，难以快速、准确地同时实现字符的识别和定位等技术问题。

为了解决上述技术问题，本发明公开了一种基于非精确切分的工业字符检测流程，检测流程中包括对输入的灰度图像进行图像分割，其中图像分割算法基于改进最大稳定极值区域算法；

所述改进最大稳定极值区域算法是指分别计算灰度图像中所有连通区域内的灰度梯度，然后利用公式(1)，通过用联通域灰度梯度的变化来获得最大稳定极值区域：

对所有的连通区域G₁，G₂，···，G_n，其中前一个区域是后一个区域的子区域，即G_i∈G_i+1，G_i表示第i个连通区域内的灰度梯度之和，|G_i|表示第i个连通区域内灰度梯度之和的梯度值，Δ表示微小的阈值变化，可取1-5中的任一整数；当s(i)为局部极小值时表示稳定区域，即为最大稳定极值区域。

具体地，把图像看成一个二维离散函数，图像中某一像素点处的灰度梯度是该二维函数在该点的求导：

灰度梯度:G(x,y)＝dx(i,j)+dy(i,j)；

dx(i,j)＝I(i+1,j)-I(i,j)；

dy(i,j)＝I(i,j+1)-I(i,j)；

其中，I是图像的灰度值，将有黑-灰-白连续变化的灰度值量化为256个灰度级，灰度值的范围为0-255，表示亮度从深到浅，对应图像中的颜色为从黑到白；(i,j)为像素点的坐标。

对输入图像中的灰度梯度进行计算，并对所有的连通区域内各个像素点的灰度梯度求和，即可通过公式(1)进行图像分割。

传统的最大稳定极值区域算法的作用就是在灰度图中找到符合条件的坑洼，考虑的条件包括：灰度差，坑的大小，以及坑的倾斜程度，坑中如果已有小坑时大坑与小坑的变化率。但是这样计算的结果对于多级灰度的区域衔接会出现失效的问题，为了解决这个问题，引入改进的最大稳定极值区域算法，采用联通域梯度的变化衡量稳定区域，即计算区域内每个点的梯度，用梯度的累加代替面积，因为梯度是一个向量，梯度的累加具有正负，在多级灰度区域计算梯度的时候，假设边缘处低阶灰度到高阶灰度一边是负的，另一边就是正的，利用公式(1)计算出来的结果不会出现衔接失效的问题。

该改进的最大稳定极值区域算法中采用导数的方式，增加了算法的鲁棒性。可以在光照不均匀和复杂背景中进行图像分割。

进一步地，若输入的图片含有复杂背景，则在进行图像分割前，进行双边滤波，双边滤波的公式如公式(2)所示：

其中

是归一化因子，

表示的是空间距离，

表示像素域距离，I_q为输入图像，BF[I]p是滤波后图像。

双边滤波可以达到更好的保持边缘、降噪平滑的效果，和其他滤波原理一样，双边滤波也是采用加权平均的方法，用周边像素亮度值的加权平均代表某个像素的强度，所用的加权平均基于高斯分布，不同之处在于，双边滤波的权重不仅考虑了像素的欧氏距离，还考虑了像素范围域中的辐射差异，在计算中心像素的时候同时考虑这两个权重。

双边滤波完成后，还可进一步对图像进行腐蚀和膨胀处理，腐蚀和膨胀处理属于灰度形态学：腐蚀是指使用算法，将图像的边缘腐蚀掉，可以将图像边缘的“毛刺”剔除；膨胀是指使用算法，将图像的边缘扩大些，可以将图像的边缘或内部的坑填充掉。

具体处理过程中，先腐蚀后膨胀的过程称为开运算，它具有消除细小物体，在纤细处分离物体和平滑较大物体边界的作用；先膨胀后腐蚀的过程称为闭运算，它具有填充物体内细小空洞，连接临近物体和平滑边界的作用。使用相同次数的膨胀和腐蚀，能够使图像的边缘更加平滑。

双边滤波可以很好地保持原图像的边缘，而且具有很好的平滑和一直噪声的能力，灰度形态学的运算能够突出所需要分割的前景，减少光照不均的干扰。

进一步地，检测流程中完成图像分割后，依次进行字符定位、将图像中字符的参数与设定参数进行对比、特征提取和文字识别。该检测流程为在线检测，在工业应用中，在线检测之前，先进行离线阶段的检测，离线阶段得到参考模型，利用该参考模型对在线检测阶段的字符进行文字识别。

更进一步地，所述字符定位采用投影的方式进行，具体为：分别在水平和垂直方向对预处理(二值化)后的图像进行像素值统计，采用垂直投影的方式找到在垂直方向像素投影累加最大值处作为字符行的中心线，然后向下和向上查找，投影的阈值小于给定的阈值处，即为字符在垂直方向上的上边界和下边界；从图像的开始和末尾位置作为初始的搜索位置，采用水平投影的方式，找到在水平方向像素投影累加最大值处作为字符列的中心线，然后向左和向右查找，投影的阈值小于给定的阈值处，即为字符在水平方向上的左边界和右边界。

更进一步地，所述字符定位完成后，将图像中字符的参数与设定参数进行对比，判断是否需要进行字符分割：若图像中字符的参数符合设定参数，则不需要进行字符分割，直接进行特征提取；若图像中字符的参数不符合设定参数，则进行字符分割，字符分割完成后，再进行特征提取。

更进一步地，在字符分割时，若字符为非粘连字符和粘连等宽字符，则采用投影分割的方式进行字符分割；若字符是粘连非等宽字符，则采用投影极值的方式进行字符分割。

等宽字符或者是非等宽字符需由人为指定，对于粘连字符可以通过指定的字符宽度进行确定，如果分割出来的字符宽度大于指定的宽度，认为是粘连的。

更进一步地，所述投影分割的方式是当字符为非粘连字符时，在图像像素值投影累加值为0处进行字符分割；当字符为粘连等宽字符时，根据字符宽度在相应位置处进行字符分割。

更进一步地，所述投影极值的方式是在图像像素值投影累加值极小处进行字符分割。

更进一步地，对于粘连非等宽字符，采用投影极值的方式进行字符分割后，获取满足条件的ROI，然后进行特征提取、文字识别和文字筛选。

更进一步地，所述文字筛选的过程为先找到最优字符，再根据设定参数从最优字符向前和向后搜索，确定所有字符。即为：当字符粘连在一起时，确定文本的外边框后，极值点坐标之间和外边框会形成一系列的矩形区域，先对满足预设条件的所有矩形框进行识别，找出置信度最大的一个框作为最佳字符，认为最佳字符时符合要求的字符。从最佳字符向前和向后搜索，离字符距离在给定范围之内找置信度最高的矩形框，以此类推，最后确定所有的字符。

对于能够得到参考模型的离线阶段，在工业应用中包括如下步骤：(1)输入图像；(2)图像分割；(3)字符定位；(4)与设定参数进行对比，判断是否需要进行字符分割；(5)若图像中字符的参数符合设定参数，则不需要进行字符分割，直接进行特征提取；若图像中字符的参数不符合设定参数，则进行字符分割，字符分割完成后，再进行特征提取；(6)字符分类，得到字符参考模型；

离线阶段中，与在线检测阶段采用的方法基本相同，不同之处仅在于步骤(5)中字符分割的方法，以及步骤(6)中字符分类的过程。在离线阶段中，在字符分割时，若字符为非粘连字符和粘连等宽字符，则采用自动分割的方式，即采用投影分割的方式进行字符分割；若字符是粘连非等宽字符，则采用手动分割的方式进行字符分割。所述手动分割的方式是将字符圈在一个范围内，这一过程是人工得到的，只需将字符圈在一个范围内即可，无需过多关注这一范围的大小。同时，在离线阶段中，需要根据提出的特征进行步骤(6)的字符分类：识别字符，选择的分类器主要有支持向量机(SVM)、多层感知机(MLP)和k-邻近算法(kNN)。对于自动分割的字符，优先使用SVM，可以达到很好的效果，因为少量的样本就可以实现比较高的准确率，MLP和kNN主要针对粘连字符，可以提供很好的置信度参考值，便于一边分类，一边分割。

此外，本发明中，特征提取步骤，主要采用的特征包括：图像的灰度、归一化灰度、二值图像和hog等特征，可以同时使用也可以自由选择其中的一个或者几个使用。

本发明中，字符的分割的好坏，是后面特征提取和文字识别的基础，因此，字符分割算法应该具有很强的鲁棒性。

本发明公开了一种基于非精确切分的工业字符检测流程，相比于现有技术具有如下优点：

(1)采用改进的最大稳定极值区域算法进行图像分割，相比于传统的利用面积的算法，该算法中采用导数的方式具有很强的鲁棒性，可以在光照不均匀和复杂背景中进行图像分割。

(2)对于复杂背景，加入双边滤波和灰度形态学的开闭运算。双边滤波可以很好的保持原图像的边缘，而且具有很好的平滑和一直噪声的能力，灰度形态学运算突出所需要分割的前景，减少光照不均的干扰。

(3)在线阶段可以首先识别字符，然后对于不同类别的字符选用不同的字符分割方式，即采用一边识别一边分割的方式，降低了在线阶段的字符分割难度。尤其是对于粘连非等宽字符的识别，可以很好地确定字符并找到最优字符。

附图说明

图1：离线阶段的检测流程图；

图2：在线检测阶段的检测流程图；

图3：条形码字符的原始图像。

图4：完成图像分割后的条形码字符图像。

图5：完成字符定位后的条形码字符图像。

图6：完成字符投影后的条形码字符效果图。

图7：条形码字符中的待分割位置点。

图8：完成检测识别后的条形码字符结果图像。

图9：金属表面雕刻的字符的原始图像。

图10：完成字符投影后的金属表面雕刻的字符效果图。

图11：金属表面雕刻的字符的待分割位置点。

图12：完成检测识别后的金属表面雕刻的字符结果图像。

具体实施方式

下面通过具体实施例进行详细阐述，说明本发明的技术方案。

一种基于非精确切分的工业字符检测流程，主要针对英文和数字且针对文本行矫正和字符矫正后的情况。在字符存在粘连时，在线检测阶段通过用户预设信息和在行方向上投影的特点，通过一边识别，一边分割的方式可以很好的确定字符的位置，降低在线检测时图像分割和字符分割步骤中对单个字符分割的难度。

主要采用改进的最大稳定极值区域算法，具有很强的鲁棒性，可以在光照不均匀和复杂背景中进行文本分割和字符分割；采用在线阶段非精确分割的方式对字符进行一边识别一边分割的方式，降低了在线阶段的字符分割难度。

对于离线阶段，其检测流程如图1所示。

第一步，输入图像，该图像为灰度图像。

第二步，采用基于改进最大稳定极值区域算法进行图像分割。

具体地，改进最大稳定极值区域算法是指分别计算灰度图像中所有连通区域内的灰度梯度，然后利用公式(1)，通过用联通域灰度梯度的变化来获得最大稳定极值区域：

灰度梯度:G(x,y)＝dx(i,j)+dy(i,j)；

dx(i,j)＝I(i+1,j)-I(i,j)；

dy(i,j)＝I(i,j+1)-I(i,j)；

对输入的图像灰度图中不同像素点的灰度梯度进行计算，得出所有像素点处的灰度梯度值和梯度方向，对区域内各个像素点的梯度求和，即可通过公式(1)进行图像分割。

第三步，对图像采用投影的方式进行字符定位，具体为：采用y轴投影的方式找到投影累加最大值作为字符行的中心线，然后向下和向上查找，投影的阈值小于给定的阈值处，即为字符y轴方向上的上边界和下边界；从图像的开始和末尾位置作为初始的搜索位置，采用相同的投影方式，确定出字符x轴方向上的左边界和右边界。

第四步，设定图像分割的参数，如下表1所示。

第五步，分两种情况：需要进行字符分割和不需要进行字符分割；

若图像中的字符参数符合表1中图像分割的参数，则不需要进行字符分割，直接进行下一步；

若图像中的字符参数不符合表1中图像分割的参数，则需要进行字符分割，需要进行字符分割时，则需要判断字符是非粘连字符、粘连等宽字符和粘连非等宽字符中的哪一类：若字符为非粘连字符和粘连等宽字符，则采用自动分割的方式，即采用投影分割的方式进行字符分割；若字符是粘连非等宽字符，则采用手动分割的方式进行字符分割。所述手动分割的方式是将字符圈在一个范围内，这一过程是人工得到的，只需将字符圈在一个范围内即可，无需过多关注这一范围的大小。

第六步，特征提取；主要提取的特征有灰度、x方向投影、y方向投影等。

第七步，对于提取出的特征进行分类，识别字符，得到参考模型；可选的分类器主要有支持向量机(SVM)、多层感知机(MLP)和k-邻近算法(kNN)；对于自动分割的字符，可以优先使用SVM可以达到很好的效果，因为少量的样本就可以实现比较高的准确率，MLP和kNN主要针对粘连字符，可以提供很好的置信度参考值，便于一边分类，一边分割。

对于在线检测阶段，其检测流程如图2所示。

第一步至第四步同离线阶段。

若图像中的字符参数不符合表1中图像分割的参数，则需要进行字符分割，需要进行字符分割时，则需要判断字符是非粘连字符、粘连等宽字符和粘连非等宽字符中的哪一类：

若字符为非粘连字符和粘连等宽字符，则采用自动分割的方式，对于粘连等宽字符，自动分割的时候即使存在粘连，如果是等宽的，也可以通过找几个字符的左右边界，知道字符个数，就可以通过自动分割的方式直接分割字符，本发明中此处自动分割的方式为投影分割的方式；投影分割的方式与离线阶段相同。若字符是粘连非等宽字符，则采用投影极值的方式进行字符分割。

具体地，字符分割的方式为：

图像分割和字符定位完成后，形成二值图像，对其进行图像的水平方向像素值累加后的分布设为H(x)，竖直方向的像素值累加后的分布设为V(y)。

竖直方向的文本行分割方式为：由于此处的字符识别针对的是单行文字，因此在进行文字的上边界和下边界定位时，首先找到V(y)的最大值，然后向两侧扩展，当扩展点的投影值和最大投影值的比值小于给定的阈值时定为边界。

对于水平方向的文字分割：当字符为粘连非等宽字符时，采用投影极值的方式进行，即两个相邻字符的分割点在H(x)的分布是过极值点的，即分割点处的投影累加值最小，往两端增大，在投影累加值最小处进行分割即可。

当字符为粘连等宽字符时，水平方向的文字采用投影分割的方式进行，即根据提前设定的宽度进行分割即可。

当字符为非粘连字符时，水平方向的文字采用投影分割的方式进行，此时字符左右边界的投影值为0，很容易进行分割单个字符，在投影值为0处进行分割即可。

第六步，对于采用投影分割方式完成字符分割后，进行特征提取，主要提取的特征有灰度、x方向投影、y方向投影等。然后再基于离线阶段得到的参考模型，对字符进行文字识别。

第七步，对于采用投影极值方式完成字符分割后，需要获取满足条件的ROI，然后进行特征提取、文字识别和文字筛选。更进一步地，所述文字筛选是先找到最优字符，再根据设定参数从最优字符向前和向后搜索，确定所有字符。即为：当字符粘连在一起时，确定文本的外边框后，极值点坐标之间和外边框会形成一系列的矩形区域，先对满足预设条件的所有矩形框进行识别，找出置信度最大的一个框作为最佳字符，认为最佳字符时符合要求的字符。从最佳字符向前和向后搜索，离字符距离在给定范围之内找置信度最高的矩形框，以此类推，最后确定所有的字符。

表1：图像分割的设定测试参数

图像设定参数	参数值
		最小面积	20
最大面积	20000
		最小高度	3
最大高度	150
		最小宽度	10
最大宽度	150
		最小宽高比	0.3
最大宽高比	1.0

在一个具体实施方式中，本发明对条形码的对应编码的字符采用了基于改进最大稳定极值区域算法进行图像分割，图3-图8分别给出了整个字符检测过程的效果图。

如图3所示，为原始输入的条形码的对应编码图像，可以看出，原始图像的光照不均匀且背景复杂；因此在输入图像后，首先通过双边滤波、腐蚀和膨胀处理后，再采用改进的最大稳定极值区域算法进行图像分割。具体地，双边滤波的公式如公式(2)所示：

其中

是归一化因子，

表示的是空间距离，

表示像素域距离，I_q为输入图像，BF[I]p是滤波后图像。

图4为采用本发明的图像分割算法后得到的图像分割后图像，可以看出图像分割效果良好；图5为完成字符定位后的图像，结合图6的字符投影图可以看出，这几个字符中既有粘连也有非粘连的情形，因此对不同情形，分别采用投影极值或投影分割的方式进行；图7为字符中的待分割点位置；图8为字符分割和识别完成后的最终结果图像，如图8的左上角所示，该方法识别出字符内容为“12341005”，并且最佳字符为“1”。

在另一个具体实施方式中，对金属表面雕刻的字符进行检测，图9-12给出了检测过程的效果图。同样地，在进行图像分割前，需要先对图像进行双边滤波、腐蚀和膨胀处理。

图9为原始图像，图10为完成图像分割后的图像，图11为字符的投影图，可看出字符为非粘连字符，相邻字符之间的投影值为0，采用投影分割的方式进行字符分割，最终识别得到的图像如图12所示，如图12的左上角所示，该方法识别出字符内容为“09H9AB”，最佳字符为“9”。

以上所述仅为本发明的较佳实施例，并不用于限制发明，凡在本发明的设计构思之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于非精确切分的工业字符检测流程，其特征在于：检测流程中包括对输入的灰度图像进行图像分割，其中图像分割算法基于改进最大稳定极值区域算法；

对所有的连通区域G₁，G₂，···，G_n，其中前一个区域是后一个区域的子区域，即G_i∈G_i+1，G_i表示第i个连通区域内的灰度梯度之和，|G_i|表示第i个连通区域内灰度梯度之和的梯度值，Δ表示微小的阈值变化，取自1-5中的任一整数；当s(i)为局部极小值时表示稳定区域，即为最大稳定极值区域。

2.如权利要求1所述的基于非精确切分的工业字符检测流程，其特征在于：对输入的图像进行图像分割之前，对图像进行双边滤波处理，以及腐蚀和膨胀处理。

3.如权利要求1所述的基于非精确切分的工业字符检测流程，其特征在于：检测流程中完成图像分割后，依次进行字符定位、将图像中字符的参数与设定参数进行对比、特征提取和文字识别。

4.如权利要求3所述的基于非精确切分的工业字符检测流程，其特征在于：所述字符定位采用投影的方式进行。

5.如权利要求4所述的基于非精确切分的工业字符检测流程，其特征在于：所述字符定位完成后，将图像中字符的参数与设定参数进行对比，判断是否需要进行字符分割：若图像中字符的参数符合设定参数，则不需要进行字符分割，直接进行特征提取；若图像中字符的参数不符合设定参数，则进行字符分割，字符分割完成后，再进行特征提取。

6.如权利要求5所述的基于非精确切分的工业字符检测流程，其特征在于：在字符分割时，若字符为非粘连字符和粘连等宽字符，则采用投影分割的方式进行字符分割；若字符是粘连非等宽字符，则采用投影极值的方式进行字符分割。

7.如权利要求6所述的基于非精确切分的工业字符检测流程，其特征在于：所述投影分割的方式是当字符为非粘连字符时，在图像像素值投影累加值为0处进行字符分割；当字符为粘连等宽字符时，根据字符宽度在相应位置处进行字符分割。

8.如权利要求6所述的基于非精确切分的工业字符检测流程，其特征在于：所述投影极值的方式是在图像像素值投影累加值极小处进行字符分割。

9.如权利要求6所述的基于非精确切分的工业字符检测流程，其特征在于：对于粘连非等宽字符，采用投影极值的方式进行字符分割后，获取满足条件的ROI，然后进行特征提取、文字识别和文字筛选。

10.如权利要求9所述的基于非精确切分的工业字符检测流程，其特征在于：所述文字筛选的过程为先找到最优字符，再根据设定参数从最优字符向前和向后搜索，确定所有字符。