CN106650721A

CN106650721A - 一种基于卷积神经网络的工业字符识别方法

Info

Publication number: CN106650721A
Application number: CN201611235492.8A
Authority: CN
Inventors: 吴晓军; 张瑞
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2017-05-10
Anticipated expiration: 2036-12-28
Also published as: CN106650721B

Abstract

本发明提出了一种基于卷积神经网络的工业字符识别方法，包括建立字符数据集，对字符数据集进行数据增强及预处理，建立CNN集成模型，所述模型包含3个不同的个体分类器，然后，利用模型进行训练，训练分为两步完成，第一步为离线训练，获取离线训练模型，第二步为在线训练，将离线训练模型用作初始化，进行特定生产线字符数据集的训练，获取在线训练模型；以及对目标图形进行预处理、字符定位和单个字符图像分割；将分割好的字符图像送入已训练好的在线训练模型中，得到CNN集成模型中三个分类器将单个目标图像分类为每个类别的概率值；采用投票的方式进行最终决策，得到测试数据的类别结果。本发明能够对不同生产线上的字符进行快速、高效的识别。

Description

一种基于卷积神经网络的工业字符识别方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种工业字符识别方法。

背景技术

现有的字符识别技术一般采用基于模版匹配或基于结构统计的算法。以字符图像灰度作为匹配信息，通过计算字符模板图像与目标图像子区域的灰度相关系数来度量匹配度；或利用字符本身的形态结构，如边缘、拐点、连通域等特征进行识别。还有一类是在建立字符图像的特征后，通过有监督的方式学习特征与目标类别之间的关系，建立从输入到预测输出的函数关系。

专利文献1(中国专利公开号CN101436249A)公开了一种获得字符粗分类及细分类匹配模版的方法，用于手写字符识别系统。专利文献2(中国专利公开号CN103049750A)公开了一种采用边缘特征建立字符匹配模版的方法。专利文献3(中国专利公开号CN104820827A)公开了一种通过二值化、预处理、区域粗提取和分割等各个操作获取字符的单独图像与设定的模版进行相似性度量的匹配算法，用于电线电缆表面的点状字符识别。专利文献4(中国专利公开号CN105761351A)公开了一种基于结构特征的字符识别方法。专利文献5(中国专利公开号CN104871180A)公开了一种使用相同文本的多个图像改善文本辨识的方法用于改善文字识别效果。专利文献6(中国专利公开号CN105608453A)公开了一种能够对包括不同种类字符的复式记录的票据进行高精度识别的字符识别系统及字符识别方法。专利文献7(中国专利公开号CN103902956A)公开了一种基于神经网络的车牌照字符识别方法，以字符图像在X轴和Y轴上的投影为基本，对其做Fourier变换得到的K个变换系数中选出有代表性的M个特征作为神经网络的输入，采用有监督的方式训练得到特征和输出类别间的关系。专利文献8(中国专利公开号CN101408933A)公开了一种基于粗网格特征提取和BP神经网络的车牌字符识别方法。专利文献9(中国专利公开号CN103927534A)公开了针对易拉罐底喷码字符的在线视觉检测方法，包括离线状态下对图像中的字符进行分割，并归类构建字符库，采用卷积神经网络算法进行训练，形成字符分类器，在在线检测时用同样的过程对输入图像进行识别。专利文献10(中国专利公开号CN104463209A)公开了一种识别PCB板上数字代码的方法，采用频域法得到增强了特征值的图像，归一化特征值输入BP神经网络完成训练和预测。专利文献11(中国专利公开号CN104331688 A)公开了一种雷管外壳点阵字符的识别方法，利用连通域对单个字符区域进行切分，将字符边界到区域边界的距离作为待识别的特征值，利用最小距离分类器和多级识别法获得最终的识别结果。专利文献12(中国专利公开号CN105678293A)、专利文献13(中国专利公开号CN105678292A)公开了一种基于卷积及递归神经网络的文字序列识别系统，采用CNN提取图像文字序列特征并输出到RNN中，依次实现汉字前、后部分、数字、字母、标点符号或者空白的识别。王有旺等提出了基于深度学习的字符识别算法，分别应用于手写体汉字识别和自然场景英文文字识别(王有旺，深度学习及其在手写汉字识别中的应用研究，华南理工大学，硕士学位论文，2014；廖威敏，面向自然场景的端对端英文文字识别研究，厦门大学，硕士学位论文，2014)。周凤香提出了一种基于字符混合特征的工业生产线标签识别系统，通过提取字符的孔洞特征、统计特征、结构特征和基于Gabor变换的纹理特征等构建字符的混合特征，设计三层分类器进行递进的识别分类(周凤香，工业生产线标签字符识别系统的设计与实现，电子科技大学，硕士学位论文，2013)。刘萌萌提出了一种基于神经网络的压印字符识别系统，其中研究了模版匹配定位算法和基于Ostu法的字符分割方法，然后结合BP神经网络和字符的结构特征构建了完整的字符识别方案(刘萌萌，基于神经网络的压印字符识别系统研究，天津大学，硕士学位论文，2013)。国外的机器视觉软件例如美国康耐视的VisionPro、日本Keyence、德国MVtec的Halcon等都具有字符识别算法，一方面这些方法都是基于传统的技术实现，另一方面我们需要开发具有自主知识产权的核心技术，随着“中国制造2025”计划的实施，亟需掌握高性能的机器视觉核心算法。

基于灰度相关的模板匹配算法以字符图像灰度信息直接进行相似度计算，如专利文献1和专利文献3中的方法，实现比较简单，整体计算量相对较小，识别速度较快，但对字符图像的预处理效果依赖较高，如光照不均匀划痕等影响造成的字符粘连、断裂等问题会使得到的字符图像噪声较大，影响到最终的识别效果；部分基于边缘或孔洞特征的方法处理速度慢，需要根据字符本身结构不同特点设计适用性不强，精度也不够高。专利文献7、专利文献8、专利文献10等利用字符图像中的结构或统计信息，采用人工设计特征并提取特征的方式对神经网络的输入进行构建，同样面临建立和筛选合适的特征的问题，技术的通用性较差，且专利文献8按照自主划分的粗网格提取字符点阵的像素级特征坑干扰能力较差，在训练神经网络时还需要划分汉字网络、字母网络、数字网络等不同的网络进行单独训练，计算量大幅增加。专利文献11公开的方法将字符边界到区域边界的距离作为识别特征值，识别精度较差，算法仅适用于其设定的雷管外壳点阵这种特定类型的字符。专利文献5公开的方法重点在于改善文本辨识质量，通过同一文本区域多个版本的图像按照属性限制值提供给OCR装置提升识别效果。专利文献12、专利文献13等方法研究重点在于解决文字序列的识别问题，滑动采样模块对待识别文本进行滑动采样，CNN模块进行特征提取，RNN模块进行序列识别，该方法主要针对序列采样可能产生的问题进行了分析，解决了序列识别问题，但没有对字符识别的准确性进行考虑。王有旺等提出的采用深度学习进行手写字符识别的方法虽然适用性较强，但其处理的手写字符问题都在干净的背景下进行，对于具有复杂背景的工业字符精度不高，且训练不够高效。本发明提出了采用卷积神经网络算法进行通用的工业字符识别，以及多种改善算法性能的方法和策略，使本发明的技术能够达到实际工业应用的要求。

发明内容

本发明的目的在于克服现有技术中的缺陷，提出了一种基于卷积神经网络的工业字符识别方法。

为达上述目的，本发明通过以下技术方案实现：

一种基于卷积神经网络的工业字符识别方法，包括以下步骤：

建立字符数据集，所述字符数据集包括混合场景字符数据集和单一场景字符数据集；

对所述字符数据集进行数据增强及预处理，其中，所述数据增强包括对字符图像进行一系列的变换和加干扰操作来进一步扩大数据集；

建立CNN集成模型的核心思想是训练具有准确性和多样性的个体学习器，其中，个体学习器采用卷积神经网络，所述CNN集成模型共包含三个CNN结构：Net-1、Net-2、Net-3，Net-1包含3个由卷积层和下采样层重复堆叠的特征提取阶段和2个全连接层，采用Softmax层作为特征分类器，采用了多级特征融合的方式，将每一个特征提取层或特定某几个特征提取层的输出进行融合，共同输入全连接层，这样得到的集成特征向量传入分类器作为最终的特征提取结果；Net-2也同样包含3个特征提取阶段，同样采用了多级特征融合，在Net-2中所有的卷积层都采用3×3的卷积核；Net-3的结构与Net-2较为相似，但没有将多级特征共同输入全链接层；

在建立了三个网络结构作为个体学习器后，对CNN集成模型进行训练，训练步骤如下：(1)从原始数据集中随机采样，产生三个随机样本空间，确保这些采样空间与所涉及的原始数据集有微小差异；(2)轮流训练三个网络模型。采用上一步得到的三个样本空间分别训练Net-1，Net-2，Net-3，这样就得到了三个有差异的分类器；(3)一轮训练结束，返回步骤(1)继续执行随机采样操作及训练操作，直到达到预设的迭代次数或三个结构的误差分别收敛到一定值。然后保存权重，得到三个个体分类器；

其中，训练分为两步完成，第一步为离线训练，获取离线训练模型，第二步为在线训练，将离线训练模型用作初始化，进行特定生产线字符数据集的训练，获取在线训练模型；以及

对目标图形进行预处理、字符定位和单个字符图像分割；

将分割好的字符图像送入已训练好的在线训练模型中，得到CNN集成模型中三个分类器将单个目标图像分类为每个类别的概率值；

采用投票的方式进行最终决策，得到测试数据的类别结果。

本发明的有益效果是：本发明提出了一种基于卷积神经网络的工业字符识别方法，集成多场景、多类型的工业字符识别技术，采用统一的网络模型对不同生产线上的字符进行快速、高效的识别。针对字符图像本身及背景中出现的运动模糊、照明不足、物理损伤、划痕等干扰都能实现快速、稳定、高精度的识别。本发明可以应用于需要通过机器视觉进行字符识别的场合：如识别小型电子元器件、电路板、各类零件表面的字符喷码和标签，通过喷码和标签来辨认追踪产品信息等等。

附图说明

图1是本发明的模型训练系统流程图；

图2是本发明的CNN集成模型分类器训练流程图；

图3是本发明的在线识别系统流程图；

图4是数据增强效果示意图；

图5是Net-1，Net-2，Net-3的CNN结构模型示意图；

图6是类别决策流程示意图；

图7(a)是金属表面刻印字符示意图；

图7(b)是金属表面刻印字符带明暗变化示意图；

图7(c)是LCD屏表面液晶字符示意图；

图7(d)是橡胶表面压印字符示意图；

图7(e)是塑料膜表面不连续的点印字符示意图；

图7(f)是金属表面凸起字符示意图；

图7(g)是电缆表面字符示意图；

图7(h)是易拉罐底点印字符示意图。

具体实施方案

下面通过具体实施方式结合附图对本发明作进一步详细说明。

相比于自然场景下的字符，工业生产线的场景更加复杂，例如存在低对比度的背景，较强的光照变化，失焦问题的影响，运动模糊，工件表面的物理损伤，划痕等问题。特别是在某些金属类零件的表面经常会出现光照不均匀导致明暗变化掩盖了字符轮廓的情况。本发明的CNN集成模型能够采用统一的网络对不同类型的字符进行识别。用混合场景字符数据集对CNN集成模型进行了训练，得到了一个适用于多种场景的识别器，同时也显示了CNN集成模型具有较高的识别精度和对不同复杂背景下的工业场景字符图像识别的稳定性。

工业场景字符数据集

本发明的字符数据集主要由可共享的自然场景字符集和从工业生产线图片截取的字符两部分建立，自然场景字符集的主要来源为ICDAR2003数据集，另外一部分工业生产线数据集的采集，除了从工业生产线直接获取的字符图像外，还需采用工业相机拍摄字符图像来模拟真实的工业生产场景，从而建立字符数据集。数据集对于深度神经网络是非常重要的一个组成部分，本发明建立了两种数据集：混合场景字符数据集①和单一场景字符数据集②。混合场景字符数据集包含从ICDAR-2003集合中获取的数据和自主拍摄的多种工业字符数据集，数据集分为两部分：训练子集(包含18120张字符图像)和测试子集(包含1768张字符图像)，这些字符图像有不同的字体、颜色并呈现不用的变形程度。单一场景字符数据集指从单一生产线图像中获得的一系列的字符图像，它们有相似的外观和背景条件。每个单一场景字符数据集也分为训练子集和测试子集两部分。在在线识别过程中，仅采用某一目标类型的字符数据完成训练以满足特定生产线的识别要求。

数据增强及预处理

由于人工收集拍摄的数据量有限，需要对字符图像进行一系列的变化操作来进一步扩大数据集，也称为数据增强。数据增强操作同时还有利于提高学习算法的泛化能力。步骤③和步骤④的采用的数据增强操作：首先，利用灰度反相变换处理字符图像，将数据扩大为原来的2倍；然后进行旋转变换，左右各旋转3°，将数据继续扩大为原来的6倍；然后再进行平移变换，上下左右分别平移1个像素，至此已将数据扩大为原来的24倍；最后，采用随机添加高斯模糊、高斯噪声和模拟工业划痕的方法进一步扩大数据集。灰度反相、旋转、平移变换均为简单的像素级处理方法，为基础变换，即流程中的步骤⑤，其中旋转和平移变换不改变字符结构，缺失边缘以原图像对应位置像素值填充；添加模糊、噪声和模拟划痕为字符图像添加了干扰，即流程中的步骤⑥。处理后的字符图像如附图4所示，添加的变化从左到右分别为原图、反相、旋转、平移、模糊、噪声和划痕。

步骤⑦和步骤⑧为数据预处理操作，主要包含两步，第一步，将全部图像归一化为32×32的灰度图像；第二步，计算得到训练集中所有图像的均值，并对数据集中的所有图像进行按位置减去对应像素位置的均值的处理，计算公式如下：

其中，I为字符灰度图像，n为训练集全部图像数量。进行减去图像均值的处理可以使字符图像间的灰度差异更小，对白底黑字和黑底白字间的对比度过度更平缓。

CNN集成模型结构及训练方法

步骤⑨和所采用的CNN集成模型训练流程由附图2给出，附图2中步骤的目标数据集对应步骤①，步骤②的混合场景字符数据集和单一场景字符数据集。本发明提出的CNN集成模型的核心思想是训练具有准确性和多样性的个体学习器，其中个体学习器采用卷积神经网络，准确性通过网络结构改进加强实现，多样性通过和集成学习方法相结合实现。

个体学习器的卷积神经网络分为前向传播和反向传播两个阶段。CNN的前向传播过程首先将预处理后的二维字符图像放入输入层，通过卷积核对输入层进行卷积运算，增加偏置，这部分计算过程可以表示为：

x^l＝f(w^lx^l-1+b^l) (2)

其中，l为当前层(卷积层)，l层神经元的输入为l-1层(输入层)的输出x^l-1,对应的连接权值为w^l，偏置为b^l，这里以Sigmoid函数作为卷积神经网络的激活函数为例进行说明，Sigmoid函数表示为f(x)＝(1+exp(-x))^-1。得到卷积层的特征图后，对每个特征图进行下采样，即分别对每个特征图中2×2的领域采用最大池化或者平均池化等方法进行处理(此处选择最大池化表示)，这部分计算过程可表示为：

x^l＝f(β^lg(x^l-1)+b^l) (3)

其中，g(x)在此处选择最大池化，最大池化函数表示为g(x)＝max(x)。

CNN中的卷积核，也就是连接层与层之间的权值矩阵，是通过反向传播算法训练得到的。针对本发明62类分类问题的卷积神经网络模型，使用平方误差代价函数来衡量误差，设N为训练样本个数，则误差E^N为：

其中，代表第n个样本的目标输出的第k维，代表第n个样本对应的实际输出的第k维。全部训练样本的误差即为每个训练样本误差累加和，这里先只考虑只有一个样本的情况，则第n个样本的误差可以表示为：

通过调整层间连接的权值，使误差最小化，更新权值的过程一般采用梯度下降法。通过公式(6)不断沿着梯度反方向迭代更新，使误差逐渐下降，同时使卷积神经网络模型逐渐逼近目标函数。

式中，学习率η的取值一般随迭代次数而减小，为误差函数关于权值的偏导数，这种误差可以逐层传递。公式(2)计算过程也可表述为x^l＝f(u^l)，u^l＝w^lx^l-1+b^l，则未知项可通过如下计算推导得到：

又有称δ为基的灵敏度，用于代表反向传播回来的误差，因为所以可得：

将式(8)代入公式(6)，可求得了权值更新的迭代公式。

通过以上的公式推导，对CNN前向传播和反向传播的权值更新有了较为清晰的了解。在得到最终的类别前，需要训练一个分类器用于将字符特征分类为最终的类别标签。由于在本发明中要进行62类分类，而Softmax分类器由传统的Logistic Regression分类器扩展而来，区别于Logistic Regression分类器仅能做二分类，Softmax分类器能够完成多分类，并得到分类为每个类别的概率值，所以这里采用Softmax分类器进行多分类。CNN集成模型的每个网络结构中都采用Softmax层作为特征分类器。Softmax函数的系统方程为：

其中，x⁽ⁱ⁾代表输入的样本，y⁽ⁱ⁾代表样本x⁽ⁱ⁾对应的类别，共62类因此i＝1...62，θ为函数参数。求解出方程中的参数，由Softmax的系统方程就可以求得每个样本分类到每一类的概率值，表示为p(y＝k|x；θ)，即函数输出为最终所求概率。参数θ求解可以通过梯度下降法，首先需要求出损失函数的偏导函数，进而通过参数迭代更新求解。Softmax损失函数方程下所示：

其中，1{}是指示性函数，表示当大括号中的值为真时，函数结果为1，否则结果为0。进而求出损失函数的偏导数为：

可以通过权值更新进行参数的求解，如式(12)所示：

其中，表示损失函数对第j个类别的第l个参数的偏导数。

网络模型中每个卷积层后采用ReLU函数作为激活函数，用于增加网络模型的非线性，ReLU函数表示为f(x)＝max(0,x)，其相比于一般的Sigmoid函数，ReLU函数作为激活函数收敛速度更快，且其只需要一个阈值就可以得到激活值，不用去进行过多复杂的运算。

CNN集成模型共包含三个CNN结构：Net-1、Net-2、Net-3，具体实现细节如图5所示。

Net-1对应图5中的第一个CNN结构。Net-1包含3个由卷积层和下采样层重复堆叠的特征提取阶段和2个全连接层，采用Softmax层作为特征分类器。传统的卷积神经网络通常是严格按照前向传播的过程组织构建的，也就是说每一层的输入仅接受它上一层的输出值，这种特征提取的方式是相对比较简单的。而本发明采用了多级特征融合的方式，将每一个特征提取层或特定某几个特征提取层的输出进行融合，共同输入全连接层，这样得到的集成特征向量传入分类器作为最终的特征提取结果。如图5所示，在Net-1中提取conv1层特征输入一个由两个卷积层构成的简单线性结构，选择卷积层作为降低特征图分辨率的方式，并且忽略每层之间的激活函数处理。由于Max-pooling函数仅传递当前层的最强响应，使用卷积层代替下采样层这一操作可以避免信息的丢失，同时提取和保留局部图像更多的细节。另外，卷积层的应用同样可以达到降低分辨率的作用，改变特征图的尺寸以使所提取的conv1的特征图与conv3的特征图都具有相同的大小。多级特征相比单个特征能够为分类器提供更为丰富的特征表达，和不同尺度的感受野大小，对工业字符的识别效果有很好的提升。

Net-2也同样包含3个特征提取阶段，同样采用了多级特征融合，如图5中给出了具体的结构细节。在Net-2中所有的卷积层都采用3×3的卷积核，这是能够捕捉图像左右、上下、中心信息的最小的感受野大小。另外卷积层步长设置为1个像素值，padding操作(特征图的周围补零操作)参数设置为1个像素值，用于保持卷积后图像的空间分辨率。

Net-3的结构与Net-2较为相似，但没有将多级特征共同输入全链接层。考虑到Net-3有一个更深的网络结构，它可以提取更高层次特征并建立更为复杂的特征表达，若进行多级特征融合训练时的时间开销将更大。通过增加更多的卷积层加深了Net-3的网络结构，具体实现如图5中第三个结构所示。

在建立了三个网络结构作为个体学习器后，将采用图2所示的训练流程对CNN(Convolution Neural Network)集成模型进行训练，步骤所述的数据集为网络的输入，步骤至步骤为具体的网络训练过程。首先，按照步骤所述的有放回抽样生成步骤中的三个有微小差异的样本空间。给定一个包含m个样本的基础数据集D，对其进行采样产生数据集D'：每次随机从D中挑选一个样本，将其拷贝放入D'，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采到；这个过程重复执行m次后，就得到了包含m个样本的数据集D'。这样生成样本空间的方式对于后续的训练有很大好处，既解决了样本空间的多样性，又保证了样本空间的差异性。

用同样的方式抽取三个有差异的采样空间后，将其作为上述构建的网络的数据输入，基于每个采样空间分别训练一个分类器，最后结合多个学习器得到一个相对于单一网络模型更为准确的结果，即步骤和步骤设置在训练集上的迭代次数为30000次，参数Batch-size设置为64，学习率设置为0.001，decay设置为0.0005。CNN集成模型的训练步骤如下：

(1)采用上述方式从原始数据集中随机采样，产生三个随机样本空间，确保这些采样空间与所涉及的原始数据集有微小差异。

(2)轮流训练三个网络模型。采用上一步得到的三个样本空间分别训练Net-1，Net-2，Net-3。这样就得到了三个有差异的分类器。

(3)一轮训练结束，返回步骤(1)继续执行随机采样操作及训练操作，直到达到预设的迭代次数或三个结构的误差分别收敛到一定值。然后保存权重，得到三个个体分类器。

CNN集成模型通过降低个体分类器的方差来提升分类器的泛化能力。由于神经网络并不是一种稳定的学习算法，而模型依赖于个体分类器的稳定性，通过上述方式建立的CNN集成模型，即步骤有助于减少训练数据中随机误差的干扰。

离线训练与在线训练相结合

传统的CNN训练方式是采用随机初始化网络权值，输入训练数据进行权值的迭代更新。这样的训练方式未加入任何先验信息，在实际工业生产线的应用中，每次都需要在随机值的基础上更新网络模型参数，迭代次数要求较高耗时较长。针对这一问题，本发明提出了一种训练方式的改进方法，分为两步完成，第一步为离线训练，获取离线训练模型，即步骤第二步为在线训练，将离线训练模型用作初始化，进行特定生产线字符数据集的训练，获取在线训练模型，即步骤具体的训练流程如图2所示。采用在线训练、离线训练相结合的方式，通过引入一个更大更丰富的数据集缩短特定生产线上特定数据集的收敛时间，减少迭代次数。

在线识别流程

步骤至步骤为工业生产线在线识别流程，通过上述的离线训练与在线训练相结合的方式训练CNN集成模型，得到在线训练模型用于后续工业生产线上的字符识别工作，即步骤至下面主要介绍在已获得分类器后，针对工业生产线拍摄的实际字符图像进行识别的各个步骤的具体实现。

步骤的目标图像预处理工作主要目的是对图像上的字符进行定位，由于所采用的CNN集成模型的个体分类器为卷积神经网络，在特征提取方面具有旋转、平移、尺度不变性，对不精确的定位分割有一定的容错能力，抗干扰能力较强，因此本发明在前期的定位分割部分采用传统的图像处理方法进行实现：

(1)实时获取工业零件表面的字符图像，调整好相机镜头光圈、焦距等机械参数，在零件或工业产品上方安放光源，拍摄图片，实时获取待检测产品表面图像。

(2)对于获取的图像首先采用直方图均衡化进行对比度和灰度色调的调整，使图像更加清晰；然后利用Ostu二值化和形态学处理等操作凸显字符区域，进行字符定位。

(3)将上述二值化后的字符区域按照竖直方向投影分割成单个字符。

(4)将分割好的字符归一化为32×32大小的字符图像，送入已训练好的CNN集成模型(在线训练模型)中，得到CNN集成模型中三个分类器将单个目标图像分类为每个类别的概率值。

下面将说明进行最终类别决策的方式，即步骤假设训练得到的分类器为T_i(x),i＝1,2,...,n，通过输入数据x(指输入的字符图像)即可得到对应的类别标签。对于个体分类器T_i(x)假设输入x通过由随机样本空间训练得到的分类器，能够获得输入对应的最可能类别的概率值P_i(x)，那么R(x)就是输入x对应的最终类别标签：

其中MajorityVote{}表示“多少投票”，其对应的具体测试过程如附图6所示，得到各个分类器对每一类的概率值后，采用投票的方式进行最终决策，即步骤得到测试数据的类别结果。至此，完成了从训练到最终决策的整个过程。

结合下面的具体字符图像上的识别结果进一步阐述本发明的效果。附图7(a)展示了在不同背景条件下金属表面刻印字符的识别效果，分别有深色背景、浅色背景两种；附图7(b)给出了金属表面有明暗对比变化的字符图像识别效果；附图7(c)为LCD屏上显示的液晶字符；附图7(d)为橡胶制品表面压印的浮凸字符；附图7(e)展示了塑料膜表面不连续的点印字符；附图7(f)显示了另一种金属表面凸起字符识别效果；附图7(g)为电缆表面字符；附图7(h)为易拉罐底点印字符识别效果。(注意：上述实验中的不同材质表面的不同字符识别都采用同一网络模型和参数。)

训练测试时间是进行在线工业字符识别的另一个重要因素，然而高识别率通常意味着更长的训练时间。本发明中引入一个更大的混合场景字符数据集，对单一特定场景下使用的网络模型进行预训练即离线训练，初始化网络模型权值，以加快网络的训练误差收敛速度，从而缩短训练时间。表1中列出了CNN集成模型中各个基学习器在单一场景字符数据集上的训练的时间以及整体测试时间。所有的实验的硬件条件为GTX970。在不同数据集上的识别准确率统计如表2所示。

表1 训练及测试时间

类别	测试识别准确率
		Net-1训练时间(分)	26.25
Net-2训练时间(分)	26.00
		Net-3训练时间(分)	20.12
平均测试时间(毫秒)	5.78
		识别准确率	99.07％

表2 不同数据集识别准确率

数据集	Net-1	Net-2	Net-3	CNN集成模型
					MD	91.06％	90.29％	91.23％	93.46％
SD-1	97.18％	98.12％	97.20％	99.07％
					SD-2	97.71％	98.12％	98.00％	98.72％
SD-3	94.51％	93.59％	93.60％	96.33％

本发明公开了一种在工业环境中字符识别方法，其特点在于采用同一个网络实现了在多材质表面、多种不同类型字符的稳定高效识别，具有如下的特点：

1.稳定可靠——由于选取的个体分类器在提取特征阶段具有很好的抗干扰性，且采用了多种数据增强的方法对训练数据进行变换，使模型在训练过程中见过更多有差异的数据，因此本发明公开的方法具有良好的鲁棒性。

2.训练速度快——采用了离线训练和在线训练相结合的叠加训练方式，加快了误差的收敛速度，从而提高了在线训练测试的速度。

3.高精度——通过训练多个个体学习器进行共同决策，避免了单一模型的不稳定性，同时增强了网络决策的置信度，提高了识别准确率。引入了一个更大的数据集为基础，不仅提升了在线识别的效果，而且提升了网络模型的泛化能力。最终得到了在多种混合场景工业字符数据集上93％以上和单一场景工业字符数据集上99％以上的准确率。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于卷积神经网络的工业字符识别方法，其特征在于：所述方法包括：

对目标图形进行预处理、字符定位和单个字符图像分割；

采用投票的方式进行最终决策，得到测试数据的类别结果。

2.根据权利要求1所述的方法，其特征在于：所述数据预处理具体为：第一步，将全部图像归一化为32X32的灰度图像；第二步，计算得到训练集中所有图像的均值，并对数据集中的所有图像进行按位置减去对应像素位置的均值的处理，计算公式如下：

I^{'} (x, y) = I (x, y) - \frac{1}{n} (Σ_{i = 1}^{n} Σ_{j = 1}^{n} I (i, j))

其中，I为字符灰度图像，n为训练集全部图像数量。

3.根据权利要求1所述的方法，其特征在于：对目标图形进行预处理、字符定位和单个字符图像分割具体为：

(1)实时获取工业零件表面的字符图像，调整好相机镜头光圈、焦距，在零件或工业产品上方安放光源，拍摄图片，实时获取待检测产品表面图像；

(2)对于获取的图像首先采用直方图均衡化进行对比度和灰度色调的调整，使图像更加清晰；然后利用Ostu二值化和形态学处理等操作凸显字符区域，进行字符定位；

4.根据权利要求1所述的方法，其特征在于：从原始数据集中随机采样，产生三个随机样本空间具体为：给定一个包含m个样本的基础数据集D，对其进行采样产生数据集D'：每次随机从D中挑选一个样本，将其拷贝放入D'，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采到；这个过程重复执行m次后，就得到了包含m个样本的数据集D'。

5.根据权利要求1所述的方法，其特征在于：将分割好的字符图像送入已训练好的在线训练模型中，得到CNN集成模型中三个分类器将单个目标图像分类为每个类别的概率值具体为：假设训练得到的分类器为T_i(x),i＝1,2,...,n，通过输入字符图像数据x即可得到对应的类别标签；对于个体分类器T_i(x)假设输入x通过由随机样本空间训练得到的分类器，能够获得输入对应的最可能类别的概率值P_i(x)，那么R(x)就是输入x对应的最终类别标签：