CN109919150A

CN109919150A - 一种3d压印字符无分割序列识别方法及系统

Info

Publication number: CN109919150A
Application number: CN201910060884.2A
Authority: CN
Inventors: 游照林; 向忠; 钱淼; 胡旭东
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU; Zhejiang University of Science and Technology ZUST
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2019-06-21

Abstract

本发明涉及一种3D压印字符无分割序列识别方法及系统，其包括如下工艺步骤：1)，图像加权融合；2)，区域显著性增强；3)，无分割序列特征提取；4)，字符序列编码；5)，字符序列解码与识别。本发明的3D压印字符无分割序列识别方法不仅能检测不同灰度、位置、角度的压印字符，而且也适用于有重叠、缺损、污染等干扰的字符图像，具有较高的创新性与实用性，能够较好的解决3D压印字符由于受到污染、干扰、变形等导致的字符分割精确度不足的问题，提高3D压印字符的识别率。

Description

一种3D压印字符无分割序列识别方法及系统

【技术领域】

本发明涉及一种字符识别方法及系统，具体涉及一种3D压印字符无分割序列识别方法及系统，属于机器视觉与机器学习技术领域。

【背景技术】

3D压印字符的质量与印刷字符相比受时间和现场的影响很小，所以近年来越来越多的被应用到一些工业产品上，金属标牌、金属零部件标识和轮胎等。相应地，对于3D压印字符的自动识别也成为产品信息化管理的一个必然要求。对于量大面广的机电产品,其标牌上的3D压印字符成为产品信息的重要载体,而且对大多的机电产品而言是唯一载体，其内容往往代表着产品性能、规格、出厂代号、国家标准和生产日期等重要信息。

而3D压印字符与一般利用前景和背景色差形成的字符相比，有着显著的特点:(1)标准字模有限，是有限字符集。(2)字符手感为凹凸不平，视觉上是利用“反光差”产生字符图像，字符本身有较大的灰度差。(3)由于压印字符与背景是同色，字符图像质量不佳，字符图像的直方图为单峰或多峰。(4)压印字符有倾斜、字符间重叠、缺损等变形，字符周围有较强的噪声。

传统的OCR字符识别算法一般是在二值化图像上进行字符分割及特征提取。但由于使用年限的增长及工业现场的复杂性，3D 压印字符往往受到严重的污染，比如油污，粉尘，涂料等，而且有些3D字符可能出现变形、重触、缺损等。这些会造成大量字符特征信息的丢失,在此基础上获得的特征就不能真正反映字符的特征,因此会造成分割错误以及分类检测的误判。

因此，为解决上述技术问题，确有必要提供一种创新的3D压印字符无分割序列识别方法及系统，以克服现有技术中的所述缺陷。

【发明内容】

为解决上述问题，本发明的目的在于提供一种3D压印字符无分割序列识别方法，其不仅能检测不同灰度、位置、角度的压印字符，而且也适用于有重叠、缺损、污染等干扰的字符图像，具有较高的创新性与实用性。

本发明的第二目的在于提供一种3D压印字符无分割序列识别系统。

为实现上述第一目的，本发明采取的技术方案为：一种3D压印字符无分割序列识别方法，其包括如下工艺步骤：

1)，图像加权融合：根据四副不同曝光强度图像的对比度、饱和度、适度曝光量这三个测度因子生成原始多曝光图像的权重图，对其进行加权平均后获得综合金字塔系数，最后重建拉普拉斯金字塔得到融合图像；

2)，区域显著性增强：从非显著像素中选择初始背景种子，让背景种子增长进而检测背景连通域，从而检测出字符连通域；同时利用字符曲率显著性特征来实现字符区域的显著性增强，该操作能够提高步骤1)的融合结果图前景与背景的对比度；

3)，无分割序列特征提取：对步骤2)得到的图像使用五层卷积神经网络进行序列特征提取；其中包括二层卷积层，二层最大池化层，一层全连接层；

4)，字符序列编码：使用长短时记忆网络(LSTM)来处理和预测步骤3)所提取的序列字符特征；

5)，字符序列解码与识别：将步骤(4)的结果输入到基于神经网络的时序类分类的ctc(连接主义时间分类)模块；该模块能够把网络的输出更改为所有可能标签序列的概率分布，通过梯度下降法和反向传播法训练网络，序列解码的目的是找到具有最大概率的近似最优路径，即最佳识别结果。

本发明的3D压印字符无分割序列识别方法进一步为：所述步骤1)中，图像对比度的计算方法采用图像的梯度表示，梯度越大其权值就设置越大，曝光不足、曝光过度区域则梯度值就越小，则其权值就设置越小，计算公式如下:

C(i,j)＝F(i-1,j)+F(i+1,j)+F(i,j-1)+F(i,j+1)-4F(i,j)

其中C(i,j)表示像素(i,j)处的梯度，F(i,j)表示在像素(i,j)处的灰度值；

图像饱和度反映彩色图像的鲜艳程度，其计算公式如下：

mu＝(R(i,j)+G(i,j)+B(i,j))/3

其中，S(i,j)表示像素(i,j)处的饱和度，R(i,j)、G(i,j)和B(i,j)分别表示彩色图像三通道在像素(i,j)处的取值，mu表示三通道在像素 (i,j)处的平均值；

图像所反映的空间频率计算图像的适度曝光量。计算公式如下：

E(i,j)＝ER(i,j)gEG(i,j)gEB(i,j)

其中，E(i,j)表示像素(i,j)处的曝光量，ER(i,j)、EG(i,j)EB(i,j)分别表示彩色图像三通道在像素(i,j)处的曝光量，δ为方差，实验取值为0.15；

多曝光图像序列的对比度、饱和度和适度曝光量，利用它们的联合乘积作为图像的权值图，计算公式如下：

其中，表示多曝光图像序列中第k幅图像在像素(i,j)处的权值，和分别表示第k幅图像的对比度、饱和度和适度曝光量，wc、ws和we分别为C、S和E权值的调节参数，实验中全部取1；

高斯金字塔第l层的构造方法如下：

构造的l层图像记为G_l，G_l-1与窗口函数具有低通特性的w进行卷积，通过对它们卷积的结果做隔行隔列的降采样运算得到G_l

其中L表示高斯金字塔层数，C_l为第l层图像列表数，R_l是行数， w(m,n)为5×5窗口函数；

最后，多曝光图像加权融合算法模型的计算公式如下：

R为融合图像，I^K为输入的多曝光图像序列，W^K为对应的权值， N为多曝光图像序列的数量。

本发明的3D压印字符无分割序列识别方法进一步为：所述步骤2)中，背景种子能形成除属于文本区域的像素之外的所有像素之间的连通性，从而找出背景区域，以便进行背景去除处理，凸显文本显著性；为了在背景像素间形成连通性，使用条件膨胀的方法来进行计算，公式如下：

δ_I(γ)表示条件膨胀计算结果，γ表示背景种子标记图像，S表示灰度图像，I表示图像掩膜；

由于字符区域具有很强的曲率变化特性，同时提高背景去除操作的精度，将计算输入图像的曲率显著性特征，定位图像的文本字符区域，计算公式如下：

L表示曲率显著性计算值，f_I,xx，f_I,yy分别表示图像f_I(x,y)的像素在x维和y维方向上的二阶导数。

本发明的3D压印字符无分割序列识别方法进一步为：所述步骤3)中，将步骤2)所得的结果图归一化到100×100像素大小的图像；采用卷积神经网络进行序列特征提取，卷积操作采用3×3大小的卷积核，移动步长可设置为1和2，不设置图像边缘填充操作；池化操作采用最大池化，滤波核大小为2×2及3×3，移动步长为2，不设置图像边缘填充操作。

本发明的3D压印字符无分割序列识别方法进一步为：所述步骤4)中，序列特征信息进入LSTM的网络当中，根据迭代训练来判断是否有用；只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘；信息流通计算公式如下：

f_t＝δ(w_fg[c_t-1,h_t-1,x_t]+b_f)

i_t＝δ(w_ig[c_t-1,h_t-1,x_t]+b_i)

o_t＝δ(w_og[c_t-1,h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

f_t表示遗忘门信息量，i_t表示输入门信息量，o_t表示输出门信息量，δ表示Sigmoid函数，w_f、w_i、w_o表示不同的权重值，b_f、b_i、b_o表示不同偏置值，h_t-1表示上一个神经元的输出，x_t表示当层神经元输入，h_t表示更新后的信息输出。

本发明的3D压印字符无分割序列识别方法还为：所述步骤4) 中，CTC将LSTM输出的概率估计序列转化为字符串，CTC专门用于序列分类而无需数据预分割；它将预测的概率序列直接解码为输出标签；其目标函数定义为网络正确标记整个训练集的负对数概率，即

其中s是训练数据集，由输入和目标序列对(c,z)组成；P(z|c)表示通过输入c获得目标序列z的条件概率；目标是最小化ο，这相当于最大化P(z|c)；CTC的输入c为LSTM的激活输出a，β表示从输出的字符序列中删除重复标签的操作器，β(a-a-b-)＝β(-aa--ab-b)＝(aab)

可以通过梯度下降法和反向传播法训练网络，序列解码的目的是通过LSTM的输出序列找到具有最大概率的近似最优路径p，即，

为实现上述第二目的，本发明采取的技术方案为：一种3D压印字符无分割序列识别系统，其包括：

条形光源：提供不同的光照强度；

照相机：用于拍摄印有3D压印字符的物体；

图像信息处理系统：用于对获取的图像进行数据处理，具体用于对获取的四个方位的图像进行加权融合，然后对融合图像进行字符区域显著性增强；使用卷积神经网络对显著性增强结果图进行序列特征提取，最后使用长短时记忆网络(LSTM)和连接主义时间分类器(CTC)进行序列字符编码与解码，最终识别出序列字符。

与现有技术相比，本发明具有如下有益效果：本发明的3D压印字符无分割序列识别方法不仅能检测不同灰度、位置、角度的压印字符，而且也适用于有重叠、缺损、污染等干扰的字符图像，具有较高的创新性与实用性，能够较好的解决3D压印字符由于受到污染、干扰、变形等导致的字符分割精确度不足的问题，提高 3D压印字符的识别率。

【附图说明】

图1是本发明的3D压印字符无分割序列识别方法的流程图。

图2是本发明的3D压印字符无分割序列识别系统的结构示意图。

图3五层卷积神经网络示意图。

图4为长短时网络(LSTM)示意图。

图5为LSTM神经元内部可视化示意图。

【具体实施方式】

请参阅说明书附图1至附图5所示，本发明为一种3D压印字符无分割序列识别方法，其包括如下工艺步骤：

1)，图像加权融合：根据四副不同曝光强度图像的对比度、饱和度、适度曝光量这三个测度因子生成原始多曝光图像的权重图，对其进行加权平均后获得综合金字塔系数，最后重建拉普拉斯金字塔得到融合图像。

2)，区域显著性增强：从非显著像素中选择初始背景种子，让背景种子增长进而检测背景连通域，从而检测出字符连通域；同时利用字符曲率显著性特征来实现字符区域的显著性增强，该操作能够提高步骤1)的融合结果图前景与背景的对比度。

3)，无分割序列特征提取：对步骤2)得到的图像使用五层卷积神经网络进行序列特征提取；其中包括二层卷积层，二层最大池化层，一层全连接层。如图3所示，输入图像为100×100像素大小的图像，采用32个大小为3×3×1的卷积核对输入图像进行卷积，步长设置为2，不设置边缘扩充，激活函数采用RELU函数，得到大小为50×50×32的卷积层，然后对其进行最大池化操作，滤波核大小为2×2，步长为2，无边缘扩充，得到大小为25×25×32的池化层。之后使用64个大小为3×3×32的卷积核，步长为1，无边缘扩充，激活函数为RELU函数，得到大小为23×23×64的卷积层，之后采用3×3 大小的滤波核进行最大池化，步长为2，无边缘扩充，得到大小为 11×11×64的卷积层，最后采用192个1×1×64大小的卷积核，将提取的特征整合成1×1×192大小的序列特征向量。

4)，字符序列编码：使用长短时记忆网络(LSTM)来处理和预测步骤3)所提取的序列字符特征；如图4所示的长短时记忆网络(LSTM)来处理和预测上述步骤所提取的序列字符特征。神经元当中被设置了三扇门，分别为输入门、遗忘门和输出门，如图5 所示，用来筛选信息。

其中，所述步骤1)中，采用3D压印字符无分割序列识别系统得到图像信息，该系统其包括：条形光源1-4：提供不同的光照强度；照相机5：用于拍摄印有3D压印字符的物体；图像信息处理系统6：用于对获取的图像进行数据处理，具体用于对获取的四个方位的图像进行加权融合，然后对融合图像进行字符区域显著性增强；使用卷积神经网络对显著性增强结果图进行序列特征提取，最后使用长短时记忆网络(LSTM)和连接主义时间分类器 (CTC)进行序列字符编码与解码，最终识别出序列字符。

图像对比度的计算方法采用图像的梯度表示，梯度越大其权值就设置越大，曝光不足、曝光过度区域则梯度值就越小，则其权值就设置越小，计算公式如下:

C(i,j)＝F(i-1,j)+F(i+1,j)+F(i,j-1)+F(i,j+1)-4F(i,j)

图像饱和度反映彩色图像的鲜艳程度，其计算公式如下：

mu＝(R(i,j)+G(i,j)+B(i,j))/3

E(i,j)＝ER(i,j)gEG(i,j)gEB(i,j)

高斯金字塔第l层的构造方法如下：

最后，多曝光图像加权融合算法模型的计算公式如下：

所述步骤2)中，背景种子能形成除属于文本区域的像素之外的所有像素之间的连通性，从而找出背景区域，以便进行背景去除处理，凸显文本显著性；为了在背景像素间形成连通性，使用条件膨胀的方法来进行计算，公式如下：

所述步骤3)中，将步骤2)所得的结果图归一化到100×100像素大小的图像；采用卷积神经网络进行序列特征提取，卷积操作采用3×3大小的卷积核，移动步长可设置为1和2，不设置图像边缘填充操作；池化操作采用最大池化，滤波核大小为2×2及3×3，移动步长为2，不设置图像边缘填充操作。

所述步骤4)中，序列特征信息进入LSTM的网络当中，根据迭代训练来判断是否有用；只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘；信息流通计算公式如下：

f_t＝δ(w_fg[c_t-1,h_t-1,x_t]+b_f)

i_t＝δ(w_ig[c_t-1,h_t-1,x_t]+b_i)

o_t＝δ(w_og[c_t-1,h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

所述步骤5)中，CTC将LSTM输出的概率估计序列转化为字符串，CTC专门用于序列分类而无需数据预分割；它将预测的概率序列直接解码为输出标签；其目标函数定义为网络正确标记整个训练集的负对数概率，即

以上的具体实施方式仅为本创作的较佳实施例，并不用以限制本创作，凡在本创作的精神及原则之内所做的任何修改、等同替换、改进等，均应包含在本创作的保护范围之内。

Claims

1.一种3D压印字符无分割序列识别方法，其特征在于：包括如下工艺步骤：

2.如权利要求1所述的3D压印字符无分割序列识别方法，其特征在于：所述步骤1)中，图像对比度的计算方法采用图像的梯度表示，梯度越大其权值就设置越大，曝光不足、曝光过度区域则梯度值就越小，则其权值就设置越小，计算公式如下:

C(i,j)＝F(i-1,j)+F(i+1,j)+F(i,j-1)+F(i,j+1)-4F(i,j)

图像饱和度反映彩色图像的鲜艳程度，其计算公式如下：

mu＝(R(i,j)+G(i,j)+B(i,j))/3

其中，S(i,j)表示像素(i,j)处的饱和度，R(i,j)、G(i,j)和B(i,j)分别表示彩色图像三通道在像素(i,j)处的取值，mu表示三通道在像素(i,j)处的平均值；

E(i,j)＝ER(i,j)gEG(i,j)gEB(i,j)

高斯金字塔第l层的构造方法如下：

其中L表示高斯金字塔层数，C_l为第l层图像列表数，R_l是行数，w(m,n)为5×5窗口函数；

最后，多曝光图像加权融合算法模型的计算公式如下：

R为融合图像，I^K为输入的多曝光图像序列，W^K为对应的权值，N为多曝光图像序列的数量。

3.如权利要求1所述的3D压印字符无分割序列识别方法，其特征在于：所述步骤2)中，背景种子能形成除属于文本区域的像素之外的所有像素之间的连通性，从而找出背景区域，以便进行背景去除处理，凸显文本显著性；为了在背景像素间形成连通性，使用条件膨胀的方法来进行计算，公式如下：

4.如权利要求1所述的3D压印字符无分割序列识别方法，其特征在于：所述步骤3)中，将步骤2)所得的结果图归一化到100×100像素大小的图像；采用卷积神经网络进行序列特征提取，卷积操作采用3×3大小的卷积核，移动步长可设置为1和2，不设置图像边缘填充操作；池化操作采用最大池化，滤波核大小为2×2及3×3，移动步长为2，不设置图像边缘填充操作。

5.如权利要求1所述的3D压印字符无分割序列识别方法，其特征在于：所述步骤4)中，序列特征信息进入LSTM的网络当中，根据迭代训练来判断是否有用；只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘；信息流通计算公式如下：

f_t＝δ(w_fg[c_t-1,h_t-1,x_t]+b_f)

i_t＝δ(w_ig[c_t-1,h_t-1,x_t]+b_i)

o_t＝δ(w_og[c_t-1,h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

6.如权利要求1所述的3D压印字符无分割序列识别方法，其特征在于：所述步骤4)中，CTC将LSTM输出的概率估计序列转化为字符串，CTC专门用于序列分类而无需数据预分割；它将预测的概率序列直接解码为输出标签；其目标函数定义为网络正确标记整个训练集的负对数概率，即

7.一种3D压印字符无分割序列识别系统，其特征在于：包括：条形光源：提供不同的光照强度；

照相机：用于拍摄印有3D压印字符的物体；