CN112836748A

CN112836748A - 一种基于crnn-ctc的铸件标识字符识别方法

Info

Publication number: CN112836748A
Application number: CN202110146173.4A
Authority: CN
Inventors: 赵志诚; 刘基; 王晓东; 刘红兵; 王健安
Original assignee: Taiyuan University of Science and Technology
Current assignee: Taiyuan University of Science and Technology
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2021-05-25

Abstract

本发明提供了一种基于CRNN‑CTC的铸件标识字符识别方法，该方法包括以下步骤：收集包含铸件标识字符的图片构建数据集；对数据集进行数据增广，利用“旋转、加噪、调整亮度和对比度”的方法，解决图片数量少的问题以增强模型的鲁棒性；将数据集图片经过预处理后输入建立好的网络模型，通过CNN对图片进行特征提取，然后将特征输出到RNN中，再通过CTC进行转录；对CTC的损失函数进行计算，并通过反向传播，不断优化网络模型，直至达到最好的预测效果时，结束训练。本发明以深度学习中CRNN和CTC相结合的OCR识别方法，识别准确率可以达到98.8％，且通过训练得到的模型具有良好的泛化能力和容错能力。

Description

一种基于CRNN-CTC的铸件标识字符识别方法

技术领域

本发明涉及图像文字识别技术领域，具体涉及一种基于CRNN-CTC的铸件标识字符识别方法。

背景技术

近年来，随着计算机技术的发展与普及，现代化技术水平也迅速提高，以计算机技术为依托的图像处理技术随之快速崛起，并广泛的应用到了各个领域。今天，图像处理技术几乎与人们的生活息息相关，而图像识别技术更是大幅度地给我们的生活带来便捷，在多个工业生产过程中减轻了工作人员的劳动强度，减少了工业生产过程的错误率，同时大幅度提高生产效率。

随着深度学习的兴起和发展，计算机视觉已经发生巨大的变革和变换。作为计算机视觉的重要领域，利用光学字符识别(Optical Character Recognition，简称OCR)技术可以从图像中识别出字符信息，但传统的OCR技术存在抗干扰能力差，识别准确率低等问题。目前，深度学习技术因具有抗干扰能力强的优势，在很多领域得到了广泛的应用。

由于大多铸件上的字符是物体表面一种凹凸的字符，字符与母体同色且为立体字符，识别该字符的成熟产品大多只针对单一产品，专一性太强。虽然市场上成熟的字符识别产品很多，但是任何一款都有局限性，无法适用于多个场景。因此，设计一套针对同底色字符识别系统成为了工业上亟待解决的问题。

发明内容

针对现有技术中的不足，本发明的目的在于提供一种基于CRNN-CTC(Convolutional recurrent neural network-Connectionist temporalclassification)的铸件标识字符识别方法，用于解决现有技术中存在的不同环境下识别铸件标识字符准确率低以及专一性太强的技术问题。

为实现上述目的，本发明采用了以下技术方案：

一种基于CRNN-CTC的铸件标识字符识别方法，包括如下步骤：

S1：收集包含铸件标识字符的图片构建数据集；

S2：利用旋转、加噪、调整亮度和对比度的方法对数据集进行数据增广，以增强图片建模时的鲁棒性；此步骤的目的是解决图片数量少的问题以增强模型的鲁棒性；

S3：将数据集图片经过预处理后，输入建立好的网络模型，通过CNN(Convolutional Neural Network)对图片进行特征提取，然后将特征输出到RNN(Recurrent Neural Network)中，再通过CTC进行转录；

S4：对CTC的损失函数进行计算，并通过反向传播，不断优化网络模型，直至达到最好的预测效果时，结束训练。

进一步地，所述步骤S1收集包含铸件标识字符的图片构建数据集；具体是通过对铸件近距离拍摄照片，收集包含铸件标识字符的图片，使用有序数字依次作为图片的文件名，并用文件名和铸件标识字符制作标签文本，然后将标签文本中铸件标识字符所含的字符加入到集合中，建立标签字典D。

再进一步地，所述步骤S2利用旋转、加噪、调整亮度和对比度的方法对数据集进行数据增广；具体包括如下步骤：

(2a)利用OpenCV的getRotationMatrix2D函数和warpAffine函数对数据集中的铸件标识字符图片进行不切边旋转处理，模拟不同于拍摄图片时的角度，得到旋转角度不同的铸件标识字符图片；

(2b)对原始图片进行加噪处理，在图像中添加高斯噪声、椒盐噪声；因为采集的铸件字符是在工业流水线环境拍摄的，所以总会存在诸如光源扰动等情况，使得拍摄出的字符图像会出现噪声，尽量模拟可能发生的噪声扰动，得到模糊度不同的铸件号图片；

(2c)利用OpenCV的addWeighted函数对原始图片进行不同亮度和对比度的调整，模拟拍摄图片时光照情况的不同，得到明暗度不同的铸件标识字符图片。

更进一步地，步骤S3将数据集图片经过预处理后，输入建立好的网络模型，通过CNN对图片进行特征提取，然后将特征输出到RNN中，再通过CTC进行转录；具体包括如下步骤：

(3a)对数据集进行预处理，将其划分为训练集和测试集，训练集字符图像设置成固定大小为3*224*224，然后对图像进行归一化处理，使像素值转换为0-1之间，加快收敛速度；

(3b)构建CNN网络，选择基于VGGNet16的简化深度卷积神经网络模型，使用VGGNet16中3*3的卷积核大小，简化后的网络层数包括8个Conv卷积层，8个ReLU激活层，3个最大池化层，卷积核数分别为16，32，64，128；然后对处理过的训练集图像特征提取，得到包含时序信息的序列特征图x＝{x¹，x²，…，x^T}，其中x每一列x^T为

时间序列t都从t＝1开始，即1≤t≤T，m和T分别指的是特征图的高和宽；

(3c)构建RNN，将序列特征图x＝{x¹，x²，…，x^T}作为输入，且LSTM的每一个时间片后接softmax分类器，得到输出结果y＝{y¹，y²，…，y^T}，y是一个后验概率矩阵，其中y的每一列

n代表需要识别字符的长度；

(3d)利用CTC转录层，按照每帧预测y＝y₁，...，y_T对标签序列l定义概率，且输出l的概率为：

其中序列到序列的映射函数B(π)＝1表示将序列π映射到序列I，其中π∈L^T，序列π的概率定义为

为t时刻有标签π_t的概率；

(3e)基于标签字典D，通过选择词典中最高条件概率的序列来识别标签序列获得最终结果，即I^*＝arg max_I∈D p(I|y)。

更进一步地，所述步骤S4对CTC的损失函数进行计算，并通过反向传播，不断优化网络模型，直至达到最好的预测效果时，结束训练；具体是利用Adam梯度下降算法计算CTCloss损失函数，并将全局学习率设置为0.0005，网络的训练次数设置为150次，进行批量化训练，批次大小为50，最终获得的网络模型平均准确率达到98.8％以上，结束训练。

与现有技术相比，本发明具有以下有益效果：

1、本发明在对铸件标识字符图片进行数据增广中，对图片进行了旋转、加噪、调整亮度和对比度，有效的解决了现有技术中由于数据难以收集、类别繁多和拍摄场景复杂等问题所带来的训练的模型泛化性和鲁棒性不强，致使铸件标识字符识别精度较低的不足。

2、本发明使用的CRNN-CTC框架模型作为OCR(Optical character recognition)识别模块，识别率可以达到98.8％以上，且通过神经网络训练得到的模型具有良好的泛化能力和容错能力。

附图说明

图1为本发明的基于CRNN-CTC的铸件标识字符识别方法流程示意图；

图2为本发明的网络结构示意图；

图3为本发明基于VGGNet16的简化深度卷积神经网络结构示意图。

具体实施方式

下面结合附图并通过具体实施例来进一步说明本发明的技术方案。本领域技术人员应该明了，所述具体实施方式仅仅是帮助理解本发明，不应视为对本发明的具体限制。

如图1-3所示，一种基于CRNN-CTC的铸件标识字符识别方法，包括以下步骤：

S1：收集包含铸件标识字符的图片构建数据集。

其中，通过对铸件近距离拍摄照片，收集公司里所有包含铸件标识字符的图片，使用有序数字依次作为图片的文件名，并用文件名和铸件标识字符制作标签文本，然后将标签文本中铸件标识字符所含的字符加入到集合中，建立标签字典D。

S2：对数据集进行数据增广，利用“旋转、加噪、调整亮度和对比度”的方法，解决图片数量少的问题以增强模型的鲁棒性。具体按照如下步骤进行：

(2a)利用OpenCV的getRotationMatrix2D函数和warpAffine函数对铸件标识字符图片进行不切边旋转，模拟不同于拍摄图时的角度，分别得到了旋转角度为45°/90°/135°/180°/225°/270°/315°的铸件标识字符图片。

(2b)对原始图片进行加噪处理，在图像中添加椒盐噪声时，随机将图片中的某一些像素点值变为0和255，进行铸件标识字符图片的随机椒盐噪声处理，添加高斯噪声时，先随机产生高斯噪声，再将高斯噪声和原图片叠加。这样就模拟可能发生的噪声扰动，得到模糊度不同的铸件标识字符图片。

(2c)利用OpenCV的addWeighted函数对图片进行不同亮度和对比度的调整，模拟拍摄图片时光照情况的不同，得到明暗度不同的铸件标识字符图片。

S3：将数据集图片经过预处理后，输入建立好的网络模型，通过CNN对图片进行特征提取，然后将特征输出到RNN中，再通过CTC进行转录，如图2所示为网络结构示意图。

(3a)对数据集进行预处理，将图片读取为RGB格式，划分为训练集和测试集，训练集字符图像设置成固定大小为3*224*224，然后对图像进行归一化处理，使像素值转换为0-1之间。

(3b)构建CNN网络，如图3所示为CNN的网络结构，选择基于VGGNet16的简化深度卷积神经网络模型，使用VGGNet16中3*3的卷积核大小，简化后的网络层数包括8个Conv卷积层，8个ReLU激活层，3个最大池化层，降低后的卷积核数分别为16，32，64，128，然后对处理过的训练集图像特征提取，得到包含时序信息的序列特征图x＝{x¹，x²，…，x^T}，其中x每一列x^T为

时间序列t都从t＝1开始，即1≤t≤T，m和T分别指的是特征图的高和宽。

(3c)构建RNN，使用双向LSTM网络，并采用3层双向LSTM网络堆叠的结构，然后将序列特征图x＝{x¹，x²，…，x^T}作为输入，且LSTM的每一个时间片后接softmax分类器，得到输出结果y＝{y¹，y²，…，y^T}，y是一个后验概率矩阵，其中y的每一列y^t为

n代表需要识别字符的长度。

为t时刻有标签π_t的概率。

S4：对CTC的损失函数进行计算，并通过反向传播，不断优化网络模型，直至达到最好的预测效果时，结束训练。具体是利用Adam梯度下降算法计算CTC loss损失函数，并将全局学习率设置为0.0005，网络的训练次数设置为150次，进行批量化训练，批次大小为50，最终获得的网络模型平均准确率达到了98.8％，结束训练。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，可以根据本发明所提到的技术方案进行通同等替换或是改进。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护。

Claims

1.一种基于CRNN-CTC的铸件标识字符识别方法，其特征在于，包括以下步骤：

S1：收集包含铸件标识字符的图片构建数据集；

S2：利用旋转、加噪、调整亮度和对比度的方法对数据集进行数据增广，以增强图片建模时的鲁棒性；

S3：将数据集图片经过预处理后，输入建立好的网络模型，通过CNN对图片进行特征提取，然后将特征输出到RNN中，再通过CTC进行转录；

2.根据权利要求1所述的一种基于CRNN-CTC的铸件标识字符识别方法，其特征在于，所述步骤S1的收集包含铸件标识字符的图片构建数据集；具体是通过对铸件近距离拍摄照片，收集包含铸件标识字符的图片，使用有序数字依次作为图片的文件名，并用文件名和铸件标识字符制作标签文本，然后将标签文本所含的铸件标识字符加入到集合中，建立标签字典D。

3.根据权利要求1所述的一种基于CRNN-CTC的铸件标识字符识别方法，其特征在于：所述步骤S2利用旋转、加噪、调整亮度和对比度的方法对数据集进行数据增广；具体包括如下步骤：

(2b)对原始图片进行加噪处理，在图像中添加高斯噪声、椒盐噪声；

4.根据权利要求1所述的一种基于CRNN-CTC的铸件标识字符识别方法，其特征在于：所述步骤S3将数据集图片经过预处理后，通过CNN对图片进行特征提取，然后将特征输出到RNN中，再通过CTC进行转录；具体包括如下步骤：

(3c)构建RNN，将序列特征图x＝{x¹，x²，...，x^T}作为输入，且LSTM的每一个时间片后接softmax分类器，得到输出结果y＝{y¹，y²，...，y^T}，y是一个后验概率矩阵，其中y的每一列y^t为

n代表需要识别字符的长度；

为t时刻有标签π_t的概率；

(3e)基于标签字典D，通过选择词典中最高条件概率的序列来识别标签序列获得最终结果，即I^*＝arg max_I∈Dp(I|y)。

5.根据权利要求1所述的一种基于CRNN-CTC的铸件标识字符识别方法，其特征在于：所述步骤S4对CTC的损失函数进行计算，并通过反向传播，不断优化网络模型，直至达到最好的预测效果时，结束训练；具体是利用Adam梯度下降算法计算CTC loss损失函数，并将全局学习率设置为0.0005，网络的训练次数设置为150次，进行批量化训练，批次大小为50，最终获得的网络模型平均准确率达到98.8％以上，结束训练。