CN111507325B

CN111507325B - 基于深度学习的工业视觉ocr识别系统及方法

Info

Publication number: CN111507325B
Application number: CN202010183018.5A
Authority: CN
Inventors: 牛小明
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2023-04-07
Anticipated expiration: 2040-03-16
Also published as: CN111507325A

Abstract

本发明提出一种基于深度学习的工业视觉OCR识别系统及方法，属于工业视觉OCR识别领域。为解决目前工业领域里面OCR检测与识别的方法无法高效兼顾工业视觉中的大、小视野的问题，本发明包括：通过PLC控制信号源向图像采集装置发送控制信号；当通过图像采集装置接收到所述控制信号时，对待拍照区域进行拍照并将拍照得到的图片传输到上位机，所述图片中至少包含ROI区域，所述ROI区域中至少包含待检测的OCR块和/或序列；通过上位机实时获取图像采集装置的图片，并基于ROI区域判断图片的视野范围大小，根据判断出的视野范围大小进行任务调度，选择相应的端到端的检测与识别方法，定位并选择出图片中的待识别内容。

Description

基于深度学习的工业视觉OCR识别系统及方法

技术领域

本发明涉及工业视觉OCR识别领域，特别涉及一种基于深度学习的工业视觉OCR识别系统及方法。

背景技术

工业视觉OCR识别广泛应用于生产制造过程中，比如在产品生产之后，需要打上生产日期标签，此时OCR识别的作用是用于判别当前张贴的生产日期标签是否是符合规定的；另外，在产品外包装箱上面需要印上该产品的字符LOGO，这些LOGO是否符合规定，也可以通过工业OCR识别来进行判别，等等；工业OCR识别包含装置和方法两部分内容。目前的OCR识别的专利在自然场景及在文档表格识别中应用较多，但是在工业里面的OCR识别相对较少，方法局限。

并且，工业领域里面OCR检测与识别的方法大多采用传统方法，因此受环境和光线的干扰较大；而自然场景里面的OCR检测与识别方法有的采用传统和深度学习方法混合，抗干扰性效果一般；个别端到端检测与识别网络，包含单独的文字检测网络和文字识别网络，无法高效兼顾工业视觉中的大、小视野，同时模型没有做GPU优化，因此很难直接应用于工业领域中。

发明内容

本发明的目的是提供一种基于深度学习的工业视觉OCR识别系统及方法，解决目前工业领域里面OCR检测与识别的方法无法高效兼顾工业视觉中的大、小视野的问题。

本发明解决其技术问题，采用的技术方案是：基于深度学习的工业视觉OCR识别系统，包括PLC控制信号源、图像采集装置和上位机，所述PLC控制信号源通过图像采集装置与上位机连接；

所述PLC控制信号源，用于向图像采集装置发送控制信号；

所述图像采集装置，用于当接收到所述控制信号时，对待拍照区域进行拍照并将拍照得到的图片传输到上位机，所述图片中至少包含ROI区域，所述ROI区域中至少包含待检测的OCR块和/或序列；

所述上位机，用于实时获取图像采集装置的图片，并基于ROI区域判断图片的视野范围大小，根据判断出的视野范围大小进行任务调度，选择相应的端到端的检测与识别方法，定位并选择出图片中的待识别内容。

进一步，所述基于ROI区域判断图片的视野范围大小过程中，若图片中仅包含ROI区域，则该图片为小视野范围的图片，若图片中除了包含ROI区域，还包含其它的文字区域，则该图片为大视野范围的图片。

进一步，针对小视野范围的图片，采用弱监督式端到端检测与识别方法，检测和识别采用一个深度学习网络，只标注待识别的内容，不标注待检测OCR块/序列的位置，定位并选择出图片中的待识别内容，针对大视野范围的图片，先通过轻量型的端到端检测与识别方法，定位并检测出待识别ROI区域，然后再通过弱监督式端到端的检测与识别方法，定位并选择出图片中的待识别内容。

进一步，在CPU类型的工控机上运行所述深度学习网络，并对该深度学习模型进行优化。

进一步，所述图像采集装置为工业相机。

进一步，定位并选择出图片中的待识别内容后，对识别结果进行输出并实时展示，通过显示屏对识别结果进行实时展示。

进一步，所述系统还包括光源，用于当待拍照区域光照强度不足时，对待拍照区域进行光照强度进行加强。

基于深度学习的工业视觉OCR识别方法，应用于所述的基于深度学习的工业视觉OCR识别系统，包括如下步骤：

步骤1、通过PLC控制信号源向图像采集装置发送控制信号；

步骤2、当通过图像采集装置接收到所述控制信号时，对待拍照区域进行拍照并将拍照得到的图片传输到上位机，所述图片中至少包含ROI区域，所述ROI区域中至少包含待检测的OCR块和/或序列；

步骤3、通过上位机实时获取图像采集装置的图片，并基于ROI区域判断图片的视野范围大小，根据判断出的视野范围大小进行任务调度，选择相应的端到端的检测与识别方法，定位并选择出图片中的待识别内容。

进一步，步骤3中，所述基于ROI区域判断图片的视野范围大小过程中，若图片中仅包含ROI区域，则该图片为小视野范围的图片，若图片中除了包含ROI区域，还包含其它的文字区域，则该图片为大视野范围的图片。

本发明的有益效果是，通过上述基于深度学习的工业视觉OCR识别系统及方法，上位机软件可根据工业图像视野范围大小，采用任务调度模式，选择合理的端到端检测与识别流程。并且，针对小视野范围的图片，本申请采用了一种弱监督式端到端检测与识别方法，检测和识别采用一个网络，只需标注识别的内容，不需要标注待检测OCR块/序列的位置，节约了标注和训练的时间，针对大视野范围的图片，可先通过轻量型的端到端检测算法，定位并检测出待识别ROI区域，然后再通过弱监督式端到端的检测与识别模块。

附图说明

图1为本发明实施例中深度学习工业OCR识别方法及装置的系统框图；

图2为本发明实施例中深度学习工业视觉OCR定位及识别流程图；

图3为本发明实施例中工业OCR文字区域块和/或序列检测训练及推理框图；

图4为本发明实施例中弱监督端到端工业OCR识别训练及推理框图；

图5为本发明实施例中深度学习工业OCR识别整体流程图；

图6为本发明实施例中深度学习工业OCR识别系统具体实施流程图。

具体实施方式

下面结合实施例及附图，详细描述本发明的技术方案。

本发明所述基于深度学习的工业视觉OCR识别系统，包括PLC控制信号源、图像采集装置和上位机，所述PLC控制信号源通过图像采集装置与上位机连接。

上述系统中，所述PLC控制信号源，用于向图像采集装置发送控制信号；所述图像采集装置，用于当接收到所述控制信号时，对待拍照区域进行拍照并将拍照得到的图片传输到上位机，所述图片中至少包含ROI区域，所述ROI区域中至少包含待检测的OCR块和/或序列；所述上位机，用于实时获取图像采集装置的图片，并基于ROI区域判断图片的视野范围大小，根据判断出的视野范围大小进行任务调度，选择相应的端到端的检测与识别方法，定位并选择出图片中的待识别内容。

上述系统中，所述基于ROI区域判断图片的视野范围大小过程中，若图片中仅包含ROI区域，则该图片为小视野范围的图片，若图片中除了包含ROI区域，还包含其它的文字区域，则该图片为大视野范围的图片。

针对小视野范围的图片，采用弱监督式端到端检测与识别方法，检测和识别采用一个深度学习网络，只标注待识别的内容，不标注待检测OCR块/序列的位置，定位并选择出图片中的待识别内容，针对大视野范围的图片，先通过轻量型的端到端检测与识别方法，定位并检测出待识别ROI区域，然后再通过弱监督式端到端的检测与识别方法，定位并选择出图片中的待识别内容。

并且，一般情况下，深度学习网络需要借助GPU来进行训练(数据量较大、模型参数较大)；为了获取实时效果的推理过程，一般也需要借助于GPU显卡来完成推理，而在工业环境中为了节约成本以及获取更好的系统稳定性，目前采用GPU的方式较少，因此本申请又对GPU深度学习模型进行了优化，推理过程可直接在CPU类型的工控机上运行所述深度学习网络，并对该深度学习模型进行优化，节约了成本。

实际应用中，所述图像采集装置优选为工业相机。并且，定位并选择出图片中的待识别内容后，对识别结果进行输出并实时展示，这里，可以优选通过显示屏对识别结果进行实时展示。

另外，所述系统还可以包括光源，用于当待拍照区域光照强度不足时，对待拍照区域进行光照强度进行加强，便于工业相机的拍摄到清晰的图片。

同时，本申请还提出一种基于深度学习的工业视觉OCR识别方法，应用于所述的基于深度学习的工业视觉OCR识别系统，包括如下步骤：

步骤1、通过PLC控制信号源向图像采集装置发送控制信号。

步骤2、当通过图像采集装置接收到所述控制信号时，对待拍照区域进行拍照并将拍照得到的图片传输到上位机，所述图片中至少包含ROI区域，所述ROI区域中至少包含待检测的OCR块和/或序列。

步骤3中，所述基于ROI区域判断图片的视野范围大小过程中，若图片中仅包含ROI区域，则该图片为小视野范围的图片，若图片中除了包含ROI区域，还包含其它的文字区域，则该图片为大视野范围的图片。

实施例

本发明实施例的基于深度学习的工业视觉OCR识别系统及方法中，通过该系统可对工业领域产品表面的OCR图像进行精确的定位和准确的识别，深度学习工业OCR识别系统具体实施流程图见附图6。

具体应用过程中，该方法包括如下步骤：

S1:系统主要包含硬件(工业相机、光源、上位机、PLC控制信号源)和上位机软件两部分；PLC控制信号源发出控制信号给工业相机，工业相机拍照并将图片传输给上位机进行定位与识别，并对识别结果进行输出以及显示屏实时展示，深度学习工业OCR识别方法及装置的系统框图见附图1，深度学习工业OCR识别整体流程图见附图5。

其中，上位机软件是链接工业视觉OCR识别装置与方法的枢纽。上位机软件包含以下几部分：与相机的通信模块，实时获取相机的图像数据；任务调度模块，用于根据大、小视野进行任务调度；当图片为大视野范围的图片时：工业OCR文字区域块和/或序列检测推理模块的集成与封装、弱监督端到端工业OCR识别模块的集成与封装，当图片为小视野范围的图片时：弱监督端到端工业OCR识别模块的集成与封装；最后，对工业视觉OCR检测与识别结果的展示及反馈。

S2:方法主要包括：

相机的安放位置、焦距的设置以及拍摄的物体大小决定了ROI区域在图片中的大小，从而会导致两种情况出现：一是整张图片只包含ROI文字区域块和/或序列(小视野)；二是图片除了ROI文字区域块和/或序列之外，还有其它的文字区域块和/或序列(大视野)；因此，深度学习的工业视觉OCR定位及识别方法包含大视野识别流程和小视野识别流程两种模式。其中大视野识别流程是工业OCR文字区域块和/或序列检测和弱监督端到端工业OCR识别两部分的串联；小视野识别流程即弱监督的端到端工业OCR识别。深度学习工业视觉OCR定位及识别流程图见附图2；其中，S2内容主要包含如下：

S21:工业视觉OCR识别样本集的制作：

1)工业视觉ROI文字区域块和/或序列检测样本集制作：

该样本集应用于大视野场景；工业视觉ROI文字区域块/序列检测样本集分为三类：训练集、验证集和测试集；其中，训练集、验证集和测试集分别含有图像原始文件和ground truth文件(即：记录每张图片的ROI文字区域块和/或序列位置)。采集后的图像样本可进行不同尺度的平移、旋转、加噪、透视变换，增加背光、逆光干扰，目的是为了增加样本集的数量和样本的泛化性能，避免模型过拟合，增强模型的鲁棒性。

2)弱监督端到端工业OCR识别样本集制作：

该样本集应用于大视野和小视野两种场景：弱监督端到端工业OCR识别样本集分为三类：训练集、验证集和测试集；其中，训练集、验证集和测试集分别含有图像原始文件和ground truth文件(即：记录每张图片实际包含的字符序列真实内容，不需要记录ROI文字区域块和/或序列的位置)。采集后的图像样本可进行不同尺度的平移、旋转、加噪、透视变换，增加背光、逆光干扰，目的是为了增加样本集的数量和样本的泛化性能；同时，可利用数据生成方式对汉字及汉字序列进行自动图像生成，增加样本集的数量和样本的泛化性能；避免模型过拟合，增强模型的鲁棒性。

S22：工业视觉OCR检测及识别：

其中，大视野OCR识别流程具体为：

大视野识别流程是工业OCR文字区域块和/或序列检测和弱监督端到端工业OCR识别两部分的串联；工业图像首先经过工业OCR文字区域块和/或序列检测，将ROI文字区域块和/或序列检测检测出来，然后送入弱监督端到端工业识别模块中；该网络结构属于端到端类型，不需要对图像做预处理。工业OCR文字区域块和/或序列检测模块采用轻量型检测网络，易于工业移植使用；其深度学习网络不限于MobileNet、ShuffleNet、Thunder Net、DenseNet、PeleeNet、SqueezeNet等，工业OCR文字区域块和/或序列检测训练及推理框图见附图3。弱监督端到端工业OCR识别属于端到端网络，ground truth文件中只记录了文字块/序列的具体内容，不需要包含文字块/序列的具体位置，标签制作相对容易；其深度学习网络不仅限于MORAN网络，弱监督端到端工业OCR识别训练及推理框图见附图4。

其中，小视野OCR识别流程具体为：

小视野识别流程即弱监督的端到端工业OCR识别；与大视野识别流程的第二部分网络结构相同，训练和推理过程也一致，其深度学习网络不仅限于MORAN网络。

S23：深度学习模型优化：

由于训练数据样本集较大，网络模型复杂，通常采用GPU或GPU集群进行训练；训练后的模型若想得到较好的推理速度，通常借助GPU运行；工业中使用的工控机大多采用CPU，目前自带GPU显卡的很少，因为其成本和稳定性原因，因此，需要对GPU的深度学习推理模型进行优化，以在CPU类型的工控机上取得较好的运行效果。针对CPU的类型，目前主要分类两类优化，一个是针对Intel类型的CPU工控机对深度学习模型优化；一类是针对ARM类型的CPU工控机对深度学习模型优化。

基于Intel类型的CPU工控机，借助OpenVINO等工具对GPU深度学习模型进行优化；基于ARM类型的CPU工控机，借助NCNN、TVM等工具对GPU深度学习模型进行优化；模型优化过程不仅限于剪枝、量化等。

本实施例中：

(1)针对Intel类型CPU工控机，基于OpenVINO对GPU深度学习推理模型优化以tensorflow训练好的推理模型为例，优化流程如下：

a、为使用的训练框架配置Model Optimizer；

b、生成优化的Intermediate Representation(IR)文件；

c、使用Inference Engine测试IR格式的模型；

d、在目标环境集成Inference Engine到自己的应用中。

(2)针对ARM类型CPU工控机，基于NCNN对GPU深度学习推理模型优化，优化流程如下：

a、从github上下载ncnn源码，并进行编译；

b、以caffe模型为例，准备caffe网络和模型；比如，经过训练后得到的模型及文件deploy.prototxt，alexnet.caffemodel；

c、终端进入ncnn/build/tools目录，执行“./caffe2ncnn deplpy.prototxtalexnet.caffemodel alexnet.param alexnet.bin”，得到优化后的param和bin文件；

d、集成优化后的文件到自己的应用中。

综上所述，本实施例可通过上位机软件根据工业图像视野范围大小，采用任务调度模式，选择合理的端到端检测与识别流程。其次，针对小视野(工业相机拍照的图像中仅包含待检测的OCR块/序列)，采用了一种弱监督式端到端检测与识别方法，检测和识别采用一个网络，只需标注识别的内容，不需要标注待检测OCR块/序列的位置，节约了标注和训练的时间；针对大视野(工业相机拍照的图像中，除了待识别的文字块/序列，还有其它的文字区域)，可先通过轻量型的端到端检测算法，定位并检测出待识别ROI区域，然后再通过弱监督式端到端的检测与识别模块；由于没有传统图像预处理过程，对光线及环境的干扰，有较好的鲁棒性，而且识别过程可选用弱监督式的MORAN算法，因此对弯曲的文本仍然具有较好的识别效果。最后，深度学习网络需要借助GPU来进行训练(数据量较大、模型参数较大)；为了获取实时效果的推理过程，一般也需要借助于GPU显卡来完成推理，而在工业环境中为了节约成本以及获取更好的系统稳定性，目前采用GPU的方式较少，因此本专利又对GPU深度学习模型进行了优化，推理过程可直接使用普通CPU机器进行运行，节约了成本。

Claims

1.基于深度学习的工业视觉OCR识别系统，其特征在于，包括PLC控制信号源、图像采集装置和上位机，所述PLC控制信号源通过图像采集装置与上位机连接；

所述PLC控制信号源，用于向图像采集装置发送控制信号；

所述上位机，用于实时获取图像采集装置的图片，并基于ROI区域判断图片的视野范围大小，根据判断出的视野范围大小进行任务调度，选择相应的端到端的检测与识别方法，定位并选择出图片中的待识别内容；基于ROI区域判断图片的视野范围大小过程中，若图片中仅包含ROI区域，则该图片为小视野范围的图片，若图片中除了包含ROI区域，还包含其它的文字区域，则该图片为大视野范围的图片，针对小视野范围的图片，采用弱监督式端到端检测与识别方法，检测和识别采用一个深度学习网络，只标注待识别的内容，不标注待检测OCR块/序列的位置，定位并选择出图片中的待识别内容，针对大视野范围的图片，先通过轻量型的端到端检测与识别方法，定位并检测出待识别ROI区域，然后再通过弱监督式端到端的检测与识别方法，定位并选择出图片中的待识别内容。

2.根据权利要求1所述的基于深度学习的工业视觉OCR识别系统，其特征在于，在CPU类型的工控机上运行所述深度学习网络，并对该深度学习模型进行优化：基于Intel类型的CPU工控机，借助OpenVINO工具对GPU深度学习模型进行优化；基于ARM类型的CPU工控机，借助NCNN或TVM工具对GPU深度学习模型进行优化。

3.根据权利要求1所述的基于深度学习的工业视觉OCR识别系统，其特征在于，所述图像采集装置为工业相机。

4.根据权利要求1所述的基于深度学习的工业视觉OCR识别系统，其特征在于，定位并选择出图片中的待识别内容后，对识别结果进行输出并实时展示，通过显示屏对识别结果进行实时展示。

5.根据权利要求1-4任意一项所述的基于深度学习的工业视觉OCR识别系统，其特征在于，所述系统还包括光源，用于当待拍照区域光照强度不足时，对待拍照区域进行光照强度进行加强。

6.基于深度学习的工业视觉OCR识别方法，应用于权利要求1-5任意一项所述的基于深度学习的工业视觉OCR识别系统，其特征在于，包括如下步骤：

步骤1、通过PLC控制信号源向图像采集装置发送控制信号；

步骤3、通过上位机实时获取图像采集装置的图片，并基于ROI区域判断图片的视野范围大小，根据判断出的视野范围大小进行任务调度，选择相应的端到端的检测与识别方法，定位并选择出图片中的待识别内容；基于ROI区域判断图片的视野范围大小过程中，若图片中仅包含ROI区域，则该图片为小视野范围的图片，若图片中除了包含ROI区域，还包含其它的文字区域，则该图片为大视野范围的图片；针对小视野范围的图片，采用弱监督式端到端检测与识别方法，检测和识别采用一个深度学习网络，只标注待识别的内容，不标注待检测OCR块/序列的位置，定位并选择出图片中的待识别内容，针对大视野范围的图片，先通过轻量型的端到端检测与识别方法，定位并检测出待识别ROI区域，然后再通过弱监督式端到端的检测与识别方法，定位并选择出图片中的待识别内容。