CN110852324A

CN110852324A - 一种基于深度神经网络集装箱箱号检测方法

Info

Publication number: CN110852324A
Application number: CN201910756170.5A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shanghai Leveraging Network Technology Co Ltd
Current assignee: Shanghai Leveraging Network Technology Co Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2020-02-28

Abstract

本发明公开了一种基于深度神经网络集装箱箱号检测方法，其包括有以下步骤：首先获取集装箱后侧的RGB图像，通过对包含箱号的集装箱图片输入到训练好的字符分割神经网络模型，得到箱号字符分割的图片集。然后对得到的图片集进行透视变换及二值化处理，然后输入到训练好的字符识别深度神经网络中，得到每个文字框中的文字信息。最后将获取到的文字信息进行筛选和组合进而得到准确的集装箱箱号。本发明能够快速、准确的得到集装箱箱号，实现更高的识别准确率和识别速率。

Description

一种基于深度神经网络集装箱箱号检测方法

技术领域

本发明设计一种图像处理方法，属于图像处理技术领域，尤其是指一种基于深度神经网络集装箱箱号检测方法。

背景技术

随着科学技术的进步和国家进出口贸易的增加，物流运输行业处于逐年迅速发展和需求大量提升的环境，对集装箱的运输量也是逐年增加。对于集装箱来讲在海上运输起到重要的作用，在海运大力发展的同时，需要更加智能快速的方法获取到集装箱的箱号信息，从而对大规模集装箱能够实现集装箱的信息化、智能化和现代化。

集装箱箱号是每个集装箱的专有识别码，在集装箱的进出港口、海关和仓库等都需要。对于集装箱箱号自动识别更是对集装箱进行管理操作的基础。而现在的识别大多数是人工或者图像传统算法，对于集装箱箱号字符区域残缺等传统算法不能取得很好的结果，或者进行单字分割，进而识别单个字符，但是单个字符分割过程中会出现字符增多或减少，导致文本识别不准确。人工识别更是增加了人力成本。在这种背景下，基于深度神经网络集装箱箱号检测方法应运而生。

在现有技术中，有传统算法基于机器视觉的集装箱箱号，检测主要基于集装箱箱号的图像学信息，例如箱号图片的边缘检测、箱号文字特征、建立模板进行模板匹配等来实现对集装箱箱号进行定位识别。但是传统算法存在很大局限性和对集装箱环境要求较高，比如在利用箱号图片的边缘检测中，如果拍摄角度存在问题，就会使得集装箱箱号定位出现误差。并且在箱号识别中，使用传统OCR识别对集装箱去噪要求较高，并且识别效果较差，容易受到图片质量的影响。

随着深度学习在自然环境下文字检测技术的突破，在集装箱箱号定位出来之后，利用训练好的深度神经网络去识别。这样基于深度神经网络的箱号识别模型能够很好的识别出集装箱箱号，但是箱号定位仍然存在传统算法的缺陷。

深度神经网络文字精确定位的效果远优于传统的方法，但是基于深度神经网络端对端直接输入集装箱图片输出集装箱箱号虽然能较快输出集装箱箱号，但是由于端对端模型训练需要大量的集装箱数据和标注，不容易训练，并且其他数据集跟集装箱字符有较大差异。同时端对端直接获得集装箱箱号模型还存在着不容易对两个重要过程：集装箱箱号定位和集装箱箱号识别的分部调节。而端对端模型想对其中一个过程调节则可能会影响到另一个过程。

发明内容

针对上述方案存在的缺点，在集装箱箱号检测过程中，我们提出两个基于深度神经网络模型，一个是基于深度神经网络的集装箱文字定位模型，另一个基于深度神经网络的文字识别模型。首先用集装箱文字定位模型得到集装箱箱号所在的文本框位置，之后用透视变换把得到的图片角度校正，然后用文字识别模型得到集装箱文本信息。最后通过文本框的位置信息和文字信息得到集装箱箱号。使用这基于深度神经网络的集装箱箱号检测方法能够不受复杂的自然环境的影响，快速准确的识别箱号。

本发明是通过以下技术方案来实现的:

首先，本发明使用的整体框架是，先提出基于深度神经网络算法对集装箱箱号进行定位，然后利用基于深度神经网络算法对集装箱箱号进行识别，最后通过识别得到的箱号信息来对筛选得到集装箱箱号，提高集装箱箱号的定位识别的效率和准确度。

(1)本发明提出的基于深度神经网络的集装箱箱号定位和识别算法，并非单指某一种算法，而包括所有的基于深度神经网络的模型，对集装箱箱号识别定位只要基于深度神经网络，都受到该专利的保护。

所指的基于深度神经网络的集装箱箱号定位方法是指：

我们提出了一种用于集装箱箱号定位的创新框架，框架基于全卷积网络(FCN)和非极大值抑制(NMS)，框架流程如图2所示。与之前的研究不同，传统的文本检测方法和一些基于深度学习的文本检测方法，大多是multi-stage，在训练时需要对多个stage调优，这势必会影响最终的模型效果，而且非常耗时.针对上述存在的问题，本方法提出了端到端的集装箱文字定位方法，消除中间多个stage(如候选区域聚合，文本分词，后处理等)，直接预测集装箱文本行。

图片到多通道全卷积网络部分生成多个像素级文本得分图和几何通道。如图3所示，多通道卷积网络分为特征提取、特征合并、输出三个部分。

首先利用通用网络作为基础层，用于特征提取。然后根据上述特征提取网络，抽取不同级别的特征图。他们的尺寸分别是输出图片的

这样可以得到不同尺度的特征图，目的是解决文本尺度变换剧烈的问题，开始阶段可用于预测小的文本行，后面阶段可用于预测大的文本行。然后在合并层中，特征提取网络层中抽取的最后层特征图被最先送入unpool(上池化)，将图像放大原先的2倍。然后与前一层的特征图进行串联

具体过程如下：

h₁＝f₁ 1/32

g₁＝unpool(h₁) 1/16

h₂＝conv_3×3(conv_1×1([g1；f₂]))g₁ 1/16 f₂ 1/16 h₂1/8

g₂＝＝unpool(h₂) 1/4

h₃＝conv_3×3(conv_1×1([g₂；f₃]))g₂ 1/4 f₃ 1/8 h₃ 3/8

g₃＝unpool(h₃) 3/4

h₄＝conv_3×3(conv_1×1([g₃；f₄]))g₃ 3/4 f₄ 1/4 h₄ 1

g₄＝conv3X3(h₄)1

注：其中g_i是合并基础，h_i是合并的要素图，运算符[·；·]表示沿通道轴的连接。在每个合并阶段，首先将来自最后一个阶段的特征映射的反馈送到解析层，使其大小加倍，然后与当前特征映射连接。接下来，conv_1×1减少了通道的数量并减少了计算，接着是一个conv_3×3，它融合了信息，最终产生了这个合并阶段的输出。在最后一个合并阶段之后，conv_3×3层产生合并分支的最终特征图g₄并将其馈送到输出层。

输出：

1.得分图：对每个像素进行评分，得分区间0-1

2.RBOX：旋转矩形，五通道，点到四条边距离(四条边顺序固定)及旋转角

3.QUAD：四边形，八通道，点到四个点(x1，y1....x4，y4)8个偏移量同时对集装箱文字校正，以获得平直的文本送入最后的检测环节。

(2)所指的基于深度学习网络集装箱箱号文字识别方法是指：

我们提出了一种用于集装箱箱号识别的创新框架，框架基于序列的端到端集装箱文字识别，框架流程如图4所示。首先将含有集装箱箱号的分割图片输入到卷基层中，获取到图像中特征序列。然后在循环层中预测每帧的标签分布，最后在转录层中预测最终的标签序列得到集装箱箱号。具有端对端的特性，不需要单独训练和协调算法。跟传统涉及到集装箱字符分割或者水平尺度归一化不同，其能够处理任意长度的序列。所以对于集装箱的数字部分还是字母部分都有很好的效果。

卷积层：

集装箱字符检测的卷积层是由标准的CNN模型中的卷积层和最大池化层组成，自动提取出输入图像的特征序列。与普通CNN网络不同的是，先把输入图像缩放到相同高度(图像宽度维持原样)。提取的特征序列中的向量是从特征图上从左到右按照顺序生成的，每个特征向量表示了图像上一定宽度上的特征，其中使用的这个宽度是1,就是单个像素。

循环网络层:

集装箱字符检测的循环网络层是一个深层双向LSTM网络，在卷积特征的基础上继续提取文字序列特征循环层预测特征序列x＝x₁，...，x_T中每一帧x_t的标签分布y_t。循环层的优点是三重的：

首先，RNN具有很强的捕获序列内上下文信息的能力。对于基于图像的序列识别使用上下文提示比独立处理每个符号更稳定且更有帮助。以集装箱场景文本识别为例，有些宽字符可能需要一些连续的帧来完全描述。此外，一些模糊的集装箱字符在观察其上下文时更容易区分。

其次，RNN可以将误差差值反向传播到其输入，即卷积层，从而允许我们在统一的网络中共同训练循环层和卷积层。

第三，RNN能够从头到尾对任意长度的序列进行操作。

传统的RNN单元在其输入和输出层之间具有自连接的隐藏层。每次接收到序列中的帧x_t时，它将使用非线性函数来更新其内部状态h_t，该非线性函数同时接收当前输入x_t和过去状态h_t-1作为其输入：h_t＝g(x_t，h_t-1)。那么预测y_t是基于h_t的。以这种方式，过去的上下文{x_t′}_t′＜t被捕获并用于预测。长短时记忆(LSTM)是一种专门设计用于解决这个传统的RNN单元有梯度消失的问题，这限制了其可以存储的上下文范围，并给训练过程增加了负担。LSTM由一个存储单元和三个多重门组成，即输入，输出和遗忘门。在概念上，存储单元存储过去的上下文，并且输入和输出门允许单元长时间地存储上下文。同时，单元中的存储可以被遗忘门清除。LSTM的特殊设计允许它捕获长距离依赖，这经常发生在基于图像的序列中。LSTM是定向的，它只使用过去的上下文。然而，在基于图像的序列中，两个方向的上下文是相互有用且互补的。将两个LSTM，一个向前和一个向后组合到一个双向LSTM中。深层结构允许比浅层抽象更高层次的抽象。在循环层的底部，传播差异的序列被连接成映射，将特征映射转换为特征序列的操作进行反转并反馈到卷积层。我们创建一个自定义网络层，作为卷积层和循环层之间的桥梁。

转录层:

转录是将RNN所做的每帧预测转换成标签序列的过程。转录是根据每帧预测找到具有最高概率的标签序列。在集装箱箱号识别过程中，由于集装箱箱号只有阿拉伯数字(0～9)和大写字母(A～Z),故使用基于词典的转录。词典是一组标签序列，预测受拼写检查字典约束，通过选择具有最高概率的标签序列进行预测。在基于字典的模式中，每个测试采样与词典D相关联。基本上，通过选择词典中具有方程1中定义的最高条件概率的序列来识别标签序列，即l^*＝argmax_l∈Dp(l|y)。我们可以将搜索限制在最近邻候选目标N_δ(l′)，其δ是最大编辑距离，l′是在无词典模式下从y转录的序列：

可以使用BK树数据结构有效地找到候选目标N_δ(l′)，这是一种专门适用于离散度量空间的度量树。BK树的搜索时间复杂度为O(log|D|)，其中|D|是字典大小。

采用以上技术方案，本发明的有益效果是：通过基于深度神经网络的集装箱箱号定位，随之将裁剪后的集装箱号区域使用深度神经网络进行箱号文字识别，相比直接对传统的箱号识别，大大提升了箱号识别的准确性和抗干扰性。能够在含有自然环境干扰较大的图片中快速准确识别集装箱箱号。

附图说明

图1为本发明实施例中集装箱箱号检测流程图。

图2为本发明实施例中集装箱文字定位流程图。

图3为本发明实施例中多通道全卷积网络流程图。

图4为本发明实施例中集装箱箱号识别流程图。

图5为本发明实施例中集装箱箱号识别算法流程图。

图6为本发明实施例集装箱原图示意图。

图7为本发明实施例集装箱箱号定位结果示意图。

图8为本发明实施例集装箱箱号识别结果示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明的基于深度神经网络的集装箱箱号识别方法的过程如图1所示，首先获取集装箱后侧的RGB图像，通过对包含箱号的集装箱图片输入到训练好的字符分割神经网络模型，得到箱号字符分割的图片集。然后对得到的图片集进行透视变换及二值化处理，然后输入到训练好的字符识别深度神经网络中，得到每个文字框中的文字信息。最后将获取到的文字信息进行筛选和组合进而得到准确的集装箱箱号。

下面详细介绍整个系统各个模块的实现方法，输入的集装箱图片如图6所示。

集装箱图片预处理

采用以下公式对获取的RBG图像进行灰度化处理，以减小图像大小，降低系统识别全程颜色对箱号识别的干扰：

Grey＝0.3*R+0.59*G+0.11*B,式中R、G和B表示图像三通道数值；

然后对得到的灰度图进行中值滤波，去除噪声干扰。

集装箱文字定位

具体过程如下：

h₁＝f₁ 1/32

g₁＝unpool(h₁) 1/16

h₂＝conv_3×3(conv_1×1([g₁；f₂]))g₁ 1/16 f₂ 1/16 h₂ 1/8

g₂＝＝unpool(h₂) 1/4

h₃＝conv_3×3(conv_1×1([g₂；f₃]))g₂ 1/4 f₃ 1/8 h₃ 3/8

g₃＝unpool(h₃) 3/4

h₄＝conv_3×3(conv_1×1([g₃；f₄]))g₃ 3/4 f₄ 1/4 h₄ 1

g₄＝conv3X3(h₄)1

输出：

1.得分图：对每个像素进行评分，得分区间0-1

3.QUAD：四边形，八通道，点到四个点(x1，y1....x4，y4)8个偏移量

集装箱文字校正

取文字定位模型得到QUAD文字框坐标，以左上点开始，顺时针排列。第i个文字框，其坐标为(B_{i_y1}，B_{i_x1}，B_{i_y2}，B_i-x2，B_{i_y3}，B_{i_x3}，B_{i_y4}，B_{i_x4}),取x方向和y方向的最值记为B_{i_xmin}，B_{i_xmax}，B_{i_ymin}，B_{i_ymin}。利用透视变换，将原来的(B_{i_y1}，B_{i_x1}，B_{i_y2}，B_{i_x2}，B_{i_y3}，B_{i_x3}，B_{i_y4}，B_{i_x4})透视变换坐标为(B_{i_ymin}，B_{i_xmin}，B_{i_ymin}，B_{i_xmax}，B_{i_ymax}，B_{i_xmax}，B_{i_ymax}，B_{i_xmin})。这样消除拍摄角度带来的影响，为之后的集装箱箱号识别做准备。

集装箱文字识别

我们假设输入的图像大小为(32,W,3)，其分别为(图像高度，图像宽度，图形通道数)，卷基层使用CNN(卷积神经网络)网络，提取输入集装箱图的卷积特征图，把大小为(32,W,3)的图像转换为(1,(W/4),512)大小的卷积特征矩阵。特征图的每一列作为一个时间片输入到LSTM(长短时记忆神经网络)中。设特征图大小为m*T。下文中的时间序列t都从t＝1开始，即1≤t≤T。

定义为：

x＝(x¹，x²，...，x^T)

其中的x每一列x^t为：

循环网络层是一个深层双向LSTM网络，在卷积特征的基础上继续提取集装箱文字序列特征，使用深层RNN(循环神经网络)网络。由于CNN输出的特征图是(1,(W/4),512)大小，所以对于RNN最大时间长度T＝(W/4)(即有W/4个时间输入，每个输入x_t列向量有D＝512)。LSTM的每一个时间片后接softmax(分类回归)。将RNN输出做softmax后，输出y是一个后验概率矩阵，定义为：

y＝(y¹，y²，...，y^t，...，y^T)

其中，y的每一列y^t为：

其中n代表需要识别的集装箱字符集合长度。由于

是概率，所以服从概率假设：对y每一列进行argmax()

操作，即可获得每一列输出字符的类别。

那么LSTM可以表示为：

y＝N_ω(x)

其中ω代表LSTM的参数。LSTM在输入和输出间做了如下变换：

N_ω：(R^m)^T→(Rⁿ)^T

如果要进行L＝{a，b，c，...，x，y，z}的26个英文字母字符识别，考虑到有的位置没有字符，定义插入blank的字符合集:

L′＝L∪{blank}

其中blank表示当前列对应的图像位置没有字符。

定义变换Β如下：

Β：L^′T→L^≤T

其中L′是上述加入blank的长度为T的字符集合，经过Β变换后得到原始L，显然对于L的最大长度有|L|≤T。当获得LSTM输出y后进行Β变换，即可获得输出结果。对于LSTM给定输入x的情况下，输出为l的概率为：

其中π∈B^-1(l)代表所有经过Β变换后是l的路径π。

其中，对于任意一条路径π有：

这里的

中的π_t，下标t表示π路径的每一个时刻。

上式p(π|x)成立条件是输出y＝(y¹，y²，...，y^t，...，y^T)之间没有连接，也没有除了LSTM其他从y到x的反馈连接。只有这样才y_i之间才能在条件x下独立。实际情况中一般手工设置T≥20，所以有非常多条π∈B^-1(l)路径，即|B^-1(l)|非常大，无法逐条求和直接计算p(l|x)所以需要一种有效快速计算方法。这里采用forward-backward(向前—向后)算法来计算p(l|x)。要计算p(l|x)，由于有blank的存在，定义路径l′为在路径l每两个元素以及头尾插入blank。那么对于任意的l′_i都有l′_i∈L′(其中L′＝L∪{blank})。显然|l′|＝2|l|+1，其中|l|是路径的最大长度。定义所有经Β变换后结果是l且在t时刻结果为l_k(记为π_k＝l_k)的路径集合为{π|π∈B^-1(l)，π_k＝l_k}。

求导：

注意上式中第二项与

无关，所以：

而上述

就是恰好与概率

相关的路径，即t时刻都经过l_k(π_k＝l_k)。进一步推广，所有经过Β变换后结果是l且π_k＝l_k的路径(即{π|π∈B^-1(l)，π_k＝l_k})都可以写作：

其中前向递推概率和forwardα_t(s)：对于一个长度为T的路径π，其中π_1∶t代表该路径前t个字符，π_t∶T代表后T-t个字符。

其中π∈B(π_1∶t)＝l_1：s表示前t个字符π_1：t经过B变换为的l_1：s的前半段子路径。α_t(s)代表了t时刻经过l_s的路径概率中1～t概率之和，即前向递推概率和。

同理反向递推概率和backwardβ_t(s):

其中π∈B(π_t：T)＝l_s：|l|表示后T-t个字符π_t-T经过B变换为的l_s：|l|的后半段子路径。β_t(s)代表了t时刻经过l_s的路径概率中t～T概率之和，即反向递推概率和。那么forward和backward相乘有：

可以得到p(l|x)与forward和backward递推公式之间的关系：

然后做的就是通过梯度调整LSTM的参数ω，使得对于输入样本为π∈B^-1(z)时有p(l|x)取得最大。

这样首先CNN提取图像卷积特征，然后LSTM进一步提取图像卷积特征中的序列特征,最后解决训练时字符无法对齐的问题，最终得到集装箱箱号。

获取集装箱箱号

获取集装箱箱号主要是通过文字识别获取的结果来对箱号进行定位。由于集装箱文字中只有集装箱公司名称是4个字母组成。利用这个特征，将所有的集装箱文字矩形框的左上点和右下点左标放在一个列表中，取第i个文字矩形框，记为(C_{i_y1}，C_{i_x1}，C_{i_y2}，C_{i_x2})。取其中集装箱文字识别结果为4个字母的。这样其4个字母所在位置则为集装箱箱号所在行位置。设置其左上列坐标为Con_y，在剩余文字框中按照距离左上列坐标与Con_y的差的绝对值来升序排列。取前几个加起来是7个数字，并且保证第七位校验位和之前的4个字母符合集装箱规则。若符合则输出这11位作为集装箱箱号。否则重新拍摄，重新识别。

Claims

1.本发明的技术方案为：

一种基于深度神经网络集装箱箱号检测方法，包括如下步骤：

(1)获取集装箱后侧的RGB图像，通过对包含箱号的集装箱图片输入到训练好的字符分割神经网络模型，得到箱号字符分割的图片集；

(2)对(1)得到的图片集进行透视变换及二值化处理，然后输入到训练好的字符识别深度神经网络中，得到每个文字框中的文字信息；

(3)将获取到的文字信息进行筛选和组合进而得到准确的集装箱箱号。本发明能够快速、准确的得到集装箱箱号，实现更高的识别准确率和识别速率。

2.一种基于深度神经网络集装箱箱号检测方法，其特征是所述方法包括如下步骤：

(1)获取集装箱图片的RGB图像，用过对RGB图像进行灰度化处理，将灰度图输入进训练好的深度神经网络中，得到含有集装箱文字分割框的图片，取文字框的最小外接矩形框来截取含有集装箱箱号的图片集；

(2)对(1)步骤已经得到的集装箱文字图片集按照神经网络得到的外接框进行透视变换，然后对透视变换好的图片进行文字识别；

(3)将(2)步骤中识别好的文字进行组合和筛选，通过后处理得到集装箱箱号。

3.根据权利要求2所述一种基于深度神经网络集装箱箱号检测方法，其特征在于：所述(1)步骤中，

采用以下公式对获取的RBG图像进行灰度化处理，以减小图像大小，提升运算速度，降低系统识别全程颜色对箱号识别的干扰：

Grey＝0.3*R+0.59*G+0.11*B,式中R、G和B表示图像三通道数值。

4.根据权利要求2所述一种基于深度神经网络集装箱箱号检测方法，其特征在于：所述(1)步骤中，文字分割模型训练搭建包括有：

对大量的集装箱进行箱号字符分割标注，随机选择出大量图片分为测试集和训练数据集，对所有测试集和训练数据集分别进行统一处理，供深度神经网络训练使用；

搭建深度神经网络模型，将训练集和测试集输入网络进行训练，通过数十万次的参数迭代，使得损失函数值收敛到一个最小值，将收敛时的神经网络模型状态保存，得到一个高精度的字符分割模型。

5.根据权利要求4所述一种基于深度神经网络集装箱箱号检测方法，其特征在于：所述(1)步骤中，

根据外接四边形坐标值，分别求其x，y方向上的最值。取这四个点构成的矩形框，这样得到最小外接矩形框。

6.根据权利要求5所述一种基于深度神经网络集装箱箱号检测方法，其特征在于：所述(2)步骤中，

通过深度模型获得的外接框，做透视变换，使得之后的箱号识别不受到拍照的影响，而将箱号处于水平方向上。

7.根据权利要求6所述一种基于深度神经网络集装箱箱号检测方法，其特征在于：所述(2)步骤中：

收集不同环境下的文本图片作为训练集，本文作为标签。训练得到文本端到端的文本识别模型。把(2)的图像输入进去得到文本信息。

8.根据权利要求7所述一种基于深度神经网络集装箱箱号检测方法，其特征在于：所述(3)步骤中，

后处理包括有：把最长的文字框中的6位数字作为基准，其后面的是校验码。其箱号前面的是字母。通过字母与数字的组合一起即是箱号。对识别的箱号进行校验，校验正确则输出箱号，否则人工输入正确的箱号。