CN110852324A - 一种基于深度神经网络集装箱箱号检测方法 - Google Patents
一种基于深度神经网络集装箱箱号检测方法 Download PDFInfo
- Publication number
- CN110852324A CN110852324A CN201910756170.5A CN201910756170A CN110852324A CN 110852324 A CN110852324 A CN 110852324A CN 201910756170 A CN201910756170 A CN 201910756170A CN 110852324 A CN110852324 A CN 110852324A
- Authority
- CN
- China
- Prior art keywords
- container
- neural network
- deep neural
- container number
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 38
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 230000009466 transformation Effects 0.000 claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000003062 neural network model Methods 0.000 claims abstract description 6
- 238000012216 screening Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims 1
- 238000012805 post-processing Methods 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 11
- 238000000605 extraction Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000013518 transcription Methods 0.000 description 6
- 230000035897 transcription Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 229960001948 caffeine Drugs 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- RYYVLZVUVIJVGH-UHFFFAOYSA-N trimethylxanthine Natural products CN1C(=O)N(C)C(=O)C2=C1N=CN2C RYYVLZVUVIJVGH-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度神经网络集装箱箱号检测方法,其包括有以下步骤:首先获取集装箱后侧的RGB图像,通过对包含箱号的集装箱图片输入到训练好的字符分割神经网络模型,得到箱号字符分割的图片集。然后对得到的图片集进行透视变换及二值化处理,然后输入到训练好的字符识别深度神经网络中,得到每个文字框中的文字信息。最后将获取到的文字信息进行筛选和组合进而得到准确的集装箱箱号。本发明能够快速、准确的得到集装箱箱号,实现更高的识别准确率和识别速率。
Description
技术领域
本发明设计一种图像处理方法,属于图像处理技术领域,尤其是指一种基于深度神经网络集装箱箱号检测方法。
背景技术
随着科学技术的进步和国家进出口贸易的增加,物流运输行业处于逐年迅速发展和需求大量提升的环境,对集装箱的运输量也是逐年增加。对于集装箱来讲在海上运输起到重要的作用,在海运大力发展的同时,需要更加智能快速的方法获取到集装箱的箱号信息,从而对大规模集装箱能够实现集装箱的信息化、智能化和现代化。
集装箱箱号是每个集装箱的专有识别码,在集装箱的进出港口、海关和仓库等都需要。对于集装箱箱号自动识别更是对集装箱进行管理操作的基础。而现在的识别大多数是人工或者图像传统算法,对于集装箱箱号字符区域残缺等传统算法不能取得很好的结果,或者进行单字分割,进而识别单个字符,但是单个字符分割过程中会出现字符增多或减少,导致文本识别不准确。人工识别更是增加了人力成本。在这种背景下,基于深度神经网络集装箱箱号检测方法应运而生。
在现有技术中,有传统算法基于机器视觉的集装箱箱号,检测主要基于集装箱箱号的图像学信息,例如箱号图片的边缘检测、箱号文字特征、建立模板进行模板匹配等来实现对集装箱箱号进行定位识别。但是传统算法存在很大局限性和对集装箱环境要求较高,比如在利用箱号图片的边缘检测中,如果拍摄角度存在问题,就会使得集装箱箱号定位出现误差。并且在箱号识别中,使用传统OCR识别对集装箱去噪要求较高,并且识别效果较差,容易受到图片质量的影响。
随着深度学习在自然环境下文字检测技术的突破,在集装箱箱号定位出来之后,利用训练好的深度神经网络去识别。这样基于深度神经网络的箱号识别模型能够很好的识别出集装箱箱号,但是箱号定位仍然存在传统算法的缺陷。
深度神经网络文字精确定位的效果远优于传统的方法,但是基于深度神经网络端对端直接输入集装箱图片输出集装箱箱号虽然能较快输出集装箱箱号,但是由于端对端模型训练需要大量的集装箱数据和标注,不容易训练,并且其他数据集跟集装箱字符有较大差异。同时端对端直接获得集装箱箱号模型还存在着不容易对两个重要过程:集装箱箱号定位和集装箱箱号识别的分部调节。而端对端模型想对其中一个过程调节则可能会影响到另一个过程。
发明内容
针对上述方案存在的缺点,在集装箱箱号检测过程中,我们提出两个基于深度神经网络模型,一个是基于深度神经网络的集装箱文字定位模型,另一个基于深度神经网络的文字识别模型。首先用集装箱文字定位模型得到集装箱箱号所在的文本框位置,之后用透视变换把得到的图片角度校正,然后用文字识别模型得到集装箱文本信息。最后通过文本框的位置信息和文字信息得到集装箱箱号。使用这基于深度神经网络的集装箱箱号检测方法能够不受复杂的自然环境的影响,快速准确的识别箱号。
本发明是通过以下技术方案来实现的:
首先,本发明使用的整体框架是,先提出基于深度神经网络算法对集装箱箱号进行定位,然后利用基于深度神经网络算法对集装箱箱号进行识别,最后通过识别得到的箱号信息来对筛选得到集装箱箱号,提高集装箱箱号的定位识别的效率和准确度。
(1)本发明提出的基于深度神经网络的集装箱箱号定位和识别算法,并非单指某一种算法,而包括所有的基于深度神经网络的模型,对集装箱箱号识别定位只要基于深度神经网络,都受到该专利的保护。
所指的基于深度神经网络的集装箱箱号定位方法是指:
我们提出了一种用于集装箱箱号定位的创新框架,框架基于全卷积网络(FCN)和非极大值抑制(NMS),框架流程如图2所示。与之前的研究不同,传统的文本检测方法和一些基于深度学习的文本检测方法,大多是multi-stage,在训练时需要对多个stage调优,这势必会影响最终的模型效果,而且非常耗时.针对上述存在的问题,本方法提出了端到端的集装箱文字定位方法,消除中间多个stage(如候选区域聚合,文本分词,后处理等),直接预测集装箱文本行。
图片到多通道全卷积网络部分生成多个像素级文本得分图和几何通道。如图3所示,多通道卷积网络分为特征提取、特征合并、输出三个部分。
首先利用通用网络作为基础层,用于特征提取。然后根据上述特征提取网络,抽取不同级别的特征图。他们的尺寸分别是输出图片的这样可以得到不同尺度的特征图,目的是解决文本尺度变换剧烈的问题,开始阶段可用于预测小的文本行,后面阶段可用于预测大的文本行。然后在合并层中,特征提取网络层中抽取的最后层特征图被最先送入unpool(上池化),将图像放大原先的2倍。然后与前一层的特征图进行串联
具体过程如下:
h1=f1 1/32
g1=unpool(h1) 1/16
h2=conv3×3(conv1×1([g1;f2]))g1 1/16 f2 1/16 h21/8
g2==unpool(h2) 1/4
h3=conv3×3(conv1×1([g2;f3]))g2 1/4 f3 1/8 h3 3/8
g3=unpool(h3) 3/4
h4=conv3×3(conv1×1([g3;f4]))g3 3/4 f4 1/4 h4 1
g4=conv3X3(h4)1
注:其中gi是合并基础,hi是合并的要素图,运算符[·;·]表示沿通道轴的连接。在每个合并阶段,首先将来自最后一个阶段的特征映射的反馈送到解析层,使其大小加倍,然后与当前特征映射连接。接下来,conv1×1减少了通道的数量并减少了计算,接着是一个conv3×3,它融合了信息,最终产生了这个合并阶段的输出。在最后一个合并阶段之后,conv3×3层产生合并分支的最终特征图g4并将其馈送到输出层。
输出:
1.得分图:对每个像素进行评分,得分区间0-1
2.RBOX:旋转矩形,五通道,点到四条边距离(四条边顺序固定)及旋转角
3.QUAD:四边形,八通道,点到四个点(x1,y1....x4,y4)8个偏移量同时对集装箱文字校正,以获得平直的文本送入最后的检测环节。
(2)所指的基于深度学习网络集装箱箱号文字识别方法是指:
我们提出了一种用于集装箱箱号识别的创新框架,框架基于序列的端到端集装箱文字识别,框架流程如图4所示。首先将含有集装箱箱号的分割图片输入到卷基层中,获取到图像中特征序列。然后在循环层中预测每帧的标签分布,最后在转录层中预测最终的标签序列得到集装箱箱号。具有端对端的特性,不需要单独训练和协调算法。跟传统涉及到集装箱字符分割或者水平尺度归一化不同,其能够处理任意长度的序列。所以对于集装箱的数字部分还是字母部分都有很好的效果。
卷积层:
集装箱字符检测的卷积层是由标准的CNN模型中的卷积层和最大池化层组成,自动提取出输入图像的特征序列。与普通CNN网络不同的是,先把输入图像缩放到相同高度(图像宽度维持原样)。提取的特征序列中的向量是从特征图上从左到右按照顺序生成的,每个特征向量表示了图像上一定宽度上的特征,其中使用的这个宽度是1,就是单个像素。
循环网络层:
集装箱字符检测的循环网络层是一个深层双向LSTM网络,在卷积特征的基础上继续提取文字序列特征循环层预测特征序列x=x1,...,xT中每一帧xt的标签分布yt。循环层的优点是三重的:
首先,RNN具有很强的捕获序列内上下文信息的能力。对于基于图像的序列识别使用上下文提示比独立处理每个符号更稳定且更有帮助。以集装箱场景文本识别为例,有些宽字符可能需要一些连续的帧来完全描述。此外,一些模糊的集装箱字符在观察其上下文时更容易区分。
其次,RNN可以将误差差值反向传播到其输入,即卷积层,从而允许我们在统一的网络中共同训练循环层和卷积层。
第三,RNN能够从头到尾对任意长度的序列进行操作。
传统的RNN单元在其输入和输出层之间具有自连接的隐藏层。每次接收到序列中的帧xt时,它将使用非线性函数来更新其内部状态ht,该非线性函数同时接收当前输入xt和过去状态ht-1作为其输入:ht=g(xt,ht-1)。那么预测yt是基于ht的。以这种方式,过去的上下文{xt′}t′<t被捕获并用于预测。长短时记忆(LSTM)是一种专门设计用于解决这个传统的RNN单元有梯度消失的问题,这限制了其可以存储的上下文范围,并给训练过程增加了负担。LSTM由一个存储单元和三个多重门组成,即输入,输出和遗忘门。在概念上,存储单元存储过去的上下文,并且输入和输出门允许单元长时间地存储上下文。同时,单元中的存储可以被遗忘门清除。LSTM的特殊设计允许它捕获长距离依赖,这经常发生在基于图像的序列中。LSTM是定向的,它只使用过去的上下文。然而,在基于图像的序列中,两个方向的上下文是相互有用且互补的。将两个LSTM,一个向前和一个向后组合到一个双向LSTM中。深层结构允许比浅层抽象更高层次的抽象。在循环层的底部,传播差异的序列被连接成映射,将特征映射转换为特征序列的操作进行反转并反馈到卷积层。我们创建一个自定义网络层,作为卷积层和循环层之间的桥梁。
转录层:
转录是将RNN所做的每帧预测转换成标签序列的过程。转录是根据每帧预测找到具有最高概率的标签序列。在集装箱箱号识别过程中,由于集装箱箱号只有阿拉伯数字(0~9)和大写字母(A~Z),故使用基于词典的转录。词典是一组标签序列,预测受拼写检查字典约束,通过选择具有最高概率的标签序列进行预测。在基于字典的模式中,每个测试采样与词典D相关联。基本上,通过选择词典中具有方程1中定义的最高条件概率的序列来识别标签序列,即l*=argmaxl∈Dp(l|y)。我们可以将搜索限制在最近邻候选目标Nδ(l′),其δ是最大编辑距离,l′是在无词典模式下从y转录的序列:
可以使用BK树数据结构有效地找到候选目标Nδ(l′),这是一种专门适用于离散度量空间的度量树。BK树的搜索时间复杂度为O(log|D|),其中|D|是字典大小。
采用以上技术方案,本发明的有益效果是:通过基于深度神经网络的集装箱箱号定位,随之将裁剪后的集装箱号区域使用深度神经网络进行箱号文字识别,相比直接对传统的箱号识别,大大提升了箱号识别的准确性和抗干扰性。能够在含有自然环境干扰较大的图片中快速准确识别集装箱箱号。
附图说明
图1为本发明实施例中集装箱箱号检测流程图。
图2为本发明实施例中集装箱文字定位流程图。
图3为本发明实施例中多通道全卷积网络流程图。
图4为本发明实施例中集装箱箱号识别流程图。
图5为本发明实施例中集装箱箱号识别算法流程图。
图6为本发明实施例集装箱原图示意图。
图7为本发明实施例集装箱箱号定位结果示意图。
图8为本发明实施例集装箱箱号识别结果示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明的基于深度神经网络的集装箱箱号识别方法的过程如图1所示,首先获取集装箱后侧的RGB图像,通过对包含箱号的集装箱图片输入到训练好的字符分割神经网络模型,得到箱号字符分割的图片集。然后对得到的图片集进行透视变换及二值化处理,然后输入到训练好的字符识别深度神经网络中,得到每个文字框中的文字信息。最后将获取到的文字信息进行筛选和组合进而得到准确的集装箱箱号。
下面详细介绍整个系统各个模块的实现方法,输入的集装箱图片如图6所示。
集装箱图片预处理
采用以下公式对获取的RBG图像进行灰度化处理,以减小图像大小,降低系统识别全程颜色对箱号识别的干扰:
Grey=0.3*R+0.59*G+0.11*B,式中R、G和B表示图像三通道数值;
然后对得到的灰度图进行中值滤波,去除噪声干扰。
集装箱文字定位
我们提出了一种用于集装箱箱号定位的创新框架,框架基于全卷积网络(FCN)和非极大值抑制(NMS),框架流程如图2所示。与之前的研究不同,传统的文本检测方法和一些基于深度学习的文本检测方法,大多是multi-stage,在训练时需要对多个stage调优,这势必会影响最终的模型效果,而且非常耗时.针对上述存在的问题,本方法提出了端到端的集装箱文字定位方法,消除中间多个stage(如候选区域聚合,文本分词,后处理等),直接预测集装箱文本行。
图片到多通道全卷积网络部分生成多个像素级文本得分图和几何通道。如图3所示,多通道卷积网络分为特征提取、特征合并、输出三个部分。
首先利用通用网络作为基础层,用于特征提取。然后根据上述特征提取网络,抽取不同级别的特征图。他们的尺寸分别是输出图片的这样可以得到不同尺度的特征图,目的是解决文本尺度变换剧烈的问题,开始阶段可用于预测小的文本行,后面阶段可用于预测大的文本行。然后在合并层中,特征提取网络层中抽取的最后层特征图被最先送入unpool(上池化),将图像放大原先的2倍。然后与前一层的特征图进行串联
具体过程如下:
h1=f1 1/32
g1=unpool(h1) 1/16
h2=conv3×3(conv1×1([g1;f2]))g1 1/16 f2 1/16 h2 1/8
g2==unpool(h2) 1/4
h3=conv3×3(conv1×1([g2;f3]))g2 1/4 f3 1/8 h3 3/8
g3=unpool(h3) 3/4
h4=conv3×3(conv1×1([g3;f4]))g3 3/4 f4 1/4 h4 1
g4=conv3X3(h4)1
注:其中gi是合并基础,hi是合并的要素图,运算符[·;·]表示沿通道轴的连接。在每个合并阶段,首先将来自最后一个阶段的特征映射的反馈送到解析层,使其大小加倍,然后与当前特征映射连接。接下来,conv1×1减少了通道的数量并减少了计算,接着是一个conv3×3,它融合了信息,最终产生了这个合并阶段的输出。在最后一个合并阶段之后,conv3×3层产生合并分支的最终特征图g4并将其馈送到输出层。
输出:
1.得分图:对每个像素进行评分,得分区间0-1
2.RBOX:旋转矩形,五通道,点到四条边距离(四条边顺序固定)及旋转角
3.QUAD:四边形,八通道,点到四个点(x1,y1....x4,y4)8个偏移量
集装箱文字校正
取文字定位模型得到QUAD文字框坐标,以左上点开始,顺时针排列。第i个文字框,其坐标为(Bi_y1,Bi_x1,Bi_y2,Bi-x2,Bi_y3,Bi_x3,Bi_y4,Bi_x4),取x方向和y方向的最值记为Bi_xmin,Bi_xmax,Bi_ymin,Bi_ymin。利用透视变换,将原来的(Bi_y1,Bi_x1,Bi_y2,Bi_x2,Bi_y3,Bi_x3,Bi_y4,Bi_x4)透视变换坐标为(Bi_ymin,Bi_xmin,Bi_ymin,Bi_xmax,Bi_ymax,Bi_xmax,Bi_ymax,Bi_xmin)。这样消除拍摄角度带来的影响,为之后的集装箱箱号识别做准备。
集装箱文字识别
我们提出了一种用于集装箱箱号识别的创新框架,框架基于序列的端到端集装箱文字识别,框架流程如图4所示。首先将含有集装箱箱号的分割图片输入到卷基层中,获取到图像中特征序列。然后在循环层中预测每帧的标签分布,最后在转录层中预测最终的标签序列得到集装箱箱号。具有端对端的特性,不需要单独训练和协调算法。跟传统涉及到集装箱字符分割或者水平尺度归一化不同,其能够处理任意长度的序列。所以对于集装箱的数字部分还是字母部分都有很好的效果。
我们假设输入的图像大小为(32,W,3),其分别为(图像高度,图像宽度,图形通道数),卷基层使用CNN(卷积神经网络)网络,提取输入集装箱图的卷积特征图,把大小为(32,W,3)的图像转换为(1,(W/4),512)大小的卷积特征矩阵。特征图的每一列作为一个时间片输入到LSTM(长短时记忆神经网络)中。设特征图大小为m*T。下文中的时间序列t都从t=1开始,即1≤t≤T。
定义为:
x=(x1,x2,...,xT)
其中的x每一列xt为:
循环网络层是一个深层双向LSTM网络,在卷积特征的基础上继续提取集装箱文字序列特征,使用深层RNN(循环神经网络)网络。由于CNN输出的特征图是(1,(W/4),512)大小,所以对于RNN最大时间长度T=(W/4)(即有W/4个时间输入,每个输入xt列向量有D=512)。LSTM的每一个时间片后接softmax(分类回归)。将RNN输出做softmax后,输出y是一个后验概率矩阵,定义为:
y=(y1,y2,...,yt,...,yT)
其中,y的每一列yt为:
那么LSTM可以表示为:
y=Nω(x)
其中ω代表LSTM的参数。LSTM在输入和输出间做了如下变换:
Nω:(Rm)T→(Rn)T
如果要进行L={a,b,c,...,x,y,z}的26个英文字母字符识别,考虑到有的位置没有字符,定义插入blank的字符合集:
L′=L∪{blank}
其中blank表示当前列对应的图像位置没有字符。
定义变换Β如下:
Β:L′T→L≤T
其中L′是上述加入blank的长度为T的字符集合,经过Β变换后得到原始L,显然对于L的最大长度有|L|≤T。当获得LSTM输出y后进行Β变换,即可获得输出结果。对于LSTM给定输入x的情况下,输出为l的概率为:
其中π∈B-1(l)代表所有经过Β变换后是l的路径π。
其中,对于任意一条路径π有:
上式p(π|x)成立条件是输出y=(y1,y2,...,yt,...,yT)之间没有连接,也没有除了LSTM其他从y到x的反馈连接。只有这样才yi之间才能在条件x下独立。实际情况中一般手工设置T≥20,所以有非常多条π∈B-1(l)路径,即|B-1(l)|非常大,无法逐条求和直接计算p(l|x)所以需要一种有效快速计算方法。这里采用forward-backward(向前—向后)算法来计算p(l|x)。要计算p(l|x),由于有blank的存在,定义路径l′为在路径l每两个元素以及头尾插入blank。那么对于任意的l′i都有l′i∈L′(其中L′=L∪{blank})。显然|l′|=2|l|+1,其中|l|是路径的最大长度。定义所有经Β变换后结果是l且在t时刻结果为lk(记为πk=lk)的路径集合为{π|π∈B-1(l),πk=lk}。
求导:
其中前向递推概率和forwardαt(s):对于一个长度为T的路径π,其中π1∶t代表该路径前t个字符,πt∶T代表后T-t个字符。
其中π∈B(π1∶t)=l1:s表示前t个字符π1:t经过B变换为的l1:s的前半段子路径。αt(s)代表了t时刻经过ls的路径概率中1~t概率之和,即前向递推概率和。
同理反向递推概率和backwardβt(s):
其中π∈B(πt:T)=ls:|l|表示后T-t个字符πt-T经过B变换为的ls:|l|的后半段子路径。βt(s)代表了t时刻经过ls的路径概率中t~T概率之和,即反向递推概率和。那么forward和backward相乘有:
可以得到p(l|x)与forward和backward递推公式之间的关系:
然后做的就是通过梯度调整LSTM的参数ω,使得对于输入样本为π∈B-1(z)时有p(l|x)取得最大。
这样首先CNN提取图像卷积特征,然后LSTM进一步提取图像卷积特征中的序列特征,最后解决训练时字符无法对齐的问题,最终得到集装箱箱号。
获取集装箱箱号
获取集装箱箱号主要是通过文字识别获取的结果来对箱号进行定位。由于集装箱文字中只有集装箱公司名称是4个字母组成。利用这个特征,将所有的集装箱文字矩形框的左上点和右下点左标放在一个列表中,取第i个文字矩形框,记为(Ci_y1,Ci_x1,Ci_y2,Ci_x2)。取其中集装箱文字识别结果为4个字母的。这样其4个字母所在位置则为集装箱箱号所在行位置。设置其左上列坐标为Con_y,在剩余文字框中按照距离左上列坐标与Con_y的差的绝对值来升序排列。取前几个加起来是7个数字,并且保证第七位校验位和之前的4个字母符合集装箱规则。若符合则输出这11位作为集装箱箱号。否则重新拍摄,重新识别。
Claims (8)
1.本发明的技术方案为:
一种基于深度神经网络集装箱箱号检测方法,包括如下步骤:
(1)获取集装箱后侧的RGB图像,通过对包含箱号的集装箱图片输入到训练好的字符分割神经网络模型,得到箱号字符分割的图片集;
(2)对(1)得到的图片集进行透视变换及二值化处理,然后输入到训练好的字符识别深度神经网络中,得到每个文字框中的文字信息;
(3)将获取到的文字信息进行筛选和组合进而得到准确的集装箱箱号。本发明能够快速、准确的得到集装箱箱号,实现更高的识别准确率和识别速率。
2.一种基于深度神经网络集装箱箱号检测方法,其特征是所述方法包括如下步骤:
(1)获取集装箱图片的RGB图像,用过对RGB图像进行灰度化处理,将灰度图输入进训练好的深度神经网络中,得到含有集装箱文字分割框的图片,取文字框的最小外接矩形框来截取含有集装箱箱号的图片集;
(2)对(1)步骤已经得到的集装箱文字图片集按照神经网络得到的外接框进行透视变换,然后对透视变换好的图片进行文字识别;
(3)将(2)步骤中识别好的文字进行组合和筛选,通过后处理得到集装箱箱号。
3.根据权利要求2所述一种基于深度神经网络集装箱箱号检测方法,其特征在于:所述(1)步骤中,
采用以下公式对获取的RBG图像进行灰度化处理,以减小图像大小,提升运算速度,降低系统识别全程颜色对箱号识别的干扰:
Grey=0.3*R+0.59*G+0.11*B,式中R、G和B表示图像三通道数值。
4.根据权利要求2所述一种基于深度神经网络集装箱箱号检测方法,其特征在于:所述(1)步骤中,文字分割模型训练搭建包括有:
对大量的集装箱进行箱号字符分割标注,随机选择出大量图片分为测试集和训练数据集,对所有测试集和训练数据集分别进行统一处理,供深度神经网络训练使用;
搭建深度神经网络模型,将训练集和测试集输入网络进行训练,通过数十万次的参数迭代,使得损失函数值收敛到一个最小值,将收敛时的神经网络模型状态保存,得到一个高精度的字符分割模型。
5.根据权利要求4所述一种基于深度神经网络集装箱箱号检测方法,其特征在于:所述(1)步骤中,
根据外接四边形坐标值,分别求其x,y方向上的最值。取这四个点构成的矩形框,这样得到最小外接矩形框。
6.根据权利要求5所述一种基于深度神经网络集装箱箱号检测方法,其特征在于:所述(2)步骤中,
通过深度模型获得的外接框,做透视变换,使得之后的箱号识别不受到拍照的影响,而将箱号处于水平方向上。
7.根据权利要求6所述一种基于深度神经网络集装箱箱号检测方法,其特征在于:所述(2)步骤中:
收集不同环境下的文本图片作为训练集,本文作为标签。训练得到文本端到端的文本识别模型。把(2)的图像输入进去得到文本信息。
8.根据权利要求7所述一种基于深度神经网络集装箱箱号检测方法,其特征在于:所述(3)步骤中,
后处理包括有:把最长的文字框中的6位数字作为基准,其后面的是校验码。其箱号前面的是字母。通过字母与数字的组合一起即是箱号。对识别的箱号进行校验,校验正确则输出箱号,否则人工输入正确的箱号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910756170.5A CN110852324A (zh) | 2019-08-23 | 2019-08-23 | 一种基于深度神经网络集装箱箱号检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910756170.5A CN110852324A (zh) | 2019-08-23 | 2019-08-23 | 一种基于深度神经网络集装箱箱号检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110852324A true CN110852324A (zh) | 2020-02-28 |
Family
ID=69595459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910756170.5A Pending CN110852324A (zh) | 2019-08-23 | 2019-08-23 | 一种基于深度神经网络集装箱箱号检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852324A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414844A (zh) * | 2020-03-17 | 2020-07-14 | 北京航天自动控制研究所 | 一种基于卷积循环神经网络的集装箱箱号识别方法 |
CN111598316A (zh) * | 2020-05-06 | 2020-08-28 | 深圳大学 | 物体转移装箱过程策略生成方法、装置、计算机设备 |
CN112257830A (zh) * | 2020-10-23 | 2021-01-22 | 上海烟草集团有限责任公司 | 一种烟箱信息识别方法及系统 |
CN113806453A (zh) * | 2021-09-18 | 2021-12-17 | 广东电网有限责任公司 | 调度操作票综合令自动确认方法、装置、终端及介质 |
CN115527209A (zh) * | 2022-09-22 | 2022-12-27 | 宁波港信息通信有限公司 | 用于岸桥箱号识别的方法、装置、系统和计算机设备 |
CN117911668A (zh) * | 2024-03-15 | 2024-04-19 | 深圳市力生视觉智能科技有限公司 | 药品信息识别方法及装置 |
Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005250536A (ja) * | 2004-03-01 | 2005-09-15 | Advanced Telecommunication Research Institute International | 翻訳装置 |
US20070213983A1 (en) * | 2006-03-08 | 2007-09-13 | Microsoft Corporation | Spell checking system including a phonetic speller |
US20090326916A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Unsupervised chinese word segmentation for statistical machine translation |
CN101981566A (zh) * | 2008-03-28 | 2011-02-23 | 微软公司 | 语言内统计机器翻译 |
US20110249897A1 (en) * | 2010-04-08 | 2011-10-13 | University Of Calcutta | Character recognition |
CN106328127A (zh) * | 2015-06-30 | 2017-01-11 | 三星电子株式会社 | 语音识别设备,语音识别方法和电子装置 |
CN106910176A (zh) * | 2017-03-02 | 2017-06-30 | 中科视拓(北京)科技有限公司 | 一种基于深度学习的人脸图像去遮挡方法 |
CN106980620A (zh) * | 2016-01-18 | 2017-07-25 | 阿里巴巴集团控股有限公司 | 一种对中文字串进行匹配的方法及装置 |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
CN108154149A (zh) * | 2017-12-08 | 2018-06-12 | 济南中维世纪科技有限公司 | 基于深度学习网络共享的车牌识别方法 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN108596166A (zh) * | 2018-04-13 | 2018-09-28 | 华南师范大学 | 一种基于卷积神经网络分类的集装箱箱号识别方法 |
CN108734052A (zh) * | 2017-04-13 | 2018-11-02 | 北京旷视科技有限公司 | 文字检测方法、装置和系统 |
CN108898137A (zh) * | 2018-05-25 | 2018-11-27 | 黄凯 | 一种基于深度神经网络的自然图像字符识别方法及系统 |
CN109117848A (zh) * | 2018-09-07 | 2019-01-01 | 泰康保险集团股份有限公司 | 一种文本行字符识别方法、装置、介质和电子设备 |
CN109165643A (zh) * | 2018-08-21 | 2019-01-08 | 浙江工业大学 | 一种基于深度学习的车牌识别方法 |
CN109359481A (zh) * | 2018-10-10 | 2019-02-19 | 南京小安信息科技有限公司 | 一种基于bk树的反碰撞搜索约减方法 |
CN109447069A (zh) * | 2018-10-31 | 2019-03-08 | 沈阳工业大学 | 面向智能终端的车辆信息采集识别方法及系统 |
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN109726657A (zh) * | 2018-12-21 | 2019-05-07 | 万达信息股份有限公司 | 一种深度学习场景文本序列识别方法 |
CN109784283A (zh) * | 2019-01-21 | 2019-05-21 | 陕西师范大学 | 基于场景识别任务下的遥感图像目标提取方法 |
CN109858488A (zh) * | 2018-12-28 | 2019-06-07 | 众安信息技术服务有限公司 | 一种基于样本增强的手写样本识别方法与系统 |
CN110009679A (zh) * | 2019-02-28 | 2019-07-12 | 江南大学 | 一种基于多尺度特征卷积神经网络的目标定位方法 |
CN110059694A (zh) * | 2019-04-19 | 2019-07-26 | 山东大学 | 电力行业复杂场景下的文字数据的智能识别方法 |
CN110119742A (zh) * | 2019-04-25 | 2019-08-13 | 添维信息科技(天津)有限公司 | 一种集装箱号的识别方法、装置及移动终端 |
-
2019
- 2019-08-23 CN CN201910756170.5A patent/CN110852324A/zh active Pending
Patent Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005250536A (ja) * | 2004-03-01 | 2005-09-15 | Advanced Telecommunication Research Institute International | 翻訳装置 |
US20070213983A1 (en) * | 2006-03-08 | 2007-09-13 | Microsoft Corporation | Spell checking system including a phonetic speller |
CN101981566A (zh) * | 2008-03-28 | 2011-02-23 | 微软公司 | 语言内统计机器翻译 |
US20090326916A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Unsupervised chinese word segmentation for statistical machine translation |
US20110249897A1 (en) * | 2010-04-08 | 2011-10-13 | University Of Calcutta | Character recognition |
CN106328127A (zh) * | 2015-06-30 | 2017-01-11 | 三星电子株式会社 | 语音识别设备,语音识别方法和电子装置 |
CN106980620A (zh) * | 2016-01-18 | 2017-07-25 | 阿里巴巴集团控股有限公司 | 一种对中文字串进行匹配的方法及装置 |
CN106910176A (zh) * | 2017-03-02 | 2017-06-30 | 中科视拓(北京)科技有限公司 | 一种基于深度学习的人脸图像去遮挡方法 |
CN108734052A (zh) * | 2017-04-13 | 2018-11-02 | 北京旷视科技有限公司 | 文字检测方法、装置和系统 |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
CN108154149A (zh) * | 2017-12-08 | 2018-06-12 | 济南中维世纪科技有限公司 | 基于深度学习网络共享的车牌识别方法 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN108596166A (zh) * | 2018-04-13 | 2018-09-28 | 华南师范大学 | 一种基于卷积神经网络分类的集装箱箱号识别方法 |
CN108898137A (zh) * | 2018-05-25 | 2018-11-27 | 黄凯 | 一种基于深度神经网络的自然图像字符识别方法及系统 |
CN109165643A (zh) * | 2018-08-21 | 2019-01-08 | 浙江工业大学 | 一种基于深度学习的车牌识别方法 |
CN109117848A (zh) * | 2018-09-07 | 2019-01-01 | 泰康保险集团股份有限公司 | 一种文本行字符识别方法、装置、介质和电子设备 |
CN109359481A (zh) * | 2018-10-10 | 2019-02-19 | 南京小安信息科技有限公司 | 一种基于bk树的反碰撞搜索约减方法 |
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN109447069A (zh) * | 2018-10-31 | 2019-03-08 | 沈阳工业大学 | 面向智能终端的车辆信息采集识别方法及系统 |
CN109726657A (zh) * | 2018-12-21 | 2019-05-07 | 万达信息股份有限公司 | 一种深度学习场景文本序列识别方法 |
CN109858488A (zh) * | 2018-12-28 | 2019-06-07 | 众安信息技术服务有限公司 | 一种基于样本增强的手写样本识别方法与系统 |
CN109784283A (zh) * | 2019-01-21 | 2019-05-21 | 陕西师范大学 | 基于场景识别任务下的遥感图像目标提取方法 |
CN110009679A (zh) * | 2019-02-28 | 2019-07-12 | 江南大学 | 一种基于多尺度特征卷积神经网络的目标定位方法 |
CN110059694A (zh) * | 2019-04-19 | 2019-07-26 | 山东大学 | 电力行业复杂场景下的文字数据的智能识别方法 |
CN110119742A (zh) * | 2019-04-25 | 2019-08-13 | 添维信息科技(天津)有限公司 | 一种集装箱号的识别方法、装置及移动终端 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414844A (zh) * | 2020-03-17 | 2020-07-14 | 北京航天自动控制研究所 | 一种基于卷积循环神经网络的集装箱箱号识别方法 |
CN111414844B (zh) * | 2020-03-17 | 2023-08-29 | 北京航天自动控制研究所 | 一种基于卷积循环神经网络的集装箱箱号识别方法 |
CN111598316A (zh) * | 2020-05-06 | 2020-08-28 | 深圳大学 | 物体转移装箱过程策略生成方法、装置、计算机设备 |
CN111598316B (zh) * | 2020-05-06 | 2023-03-24 | 深圳大学 | 物体转移装箱过程策略生成方法、装置、计算机设备 |
CN112257830A (zh) * | 2020-10-23 | 2021-01-22 | 上海烟草集团有限责任公司 | 一种烟箱信息识别方法及系统 |
CN113806453A (zh) * | 2021-09-18 | 2021-12-17 | 广东电网有限责任公司 | 调度操作票综合令自动确认方法、装置、终端及介质 |
CN115527209A (zh) * | 2022-09-22 | 2022-12-27 | 宁波港信息通信有限公司 | 用于岸桥箱号识别的方法、装置、系统和计算机设备 |
CN117911668A (zh) * | 2024-03-15 | 2024-04-19 | 深圳市力生视觉智能科技有限公司 | 药品信息识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852324A (zh) | 一种基于深度神经网络集装箱箱号检测方法 | |
CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
CN111414906B (zh) | 纸质票据图片的数据合成与文本识别方法 | |
CN109886121B (zh) | 一种遮挡鲁棒的人脸关键点定位方法 | |
US10817741B2 (en) | Word segmentation system, method and device | |
CN110659634A (zh) | 一种基于颜色定位和字符分割的集装箱箱号定位方法 | |
CN110969129B (zh) | 一种端到端税务票据文本检测与识别方法 | |
CN114155527A (zh) | 一种场景文本识别方法和装置 | |
CN110717492B (zh) | 基于联合特征的图纸中字符串方向校正方法 | |
CN105678322A (zh) | 样本标注方法和装置 | |
CN109886978B (zh) | 一种基于深度学习的端到端告警信息识别方法 | |
CN110188762B (zh) | 中英文混合商户门店名称识别方法、系统、设备及介质 | |
CN109145964B (zh) | 一种实现图像颜色聚类的方法和系统 | |
CN111476210A (zh) | 基于图像的文本识别方法、系统、设备及存储介质 | |
Fink et al. | Baseline detection in historical documents using convolutional u-nets | |
CN112883795A (zh) | 一种基于深度神经网络的表格快速自动提取方法 | |
CN111612802B (zh) | 一种基于现有图像语义分割模型的再优化训练方法及应用 | |
CN115082676A (zh) | 一种伪标签模型的训练方法、装置、设备及存储介质 | |
CN110263631B (zh) | 一种手写化学公式识别与配平方法 | |
CN111414938A (zh) | 一种板式换热器内气泡的目标检测方法 | |
CN114387592A (zh) | 一种复杂背景下字符定位和识别方法 | |
CN115116076A (zh) | 一种基于笔画提取的文字识别方法 | |
CN111274863A (zh) | 一种基于文本山峰概率密度的文本预测方法 | |
CN111814801B (zh) | 一种机械图中标注串的提取方法 | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200228 |