CN110659634A - 一种基于颜色定位和字符分割的集装箱箱号定位方法 - Google Patents
一种基于颜色定位和字符分割的集装箱箱号定位方法 Download PDFInfo
- Publication number
- CN110659634A CN110659634A CN201910777369.6A CN201910777369A CN110659634A CN 110659634 A CN110659634 A CN 110659634A CN 201910777369 A CN201910777369 A CN 201910777369A CN 110659634 A CN110659634 A CN 110659634A
- Authority
- CN
- China
- Prior art keywords
- container
- positioning
- container number
- character
- color
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000011218 segmentation Effects 0.000 title claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000003062 neural network model Methods 0.000 claims abstract description 4
- 238000001514 detection method Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 6
- 230000005484 gravity Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims 3
- 240000004282 Grewia occidentalis Species 0.000 claims 1
- 238000002372 labelling Methods 0.000 claims 1
- 230000000873 masking effect Effects 0.000 claims 1
- 230000000877 morphologic effect Effects 0.000 claims 1
- 238000007781 pre-processing Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 10
- 238000000605 extraction Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000003708 edge detection Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003628 erosive effect Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000004185 liver Anatomy 0.000 description 2
- 235000015277 pork Nutrition 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明是一种公开的图像处理技术领域的结合传统图像处理和深度神经网络的基于颜色粗定位及神经网络精确定位的集装箱箱号定位方法,其包括有以下步骤:S1、获取集装箱后侧的RGB图像;S2、图像预处理;S3、通过颜色信息筛选得到对集装箱箱号的粗定位,获取装箱箱号的粗略位置,并输出第一图像集;S4、通过对包含箱号的第一图像集输入到训练好的字符分割神经网络模型,得到箱号字符分割的图片集。S5、基于箱号的位置信息,形状特征,如长宽比,宽度,高度及箱号的四位字母,六位数字,一位校验码的位置关系定位箱号位置或通过识别获取文本信息,将获取到的文字信息进行筛选得到准确的集装箱箱号位置。本发明运用颜色信息做初步定位,利用字符分割模型做精细定位,通过最后的筛选获得箱号精准位置,能够准确、快速、自适应地定位各种集装箱箱号。
Description
技术领域
本发明涉及一种图像处理技术,具体涉及一种基于颜色定位和字符分割的集装箱箱号定位方法,适用于集装箱箱号智能识别系统的箱号定位与提取。
背景技术
集装箱箱号作为每个集装箱的识别码,能够方便对集装箱的管理和分配。而现阶段多数的码头,港口,海关和仓库都使用操作员去记录这些箱号,然后输入到电脑中,这不仅浪费了大量时间与人力而且也会由于操作员的各种疏忽导致记录错误。集装箱箱号自动识别也越来越受到人们的重视。
对于集装箱的箱号识别通常分为集装箱图片的预处理、集装箱箱号区域定位、集装箱箱号字符识别等环节。其中集装箱箱号定位处于中间重要阶段。目前集装箱箱号定位容易受到堆场等地其他集装箱或者自然环境影响,导致箱号定位错误或者定位偏差。而箱号定位一旦出现问题后续步骤识别也难以实现,出现识别失败或者识别错误的情况。
在现有技术中,由于深度学习在自然环境下文字检测技术取得重大突破。使用较好的文本检测深度神经网络在全图范围搜索检测文本区域,也能起到对图片中的文字进行提取的作用,其中就包含了箱号文本信息。但这样会严重加长运行时间,使检测效率大大降低,并且在较小文本的定位效果会变差,出现小文本检测不到以及定位不准确的情况。
因此有使用用户交互的方式进行手动粗定位的方式,这种方案仍然存在效率低、非全自动化的特点。有人提出基于目标检测的深度神经网络的粗定位,将粗定位文字区域视为目标检测的任务,手动标准粗定位样本,训练一个粗定位网络,再对粗定位结果使用精确文本定位网络进行检测。这样相当于多了一个用于粗定位的深度网络框架,也会影响运行效率。所以有研究指出使用传统图像处理的方法,基于形态学快速粗定位。对采集的集装箱图像进行预处理得到二值化图像,运用数学形态学的方法将集装箱二值图像分割为多个独立的连通区域;根据集装箱箱号区域面积的变化范围,去除较小的区域与较大的区域,标记剩下的区域;根据箱号区域的形状特性对箱号快速定位。这种方法仅通过大小等基本特征,在集装箱尾部多文字,多干扰的情况下无法适用。
深度神经网络文字精确定位的效果远优于传统的方法,但基于神经网络模型的算法在全图中的效率和准确度不如在目标文字区域,现有的集装箱箱号文字目标区域初定位算法有使用交互的方式缺乏自动化效果、也有使用把文字识别当做目标检测的神经网络算法,能起到较好的效果,但网络模型会使整体运算量加大,效率降低、还有使用传统图像处理的快速定位算法,有基于形态学的初定位方法,但该算法不适于在箱尾较复杂的文字区域,存在噪声的情况下。
发明内容
本发明针对以上现有技术的缺点,提出一个快速高精度的基于颜色的集装箱箱号识别系统,来解决深度学习网络在全局定位箱号文字信息低效率,高误检率的问题。使用图像颜色加梯度信息对文字区域进行快速鲁棒的粗定位,得到包含目标文字区域的一个较小的图像感兴趣区域。再将该粗定位的结果送入一个针对集装箱环境和箱号文字优化训练的深度文本检测网络进行文字识别。使用这种由粗到精的文本定位算法框架,加快深度网络对文字区域定位的速度以及提高检测准确率的目标。
本发明是通过以下技术方案来实现的:
首先,本发明使用的整体框架是,先提出算法对集装箱号信息进行由粗到精的定位,最后利用文本识别网络检测箱号信息,提高集装箱箱号这种较小文字的识别效率和准确度。
(1)本发明提出的基于颜色信息的集装箱箱号粗定位方法利用了集装箱号为白色的特点,但并非仅指对于白色字体这一种颜色,对于任意颜色的字体只要是使用基于颜色信息的方法,都受到该专利的保护。同时使用基于密度聚类对候选文字区域进行箱号区域粗定位。
所指的基于颜色集装箱号的粗定位方法是指:
通过使用不同颜色空间,如RGB、HSV颜色空间模型的信息筛选区域,如筛选出集装箱箱号白色文字区域。
随后用边缘检测算子进行与运算得到有白色边缘的区域,用Sobel算子边缘查找算法提取边缘,采用的横向检测因子g1=[-1-1-1;000;111]和竖向检测因子g2=[-101;-101;-101],计算公式如下:
对边缘检测后的图像进行二值化。
再将边缘二值图与白色区域二值图进行与运算,结果图像为white_edge,有如下计算公式
得到结果表示该处存在边缘响应,且边缘的一侧是白色区域,这里面就包含了白色文字区域的边缘。再将该图使用矩形结构元素闭运算用白色边缘填充白色文字候选区域。
对白色区域针对文字特征进行预筛选,获取白色候选区域的外接矩形,根据矩形长宽比,过滤掉非文本区域特征的白色文字区域。
基于图片中文字信息最为密集的区域为箱号信息这一特征,对筛选后的白色边框区域进行基于密度的聚类,得到最大类簇,以此为依据确定箱号的粗定位结果。实现的方法为闭运算后图中的白色连通域提取其重心代表该区域的位置设定好聚类的密度半径∈和最小包含点数MinPts,进行聚类。
所述的对白色文字候选区域聚类算法是指:
算法有如下定义:
Eps邻域:给定对象半径Eps内的邻域称为该对象的Eps邻域,用表示点p 的Eps-半径内的点的集合,即:
NEps(p)={q|q在数据集D中,distance(p,q)≤Eps}
核心对象:如果对象的Eps邻域至少包含最小数目MinPts的对象,则称该对象为核心对象。
边界点:边界点不是核心点,但落在某个核心点的邻域内。
噪音点:既不是核心点,也不是边界点的任何点
算法输出:最大簇,包含集装箱文字信息区域的最大簇。
具体步骤
1、根据∈邻域和密度阈值MinPts,遍历所有点,判断一个点是核心点、边界点或者离群点。并将离群点删除。
2、如果核心点之间的距离小于MinPts,就将两个核心点连接在一起。这样就形成了若干组簇。
3、将边界点分配到距离它最近的核心点范围内。
4、形成最终的聚类结果。
5、最终得到的最大聚类群就是文字候选区域,通过最小外接矩形算法提取包含所有文字块的区域的粗定位结果。
选择最大类簇,也就是文字出现密集的区域,现在通过该区域来获取文字粗定位区域。即遍历该区域的所有文字矩形框像素,找到在x,y方向上的最大值、最小值(xmin,ymin,xmax,ymax);以该顶点为基础,以中心放大1.25倍作为最终集装箱文字粗定位候选框,以确保包含所有文本。
(2)本发明对粗定位的结果使用基于深度神经网络的精确文本定位
所述的精确定位的深度学习框架是指:
我们提出了一种用于集装箱箱号定位的创新框架,框架基于全卷积网络(FCN) 和非极大值抑制(NMS),框架流程如图6所示。与之前的研究不同,传统的文本检测方法和一些基于深度学习的文本检测方法,大多是multi-stage(多阶段),在训练时需要对多个stage(阶段)调优,这势必会影响最终的模型效果,而且非常耗时.针对上述存在的问题,本方法提出了端到端的集装箱文字定位方法,消除中间多个stage(如候选区域聚合,文本分词,后处理等),直接预测集装箱文本行。
图片到多通道全卷积网络部分生成多个像素级文本得分图和几何通道。如图 7所示,多通道卷积网络分为特征提取、特征合并、输出三个部分。
首先利用通用网络作为基础层,用于特征提取。然后根据上述猪肝特征提取网络,抽取不同级别的特征图。他们的尺寸分别是输出图片的这样可以得到不同尺度的特征图,目的是解决文本尺度变换剧烈的问题,开始阶段可用于预测小的文本行,后面阶段可用于预测大的文本行。
然后在合并层中,特征提取网络层中抽取的最后层特征图被最先送入unpool (上池化),将图像放大原先的2倍。然后与前一层的特征图进行串联
具体过程如下:
h1=f11/32
g1=unpool(h1)1/16
h2=conv3×3(conv1×1([g1;f2]))g11/16f21/16h21/8
g2==unpool(h2)1/4
h3=conv3×3(conv1×1([g2;f3]))g21/4f31/8h33/8
g3=unpool(h3)3/4
h4=conv3×3(conv1×1([g3;f4]))g33/4f41/4h41
g4=conv3X3(h4)1
注:原文-其中gi是合并基础,hi是合并的要素图,运算符[·;·]表示沿通道轴的连接。在每个合并阶段,首先将来自最后一个阶段的特征映射的反馈送到解析层,使其大小加倍,然后与当前特征映射连接。接下来,conv1×1瓶颈[8] 减少了通道的数量并减少了计算,接着是一个conv3×3,它融合了信息,最终产生了这个合并阶段的输出。在最后一个合并阶段之后,conv3×3层产生合并分支的最终特征图g4并将其馈送到输出层。
输出:
1、得分图:对每个像素进行评分,得分区间0-1
2、RBOX:旋转矩形,五通道,点到四条边距离(四条边顺序固定)及旋转角
3、QUAD:四边形,八通道,点到四个点(x1,y1....x4,y4)8个偏移量
同时对集装箱文字校正,以获得平直的文本送入最后的检测环节。
该文本透视变换校正指的是:
取文字定位模型得到QUAD文字框坐标,以左上点开始,顺时针排列。第i 个文字框,其坐标为(Bi_y1,Bi_x1,Bi_y2,Bi_x2,Bi_y3,Bi_x3,Bi_y4,Bi_x4),取x方向和 y方向的最值记为Bi_xmin,Bi_xmax,Bi_ymin,Bi_ymin。利用透视变换,将原来的 (Bi_y1,Bi_x1,Bi_y2,Bi_x2,Bi_y3,Bi_x3,Bi_y4,Bi_x4)透视变换坐标为 (Bi_ymin,Bi_xmin,Bi_ymin,Bi_xmax,Bi_ymax,Bi_xmax,Bi_ymax,Bi_xmin)。这样消除拍摄角度带来的影响,为之后的集装箱箱号识别做准备。
采用以上技术方案,本发明的有益效果是:通过基于颜色信息结合边缘信息的箱号文字区域快速准确的粗定位,随之将裁剪后的集装箱号区域使用深度神经网络进行精确定位,相比直接对传统的全高分辨率图使用深度网络进行定位,大大提高了检测的速度和效率,以及精定位的准确度,即直接使用精定位网络在原图上检测的召回率和位置的准确率要小于在粗定位的图片上的效果,能够快速稳定的得到集装箱文字识别结果。
附图说明
图1输入的集装箱图像
图2基于颜色的集装箱箱号由粗到精的文本定位及精确文本检测流程
图3基于颜色的集装箱箱号信息粗定位方法
图4过滤后的白色候选区域
图5集装箱箱号粗定位效果
图6集装箱文字定位流程图
图7多通道全卷积网络流程图
图8在基于颜色的粗定位区域中进行文字区域精确定位的结果
图9集装箱箱号识别流程图
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明的基于颜色的集装箱箱号由粗到精的文本定位和识别过程如图所示,首先对图片进行平滑和颜色空间转换预处理,再基于颜色和边缘信息提取文字候选区域,对候选区域进行过滤后,利用箱号文字区域聚集的特征,使用基于密度聚类的方法得到最大类簇作为文本区域。然后选择包围该区域的外接框作为粗定位结果。有了粗定位结果,根据之前的分析,深度神经网络在对小区域而不是高清全图会有更高的效率和更好的识别效果,使用本文提出的专门针对集装箱文字标注训练的集装箱文字精定位网络,高效准确的定位出集装箱箱号文字精确位置,最终输入一个文本检测网络进行文字识别。算法流程如图2。
下面详细介绍整个系统各个模块的实现方法,首先输入的图像如图1。本例程以白色箱号字体为例,来说明我们基于颜色的粗定位方法,但本方法适用于各种颜色的集装箱号。
2.1图像预处理
1、首先将图像转换为HSV图像模型(色调、饱和度、明度模型),H、S、 V为色调、饱和度、明度分量。
R′=R/255
G′=G/255
B′=B/255
Cmax=max(R′,G′,B′)
Cmin=min(R′,G′,B′)
Δ=Cmax-Cmin
2、再使用灰度转换公式将原图转为灰度图像,式中R、G和B表示图像三通道数值
gray(i,j)=0.11*r(i,j)+0.59*g(i,j)+0.3*b(i,j)
2.2文字候选区域提取:
如图3所示,我们提出一种基于颜色的集装箱文字粗定位方法,详细阐述如下:
1、根据HSV颜色空间的饱和度和明度信息以及RGB颜色空间的红绿蓝分量信息,按如下公式筛选出图像中的白色区域,其中包含白色文字区域,也包含其它背景白色区域和白色图标区域。filter表示筛选出的白色区域。
这样得到了全图中的白色区域,得到每个点表示是否为白色区域的二值图像。
2、在灰度图像gray上使用Sobel边缘检测算子提取边缘。利用Sobel算子边缘查找算法提取边缘,采用的横向检测因子g1=[-1-1- 1;000;111]和竖向检测因子g2=[-101;-101;-101],主要计算公式如下:
3、对边缘检测后的图像进行二值化。
4、再将边缘二值图与白色区域二值图进行与运算,结果图像为white_edge,有如下计算公式
5、得到结果表示该处存在边缘响应,且边缘的一侧是白色区域,这里面就包含了白色文字区域的边缘。再将该图使用矩形结构元素闭运算用白色边缘填充白色区域。
再通过开运算断开细小连接,使每个区域独立为一个连通域,开运算公式为
2.3文字候选区过滤
在观察大量实际集装箱图片后,发现箱门一般都会有四根高亮度金属杆,以及箱门中会有其他白色图标等噪声,因此需要对其进行判断和过滤。
对闭运算后的白色区域二值图进行一次过滤掉非文本,过滤掉集装箱门杆干扰,通过Hough变换提取直线,在找到响应最高的几条直线之后,判断这个直线是不是近似垂直,即判断直线与x轴夹角是不是为45°-135°区间。再判断离这个直线较近的点的数量大小,若离这根线较近的点大于设定阈值,判断其为门杆,将这些点过滤。
同时过滤掉长宽比不合适的候选区域,文本区域通常要长大于宽,为了增加可靠性,滤除外接矩形的横长/纵宽小于0.7的区域。剩下的白色区域中文本区域的比例又提高了。
经过基于颜色的文字候选区域提取及筛选后的白色文字候选区域如图4。
2.4基于密度聚类的集装箱文字信息区域的粗定位
在通过颜色信息得到所有有边缘的白色区域并经过过滤筛选之后。需要找到集装箱信息的文字区域块。
根据集装箱文字信息的特征,使用基于密度的聚类算法找到图中密集的白色边缘区域。步骤如下,对闭运算后图中的白色连通域提取其重心代表该区域的位置对图像坐标系中的所有白色区域重心{(x,y)}使用基于密度的算法进行聚类,设定好聚类的密度半径∈和最小包含点数MinPts,进行聚类,对白色文字候选区域聚类的步骤如下。
算法有如下定义:
Eps邻域:给定对象半径Eps内的邻域称为该对象的Eps邻域,用表示点p 的Eps-半径内的点的集合,即:
NEps(p)={q|q在数据集D中,distance(p,q)≤Eps}
核心对象:如果对象的Eps邻域至少包含最小数目MinPts的对象,则称该对象为核心对象。
边界点:边界点不是核心点,但落在某个核心点的邻域内。
噪音点:既不是核心点,也不是边界点的任何点
算法输入:样本集D={(xi,yi)},邻域参数(∈,MinPts),样本距离度量方式选择为欧式距离
算法输出:最大簇,包含集装箱文字信息区域的最大簇。
具体步骤:
1、根据∈邻域和密度阈值MinPts,遍历所有点,判断一个点是核心点、边界点或者离群点。并将离群点删除。
2、如果核心点之间的距离小于MinPts,就将两个核心点连接在一起。这样就形成了若干组簇。
3、将边界点分配到距离它最近的核心点范围内。
4、形成最终的聚类结果。
5、最终得到的最大聚类群就是文字候选区域,通过最小外接矩形算法提取包含所有文字块的区域的粗定位结果。
选择最大类簇,也就是文字出现密集的区域,现在通过该区域来获取文字粗定位区域。即遍历该区域的所有文字矩形框像素,找到在x,y方向上的最大值、最小值(xmin,ymin,xmax,ymax);以该顶点为基础,以中心放大1.25倍作为最终集装箱文字粗定位候选框,以确保包含所有文本,如图5是粗定位出的集装箱信息区域。
2.5粗定位文字区域文字精确定位:
使用文本检测深度学习网络对粗定位裁剪出的原图中的集装箱目标文字信息区域进行精确的箱号定位。
1、集装箱文字精确定位
我们提出了一种用于集装箱箱号定位的创新框架,框架基于全卷积网络 (FCN)和非极大值抑制(NMS),框架流程如图6所示。与之前的研究不同,传统的文本检测方法和一些基于深度学习的文本检测方法,大多是multi-stage(多阶段),在训练时需要对多个stage(阶段)调优,这势必会影响最终的模型效果,而且非常耗时.
针对上述存在的问题,本方法提出了端到端的集装箱文字定位方法,消除中间多个stage(如候选区域聚合,文本分词,后处理等),直接预测集装箱文本行。
图片到多通道全卷积网络部分生成多个像素级文本得分图和几何通道。如图 7所示,多通道卷积网络分为特征提取、特征合并、输出三个部分。
首先利用通用网络作为基础层,用于特征提取。然后根据上述猪肝特征提取网络,抽取不同级别的特征图。他们的尺寸分别是输出图片的这样可以得到不同尺度的特征图,目的是解决文本尺度变换剧烈的问题,开始阶段可用于预测小的文本行,后面阶段可用于预测大的文本行。
然后在合并层中,特征提取网络层中抽取的最后层特征图被最先送入unpool (上池化),将图像放大原先的2倍。然后与前一层的特征图进行串联
具体过程如下:
h1=f11/32
g1=unpool(h1)1/16
h2=conv3×3(conv1×1([g1;f2]))g11/16f21/16h21/8
g2==unpool(h2)1/4
h3=conv3×3(conv1×1([g2;f3]))g21/4f31/8h33/8
g3=unpool(h3)3/4
h4=conv3×3(conv1×1([g3;f4]))g33/4f41/4h41
g4=conv3X3(h4)1
注:原文-其中gi是合并基础,hi是合并的要素图,运算符[·;·]表示沿通道轴的连接。在每个合并阶段,首先将来自最后一个阶段的特征映射的反馈送到解析层,使其大小加倍,然后与当前特征映射连接。接下来,conv1×1瓶颈[8] 减少了通道的数量并减少了计算,接着是一个conv3×3,它融合了信息,最终产生了这个合并阶段的输出。在最后一个合并阶段之后,conv3×3层产生合并分支的最终特征图g4并将其馈送到输出层。
输出:
1、得分图:对每个像素进行评分,得分区间0-1
2、RBOX:旋转矩形,五通道,点到四条边距离(四条边顺序固定)及旋转角
3、QUAD:四边形,八通道,点到四个点(x1,y1....x4,y4)8个偏移量
2、集装箱文字校正
取文字定位模型得到QUAD文字框坐标,以左上点开始,顺时针排列。第i个文字框,其坐标为(Bi_y1,Bi_x1,Bi_y2,Bi_x2,Bi_y3,Bi_x3,Bi_y4,Bi_x4),取x方向和 y方向的最值记为Bi_xmin,Bi_xmax,Bi_ymin,Bi_ymin。利用透视变换,将原来的 (Bi_y1,Bi_x1,Bi_y2,Bi_x2,Bi_y3,Bi_x3,Bi_y4,Bi_x4)透视变换坐标为 (Bi_ymin,Bi_xmin,Bi_ymin,Bi_xmax,Bi_ymax,Bi_xmax,Bi_ymax,Bi_xmin)。这样消除拍摄角度带来的影响,为之后的集装箱箱号识别做准备。
精确定位的效果图如图8。
2.5集装箱文字精确定位后识别:
1、集装箱文字识别
我们提出了一种用于集装箱箱号识别的创新框架,框架基于序列的端到端集装箱文字识别,框架流程如图9所示。首先将含有集装箱箱号的分割图片输入到卷基层中,获取到图像中特征序列。然后在循环层中预测每帧的标签分布,最后在转录层中预测最终的标签序列得到集装箱箱号。具有端对端的特性,不需要单独训练和协调算法。跟传统涉及到集装箱字符分割或者水平尺度归一化不同,其能够处理任意长度的序列。所以对于集装箱的数字部分还是字母部分都有很好的效果。
卷积层:
集装箱字符检测的卷积层是由标准的CNN模型中的卷积层和最大池化层组成,自动提取出输入图像的特征序列。
与普通CNN网络不同的是,CRNN在训练之前,先把输入图像缩放到相同高度(图像宽度维持原样),论文中使用的高度值是32。
提取的特征序列中的向量是从特征图上从左到右按照顺序生成的,每个特征向量表示了图像上一定宽度上的特征,论文中使用的这个宽度是1,就是单个像素。
循环网络层
集装箱字符检测的循环网络层是一个深层双向LSTM网络,在卷积特征的基础上继续提取文字序列特征。
2、获取集装箱箱号
获取集装箱箱号主要是通过文字识别获取的结果来对箱号进行定位。由于集装箱文字中只有集装箱公司名称是4个字母组成。利用这个特征,将所有的集装箱文字矩形框的左上点和右下点左标放在一个列表中,取第i个文字矩形框,记为(Ci_y1,Ci_x1,Ci_y2,Ci_x2)。取其中集装箱文字识别结果为4个字母的。这样其4个字母所在位置则为集装箱箱号所在行位置。设置其左上列坐标为Con_y,在剩余文字框中按照距离左上列坐标与Con_y的差的绝对值来升序排列。取前几个加起来是7个数字,并且保证第七位校验位和之前的4个字母符合集装箱规则。若符合则输出这11位作为集装箱箱号。否则重新拍摄,重新识别。
通过上文的集装箱文本粗定位方法,结合提出的精准文本检测网络,就可以实现高效准确地集装箱箱号信息检测。
通过以上实施例可以看出,本发明提出一种基于颜色信息的集装箱号粗定位算法,结合了集装箱号字体的颜色信息以及图像的边缘信息,在通过筛选后,基于集装箱号文字密集的特征,使用密度聚类算法能够准确的得到集装箱号粗定位结果。再送入箱号文字精确定位深度神经网络,相比不进行粗定位直接对原图进行箱号识别,文本精确定位的效率和准确率都得到了很大的提升。进而在最终的文本识别网络稳定准确的得到了箱号识别结果。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (5)
1.一种基于颜色定位和字符分割的集装箱箱号定位方法,其特征在于包括如下步骤:
步骤(一)获取集装箱彩色图像。
步骤(二)通过颜色信息对箱号进行粗定位:根据箱号颜色设定色彩空间各分量的阈值,根据阈值设定对图像进行掩模操作,同时结合边缘信息得到候选区域,对候选区域做形态学闭操作,并对其求取轮廓及重心,过滤掉不符合文字区域特征的连通域,对剩下的文字候选区进行按密度聚类得到最大类为集装箱号文字区域集合,对区域集合求小外接矩形,裁剪获得的矩形得到第一批经过粗定位图像集及图像集对应四角坐标。
步骤(三)将步骤(二)获得的图像集输入进训练好的深度神经网络中,得到含有集装箱文字分割框的图片,取文字框的最小外接矩形框来截取含有集装箱箱号的图片集,并获取对应矩形框坐标。
步骤(四)获取集装箱箱号精确位置:基于箱号的位置信息,形状特征,如长宽比,宽度,高度及箱号的四位字母,六位数字,一位校验码的位置关系定位箱号位置或通过识别步骤(三)图片集的文本信息,将获取到的文字信息进行筛选得到准确的集装箱箱号位置。
2.根据权利要求1所述的一种基于颜色和深度神经网络集装箱箱号检测方法,其特征在于:所述S2步骤中,色彩空间包括RGB、HSV、HSI、CMYK、HSL、HSB、XYZ、Lab、YUV。同时结合边缘信息来判断文字候选区域。
3.根据权利要求1所述的一种基于颜色和深度神经网络集装箱箱号检测方法,其特征在于:所述S2步骤中,使用基于密度聚类的方法得到集装箱号文字密集区。
4.根据权利要求1所述一种基于颜色和深度神经网络集装箱箱号检测方法,其特征在于:所述S3步骤中,文字分割模型训练搭建包括有:
对大量的集装箱进行箱号字符分割标注,随机选择出大量图片分为测试集和训练数据集,对所有测试集和训练数据集分别进行统一处理,供深度神经网络训练使用;
搭建深度神经网络模型,将训练集和测试集输入网络进行训练,通过数十万次的参数迭代,使得损失函数值收敛到一个最小值,将收敛时的神经网络模型状态保存,得到一个高精度的字符分割模型。
5.根据权利要求1所述一种基于颜色和深度神经网络集装箱箱号检测方法,其特征在于:所述S3步骤中,根据外接四边形坐标值,分别求其x,y方向上的最值;取这四个点构成的矩形框,这样得到最小外接矩形框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910777369.6A CN110659634A (zh) | 2019-08-23 | 2019-08-23 | 一种基于颜色定位和字符分割的集装箱箱号定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910777369.6A CN110659634A (zh) | 2019-08-23 | 2019-08-23 | 一种基于颜色定位和字符分割的集装箱箱号定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110659634A true CN110659634A (zh) | 2020-01-07 |
Family
ID=69037710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910777369.6A Pending CN110659634A (zh) | 2019-08-23 | 2019-08-23 | 一种基于颜色定位和字符分割的集装箱箱号定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110659634A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291748A (zh) * | 2020-01-15 | 2020-06-16 | 广州玖峰信息科技有限公司 | 一种级联分布式的人工智能箱号识别系统 |
CN111414844A (zh) * | 2020-03-17 | 2020-07-14 | 北京航天自动控制研究所 | 一种基于卷积循环神经网络的集装箱箱号识别方法 |
CN111563500A (zh) * | 2020-04-10 | 2020-08-21 | 福建电子口岸股份有限公司 | 一种箱号识别方法和装置 |
CN111832497A (zh) * | 2020-07-17 | 2020-10-27 | 西南大学 | 一种基于几何特征的文本检测后处理方法 |
CN112201118A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种逻辑板识别方法、装置及终端设备 |
CN112257629A (zh) * | 2020-10-29 | 2021-01-22 | 广联达科技股份有限公司 | 一种建筑图纸的文本信息识别方法及装置 |
CN112257830A (zh) * | 2020-10-23 | 2021-01-22 | 上海烟草集团有限责任公司 | 一种烟箱信息识别方法及系统 |
CN112926590A (zh) * | 2021-03-18 | 2021-06-08 | 上海晨兴希姆通电子科技有限公司 | 线缆上字符的分割识别方法及其系统 |
CN114219842A (zh) * | 2021-12-14 | 2022-03-22 | 东南大学 | 港口集装箱自动装卸作业中的视觉识别、测距与定位方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102226907A (zh) * | 2011-05-24 | 2011-10-26 | 武汉嘉业恒科技有限公司 | 基于多特征的车牌定位方法及装置 |
CN107609555A (zh) * | 2017-09-15 | 2018-01-19 | 北京文安智能技术股份有限公司 | 车牌检测方法、应用其的车型识别方法及相关装置 |
CN109190625A (zh) * | 2018-07-06 | 2019-01-11 | 同济大学 | 一种大角度透视变形的集装箱箱号识别方法 |
CN109941885A (zh) * | 2019-03-07 | 2019-06-28 | 无锡顶视科技有限公司 | 一种基于伸缩臂的集装箱箱号抓拍和识别装置及其方法 |
CN110119742A (zh) * | 2019-04-25 | 2019-08-13 | 添维信息科技(天津)有限公司 | 一种集装箱号的识别方法、装置及移动终端 |
-
2019
- 2019-08-23 CN CN201910777369.6A patent/CN110659634A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102226907A (zh) * | 2011-05-24 | 2011-10-26 | 武汉嘉业恒科技有限公司 | 基于多特征的车牌定位方法及装置 |
CN107609555A (zh) * | 2017-09-15 | 2018-01-19 | 北京文安智能技术股份有限公司 | 车牌检测方法、应用其的车型识别方法及相关装置 |
CN109190625A (zh) * | 2018-07-06 | 2019-01-11 | 同济大学 | 一种大角度透视变形的集装箱箱号识别方法 |
CN109941885A (zh) * | 2019-03-07 | 2019-06-28 | 无锡顶视科技有限公司 | 一种基于伸缩臂的集装箱箱号抓拍和识别装置及其方法 |
CN110119742A (zh) * | 2019-04-25 | 2019-08-13 | 添维信息科技(天津)有限公司 | 一种集装箱号的识别方法、装置及移动终端 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291748B (zh) * | 2020-01-15 | 2020-12-11 | 广州玖峰信息科技有限公司 | 一种级联分布式的人工智能箱号识别系统 |
CN111291748A (zh) * | 2020-01-15 | 2020-06-16 | 广州玖峰信息科技有限公司 | 一种级联分布式的人工智能箱号识别系统 |
CN111414844A (zh) * | 2020-03-17 | 2020-07-14 | 北京航天自动控制研究所 | 一种基于卷积循环神经网络的集装箱箱号识别方法 |
CN111414844B (zh) * | 2020-03-17 | 2023-08-29 | 北京航天自动控制研究所 | 一种基于卷积循环神经网络的集装箱箱号识别方法 |
CN111563500A (zh) * | 2020-04-10 | 2020-08-21 | 福建电子口岸股份有限公司 | 一种箱号识别方法和装置 |
CN111832497B (zh) * | 2020-07-17 | 2022-06-28 | 西南大学 | 一种基于几何特征的文本检测后处理方法 |
CN111832497A (zh) * | 2020-07-17 | 2020-10-27 | 西南大学 | 一种基于几何特征的文本检测后处理方法 |
CN112201118A (zh) * | 2020-09-29 | 2021-01-08 | 深圳市优必选科技股份有限公司 | 一种逻辑板识别方法、装置及终端设备 |
CN112201118B (zh) * | 2020-09-29 | 2022-08-05 | 深圳市优必选科技股份有限公司 | 一种逻辑板识别方法、装置及终端设备 |
CN112257830A (zh) * | 2020-10-23 | 2021-01-22 | 上海烟草集团有限责任公司 | 一种烟箱信息识别方法及系统 |
CN112257629A (zh) * | 2020-10-29 | 2021-01-22 | 广联达科技股份有限公司 | 一种建筑图纸的文本信息识别方法及装置 |
CN112926590A (zh) * | 2021-03-18 | 2021-06-08 | 上海晨兴希姆通电子科技有限公司 | 线缆上字符的分割识别方法及其系统 |
CN112926590B (zh) * | 2021-03-18 | 2023-12-01 | 上海晨兴希姆通电子科技有限公司 | 线缆上字符的分割识别方法及其系统 |
CN114219842A (zh) * | 2021-12-14 | 2022-03-22 | 东南大学 | 港口集装箱自动装卸作业中的视觉识别、测距与定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110659634A (zh) | 一种基于颜色定位和字符分割的集装箱箱号定位方法 | |
CN108416377B (zh) | 柱状图中的信息提取方法及装置 | |
JP3748172B2 (ja) | 画像処理装置 | |
CN105701519A (zh) | 基于超像素的图像的实际货架图景象分析 | |
CN110852324A (zh) | 一种基于深度神经网络集装箱箱号检测方法 | |
CN111666938A (zh) | 一种基于深度学习的两地双车牌检测识别方法及系统 | |
CN113673541B (zh) | 一种用于目标检测的图像样本生成方法及应用 | |
CN110569774B (zh) | 基于图像处理与模式识别的折线图图像自动数字化方法 | |
CN113095267B (zh) | 统计图的数据提取方法、电子设备和存储介质 | |
CN110114781B (zh) | 用于检测和识别远程高密度视觉标记的方法 | |
CN113435240A (zh) | 一种端到端的表格检测和结构识别方法及系统 | |
CN112102250B (zh) | 训练数据为缺失标注的病理图像检测模型建立、检测方法 | |
CN111027538A (zh) | 一种基于实例分割模型的集装箱检测方法 | |
JP4149464B2 (ja) | 画像処理装置 | |
CN110634142B (zh) | 一种复杂车路图像边界优化方法 | |
CN116824608A (zh) | 基于目标检测技术的答题卡版面分析方法 | |
CN113392819B (zh) | 一种批量化学术图像自动分割标注装置和方法 | |
CN111626145A (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
JPH05181411A (ja) | 地図情報照合更新方式 | |
CN111814801B (zh) | 一种机械图中标注串的提取方法 | |
CN111738310B (zh) | 物料分类方法、装置、电子设备和存储介质 | |
CN113657225A (zh) | 一种目标检测方法 | |
CN113033559A (zh) | 一种基于目标检测的文本检测方法及装置、存储介质 | |
CN115410184A (zh) | 一种基于深度神经网络的目标检测车牌识别方法 | |
CN114820681A (zh) | 一种基于rgb相机的库位检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200107 |