CN112633277B - 基于深度学习的航道船牌检测、定位及识别方法 - Google Patents

基于深度学习的航道船牌检测、定位及识别方法 Download PDF

Info

Publication number
CN112633277B
CN112633277B CN202011609509.8A CN202011609509A CN112633277B CN 112633277 B CN112633277 B CN 112633277B CN 202011609509 A CN202011609509 A CN 202011609509A CN 112633277 B CN112633277 B CN 112633277B
Authority
CN
China
Prior art keywords
ship
text
training
model
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011609509.8A
Other languages
English (en)
Other versions
CN112633277A (zh
Inventor
曹九稳
刘德康
王建中
杨洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011609509.8A priority Critical patent/CN112633277B/zh
Publication of CN112633277A publication Critical patent/CN112633277A/zh
Application granted granted Critical
Publication of CN112633277B publication Critical patent/CN112633277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于深度学习的航道船牌检测、定位及识别方法。本发明基于深度学习语义分割技术,利用迁移学习从而能够在小数据集上取得可靠识别精度的船牌检测、定位及识别方法。利用语义分割方法,基于AdvancedEAST算法对船牌图像进行像素级分类,从而得到准确可靠的船牌文本行边界框,并结合CRNN文字识别算法输出准确的船牌文字信息。本发明针对船牌识别难度大、研究内容少但具体应用需求高的问题,实现了准确的船牌检测、定位,克服了图像背景复杂、船牌放置位置不固定等问题。实现了不定长文字序列识别,解决了船牌文字数量多、具体数目不固定、汉字数字混合的问题。

Description

基于深度学习的航道船牌检测、定位及识别方法
技术领域
本发明属于深度学习、计算机视觉、自然场景文字识别、计算机应用技术领域,涉及一种基于深度学习的航道船牌检测、定位及识别方法。
背景技术
内河运输作为一种污染小、运量大、耗能低的运输方式,在重点大宗货物运送中有着不可替代的作用。内河运输历史悠久,对人类社会经济发展、文化传播产生了深远影响。时代发展、科技进步,内河运输业日久弥新,数量急剧增长的运河行船数量大幅加剧了管理部门的监管负担,同时存在着人工关闭船舶自动识别系统(Automatic IdentificationSystem,AIS)或蓄意录入错误信息等手段“隐藏”船只通行记录,从而逃避监管的乱象。而码头、港口或运河两岸架设的大量高清摄像头,目前仅作为监管部门后期执法直接证据使用,采集到的大量船舶数据未有更深层次运用,造成了某种程度上的资源浪费。
随着深度学习、计算机视觉技术的发展,陆路交通通过综合道路监控系统与车牌识别技术,建立起成熟的智能交通管理系统。车牌识别有效提高了车辆收费管理、道路稽查、违章处罚等应用场景下的工作效率。然而内河航运系统中尚未出现智能化的船牌识别技术,船牌作为船舶身份识别的最佳方式,对于打造全信息化、智能化内河航运系统具有重要意义,是构建智慧型“水上高速公路”的基础。
目前船牌识别领域研究几乎一片空白的原因在于船牌识别难度远大于车牌识别,主要体现在如下几方面:
1.船牌图像背景往往为更复杂的自然场景,船牌检测、定位难度大,且背景中多存在易导致误识的伪船牌区域。
2.船牌放置位置不固定,导致采集图像中船牌多呈现出倾斜、旋转等非水平方向。且因拍摄距离不同,船牌呈现出尺度多变的特点。
3.船牌图像易因拍摄角度或拍摄环境影响而产生遮挡、光照不均、过曝、过暗、模糊等现象。
4.船牌文字数量多,不同文本行文字大小、字间距变化明显,无显著性构成规律。
5.缺乏公开通用的大型船牌数据集,可应用的数据集规模较小。
因此为解决上述问题,克服船牌识别问题难点,为内河航运智能化综合管理系统建设提供技术基础,本发明提供一种基于深度学习的船牌检测、定位及识别方法,通过拍摄采集自然场景中货船船牌图像作为算法输入,直接输出船牌识别结果。
发明内容
本发明的目的就是提供一种基于深度学习的航道船牌检测、定位及识别方法,基于深度学习语义分割技术,利用迁移学习从而能够在小数据集上取得可靠识别精度的船牌检测、定位及识别方法。利用语义分割方法,基于 AdvancedEAST算法对船牌图像进行像素级分类,从而得到准确可靠的船牌文本行边界框,并结合CRNN文字识别算法输出准确的船牌文字信息。
为实现上述目的,本发明的技术方案主要包括如下步骤:
步骤1、船牌检测、定位数据集创建:通过摄像机采集涵盖船牌图像的图片,使用labelme标注软件进行数据标注,从而构建目标数据集。
步骤2、船牌检测、定位模型训练:基于AdvancedEAST算法,利用船牌数据集进行模型训练。
步骤3、船牌文字识别训练集创建:根据标注坐标,裁剪船牌文本行,以文字内容作为标注信息,通过本发明中的数据扩充方法,对裁剪出的船牌文本行数据进行扩充,从而创建识别训练集。
步骤4、识别模型训练:基于CRNN算法,利用船牌文字识别训练集进行模型训练。
步骤5、模型测试及应用:用训练好的模型对船牌图片进行船牌检测、定位及识别结果测试,输出带有文本行边界框的图片及船牌文本行文字内容。
所述步骤1,具体步骤如下:
步骤1-1、在运河岸边、码头、港口等处架设摄像机,对船只号牌进行拍摄,得到不同尺度大小、不同背景、不同光照、不同倾斜角度、不同位置的图片。该步为保证数据分布均衡,比较有代表性,对于模型泛化性能的提高具有重要作用。
步骤1-2、使用labelme标注软件以四边形方式对图像中船牌文本行进行边界框标注,同时标注对应的文字信息,保存为.json文件。标注时以文本行左上角顶点为起点,逆时针旋转。模型训练时,需将.json文件中的边界框坐标信息及文本标注信息提取出,以.txt格式进行保存,保存格式为“(xi,yi),文本”,其中i=1,2,3,4,(xi,yi)表示四边形四个顶点坐标,以图片左上角为坐标原点,向右、向下为横、纵坐标正方向,xi表示横坐标,yi表示纵坐标。以“安吉川达009”为例:850.5,162.3,850.8,174.8,919.6,173.4,919.7,160.6,安吉川达009。
所述步骤2,具体步骤如下:
步骤2-1、AdvancedEAST算法是性能卓越的文字检测算法,基本思想是将文字检测转化为语义分割问题。网络结构分为“特征提取”、“特征融合”、“输出层”三个部分。
步骤2-2、“特征提取”是使用在ImageNet图像数据集上训练过的VGG16 深度模型作为基础网络,去掉全连接层,将其改造成为全卷积网络,使用卷积、池化操作进行下采样。
步骤2-3、“特征融合”通过上采样操作放大feature maps尺寸,然后抽取原图尺寸大小的feature maps,与上采样操作放大的feature maps进行跨层连接,从而实现特征融合,并最终将feature maps放大到原图尺寸大小。
步骤2-4、“输出层”采用四边形框作为文本行的边界框,通过定义边界像素,分别预测一侧的四边形框的两个顶点,从而得到四个顶点坐标,称为geometry map;同时输出图像文字区域及背景区域的二分类信息,称为score map。
步骤2-5、geometry map与score map的训练学习过程使用的损失函数可表示为:L=LsgLg,其中Ls和Lg分别为score map和geometry map损失,λg作为权重衡量两个损失的重要性,使用时可将其设置为1。
步骤2-6、通过如下公式计算score map损失
其中为score map预测结果,Y*为标注。参数β为正、类样本间平衡因子, Ls公式称为“类平衡交叉熵”,β使用如下公式计算:/>
步骤2-7、通过如下公式计算geometry map损失
其中为geometry map预测结果,Q*为满足步骤1-2描述的文本几何形状的标注数据。/>是具有不同顶点排列的所有与Q*等价的四边形集合,该操作是为了解决坐标标注顺序不符合步骤1-2描述的情况,使用Q表示/>中某一四边形。测四边形框坐标指定顺序的四边形框坐标 CQ={x1,y1,x2,y2,x3,y3,x4,y4},通过对/>Q中元素重排列得来,该操作是为了对齐预测、标注坐标,进而计算平滑L1损失函数smoothed L1 Loss;且 (xi,yi),i=1,2,3,4为四边形框顶点横、纵坐标;正则化项/>为四边形框短边长度,可用如下公式计算:/>
其中D(pi,pj)为两个四边形顶点pi,pj之间的L2距离,j=(i mod4)+1, mod表示求余运算,即两个整数做除法运算后的余数。
表示smoothedL1Loss(平滑L1损失函数),令:/> 其中,ci∈CQ,/>分别为指定顺序的四边形框坐标CQ、预测四边形框坐标/>中的对应顶点坐标,Δc表示二者差值。如c1= (x1,y1),具体公式表述为:
步骤2-8、利用迁移学习思想,使用合成文字检测数据集训练检测模型,得到稳定效果后;使用创建的小规模船牌检测数据集进行模型微调。
步骤2-9、使用船牌上数据集具体训练时,将船牌检测数据集中的图片,随机分为8:2的两部分,其中80%为训练样本,剩余的20%为测试样本。加载训练好的VGG16模型,加载文字检测合成数据集上训练好的AdvancedEAST算法模型。使用Adam作为优化器,初始学习率设置为10-4,每个epoch进行衰减,直到衰减到10-5,同时设置早停机制。实验过程中,微调平均经过20epoch即可收敛。
所述步骤3,具体步骤如下:
步骤3-1、根据标注四边形坐标,计算四边形最小外接矩形及水平方向旋转角度。利用最小外接矩形对文本行区域进行裁剪,利用旋转角度对文本行区域进行粗矫正,得到小规模船牌文本行图片。
步骤3-2、通过对小规模图片数据集在保持图片长宽比的前提下进行随机旋转、随机对比度调整、随机尺度调整、随机分辨率调整、随机模糊处理,处理后图片放置于宽高为100×32的灰色模板上。通过该方式对步骤3-1中得到的小规模船牌文本图片进行扩充,得到可适用于CRNN深度模型训练的数据规模。
步骤3-3、船牌文字识别模型标注,借助步骤1-2中坐标与文本行的对应关系,将裁剪、扩充后的船牌文本行图片以“文件名标注”的格式保存为.txt格式,作为标注信息。从而创建完成船牌文字识别模型训练数据集。
所述步骤4,具体步骤如下:
步骤4-1、CRNN算法是性能优良的文字识别算法,主要分为“卷积层”、“循环层”、“转录层”三部分,分别进行“图像特征提取”、“文字序列识别”、“CTC损失”。其中“CTC”全称为“Connectionist Temporal Classification,联结时序分类”。
步骤4-2、训练前需对输入图片进行预处理,将图像进行二值化,以此降低图像处理计算量,提高训练速度。用于图像特征提取的卷积层使用VGG16深度模型作为基础网络,同时改造其第三、第四最大池化层,使用1×2的pooling strides,以此适应文本行“狭长”的特点。
步骤4-3、循环层使用双向长短时记忆网络(Long short-term memory,LSTM),隐藏层节点设置为256。将卷积层输出feature maps转化为序列特征作为循环层输入。循环层根据输入特征序列在每个时间步t预测当前特征/>的标签分布最终输出特征序列xr对应的标签分布序列/> 其中上标r表示该特征序列在循环层网络中使用,以及输出序列为循环层网络输出。
步骤4-4、转录层对循环层输出的每个时间步的预测结果进行处理,消除冗余得到最终的输出文字序列。
步骤4-5、网络训练,假设数据集为其中Ii为第i张训练图片, Li为它对应的标签序列标注。网络的训练目标是最小化负对数条件似然/>
其中,是CRNN从Ii中预测得到的概率分布序列。
所述步骤5,具体步骤如下:
步骤5-1、分别将检测、定位模型以及识别模型训练完成后,利用级联方法关联。以检测、定位模型输出作为识别模型输入,识别模型输出船牌文字识别结果。
步骤5-2、为更方便查看本发明船牌检测、定位及识别结果,可将其在设计的简易GUI界面上进行结果显示,包括标记有文本区域边界框的输出图像,以及文字识别结果和算法识别耗时。
本发明针对船牌识别难度大、研究内容少但具体应用需求高的问题,提出了基于深度学习的船牌检测、定位及识别方法。基于语义分割思路,利用 AdvancedEAST算法,实现了准确的船牌检测、定位,克服了图像背景复杂、船牌放置位置不固定等问题。利用CRNN算法,实现了不定长文字序列识别,解决了船牌文字数量多、具体数目不固定、汉字数字混合的问题。利用迁移学习、数据扩充等方法,仅使用小规模船牌数据集微调大型深度模型便能取得良好检测、定位及识别性能。实验表明,语义分割、迁移学习、数据扩充三者相辅相成,使本方法拥有了较高的识别准确率。
附图说明
图1本发明的适用场景示例图;
图2本发明的流程图;
图3本发明的实际应用效果图。
具体实施方式
下面结合附图和具体实施方式对本发明作详细说明。
如图1所示,本发明的适用场景为运河行船船牌检测、定位与识别,所用图像示例如图所示。主要为蓝色标准船牌,适用于背景环境复杂、拍摄角度不同、船牌存在倾斜、低对比度、光照不均等情况。
如图2所示,本发明的算法流程主要包括如下步骤:
步骤1、船牌检测、定位数据集创建:通过摄像机采集涵盖船牌图像的图片,使用labelme标注软件进行数据标注,从而构建目标数据集。
具体如下:
步骤1-1、在运河岸边、码头、港口等处架设摄像机,对船只号牌进行拍摄,得到不同尺度大小、不同背景、不同光照、不同倾斜角度、不同位置的图片。该步为保证数据分布均衡,比较有代表性,对于模型泛化性能的提高具有重要作用。
步骤1-2、使用labelme标注软件以四边形方式对图像中船牌文本行进行边界框标注,同时标注对应的文字信息,保存为.json文件。标注时以文本行左上角顶点为起点,逆时针旋转。模型训练时,需将.json文件中的边界框坐标信息及文本标注信息提取出,以.txt格式进行保存,保存格式为“(xi,yi),文本”,其中i=1,2,3,4,(xi,yi)表示四边形四个顶点坐标,以图片左上角为坐标原点,向右、向下为横、纵坐标正方向,xi表示横坐标,yi表示纵坐标。以“安吉川达009”为例:850.5,162.3,850.8,174.8,919.6,173.4,919.7,160.6,安吉川达009。
步骤2、船牌检测、定位模型训练:基于AdvancedEAST算法,利用船牌数据集进行模型训练。
具体如下:
步骤2-1、AdvancedEAST算法是性能卓越的文字检测算法,基本思想是将文字检测转化为语义分割问题。网络结构分为“特征提取”、“特征融合”、“输出层”三个部分。
步骤2-2、“特征提取”是使用在ImageNet图像数据集上训练过的VGG16 深度模型作为基础网络,去掉全连接层,将其改造成为全卷积网络,使用卷积、池化操作进行下采样。
步骤2-3、“特征融合”通过上采样操作放大feature maps尺寸,然后抽取原图尺寸大小的feature maps,与上采样操作放大的feature maps进行跨层连接,从而实现特征融合,并最终将feature maps放大到原图尺寸大小。
步骤2-4、“输出层”采用四边形框作为文本行的边界框,通过定义边界像素,分别预测一侧的四边形框的两个顶点,从而得到四个顶点坐标,称为geometry map;同时输出图像文字区域及背景区域的二分类信息,称为score map。
步骤2-5、geometry map与score map的训练学习过程使用的损失函数可表示为:L=LsgLg,其中Ls和Lg分别为score map和geometry map损失,λg作为权重衡量两个损失的重要性,使用时可将其设置为1。
步骤2-6、通过如下公式计算score map损失
其中为score map预测结果,Y*为标注。参数β为正、类样本间平衡因子,Ls公式称为“类平衡交叉熵”,β使用如下公式计算:/>
步骤2-7、通过如下公式计算geometry map损失
其中为geometry map预测结果,Q*为满足步骤1-2描述的文本几何形状的标注数据。/>是具有不同顶点排列的所有与Q*等价的四边形集合,该操作是为了解决坐标标注顺序不符合1-2描述的情况,使用Q表示/>中某一四边形。
预测四边形框坐标指定顺序的四边形框坐标CQ={x1,y1,x2,y2,x3,y3,x4,y4},通过对/>Q中元素重排列得来,该操作是为了对齐预测、标注坐标,进而计算smoothed L1 Loss;且(xi,yi),i=1,2,3,4为四边形框顶点横、纵坐标;正则化项/>为四边形框短边长度,可用如下公式计算:
其中D(pi,pj)为两个四边形顶点pi,pj之间的L2距离,j=(i mod4)+1, mod表示求余运算,即两个整数做除法运算后的余数。
表示smoothed L1 Loss(平滑L1损失函数),令:/> 其中,ci∈CQ,/>分别为指定顺序的四边形框坐标 CQ、预测四边形框坐标/>中的对应顶点坐标,Δc表示二者差值。如c1= (x1,y1),/>具体公式可表述为:
步骤2-8、AdvancedEAST算法中使用的预训练过的VGG16模型保证了图像特征提取的准确、有效性。在此基础上,进一步利用迁移学习思想,首先使用合成文字检测数据集训练检测模型,如阿里云天池竞赛“场景文字检测”数据集,得到稳定效果后。使用创建的小规模船牌检测数据集进行模型微调,从而克服船牌图像数据量不足的困难。
步骤2-9、使用船牌上数据集具体训练时,将船牌检测数据集中的图片,随机分为8:2的两部分,其中80%为训练样本,剩余的20%为测试样本。加载训练好的VGG16模型,加载文字检测合成数据集上训练好的AdvancedEAST算法模型。使用Adam作为优化器,初始学习率设置为10-4,每个epoch进行衰减,直到衰减到10-5,同时设置早停机制。实验过程中,微调平均经过20epoch即可收敛。
步骤3、船牌文字识别训练集创建:根据标注坐标,裁剪船牌文本行,以文字内容作为标注信息,通过本发明中的数据扩充方法,对裁剪出的船牌文本行数据进行扩充,从而创建识别训练集。
具体步骤如下:
步骤3-1、根据标注四边形坐标,计算四边形最小外接矩形及水平方向旋转角度。利用最小外接矩形对文本行区域进行裁剪,利用旋转角度对文本行区域进行粗矫正。得到小规模船牌文本行图片。
步骤3-2、通过对小规模图片数据集在保持图片长宽比的前提下进行随机旋转、随机对比度调整、随机尺度调整、随机分辨率调整、随机模糊处理,处理后图片放置于宽高为100×32的灰色模板上。通过该方式对步骤3-1中得到的小规模船牌文本图片进行扩充,得到可适用于CRNN深度模型训练的数据规模。本发明实验测试过程中,将2148张裁剪船牌文本行图片扩充至42891张图片,基于CRNN算法训练得到的船牌文字识别模型取得了可靠的准确率。
步骤3-3、船牌文字识别模型标注,借助步骤1-2中坐标与文本行的对应关系,将裁剪、扩充后的船牌文本行图片以“文件名标注”的格式保存为.txt格式,作为标注信息。以“浙XX货”为例,图片文件名为“zhe_X_X_huo02XX8_ 浙XX货.jpg”,标注为文字内容“浙XX货”中文字在词典中的索引,即标注内容为:zhe_jia_xing_huo02XX8_浙XX货.jpg 16601626 726 1066.从而创建完成船牌文字识别模型训练数据集。
步骤4、识别模型训练:基于CRNN算法,利用船牌文字识别训练集进行模型训练。
具体步骤如下:
步骤4-1、CRNN算法是性能优良的文字识别算法,主要分为“卷积层”、“循环层”、“转录层”三部分,分别进行“图像特征提取”、“文字序列识别”、“CTC损失”。其中“CTC”全称为“Connectionist Temporal Classification,联结时序分类”。
步骤4-2、训练前需对输入图片进行预处理,将图像进行二值化,以此降低图像处理计算量,提高训练速度。用于图像特征提取的卷积层使用VGG16深度模型作为基础网络,同时改造其第三、第四最大池化层,使用1×2的pooling strides,以此适应文本行“狭长”的特点。
步骤4-3、循环层使用双向LSTM(Long short-term memory,LSTM,长短时记忆网络),隐藏层节点设置为256。将卷积层输出feature maps转化为序列特征作为循环层输入。循环层根据输入特征序列在每个时间步t预测当前特征/>的标签分布/>最终输出特征序列xr对应的标签分布序列/>其中上标r表示该特征序列在循环层网络中使用,以及输出序列为循环层网络输出。
步骤4-4、转录层对循环层输出的每个时间步的预测结果进行处理,消除冗余得到最终的输出文字序列。
步骤4-5、网络训练,假设数据集为其中Ii为第i张训练图片, Li为它对应的标签序列标注。网络的训练目标是最小化负对数条件似然/>
其中,是CRNN从Ii中预测得到的概率分布序列。此公式说明本发明对于船牌识别训练集的制作无需字符集标注,仅使用文本行标注即可,大幅降低了标注难度。
具体步骤如下:
步骤5-1、分别将检测、定位模型以及识别模型训练完成后,利用级联方法关联。以检测、定位模型输出作为识别模型输入,识别模型输出船牌文字识别结果。
步骤5-2、为更方便查看本发明船牌检测、定位及识别结果,可将其在设计的简易GUI界面上进行结果显示,包括标记有文本区域边界框的输出图像,以及文字识别结果和算法识别耗时。

Claims (5)

1.基于深度学习的航道船牌检测、定位及识别方法,其特征在于:
具体包括如下步骤:
步骤1、船牌检测、定位数据集创建:通过摄像机采集涵盖船牌图像的图片,使用labelme标注软件进行数据标注,从而构建目标数据集;
步骤2、船牌检测、定位模型训练:基于AdvancedEAST算法,利用船牌数据集进行模型训练;具体步骤如下:
步骤2-1、选用AdvancedEAST算法将文字检测转化为语义分割问题;网络结构分为“特征提取”、“特征融合”、“输出层”三个部分;
步骤2-2、“特征提取”是使用在ImageNet图像数据集上训练过的VGG16深度模型作为基础网络,去掉全连接层,将其改造成为全卷积网络,使用卷积、池化操作进行下采样;
步骤2-3、“特征融合”通过上采样操作放大feature maps尺寸,然后抽取原图尺寸大小的feature maps,与上采样操作放大的feature maps进行跨层连接,从而实现特征融合,并最终将feature maps放大到原图尺寸大小;
步骤2-4、“输出层”采用四边形框作为文本行的边界框,通过定义边界像素,分别预测一侧的四边形框的两个顶点,从而得到四个顶点坐标,称为geometry map;同时输出图像文字区域及背景区域的二分类信息,称为score map;
步骤2-5、geometry map与score map的训练学习过程使用的损失函数可表示为:L=LsgLg,其中Ls和Lg分别为score map损失和geometry map损失,λg作为权重衡量两个损失的重要性,使用时可将其设置为1;
步骤2-6、通过如下公式计算score map损失
其中为score map预测结果,Y*为标注;参数β为正、类样本间平衡因子,Ls公式称为“类平衡交叉熵”,β使用如下公式计算:/>
步骤2-7、通过如下公式计算geometry map损失
其中为geometry map预测结果,Q*为满足1-2描述的文本几何形状的标注数据;/>是具有不同顶点排列的所有与Q*等价的四边形集合,该操作是为了解决坐标标注顺序不符合步骤1-2描述的情况,使用Q表示/>中某一四边形;测四边形框坐标指定顺序的四边形框坐标CQ={x1,y1,x2,y2,x3,y3,x4,y4},通过对/>Q中元素重排列得来,该操作是为了对齐预测、标注坐标,进而计算smoothed L1 Loss;且(xi,yi),i=1,2,3,4为四边形框顶点横、纵坐标;正则化项/>为四边形框短边长度,可用如下公式计算:
其中D(pi,pj)为两个四边形顶点pi,pj之间的L2距离,j=(i mod4)+1,mod表示求余运算,即两个整数做除法运算后的余数;
表示smoothed L1 Loss,令:/>i=1,2,3,4;其中,ci∈CQ,/>分别为指定顺序的四边形框坐标CQ、预测四边形框坐标/>中的对应顶点坐标,Δc表示二者差值;如c1=(x1,y1),/> 则/>具体公式表述为:
步骤2-8、利用迁移学习思想,使用合成文字检测数据集训练检测模型,得到稳定效果后;使用创建的小规模船牌检测数据集进行模型微调;
步骤2-9、使用船牌上数据集具体训练时,将船牌检测数据集中的图片,随机分为8:2的两部分,其中80%为训练样本,剩余的20%为测试样本;加载训练好的VGG16模型,加载文字检测合成数据集上训练好的AdvancedEAST算法模型;使用Adam作为优化器,初始学习率设置为10-4,每个epoch进行衰减,直到衰减到10-5,同时设置早停机制;
步骤3、船牌文字识别训练集创建:根据标注坐标,裁剪船牌文本行,以文字内容作为标注信息,通过本发明中的数据扩充方法,对裁剪出的船牌文本行数据进行扩充,从而创建识别训练集;
步骤4、识别模型训练:基于CRNN算法,利用船牌文字识别训练集进行模型训练;
步骤5、模型测试及应用:用训练好的模型对船牌图片进行船牌检测、定位及识别结果测试,输出带有文本行边界框的图片及船牌文本行文字内容。
2.如权利要求1所述的基于深度学习的航道船牌检测、定位及识别方法,其特征在于:
所述步骤1,具体步骤如下:
步骤1-1、在运河岸边、码头、港口架设摄像机,对船只号牌进行拍摄,得到不同尺度大小、不同背景、不同光照、不同倾斜角度、不同位置的图片;
步骤1-2、使用labelme标注软件以四边形方式对图像中船牌文本行进行边界框标注,同时标注对应的文字信息,保存为.json文件;标注时以文本行左上角顶点为起点,逆时针旋转;模型训练时,需将.json文件中的边界框坐标信息及文本标注信息提取出,以.txt格式进行保存,保存格式为“(xi,yi),文本”,其中i=1,2,3,4,表示四边形四个顶点坐标。
3.如权利要求1所述的基于深度学习的航道船牌检测、定位及识别方法,其特征在于:
所述步骤3,具体步骤如下:
步骤3-1、根据标注四边形坐标,计算四边形最小外接矩形及水平方向旋转角度;利用最小外接矩形对文本行区域进行裁剪,利用旋转角度对文本行区域进行粗矫正,得到小规模船牌文本行图片;
步骤3-2、通过对小规模图片数据集在保持图片长宽比的前提下进行随机旋转、随机对比度调整、随机尺度调整、随机分辨率调整、随机模糊处理,处理后图片放置于宽高为100×32的灰色模板上;通过该方式对步骤3-1中得到的小规模船牌文本图片进行扩充,得到可适用于CRNN深度模型训练的数据规模;
步骤3-3、船牌文字识别模型标注,借助步骤1-2中坐标与文本行的对应关系,将裁剪、扩充后的船牌文本行图片以“文件名标注”的格式保存为.txt格式,作为标注信息;从而创建完成船牌文字识别模型训练数据集。
4.如权利要求1所述的基于深度学习的航道船牌检测、定位及识别方法,其特征在于:
所述步骤4,具体步骤如下:
步骤4-1、CRNN算法是性能优良的文字识别算法,主要分为“卷积层”、“循环层”、“转录层”三部分,分别进行“图像特征提取”、“文字序列识别”、“联结时序分类损失”;
步骤4-2、训练前需对输入图片进行预处理,将图像进行二值化,以此降低图像处理计算量,提高训练速度;用于图像特征提取的卷积层使用VGG16深度模型作为基础网络,同时改造其第三、第四最大池化层,使用1×2的pooling strides,以此适应文本行“狭长”的特点;
步骤4-3、循环层使用双向长短时记忆网络,隐藏层节点设置为256;将卷积层输出feature maps转化为序列特征作为循环层输入;循环层根据输入特征序列在每个时间步t预测当前特征/>的标签分布/>最终输出特征序列xr对应的标签分布序列/>其中上标r表示该特征序列在循环层网络中使用,以及输出序列为循环层网络输出;
步骤4-4、转录层对循环层输出的每个时间步的预测结果进行处理,消除冗余得到最终的输出文字序列;
步骤4-5、网络训练,假设数据集为其中Ii为第i张训练图片,Li为它对应的标签序列标注;网络的训练目标是最小化负对数条件似然/>
其中,是CRNN从Ii中预测得到的概率分布序列。
5.如权利要求1所述的基于深度学习的航道船牌检测、定位及识别方法,其特征在于:
所述步骤5,具体步骤如下:
步骤5-1、分别将检测、定位模型以及识别模型训练完成后,利用级联方法关联;以检测、定位模型输出作为识别模型输入,识别模型输出船牌文字识别结果;
步骤5-2、为更方便查看本发明船牌检测、定位及识别结果,能将其在设计的简易GUI界面上进行结果显示,包括标记有文本区域边界框的输出图像,以及文字识别结果和算法识别耗时。
CN202011609509.8A 2020-12-30 2020-12-30 基于深度学习的航道船牌检测、定位及识别方法 Active CN112633277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011609509.8A CN112633277B (zh) 2020-12-30 2020-12-30 基于深度学习的航道船牌检测、定位及识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011609509.8A CN112633277B (zh) 2020-12-30 2020-12-30 基于深度学习的航道船牌检测、定位及识别方法

Publications (2)

Publication Number Publication Date
CN112633277A CN112633277A (zh) 2021-04-09
CN112633277B true CN112633277B (zh) 2024-04-05

Family

ID=75286626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011609509.8A Active CN112633277B (zh) 2020-12-30 2020-12-30 基于深度学习的航道船牌检测、定位及识别方法

Country Status (1)

Country Link
CN (1) CN112633277B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269049A (zh) * 2021-04-30 2021-08-17 天津科技大学 一种用于检测手写汉字区域的方法
CN113239854B (zh) * 2021-05-27 2023-12-19 北京环境特性研究所 一种基于深度学习的船舶身份识别方法及系统
CN113326842A (zh) * 2021-06-01 2021-08-31 武汉理工大学 一种金融表单文字识别方法
CN113361467A (zh) * 2021-06-30 2021-09-07 电子科技大学 基于领域适应的车牌识别方法
CN113780087B (zh) * 2021-08-11 2024-04-26 同济大学 一种基于深度学习的邮政包裹文本检测方法及设备
CN113657354B (zh) * 2021-10-19 2022-01-25 深圳市菁优智慧教育股份有限公司 基于深度学习的答题卡识别方法及系统
CN114049627B (zh) * 2022-01-11 2022-04-08 浙江华是科技股份有限公司 可智能选择缩放尺度的船牌检测方法、装置及系统
CN114943975A (zh) * 2022-05-10 2022-08-26 山东大学 一种基于深度学习的多模态搜题方法及系统
CN115063739B (zh) * 2022-06-10 2023-06-16 嘉洋智慧安全科技(北京)股份有限公司 异常行为的检测方法、装置、设备及计算机存储介质
CN115035541A (zh) * 2022-06-27 2022-09-09 中核核电运行管理有限公司 一种大尺寸复杂pdf工程图纸文本检测与识别方法
CN115424275B (zh) * 2022-08-30 2024-02-02 青岛励图高科信息技术有限公司 一种基于深度学习技术的渔船船牌号识别方法及系统
CN115331114A (zh) * 2022-10-14 2022-11-11 青岛恒天翼信息科技有限公司 基于船号深度学习的船舶身份识别方法
CN116912852A (zh) * 2023-07-25 2023-10-20 京东方科技集团股份有限公司 名片的文本识别方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598693A (zh) * 2019-08-12 2019-12-20 浙江工业大学 一种基于Faster-RCNN的船牌识别方法
CN111291684A (zh) * 2020-02-10 2020-06-16 浙江工业大学 一种自然场景下的船牌检测方法
CN111985470A (zh) * 2020-07-09 2020-11-24 浙江工业大学 一种自然场景下的船牌矫正识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598693A (zh) * 2019-08-12 2019-12-20 浙江工业大学 一种基于Faster-RCNN的船牌识别方法
CN111291684A (zh) * 2020-02-10 2020-06-16 浙江工业大学 一种自然场景下的船牌检测方法
CN111985470A (zh) * 2020-07-09 2020-11-24 浙江工业大学 一种自然场景下的船牌矫正识别方法

Also Published As

Publication number Publication date
CN112633277A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN112633277B (zh) 基于深度学习的航道船牌检测、定位及识别方法
Wang et al. RENet: Rectangular convolution pyramid and edge enhancement network for salient object detection of pavement cracks
CN111814623A (zh) 一种基于深度神经网络的车辆车道偏离视觉检测方法
CN111582339B (zh) 一种基于深度学习的车辆检测与识别的方法
CN110689000B (zh) 一种基于生成复杂环境下车牌样本的车辆车牌识别方法
CN112418165B (zh) 基于改进型级联神经网络的小尺寸目标检测方法与装置
CN111582218A (zh) 一种基于深度学习的遥感影像岛礁提取方法
CN112418216A (zh) 一种复杂自然场景图像中的文字检测方法
CN113052170B (zh) 一种无约束场景下的小目标车牌识别方法
CN113177503A (zh) 基于yolov5的任意朝向目标十二参数检测方法
CN116453121B (zh) 一种车道线识别模型的训练方法及装置
CN112800955A (zh) 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统
CN114519819B (zh) 一种基于全局上下文感知的遥感图像目标检测方法
Liu et al. CAFFNet: channel attention and feature fusion network for multi-target traffic sign detection
CN116994236A (zh) 一种基于深度神经网络的低质图像车牌检测方法
CN114723636A (zh) 基于多特征融合的模型生成方法、装置、设备及存储介质
CN116935332A (zh) 一种基于动态视频的渔船目标检测与跟踪方法
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
CN113628180B (zh) 一种基于语义分割网络的遥感建筑物检测方法及系统
CN112053407B (zh) 一种交通执法影像中基于ai技术的车道线自动检测方法
CN117011819A (zh) 基于特征引导注意力的车道线检测方法、装置及设备
CN115019310B (zh) 图文识别方法及设备
CN111104944A (zh) 一种基于r-fcn的车牌字符检测及分割方法
CN114820931B (zh) 基于虚拟现实的智慧城市cim可视化实时成像方法
CN113780189A (zh) 一种基于U-Net改进的车道线检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant