CN115424275B - 一种基于深度学习技术的渔船船牌号识别方法及系统 - Google Patents
一种基于深度学习技术的渔船船牌号识别方法及系统 Download PDFInfo
- Publication number
- CN115424275B CN115424275B CN202211048417.6A CN202211048417A CN115424275B CN 115424275 B CN115424275 B CN 115424275B CN 202211048417 A CN202211048417 A CN 202211048417A CN 115424275 B CN115424275 B CN 115424275B
- Authority
- CN
- China
- Prior art keywords
- data set
- cbam
- picture data
- module
- license plate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 238000005516 engineering process Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000012360 testing method Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 16
- 238000013519 translation Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims 4
- 238000000605 extraction Methods 0.000 description 28
- 102100032202 Cornulin Human genes 0.000 description 14
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 210000005266 circulating tumour cell Anatomy 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 239000000779 smoke Substances 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 241000251468 Actinopterygii Species 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 235000019504 cigarettes Nutrition 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009313 farming Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Biodiversity & Conservation Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开一种基于深度学习技术的渔船船牌号识别方法及系统,包括:获取船牌图片数据集,对船牌图片数据集进行预处理,得到处理船牌图片数据集;基于处理船牌图片数据集,构建初始CBAM‑CRNN模型;将处理船牌图片数据集划分为训练数据集和测试数据集;基于训练数据集、测试数据集和初始CBAM‑CRNN模型,得到识别CBAM‑CRNN模型,完成渔船船牌号识别。能够将船牌号图像数据的特征利用到极致;提高了船牌号识别的准确精度,对海洋港口的科学化管理具有重要意义;稳定可靠,识别CBAM‑CRNN模型可直接用于未来渔船船牌号文字识别的应用中,复用性强。
Description
技术领域
本发明涉及港口智能化管理领域,特别涉及一种基于深度学习技术的渔船船牌号识别方法及系统。
背景技术
港口的出现,已经发展成为我们人类经济社会不断学习进步的标志之一,强劲有力地助推了海洋资源的物质和贸易往来,助力经济社会的稳定发展。在我国港口城市的经济发展程度与港口的效益和发展水平都密切相关。但是,随着社会主义现代化的建设历程,中国的经济转型升级、快速进步,港口当前的管理模式逐渐不适用。通过人工智能技术对船牌号文字进行识别的方法可以提高港口管理效率,促进港口地区的经济发展,实现港口地区经济的飞速发展,切实提高港口地区的经济竞争力。
目前有关船牌识别的方法主要采用Faster-Rcnn、卷积神经网络、PDnet检测算法和CRNN等相关算法。2021年,长江大学路云、胡杰提出了基于深度学习的船舶舷号检测与识别,主要采用了EAST检测船牌位置算法和CRNN文字识别算法。2020年,浙江工业大学宣琦、张鑫辉、翔云提出了一种基于Faster—RCNN的船牌识别方法。2020年,珠海华园信息技术有限公司提出了一种基于深度学习特征对比的船牌识别方法,主要采用了卷积神经网络。2019年,中国石油大学李兆桐、孙浩云提出了基于全卷积神经网络的船舶检测和船牌识别系统,船牌识别部分主要采用了包含SDNet船舶检测模型、PDnet船牌检测模型和OA—Classifier船牌分类识别模型。
但由于船牌不像车牌一样有固定的位置、固定的文字类型和有限的文字个数。船牌的文字、类型和位置更加随机多样。因此利用船牌文字识别进行船舶身份识别面临着非常大的阻碍。
发明内容
为解决上述现有技术中所存在的问题,本发明提供一种基于深度学习技术的渔船船牌号识别方法及系统,利用识别CBAM-CRNN模型能够将船牌号图像数据的特征利用到极致;提高了船牌号识别的准确精度,对海洋港口的科学化管理具有重要意义;稳定可靠,可直接用于未来渔船船牌号文字识别的应用中,复用性强。
一方面,为了实现上述技术目的,本发明提供了一种基于深度学习技术的渔船船牌号识别方法,包括:
获取船牌图片数据集,对所述船牌图片数据集进行预处理,得到处理船牌图片数据集;
基于所述处理船牌图片数据集,构建初始CBAM-CRNN模型;
将所述处理船牌图片数据集划分为训练数据集和测试数据集;
基于所述训练数据集、所述测试数据集和所述初始CBAM-CRNN模型,得到识别CBAM-CRNN模型,完成渔船船牌号识别。
可选地,所述船牌图片数据集为汉字与数字的组合。
可选地,所述预处理包括数据清洗,剔除异常图像数据。
可选地,所述识别CBAM-CRNN模型的卷积层为加入CBAM注意力机制的RetNet34网络。
可选地,所述CBAM注意力机制包括通道注意力机制和空间注意力机制。
可选地,所述识别CBAM-CRNN模型的循环层为BiLSTM网络。
可选地,对所述识别CBAM-CRNN模型的翻译层引入去冗余机制。
另一方面,为了实现上述技术目的,本发明提供了一种基于深度学习技术的渔船船牌号识别系统,包括:
获取模块、预处理模块、构建模块、数据集划分模块、训练测试识别模块;
所述获取模块用于获取船牌图片数据集;
所述预处理模块用于对所述船牌图片数据集进行预处理,得到处理船牌图片数据集;
所述构建模块用于基于所述处理船牌图片数据集,构建初始CBAM-CRNN模型;
所述数据集划分模块用于将所述处理船牌图片数据集划分为训练数据集和测试数据集;
所述训练测试识别模块用于基于所述训练数据集、所述测试数据集和所述初始CBAM-CRNN模型,得到识别CBAM-CRNN模型,完成渔船船牌号识别。
本发明具有如下技术效果:
1.在船牌号文字识别方面:采用识别CBAM-CRNN模型对船牌号文字进行识别,能更好的利用船牌图像数据的特征,通过加入注意力机制CBAM,将船牌号图像数据的特征利用到极致。
2.在效率成本方面,利用自研的识别CBAM-CRNN模型对船牌号文字进行识别,提高了船牌号识别的准确精度,对海洋港口的科学化管理具有重要意义;稳定可靠,训练好的识别CBAM-CRNN模型可直接用于指定区域未来渔船船牌号文字识别的应用中,复用性强。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一基于深度学习技术的渔船船牌号识别方法的流程框图;
图2为本发明实施例一获取的图片数据集中的样例示意图;
图3为本发明实施例一图片数据集中模糊的船牌图片示意图;
图4为本发明实施例一图片数据集中只有一半的船牌图片示意图;
图5为本发明实施例一处理船牌图片数据集示意图;
图6为本发明实施例一CBAM框架图;
图7为本发明实施例一BiLSTM神经网络结构图;
图8为本发明实施例一文本标签概率分布图;
图9为本发明实施例一测试数据集准确率曲线图;
图10为本发明实施例一将预测数据集输入至识别CBAM-CRNN模型的结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例的研究区域为烟台地区港口附近区域。
如图1所示,本发明公开一种基于深度学习技术的渔船船牌号识别方法,包括:
S1,获取船牌图片数据集,对船牌图片数据集进行预处理,得到处理船牌图片数据集;
基于烟台芝罘区新型现代化智慧渔港项目通过渔港周围摄像头获取的实际船牌数据,数据格式为汉字与数字的组合,汉字主要包括:鲁、烟、渔、养、开、海、蓬等。数字包括0-9。获取的船牌图像数据集如图2所示。
对获取的船牌图片数据集进行预处理,包括数据清洗,剔除异常图像数据,即剔除如图3所示的模糊的船牌图片和如图4所示的只有一半的船牌图片。经过预处理后,至少整理出1.8万张有效数据,即得到处理船牌图片数据集,如图5所示。随后,对处理船牌图片数据集进行标注,生成txt文档。
S2,基于处理船牌图片数据集,构建初始CBAM-CRNN模型;
CRNN在文字识别上有以下优点:它是端到端的;能处理任意长度的序列;不需要预定义的字典;更小的模型,更少的参数(不需要全连接层)。对于序列类型的对象,CRNN所具有的优点如下:可以直接从标签序列上进行学习(例如单词),而不需要进行另外的标注(每个字母),它可以直接从图片中读取信息,无需手工设计特征,可产生一个序列的标签,只要求序列的高度标准化,不受限于序列的长度,文字识别任务上有出色表现更少的参数,更小的存储空间,在实际生活中有着很好的应用价值。
本发明对原始CRNN网络的特征提取层进行改进,以提高模型的识别效果。原始CRNN网络的特征提取层采用VGG网络结构。虽然VGG网络模型大小适中,但在船牌文字识别过程中,识别率并不高,这是由于VGG的网络参数多,耗费大量的计算资源,并且内存占用高,使CRNN的性能有所下降。因此,本发明选用ResNet34网络作为特征提取网络进行特征提取,但是在图像的特征提取过程中,对于图像中的权重注意力大小很难有效的确定。因此本发明基于CRNN网络的特征提取层,提出将注意力机制(convolutional block attentionmodule,CBAM)加入特征提取网络ResNet34中,构建得到初始CBAM-CRNN模型。
该初始CBAM-CRNN模型包括卷积层(CNN)、循环层(RNN)和翻译层(CTC)。卷积层提取输入特征图像的特征序列,卷积层之后是循环层,用来预测卷积层输出的特征序列帧数,最后进入翻译层,用来将每帧预测转换成标签序列的过程。
初始CBAM-CRNN模型首先通过卷积层即加入CBAM的特征提取层RetNet34网络进行特征提取,CBAM的基本框架如图6所示,图6中CBAM包含通道注意力模块和空间注意力模块两部分。即输入的特征图x∈Rc×w×h,通过一维通道注意力矩阵Mc∈Rc×1×1和二维空间注意力矩阵Ms∈R1×w×h的串行计算,最终得到输出特征F”,即:
式中,x代表输入特征;F'代表经过通道注意力模块输出的特征;F”代表经过整个注意力机制最后输出的特征;Mc(x)和Ms(x)分别代表通道注意力模块和空间注意力模块的权重系数矩阵。
CBAM的运行流程为:(1)将船牌特征图经过MaxPooling和AveragePooling,然后再经过共享全连接层,最后进行相加操作生成通道注意力特征图;(2)将经过通道注意力模块的特征图作为空间注意力模块的输入,通过基于通道注意力模块的MaxPooling和AveragePooling得到两个特征图,然后对这两个特征图进行通道拼接。随后通过卷积操作进行降维,最后通过加和操作得到特征权值。
将CBAM注意力机制加入特征提取网络,可以帮助特征提取网络更加准确的学习不同区域的特征权重,使得被识别目标区域的特征权重增大,没有识别目标的区域特征权重减小。在船牌号识别过程中,识别网络模型应该着重关注有船牌号文字的区域,故引入CBAM注意力机制,有效提高特征提取网络ResNet34模型在有船牌号文字区域的特征权重,提高了特征提取的有效性。
然后经过循环层(RNN),本发明循环层选用双向长短期记忆神经网络(BiLSTM)。它没有改变LSTM结构,只是将LSTM应用两次且方向不同,将两次得到的LSTM结果拼接作为最终输出。BiLSTM的基本思想是每一个训练的序列向前和向后分别是两个LSTM,而且这两个层均与输入层、输出层相连接。这个结构给输出层提供输入序列中每个点的完整的过去和未来的序列信息。过去和未来相结合得到了输出。如图7所示,BiLSTM的神经元由输入层、隐含层(前向、反向)、输出层组成,前向隐含层和反向隐含层均与输出层相连。
每个时刻向前隐含层的输出由前向隐含层从1时刻到t时刻正向计算一遍得到,每个时刻向后隐含层的输出由后向隐含层沿着时刻t到时刻1反向计算一遍得到。前向层和后向层的相应时刻输出联合得到每个时刻的最终输出,计算公式如下:
ht=f(w1xt+w2Ct-1+w3ht-1)
ht=f(w4xt+w6Ct-1+w7ht-1)
ht=f(w8ht+w5ht)
式中,ht为t时刻的最终输出;w1~w8为运算的权重值;xt为t时刻的输入值;f()为时刻t的遗忘门;Ct-1为t-1时刻的状态单元。
最后经过翻译层(CTC),翻译层是将循环层所做的每帧预测转换成标签序列的过程,根据每帧预测找到概率最高的标签序列。循环层对时序进行预测时,不可避免的会产生多余信息,可能单一字符被接连预测多次,需要引入去冗余机制——blank机制。以“-”符号代表blank,输出序列时,在文本标签中的重复的字符之间插入一个“-”,比如输出序列为“鲁-烟渔-养6-874-6”,则映射输出“鲁”,也就是如果有blank字符隔开,连续相同字符不合并。即对序列先去掉连续相同字符,接着去掉“-”字符,这个称为解码过程,而编码则是由神经网络来实现。引入blank机制,可以很好地解决重复字符的问题。相同的文本标签一定几率具有不同的字符组合如,“66-8”、“6688”及“-688”均表示“68”。也就是说一个文本标签存在一条或多条的路径。
S3,将处理船牌图片数据集划分为训练数据集和测试数据集;
对处理船牌图片数据集进行随机划分,划分比例为8:1:1,其中80%作为训练数据集,10%作为测试数据集,10%作为预测数据集。
S4,基于训练数据集、测试数据集和初始CBAM-CRNN模型,得到识别CBAM-CRNN模型。
(一)训练数据集训练,具体包括:
根据S2中的概率分布向量和相应的文本标签得到损失函数,从而训练神经网络初始CBAM-CRNN模型。如图8,表示时序为2的字符识别,有两个时间步长和三个可能的字符为“a”,“b”和“-”,可得两个概率分布向量,如采取最大概率路径解码的方法,则“--”的概率最大,即真实字符为空的概率为0.6*0.6=0.36。但是为字符“a”的情况有多种对齐组合,“aa”,“a-“和“-a”都是代表“a”,所以,输出“a”的概率应该为三种之和:0.4*0.4+0.4*0.6+0.6*0.4=0.64,因此“a”的概率比空“”的概率高。如果标签文本为“a”,则通过计算图像中为“a”的所有可能的对齐组合(或者路径)的分数之和来计算损失函数。所以最后映射为标签文本的总概率为:
其中B-1 (l)代表从序列到序列的映射函数B变换后是文本1的所有路径集合,而π则是其中的一条路径。每条路径的概率为各个时间步中对应字符的分数的乘积。类似普通的分类,CTC的损失函数O定义为负的最大似然,为方便计算,对似然函数取对数,得到:
通过对损失函数的计算,就可以对之前的神经网络进行反向传播,神经网络的参数根据所使用的优化器进行更新,从而找到最可能的像素区域对应的字符。这种通过映射变换和所有可能路径概率之和的方式使得CTC不需要对原始的输入字符序列进行准确的切分。定义为负的最大似然,为方便计算,对似然函数取对数。
最终通过以上超参数的调整,对比得到准确率高的模型,完成初始CBAM-CRNN模型训练,生成训练好的初始CBAM-CRNN模型。
初始CBAM-CRNN模型的训练过程:
(1)首先将训练数据集输入至引入CBAM注意力机制的特征提取网络ResNer34中,通过多个卷积层提取船牌的多维特征;
(2)然后将多维特征经过转化并作为BiLSTM的输入,再由BiLSTM对输入的特征序列进行处理,产生标签分布预测;
(3)最后通过翻译层CTC来获得最大概率,翻译出最终的序列标签“鲁烟渔养68746”;
(4)通过输出结果计算与真实值之间的误差;
(5)误差反向传播,更新各个权值调整初始CBAM-CRNN模型的超参数;
(6)并重复以上步骤,对比误差值最低的模型,完成模型训练,生成训练好的初始CBAM-CRNN模型。
(二)测试数据集测试训练效果,具体包括:
将测试数据集输入至训练好的初始CBAM-CRNN模型,得到船牌文字识别结果,采用准确率作为评价指标,评价训练效果,得到识别CBAM-CRNN模型,准确率曲线图如图9所示。准确率(P)的计算公式如下:
式中,TP代表正样本预测为真的情况,FP代表反样本预测为真的情况,FN代表真样本预测为假的情况。
(三)预测数据集预测:
将预测数据集输入至识别CBAM-CRNN模型,完成预测识别,识别结果如图10所示。
实施例二
本发明还公开一种基于深度学习技术的渔船船牌号识别系统,包括:获取模块、预处理模块、构建模块、数据集划分模块、训练测试识别模块;
获取模块用于获取船牌图片数据集。基于烟台芝罘区新型现代化智慧渔港项目通过渔港周围摄像头获取的实际船牌数据,数据格式为汉字与数字的组合,汉字主要包括:鲁、烟、渔、养、开、海、蓬等。数字包括0-9。
预处理模块用于对船牌图片数据集进行预处理,得到处理船牌图片数据集。预处理包括数据清洗,剔除异常图像数据,即剔除模糊的船牌图片和只有一半的船牌图片。经过预处理后,至少整理出1.8万张有效数据,即得到处理船牌图片数据集。随后,对处理船牌图片数据集进行标注,生成txt文档。
构建模块用于基于处理船牌图片数据集,构建初始CBAM-CRNN模型,具体包括以下步骤:
CRNN在文字识别上有以下优点:它是端到端的;能处理任意长度的序列;不需要预定义的字典;更小的模型,更少的参数(不需要全连接层)。对于序列类型的对象,CRNN所具有的优点如下:可以直接从标签序列上进行学习(例如单词),而不需要进行另外的标注(每个字母),它可以直接从图片中读取信息,无需手工设计特征,可产生一个序列的标签,只要求序列的高度标准化,不受限于序列的长度,文字识别任务上有出色表现更少的参数,更小的存储空间,在实际生活中有着很好的应用价值。
本发明对原始CRNN网络的特征提取层进行改进,以提高模型的识别效果。原始CRNN网络的特征提取层采用VGG网络结构。虽然VGG网络模型大小适中,但在船牌文字识别过程中,识别率并不高,这是由于VGG的网络参数多,耗费大量的计算资源,并且内存占用高,使CRNN的性能有所下降。因此,本发明选用ResNet34网络作为特征提取网络进行特征提取,但是在图像的特征提取过程中,对于图像中的权重注意力大小很难有效的确定。因此本发明基于CRNN网络的特征提取层,提出将注意力机制(convolutional block attentionmodule,CBAM)加入特征提取网络ResNet34中,构建得到初始CBAM-CRNN模型。
该初始CBAM-CRNN模型包括卷积层(CNN)、循环层(RNN)和翻译层(CTC)。卷积层提取输入特征图像的特征序列,卷积层之后是循环层,用来预测卷积层输出的特征序列帧数,最后进入翻译层,用来将每帧预测转换成标签序列的过程。
初始CBAM-CRNN模型首先通过卷积层即加入CBAM的特征提取层RetNet34网络进行特征提取,CBAM包含通道注意力模块和空间注意力模块两部分。即输入的特征图x∈Rc×w×h,通过一维通道注意力矩阵Mc∈Rc×1×1和二维空间注意力矩阵Ms∈R1×w×h的串行计算,最终得到输出特征F”,即:
式中,x代表输入特征;F'代表经过通道注意力模块输出的特征;F”代表经过整个注意力机制最后输出的特征;Mc(x)和Ms(x)分别代表通道注意力模块和空间注意力模块的权重系数矩阵。
CBAM的运行流程为:(1)将船牌特征图经过MaxPooling和AveragePooling,然后再经过共享全连接层,最后进行相加操作生成通道注意力特征图;(2)将经过通道注意力模块的特征图作为空间注意力模块的输入,通过基于通道注意力模块的MaxPooling和AveragePooling得到两个特征图,然后对这两个特征图进行通道拼接。随后通过卷积操作进行降维,最后通过加和操作得到特征权值。
将CBAM注意力机制加入特征提取网络,可以帮助特征提取网络更加准确的学习不同区域的特征权重,使得被识别目标区域的特征权重增大,没有识别目标的区域特征权重减小。在船牌号识别过程中,识别网络模型应该着重关注有船牌号文字的区域,故引入CBAM注意力机制,有效提高特征提取网络ResNet34模型在有船牌号文字区域的特征权重,提高了特征提取的有效性。
然后经过循环层(RNN),本发明循环层选用双向长短期记忆神经网络(BiLSTM)。它没有改变LSTM结构,只是将LSTM应用两次且方向不同,将两次得到的LSTM结果拼接作为最终输出。BiLSTM的基本思想是每一个训练的序列向前和向后分别是两个LSTM,而且这两个层均与输入层、输出层相连接。这个结构给输出层提供输入序列中每个点的完整的过去和未来的序列信息。过去和未来相结合得到了输出。BiLSTM的神经元由输入层、隐含层(前向、反向)、输出层组成,前向隐含层和反向隐含层均与输出层相连。
每个时刻向前隐含层的输出由前向隐含层从1时刻到t时刻正向计算一遍得到,每个时刻向后隐含层的输出由后向隐含层沿着时刻t到时刻1反向计算一遍得到。前向层和后向层的相应时刻输出联合得到每个时刻的最终输出,计算公式如下:
ht=f(w1xt+w2Ct-1+w3ht-1)
ht=f(w4xt+w6Ct-1+w7ht-1)
ht=f(w8ht+w5ht)
式中,ht为t时刻的最终输出;w1~w8为运算的权重值;xt为t时刻的输入值;f()为时刻t的遗忘门;Ct-1为t-1时刻的状态单元。
最后经过翻译层(CTC),翻译层是将循环层所做的每帧预测转换成标签序列的过程,根据每帧预测找到概率最高的标签序列。循环层对时序进行预测时,不可避免的会产生多余信息,可能单一字符被接连预测多次,需要引入去冗余机制——blank机制。以“-”符号代表blank,输出序列时,在文本标签中的重复的字符之间插入一个“-”,比如输出序列为“鲁-烟渔-养6-874-6”,则映射输出“鲁”,也就是如果有blank字符隔开,连续相同字符不合并。即对序列先去掉连续相同字符,接着去掉“-”字符,这个称为解码过程,而编码则是由神经网络来实现。引入blank机制,可以很好地解决重复字符的问题。相同的文本标签一定几率具有不同的字符组合如,“66-8”、“6688”及“-688”均表示“68”。也就是说一个文本标签存在一条或多条的路径。
数据集划分模块用于将处理船牌图片数据集划分为训练数据集和测试数据集。对处理船牌图片数据集进行随机划分,划分比例为8:1:1,其中80%作为训练数据集,10%作为测试数据集,10%作为预测数据集。
训练测试识别模块用于基于训练数据集、测试数据集和初始CBAM-CRNN模型,得到识别CBAM-CRNN模型,完成渔船船牌号识别,具体包括:
(一)训练数据集训练,具体包括:
根据S2中的概率分布向量和相应的文本标签得到损失函数,从而训练神经网络初始CBAM-CRNN模型。时序为2的字符识别,有两个时间步长和三个可能的字符为“a”,“b”和“-”,可得两个概率分布向量,如采取最大概率路径解码的方法,则“--”的概率最大,即真实字符为空的概率为0.6*0.6=0.36。但是为字符“a”的情况有多种对齐组合,“aa”,“a-“和“-a”都是代表“a”,所以,输出“a”的概率应该为三种之和:0.4*0.4+0.4*0.6+0.6*0.4=0.64,因此“a”的概率比空“”的概率高。如果标签文本为“a”,则通过计算图像中为“a”的所有可能的对齐组合(或者路径)的分数之和来计算损失函数。所以最后映射为标签文本的总概率为:
其中B-1 (l)代表从序列到序列的映射函数B变换后是文本1的所有路径集合,而π则是其中的一条路径。每条路径的概率为各个时间步中对应字符的分数的乘积。类似普通的分类,CTC的损失函数O定义为负的最大似然,为方便计算,对似然函数取对数,得到:
通过对损失函数的计算,就可以对之前的神经网络进行反向传播,神经网络的参数根据所使用的优化器进行更新,从而找到最可能的像素区域对应的字符。这种通过映射变换和所有可能路径概率之和的方式使得CTC不需要对原始的输入字符序列进行准确的切分。定义为负的最大似然,为方便计算,对似然函数取对数。
最终通过以上超参数的调整,对比得到准确率高的模型,完成初始CBAM-CRNN模型训练,生成训练好的初始CBAM-CRNN模型。
初始CBAM-CRNN模型的训练过程:
(1)首先将训练数据集输入至引入CBAM注意力机制的特征提取网络ResNer34中,通过多个卷积层提取船牌的多维特征;
(2)然后将多维特征经过转化并作为BiLSTM的输入,再由BiLSTM对输入的特征序列进行处理,产生标签分布预测;
(3)最后通过翻译层CTC来获得最大概率,翻译出最终的序列标签“鲁烟渔养68746”;
(4)通过输出结果计算与真实值之间的误差;
(5)误差反向传播,更新各个权值调整初始CBAM-CRNN模型的超参数;
(6)并重复以上步骤,对比误差值最低的模型,完成模型训练,生成训练好的初始CBAM-CRNN模型。
(二)测试数据集测试训练效果,具体包括:
将测试数据集输入至训练好的初始CBAM-CRNN模型,得到船牌文字识别结果,采用准确率作为评价指标,评价训练效果,得到识别CBAM-CRNN模型。准确率(P)的计算公式如下:
式中,TP代表正样本预测为真的情况,FP代表反样本预测为真的情况,FN代表真样本预测为假的情况。
(三)预测数据集预测:
将预测数据集输入至识别CBAM-CRNN模型,完成预测识别。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (5)
1.一种基于深度学习技术的渔船船牌号识别方法,其特征在于,包括以下步骤:
获取船牌图片数据集,对所述船牌图片数据集进行预处理,得到处理船牌图片数据集;
基于所述处理船牌图片数据集,构建初始CBAM-CRNN模型;
将所述处理船牌图片数据集划分为训练数据集和测试数据集;
基于所述训练数据集、所述测试数据集和所述初始CBAM-CRNN模型,得到识别CBAM-CRNN模型,完成渔船船牌号识别;
基于概率分布向量和相应的文本标签得到损失函数,基于损失函数训练所述初始CBAM-CRNN模型;
所述识别CBAM-CRNN模型的卷积层为加入CBAM注意力机制的RetNet34网络;
所述识别CBAM-CRNN模型的循环层为BiLSTM网络;
对所述识别CBAM-CRNN模型的翻译层引入去冗余机制--blank机制,以“-”符号代表blank,输出时,在文本标签重复的字符之间插入一个“-”,用于解决重复字符的问题;
CBAM的运行流程包括:
将船牌特征图经过最大池化、平均池化与共享全连接层,最后进行相加操作生成通道注意力特征图;
将经过通道注意力模块的特征图作为空间注意力模块的输入,通过基于通道注意力模块的最大池化和平均池化得到两个特征图,对所述两个特征图进行通道拼接,利用卷积操作进行降维,通过加和操作得到特征权值。
2.根据权利要求1所述的基于深度学习技术的渔船船牌号识别方法,其特征在于,所述船牌图片数据集为汉字与数字的组合。
3.根据权利要求1所述的基于深度学习技术的渔船船牌号识别方法,其特征在于,所述预处理包括数据清洗,剔除异常图像数据。
4.根据权利要求1所述的基于深度学习技术的渔船船牌号识别方法,其特征在于,所述CBAM注意力机制包括通道注意力机制和空间注意力机制。
5.一种实现权利要求1-4任意一项所述的基于深度学习技术的渔船船牌号识别方法的渔船船牌号识别系统,其特征在于,包括:获取模块、预处理模块、构建模块、数据集划分模块、训练测试识别模块;
所述获取模块用于获取船牌图片数据集;
所述预处理模块用于对所述船牌图片数据集进行预处理,得到处理船牌图片数据集;
所述构建模块用于基于所述处理船牌图片数据集,构建初始CBAM-CRNN模型;
所述数据集划分模块用于将所述处理船牌图片数据集划分为训练数据集和测试数据集;
所述训练测试识别模块用于基于所述训练数据集、所述测试数据集和所述初始CBAM-CRNN模型,得到识别CBAM-CRNN模型,完成渔船船牌号识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211048417.6A CN115424275B (zh) | 2022-08-30 | 2022-08-30 | 一种基于深度学习技术的渔船船牌号识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211048417.6A CN115424275B (zh) | 2022-08-30 | 2022-08-30 | 一种基于深度学习技术的渔船船牌号识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115424275A CN115424275A (zh) | 2022-12-02 |
CN115424275B true CN115424275B (zh) | 2024-02-02 |
Family
ID=84200444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211048417.6A Active CN115424275B (zh) | 2022-08-30 | 2022-08-30 | 一种基于深度学习技术的渔船船牌号识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115424275B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116453105B (zh) * | 2023-06-20 | 2023-08-18 | 青岛国实科技集团有限公司 | 基于知识蒸馏深度神经网络的船牌号识别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598693A (zh) * | 2019-08-12 | 2019-12-20 | 浙江工业大学 | 一种基于Faster-RCNN的船牌识别方法 |
CN112183233A (zh) * | 2020-09-09 | 2021-01-05 | 上海鹰觉科技有限公司 | 基于深度学习的船牌识别方法及系统 |
CN112232269A (zh) * | 2020-10-29 | 2021-01-15 | 南京莱斯网信技术研究院有限公司 | 一种基于孪生网络的船舶身份智能识别方法及系统 |
CN112633277A (zh) * | 2020-12-30 | 2021-04-09 | 杭州电子科技大学 | 基于深度学习的航道船牌检测、定位及识别方法 |
CN114943990A (zh) * | 2022-06-23 | 2022-08-26 | 天津理工大学 | 基于ResNet34网络-注意力机制的连续手语识别方法及装置 |
-
2022
- 2022-08-30 CN CN202211048417.6A patent/CN115424275B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598693A (zh) * | 2019-08-12 | 2019-12-20 | 浙江工业大学 | 一种基于Faster-RCNN的船牌识别方法 |
CN112183233A (zh) * | 2020-09-09 | 2021-01-05 | 上海鹰觉科技有限公司 | 基于深度学习的船牌识别方法及系统 |
CN112232269A (zh) * | 2020-10-29 | 2021-01-15 | 南京莱斯网信技术研究院有限公司 | 一种基于孪生网络的船舶身份智能识别方法及系统 |
CN112633277A (zh) * | 2020-12-30 | 2021-04-09 | 杭州电子科技大学 | 基于深度学习的航道船牌检测、定位及识别方法 |
CN114943990A (zh) * | 2022-06-23 | 2022-08-26 | 天津理工大学 | 基于ResNet34网络-注意力机制的连续手语识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
杨志婥琪 等.融合文本特征的老挝语文字识别方法研究.小型微型计算机系统.2022,第723-730页. * |
Also Published As
Publication number | Publication date |
---|---|
CN115424275A (zh) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414432B (zh) | 对象识别模型的训练方法、对象识别方法及相应的装置 | |
CN112100346B (zh) | 基于细粒度图像特征和外部知识相融合的视觉问答方法 | |
CN111985369A (zh) | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 | |
Al-Haija et al. | Multi-class weather classification using ResNet-18 CNN for autonomous IoT and CPS applications | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN110569738A (zh) | 基于密集连接网络的自然场景文本检测方法、设备和介质 | |
CN111325766B (zh) | 三维边缘检测方法、装置、存储介质和计算机设备 | |
CN110188827A (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
CN113159023A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN113065550A (zh) | 基于自注意力机制的文本识别方法 | |
CN115482418B (zh) | 基于伪负标签的半监督模型训练方法、系统及应用 | |
CN115424275B (zh) | 一种基于深度学习技术的渔船船牌号识别方法及系统 | |
CN114973222A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN116189162A (zh) | 一种船牌检测与识别方法、装置、电子设备和储存介质 | |
CN115238888A (zh) | 图像分类模型的训练方法、使用方法、装置、设备及介质 | |
CN115147601A (zh) | 基于自注意力全局特征增强的城市街道点云语义分割方法 | |
CN112801029B (zh) | 基于注意力机制的多任务学习方法 | |
CN115115863A (zh) | 水面多尺度目标检测方法、装置及系统和存储介质 | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
CN113436115A (zh) | 一种基于深度无监督学习的图像阴影检测方法 | |
CN111242114B (zh) | 文字识别方法及装置 | |
CN111259938A (zh) | 基于流形学习和梯度提升模型的图片偏多标签分类方法 | |
Li et al. | A new algorithm of vehicle license plate location based on convolutional neural network | |
CN115862015A (zh) | 文字识别系统的训练方法及装置、文字识别方法及装置 | |
CN115374943A (zh) | 一种基于域对抗迁移网络的数据认知计算方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |