CN112183233A

CN112183233A - 基于深度学习的船牌识别方法及系统

Info

Publication number: CN112183233A
Application number: CN202010943214.8A
Authority: CN
Inventors: 林德银; 邬营波; 孙林; 王林; 钱亮
Original assignee: Anhui Yingjue Technology Co ltd; Shanghai Yingjue Technology Co ltd
Current assignee: Anhui Yingjue Technology Co ltd; Shanghai Yingjue Technology Co ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2021-01-05

Abstract

本发明提供了一种基于深度学习的船牌识别方法及系统，包括以下步骤：数据采集步骤：通过光电采集设备采集到包含船只的图片；标记训练集步骤：对图片中船牌的文字内容进行标记，形成数据训练集；图片处理步骤：将标记过的图片通过灰度、增强等处理后，凸显其文本内容的边界特征；文字区域检测步骤：采用CTPN(一种文字检测网络)网络模型检测出船牌文字区域，输出结果作为下一步文字识别网络的输入使用；训练文字识别模型步骤：基于深度学习网络，使用划分好的数据集进行训练，获得预测模型；文字矫正处理步骤：分别对文字区域和字体进行倾斜矫正；预测船牌步骤：将矫正处理后的文字区域图片输入预测模型进行识别，输出船牌文字内容。

Description

基于深度学习的船牌识别方法及系统

技术领域

本发明涉及深度学习、自然环境文字识别领域，具体地，涉及一种基于深度学习的船牌识别方法及系统。

背景技术

我国水运资源丰富，水路运输具有运能大、占地少、能耗低、污染小等特点，一直是客货运输的一种极为重要的方式，在我国综合交通运输体系中具有举足轻重的地位和作用。近年来，我国的船运行业更是愈加发达，各类型船舶穿梭于大江大河以及各大海港之间。船只通常采取关闭AIS等已有检测设备的方式，避开监管系统。虽然现在的港口和岸边拥有很多监控和雷达设备，但是全凭人工识别去发现和跟踪非法船只难度较大。随着大数据和人工智能的发展，以人工智能代替人工识别来提高监管效率必将是未来的发展方向。但是在这个过程中，如何高效准确的识别出这些船只的船牌，就成了这项技术的一个关键技术难点。

公开号为CN110245613A的专利文献“基于深度学习特征对比的船牌识别方法” 公开了一种采用深度学习卷积神经网络技术构建船只船牌检测模型及船牌字符识别模型，解决的是将待识别船牌字符的数字识别和汉字识别分开处理，保证训练效率和收敛速度的问题，与本发明要解决的问题并不一致。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于深度学习的船牌识别方法及系统。

根据本发明的一个方面，提供的一种基于深度学习的船牌识别方法，包括如下步骤：

数据采集步骤：通过光电采集设备采集包含船只的船舶图片；

标记训练集步骤：对船舶图片中船牌的文字内容进行标记，形成数据训练集；

图片处理步骤：将标记过的船舶图片通过灰度、增强等处理操作后，凸显文本内容的边界特征；

文字区域检测步骤：对经过图片处理步骤处理过的船舶图片，采用CTPN文字检测网络模型检测出船舶图片中的船牌文字区域，检测结果作为训练文字识别模型步骤的输入使用；

训练文字识别模型步骤：基于深度学习网络，使用检测结果进行训练，获得文字识别预测模型；

文字矫正处理步骤：对待识别船舶图片中的船牌文字区域进行整体倾斜矫正以及文字本身的字体倾斜矫正；

预测船牌步骤：将文字矫正处理后的检测结果输入文字识别预测模型进行识别，输出船牌文字内容。

优选地，所述数据采集步骤中，所述船舶图片包括两部分，一部分是直接使用带有抓拍功能的成像设备抓拍所得的照片，另一部分是光电视频采集设备获取的视频，从中截取出包含船只的帧图片。

优选地，所述从中截取出包含船只的帧图片，包括采用三帧差分算法，记获取视频序列中某第n-1帧、第n帧和第n+1帧图片对应为f_n-1、f_n和f_n+1，三帧对应像素点的灰度值记为f_n-1(x,y)、f_n(x,y)和f_n+1(x,y)，其中x为获取的帧图片中像素点的横坐标值， y为获取的帧图片中像素点的纵坐标值,将第n-1帧和第n帧相减取绝对值获得D_n，第n 帧和第n+1帧相减取绝对值获得D_n+1，D_n与D_n+1取交集D，结果D大于设定阀值的就是目标，最终通过连续性分析得到符合要求的图片，所述设定阀值需要依据不同环境因素取值。

优选地，所述标记训练集步骤中，使用ImageLab标记软件，对上一步收集到的船舶图片进行人工标注，标注出船牌的文字内容，标注结果输出至XML文件中保存，一张船舶图片对应与一个XML文件建立联系。

优选地，所述图片处理步骤中，包括：

图片灰度处理子步骤：对图片进行一次预处理，将图片灰度化，仅由一个分量表示出来，采用平均值灰度法，公式为Gray(x,y)＝(R(x,y)+G(x,y)+B(x,y))/3，将彩色图片中的三分量亮度求平均得到一个灰度值，最终得到灰度后的图片，所述x表示像素点的横坐标，所述y表示像素点的纵坐标，所述R是红色分量，所述G是绿色分量，所述B是蓝色分量；

图片增强处理子步骤：将图片灰度处理子步骤处理得到的灰度图片进行增强处理，采用灰度直方图均衡化算法实现细节增强，包括：

首先，统计原始图像各灰度级的像素数目n_i，0≤i＜L，L是图像中所有的灰度数，通常为256；

然后，图像中灰度为i的像素的出现概率是：

n是图像中所有的像素数，p_z(i)实际上是像素值为i的图像的直方图，归一化到[0，1]，其中z表示概率函数的自变量；

接着，p_z的累积分布函数

是图像的累计归一化直方图；

最后，直方图均衡化计算公式

中，cdf_min为累积分布函数最小值，M和N分别代表了图像的长宽像素个数，L是灰度级数，如图像为8位深度，则灰度级别共有2^8＝256级数，这也是最常见的灰度级数，v为原始图像中为v的像素值。

优选地，所述文字区域检测步骤中，所述采用CTPN文字检测网络模型检测出船舶图片中的船牌文字区域，包括文字区域检测采用成熟的CTPN文字检测算法实现，将标记过船牌文字内容的训练集图片输入准备好的CTPN文字检测模型中，得到船牌文字内容的坐标位置信息，并输入所述船舶图片对应的XML文件中作为训练集数据保存。

优选地，所述训练文字识别模型步骤包括：

预处理子步骤：所述训练集数据在输入船牌识别网络进行训练之前，需要进行一次预处理，依据所述船舶图片对应XML文件中存储的文字区域信息进行图片截取，设截取的图片宽为W，高为H，再对截取出的图片进行统一高度的缩放处理，使高度缩放到32，宽度等比缩放至W*H/32尺寸，形成高度统一宽度不定的训练集数据，把训练集数据输入船牌训练网络进行训练；

文字识别网络结构搭建子步骤：船牌识别网络结构包括7个Conv层、4个 Max-Pooling层、2个Bn层、2个双向LSTM网络和CTC loss转录层；其中CNN卷积层，使用深度CNN，对输入图像提取特征，得到特征图；其中RNN循环层，使用双向RNN，包含BLSTM，对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签包含真实值分布；所述的CTC loss转录层，使用CTC损失，把RNN循环层获取的一系列标签分布转换成最终的标签序列；

接入relu函数子步骤：所述的Conv层，在每一层卷积层后面都接入了relu函数，解决梯度消失问题，使网络具有稀疏性；

引入BatchNormalization模块子步骤：在第Conv5和Conv6卷积层后面引入了BatchNormalization模块，用于加速模型的收敛，缩短训练过程；

池化层尺寸选取子步骤：所述的Max-Pooling层，窗口尺寸选取2*2，适合整体方正的汉字对象识别；

CNN处理子步骤：输入预处理子步骤得到的训练集数据，图片通过CNN后，高度由32变为1，所以CNN的输入数据尺寸为(channel，height，width)＝(1，32，width)， CNN的输出尺寸为(512，1，width/4)，CNN最后得到的是512个特征图；

RNN处理子步骤：将CNN得到的特征图输入到RNN进行训练，在此之前，需要先从CNN产生的特征图中提取特征向量序列，每一个特征向量在特征图上按列从左到右生成，每一列包含512维特征，第i个特征向量是所有的特征图第i列像素的连接，这些特征向量就构成了一个特征向量序列，这些特征向量序列，就作为RNN循环层的输入，每个特征向量作为RNN在一个时间步，也就是time step的输入；

LSTM处理子步骤：RNN中存在梯度消失的问题，不能获取更多的上下文信息，船牌识别网络使用的是LSTM来解决这个问题，LSTM的特殊设计允许它捕获长距离依赖；这里采用的是两层各256单元的双向LSTM网络，经过RNN处理子步骤，得到了t个特征向量，每个特征向量长度为512，LSTM中一个时间步就传入一个特征向量行分类，即t个时间步；根据输入的特征向量来进行预测，每个时间步都会有一个输入特征向量 X_t，输出一个所有字符的概率分布Y_t，其结果为长度为字符类别数的向量，得到所有字符的softmax的概率分布，即输出t个长度为字符类别数的向量构成的后验概率矩阵,作为下一层CTC loss转录层的输入使用；

CTC loss转录层处理子步骤：LSTM处理子步骤的结果输入CTC loss转录层进行训练，将RNN对每个特征向量所做的预测转换成标签序列，即找到具有最高概率组合的标签序列；因为训练样本是统一高度32，长度不固定的图片，而CTC是一种不需要对齐的Loss计算方法，用CTC代替Softmax Loss，解决了训练样本不对齐的问题；对于LSTM处理子步骤中，RNN训练给出的概率分布为Y＝{Y₁,Y₂,…,Y_t}，t是序列的长度，最后映射成标签文本l的总概率为：

其中

代表从序列到序列的映射函数B变换后是文本的l的所有路径集合，π是其中的一条路径，每条路径的概率为各个时间步中对应字符的分数的乘积；CTC网络的的损失函O数定义为概率的负最大似然数并取对数，O＝-ln(∏_(a,b)∈Sp(l|a))＝-∑_(a,b)∈Slnp(l|a)，其中a为时序长度为t的输入序列，b为时序长度为t的输出序列，S为所有可能的输入输出序列的定义域，其原理是通过计算所有的输入输出定义域，得到计算结果与实际值最接近的可能，即概率最大的情况；通过对损失函数的计算，就可以对之前的神经网络进行反向传播，比对存储在XML文件中的实际文本内容，神经网络的参数根据所使用的优化器进行更新，从而找到最可能的像素区域对应的字符，在整个网络的输出阶段经过CTC网络的翻译，将网络学习到的序列特征信息转化为最终的识别文本；

输出子步骤：经过整个船牌识别网络的训练输出，得到最终的识别文本，将识别出的结果保存进之前存储的XML文件中，根据之前保存的包含位置信息的XML文本，可编写程序在原图的对应位置画框标记，并添加识别出的文本信息，并最终可视化输出。

优选地，所述文字矫正处理步骤包括：

文字区域的整体倾斜矫正子步骤，包括：目标图片在输入船牌识别网络预测模型之前需要做一次文字区域的矫正处理；根据所述文字区域检测步骤中获取的文字区域，其左下角坐标为(x₁,y₁)，右下角坐标为(x₂,y₂)，左上角坐标为(x₃,y₃)，右上角坐标为 (x₄,y₄)，则很容易得到文字区域框的中心点坐标C的坐标为

设文本区域框与水平方向上的倾斜夹角为α，根据几何原理得出计算公式

反三角函数得到倾斜夹角α的实际角度值；以坐标C为中心，若y₁-y₂＞0,则文字区域框图逆时针旋转α角度，若y₁-y₂<0,则文字区域框图顺时针旋转α角度，此时便获取到矫正后的船牌坐标区域截图；

文字区域的文字本身倾斜矫正子步骤，包括：

首先，将文字图片进行滤波和二值化处理；

然后，使用图像模糊算法对其进行水平模糊，从而将文字图像上长度小于某一域值的连续黑点转为白点，图像上距离相近的连通成份将会形成为一较大的连通区域；

接着，使用水平投影算法对连通区域进行图像垂直投影，根据垂直投影的测角原理计算出倾斜字体的角度；

最后，根据倾斜角对文本区域的原图进行像素坐标的空间转换，并采用双线性插值来降低转换过程中的失真问题，并对校正后的图像进行平滑处理，以消除插值带来的毛刺点。

优选地，所述预测船牌步骤包括：经过训练文字识别模型步骤中神经网络的反复训练，获取并保存最终的训练模型结果作为预测模型，组合图片处理步骤、文字区域检测步骤、训练文字识别模型步骤中的预处理子步骤、文字矫正处理步骤，将矫正后的文字区域图输入预测模型，形成一个需输入图片能够输出船牌的识别系统，将包含船牌的船只图片输入识别系统，能够识别并输出船牌的内容。

根据本发明的另一个方面，提供一种基于深度学习的船牌识别系统，包括以下模块：

数据采集模块：通过光电采集设备采集包含船只的船舶图片；

标记训练集模块：对船舶图片中船牌的文字内容进行标记，形成数据训练集；

图片处理模块：将标记过的船舶图片通过灰度、增强处理操作，凸显出文本内容的边界特征；

文字区域检测模块：对经过图片处理模块处理过的船舶图片，采用CTPN文字检测网络模型检测出船舶图片中的船牌文字区域，检测结果作为训练文字识别模型模块的输入使用；

训练文字识别模型模块：基于深度学习网络，使用检测结果进行训练，获得文字识别预测模型；

文字矫正处理模块：对待识别船舶图片中的船牌文字区域进行整体倾斜矫正以及文字本身的字体倾斜矫正；

预测船牌模块：将文字矫正处理后的检测结果输入文字识别预测模型进行识别，输出船牌文字内容。

与现有技术相比，本发明具有如下的有益效果：

1.本发明通过对船舶图片的处理，检测文字区域并进行文字识别训练，最终实现船牌内容识别；

2.本发明针对船牌识别设计深度学习网络，通过对训练图片的预处理以及对船牌文字区域的矫正操作，降低了训练任务量也提高了预测模型识别船牌的正确率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的方法逻辑图；

图2为本发明的船牌识别网络部分网络结构图；

图3为灰度化后的图片；

图4为增强后的图片；

图5为输入船牌识别网络高度为32的训练图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

在本实施例中，基于深度学习的船牌识别方法流程图如图1所示，包括如下步骤：

数据采集步骤：通过港口的光电采集设备采集到包含船只的船舶图片；标记训练集步骤：采用ImageLab软件对船舶图片中船牌的文字内容进行标记，形成数据训练集；图片处理步骤：将标记过的船舶图片通过灰度、增强等处理操作后，凸显文本内容的边界特征；文字区域检测步骤：对经过图片处理步骤处理过的船舶图片，采用CTPN文字检测网络模型检测出船舶图片中的船牌文字区域，检测结果作为下一步训练文字识别模型步骤的输入使用；训练文字识别模型步骤：基于深度学习网络，使用检测结果进行训练，获得文字识别预测模型；文字矫正处理步骤：对待识别船舶图片中的船牌文字区域进行整体倾斜矫正以及文字本身的字体倾斜矫正；预测船牌步骤：将文字矫正处理后的检测结果输入文字识别预测模型进行识别，输出船牌文字内容。

在数据采集步骤中，本实施例中采用直接使用带有抓拍功能的成像设备抓拍所得的照片。

在标记训练集步骤中，采用ImageLab软件对船舶图片中船牌的文字内容进行标记，形成数据训练集，包括使用ImageLab标记软件，对上一步收集到的船舶图片进行人工标注，标注出船牌的文字内容，标注结果输出至XML文件中保存，一张船舶图片对应与一个XML文件建立联系。

在图片处理步骤中，包括：图片灰度处理子步骤：由于所获取的图片为彩色图片，包含RGB三色通道，对于计算机来说，彩色图片包含的信息量较大，在处理图像时，需要分别对RGB三种分量进行处理，直接使用彩色图片进行训练会加大训练难度和任务量，实际上RGB并不能反映图像的形态特征，只是从光学原理上进行颜色调配，因此对图片进行一次预处理，将图片灰度化，仅由一个分量表示出来，这极大的减小了任务量，采用平均值灰度法，公式为Gray(x,y)＝(R(x,y)+G(x,y)+B(x,y))/3，将彩色图片中的三分量亮度求平均得到一个灰度值，最终得到灰度后的图片，如图3所示，所述x表示像素点的横坐标，所述y表示像素点的纵坐标，R是红色分量，G是绿色分量， B是蓝色分量；图片增强处理子步骤：将图片灰度处理子步骤处理得到的灰度图片进行增强处理，采用灰度直方图均衡化算法实现细节增强，包括：首先，统计原始图像各灰度级的像素数目n_i，0≤i<L，L是图像中所有的灰度数，通常为256；然后，图像中灰度为i的像素的出现概率是:

n是图像中所有的像素数，p_z(i)实际上是像素值为i的图像的直方图，归一化到[0,1]，其中z表示概率函数的自变量；接着， p_z的累积分布函数

是图像的累计归一化直方图；最后，直方图均衡化计算公式

中，cdf_min为累积分布函数最小值， M和N分别代表了图像的长宽像素个数，L是灰度级数，如图像为8位深度，则灰度级别共有2^8＝256级数，这也是最常见的灰度级数，v为原始图像中为v的像素值，处理后的图片如图4所示。

在文字区域检测步骤中，采用CTPN文字检测网络模型检测出船舶图片中的船牌文字区域，包括文字区域检测采用成熟的CTPN文字检测算法实现，将标记过船牌文字内容的训练集图片输入准备好的CTPN文字检测模型中，得到船牌文字内容的坐标位置信息，并输入船舶图片对应的XML文件中作为训练集数据保存。

在训练文字识别模型步骤中，首先进行预处理操作:训练集数据在输入船牌识别网络进行训练之前，需要进行一次预处理，依据船舶图片对应XML文件中存储的文字区域信息进行图片截取，设截取的图片宽为W，高为H，再对截取出的图片进行统一高度的缩放处理，使高度缩放到32，宽度等比缩放至W*H/32尺寸，形成高度统一宽度不定的训练集数据，把训练集数据输入船牌训练网络进行训练，截取并缩放处理后的文字图片如图5所示；然后搭建文字识别网络结构:如图2所示，船牌识别网络结构包括7个Conv 层、4个Max-Pooling层、2个Bn层、2个双向LSTM网络和CTC loss转录层；其中CNN 卷积层，使用深度CNN，对输入图像提取特征，得到特征图；其中RNN循环层，使用双向RNN，包含BLSTM，对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签包含真实值分布；的CTCloss转录层，使用CTC损失，把RNN循环层获取的一系列标签分布转换成最终的标签序列；接入relu函数子步骤：的Conv层，在每一层卷积层后面都接入了relu函数，解决梯度消失问题，使网络具有稀疏性；引入 BatchNormalization模块子步骤：在第Conv5和Conv6卷积层后面引入了 BatchNormalization模块，用于加速模型的收敛，缩短训练过程；池化层尺寸选取子步骤：的Max-Pooling层，窗口尺寸选取2*2，适合整体方正的汉字对象识别；CNN处理子步骤：输入预处理子步骤得到的训练集数据，图片通过CNN后，高度由32变为1，所以CNN的输入数据尺寸为(channel，height，width)＝(1，32，width)，CNN的输出尺寸为(512，1，width/4)，CNN最后得到的是512个特征图；RNN处理子步骤：将CNN 得到的特征图输入到RNN进行训练，在此之前，需要先从CNN产生的特征图中提取特征向量序列，每一个特征向量在特征图上按列从左到右生成，每一列包含512维特征，第 i个特征向量是所有的特征图第i列像素的连接，这些特征向量就构成了一个特征向量序列，这些特征向量序列，就作为RNN循环层的输入，每个特征向量作为RNN在一个时间步，也就是time step的输入；LSTM处理子步骤：因为RNN中存在梯度消失的问题，不能获取更多的上下文信息，所以船牌识别网络使用的是LSTM，LSTM的特殊设计允许它捕获长距离依赖；这里采用的是两层各256单元的双向LSTM网络，经过RNN 处理子步骤，得到了t个特征向量，每个特征向量长度为512，LSTM中一个时间步就传入一个特征向量行分类，即t个时间步；根据输入的特征向量来进行预测，每个时间步都会有一个输入特征向量X_t，输出一个所有字符的概率分布Y_t，其结果为长度为字符类别数的向量，得到所有字符的softmax的概率分布，即输出t个长度为字符类别数的向量构成的后验概率矩阵,作为下一层CTC loss转录层的输入使用；CTCloss转录层处理子步骤：LSTM处理子步骤的结果输入CTC loss转录层进行训练，将RNN对每个特征向量所做的预测转换成标签序列，即找到具有最高概率组合的标签序列；因为训练样本是统一高度32，长度不固定的图片，而CTC是一种不需要对齐的Loss计算方法，用CTC代替Softmax Loss，解决了训练样本不对齐的问题；对于LSTM处理子步骤中， RNN训练给出的概率分布为Y＝{Y₁,Y₂,…,Y_t}，t是序列的长度，最后映射成标签文本l的总概率为：

其中

代表从序列到序列的映射函数B变换后是文本的l的所有路径集合，π是其中的一条路径，每条路径的概率为各个时间步中对应字符的分数的乘积；CTC网络的的损失函O数定义为概率的负最大似然数并取对数，

其中a为时序长度为t的输入序列，b为时序长度为t的输出序列，S为所有可能的输入输出序列的定义域，其原理是通过计算所有的输入输出定义域，得到计算结果与实际值最接近的可能，即概率最大的情况；通过对损失函数的计算，就可以对之前的神经网络进行反向传播，比对存储在XML文件中的实际文本内容，神经网络的参数根据所使用的优化器进行更新，从而找到最可能的像素区域对应的字符，在整个网络的输出阶段经过CTC网络的翻译，将网络学习到的序列特征信息转化为最终的识别文本；输出子步骤：经过整个船牌识别网络的训练输出，得到最终的识别文本，将识别出的结果保存进之前存储的XML文件中，根据之前保存的包含位置信息的XML文本，可编写程序在原图的对应位置画框标记，并添加识别出的文本信息，并最终可视化输出。

在文字矫正处理步骤中，先执行文字区域的整体倾斜矫正子步骤，由于水面上环境复杂，波浪抬高因素以及各种船只的朝向不确定，所捕捉到的图片中的船牌通常具有一定的倾斜度，因此文字区域检测步骤中获取的船牌区域坐标框存在一定的倾斜角度，为了使训练好的船牌识别网络模型能够更加精确的识别出船牌内容，目标图片在输入船牌识别网络预测模型之前需要做一次文字区域的矫正处理；根据文字区域检测步骤中获取的文字区域，其左下角坐标为(x₁,y₁)，右下角坐标为(x₂,y₂)，左上角坐标为(x₃,y₃)，右上角坐标为(x₄,y₄)，则很容易得到文字区域框的中心点坐标C的坐标为

设文本区域框与水平方向上的倾斜夹角为α，根据几何原理可得出计算公式

反三角函数得到倾斜夹角α的实际角度值；以坐标C为中心，若y₁- y₂＞0,则文字区域框图逆时针旋转α角度，若y₁-y₂<0,则文字区域框图顺时针旋α角度，此时便获取到矫正后的船牌坐标区域截图；再执行文字区域的文字本身倾斜矫正子步骤，由于人工书写或者字体本身倾斜的原因，船牌的文字存在朝不同方向的固定倾斜现象，这依旧加大了船牌识别网络预测模型对其识别的难度，因此需要继续对文字区域的截图进行文字本身的矫正操作，首先，将文字图片进行滤波和二值化处理；然后，使用图像模糊算法对其进行水平模糊，从而将文字图像上长度小于某一域值的连续黑点转为白点，图像上距离相近的连通成份将会形成为一较大的连通区域；接着，使用水平投影算法对连通区域进行图像垂直投影，根据垂直投影的测角原理计算出倾斜字体的角度；最后，根据倾斜角对文本区域的原图进行像素坐标的空间转换，并采用双线性插值来降低转换过程中的失真问题，并对校正后的图像进行平滑处理，以消除插值带来的毛刺点。

最后，经过训练文字识别模型步骤中神经网络的反复训练，获取并保存最终的训练模型结果作为预测模型，组合图片处理步骤、文字区域检测步骤、训练文字识别模型步骤中的预处理子步骤、文字矫正处理步骤，将矫正后的文字区域图输入预测模型，形成一个需输入图片能够输出船牌的识别系统，将包含船牌的船只图片输入识别系统，能够识别并输出船牌的内容。

本发明还提供了一种基于深度学习的船牌识别系统，包括以下模块：

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于深度学习的船牌识别方法，其特征在于，包括：

图片处理步骤：将标记过的船舶图片通过灰度、增强处理操作，凸显出文本内容的边界特征；

2.根据权利要求1所述的一种基于深度学习的船牌识别方法，其特征在于，所述数据采集步骤中，所述船舶图片包括两部分，一部分是直接使用带有抓拍功能的成像设备抓拍所得的照片，另一部分是光电视频采集设备获取的视频，从中截取出包含船只的帧图片。

3.根据权利要求2所述的一种基于深度学习的船牌识别方法，其特征在于，所述从中截取出包含船只的帧图片，包括采用三帧差分算法，记获取视频序列中某第n-1帧、第n帧和第n+1帧图片对应为f_n-1、f_n和f_n+1，三帧对应像素点的灰度值分别记为f_n-1(x,y)、f_n(x,y)和f_n+1(x,y)，其中x为获取的帧图片中像素点的横坐标值，y为获取的帧图片中像素点的纵坐标值，将第n-1帧和第n帧相减取绝对值获得D_n，第n帧和第n+1帧相减取绝对值获得D_n+1，D_n与D_n+1取交集D，结果D大于设定阀值的就是目标帧图片，最终通过连续性分析得到符合要求的图片，所述设定阀值需要依据不同环境因素取值。

4.根据权利要求3所述的一种基于深度学习的船牌识别方法，其特征在于，所述标记训练集步骤中，使用ImageLab标记软件，对上一步收集到的船舶图片进行人工标注，标注出船牌的文字内容，标注结果输出至XML文件中保存，一张船舶图片对应与一个XML文件建立联系。

5.根据权利要求4所述的一种基于深度学习的船牌识别方法，其特征在于，所述图片处理步骤中，包括：

统计原始图像各灰度级的像素数目n_i，0≤i<L，L是图像中所有的灰度数；

图像中灰度为i的像素的出现概率是:

n是图像中所有的像素数，p_z(i)实际上是像素值为i的图像的直方图，归一化到[0,1]，其中z表示概率函数的自变量；

p_z的累积分布函数

是图像的累计归一化直方图；

直方图均衡化计算公式

6.根据权利要求5所述的一种基于深度学习的船牌识别方法，其特征在于，所述文字区域检测步骤中，所述采用CTPN文字检测网络模型检测出船舶图片中的船牌文字区域，包括文字区域检测采用成熟的CTPN文字检测算法实现，将标记过船牌文字内容的训练集图片输入准备好的CTPN文字检测模型中，得到船牌文字内容的坐标位置信息，并输入所述船舶图片对应的XML文件中作为训练集数据保存。

7.根据权利要求6所述的一种基于深度学习的船牌识别方法，其特征在于，所述训练文字识别模型步骤包括：

预处理子步骤:所述训练集数据在输入船牌识别网络进行训练之前，需要进行一次预处理，依据所述船舶图片对应XML文件中存储的文字区域信息进行图片截取，设截取的图片宽为W，高为H，再对截取出的图片进行统一高度的缩放处理，使高度缩放到32，宽度等比缩放至W*H/32尺寸，形成高度统一宽度不定的训练集数据，把训练集数据输入船牌训练网络进行训练；

文字识别网络结构搭建子步骤:船牌识别网络结构包括7个Conv层、4个Max-Pooling层、2个Bn层、2个双向LSTM网络和CTC loss转录层；其中CNN卷积层，使用深度CNN，对输入图像提取特征，得到特征图；其中RNN循环层，使用双向RNN，包含BLSTM，对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签包含真实值分布；所述的CTC loss转录层，使用CTC损失，把RNN循环层获取的一系列标签分布转换成最终的标签序列；

CNN处理子步骤：输入预处理子步骤得到的训练集数据，图片通过CNN后，高度由32变为1，所以CNN的输入数据尺寸为(channel，height，width)＝(1，32，width)，CNN的输出尺寸为(512，1，width/4)，CNN最后得到的是512个特征图；

LSTM处理子步骤：RNN中存在梯度消失的问题，不能获取更多的上下文信息，船牌识别网络使用的是LSTM来解决这个问题，LSTM的特殊设计允许它捕获长距离依赖；这里采用的是两层各256单元的双向LSTM网络，经过RNN处理子步骤，得到了t个特征向量，每个特征向量长度为512，LSTM中一个时间步就传入一个特征向量行分类，即t个时间步；根据输入的特征向量来进行预测，每个时间步都会有一个输入特征向量X_t，输出一个所有字符的概率分布Y_t，其结果为长度为字符类别数的向量，得到所有字符的softmax的概率分布，即输出t个长度为字符类别数的向量构成的后验概率矩阵,作为下一层CTC loss转录层的输入使用；

CTC loss转录层处理子步骤：LSTM处理子步骤的结果输入CTC loss转录层进行训练，将RNN对每个特征向量所做的预测转换成标签序列，即找到具有最高概率组合的标签序列；训练样本是统一高度32，长度不固定的图片，而CTC是一种不需要对齐的Loss计算方法，用CTC代替Softmax Loss，解决了训练样本不对齐的问题；对于LSTM处理子步骤中，RNN训练给出的概率分布为Y＝{Y₁,Y₂,…,Y_t}，t是序列的长度，最后映射成标签文本l的总概率为：

其中

代表从序列到序列的映射函数B变换后是文本的l的所有路径集合，π是其中的一条路径，每条路径的概率为各个时间步中对应字符的分数的乘积；CTC网络的的损失函O数定义为概率的负最大似然数并取对数，O＝-ln(∏_(a,b)∈sp(l|a))＝-∑_(a,b)∈Slnp(l|a)，其中a为时序长度为t的输入序列，b为时序长度为t的输出序列，S为所有可能的输入输出序列的定义域，其原理是通过计算所有的输入输出定义域，得到计算结果与实际值最接近的可能，即概率最大的情况；通过对损失函数的计算，就能够对之前的神经网络进行反向传播，比对存储在XML文件中的实际文本内容，神经网络的参数根据所使用的优化器进行更新，从而找到像素区域对应的概率最高的字符，在整个网络的输出阶段经过CTC网络的翻译，将网络学习到的序列特征信息转化为最终的识别文本；

输出子步骤：经过整个船牌识别网络的训练输出，得到最终的识别文本，将识别出的结果保存进之前存储的XML文件中，根据之前保存的包含位置信息的XML文本，编写程序在原图的对应位置画框标记，并添加识别出的文本信息，并最终可视化输出。

8.根据权利要求7所述的一种基于深度学习的船牌识别方法，其特征在于，所述文字矫正处理步骤包括：

文字区域的整体倾斜矫正子步骤，包括：目标图片在输入船牌识别网络预测模型之前需要做一次文字区域的矫正处理；根据所述文字区域检测步骤中获取的文字区域，其左下角坐标为(x₁,y₁)，右下角坐标为(x₂,y₂)，左上角坐标为(x₃,y₃)，右上角坐标为(x₄,y₄)，则得到文字区域框的中心点坐标C的坐标为

反三角函数得到倾斜夹角α的实际角度值；以坐标C为中心，若y₁-y₂＞0,则文字区域框图逆时针旋转α角度，若y₁-y₂<0,则文字区域框图顺时针旋转α角度，此时获取到矫正后的船牌坐标区域截图；

文字区域的文字本身倾斜矫正子步骤，包括：

将文字图片进行滤波和二值化处理；

使用图像模糊算法对其进行水平模糊，从而将文字图像上长度小于某一域值的连续黑点转为白点，图像上距离相近的连通成份将会形成为一较大的连通区域；

使用水平投影算法对连通区域进行图像垂直投影，根据垂直投影的测角原理计算出倾斜字体的角度；

根据倾斜角对文本区域的原图进行像素坐标的空间转换，并采用双线性插值来降低转换过程中的失真问题，并对校正后的图像进行平滑处理，以消除插值带来的毛刺点。

9.根据权利要求8所述的一种基于深度学习的船牌识别方法，其特征在于，所述预测船牌步骤包括：经过训练文字识别模型步骤中神经网络的反复训练，获取并保存最终的训练模型结果作为预测模型，组合图片处理步骤、文字区域检测步骤、训练文字识别模型步骤中的预处理子步骤、文字矫正处理步骤，将矫正后的文字区域图输入预测模型，形成一个需输入图片能够输出船牌的识别系统，将包含船牌的船只图片输入识别系统，能够识别并输出船牌的内容。

10.一种基于深度学习的船牌识别系统，其特征在于，包括：