CN112183549A

CN112183549A - 一种基于语义分割的境外驾驶证版面文字定位方法

Info

Publication number: CN112183549A
Application number: CN202011152318.3A
Authority: CN
Inventors: 钱彬; 王军华; 顾席光; 虞力英; 江帆
Original assignee: Traffic Management Research Institute of Ministry of Public Security
Current assignee: Traffic Management Research Institute of Ministry of Public Security
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-01-05
Anticipated expiration: 2040-10-26
Also published as: CN112183549B

Abstract

本发明提供一种基于语义分割的境外驾驶证版面文字定位方法，其可以快速定位驾驶证板面文字，同时能够适应多种尺寸文字，定位精度高，且鲁棒性强、计算效率快。本发明技术方案中，基于文字定位模型中的窄层子网络实现对小目标文字的定位，通过文字定位模型中的深层子网络实现对普通尺寸文字的定位，两个子网络最终通过基于注意力机制的特征融合模块进行融合，用以提升整体的定位性能。

Description

一种基于语义分割的境外驾驶证版面文字定位方法

技术领域

本发明涉及图像处理技术领域，具体为一种基于语义分割的境外驾驶证版面文字定位方法。

背景技术

近些年，伴随着国内外交流与出入境旅游等活动的不断增加，境外驾驶证换中国驾驶证的业务数量逐年递增。按照《驾驶证申领和使用管理规定》，持有境外驾驶证，且取得该驾驶证时在核发国家/地区连续居留3个月以上的，可以申请对应准假车型的中国驾驶证。现有的境外换证方式基本依靠人工换证，需要工作人员凭借自己的知识和经验进行判断，效率方面一直不是很理想。

技术人员考虑将人工智能技术引入到证件更换工序，通过人工智能建立机器学习模型来提高境外换证业务效率；现在常用的图像识别方法包括：基于传统数字图像处理方法、传统机器学习方法和深度学习方法，但是，因为境外驾驶证种类多样，版面上文字大小不尽相同，尤其是用于防伪的微缩文字，其字体大小相比普通文字可以相差达到5倍；同时，在实际应用中，因为被检测的证件在使用中会出现各种不同的磨损现象，导致证件图像与标准图像具备非常大的差异；因此，现有的图像识别方法，在实际应用中，面对驾照版面的文字定位需求时，其定位精确度、定位速度都无法满足实际业务需求。

发明内容

为了解决现有的图像识别技术无法满足驾驶证板面文字识别需求的问题，本发明提供一种基于语义分割的境外驾驶证版面文字定位方法，其可以快速定位驾驶证板面文字，同时能够适应多种尺寸文字，定位精度高，且鲁棒性强、计算效率快。

本发明的技术方案是这样的：一种基于语义分割的境外驾驶证版面文字定位方法，其特征在于，其包括以下步骤：

S1：采集图片样本，并对每个图片进行标注，标注出文字区域；

S2：构建文字定位模型；

所述文字定位模型包括：针对驾驶证版面普通尺寸文字和小目标文字分别设计的深层子网络和窄层子网络，所述深层子网络、所述窄层子网络最终通过基于注意力机制的特征融合模块进行融合，融合后的模型再经过两层卷积以调整特征融合性能；

所述窄层子网络采用3个卷积层进行特征提取，在特征提取的过程中前两层步长为2，最后1层步长为1；

所述深层子网络采用预训练的Resnet18作为基础模型；对通过所述基础模型得到的特征图再采用卷积层进行特征提取得到1/16和1/32大小的特征图，再通过双线性插值进行特征级联生成128通道的输出特征；

所述特征融合模型首先对输入特征依次通过一个级联函数、一个卷积层进行处理，然后构建两路分支；第一路分支包括依次连接的平均池化层、卷积层、非线性激活层、卷积层、激活层；第二路分支对所述第一路输出的特征图权重进行修正后输出中间特征值；最后所述中间特征值与所述所述特征融合模型的输入特征进行累加后输出；

S3：基于步骤S1中采集的所述图片样本，对所述文字定位模型进行训练，获得训练好的所述文字定位模型；

S4：获取待定位证件图片，将所述待定位证件图片输入到训练好的所述文字定位模型进行文字区域定位；

S5：对定位出来的所述文字区域进行分离，然后将每个分离出的所述文字区域的图像进行识别，获得最终识别结果。

其进一步特征在于：

所述窄层子网络中的3个卷积层的输出通道数分别为：64、64、128；

步骤S3中，对所述文字定位模型进行训练包括以下步骤：

a1：采用Pytorch分布式训练框架实现对所述文字定位模型的训练，训练完成后获得模型的训练参数文件pth；

a2：基于Pytorch对所述训练参数文件pth进行量化、裁剪并序列化导出生成静态参数文件pt；

a3：使用Pytorch Mobile框架在移动端调用所述pt文件，完成部署；

步骤S4中，对定位出来的所述文字区域使用OpenCV连通域算子进行分离，然后将每个分离出的所述文字区域的图像发送至远程服务器进行在线文字识别；

步骤S1中采集的所述图片样本的采集标准包括：宽为1920像素、高1080像素、3通道RGB图像；

步骤S1中，对每个图片进行标注时使用labelme工具的多边形标注方式标注出文字区域，并生成json文件；标注完成后对json文件进行转换，生成每幅图片对应的二值掩码图。

本发明提供的一种基于语义分割的境外驾驶证版面文字定位方法，基于文字定位模型中的窄层子网络实现对小目标文字的定位，在特征提取的过程中前两层步长为2，最后1层步长为1，因此最终特征层只下采样到1/4，保持特征高分辨率从而更好的保留细节信息、提升小目标的定位精度；为了加快模型定位速度，窄层子网络的卷积层数量只采用3层，输出通道数分别,64、64、128；由于网络层数较窄，可以显著减少模型参数，提高推理速度，同时由于保留了图像高分辨率特征，细节信息损失较少，可以有效定位小目标文字；通过文字定位模型中的深层子网络实现对普通尺寸文字的定位，由于深层子网络的模型层数较深，提高了模型的感受野，也提高了模型对于文字区域和背景区域的辨识能力，对于普通尺寸文字具有较好的定位精度；两个子网络最终通过基于注意力机制的特征融合模块进行融合，用以提升整体的定位性能；融合后的模型再经过两层卷积以调整特征融合性能，提高了文字定位模型的鲁棒性。

附图说明

图1为本发明提供的流程图；

图2为本发明提供的文字定位模型的网络结构示意图；

图3为本发明提供的特征融合模块FFM的网络结构示意图；

图4为本发明提供的驾驶证版面文字定位模型流程实施例的示意图。

具体实施方式

如图1所示，为本发明一种基于语义分割的境外驾驶证版面文字定位方法的实施例；本发明技术放啊，包括四个阶段：数据采集和标注、训练、部署、推理；其中，在服务器上进行训练用数据采集和标注、文字定位模型的训练，然后获取模型的训练参数文件pth，将pth模型进行序列化导出得到静态参数文件pt，将静态参数文件pt部署到移动端，在移动端上构建训练好的文字定位模型；最后在移动端进行推理阶段的实施：在移动端上通过训练好的文字定位模型对待定位证件图片进行版面文字定位，将定位出来的文字区域进行分离，将分离出来的文字区域图像发送到远程服务器，进行后续的文字识别；具体的过程包括以下步骤。

采集的境外驾驶证图片是高清图片，图片样本的采集标准包括：宽为1920像素、高1080像素、3通道RGB图像；通过由高清图片构成的图片样本在后续流程中对文字定位模型进行训练，提高文字定位模型对于小目标文字的识别率；

对每个图片进行标注时使用labelme工具的多边形标注方式标注出文字区域，并生成json文件；标注完成后对json文件进行转换，生成每幅图片对应的二值掩码图，生成每幅图片对应的二值掩码图，该掩码图表示每个像素所属的语义类，1表示文字、0表示背景。

S2：如图2所示，为构建文字定位模型；本发明的文字定位模型的构建，基于深度学习技术，不需要手工寻找境外驾驶证文字表示特征，只需要搜集足够的样本数据就可以通过训练得到较好的定位模型。

文字定位模型包括：针对驾驶证版面普通尺寸文字和小目标文字分别设计的深层子网络和窄层子网络，深层子网络、窄层子网络最终通过基于注意力机制的特征融合模块（Feature Fusion Model, FFM）进行融合以进一步提升整体的定位性能，融合后的模型再经过两层卷积以调整特征融合性能，增加模型鲁棒性。

窄层子网络采用3个卷积层进行特征提取，在特征提取的过程中前两层核尺寸为7、步长为2，最后1层核尺寸为1、步长为1，因此最终特征层只下采样到1/4，保持特征高分辨率从而更好的保留细节信息、提升小目标的定位精度；为了进一步加快模型定位速度，卷积层数量只采用3层，输出通道数分别为：64、64、128；由于网络层数较窄，可以显著减少模型参数，提高推理速度，同时由于保留了图像高分辨率特征，细节信息损失较少，可以有效定位小目标文字。

深层子网络采用预训练的Resnet18作为基础模型，基于Resnet18的基础模型可以确保加快训练时的收敛速度,，同时提升提取到的特征的语义表示能力；对基础模型得到的特征图再分别通过两个卷积层进行特征提取得到1/16和1/32大小的特征图；经过32倍下采样获得的特征图，依次经过双线性插值(interpolate)、一个卷积层的处理后，与经过16倍下采样的特征图累加后，再通过双线性插值(interpolate)进行特征级联生成128通道的输出特征；与原始模型相比，本发明技术方案是针对文字识别，所以深层子网络中去除了ARM的处理过程，在保证计算精度的基础上，加快了计算速度；由于深层子网络的模型层数较深，提高了模型的感受野，也提高了模型对于文字区域和背景区域的辨识能力，对于普通尺寸文字具有较好的定位精度。

如图3所示，特征融合模型FFM首先对输入特征通过一个级联函数(concatenate)处理生成256通道的特征，然后经过一个卷积层进行处理，得到的特征值分别输入两路分支；输入第一路分支的特征依次通过全局平均池化层(avg_pool2d)、卷积层(conv2d)、非线性激活层(relu)、卷积层(conv2d)、激活层(sigmoid)处理；第二路分支根据注意力模型原理对第一路输出的特征图权重进行修正后输出中间特征值；最后中间特征值与第二路分支的输入特征进行累加后输出；第二路分支根据注意力模型对第一路分支输出的特征图的权重进行修正，可以去除冗余的通道信息，提升模型的整体辨识度；

如图2所述，窄层子网络的输出和深层子网络的输出经过特征融合模型FFM进行特征融合后，依次经过两层卷积层处理，再经过bilinear进行特征提取，最终输出2通道的带有文字区域定位的特征图；

本发明中文字定位模型中的窄层子网络和深层子网络的输出通过特征融合模型FFM进行特征融合，将两个子网络的优势进行互补，进一步提升整体的定位性能。

S3：基于步骤S1中采集的图片样本，对文字定位模型进行训练，获得训练好的文字定位模型；

对文字定位模型进行训练包括以下步骤：

a1：采用Pytorch分布式训练框架实现对文字定位模型的训练，训练完成后获得模型的训练参数文件pth；

a2：基于Pytorch对训练参数文件pth进行量化、裁剪并序列化导出生成静态参数文件pt；

a3：使用Pytorch Mobile框架在移动端调用pt文件，完成部署；

本发明技术方案中的文字定位模型的整个模型的静态参数文件pt大小在30M左右，属于轻量级神经网络模型，非常适合移动端部署；确保了本发明技术方案具备更灵活的使用环境。

S4：获取待定位证件图片，将待定位证件图片输入到训练好的文字定位模型进行文字区域定位；

如图4所示，输入的证件图片在文字定位模型的窄层子网络中经过3个卷积层进行特征提取；在深层子网络中通过基础模型Resnet18进行特征抽取，对通过基础模型得到的特征图再采用卷积层进行特征提取得，分别通过16倍下采样和32倍下采样之后，到1/16和1/32大小的特征图；窄层子网络、深层子网络的输出经过特征融合模块进行特征融合，最终得到带有文字区域定位的特征图。

S5：对定位出来的文字区域使用OpenCV连通域算子进行分离，然后将每个分离出的文字区域的图像发送至远程服务器进行在线文字识别，获得最终识别结果。

本发明技术方案，将证件版面文字定位的功能单独从证件版面文字识别的整体历程中分离出来，使证件版面文字定位不局限于具体的文字内容、文字类型、证件类型；确保本发明技术方案可以灵活的使用在各种不同的场景下；本发明提供的基于语义分割的境外驾驶证版面文字定位方法执行速度快、定位精度高，对证件旋转和光线变化具有较强的鲁棒性，能够满足多种样式驾驶证的版面文字定位，尤其是各种境外驾驶证上的小目标文字。同时整个学习模型参数文件较小，适合手机等移动端部署。

Claims

1.一种基于语义分割的境外驾驶证版面文字定位方法，其特征在于，其包括以下步骤：

S2：构建文字定位模型；

2.根据权利要求1所述一种基于语义分割的境外驾驶证版面文字定位方法，其特征在于：所述窄层子网络中的3个卷积层的输出通道数分别为：64、64、128。

3.根据权利要求1所述一种基于语义分割的境外驾驶证版面文字定位方法，其特征在于：步骤S3中，对所述文字定位模型进行训练包括以下步骤：

a3：使用Pytorch Mobile框架在移动端调用所述pt文件，完成部署。

4.根据权利要求1所述一种基于语义分割的境外驾驶证版面文字定位方法，其特征在于：步骤S4中，对定位出来的所述文字区域使用OpenCV连通域算子进行分离，然后将每个分离出的所述文字区域的图像发送至远程服务器进行在线文字识别。

5.根据权利要求1所述一种基于语义分割的境外驾驶证版面文字定位方法，其特征在于：步骤S1中采集的所述图片样本的采集标准包括：宽为1920像素、高1080像素、3通道RGB图像。

6.根据权利要求1所述一种基于语义分割的境外驾驶证版面文字定位方法，其特征在于：步骤S1中，对每个图片进行标注时使用labelme工具的多边形标注方式标注出文字区域，并生成json文件；标注完成后对json文件进行转换，生成每幅图片对应的二值掩码图。