CN115063826A

CN115063826A - 一种基于深度学习的移动端驾驶证识别方法和系统

Info

Publication number: CN115063826A
Application number: CN202210712931.9A
Authority: CN
Inventors: 王毅; 林陶; 徐琳; 宣明辉; 林路
Original assignee: Sinyada Technology Co ltd
Current assignee: Sinyada Technology Co ltd
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-09-16

Abstract

本发明公开了一种基于深度学习的移动端驾驶证识别方法和系统，所述方法包括：构建基于Pytorch深度学习模型的驾驶证分割检测模型、角度检测模型和驾驶证文字检测模型；将训练好的驾驶证分割检测模型、角度检测模型和驾驶证文字检测模型转化为ONNX格式模型，并将对应的ONNX格式模型保存于移动终端；通过移动终端识别驾驶证图像，并将图像输入到所述驾驶证分割角度检测模型和角度检测模型，通过所述驾驶证分割检测模型和角度检测模型将驾驶证文字区域识别并去除背景后翻转为标准角度；将所述驾驶证分割检测模型和角度检测模型处理后的图像信息输入到所述驾驶证文字检测模型中，识别驾驶证文字信息。

Description

一种基于深度学习的移动端驾驶证识别方法和系统

技术领域

本发明涉及深度学习技术领域，特别涉及一种基于深度学习的移动端驾驶证识别方法和系统

背景技术

在汽车保险和银行贷款等金融领域，驾驶证信息尤为重要。驾驶证信息的录入方式经历了由早先的人工录入到后来的数字图像算法OCR识别的变化。近来，随着深度学习技术的兴起，极大推动了计算机视觉领域的发展。在包括目标检测，图像分割，人脸检测与识别，OCR等方向贡献极为突出。然而传统的基于数字图像处理算法的驾驶证识别方法，需要证件图像清晰，背景纯净，限制了识别方法的鲁棒性和通用性，影响用户体验和录入效率。深度学习图像算法彻底解决了这个问题，深度学习具有很强的鲁棒性和通用性，不被复杂的背景和图像质量所限制。

随着移动互联网的兴起，越来越多的保险业务和银行业务都通过移动终端设备办理；但目前的方案大多是将移动设备获取的证件图像通过网络上传至服务器，在服务器上部署OCR识别服务，完成识别任务。此方案存在以下缺陷：增加服务器部署的成本和压力，受网络影响较大，特别是现在手机拍摄图像都比较大的，网络传输比较费时；对客户的隐私保护不够；识别速度不够快，包含了网络传输图像的时间。

目前，OCR识别技术主要采用的是文字检测加文字识别构成的流程。文字检测是通过文字检测算法，检测出图像中的所有文字所在区域，并通过识别模型识别出文字区域中的文字信息，最后通过语义和相对位置关系等先验知识，从复杂的文本列表中提取关键信息字段，这需要大量的样本测试和代码调试，效率极为低下。

发明内容

本发明其中一个发明目的在于提供一种基于深度学习的移动端驾驶证识别方法，所述方法和系统通过格式转化的方式将训练好的深度学习模型转化为轻量化模型部署于移动终端，从而使得移动终端可以实现自动检测，使得驾驶证检测不会受到网络环境的影响，从而可以提高驾驶证识别的效率和稳定性，同时也保护了驾驶员隐私，减少因为通讯而导致泄密风险。

本发明另一个发明目的在于提供一种基于深度学习的移动端驾驶证识别方法，所述方法和系统设置了多类型的检测模型，并通过简单的文字区域和文字类别进行键值对构建，通过键名查找键值的方式识别文字信息，因此整个流程更加简单，无需做大量的后续处理工作。

本发明另一个发明目的在于提供一种基于深度学习的移动端驾驶证识别方法，所述方法和系统设置分割检测模型和角度分类模型，并将分割检测模型和角度分类模型轻量化保存于移动终端，所述分割检测模型和角度分类模型可以将驾驶证裁剪为无背景的驾驶证区域图像，并判断所述驾驶证区域图像的角度，可以让无背景的驾驶证区域图像翻转为正面朝上的图像，从而可以提高驾驶证文字识别准确率。

为了实现至少一个上述发明目的，本发明进一步提供一种基于深度学习的移动端驾驶证识别方法，所述方法包括：

构建基于Pytorch深度学习模型的驾驶证分割检测模型、角度检测模型和驾驶证文字检测模型；

将训练好的驾驶证分割检测模型、角度检测模型和驾驶证文字检测模型转化为ONNX格式模型，并将对应的ONNX格式模型保存于移动终端；

通过移动终端识别驾驶证图像，并将图像输入到所述驾驶证分割角度检测模型和角度检测模型，通过所述驾驶证分割检测模型和角度检测模型将驾驶证文字区域识别并去除背景后翻转为标准角度；

将所述驾驶证分割检测模型和角度检测模型处理后的图像信息输入到所述驾驶证文字检测模型中，识别驾驶证文字信息。

根据本发明其中一个较佳实施例，所述驾驶证分割检测模型采用深度学习全卷积网络DBNet训练，并输出基于驾驶证区域和背景区域的二值预测概率图，利用梯度下降法计算二值预测概率图的与label交叉熵损失函数最小模型并保存。

根据本发明另一个较佳实施例，所述识别方法包括：利用训练好的分割检测模型识别输入的驾驶证图像信息，所述训练好的分割检测模型将输入到驾驶证图像预测获取驾驶证区域图，并根据预测的区域图的边框进行裁剪得到裁剪后的驾驶证区域图。

根据本发明另一个较佳实施例，在获取裁剪的驾驶证区域图后，进一步将所述裁剪的驾驶证区域图输入到角度检测模型中，所述角度检测模型检测出所述裁剪图相对于摄像头照射面的角度信息，并根据所述角度信息将所述裁剪后的驾驶证区域图翻转为标准角度的图像，用于后续文字检测。

根据本发明另一个较佳实施例，在完成所述驾驶证区域图的角度调整后，进一步将角度调整完毕的驾驶证区域图输入到文字检测模型中，其中所述文字检测模型包括多类型文字检测模型和文字识别模型，所述多类型文字检测模型为文字检测算法DBNet通过Pytorch模型训练获取，所述多类型文字检测模型在需要获取的字段文字形成方形结构四个顶点标注后作为所述多类型文字检测模型的类别标签，所述多类型文字检测模型根据标注的类型预测输出包括文字区域的预测二值图和字段类型。

根据本发明另一个较佳实施例，所述识别驾驶证文字信息方法包括：将裁剪后的文字区域输入到文字识别模型中，所述文字识别模型包括：将识别的文字区域作为切片进行缩放，并将缩放后的切片进行归一化处理，将归一化处理后的文字区域采用训练好的CRNN+CTC模型进行识别，输出所述CRNN+CTC模型中对应汉字的置信度，将置信度最高的汉字输出作为识别结果。

根据本发明另一个较佳实施例，所述识别方法包括：根据所述识别的字段类型和字段文字区域的文字识别结果进行结构化存储，其中将识别字段的对应字段类型作为键值对的键名，并将所述相同字段文字区域的文字识别结果作为键值，生成键值对保存。

根据本发明另一个较佳实施例，所述字段类型包括：姓名、性别、民族、住址和公民身份号码、准驾类型、有效期，上述字段类型分别根据所述多类型文字检测的标签获取。

为了实现至少一个上述发明目的，本发明进一步提供一种基于深度学习的移动端驾驶证识别系统，所述系统执行上述一种基于深度学习的移动端驾驶证识别方法。

本发明进一步提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，所述计算机程序可被处理器执行所述一种基于深度学习的移动端驾驶证识别方法。

附图说明

图1显示的是本发明一种基于深度学习的移动端驾驶证识别方法的流程示意图。

图2显示的是本发明中驾驶证识别方法的总体流程框图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

可以理解的是，术语“一”应理解为“至少一”或“一个或多个”，即在一个实施例中，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个，术语“一”不能理解为对数量的限制。

请结合图1-图2，本发明公开了一种基于深度学习的移动端驾驶证识别方法和系统，其中所述方法将基于不同的深度学习模型搭建，并将多个训练好的模型转化成轻量化的模型输入到移动终端，通过移动终端获取驾驶证图像后进行识别，因此本发明可以在无网络条件下实现驾驶证的快速识别，从而可以避免终端受到通讯环境的影响，减少数据通讯导致的泄密问题。

值得一提的是，本发明基于Pytorch框架训练包括驾驶证分割检测模型、角度检测模型和驾驶证文字检测模型，并将所述训练完毕的上述驾驶证分割检测模型、角度检测模型和驾驶证文字检测模型转换为ONNX格式模型，并将所述ONNX格式模型保存于移动终端，移动终端可以量化所述ONNX格式模型，在移动终端将所述ONNX格式模型中的参数从float型转化为int8型，并在所述移动终端部署OpenCV,加载ONNX模型。

本发明中所述驾驶证分割检测模型的生成方法包括：利用包括但不仅限于移动终端的摄像头获取驾驶证图像信息，构建驾驶证图像样本，将所述驾驶证图像样本输入到深度学习全卷积网络DBNet中，上述深度学习全卷积网络DBNet基于Pytorch框架训练模型，所述Pytorch框架的主干网络为MobileNet V3，训练完毕后输出一张640*640像素大小的概率图，其中训练后输出的图像为二值概率图，若当前像素点被预测为驾驶证图像区域，则当前像素值为1，若当前像素值为0，则说明当前像素为非驾驶证图像区域，因此基于输出的预测的二值概率图，可以通过裁剪的方式将被预测的驾驶证图像区域裁剪掉背景图像区域，形成干净的驾驶证图像区域。本发明中通过所述深度学习全卷积网络DBNet，采用梯度下降算法，使得预测的二值概率图和label交叉熵损失函数最小，获得并保存模型，得到原始的驾驶证分割检测模型。通过所述驾驶证分割检测模型可以有效地将驾驶证有效区域和背景无效区域分割出来。

值得一提的是，本发明上述驾驶证分割检测模型、角度检测模型和驾驶证文字检测模型的基本构建方法主要包括：训练图像样本归一化；构建深度学习模型计算图；初始化训练参数；计算隐藏层和输出层向量；更新权重和偏置；计算单元总误差；判断是否达到误差阈值或最大迭代次数，若是则固化保存模型结构和参数；若否，则继续计算隐藏层和输出层向量；更新权重和偏置。上述驾驶证分割检测模型、角度检测模型和驾驶证文字检测模型的基本构建方法都采用梯度下降算法，使得模型训练的损失函数最小并得到最优的模型。需要说明的是，上述模型的基本训练方法为现有技术，不同模型的权重和训练参数不同，本发明对此不再详细描述。

在通过所述驾驶证分割检测模型获取到干净的驾驶证区域图像轮廓后，裁剪得到驾驶证区域图像，并将所述驾驶证区域图像输入到所述角度检测模型中，判断当前驾驶证区域和摄像头采集平面之间的角度差，由于正常的驾驶证区域为固定长宽的方形图像，因为存在图像采集的角度差别而导致出现角度差的问题可以计算长宽比得出，比如长宽比为0或无穷大时，可以得出目前驾驶证区域图像为垂直于摄像头的采集平面，需要进一步将该图像进行翻转。当然在一些实施例中，长宽比为0或无穷大时，无法通过所述驾驶证分割检测模型检测到对应的驾驶证区域，从而会输出检测错误的消息。若通过所述角度检测模型中得到输入的驾驶证区域图像为和摄像头采集平面平行的图像，此时计算得到的驾驶证区域长宽比为预设的固定值，此时为标准的0度时的驾驶区域图像。在一些实施例中，通过所述角度检测模型得到的非标准0度时的驾驶区域图像时，需要将所述驾驶区域图像按照预设的旋转轴将驾驶证区域图像进行旋转，得到预设的驾驶证区域长宽比为预设的固定值时的图像，并将旋转后的图像作为文字检测模型的输入图像。若检测到的驾驶区域图像为180度时，此时需要通过预设的旋转轴将图像翻转为0度图像，需要说明的是，所述旋转轴可以设置为多个，不同旋转轴延伸方向不同，并且所述旋转轴将依据摄像头的检测平面设置。在本发明其中一个较佳实施例中，上述角度检测模型可以获取不同角度驾驶证进行检测，其中可以采集驾驶证上固定的四个点，并计算四个点之间连线的长度关系根据三角函数得到对应的驾驶证角度。本发明中可以优选驾驶证区域方形轮廓的四个角点计算三角函数获得。进一步用于驾驶证区域图像角度的矫正，需要说明的是，上述角度计算方法为现有技术，本发明对此不再详细描述。

将所述驾驶证区域角度进行矫正后得到的图像输入到驾驶证文字检测模型中，需要说明的是，所述驾驶证文字检测模型包括多分类文字检测模型和文字识别模型，其中所述多分类文字检测模型将基于深度学习全卷积网络DBNet，在识别出需要的字段文字区域的四个顶点并进行标注，并将该标注的标签作为模型训练的标签，所述标注的类型为该字段在所述驾驶证上的类型，所述标注可以包括但不仅限于姓名、性别、民族、住址和公民身份号码、准驾类型、有效期等字段类型。本发明利用Pytorch作为所述模型训练的框架，并采用梯度下降算法得到最优的模型，所述基于深度学习全卷积网络DBNet输出预测字段类型包括文字区域的二值图，将概率最大的字段类型输出作为当前被检测字段类型。其中上述多分类的文字检测模型转化为ONNX格式后存储于移动终端

在完成当前被检测字段类型的检测输出后，进一步采用文字识别模型识别该字段类型对应的文字区域。本发明中将识别字段类型后的文字区域作为文字切片进行缩放，缩放至32高度像素图像，并将缩放后的图像进行归一化处理，所述文字识别模型转化为ONNX格式后存储于移动终端。值得一提的是，本发明利用CRNN+CTC模型构建所述文字识别模型，所述CRNN+CTC模型基于Pytorch进行训练。其中所述Pytorch训练所述CRNN+CTC模型方法包括：识别大量打印的文字，用于识别字典库中包含的6869个常用字、标点和英文字符。将摄像头识别的驾驶证上所述文字区域的切片进行切分成单个字，切分成单个字后缩小值高度为32像素输入单文字图像，将所述高度为32像素输入单文字图像写入到text文本中，并将每个文字作为label标签进行训练，采用softmax激活函数计算每个文字label标签和6869个常用字、标点和英文字符进行置信度计算，计算最高置信度的常用字、标点和英文作为最终文字识别模型的出文字。

最后根据不同字段文字区域和文字识别结果，对应字段名称和识别结果，结构化提取驾驶证上的姓名、性别、民族、住址和公民身份号码、准驾类型、有效期等信息，并以key-value的形式组合信息。比如多分类文字检测模型检测到姓名字段类型，用文字识别模型检测到姓名字段类型的文字区域包含的文字为张三。则将{姓名，张三}作为key-value存储，从而便于后续差查询。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线段、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线段的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线段、电线段、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明，本发明的目的已经完整并有效地实现，本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

Claims

1.一种基于深度学习的移动端驾驶证识别方法，其特征在于，所述方法包括：

构建基于Pytorch深度学习模型的驾驶证分割检测模型、驾驶证角度检测模型和驾驶证文字检测模型；

将训练好的驾驶证分割检测模型、驾驶证角度检测模型和驾驶证文字检测模型转化为ONNX格式模型，并将对应的ONNX格式模型保存于移动终端；

通过移动终端识别驾驶证图像，并将图像输入到所述驾驶证分割检测模型和驾驶证角度检测模型，通过所述驾驶证分割检测模型和驾驶证角度检测模型将驾驶证文字区域识别并去除背景后翻转为标准角度；

将所述驾驶证分割检测模型和驾驶证角度检测模型处理后的图像信息输入到所述驾驶证文字检测模型中，识别驾驶证文字信息。

2.根据本权利要求1所述的一种基于深度学习的移动端驾驶证识别方法，其特征在于，所述驾驶证分割检测模型采用深度学习全卷积网络DBNet训练，并输出基于驾驶证区域和背景区域的二值预测概率图，利用梯度下降法计算二值预测概率图的与label交叉熵损失函数最小模型并保存。

3.根据本权利要求2所述的一种基于深度学习的移动端驾驶证识别方法，其特征在于，所述驾驶证识别方法包括：利用训练好的驾驶证分割检测模型识别输入的驾驶证图像信息，所述训练好的分割检测模型将输入的驾驶证图像预测获取驾驶证区域图，并根据预测的驾驶证区域图的边框进行裁剪得到裁剪后的驾驶证区域图。

4.根据本权利要求3所述的一种基于深度学习的移动端驾驶证识别方法，其特征在于，在获取裁剪的驾驶证区域图后，进一步将所述裁剪的驾驶证区域图输入到驾驶证角度检测模型中，所述驾驶证角度检测模型检测出所述裁剪图相对于摄像头照射面的角度信息，并根据所述角度信息将所述裁剪后的驾驶证区域图旋转为标准角度的图像，用于后续文字检测。

5.根据本权利要求4所述的一种基于深度学习的移动端驾驶证识别方法，其特征在于，在完成所述驾驶证区域图的角度调整后，进一步将角度调整完毕的驾驶证区域图输入到驾驶证文字检测模型中，其中所述驾驶证文字检测模型包括多类型文字检测模型和文字识别模型，所述多类型文字检测模型为文字检测算法DBNet通过Pytorch模型训练获取，所述多类型文字检测模型在需要获取的字段文字形成方形结构四个顶点标注后作为所述多类型文字检测模型的类别标签，所述多类型文字检测模型根据标注的类型预测输出包括文字区域的预测二值图和字段类型。

6.根据本权利要求5所述的一种基于深度学习的移动端驾驶证识别方法，其特征在于，识别驾驶证文字区域文字信息方法包括：将裁剪后的文字区域输入到文字识别模型中，所述文字识别模型包括：将识别的文字区域作为切片进行缩放，并将缩放后的切片进行归一化处理，将归一化处理后的文字区域采用训练好的CRNN+CTC模型进行识别，输出所述CRNN+CTC模型中对应汉字的置信度，将置信度最高的汉字输出作为识别结果。

7.根据本权利要求6所述的一种基于深度学习的移动端驾驶证识别方法，其特征在于，驾驶证区域文字信息识别方法包括：根据所述识别的字段类型和字段文字区域的文字识别结果进行结构化存储，其中将识别字段的对应字段类型作为键值对的键名，并将所述相同字段文字区域的文字识别结果作为键值，生成键值对保存。

8.根据本权利要求5所述的一种基于深度学习的移动端驾驶证识别方法，其特征在于，所述字段类型包括：姓名、性别、民族、住址和公民身份号码、准驾类型、有效期，上述字段类型分别根据所述多类型文字检测的标签获取。

9.一种基于深度学习的移动端驾驶证识别系统，其特征在于，所述系统执行权利要求1-8中任意一项所述的一种基于深度学习的移动端驾驶证识别方法。

10.一种计算机可读存储介质，其特征在于，计算机可读存储介质存储有计算机程序，所述计算机程序可被处理器执行权利要求1-8中任意一项所述的一种基于深度学习的移动端驾驶证识别方法。