CN115131806A

CN115131806A - 一种基于深度学习的各类证件ocr图像信息识别方法、系统

Info

Publication number: CN115131806A
Application number: CN202210640739.3A
Authority: CN
Inventors: 郑周勇; 郑铭浩; 陈惠源; 何云杰; 王文
Original assignee: Fujian Jitui Technology Co ltd
Current assignee: Fujian Jitui Technology Co ltd
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-09-30
Anticipated expiration: 2042-06-07
Also published as: CN115131806B

Abstract

本申请涉及一种基于深度学习的各类证件OCR图像信息识别方法、系统，涉及计算机视觉领域，解决了OCR识别结果准率降低，可读性较差，通过人工做二次加工处理也将耗费大量时间成本的问题，其包括：将原图像信息的长宽做自适应缩放和灰度处理；通过方向识别网络模型将朝向为90度、180度、270度的图像矫正为0度；通过文本框检测网络模型获取证件图像中的矩形文本检测框；通过文本识别网络模型对每个检测框进行文本识别，根据模型输出的置信度对文本行图像做字符标注；对识别的文本做解析以将文本结构化。本申请具有如下效果：能够实现对待检测证件图像中的目标文本的自动化检测与识别，减少甚至避免了在文本信息提取过程中对人工的依赖和需求。

Description

一种基于深度学习的各类证件OCR图像信息识别方法、系统

技术领域

本申请涉及计算机视觉领域，尤其是涉及一种基于深度学习的各类证件OCR图像信息识别方法、系统。

背景技术

随着信息科技的进步和社会的发展，各行各业都在逐步走向数字化。尤其是计算机视觉领域的OCR(Optical Character Recognition，光学符号识别)技术，OCR是指利用扫描等光学输入的方式把各种文件、证件、票据等印刷品上的文本解析读取出来，并转换成一种计算机能理解的格式。可应用于证件卡证、文件资料、文案录入等领域。

由于对当前日益增长的提升录入效率、版面理解正确率及识别速度等需求，OCR技术已经被充分的推广并大规模应用。如单行图像的场景下，OCR工具的识别准确率较高，甚至超过9成。

针对上述中的相关技术，发明人认为存在有如下缺陷：在图像朝向歪斜、密集文本图像等复杂场景下，由于多行的文本距离过近，或是图像中冗余文字过多难以结构化等现象，使得OCR识别结果准率降低，可读性较差，通过人工做二次加工处理也将耗费大量时间成本。

发明内容

为了能够实现对待检测证件图像中的目标文本的自动化检测与识别，减少甚至避免了在文本信息提取过程中对人工的依赖和需求，本申请提供一种基于深度学习的各类证件OCR图像信息识别方法、系统。

第一方面，本申请提供一种基于深度学习的各类证件OCR图像信息识别方法，采用如下的技术方案：

一种基于深度学习的各类证件OCR图像信息识别方法，包括：

获取图像信息并作OCR图像信息识别；

若识别失败，则将原图像信息的长宽做自适应缩放和灰度处理；

通过方向识别网络模型将朝向为90度、180度、270度的图像矫正为0度；

通过文本框检测网络模型获取证件图像中的矩形文本检测框，每个检测框覆盖图像中符合预设规则的文本行图像，每个检测框覆盖图像中符合预设规则的文本行图像；

通过文本识别网络模型对每个检测框进行文本识别，根据模型输出的置信度对文本行图像做字符标注；

对识别的文本做解析以将文本结构化以获取正确识别后的内容信息。

若识别成功，则获取正确识别后的内容信息。

可选的，方向识别网络模型为MobileNetV3，输出的维度为4，分别代表预测图像的朝向为0度、90度、180度和270度的概率。

可选的，文本框检测网络模型包括主干网络ResNet50、Neck网络DBFPN、Head网络DBNe；

利用所述主干网络对全局特征进行特征提取，得到全局特征；

利用所述Neck网络对所述全局特征进行特征提取，得到高层特征；

利用所述Head网络对所述高层特征进行特征处理，得到输出的一个或多个文本框预测结果。

可选的，所述文本识别网络模型包括主干网络ResNet34、Neck网络SequenceEncoder、Head网络CTC网络；

利用所述Head网络对所述高层特征进行特征处理，得到输出的单字符分割预测结果。

可选的，还包括对识别的文本做解析以将文本结构化以获取正确识别后的内容信息：

分析获取用户历史是否设置过关于内容信息的展示模式；

若用户历史有设置过内容信息的展示模式，则基于用户在相应时段所设置的展示模式以及用户关于不同内容的展示模式调节情况，预测分析用户本次关于内容信息展示模式的倾向；

展示用户本次关于内容信息展示模式的倾向，若用户未在预设时间内调整，则以所展示的模式展示内容信息；

若用户历史未设置过内容信息的展示模式，则基于相应内容信息的整体模式选择概率分布情况，按照用户对重要信息的浏览习惯展示不同模式以及概率；

获取用户所选择的模式，并以相应模式展示内容信息。

可选的，预测分析用户本次关于内容信息展示模式的倾向包括：

获取用户关于不同时段所设置的展示模式概率的对应关系，以及用户关于不同内容所调节展示模式的概率；

基于当前时段以及用户关于不同时段所设置的展示模式的对应关系，预测分析用户在当下时段所设置的展示模式概率；

基于所识别的内容以及用户关于不同内容所调节展示模式的概率，预测分析用户关于本次所识别内容所设置的展示模式的概率；

基于所预测分析的用户在当下时段所设置的展示模式概率以及所预测分析的用户关于本次所识别内容所设置的展示模式的概率，分析预测出每个展示模式的概率，并以概率最高的展示模式作为用户本次关于内容信息展示模式的倾向。

可选的，分析预测出每个展示模式的概率包括：

获取所预测分析的用户在当下时段所设置的一个展示模式的概率，以及用户关于本次所识别内容所设置相应展示模式的概率；

将所预测分析的用户在当下时段所设置的一个展示模式的概率,与用户关于本次所识别内容所设置相应展示模式的概率相加之和的一半作为相应展示模式的概率。

可选的，基于相应内容信息的整体模式选择概率分布情况，用户对重要信息的浏览习惯展示不同模式以及概率包括：

基于内容以及内容所对应的模式选择的概率分布情况的对应关系，分析内容重要程度的排序情况；

获取用户对重要信息的浏览习惯信息，并基于用户对重要信息的的浏览习惯按照重要程度对内容进行排序。

可选的，还包括位于分析获取用户历史是否设置过关于内容信息的展示模式之前的步骤：

获取用户是否登录OCR图像信息识别系统；

若用户登录OCR图像信息识别系统，则基于用户登录账号确定用户信息；

反之，则基于不同用户历史浏览内容信息的时段分布概率情况，以及不同用户在不同时段疏忽登录OCR图像信息识别系统的概率，分析获取在当下时段疏忽登录OCR图像信息识别系统的概率以及历史浏览内容信息概率之和最高所对应的用户信息作为所确定的用户信息。

第二方面，本申请提供一种基于深度学习的各类证件OCR图像信息识别系统，采用如下的技术方案：

一种基于深度学习的各类证件OCR图像信息识别系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，该程序能够被处理器加载执行时实现如第一方面所述的一种基于深度学习的各类证件OCR图像信息识别方法。

综上所述，本申请的有益技术效果为：

1.对图像的预处理保证了数据的稳定性，避免模型接受过大或过小尺寸的图片而导致结果异常的问题。

2.文本图像方向识别网络模型的应用能有效矫正图像的朝向问题，避免在后续任务中出现无法检测文本框甚至无法进行文本识别的问题；其轻量级的MobileNetV3主干网络能保证极快的运行效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本申请实施例基于深度学习的各类证件OCR图像信息识别方法的整体步骤示意图。

图2是本申请实施例对识别的文本做解析以将文本结构化以获取正确识别后的内容信息的步骤示意图。

图3是本申请实施例预测分析用户本次关于内容信息展示模式的倾向的步骤示意图。

图4是本申请实施例分析预测出每个展示模式的概率的步骤示意图。

图5是本申请实施例基于相应内容信息的整体模式选择概率分布情况，用户对重要信息的浏览习惯展示不同模式以及概率的步骤示意图。

图6是本申请实施例位于分析获取用户历史是否设置过关于内容信息的展示模式之前的步骤示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

以下结合附图对本申请作进一步详细说明。

参照图1，为本申请公开的一种基于深度学习的各类证件OCR图像信息识别方法，包括：

步骤S100，获取图像信息并作OCR图像信息识别。

步骤S200，若识别失败，则将原图像信息的长宽做自适应缩放和灰度处理。

其中，步骤S200包括如下步骤：首先，检测目标图像的长宽是否符合预设值，如果不符合则进行自适应缩放，其次，对目标图像进行灰度处理

步骤S300，通过方向识别网络模型将朝向为90度、180度、270度的图像矫正为0度。

其中，方向识别网络模型为MobileNetV3，输出的维度为4，分别代表预测图像的朝向为0度、90度、180度和270度的概率。

步骤S400，通过文本框检测网络模型获取证件图像中的矩形文本检测框，每个检测框覆盖图像中符合预设规则的文本行图像，每个检测框覆盖图像中符合预设规则的文本行图像。

其中，文本框检测网络模型包括主干网络ResNet50、Neck网络DBFPN、Head网络DBNe，利用所述主干网络对全局特征进行特征提取，得到全局特征；利用所述Neck网络对所述全局特征进行特征提取，得到高层特征；利用所述Head网络对所述高层特征进行特征处理，得到输出的一个或多个文本框预测结果。

步骤S500，通过文本识别网络模型对每个检测框进行文本识别，根据模型输出的置信度对文本行图像做字符标注。

其中，所述文本识别网络模型包括主干网络ResNet34、Neck网络SequenceEncoder、Head网络CTC网络；利用所述主干网络对全局特征进行特征提取，得到全局特征；利用所述Neck网络对所述全局特征进行特征提取，得到高层特征；利用所述Head网络对所述高层特征进行特征处理，得到输出的单字符分割预测结果。

步骤S600，对识别的文本做解析以将文本结构化以获取正确识别后的内容信息。

举例来说，初始图像中的待检测对象例如可以是身份证国徽面。身份证国徽面的拍摄场景简单，形式统一。然而初始图像中可能包括身份证国徽面的整体或者仅包括局部，并且很可能存在倾斜、破损、涂抹、光照不均匀等情况，再者身份证国徽面存在冗余文字信息，通常只需要签发机关和有效期限这二者的文本内容。由此，通过先在初始图像中检测身份证国徽面的外边界框，或内部的包围签发机关和有效期限这二者信息的局部的边框，从而能够得到更容易进行文本检测与识别的待检测图像，进而提升后续对目标文本进行检测和识别的准确率。可以理解的，本公开实施例中的待检测图像不限于为身份证国徽面，可以为任何具备排版结构的证件对象，例如，行驶证、驾驶证等等。

相应地，在这些实施例中，符合预设规则的目标文本例如可以是只包含数字的字符串，也可以是包含数字和少量特定英文字符的字符串，还可以是包含数字、英文字符和部分特殊符号(例如，短横线、斜杠、下划线等)的字符串，在此不做限定。这些预设规则由证件识别程序以配置文件的形式统一管理。通过使用上述方法，能够实现对最核心的关键信息字段的快速识别。

步骤SA00，若识别成功，则获取正确识别后的内容信息。

参照图2，其中，一种基于深度学习的各类证件OCR图像信息识别方法在步骤S600之后还包括：

步骤S700，分析获取用户历史是否设置过关于内容信息的展示模式。

其中，步骤S700所提及的内容信息的展示模式包括自动上下翻页的展示模式、自动左右翻页的展示模式、手动上下翻页的展示模式、手动左右翻页的展示模式。

步骤SB00，若用户历史有设置过内容信息的展示模式，则基于用户在相应时段所设置的展示模式以及用户关于不同内容的展示模式调节情况，预测分析用户本次关于内容信息展示模式的倾向。

步骤SC00，展示用户本次关于内容信息展示模式的倾向，若用户未在预设时间内调整，则以所展示的模式展示内容信息。

其中，步骤SC00所提及的预设时间可以是5秒、10秒，也可以是其他时间。

步骤SD00，若用户历史未设置过内容信息的展示模式，则基于相应内容信息的整体模式选择概率分布情况，按照用户对重要信息的浏览习惯展示不同模式以及概率。

其中，步骤SD00所提及的重要信息的浏览习惯包括由上至下重要性逐一递减的方式、由左至右重要性逐一递减的方式。

步骤SE00，获取用户所选择的模式，并以相应模式展示内容信息。

参照图3，其中，步骤SB00所提及的预测分析用户本次关于内容信息展示模式的倾向包括：

步骤SB10，获取用户关于不同时段所设置的展示模式概率的对应关系，以及用户关于不同内容所调节展示模式的概率。

其中，用户关于不同时段所设置的展示模式概率的对应关系可以从存储有相应关系的数据库中调取，同理，用户关于不同内容所调节展示模式的概率可以从存储有相应关系的数据库中调取。

步骤SB20，基于当前时段以及用户关于不同时段所设置的展示模式的对应关系，预测分析用户在当下时段所设置的展示模式概率。

类似的，用户关于不同时段所设置的展示模式的对应关系可以从存储有相应关系的数据库中调取，然后通过当前时段对相应数据库的查询，可以获取用户在当下时段所设置的展示模式概率。

步骤SB30，基于所识别的内容以及用户关于不同内容所调节展示模式的概率，预测分析用户关于本次所识别内容所设置的展示模式的概率。

步骤SB40，基于所预测分析的用户在当下时段所设置的展示模式概率以及所预测分析的用户关于本次所识别内容所设置的展示模式的概率，分析预测出每个展示模式的概率，并以概率最高的展示模式作为用户本次关于内容信息展示模式的倾向。

举例来说，假定展示模式1为用户在当下时段所设置的概率为30％，模式1为用户关于本次所识别内容所设置的概率为40％，此时所计算的模式1为70％，假定模式2为60％，那么模式1为用户本次关于内容信息展示模式的倾向。

参照图4，其中，步骤SB40所提及的分析预测出每个展示模式的概率包括：

步骤SB4a，获取所预测分析的用户在当下时段所设置的一个展示模式的概率，以及用户关于本次所识别内容所设置相应展示模式的概率。

步骤SB4b，将所预测分析的用户在当下时段所设置的一个展示模式的概率,与用户关于本次所识别内容所设置相应展示模式的概率相加之和的一半作为相应展示模式的概率。

参照图5，其中，步骤SD00所提及的基于相应内容信息的整体模式选择概率分布情况，用户对重要信息的浏览习惯展示不同模式以及概率包括：

步骤SD10，基于内容以及内容所对应的模式选择的概率分布情况的对应关系，分析内容重要程度的排序情况。

步骤SD20，获取用户对重要信息的浏览习惯信息，并基于用户对重要信息的的浏览习惯按照重要程度对内容进行排序。

参照图6，另外，在步骤S700之前还包括如下步骤：

步骤Sa00，获取用户是否登录OCR图像信息识别系统；

步骤Sb00，若用户登录OCR图像信息识别系统，则基于用户登录账号确定用户信息；

步骤Sc00，反之，则基于不同用户历史浏览内容信息的时段分布概率情况，以及不同用户在不同时段疏忽登录OCR图像信息识别系统的概率，分析获取在当下时段疏忽登录OCR图像信息识别系统的概率以及历史浏览内容信息概率之和最高所对应的用户信息作为所确定的用户信息。

基于同一发明构思，本发明实施例提供一种基于深度学习的各类证件OCR图像信息识别系统，包括存储器、处理器，存储器上存储有可在所述处理器上运行实现如图1至图6任一种方法的程序。

本具体实施方式的实施例均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种基于深度学习的各类证件OCR图像信息识别方法，其特征在于，包括：

获取图像信息并作OCR图像信息识别；

若识别成功，则获取正确识别后的内容信息。

2.根据权利要求1所述的一种基于深度学习的各类证件OCR图像信息识别方法，其特征在于：方向识别网络模型为MobileNetV3，输出的维度为4，分别代表预测图像的朝向为0度、90度、180度和270度的概率。

3.根据权利要求1所述的一种基于深度学习的各类证件OCR图像信息识别方法，其特征在于，文本框检测网络模型包括主干网络ResNet50、Neck网络DBFPN、Head网络DBNe；

4.根据权利要求1所述的一种基于深度学习的各类证件OCR图像信息识别方法，其特征在于，所述文本识别网络模型包括主干网络ResNet34、Neck网络SequenceEncoder、Head网络CTC网络；

5.根据权利要求1所述的一种基于深度学习的各类证件OCR图像信息识别方法，其特征在于，还包括对识别的文本做解析以将文本结构化以获取正确识别后的内容信息：

分析获取用户历史是否设置过关于内容信息的展示模式；

获取用户所选择的模式，并以相应模式展示内容信息。

6.根据权利要求5所述的一种基于深度学习的各类证件OCR图像信息识别方法，其特征在于，预测分析用户本次关于内容信息展示模式的倾向包括：

7.根据权利要求6所述的一种基于深度学习的各类证件OCR图像信息识别方法，其特征在于，分析预测出每个展示模式的概率包括：

8.根据权利要求7所述的一种基于深度学习的各类证件OCR图像信息识别方法，其特征在于，基于相应内容信息的整体模式选择概率分布情况，用户对重要信息的浏览习惯展示不同模式以及概率包括：

9.根据权利要求5所述的一种基于深度学习的各类证件OCR图像信息识别方法，其特征在于：还包括位于分析获取用户历史是否设置过关于内容信息的展示模式之前的步骤：

获取用户是否登录OCR图像信息识别系统；

10.一种于深度学习的各类证件OCR图像信息识别系统，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，该程序能够被处理器加载执行时实现如权利要求1至9中任一项所述的一种于深度学习的各类证件OCR图像信息识别方法。