CN117115825A

CN117115825A - 一种提高证照ocr识别率的方法

Info

Publication number: CN117115825A
Application number: CN202311368037.5A
Authority: CN
Inventors: 牟莹; 刘波; 曹曦
Original assignee: Shenzhen Shangrong Technology Co ltd
Current assignee: Shenzhen Shangrong Technology Co ltd
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2023-11-24
Anticipated expiration: 2043-10-23
Also published as: CN117115825B

Abstract

本发明涉及数据识别领域，尤其涉及一种提高证照OCR识别率的方法。包括：首先，使用深度学习模型提取证照上的复杂背景和不规则字体的特征；其次，引入并行处理机制，设计数据均衡分配算法、延迟同步策略和通信优化策略；最后，采用细节增强算法，通过模型简化技术减少算法的复杂性，引入自适应学习率调整策略。解决了现有技术难以根据输入的证照图片的特性动态地调整，导致模型在处理具有不同特性的数据时可能效率低下，准确性不高的问题；在处理大量证照数据时可能会遇到计算速度慢的问题，以及并行处理效果不佳，在并行处理时可能会丢失部分细节信息，从而影响模型的识别准确性的问题。

Description

一种提高证照OCR识别率的方法

技术领域

本发明涉及数据识别领域，尤其涉及一种提高证照OCR识别率的方法。

背景技术

随着数字化时代的到来，证照的自动识别和处理已经成为金融、交通、医疗和政府等多个领域的关键技术。证照，如身份证、驾驶证、护照、工作证等，不仅因国家、地区或机构而异，具有很大的多样性，还因为防伪需求而采用了复杂的背景设计、水印和全息图等。这些因素都增加了OCR识别的难度。此外，证照上的文字可能采用不规则的字体、大小和颜色，并可能出现在证照的任何位置，而证照的图像质量也可能受到磨损、污渍、反光等多种因素的影响。

近年来，深度学习技术在图像识别、语音识别和自然语言处理等领域取得了突破性进展。尤其在图像识别领域，深度学习模型已经大大超越了传统的机器学习模型。因此，将深度学习技术应用于证照OCR识别是一个自然的选择。但由于证照的特殊性，直接应用现有的深度学习模型可能不会取得理想的效果。在某些应用场景中，如边境检查或机场安检，还需要实时地识别和处理证照，这对OCR技术的速度提出了很高的要求。

我国专利申请号：CN202011517588.X，公开日：2021.04.20，公开了一种证照OCR识别方法，包括如下步骤：步骤S10、获取大量的证照样本图片以及证照信息，创建一训练字典以及若干证照背景图片，基于所述证照信息、训练字典以及证照背景图片生成证照训练图片集；步骤S20、创建一证照分类模型，利用所述证照样本图片对证照分类模型进行训练；步骤S30、基于证照类型创建若干个文本识别模型，利用所述证照训练图片集对文本识别模型进行训练；步骤S40、利用训练后的所述证照分类模型以及文本识别模型对待识别证照进行分类和识别。该发明的优点在于：实现对证照进行自动分类识别，并极大的提升了证照识别精度。

但上述技术至少存在如下技术问题：现有技术难以根据输入的证照图片的特性动态地调整，导致模型在处理具有不同特性的数据时可能效率低下，准确性不高的问题；在处理大量证照数据时可能会遇到计算速度慢的问题，以及并行处理效果不佳，在并行处理时可能会丢失部分细节信息，从而影响模型的识别准确性的问题，模型复杂性较高，不仅增加了计算负担，还可能导致模型过拟合，影响泛化能力。

发明内容

本申请实施例通过提供一种提高证照OCR识别率的方法，解决了现有技术难以根据输入的证照图片的特性动态地调整，导致模型在处理具有不同特性的数据时可能效率低下，准确性不高的问题；在处理大量证照数据时可能会遇到计算速度慢的问题，以及并行处理效果不佳，在并行处理时可能会丢失部分细节信息，从而影响模型的识别准确性的问题，模型复杂性较高，不仅增加了计算负担，还可能导致模型过拟合，影响泛化能力，最终不仅解决了模型在处理复杂背景时的过拟合问题，还避免了牺牲识别精度和增加计算复杂性的问题，为提高证照OCR识别的准确性和效率提供了一个全面的解决方案。

本申请提供了一种提高证照OCR识别率的方法，具体包括以下技术方案：

一种提高证照OCR识别率的方法，包括以下步骤：

S100：使用深度学习模型提取证照上的复杂背景和不规则字体的特征；

S200：引入并行处理机制，设计数据均衡分配算法、延迟同步策略和通信优化策略；

S300：采用细节增强算法，通过模型简化技术减少算法的复杂性，引入自适应学习率调整策略。

优选的，所述S100，具体包括：

提出了一种基于动态分层神经网络的新型深度学习模型，引入了自适应输入层、动态连接层、自适应激活函数层和反馈调整层。

优选的，所述S100，还包括：

将不同尺寸的证照图片转化为固定大小的向量，动态连接层根据输入的证照图片动态地建立或断开神经元之间的连接；神经元之间的连接是基于输入数据动态生成的，而不是预先固定的，这使得动态分层神经网络能够根据不同的输入数据自动调整其内部结构。

优选的，所述S100，还包括：

自适应激活函数层根据输入的证照图片的特性动态地选择或调整激活函数；当模型遇到之前未见过的证照类型或布局时，反馈调整层会根据网络的输出和期望的输出动态调整网络的参数。

优选的，所述S200，具体包括：

计算每个处理单元的数据需求，每个处理单元应该处理的数据量是总数据量除以处理单元的数量。

优选的，所述S200，还包括：

通过计算每个处理单元的数据需求，生成延迟同步策略和通信优化策略。

优选的，所述S300，具体包括：

提出了细节增强算法，定义了损失函数量化细节丢失。

优选的，所述S300，还包括：

使用梯度下降法来更新像素值；通过模型简化技术降低算法的复杂性。

优选的，所述S300，还包括：

引入自适应学习率调整策略，基于模型误差，进行自适应学习率调整，设置学习率的下限。

有益效果：

本申请实施例中提供的多个技术方案，至少具有如下技术效果或优点：

1、通过引入自适应输入层、动态连接层、自适应激活函数层以及反馈调整层，模型能够根据输入的证照图片的特性动态地调整其结构和参数，这种自适应性使得模型在处理具有不同特性的数据时具有更高的效率和准确性；

2、通过引入并行处理机制，模型的计算速度得到了显著的提升，设计的数据均衡分配算法、延迟同步策略和通信优化策略进一步确保了每个处理单元的计算负担均衡，同时解决了并行处理带来的数据同步和通信开销问题；

3、通过模型简化技术，模型的复杂性得到了有效的降低，从而加速了模型的计算速度，同时保持了较高的识别准确性；引入的自适应学习率调整策略确保了模型在各种证照上都能达到最佳效果，同时保持实时性和简洁性，使模型能够更快地收敛，从而加速学习过程并提高模型的性能。

4、本申请的技术方案能够有效解决现有技术难以根据输入的证照图片的特性动态地调整，导致模型在处理具有不同特性的数据时可能效率低下，准确性不高的问题；在处理大量证照数据时可能会遇到计算速度慢的问题，以及并行处理效果不佳，在并行处理时可能会丢失部分细节信息，从而影响模型的识别准确性的问题，模型复杂性较高，不仅增加了计算负担，还可能导致模型过拟合，影响泛化能力。不仅解决了模型在处理复杂背景时的过拟合问题，还避免了牺牲识别精度和增加计算复杂性的问题，为提高证照OCR识别的准确性和效率提供了一个全面的解决方案。

附图说明

图1为本申请所述的一种提高证照OCR识别率的方法流程图；

图2为本申请所述的一种提高证照OCR识别率的方法的算法框图。

具体实施方式

本申请实施例通过提供一种提高证照OCR识别率的方法，解决了现有技术难以根据输入的证照图片的特性动态地调整，导致模型在处理具有不同特性的数据时可能效率低下，准确性不高的问题；在处理大量证照数据时可能会遇到计算速度慢的问题，以及并行处理效果不佳，在并行处理时可能会丢失部分细节信息，从而影响模型的识别准确性的问题，模型复杂性较高，不仅增加了计算负担，还可能导致模型过拟合，影响泛化能力。

本申请实施例中的技术方案为解决上述问题，总体思路如下：

通过引入自适应输入层、动态连接层、自适应激活函数层以及反馈调整层，模型能够根据输入的证照图片的特性动态地调整其结构和参数，这种自适应性使得模型在处理具有不同特性的数据时具有更高的效率和准确性；通过引入并行处理机制，模型的计算速度得到了显著的提升，设计的数据均衡分配算法、延迟同步策略和通信优化策略进一步确保了每个处理单元的计算负担均衡，同时解决了并行处理带来的数据同步和通信开销问题；通过模型简化技术，模型的复杂性得到了有效的降低，从而加速了模型的计算速度，同时保持了较高的识别准确性；引入的自适应学习率调整策略确保了模型在各种证照上都能达到最佳效果，同时保持实时性和简洁性，使模型能够更快地收敛，从而加速学习过程并提高模型的性能。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

参照附图1，本申请所述的一种提高证照OCR识别率的方法包括以下步骤：

由于证照的多样性、复杂的背景设计和不同的字体使用，自动识别证照上的信息，尤其是在使用深度学习模型进行证照上的背景和字体的特征提取时，模型在处理复杂背景时容易过拟合；为了避免过拟合，模型可能会牺牲部分识别精度；以及为了提高识别精度，模型可能会增加计算复杂性，从而影响实时应用。

为了解决上述问题并提高证照的OCR识别率，本发明提出了一种基于动态分层神经网络（Dynamic Layered Neural Network）的新型深度学习模型。该模型通过引入自适应输入层、动态连接层、自适应激活函数层和反馈调整层，实现了对证照OCR识别的全面优化。

具体地，在证照OCR识别中，输入的证照图片可能有各种尺寸和分辨率。自适应输入层的目的是将这些不同尺寸的图片转化为一个统一的表示形式，以便后续处理。将不同尺寸的证照图片转化为固定大小的向量，具体公式为：

，

其中，表示转化后的固定大小的向量，代表经过处理的证照图片的特征表示；/>代表输入的证照图片，/>是一个转换函数，用于提取图片中的关键特征；/>表示证照图片中的一个像素；系数/>是通过训练数据学习得到的，用于调整每个特征的重要性；/>是系数的索引，代表不同的特征或像素区域。

不同的证照可能有不同的布局和结构，动态连接层根据输入的证照图片动态地建立或断开神经元之间的连接。神经元之间的连接是基于输入数据动态生成的，而不是预先固定的，这使得动态分层神经网络能够根据不同的输入数据自动调整其内部结构。动态连接层的公式为：

，

其中，表示神经元/>和/>之间的权重，函数/>根据输入/>和神经元的索引/>和/>动态生成权重，/>表示动态连接层神经元的总数，/>表示动态连接层神经元j的输出，/>表示激活函数。

不同的证照可能有不同的特征分布，自适应激活函数层根据输入的证照图片的特性动态地选择或调整激活函数，从而使模型能够更好地捕获非线性关系，具体公式为：

，

其中，表示激活函数的输出，/>函数根据输入/>和前一层的输出/>动态生成激活函数，/>是动态连接层所有神经元输出的集合。

当模型遇到之前未见过的证照类型或布局时，反馈调整层会根据网络的输出和期望的输出动态调整网络的参数，使其能够更快地收敛，从而加速学习过程并提高模型的性能。

，

其中，是权重的调整量，/>是常数，用于调整权重更新的幅度，/>是期望的输出，/>是模型的实际输出。

动态分层神经网络模型的核心思想是动态性和自适应性，与传统的深度学习模型相比，它更加灵活，可以自动调整其结构和参数以适应各种输入数据和任务，这种自适应性使得动态分层神经网络模型在处理具有不同特性的数据时具有更高的效率和准确性。

在使用深度学习模型进行证照OCR识别时，计算速度是一个关键问题。为了加速模型的计算速度，引入了并行处理机制。为了确保每个并行处理单元都有相等的计算负担，需要均匀地分配数据。

具体地，计算每个处理单元的数据需求，每个处理单元应该处理的数据量应该是总数据量除以处理单元的数量：

，

其中，是第/>个处理单元应该处理的数据量，/>是第/>个证照的数据大小，/>是证照的总数，/>是处理单元的数量。在并行处理中，为了确保每个处理单元都有相等的计算负担，需要均匀地分配数据。但是，由于通信和同步的开销，添加了一个根据总数据量的对数进行调整的项。

并行处理可能导致数据同步问题，为了延迟同步，需要一个指标来衡量同步的紧迫性，具体公式为：

，

其中，是第t时刻的同步状态，表示同步的紧迫性，/>是第t时刻的模型输出，/>是一个小于1的常数，用于调整同步频率。如果/>超过预设的阈值，则表示模型的输出变化较大，需要进行同步；否则，继续计算。

为了解决数据同步带来的通信开销问题，设立一个指标来衡量通信的开销，具体公式为：

，

其中，是第t时刻的通信开销，/>是第t时刻的消息数量，K是总的消息种类，是第/>类消息的数量，/>。根据通信开销的值，决定是否进行通信。如果通信开销超过预设的阈值，则表示通信开销过大，需要减少通信；否则，继续通信。

通过计算每个处理单元的数据需求，生成延迟同步策略和通信优化策略，不仅确保了每个处理单元的计算负担均衡，还成功地解决了并行处理带来的数据同步和通信开销问题。这大大加速了证照OCR识别的计算速度，同时确保了模型的准确性和效率。

在深度学习模型进行证照OCR识别的应用中，采用并行处理机制可以显著加速计算。然而，这种方法可能导致部分细节丢失。为了补充因并行处理而可能丢失的信息，提出了细节增强算法。

首先，为了量化细节丢失，定义了一个损失函数，具体公式为：

，

其中，表示原始图像在第j个像素位置的像素值，而/>表示并行处理后的图像在第j个像素位置的像素值，/>代表像素的总数，/>是一个调节因子，用于调整细节丢失的敏感性。

为了最小化损失函数并增强丢失的细节，使用了梯度下降法来更新像素值。在此，/>代表了在第j个像素位置经过细节增强算法调整后的像素值，/>是一个小于1的常数，用于调整增强的强度。

，

然而，细节增强算法可能会增加算法的复杂性。为了解决这一问题，提出了模型简化技术，具体公式为：

，

其中，表示模型复杂性，是由模型的权重/>决定的，/>是权重的总数，。

为了最小化并简化模型，提出了以下权重更新策略：

，

其中，是更新后的权重，/>是学习率。权重更新策略能够有效地减少模型的复杂性，从而加速模型的计算速度，同时保持较高的识别准确性。

为了确保模型在不同的证照上都能达到较好的效果，同时保持实时性和简洁性，引入了自适应学习率调整策略。在此策略中：模型误差是由模型的实际输出/>和预期输出/>决定的，/>是输出的总数。

，

为了确保模型在各种证照上都能达到最佳效果，基于模型误差，进行自适应学习率调整，具体公式为：

，

其中，是调整后的学习率，/>是一个调节因子，用于控制学习率的调整速度。为了防止因过度调整学习率导致模型的收敛速度变慢，设置一个学习率的下限，当学习率低于这个下限时，它将被设置为：

，

其中，表示学习率的下限。

通过上述策略，不仅补充了因并行处理而可能丢失的信息，还成功地简化了模型，并引入了自适应学习率调整策略。这三个算法可以单独或组合使用，形成一个闭环解决方案，大大提高了证照OCR识别的准确性和效率。

综上所述，便完成了本申请所述的一种提高证照OCR识别率的方法。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：

效果调研：

本申请的技术方案能够有效解决现有技术难以根据输入的证照图片的特性动态地调整，导致模型在处理具有不同特性的数据时可能效率低下，准确性不高的问题；在处理大量证照数据时可能会遇到计算速度慢的问题，以及并行处理效果不佳，在并行处理时可能会丢失部分细节信息，从而影响模型的识别准确性的问题，模型复杂性较高，不仅增加了计算负担，还可能导致模型过拟合，影响泛化能力，并且，上述系统或方法经过了一系列的效果调研，通过验证，最终不仅解决了模型在处理复杂背景时的过拟合问题，还避免了牺牲识别精度和增加计算复杂性的问题，为提高证照OCR识别的准确性和效率提供了一个全面的解决方案。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种提高证照OCR识别率的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种提高证照OCR识别率的方法，其特征在于，所述S100，具体包括：

3.根据权利要求2所述的一种提高证照OCR识别率的方法，其特征在于，所述S100，还包括：

将不同尺寸的证照图片转化为固定大小的向量，所述动态连接层根据输入的证照图片动态地建立或断开神经元之间的连接；神经元之间的连接是基于输入数据动态生成的，而不是预先固定的，这使得动态分层神经网络能够根据不同的输入数据自动调整其内部结构。

4.根据权利要求3所述的一种提高证照OCR识别率的方法，其特征在于，所述S100，还包括：

所述自适应激活函数层根据输入的证照图片的特性动态地选择或调整激活函数；当模型遇到之前未见过的证照类型或布局时，所述反馈调整层根据网络的输出和期望的输出动态调整网络的参数。

5.根据权利要求1所述的一种提高证照OCR识别率的方法，其特征在于，所述S200，具体包括：

6.根据权利要求5所述的一种提高证照OCR识别率的方法，其特征在于，所述S200，还包括：

7.根据权利要求1所述的一种提高证照OCR识别率的方法，其特征在于，所述S300，具体包括：

提出了细节增强算法，定义了损失函数量化细节丢失。

8.根据权利要求7所述的一种提高证照OCR识别率的方法，其特征在于，所述S300，还包括：

9.根据权利要求1所述的一种提高证照OCR识别率的方法，其特征在于，所述S300，还包括：