CN116524520A

CN116524520A - 文本的识别方法及装置、存储介质和电子设备

Info

Publication number: CN116524520A
Application number: CN202310445752.8A
Authority: CN
Inventors: 张海轩
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-08-01

Abstract

本申请公开了一种文本的识别方法及装置、存储介质和电子设备，涉及人工智能技术领域。该方法包括：获取目标图像，其中，目标图像为待进行文本识别的图像；将目标图像输入目标识别模型进行识别处理，输出目标图像中的文本信息，其中，目标识别模型是基于N个第一图像对目标神经网络模型进行学习训练生成的模型，第一图像中至少包括边界框信息，目标神经网络模型是采用正则化方法生成的模型，N为正整数。通过本申请，解决了相关技术中当图像的背景存在噪声时，识别图像中的文本的准确性较低的问题。

Description

文本的识别方法及装置、存储介质和电子设备

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种文本的识别方法及装置、存储介质和电子设备。

背景技术

目前，光学字符识别(OCR)系统在许多应用中都有很大的帮助，它自动读取打印或手写的文档或带有文本的图像，并将其转换为可编辑的文本，并且该系统可以将图像转换为文本以减少存储空间或传输到其他应用程序是非常有用的。

但是，相关技术中的文本识别方法还远远不能令人满意，并且以往的识别系统无法满足在存在噪声的背景下还能具备精确识别的性能。而且通常在大多数情况下，OCR系统常应用于非常嘈杂的场景图像(例如街景图像)或包含大量物体的日志。因此，目前急需通过一种稳定的文本识别方法用于满足用户的需求。

而且，虽然光学字符识别模型在文本旋转预测任务中取得了一定的进展，但目前最先进的方法还远远不能令人满意。以往的工作无法解决背景有噪声时具有挑战性的旋转预测问题，主要原因在于他们通常假设背景是清晰的，图像是文件或车牌类型的，因此这类图像的OCR系统通常具有较高的精度，但这限制了旋转预测和校正的优势。目前，在大多数情况下，相关技术中的OCR系统被应用于非常嘈杂的场景图任务中时，会导致识别精度较低。

针对相关技术中当图像的背景存在噪声时，识别图像中的文本的准确性较低的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种文本的识别方法及装置、存储介质和电子设备，以解决相关技术中当图像的背景存在噪声时，识别图像中的文本的准确性较低的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种文本的识别方法。该方法包括：获取目标图像，其中，所述目标图像为待进行文本识别的图像；将所述目标图像输入目标识别模型进行识别处理，输出所述目标图像中的文本信息，其中，所述目标识别模型是基于N个第一图像对目标神经网络模型进行学习训练生成的模型，所述第一图像中至少包括边界框信息，所述目标神经网络模型是采用正则化方法生成的模型，N为正整数。

进一步地，所述目标识别模型通过以下方式得到：确定第一神经网络模型中的目标模块，其中，所述目标模块为以下至少之一：编码器模块、解码器模块，所述第一神经网络模型用于识别图像中的文本信息；基于所述目标模块，结合所述正则化方法，构建所述目标神经网络模型；对所述目标神经网络模型进行学习训练，得到第一识别模型；对所述第一识别模型的初始参数进行更新处理，得到所述目标识别模型。

进一步地，对所述第一识别模型的初始参数进行更新处理，得到所述目标识别模型包括：确定目标损失函数，其中，所述目标损失函数中至少包括第一损失函数和交叉熵损失函数，所述第一损失函数中至少包括文本的类别信息和预测的文本识别结果；利用所述目标损失函数对所述第一识别模型进行学习训练，得到目标参数；将所述第一识别模型的初始参数替换为所述目标参数，得到所述目标识别模型。

进一步地，对所述目标神经网络模型进行学习训练，得到第一识别模型包括：获取N个样本图像；依据所述N个样本图像，确定区域集合，其中，所述区域集合中至少包括每个样本图像的待识别区域；基于所述区域集合，在每个样本图像中标注边界框，得到所述N个第一图像；依据所述N个第一图像，得到用于训练模型的训练集；基于所述训练集对所述目标神经网络模型进行学习训练，得到所述第一识别模型。

进一步地，依据所述N个第一图像，得到用于训练模型的训练集包括：对所述N个第一图像进行扩充处理，得到图像集合，所述图像集合中至少包括M个第二图像，其中，M大于N，M为正整数；对所述图像集合中的每个第二图像进行二值化处理，得到数据集；从所述数据集中获取所述训练集。

进一步地，在对所述第一识别模型的初始参数进行更新处理，得到所述目标识别模型之后，所述方法还包括：确定用于评估所述目标识别模型的P个评估指标，其中，P为正整数；从数据集中获取用于测试模型的测试集，其中，所述数据集中至少包括M个图像数据，M大于N，M为正整数；利用所述测试集，结合所述P个评估指标，确定对所述目标识别模型进行测试的测试结果。

进一步地，将所述目标图像输入目标识别模型进行识别处理，输出所述目标图像中的文本信息包括：将所述目标图像输入目标识别模型进行特征提取处理，得到S个特征数据，其中，S为正整数；利用所述正则化方法，对所述S个特征数据进行筛选处理，得到T个特征数据，其中，T大于S，T为正整数；依据所述T个特征数据，得到所述目标图像中的所述文本信息。

为了实现上述目的，根据本申请的另一方面，提供了一种文本的识别装置。该装置包括：第一获取单元，用于获取目标图像，其中，所述目标图像为待进行文本识别的图像；第一处理单元，用于将所述目标图像输入目标识别模型进行识别处理，输出所述目标图像中的文本信息，其中，所述目标识别模型是基于N个第一图像对目标神经网络模型进行学习训练生成的模型，所述第一图像中至少包括边界框信息，所述目标神经网络模型是采用正则化装置生成的模型，N为正整数。

进一步地，所述目标识别模型通过以下方式得到：第一确定单元，用于确定第一神经网络模型中的目标模块，其中，所述目标模块为以下至少之一：编码器模块、解码器模块，所述第一神经网络模型用于识别图像中的文本信息；第一构建单元，用于基于所述目标模块，结合所述正则化装置，构建所述目标神经网络模型；第二确定单元，用于对所述目标神经网络模型进行学习训练，得到第一识别模型；第二处理单元，用于对所述第一识别模型的初始参数进行更新处理，得到所述目标识别模型。

进一步地，所述第二处理单元包括：第一确定模块，用于确定目标损失函数，其中，所述目标损失函数中至少包括第一损失函数和交叉熵损失函数，所述第一损失函数中至少包括文本的类别信息和预测的文本识别结果；第一训练模块，用于利用所述目标损失函数对所述第一识别模型进行学习训练，得到目标参数；第一替换模块，用于将所述第一识别模型的初始参数替换为所述目标参数，得到所述目标识别模型。

进一步地，所述第二确定单元包括：第一获取模块，用于获取N个样本图像；第二确定模块，用于依据所述N个样本图像，确定区域集合，其中，所述区域集合中至少包括每个样本图像的待识别区域；第三确定模块，用于基于所述区域集合，在每个样本图像中标注边界框，得到所述N个第一图像；第四确定模块，用于依据所述N个第一图像，得到用于训练模型的训练集；第五确定模块，用于基于所述训练集对所述目标神经网络模型进行学习训练，得到所述第一识别模型。

进一步地，所述第四确定模块包括：第一处理子模块，用于对所述N个第一图像进行扩充处理，得到图像集合，所述图像集合中至少包括M个第二图像，其中，M大于N，M为正整数；第二处理子模块，用于对所述图像集合中的每个第二图像进行二值化处理，得到数据集；第一获取子模块，用于从所述数据集中获取所述训练集。

进一步地，所述装置还包括：第三确定单元，用于在对所述第一识别模型的初始参数进行更新处理，得到所述目标识别模型之后，确定用于评估所述目标识别模型的P个评估指标，其中，P为正整数；第二获取单元，用于从数据集中获取用于测试模型的测试集，其中，所述数据集中至少包括M个图像数据，M大于N，M为正整数；第四确定单元，用于利用所述测试集，结合所述P个评估指标，确定对所述目标识别模型进行测试的测试结果。

进一步地，所述第一处理单元包括：第一处理模块，用于将所述目标图像输入目标识别模型进行特征提取处理，得到S个特征数据，其中，S为正整数；第二处理模块，用于利用所述正则化装置，对所述S个特征数据进行筛选处理，得到T个特征数据，其中，T大于S，T为正整数；第六确定模块，用于依据所述T个特征数据，得到所述目标图像中的所述文本信息。

为了实现上述目的，根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质存储程序，其中，所述程序执行上述的任意一项所述的文本的识别方法。

为了实现上述目的，根据本申请的另一方面，提供了一种电子设备，所述电子设备包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述的任意一项所述的文本的识别方法。

通过本申请，采用以下步骤：获取目标图像，其中，目标图像为待进行文本识别的图像；将目标图像输入目标识别模型进行识别处理，输出目标图像中的文本信息，其中，目标识别模型是基于N个第一图像对目标神经网络模型进行学习训练生成的模型，第一图像中至少包括边界框信息，目标神经网络模型是采用正则化方法生成的模型，N为正整数，解决了相关技术中当图像的背景存在噪声时，识别图像中的文本的准确性较低的问题。通过获取目标图像，并将目标图像输入基于N个至少包括边界框信息的第一图像对采用正则化方法生成的目标神经网络模型进行学习训练生成的目标识别模型进行识别处理，输出目标图像中的文本信息，进而达到了当图像的背景存在噪声时，提升识别图像中的文本的准确性的效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例提供的文本的识别方法的流程图；

图2是根据本申请实施例提供的文本的识别方法的流程图一；

图3是根据本申请实施例提供的可选的文本的识别方法的流程图；

图4是根据本申请实施例提供的文本的识别装置的示意图；

图5是根据本申请实施例提供的电子设备的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

OCR：OCR是Optical Character Recognition(光学字符识别)的缩写，是利用数字化技术和图像处理技术对印刷体字符进行自动识别和转换的过程。OCR主要应用于文字扫描、文档数字化、车牌识别、票据收集等领域。它能够将印刷品中的单个或多个字符、单词甚至整个句子通过扫描与处理后进行自动识别并转换为机器可读取数据，U-Net模型：U-Net是一种用于图像分割的深度学习模型。

正则化：正则化是机器学习领域中针对过拟合问题的一种方法，它通过在模型训练过程中增加惩罚项来限制模型参数的大小，从而防止模型过度拟合训练数据。

下面结合优选的实施步骤对本发明进行说明，图1是根据本申请实施例提供的文本的识别方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，获取目标图像，其中，目标图像为待进行文本识别的图像。

例如，获取待进行文本识别的图像(上述的目标图像)。

步骤S102，将目标图像输入目标识别模型进行识别处理，输出目标图像中的文本信息，其中，目标识别模型是基于N个第一图像对目标神经网络模型进行学习训练生成的模型，第一图像中至少包括边界框信息，目标神经网络模型是采用正则化方法生成的模型，N为正整数。

例如，可以先收集获得不同类型的多个大型OCR图像，可以是名片、身份证、护照、行驶证、驾驶证、公文、文档等等，并且每个图像上都有相应的包围框。然后可以采用正则化方法生成一个神经网络模型(上述的目标神经网络模型)，并利用收集到的有包围框的多个图像(上述的N个第一图像)对生成的神经网络模型(上述的目标神经网络模型)进行学习训练生成上述的目标识别模型。再将获取到的待进行文本识别的图像(上述的目标图像)输入生成的目标识别模型进行识别处理，得到目标图像中的文本信息。

需要说明的是，本申请实施例提供的文本的识别方法可以应用于金融场景中。

通过上述的步骤S101至S102，通过获取目标图像，并将目标图像输入基于N个至少包括边界框信息的第一图像对采用正则化方法生成的目标神经网络模型进行学习训练生成的目标识别模型进行识别处理，输出目标图像中的文本信息，进而达到了当图像的背景存在噪声时，提升识别图像中的文本的准确性的效果。

可选地，在本申请实施例提供的文本的识别方法中，目标识别模型通过以下方式得到：确定第一神经网络模型中的目标模块，其中，目标模块为以下至少之一：编码器模块、解码器模块，第一神经网络模型用于识别图像中的文本信息；基于目标模块，结合正则化方法，构建目标神经网络模型；对目标神经网络模型进行学习训练，得到第一识别模型；对第一识别模型的初始参数进行更新处理，得到目标识别模型。

例如，构建基于U-Net基础模型、正则化技术的融合网络模型。具体可以为，先在一个网络模型(上述的第一神经网络模型)中的编码器和解码器组件中都各自部署DropOut(一种正则化方法)正则化方法，得到上述的目标神经网络模型。然后可以再对目标神经网络模型进行学习训练，得到训练好的改进网络模型(上述的第一识别模型)；再根据融合网络模型输出的损失值更新训练好的改进网络模型(上述的第一识别模型)的参数，得到上述的目标识别模型。

综上所述，通过对模型进行学习训练，可以快速准确的得到最终训练好的模型，从而可以提升模型识别图像中的文本的精度。

可选地，在本申请实施例提供的文本的识别方法中，依据N个第一图像，得到用于训练模型的训练集包括：对N个第一图像进行扩充处理，得到图像集合，图像集合中至少包括M个第二图像，其中，M大于N，M为正整数；对图像集合中的每个第二图像进行二值化处理，得到数据集；从数据集中获取训练集。

例如，可以先对有包围框的多个图像(上述的N个第一图像)中的图像进行扩充处理，且上述的扩充处理方式可以为对图像进行反转、平移、剪切或缩放等操作处理，并得到原OCR图像的旋转图和镜像图(上述的M个第二图像)。然后可以通过使用二值化方法对原OCR图像的旋转图和镜像图(上述的M个第二图像)进行预处理，得到上述的数据集。然后可以将数据集按照预设8：2比例划分为训练集和测试集。

综上所述，通过对图像进行扩充处理，可以实现数据量的有效扩增，从而可以为分类识别模型的训练提供数据保障。同时，通过使用二值化方法对图像进行预处理，可以提高网络的训练精度。

图2是根据本申请实施例提供的文本的识别方法的流程图一，如图2所示，在本申请实施例提供的文本的识别方法中，对目标神经网络模型进行学习训练，得到第一识别模型包括：

步骤S201，获取N个样本图像；

步骤S202，依据N个样本图像，确定区域集合，其中，区域集合中至少包括每个样本图像的待识别区域；

步骤S203，基于区域集合，在每个样本图像中标注边界框，得到N个第一图像；

步骤S204，依据N个第一图像，得到用于训练模型的训练集；

步骤S205，基于训练集对目标神经网络模型进行学习训练，得到第一识别模型。

例如，获取不同类型的多个大型OCR图像(上述的N个样本图像)，且可以通过使用扫描仪、数码相机等电子设备获取图像，图像可以是名片、身份证、护照、行驶证、驾驶证、公文、文档等等，在完成图像采集工作后，为了进行模型训练和测试工作的正常进行，将每张图像中需要识别的区域标注相应的包围框，得到有包围框的多个图像(上述的N个第一图像)。然后可以根据有包围框的多个图像(上述的N个第一图像)，得到训练集。然后可以构建U-Net基础模型和正则化技术的融合网络模型，并使用训练集对构建的融合网络模型进行改进，得到训练好的改进网络模型(上述的第一识别模型)。

通过上述的方案，利用训练集数据可以快速准确的对神经网络模型进行学习训练。

可选地，在本申请实施例提供的文本的识别方法中，对第一识别模型的初始参数进行更新处理，得到目标识别模型包括：确定目标损失函数，其中，目标损失函数中至少包括第一损失函数和交叉熵损失函数，第一损失函数中至少包括文本的类别信息和预测的文本识别结果；利用目标损失函数对第一识别模型进行学习训练，得到目标参数；将第一识别模型的初始参数替换为目标参数，得到目标识别模型。

例如，可以根据构建U-Net基础模型和正则化技术的融合网络模型输出的损失值更新训练好的改进网络模型(上述的第一识别模型)的参数。而且，可以将融合网络模型的训练过程看作是一个分类问题，可以通过给定一个带有文本的输入图像，是使用模型输出图像所属的旋转类别。对于角度为-180°、～135、-45°、～45°、135°和180°的文本，可以将它们归类为水平类，其余的定义为“垂直”类，因此将部分损失函数(上述的第一损失函数)可以定义为如下所示：

其中，N表示类别，p(x_i)表示预测结果，x_i表示输入的像素，即表示第i个样本。而且，为了进行一步提高文本识别精度，在本实施例中可以通过增加使用交叉熵损失函数获取模型训练的损失值，所述计算如式所示：

其中，m表示输出类别有几种结果，x⁽ⁱ⁾表示图像的像素节点，(h_θ(x⁽ⁱ⁾))表示x⁽ⁱ⁾的偏导数，y⁽ⁱ⁾取0或者1。

在本实施例中，可以将上述的部分损失函数(上述的第一损失函数)和交叉熵损失函数进行结果使用，具体实现公式如下：

Loss＝Loss_cls+Loss_MSE

综上所述，通过利用损失函数对模型进行训练，可以提高模型的训练和测试精度。

可选地，在本申请实施例提供的文本的识别方法中，在对第一识别模型的初始参数进行更新处理，得到目标识别模型之后，该方法还包括：确定用于评估目标识别模型的P个评估指标，其中，P为正整数；从数据集中获取用于测试模型的测试集，其中，数据集中至少包括M个图像数据，M大于N，M为正整数；利用测试集，结合P个评估指标，确定对目标识别模型进行测试的测试结果。

例如，可以利用测试集对训练好的改进网络模型进行评估，结合评估指标得到融合模型的测试结果。而且，训练网络模型的评价指标可以包括：准确性(accuracy)、敏感性(sensitivity)、特异性(specificity)和F1值(F1-score)，用公式可以表示为：

其中，TP，FP，FN和TN分别表示真阳性，假阳性，假阴性和真阴性的数量。

通过上述的方案，可以快速准确的对训练好的改进网络模型进行测试。

可选地，在本申请实施例提供的文本的识别方法中，将目标图像输入目标识别模型进行识别处理，输出目标图像中的文本信息包括：将目标图像输入目标识别模型进行特征提取处理，得到S个特征数据，其中，S为正整数；利用正则化方法，对S个特征数据进行筛选处理，得到T个特征数据，其中，T大于S，T为正整数；依据T个特征数据，得到目标图像中的文本信息。

例如，通过将输入图像(上述的目标图像)进行特征提取，并利用正则化方法将特征(上述的S个特征数据)变得稀疏，筛选重要特征(上述的T个特征数据)，再根据筛选的重要特征(上述的T个特征数据)得到图像(上述的目标图像)中的文本信息。

通过上述的方案，可以减少模型复杂度。

例如，图3是根据本申请实施例提供的可选的文本的识别方法的流程图，可选的文本的识别方法包括如下步骤：

步骤1：收集获得不同类型的大型OCR图像，可以是名片、身份证、护照、行驶证、驾驶证、公文、文档等等，并且每个图像都有相应的包围框，之后对数据集中的OCR图像进行预处理。

步骤2：将进行预处理后的OCR数据集按照预设8：2比例划分为训练集和测试集；

步骤3：构建U-Net基础模型和正则化技术的融合网络模型，对构建的融合网络模型进行改进，同时使用训练集和验证集进行训练和验证，得到训练好的改进网络模型；

步骤4：根据融合网络模型输出的损失值更新所述神经网络模型的参数；

步骤5：利用测试集对训练好的改进网络模型进行评估，结合评估指标得到融合模型的测试结果。

所述步骤1中，获取不同类型的大型OCR图像，通过使用扫描仪、数码相机等电子设备获取图像，可以是名片、身份证、护照、行驶证、驾驶证、公文、文档等等，在完成图像采集工作后，为了进行模型训练和测试工作的正常进行，将每张图像中需要识别的区域标注相应的包围框，满足实验需求。同时还需要在此基础上实现数据集的扩充，这里使用数据扩充的手段(对应图3中的数据增强)，通过对原数据集中的图像进行反转、平移、剪切或缩放等方法得到原OCR图像的旋转图和镜像图用于实现数据量的有效扩增，为分类识别模型的训练提供了数据保障。最后，通过使用二值化方法对扩充后的数据集进行预处理，提高网络的训练精度。

所述步骤2中，将构建的数据集选取80％的样本作为训练集，剩余20％的样本作为测试集，以此进行分类测试。为了保证实验的真实性和说服性，在本实施例中可以通过同时使用交叉验证法将数据集D划分为k个大小相似的互斥子集，每个子集都要尽可能保持数据分布的一致性。然后用(k-1)个子集的并集作为训练集，余下的子集作为测试集。这样就可以获得k组训练/测试集，从而可以进行k次训练和测试，最终返回的是k个测试结果的均值。

所述步骤3中，构建基于U-Net基础模型、批量归一化、正则化技术的融合网络模型，该网络模型中的编码器和解码器组件中都各自部署了DropOut正则化方法，通过对模型的特征进行特征筛选，可以帮助去除背景噪声，并且只保留边界框区域或感兴趣区域的特征信息。该网络模型在编码阶段，通过将输入图像进行特征提取并利用正则化方法将特征变得稀疏，筛选重要特征，减少模型复杂度，其中被去除的特征值使用0进行填充，但是在有边界框的区域，使用值1进行填充，依次类推。在编码阶段与解码阶段的桥梁层，使用跳跃连接跳跃神经网络中的某些层，并将一层的输出作为下一层的输入，避免因DropOut方法的多次使用丢失部分重要特征信息。最后，在模型的输出阶段通过使用softmax层进行预测结果的输出。

所述步骤4中，为了解决图像的选择预测问题，在本实施例中可以将该模型的训练过程看作是一个分类问题，通过给定一个带有文本的输入图像，是使用模型输出图像所属的旋转类别。对于角度为-180°、～135、-45°、～45°、135°和180°的文本，将它们归类为水平类，其余的定义为“垂直”类，因此将部分损失函数定义为如下所示：

其中，N表示类别，p(x_i)表示预测结果，x_i表示输入的像素，即表示第i个样本。为了进行一步提高文本识别精度，在本实施例中可以通过增加使用交叉熵损失函数获取模型训练的损失值，所述计算如式所示：

在本实施例中，可以将上述损失函数进行结果使用，提高模型的训练和测试精度，具体实现公式如下：

Loss＝Loss_cls+Loss_MSE

所述步骤5中，训练网络模型的评价指标包括：准确性(accuracy)、敏感性(sensitivity)、特异性(specificity)和F1值(F1-score)，用公式表示为：

因此，本实施例通过在建模中引入边界盒信息，通过基于屏蔽边界盒选择的U-Net模型解决旋转预测和背景复杂问题，提高现今OCR系统的整体识别精度和效率。

另外，在本实施例中，提出了一种新的OCR系统预测模型，该模型可以在训练阶段将边界盒信息整合到网络模型中，通过只关注和提取感兴趣的文本区域进行特征提取，避免识别模型被背景噪声所误导，提高模型识别精度。

综上，本申请实施例提供的文本的识别方法，通过获取目标图像，其中，目标图像为待进行文本识别的图像；将目标图像输入目标识别模型进行识别处理，输出目标图像中的文本信息，其中，目标识别模型是基于N个第一图像对目标神经网络模型进行学习训练生成的模型，第一图像中至少包括边界框信息，目标神经网络模型是采用正则化方法生成的模型，N为正整数，解决了相关技术中当图像的背景存在噪声时，识别图像中的文本的准确性较低的问题。通过获取目标图像，并将目标图像输入基于N个至少包括边界框信息的第一图像对采用正则化方法生成的目标神经网络模型进行学习训练生成的目标识别模型进行识别处理，输出目标图像中的文本信息，进而达到了当图像的背景存在噪声时，提升识别图像中的文本的准确性的效果。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种文本的识别装置，需要说明的是，本申请实施例的文本的识别装置可以用于执行本申请实施例所提供的用于文本的识别方法。以下对本申请实施例提供的文本的识别装置进行介绍。

图4是根据本申请实施例的文本的识别装置的示意图。如图4所示，该装置包括：第一获取单元401和第一处理单元402。

具体地，第一获取单元401，用于获取目标图像，其中，目标图像为待进行文本识别的图像；

第一处理单元402，用于将目标图像输入目标识别模型进行识别处理，输出目标图像中的文本信息，其中，目标识别模型是基于N个第一图像对目标神经网络模型进行学习训练生成的模型，第一图像中至少包括边界框信息，目标神经网络模型是采用正则化装置生成的模型，N为正整数。

综上，本申请实施例提供的文本的识别装置，通过第一获取单元401获取目标图像，其中，目标图像为待进行文本识别的图像；第一处理单元402将目标图像输入目标识别模型进行识别处理，输出目标图像中的文本信息，其中，目标识别模型是基于N个第一图像对目标神经网络模型进行学习训练生成的模型，第一图像中至少包括边界框信息，目标神经网络模型是采用正则化装置生成的模型，N为正整数，解决了相关技术中当图像的背景存在噪声时，识别图像中的文本的准确性较低的问题。通过获取目标图像，并将目标图像输入基于N个至少包括边界框信息的第一图像对采用正则化方法生成的目标神经网络模型进行学习训练生成的目标识别模型进行识别处理，输出目标图像中的文本信息，进而达到了当图像的背景存在噪声时，提升识别图像中的文本的准确性的效果。

可选地，在本申请实施例提供的文本的识别装置中，目标识别模型通过以下方式得到：第一确定单元，用于确定第一神经网络模型中的目标模块，其中，目标模块为以下至少之一：编码器模块、解码器模块，第一神经网络模型用于识别图像中的文本信息；第一构建单元，用于基于目标模块，结合正则化装置，构建目标神经网络模型；第二确定单元，用于对目标神经网络模型进行学习训练，得到第一识别模型；第二处理单元，用于对第一识别模型的初始参数进行更新处理，得到目标识别模型。

可选地，在本申请实施例提供的文本的识别装置中，第二处理单元包括：第一确定模块，用于确定目标损失函数，其中，目标损失函数中至少包括第一损失函数和交叉熵损失函数，第一损失函数中至少包括文本的类别信息和预测的文本识别结果；第一训练模块，用于利用目标损失函数对第一识别模型进行学习训练，得到目标参数；第一替换模块，用于将第一识别模型的初始参数替换为目标参数，得到目标识别模型。

可选地，在本申请实施例提供的文本的识别装置中，第二确定单元包括：第一获取模块，用于获取N个样本图像；第二确定模块，用于依据N个样本图像，确定区域集合，其中，区域集合中至少包括每个样本图像的待识别区域；第三确定模块，用于基于区域集合，在每个样本图像中标注边界框，得到N个第一图像；第四确定模块，用于依据N个第一图像，得到用于训练模型的训练集；第五确定模块，用于基于训练集对目标神经网络模型进行学习训练，得到第一识别模型。

可选地，在本申请实施例提供的文本的识别装置中，第四确定模块包括：第一处理子模块，用于对N个第一图像进行扩充处理，得到图像集合，图像集合中至少包括M个第二图像，其中，M大于N，M为正整数；第二处理子模块，用于对图像集合中的每个第二图像进行二值化处理，得到数据集；第一获取子模块，用于从数据集中获取训练集。

可选地，在本申请实施例提供的文本的识别装置中，该装置还包括：第三确定单元，用于在对第一识别模型的初始参数进行更新处理，得到目标识别模型之后，确定用于评估目标识别模型的P个评估指标，其中，P为正整数；第二获取单元，用于从数据集中获取用于测试模型的测试集，其中，数据集中至少包括M个图像数据，M大于N，M为正整数；第四确定单元，用于利用测试集，结合P个评估指标，确定对目标识别模型进行测试的测试结果。

可选地，在本申请实施例提供的文本的识别装置中，第一处理单元包括：第一处理模块，用于将目标图像输入目标识别模型进行特征提取处理，得到S个特征数据，其中，S为正整数；第二处理模块，用于利用正则化装置，对S个特征数据进行筛选处理，得到T个特征数据，其中，T大于S，T为正整数；第六确定模块，用于依据T个特征数据，得到目标图像中的文本信息。

文本的识别装置包括处理器和存储器，上述第一获取单元401和第一处理单元402等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提升识别图像中的文本的准确性。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现所述文本的识别方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述文本的识别方法。

如图5所示，本发明实施例提供了一种电子设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取目标图像，其中，所述目标图像为待进行文本识别的图像；将所述目标图像输入目标识别模型进行识别处理，输出所述目标图像中的文本信息，其中，所述目标识别模型是基于N个第一图像对目标神经网络模型进行学习训练生成的模型，所述第一图像中至少包括边界框信息，所述目标神经网络模型是采用正则化方法生成的模型，N为正整数。

处理器执行程序时还实现以下步骤：所述目标识别模型通过以下方式得到：确定第一神经网络模型中的目标模块，其中，所述目标模块为以下至少之一：编码器模块、解码器模块，所述第一神经网络模型用于识别图像中的文本信息；基于所述目标模块，结合所述正则化方法，构建所述目标神经网络模型；对所述目标神经网络模型进行学习训练，得到第一识别模型；对所述第一识别模型的初始参数进行更新处理，得到所述目标识别模型。

处理器执行程序时还实现以下步骤：对所述第一识别模型的初始参数进行更新处理，得到所述目标识别模型包括：确定目标损失函数，其中，所述目标损失函数中至少包括第一损失函数和交叉熵损失函数，所述第一损失函数中至少包括文本的类别信息和预测的文本识别结果；利用所述目标损失函数对所述第一识别模型进行学习训练，得到目标参数；将所述第一识别模型的初始参数替换为所述目标参数，得到所述目标识别模型。

处理器执行程序时还实现以下步骤：对所述目标神经网络模型进行学习训练，得到第一识别模型包括：获取N个样本图像；依据所述N个样本图像，确定区域集合，其中，所述区域集合中至少包括每个样本图像的待识别区域；基于所述区域集合，在每个样本图像中标注边界框，得到所述N个第一图像；依据所述N个第一图像，得到用于训练模型的训练集；基于所述训练集对所述目标神经网络模型进行学习训练，得到所述第一识别模型。

处理器执行程序时还实现以下步骤：依据所述N个第一图像，得到用于训练模型的训练集包括：对所述N个第一图像进行扩充处理，得到图像集合，所述图像集合中至少包括M个第二图像，其中，M大于N，M为正整数；对所述图像集合中的每个第二图像进行二值化处理，得到数据集；从所述数据集中获取所述训练集。

处理器执行程序时还实现以下步骤：在对所述第一识别模型的初始参数进行更新处理，得到所述目标识别模型之后，所述方法还包括：确定用于评估所述目标识别模型的P个评估指标，其中，P为正整数；从数据集中获取用于测试模型的测试集，其中，所述数据集中至少包括M个图像数据，M大于N，M为正整数；利用所述测试集，结合所述P个评估指标，确定对所述目标识别模型进行测试的测试结果。

处理器执行程序时还实现以下步骤：将所述目标图像输入目标识别模型进行识别处理，输出所述目标图像中的文本信息包括：将所述目标图像输入目标识别模型进行特征提取处理，得到S个特征数据，其中，S为正整数；利用所述正则化方法，对所述S个特征数据进行筛选处理，得到T个特征数据，其中，T大于S，T为正整数；依据所述T个特征数据，得到所述目标图像中的所述文本信息。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取目标图像，其中，所述目标图像为待进行文本识别的图像；将所述目标图像输入目标识别模型进行识别处理，输出所述目标图像中的文本信息，其中，所述目标识别模型是基于N个第一图像对目标神经网络模型进行学习训练生成的模型，所述第一图像中至少包括边界框信息，所述目标神经网络模型是采用正则化方法生成的模型，N为正整数。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：所述目标识别模型通过以下方式得到：确定第一神经网络模型中的目标模块，其中，所述目标模块为以下至少之一：编码器模块、解码器模块，所述第一神经网络模型用于识别图像中的文本信息；基于所述目标模块，结合所述正则化方法，构建所述目标神经网络模型；对所述目标神经网络模型进行学习训练，得到第一识别模型；对所述第一识别模型的初始参数进行更新处理，得到所述目标识别模型。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：对所述第一识别模型的初始参数进行更新处理，得到所述目标识别模型包括：确定目标损失函数，其中，所述目标损失函数中至少包括第一损失函数和交叉熵损失函数，所述第一损失函数中至少包括文本的类别信息和预测的文本识别结果；利用所述目标损失函数对所述第一识别模型进行学习训练，得到目标参数；将所述第一识别模型的初始参数替换为所述目标参数，得到所述目标识别模型。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：对所述目标神经网络模型进行学习训练，得到第一识别模型包括：获取N个样本图像；依据所述N个样本图像，确定区域集合，其中，所述区域集合中至少包括每个样本图像的待识别区域；基于所述区域集合，在每个样本图像中标注边界框，得到所述N个第一图像；依据所述N个第一图像，得到用于训练模型的训练集；基于所述训练集对所述目标神经网络模型进行学习训练，得到所述第一识别模型。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：依据所述N个第一图像，得到用于训练模型的训练集包括：对所述N个第一图像进行扩充处理，得到图像集合，所述图像集合中至少包括M个第二图像，其中，M大于N，M为正整数；对所述图像集合中的每个第二图像进行二值化处理，得到数据集；从所述数据集中获取所述训练集。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：在对所述第一识别模型的初始参数进行更新处理，得到所述目标识别模型之后，所述方法还包括：确定用于评估所述目标识别模型的P个评估指标，其中，P为正整数；从数据集中获取用于测试模型的测试集，其中，所述数据集中至少包括M个图像数据，M大于N，M为正整数；利用所述测试集，结合所述P个评估指标，确定对所述目标识别模型进行测试的测试结果。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：将所述目标图像输入目标识别模型进行识别处理，输出所述目标图像中的文本信息包括：将所述目标图像输入目标识别模型进行特征提取处理，得到S个特征数据，其中，S为正整数；利用所述正则化方法，对所述S个特征数据进行筛选处理，得到T个特征数据，其中，T大于S，T为正整数；依据所述T个特征数据，得到所述目标图像中的所述文本信息。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文本的识别方法，其特征在于，包括：

获取目标图像，其中，所述目标图像为待进行文本识别的图像；

将所述目标图像输入目标识别模型进行识别处理，输出所述目标图像中的文本信息，其中，所述目标识别模型是基于N个第一图像对目标神经网络模型进行学习训练生成的模型，所述第一图像中至少包括边界框信息，所述目标神经网络模型是采用正则化方法生成的模型，N为正整数。

2.根据权利要求1所述的方法，其特征在于，所述目标识别模型通过以下方式得到：

确定第一神经网络模型中的目标模块，其中，所述目标模块为以下至少之一：编码器模块、解码器模块，所述第一神经网络模型用于识别图像中的文本信息；

基于所述目标模块，结合所述正则化方法，构建所述目标神经网络模型；

对所述目标神经网络模型进行学习训练，得到第一识别模型；

对所述第一识别模型的初始参数进行更新处理，得到所述目标识别模型。

3.根据权利要求2所述的方法，其特征在于，对所述第一识别模型的初始参数进行更新处理，得到所述目标识别模型包括：

确定目标损失函数，其中，所述目标损失函数中至少包括第一损失函数和交叉熵损失函数，所述第一损失函数中至少包括文本的类别信息和预测的文本识别结果；

利用所述目标损失函数对所述第一识别模型进行学习训练，得到目标参数；

将所述第一识别模型的初始参数替换为所述目标参数，得到所述目标识别模型。

4.根据权利要求2所述的方法，其特征在于，对所述目标神经网络模型进行学习训练，得到第一识别模型包括：

获取N个样本图像；

依据所述N个样本图像，确定区域集合，其中，所述区域集合中至少包括每个样本图像的待识别区域；

基于所述区域集合，在每个样本图像中标注边界框，得到所述N个第一图像；

依据所述N个第一图像，得到用于训练模型的训练集；

基于所述训练集对所述目标神经网络模型进行学习训练，得到所述第一识别模型。

5.根据权利要求4所述的方法，其特征在于，依据所述N个第一图像，得到用于训练模型的训练集包括：

对所述N个第一图像进行扩充处理，得到图像集合，所述图像集合中至少包括M个第二图像，其中，M大于N，M为正整数；

对所述图像集合中的每个第二图像进行二值化处理，得到数据集；

从所述数据集中获取所述训练集。

6.根据权利要求2所述的方法，其特征在于，在对所述第一识别模型的初始参数进行更新处理，得到所述目标识别模型之后，所述方法还包括：

确定用于评估所述目标识别模型的P个评估指标，其中，P为正整数；

从数据集中获取用于测试模型的测试集，其中，所述数据集中至少包括M个图像数据，M大于N，M为正整数；

利用所述测试集，结合所述P个评估指标，确定对所述目标识别模型进行测试的测试结果。

7.根据权利要求1所述的方法，其特征在于，将所述目标图像输入目标识别模型进行识别处理，输出所述目标图像中的文本信息包括：

将所述目标图像输入目标识别模型进行特征提取处理，得到S个特征数据，其中，S为正整数；

利用所述正则化方法，对所述S个特征数据进行筛选处理，得到T个特征数据，其中，T大于S，T为正整数；

依据所述T个特征数据，得到所述目标图像中的所述文本信息。

8.一种文本的识别装置，其特征在于，包括：

第一获取单元，用于获取目标图像，其中，所述目标图像为待进行文本识别的图像；

第一处理单元，用于将所述目标图像输入目标识别模型进行识别处理，输出所述目标图像中的文本信息，其中，所述目标识别模型是基于N个第一图像对目标神经网络模型进行学习训练生成的模型，所述第一图像中至少包括边界框信息，所述目标神经网络模型是采用正则化装置生成的模型，N为正整数。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储程序，其中，所述程序执行权利要求1至7中任意一项所述的文本的识别方法。

10.一种电子设备，其特征在于，包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至7中任意一项所述的文本的识别方法。