CN114049641A

CN114049641A - 基于深度学习的文字识别方法及系统

Info

Publication number: CN114049641A
Application number: CN202210034486.5A
Authority: CN
Inventors: 路红英; 王滨; 黄茗; 李波
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-02-15
Anticipated expiration: 2042-01-13
Also published as: CN114049641B

Abstract

本发明涉及一种基于深度学习的文字识别方法及系统，该方法包括：获取业务办公场景中待检测文书的图像数据集；从待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据；基于数据清洗规则对待检测模糊图像数据进行处理得到第一图像数据；利用预先训练的生成式对抗网络模型对第一图像数据进行去模糊处理得到第二图像数据；将待检测清晰图像数据和第二图像数据输入至预先训练的文本检测模型得到目标文字区域；通过预先训练的文字识别模型对目标文字区域进行文字识别得到目标文字，该方法对经数据清洗后的模糊图像数据采取生成式对抗网络模型去模糊处理，实现数据增强，解决图像中多个文字方向的倾斜问题，提高了文字识别率。

Description

基于深度学习的文字识别方法及系统

技术领域

本发明属于文字识别技术领域，尤其涉及一种基于深度学习的文字识别方法及系统。

背景技术

目前文字识别技术（OCR，Optical Character Recognition）落地的应用很多，例如：通用文字识别、票据文字识别、卡证文字识别、汽车场景文字识别等等。但针对军事领域的业务办公场景文书，如通知、公告、命令、决议、请示、批复等，直接应用现有的文字识别技术存在识别性能较差的问题。

发明内容

本发明意在提供一种基于深度学习的文字识别方法及系统，以解决针对特殊领域的办公文书直接应用现有的文字识别技术存在识别性能较差的问题，本发明要解决的技术问题通过以下技术方案来实现：

一方面，本发明提供了一种基于深度学习的文字识别方法，包括：

获取业务办公场景中待检测文书的图像数据集；

从所述待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据；

基于数据清洗规则对所述待检测模糊图像数据进行处理得到第一图像数据；

利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据；

将所述待检测清晰图像数据和所述第二图像数据输入至预先训练的文本检测模型得到目标文字区域；

通过预先训练的文字识别模型对所述目标文字区域进行文字识别得到目标文字。

优选地，所述生成式对抗网络模型的训练过程具体包括：

根据内容损失、对抗损失确定损失函数，并基于所述损失函数构建所述生成式对抗网络模型的生成器和判别器；

将不同尺寸的模糊图像A”输入所述生成器得到去模糊后的清晰图像A’；

将所述去模糊后的清晰图像A’和真实的清晰图像A输入所述判别器得到所述去模糊后的清晰图像A’和真实的清晰图像A的相似得分；

如果所述去模糊后的清晰图像A’和真实的清晰图像A的相似得分满足预设相似阈值，则停止所述生成式对抗网络模型的训练。

优选地，所述利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据的步骤之后还包括：

利用改进的VGG模型对所述待检测清晰图像数据和所述第二图像数据进行文字方向的倾斜角度矫正处理。

优选地，所述改进的VGG模型的构建过程具体包括：

冻结VGG模型中除最后一层之外的所有卷积层和全连接层；

通过预先获取的具有不同文字方向的倾斜角度图像对所述VGG模型的最后一层进行训练，并通过softmax分类器得到包含多个图像文字方向分类的目标分类结果。

优选地，所述数据清洗规则包括缺失值清洗、格式内容清洗、逻辑错误清洗以及非需求数据清洗。

优选地，所述从所述待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据的步骤包括：

如果所述待检测文书的图像数据集中图像数据的边缘满足预设清晰度判定条件，则确定为待检测清晰图像数据，否则，确定为待检测模糊图像数据。

优选地，所述通过预先训练的文字识别模型对所述目标文字区域进行文字识别得到目标文字的步骤之后还包括：

利用自然语言处理算法对所述目标文字进行处理得到多个文书基本要素信息；

整合所述多个文书基本要素信息得到文字识别结果。

另一方面，本发明还提供了一种基于深度学习的文字识别系统，包括：

图像获取模块，被配置为获取业务办公场景中待检测文书的图像数据集；

数据筛选模块，被配置为从所述待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据；

数据清洗模块，被配置为基于数据清洗规则对所述待检测模糊图像数据进行处理得到第一图像数据；

图像增强模块，被配置为利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据；

文本检测模块，被配置为将所述待检测清晰图像数据和所述第二图像数据输入至预先训练的文本检测模型得到目标文字区域；

以及，文字识别模块，被配置为通过预先训练的文字识别模型对所述目标文字区域进行文字识别得到目标文字。

再一方面，本发明还提供了一种电子设备，包括：处理器和存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上述所述的基于深度学习的文字识别方法。

又一方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的基于深度学习的文字识别方法。

与现有技术相比，本发明的基于深度学习的文字识别方法在图像数据处理阶段对经数据清洗后的模糊图像数据采取生成式对抗网络模型进行去模糊处理，该生成式对抗网络模型通过学习数据的分布，可以随机生成与训练数据的真实分布近似的图像数据，经图像去模糊的处理来达到数据增强的目的；通过文本检测模型和文字识别模型对经去模糊处理的图像数据与真实清晰的图像数据进行处理得到目标文字，提高了特殊领域的业务办公场景文书的识别性能。

另外，在图像数据处理阶段解决了在扫描文档时经常存在图像中多个文字方向的倾斜问题，进一步提高了文字识别率。

附图说明

图1为本发明的基于深度学习的文字识别方法的一些实施例的流程示意图；

图2为本发明的基于深度学习的文字识别方法中生成式对抗网络模型的训练流程示意图；

图3为本发明的基于深度学习的文字识别方法中生成式对抗网络模型的去模糊处理过程图；

图4本发明的基于深度学习的文字识别方法的另一些实施例的流程示意图；

图5为本发明实施例的改进后的VGG16模型的网络示意图；

图6为本发明的基于深度学习的文字识别方法的再一些实施例的流程示意图；

图7为本发明实施例的通知公文示意图；

图8为本发明基于深度学习的文字识别系统的一些实施例的结构框图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

一方面，参见图1所示，本发明实施例提供了一种基于深度学习的文字识别方法，包括：

步骤100：获取业务办公场景中待检测文书的图像数据集；

本步骤中在业务办公场景下使用获取图像的工具拍摄获得图像，例如：通过人工采集获取图像，其中模糊图像在拍摄时长时间曝光或者被拍摄物体移动太快过程中获取。

步骤200：从待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据；

本步骤中通过人工或者算法依据图像清晰度进行筛选。

步骤300：基于数据清洗规则对待检测模糊图像数据进行处理得到第一图像数据；

本步骤中数据清洗主要是针对模糊图像进行处理，去除无法识别的模糊图像。

步骤400：利用预先训练的生成式对抗网络模型对第一图像数据进行去模糊处理得到第二图像数据；

步骤500：将待检测清晰图像数据和第二图像数据输入至预先训练的文本检测模型得到目标文字区域；

本步骤中预先训练的文本检测模型可以为CTPN模型，当然还可以为其他模型，在此不做具体限定。

步骤600：通过预先训练的文字识别模型对目标文字区域进行文字识别得到目标文字。

本步骤中预先训练的文字识别模型可以为现有的CRNN模型或者DenseNet+CTC模型，当然还可以为其他模型，在此不做具体限定。

与现有技术相比，本发明实施例的基于深度学习的文字识别方法在图像数据处理阶段对经数据清洗后的模糊图像数据采取生成式对抗网络模型进行去模糊处理，该生成式对抗网络模型通过学习数据的分布，可以随机生成与训练数据的真实分布近似的图像数据，经图像去模糊的处理来达到数据增强的目的；通过文本检测模型和文字识别模型对经去模糊处理的图像数据与真实清晰的图像数据进行处理得到目标文字，提高了特殊领域的业务办公场景文书的识别性能。

在一些实施例中，参见图2和图3所示，本发明的基于深度学习的文字识别方法中生成式对抗网络模型的训练过程具体包括：

步骤401：根据内容损失、对抗损失确定损失函数，并基于损失函数构建生成式对抗网络模型的生成器和判别器；

步骤402：将不同尺寸的模糊图像A”输入生成器得到去模糊后的清晰图像A’；

步骤403：将去模糊后的清晰图像A’和真实的清晰图像A输入判别器得到去模糊后的清晰图像A’和真实的清晰图像A的相似得分；

步骤404：如果去模糊后的清晰图像A’和真实的清晰图像A的相似得分满足预设相似阈值，则停止生成式对抗网络模型的训练。

需要说明的是，生成式对抗网络（GAN, Generative Adversarial Networks ）是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中（至少）两个模块：生成模型（Generative Model）和判别模型（Discriminative Model）的互相博弈学习产生相当好的输出。

具体的，对经数据清洗后的模糊图像采取GAN网络，GAN通过学习数据的分布，可以随机生成与训练数据的真实分布近似的图像，经去模糊图像的处理来达到数据增强的目的。根据内容损失、对抗损失来确定损失函数并设计生成器和判别器，将不同尺寸的模糊图像A”作为生成器输入，生成器输出去模糊后的清晰图像A’，在训练时3个尺寸模糊图像的大小设置为16×16，64×64，128×128，256×256。将经去模糊处理的图像A’和真实的清晰图像A作为判别器的输入，判别器输出为对A’，A的打分。生成器以从判别器处获高分为目标，直到生成器生成的图片可以骗过判别器，就停止训练。

在一些实施例中，参见图4所示，本发明的基于深度学习的文字识别方法中步骤400之后还包括：

步骤800：利用改进的VGG模型对待检测清晰图像数据和第二图像数据进行文字方向的倾斜角度矫正处理。

在扫描文档时经常存在图像中文字45度、90度、135度、180度、225度、270度、315度等七个方向的倾斜问题，针对方向倾斜问题，利用改进的VGG模型对待检测清晰图像数据和第二图像数据进行文字方向的倾斜角度矫正处理，以保证后续的文字识别准确度。

本发明实施例的基于深度学习的文字识别方法在图像数据处理阶段解决了在扫描文档时经常存在图像中多个文字方向的倾斜问题，进一步提高了文字识别率。

在一些实施例中，参见图5所示，本发明的基于深度学习的文字识别方法中改进的VGG模型的构建过程具体包括：

冻结VGG模型中除最后一层之外的所有卷积层和全连接层；

通过预先获取的具有不同文字方向的倾斜角度图像对VGG模型的最后一层进行训练，并通过softmax分类器得到包含多个图像文字方向分类的目标分类结果。

针对方向倾斜问题，对扫描文档进行数据处理，选取图像水平和垂直边缘标记点投影计算出的较小的角度作为倾斜角，在本实施例中基于公文中存在的45度、90度、135度、180度、225度、270度、315度倾斜状况替换VGG16模型网络结构中的最后一层，将目标分类结果替换为七类，首先冻结模型网络中前面部分的卷积层和全连接层，通过系统已获取的图像对更改后的VGG16的最后一层重新进行训练，通过softmax分类器达到图像文字的方向的七个分类。图像中文字方向的倾斜角度通过改进后的VGG16模型网络之后可以对图像进行矫正，即图像相应角度的旋转。

在一些实施例中，本发明的基于深度学习的文字识别方法中数据清洗规则包括缺失值清洗、格式内容清洗、逻辑错误清洗以及非需求数据清洗。

在办公业务应用场景中，因为不同的用户在对图像的获取方式并不统一，如截图、扫描仪、相机等，存在多种未知因素的干扰，如复杂的背景环境，图像遮挡，图像环境的光照，图像尺度、天气因素等。因此所获取的图像质量参差不齐，所以在文字识别任务开始前首先对需要识别的图像进行预处理操作。

对获取的图像筛选，挑选出清晰的和模糊的图片，数据清洗是针对模糊图像进行处理，通过缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗等方式，在数据清洗过程中去掉无法识别的图像。

在一些实施例中，本发明的基于深度学习的文字识别方法中步骤200包括：

如果待检测文书的图像数据集中图像数据的边缘满足预设清晰度判定条件，则确定为待检测清晰图像数据，否则，确定为待检测模糊图像数据。

本实施例中可通过观察图像边缘是否分明，如果边缘不分明即不满足预设清晰度，这个图片被认为是模糊的，否则是清晰的，这里根据实际经验确定预设清晰度的具体数值，在此不做具体限定。当然也可以人为方式去判断图像边缘是否分明。

在一些实施例中，参见图6所示，本发明的基于深度学习的文字识别方法中步骤600之后还包括：

步骤700：利用自然语言处理算法对目标文字进行处理得到多个文书基本要素信息；整合多个文书基本要素信息得到文字识别结果。

本实施例中对识别后的文字进行自然语言处理，在识别结果中提取出时间、地点、发文单位等等文本基本要素信息，最后将识别出的结果进行保存。图像文字识别结果以公文中“通知”为例，参见图7所示。

综上所述，本发明实施例的基于深度学习的文字识别方法在图像预处理阶段对经数据清洗后的模糊图像采取GAN网络进行去模糊处理，GAN通过学习数据的分布，可以随机生成与训练数据的真实分布近似的图像，经图像去模糊的处理来达到数据增强的目的；在图像预处理阶段解决了在扫描文档时经常存在图像中文字45度、90度、135度、180度、225度、270度、315度七个方向的倾斜问题，对VGG16模型网络最后一层进行自定义分类，从而解决了图像中文字的倾斜角度问题，因此基于上面技术优势，提高了文字识别率。

另一方面，参见8所示，本发明实施例还提供了一种基于深度学习的文字识别系统1，包括：

图像获取模块10，被配置为获取业务办公场景中待检测文书的图像数据集；

数据筛选模块20，被配置为从待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据；

数据清洗模块30，被配置为基于数据清洗规则对待检测模糊图像数据进行处理得到第一图像数据；

图像增强模块40，被配置为利用预先训练的生成式对抗网络模型对第一图像数据进行去模糊处理得到第二图像数据；

文本检测模块50，被配置为将待检测清晰图像数据和第二图像数据输入至预先训练的文本检测模型得到目标文字区域；

以及，文字识别模块60，被配置为通过预先训练的文字识别模型对目标文字区域进行文字识别得到目标文字。

在一些实施例中，本发明的基于深度学习的文字识别系统1还包括自然语言处理模块70，被配置为利用自然语言处理算法对目标文字进行处理得到多个文书基本要素信息；整合多个文书基本要素信息得到文字识别结果。

上述中基于深度学习的文字识别系统各模块的具体细节已经在对应的基于深度学习的文字识别方法中进行了详细的描述，因此此处不再赘述。

再一方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器，存储器上存储有计算机可读指令，计算机可读指令被处理器执行时实现上述实施例所述的基于深度学习的文字识别方法。

具体地，上述存储器和处理器能够为通用的存储器和处理器，这里不做具体限定，当处理器运行存储器存储的计算机可读指令时，能够执行上述实施例所述的基于深度学习的文字识别方法。

又一方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例所述的基于深度学习的文字识别方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-only memory，ROM)、随机存取器(randomaccessmemory，RAM)、磁盘或光盘等。

应该指出，上述详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语均具有与本申请所属技术领域的普通技术人员的通常理解所相同的含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请所述的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式。此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位，如旋转90度或处于其他方位，并且对这里所使用的空间相对描述作出相应解释。

在上面详细的说明中，参考了附图，附图形成本文的一部分。在附图中，类似的符号典型地确定类似的部件，除非上下文以其他方式指明。在详细的说明书、附图及权利要求书中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下，其他实施方案可以被使用，并且可以作其他改变。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的文字识别方法，其特征在于，包括：

获取业务办公场景中待检测文书的图像数据集；

2.根据权利要求1所述的基于深度学习的文字识别方法，其特征在于，所述生成式对抗网络模型的训练过程具体包括：

3.根据权利要求1所述的基于深度学习的文字识别方法，其特征在于，所述利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据的步骤之后还包括：

4.根据权利要求3所述的基于深度学习的文字识别方法，其特征在于，所述改进的VGG模型的构建过程具体包括：

冻结VGG模型中除最后一层之外的所有卷积层和全连接层；

5.根据权利要求1所述的基于深度学习的文字识别方法，其特征在于，所述数据清洗规则包括缺失值清洗、格式内容清洗、逻辑错误清洗以及非需求数据清洗。

6.根据权利要求1所述的基于深度学习的文字识别方法，其特征在于，所述从所述待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据的步骤包括：

7.根据权利要求1所述的基于深度学习的文字识别方法，其特征在于，所述通过预先训练的文字识别模型对所述目标文字区域进行文字识别得到目标文字的步骤之后还包括：

整合所述多个文书基本要素信息得到文字识别结果。

8.一种基于深度学习的文字识别系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至7中任一项所述的基于深度学习的文字识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于深度学习的文字识别方法。