CN113553885A

CN113553885A - 一种基于生成对抗网络的自然场景文本识别方法

Info

Publication number: CN113553885A
Application number: CN202010337878.XA
Authority: CN
Inventors: 张培尧; 李斌; 薛向阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2021-10-26

Abstract

本发明提供一种基于生成对抗网络的自然场景文本识别方法，其特征在于，包括：训练数据获取步骤，采集用于训练的文本内容以及环境图像并合成多个训练用成对图片；生成对抗网络训练步骤，基于训练用成对图片训练用于将复杂背景图片转换为二值化图片的生成对抗网络，生成对抗网络具有生成器模块、判别器模块以及预处理损失模块；文本识别网络训练步骤，训练用于根据二值化图片识别出文本内容的文本识别网络；文本识别步骤，将自然场景文本图像输入生成器模块以及文本识别网络并识别出自然场景文本图像中的图像文本内容。本发明能够应对自然场景图像中复杂背景对文本识别造成干扰的问题，有效提升了场景文本识别的准确率和鲁棒性。

Description

一种基于生成对抗网络的自然场景文本识别方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于生成对抗网络的自然场景文本识别方法。

背景技术

人类通过眼睛这一视觉感知器感知周围的环境，接收外界的视觉刺激，视觉皮层对这些视觉信息进行抽象处理，并传递给我们的大脑，帮助大脑做出更加精准科学的判断和决策。得益于人工智能技术的发展，计算机的智能视觉系统可以自动感知场景信息，更好的解释和理解视觉世界，并做出相应的决策和反应。

文本在自然场景中起着传播信息的重要作用，扮演传递消息的基本工具标志。自然场景文本识别在实际生产生活中有着非常丰富的应用场景。从最初简单的手写邮编数字识别到现在深入到交通、安防、海关、餐饮等众多领域，是无人驾驶、传图翻译、车牌识别、广告识别等应用的重要环节。自然场景文本识别已经成为丰富多样的场景下不可或缺的智能化工具，智能化要求也越来越高。

自然场景文本识别的实际应用场景环境复杂，用于文本识别任务的图像会受到光照、气候、周围遮挡物等自然环境因素的干扰，不同光照条件下图像表面的纹理特征会发生改变，增加识别难度。雨雪天气以及有雾的情况下采集到的图像会在图像前景造成干扰。另外自然场景下会出现文本区域附近存在树叶、建筑物、栅栏、交通标志等的情况，对图像中字符前景和自然背景的纹理特征产生干扰，从而使得识别和理解图像中的文本内容难以提高识别准确率。

发明内容

为解决自然场景文本识别任务存在的复杂背景干扰问题，提供一种能够在复杂自然场景图像中准确地识别出文本内容的自然场景文本识别方法，本发明采用了如下技术方案：

本发明提供了一种基于生成对抗网络的自然场景文本识别方法，其特征在于，包括：训练数据获取步骤，采集用于训练的文本内容以及环境图像并合成多个训练用成对图片，每个训练用成对图片包含对应同一个文本内容的一张二值化图片以及一张复杂背景图片，每个训练用成对图片的标签为合成时所使用的文本内容；生成对抗网络训练步骤，基于训练用成对图片训练用于将复杂背景图片转换为二值化图片的生成对抗网络，生成对抗网络具有生成器模块、判别器模块以及预处理损失模块，生成器模块用于对复杂背景图片进行处理并生成拟合二值化图片分布的输出图片，判别器模块用于对输出图片以及二值化图片进行处理并判断输出图片为真实二值化图片的概率作为输出概率，预处理损失模块用于根据二值化图片、输出图片以及输出概率计算生成对抗网络的对抗约束损失，并传递给生成器模块以及判别器模块的参数进行迭代更新，直至生成对抗网络收敛；文本识别网络训练步骤，采用有监督的方式根据训练用成对图片以及标签对用于根据二值化图片识别出文本内容的文本识别网络进行训练；文本识别步骤，将自然场景文本图像输入生成器模块并生成二值化的待识别图像，进一步将该待识别图像输入文本识别网络并识别出自然场景文本图像中的图像文本内容。

本发明提供的基于生成对抗网络的自然场景文本识别方法，还可以具有这样的技术特征，其中，文本识别网络包括特征提取器模块、特征解码器模块和损失模块，特征提取器模块的通道层次采用注意力机制，用于提取二值化图片的图片特征，特征解码器模块用于对图片特征进行解码并输出对应文本内容的预测结果，损失模块用于根据预测结果以及训练用成对图片的标签计算文本识别网络的损失，并通过反向传播算法对特征提取器模块以及特征解码器模块的参数进行更新，直到文本识别网络收敛。

本发明提供的基于生成对抗网络的自然场景文本识别方法，还可以具有这样的技术特征，其中，对抗约束损失的损失函数为：

式中，G代表生成器模块，D代表判别器模块，z表示生成器模块的输入，x表示条件信息，y表示第一训练数据中的二值化图像。G(x,z)为生成器模块的输出图像，log D(x,y)为在条件信息x下输入的二值化文本图片符合第一训练数据中的二值化图像的概率的对数形式，log(1-D(x,G(x,z)))为生成器模块的合成结果不符合第一训练数据中的二值化图像的概率的对数形式，cGAN为条件生成对抗网络，E为函数的数学期望。

本发明提供的基于生成对抗网络的自然场景文本识别方法，还可以具有这样的技术特征，其中，训练用成对图片中包含的文字是多种字体。

本发明提供的基于生成对抗网络的自然场景文本识别方法，还可以具有这样的技术特征，其中，生成器模块由编码器单元和解码器单元构成，训练用成对图片中的复杂背景图片经由编码器单元进行特征提取，再流向解码器单元输出并生成输出图片。

本发明提供的基于生成对抗网络的自然场景文本识别方法，还可以具有这样的技术特征，其中，判别器模块由全卷积神经网络构成。

发明作用与效果

根据本发明的基于生成对抗网络的自然场景文本识别方法，由于具有生成对抗网络以及文本识别网络，可以通过生成对抗网络将自然场景文本图像转换为相应的二值化图片，再通过文本识别网络对转换出的二值化图片进行识别从而识别出图像中的文本内容，因此，在识别文本内容时，可以有效地减少复杂背景的干扰，避免文本识别网络的文本识别任务会受到不同光照、不同气候、不同遮挡物等的干扰，提高自然场景中文本识别的准确率。另外，还由于在训练生成对抗网络时，还通过判别器模块对生成器模块所转换二值化图片进行真实性判别，使得生成器模块在训练后可以生成更接近真实背景图像的二值化图片，因此进一步地提升了文本识别网络对二值化图片的识别准确性和鲁棒性，更具有实际应用价值。

附图说明

图1是本发明实施例中基于生成对抗网络的自然场景文本识别方法的流程图；

图2是本发明实施例中训练数据获取步骤的具体实施流程图；

图3是本发明实施例中生成对抗网络的结构示意图；

图4是本发明实施例中生成对抗网络的训练过程的具体实施流程图；

图5是本发明实施例中文本识别网络的结构示意图；以及

图6是本发明实施例中文本识别网络的训练过程的具体实施流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的基于生成对抗网络的自然场景文本识别方法作具体阐述。

<实施例>

本实施例中，基于生成对抗网络的自然场景文本识别方法被编写为相应的计算机程序并在一台计算机中运行实现，能够根据用户输入的待识别的自然场景文本图像识别出该自然场景文本图像中的图像文本内容。

图1是本发明实施例中基于生成对抗网络的自然场景文本识别方法的流程图。

如图1所示，基于生成对抗网络的自然场景文本识别方法具体包括如下步骤：

步骤S1，训练数据获取步骤：采集用于训练的文本内容以及环境图像并合成多个训练用成对图片。

本实施例中，在识别自然场景文本图像前，需要预先训练用于进行识别的生成对抗网络以及文本识别网络。一旦这两个网络训练完成，计算机就可以将这两个网络进行存储，并直接基于存储的生成对抗网络以及文本识别网络依次对用户输入的各个自然场景文本图像进行识别。

本实施例的步骤S1中，通过公开信息获取(例如通过爬虫爬取、或是批量导入等方式)用于训练的文本内容(例如文本语料等)以及环境图像，并根据这些文本内容以及环境图片合成训练用成对图片。其中，每个训练用成对图片包含对应同一个文本内容的一张二值化图片以及一张复杂背景图片，每个训练用成对图片的标签为合成时所使用的文本内容。

图2是本发明实施例中训练数据获取步骤的具体实施流程图。

如图2所示，步骤S1包括如下子步骤：

步骤S1-1，采集用于合成图片的文本内容和环境图片。

步骤S1-2，确定文本内容的字体、大小、颜色等设置。

步骤S1-3，为每一条文本内容合成两张图片，分别为一张复杂背景图片(即图片背景为步骤S1-1采集的环境图片，图片前景为步骤S1-1采集的文本内容)和一张二值化图片(即图片背景为纯白色底图，图片前景为步骤S1-1采集的文本内容)。其中，复杂背景图片以及二值化图片中包含的文字的字体为步骤S1-2所确定的字体设置。

步骤S1-4，将所有合成的训练用成对图片作为生成对抗网络的第一训练数据。

步骤S1-5，将每张图片在合成时的文本内容作为相应的标签进行保存，并训练用成对图片以及相应的标签作为文本识别网络的第二训练数据。

步骤S2，训练生成对抗网络步骤。

图3是本发明实施例中生成对抗网络的结构示意图。

如图3所示，生成对抗网络102包含生成器模块21、判别器模块22和预处理损失模块23，使用上述第一训练数据进行训练。具体地：

生成器模块21用于对复杂背景图片进行处理并生成拟合二值化图片分布的输出图片。

本实施例中，生成器模块21由编码器单元21a和解码器单元21b构成：输入生成器模块21的图片经过编码器单元21a进行特征提取，在再流向解码器单元21b输出并生成输出图片。

判别器模块22用于对输出图片以及二值化图片进行处理并判断输出图片更符合第一训练数据中的二值化图片的概率作为输出概率。

本实施例中，判别器模块22由全卷积神经网络构成。

预处理损失模块23用于根据二值化图片、输出图片以及输出概率计算生成对抗网络102的对抗约束损失，并传递给生成器模块21以及判别器模块22的参数进行迭代更新，直至生成对抗网络102收敛。

本实施例中，上述对抗约束损失的损失函数为：

式中，G代表生成器模型，D表示判别器模型，z表示生成器模块的输入，x表示条件信息，y表示第一训练数据中的二值化图片。G(x,z)为生成器模块的输出图片，log D(x,y)为在条件信息x下输入的二值化图片符合第一训练数据中的二值化图片的概率的对数形式，log(1-D(x,G(x,z)))为输出图片不符合第一训练数据中的二值化图像的概率的对数形式，cGAN为条件生成对抗网络，E为函数的数学期望。

图4为本发明实施例中生成对抗网络的训练过程的具体实施流程图。

如图4所示，步骤S2具体包括如下子步骤：

步骤S2-1，将第一训练数据中的多张复杂背景图片输入到生成器模块21，并得到生成器模块21输出的输出图片；

步骤S2-2，将生成器模块21输出的输出图片与第一训练数据中相应的二值化图片对应地输入到判别器模块22，并得到输出的真实二值化图片的概率；

步骤S2-3，将第一训练数据中的二值化图片、生成器模块21的输出图片和判别器模块22的输出概率一起输入到预处理损失模块23进行训练。模型未收敛时，预处理损失模块23通过前向传递计算当前模型的损失，并将计算的模型梯度传递到生成器模块21和判别器模块22，对生成器模块21和判别器模块22的参数进行迭代更新，直到模型收敛。

步骤S3，训练文本识别网络步骤。

图5是本发明实施例中文本识别网络的结构示意图。

如图5所示，文本识别网络103包括特征提取器模块31、特征解码器模块32和损失模块33，采用有监督的方式并使用上述第二训练数据进行训练。

特征提取器模块31的通道层次采用注意力机制，用于提取二值化图片的图片特征(深层视觉特征)。

特征解码器模块32用于对图片特征进行解码并输出对应文本内容的预测结果。

损失模块33用于根据预测结果以及训练用成对图片的标签计算文本识别网络103的损失，并通过反向传播算法对特征提取器模块31以及特征解码器模块32的参数进行更新，直到文本识别网络103收敛。

如图6所示，步骤S3具体包括如下子步骤：

步骤S3-1，将第二训练数据中的多张二值化图片输入到特征提取器模块31，并得到特征提取器模块31提取的图片特征；

步骤S3-2，将特征提取器模块31提取的图片特征输入特征解码器模块32，得到图片中文本内容的预测结果；

步骤S3-3，将特征提取器模块31对图片中文本内容的预测结果和第二训练数据中相应的标签输入到损失模块33，并由损失模块33将参数的梯度传递给特征提取器和特征解码器，采用反向传播算法更新参数，直到模型收敛。

通过上述步骤S1至步骤S3所训练的生成对抗网络以及文本识别网络，即可用于复杂背景的文本内容的识别，接下来的步骤S4为训练完成的生成对抗网络以及文本识别网络的应用阶段。

步骤S4，文本识别步骤：将需要识别的自然场景文本图像输入生成对抗网络以及文本识别网络，并识别出该自然场景文本图像中的图像文本内容。

本实施例中，步骤S4具体包括如下子步骤：

步骤S4-1，使用生成器模21对自然场景文本图像进行转换并生成转换后的待识别图像，该待识别图像为二值化的自然场景文本图像；

步骤S4-2，使用文本识别网络对待识别图像进行识别从而识别出其中的图像文本内容。

通过步骤S4即可实现通过训练完成的生成对抗网络以及文本识别网络对自然场景文本图像中的图像文本内容的识别。另外，为了实际使用方便，步骤S1至步骤S3可以预先进行，并将训练完成的生成对抗网络以及文本识别网络打包成一个计算机程序，从而便于用户直接通过该计算机程序对自然场景文本图像进行文本识别。

实施例作用与效果

根据本实施例提供的基于生成对抗网络的自然场景文本识别方法，由于具有生成对抗网络以及文本识别网络，可以通过生成对抗网络将自然场景文本图像转换为相应的二值化图片，再通过文本识别网络对转换出的二值化图片进行识别从而识别出图像中的文本内容，因此，在识别文本内容时，可以有效地减少复杂背景的干扰，避免文本识别网络的文本识别任务会受到不同光照、不同气候、不同遮挡物等的干扰，提高自然场景中文本识别的准确率。另外，还由于在训练生成对抗网络时，通过判别器模块对生成器模块所转换二值化图片进行真实性判别，使得生成器模块在训练后可以生成更接近真实背景图像的二值化图片，因此进一步地提升了文本识别网络对二值化图片的识别准确性和鲁棒性，更具有实际应用价值。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种基于生成对抗网络的自然场景文本识别方法，用于根据待识别的自然场景文本图像识别出该自然场景文本图像中被复杂环境干扰的图像文本内容，其特征在于，包括：

训练数据获取步骤，采集用于训练的文本内容以及环境图像并合成多个训练用成对图片，每个所述训练用成对图片包含对应同一个所述文本内容的一张二值化图片以及一张复杂背景图片，每个所述训练用成对图片的标签为合成时所使用的所述文本内容；

生成对抗网络训练步骤，基于所述训练用成对图片训练用于将复杂背景图片转换为二值化图片的生成对抗网络，所述生成对抗网络具有生成器模块、判别器模块以及预处理损失模块，

所述生成器模块用于对所述复杂背景图片进行处理并生成拟合二值化图片分布的输出图片，

所述判别器模块用于对所述输出图片以及所述二值化图片进行处理并判断所述输出图片更符合所述第一训练数据中的所述二值化图片的概率作为输出概率，

所述预处理损失模块用于根据所述二值化图片、所述输出图片以及所述输出概率计算所述生成对抗网络的对抗约束损失，并传递给所述生成器模块以及所述判别器模块的参数进行迭代更新，直至所述生成对抗网络收敛；

文本识别网络训练步骤，采用有监督的方式根据所述训练用成对图片以及所述标签对用于根据二值化图片识别出文本内容的文本识别网络进行训练；

文本识别步骤，将所述自然场景文本图像输入所述生成器模块并生成二值化的待识别图像，进一步将该待识别图像输入所述文本识别网络并识别出所述自然场景文本图像中的所述图像文本内容。

2.根据权利要求1所述的基于生成对抗网络的自然场景文本识别方法，其特征在于：

其中，所述文本识别网络包括特征提取器模块、特征解码器模块和损失模块，

所述特征提取器模块的通道层次采用注意力机制，用于提取所述二值化图片的图片特征，

所述特征解码器模块用于对所述图片特征进行解码并输出对应所述文本内容的预测结果，

所述损失模块用于根据所述预测结果以及所述训练用成对图片的所述标签计算所述文本识别网络的损失，并通过反向传播算法对所述特征提取器模块以及所述特征解码器模块的参数进行更新，直到所述文本识别网络收敛。

3.根据权利要求1所述的基于生成对抗网络的自然场景文本识别方法，其特征在于：

其中，所述对抗约束损失的损失函数为：

式中，G代表所述生成器模块，D代表所述判别器模块，z表示所述生成器模块的输入，x表示条件信息，y表示所述第一训练数据中的所述二值化图片，G(x,z)为所述输出图片，logD(x,y)为在条件信息x下输入的所述二值化图片符合所述第一训练数据中的所述二值化图片的概率的对数形式，log(1-D(x,G(x,z)))为所述输出图片不符合所述第一训练数据中的所述二值化图像的概率的对数形式，cGAN为所述生成对抗网络，E为函数的数学期望。

4.根据权利要求1所述的基于生成对抗网络的自然场景文本识别方法，其特征在于：

其中，所述训练用成对图片中包含的文字是多种字体。

5.根据权利要求1所述的基于生成对抗网络的自然场景文本识别方法，其特征在于：

其中，所述生成器模块由编码器单元和解码器单元构成，

所述训练用成对图片中的所述复杂背景图片经由所述编码器单元进行特征提取，再流向所述解码器单元输出并生成所述输出图片。

6.根据权利要求1所述的基于生成对抗网络的自然场景文本识别方法，其特征在于：

其中，所述判别器模块由全卷积神经网络构成。