CN109685068B

CN109685068B - 一种基于生成对抗神经网络的图像处理方法以及系统

Info

Publication number: CN109685068B
Application number: CN201811611656.1A
Authority: CN
Inventors: 刘树春; 陈明曦; 谢雨飞; 林亦宁; 彭垚
Original assignee: Shanghai Qiniu Information Technology Co ltd
Current assignee: Shanghai Qiniu Information Technology Co ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2021-02-26
Anticipated expiration: 2038-12-27
Also published as: CN109685068A

Abstract

本发明实施例提供了一种基于生成对抗神经网络的图像处理方法以及系统，所述方法包括：获取原始图像数据集，所述原始图像数据集包括原始图像以及对应的二进制数据；采用预设的模型创建图像处理模型，所述图像处理模型包括生成网络以及判别网络；根据所述原始图像数据集对所述生成网络进行训练；将预设的损失函数与所述图像处理模型结合；采用所述训练后的图像处理模型进行图像二值化处理，对所述二值化处理后的图像进行文字识别，获得识别结果。本发明实施例通过采用对抗神经网络进行图像处理，通过生成网络和判别网络进行训练，能够实现对图像二值化处理，从而便于后续的识别，提高识别成功率。

Description

一种基于生成对抗神经网络的图像处理方法以及系统

技术领域

本发明涉及计算机图像识别领域，尤其涉及一种基于生成对抗神经网络的图像处理方法以及系统。

背景技术

随着技术的不断进步，图像识别日益普遍。在图像识别过程中，经常会遇到图像中文字的识别，由于有时图像背景过于复杂，时常会出现无法识别文字或者识别错误的情况。

发明内容

本发明实施例提供一种基于生成对抗神经网络的图像处理方法以及系统，能够对图像中的文字进行清晰化处理，便于后续识别。

本发明实施例第一方面提供了一种基于生成对抗神经网络的图像处理方法，包括：

获取原始图像数据集，所述原始图像数据集包括原始图像以及对应的二进制数据；

采用预设的模型创建图像处理模型，所述图像处理模型包括生成网络以及判别网络；

根据所述原始图像数据集对所述生成网络进行训练；

将预设的损失函数与所述图像处理模型结合；

采用所述训练后的图像处理模型进行图像二值化处理，对所述二值化处理后的图像进行文字识别，获得识别结果。

可选的，所述图像处理模型包括有条件的生成对抗神经网络，所述原始图像数据集为所述有条件的生成对抗神经网络的输入，所述原始图像数据集的大小为32*280。

可选的，所述有条件的生成对抗神经网络的目标函数为：

L_cGAN＝E_x,y[logD(x,y)]+E_x,z[log(1-D(x,G(x,z)))]；

其中，所述G为生成网络，所述D为判别网络，所述x为原始图像，所述z为随机噪声向量，所述生成网络用于根据所述原始图像以及随机噪声向量生成输出值y；

所述方法还包括采用第一距离减少模糊，所述第一距离公式为：

L_L1(G)＝E _x,y,z[||Y-G(x,z)||₁]。

可选的，所述生成网络包括：非局部注意力模块、空间循环神经网络模块以及残差块。

可选的，所述非局部注意力模块用于获取图像的全局信息，所述全局信息包括：图像纹理、图像样式以及颜色统计。

可选的，所述空间循环神经网络模块根据序列从左向右移动，获取一个输入信息，更新所述输入信息的隐藏状态，并生成一个输出信息。

可选的，所述空间循环神经网络模块包括长短期记忆网络，所述非局部注意力模块包括第一非局部注意力模块以及第二非局部注意力模块，所述第一非局部注意力模块与所述长短期记忆网络连接，所述长短期记忆网络与所述第二非局部注意力模块连接。

可选的，所述判别网络包括多个卷积层，所述判别网络通过结构相似性判断图片信息的差异性。

可选的，所述判别网络的损失函数为：

其中，所述SSIM(f,g)为所述图片的结构相似性。

本发明实施例第二方面提供了一种基于生成对抗神经网络的图像处理系统，所述系统包括处理器以及存储器，

所述存储器用于存储可执行程序；

所述处理器用于执行所述可执行程序以实现权利要求1-9所述的图像处理方法。

实施本发明实施例，具有如下有益效果：

本发明实施例中的基于生成对抗神经网络的图像处理方法以及系统，通过采用对抗神经网络进行图像处理，通过生成网络和判别网络进行训练，能够实现对图像二值化处理，从而便于后续的识别，提高识别成功率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于生成对抗神经网络的图像处理方法第一实施例的方法流程图。

图2为本发明实施例提供的一种基于生成对抗神经网络的图像处理方法的架构图。

图3为本发明实施例提供的非局部注意力模块以及空间循环神经网络模块的架构图。

图4所示为本发明实施例提供的一种基于生成对抗神经网络的图像处理系统的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图中将各步骤描述成顺序的处理，但是其中的许多步骤可以并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排，当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图内的其它步骤。处理可以对应于方法、函数、规程、子例程、子程序等。

图1为本发明实施例提供的一种基于生成对抗神经网络的图像处理方法第一实施例的方法流程图。可以理解的是，该图像处理方法可以应用于移动终端、计算机、服务器等设备。该图像处理方法包括以下步骤S101-S105。

在步骤S101中，获取原始图像数据集，所述原始图像数据集包括原始图像以及对应的二进制数据。

具体的，为了便于后续对图像的识别，需要对图像进行预处理，本实施例中通过生成对抗网络对图像进行预处理。在生成对抗网络中，需要采用一定的数据进行训练，因此，首先获取一定数据量的原始图像数据集。所述原始图像数据集包括原始图像以及对应的二进制数据。所述二进制数据用于后续作为标准解进行判断判别网络的辅助判断。

在步骤S102中，采用预设的模型创建图像处理模型，所述图像处理模型包括生成网络以及判别网络。

具体的，本实施例中，采用预设的模型创建图像处理模型，所述图像处理模型为生成对抗网络，所述图像处理模型包括生成网络以及判别网络。

在步骤S103中，根据所述原始图像数据集对所述生成网络进行训练。

具体的，采用获得的原始图像数据集对生成网络进行训练。

在步骤S104中，将预设的损失函数与所述图像处理模型结合。

具体的，为了进一步的提高模型识别的准确度，还需要设置相应的损失函数。

在步骤S105中，采用所述训练后的图像处理模型进行图像二值化处理，对所述二值化处理后的图像进行文字识别，获得识别结果。

具体的，训练后的图像处理模型可以用于图像二值化处理，经过处理后的图像能够易于识别，提高识别成功率。

下面结合图2进一步详细说明本方案。

图2为本发明实施例提供的一种基于生成对抗神经网络的图像处理方法的架构图。如图2所示，所述对抗神经网络10包括生成网络20以及判别网络30。原始数据作为输入进入所述生成网络20，得到相应的输出结果，所述生成网,20的输出结果作为输入进入所述判别网络30，所述判别网络30用于判断所述输入的真假，根据判断结果进行训练。

所述生成网络20以及判别网络都采用多层的卷积结构，可以理解的是，所述卷积的层数可以为多种，本发明实施例并不以此为限。

本实施例中，为了准确的进行图像二值化，当前技术中，通常需要依赖于图像上下文的先验信息。本发明实施例中采用空间循环神经网络(SRNN，Spatial Recurrent NeuralNetwork)以来探知空间变化中图像的上下文信息。

本实施例中，所述图像处理模型包括有条件的生成对抗神经网络，即所述对抗神经网络10为有条件的生成对抗神经网络(CGAN，Conditional Generative AdversarialNetworks)。本实施例中，所述条件为所述原始图像数据集中原始图像对应的二进制数据。所述二进制数据作为标准解用于判别网络30的判断。

本实施例中，所述原始图像数据集为所述有条件的生成对抗神经网络的输入，所述原始图像数据集的大小为32*280。

本实施例中，所述有条件的生成对抗神经网络的目标函数为：

L_cGAN＝E_x,y[logD(x,y)]+E_x,z[log(1-D(x,G(x,z)))]；

L_L1(G)＝E _x,y,z[||Y-G(x,z)||₁]。

此外，所述有条件的生成对抗神经网络从观察到的图像x和随机噪声向量z得到y，三者之间满足以下公式：

G:{x,z}→y。

本实施例中，如图2所示，所述生成网络20包括非局部注意力模块、空间循环神经网络模块以及残差块。

所述非局部注意力模块(non-local attention module)用于获取图像的全局信息，所述全局信息包括：图像纹理、图像样式以及颜色统计。采用非局部注意力模块是为了更好的提取长距离文本区域之间的依赖信息。

所述空间循环神经网络模块根据序列从左向右移动，获取一个输入信息，更新所述输入信息的隐藏状态，并生成一个输出信息。

所述空间循环神经网络模块包括长短期记忆网络，所述非局部注意力模块包括第一非局部注意力模块以及第二非局部注意力模块，所述第一非局部注意力模块与所述长短期记忆网络连接，所述长短期记忆网络与所述第二非局部注意力模块连接。

如图2所示，所述生成网络20从3个卷积层开始，便于从输入图像提取特征。3个卷积层与第一非局部注意力模块连接，所述第一非局部注意力模块用于学习所述提取特征的权重函数。

如图3所示，在卷积层提取了图像特征之后，采用softmax函数对各个特征进行处理，公式如下：

其中，Q＝W_q*φ(X)，K＝W_k*φ(X)，V＝W_v*φ(X)。Q、K、V分别表示Query、Key以及Value。W_q、W_k以及W_v分别为学习的权重。

通过将注意力层的输出乘以比例参数α并添加输入功能Titus，最终输出Y。公式如下：

Y＝α×A(Q,K,V)+φ(X)。

在空间循环神经网络模块中，在第一非局部注意力模块之后，采用二维的长短期记忆网络(LSTM，Long Short-Term Memory)。在本实施例中，通过沿着每行和每列移动循环神经网络，可以更好的获取文本方向以及线条间距信息。

本实施例中，采用LSTM用于空间循环神经网络模块中，可以理解的是，也可以采用其他方式，本发明实施例并不以此为限。

在二维的LSTM之后，是另外一个非局部注意力模块，即第二非局部注意力模块。所述第二非局部注意力模块用于引导生成网络20提取像素之间的依赖关系。

通过采用非局部注意力模块以及长短期记忆网络，能够消除背景的干扰，更加清晰的获取重要的文本区域。然后，如图2中所示，在生成网络20中，注意力图像被分为6个残差块(Residual Blocks)，然后是2个反向卷积层以及1个卷积层，以生成对应的二进制图像。

本实施例中，所述判别网络30包括多个卷积层，所述判别网络通过结构相似性判断图片信息的差异性。可选的，所述多个卷积层的个数可以为3个。所述结构相似性(SSIM，structural similarityindex)用于测量图片之间相似性。

本实施例中，所述判别网络的损失函数为：

其中，所述SSIM(f,g)为所述图片的结构相似性。

上述可知，本发明实施例中的基于生成对抗神经网络的图像处理方法，通过采用对抗神经网络进行图像处理，通过生成网络和判别网络进行训练，能够实现对图像二值化处理，从而便于后续的识别，提高识别成功率。

图4所示为本发明实施例提供的一种基于生成对抗神经网络的图像处理系统的结构示意图。如图4所示，所述系统包括处理器401(所述处理器401的数量可以一个或多个，图4以一个处理器为例)以及存储器402。在本发明的实施例中，处理器401、存储器402可通过总线或其它方式连接，其中，图4中以通过总线连接为例。可以理解的是，本实施例中的系统也可以应用于图2或图3所示的实施例中。

其中，存储器402中存储有可执行程序，处理器401执行所述可执行程序以实现如下步骤：

根据所述原始图像数据集对所述生成网络进行训练；

将预设的损失函数与所述图像处理模型结合；

采用所述训练后的图像处理模型进行图像二值化处理。

可选的，图像处理模型包括有条件的生成对抗神经网络，所述原始图像数据集为所述有条件的生成对抗神经网络的输入，所述原始图像数据集的大小为32*280。

可选的，所述有条件的生成对抗神经网络的目标函数为：

L_cGAN＝E_x,y[logD(x,y)]+E_x,z[log(1-D(x,G(x,z)))]；

L_L1(G)＝E _x,y,z[||Y-G(x,z)||₁]。

可选的，所述判别网络的损失函数为：

其中，所述SSIM(f,g)为所述图片的结构相似性。

上述可知，本发明实施例中的基于生成对抗神经网络的图像处理系统，通过采用对抗神经网络进行图像处理，通过生成网络和判别网络进行训练，能够实现对图像二值化处理，从而便于后续的识别，提高识别成功率。

上述实施例中提供各模块两两之间均可实现通讯连接，且各模块均可与平台的中心控制装置通讯连接，上述实施例中提供的通过指纹识别快速录音装置可执行本公开中任意实施例中所提供的通过指纹识别快速录音的方法，具备执行该方法相应的功能模块和有益效果，未在上述实施例中详细描述的技术细节，可参见本公开任意实施例中所提供的快速录音的方法。

将意识到的是，本公开也扩展到适合于将本公开付诸实践的计算机程序，特别是载体上或者载体中的计算机程序。程序可以以源代码、目标代码、代码中间源和诸如部分编译的形式的目标代码的形式，或者以任何其它适合在按照本公开的方法的实现中使用的形式。也将注意的是，这样的程序可能具有许多不同的构架设计。例如，实现按照本公开的方法或者系统的功能性的程序代码可能被再分为一个或者多个子例程。

用于在这些子例程中间分布功能性的许多不同方式将对技术人员而言是明显的。子例程可以一起存储在一个可执行文件中，从而形成自含式的程序。这样的可执行文件可以包括计算机可执行指令，例如处理器指令和/或解释器指令(例如，Java解释器指令)。可替换地，子例程的一个或者多个或者所有子例程都可以存储在至少一个外部库文件中，并且与主程序静态地或者动态地(例如在运行时间)链接。主程序含有对子例程中的至少一个的至少一个调用。子例程也可以包括对彼此的函数调用。涉及计算机程序产品的实施例包括对应于所阐明方法中至少一种方法的处理步骤的每一步骤的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

另一个涉及计算机程序产品的实施例包括对应于所阐明的系统和/或产品中至少一个的装置中每个装置的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

计算机程序的载体可以是能够运载程序的任何实体或者装置。例如，载体可以包含存储介质，诸如(ROM例如CDROM或者半导体ROM)或者磁记录介质(例如软盘或者硬盘)。进一步地，载体可以是可传输的载体，诸如电学或者光学信号，其可以经由电缆或者光缆，或者通过无线电或者其它手段传递。当程序具体化为这样的信号时，载体可以由这样的线缆或者装置组成。可替换地，载体可以是其中嵌入有程序的集成电路，所述集成电路适合于执行相关方法，或者供相关方法的执行所用。

应该留意的是，上文提到的实施例是举例说明本公开，而不是限制本公开，并且本领域的技术人员将能够设计许多可替换的实施例，而不会偏离所附权利要求的范围。在权利要求中，任何放置在圆括号之间的参考符号不应被解读为是对权利要求的限制。动词“包括”和其词形变化的使用不排除除了在权利要求中记载的那些之外的元素或者步骤的存在。在元素之前的冠词“一”或者“一个”不排除复数个这样的元素的存在。本公开可以通过包括几个明显不同的组件的硬件，以及通过适当编程的计算机而实现。在列举几种装置的装置权利要求中，这些装置中的几种可以通过硬件的同一项来体现。在相互不同的从属权利要求中陈述某些措施的单纯事实并不表明这些措施的组合不能被用来获益。

如果期望的话，这里所讨论的不同功能可以以不同顺序执行和/或彼此同时执行。此外，如果期望的话，以上所描述的一个或多个功能可以是可选的或者可以进行组合。

如果期望的话，上文所讨论的各步骤并不限于各实施例中的执行顺序，不同步骤可以以不同顺序执行和/或彼此同时执行。此外，在其他实施例中，以上所描述的一个或多个步骤可以是可选的或者可以进行组合。

虽然本公开的各个方面在独立权利要求中给出，但是本公开的其它方面包括来自所描述实施方式的特征和/或具有独立权利要求的特征的从属权利要求的组合，而并非仅是权利要求中所明确给出的组合。

这里所要注意的是，虽然以上描述了本公开的示例实施方式，但是这些描述并不应当以限制的含义进行理解。相反，可以进行若干种变化和修改而并不背离如所附权利要求中所限定的本公开的范围。

本领域普通技术人员应该明白，本公开实施例的装置中的各模块可以用通用的计算装置来实现，各模块可以集中在单个计算装置或者计算装置组成的网络组中，本公开实施例中的装置对应于前述实施例中的方法，其可以通过可执行的程序代码实现，也可以通过集成电路组合的方式来实现，因此本公开并不局限于特定的硬件或者软件及其结合。

本领域普通技术人员应该明白，本公开实施例的装置中的各模块可以用通用的移动终端来实现，各模块可以集中在单个移动终端或者移动终端组成的装置组合中，本公开实施例中的装置对应于前述实施例中的方法，其可以通过编辑可执行的程序代码实现，也可以通过集成电路组合的方式来实现，因此本公开并不局限于特定的硬件或者软件及其结合。

Claims

1.一种基于生成对抗神经网络的图像处理方法，其特征在于，包括：

根据所述原始图像数据集对所述生成网络进行训练；

将预设的损失函数与所述图像处理模型结合；

采用所述训练后的图像处理模型进行图像二值化处理，对所述二值化处理后的图像进行文字识别，获得识别结果；

所述生成网络包括：非局部注意力模块、空间循环神经网络模块以及残差块；

所述空间循环神经网络模块根据序列从左向右移动，获取一个输入信息，更新所述输入信息的隐藏状态，并生成一个输出信息；

所述空间循环神经网络模块包括长短期记忆网络，所述非局部注意力模块包括第一非局部注意力模块以及第二非局部注意力模块，所述第一非局部注意力模块与所述长短期记忆网络连接，所述长短期记忆网络与所述第二非局部注意力模块连接；

所述残差块为6个，在残差块之后还连接有2个反向卷积层以及一个卷积层。

2.如权利要求1所述的方法，其特征在于，所述图像处理模型包括有条件的生成对抗神经网络，所述原始图像数据集为所述有条件的生成对抗神经网络的输入，所述原始图像数据集的大小为32*280。

3.如权利要求2所述的方法，其特征在于，所述有条件的生成对抗神经网络的目标函数为：

L_cGAN＝E_x,y[logD(x,y)]+E_x,z[log(1-D(x,G(x,z)))]；

L_L1(G)＝E_x,y,z[||Y-G(x,z)||₁]。

4.如权利要求1所述的方法，其特征在于，所述非局部注意力模块用于获取图像的全局信息，所述全局信息包括：图像纹理、图像样式以及颜色统计。

5.如权利要求3所述的方法，其特征在于，所述判别网络包括多个卷积层，所述判别网络通过结构相似性判断图片信息的差异性。

6.如权利要求5所述的方法，其特征在于，所述判别网络的损失函数为：

其中，所述SSIM(f,g)为所述图片的结构相似性。

7.一种基于生成对抗神经网络的图像处理系统，其特征在于，所述系统包括处理器以及存储器，

所述存储器用于存储可执行程序；

所述处理器用于执行所述可执行程序以实现权利要求1-6所述的图像处理方法。