CN110009057A

CN110009057A - 一种基于深度学习的图形验证码识别方法

Info

Publication number: CN110009057A
Application number: CN201910301765.1A
Authority: CN
Inventors: 王海舟; 杨振宇; 顾艾婧; 黄港; 傅瑞华; 王奇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-07-12
Anticipated expiration: 2039-04-16
Also published as: CN110009057B

Abstract

本发明公开了一种基于深度学习的图形验证码识别方法，包括以下步骤：S1、获取若干待识别的真实图形验证码，并对其进行预处理后组成真实验证码数据集；S2、基于真实验证码数据集训练生成式对抗网络并生成有标注信息的模拟验证码数据集；S3、选取图形验证码识别网络，并利用模拟验证码数据集对其进行训练；S4、通过真实验证码数据集和模拟验证码数据集对训练好的图像验证码识别网络进行验证和测试，实现图形验证码的识别。本发明方法无需人工对验证码数据集进行标注，通过生成式对抗网络对验证码进行自动标注，进而获取用于训练验证码识别网络的数据集，使训练得到的验证码识别模型有较好的识别效果和泛化能力。

Description

一种基于深度学习的图形验证码识别方法

技术领域

本发明属于验证码识别技术领域，具体涉及一种基于深度学习的图形验证码识别方法。

背景技术

图形验证码(CAPTCHA)在互联网中的应用十分普遍，无论是账户登录、信息检索、资料下载，甚至是用户在登录后进行某些功能的频繁操作，网站或客户端程序都可能会要求用户输入验证码来进行下一步操作。总的来说，验证码属于“图灵测试”的一种，利用人对图像、字符等高效识别能力，用以确认操作是否由“人”来发起的，而计算机对字符的识别，则需要采用各种机器学习方法(如SVM、神经网络等)在经过大量训练后才能在某些数据集上得到有效的识别效率。通过人机验证，以达到防止用户恶意行为，如不法分子通过脚本程序等信息爬取来窃取信息，或是黄牛进行大量刷票来进行不当牟利，以及网络垃圾(如广告、色情等)的传播。

图形验证码的形式多种多样，目前常见的有字符识别(中、英文)式、滑块拼图式、选词式、场景识别式等，但字符型验证码仍然是应用范围最广的验证码形式之一。从最开始的简单字符变形，到逐渐增加其扭曲程度、添加多种干扰线与噪声方式，进行字符叠加粘连等，增加机器识别的难度。最初的一些机器学习方式(SVM，OCR光学字符识别等)在现如今的高度复杂的验证码场景下已经无法进行有效识别。

目前对于验证码识别的主流方式正在逐渐向深度学习方向靠拢，例如利用CNN卷积神经网络进行有分割或端到端的验证码识别，识别流程可概括为：1、预处理：通过灰度化、二值化等，利用最大类间方差等方法分离背景，然后对处理后的图片利用连通域分隔法进行去噪。2、定位，字符分割：通过泛水填充法等去除字符粘连并进行字符分割。3、卷积神经网络进行识别：通过定义分类任务将验证码作为神经网络的输入进行分类训练，得到较高识别率的模型。

虽然目前CNN对于特定验证码的识别效果要优于传统的机器学习算法，但其依赖于大量训练集，例如采用LeNet-5三层卷积网络来对普通的4位验证码进行识别，需要近百万的训练集才能达到预期的识别效果，并且训练好的模型不具备泛化能力，对有标注训练集的高度依赖极大地增加了模型训练的成本。

综上，已有的验证码识别方法存在如下问题：

1、依赖于大量标注好的训练集；

2、识别效果、泛化能力不足。

发明内容

针对现有技术中的上述不足，本发明提供的基于深度学习的图形验证码识别方法解决了现有的图形验证码识别方法识别成本高且识别效果和泛化能力不足的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于深度学习的图形验证码识别方法，包括以下步骤：

S1、通过网络爬虫获取若干待识别的真实图形验证码，并对其进行预处理后组成真实验证码数据集；

S2、基于真实验证码数据集训练生成式对抗网络并生成有标注信息的模拟验证码数据集；

S3、选取图形验证码识别网络，并利用模拟验证码数据集对其进行训练；

S4、通过真实验证码数据集和模拟验证码数据集对训练好的图像验证码识别网络进行验证和测试，得到优化后的图形验证码识别网络，实现图形验证码的识别。

进一步地，所述步骤S1中的对获取的待识别的真实图形验证码预处理包括依次去除图形验证码中的背景、干扰线、噪点和字符粘连。

进一步地，所述步骤S2具体为：

S21、构建生成式对抗网络；

S22、基于真实验证码数据集中图形验证码，生成输入到生成式对抗网络中的模拟图形样本；

S23、将生成的模拟图形样本输入到生成式对抗网络中并对其进行训练，完成训练后得到带有标注信息的模拟验证码数据集。

进一步地，所述步骤S21中的生成式对抗网络包括依次连接的生成子网络和判别子网络；

所述生成子网络为ResNet结构，用于生成类似于模拟图形样本的模拟验证码并输入判别网络；

所述判别子网络为二分类的卷积神经网络结构，用于将输入其中的真实验证码和模拟验证码进行区分。

进一步地，所述步骤S21中，生成式对抗网络中生成子网络中的损失函数为：

式中，R_loss(·)为将生成的模拟数据样本误判为真实数据的损失值；

Y_reals为输入的真实样本；

P_loss为生成子网络自训练时的损失值；

判别子网络中的损失函数为：

式中，Y_gens为生成子网络生成的模拟数据样本；

D(·)为输入值(·)对应概率值；

判别子网络将生成的模拟数据样本误判为真实数据的损失函数为：

进一步地，所述步骤S22中生成模拟图形样本的方法具体为：

A1、根据真实验证码数据集中图形验证码的特性，确定用于生成模拟验证码的字体库；

A2、在确定的字体库的范围内，根据图片生成器Ori_gen生成与真实图形验证码匹配的模拟图形样本；

其中，模拟图形样本与真实图形验证码具有相同的字符数量和分辨率。

进一步地，所述步骤S23中，对生成式对抗网络进行训练时生成子网络自训练的损失函数为：

P_loss＝λ(Y_change-Y_ori)²

式中，λ为影响因子；

Y_change为在像素级别对生成的图片进行修改后样本；

Y_ori为初步的穆尼数据样本。

进一步地，所述步骤S3中的图形验证码识别网络为LeNet结构神经网络、AlexNet结构神经网络或LSTM结构神经网络。

进一步地，所述步骤S4具体为：

B1、选取验证集输入到训练好的图形验证码识别网络中，对图形验证码识别网络的网络参数进行优化；

B2、将测试集输入到优化后的图形验证码识别网络，实现图形验证码的识别；

其中，验证集中的数据包括人工标注的真实验证码数据集中的部分验证码数据和模拟验证码数据集中的部分验证码数据；

测试集中的数据为未人工标注的真实验证码数据集中的验证码数据。

本发明的有益效果为：本发明提供的基于深度学习的图形验证码识别方法，属于通用的验证码识别方法，无需人工对验证码数据集进行标注，通过生成式对抗网络对验证码进行自动标注，进而获取用于训练验证码识别网络的数据集，使训练得到的验证码识别模型有较好的识别效果和泛化能力。

附图说明

图1为本发明提供的基于深度学习的图形验证码识别方法流程图。

图2为本发明中模拟验证码的生成图与识别结果图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

本发明首先要解决的问题是大量有标注验证码数据集的获取，人工标注近百万张验证码的成本过高。“生成式对抗网络”(GAN,Generative Adversarial Networks)是近年来提出的一种深度学习模型，目前在无监督学习领域取得了广泛的应用。该模型主要分为两个模块：生成模型(GenerativeNetwork)和判别模型(DiscriminativeNetwork)。生成模型通过学习一些已有的数据，然后生成一些类似的“模拟数据”，而判别模型将生成模型生成的数据与真实数据作为输入，并判断输入是真实数据还是由生成网络生成的模拟数据。

在通过生成式对抗网络获取到大量有价值的数据集后，即可利用生成的数据通过训练一个结构较为简单的(防止过拟合)卷积神经网络(或其他结构，如循环神经网络等)进行端到端的训练识别；通过同样的流程，可以增加在不同场景下验证码识别的自动化程度，并节约识别成本。

基于上述验证码识别原理，本发明提供了如图1所示的基于深度学习的图形验证码识别方法，包括以下步骤：

无需进行大量数据标注，通过编写爬虫爬取目标验证码网站即可获得大量真实的图形验证码数据；而对真实图形验证码预处理包括依次去除图形验证码中的背景、干扰线、噪点和字符粘连。

上述步骤2中的难点是如何生成标注好的模拟数据，原始的生成式对抗网络中通过最近编码向量来生成初始模拟图片，而训练后只能生成类似于真实数据的样本，如生成人脸和猫狗等，但无法对其进行分类信息标注。本发明中通过以下方法获得有标准信息的模拟验证码数据集，包括以下步骤：

S21、构建生成式对抗网络；

上述步骤S21的生成式对抗网络包括依次连接的生成子网络和判别子网络；

其中，生成子网络为ResNet结构避免了普通卷积神经网络每一层都对多有的信息进行保留，不易训练；判别子网络中为了生成结果的优化可以采用patch方法对图像不同区域进行loss的计算，可以在多个localpathes上来定义判别器。

上述生成式对抗网络中生成子网络中的损失函数为：

Y_reals为输入的真实样本；

P_loss为生成子网络自训练时的损失值；

判别子网络中的损失函数为：

式中，Y_gens为生成子网络生成的模拟数据样本；

D(·)为输入值(·)对应概率值；

当判别子网络中输入为a的概率为D(.)时，等价于两类分类问题的交叉熵误差合成的验证码，和真验证码的1-D(.)。我们注意到真实的验证码在训练中是不同的，这个用于测试我们的的方法。D(Y_gens)应该尽可能为1，D(Y_reals)应尽可能为0，这样使得D_loss最小。相反，把模拟误判为真实的则D(Y_gens)会接近0，则R_loss会最小，这个R_loss是在生成模型训练时要优化的，要让判别网络“废掉”。

上述步骤S22中生成模拟图形样本的方法具体为：

A2、在确定的字体库的范围内，根据图片生成器Ori_gen生成与真实图形验证码匹配的模拟图形样本；通过图片生成器Ori_gen生成模拟图形样本时，要考虑模拟的验证码的特征，如字符旋转程度、重叠程度和图片像素大小等，尽可能地生成“看起来”比较像真实图形验证码；其中的模拟图形样本与真实图形验证码具有相同的字符数量和分辨率。

上述步骤S23中，GN通过在像素级别(pixlevel)对生成的图片进行修改，避免图片字符在训练过程中的更改或破裂，从而保留图片的标注信息。为了保证在像素级上进行生成数据的修改，需要对生成子网络进行训练；其中，生成子网络自训练的损失函数为：

P_loss＝λ(Y_change-Y_ori)²

式中，λ为影响因子；

Y_change为在像素级别对生成的图片进行修改后样本；

Y_ori为初步的穆尼数据样本。

通过生成子网络自训练最小化自损失结果，保证生成结果和输入结果的像素差别尽可能小，即尽可能对生成的数据的标签的保留。

对于判别子网络，现有真实数据集和生成器样本作为输入，设定batch_size，真假样本各半，真假无需手动标记。

对生成式对抗网络训练时，要考虑到一下的一些情况：

(1)生成样本的特征随时间变化；

(2)过拟合与像素局部偏移：

生成子网络的输出(即判别子网络的输入)的特征随时间不断变化，如何保证GAN网络生成损失和判别损失的对抗性，以及生成模型提取到错误的特征(局部崩坏)，可以采用以下策略：

(1)在判别模型进行训练的过程中，每一轮都添加前一段时间内(如前五轮)的生成样本。

(2)采用PatchGAN中的思想，判别器将图像划分为多个patch分别进行识别，从而保证了模拟样本的高细节保持(标记信息)的要求。

上述步骤S3中的图形验证码识别网络为LeNet结构神经网络、AlexNet结构神经网络或LSTM结构神经网络。

由于图形验证码识别属于分类任务，而验证码本身图片信息并不复杂，因此为了避免过拟合现象以及模型训练的困难程度，在模型的选取上可以选取结构较为简单的模型。可以通过卷积神经网络或循环神经网络来进行识别，如果验证码结构较为简单，则为了避免过拟合以及提高训练效率，可采用结构较为简单的LeNet、AlexNet等模型，如果验证码本身较为复杂，为了提高识别精度，可以采用ResNet50模型等进行识别。其他关于模型参数的设置(如dropout、FC/GAP、batch_size)等可根据训练情况来进行调整。

在上述步骤S4中，尽管生成的模拟验证码数据在GAN的训练中被判别子网络认可，但其用作图形验证码识别网络的训练集仍然需要进行一定的验证和评估。因此，上述步骤S4具体为：

B1、选取验证集输入到训练好的图形验证码识别网络中，对图形验证码识别网络的网络参数进行优化。其中，验证集中的数据包括人工标注的真实验证码数据集中的部分验证码数据和模拟验证码数据集中的部分验证码数据；从而得到生成数据的质量以及图形验证码识别网络的进一步优化方向。

B2、将测试集输入到优化后的图形验证码识别网络，实现图形验证码的识别。

其中，测试集中的数据为未人工标注的真实验证码数据集中的验证码数据。

图2中显示了几个从生成式对抗网络中生成的模拟验证码及通过图形验证码识别网络得到的识别结果，在此次模拟中采用的“华文琥珀”字体，由此结果可以看出，生成的模拟样本几乎与真实样本一直，GAN有效的保留住了生成器中的标签信息。

在本发明的一个实施例中，提供了如何对获取真实验证码进行预处理的一种方法：通过最大类间方差进行背景分离，根据图形的灰度特性，选取较优的阈值进行字符与背景的分离。例如设C为字符和背景的分割阈值，字符像素点占图像比例为p₀，平均灰度为a_c，背景占图像比例为p₁，平均灰度为a_b，图像总平均灰度为a_g，因此，a_g＝p₀*a_c+p₁*a_b；

则字符与背景图像方差定义为：

S＝p₀*(a_c-a_g)²+p₁*(a_b-a_g)²＝p₀*p₁*(a_c-a_b)²

当方差越大时，即字符与背景差异最大，此时的灰度C即使分割的最佳阈值；

之后图像可能存在早点干扰性等情况，可采用四邻域像素算法等进行去噪(根据验证码的不同特性可选取更加算法和策略)，例如对图2出的验证码实例，对于像素值>245的邻域像素，判别为属于背景色，如果一个像素上下左右4各像素值有超过2个像素属于背景色，那么该像素就是噪；对于空心验证码等可先进行填充，再进行骨架提取，进而使得验证码在预处理后更容易被“模仿”，有利于接下来GAN的训练。

在本发明的一个实施例中，还提供了以另一种得到模拟验证码数据集的方法：对真实验证码数据集中的“干扰特征”一起进行模拟，对真实数据集的预处理可以适当减少，反之，需要对真实数据集的“干扰特征”进行提取，并将其附加、模拟到生成的数据上，这涉及到了图像的“风格迁移”(Image Style Transfer)，目前已有一些取得良好效果的神经网络模型(如VGG19)，以及纹理提取等优化方案。若采用此思路，则需要在Ori_gen上对目标验证码的干扰特征进行初始化模拟，如增加干扰线与噪点等，并在此基础上使用风格迁移模型在目标数据集上提取特征并对模拟图片进行处理，再将图片送入GAN中进行训练。

Claims

1.一种基于深度学习的图形验证码识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的图形验证码识别方法，其特征在于，所述步骤S1中的对获取的待识别的真实图形验证码预处理包括依次去除图形验证码中的背景、干扰线、噪点和字符粘连。

3.根据权利要求1所述的基于深度学习的图形验证码识别方法，其特征在于，所述步骤S2具体为：

S21、构建生成式对抗网络；

4.根据权利要求3所述的基于深度学习的图形验证码识别方法，其特征在于，所述步骤S21中的生成式对抗网络包括依次连接的生成子网络和判别子网络；

5.根据权利要求4所示的基于深度学习的图形验证码识别方法，其特征在于，所述步骤S21中，生成式对抗网络中生成子网络中的损失函数为：

Y_reals为输入的真实样本；

P_loss为生成子网络自训练时的损失值；

判别子网络中的损失函数为：

式中，Y_gens为生成子网络生成的模拟数据样本；

D(·)为输入值(·)对应概率值；

6.根据权利要求3所述的基于深度学习的图形验证码识别方法，其特征在于，所述步骤S22中生成模拟图形样本的方法具体为：

7.根据权利要求4所述的基于深度学习的图形验证码识别方法，其特征在于，所述步骤S23中，对生成式对抗网络进行训练时生成子网络自训练的损失函数为：

P_loss＝λ(Y_change-Y_ori)²

式中，λ为影响因子；

Y_change为在像素级别对生成的图片进行修改后样本；

Y_ori为初步的穆尼数据样本。

8.根据权利要求1所述的基于深度学习的图形验证码识别方法，其特征在于，所述步骤S3中的图形验证码识别网络为LeNet结构神经网络、AlexNet结构神经网络或LSTM结构神经网络。

9.根据权利要求1所述的基于深度学习的图形验证码识别方法，其特征在于，所述步骤S4具体为：