CN109933975A

CN109933975A - 一种基于深度学习的验证码识别方法及系统

Info

Publication number: CN109933975A
Application number: CN201910211160.3A
Authority: CN
Inventors: 王景玉
Original assignee: Shandong Inspur Cloud Information Technology Co Ltd
Current assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2019-06-25

Abstract

本发明公开了一种基于深度学习的验证码识别方法及系统，属于计算机视觉和图像处理，本发明要解决的技术问题为如何处理网络爬虫过程中遇到的验证码，实现自动识别验证码，采用的技术方案为：①一种基于深度学习的验证码识别方法，步骤如下：S1、图像收集打标签：利用爬虫爬取该网站的验证码图片分为测试集和训练集，并手动打上标签；S2、图像预处理：利用图片处理工具CV2对验证码图片进行预处理；S3、搭建深度学习模型：利用深度学习框架keras、开发工具python以及训练集数据搭建深度学习模型；S4、模型训练及验证。②一种基于深度学习的验证码识别系统，包括图像收集打标签模块、图像预处理模块、搭建深度学习模型模块以及模型训练及验证模块。

Description

一种基于深度学习的验证码识别方法及系统

技术领域

本发明涉及计算机视觉及图像处理领域，具体地说是一种基于深度学习的验证码识别方法及系统。

背景技术

随着近些年来互联网技术的飞速发展，网络安全逐渐进入公众视野，成为必须重视的一环，为了防止恶意批量注册网站、反爬虫等，验证码的使用也随之普及开来。大网站论坛、网站需要输入验证码的随处可见。对于公司的爬虫项目来说，验证码识别技术研究也被提上日程。传统的验证码识别是利用OCR(光学识别符)技术如Google开源的tesseract框架，但是对验证码的条件要求苛刻，且准确率较低；随着机器学习的兴起利用机器学习算法识别验证码被人们提出，但是需要切割定位等复杂的操作，且准确率并不如人意。

其中，OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。OCR技术操作简单，但对验证码要求苛刻且准确率较低。

机器学习首先必须对验证码图片进行针对性的图像预处理、字符分割及特征提取等操作。利用SVM、KNN等分类算法，通过训练大量图片，预测出每一个分割后的字符，最后在进行拼接实现识别验证码。这类方法的原理简单，但操作起来麻烦，要先对图片进行去噪、二值化、分割等一系列预处理；对于验证码字符有重叠的不能有效分割也就不能用该方法，识别准确率也不尽如人意。

综上所述，如何处理网络爬虫过程中遇到的验证码，实现自动识别验证码，提高验证码识别的准确率是目前现有技术中急需解决的技术问题。

专利号为CN107085730A的专利文献公开了一种字符验证码识别的深度学习方法，该方法包括：步骤1，利用有标注标签的数据训练集来训练模型；步骤2，用训练好的模型来预测新的验证码图片中的文字。但是该技术方案不能处理网络爬虫过程中遇到的验证码，实现自动识别验证码，提高验证码识别的准确率。

专利号为CN107967475A的专利文献公开了一种基于窗口滑动和卷积神经网络的验证码识别方法，首先收集使用少量验证码图片，降噪后抠验证码需要识别的字符集，将每个字符集进行旋转、扭曲，增加背景噪音，然后针对这些字符集利用卷积神经网络，每个字符训练得到一个单字符分类器。最后对需要识别的验证码图片，预处理后进行连通域分割，针对每个连通域，进行窗口滑动，利用之前训练的单字符分类器进行分类，得到识别最终结果。但是该技术方案不能处理网络爬虫过程中遇到的验证码，实现自动识别验证码，提高验证码识别的准确率。

发明内容

本发明的技术任务是提供一种基于深度学习的验证码识别方法及系统，来解决如何处理网络爬虫过程中遇到的验证码，实现自动识别验证码，提高验证码识别的准确率的问题。

本发明的技术任务是按以下方式实现的，一种基于深度学习的验证码识别方法，该方法的步骤如下：

S1、图像收集打标签：利用爬虫爬取该网站的验证码图片分为测试集500张和训练集400张，并手动打上标签；其中，验证码图片中的文字是由10个数和52个大小写字母随机抽取其中4个组成；

S2、图像预处理：利用图片处理工具CV2对验证码图片进行预处理；

S3、搭建深度学习模型：利用深度学习框架keras、开发工具python以及训练集数据搭建深度学习模型；其中，随着计算机计算能力的大幅提升神经网络再次被提起，深度学习的研究炙手可热，深度神经网络在各个领域都取得了前所未有的成果；在图像的应用中，卷积神经网络的出现加快了训练过程从而使得训练大量的图像数据更为方便，卷积神经网络在图像识别中已经取得了超越人类的效果；本发明就是运用了卷积神经网络在图像上强大的识别能力，来设计进行验证码的识别；

S4、模型训练及验证：利用反向传播，经过多次训练模型后，用训练好的模型来预测测试集的验证码图片。

作为优选，所述步骤S2中图像预处理具体步骤如下：

S201、灰度处理：将验证码图片的RGB三通道原图处理成单通道图片；

S202、二值化处理：设定一个像素阈值，把大于该像素阀值的像素值设置为255，小于该像素阈值的像素值设置为0，将验证码图片的RGB三通道的图转化成只有黑白颜色的图片；其中，像素点的值在0-255之间，0为白色，255为黑色；其中，像素阀值优选180。

S203、清除噪点：遍历整个验证码图片，统计每个像素点周围邻域内黑点个数，设定一个噪点阈值，黑点数小于该噪点阈值，则认为该点是噪点，把该像素点的值设置为0；其中，噪点阀值优选3。

S204、图片标准化：二值化后的验证码图片像素点是0或255，把每个像素点除以255进行标准化，标准化后数据更稳定，训练时更快的收敛。

作为优选，所述步骤S3中深度学习模型的神经网络结构包括输入层、卷积层、池化层、全连接层和输出层；

其中，输入层用于把图像以张量形式传入深度学习模型；

卷积层用于根据卷积核(感受视野)的大小和步长扫描验证码图片，对验证码图片进行特征提取和特征映射；

池化层用于对输入的特征图进行压缩，包括使特征图变小，简化网络计算复杂度以及进行特征压缩，提取主要特征；

全连接层用于连接所有的特征，对特征进行重新拟合，减少特征信息的丢失将输出值送给分类器；

输出层用于输出模型的预测结果。

更优地，所述池化层采取max pooling，通过设置filter的大小和步长，扫描经过卷积后的图片，在每次扫描中找出最大值来代表当前区域的特征。

作为优选,所述步骤S3中搭建深度学习模型的具体步骤如下：

S301、通过卷积s(i,j)扫描整个验证码图片获得局部特征；

其中，s(i,j)即卷积核矩阵W对应的输出矩阵的对应位置元素的值，b表示偏置；(i,j)表示矩阵的一个点；

X表示输入矩阵；W表示卷积核矩阵；n表示输入矩阵的个数或者是张量的最后一维的维数；X_k表示第k个输入矩阵；W_k表示卷积核的第k个子卷积核矩阵；

S302、通过激活函数relu之后，对传入的特征采用最大池化法进行特征过滤和选择；

S303、经过多次卷积池化处理后，再经过一个全连接层处理；

S304、对输出层通过softmax函数进行处理，最终输出的是一每个字符的概率，最大概率对应的字符即为预测结果。

更优地,所述步骤S302中池化法采用padding；

激活函数relu具体是：

其中，f(x)表示采用的激活函数，把数据进行非线性变换；该激活函数把小于0的数变为0，通过激活函数解决梯度消失的问题，加快训练速度；x表示输入的数值。

更优地，所述步骤S304中softmax函数具体是：

其中，x表示输入的数据，x_i代表第i个数，k表示共有k的数。

作为优选，所述步骤S4中模型训练及验证中损失函数采用最大熵：

其中，y_i表示第i个字符的标签，p_i表示第i个字符最大预测值的概率。

一种基于深度学习的验证码识别系统，该系统包括图像收集打标签模块、图像预处理模块、搭建深度学习模型模块以及模型训练及验证模块；

其中，图像收集打标签模块用于用爬虫爬取该网站的验证码图片分为测试集500张和训练集400张，并手动打上标签；

图像预处理模块用于利用图片处理工具CV2对验证码图片进行预处理；

搭建深度学习模型模块用于利用深度学习框架keras、开发工具python以及训练集数据搭建深度学习模型；

模型训练及验证模块用于利用反向传播，经过多次训练模型后，用训练好的模型来预测测试集的验证码图片。

作为优选，所述图像预处理模块包括灰度处理模块、二值化处理模块、清除噪点模块、图片标准化模块；

其中，灰度处理模块用于将验证码图片的RGB三通道的原图处理成单通道图片；

二值化处理模块用于设定一个像素阈值，把大于该像素阀值的像素值设置为255，小于该像素阈值的像素值设置为0，将验证码图片的RGB三通道的图转化成只有黑白颜色的图片；其中，像素点的值在0-255之间，0为白色，255为黑色；

清除噪点模块用于遍历整个验证码图片，统计每个像素点周围邻域内黑点个数，设定一个噪点阈值，黑点数小于该噪点阈值，则认为该点是噪点，把该像素点的值设置为0；

图片标准化模块用于二值化后的验证码图片像素点是0或255，把每个像素点除以255进行标准化，标准化后数据更稳定，训练时更快的收敛。

本发明的基于深度学习的验证码识别方法及系统具有以下优点：

(一)、本发明基于一种端到端(End-to-End)的深度学习人工智能方法，通过构建多层深度卷积神经网络(Convolutional Neural Networks，CNN)以及高频次高精度的模型数据训练测试，实现了一种行之有效的五类验证码深度学习处理识别算法，根据该模型验证码的识别准确率超过90％，使用传统的机器学习SVM、KNN等算法，其准确率仅有50％左右，并且需要对图片进行定位、切割等一系列复杂的预处理；显然，相比于传统的图像切割识别算法，本发明具有更高的准确率和更少的复杂度；

(二)、本发明提出的基于深度卷积神经网络的验证码识别方法省去了字符分割，去噪等人工干预，有效解决了字符粘连，定位，消除噪声的问题，特征提取，分类器训练由卷积神经网学习而得；同时算法结构既简单又易于训练，并且识别速度快，准确率高；

(三)、本发明解决了网络爬虫过程中遇到的验证码问题，建立深度学习模型，自动识别验证码；

(四)、本发明利用卷积神经网络端对端的方法通过大量的图片训练从而实现92％的准确率，解决了验证码图片的字符有旋转、重叠夹杂噪声传统的方式无法处理的难题；

(五)、针对有重叠夹杂噪音的验证码利用传统的手段已经不能解决，本发明基于深度学习中的卷积神经网络建立一个5层的网络架构利用端对端的方法高效准确的识别出验证码的字符，根据最终的测试结果准确率高达92％，而且操作简单，部署方便，甚至能迁移到其他字符类型验证码，很好的解决了网络爬虫过程中的验证码难题。

附图说明

下面结合附图对本发明进一步说明。

附图1为基于深度学习的验证码识别方法的流程框图；

附图2为深度学习模型的神经网络结构的框图；

附图3为验证码图片经灰度处理后的示意图；

附图4为验证码图片经二值化处理后的示意图；

附图5为基于深度学习的验证码识别系统的结构框图。

具体实施方式

参照说明书附图和具体实施例对本发明的一种基于深度学习的验证码识别方法及系统作以下详细地说明。

实施例：

如附图1所示，本发明的基于深度学习的验证码识别方法及系统,该方法的步骤如下：

S2、图像预处理：利用图片处理工具CV2对验证码图片进行预处理；具体步骤如下：

S201、灰度处理：将验证码图片的RGB三通道原图处理成单通道图片，如附图3所示；

S202、二值化处理：设定像素阈值为180，把大于180的像素值设置为255，小于80的像素值设置为0，将验证码图片的RGB三通道的图转化成只有黑白颜色的图片，如附图4所示；其中，像素点的值在0-255之间，0为白色，255为黑色；

S203、清除噪点：遍历整个验证码图片，统计每个像素点周围邻域内黑点个数，设定噪点阈值为3，黑点数小于3，则认为该点是噪点，把该像素点的值设置为0；

S3、搭建深度学习模型：利用深度学习框架keras、开发工具python以及训练集数据搭建深度学习模型；其中，随着计算机计算能力的大幅提升神经网络再次被提起，深度学习的研究炙手可热，深度神经网络在各个领域都取得了前所未有的成果；在图像的应用中，卷积神经网络的出现加快了训练过程从而使得训练大量的图像数据更为方便，卷积神经网络在图像识别中已经取得了超越人类的效果；本发明就是运用了卷积神经网络在图像上强大的识别能力，来设计进行验证码的识别；如附图2所示，深度学习模型的神经网络结构包括输入层、卷积层、池化层、全连接层和输出层；其中，输入层用于把图像以张量形式传入深度学习模型；卷积层用于根据卷积核(感受视野)的大小和步长扫描验证码图片，对验证码图片进行特征提取和特征映射；池化层用于对输入的特征图进行压缩，包括使特征图变小，简化网络计算复杂度以及进行特征压缩，提取主要特征；池化层采取max pooling，通过设置filter的大小和步长，扫描经过卷积后的图片，在每次扫描中找出最大值来代表当前区域的特征。全连接层用于连接所有的特征，对特征进行重新拟合，减少特征信息的丢失将输出值送给分类器；输出层用于输出模型的预测结果。

其中，搭建深度学习模型的具体步骤如下：

S301、通过卷积s(i,j)扫描整个验证码图片获得局部特征；

S302、通过激活函数relu之后，对传入的特征采用最大池化法进行特征过滤和选择；池化法采用padding；

激活函数relu具体是：

S303、经过多次卷积池化处理后，再经过一个全连接层处理；

S304、对输出层通过softmax函数进行处理，最终输出的是一每个字符的概率，最大概率对应的字符即为预测结果。其中，softmax函数具体是：其中，x表示输入的数据，x_i代表第i个数，k表示共有k的数。

S4、模型训练及验证：利用反向传播，经过多次训练模型后，用训练好的模型来预测测试集的验证码图片。损失函数采用最大熵：其中，y_i表示第i个字符的标签，p_i表示第i个字符最大预测值的概率。

实施例2：

如附图5所示，本发明的基于深度学习的验证码识别系统，该系统包括图像收集打标签模块、图像预处理模块、搭建深度学习模型模块以及模型训练及验证模块；其中，图像收集打标签模块用于用爬虫爬取该网站的验证码图片分为测试集500张和训练集400张，并手动打上标签；图像预处理模块用于利用图片处理工具CV2对验证码图片进行预处理；图像预处理模块包括灰度处理模块、二值化处理模块、清除噪点模块、图片标准化模块；其中，灰度处理模块用于将验证码图片的RGB三通道的原图处理成单通道图片；二值化处理模块用于设定一个像素阈值，把大于该像素阀值的像素值设置为255，小于该像素阈值的像素值设置为0，将验证码图片的RGB三通道的图转化成只有黑白颜色的图片；其中，像素点的值在0-255之间，0为白色，255为黑色；清除噪点模块用于遍历整个验证码图片，统计每个像素点周围邻域内黑点个数，设定一个噪点阈值，黑点数小于该噪点阈值，则认为该点是噪点，把该像素点的值设置为0；图片标准化模块用于二值化后的验证码图片像素点是0或255，把每个像素点除以255进行标准化，标准化后数据更稳定，训练时更快的收敛。搭建深度学习模型模块用于利用深度学习框架keras、开发工具python以及训练集数据搭建深度学习模型；模型训练及验证模块用于利用反向传播，经过多次训练模型后，用训练好的模型来预测测试集的验证码图片。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于深度学习的验证码识别方法，其特征在于，该方法的步骤如下：

S1、图像收集打标签：利用爬虫爬取该网站的验证码图片分为测试集和训练集，并手动打上标签；

S3、搭建深度学习模型：利用深度学习框架keras、开发工具python以及训练集数据搭建深度学习模型；

2.根据权利要求1所述的基于深度学习的验证码识别方法，其特征在于，所述步骤S2中图像预处理具体步骤如下：

S202、二值化处理：设定一个像素阈值，把大于该像素阀值的像素值设置为255，小于该像素阈值的像素值设置为0，将验证码图片的RGB三通道的图转化成只有黑白颜色的图片；其中，像素点的值在0-255之间，0为白色，255为黑色；

S203、清除噪点：遍历整个验证码图片，统计每个像素点周围邻域内黑点个数，设定一个噪点阈值，黑点数小于该噪点阈值，则认为该点是噪点，把该像素点的值设置为0；

3.根据权利要求1或2所述的基于深度学习的验证码识别方法，其特征在于，所述步骤S3中深度学习模型的神经网络结构包括输入层、卷积层、池化层、全连接层和输出层；

其中，输入层用于把图像以张量形式传入深度学习模型；

卷积层用于根据卷积核的大小和步长扫描验证码图片，对验证码图片进行特征提取和特征映射；

输出层用于输出模型的预测结果。

4.根据权利要求3所述的基于深度学习的验证码识别方法，其特征在于，所述池化层采取max pooling，通过设置filter的大小和步长，扫描经过卷积后的图片，在每次扫描中找出最大值来代表当前区域的特征。

5.根据权利要求1所述的基于深度学习的验证码识别方法及系统，其特征在于,所述步骤S3中搭建深度学习模型的具体步骤如下：

S301、通过卷积s(i,j)扫描整个验证码图片获得局部特征；

S303、经过多次卷积池化处理后，再经过一个全连接层处理；

6.根据权利要求5所述的基于深度学习的验证码识别方法及系统，其特征在于,所述步骤S302中池化法采用padding；

激活函数relu具体是：

其中，f(x)表示采用的激活函数，把数据进行非线性变换；该激活函数把小于0的数变为0，通过激活函数解决梯度消失的问题，加快训练速度；

x表示输入的数值。

7.根据权利要求5或6所述的基于深度学习的验证码识别方法，其特征在于，所述步骤S304中softmax函数具体是：

其中，x表示输入的数据，x_i代表第i个数，k表示共有k的数。

8.根据权利要求1所述的基于深度学习的验证码识别方法，其特征在于，所述步骤S4中模型训练及验证中损失函数采用最大熵：

9.一种基于深度学习的验证码识别系统，其特征在于，该系统包括图像收集打标签模块、图像预处理模块、搭建深度学习模型模块以及模型训练及验证模块；

其中，图像收集打标签模块用于用爬虫爬取该网站的验证码图片分为测试集和训练集，并手动打上标签；

10.根据权利要求9所述的基于深度学习的验证码识别系统，其特征在于，所述图像预处理模块包括灰度处理模块、二值化处理模块、清除噪点模块、图片标准化模块；