CN109933975A - 一种基于深度学习的验证码识别方法及系统 - Google Patents
一种基于深度学习的验证码识别方法及系统 Download PDFInfo
- Publication number
- CN109933975A CN109933975A CN201910211160.3A CN201910211160A CN109933975A CN 109933975 A CN109933975 A CN 109933975A CN 201910211160 A CN201910211160 A CN 201910211160A CN 109933975 A CN109933975 A CN 109933975A
- Authority
- CN
- China
- Prior art keywords
- deep learning
- identifying code
- picture
- pixel
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013135 deep learning Methods 0.000 title claims abstract description 36
- 238000012795 verification Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000013136 deep learning model Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 claims description 6
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 239000003086 colorant Substances 0.000 claims description 6
- 210000000299 nuclear matrix Anatomy 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的验证码识别方法及系统,属于计算机视觉和图像处理,本发明要解决的技术问题为如何处理网络爬虫过程中遇到的验证码,实现自动识别验证码,采用的技术方案为:①一种基于深度学习的验证码识别方法,步骤如下:S1、图像收集打标签:利用爬虫爬取该网站的验证码图片分为测试集和训练集,并手动打上标签;S2、图像预处理:利用图片处理工具CV2对验证码图片进行预处理;S3、搭建深度学习模型:利用深度学习框架keras、开发工具python以及训练集数据搭建深度学习模型;S4、模型训练及验证。②一种基于深度学习的验证码识别系统,包括图像收集打标签模块、图像预处理模块、搭建深度学习模型模块以及模型训练及验证模块。
Description
技术领域
本发明涉及计算机视觉及图像处理领域,具体地说是一种基于深度学习的验证码识别方法及系统。
背景技术
随着近些年来互联网技术的飞速发展,网络安全逐渐进入公众视野,成为必须重视的一环,为了防止恶意批量注册网站、反爬虫等,验证码的使用也随之普及开来。大网站论坛、网站需要输入验证码的随处可见。对于公司的爬虫项目来说,验证码识别技术研究也被提上日程。传统的验证码识别是利用OCR(光学识别符)技术如Google开源的tesseract框架,但是对验证码的条件要求苛刻,且准确率较低;随着机器学习的兴起利用机器学习算法识别验证码被人们提出,但是需要切割定位等复杂的操作,且准确率并不如人意。
其中,OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。OCR技术操作简单,但对验证码要求苛刻且准确率较低。
机器学习首先必须对验证码图片进行针对性的图像预处理、字符分割及特征提取等操作。利用SVM、KNN等分类算法,通过训练大量图片,预测出每一个分割后的字符,最后在进行拼接实现识别验证码。这类方法的原理简单,但操作起来麻烦,要先对图片进行去噪、二值化、分割等一系列预处理;对于验证码字符有重叠的不能有效分割也就不能用该方法,识别准确率也不尽如人意。
综上所述,如何处理网络爬虫过程中遇到的验证码,实现自动识别验证码,提高验证码识别的准确率是目前现有技术中急需解决的技术问题。
专利号为CN107085730A的专利文献公开了一种字符验证码识别的深度学习方法,该方法包括:步骤1,利用有标注标签的数据训练集来训练模型;步骤2,用训练好的模型来预测新的验证码图片中的文字。但是该技术方案不能处理网络爬虫过程中遇到的验证码,实现自动识别验证码,提高验证码识别的准确率。
专利号为CN107967475A的专利文献公开了一种基于窗口滑动和卷积神经网络的验证码识别方法,首先收集使用少量验证码图片,降噪后抠验证码需要识别的字符集,将每个字符集进行旋转、扭曲,增加背景噪音,然后针对这些字符集利用卷积神经网络,每个字符训练得到一个单字符分类器。最后对需要识别的验证码图片,预处理后进行连通域分割,针对每个连通域,进行窗口滑动,利用之前训练的单字符分类器进行分类,得到识别最终结果。但是该技术方案不能处理网络爬虫过程中遇到的验证码,实现自动识别验证码,提高验证码识别的准确率。
发明内容
本发明的技术任务是提供一种基于深度学习的验证码识别方法及系统,来解决如何处理网络爬虫过程中遇到的验证码,实现自动识别验证码,提高验证码识别的准确率的问题。
本发明的技术任务是按以下方式实现的,一种基于深度学习的验证码识别方法,该方法的步骤如下:
S1、图像收集打标签:利用爬虫爬取该网站的验证码图片分为测试集500张和训练集400张,并手动打上标签;其中,验证码图片中的文字是由10个数和52个大小写字母随机抽取其中4个组成;
S2、图像预处理:利用图片处理工具CV2对验证码图片进行预处理;
S3、搭建深度学习模型:利用深度学习框架keras、开发工具python以及训练集数据搭建深度学习模型;其中,随着计算机计算能力的大幅提升神经网络再次被提起,深度学习的研究炙手可热,深度神经网络在各个领域都取得了前所未有的成果;在图像的应用中,卷积神经网络的出现加快了训练过程从而使得训练大量的图像数据更为方便,卷积神经网络在图像识别中已经取得了超越人类的效果;本发明就是运用了卷积神经网络在图像上强大的识别能力,来设计进行验证码的识别;
S4、模型训练及验证:利用反向传播,经过多次训练模型后,用训练好的模型来预测测试集的验证码图片。
作为优选,所述步骤S2中图像预处理具体步骤如下:
S201、灰度处理:将验证码图片的RGB三通道原图处理成单通道图片;
S202、二值化处理:设定一个像素阈值,把大于该像素阀值的像素值设置为255,小于该像素阈值的像素值设置为0,将验证码图片的RGB三通道的图转化成只有黑白颜色的图片;其中,像素点的值在0-255之间,0为白色,255为黑色;其中,像素阀值优选180。
S203、清除噪点:遍历整个验证码图片,统计每个像素点周围邻域内黑点个数,设定一个噪点阈值,黑点数小于该噪点阈值,则认为该点是噪点,把该像素点的值设置为0;其中,噪点阀值优选3。
S204、图片标准化:二值化后的验证码图片像素点是0或255,把每个像素点除以255进行标准化,标准化后数据更稳定,训练时更快的收敛。
作为优选,所述步骤S3中深度学习模型的神经网络结构包括输入层、卷积层、池化层、全连接层和输出层;
其中,输入层用于把图像以张量形式传入深度学习模型;
卷积层用于根据卷积核(感受视野)的大小和步长扫描验证码图片,对验证码图片进行特征提取和特征映射;
池化层用于对输入的特征图进行压缩,包括使特征图变小,简化网络计算复杂度以及进行特征压缩,提取主要特征;
全连接层用于连接所有的特征,对特征进行重新拟合,减少特征信息的丢失将输出值送给分类器;
输出层用于输出模型的预测结果。
更优地,所述池化层采取max pooling,通过设置filter的大小和步长,扫描经过卷积后的图片,在每次扫描中找出最大值来代表当前区域的特征。
作为优选,所述步骤S3中搭建深度学习模型的具体步骤如下:
S301、通过卷积s(i,j)扫描整个验证码图片获得局部特征;
其中,s(i,j)即卷积核矩阵W对应的输出矩阵的对应位置元素的值,b表示偏置;(i,j)表示矩阵的一个点;
X表示输入矩阵;W表示卷积核矩阵;n表示输入矩阵的个数或者是张量的最后一维的维数;Xk表示第k个输入矩阵;Wk表示卷积核的第k个子卷积核矩阵;
S302、通过激活函数relu之后,对传入的特征采用最大池化法进行特征过滤和选择;
S303、经过多次卷积池化处理后,再经过一个全连接层处理;
S304、对输出层通过softmax函数进行处理,最终输出的是一每个字符的概率,最大概率对应的字符即为预测结果。
更优地,所述步骤S302中池化法采用padding;
激活函数relu具体是:
其中,f(x)表示采用的激活函数,把数据进行非线性变换;该激活函数把小于0的数变为0,通过激活函数解决梯度消失的问题,加快训练速度;x表示输入的数值。
更优地,所述步骤S304中softmax函数具体是:
其中,x表示输入的数据,xi代表第i个数,k表示共有k的数。
作为优选,所述步骤S4中模型训练及验证中损失函数采用最大熵:
其中,yi表示第i个字符的标签,pi表示第i个字符最大预测值的概率。
一种基于深度学习的验证码识别系统,该系统包括图像收集打标签模块、图像预处理模块、搭建深度学习模型模块以及模型训练及验证模块;
其中,图像收集打标签模块用于用爬虫爬取该网站的验证码图片分为测试集500张和训练集400张,并手动打上标签;
图像预处理模块用于利用图片处理工具CV2对验证码图片进行预处理;
搭建深度学习模型模块用于利用深度学习框架keras、开发工具python以及训练集数据搭建深度学习模型;
模型训练及验证模块用于利用反向传播,经过多次训练模型后,用训练好的模型来预测测试集的验证码图片。
作为优选,所述图像预处理模块包括灰度处理模块、二值化处理模块、清除噪点模块、图片标准化模块;
其中,灰度处理模块用于将验证码图片的RGB三通道的原图处理成单通道图片;
二值化处理模块用于设定一个像素阈值,把大于该像素阀值的像素值设置为255,小于该像素阈值的像素值设置为0,将验证码图片的RGB三通道的图转化成只有黑白颜色的图片;其中,像素点的值在0-255之间,0为白色,255为黑色;
清除噪点模块用于遍历整个验证码图片,统计每个像素点周围邻域内黑点个数,设定一个噪点阈值,黑点数小于该噪点阈值,则认为该点是噪点,把该像素点的值设置为0;
图片标准化模块用于二值化后的验证码图片像素点是0或255,把每个像素点除以255进行标准化,标准化后数据更稳定,训练时更快的收敛。
本发明的基于深度学习的验证码识别方法及系统具有以下优点:
(一)、本发明基于一种端到端(End-to-End)的深度学习人工智能方法,通过构建多层深度卷积神经网络(Convolutional Neural Networks,CNN)以及高频次高精度的模型数据训练测试,实现了一种行之有效的五类验证码深度学习处理识别算法,根据该模型验证码的识别准确率超过90%,使用传统的机器学习SVM、KNN等算法,其准确率仅有50%左右,并且需要对图片进行定位、切割等一系列复杂的预处理;显然,相比于传统的图像切割识别算法,本发明具有更高的准确率和更少的复杂度;
(二)、本发明提出的基于深度卷积神经网络的验证码识别方法省去了字符分割,去噪等人工干预,有效解决了字符粘连,定位,消除噪声的问题,特征提取,分类器训练由卷积神经网学习而得;同时算法结构既简单又易于训练,并且识别速度快,准确率高;
(三)、本发明解决了网络爬虫过程中遇到的验证码问题,建立深度学习模型,自动识别验证码;
(四)、本发明利用卷积神经网络端对端的方法通过大量的图片训练从而实现92%的准确率,解决了验证码图片的字符有旋转、重叠夹杂噪声传统的方式无法处理的难题;
(五)、针对有重叠夹杂噪音的验证码利用传统的手段已经不能解决,本发明基于深度学习中的卷积神经网络建立一个5层的网络架构利用端对端的方法高效准确的识别出验证码的字符,根据最终的测试结果准确率高达92%,而且操作简单,部署方便,甚至能迁移到其他字符类型验证码,很好的解决了网络爬虫过程中的验证码难题。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于深度学习的验证码识别方法的流程框图;
附图2为深度学习模型的神经网络结构的框图;
附图3为验证码图片经灰度处理后的示意图;
附图4为验证码图片经二值化处理后的示意图;
附图5为基于深度学习的验证码识别系统的结构框图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种基于深度学习的验证码识别方法及系统作以下详细地说明。
实施例:
如附图1所示,本发明的基于深度学习的验证码识别方法及系统,该方法的步骤如下:
S1、图像收集打标签:利用爬虫爬取该网站的验证码图片分为测试集500张和训练集400张,并手动打上标签;其中,验证码图片中的文字是由10个数和52个大小写字母随机抽取其中4个组成;
S2、图像预处理:利用图片处理工具CV2对验证码图片进行预处理;具体步骤如下:
S201、灰度处理:将验证码图片的RGB三通道原图处理成单通道图片,如附图3所示;
S202、二值化处理:设定像素阈值为180,把大于180的像素值设置为255,小于80的像素值设置为0,将验证码图片的RGB三通道的图转化成只有黑白颜色的图片,如附图4所示;其中,像素点的值在0-255之间,0为白色,255为黑色;
S203、清除噪点:遍历整个验证码图片,统计每个像素点周围邻域内黑点个数,设定噪点阈值为3,黑点数小于3,则认为该点是噪点,把该像素点的值设置为0;
S204、图片标准化:二值化后的验证码图片像素点是0或255,把每个像素点除以255进行标准化,标准化后数据更稳定,训练时更快的收敛。
S3、搭建深度学习模型:利用深度学习框架keras、开发工具python以及训练集数据搭建深度学习模型;其中,随着计算机计算能力的大幅提升神经网络再次被提起,深度学习的研究炙手可热,深度神经网络在各个领域都取得了前所未有的成果;在图像的应用中,卷积神经网络的出现加快了训练过程从而使得训练大量的图像数据更为方便,卷积神经网络在图像识别中已经取得了超越人类的效果;本发明就是运用了卷积神经网络在图像上强大的识别能力,来设计进行验证码的识别;如附图2所示,深度学习模型的神经网络结构包括输入层、卷积层、池化层、全连接层和输出层;其中,输入层用于把图像以张量形式传入深度学习模型;卷积层用于根据卷积核(感受视野)的大小和步长扫描验证码图片,对验证码图片进行特征提取和特征映射;池化层用于对输入的特征图进行压缩,包括使特征图变小,简化网络计算复杂度以及进行特征压缩,提取主要特征;池化层采取max pooling,通过设置filter的大小和步长,扫描经过卷积后的图片,在每次扫描中找出最大值来代表当前区域的特征。全连接层用于连接所有的特征,对特征进行重新拟合,减少特征信息的丢失将输出值送给分类器;输出层用于输出模型的预测结果。
其中,搭建深度学习模型的具体步骤如下:
S301、通过卷积s(i,j)扫描整个验证码图片获得局部特征;
其中,s(i,j)即卷积核矩阵W对应的输出矩阵的对应位置元素的值,b表示偏置;(i,j)表示矩阵的一个点;
X表示输入矩阵;W表示卷积核矩阵;n表示输入矩阵的个数或者是张量的最后一维的维数;Xk表示第k个输入矩阵;Wk表示卷积核的第k个子卷积核矩阵;
S302、通过激活函数relu之后,对传入的特征采用最大池化法进行特征过滤和选择;池化法采用padding;
激活函数relu具体是:
其中,f(x)表示采用的激活函数,把数据进行非线性变换;该激活函数把小于0的数变为0,通过激活函数解决梯度消失的问题,加快训练速度;x表示输入的数值。
S303、经过多次卷积池化处理后,再经过一个全连接层处理;
S304、对输出层通过softmax函数进行处理,最终输出的是一每个字符的概率,最大概率对应的字符即为预测结果。其中,softmax函数具体是:其中,x表示输入的数据,xi代表第i个数,k表示共有k的数。
S4、模型训练及验证:利用反向传播,经过多次训练模型后,用训练好的模型来预测测试集的验证码图片。损失函数采用最大熵:其中,yi表示第i个字符的标签,pi表示第i个字符最大预测值的概率。
实施例2:
如附图5所示,本发明的基于深度学习的验证码识别系统,该系统包括图像收集打标签模块、图像预处理模块、搭建深度学习模型模块以及模型训练及验证模块;其中,图像收集打标签模块用于用爬虫爬取该网站的验证码图片分为测试集500张和训练集400张,并手动打上标签;图像预处理模块用于利用图片处理工具CV2对验证码图片进行预处理;图像预处理模块包括灰度处理模块、二值化处理模块、清除噪点模块、图片标准化模块;其中,灰度处理模块用于将验证码图片的RGB三通道的原图处理成单通道图片;二值化处理模块用于设定一个像素阈值,把大于该像素阀值的像素值设置为255,小于该像素阈值的像素值设置为0,将验证码图片的RGB三通道的图转化成只有黑白颜色的图片;其中,像素点的值在0-255之间,0为白色,255为黑色;清除噪点模块用于遍历整个验证码图片,统计每个像素点周围邻域内黑点个数,设定一个噪点阈值,黑点数小于该噪点阈值,则认为该点是噪点,把该像素点的值设置为0;图片标准化模块用于二值化后的验证码图片像素点是0或255,把每个像素点除以255进行标准化,标准化后数据更稳定,训练时更快的收敛。搭建深度学习模型模块用于利用深度学习框架keras、开发工具python以及训练集数据搭建深度学习模型;模型训练及验证模块用于利用反向传播,经过多次训练模型后,用训练好的模型来预测测试集的验证码图片。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于深度学习的验证码识别方法,其特征在于,该方法的步骤如下:
S1、图像收集打标签:利用爬虫爬取该网站的验证码图片分为测试集和训练集,并手动打上标签;
S2、图像预处理:利用图片处理工具CV2对验证码图片进行预处理;
S3、搭建深度学习模型:利用深度学习框架keras、开发工具python以及训练集数据搭建深度学习模型;
S4、模型训练及验证:利用反向传播,经过多次训练模型后,用训练好的模型来预测测试集的验证码图片。
2.根据权利要求1所述的基于深度学习的验证码识别方法,其特征在于,所述步骤S2中图像预处理具体步骤如下:
S201、灰度处理:将验证码图片的RGB三通道原图处理成单通道图片;
S202、二值化处理:设定一个像素阈值,把大于该像素阀值的像素值设置为255,小于该像素阈值的像素值设置为0,将验证码图片的RGB三通道的图转化成只有黑白颜色的图片;其中,像素点的值在0-255之间,0为白色,255为黑色;
S203、清除噪点:遍历整个验证码图片,统计每个像素点周围邻域内黑点个数,设定一个噪点阈值,黑点数小于该噪点阈值,则认为该点是噪点,把该像素点的值设置为0;
S204、图片标准化:二值化后的验证码图片像素点是0或255,把每个像素点除以255进行标准化,标准化后数据更稳定,训练时更快的收敛。
3.根据权利要求1或2所述的基于深度学习的验证码识别方法,其特征在于,所述步骤S3中深度学习模型的神经网络结构包括输入层、卷积层、池化层、全连接层和输出层;
其中,输入层用于把图像以张量形式传入深度学习模型;
卷积层用于根据卷积核的大小和步长扫描验证码图片,对验证码图片进行特征提取和特征映射;
池化层用于对输入的特征图进行压缩,包括使特征图变小,简化网络计算复杂度以及进行特征压缩,提取主要特征;
全连接层用于连接所有的特征,对特征进行重新拟合,减少特征信息的丢失将输出值送给分类器;
输出层用于输出模型的预测结果。
4.根据权利要求3所述的基于深度学习的验证码识别方法,其特征在于,所述池化层采取max pooling,通过设置filter的大小和步长,扫描经过卷积后的图片,在每次扫描中找出最大值来代表当前区域的特征。
5.根据权利要求1所述的基于深度学习的验证码识别方法及系统,其特征在于,所述步骤S3中搭建深度学习模型的具体步骤如下:
S301、通过卷积s(i,j)扫描整个验证码图片获得局部特征;
其中,s(i,j)即卷积核矩阵W对应的输出矩阵的对应位置元素的值,b表示偏置;(i,j)表示矩阵的一个点;
X表示输入矩阵;W表示卷积核矩阵;n表示输入矩阵的个数或者是张量的最后一维的维数;Xk表示第k个输入矩阵;Wk表示卷积核的第k个子卷积核矩阵;
S302、通过激活函数relu之后,对传入的特征采用最大池化法进行特征过滤和选择;
S303、经过多次卷积池化处理后,再经过一个全连接层处理;
S304、对输出层通过softmax函数进行处理,最终输出的是一每个字符的概率,最大概率对应的字符即为预测结果。
6.根据权利要求5所述的基于深度学习的验证码识别方法及系统,其特征在于,所述步骤S302中池化法采用padding;
激活函数relu具体是:
其中,f(x)表示采用的激活函数,把数据进行非线性变换;该激活函数把小于0的数变为0,通过激活函数解决梯度消失的问题,加快训练速度;
x表示输入的数值。
7.根据权利要求5或6所述的基于深度学习的验证码识别方法,其特征在于,所述步骤S304中softmax函数具体是:
其中,x表示输入的数据,xi代表第i个数,k表示共有k的数。
8.根据权利要求1所述的基于深度学习的验证码识别方法,其特征在于,所述步骤S4中模型训练及验证中损失函数采用最大熵:
其中,yi表示第i个字符的标签,pi表示第i个字符最大预测值的概率。
9.一种基于深度学习的验证码识别系统,其特征在于,该系统包括图像收集打标签模块、图像预处理模块、搭建深度学习模型模块以及模型训练及验证模块;
其中,图像收集打标签模块用于用爬虫爬取该网站的验证码图片分为测试集和训练集,并手动打上标签;
图像预处理模块用于利用图片处理工具CV2对验证码图片进行预处理;
搭建深度学习模型模块用于利用深度学习框架keras、开发工具python以及训练集数据搭建深度学习模型;
模型训练及验证模块用于利用反向传播,经过多次训练模型后,用训练好的模型来预测测试集的验证码图片。
10.根据权利要求9所述的基于深度学习的验证码识别系统,其特征在于,所述图像预处理模块包括灰度处理模块、二值化处理模块、清除噪点模块、图片标准化模块;
其中,灰度处理模块用于将验证码图片的RGB三通道的原图处理成单通道图片;
二值化处理模块用于设定一个像素阈值,把大于该像素阀值的像素值设置为255,小于该像素阈值的像素值设置为0,将验证码图片的RGB三通道的图转化成只有黑白颜色的图片;其中,像素点的值在0-255之间,0为白色,255为黑色;
清除噪点模块用于遍历整个验证码图片,统计每个像素点周围邻域内黑点个数,设定一个噪点阈值,黑点数小于该噪点阈值,则认为该点是噪点,把该像素点的值设置为0;
图片标准化模块用于二值化后的验证码图片像素点是0或255,把每个像素点除以255进行标准化,标准化后数据更稳定,训练时更快的收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910211160.3A CN109933975A (zh) | 2019-03-20 | 2019-03-20 | 一种基于深度学习的验证码识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910211160.3A CN109933975A (zh) | 2019-03-20 | 2019-03-20 | 一种基于深度学习的验证码识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109933975A true CN109933975A (zh) | 2019-06-25 |
Family
ID=66987749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910211160.3A Pending CN109933975A (zh) | 2019-03-20 | 2019-03-20 | 一种基于深度学习的验证码识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109933975A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110490056A (zh) * | 2019-07-08 | 2019-11-22 | 北京三快在线科技有限公司 | 对包含算式的图像进行处理的方法和装置 |
CN110909807A (zh) * | 2019-11-26 | 2020-03-24 | 深圳市信联征信有限公司 | 基于深度学习的网络验证码识别方法、装置及计算机设备 |
CN111340040A (zh) * | 2020-02-26 | 2020-06-26 | 五八有限公司 | 一种纸张字符识别方法、装置、电子设备及存储介质 |
CN111460426A (zh) * | 2020-04-02 | 2020-07-28 | 武汉大学 | 基于对抗演化框架的抗深度学习文本验证码生成系统及方法 |
CN111626309A (zh) * | 2020-05-26 | 2020-09-04 | 北京墨云科技有限公司 | 一种基于深度学习的网站指纹识别方法 |
CN111753281A (zh) * | 2020-06-30 | 2020-10-09 | 北京鼎泰智源科技有限公司 | 一种验证码识别方法 |
CN111833305A (zh) * | 2020-06-11 | 2020-10-27 | 杭州电子科技大学 | 基于机器视觉的板翅式换热器翅片加工质量在线检验方法 |
CN112380409A (zh) * | 2020-10-26 | 2021-02-19 | 武汉天宝莱信息技术有限公司 | 一种基于自动化爬虫的验证码识别的方法 |
CN112686266A (zh) * | 2021-01-11 | 2021-04-20 | 安徽希施玛数据科技有限公司 | 一种验证码识别方法及装置 |
CN113128281A (zh) * | 2019-12-31 | 2021-07-16 | 中国移动通信集团福建有限公司 | 自动化基站开通方法及其装置 |
CN114627303A (zh) * | 2022-03-16 | 2022-06-14 | 平安科技(深圳)有限公司 | 基于识别模型的图像处理方法、装置、设备及存储介质 |
CN117132989A (zh) * | 2023-10-23 | 2023-11-28 | 山东大学 | 基于卷积神经网络的字符验证码识别方法、系统及设备 |
CN117475204A (zh) * | 2023-10-23 | 2024-01-30 | 苏州大学 | 一种基于深度图像学习的溜槽角度识别方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107085730A (zh) * | 2017-03-24 | 2017-08-22 | 深圳爱拼信息科技有限公司 | 一种字符验证码识别的深度学习方法及装置 |
CN107967475A (zh) * | 2017-11-16 | 2018-04-27 | 广州探迹科技有限公司 | 一种基于窗口滑动和卷积神经网络的验证码识别方法 |
-
2019
- 2019-03-20 CN CN201910211160.3A patent/CN109933975A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107085730A (zh) * | 2017-03-24 | 2017-08-22 | 深圳爱拼信息科技有限公司 | 一种字符验证码识别的深度学习方法及装置 |
CN107967475A (zh) * | 2017-11-16 | 2018-04-27 | 广州探迹科技有限公司 | 一种基于窗口滑动和卷积神经网络的验证码识别方法 |
Non-Patent Citations (1)
Title |
---|
程莉莉: "基于ELM算法的验证码软件可用性研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110490056A (zh) * | 2019-07-08 | 2019-11-22 | 北京三快在线科技有限公司 | 对包含算式的图像进行处理的方法和装置 |
CN110909807A (zh) * | 2019-11-26 | 2020-03-24 | 深圳市信联征信有限公司 | 基于深度学习的网络验证码识别方法、装置及计算机设备 |
CN113128281A (zh) * | 2019-12-31 | 2021-07-16 | 中国移动通信集团福建有限公司 | 自动化基站开通方法及其装置 |
CN111340040A (zh) * | 2020-02-26 | 2020-06-26 | 五八有限公司 | 一种纸张字符识别方法、装置、电子设备及存储介质 |
CN111340040B (zh) * | 2020-02-26 | 2023-09-12 | 五八有限公司 | 一种纸张字符识别方法、装置、电子设备及存储介质 |
CN111460426A (zh) * | 2020-04-02 | 2020-07-28 | 武汉大学 | 基于对抗演化框架的抗深度学习文本验证码生成系统及方法 |
CN111626309A (zh) * | 2020-05-26 | 2020-09-04 | 北京墨云科技有限公司 | 一种基于深度学习的网站指纹识别方法 |
CN111833305B (zh) * | 2020-06-11 | 2023-09-29 | 杭州电子科技大学 | 基于机器视觉的板翅式换热器翅片加工质量在线检验方法 |
CN111833305A (zh) * | 2020-06-11 | 2020-10-27 | 杭州电子科技大学 | 基于机器视觉的板翅式换热器翅片加工质量在线检验方法 |
CN111753281A (zh) * | 2020-06-30 | 2020-10-09 | 北京鼎泰智源科技有限公司 | 一种验证码识别方法 |
CN112380409A (zh) * | 2020-10-26 | 2021-02-19 | 武汉天宝莱信息技术有限公司 | 一种基于自动化爬虫的验证码识别的方法 |
CN112686266A (zh) * | 2021-01-11 | 2021-04-20 | 安徽希施玛数据科技有限公司 | 一种验证码识别方法及装置 |
CN114627303A (zh) * | 2022-03-16 | 2022-06-14 | 平安科技(深圳)有限公司 | 基于识别模型的图像处理方法、装置、设备及存储介质 |
CN117132989A (zh) * | 2023-10-23 | 2023-11-28 | 山东大学 | 基于卷积神经网络的字符验证码识别方法、系统及设备 |
CN117132989B (zh) * | 2023-10-23 | 2024-01-26 | 山东大学 | 基于卷积神经网络的字符验证码识别方法、系统及设备 |
CN117475204A (zh) * | 2023-10-23 | 2024-01-30 | 苏州大学 | 一种基于深度图像学习的溜槽角度识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933975A (zh) | 一种基于深度学习的验证码识别方法及系统 | |
CN111401372B (zh) | 一种扫描文档图文信息提取与鉴别的方法 | |
CN111985464B (zh) | 面向法院判决文书的多尺度学习的文字识别方法及系统 | |
Tensmeyer et al. | Historical document image binarization: A review | |
CN110766020A (zh) | 一种面向多语种自然场景文本检测与识别的系统及方法 | |
Attivissimo et al. | An automatic reader of identity documents | |
CN112613502A (zh) | 文字识别方法及装置、存储介质、计算机设备 | |
CN104008401A (zh) | 一种图像文字识别的方法及装置 | |
CN111079511A (zh) | 基于深度学习的文档自动归类及光学字符识别方法及系统 | |
CN111046760A (zh) | 一种基于域对抗网络的笔迹鉴定方法 | |
CN114898472B (zh) | 基于孪生视觉Transformer网络的签名鉴定方法和系统 | |
De Mello et al. | Digital document analysis and processing | |
CN116071763A (zh) | 基于文字识别的教辅图书智能校编系统 | |
Hinduja et al. | Enhanced Character Recognition using Deep Neural Network-A Survey | |
Miah et al. | Handwritten courtesy amount and signature recognition on bank cheque using neural network | |
CN107292255B (zh) | 基于特征矩阵相似度分析的手写数字识别方法 | |
Verma et al. | Enhanced character recognition using surf feature and neural network technique | |
Sharma et al. | A deep cnn model for student learning pedagogy detection data collection using ocr | |
Palaniappan et al. | Deep learning the indus script | |
CN116596891A (zh) | 基于半监督多任务检测的木地板颜色分类及缺陷检测方法 | |
CN115100509B (zh) | 基于多分支块级注意力增强网络的图像识别方法及系统 | |
CN115049830A (zh) | 一种基于矩阵边缘特征元素的图像缩边模型、方法及装置 | |
CN105469062A (zh) | 一种基于主成分分析网框架的车型识别方法 | |
Goud et al. | Text localization and recognition from natural scene images using ai | |
CN109359616A (zh) | 一种基于sift的伪拼接小尺寸指纹识别算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190709 Address after: 214029 No. 999 Gaolang East Road, Binhu District, Wuxi City, Jiangsu Province (Software Development Building) 707 Applicant after: Chaozhou Zhuoshu Big Data Industry Development Co.,Ltd. Address before: 250100 S06 tower, 1036, Chao Lu Road, hi tech Zone, Ji'nan, Shandong. Applicant before: SHANDONG INSPUR CLOUD INFORMATION TECHNOLOGY Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190625 |