CN107967475A

CN107967475A - 一种基于窗口滑动和卷积神经网络的验证码识别方法

Info

Publication number: CN107967475A
Application number: CN201711138425.9A
Authority: CN
Inventors: 陈开冉; 缪伟宏
Original assignee: Guangzhou Trace Technology Co Ltd
Current assignee: Guangzhou Trace Technology Co Ltd
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2018-04-27
Anticipated expiration: 2037-11-16
Also published as: CN107967475B

Abstract

本发明针对传统的英文字母+数字+汉字验证码图片，提供一种基于窗口滑动和卷积神经网络的验证码识别方法。首先收集使用少量验证码图片，降噪后抠验证码需要识别的字符集，将每个字符集进行旋转、扭曲，增加背景噪音，然后针对这些字符集利用卷积神经网络，每个字符训练得到一个单字符分类器。最后对需要识别的验证码图片，预处理后进行连通域分割，针对每个连通域，进行窗口滑动，利用之前训练的单字符分类器进行分类，得到识别最终结果。该方法能有效解决因为验证码重叠及字符随机抖动过大难以切割的问题。而且采取少量验证码图片后抠图，自主生成相关训练集的方法，大大降低了采集和标注数据的成本。

Description

一种基于窗口滑动和卷积神经网络的验证码识别方法

技术领域

本发明涉及计算机视觉、图像处理研究领域，特别涉及一种基于窗口滑动和卷积神经网络的验证码识别方法。

背景技术

验证码，通常是指将一串随机产生的数字或符号，生成一幅图片，图片里加上一些干扰，例如随机画数条直线，画一些点(防止OCR)，由用户肉眼识别其中的验证码信息，输入表单提交网站验证，验证成功后才能使用某项功能。一般注册用户ID的地方以及各大论坛都要输入验证码。

之所以设置验证码，主要是为了自动区分当前用户是计算机还是人，从而防止恶意破解密码、刷票、论坛灌水等，也能够有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试。

虽然设置验证码可以提高系统的安全性，但是针对实际生产系统中的软件，由于需要进行自动化测试或者其他需要，如果每一次测试都人工输入验证码，将大大降低测试的效率，不能满足实际的需要。

传统的验证码自动识别方法主要包括图片降噪预处理、切割、规范化、识别四个步骤，其中难点在于难以有效切割验证码图片，进而导致后续识别失败，为此，研究一种高效准确的验证码识别方法具有重要的实用价值。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于窗口滑动和卷积神经网络的验证码识别方法，该方法能有效解决因为验证码重叠及字符随机抖动过大难以切割的问题，具有人工成本低、识别效果好、时间复杂度低的优点。

本发明的目的通过以下的技术方案实现：一种基于窗口滑动和卷积神经网络的验证码识别方法，包括步骤：

S1：收集需要破解的验证码数据样本，对每张样本图片进行二值化和预处理；

S2：从预处理后的图片中抠出字符，得到相应的字符集；针对字符集中的每个字符，进行不同参数的形状变形，以及添加不同的背景噪声，进而扩充得到该字符对应的训练数据集；

S3：将每个字符对应的训练数据集分别进行卷积神经网络训练，每个字符训练得到一个单字符分类器；

S4：对待识别的验证码图片先进行二值化和预处理，然后进行连通域分割，针对每个连通域，进行窗口滑动，利用S3训练的所有单字符分类器进行分类，取单字符分类器输出概率最大的字符作为最终识别结果。

优选的，所述步骤S1中，采用ostu二值化算法实现二值化，采用基于数学形态学腐蚀膨胀的开操作的方法对验证码图片进行降噪处理。达到去除干扰性、干扰点、去除小于一定面积的干扰区域的效果。

优选的，所述步骤S2中，扩充得到该字符对应的训练数据集，包括但不限于加噪点、线条，对字符进行平移、扩放、缩放、旋转等操作。

优选的，所述步骤S3中，进行卷积神经网络训练的步骤是：

利用每个字符对应的训练数据集，搭建基于LeNet结构的X个卷积层、Y个全连接层的深度学习神经网络模型，采用自适应估计adam算法作为优化算法，模型输出的激活函数为sigmoid，使用交叉熵cross_entropy作为代价函数，进行网络模型的训练，确保单字符分类器准确率达到预设值。

优选的，所述步骤S4中，针对预处理后的待识别的验证码图片，具体执行下述步骤：

(4-1)先对图片进行二值化和预处理，然后基于连通域算法得到k个连通域，过滤连通域内面积小于预设值的噪音区域；

(4-2)判断k是否等于需要识别的字符个数，如果是则执行步骤(4-3)，否则执行步骤(4-4)；

(4-3)直接利用S3训练的单字符分类器(cnn)模型，分别对每个连通域规范化大小后进行分类识别，取字符分类器输出概率最大的字符作为最终识别结果；

(4-4)对每个连通域进行窗口滑动，并调用单字符分类器识别每个窗口的结果，对概率值结果矩阵使用贪心算法得到最终识别结果。

更进一步的，步骤(4-1)中的连通域算法采用seed-filling或two-pass连通区域检测算法。

更进一步的，步骤(4-3)中，对每个连通域规范化大小的步骤是：

(4-3-1)预设每个单字符分类器输入图片的规格，设为H×I；

(4-3-2)把每个连通域用与图像的边平行的最小矩形框切割出来，得到连通块；

(4-3-3)按长边缩放成H个像素点大小并等比例缩放短边；

(4-3-4)连通块按H×I居中摆放并填补空白区域。

更进一步的，步骤(4-4)中，设定单字符分类器个数为N，对于每一个连通块内部，滑动窗口，每移动1个像素位，运行N个单字符分类器得到N个结果；所有连通域内部滑动窗口的结果拼接起来，得到一个N*M的概率值结果矩阵A，其中M为所有连通域的滑动窗口数总和；对概率值结果矩阵A使用贪心算法，具体过程如下：

(4-4-1)对A的每一列求最大值，并映射回该最大值所归属的字符，则得到M个预测字符的预测序列P，及其对应的概率序列Q；

(4-4-2)建立候选预测序列P’和Q’，其内容为P中所有不连续出现的字符，具体的，如果P中某两个相邻字符是相同的，且他们两是同属一个连通域，则删除第二个字符，Q’中保留概率最大值，最终，得到P’将满足上述描述的字符不连续出现的条件；

(4-4-3)使用贪心算法，按Q’的概率值大到小选择所需预测的P’中的字符，不断选择直到满足所需预测的目标数为止，得到候选结果后，按P’中的下标作为排序，得到模型最终输出结果。

本发明与现有技术相比，具有如下优点和有益效果：

针对传统的英文字母+数字+汉字的验证码图片，本发明提出一种基于窗口滑动和深度学习卷积神经网络的验证码识别方法，该方法可以在少量数据集上通过不同参数的形状变形，以及添加不同的背景噪声自动生成相关样本，建立每个字符对应的训练数据集，不需要太多的标注数据集，人工成本低。另外，通过窗口滑动进行结果统计分析得到最终结果，识别效果好。采用了基于连通域切割的方法，减少了窗口滑动范围，有效降低了时间复杂度。

附图说明

图1是本发明方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

参见图1，本实施例一种基于窗口滑动和卷积神经网络的验证码识别方法的步骤是：

S1：收集需要破解的验证码数据样本，对每张样本图片进行二值化和预处理。

二值化可采用传统的ostu二值化算法，otsu算法是日本学者Otsu于1979年提出一种对图像进行二值化处理的高效算法。首先算法将自动选择合适的阈值；然后基于该阈值对图像上所有像素进行二值化处理。自动选择合适的阈值的过程，是枚举所有可能的阈值，对每一种阈值计算二值化后的黑白图计算类间方差。类间方差g＝w0*w1*(u0-u1)*(u0-u1),其中值为0的类别的平均灰度为u0，占图像比例为w0，值为1的类别的平均灰度为u1，占图像比例为w1。枚举结束后，选择最大类间方差时的阈值作为最终阈值。

预处理可采用基于数学形态学腐蚀膨胀的开操作的方法，本实施例具体是对图像先进行腐蚀操作，再进行膨胀操作。腐蚀操作是使用基础的5个像素点的十字结构S，逐像素扫描全图像，若某个像素块A跟S的交集完全属于A，那么该点保留，否则去除。膨胀操作，与腐蚀操作相反的，扫描全图像上每一个像素，对每一个像素进行结构S的扩展，即原图中的1个像素点扩展为结构S中的5个像素点。

当然，在实际应用中，也可采用其他的二值化以及预处理方法，目的是准确提取每个字符，以建立后续的训练数据集。

S2：从预处理后的图片中抠出字符，这里可以是人工手动完成，也可以是采用现有算法准确提取出，进而得到相应的字符集。

针对字符集中的每个字符，可以采用加噪点、线条，对字符进行平移、扩放、缩放、旋转等操作，来扩充得到该字符对应的训练数据集。

S3：利用每个字符对应的训练数据集，搭建基于LeNet结构的X个卷积层、Y个全连接层的深度学习神经网络模型，采用自适应估计adam算法作为优化算法，模型输出的激活函数为sigmoid，使用交叉熵cross_entropy作为代价函数，进行网络模型的训练，确保单字符分类器准确率达到预设值，这样每个字符训练得到一个单字符分类器。

S4：在对待识别的验证码图片进行处理时，执行下述步骤：

(4-1)先对图片进行二值化和预处理，然后采用seed-filling算法进行连通域检测，该算法的原理是：设置所有点为未检测点，然后开始枚举图像中所有尚未检测的点，以当前枚举的点开始第k个连通域的检测，以点为seed节点向上下左右四个方向递归扩展该节点所在的连通域，扩展的点标注为已检测。等所有点都标记为已检测，则算法结束。

得到所有连通域后，再把包含像素点数少于一定阈值的连通域(认为是噪声)删除。

在实际应用中也可采用two-pass算法进行连通区域检测。这里不再详述。

(4-2)判断k是否等于需要识别的字符个数，如果是则执行步骤(4-3)，否则执行步骤(4-4)。

(4-3)由于需要识别的字符个数等于检测的连通区域个数，因此无需窗口滑动，直接对每个连通区域进行字符检测即可。

单字符分类器输入，都是规定好的，例如是48×48。在将连通区域进行识别前，先对其进行规范化大小，步骤是：1、把连通块用与图像的边平行的最小矩形框切割出来，2、按长边缩放成48个像素点大小并等比例缩放短边，3、连通块按48×48居中摆放并填补空白区域。

然后将规格化大小后的连通块输入到各个单字符分类器中，取其中输出概率最大的字符作为最终识别结果。

(4-4)由于需要识别的字符个数不等于检测的连通区域个数，说明出现了字符粘连等情况，一个连通区域内或有多个字符，为了准确识别，本实施例提供进行窗口滑动，在窗口滑动的同时调用单字符分类器识别每个窗口的结果。

设定单字符分类器个数为N，对于每一个连通块内部，滑动窗口，每移动1个像素位，运行N个单字符分类器得到N个结果；所有连通域内部滑动窗口的结果拼接起来，得到一个N*M的概率值结果矩阵A，其中M为所有连通域的滑动窗口数总和。

对概率值结果矩阵A使用贪心算法，具体过程如下：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于窗口滑动和卷积神经网络的验证码识别方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于窗口滑动和卷积神经网络的验证码识别方法，其特征在于，所述步骤S1中，采用ostu二值化算法实现二值化，采用基于数学形态学腐蚀膨胀的开操作的方法对验证码图片进行降噪处理。

3.根据权利要求1所述的基于窗口滑动和卷积神经网络的验证码识别方法，其特征在于，所述步骤S2中，扩充得到该字符对应的训练数据集，包括但不限于加噪点、线条，对字符进行平移、扩放、缩放、旋转操作。

4.根据权利要求1所述的基于窗口滑动和卷积神经网络的验证码识别方法，其特征在于，所述步骤S3中，进行卷积神经网络训练的步骤是：

5.根据权利要求4所述的基于窗口滑动和卷积神经网络的验证码识别方法，其特征在于，所述步骤S4中，针对预处理后的待识别的验证码图片，具体执行下述步骤：

6.根据权利要求5所述的基于窗口滑动和卷积神经网络的验证码识别方法，其特征在于，步骤(4-1)中的连通域算法采用seed-filling或two-pass连通区域检测算法。

7.根据权利要求5所述的基于窗口滑动和卷积神经网络的验证码识别方法，其特征在于，步骤(4-3)中，对每个连通域规范化大小的步骤是：

(4-3-1)预设每个单字符分类器输入图片的规格，设为H×I；

(4-3-3)按长边缩放成H个像素点大小并等比例缩放短边；

(4-3-4)连通块按H×I居中摆放并填补空白区域。

8.根据权利要求5所述的基于窗口滑动和卷积神经网络的验证码识别方法，其特征在于，步骤(4-4)中，设定单字符分类器个数为N，对于每一个连通块内部，滑动窗口，每移动1个像素位，运行N个单字符分类器得到N个结果；所有连通域内部滑动窗口的结果拼接起来，得到一个N*M的概率值结果矩阵A，其中M为所有连通域的滑动窗口数总和；对概率值结果矩阵A使用贪心算法，具体过程如下：