CN108154148A

CN108154148A - 训练样本的人工合成方法及基于该样本的验证码识别方法

Info

Publication number: CN108154148A
Application number: CN201810057556.2A
Authority: CN
Inventors: 叶炳坤; 王志永; 郭建辉; 林文东; 郑旭
Original assignee: Xiamen Us Asia Business Tripod Mdt Infotech Ltd
Current assignee: Xiamen Us Asia Business Tripod Mdt Infotech Ltd
Priority date: 2018-01-22
Filing date: 2018-01-22
Publication date: 2018-06-12

Abstract

本发明公开了一种训练样本的人工合成方法及基于该样本的验证码识别方法。训练样本的人工合成方法包括S1、生成验证码词库；S2、生成背景图片库；S3、筛选矩形背景块；S4、收集字体集合；S5、词语与背景块的随机匹配；S6、抠取已写入词语的背景块作为样本。本发明还公开了一种基于该训练样本的验证码识别方法，其包括S1、特征提取；S2、序列标定；S3、识别结果的修正。本发明以人工合成样本的方式获取训练样本，只要设置识别的文字类别，便可生成相应类别的样本，再加入少量的实际网站样本，便可以取得较好的效果，使样本多样化的同时，减少了样本收集投入的大量人力财力。

Description

训练样本的人工合成方法及基于该样本的验证码识别方法

技术领域

本发明涉及互联网技术领域，具体涉及一种训练样本的人工合成方法及基于该样本的验证码识别方法。

背景技术

一般意义上，基于图像的文字识别包括基于扫描文字的光学字符识别(OpticalCharacter Recognition，OCR)和广泛用于网站注册验证的CAPTCHA(CompletelyAutomated Public Turing Test to Tell Computers and Humans Apart，全自动区分计算机和人类的图灵测试)。相比较而言，基于扫描仪的OCR最简单，CAPTCHA最难。

传统的验证码破解主要对字符检测，切割，后对单个字符的识别。该方法只能对传统的背景清晰，文字较为端正简单的验证码进行识别，无法适应复杂背景的验证码文字。当前也有cnn+rnn机器学习的验证码识别方法，但其通过验证码生成器合成训练样本较为单一，人工收集样本工作量大，在实际项目中无法推行应用。

发明内容

本发明的目的在于提供一种训练样本的人工合成方法及基于该样本的验证码识别方法。

为实现上述目的，本发明采用以下技术方案：

训练样本的人工合成方法，合成用作机器学习的训练样本，以实现基于机器学习的验证码识别，包括：

S1、随机选择字符类别、字符个数及字符组合，以生成验证码词库；

S2、收集不包含文字的清晰图片作为背景图片，生成背景图片库；

S3、对背景图片库中的背景图片进行特征提取，提取其语义信息和深度信息，根据提取的语义信息与深度信息在背景图片中筛选可以写入文字的矩形背景块；

S4、收集字体集合；

S5、随机从背景图片库中选取背景图片，随机从词库中选取词语与所选的背景图片中的背景块进行匹配，通过字体集合随机设置所选词语的字体、颜色、大小、变换及倾斜信息；

S6、抠取已写入词语的背景块作为样本。

进一步地，步骤S1中所述的字符类别包括数字、字母、数学符号及汉字，所选字符类别为一种或多种。

进一步地，步骤S2中所述背景图片的宽高大于600*600。

进一步地，步骤S3中采用gPb-UCM方法提取背景图片的语义信息，采用Deepconvolutional neural fields for depth estimation from a single image方法提取背景图片的深度信息。

进一步地，步骤S6具体为：计算背景块的倾斜角度，对背景图片进行该角度的旋转，在旋转后的背景图片上截取保存该背景块，记录label，作为样本。

本发明还提供一种基于人工合成样本的验证码识别方法，包括：

S1、利用CNN对图片进行特征提取，并利用Map-to-Sequence表示成特征向量：所述CNN包括1输入层、5卷积层、3池化层及2归一化层，所述输入层对图片进行缩放处理，所述卷积层获取图片的局部特征，所述池化层对局部特征进行降维，所述归一化层在网络层之间进行预处理的操作；

S2、序列标定：使用双向LSTM识别特征向量，得到每列特征的概率分布，获得初步的识别结果；

S3、去除识别结果中相邻重复的字符以及非字符，得到最终的识别结果。

进一步地，图片的特征提取具体包括：

S11、input层将图片归一化到32*128；

S12、Conv0、Conv1分别设置64、128个5*5的卷积核，BathcNormalization0层输出数据大小为128*28*124，MaxPooling0层win:2*2向下取样，输出数据大小为128*14*62；

S13、Conv2设置256个3*3的卷积核，MaxPooling1层win:2*2向下取样，输出数据大小为256*6*30。Conv3设置384个3*3的卷积核，BathcNormalization1层输出数据大小为384*4*28；

S14、MaxPooling2层设置win：1*2，所以宽度不变，高度缩放为原来的一半，输出数据大小为384*2*128；

S15、Conv4设置512个2*2的卷积核，输出数据大小为512*1*27，得到512*1*27的特征图。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

本发明以人工合成样本的方式获取训练样本，只要设置识别的文字类别，便可生成相应类别的样本，再加入少量的实际网站样本，便可以取得较好的效果，使样本多样化的同时，减少了样本收集投入的大量人力财力。

本发明通过CNN+LSTM点对点序列识别方法，利用人工合成的训练样本，即可以实现大部分英文数字及中文验证码的识别破解，即在原始训练模型样本的基础上，加入相对应网站的样本继续训练，即可满足实际的应用需求，具有通用性。

附图说明

图1为本发明合成样本的流程图；

图2为采用本发明合成样本方法所获得的训练样本的例图；

图3为本发明验证码识别方法的流程图；

图4为本发明验证码识别方法中所采用的神经网络的设计图；

图5为采用本发明验证码识别方法所识别出的验证码的效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

请参考图1所示，训练样本的人工合成方法，合成用作机器学习的训练样本，以实现基于机器学习的验证码识别，包括以下步骤：

S1、随机选择字符类别、字符个数及字符组合，以生成验证码词库。

步骤S1中所述的字符类别包括数字、字母、数学符号及汉字，所选字符类别为一种或多种。比如字符类别只有数字及字母，即只有0-9和a-z，则相应的字库就有031a2，b2431，IZ，E0....等自由组合(根据需求随机设置字符个数，再随机设置字符)，尽可能多地生成的样本词库，包含各种验证码格式。

S2、收集不包含文字的清晰图片作为背景图片，生成背景图片库。

收集的图片宽高大于600*600，图片可以是日常生活中风景照等。

S3、对背景图片库中的背景图片进行特征提取，提取其语义信息和深度信息，根据提取的语义信息与深度信息在背景图片中筛选可以写入文字的矩形背景块。

采用gPb-UCM方法提取背景图片的语义信息，采用Deep convolutional neuralfields for depth estimation from a single image方法提取背景图片的深度信息。

S4、收集字体集合。

根据要识别的验证码，进行字体集合的收集。如，涉及到中文的验证码，集合中的字体必须支持中文，否则写入图片时会是乱码。

S5、随机从背景图片库中选取背景图片，获取其背景块集合的点集，随机从词库中选取词语与所选的背景图片中的背景块进行匹配，通过字体集合随机设置所选词语的字体、颜色、大小、变换及倾斜信息，将词语写入背景图片的背景块中，每个词语设定的颜色应与要写入的背景块颜色区别开，避免同种颜色写入文字导致看不清。

S6、抠取已写入词语的背景块作为样本。

计算背景块的倾斜角度，对背景图片进行该角度的旋转，在旋转后的背景图片上截取保存该背景块，记录label，作为样本。如图2所示的是采用本发明合成样本方法所获得的训练样本的例图。

本发明还提供一种基于人工合成样本的验证码识别方法，如图3所示，包括：

S1、利用CNN对图片进行特征提取，并利用Map-to-Sequence表示成特征向量。所述CNN包括1输入层(Input)、5卷积层(Conv)、3池化层(MaxPooling)及2归一化层(BathcNormalization)。所述输入层对图片进行缩放处理；所述卷积层获取图片的局部特征；所述池化层对局部特征进行降维；所述归一化层在网络层之间进行预处理的操作，即将上一层的输入归一化处理后再进入网络的下一层。

图片的特征提取具体包括：

S11、input层将图片归一化到32*128；即height缩放到32，宽度按高度的比率缩放，也可自定义。本实施例中，宽度设为128，列步骤以宽度为128分析。

S12、Conv0、Conv1分别设置64、128个5*5的卷积核，BathcNormalization0层不改变数据的大小，BathcNormalization0层输出数据大小为128*28*124，MaxPooling0层win:2*2向下取样，输出数据大小为128*14*62。

S13、Conv2设置256个3*3的卷积核，MaxPooling1层win:2*2向下取样，输出数据大小为256*6*30。Conv3设置384个3*3的卷积核，BathcNormalization1层输出数据大小为384*4*28。

S14、MaxPooling2层设置win：1*2，所以宽度不变，高度缩放为原来的一半，输出数据大小为384*2*128。

S2、序列标定，获得初步识别结果。

使用双向LSTM识别特征向量，得到每列特征的概率分布，获得初步的识别结果。

其中，两个双向Lstm，隐藏节点都是256，Lstm1输出27*1*256，Lstm2输出27*1*nClass(类别数)。

S3、初步识别结果的修正，得到最终的识别结果。

去除识别结果中相邻重复的字符以及非字符，得到最终的识别结果。

例如：对于识别结果为--------hh---e----ll---l-----o---，其中'-'为非字符。正常识别结果中不可能出现相邻重复的结果，如结果中的hh及ll，因此需要对其进行去重。即使图像中会有相邻重复的，比如hello中的l，识别结果中两个l之间也会有非字符隔开；去除非字符，则最终的识别结果为hello。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.训练样本的人工合成方法，合成用作机器学习的训练样本，以实现基于机器学习的验证码识别，其特征在于，包括：

S4、收集字体集合；

S6、抠取已写入词语的背景块作为样本。

2.如权利要求1所述的训练样本的人工合成方法，其特征在于：步骤S1中所述的字符类别包括数字、字母、数学符号及汉字，所选字符类别为一种或多种。

3.如权利要求1所述的训练样本的人工合成方法，其特征在于：步骤S2中所述背景图片的宽高大于600*600。

4.如权利要求1所述的训练样本的人工合成方法，其特征在于：步骤S3中采用gPb-UCM方法提取背景图片的语义信息，采用Deep convolutional neural fields for depthestimation from a single image方法提取背景图片的深度信息。

5.如权利要求1所述的训练样本的人工合成方法，其特征在于：步骤S6具体为：计算背景块的倾斜角度，对背景图片进行该角度的旋转，在旋转后的背景图片上截取保存该背景块，记录label，作为样本。

6.基于人工合成样本的验证码识别方法，其特征在于，包括：

7.如权利要求6所述的基于人工合成样本的验证码识别方法，其特征在于：图片的特征提取具体包括：

S11、input层将图片归一化到32*128；