CN109063456B

CN109063456B - 图像型验证码的安全性检测方法及系统

Info

Publication number: CN109063456B
Application number: CN201810873961.1A
Authority: CN
Inventors: 纪守领; 赵彬彬; 翁海琴; 陈建海
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2021-10-08
Anticipated expiration: 2038-08-02
Also published as: CN109063456A

Abstract

本发明公开了一种图像型验证码安全性检测方法及系统，方法包括以下步骤：从目标网站收集原始图像型验证码数据，分割出其文字标签并进行人工标注，构建标签训练集；根据文字标签的类别收集对应的图片，构建子图训练集；构建卷积神经网络，分别采用标签训练集和子图训练集进行训练，分别得到标签识别模型和子图识别模型；使用标签识别模型和子图识别模型分别识别图像型验证码的文字标签和子图，识别结果记为A和B；若某子图满足：(A∈B)∩(P(A)＞λ)，则认为该子图属于文字标签A；根据其识别准确率评判该目标网站图像型验证码的安全性。本发明的图像型验证码安全性检测方法为图像型验证码的安全性评估提供量化的参考依据。

Description

图像型验证码的安全性检测方法及系统

技术领域

本发明涉及计算机安全技术领域，尤其涉及一种基于CNN的图像型验证码的安全性检测方法及系统。

背景技术

目前，互联网飞速发展给人们带来了方便，用户可以根据自己的需求使用互联网资源，例如，从互联网上获取自己需要的文章、图像、声音、视频等多种信息。但是，目前存在带有程序的机器恶意对互联网资源进行不正当使用的情况，例如，大量下载免费资源、群发垃圾邮件、进行饱和攻击等，这些不正当使用行为不仅大量占用了互联网资源，严重时还可能导致服务器瘫痪，影响用户的正常使用。

为了避免服务器瘫痪，需要用户访问网络资源之前进行用户身份验证，现有技术中通过使用对机器具有一定识别难度的验证码来进行身份验证。验证码是一种区分用户是计算机还是人的公共全自动程序，可以用来防止计算机恶意破解密码、刷票、论坛灌水，也可以防止恶意用户批量注册账号。

传统的验证码就是将一串随机产生的数字或符号，生成一幅图像，图像里加上一些干扰象素防止OCR(Optical Character Recognition，光学字符识别)，然后由用户肉眼识别其中的验证码信息，并输入表单提交网站验证，在验证成功后才能使用某项功能。国内外主流厂商都采用了验证码作为主要防御手段，然而，传统的验证码正逐步面临被程序自动识别的危险(Yahoo、Hotmail、Gmail的CAPTCHA都已经被破解)，而过于复杂的干扰信息又降低了用户的正确识别率。

目前，有许多厂商选择采用图像型验证码，比如国内的12306网站以及国外的Google和Facebook旗下网站。图像型验证码以高抗破解性和低体验友好性著称，然而随着神经网络的发展，高准确率自动识别图像型验证码在技术上已经存在实现的可能。

Facebook公司发布的机器学习框架pytorch是目前主流的框架之一，其自带了一些预训练好的模型，包括VGG、Inception V3等模型。其中，Inception V3模型由Google公司发布，在图像分类上取得了非常好的效果，而破解图像型验证码的实质就是一个图像分类问题，因此黑产从业者极有可能使用类似的方法来攻击图像型验证码。所以，各大厂商需要选择一款安全性最高的图像型验证码，开发人员也需要一种合适的方法来检测图像型验证码的安全性，然而市面上目前还没有一个可靠、有效的方法及系统能够检测图像型验证码的安全性。

发明内容

本发明提供了一种图像型验证码安全性检测方法，为技术人员评估图像型验证码的安全性提供量化的参考依据。

本发明提供了如下技术方案：

一种图像型验证码安全性检测方法，包括以下步骤：

(1)从目标网站收集原始图像型验证码数据，分割出其文字标签并对文字标签进行人工标注，构建标签识别模型的标签训练集；

(2)构建第一卷积神经网络，并采用标签训练集进行训练，得到标签识别模型；

(3)根据文字标签的类别，从互联网上收集对应的图片，构建子图训练集；

(4)构建第二卷积神经网络，并采用子图训练集进行训练，得到子图识别模型；

(5)使用所述的标签识别模型和子图识别模型分别识别图像型验证码的文字标签和子图，文字标签的识别结果记为A，子图的预测结果集合记为B；

若某子图满足：(A∈B)∩(P(A)＞λ)，其中P(A)为该子图识别为A的概率，则认为该子图属于文字标签A；

根据子图的识别准确率确定阈值λ的大小；

(6)结合所述的标签识别模型、子图识别模型以及阈值λ识别目标网站的图像型验证码，并根据其识别准确率评判该目标网站图像型验证码的安全性。

步骤(2)中，采用标签训练集对第一卷积神经网络进行训练，得到标签识别模型，包括：

(2-1)采用标签训练集训练第一卷积神经网络，得到初始标签识别模型；

(2-2)从原始图像型验证码中随机筛选出部分验证码，利用训练好的初始标签识别模型进行分类，分类后加入到标签训练集中；

(2-3)采用更新后的标签训练集重新训练第一卷积神经网络，得到新的标签识别模型；

(2-4)重复步骤(2-2)和(2-3)，当继续增加标签训练集样本而标签识别模型在验证集上的准确率保持不变或波动幅度小于给定阈值时，停止训练，将识别准确率最高模型作为最终的标签识别模型。

步骤(2-4)中，所述给定阈值为1～5％；最优选的，所述给定阈值为1％。

优选的，所述的第一卷积神经网络为Inception V3预训练模型。

进一步优选的，所述的第一卷积神经网络依次包括1个输入层，3个卷积层(输入尺寸分别为299×299×3、149×149×32、147×147×32)，1个池化层(输入尺寸为147×147×64)，2个卷积层(输入尺寸分别为73×73×64、71×71×80)，1个池化层(输入尺寸为35×35×192)，3个Inception模组块(输入尺寸分别为35×35×288、17×17×768、8×8×1280)，1个池化层(输入尺寸为8×8×2048)，1个线性层(输入尺寸为1×1×2048)，1个Softmax层(输入尺寸为1×1×N，N与统计得到的标签类别数目相同)。

步骤(3)中，根据文字标签的类别，从ImageNet、百度图片以及谷歌图片网站上收集对应的图片，构建子图训练集。

步骤(4)中，采用子图训练集对第二卷积神经网络进行训练，得到子图识别模型，包括：

(4-1)采用子图训练集对第二卷积神经网络进行训练，得到初始子图识别模型；

(4-2)根据初始子图识别模型在验证集上的分类结果，筛选出分类准确率较低的文字标签类别，针对该文字标签类别重新收集对应的图片，建立该文字标签类别对应的训练集；

(4-3)采用新的子图训练集重新训练第二卷积神经网络，得到新的子图识别模型；

(4-4)重复步骤(4-2)和(4-3)，当继续增加子图训练样本而子图识别模型在验证集上的准确率保持不变或波动幅度小于给定阈值时，停止训练，将识别准确率最高模型作为最终的子图识别模型。

步骤(4-4)中，所述给定阈值为1～5％；最优选的，所述给定阈值为1％。

优选的，所述的第二卷积神经网络与第一卷积神经网络的结构相同。

步骤(5)中，(A∈B)∩(P(A)＞λ)表示：集合B包含A，且子图识别为A的概率大于λ，则认为该子图属于文字标签A。

步骤(5)中，根据子图的识别准确率确定阈值λ的大小，包括：

(5-1)设定初始λ＝0，在测试集上进行测试，记录对应的识别准确率；

(5-2)按照从小到大逐步增加的方式调整λ值，重复在测试集上进行测试，记录对应的识别准确率；

当λ增加到1时停止；

(5-3)将识别准确率最高时所对应的λ值作为最终的阈值λ。

优选的，步骤(5-2)中，λ值的调整方式为：将λ值从0逐渐增加到1，每次调整幅度为0.01。

步骤(6)中，图像型验证码的识别准确率计算方法如下：

其中，N_通过为验证通过次数，M_总为总测试次数，P_识别为识别准确率。

步骤(6)中，可以采用五级制标准来评判图像验证码的安全性。进一步优选的，识别准确率为[80％，100％]时，规定图像型验证码安全性为一星级；识别准确率为[60％，80％)，规定图像型验证码安全性为二星级；识别准确率为[35％，60％)，规定图像型验证码安全性为三星级；识别准确率为[10％，35％)，规定图像型验证码安全性为四星级；识别准确率为[0％，10％)，规定图像型验证码安全性为五星级。

本发明还公开了一种图像型验证码安全性检测系统，包括：

数据预处理模块，从目标网站收集图像型验证码，分割出其文字标签并对图像验证码中的子图进行等份切割；

标签识别模块，对图像型验证码的文字标签进行识别；

子图识别模块，对图像型验证码的子图进行识别；

安全性检测模块，根据所述的标签识别模块和子图识别模块的识别结果，结合阈值λ分析目标网站图像型验证码的安全性。

标签识别模块中包含标签识别模型，子图识别模块中包含子图识别模型，标签识别模型和子图识别模型的结构和训练方法在图像型验证码安全性检测方法中记载；阈值λ以及目标网站图像型验证码的安全性的判断方法在图像型验证码安全性检测方法中也已记载。

与现有技术相比，本发明的有益效果：

(1)技术开发人员可以利用本发明的图像型验证码安全性检测方法检测验证码的安全性，针对薄弱环节进行调整来提高验证码产品的安全性能；

(2)图像型验证码消费者可以利用这种方法来检测购买的图像型验证码产品的安全性，选择出市面上安全性较好的同类产品；

(3)科研人员在获取数据时有可能会遇到图像型验证码，可使用本发明的方法通过图像型验证码，方便科研人员获取数据。

附图说明

图1为图像型验证码安全性检测系统的结构示意图；

图2为图像型验证码安全性检测方法的流程示意图；

图3为图像型验证码示意图；

图4为标签识别模型的训练流程示意图；

图5为第一卷积神经网络的结构示意图；

图6为子图识别模型的训练流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

本发明公开的图像型验证码安全性检测系统架构如图1所示，主要包括五个功能模块：数据预处理模块，验证码标签识别模块，验证码子图识别模块，阈值分析模块，安全性检测模块。

其中，数据预处理模块负责针对特定的目标网站采集其图像型验证码数据，作为验证码安全性分析方法的输入数据集，同时也负责统计图像型验证码标签类别数目；验证码标签识别模块负责实现验证码标签的识别，其通过卷积神经网络训练得到一个CNN模型，称为模型α；验证码子图识别模块负责识别验证码子图，同样采用卷积神经网络来训练得到一个CNN模型，称为模型β；阈值分析模块实现了阈值分析功能，通过在识别过程中改变阈值来对识别准确率进行分析，最后会记录识别准确率最高时的阈值；安全性检测模块实现具体安全性的检测及评估，使用五级制标准评估图像型验证码的安全性。

如图2所示，基于上述图像型验证码安全性检测系统进行图像型验证码安全性检测的方法，包括以下五个步骤：

第一：数据预处理阶段。

在本阶段，首先采用基于python实现的网络爬虫工具，用定时更换IP的方式从目标网站自动收集大量(数量越多越好)原始图像型验证码数据。

例如，收集到的原始图像验证码如图3所示，包括一个标签类别和8张子图。图3框选区域所示“文具盒”即为一个标签类别，从收集到的原始图像验证码中切割其文字标签并进行人工标注(要求分类出所有文字标签，不能遗漏)，将部分切割标注好的文字标签作为标签识别模型的标签训练集，将部分切割标注好的文字标签作为验证集。

对原始图像验证码中的子图进行等份切割，如图3所示，该原始图像验证码中包含8张子图。对子图区域进行横向4等份切割，纵向2等份切割即可获得8张子图。

整个操作由系统的数据预处理模块完成。

第二：标签识别模型训练阶段。

如图4所示，该阶段分为以下四个步骤：

(I)采用标签训练集训练一个卷积神经网络(pytorch框架自带的Inception V3预训练模型)，得到标签识别模型；

采用的卷积神经网络结构如图5所示，依次包括1个输入层，3个卷积层(输入尺寸分别为299×299×3、149×149×32、147×147×32)，1个池化层(输入尺寸为147×147×64)，2个卷积层(输入尺寸分别为73×73×64、71×71×80)，1个池化层(输入尺寸为35×35×192)，3个Inception模组块(输入尺寸分别为35×35×288、17×17×768、8×8×1280)，1个池化层(输入尺寸为8×8×2048)，1个线性层(输入尺寸为1×1×2048)，1个Softmax层(输入尺寸为1×1×N，N与统计得到的标签类别数目相同)。

构建过程如下：

(a)下载pytorch框架自带的Inception V3预训练模型；

(b)将输入的图片尺寸大小调整为299×299；

(c)构建一个分类层，其中分类层的可能输出结果种类数应与数据预处理阶段获得的标签类别数目一致。

卷积神经网络涉及的算法如下：

对每个输入的训练样本s，模型计算每个标签的概率n∈{1...N}：

其中，x_i为对数单位或未归一化的对数概率。

训练样本在标签上的实际分布q(n|s)，在归一化后：

∑_nq(n|s)＝1

计算交叉熵为：

(II)从原始图像型验证码中继续随机筛选出部分验证码，利用训练好的标签识别模型进行分类，分类后加入标签训练集；

(III)重新用新的标签训练集训练卷积神经网络，得到新的标签识别模型；

(IV)重复步骤(II)和(III)，当继续增加训练集样本而标签识别模型在验证集上的准确率保持不变或波动幅度小于一个给定的较小基准(如1％)时，停止训练，然后将识别准确率最高的情况对应的模型作为最终的标签识别模型，称为模型α。

第三：子图识别模型训练阶段。

如图6所示，该阶段模型的训练方法类似于前一阶段，具体包括以下步骤：

(i)针对统计出来的标签类别，从ImageNet、百度图片以及谷歌图片收集对应的图片，对收集到的图片数据进一步筛选后构建子图训练集和验证集；

(ii)采用构建的子图训练集训练一个卷积神经网络，得到子图识别模型；

卷积神经网络的结构及其构建过程和涉及到的算法如图5所示，与第三阶段一致。

(iii)从子图识别模型在验证集上的分类结果，得到该子图识别模型在每一个标签上的分类准确率继而可以挑选出分类效果较差的类别，针对这些类别，重新根据步骤(i)建立该标签类别的训练集和验证集；

(iV)重新采用新的训练集训练卷积神经网络，得到新的子图识别模型；

(v)重复步骤(iii)和(iV)，当继续增加训练样本而模型准确率保持不变或者波动幅度小于一个给定的较小基准(如1％)时，停止训练，将识别准确率最高的模型作为最终的子图识别模型，称为模型β。

第四：阈值调整阶段。

使用模型α识别图像型验证码的标签，识别结果记为A，接着利用模型β识别图像型验证码中的子图，预测结果集合记为B，如果满足以下条件：

(A∈B)∩(P(A)＞λ)

即集合B包含A，且子图识别为A的概率大于λ，则认为该子图属于文字标签A，其中P(A)为子图识别为A的概率。

如图3所示，如果图3中第一行第三列的子图预测结果包含文具盒，且“文具盒”的概率大于阈值，则该子图属于“文具盒”。

1)设定初始阈值λ＝0，在测试集上进行测试，记录阈值和对应的识别准确率；

2)按照从小到大逐步增加的方式调整阈值λ(0≤λ≤1)，调整方式为从0逐渐增加到1，每次调整幅度为0.01，重复在测试集上进行测试，对每一次调整都得到一个识别准确率，当阈值λ增加到1时停止，并记录下阈值调整过程中识别准确率最高时的阈值λ。

第五：图像型验证码安全性检测阶段。

该阶段是最后阶段，通过构建一个识别系统来识别系统图像型验证码，然后基于一个五级制标准来评价分析得到一个网站图像型验证码的安全性。主要涉及两个步骤：

1)结合模型α、模型β以及阈值构建一个识别系统，用该识别系统识别目标网站上的图像型验证码，将识别结果发送给服务端，根据服务端的反馈即可确定是否验证通过，记录在真实环境下的识别准确率，识别准确率计算方法如下：

其中，N_通过是通过次数，M_总是总测试次数，P_识别为识别准确率。

2)基于五级制标准来评判分析图像型验证码的安全性。

五级评判标准为：识别准确率为[80％，100％]，则图像型验证码安全性为一星级(★)；识别准确率为[60％，80％)，则图像型验证码安全性为二星级(★★)；识别准确率为[35％，60％)，则图像型验证码安全性为三星级(★★★)；识别准确率为[10％，35％)，则图像型验证码安全性为四星级(★★★★)；识别准确率为[0％，10％)，则图像型验证码安全性为五星级(★★★★★)。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种图像型验证码安全性检测方法，其特征在于，包括以下步骤：

(1)采用基于python实现的网络爬虫工具，用定时更换IP的方式从目标网站收集原始图像型验证码数据，分割出其文字标签并进行人工标注，构建标签训练集；

所述的第一卷积神经网络和第二卷积神经网络为Inception V3预训练模型；

根据子图的识别准确率确定阈值λ的大小；

2.根据权利要求1所述的图像型验证码安全性检测方法，其特征在于，步骤(2)中，采用标签训练集对第一卷积神经网络进行训练，得到标签识别模型，包括：

3.根据权利要求1所述的图像型验证码安全性检测方法，其特征在于，步骤(4)中，采用子图训练集对第二卷积神经网络进行训练，得到子图识别模型，包括：

4.根据权利要求1所述的图像型验证码安全性检测方法，其特征在于，步骤(5)中，根据子图的识别准确率确定阈值λ的大小，包括：

当λ增加到1时停止；

(5-3)将识别准确率最高时所对应的λ值作为最终的阈值λ。

5.根据权利要求4所述的图像型验证码安全性检测方法，其特征在于，步骤(5-2)中，λ值的调整方式为：将λ值从0逐渐增加到1，每次调整幅度为0.01。

6.一种图像型验证码安全性检测系统，其特征在于，包括：

标签识别模块，对图像型验证码的文字标签进行识别；

子图识别模块，对图像型验证码的子图进行识别；

安全性检测模块，根据所述的标签识别模块和子图识别模块的识别结果，结合阈值λ分析目标网站图像型验证码的安全性；

所述的图像型验证码安全性检测系统根据如权利要求1-5所述的检测方法对图像型验证码安全性进行检测。