CN113033747B

CN113033747B - 一种用于人机识别的图形识别码生成方法

Info

Publication number: CN113033747B
Application number: CN202110578878.3A
Authority: CN
Inventors: 刘小垒; 李璐璇; 殷明勇; 路海
Original assignee: COMPUTER APPLICATION RESEARCH INST CHINA ACADEMY OF ENGINEERING PHYSICS
Current assignee: COMPUTER APPLICATION RESEARCH INST CHINA ACADEMY OF ENGINEERING PHYSICS
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-07-27
Anticipated expiration: 2041-05-26
Also published as: CN113033747A

Abstract

本发明公开了一种用于人机识别的图形识别码生成方法，属于网络安全测试领域，解决现有验证码容易被基于机器学习技术训练的机器人自动识别并跳过，以及现有的图片对抗样本生成方式处理时间长和计算规模大的问题。本发明预设图片尺寸,基于图片尺寸选取图片集，将图片集和图片集的分类结果输入对抗样本生成系统生成扰动，再将扰动添加在图片集的图片边框上,得到初始化的图片对抗样本集；基于初始化的图片对抗样本集，利用白盒训练模型对干扰进行优化，生成最终的图片对抗样本，即图片干扰边框；将图片干扰边框加入待干扰图片上，形成图片识别码，即图片验证码，其中，待干扰图片的尺寸与图片集中的图片的尺寸大小相同。本发明用于生成干扰框架。

Description

一种用于人机识别的图形识别码生成方法

技术领域

一种用于人机识别的图形识别码生成方法，用于生成干扰框架，属于网络安全测试领域。

背景技术

随着人工智能技术的发展，重复且机械性的人力劳动逐渐被机器所替代，而在网络上也出现了用机器代替人去实现一些个人目的场景出现（抢票、购物秒杀、网络爬虫等），大大的破化了市场公平和网络秩序。为了防御机器代替人来执行操作，人机识别技术也开始快速发展并且形成了较好的效果。现阶段主要的人机识别方式有逻辑运算、图片特征识别、图片行为识别等，通过在图片上增加干扰（旋转、模糊、拉伸）以达到在不影响真人识别的情况下拦截机器人访问，而现有的验证码容易被基于机器学习技术训练的机器人自动识别并跳过，使得验证码如同虚设，具体为：

验证码能够被机器识别并跳过的原因是机器学习目前已经有较为成熟的技术，例如KNN，K-means等，可以通过输入一些样本，分析验证码是如何被施加干扰的。最后可以形成一个识别系统，对于给出的加了干扰的验证码，能够成功地识别出它原本的样子，从而达到跳过验证的目的。这种现象出现的原因是有人为了达到个人目的，通过机器代替人力获得优势，从而为自己谋取利益。而为了维护市场公平，就必须想出应对方法来限制这种情况的发生，于是就产生了验证码。

基于图片对抗样本生成系统，现有的图片对抗样本生成方式主要是在图片上增加真人通过肉眼无法识别的噪声，形成特征点以达到分类系统误分类的结果，这样的方式虽然在表面上没有更改图片信息，实际上使得图片信息损失；除此之外，这类方法需要针对每次输入的图片进行误导，即每输入一次信息，就需要重新计算生成干扰以形成新的对抗样本，这就增加了处理时间和计算规模，具体为：

当前对于生成图像干扰，是每输入一次图片，都要通过计算如何形成干扰，这就需要一定的内存，并且生成的结果依赖于硬件的计算速度。该方法存在一定的滞后性（不能输入图片就能看到干扰结果这样“所见即所得”的效果）。

发明内容

针对上述研究的问题，本发明的目的在于提供一种用于人机识别的图形识别码生成方法，解决现有验证码容易被基于机器学习技术训练的机器人自动识别并跳过，以及现有的图片对抗样本生成方式处理时间长和计算规模大的问题。

为了达到上述目的，本发明采用如下技术方案：

一种用于人机识别的图形识别码生成方法，包括：

S1、预设图片尺寸, 基于图片尺寸选取图片集，将图片集和图片集的分类结果输入对抗样本生成系统生成扰动，再将扰动添加在图片集的图片边框上,得到初始化的图片对抗样本集；

S2、基于初始化的图片对抗样本集，利用白盒训练模型对干扰进行优化，生成最终的图片对抗样本，即图片干扰边框；

S3、将图片干扰边框加入待干扰图片或待干扰图片集上，形成图片识别码，即图片验证码，其中，待干扰图片或待干扰图片集中的图片的尺寸与图片集中的图片的尺寸大小相同。

进一步，所述步骤S1的具体步骤为：

步骤S1.1、获取图片集

；

其中，

表示图片集，

表示图片集中的第

张图片，

表示图片

的高度，

表示图片

的宽度，

表示图片的颜色通道数，R表示实数域；

步骤S1.2、将图片集

中的图片分别输入白盒分类系统

，得到图片集中各图片的分类结果

；

步骤S1.3、将图片集

和分类结果

输入到对抗样本生成系统，生成只作用在图片边框的扰动

，将该扰动添加到图片集上，得到初始化的图片对抗样本集。

进一步，所述步骤S2的具体步骤为：

步骤S2.1、基于每一张图片

以及其分类结果

对

进行更新；

更新方式：

其中，

为损失函数，即Lossfuction，

指损失函数沿图片的颜色通道值梯度方向反向传播，

为步长，

，

表示对

的第几轮更新，

为图片集内图片数，

为图片集内第

张图片分类结果，

为图片集内的第

张图片；

步骤S2.2、固定循环轮数

后得到的差值的绝对值小于给定的误差值eps，则不再更新，在所有循环结果中选出损失函数最大的一例对应的结果作为最终的干扰边框

。

本发明同现有技术相比，其有益效果表现在：

一、本发明不需要对输入图片集进行分析，直接利用预设对抗样本生成图形验证码，增强了图形验证码的可用性在保证不影响真人识别的情况下，干扰机器人的识别，；

二、本发明所形成的通用干扰边框可针对固定尺寸图片的干扰；

三、本发明用于筛查机器识别的针对性干扰，即所形成的通用干扰边框可以针对现有通用图像识别算法，训练出一个有目标的攻击模型框架，以达到机器识别结果往目标类靠近，从而分类出真人-机器人。如图片信息是长颈鹿，而生成的对抗模型能够以极大的概率误导机器识别为大象，从而根据结果记录疑似机器的访问请求并加以防御；

四、本发明具有良好的泛化效应的对抗框架（即通用干扰边框），即根据实验数据可以发现该对抗框架具有通用性，并且诱导误分类效果较好（在ImageNet dataset下选取的图片集，在不加干扰情况下识别系统正确率是70.22%，加入随机噪声使得正确率为56.37%，而在本发明技术下正确率仅为44.26%，具有较好的效果），可以适用于不同的类型的图片集，使用者可以根据该框架直接导入待干扰图片，不会改变原有图像具有的信息，只需要在其周围增加边框，且不需要其他计算时间和分析时间，就能够达到低成本高效果的目标；

五、本发明减去了计算要求，所以需要对于硬件的要求也降低了，有利于边缘计算。（即获得干扰框架后，本地可以自行计算而不需要向中心服务器发出申请）。

附图说明

图1为本发明中得到图片干扰边框的流程示意图；

图2为本发明中得到图形识别码的示意图。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

对于人机识别领域，生成的图形识别码主要用于保护用户权益，使得真人能够正确识别图片信息，选出所属类别，同时使得机器误分类的结果。对于这个要求而言，需要考虑是生成图形识别码（验证码或图片验证码）的效率以及针对现有分类系统的误导率，所以如果能够形成一个固定的干扰框架，在框架上直接填入图片即可形成有效干扰，就可以大大提升对抗样本生成效率，减少计算成本。即将图片周围增加边框以形成对抗框架，从而完成人机识别的任务，达到拦截机器人访问的目的，该对抗框架生成后不需要其他额外计算成本，可以直接用于各种图片识别上（直接外镶在图片边框）。本发明中的图片尺寸作为训练参数，在训练前必须完成设定。训练完成后会形成对于该尺寸的通用干扰边框，可以适用于相同尺寸的各种图片集合或图片。每次训练前可以自定义训练尺寸以达到更好的适用性效果。同时也可以在生成固定尺寸的通用干扰边框后，导入待干扰图片时自动缩放到相应尺寸，虽然会损失一部分图片信息，但是不会影响真人识别。

一种用于人机识别的图形识别码生成方法，包括：

S1、预设图片尺寸, 基于图片尺寸选取图片集，将图片集和图片集的分类结果输入对抗样本生成系统生成扰动，再将扰动添加在图片集的图片边框上,得到初始化的图片对抗样本集，对抗样本生成系统为现有的；具体步骤为：

S1.1、获取图片集

；

其中，

表示图片集，

表示图片集中的第

张图片，

表示图片

的高度，

表示图片

的宽度，

表示图片的颜色通道数，R表示实数域；

S1.2、将图片集

中的图片分别输入白盒分类系统

，得到图片集中各图片的分类结果

；

S1.3、将图片集

和分类结果

输入到对抗样本生成系统，生成只作用在图片边框的扰动

，将该扰动添加到图片集上，得到初始化的图片对抗样本集。具体实现过程为：将图片集

和分类结果

输入到对抗样本生成系统，可获取图片集

的参数（H*W），即扰动，将扰动统一加入固定宽度d的边框，即新尺寸为（H+d）*(W+d)；

S2、基于初始化的图片对抗样本集，利用白盒训练模型对干扰进行优化，生成最终的图片对抗样本，即图片干扰边框；具体步骤为：

步骤S2.1、基于每一张图片

以及其分类结果

对

进行更新；

更新方式：

其中，

为损失函数，即Lossfuction，

指损失函数沿图片的颜色通道值梯度方向反向传播，

为步长，

，

表示对

的第几轮更新，

为图片集内图片数，

为图片集内第

张图片分类结果，

为图片集内的第

张图片；

步骤S2.2、固定循环轮数

。

S3、将图片干扰边框加入待干扰图片或待干扰图片集上，形成图片识别码，即图片验证码，其中，待干扰图片或待干扰图片集中的图片的尺寸与图片集中的图片的尺寸大小相同。假设待干扰图片尺寸是40*40，预先设置的初始化对抗边框宽度是1，将图片干扰边框加入待干扰图片上则图片尺寸变为42*42。

以上仅是本发明众多具体应用范围中的代表性实施例，对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案，均落在本发明权利保护范围之内。