CN109740335A

CN109740335A - 验证码操作轨迹的分类方法及装置

Info

Publication number: CN109740335A
Application number: CN201811425026.5A
Authority: CN
Inventors: 陈禹; 陈国庆
Original assignee: Wuhan Summit Network Technology Co Ltd
Current assignee: Wuhan Summit Network Technology Co Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2019-05-10

Abstract

本发明实施例提供一种验证码操作轨迹的分类方法及装置，所述方法包括：获取用户轨迹数据；将所述用户轨迹数据输入至验证码操作轨迹分类模型，获取所述验证码操作轨迹分类模型输出的与所述用户轨迹数据相对应的验证码操作轨迹类型；其中，所述验证码操作轨迹分类模型是基于用户轨迹样本数据和验证码操作轨迹类型标签进行训练后得到，所述验证码操作轨迹类型标签是根据所述用户轨迹样本数据预先确定的，并与所述用户轨迹样本数据一一对应。本发明实施例通过训练深度学习分类模型对用户轨迹进行分类，相比单纯判断验证答案，从用户行为出发，在评价验证答案正确性的基础上，可以更深层地判断验证码操作来源于真实用户还是计算机程序。

Description

验证码操作轨迹的分类方法及装置

技术领域

本发明实施例涉及互联网技术领域，更具体地，涉及一种验证码操作轨迹的分类方法及装置。

背景技术

验证码是互联网技术中应用较为广泛的一种自动区分计算机和人类的验证方法，通过验证码可以阻止自动化脚本的恶意请求，从而有效规避或降低一些常见的安全风险。传统验证码通过计算机程序生成图片或提示让用户(真正的人或者计算机程序)作出相应的操作，从而验证用户的合法性。随着机器学习技术的发展，尤其是在计算机视觉领域，目前已经出现了很多成熟的方法能够识别验证码图片中的事物，因此单纯的图像辨别的验证方法已经捉襟见肘。

目前主流的验证方法有以下几种：1)字符验证，通过加噪、变型的字符图片，判断字符类型；2)滑动验证，通过拖动滑块到目标位置完成验证；3)点击验证，根据验证提示，依次点击图片中的目标；4)点选图片验证，根据验证提示，选择符合包含提示物体的图片。

上述各种验证方式的共同点是让用户辨别验证图片中的目标，然后进行一定的操作，通常目标具有鲜明的特点。但是，这些验证形式仍然可以被训练好的深度学习模型进行破解，使验证码无法达到识别计算机程序和人类的目的，危害互联网应用的安全。因此，需要提供一种方法能够改善现有验证方式的验证效果，以有效区分进行验证操作的是真正的人类用户还是计算机程序。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的验证码操作轨迹的分类方法及装置。

第一方面，本发明实施例提供一种验证码操作轨迹的分类方法，包括：

获取用户轨迹数据；

将所述用户轨迹数据输入至验证码操作轨迹分类模型，获取所述验证码操作轨迹分类模型输出的与所述用户轨迹数据相对应的验证码操作轨迹类型；

其中，所述验证码操作轨迹分类模型是基于用户轨迹样本数据和验证码操作轨迹类型标签进行训练后得到，所述验证码操作轨迹类型标签是根据所述用户轨迹样本数据预先确定的，并与所述用户轨迹样本数据一一对应。

第二方面，本发明实施例提供一种验证码操作轨迹的分类装置，包括：

数据获取模块，用于获取用户轨迹数据；

分类模块，用于将所述用户轨迹数据输入至验证码操作轨迹分类模型，获取所述验证码操作轨迹分类模型输出的与所述用户轨迹数据相对应的验证码操作轨迹类型；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的验证码操作轨迹的分类方法及装置，通过训练深度学习分类模型对用户轨迹进行分类，相比单纯判断验证答案，从用户行为出发，在评价验证答案正确性的基础上，可以更深层地判断验证码操作来源于真实用户还是计算机程序。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例提供的验证码操作轨迹的分类方法的流程示意图；

图2为本发明实施例提供的验证码操作轨迹的分类装置的结构示意图；

图3为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了克服现有技术的上述问题，本发明实施例提供了一种验证码操作轨迹的分类方法，其发明构思为：现有主流的验证方法，例如字符验证、滑动验证、点击验证和点选图片验证，上述验证方式具有共同点就是让用户辨别验证图片中的目标，并进行一定的操作，通常目标具有鲜明的特点。不管验证码的实现方式如何变化，随着机器学习技术的发展，验证码都有可能会被具有图像识别功能的自动化脚本破解，因此，本发明实施例提出利用卷积神经网络在现有验证方式的基础上，通过对现有验证方式过程中用户的操作轨迹进行分析，判断执行验证操作的是人类还是自动化脚本。

图1为根据本发明实施例提供的验证码操作轨迹的分类方法的流程示意图，如图所示，该方法包括：

步骤100、获取用户轨迹数据。

具体地，用户轨迹数据是指用户端按照验证码的提示执行相应验证操作时的行为轨迹。其中，用户端可以是PC端、移动终端等，按照验证码的提示执行相应验证操作的可以是真正的人类，也可以是计算机程序，例如自动化脚本。提供验证码服务的后台服务器或系统获取用户轨迹数据。

步骤101、将所述用户轨迹数据输入至验证码操作轨迹分类模型，获取所述验证码操作轨迹分类模型输出的与所述用户轨迹数据相对应的验证码操作轨迹类型。

具体地，提供验证码服务的后台服务器或系统将获取到的用户轨迹数据输入至预先训练好的验证码操作轨迹分类模型，利用该验证码操作轨迹分类模型对所述用户轨迹数据进行分类，以判定该用户轨迹数据对应的用户是真正的人类还是计算机程序，所述验证码操作轨迹分类模型输出与所述用户轨迹数据相对应的验证码操作轨迹类型。

验证码操作轨迹类型分为两类，一类是正常的人类操作，一类是非正常的计算机程序操作。

具体地，需要构建卷积神经网络模型(Convoltional Neural Networks，CNN)的软件架构，所述卷积神经网络模型的软件架构至少包括卷积神经网络的处理算法以及卷积神经网络模型训练的目标函数。将添加了标签的用户轨迹样本数据输入至所述卷积神经网络模型的软件架构进行训练，获得训练完成的验证码操作轨迹分类模型。

本发明实施例提供的验证码操作轨迹的分类方法，通过训练深度学习分类模型对用户轨迹进行分类，相比单纯判断验证答案，从用户行为出发，在评价验证答案正确性的基础上，可以更深层地判断验证码操作来源于真实用户还是计算机程序。

基于上述实施例的内容，所述获取用户轨迹数据的步骤，具体为：

采用增量形式记录用户端的验证码操作轨迹，获得用户轨迹数据；

其中，所述用户轨迹数据为由若干个三元组组成的列表，每一个三元组由x轴增量、y轴增量和时间增量组成。

具体地，本发明实施例采用增量形式记录用户端的验证码操作轨迹，用户轨迹数据为每个点的坐标和时间增量，通过依次连线能还原用户拖动的轨迹，并能反映速度。

在一个实施例中，所述用户轨迹数据为由若干个三元组组成的列表，每一个三元组由x轴增量Δx、y轴增量Δy和时间增量Δt组成。用户轨迹数据的形式如下：

Track＝[(Δx₁,Δy₁,Δt₁),(Δx₂,Δy₂,Δt₂),(Δx₃,Δy₃,Δt₃),...]

基于上述实施例的内容，应用如下方法训练得到所述验证码操作轨迹分类模型：

获取第一样本集，所述第一样本集包括用户轨迹样本数据和对应的验证码操作轨迹类型标签；

将所述第一样本集按照预设比例划分为训练样本集和测试样本集；

构建卷积神经网络模型，将所述训练样本集中的用户轨迹样本数据依次输入至所述卷积神经网络模型中进行训练，直至满足预设的训练结束条件，保存训练结束时所述卷积神经网络模型的参数，获得所述验证码操作轨迹分类模型；

其中，所述验证码操作轨迹分类模型至少包括特征提取层和分类器。

具体地，可以根据后台服务器或系统的日志提取用户轨迹样本数据，然后通过人工分析所提取出的用户轨迹样本数据所对应的验证请求的属性分布，对所提取出的用户轨迹样本数据打标签，即添加对应的验证码操作轨迹类型标签，从而构建完成第一样本集。

然后，将第一样本集按照一定的比例划分为训练样本集和测试样本集，通常预设比例为80％和20％，即随机选取80％的第一样本集作为训练样本集，剩余20％的第一样本集作为测试样本集。

根据所述训练样本集构建卷积神经网络模型，将所述训练样本集中的用户轨迹样本数据依次输入至所构建的卷积神经网络模型中进行训练，直至满足预设的训练结束条件时，保存训练结束时所述卷积神经网络模型的参数，获得所述验证码操作轨迹分类模型。

在本发明实施例中，同时训练CNN模型的特征提取层和分类器。

基于上述各实施例的内容，所述获得所述验证码操作轨迹分类模型的步骤之后，还包括：

利用所述测试样本集确定所述验证码操作轨迹分类模型输出结果的准确率；

根据实际场景或人工分析结果，获取异常的用户轨迹数据，构建第二样本集；

对所述验证码操作轨迹分类模型的参数进行微调，将所述第二样本集中的异常的用户轨迹数据依次输入至微调后的所述验证码操作轨迹分类模型进行再训练，并统计微调后的所述验证码操作轨迹分类模型输出结果的准确率；

若微调后的所述验证码操作轨迹分类模型输出结果的准确率较微调前的所述验证码操作轨迹分类模型输出结果的准确率有所提升，则保存微调后的所述验证码操作轨迹分类模型的新参数，并根据所述新参数更新所述验证码轨迹分类模型；或者，

若微调后的所述验证码操作轨迹分类模型输出结果的准确率较微调前的所述验证码操作轨迹分类模型输出结果的准确率没有提升，则回退至微调前的所述验证码操作轨迹分类模型。

具体地，不同的应用程序可能采用不同的验证码形式，因此，为了使训练完成的验证码操作轨迹分类模型能够适应不同的应用场景，需要对训练完成的验证码操作轨迹分类模型进行再训练(fine-tuning)，以保证验证码操作轨迹分类模型的分类能力。

测试样本集用来测试训练完成的验证码操作轨迹分类模型的分类能力，分类能力体现在所述验证码轨迹分类模型的输出结果具有较高的准确率。

根据实际应用场景的需要或者人工的分析结果，可以获取到异常的用户轨迹数据，异常的用户轨迹数据是指由计算机程序完成的验证操作轨迹。第二样本集由异常的用户轨迹数据和对应的标签组成。

分析所述第二样本集与第一样本集的相似程度，确定对所述验证码操作轨迹分类模型的参数进行微调的策略，将所述第二样本集中的异常的用户轨迹数据依次输入至微调后的所述验证码操作轨迹分类模型进行再训练，并统计微调后的所述验证码操作轨迹分类模型输出结果的准确率，将微调前后所述验证码操作轨迹分类模型输出结果的准确率进行比较，若微调后准确率有所提升，说明微调后的模型分类能力更高，因此，保存微调后的参数。若微调后准确率下降，说明微调不成功，因此，回退到微调前的参数。

本发明实施例中所述验证码操作轨迹分类模型可以在原有参数上再训练，能够根据数据统计情况进行更新，对于不同的场景、用户有很好的适应性。

基于上述各实施例的内容，所述将所述用户轨迹数据输入至验证码操作轨迹分类模型，获取所述验证码操作轨迹分类模型输出的与所述用户轨迹数据相对应的验证码操作轨迹类型的步骤，具体为：

将所述用户轨迹数据输入至所述验证码操作轨迹分类模型的特征提取层，获得所述用户轨迹数据的特征向量；

将所述用户轨迹数据的特征向量输入至所述验证码操作轨迹分类模型的分类器，获得所述用户轨迹数据对应的判定概率；

若所述用户轨迹数据对应的判定概率小于预设阈值，则确定所述用户轨迹数据对应的是非正常验证码操作。

具体地，验证码操作轨迹分类模型至少包括特征提取层和分类器，首先将待分类的用户轨迹数据输入至验证码操作轨迹分类模型的特征提取层，获得所述用户轨迹数据的特征向量，然后将特征向量输入至分类器，获得一个数值，该数值为用户轨迹数据对应的判定概率。若所述用户轨迹数据对应的判定概率小于预设阈值，则确定所述用户轨迹数据对应的是非正常验证码操作，即所述用户轨迹数据是由计算机程序进行验证操作产生的。

其中，所述预设阈值根据历史统计情况或所述验证码操作轨迹分类模型应用场景的实际需求进行设定。

基于上述各实施例的内容，所述获取第一样本集的步骤，具体为：

接收用户端发送的验证请求，所述验证请求至少携带用户属性信息；

采用增量形式记录所述用户端的验证码操作轨迹，获得用户轨迹样本数据；

根据所述用户属性信息和用户端活动日志获取所述验证请求的属性分布，并根据所述属性分布为所述用户轨迹样本数据添加验证码操作轨迹类型标签。

具体地，提供验证码服务的后台服务器或系统接收用户端发送的验证请求，用户属性信息包括用户端发送验证请求的时间、触发规则、用户端设备类型等信息；

根据所述用户属性信息和用户端活动日志获取所述验证请求的属性分布，例如验证请求的时间分布、触发规则分布、设备类型分布、IP访问频率分布等。根据这些属性分布就可以人工判断用户所述用户轨迹样本数据对应的是否为真正的人类，从而为所述用户轨迹样本数据添加验证码操作轨迹类型标签。

如图2所示，为本发明实施例提供的验证码操作轨迹的分类装置的结构示意图，包括：数据获取模块201和分类模块202，其中，

数据获取模块201，用于获取用户轨迹数据；

分类模块202，用于将所述用户轨迹数据输入至验证码操作轨迹分类模型，获取所述验证码操作轨迹分类模型输出的与所述用户轨迹数据相对应的验证码操作轨迹类型；

具体地，用户轨迹数据是指用户端按照验证码的提示执行相应验证操作时的行为轨迹。其中，用户端可以是PC端、移动终端等，按照验证码的提示执行相应验证操作的可以是真正的人类，也可以是计算机程序，例如自动化脚本。数据获取模块201获取用户轨迹数据。

分类模块202将获取到的用户轨迹数据输入至预先训练好的验证码操作轨迹分类模型，利用该验证码操作轨迹分类模型对所述用户轨迹数据进行分类，以判定该用户轨迹数据对应的用户是真正的人类还是计算机程序，所述验证码操作轨迹分类模型输出与所述用户轨迹数据相对应的验证码操作轨迹类型。

分类模块202需要构建卷积神经网络模型(Convolutional Neural Networks，CNN)的软件架构，所述卷积神经网络模型的软件架构至少包括卷积神经网络的处理算法以及卷积神经网络模型训练的目标函数。分类模块202将添加了标签的用户轨迹样本数据输入至所述卷积神经网络模型的软件架构进行训练，获得训练完成的验证码操作轨迹分类模型。

本发明实施例提供的验证码操作轨迹的分类装置，通过训练深度学习分类模型对用户轨迹进行分类，相比单纯判断验证答案，从用户行为出发，在评价验证答案正确性的基础上，可以更深层地判断验证码操作来源于真实用户还是自动化脚本。

基于上述实施例的内容，所述数据获取模块201具体用于：

具体地，数据获取模块201采用增量形式记录用户端的验证码操作轨迹，用户轨迹数据为每个点的坐标和时间增量，通过依次连线能还原用户拖动的轨迹，并能反映速度。

图3为本发明实施例提供的电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储在存储器330上并可在处理器310上运行的计算机程序，以执行上述各实施例提供的验证码操作轨迹的分类方法，例如包括：获取用户轨迹数据；将所述用户轨迹数据输入至验证码操作轨迹分类模型，获取所述验证码操作轨迹分类模型输出的与所述用户轨迹数据相对应的验证码操作轨迹类型；其中，所述验证码操作轨迹分类模型是基于用户轨迹样本数据和验证码操作轨迹类型标签进行训练后得到，所述验证码操作轨迹类型标签是根据所述用户轨迹样本数据预先确定的，并与所述用户轨迹样本数据一一对应。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的验证码操作轨迹的分类方法，例如包括：获取用户轨迹数据；将所述用户轨迹数据输入至验证码操作轨迹分类模型，获取所述验证码操作轨迹分类模型输出的与所述用户轨迹数据相对应的验证码操作轨迹类型；其中，所述验证码操作轨迹分类模型是基于用户轨迹样本数据和验证码操作轨迹类型标签进行训练后得到，所述验证码操作轨迹类型标签是根据所述用户轨迹样本数据预先确定的，并与所述用户轨迹样本数据一一对应。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种验证码操作轨迹的分类方法，其特征在于，包括：

获取用户轨迹数据；

2.根据权利要求1所述的方法，其特征在于，所述获取用户轨迹数据的步骤，具体为：

3.根据权利要求1或2所述的方法，其特征在于，应用如下方法训练得到所述验证码操作轨迹分类模型：

4.根据权利要求3所述的方法，其特征在于，所述获得所述验证码操作轨迹分类模型的步骤之后，还包括：

5.根据权利要求3所述的方法，其特征在于，所述将所述用户轨迹数据输入至验证码操作轨迹分类模型，获取所述验证码操作轨迹分类模型输出的与所述用户轨迹数据相对应的验证码操作轨迹类型的步骤，具体为：

6.根据权利要求3所述的方法，其特征在于，所述获取第一样本集的步骤，具体为：

7.一种验证码操作轨迹的分类装置，其特征在于，包括：

数据获取模块，用于获取用户轨迹数据；

8.根据权利要求7所述的装置，其特征在于，所述数据获取模块具体用于：

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。