CN109033793A

CN109033793A - 滑动验证码人机识别方法及装置、电子设备及可读介质

Info

Publication number: CN109033793A
Application number: CN201810759601.9A
Authority: CN
Inventors: 朱翔宇
Original assignee: Beijing Jingdong Financial Technology Holding Co Ltd
Current assignee: Beijing Jingdong Financial Technology Holding Co Ltd
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2018-12-18

Abstract

本公开涉及一种滑动验证码人机识别方法及装置、电子设备及计算机可读介质。涉及计算机信息处理领域，该方法包括：采集滑动验证码滑动过程中的轨迹数据；提取所述轨迹数据的特征；将所述特征输入至训练好的人机识别模型，获得所述轨迹数据所属人机类别。本公开涉及的滑动验证码人机识别方法、系统、装置、电子设备及计算机可读介质，能够自动识别滑动验证码滑动过程中的轨迹数据对应的轨迹是由人触发的还是由机器触发的，从而可以提高滑动验证的安全性。

Description

滑动验证码人机识别方法及装置、电子设备及可读介质

技术领域

本公开涉及计算机信息处理领域，具体而言，涉及一种滑动验证码人机识别方法及装置、电子设备及计算机可读介质。

背景技术

滑动验证码在验证的过程中产生大量的鼠标轨迹信息，因此，基于鼠标轨迹识别的方法当前被广泛地运用于多种人机验证产品中，不仅便于用户的理解记忆，而且极大地增加了暴力破解的难度。

与此同时，滑动验证码作为一种生物认证技术，在满足当前网络环境对身份认证安全性需求的同时，也受到了攻击者们的重点关注，各种被开发出来模仿人类行为的黑产工具开始挑战着滑动验证码的安全性。

攻击者可以通过黑产工具产生类人轨迹批量操作以绕过检测，并在对抗过程中不断升级其伪造数据以持续绕过同样升级的检测技术。

因此，在双方都不断升级的技术对抗中，如何在与攻击者的黑产工具的对抗中占据优势，就显得尤为重要。针对上述相关技术中的问题，目前尚未提出有效的解决方案。

因此，需要一种新的滑动验证码人机识别方法及装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开提供一种滑动验证码人机识别方法及装置、电子设备及计算机可读介质，能够自动自动识别触发滑动验证码的为人还是机器，以便提高滑动验证码的安全性。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种滑动验证码人机识别方法，包括：采集滑动验证码滑动过程中的轨迹数据；提取所述轨迹数据的特征；将所述特征输入至训练好的人机识别模型，获得所述轨迹数据所属人机类别。

在本公开的一种示例性实施例中，所述轨迹数据包括所述滑动过程中不同时间点的第一方向坐标，所述特征包括第一方向特征；所述提取所述轨迹数据的特征，包括：从所述轨迹数据中提取出所述不同时间点的第一方向坐标组成第一方向序列；根据所述第一方向序列构建第一方向特征群；提取所述第一方向特征群的所述第一方向特征。

在本公开的一种示例性实施例中，所述第一方向特征群包括所述第一方向序列的前半段序列、后半段序列、前半段邻位差序列、后半段邻位差序列、停止段序列中的至少一种。

在本公开的一种示例性实施例中，所述第一方向特征包括以下特征中的至少一种：所述第一方向序列的前半段序列的最大值、峰度、中值和方差；所述第一方向序列的后半段序列的最小值、中值、方差、峰度和初始值；所述第一方向序列的前半段邻位差序列的最大值、最小值、中值、方差和峰度；所述第一方向序列的后半段邻位差序列的最大值、最小值、中值、方差和峰度；所述第一方向序列的停止段序列的方差和极差。

在本公开的一种示例性实施例中，所述轨迹数据包括所述滑动过程中不同时间点的第二方向坐标，所述特征包括第二方向特征；所述提取所述轨迹数据的特征，包括：从所述轨迹数据中提取出所述不同时间点的第二方向坐标组成第二方向序列；根据所述第二方向序列构建第二方向特征群；提取所述第二方向特征群的所述第二方向特征。

在本公开的一种示例性实施例中，所述第二方向特征群包括所述第二方向序列的全段序列、折半序列、全段邻位差序列、全段邻位差的邻位差序列中的至少一种。

在本公开的一种示例性实施例中，所述第二方向特征包括以下特征中的至少一种：所述第二方向序列的全段序列的方差、平均值、中值；所述第二方向序列的折半序列的和值；所述第二方向序列的全段邻位差序列的方差；所述第二方向序列的全段邻位差的邻位差序列的方差。

在本公开的一种示例性实施例中，所述特征包括时间-第一方向特征；所述提取所述轨迹数据的特征，包括：从所述轨迹数据中提取出所述不同时间点组成时间序列；根据所述第一方向序列和所述时间序列获得时间-第一方向序列；提取所述时间-第一方向序列的时间-第一方向特征。

在本公开的一种示例性实施例中，所述时间-第一方向特征包括所述时间-第一方向序列的最大值、峰度、中值、方差、最小值中的至少一种。

在本公开的一种示例性实施例中，还包括：对所述第一方向序列、所述第二方向序列以及所述时间序列进行归一化。

在本公开的一种示例性实施例中，所述人机识别模型包括至少一个基础分类模型；所述将所述特征输入至训练好的人机识别模型，获得所述轨迹数据所属人机类别，包括：分别将所述特征输入至训练好的各个基础分类模型，获得各个基础分类模型输出的所述轨迹数据所属人机类别的概率值；根据各个基础分类模型输出的所述轨迹数据所属人机类别的概率值，获得所述人机识别模型输出的所述轨迹数据所属人机类别。

在本公开的一种示例性实施例中，所述至少一个基础分类模型包括CatBoost模型、XGBoost模型、RandomForest模型以及LogisticRegression模型中的至少一种。

根据本公开的一个方面，提供一种滑动验证码人机识别装置，包括：轨迹数据采集模块，配置为采集滑动验证码滑动过程中的轨迹数据；特征提取模块，配置为提取所述轨迹数据的特征；人机分类模块，配置为将所述特征输入至训练好的人机识别模型，获得所述轨迹数据所属人机类别。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本公开的滑动验证码人机识别方法及装置、电子设备及计算机可读介质，通过采集滑动验证码滑动过程中的轨迹数据；并提取所述轨迹数据的特征；之后将所述特征输入至训练好的人机识别模型，获得所述轨迹数据所属人机类别，能够自动识别滑动验证码滑动过程中的轨迹数据对应的轨迹是由人触发的还是由机器触发的，从而可以提高滑动验证的安全性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种滑动验证码人机识别方法及装置的系统框图。

图2是根据一示例性实施例示出的一种滑动验证码人机识别方法的流程图。

图3示出了图2中所示的步骤S220在一个实施例中的处理过程示意图。

图4示出了图2中所示的步骤S220在另一个实施例中的处理过程示意图。

图5示出了图2中所示的步骤S220在又一个实施例中的处理过程示意图。

图6示出了图2中所示的步骤S230在一个实施例中的处理过程示意图。

图7是根据另一示例性实施例示出的一种滑动验证码人机识别方法的流程图。

图8示出了图7中所示的步骤S720在一个实施例中的处理过程示意图。

图9示出在一个实施例中的多维特征之间的关系示意图。

图10示出在一个实施例中的构建多维特征体系的示意图。

图11示出了图7中所示的步骤S730在一个实施例中的处理过程示意图。

图12示出在一个实施例中的构建人机识别模型的示意图。

图13是根据一示例性实施例示出的一种滑动验证码人机识别装置的框图。

图14是根据一示例性实施例示出的一种电子设备的框图。

图15是根据一示例性实施例示出一种计算机可读存储介质示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

下面将借助于附图对本申请的具体内容进行详细的阐述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的社交平台软件提供页面支持的后台管理服务器。后台管理服务器可以对接收到的滑动验证码滑动过程中的轨迹等数据进行分析等处理，并将处理结果反馈给终端设备。

服务器105可以是一个实体的服务器，还可例如为多个服务器组成，服务器105可例如由代理服务器，负载均衡服务器，分析服务器，数据结构服务器，以及分布式数据库组成。

需要说明的是，本公开实施例所提供的滑动验证码人机识别方法可以由服务器105或者也可以由终端设备101、102、103执行，相应地，滑动验证码人机识别装置可以设置于服务器105或者终端设备101、102、103中。而提供给用户进行滑动滑动验证码的客户端一般位于终端设备101、102、103中。

如图2所示，本发明实施方式提供的滑动验证码人机识别方法可以包括以下步骤。

在步骤S210中，采集滑动验证码滑动过程中的轨迹数据。

在示例性实施例中，所述轨迹数据可以包括所述滑动过程中不同时间点t的第一方向坐标，所述特征可以包括第一方向特征。

在示例性实施例中，所述轨迹数据还可以包括所述滑动过程中不同时间点t的第二方向坐标，所述特征还可以包括第二方向特征。

在示例性实施例中，所述特征还可以包括时间-第一方向特征。

一般情况下，滑动验证码滑动至目标位置的轨迹主要为从左至右的横向滑动，因此，在下面的实施例中，以第一方向为横向即X方向、第二方向为纵向即Y方向为例进行说明，但本发明并不限定于此。在其他实施例中，如果更换了滑动验证码的滑动方式，例如滑动方式为从上至下的纵向滑动，此时，可以将第一方向认为是Y方向，第二方向是X方向。

在步骤S220中，提取所述轨迹数据的特征。

在步骤S230中，将所述特征输入至训练好的人机识别模型，获得所述轨迹数据所属人机类别。

在示例性实施例中，所述人机识别模型可以包括至少一个基础分类模型。

本发明实施方式提供的滑动验证码人机识别方法，通过采集滑动验证码滑动过程中的轨迹数据；并提取所述轨迹数据的特征；之后将所述特征输入至训练好的人机识别模型，获得所述轨迹数据所属人机类别，能够自动识别滑动验证码滑动过程中的轨迹数据对应的轨迹是由人触发的还是由机器触发的，从而可以提高滑动验证的安全性。

如图3所示，本发明实施例中，上述图2所示步骤S220可以进一步包括以下步骤。

在步骤S221中，从所述轨迹数据中提取出所述不同时间点的第一方向坐标组成第一方向序列。

在示例性实施例中，所述方法还可以包括：对所述第一方向序列进行归一化。

在步骤S222中，根据所述第一方向序列构建第一方向特征群。

在示例性实施例中，所述第一方向特征群可以包括所述第一方向序列的前半段序列、后半段序列、前半段邻位差序列、后半段邻位差序列、停止段序列等中的至少一种。

在步骤S223中，提取所述第一方向特征群的所述第一方向特征。

在示例性实施例中，所述第一方向特征可以包括以下特征中的至少一种：所述第一方向序列的前半段序列的最大值、峰度、中值和方差；所述第一方向序列的后半段序列的最小值、中值、方差、峰度和初始值；所述第一方向序列的前半段邻位差序列的最大值、最小值、中值、方差和峰度；所述第一方向序列的后半段邻位差序列的最大值、最小值、中值、方差和峰度；所述第一方向序列的停止段序列的方差和极差。

其中，本发明实施例中，峰度(peakedness；kurtosis)又称峰态系数，表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来，峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量，如果峰度大于三，峰的形状比较尖，比正态分布峰要陡峭。反之亦然。在统计学中，峰度衡量实数随机变量概率分布的峰态。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。

其中，极差又称范围误差或全距(Range)，以R表示，是用来表示统计资料中的变异量数(measures of variation)，其最大值与最小值之间的差距，即最大值减最小值后所得的数据。它是标志值变动的最大范围。

本发明实施例中，方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。

如图4所示，本发明实施例中，上述图2所示步骤S220可以进一步包括以下步骤。

在步骤S224中，从所述轨迹数据中提取出所述不同时间点的第二方向坐标组成第二方向序列。

在示例性实施例中，所述方法还可以包括：对所述第二方向序列进行归一化。

在步骤S225中，根据所述第二方向序列构建第二方向特征群。

在示例性实施例中，所述第二方向特征群可以包括所述第二方向序列的全段序列、折半序列、全段邻位差序列、全段邻位差的邻位差序列等中的至少一种。

在步骤S226中，提取所述第二方向特征群的所述第二方向特征。

在示例性实施例中，，所述第二方向特征可以包括以下特征中的至少一种：所述第二方向序列的全段序列的方差、平均值、中值；所述第二方向序列的折半序列的和值；所述第二方向序列的全段邻位差序列的方差；所述第二方向序列的全段邻位差的邻位差序列的方差。

如图5所示，本发明实施例中，上述图2所示步骤S220可以进一步包括以下步骤。

在步骤S227中，从所述轨迹数据中提取出所述不同时间点组成时间序列。

在示例性实施例中，所述方法还可以包括：对所述时间序列进行归一化。

在步骤S228中，根据所述第一方向序列和所述时间序列获得时间-第一方向序列。

在步骤S229中，提取所述时间-第一方向序列的时间-第一方向特征。

在示例性实施例中，所述时间-第一方向特征可以包括所述时间-第一方向序列的最大值、峰度、中值、方差、最小值中的至少一种。

如图6所示，本发明实施例中，上述图2所示步骤S230可以进一步包括以下步骤。

在步骤S231中，分别将所述特征输入至训练好的各个基础分类模型，获得各个基础分类模型输出的所述轨迹数据所属人机类别的概率值。

在示例性实施例中，所述至少一个基础分类模型包括CatBoost模型、XGBoost模型、RandomForest模型以及LogisticRegression模型中的至少一种。

其中，CatBoost具有提供分类列索引的灵活性，这样就可以使用one_hot_max_size将其编码为独热编码(对于所有具有小于或等于给定参数值的特征使用独热编码进行编码)。在CatBoost模型中可直接使用Categorical特征并减少了tuning的参数。XGBoost则是使用预分类算法(presorted algorithm)和基于直方图的算法来计算最佳分割。这里，实例意味着观察值/样本。RandomForest(随机森林)类似AdaBoost算法，但区别在于它没有迭代，还有就是森林里的树长度不限制。因为它是没有迭代过程的，不像AdaBoost那样需要迭代，不断更新每个样本以及子分类器的权重。因此模型相对简单点，不容易出现过拟合。LogisticRegression(逻辑回归)是机器学习中的一个模型，是一种分类模型(不是回归模型)。

在步骤S232中，根据各个基础分类模型输出的所述轨迹数据所属人机类别的概率值，获得所述人机识别模型输出的所述轨迹数据所属人机类别。

如图7所示，本发明实施方式提供的滑动验证码人机识别方法可以包括以下步骤。

在步骤S710中，采集轨迹数据。

本发明实施例中，采集用户(可能是机器也可能是人)轨迹数据(x，y，t)，即包括轨迹触发过程中，不同时间点t的横向坐标x和纵向坐标y。具体来说，就是获得用户在进行滑动验证码触发过程的轨迹记录，从而为滑动验证码特征体系的构建提供数据支持。

在步骤S720中，构建多维特征体系。

本发明实施例中，以构建的特征体系同时包括横向特征、纵向特征、时间-横向特征为例进行说明，但本发明并不限定于此，在其他实施例中，也可以包括横向特征、纵向特征、时间-横向特征中的任意一种或者两种为例。

本发明实施例中构建的多维特征体系的原理为：特征决定上限，模型只是无限接近于这个上限。攻击者通过黑产工具产生的类人轨迹，虽然在尽量的模仿人类产生的轨迹，但终究只是模仿。同时，通过对人类轨迹的分析理解，本发明实施例构建的横向特征基于对以下两种模式的发现：模式一，人类轨迹的末端折回现象；模式二，人类轨迹的远急近缓现象。因此，本发明实施例构建的多维特征体系的设计理念为“用特征描述“人”，而非用特征描述“机器”，寻二者之异，以达泛化目的”。本发明实施例构建的多维特征体系的设计思路为“结合模式一和模式二的发现，以横向特征为主，纵向特征为辅，时间-横向特征为补充”。

在步骤S730中，设计人机识别模型。

如图8所示，本发明实施例中，上述图7所示步骤S720可以进一步包括以下步骤。

在步骤S721中，构造横向特征群。

本发明实施例中，从轨迹数据(x，y，t)中提取出整个轨迹的横向坐标数据组成横向序列{x1,x2,...,xt,...,xn}。

在示例性实施例中，所述方法还可以包括：对该横向序列{x1,x2,...,xt,...,xn}进行归一化处理。

本发明实施例中，可以采用任意一种合适的方式对横向序列、纵向序列或者时间序列进行归一化，本发明对此不作限定。

在步骤S722中，结合模式一和模式二，提取横向特征群。

本发明实施例中，构建横向特征群X，结合模式二的发现，将横向轨迹分为前半段与后半段。模式二“远急近缓”表明人在滑动验证的过程中，在离目标点较远时速度较快，在离目标点较近时速度较慢。因此，横向特征群的构造上可以将横向轨迹分为前、后半段分别提取。

本发明实施例中，用横向特征X为主，描述人在进行滑动验证时的行为习惯，并用纵向特征Y为辅描述机器的特点，用时间-横向特征T作为补充描述人与机器的区别，三者的关系如图9所示。因为，X表示滑动验证码滑动过程中的横向拖动，在实际数据上的表现上及横向特征群X中包含的横向特征具有一定的规律性，而人在滑动滑动验证码的过程中，在Y上不具有纵向特征共性。

例如，提取横向特征群，可以包括横向轨迹的前半段序列x_front、后半段序列x_rear、前半段邻位差序列x_front_diff、后半段邻位差序列x_rear_diff。

本发明实施例中，还可以进一步结合模式一，构建提取停止段序列final_stop。

例如，可以取横向序列{x1,x2,...,xt,...,xn}中的前半段{x1,x2,...,x(n/2)}组成x_front，其中，n为大于等于1的正整数，n如果为奇数，则n/2向下取整。

再例如，可以取横向序列{x1,x2,...,xt,...,xn}中的后半段{xn/2,x(n/2+1),...,xn}组成x_rear，这里横向序列的前半段序列和后半段序列都包括x(n/2)这个数值，即这个组合序列，用于提取横向特征，前半段序列的终点值作为后半段序列的初始值。

再例如，可以取横向序列{x1,x2,...,xt,...,xn}中的前半段邻位差{x2-x1,x3-x2,...xn/2-x(n/2-1)}组成x_front_diff，即相邻两个轨迹点在横向X上的位置差。

再例如，可以取横向序列{x1,x2,...,xt,...,xn}中的后半段邻位差{x(n/2+1)-x(n/2)，...,x(n-1)-x(n-2),xn-x(n-1)}组成x_rear_diff。

再例如，可以结合模式一的末端折回现象，即人在进行滑动验证码验证时，在滑块超过目标位置时，为了矫正这个问题，人会拖动滑块折回取横向序列中的最后五分之一，因此，可以取{x(4n/5+1),...,xn-1,xn}组成停止段序列final_stop，此处n为大于5的正整数，如果n非5的倍数，则n/5向下取整。需要说明的是，并非所有的轨迹都能符合，此特征是针对大多数正常采样的数据进行提取的。如果采样数据异常，会做剔除，其中，正常采样点一般大于20(本发明并不限定于此)。

需要注意的是，上述五分之一为实际测试获得的一个经验阈值，可以根据实际需求进行调整。停止段序列的作用是，描述人在拖动滑动验证码的滑块时，最后在目标位置时会停止，等待验证结果。

在步骤S723中，提取横向特征群中的横向特征。

本发明实施例中，可以提取横向特征群中的横向特征，提取具有良好描述性的特征。从多维度设计特征体系中的横向特征，更好的为模型提供输入。

例如，对横向特征群组成序列x_front、x_rear、x_front_diff、x_rear_diff和final_stop分别计算最大值、峰度、中值、方差、最小值、极差等。

在步骤S724中，构造纵向特征群。

本发明实施例中，从轨迹数据(x，y，t)中提取出整个轨迹的纵向坐标数据组成纵向序列{y1,y2,...,yt,...,yn}。

在示例性实施例中，所述方法还可以包括：对该横向序列{y1,y2,...,yt,...,yn}进行归一化处理。

本发明实施例中，以横向特征X为主描述人，同时用纵向特征Y为辅描述机器。当横向特征X在某条轨迹的描述性较弱时，对机器具有良好描述性的纵向特征Y可以在模型判别中起到辅助作用。黑产工具(机器轨迹)尽量在模仿人的行为，上述步骤中所选用的横向特征(例如上述五个横向特征群)能识别绝大多数模仿能力一般的机器轨迹。例如，针对一些模仿了模式二的轨迹，X能有区分，但区分度不够，此时可以通过纵向特征Y进行进一步的区分。

在步骤S725中，提取纵向特征群，从多维度设计特征体系中的纵向特征，更好的为模型提供输入。

例如，提取纵向特征群，可以包括归一化后的纵向序列{y1,y2,...,yt,...,yn}的全段序列y＝{y1,y2,...,yt,...,yn}、折半序列y_half＝{y1-0.5,y2-0.5,...,yt-0.5,...,yn-0.5}、全段邻位差序列y_diff＝{y2-y1,y3-y2,...yn-y(n-1)}、全段邻位差的邻位差序列y_diff_diff＝{(y3-y2)-(y2-y1),...(yn-y(n-1))-(y(n-1)-y(n-2))}。

需要说明的是，这里取纵向序列中的全段减去0.5后组成y_half，因为纵向序列归一化后，0.5就变成了中间值，做特征选择时，对这个特征可视化后更加具有评断区分度的。

需要说明的是，本发明实施例中，纵向特征群采用不同于横向特征群的四个序列，是因为横向是拖动，纵向是抖动，这里不把纵向序列做前后段区分，是因为纵向序列的前后两段不具有差异性。此处是结合滑动验证的实际场景构建的特征体系，实际中，人的纵向抖动很无序，而机器则是具有规律性的。

在步骤S726中，提取纵向特征群中的纵向特征。

本发明实施例中，提取纵向特征群中的纵向特征。

例如，可以分别求取y、y_half、y_diff、y_diff_diff这四个序列的方差、平均值、极差、和值，其中，和值sum是将序列中的各个值相加求和获得的值。这里因为纵向抖动的特点，在y、y_half、y_diff、y_diff_diff这四个序列的最大值、峰度、中值、方差、最小值、极差上人机识别效果不好，经过实际识别效果验证之后选择了y、y_half、y_diff、y_diff_diff这四个序列的方差、平均值、极差、和值作为纵向特征。

在步骤S727中，构造时间特征群T。

本发明实施例中，从轨迹数据(x，y，t)中提取出整个轨迹的时间数据组成时间序列{t1,t2,......,tn}。

在示例性实施例中，所述方法还可以包括：对该时间序列{t1,t2,......,tn}进行归一化处理。

由于独立的时间序列只是采样标志，不具有良好的可解释性，但是它与X结合后的含义丰富，本发明实施例中，用时间特征T和横向特征X进行特征重构。

在步骤S728中，提取时间-横向特征群。

本发明实施例中，提取时间-横向特征群，可以利用归一化后的横向特征X减去归一化后的时间特征T，通过归一化进行特征重构得到具有良好描述性的特征。

例如，从轨迹数据(x，y，t)中提取出整个轨迹的横向坐标数据组成横向序列{x1,x2,...,xt,...,xn}和时间序列{t1,t2,...,tn}，分别进行归一化。然后，归一化后的横向序列{x1,x2,...,xt,...,xn}减去归一化后的时间序列{t1,t2,...,tn}获得时间-横向特征群{x1-t1,x2-t2,...,xt-tt,...,xn-tn}。

在步骤S729中，提取所述时间-横向特征群中的时间-横向特征。

例如，提取{x1-t1,x2-t2,...,xt-tt,...,xn-tn}的最大值、峰度、中值、方差、最小值、极差等中的任意一种或者多种。同时，利用归一化的X减T在另一层面上表示轨迹产生过程中的速度情况，提供给模型更好的特征输入。因为X进行了归一化，在归一化的基础上提取的特征，所以x-t可以理解为速度的另一种表示形式。

本发明实施例中提供的特征群、特征列表可以如下表1所示：

表1特征群、特征列表的示例

需要说明的是，上述表1中，之所以X后半段求取的是最小值，而X前半段求取的是最大值，因为后半段的最大值大部分是1，前半段的最小值大部分是0。这样取值，是想用特征表示，判断是否在滑动过程中具有异常行为。

上述表1中，X后半段序列的初始值是指x(n/2)，这是考虑到数据质量问题，并不是所有的轨迹都是一样的，有所区别，有一定的范围。

上述表1中，T归一化后大于0.7的部分对应的X段数据的方差，表示用0.7表示上文所说的横向序列中的最后五分之一，类似的，此处为阈值，可以更改和进行调整优化。

图10示出在一个实施例中的构建多维特征体系的示意图。

如图10所示，基于上述构建的多维特征体系，可以分别提取训练集和预测集的X特征、Y特征和T特征。其中，X特征类结合模式一和模式二，提取X特征群；Y特征类提取Y特征群；T特征类提取T特征群。

如图11所示，本发明实施例中，上述图7所示的步骤S730可以进一步包括以下步骤。

在步骤S731中，训练CatBoost模型，将构建的特征体系中的特征输入CatBoost算法中训练。

本发明实施例中，所述方法可以包括：训练CatBoost模型，即训练集根据上述构建的特征体系提取特征，并将提取的特征输入CatBoost算法中训练。

本发明实施例中，将上述特征体系中的带有人机标签的特征作为CatBoost算法的输入进行分类训练，即训练集中部分轨迹为人输入的轨迹，部分轨迹为机器输入的轨迹，分别打上标签进行训练；通过训练好的模型对未知的轨迹进行预测，得到轨迹分别属于人机的概率值。通过训练CatBoost模型得到人机识别模型的基础模型。

在步骤S732中，训练XGBoost模型，将构建的特征体系中的特征输入XGBoost算法中训练。

本发明实施例中，所述方法可以包括：训练XGBoost模型，即训练集根据上述构建的特征体系提取特征，并将提取的特征输入XGBoost算法中训练。

本发明实施例中，将上述特征体系中的带有人机标签的特征作为XGBoost算法的输入进行分类训练，即训练集中部分轨迹为人输入的轨迹，部分轨迹为机器输入的轨迹，分别打上标签进行训练；通过训练好的模型对未知的轨迹进行预测，得到轨迹分别属于人机的概率值。通过训练XGBoost模型得到人机识别模型的基础模型。

在步骤S733中，训练RandomForest模型，将构建的特征体系中的特征输入RandomForest算法中训练。

本发明实施例中，所述方法可以包括：训练RandomForest模型，即训练集根据上述构建的特征体系提取特征，并将提取的特征输入RandomForest算法中训练。

本发明实施例中，将上述特征体系中的带有人机标签的特征作为RandomForest算法的输入进行分类训练，即训练集中部分轨迹为人输入的轨迹，部分轨迹为机器输入的轨迹，分别打上标签进行训练；通过训练好的模型对未知的轨迹进行预测，得到轨迹分别属于人机的概率值。通过训练RandomForest模型得到人机识别模型的基础模型。

在步骤S734中，训练LogisticRegression模型，将构建的特征体系中的特征输入LogisticRegression算法中训练。

本发明实施例中，将上述特征体系中的带有人机标签的特征作为LogisticRegression算法的输入进行分类训练，即训练集中部分轨迹为人输入的轨迹，部分轨迹为机器输入的轨迹，分别打上标签进行训练；通过训练好的模型对未知的轨迹进行预测，得到轨迹分别属于人机的概率值。通过训练LogisticRegression模型得到人机识别模型的基础模型。选择这四种分类模型的好处是，CatBoost模型、XGBoost模型、RandomForest模型、LogisticRegression模型的算法实现原理不同，组合在一起人机识别效果会更好。

需要说明的是，上述实施例中以人机识别模型同时包括上述四种基础模型为例进行说明，但本发明并不限定于此，在其他实施例中，人机识别模型也可以选择其中一种或者两种或者三种基础模型。同时，上述四种基础模型并不限定为CatBoost模型、XGBoost模型、RandomForest模型、LogisticRegression模型，可以根据需求选用其他分类模型作为基础模型。

在步骤S735中，对CatBoost模型、XGBoost模型、RandomForest模型、LogisticRegression模型的训练输出进行线性加权，得到区分轨迹类别的概率值。

S15：对CatBoost模型、XGBoost模型、RandomForest模型、LogisticRegression模型的训练输出进行线性加权，得到区分轨迹类别的概率值；

例如，假设M1、M2、M3、M4分别为CatBoost模型、XGBoost模型、RandomForest模型、LogisticRegression模型的训练输出，则所述人机识别模型的训练输出可以为a1*M1+a2*M2+a3*M3+a4*M4，其中a1至a4为预设常数，例如均为0.25，但本发明并不限定于此。

本发明实施例中，应用多个分类算法，且每个分类算法的原理不同，从而每个基础分类模型判断某个轨迹所属人机类别的效果不同，线性加权可以使人机识别模型最终输出的概率值更加具有偏向性，即，更偏向人，还是更偏向机器。

图12示出在一个实施例中的构建人机识别模型的示意图。

如图12所示，将CatBoost模型、XGBoost模型、RandomForest模型、LogisticRegression模型的训练输出的概率值进行线性加权，得到由四个基础模型线性加权后的人机识别模型。通过对不同原理的基础分类模型对特征的学习，得到不同的概率值，通过线性加权的方式让人机识别模型输出的概率更能接近轨迹的真实类型。

本发明实施方式提供的滑动验证码人机识别方法，能够通过构建多维的有效的特征体系对滑动验证码的触发者进行识别，利用X特征类更好的描述人的特点，Y特征类有效的辅助描述机器的特点，T特征类补充特征体系的时间特征的完整性，从而确保验证码行为所保护的网络环境的安全。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

如图13所示，本发明实施方式提供的滑动验证码人机识别装置1300可以包括轨迹数据采集模块1310、特征提取模块1320以及人机分类模块1330。

轨迹数据采集模块1310可以配置为采集滑动验证码滑动过程中的轨迹数据。

特征提取模块1320可以配置为提取所述轨迹数据的特征。

在示例性实施例中，所述轨迹数据可以包括所述滑动过程中不同时间点的第一方向坐标，所述特征可以包括第一方向特征。

在示例性实施例中，特征提取模块1320可以进一步包括：第一方向序列提取单元，可以配置为从所述轨迹数据中提取出所述不同时间点的第一方向坐标组成第一方向序列；第一方向特征群构建单元，可以配置为根据所述第一方向序列构建第一方向特征群；第一方向特征提取单元，可以配置为提取所述第一方向特征群的所述第一方向特征。

在示例性实施例中，所述轨迹数据可以包括所述滑动过程中不同时间点的第二方向坐标，所述特征可以包括第二方向特征。

在示例性实施例中，特征提取模块1320可以进一步包括：第二方向序列提取单元，可以配置为从所述轨迹数据中提取出所述不同时间点的第二方向坐标组成第二方向序列；第二方向特征群构建单元，可以配置为根据所述第二方向序列构建第二方向特征群；第二方向特征提取单元，可以配置为提取所述第二方向特征群的所述第二方向特征。

在示例性实施例中，所述第二方向特征可以包括以下特征中的至少一种：所述第二方向序列的全段序列的方差、平均值、中值；所述第二方向序列的折半序列的和值；所述第二方向序列的全段邻位差序列的方差；所述第二方向序列的全段邻位差的邻位差序列的方差。

在示例性实施例中，所述特征可以包括时间-第一方向特征。

在示例性实施例中，特征提取模块1320可以进一步包括：时间序列提取单元，可以配置为从所述轨迹数据中提取出所述不同时间点组成时间序列；时间第一方向序列获得单元，可以配置为根据所述第一方向序列和所述时间序列获得时间-第一方向序列；时间第一方向特征提取单元，可以配置为提取所述时间-第一方向序列的时间-第一方向特征。

在示例性实施例中，所述时间-第一方向特征可以包括所述时间-第一方向序列的最大值、峰度、中值、方差、最小值等中的至少一种。

在示例性实施例中，滑动验证码人机识别装置1300还可以包括：归一化模块，可以配置为对所述第一方向序列、所述第二方向序列以及所述时间序列进行归一化。

人机分类模块1330可以配置为将所述特征输入至训练好的人机识别模型，获得所述轨迹数据所属人机类别。

在示例性实施例中，人机分类模块1330可以进一步包括：基础概率值获得单元，可以配置为分别将所述特征输入至训练好的各个基础分类模型，获得各个基础分类模型输出的所述轨迹数据所属人机类别的概率值；人机类别输出单元，可以配置为根据各个基础分类模型输出的所述轨迹数据所属人机类别的概率值，获得所述人机识别模型输出的所述轨迹数据所属人机类别。

在示例性实施例中，所述至少一个基础分类模型可以包括CatBoost模型、XGBoost模型、RandomForest模型以及LogisticRegression模型等中的至少一种。

图14是根据一示例性实施例示出的一种电子设备的框图。

下面参照图14来描述根据本公开的这种实施方式的电子设备200。图14显示的电子设备200仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图14所示，电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于：至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元210执行，使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元210可以执行如图2，图4，图5中所示的步骤。

所述存储单元220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202，还可以进一步包括只读存储单元(ROM)2203。

所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204，这样的程序模块2205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

图15示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。

参考图15所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品400，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：采集滑动验证码滑动过程中的轨迹数据；提取所述轨迹数据的特征；将所述特征输入至训练好的人机识别模型，获得所述轨迹数据所属人机类别。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种滑动验证码人机识别方法，其特征在于，包括：

采集滑动验证码滑动过程中的轨迹数据；

提取所述轨迹数据的特征；

将所述特征输入至训练好的人机识别模型，获得所述轨迹数据所属人机类别。

2.如权利要求1所述的方法，其特征在于，所述轨迹数据包括所述滑动过程中不同时间点的第一方向坐标，所述特征包括第一方向特征；所述提取所述轨迹数据的特征，包括：

从所述轨迹数据中提取出所述不同时间点的第一方向坐标组成第一方向序列；

根据所述第一方向序列构建第一方向特征群；

提取所述第一方向特征群的所述第一方向特征。

3.如权利要求2所述的方法，其特征在于，所述第一方向特征群包括所述第一方向序列的前半段序列、后半段序列、前半段邻位差序列、后半段邻位差序列、停止段序列中的至少一种。

4.如权利要求3所述的方法，其特征在于，所述第一方向特征包括以下特征中的至少一种：

所述第一方向序列的前半段序列的最大值、峰度、中值和方差；

所述第一方向序列的后半段序列的最小值、中值、方差、峰度和初始值；

所述第一方向序列的前半段邻位差序列的最大值、最小值、中值、方差和峰度；

所述第一方向序列的后半段邻位差序列的最大值、最小值、中值、方差和峰度；

所述第一方向序列的停止段序列的方差和极差。

5.如权利要求1至4任一项所述的方法，其特征在于，所述轨迹数据包括所述滑动过程中不同时间点的第二方向坐标，所述特征包括第二方向特征；所述提取所述轨迹数据的特征，包括：

从所述轨迹数据中提取出所述不同时间点的第二方向坐标组成第二方向序列；

根据所述第二方向序列构建第二方向特征群；

提取所述第二方向特征群的所述第二方向特征。

6.如权利要求5所述的方法，其特征在于，所述第二方向特征群包括所述第二方向序列的全段序列、折半序列、全段邻位差序列、全段邻位差的邻位差序列中的至少一种。

7.如权利要求6所述的方法，其特征在于，所述第二方向特征包括以下特征中的至少一种：

所述第二方向序列的全段序列的方差、平均值、中值；

所述第二方向序列的折半序列的和值；

所述第二方向序列的全段邻位差序列的方差；

所述第二方向序列的全段邻位差的邻位差序列的方差。

8.如权利要求5所述的方法，其特征在于，所述特征包括时间-第一方向特征；所述提取所述轨迹数据的特征，包括：

从所述轨迹数据中提取出所述不同时间点组成时间序列；

根据所述第一方向序列和所述时间序列获得时间-第一方向序列；

提取所述时间-第一方向序列的时间-第一方向特征。

9.如权利要求8所述的方法，其特征在于，所述时间-第一方向特征包括所述时间-第一方向序列的最大值、峰度、中值、方差、最小值中的至少一种。

10.如权利要求8所述的方法，其特征在于，还包括：

对所述第一方向序列、所述第二方向序列以及所述时间序列进行归一化。

11.如权利要求1所述的方法，其特征在于，所述人机识别模型包括至少一个基础分类模型；所述将所述特征输入至训练好的人机识别模型，获得所述轨迹数据所属人机类别，包括：

分别将所述特征输入至训练好的各个基础分类模型，获得各个基础分类模型输出的所述轨迹数据所属人机类别的概率值；

根据各个基础分类模型输出的所述轨迹数据所属人机类别的概率值，获得所述人机识别模型输出的所述轨迹数据所属人机类别。

12.如权利要求11所述的方法，其特征在于，所述至少一个基础分类模型包括CatBoost模型、XGBoost模型、RandomForest模型以及LogisticRegression模型中的至少一种。

13.一种滑动验证码人机识别装置，其特征在于，包括：

轨迹数据采集模块，配置为采集滑动验证码滑动过程中的轨迹数据；

特征提取模块，配置为提取所述轨迹数据的特征；

人机分类模块，配置为将所述特征输入至训练好的人机识别模型，获得所述轨迹数据所属人机类别。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-12中任一所述的方法。

15.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-12中任一所述的方法。