CN110879881A

CN110879881A - 基于特征组分层和半监督随机森林的鼠标轨迹识别方法

Info

Publication number: CN110879881A
Application number: CN201911120434.4A
Authority: CN
Inventors: 王茜竹; 康璐璐; 范兴容; 杨晓雅; 明蕊
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-03-13
Anticipated expiration: 2039-11-15
Also published as: CN110879881B

Abstract

本发明涉及大数据分析应用领域，特别是涉及一种基于特征组分层和半监督随机森林的鼠标轨迹识别方法，包括获取鼠标轨迹数据；根据鼠标轨迹数据建立描述人类轨迹特性的基础特征组和强化人机轨迹差异性的辅助特征组；训练多个单视角随机森林模型对未标记样本进行伪标记，筛选出在分类器中达到规定条件的样本，对这些样本进行随机抽取并加入到标记样本中进行分类器的迭代训练；使用扩充样本集的基础特征组和辅助特征组训练多视角随机森林模型，将实时数据输入该模型，判断该操作是人类行为还是机器行为；本发明从海量鼠标轨迹行为中进行人机识别，还能解决鼠标轨迹特征挖掘不充分、数据不平衡、标记样本少等问题，极大地提高了识别性能和识别效率。

Description

基于特征组分层和半监督随机森林的鼠标轨迹识别方法

技术领域

本发明涉及大数据分析应用领域，特别涉及一种基于特征组分层和半监督随机森林的鼠标轨迹识别方法。

背景技术

现代社会信息化发展节奏逐渐加快，网络安全问题也日益凸显，如，不法分子利用机器人程序自动完成注册、登录、恶意尝试密码等。在这种大环境下，作为互联毛细血管的验证码被赋予了维护网络安全的责任。验证码是用来区分操作对象是人类还是机器的一种技术，它在拦截计算机自动化程序大批量的恶意行为方面，具有非常好的效果，因而许多网站都采用了验证码技术来提高网站的安全性、稳定性、可靠性以及防御网络攻击的能力。

拖拽式验证码是当前应用的比较多的一种验证码，它的使用方式是引导用户通过鼠标拖拽的方式将滑块放到缺失的位置。此类验证码不仅用户使用起来简单，而且极大增加了机器程序破解难度。但攻击者仍可通过非正常手段模拟人类操作行为，绕过验证码的检测，从而黑客工具就可以向系统后台发起批量请求，实现对系统的攻击，从而给系统的正常运行带来很大的风险。因此，如何从海量用户数据中有效检出各种机器行为成为亟待解决的问题。

拖拽式验证码产生的鼠标轨迹是用户进行注册或登录时使用鼠标拖动滑块过程中采样获得的水平方向、垂直方向和时间三个维度的轨迹点集。相较于传统的时间序列数据，鼠标轨迹时间序列数据具有以下六个特点：(1)多变量，即鼠标轨迹包括水平方向x轴、垂直方向y轴和时间t轴3个维度；(2)不规则采样，即由于网络延时等原因，使得每个采样点之间时长不同；(3)长度不等，即由于鼠标轨迹采样间隔不定，导致每一条轨迹的长度不等；(4)变量之间存在关联性，即x-y-t三个维度在时间和空间上存在关联性；(5)数据不平衡，即人类轨迹样本数远多于机器轨迹样本数；(6)标记样本少，即考虑到标记数据获取困难、标记代价高等问题，导致样本数量少。因此，在机器学习领域中，对拖拽式验证码的鼠标轨迹识别可以看作为一种特殊的、以人和机器为标签的时间序列二分类问题，也是一个典型的人机识别问题。

对于这样一种不规则采样、长度不等的时间序列分类问题，目前主要有两类解决方法，第一类是基于模型的方法，该方法的基本思想是将不规则的时间序列转换为规则序列，再使用传统分类器进行分类，但此方法一般都基于二维时间序列，且没有提出数据不平衡、标记样本少时的处理方法，因此不适用于本文鼠标轨迹数据所具有的多变量、变量之间存在关联性、数据不平衡、标记样本少等实际情况。第二类是基于特征的方法，通过选取一组特征来表征时间序列的信息，以此解决时间序列不规则问题，然后在使用机器学习算法进行分类，但这类方法都未能解决数据不平衡、标记样本少等实际问题，且特征工程挖掘不充分，识别效果有限。

发明内容

为解决传统研究方法的不足，本发明针对实际应用及业务场景需求，提出一种基于特征组分层和半监督随机森林的鼠标轨迹识别方法，包括：

S1、获取用户进行操作时鼠标的轨迹数据；

S2、将采集的鼠标轨迹数据中20％作为标记样本集L，80％作为未标记样本集U；`

S3、构建并提取鼠标轨迹特征，包括描述人类轨迹特性的基础特征组和强化人机轨迹差异性的辅助特征组；

S4、将标记样本集L以bootstrap的方式采样N份，使用这N份样本集的基础特征组训练多个单视角随机森林分类器{R₁,R₂,...,R_N}；

S5、用训练好的N个分类器分别对原始标记样本集进行预测，计算分类器当前分类误差率e，若e>e'，则直接输出扩充后的标记样本集L并转到步骤S9，否则转到S6；

S6、用训练好的N个分类器分别对未标记样本集U进行预测，计算未标记样本集U中的每个未标记样本x_u在N个分类器中的预测置信度和伪标签；

S7、根据预测置信度和伪标签筛选未标记样本，按照标记样本的类别比率对其进行随机抽取，将抽取到的未标记样本及其伪标签加入到标记样本中，进行标记样本的更新，并将这些样本从未标记样本集U中剔除；

S8、如果标记样本的数量不再改变满足终止条件，则停止迭代，输出扩充后的标记样本集；如果不满足，则重复S4～S7；

S9、使用扩充样本集的基础特征组和辅助特征组训练多视角随机森林模型，将实时鼠标轨迹数据输入完成训练的多视角随机森林模型，完成对鼠标轨迹的人机识别；

其中，e'为分类器在上一次迭代的误差率。

进一步的，获取用户进行操作时鼠标的轨迹数据包括采集m个用户从开始操作验证码到结束的鼠标轨迹，得到轨迹数据D＝[S₁,S₂,...,S_m]，每条轨迹S_i都包含采样时间t_i＝[t_i1,t_i2,...t_i|si|]以及相应的水平坐标x_i＝[x_i1,x_i2,...x_i|si|]和垂直坐标y_i＝[y_i1,y_i2,...y_i|si|]，轨迹目标点坐标(x_a，y_a)以及类别标签label，当类别标签label＝0时表示机器轨迹，当类别标签label＝1时表示人类轨迹。

进一步的，根据预测置信度和伪标签筛选未标记样本包括：

样本x_u在N个分类器中的伪标签一致，即pl₁(x_u)＝pl₂(x_u)＝...＝pl_N(x_u)；

且样本x_u在N个分类器中的预测置信度大于阈值参数θ的个数至少有N/2个。

进一步的，按照标记样本的类别比率对其进行随机抽取包括：

若标记样本中人类样本和机器样本的比率为β，满足筛选条件的未标记样本中人类样本集B₁和机器样本集B₂的数量分别b₁和b₂，则人类样本、机器样本的抽样个数以及要添加到标记样本的人类样本集和机器样本集表示为：

b₂′＝b₂；

B_i′＝subsample(b_i′,B_i),(i＝1,2)；

其中，b₁′表示人类样本的抽样个数；b₂′表示机器样本的抽样个数；B₁'添加进标记样本中的人类样本集；B₂'添加进标记样本中的机器样本集；subsample(b,B)表示在B集中随机抽取b个样本。

本发明通过一种特征组分层策略和半监督随机森林的鼠标轨迹识别方法，在特征层面，根据不同视角特征在不同阶段所起的作用构建有层次的特征组并分层添加进模型，避免在训练样本过少的情况下盲目添加特征引起模型过拟合；在数据层面，利用半监督学习方法扩充训练样本，解决数据类别不平衡、标记样本不足的问题；最后将二者融合达到提升鼠标轨迹识别效果的目的。

附图说明

图1是本发明方法的流程图；

图2是本发明方法的数据集划分方式；

图3是人类鼠标轨迹的移动特征；

图4是参数N和参数θ对鼠标轨迹识别性能的影响。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于特征组分层和半监督随机森林的鼠标轨迹识别方法，如图1(其中v1代表人类轨迹特性，即基础特征组；v2表示人机轨迹差异性，即辅助特征组)，包括以下步骤：

S1、获取用户进行操作时鼠标的轨迹数据；

S2、将采集的鼠标轨迹数据中20％作为标记样本集L，80％作为未标记样本集U；

S4、将标记样本集L以bootstrap的方式采样N份，使用这N份样本集的基础特征组训练多个单视角随机森林分类器{R₁,R₂,...,R_N}；；

S5、用训练好的N个分类器分别对原始标记样本集进行预测，计算分类器的分类误差率e，若上一次迭代的误差率为e'，若e>e'，则直接输出扩充后的标记样本集L并转到步骤S8，否则转到S9；

S8、如果满足终止条件，则停止迭代，输出扩充后的标记样本集；如果不满足，则重复S4～S7；

S9、使用扩充样本集的基础特征组和辅助特征组训练多视角随机森林模型，将实时鼠标轨迹数据输入完成训练的多视角随机森林模型，完成对鼠标轨迹的人机识别

其中，bootstrap指自助采样法。

在本实施例中，数据来源于某人机验证产品采集的鼠标轨迹，经过脱敏处理后转换为本发明的数据集D，鼠标轨迹数据字段说明如表1所示，其数据样本示例如表2所示。

表1鼠标轨迹数据字段说明

字段	字段说明	字段解释
			id	鼠标轨迹唯一编号	区分不同鼠标轨迹的识别码
x	鼠标轨迹水平坐标	鼠标移动过程中采样获得的水平坐标
			y	鼠标轨迹垂直坐标	鼠标移动过程中采样获得的垂直坐标
t	鼠标轨迹采样时间	捕获鼠标移动行为的时间
			x<sub>a</sub>	轨迹目标点水平坐标	鼠标轨迹目标点的水平坐标
y<sub>a</sub>	轨迹目标点垂直坐标	鼠标轨迹目标点的垂直坐标
			label	类别标签	1:人类轨迹,0:机器轨迹

表2鼠标轨迹数据实例

表2中给出两个实例，第一列是鼠标轨迹的id，表2给出鼠标轨迹唯一编号为597和2991的两个鼠标轨迹；第二列是根据在采样时间t₁采集的鼠标轨迹水平坐标x₁、在采样时间t₁采集的鼠标轨迹垂直坐标y₁、采样时间t₁为一组的鼠标轨迹信息；第三列为该鼠标轨迹的目标坐标，包括鼠标轨迹目标点的水平坐标以及鼠标轨迹目标点的垂直坐标；第四列表示该鼠标轨迹的类别标签，当该标签的值label＝1，表示该轨迹为人类轨迹，当该标签的值label＝0表示机器轨迹。

将数据D分为训练集和测试集，本发明使用的训练集有3000条，测试集有10000条，具体划分方式如图2所示，其中训练集中20％作为标记样本L，80％作为未标记样本U。

提取鼠标轨迹识别特征，包括描述人类轨迹特性的基础特征组和强化人机轨迹差异性的辅助特征组。基础特征组基于人类鼠标轨迹特性的角度构建，如图3，因为人类轨迹特征具有较好的稳定性，主要体现在三个方面：

(1)拟合过程，即人拖动滑块接近目标位置时会缓慢将滑块放到缺失位置；

(2)无规律性，即人的移动速度和移动间隔不停变化；

(3)回退现象，即人拖动滑块接近目标位置时会由于惯性拖离目标点在重新拖动回来；

根据以上三个方面，本实施例提取的描述人类轨迹特性的基础特征组的特征，如表3，包括：

鼠标轨迹水平坐标最大值与目标值之差x_ovs和水平坐标最大值与最小值之差x_differ；

鼠标轨迹水平坐标一阶差分最小值dx_min和水平坐标一阶差分标准差dx_std；

回退轨迹水平坐标一阶差分最小值dx'_min和回退轨迹水平坐标一阶差分中程数dx'_mid；

回退轨迹速度最大值v'_max和回退轨迹速度末尾值v'_end；

回退轨迹速度一阶差分最大值dv'_max和回退轨迹点个数x'_num；

其中，回退轨迹为拖离目标点后重新拖动回来产生的轨迹，无回退轨迹则取轨迹后10个点。

辅助特征组是基于强化人机轨迹差异的角度去构建的，主要提取不具有明显的人机差异性，但在数据规模较大时依然不能忽略的特征(如y维度和t维度的特征)，用于辅助判断，增加轨迹识别置信度。如表3，提取的辅助特征有：

垂直坐标最小值y_min和垂直坐标改变次数y_chg；

垂直坐标一阶差分初始值dy_init；

采样时间初始值init，采样时间中位数t_med和鼠标第一次移动到目标点所需时间t_aim；

采样时间一阶差分初始值dt_init。

将标记样本集L以bootstrap的方式采样N份，使用这N份样本集的基础特征组训练多个单视角随机森林分类器{R₁,R₂,...,R_N}。

表3鼠标轨迹识别所用特征

用训练好的N个分类器分别对原始标记样本集进行预测，计算分类器的分类误差率e；设上一轮迭代的误差率为e'(初始值为0.5)，若e>e'，则直接输出扩充后的标记样本集L并进行多视角随机森林模型训练，否则更新标记样本集。

更新标记样本集的过程包括用训练好的N个分类器分别对未标记样本集U进行预测，计算U中的每个未标记样本x_u在N个分类器中的预测置信度和伪标签，筛选出满足特定条件的未标记样本，再按照标记样本的类别比率对这些样本进行随机抽取，将抽取到的未标记样本及其伪标签加入到标记样本中，进行标记样本的更新，并将这些样本从U中剔除(L中的样本量逐渐增大，U中的样本量逐渐减小)，其中，未标记样本x_u在N个分类器中的预测置信度和伪标签计算过程为：

设第n个随机森林分类器R_n＝{f₁,f₂,...,f_d,...,f_D}，f_d为决策树，D为决策树个数。则把样本x_u预测为k类的概率为：

其中p_d(k|x_u)为第d棵决策树中叶节点的类别预测概率，则样本在第n个分类器中的预测置信度定义为:

其中C代表样本类别集合，取值为0和1，分别代表机器轨迹和人类轨迹。

样本在第n个分类器中的伪标签为：

则样本分别在N个分类器的预测置信度和伪标签为:

[Con_n(x_u),pl_n(x_u)](n＝1,2,...,N).

根据预测置信度和伪标签筛选未标记样本包括：

按照标记样本的类别比率对满足条件的未标记样本进行随机抽取的原因是为了达到标记样本类别的平衡。由于在鼠标识别场景中人类轨迹远多于机器轨迹，如果将所有满足条件的未标记样本全部添加，可能会因为标记样本类别不平衡导致分类器性能越来越差。为了达到类别平衡的目的，按照标记样本的类别比率对样本进行抽取，通过逐步缩小多数类使数据趋于平衡。具体做法为：

若标记样本中人类样本和机器样本的比率为β，满足条件的未标记样本中人类样本集B₁和机器样本集B₂的数量分别b₁和b₂，则人类样本、机器样本的抽样个数以及要添加到标记样本的人类样本集和机器样本集表示为：

b₂′＝b₂；

B_i′＝subsample(b_i′,B_i),(i＝1,2)；

为了评估模型的准确性，本方法采用查准率P、查全率R和调和均值F_α作为模型评价指标，计算方式为：

其中TP为被正确识别为机器轨迹的样本数；FP为被错误识别为机器轨迹的样本数；FN为被错误识别为人类轨迹的样本数。

F_α是P和R的调和均值，其中α<1，表示适当偏重查全率(避免漏识别机器轨迹导致不可挽回的损失)。

图4所示为分类器个数N和置信度阈值θ在不同取值下鼠标轨迹的识别结果，从图中可以看出,当N＝3,θ＝0.8时,算法在查全率、查准率和调和均值上都具有较好的性能。

为了说明本发明所提方法的识别性能,将传统的基于随机森林和基于半监督随机森林的鼠标轨迹识别方法在相同的数据集下进行了仿真实验。结果如表2所示。

表2鼠标轨迹识别方法性能比较

方法	查准率P(％)	查全率	调和均值F<sub>α</sub>(％)
				随机森林模型	99.75	70.25	85.41
半监督随机森林模型	95.43	89.45	92.95
				本发明方法	97.52	94.09	96.12

由表2可以看出，采用随机森林算法的模型查准率很高,达到了99.75％,但查全率相比查准率而言差距明显，只有70.25％，导致F_α值较低。与有监督随机森林模型相比,半监督随机森林模型的查全率和F_α值分别提高了(19.2％,7.54％)，说明在鼠标轨迹识别中采用半监督学习能提高模型识别性能，原因是半监督学习能够扩充鼠标轨迹训练集，解决了鼠标轨迹数据不平衡、标记样本不足的问题，因而识别性能得到了提升。

还可以看到，本发明所提出方法在测试样本集上的查准率、查全率和调和均值较半监督随机森林模型分别提高了(2.09％,4.64％,3.17％)，这说明在半监督学习的基础上引入特征组分层策略在鼠标轨迹识别中能够降低应盲目添加特征而引起的模型过拟合。

从技术角度看，本发明是一种基于特征组分层策略和半监督随机森林的鼠标轨迹识别方法。与现有方法相比较，在特征层面，根据不同视角特征在不同阶段所起的作用构建有层次的特征组并分层添加进模型，避免在训练样本过少的情况下盲目添加特征引起模型过拟合；在数据层面，利用半监督学习方法扩充训练样本，解决数据类别不平衡、标记样本不足的问题；最后将二者融合达到提升鼠标轨迹识别效果的目的。

输出扩充后的标记样本集后，使用扩充样本集的基础特征组和辅助特征组训练多视角随机森林模型，将实时鼠标轨迹数据输入完成训练的多视角随机森林模型，完成对鼠标轨迹的人机识别。

领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于特征组分层和半监督随机森林的鼠标轨迹识别方法，其特征在于，包括以下步骤：

S1、获取用户进行操作时鼠标的轨迹数据；

其中，e'为分类器在上一次迭代的误差率。

2.根据权利要求1所述的基于特征组分层和半监督随机森林的鼠标轨迹识别方法，其特征在于，获取用户进行操作时鼠标的轨迹数据包括采集m个用户从开始操作验证码到结束的鼠标轨迹，得到轨迹数据D＝[S₁,S₂,...,S_m]，每条轨迹S_i都包含采样时间t_i＝[t_i1,t_i2,...t_i|si|]以及相应的水平坐标x_i＝[x_i1,x_i2,...x_i|si|]和垂直坐标y_i＝[y_i1,y_i2,...y_i|si|]，轨迹目标点坐标(x_a，y_a)以及类别标签label，当类别标签label＝0时表示机器轨迹，当类别标签label＝1时表示人类轨迹。

3.根据权利要求1所述的基于特征组分层和半监督随机森林的鼠标轨迹识别方法，其特征在于，描述人类轨迹特性的基础特征组的特征包括：

回退轨迹速度最大值v'_max和回退轨迹速度末尾值v'_end；

回退轨迹速度一阶差分最大值dv'_max和回退轨迹点个数x'_num；

其中，回退轨迹为拖离目标点后重新拖动回来产生的轨迹,无回退轨迹则取轨迹尾部10个点。

4.根据权利要求1所述的基于特征组分层和半监督随机森林的鼠标轨迹识别方法，其特征在于，强化人机轨迹差异性的辅助特征组的特征包括：

垂直坐标最小值y_min和垂直坐标改变次数y_chg；

垂直坐标一阶差分初始值dy_init；

采样时间一阶差分初始值dt_init。

5.根据权利要求1所述的基于特征组分层和半监督随机森林的鼠标轨迹识别方法，其特征在于，未标记样本x_u在第n个分类器中的预测置信度和伪标签表示为：