CN110879881A - 基于特征组分层和半监督随机森林的鼠标轨迹识别方法 - Google Patents

基于特征组分层和半监督随机森林的鼠标轨迹识别方法 Download PDF

Info

Publication number
CN110879881A
CN110879881A CN201911120434.4A CN201911120434A CN110879881A CN 110879881 A CN110879881 A CN 110879881A CN 201911120434 A CN201911120434 A CN 201911120434A CN 110879881 A CN110879881 A CN 110879881A
Authority
CN
China
Prior art keywords
track
samples
sample
mouse
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911120434.4A
Other languages
English (en)
Other versions
CN110879881B (zh
Inventor
王茜竹
康璐璐
范兴容
杨晓雅
明蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201911120434.4A priority Critical patent/CN110879881B/zh
Publication of CN110879881A publication Critical patent/CN110879881A/zh
Application granted granted Critical
Publication of CN110879881B publication Critical patent/CN110879881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/36User authentication by graphic or iconic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Abstract

本发明涉及大数据分析应用领域,特别是涉及一种基于特征组分层和半监督随机森林的鼠标轨迹识别方法,包括获取鼠标轨迹数据;根据鼠标轨迹数据建立描述人类轨迹特性的基础特征组和强化人机轨迹差异性的辅助特征组;训练多个单视角随机森林模型对未标记样本进行伪标记,筛选出在分类器中达到规定条件的样本,对这些样本进行随机抽取并加入到标记样本中进行分类器的迭代训练;使用扩充样本集的基础特征组和辅助特征组训练多视角随机森林模型,将实时数据输入该模型,判断该操作是人类行为还是机器行为;本发明从海量鼠标轨迹行为中进行人机识别,还能解决鼠标轨迹特征挖掘不充分、数据不平衡、标记样本少等问题,极大地提高了识别性能和识别效率。

Description

基于特征组分层和半监督随机森林的鼠标轨迹识别方法
技术领域
本发明涉及大数据分析应用领域,特别涉及一种基于特征组分层和半监督随机森林的鼠标轨迹识别方法。
背景技术
现代社会信息化发展节奏逐渐加快,网络安全问题也日益凸显,如,不法分子利用机器人程序自动完成注册、登录、恶意尝试密码等。在这种大环境下,作为互联毛细血管的验证码被赋予了维护网络安全的责任。验证码是用来区分操作对象是人类还是机器的一种技术,它在拦截计算机自动化程序大批量的恶意行为方面,具有非常好的效果,因而许多网站都采用了验证码技术来提高网站的安全性、稳定性、可靠性以及防御网络攻击的能力。
拖拽式验证码是当前应用的比较多的一种验证码,它的使用方式是引导用户通过鼠标拖拽的方式将滑块放到缺失的位置。此类验证码不仅用户使用起来简单,而且极大增加了机器程序破解难度。但攻击者仍可通过非正常手段模拟人类操作行为,绕过验证码的检测,从而黑客工具就可以向系统后台发起批量请求,实现对系统的攻击,从而给系统的正常运行带来很大的风险。因此,如何从海量用户数据中有效检出各种机器行为成为亟待解决的问题。
拖拽式验证码产生的鼠标轨迹是用户进行注册或登录时使用鼠标拖动滑块过程中采样获得的水平方向、垂直方向和时间三个维度的轨迹点集。相较于传统的时间序列数据,鼠标轨迹时间序列数据具有以下六个特点:(1)多变量,即鼠标轨迹包括水平方向x轴、垂直方向y轴和时间t轴3个维度;(2)不规则采样,即由于网络延时等原因,使得每个采样点之间时长不同;(3)长度不等,即由于鼠标轨迹采样间隔不定,导致每一条轨迹的长度不等;(4)变量之间存在关联性,即x-y-t三个维度在时间和空间上存在关联性;(5)数据不平衡,即人类轨迹样本数远多于机器轨迹样本数;(6)标记样本少,即考虑到标记数据获取困难、标记代价高等问题,导致样本数量少。因此,在机器学习领域中,对拖拽式验证码的鼠标轨迹识别可以看作为一种特殊的、以人和机器为标签的时间序列二分类问题,也是一个典型的人机识别问题。
对于这样一种不规则采样、长度不等的时间序列分类问题,目前主要有两类解决方法,第一类是基于模型的方法,该方法的基本思想是将不规则的时间序列转换为规则序列,再使用传统分类器进行分类,但此方法一般都基于二维时间序列,且没有提出数据不平衡、标记样本少时的处理方法,因此不适用于本文鼠标轨迹数据所具有的多变量、变量之间存在关联性、数据不平衡、标记样本少等实际情况。第二类是基于特征的方法,通过选取一组特征来表征时间序列的信息,以此解决时间序列不规则问题,然后在使用机器学习算法进行分类,但这类方法都未能解决数据不平衡、标记样本少等实际问题,且特征工程挖掘不充分,识别效果有限。
发明内容
为解决传统研究方法的不足,本发明针对实际应用及业务场景需求,提出一种基于特征组分层和半监督随机森林的鼠标轨迹识别方法,包括:
S1、获取用户进行操作时鼠标的轨迹数据;
S2、将采集的鼠标轨迹数据中20%作为标记样本集L,80%作为未标记样本集U;`
S3、构建并提取鼠标轨迹特征,包括描述人类轨迹特性的基础特征组和强化人机轨迹差异性的辅助特征组;
S4、将标记样本集L以bootstrap的方式采样N份,使用这N份样本集的基础特征组训练多个单视角随机森林分类器{R1,R2,...,RN};
S5、用训练好的N个分类器分别对原始标记样本集进行预测,计算分类器当前分类误差率e,若e>e',则直接输出扩充后的标记样本集L并转到步骤S9,否则转到S6;
S6、用训练好的N个分类器分别对未标记样本集U进行预测,计算未标记样本集U中的每个未标记样本xu在N个分类器中的预测置信度和伪标签;
S7、根据预测置信度和伪标签筛选未标记样本,按照标记样本的类别比率对其进行随机抽取,将抽取到的未标记样本及其伪标签加入到标记样本中,进行标记样本的更新,并将这些样本从未标记样本集U中剔除;
S8、如果标记样本的数量不再改变满足终止条件,则停止迭代,输出扩充后的标记样本集;如果不满足,则重复S4~S7;
S9、使用扩充样本集的基础特征组和辅助特征组训练多视角随机森林模型,将实时鼠标轨迹数据输入完成训练的多视角随机森林模型,完成对鼠标轨迹的人机识别;
其中,e'为分类器在上一次迭代的误差率。
进一步的,获取用户进行操作时鼠标的轨迹数据包括采集m个用户从开始操作验证码到结束的鼠标轨迹,得到轨迹数据D=[S1,S2,...,Sm],每条轨迹Si都包含采样时间ti=[ti1,ti2,...ti|si|]以及相应的水平坐标xi=[xi1,xi2,...xi|si|]和垂直坐标yi=[yi1,yi2,...yi|si|],轨迹目标点坐标(xa,ya)以及类别标签label,当类别标签label=0时表示机器轨迹,当类别标签label=1时表示人类轨迹。
进一步的,根据预测置信度和伪标签筛选未标记样本包括:
样本xu在N个分类器中的伪标签一致,即pl1(xu)=pl2(xu)=...=plN(xu);
且样本xu在N个分类器中的预测置信度大于阈值参数θ的个数至少有N/2个。
进一步的,按照标记样本的类别比率对其进行随机抽取包括:
若标记样本中人类样本和机器样本的比率为β,满足筛选条件的未标记样本中人类样本集B1和机器样本集B2的数量分别b1和b2,则人类样本、机器样本的抽样个数以及要添加到标记样本的人类样本集和机器样本集表示为:
Figure BDA0002275316790000041
b2′=b2
Bi′=subsample(bi′,Bi),(i=1,2);
其中,b1′表示人类样本的抽样个数;b2′表示机器样本的抽样个数;B1'添加进标记样本中的人类样本集;B2'添加进标记样本中的机器样本集;subsample(b,B)表示在B集中随机抽取b个样本。
本发明通过一种特征组分层策略和半监督随机森林的鼠标轨迹识别方法,在特征层面,根据不同视角特征在不同阶段所起的作用构建有层次的特征组并分层添加进模型,避免在训练样本过少的情况下盲目添加特征引起模型过拟合;在数据层面,利用半监督学习方法扩充训练样本,解决数据类别不平衡、标记样本不足的问题;最后将二者融合达到提升鼠标轨迹识别效果的目的。
附图说明
图1是本发明方法的流程图;
图2是本发明方法的数据集划分方式;
图3是人类鼠标轨迹的移动特征;
图4是参数N和参数θ对鼠标轨迹识别性能的影响。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于特征组分层和半监督随机森林的鼠标轨迹识别方法,如图1(其中v1代表人类轨迹特性,即基础特征组;v2表示人机轨迹差异性,即辅助特征组),包括以下步骤:
S1、获取用户进行操作时鼠标的轨迹数据;
S2、将采集的鼠标轨迹数据中20%作为标记样本集L,80%作为未标记样本集U;
S3、构建并提取鼠标轨迹特征,包括描述人类轨迹特性的基础特征组和强化人机轨迹差异性的辅助特征组;
S4、将标记样本集L以bootstrap的方式采样N份,使用这N份样本集的基础特征组训练多个单视角随机森林分类器{R1,R2,...,RN};;
S5、用训练好的N个分类器分别对原始标记样本集进行预测,计算分类器的分类误差率e,若上一次迭代的误差率为e',若e>e',则直接输出扩充后的标记样本集L并转到步骤S8,否则转到S9;
S6、用训练好的N个分类器分别对未标记样本集U进行预测,计算未标记样本集U中的每个未标记样本xu在N个分类器中的预测置信度和伪标签;
S7、根据预测置信度和伪标签筛选未标记样本,按照标记样本的类别比率对其进行随机抽取,将抽取到的未标记样本及其伪标签加入到标记样本中,进行标记样本的更新,并将这些样本从未标记样本集U中剔除;
S8、如果满足终止条件,则停止迭代,输出扩充后的标记样本集;如果不满足,则重复S4~S7;
S9、使用扩充样本集的基础特征组和辅助特征组训练多视角随机森林模型,将实时鼠标轨迹数据输入完成训练的多视角随机森林模型,完成对鼠标轨迹的人机识别
其中,bootstrap指自助采样法。
在本实施例中,数据来源于某人机验证产品采集的鼠标轨迹,经过脱敏处理后转换为本发明的数据集D,鼠标轨迹数据字段说明如表1所示,其数据样本示例如表2所示。
表1鼠标轨迹数据字段说明
字段 字段说明 字段解释
id 鼠标轨迹唯一编号 区分不同鼠标轨迹的识别码
x 鼠标轨迹水平坐标 鼠标移动过程中采样获得的水平坐标
y 鼠标轨迹垂直坐标 鼠标移动过程中采样获得的垂直坐标
t 鼠标轨迹采样时间 捕获鼠标移动行为的时间
x<sub>a</sub> 轨迹目标点水平坐标 鼠标轨迹目标点的水平坐标
y<sub>a</sub> 轨迹目标点垂直坐标 鼠标轨迹目标点的垂直坐标
label 类别标签 1:人类轨迹,0:机器轨迹
表2鼠标轨迹数据实例
Figure BDA0002275316790000061
表2中给出两个实例,第一列是鼠标轨迹的id,表2给出鼠标轨迹唯一编号为597和2991的两个鼠标轨迹;第二列是根据在采样时间t1采集的鼠标轨迹水平坐标x1、在采样时间t1采集的鼠标轨迹垂直坐标y1、采样时间t1为一组的鼠标轨迹信息;第三列为该鼠标轨迹的目标坐标,包括鼠标轨迹目标点的水平坐标以及鼠标轨迹目标点的垂直坐标;第四列表示该鼠标轨迹的类别标签,当该标签的值label=1,表示该轨迹为人类轨迹,当该标签的值label=0表示机器轨迹。
将数据D分为训练集和测试集,本发明使用的训练集有3000条,测试集有10000条,具体划分方式如图2所示,其中训练集中20%作为标记样本L,80%作为未标记样本U。
提取鼠标轨迹识别特征,包括描述人类轨迹特性的基础特征组和强化人机轨迹差异性的辅助特征组。基础特征组基于人类鼠标轨迹特性的角度构建,如图3,因为人类轨迹特征具有较好的稳定性,主要体现在三个方面:
(1)拟合过程,即人拖动滑块接近目标位置时会缓慢将滑块放到缺失位置;
(2)无规律性,即人的移动速度和移动间隔不停变化;
(3)回退现象,即人拖动滑块接近目标位置时会由于惯性拖离目标点在重新拖动回来;
根据以上三个方面,本实施例提取的描述人类轨迹特性的基础特征组的特征,如表3,包括:
鼠标轨迹水平坐标最大值与目标值之差xovs和水平坐标最大值与最小值之差xdiffer
鼠标轨迹水平坐标一阶差分最小值dxmin和水平坐标一阶差分标准差dxstd
回退轨迹水平坐标一阶差分最小值dx'min和回退轨迹水平坐标一阶差分中程数dx'mid
回退轨迹速度最大值v'max和回退轨迹速度末尾值v'end
回退轨迹速度一阶差分最大值dv'max和回退轨迹点个数x'num
其中,回退轨迹为拖离目标点后重新拖动回来产生的轨迹,无回退轨迹则取轨迹后10个点。
辅助特征组是基于强化人机轨迹差异的角度去构建的,主要提取不具有明显的人机差异性,但在数据规模较大时依然不能忽略的特征(如y维度和t维度的特征),用于辅助判断,增加轨迹识别置信度。如表3,提取的辅助特征有:
垂直坐标最小值ymin和垂直坐标改变次数ychg
垂直坐标一阶差分初始值dyinit
采样时间初始值init,采样时间中位数tmed和鼠标第一次移动到目标点所需时间taim
采样时间一阶差分初始值dtinit
将标记样本集L以bootstrap的方式采样N份,使用这N份样本集的基础特征组训练多个单视角随机森林分类器{R1,R2,...,RN}。
表3鼠标轨迹识别所用特征
Figure BDA0002275316790000081
用训练好的N个分类器分别对原始标记样本集进行预测,计算分类器的分类误差率e;设上一轮迭代的误差率为e'(初始值为0.5),若e>e',则直接输出扩充后的标记样本集L并进行多视角随机森林模型训练,否则更新标记样本集。
更新标记样本集的过程包括用训练好的N个分类器分别对未标记样本集U进行预测,计算U中的每个未标记样本xu在N个分类器中的预测置信度和伪标签,筛选出满足特定条件的未标记样本,再按照标记样本的类别比率对这些样本进行随机抽取,将抽取到的未标记样本及其伪标签加入到标记样本中,进行标记样本的更新,并将这些样本从U中剔除(L中的样本量逐渐增大,U中的样本量逐渐减小),其中,未标记样本xu在N个分类器中的预测置信度和伪标签计算过程为:
设第n个随机森林分类器Rn={f1,f2,...,fd,...,fD},fd为决策树,D为决策树个数。则把样本xu预测为k类的概率为:
Figure BDA0002275316790000091
其中pd(k|xu)为第d棵决策树中叶节点的类别预测概率,则样本在第n个分类器中的预测置信度定义为:
Figure BDA0002275316790000092
其中C代表样本类别集合,取值为0和1,分别代表机器轨迹和人类轨迹。
样本在第n个分类器中的伪标签为:
Figure BDA0002275316790000093
则样本分别在N个分类器的预测置信度和伪标签为:
[Conn(xu),pln(xu)](n=1,2,...,N).
根据预测置信度和伪标签筛选未标记样本包括:
样本xu在N个分类器中的伪标签一致,即pl1(xu)=pl2(xu)=...=plN(xu);
且样本xu在N个分类器中的预测置信度大于阈值参数θ的个数至少有N/2个。
按照标记样本的类别比率对满足条件的未标记样本进行随机抽取的原因是为了达到标记样本类别的平衡。由于在鼠标识别场景中人类轨迹远多于机器轨迹,如果将所有满足条件的未标记样本全部添加,可能会因为标记样本类别不平衡导致分类器性能越来越差。为了达到类别平衡的目的,按照标记样本的类别比率对样本进行抽取,通过逐步缩小多数类使数据趋于平衡。具体做法为:
若标记样本中人类样本和机器样本的比率为β,满足条件的未标记样本中人类样本集B1和机器样本集B2的数量分别b1和b2,则人类样本、机器样本的抽样个数以及要添加到标记样本的人类样本集和机器样本集表示为:
Figure BDA0002275316790000101
b2′=b2
Bi′=subsample(bi′,Bi),(i=1,2);
其中,b1′表示人类样本的抽样个数;b2′表示机器样本的抽样个数;B1'添加进标记样本中的人类样本集;B2'添加进标记样本中的机器样本集;subsample(b,B)表示在B集中随机抽取b个样本。
为了评估模型的准确性,本方法采用查准率P、查全率R和调和均值Fα作为模型评价指标,计算方式为:
Figure BDA0002275316790000102
Figure BDA0002275316790000103
Figure BDA0002275316790000104
其中TP为被正确识别为机器轨迹的样本数;FP为被错误识别为机器轨迹的样本数;FN为被错误识别为人类轨迹的样本数。
Fα是P和R的调和均值,其中α<1,表示适当偏重查全率(避免漏识别机器轨迹导致不可挽回的损失)。
图4所示为分类器个数N和置信度阈值θ在不同取值下鼠标轨迹的识别结果,从图中可以看出,当N=3,θ=0.8时,算法在查全率、查准率和调和均值上都具有较好的性能。
为了说明本发明所提方法的识别性能,将传统的基于随机森林和基于半监督随机森林的鼠标轨迹识别方法在相同的数据集下进行了仿真实验。结果如表2所示。
表2鼠标轨迹识别方法性能比较
方法 查准率P(%) 查全率 调和均值F<sub>α</sub>(%)
随机森林模型 99.75 70.25 85.41
半监督随机森林模型 95.43 89.45 92.95
本发明方法 97.52 94.09 96.12
由表2可以看出,采用随机森林算法的模型查准率很高,达到了99.75%,但查全率相比查准率而言差距明显,只有70.25%,导致Fα值较低。与有监督随机森林模型相比,半监督随机森林模型的查全率和Fα值分别提高了(19.2%,7.54%),说明在鼠标轨迹识别中采用半监督学习能提高模型识别性能,原因是半监督学习能够扩充鼠标轨迹训练集,解决了鼠标轨迹数据不平衡、标记样本不足的问题,因而识别性能得到了提升。
还可以看到,本发明所提出方法在测试样本集上的查准率、查全率和调和均值较半监督随机森林模型分别提高了(2.09%,4.64%,3.17%),这说明在半监督学习的基础上引入特征组分层策略在鼠标轨迹识别中能够降低应盲目添加特征而引起的模型过拟合。
从技术角度看,本发明是一种基于特征组分层策略和半监督随机森林的鼠标轨迹识别方法。与现有方法相比较,在特征层面,根据不同视角特征在不同阶段所起的作用构建有层次的特征组并分层添加进模型,避免在训练样本过少的情况下盲目添加特征引起模型过拟合;在数据层面,利用半监督学习方法扩充训练样本,解决数据类别不平衡、标记样本不足的问题;最后将二者融合达到提升鼠标轨迹识别效果的目的。
输出扩充后的标记样本集后,使用扩充样本集的基础特征组和辅助特征组训练多视角随机森林模型,将实时鼠标轨迹数据输入完成训练的多视角随机森林模型,完成对鼠标轨迹的人机识别。
领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.基于特征组分层和半监督随机森林的鼠标轨迹识别方法,其特征在于,包括以下步骤:
S1、获取用户进行操作时鼠标的轨迹数据;
S2、将采集的鼠标轨迹数据中20%作为标记样本集L,80%作为未标记样本集U;`
S3、构建并提取鼠标轨迹特征,包括描述人类轨迹特性的基础特征组和强化人机轨迹差异性的辅助特征组;
S4、将标记样本集L以bootstrap的方式采样N份,使用这N份样本集的基础特征组训练多个单视角随机森林分类器{R1,R2,...,RN};
S5、用训练好的N个分类器分别对原始标记样本集进行预测,计算分类器当前分类误差率e,若e>e',则直接输出扩充后的标记样本集L并转到步骤S9,否则转到S6;
S6、用训练好的N个分类器分别对未标记样本集U进行预测,计算未标记样本集U中的每个未标记样本xu在N个分类器中的预测置信度和伪标签;
S7、根据预测置信度和伪标签筛选未标记样本,按照标记样本的类别比率对其进行随机抽取,将抽取到的未标记样本及其伪标签加入到标记样本中,进行标记样本的更新,并将这些样本从未标记样本集U中剔除;
S8、如果标记样本的数量不再改变满足终止条件,则停止迭代,输出扩充后的标记样本集;如果不满足,则重复S4~S7;
S9、使用扩充样本集的基础特征组和辅助特征组训练多视角随机森林模型,将实时鼠标轨迹数据输入完成训练的多视角随机森林模型,完成对鼠标轨迹的人机识别;
其中,e'为分类器在上一次迭代的误差率。
2.根据权利要求1所述的基于特征组分层和半监督随机森林的鼠标轨迹识别方法,其特征在于,获取用户进行操作时鼠标的轨迹数据包括采集m个用户从开始操作验证码到结束的鼠标轨迹,得到轨迹数据D=[S1,S2,...,Sm],每条轨迹Si都包含采样时间ti=[ti1,ti2,...ti|si|]以及相应的水平坐标xi=[xi1,xi2,...xi|si|]和垂直坐标yi=[yi1,yi2,...yi|si|],轨迹目标点坐标(xa,ya)以及类别标签label,当类别标签label=0时表示机器轨迹,当类别标签label=1时表示人类轨迹。
3.根据权利要求1所述的基于特征组分层和半监督随机森林的鼠标轨迹识别方法,其特征在于,描述人类轨迹特性的基础特征组的特征包括:
鼠标轨迹水平坐标最大值与目标值之差xovs和水平坐标最大值与最小值之差xdiffer
鼠标轨迹水平坐标一阶差分最小值dxmin和水平坐标一阶差分标准差dxstd
回退轨迹水平坐标一阶差分最小值dx'min和回退轨迹水平坐标一阶差分中程数dx'mid
回退轨迹速度最大值v'max和回退轨迹速度末尾值v'end
回退轨迹速度一阶差分最大值dv'max和回退轨迹点个数x'num
其中,回退轨迹为拖离目标点后重新拖动回来产生的轨迹,无回退轨迹则取轨迹尾部10个点。
4.根据权利要求1所述的基于特征组分层和半监督随机森林的鼠标轨迹识别方法,其特征在于,强化人机轨迹差异性的辅助特征组的特征包括:
垂直坐标最小值ymin和垂直坐标改变次数ychg
垂直坐标一阶差分初始值dyinit
采样时间初始值init,采样时间中位数tmed和鼠标第一次移动到目标点所需时间taim
采样时间一阶差分初始值dtinit
5.根据权利要求1所述的基于特征组分层和半监督随机森林的鼠标轨迹识别方法,其特征在于,未标记样本xu在第n个分类器中的预测置信度和伪标签表示为:
Figure FDA0002275316780000031
Figure FDA0002275316780000032
其中,Conn(xu)表示未标记样本xu在第n个分类器中的预测置信度;p(k|xu)表示把样本xu预测为k类的概率;C表示样本类别集合;pln(xu)表示样本xu在第n个分类器中的伪标签。
6.根据权利要求5所述的基于特征组分层和半监督随机森林的鼠标轨迹识别方法,其特征在于,在第n个分类器中样本xu预测为k类的概率表示为:
Figure FDA0002275316780000033
其中,D为第n个随机森林分类器中决策树个数;pd(k|xu)为第d棵决策树中叶节点的类别预测概率,d={1,2,...,D}。
7.根据权利要求1所述的基于特征组分层和半监督随机森林的鼠标轨迹识别方法,其特征在于,根据预测置信度和伪标签筛选未标记样本包括:
样本xu在N个分类器中的伪标签一致,即pl1(xu)=pl2(xu)=...=plN(xu);
且样本xu在N个分类器中的预测置信度大于阈值参数θ的个数至少有N/2个。
8.根据权利要求1所述的基于特征组分层和半监督随机森林的鼠标轨迹识别方法,其特征在于,按照标记样本的类别比率对其进行随机抽取包括:
若标记样本中人类样本和机器样本的比率为β,满足筛选条件的未标记样本中人类样本集B1和机器样本集B2的数量分别b1和b2,则人类样本、机器样本的抽样个数以及要添加到标记样本的人类样本集和机器样本集表示为:
Figure FDA0002275316780000034
b2′=b2
Bi′=subsample(bi′,Bi),(i=1,2);
其中,b1′表示人类样本的抽样个数;b2′表示机器样本的抽样个数;B1'添加进标记样本中的人类样本集;B2'添加进标记样本中的机器样本集;subsample(b,B)表示在B集中随机抽取b个样本。
CN201911120434.4A 2019-11-15 2019-11-15 基于特征组分层和半监督随机森林的鼠标轨迹识别方法 Active CN110879881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911120434.4A CN110879881B (zh) 2019-11-15 2019-11-15 基于特征组分层和半监督随机森林的鼠标轨迹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911120434.4A CN110879881B (zh) 2019-11-15 2019-11-15 基于特征组分层和半监督随机森林的鼠标轨迹识别方法

Publications (2)

Publication Number Publication Date
CN110879881A true CN110879881A (zh) 2020-03-13
CN110879881B CN110879881B (zh) 2022-06-10

Family

ID=69729237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911120434.4A Active CN110879881B (zh) 2019-11-15 2019-11-15 基于特征组分层和半监督随机森林的鼠标轨迹识别方法

Country Status (1)

Country Link
CN (1) CN110879881B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899254A (zh) * 2020-08-12 2020-11-06 华中科技大学 基于半监督学习自动标注工业产品外观缺陷图像的方法
CN113780383A (zh) * 2021-08-27 2021-12-10 北京工业大学 基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法
CN115187130A (zh) * 2022-07-29 2022-10-14 青岛美迪康数字工程有限公司 基于鼠标运动轨迹判断工作效率的方法和装置
CN115357130A (zh) * 2022-08-18 2022-11-18 杭州分叉智能科技有限公司 一种基于rpa的模拟人为鼠标操作方法
CN116451194A (zh) * 2023-04-12 2023-07-18 万汇互联(深圳)科技有限公司 一种基于客户端行为特征的人机校验模型及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403019A (zh) * 2017-08-15 2017-11-28 重庆邮电大学 一种基于移动数据的车主身份识别方法
CN107609590A (zh) * 2017-09-12 2018-01-19 山东师范大学 一种多尺度鼠标轨迹特征提取方法、装置和系统
CN107729729A (zh) * 2017-09-18 2018-02-23 北京知道未来信息技术有限公司 一种基于随机森林的滑动验证码的自动通过测试方法
CN109413023A (zh) * 2018-08-24 2019-03-01 阿里巴巴集团控股有限公司 机器识别模型的训练及机器识别方法、装置、电子设备
US20190311114A1 (en) * 2018-04-09 2019-10-10 Zhongan Information Technology Service Co., Ltd. Man-machine identification method and device for captcha
CN110427737A (zh) * 2019-06-20 2019-11-08 平安科技(深圳)有限公司 操作行为的人机识别方法、装置及计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403019A (zh) * 2017-08-15 2017-11-28 重庆邮电大学 一种基于移动数据的车主身份识别方法
CN107609590A (zh) * 2017-09-12 2018-01-19 山东师范大学 一种多尺度鼠标轨迹特征提取方法、装置和系统
CN107729729A (zh) * 2017-09-18 2018-02-23 北京知道未来信息技术有限公司 一种基于随机森林的滑动验证码的自动通过测试方法
US20190311114A1 (en) * 2018-04-09 2019-10-10 Zhongan Information Technology Service Co., Ltd. Man-machine identification method and device for captcha
CN109413023A (zh) * 2018-08-24 2019-03-01 阿里巴巴集团控股有限公司 机器识别模型的训练及机器识别方法、装置、电子设备
CN110427737A (zh) * 2019-06-20 2019-11-08 平安科技(深圳)有限公司 操作行为的人机识别方法、装置及计算机设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
J.Y.S. LUH等: "《Comparison of various models of robot and human in human-robot interaction》", 《SMC"98 CONFERENCE PROCEEDINGS》 *
周青松等: "《基于Stacking融合深度学习模型和传统机器学习模型的短文本情感分类研究》", 《无线互联科技》 *
张志腾等: "《基于梯度提升决策树的鼠标轨迹识别方法与研究》", 《信息通信》 *
曾干敏: "《浅析无人机自主避障技术》", 《科技风》 *
王茜竹等: "《基于多源数据的出行安全时空评价模型研究》", 《重庆邮电大学学报(自然科学版)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899254A (zh) * 2020-08-12 2020-11-06 华中科技大学 基于半监督学习自动标注工业产品外观缺陷图像的方法
CN113780383A (zh) * 2021-08-27 2021-12-10 北京工业大学 基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法
CN115187130A (zh) * 2022-07-29 2022-10-14 青岛美迪康数字工程有限公司 基于鼠标运动轨迹判断工作效率的方法和装置
CN115187130B (zh) * 2022-07-29 2023-11-21 青岛美迪康数字工程有限公司 基于鼠标运动轨迹判断工作效率的方法和装置
CN115357130A (zh) * 2022-08-18 2022-11-18 杭州分叉智能科技有限公司 一种基于rpa的模拟人为鼠标操作方法
CN115357130B (zh) * 2022-08-18 2023-09-05 杭州分叉智能科技有限公司 一种基于rpa的模拟人为鼠标操作方法
CN116451194A (zh) * 2023-04-12 2023-07-18 万汇互联(深圳)科技有限公司 一种基于客户端行为特征的人机校验模型及方法
CN116451194B (zh) * 2023-04-12 2024-01-23 万汇互联(深圳)科技有限公司 一种基于客户端行为特征的人机校验模型及方法

Also Published As

Publication number Publication date
CN110879881B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN110879881B (zh) 基于特征组分层和半监督随机森林的鼠标轨迹识别方法
CN107682319B (zh) 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN111428231B (zh) 基于用户行为的安全处理方法、装置及设备
CN110796186A (zh) 基于改进的YOLOv3网络的干湿垃圾识别分类方法
CN109450845B (zh) 一种基于深度神经网络的算法生成恶意域名检测方法
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及系统
CN109977895B (zh) 一种基于多特征图融合的野生动物视频目标检测方法
CN113806746B (zh) 基于改进cnn网络的恶意代码检测方法
CN111598179B (zh) 电力监控系统用户异常行为分析方法、存储介质和设备
CN113139536B (zh) 一种基于跨域元学习的文本验证码识别方法、设备及存储介质
CN112738014A (zh) 一种基于卷积时序网络的工控流量异常检测方法及系统
CN105930792A (zh) 一种基于视频局部特征字典的人体动作分类方法
CN111047173A (zh) 基于改进d-s证据理论的社团可信度评估方法
CN110851422A (zh) 一种基于机器学习的数据异常监测模型构建方法
CN113901448A (zh) 基于卷积神经网络和轻量级梯度提升机的入侵检测方法
CN114218998A (zh) 一种基于隐马尔可夫模型的电力系统异常行为分析方法
CN106644035B (zh) 一种基于时频变换特性的振动源识别方法及系统
CN109272036B (zh) 一种基于深度残差网络的随机蕨目标跟踪方法
CN116545733A (zh) 一种电网入侵检测方法及系统
CN111160077A (zh) 一种大规模人脸动态聚类方法
CN112487406B (zh) 一种基于机器学习的网络行为分析方法
CN114860903A (zh) 一种面向网络安全领域的事件抽取、分类和融合方法
CN111079117B (zh) 一种基于LeNet和SSD的点触式验证码自动识别方法
CN111274894A (zh) 一种基于改进YOLOv3的人员在岗状态检测方法
CN111901282A (zh) 一种生成恶意代码流量行为检测结构的方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant