CN107609590A - 一种多尺度鼠标轨迹特征提取方法、装置和系统 - Google Patents
一种多尺度鼠标轨迹特征提取方法、装置和系统 Download PDFInfo
- Publication number
- CN107609590A CN107609590A CN201710817777.0A CN201710817777A CN107609590A CN 107609590 A CN107609590 A CN 107609590A CN 201710817777 A CN201710817777 A CN 201710817777A CN 107609590 A CN107609590 A CN 107609590A
- Authority
- CN
- China
- Prior art keywords
- feature
- mouse
- mouse track
- track
- benchmark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种多尺度鼠标轨迹特征提取方法,装置及系统,方法包括采集鼠标轨迹,得到鼠标轨迹表达,将鼠标轨迹表达分为训练集和测试集;对训练集数据首先进行基准尺度特征提取,在基准尺度特征的基础上,选取每一基准尺度特征对应的细分尺度特征,同时提取鼠标轨迹表达中的局部轨迹特征;采用分层随机森林选取所述基准尺度特征、细分尺度特征和局部轨迹特征中的优势特征;利用所述优势特征,以训练集为样本构造并行投票决策树,并对测试集中的鼠标轨迹进行分类识别。
Description
技术领域
本发明涉及一种多尺度鼠标轨迹特征提取方法、装置和系统。
背景技术
鼠标轨迹特征是鼠标轨迹识别任务必需的基础,提取多尺度鼠标轨迹特征是对鼠标轨迹进行后续处理前最重要的准备工作。目前,对鼠标轨迹特征提取的方法主要有:根据鼠标轨迹的速度、距离、单击次数等几个固定参数提取鼠标轨迹特征的方法;使用切割鼠标轨迹为等距离的线段,以这些线段的特征作为依据进行鼠标轨迹特征提取的方法;使用层次划分方法,对不同的鼠标行为定义不同特征的灵活标准提取鼠标轨迹特征的方法等等。但是,在实际中,由于鼠标轨迹特征的尺度和重要度不同,并且鼠标轨迹的局部特征意义明显,人为指定特征缺乏客观性,又难以找到具有通用性的鼠标轨迹特征,上述方法均难以满足通用鼠标轨迹特征提取的需求。目前,基于数据挖掘和机器学习相关理论,采用局部轨迹特征和全局轨迹特征相融合、多尺度特征相融合,提取鼠标轨迹特征的方法尚未出现。
发明内容
针对现有技术中存在的不足,本发明提供了一种多尺度鼠标轨迹特征提取方法,融合了不同尺度的特征,充分挖掘鼠标轨迹特征以支持鼠标轨迹识别任务,具有高准确度和执行效率。
本发明的技术方案为:
一种多尺度鼠标轨迹特征提取方法,包括;
采集鼠标轨迹,得到鼠标轨迹表达,将鼠标轨迹表达分为训练集和测试集;
对训练集数据首先进行基准尺度特征提取,在基准尺度特征的基础上,选取每一基准尺度特征对应的细分尺度特征,同时提取鼠标轨迹中的局部轨迹特征;
采用分层随机森林选取所述基准尺度特征、细分尺度特征和局部轨迹特征中的优势特征;
利用所述优势特征,以训练集为样本构造并行投票决策树,并对测试集中的鼠标轨迹表达进行分类识别。
进一步的,所述采集鼠标轨迹,得到鼠标轨迹表达包括:
采集鼠标轨迹,经过脱敏处理后,得到若干鼠标轨迹点,每个鼠标轨迹点均具有坐标,以及采集该鼠标轨迹点的时间值。
进一步的,对训练集数据首先进行基准尺度特征提取包括:
对鼠标轨迹表达进行以概念为数据尺度的分层划分,得到子数据集,每一层数据尺度中的所有子数据集构成该层的基准尺度数据集,根据基准尺度数据集提取基准尺度特征,所述基准尺度特征至少包括鼠标移动速度、角度、距离和时间中的一种。
进一步的,选取每一基准尺度特征对应的细分尺度特征包括:
针对鼠标移动速度,选取细分尺度特征至少包括:最大值、最小值、均值、极差、方差、标准差、中位数、众数、众数的个数、水平方向速率、竖直方向速率、切向速率、切向加速度中的一种;
针对鼠标移动角度,选取细分尺度特征至少包括:角度变化率、最大值、最小值、均值、极差、方差、标准差、中位数、众数、众数的个数、角速度、曲率、曲率变化率;
针对鼠标移动距离,选取细分尺度特征至少包括:两点间距离、移动距离、直线度、路径抖动、最大值、最小值、均值、极差、方差、标准差、中位数、众数、众数的个数;
针对鼠标移动时间,选取细分尺度特征至少包括:找到目标点所用的时间、完成时间、两点间时间差、以及两点间时间差的最小值、均值、极差、方差、标准差、中位数、众数、众数的个数。
进一步的,提取鼠标轨迹表达中的局部轨迹特征包括:
提取鼠标轨迹表达中的起始端特征和末尾端特征,所述起始端特征采用时间表示,末尾端特征采用距离回溯表示。
进一步的,起始端和末尾端的定义方法为:
鼠标轨迹点数为N,分别选择鼠标轨迹表达的前k%个轨迹点作为鼠标轨迹起始端,m%个轨迹点作为轨迹末尾端,其中k和m为根据交叉验证实验取得的超参数。
进一步的,选取基准尺度特征、细分尺度特征和局部轨迹特征中的优势特征包括:
采用分层随机森林的第一层,得到基准尺度特征对鼠标轨迹分类识别的重要性排名;
将基准尺度特征、细分尺度特征以及局部轨迹特征组成矩阵X,输入分层随机森林的第二层,得到所有特征对鼠标轨迹分类识别的重要性排名;
根据协方差矩阵的特征值,对所述矩阵X进行降维,得到优势特征。
进一步的,利用所述优势特征,以训练集为样本构造并行投票决策树包括:
将训练集分散到多个目标上,每一目标具有若干训练集数据;
根据本地数据集的信息增益选择每个目标上的top-k属性,然后在各个目标上交换已选属性的索引,建立本地投票排名,从本地投票排名中选择前2k个属性;
合并全局top-2k属性的直方图,根据全局数据信息增益,确定最佳属性及其分割点,完成决策树的构造。
本发明还提出了一种存储装置,存储有多条指令,所述指令由处理器加载并执行以下处理:
获取鼠标轨迹表达,将鼠标轨迹表达分为训练集和测试集;
对训练集数据首先进行基准尺度特征提取,在基准尺度特征的基础上,选取每一基准尺度特征对应的细分尺度特征,同时提取鼠标轨迹中的局部轨迹特征;
采用分层随机森林选取所述基准尺度特征、细分尺度特征和局部轨迹特征中的优势特征;
利用所述优势特征,以训练集为样本构造并行投票决策树,并对测试集中的鼠标轨迹进行分类识别。
本发明又提出了一种多尺度鼠标轨迹特征提取系统,包括鼠标轨迹采集装置,用于采集鼠标轨迹;与鼠标轨迹采集装置相连的处理器和存储装置,处理器用于用于实现各指令,存储装置用于存储多条指令,所述指令由处理器加载并执行以下处理:
获取鼠标轨迹表达,将鼠标轨迹表达分为训练集和测试集;
对训练集数据首先进行基准尺度特征提取,在基准尺度特征的基础上,选取每一基准尺度特征对应的细分尺度特征,同时提取鼠标轨迹中的局部轨迹特征;
采用分层随机森林选取所述基准尺度特征、细分尺度特征和局部轨迹特征中的优势特征;
利用所述优势特征,以训练集为样本构造并行投票决策树,并对测试集中的鼠标轨迹表达进行分类识别;
处理器还连接有显示单元,用于对分类识别结果做显示。
本发明的有益效果:
本发明提供了一种多尺度鼠标轨迹特征提取系统,根据鼠标轨迹特征的尺度和重要度,融合局部轨迹特征和全局轨迹特征,融合不同尺度的特征,充分挖掘鼠标轨迹特征以支持鼠标轨迹识别任务,具有高准确度和执行效率。
附图说明
图1为本发明完整流程图;
图2基准尺度特征重要性排名图;
图3随机森林使用树的个数图;
图4人与机器鼠标轨迹起始阶段随时间变化图;
图5人的鼠标轨迹末端的“回头”现象图;
图6机器鼠标轨迹末端无“回头”现象图;
图7多尺度鼠标轨迹特征有效性实验图;
图8局部鼠标轨迹特征的有效性实验图。
具体实施方式:
下面结合附图与实施例对本发明作进一步说明:
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明的一种典型实施例是一种多尺度鼠标轨迹特征提取方法,包括;
采集鼠标轨迹,得到鼠标轨迹表达,将鼠标轨迹表达分为训练集和测试集;
对训练集数据首先进行基准尺度特征提取,在基准尺度特征的基础上,选取每一基准尺度特征对应的细分尺度特征,同时提取鼠标轨迹中的局部轨迹特征;
采用分层随机森林选取所述基准尺度特征、细分尺度特征和局部轨迹特征中的优势特征;
利用所述优势特征,以训练集为样本构造并行投票决策树,并对测试集中的鼠标轨迹进行分类识别。
为了与上述实施例相对应,本发明还提出了一种多尺度鼠标轨迹特征提取系统,包括鼠标轨迹采集装置,用于获取鼠标轨迹测量值;与鼠标轨迹采集装置相连的处理器和存储装置,处理器用于用于实现各指令,其中存储装置存储有多条指令,指令由处理器加载并执行上述处理。
存储装置可以虚拟的分为数据整理模块、特征分析模块和特征验证模块;
数据整理模块,建立与鼠标轨迹测量值相对应的第一样本,对第一样本进行脱敏处理,得到基于鼠标轨迹测量值的鼠标轨迹表达,建立以若干个鼠标轨迹表达所对应的样本集合为第二样本;
特征分析模块,用于分析鼠标轨迹的基准尺度特征、鼠标轨迹细分尺度特征和具有代表性的局部轨迹特征;
特征验证模块,用于对上述特征进行升维,统一特征维度,将第二样本随机分为训练集和预测集,训练集用于生成学习器,在学习器的基础上,测试预测集中的第二样本,确定特征分析模块得到的特征的有效性;
鼠标轨迹采集装置采集某人机验证产品的鼠标轨迹,经过脱敏处理后,得到鼠标的轨迹表达为:{(xij,yij,tij),i=0,1,2,...,m;j=0,1,2,...,n}。其中,i表示鼠标轨迹标号,共有m条;j表示采集鼠标轨迹的时间点,共有n个;(xij,yij)表示第i条轨迹在tij时刻鼠标所在二维平面坐标中的位置。采集的鼠标轨迹数据分为训练集和测试集,训练集数据的轨迹表达中还包括类别标签li。li=1表示第i条鼠标轨迹为人的拖动鼠标轨迹,反之,li=0表示第i条鼠标轨迹为机器模仿人拖动鼠标轨迹。本发明使用的训练集有3000条数据,测试集有10万条数据。
对于鼠标轨迹基准尺度特征部分,我们提取了鼠标移动速度(Speed)、角度(Angle)、距离(Distance)和时间(Time)作为基准尺度特征,表达为H={Speed,Angle,Distance,Time}。因为他们符合基准尺度数据集的要求。
我们是通过下面的方法进行基准尺度特征提取的,首先定义数据集划分,由于有限概念集H中某概念hi(i=1,...,n)的属性值集为依据其中不同的属性值对数据集DS进行划分,具有相同属性值的数据形成独立的子数据集,记为则数据集DS被划分为mi个子数据集,形成以概念hi为划分尺度的一组数据集。
然后定义基准尺度数据集。数据集DS以概念分层(H,π)中的概念hi∈H(i=1,2,...,n)为数据尺度,进行数据划分的结果中,所有子数据集为数据集DS在数据尺度hi下的元尺度数据集。若其他尺度数据集可以由该元尺度数据集合并或分解得到,那么,该元尺度数据集称为基准尺度数据集,与基准尺度数据集对应的概念hi为基准尺度。
基准尺度特征反应了鼠标轨迹的整体特性,对于鼠标轨迹识别任务至关重要。利用分层随机森林方法的第一层,得到了基准尺度特征对鼠标轨迹识别的重要度排名,如图2。{Speed,Angle,Distance,Time}的重要性系数为ω={0.2,0.5,0.8,1},在此过程中使用树的个数如图3所示,从图中可以看出使用140棵树最合适,可以保证方差最小为0.0187。
然后我们在基准尺度特征的基础上,分别提取基准尺度特征包含的细分尺度特征。
首先,选取基准尺度特征Speed∈H对应的细分尺度特征,表达为公式(1):
Vspeed={max,min,mean,ran,var,std,med,mod,n_mod,vx,vy,vc,αc} (1)
其中,括号内符号的含义依次为:最大值、最小值、均值、极差、方差、标准差、中位数、众数、众数的个数、水平方向速率、竖直方向速率、切向速率、切向加速度。水平方向速率如公式(2),竖直方向速率如公式(3),切向速率如公式(4),切向加速度如公式(5)。
vx=δx/δt (2)
vy=δy/δt (3)
αc=δvc/δt (5)
其次,选取基准尺度特征Angle∈H对应的细分尺度特征,表达为公式(6):
VAngle={δangle,max,min,mean,ran,var,std,med,mod,n_mod,w,c,Δc} (6)
其中,括号内符号的含义依次为:角度变化率、最大值、最小值、均值、极差、方差、标准差、中位数、众数、众数的个数、角速度、曲率、曲率变化率。角度变化率如公式(7),角速度如公式(8),曲率如公式(9),曲率变化率如公式(10)。
ω=δθt/δt (8)
c=δθ/δs (9)
Δc=δc/δs (10)
再次,选取基准尺度特征Distance∈H对应的细分尺度特征,表达为公式(11):
VDistance={δdistance,Sn,Sz,Sd,max,min,mean,ran,var,std,med,mod,n_mod} (11)
其中,括号内符号的含义依次为:两点间距离、移动距离、直线度、路径抖动、最大值、最小值、均值、极差、方差、标准差、中位数、众数、众数的个数。两点间距离如公式(12),直线度如公式(13),路径抖动如公式(14)。
Sd=S′/Sn (14)
最后,选取基准尺度特征Time∈H对应的细分尺度特征,表达为公式(15):
其中,括号内符号的含义依次为:找到目标点所用的时间、完成时间、两点间时间差、以及两点间时间差的最小值、均值、极差、方差、标准差、中位数、众数、众数的个数。完成时间如公式(16),两点间时间差如公式(17)。到达目标点所用的时间是指第一次到达目标点的时间,不包括回头的时间。完成时间指完成这条轨迹所用的时间,包括有些轨迹的回头时间。如果鼠标轨迹在完成时间内没有到达目标点,则time1,O=time1,n。
δtime=timei+1-timei,i=0,1,2,...,n (17)
接下来,由于针对鼠标轨迹,我们分析具有代表性的局部轨迹特征部分,主要分析鼠标轨迹起始端特征和轨迹末尾端特征。通过数据分析发现,人和机器轨迹的区别常在于某些局部轨迹的特征。
首先,我们分析人和机器的鼠标轨迹在起始阶段随时间的变化,将这种变化作为局部轨迹特征,放入训练模型中。图4所示的是人和机器在鼠标轨迹初始阶段的轨迹点随时间的变化情况。从图中可以看出,机器鼠标轨迹前20个点花费的时间很长,而人的鼠标轨迹前20个点用的时间很短,这是人和机器鼠标轨迹的重要区别。事实上,我们可以分析出原因:一般情况下,人在看验证码划窗时,往往一眼就能看到起点,消耗的时间少,且近乎均匀滑动;而机器为了找到起始点需要先搜索点,不断搜索的过程消耗大量时间。因此,当采集初始阶段相同个数的轨迹点时,机器耗时更多。
其次,我们分析轨迹末尾端的“回头”现象,并将其作为局部轨迹特征。如图5和6所示,人为鼠标轨迹在轨迹末端出现了“回头”现象,而机器的鼠标轨迹末端很少出现“回头”现象。这可以理解为:人为拖动鼠标到达验证码目标点之后,由于视差或者惯性力作用,有可能拖动鼠标超过了目标点。当再拖动鼠标返回到目标点时就出现轨迹“回头”现象。然而,对于机器就不会出现这种情况,当机器模拟的鼠标移动到目标点时即完成拖动,轨迹也会立即停止,因此机器不会出现“回头”现象。
鼠标轨迹起始端和轨迹末尾端的定义方法为:分别设定鼠标轨迹前端鼠标点的比例数为k、轨迹末端鼠标点的比例数为m,则一条点数为N的鼠标轨迹,定义N×k为鼠标轨迹前端,定义N×m为鼠标轨迹后端。即选择轨迹的前k%个轨迹点作为鼠标轨迹起始端,m%个轨迹点作为轨迹末尾端。这里的。其中的k和m为根据多次交叉验证实验取得的超参数。
前文所述处理器部分,还具有特征分析模块和特征验证模块:
特征验证模块包括特征重要度确定模块和检验模块,所述特征重要度确定模块,用于确定多尺度鼠标轨迹特征的重要度,采用分层随机森林方法,损失函数为错误率函数。具体步骤是:
第1步,利用分层随机森林的第1层,得到了基准尺度特征对鼠标轨迹识别的重要度排名,重要性系数为ω={0.2,0.5,0.8,1},如图2所示。
第2步,将基准尺度特征、细分尺度特征以及局部轨迹特征组成矩阵X,将其喂给分层随机森林的第2层,得到所有特征对鼠标轨迹识别的重要度排名。
其中,hij(i=1,2,...,n;j=1,2,3,4)表示基准尺度特征,i表示轨迹编号,j表示特征编号。因为选了4个基准尺度特征,所以j在1至4之间。xij(i=1,2,...,n;j=1,2,...,m)表示细分尺度特征和局部轨迹特征,m表示这些特征的个数。
第3步,根据样本协方差矩阵的特征值,对样本进行降维,得到主成分特征。主成分特征的个数通过交叉验证方式或与设定阈值比较得出。
检验模块采用并行投票决策树方法,构造基于机器学习的鼠标特征识别算法,验证得到特征的有效性。它包括并行投票决策树构建模块和并行投票决策树测试模块。
并行投票决策树构建模块使用直方图方法(Histogram)构建决策树,基本思想是:将训练数据分到M个机器上,每个机器都有n个训练数据。利用每一个本地机器中属性的统计信息,构造直方图,并通过本地投票和全局投票过程做出决策。算法如图6所示,包括以下几个关键步骤:
(1)本地投票:根据本地数据集的信息增益大小来选择每个机器的top-k属性,然后在各个机器上交换已选属性的索引,此部分只需要传递k×M个属性的数据;
(2)全局投票:当本地机器的属性排序完成后,从每个本地投票排名列表中选择前2k个属性;
(3)确定最佳属性及其分割点:合并全局top-2k属性的直方图,根据从全局分布计算的信息增益,确定最佳属性及其分割点。由于只需要传递top-k个预先选择的属性,而不是带所有属性的直方图,因此此步骤的通信费用很低。
决策树测试模块,在所述并行投票决策树构建模块生成的学习器基础上,检测测试集中的第二样本是否能有效分类鼠标轨迹。
本发明使用ROC曲线、AUC值来评价模型。ROC曲线以图方式展示列联表,图中绘制的是真正率(简写TPR)随假正率(FPR)的变化情况。真正率TPR代表被正确分类的样本的比例,如公式(18)所示(TP:正确分类的正样本,FN:错误分类的负样本)。假正率FPR是假正样本相对于实际负样本的比例,如公式(19)所示(FP:错误分类的正样本,TN正确分类的负样本)。AUC为ROC曲线下的面积值。
本发明设计了2组对比实验:实验1验证多尺度特征的有效性。实验2验证局部轨迹特征的有效性。
图7所示实验1的对比结果,实验设计为三种方法的对比:未使用多尺度特征的LightGBM算法、未使用多尺度特征的GDBT算法以及使用多尺度特征的本文方法。在识别鼠标轨迹方面,本文方法AUC值为0.93,LightGBM方法的AUC值为0.90,GBDT方法的AUC值为0.85。实验结果表明:使用多尺度特征可以较好识别人和机器的鼠标轨迹。
图8所示实验2的对比结果,实验设计为两种方法对比:使用多尺度特征和局部轨迹特征的本文方法与仅使用整条轨迹特征(未使用局部轨迹特征)的方法。对比可知:本文方法AUC值为0.93,而对比方法的AUC值为0.90。因此,提取局部鼠标轨迹特征可以提高鼠标识别任务的性能。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种多尺度鼠标轨迹特征提取方法,其特征在于,包括;
采集鼠标轨迹,得到鼠标轨迹表达,将鼠标轨迹表达分为训练集和测试集;
对训练集数据首先进行基准尺度特征提取,在基准尺度特征的基础上,选取每一基准尺度特征对应的细分尺度特征,同时提取鼠标轨迹中的局部轨迹特征;
采用分层随机森林选取所述基准尺度特征、细分尺度特征和局部轨迹特征中的优势特征;
利用所述优势特征,以训练集为样本构造并行投票决策树,并对测试集中的鼠标轨迹进行分类识别。
2.根据权利要求1所述的方法,其特征在于,所述采集鼠标轨迹,得到鼠标轨迹表达包括:
采集鼠标轨迹,经过脱敏处理后,得到若干鼠标轨迹点,每个鼠标轨迹点均具有坐标,以及采集该鼠标轨迹点的时间值。
3.根据权利要求1所述的方法,其特征在于,对训练集数据首先进行基准尺度特征提取包括:
对鼠标轨迹表达进行以概念为数据尺度的分层划分,得到子数据集,每一层数据尺度中的所有子数据集构成该层的基准尺度数据集,根据基准尺度数据集提取基准尺度特征,所述基准尺度特征至少包括鼠标移动速度、角度、距离和时间中的一种。
4.根据权利要求3所述的方法,其特征在于,选取每一基准尺度特征对应的细分尺度特征包括:
针对鼠标移动速度,选取细分尺度特征至少包括:最大值、最小值、均值、极差、方差、标准差、中位数、众数、众数的个数、水平方向速率、竖直方向速率、切向速率、切向加速度中的一种;
针对鼠标移动角度,选取细分尺度特征至少包括:角度变化率、最大值、最小值、均值、极差、方差、标准差、中位数、众数、众数的个数、角速度、曲率、曲率变化率;
针对鼠标移动距离,选取细分尺度特征至少包括:两点间距离、移动距离、直线度、路径抖动、最大值、最小值、均值、极差、方差、标准差、中位数、众数、众数的个数;
针对鼠标移动时间,选取细分尺度特征至少包括:找到目标点所用的时间、完成时间、两点间时间差、以及两点间时间差的最小值、均值、极差、方差、标准差、中位数、众数、众数的个数。
5.根据权利要求1所述的方法,其特征在于,提取鼠标轨迹表达中的局部轨迹特征包括:
提取鼠标轨迹表达中的起始端特征和末尾端特征,所述起始端特征采用时间表示,末尾端特征采用距离回溯表示。
6.根据权利要求5所述的方法,其特征在于,起始端和末尾端的定义方法为:
鼠标轨迹点数为N,分别选择鼠标轨迹表达的前k%个轨迹点作为鼠标轨迹起始端,m%个轨迹点作为轨迹末尾端,其中k和m为根据交叉验证实验取得的超参数。
7.根据权利要求1所述的方法,其特征在于,选取基准尺度特征、细分尺度特征和局部轨迹特征中的优势特征包括:
采用分层随机森林的第一层,得到基准尺度特征对鼠标轨迹分类识别的重要性排名;
将基准尺度特征、细分尺度特征以及局部轨迹特征组成矩阵X,输入分层随机森林的第二层,得到所有特征对鼠标轨迹分类识别的重要性排名;
根据协方差矩阵的特征值,对所述矩阵X进行降维,得到优势特征。
8.根据权利要求1所述的方法,其特征在于,利用所述优势特征,以训练集为样本构造决策树包括:
将训练集分散到多个目标上,每一目标具有若干训练集数据;
根据本地数据集的信息增益选择每个目标上的top-k属性,然后在各个目标上交换已选属性的索引,建立本地投票排名,从本地投票排名中选择前2k个属性;
合并全局top-2k属性的直方图,根据全局数据信息增益,确定最佳属性及其分割点,完成决策树的构造。
9.一种存储装置,其特征在于,存储有多条指令,所述指令由处理器加载并执行以下处理:
获取鼠标轨迹表达,将鼠标轨迹表达分为训练集和测试集;
对训练集数据首先进行基准尺度特征提取,在基准尺度特征的基础上,选取每一基准尺度特征对应的细分尺度特征,同时提取鼠标轨迹中的局部轨迹特征;
采用分层随机森林选取所述基准尺度特征、细分尺度特征和局部轨迹特征中的优势特征;
利用所述优势特征,以训练集为样本构造并行投票决策树,并对测试集中的鼠标轨迹进行分类识别。
10.一种多尺度鼠标轨迹特征提取系统,其特征在于,包括鼠标轨迹采集装置,用于采集鼠标轨迹;与鼠标轨迹采集装置相连的处理器和存储装置,处理器用于实现各指令,存储装置用于存储多条指令,所述指令由处理器加载并执行以下处理:
获取鼠标轨迹表达,将鼠标轨迹表达分为训练集和测试集;
对训练集数据首先进行基准尺度特征提取,在基准尺度特征的基础上,选取每一基准尺度特征对应的细分尺度特征,同时提取鼠标轨迹表达中的局部轨迹特征;
采用分层随机森林选取所述基准尺度特征、细分尺度特征和局部轨迹特征中的优势特征;
利用所述优势特征,以训练集为样本构造并行投票决策树,并对测试集中的鼠标轨迹进行分类识别;
处理器还连接有显示单元,用于对分类识别结果做显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710817777.0A CN107609590B (zh) | 2017-09-12 | 2017-09-12 | 一种多尺度鼠标轨迹特征提取方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710817777.0A CN107609590B (zh) | 2017-09-12 | 2017-09-12 | 一种多尺度鼠标轨迹特征提取方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107609590A true CN107609590A (zh) | 2018-01-19 |
CN107609590B CN107609590B (zh) | 2020-09-04 |
Family
ID=61063140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710817777.0A Active CN107609590B (zh) | 2017-09-12 | 2017-09-12 | 一种多尺度鼠标轨迹特征提取方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107609590B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447099A (zh) * | 2018-08-28 | 2019-03-08 | 西安理工大学 | 一种基于pca降维的多分类器融合方法 |
CN110188519A (zh) * | 2019-05-20 | 2019-08-30 | 北京奇艺世纪科技有限公司 | 一种异常滑动轨迹的检测方法、装置及电子设备 |
CN110879881A (zh) * | 2019-11-15 | 2020-03-13 | 重庆邮电大学 | 基于特征组分层和半监督随机森林的鼠标轨迹识别方法 |
CN113239963A (zh) * | 2021-04-13 | 2021-08-10 | 联合汽车电子有限公司 | 车辆数据的处理方法、装置、设备、车辆和存储介质 |
CN115187130A (zh) * | 2022-07-29 | 2022-10-14 | 青岛美迪康数字工程有限公司 | 基于鼠标运动轨迹判断工作效率的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1957355A (zh) * | 2004-04-01 | 2007-05-02 | 道夫·雅各布森 | 鼠标工作识别 |
CN103530546A (zh) * | 2013-10-25 | 2014-01-22 | 东北大学 | 一种基于用户鼠标行为的身份认证方法 |
KR101451782B1 (ko) * | 2013-06-18 | 2014-10-16 | 국방과학연구소 | 마우스 움직임 패턴 기반의 사용자 인증 시스템 및 그 방법 |
CN105389486A (zh) * | 2015-11-05 | 2016-03-09 | 同济大学 | 一种基于鼠标行为的认证方法 |
-
2017
- 2017-09-12 CN CN201710817777.0A patent/CN107609590B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1957355A (zh) * | 2004-04-01 | 2007-05-02 | 道夫·雅各布森 | 鼠标工作识别 |
KR101451782B1 (ko) * | 2013-06-18 | 2014-10-16 | 국방과학연구소 | 마우스 움직임 패턴 기반의 사용자 인증 시스템 및 그 방법 |
CN103530546A (zh) * | 2013-10-25 | 2014-01-22 | 东北大学 | 一种基于用户鼠标行为的身份认证方法 |
CN105389486A (zh) * | 2015-11-05 | 2016-03-09 | 同济大学 | 一种基于鼠标行为的认证方法 |
Non-Patent Citations (4)
Title |
---|
姚登举 等: "基于随机森林的特征选择算法", 《吉林大学学报(工学版)》 * |
房祥飞: "基于决策树的分类算法的并行化研究与应用", 《基于决策树的分类算法的并行化研究与应用》 * |
朱进: "基于运动特征的轨迹相似性度量研究", 《中国博士学位论文全文数据库 基础科学辑》 * |
沈超 等: "基于鼠标行为特征的用户身份认证与监控", 《通信学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447099A (zh) * | 2018-08-28 | 2019-03-08 | 西安理工大学 | 一种基于pca降维的多分类器融合方法 |
CN109447099B (zh) * | 2018-08-28 | 2022-01-07 | 西安理工大学 | 一种基于pca降维的多分类器融合方法 |
CN110188519A (zh) * | 2019-05-20 | 2019-08-30 | 北京奇艺世纪科技有限公司 | 一种异常滑动轨迹的检测方法、装置及电子设备 |
CN110879881A (zh) * | 2019-11-15 | 2020-03-13 | 重庆邮电大学 | 基于特征组分层和半监督随机森林的鼠标轨迹识别方法 |
CN110879881B (zh) * | 2019-11-15 | 2022-06-10 | 重庆邮电大学 | 基于特征组分层和半监督随机森林的鼠标轨迹识别方法 |
CN113239963A (zh) * | 2021-04-13 | 2021-08-10 | 联合汽车电子有限公司 | 车辆数据的处理方法、装置、设备、车辆和存储介质 |
CN113239963B (zh) * | 2021-04-13 | 2024-03-01 | 联合汽车电子有限公司 | 车辆数据的处理方法、装置、设备、车辆和存储介质 |
CN115187130A (zh) * | 2022-07-29 | 2022-10-14 | 青岛美迪康数字工程有限公司 | 基于鼠标运动轨迹判断工作效率的方法和装置 |
CN115187130B (zh) * | 2022-07-29 | 2023-11-21 | 青岛美迪康数字工程有限公司 | 基于鼠标运动轨迹判断工作效率的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107609590B (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609590A (zh) | 一种多尺度鼠标轨迹特征提取方法、装置和系统 | |
Li et al. | Localizing and quantifying damage in social media images | |
US10460256B2 (en) | Interactive performance visualization of multi-class classifier | |
CN105205501B (zh) | 一种多分类器联合的弱标注图像对象检测方法 | |
CN111553399A (zh) | 特征模型训练方法、装置、设备及存储介质 | |
Wang et al. | ConceptExplorer: Visual analysis of concept drifts in multi-source time-series data | |
CN105389486B (zh) | 一种基于鼠标行为的认证方法 | |
CN110225055A (zh) | 一种基于knn半监督学习模型的网络流量异常检测方法与系统 | |
CN107292330A (zh) | 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法 | |
CN107193962A (zh) | 一种互联网推广信息的智能配图方法及装置 | |
CN103605970A (zh) | 一种基于机器学习的图纸建筑元素识别方法及系统 | |
CN112463976A (zh) | 一种以群智感知任务为中心的知识图谱构建方法 | |
CN109558902A (zh) | 一种快速目标检测方法 | |
CN106294344A (zh) | 视频检索方法和装置 | |
CN105956798A (zh) | 一种基于稀疏随机森林的配网设备运行状态评估方法 | |
CN106537387B (zh) | 检索/存储与事件相关联的图像 | |
CN104361600B (zh) | 运动识别方法及系统 | |
CN111047173A (zh) | 基于改进d-s证据理论的社团可信度评估方法 | |
CN108021693A (zh) | 一种图像检索方法和装置 | |
CN114556364A (zh) | 基于相似度运算符排序的神经架构搜索 | |
CN108363967A (zh) | 一种遥感图像场景的分类系统 | |
CN107392249A (zh) | 一种k近邻相似度优化的密度峰聚类方法 | |
Wei et al. | (Retracted) Image analysis and pattern recognition method of three-dimensional process in physical education teaching based on big data | |
CN111325255A (zh) | 特定人群圈定方法、装置、电子设备及存储介质 | |
CN115713576A (zh) | 一种面向bert模型的剪枝可视分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |