CN113032751A

CN113032751A - 一种基于移动设备击键特征的身份识别方法、装置、设备及介质

Info

Publication number: CN113032751A
Application number: CN202110320501.8A
Authority: CN
Inventors: 朱承璋; 肖亚龙; 黄奕鑫; 杨翔; 王晗
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-06-25
Anticipated expiration: 2041-03-25
Also published as: CN113032751B

Abstract

本发明公开了一种基于移动设备击键特征的身份识别方法、装置、设备及介质，包括：对身份待识别的用户，从其登录移动设备的击键过程中提取击键特征：飞跃时间序列、滞留时间序列和触点坐标序列，并计算每个击键特征与注册时该击键特征之间的方差、欧拉距离和皮尔逊相关系数，得到用户登录的9个特征参数；将上述得到的9个特征参数输入至预先训练好的身份识别模型中，根据模型输出判断当前登录用户的身份是否合法；其中，所述身份识别模型采用前馈神经网络并基于若干正负样本训练得到，且正负样本分别由合法和非法用户登录时得到的所述9个特征参数构成。

Description

一种基于移动设备击键特征的身份识别方法、装置、设备及介质

技术领域

本发明属于身份识别技术领域，具体涉及一种基于移动设备击键特征的身份识别方法、装置、设备及介质。

背景技术

目前，在需要用户进行登录验证的计算机系统/平台中，用户账户与密码往往是最常见的验证方式。然而这种验证方式无法规避账号被盗的风险。因此，许多系统/平台采用了短信验证、邮箱验证、指纹/人脸识别等确认用户身份的方法，但上述方法往往存在信息泄露、设备不支持等局限性。因此，一些系统/平台结合了击键特征识别模块，用以保证用户的信息安全。

传统意义上的击键特征，指用户在使用键盘等输入设备输入字符时，敲击键盘的节奏。这类特征主要包括：

①用户从一个按键到下一个按键之间的间隔时间，下文统一用“飞跃时间”(I)代替。

②用户按下一个键到抬起手指之间的时间，下文统一用“滞留时间”(D)代替。

通过比对用户在输入时的击键特征，该方法能够判断执行操作的是否为用户本人。由于用户击键特征并不能够像先天生物特征(如指纹、虹膜、基因序列)般稳定，其容易受到如键入设备、用户行为习惯改变等因素的影响，因此击键特征识别并未成为主流系统/平台核验身份的方法，而是偶尔在一些安全要求较高的计算机系统中作为辅助验证方式而存在。

目前，已经有关于击键特征识别的相关算法，其思路通常为：

①用户在注册时，采集用户的击键特征并存入数据库。

②用户登录时，采集用户的击键特征，并与数据库中储存的击键特征进行比对。

③若相似度高于某个值，或符合某些规则，则确认用户身份，否则拒绝用户登录。

值得注意的是，步骤③中判断击键特征与用户注册时击键特征的相似度的方法决定了算法的准确性、可靠性，也是不同种类击键特征识别方法之间的主要区别。目前普遍使用的是基于SVM(支持向量机)模型、改进贝斯叶算法、多级决策算法的判断方法。在这些方法中，数据预处理与训练样本质量都会影响到识别准确度。

在移动时代，用户将更多地在手机、平板电脑等设备上进行操作。在上述设备执行输入操作的过程中，用户通常会使用“虚拟键盘”，即在触摸屏幕中选定一部分区域作为键盘，并显示字符供用户点击，从而模拟实体键盘完成输入。对于绝大部分用户来说，在实体键盘与虚拟键盘上键入相同内容时，其击键特征往往存在差异。因此，当基于普通实体键盘的击键特征识别模型迁移至移动端时，已有模型往往并不能够完美地匹配移动端用户的击键特征，从而导致精度的下降。

发明内容

本发明提供一种基于移动设备击键特征的身份识别方法、装置、设备及介质，能够更好的利用智能设备的触控屏幕提高击键特征识别的精确度。

为实现上述技术目的，本发明采用如下技术方案：

一种基于移动设备击键特征的身份识别方法，包括：

对身份待识别的用户，从其登录移动设备的击键过程中提取击键特征：飞跃时间序列、滞留时间序列和触点坐标序列，并计算每个击键特征与注册时该击键特征之间的方差、欧拉距离和皮尔逊相关系数，得到用户登录的以下9个特征参数：飞跃时间序列方差、飞跃时间序列欧拉距离、飞跃时间序列皮尔逊相关系数、滞留时间序列方差、滞留时间序列欧拉距离、滞留时间序列皮尔逊相关系数、触点坐标序列方差、触点坐标序列欧拉距离和触点坐标序列皮尔逊相关系数；

将上述得到的9个特征参数输入至预先训练好的身份识别模型中，根据模型输出判断当前登录用户的身份是否合法；

其中，所述身份识别模型采用前馈神经网络，基于若干正负样本训练得到，且正样本由合法用户登录时得到的所述9个特征参数构成，负样本由非法用户登录得到的所述9个特征参数构成。

在更优的技术方案中，若当前登录用户的身份识别合法，将其登录移动设备提取的击键特征与注册时的击键特征进行加权求平均，并更新作为注册时的击键特征。

在更优的技术方案中，所述飞跃时间序列是由所有相邻两个按键的按键飞跃时间依次组成的序列，按键飞跃时间是指：对于相邻两个按键，前一个按键弹起至下一个按键按下之间的间隔时间；

所述滞留时间序列是由所有按键的按键持续时间依次组成的序列，按键持续时间是指：按键从按下到弹起的持续时间；

所述触点坐标序列是由所有按键在移动设备上的坐标依次组成的序列。

在更优的技术方案中，注册时的击键特征是从注册时若干次重复的击键行为中提取并取平均得到。

在更优的技术方案中，在注册时的若干次重复的击键行为中，对于相邻两次的击键行为，若其飞跃时间序列皮尔逊相关系数和滞留时间序列皮尔逊相关系数中任意一个低于预设的系数阈值，则认为第二次击键行为无效，要求重新击键输入。

在更优的技术方案中，两组飞跃时间序列之间的方差、欧拉距离以及皮尔逊相差系统的计算式为：

式中，I_v表示第a组飞跃时间序列I_a和第b组飞跃时间序列I_b之间的方差，I_o表示飞跃时间序列I_a和飞跃时间序列I_b之间的欧拉距离，I_p表示飞跃时间序列I_a和飞跃时间序列I_b之间的皮尔逊相关系数，I_ai表示I_a的第i个飞跃时间，I_bi表示I_b的第i个飞跃时间，n表示每次击键行为的按键个数；

两组滞留时间序列之间的方差、欧拉距离以及皮尔逊相差系统的计算式为：

式中，D_v表示第a组滞留时间序列D_a和第b组滞留时间序列D_b之间的方差，D_o表示滞留时间序列D_a和滞留时间序列D_b之间的欧拉距离，D_p表示滞留时间序列D_a和滞留时间序列D_b之间的皮尔逊相关系数，D_ai表示D_a的第i个滞留时间，D_bi表示D_b的第i个滞留时间；

两组触点坐标序列之间的方差、欧拉距离以及皮尔逊相差系统的计算式为：

式中，M_v表示第a组触点坐标序列M_a和第b组触点坐标序列M_b之间的方差，M_o表示触点坐标序列M_a和触点坐标序列M_b之间的欧拉距离，M_p表示触点坐标序列M_a和触点坐标序列M_b之间的皮尔逊相关系数M_xp表示M_a与M_b之间在x轴上的皮尔逊相关系数，M_yp表示M_a与M_b之间在y轴上的皮尔逊相关系数，(X_ai,Y_ai)表示M_a的第i个触点坐标，(X_bi,Y_bi)表示M_b的第i个触点坐标。

在更优的技术方案中，8≤n≤13。

一种基于移动设备击键特征的身份识别装置，包括：击键特征采集模块、对照模块、身份识别模型、数据库模块和特征更新模块；其中：

所述击键特征采集模块用于：对身份待识别的用户，从其登录移动设备的击键过程中提取击键特征：飞跃时间序列、滞留时间序列和触点坐标序列；

所述对照模块用于：计算每个击键特征与注册时该击键特征之间的方差、欧拉距离和皮尔逊相关系数，得到用户登录的以下9个特征参数：飞跃时间序列方差、飞跃时间序列欧拉距离、飞跃时间序列皮尔逊相关系数、滞留时间序列方差、滞留时间序列欧拉距离、滞留时间序列皮尔逊相关系数、触点坐标序列方差、触点坐标序列欧拉距离和触点坐标序列皮尔逊相关系数；

所述身份识别模型用于：将特征参数提取模块得到的9个特征参数作为输入，并输出得到当前登录用户的身份是否合法；其中，所述身份识别模型采用前馈神经网络，基于若干正负样本训练得到，且正样本由合法用户登录时得到的所述9个特征参数构成，负样本由非法用户登录得到的所述9个特征参数构成；

所述数据库模块用于存储击键特征采集模块得到的击键特征；

所述特征更新模块用于：在当前登录用户的身份识别合法情况下，将其登录移动设备提取的击键特征与注册时的击键特征进行加权求平均，并更新作为注册时的击键特征。

一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器实现上述任一技术方案所述的身份识别方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时上述任一技术方案所述的身份识别方法。

有益效果

本发明的技术效果为：

①在数据预处理的过程中，本方法将前后两组击键特征相互对比得到的差异参数进行分析，而非直接将两组击键特征序列直接传入神经网络模型进行分析。这样的方式能够降低神经网络模型的复杂度，提高模型的训练速度与收敛速度的同时小幅度提高模型识别的精度；当出现新的差异特征时，对于模型的扩充也变得更加容易。预处理减少了神经网络的输入数据量，降低了本方法对于计算机的算力要求。

②采用序列方差、欧拉距离、皮尔逊相关系数量化两组击键特征之间的差异，这些数据能够直接反应出两组序列之间的差异大小或相似程度，一定程度上提高了本方法的准确度。

③对于移动设备的优化使得本方法能够很好的契合未来用户操作的潮流，本方法能够应用于一切装备了可触控屏幕，使用软键盘进行输入的智能设备，填补了传统击键特征识别方法无法利用用户触屏特征的空白。

总体来说，本方法能够更好的利用智能设备的触控屏幕提高击键特征识别的精确度，能够广泛应用于装备了可触控屏幕，使用软键盘进行输入的智能设备，数据预处理使得神经网络模型识别精度与识别效率更高，对设备算力的要求更低。

附图说明

图1是本发明实施例所述飞跃时间序列、滞留时间序列与用户击键行为之间的关系图；

图2是本发明实施例所述触点坐标相对于移动设备屏幕的关系图；

图3是本发明实施例所述装置的主要结构图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程，对本发明的技术方案作进一步解释说明。

实施例1

本实施例提供一种基于移动设备击键特征的身份识别方法，包括：

步骤1，对身份待识别的用户，从其登录移动设备的击键过程中提取击键特征：飞跃时间序列、滞留时间序列和触点坐标序列，并计算每个击键特征与注册时该击键特征之间的方差、欧拉距离和皮尔逊相关系数，得到用户登录的以下9个特征参数：飞跃时间序列方差、飞跃时间序列欧拉距离、飞跃时间序列皮尔逊相关系数、滞留时间序列方差、滞留时间序列欧拉距离、滞留时间序列皮尔逊相关系数、触点坐标序列方差、触点坐标序列欧拉距离和触点坐标序列皮尔逊相关系数。

在用户登录前需要用户提交注册。用户注册时，通过移动设备的触摸屏输入一组由n(8≤n≤13)位阿拉伯数字(0-9)组成的ID，该ID由用户自行决定。ID位数越高，识别准确度越高，ID的长度(位数)用n表示。以下内容以字符串“01234567”为例。

用户需按照自己的敲击习惯，分三次键入ID“01234567”。在用户输入的过程中，每次击键将会触发击键特征采集模块记录用户的击键特征：

(1)当用户按下第i(1≤i≤n)个按键，计时器A将开始计时，当用户手指抬起时，A停止计时，并将计时结果D_i存入滞留时间序列D；

(2)当用户手指从第i(1≤i<n)个按键抬起时，计时器B开始计时；当用户按下第i+1个按键时，计时器停止计时，并将计时结果I_i存入飞跃时间序列I。滞留时间序列D、飞跃时间序列I与用户击键行为之间的关系如图1所示。

(3)当用户按下第i(1≤i≤n)个按键时，取用户的触点坐标M_i(X_i,Y_i)，并将M_i存入触点坐标序列M。触点坐标M_i(X_i,Y_i)相对于屏幕的关系如图2所示。

在用户完成一轮输入后，击键特征采集模块将会采集到如下三组序列：

D:[D₁,D₂...D_n](8≤n≤13)，单位：ms，例如D:[55,97,22,58,47,67,22,66]；

I:[I₁,I₂...I_n-1](8≤n≤13)，单位：ms，例如I:[958,487,521,447,215,887,424]；

M:[(X₁,Y₁),(X₂,Y₂)...(X_n,Y_n)](8≤n≤13)，单位：px，例如：M:[(554,2114),(272,1672),(550,1667),(842,1688),(313,1808),(558,1833),(832,1807)]

随后，用户将继续进行两轮输入。为控制用户击键特征的质量，在注册过程中，注册时的击键特征是从注册时若干次重复的击键行为中提取并取平均得到，且限制相邻两轮输入之间击键特征的差异，具体限制为：在注册时的若干次重复的击键行为中，对于相邻两次的击键行为，若其飞跃时间序列皮尔逊相关系数和滞留时间序列皮尔逊相关系数中任意一个低于预设的系数阈值，则认为第二次击键行为无效，要求重新击键输入。

假设用户第一轮输入的击键特征为D_a,I_a,M_a，第二轮输入的击键特征为D_b,I_b,M_b。分别计算D_a与D_b，I_a与I_b之间的皮尔逊相关系数D_p和I_p。当D_p<0.5或I_p<0.5时，注册模块将要求用户重新输入。反之，注册模块将接受此轮输入的击键特征。

用户登录时，按照自己的敲击习惯，在移动设备触摸屏输入注册时设置的ID，击键特征识别模块将识别出此次输入过程中用户的击键特征，并转换为飞跃时间序列D_a、滞留时间序列I_a和触点坐标序列M_a，序列格式与注册流程中的格式相同。

随后，计算每个击键特征与注册时该击键特征之间的方差、欧拉距离和皮尔逊相关系数，得到用户登录的以下9个特征参数：飞跃时间序列方差、飞跃时间序列欧拉距离、飞跃时间序列皮尔逊相关系数、滞留时间序列方差、滞留时间序列欧拉距离、滞留时间序列皮尔逊相关系数、触点坐标序列方差、触点坐标序列欧拉距离和触点坐标序列皮尔逊相关系数。

两组飞跃时间序列之间的方差、欧拉距离以及皮尔逊相差系统的计算式为：

式中，I_v表示第a组飞跃时间序列I_a和第b组飞跃时间序列I_b之间的方差，用于量化两组特征序列之间的差异大小，其取值大于0，越接近0表示相似程度越高，反之越低。I_o表示飞跃时间序列I_a和飞跃时间序列I_b之间的欧拉距离，用于量化两组特征序列之间的差异大小，其取值大于0，越接近0表示相似程度越高，反之越低。I_p表示飞跃时间序列I_a和飞跃时间序列I_b之间的皮尔逊相关系数，用于量化两组特征序列之间的相关性，其取值区间为1<I_p<1，其越接近0则表示相关性越低，越接近1则表示正相关程度越高，越接近-1则表示负相关程度越高。I_ai表示I_a的第i个飞跃时间，I_bi表示I_b的第i个飞跃时间，n表示每次击键行为的按键个数。

式中，D_v表示第a组滞留时间序列D_a和第b组滞留时间序列D_b之间的方差，用于量化两组特征序列之间的差异大小，其取值大于0，越接近0表示相似程度越高，反之越低，D_o表示滞留时间序列D_a和滞留时间序列D_b之间的欧拉距离，用于量化两组特征序列之间的差异大小，其取值大于0，越接近0表示相似程度越高，反之越低。D_p表示滞留时间序列D_a和滞留时间序列D_b之间的皮尔逊相关系数，用于量化两组特征序列之间的相关性，其取值区间为1<D_p<1，其越接近0则表示相关性越低，越接近1则表示正相关程度越高，越接近-1则表示负相关程度越高。D_ai表示D_a的第i个滞留时间，D_bi表示D_b的第i个滞留时间。

式中，M_v表示第a组触点坐标序列M_a和第b组触点坐标序列M_b之间的方差，用于量化两组特征序列之间的相似程度，用于量化两组特征序列之间的相似程度。由于M_a、M_b两组序列的每一项均为一组二维坐标(x,y)构成，故在计算时，分别计算两序列中横坐标x值之间的方差与纵坐标y值之间的方差，并将其相加得到M_v。其取值区间为M_v>0，其越接近0表示相似程度越高，反之越低。

M_o表示触点坐标序列M_a和触点坐标序列M_b之间的欧拉距离，M_p表示触点坐标序列M_a和触点坐标序列M_b之间的皮尔逊相关系数M_xp表示M_a与M_b之间在x轴上的皮尔逊相关系数，M_yp表示M_a与M_b之间在y轴上的皮尔逊相关系数，(X_ai,Y_ai)表示M_a的第i个触点坐标，(X_bi,Y_bi)表示M_b的第i个触点坐标。

步骤2，将上述得到的9个特征参数输入至预先训练好的身份识别模型中，根据模型输出判断当前登录用户的身份是否合法。

本实施例中的身份识别模型采用前馈神经网络，前馈神经网络拥有输入层、隐藏层、输出层，各层神经元(节点)的数量分别为9、10、2。神经网络模型将根据输入的9个参数，返回一组向量，该向量为输出层两个节点的输出值，记为[T,F]。例：[0.9982,0.0018]。

当T>F且T-F>0.5时，认为此次用户输入时产生的击键特征能够证明用户身份，登录成功；反之则拒绝该用户进行下一步操作，登录失败。

其中，预先训练好的身份识别模型，是通过若干正负样本对前馈神经网络训练得到。正负样本在本实施例中的采集过程为：

寻找16名不同性别，不同年龄段的普通人，能够使用键盘进行输入的普通人作为测试者，每个测试者被要求填写其11位的中国大陆手机号码，这些号码之间互不相同。

将16个号码分发给每个测试者，随后测试者将会被要求完成以下3个部分的操作：

①注册操作：测试者使用自己的手机号作为ID进行注册。

②模拟合法用户登录：在完成注册后，每个测试者需在键盘上执行15次登录操作，即按照输入习惯输入上述ID,共15次，每次间隔30s-60s。这15次的击键特征序列并不参与后续的比对计算、神经网络分析等流程，仅被记录入数据库中。完成此步骤后，收集到了合法用户登录样本16*15＝240个。合法用户数据样本格式如下：

[

[D₁,D₂,D₃...,D₁₁],

[I₁,I₂,I₃,...,I₁₀],

[(X₁,Y₁),(X₂,Y₂),...,(X₁₁,Y₁₁)],

True

]

③模拟非法用户登录：每个测试者将会被要求按照自己的习惯输入其余十五名测试者的手机号码，测试者之间不允许交流。这些击键特征将会被记录入数据库中。完成此步骤后，收集到了非法用户登录样本16*15＝240个。

[

[D₁,D₂,D₃...,D₁₁],

[I₁,I₂,I₃,...,I₁₀],

[(X₁,Y₁),(X₂,Y₂),...,(X₁₁,Y₁₁)],

False

]

接着，对合法/非法用户的击键特征进行预处理。通过比对计算模块，每个样本将与对应用户注册时的击键特征进行对比，并得到I_v、I_o、I_p、D_v、D_o、D_p、M_v、M_o、M_p这9个参数，参数计算方法见上文。将这9个参数与样本类型进行格式化，格式如下：

[[I_v,I_o,I_p,D_v,D_o,D_p,M_v,M_o,M_p],[1,0]]

其中，[1,0]为样本的标签，规定[1,0]为正样本，[0,1]为负样本。

将上述480个样本随机分成400个训练样本与80个测试样本，按照上述格式完成格式化后，将开始训练神经网络。

正样本由合法用户登录时得到的所述9个特征参数构成，负样本由非法用户登录得到的所述9个特征参数构成。

另外，本实施例中的前馈神经网络的构建：使用Python3.7.2语言环境+numpy模块，在Windows10操作系统上搭建了一个具有9*10*2结构的BP前馈神经网络。

在搭建好BP前馈神经网络后，将上述包含400条数据的训练集导入神经网络模型，每batch随机选取20个进行学习，学习轮数为1000轮，训练完成后将各层权重保存至磁盘，方便下次调用。训练结束后在测试集上进行了测试，准确度为98.75％。

步骤3，若当前登录用户的身份识别合法，将其移动设备登录提取的击键特征按照20％的权重与注册时的击键特征进行加权求平均，并更新作为注册时的击键特征。

实施例2

本实施例提供一种基于移动设备击键特征的身份识别装置，如图3所示，包括：击键特征采集模块、对照模块、身份识别模型、数据库模块和特征更新模块；其中：

所述特征更新模块用于：在当前登录用户的身份识别合法情况下，将其移动设备登录提取的击键特征按照20％的权重与注册时的击键特征进行加权求平均，并更新作为注册时的击键特征。

实施例3

本实施例3提供一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器实现实施例1所述的方法。

实施例4

本实施例4提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现实施例1所述的方法。

以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请总的构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。

Claims

1.一种基于移动设备击键特征的身份识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，若当前登录用户的身份识别合法，将其登录移动设备提取的击键特征与注册时的击键特征进行加权求平均，并更新作为注册时的击键特征。

3.根据权利要求1所述的方法，其特征在于，所述飞跃时间序列是由所有相邻两个按键的按键飞跃时间依次组成的序列，按键飞跃时间是指：对于相邻两个按键，前一个按键弹起至下一个按键按下之间的间隔时间；

4.根据权利要求1所述的方法，其特征在于，注册时的击键特征是从注册时若干次重复的击键行为中提取并取平均得到。

5.根据权利要求4所述的方法，其特征在于，在注册时的若干次重复的击键行为中，对于相邻两次的击键行为，若其飞跃时间序列皮尔逊相关系数和滞留时间序列皮尔逊相关系数中任意一个低于预设的系数阈值，则认为第二次击键行为无效，要求重新击键输入。

6.根据权利要求1所述的方法，其特征在于，两组飞跃时间序列之间的方差、欧拉距离以及皮尔逊相差系统的计算式为：

7.根据权利要求1所述的方法，其特征在于，8≤n≤13。

8.一种基于移动设备击键特征的身份识别装置，其特征在于，包括：击键特征采集模块、对照模块、身份识别模型、数据库模块和特征更新模块；其中：

9.一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器实现如权利要求1～7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～7中任一项所述的方法。