CN110570199B

CN110570199B - 一种基于用户输入行为的用户身份检测方法及系统

Info

Publication number: CN110570199B
Application number: CN201910670687.2A
Authority: CN
Inventors: 王妍; 田雨; 李宁; 吕遒健; 李梅梅
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2022-10-11
Anticipated expiration: 2039-07-24
Also published as: CN110570199A

Abstract

本发明实施例提供一种基于用户输入行为的用户身份检测方法及系统，包括：获取用户的输入行为数据,从输入行为数据中获取用户的击键时间戳信息和用户击键键值信息；将用户击键时间戳信息输入到预设的击键时间识别模型中,获取用户击键时间戳信息对应的击键时间识别结果；将用户击键键值信息结合用户对应的个人词库,计算获得用户击键键值信息的异常评分；根据击键时间识别结果和异常评分对用户的身份进行识别，获取用户身份识别结果。本发明提供的方法，采用用户输入行为数据中的击键时间戳信息和用户击键的键值信息，综合判别用户的异常行为，对用户身份进行综合评估判定，更全面、精确地识别非法使用人员，具有更高的鲁棒性。

Description

一种基于用户输入行为的用户身份检测方法及系统

技术领域

本发明涉及网络安全技术领域，尤其涉及一种基于用户输入行为的用户身份检测方法及系统。

背景技术

信息技术的飞速发展在大幅度提高人们生活质量的同时也对信息安全提出了更高的要求，从而给信息安全领域的研究带来进一步的挑战。近年来，受网络攻击的影响，很多公司的网络被迫关闭；不法分子通过诈骗、钓鱼信息获取到用户登录的账号口令之后，便可盗刷该用户金融账户的钱财。

正因为如此依赖计算机来存储和处理我们生活当中的各种敏感信息，如何有效识别用户的身份成为了一个亟待解决的难题。为了甄别非法用户，系统使用更复杂的策略以及口令来对使用者进行检测。但安全性提升的同时，也对合法用户使用提出了更高的要求，需要记住更复杂的口令。针对这一问题，需要找出一种既能保护用户信息的安全又可以兼顾到用户使用体验度的异常身份检测方法。

用户在使用计算机的过程中必然会带有许多与其自身行为习惯或生理特点相关联的特性，而这些特性一而生，由于其较高的安全性和使用的便利性，目前己成为最为常用的身份认证技术之一。目前生物识别技术的研究主要集中在人脸、DNA序列、指般都是某一用户所独有的，通常难以复制或丢失，因而可以在很大程度上对用户的身份进行标识。这类特征一般称之为生物特征，基于生物特征的异常身份检测技术便应运纹、虹膜等生理特征上，而这类生物特征的釆集和提取需要价格昂贵的硬件设备进行辅助，基于此类生物识别技术对用户进行异常身份检测，主要用于某些特殊的场合，不利于大规模普及。

发明内容

为解决上述现有技术中存在的问题，本发明实施例提供一种基于用户输入行为的用户身份检测方法及系统。

第一方面，本发明实施例提供一种基于用户输入行为的用户身份检测方法，包括：获取用户的输入行为数据,从所述输入行为数据中获取用户的击键时间戳信息和用户击键键值信息；

将所述用户击键时间戳信息输入到预设的击键时间识别模型中,获取所述用户击键时间戳信息对应的击键时间识别结果；

将所述用户击键键值信息结合用户对应的个人词库,计算获得所述用户击键键值信息的异常评分；

根据所述击键时间识别结果和所述异常评分对所述用户的身份进行识别，获取用户身份识别结果。

其中，所述获取用户的输入行为数据之前的步骤还包括：获取所述用户的历史输入行为数据，根据所述历史输入行为数据中的用户击键键值信息，采用基于TF-IDF的主成分分析法，构建所述用户对应的个人词库。

其中，所述方法还包括：获取所述用户的多条击键时间戳信息，构建训练样本集；通过所述训练样本集对预设的模型进行训练，获得所述预设的击键时间识别模型。

其中，所述将所述用户击键键值信息结合所述用户对应的个人词库,计算获得所述用户击键键值信息的相似度信息的步骤，具体包括：获取用户击键键值信息，根据所述用户击键键值信息，获取用户输入的文本信息；根据所述文本信息，计算所述文本信息与所述用户对应的个人词库相似度信息；根据所述相似度信息对所述文本信息进行异常评分，获得文本信息异常评分。

其中，所述根据所述文本信息，计算所述文本信息与所述用户对应的个人词库相似度信息的步骤，具体包括：将所述用户对应的个人词库中的文本以及用户输入的文本信息转化为向量空间中的点；通过预设方法，计算获得所述用户输入的文本信息对应的向量空间中的点与个人词库中的文本对应向量空间中的点的距离；根据所述用户输入的文本信息对应的向量空间中的点与个人词库中的文本对应向量空间中的点的距离，计算获得所述文本信息与所述用户对应的个人词库相似度信息；其中，所述预设方法包括但不限于欧几里得距离方法，Jaccard系数方法和余弦距离方法中的任一种。

其中，所述方法还包括：根据所述文本信息中的敏感词汇，基于敏感关键词库，计算获得所述用户的情绪异常评分；将所述情绪异常评分和所述文本信息异常评分进行融合评分，获得所述用户的综合异常评分；将所述综合异常评分作为所述异常评分。

其中，所述根据所述击键时间识别结果和所述异常评分对所述用户的身份进行识别，获取用户身份识别结果的步骤，具体包括：若所述击键时间识别结果和所述异常评分达到预设条件，则判定所述用户为异常用户。

第二方面，本发明实施例提供一种基于用户输入行为的用户身份检测系统，包括：

输入信息获取模块，用于获取用户的输入行为数据,从所述输入行为数据中获取用户的击键时间戳信息和用户击键键值信息；

击键时延特征检测模块，用于将所述用户击键时间戳信息输入到预设的击键时间识别模型中,获取所述用户击键时间戳信息对应的击键时间识别结果；

文本检测模块，用于将所述用户击键键值信息结合用户对应的个人词库,计算获得所述用户击键键值信息的异常评分；

判定模块，用于根据所述击键时间识别结果和所述异常评分对所述用户的身份进行识别，获取用户身份识别结果。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面所提供的基于用户输入行为的用户身份检测方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所提供的基于用户输入行为的用户身份检测方法的步骤。

本发明实施例提供的基于用户输入行为的用户身份检测方法及设备，采用用户输入行为数据中的击键时间戳信息和用户击键的键值信息，综合判别用户的异常行为，对用户身份进行综合评估判定，更全面、精确地识别非法使用人员，具有更高的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的基于用户输入行为的用户身份检测方法的流程示意图；

图2为本发明另一实施例提供的基于用户输入行为的用户身份检测方法中，用户个人词库TF-IDF值示意图；

图3为本发明一实施例提供的基于用户输入行为的用户身份检测系统的结构示意图；

图4为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1，图1为本发明一实施例提供的基于用户输入行为的用户身份检测方法的流程示意图，所提供的方法包括：

S1，获取用户的输入行为数据,从所述输入行为数据中获取用户的击键时间戳信息和用户击键键值信息。

S2，将所述用户击键时间戳信息输入到预设的击键时间识别模型中,获取所述用户击键时间戳信息对应的击键时间识别结果。

S3，将所述用户击键键值信息结合用户对应的个人词库,计算获得所述用户击键键值信息的异常评分。

S4，根据所述击键时间识别结果和所述异常评分对所述用户的身份进行识别，获取用户身份识别结果。

具体的，目前用来对用户输入异常检测的数据集较少，多数通过按键键值模拟形成。本发明实施例中的击键采集过程可采集传统击键行为数据及用户输入词库，形成一套多维度的用户输入数据集。

采集程序编写考虑目标采集用户的操作环境及将来的扩展性、易用性，使用C语言编写控制台程序。为减少对用户的影响，程序尽量以服务或后台托管模式启动。考虑后期服务端配置的灵活性，采用FTP方式上传采集的数据文件，用户输入采集程序将连接到服务器的FTP服务，主动向服务端推送最新的文件。由于击键行为时间较短，使用传统Timmer捕获击键时间极易丢失数据，为了减少客户端采集程序的计算量、提高准确度，采集程序捕获击键时按下、抬起的时间戳及事件一同写入缓冲区。父进程一段时间会根据缓冲区有无更新，决定是否写入文件并上传服务器。

根据用户任意输入的长文本作为数据来源，在击键时间戳信息中，采集P-P时延(两次相邻的keyPressed事件的时间间隔)、P-R时延(某次keyPressed事件与随后的keyReleased事件的时间间隔)、R-P时延(某次keyReleased事件与随后的keyPressed事件的时间间隔)、R-R时延(两次相邻的keyReleased事件的时间间隔)等传统击键特征，同时捕获用户击键键值信息和用户输入的词汇。

在采集到击键时间戳信息后，对采集到的信息向量化，并输入到预设的击键时间识别模型中，从而可以获取针对用户击键异常的识别结果，在对击键时间戳信息进行识别的过程中，将多种分类方法相结合作为异常检测中的鉴别器，通过KNN、SVM以及逻辑回归等机器学习算法，对时间复杂度与训练样本量的两个方面优化平衡，使用线性加权融合的方式同分类器得出的异常结果进行融合，最终得出用户击键时间识别结果。

在针对文本信息的识别过程中，对当前用户输入的文本信息向量化后，通过该用户对应的个人词库，利用相似度算法，判别用户输入的文本的相似度匹配信息，从而判断用户输入的内容是否与正常用户相符。

获取击键时间识别结果和击键键值信息的异常评分后，通过决策树，对该用户进行综合评分，从而对用户的身份进行识别，当该用户异常评分达到预设阈值时，判别该输入用户为非正常用户。

通过此方法，采用用户输入行为数据中的击键时间戳信息和用户击键的键值信息，综合判别用户的异常行为，对用户身份进行综合评估判定，更全面、精确地识别非法使用人员，具有更高的鲁棒性。

在上述实施例的基础上，所述获取用户的输入行为数据之前的步骤还包括：

获取所述用户的历史输入行为数据，根据所述历史输入行为数据中的用户击键键值信息，采用基于TF-IDF的主成分分析法，构建所述用户的个人词库。

具体的，为了使用户的画像更加形象准确，提高异常检测的准确率，本发明实施例充分考虑了用户输入词库特征，增添了对中文的支持，将合法用户词库中的词语作为表征文本特征的子集。为了减小词库维度、提升处理效率，使用基于词逆向文档频率(TF-IDF)的主成分分析法，得到词库中每个词的权值，筛选出一个新的词库简称索引词库。

TF-IDF特征提取算法是将文本中的有效词(去除停用词、虚词、重复等无意义词)作为文本的特征项，再利用统计的原理提取其中的重要特征项。其中TF(Term Frequency)表示词在文档中出现的频率，IDF(Inverse Document Frequency)表示逆文档频率，是文档频率DF(Document Frequency)的倒数，DF是特征项tk在文档集合D＝{d1,d2,…,dn}中出现的文档数。利用TF-IDF算法的思想，则词t在文档d中的权重由公式计得出：

w(t，d)＝tf(t，d)×idf(t)

其中tf(t,d)表示词t在文档d中出现的频数。idf(t)表示词t的逆文档频数，计算公式如下：

其中N表示文档集中的文本总数，n_t表示词t在文档集中出现的文档数。此外，文本长度也是需要考虑的因素之一，越长的文本信息量越大，因此需要归一化处理以消除文本长度的影响。TF-IDF的权值计算公式有诸多改进形式，经典公式如下：

TF-IDF综合考虑了词在文本中的代表性以及区分度。词在文档中出现的次数越多，说明该词对文本的中心思想表达所做的贡献越大，越具有代表性。而逆文本频率IDF越大，说明该词在用户中都出现过，越没有区分度。

在上述实施例的基础上，所述方法还包括：获取所述用户的多条击键时间戳信息，构建训练样本集；通过所述训练样本集对预设的模型进行训练，获得所述预设的击键时间识别模型。

具体的，对击键时间戳识别之前，还需要通过训练样本集来对预设的模型进行训练，通过采集正常用户的多条击键时间戳信息，构建训练样本集，采用机器学习算法，对预设模型进行训练，获得用于对用户击键时间戳信息进行识别的机器学习模型。

在上述实施例的基础上，所述将所述用户击键键值信息结合所述用户对应的个人词库,计算获得所述用户击键键值信息的相似度信息的步骤，具体包括：获取用户击键键值信息，根据所述用户击键键值信息，获取用户输入的文本信息；根据所述文本信息，计算所述文本信息与所述用户对应的个人词库相似度信息；根据所述相似度信息对所述文本信息进行异常评分，获得文本信息异常评分。

所述根据所述文本信息，计算所述文本信息与所述用户对应的个人词库相似度信息的步骤，具体包括：将所述用户对应的个人词库中的文本以及用户输入的文本信息转化为向量空间中的点；通过预设方法，计算获得所述用户输入的文本信息对应的向量空间中的点与个人词库中的文本对应向量空间中的点的距离；根据所述用户输入的文本信息对应的向量空间中的点与个人词库中的文本对应向量空间中的点的距离，计算获得所述文本信息与所述用户对应的个人词库相似度信息；其中，所述预设方法包括但不限于欧几里得距离方法，Jaccard系数方法和余弦距离方法中的任一种。

具体的，在用户对应的个人词库中，将文本转化为向量空间中的点来标识，形式为d＝(t1,t2,…,tn；w1,w2,…,wn)，因此可以将两个文本之间的距离转化为向量空间中两点之间的距离。计算向量之间的距离有欧几里得距离、Jaccard系数、余弦距离等多种方法，本实施例中使用余弦距离来计算。余弦距离是由空间中两个文本向量夹角的余弦值来表示的，主要用于衡量两个文本之间差异的大小。与欧式距离不同，余弦距离能很好地区分向量在方向上的差异，公式如下：

通过公式得到的余弦值的范围为[0,1]，该值越大表明两向量之间夹角越小，则两个文本之间越相似。通过使用单位1与余弦值作差，得到即为用户异常程度的评分。

在上述实施例的基础上，所述方法还包括：根据所述文本信息中的敏感词汇，基于敏感关键词库，计算获得所述用户的情绪异常评分；将所述情绪异常评分和所述文本信息异常评分进行融合评分，获得所述用户的综合异常评分；将所述综合异常评分作为所述异常评分。

具体的，对于输入内容层面，正常用户情绪波动较小，输入内容出现敏感词汇频率较低。当输入者受情绪影响，频繁输入一些敏感或带有感情色彩的负面词汇时，通过与敏感关键词库的对比，可以得出用户输入时情绪的异常评分，作为评价标准。

在同等量级的用户样本数据下，使用用户词库作为检测特征，对异常身份用户的识别效果较好。若综合传统及情绪识别的方式，可以进一步提升异常检测的精度，实现基于用户输入行为进行异常身份检测的目的。

在上述实施例的基础上，所述根据所述击键时间识别结果和所述异常评分对所述用户的身份进行识别，获取用户身份识别结果的步骤，具体包括：若所述击键时间识别结果和所述异常评分达到预设条件，则判定所述用户为异常用户。

具体的，在通过机器学习模型获得了击键时间识别结果，同时通过比对用户输入的文本信息以及用户对应的个人词库的相似度获得用户击键键值信息的异常评分后，通过用户异常融合评分决策树，获得用户身份的最终识别结果。当判定用户身份异常时，则对异常身份用户进行展示和输出。

综上所述，本发明实施例提供的方法，结合了传统用户击键频率、词库及情感多特征，从不同的维度使用不同检测算法对用户打分，最终融合各类评分，对用户身份进行综合评估判定，更全面、精确地识别非法使用人员，具有更高的鲁棒性。

在本发明的另一实施例中，为了迅速而有效地采集到足够多的数据，在前期在较长的时间内分别对多名志愿者进行了数据采集。48天左右的时间内共邀请了5位参与者，收集了大约2.65万条中文输入记录，1.12万条英文字符数据。所有的参与者均具备一定的计算机知识，采集的数据经过简单处理后写入文件，以便后期过滤出有用的行为数据，然后统计分析，根据不同的模型进行相应的特征提取。

通过代码对注册表键值的修改实现监控系统中的监控端的自加载。为了防止监控采集程序因文件位置变动造成启动失败，程序将在第一次启动时将文件拷贝到用户个人文件夹中，同时避免了权限的问题。

对于用户词库的分析模型，首先需要对不同用户输入的词库进行预处理，建立起分析模型。而分析模型中对于中文词汇的处理最为重要，经过调研此处使用TF-IDF进行特征提取，随后使用余弦相似度的方法计算正常用户特征提取后的词向量与当前输入的用户词汇向量的夹角，余弦值越接近1，就表明夹角越接近0度，即两个向量越相似。

为了验证对比不同用户之间个人词库的差异，挖掘词库的特征，对前期采集的数据进行了预处理，并简单分析对比。选取采集用户5人的中文词库数据，合计26520条。其中该5名用户中的某位A用户作为对比的主要对象。A用户个人中文词汇合计3186条，与4名其他用户产生的23334条词汇进行词条匹配，结果如下表1所示：

表1

可见，对于不同用户输入的中文词汇而言，A用户与其他4名测试者的词条相似度约为15.98％。但使用用户输入的汉语拼音进行匹配时发现，相似度有所提升，达到了19.27％。

以上分析中，不同用户存在着较多的相同常用语，对于后期用户词库的分类及异常检测存在较大影响，因此对用户中文词库的有效性筛选显得尤为重要。此处采用TF-IDF对用户输入特征进行进一步提取处理。

选取三位用户A、B、C的数据，使用TF-IDF进行特征提取后进行预选相似度检测，得到A-B用户、A-C用户、B-C用户的词库相似度。

经过TF-IDF特征提取后的A、B、C三位用户的部分索引词库及词汇对应的TF-IDF值如图2所示。通过分析计算得到的TF-IDF值，可以有效辨别每个用户的不同输入特征。

随后使用余弦相似度算法对三位用户的词库差异进行相似度检测，结果如表2所示。

表2

可见，三位用户的词库差异较大，特别是用户B与用户C、用户A与用户C之间的词库相似度分别为2.18％、3.04％。即便用户A与用户B较为相似，但相似度也仅有11.82％，即A、B用户输入的词汇异常行为评分约为88分。若B冒充A进行输入，将很容易识别出二者的行为差异，便于系统给出异常身份的警示信息。

对于使用词库对用户异常身份检测的准确度如表3所示。

表3

	用户A-用户B	用户B-用户C	用户A-用户C
				FRR	0.03％	0.05％	0.04％
FAR	0.06％	0.04％	0.07％

对于仅使用用户的输入词库作为异常身份检测的方式，本系统的FRR与FAR均比传统击键识别的方式有所降低，降低到了万分之三至万分之七的错误率之内。

可见，在同等量级的用户样本数据下，使用用户词库作为检测特征，对异常身份用户的识别效果较好。若综合传统及情绪识别的方式，可以进一步提升异常检测的精度，实现基于用户输入行为进行异常身份检测的目的。

参考图3，图3为本发明一实施例提供的基于用户输入行为的用户身份检测系统的结构示意图，所提供的系统包括：输入信息获取模块31，击键时延特征检测模块32，文本检测模块33和判定模块34。

其中，输入信息获取模块31用于获取用户的输入行为数据,从所述输入行为数据中获取用户的击键时间戳信息和用户击键键值信息；

击键时延特征检测模块32用于将所述用户击键时间戳信息输入到预设的击键时间识别模型中,获取所述用户击键时间戳信息对应的击键时间识别结果；

文本检测模块33用于将所述用户击键键值信息结合用户对应的个人词库,计算获得所述用户击键键值信息的异常评分；

判定模块34用于根据所述击键时间识别结果和所述异常评分对所述用户的身份进行识别，获取用户身份识别结果。

需要说明的是，输入信息获取模块31，击键时延特征检测模块32，文本检测模块33和判定模块34配合以执行上述实施例中的基于用户输入行为的用户身份检测方法，该系统的具体功能参见上述的基于用户输入行为的用户身份检测方法的实施例，此处不再赘述。

图4示例了一种电子设备的结构示意图，如图4所示，该服务器可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和总线440，其中，处理器410，通信接口420，存储器430通过总线440完成相互间的通信。通信接口440可以用于服务器与智能电视之间的信息传输。处理器410可以调用存储器430中的逻辑指令，以执行如下方法：获取用户的输入行为数据,从所述输入行为数据中获取用户的击键时间戳信息和用户击键键值信息；将所述用户击键时间戳信息输入到预设的击键时间识别模型中,获取所述用户击键时间戳信息对应的击键时间识别结果；将所述用户击键键值信息结合用户对应的个人词库,计算获得所述用户击键键值信息的异常评分；根据所述击键时间识别结果和所述异常评分对所述用户的身份进行识别，获取用户身份识别结果。

本实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取用户的输入行为数据,从所述输入行为数据中获取用户的击键时间戳信息和用户击键键值信息；将所述用户击键时间戳信息输入到预设的击键时间识别模型中,获取所述用户击键时间戳信息对应的击键时间识别结果；将所述用户击键键值信息结合用户对应的个人词库,计算获得所述用户击键键值信息的异常评分；根据所述击键时间识别结果和所述异常评分对所述用户的身份进行识别，获取用户身份识别结果。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取用户的输入行为数据,从所述输入行为数据中获取用户的击键时间戳信息和用户击键键值信息；将所述用户击键时间戳信息输入到预设的击键时间识别模型中,获取所述用户击键时间戳信息对应的击键时间识别结果；将所述用户击键键值信息结合用户对应的个人词库,计算获得所述用户击键键值信息的异常评分；根据所述击键时间识别结果和所述异常评分对所述用户的身份进行识别，获取用户身份识别结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式并可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于用户输入行为的用户身份检测方法，其特征在于，包括：

获取用户的输入行为数据,从所述输入行为数据中获取用户的击键时间戳信息和用户击键键值信息；

根据所述击键时间识别结果和所述异常评分对所述用户的身份进行识别，获取用户身份识别结果；

所述获取用户的输入行为数据之前的步骤还包括：

获取所述用户的历史输入行为数据，根据所述历史输入行为数据中的用户击键键值信息，采用基于TF-IDF的主成分分析法，构建所述用户对应的个人词库；

所述将用户击键键值信息结合所述用户对应的个人词库,计算获得所述用户击键键值信息的相似度信息的步骤，具体包括：

获取用户击键键值信息，根据所述用户击键键值信息，获取所述用户输入的文本信息；

根据所述文本信息，计算所述文本信息与所述用户对应的个人词库相似度信息；

根据所述相似度信息对所述文本信息进行异常评分，获得文本信息异常评分；

所述方法还包括：

根据所述文本信息中的敏感词汇，基于敏感关键词库，计算获得所述用户的情绪异常评分；

将所述情绪异常评分和所述文本信息异常评分进行融合评分，获得所述用户的综合异常评分；

将所述综合异常评分作为所述异常评分。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述用户的多条击键时间戳信息，构建训练样本集；

通过所述训练样本集对预设的模型进行训练，获得所述预设的击键时间识别模型。

3.根据权利要求1所述的方法，其特征在于，所述根据所述文本信息，计算所述文本信息与所述用户对应的个人词库相似度信息的步骤，具体包括：

将所述用户对应的个人词库中的文本以及用户输入的文本信息转化为向量空间中的点；

通过预设方法，计算获得所述用户输入的文本信息对应的向量空间中的点与个人词库中的文本对应向量空间中的点的距离；

根据所述用户输入的文本信息对应的向量空间中的点与个人词库中的文本对应向量空间中的点的距离，计算获得所述文本信息与所述用户对应的个人词库相似度信息；

其中，所述预设方法包括但不限于欧几里得距离方法，Jaccard系数方法和余弦距离方法中的任一种。

4.根据权利要求1所述的方法，其特征在于，所述根据所述击键时间识别结果和所述异常评分对所述用户的身份进行识别，获取用户身份识别结果的步骤，具体包括：

若所述击键时间识别结果和所述异常评分达到预设条件，则判定所述用户为异常用户。

5.一种基于用户输入行为的用户身份检测系统，其特征在于，包括：

判定模块，用于根据所述击键时间识别结果和所述异常评分对所述用户的身份进行识别，获取用户身份识别结果；

在所述获取用户的输入行为数据之前还包括：

所述系统还包括：

异常评分计算模块，用于根据所述文本信息中的敏感词汇，基于敏感关键词库，计算获得所述用户的情绪异常评分；

将所述情绪异常评分和所述文本信息异常评分进行融合评分，获得所述用户的综合异常评分；以及

将所述综合异常评分作为所述异常评分。

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述基于用户输入行为的用户身份检测方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4任一项所述基于用户输入行为的用户身份检测方法的步骤。