CN109635872B

CN109635872B - 身份识别方法、电子设备及计算机程序产品

Info

Publication number: CN109635872B
Application number: CN201811544459.2A
Authority: CN
Inventors: 夏玉明; 魏国富; 汲丽; 葛胜利; 马振
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2020-08-04
Anticipated expiration: 2038-12-17
Also published as: CN109635872A

Abstract

本申请实施例中提供了一种身份识别方法、电子设备及计算机程序产品。采用本申请中的方案，获取预测数据；从预测数据中剔除第一传感器信息，形成第一识别数据；将第一识别数据输入预先训练好的第一分类模型中，得到第一身份识别初始结果；将第一身份识别初始结果作为识别信息加入预测数据中，形成第二识别数据；将第二识别数据输入预先训练好的第二分类模型中，得到身份识别最终结果，其中，身份识别最终结果为本人操作，或者，非本人操作。本申请对不包含传感器信息的识别数据进行识别，得到初始结果；再对加入初始结果的预测数据进行识别，得到最终结果，在保证用户体验度良好的情况下，提升了身份识别的准确性与安全性。

Description

身份识别方法、电子设备及计算机程序产品

技术领域

本申请涉及信息安全技术，具体地，涉及一种身份识别方法、电子设备及计算机程序产品。

背景技术

身份识别的技术迭代过程，大致经历了四代的发展。

最初的时代应该是PC(Personal Computer，个人计算机)时代，此时的身份识别技术主要是静态密码的应用，传统“账户+密码”的登录方式，保证的是账号与密码的匹配度，无法区别到“人”的唯一性，虽然简单快捷，但安全性相对较差，如弱口令，密码复用，撞库等风险，同时钓鱼技术的出现，暴力破解等也使得静态密码的应用受到考验，同时随着应用的越来越多，密码变多，导致密码遗忘的问题使得用户的体验度变差。

第二代便开始弥补以前的不足，外加了硬件设备防止密码破解和遗忘问题，即第二代技术U盾的出现，此时U盾拥有证书系统，安全等级高，但同时由于技术方案复杂，所以建设维护成本居高，用户体验度差。

第三代是手机的出现导致的移动时代的到来，随着网联网行业的发展，由静态密码转向动态密码，也就是短信验证码，此方法方便快捷也并没有遗忘的可能，但作为区别人和机器的手段，字符、语音、短信、图片验证码、滑动拼图等的风险同样颇高，比如由于发送短信的时间差限制，短信验证码易被劫持，图片验证码也存在被轻易破解的可能。

随着大数据时代的到来，第四代身份识别技术开始出现，即各种指纹、人脸、声纹等生物识别方式，此技术安全等级很高、轻量级、用户体验度直线上升，但在人工智能时代，破解、伪造和复制生物特征的手段也层出不穷，利用AI(Artificial Intelligence，人工智能)技术，如今已经能够伪造极度仿真的公众人物表情、神态及动作，生成难以识别的虚假视频，所以有些身份识别依然存在风险，当风险出现时，此类生物特征的唯一性也决定了一旦特征丢失也无法修改自己的特征，从而被坏人持续利用。所以此时，亟需新技术的出现改善各种存在安全隐患的身份识别场景。

现有技术的普遍缺点是识别的不唯一性，甚至通过某些技术能轻易的复制，安全隐患较大，同时用户体验度较差，不能满足科技时代的发展现状，亟需一种新的技术，在保证用户体验度良好的情况下，提升身份识别的准确性与安全性。

发明内容

本申请实施例中提供了一种身份识别方法、电子设备及计算机程序产品。

根据本申请实施例的第一个方面，提供了一种身份识别方法，包括：

获取预测数据，其中，所述预测数据包括第一设备信息、第一行为信息、第一传感器信息；

从所述预测数据中剔除所述第一传感器信息，形成第一识别数据；

将所述第一识别数据输入预先训练好的第一分类模型中，得到第一身份识别初始结果，其中，所述第一身份识别初始结果为本人操作，或者，非本人操作；

将所述第一身份识别初始结果作为识别信息加入所述预测数据中，形成第二识别数据；

将所述第二识别数据输入预先训练好的第二分类模型中，得到身份识别最终结果，其中，所述身份识别最终结果为本人操作，或者，非本人操作。

根据本申请实施例的第二个方面，提供了一种电子设备，所述电子设备包括：显示器，存储器，一个或多个处理器；以及一个或多个模块，所述一个或多个模块被存储在所述存储器中，并被配置成由所述一个或多个处理器执行，所述一个或多个模块包括用于执行上述第一个方面任一所述方法中各个步骤的指令。

根据本申请实施例的第三个方面，提供了一种计算机程序产品，所述计算机程序产品对用于执行一种过程的指令进行编码，所述过程包括上述第一个方面中任一项所述的方法。

采用本申请实施例中提供的方法，先对不包含传感器信息的识别数据进行识别，得到初始结果；再对加入初始结果的预测数据进行识别，得到最终结果，在保证用户体验度良好的情况下，提升了身份识别的准确性与安全性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为申请一实施例提供的一种身份识别方法的流程示意图；

图2为本申请一实施例提供的一种电子设备结构示意图。

具体实施方式

在实现本申请的过程中，发明人发现，现有的方法的普遍缺点是识别的不唯一性，甚至通过某些技术能轻易的复制，安全隐患较大，同时用户体验度较差，不能满足科技时代的发展现状。

针对上述问题，本申请实施例中提供了一种身份识别方法、电子设备及计算机程序产品，先对不包含传感器信息的识别数据进行识别，得到初始结果；再对加入初始结果的预测数据进行识别，得到最终结果，在保证用户体验度良好的情况下，提升了身份识别的准确性与安全性。

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

参见图1，本实施例所示的身份识别方法的实现流程如下：

在通过图1所示的方法进行识别时需要用到2个训练好的分类模型，分别为第一分类模型和第二分类模型。因此，在介绍图2所示的身份识别方法之前，需要训练该2个分类模型。

下面先介绍2个分类模型的训练过程。

步骤1，获取多条历史数据。

其中，每条历史数据包括第二设备信息、第二行为信息、第二传感器信息、标签信息。

本步骤可以获取全部的历史数据，也可以获取最近1个月，2个月，3个月，…，1年，2年等预设时间段内的历史数据，还可以获取北京地区，上海地区，…，中国区域等预设地理范围内的历史数据，还可以获取满足预设条件的历史数据。本实施例不对历史数据的获取方法，以及历史数据满足的条件进行限定。

另外，第二设备信息，第二行为信息，第二传感器信息中的“第二”仅为与后续预测数据中的设备信息、行为信息、传感器信息进行区分，并无实际含义。也即历史数据包括设备信息、行为信息、传感器信息、标签信息。预测数据包括设备信息、行为信息、传感器信息。为了区分二者的设备信息、行为信息、传感器信息，将历史数据的设备信息、行为信息、传感器信息命名为第二设备信息，第二行为信息，第二传感器信息。

在获取到历史数据后，历史数据包括多种信息，本提案会对历史数据的信息进行分类整理，本提案主要用到四部分数据设备信息、行为信息、传感器信息和标签信息，每部分数据对应相应的功能，且要分开进行处理，以方便后面的应用。

整理后的每条历史数据均包括第二设备信息、第二行为信息、第二传感器信息、标签信息。

1、设备信息

对于任一第二设备信息，其具体包括第二基础数据和第二个性特征值。

(1)基础数据

基础数据主要用于用户的人机识别方面，每一个用户用来触发风控请求的设备信息作为一条数据，字段间用逗号分割，用户之间用换行分割，文件按照csv的格式进行保存。

其中，第二基础数据包括：用户标识(可以为uuid)、设备标识(可以为device_id)、设备指纹(其中设备指纹是用户采用设备进行注册时为其分配的设备唯一标识，后续设备进行通信时，每条消息都会带有该设备指纹，已标识自己的身份)、操作系统信息(可以为sdkversion)、是否存在cydiasubstrate插件(其中cydiasubstrate插件为操作系统中的一个插件)、debuggable配置(其中debuggable为开通或关闭调试的配置，debuggable为0时关闭调试，debuggable为1时开通调试)、developmodelable配置、是否获得root权限(其中root权限是系统权限的一种，也叫根权限，与SYSTEM权限相同，但高于Administrator权限，获得root权限之后就意味着已经获得了系统的最高权限，这时候可以对系统中的任何文件(包括系统文件)执行所有增、删、改、查的操作)、是否使用simulator模拟器(其中simulator模拟器会模仿实际设备的行为)、是否采用static hook(其中hook是一个处理消息的程序段，通过系统调用，把它挂入系统。每当特定的消息发出，在没有到达目的窗口前，钩子程序就先捕获该消息)、是否采用xposed框架(xposed框架可以在不修改APK(Application Package，应用程序安装包)的情况下影响程序运行(修改系统)的框架服务，基于它可以制作出许多功能强大的模块，且在功能不冲突的情况下同时运作)、操作系统安装时间(可以为firstinstalltime)、操作系统最近更新时间(可以为lastupdatetime)、APK大小(可以为apksize)、APP(Application，计算机应用程序)版本号(可以为versioncode)、已安装APP信息、已安装APP数量(可以为applist_count)、电池健康状况(可以为health)、电池电量(可以为power)、电池温度(可以为temperature)、电池电压(可以为voltage)、SD(Secure Digital，安全数码)卡可用储存块数量(可以为sdcardavailcount)、SD卡储存块数量(可以为sdcardblockcount)、SD卡储存块大小(可以为sdcardblocksize)、网络连接状态、WIFI(Wireless Fidelity，无线局域网)状态(可以为wifistate)、频率信息(可以为frequency)、IP(Internet Protocol，互联网协议)地址(可以为ipaddress)、是否隐藏路由器广播地址(可以为ishiddenssid)、网络连接速度(可以为linkspeed)、MAC(Media AccessControl，媒体访问控制)地址(可以为macaddress)、网络标识(可以为networkid)、路由器广播地址(可以为ssid)、处理器信息(可以为processor)、CPU(Central Processing Unit，中央处理器)数量(可以为cpunum)、CPU运行速度(可以为bogomips)、网络运营商信息(可以为networkoperator)、网络是否漫游(可以为networkroaming)、SIM(SubscriberIdentification Module，用户身份识别)卡运营商信息(可以为simoperator)、SIM卡状态(可以为simstate)、系统应用数量。

(2)个性特征值

基础数据经过特征工程化后，可直接作为特征训练分类模型，但其中不乏可再次深入挖掘的特征，所以，在基础数据的基础上，进一步整理，提取到用户应用列表和连网类型等数据，作为‘个性特征值’加入到特征工程中。

具体的，第二个性特征值包括：第二系统应用占比、第二特殊值、第二应用属性值和第二网络属性值。

·系统应用占比

其中，系统应用占比可以记为sys_app_ratio。

系统应用占比＝已安装APP数量/(已安装APP数量+系统应用数量)。

具体的，第二系统应用占比＝任一第二设备信息中的已安装APP数量/(任一第二设备信息中的已安装APP数量+任一第二设备信息中的系统应用数量)。

例如对于任一条历史数据Q，其包括第二设备信息Q，第二设备信息Q中的第二系统应用占比＝第二设备信息Q中的已安装APP数量/(第二设备信息Q中的已安装APP数量+第二设备信息Q中的系统应用数量)。

系统应用占比可反映出设备的许多信息，系统应用占比应该在一个合理的范围内，当系统应用占比过低时，应该再细致分析，当系统应用占比过高时，大概率认定为异常用户代表，其中可能为薅羊毛用户或代购用户。

·特殊值

第二特殊值，通过如下方式确定：

4-1-2-1，确定任一第二设备信息中的已安装APP信息，是否包含预先存储的APP信息。

4-1-2-2，若包含，则第二特殊值＝1；若不包含，则第二特殊值＝0。

其中，预先存储的APP信息的存储方式可以为一个常用APP列表，预先存储的APP信息的含义是正常用户在手机中基本都会安装的APP信息。例如：微信、支付宝、QQ、淘宝等。

预先存储的APP信息可以为一个，也可以为多个，本实施例不对预先存储的APP信息数量进行限定。

任一第二设备信息中只要包括预先存储的APP信息中的任一个，则第二特殊值＝1，任一第二设备信息中一个预先存储的APP信息均为包含时，第二特殊值＝0。

·应用属性值

由于应用的文字特征含有大量的文字信息，且用户数量巨大，因此本实施例过滤掉常见词语，而保留重要词语，并基于用户标识和设备标识得到应用属性值，通过综合描述应用的文字特征。

第二应用属性值，通过如下方式确定：

4-2-2-1，确定多条历史数据中各用户标识对应的设备标识。

以用户标识为uuid，设备标识为device_id为例，一条历史数据会包括一个uuid和一个device_id。不同的历史数据中会有uuid相同，但对应device_id不同的情况。

本实施例以uuid为主键，对步骤1中获取的所有历史数据进行整理，找到每个uuid对应的所有device_id。进而实现uuid与device_id配对。

4-2-2-2，根据多条历史数据的已安装APP信息，确定4-2-2-1中得到的各设备标识所对应的已安装APP。

对步骤1中获取的所有历史数据进行整理，找到每个device_id所对应的已安装APP。

4-2-2-3，通过如下公式确定多条历史数据中各用户标识对应的各已安装APP的词频：

其中，

为多条历史数据中任一用户标识u对应的任一已安装APPv的词频，

为在任一用户标识u对应的所有设备标识中，与任一已安装APPv对应的设备标识数量，N^u为在任一用户标识u对应的所有设备标识中，对应的已安装APP的总数量。

例如，任一用户标识u的uuid为u，其对应2个device_id，分别为device_id1和device_id2，device_id1对应2个安装APP，分别为微信和支付宝，device_id2对应3个安装APP，分别为微信、QQ和淘宝。则

对于微信，微信的

为device_id1和device_id2中，与微信对应的设备标识数量1(因为device_id1和device_id2均包括微信)，微信的N^u为device_id1和device_id2，对应的已安装APP的总数量5(device_id1的微信、支付宝和device_id2的微信、QQ、淘宝)，微信的

为微信的

/微信的N^u＝2/5＝0.4。

对于支付宝，支付宝的

为device_id1和device_id2中，与支付宝对应的设备标识数量1(只有device_id1包括支付宝)，支付宝的N^u为device_id1和device_id2，对应的已安装APP的总数量5，支付宝的

为支付宝的

/支付宝的N^u＝1/5＝0.2。

对于QQ，QQ的

为device_id1和device_id2中，与QQ对应的设备标识数量2(只有device_id2包括QQ)，支付宝的N^u为device_id1和device_id2，对应的已安装APP的总数量5，QQ的

为QQ的

/支付宝的N^u＝1/5＝0.2。

对于淘宝，淘宝的

为device_id1和device_id2中，与淘宝对应的设备标识数量1(只有device_id2包括淘宝)，淘宝的N^u为device_id1和device_id2，对应的已安装APP的总数量5，淘宝的

为淘宝的

/淘宝的N^u＝1/5＝0.2。

4-2-2-4，通过如下公式确定多条历史数据中各用户标识对应的各已安装APP的逆向文件频率：

其中，

为任一用户标识u对应的任一已安装APPv的逆向文件频率，M′_v为多条历史数据中，对应任一已安装APPv的用户标识的数量，M′为多条历史数据中用户标识的总数量。

考虑到常用词的出现，还需要计算该词条在语料库中的权重才能更全面的反映其重要程度，因此

反应词条在语料库中的权重。

例如，步骤1中获取的所有历史数据整理后，不同的uuid有10个，即步骤1中获取的所有历史数据涉及10个用户。若10个uuid中有6个uuid对应的device_id中包括微信，则M′＝10，微信的M′_v为6，微信的

4-2-2-5，基于多条历史数据中各用户标识对应的各已安装APP的词频和多条历史数据中各用户标识对应的各已安装APP的逆向文件频率，将多条历史数据中的用户标识分为第一预设数量类。

计算出单词权重后，再将关键词映射到空间点上，由算法进行聚类，这里我们由应用列表的数据属性将聚类类别数(第一预设数量)设定为15。

此处第一预设数量中的“第一”仅为标识作用，并无实际含义，用于与后续的预设数量进行区分。即此处的预设数量命名为第一预设数量，后续再出先预审数量命名为第二预设数量。

另外，第一预设数量的值与第二预设数量的值是否相同，本实施例不做限定。第一预设数量可以与第二预设数量相同，第一预设数量也可以与第二预设数量不同。

4-2-2-6，将任一第二设备信息中用户标识所属的类别值作为第二应用属性值。

·网络属性值

第二网络属性值，通过如下方式确定：

4-3-2-1，根据任一第二设备信息的网络连接状态确定是否联网，若根据任一第二设备信息的网络连接状态确定未联网，则第二网络属性值＝-1，若根据任一第二设备信息的网络连接状态确定联网，则执行4-3-2-2。

4-3-2-2，若任一第二设备信息的IP地址与预先存储的IP地址匹配，或者，任一第二设备信息的MAC地址与预先存储的MAC地址匹配，则第二网络属性值＝1；若任一第二设备信息的IP地址与预先存储的IP地址不匹配，且任一第二设备信息的MAC地址与预先存储的MAC地址不匹配，则第二网络属性值＝0。

设备联网类型包括流量、WIFI和未连接网络三种，当设备连接WIFI时，可以获取到用户的MAC地址，当手机连接流量时，可以获取到用户的2G、3G、4G信息，此时风控系统中会保存用户的常用IP列表和MAC地址。本步骤中可以将实时传递回的风控信息与风控系统中历史信息进行匹配，若匹配成功则返回1，若匹配不成功则返回0，若用户未联网或连接2G、3G网络，则此时返回-1，这些信息也将作为一个特征工程放入到训练模型中。

另外，第二基础数据、第二个性特征值、第二系统应用占比、第二特殊值、第二应用属性值和第二网络属性值中的“第二”仅为与后续预测数据的设备信息包括的基础数据、个性特征值、系统应用占比、特殊值、应用属性值和网络属性值进行区分，并无实际含义。也即历史数据的设备信息包括基础数据、个性特征值、系统应用占比、特殊值、应用属性值和网络属性值。预测数据的设备信息包括基础数据、个性特征值、系统应用占比、特殊值、应用属性值和网络属性值。为了区分二者的基础数据、个性特征值、系统应用占比、特殊值、应用属性值和网络属性值，将历史数据的设备信息中的基础数据、个性特征值、系统应用占比、特殊值、应用属性值和网络属性值命名为第二基础数据、第二个性特征值、第二系统应用占比、第二特殊值、第二应用属性值和第二网络属性值。

2、行为信息

用户行为信息包含了用户的操作顺序信息和页面访问顺序信息，不按照正常访问顺序来进行页面操作的用户大概率为异常用户。因此，本实施例中的行为信息包括操作行为值和操作时间值。

·操作行为值

操作行为值，通过如下方式确定：

5-1-1，获取操作行为序列，操作行为序列包括按时间顺序排列的操作行为。

用户在操作时，会对其操作行为进行记录，如记录操作行为(点击注册、输入密码等)和操作时间。

5-1-2，根据预先确定的操作行为对应的序号，将操作行为序列转换为序号序列。

预先根据正常用户的操作行为顺序会对各个操作顺序进行标号。

5-1-3，若序号序列非升序排列，则操作行为值为0；若序号序列为升序排列，则操作行为值为1。

如果升序排序，说明当前用户的操作行为顺序与正常用户相同，则操作行为值为1。如果非升序排序，说明说明当前用户的操作行为顺序与正常用户不相同，则操作行为值为0。

操作行为值确定之前，会统计正常用户的的页面访问顺序，按照场景给予页面数据标签，以注册场景为例，点击注册按钮记为‘0’，输入手机号码记为‘1’，点击获取验证码记为‘2’，输入验证码记为‘3’，点击确认注册记为‘4’，则此处正常用户操作顺序为01234，异常用户操作顺序可能为02314(以黑客手段获取验证码)，由于场景的不同所预设的顺序长度也不尽相同，所以不能直接对顺序数据进行处理作为特征加入到特征工程中，因此再得到页面访问顺序后，可以以uuid为主键，对顺序数据进行处理，此处提取每一个行为顺序，并按照01234…的大小进行遍历，当发现前数比后数大时，则停止遍历并确定操作行为值为0，若遍历成功结束，则确定操作行为值为1。最后将操作行为值加入到特征工程中。

·操作时间值

操作时间值，通过如下方式确定：

5-2-1，将操作行为按预设的场景分类，并确定每个操作行为对应的时刻。

5-2-2，根据每个操作行为对应的时刻，计算每个场景的时间差均值。

5-2-3，根据各场景的时间差均值，计算整合时间差均值T。

5-2-4，

其中，T_A为平均用时。

T_A的确定方式为：重复模拟第二预设数量次该操作行为，记录每次的操作时长；T_A＝各次的操作时长之和/第二预设数量。

利用行为数据获取到用户进行页面操作的时间间隔，用户在触动场景发生之后，每次操作动作都会有一次时间点的记录(即事件发生时间)。例如，将用户由注册至下单分为四个场景，分别是注册场景、加入购物车场景、下单场景和付款场景，每个场景由于各自的场景特性差异会分别计算时间差特征，得到各自的时间特征值后，再以uuid为主键进行四个时间特征的整合，计算出最后得到的整合结果基于正常用户均值的离散程度作为操作时间值。

产生历史数据的某位用户(以用户标识uuid为唯一标识)进入第一个场景并第一次点触打开时，产生一次事件发生时间的记录记为T_111，随后经历输入手机号码、获取短信验证码、输入验证码、点击注册等一系列步骤，记为T_112、T_{_}113、T_114、T_115；进入第二个场景并第一次点触打开时记录事件发生时间T_121，随后经历点餐、加入购物车、删除购物车等步骤，记为T_122、T_123、T_124；第三、第四个场景以此类推。

首先计算每个场景的时间差均值：

注册场景的时间差均值

加入购物车场景的时间差均值

下单场景和付款场景以此类推，此处不再赘述。

然后计算整合时间差均值T：

其中T_A的确定方式为：重复模拟第二预设数量次各场景的操作行为，记录每次的操作时长；T_A＝各次的操作时长之和/第二预设数量。

其中第二预设数量中的“第二”仅为标识作用，并无实际含义，用于与4-2-2-5的第一预设数量进行区分。即此处的预设数量命名为第二预设数量，4-2-2-5出现的预设数量命名为第一预设数量。

3、传感器信息

本提案创造性地根据传感器信息信息分类模型。传感器信息主要用于用户的人人识别方面，用户每次触发风控请求的动作信息作为一组数据，每组数据根据设备敏感程度的不同包含多条传感器信息，字段间用逗号分割，用户之间用换行分割，文件按照csv的格式进行保存。

传感器信息包括：传感器特征数据、方向特征数据和陀螺仪特征数据。

·传感器特征数据

传感器特征数据基于加速度计测量得到的数据得到，

用于得到传感器特征数据的数据示例如下：

"accelerometer":[

"1；1542513601406；2；2.22094727,4.29791260,8.41036987",

"1；1542513601407；2；-2.22094727,4.29791260,8.41036987",

"1；1542513601495；2；-2.24208069,4.27597046,8.52642822",

"1；1542513601534；2；-2.21855164,4.26042175,8.59103394",

"1；1542513601535；2；-2.21855164,4.26042175,8.59103394",

"1；1542513601573；2；-2.21215820,4.31027222,8.52801514",

"1；1542513601574；2；-2.21215820,4.31027222,8.52801514",

"1；1542513601662；2；-2.17507935,4.31983948,8.46340942",

"1；1542513601663；2；-2.17507935,4.31983948,8.46340942",

"1；1542513601702；2；-2.20140076,4.28434753,8.47218323",

……]

·方向特征数据

方向特征数据也基于加速度计测量得到的数据得到，

用于得到方向特征数据的数据示例如下：

"orientation":[

"3；1542513600377；0；291.20312500,-26.40625000,-13.35937500",

"3；1542513600428；0；291.09375000,-26.50000000,-13.56250000",

"3；1542513600478；0；291.00000000,-26.50000000,-13.60937500",

"3；1542513600529；0；290.90625000,-26.45312500,-13.59375000",

"3；1542513600580；0；290.73437500,-26.42187500,-13.57812500",

"3；1542513600629；0；290.64062500,-26.43750000,-13.62500000",

"3；1542513600680；0；290.62500000,-26.32812500,-13.96875000",

"3；1542513600730；0；290.73437500,-26.31250000,-14.01562500",

"3；1542513600780；0；290.92187500,-26.25000000,-14.20312500",

"3；1542513600831；0；291.10937500,-26.23437500,-14.25000000",

"3；1542513600881；0；291.29687500,-26.18750000,-14.34375000",

"3；1542513600931；0；291.40625000,-26.17187500,-14.34375000",

"3；1542513600982；0；291.57812500,-26.28125000,-14.23437500",

"3；1542513601032；0；291.73437500,-26.35937500,-14.25000000",

……]

·陀螺仪特征数据

陀螺仪特征数据基于陀螺仪测量得到的数据得到，

陀螺仪测量得到的数据样例如下：

"gyroscope":[

"4；1542513601406；3；-0.00543213,-0.00950623,0.01161194",

"4；1542513601407；3；-0.00543213,-0.00950623,0.01161194",

"4；1542513601495；3；-0.02905273,-0.00765991,0.00836182",

"4；1542513601496；3；-0.02905273,-0.00765991,0.00836182",

"4；1542513601534；3；-0.00746155,-0.01133728,0.01448059",

"4；1542513601535；3；-0.00746155,-0.01133728,0.01448059",

"4；1542513601574；3；-0.00054932,-0.01173401,0.02424622",

"4；1542513601575；3；-0.00054932,-0.01173401,0.02424622",

"4；1542513601662；3；-0.00177002,-0.00726318,0.01060486",

"4；1542513601663；3；-0.00177002,-0.00726318,0.01060486",

"4；1542513601702；3；-0.01560974,-0.01783752,0.00022888",

"4；1542513601703；3；-0.01560974,-0.01783752,0.00022888",

"4；1542513601790；3；-0.01622009,-0.01641846,0.00733948",

"4；1542513601791；3；-0.01622009,-0.01641846,0.00733948",

"4；1542513601830；3；-0.00543213,-0.00604248,-0.00018311",

"4；1542513601910；3；-0.00035095,-0.00340271,-0.00100708",

……]

本实施例利用行为人的行为习惯的不可复制性，但陀螺仪等数据的直接利用的可能性不大，即便是基于深度学习等算法进行不断去噪声去干扰，其准确度仍然值得怀疑，因此本实施例从侧面对数据进行了处理，在尽量保证数据原生态的状态下，也尽可能提升模型的准确性。本实施例的处理方式为分别对加速度、方向和陀螺仪数据在三维空间中提取其一般统计特征，再加入到特征工程中，在大大提高数据利用性的前提下，保证能做到准确实时拦截不是本人操作账户的安全事件。

由于个人操作手机的疾缓性，将每个操作行为对应的传感器、方向、陀螺仪的条数个数作为特征之一进行处理。

由于个人身体结构特征，将每个操作行为对应的传感器、方向、陀螺仪在三维空间中的移动均值作为特征之一进行处理。

由于个人动作的连贯性，将每个操作行为对应的传感器、方向、陀螺仪在三维空间中的移动标准差作为特征之一进行处理。

由于个人动作的有限性，将每个操作行为对应的传感器、方向、陀螺仪在三维空间中的移动最大值、最小值作为特征之一进行处理，如max、min字段。

基于上述描述，本实施例中的传感器信息包括：传感器特征数据、方向特征数据和陀螺仪特征数据。

具体的，传感器特征数据包括：x轴传感器数量值，x轴传感器均值，x轴传感器标准差值，x轴传感器最大值，x轴传感器最小值，y轴传感器数量值，y轴传感器均值，y轴传感器标准差值，y轴传感器最大值，y轴传感器最小值，z轴传感器数量值，z轴传感器均值，z轴传感器标准差值，z轴传感器最大值，z轴传感器最小值。

方向特征数据包括：x轴方向数量值，x轴方向均值，x轴方向标准差值，x轴方向最大值，x轴方向最小值，y轴方向数量值，y轴方向均值，y轴方向标准差值，y轴方向最大值，y轴方向最小值，z轴方向数量值，z轴方向均值，z轴方向标准差值，z轴方向最大值，z轴方向最小值。

陀螺仪特征数据包括：x轴陀螺仪数量值，x轴陀螺仪均值，x轴陀螺仪标准差值，x轴陀螺仪最大值，x轴陀螺仪最小值，y轴陀螺仪数量值，y轴陀螺仪均值，y轴陀螺仪标准差值，y轴陀螺仪最大值，y轴陀螺仪最小值，z轴陀螺仪数量值，z轴陀螺仪均值，z轴陀螺仪标准差值，z轴陀螺仪最大值，z轴陀螺仪最小值。

其中，

x轴，y轴和z轴为三维空间中各维度对应的坐标轴。

x轴传感器数量值为操作行为对应的传感器数据条数。

x轴传感器均值为操作行为对应的传感器数据中，在x轴上移动的平均值。

x轴传感器标准差值为操作行为对应的传感器数据中，在x轴上移动的标准差。

x轴传感器最大值为操作行为对应的传感器数据中，在x轴上移动的最大值。

x轴传感器最小值为操作行为对应的传感器数据中，在x轴上移动的最小值。

y轴传感器数量值为操作行为对应的传感器数据条数。

y轴传感器均值为操作行为对应的传感器数据中，y轴上的移动均值。

y轴传感器标准差值为操作行为对应的传感器数据中，在y轴上移动的标准差。

y轴传感器最大值为操作行为对应的传感器数据中，在y轴上移动的最大值。

y轴传感器最小值为操作行为对应的传感器数据中，在y轴上移动的最小值。

z轴传感器数量值为操作行为对应的传感器数据条数。

z轴传感器均值为操作行为对应的传感器数据中，z轴上的移动均值。

z轴传感器标准差值为操作行为对应的传感器数据中，在z轴上移动的标准差。

z轴传感器最大值为操作行为对应的传感器数据中，在z轴上移动的最大值。

z轴传感器最小值为操作行为对应的传感器数据中，在z轴上移动的最小值。

x轴方向数量值为操作行为对应的方向数据条数。

x轴方向均值为操作行为对应的方向数据中，在x轴上移动的平均值。

x轴方向标准差值为操作行为对应的方向数据中，在x轴上移动的标准差。

x轴方向最大值为操作行为对应的方向数据中，在x轴上移动的最大值。

x轴方向最小值为操作行为对应的方向数据中，在x轴上移动的最小值。

y轴方向数量值为操作行为对应的方向数据条数。

y轴方向均值为操作行为对应的方向数据中，y轴上的移动均值。

y轴方向标准差值为操作行为对应的方向数据中，在y轴上移动的标准差。

y轴方向最大值为操作行为对应的方向数据中，在y轴上移动的最大值。

y轴方向最小值为操作行为对应的方向数据中，在y轴上移动的最小值。

z轴方向数量值为操作行为对应的方向数据条数。

z轴方向均值为操作行为对应的方向数据中，z轴上的移动均值。

z轴方向标准差值为操作行为对应的方向数据中，在z轴上移动的标准差。

z轴方向最大值为操作行为对应的方向数据中，在z轴上移动的最大值。

z轴方向最小值为操作行为对应的方向数据中，在z轴上移动的最小值。

x轴陀螺仪数量值为操作行为对应的陀螺仪数据条数。

x轴陀螺仪均值为操作行为对应的陀螺仪数据中，在x轴上移动的平均值。

x轴陀螺仪标准差值为操作行为对应的陀螺仪数据中，在x轴上移动的标准差。

x轴陀螺仪最大值为操作行为对应的陀螺仪数据中，在x轴上移动的最大值。

x轴陀螺仪最小值为操作行为对应的陀螺仪数据中，在x轴上移动的最小值。

y轴陀螺仪数量值为操作行为对应的陀螺仪数据条数。

y轴陀螺仪均值为操作行为对应的陀螺仪数据中，y轴上的移动均值。

y轴陀螺仪标准差值为操作行为对应的陀螺仪数据中，在y轴上移动的标准差。

y轴陀螺仪最大值为操作行为对应的陀螺仪数据中，在y轴上移动的最大值。

y轴陀螺仪最小值为操作行为对应的陀螺仪数据中，在y轴上移动的最小值。

z轴陀螺仪数量值为操作行为对应的陀螺仪数据条数。

z轴陀螺仪均值为操作行为对应的陀螺仪数据中，z轴上的移动均值。

z轴陀螺仪标准差值为操作行为对应的陀螺仪数据中，在z轴上移动的标准差。

z轴陀螺仪最大值为操作行为对应的陀螺仪数据中，在z轴上移动的最大值。

z轴陀螺仪最小值为操作行为对应的陀螺仪数据中，在z轴上移动的最小值。

4、标签信息

标签信息包括：账户标签，正则标签，设备标签，分类标签。

·账户标签

任一历史数据的账户标签，通过如下方式确定：

7-1-1，确定任一历史数据的设备标识所对应的账号数量。

7-1-2，若账号数量大于第四预设阈值，则确定任一历史数据的账户标签为非本人操作；若账号数量小于等于第四预设阈值，则确定任一历史数据的账户标签为本人操作。

以第四预设阈值为1为例，由于电商账号风控的存在，若同一个人想多次获取优惠券或折扣等，只能不断切换账号，当同一个设备标识下存在许多账号时，则确定任一历史数据的账户标签为非本人操作；若账号数量小于等于1。当同一个设备标识下存在1个账号或者不存在账户时，则确定任一历史数据的账户标签为本人操作。

另外，第四预设阈值可以根据具体业务的特点自定义，本实施例不对第四预设阈值的值大小进行限定。

此外，第四预设阈值中的“第四”仅为标识作用，无实质意义，仅为了与后续的预设阈值进行区分。第四预设阈值与后续第一预设阈值、第二预设阈值、第三预设阈值之间的大小关系，是否相等本实施均不限定。

·正则标签

任一历史数据的正则标签，通过如下方式确定：

若任一历史数据的操作系统信息为移动终端操作系统信息，则确定任一历史数据的正则标签为本人操作。

若任一历史数据的操作系统信息为非移动终端操作系统信息，则确定任一历史数据的正则标签为非本人操作。

其中，移动终端操作系统如安卓，非移动终端操作系统如linux。

只对设标识对应账户作阈值判断可能存在误判的情况，比如某一个用户为电商的忠实粉丝，有多个账号(但不至于造成威胁)互相切换下单，就容易被误判，所以加入对设备信息的判断进而得到正则标签，比如扫描手机的处理器，一般情况下正常用户的手机处理器基本为安卓，当出现linux时，明显为异常。

·设备标签

任一历史数据的设备标签，通过如下方式确定：

7-2-1，获取任一历史数据的设备指纹。

7-2-2，验证设备指纹的真实性，若验证通过，则确定任一历史数据的设备标签为本人操作，若验证不通过，则确定任一历史数据的设备标签为非本人操作。

有些小代购下单流量不大，作案技术不高，在被风控拦截后，他们可能会想办法修改设备指纹，即将原始设备的指纹在发送风控请求时修改掉，这样风控系统就以为是另一台设备，所以基于对指纹判断的结果得到设备标签。

·分类标签

另外考虑到数据的复杂性，本实施例还会使用机器学习学习出一个分类标签，能代表全部的风控用户。本实施例利用层次关系来聚类和规约数据的BIRCH算法，该算法聚类速度极快并且可以识别噪音点，还可以对数据集进行初步分类的预处理。

首先由于算法特性，对数据进行预处理。由于BIRCH聚类算法会对样本的读入顺序异常敏感，这可能导致后期的树结构不合理，所以利用风控数据的特点，将同一设备标识、同一用户标识可关联到的用户进行打包，建立一个联结表，将这个联结表作为一个整体读入到内存中，可大大降低由于单个用户单个分别读入而导致的不合理树结构的问题，同时并未影响到聚类模型的准确性。

具体的，任一历史数据的分类标签，通过如下方式确定：

7-3-1，确定多条历史数据中各用户标识对应的设备标识，建立各用户标识与其对应的设备标识之间的关联关系。

7-3-2，将每个用户标识、与对应的设备标识之间的关联关系作为一条分析数据。

7-3-4，基于所有的分析数据构建CF Tree。

7-3-5，将任一历史数据的用户标识在CF Tree中的所属类别值确定为任一历史数据的分类标签。

其中，基于所有的分析数据构建CF Tree的过程如下：

7-3-4-1，获取任一分析数据，将其作为根节点的CF节点。

7-3-4-2，依次获取除7-3-4-1中获取的分析数据之外的分析数据，并将其作为待处理数据。

7-3-4-3，对于每个待处理数据，从根节点向下寻找和待处理数据距离最近的叶子节点和叶子节点里最近的CF节点。

如果待处理数据加入后，最近的CF节点对应的超球体半径小于第一预设阈值R，则更新加入路径上所有的CF三元组，待处理数据处理完毕。

其中，第一预设阈值即为叶节点每个CF的最大样本半径阈值。

另外，第一预设阈值中的“第一”仅为区分作用，不具有任何含义。第一预设阈值与第二预设阈值、第三预设阈值、第四预设阈值之间的大小关系，是否相等本实施例不进行限定。

如果待处理数据加入后，最近的CF节点对应的超球体半径不小于R，则如果当前叶子节点的CF节点个数小于第二预设阈值L，且待处理数据与当前叶子节点满足预设关系，则创建一个新的CF节点，加入待处理数据，将创建的CF节点加入当前叶子节点，更新加入路径上所有的CF三元组，待处理数据处理完毕。

其中，第二预设阈值即为叶子节点的最大CF数。

另外，第二预设阈值中的“第二”仅为区分作用，不具有任何含义。第二预设阈值与第一预设阈值、第三预设阈值、第四预设阈值之间的大小关系，是否相等本实施例不进行限定。

如果当前叶子节点的CF节点个数不小于L，或者，当前叶子节点的CF节点个数小于L，但待处理数据与当前叶子节点不满足预设关系，则将当前叶子节点划分为两个新叶子节点，选择旧叶子节点中所有CF元组里超球体距离最远的两个CF元组，分别作为两个新叶子节点的CF节点；将其他元组和待处理数据按照距离远近原则放入对应的叶子节点；再依次向上检查父节点是否分裂，如果分裂，则将分裂的父节点划分为两个新父节点，选择分裂的父节点中所有CF元组里超球体距离最远的两个CF元组，分别作为两个新父节点的CF节点；将其他元组和待处理数据按照距离远近原则放入对应的两个新父节点。

例如，如果当前叶子节点的CF节点个数不小于阈值L，或者，当前叶子节点的CF节点个数小于L，但待处理数据与当前叶子节点不满足预设关系，则将当前叶子节点划分为两个新叶子节点，选择旧叶子节点中所有CF元组里超球体距离最远的两个CF元组，分别作为两个新叶子节点的第一个CF节点。将其他元组和新样本元组按照距离远近原则放入对应的叶子节点。最后再依次向上检查父节点是否也要分裂，如果需要则同样按照叶子节点的分裂方式进行

其中，预设关系为：根据待处理数据与当前叶子节点确定的共享邻密度大于第三预设阈值。

原始的BIRCH聚类算法的数据读入是按照顺序来的，所以当选中第一个节点后，后面读入的数据都是按照上一个节点的位置来决定的，例如，开始CF-tree为空，第一个CF树的节点读入后，计算第二个样本点离此节点的位置，发现这个样本点和第一个样本点在半径为T的球体范围内时，即他们属于同一个CF，则将第二个样本点也加入这个CF，当超出时，则建立另一个CF，但由于我们应用场景的限制，所以可能存在两个球体相隔一定位置，但属于同一大类的情况，所以这里加入‘共享邻密度’的概念，使得叶子结点不再只观察到自己所属‘部下’的距离，而是可以延伸直别的CF节点的‘部下’，则此时发现的聚类不再仅局限于围绕一个中心点的球体，而是可以发现任意形状的群体；

共享邻密度的确定方法包括：

确定当前叶子节点所在超球体的中心点。

以中心点与待处理数据连线的中点为圆心，以中心点与待处理数据连线为直径做球。

共享邻密度＝(球中包括的CF节点数量+1)/球体积。

例如，

1)开始CF-tree为空，读入第一个CF树的节点；

2)继续读入第二个CF树的节点；

3)一旦CF树增加1时，标记另起CF树的根节点，并计算以另起CF树根节点和原CF树根节点为焦点的椭圆范围中样本的密度，若密度大于M，则合并两个根节点算作同一类样本，同时减少一颗CF树，若密度小于M，则CF树数目不变，算作两类人群样本。

4)以新的CF树为原CF树继续遍历剩余节点，并建立新的椭圆计算密度关系，重复步骤3，直至所有节点遍历完成，完成我们想要的聚类效果；

BIRCH聚类算法的输出结果为0到17，并将此聚类结果作为标签之一加入到分类模型的训练中去，可得到比较全面的标签信息，从而增加监督模型的准确性。

步骤2，剔除历史数据中的第二传感器信息，得到第一训练数据；基于第一训练数据，训练随机森林模型，得到训练好的第一分类模型。

例如：在通过步骤1获取多条历史数据之后，就可以训练随机森林模型。具体是通过训练多个决策树生成模型，然后综合利用多个决策树的分类结果进行投票，从而实现分类。随机森林算法只需要两个参数：构建的决策树的个数t和在决策树的每个节点进行分裂时需要考虑的输入特征的个数m，算法如下：

1、生成单棵决策树：

1)假设训练总样本的个数为F，则单棵决策树需要从F个训练集中有放回的随机抽取f个样本作为此单颗树的训练样本；

2)选取训练样例的总输入特征的个数为K，则我们在每颗决策树的每个节点上进行分裂时，从K个输入特征里随机选择k个特征(此时k应该远远小于K)，然后从这k个特征里选择一个效果最好的进行分裂。k在构建决策树的过程中数量不会改变，且要为每个节点都随机选出k个特征，然后选择最好的特征来分裂。

3)每棵树都这样一直分裂下去，直到该节点的所有训练样例都不可再分，且由于之前的两个随机采样的过程保证了随机性，所以不需要再进行剪枝步骤，也不会出现过拟合现象。

2、生成e颗决策树

按照第一步的方式产生e颗决策树，最后组合至森林中。

3、利用随机森林分类

对于每个新的测试样例，综合多个决策树的分类结果来作为随机森林的分类结果。此处我们的场景目标特征为类别类型，则结果的选取遵循少数服从多数，取单棵树分类结果最多的那个类别作为整个随机森林的分类结果。

有监督的学习模型随机森林训练结束后，会输出一组标志组别的数字，这些分类结果作为一个特征工程加入到后续第二分类模型中去，以此来增加第二分类模型的效率，使第二分类模型在大量无感知的数据中迅速提取到重要的分类信息，这也有助‘实时’实现的目标，能缩短训练时间并将结果快速反应给服务器，从而增加身份识别的效率和准确性，若没有此特征，则后续工程化中的结果大概会延迟0.03秒，且准确度有所下降，因此此特征算作重点特征工程之一。

步骤3，根据训练好的第一分类模型，确定每条历史数据的第二身份识别初始结果；将第二身份识别初始结果作为识别信息加入对应的历史数据中，形成第二训练数据；基于第二训练数据，训练TrAdaBoost模型，得到训练好的第二分类模型。

其中，第二身份识别初始结果为本人操作，或者，非本人操作。

在对人-机进行监督训练得到第一分类模型后，还需要对具体人作身份判别，以达到在安全产品中实时进行身份验证的目的，但由于每个人的行为特征相差很大，缺乏界定标签的能力和样本量，也不能保证训练数据和测试数据的特征分布相同，所以采用迁移学习来提高算法的有效性，本实施例采用TrAdaBoost算法，该算法的基本思想是从源Domain数据中筛选出有效数据，再过滤掉与目标Domain不match的数据，通过Boosting方法建立一种权重调整机制，增加有效数据权重，降低无效数据权重，大大提高模型的准确性，具体算法描述如下：

输入：

第二训练数据集S、基本分类器、迭代次数C

对于迭代次数，按道理来说TrAdaBoost分类器的弱分类器数目越多分类的效果越好，但过多的弱分类器会造成TrAdaBoost分类器需要花费更多的时间，所以我们这里将迭代次数设置为150。

·初始化：

1、初始权重向量

此时各个样本的权值相等，即

2、具有权值分布的训练数据集学习，得到基本分类器G_s:V→{-1,1}。

3、计算G_s在训练集上的分类误差：

4、计算G_s(v)的系数：

5、更新训练数据集的权值分布：

其中，

·构建基本分类器的线性组合：

·输出最终分类器：

执行至此，第一分类模型、第二分类模型已训练完成，当需要对一预测数据进行预测时，可以采用图1所示的方法。

如图1所示，

101，获取预测数据。

其中，预测数据包括第一设备信息、第一行为信息、第一传感器信息。

第一设备信息，第一行为信息，第一传感器信息中的“第一”仅为与历史数据中的设备信息、行为信息、传感器信息进行区分，并无实际含义。也即历史数据包括设备信息、行为信息、传感器信息、标签信息。预测数据包括设备信息、行为信息、传感器信息。为了区分二者的设备信息、行为信息、传感器信息，将预测数据的设备信息、行为信息、传感器信息命名为第一设备信息，第一行为信息，第一传感器信息。

预测数据中的第一设备信息、第一行为信息、第一传感器信息与步骤1历史数据中的第二设备信息、第二行为信息、第二传感器信息的数据项和计算方式相同，仅具体数值不同。具体数据项和计算方式可参见步骤1中相关描述，此处不再赘述。

1、设备信息

第一设备信息包括第一基础数据和第一个性特征值。

(1)基础数据

其中，第一基础数据包括：用户标识、设备标识、设备指纹、操作系统信息、是否存在cydiasubstrate插件、debuggable配置、developmodelable配置、是否获得root权限、是否使用simulator模拟器、是否采用static hook、是否采用xposed框架、操作系统安装时间、操作系统最近更新时间、APK大小、APP版本号、已安装APP信息、已安装APP数量、电池健康状况、电池电量、电池温度、电池电压、SD卡可用储存块数量、SD卡储存块数量、SD卡储存块大小、网络连接状态、WIFI状态、频率信息、互联网协议IP地址、是否隐藏路由器广播地址、网络连接速度、MAC地址、网络标识、路由器广播地址、处理器信息、CPU数量、CPU运行速度、网络运营商信息、网络是否漫游、用户身份识别SIM卡运营商信息、SIM卡状态、系统应用数量。

(2)个性特征值

第一个性特征值包括：第一系统应用占比、第一特殊值、第一应用属性值和第一网络属性值。

·系统应用占比

第一系统应用占比＝第一设备信息中的已安装APP数量/(第一设备信息中的已安装APP数量+第一设备信息中的系统应用数量)。

·特殊值

第一特殊值，通过如下方式确定：

4-1-1-1，确定第一设备信息中的已安装APP信息，是否包含预先存储的APP信息。

4-1-1-2，若包含，则第一特殊值＝1。若不包含，则所第一特殊值＝0。

·应用属性值

第一应用属性值，通过如下方式确定：

4-2-1-1，将多条历史数据和预测数据均作为第一处理数据。

4-2-1-2，确定第一处理数据中各用户标识对应的设备标识。

4-2-1-3，根据第一处理数据的已安装APP信息，确定4-2-1-2中得到的各设备标识所对应的已安装APP。

4-2-1-4，通过如下公式确定第一处理数据中各用户标识对应的各已安装APP的词频：

其中，

为第一处理数据中任一用户标识i对应的任一已安装APPj的词频，

为在任一用户标识i对应的所有设备标识中，与任一已安装APPj对应的设备标识数量，Nⁱ为在任一用户标识i对应的所有设备标识中，对应的已安装APP的总数量。

4-2-1-5，通过如下公式，确定第一处理数据中各用户标识对应的各已安装APP的逆向文件频率：

其中，

为任一用户标识i对应的任一已安装APPj的逆向文件频率，M_j为第一处理数据中，对应任一已安装APPj的用户标识的数量，M为第一处理数据中用户标识的总数量。

4-2-1-6，基于第一处理数据中各用户标识对应的各已安装APP的词频和第一处理数据中各用户标识对应的各已安装APP的逆向文件频率，将第一处理数据中的用户标识分为第一预设数量类。

此处第一预设数量中的“第一”仅为标识作用，并无实际含义，用于与后续的第二预设数量进行区分。即此处的预设数量命名为第一预设数量，后续再出先预审数量命名为第二预设数量。

4-2-1-7，将预测数据的用户标识所属的类别值作为第一应用属性值。

·网络属性值

第一网络属性值，通过如下方式确定：

4-3-1-1，根据第一设备信息的网络连接状态确定是否联网，若根据第一设备信息的网络连接状态确定未联网，则第一网络属性值＝-1，若根据第一设备信息的网络连接状态确定联网，则执行4-3-1-2。

4-3-1-2，若第一设备信息的IP地址与预先存储的IP地址匹配，或者，第一设备信息的MAC地址与预先存储的MAC地址匹配，则第一网络属性值＝1。若第一设备信息的IP地址与预先存储的IP地址不匹配，且第一设备信息的MAC地址与预先存储的MAC地址不匹配，则第一网络属性值＝0。

另外，第一基础数据、第一个性特征值、第一系统应用占比、第一特殊值、第一应用属性值和第一网络属性值中的“第一”仅为与步骤1中历史数据的设备信息包括的基础数据、个性特征值、系统应用占比、特殊值、应用属性值和网络属性值进行区分，并无实际含义。也即历史数据的设备信息包括基础数据、个性特征值、系统应用占比、特殊值、应用属性值和网络属性值。预测数据的设备信息包括基础数据、个性特征值、系统应用占比、特殊值、应用属性值和网络属性值。为了区分二者的基础数据、个性特征值、系统应用占比、特殊值、应用属性值和网络属性值，将预测数据的设备信息中的基础数据、个性特征值、系统应用占比、特殊值、应用属性值和网络属性值命名为第一基础数据、第一个性特征值、第一系统应用占比、第一特殊值、第一应用属性值和第一网络属性值。

2、行为信息

行为信息包括操作行为值和操作时间值；

其中，

·操作行为值

操作行为值，通过如下方式确定：

5-1-3，若序号序列非升序排列，则操作行为值为0。若序号序列为升序排列，则操作行为值为1。

·操作时间值

操作时间值，通过如下方式确定：

5-2-3，根据各场景的时间差均值，计算整合时间差均值T。

5-2-4，

其中，T_A为平均用时。

T_A的确定方式为：重复模拟第二预设数量次该操作行为，记录每次的操作时长。T_A＝各次的操作时长之和/第二预设数量。

其中第二预设数量中的“第二”仅为标识作用，并无实际含义，用于与4-2-1-6的预设数量进行区分。即此处的预设数量命名为第二预设数量，4-2-1-6出现的预设数量命名为第一预设数量。

3、传感器信息

传感器特征数据包括：x轴传感器数量值，x轴传感器均值，x轴传感器标准差值，x轴传感器最大值，x轴传感器最小值，y轴传感器数量值，y轴传感器均值，y轴传感器标准差值，y轴传感器最大值，y轴传感器最小值，z轴传感器数量值，z轴传感器均值，z轴传感器标准差值，z轴传感器最大值，z轴传感器最小值。

其中，

x轴，y轴和z轴为三维空间中各维度对应的坐标轴。

x轴传感器数量值为操作行为对应的传感器数据条数。

y轴传感器数量值为操作行为对应的传感器数据条数。

z轴传感器数量值为操作行为对应的传感器数据条数。

x轴方向数量值为操作行为对应的方向数据条数。

y轴方向数量值为操作行为对应的方向数据条数。

z轴方向数量值为操作行为对应的方向数据条数。

x轴陀螺仪数量值为操作行为对应的陀螺仪数据条数。

y轴陀螺仪数量值为操作行为对应的陀螺仪数据条数。

z轴陀螺仪数量值为操作行为对应的陀螺仪数据条数。

102，从预测数据中剔除第一传感器信息，形成第一识别数据。

103，将第一识别数据输入预先训练好的第一分类模型中，得到第一身份识别初始结果。

其中，第一身份识别初始结果为本人操作，或者，非本人操作。

本步骤中的第一分类模型即为步骤2中训练好的第一分类模型。

104，将第一身份识别初始结果作为识别信息加入预测数据中，形成第二识别数据。

105，将第二识别数据输入预先训练好的第二分类模型中，得到身份识别最终结果。

本步骤中的第二分类模型即为步骤3中训练好的第二分类模型。

其中，身份识别最终结果为本人操作，或者，非本人操作。

基于此，对预测数据的身份识别。

本实施例提供的身份识别方法可以进行无感知身份识别，在以往的身份识别方法中，往往由于识别系统的不唯一性而导致安全漏洞，甚至造成重大的财产损失，因此，亟需一种安全性能高，使用方便快捷的智能身份识别方法来维护系统和账号的安全。本实施例提供的身份识别方法基于用户的行为验证，利用用户行为的不可复制性作为理论依据，外加大数据算法加持，能做到高效率地实时判别用户身份。

由于到机器学习算法的拟合性，只加入用户的行为数据会使模型产生偏差，最后终将得到片面的结果，因此本实施例提供的身份识别方法在第一分类模型和第二分类模型的训练数据上做出了改进，分别从用户设备(设备信息)、用户行为(行为信息)、用户动作(传感器信息)三方面补全数据，使得结果更加准确。

同时，为了做到实时返回算法结果，对人机识别方面利用监督模型(随机森林模型)进行数据训练，分别从四个维度对标签进行选择，其中包括实时规则判断结果(账户标签)、正则属性(正则标签)、设备指纹判断(设备标签)和智能识别的分类结果(分类标准)，对人人识别方面我们会在用户无感知状态下持续深度学习其行为特征，建立识别模型并与用户本人进行相似度匹配，所以本实施例提供的身份识别方法不仅能有效分辨当前操作者是否为真人，而且还能精确辨别操作者是否为用户本人，从而做出应急响应，为最终结果的实现提供理论的可能性。

具体的，首先在数据的选择上，本实施例提供的身份识别方法先获取了设备信息、行为信息和传感器信息作为基础，再根据业务特征对三种数据中可深度挖掘的信息进行规整，筛选出具有强特征的字段共同作为特征进行模型的训练。

在标签的选择上，在尽量做到全面甄别的前提下选择了四个精简的标签。

在第一分类模型训练时，利用随机森林进行监督学习，再将得到良好训练结果的模型特征和真实个人的行为特征进行第二分类模型训练，直接做到实时识别用户身份的机制。

第一步：确定好可有效利用的行为数据和具有高效率识别的数据标签；

第二步：使用有监督的随机森林模型将人-机识别部分进行训练得到较好的特征工程；

第三步：利用基于特征的TrAdaBoost模型，将选取好的特征与真实个人行为特征进行整合，以达到实时的目的；

将整合好的新的特征工程再进行无监督训练，经过行为特征的反复深度学习，最终工程化到风控系统中，使用户在不知不觉中进行身份识别，即非本人操作或机器操作都会被拦截，从而实现了便捷性和安全性的完美结合。

本实施例提供的身份识别方法采用“人与机器行为数据互相结合，利用迁TrAdaBoost增加精准性”的思路进行分类模型的建立，从而实现无感知实时身份识别的效果，该方法可以应用到风控产品中，使用户在不知不觉中实现高效率的网络保护。

预测数据在通过本实施例提供的方案进行识别之后，可以将其作为历史数据，在下一次通过本实施例提供的方案进行用户识别时，其作可以为多个步骤1中获取的多条历史数据中的一条，实现本方案的自动学习功能。

需要说明的是，1)为了保护用户隐私，在实际应用时，会在获取到用户授权后再执行本实施例提供的方法进行用户身份识别。2)非本人操作包括别人代替操作、机器操作等情况，只要不是注册本人的操作均可属于非本人操作。

本实施例提供的方法，先对不包含传感器信息的识别数据进行识别，得到初始结果；再对加入初始结果的预测数据进行识别，得到最终结果，在保证用户体验度良好的情况下，提升了身份识别的准确性与安全性。

基于同一发明构思，本实施例提供了一种电子设备，参见图2，包括存储器201、处理器202、总线203以及存储在存储器201上并可在处理器202上运行的计算机程序，所述处理器202执行所述程序时实现如下步骤。

获取预测数据，其中，预测数据包括第一设备信息、第一行为信息、第一传感器信息；

从预测数据中剔除第一传感器信息，形成第一识别数据；

将第一识别数据输入预先训练好的第一分类模型中，得到第一身份识别初始结果，其中，第一身份识别初始结果为本人操作，或者，非本人操作；

将第一身份识别初始结果作为识别信息加入预测数据中，形成第二识别数据；

将第二识别数据输入预先训练好的第二分类模型中，得到身份识别最终结果，其中，身份识别最终结果为本人操作，或者，非本人操作。

可选地，获取预测数据之前，还包括：

获取多条历史数据，其中，每条历史数据包括第二设备信息、第二行为信息、第二传感器信息、标签信息；

剔除历史数据中的第二传感器信息，得到第一训练数据；基于第一训练数据，训练随机森林模型，得到训练好的第一分类模型；

根据训练好的第一分类模型，确定每条历史数据的第二身份识别初始结果；将第二身份识别初始结果作为识别信息加入对应的历史数据中，形成第二训练数据；基于第二训练数据，训练TrAdaBoost模型，得到训练好的第二分类模型；其中，第二身份识别初始结果为本人操作，或者，非本人操作。

可选地，第一设备信息包括第一基础数据和第一个性特征值；

任一第二设备信息包括第二基础数据和第二个性特征值；

其中，基础数据包括：用户标识、设备标识、设备指纹、操作系统信息、是否存在cydiasubstrate插件、debuggable配置、developmodelable配置、是否获得root权限、是否使用simulator模拟器、是否采用static hook、是否采用xposed框架、操作系统安装时间、操作系统最近更新时间、应用安装包APK大小、计算机应用程序APP版本号、已安装APP信息、已安装APP数量、电池健康状况、电池电量、电池温度、电池电压、安全数码SD卡可用储存块数量、SD卡储存块数量、SD卡储存块大小、网络连接状态、无线局域网WIFI状态、频率信息、互联网协议IP地址、是否隐藏路由器广播地址、网络连接速度、媒体访问控制MAC地址、网络标识、路由器广播地址、处理器信息、中央处理器CPU数量、CPU运行速度、网络运营商信息、网络是否漫游、用户身份识别SIM卡运营商信息、SIM卡状态、系统应用数量；

第一个性特征值包括：第一系统应用占比、第一特殊值、第一应用属性值和第一网络属性值；

第二个性特征值包括：第二系统应用占比、第二特殊值、第二应用属性值和第二网络属性值。

可选地，第一系统应用占比＝第一设备信息中的已安装APP数量/(第一设备信息中的已安装APP数量+第一设备信息中的系统应用数量)；

第二系统应用占比＝任一第二设备信息中的已安装APP数量/(任一第二设备信息中的已安装APP数量+任一第二设备信息中的系统应用数量)；

第一特殊值，通过如下方式确定：

4-1-1-1，确定第一设备信息中的已安装APP信息，是否包含预先存储的APP信息；

4-1-1-2，若包含，则第一特殊值＝1；若不包含，则第一特殊值＝0；

第二特殊值，通过如下方式确定：

4-1-2-1，确定任一第二设备信息中的已安装APP信息，是否包含预先存储的APP信息；

4-1-2-2，若包含，则第二特殊值＝1；若不包含，则第二特殊值＝0；

第一应用属性值，通过如下方式确定：

4-2-1-1，将多条历史数据和预测数据均作为第一处理数据；

4-2-1-2，确定第一处理数据中各用户标识对应的设备标识；

4-2-1-3，根据第一处理数据的已安装APP信息，确定4-2-1-2中得到的各设备标识所对应的已安装APP；

其中，

为在任一用户标识i对应的所有设备标识中，与任一已安装APPj对应的设备标识数量，Nⁱ为在任一用户标识i对应的所有设备标识中，对应的已安装APP的总数量；

其中，

为任一用户标识i对应的任一已安装APPj的逆向文件频率，M_j为第一处理数据中，对应任一已安装APPj的用户标识的数量，M为第一处理数据中用户标识的总数量；

4-2-1-6，基于第一处理数据中各用户标识对应的各已安装APP的词频和第一处理数据中各用户标识对应的各已安装APP的逆向文件频率，将第一处理数据中的用户标识分为第一预设数量类；

4-2-1-7，将预测数据的用户标识所属的类别值作为第一应用属性值；

第二应用属性值，通过如下方式确定：

4-2-2-1，确定多条历史数据中各用户标识对应的设备标识；

4-2-2-2，根据多条历史数据的已安装APP信息，确定4-2-2-1中得到的各设备标识所对应的已安装APP；

其中，

为在任一用户标识u对应的所有设备标识中，与任一已安装APPv对应的设备标识数量，N^u为在任一用户标识u对应的所有设备标识中，对应的已安装APP的总数量；

其中，

为任一用户标识u对应的任一已安装APPv的逆向文件频率，M′_v为多条历史数据中，对应任一已安装APPv的用户标识的数量，M′为多条历史数据中用户标识的总数量；

4-2-2-5，基于多条历史数据中各用户标识对应的各已安装APP的词频和多条历史数据中各用户标识对应的各已安装APP的逆向文件频率，将多条历史数据中的用户标识分为第一预设数量类；

4-2-2-6，将任一第二设备信息中用户标识所属的类别值作为第二应用属性值；

第一网络属性值，通过如下方式确定：

4-3-1-1，根据第一设备信息的网络连接状态确定是否联网，若根据第一设备信息的网络连接状态确定未联网，则第一网络属性值＝-1，若根据第一设备信息的网络连接状态确定联网，则执行4-3-1-2；

4-3-1-2，若第一设备信息的IP地址与预先存储的IP地址匹配，或者，第一设备信息的MAC地址与预先存储的MAC地址匹配，则第一网络属性值＝1；若第一设备信息的IP地址与预先存储的IP地址不匹配，且第一设备信息的MAC地址与预先存储的MAC地址不匹配，则第一网络属性值＝0；

第二网络属性值，通过如下方式确定：

4-3-2-1，根据任一第二设备信息的网络连接状态确定是否联网，若根据任一第二设备信息的网络连接状态确定未联网，则第二网络属性值＝-1，若根据任一第二设备信息的网络连接状态确定联网，则执行4-3-2-2；

可选地，行为信息包括操作行为值和操作时间值；

其中，

操作行为值，通过如下方式确定：

5-1-1，获取操作行为序列，操作行为序列包括按时间顺序排列的操作行为；

5-1-2，根据预先确定的操作行为对应的序号，将操作行为序列转换为序号序列；

5-1-3，若序号序列非升序排列，则操作行为值为0；若序号序列为升序排列，则操作行为值为1；

操作时间值，通过如下方式确定：

5-2-1，将操作行为按预设的场景分类，并确定每个操作行为对应的时刻；

5-2-2，根据每个操作行为对应的时刻，计算每个场景的时间差均值；

5-2-3，根据各场景的时间差均值，计算整合时间差均值T；

5-2-4，

其中，T_A为平均用时；

可选地，传感器信息包括：传感器特征数据、方向特征数据和陀螺仪特征数据；

传感器特征数据包括：x轴传感器数量值，x轴传感器均值，x轴传感器标准差值，x轴传感器最大值，x轴传感器最小值，y轴传感器数量值，y轴传感器均值，y轴传感器标准差值，y轴传感器最大值，y轴传感器最小值，z轴传感器数量值，z轴传感器均值，z轴传感器标准差值，z轴传感器最大值，z轴传感器最小值；

方向特征数据包括：x轴方向数量值，x轴方向均值，x轴方向标准差值，x轴方向最大值，x轴方向最小值，y轴方向数量值，y轴方向均值，y轴方向标准差值，y轴方向最大值，y轴方向最小值，z轴方向数量值，z轴方向均值，z轴方向标准差值，z轴方向最大值，z轴方向最小值；

陀螺仪特征数据包括：x轴陀螺仪数量值，x轴陀螺仪均值，x轴陀螺仪标准差值，x轴陀螺仪最大值，x轴陀螺仪最小值，y轴陀螺仪数量值，y轴陀螺仪均值，y轴陀螺仪标准差值，y轴陀螺仪最大值，y轴陀螺仪最小值，z轴陀螺仪数量值，z轴陀螺仪均值，z轴陀螺仪标准差值，z轴陀螺仪最大值，z轴陀螺仪最小值；

其中，

x轴，y轴和z轴为三维空间中各维度对应的坐标轴；

x轴传感器数量值为操作行为对应的传感器数据条数；

x轴传感器均值为操作行为对应的传感器数据中，在x轴上移动的平均值；

x轴传感器标准差值为操作行为对应的传感器数据中，在x轴上移动的标准差；

x轴传感器最大值为操作行为对应的传感器数据中，在x轴上移动的最大值；

x轴传感器最小值为操作行为对应的传感器数据中，在x轴上移动的最小值；

y轴传感器数量值为操作行为对应的传感器数据条数；

y轴传感器均值为操作行为对应的传感器数据中，y轴上的移动均值；

y轴传感器标准差值为操作行为对应的传感器数据中，在y轴上移动的标准差；

y轴传感器最大值为操作行为对应的传感器数据中，在y轴上移动的最大值；

y轴传感器最小值为操作行为对应的传感器数据中，在y轴上移动的最小值；

z轴传感器数量值为操作行为对应的传感器数据条数；

z轴传感器均值为操作行为对应的传感器数据中，z轴上的移动均值；

z轴传感器标准差值为操作行为对应的传感器数据中，在z轴上移动的标准差；

z轴传感器最大值为操作行为对应的传感器数据中，在z轴上移动的最大值；

z轴传感器最小值为操作行为对应的传感器数据中，在z轴上移动的最小值；

x轴方向数量值为操作行为对应的方向数据条数；

x轴方向均值为操作行为对应的方向数据中，在x轴上移动的平均值；

x轴方向标准差值为操作行为对应的方向数据中，在x轴上移动的标准差；

x轴方向最大值为操作行为对应的方向数据中，在x轴上移动的最大值；

x轴方向最小值为操作行为对应的方向数据中，在x轴上移动的最小值；

y轴方向数量值为操作行为对应的方向数据条数；

y轴方向均值为操作行为对应的方向数据中，y轴上的移动均值；

y轴方向标准差值为操作行为对应的方向数据中，在y轴上移动的标准差；

y轴方向最大值为操作行为对应的方向数据中，在y轴上移动的最大值；

y轴方向最小值为操作行为对应的方向数据中，在y轴上移动的最小值；

z轴方向数量值为操作行为对应的方向数据条数；

z轴方向均值为操作行为对应的方向数据中，z轴上的移动均值；

z轴方向标准差值为操作行为对应的方向数据中，在z轴上移动的标准差；

z轴方向最大值为操作行为对应的方向数据中，在z轴上移动的最大值；

z轴方向最小值为操作行为对应的方向数据中，在z轴上移动的最小值；

x轴陀螺仪数量值为操作行为对应的陀螺仪数据条数；

x轴陀螺仪均值为操作行为对应的陀螺仪数据中，在x轴上移动的平均值；

x轴陀螺仪标准差值为操作行为对应的陀螺仪数据中，在x轴上移动的标准差；

x轴陀螺仪最大值为操作行为对应的陀螺仪数据中，在x轴上移动的最大值；

x轴陀螺仪最小值为操作行为对应的陀螺仪数据中，在x轴上移动的最小值；

y轴陀螺仪数量值为操作行为对应的陀螺仪数据条数；

y轴陀螺仪均值为操作行为对应的陀螺仪数据中，y轴上的移动均值；

y轴陀螺仪标准差值为操作行为对应的陀螺仪数据中，在y轴上移动的标准差；

y轴陀螺仪最大值为操作行为对应的陀螺仪数据中，在y轴上移动的最大值；

y轴陀螺仪最小值为操作行为对应的陀螺仪数据中，在y轴上移动的最小值；

z轴陀螺仪数量值为操作行为对应的陀螺仪数据条数；

z轴陀螺仪均值为操作行为对应的陀螺仪数据中，z轴上的移动均值；

z轴陀螺仪标准差值为操作行为对应的陀螺仪数据中，在z轴上移动的标准差；

z轴陀螺仪最大值为操作行为对应的陀螺仪数据中，在z轴上移动的最大值；

可选地，标签信息包括：账户标签，正则标签，设备标签，分类标签；

任一历史数据的账户标签，通过如下方式确定：

7-1-1，确定任一历史数据的设备标识所对应的账号数量；

7-1-2，若账号数量大于第四预设阈值，则确定任一历史数据的账户标签为非本人操作；若账号数量小于等于第四预设阈值，则确定任一历史数据的账户标签为本人操作；

任一历史数据的正则标签，通过如下方式确定：

若任一历史数据的操作系统信息为移动终端操作系统信息，则确定任一历史数据的正则标签为本人操作；

若任一历史数据的操作系统信息为非移动终端操作系统信息，则确定任一历史数据的正则标签为非本人操作；

任一历史数据的设备标签，通过如下方式确定：

7-2-1，获取任一历史数据的设备指纹；

7-2-2，验证设备指纹的真实性，若验证通过，则确定任一历史数据的设备标签为本人操作，若验证不通过，则确定任一历史数据的设备标签为非本人操作；

任一历史数据的分类标签，通过如下方式确定：

7-3-1，确定多条历史数据中各用户标识对应的设备标识，建立各用户标识与其对应的设备标识之间的关联关系；

7-3-2，将每个用户标识、与对应的设备标识之间的关联关系作为一条分析数据；

7-3-4，基于所有的分析数据构建CF Tree；

7-3-5，将任一历史数据的用户标识在CF Tree中的所属类别值确定为任一历史数据的分类标签；

其中，基于所有的分析数据构建CF Tree的过程如下：

7-3-4-1，获取任一分析数据，将其作为根节点的CF节点；

7-3-4-2，依次获取除7-3-4-1中获取的分析数据之外的分析数据，并将其作为待处理数据；

7-3-4-3，对于每个待处理数据，从根节点向下寻找和待处理数据距离最近的叶子节点和叶子节点里最近的CF节点；

如果待处理数据加入后，最近的CF节点对应的超球体半径小于第一预设阈值R，则更新加入路径上所有的CF三元组，待处理数据处理完毕；

如果待处理数据加入后，最近的CF节点对应的超球体半径不小于R，则如果当前叶子节点的CF节点个数小于第二预设阈值L，且待处理数据与当前叶子节点满足预设关系，则创建一个新的CF节点，加入待处理数据，将创建的CF节点加入当前叶子节点，更新加入路径上所有的CF三元组，待处理数据处理完毕；

如果当前叶子节点的CF节点个数不小于L，或者，当前叶子节点的CF节点个数小于L，但待处理数据与当前叶子节点不满足预设关系，则将当前叶子节点划分为两个新叶子节点，选择旧叶子节点中所有CF元组里超球体距离最远的两个CF元组，分别作为两个新叶子节点的CF节点；将其他元组和待处理数据按照距离远近原则放入对应的叶子节点；再依次向上检查父节点是否分裂，如果分裂，则将分裂的父节点划分为两个新父节点，选择分裂的父节点中所有CF元组里超球体距离最远的两个CF元组，分别作为两个新父节点的CF节点；将其他元组和待处理数据按照距离远近原则放入对应的两个新父节点；

可选地，共享邻密度的确定方法包括：

确定当前叶子节点所在超球体的中心点；

以中心点与待处理数据连线的中点为圆心，以中心点与待处理数据连线为直径做球；

共享邻密度＝(球中包括的CF节点数量+1)/球体积。

本实施例提供的电子设备，先对不包含传感器信息的识别数据进行识别，得到初始结果；再对加入初始结果的预测数据进行识别，得到最终结果，在保证用户体验度良好的情况下，提升了身份识别的准确性与安全性。

基于同一发明构思，本实施例提供了一种计算机存储介质，其上存储有计算机程序所述程序被处理器执行时实现如下步骤。

从预测数据中剔除第一传感器信息，形成第一识别数据；

可选地，获取预测数据之前，还包括：

任一第二设备信息包括第二基础数据和第二个性特征值；

第一特殊值，通过如下方式确定：

第二特殊值，通过如下方式确定：

第一应用属性值，通过如下方式确定：

4-2-1-1，将多条历史数据和预测数据均作为第一处理数据；

4-2-1-2，确定第一处理数据中各用户标识对应的设备标识；

其中，

其中，

第二应用属性值，通过如下方式确定：

4-2-2-1，确定多条历史数据中各用户标识对应的设备标识；

其中，

其中，

第一网络属性值，通过如下方式确定：

第二网络属性值，通过如下方式确定：

可选地，行为信息包括操作行为值和操作时间值；

其中，

操作行为值，通过如下方式确定：

操作时间值，通过如下方式确定：

5-2-3，根据各场景的时间差均值，计算整合时间差均值T；

5-2-4，

其中，T_A为平均用时；

其中，

x轴，y轴和z轴为三维空间中各维度对应的坐标轴；

x轴传感器数量值为操作行为对应的传感器数据条数；

y轴传感器数量值为操作行为对应的传感器数据条数；

z轴传感器数量值为操作行为对应的传感器数据条数；

x轴方向数量值为操作行为对应的方向数据条数；

y轴方向数量值为操作行为对应的方向数据条数；

z轴方向数量值为操作行为对应的方向数据条数；

x轴陀螺仪数量值为操作行为对应的陀螺仪数据条数；

y轴陀螺仪数量值为操作行为对应的陀螺仪数据条数；

z轴陀螺仪数量值为操作行为对应的陀螺仪数据条数；

任一历史数据的账户标签，通过如下方式确定：

7-1-1，确定任一历史数据的设备标识所对应的账号数量；

任一历史数据的正则标签，通过如下方式确定：

任一历史数据的设备标签，通过如下方式确定：

7-2-1，获取任一历史数据的设备指纹；

任一历史数据的分类标签，通过如下方式确定：

7-3-4，基于所有的分析数据构建CF Tree；

其中，基于所有的分析数据构建CF Tree的过程如下：

7-3-4-1，获取任一分析数据，将其作为根节点的CF节点；

可选地，共享邻密度的确定方法包括：

确定当前叶子节点所在超球体的中心点；

共享邻密度＝(球中包括的CF节点数量+1)/球体积。

本实施例提供的计算机存储介质，先对不包含传感器信息的识别数据进行识别，得到初始结果；再对加入初始结果的预测数据进行识别，得到最终结果，在保证用户体验度良好的情况下，提升了身份识别的准确性与安全性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种身份识别方法，其特征在于，包括：

将所述第二识别数据输入预先训练好的第二分类模型中，得到身份识别最终结果，其中，所述身份识别最终结果为本人操作，或者，非本人操作，其中，

所述获取预测数据之前，还包括：

剔除历史数据中的第二传感器信息，得到第一训练数据；基于所述第一训练数据，训练随机森林模型，得到训练好的第一分类模型；

根据训练好的第一分类模型，确定每条历史数据的第二身份识别初始结果；将所述第二身份识别初始结果作为识别信息加入对应的历史数据中，形成第二训练数据；基于所述第二训练数据，训练TrAdaBoost模型，得到训练好的第二分类模型；其中，第二身份识别初始结果为本人操作，或者，非本人操作，其中，

所述第一设备信息包括第一基础数据和第一个性特征值；

任一第二设备信息包括第二基础数据和第二个性特征值；

所述第一个性特征值包括：第一系统应用占比、第一特殊值、第一应用属性值和第一网络属性值；

所述第二个性特征值包括：第二系统应用占比、第二特殊值、第二应用属性值和第二网络属性值。

2.根据权利要求1所述的方法，其特征在于，

所述第一系统应用占比＝第一设备信息中的已安装APP数量/(第一设备信息中的已安装APP数量+第一设备信息中的系统应用数量)；

所述第二系统应用占比＝所述任一第二设备信息中的已安装APP数量/(所述任一第二设备信息中的已安装APP数量+所述任一第二设备信息中的系统应用数量)；

所述第一特殊值，通过如下方式确定：

4-1-1-2，若包含，则所述第一特殊值＝1；若不包含，则所述第一特殊值＝0；

所述第二特殊值，通过如下方式确定：

4-1-2-1，确定所述任一第二设备信息中的已安装APP信息，是否包含预先存储的APP信息；

4-1-2-2，若包含，则所述第二特殊值＝1；若不包含，则所述第二特殊值＝0；

所述第一应用属性值，通过如下方式确定：

4-2-1-1，将所述多条历史数据和所述预测数据均作为第一处理数据；

4-2-1-2，确定所述第一处理数据中各用户标识对应的设备标识；

4-2-1-3，根据所述第一处理数据的已安装APP信息，确定4-2-1-2中得到的各设备标识所对应的已安装APP；

4-2-1-4，通过如下公式确定所述第一处理数据中各用户标识对应的各已安装APP的词频：

其中，

为在所述任一用户标识i对应的所有设备标识中，与所述任一已安装APPj对应的设备标识数量，Nⁱ为在所述任一用户标识i对应的所有设备标识中，对应的已安装APP的总数量；

4-2-1-5，通过如下公式，确定所述第一处理数据中各用户标识对应的各已安装APP的逆向文件频率：

其中，

为所述任一用户标识i对应的任一已安装APPj的逆向文件频率，M_j为所述第一处理数据中，对应任一已安装APPj的用户标识的数量，M为所述第一处理数据中用户标识的总数量；

4-2-1-6，基于所述第一处理数据中各用户标识对应的各已安装APP的词频和所述第一处理数据中各用户标识对应的各已安装APP的逆向文件频率，将所述第一处理数据中的用户标识分为第一预设数量类；

所述第二应用属性值，通过如下方式确定：

4-2-2-1，确定所述多条历史数据中各用户标识对应的设备标识；

4-2-2-2，根据所述多条历史数据的已安装APP信息，确定4-2-2-1中得到的各设备标识所对应的已安装APP；

4-2-2-3，通过如下公式确定所述多条历史数据中各用户标识对应的各已安装APP的词频：

其中，

为所述多条历史数据中任一用户标识u对应的任一已安装APPv的词频，

为在所述任一用户标识u对应的所有设备标识中，与任一已安装APPv对应的设备标识数量，N^u为在所述任一用户标识u对应的所有设备标识中，对应的已安装APP的总数量；

4-2-2-4，通过如下公式确定所述多条历史数据中各用户标识对应的各已安装APP的逆向文件频率：

其中，

为所述任一用户标识u对应的任一已安装APPv的逆向文件频率，M′_v为所述多条历史数据中，对应任一已安装APPv的用户标识的数量，M′为所述多条历史数据中用户标识的总数量；

4-2-2-5，基于所述多条历史数据中各用户标识对应的各已安装APP的词频和所述多条历史数据中各用户标识对应的各已安装APP的逆向文件频率，将所述多条历史数据中的用户标识分为第一预设数量类；

4-2-2-6，将所述任一第二设备信息中用户标识所属的类别值作为第二应用属性值；

所述第一网络属性值，通过如下方式确定：

所述第二网络属性值，通过如下方式确定：

4-3-2-1，根据所述任一第二设备信息的网络连接状态确定是否联网，若根据所述任一第二设备信息的网络连接状态确定未联网，则第二网络属性值＝-1，若根据所述任一第二设备信息的网络连接状态确定联网，则执行4-3-2-2；

4-3-2-2，若所述任一第二设备信息的IP地址与预先存储的IP地址匹配，或者，所述任一第二设备信息的MAC地址与预先存储的MAC地址匹配，则第二网络属性值＝1；若所述任一第二设备信息的IP地址与预先存储的IP地址不匹配，且所述任一第二设备信息的MAC地址与预先存储的MAC地址不匹配，则第二网络属性值＝0。

3.根据权利要求1所述的方法，其特征在于，所述行为信息包括操作行为值和操作时间值；

其中，

操作行为值，通过如下方式确定：

5-1-1，获取操作行为序列，所述操作行为序列包括按时间顺序排列的操作行为；

5-1-2，根据预先确定的操作行为对应的序号，将所述操作行为序列转换为序号序列；

5-1-3，若所述序号序列非升序排列，则所述操作行为值为0；若所述序号序列为升序排列，则所述操作行为值为1；

操作时间值，通过如下方式确定：

5-2-3，根据各场景的时间差均值，计算整合时间差均值T；

5-2-4，

其中，T_A为平均用时；

4.根据权利要求1所述的方法，其特征在于，所述传感器信息包括：传感器特征数据、方向特征数据和陀螺仪特征数据；

所述传感器特征数据包括：x轴传感器数量值，x轴传感器均值，x轴传感器标准差值，x轴传感器最大值，x轴传感器最小值，y轴传感器数量值，y轴传感器均值，y轴传感器标准差值，y轴传感器最大值，y轴传感器最小值，z轴传感器数量值，z轴传感器均值，z轴传感器标准差值，z轴传感器最大值，z轴传感器最小值；

所述方向特征数据包括：x轴方向数量值，x轴方向均值，x轴方向标准差值，x轴方向最大值，x轴方向最小值，y轴方向数量值，y轴方向均值，y轴方向标准差值，y轴方向最大值，y轴方向最小值，z轴方向数量值，z轴方向均值，z轴方向标准差值，z轴方向最大值，z轴方向最小值；

所述陀螺仪特征数据包括：x轴陀螺仪数量值，x轴陀螺仪均值，x轴陀螺仪标准差值，x轴陀螺仪最大值，x轴陀螺仪最小值，y轴陀螺仪数量值，y轴陀螺仪均值，y轴陀螺仪标准差值，y轴陀螺仪最大值，y轴陀螺仪最小值，z轴陀螺仪数量值，z轴陀螺仪均值，z轴陀螺仪标准差值，z轴陀螺仪最大值，z轴陀螺仪最小值；

其中，

x轴，y轴和z轴为三维空间中各维度对应的坐标轴；

x轴传感器数量值为操作行为对应的传感器数据条数；

y轴传感器数量值为操作行为对应的传感器数据条数；

z轴传感器数量值为操作行为对应的传感器数据条数；

x轴方向数量值为操作行为对应的方向数据条数；

y轴方向数量值为操作行为对应的方向数据条数；

z轴方向数量值为操作行为对应的方向数据条数；

x轴陀螺仪数量值为操作行为对应的陀螺仪数据条数；

y轴陀螺仪数量值为操作行为对应的陀螺仪数据条数；

z轴陀螺仪数量值为操作行为对应的陀螺仪数据条数；

5.根据权利要求1所述的方法，其特征在于，所述标签信息包括：账户标签，正则标签，设备标签，分类标签；

任一历史数据的账户标签，通过如下方式确定：

7-1-1，确定所述任一历史数据的设备标识所对应的账号数量；

7-1-2，若账号数量大于第四预设阈值，则确定所述任一历史数据的账户标签为非本人操作；若账号数量小于等于第四预设阈值，则确定所述任一历史数据的账户标签为本人操作；

任一历史数据的正则标签，通过如下方式确定：

若所述任一历史数据的操作系统信息为移动终端操作系统信息，则确定所述任一历史数据的正则标签为本人操作；

若所述任一历史数据的操作系统信息为非移动终端操作系统信息，则确定所述任一历史数据的正则标签为非本人操作；

任一历史数据的设备标签，通过如下方式确定：

7-2-1，获取所述任一历史数据的设备指纹；

7-2-2，验证所述设备指纹的真实性，若验证通过，则确定所述任一历史数据的设备标签为本人操作，若验证不通过，则确定所述任一历史数据的设备标签为非本人操作；

任一历史数据的分类标签，通过如下方式确定：

7-3-1，确定所述多条历史数据中各用户标识对应的设备标识，建立各用户标识与其对应的设备标识之间的关联关系；

7-3-4，基于所有的分析数据构建CF Tree；

7-3-5，将所述任一历史数据的用户标识在所述CF Tree中的所属类别值确定为所述任一历史数据的分类标签；

其中，基于所有的分析数据构建CF Tree的过程如下：

7-3-4-1，获取任一分析数据，将其作为根节点的CF节点；

7-3-4-3，对于每个待处理数据，从根节点向下寻找和所述待处理数据距离最近的叶子节点和叶子节点里最近的CF节点；

如果所述待处理数据加入后，最近的CF节点对应的超球体半径小于第一预设阈值R，则更新加入路径上所有的CF三元组，所述待处理数据处理完毕；

如果所述待处理数据加入后，最近的CF节点对应的超球体半径不小于R，则如果当前叶子节点的CF节点个数小于第二预设阈值L，且所述待处理数据与当前叶子节点满足预设关系，则创建一个新的CF节点，加入所述待处理数据，将创建的CF节点加入当前叶子节点，更新加入路径上所有的CF三元组，所述待处理数据处理完毕；

如果当前叶子节点的CF节点个数不小于L，或者，当前叶子节点的CF节点个数小于L，但所述待处理数据与当前叶子节点不满足预设关系，则将当前叶子节点划分为两个新叶子节点，选择旧叶子节点中所有CF元组里超球体距离最远的两个CF元组，分别作为两个新叶子节点的CF节点；将其他元组和所述待处理数据按照距离远近原则放入对应的叶子节点；再依次向上检查父节点是否分裂，如果分裂，则将分裂的父节点划分为两个新父节点，选择分裂的父节点中所有CF元组里超球体距离最远的两个CF元组，分别作为两个新父节点的CF节点；将其他元组和所述待处理数据按照距离远近原则放入对应的两个新父节点；

其中，所述预设关系为：根据待处理数据与当前叶子节点确定的共享邻密度大于第三预设阈值。

6.根据权利要求5所述的方法，其特征在于，共享邻密度的确定方法包括：

确定当前叶子节点所在超球体的中心点；

以中心点与所述待处理数据连线的中点为圆心，以中心点与所述待处理数据连线为直径做球；

共享邻密度＝(球中包括的CF节点数量+1)/球体积。

7.一种电子设备，其特征在于，所述电子设备包括：显示器，存储器，一个或多个处理器；以及一个或多个模块，所述一个或多个模块被存储在所述存储器中，并被配置成由所述一个或多个处理器执行，所述一个或多个模块包括用于执行权利要求1-6中任一所述方法中各个步骤的指令。

8.一种计算机程序产品，所述计算机程序产品对用于执行一种过程的指令进行编码，所述过程包括根据权利要求1-6中任一项所述的方法。