CN113989859B

CN113989859B - 一种防刷机设备指纹相似度识别方法和装置

Info

Publication number: CN113989859B
Application number: CN202111618802.5A
Authority: CN
Inventors: 乐正宜; 王滕滕
Original assignee: Jiangsu Suning Bank Co Ltd
Current assignee: Jiangsu Sushang Bank Co ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-05-06
Anticipated expiration: 2041-12-28
Also published as: CN113989859A

Abstract

本发明提出了一种防刷机设备指纹相似度识别方法和装置，该方法包括如下步骤：收集设备指纹的特征字段，特征字段为从用户登陆行为数据中提取的包括简单统计量、集合型特征和带时间戳集合型特征的字段；计算两两设备指纹的各特征字段间的相似性分数；根据预设的相似性分数阈值，判断两两设备指纹是否为同一设备，并添加标签；采用是或否标签对应的设备指纹相似性分数构建监督学习模型并输出；将未知标签对应的设备指纹相似性分数输入监督学习模型中进行识别，获得识别结果。本发明采用混合式设备指纹处理技术,有效规避了主动式和被动式设备指纹技术的缺点，解决了庞杂的数据处理时长问题,平衡了成本和有效性,取得了较好效果。

Description

一种防刷机设备指纹相似度识别方法和装置

技术领域

本发明涉及互联网信息安全技术领域，具体而言，涉及一种防刷机设备指纹相似度识别方法和装置。

背景技术

自智能终端的技术浪潮将整个世界带入“互联网+”时代以来,移动互联网在扩展互联网的应用范围与场景、创造更多的业务机会的同时,其以移动App为核心的生态特点,也给新时代企业销售带来新的挑战。在推广的效果追踪、业务防欺诈、运营效果评估等领域,企业迫切需要一种新的设备设别与追踪技术,来区分有价值的用户、恶意用户甚至欺诈团伙,来保障企业整体盈利,并最大程度提高市场推广和业务运营的ROI。

目前设备指纹的难题是唯一性和稳定性的取舍，唯一性又叫准确性，是指不同设备生成的设备指纹保证不会重复，即一个设备指纹只对应一个设备，不同的设备指纹对应不同的设备；稳定性是指设备指纹不会发生变更，即一个设备只对应一个设备指纹。现实中黑产会通过改机软件或模拟器修改设备参数、定位、IP等信息，目的是直接破坏设备指纹生成的稳定性，黑产再迫使企业服务器不断产生新的唯一设备指纹伪装成新用户，让我们无法追踪黑产用户，达到伪装成新用户突破风控防线实施欺诈的目的。

自PC互联网兴起,设备识别就是鉴别用户、追踪用户的重要手段,传统设备识别技术主要从IP地址、cookie以及移动互联网特有设备ID三个方面对用户进行标识,信息源较为单一，因此识别准确率低下。

新一代的设备指纹技术使用更多角度的信息完成设备指纹识别,它通过网络收集终端设备的特征信息,并在分析与鉴别基础上,对每一组从终端设备采集的特征信息组合赋予唯一的设备指纹ID,用以标识该终端设备。从实现的技术方法可以分为主动式的设备指纹与被动式的设备指纹两种技术路线。

其中，主动式设备指纹技术一般采用JS代码或SDK,在客户端主动收集与设备相关的信息和特征,通过对这些特征的识别来辨别不同的设备。其采用的算法一般将这些信息组合,通过特定hash算法得到一个设备指纹的ID值,作为该设备唯一的标识,一般还会结合其它的持久化存储技术,将设备指纹ID长期保存起来进行维护。然而，该主动式设备指纹的缺陷在于,不同的浏览器中,以及Web和App之间,会生成不同设备指纹ID,无法实现Web和App间,不同浏览器之间的设备关联。再者依赖于客户端代码,指纹在反欺诈的场景中对抗性较弱。

被动式设备指纹技术在终端设备与服务器通信过程中,从数据报文的OSI七层协议中提取该终端设备的OS、协议栈和网络状态相关的特征集,并结合机器学习算法以标识和跟踪具体的终端设备。其由于不需要在设备终端嵌入用于收集设备特征信息的JS代码或SDK,其所需要的设备特征都是从数据报文中提取,因此更为简单直接,被业界相关技术厂商广泛采用。然而，被动式设备指纹技术可以很好的解决主动式设备指纹技术的设备关联问题,但是由于要使用复杂的机器学习算法来识别,占用处理资源较多,响应时延过长。

发明内容

鉴于上述问题，本发明提供了一种防刷机设备指纹相似度识别方法和装置，解决了现有技术中主动式设备指纹与被动式设备指纹技术中存在的缺陷，在准确识别设备的同时扩大了设备指纹技术的适用范围。

为解决上述技术问题，本发明采用的技术方案是：一种防刷机设备指纹相似度识别方法，包括如下步骤：收集设备指纹的特征字段，所述特征字段为从用户登陆行为数据中提取的包括简单统计量、集合型特征和带时间戳集合型特征的字段；计算两两设备指纹的各特征字段间的相似性分数；根据预设的相似性分数阈值，判断两两设备指纹是否为同一设备，并添加标签，所述标签包括是、否或未知；采用是或否标签对应的设备指纹相似性分数构建监督学习模型并输出；将未知标签对应的设备指纹相似性分数输入监督学习模型中进行识别，获得识别结果。

作为优选方案，所述简单统计量为根据设备指纹记录计算出的数值统计量；

所述集合型特征为将页面浏览记录、交易信息和IP解析地理信息进行关联匹配后，结合设备指纹记录的所有历史取值；所述带时间戳集合型特征为在集合型特征的历史取值基础上附上对应的时间。

作为优选方案，所述两两设备指纹为被同一用户使用过的设备指纹对，则所述简单统计量的相似性分数的计算公式包括：差值：

；差值绝对值：

；平方差：

；比例：

；其中，

、

分别为两两设备指纹的数值型特征。

作为优选方案，设所述两两设备指纹的集合型特征分别为

，

；

则所述集合型特征的相似性分数根据特征类型分为8种，分别为：

Jaccard相似性：

取值比例相似性：

其中，

为集合

、

中各元素出现比例集合，

为集合

、

中出现k个不同元素，

为元素k1在集合

中出现次数占总集合中的比例；

Welch’s T-Test相似性：

Mann Whiteny U-Test 相似性：

User Agent 序列相似性：

IP地址相似性：

其中，

为第i段IP地址的OccSimilarity相似性；

ScreenResolution 相似性：

其中，

和

分别为为屏幕分辨率中高度、宽度的相似性；

文本相似性：

作为优选方案，设两两设备指纹的带时间戳集合型特征分别为：

则所述带时间戳集合型特征的相似性分数根据特征类型分为：

时间规律相似性：

连续事件相似度：

作为优选方案，在所述收集设备指纹的特征字段之后，还包括对所述特征字段进行变量平方差筛选和随机森林模型筛选；所述变量平方差筛选为去掉特征相似性分数平方差为0的特征字段；所述随机森林模型筛选包括利用随机森林的每棵树的树节点将特征字段的数据集分割成两类，每个树节点对应一个筛选条件，将相似的一类特征字段放在一起，以减少模型的不纯度，通过计算减少每棵树不纯度的平均值。

作为优选方案，所述构建监督学习模型，包括：将设备指纹相似性分数分别输入逻辑回归、随机森林、梯度下降树和Xgboost模型中，利用5-fold Cross Validation评估方法确定监督学习模型为梯度下降树模型。

本发明还公开了一种防刷机设备指纹相似度识别装置，包括如下步骤：特征收集模块，用于收集设备指纹的特征字段，所述特征字段为从用户登陆行为数据中提取的包括简单统计量、集合型特征和带时间戳集合型特征的字段；相似性分数计算模块，用于计算两两设备指纹的各特征字段间的相似性分数；设备判断模块，用于根据预设的相似性分数阈值，判断两两设备指纹是否为同一设备，并添加标签，所述标签包括是、否或未知；模型构建模块，用于采用是或否标签对应的设备指纹相似性分数构建监督学习模型并输出；识别模块，用于将未知标签对应的设备指纹相似性分数输入监督学习模型中进行识别，获得识别结果。

与现有技术相比，本发明的有益效果包括：借鉴聚类方法的主要思想，通过采集两两设备指纹是否为同一设备的标签，将设备识别问题转换为监督学习。即通过收集设备指纹特征字段，计算两两设备指纹各特征间的相似性分数结合两两设备指纹是否为同一设备的标签，再通过监督学习得到各特征间相似性分数和是否为同一设备标签的关系。实现了在硬件数据不完全可得，有些数据不能获得的情况下，纳入行为时序数据和含行为排序相关性在内的14种相似度算法的方法，最终通过模型训练得到两个设备的相似性。通过对比逻辑回归、随机森林模型、梯度下降树模型和Xgboost模型后选择效果最好的梯度下降树模型，可在保证精确度的同时,有效控制计算成本,提高处理速度。本发明采用混合式设备指纹处理技术,有效规避了主动式和被动式设备指纹技术的缺点，解决了庞杂的数据处理时长问题,平衡了成本和有效性,取得了较好效果。

附图说明

参照附图来说明本发明的公开内容。应当了解，附图仅仅用于说明目的，而并非意在对本发明的保护范围构成限制。在附图中，相同的附图标记用于指代相同的部件。其中：

图1为本发明实施例的防刷机设备指纹相似度识别方法的流程示意图；

图2为本发明实施例的设备指纹有效记录提取的流程示意图；

图3为本发明实施例的数据实例处理的流程示意图；

图4为本发明实施例的防刷机设备指纹相似度识别装置的结构示意图。

具体实施方式

容易理解，根据本发明的技术方案，在不变更本发明实质精神下，本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此，以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。

应理解，对于设备指纹行为历史数据，通常的做法是将相似设备指纹聚类，以达到提高稳定性的目的。通常聚类相似个体问题会考虑采用非监督学习的聚类方法（Clustering Algorithm）,如 K-means, Gaussian Mixture, Hirachical Clustring等算法。

但是为了实现设备指纹相似度识别的目的，无法采取传统聚类方法。理由如下：

（1）特征情况不符：传统聚类方法采取的相似性算法以Euclidean Distance为主，要求全为数值型特征，并且对于特征缺失、取值量度非常敏感，而本方案中可用于描述设备指纹的特征难以符合该要求。

（2）聚类数目不符：传统聚类方法多为将个体聚类为少数几个大类，而本方案是将一千万个设备指纹聚类为大致几百万个设备，该数量级的输出传统聚类算法无法支撑。

（3）模型表现与业务表现不一致：聚类模型的评估建立在上述提到的聚类算法之上，通过单纯的数值比较模型好坏，没有监督学习中可用的实际业务标签指引，所以结果与实际业务需求表现无法保证一致，

因此本方案借鉴聚类方法的主要思想，采集两两设备指纹是否为同一设备的标签，将问题转换为监督学习，具体方案如下。

根据本发明的一实施方式结合图1示出。一种防刷机设备指纹相似度识别方法，包括如下步骤：

S101，收集设备指纹的特征字段，特征字段为从用户登陆行为数据中提取的包括简单统计量、集合型特征和带时间戳集合型特征的字段。该用户登陆行为数据包括五大业务场景数据，分别为软硬件信息、网络和地理位置、关联会员、综合行为信息（Event_Code）和交易相关信息。

其中，上述简单统计量为根据设备指纹记录计算出的数值统计量，如记数、平均值、最大值等。该简单统计量在业务场景中表现为：

（1）综合行为信息：统计各事件（Event_Code）参与记录数目，上午、中午、下午、晚饭、晚上、午夜活跃记录数。

（2）关联会员：关联XXX会员数目、XX会员数目、登陆名数目、关联身份证数目。

（3）交易相关信息：订单完成数、商品购买数、商品购买种类数目、关联卖家数目。

（4）网络和地理位置：IP解析个数、IP解析国家数目、IP解析省份数目、IP解析城市数目等。

上述集合型特征为将页面浏览记录、交易信息和IP解析地理信息进行关联匹配后，结合设备指纹记录的所有历史取值。该集合型特征在业务场景中表现为：

（1）软硬件信息：终端集合、Mac地址集合、User Agent集合、操作系统集合、浏览器集合等。

（2）网络和地理位置：IP地址集合、IP解析国家集合、IP解析经纬度集合等。

（3）关联会员：关联XXX账号集合、关联XX账号集合、关联登陆名集合、关联手机号集合、关联交易手机号集合、关联身份证号集合、深度关联XXX账号集合。

（4）综合行为信息（Event_Code）：事件集合、活跃时间集合、当前页面停留时间集合、当前访问PV个数集合。

（5）交易相关信息：支付订单集合、商品类别集合、支付渠道集合、支付结果集合等。

上述带时间戳集合型特征为在集合型特征的历史取值基础上附上对应的时间。该带时间戳集合型特征在业务场景中表现为：

（1）软硬件信息：终端和活跃时间集合、操作系统和活跃时间集合等。

（2）网络和地理位置：IP地址和活跃时间集合、IP解析经纬度和时间集合等。

（3）关联XX会员：关联XXX账号和活跃时间集合、关联XX账号和活跃时间集合、关联登陆名和活跃时间集合、关联手机号和活跃时间集合。

（4）综合行为信息（Event_Code）：事件和活跃时间集合、事件和活跃小时集合。

（5）交易相关信息：支付订单和时间集合。

参见图2，上述收集设备指纹的特征字段，包括：

（1）选取合适的样本提取时间，提取有效设备指纹, 去除无效和无法追踪到具体用户的设备指纹。无效设备指纹主要是由于系统间时钟差，无法匹配到具体用户的指纹。

（2）模糊关联页面浏览记录, 选取同一用户、同一天内、与事件相关的网页页面、相差时间最短的记录进行匹配。匹配是指：将系统间时钟差相差较短的事件认为是同一用户的浏览记录。

（3）关联交易信息。对于实物类交易，关联交易的商户名称、商品名称、商品类别等信息；对于转账提现类交易，关联交易的收款人、收款银行卡号等信息。

（4）关联IP解析地理信息。将相同设备指纹使用过的IP地址提取出来，再根据网络公开数据，找出该IP对应的地理位置信息。如：113.247.21.1对应的地址是中国湖南长沙。

优选的，在收集设备指纹的特征字段之后，还包括对特征字段进行变量平方差筛选和随机森林模型筛选。

其中，变量平方差筛选为去掉特征相似性分数平方差为0的特征字段。因为收集数据中包含大量缺失值，例如：设备指纹记录中MAC地址这一字段几乎全部缺失，由此计算得到的两两设备相似性分数几乎全为1，导致该特征相似性分数平方差取0，这种本身几乎没有变化的特征变量对于模型是没有任何共享的，因此会首先去掉平方差为0的特征相似性分数。

随机森林模型筛选：随机森林由多棵树组成，树的每一个节点都是对应一个特征的条件，用于将数据集分割成两类，把较为相似的一类放在一起，以减少模型的不纯度。用于选择最优分割的准则是模型不纯度，对于分类模型，常使用Gini不纯度来作为衡量标准，故当训练一棵树的时候，可以计算各特征减少了这棵树的多少不纯度。对于整个随机森林，可以计算特征减少每棵树不纯度的平均值。故随机森林训练完毕后，会输出各特征的重要值，即该特征减少了此森林的多少不纯度。

S102，计算两两设备指纹的各特征字段间的相似性分数。

本发明实施例中，两两设备指纹为被同一用户使用过的设备指纹对，则简单统计量的相似性分数的计算公式包括：

（1）差值：

。

（2）差值绝对值：

。

（3）平方差：

。

（4）比例：

。

其中，

、

分别为两两设备指纹的数值型特征，

为

和

的相似性分数。

本发明实施例中，两两设备指纹的集合型特征分别为：

，

则集合型特征的相似性分数根据特征类型分为8种，分别为：

（1）Jaccard相似性：

即两个集合中重合的元素占两个集合中出现所有元素的比例。适用于度量集合特征中内取值差异性，如想要考察设备使用操作系统种类差异、分辨率种类差异等。

（2）取值比例相似性：

其中，

为集合

、

中各元素出现比例集合，

为集合

、

中出现k个不同元素，

为元素k1在集合

中出现次数占总集合中的比例。适用于度量集合特征中取值和取值频率的差异性，如想要考察设备进行某些行为比例差异、设备购买商品种类和频次差异等。

（3）Welch’s T-Test相似性：

对于两个不一定等长度和不一定拥有相同方差的集合

、

，常常使用Welch’sT-Test验证他们的均值是否相等。当假设检验所得P-value值越小越接近0时，越倾向于拒绝原假设（均值相等），即认为这两个集合相似性越小，反之越接近1时认为越相似。适用于度量集合特征中取值分布差异性，如想要考察设备每日活跃时段差异、购买商品金额差异等。

（4）Mann Whiteny U-Test 相似性：

曼-惠特尼U检验,假设两个样本分别来自除了总体均值以外完全相同的两个总体，目的是检验这两个总体的均值是否有显著的差别。不同于Welch' s T-Test，该检验无对样本正态分布假设。

（5）User Agent 序列相似性：

其中，

为比较两条User Agent

和

相似性的算法，User Agent序列相似性

则可以形象的理解为，是序列中所有User Agent两两比较相似性分数的平均值。

（6）IP地址相似性：

其中，

为第i段IP地址的OccSimilarity相似性。并且IP地址的各段如下所示：

（7）ScreenResolution 相似性：

其中，

和

分别为为屏幕分辨率中高度、宽度的相似性。

（8）文本相似性：

即将文本集合中的每个词语看作一个以字为单位的序列，可将前文所述OccSimilarity相似性作为输入，而文本相似性则可以理解为文本集合中所有词语的OccSimilarity相似性均值。

本发明实施例中，设两两设备指纹的带时间戳集合型特征分别为：

则带时间戳集合型特征的相似性分数根据特征类型分为：

（1）时间规律相似性：

该类相似性用于捕捉设备指纹进行同一操作（同一取值）的时间规律是否一致。如：用户小王习惯用手机在早上浏览商品网页，下午则使用个人电脑浏览商品网页，则对于浏览行为，手机WAP对应的设备指纹和个人电脑对应的设备指纹的时间规律是不同的。所以对于两个设备指纹

、

定义TimePatternSimilarity算法如下：

即分别计算所有操作（取值）的时间规律的Test相似性，然后取最大值、最小值、均值。

（2）连续事件相似度：

连续时间相似度用于衡量两个设备指纹是否在短时间内进行了连续事件，如果进行了连续事件操作，则倾向于认为连个设备指纹属于同一设备。如：用户王先生在10点10分使用设备指纹ID1进行登陆，随后王先生在10点11分使用设备指纹ID2进行下单，则设备指纹ID1和设备指纹ID2很有可能属于同一设备。

连续时间相似度的具体计算方式如下：

短时间（timeInterval）：1小时

连续事件（continuousEvents）：

所以对于设备指纹

和

的事件和时间戳特征：

计算求得满足下列两类关系中一种的

,

连续事件对个数

：

S103，根据预设的相似性分数阈值，判断两两设备指纹是否为同一设备，并添加标签，标签包括是、否或未知。

S104，采用是或否标签对应的设备指纹相似性分数构建监督学习模型并输出。构建监督学习模型，包括：将设备指纹相似性分数分别输入逻辑回归、随机森林、梯度下降树和Xgboost模型中，利用5-fold Cross Validation评估方法确定监督学习模型为梯度下降树模型。模型选择的实例数据清单如表1所示：

表1 试验过的数据集版本清单

其中：版本列为该训练数据、测试数据组合的引用名称；特征相似性分数个数列为实际输入监督学习模型的特征个数；训练数据名列为实际训练数据存储在集群中名称；训练样本数列中，第一行为总的样本数，标签1样本数为该训练数据中标签为同一设备的设备指纹对，标签0样本数为该训练数据中标签为不同设备的设备指纹对；测试1数据名列为实际测试数据存储在集群中名称（区别表明不同训练数据可能使用同一测试1数据）；测试1数据样本数为测试1数据中样本总数。

最终本发明确定选用的梯度下降树模型表现如表2所示。

表2 梯度下降树训练结果

本发明对比逻辑回归、随机森林模型、梯度下降树模型和Xgboost模型后选择效果最好的梯度下降树模型, 梯度下降树模型在设置最大树深15、60棵树、随机取样比例0.8，使用50个精心挑选的特征时，达到最优的表现（测试集捕获率0.87，误杀率0.13）。随着模型复杂度的升高，随机取样比例变大，特征适当选组，模型表现越好。同时当模型复杂度达到树深15、60棵树时，训练集表现和测试集表现开始出现一点过拟合现象，说明在本方案中，梯度下降树模型能够满足复杂度需求，通过有限的字段与行为模式捕捉，聚类用户相似的设备指纹，减少用户使用的设备指纹个数,以合理的计算资源取得了十分不错的输出成果。

S105，将未知标签对应的设备指纹相似性分数输入监督学习模型中进行识别，获得识别结果。

参见图3，为本发明实施例的数据实例处理的流程示意图，展示了如何根据设备指纹的特征字段进行设备识别的全过程。

参见图4，本发明公开了一种防刷机设备指纹相似度识别装置，包括如下步骤：

特征收集模块101，用于收集设备指纹的特征字段，特征字段为从用户登陆行为数据中提取的包括简单统计量、集合型特征和带时间戳集合型特征的字段。

相似性分数计算模块102，用于计算两两设备指纹的各特征字段间的相似性分数。

设备判断模块103，用于根据预设的相似性分数阈值，判断两两设备指纹是否为同一设备，并添加标签，标签包括是、否或未知。

模型构建模块104，用于采用是或否标签对应的设备指纹相似性分数构建监督学习模型并输出。

识别模块105，用于将未知标签对应的设备指纹相似性分数输入监督学习模型中进行识别，获得识别结果。所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

应理解，集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U 盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本发明的有益效果包括：借鉴聚类方法的主要思想，通过采集两两设备指纹是否为同一设备的标签，将设备识别问题转换为监督学习。即通过收集设备指纹特征字段，计算两两设备指纹各特征间的相似性分数结合两两设备指纹是否为同一设备的标签，再通过监督学习得到各特征间相似性分数和是否为同一设备标签的关系。实现了在硬件数据不完全可得，有些数据不能获得的情况下，纳入行为时序数据和含行为排序相关性在内的14种相似度算法的方法，最终通过模型训练得到两个设备的相似性。通过对比逻辑回归、随机森林模型、梯度下降树模型和Xgboost模型后选择效果最好的梯度下降树模型，可在保证精确度的同时,有效控制计算成本,提高处理速度。本发明采用混合式设备指纹处理技术,有效规避了主动式和被动式设备指纹技术的缺点，解决了庞杂的数据处理时长问题,平衡了成本和有效性,取得了较好效果。

本发明提供的一种防刷机设备指纹相似度识别方法和装置，适用于反欺诈场景,进行防范虚假注册、账户盗用、银行卡盗用、营销欺诈等业务欺诈风险,有效累积设备黑名单、拦截风险,以有效降低资损。

本发明的技术范围不仅仅局限于上述说明中的内容，本领域技术人员可以在不脱离本发明技术思想的前提下，对上述实施例进行多种变形和修改，而这些变形和修改均应当属于本发明的保护范围内。