CN109903053B

CN109903053B - 一种基于传感器数据进行行为识别的反欺诈方法

Info

Publication number: CN109903053B
Application number: CN201910154805.4A
Authority: CN
Inventors: 冯诗炀; 程序; 段银春
Original assignee: Chengdu New Hope Finance Information Co Ltd
Current assignee: Chengdu New Hope Finance Information Co Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2020-01-07
Anticipated expiration: 2039-03-01
Also published as: CN109903053A

Abstract

本发明涉及行为识别技术领域，提供了一种基于传感器数据进行行为识别的反欺诈方法，主要技术方案包括首先对原始数据采用标准化数据预处理方案进行处理，并使用标准化线下模型对数据进行分类，得到初步分类结果及分类置信度。对初步分类结果总识别置信度较高的样本标签进行保留，对识别置信度较低的数据样本按照时间戳，将其映射回原始数据之后用其分类标签所对应的非标准化数据预处理方案重新进行数据预处理，对得到的数据使用对应的非标准化线下模型再次进行识别，对于分类置信度低于预设阈值的样本，标注为未知行为，对置信度高于阈值的样本标签进行保留。对上述两次识别之后得到的行为序列输入线上模型进行动态时序特征的捕捉，得出分类结果。

Description

一种基于传感器数据进行行为识别的反欺诈方法

技术领域

本申请涉及数据挖掘领域，尤其涉及一种基于加速度传感器和陀螺仪传感器数据进行行为识别的反欺诈方法。

背景技术

近年来，随着移动通信和互联网的快速发展，以及智能移动终端的高度普及，生活中越来越多的场景可以通过纯在线的方式高效、便捷的展开。然而，纯在线的作业方式由于其无法直接接触到用户的特性，使得一些采用这种方式展业的机构在面对客户进件时无法对于客户的真实有效性进行验证，滋生了各种恶意欺诈手段。欺诈可采用不同的形式，最简单的包括使用多控机同时操控多个账号，模拟真实用户交互情形，以运行电脑脚本的形式大量获取机构本用于发放给正常客户的福利(例如，现金)或冒用身份信息申请贷款并发生恶意逾期行为。在某些场景中(例如，申请贷款)，针对尚无自动化破解方案的反欺诈手段，欺诈者还可采用技术手段结合人工干预的方法来绕过。

利用技术手段实施欺诈，由于其灵活和隐蔽性较高的特点，机构很难实现粒度较细、精度较高的有效识别。黑产在面对机构的反欺诈手段时，通常通过大量低成本的尝试性交互来寻找破解方案。因此有感知的、静态的反欺诈手段在这种破解方法面前非常脆弱，另外，反欺诈手段一旦遭到破解，机构对于恶意欺诈行为识别的召回率将会急剧降低。目前，行为识别技术在反欺诈场景的应用尚未普及，现有技术通过对同一用户的行为模式进行学习，并对每一次新的交互行为和学习到的用户行为进行匹配，以此来判断是否为本人操作，但该方法无法就每一个反欺诈结论给出粒度较低的拒绝原因，导致反欺诈灵活性和可追溯性较差。本方案通过手机内置加速度传感器和陀螺仪传感器采集到的数据，训练行为识别模型，对用户交互行为进行识别，并最终结合行为识别结果和页面埋点数据以规则的方式输出反欺诈结果。通过告知机构用户命中了哪些规则，本发明为反欺诈结论提供了可解释性，另外，通过将模型识别置信度用可调整的阈值进行判别，使得机构对于反欺诈效果可以进行自定义的调整，为基于本发明的反欺诈场景提供了灵活性。

作为用户行为识别的基础，行为识别模型需要基于大量带有标签的数据进行训练，人工标注是目前比较常用的数据标注方法，然而，人工标注费时费力且不易操作，不适合大规模开展。现有技术中，通过数据采集设备，对每个客户进行或隔绝或交叉的数据累积，以此来提高模型的准确率的方法对新客户可扩展性较差，每一个新客户需要积累一段时间的数据之后模型才能发挥效果。受限于无法高效地获得大量训练样本，行为识别模型在反欺诈场景的应用受到了一定程度的影响。本方案通过采用异步式的架构，通过对用户数据进行自动化标注，大大提高了数据标注的效率。

同时，运用传感器数据进行行为识别一直以来都是学术界的关注重点，但用于学术项目的传感器数据通常是在实验环境下通过严格控制环境变量，使用专业的数据采集设备进行数据采集。这种数据采集方案在实际生产中不具备可行性，而本发明所涉及的数据采集均指通过智能手机完成，因此具备很强的可复制性。

发明内容

本申请的目的在于针对现有技术手段存在的问题，提供一种动态的、无感知的反欺诈方法，提高反欺诈的灵活性及可追溯性，并就行为识别模型训练样本难以获取的问题提出解决方案。

本发明涉及的行为识别模型的对象是用户交互时的正常的人的行为，为此，模型的排除定义中对非人的(例如，机器模拟)以及不合理的人的行为(例如，完全静止)进行了排除，不纳入模型识别的行为类别范畴。因此，下文中提到的已知行为均指代合理的人的行为，未知行为则指非人的或者不合理的人的行为。

以下是本发明的流程概述：

本发明为解决上述问题，提供以下技术方案：

一种基于传感器数据进行行为识别的反欺诈方法，其特征在于，包括以下步骤：

步骤1、线下数据采集，并按照行为定义进行人工标注行为标签；

步骤2、对采集到的样本根据行为标签分别按照标准化和非标准化的预处理方案进行数据预处理；

步骤3、对预处理后的多个数据样本分别进行分析和建模，得到与行为标签所对应的一套标准化线下判别模型和多套非标准化线下判别模型；

步骤4、线上环境中，首先对原始数据采用标准化数据预处理方案进行处理，并使用线下训练好的标准化线下模型对数据进行分类，得到初步分类的置信度；

步骤5、对初步分类的置信度较高的样本行为标签进行保留，对识别置信度较低的数据样本重新进行数据预处理，然后使用对应的非标准化线下模型再次进行识别，对于分类置信度低于预设阈值的样本，标注为未知行为，对置信度高于阈值的样本标签进行保留，得到行为序列；

步骤6、对于步骤5得到的行为序列，结合页面埋点数据通过落地为规则来进行反欺诈。

上述技术方案中，每套非标准化线下判别模型和非标准化数据预处理方案均对每一种行为标签保持一一对应关系。

上述技术方案中，步骤1包括以下步骤：

步骤1.1、根据具体应用场景，定义已知行为类别；

步骤1.2、根据行为定义，对每种行为进行模拟实验，预设传感器采样频率；

步骤1.3、使用智能移动终端采集三轴加速度传感器数据和三轴陀螺仪传感器数据；

步骤1.4、对采集到的数据进行去头尾的数据清洗；

步骤1.5、对采集到的数据按照行为定义进行人工标注行为标签。

上述技术方案中，步骤2包括以下步骤：

步骤2.1、对采集到的传感器数据首先会对原始数据进行降噪，从原始传感器数据中的每一维度数据中剥离出趋势项和波动项；

步骤2.2、对降噪后的数据进行滑动区间处理；

步骤2.3、对于滑动区间处理完之后的数据进行特征工程，特征工程会对落于一个滑动区间的数据进行运算和整合，经过处理后，每一行数据代表一个滑动区间样本；

步骤2.4、基于每一个定义的已知行为类别的最优滑动区间长度及重合率设置，对线下采集到的数据集进行多次数据预处理，得到多个训练集，选择一个标准的滑动区间长度及重合率配置方案，并将该方案用于线上环境中，对所有实时数据用标准化预处理方案进行第一次预处理。

上述技术方案中，步骤3包括以下步骤：

步骤3.1、模型会对经过步骤2加工后的多个训练集分别进行分析和建模；

步骤3.2、模型训练的过程首先对每一个样本依据其是否为当前识别的目标行为类别，标注为正反例，采用标记集合y_N＝{+1,-1}来进行标记；

步骤3.3、对每一个特征通过遍历其取值区间和不等式关系来构建多个弱分类器，并进行多次迭代，每次迭代根据分类错误率选出一个最优的弱分类器；

步骤3.4、在开始迭代之前，对所有样本赋予初始权重，在接下来的每次迭代过程中，通过调整分类正确和分类错误的样本的权重来对弱分类器进使用加权分类误差进行一次的筛选，并选出当前迭代中分类加权误差最小的弱分类器，同时，加权分类误差也作为弱分类器权重设置的依据，在对最优弱分类器集的结果进行融合时，作为弱分类器的权重，当所有迭代完成之后，通过对最优弱分类器集及其对应的权重求加权和得到强分类结果，即可得到标准化线下判别模型和非标准化线下判别模型。

上述技术方案中，对每一个强分类器，通过累加弱分类器的方式，观察加权分类误差的下降幅度，找出达到最优分类误差的最少弱分类器个数。

上述技术方案中，步骤4包括以下步骤：

在线上识别部分，首先对原始数据(实时采集到的用户数据)采用标准化数据预处理方案进行处理，并使用线下训练好的标准化线下模型对数据进行分类，得到一个概率矩阵，并通过下列公式输出分类置信度：

j表示行为类别，h_t(x)表示第t次迭代的最优弱分类器,τ是针对每一种行为识别达到最优分类准确度时最少弱训练器个数，代表区分行为j的弱分类器的权重，通过下式计算得出：

代表区分行为j的弱分类器的分类误差率。

上述技术方案中，步骤5包括以下步骤：

步骤5.1、在对分类结果通过置信度转换之后，对置信度高和置信度低的样本进行区别对待，对于置信度高的样本的行为标签进行保留，对置信度低的样本通过时间戳，映射回原始数据；

步骤5.2、根据步骤4初步分类产生的行为标签，取置信度最高的行为标签，对原始数据按照该行为标签相应的数据预处理方案重新对映射得到的原始数据采用对应的非标准化模型和非标准化数据预处理方案进行预处理；

步骤5.3、对上一步骤得到的数据通过相应的线下判别模型再一次进行识别，并对识别结果进行置信度判断，对分类置信度有较大提升或者分类置信度超过了阈值的标签进行保留，否则则对该样本标注为“未知行为”，得到行为序列。

上述技术方案中，步骤6中页面埋点数据的采集通过前端页面来进行，采集的对象是用户和前端页面进行交互时产生的行为数据，包括：页面触碰位置，页面浏览时长，输入框行为，在生成反欺诈规则时，需要对异常行为进行定义，再通过时间戳对页面行为和行为识别结果进行交叉验证。

本发明因为采用上述技术方案，因此具有以下有益效果：

第一方面，提供了一种欺诈识别的方法，包括：在线下环境中，通过使用人工标注的行为数据对已知行为类别进行线下模型训练，在线上生产环境中使用线下模型对实时客户数据进行初步分类，得到一个由多个行为节点组成的行为序列及每个节点对应的各种行为类别的判别置信度。通过对置信度高和置信度低的数据节点采用不同的处理方法，从识别置信度不高的数据节点中剥离已知行为数据和未知行为数据，从而提升对已知行为类别的识别准确度。另外，线上模型通过捕捉行为序列的动态时序特征，最终输出一个优化后的行为序列。最后，线上模型输出的结果结合SDK采集到的页面埋点数据通过时间维度进行交叉验证，最终落地为一套反欺诈规则来达到反欺诈目的。这种方法可以在用户无感知的情况下，取得较高的准确率和召回率，以达到识别是否是真人在进行正常交互的反欺诈效果。

第二方面，提供了一种提高模型对已知行为的识别准确率的方法，包括：在线上生产环境中，当模型对用户数据识别置信度较低时，对用户数据分别进行串行的两次预处理，将第一次标准化预处理之后识别置信度不高的样本依据其初步分类标签进行对应该标签的最优非标准化数据预处理，并使用对应该标签的最优线下模型进行判别之后，根据判别置信度将识别结果分别标注为已知行为标签和未知行为标签，以提升模型对于已知行为类别的识别准确度。

第三方面，提供了一种在行为识别领域对未标注数据进行自动化标注并积累模型训练集的方法，包括：基于串行的架构设计，前置步骤基于人工标注样本训练模型，并使用该模型对未标注数据进行自动化标注，并将标注结果转化为可量化的识别置信度。对置信度较高的样本及标签进行保留，实现模型训练样本的积累。

附图说明

图1是线下训练数据采集方案流程图；

图2是数据预处理流程图；

图3是线下判别模型训练流程图；

图4是线上生成模型行为识别流程图。

具体实施方式

本发明通过以下技术方案来实现上述目的：一个线下训练数据采集方案、一个数据预处理方案、一个用于采集页面埋点数据的SDK、一个线下判别模型，以及一个线上生成模型。该方法的执行主体是智能穿戴设备，该设备可以接入一个或多个核心网进行通信，装载有内置传感器且可以通过部署SDK采集页面埋点数据，例如，智能手机、智能手表，以及智能手环，因此，本发明实施例对此不做限定。

在线下训练部分，对已知行为进行线下训练样本采集，对采集到的样本分别按照标准化和非标准化的预处理方案进行多次数据预处理，并对预处理后的多个数据样本分别进行分析和建模，得到一套标准化线下判别模型和多套非标准化线下判别模型。

每套非标准化模型和非标准化数据预处理方案均对每一种行为标签保持一一对应关系。

线下模型的结果在线上环境作为中间结果被运用到线上识别部分。

在线上识别部分，首先对原始数据采用标准化数据预处理方案进行处理，并使用标准化线下模型对数据进行分类，得到初步分类结果及分类置信度。

对初步分类结果总识别置信度较高的样本标签进行保留，对识别置信度较低的数据样本按照时间戳，将其映射回原始数据之后用其分类标签所对应的非标准化数据预处理方案重新进行数据预处理，对得到的数据使用对应的非标准化线下模型再次进行识别，对于分类置信度低于预设阈值的样本，标注为未知行为，对置信度高于阈值的样本标签进行保留。对上述两次识别之后得到的行为序列输入线上模型进行动态时序特征的捕捉，得出最终的分类结果。

实施例：

步骤1线下数据采集

步骤1.1

根据具体应用场景，定义已知行为类别。例如，“走路-打字-站姿-1”，“静止-打字-坐姿-2”，“静止-打字-坐姿-3”

步骤1.2

根据行为定义，对每种行为进行模拟实验，预设传感器采样频率。例如，加速度传感器设为25Hz，陀螺仪传感器50Hz

步骤1.3

使用智能移动终端采集三轴加速度传感器数据和三轴陀螺仪传感器数据。例如，“32.45 43.56 12.56 45.34 57.32 124.34,22.35 13.56 123.57 145.34 27.32 12.34”；

步骤1.4

对采集到的数据进行去头尾的数据清洗。例如，删除采集到的前3秒与后3秒数据

步骤1.5

对采集到的数据按照行为定义进行人工标注。例如，“32.45 43.56 12.56 45.3457.32 124.34走路-打字-站姿-1,22.35 13.56 123.57 145.34 27.32 12.34静止-打字-坐姿-3”；

步骤2数据预处理

步骤2.1

对采集到的传感器数据首先会对原始数据进行降噪，从原始传感器数据中的每一维度数据中剥离出趋势项和波动项。

例如，一维数据y的全变分可以表示为：

全变分降噪基于如下原理：包含过多细节的信号存在高全变分，也就是说信号绝对梯度的积分高，因此，降低这类信号的全变分会和原信号保持基本一致，在降噪的同时保留了需要的细节。总体来讲，由于噪音的存在，导致相邻数据间不平滑，随机变化较大，故全变分较大，而平滑信号则全变分比较小。通过最小化全变分，可以达到平滑噪音信号的效果。例如，给定一个带随机噪音的信号x_n，找出一个近似于x_n的信号y_n，但有更小的全变分，可以通过误差平方和来衡量两者差别：

将上述式子转化为数学模型，等于求解下列优化问题：

两个分式，

代表x,y两个波的相似度，λV(y)代表全变分。这个式子代表找一个x能够与y尽可能的相似，但是拥有更小的全变分的波，其中其中参数λ是松弛因子。

步骤2.2

对降噪后的数据进行滑动区间处理。在处理过程中，对于每一个已知行为类别，训练样本按照专家经验进行不同的滑动区间长度设置，此外，对所有样本采用标准的区间长度进行一次单独的处理。例如，原始数据如下表所示，示例以25Hz采样频率的加速度传感器数据进行展示:

表1

对原始数据按照0.04秒的区间长度，以及50％的重叠为例，并会得到2个滑动区间，如表2所示，序号为1和2的两行数据则为第一个滑动区间，序号为2和3的两行即为第二个滑动区间，因为设置了50％的重叠率，因此第二行为两个滑动区间的共有部分：

表2

经过降噪之后的数据再经过滑动区间的处理之后，得到的每一个滑动区间样本由多个单一数据样本构成，每一个滑动区间样本作为步骤2.3中的处理对象。

步骤2.3

对于滑动区间处理完之后的数据进行特征工程，特征工程会对落于一个滑动区间的数据进行运算和整合，经过处理后，每一行数据代表一个滑动区间样本，数据维度包括统计学变量(例如，均值，方差等)、信号分析变量(例如，时域和频域特征)，以及设备行为变量(例如，设备朝向和角速度)，例如，前文样例中的滑动区间样本中Acc_X列衍生出的部分统计学维度如下表：

步骤2.4

基于每一个定义的已知行为类别的最优滑动区间长度及重合率设置，对线下采集到的数据集进行多次数据预处理，得到多个训练集，此外，选择一个标准的滑动区间长度及重合率配置方案，并将该方案用于线上环境中，对所有实时数据同一用标准化方案进行第一次预处理。

例如，区分“走路-打字-站姿-1”行为和其他行为最优的滑动区间设置为0.3秒，重合率为50％，同时，标准化方案为0.5秒，重合率为0％，则线上环境分别用上述两种方案对线下采集的数据集进行两次数据预处理(一次完整的数据预处理包括滑动区间设置和特征工程，标准方案+非标准方案。非标准方案根据具体的行为识别结果而定，有多少种行为就有多少套)，并分别用于对应的线下模型的训练中作为训练集。得到标准化和适用于识别“走路-打字-站姿-1”行为的两套线下判别模型。

步骤3线下模型训练

步骤3.1

模型会对经过步骤2加工后的多个训练集分别进行分析和建模。

例如，采用树结构的复杂模型：模型结果由融合了多个弱分类器结果的强分类器输出，并针对每种行为都输出一个强分类器。

步骤3.2

模型训练的过程首先对每一个样本依据其是否为当前识别的目标行为类别，标注为正反例，我们采用标记集合y_N＝{+1,-1}来进行标记。例如，使用前文中举的例，通过判断是否为目标行为，对正例标注为1，对反例标注为-1，如下表：

假设我们当前的识别针对行为A，那么标注后的数据为，如下表：

步骤3.3

对每一个特征通过遍历其取值区间和不等式关系(例如，大于等于和小于)来构建多个弱分类器，并进行多次迭代，每次迭代根据分类错误率选出一个最优的弱分类器。以前文例子中的Acc_X均值维度为例，首先找出该特征的最大值和最小值，从而确定该特征的取值范围；然后通过预设一个分箱数量，假设为10，取出10个不同的特征值；同时，对于大于等于和小于这两种大小关系比较进行遍历，生成多个二叉树弱分类器。例如，针对A行为，用均值(Mean)按照上述步骤构建弱分类器，会得到如下分类器：特征--Acc_X均值，取值--1.75，大小关系--大于，如下表：

行为	特征	取值	大小关系
				A	Acc_X均值	1.75	>(大于)

步骤3.4

在开始迭代之前，对所有样本赋予初始权重，在接下来的每次迭代过程中，通过调整分类正确和分类错误的样本的权重来对弱分类器进使用加权分类误差进行一次的筛选，并选出当前迭代中分类加权误差最小的弱分类器。同时，加权分类误差也作为弱分类器权重设置的依据，在对最优弱分类器集的结果进行融合时，作为弱分类器的权重，当所有迭代完成之后，通过对最优弱分类器集及其对应的权重求加权和得到强分类结果。另外，对每一个强分类器，通过累加弱分类器的方式，观察加权分类误差的下降幅度，找出达到最优分类误差的最少弱分类器个数，以此来减少模型运算量，提升模型的性能。

例如，将所有样本中标注为目标行为的样本标注为1，其他样本标注为-1。

假设样本P为(x₁,y₁),…,(x_N,y_N),其中N＝1,2,3…其中y_N是一个标记集合{+1,-1}。分别对每一个正反样本赋予初始权重，正例初始权重

y_N＝1，反例初始权重

y_N＝-1。

表示进行1次迭代，m和l分别代表正反例样本总数，并对权重按照如下公式进行归一化处理：

在对训练样本经过上述处理之后，对每一种行为j通过步骤3.3介绍的方式进行t次迭代。第一次迭代筛选出的最优弱分类器作为基准弱分类器，在后面每一次迭代中，将加权分类误差最小的弱分类器与基准分类器进行结合，构建一个弱分类器集，当结合得到的强分类器分类效果优于基准分类器时，更新基准分类器，并进行下一次迭代。同时，对于每一次迭代中分类错误的样本的权重按照如下方式进行调整，得到新的样本权重

进行下一次的迭代：

h_t(x)表示第t次迭代的最优弱分类器，其中，Z_t是归一化因子，可以表示为：

当e_t≤0.5时，α_t≥0，而且α_t随着e_t的减小而增大，意味着分类误差率越小的弱分类器在强分类器中的作用越大。e_t代表h_t(x)在训练集上的分类误差率，可以表示为：

h_t(x_N)≠y_N表示每个样本的分类结果是否与真实结果一致，在这个地方相当于是分类不正确输出1，正确为0。x_N根据前文的定义是指代整个样本集，h_t(x_N)则代表弱分类器对每一个样本的分类结果。

最后，得到对区分行为j的最优弱分类器集h^j(x)，再依据各分类器的分类误差率，对最优分类器集中的各个弱分类器按照如下公式进行加权求和，得到对行为j识别的强分类器结果，并最终对得到的结果通过Sigmoid函数转化为概率：

其中τ是针对每一种行为识别达到最优分类准确度时最少弱训练器个数，

代表区分行为j的弱分类器的权重，通过下式计算得出：

代表区分行为j的弱分类器的分类误差率。由此，在线上环境对实时数据进行分类时，每一个样本都会得到一个P*Q的矩阵，这里的P的数值对应的是行为类别的数量，Q的数值对应的是样本数量，矩阵中每一个数值代表当前样本在该行为的概率。

步骤4线上分类

步骤4.1

在线上环境中，先对数据通过前述步骤进行处理，并用线下训练好的模型对数据进行初步分类，得到一个概率矩阵，并通过下列公式输出分类置信度：

j表示行为类别

上述公式计算出所有弱分类器中分类结果和最终结果一致的分类器占比，可通过sigmoid函数转化为概率：

H^j(x)＝sig(m^j(x))

步骤4.2

经过步骤4.1之后的数据可以得到如下图展示的。例如，对单个滑动区间数据，利用线下训练好的分类器得到初步分类结果如下，如下表：

上图中前三列为一个滑动区间样本数据，“Proba”列为线下训练好的针对各个行为识别最优的强分类器输出的分类结果，通过步骤4.1中的方法，将proba列的结果通过转化，得到Confidence列的数据

步骤4.3

在对分类结果通过置信度转换之后，对置信度高和置信度低的样本进行区别对待。对于置信度高的样本的行为标签进行保留，对置信度低的样本通过时间戳，映射回原始数据，并根据初步行为识别步骤中产生的行为标签，取置信度最高的行为标签，对原始数据按照该标签相应的数据预处理方案重新对映射得到的原始数据采用对应的非标准化模型和非标准化数据预处理方案进行预处理。

例如，对上列图表中的“Confidence”列的结果以0.8为判断阈值，以上结果中只有行为G的分类结果超过了阈值，因此，这一样本的分类结果即为行为G。如果行为G的识别置信度也在0.8以下，假设为0.6(低于阈值0.8)，此时仍然为所有分类结果中置信度最高的分类结果，这个时候对该数据样本按照“TimeStamp”列中的时间戳映射回原始数据，得到如下数据，如下表：

Acc_X	Acc_Y	Acc_Z	Label(标签)	TimeStamp
					1.34	23.56	123.54	G	0
2.45	24.56	123.78		40

并且这个时候我们已经有了一个初步分类的标签G，因此，可以通过对映射得到的原始数据采用对行为G识别最优的数据预处理方案重新对目前数据进行处理，并采用相应的线下模型对数据重新进行分类；

步骤4.4

对上一步骤得到的数据通过相应的线下模型再一次进行识别，并对识别结果进行置信度判断。观测新的分类结果，在以下两种情况的一种发生时，对新生成的标签进行保留，否则则对该样本标注为“未知行为”：1、分类置信度有较大提升，2、分类置信度超过了阈值。例如，接着前面的例子，对被初步标注为G的样本通过识别G行为最优的数据预处理方案以及线下模型，得到一个新的分类结果以及分类置信度，并再次对分类置信度进行判别：如果识别置信度较初步识别结果有较大提升，但仍然没有超过阈值，那么此时可能的解释为数据滑动区间截断了目标行为的完整数据，获得并识别了部分数据特征，因此，部分弱分类器投了赞成票；如果识别置信度通过本步骤超过了阈值，那么可对标签进行保留，这种情况可以解释为原始滑动区间内混合了多种行为的数据，导致初步识别置信度较低，但是通过对原始滑动区间进行拆分，使得现在单个滑动区间内的数据更加符合单种行为类别的特征，从而获得了识别置信度上的提升；最后，对于处理后识别置信度既没有较大提升，也没有超过阈值的样本，标注为“未知行为”。对新生成的滑动区间，按照时间戳进行重新组装，重新组装是指从新生成滑动区间和覆盖率。

步骤4.5

对于步骤4.4得到的行为序列，结合页面埋点数据通过落地为规则来进行反欺诈。页面埋点数据的采集通过前端页面来进行，采集的对象是用户和前端页面进行交互时产生的行为数据，包括：页面触碰位置，页面浏览时长，输入框行为等。在生成反欺诈规则时，需要对异常行为进行定义，再通过时间戳对页面行为和行为识别结果进行交叉验证。例如，采集到用户如下行为序列数据，如下表：

首先说明，数据虽然会当用户在和SDK部署页面交互时即采集，但数据的传输并非实时进行，而是只有当用户点击了某个按键才会进行，因此所有进入模型的数据均代表用户完成了一个完整的流程。以上述数据为例，假设该用户正在申请贷款，而此时SDK部署的页面为基本信息填写页面，并且通过SDK采集到了如下行为数据，如下表：

页面1
		触碰位置	[]
触碰次数	[]
		页面浏览时长	[0-5.5s]
输入框1
		有无退格或删除	False
输入时长	0.01s
		时间戳	[1-1.5s]
输入框2
		有无退格或删除	False
输入时长	0.01s
		时间戳	[2.5-3s]

基于上述行为识别结果和用户页面行为数据，我们可以做如下的反欺诈规则对该用户行为进行是否为欺诈的识别：

1、用户交互时长过短：用户全程用户仅5.5s，相比于正常用户，用时过短；

2、用户全程没有行为：行为识别结果表明在交互的全过程中用户并没有做任何行为；

3、输入框输入时长过短：用户在两个输入框的输入时长都过短；

4、输入框交互时间段内没有相应行为：用户在输入框的交互中，没有监测到任何行为。

本方法最终输出即为类似于上述规则的结果，至于最终是否把这次交互作为欺诈处理的决定权交予使用方。使用方可以通过配置相应的决策，可以对命中的规则通过评分卡模型，对规则结果进行最终判定。这也是本发明体现反欺诈灵活性和可追溯性的地方。

Claims

1.一种基于传感器数据进行行为识别的反欺诈方法，其特征在于，包括以下步骤：

步骤3、对预处理后的多个数据样本分别进行分析和建模，得到一套标准化线下判别模型和与行为标签所对应的多套非标准化线下判别模型；

步骤6、对于步骤5得到的行为序列，结合页面埋点数据来进行反欺诈；

步骤2包括以下步骤：

步骤2.2、对降噪后的数据进行滑动区间处理；

步骤2.4、选择一个标准的滑动区间长度及重合率配置方案，并应用于线上环境中，对所有实时数据用该标准化预处理方案进行第一次预处理，另外，基于每一个定义的已知行为类别的最优滑动区间长度及重合率设置，对线下采集到的数据集进行多次数据预处理，得到多个训练集；

步骤3包括以下步骤：

步骤3.4、在开始迭代之前，对所有样本赋予初始权重，在接下来的每次迭代过程中，通过有区别的调整分类正确和分类错误的样本的权重来对弱分类器使用加权分类误差进行排序，并选择当前迭代中加权误差最小的弱分类器为最优弱分类器，同时，加权分类误差也作为弱分类器集权重设置的依据，在对最优弱分类器集的结果进行融合时，作为弱分类器集的权重，当所有迭代完成之后，通过对最优弱分类器集及其对应的权重求加权和得到强分类结果，即可得到标准化线下判别模型和非标准化线下判别模型。

2.根据权利要求1所述的一种基于传感器数据进行行为识别的反欺诈方法，其特征在于，每套非标准化线下判别模型和非标准化数据预处理方案均对每一种行为标签保持一一对应关系。

3.根据权利要求1所述的一种基于传感器数据进行行为识别的反欺诈方法，其特征在于，步骤1包括以下步骤：

步骤1.1、根据具体应用场景，定义已知行为类别；

步骤1.4、对采集到的数据进行去头尾的数据清洗；

4.根据权利要求1所述的一种基于传感器数据进行行为识别的反欺诈方法，其特征在于，对每一个强分类器，通过累加弱分类器的方式，观察加权分类误差的下降幅度，找出达到最优分类误差的最少弱分类器个数。

5.根据权利要求1所述的一种基于传感器数据进行行为识别的反欺诈方法，其特征在于，步骤4包括以下步骤：

在线上识别部分，首先对原始数据采用标准化数据预处理方案进行处理，并使用线下训练好的标准化线下模型对数据进行分类，得到一个概率矩阵，并通过下列公式输出分类置信度：

j表示行为类别，h_t(x)表示第t次迭代的最优弱分类器,τ是针对每一种行为识别达到最优分类准确度时最少弱训练器个数，

代表区分行为j的弱分类器的权重，通过下式计算得出：

代表区分行为j的弱分类器的分类误差率。

6.根据权利要求1所述的一种基于传感器数据进行行为识别的反欺诈方法，其特征在于，步骤5包括以下步骤：

步骤5.3、对上一步骤得到的数据通过相应的线下判别模型再一次进行识别，并对识别结果进行置信度判断，对分类置信度有较大提升或者分类置信度超过了阈值的标签进行保留，否则对该样本标注为“未知行为”，得到行为序列。

7.根据权利要求1所述的一种基于传感器数据进行行为识别的反欺诈方法，其特征在于，步骤6中页面埋点数据的采集通过前端页面来进行，采集的对象是用户和前端页面进行交互时产生的行为数据，包括：页面触碰位置，页面浏览时长，输入框行为，在生成反欺诈规则时，需要对异常行为进行定义，再通过时间戳对页面行为和行为识别结果进行交叉验证。