CN115204322B

CN115204322B - 行为链路异常识别方法和装置

Info

Publication number: CN115204322B
Application number: CN202211125473.5A
Authority: CN
Inventors: 吴枭; 吕文勇; 周智杰; 王渊; 汪劲松; 金秋
Original assignee: Chengdu New Hope Finance Information Co Ltd
Current assignee: Chengdu New Hope Finance Information Co Ltd
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2022-11-22
Anticipated expiration: 2042-09-16
Also published as: CN115204322A

Abstract

本申请提供一种行为链路异常识别方法和装置，通过采集用户的时间序列样本并对时间间隔进行聚类处理以判断相邻事件是否连续从而构建行为序列样本。对行为训练样本进行类别判定，并利用各个行为类别的行为序列样本训练马尔科夫概率矩阵，构建用户行为链路模型，且构建OCSVMs集群模型。基于用户行为链路模型和OCSVMs集群模型构建综合异常检测模型，利用综合异常检测模型对待识别用户的行为进行异常检测。该方案可精准地刻画用户的行为链路画像，通过对行为链路进行异常检测，可以对用户风险操作进行有效防范。

Description

行为链路异常识别方法和装置

技术领域

本发明涉及人工智能领域，具体而言，涉及一种行为链路异常识别方法和装置。

背景技术

计算机技术和移动互联网的发展彻底更改了大众的生活方式，金融、医疗、电商、社交娱乐等各个行业的业务形式不断由线下向线上拓展。金融行业中，用户只需通过简单的移动APP或小程序就可以进行消费贷款；电商行业中，用户通过相应的电商软件便可实现线上购物；社交娱乐行业中，用户通过简单的点赞、评论等操作便可以参与到社交互动中。种种生活方式和消费方式的改变，在为大家提供便利的同时，却也隐藏着极大的安全风险。

以金融行业为例，用户信息盗用后被用于虚假借贷、用户账户被盗用后进行异常转账以及其他高危操作等现象层出不穷，给人民造成损失的同时，也对企业和商家本身提出了更高的风险防范需求。针对以上存在的问题，现行的解决方案通常利用数据挖掘和机器学习方法，对存在异常的高危用户操作进行风险甄别，并进行相应的风险处置。但目前的风险异常识别方法多依赖于截面判断或单一行为判断，例如：

1)截面判断如对用户某一段时间的登陆行为进行检测，若客户存在高频次登陆或刷新行为则可能存在异常情况；

2)单一行为判断如对用户填写的信息进行检测，若存在填写不合规、填写时长过长、点击次数过多等则可能存在异常情况。

随着移动互联网的各类业务场景越来越复杂，上述异常检测方式已经不能满足当前的风险防控需求。例如某一用户进行修改密码操作，需要相应进行“发送验证码→手机验证→密码修改成功”的操作，若单一去观测用户的该类操作，属于正常行为，但若用户在一定时间周期内进行了多次该类操作，则可能存在账户被盗用的可能。在此场景下，采用截面判断或单一行为判断无法对该类风险进行有效识别。

发明内容

本发明的目的包括，例如，提供了一种行为链路异常识别方法和装置，其能够精准刻画用户行为链路画像以实现行为链路的异常检测。

本发明的实施例可以这样实现：

第一方面，本发明提供一种行为链路异常识别方法，所述方法包括：

采集多个用户的事件序列样本，各所述事件序列样本包括多个事件项，相邻事件项之间具有时间间隔；

对多个事件序列样本对应的时间间隔进行聚类处理，根据聚类处理结果确定相邻事件项之间是否连续，并根据确定结果得到各用户的行为序列样本，各行为序列样本中包含多个行为项，各所述行为项由多个连续的事件项组成；

对各用户的行为序列样本进行行为类别判定；

利用各个行为类别的行为序列样本训练得到马尔科夫概率矩阵，并建立用户行为链路模型；

利用各个行为类别的行为序列样本构建得到OCSVMs集群模型，所述OCSVMs集群模型用于对各个行为类别的异常行为进行识别；

基于所述行为链路模型和OCSVMs集群模型构建综合异常检测模型，利用所述综合异常检测模型对待识别用户的行为进行异常检测。

在可选的实施方式中，所述对多个事件序列样本对应的时间间隔进行聚类处理的步骤，包括：

对多个事件序列样本对应的时间间隔进行多次的初步聚类；

针对每次初步聚类后的各个聚类簇中的各个时间间隔，计算该时间间隔与其所在聚类簇内其他时间间隔之间的簇内平均距离，以及该时间间隔与其他聚类簇中时间间隔之间的簇间平均距离，并根据所述簇内平均距离和簇间平均距离计算得到单个时间间隔的轮廓系数；

根据多个时间间隔的轮廓系数得到每次初步聚类后的总的轮廓系数；

获得总的轮廓系数最大的初步聚类的聚类簇数目作为最优聚类簇数目，并将该最优聚类簇数目对应的初步聚类作为最优聚类操作，以完成对时间间隔的聚类处理。

在可选的实施方式中，所述根据聚类处理结果确定相邻事件项之间是否连续，并根据确定结果得到各用户的行为序列样本的步骤，包括：

根据聚类处理结果中，时间间隔数值最小的聚类簇中最大时间间隔或时间间隔数值最小的聚类簇中设定分位数对应的时间间隔，得到判定标识符；

针对各用户的事件序列样本，将对应时间间隔小于或等于所述标识符的两个相邻事件项确定为连续的，将对应时间间隔大于所述标识符的两个相邻事件项确定为不连续的；

将连续的事件项组成一行为项，以得到各用户的包含多个行为项的行为序列样本。

在可选的实施方式中，所述对各用户的行为序列样本进行行为类别判定的步骤，包括：

针对各用户的行为序列样本，若所述行为序列样本中的行为项存在设定关键事件项，则根据所述设定关键事件项确定对应的行为项的行为类别；

若行为项中不存在设定关键事件项，则计算行为序列样本中各个事件序列之间的莱文斯坦距离，并基于莱文斯坦距离进行聚类操作，将最优聚类操作的聚类簇数目作为行为类别的数目，并按得到的行为类别的数目进行行为类别划分；

若行为序列样本中存在静默序列，则根据静默序列的类型确定其行为类别。

在可选的实施方式中，所述利用各个行为类别的行为序列样本训练得到马尔科夫概率矩阵，并建立用户行为链路模型的步骤，包括：

基于各个行为类别的行为序列样本，统计得到初始行为项为各个行为类别的初始概率向量；

根据从上一个行为项的行为类别转移到下一个行为项的行为类别的频数，计算得到从上一个行为项的行为类别转移到下一个行为项的行为类别的概率，并得到由多个概率构成的马尔科夫概率矩阵；

根据所述初始概率向量和马尔科夫概率矩阵构建得到用户行为链路模型，所述用户行为链路模型表征用户从初始行为项发展到当前行为项的概率。

在可选的实施方式中，所述利用各个行为类别的行为序列样本构建得到OCSVMs集群模型的步骤，包括：

针对各个行为类别的行为序列样本，结合设定加工维度下的加工特征得到特征向量矩阵；

基于各个行为类别的特征向量矩阵，通过最小化球体半径并确定球体球心以构建得到一超球体；

根据得到的超球体构建得到决策函数，以确定OCSVMs集群模型。

在可选的实施方式中，所述基于所述行为链路模型和OCSVMs集群模型构建综合异常检测模型的步骤，包括：

将所述行为链路模型乘以所述OCSVMs集群模型构建得到综合异常检测模型。

在可选的实施方式中，所述利用所述综合异常检测模型对待识别用户的行为进行异常检测的步骤，包括：

获取待识别用户的事件序列，并根据所述事件序列得到行为序列，确定行为序列中各行为项的行为类别；

将具有多个行为类别的行为序列带入至所述综合异常检测模型中，得到无异常分值，该无异常分值体现待识别用户从初始行为项到目前行为项的全链路行为的异常情况；

若所述无异常分值低于设定阈值，则确定待识别用户的行为存在异常并进行风险预警。

获取待识别用户的检测周期内的事件序列，并根据所述事件序列得到行为序列，确定行为序列中各行为项的行为类别；

将检测周期内的具有多个行为类别的行为序列带入至去除所述初始概率向量的综合异常检测模型中，得到无异常分值，该无异常分值体现待识别用户在检测周期内的行为链路的异常情况；

第二方面，本发明提供一种行为链路异常识别装置，所述装置包括：

采集模块，用于采集多个用户的事件序列样本，各所述事件序列样本包括多个事件项，相邻事件项之间具有时间间隔；

聚类模块，用于对多个事件序列样本对应的时间间隔进行聚类处理，根据聚类处理结果确定相邻事件项之间是否连续，并根据确定结果得到各用户的行为序列样本，各行为序列样本中包含多个行为项，各所述行为项由多个连续的事件项组成；

判定模块，用于对各用户的行为序列样本进行行为类别判定；

第一构建模块，用于利用各个行为类别的行为序列样本训练得到马尔科夫概率矩阵，并建立用户行为链路模型；

第二构建模块，用于利用各个行为类别的行为序列样本构建得到OCSVMs集群模型，所述OCSVMs集群模型用于对各个行为类别的异常行为进行识别；

检测模块，用于基于所述行为链路模型和OCSVMs集群模型构建综合异常检测模型，利用所述综合异常检测模型对待识别用户的行为进行异常检测。

本发明实施例的有益效果包括，例如：

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的行为链路异常识别方法的流程图；

图2为图1中步骤S102包含的子步骤的流程图；

图3为本申请实施例提供的时间间隔分布示意图；

图4本申请实施例提供的轮廓系数的示意图；

图5为图1中步骤S102的子步骤的另一流程图；

图6为本申请实施例提供的层次聚类的过程示意图；

图7为图1中步骤S104的子步骤的流程图；

图8为图1中步骤S105包含的子步骤的流程图；

图9为图1中步骤S106包含的子步骤的流程图；

图10为图1中步骤S106包含的子步骤的另一流程图；

图11为本申请实施例提供的电子设备的结构框图；

图12为本申请实施例提供的行为链路异常识别装置的功能模块框图。

图标：110-存储介质；120-处理器；130-行为链路异常识别装置；131-采集模块；132-聚类模块；133-判定模块；134-第一构建模块；135-第二构建模块；136-检测模块；140-通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

请参阅图1，为本申请实施例提供的行为链路异常识别方法的流程图，该行为链路异常识别方法有关的流程所定义的方法步骤可以由电子设备所实现，例如，个人计算机、笔记本电脑、智能手机、服务器等设备。下面将对图1所示的具体流程进行详细阐述。

S101，采集多个用户的事件序列样本，各所述事件序列样本包括多个事件项，相邻事件项之间具有时间间隔。

S102，对多个事件序列样本对应的时间间隔进行聚类处理，根据聚类处理结果确定相邻事件项之间是否连续，并根据确定结果得到各用户的行为序列样本，各行为序列样本中包含多个行为项，各所述行为项由多个连续的事件项组成。

S103，对各用户的行为序列样本进行行为类别判定。

S104，利用各个行为类别的行为序列样本训练得到马尔科夫概率矩阵，并建立用户行为链路模型。

S105，利用各个行为类别的行为序列样本构建得到OCSVMs集群模型，所述OCSVMs集群模型用于对各个行为类别的异常行为进行识别。

S106，基于所述行为链路模型和OCSVMs集群模型构建综合异常检测模型，利用所述综合异常检测模型对待识别用户的行为进行异常检测。

本实施例中，针对各个用户，定义用户的事件序列样本为

，其中，p ₁可以是如加载，p ₂可以为发送验证码等。事件序列样本中包含的元素可作为事件项，而相邻事件项之间具有时间间隔，可将事件序列对应的时间间隔定义为

，其中，t ₁表示事件项p ₁和p ₂之间的时间间隔，t _k-1表示事件项p _k-1和p _k之间的时间间隔。

对多个用户，例如l个用户的事件序列样本组成的集合可记为

，时间间隔的集合可记为

。本实施例中，通过对多个事件序列样本对应的时间间隔进行聚类处理，也即

对进行聚类处理，则可以获得多个用户的多个事件项之间的间隔的分布及聚类情况。

根据时间间隔的聚类情况以判断相邻事件项之间是否连续，从而判定多个事件项是否能够构成行为项。其中，例如，若多个事件项之间相互均为连续状态，则该多个事件项可构成行为项。行为项可以是例如注册、修改密码、身份认证等行为。而用户的多个行为项即可构成行为序列样本。

为了便于后续可以针对性地对各个类别的行为进行识别，本实施例中，首先可对各用户的行为序列样本进行行为类别判定，以确定出各个行为序列样本的行为类别，具体地确定出其中各个行为项的行为类别。

马尔科夫链路依托于统计理论，指的是对于一个系统，由一个状态转至另一个状态的转换过程中，存在着转移概率，并且这种转移概率可以依据其紧接的前一种状态推算出来。在实际业务场景中，用户的行为符合马尔科夫链路模型，例如对进行金融贷款的新用户而言，通常的行为序列为“注册→登陆→OCR→实名认证→申请”，行为序列存在连贯性，但也存在部分用户处在犹豫或思考状态，因此行为序列存在中断或伴随其他行为等。此类场景下建立行为链路模型可以更好地分析用户行为习惯以及识别行为链路异常。

本实施例中，用户行为链路模型是通过统计分析多个行为序列样本中不同行为项之间进行转移的概率构建，从而得到一个可计算从某个行为项发展到某个行为项的概率的计算模型，也即，用户行为链路模型。而利用用户行为链路模型计算得到行为项之间发生转移的概率，进而可得到行为项之间转移的可能性，而可能性较低的情况下，则可能表明行为存在一定异常。

此外，本实施例中，还可利用多个行为序列样本构建OCSVMs（One Class SVM，一类支持向量机）集群模型。OCSVMs集群模型多用于缺乏标签的无监督学习，通过训练得到一个超球体，从而后续通过检测行为序列是否在超球体范围内，以判定行为是否存在异常。

在上述基础上，本实施例结合上述的行为链路模型和OCSVMs集群模型构建得到综合异常检测模型。在实际对待识别用户的行为进行异常检测时，综合异常检测模型则可以从行为项之间转移的概率以及基于OCSVMs集群模型定义的超球体的范围以综合检测用户行为是否存在异常。

本实施例所提供的行为链路异常识别方法，可以通过精准地刻画用户的行为链路画像，通过对行为链路进行异常检测，以对用户风险操作进行有效防范。

请参阅图2，本实施例中，在上述步骤S102中，对多个事件序列样本对应的时间间隔进行聚类处理时，可以通过以下方式实现：

S1021，对多个事件序列样本对应的时间间隔进行多次的初步聚类。

S1022，针对每次初步聚类后的各个聚类簇中的各个时间间隔，计算该时间间隔与其所在聚类簇内其他时间间隔之间的簇内平均距离，以及该时间间隔与其他聚类簇中时间间隔之间的簇间平均距离，并根据所述簇内平均距离和簇间平均距离计算得到单个时间间隔的轮廓系数。

S1023，根据多个时间间隔的轮廓系数得到每次初步聚类后的总的轮廓系数。

S1024，获得总的轮廓系数最大的初步聚类的聚类簇数目作为最优聚类簇数目，并将该最优聚类簇数目对应的初步聚类作为最优聚类操作，以完成对时间间隔的聚类处理。

本实施例中，对于多个时间间隔进行聚类，需要确定聚类的聚类簇数目。聚类簇数目的确定影响到聚类性能的优劣。本实施例中，可以先对多个时间间隔进行多次的初步聚类，例如，可以先聚类为2类、3类、4类等不限。再通过检测每次初步聚类后聚类的性能情况，从而确定最优的聚类方式。

本实施例中，多个时间间隔的分布情况可如图3中所示，其中，横轴为时间间隔的大小，纵轴无意义，可统一设置为0。由图3所示，可以看出多个时间间隔的大小以及分布情况。

在寻求最优的聚类簇数目时，可以通过针对每次初步聚类后的聚类情况进行计算予以寻求。具体地，针对每次初步聚类后的各个聚类簇中的各个时间间隔，可以通过以下公式计算得到该时间间隔的轮廓系数：

其中，a表示时间间隔与其所在聚类簇内其他时间间隔之间的簇内平均距离，距离可理解为差异值，b表示时间间隔与其他聚类簇中时间间隔之间的簇间平均距离。

在得到单个时间间隔后的轮廓系数后，可以通过以下公式计算得到该次初步聚类下总的轮廓系数：

其中，N表示时间间隔的数量，总的轮廓系数可以理解为所有单个时间间隔的轮廓系数的加权均值。

由上述可知，轮廓系数综合考虑了簇间差异和簇内差异，取值范围为[-1,1]，取值越接近1则说明聚类性能越好，相反，取值越接近-1则说明聚类性能越差。

基于对多个时间间隔的多次初步聚类，以及每次初步聚类后计算得到总的轮廓系数，得到如图4中所示的曲线图，图中横轴表示初步聚类的聚类簇数目，纵轴表示总的轮廓系数的大小。从图中可以看出，在距离簇数目为2的初步聚类处理下，总的轮廓系数最大。因此，可以将总的轮廓系数最大的初步聚类的聚类簇数目作为最优聚类簇数目，例如2。并将该最优聚类簇数目对应的初步聚类作为最优聚类操作。

本实施例中，通过计算簇间距离以及簇内距离的方式，从而寻找到最优聚类方式，完成时间间隔的聚类。

在此基础上，可以根据聚类处理结果确定相邻事件项之间是否连续，并根据确定结果得到各用户的行为序列样本，具体地，请参阅图5，可以通过以下方式实现：

S1025，根据聚类处理结果中，时间间隔数值最小的聚类簇中最大时间间隔或时间间隔数值最小的聚类簇中设定分位数对应的时间间隔，得到判定标识符。

S1026，针对各用户的事件序列样本，将对应时间间隔小于或等于所述标识符的两个相邻事件项确定为连续的，将对应时间间隔大于所述标识符的两个相邻事件项确定为不连续的。

S1027，将连续的事件项组成一行为项，以得到各用户的包含多个行为项的行为序列样本。

本实施例中，事件项可以是例如加载、发送验证码、手机验证、密码修改成功等事件，而行为项可以理解为一次完整行为，例如注册、修改密码行为。而多个连续的事件项可以构成一个行为项，例如，加载-发送验证码-手机验证-密码修改成功等一系列连续的事件项就可构成修改密码的行为项。因此，需要确定相邻事件项之间是否连续。

在上述进行时间间隔的聚类处理后，可以将时间间隔聚类至多个聚类簇中。其中时间间隔数值最小的聚类簇可以是例如图3中所示的标记为1的时间间隔。从图2中可以看出各个聚类簇的数值分布存在一定的差异性，而时间间隔数值最小的聚类簇数值主要分布在[0,180]之间。基于时间间隔数值最小的聚类簇中的时间间隔的信息可以确定判定标识符，该判定标识符可以为判定相邻事件项是否连续的标准。

在一种可能的实现方式中，可以根据时间间隔数值最小的聚类簇中最大时间间隔确定判定标识符。例如，若时间间隔数值最小的聚类簇中最大时间间隔为180，则可以确定判定标识符的值为180。

在另一种可能的实现方式中，可以根据时间间隔数值最小的聚类簇中设定分位数对应的时间间隔，得到判定标识符。

例如，设定分位数可为75分位数或80分位数等不限，也即，可以取时间间隔数值最小的聚类簇中的排在75%位置处，或者80%位置处的时间间隔，确定为判定标识符的值。

在确定判定标识符的值后，针对任意两个相邻事件项，若该两个相邻事件项对应的时间间隔小于或等于判定标识符，则可以确定该两个相邻事件项是连续的，否则，则可以确定两个相邻事件项是不连续的。

具体地，相邻事件项的连续性定义如下：

其中，

表示判定标识符，t表示相邻两个事件项之间的时间间隔，

表示相邻两个事件项之间是否连续的标识，1表示连续，0表示不连续。

从而可以将连续的事件项构成行为项，以得到各个用户的行为序列样本。

此外，本实施例中，考虑到用户存在静默期，例如经过一周后重新注册的用户和短时间内多次注册的用户，虽然在事件序列上看起来完全一致，但是用户的实际行为存在较大差异，因此需要对用户静默期进行定义，并形成静默序列对用户事件序列进行补全。静默期的设置可以基于业务经验或基于上述时间间隔的聚类分布，也可以采用两者结合的方式。例如，当通过上述的时间间隔的聚类分布可以看到存在及少量的时间间隔分布在1d-7d（d表示天）之间，以及更少量的样本分布在7d-15d之间，此时可以结合业务经验对用户静默期进行定义，切分为多个窗口。例如，可以选取0.5d、1d、7d、15d、30d进行静默期划分，基于此可以得到如下所示的静默行为的定义：

其中，S表示静默行为序列的集合，当处于不同静默期时可以采用不同的静默序列予以表示。

同时上述的对事件项的连续性进行行为项的确定，从而构建行为序列，并在此基础上，加入可能存在的静默期对应的静默行为，得到最终的行为序列样本。例如，对于事件序列样本为

的用户，最终构建的行为序列样本可为

，其中，s ₃表示用户中间有长达7~15d的静默期，因此进行了序列补全。

在得到各个用户的行为序列样本的基础上，可以对其中行为序列进行类别判定。本实施例中，上述步骤S103中可以通过以下方式进行行为类别判定：

针对各用户的行为序列样本，若所述行为序列样本中的行为项存在设定关键事件项，则根据所述设定关键事件项确定对应的行为项的行为类别。

本实施例中，结合实际业务场景，所述的设定关键事件项可以是例如注册、身份认证、修改密码等。若出现设定关键事件项，则自动以设定关键事件项来标记为所属的行为类别。设定关键事件项的行为项的集合可记为

，表示有m类行为。

需要注意的是，若某一连续事件序列中包含多个关键事件项，可以根据关键事件项位置进行切分，将连续事件序列切分为多个关键类行为。

若行为项中不存在设定关键事件项，则计算行为序列样本中各个事件序列之间的莱文斯坦距离，并基于莱文斯坦距离进行聚类操作，将最优聚类操作的聚类簇数目作为行为类别的数目，并按得到的行为类别的数目进行行为类别划分。

本实施例中，对于未出现设定关键事件项的行为序列，可以采用聚类方法对用户的行为序列进行行为类别识别，并根据最终聚类结果，将不含设定关键事件项的行为项的集合记为

，表示有n类行为。

具体地，可提取如l个用户的不包含设定关键事件项的行为序列，集合记为

，其中，

表示user1的第一个不包含设定关键事件的行为序列，依此类推。

计算

中各个事件序列的莱文斯坦距离，莱文斯坦距离指将一个字符串变为另一个字符串需要进行编辑操作最少的次数。允许的编辑包括替换、插入和删除三种形式。对于两个事件序列a、b而言，事件序列a的前i个事件项和事件序列b的前j个事件项的莱文斯坦距离符合如下：

其中，

是一个Indicator Function指示函数，当事件序列a的第i个事件和事件序列b的第j个事件不同时，其值为1，否则为0。

对于各个行为序列，根据计算得到的莱文斯坦距离进行层次聚类，聚类的方式可以采用上述的时间间隔聚类的方式。根据聚类的结果确定最优的聚类簇数目，例如最终的聚类簇数目为n，表示n类行为，每一类行为的质心可以由该簇中的行为的众数来确定。

如图6中所示为用户行为聚类进行层次聚类的示意图，原始所有事件序列可各成一类，将相似度最大（莱文斯坦距离最小）的事件序列分为一类，然后按上述方式计算轮廓系数，依次类推，再进行相似度进行类的合并，然后计算轮廓系数。从而最终确定最优的聚类方式。

此外，在本实施例中，将静默行为单独作为一类行为序列，记为

。

的集合数目由定义的静默序列类型数目确定。

最后，可将上述三类定义方式的序列集合以及判定方式，记为集合

，共计N类。

在上述基础上，可以利用各个行为类别的行为序列样本训练构建用户行为链路模型。请参阅图7，本实施例中，用户行为链路模型的构建可通过以下方式实现：

S1041，基于各个行为类别的行为序列样本，统计得到初始行为项为各个行为类别的初始概率向量。

S1042，根据从上一个行为项的行为类别转移到下一个行为项的行为类别的频数，计算得到从上一个行为项的行为类别转移到下一个行为项的行为类别的概率，并得到由多个概率构成的马尔科夫概率矩阵。

S1043，根据所述初始概率向量和马尔科夫概率矩阵构建得到用户行为链路模型，所述用户行为链路模型表征用户从初始行为项发展到当前行为项的概率。

本实施例中，首先统计并构建初始概率向量，如下所示：

其中，

表示用户在时刻第一个行为项1（初始行为项）的行为为

类行为的概率，

为多个

构成的向量形式。一般在各个业务场景下，初始行为项为注册行为会比较多，则注册行为所对应的概率值会较大。

在此基础上，构建马尔科夫概率矩阵，即状态转移概率矩阵。将相邻行为项记为I，例如一个用户行为序列为

，则拆分为

，其中I1表示由q1转移为q3，I2表示由q3转移为q5。对所有用户的行为序列拆分完毕后，共计s个转移序列，记为

。转移序列的前一个序列统称为t时刻，后一序列统称为t+1时刻。

状态转移概率矩阵可定义如下：

其中，

是当第t个序列为

类行为时，t+1个序列为

的概率。

状态转移概率矩阵中

的计算方式如下：

其中，k _ij表示从时刻t的状态

转移到时刻t+1的状态

的频数。

在此基础上，可以根据初始概率向量以及状态转移概率距离（马尔科夫概率矩阵）构建用户行为链路模型

，用户行为链路模型

可表示如下：

其中，

为用户行为序列，

为初始行为项的发生概率，

为由第i-1个行为项转变为第i个行为项时的状态转移概率。

此外，本实施例中，还可基于各个行为类别的行为序列样本构建OCSVMs集群模型，具体地，请参阅图8，可通过以下方式实现：

S1051，针对各个行为类别的行为序列样本，结合设定加工维度下的加工特征得到特征向量矩阵。

S1052，基于各个行为类别的特征向量矩阵，通过最小化球体半径并确定球体球心以构建得到一超球体。

S1053，根据得到的超球体构建得到决策函数，以确定OCSVMs集群模型。

本实施例中，可针对息行为序列样本中事件项加工特征向量，根据业务场景需求，特征加工通常需要考虑多个维度。本实施例中，设定加工维度可以设定为如时间维度、事件维度、设备维度和空间维度等。其中，时间维度表征用户行为发生的时段，用户行为发生日是否工作日或周末，用户行为发生是否凌晨等。事件维度表征用户行为中的加载事件次数及频率，用户行为中的发送验证码次数及频率，用户行为中的其他特定事件次数及频率等。

设备维度表征，用户行为中的不同设备个数，用户行为中的设备切换次数等。空间维度表征，用户行为中的最大移动距离，用户行为中是否处在常用地址等。

基于上述定义的设定加工维度，对任一行为按特征方案加工形成特征集合，记为

，表示由o个加工特征形成的特征向量集合。对某一行为类别的行为项集合，则对所有用户的该类行为进行特征加工，可以构成特征向量矩阵。

对行为类别集合Q中的各类行为分别建立OCSVM异常识别模型。OCSVM多用于缺乏标签的无监督学习，通过寻找一个超球体，并最小化该球体的半径，并保证数据处在球体之内。若存在异常数据时，该样本点将处在球体之外，具体表示为该样本点与球心的距离超过球体半径，从而识别为异常。最终的OSCVM的决策函数可以表示为：

其中，sgn表示符号函数，对大于的0的自变量输出1，表示识别数据处在超球体之外，对于小于0的自变量输出-1，表示识别数据处在超球体之内。行为项距离球心的距离：

球心由多个行为项样本确定，

为核函数斜率，

为经核函数映射后的向量相似度。

本实施例中，采用高斯核函数进行映射。

为球心半径，通过模型训练确定。可以看出，将待检测的行为项输入模型后，决策函数将对行为项与球心距离进行判定，超过球体半径的则认为异常，输出1，未超过球体半径的则认为无异常，输出-1。

所有类别的OCSVM异常识别模型训练完毕后，记为OCSVMs集群模型，集群模型可以输出某一类行为的异常得分，记为

，

值为-1或1。

将上述得到的行为链路模型和OCSVMs集群模型进行结合，得到综合异常检测模型，具体地，可将行为链路模型乘以OCSVMs集群模型得到综合异常检测模型，如下所示：

其中，

为用户行为序列，

为上述建立的行为链路模型的概率得分，表示用户行为序列发生的概率。用户行为序列的OCSVMs集群模型的无异常概率：

若对n个序列，若均识别为异常，则

均为1，无异常概率为0，则异常概率为1。

通过两式相乘的方式，可知，若行为序列发生的概率较小时，或行为序列中实际行为的无异常概率较小时，综合异常检测模型的分值偏低，表明此时可能有异常。

需要注意的时，综合异常检测模型同时考虑了行为序列发生的概率，以及序列中实际行为的无异常概率，但在实际应用中，也可单独使用。例如只考虑行为序列发生的概率，而并不关注实际行为是否存在异常，此种应用情况下对异常情况识别的准确性将降低，但召回率可能会提升，因此需要结合场景来决定是否使用。

在上述基础上，在上述步骤S106中，在实际对用户行为链路进行异常检测时，作为一种可能的实现方式，可以实现对用户的全链路行为进行异常检测，具体地，请参阅图9，可通过以下方式实现：

S1061A，获取待识别用户的事件序列，并根据所述事件序列得到行为序列，确定行为序列中各行为项的行为类别。

S1062A，将具有多个行为类别的行为序列带入至所述综合异常检测模型中，得到无异常分值，该无异常分值体现待识别用户从初始行为项到目前行为项的全链路行为的异常情况。

S1063A，若所述无异常分值低于设定阈值，则确定待识别用户的行为存在异常并进行风险预警。

本实施例中，获得的待识别用户的事件序列为从初始行为项开始发展到目前行为项的全链路的事件序列，涵盖了自用户的初始事件项以来的所有事件。例如，初始行为项为注册、申请、购买等行为项等。根据上述方式，基于事件序列得到行为序列，并确定行为项的行为类别。

将行为序列带入到上述的综合异常检测模型中，若综合异常检测模型输出的无异常分值低于设定阈值，表明行为序列发生的概率较小，或行为序列中实际行为的无异常概率较小，则综合异常检测模型的分值偏低，表明此时可能有异常，此时，可进行风险预警。

此外，在另一种可能的实现方式中，还可仅对用户的检测周期内的行为进行异常检测。具体地，请参阅图10，可通过以下方式实现：

S1061B，获取待识别用户的检测周期内的事件序列，并根据所述事件序列得到行为序列，确定行为序列中各行为项的行为类别。

S1062B，将检测周期内的具有多个行为类别的行为序列带入至去除所述初始概率向量的综合异常检测模型中，得到无异常分值，该无异常分值体现待识别用户在检测周期内的行为链路的异常情况。

S1063B，若所述无异常分值低于设定阈值，则确定待识别用户的行为存在异常并进行风险预警。

本实施例中，获取到的事件序列为检测周期内的事件序列，对用户检测周期内的行为链路进行异常检测。同样地，基于事件序列确定行为序列，并进行行为类别的划分。

由于仅对检测周期内的行为链路进行检测，并未包含对初始行为的考虑，因此，可将综合异常检测模型中行为链路模型中的初始概率向量去除。然后，将待识别用户的行为序列带入至去除后的综合异常检测模型中。

若得到的无异常分值较低，例如行为序列发生的概率较小时，或行为序列中实际行为的无异常概率较小。则得到的无异常分值低于设定阈值时，表明可能存在异常，可进行风险预警。

请参阅图11，为本申请实施例提供的电子设备的示例性组件示意图，该电子设备可以是上述的如个人计算机、笔记本电脑、智能手机、服务器等。该电子设备可包括存储介质110、处理器120、行为链路异常识别装置130及通信接口140。本实施例中，存储介质110与处理器120均位于电子设备中且二者分离设置。然而，应当理解的是，存储介质110也可以是独立于电子设备之外，且可以由处理器120通过总线接口来访问。可替换地，存储介质110也可以集成到处理器120中，例如，可以是高速缓存和/或通用寄存器。

行为链路异常识别装置130可以理解为上述电子设备，或电子设备的处理器120，也可以理解为独立于上述电子设备或处理器120之外的在电子设备控制下实现上述行为链路异常识别方法的软件功能模块。

如图12所示，上述行为链路异常识别装置130可以包括采集模块131、聚类模块132、判定模块133、第一构建模块134、第二构建模块135和检测模块136。下面分别对该行为链路异常识别装置130的各个功能模块的功能进行详细阐述。

采集模块131，用于采集多个用户的事件序列样本，各所述事件序列样本包括多个事件项，相邻事件项之间具有时间间隔；

可以理解，该采集模块131可以用于执行上述步骤S101，关于该采集模块131的详细实现方式可以参照上述对步骤S101有关的内容。

聚类模块132，用于对多个事件序列样本对应的时间间隔进行聚类处理，根据聚类处理结果确定相邻事件项之间是否连续，并根据确定结果得到各用户的行为序列样本，各行为序列样本中包含多个行为项，各所述行为项由多个连续的事件项组成；

可以理解，该聚类模块132可以用于执行上述步骤S102，关于该聚类模块132的详细实现方式可以参照上述对步骤S102有关的内容。

判定模块133，用于对各用户的行为序列样本进行行为类别判定；

可以理解，该判定模块133可以用于执行上述步骤S103，关于该判定模块133的详细实现方式可以参照上述对步骤S103有关的内容。

第一构建模块134，用于利用各个行为类别的行为序列样本训练得到马尔科夫概率矩阵，并建立用户行为链路模型；

可以理解，该第一构建模块134可以用于执行上述步骤S104，关于该第一构建模块134的详细实现方式可以参照上述对步骤S104有关的内容。

第二构建模块135，用于利用各个行为类别的行为序列样本构建得到OCSVMs集群模型，所述OCSVMs集群模型用于对各个行为类别的异常行为进行识别；

可以理解，该第二构建模块135可以用于执行上述步骤S105，关于该第二构建模块135的详细实现方式可以参照上述对步骤S105有关的内容。

检测模块136，用于基于所述行为链路模型和OCSVMs集群模型构建综合异常检测模型，利用所述综合异常检测模型对待识别用户的行为进行异常检测。

可以理解，该检测模块136可以用于执行上述步骤S106，关于该检测模块136的详细实现方式可以参照上述对步骤S106有关的内容。

在一种可能的实施方式中，上述聚类模块132可以用于：

对多个事件序列样本对应的时间间隔进行多次的初步聚类；

在一种可能的实施方式中，上述聚类模块132可以用于：

在一种可能的实施方式中，上述判定模块133可以用于：

在一种可能的实施方式中，上述第一构建模块134可以用于：

在一种可能的实施方式中，上述第二构建模块135可以用于：

在一种可能的实施方式中，上述检测模块136可以用于：

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

进一步地，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有机器可执行指令，机器可执行指令被执行时实现上述实施例提供的行为链路异常识别方法。

具体地，该计算机可读存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该计算机可读存储介质上的计算机程序被运行时，能够执行上述行为链路异常识别方法。关于计算机可读存储介质中的及其可执行指令被运行时，所涉及的过程，可以参照上述方法实施例中的相关说明，这里不再详述。

综上所述，本申请实施例提供的行为链路异常识别方法和装置，通过采集用户的时间序列样本并对时间间隔进行聚类处理以判断相邻事件是否连续从而构建行为序列样本。对行为训练样本进行类别判定，并利用各个行为类别的行为序列样本训练马尔科夫概率矩阵，构建用户行为链路模型，且构建OCSVMs集群模型。基于用户行为链路模型和OCSVMs集群模型构建综合异常检测模型，利用综合异常检测模型对待识别用户的行为进行异常检测。该方案可精准地刻画用户的行为链路画像，通过对行为链路进行异常检测，可以对用户风险操作进行有效防范。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种行为链路异常识别方法，其特征在于，所述方法包括：

对各用户的行为序列样本进行行为类别判定；

基于所述行为链路模型和OCSVMs集群模型构建综合异常检测模型，利用所述综合异常检测模型对待识别用户的行为进行异常检测；

所述根据聚类处理结果确定相邻事件项之间是否连续，并根据确定结果得到各用户的行为序列样本的步骤，包括：

2.根据权利要求1所述的行为链路异常识别方法，其特征在于，所述对多个事件序列样本对应的时间间隔进行聚类处理的步骤，包括：

对多个事件序列样本对应的时间间隔进行多次的初步聚类；

3.根据权利要求1所述的行为链路异常识别方法，其特征在于，所述对各用户的行为序列样本进行行为类别判定的步骤，包括：

4.根据权利要求1所述的行为链路异常识别方法，其特征在于，所述利用各个行为类别的行为序列样本训练得到马尔科夫概率矩阵，并建立用户行为链路模型的步骤，包括：

5.根据权利要求1所述的行为链路异常识别方法，其特征在于，所述利用各个行为类别的行为序列样本构建得到OCSVMs集群模型的步骤，包括：

6.根据权利要求4所述的行为链路异常识别方法，其特征在于，所述基于所述行为链路模型和OCSVMs集群模型构建综合异常检测模型的步骤，包括：

7.根据权利要求6所述的行为链路异常识别方法，其特征在于，所述利用所述综合异常检测模型对待识别用户的行为进行异常检测的步骤，包括：

8.根据权利要求6所述的行为链路异常识别方法，其特征在于，所述利用所述综合异常检测模型对待识别用户的行为进行异常检测的步骤，包括：

9.一种行为链路异常识别装置，其特征在于，所述装置包括：

检测模块，用于基于所述行为链路模型和OCSVMs集群模型构建综合异常检测模型，利用所述综合异常检测模型对待识别用户的行为进行异常检测；

所述聚类模块具体用于：根据聚类处理结果中，时间间隔数值最小的聚类簇中最大时间间隔或时间间隔数值最小的聚类簇中设定分位数对应的时间间隔，得到判定标识符；针对各用户的事件序列样本，将对应时间间隔小于或等于所述标识符的两个相邻事件项确定为连续的，将对应时间间隔大于所述标识符的两个相邻事件项确定为不连续的；将连续的事件项组成一行为项，以得到各用户的包含多个行为项的行为序列样本。