CN106022900A

CN106022900A - 用户风险数据挖掘方法和装置

Info

Publication number: CN106022900A
Application number: CN201610645597.4A
Authority: CN
Inventors: 刘朋飞; 李爱华; 葛胜利
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-08-08
Filing date: 2016-08-08
Publication date: 2016-10-12
Anticipated expiration: 2036-08-08
Also published as: CN106022900B

Abstract

本发明公开了一种用户风险数据挖掘方法和装置，涉及数据处理领域。其中的用户风险数据挖掘方法包括：获取待测用户的行为信息，行为信息包括行为事件和行为事件的时间属性；根据待测用户的行为信息中各个行为事件的时间属性确定待测用户的行为事件之间的时序关联关系；根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系确定待测用户的风险度。本发明根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系确定待测用户的风险度，在参考了用户的行为事件的基础上，还考虑了行为事件之间的时序关系，使风险数据挖掘的结果更加准确。

Description

用户风险数据挖掘方法和装置

技术领域

本发明涉及数据处理领域，特别涉及一种用户风险数据挖掘方法和装置。

背景技术

风险数据挖掘对于加强用户风险管理、提高营业收益、保护用户权益和改善用户满意度是十分必要的。由于用户固有的行为习惯、行为目的等具有一定的规律性，体现为某种固定的模式，这种模式对于识别风险用户具有重要参考意义。

目前，使用决策树分析法进行用户风险数据的挖掘，即只根据用户的不同行为事件对用户进行分类，并根据分类结果对用户的风险概率进行预测。这种方法无法准确地衡量用户的风险度。

发明内容

本发明实施例所要解决的一个技术问题是：提供一种准确的用户风险数据挖掘方法。

根据本发明实施例的一个方面，提供一种用户风险数据挖掘方法，包括：获取待测用户的行为信息，行为信息包括行为事件和行为事件的时间属性；根据待测用户的行为信息中各个行为事件的时间属性确定待测用户的行为事件之间的时序关联关系；根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系确定待测用户的风险度。

根据本发明实施例的第二个方面，提供一种用户风险数据挖掘装置，包括：待测行为信息获取模块，用于获取待测用户的行为信息，行为信息包括行为事件和行为事件的时间属性；待测时序关联关系生成模块，用于根据待测用户的行为信息中各个行为事件的时间属性确定待测用户的行为事件之间的时序关联关系；风险度确定模块，用于根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系确定待测用户的风险度。

根据本发明实施例的第三个方面，提供一种用户风险数据挖掘装置，其特征在于，包括：存储器；以及，耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述任意一种用户风险数据挖掘方法。

本发明根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系确定待测用户的风险度，在参考了用户的行为事件的基础上，还考虑了行为事件之间的时序关系，从而使风险数据挖掘的结果更加准确。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明用户风险数据挖掘方法一个实施例的流程图。

图2为本发明用户风险数据挖掘方法的另一个实施例的流程图。

图3为本发明用户风险数据挖掘方法的又一个实施例的流程图。

图4为本发明用户风险数据挖掘装置的一个实施例的结构图。

图5为本发明用户风险数据挖掘装置的另一个实施例的结构图。

图6为本发明用户风险数据挖掘装置的又一个实施例的结构图。

图7为本发明用户风险数据挖掘装置的再一个实施例的结构图。

图8为本发明用户风险数据挖掘装置的再一个实施例的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发明人发现，用户的一系列行为事件以及行为事件的发生时间可以体现用户的特性。以电商购物的场景为例，具有以下一系列行为的用户很可能是风险用户。

例如，用户在登录后先查看余额、积分，然后购买大量的无需收货地址的虚拟商品，如电话充值卡、游戏充值卡等等，以用尽余额和积分。普通用户在购买时往往先进行大致的浏览，而上述用户首先查看账户已有的财产情况，因此极有可能是盗号者，属于风险用户。

又例如，用户在登录后首先集中浏览主商品和相应的赠品、凑单活动，然后查看主商品和相应的赠品所属的商品品类，对所属品类差异大的、可能分不同的仓库存储的商品进行下单；然后用户会选择货到付款和有货先发；最后，在到货的第一时间对主商品进行拒收或退货。此类用户很可能为恶意凑单用户，利用不同品类的商品异地存储的特点，尽可能加大到货的时间差，从而减少付款成本，套取赠品。此类用户也属于风险用户。

上述各个行为事件需要基于行为时间的发生时间才能够体现用户的风险特征。由此，本发明提出了一种基于时序关联关系的用户风险数据挖掘方法，可以根据已知的风险用户的行为事件之间的时序关联关系确定待测用户的风险度。

图1为本发明用户风险数据挖掘方法一个实施例的流程图。如图1所示，该实施例的方法包括：

步骤S102，获取待测用户的行为信息，行为信息包括行为事件和行为事件的时间属性。

用户的行为信息是指与用户在当前业务场景下的各个行为有关的信息，包括行为事件和行为事件的时间属性，根据需要，还可以包括用户标识、业务标识等等。

行为事件是指用户行为的具体内容。例如，对于电商网站的用户，浏览商品、查看余额、收藏商品等均可以作为行为事件。行为事件的细致程度可以根据需求确定，例如可以将购买商品作为一个行为事件，也可以将购买生活用品、购买充值卡、购买服饰分别作为独立的行为事件。

时间属性是指可以代表行为事件的发生时间的信息。例如，用户在15:00查看余额，则可以将15:00直接作为“查看余额”这一行为事件的时间属性，也可以将上述发生时间在多个行为信息中的时间统计特性或变化特性作为行为事件的时间属性。

步骤S104，根据待测用户的行为信息中各个行为事件的时间属性确定待测用户的行为事件之间的时序关联关系。

时序关联关系是一种基于时间顺序的行为事件之间的关联关系。以(行为事件，时间属性)的格式表示行为信息中的一个行为，设用户1有如下行为信息：{(A,1),(B,2),(C,3),(D,4),(B,5)}。则根据用户1的行为信息，可以提取出若干个行为事件之间的时序关联关系，如A和B、A和D、C和D等等。可以提取行为信息中所有两两组合的行为事件之间的时序关联关系，也可以根据需要，选取部分行为事件之间的时序关联关系。

其中，行为事件之间的时序关联关系可以包括按照行为事件发生时间排列的各个行为事件。例如可以以A→D表示A和D之间的时序关联关系，该时序关联关系表示先发生A、再发生D。

这种时序关联关系的构成方法既能够体现行为事件时间的时间关系，也能够保持较小的数据量，提升运算速度。

或者，行为事件之间的时序关联关系也包括按照行为事件发生时间排列的各个行为事件，以及各个行为事件的发生时间间隔。例如可以以A→D(3)表示A和D之间的时序关联关系，该时序关联关系表示在A发生后的3个单位时间内发生D。

这种时序关联关系的构成方法可以包含更详细的时间信息，提高后续计算的准确度。

而在上述行为信息中，在时间属性为2和5时分别发生了两次B。此时，可以根据最后一次发生的B的时间属性确定A和B之间的时序关联关系，例如可以使用A→B(4)来表示A和B之间的时序关联关系，该时序关联关系在对应的行为信息中出现了两次。

上述行为事件和时序关联关系的表现形式只是示例性的，根据需要，本领域技术人员可以采用其他形式体现上述内容，这里不再赘述。

提取的待测用户的行为事件之间的时序关联关系可以为根据待测用户的行为信息提取的所有时序关联关系，也可以是符合预设条件的时序关联关系。

步骤S110，根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系确定待测用户的风险度。

其中，可以采用与确定待测用户的行为事件之间的时序关联关系类似的方法来确定风险样本用户的行为事件之间的时序关联关系，即：首先获取风险样本用户的行为信息，行为信息包括行为事件和行为事件的时间属性，再根据风险样本用户的行为信息中各个行为事件及其时间属性，确定风险样本用户的行为事件之间的时序关联关系。

风险样本用户的行为信息可以是预先明确获知并进行标注的。例如，某用户的账号已确定遭到盗号，则该账号下的行为信息可以作为风险样本用户的行为信息。

确定待测用户的风险度时，可以采用以下方法：首先确定待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系之间的相似度，再根据相似度确定待度量用户的风险度。确定上述相似度的方法将在后文进行具体的介绍。

通过根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系确定待测用户的风险度，在参考了用户的行为事件的基础上，还考虑了行为事件之间的时序关系，从而使风险数据挖掘的结果更加全面、客观。

在确定待测用户的风险度时，往往会采用若干风险样本用户的行为事件之间的时序关联关系。待测用户的时序关联关系需要与全部或者至少部分的风险样本用户的时序关联关系进行逐一比较。为了减少后续各个步骤的计算量，可以对风险样本用户的行为信息进行预处理。

一个实施例为，采用时间压缩的方法对风险样本用户的行为信息进行预处理，包括：首先，将按照行为事件的发生时间排序的风险样本用户的行为信息分割成若干子区间；然后，根据每个子区间中行为信息的行为事件发生时间确定该子区间的时间特征；最后，将每个子区间的时间特征作为该子区间中各个行为时间的时间属性。

例如，以下为行为信息中部分行为事件和相应的发生时间：{(A,8:00),(B,10:00),(C,11:00),(D,15:00),(E,16:00),(F,18:00)}，平均地对上述行为信息进行子区间划分，获得以下划分结果：{[(A,8:00),(B,10:00)],[(C,11:00),(D,15:00)],[(E,16:00),(F,18:00)]}。然后，计算各个区间的时间特征，例如可以为时间的统计特征、变化趋势或者离散值等等，以计算各个区间的时间均值为例，获得的处理后的行为信息如下：{(A,9:00),(B,9:00),(C,13:00),(D,13:00),(E,17:00),(F,17:00)}；以计算各个区间的时间均值的离散特征为例，获得的处理后的行为信息如下：{(A,1),(B,1),(C,5),(D,5),(E,9),(F,9)}。

在划分子区间时，也可以按照时间点、预设的行为事件等进行划分，这里不再赘述。

通过采用这种方法，减少了行为信息中的时间维度，提高了处理效率。

另一个实施例为，采用数量压缩的方法对风险样本用户的行为信息进行预处理，包括：获取若干风险样本用户的行为信息；比较不同的行为信息之间的相似度；对相似度高于预设值的不同的行为信息进行合并。

其中，可以采用Jaccard相似系数(杰卡德相似系数)作为不同的行为信息之间的相似度。例如，对于待比较的第一行为信息中的行为事件集合M和待比较的第二行为信息中的行为事件集合N，可以采用公式(1)计算其相似度J：

J = \frac{| M \cap N |}{| M \cup N |} - - - (1)

为了降低计算的复杂度，上述相似度计算只考虑了行为事件。根据需要，还可以根据行为事件和时间属性计算相似度。

对相似度高于预设值的不同的行为信息进行合并时，可以选择进行比较的任意一个行为信息作为合并后的结果，也可以将两个行为信息的交集或者并集作为合并后的结果。根据需要，还可以采用其他合并手段，这里不再赘述。

通过采用这种方法，合并了相似度达到预设要求的不同的行为信息，从而可以减少风险样本用户的时序关联关系的数量，提高了计算效率。

在步骤S110中的确定待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系之间的相似度时，可以首先提取待测用户的行为事件之间的时序关联关系的特征，以及预先确定的风险样本用户的行为事件之间的时序关联关系的特征，再比较两个特征之间的相似度。例如，可以使用Simhash算法(相似哈希算法)实现这一过程。

Simhash通常用于海量文本的去重处理。Simhash将一个文档转换为一个特征字，该特征字为具有一定长度的字节，根据不同文档的特征字的距离，判断两个文档是否相似。本发明可以采用Simhash算法计算待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系之间的相似度，例如可以包括以下步骤：

1.获取待测用户的行为事件之间的各个时序关联关系所对应的权重，以及风险样本用户的行为事件之间的时序关联关系所对应的权重。

其中，权重可以是时序关联关系在相应的行为信息中出现的次数。

2.计算待测用户的行为事件之间的各个时序关联关系的哈希值，以及风险样本用户的行为事件之间的时序关联关系的哈希值。

其中，所有哈希值具有相同的位数。

3.根据待测用户的行为事件之间的各个时序关联关系对应的所有哈希值的各个位的数值，分别在各个位上进行权重的累计，获得待测用户的特征；根据风险样本用户的行为事件之间的各个时序关联关系对应的所有哈希值的各个位的数值，分别在各个位上进行权重的累计，获得风险样本用户的特征。

在进行累加时，当待累计的时序关联关系的待计算位上数值为1时，在该位的当前累计结果中加上该时序关联关系对应的权重；当待累计的时序关联关系的待计算位上数值为0时，在该位的当前累计结果中减去该时序关联关系对应的权重。

例如，设待累计的两个时序关联关系所对应的哈希值分别为100010、111010，相应的权重分别为w₁和w₂。则这两个时序关联关系所对应的累计结果为[w₁+w₂,-w₁+w₂,-w₁+w₂,-w₁-w₂,w₁+w₂,-w₁-w₂]。

4.计算二值化处理后的待测用户的特征与二值化处理后的风险样本用户的特征之间的汉明距离，根据汉明距离确定待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系之间的相似度。

其中，可以根据组成特征的各个值是否大于0对特征进行二值化处理。例如，对于特征[20,-5,13,101,-16,-23]，其对应的二值化结果为101100。

其中，相似度可以为汉明距离与二值化处理后的特征的总位数。

采用Simhash进行相似度计算的方法计算量小，能够高效地获得待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系之间的相似度。

在确定待测用户的风险度时，可以依据从风险样本用户的行为信息中提取的所有时序关联规则，也可以依据从筛选后的风险样本用户的行为事件之间的时序关联规则。下面对两种示例性的筛选方法进行介绍。

下面参考图2描述本发明另一个实施例的用户风险数据挖掘方法。

图2为本发明用户风险数据挖掘方法的另一个实施例的流程图。如图2所示，除了步骤S102～S104以外，该实施例的方法还包括以下步骤：

步骤S202，确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度。

其中，可以根据风险样本用户的行为事件之间的时序关联关系在行为信息中出现的频繁程度，确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度。时序关联关系出现的越频繁，说明时序关联关系中的行为事件共同出现的可能性越大，关联程度也就越高。

例如，可以根据风险样本用户的行为事件之间的时序关联关系在行为信息中的支持度和置信度，确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度。

设第一数值为待确定的行为事件之间的时序关联关系在行为信息中出现的总次数，第二数值为行为信息中所有行为事件之间的时序关联关系的总数，第三数值为具有待确定的时序关联关系中在先发生的行为事件的时序关联关系的总数。则，支持度根据第一数值在第二数值中的占比确定，置信度根据第一数值在第三数值中的占比确定。

例如，设E(S_X,AB)表示行为信息S_x中行为事件A和B之间的时序关联关系出现的次数。则可以使用公式(2)表示A和B之间的时序关联关系的支持度Sup:

S u p = \frac{E (S_{X}, A B)}{| S_{X} |} - - - (2)

其中，|S_X|表示行为信息S_X中所有行为事件之间的时序关联关系的总数。

使用公式(3)表示A和B之间的时序关联关系的置信度Con：

C o n = \frac{E (S_{X}, A B)}{E (S_{X}, A)} - - - (3)

其中，E(S_X,A)表示行为信息S_X中具有事件A的时序关联关系的总数。

置信度和支持度体现了时序关联关系所涉及的行为事件在行为信息中同时出现的概率，从而能够体现行为事件之间的关联程度。

步骤S204，依据关联程度选择风险样本用户的行为事件之间的高风险的时序关联关系。

行为事件之间的关联程度较大的时序关联关系更能够代表其对应的用户的特征。因此，对于风险样本用户的时序关联关系，可以提取行为事件之间的关联程度较大的时序关联关系作为高风险的时序关联关系。

步骤S210，根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的高风险的时序关联关系确定待测用户的风险度。

通过采用上述方法，能够提取风险样本用户的行为事件之间的时序关联关系中风险较高的时序关联关系，从而能够提高确定待测用户的风险度的准确性。

下面参考图3描述本发明又一个实施例的用户风险数据挖掘方法。

图3为本发明用户风险数据挖掘方法的又一个实施例的流程图。如图3所示，该实施例的方法包括以下步骤：

步骤S302，获取非风险样本用户的行为信息，行为信息包括行为事件和行为事件的时间属性。

步骤S304，根据非风险样本用户的行为信息中各个行为事件的时间属性，确定非风险样本用户的行为事件之间的第一时序关联关系。

确定非风险样本用户的时序关联关系的过程与确定风险样本用户的时序关联关系的过程类似，这里不再赘述。

步骤S306，计算风险样本用户的风险值高于预设值的第二时序关联关系与非风险样本用户的风险值低于预设值的第一时序关联关系的相似度。

其中，可以根据第一时序关联关系中行为事件之间的关联程度确定第一时序关联关系的风险值，可以根据第二时序关联关系中行为事件之间的关联程度确定第二时序关联关系的风险值。例如，可以直接将用于表示关联程度的值作为风险值，也可以将若干表示关联程度的值进行归一化处理后作为风险值。

确定第一时序关联关系、第二时序关联关系中行为事件之间的关联程度可以参考前述确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度的方法，这里不再赘述。

步骤S308，去除风险样本用户的行为事件之间的时序关联关系中，相似度大于预设值的第二时序关联关系。

如果某风险样本用户的时序关联关系与非风险样本用户的时序关联关系过于相似，则说明该时序关联关系的区分度较低，不能十分充分地代表风险用户的行为特征，因此可以去除。

步骤S310，根据待测用户的行为事件之间的时序关联关系和未被去除的风险样本用户的行为事件之间的时序关联关系，确定待测用户的风险度。

通过采用上述方法，能够根据非风险样本用户的时序关联关系对风险样本用户的时序关联关系进行筛选，从而使待测用户的风险度的确定更准确。

在获得了待测用户的风险度之后，还可以根据预设的损失函数进一步获得待测用户的风险代价。

设某用户的风险度为位于0到1之间的值P，损失函数公式(4)为：

l₁和l₂分别表示用户为风险用户和非风险用户时的损失值，该损失值可以根据业务的实际情况确定，例如可以为金额值，即当用户为风险用户时可能带来的收益损失。

则该用户的风险代价Cost可以通过公式(5)计算：

Cost＝P*l₁+(1-P)*l₂ (5)

进而，可以将风险代价输入到后续的业务应用模块中。

下面参考图4描述本发明一个实施例的用户风险数据挖掘装置。

图4为本发明用户风险数据挖掘装置的一个实施例的结构图。如图4所示，该实施例的用户风险数据挖掘装置包括：待测行为信息获取模块42，用于获取待测用户的行为信息，行为信息包括行为事件和行为事件的时间属性；待测时序关联关系生成模块44，用于根据待测用户的行为信息中各个行为事件的时间属性确定待测用户的行为事件之间的时序关联关系；风险度确定模块46，用于根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系确定待测用户的风险度。

通过根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系确定待测用户的风险度，在参考了用户的行为事件的基础上，还考虑了行为事件之间的时序关系，从而使风险数据挖掘的结果更加准确。

其中，行为事件之间的时序关联关系包括按照行为事件发生时间排列的各个行为事件，或者，行为事件之间的时序关联关系包括按照行为事件发生时间排列的各个行为事件，以及各个行为事件的发生时间间隔。

下面参考图5描述本发明另一个实施例的用户风险数据挖掘装置。

图5为本发明用户风险数据挖掘装置的另一个实施例的结构图。如图5所示，该实施例的风险度确定模块46包括：第一相似度计算单元562，用于确定待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系之间的相似度；风险度确定单元564，用于根据相似度确定待度量用户的风险度。

通过计算待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系之间的相似度，能够根据已知的风险样本用户的行为信息衡量待测用户的风险度。

下面参考图6描述本发明又一个实施例的用户风险数据挖掘装置。

图6为本发明用户风险数据挖掘装置的又一个实施例的结构图。如图6所示，该实施例的用户风险数据挖掘装置还包括风险时序关联关系确定模块68，用于预先确定风险样本用户的行为事件之间的时序关联关系；风险时序关联关系确定模块68包括：风险行为信息获取单元682，用于获取风险样本用户的行为信息，行为信息包括行为事件和行为事件的时间属性；风险时序关联关系确定单元684，用于根据风险样本用户的行为信息中各个行为事件及其时间属性，确定风险样本用户的行为事件之间的时序关联关系。

此外，风险时序关联关系确定模块68还可以包括关联程度确定单元686和高风险时序关联关系选择单元688；关联程度确定单元686用于确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度；高风险时序关联关系选择单元688用于依据关联程度选择风险样本用户的行为事件之间的高风险的时序关联关系；风险度确定模块46用于根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的高风险的时序关联关系确定待测用户的风险度。

通过采用上述结构，能够提取风险样本用户的行为事件之间的时序关联关系中风险较高的时序关联关系，从而能够提高确定待测用户的风险度的准确性。

其中，关联程度确定单元686可以用于根据风险样本用户的行为事件之间的时序关联关系在行为信息中出现的频繁程度，确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度。

其中，关联程度确定单元686还可以用于根据风险样本用户的行为事件之间的时序关联关系在行为信息中的支持度和/或置信度，确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度；其中，支持度根据第一数值在第二数值中的占比确定，置信度根据第一数值在第三数值中的占比确定；其中，第一数值为待确定的行为事件之间的时序关联关系在行为信息中出现的总次数；第二数值为行为信息中所有行为事件之间的时序关联关系的总数；第三数值为具有待确定的时序关联关系中在先发生的行为事件的时序关联关系的总数。

此外，用户风险数据挖掘装置还可以包括风险时序关联关系筛选模块69，包括：非风险行为信息获取单元692，用于获取非风险样本用户的行为信息，行为信息包括行为事件和行为事件的时间属性；非风险时序关联关系确定单元693，用于根据非风险样本用户的行为信息中各个行为事件的时间属性，确定非风险样本用户的行为事件之间的第一时序关联关系；第二相似度计算单元694，用于计算风险样本用户的风险值高于预设值的第二时序关联关系与非风险样本用户的风险值低于预设值的第一时序关联关系的相似度；时序关联关系去除单元695，用于去除风险样本用户的行为事件之间的时序关联关系中，相似度大于预设值的第二时序关联关系；风险度确定模块46用于根据待测用户的行为事件之间的时序关联关系和未被去除的风险样本用户的行为事件之间的时序关联关系，确定待测用户的风险度。

通过采用上述结构，能够根据非风险样本用户的时序关联关系对风险样本用户的时序关联关系进行筛选，从而使待测用户的风险度的确定更准确。

此外，风险时序关联关系筛选模块69还可以包括第一时序关联关系确定单元696和/或第二时序关联关系确定单元697：第一时序关联关系确定单元696用于根据第一时序关联关系中行为事件之间的关联程度确定第一时序关联关系的风险值；第二时序关联关系确定单元697用于根据第二时序关联关系中行为事件之间的关联程度确定第二时序关联关系的风险值。

其中，风险行为信息获取单元682可以包括：行为信息分割子单元6822，用于将按照行为事件的发生时间排序的风险样本用户的行为信息分割成若干子区间；时间特征确定子单元6823，用于根据每个子区间中行为信息的行为事件发生时间确定该子区间的时间特征；时间属性确定子单元6824，用于将每个子区间的时间特征作为该子区间中各个行为时间的时间属性。

通过采用这种结构，减少了行为信息中的时间维度，提高了处理效率。

其中，风险行为信息获取单元682可以包括：原始行为信息获取子单元6825，用于获取若干风险样本用户的行为信息；行为信息比较子单元6826，用于比较不同的行为信息之间的相似性；行为信息合并子单元6827，用于对相似度高于预设值的不同的行为信息进行合并。

通过采用这种结构，合并了相似度达到预设要求的不同的行为信息，从而可以减少风险样本用户的时序关联关系的数量，提高了计算效率。

图7为本发明用户风险数据挖掘装置的再一个实施例的结构图。如图7所示，该实施例的装置700包括：存储器710以及耦接至该存储器710的处理器720，处理器720被配置为基于存储在存储器710中的指令，执行前述任意一个实施例中的用户风险数据挖掘方法。

其中，存储器710例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有行为系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

图8为本发明用户风险数据挖掘装置的再一个实施例的结构图。如图8所示，该实施例的装置700包括：存储器710以及处理器720，还可以包括输入输出接口830、网络接口840、存储接口850等。这些接口830，840，850以及存储器710和处理器720之间例如可以通过总线860连接。其中，输入输出接口830为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口840为各种联网设备提供连接接口。存储接口850为SD卡、U盘等外置存储设备提供连接接口。

本领域内的技术人员应当明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列行为步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用户风险数据挖掘方法，其特征在于，包括：

获取待测用户的行为信息，所述行为信息包括行为事件和行为事件的时间属性；

根据待测用户的行为信息中各个行为事件的时间属性确定待测用户的行为事件之间的时序关联关系；

根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系确定待测用户的风险度。

2.根据权利要求1所述的方法，其特征在于，所述根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系确定待测用户的风险度包括：

确定待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系之间的相似度；

根据所述相似度确定待度量用户的风险度。

3.根据权利要求1所述的方法，其特征在于，采用以下方法预先确定风险样本用户的行为事件之间的时序关联关系：

获取风险样本用户的行为信息，所述行为信息包括行为事件和行为事件的时间属性；

根据风险样本用户的行为信息中各个行为事件及其时间属性，确定风险样本用户的行为事件之间的时序关联关系。

4.根据权利要求1-3中任一项所述的方法，其特征在于，

所述行为事件之间的时序关联关系包括按照行为事件发生时间排列的各个行为事件，或者，

所述行为事件之间的时序关联关系包括按照行为事件发生时间排列的各个行为事件，以及所述各个行为事件的发生时间间隔。

5.根据权利要求3所述的方法，其特征在于，还包括：

确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度；

依据所述关联程度选择风险样本用户的行为事件之间的高风险的时序关联关系；

根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的高风险的时序关联关系确定待测用户的风险度。

6.根据权利要求5所述的方法，其特征在于，所述确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度包括：

根据风险样本用户的行为事件之间的时序关联关系在所述行为信息中出现的频繁程度，确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度。

7.根据权利要求5所述的方法，其特征在于，所述确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度包括：

根据风险样本用户的行为事件之间的时序关联关系在所述行为信息中的支持度和/或置信度，确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度；

其中，所述支持度根据第一数值在第二数值中的占比确定，

所述置信度根据第一数值在第三数值中的占比确定；

其中，所述第一数值为待确定的行为事件之间的时序关联关系在行为信息中出现的总次数；

所述第二数值为所述行为信息中所有行为事件之间的时序关联关系的总数；

所述第三数值为具有待确定的时序关联关系中在先发生的行为事件的时序关联关系的总数。

8.根据权利要求3所述的方法，其特征在于，还包括：

获取非风险样本用户的行为信息，所述行为信息包括行为事件和行为事件的时间属性；

根据非风险样本用户的行为信息中各个行为事件的时间属性，确定非风险样本用户的行为事件之间的第一时序关联关系；

计算风险样本用户的风险值高于预设值的第二时序关联关系与非风险样本用户的风险值低于预设值的第一时序关联关系的相似度；

去除风险样本用户的行为事件之间的时序关联关系中，所述相似度大于预设值的第二时序关联关系；以及

根据待测用户的行为事件之间的时序关联关系和未被去除的风险样本用户的行为事件之间的时序关联关系，确定待测用户的风险度。

9.根据权利要求8所述的方法，其特征在于，采用以下方法确定第一时序关联关系和/或第二时序关联关系的风险值：

根据第一时序关联关系中行为事件之间的关联程度确定第一时序关联关系的风险值；

或者，

根据第二时序关联关系中行为事件之间的关联程度确定第二时序关联关系的风险值。

10.根据权利要求3所述的方法，其特征在于，所述获取风险样本用户的行为信息包括：

将按照行为事件的发生时间排序的风险样本用户的行为信息分割成若干子区间；

根据每个子区间中行为信息的行为事件发生时间确定该子区间的时间特征；

将每个子区间的时间特征作为该子区间中各个行为时间的时间属性。

11.根据权利要求3所述的方法，其特征在于，所述获取风险样本用户的行为信息包括：

获取若干风险样本用户的行为信息；

比较不同的行为信息之间的相似度；

对相似度高于预设值的不同的行为信息进行合并。

12.一种用户风险数据挖掘装置，其特征在于，包括：

待测行为信息获取模块，用于获取待测用户的行为信息，所述行为信息包括行为事件和行为事件的时间属性；

待测时序关联关系生成模块，用于根据待测用户的行为信息中各个行为事件的时间属性确定待测用户的行为事件之间的时序关联关系；

风险度确定模块，用于根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系确定待测用户的风险度。

13.根据权利要求12所述的装置，其特征在于，所述风险度确定模块包括：

第一相似度计算单元，用于确定待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系之间的相似度；

风险度确定单元，用于根据所述相似度确定待度量用户的风险度。

14.根据权利要求12所述的装置，其特征在于，还包括风险时序关联关系确定模块，用于预先确定风险样本用户的行为事件之间的时序关联关系；

所述风险时序关联关系确定模块包括：

风险行为信息获取单元，用于获取风险样本用户的行为信息，所述行为信息包括行为事件和行为事件的时间属性；

风险时序关联关系确定单元，用于根据风险样本用户的行为信息中各个行为事件及其时间属性，确定风险样本用户的行为事件之间的时序关联关系。

15.根据权利要求12-14中任一项所述的装置，其特征在于，

16.根据权利要求14所述的装置，其特征在于，所述风险时序关联关系确定模块还包括关联程度确定单元和高风险时序关联关系选择单元；

所述关联程度确定单元用于确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度；

所述高风险时序关联关系选择单元用于依据所述关联程度选择风险样本用户的行为事件之间的高风险的时序关联关系；

所述风险度确定模块用于根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的高风险的时序关联关系确定待测用户的风险度。

17.根据权利要求16所述的装置，其特征在于，所述关联程度确定单元用于根据风险样本用户的行为事件之间的时序关联关系在所述行为信息中出现的频繁程度，确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度。

18.根据权利要求16所述的装置，其特征在于，所述关联程度确定单元用于根据风险样本用户的行为事件之间的时序关联关系在所述行为信息中的支持度和/或置信度，确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度；

其中，所述支持度根据第一数值在第二数值中的占比确定，

所述置信度根据第一数值在第三数值中的占比确定；

19.根据权利要求14所述的装置，其特征在于，还包括风险时序关联关系筛选模块，包括：

非风险行为信息获取单元，用于获取非风险样本用户的行为信息，所述行为信息包括行为事件和行为事件的时间属性；

非风险时序关联关系确定单元，用于根据非风险样本用户的行为信息中各个行为事件的时间属性，确定非风险样本用户的行为事件之间的第一时序关联关系；

第二相似度计算单元，用于计算风险样本用户的风险值高于预设值的第二时序关联关系与非风险样本用户的风险值低于预设值的第一时序关联关系的相似度；

时序关联关系去除单元，用于去除风险样本用户的行为事件之间的时序关联关系中，所述相似度大于预设值的第二时序关联关系；

所述风险度确定模块用于根据待测用户的行为事件之间的时序关联关系和未被去除的风险样本用户的行为事件之间的时序关联关系，确定待测用户的风险度。

20.根据权利要求19所述的装置，其特征在于，所述风险时序关联关系筛选模块还包括第一时序关联关系确定单元和/或第二时序关联关系确定单元：

所述第一时序关联关系确定单元用于根据第一时序关联关系中行为事件之间的关联程度确定第一时序关联关系的风险值；

所述第二时序关联关系确定单元用于根据第二时序关联关系中行为事件之间的关联程度确定第二时序关联关系的风险值。

21.根据权利要求14所述的装置，其特征在于，所述风险行为信息获取单元包括：

行为信息分割子单元，用于将按照行为事件的发生时间排序的风险样本用户的行为信息分割成若干子区间；

时间特征确定子单元，用于根据每个子区间中行为信息的行为事件发生时间确定该子区间的时间特征；

时间属性确定子单元，用于将每个子区间的时间特征作为该子区间中各个行为时间的时间属性。

22.根据权利要求14所述的装置，其特征在于，所述风险行为信息获取单元包括：

原始行为信息获取子单元，用于获取若干风险样本用户的行为信息；

行为信息比较子单元，用于比较不同的行为信息之间的相似性；

行为信息合并子单元，用于对相似度高于预设值的不同的行为信息进行合并。

23.一种用户风险数据挖掘装置，其特征在于，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1-11中任一项所述的用户风险数据挖掘方法。