CN110147923A

CN110147923A - 用于识别风险用户的方法及装置

Info

Publication number: CN110147923A
Application number: CN201910269798.2A
Authority: CN
Inventors: 孙冠东; 赵凤; 方彦明; 余泉
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-08-20
Anticipated expiration: 2039-04-04
Also published as: CN110147923B

Abstract

本公开提供了一种用于识别风险用户的方法及装置。该方法包括：获取待识别用户的用户特征数据；获取待识别用户的地理位置特征数据，地理位置特征数据包括待识别用户在指定时段内经过的至少一个地理区域的地理位置特征数据，各地理区域的地理位置特征数据是利用在指定时段内经过该地理区域的所有用户的用户特征数据表征的；以及将所获取的用户特征数据和地理位置特征数据提供给风险用户识别模型，以进行风险用户识别。该装置包括用户特征获取单元、位置特征获取单元和风险用户识别单元。该方法及装置应用在欺诈场景时，有效地提升了欺诈识别的精度。

Description

用于识别风险用户的方法及装置

技术领域

本公开通常涉及计算机技术领域，更具体地，涉及一种用于识别风险用户的方法及装置。

背景技术

随着科技水平进步及人们对数据重要性认识的不断提高，越来越多的用户行为数据被收集起来。这一变化也给评估“信用”提供了更丰富的维度，如何合理使用用户数据，并从中挖掘出用户的潜在风险就变成了一个具有挑战性的研究方向。整个信贷金融领域面临的主要风险包括信用风险、欺诈风险两大类，本公开主要考虑欺诈风险的防控问题。

现有欺诈识别的方法主要是以用户的行为特征作为变量，建立基于特征的有监督学习模型，去预测目标未来发生的概率。但由于欺诈模式的更新迭代特别迅速，该方法无法避免的主要问题是基础行为特征会随着时间的推移而渐渐失效，需要不断更新迭代模型，从而保证模型效果。比如，用户基础行为特征中的支付宝交易频率这一数据超过某个阈值被视为高风险行为，如果过段时间欺诈用户察觉到被识别，有可能降低交易频率，则之前设定的欺诈识别模型中这一特征变量失效，需要调整欺诈识别模型的变量。由于基础行为特征具有以上问题，另一种方法就是根据欺诈用户本身的特点衍生关系型变量。

高风险人群除了经济状况较差外，相较于信用风险，欺诈风险人群还有自己的特点。因为欺诈本身对于经验、技术、渠道等都有一定的门槛要求，更多的欺诈用户并非单兵作战，而是会选择通过社会关系或空间关系聚集在一起分享各类资源，或是以欺诈中介为中心进行聚集。另外，区域性的经济状况较差会表现为该区域风险要高于群体平均水平，随之会表现出高风险人群在地理位置上的聚集性。用户除了在社会关系网络上存在聚集性关系，类似的聚集性关系在地理位置上也是存在的，这方面的补充会使得对用户聚集性刻画的更为充分。

发明内容

鉴于上述问题，本公开提供了一种用于识别风险用户的方法及装置。基于对欺诈行为本身特点的理解，针对单一的社会关系网络，在真实的地理场景上对关系特征进行了补充，另外还弥补了基础行为特征会随时间推移而渐渐失效的问题。

根据本公开的一个方面，提供了一种用于识别风险用户的方法，包括：获取待识别用户的用户特征数据；获取所述待识别用户的地理位置特征数据，所述地理位置特征数据包括所述待识别用户在指定时段内经过的至少一个地理区域的地理位置特征数据，各个地理区域的地理位置特征数据是利用在所述指定时段内经过该地理区域的所有用户的用户特征数据表征的；以及将所获取的所述用户的用户特征数据和地理位置特征数据提供给风险用户识别模型，以进行风险用户识别。

可选地，在上述方面的一个示例中，所述获取所述待识别用户的地理位置特征数据包括：获取所述待识别用户在所述指定时间段内的运动轨迹；基于所述运动轨迹，确定所述待识别用户所经过的至少一个地理区域；针对所确定出的各个地理区域，获取在所述指定时段内经过所述地理区域的所有用户的用户特征数据，以确定该地理区域的用户特征数据；根据所述运动轨迹经过的各个地理区域所对应的用户特征数据，确定所述待识别用户的地理位置特征数据。

可选地，在上述方面的一个示例中，基于所述运动轨迹，确定所述待识别用户所经过的至少一个地理区域包括：使用Geohash算法来基于所述运动轨迹确定所述待识别用户所经过的至少一个地理区域。

可选地，在上述方面的一个示例中，所述获取所述待识别用户的地理位置特征数据还包括：确定各个地理区域所对应的用户特征数据的权重，其中，根据所获取的各个地理区域所对应的用户特征数据，确定所述用户的地理位置特征数据包括：对所获取的各个地理区域的用户特征数据进行加权求和，以得到所述用户的地理位置特征数据。

可选地，在上述方面的一个示例中，确定各个地理区域所对应的用户特征数据的权重包括：针对各个地理区域，基于所述地理区域在所述运动轨迹中的出现次数、所述运动轨迹所经过的地理区域的总出现次数以及在所述指定时间内经过所述地理区域的用户数占待识别用户总数的比例，确定该地理区域所对应的用户特征数据的权重。

可选地，在上述方面的一个示例中，针对所确定出的各个地理区域，获取在所述指定时段内经过所述地理区域的所有用户的用户特征数据，以确定该地理区域的用户特征数据包括：计算经过所述地理区域的各个用户的用户特征数据的平均值，作为所述地理区域的用户特征数据。

可选地，在上述方面的一个示例中，各个所述用户特征数据分别具有对应的权重，针对所确定出的各个地理区域，获取在所述指定时段内经过所述地理区域的所有用户的用户特征数据，以确定该地理区域的用户特征数据包括：对经过所述地理区域的各个用户的用户特征数据进行加权求和，以得到所述地理区域的用户特征数据。

根据本公开的另一方面，还提供一种用于识别风险用户的装置，包括：用户特征获取单元，被配置为获取待识别用户的用户特征数据；位置特征获取单元，被配置为获取所述待识别用户的地理位置特征数据，所述地理位置特征数据包括所述待识别用户在指定时段内经过的至少一个地理区域的地理位置特征数据，各个地理区域的地理位置特征数据是利用在所述指定时段内经过该地理区域的所有用户的用户特征数据表征的；以及风险用户识别单元，被配置为将所获取的所述用户的用户特征数据和地理位置特征数据提供给风险用户识别模型，以进行风险用户识别。

可选地，在上述方面的一个示例中，所述位置特征获取单元包括：运动轨迹获取模块，被配置为获取所述待识别用户在所述指定时间段内的运动轨迹；地理区域确定模块，被配置为基于所述运动轨迹，确定所述待识别用户所经过的至少一个地理区域；区域特征确定模块，被配置为针对所确定出的各个地理区域，获取在所述指定时段内经过所述地理区域的所有用户的用户特征数据，以确定该地理区域的用户特征数据；以及位置特征确定模块，被配置为根据所述运动轨迹经过的各个地理区域所对应的用户特征数据，确定所述待识别用户的地理位置特征数据。

可选地，在上述方面的一个示例中，所述地理区域确定模块被配置为：使用Geohash算法来基于所述运动轨迹确定所述待识别用户所经过的至少一个地理区域。

可选地，在上述方面的一个示例中，所述位置特征获取单元还包括：权重确定模块，被配置为确定各个地理区域所对应的用户特征数据的权重，其中，所述位置特征确定模块被配置为对所获取的各个地理区域的用户特征数据进行加权求和，以得到所述用户的地理位置特征数据。

可选地，在上述方面的一个示例中，所述权重确定模块被配置为：针对各个地理区域，基于所述地理区域在所述运动轨迹中的出现次数、所述运动轨迹所经过的地理区域的总出现次数以及在所述指定时间内经过所述地理区域的用户数占待识别用户总数的比例，确定该地理区域所对应的用户特征数据的权重。

可选地，在上述方面的一个示例中，所述区域特征确定模块被配置为：计算经过所述地理区域的各个用户的用户特征数据的平均值，作为所述地理区域的用户特征数据。

可选地，在上述方面的一个示例中，各个所述用户特征数据分别具有对应的权重，所述区域特征确定模块被配置为：对经过所述地理区域的各个用户的用户特征数据进行加权求和，以得到所述地理区域的用户特征数据。

根据本公开的又一方面，还提供一种计算设备，包括：至少一个处理器；以及存储器，所述存储器存储有指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的用于识别风险用户的方法。

根据本公开的再一方面，还提供一种非暂时性机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如上所述的用于识别风险用户的方法。

在本公开的用于识别风险用户的方法和装置中，将用户的地理位置特征数据与用户特征数据结合来进行用户聚集，以实现风险用户识别，一方面针对单一的用户社会关系网络(比如，由比如用户社交关系的用户特征数据而导致的用户社会关系网络)，补充了基于真实的地理场景的用户空间关系特征，另一方面可以从用户的地理位置行为特征上弥补基础行为特征随时间推移而渐渐失效导致的不利影响，使得针对用户的特征刻画更加准确，由此提高用户聚集的准确性，进而提升风险用户识别的精度。

利用根据本公开的实施例的用于识别风险用户的方法及装置，基于欺诈用户在地理位置上的聚集性，利用在指定时间段内经过地理区域的所有用户的用户特征数据来描述地理区域的用户特征数据，并且使用待识别用户在指定时间段内的运动轨迹中的各个地理区域的用户特征数据来描述待识别用户的地理位置特征数据，可以实现对用户地理位置特征的准确刻画，由此提升风险用户识别的精度。

此外，利用根据本公开的实施例的用于识别风险用户的方法及装置，使用GeoHash算法对运动轨迹进行离散化处理来确定各个地理区域，从而避免发生在大量位置点数据时点与点之间的距离计算开销大，不好设定距离阈值等问题。

此外，利用根据本公开的实施例的用于识别风险用户的方法及装置，在确定待识别用户的地理位置特征数据，针对待识别用户所经过的各个地理区域还分别设置权重，从而可以使得所确定的地理位置特征数据更加准确。

附图说明

通过参照下面的附图，可以实现对于本公开内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。

图1示出了32进制6位和5位字符串的GeoHash编码分别表示的地理区域的一个示例；

图2示出了根据本公开的实施例的用于识别风险用户的方法的流程图；

图3示出了图2中所示的用于获取待识别用户的地理位置特征数据的一个示例过程的流程图；

图4示出了图3中所示的用于确定各个地理区域所对应的用户特征数据的权重的一个示例过程的流程图；

图5示出了根据本公开的实施例的用于识别风险用户的装置500的结构示意图；

图6示出了根据本公开的实施例的位置特征获取单元的结构示意图；

图7示出了根据本公开的实施例的用于识别风险用户的计算设备的结构框图。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。例如，所描述的方法可以按照与所描述的顺序不同的顺序来执行，以及各个步骤可以被添加、省略或者组合。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

本公开基于欺诈行为本身的特点，基于对欺诈用户在地理位置上聚集性的认知，由用户特征数据衍生出地理位置特征数据对用户之间的地理位置关系进行描述，在真实的地理位置关系特征上对社会关系特征(比如社交关系和/或资金关系等)进行了补充，另外还从地理位置上的行为特征弥补了基础行为特征会随时间推移而渐渐失效的问题。

本公开首先将地图切分为地理区域，根据用户的位置点将其放入对应的地理区域内，然后利用经过地理区域的用户的用户特征数据(如性别、学历、有房等)对地理区域进行描述，得到地理区域的用户特征数据，至此，在地图上可以得到具有不同用户特征数据的地理区域。当一个用户的出行轨迹中经过了某几个地理区域，可以认为这些地理区域的用户特征数据描述了用户的地理位置特征。除此之外，考虑到不同用户和地理区域之间的权重并不一致，比如某用户经常去某地，还提出了一种计算权重的方法，在构建用户的地理位置特征时引入权重，得到的用户的地理位置特征数据提供给模型进行欺诈风险识别。

在本公开中，术语“GeoHash”是一种地址编码方法，能够把二维的空间经纬度数据编码成一个唯一字符串，编码的长度越长，表示的地理区域范围越小，位置也越精确。参见图1所示的例子，GeoHash的32进制6位编码“WX2389”表示的地理区域范围小于GeoHash的32进制5位编码“WX238”表示的地理区域范围。

图2示出了根据本公开的一个实施例的用于识别风险用户的方法的流程图。

如图2所示，在块110中，获取待识别用户的用户特征数据。用户特征数据是用于对用户进行特征刻画的属性数据。用户特征数据可以包括用户画像数据、用户身份数据、以及用户资产数据等。针对不同的业务场景，用户特征数据所包括的属性数据可以不同。这些用户特征数据通常是从收集到的用户数据中挖掘得到的。

用户特征数据的具体形式可以为特征向量。例如，甲买家是套现买家，特征向量为[a₁,b₁,c₁,d₁,e₁,f₁,g₁]，a₁、b₁、c₁、d₁、e₁、f₁和g₁分别为比如31、1、0、1、0、0和1。其中，a₁为31表示甲买家的年龄是31岁，b₁为1表示学历为初中，c₁为0表示无职业；d₁为1表示花呗有逾期，e₁为0表示无房，f₁为0表示无车，g₁为1表示有借贷。乙买家是正常买家，特征向量为[a₂,b₂,c₂,d₂,e₂,f₂,g₂]，a₂、b₂、c₂、d₂、e₂、f₂和g₂分别为比如36、0、1、0、1、1和0。其中，a₂为36表示乙买家的年龄是36岁，b₂为0表示学历不是初中，c₂为1表示有职业；d₂为0表示花呗没有逾期，e₂为1表示有房，f₂为1表示有车，g₂为0表示没有借贷。

在块120中，获取待识别用户的地理位置特征数据。这里，地理位置特征数据包括待识别用户在指定时段内经过的至少一个地理区域的地理位置特征数据，各个地理区域的地理位置特征数据是利用在该指定时段内经过该地理区域的所有用户的用户特征数据表征的。地理位置特征数据的形式与上述用户特征数据的形式类似，比如甲买家的地理位置特征数据为特征向量[a₁₁,b₁₁,c₁₁,d₁₁,e₁₁,f₁₁,g₁₁]。如何获取待识别用户的地理位置特征数据将在下面参照图3进行描述。

在块130中，将所获取的用户特征数据和地理位置特征数据提供给风险用户识别模型，以进行风险用户识别。例如，风险用户识别模型可以是GBDT(Gradient BoostingDecision Tree，梯度提升决策树)模型。该风险用户识别模型是使用大量样本数据来训练出的。该样本数据包括特征数据和标签数据。该特征数据包括用户特征数据和地理位置特征数据。该标签数据包括用于标识用户是否是风险用户的标记数据，比如，使用标记值“1”来表示该用户是风险用户，标记值“0”来表示该用户是正常用户。或者，所述标记数据可以使用属于风险用户/正常用户的概率来表示。

图3示出了图2中所示的用于获取待识别用户的地理位置特征数据的一个示例过程的流程图。

如图3所示，在块121，获取待识别用户在指定时间段内的运动轨迹。比如，通过用户的移动智能设备采集待识别用户过去三个月的GPS数据。

块123，基于所获取的运动轨迹，确定待识别用户所经过的至少一个地理区域。

如果直接利用经纬度坐标对用户的位置信息进行计算，例如位置点与甲用户的位置点的距离在比如10米内的用户可以认为是到过同一位置区域的用户，但是这种处理方式，首先，点与点之间的距离阈值十分模糊，不同场景下的需求也各不相同；其次，在大数据量的情况下，这种方式会使得计算开销很大。因此，可以将地图切分成地理区域比如一个个网格，将用户的位置点数据放进去，从而对地理位置信息进行离散化处理。

作为对地理位置信息进行离散化处理的一种可选方式，基于GeoHash算法将地图切分成地理区域。对于用户在指定时间段内的运动轨迹上的每个位置点，通过GeoHash算法将这点的经度和维度坐标转换为表示这点所在的地理区域的GeoHash编码。举例来说，比如运动轨迹上的一个位置点的纬度和经度分别为32.323201°和120.231905°，地球的纬度范围是(-90°，90°)，赤道纬度为0°，从赤道开始分为北纬和南纬，都是0°～90°。因为这个位置点的纬度32.323201°在区间(-90°，0°)和(0°，90°)中的右区间中，因此记为1，又因为区间(0，90°)的中间值为45°，纬度32.323201在(0°，45°)和(45°，90°)中的左区间中，因此得到一个0，依次计算下去直到得到纬度32.323201°的15位的二进制结果，得出纬度32.323201°所在的预设最小维度区间。地球的经度分为西经和东经，子午线为0°，分为西经和东经，都是0°～180°，因为这个位置点的经度120.231905°在区间(-180°，0°)和(0°，180°)的右区间中，因此记为1，又因为区间(0°，180°)的中间值为90°，经度120.231905°在(0°，90°)和(90°，180°)的右区间中，因此得到一个1，依次计算下去直到得到经度120.231905°的15位的二进制结果，得出经度120.231905°所在的预设最小经度区间。最终，将该位置点的纬度、经度的二进制结果依次放在奇数位和偶数位上，比如上述例子得到的二进制编码结果1110……，然后将二进制结果转换为32进制编码结果，如果将32进制编码的精度设置为6位字符串，会得到一个32进制的6位字符串(6×5＝30，即30位的二进制字符串)，对应于地图上大概为600m×600m的方格，表示纬度和经度分别为32.323201°和120.231905°的位置点落在这个方格内。在对地理数据的处理上，利用GeoHash算法对地理位置信息进行离散化处理，解决了在位置点数据量大时点与点之间的距离计算开销大，不好设定距离阈值等问题。

作为对地理位置信息进行离散化处理的另一种可选方式，可以事先将地图切分成地理区域比如多个网格，并把地理区域的边界点的经纬度坐标保存起来，将待识别用户在指定时间段内的运动轨迹上位置点的经度和纬度坐标与所划分的地理区域的边界点的经度和纬度坐标作比较，从而判断位置点落在哪个地理区域中。

在块125，针对所确定出的各个地理区域，获取在指定时段内经过该地理区域的所有用户的用户特征数据，以确定该地理区域的用户特征数据。

作为一个具体例子，获取各个用户的用户特征数据，采集各个用户在指定时间段比如过去一个月内的GPS数据，给GPS数据附加对应的用户标签，用户标签包括对应用户的用户特征数据。针对各个地理区域，根据指定时间段内来过这个地理区域的所有用户的用户标签，确定该地理区域的用户特征数据。其中，用户特征数据包括至少一个属性特征数据。作为一种可选方式，可以计算经过同一地理区域的各个用户的用户特征数据的平均值，作为该地理区域的用户特征数据。比如在指定时间段内有n个用户来过地理区域A，则地理区域A的用户特征数据为其中，a₁、a₂、a₃、…、a_n分别为这n个用户中各个用户的用户特征数据的对应属性特征数据，b₁、b₂、b₃、…、b_n分别为各个用户的用户特征数据的对应属性特征数据，c₁、c₂、c₃、…、c_n分别为各个用户的用户特征数据的对应属性特征数据，d₁、d₂、d₃、…、d_n分别为各个用户的用户特征数据的对应属性特征数据。

以上述例子中的属性特征数据a为年龄为例，假设在指定时间段内有3个用户(假设n＝3)来过地理区域A，这3个用户的用户特征数据中的年龄分别为23、37、以及49，即a₁＝23，a₂＝37，a₃＝49，那么地理区域A的用户特征数据中的年龄为

以上述例子中的属性特征数据b为学历为例，假设在指定时间段内有8个用户来过地理区域A，这8个用户中，2个用户的用户特征数据中的学历是硕士学历，即b1＝1和b5＝1，6个用户的用户特征数据中的学历不是硕士学历，即b2＝0，b3＝0，b4＝0，b6＝0，b7＝0，以及b8＝0，那么地理区域A的用户特征数据中的硕士学历为

作为另一种可选方式，各个用户特征数据分别具有对应的权重，可以对经过同一地理区域的各个用户的用户特征数据进行加权求和，以得到该地理区域的用户特征数据。比如在指定时间段内有n个用户来过地理区域A，则地理区域A的用户特征数据为其中，权重可以为该地理区域在该用户的运动轨迹中出现的次数与该地理区域在所有到过该地理区域的用户的运动轨迹中出现的次数总和之比。以上述例子中属性特征数据a是年龄为例，假设在指定时间段内有3个用户来过地理区域A，这3个用户u₁、u₂和u₃的用户特征数据中的年龄a₁、a₂和a₃分别为23、37和49，用户user₁在指定时间段内来过地理区域A的次数为10次，用户user₂在指定时间段内来过地理区域A的次数为30次，用户user₃在指定时间段内来过地理区域A的次数为25次，则权重权重权重那么地理区域A的用户特征数据中的年龄为

在块127，根据该待识别用户的运动轨迹经过的各个地理区域所对应的用户特征数据，确定该待识别用户的地理位置特征数据。

作为一种可选方式，可以计算运动轨迹经过的各个地理区域所对应的用户特征数据的平均值，作为用户的地理位置特征数据。

作为另一种可选方式，由于用户的出行轨迹经过许多不同的地理区域，不同地理区域对于描述一个用户的行为权重是不一样的，因此在确定用户的地理位置特征数据时加权，使得地理位置特征数据更为合理，更具有可解释性。对地理区域的用户特征数据进行加权可以包括如下步骤：确定各个地理区域所对应的用户特征数据的权重，对运动轨迹经过的各个地理区域的用户特征数据进行加权求和，以得到用户的地理位置特征数据。例如，用户user_j的运动轨迹经过4个地理区域，4个地理区域的用户特征数据分别为r₁、r₂、r₃和r₄并且对应的权重分别为w_1，j、w_2，j、w_3，j和w_4，j。用户user_j的地理位置特征数据为w_1，j×r₁+w_2，j×r₂+w_3，j×r₃+w_4，j×r₄。其中，4个地理区域的用户特征数据r₁、r₂、r₃和r₄可以是特征向量，比如5维的特征向量[a，b，c，d，e]，例如，a可以为表示对应用户性别的数值，b可以为表示对应用户年龄的数值，c可以为表示对应用户学历的数值，d可以为表示对应用户职业的数值，e可以为表示对应用户花呗有无逾期的数值。用户user_j的运动轨迹经过的各个地理区域grid_i所对应的用户特征数据的权重w_i，j可以由该地理区域在运动轨迹中的出现次数和该运动轨迹所经过的地理区域的总出现次数确定，或者可以由该地理区域在运动轨迹中的出现次数、该运动轨迹所经过的地理区域的总出现次数、以及在指定时间内经过该地理区域的用户数占待识别用户总数的比例确定。

下面，参照图4对确定各个地理区域所对应的用户特征数据的权重的一个示例过程进行说明。各个地理区域所对应的用户特征数据的权重可以为GF-IUF(Grid Frequency-Inverse User Frequency)，GF-IUF用来衡量地理区域对于用户的重要程度。

在块410，针对各个地理区域，基于该地理区域grid_i在该用户user_j的运动轨迹中的出现次数、以及该运动轨迹所经过的所有地理区域的总出现次数，确定GF(全称为GridFrequency)：

这里，n_i，j代表地理区域grid_i在用户user_j的运动轨迹中的出现次数，∑_kn_k，j表示用户user_j的运动轨迹中所有地理区域grid_k的总出现次数。

在块420，确定在指定时间内经过该地理区域grid_i的用户数占待识别用户总数的比例IUF(全称为Inverse User Frequency)：

这里，n_j表示待识别用户的总数量，n_gridi∈j表示运动轨迹中包含地理区域grid_i的待识别用户的数量。

在块430，确定该地理区域grid_i所对应的用户特征数据的权重gf-iuf，计算公式如下：

gfiuf_i，j＝gf_i，j*iuf_i。

另外，上述确定地理区域的用户特征数据时的权重也可以按照类似权重gf-iuf的计算公式进行计算，UF-IGF(User Frequency-Inverse GridFrequency)的计算公式如下：

这里，N_i，j代表地理区域grid_i在用户user_j的运动轨迹中的出现次数，∑_kn_i，k表示地理区域grid_i在所有到过该地理区域的用户user_k的运动轨迹中出现的总次数，n_i表示地理区域的总数量，表示用户user_j到过的地理区域的总数量。

上述实施例和各个示例所述的方法中各个块的执行顺序不受附图标记的顺序的限制，任意几个块之间既可以并列执行也可以交换顺序执行。

图5示出了根据本公开的实施例的用于识别风险用户的装置500的结构示意图。如图5所示，该实施例的用户识别风险用户的装置包括用户特征获取单元510、位置特征获取单元520、以及风险用户识别单元530。

用户特征获取单元510被配置为获取待识别用户的用户特征数据。用户特征获取单元510的操作可以参照上面参考图2描述的块110的操作。

位置特征获取单元520被配置为获取待识别用户的地理位置特征数据，地理位置特征数据包括待识别用户在指定时段内经过的至少一个地理区域的地理位置特征数据，各个地理区域的地理位置特征数据是利用在指定时段内经过该地理区域的所有用户的用户特征数据表征的。位置特征获取单元520的操作可以参照上面参考图2描述的块120的操作。

风险用户识别单元530被配置为将所获取的用户特征数据和地理位置特征数据提供给风险用户识别模型，以进行风险用户识别。风险用户识别单元530的操作可以参照上面参考图2描述的块130的操作。

图6示出了根据本公开的实施例的位置特征获取单元520的结构示意图。如图6所示，该实施例的位置特征获取单元520包括运动轨迹获取模块521、地理区域确定模块523、区域特征确定模块525、以及位置特征确定模块527。

运动轨迹获取模块521被配置为获取待识别用户在指定时间段内的运动轨迹。运动轨迹获取模块521的操作可以参照上面参考图3描述的块121的操作。

地理区域确定模块523被配置为基于运动轨迹，确定待识别用户所经过的至少一个地理区域。进一步地，地理区域确定模块可以被配置为使用GeoHash算法来基于该运动轨迹确定待识别用户所经过的至少一个地理区域，并且/或者将地图切分成地理区域并把地理区域的边界点的经纬度坐标保存起来，将待识别用户在指定时间段内的运动轨迹上位置点的经度和纬度坐标与所划分的地理区域的边界点的经度和纬度坐标作比较，确定待识别用户所经过的至少一个地理区域。地理区域确定模块523的操作可以参照上面参考图3描述的块123的操作。

区域特征确定模块525被配置为针对所确定出的各个地理区域，获取在指定时段内经过该地理区域的所有用户的用户特征数据，以确定该地理区域的用户特征数据。作为一种可选方式，区域特征确定模块525可以被配置为计算经过地理区域的各个用户的用户特征数据的平均值，作为地理区域的用户特征数据。作为另一种可选方式，各个用户特征数据分别具有对应的权重，区域特征确定模块525可以被配置为对经过地理区域的各个用户的用户特征数据进行加权求和，以得到地理区域的用户特征数据。区域特征确定模块525的操作可以参照上面参考图3描述的块125的操作。

位置特征确定模块527被配置为根据待识别用户的运动轨迹经过的各个地理区域所对应的用户特征数据，确定该待识别用户的地理位置特征数据。位置特征确定模块527的操作可以参照上面参考图3描述的块127的操作。

该实施例的位置特征获取单元520还可以包括权重确定模块。权重确定模块被配置为确定各个地理区域所对应的用户特征数据的权重。进一步地，权重确定模块可以被配置为针对各个地理区域，基于地理区域在运动轨迹中的出现次数、运动轨迹所经过的地理区域的总出现次数以及在指定时间内经过地理区域的用户数占待识别用户总数的比例，确定该地理区域所对应的用户特征数据的权重。权重确定模块的操作可以参照上面参考图4描述的块410、块420和块430的操作。位置特征确定模块527还可以被配置为对所获取的各个地理区域的用户特征数据进行加权求和，以得到待识别用户的地理位置特征数据。

如图7所示，计算设备700可以包括至少一个处理器710、存储器720、内存730、通信接口740以及内部总线750，该至少一个处理器710执行在计算机可读存储介质(即，存储器720)中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器720中存储有计算机可执行指令，其当执行时使得至少一个处理器710：获取待识别用户的用户特征数据；获取待识别用户的地理位置特征数据，地理位置特征数据包括待识别用户在指定时段内经过的至少一个地理区域的地理位置特征数据，各个地理区域的地理位置特征数据是利用在指定时段内经过该地理区域的所有用户的用户特征数据表征的；以及将所获取的用户特征数据和地理位置特征数据提供给风险用户识别模型，以进行风险用户识别。

应该理解的是，在存储器720中存储的计算机可执行指令当执行时使得至少一个处理器710进行本公开的各个实施例中以上结合图1-6描述的各种操作和功能。

在本公开中，计算设备700可以包括但不限于：个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴计算设备、消费电子设备等等。

根据一个实施例，提供了一种例如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被机器执行时，使得机器执行本公开的各个实施例中以上结合图1-6描述的各种操作和功能。

具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

本领域技术人员应当理解，上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此，本发明的保护范围应当由所附的权利要求书来限定。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元或模块可以通过机械方式或电气方式实现。例如，一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器，FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器)，可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。

上面结合附图阐述的具体实施方式描述了示例性实施例，但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于识别风险用户的方法，包括：

获取待识别用户的用户特征数据；

获取所述待识别用户的地理位置特征数据，所述地理位置特征数据包括所述待识别用户在指定时段内经过的至少一个地理区域的地理位置特征数据，各个地理区域的地理位置特征数据是利用在所述指定时段内经过所述地理区域的所有用户的用户特征数据表征的；以及

将所获取的所述用户的用户特征数据和地理位置特征数据提供给风险用户识别模型，以进行风险用户识别。

2.如权利要求1所述的方法，其中，所述获取所述待识别用户的地理位置特征数据包括：

获取所述待识别用户在所述指定时间段内的运动轨迹；

基于所述运动轨迹，确定所述待识别用户所经过的至少一个地理区域；

针对所确定出的各个地理区域，获取在所述指定时段内经过所述地理区域的所有用户的用户特征数据，以确定所述地理区域的用户特征数据；

根据所述运动轨迹经过的各个地理区域所对应的用户特征数据，确定所述待识别用户的地理位置特征数据。

3.如权利要求2所述的方法，其中，基于所述运动轨迹，确定所述待识别用户所经过的至少一个地理区域包括：

使用Geohash算法来基于所述运动轨迹确定所述待识别用户所经过的至少一个地理区域。

4.如权利要求2或3所述的方法，其中，所述获取所述待识别用户的地理位置特征数据还包括：

确定各个地理区域所对应的用户特征数据的权重，

其中，根据所获取的各个地理区域所对应的用户特征数据，确定所述用户的地理位置特征数据包括：

对所获取的各个地理区域的用户特征数据进行加权求和，以得到所述用户的地理位置特征数据。

5.如权利要求4所述的方法，其中，确定各个地理区域所对应的用户特征数据的权重包括：

针对各个地理区域，基于所述地理区域在所述运动轨迹中的出现次数、所述运动轨迹所经过的地理区域的总出现次数以及在所述指定时间内经过所述地理区域的用户数占待识别用户总数的比例，确定所述地理区域所对应的用户特征数据的权重。

6.如权利要求2所述的方法，其中，针对所确定出的各个地理区域，获取在所述指定时段内经过所述地理区域的所有用户的用户特征数据，以确定所述地理区域的用户特征数据包括：

计算经过所述地理区域的各个用户的用户特征数据的平均值，作为所述地理区域的用户特征数据。

7.如权利要求2所述的方法，其中，各个所述用户特征数据分别具有对应的权重，针对所确定出的各个地理区域，获取在所述指定时段内经过所述地理区域的所有用户的用户特征数据，以确定所述地理区域的用户特征数据包括：

对经过所述地理区域的各个用户的用户特征数据进行加权求和，以得到所述地理区域的用户特征数据。

8.一种用于识别风险用户的装置，包括：

用户特征获取单元，被配置为获取待识别用户的用户特征数据；

位置特征获取单元，被配置为获取所述待识别用户的地理位置特征数据，所述地理位置特征数据包括所述待识别用户在指定时段内经过的至少一个地理区域的地理位置特征数据，各个地理区域的地理位置特征数据是利用在所述指定时段内经过所述地理区域的所有用户的用户特征数据表征的；以及

风险用户识别单元，被配置为将所获取的所述用户的用户特征数据和地理位置特征数据提供给风险用户识别模型，以进行风险用户识别。

9.如权利要求8所述的装置，其中，所述位置特征获取单元包括：

运动轨迹获取模块，被配置为获取所述待识别用户在所述指定时间段内的运动轨迹；

地理区域确定模块，被配置为基于所述运动轨迹，确定所述待识别用户所经过的至少一个地理区域；

区域特征确定模块，被配置为针对所确定出的各个地理区域，获取在所述指定时段内经过所述地理区域的所有用户的用户特征数据，以确定所述地理区域的用户特征数据；以及

位置特征确定模块，被配置为根据所述运动轨迹经过的各个地理区域所对应的用户特征数据，确定所述待识别用户的地理位置特征数据。

10.如权利要求9所述的装置，其中，所述地理区域确定模块被配置为：

11.如权利要求9或10所述的装置，所述位置特征获取单元还包括：

权重确定模块，被配置为确定各个地理区域所对应的用户特征数据的权重，其中，

所述位置特征确定模块被配置为对所获取的各个地理区域的用户特征数据进行加权求和，以得到所述用户的地理位置特征数据。

12.如权利要求11所述的装置，其中，所述权重确定模块被配置为：

13.如权利要求9所述的装置，其中，所述区域特征确定模块被配置为：

14.如权利要求9所述的装置，其中，各个所述用户特征数据分别具有对应的权重，所述区域特征确定模块被配置为：

15.一种计算设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如权利要求1到7中任一项所述的方法。

16.一种非暂时性机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求1到7中任一项所述的方法。