CN111967521A

CN111967521A - 跨境活跃用户识别方法及装置

Info

Publication number: CN111967521A
Application number: CN202010833960.1A
Authority: CN
Inventors: 狄潇然
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-11-20
Anticipated expiration: 2040-08-18
Also published as: CN111967521B

Abstract

本发明公开了一种跨境活跃用户识别方法及装置，该方法包括：获取跨境APP上历史用户的行为数据；基于行为和分数映射关系，确定行为数据对应的分数，基于分数确定历史用户的跨境活跃度；从所有历史用户中随机选取种子用户；获得种子用户多个维度的特征数据，将多个维度的特征数据作为训练数据集，种子用户的跨境活跃度作为训练数据集的标签；对训练数据集进行清洗和向量化处理，获得处理后的训练数据集；基于lightGBM和处理后的训练数据集进行回归建模，获得活跃度回归预测模型；获得其他渠道用户的多个维度的特征数据，基于活跃度回归预测模型，预测其他渠道用户使用跨境APP的活跃度。本发明可以提升活跃客户挖掘工作效率。

Description

跨境活跃用户识别方法及装置

技术领域

本发明涉及客户识别技术领域，尤其涉及跨境活跃用户识别方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

对于跨境场景，如果在跨境APP上线之初就能从数以亿计的客户中挖掘出跨境APP潜在客户群体，那么就能获得更多效益以及市场竞争优势。但是，当前跨境APP主要通过业务人员向客户“广撒网”的方式进行推广，使得推广成本高，效率低，没有针对性，资源利用率低，极易造成有跨境APP使用迫切需求的用户没有被推广到，却将大量的人力物力投入到低价值低活跃度的客户上，造成资源浪费；此外，跨境场景中把跨境APP活跃客户挖掘看做一个二分类问题，存在one class问题，即：样本分布极不平衡且处于少数类的正样本一定是正样本，但负样本未必一定是负样本(业务人员可以根据经验设置规则，筛选出跨境APP活跃用户作为正样本；但无法设置合适的规则确定某些用户一定是非跨境APP用户)，这就导致一些基于分类算法的活跃客户挖掘模型不适用本场景。

发明内容

本发明实施例提供一种跨境活跃用户识别方法，用以解决现有技术中的跨境APP广撒网推广方法成本高效率低和跨境APP活跃客户挖掘存在one class问题的技术问题，该方法包括：

获取跨境APP上历史用户的行为数据；

基于行为和分数映射关系，确定历史用户的行为数据对应的分数，基于所述分数确定历史用户的跨境活跃度；

从所有历史用户中随机选取预设数量用户作为种子用户；

获得种子用户多个维度的特征数据，将所述多个维度的特征数据作为训练数据集，种子用户的跨境活跃度作为训练数据集的标签；

对所述训练数据集进行清洗和向量化处理，获得处理后的训练数据集；

基于lightGBM和所述处理后的训练数据集进行回归建模，获得活跃度回归预测模型；

获得其他渠道用户的多个维度的特征数据，基于所述活跃度回归预测模型，预测其他渠道用户使用跨境APP的活跃度。

本发明实施例还提供一种跨境活跃用户识别装置，用以解决现有技术中的跨境APP广撒网推广方法成本高效率低和跨境APP活跃客户挖掘存在one class问题的技术问题，该装置包括：

行为数据获得模块，用于获取跨境APP上历史用户的行为数据；

跨境活跃度确定模块，用于基于行为和分数映射关系，确定历史用户的行为数据对应的分数，基于所述分数确定历史用户的跨境活跃度；

种子用户确定模块，用于从所有历史用户中随机选取预设数量用户作为种子用户；

特征数据获得模块，用于获得种子用户多个维度的特征数据，将所述多个维度的特征数据作为训练数据集，种子用户的跨境活跃度作为训练数据集的标签；

特征数据处理模块，用于对所述训练数据集进行清洗和向量化处理，获得处理后的训练数据集；

lightGBM回归建模模块，用于基于lightGBM和所述处理后的训练数据集进行回归建模，获得活跃度回归预测模型；

活跃度预测模块，用于获得其他渠道用户的多个维度的特征数据，基于所述活跃度回归预测模型，预测其他渠道用户使用跨境APP的活跃度。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述跨境活跃用户识别方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述跨境活跃用户识别方法的计算机程序。

本发明实施例中，与现有技术中跨境APP广撒网推广方法成本高效率低和跨境APP活跃客户挖掘存在one class问题的技术方案相比，本发明通过基于行为和分数映射关系，确定历史用户的行为数据对应的分数，基于分数确定历史用户的跨境活跃度；从所有历史用户中随机选取预设数量用户作为种子用户；获得种子用户多个维度的特征数据，将多个维度的特征数据作为训练数据集，种子用户的跨境活跃度作为训练数据集的标签；对训练数据集进行清洗和向量化处理，获得处理后的训练数据集；基于lightGBM和处理后的训练数据集进行回归建模，获得活跃度回归预测模型；获得其他渠道用户的多个维度的特征数据，基于所述活跃度回归预测模型，预测其他渠道用户使用跨境APP的活跃度，从而提升活跃客户挖掘工作效率，合理利用数据资源避免one-class问题，提高活跃度预测的准确性，开销小，减少推广人员工作量，降低成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中跨境活跃用户识别方法流程图；

图2为本发明实施例中训练数据集进行清洗和向量化处理流程图一；

图3为t％分布法原理示意图；

图4为本发明实施例中训练数据集进行清洗和向量化处理流程图二；

图5为本发明实施例中跨境活跃用户识别装置结构框图一；

图6为本发明实施例中特征数据处理模块结构框图一；

图7为本发明实施例中特征数据处理模块结构框图二；

图8为本发明实施例中跨境活跃用户识别装置结构框图二。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

技术术语解释

lightGBM：一个梯度提升框架，使用基于树的学习算法。它是对于XGB提升性能的版本，相对于其他GBM来说具有相近的准确率而且是其训练速度20倍。

回归：指研究一组随机变量(Y1，Y2，…，Yi)和另一组(X1，X2，…，Xk)变量之间关系的统计分析方法，又称多重回归分析。通常Y1，Y2，…，Yi是因变量，X1、X2，…，Xk是自变量。

One-class问题：在某些场景下只能获取一个类别的数据集与标签，或者样本分布极不平衡且处于少数类的正样本一定是正样本，但负样本未必一定是负样本。相对来说容易得到正常场景下的训练数据，但非正常场景状态的收集示例数据可能相当昂贵，或者根本不可能。

基于现有技术中存在的跨境APP广撒网推广方法成本高效率低和跨境APP活跃客户挖掘存在one class问题，本发明提出一种跨境活跃用户识别方法，如图1所示，该方法包括：

步骤102：获取跨境APP上历史用户的行为数据；

步骤104：基于行为和分数映射关系，确定历史用户的行为数据对应的分数，基于所述分数确定历史用户的跨境活跃度；

步骤106：从所有历史用户中随机选取预设数量用户作为种子用户；

步骤108：获得种子用户多个维度的特征数据，将所述多个维度的特征数据作为训练数据集，种子用户的跨境活跃度作为训练数据集的标签；

步骤110：对所述训练数据集进行清洗和向量化处理，获得处理后的训练数据集；

步骤112：基于lightGBM和所述处理后的训练数据集进行回归建模，获得活跃度回归预测模型；

步骤114：获得其他渠道用户的多个维度的特征数据，基于所述活跃度回归预测模型，预测其他渠道用户使用跨境APP的活跃度。

在本发明实施例中，历史用户(即跨境APP上线后到当前时间点的存量用户)的行为数据按照行为和分数映射关系中的行为来获取，行为和分数映射关系见下表1所示：

表1

行为	分数
		登录次数	2分/次
浏览时长	5分/小时
		分享	3分/次
点赞	2分/次
		上传作品次数	5分/次
当年结售汇交易	5分/次
		当年留学贷款交易	3分/次
当年外币理财交易	3分/次
		当年国际汇出交易	4分/次
当年境外信用卡交易	4分/次
		交易金额小于1w	1分
交易金额大于1w，小于10w	2分
		交易金额大于10w，小于100w	3分
交易金额大于100w，小于1000w	4分
		交易金额大于1000w	5分
上传作品浏览量小于1000	0.5
		上传作品浏览量大于1000，小于1w	1
上传作品浏览量大于1w，小于10w	2
		上传作品浏览量大于10w，小于100w	3
上传作品浏览量大于10w，小于100w	4
		上传作品浏览量大于100w	5

在本发明实施例中，步骤104利用spark-streaming基于行为和分数映射关系，确定历史用户的行为数据对应的分数，基于所述分数综合统计出历史用户的跨境活跃度。权衡数据量与计算效率之间关系，随机选取部分用户作为“种子用户”，存入hive中。

其中，Spark Streaming用于流式数据的处理，有高吞吐量和容错能力强这两个特点。

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能。

在本发明实施例中，步骤108：获得种子用户多个维度的特征数据，该多个维度的特征数据可以是客户基本信息、客户资产、客户子女基本信息、客户结售汇、客户跨境汇款、客户信用卡外币等特征分析维度。将种子用户根据主键(比如种子用户的标识)进行关联，将所述多个维度的特征数据作为训练数据集，种子用户的跨境活跃度作为训练数据集的标签，存入hive中。

在本发明实施例中，如图2所示，步骤110具体包括：

步骤1101：利用spark-mllib使用均值和最大频数对所述训练数据集中的空置进行填充；

步骤1102：使用t％分布法对所述训练数据集中的异常值清洗；

步骤1103：使用onehot对所述训练数据集中的离散特征进行向量化。

其中，步骤1101和步骤1102可以调换先后顺序。执行完步骤1103后，将清洗和向量化处理后的训练数据集存入hive中。步骤110的作用是提高数据质量。

MLlib是spark的可以扩展的机器学习库，由以下部分组成：通用的学习算法和工具类，包括分类，回归，聚类，协同过滤，降维，当然也包括调优的部分。

t％分布法是一种现有的异常数据清洗方法。t％分布法主要是：将属性取值从小到大排列，统计其分布规律，按照样本分布规律找到t％上分位点和下分位点，两个分位点之间的样本为正常样本，占整个样本的比例为1-2*t％，两个分位点之外的样本为异常样本，分别占整个样本的t％。两个分位点的对应的t％的取值也可以根据实际情况设定不一样的取值，即上分位点为t1％，下分位点为t2％。例如，某一维度的属性取值分布为正态分布，即如下图3所示，此时，图3中阴影部分的取值为异常值，分布在该区间的样本被认为是异常样本，将被清洗掉。

onehot是比较常用的文本特征特征提取的方法。one-hot向量将类别变量转换为机器学习算法易于利用的一种形式的过程，这个向量的表示为一项属性的特征向量，也就是同一时间只有一个激活点(不为0)，这个向量只有一个特征是不为0的，其他都是0，特别稀疏。

在本发明实施例中，如图4所示，步骤110还包括：

步骤1104：对使用onehot处理后的离散特征两两之间进行特征交叉组合衍生新特征，将新特征同样作为训练数据集(即和步骤1103中得到的向量关联)，存入hive中。其作用是丰富数据。

在本发明实施例中，步骤112中，基于lightGBM进行回归建模，是让机器去学习高活跃度/低活跃度客户对应多个维度上的特点。然后得到一个好的活跃度回归预测模型，然后使用这个活跃度回归预测模型进行活跃度预测。

本发明实施例中还提供了一种跨境活跃用户识别装置，如下面的实施例所述。由于该装置解决问题的原理与跨境活跃用户识别方法相似，因此该装置的实施可以参见跨境活跃用户识别方法的实施，重复之处不再赘述。

图5为本发明实施例中跨境活跃用户识别装置结构框图，如图5所示，该装置包括：

行为数据获得模块02，用于获取跨境APP上历史用户的行为数据；

跨境活跃度确定模块04，用于基于行为和分数映射关系，确定历史用户的行为数据对应的分数，基于所述分数确定历史用户的跨境活跃度；

种子用户确定模块06，用于从所有历史用户中随机选取预设数量用户作为种子用户；

特征数据获得模块08，用于获得种子用户多个维度的特征数据，将所述多个维度的特征数据作为训练数据集，种子用户的跨境活跃度作为训练数据集的标签；

特征数据处理模块10，用于对所述训练数据集进行清洗和向量化处理，获得处理后的训练数据集；

lightGBM回归建模模块12，用于基于lightGBM和所述处理后的训练数据集进行回归建模，获得活跃度回归预测模型；

活跃度预测模块14，用于获得其他渠道用户的多个维度的特征数据，基于所述活跃度回归预测模型，预测其他渠道用户使用跨境APP的活跃度。

在本发明实施例中，跨境活跃度确定模块04具体用于：

利用spark-streaming基于行为和分数映射关系，确定历史用户的行为数据对应的分数，基于所述分数确定历史用户的跨境活跃度。

图6为本发明实施例中特征数据处理模块结构框图一，如图6所示，特征数据处理模块10包括：

spark-mllib空置填充单元101，用于利用spark-mllib使用均值和最大频数对所述训练数据集中的空置进行填充；

t％异常值清洗单元102，用于使用t％分布法对所述训练数据集中的异常值清洗；

onehot向量化单元103，用于使用onehot对所述训练数据集中的离散特征进行向量化。

图7为本发明实施例中特征数据处理模块结构框图二，如图7所示，特征数据处理模块还包括：

onehot特征交叉组合衍生单元104，用于使用onehot处理后的离散特征两两之间进行特征交叉组合衍生新特征，将新特征同样作为训练数据集。

在本发明实施例中，如图8所示，还包括：存储模块16，用于将所述种子用户的训练数据集、清洗和向量化处理后的训练数据集、加入了新特征的训练数据集存入hive中。

本发明实施例中，与现有技术中跨境APP广撒网推广方法成本高效率低和跨境APP活跃客户挖掘存在one class问题的技术方案相比，本发明通过基于行为和分数映射关系，确定历史用户的行为数据对应的分数，基于分数确定历史用户的跨境活跃度；从所有历史用户中随机选取预设数量用户作为种子用户；获得种子用户多个维度的特征数据，将多个维度的特征数据作为训练数据集，种子用户的跨境活跃度作为训练数据集的标签；对训练数据集进行清洗和向量化处理，获得处理后的训练数据集；基于lightGBM和处理后的训练数据集进行回归建模，获得活跃度回归预测模型；获得其他渠道用户的多个维度的特征数据，基于所述活跃度回归预测模型，预测其他渠道用户使用跨境APP的活跃度，从而提升活跃客户挖掘工作效率，减少对用户的打扰，提高用户体验，合理利用数据资源避免one-class问题，提高活跃度预测的准确性，开销小，减少推广人员工作量，降低成本。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种跨境活跃用户识别方法，其特征在于，包括：

获取跨境APP上历史用户的行为数据；

从所有历史用户中随机选取预设数量用户作为种子用户；

2.如权利要求1所述的跨境活跃用户识别方法，其特征在于，基于行为和分数映射关系，确定历史用户的行为数据对应的分数，基于所述分数确定历史用户的跨境活跃度，包括：

3.如权利要求1所述的跨境活跃用户识别方法，其特征在于，对所述训练数据集进行清洗和向量化处理，获得处理后的训练数据集，包括：

利用spark-mllib使用均值和最大频数对所述训练数据集中的空置进行填充；

使用t％分布法对所述训练数据集中的异常值清洗；

使用onehot对所述训练数据集中的离散特征进行向量化。

4.如权利要求3所述的跨境活跃用户识别方法，其特征在于，还包括：

对使用onehot处理后的离散特征两两之间进行特征交叉组合衍生新特征，将新特征同样作为训练数据集。

5.如权利要求4所述的跨境活跃用户识别方法，其特征在于，还包括：将所述种子用户的训练数据集、清洗和向量化处理后的训练数据集、加入了新特征的训练数据集存入hive中。

6.一种跨境活跃用户识别装置，其特征在于，包括：

7.如权利要求6所述的跨境活跃用户识别装置，其特征在于，跨境活跃度确定模块具体用于：

8.如权利要求6所述的跨境活跃用户识别装置，其特征在于，特征数据处理模块具体用于：

使用t％分布法对所述训练数据集中的异常值清洗；

使用onehot对所述训练数据集中的离散特征进行向量化。

9.如权利要求8所述的跨境活跃用户识别装置，其特征在于，特征数据处理模块还用于：

10.如权利要求9所述的跨境活跃用户识别装置，其特征在于，还包括：存储模块，用于将所述种子用户的训练数据集、清洗和向量化处理后的训练数据集、加入了新特征的训练数据集存入hive中。

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一所述跨境活跃用户识别方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至5任一所述跨境活跃用户识别方法的计算机程序。