CN111967671B

CN111967671B - 基于支持向量数据域描述的跨境活跃用户识别方法及装置

Info

Publication number: CN111967671B
Application number: CN202010833020.2A
Authority: CN
Inventors: 狄潇然
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2023-08-22
Anticipated expiration: 2040-08-18
Also published as: CN111967671A

Abstract

本发明公开了一种基于支持向量数据域描述的跨境活跃用户识别方法及装置，该方法包括：基于跨境用户认定标准对历史用户进行认定，将符合跨境用户认定标准的用户标记为跨境用户；获得跨境用户多个维度的特征数据，将所述多个维度的特征数据作为训练数据集；对所述训练数据集进行清洗和向量化处理，获得处理后的训练数据集；基于支持向量数据域描述SVDD算法和所述处理后的训练数据集训练多个模型；基于模拟退火算法对多个模型进行融合，获得活跃度预测模型；获得新用户和/或历史用户中未被认定为跨境用户的剩余用户的多个维度的特征数据，基于所述活跃度预测模型，预测其使用跨境APP的活跃度。本发明可以提升活跃客户挖掘工作效率。

Description

基于支持向量数据域描述的跨境活跃用户识别方法及装置

技术领域

本发明涉及客户识别技术领域，尤其涉及基于支持向量数据域描述的跨境活跃用户识别方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

对于跨境场景，如果在跨境APP上线之初就能从数以亿计的客户中挖掘出跨境APP潜在客户群体，那么就能获得更多效益以及市场竞争优势。但是，当前跨境APP主要通过业务人员向客户“广撒网”的方式进行推广，使得推广成本高，效率低，没有针对性，资源利用率低，极易造成有跨境APP使用迫切需求的用户没有被推广到，却将大量的人力物力投入到低价值低活跃度的客户上，造成资源浪费；此外，跨境场景中把跨境APP活跃客户挖掘看做一个二分类问题，存在one class问题，即：样本分布极不平衡且处于少数类的正样本一定是正样本，但负样本未必一定是负样本(业务人员可以根据经验设置规则，筛选出跨境APP活跃用户作为正样本；但无法设置合适的规则确定某些用户一定是非跨境APP用户)，这就导致一些基于分类算法的活跃客户挖掘模型不适用本场景。

发明内容

本发明实施例提供一种基于支持向量数据域描述的跨境活跃用户识别方法，用以解决现有技术中的跨境APP广撒网推广方法成本高效率低和跨境APP活跃客户挖掘存在oneclass问题的技术问题，该方法包括：

基于跨境用户认定标准对历史用户进行认定，将符合跨境用户认定标准的历史历史用户标记为跨境用户；

获得跨境用户多个维度的特征数据，将所述多个维度的特征数据作为训练数据集；

对所述训练数据集进行清洗和向量化处理，获得处理后的训练数据集；

基于支持向量数据域描述SVDD算法和所述处理后的训练数据集训练多个模型；

基于模拟退火算法对多个模型进行融合，获得活跃度预测模型；

获得新用户和/或历史用户中未被认定为跨境用户的剩余用户的多个维度的特征数据，基于所述活跃度预测模型，预测新用户和/或历史用户中未被认定为跨境用户的剩余用户使用跨境APP的活跃度。

本发明实施例还提供一种基于支持向量数据域描述的跨境活跃用户识别装置，用以解决现有技术中的跨境APP广撒网推广方法成本高效率低和跨境APP活跃客户挖掘存在one class问题的技术问题，该装置包括：

跨境用户认定模块，用于基于跨境用户认定标准对历史用户进行认定，将符合跨境用户认定标准的历史用户标记为跨境用户；

特征数据获得模块，用于获得跨境用户多个维度的特征数据，将所述多个维度的特征数据作为训练数据集；

特征数据处理模块，用于对所述训练数据集进行清洗和向量化处理，获得处理后的训练数据集；

SVDD算法模型训练模块，用于基于支持向量数据域描述SVDD算法和所述处理后的训练数据集训练多个模型；

模型融合模块，用于基于模拟退火算法对多个模型进行融合，获得活跃度预测模型；

活跃度预测模块，用于获得新用户和/或历史用户中未被认定为跨境用户的剩余用户的多个维度的特征数据，基于所述活跃度预测模型，预测新用户和/或历史用户中未被认定为跨境用户的剩余用户使用跨境APP的活跃度。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于支持向量数据域描述的跨境活跃用户识别方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述基于支持向量数据域描述的跨境活跃用户识别方法的计算机程序。

本发明实施例中，与现有技术中跨境APP广撒网推广方法成本高效率低和跨境APP活跃客户挖掘存在one class问题的技术方案相比，本发明通过基于跨境用户认定标准对历史用户进行认定，将符合跨境用户认定标准的用户标记为跨境用户；获得跨境用户多个维度的特征数据，将所述多个维度的特征数据作为训练数据集；对所述训练数据集进行清洗和向量化处理，获得处理后的训练数据集；基于支持向量数据域描述SVDD算法和所述处理后的训练数据集训练多个模型；基于模拟退火算法对多个模型进行融合，获得活跃度预测模型；获得新用户和/或历史用户中未被认定为跨境用户的剩余用户的多个维度的特征数据，基于所述活跃度预测模型，预测新用户和/或历史用户中未被认定为跨境用户的剩余用户使用跨境APP的活跃度，从而提升活跃客户挖掘工作效率，合理利用数据资源避免one-class问题，提高活跃度预测的准确性，开销小，减少推广人员工作量，降低成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中基于支持向量数据域描述的跨境活跃用户识别方法流程图；

图2为本发明实施例中训练数据集进行清洗和向量化处理流程图一；

图3为本发明实施例中训练数据集进行清洗和向量化处理流程图二；

图4为本发明实施例中基于支持向量数据域描述的跨境活跃用户识别装置结构框图一；

图5为本发明实施例中特征数据处理模块结构框图一；

图6为本发明实施例中特征数据处理模块结构框图二；

图7为本发明实施例中基于支持向量数据域描述的跨境活跃用户识别装置结构框图二。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

技术术语解释

支持向量数据域描述(SVDD)：一种重要的数据描述方法，它能够对目标数据集进行超球形描述，并可用于异类点检测或分类。在现实生活中目标数据集通常包含多个样本类，且需要同时对每一个样本类进行超球形描述。

模拟退火算法：它一种随机寻优算法，其出发点是基于物理中固体物质的退火过程与一般组合优化问题之间的相似性。模拟退火算法从某一较高初温出发，伴随温度参数的不断下降，结合概率突跳特性在解空间中随机寻找目标函数的全局最优解，即在局部最优解能概率性地跳出并最终趋于全局最优。

One-class问题：在某些场景下只能获取一个类别的数据集与标签，或者样本分布极不平衡且处于少数类的正样本一定是正样本，但负样本未必一定是负样本。相对来说容易得到正常场景下的训练数据，但非正常场景状态的收集示例数据可能相当昂贵，或者根本不可能。

基于现有技术中存在的跨境APP广撒网推广方法成本高效率低和跨境APP活跃客户挖掘存在one class问题，本发明提出一种基于支持向量数据域描述的跨境活跃用户识别方法，如图1所示，该方法包括：

步骤102：基于跨境用户认定标准对历史用户进行认定，将符合跨境用户认定标准的历史用户标记为跨境用户；

步骤104：获得跨境用户多个维度的特征数据，将所述多个维度的特征数据作为训练数据集

步骤106：对所述训练数据集进行清洗和向量化处理，获得处理后的训练数据集；

步骤108：基于支持向量数据域描述SVDD算法和所述处理后的训练数据集训练多个模型；

步骤110：基于模拟退火算法对多个模型进行融合，获得活跃度预测模型，可以提高数据质量；

步骤112：获得新用户和/或历史用户中未被认定为跨境用户的剩余用户的多个维度的特征数据，基于所述活跃度预测模型，预测新用户和/或历史用户中未被认定为跨境用户的剩余用户使用跨境APP的活跃度。

在本发明实施例中，步骤102中的历史用户指的是银行内的全部用户。跨境用户认定标准具体规则见下表1所示，基于spark构建跨境用户判定算子，满足其中任意一条者即可认定为“跨境用户”，规则持久化hive中。hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能。

表1

规则
	当年有过结售汇
当年有过留学贷款
	当年有过外币理财
当年有过国际汇出
	当年有过境外信用卡交易
任意一天外币存款余额大于0
	外币存款年均大于0
当年持有外币理财

在本发明实施例中，步骤104：获得跨境用户多个维度的特征数据，该多个维度的特征数据可以是客户基本信息、客户资产、客户子女基本信息、客户消费购物信息、客户手机银行行为数据等特征分析维度。将跨境用户根据主键(比如跨境用户的标识)进行关联，将所述多个维度的特征数据作为训练数据集，存入hive中。

在本发明实施例中，如图2所示，步骤106具体包括：

步骤1061：利用spark构建数据清洗算子，所述数据清洗算子基于预设的每个特征数据的合法取值范围对所述训练数据集中所有特征数据进行清洗，将不在合法取值范围内的特征数据舍弃；

步骤1062：利用spark构建空置填充算子，使用均值和最大频数对所述训练数据集中空置进行填充；

步骤1063：使用woe对所述训练数据集中的离散特征进行向量化，存入hive中。

在步骤1061中预设的每个特征数据的合法取值范围定义为spark广播变量。spark广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值，以供一个或多个Spark操作使用。比如，如果你的应用需要向所有节点发送一个较大的只读查询表，甚至是机器学习算法中的一个很大的特征向量，广播变量用起来都很顺手。Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。

WOE的全称是“Weight of Evidence”，即证据权重。WOE是对原始自变量的一种编码形式。要对一个变量进行WOE编码，需要首先把这个变量进行分组处理(也叫离散化、分箱等等，说的都是一个意思)。

在本发明实施例中，如图3所示，步骤106还包括：

步骤1064：对使用woe处理后的离散特征两两之间进行特征交叉组合(比如可以是进行加减乘除操作)衍生新特征，将新特征同样作为训练数据集(即和步骤1063中得到的向量关联)，存入hive中。其作用是丰富数据。

在本发明实施例中，步骤108中，基于SVDD算法，训练多个(可以是五个，也可以是其他个，根据实际情况设定)模型，让机器去学习跨境用户在步骤104确定的特征维度上的特点。

在本发明实施例中，步骤110中，使用模拟退火算法对多个模型进行融合，然后得到一个好的活跃度预测模型，然后使用这个活跃度预测模型进行活跃度预测。

在本发明实施例中，步骤112中可以使用这个活跃度预测模型对新用户(即银行内新增加的用户)进行活跃度预测。也可以是对步骤102中未符合跨境用户认定标准的剩余用户进行活跃度预测。

本发明实施例中还提供了一种基于支持向量数据域描述的跨境活跃用户识别装置，如下面的实施例所述。由于该装置解决问题的原理与基于支持向量数据域描述的跨境活跃用户识别方法相似，因此该装置的实施可以参见基于支持向量数据域描述的跨境活跃用户识别方法的实施，重复之处不再赘述。

图4为本发明实施例中基于支持向量数据域描述的跨境活跃用户识别装置结构框图，如图4所示，该装置包括：

跨境用户认定模块02，用于基于跨境用户认定标准对历史用户进行认定，将符合跨境用户认定标准的历史用户标记为跨境用户

特征数据获得模块04，用于获得跨境用户多个维度的特征数据，将所述多个维度的特征数据作为训练数据集；

特征数据处理模块06，用于对所述训练数据集进行清洗和向量化处理，获得处理后的训练数据集；

SVDD算法模型训练模块08，用于基于支持向量数据域描述SVDD算法和所述处理后的训练数据集训练多个模型；

模型融合模块10，用于基于模拟退火算法对多个模型进行融合，获得活跃度预测模型；

活跃度预测模块12，用于获得新用户和/或历史用户中未被认定为跨境用户的剩余用户的多个维度的特征数据，基于所述活跃度预测模型，预测新用户和/或历史用户中未被认定为跨境用户的剩余用户使用跨境APP的活跃度。

图5为本发明实施例中特征数据处理模块结构框图一，如图5所示，特征数据处理模块06包括：

spark清洗单元061，用于利用spark构建数据清洗算子，所述数据清洗算子基于预设的每个特征数据的合法取值范围对所述训练数据集中所有特征数据进行清洗，将不在合法取值范围内的特征数据舍弃；

spark空置填充单元062，用于利用spark构建空置填充算子，使用均值和最大频数对所述训练数据集中空置进行填充；

woe向量化单元063，用于使用woe对所述训练数据集中的离散特征进行向量化。

图6为本发明实施例中特征数据处理模块结构框图二，如图6所示，特征数据处理模块还包括：

woe特征交叉组合衍生单元064，用于使用woe处理后的离散特征两两之间进行特征交叉组合衍生新特征，将新特征同样作为训练数据集。

在本发明实施例中，如图7所示，还包括：存储模块14，用于将所述跨境用户的训练数据集、清洗和向量化处理后的训练数据集、加入了新特征的训练数据集存入hive中。

本发明实施例中，与现有技术中跨境APP广撒网推广方法成本高效率低和跨境APP活跃客户挖掘存在one class问题的技术方案相比，本发明通过基于跨境用户认定标准对历史用户进行认定，将符合跨境用户认定标准的用户标记为跨境用户；获得跨境用户多个维度的特征数据，将所述多个维度的特征数据作为训练数据集；对所述训练数据集进行清洗和向量化处理，获得处理后的训练数据集；基于支持向量数据域描述SVDD算法和所述处理后的训练数据集训练多个模型；基于模拟退火算法对多个模型进行融合，获得活跃度预测模型；获得新用户和/或历史用户中未被认定为跨境用户的剩余用户的多个维度的特征数据，基于所述活跃度预测模型，预测新用户和/或历史用户中未被认定为跨境用户的剩余用户使用跨境APP的活跃度，从而提升活跃客户挖掘工作效率，减少对用户的打扰，提高用户体验，合理利用数据资源避免one-class问题，提高活跃度预测的准确性，开销小，减少推广人员工作量，降低成本。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于支持向量数据域描述的跨境活跃用户识别方法，其特征在于，包括：

基于跨境用户认定标准对历史用户进行认定，将符合跨境用户认定标准的历史用户标记为跨境用户；

获得新用户和/或历史用户中未被认定为跨境用户的剩余用户的多个维度的特征数据，基于所述活跃度预测模型，预测新用户和/或历史用户中未被认定为跨境用户的剩余用户使用跨境APP的活跃度；

对所述训练数据集进行清洗和向量化处理，包括：

利用spark构建数据清洗算子，所述数据清洗算子基于预设的每个特征数据的合法取值范围对所述训练数据集中所有特征数据进行清洗，将不在合法取值范围内的特征数据舍弃；

利用spark构建空置填充算子，所述空置填充算子使用均值和最大频数对所述训练数据集中空置进行填充；

使用woe对所述训练数据集中的离散特征进行向量化。

2.如权利要求1所述的基于支持向量数据域描述的跨境活跃用户识别方法，其特征在于，还包括：

对使用woe处理后的离散特征两两之间进行特征交叉组合衍生新特征，将新特征同样作为训练数据集。

3.如权利要求2所述的基于支持向量数据域描述的跨境活跃用户识别方法，其特征在于，还包括：将所述跨境用户的训练数据集、清洗和向量化处理后的训练数据集、加入了新特征的训练数据集存入hive中。

4.一种基于支持向量数据域描述的跨境活跃用户识别装置，其特征在于，包括：

活跃度预测模块，用于获得新用户和/或历史用户中未被认定为跨境用户的剩余用户的多个维度的特征数据，基于所述活跃度预测模型，预测新用户和/或历史用户中未被认定为跨境用户的剩余用户使用跨境APP的活跃度；

特征数据处理模块具体用于：

使用woe对所述训练数据集中的离散特征进行向量化。

5.如权利要求4所述的基于支持向量数据域描述的跨境活跃用户识别装置，其特征在于，特征数据处理模块还用于：

6.如权利要求5所述的基于支持向量数据域描述的跨境活跃用户识别装置，其特征在于，还包括：存储模块，用于将所述跨境用户的训练数据集、清洗和向量化处理后的训练数据集、加入了新特征的训练数据集存入hive中。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3任一所述基于支持向量数据域描述的跨境活跃用户识别方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至3任一所述基于支持向量数据域描述的跨境活跃用户识别方法的计算机程序。