CN111145006A

CN111145006A - 基于用户画像的汽车金融反欺诈模型训练方法和装置

Info

Publication number: CN111145006A
Application number: CN201911371027.0A
Authority: CN
Inventors: 乔建宁
Original assignee: Nanjing Sanbaiyun Information Technology Co Ltd
Current assignee: Nanjing Sanbaiyun Information Technology Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-12

Abstract

本发明提供了一种基于用户画像的汽车金融反欺诈模型训练方法和装置，涉及汽车金融的技术领域，包括根据汽车金融用户的历史行为数据和位置信息数据中得到用户画像标签；将用户画像标签结合场景特征，得到各种汽车金融用户与多种场景的特征概率组合；将特征概率组合与根据时间聚类的第三方业务特征结合，对机器学习模型进行训练，直至机器学习模型输出的欺诈概率与真实概率的残差符合预期，通过从关联性不大的历史行为中确定用户画像标签，并将用户画像标签与不同的金融场景进行关联迁移，能够更加准确地从较为隐晦、并不关联的用户行为中识别出汽车金融的欺诈意图。

Description

基于用户画像的汽车金融反欺诈模型训练方法和装置

技术领域

本发明涉及汽车金融技术领域，尤其是涉及一种基于用户画像的汽车金融反欺诈模型训练方法和装置。

背景技术

随着汽车金融的升级，汽车金融行业的欺诈手段日益复杂，预测用户欺诈的可能性成为当务之急。越来越多的欺诈人行为极为隐密。当前的欺诈预测手段包括直接将特征数据应用到专家规则中，或者采用机器学习算法对特征数据进行建模，忽略了不同场景数据源之间的关联性和交叉效应，以及特征权重随时间的变化，不能准确地从较为隐晦的用户行为对汽车金融欺诈情况进行预测。

发明内容

本发明的目的在于提供基于用户画像的汽车金融反欺诈模型训练方法和装置，通过从关联性不大的历史行为中确定用户画像标签，并将用户画像标签与不同的金融场景进行关联迁移，能够更加准确地从较为隐晦、并不关联的用户行为中识别出汽车金融的欺诈意图。

第一方面，实施例提供一种基于用户画像的汽车金融反欺诈模型训练方法，包括：

根据汽车金融用户的历史行为数据和位置信息数据中得到用户画像标签；

将所述用户画像标签结合场景特征，得到各种所述汽车金融用户与多种场景的特征概率组合；

将所述特征概率组合与根据时间聚类的第三方业务特征结合，对机器学习模型进行训练，直至所述机器学习模型输出的欺诈概率与真实概率的残差符合预期。

在可选的实施方式中，将所述用户画像标签结合场景特征，得到各种所述汽车金融用户与多种场景的特征概率组合的步骤，包括：

将用户画像标签结合场景特征得到特征向量；

对所述特征向量进行矩阵分解，得到各个维度的特征向量；

根据每一维度特征向量的隐变量内积提取特征概率组合，所述特征概率组合为各个汽车金融用户对应的用户画像标签及场景多项式组合欺诈的概率。

在可选的实施方式中，将所述特征概率组合与根据时间聚类的第三方业务特征结合，对机器学习模型进行训练，直至所述机器学习模型输出的欺诈概率与真实概率的残差符合预期的步骤，包括：

将所述特征概率组合与根据时间聚类的第三方业务特征结合，得到特征向量；

将所述特征向量输入机器学习模型，得到欺诈概率；

将所述欺诈概率和所述特征向量一起输入所述机器学习模型进行训练，反向调整所述机器学习模型参数，直至所述机器学习模型输出的欺诈概率与真实概率的残差符合预期。

在可选的实施方式中，将所述特征概率组合与根据时间聚类的第三方业务特征结合，得到特征向量的步骤，包括：

将所述第三方业务特征根据时间聚类输入训练模型，得到所述第三方业务特征中各个聚类特征的信息价值概率；

将所述信息价值概率与概率阈值进行比对，筛除所述信息价值概率低于概率阈值的特征变量；

将余下的特征变量和所述特征概率组合结合，进行向量化，得到特征向量。

在可选的实施方式中，所述用户画像标签包括用户角色概率标签、消费能力概率标签、车况等级概率标签和目标车热度等级概率标签。

在可选的实施方式中，根据汽车金融用户的历史行为数据和位置信息数据中得到用户画像标签的步骤，包括：

将汽车金融用户的历史行为数据和位置信息数据输入各个角色预测模型中，得到所述汽车金融用户的各个用户角色概率标签；

根据消费能力模型对汽车金融用户的历史行为数据和位置信息数据进行评估，得到所述汽车金融用户的消费能力概率标签；

根据车况预测模型对所述汽车金融用户的车辆的车况进行预测，得到所述车辆的车况等级概率标签；

根据目标车热度等级模型对汽车金融用户的历史行为数据和位置信息数据进行分析，得到所述汽车金融用户的目标车热度等级概率标签。

在可选的实施方式中，所述角色预测模型、所述消费能力模型、所述车况预测模型、所述目标车热度等级模型分别通过汽车金融用户的历史行为数据和位置信息数据作为训练样本训练得到。

第二方面，实施例提供一种基于用户画像的汽车金融反欺诈模型训练装置，包括：

获取模块，用于根据汽车金融用户的历史行为数据和位置信息数据中得到用户画像标签；

结合模块，用于将所述用户画像标签结合场景特征，得到各种所述汽车金融用户与多种场景的特征概率组合；

训练模块，用于将所述特征概率组合与根据时间聚类的第三方业务特征结合，对机器学习模型进行训练，直至所述机器学习模型输出的欺诈概率与真实概率的残差符合预期。

第三方面，实施例提供一种电子设备，包括存储器、处理器及存储在所述存储器上并且能够在所述处理器上运行的程序，所述处理器执行所述程序时实现如前述实施方式中任一项所述的基于用户画像的汽车金融反欺诈模型训练方法。

第四方面，实施例提供一种计算机可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被执行时实现前述实施方式中任意一项所述的基于用户画像的汽车金融反欺诈模型训练方法。

本发明实施例提供了一种基于用户画像的汽车金融反欺诈模型训练方法和装置，从汽车金融用户的历史行为数据和位置信息数据中得到用户画像标签，即当前用户属于哪些类别、具有哪些标签的可能性，再将用户画像标签与汽车金融场景的场景特征相结合，得到当前用户各个标签分别在各个业务场景的特征概率组合，将特征概率组合与经过聚类的各个时间点的第三方业务特征进行结合，对机器学习模型进行训练，根据输出的欺诈概率对机器学习模型进行参数调整，直至当前用户样本发生欺诈的真实概率与欺诈概率的残差达到预期，此时机器学习模型训练成功，能够对用户的汽车金融欺诈概率进行预测，通过从关联性不大的历史行为中确定用户画像标签，并将用户画像标签与不同的金融场景进行关联迁移，能够更加准确地从较为隐晦、并不关联的用户行为中识别出汽车金融的欺诈意图。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于用户画像的汽车金融反欺诈模型训练方法流程图；

图2为本发明实施例提供的一种基于用户画像的汽车金融反欺诈模型训练装置的功能模块示意图；

图3为本发明实施例提供的电子设备的硬件架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前汽车金融行业的欺诈手段日渐复杂，当前的欺诈预测方法一般是从用户历史行为来对用户的欺诈可能进行预测，但无法考虑其他应用业务场景数据源之间的关联和交叉性，进而不能对一些用户较为隐晦的、关联性不大的行为进行预测，影响欺诈预测的准确性。

基于此，本发明实施例提供的一种基于用户画像的汽车金融反欺诈模型训练方法和装置，可以通过从关联性不大的历史行为中确定用户画像标签，并将用户画像标签与不同的金融场景进行关联迁移，能够更加准确地从较为隐晦、并不关联的用户行为中识别出汽车金融的欺诈意图。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于用户画像的汽车金融反欺诈模型训练方法进行详细介绍。

图1为本发明实施例提供的一种基于用户画像的汽车金融反欺诈模型训练方法流程图。

参照图1，基于用户画像的汽车金融反欺诈模型训练方法，包括以下步骤：

步骤S102，根据汽车金融用户的历史行为数据和位置信息数据中得到用户画像标签；

步骤S104，将用户画像标签结合场景特征，得到各种汽车金融用户与多种场景的特征概率组合；

步骤S106，将特征概率组合与根据时间聚类的第三方业务特征结合，对机器学习模型进行训练，直至机器学习模型输出的欺诈概率与真实概率的残差符合预期。

在实际应用的优选实施例中，从汽车金融用户的历史行为数据和位置信息数据中得到用户画像标签，即当前用户属于哪些类别、具有哪些标签的可能性，再将用户画像标签与汽车金融场景的场景特征相结合，得到当前用户各个标签分别在各个业务场景的特征概率组合，将特征概率组合与经过聚类的各个时间点的第三方业务特征进行结合，对机器学习模型进行训练，根据输出的欺诈概率对机器学习模型进行参数调整，直至当前用户样本发生欺诈的真实概率与欺诈概率的残差达到预期，此时机器学习模型训练成功，能够对用户的汽车金融欺诈概率进行预测，通过从关联性不大的历史行为中确定用户画像标签，并将用户画像标签与不同的金融场景进行关联迁移，能够更加准确地从较为隐晦、并不关联的用户行为中识别出汽车金融的欺诈意图。

其中，用户画像标签的实质是各个用户标签的概率的集合。

在可选的实施方式中，步骤S104，包括：

步骤1.1)，将用户画像标签结合场景特征得到特征向量；

步骤1.2)，对所述特征向量进行矩阵分解，得到各个维度的隐形因子特征；

步骤1.3)，根据每一维度隐形因子特征的隐变量内积提取特征概率组合，所述特征概率组合为各个汽车金融用户对应的用户画像标签及场景多项式组合欺诈的概率。

在可选的实施方式中，所述用户画像标签包括用户角色概率标签、消费能力概率标签、车况等级概率标签、目标车热度等级概率标签、结合用户的人口属性、社会属性、场景属性等概率标签。

这里，将用户画像标签作为输入参数，作为模型的特征向量，以是否产生不良作为应变量进行矩阵分解，通过对每一维特征的隐变量内积来提取特征概率组合，特征概率组合即每个类别用户标签及其多项式组合欺诈的概率。

在可选的实施方式中，步骤S106，包括以下步骤：

步骤2.1)，将所述特征概率组合与根据时间聚类的第三方业务特征结合，得到特征向量；

步骤2.2)，将所述特征向量输入机器学习模型，得到欺诈概率；

步骤2.3)，将欺诈概率和所述特征向量一起输入机器学习模型进行训练，反向调整机器学习模型参数，直至机器学习模型输出的欺诈概率与真实概率的残差符合预期。

这里，用树模型也可以获得一些隐含特征，但是不适用于用户画像的挖掘场景。具体为，可用树模型对原特征数据加工生成新特征数据，再根据新特征回溯树模型生成新的业务规则，但此种做法忽略了第三方业务特征具有的时间序列的影响，不具有汽车金融行业的现实业务指导意义，难以应用到具体场景中。

在可选的实施方式中，步骤2.1)，包括以下步骤：

步骤2.1.1)，将所述第三方业务特征根据时间聚类输入训练模型，得到所述第三方业务特征中各个聚类特征的信息价值概率；

步骤2.1.2)，将所述信息价值概率与概率阈值进行比对，筛除所述信息价值概率低于概率阈值的特征变量；

步骤2.1.3)，将余下的特征变量和所述特征概率组合结合，进行向量化，得到特征向量。

上述实施例得到的特征概率组合结合其他第三方业务场景(多头借贷、线上行为信息、线下行为信息)中的多维度第三方业务特征数据(第三方业务特征数据包括线上借贷行为、线上消费行为、线下借贷行为等，如近6个月最高使用额度、信用卡最高授信额度等)，共同组成机器学习模型的输入变量。

通过对输入变量第三方业务特征中每个特征的信息价值(特征对不良行为的预测能力)，根据预先设定的信息价值阈值删除低于此阈值的特征变量，即删除对不良行为预测能力弱的变量，其余变量向量化后输入机器学习模型进行训练。以发生借贷申请行为作为时间节点，计算每次发生申请的欺诈概率，并将结果作为下一个模块输入变量(新的特征概率组合)。通过残差反向调节机器学习模型中每个模块输入参数的权重，最终确定反欺诈模型的整体参数。

在可选的实施方式中，步骤S102，包括以下步骤：

步骤3.1)，将汽车金融用户的历史行为数据和位置信息数据输入各个角色预测模型中，得到所述汽车金融用户的各个用户角色概率标签；

步骤3.2)，根据消费能力模型对汽车金融用户的历史行为数据和位置信息数据进行评估，得到所述汽车金融用户的消费能力概率标签；

步骤3.3)，根据车况预测模型对所述汽车金融用户的车辆的车况进行预测，得到所述车辆的车况等级概率标签；

步骤3.4)，根据目标车热度等级模型对汽车金融用户的历史行为数据和位置信息数据进行分析，得到所述汽车金融用户的目标车热度等级概率标签。

首先通过预设app软件获得种子用户(汽车金融)历史行为数据和位置信息数据。种子用户指已认证的APP存量用户，通过唯一的用户标识结合汽车金融风控系统的申请使用记录确定用户角色。用户角色包括个人买家、个人置换、二手车商等。历史行为包括各事件在一定时间段内的查询次数和查询频率。事件指的是在APP上发生的操作行为，包括车型识别对比配置、拍照查车价点拍车按钮、显示行驶里程异常提示等242个事件。

根据相似人群扩展LOOKALIKE算法，以种子用户的角色为分类标签，种子用户的历史行为和位置信息数据为建模特征，扩充用户包。具体做法是，以某一用户角色为正样本，其他用户角色为负样本，通过将正样本种子用户的历史行为数据和位置信息数据中的离散型字符变量编码处理，对连续变量进行分箱，对所有变量归一化向量化；根据所述正样本种子用户的用户角色和对应的归一化向量建立相应的角色预测模型；将负样本种子用户的历史行为数据和位置信息数据输入各个角色预测模型中，输出概率值最高的那个角色模型为种子用户的用户角色。将未定义角色标签用户的相关历史行为数据和位置信息数据输入各个模型得到相关预测概率，取最大概率角色分类定义为该用户角色标签，即输出概率值最高的那个角色模型为种子用户的用户角色。

其次，通过预设APP软件获得种子用户查询汽车品牌、查询车系、查询车型、查询价格区间等历史行为数据和常住地登录地点等位置信息数据作为自变量，以所述历史行为数据和位置信息数据为自变量，月还本金为应变量，建立线性回归模型，种子用户训练所述线性回归模型，生成消费能力模型。用消费能力模型对不存在汽车金融风控系统中的用户进行预测，根据预测结果确定消费能力五级标签。

再次，将汽车金融风控系统中已存在事故车设为正样本车，其他车作为负样本车，建立种子车训练集。从预设APP软件中获得种子车的历史被查询事件，结合其上牌时间、公里数、维保记录、估值记录、买卖记录等车辆记录建立车况预测模型。用生成的车况预测模型对其他没有标签的车辆进行车况预测，根据预测结果确定目标车车况五级标签。

此外，用预设APP软件中的某一预设时间段内目标车查询次数、某一预设地域内查询次数、预设品牌查询次数、预设车系查询次数等特征做聚类分析，获得目标车热度等级模型。用该模型对所有车辆进行热度等级预测，获得以车架号为唯一标识的目标车热度五类标签。

本发明实施例通过对用户画像标签的训练过程，将自定义的标签和其它场景特征进行矩阵分解应用到隐含身份的数据挖掘中，再结合多维度第三方数据源产生更多可用的特征变量。

进一步的，如图2所示，本发明实施例一种基于用户画像的汽车金融反欺诈模型训练装置，包括：

在可选的实施方式中，结合模块具体还用于，将用户画像标签结合场景特征得到特征向量；对所述特征向量进行矩阵分解，得到各个维度的隐形因子特征；根据每一维度隐形因子特征的隐变量内积提取特征概率组合，所述特征概率组合为各个汽车金融用户对应的用户画像标签及场景多项式组合欺诈的概率。

在可选的实施方式中，训练模块具体还用于，将所述特征概率组合与根据时间聚类的第三方业务特征结合，得到特征向量；将所述特征向量输入机器学习模型，得到欺诈概率；将所述欺诈概率和所述特征向量一起输入所述机器学习模型进行训练，反向调整所述机器学习模型参数，直至所述机器学习模型输出的欺诈概率与真实概率的残差符合预期。

在可选的实施方式中，训练模块具体还用于，将所述第三方业务特征根据时间聚类输入训练模型，得到所述第三方业务特征中各个聚类特征的信息价值概率；将所述信息价值概率与概率阈值进行比对，筛除所述信息价值概率低于概率阈值的特征变量；将余下的特征变量和所述特征概率组合结合，进行向量化，得到特征向量。

在可选的实施方式中，获取模块具体还用于，将汽车金融用户的历史行为数据和位置信息数据输入各个角色预测模型中，得到所述汽车金融用户的各个用户角色概率标签；根据消费能力模型对汽车金融用户的历史行为数据和位置信息数据进行评估，得到所述汽车金融用户的消费能力概率标签；根据车况预测模型对所述汽车金融用户的车辆的车况进行预测，得到所述车辆的车况等级概率标签；根据目标车热度等级模型对汽车金融用户的历史行为数据和位置信息数据进行分析，得到所述汽车金融用户的目标车热度等级概率标签。

进一步地，如图3所示，是本发明实施例提供的用于实现所述基于用户画像的汽车金融反欺诈模型训练方法的电子设备300的示意图。本实施例中，所述电子设备300可以是，但不限于，个人电脑(Personal Computer，PC)、笔记本电脑、监控设备、服务器等具备分析及处理能力的计算机设备。作为一种可选的实施例，电子设备300可为服务器、PC端、智能终端等。

图3为本发明实施例提供的电子设备300的硬件架构示意图。参见图3所示，该计算机设备包括：机器可读存储介质301和处理器302，还可以包括非易失性存储介质303、通信接口304和总线305；其中，机器可读存储介质301、处理器302、非易失性存储介质303和通信接口304通过总线305完成相互间的通信。处理器302通过读取并执行机器可读存储介质301中基于用户画像的汽车金融反欺诈模型训练方法的机器可执行指令，可执行上文实施例描述基于用户画像的汽车金融反欺诈模型训练方法。

本文中提到的机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

非易失性介质可以是非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等)，或者类似的非易失性存储介质，或者它们的组合。

可以理解的是，本实施例中的各功能模块的具体操作方法可参照上述方法实施例中相应步骤的详细描述，在此不再重复赘述。

本发明实施例所提供计算机可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序代码被执行时可实现上述任一实施例所述的基于用户画像的汽车金融反欺诈模型训练方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于用户画像的汽车金融反欺诈模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将所述用户画像标签结合场景特征，得到各种所述汽车金融用户与多种场景的特征概率组合的步骤，包括：

将用户画像标签结合场景特征得到特征向量；

对所述特征向量进行矩阵分解，得到各个维度的隐形因子特征；

根据每一维度隐形因子特征的隐变量内积提取特征概率组合，所述特征概率组合为各个汽车金融用户对应的用户画像标签及场景多项式组合欺诈的概率。

3.根据权利要求1所述的方法，其特征在于，将所述特征概率组合与根据时间聚类的第三方业务特征结合，对机器学习模型进行训练，直至所述机器学习模型输出的欺诈概率与真实概率的残差符合预期的步骤，包括：

将所述特征向量输入机器学习模型，得到欺诈概率；

4.根据权利要求3所述的方法，其特征在于，将所述特征概率组合与根据时间聚类的第三方业务特征结合，得到特征向量的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，所述用户画像标签包括用户角色概率标签、消费能力概率标签、车况等级概率标签和目标车热度等级概率标签。

6.根据权利要求5所述的方法，其特征在于，根据汽车金融用户的历史行为数据和位置信息数据中得到用户画像标签的步骤，包括：

7.根据权利要求6所述的方法，其特征在于，所述角色预测模型、所述消费能力模型、所述车况预测模型、所述目标车热度等级模型分别通过汽车金融用户的历史行为数据和位置信息数据作为训练样本训练得到。

8.一种基于用户画像的汽车金融反欺诈模型训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并且能够在所述处理器上运行的程序，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的基于用户画像的汽车金融反欺诈模型训练方法。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被执行时实现权利要求1-7中任意一项所述的基于用户画像的汽车金融反欺诈模型训练方法。