CN112508118A

CN112508118A - 针对数据偏移的目标对象行为预测方法及其相关设备

Info

Publication number: CN112508118A
Application number: CN202011487422.8A
Authority: CN
Inventors: 张巧丽; 林荣吉
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-16
Anticipated expiration: 2040-12-16
Also published as: WO2022126961A1; CN112508118B

Abstract

本申请属于人工智能领域，涉及针对数据偏移的目标对象行为预测方法及其相关设备，所述方法包括:获取特征变量并进行预处理和特征筛选，生成第一特征变量集合和第二特征变量集合；对第一特征变量集合进行权重赋值，根据第二特征变量集合得到第三特征变量集合并进行权重赋值；根据第一特征变量集合和对应的权重进行模型训练输出训练结果，根据第一特征变量集合、第三特征变量集和对应的权重进行模型训练得到训练结果；当两个训练结果的比较结果满足预设条件时，输出第二训练模型进行行为预测。本申请还涉及区块链技术，前述行为预测结果可存储于区块链中。本申请方案可在提升模型预测精度的同时降低模型风险。

Description

针对数据偏移的目标对象行为预测方法及其相关设备

技术领域

本申请涉及人工智能技术领域，具体涉及一种针对数据偏移的目标对象行为预测方法、装置、计算机设备及存储介质。

背景技术

在目标对象的训练集和预测集存在较长时间间隔的模型预测场景中，目标对象的特征变量的分布和预测能力会随时间产生一定波动，此类不稳定的特征变量使得模型预测不确定性增加，导致预测风险加大。目前为了降低模型预测风险，利用特征选择的方式剔除不稳定的特征变量，或者对特征变量进行信息平滑化处理，然而这些不稳定的特征变量中仍存在有利于模型预测的信息，现有的解决方案在降低模型风险的过程中损失了信息的多样性，导致模型的预测精度降低。

发明内容

本申请实施例的目的在于提出一种针对数据偏移的目标对象行为预测方法、装置、计算机设备及存储介质，以解决现有技术中在降低模型风险的过程中损失了信息的多样性，导致模型的预测精度降低的问题。

为了解决上述技术问题，本申请实施例提供一种针对数据偏移的目标对象行为预测方法，采用了如下所述的技术方案：

一种针对数据偏移的目标对象行为预测方法，包括下述步骤：

获取与目标对象的行为相关的历史数据，从所述历史数据中提取多个维度的特征变量，并对所述特征变量进行预处理；

对预处理后的所述特征变量进行特征筛选，生成第一特征变量集合和第二特征变量集合，其中所述第一特征变量集合中各特征变量跨时间的预测稳定性均高于所述第二特征变量集合中各特征变量跨时间的预测稳定性；

对所述第二特征变量集合进行二次筛选得到第三特征变量集合，对所述第三特征变量集合和所述第一特征变量集合中的特征变量采用不同的赋值方式分别进行权重赋值；

根据所述第一特征变量集合和对应的权重对预设的LightGBM树模型进行训练，得到第一训练模型并输出第一训练结果，根据所述第一特征变量集合、所述第三特征变量集和对应的权重对预设的LightGBM树模型进行训练，得到第二训练模型并输出第二训练结果；

当所述第二训练结果与所述第一训练结果的比较结果满足预设条件时，输出所述第二训练模型，基于所述第一特征变量集合、所述第三特征变量集和所述第二训练模型对目标对象的行为进行预测。

为了解决上述技术问题，本申请实施例还提供一种针对数据偏移的目标对象行为预测装置，采用了如下所述的技术方案：

一种针对数据偏移的目标对象行为预测装置，包括：

特征获取模块，用于获取与目标对象的行为相关的历史数据，从所述历史数据中提取多个维度的特征变量，并对所述特征变量进行预处理；

特征集合生成模块，用于对预处理后的所述特征变量进行特征筛选，生成第一特征变量集合和第二特征变量集合，其中所述第一特征变量集合中各特征变量跨时间的预测稳定性均高于所述第二特征变量集合中各特征变量跨时间的预测稳定性；

赋值模块，用于对所述第二特征变量集合进行二次筛选得到第三特征变量集合，对所述第三特征变量集合和所述第一特征变量集合中的特征变量采用不同的赋值方式分别进行权重赋值；

训练模块，用于根据所述第一特征变量集合和对应的权重对预设的LightGBM树模型进行训练，得到第一训练模型并输出第一训练结果，根据所述第一特征变量集合、所述第三特征变量集和对应的权重对预设的LightGBM树模型进行训练，得到第二训练模型并输出第二训练结果；

预测模块，用于当所述第二训练结果与所述第一训练结果的比较结果满足预设条件时，输出所述第二训练模型，基于所述第一特征变量集合、所述第三特征变量集和所述第二训练模型对目标对象的行为进行预测。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的针对数据偏移的目标对象行为预测方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的针对数据偏移的目标对象行为预测方法的步骤。

与现有技术相比，本申请实施例提供的针对数据偏移的目标对象行为预测方法、装置、计算机设备及存储介质主要有以下有益效果：

通过对因跨时间发生数据偏移的特征变量基于预测稳定性的不同进行划分和权重赋值，再将特征变量及其权重赋值输入LightGBM树模型进行训练，得到的模型可将预测能力强、但因跨时间发生数据偏移的特征变量入模，解决特征变量的不稳定问题，由于保留了发生数据偏移的特征变量，从而保证了特征变量集的丰富度，在提升模型预测精度的同时降低模型风险。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，下面描述中的附图对应于本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的针对数据偏移的目标对象行为预测方法的一个实施例的流程图；

图3是根据本申请的针对数据偏移的目标对象行为预测装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的针对数据偏移的目标对象行为预测方法一般由服务器执行，相应地，针对数据偏移的目标对象行为预测装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本申请的针对数据偏移的目标对象行为预测方法的一个实施例的流程图。所述的针对数据偏移的目标对象行为预测方法包括以下步骤：

S201，获取与目标对象的行为相关的历史数据，从所述历史数据中提取多个维度的特征变量，并对所述特征变量进行预处理；

S202，对预处理后的所述特征变量进行特征筛选，生成第一特征变量集合和第二特征变量集合，其中所述第一特征变量集合中各特征变量跨时间的预测稳定性均高于所述第二特征变量集合中各特征变量跨时间的预测稳定性；

S203，对所述第二特征变量集合进行二次筛选得到第三特征变量集合，对所述第三特征变量集合和所述第一特征变量集合中的特征变量采用不同的赋值方式分别进行权重赋值；

S204，根据所述第一特征变量集合和对应的权重对预设的LightGBM树模型进行训练，得到第一训练模型并输出第一训练结果，根据所述第一特征变量集合、所述第三特征变量集和对应的权重对预设的LightGBM树模型进行训练，得到第二训练模型并输出第二训练结果；

S205，当所述第二训练结果与所述第一训练结果的比较结果满足预设条件时，输出所述第二训练模型，基于所述第一特征变量集合、所述第三特征变量集和所述第二训练模型对目标对象的行为进行预测。

下面对上述步骤进行展开说明。

对于步骤S201，在本实施例中目标对象为存在预测需求的对象，具体指存在行为预测的对象，比如在保险代理人招聘场景中的保险代理人的行为预测，在获取与目标对象的行为相关的多个维度的特征变量时，具体从与目标对象的行为相关的历史数据中提取目标对象的属性信息和与目标对象相关的关联信息，比如在保险代理人招聘场景中，本方案中的行为预测可为对保险代理人招聘场景中保险代理人在某个时间段(比如3个月)后留存行为的预测，即保险代理人是否会出现离职行为，预测保险代理人的留存时，保险代理人即为目标对象，属性信息包括保险代理人基本信息，如性别、年龄、基本收入等，与目标对象相关的关联信息包括包括代理人招聘岗前班表现(如考勤、小测验成绩、活动参与度等)、保险代理人平台活跃情况、历史购买保单信息等信息，基于这些信息可提取与目标对象的行为相关的多个维度的特征变量，得到用于预测保险代理人留存行为的原始特征变量集，在具体实施例中，在通过本步骤的数据预处理以及后续步骤S202至步骤S203的特征变量的筛选后，在通过步骤S204进行模型训练时，所述第一特征变量集合、所述第三特征变量集合的训练样本集所述第二训练模型进行训练，每个训练样本均为标记样本，部分训练样本的目标变量为“留存”，而另一部分训练样本的目标变量为“离职”，由此可以训练得到所述第二训练模型，再将所述第一特征变量集合、所述第三特征变量集合并后包含的特征变量对应的预测样本集(包含多个目标对象的数据)输入所述第二训练模型，输出目标对象在某个时间段后的行为为“留存”或者“离职”的概率值，将概率值较大的预测结果作为目标对象可能出现的行为，由此完成目标对象的行为预测。进一步地，对所述特征变量进行预处理进行预处理包括：对所述特征变量的样本数据依次进行数据清洗、数据变量分箱和数值化编码操作。具体的，在得到特征变量后，通过分析特征变量的数据的分布特征，包括但不限于数据饱和度、是否存在异常值、最大值、最小值、均值、分布类型等，之后根据分布特征进行数据清洗，处理获取的数据中的脏数据、缺失值、异常值等，比如处理缺失值时，可删除缺失率超过预设的阈值(阈值根据情况自行设定，可取50％、70％、90％等)的特征变量，从入模特征中剔除。完成数据清洗后，将各特征变量的多个样本值进行分箱和编码，其中，对于连续型变量，按照等频划分的方式将多个样本值进行分箱操作，得到若干分箱，再计算每个分箱的WOE值，以WOE值对特征变量的各个分箱进行编码，编码过程中连续型变量的缺失值可以某极大值代替，对于离散型变量则每个样本值为一个分箱，且缺失值样本自成一箱，对分箱进行数值化编码时可以对应分箱的目标命中率进行编码。

对于步骤S202，在本实施例中，具体基于IV(IV全称为information value，信息价值或信息量，用于评估特征变量对模型的贡献度)、PSI(PSI全称为Population StabilityIndex，群体稳定性指数，用于评估评估特征变量稳定性)值对原始获得的特征变量进行特征变量的筛选和分群，筛选出预测能力强、跨时间分布稳定且跨时间预测能力稳定的第一特征变量集合，并筛选出预测能力强、跨时间分布稳定但预测能力不稳定的第二特征变量集合，即第一特征变量集合中各特征变量跨时间的预测稳定性均高于第二特征变量集合中各特征变量跨时间的预测稳定性。

在一些实施例中，所述对预处理后的所述特征变量进行特征筛选，生成第一特征变量集合和第二特征变量集合包括：将所述特征变量在多个时间段的样本数据作为训练样本集，并获取所述特征变量在目标时间段的样本数据作为预测样本集，基于所述训练样本集和所述预测样本集计算所述特征变量的IV值和PSI值，从所述原始特征变量集中筛选出所述IV值和所述PSI值满足第一阈值组的特征变量，生成第一特征变量集，并从所述原始特征变量集剩余的特征变量中筛选出所述IV值和所述PSI值满足第二阈值组的特征变量，生成第二特征变量集。

具体的，所述多个时间段是指多个历史的时间段，比如过去的六个月，每个月为一个时间段，则对应六个历史的时间段，所述目标时间段则指待预测的时间段，所述IV值包括整体IV值、逐月IV值和/或逐月IV变异系数值，所述PSI值包括逐月PSI值和预测训练PSI值，整体IV指6个月的整个样本的IV值，逐月IV即每个月样本的IV值，逐月IV值可评估特征的单月预测能力，且通过逐月IV变异系数值可判断各特征变量的预测能力的稳定性，区别于逐月IV值，整体IV可评估特征的整体预测能力，逐月PSI值即计算每个月样本集合相对其上月分布的PSI值，预测训练PSI值即计算预测样本集合相对训练样本集分布的PSI值。

在本实施例中，所述第一阈值组包括第一整体IV阈值、第一逐月IV均值阈值、第一逐月IV变异系数阈值、第一逐月PSI均值阈值和第一预测训练PSI阈值，所述第二阈值组包括第二整体IV阈值、第二逐月IV均值阈值、第二逐月PSI均值阈值和第二预测训练PSI阈值，在本实施例中第一阈值组和第二阈值组中的部分阈值可以相同，比如第一阈值组为(0.1，0.1，1，0.25，0.25)，第二阈值组为(0.5，0.5，0.25，0.25)。

下面以智慧代理人招聘场景为例说明特征变量的筛选过程：

首先，选取6个月入司人群为训练样本集，1个月入司人群为预测样本集；计算各特征的整体IV值(记为IV_ALL)、逐月IV值(分别记为IV₁、IV₂、IV₃、IV₄、IV₅、IV₆)、逐月PSI(分别记为PSI₂₁、PSI₃₂、PSI₄₃、PSI₅₄、PSI₆₅)、预测训练PSI(记为PSI_te-tr)。

其次，筛选得到第一特征变量集合S1的过程为，选择原始特征变量集中同时满足整体IV值、逐月IV均值大于等于极限值a(对应第一整体IV阈值和第一逐月IV均值阈值)，逐月IV变异系数值小于等于极限值b(对应第一逐月IV变异系数阈值)，逐月PSI均值、预测-训练PSI小于等于极限值c(对应第一逐月PSI均值阈值和第一预测训练PSI阈值)的特征变量；公式表达如下：

最后，筛选得到第二特征变量集合S2的过程为，从S1在原始特征变量集的补集中筛选出同时满足整体IV值、逐月IV均值大于等于极限值d(对应第二整体IV阈值、第二逐月IV均值阈值)，逐月PSI均值、预测训练PSI小于等于极限值c(对应第二逐月PSI均值阈值和第二预测训练PSI阈值)的特征变量；公式表达如下：

对于步骤S203，在本实施例中，本步骤的权重为注意力学习初始权重，对第二特征变量集合进行二次筛选在本实施例中的目的是剔除因时间跨度导致的不具有预测性的特征变量。

在一些实施例中，所述对所述第二特征变量集合进行二次筛选得到第三特征变量集合包括：基于多个拟合函数对所述第二特征变量集合中的各特征变量的逐月IV进行曲线拟合，对每个特征变量生成多条预测能力波动曲线；依次将每个特征变量作为当前特征变量，对所述当前特征变量的多条预测能力波动曲线的拟合均方根误差进行对比，判断最小的拟合均方根误差与当前特征变量的逐月IV均值的比值是否大于预设阈值，若大于则进一步判断所述当前特征变量的各逐月IV值是否单调，并在不单调时将所述当前特征变量剔除。通过基于最小的拟合均方根误差与逐月IV均值的比值是否大于预设阈值以及逐月IV值是否单调的判断可以剔除不具有预测性的特征变量，提高模型预测的稳定性，降低预测风险，同时选取拟合均方根误差最小的拟合曲线可以保证预测具有更高的精度。

进一步地，所述对所述第三特征变量集合和所述第一特征变量集合中的特征变量采用不同的赋值方式分别进行权重赋值包括：

对所述第一特征变量集合中的特征变量赋予预设的固定权重；对所述第三特征变量集合中所述比值不大于所述预设阈值的特征变量，根据所述最小的拟合均方根误差对应的预测能力波动曲线，求取其在所述目标时间段的IV值，基于得到的IV值和所述整体IV值进行权重赋值；对第三特征变量集合中所述比值大于所述预设阈值、且对应的所述逐月IV值单调的特征变量，根据其距所述目标时间段最近的两个时间段的IV值求取其在所述目标时间段的IV值，基于得到的IV值和所述整体IV值进行权重赋值。

其中，本实施例中预设的固定权重为1，预设阈值可取0.2，基于得到IV值和整体IV值进行权重赋值具体为将得到IV值和整体IV值的比值乘以权重系数，权重系数的取值范围为0至1，初始取值为1。

下面以智慧代理人招聘场景为例说明特征变量的二次筛选及权重赋值的过程：

以第二特征变量集S2中某一特征变量X₁为例，对特征变量X₁的逐月IV做曲线拟合，拟合曲线类型可包含y＝a*x+b、y＝a*ln(x)+b、y＝a*x²+b、y＝a*sin(x)+b等，由此可得到相应数量的拟合曲线，即预测能力波动曲线，选取拟合均方根误差(RMSE)最小的拟合曲线，当均方根误差与逐月IV均值的比值小于等于极限值e(即预设阈值)时，基于已选择的拟合曲线计算预测月份(即目标时间段)的IV值，记为IV_te；若各拟合曲线中不存在均方根误差与逐月IV均值的比值小于等于极限值e的曲线，则判断逐月IV的绝对单调性，即IV₁≤IV₂≤IV₃≤IV₄≤IV₅≤IV₆或者IV₁≥IV₂≥IV₃≥IV₄≥IV₅≥IV₆，若逐月IV满足绝对单调性，则取预测月份IV值IV_te等于IV₅和IV₆的均值，否则将特征变量X₁从第二特征变量集合S2中剔除。

对第二特征变量集S2中的每一个特征变量重复上述过程，由第二特征变量集S2筛选得到一个新的特征变量集S3，即第三特征变量集，且集合中每一个特征变量对应一个预测月份IV值IV_te，且第三特征变量集S3中每一个特征变量的学习权重为

其中γ为权重系数(0≤γ≤1)，初始默认值为1。

对于步骤S204和步骤S205，在本实施例中，所述方法还包括：

当所述第二训练结果与所述第一训练结果的比较结果不满足预设条件时，调整所述第三特征变量集合中的特征变量对应的权重系数，基于所述权重系数得到所述第三特征变量集合中的特征变量的新的权重，再基于新的权重进行模型训练，之后进行所述第一训练结果和所述第二训练结果的比较，直到所述比较结果满足所述预设条件。通过调整权重，实现基于特征加权学习的树模型注意力学习机制，得到的模型可将预测能力强、但因跨时间发生数据偏移的特征变量入模。

具体的，模型训练基于筛选后的特征变量和对应的权重输入给LightGBM树模型进行，首先，基于第一特征变量集S1及相应的权重训练LightGBM树模型得到第一训练模型M0，输出的第一训练结果为预测集精度值，即AUC值，记为AUC0；然后，基于第一特征变量集S1和第三特征变量集S3及相应的权重训练LightGBM树模型，得到第二训练模型M1，输出的第二训练预测集精度值，即AUC值，记为AUC1。

比较AUC1和AUC0，若AUC1大于或等于AUC0,则输出模型M1，基于模型M1对目标对象进行预测；若AUC1小于AUC0，则需要调整权重系数γ，结合上述式子

具体通过将权重系数γ调小后重复步骤204和205，直到AUC1大于或等于AUC0。

本申请提供的针对数据偏移的目标对象行为预测方法，通过对因跨时间发生数据偏移的特征变量基于预测稳定性的不同进行划分和权重赋值，再将特征变量及其权重赋值输入LightGBM树模型进行训练，由于训练过程采用基于特征加权学习的树模型注意力学习机制，得到的模型可将预测能力强、但因跨时间发生数据偏移的特征变量入模，解决特征变量的不稳定问题，由于保留了发生数据偏移的特征变量，从而保证了特征变量集的丰富度，在提升模型预测精度的同时降低模型风险。

为进一步保证信息的私密和安全性，在所述基于所述第一特征变量集合、所述第三特征变量集和所述第二训练模型对目标对象的行为进行预测的步骤之后，行为预测结果还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种针对数据偏移的目标对象行为预测装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的针对数据偏移的目标对象行为预测装置包括：特征获取模块301、特征集合生成模块302、赋值模块303、训练模块304以及预测模块305。其中，特征获取模块301用于获取与目标对象的行为相关的历史数据，从所述历史数据中提取多个维度的特征变量，并对所述特征变量进行预处理；特征集合生成模块302用于对预处理后的所述特征变量进行特征筛选，生成第一特征变量集合和第二特征变量集合，其中所述第一特征变量集合中各特征变量跨时间的预测稳定性均高于所述第二特征变量集合中各特征变量跨时间的预测稳定性；赋值模块303用于对所述第二特征变量集合进行二次筛选得到第三特征变量集合，对所述第三特征变量集合和所述第一特征变量集合中的特征变量采用不同的赋值方式分别进行权重赋值；训练模块304用于根据所述第一特征变量集合和对应的权重对预设的LightGBM树模型进行训练，得到第一训练模型并输出第一训练结果，根据所述第一特征变量集合、所述第三特征变量集和对应的权重对预设的LightGBM树模型进行训练，得到第二训练模型并输出第二训练结果；预测模块305用于当所述第二训练结果与所述第一训练结果的比较结果满足预设条件时，输出所述第二训练模型，基于所述第一特征变量集合、所述第三特征变量集和所述第二训练模型对目标对象的行为进行预测。

在本实施例中特征获取模块301对所述特征变量进行预处理进行预处理时具体用于对所述特征变量的样本数据依次进行数据清洗、数据变量分箱和数值化编码操作。其中，特征获取模块301得到原始特征变量集的过程及进行预处理的过程可参考上述方法实施例，在此不作展开。

进一步地，特征集合生成模块302基于IV值、PSI值对原始获得的特征变量进行特征变量的筛选和分群，其对预处理后的所述特征变量进行特征筛选，生成第一特征变量集合和第二特征变量集合时，具体用于：将所述特征变量在多个时间段的样本数据作为训练样本集，并获取所述特征变量在目标时间段的样本数据作为预测样本集，基于所述训练样本集和所述预测样本集计算所述特征变量的IV值和PSI值，从所述原始特征变量集中筛选出所述IV值和所述PSI值满足第一阈值组的特征变量，生成第一特征变量集，并从所述原始特征变量集剩余的特征变量中筛选出所述IV值和所述PSI值满足第二阈值组的特征变量，生成第二特征变量集。具体可参考上述方法实施例，在此不作展开。

在本实施例中，所述赋值模块303赋予的权重为注意力学习初始权重，对第二特征变量集合进行二次筛选在本实施例中的目的是剔除因时间跨度导致的不具有预测性的特征变量。其中，所述赋值模块303对所述第二特征变量集合进行二次筛选得到第三特征变量集合时，具体用于：基于多个拟合函数对所述第二特征变量集合中的各特征变量的逐月IV进行曲线拟合，对每个特征变量生成多条预测能力波动曲线；依次将每个特征变量作为当前特征变量，对所述当前特征变量的多条预测能力波动曲线的拟合均方根误差进行对比，判断最小的拟合均方根误差与当前特征变量的逐月IV均值的比值是否大于预设阈值，若大于则进一步判断所述当前特征变量的各逐月IV值是否单调，并在不单调时将所述当前特征变量剔除。通过基于最小的拟合均方根误差与逐月IV均值的比值是否大于预设阈值以及逐月IV值是否单调的判断可以剔除不具有预测性的特征变量，提高模型预测的稳定性，降低预测风险，同时选取拟合均方根误差最小的拟合曲线可以保证预测具有更高的精度。

进一步地，所述赋值模块303对所述第三特征变量集合和所述第一特征变量集合中的特征变量采用不同的赋值方式分别进行权重赋值时，具体用于：对所述第一特征变量集合中的特征变量赋予预设的固定权重；对所述第三特征变量集合中所述比值不大于所述预设阈值的特征变量，根据所述最小的拟合均方根误差对应的预测能力波动曲线，求取其在所述目标时间段的IV值，基于得到的IV值和所述整体IV值进行权重赋值；对第三特征变量集合中所述比值大于所述预设阈值、且对应的所述逐月IV值单调的特征变量，根据其距所述目标时间段最近的两个时间段的IV值求取其在所述目标时间段的IV值，基于得到的IV值和所述整体IV值进行权重赋值。

上述各模块的执行过程以智慧代理人招聘场景为例的说明具体可参考上述方法实施例，在此不作展开。

进一步地，在本实施例中，当预测模块305判定所述第二训练结果与所述第一训练结果的比较结果不满足预设条件时，将使训练模块304调整所述第三特征变量集合中的特征变量对应的权重系数，基于所述权重系数得到所述第三特征变量集合中的特征变量的新的权重，再基于新的权重进行模型训练，之后预测模块305进行所述第一训练结果和所述第二训练结果的比较，直到所述比较结果满足所述预设条件。具体可参考上述方法实施例，在此不作展开，通过调整权重，实现基于特征加权学习的树模型注意力学习机制，得到的模型可将预测能力强、但因跨时间发生数据偏移的特征变量入模。

本申请提供的针对数据偏移的目标对象行为预测装置，通过对因跨时间发生数据偏移的特征变量基于预测稳定性的不同进行划分和权重赋值，再将特征变量及其权重赋值输入LightGBM树模型进行训练，由于训练过程采用基于特征加权学习的树模型注意力学习机制，得到的模型可将预测能力强、但因跨时间发生数据偏移的特征变量入模，解决特征变量的不稳定问题，由于保留了发生数据偏移的特征变量，从而保证了特征变量集的丰富度，在提升模型预测精度的同时降低模型风险。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43，所述存储器41中存储有计算机可读指令，所述处理器42执行所述计算机可读指令时实现上述方法实施例中所述的针对数据偏移的目标对象行为预测方法的步骤，并具有与上述针对数据偏移的目标对象行为预测方法相对应的有益效果，在此不作展开。

需要指出的是，图中仅示出了具有存储器41、处理器42、网络接口43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

在本实施例中，所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如对应于上述针对数据偏移的目标对象行为预测方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行对应于所述针对数据偏移的目标对象行为预测方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的针对数据偏移的目标对象行为预测方法的步骤，并具有与上述针对数据偏移的目标对象行为预测方法相对应的有益效果，在此不作展开。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术实施例本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术实施例进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种针对数据偏移的目标对象行为预测方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的针对数据偏移的目标对象行为预测方法，其特征在于，所述方法还包括：

当所述第二训练结果与所述第一训练结果的比较结果不满足预设条件时，调整所述第三特征变量集合中的特征变量对应的权重系数，基于所述权重系数得到所述第三特征变量集合中的特征变量的新的权重，再基于新的权重进行模型训练，之后进行所述第一训练结果和所述第二训练结果的比较，直到所述比较结果满足所述预设条件。

3.根据权利要求2所述的针对数据偏移的目标对象行为预测方法，其特征在于，所述对预处理后的所述特征变量进行特征筛选，生成第一特征变量集合和第二特征变量集合包括：

将所述特征变量在多个时间段的样本数据作为训练样本集，并获取所述特征变量在目标时间段的样本数据作为预测样本集，基于所述训练样本集和所述预测样本集计算所述特征变量的IV值和PSI值，从所述原始特征变量集中筛选出所述IV值和所述PSI值满足第一阈值组的特征变量，生成第一特征变量集，并从所述原始特征变量集剩余的特征变量中筛选出所述IV值和所述PSI值满足第二阈值组的特征变量，生成第二特征变量集。

4.根据权利要求2或3所述的针对数据偏移的目标对象行为预测方法，其特征在于，所述IV值包括逐月IV值和逐月IV均值，所述对所述第二特征变量集合进行二次筛选得到第三特征变量集合包括：

基于多个拟合函数对所述第二特征变量集合中的各特征变量的逐月IV进行曲线拟合，对每个特征变量生成多条预测能力波动曲线；

依次将每个特征变量作为当前特征变量，对所述当前特征变量的多条预测能力波动曲线的拟合均方根误差进行对比，判断最小的拟合均方根误差与当前特征变量的逐月IV均值的比值是否大于预设阈值，若大于则进一步判断所述当前特征变量的各逐月IV值是否单调，并在不单调时将所述当前特征变量剔除。

5.根据权利要求4所述的针对数据偏移的目标对象行为预测方法，其特征在于，所述IV值还包括整体IV值，所述对所述第三特征变量集合和所述第一特征变量集合中的特征变量采用不同的赋值方式分别进行权重赋值包括：

对所述第一特征变量集合中的特征变量赋予预设的固定权重；

对所述第三特征变量集合中所述比值不大于所述预设阈值的特征变量，根据所述最小的拟合均方根误差对应的预测能力波动曲线，求取其在所述目标时间段的IV值，基于得到的IV值和所述整体IV值进行权重赋值；

对第三特征变量集合中所述比值大于所述预设阈值、且对应的所述逐月IV值单调的特征变量，根据其距所述目标时间段最近的两个时间段的IV值求取其在所述目标时间段的IV值，基于得到的IV值和所述整体IV值进行权重赋值。

6.根据权利要求1至3任一项所述的针对数据偏移的目标对象行为预测方法，其特征在于，对所述特征变量进行预处理进行预处理包括：对所述特征变量的样本数据依次进行数据清洗、数据变量分箱和数值化编码操作。

7.根据权利要求1至3任一项所述的针对数据偏移的目标对象行为预测方法，其特征在于，在所述基于所述第一特征变量集合、所述第三特征变量集和所述第二训练模型对目标对象的行为进行预测的步骤之后还包括：将行为预测结果存储至区块链中。

8.一种针对数据偏移的目标对象行为预测装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的针对数据偏移的目标对象行为预测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的针对数据偏移的目标对象行为预测方法的步骤。