CN112116168B

CN112116168B - 一种用户行为的预测方法、装置及电子设备

Info

Publication number: CN112116168B
Application number: CN202011046731.1A
Authority: CN
Inventors: 李敬文; 高进; 方科
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2023-08-04
Anticipated expiration: 2040-09-29
Also published as: CN112116168A

Abstract

本申请公开了一种用户行为的预测方法、装置及电子设备，方法包括：获得目标用户的用户数据，所述用户数据与ETC项目相关；对所述用户数据进行特征提取，以得到所述目标用户对应的特征数据；将所述特征数据分别输入到多个预先训练的分类模型中，以得到每个所述分类模型各自输出的分类预测结果；每个所述分类模型为基于k邻近算法构建的模型，每个所述分类模型的邻近参数K不同；将每个所述分类模型输出的分类预测结果作为新特征添加到所述特征数据中；将所述特征数据输入到预先训练的机器学习模型中，以得到所述机器学习模型输出的行为预测结果，所述行为预测结果表征所述目标用户是否办理所述ETC项目。

Description

一种用户行为的预测方法、装置及电子设备

技术领域

本申请涉及智能交通技术领域，尤其涉及一种用户行为的预测方法、装置及电子设备。

背景技术

虽然已在大力推广电子不停车收费系统ETC(Electronic Toll Collection)，但在实际的ETC营销中还是有一定的阻碍，无差别的营销会降低客户对服务的感观。而人工辨认客户是否办理ETC存在准确性较差的技术问题。

因此，亟需一种能够准确挖掘出潜在的办理用户的技术方案。

发明内容

有鉴于此，本申请提供一种用户行为的预测方法、装置及电子设备，如下：

一种用户行为的预测方法，包括：

获得目标用户的用户数据，所述用户数据与ETC项目相关；

对所述用户数据进行特征提取，以得到所述目标用户对应的特征数据；

将所述特征数据分别输入到多个预先训练的分类模型中，以得到每个所述分类模型各自输出的分类预测结果；

其中，每个所述分类模型为基于k邻近算法构建的模型，每个所述分类模型的邻近参数K不同，且所述分类模型基于多个具有项目标签的第一训练样本进行训练得到，所述第一训练样本包含对第一样本用户的样本数据进行特征提取所得到的样本特征，所述第一训练样本的项目标签表征所述第一样本用户是否办理所述ETC项目；K为大于或等于1的正整数；

将每个所述分类模型输出的分类预测结果作为新特征添加到所述特征数据中；

将所述特征数据输入到预先训练的机器学习模型中，以得到所述机器学习模型输出的行为预测结果，所述行为预测结果表征所述目标用户是否办理所述ETC项目；

其中，所述机器学习模型基于机器学习算法构建，且所述机器学习模型基于多个具有项目标签的第二训练样本进行训练得到，所述第二训练样本包含对第二样本用户的样本数据进行特征提取所得到的样本特征和每个所述分类模型对所述第二样本用户对应的样本特征进行处理所得到的分类预测结果，所述第二训练样本的项目标签表征所述第二样本用户是否办理所述ETC项目。

上述方法，优选的，在对所述用户数据进行特征提取之前，所述方法还包括：

对所述用户数据进行预处理；

其中，所述预处理至少包含以下任一项或任意多项：

对所述用户数据中数据为空的数据项进行填充；

对所述用户数据中数值型的数据项进行归一化处理。

上述方法，优选的，在将所述特征数据分别输入到多个预先训练的分类模型中之前，所述方法还包括：

对所述特征数据进行特征处理；

其中，所述特征处理至少包含以下任意一项或任意多项：

对所述特征数据中满足特征转换规则的特征项进行转换，以使得所述特征数据中的特征项能够被所述分类模型和所述机器学习模型识别；

对所述特征数据中满足特征筛选规则的特征项进行删除，以使得所述特征数据中剩余的特征项与所述ETC项目的关联程度高于关联阈值；

对所述特征数据进行特征衍生处理，以得到所述特征数据对应的衍生特征，所述衍生特征被添加到所述特征数据中。

上述方法，优选的，所述分类模型通过以下方式训练得到：

在样本集合中抽取出多个第一样本用户的样本数据；

分别对所述第一样本用户的样本数据进行特征提取，以得到所述第一样本用户对应的样本特征，所述第一样本用户对应的样本特征和所述第一样本用户对应的项目标签组成第一训练样本；

以所述第一训练样本的样本特征为输入样本，以所述第一训练样本的项目标签为输出样本，分别对每个所述分类模型进行训练。

上述方法，优选的，所述机器学习模型通过以下方式训练得到：

在所述样本集合中抽取出多个第二样本用户的样本数据；

分别对所述第二样本用户的样本数据进行特征提取，以得到每个所述第二样本用户对应的样本特征，所述第二样本用户对应的样本特征和所述第二样本用户对应的项目标签组成第二训练样本；

将所述第二训练样本分别输入到每个所述分类模型中，以得到每个所述分类模型各自输出的分类预测结果，所述第二训练样本对应的分类预测结果作为新的样本特征被添加到所述第二训练样本中；

以所述第二训练样本的样本特征为输入样本，以所述第二训练样本的项目标签为输出样本，对所述机器学习模型进行训练。

上述方法，优选的，在分别对所述第一样本用户的样本数据进行特征提取之前，所述方法还包括：

对所述第一样本用户的样本数据进行预处理；

其中，所述预处理至少包含以下任一项或任意多项：

删除目标项的数量超过数量阈值的样本数据，所述目标项为所述样本数据中数据为空的数据项；

对所述样本数据中数据值为空的数据项进行填充；

对所述样本数据中数值型的数据项进行归一化处理。

上述方法，优选的，在以所述第一训练样本的样本特征为输入样本，以所述第一训练样本的项目标签为输出样本，分别对每个所述分类模型进行训练之前，所述方法还包括：

对所述第一训练样本的样本特征进行特征处理；

其中，所述特征处理至少包含以下任意一项或任意多项：

对所述样本特征中满足特征转换规则的特征项进行转换，以使得所述样本特征中的特征项能够被所述分类模型和所述机器学习模型识别；

对所述样本特征中满足特征筛选规则的特征项进行删除，以使得所述样本特征中的特征项与所述ETC项目的关联程度高于阈值；

对所述样本特征进行特征衍生处理，以得到所述样本特征对应的衍生特征，所述衍生特征被添加到所述第一训练样本中。

一种用户行为的预测装置，包括：

数据获得单元，用于获得目标用户的用户数据，所述用户数据与ETC项目相关；

特征提取单元，用于对所述用户数据进行特征提取，以得到所述目标用户对应的特征数据；

分类预测单元，用于将所述特征数据分别输入到多个预先训练的分类模型中，以得到每个所述分类模型各自输出的分类预测结果；

特征添加单元，用于将每个所述分类模型输出的分类预测结果作为新特征添加到所述特征数据中；

行为预测单元，用于将所述特征数据输入到预先训练的机器学习模型中，以得到所述机器学习模型输出的行为预测结果，所述行为预测结果表征所述目标用户是否办理所述ETC项目；

上述装置，优选的，还包括：

分类训练单元，用于训练每个所述分类模型；

其中，所述分类训练单元具体用于：在样本集合中抽取出多个第一样本用户的样本数据；分别对所述第一样本用户的样本数据进行特征提取，以得到所述第一样本用户对应的样本特征，所述第一样本用户对应的样本特征和所述第一样本用户对应的项目标签组成第一训练样本；以所述第一训练样本的样本特征为输入样本，以所述第一训练样本的项目标签为输出样本，分别对每个所述分类模型进行训练；

学习训练单元，用于训练所述机器学习模型；

其中，所述学习训练单元具体用于：在所述样本集合中抽取出多个第二样本用户的样本数据；分别对所述第二样本用户的样本数据进行特征提取，以得到每个所述第二样本用户对应的样本特征，所述第二样本用户对应的样本特征和所述第二样本用户对应的项目标签组成第二训练样本；将所述第二训练样本分别输入到每个所述分类模型中，以得到每个所述分类模型各自输出的分类预测结果，所述第二训练样本对应的分类预测结果作为新的样本特征被添加到所述第二训练样本中；以所述第二训练样本的样本特征为输入样本，以所述第二训练样本的项目标签为输出样本，对所述机器学习模型进行训练。

一种电子设备，包括：

存储器，用于存储应用程序和所述应用程序运行所产生的数据；

处理器，用于执行所述应用程序，以实现：获得目标用户的用户数据，所述用户数据与ETC项目相关；对所述用户数据进行特征提取，以得到所述目标用户对应的特征数据；将所述特征数据分别输入到多个预先训练的分类模型中，以得到每个所述分类模型各自输出的分类预测结果；其中，每个所述分类模型为基于k邻近算法构建的模型，每个所述分类模型的邻近参数K不同，且所述分类模型基于多个具有项目标签的第一训练样本进行训练得到，所述第一训练样本包含对第一样本用户的样本数据进行特征提取所得到的样本特征，所述第一训练样本的项目标签表征所述第一样本用户是否办理所述ETC项目；K为大于或等于1的正整数；将每个所述分类模型输出的分类预测结果作为新特征添加到所述特征数据中；将所述特征数据输入到预先训练的机器学习模型中，以得到所述机器学习模型输出的行为预测结果，所述行为预测结果表征所述目标用户是否办理所述ETC项目；其中，所述机器学习模型基于机器学习算法构建，且所述机器学习模型基于多个具有项目标签的第二训练样本进行训练得到，所述第二训练样本包含对第二样本用户的样本数据进行特征提取所得到的样本特征和每个所述分类模型对所述第二样本用户对应的样本特征进行处理所得到的分类预测结果，所述第二训练样本的项目标签表征所述第二样本用户是否办理所述ETC项目。

由上述方案可知，本申请提供的一种用户行为的预测方法、装置及电子设备中，在对ETC项目相关的用户数据进行特征提取之后，先将特征数据利用多个具有不同邻近参数的分类模型获得多个分类预测结果，再将这些分类预测结果作为新特征添加到特征数据中，进而将添加新特征的特征数据利用机器学习模型进行行为预测，以得到表征目标用户是否办理ETC项目的行为预测结果。可见，本申请中不再依赖与人工辨认用户是否会办理ETC项目，而且本申请中先使用不同的分类模型为用户的特征数据添加新特征，这样再经过机械学习模型处理后能够得到更为准确的行为预测结果，可见，本申请中结合分类模型和机器学习模型能够提高对用户是否会办理ETC项目的行为预测的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一提供的一种用户行为的预测方法的流程图；

图2及图3分别为本申请实施例一提供的一种用户行为的预测方法的部分流程图；

图4为本申请实施例二提供的一种用户行为的预测装置的结构示意图；

图5为本申请实施例二提供的一种用户行为的预测装置的另一结构示意图；

图6为本申请实施例三提供的一种电子设备的结构示意图；

图7为本申请适用于银行服务器进行行为预测的示例图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参考图1，为本申请实施例一提供的一种用户行为的预测方法的实现流程图，该方法可以适用于能够进行数据处理的电子设备中，如计算机或服务器等设备。本实施例中的技术方案主要用于提高对用户是否会办理ETC项目的行为进行预测的准确性。

具体的，本实施例中的方法可以包括以下步骤：

步骤101：获得目标用户的用户数据。

其中，用户数据与ETC项目相关。具体的，用户数据可以包含有用户存款数据、用户居住地、用户性别、用户年龄、用户信誉或服务级别、用户的车辆指数等数据内容。

具体实现中，可以通过对数据库中存储的数据进行查找，以查找到目标用户的用户数据并进行读取。

这里的目标用户可以是指待预测的用户，如准备推荐ETC项目的用户。

步骤102：对用户数据进行特征提取，以得到目标用户对应的特征数据。

其中，本实施例中可以通过特征提取算法对用户数据进行特征提取，以得到用户数据对应的特征数据。例如，提取出目标用户的存款特征、居住地特征、性别特征、年龄特征、级别特征及车辆特征等特征数据。

需要说明的是，本实施例中在对用户数据进行特征提取之前，首先对用户数据进行预处理，而预处理的实现方式可以包含如下任意一项或任意多项：

对用户数据中数据为空的数据项进行填充，例如，对于非数值型的数据项，如果其数据为空则填充-1，而对于数值型的数据项，如果其数据为空则填充为0；

对用户数据中数值型的数据项进行归一化处理，例如，将数值型的数据项归一化到0和1之间的数值。

另外，本实施例中在提取到用户数据对应的特征数据之后，还可以对特征数据进行特征处理，而特征处理的方式可以包含如下任意一项或任意多项：

对特征数据中满足特征转换规则的特征项进行转换，以使得特征数据中的特征项能够被分类模型和机器学习模型识别；这里的特征转换规则与分类模型和机器学习模型的输入特征的类型相关，具体可以按照分类模型和机器学习模型的输入特征的特征类型获得到特征转换规则，基于此，可以对特征数据中的特征项进行特征转换，例如，对于年龄特征，对年龄特征进行分段作为新的年龄特征，以所处年龄段表征，再如，对于时间特征，在时间特征中提取出具体的年月日之后与固定时间做差以生成时间差作为转换后的时间特征，等等；

对特征数据中满足特征筛选规则的特征项进行删除，以使得特征数据中剩余的特征项与ETC项目的关联程序高于关联阈值；这里的特征筛选规则可以根据需求预先配置，该特征筛选规则能够表征与ETC项目关联程度低于关联阈值的特征项，基于此，本实施例中将特征数据中与ETC项目关联程度较低如低于关联阈值的特征项进行删除，只保留与ETC项目相关联或者说是关联程度高于关联阈值的特征项，以此来提高后续行为预测的准确性；

对特征数据进行特征衍生处理，以得到特征数据对应的衍生特征，而该衍生特征被添加到特征数据中；例如，本实施例中可以根据特征数据对应的用户数据的数据分布状态，对特征数据进行新特征构造，进而构造出相关的统计类型的衍生特征，例如，对居住地、开户地等特征进行统计得到计数或频率等统计类特征，再将这些衍生特征添加到特征数据中，从而丰富特征数据的内容，以此来提高后续行为预测的准确性。

步骤103：将特征数据分别输入到多个预先训练的分类模型中，以得到每个分类模型各自输出的分类预测结果。

其中，每个分类模型均为基于k邻近算法KNN(k-Nearest Neighbor)构建的模型，例如，在k邻近算法中可以使用闵式距离作为度量指标，但是每个分类模型的邻近参数K不同，K为大于或等于1的正整数，以5个分类模型为例，这5个分类模型的邻近参数K分别为1、3、5、7、9，由此，即使将相同的特征数据输入到这5个分类模型中，这5个分类模型的输出可能是不同的。

而且，本实施例中的分类模型基于多个具有项目标签的第一训练样本进行训练得到，第一训练样本包含对第一样本用户的样本数据进行特征提取所得到的样本特征，且第一训练样本的项目标签表征第一样本用户是否办理所述ETC项目。

具体实现中，第一样本用户的样本数据可以在样本集合中抽取，而样本集合中的样本数据则是采集到的已经办理或者确定不办理ETC项目的样本用户的历史数据，基于此，本实施例中利用这些抽取到的第一样本用户的样本数据经过特征提取之后，利用所得到的样本特征对分类模型进行训练，得到训练完成的分类模型，而训练完成的分类模型能够对目标用户的用户数据经过特征提取所得到的特征数据进行处理，进而得到表征目标用户是否会办理ETC项目的分类预测结果。

步骤104：将每个分类模型输出的分类预测结果作为新特征添加到特征数据中。

基于此，本实施例中的特征数据中除了包含有对目标用户的用户数据进行特征提取所得到的特征数据，还包含每个分类模型分别对该特征数据进行处理所得到的分类预测结果的特征数据。

例如，每个分类模型输出的分类预测结果可以以0或1表示，以0表示目标用户不会办理ETC项目，以1表示目标用户会办理ETC项目，由此，在本实施例中经过新特征添加的特征数据中除了包含目标用户的用户存款特征、年龄特征等之外，还包含一组以0或1表示的分类预测结果。

步骤105：将特征数据输入到预先训练的机器学习模型中，以得到机器学习模型输出的行为预测结果。

其中，行为预测结果表征目标用户是否办理所述ETC项目，例如，以0表示目标用户不会办理ETC项目，以1表示目标用户会办理ETC项目。

其中，机器学习模型基于机器学习算法构建，例如，基于梯度提升算法LightGBM(Light Gradient Boosting Machine)构建的模型，且机器学习模型基于多个具有项目标签的第二训练样本进行训练得到，第二训练样本包含对第二样本用户的样本数据进行特征提取所得到的样本特征和每个分类模型对第二样本用户对应的样本特征进行处理所得到的分类预测结果，第二训练样本的项目标签表征第二样本用户是否办理所述ETC项目。

具体实现中，第二样本用户的样本数据可以在样本集合中抽取，第二样本用户的样本数据与第一样本用户的样本数据不同，或者说，第二样本用户与第一样本用户不重叠，基于此，本实施例中对这些第二样本用户的样本数据进行特征提取，得到相应的样本特征，还分别使用每个分类模型对第二样本用户对应的这些样本特征进行处理，再将每个分类模型所输出的针对第二样本用户的分类预测结果作为新特征添加到第二样本用户的样本数据经过特征提取所到的样本特征中，进而，利用这些样本特征对机器学习模型进行训练，得到训练完成的机器学习模型，而训练完成的机器学习模型能够对目标用户的用户数据经过特征提取所得到的特征数据以及利用分类模型针对这些特征数据输出的分类预测结果进行处理，进而得到表征目标用户是否会办理ETC项目的行为预测结果。

由上述方案可知，本申请实施例一提供的一种用户行为的预测方法中，在对ETC项目相关的用户数据进行特征提取之后，先将特征数据利用多个具有不同邻近参数的分类模型获得多个分类预测结果，再将这些分类预测结果作为新特征添加到特征数据中，进而将添加新特征的特征数据利用机器学习模型进行行为预测，以得到表征目标用户是否办理ETC项目的行为预测结果。可见，本实施例中不再依赖与人工辨认用户是否会办理ETC项目，而且本实施例中先使用不同的分类模型为用户的特征数据添加新特征，这样再经过机械学习模型处理后能够得到更为准确的行为预测结果，可见，本申请中结合分类模型和机器学习模型能够提高对用户是否会办理ETC项目的行为预测的准确性。

在一种实现方式中，以上分类模型可以通过以下方式训练得到，如图2中所示：

步骤201：在样本集合中抽取出多个第一样本用户的样本数据。

其中，样本数据与ETC项目相关。具体的，样本数据可以包含有用户存款数据、用户居住地、用户性别、用户年龄、用户信誉或服务级别、用户的车辆指数等样本内容。

具体实现中，可以通过对数据库中存储的数据进行查找，以查找到多个第一样本用户的样本数据并进行读取。

这里的第一样本用户可以是指已经确定办理ETC项目或者已经确定不办理ETC项目的用户，如已经推荐过ETC项目的历史用户。

步骤202：分别对第一样本用户的样本数据进行特征提取，以得到第一样本用户对应的样本特征。

其中，第一样本用户对应的样本特征和第一样本用户对应的项目标签组成第一训练样本。第一样本用户对应的项目标签即为表征第一样本用户是否办理ETC项目的标签，具体可以用0或1表示，例如，以0表示第一样本用户不会办理ETC项目，以1表示第一样本用户会办理ETC项目。

其中，本实施例中可以通过特征提取算法对第一样本用户的样本数据进行特征提取，以得到样本数据对应的样本特征。例如，提取出第一样本用户的存款特征、居住地特征、性别特征、年龄特征、级别特征及车辆特征等样本特征。

需要说明的是，本实施例中在分别对第一样本用户的样本数据进行特征提取之前，首先对第一样本用户的样本数据进行预处理，而预处理的实现方式可以包含如下任意一项或任意多项：

删除目标项的数量超过数量阈值的样本数据，所述目标项为所述样本数据中数据为空的数据项，也就是说，本实施例中首先对样本数据中的数据项进行空值检测，在检测出样本数据中数据为空的数据项，即目标项，并对数据空的数据项进行统计，如果目标项的数量超过预设的数量阈值，那么此时的样本数据如果用于模型训练，可能会使得训练出的分类模型准确性较低，因此，将目标项的数量超过数量阈值的样本数据进行删除，即不使用该第一样本用户的样本数据参与分类模型的训练；

对样本数据中数据值为空的数据项进行填充，例如，对于非数值型的数据项，如果其数据为空则填充-1，而对于数值型的数据项，如果其数据为空则填充为0；

对样本数据中数值型的数据项进行归一化处理，例如，将数值型的数据项归一化到0和1之间的数值。

另外，本实施例中在提取到样本数据对应的样本特征进而得到第一训练样本之后，还可以对第一训练样本的样本特征进行特征处理，而特征处理的方式可以包含如下任意一项或任意多项：

对样本特征中满足特征转换规则的特征项进行转换，以使得样本特征中的特征项能够被分类模型和机器学习模型识别；这里的特征转换规则与分类模型和机器学习模型的输入特征的类型相关，具体可以按照分类模型和机器学习模型的输入特征的特征类型获得到特征转换规则，基于此，可以对样本特征中的特征项进行特征转换，例如，对于年龄特征，对年龄特征进行分段作为新的年龄特征，以所处年龄段表征，再如，对于时间特征，在时间特征中提取出具体的年月日之后与固定时间做差以生成时间差作为转换后的时间特征，等等；

对样本特征中满足特征筛选规则的特征项进行删除，以使得样本特征中的特征项与ETC项目的关联程度高于阈值；这里的特征筛选规则可以根据需求预先配置，该特征筛选规则能够表征与ETC项目关联程度低于关联阈值的特征项，基于此，本实施例中将样本特征中与ETC项目关联程度较低如低于关联阈值的特征项进行删除，只保留与ETC项目相关联或者说是关联程度高于关联阈值的特征项，以此来提高后续模型训练的准确性以及后续使用模型进行行为预测的准确性；

对样本特征进行特征衍生处理，以得到样本特征对应的衍生特征，而该衍生特征被添加到第一训练样本中；例如，本实施例中可以根据第一训练样本中的样本特征对应的第一样本用户的数据分布状态，对样本特征进行新特征构造，进而构造出相关的统计类型的衍生特征，例如，对居住地、开户地等特征进行统计得到计数或频率等统计类特征，再将这些衍生特征添加到样本特征中，从而丰富样本特征的内容，以此来提高后续模型训练的准确性以及后续使用模型进行行为预测的准确性。

步骤203：以第一训练样本的样本特征为输入样本，以第一训练样本的项目标签为输出样本，分别对每个所述分类模型进行训练。

具体的，本实施例中在获得到多个具有项目标签的第一训练样本之后，将这些第一训练样本输入到待训练的每个分类模型中，以使得每个分类模型能够在获得到目标用户对应的特征数据之后，能够将特征数据与每个第一训练样本中的样本特征进行距离计算，例如，可以使用闵式距离获得目标用户对应的特征数据与每个第一训练样本的样本特征之间的距离，并获得到距离最近的K个第一训练样本，进而根据这K个第一训练样本的项目标签获得到针对目标用户的分类预测结果。

基于以上实现，上述机器学习模型可以通过以下方式训练得到，如图3中所示：

步骤301：在样本集合中抽取出多个第二样本用户的样本数据。

具体实现中，可以通过对数据库中存储的数据进行查找，以查找到多个第二样本用户的样本数据并进行读取。

这里的第二样本用户可以是指已经确定办理ETC项目或者已经确定不办理ETC项目的用户，如已经推荐过ETC项目的历史用户，第二样本用户与第一样本用户不重叠。

步骤302：分别对第二样本用户的样本数据进行特征提取，以得到每个第二样本用户对应的样本特征。

其中，第二样本用户对应的样本特征和第二样本用户对应的项目标签组成第二训练样本。第二样本用户对应的项目标签即为表征第二样本用户是否办理ETC项目的标签，具体可以用0或1表示，例如，以0表示第二样本用户不会办理ETC项目，以1表示第二样本用户会办理ETC项目。

其中，本实施例中可以通过特征提取算法对第二样本用户的样本数据进行特征提取，以得到样本数据对应的样本特征。例如，提取出第二样本用户的存款特征、居住地特征、性别特征、年龄特征、级别特征及车辆特征等样本特征。

需要说明的是，本实施例中在分别对第二样本用户的样本数据进行特征提取之前，首先对第二样本用户的样本数据进行预处理，而预处理的实现方式可以包含如下任意一项或任意多项：

删除目标项的数量超过数量阈值的样本数据，所述目标项为所述样本数据中数据为空的数据项，也就是说，本实施例中首先对样本数据中的数据项进行空值检测，在检测出样本数据中数据为空的数据项，即目标项，并对数据空的数据项进行统计，如果目标项的数量超过预设的数量阈值，那么此时的样本数据如果用于模型训练，可能会使得训练出的分类模型准确性较低，因此，将目标项的数量超过数量阈值的样本数据进行删除，即不使用该第二样本用户的样本数据参与机器学习模型的训练；

另外，本实施例中在提取到样本数据对应的样本特征进而得到第二训练样本之后，还可以对第二训练样本的样本特征进行特征处理，而特征处理的方式可以包含如下任意一项或任意多项：

对样本特征进行特征衍生处理，以得到样本特征对应的衍生特征，而该衍生特征被添加到第二训练样本中；例如，本实施例中可以根据第二训练样本中的样本特征对应的第二样本用户的数据分布状态，对样本特征进行新特征构造，进而构造出相关的统计类型的衍生特征，例如，对居住地、开户地等特征进行统计得到计数或频率等统计类特征，再将这些衍生特征添加到样本特征中，从而丰富样本特征的内容，以此来提高后续模型训练的准确性以及后续使用模型进行行为预测的准确性。

步骤303：将第二训练样本分别输入到每个分类模型中，以得到每个分类模型各自输出的分类预测结果。

其中，第二训练样本对应的分类预测结果作为新的样本特征被添加到第二训练样本中。

需要说明的是，这里的分类模型为经过第一训练样本训练完成的模型。

步骤304：以第二训练样本的样本特征为输入样本，以第二训练样本的项目标签为输出样本，对机器学习模型进行训练。

具体的，本实施例中在获得到多个具有项目标签的第二训练样本之后，依次将多个第二训练样本中的样本特征分别输入到待训练的机器学习模型中，并根据机器学习模型针对每个第二训练样本中的样本特征输出的行为预测结果和相应的项目标签对机器学习模型的模型参数进行修改，具体可以通过构建损失函数对模型参数的修改进行指导，直到损失函数收敛，机器学习模型训练完成。具体训练过程参考如下：

将第一个第二训练样本中的样本特征输入到分类模型，并获得到机器学习模型的第一个行为预测结果，其中，机器学习模型中在获得行为预测结果时，将该行为预测结果与第一个第二训练样本的项目标签进行对比，并根据行为预测结果与第一个第二训练样本的项目标签获得机器学习模型的损失函数值，进而根据该损失函数值对机器学习模型的模型参数进行修改；

之后，再将下一个第二训练样本输入到机器学习模型中，并获得机器学习模型的第二个行为预测结果，将该行为预测结果与当前的第二训练样本对应的项目标签进行对比，并根据行为预测结果与第二个特征样本对应的项目标签获得机器学习模型的损失函数值，进而根据该损失函数值对机器学习模型的模型参数进行修改，以使得损失函数值能够降低；

以此类推，直到损失函数值降低到不再变化，即趋于稳定，此时机器学习模型训练完成。

参考图4，为本申请实施例二提供的一种用户行为的预测装置的结构示意图，该装置可以配置在能够进行数据处理的电子设备中，如计算机或服务器等设备。本实施例中的技术方案主要用于提高对用户是否会办理ETC项目的行为进行预测的准确性。

具体的，本实施例中的装置可以包括以下结构：

数据获得单元401，用于获得目标用户的用户数据，所述用户数据与ETC项目相关；

特征提取单元402，用于对所述用户数据进行特征提取，以得到所述目标用户对应的特征数据；

分类预测单元403，用于将所述特征数据分别输入到多个预先训练的分类模型中，以得到每个所述分类模型各自输出的分类预测结果；

特征添加单元404，用于将每个所述分类模型输出的分类预测结果作为新特征添加到所述特征数据中；

行为预测单元405，用于将所述特征数据输入到预先训练的机器学习模型中，以得到所述机器学习模型输出的行为预测结果，所述行为预测结果表征所述目标用户是否办理所述ETC项目；

由上述方案可知，本申请实施例二提供的一种用户行为的预测装置中，在对ETC项目相关的用户数据进行特征提取之后，先将特征数据利用多个具有不同邻近参数的分类模型获得多个分类预测结果，再将这些分类预测结果作为新特征添加到特征数据中，进而将添加新特征的特征数据利用机器学习模型进行行为预测，以得到表征目标用户是否办理ETC项目的行为预测结果。可见，本实施例中不再依赖与人工辨认用户是否会办理ETC项目，而且本实施例中先使用不同的分类模型为用户的特征数据添加新特征，这样再经过机械学习模型处理后能够得到更为准确的行为预测结果，可见，本申请中结合分类模型和机器学习模型能够提高对用户是否会办理ETC项目的行为预测的准确性。

在一种实现方式中，数据获得单元401还用于：在特征提取单元402对所述用户数据进行特征提取之前，对所述用户数据进行预处理；

其中，所述预处理至少包含以下任一项或任意多项：

对所述用户数据中数据为空的数据项进行填充；

对所述用户数据中数值型的数据项进行归一化处理。

在一种实现方式中，特征提取单元402还用于：在分类预测单元403将所述特征数据分别输入到多个预先训练的分类模型中之前，对所述特征数据进行特征处理；

其中，所述特征处理至少包含以下任意一项或任意多项：

在一种实现方式中，本实施例中的装置还可以包括以下结构，如图5中所示：

分类训练单元406:，用于训练每个所述分类模型；

其中，所述分类训练单元406具体用于：在样本集合中抽取出多个第一样本用户的样本数据；分别对所述第一样本用户的样本数据进行特征提取，以得到所述第一样本用户对应的样本特征，所述第一样本用户对应的样本特征和所述第一样本用户对应的项目标签组成第一训练样本；以所述第一训练样本的样本特征为输入样本，以所述第一训练样本的项目标签为输出样本，分别对每个所述分类模型进行训练；

学习训练单元407，用于训练所述机器学习模型；

其中，所述学习训练单元407具体用于：在所述样本集合中抽取出多个第二样本用户的样本数据；分别对所述第二样本用户的样本数据进行特征提取，以得到每个所述第二样本用户对应的样本特征，所述第二样本用户对应的样本特征和所述第二样本用户对应的项目标签组成第二训练样本；将所述第二训练样本分别输入到每个所述分类模型中，以得到每个所述分类模型各自输出的分类预测结果，所述第二训练样本对应的分类预测结果作为新的样本特征被添加到所述第二训练样本中；以所述第二训练样本的样本特征为输入样本，以所述第二训练样本的项目标签为输出样本，对所述机器学习模型进行训练。

在一种实现方式中，分类训练单元406在分别对所述第一样本用户的样本数据进行特征提取之前，还用于对所述第一样本用户的样本数据进行预处理；如：删除目标项的数量超过数量阈值的样本数据，所述目标项为所述样本数据中数据为空的数据项；对所述样本数据中数据值为空的数据项进行填充；对所述样本数据中数值型的数据项进行归一化处理。

在一种实现方式中，分类训练单元406在以所述第一训练样本的样本特征为输入样本，以所述第一训练样本的项目标签为输出样本，分别对每个所述分类模型进行训练之前，还用于：对所述第一训练样本的样本特征进行特征处理；如：对所述样本特征中满足特征转换规则的特征项进行转换，以使得所述样本特征中的特征项能够被所述分类模型和所述机器学习模型识别；对所述样本特征中满足特征筛选规则的特征项进行删除，以使得所述样本特征中的特征项与所述ETC项目的关联程度高于阈值；对所述样本特征进行特征衍生处理，以得到所述样本特征对应的衍生特征，所述衍生特征被添加到所述第一训练样本中。

需要说明的是，本实施例中各单元的具体实现可以参考前文中的相应内容，此处不再详述。

参考图6，为本申请实施例三提供的一种电子设备的结构示意图，该电子设备可以适为能够进行数据处理的电子设备，如计算机或服务器等设备。本实施例中的技术方案主要用于提高对用户是否会办理ETC项目的行为进行预测的准确性。

具体的，本实施例中的电子设备可以包括以下结构：

存储器601，用于存储应用程序和应用程序运行所产生的数据；

处理器602，用于执行应用程序，以实现：获得目标用户的用户数据，所述用户数据与ETC项目相关；对所述用户数据进行特征提取，以得到所述目标用户对应的特征数据；将所述特征数据分别输入到多个预先训练的分类模型中，以得到每个所述分类模型各自输出的分类预测结果；其中，每个所述分类模型为基于k邻近算法构建的模型，每个所述分类模型的邻近参数K不同，且所述分类模型基于多个具有项目标签的第一训练样本进行训练得到，所述第一训练样本包含对第一样本用户的样本数据进行特征提取所得到的样本特征，所述第一训练样本的项目标签表征所述第一样本用户是否办理所述ETC项目；K为大于或等于1的正整数；将每个所述分类模型输出的分类预测结果作为新特征添加到所述特征数据中；将所述特征数据输入到预先训练的机器学习模型中，以得到所述机器学习模型输出的行为预测结果，所述行为预测结果表征所述目标用户是否办理所述ETC项目；其中，所述机器学习模型基于机器学习算法构建，且所述机器学习模型基于多个具有项目标签的第二训练样本进行训练得到，所述第二训练样本包含对第二样本用户的样本数据进行特征提取所得到的样本特征和每个所述分类模型对所述第二样本用户对应的样本特征进行处理所得到的分类预测结果，所述第二训练样本的项目标签表征所述第二样本用户是否办理所述ETC项目。

由上述方案可知，本申请实施例三提供的一种电子设备中，在对ETC项目相关的用户数据进行特征提取之后，先将特征数据利用多个具有不同邻近参数的分类模型获得多个分类预测结果，再将这些分类预测结果作为新特征添加到特征数据中，进而将添加新特征的特征数据利用机器学习模型进行行为预测，以得到表征目标用户是否办理ETC项目的行为预测结果。可见，本实施例中不再依赖与人工辨认用户是否会办理ETC项目，而且本实施例中先使用不同的分类模型为用户的特征数据添加新特征，这样再经过机械学习模型处理后能够得到更为准确的行为预测结果，可见，本申请中结合分类模型和机器学习模型能够提高对用户是否会办理ETC项目的行为预测的准确性。

需要说明的是，本实施例中处理器的具体实现可以参考前文中的相应内容，此处不再详述。

基于以上实现方案，以银行服务器对用户是否办理ETC进行预测的场景为例，对本申请的技术方案进行举例说明：

首先，目前在传统的ETC推荐方案中，工作人员的策略在于广撒网，使用短信、电话等渠道，向未办理的用户推荐ETC项目，因此，会面临人力成本高，营销成功率低，容易引起客户厌烦情绪等缺点。而如果先人工辨认可能会办理ETC项目的用户，则可能存在辨认准确率较低的情况。

因此，为解决以上问题，具体实现中，本申请的技术方案在功能上可以划分为以下几个模块，结合图7中所示的流程，以下对本申请的技术方案进行详细说明：

数据采集模块：采集用户的相关数据，如存款、居住地、性别、年龄、客户级别、车辆指数等数据；

数据预处理模块：对已采集的数据做预处理，包括缺失值处理和异常值处理等；例如，针对数据中的空值，剔除空值较多的用户数据，而其余空值以-1填充，但是针对需要归一化的数据，将空值填充为0；对数值型数据进行归一化处理；

特征工程模块：包含特征转换、特征筛选和特征筛选等处理，其中：特征转换可以为：对年龄按频分段、对时间提取出具体的年月日并与固定时间生成时间差等处理；特征筛选为：利用特征重要性分析，删除部分重要性较低的特征即与ETC项目关联较低的特征，除此之外删除空值较多的特征；特征衍生是指：新增某些特征(如居住地、开户地)的计数频率等统计类特征。

模型构建模块，利用上述处理后的特征数据，分别训练5个KNN模型，皆使用闵氏距离作为度量指标，但是5个模型分别以1、3、5、7、9作为邻近参数K。其中，5个KNN模型对于划分出来的训练集(第一训练样本)和测试集(第二训练样本)的分类预测结果作为新的特征。

模型融合模块：利用特征工程模块和模型构建模型融合得到的特征数据，使用LightGBM模型训练，得到融合特征后所训练出来的机器学习模型。

例如，在历史数据中抽取出7月到11月的历史数据作为训练集，并进行特征提取，训练5个KNN模型，使用12月的历史数据对5个KNN模型进行测试，得到12月份历史数据对应的新特征，基于此，使用12月的历史数据和新特征对LightGBM模型进行训练，得到最终模型。

模型预测模块：加载最终模型，输入新用户数据后，便可输出该用户是否会办理ETC的行为预测结果。

可见，本申请中通过机器学习训练得到的模型，可以帮助业务人员准确的区分出办理概率高的客户，进而优先对这些用户进行营销，可以极大地提高营销成功率，降低营销成本。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用户行为的预测方法，其特征在于，包括：

获得目标用户的用户数据，所述用户数据与ETC项目相关；

2.根据权利要求1所述的方法，其特征在于，在对所述用户数据进行特征提取之前，所述方法还包括：

对所述用户数据进行预处理；

其中，所述预处理至少包含以下任一项或任意多项：

对所述用户数据中数据为空的数据项进行填充；

对所述用户数据中数值型的数据项进行归一化处理。

3.根据权利要求1所述的方法，其特征在于，在将所述特征数据分别输入到多个预先训练的分类模型中之前，所述方法还包括：

对所述特征数据进行特征处理；

其中，所述特征处理至少包含以下任意一项或任意多项：

4.根据权利要求1所述的方法，其特征在于，所述分类模型通过以下方式训练得到：

在样本集合中抽取出多个第一样本用户的样本数据；

5.根据权利要求4所述的方法，其特征在于，所述机器学习模型通过以下方式训练得到：

在所述样本集合中抽取出多个第二样本用户的样本数据；

6.根据权利要求4或5所述的方法，其特征在于，在分别对所述第一样本用户的样本数据进行特征提取之前，所述方法还包括：

对所述第一样本用户的样本数据进行预处理；

其中，所述预处理至少包含以下任一项或任意多项：

对所述样本数据中数据值为空的数据项进行填充；

对所述样本数据中数值型的数据项进行归一化处理。

7.根据权利要求4或5所述的方法，其特征在于，在以所述第一训练样本的样本特征为输入样本，以所述第一训练样本的项目标签为输出样本，分别对每个所述分类模型进行训练之前，所述方法还包括：

对所述第一训练样本的样本特征进行特征处理；

其中，所述特征处理至少包含以下任意一项或任意多项：

8.一种用户行为的预测装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，还包括：

分类训练单元，用于训练每个所述分类模型；

学习训练单元，用于训练所述机器学习模型；

10.一种电子设备，其特征在于，包括：