CN113609193A

CN113609193A - 训练用于预测客户交易行为的预测模型的方法及装置

Info

Publication number: CN113609193A
Application number: CN202110921813.4A
Authority: CN
Inventors: 赵燕子; 陈永录; 宋军超
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-11-05

Abstract

本公开提供了一种训练用于预测客户交易行为的预测模型的方法及装置，本公开涉及人工智能技术领域，可用于金融技术领域。该方法包括：根据客户样本数据集确定多个预选特征类型，其中客户样本数据集包括客户基本信息数据、以及客户针对目标产品的电话咨询信息数据；从多个预选特征类型中确定多个目标特征类型，其中目标特征类型为对客户购买行为结果的贡献度大于预设贡献度阈值、且每两个目标特征类型之间的相关性小于预设相关性阈值的数据类型；从客户样本数据集中筛选出与目标特征类型相关的数据，以生成目标训练集；以及采用目标训练集训练预设算法，以生成预测模型。

Description

训练用于预测客户交易行为的预测模型的方法及装置

技术领域

本公开涉及人工智能技术领域，更具体地，涉及一种训练用于预测客户交易行为的预测模型的方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

数据挖掘能够从大量的客户历史数据中挖掘出他们所需要的信息。

在实现本公开构思的过程中，发明人发现相关技术中至少存在如下问题：大多数的金融专业人士在实际分析、挖掘这些客户历史数据时都存在不同的缺陷；如金融从业人员在分析公司金融产品的推广度时，仅考虑该产品在某一地区的市场占有率，并没有分析该地区的经济发展状况、人们的收入状况，以及购买产品的客户的个人基本特征的不同；同时，在做这些数据分析和挖掘工作的并不是数据挖掘专业人员，而主要是靠一些理财专业人员的主观判断。即使一些金融机构引进了数据挖掘系统，也只是做一些简单的数据分析工作，并没有对客户历史数据进行深度的挖掘，从而难以实现精准营销。

发明内容

有鉴于此，本公开提供了一种训练用于预测客户交易行为的预测模型的方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

本公开的一个方面提供了一种训练用于预测客户交易行为的预测模型的方法，包括：

根据客户样本数据集确定多个预选特征类型，其中客户样本数据集包括客户基本信息数据、以及客户针对目标产品的电话咨询信息数据；

从多个预选特征类型中确定多个目标特征类型，其中目标特征类型为对客户购买行为结果的贡献度大于预设贡献度阈值、且每两个目标特征类型之间的相关性小于预设相关性阈值的数据类型；

从客户样本数据集中筛选出与目标特征类型相关的数据，以生成目标训练集；以及

采用目标训练集训练预设算法，以生成预测模型。

根据本公开的实施例，其中，从多个预选特征类型中确定多个目标特征类型包括：

从多个预选特征类型中去除无区分度特征类型，以获得多个目标预选特征类型，其中无区分度特征类型为对客户购买行为结果无贡献的数据类型；

从多个目标预选特征类型中确定多个目标特征类型。

根据本公开的实施例，其中，从多个目标预选特征类型中确定多个目标特征类型包括：

从多个目标预选特征类型中确定多个初选目标特征类型，其中初选目标特征类型为对客户购买行为结果的贡献度大于预设阈值的数据类型；

计算多个初选目标特征类型中每两个初选目标特征类型之间相关性；

将相关性大于等于预设相关性阈值的初选目标特征类型确定为相关特征类型、以及将相关性小于预设相关性阈值的初选目标特征类型确定为非相关特征类型；

根据相关性从多个相关特征类型中选取一个最优相关特征类型；

将最优相关特征类型和非相关特征类型组合，以组成目标特征类型。

根据本公开的实施例，其中，预设算法为决策树算法，预测模型为决策树模型；

采用目标训练集训练预设算法，以生成预测模型包括：

采用目标训练集训练决策树算法，以生成初始决策树模型；

对初始决策树模型进行剪枝操作，以生成决策树模型。

根据本公开的实施例，对初始决策树模型进行剪枝，以生成决策树模型包括：

分别对初始决策树模型中的每个非叶子节点执行剪枝操作，以生成多个预剪枝决策树模型，剪枝操作是将非叶子节点对应的子树替换为叶子节点；

将目标训练集分为训练子集和测试子集；

分别将训练子集和测试子集输入每个预剪枝决策树模型、以及分别将训练子集和测试子集输入初始决策树模型，以获取每个预剪枝决策树模型对应的整体损失函数值；

将整体损失函数值满足预设数值条件的预剪枝决策树模型确定为决策树模型。

根据本公开的实施例，其中，预设算法为AdaBoost算法；

采用目标训练集训练预设算法，以生成预测模型包括：

确定预测模型中的基分类器的预设数量；

采用目标训练集训练AdaBoost算法，以生成预测模型，其中

预测模型由预设数量的基分类器按照各自的权重组合而成。

根据本公开的实施例，其中，确定预测模型中的基分类器的预设数量包括：

确定基分类器的初始数量；

以初始数量为基础，分别逐一增加基分类器的数量，以分别将基分类器按照逐一增加后的数量组合形成多个初始预测模型；

获取初始预测模型的预测错误率和初始预测模型中基分类器数量的对应关系；

根据对应关系确定预测模型中的基分类器的预设数量。

根据本公开的实施例，其中，预设算法为随机深林算法；

采用目标训练集训练预设算法，以生成预测模型包括：

确定预测模型中的决策树的预设数量、以及每棵决策树中的非叶子节点的数量；

采用目标训练集训练随机深林算法，生成预测模型，其中预测模型由预设数量的决策树组合而成。

根据本公开的实施例，其中，确定预测模型中的决策树的预设数量包括：

获取初始预测模型的预测错误率和初始预测模型中决策树的数量的对应关系；

根据对应关系确定预测模型中的决策树的预设数量。

根据本公开的实施例，其中，确定预测模型中的每棵决策树中的非叶子节点的数量包括：

采用交叉验证法确定预测模型中的每棵决策树中的非叶子节点的数量。

本公开的另一个方面提供了一种训练用于预测客户交易行为的预测模型的装置，包括第一确定模块、第二确定模块、筛选模块、训练模块。

其中，第一确定模块，用于根据客户样本数据集确定多个预选特征类型，其中客户样本数据集包括客户基本信息数据、以及客户针对目标产品的电话咨询信息数据。

第二确定模块，用于从多个预选特征类型中确定多个目标特征类型，其中目标特征类型为对客户购买行为结果的贡献度大于预设贡献度阈值、且每两个目标特征类型之间的相关性小于预设相关性阈值的数据类型。

筛选模块，用于从客户样本数据集中筛选出与目标特征类型相关的数据，以生成目标训练集。

训练模块，用于采用目标训练集训练预设算法，以生成预测模型。

根据本公开的实施例，其中，第二确定模块包括去除单元、第一确定单元。

其中，去除单元，用于从多个预选特征类型中去除无区分度特征类型，以获得多个目标预选特征类型，其中无区分度特征类型为对客户购买行为结果无贡献的数据类型；第一确定单元，用于从多个目标预选特征类型中确定多个目标特征类型。

根据本公开的实施例，其中，第一确定单元包括第一确定子单元、计算子单元、第二确定子单元、选取子单元和组合子单元。

其中，第一确定子单元，用于从多个目标预选特征类型中确定多个初选目标特征类型，其中初选目标特征类型为对客户购买行为结果的贡献度大于预设阈值的数据类型。

计算子单元，用于计算多个初选目标特征类型中每两个初选目标特征类型之间相关性。

第二确定子单元，用于将相关性大于等于预设相关性阈值的初选目标特征类型确定为相关特征类型、以及将相关性小于预设相关性阈值的初选目标特征类型确定为非相关特征类型。

选取子单元，用于根据相关性从多个相关特征类型中选取一个最优相关特征类型。

组合子单元，用于将最优相关特征类型和非相关特征类型组合，以组成目标特征类型。

根据本公开的实施例，其中，预设算法为决策树算法，预测模型为决策树模型。

训练模块包括第一训练单元、剪枝单元。

其中，第一训练单元，采用目标训练集训练决策树算法，以生成初始决策树模型；剪枝单元，用于对初始决策树模型进行剪枝操作，以生成决策树模型。

根据本公开的实施例，剪枝单元中，对初始决策树模型进行剪枝，以生成决策树模型包括：

将目标训练集分为训练子集和测试子集；

根据本公开的实施例，其中，预设算法为AdaBoost算法。

训练模块包括第二确定单元、第二训练单元。

其中，第二确定单元，用于确定预测模型中的基分类器的预设数量；第二训练单元，用于采用目标训练集训练AdaBoost算法，以生成预测模型，其中预测模型由预设数量的基分类器按照各自的权重组合而成。

根据本公开的实施例，其中，第二确定单元中，确定预测模型中的基分类器的预设数量包括：

确定基分类器的初始数量；

根据对应关系确定预测模型中的基分类器的预设数量。

根据本公开的实施例，其中，预设算法为随机深林算法。

训练模块包括第三确定单元、第三训练单元。

其中，第三确定单元，用于确定预测模型中的决策树的预设数量、以及每棵决策树中的非叶子节点的数量；第三训练单元，用于采用目标训练集训练随机深林算法，生成预测模型，其中预测模型由预设数量的决策树组合而成。

根据本公开的实施例，其中，第三确定单元中，确定预测模型中的决策树的预设数量包括：

获取初始预测模型的预测错误率和初始预测模型中决策树的数量的对应关系；以及根据对应关系确定预测模型中的决策树的预设数量。

根据本公开的实施例，其中，第三确定单元中，确定预测模型中的每棵决策树中的非叶子节点的数量包括：

本公开的另一个方面提供了一种电子设备，包括：一个或多个处理器、以及存储器；其中该存储器用于存储一个或多个程序；其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如上的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，指令在被执行时用于实现如上的方法。

本公开的另一方面提供了一种计算机程序产品，计算机程序产品包括计算机可执行指令，指令在被执行时用于实现如上的方法。

根据本公开的实施例，通过从多个预选特征类型中确定多个目标特征类型，进一步根据目标特征类型生成的目标训练集，能够提高模型的预测效果且加快训练的过程。其中目标特征类型为对客户购买行为结果的贡献度大于预设贡献度阈值、且每两个目标特征类型之间的相关性小于预设相关性阈值的数据类型，据此确定的目标特征类型，对客户购买行为结果存在比较大的区分度，可提高模型的预测效果；同时，去除了部分彼此之间可相互替代的特征类型，减少了训练样本的容量，在保证模型预测效果的前提下加快了训练过程。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了可以应用本公开的训练用于预测客户交易行为的预测模型的方法和装置的应用场景的示意图；

图2示意性示出了可以应用本公开的训练用于预测客户交易行为的预测模型的方法和装置的数据挖掘过程的示意图；

图3示意性示出了根据本公开实施例的训练用于预测客户交易行为的预测模型的方法的流程图；

图4示意性示出了根据本公开实施例的样本数据预处理方法流程图；

图5示意性示出了根据本公开实施例的从多个目标预选特征类型中确定多个目标特征类型的流程图；

图6示意性示出了根据本公开实施例的训练用于预测客户交易行为的预测模型的装置的框图；以及

图7示意性示出了根据本公开实施例的用于实现训练用于预测客户交易行为的预测模型的方法的电子设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

在本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

需要说明的是，本公开的训练用于预测客户交易行为的预测模型的方法及装置涉及人工智能技术领域，可用于金融技术领域，也可用于除人工智能领域和金融技术领域之外的其他领域，本公开对该训练用于预测客户交易行为的预测模型的方法及装置的应用领域不做限定。

本公开的实施例提供了一种训练用于预测客户交易行为的预测模型的方法，包括：根据客户样本数据集确定多个预选特征类型，其中客户样本数据集包括客户基本信息数据、以及客户针对目标产品的电话咨询信息数据；从多个预选特征类型中确定多个目标特征类型，其中目标特征类型为对客户购买行为结果的贡献度大于预设贡献度阈值、且每两个目标特征类型之间的相关性小于预设相关性阈值的数据类型；从客户样本数据集中筛选出与目标特征类型相关的数据，以生成目标训练集；以及采用目标训练集训练预设算法，以生成预测模型。

在对本公开的实施例进行详细阐述之前，先对本公开实施例提供的方法所涉及的系统结构以及应用场景进行如下介绍。

图1示意性示出了可以应用本公开的训练用于预测客户交易行为的预测模型的方法和装置的应用场景的示意图。需要注意的是，图1所示仅为可以应用本公开实施例的应用场景示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，在本公开的应用场景下，金融机构的客户分析和管理系统可用于对客户信息进行管理分析，系统的角色可包括操作员及系统管理员，系统管理员主要管理操作员的权限，操作员是系统的主要使用者，操作员通过该系统来实现客户信息的查询，通过对客户查询来实现对客户行为以及客户贡献度的分析，预测客户交易行为，最终实现目标客户的挖掘以及管理好相关产品贷后的风险。

该系统可包括查询子系统、贡献度分析子系统、分类营销子系统、客户行为分析子系统、贷后管理子系统。

上述系统中，查询子系统可用于：客户基本信息查询、客户账户信息查询、客户调服信息查询、客户重要事件查询和重要客户人员查询。进一步，查询子系统可细分为单个客户级别的信息查询、财务信息查询以及事件提醒这三个部分，其主要作用是方便管理客户关系的人员查询及分析客户的基本信息，且将客户的重要信息呈现出来，方便对客户其背景及资料实现快速的分析。事件提醒可用于以系统客户关系管理的权限及角色为依据来实现对关联客户的事件的分级提醒。

贡献度分析子系统可用于客户贡献度及价值分析、产品贡献度横向对比和机构贡献度。其中客户贡献度及价值分析包括：客户价值查询、目标客户贡献度预测、预计增量业务贡献额测算、存量业务综合贡献度多维分析和存量业务贡献度查询。贡献度分析子系统，其核心功能就是能够通过一系列的计算得出客户贡献度的结果。基于此，为金融机构营销系统的管理者提供基本的整理、查询以及分析等服务。

分类营销子系统，可用于客户分类查询、贷款产品定价和差别化服务。其基本的功能是对客户的价值进行计算、分析及评估。通过这一评估的结构，了解客户的真实需求，最终向客户直接、自动的进行分类营销。可用于解决针对客户价值分析、客户贷款定价以及个性化的优质服务中存在的技术问题。

客户行为分析子系统，可用于满意调查分析、客户忠诚度分析、客户账龄分析、客户获利分析和客户流失分析。其中满意调查分析包括：满意度调查表输入、客户满意度分析模型、客户满意度查询和客户满意度分析报告。客户行为分析子系的主要功能是对相关的客户数据及信息进行分析和整理，然后以分析结果为基础，进一步对客户的行为进行预测及分析。同时还要分析客户新增及流失情况，分析客户信息的规律性。在这个基础上实现对客户其满意度及信任度的分析，解决业务流程中的服务无法适用客户其个性化需求的问题。

上述系统除了以上列举的子系统外，还可以包括报表分析子系统，该子系统的可用于对金银融机构业务实现量化分析，例如可用于负债业务分析和资产业务分析、固定报表及图表分析、经营指标分析。其中经营指标分析包括：财务报表调阅、财务指标查询和重点客户内部报表数据分析。固定报表及图表包括：负债业务数据分析和资产业务数据分析。

根据本公开的实施例，通过训练用于预测客户交易行为的预测模型的方法或装置，对相关的客户数据及信息进行分析和整理，然后以分析结果为基础，进一步对客户针对业务产品的交易行为进行预测及分析，例如，可利用特定算法对客户基本信息数据、以及客户针对目标产品的电话咨询信息数据进行分析，预测针对分期产品的购买可能性。

根据本公开的实施例，例如，可在上述客户行为分析子系统中训练用于预测客户交易行为的预测模型，并利用训练好的预测模型对相关的客户数据及信息进行分析和整理，得出客户针对业务产品的交易行的预测分析结果。

根据本公开的实施例，可进一步将客户针对业务产品的交易行的预测分析结果应用在上述金客户分析和管理系统中，例如，可将该结果用于分类营销子系统、贷后管理子系统中，例如，可利用该预测分析结果了解客户的真实需求，实现对客户有针对性的分类营销，最终实现目标客户的挖掘以及管理好相关产品贷后的风险。

根据本公开的实施例，在上述应用场景下，实现训练用于预测客户交易行为的预测模型的方法，对相关的客户数据及信息进行分析和整理，然后以分析结果为基础，进一步对客户针对业务产品的交易行为进行预测及分析的过程，是实现数据挖掘的过程。

数据挖掘能够从大量的客户历史数据中挖掘出所需要的信息。然而，相关技术中，在实际分析、挖掘这些客户历史数据时都存在不同的缺陷；如金融从业人员在分析公司金融产品的推广度时，仅考虑该产品在某一地区的市场占有率，并没有分析该地区的经济发展状况、人们的收入状况，以及购买产品的客户的个人基本特征的不同；同时，在做这些数据分析和挖掘工作的并不是数据挖掘专业人员，而主要是靠一些理财专业人员的主观判断。即使一些金融机构引进了数据挖掘系统，也只是做一些简单的数据分析工作，并没有对客户历史数据进行深度的挖掘；如，通过对客户的职业、年龄、收入、风险偏好等基本属性来划分客户群，将客户的特征与理财产品的特征结合，为客户提供理财方案，从而实现精准营销。在金融行业，数据挖掘的应用和研究任然处于初级阶段，对海量的数据进行科学的分析处理并得到有意义的结果仍然要面临很多难题，大量的客户历史数据仍然没有得到很好地利用。

数据挖掘是对计算机科学、统计学、以及数据库等多学科融合的一种理论性技术，可以从海量的数据库中将潜在的、比较有价值的信息提取出来，从而促使客户关系管理系统能正常有效的运行。

图2示意性示出了可以应用本公开的训练用于预测客户交易行为的预测模型的方法和装置的数据挖掘过程的示意图。

如图2所示，数据挖掘的过程包括定义主题和任务、数据预处理、采用相关算法进行数据分析等流程。数据挖掘流程能够实现对数据的收集，实现对各项技术手段的综合运用，对信息进行整合，以便管理者能够尽快做出决策，使金融机构业务量能持续增长。

数据挖掘通过算法工具及模型工具，来整合及归纳表面上没有规律的数据，了解数据之间的联系且进行进一步推理，最后得到有效的结论这样一个过程。且随着数据挖掘技术的不断优化，该技术可以帮助金融机构实现科学经营的策略。通过数据挖掘技术，金融机构能够实现对客户及产品信息其潜在资源的深入研究，从而得到大量价值丰富的有效信息。而且还能够对客户的未来行为进行预测，给客户提供行为判断的帮助，这样金融机构可以更好的管理客户。

一般来说，金融机构与客户之间的服务都是一对多的方式，如果要实现这类服务，金融机构就必须很熟悉每一位客户，跟客户实现一种长期的合作关系。数据挖掘技术可以对金融机构的客户进行分类，依据客户类型的不同，并可以提供个性化的服务及产品。

通过对数据挖掘技术的使用，金融机构可以了解到客户的真实需求，从而有针对性的为客户提供一些服务。这样客户需求得到了很大的满足，同时提升了客户的忠诚度，且客户流失的情况也越来越少，实现了最大化的获利。数据挖掘通过对潜在商业信息的挖掘，使管理者可以正确、客观做出决定。准确的决定及优质的服务可以让金融机构在激烈的市场竞争中脱颖而出，得到更为丰富的客户源，使得风险大大降低，最大化的获得利润。

根据本公开的实施例，对数据挖掘技术的具体应哟可提现在本公开实施例所提供的训练用于预测客户交易行为的预测模型的方法中。

图3示意性示出了根据本公开实施例的训练用于预测客户交易行为的预测模型的方法的流程图。

如图3所示，该方法包括操作S301～S304。

在操作S301，根据客户样本数据集确定多个预选特征类型，其中客户样本数据集包括客户基本信息数据、以及客户针对目标产品的电话咨询信息数据。

在操作S302，从多个预选特征类型中确定多个目标特征类型，其中目标特征类型为对客户购买行为结果的贡献度大于预设贡献度阈值、且每两个目标特征类型之间的相关性小于预设相关性阈值的数据类型。

在操作S303，从客户样本数据集中筛选出与目标特征类型相关的数据，以生成目标训练集。

在操作S304，采用目标训练集训练预设算法，以生成预测模型。

根据本公开的实施例，生成预测模型需使用目标训练集进行模型训练，合适的目标训练集能够提高模型的预测效果且加快训练的过程，因此，首先需要确定目标训练集。

根据本公开的实施例，客户样本数据集包括客户基本信息数据、以及客户针对目标产品的电话咨询信息数据，客户基本信息数据，例如可包括客户年龄、性别、婚姻状况、教育程度等等；客户针对目标产品的电话咨询信息数据，是在业务产品推广过程中，搜集的客户针对目标产品(如定期存款)的电话咨询的历史信息数据，例如可包括最近一次联系的日期、最近一次联系的持续时间、最近一次联系距今的日数等等。

客户样本数据集中包括针对多个变量的多个预选特征类型，其代表客户样本数据集中包括的所有类型的特征变量。首先需要对客户样本数据集进行特征提取，确定出多个预选特征类型。

根据本公开的实施例，客户样本数据集可采用基于电话跟踪的针对定期存款产品的营销项目的历史数据，其中收录了包括客户个人信息及与电话跟踪咨询结果。表1中示例性给出了客户样本数据集中包括的预选特征类型以及客户是否订阅了定期存款产品的结果。

如表1所示，预选特征类型(即自变量)包括16个类型，因变量为该客户是否订阅了金融机构的定期存款。

表1

该客户样本数据集中各特征的分布情况如下：在总共4521个客户样本中，年龄分布在19-87范围内；被调查的客户中工作类型最多的是管理行业和体力劳动者；客户的主要婚姻状况是已婚；客户的主要教育程度是初中和大学；大部分客户是有房贷的；该数据集有7个数值型变量，9个分类型变量组成；在分类结果“是否订阅定期存款”中有521个样本结果为订阅，4000个样本结果为没有订阅，即该数据集为不平衡数据集，属于肯定类的样本较少。

为了提高模型的预测效果且加快训练的过程，需要从多个预选特征类型中确定多个目标特征类型，以便根据目标特征类型生成目标训练集。其中目标特征类型为对客户购买行为结果的贡献度大于预设贡献度阈值、且每两个目标特征类型之间的相关性小于预设相关性阈值的数据类型。

例如，可进一步在上述16个数据特征类型中进行进一步筛选，筛选出对客户购买行为结果的存在区分度贡献的特征类型，以提高模型的预测效果。在上述特征类型中，会存在一部分特征类型之间的相关性比较大，该部分特征类型之间可相互替代，其对模型训练的贡献度相差不大，因此，为了加快训练过程，可去除部分彼此之间相关性比较大的特征类型，仅保留每两个目标特征类型之间的相关性小于预设相关性阈值的数据类型。

根据本公开的实施例，上述方法以挖掘结果为基础，结合金融机构的业务现状对客户关系管理系统进行了需求分析，在保证其可扩展性与可维护性的基础上，可将其应用于电话金融机构营销系统。该系统可对客户的消费需求与消费习惯进行充分挖掘，提高客户的满意度，进而达到提高客户忠诚度的目的，以此来使自己的客户基础更加牢固，此外可以适应复杂的金融机构信息系统环境，具备足够大的运算能力与较高的精确性，可以为金融机构的决策者提供出有参考价值的信息。

通过应用本公开实施例所述的方法，可实现交叉销售。一般情况下，金融机构及客户其关系是经常变化的。因此当金融机构有了新客户后，还必须维持与客户之间的关系。而交叉销售的这种方式能够给客户提供新的服务及产品。

通过应用本公开实施例所述的方法，可实现对客户给金融机构所带来的效益进行预测。由于客户类型的不同，其带来的利润也不尽相同，通过数据挖掘的技术，金融机构能够依据客户的类型来对其价值进行评估。

通过应用本公开实施例所述的方法，可实现对客户其背景的研宄。研宄客户的背景就可以对客户实现更好的分析，从而研究出好的销售办法；金融机构可以通过数据挖掘技术来实现对数据的分析，通过对这些数据的分析将有价值的信息提取出来。

通过应用本公开实施例所述的方法，可对客户满意度进行分析。通过数据挖掘技术金融机构能够从杂乱的客户反馈信息将客户对服务及金融产品其满意度分析出来，使得金融机构其服务及金融产品可以得到提升，进一步提升客户的忠诚度。

通过应用本公开实施例所述的方法，可对客户信用进行分析。通过数据挖掘技术，金融机构可以从海量数据库中将客户其具体的信用等级分析出来，依据用户其信用级别的不同，采取不同的信贷方案，降低信贷风险出现的概率。

根据本公开的实施例，金融机构在对客户信息进行收集的过程中，很可能会因为各种原因如：机器故障或是人工输入的错误，会导致数据不完整的现象。所以要对这些数据进行先的处理，去除噪音数据。因此，在对客户样本数据集进行特征提取之前，可对样本数据进行预处理。

图4示意性示出了根据本公开实施例的样本数据预处理方法流程图。

如图4所示，上述数据处理方法包括：

(1)数据清理。主要进行缺失数据、异常数据的判断和处理，忽略异常数据以及人工填写缺省值。

(2)数据转化。把不适于挖掘的数据其形式转化成适合挖掘的形式。

根据本公开的实施例，在进行数据转化前，还可进行和数据集成数据选择。数据集成主要用于对来源不同的数据采取相同的存储格式进行存储。客户按其属性分为很多种，但是本公开的实施例只选取与模型其建立过程相关的数据，因此在通过数据集成后，选取如客户年龄、性别、金融机构卡使用年限、信用等级以及存款余额等相关数据。

从多个预选特征类型中去除无区分度特征类型，以获得多个目标预选特征类型，其中无区分度特征类型为对客户购买行为结果无贡献的数据类型；以及从多个目标预选特征类型中确定多个目标特征类型。

为了提高模型的预测效果，可从多个预选特征类型中去除无区分度特征类型，例如，可进一步在上述表1中的16个数据特征类型中进行进一步筛选，筛选出对客户购买行为结果的存在区分度贡献的特征类型，经分析得出，自变量age、day、contact、month对因变量(是否该买金融机构定期存款)没有区分度，因此在做特征选取时首先剔除这4个变量，把剩下的12个变量作为自变量再做特征选择建立预测模型。

进一步地，上述操作中，从多个目标预选特征类型中确定多个目标特征类型的方法，结合图5进行说明。图5示意性示出了根据本公开实施例的从多个目标预选特征类型中确定多个目标特征类型的流程图。

如图5所示，该方法包括操作S501～S505。

在操作S501，从多个目标预选特征类型中确定多个初选目标特征类型，其中初选目标特征类型为对客户购买行为结果的贡献度大于预设阈值的数据类型。

根据本公开的实施例，例如，可进一步在针对上述表1中的16个数据特征类型中选出的12个目标预选特征类型中进行进一步筛选。经分析得知，变量job、marital、education、duration、pdays、previous、poutcome为对客户购买行为结果的贡献度大于预设阈值的变量，对是否该买金融机构定期存款有很好的区分度，对训练数据具有很好的分类能力，可以提高模型的学习效率，因此这7个变量可以作为初选最优特征。

在操作S502，计算多个初选目标特征类型中每两个初选目标特征类型之间相关性。

在操作S503，将相关性大于等于预设相关性阈值的初选目标特征类型确定为相关特征类型、以及将相关性小于预设相关性阈值的初选目标特征类型确定为非相关特征类型。

在操作S504，根据相关性从多个相关特征类型中选取一个最优相关特征类型。

根据本公开的实施例，例如，在上述操作中确定的7个变量中，根据对这些变量分析的相关系数图进行分析，可以得出：变量previous、poutcome、pdays三个变量两两之间呈正相关且相关性较大，即该次项目之前联系的总次数、之前营销项目的结果、最近一次联系距今的天数三者之间呈正相关且相关性较高，说明这三个变量间存在共相关。

根据本公开的实施例，进一步地，从上述三个变量中，选择其中一个变量进行特征选择，例如可在做特征选择时只选择变量poutcome作为最优特征。

在操作S505，将最优相关特征类型和非相关特征类型组合，以组成目标特征类型。例如，针对上述操作示例，将变量poutcome与变量job、marital、education、duration组合，最终选取最优特征为：job、marital、education、duration、poutcome，为最终最优的目标特征类型，以便以目标特征类型生成目标训练集、并建立预测模型。

采用目标训练集训练预设算法，以生成预测模型包括：采用目标训练集训练决策树算法，以生成初始决策树模型；以及对初始决策树模型进行剪枝操作，以生成决策树模型。

根据本公开的实施例，在建立决策树模型的过程中，预设算法具体地，可采用ID3算法、或者C4.5算法、或者CART算法。其中，CART算法具有ID3算法和C4.5算法的优点，且CART算法可以处理连续性属性值，分类效率较高，能产生易于理解的分类规则，还可以对分类树进行剪枝。且在用R软件建立CART分类树时，模型本身会对变量做特征选择，给出最优分类变量，CART算法模型还可以对所构建的分类树模型进行剪枝，防止过拟合训练数据集。因此，作为以下以采用CART算法建立决策树模型为例进行示例性说明。

根据本公开的实施例，例如，仍以表1中的数据特征类型中选出的最终选取最优特征为：job、marital、education、duration、poutcome，为最终最优的目标特征类型为例，以目标特征类型生成目标训练集、并建立的预测模型如下：

本公开的实施例中，针对目标训练数据集建立的CART分类树模型包含3391个实例，其中属于yes类的实例有393个；该分类树的根节点采用duration特征，该分类树有8个叶结点，分类树的深度为3层，因此建立的分类模型可以给出8条分类规则，所得分类规则如下：

规则1：如果duration＜632and poutcome＝failure，other，unknown则购买定期存款＝no的可能性为：94％，购买定期存款＝yes的可能性为：6％。

规则2：如果duration＜180and poutcome＝success and education＝primary，secondary，unknown，则购买定期存款＝no的可能性为：89％，购买定期存款＝yes的可能性为：11％。

规则3：如果duration＜180and poutcome＝success and education＝tertiary，则购买定期存款＝no的可能性为：14％，购买定期存款＝yes的可能性为：86％。

规则4：如果180duration＜632and poutcome＝success，则购买定期存款＝no的可能性为：18％，购买定期存款＝yes的可能性为：82％。

规则5：如果duration＞＝632and marital＝married and job＝admin.，blue-collar，services，entrepreneur，housemaid，management，student，unknown则购买定期存款＝no的可能性为：67％，购买定期存款＝yes的可能性为：33％。

规则6：如果632＝＜duration＜747and marital＝married and job＝retired，technician，self-employed，unemployed，则购买定期存款＝no的可能性为：73％，购买定期存款＝yes的可能性为：27％。

规则7：如果duration＞＝747and marital＝married and job＝retired，technician，self-employed，unemployed，则购买定期存款＝no的可能性为：18％，购买定期存款＝yes的可能性为：82％。

规则8：如果duration＞＝632and marital＝divorced，single，则购买定期存款＝no的可能性为：35％，购买定期存款＝yes的可能性为：65％。

根据本公开的实施例，可利用以上分类规则的结果指导金融机构的营销活动，例如，从规则3可以得出在该电话营销项目中，之前营销项目的结果成功的、学历为大学的这些投资人往往更倾向于购买金融机构定期存款，而且在整个电话营销项目中营销人员与这些投资者电话沟通时间较少，不超过180秒，说明在前期的营销项目之中，这些投资者已经对金融机构的其它理财产品有很好的认识，这些客户可以发展为金融机构的深度客户；因此金融机构在新的营销项目中，可以根据此前营销项目的结果和客户的学历，找出这些可以深度挖掘的优质客户，进而达到定向投放广告，定向营销的目的；从以上8条规则中我们还可以发现当之前营销项目结果成功时，而且该客户在电话营销中与工作人员沟通时间超过180秒小于632秒，这些客户有82％的可能性购买金融机构定期存款，说明此前的营销结果对该营销项目的影响比较大，因此，在新的营销项目中那些之前营销结果成功的客户是定向营销的优质客户；在这些规则中发现单身、离婚的客户更倾向于购买金融机构定期存款，从规则8可以看出，当联系时间超过632秒的那些单身、离婚的客户有65％的可能性购买金融机构定期存款，因此在该电话营销项目中更应该关注这些单身、离婚的客户，这些都是该项目中的潜在客户；从规则7可以得出，对于已婚的客户中，那些退休工人、技工、个体劳动者、失业人员等收入较少的客户更倾向于购买金融机构定期存款，说明已婚客户中那些收入不稳定、收入较少的客户为了以后生活有保障更倾向于购买金融机构定期存款；从分类规则5、6、7综合来看，对于已婚的客户，当电话营销持续时间在632秒与747秒之间时，不管这些客户的工作类型是什么，他们还是不倾向与购买金融机构的定期理财产品，但他们会耐心的去了解该营销项目的内容，这说明对于已婚客户，他们并没有太多闲余的资金用于购买金融机构定期存款；但当电话营销持续时间超过747秒时，这些已婚的客户中，那些工作类型为退休工人、技工、个体劳动者、失业人员的客户就有82％的概率去购买金融机构的定期存款，这也充分说明，这些已婚的客户大部分对购买金融机构定期存款还是很有兴趣的，这些客户就是我们在做营销活动时的潜在客户，以便营销人员在和这些已婚客户进行沟通时，制定更有针对性的营销策略，以达到较好的营销效果。

将目标训练集分为训练子集和测试子集；

根据本公开的实施例，由于太大的树会导致过拟合，模型应用于实际问题中效果不会太好；在建立决策树模型时既要考虑模型对训练数据集的分类精度也要考虑模型复杂度，否则模型过度拟合训练数据，对新的数据集，模型泛化性能力较差。因此，在本公开的实施例中，将目标训练集分为训练子集和测试子集采用交叉验证法进行剪枝操作，例如，随机抽取3/4的数据作为训练集(data_train)，随机抽取1/4的数据作为测试集(data_test)；在这些数据集上运用交叉验证法进行验证，即，分别将训练子集和测试子集输入每个预剪枝决策树模型、以及分别将训练子集和测试子集输入初始决策树模型，以获取每个预剪枝决策树模型对应的整体损失函数值，并选取整体损失函数值满足预设数值条件(整体损失函数达到预设最小值)的预剪枝决策树模型确定为决策树模型，对模型进行剪枝。

根据本公开的实施例，模型的整体损失函数值为模型预测误差以及模型复杂度的综合体现，较优的模型结构，在保证模型预测误差最小的情况下，还需保证模型具有一定的复杂度，最优的模型结构应使得其具有最小的整体损失函数值，使其相应的预测误差在最小误差加减一个标准差的范围内。

根据本公开的实施例，通过上述剪枝操作，使得建立起的决策树模型具有较高的分类精度和适当的模型复杂度，且具有较好的泛化能力，防止过拟合的发生，预测效果较佳。

根据本公开的实施例，通过决策树分类算法对投资者基本属性数据进行挖掘分类，从而把金融产品的属性与投资者的基本属性结合起来；由于基本的决策树算法在做分类时容易过拟合、分类准确度不高，本公开的实施例通过对决策树进行剪枝，大大降低了对训练数据分类时的计算量，提高了对新数据的预测能力，而且不会对训练数据过拟合。

根据本公开的实施例，其中，预设算法还可以采用AdaBoost算法。

采用目标训练集训练预设算法，以生成预测模型包括：确定预测模型中的基分类器的预设数量；采用目标训练集训练AdaBoost算法，以生成预测模型，其中预测模型由预设数量的基分类器按照各自的权重组合而成。

根据本公开的实施例，采用预设算法采用AdaBoost算法时，基分类器可采用决策树分类器，采用AdaBoost算法建立预测模型包括：

(1)输入目标训练数据集：D＝{(x₁，y₁)，(x₂，y₁)，......，(x_m，y_m)}；

(2)初始每个基分类器的权重分布：

D₁(i)＝1/m (一)

(2)进行多次迭代(迭代总次数为T)；

a、使用具有初始化权重分布的D₁(i)在目标训练数据集D上进行训练，训练得到基分类器(其中L为基学习算法)：

h_t＝L(D，D_t) (二)

b、计算基分类器h_t在目标训练数据集上的分类误差：

e_t＝Pr_x-D_t，yI[h_t(x)≠y] (三)

c、计算基分类器h_t在最终分类器中所占的权重(如果e_t＞0.5，则终止算法)：

d、更新目标训练数据集的权值分布，用于下一轮迭代：

其中，Z_t是规范化因子，它使D_t+1成为概率分布；

(3)组合各个基分类器，得到最终的集成分类器(即预测模型)：

根据本公开的实施例，仍以表1中的数据特征类型建立的数据集为例，在该数据集上应用AdaBoost算法建立模型时，变量duration(最近一次联系持续的时间)、job(工作类型)、poutcome(之前营销项目的结果)等变量相对重要程度较高；说明与客户最近一次联系持续的时间、客户的工作类型、该营销项目之前营销项目的结果等对客户是否订阅金融机构定期存款有着密切的联系。

在使用AdaBoost算法时，boosting函数会存在默认的基本分类器的个数，但在实际应用过程中，该默认值不一定是最优的参数值。因此，本公开的实施例提供了一种确定基分类器的预设数量的方法。

根据本公开的实施例，由于决策树分类算法处理非平衡数据集时分类准确度较低，本公开实施例采用AdaBoost算法，由于该算法在做分类决策时都是基于多个弱分类器的分类结果的加权，模型不会过拟合，且对非平衡数据集分类效果较好；将该算法应用于预测数据集后，分类效率和准确率都有提高，能较好地的拟合预测数据集。

确定基分类器的初始数量；

根据对应关系确定预测模型中的基分类器的预设数量，即将初始预测模型的预测错误率最低时对应的基分类器数量确定为基分类器的预设数量。

根据本公开的实施例，采用逐一增加基分类器个数的方法来进行建模，最后寻找到最优的模型；可采用R软件编程求出最优基分类器个数，仍以表1中的数据特征类型建立的数据集为例，在该数据集上应用AdaBoost算法建立模型，当基分类器的个数为18时，预测模型的预测错误率均值是最低的。当基分类器的个数大于18后，继续增加基分类器的数量，其预测错误率并没有继续降低。因而boosting函数中，基分类器的个数参数mfinal应为18，并非该函数默认的参数值。

根据本公开的实施例，通过逐一增加基分类器个数的方法来进行建模，可以在保证模型预测精度的前提下，采用尽量少的基分类器，降低了模型的结构复杂度，提高了训练和预测的计算速率。

根据本公开的实施例，其中，预设算法也可采用为随机深林算法。

由于AdaBoost算法的运算复杂度较基本的决策树算法比较复杂；且AdaBoost算法在训练数据集上不断更新数据的权值分布时，都是选取全部数据进行一遍遍的迭代，这样算法的计算量将大大增加；而且，选取全部训练数据更新数据权值分布容易导致模型过拟合，使得对新的数据集预测效果较差。但是，随机森林算法可以很好地解决以上问题，随机森林算法在建立分类树模型时，随机化的选择变量和训练数据进行小的分类树的拟合，最后综合所有小分类树的拟合结果作为最终的分类结果，由于在构建小的分类树时随机化的选择数据和变量，因此，最终的随机森林分类结果不会过拟合，模型计算量也较AdaBoost算法大大减少，但模型预测准确度却没有降低。

采用目标训练集训练预设算法，以生成预测模型包括：确定预测模型中的决策树的预设数量、以及每棵决策树中的非叶子节点的数量；以及采用目标训练集训练随机深林算法，生成预测模型，其中预测模型由预设数量的决策树组合而成。

根据本公开的实施例，其中，确定预测模型中的每棵决策树中的非叶子节点的数量包括：采用交叉验证法确定预测模型中的每棵决策树中的非叶子节点的数量。

在构建随机森林算法模型时，影响模型预测精度的两个主要因素为：决策树节点分支所选择的变量个数(即每棵决策树中的非叶子节点的数量)、随机森林模型中决策树的数量。其中每棵决策树中的非叶子节点的数量决定了单棵决策树的情况，而随机森林模型中决策树的数量决定了整片随机森林的总体规模。在使用随机森林算法时，由于算法存在默认的决策树节点分支所选择的变量个数，但默认值并不一定是最优的参数值，本公开的实施例可采用交叉验证确定决策树节点分支所选择的变量个数。

根据本公开的实施例，仍以表1中的数据特征类型建立的目标训练集为例，在该数据集上应用随机森林算法建立随机森林模型，根据模型交叉验证结果得出当每棵决策树中的非叶子节点的数量为8时，模型的误判率均值是最低的，然而该参数的默认指为3，所以默认参数值并非最优参数值。所以在建立随机森林模型时，该参数值为设为8。

在确定了模型中每棵决策树中的非叶子节点的数量后，还需进一步确定模型中决策树数量。可采用试算的方法，获取初始预测模型的预测错误率和初始预测模型中决策树的数量的对应关系；将预测错误率最低时对应的决策树数量设为最终模型中决策树的数量。根据实验结果得知，当决策树数量大于200左右时，模型误差趋于稳定，所以将模型中决策树的数量定为200。

根据本公开的实施例，以表1中的数据特征类型建立的目标训练集为例，在该数据集上应用随机森林算法建立的随机森林模型，该随机森林模型中包含了200棵决策树，每棵决策树节点处所选择的变量个数为8。在训练数据集上模型总的预测误差为9.47％，较之前建立的AdaBoost算法模型的分类误差有所降低。预测结果为：最终模型将不购买金融机构定期存款no类中的2891个样本预测正确，将其中107个样本错误地预测为购买定期存款yes类，在不购买金融机构定期存款no类的预测误判率为3.57％；模型将购买定期存款yes类中的179个样本预测正确，将其中214个样本错误地预测为不购买定期存款no类，在购买定期存款yes类的预测误判率为54.5％。由以上的结果可看出，随机森林算法模型在上述数据集上的分类效果优于AdaBoost算法。

在上述数据集上应用随机森林算法建立模型时，变量duration(最近一次联系持续的时间)、month(最近一次联系的月份)、job(工作类型)、poutcome(之前营销项目的结果)、balance(年均余额(欧元))等变量相对重要程度较高。说明与客户最近一次联系持续的时间、客户的工作类型、该营销项目之前营销项目的结果等对客户是否订阅金融机构定期存款有着密切的联系。在营销项目中，可以重点关注关于客户的上述特征。

根据本公开的实施例，通过确定预测模型中的每棵决策树中的非叶子节点的数量、以及确定预测模型中的决策树的预设数量，可以在保证模型预测精度的前提下，采用尽量少的决策树，降低了模型的结构复杂度，提高了训练和预测的计算速率。

图6示意性示出了根据本公开实施例的训练用于预测客户交易行为的预测模型的装置600的框图。

该装置可以用来实现参考图2所示的方法。

如图6所示，该装置包括：第一确定模块601、第二确定模块602、筛选模块603、训练模块604。

其中，第一确定模块601，用于根据客户样本数据集确定多个预选特征类型，其中客户样本数据集包括客户基本信息数据、以及客户针对目标产品的电话咨询信息数据。

第二确定模块602，用于从多个预选特征类型中确定多个目标特征类型，其中目标特征类型为对客户购买行为结果的贡献度大于预设贡献度阈值、且每两个目标特征类型之间的相关性小于预设相关性阈值的数据类型。

筛选模块603，用于从客户样本数据集中筛选出与目标特征类型相关的数据，以生成目标训练集。

训练模块604，用于采用目标训练集训练预设算法，以生成预测模型。

根据本公开的实施例，通过第一确定模块601、第二确定模块602从多个预选特征类型中确定多个目标特征类型，进一步通过筛选模块603根据目标特征类型生成的目标训练集，能够提高模型的预测效果且加快训练的过程。其中目标特征类型为对客户购买行为结果的贡献度大于预设贡献度阈值、且每两个目标特征类型之间的相关性小于预设相关性阈值的数据类型，据此确定的目标特征类型，对客户购买行为结果存在比较大的区分度，可提高模型的预测效果；同时，去除了部分彼此之间可相互替代的特征类型，减少了训练样本的容量，在保证模型预测效果的前提下加快了训练过程。

根据本公开的实施例，其中，第二确定模块602包括去除单元、第一确定单元。

训练模块604包括第一训练单元、剪枝单元。

将目标训练集分为训练子集和测试子集；

根据本公开的实施例，其中，预设算法为AdaBoost算法。

训练模块604包括第二确定单元、第二训练单元。

确定基分类器的初始数量；

根据对应关系确定预测模型中的基分类器的预设数量。

根据本公开的实施例，其中，预设算法为随机深林算法。

训练模块604包括第三确定单元、第三训练单元。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，第一确定模块601、第二确定模块602、筛选模块603、训练模块604中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，身第一确定模块601、第二确定模块602、筛选模块603、训练模块604中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一确定模块601、第二确定模块602、筛选模块603、训练模块604中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图7示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，根据本公开实施例的电子设备700包括处理器701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 703中，存储有电子设备700操作所需的各种程序和数据。处理器701、ROM702以及RAM 703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备700还可以包括输入/输出(I/O)接口705，输入/输出(I/O)接口705也连接至总线704。系统700还可以包括连接至I/O接口705的以下部件中的一项或多项：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM703以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行本公开实施例所提供的方法的程序代码，当计算机程序产品在电子设备上运行时，该程序代码用于使电子设备实现本公开实施例所提供的训练用于预测客户交易行为的预测模型的方法。

在该计算机程序被处理器701执行时，执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分709被下载和安装，和/或从可拆卸介质711被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种训练用于预测客户交易行为的预测模型的方法，包括：

根据客户样本数据集确定多个预选特征类型，其中所述客户样本数据集包括客户基本信息数据、以及客户针对目标产品的电话咨询信息数据；

从多个所述预选特征类型中确定多个目标特征类型，其中所述目标特征类型为对客户购买行为结果的贡献度大于预设贡献度阈值、且每两个所述目标特征类型之间的相关性小于预设相关性阈值的数据类型；

从所述客户样本数据集中筛选出与所述目标特征类型相关的数据，以生成目标训练集；以及

采用所述目标训练集训练预设算法，以生成预测模型。

2.根据权利要求1所述的方法，其中，从多个所述预选特征类型中确定多个目标特征类型包括：

从多个所述预选特征类型中去除无区分度特征类型，以获得多个目标预选特征类型，其中所述无区分度特征类型为对客户购买行为结果无贡献的数据类型；

从多个所述目标预选特征类型中确定多个所述目标特征类型。

3.根据权利要求2所述的方法，其中，从多个所述目标预选特征类型中确定多个所述目标特征类型包括：

从多个所述目标预选特征类型中确定多个初选目标特征类型，其中所述初选目标特征类型为对客户购买行为结果的贡献度大于所述预设阈值的数据类型；

计算多个所述初选目标特征类型中每两个所述初选目标特征类型之间相关性；

将所述相关性大于等于所述预设相关性阈值的初选目标特征类型确定为相关特征类型、以及将所述相关性小于所述预设相关性阈值的初选目标特征类型确定为非相关特征类型；

根据所述相关性从多个所述相关特征类型中选取一个最优相关特征类型；

将所述最优相关特征类型和所述非相关特征类型组合，以组成所述目标特征类型。

4.根据权利要求1所述的方法，其中，所述预设算法为决策树算法，所述预测模型为决策树模型；

采用所述目标训练集训练预设算法，以生成预测模型包括：

采用所述目标训练集训练所述决策树算法，以生成初始决策树模型；

对所述初始决策树模型进行剪枝操作，以生成所述决策树模型。

5.根据权利要求4所述的方法，对所述初始决策树模型进行剪枝，以生成所述决策树模型包括：

分别对所述初始决策树模型中的每个非叶子节点执行剪枝操作，以生成多个预剪枝决策树模型，所述剪枝操作是将所述非叶子节点对应的子树替换为叶子节点；

将所述目标训练集分为训练子集和测试子集；

分别将所述训练子集和所述测试子集输入每个所述预剪枝决策树模型、以及分别将所述训练子集和所述测试子集输入所述初始决策树模型，以获取每个所述预剪枝决策树模型对应的整体损失函数值；

将所述整体损失函数值满足预设数值条件的所述预剪枝决策树模型确定为所述决策树模型。

6.根据权利要求1所述的方法，其中，所述预设算法为AdaBoost算法；

采用所述目标训练集训练预设算法，以生成预测模型包括：

确定所述预测模型中的基分类器的预设数量；

采用所述目标训练集训练所述AdaBoost算法，以生成预测模型，其中所述预测模型由预设数量的所述基分类器按照各自的权重组合而成。

7.根据权利要求6所述的方法，其中，所述确定所述预测模型中的基分类器的预设数量包括：

确定所述基分类器的初始数量；

以所述初始数量为基础，分别逐一增加所述基分类器的数量，以分别将所述基分类器按照逐一增加后的数量组合形成多个初始预测模型：

获取所述初始预测模型的预测错误率和所述初始预测模型中所述基分类器数量的对应关系；

根据所述对应关系确定所述预测模型中的基分类器的预设数量。

8.根据权利要求1所述的方法，其中，所述预设算法为随机深林算法；

采用所述目标训练集训练预设算法，以生成预测模型包括：

确定所述预测模型中的决策树的预设数量、以及每棵所述决策树中的非叶子节点的数量；

采用所述目标训练集训练所述随机深林算法，生成所述预测模型，其中所述预测模型由预设数量的所述决策树组合而成。

9.根据权利要求8所述的方法，其中，确定所述预测模型中的决策树的预设数量包括：

获取所述初始预测模型的预测错误率和所述初始预测模型中所述决策树的数量的对应关系；

根据所述对应关系确定所述预测模型中的所述决策树的预设数量。

10.根据权利要求8所述的方法，其中，确定所述预测模型中的每棵所述决策树中的非叶子节点的数量包括：

采用交叉验证法确定所述预测模型中的每棵所述决策树中的非叶子节点的数量。

11.一种训练用于预测客户交易行为的预测模型的装置，包括：

第一确定模块，用于根据客户样本数据集确定多个预选特征类型，其中所述客户样本数据集包括客户基本信息数据、以及客户针对目标产品的电话咨询信息数据；

第二确定模块，用于从多个所述预选特征类型中确定多个目标特征类型，其中所述目标特征类型为对客户购买行为结果的贡献度大于预设贡献度阈值、且每两个所述目标特征类型之间的相关性小于预设相关性阈值的数据类型；

筛选模块，用于从所述客户样本数据集中筛选出与所述目标特征类型相关的数据，以生成目标训练集；以及

训练模块，用于采用所述目标训练集训练预设算法，以生成预测模型。

12.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现权利要求1至10中任一项所述的方法。

14.一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，所述指令在被执行时用于实现权利要求1至10中任一项所述的方法。