CN112927012A

CN112927012A - 营销数据的处理方法及装置、营销模型的训练方法及装置

Info

Publication number: CN112927012A
Application number: CN202110202902.3A
Authority: CN
Inventors: 张孝丹
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-06-08

Abstract

本公开提供了一种营销数据的处理方法及装置、营销模型的训练方法及装置。该营销数据的处理方法包括：获取原始营销数据表，确定原始营销数据表中的不同营销数据表之间的数据配置关系，得到样本表；对样本表中的样本所对应的数据执行分布校验处理；基于分布校验处理后的数据进行自动特征生成处理以及特征筛选处理得到最终的特征，将最终的特征拼接到样本表中得到最终样本表。通过本公开，解决了相关技术中特征提取的过程复杂且耗时的问题。

Description

营销数据的处理方法及装置、营销模型的训练方法及装置

技术领域

本公开涉及数据挖掘领域，更具体地讲，涉及营销数据的处理方法及装置、营销模型的训练方法及装置。

背景技术

随着数据挖掘技术的不断发展，各个行业也逐渐开始用“机器学习模型”代替“专家规则”，来对指数增长的数据进行分析。“营销系统”就是一个成功的应用场景，“营销系统”指的是：个体差异性会导致不同的客户对营销活动产生不同的响应结果，某些公司为了通过更低的成本达到更高的营销响应率，从而优先对营销系统中的高潜力客户发起营销。

目前，“营销系统”通常是基于机器学习模型实现的，基于机器学习模型实现是指：从大量的数据中提取特征，再通过对应的标签构建出正负样本，选用合适的机器学习模型对构建的正负样本进行建模，从而得到模型。该实现方法通过历史数据训练模型，让模型拟合出数据分布情况，在某种程度上实现了自动化的营销系统，减少了人力成本。但是，该实现方法也存在如下缺点：提取特征需要丰富的经验，一般通过人工选择出可能有用的特征，是一项十分耗时的工作；模型参数的搜索空间通常较大，一般是通过人工设定，但人工设定难以得到合适的参数，例如随机森林模型中树的棵数，神经网络模型中网络的层数等等。

发明内容

本公开的示例性实施例在于提供一种营销数据的处理方法及装置、营销模型的训练方法及装置，其能够解决相关技术中特征提取的过程复杂且耗时的问题。

根据本公开的第一方面，提供了一种营销数据的处理方法，处理方法包括：获取原始营销数据表，确定原始营销数据表中的不同营销数据表之间的数据配置关系，得到样本表；对样本表中的样本所对应的数据执行分布校验处理；基于分布校验处理后的数据进行自动特征生成处理以及特征筛选处理得到最终的特征，将最终的特征拼接到样本表中得到最终样本表。

可选地，不同营销数据表包括营销记录表和营销结果表，确定原始营销数据表中的不同营销数据表之间的数据配置关系，得到样本表，包括：确定营销记录表和营销结果表之间的关联逻辑、时间字段以及营销数据选取范围，以得到样本表。

可选地，营销记录表中包括营销对象ID和对应的营销时间，营销结果表中包括营销反馈对象ID和对应的反馈时间；确定营销记录表和营销结果表之间的关联逻辑、时间字段以及营销数据选取范围，以得到样本表，包括：以营销记录表中的营销对象ID和对应的营销时间作为主键，以营销结果表中的营销反馈对象ID作为外键；对于营销记录表中的任一主键，在营销结果表中查找与主键中的营销对象ID匹配的营销反馈对象ID，得到初步筛选结果，然后以主键中的营销时间作为起始时间，在初步筛选结果中筛选反馈时间从起始时间起满足预设时间范围的数据记录；基于主键将筛选出的数据记录拼接至营销记录表中，得到样本表。

可选地，对于样本表中的每条样本所对应的数据中的连续数据，对样本表中的样本所对应的数据执行分布校验处理，包括：获取连续数据中每个字段的偏度；对偏度大于1的字段对应的数据执行ln运算，对偏度小于-1的字段对应的数据执行exp运算；基于ln运算或者exp运算的结果，调整连续数据的数据分布以趋近标准正态分布。

可选地，对于样本表中的每条样本所对应的数据中的离散数据，对样本表中的样本所对应的数据执行分布校验处理，包括：获取各离散数据在离散数据中的占比；按占比将离散数据从高到底进行排序；从排序后的离散数据中确定满足预设条件的目标离散数据；将目标离散数据之后的所有离散数据合并为一个离散值；其中，预设条件为：目标离散数据x_max(i,j)的i，j∈[1,n]且满足以下公式(1)，

其中，离散数据为{x1，x2，…，xn}，离散数据的占比为{p1，p2，…，pi，pj，…，pn}且p1≥p2≥…≥pi≥pj≥pn，n为大于等于1的正整数。

可选地，基于分布校验处理后的数据进行自动特征生成处理以及特征筛选处理得到最终的特征，包括：基于每条样本的分布校验处理后的数据构造组合特征，并基于构造的组合特征来构造时序特征得到每条样本的一阶特征；对每条样本的一阶特征，从一阶特征开始循环执行分布校验处理、构造组合特征和时序特征，直至得到的特征的阶数满足预设阶数阈值，停止循环，将得到的特征确定为高阶特征；在每条样本的高阶特征中筛选出满足预设筛选规则的高阶特征，得到最终的特征。

可选地，基于每条样本的分布校验处理后的数据构造组合特征，包括以下构造方式中的至少一种：分别对每条样本的分布校验处理后的数据中的连续数据执行相加、相减、相乘和相除处理中的至少一种，得到组合特征；分别对每条样本的分布校验处理后的数据中的离散数据执行独热编码交叉，得到组合特征；分别将每条样本的独热编码交叉结果与对应的连续数据相乘，得到组合特征。

可选地，基于构造的组合特征来构造时序特征得到每条样本的一阶特征，包括：获取样本表涉及的营销结果表中的营销反馈对象ID；对每个营销反馈对象ID对应的组合特征按预设时间段执行特征聚合，得到每条样本的一阶特征。

可选地，在每条样本的高阶特征中筛选出满足预设筛选规则的高阶特征，得到最终的特征，包括：获取每条样本的高阶特征的稳定度指标psi，将获取的psi小于预设稳定度指标阈值的高阶特征合并为第一高阶特征集；获取第一高阶特征集中每个高阶特征的信息值vi，对获取的vi大于预设信息值阈值的高阶特征进行排序并合并为第二高阶特征集；将第二高阶特征集作为最终的特征。将第二高阶特征集作为最终的特征。

根据本公开的第二方面，提供了一种营销模型的训练方法，训练方法包括：获取采用如上述所述的营销数据的处理方法得到的最终样本表；基于最终样本表进行模型训练，得到营销模型。

可选地，基于最终样本表进行模型训练，得到营销模型，包括：以最终样本表、初始iv顺序阈值为输入，以受试者工作特征曲线下的面积auc为输出，采用树状结构Parzen估计方法对随机森林模型、梯度提升决策树模型和逻辑回归模型分别进行训练；从训练好的随机森林模型、梯度提升决策树模型和逻辑回归模型中选取输出的auc最高的模型作为最终的训练好的营销模型。

可选地，采用树状结构Parzen估计方法对随机森林模型、梯度提升决策树模型和逻辑回归模型分别进行训练，包括：根据初始iv顺序阈值以及最终样本表中的最终的特征，从最终样本表中筛选出最终的特征大于等于初始iv顺序阈值的样本；将筛选出的样本分别输入到随机森林模型、梯度提升决策树模型和逻辑回归模型中，得到对应的auc；通过对应的auc调整初始iv顺序阈值、随机森林模型的参数、梯度提升决策树模型的参数和逻辑回归模型的参数，对随机森林模型、梯度提升决策树模型和逻辑回归模型进行训练。

根据本公开的第三方面，提供了一种营销数据的处理装置，处理装置包括：第一获取单元，用于获取原始营销数据表，确定原始营销数据表中的不同营销数据表之间的数据配置关系，得到样本表；分布校验单元，用于对样本表中的样本所对应的数据执行分布校验处理；第二获取单元，用于基于分布校验处理后的数据进行自动特征生成处理以及特征筛选处理得到最终的特征，将最终的特征拼接到样本表中得到最终样本表。

可选地，不同营销数据表包括营销记录表和营销结果表，第一获取单元，还用于确定营销记录表和营销结果表之间的关联逻辑、时间字段以及营销数据选取范围，以得到样本表。

可选地，营销记录表中包括营销对象ID和对应的营销时间，营销结果表中包括营销反馈对象ID和对应的反馈时间；第一获取单元，还用于以营销记录表中的营销对象ID和对应的营销时间作为主键，以营销结果表中的营销反馈对象ID作为外键；对于营销记录表中的任一主键，在营销结果表中查找与主键中的营销对象ID匹配的营销反馈对象ID，得到初步筛选结果，然后以主键中的营销时间作为起始时间，在初步筛选结果中筛选反馈时间从起始时间起满足预设时间范围的数据记录；基于主键将筛选出的数据记录拼接至营销记录表中，得到样本表。

可选地，对于样本表中的每条样本所对应的数据中的连续数据，分布校验单元，还用于获取连续数据中每个字段的偏度；对偏度大于1的字段对应的数据执行ln运算，对偏度小于-1的字段对应的数据执行exp运算；基于ln运算或者exp运算的结果，调整连续数据的数据分布以趋近标准正态分布。

可选地，对于样本表中的每条样本所对应的数据中的离散数据，分布校验单元，还用于获取各离散数据在离散数据中的占比；按占比将离散数据从高到底进行排序；从排序后的离散数据中确定满足预设条件的目标离散数据；将目标离散数据之后的所有离散数据合并为一个离散值；其中，预设条件为：目标离散数据x_max(i,j)的i，j∈[1,n]且满足以下公式(1)，

可选地，第二获取单元，还用于基于每条样本的分布校验处理后的数据构造组合特征，并基于构造的组合特征来构造时序特征得到每条样本的一阶特征；对每条样本的一阶特征，从一阶特征开始循环执行分布校验处理、构造组合特征和时序特征，直至得到的特征的阶数满足预设阶数阈值，停止循环，将得到的特征确定为高阶特征；在每条样本的高阶特征中筛选出满足预设筛选规则的高阶特征，得到最终的特征。

可选地，第二获取单元，还用于分别对每条样本的分布校验处理后的数据中连续数据执行相加、相减、相乘和相除处理中的至少一种，得到组合特征；分别对每条样本的分布校验处理后的数据中离散数据执行独热编码交叉，得到组合特征；或，分别将每条样本的独热编码交叉结果与对应的连续数据相乘，得到组合特征。

可选地，第二获取单元，还用于获取样本表涉及的营销结果表中的营销反馈对象ID；对每个营销反馈对象ID对应的组合特征按预设时间段执行特征聚合，得到每条样本的一阶特征。

可选地，第二获取单元，还用于获取每条样本的高阶特征的稳定度指标psi，将获取的psi小于预设稳定度指标阈值的高阶特征合并为第一高阶特征集；获取第一高阶特征集中每个高阶特征的信息值vi，对获取的vi大于预设信息值阈值的高阶特征进行排序并合并为第二高阶特征集；将第二高阶特征集作为最终的特征。

根据本公开的第四方面，提供了一种营销模型的训练装置，训练装置包括：第一获取单元，用于获取采用上述所述的营销数据的处理方法得到的最终样本表；训练单元，用于基于最终样本表和初始iv顺序阈值进行模型训练，得到营销模型。

可选地，训练单元，还用于以最终样本表、初始iv顺序阈值为输入，以受试者工作特征曲线下的面积auc为输出，采用树状结构Parzen估计方法对随机森林模型、梯度提升决策树模型和逻辑回归模型分别进行训练；从训练好的随机森林模型、梯度提升决策树模型和逻辑回归模型中选取输出的auc最高的模型作为最终的训练好的营销模型。

可选地，训练单元，还用于根据初始iv顺序阈值以及最终样本表中的最终的特征，从最终样本表中筛选出最终的特征大于等于初始iv顺序阈值的样本；将筛选出的样本分别输入到随机森林模型、梯度提升决策树模型和逻辑回归模型中，得到对应的auc；通过对应的auc调整初始iv顺序阈值、随机森林模型的参数、梯度提升决策树模型的参数和逻辑回归模型的参数，对随机森林模型、梯度提升决策树模型和逻辑回归模型进行训练。

根据本公开的第五方面，提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个计算装置运行时，促使至少一个计算装置执行如上的营销数据的处理方法和的营销模型的训练方法。

根据本公开的第六方面，提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，指令在被至少一个计算装置运行时，促使至少一个计算装置执行如上的营销数据的处理方法和的营销模型的训练方法。

根据本示例性实施例的营销数据的处理方法及装置，通过确定获取的原始营销数据表中的不同营销数据表之间的数据配置关系，得到样本表，对得到的样本表中的样本所对应的数据执行分布校验处理，基于分布校验处理后的数据进行自动特征生成处理以及特征筛选处理得到最终的特征，将最终的特征拼接到样本表中得到最终样本表。通过本公开，可以自动生成特征，无需人参与，且在生成特征前，对数据进行分布校验处理以及在生成特征后对生成的特征进行筛选，有效避免了生成低价值特征的问题，因此，本申请解决了相关技术中特征提取的过程复杂且耗时的问题。另外，根据本示例性实施例的营销模型的训练方法及装置，采用上述实施例获取的最终样本表对模型进行训练，可以训练得到较好效果的模型。

将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本公开总体构思的实施而得知。

附图说明

通过下面结合示例性地示出实施例的附图进行的描述，本公开的示例性实施例的上述和其他目的和特点将会变得更加清楚，其中：

图1示出本公开示例性实施例的营销数据的处理方法的流程图；

图2示出本公开示例性实施例的生成高阶特征的流程图；

图3示出本公开示例性实施例的营销模型的训练方法的流程图；

图4示出本公开示例性实施例的整体流程的流程图；

图5示出本公开示例性实施例的营销数据的处理装置的结构框图；

图6示出本公开示例性实施例的营销模型的训练装置的结构框图。

具体实施方式

提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本发明的实施例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本发明的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

现将详细参照本公开的实施例，所述实施例的示例在附图中示出。以下将通过参照附图来说明所述实施例，以便解释本发明。

图1示出本公开示例性实施例的营销数据的处理方法的流程图。

参照图1，在步骤S101中，获取原始营销数据表，确定原始营销数据表中的不同营销数据表之间的数据配置关系，得到样本表。对于营销系统而言，上述不同营销数据表可以包括但不限于营销记录表和营销结果表。

在本公开的一个实施例中，不同营销数据表包括营销记录表和营销结果表，上述确定原始营销数据表中的不同营销数据表之间的数据配置关系，得到样本表，可以通过如下方式实现：确定营销记录表和营销结果表之间的关联逻辑、时间字段以及营销数据选取范围，以得到样本表。通过本实施例，通过确定营销记录表和营销结果表之间的关联逻辑、时间字段以及营销数据选取范围，可以方便快速的得到样本表。

在本公开的一个实施例中，营销记录表中包括营销对象ID和对应的营销时间，营销结果表中包括营销反馈对象ID和对应的反馈时间，上述确定营销记录表和营销结果表之间的关联逻辑、时间字段以及营销数据选取范围，以得到样本表，可以通过如下方式实现：以营销记录表中的营销对象ID和对应的营销时间作为主键，以营销结果表中的营销反馈对象ID作为外键；对于营销记录表中的任一主键，在营销结果表中查找与主键中的营销对象ID匹配的营销反馈对象ID，得到初步筛选结果，然后以主键中的营销时间作为起始时间，在初步筛选结果中筛选反馈时间从起始时间起满足预设时间范围的数据记录；基于主键将筛选出的数据记录拼接至营销记录表中，得到样本表。

例如，用户可以通过指定营销记录表和营销结果表之间的关联逻辑、日期字段(相当于上述时间字段)、营销行为的观察期天数(相当于上述营销数据选取范围)，自动构建样本表。如果营销的内容是可以反复购买的产品(如理财产品)或可以反复办理的业务(如贷款分期业务)，营销后可以有多次反馈行为，则营销记录表和营销结果表是“一对多”的关系；如果营销的内容是只能办理一次的业务(如开通某类型的银行账户)，营销后最多有一次反馈行为，则营销记录表和营销结果表是“一对一”的关系。

下面以表1中所示的营销记录表和表2所示的营销结果表为例，对样本表的构建进行说明。

表1营销记录表

dt	user_id
		2020-01-01	Abate
2020-01-01	Paolo
		2020-01-01	Sergio
2020-01-12	Paolo
		2020-01-12	Rebic

上述营销记录表中有两列：营销时间dt列和营销对象user_id列，这两列联合作为唯一主键(唯一主键的含义是：该表中不可能有两行存在相同的dt值和user_id值)，dt作为日期字段。

表2营销结果表

上述营销结果表记录了营销对象对营销内容的反馈时间(以营销理财产品为例，则营销结果表中记录了客户购买理财产品的时间)。营销结果表中有两列：反馈时间feedback_dt列和营销反馈对象feedback_user_id列，其中feedback_user_id为用于关联营销记录表的外键，feedback_dt作为日期字段。

在指定营销记录表和营销结果表之间的关联逻辑和日期字段后，需要设定营销行为的观察期天数。比如设定营销行为的观察期天数是7天，从营销记录表中任意取一条数据(dt＝’2020-01-01’,user_id＝’Abate’)，则寻找7天内对应的反馈记录(feedback_dt＝’2020-01-03’,feedback_user_id＝’Abate’)和(feedback_dt＝’2020-01-05’,feedback_user_id＝’Abate’)。如有反馈记录则标记为1，无反馈记录则标记为0，最终生成样本表如下表3所示：

表3样本表

dt	user_id	label
			2020-01-01	Abate	1
2020-01-01	Paolo	0
			2020-01-01	Sergio	0
2020-01-12	Paolo	1
			2020-01-12	Rebic	0

返回图1，在步骤S102中，对样本表中的样本所对应的数据执行分布校验处理。具体的分布校验处理可以通过如下但不限于如下方式实现。

在本公开的一个实施例中，对于样本表中的每条样本所对应的数据中的连续数据，对样本表中的样本所对应的数据执行分布校验处理，可以通过如下方式实现：获取连续数据中每个字段的偏度；对偏度大于1的字段对应的数据执行ln运算，对偏度小于-1的字段对应的数据执行exp运算；基于ln运算或者exp运算的结果，调整连续数据的数据分布以趋近标准正态分布。通过本实施例，可以在保留原有数据列的基础上，增加无明显左偏或右偏的数据列。需要说明的是，偏度(skewness)是统计数据分布偏斜方向和程度的度量，也是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数，可以表征概率分布密度曲线相对于平均值不对称程度的特征数，直观看来就是密度函数曲线尾部的相对长度。而ln为以无理数e(e＝2.71828...)为底的对数称为自然对数(natural logarithm)。exp为以自然常数e为底的指数函数。

在本公开的一个实施例中，对于样本表中的每条样本所对应的数据中的离散数据，对样本表中的样本所对应的数据执行分布校验处理，可以通过如下方式实现：获取各离散数据在离散数据中的占比；按占比将离散数据从高到底进行排序；从排序后的离散数据中确定满足预设条件的目标离散数据；将目标离散数据之后的所有离散数据合并为一个离散值；其中，预设条件为：目标离散数据x_max(i,j)的i，j∈[1,n]且满足以下公式(1)，

其中，离散数据为{x1，x2，…，xn}，离散数据的占比为{p1，p2，…，pi，pj，…，pn}且p1≥p2≥…≥pi≥pj≥pn，n为大于等于1的正整数。因为出现比例过小的离散值，本身带有的信息量不大，通过本实施例，将这些离散值进行合并可以避免比例过小的离散值在后续的特征衍生过程中带来大量计算量。

参照图1，在步骤S103中，基于分布校验处理后的数据进行自动特征生成处理以及特征筛选处理得到最终的特征，将最终的特征拼接到样本表中得到最终样本表。

在本公开的一个实施例中，基于分布校验处理后的数据进行自动特征生成处理以及特征筛选处理得到最终的特征，包括：基于每条样本的分布校验处理后的数据构造组合特征，并基于构造的组合特征来构造时序特征得到每条样本的一阶特征；对每条样本的一阶特征，从一阶特征开始循环执行分布校验处理、构造组合特征和时序特征，直至得到的特征的阶数满足预设阶数阈值，停止循环，将得到的特征确定为高阶特征；在每条样本的高阶特征中筛选出满足预设筛选规则的高阶特征，得到最终的特征。通过本实施例，基于每条样本的分布校验处理后的数据构造组合特征和时序特征，以得到最终的特征，有助于获取更丰富的样本表。

在本公开的一个实施例中，基于每条样本的分布校验处理后的数据构造组合特征，包括以下构造方式中的至少一种：分别对每条样本的分布校验处理后的数据中的连续数据执行相加、相减、相乘和相除处理中的至少一种，得到组合特征；分别对每条样本的分布校验处理后的数据中的离散数据执行独热编码交叉，得到组合特征；分别将每条样本的独热编码交叉结果与对应的连续数据相乘，得到组合特征。通过本实施例，可以通过多种方式得到组合特征，提高了获取组合特征的灵活性，也提高了获取的组合特征的丰富度。

在本公开的一个实施例中，基于构造的组合特征来构造时序特征得到每条样本的一阶特征，包括：获取样本表涉及的营销结果表中的营销反馈对象ID；对每个营销反馈对象ID对应的组合特征按预设时间段执行特征聚合，得到每条样本的一阶特征。上述特征聚合包括但不限于连续数据的平均值、中位数、最大值、最小值、标准差、偏度、峰度，离散数据的频率统计、target编码和证据权重(Weight of Evidence，简称为woe)编码，其中，target编码是指包含该离散值的样本中，正样本占所有样本的比例。通过本实施例，通过对每个营销反馈对象ID对应的组合特征按预设时间段执行特征聚合，有助于获取更丰富的样本。

例如，以表4所示的数据表为例来说明上述实施例中构建时序特征的过程，表4所示的数据表是表3所示的样本表中部分样本所对应的数据表，具体如下：

表4数据表

dt	user_id	label	txn_amt_sum_10d	txn_amt_avg_10d
					2020-01-01	Abate	1	Null	Null
2020-01-01	Paolo	0	200	200
					2020-01-01	Sergio	0	Null	Null
2020-01-12	Paolo	1	500	500
					2020-01-12	Rebic	0	700	350

以构建10天内交易金额的时序特征为例，从如表3所示的样本表中任意取一条数据(dt＝’2020-01-12’,user_id＝’Rebic’)，通过表4可知10天内的交易数据有(txn_dt＝’2020-01-04’,user_id＝’Rebic’,txn_amt＝’300’)和(txn_dt＝’2020-01-05’,user_id＝’Rebic’,txn_amt＝’400’)。则可以统计时窗内交易金额和总和及平均值，依次获取样本表中的每一条数据的统计时窗内交易金额和总和及平均值，并将其拼接在样本表3后，得到：

表5 10天内交易金额的时序特征表

基于分布校验处理后的数据构造组合特征和时序特征，即完成了一阶特征的构造，也即上述表5。对于一阶特征再次进行分布校验处理处理、构造组合特征和时序特征，即完成了二阶特征的构造，以此类推，直至得到的特征的阶数满足预设阶数阈值，停止循环，将得到的特征确定为高阶特征，流程示意图如图2所示。

在本公开的一个实施例中，在每条样本的高阶特征中筛选出满足预设筛选规则的高阶特征，得到最终的特征，包括：获取每条样本的高阶特征的稳定度指标psi，将获取的psi小于预设稳定度指标阈值的高阶特征合并为第一高阶特征集；获取第一高阶特征集中每个高阶特征的信息值vi，对获取的vi大于预设信息值阈值的高阶特征进行排序并合并为第二高阶特征集；将第二高阶特征集作为最终的特征。将第二高阶特征集作为最终的特征。通过本实施例，引入psi指标进行特征筛选，可以解决当生成的特征数量较多时增加计算量以及降低“自动调参”的效率的问题，也可以解决生成的特征数量较多时包含大量的“低价值特征”，使数据中包含更多的噪音降低模型效果的问题。

例如，在得到高阶特征后，可以先计算所有高阶特征的稳定度指标(populationstability index，简称为psi)，保留psi值≤0.25的特征，再计算所有高阶特征的信息值(information value，简称iv)，删除所有iv值≤0.02的特征，然后可以对所有高阶特征按照iv值从高至低的顺序进行排序，最后，根据iv顺序阈值，选取排序在iv顺序阈值之前的特征，将其作为最终的特征。具体的iv顺序阈值可以通过树状结构Parzen估计方法同模型一起进行训练得到，后面详细进行表述，此处不在展开说明。

参照图3，在步骤S301中，获取采用如上述所述的营销数据的处理方法得到的最终样本表。需要说明的是，获取最终样本表的过程已经在上面实施例中详细论处，此处不在展开论述。

参照图3，在步骤S302中，基于最终样本表进行模型训练，得到营销模型。

在本公开的一个实施例中，基于最终样本表进行模型训练，得到营销模型，包括：以最终样本表、初始iv顺序阈值为输入，以受试者工作特征曲线下的面积auc为输出，采用树状结构Parzen估计方法对随机森林模型、梯度提升决策树模型和逻辑回归模型分别进行训练；从训练好的随机森林模型、梯度提升决策树模型和逻辑回归模型中选取输出的auc最高的模型作为最终的训练好的营销模型。通过本实施例，采用树状结构Parzen估计方法，在保证调参结果的前提下，提升了计算效率；而且，在模型选择中增加了梯度提升决策树模型(Gradient Boosting Decision Treegbdt，简称为gbdt)和逻辑回归，由于gbdt相较随机森林具有更好的拟合能力，可以有效减少偏差，而逻辑回归是线性模型，具有更好的可解释性，并且对于小数据集有更好的泛化性。

需要说明的是，auc(Area Under Curve)被定义为ROC曲线下的面积，通常使用auc值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应auc更大的分类器效果更好。其中，ROC曲线全称为受试者工作特征曲线(receiver operating characteristic curve)，它是根据一系列不同的二分类方式(分界值或决定阈)，以真阳性率(敏感性)为纵坐标，假阳性率(1-特异性)为横坐标绘制的曲线。auc就是衡量学习器优劣的一种性能指标。从定义可知，auc可通过对ROC曲线下各部分的面积求和而得。

在本公开的一个实施例中，采用树状结构Parzen估计方法对随机森林模型、梯度提升决策树模型和逻辑回归模型分别进行训练，包括：根据初始iv顺序阈值以及最终样本表中的最终的特征，从最终样本表中筛选出最终的特征大于等于初始iv顺序阈值的样本；将筛选出的样本分别输入到随机森林模型、梯度提升决策树模型和逻辑回归模型中，得到对应的auc；通过对应的auc调整初始iv顺序阈值、随机森林模型的参数、梯度提升决策树模型的参数和逻辑回归模型的参数，对随机森林模型、梯度提升决策树模型和逻辑回归模型进行训练。通过本实施例，采用树状结构Parzen估计方法(Tree-structured ParzenEstimator)进行iv顺序阈值的寻优，可以解决iv值阈值不具有泛用性的问题。

为了方便理解上述实施例，下面将营销数据的处理方法和营销数据的训练方法结合进行说明，图4示出本公开示例性实施例的整体流程的流程图。如图4所示，整体流程包括如下步骤：

步骤S401，获得数据源。对于营销系统而言，数据源主要分为营销记录表和营销结果表。

步骤S402，通过表1中所示的营销记录表和表2所示的营销结果表，配置二者的关联逻辑，日期字段和观察天数，构建样本表，具体构建过程上述实施例已经详细论述，此处不在展开论述。

步骤S403，自动生成特征。该步骤首先对样本表所对应的原始数据进行分布校验处理，然后基于分布校验处理后的数据构造组合特征和时序特征，并依次产生高阶特征。

数据的分布校验处理分为连续数据和离散数据两部分，其中，连续数据通过偏度计算，即，计算连续数据中每个字段的偏度，对于偏度大于1的字段对应的数据进行ln运算，对于偏度小于-1的字段对应的数据进行exp运算，基于ln运算或者exp运算的结果，调整所述连续数据的数据分布以趋近标准正态分布，从而在保留原有数据列的基础上，增加无明显左偏或右偏的数据列。离散数据通过各离散值的占比，按离散值出现的比率从高到低排列，即对于离散数据{x₁，x₂，…，x_n}对应出现的比率{p₁，p₂，…，p_i，p_j，…，p_n}且p₁≥p₂≥…≥p_i≥p_j≥p_n。寻找i,j∈[1,n]满足如下公式的，

将x_max(i,j)之后的所有离散值合并为同一个离散值。这么做是因为出现比例过小的离散值，本身带有的信息量不大，且会在后续的特征衍生过程中带来大量计算量，所以将这些离散值进行合并，完成离散值的合并后，对离散值进行one-hot编码。

构建组合特征是指对样本表所对应的原始数据进行两两组合，可以包括但不限于连续数据的相加、相减、相乘、相除，离散数据one-hot编码的交叉，连续数据和离散数据one-hot编码的相乘。

构建时序特征是指按照数据表的关联外键根据时窗(即上面提到10天)做聚合特征，具体可以包括连续数据的平均值、中位数、最大值、最小值、标准差、偏度、峰度，离散数据的频率统计、target编码和woe编码。这里的target编码是指包含该离散值的样本中，正样本占所有样本的比例。

得到部分特征如表5所示，此处不在展开说明。基于分布校验处理后的数据构造组合特征和时序特征，即完成了一阶特征的构造，也即表5。对于一阶特征再次进行分布校验处理处理、构造组合特征和时序特征，即完成了二阶特征的构造，以此类推，直至得到的特征的阶数满足预设阶数阈值，停止循环，将得到的特征确定为高阶特征，流程示意图如图2所示。

步骤S404，特征筛选。由于步骤S403中会生成大量特征，如果对这些特征不加以选择直接使用，会存在以下问题：当生成的特征数量较多时，会增加计算量，降低“自动调参”的效率；当生成的特征较多时，会包含大量的“低价值特征”，使数据中包含更多的噪音，不利于模型效果。该步骤主要从生成的大量特征中选出部分价值较高的特征。具体筛选过程上面已经详细论述，此处不在展开。

步骤S405，模型选择。对于营销系统而言，可以选用随机森林、gbdt、逻辑回归来作为模型。

步骤S406，自动调参。该步骤选用树状结构Parzen估计方法(Tree-structuredParzen Estimator)，来对模型参数进行调参，需要说明的是，相较于类贝叶斯优化方法中，树状结构Parzen估计方法具有较快的运算效率且在高维度的搜索空间中有较好的参数寻优表现。

需要通过树状结构Parzen估计方法来寻优的参数可以包括三类：iv顺序阈值、应用于逻辑回归的特征分箱参数、模型的本身的超参数。需要说明的是，后面两者可以统一看作模型的参数。

iv顺序阈值，是指在按iv值排序后排在预定阈值位置的特征，具体iv顺序阈值可以在排序后特征中的头部10％到头部100％之间寻优。

应用于逻辑回归的特征分箱参数，是指特征分箱方式(不分箱、等频分箱、等距分箱)、分箱数量。采用分箱方式可以提高拟合能力，从而解决线性模型(逻辑回归)拟合能力较弱的问题。具体的分箱参数通过树状结构Parzen估计方法进行寻优。

模型的本身的超参数，需要优化的随机森林和gbdt的超参数可以包括如下参数：树的棵数、数的最大深度、学习率、正则项权重、叶子节点上最少样例数、分裂内部节点需要最少的样例数、正则项权重；逻辑回归的超参数可以包括如下参数：训练轮数、学习率、正则项权重。

可以设定auc作为超参调优的目标，对每个模型都运行参数寻优一定轮数后，取其中auc值最高的模型作为最终模型。

图5示出根据本公开示例性实施例的营销数据的处理装置的结构框图。如图5所示，该处理装置包括：第一获取单元50、分布校验单元52和第二获取单元54。

第一获取单元50，用于获取原始营销数据表，确定原始营销数据表中的不同营销数据表之间的数据配置关系，得到样本表；分布校验单元52，用于对样本表中的样本所对应的数据执行分布校验处理；第二获取单元54，用于基于分布校验处理后的数据进行自动特征生成处理以及特征筛选处理得到最终的特征，将最终的特征拼接到样本表中得到最终样本表。

在本公开的一个实施例中，不同营销数据表包括营销记录表和营销结果表，第一获取单元50，还用于确定营销记录表和营销结果表之间的关联逻辑、时间字段以及营销数据选取范围，以得到样本表。

在本公开的一个实施例中，营销记录表中包括营销对象ID和对应的营销时间，营销结果表中包括营销反馈对象ID和对应的反馈时间；第一获取单元50，还用于以营销记录表中的营销对象ID和对应的营销时间作为主键，以营销结果表中的营销反馈对象ID作为外键；对于营销记录表中的任一主键，在营销结果表中查找与主键中的营销对象ID匹配的营销反馈对象ID，得到初步筛选结果，然后以主键中的营销时间作为起始时间，在初步筛选结果中筛选反馈时间从起始时间起满足预设时间范围的数据记录；基于主键将筛选出的数据记录拼接至营销记录表中，得到样本表。

在本公开的一个实施例中，对于样本表中的每条样本所对应的数据中的连续数据，分布校验单元52，还用于获取连续数据中每个字段的偏度；对偏度大于1的字段对应的数据执行ln运算，对偏度小于-1的字段对应的数据执行exp运算；基于ln运算或者exp运算的结果，调整连续数据的数据分布以趋近标准正态分布。

在本公开的一个实施例中，对于样本表中的每条样本所对应的数据中的离散数据，分布校验单元52，还用于获取各离散数据在离散数据中的占比；按占比将离散数据从高到底进行排序；从排序后的离散数据中确定满足预设条件的目标离散数据；将目标离散数据之后的所有离散数据合并为一个离散值；其中，预设条件为：目标离散数据x_max(i,j)的i，j∈[1,n]且满足以下公式(1)，

在本公开的一个实施例中，第二获取单元54，还用于基于每条样本的分布校验处理后的数据构造组合特征，并基于构造的组合特征来构造时序特征得到每条样本的一阶特征；对每条样本的一阶特征，从一阶特征开始循环执行分布校验处理、构造组合特征和时序特征，直至得到的特征的阶数满足预设阶数阈值，停止循环，将得到的特征确定为高阶特征；在每条样本的高阶特征中筛选出满足预设筛选规则的高阶特征，得到最终的特征。

在本公开的一个实施例中，第二获取单元54，还用于分别对每条样本的分布校验处理后的数据中连续数据执行相加、相减、相乘和相除处理中的至少一种，得到组合特征；分别对每条样本的分布校验处理后的数据中离散数据执行独热编码交叉，得到组合特征；或，分别将每条样本的独热编码交叉结果与对应的连续数据相乘，得到组合特征。

在本公开的一个实施例中，第二获取单元54，还用于获取样本表涉及的营销结果表中的营销反馈对象ID；对每个营销反馈对象ID对应的组合特征按预设时间段执行特征聚合，得到每条样本的一阶特征。

在本公开的一个实施例中，第二获取单元54，还用于获取每条样本的高阶特征的稳定度指标psi，将获取的psi小于预设稳定度指标阈值的高阶特征合并为第一高阶特征集；获取第一高阶特征集中每个高阶特征的信息值vi，对获取的vi大于预设信息值阈值的高阶特征进行排序并合并为第二高阶特征集；将第二高阶特征集作为最终的特征。

图6示出根据本公开示例性实施例的营销模型的训练装置的结构框图。如图6所示，该训练装置包括：第一获取单元60和训练单元62。

第一获取单元60，用于获取采用上述所述的营销数据的处理方法得到的最终样本表；训练单元62，用于基于最终样本表和初始iv顺序阈值进行模型训练，得到营销模型。

在本公开的一个实施例中，训练单元62，还用于以最终样本表、初始iv顺序阈值为输入，以受试者工作特征曲线下的面积auc为输出，采用树状结构Parzen估计方法对随机森林模型、梯度提升决策树模型和逻辑回归模型分别进行训练；从训练好的随机森林模型、梯度提升决策树模型和逻辑回归模型中选取输出的auc最高的模型作为最终的训练好的营销模型。

在本公开的一个实施例中，训练单元62，还用于根据初始iv顺序阈值以及最终样本表中的最终的特征，从最终样本表中筛选出最终的特征大于等于初始iv顺序阈值的样本；将筛选出的样本分别输入到随机森林模型、梯度提升决策树模型和逻辑回归模型中，得到对应的auc；通过对应的auc调整初始iv顺序阈值、随机森林模型、梯度提升决策树模型和逻辑回归模型的参数，对随机森林模型、梯度提升决策树模型和逻辑回归模型进行训练。

以上已参照图1至图6描述了根据本公开示例性实施例的营销数据的处理方法及装置、营销模型的训练方法及装置。

图5和图6所示出的装置中的各个单元可被配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，各个单元可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，各个单元所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

此外，参照图1所示营销数据的处理方法和图3所示的营销模型的训练方法可通过记录在计算机可读存储介质上的程序(或指令)来实现。例如，根据本公开的示例性实施例，可提供存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行根据本公开的营销数据的处理方法和的营销模型的训练方法。

上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经在参照图1进行相关方法的描述过程中提及，因此这里为了避免重复将不再进行赘述。

应注意，根据本公开示例性实施例的图5和图6所示出的装置中的各个单元可完全依赖计算机程序的运行来实现相应的功能，即，各个单元在计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，图5和图6所示出的装置中所示的各个单元也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，本公开的示例性实施例还可以实现为计算装置，该计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当计算机可执行指令集合被处理器执行时，执行根据本公开的示例性实施例的营销数据的处理方法和的营销模型的训练方法。

具体说来，计算装置可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点装置上。此外，计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，计算装置并非必须是单个的计算装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在计算装置中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

根据本公开示例性实施例的营销数据的处理方法和的营销模型的训练方法中所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码，其中，存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。

此外，计算装置还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。

根据本公开示例性实施例的营销数据的处理方法和的营销模型的训练方法可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。

因此，参照图1所示营销数据的处理方法和图3所示的营销模型的训练方法可通过包括至少一个计算装置和至少一个存储指令的存储装置的系统来实现。

根据本公开的示例性实施例，至少一个计算装置是根据本公开示例性实施例的营销数据的处理方法和的营销模型的训练方法的计算装置，存储装置中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个计算装置执行时，执行参照图1所示营销数据的处理方法和图3所示的营销模型的训练方法。

以上描述了本公开的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本公开不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本公开的保护范围应该以权利要求的范围为准。

Claims

1.一种营销数据的处理方法，其特征在于，所述处理方法包括：

获取原始营销数据表，确定所述原始营销数据表中的不同营销数据表之间的数据配置关系，得到样本表；

对所述样本表中的样本所对应的数据执行分布校验处理；

基于分布校验处理后的数据进行自动特征生成处理以及特征筛选处理得到最终的特征，将最终的特征拼接到所述样本表中得到最终样本表。

2.根据权利要求1所述的处理方法，其特征在于，所述不同营销数据表包括营销记录表和营销结果表，

所述确定所述原始营销数据表中的不同营销数据表之间的数据配置关系，得到样本表，包括：

确定营销记录表和营销结果表之间的关联逻辑、时间字段以及营销数据选取范围，以得到所述样本表。

3.根据权利要求2所述的处理方法，其特征在于，所述营销记录表中包括营销对象ID和对应的营销时间，所述营销结果表中包括营销反馈对象ID和对应的反馈时间；

所述确定营销记录表和营销结果表之间的关联逻辑、时间字段以及营销数据选取范围，以得到所述样本表，包括：

以所述营销记录表中的营销对象ID和对应的营销时间作为主键，以营销结果表中的营销反馈对象ID作为外键；

对于所述营销记录表中的任一主键，在营销结果表中查找与所述主键中的营销对象ID匹配的营销反馈对象ID，得到初步筛选结果，然后以所述主键中的营销时间作为起始时间，在所述初步筛选结果中筛选反馈时间从起始时间起满足预设时间范围的数据记录；

基于所述主键将筛选出的数据记录拼接至所述营销记录表中，得到所述样本表。

4.根据权利要求1所述的处理方法，其特征在于，对于所述样本表中的每条样本所对应的数据中的连续数据，所述对所述样本表中的样本所对应的数据执行分布校验处理，包括：

获取所述连续数据中每个字段的偏度；

对偏度大于1的字段对应的数据执行ln运算，对偏度小于-1的字段对应的数据执行exp运算；

基于ln运算或者exp运算的结果，调整所述连续数据的数据分布以趋近标准正态分布。

5.根据权利要求1所述的处理方法，其特征在于，对于所述样本表中的每条样本所对应的数据中的离散数据，所述对所述样本表中的样本所对应的数据执行分布校验处理，包括：

获取各离散数据在所述离散数据中的占比；

按所述占比将所述离散数据从高到底进行排序；

从排序后的离散数据中确定满足预设条件的目标离散数据；

将所述目标离散数据之后的所有离散数据合并为一个离散值；

其中，所述预设条件为：目标离散数据x_max(i,j)的i，j∈[1,n]且满足以下公式(1)，

其中，离散数据为{x₁，x₂，…，x_n}，离散数据的占比为{p₁，p₂，…，p_i，p_j，…，p_n}且p₁≥p₂≥…≥p_i≥p_j≥p_n，n为大于等于1的正整数。

6.一种营销模型的训练方法，其特征在于，所述训练方法包括：

获取采用如权利要求1-5中任一项所述的营销数据的处理方法得到的最终样本表；

基于最终样本表进行模型训练，得到营销模型。

7.一种营销数据的处理装置，其特征在于，所述处理装置包括：

第一获取单元，用于获取原始营销数据表，确定所述原始营销数据表中的不同营销数据表之间的数据配置关系，得到样本表；

分布校验单元，用于对所述样本表中的样本所对应的数据执行分布校验处理；

第二获取单元，用于基于分布校验处理后的数据进行自动特征生成处理以及特征筛选处理得到最终的特征，将最终的特征拼接到所述样本表中得到最终样本表。

8.一种营销模型的训练装置，其特征在于，所述训练装置包括：

第一获取单元，用于获取采用如权利要求7所述的营销数据的处理方法得到的最终样本表；

训练单元，用于基于最终样本表和初始iv顺序阈值进行模型训练，得到营销模型。

9.一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至5中的任一权利要求所述的营销数据的处理方法和如权利要求6所述的营销模型的训练方法。

10.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至5中的任一权利要求所述的营销数据的处理方法和如权利要求6所述的营销模型的训练方法。