CN112287991A

CN112287991A - 基于L1-正则化逻辑回归和GBDT的dpi特征选择方法

Info

Publication number: CN112287991A
Application number: CN202011154970.9A
Authority: CN
Inventors: 项亮; 潘信法
Original assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-01-29
Anticipated expiration: 2040-10-26
Also published as: CN112287991B

Abstract

一种基于L1‑正则化逻辑回归和GBDT的dpi特征选择方法，其包括计算每个A_i的dpi的权重weight_i值步骤、计算每个dpi的n_split值步骤、计算每个dpi的平均增益gain_i值步骤和有效特征集成步骤。即在作特征删除时，既考虑了线性模型的结果又考虑了非线性模型的结果，避免了单一模型对特征重要性做评价的不足；同时使用三种不同原理的评价指标对特征进行评价，也考虑了运营商数据的特点，将dpi的访问情况和访问频次做了综合考虑，最后的投票机制也保证了尽可能的不丢失有效特征。因此，本发明实现了在模型预测效果略有增加的同时减少了无关用户的获取，增加了利润同时又减少了取数成本。

Description

基于L1-正则化逻辑回归和GBDT的dpi特征选择方法

技术领域

本发明涉及人工智能在互联网营销的技术领域，更具体地，涉及一种基于L1-正则化逻辑回归和GBDT的dpi特征选择方法。

背景技术

随着互联网行业市场竞争的日益激烈，应用大数据已经成为互联网营销的新方式，即互联网运营商大数据精准获客系统应运而生。大数据智能获客系统，以运营商大数据库为中心，直接抓取符合自定义条件用户的联系方式，直接与客户进行沟通，降低企业获客成本，提高企业利润。

具体地，从运行商角度看，其往往能够获取大量的用户dpi访问情况和访问频次数据，但是，并不是所有的dpi访问情况都对用户的广告点击行为有关联，更有甚者，这些没有关联的dpi访问情况不仅不会对用户广告点击概率模型的预测能力有提升，还会因为特征冗余从而造成模型的过拟合。

此外，这些没有关联dpi访问情况除了所包含的用户对其点击行为并没有提升外，这些多出来的用户无形之间会增加取数成本。因此，业界对运营商dpi特征重要性评价是急需解决的问题。

目前，对运营商dpi特征重要性评价存在以下两个难点：

第一：由于dpi特征通常分为dpi是否访问和dpi访问频次，因此，对于一个dpi_A来说，这两方面特征的重要性都要纳入考虑，如仅根据dpi_A的访问频次来确定重要性高低的话，即如果dpi_A的访问频次低，就认为该dpi不重要，这是不合理的；

第二：使用运营商数据进行大数据精准获客处理时，所构建的模型可以线性模型又可以构建非线性模型，然而，如何统一线性模型和非线性模型二者对dpi特征重要性评价的标准也是一个关键问题。

目前的解决方法通常采用L1-正则化和梯度提升决策树(Gradient BoostingDecision tree,GBDT)模型的方法，L1-正则化方法能够在参数更新的同时得到稀疏解，从而实现对无关特征进行剔除。但是L1-惩罚项也会使得非零参数也受到约束从而影响模型的性能。另一方面，由于用户营销广告点击模型不一定是线性模型，所以仅仅根据L1-正则化的稀疏解是不足以合理的定义权重为零的特征是否对用户点击有无意义。

GBDT模型根据特征分裂的梯度情况进行节点分裂，其分裂前后的增益以及特征被作为分裂节点的次数都能够反应特征的重要性，即特征分裂的平均增益越大、特征在所有子树中作为分裂依据的次数越多就代表该特征越重要。传统使用GBDT模型来判断dpi特征重要性仅仅是选择较为重要的dpi特征进行重新建模，然而该操作可能也会损失很多潜在的重要dpi特征。

发明内容

本发明的目的在于克服现有技术存在的上述缺陷，提供一种基于L1-正则化逻辑回归和GBDT的dpi特征选择方法，该技术方案如下：

一种基于L1-正则化逻辑回归和GBDT的dpi特征选择方法，其特征在于，包括计算每个dpi的权重weight值步骤S1、计算每个dpi的n_split值步骤S2、计算每个dpi的平均增益gain_i值步骤S3和有效特征集成步骤S4；

所述计算每个A_i的dpi的权重weight_i值步骤S1包括如下步骤：

步骤S11：将每个A_i的dpi是否访问过的特征为dpi_A_i，每一个每个A_i对应的访问频次为dpi_Ai_freq；其中，i为大于等于1且小于等于P的正整数；

步骤S12：将每个所述访问频次dpi_Ai_freq划分为K个子区间，得到离散化处理后的每个A_i的访问频率dpi_Ai_freq_j(j＝1,2,...,K)；其中，所述j为大于等于1且小于等于K的正整数；所述用户dpi的权重weight值为L1-逻辑回归的回归系数绝对值；

步骤S13：将离散化后的每个A_i的访问频率dpi_Ai_freq_j(j＝1,2,...,K)数据放入L1-正则化后的逻辑回归中进行模型训练，得到训练后的dpi_A_i和所有dpi_A_i_freqk的回归系数绝对值，将A_i的weight_i定义为dpi_A_i和所有dpi_A_i_freqk的回归系数的均值；

步骤S14：比较每个A_i的回归系数的均值得到一个最大权重weight值，预设一个第一预设阈值a1，将最大权重weight值乘以第一预设阈值a1，得到第一结果阈值b1；其中，所述第一预设阈值a1为大于等于零与小于等于1之间的一个值；

步骤S15：将小于第一结果阈值b1的特征纳入一个第一集合SET_weight；

计算每个dpi的n_split值步骤S2包括如下步骤：

步骤S21：提供所需建立的GBDT模型，将所述训练集中的每个A_i的dpi是否访问过的特征为dpi_A_i，以及每个A_i对应的访问频次为dpi_Ai_freq放入GBDT模型中进行训练，得到dpi_A_i和dpi_A_i_freq的分裂次数值，将所述dpi_A_i和dpi_A_i_freq的分裂次数值的均值作为A_i的n_split_i值；

步骤S22：比较每个A_i的n_split_i值得到一个最大n_split值，预设一个第二预设阈值a2，将最大n_split值乘以第二预设阈值a2，得到第二结果阈值b2；其中，所述第二预设阈值a2为大于等于零与小于等于1之间的一个值；

步骤S23：将n_split小于第二结果阈值b2的dpi特征纳入一个第二集合SETn_split；

计算每个dpi的平均增益gain_i值步骤S3包括如下步骤：

步骤S31：提供所需建立的GBDT模型，将所述训练集中的每个A_i的dpi是否访问过的特征为dpi_A_i，以及每个A_i对应的访问频次为dpi_Ai_freq放入GBDT模型中进行训练，得到dpi_A_i和dpi_A_i_freq的平均增益gain_i值，将所述dpi_Ai和dpi_Ai_freq的平均增益gain_i值的均值作为Ai的平均增益gain_i值；

步骤S32：比较每个A_i的gain_i值得到一个最大增益gain值，预设一个第三预设阈值a3，将最大增益gain值乘以第三预设阈值a3，得到第三结果阈值b3；其中，所述第三预设阈值a3为大于等于零与小于等于1之间的一个值；

步骤S33：将所有平均增益gain_i值小于第三结果阈值b3的dpi特征纳入一个第三集合SET_gain；

所述有效特征集成步骤S4包括如下步骤：

步骤S41：计算每一个dpi出现在第一集合SET_weight、第二集合SETn_split和/或第三集合SET_gain中的次数M，其中，所述次数M为大于等于1且小于等于3的正整数；

步骤S42：设定一个阈值N，判断每一个dpi的次数M是否大于等于阈值N，如果是，删除满足条件的dpi及其特征；其中，所述阈值N为大于等于1且小于等于M的正整数。

进一步地，所述第一预设阈值a1、所述第二预设阈值a2和第三预设阈值a3的值相等。

进一步地，所述第一预设阈值a1、所述第二预设阈值a2和第三预设阈值a3的值为0.2。

进一步地，所述阈值N等于M。

从上述技术方案可以看出，本发明的结合GBDT自动特征工程对营销活动点击的预测方法，在作特征删除时，既考虑了线性模型的结果又考虑了非线性模型的结果，避免了单一模型对特征重要性做评价的不足。同时，使用三种不同原理的评价指标对特征进行评价，也考虑了运营商数据的特点，将dpi的访问情况和访问频次做了综合考虑；最后的投票机制也保证了尽可能的不丢失有效特征。使用本发明后，在模型预测效果略有增加的同时减少了无关用户的获取，增加了利润同时又减少了取数成本。

附图说明

图1所示为本发明实施例中基于L1-正则化逻辑回归和GBDT的dpi特征选择方法的流程示意图

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步的详细说明。

在下述的具体实施方式中，在详述本发明的实施方式时，为了清楚地表示本发明的结构以便于说明，特对附图中的结构不依照一般比例绘图，并进行了局部放大、变形及简化处理，因此，应避免以此作为对本发明的限定来加以理解。

需要说明的是，在以下本发明的具体实施方式中，该基于L1-正则化逻辑回归和GBDT的dpi特征选择方法可以包括计算每个dpi的权重weight值步骤、计算每个dpi的n_split值步骤、计算每个dpi的平均增益gain_i值步骤和有效特征集成步骤。与传统的方法相比，本发明能提供用户对广告点击意愿进行直接预测的途径，也适合处理具有大规模稀疏特征的数据。

请参阅图1，图1所示为本发明实施例中基于L1-正则化逻辑回归和GBDT的dpi特征选择方法的流程示意图。如图1所示，基于L1-正则化逻辑回归和GBDT的dpi特征选择方法，其包括计算每个dpi的权重weight值步骤S1、计算每个dpi的n_split值步骤S2、计算每个dpi的平均增益gain_i值步骤S3和有效特征集成步骤S4。这些步骤完成后，就可以直接解决特征冗余的问题，避免了一些无关的dpi对用户广告点击概率模型的预测能力的影响，还能防止模型的过拟合。

在本发明的实施例中，共有三种评价特征重要性的指标：

L1-逻辑回归的回归系数绝对值，记作weight；

GBDT的节点总分裂次数，记作n_split；

GBDT的节点平均分裂增益，记作gain。

上述的三种评价特征重要性的指标，使在做特征选择时，既可以考虑线性模型的结果又可以考虑非线性模型的结果，即避免了单一模型对特征重要性做评价的不足；并且，使用三种不同原理的评价指标对特征进行评价，也考虑了运营商数据的特点，即将dpi的访问情况和访问频次做了综合考虑；再加上最后的投票机制也保证了尽可能的不丢失有效特征。

通常，在运营商数据中，一个任务批次号(batch number)对应一天的用户数据，用户的原始信息中同一个任务批次号(batch number)中的用户可能会有重复，因为，同一个用户可能会访问多个用户访问dpi。因此，需要将所有不同的用户访问dpi展开作为单独的特征，如果一个用户访问过该用户访问dpi，则在该特征下，当前用户的值为1，否则为0。

将用户访问dpi和访问频次按照所有不同的用户访问dpi展开为用户访问dpi与用户访问dpi频次的特征。例如，假设有P个dpi，其中，一个叫做A_i的dpi，其是否访问的特征可以定义为dpi_A_i。

首先，对于逻辑回归模型，由于A_i的访问频次是连续值，为了使得逻辑回归的解更易收敛，需要对A_i的访问频次进行离散化。

具体地，所述计算每个A_i的dpi的权重weight_i值步骤S1包括如下步骤：

步骤S15：将小于第一结果阈值b1的特征纳入一个第一集合SET_weight。

在本发明的较佳实施例中，上述有P个dpi特征(每个dpi特征包括访问和访问频次)，每个dpi特征都有一个weight值。此时，可以设定一个第一预设阈值a1，如a1＝0.2，则小于最大weight*a1的特征可以被纳入一个集合，该集合中的dpi及其特征可考虑从dpi特征中删除，即该第一集合SET_weight中的特征就是不太重要的特征了，可考虑删除。

接下来，计算每个dpi的n_split值步骤S2包括如下步骤：

步骤S23：将n_split小于第二结果阈值b2的dpi特征纳入一个第二集合SETn_split。

依照步骤S1中的设定，GBDT模型不需要对dpi的访问频次特征进行离散化，因此，对于A_i只有两个特征，即dpi_A_i和dpi_A_i_freq。将训练数据放入GBDT模型中进行训练，构建好集成学习模型之后即可得到dpi_A_i和dpi_A_i_freq的分裂次数值，取二者的均值作为A_i的n_split值。

与步骤S1一致，选择第二预设阈值a2，计算所有dpi特征最大的n_split*a2，n_split小于该数的dpi特征被放入集合中可考虑从总体特征中删除，集合记作SETn_split。当然，较佳地，第二预设阈值a2可以选择同第一预设阈值a1相同。

计算每个dpi的平均增益gain_i值步骤S3包括如下步骤：

步骤S33：将所有平均增益最大增益gain值小于第三结果阈值b3的dpi特征纳入一个第三集合SET_gain。

由于增益gain值的计算也来自GBDT模型，所以步骤S3的大致过程和步骤S2一致，除了特征重要性从分裂次数变成了平均增益。待删除特征集合的构建依旧使用定义好的第三预设阈值a3；此时，特征的gain值若小于所有特征中最大增益gain*a3，则可以考虑放入一个集合中待从总体特征中删除，该集合记作SET_gain。

有了上述3个集合后，为了防止有效特征被误删除，在本发明的实施例中，可以采用一种投票机制，将第一集合SET_weight、第二集合SETn_split和第三集合SET_gain中的特征进一步集成，也就是说，可以根据第一集合SET_weight、第二集合SETn_split和第三集合SET_gain中的每一个特征重复出现的次数，来确定是否还可以从待删除的特征中，提取一部分特征进行使用。

所述有效特征集成步骤S4包括如下步骤：

也就是说，若某dpi出现在第一集合SET_weight、第二集合SETn_split和第三集合SET_gain中任意一个，记1票；如果出现在第一集合SET_weight、第二集合SETn_split和第三集合SET_gain中任意二个，记2票，如果在三个集合中都出现了，则记作3票。

因此，在进行dpi特征删除选择时，可以将只有在某个dpi特征票数是3时，才认为需要将该特征删除，也可以将在某个dpi特征票数是2以上时，就认为需要将该特征删除，当然，也可以将在某个dpi特征票数是1以上时，就认为需要将该特征删除。

值得注意的是，在本发明的实施例中，所述第一预设阈值a1、所述第二预设阈值a2和第三预设阈值a3的值可以相等。此时，操作人员可以仅通过一个阈值a就能够控制对特征删除多少进行有效控制，该合适的阈值a是可以通过线下验证和用户增减数量来选择。

综上所述，本发明既考虑了线性模型的结果又考虑了非线性模型的结果，避免了单一模型对特征重要性做评价的不足。其同时使用三种不同原理的评价指标对特征进行评价，也考虑了运营商数据的特点，即将dpi的访问情况和访问频次做了综合考虑。

结果表明，最后的投票机制也保证了尽可能的不丢失有效特征。使用本发明实施例后，在模型预测效果略有增加的同时较少了无关用户的获取，增加了利润同时又减少了取数成本。因此，本发明可以将大量的低意愿用户直接从投放目标中筛出，从而节省大量的营销成本，实现利润率的增加。

以上所述的仅为本发明的优选实施例，所述实施例并非用以限制本发明的专利保护范围，因此凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于L1-正则化逻辑回归和GBDT的dpi特征选择方法，其特征在于，包括计算计算每个A_i的dpi的权重weight_i值、计算每个dpi的n_split值步骤S2、计算每个dpi的平均增益gaini值步骤S3和有效特征集成步骤S4；

所述计算每个A_i的dpi的权重weight_i值步骤S1包括如下步骤：

计算每个dpi的n_split值步骤S2包括如下步骤：

计算每个dpi的平均增益gain_i值步骤S3包括如下步骤：

步骤S33：将所有平均增益所有平均增益gain_i值小于第三结果阈值b3的dpi特征纳入一个第三集合SET_gain；

所述有效特征集成步骤S4包括如下步骤：

2.根据权利要求1所述基于L1-正则化逻辑回归和GBDT的dpi特征选择方法，其特征在于，所述第一预设阈值a1、所述第二预设阈值a2和第三预设阈值a3的值相等。

3.根据权利要求2所述的基于L1-正则化逻辑回归和GBDT的dpi特征选择方法，其特征在于，所述第一预设阈值a1、所述第二预设阈值a2和第三预设阈值a3的值为0.2。

4.根据权利要求1所述的基于L1-正则化逻辑回归和GBDT的dpi特征选择方法，其特征在于，所述阈值N等于M。