CN112287991B - 基于L1-正则化逻辑回归和GBDT的dpi特征选择方法 - Google Patents

基于L1-正则化逻辑回归和GBDT的dpi特征选择方法 Download PDF

Info

Publication number
CN112287991B
CN112287991B CN202011154970.9A CN202011154970A CN112287991B CN 112287991 B CN112287991 B CN 112287991B CN 202011154970 A CN202011154970 A CN 202011154970A CN 112287991 B CN112287991 B CN 112287991B
Authority
CN
China
Prior art keywords
dpi
value
preset threshold
split
freq
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011154970.9A
Other languages
English (en)
Other versions
CN112287991A (zh
Inventor
项亮
潘信法
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shuming Artificial Intelligence Technology Co ltd
Original Assignee
Shanghai Shuming Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shuming Artificial Intelligence Technology Co ltd filed Critical Shanghai Shuming Artificial Intelligence Technology Co ltd
Priority to CN202011154970.9A priority Critical patent/CN112287991B/zh
Publication of CN112287991A publication Critical patent/CN112287991A/zh
Application granted granted Critical
Publication of CN112287991B publication Critical patent/CN112287991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于L1‑正则化逻辑回归和GBDT的dpi特征选择方法,其包括计算每个Ai的dpi的权重weighti值步骤、计算每个dpi的n_split值步骤、计算每个dpi的平均增益gaini值步骤和有效特征集成步骤。即在作特征删除时,既考虑了线性模型的结果又考虑了非线性模型的结果,避免了单一模型对特征重要性做评价的不足;同时使用三种不同原理的评价指标对特征进行评价,也考虑了运营商数据的特点,将dpi的访问情况和访问频次做了综合考虑,最后的投票机制也保证了尽可能的不丢失有效特征。因此,本发明实现了在模型预测效果略有增加的同时减少了无关用户的获取,增加了利润同时又减少了取数成本。

Description

基于L1-正则化逻辑回归和GBDT的dpi特征选择方法
技术领域
本发明涉及人工智能在互联网营销的技术领域,更具体地,涉及一种基于L1-正则化逻辑回归和GBDT的dpi特征选择方法。
背景技术
随着互联网行业市场竞争的日益激烈,应用大数据已经成为互联网营销的新方式,即互联网运营商大数据精准获客系统应运而生。大数据智能获客系统,以运营商大数据库为中心,直接抓取符合自定义条件用户的联系方式,直接与客户进行沟通,降低企业获客成本,提高企业利润。
具体地,从运行商角度看,其往往能够获取大量的用户dpi访问情况和访问频次数据,但是,并不是所有的dpi访问情况都对用户的广告点击行为有关联,更有甚者,这些没有关联的dpi访问情况不仅不会对用户广告点击概率模型的预测能力有提升,还会因为特征冗余从而造成模型的过拟合。
此外,这些没有关联dpi访问情况除了所包含的用户对其点击行为并没有提升外,这些多出来的用户无形之间会增加取数成本。因此,业界对运营商dpi特征重要性评价是急需解决的问题。
目前,对运营商dpi特征重要性评价存在以下两个难点:
第一:由于dpi特征通常分为dpi是否访问和dpi访问频次,因此,对于一个dpi_A来说,这两方面特征的重要性都要纳入考虑,如仅根据dpi_A的访问频次来确定重要性高低的话,即如果dpi_A的访问频次低,就认为该dpi不重要,这是不合理的;
第二:使用运营商数据进行大数据精准获客处理时,所构建的模型可以线性模型又可以构建非线性模型,然而,如何统一线性模型和非线性模型二者对dpi特征重要性评价的标准也是一个关键问题。
目前的解决方法通常采用L1-正则化和梯度提升决策树(Gradient BoostingDecision tree,GBDT)模型的方法,L1-正则化方法能够在参数更新的同时得到稀疏解,从而实现对无关特征进行剔除。但是L1-惩罚项也会使得非零参数也受到约束从而影响模型的性能。另一方面,由于用户营销广告点击模型不一定是线性模型,所以仅仅根据L1-正则化的稀疏解是不足以合理的定义权重为零的特征是否对用户点击有无意义。
GBDT模型根据特征分裂的梯度情况进行节点分裂,其分裂前后的增益以及特征被作为分裂节点的次数都能够反应特征的重要性,即特征分裂的平均增益越大、特征在所有子树中作为分裂依据的次数越多就代表该特征越重要。传统使用GBDT模型来判断dpi特征重要性仅仅是选择较为重要的dpi特征进行重新建模,然而该操作可能也会损失很多潜在的重要dpi特征。
发明内容
本发明的目的在于克服现有技术存在的上述缺陷,提供一种基于L1-正则化逻辑回归和GBDT的dpi特征选择方法,该技术方案如下:
一种基于L1-正则化逻辑回归和GBDT的dpi特征选择方法,其特征在于,包括计算每个dpi的权重weight值步骤S1、计算每个dpi的n_split值步骤S2、计算每个dpi的平均增益gaini值步骤S3和有效特征集成步骤S4;
所述计算每个Ai的dpi的权重weighti值步骤S1包括如下步骤:
步骤S11:将每个Ai的dpi是否访问过的特征为dpi_Ai,每一个每个Ai对应的访问频次为dpi_Ai_freq;其中,i为大于等于1且小于等于P的正整数;
步骤S12:将每个所述访问频次dpi_Ai_freq划分为K个子区间,得到离散化处理后的每个Ai的访问频率dpi_Ai_freqj(j=1,2,...,K);其中,所述j为大于等于1且小于等于K的正整数;所述用户dpi的权重weight值为L1-逻辑回归的回归系数绝对值;
步骤S13:将离散化后的每个Ai的访问频率dpi_Ai_freqj(j=1,2,...,K)数据放入L1-正则化后的逻辑回归中进行模型训练,得到训练后的dpi_Ai和所有dpi_Ai_freqk的回归系数绝对值,将Ai的weighti定义为dpi_Ai和所有dpi_Ai_freqk的回归系数的均值;
步骤S14:比较每个Ai的回归系数的均值得到一个最大权重weight值,预设一个第一预设阈值a1,将最大权重weight值乘以第一预设阈值a1,得到第一结果阈值b1;其中,所述第一预设阈值a1为大于等于零与小于等于1之间的一个值;
步骤S15:将小于第一结果阈值b1的特征纳入一个第一集合SET_weight;
计算每个dpi的n_split值步骤S2包括如下步骤:
步骤S21:提供所需建立的GBDT模型,将所述训练集中的每个Ai的dpi是否访问过的特征为dpi_Ai,以及每个Ai对应的访问频次为dpi_Ai_freq放入GBDT模型中进行训练,得到dpi_Ai和dpi_Ai_freq的分裂次数值,将所述dpi_Ai和dpi_Ai_freq的分裂次数值的均值作为Ai的n_spliti值;
步骤S22:比较每个Ai的n_spliti值得到一个最大n_split值,预设一个第二预设阈值a2,将最大n_split值乘以第二预设阈值a2,得到第二结果阈值b2;其中,所述第二预设阈值a2为大于等于零与小于等于1之间的一个值;
步骤S23:将n_split小于第二结果阈值b2的dpi特征纳入一个第二集合SETn_split;
计算每个dpi的平均增益gaini值步骤S3包括如下步骤:
步骤S31:提供所需建立的GBDT模型,将所述训练集中的每个Ai的dpi是否访问过的特征为dpi_Ai,以及每个Ai对应的访问频次为dpi_Ai_freq放入GBDT模型中进行训练,得到dpi_Ai和dpi_Ai_freq的平均增益gaini值,将所述dpi_Ai和dpi_Ai_freq的平均增益gaini值的均值作为Ai的平均增益gaini值;
步骤S32:比较每个Ai的gaini值得到一个最大增益gain值,预设一个第三预设阈值a3,将最大增益gain值乘以第三预设阈值a3,得到第三结果阈值b3;其中,所述第三预设阈值a3为大于等于零与小于等于1之间的一个值;
步骤S33:将所有平均增益gaini值小于第三结果阈值b3的dpi特征纳入一个第三集合SET_gain;
所述有效特征集成步骤S4包括如下步骤:
步骤S41:计算每一个dpi出现在第一集合SET_weight、第二集合SETn_split和/或第三集合SET_gain中的次数M,其中,所述次数M为大于等于1且小于等于3的正整数;
步骤S42:设定一个阈值N,判断每一个dpi的次数M是否大于等于阈值N,如果是,删除满足条件的dpi及其特征;其中,所述阈值N为大于等于1且小于等于M的正整数。
进一步地,所述第一预设阈值a1、所述第二预设阈值a2和第三预设阈值a3的值相等。
进一步地,所述第一预设阈值a1、所述第二预设阈值a2和第三预设阈值a3的值为0.2。
进一步地,所述阈值N等于M。
从上述技术方案可以看出,本发明的结合GBDT自动特征工程对营销活动点击的预测方法,在作特征删除时,既考虑了线性模型的结果又考虑了非线性模型的结果,避免了单一模型对特征重要性做评价的不足。同时,使用三种不同原理的评价指标对特征进行评价,也考虑了运营商数据的特点,将dpi的访问情况和访问频次做了综合考虑;最后的投票机制也保证了尽可能的不丢失有效特征。使用本发明后,在模型预测效果略有增加的同时减少了无关用户的获取,增加了利润同时又减少了取数成本。
附图说明
图1所示为本发明实施例中基于L1-正则化逻辑回归和GBDT的dpi特征选择方法的流程示意图
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步的详细说明。
在下述的具体实施方式中,在详述本发明的实施方式时,为了清楚地表示本发明的结构以便于说明,特对附图中的结构不依照一般比例绘图,并进行了局部放大、变形及简化处理,因此,应避免以此作为对本发明的限定来加以理解。
需要说明的是,在以下本发明的具体实施方式中,该基于L1-正则化逻辑回归和GBDT的dpi特征选择方法可以包括计算每个dpi的权重weight值步骤、计算每个dpi的n_split值步骤、计算每个dpi的平均增益gaini值步骤和有效特征集成步骤。与传统的方法相比,本发明能提供用户对广告点击意愿进行直接预测的途径,也适合处理具有大规模稀疏特征的数据。
请参阅图1,图1所示为本发明实施例中基于L1-正则化逻辑回归和GBDT的dpi特征选择方法的流程示意图。如图1所示,基于L1-正则化逻辑回归和GBDT的dpi特征选择方法,其包括计算每个dpi的权重weight值步骤S1、计算每个dpi的n_split值步骤S2、计算每个dpi的平均增益gaini值步骤S3和有效特征集成步骤S4。这些步骤完成后,就可以直接解决特征冗余的问题,避免了一些无关的dpi对用户广告点击概率模型的预测能力的影响,还能防止模型的过拟合。
在本发明的实施例中,共有三种评价特征重要性的指标:
L1-逻辑回归的回归系数绝对值,记作weight;
GBDT的节点总分裂次数,记作n_split;
GBDT的节点平均分裂增益,记作gain。
上述的三种评价特征重要性的指标,使在做特征选择时,既可以考虑线性模型的结果又可以考虑非线性模型的结果,即避免了单一模型对特征重要性做评价的不足;并且,使用三种不同原理的评价指标对特征进行评价,也考虑了运营商数据的特点,即将dpi的访问情况和访问频次做了综合考虑;再加上最后的投票机制也保证了尽可能的不丢失有效特征。
通常,在运营商数据中,一个任务批次号(batch number)对应一天的用户数据,用户的原始信息中同一个任务批次号(batch number)中的用户可能会有重复,因为,同一个用户可能会访问多个用户访问dpi。因此,需要将所有不同的用户访问dpi展开作为单独的特征,如果一个用户访问过该用户访问dpi,则在该特征下,当前用户的值为1,否则为0。
将用户访问dpi和访问频次按照所有不同的用户访问dpi展开为用户访问dpi与用户访问dpi频次的特征。例如,假设有P个dpi,其中,一个叫做Ai的dpi,其是否访问的特征可以定义为dpi_Ai
首先,对于逻辑回归模型,由于Ai的访问频次是连续值,为了使得逻辑回归的解更易收敛,需要对Ai的访问频次进行离散化。
具体地,所述计算每个Ai的dpi的权重weighti值步骤S1包括如下步骤:
步骤S11:将每个Ai的dpi是否访问过的特征为dpi_Ai,每一个每个Ai对应的访问频次为dpi_Ai_freq;其中,i为大于等于1且小于等于P的正整数;
步骤S12:将每个所述访问频次dpi_Ai_freq划分为K个子区间,得到离散化处理后的每个Ai的访问频率dpi_Ai_freqj(j=1,2,...,K);其中,所述j为大于等于1且小于等于K的正整数;所述用户dpi的权重weight值为L1-逻辑回归的回归系数绝对值;
步骤S13:将离散化后的每个Ai的访问频率dpi_Ai_freqj(j=1,2,...,K)数据放入L1-正则化后的逻辑回归中进行模型训练,得到训练后的dpi_Ai和所有dpi_Ai_freqk的回归系数绝对值,将Ai的weighti定义为dpi_Ai和所有dpi_Ai_freqk的回归系数的均值;
步骤S14:比较每个Ai的回归系数的均值得到一个最大权重weight值,预设一个第一预设阈值a1,将最大权重weight值乘以第一预设阈值a1,得到第一结果阈值b1;其中,所述第一预设阈值a1为大于等于零与小于等于1之间的一个值;
步骤S15:将小于第一结果阈值b1的特征纳入一个第一集合SET_weight。
在本发明的较佳实施例中,上述有P个dpi特征(每个dpi特征包括访问和访问频次),每个dpi特征都有一个weight值。此时,可以设定一个第一预设阈值a1,如a1=0.2,则小于最大weight*a1的特征可以被纳入一个集合,该集合中的dpi及其特征可考虑从dpi特征中删除,即该第一集合SET_weight中的特征就是不太重要的特征了,可考虑删除。
接下来,计算每个dpi的n_split值步骤S2包括如下步骤:
步骤S21:提供所需建立的GBDT模型,将所述训练集中的每个Ai的dpi是否访问过的特征为dpi_Ai,以及每个Ai对应的访问频次为dpi_Ai_freq放入GBDT模型中进行训练,得到dpi_Ai和dpi_Ai_freq的分裂次数值,将所述dpi_Ai和dpi_Ai_freq的分裂次数值的均值作为Ai的n_spliti值;
步骤S22:比较每个Ai的n_spliti值得到一个最大n_split值,预设一个第二预设阈值a2,将最大n_split值乘以第二预设阈值a2,得到第二结果阈值b2;其中,所述第二预设阈值a2为大于等于零与小于等于1之间的一个值;
步骤S23:将n_split小于第二结果阈值b2的dpi特征纳入一个第二集合SETn_split。
依照步骤S1中的设定,GBDT模型不需要对dpi的访问频次特征进行离散化,因此,对于Ai只有两个特征,即dpi_Ai和dpi_Ai_freq。将训练数据放入GBDT模型中进行训练,构建好集成学习模型之后即可得到dpi_Ai和dpi_Ai_freq的分裂次数值,取二者的均值作为Ai的n_split值。
与步骤S1一致,选择第二预设阈值a2,计算所有dpi特征最大的n_split*a2,n_split小于该数的dpi特征被放入集合中可考虑从总体特征中删除,集合记作SETn_split。当然,较佳地,第二预设阈值a2可以选择同第一预设阈值a1相同。
计算每个dpi的平均增益gaini值步骤S3包括如下步骤:
步骤S31:提供所需建立的GBDT模型,将所述训练集中的每个Ai的dpi是否访问过的特征为dpi_Ai,以及每个Ai对应的访问频次为dpi_Ai_freq放入GBDT模型中进行训练,得到dpi_Ai和dpi_Ai_freq的平均增益gaini值,将所述dpi_Ai和dpi_Ai_freq的平均增益gaini值的均值作为Ai的平均增益gaini值;
步骤S32:比较每个Ai的gaini值得到一个最大增益gain值,预设一个第三预设阈值a3,将最大增益gain值乘以第三预设阈值a3,得到第三结果阈值b3;其中,所述第三预设阈值a3为大于等于零与小于等于1之间的一个值;
步骤S33:将所有平均增益最大增益gain值小于第三结果阈值b3的dpi特征纳入一个第三集合SET_gain。
由于增益gain值的计算也来自GBDT模型,所以步骤S3的大致过程和步骤S2一致,除了特征重要性从分裂次数变成了平均增益。待删除特征集合的构建依旧使用定义好的第三预设阈值a3;此时,特征的gain值若小于所有特征中最大增益gain*a3,则可以考虑放入一个集合中待从总体特征中删除,该集合记作SET_gain。
有了上述3个集合后,为了防止有效特征被误删除,在本发明的实施例中,可以采用一种投票机制,将第一集合SET_weight、第二集合SETn_split和第三集合SET_gain中的特征进一步集成,也就是说,可以根据第一集合SET_weight、第二集合SETn_split和第三集合SET_gain中的每一个特征重复出现的次数,来确定是否还可以从待删除的特征中,提取一部分特征进行使用。
所述有效特征集成步骤S4包括如下步骤:
步骤S41:计算每一个dpi出现在第一集合SET_weight、第二集合SETn_split和/或第三集合SET_gain中的次数M,其中,所述次数M为大于等于1且小于等于3的正整数;
步骤S42:设定一个阈值N,判断每一个dpi的次数M是否大于等于阈值N,如果是,删除满足条件的dpi及其特征;其中,所述阈值N为大于等于1且小于等于M的正整数。
也就是说,若某dpi出现在第一集合SET_weight、第二集合SETn_split和第三集合SET_gain中任意一个,记1票;如果出现在第一集合SET_weight、第二集合SETn_split和第三集合SET_gain中任意二个,记2票,如果在三个集合中都出现了,则记作3票。
因此,在进行dpi特征删除选择时,可以将只有在某个dpi特征票数是3时,才认为需要将该特征删除,也可以将在某个dpi特征票数是2以上时,就认为需要将该特征删除,当然,也可以将在某个dpi特征票数是1以上时,就认为需要将该特征删除。
值得注意的是,在本发明的实施例中,所述第一预设阈值a1、所述第二预设阈值a2和第三预设阈值a3的值可以相等。此时,操作人员可以仅通过一个阈值a就能够控制对特征删除多少进行有效控制,该合适的阈值a是可以通过线下验证和用户增减数量来选择。
进一步地,所述第一预设阈值a1、所述第二预设阈值a2和第三预设阈值a3的值为0.2。
综上所述,本发明既考虑了线性模型的结果又考虑了非线性模型的结果,避免了单一模型对特征重要性做评价的不足。其同时使用三种不同原理的评价指标对特征进行评价,也考虑了运营商数据的特点,即将dpi的访问情况和访问频次做了综合考虑。
结果表明,最后的投票机制也保证了尽可能的不丢失有效特征。使用本发明实施例后,在模型预测效果略有增加的同时较少了无关用户的获取,增加了利润同时又减少了取数成本。因此,本发明可以将大量的低意愿用户直接从投放目标中筛出,从而节省大量的营销成本,实现利润率的增加。
以上所述的仅为本发明的优选实施例,所述实施例并非用以限制本发明的专利保护范围,因此凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (3)

1.一种基于L1-正则化逻辑回归和GBDT的dpi特征选择方法,其特征在于,包括计算每个Ai的dpi的权重weighti值步骤S1、计算每个dpi的n_split值步骤S2、计算每个dpi的平均增益gaini值步骤S3和有效特征集成步骤S4;
所述计算每个Ai的dpi的权重weighti值步骤S1包括如下步骤:
步骤S11:P个dpi,每个Ai是否访问过dpi为dpi特征,所述dpi特征为dpi_Ai,每个Ai对应的访问频次为dpi_Ai_freq;其中,Ai为用户i,i为大于等于1且小于等于P的正整数;
步骤S12:将每个所述访问频次dpi_Ai_freq划分为K个子区间,得到离散化处理后的每个Ai的访问频率dpi_Ai_freqj(j=1,2,...,K);其中,所述j为大于等于1且小于等于K的正整数;所述用户dpi的权重weight值为L1-逻辑回归的回归系数绝对值;
步骤S13:将离散化后的每个Ai的访问频率dpi_Ai_freqj(j=1,2,...,K)数据放入L1-正则化后的逻辑回归中进行模型训练,得到训练后的dpi_Ai和所有dpi_Ai_freqj的回归系数绝对值,将Ai的weighti定义为dpi_Ai和所有dpi_Ai_freqj的回归系数的均值;
步骤S14:比较每个Ai的回归系数的均值得到一个最大权重weight值,预设一个第一预设阈值a1,将最大权重weight值乘以第一预设阈值a1,得到第一结果阈值b1;其中,所述第一预设阈值a1为大于等于零与小于等于1之间的一个值;
步骤S15:将小于第一结果阈值b1的dpi特征纳入一个第一集合SET_weight;
计算每个dpi的n_split值步骤S2包括如下步骤:
步骤S21:提供所需建立的GBDT模型,将训练集中的每个Ai对应的dpi_Ai,以及每个Ai对应的访问频次为dpi_Ai_freq放入GBDT模型中进行训练,得到dpi_Ai和dpi_Ai_freq的分裂次数值,将所述dpi_Ai和dpi_Ai_freq的分裂次数值的均值作为Ai的n_spliti值;
步骤S22:比较每个Ai的n_spliti值得到一个最大n_split值,预设一个第二预设阈值a2,将最大n_split值乘以第二预设阈值a2,得到第二结果阈值b2;其中,所述第二预设阈值a2为大于等于零与小于等于1之间的一个值;
步骤S23:将n_split小于第二结果阈值b2的dpi特征纳入一个第二集合SETn_split;
计算每个dpi的平均增益gaini值步骤S3包括如下步骤:
步骤S31:提供所需建立的GBDT模型,将所述训练集中的每个Ai对应的dpi_Ai,以及每个Ai对应的访问频次为dpi_Ai_freq放入GBDT模型中进行训练,得到dpi_Ai和dpi_Ai_freq的平均增益gaini值,将所述dpi_Ai和dpi_Ai_freq的平均增益gaini值的均值作为Ai的平均增益gaini值;
步骤S32:比较每个Ai的gaini值得到一个最大增益gain值,预设一个第三预设阈值a3,将最大增益gain值乘以第三预设阈值a3,得到第三结果阈值b3;其中,所述第三预设阈值a3为大于等于零与小于等于1之间的一个值;
步骤S33:将所有平均增益gaini值小于第三结果阈值b3的dpi特征纳入一个第三集合SET_gain;
所述有效特征集成步骤S4包括如下步骤:
步骤S41:计算每一个dpi同时或不同时出现在第一集合SET_weight、第二集合SETn_split及第三集合SET_gain中的次数M,其中,所述次数M为大于等于1且小于等于3的正整数;
步骤S42:设定一个阈值N,判断每一个dpi的次数M是否大于等于阈值N,如果是,删除满足条件的dpi及其特征。
2.根据权利要求1所述基于L1-正则化逻辑回归和GBDT的dpi特征选择方法,其特征在于,所述第一预设阈值a1、所述第二预设阈值a2和第三预设阈值a3的值相等。
3.根据权利要求2所述的基于L1-正则化逻辑回归和GBDT的dpi特征选择方法,其特征在于,所述第一预设阈值a1、所述第二预设阈值a2和第三预设阈值a3的值为0.2。
CN202011154970.9A 2020-10-26 2020-10-26 基于L1-正则化逻辑回归和GBDT的dpi特征选择方法 Active CN112287991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011154970.9A CN112287991B (zh) 2020-10-26 2020-10-26 基于L1-正则化逻辑回归和GBDT的dpi特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011154970.9A CN112287991B (zh) 2020-10-26 2020-10-26 基于L1-正则化逻辑回归和GBDT的dpi特征选择方法

Publications (2)

Publication Number Publication Date
CN112287991A CN112287991A (zh) 2021-01-29
CN112287991B true CN112287991B (zh) 2024-05-03

Family

ID=74372310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011154970.9A Active CN112287991B (zh) 2020-10-26 2020-10-26 基于L1-正则化逻辑回归和GBDT的dpi特征选择方法

Country Status (1)

Country Link
CN (1) CN112287991B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832333A (zh) * 2017-09-29 2018-03-23 北京邮电大学 基于分布式处理和dpi数据构建用户网络数据指纹的方法和系统
CN110706015A (zh) * 2019-08-21 2020-01-17 北京大学(天津滨海)新一代信息技术研究院 一种面向广告点击率预测的特征选取方法
CN111274338A (zh) * 2020-01-08 2020-06-12 重庆邮电大学 一种基于移动大数据的预出境用户识别方法
CN111311400A (zh) * 2020-03-30 2020-06-19 百维金科(上海)信息科技有限公司 基于gbdt算法的评分卡模型的建模方法及其系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8839105B2 (en) * 2006-12-01 2014-09-16 International Business Machines Corporation Multi-display system and method supporting differing accesibility feature selection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832333A (zh) * 2017-09-29 2018-03-23 北京邮电大学 基于分布式处理和dpi数据构建用户网络数据指纹的方法和系统
CN110706015A (zh) * 2019-08-21 2020-01-17 北京大学(天津滨海)新一代信息技术研究院 一种面向广告点击率预测的特征选取方法
CN111274338A (zh) * 2020-01-08 2020-06-12 重庆邮电大学 一种基于移动大数据的预出境用户识别方法
CN111311400A (zh) * 2020-03-30 2020-06-19 百维金科(上海)信息科技有限公司 基于gbdt算法的评分卡模型的建模方法及其系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Feature Selection in Click-Through Rate Prediction Based on Gradient Boosting;Zheng Wang 等;《Intelligent Data Engineering and Automated Learning-IDEAL 2016》;134-142 *
大规模在线内容推荐系统关键算法的设计与实现;李勇宏;《中国优秀硕士学位论文全文数据库信息科技辑》;I138-5014 *

Also Published As

Publication number Publication date
CN112287991A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN103020289B (zh) 一种基于日志挖掘的搜索引擎用户个性化需求提供方法
CN109145301B (zh) 信息分类方法及装置、计算机可读存储介质
CN108027814A (zh) 停用词识别方法与装置
CN112258223B (zh) 一种基于决策树的营销广告点击的预测方法
CN112819523B (zh) 结合内/外积特征交互和贝叶斯神经网络的营销预测方法
CN112149352B (zh) 一种结合gbdt自动特征工程对营销活动点击的预测方法
CN110264276A (zh) 确定推送用户群的方法、装置、设备及存储介质
CN115705322A (zh) 一种数据库管理系统、数据处理方法及设备
CN114416573A (zh) 一种应用程序的缺陷分析方法、装置、设备及介质
CN112287991B (zh) 基于L1-正则化逻辑回归和GBDT的dpi特征选择方法
US11176502B2 (en) Analytical model training method for customer experience estimation
CN117149293A (zh) 一种操作系统个性化配置方法
CN116541166A (zh) 一种超算算力调度服务器及资源管理方法
CN116501979A (zh) 信息推荐方法、装置、计算机设备及计算机可读存储介质
CN116933657A (zh) 一种复杂型面加工参数特征提取方法、系统、设备及介质
CN112581177B (zh) 结合自动特征工程及残差神经网络的营销预测方法
CN112633937B (zh) 基于深度自动编码器降维结合gbdt的营销预测方法
CN114860952A (zh) 一种基于数据统计和知识指导的图拓扑学习方法及系统
CN112819205B (zh) 工时预测方法、装置及系统
US20230169052A1 (en) Methods, systems, and computer readable media for utilizing machine learning for merging duplicate data records
CN114358911B (zh) 开票数据风险控制方法、装置、计算机设备和存储介质
CN115022194B (zh) 基于sa-gru的网络安全态势预测方法
CN117786018A (zh) 基于用户画像特征及深度学习算法模型的智能搜索方法
CN117971337A (zh) 一种基于lstm模型的混合云自动配置方法
CN117370653A (zh) 文献推荐的排序方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 200436 room 406, 1256 and 1258 Wanrong Road, Jing'an District, Shanghai

Applicant after: Shanghai Shuming Artificial Intelligence Technology Co.,Ltd.

Address before: Room 1601-026, 238 JIANGCHANG Third Road, Jing'an District, Shanghai, 200436

Applicant before: Shanghai Shuming Artificial Intelligence Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant