CN115952468A - 特征处理方法、装置、设备及计算机存储介质 - Google Patents
特征处理方法、装置、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN115952468A CN115952468A CN202211646017.5A CN202211646017A CN115952468A CN 115952468 A CN115952468 A CN 115952468A CN 202211646017 A CN202211646017 A CN 202211646017A CN 115952468 A CN115952468 A CN 115952468A
- Authority
- CN
- China
- Prior art keywords
- features
- feature
- model
- data set
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种特征处理方法、装置、设备及计算机存储介质,涉及大数据技术领域。该方法包括:获取样本数据集,所述样本数据集中包括N个用户样本一一对应的目标信息,所述目标信息包括样本标签和在M个特征下分别对应的M个特征标签;基于所述N个用户样本一一对应的目标信息,采用catboost算法对所述样本数据集中的M个特征进行特征交叉,得到Q个混合特征,所述Q个混合特征用于作为目标预测模型的输入特征;其中,所述Q个混合特征中任一混合特征中包括的特征的数量小于或者等于预设阈值。根据本申请实施例,能够直接对样本特征进行特征衍生,从而有效避免了高维稀疏特征的出现。
Description
技术领域
本申请属于大数据技术领域,尤其涉及一种特征处理方法、装置、设备及计算机存储介质。
背景技术
在信息时代的背景下,互联网快速发展,由此带来的信息激增,信息超载问题成为人们亟待解决的问题。企业如何有效地从海量的信息中挖掘出真正的有用的信息、充分利用信息产生的价值、快速定位出用户的兴趣偏好、提高用户体验,是他们提高竞争力的有效途径和产生更高收益的有效方法。与其对应,消费者如何能快速地在如此庞大的信息库中找到自己感兴趣的目标物,是他们提出的个性化的需求,同时也是身处信息时代的需求。
基于上述背景,如何对用户行为或其意向进行准确预测,对于提升各大企业的竞争力具有重大意义。实际上,关于预测用户行为或其意向方面,其本质属于一个二分类问题,基于此,通过用户的相关特征来预测用户行为或其意向是目前较为普遍的一种预测手段。
目前现存多种迭代预测算法,最基础的是逻辑回归算法,但由于其对于隐藏的特征组合不够重视,因此预测效果并不算好。而后续衍生出LR+人工组合特征、LR+GBDT以及LR+二项式多项式模型等,虽然将隐藏的特征组合考虑进来,能够实现更为全面的分析预测。然而,由于此类方法在使用类别型特征前往往是直接对特征进行独热编码等预处理,再将独热编码后的特征输入至模型后进行特征交叉衍生。这样一来,其基于上述模型衍生的组合特征具有较高的稀疏性,并且,此类方法特征交叉容易产生维度灾难,最终导致模型预测效果较差。
发明内容
本申请实施例提供一种特征处理方法、装置、设备及计算机存储介质,能够减少高维稀疏特征的出现。
第一方面,本申请实施例提供一种特征处理方法,该特征处理方法包括:
获取样本数据集,样本数据集中包括N个用户样本一一对应的目标信息,目标信息包括样本标签和在M个特征下分别对应的M个特征标签;
基于N个用户样本一一对应的目标信息,采用catboost算法对样本数据集中的M个特征进行特征交叉,得到Q个混合特征,Q个混合特征用于作为目标预测模型的输入特征;
其中,Q个混合特征中任一混合特征中包括的特征的数量小于或者等于预设阈值。
在一些可能的实施方式中,采用catboost算法对样本数据集中的M个特征进行特征交叉,得到至少一个衍生多变量特征,包括:
基于N个用户样本一一对应的目标信息,训练得到特征衍生模型,特征衍生模型基于catboost算法构建得到;
通过特征衍生模型,预测得到N个用户样本中各用户样本的M个特征标签在多棵决策树中的叶节点,多棵决策树基于catboost算法分割得到;
基于N个用户样本中各用户样本的M个特征标签在多棵决策树中的叶节点,确定Q个混合特征。
在一些可能的实施方式中,在得到Q个混合特征之后,该特征处理方法还包括:
基于Q个混合特征和M个特征,构建FFM模型;
对目标预测模型进行训练,训练好的目标预测模型用于对待测样本的样本标签进行预测;
其中,目标预测模型基于FFM模型确定得到。
在一些可能的实施方式中,对FFM模型进行训练之前,该特征处理方法还包括:
基于K个异常样本特征,构建多元回归特征模型,K为正整数;
将多元回归特征模型与FFM模型进行融合,得到目标预测模型。
在一些可能的实施方式中,在对目标预测模型进行训练之前,该特征处理方法还包括:
将注意力机制引入FFM模型中,得到更新后的FFM模型;
将更新后的FFM模型确定为目标预测模型。
在一些可能的实施方式中,FFM模型中包括I个二阶交叉特征,I个二阶交叉特征中各二阶交叉特征基于Q个混合特征和M个特征中的至少两项确定得到,I为正整数;在将注意力机制引入FFM模型中,得到更新后的FFM模型之前,该特征处理方法还包括:
从样本数据集中随机抽取目标数据集;目标数据集为样本数据集的子集;
基于目标数据集,确定与I个二阶交叉特征分别对应的特征权重;
基于与I个二阶交叉特征分别对应的特征权重中的至少一项,更新FFM模型中的二阶交叉特征的特征权重,以得到更新后的FFM模型。
在一些可能的实施方式中,M个特征中包括在T个数值型特征和S个分类型特征,T、S为小于或者等于M的非负整数;
在获取样本数据集之后,该特征处理方法还包括:
对S个分类型特征分别进行独热编码,得到S个分类型特征分别对应的特征编码结果;
采用有监督分箱算法对T个数值型特征分别进行分箱处理,得到T个数值型特征中各数值型特征对应的目标分箱结果;
基于Q个混合特征和M个特征,构建FFM模型,包括:
基于Q个混合特征、S个分类型特征分别对应的特征编码结果,以及T个数值型特征中各数值型特征对应的目标分箱结果,构建FFM模型。
在一些可能的实施方式中,第二类别特征为T个数值型特征中的任意一项;
采用有监督分箱算法对T个数值型特征分别进行分箱处理,得到T个数值型特征中各数值型特征对应的目标分箱结果,包括:
采用Y种有监督分箱算法对第二类别特征进行分箱处理,得到第二类别特征的Y种分箱结果,Y种分箱结果与Y种有监督分箱算法一一对应,Y为正整数;
基于Q种分箱结果的证据权重WOE和信息价值IV,从Y种分箱结果中确定第二类别特征的目标分箱结果。
第二方面,本申请实施例提供了一种特征处理装置,该特征处理装置包括:
第一获取模块,用于获取样本数据集,样本数据集中包括N个用户样本一一对应的目标信息,目标信息包括样本标签和在M个特征下分别对应的M个特征标签;
第一得到模块,用于基于N个用户样本一一对应的目标信息,采用catboost算法对样本数据集中的M个特征进行特征交叉,得到Q个混合特征,Q个混合特征用于作为目标预测模型的输入特征;
其中,Q个混合特征中任一混合特征中包括的特征的数量小于或者等于预设阈值。
第三方面,本申请实施例提供了一种特征处理设备,该特征处理设备包括:
处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如上述本申请实施例中任意一项提供的特征处理方法。
第四方面,本申请实施例提供了一种计算机存储介质,该计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如上述本申请实施例中任意一项提供的特征处理方法。
第五方面,本申请实施例提供了一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如上述本申请实施例中任意一项提供的特征处理方法。
本申请实施例的特征处理方法、装置、设备及计算机存储介质,通过对所获取的样本数据集采用catboost算法进行训练预测,从而能够自动化地实现对样本数据集中涉及到的多个特征的特征交叉处理,得到受到交叉深度限制的多个混合特征,以用于后续用户行为或意向的预测模型的训练及预测中。本申请实施例提供的一种特征处理方法、装置、设备及计算机存储介质,使用catboost技术,进行能直接处理样本中各个特征的特征衍生,并在catboost特征衍生时控制多维的特征交叉的最大特征数量,从而有效避免了高维稀疏特征的出现。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的特征处理方法的流程示意图;
图2是本申请一实施例提供的特征处理及模型构建的整体流程示意图;
图3是本申请一实施例提供的特征处理装置的结构示意图;
图4是本申请一实施例提供的特征处理设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如上述背景技术部分所述,现有GBDT算法在使用类别型特征前需要进行预处理,独热编码的缺点是容易导致特征变得稀疏。另外,GBDT进行多维特征衍生容易产生预测偏移,特征衍生效果较差。现有多维特征交叉容易产生维度灾难,模型效果较差。连续型特征(如数值型特征等)进行因子分解机的特征交叉时,易造成维度爆炸,多层因子分解机特征多次交叉也容易产生特征稀疏性问题,使得模型效果差。此类方法目前往往在通过特征交叉进行预测时,容易产生稀疏性高的特征,从而导致其计算消耗很大,运营时间太长,对业务支撑来不及。
为了解决现有技术问题,本申请实施例提供了一种特征处理方法、装置、设备、存储介质和计算机程序产品。应注意,本申请提供的实施例并不用来限制本申请公开的范围。
下面首先对本申请实施例所提供的特征处理方法进行介绍。
图1示出了本申请一实施例提供的特征处理方法的流程示意图。该特征处理方法应用于电子设备,该电子设备可以包括服务器或者用户终端等。如图1所示,该特征处理方法包括以下步骤:
S110,获取样本数据集,样本数据集中包括N个用户样本一一对应的目标信息,目标信息包括样本标签和在M个特征下分别对应的M个特征标签;
S120,基于N个用户样本一一对应的目标信息,采用catboost算法对样本数据集中的M个特征进行特征交叉,得到Q个混合特征,Q个混合特征用于作为目标预测模型的输入特征;其中,Q个混合特征中任一混合特征中包括的特征的数量小于或者等于预设阈值。
本申请实施例的特征处理方法,通过对所获取的样本数据集采用catboost算法进行训练预测,从而能够自动化地实现对样本数据集中涉及到的多个特征的特征交叉处理,得到受到交叉深度限制的多个混合特征,以用于后续用户行为或意向的预测模型的训练及预测中。本申请实施例提供的一种特征处理方法,使用catboost技术,进行能直接处理样本中各个特征的特征衍生,并在catboost特征衍生时控制多维的特征交叉的最大特征数量,从而有效避免了高维稀疏特征的出现。
下面对上述步骤110至120的具体实现方式进行详细描述。
在S110中,具体实现时,获取样本数据集,样本数据集中包括N个用户样本一一对应的目标信息,目标信息可以包括样本标签和在M个特征下分别对应的M个特征标签。
本实施例中,可以是先获取到上述多个用户样本,并在前期对各个用户样本进行正负样本标签的确定。以及,从多个样本中筛选提取出合适的M个特征,并确定各个样本在M个特征下分别对应的M个特征标签。例如,对于性别这一特征,某一样本对应该特征下的特征标签可以为女性,或者男性。
示例性地,以用户潜在保险产品购买预测分析为例,通过获取的历史半年用户对某保险产品的营销数据作为样本数据集S,该样本数据集S中具体可以包括用户基本信息、用户金额数据、用户业务使用等维度共M个特征。将对营销数据集S中用户产品成功订购的用户样本作为正样本,将用户未订购产品的用户样本作为负样本,相当于对不同的用户样本进行正负样本标签的划分。
在进行正负样本划分后,可以对样本中的特征进行初步处理。通常用户特征可以包括分类型特征和连续型特征。本示例中,可以是预先连续型特征进行简单分类操作等,将其处理为两个类别型特征,然后参与特征组合。例如某层分裂用到了数值型特征p,那么就可以将特征p处理为“p大于10”、“p小于或等于10”两个类别型特征。再对包括分类型特征和分类处理后的连续型特征的各类特征采样重编码的方法转化为数值,即分类1可以对应数值1,分类2对应可以数值2,…,分类n可以对应数值n。
在S120中,具体实现时,基于N个用户样本一一对应的目标信息,采用catboost算法对样本数据集中的M个特征进行特征交叉,得到Q个混合特征。考虑待catboost算法本身能够对交叉深度进行限制,因此,本实施例通过采用catboost算法进行特征衍生,能够有效对生成的混合特征中包含的特征数量进行限制,从而避免了高维稀疏特征等出现,影响后续实际目标预测模块的预测效果。
如此,在得到上述Q个混合特征之后,该Q个混合特征可以用于作为目标预测模型的输入特征;其中,Q个混合特征中任一混合特征中包括的特征的数量小于或者等于预设阈值。
在一些可能的实施方式中,具体地,上述采用catboost算法对样本数据集中的M个特征进行特征交叉,得到至少一个衍生多变量特征,具体可以包括:
基于N个用户样本一一对应的目标信息,训练得到特征衍生模型,特征衍生模型基于catboost算法构建得到;
通过特征衍生模型,预测得到N个用户样本中各用户样本的M个特征标签在多棵决策树中的叶节点,多棵决策树基于catboost算法分割得到;
基于N个用户样本中各用户样本的M个特征标签在多棵决策树中的叶节点,确定Q个混合特征。
具体实现时,在实际开展具体业务分析(如用户潜在产品购买意愿、用户产品偏好预测、用户产品退订预测等)之前,通过使用catboost算法对用户全量样本特征区间进行切割组合,从而自动化生成构造多个组合变量。相较于人工构建和分析特征,能够节约大量人力和时间成本,并且能够高效、准确地挖掘更多潜在信息。
具体地,在采用catboost算法进行特征衍生时,在获取到上述样本数据集之后,结合前述示例,可以是将样本数据集S分成两份,记做S1、S2。将S1作为训练集,利用catboost算法对训练集训练特征衍生模型,S2作为预测集,利用catboost算法对S2进行预测,得到S2样本的概率。然后,再基于CatBoost使用的贪心策略来进行特征交叉,并设置最大特征数量为预设阈值,例如5,从而控制特征交叉的最大特征数量。
当上述特征衍生模型的整体模型评估指标AUC值大于预设指标阈值时,保存该模型。这样,采用上述特征衍生模型进行全量样本预测,从而可以得到每个用户各个特在catboost每棵决策树所在的叶子节点,出现标为1,没有出现标为0。基于此,使用catboost多棵树的预测结果进行排列,并进行独热编码作为最后的衍生标签,即前述Q个混合特征,以此作为后续目标预测模型的输入特征。
相较于根据人工经验进行特征组织分析的方法,例如有N个特征,平均每个特征有m个分区(连续型特征可以预先做分箱处理等分区操作),则会有N*m个量级的特征组合可能性。本实施例中,根据使用catboost构建叶子节点的路径来进行营销数据用户特征的自动组合,能够更加快速定位重要特征区间,并将预测结果作为特征组合的评估指标,能够在N个特征N*m个特征组合里找到对预测结果有促进的关键性特征组合,在提升构建特征工程效率的同时,对后续目标预测模型的预测效果也有较大的提升。
在一些可能的实施方式中,结合实际应用考虑,在上述得到Q个混合特征之后,该特征处理方法还可以包括:
基于Q个混合特征和M个特征,构建FFM模型;
对目标预测模型进行训练,训练好的目标预测模型可以用于对待测样本的样本标签进行预测;
其中,目标预测模型可以是基于FFM模型确定得到。
具体实现时,M个特征为单变量特征,Q个混合特征为多变量特征。在构建FFM模型时,可以是将上述Q个混合特征和M个特征作为FFM模型的输入特征,再对基于该FFM模型得到的目标预测模型进行相关训练、模型试跑以及评估等操作,训练好的目标预测模型可以用于对待测样本的样本标签进行预测。
示例性地,上述基于Q个混合特征和M个特征构建FFM模型,具体可以是:将上述Q个混合特征和M个特征输入至FFM方程中。结合实际应用考虑,上述FFM方程可以为用户产品购买意愿的预测方程,具体参见下式1:
其中,xi表示Q个混合特征和M个特征中的任一特征,wi和MF(i),F(j)分别表示单变量特征和混合特征的模型待预估参数。
本实施例中采用FFM算法,由于FFM模型中是通过两个隐向量内积来学习组合特征,解释性较好、性能较高,相较于其他算法模型,其在工程化部署上极占优势。
在一些可能的实施方式中,发明人经研究发现,若在目标模型构建及训练过程中存在异常登录的用户或者留存率低的用户,则容易造成后续预测效果较差,从而导致为用户提供精准推荐的效果下降。本申请考虑到高点击率背后的虚假登录,以及用户点击后留存率较低的问题,导致对高点击率用户进行推广后营销留存效果差的问题,针对性地采用多元回归集成到FFM模型,从而可以综合衡量用户的点击率、虚假用户登录率及留存用户率,提高用户的留存及活跃质量。基于此,在上述对FFM模型进行训练之前,该特征处理方法还可以包括:
基于K个异常样本特征,构建多元回归特征模型,K为正整数;
将多元回归特征模型与FFM模型进行融合,得到目标预测模型。
具体实现时,为了对异常用户(如针对用户产品购买恶意薅羊毛、非真实购买的用户)进行识别,可以将用户异常购买相关特征,例如产品购买频率、产品购买金额、产品购买次数、产品退货次数、产品退货频率等特征进行特征处理后(作为下式中的x1,x2…,xk),首先构建多元回归特征模型,即多元回归特征组合(β1,β2,...,βk为x1,x2…,xk待评估参数),具体如下式2所示:
β0+β1x1+β2x2+...+βkxk+ε 式2
然后,再将上述多元回归特征组合加入FFM方程,以实现多元回归特征模型与FFM模型的融合,得到目标预测模型,具体融合后的公式如下式3所示。
这样一来,通过将正常用户识别和异常用户识别的特征通过多元回归特征组合和前述FFM方程融合,能够综合衡量用户的点击率、虚假用户登录率及留存用户率,提高用户的留存及活跃质量,使得后续预测结果的可解释性增强。并且,还能够加强对用户产品购买意愿预测的多维性与准确性,不仅能够识别正常有意愿购买产品的用户,还能对具备异常购买行为的用户进行预测挖掘。
在一些可能的实施方式中,为了提高目标预测模型的准确度及可解释性,在对目标预测模型进行训练之前,该特征处理方法还可以包括:
将注意力机制引入FFM模型中,得到更新后的FFM模型;
将更新后的FFM模型确定为目标预测模型。
结合上述示例,将上述多元回归特征组合加入FFM方程之后,所得的融合方程中包含较多的用户特征,包括正常和异常用户识别特征。
为了能更加精准地挖掘得到更多的购买产品意愿高的用户群,需要对特征进行重要特征识别筛选,因此将注意力机制引入上述融合后的FFM方程中,得到更新后的FFM模型,并将更新后的FFM模型确定为目标预测模型。
或者,即使上述FFM模型中未引入多元回归特征模型,也可以是为了能更加精准地挖掘得到更多的购买产品意愿高的用户群,将注意力机制引入FFM模型进行融合,以实现对重要特征的识别筛选。并且,加入注意力机制也更能表征特征之间在因变量中的相关程度,提高目标预测模型的准确度及可解释性。
在一些可能的实施方式中,具体地,为了更为合理、准确地引入注意力机制,上述FFM模型中可以包括I个二阶交叉特征,I个二阶交叉特征中各二阶交叉特征基于Q个混合特征和M个特征中的至少两项确定得到,I为正整数;在将注意力机制引入FFM模型中,得到更新后的FFM模型之前,该特征处理方法还可以包括:
从样本数据集中随机抽取目标数据集;目标数据集为样本数据集的子集;
基于目标数据集,确定与I个二阶交叉特征分别对应的特征权重;
基于与I个二阶交叉特征分别对应的特征权重中的至少一项,更新FFM模型中的二阶交叉特征的特征权重,以得到更新后的FFM模型。
具体地,从样本特征集中随机目标数据集,和交叉项的每一个交叉特征K计算两者的cosine相似性,通过对比目标数据集样本特征与I个二阶交叉特征中各二阶交叉特征的相似性,来赋予二阶交叉特征的特征权重。如此,再基于与I个二阶交叉特征分别对应的特征权重中的至少一项,更新FFM模型中的二阶交叉特征的特征权重,以得到更新后的FFM模型
本实施例中,示例性地,相似性越高,则可以表示该二阶交叉特征对识别用户行为或意向越重要,赋予该二阶交叉特征的特征权重越高。由此,通过注意力机制能够进行特征的重要度筛选。
需要说明,上述目标数据集样本特征与I个二阶交叉特征中各二阶交叉特征的相似度具体可以是采用余弦公式进行计算,本申请对此不做具体限制。
需要说明,在其他的一些实施方式中,对于相似性较低的二阶交叉特征,除了给其赋予较低的特征权重之外,还可以是直接将其从中进行过滤删除,以进一步地为后续预测提供更有价值的变量特征。
在一些可能的实施方式中,考虑到在实际预测模型构建中,除了上述混合特征,单变量特征也往往会是比较重要的预测特征。而单变量特征中通常包括分类型特征和连续型特征,需要对不同类型的单变量特征采用不同处理方式,以对为后续模型预测提供价值更好的特征变量。基于此,上述M个特征中可以包括在T个数值型特征和S个分类型特征,T、S为小于或者等于M的非负整数;
在获取样本数据集之后,该特征处理方法还可以包括:
对S个分类型特征分别进行独热编码,得到S个分类型特征分别对应的特征编码结果;
采用有监督分箱算法对T个数值型特征分别进行分箱处理,得到T个数值型特征中各数值型特征对应的目标分箱结果;
基于Q个混合特征和M个特征,构建FFM模型,可以包括:
基于Q个混合特征、S个分类型特征分别对应的特征编码结果,以及T个数值型特征中各数值型特征对应的目标分箱结果,构建FFM模型。
具体实现时,针对M个特征中的分类型特征进行独热编码处理;针对M个特征中的连续型特征采用有监督分箱算法自动化选取各个特征的最优划分点,从而可以通过衍生新的分类型特征替换原来的连续特征。
如此,再基于前述Q个混合特征,和上述得到的S个分类型特征分别对应的特征编码结果,以及T个数值型特征中各数值型特征对应的目标分箱结果,构建FFM模型。
本实施例中,通过对单个特征变量分别进行不同处理,例如对用户性别、学历等分类型变量进行编码,对用户消费金额、业务使用量等数值型变量进行最优区间划分形成分箱特征,以此作为后续FFM模型的单特征输入。对比现有技术中对特征的处理方式,本申请在此对于单特征变量的划分更加精细且,效率更高。并且,其通过对样本数据集中属于不同类型的特征进行快速自动的特征处理和信息的划分,能够后续模型预测提供了价值更高的变量,有助于在实际应用中更加精准地定位产品目标用户群、或者用户相关意向等信息。
在一些可能的实施方式中,为了对上述单变量特征中的连续型特征进行更为合理、准确的分箱操作,以对为后续模型预测提供价值更好的特征变量,上述第二类别特征具体可以为T个数值型特征中的任意一项;
上述采用有监督分箱算法对T个数值型特征分别进行分箱处理,得到T个数值型特征中各数值型特征对应的目标分箱结果,可以包括:
采用Y种有监督分箱算法对第二类别特征进行分箱处理,得到第二类别特征的Y种分箱结果,Y种分箱结果与Y种有监督分箱算法一一对应,Y为正整数;
基于Q种分箱结果的证据权重WOE和信息价值IV,从Y种分箱结果中确定第二类别特征的目标分箱结果。
具体地,采用不同有监督分箱算法分别对第二类别特征进行分箱操作,得到与各个有监督分箱算法分别对应的分析结果。基于此,再对各个分析结果的证据权重WOE和信息价值IV等相关指标进行计算,以从中筛选出最优的目标分箱结果,以尽可能提升后续目标预测模型的预测效果。
上述第二类别特征的目标分箱结果的具体确定过程可以如下步骤所示:
(1)通过多个有监督分箱算法,例如单变量决策树及best-ks算法等得到各个连续型特征的最优划分点;
(2)通过两个有监督分箱算法对各个连续型特征进行分箱后,分别统计各个有监督分箱算法在各个特征对应的WOE和IV值,对于每个分箱结果i,WOE计算公式如式4:
其中,yi可以表示样本数据集S中各个分箱区间营销成功订购成功的用户样本数量,yT可以表示样本数据集S中营销成功订购成功的用户样本数量,ni可以表示样本数据集S中各个分箱区间营销未成功未订购产品的用户样本数量,nT可以表示样本数据集S中营销未成功未订购产品的用户样本数量。
(3)计算IV值,计算公式如下式5:
(4)根据IV值(例如,IV≥0.1)筛选较优特征。对于相同连续型特征则提取使得IV值较大的有监督分箱算法,并将该算法对应的分箱结果作为该连续型特征的目标分箱结果。
需要说明,对以上有监督分箱算法效果不好且分箱阈值不符合业务逻辑的特征,还可以直接采用等频分箱和等距划分变量,或者通过专家评价法选择最终的分箱阈值,以避免数据异常分布导致的分箱不合理问题。
为了便于理解上述实施例提供的特征处理方法,以下以一个具体的整体实施例对上述方法进行说明。图2是本申请一实施例提供的特征处理及模型构建的整体流程示意图。
如图2所示,在处理单变量方面,采用有监督分箱算法,例如best-ks、cert分箱等,以及无监督的等频分箱和等距分箱,相比卡方分箱不断重复迭代寻找最优卡方阈值的方法,通过多方法处理阈值及选择最优变量分箱,其分箱的业务可解释性更高,离散特征通常比连续特征能表征更多复杂信息,与因变量相关性更强,增加模型建模能力,减少特征异常造成的模型鲁棒性风险。
在处理多变量方面,采用CATBOOST算法进行特征衍生,解决了FFM模型处理时只考虑单变量的问题,同时CATBOOST算法的交叉深度限制也解决了特征在高度稀疏的情况下特征交叉无意义的问题,并且通过对分类变量进行交叉,减少维度灾难的问题。
在具体目标预测模型构建过程中,通过引入注意力机制对交叉变量加权,进行多元回归进行用户筛选,融合FFM模型进行综合训练及预估,这样最终训练得到的用于预测用户行为或者用户一项的目标预测模型性能较优,且预测精度会更好。
基于上述实施例提供的特征处理方法,本申请还提供了与上述特征处理方法相对应的一种特征处理装置,下面通过图3对特征处理装置进行详细介绍。
图3示出了本申请一实施例提供的特征处理装置的结构示意图。图2示出的特征处理装置300包括:
第一获取模块310,用于获取样本数据集,样本数据集中包括N个用户样本一一对应的目标信息,目标信息包括样本标签和在M个特征下分别对应的M个特征标签;
第一得到模块320,用于基于N个用户样本一一对应的目标信息,采用catboost算法对样本数据集中的M个特征进行特征交叉,得到Q个混合特征,Q个混合特征用于作为目标预测模型的输入特征;其中,Q个混合特征中任一混合特征中包括的特征的数量小于或者等于预设阈值。
本申请实施例的特征处理方法,通过对所获取的样本数据集采用catboost算法进行训练预测,从而能够自动化地实现对样本数据集中涉及到的多个特征的特征交叉处理,得到受到交叉深度限制的多个混合特征,以用于后续用户行为或意向的预测模型的训练及预测中。本申请实施例提供的一种特征处理方法,使用catboost技术,进行能直接处理样本中各个特征的特征衍生,并在catboost特征衍生时控制多维的特征交叉的最大特征数量,从而有效避免了高维稀疏特征的出现。
在一些可能的实施方式中,具体地,上述第一得到模块320,可以包括:
第一训练子模块,可以用于基于N个用户样本一一对应的目标信息,训练得到特征衍生模型,特征衍生模型基于catboost算法构建得到;
第一预测子模块,可以用于通过特征衍生模型,预测得到N个用户样本中各用户样本的M个特征标签在多棵决策树中的叶节点,多棵决策树基于catboost算法分割得到;
第一确定子模块,可以用于基于N个用户样本中各用户样本的M个特征标签在多棵决策树中的叶节点,确定Q个混合特征。
在一些可能的实施方式中,结合实际应用考虑,在得到Q个混合特征之后,该特征处理装置还可以包括:
第一构建模块,可以用于基于Q个混合特征和M个特征,构建FFM模型;
第一训练模块,可以用于对目标预测模型进行训练,训练好的目标预测模型可以用于对待测样本的样本标签进行预测;
其中,目标预测模型可以基于FFM模型确定得到。
在一些可能的实施方式中,发明人经研究发现,若在目标模型构建及训练过程中存在异常登录的用户或者留存率低的用户,则容易造成后续预测效果较差,从而导致为用户提供精准推荐的效果下降。本申请考虑到高点击率背后的虚假登录,以及用户点击后留存率较低的问题,导致对高点击率用户进行推广后营销留存效果差的问题,针对性地采用多元回归集成到FFM模型,从而可以综合衡量用户的点击率、虚假用户登录率及留存用户率,提高用户的留存及活跃质量。基于此,对FFM模型进行训练之前,该特征处理装置还可以包括:
第二构建模块,可以用于基于K个异常样本特征,构建多元回归特征模型,K为正整数;
第一融合模块,可以用于将多元回归特征模型与FFM模型进行融合,得到目标预测模型。
在一些可能的实施方式中,为了提高目标预测模型的准确度及可解释性,在对目标预测模型进行训练之前,该特征处理装置还可以包括:
第二得到模块,可以用于将注意力机制引入FFM模型中,得到更新后的FFM模型;
第一确定模块,可以用于将更新后的FFM模型确定为目标预测模型。
在一些可能的实施方式中,具体地,为了更为合理、准确地引入注意力机制,FFM模型中可以包括I个二阶交叉特征,I个二阶交叉特征中各二阶交叉特征基于Q个混合特征和M个特征中的至少两项确定得到,I为正整数;在将注意力机制引入FFM模型中,得到更新后的FFM模型之前,该特征处理装置还可以包括:
抽取模块,可以用于从样本数据集中随机抽取目标数据集;目标数据集为样本数据集的子集;
第二确定模块,可以用于基于目标数据集,确定与I个二阶交叉特征分别对应的特征权重;
更新模块,可以用于基于与I个二阶交叉特征分别对应的特征权重中的至少一项,更新FFM模型中的二阶交叉特征的特征权重,以得到更新后的FFM模型。
在一些可能的实施方式中,考虑到在实际预测模型构建中,除了上述混合特征,单变量特征也往往会是比较重要的预测特征。而单变量特征中通常包括分类型特征和连续型特征,需要对不同类型的单变量特征采用不同处理方式,以对为后续模型预测提供价值更好的特征变量。基于此,M个特征中可以包括在T个数值型特征和S个分类型特征,T、S为小于或者等于M的非负整数;
在获取样本数据集之后,该特征处理装置还可以包括:
编码模块,可以用于对S个分类型特征分别进行独热编码,得到S个分类型特征分别对应的特征编码结果;
分箱模块,可以用于采用有监督分箱算法对T个数值型特征分别进行分箱处理,得到T个数值型特征中各数值型特征对应的目标分箱结果;
上述第一构建模块,具体可以包括:
基于Q个混合特征、S个分类型特征分别对应的特征编码结果,以及T个数值型特征中各数值型特征对应的目标分箱结果,构建FFM模型。
在一些可能的实施方式中,为了对上述单变量特征中的连续型特征进行更为合理、准确的分箱操作,以对为后续模型预测提供价值更好的特征变量,第二类别特征可以为T个数值型特征中的任意一项;
上述分箱模块,具体可以包括:
分箱子模块,可以用于采用Y种有监督分箱算法对第二类别特征进行分箱处理,得到第二类别特征的Y种分箱结果,Y种分箱结果与Y种有监督分箱算法一一对应,Y为正整数;
第二确定子模块,可以用于基于Q种分箱结果的证据权重WOE和信息价值IV,从Y种分箱结果中确定第二类别特征的目标分箱结果。
图4是本申请一实施例提供的特征处理设备的结构示意图。
特征处理设备可以包括处理器401以及存储有计算机程序指令的存储器402。
具体地,上述处理器401可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器402可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器402可在综合网关容灾设备的内部或外部。在特定实施例中,存储器402是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器401通过读取并执行存储器402中存储的计算机程序指令,以实现上述实施例中的任意一种特征处理方法。
在一个示例中,数据特征处理设备还可包括通信接口403和总线410。其中,如图4所示,处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
通信接口403,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线410包括硬件、软件或两者,将特征处理设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该特征处理设备执行本申请实施例中的特征处理方法,从而实现图1描述的特征处理方法。
另外,结合上述实施例中的特征处理方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种特征处理方法。
基于上述实施例中的特征处理方法,本申请实施例提供了一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如上述本申请实施例中任意一项提供的特征处理方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (12)
1.一种特征处理方法,其特征在于,包括:
获取样本数据集,所述样本数据集中包括N个用户样本一一对应的目标信息,所述目标信息包括样本标签和在M个特征下分别对应的M个特征标签;
基于所述N个用户样本一一对应的目标信息,采用catboost算法对所述样本数据集中的M个特征进行特征交叉,得到Q个混合特征,所述Q个混合特征用于作为目标预测模型的输入特征;
其中,所述Q个混合特征中任一混合特征中包括的特征的数量小于或者等于预设阈值。
2.根据权利要求1所述的方法,其特征在于,所述采用catboost算法对所述样本数据集中的M个特征进行特征交叉,得到至少一个衍生多变量特征,包括:
基于所述N个用户样本一一对应的目标信息,训练得到特征衍生模型,所述特征衍生模型基于所述catboost算法构建得到;
通过所述特征衍生模型,预测得到所述N个用户样本中各用户样本的M个特征标签在多棵决策树中的叶节点,所述多棵决策树基于所述catboost算法分割得到;
基于所述N个用户样本中各用户样本的M个特征标签在所述多棵决策树中的叶节点,确定所述Q个混合特征。
3.根据权利要求1所述的,其特征在于,在所述得到Q个混合特征之后,所述方法还包括:
基于所述Q个混合特征和所述M个特征,构建FFM模型;
对目标预测模型进行训练,所述训练好的所述目标预测模型用于对待测样本的样本标签进行预测;
其中,所述目标预测模型基于所述FFM模型确定得到。
4.根据权利要求3所述的方法,其特征在于,所述对所述FFM模型进行训练之前,所述方法还包括:
基于K个异常样本特征,构建多元回归特征模型,K为正整数;
将所述多元回归特征模型与所述FFM模型进行融合,得到所述目标预测模型。
5.根据权利要求3所述的方法,其特征在于,在所述对目标预测模型进行训练之前,所述方法还包括:
将注意力机制引入所述FFM模型中,得到更新后的所述FFM模型;
将所述更新后的FFM模型确定为所述目标预测模型。
6.根据权利要求5所述的方法,其特征在于,所述FFM模型中包括I个二阶交叉特征,所述I个二阶交叉特征中各二阶交叉特征基于所述Q个混合特征和所述M个特征中的至少两项确定得到,I为正整数;在所述将注意力机制引入所述FFM模型中,得到更新后的所述FFM模型之前,所述方法还包括:
从所述样本数据集中随机抽取目标数据集;所述目标数据集为所述样本数据集的子集;
基于所述目标数据集,确定与所述I个二阶交叉特征分别对应的特征权重;
基于所述与所述I个二阶交叉特征分别对应的特征权重中的至少一项,更新所述FFM模型中的二阶交叉特征的特征权重,以得到更新后的所述FFM模型。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述M个特征中包括在T个数值型特征和S个分类型特征,T、S为小于或者等于M的非负整数;
在所述获取样本数据集之后,所述方法还包括:
对所述S个分类型特征分别进行独热编码,得到所述S个分类型特征分别对应的特征编码结果;
采用有监督分箱算法对所述T个数值型特征分别进行分箱处理,得到所述T个数值型特征中各数值型特征对应的目标分箱结果;
基于所述Q个混合特征和所述M个特征,构建FFM模型,包括:
基于所述Q个混合特征、所述S个分类型特征分别对应的特征编码结果,以及所述T个数值型特征中各数值型特征对应的目标分箱结果,构建FFM模型。
8.根据权利要求7所述的方法,其特征在于,第二类别特征为所述T个数值型特征中的任意一项;
所述采用有监督分箱算法对所述T个数值型特征分别进行分箱处理,得到所述T个数值型特征中各数值型特征对应的目标分箱结果,包括:
采用Y种有监督分箱算法对所述第二类别特征进行分箱处理,得到所述第二类别特征的Y种分箱结果,所述Y种分箱结果与所述Y种有监督分箱算法一一对应,Y为正整数;
基于所述Q种分箱结果的证据权重WOE和信息价值IV,从所述Y种分箱结果中确定所述第二类别特征的目标分箱结果。
9.一种特征处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取样本数据集,所述样本数据集中包括N个用户样本一一对应的目标信息,所述目标信息包括样本标签和在M个特征下分别对应的M个特征标签;
第一得到模块,用于基于所述N个用户样本一一对应的目标信息,采用catboost算法对所述样本数据集中的M个特征进行特征交叉,得到Q个混合特征,所述Q个混合特征用于作为目标预测模型的输入特征;
其中,所述Q个混合特征中任一混合特征中包括的特征的数量小于或者等于预设阈值。
10.一种特征处理设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-8任意一项所述的特征处理方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-8任意一项所述的特征处理方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,所述电子设备执行如权利要求1-8任意一项所述的特征处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211646017.5A CN115952468A (zh) | 2022-12-20 | 2022-12-20 | 特征处理方法、装置、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211646017.5A CN115952468A (zh) | 2022-12-20 | 2022-12-20 | 特征处理方法、装置、设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115952468A true CN115952468A (zh) | 2023-04-11 |
Family
ID=87287081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211646017.5A Pending CN115952468A (zh) | 2022-12-20 | 2022-12-20 | 特征处理方法、装置、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115952468A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117391405A (zh) * | 2023-12-11 | 2024-01-12 | 汇丰金融科技服务(上海)有限责任公司 | 用于客户与业务人员的智能匹配的方法、系统和电子设备 |
-
2022
- 2022-12-20 CN CN202211646017.5A patent/CN115952468A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117391405A (zh) * | 2023-12-11 | 2024-01-12 | 汇丰金融科技服务(上海)有限责任公司 | 用于客户与业务人员的智能匹配的方法、系统和电子设备 |
CN117391405B (zh) * | 2023-12-11 | 2024-03-15 | 汇丰金融科技服务(上海)有限责任公司 | 用于客户与业务人员的智能匹配的方法、系统和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107040397B (zh) | 一种业务参数获取方法及装置 | |
CN109255586B (zh) | 一种面向电子政务办事的在线个性化推荐方法 | |
CN109685537B (zh) | 用户行为的分析方法、装置、介质和电子设备 | |
CN111340121B (zh) | 目标特征的确定方法及装置 | |
Utari et al. | Implementation of data mining for drop-out prediction using random forest method | |
CN109241451B (zh) | 一种内容组合推荐方法、装置及可读存储介质 | |
CN113449011A (zh) | 基于大数据预测的信息推送更新方法及大数据预测系统 | |
CN111681049A (zh) | 用户行为的处理方法、存储介质及相关设备 | |
CN111241381A (zh) | 信息推荐方法、装置、电子设备及计算机可读存储介质 | |
CN115952468A (zh) | 特征处理方法、装置、设备及计算机存储介质 | |
CN114371946B (zh) | 基于云计算和大数据的信息推送方法及信息推送服务器 | |
CN114548296A (zh) | 一种基于自适应框架的图卷积推荐方法及相关装置 | |
CN112115996B (zh) | 图像数据的处理方法、装置、设备及存储介质 | |
CN116340643B (zh) | 对象推荐的调整方法及装置、存储介质、电子设备 | |
Joung et al. | Importance-performance analysis of product attributes using explainable deep neural network from online reviews | |
CN111353015B (zh) | 众包题目推荐方法、装置、设备及存储介质 | |
CN110880117A (zh) | 虚假业务识别方法、装置、设备和存储介质 | |
CN116126642A (zh) | 信息处理方法、装置、设备及存储介质 | |
CN111723122A (zh) | 数据间关联规则的确定方法、装置、设备及可读存储介质 | |
CN112328779B (zh) | 训练样本构建方法、装置、终端设备及存储介质 | |
CN116127188A (zh) | 目标反馈值确定方法、装置、电子设备及存储介质 | |
CN115034762A (zh) | 一种岗位推荐方法、装置、存储介质、电子设备及产品 | |
CN111400567B (zh) | 一种基于ai的用户数据的处理方法、装置及系统 | |
CN114330720A (zh) | 用于云计算的知识图谱构建方法、设备及存储介质 | |
CN113065067A (zh) | 一种物品推荐方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |