CN109816491A - 基于逐步回归去除因式分解机交叉项的方法 - Google Patents

基于逐步回归去除因式分解机交叉项的方法 Download PDF

Info

Publication number
CN109816491A
CN109816491A CN201910083814.9A CN201910083814A CN109816491A CN 109816491 A CN109816491 A CN 109816491A CN 201910083814 A CN201910083814 A CN 201910083814A CN 109816491 A CN109816491 A CN 109816491A
Authority
CN
China
Prior art keywords
cross term
regression
value
removal
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910083814.9A
Other languages
English (en)
Inventor
张发恩
陈斌斌
周鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innovation Qizhi (beijing) Technology Co Ltd
Original Assignee
Innovation Qizhi (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Innovation Qizhi (beijing) Technology Co Ltd filed Critical Innovation Qizhi (beijing) Technology Co Ltd
Priority to CN201910083814.9A priority Critical patent/CN109816491A/zh
Publication of CN109816491A publication Critical patent/CN109816491A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明提出了一种基于逐步回归去除因式分解机交叉项方法,根据因式分解机公式,引入交叉项,利用逐步回归法逐项检验交叉项的F检验水平是否显著;每次引入一个新的变量后,对所有老变量逐个检验,将变得不再显著的变量从模型中剔除,对于模型外部的变量,只要能通过偏F的显著性检验,则可以进入模型,只要它的偏F检验不再显著,则从模型剔除。使用逐步回归方法去改进因子分解机模型FM,在保持相同的计算效率基础上解决线性回归存在的多重共线性问题。

Description

基于逐步回归去除因式分解机交叉项的方法
技术领域
本发明涉及广告推荐技术领域,特别涉及一种基于逐步回归去除因式分解机交叉项的方法。
背景技术
随着互联网技术的发展,现有的产品在互联网上展出销售时,根据用户的搜索记录适时推荐相关商品,收到多数网购消费者的好评;但是现有的电商产品推荐技术中,多是采用Steffen Rendle于2010年提出的Factorization Machines(下面简称FM),当使用到FM时,一般会使用全部的交叉项(二阶特征组合),然而使用过多的特征组合可能会带来多重共线性的问题,因此样本数量越多,共线性问题越为严重,不能准确的筛选出可以推荐的商品。
发明内容
本发明的目的旨在至少解决所述的技术缺陷之一。
为此,本发明的一个目的在于提出一种基于逐步回归去除因式分解机交叉项的方法,每次引入一个新的变量后,对所有老变量逐个检验,将变得不再显著的变量从模型中剔除,对于模型外部的变量,只要能通过偏F的显著性检验,则可以进入模型,只要它的偏F检验不再显著,则从模型剔除。
为了实现上述目的,本发明一方面的实施例提供一种基于逐步回归去除因式分解机交叉项的方法,包括以下步骤:
S1,根据因式分解机FM公式,引入交叉项,
S2,查取F分布表,设定自由度,根据设定的自由度分别设定引入交叉项和删除交叉项的偏F显著性检验水平的临界值;
S3,利用逐步回归法逐项检验交叉项的F检验水平是否显著;当引入交叉项时,在已引入的交叉项中,计算全部自变量的贡献值V’;在已引入的交叉项中选取具有最小贡献值V'的一个并计算其F值,并将该交叉项的F值与临界值进行比较;判断该交叉项的显著性;如果该交叉项不显著,则将其从回归方程中删除,进入步骤S4;如果显著,则从未引入的交叉项中再选出具有最大贡献值V'的一个交叉项并计算F值,再次检验该交叉项的显著性;如果该交叉项显著,应将其引入回归方程,进入步骤S4;如果该交叉项不显著,表示已无交叉项可选入方程,则逐步计算阶段结束;
S4,剔除或引入一个交叉项后,相关系数矩阵进行消去变换,直至逐步计算结束完成FM交叉项的去除,利用SGD求解线性回归公式的参数。
优选的,在步骤S1中,所述FM公式为其中,其中,w0和wi为该公式线性部分的权重因子;n表示样本总数量;<vi,vj>表示组合特征的权重因子;xi为输入样本的各个特征;xi xj代表组合特征。
在上述任意一项实施例中优选的,在步骤S2中,当引入交叉项时,设定偏F显著性检验水平的临界值为F1;当删除交叉项时,设定偏F显著性检验水平的临界值为F2。
在上述任意一项实施例中优选的,在步骤S2中,如果已引入的交叉项中最小贡献值V'的F值<偏F显著性检验水平的临界值F2,表示该交叉项不显著,应将其从回归方程中剔除。
在上述任意一项实施例中优选的,如果已引入的交叉项中最小贡献值V'的F值F>F2,则从未引入的交叉项中选出具有最大V'值的一个并计算F值,如果F>F1,则表示该交叉项显著,应将其引人回归方程;如果F<F1,表示已无交叉项可选入方程,则逐步计算阶段结束。
在上述任意一项实施例中优选的,在步骤S2中,设定自由度时,设定自由度=n-k-1;其中,n为原始数据观测组数,k为估计可能选人回归方程的变量个数。
在上述任意一项实施例中优选的,还包括步骤S5,将调整后的FM公式记为:
其中keep_set是上述步骤S1-S4计算后保留的交叉项,I{xixj∈keep_set}为示性函数。
根据本发明实施例提供的一种基于逐步回归去除因式分解机交叉项的方法,相比于现有技术至少具有以下优点:
1、使用逐步回归方法去改进因子分解机模型FM,在保持相同的计算效率基础上解决线性回归存在的多重共线性问题。
2、计算步骤简单,避免诸多重复冗杂计算,根据自由度设定,F检验的临界值;保证最终的回归方程中包含较多的变量。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例中提供的一种基于逐步回归去除因式分解机交叉项的方法的简化流程图;
图2为本发明实施例中提供的一种基于逐步回归去除因式分解机交叉项的方法的流程图;
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
如图1所示,本发明实施例的一种基于逐步回归去除因式分解机交叉项的方法,包括以下步骤:
根据逐步回归原理:每次引入一个新的变量后,对所有老变量逐个检验,将变得不再显著的变量从模型中剔除,对于模型外部的变量,只要能通过偏F的显著性检验,则可以进入模型,只要它的偏F检验不再显著,则从模型剔除。
普通的线性模型,我们都是将各个特征独立考虑的,并没有考虑到特征与特征之间的相互关系。但实际上,大量的特征之间是有关联的。最简单的以电商推荐为例,一般女性用户看化妆品服装之类的广告比较多,而男性更青睐各种球类装备。那很明显,女性这个特征与化妆品类服装类商品有很大的关联性,男性这个特征与球类装备的关联性更为密切。如果我们能将这些有关联的特征找出来,就能实现对各类商品或者广告根据受众不同,进行精准推荐。因此在本发明的实施例中,(女性,化妆品)(男性,化妆品)即可作为因式分解机的组合特征项。
S1,根据因式分解机FM公式,所述FM公式为其中,其中,w0和wi为该公式线性部分的权重因子;n表示样本总数量;<vi,vj>表示组合特征的权重因子;xi为输入样本的各个特征;xi xj代表组合特征,xi xj项,产生交叉项,例如X1X2和X2X1即为交叉项;
S2,查取F分布表,设定自由度,根据设定的自由度分别设定引入交叉项和删除交叉项的偏F显著性检验水平的临界值;
在步骤S2中,一般地,为使最终的回归方程中包含较多的变量,F水平不宜取得过高,即显著水平α不宜太小。F水平还与自由度有关,因为在逐步回归过程中,回归方程中所含的变量的个数不断在变化,因此方差分析中的剩余自由度也总在变化,设定自由度时,设定自由度=n-k-1;其中,n为原始数据观测组数,k为估计可能选人回归方程的变量个数。例如n=15,估计可能有2~3个变量选入回归方程,因此取自由度为15-3-1=11,查F分布表,并且在引入交叉项时,自由度取f1=1,f1=n-k-2,F检验的临界值记F1,在剔除变量时自由度取f1=1,f2=n-k-1,F检验的临界值记F2,并要求F1>=F2,实际应用中常取F1=F2。
S3,当引入交叉项时,在已引入的交叉项中,设定偏F显著性检验水平的临界值为F1;当删除交叉项时,设定偏F显著性检验水平的临界值为F2。
计算全部自变量的贡献值V’;在已引入的交叉项中选取具有最小贡献值V'的一个并计算其F值,并将该交叉项的F值与临界值进行比较;判断该交叉项的显著性;如果该交叉项不显著,则将其从回归方程中删除,进入步骤S4;如果显著,则从未引入的交叉项中再选出具有最大贡献值V'的一个交叉项并计算F值,再次检验该交叉项的显著性;如果该交叉项显著,应将其引入回归方程,进入步骤S4;如果F<F1,表示已无交叉项可选入方程,则逐步计算阶段结束;在步骤S2中,当引入交叉项时,在步骤S2中,如果已引入的交叉项中最小贡献值V'的F值<F2,表示该交叉项不显著,应将其从回归方程中剔除。如果已引入的交叉项中最小贡献值V'的F值F>F2,则从未引入的交叉项中选出具有最大V'值的一个并计算F值,如果F>F1,则表示该交叉项显著,应将其引人回归方程;如果F<F1,表示已无交叉项可选入方程,则逐步计算阶段结束。
S4,剔除或引入一个交叉项后,相关系数矩阵进行消去变换,直至逐步计算结束完成FM交叉项的去除,利用SGD求解线性回归公式的参数。
还包括步骤S5,将调整后的FM公式记为:
其中keep_set是上述步骤S1-S4计算后保留的交叉项,I{xixj∈keep_set}为示性函数。示性函数的取值为1或0,当取值为0时,该项消去,当取值为1时,该项保留。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims (7)

1.一种基于逐步回归去除因式分解机交叉项的方法,其特征在于,包括以下步骤:
S1,根据因式分解机FM公式,引入交叉项;
S2,查取F分布表,设定自由度,根据设定的自由度分别设定引入交叉项和删除交叉项的偏F显著性检验水平的临界值;
S3,利用逐步回归法,逐项检验交叉项的F检验水平;当引入交叉项时,在已引入的交叉项中,计算全部自变量的贡献值V’;在已引入的交叉项中选取具有最小贡献值V'的一个并计算其F值,并将该交叉项的F值与临界值进行比较;判断该交叉项的显著性;如果该交叉项不显著,则将其从回归方程中删除,进入步骤S4;如果显著,则从未引入的交叉项中再选出具有最大贡献值V'的一个交叉项并计算F值,再次检验该交叉项的显著性;如果该交叉项显著,应将其引入回归方程,进入步骤S4;如果该交叉项不显著,表示已无交叉项可选入方程,则逐步计算阶段结束;
S4,剔除或引入一个交叉项后,利用矩阵变换将交叉项的系数进行消去,直至逐步计算结束完成FM交叉项的去除;利用SGD求解线性回归公式的参数。
2.根据权利要求1所述的基于逐步回归去除因式分解机交叉项的方法,其特征在于,在步骤S1中,所述FM公式为预测结果其中,w0和wi为该公式线性部分的权重因子;n表示样本总数量;<vi,vj>表示组合特征的权重因子;xi为输入样本的各个特征;xi xj代表组合特征,xi xj为交叉项。
3.根据权利要求1所述的基于逐步回归去除因式分解机交叉项的方法,其特征在于,在步骤S2中,当引入交叉项时,设定偏F显著性检验水平的临界值为F1;当删除交叉项时,设定偏F显著性检验水平的临界值为F2。
4.根据权利要求3所述的基于逐步回归去除因式分解机交叉项的方法,其特征在于,在步骤S2中,如果已引入的交叉项中最小贡献值V'的F值<偏F显著性检验水平的临界值F2,表示该交叉项不显著,应将其从回归方程中剔除。
5.根据权利要求3所述的基于逐步回归去除因式分解机交叉项的方法,其特征在于,如果已引入的交叉项中最小贡献值V'的F值F>F2,则从未引入的交叉项中选出具有最大V'值的一个并计算F值,如果F>F1,则表示该交叉项显著,应将其引人回归方程;如果F<F1,表示已无交叉项可选入方程,则逐步计算阶段结束。
6.根据权利要求1所述的基于逐步回归去除因式分解机交叉项的方法,其特征在于,在步骤S2中,设定自由度时,设定自由度=n-k-1;其中,n为原始数据观测组数,k为估计可能选人回归方程的变量个数。
7.根据权利要求1所述的基于逐步回归去除因式分解机交叉项的方法,其特征在于,
还包括步骤S5,将调整后的FM公式记为:
其中keep_set是上述步骤S1-S4计算后保留的交叉项,I{xixj∈keep_set}为示性函数。
CN201910083814.9A 2019-01-18 2019-01-18 基于逐步回归去除因式分解机交叉项的方法 Pending CN109816491A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910083814.9A CN109816491A (zh) 2019-01-18 2019-01-18 基于逐步回归去除因式分解机交叉项的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910083814.9A CN109816491A (zh) 2019-01-18 2019-01-18 基于逐步回归去除因式分解机交叉项的方法

Publications (1)

Publication Number Publication Date
CN109816491A true CN109816491A (zh) 2019-05-28

Family

ID=66605533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910083814.9A Pending CN109816491A (zh) 2019-01-18 2019-01-18 基于逐步回归去除因式分解机交叉项的方法

Country Status (1)

Country Link
CN (1) CN109816491A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310047A (zh) * 2020-02-20 2020-06-19 深圳前海微众银行股份有限公司 基于fm模型的信息推荐方法、装置、设备及存储介质
CN113902228A (zh) * 2021-12-09 2022-01-07 北京东润环能科技股份有限公司 基于逐步回归与深度学习的风电功率预测方法及相关设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310047A (zh) * 2020-02-20 2020-06-19 深圳前海微众银行股份有限公司 基于fm模型的信息推荐方法、装置、设备及存储介质
CN111310047B (zh) * 2020-02-20 2021-04-23 深圳前海微众银行股份有限公司 基于fm模型的信息推荐方法、装置、设备及存储介质
CN113902228A (zh) * 2021-12-09 2022-01-07 北京东润环能科技股份有限公司 基于逐步回归与深度学习的风电功率预测方法及相关设备

Similar Documents

Publication Publication Date Title
KR100712711B1 (ko) 3지표축에 의해 표현된 고객가치를 기준으로 한 매상 예측
TWI587229B (zh) Push method and device for product information
CN108898459A (zh) 一种商品推荐方法及装置
JPWO2012127572A1 (ja) 秘匿データ処理方法、プログラム及び装置
CN106611344A (zh) 挖掘潜在客户的方法及装置
CN104111938B (zh) 一种信息推荐的方法及装置
CN109816491A (zh) 基于逐步回归去除因式分解机交叉项的方法
JP6679451B2 (ja) 選択装置、選択方法および選択プログラム
CN103646341B (zh) 一种网站提供对象的推荐方法和装置
CN107180093A (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN108537586A (zh) 基于用户画像的数据处理方法及装置
CN111986007A (zh) 一种商品聚合并计算相似度的方法
CN106919611A (zh) 产品信息推送方法和装置
CN109978580A (zh) 对象推荐方法、装置以及计算机可读存储介质
CN115994774B (zh) 一种商品信息追溯方法、系统、电子设备及可读存储介质
Güsken et al. Online grocery platforms–understanding consumer acceptance
CN109859000A (zh) 产品信息的推送和显示方法及装置、存储介质
Xue et al. Intelligent mining on purchase information and recommendation system for e-commerce
CN110427545A (zh) 一种信息推送方法及系统
CN107358508A (zh) 一种相似商品条目管理方法和装置
CN110020135B (zh) 一种需求确定方法、资源推荐方法和相关装置
CN104463627B (zh) 数据处理方法和装置
CN109658195A (zh) 一种商品展示决策方法
CN111553763B (zh) 一种物品推荐方法、装置、电子设备及可读存储介质
CN107862577A (zh) 一种基于大数据的试衣推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190528

RJ01 Rejection of invention patent application after publication