CN103942403A - 一种对海量变量进行筛选的方法及设备 - Google Patents

一种对海量变量进行筛选的方法及设备 Download PDF

Info

Publication number
CN103942403A
CN103942403A CN201310023651.8A CN201310023651A CN103942403A CN 103942403 A CN103942403 A CN 103942403A CN 201310023651 A CN201310023651 A CN 201310023651A CN 103942403 A CN103942403 A CN 103942403A
Authority
CN
China
Prior art keywords
variable
champion
value
challenge
pond
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310023651.8A
Other languages
English (en)
Other versions
CN103942403B (zh
Inventor
叶家杰
盛子夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201310023651.8A priority Critical patent/CN103942403B/zh
Publication of CN103942403A publication Critical patent/CN103942403A/zh
Application granted granted Critical
Publication of CN103942403B publication Critical patent/CN103942403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种对海量变量进行筛选的方法及设备,本申请涉及计算机领域,尤其涉及一种对海量变量进行筛选以获得变量组合的方法。本申请要解决的技术问题是在海量变量筛选中存在的误将不应被删除的变量删除、分析选择变量时间长,耗费精力大等问题。本申请所述方法主要包括:基于候选变量池的变量,获得第一变量组合;判断第一变量组合中是否有任一变量的方差膨胀因子值大于预定值;若是,取方差膨胀因子值最高的n个变量,并比较所述n个变量的方差膨胀因子值和标准化参数估计值,基于比较结果更新所述候选变量池,并基于更新后的候选变量池,重新获得第一变量组合并进行判断;若否,将所述第一变量组合作为最终变量组合输出。

Description

一种对海量变量进行筛选的方法及设备
技术领域
本申请涉及计算机领域,尤其涉及一种对海量变量进行筛选的方法。
背景技术
一般情况下,在数据处理系统的构建时,进行系统的响应类的模式构建都会有变量选择的环节,而在这环节中,由于变量与变量之间存在一定的相关性,从而会使变量的组合出现严重的多重共线性问题。多重共线性一方面会影响模型的可解释性,导致原来能通过模型揭示的规律变得不再明显;另一方面也有可能降低模型的预测精确度,从而最终会影响数据处理系统的数据处理操作结果。
针对上述问题,传统方法是在完成回归建模的变量选择后,再借助变量间的相关系数或VIF来判断哪些变量可能会存在相关性,从而在一组相关的变量中剔除若干个。但这当中有几个技术难点未能解决:
1、传统方法对多重共线性的检测一般是在完成变量选择之后进行,因为这时变量的数量较少;但同时也由于在变量选择过程中只考虑变量的显著性而不考虑共性线,因此有可能会使一些共线性较低同时又显著的变量组合在选择过程中被剔除。
2、通常情况下互相相关的很可能不止两个变量,而是十个甚至几十个变量同时相互相关,每个变量在不同的方面都各有自身优势,一不小心,就会把重要的变量剔除,从而对模型造成损失。
3、难以在既保证变量不相关,又保证变量对目标变量的影响最大化。若只依据相关系数来判断,筛选出来的变量不一定对模型有重要影响,而且在筛选过程中可能会把真正重要的变量剔除。
因此,需要一种方法来快速地进行变量筛选从而实现准确且快速的数据处理。
例如:一个预测目标数据在未来一定时间(如6个月)的预估值的系统,此系统将采集及目标数据相关、环境相关的若干变量信息进行分析,判断未来的目标数据预估值。其中的若干变量并不一定都对目标数据有影响,或者其中几个变量对目标数据的影响是相关的(即如果将所述相关变量都计入关键变量,会直接导接各变量的权重失真,从而影响最终预测结果及模型的可解释性),所以要从中间寻找出影响较大的,相关性较小的关键变量。当可供分析的变量的数量比较小时(例如几百个变量),可以采用传统的变量分析方法选取关键变量,分析人员需要耗费几天至十几天的分析时间;然而,当遇到变量个数达到“海量”例如20000-50000个的情况,现有的技术将耗费非常长的时间来选择关键变量,而本发明旨在提供一种新的方法及设备,快速准确地在海量变量中找到关键变量,依据所述关键变量计算未来一定时间内的目标数据预估值。
发明内容
本申请的主要目的在于提供一种对海量变量进行筛选的方法及设备,以解决现有技术存在的上述误将不应被删除的变量删除、分析选择变量时间长,耗费精力大等问题。利用本申请的技术方案筛选出系统需要的变量,构建准确的系统模式,并将该更优化的系统模式应用于计算机系统中以提升数据处理性能。
根据本申请的一个方面,提供了一种对变量进行筛选的方法,包括:(a)从候选变量池中选择符合预定显著性限值的变量以构成第一变量池;(b)针对所述第一变量池中的变量,基于第一预定规则获得第一变量组合;(c)计算所述第一变量组合中各变量的方差膨胀因子值和标准化参数估计值;(d)确定第一变量组合中的变量是否有任一变量的方差膨胀因子值大于预定的方差膨胀因子值;(e)如果是,取第一变量组合中方差膨胀因子值最高的n个变量,并比较所述n个变量的方差膨胀因子值和标准化参数估计值,基于比较结果更新所述候选变量池,并基于更新后的候选变量池,执行步骤(a)~(d);(f)如果确定第一变量组合中的变量的方差膨胀因子值小于或等于预定的方差膨胀因子值,将所述第一变量组合作为最终变量组合输出。
根据本申请具体实施方式的方法,步骤(e)中所述“n”可以为大于等于2的整数。
根据本申请具体实施方式的方法,该方法还可以包括步骤(g):获得候选变量池中各变量对目标变量的F检验值;步骤(e)中所述将n个变量的方差膨胀因子值和标准化参数估计值的步骤还可以包括:将所述n个变量中F检验值最高的变量置为初始的冠军变量,将其余n-1个变量置为挑战变量,将挑战变量的标准化参数估计和F检验值与冠军变量的标准化参数估计值和F检验值进行比较。
根据本申请具体实施方式的方法,将所述挑战变量的标准化参数估计值和F检验值与冠军变量的标准化参数估计值和F检验值进行比较的步骤还可以包括:
(e1)将第i个挑战变量的标准化参数估计值和F检验值与第i个冠军变量的标准化参数估计值和F检验值进行比较;
(e2)基于比较结果从第一变量组合中剔除所述第i个挑战变量和第i个冠军变量中的一个,将第i个挑战变量和第i个冠军变量中未被剔除的那个变量作为第i+1个冠军变量;
(e3)继续执行步骤(e1)和(e2),直到剔除n-1个变量;其中:i=1,2,3,…,n-1;第1个冠军变量即为初始冠军变量。
根据本申请具体实施方式的方法,所述步骤(e2)还可以包括:若第i个挑战变量的标准化参数估计值和F检验值都大于第i个冠军变量的相应值,则将所述第i个冠军变量从第一变量组合中剔除,将所述第i个挑战变量置为第i+1个冠军变量。
根据本申请具体实施方式的方法,所述步骤(e2)还可以包括:若所述第i个挑战变量的标准化参数估计值和F检验值都小于所述第i个冠军变量的相应值,则从第一变量组合中剔除所述第i个挑战变量,将所述第i个冠军变量置为第i+1个冠军变量。
根据本申请具体实施方式的方法,所述步骤(e2)还可以包括:若第i个挑战变量的标准化参数估计值小于第i个冠军变量的标准化参数估计值并且所述第i个挑战变量的F检验值大于第i个冠军变量的F检验值,或者所述第i个挑战变量的标准化参数估计值大于第i个冠军变量的标准化参数估计值并且所述第i个挑战变量的F检验值小于第i个冠军变量的F检验值,则利用所述第i个挑战变量、所述第i个冠军变量与目标变量构建回归模型,重新计算所述第i个挑战变量和所述第i个冠军变量在所述回归模型中的标准化的参数估计值,将所述第i个挑战变量和所述第i个冠军变量在所述回归模型的中标准化的参数估计值较小的一个变量从第一变量组合中剔除,将所述第i个挑战变量和所述第i个冠军变量在所述回归模型中标准化的参数估计值较大的一个变量置为第i+1个冠军变量。
根据本申请具体实施方式的方法,所述步骤(e)中所述基于比较结果更新所述候选变量池的步骤还可以包括:将在第一变量组合中剔除的n-1个变量从所述候选变量池中剔除。
根据本申请具体实施方式的方法,所述从全集模型中选择符合预定显著性限值的变量以构成第一变量池还可以包括:获得变量的回归系数的T检验值,获得所述T检检值所对应的显著性概率P值作为变量的显著性值;选择所述显著性值小于预定显著性限值的变量以构成第一变量池。
根据本申请具体实施方式的方法,所述第一预定规则可以包括stepwise筛选规则。
根据本申请具体实施方式的方法,从候选变量池中选择符合预定标准的变量以构成第一变量池的步骤还可以包括:
(a1)基于候选变量池的变量,构建变量的全集模型;
(a2)利用所述全集模型,从候选变量池中选择符合预定显著性限值的变量,以构成第一变量池。
根据本申请的另一个方面,提供一种对变量进行筛选的设备,包括:模块(a),用于从候选变量池中选择符合预定显著性限值的变量以构成第一变量池;模块(b),针对所述第一变量池中的变量,基于第一预定规则获得第一变量组合;模块(c),计算所述第一变量组合中各变量的方差膨胀因子值和标准化参数估计值;模块(d),确定第一变量组合中的变量是否有任一变量的方差膨胀因子值大于预定的方差膨胀因子值;模块(e),用于,若模块(d)确定第一变量组合中的变量有任一变量的方差膨胀因子值大于预定的方差膨胀因子值,取第一变量组合中方差膨胀因子值最高的n个变量,并比较所述n个变量的方差膨胀因子值和标准化参数估计值,基于比较结果更新所述候选变量池,并且所述模块(a)~(d)基于更新后的候选变量池继续对更新后的变量进行操作;模块(f),用于,若模块(d)确定确定第一变量组合中的变量的方差膨胀因子值小于或等于预定的方差膨胀因子值,将所述第一变量组合作为最终变量组合输出。
根据本申请具体实施方式,所述一种对变量进行筛选以获得最终变量组合的设备中,还包括一个模块(g),用于获得候选变量池中各变量对目标变量的F检验值;模块(e)还可以被配置成:
将所述n个变量中F检验值最高的变量置为初始的冠军变量,将其余n-1个变量置为挑战变量,将挑战变量的标准化参数估计和F检验值与冠军变量的标准化参数估计值和F检验值进行比较,包括:
(e1)将第i个挑战变量的标准化参数估计值和F检验值与第i个冠军变量的标准化参数估计值和F检验值进行比较;
(e2)基于比较结果从第一变量组合中剔除所述第i个挑战变量和第i个冠军变量中的一个,将第i个挑战变量和第i个冠军变量中未被剔除的那个变量作为第i+1个冠军变量;其中:i=1,2,3,…,n-1;第1个冠军变量即为初始冠军变量;
若第i个挑战变量的标准化参数估计值和F检验值都大于第i个冠军变量的相应值,则将所述第i个冠军变量从第一变量组合中剔除,将所述第i个挑战变量置为第i+1个冠军变量;
若所述第i个挑战变量的标准化参数估计值和F检验值都小于所述第i个冠军变量的相应值,则从第一变量组合中剔除所述第i个挑战变量,将所述第i个冠军变量置为第i+1个冠军变量;
若第i个挑战变量的标准化参数估计值小于第i个冠军变量的标准化参数估计值并且所述第i个挑战变量的F检验值大于第i个冠军变量的F检验值,或者所述第i个挑战变量的标准化参数估计值大于第i个冠军变量的标准化参数估计值并且所述第i个挑战变量的F检验值小于第i个冠军变量的F检验值,则利用所述第i个挑战变量、所述第i个冠军变量与目标变量构建回归模型,重新计算所述第i个挑战变量和所述第i个冠军变量在所述回归模型中的标准化的参数估计值,将所述第i个挑战变量和所述第i个冠军变量在所述回归模型的中标准化的参数估计值较小的一个变量从第一变量组合中剔除,将所述第i个挑战变量和所述第i个冠军变量在所述回归模型中标准化的参数估计值较大的一个变量置为第i+1个冠军变量。
(e3)继续执行步骤(e1)和(e2),直到剔除n-1个变量。
将在第一变量组合中剔除的n-1个变量从所述候选变量池中剔除。
根据本申请具体实施方式,所述一种对变量进行筛选以获得最终变量组合的设备中,所述从候选变量池中选择符合预定标准的变量以构成第一变量池的模块(a)还可以包括:
模块(a1),用于基于候选变量池的变量,构建变量的全集模型;
模块(a2),用于利用所述全集模型,从候选变量池中选择符合预定显著性限值的变量,以构成第一变量池。
与现有技术相比,根据本申请的技术方案,解决现有技术存在的上述误将不应被删除的变量删除、分析选择变量时间长,耗费精力大等问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为根据本申请实施例所述的一种对变量进行筛选的方法流程图;
图2为根据图1所述方法中步骤150的优选方案的流程图;
图3为根据本申请实施例所述的一种对变量进行筛选的设备结构框图。具体实施方式
为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。
下面参考图1和图2。图1为根据本申请实施例所述的一种对变量进行筛选以获得最终变量组合的方法流程图,包括步骤110~160;图2为图1所述方法中步骤150的优选方案的流程图。
在图1中所述的方法中,在步骤110处,从候选变量池中选择符合预定显著性限值的变量以构成第一变量池;
优选地,步骤110包括步骤a1和步骤a2:
在步骤a1处,基于候选变量池的变量,构建变量的全集模型;一般而言,采用普通最小二乘法算法或逻辑回归算法算法构建变量的全集模型。
在步骤a2处,利用所述全集模型,从候选变量池中选择符合预定显著性限值的变量,以构成第一变量池。
优选地,所述选择符合预定显著性限值的变量的方法可以是:获得变量的回归系数的T检验值,获得所述T检检值所对应的显著性概率P值作为变量的显著性值;选择所述显著性值小于预定显著性限值的变量以构成第一变量池。一般,预定显著性限值可以是0.05。
在步骤120处,针对所述第一变量池中的变量,基于第一预定规则获得第一变量组合。
优选地,所述第一预定规则可以为stepwise筛选规则。所述stepwise筛选规则可以包括:对第一变量池中的所有各变量分别进行1次单次筛选,所述单次筛选包括:将1个所述变量放入第一模型,重新采用显著性算法计算第一模型各变量的显著性,选择符合预定显著性限值的变量保留在第一模型,将不符合预定显著性限值的变量从第一模型中剔除;stepwise筛选规则中的所述第一模型的变量初始数目为0,第一模型的变量数目随放入变量及剔除变量而变化。最终,由第一模型中剩余的所有变量组成第一变量组合。
在步骤130处,计算所述第一变量组合中各变量的方差膨胀因子值和标准化参数估计值。
在步骤140处,确定第一变量组合中的变量是否有任一变量的方差膨胀因子值大于预定的方差膨胀因子值;如果是,执行步骤150;如果否,执行步骤160。
在步骤150处,取第一变量组合中方差膨胀因子值最高的n个变量(一般所述n为大于等于2的整数),并比较所述n个变量的方差膨胀因子值和标准化参数估计值,基于比较结果更新所述候选变量池,并基于更新后的候选变量池,转回到步骤110继续执行该方法。
在步骤160处,将所述第一变量组合作为最终变量组合输出。
根据本发明的方法,还可以包括获得候选变量池中各变量对目标变量的F检验值的步骤。
一般而言,候选变量池由对目标变量可能有意义的变量组成。例如,对于交通拥堵情况这个目标变量,对其有意义的变量有可能是:所处位置、雨雪情况、星期几、是否临近节假日、附近是否有大型会议或演出等等,可以由任何有可能影响目标变量的变量组成候选变量池,也可依据人为的与判断挑选部分变量构建候选变量池。获得候选变量对目标变量的F检验值,一般运用方差分析或广义线性模型方法计算。
利用本发明的方法,可以筛选出系统需要的变量,构建准确的系统模式,并将该系统模式应用于计算机系统中以进行后续数据处理。例如找到对数据库中的目标数据最相关的变量从而数据处理得到最佳结果。
参考图2,图2为步骤150的一个优选方案的流程图,包括步骤151~步骤157,具体步骤如下。
优选地,步骤150中比较所述n个变量的方差膨胀因子值和标准化参数估计值可以包括以下步骤。
在步骤151处,将所述n个变量中F检验值最高的变量置为初始的冠军变量。
在步骤152处,将其余n-1个变量置为挑战变量。
将挑战变量的标准化参数估计和F检验值与冠军变量的标准化参数估计值和F检验值进行比较。
优选地,所述比较包括如下步骤。
在步骤153处,取第i个挑战变量,将其标准化参数估计值和F检验值与第i个冠军变量的标准化参数估计值和F检验值进行比较;其中:i=1,2,3,…,n-1;第1个冠军变量即为初始冠军变量。
基于比较结果从第一变量组合中剔除所述第i个挑战变量和第i个冠军变量中的一个,将第i个挑战变量和第i个冠军变量中未被剔除的那个变量作为第i+1个冠军变量。
在步骤154处,若第i个挑战变量的标准化参数估计值和F检验值都大于第i个冠军变量的相应值,则将所述第i个冠军变量从第一变量组合中剔除,将所述第i个挑战变量置为第i+1个冠军变量。
在步骤155处,若所述第i个挑战变量的标准化参数估计值和F检验值都小于所述第i个冠军变量的相应值,则从第一变量组合中剔除所述第i个挑战变量,将所述第i个冠军变量置为第i+1个冠军变量。
在步骤156处,若第i个挑战变量的标准化参数估计值小于第i个冠军变量的标准化参数估计值并且所述第i个挑战变量的F检验值大于第i个冠军变量的F检验值,或者所述第i个挑战变量的标准化参数估计值大于第i个冠军变量的标准化参数估计值并且所述第i个挑战变量的F检验值小于第i个冠军变量的F检验值,则利用所述第i个挑战变量、所述第i个冠军变量与目标变量构建回归模型,重新计算所述第i个挑战变量和所述第i个冠军变量在所述回归模型中的标准化的参数估计值,将所述第i个挑战变量和所述第i个冠军变量在所述回归模型的中标准化的参数估计值较小的一个变量从第一变量组合中剔除,将所述第i个挑战变量和所述第i个冠军变量在所述回归模型中标准化的参数估计值较大的一个变量置为第i+1个冠军变量。
继续执行步骤153~步骤156,直到完成n-1次比较,剔除n-1个变量,执行步骤157。
在步骤157处,将在第一变量组合中剔除的n-1个变量从所述候选变量池中剔除。
从而,实现了系统模型构建中快速准确的变量筛选并最终利用最终的模型实现准确且快速的数据处理。
参考图3,图3为根据本申请实施例所述的一种对变量进行筛选以获得最终变量组合的设备300。该设备可以包括模块310~模块370。
模块310可以用于从候选变量池中选择符合预定显著性限值的变量以构成第一变量池。优选地,模块310包括模块(a1)和模块(a2),模块(a1),用于基于候选变量池的变量,构建变量的全集模型;模块(a2),用于利用所述全集模型,从候选变量池中选择符合预定显著性限值的变量,以构成第一变量池。模块320可以用于针对所述第一变量池中的变量,基于第一预定规则获得第一变量组合。模块330可以用于计算所述第一变量组合中各变量的方差膨胀因子值和标准化参数估计值。模块340可以用于确定第一变量组合中的变量是否有任一变量的方差膨胀因子值大于预定的方差膨胀因子值。若模块340确定第一变量组合中的变量有任一变量的方差膨胀因子值大于预定的方差膨胀因子值,模块350可以用于取第一变量组合中方差膨胀因子值最高的n个变量,并比较所述n个变量的方差膨胀因子值和标准化参数估计值,基于比较结果更新所述候选变量池,并且所述模块310~340基于更新后的候选变量池继续对更新后的变量进行操作。模块360可以用于,若模块340确定第一变量组合中的变量的方差膨胀因子值小于或等于预定的方差膨胀因子值,将所述第一变量组合作为最终变量组合输出。
根据本发明的实施方式,该设备还可以包括模块370,其可以用于获得候选变量池中各变量对目标变量的F检验值。优选地,模块350可以用于执行以图2所述方法步骤150的各步骤151~157。为了使本申请的描述简单明了,在此将不对模块350所执行的与参照图2所述的方法步骤相对应的功能进行累述。
利用本申请的设备,对变量进行筛选,并将选出变量通过加权的方式形成一个回归模型并应用于数据处理与计算中,从而实现了系统模型构建中最佳的变量筛选并最终利用模型实现准确且快速的数据处理。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (14)

1.一种对变量进行筛选的方法,其特征在于,包括:
(a)从候选变量池中选择符合预定显著性限值的变量以构成第一变量池;
(b)针对所述第一变量池中的变量,基于第一预定规则获得第一变量组合;
(c)计算所述第一变量组合中各变量的方差膨胀因子值和标准化参数估计值;
(d)确定第一变量组合中的变量是否有任一变量的方差膨胀因子值大于预定的方差膨胀因子值;
(e)如果是,取第一变量组合中方差膨胀因子值最高的n个变量,并比较所述n个变量的方差膨胀因子值和所述标准化参数估计值,基于比较结果更新所述候选变量池,并基于更新后的候选变量池,执行步骤(a)~(d);
(f)如果确定第一变量组合中的变量的方差膨胀因子值小于或等于预定的方差膨胀因子值,将所述第一变量组合作为最终变量组合输出。
2.如权利要求1所述的方法,还包括:
获得所述候选变量池中各变量对目标变量的F检验值;
并且在所述方法其中,比较所述n个变量的方差膨胀因子值和标准化参数估计值的步骤包括:
将所述n个变量中F检验值最高的变量置为初始的冠军变量,将其余n-1个变量置为挑战变量,将挑战变量的标准化参数估计和F检验值与冠军变量的标准化参数估计值和F检验值进行比较。
3.如权利要求1所述的方法,其中,所述n为大于等于2的整数。
4.如权利要求2所述的方法,其中,将所述挑战变量的标准化参数估计值和F检验值与冠军变量的标准化参数估计值和F检验值进行比较的步骤包括:
(e1)将第i个挑战变量的标准化参数估计值和F检验值与第i个冠军变量的标准化参数估计值和F检验值进行比较;以及
(e2)基于比较结果从第一变量组合中剔除所述第i个挑战变量和第i个冠军变量中的一个,将第i个挑战变量和第i个冠军变量中未被剔除的那个变量作为第i+1个冠军变量;
(e3)继续执行步骤(e1)和(e2),直到剔除n-1个变量;
其中:i=1,2,3,…,n-1;第1个冠军变量即为初始冠军变量。
5.如权利要求4所述的方法,其中,步骤(e2)包括:
若第i个挑战变量的标准化参数估计值和F检验值都大于第i个冠军变量的相应值,则将所述第i个冠军变量从第一变量组合中剔除,将所述第i个挑战变量置为第i+1个冠军变量。
6.如权利要求4所述的方法,其中,步骤(e2)包括包括:
若所述第i个挑战变量的标准化参数估计值和F检验值都小于所述第i个冠军变量的相应值,则从第一变量组合中剔除所述第i个挑战变量,将所述第i个冠军变量置为第i+1个冠军变量。
7.如权利要求4所述的方法,其中,步骤(e2)包括包括:
若第i个挑战变量的标准化参数估计值小于第i个冠军变量的标准化参数估计值并且所述第i个挑战变量的F检验值大于第i个冠军变量的F检验值,或者所述第i个挑战变量的标准化参数估计值大于第i个冠军变量的标准化参数估计值并且所述第i个挑战变量的F检验值小于第i个冠军变量的F检验值,则利用所述第i个挑战变量、所述第i个冠军变量与目标变量构建回归模型,重新计算所述第i个挑战变量和所述第i个冠军变量在所述回归模型中的标准化的参数估计值,将所述第i个挑战变量和所述第i个冠军变量在所述回归模型的中标准化的参数估计值较小的一个变量从第一变量组合中剔除,将所述第i个挑战变量和所述第i个冠军变量在所述回归模型中标准化的参数估计值较大的一个变量置为第i+1个冠军变量。
8.如权利要求4~7任一项所述的方法,其特征在于,基于比较结果更新所述候选变量池的步骤包括:将在第一变量组合中剔除的n-1个变量从所述候选变量池中剔除。
9.如权利要求1~7任一项所述的方法,其特征在于,从所述全集模型中选择符合预定显著性限值的变量以构成第一变量池包括:
获得变量的回归系数的T检验值,
获得所述T检检值所对应的显著性概率P值作为变量的显著性值;
选择所述显著性值小于预定显著性限值的变量以构成第一变量池。
10.如权利要求1~7任一项所述的方法,其特征在于,所述第一预定规则为stepwise筛选规则。
11.如权利要求1所述的方法,其特征在于,从候选变量池中选择符合预定标准的变量以构成第一变量池的步骤包括:
(a1)基于所述候选变量池的变量,构建变量的全集模型;
(a2)利用所述全集模型,从候选变量池中选择符合预定显著性限值的变量,以构成第一变量池。
12.一种对变量进行筛选的设备,其特征在于,包括:
模块(a),用于从候选变量池中选择符合预定显著性限值的变量以构成第一变量池;
模块(b),用于针对所述第一变量池中的变量,基于第一预定规则获得第一变量组合;
模块(c),用于计算所述第一变量组合中各变量的方差膨胀因子值和标准化参数估计值;
模块(d),用于确定第一变量组合中的变量是否有任一变量的方差膨胀因子值大于预定的方差膨胀因子值;
模块(e),用于,若模块(d)确定第一变量组合中的变量有任一变量的方差膨胀因子值大于预定的方差膨胀因子值,取第一变量组合中方差膨胀因子值最高的n个变量,并比较所述n个变量的方差膨胀因子值和标准化参数估计值,基于比较结果更新所述候选变量池,并且所述模块(a)~(d)基于更新后的候选变量池继续对更新后的变量进行操作;
模块(f),用于,若模块(d)确定第一变量组合中的变量的方差膨胀因子值小于或等于预定的方差膨胀因子值,将所述第一变量组合作为最终变量组合输出。
13.如权利要求12所述设备,其特征在于,还包括:模块(a),用于获得候选变量池中各变量对目标变量的F检验值;
并且其中,模块(e)比较所述n个变量的方差膨胀因子值和标准化参数估计值,基于比较结果更新所述候选变量池,并基于更新后的候选变量池,包括:
将所述n个变量中F检验值最高的变量置为初始的冠军变量,将其余n-1个变量置为挑战变量,将挑战变量的标准化参数估计和F检验值与冠军变量的标准化参数估计值和F检验值进行比较,包括:
(e1)将第i个挑战变量的标准化参数估计值和F检验值与第i个冠军变量的标准化参数估计值和F检验值进行比较;以及
(e2)基于比较结果从第一变量组合中剔除所述第i个挑战变量和第i个冠军变量中的一个,将第i个挑战变量和第i个冠军变量中未被剔除的那个变量作为第i+1个冠军变量;其中:i=1,2,3,…,n-1;第1个冠军变量即为初始冠军变量;
若第i个挑战变量的标准化参数估计值和F检验值都大于第i个冠军变量的相应值,则将所述第i个冠军变量从第一变量组合中剔除,将所述第i个挑战变量置为第i+1个冠军变量。
若所述第i个挑战变量的标准化参数估计值和F检验值都小于所述第i个冠军变量的相应值,则从第一变量组合中剔除所述第i个挑战变量,将所述第i个冠军变量置为第i+1个冠军变量。
若第i个挑战变量的标准化参数估计值小于第i个冠军变量的标准化参数估计值并且所述第i个挑战变量的F检验值大于第i个冠军变量的F检验值,或者所述第i个挑战变量的标准化参数估计值大于第i个冠军变量的标准化参数估计值并且所述第i个挑战变量的F检验值小于第i个冠军变量的F检验值,则利用所述第i个挑战变量、所述第i个冠军变量与目标变量构建回归模型,重新计算所述第i个挑战变量和所述第i个冠军变量在所述回归模型中的标准化的参数估计值,将所述第i个挑战变量和所述第i个冠军变量在所述回归模型的中标准化的参数估计值较小的一个变量从第一变量组合中剔除,将所述第i个挑战变量和所述第i个冠军变量在所述回归模型中标准化的参数估计值较大的一个变量置为第i+1个冠军变量。
(e3)继续执行步骤(e1)和(e2),直到剔除n-1个变量;
将在第一变量组合中剔除的n-1个变量从所述候选变量池中剔除。
14.如权利要求12所述的设备,其特征在于,从候选变量池中选择符合预定标准的变量以构成第一变量池的模块(a)包括:
模块(a1),用于基于候选变量池的变量,构建变量的全集模型;
模块(a2),用于利用所述全集模型,从候选变量池中选择符合预定显著性限值的变量,以构成第一变量池。
CN201310023651.8A 2013-01-22 2013-01-22 一种对海量变量进行筛选的方法及设备 Active CN103942403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310023651.8A CN103942403B (zh) 2013-01-22 2013-01-22 一种对海量变量进行筛选的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310023651.8A CN103942403B (zh) 2013-01-22 2013-01-22 一种对海量变量进行筛选的方法及设备

Publications (2)

Publication Number Publication Date
CN103942403A true CN103942403A (zh) 2014-07-23
CN103942403B CN103942403B (zh) 2017-07-14

Family

ID=51190071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310023651.8A Active CN103942403B (zh) 2013-01-22 2013-01-22 一种对海量变量进行筛选的方法及设备

Country Status (1)

Country Link
CN (1) CN103942403B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874286A (zh) * 2015-12-11 2017-06-20 阿里巴巴集团控股有限公司 一种筛选用户特征的方法及装置
CN111079939A (zh) * 2019-11-28 2020-04-28 支付宝(杭州)信息技术有限公司 基于数据隐私保护的机器学习模型特征筛选方法及装置
CN107203545B (zh) * 2016-03-17 2021-01-26 创新先进技术有限公司 一种数据处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145030A (zh) * 2006-09-13 2008-03-19 新鼎系统股份有限公司 增加变量数量、获得其余的变量、维度鉴识与变量筛选的方法及系统
CN101158957A (zh) * 2007-10-23 2008-04-09 浙江大学 互联网热点主题相关性挖掘方法
CN101206744A (zh) * 2006-12-21 2008-06-25 叶克 一种在购物搜索引擎中融入商品自定义信息的方法
US20120239375A1 (en) * 2011-03-17 2012-09-20 Bank Of America Corporation Standardized Modeling Suite

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145030A (zh) * 2006-09-13 2008-03-19 新鼎系统股份有限公司 增加变量数量、获得其余的变量、维度鉴识与变量筛选的方法及系统
CN101206744A (zh) * 2006-12-21 2008-06-25 叶克 一种在购物搜索引擎中融入商品自定义信息的方法
CN101158957A (zh) * 2007-10-23 2008-04-09 浙江大学 互联网热点主题相关性挖掘方法
US20120239375A1 (en) * 2011-03-17 2012-09-20 Bank Of America Corporation Standardized Modeling Suite

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张维群: "基于海量数据的变量聚类算法的构造", 《统计与决策》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874286A (zh) * 2015-12-11 2017-06-20 阿里巴巴集团控股有限公司 一种筛选用户特征的方法及装置
CN106874286B (zh) * 2015-12-11 2020-07-07 阿里巴巴集团控股有限公司 一种筛选用户特征的方法及装置
CN107203545B (zh) * 2016-03-17 2021-01-26 创新先进技术有限公司 一种数据处理方法及装置
CN111079939A (zh) * 2019-11-28 2020-04-28 支付宝(杭州)信息技术有限公司 基于数据隐私保护的机器学习模型特征筛选方法及装置
CN111079939B (zh) * 2019-11-28 2021-04-20 支付宝(杭州)信息技术有限公司 基于数据隐私保护的机器学习模型特征筛选方法及装置

Also Published As

Publication number Publication date
CN103942403B (zh) 2017-07-14

Similar Documents

Publication Publication Date Title
CN109242135B (zh) 一种模型运营方法、装置、及业务服务器
CN106803799B (zh) 一种性能测试方法和装置
CN105871879B (zh) 网元异常行为自动检测方法及装置
CN114490404A (zh) 一种测试用例确定方法、装置、电子设备及存储介质
CN111582488A (zh) 一种事件推演方法及装置
CN111160797A (zh) 风控模型的构建方法、装置、存储介质及终端
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
CN112416800A (zh) 智能合约的测试方法、装置、设备及存储介质
CN112529319A (zh) 基于多维特征的评分方法、装置、计算机设备及存储介质
CN115237804A (zh) 性能瓶颈的评估方法、装置、电子设备、介质和程序产品
CN111582315A (zh) 样本数据处理方法、装置及电子设备
CN103942403A (zh) 一种对海量变量进行筛选的方法及设备
CN117376228B (zh) 一种网络安全测试工具确定方法及装置
CN112783513B (zh) 一种代码风险检查方法、装置及设备
CN112668697B (zh) 一种无人机飞控控制参数的模糊测试方法及系统
CN102455897B (zh) 基于实例的迭代编译方法及编译装置
CN110309948A (zh) 整车物流订单预测方法及装置、物流系统以及计算机可读介质
CN113744888A (zh) 区域流行病趋势预测预警方法及系统
CN113313304A (zh) 一种基于大数据决策树的电网事故异常分析方法及系统
CN111062827B (zh) 一种基于人工智能模式的工程监理方法
CN116401601B (zh) 基于逻辑回归模型的停电敏感用户处置方法
CN110704614B (zh) 对应用中的用户群类型进行预测的信息处理方法及装置
CN111582313A (zh) 样本数据生成方法、装置及电子设备
CN107679478B (zh) 输电线路空间负荷状态的提取方法和系统
CN111144429A (zh) 对象分类方法及其系统、计算机系统及计算机可读介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191204

Address after: P.O. Box 31119, grand exhibition hall, hibiscus street, 802 West Bay Road, Grand Cayman, Cayman Islands

Patentee after: Innovative advanced technology Co., Ltd

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Co., Ltd.