CN107153836A - 一种业务参数选取方法及相关设备 - Google Patents
一种业务参数选取方法及相关设备 Download PDFInfo
- Publication number
- CN107153836A CN107153836A CN201610120612.3A CN201610120612A CN107153836A CN 107153836 A CN107153836 A CN 107153836A CN 201610120612 A CN201610120612 A CN 201610120612A CN 107153836 A CN107153836 A CN 107153836A
- Authority
- CN
- China
- Prior art keywords
- sample
- sample set
- candidate samples
- variable
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Pure & Applied Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Algebra (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例中介绍的业务参数获取方法及相关设备,首先配置第一候选样本集合,其中,所述第一候选样本集合包括多个候选样本,获取所述第一候选样本集合中每个候选样本的IV值,将所述第一候选样本集合中IV值超过预设阈值的候选样本确定为第一初选样本,并将所述第一初选样本存入第二待选样本集合,利用逐步判别分析和/或聚类分析对所述第二待选样本集合处理以得到具有显著性标准的目标样本,所述目标样本用于确定所述业务参数,利用IV值剔除不显著的变量得到第二待选样本集合,通过逐步判别分析和聚类分析第二待选样本集合得到具有显著性标准的目标样本,保证了变量的多样性,优化了现有的变量选取流程,减少降维过程当中变量信息的丢失问题。
Description
技术领域
本发明涉及数据处理领域,特别涉及一种业务参数选取方法及相关设备。
背景技术
在用互联网数据建立模型时,我们往往要从海量的数据当中去挑选出对模型有用的业务参数,由于选取变量时候,会有海量的数据产生,直接利用这些数据进行业务开展的时候,会导致运算比较耗时,另外由于对业务参数的选取方式不恰当还会导致具有统计价值的业务参数的损失。
发明内容
有鉴于此,本发明实施例提供了一种业务参数选取方法及相关设备。
第一方面,本发明实施例中提供的业务参数选取方法,所述方法包括:
配置第一候选样本集合,其中,所述第一候选样本集合包括多个候选样本:
获取所述第一候选样本集合中每个候选样本的IV值;
将所述第一候选样本集合中IV值超过预设阈值的候选样本确定为第一初选样本,并将所述第一初选样本存入第二待选样本集合;
利用逐步判别分析和/或聚类分析对所述第二待选样本集合处理以得到具有显著性标准的目标样本,所述目标样本用于确定所述业务参数。
在一个可能的设计中,所述获取所述第一候选样本集合中每个候选样本的IV值具体包括:
将所述候选样本按照预先配置的二级制文件个数进行拆分;
利用所述二进制文件与所述IV值的对应关系获得所述候选样本的IV值。
在一个可能的设计中,所述利用逐步判别分析和/或聚类分析对所述第二待选样本集合处理以得到具有显著性标准的目标样本具体包括:
对所述第二待选样本集合进行逐步判别分析得到第三待处理样本集合和/或对所述第二待选样本集合进行聚类分析得到第四待处理样本集合;
将所述第三待处理样本集合和/或第四待处理样本集合确定为所述目标样本。
在一个可能的设计中,所述对所述第二待选样本集合进行逐步判别分析得到第三待处理样本集合包括:
利用所述逐步判别分析选出所述第二待选样本集合中多个具有显著性标准的第一变量及获取所述多个显著性标准的第一变量的N个输入至所述第三待处理样本集合,所述N为正整数,和/或
将所述第二待选样本集合中第一待选样本均分为多个向前选择子集合并在每个所述向前选择子集合中选取出M个具有显著性的变量输入所述第三待处理样本集合,所述M为正整数。
在一个可能的设计中,对所述第二待选样本集合进行聚类分析得到第四待处理样本集合,具体包括:
利用聚类分析将所述第二待选样本集合中第一初选样本进行分类得到多个具有不同类别的聚类分析集合;
分别获取每个聚类分析集合中的具有显著性的变量组成所述第四待处理样本集合。
在一个可能的设计中,当将所述第三待处理样本集合和第四待处理样本集合确定为所述目标样本时,所述方法还包括:
对所述第三待处理样本集合和所述第四待处理样本集合进行去重操作。
第二方面,本发明实施例提供了一种业务参数获取的装置,该业务参数获取的装置具有实现上述第一方面中业务参数获取设备行为的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,业务参数获取的装置的结构中包括处理器和存储器,所述存储器用于存储支持业务参数获取的装置执行上述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述业务参数获取的装置还可以包括通信接口,用于业务参数获取装置与其他设备或通信网络通信。
第三方面,本发明实施例提供了一种计算机存储介质,用于储存为上述业务参数获取的设备所用的计算机软件指令,其包含用于执行上述方面为业务参数获取的设备所设计的程序。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中介绍的业务参数获取方法及相关设备,首先配置第一候选样本集合,其中,所述第一候选样本集合包括多个候选样本,获取所述第一候选样本集合中每个候选样本的IV值,将所述第一候选样本集合中IV值超过预设阈值的候选样本确定为第一初选样本,并将所述第一初选样本存入第二待选样本集合,利用逐步判别分析和/或聚类分析对所述第二待选样本集合处理以得到具有显著性标准的目标样本,所述目标样本用于确定所述业务参数,利用IV值剔除不显著的变量得到第二待选样本集合,通过逐步判别分析和聚类分析第二待选样本集合得到具有显著性标准的目标样本,保证了变量的多样性,优化了现有的选取流程,减少了降维过程当中变量信息的丢失问题。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
图1是本发明实施例中业务参数获取方法的一种实施例的流程图;
图2是本发明实施例中业务参数获取方法的另一种实施例的流程图;
图3是本发明实施例中业务参数获取装置的一种实施例的结构图;
图4是本发明实施例中业务参数获取设备的一种实施例的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
在进行介绍之前,先对所可能用到的名词进行介绍:
方差膨胀因子:(Variance Inflation Factor,VIF):是指解释变量之间存在多重共线性时的方差与不存在多重共线性时的方差之比。容忍度的倒数,VIF越大,显示共线性越严重。经验判断方法表明:当0<VIF<10,不存在多重共线性;当10≤VIF<100,存在较强的多重共线性;当VIF≥100,存在严重多重共线性。
IV值:(Information Value)以判断该变量对二元因变量是否表现出了足够明显的区分能力。
逐步判别分析过程(STEPDISC)用于在判别分析前筛选出对数据的判别具有显著性标准的变量,它通过向前选择、向后剔除、逐步选择三种选择变量的方式,进行逐步判别分析,试图找出一组能够充分表示各类别之间差异的变量,从而舍弃其他含信息量少的变量。
聚类分析:(Proc Varclus)与主成分分析非常类似,经常被用在变量降维上,以达到剔除多余变量的目的。这种变量分类方法使得最后得到的类中的变量尽可能的相关,不同类之间的变量尽可能的不相关。当某一类的第二特征根大于一个阀值时,这个类将会进一步分为两个不同的类。
显著性标准:研究一个或多个随机变量Y1,Y2,…,Yi与另一些变量X1、X2,…,Xk之间的关系的统计方法,又称多重回归分析。通常称Y1,Y2,…,Yi为因变量,X1、X2,…,Xk为自变量,回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型,在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。
结合图1所示,本发明实施例中提供的业务参数选取方法的一种实施例,所述方法包括:
S101、配置第一候选样本集合,其中,所述第一候选样本集合包括多个候选样本。
第一候选样本集合中可以包括多个候选样本,这些候选样本可以是变量,具体可以为不用类型的变量,有的变量与其他之间可以具有相关性,也可以不具有相关性,其中包括所需要的变量,本发明的目的就是将这些所需要的变量选取出来,值得一提的是,在第一候选样本集合中的候选样本的数量是海量,采用不合适的获取方法会导致有用的变量损失以及耗时,将候选样本放置到第一候选样本集合中等待后续步骤的选取。
S102、获取所述第一候选样本集合中每个候选样本的IV值。
IV(Information Value,信息价值)值用于判断该变量对二元因变量是否表现出了足够明显的区分能力,IV值的数值表示该X变量对Y变量有区分度可以采用相对应的评价标准,1)≤0.02:没有区分度;2)(0.02,0.1]:较弱;3)(0.1,0.3]:适中;4)≥0.3:较强,在本实施例中,为了在用IV值进行初筛时可以适当的把条件放宽一点,可以选取IV值大于0.01即可,当然,本领域普通技术人员可以选取其他数值,具体不做限定。
值得一提的是,IV值只是提供一个判断自变量X是否对因变量Y有区分度的标准之一,具体在实际的建模过程当中,该变量是否最终能进入模型还会有许多其它考量因素,譬如P-Value,Bivar图等,具体不做限定。
S103、将所述第一候选样本集合中IV值超过预设阈值的候选样本确定为第一初选样本,并将所述第一初选样本存入第二待选样本集合。
这里的预设阈值可以为0.01,即当候选样本的IV值超过0.01时则确定该候选样本为第一初选样本,该候选样本在利用IV值进行初选时通过,将经过初选得到的第一初选样本存到第二待选样本集合中供后续步骤使用,对于IV值没有超过预设阈值的候选样本进行剔除。
S104、利用逐步判别分析和/或聚类分析对所述第二待选样本集合处理以得到具有显著性标准的目标样本,所述目标样本用于确定所述业务参数。
对第二待选样本集合进行第二轮筛选,可以采用逐步判别分析和/或聚类分析的方式,即可以单独采用逐步判别分析或聚类分析,还可以同时采用逐步判别分析和聚类分析,显著性标准是指在统计中变量具有显著性,显著性标准检验是通过方差分析表输出的,通过显著性标准检验回归方程的线性关系是否显著,可选地,显著性标准在0.05以上,逐步判别分析通过向前选择、向后剔除、逐步选择三种选择变量的方式,进行逐步判别分析,试图找出一组能够充分表示各类别之间差异的变量,从而舍弃其他含信息量少的变量。
逐步判别分析仅选择变量而不去计算判别函数,相比较逐步回归分析中选择变量时还需要计算变量参数、各种统计值来说效率就会高很多,特别适合在用海量数据建模时的变量预筛选。但以往逐步判别分析运用比较多的还是在做判别分析时进行变量预筛,这里我们创新性的将逐步判别分析运用于逐步回归分析前的变量初筛,并通过逐步选择与向前选择相结合的方法避免单一方法造成信息损失过多。
当建模数据集中包含成千上万个变量时,有些变量之间会存在比较明显的相关关系,譬如都属于同一类型的变量,需要将这些变量进行剔除,可以用聚类分析去将自变量分成不同的类,再从每一类中选出具有代表性的变量,这样建模人员就能较快速的减少变量的个数,从而加速整个建模的进程。
聚类分析(Proc Varclus)与主成分分析非常类似,经常被用在变量降维上,以达到剔除多余变量的目的。这种变量分类方法使得最后得到的类中的变量尽可能的相关,不同类之间的变量尽可能的不相关。当某一类的第二特征根大于一个阀值时,这个类将会进一步分为两个不同的类。
本发明实施例中介绍的业务参数获取方法,首先配置第一候选样本集合,其中,所述第一候选样本集合包括多个候选样本,获取所述第一候选样本集合中每个候选样本的IV值,将所述第一候选样本集合中IV值超过预设阈值的候选样本确定为第一初选样本,并将所述第一初选样本存入第二待选样本集合,利用逐步判别分析和/或聚类分析对所述第二待选样本集合处理以得到具有显著性标准的目标样本,所述目标样本用于确定所述业务参数,利用IV值剔除明显不显著的变量得到第二待选样本集合,通过逐步判别分析和聚类分析第二待选样本集合得到具有显著性标准的目标样本,保证了变量的多样性,优化了现有的变量选取流程,减少了降维过程当中信息的丢失问题。
结合图2所示,本发明实施例中提供的业务参数选取方法的另一种实施例,所述方法包括:
S201、配置第一候选样本集合,其中,所述第一候选样本集合包括多个候选样本。
S202、获取所述第一候选样本集合中每个候选样本的IV值。
所述获取所述第一候选样本集合中每个候选样本的IV值具体包括:
将所述候选样本按照原先配置的二级制文件个数进行拆分;
利用所述二进制文件与所述IV值的对应关系获得所述候选样本的IV值。具体地说,计算IV值的具体公式如下:
计算IV值时需要将自变量X分成不同的bin(二进制文件)加以计算,其中n表示分的全部二进制文件的个数,#Gi,#Bi分别表示每个二进制文件中好坏样本的个数。对于连续性的变量首先拆分二进制文件,IV值会根据二进制文件的个数不同而有所差异,IV值会随着二进制文件的个数增加而增加,增加的幅度越来越小,连续性变量可以选取二进制文件的个数为20,具体不做限定。
S203、将所述第一候选样本集合中IV值超过预设阈值的候选样本确定为第一初选样本,并将所述第一初选样本存入第二待选样本集合。
步骤S203与上一实施例中步骤S103相类似,此处不进行赘述。
S204、利用逐步判别分析和/或聚类分析对所述第二待选样本集合处理以得到具有显著性标准的目标样本,所述目标样本用于确定所述业务参数。
当仅采用逐步分析判别时候:对所述第二待选样本集合进行逐步判别分析得到第三待处理样本集合,将所述第三待处理样本集合和/或第四待处理样本集合确定为所述目标样本。
在进行逐步分析判别时候可以采用一轮向前选择和五轮逐步分析的方式进行选择。
采用逐步选择时,利用所述逐步回归分析方法选出所述第二待选样本集合中具有多个显著性的第一变量;
获取所述多个显著性的第一变量的N个输入至所述第三待处理样本集合,所述N为正整数。
用逐步选择选出所有满足指定显著性标准的变量,并输出到指定的数据集,再挑选出前N个被选中的变量,实际过程中,我们经常会遇到可能满足变量的个数达不到N个,这时可以相应的调整显著性标准和需要输出的变量个数,这里N可以为500,具体不做限定。
采用向前选择时,将所述第二待选样本集合中第一待选样本均分为多个向前选择子集合;
在每个所述向前选择子集合中选取出M个具有显著性的变量输入所述第三待处理样本集合,所述M为正整数。
将变量随机的分成5等份,在每一等份里面用向前选择选出满足指定显著性标准的变量的M个变量,这里M可以为100,具体不做限定。
当仅采用聚类分析时候:对所述第二待选样本集合进行聚类分析得到第四待处理样本集合,将所述第三待处理样本集合和/或第四待处理样本集合确定为所述目标样本。
利用聚类分析将所述第二待选样本集合中第一初选样本进行分类得到多个具有不同类别的聚类分析集合;
分别获取每个聚类分析集合中的具有显著性标准的变量组成所述第四待处理样本集合。
可以通过指定第二特征根的大小,可以取第二特征根>0.7进行去生成分类,分好类之后需要从每个分类里面选取有显著性标准的变量,选取的变量需同时满足:1)和本身的分类高度相关;2)同时和其它分类相关性较低,指标1-R2值可以用来去判断变量是否满足上述两个条件,其计算公式如下:
在输出的第四待处理样本集合中,变量即为指标1-R2,具体到选取变量时该值设定为多少不进行限定,可以按照该值的大小在每一类中选取对应变量的个数,选取的标准是该值越小越好。
当同时采用逐步分析判别和聚类分析时候:对所述第二待选样本集合进行逐步判别分析得到第三待处理样本集合,对所述第二待选样本集合进行聚类分析得到第四待处理样本集合,将所述第三待处理样本集合和第四待处理样本集合确定为所述目标样本。
S205、对所述第三待处理样本集合和所述第四待处理样本集合进行去重操作。
当将所述第三待处理样本集合和第四待处理样本集合确定为所述目标样本时,通过利用逐步分析判别和聚类分析分别对第二待选样本集合进行筛选得到第三待处理样本集合和第四待处理样本集合,因为是分别进行的选取,在第三待处理样本集合和所述第四待处理样本集合中会存在相同的变量,在进行建模时候,需要将重复的变量进行剔除,这里采用去重的方式,本领域普通技术人员应当了解,具体不作赘述。
为了方便理解,这里以第一候选样本集合为a1、a2、a3、……a10000进行举例,经过IV值>0.01进行初选得到第二待选样本集合a1、a2、a3、……a8000,经过一轮向前选择对第二待选样本集合进行变量选择可以得到a1、a5、a16、……a5977共计500个变量,输入至第三待处理样本集合中,经过五轮逐步分析对第二待选样本集合进行变量选择可以得到a1、a5、a7、……a7201共计500个变量,输入至第三待处理样本集合中,经过聚类分析对第二待选样本集合进行变量选择可以得到a1、a52、a103、……a7050共计200个变量,输入至第四待处理样本集合中,将第三待处理样本集合和第四待处理样本集合中包含1200个变量确定为目标样本,可以理解的是,这1200个变量中会存在重复的变量,可以通过去重操作即可得到最终的变量池,作为建模使用。
结合图3所示,上文中介绍了业务参数获取方法,本发明的实施例中还提供了一种业务参数获取装置,下面进行具体介绍。
所述装置包括:
配置单元301,用于配置第一候选样本集合,其中,所述第一候选样本集合包括多个候选样本:
获取单元302,用于获取所述第一候选样本集合中每个候选样本的IV值;
确定单元303,用于将所述第一候选样本集合中IV值超过预设阈值的候选样本确定为第一初选样本,并将所述第一初选样本存入第二待选样本集合;
处理单元304,用于利用逐步判别分析和/或聚类分析对所述第二待选样本集合处理以得到具有显著性标准的目标样本,所述目标样本用于确定所述业务参数。
可选地,所述获取单元302还用于:
将所述候选样本按照原先配置的二级制文件个数进行拆分;
利用所述二进制文件与所述IV值的对应关系获得所述候选样本的IV值。
可选地,所述处理单元304还用于:
对所述第二待选样本集合进行逐步判别分析得到第三待处理样本集合和/或对所述第二待选样本集合进行聚类分析得到第四待处理样本集合;
将所述第三待处理样本集合和/或第四待处理样本集合确定为所述目标样本。
可选地,所述处理单元304还用于:
利用所述逐步判别分析选出所述第二待选样本集合中多个具有显著性标准的第一变量及获取所述多个显著性标准的第一变量的N个输入至所述第三待处理样本集合,所述N为正整数,和/或
将所述第二待选样本集合中第一待选样本均分为多个向前选择子集合并在每个所述向前选择子集合中选取出M个具有显著性的变量输入所述第三待处理样本集合,所述M为正整数
可选地,所述处理单元304还用于:
利用聚类分析将所述第二待选样本集合中第一初选样本进行分类得到多个具有不同类别的聚类分析集合;
分别获取每个聚类分析集合中的具有显著性的变量组成所述第四待处理样本集合。
可选地,当将所述第三待处理样本集合和第四待处理样本集合确定为所述目标样本时,所述处理单元304还用于:
对所述第三待处理样本集合和所述第四待处理样本集合进行去重操作。
图4所示,为了实现上述方法,本发明实施例中还提供一种业务参数获取的设备,包括:处理器401和存储器403,其中,
所述存储器401中存有计算机可读程序;
所述处理器403通过运行所述存储器中的程序,具体用于:
配置第一候选样本集合,其中,所述第一候选样本集合包括多个候选样本:
获取所述第一候选样本集合中每个候选样本的IV值;
将所述第一候选样本集合中IV值超过预设阈值的候选样本确定为第一初选样本,并将所述第一初选样本存入第二待选样本集合;
利用逐步判别分析和/或聚类分析对所述第二待选样本集合处理以得到具有显著性标准的目标样本,所述目标样本用于确定所述业务参数。
图4所示为本发明实施例提供的业务参数获取设备示意图。业务参数获取设备200包括至少一个处理器401,通信总线402,存储器403以及至少一个通信接口404。
处理器401可以是一个通用中央处理器(CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。
通信总线402可包括一通路,在上述组件之间传送信息。所述通信接口404,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(Wireless Local Area Networks,WLAN)等。
存储器403可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random accessmemory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,所述存储器403用于存储执行本发明方案的程序代码,并由处理器401来控制执行。所述处理器401用于执行所述存储器403中存储的程序代码。
在具体实现中,作为一种实施例,处理器401可以包括一个或多个CPU,例如图4中的CPU0和CPU1。
在具体实现中,作为一种实施例,业务参数获取设备400可以包括多个处理器,例如图4中的处理器401和处理器408。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,业务参数获取设备400还可以包括输出设备405和输入设备406。输出设备405和处理器401通信,可以以多种方式来显示信息。例如,输出设备405可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备,阴极射线管(cathoderay tube,CRT)显示设备,或投影仪(projector)等。输入设备406和处理器401通信,可以以多种方式接受用户的输入。例如,输入设备406可以是鼠标、键盘、触摸屏设备或传感设备等。
上述的业务参数获取设备400可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中,业务参数获取设备400可以是虚拟现实设备、台式机、便携式电脑、网络服务器、掌上电脑(Personal Digital Assistant,PDA)、移动手机、平板电脑、无线终端设备、通信设备、嵌入式设备或有图4中类似结构的设备,本发明实施例不限定业务参数获取设备400的类型。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上对本发明所提供的一种业务参数获取方法及相关设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (11)
1.一种业务参数选取方法,其特征在于,所述方法包括:
配置第一候选样本集合,其中,所述第一候选样本集合包括多个候选样本:
获取所述第一候选样本集合中每个候选样本的IV值;
将所述第一候选样本集合中IV值超过预设阈值的候选样本确定为第一初选样本,并将所述第一初选样本存入第二待选样本集合;
利用逐步判别分析和/或聚类分析对所述第二待选样本集合处理以得到具有显著性标准的目标样本,所述目标样本用于确定所述业务参数。
2.根据权利要求1所述的方法,其特征在于,所述获取所述第一候选样本集合中每个候选样本的IV值具体包括:
将所述候选样本按照预先配置的二级制文件个数进行拆分;
利用所述二进制文件与所述IV值的对应关系获得所述候选样本的IV值。
3.根据权利要求1所述的方法,其特征在于,所述利用逐步判别分析和/或聚类分析对所述第二待选样本集合处理以得到具有显著性标准的目标样本具体包括:
对所述第二待选样本集合进行逐步判别分析得到第三待处理样本集合和/或对所述第二待选样本集合进行聚类分析得到第四待处理样本集合;
将所述第三待处理样本集合和/或第四待处理样本集合确定为所述目标样本。
4.根据权利要求3所述的方法,其特征在于,所述对所述第二待选样本集合进行逐步判别分析得到第三待处理样本集合包括:
利用所述逐步判别分析选出所述第二待选样本集合中多个具有显著性标准的第一变量及获取所述多个显著性标准的第一变量的N个输入至所述第三待处理样本集合,所述N为正整数,和/或
将所述第二待选样本集合中第一待选样本均分为多个向前选择子集合并在每个所述向前选择子集合中选取出M个具有显著性的变量输入所述第三待处理样本集合,所述M为正整数。
5.根据权利要求3所述的方法,其特征在于,对所述第二待选样本集合进行聚类分析得到第四待处理样本集合,具体包括:
利用聚类分析将所述第二待选样本集合中第一初选样本进行分类得到多个具有不同类别的聚类分析集合;
分别获取每个聚类分析集合中的具有显著性的变量组成所述第四待处理样本集合。
6.一种业务参数选取装置,其特征在于,所述装置包括:
配置单元,用于配置第一候选样本集合,其中,所述第一候选样本集合包括多个候选样本:
获取单元,用于获取所述第一候选样本集合中每个候选样本的IV值;
确定单元,用于将所述第一候选样本集合中IV值超过预设阈值的候选样本确定为第一初选样本,并将所述第一初选样本存入第二待选样本集合;
处理单元,用于利用逐步判别分析和/或聚类分析对所述第二待选样本集合处理以得到具有显著性标准的目标样本,所述目标样本用于确定所述业务参数。
7.根据权利要求6所述的装置,其特征在于,所述获取单元还用于:
将所述候选样本按照预先配置的二级制文件个数进行拆分;
利用所述二进制文件与所述IV值的对应关系获得所述候选样本的IV值。
8.根据权利要求7所述的装置,其特征在于,所述处理单元还用于:
对所述第二待选样本集合进行逐步判别分析得到第三待处理样本集合和/或对所述第二待选样本集合进行聚类分析得到第四待处理样本集合;
将所述第三待处理样本集合和/或第四待处理样本集合确定为所述目标样本。
9.根据权利要求8所述的装置,其特征在于,所述处理单元还用于:
利用所述逐步判别分析选出所述第二待选样本集合中多个具有显著性标准的第一变量及获取所述多个显著性标准的第一变量的N个输入至所述第三待处理样本集合,所述N为正整数,和/或
将所述第二待选样本集合中第一待选样本均分为多个向前选择子集合并在每个所述向前选择子集合中选取出M个具有显著性的变量输入所述第三待处理样本集合,所述M为正整数。
10.根据权利要求8所述的装置,其特征在于,所述处理单元还用于:
利用聚类分析将所述第二待选样本集合中第一初选样本进行分类得到多个具有不同类别的聚类分析集合;
分别获取每个聚类分析集合中的具有显著性的变量组成所述第四待处理样本集合。
11.一种业务参数选取的设备,其特征在于,包括:处理器和存储器,其中,
所述存储器中存有计算机可读程序;
所述处理器通过运行所述存储器中的程序,以用于完成上述权利要求1至5所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610120612.3A CN107153836A (zh) | 2016-03-03 | 2016-03-03 | 一种业务参数选取方法及相关设备 |
KR1020187025885A KR102104193B1 (ko) | 2016-03-03 | 2017-02-24 | 서비스 파라미터 선택 방법 및 관련된 디바이스 |
JP2018544540A JP6657417B2 (ja) | 2016-03-03 | 2017-02-24 | サービス・パラメータ選択方法及び関連するデバイス |
EP17759178.1A EP3425528A4 (en) | 2016-03-03 | 2017-02-24 | METHOD FOR SELECTION OF SERVICE PARAMETERS AND RELATED DEVICE |
PCT/CN2017/074674 WO2017148327A1 (zh) | 2016-03-03 | 2017-02-24 | 一种业务参数选取方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610120612.3A CN107153836A (zh) | 2016-03-03 | 2016-03-03 | 一种业务参数选取方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107153836A true CN107153836A (zh) | 2017-09-12 |
Family
ID=59743488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610120612.3A Pending CN107153836A (zh) | 2016-03-03 | 2016-03-03 | 一种业务参数选取方法及相关设备 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP3425528A4 (zh) |
JP (1) | JP6657417B2 (zh) |
KR (1) | KR102104193B1 (zh) |
CN (1) | CN107153836A (zh) |
WO (1) | WO2017148327A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019091189A1 (zh) * | 2017-11-13 | 2019-05-16 | 阿里巴巴集团控股有限公司 | 风控决策临界值的确定方法及装置 |
CN110059244A (zh) * | 2019-02-01 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 受众扩展方法及装置 |
CN113468237A (zh) * | 2021-06-11 | 2021-10-01 | 北京达佳互联信息技术有限公司 | 一种业务数据处理模型生成方法、系统构建方法及装置 |
CN113610636A (zh) * | 2021-08-12 | 2021-11-05 | 百融云创科技股份有限公司 | 一种迭代特征筛选方法及系统 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209732A (zh) * | 2019-04-25 | 2019-09-06 | 深圳壹账通智能科技有限公司 | 关系型数据库到Hadoop数据库的数据同步方法和装置 |
KR102237399B1 (ko) * | 2019-07-18 | 2021-04-07 | 정화민 | 인공지능 기반의 쇼핑몰 상품구매 예측 플랫폼 제공 장치 및 방법 |
CN111899092B (zh) * | 2020-08-28 | 2022-05-20 | 上海冰鉴信息科技有限公司 | 基于二道模型的业务数据筛选方法及装置 |
CN114547532B (zh) * | 2022-03-04 | 2023-10-27 | 西安惠普生物科技有限公司 | 一种获取海参多肽制备工艺的数据处理方法、设备及介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4421971B2 (ja) * | 2004-08-05 | 2010-02-24 | 日本電気株式会社 | 解析エンジン交換型システム及びデータ解析プログラム |
JP2007250647A (ja) | 2006-03-14 | 2007-09-27 | Omron Corp | モデル作成装置およびモデル作成方法 |
JP5011830B2 (ja) * | 2006-06-09 | 2012-08-29 | 富士通セミコンダクター株式会社 | データ処理方法、データ処理プログラム、該プログラムを記録した記録媒体およびデータ処理装置 |
US8190612B2 (en) | 2008-12-17 | 2012-05-29 | Sas Institute Inc. | Computer-implemented systems and methods for variable clustering in large data sets |
AU2010355789B2 (en) * | 2010-06-24 | 2016-05-12 | Arbitron Mobile Oy | Network server arrangement for processing non-parametric, multi-dimensional, spatial and temporal human behavior or technical observations measured pervasively, and related method for the same |
US20120078681A1 (en) | 2010-09-24 | 2012-03-29 | Fair Isaac Corporation | Multi-hierarchical customer and product profiling for enhanced retail offerings |
-
2016
- 2016-03-03 CN CN201610120612.3A patent/CN107153836A/zh active Pending
-
2017
- 2017-02-24 JP JP2018544540A patent/JP6657417B2/ja active Active
- 2017-02-24 WO PCT/CN2017/074674 patent/WO2017148327A1/zh active Application Filing
- 2017-02-24 EP EP17759178.1A patent/EP3425528A4/en not_active Withdrawn
- 2017-02-24 KR KR1020187025885A patent/KR102104193B1/ko active IP Right Grant
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019091189A1 (zh) * | 2017-11-13 | 2019-05-16 | 阿里巴巴集团控股有限公司 | 风控决策临界值的确定方法及装置 |
US11004026B2 (en) | 2017-11-13 | 2021-05-11 | Advanced New Technologies Co., Ltd. | Method and apparatus for determining risk management decision-making critical values |
CN110059244A (zh) * | 2019-02-01 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 受众扩展方法及装置 |
CN113468237A (zh) * | 2021-06-11 | 2021-10-01 | 北京达佳互联信息技术有限公司 | 一种业务数据处理模型生成方法、系统构建方法及装置 |
CN113468237B (zh) * | 2021-06-11 | 2024-05-17 | 北京达佳互联信息技术有限公司 | 一种业务数据处理模型生成方法、系统构建方法及装置 |
CN113610636A (zh) * | 2021-08-12 | 2021-11-05 | 百融云创科技股份有限公司 | 一种迭代特征筛选方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP6657417B2 (ja) | 2020-03-04 |
KR20180108810A (ko) | 2018-10-04 |
JP2019511773A (ja) | 2019-04-25 |
EP3425528A4 (en) | 2019-10-09 |
WO2017148327A1 (zh) | 2017-09-08 |
KR102104193B1 (ko) | 2020-04-23 |
EP3425528A1 (en) | 2019-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107153836A (zh) | 一种业务参数选取方法及相关设备 | |
JP6771751B2 (ja) | リスク評価方法およびシステム | |
Costa et al. | Comparative analysis of clustering methods for gene expression time course data | |
CN104063458B (zh) | 一种对终端故障问题提供对应解决方案的方法及装置 | |
CN110928739B (zh) | 一种进程监控方法、装置以及计算设备 | |
CN110031761B (zh) | 电池筛选方法、电池筛选装置及终端设备 | |
CA3068333C (en) | Systems and methods for intelligently grouping financial product users into cohesive cohorts | |
CN106156092A (zh) | 数据处理方法及装置 | |
Masadeh et al. | Using machine learning for quality configurable approximate computing | |
CN109784365A (zh) | 一种特征选择方法、终端、可读介质及计算机程序 | |
CN105139282A (zh) | 一种电网指标数据处理方法、装置以及计算设备 | |
CN111768096A (zh) | 基于算法模型的评级方法、装置、电子设备及存储介质 | |
Huang | Discovery of time-inconsecutive co-movement patterns of foreign currencies using an evolutionary biclustering method | |
CN112149737A (zh) | 选择模型训练方法、模型选择方法、装置及电子设备 | |
CN116109121A (zh) | 基于大数据分析的用户需求挖掘方法及系统 | |
CN103885977B (zh) | 一种网页数据的分类方法、装置和系统 | |
Kontonasios et al. | Maximum entropy modelling for assessing results on real-valued data | |
CN107016583A (zh) | 数据处理方法及装置 | |
CN106021852B (zh) | 基于密度聚类算法的血糖数据异常值计算方法和装置 | |
CN112633414A (zh) | 特征选择优化方法、设备和可读存储介质 | |
CN109344910A (zh) | 数据分类方法及装置 | |
Sheng et al. | A niching genetic k-means algorithm and its applications to gene expression data | |
CN111475721B (zh) | 信息推送方法、装置、设备及存储介质 | |
CN103577532A (zh) | 用于文本处理的方法和系统 | |
JP2022154862A (ja) | 情報処理方法、プログラム及び情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170912 |