CN107169571A - 一种特征筛选方法及装置 - Google Patents

一种特征筛选方法及装置 Download PDF

Info

Publication number
CN107169571A
CN107169571A CN201610127861.5A CN201610127861A CN107169571A CN 107169571 A CN107169571 A CN 107169571A CN 201610127861 A CN201610127861 A CN 201610127861A CN 107169571 A CN107169571 A CN 107169571A
Authority
CN
China
Prior art keywords
feature
sample
machine learning
learning algorithm
weights
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610127861.5A
Other languages
English (en)
Inventor
席炎
张柯
谢树坤
黄�俊
付子豪
杨强鹏
李文鹏
王晓光
余舟华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610127861.5A priority Critical patent/CN107169571A/zh
Publication of CN107169571A publication Critical patent/CN107169571A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种特征筛选方法,用以解决采用现有技术中人工筛选特征的方式导致特征筛选效率较低的问题。方法包括:确定特征集合中特征的机器学习算法权值;其中,特征的机器学习算法权值为:以选取作为样本的特征的值作为输入,以特征历史上被选取作为确定业务模型包含的变量的特征的概率值为输出训练指定机器学习算法后,得到的机器学习算法的权值;根据所述特征的机器学习算法权值,从所述特征集合中筛选用于确定业务模型包含的变量的特征;所述业务模型包含的变量用于实现业务模型的业务功能。本申请还公开了一种特征筛选装置。

Description

一种特征筛选方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种特征筛选方法及装置。
背景技术
目前,人们可以利用构建的业务模型,实现业务功能。这里所说的业务功能,比如是输出表示用户信用等级或用户消费能力的数据,等等。在业务模型构建完毕后,可以将数据赋值给业务模型包含的变量,以触发业务模型输出相应的结果。
需要说明的是,业务模型,一般是指包含“与期望业务模型实现的业务功能相关的变量”的数学模型(比如计算公式)。其中,与期望业务模型实现的业务功能相关的变量,是根据与所述业务功能相关的特征确定的。具体而言,在现有技术中,技术人员可以依靠以往的业务经验,采用人工一一分析特征并进行选取的方式,选取出与所述业务功能比较相关的特征,进而根据该些特征,确定与所述业务功能相关的变量。
例如,以所要构建的业务模型为用户信用评估模型为例,技术人员可以通过一一分析与用户信用相关的特征,选取出与期望该用户信用评价模型实现的业务功能相关的包括用户的工作单位性质、用户的偿还能力以及用户的人脉关系在内的特征,并根据该些特征,确定分别对应于用户的工作单位性质、用户的偿还能力以及用户的人脉关系的变量e、f、g,进而实现业务模型的构建。比如,构建的业务模型可以为:用户信用评价分数A=αe+βf+γg。其中,α、β、γ是分别为变量e、f、g设置的权重值。
采用上述人工选取特征的方式,效率较低。
发明内容
本申请实施例提供一种特征筛选方法,用以解决现有技术存在的特征筛选效率较低的问题。
本申请实施例还提供一种特征筛选装置,用以解决现有技术存在的特征筛选效率较低的问题。
本申请实施例采用下述技术方案:
一种特征筛选方法,包括:
确定特征集合中特征的机器学习算法权值;其中,特征的机器学习算法权值为:以选取作为样本的特征的值为输入,以特征历史上被选取作为确定业务模型包含的变量的特征的概率值为输出训练指定机器学习算法后,得到的机器学习算法的权值;根据所述特征的机器学习算法权值,从所述特征集合中筛选用于确定业务模型包含的变量的特征;所述业务模型包含的变量用于实现业务模型的业务功能。
一种特征筛选装置,包括:
机器学习算法权值确定单元,用于确定特征集合中特征的机器学习算法权值;其中,特征的机器学习算法权值为:以选取作为样本的特征的值作为输入,以特征历史上被选取作为确定业务模型包含的变量的特征的概率值为输出训练指定机器学习算法后,得到的机器学习算法的权值;特征筛选单元,用于根据所述部分或全部特征的机器学习算法权值,从所述特征集合中筛选用于确定业务模型包含的变量的特征;所述业务模型包含的变量用于实现业务模型的业务功能。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
由于可以通过确定特征的机器学习算法权值,并根据机器学习算法权值,实现对用于确定业务模型包含的变量的特征的选取,无需技术人员采用人工筛选的方式选取特征,因此避免了现有技术中采用人工筛选特征的方式导致筛选效率较低的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种特征筛选方法的具体流程示意图;
图2为本申请实施例提供的一种使用组合机器学习算法对特征进行筛选的流程示意图;
图3为本申请实施例提供的一种筛选用于构建信用评级模型特征的方法的具体流程示意图;
图4为本申请实施例提供的一种特征筛选装置的具体结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
实施例1
本申请实施例提供了一种特征筛选方法,用以解决现有技术存在的特征筛选效率较低的问题。
本申请实施例提供的特征筛选方法的执行主体可以是服务器,例如,购物网站的服务器、社交网站的服务器、信用查询网站的服务器,等等。为便于描述,下文以该方法的执行主体为信用查询网站的服务器为例,对该方法的实施方式进行介绍。可以理解,该方法的执行主体为信用查询网站的服务器只是一种示例性的说明,并不应理解为对该方法的限定。
该方法的具体实现流程示意图如图1所示,主要包括下述步骤:
步骤11,确定特征集合中特征的机器学习算法权值;
以下对步骤11中提及的一些特征进行解释说明:
步骤11中所述的特征集合,是由与待建立的所述业务模型预期实现的业务功能具有关联关系的特征组成的。
需要说明的是,用户往往期望通过构建的业务模型实现业务功能,例如,构建信用评估模型,往往是期望通过该信用评估模型进行信用评估;再比如,构建股市分析模型,往往是期望通过该股市分析模型对股市行情进行分析;等等。
为了使构建的业务模型能够实现期望的业务功能,一般会要求待构建的所述业务模型中,包含与期望该业务模型实现的业务功能相关的变量。其中,所述与业务功能相关的变量,是根据与所述业务功能相关的特征确定的。例如,以业务模型为信用评估模型为例,该信用评估模型可以实现的业务功能为对用户进行信用评级,而由于“用户的工作单位性质”(比如是国企还是民营企业)、“用户的偿还能力”、“用户的历史信用评级”、“用户的人脉关系”、“用户的收入水平”以及“用户的支出项目”等特征,往往可以在一定程度上反映出用户的信用级别,因此可以根据该些特征确定与所述信用评估模型期望实现的业务功能相关的变量,进而构建包含所述变量的信用评估模型。
需要说明的是,所述特征集合中的特征,可以是服务器根据待建立的业务模型预期实现的业务功能获取到的、与该业务功能具有关联关系的特征;也可以是根据以往的建模经验,由人工进行选取并保存至服务器中的、与该业务功能具有关联关系的特征。
步骤11中所述的特征的机器学习算法权值,是指:以选取作为样本的特征的值作为输入,以特征历史上被选取作为确定业务模型包含的变量的特征的概率值为输出训练指定机器学习算法后,得到的机器学习算法的权值。机器学习算法的权值,也即机器学习算法在被训练过程中需要调整的参数值。需要说明的是,采用一组特征训练某机器学习算法所确定的机器学习算法权值,为该组特征中各个特征共享的机器学习算法权值。
具体的,步骤11的实现方式可以包括:选取样本构成样本集合;其中所述样本集合中的各样本具备所述特征集合中的部分或全部的特征;通过分别利用所述样本集合中样本的特征的值对至少两个指定机器学习算法分别进行训练,确定所述特征集合中特征的机器学习算法权值。
其中,所述样本,可以是指选取的、具有特征集合中部分或全部特征的个体;由该些样本构成的集合,可以称为样本集合。例如,以业务模型为信用评估模型为例,该信用评估模型可以实现的业务功能为对用户进行信用评级,而“用户的工作单位性质”(比如是国企还是民营企业)、“用户的偿还能力”、“用户的历史信用评级”、“用户的人脉关系”、“用户的收入水平”以及“用户的支出项目”等特征,可以在一定程度上反映出用户的信用级别,因此可以使用机器学习算法从该些特征中筛选出用于构建信用评估模型的特征,在使用机器学习算法对该些特征进行筛选时,首先可以选取具备上述特征的用户作为样本,并输入机器学习算法,以确定所述机器学习算法的权值,进而根据机器学习算法对上述特征进行筛选。
所述机器学习算法,比如可以包括:逻辑回归算法、最大熵算法以及线性支持向量机算法等等中的至少一种。
本申请实施例中,以选取作为样本的特征的值作为输入,以特征历史上被选取作为确定业务模型包含的变量的特征的概率值为输出训练指定机器学习算法,一般可以是指,在通过统计得到指定特征历史上被选取作为确定业务模型包含的变量的特征的概率值的前提下,将所述指定特征的值输入所述指定机器学习算法,通过调整所述机器学习算法的权值,以使得所述机器学习算法的输出值与该特征历史上被选取作为确定业务模型包含的变量的特征的概率值相同,或者尽量趋于相同。
需要说明的是,由于特征的机器学习算法权值是通过上述方式而确定的,因此特征的机器学习算法权值,可以反映该特征被选取作为确定业务模型包含的变量的特征的置信度,因而本申请实施例中,考虑可以以特征的机器学习算法权值为依据,从特征集合中筛选出用于确定业务模型包含的变量的特征。
还需要说明的是,若作为训练机器学习算法的样本集合中某种类型特征的值(后称I类特征)的数量占比较大,那么,使用这样的样本集合中样本的特征的值训练某机器学习算法,并得到该机器学习算法的权值(也即特征的机器学习算法权值)后,该机器学习算法的权值会具备针对I类特征的特征倾向性。其中,机器学习算法的权值具备针对I类特征的特征倾向性,是指将数量占比较大的该I类特征输入该机器学习算法,得到的输出结果为准确结果的概率较大;而将除I类特征外的其他特征输入该机器学习算法,得到的输出结果为准确结果的概率较小。该特征倾向性的产生,是由于在利用样本集合中各样本的特征的值训练该机器学习算法的过程中,该机器学习算法的权值的具体取值,往往要求满足:能够保证大部分训练样本所对应的输出结果与预期的准确结果相同或比较相近。机器学习算法的权值的特征倾向性如果过大,则意味着该权值受某种类型特征占比影响较大,从而不能很客观地反映特征对于机器学习算法输出结果准确性的影响程度。
为了减小机器学习算法的权值的特征倾向性,在一种实施方式中,本申请实施例可以从样本集合中进行抽样,随机的抽取样本集合中的样本组成不同样本子集,后续分别使用不同样本子集中的各样本的特征的值对指定的机器学习算法进行训练。
由于采用随机抽样的方式,从样本集合(为便于描述,后称原始样本集合)中随机抽取样本构建不同样本子集,因而相比于原始样本集合中各样本的特征的值的数量占比,通过随机抽样构建的不同样本子集中各样本的特征的值的数量占比一般不会出现较大差异,也即在同一样本子集中样本的特征的值的数量分布更均匀,因而通过不同样本子集中的各样本的特征的值对所述指定机器学习算法进行训练,以确定不同样本子集中各样本的特征的机器学习算法权值,从而可以在一定程度上减小机器学习算法的权值的特征倾向性。
具体的,本申请实施例可以通过以下两种方式,减小通过训练确定的机器学习算法的权值的特征倾向性,包括:
方式1:通过对样本集合中的样本进行抽样,得到至少两个样本子集;通过分别利用所述至少两个样本子集中各样本的特征的值,对所述至少两个机器学习算法分别进行训练,确定所述样本子集中的各样本的特征的机器学习算法权值。
方式2:通过对所述样本集合中的样本进行抽样,得到至少两个样本子集;通过分别利用所述至少两个样本子集中各样本的各特征的值,对同一机器学习算法进行训练,确定所述样本子集中的各样本的特征的机器学习算法权值。
需要说明的是,可以通过重抽样技术,对所述样本集合中的样本进行抽样,具体包括:通过重复执行下述操作,以构建出至少两个样本子集:从所述样本集合中,随机抽取数量小于所述样本集合中所包含样本的数量的样本构建单个样本子集。其中,所述重抽样技术是指,从样本总数为N的原始样本集合中,随机抽取n个样本(n<N)构成样本子集,重复地进行所述抽样过程,且保证每次抽样时样本集合中每个样本被抽取到的概率均为1/N(即,放回抽样)直至产生至少两个样本子集,即利用重抽样技术对样本集合中各样本的特征的值的数量分布做了平均化处理,从而减小了机器学习算法的权值的特征倾向性,即使得机器学习算法的权值能够较为客观地反映特征对于机器学习算法输出结果准确性的影响程度。相对于根据特征倾向性较高的机器学习算法的权值选取特征的方式而言,基于特征倾向性较低的机器学习算法的权值,能够较为准确的从特征集合中筛选用于确定业务模型包含的变量的特征,进而提高了构建的业务模型的鲁棒性以及容错性。
需要说明的是,为了可以保证构建的业务模型能够较好的实现预期的业务功能,往往需要选取与该业务模型期望实现的业务功能关联程度较高的特征,以确定该业务模型中包含的变量。而步骤11中提到的特征集合中包括的特征一般为粗略选取出的特征,该特征集合中的特征与业务模型期望实现的业务功能的关联程度高低也各不相同。由于采用与业务模型期望实现的业务功能的关联程度较低的特征,来确定业务模型中包含的变量,可能导致变量与该业务功能的关联程度较低,进而导致业务模型不能较好的实现预期的业务功能。因此,后续可以通过步骤12对所述特征集合中的特征进行进一步的筛选。
步骤12,根据通过执行步骤11确定的各特征的机器学习算法权值,从所述特征集合中筛选用于确定业务模型包含的变量的特征;所述业务模型包含的变量用于实现业务模型的业务功能。
具体的,根据所述各特征的机器学习算法权值,从所述特征集合中筛选用于确定业务模型包含的变量的特征,可以包括:根据所述特征的机器学习算法权值,分别计算所述特征集合中特征对应的筛选总分;根据所述筛选总分,从所述特征集合中筛选用于确定业务模型包含的变量的特征。其中,所述筛选总分表示:所述特征被选取作为确定业务模型包含的变量的特征的概率。所述筛选总分越高,则说明所述筛选总分对应的特征被所述指定机器学习算法选中的概率越高。
需要说明的是,仅根据特征的单一机器学习算法权值,计算所述特征对应的筛选总分存在一定的片面性,从而该筛选总分往往不能准确的反映出特征被选取作为确定业务模型包含的变量的特征的概率,这也就导致根据该筛选总分筛选到的特征不准确,从而构建的业务模型不具备较强的鲁棒性以及容错性。为了避免该问题,在一种实施方式中,本申请实施例可以根据特征的至少两种机器学习算法权值,计算所述特征对应的筛选总分,并根据所述筛选总分对特征进行筛选。
假设,通过重抽样技术从样本集合中抽取样本构成的样本子集分别为:样本子集a、样本子集b以及样本子集c,且根据所述样本子集中样本的特征的不同机器学习算法权值,计算所述样本集合中各样本的特征对应的筛选总分,并根据所述筛选总分对特征进行筛选,假设不同机器学习算法分别为:机器学习算法X以及机器学习算法Y,则对特征集合中的特征进行筛选的流程示意图如图2所示,包括:
分别根据样本子集a中样本的特征的机器学习算法X权值以及机器学习算法Y权值,计算样本子集a中样本的特征对应的筛选分数;
分别根据样本子集b中样本的特征的机器学习算法X权值以及机器学习算法Y权值,计算样本子集b中样本的特征对应的筛选分数;
分别根据样本子集c中样本的特征的机器学习算法X权值以及机器学习算法Y权值,计算样本子集c中样本的特征对应的筛选分数;
分别计算样本集合中样本具备的各特征对应的筛选总分,并根据所述筛选总分对特征进行筛选。
在一种实施方式中,可以根据不同样本子集中同一特征的机器学习算法权值,分别计算该特征在不同样本子集中对应的筛选分数,并对同一特征对应的筛选分数进行求和,得到所述特征对应的筛选总分。具体可以包括:根据各样本子集中各特征的机器学习算法权值,计算所述各样本子集中各样本对应的筛选分数;通过对同一特征在各样本子集中对应的筛选分数求和,得到所述各特征对应的筛选总分。
比如,可以利用下式[1]计算各特征对应的筛选分数:
其中,featurei表示特征集合中第i个特征;Scorefeaturei表示featurei的筛选总分;Nmodel表示以样本集合中样本的特征的值作为训练样本所训练的指定机器学习算法的总数目;Nbagging表示采用重抽样技术对样本集合进行抽样得到的样本子集的个数;W(i)jk表示第k个样本子集中featurei的第j个机器学习算法的权重值。
进而可以对利用公式[1]计算得到的各特征对应的筛选总分按照从高到低(或者从低到高)的顺序进行排序,从而可以根据业务模型的建模需要,按顺序选取出筛选总分高的、预定数量的特征,作为用于确定业务模型包含的变量的特征。
采用本申请实施例1提供的方法,由于可以通过确定特征的机器学习算法权值,并根据机器学习算法权值,实现对用于确定业务模型包含的变量的特征的选取,无需技术人员采用人工筛选的方式选取特征,因此避免了现有技术中采用人工筛选特征的方式导致筛选效率较低的问题。
实施例2
本申请实施例提供了一种筛选用于构建信用评级模型特征的方法,用以解决现有技术存在的构建信用评级模型特征筛选效率较低的问题。该方法的具体实现流程示意图如图3所示,主要包括下述步骤:
步骤21,获得与待建立的信用评级模型预期实现的业务功能具有关联关系的特征,组成特征集合;
所述信用评级模型预期实现的业务功能为对用户进行信用评级,而由于“用户的工作单位性质”(比如是国企还是民营企业)、“用户的偿还能力”、“用户的历史信用评级”、“用户的人脉关系”、“用户的收入水平”、“用户的年龄”、“用户的学历”以及“用户的支出项目”等特征,往往可以在一定程度上反映出用户的信用级别,因而可以获得上述特征并组成特征集合。
步骤22,选取具备步骤21获得的特征集合中部分或全部特征的样本,组成样本集合;
步骤23,利用重抽样技术从通过执行步骤22获得的样本集合中抽取样本,组成不同的样本子集。
步骤24,利用样本子集中样本的特征的值对机器学习算法进行训练,确定样本子集中各样本的特征的机器学习算法权值。
例如,假设通过执行步骤23,抽样构建了三个样本子集,分别为:样本子集x、样本子集y以及样本子集z,并利用上述三个样本子集中包括的样本的特征的值分别对机器学习算法A以及机器学习算法B进行训练,以确定上述三个样本子集中样本的特征的机器学习算法权值。
步骤25,根据通过执行步骤24确定的特征的机器算法权值,分别计算所述特征对应的筛选总分。
例如,假设样本子集x以及样本子集y中均包括“用户的工作单位性质”这一特征,且:
样本子集x中特征的机器学习算法A的权值为W1
样本子集x中特征的机器学习算法B的权值为W2
样本子集y中特征的机器学习算法A的权值为W3
样本子集y中特征的机器学习算法B的权值为W4
则计算“用户的工作单位性质”特征对应筛选总分,具体包括:根据该特征在不同特征子集中的机器算法权值W1、W2、W3、W4,分别计算该特征在样本子集x以及样本子集y中分别对应的筛选分数,并对计算得到的该特征在不同样本子集中对应的筛选分数进行求和,得到“用户的工作单位性质”这一特征的筛选总分。
步骤26,根据通过执行步骤25计算得到的筛选总分,从特征集合中筛选用于确定信用评级模型包含的变量的特征。
可以将通过执行步骤25计算得到的各特征对应的筛选总分按照从高到低的顺序进行排序,筛选出排在前几位的筛选总分对应的特征,作为用于确定信用评级模型包含的变量的特征。
采用本申请实施例2提供的方法,由于可以通过确定特征的机器学习算法权值,并根据机器学习算法权值,实现对用于确定业务模型包含的变量的特征的选取,无需技术人员采用人工筛选的方式选取特征,因此避免了现有技术中采用人工筛选特征的方式导致筛选效率较低的问题。
实施例3
本申请实施例提供了一种特征筛选装置,用以解决现有技术存在的特征筛选效率较低的问题。该装置的具体结构示意图如图4所示,包括:机器学习算法权值确定单元31以及特征筛选单元32。
其中,机器学习算法权值确定单元31用于确定特征集合中特征的机器学习算法权值;所述特征的机器学习算法权值为:以选取作为样本的特征的值作为输入,以特征历史上被选取作为确定业务模型包含的变量的特征的概率值为输出训练指定机器学习算法后,得到的机器学习算法的权值;
特征筛选单元32,用于根据所述部分或全部特征的机器学习算法权值,从所述特征集合中筛选用于确定业务模型包含的变量的特征;所述业务模型包含的变量用于实现业务模型的业务功能。
在一种实施方式中,机器学习算法权值确定单元31,用于:选取样本构成样本集合;其中所述样本集合中的各样本具备所述特征集合中的部分或全部的特征;通过分别利用所述样本集合中样本的特征的值对至少两个指定机器学习算法分别进行训练,确定所述特征集合中特征的机器学习算法权值。
在一种实施方式中,所述特征集合中的各特征,包括:与待建立的所述业务模型预期实现的业务功能具有关联关系的特征。
在一种实施方式中,机器学习算法权值确定单元31,用于:通过对所述样本集合中的样本进行抽样,得到至少两个样本子集;通过利用所述样本子集中的各样本的特征的值,对所述至少两个指定机器学习算法分别进行训练,确定所述样本子集中的各样本的特征的机器学习算法权值。
在一种实施方式中,机器学习算法权值确定单元31,用于:通过重复执行下述操作,以构建出至少两样本子集:从所述样本集合中,随机抽取数量小于所述样本集合中所包含样本的数量的样本构建单个样本子集。
在一种实施方式中,特征筛选单元32,用于:根据所述特征的机器学习算法权值,分别计算所述特征对应的筛选总分;所述筛选总分表示:所述特征被选取作为确定业务模型包含的变量的特征的概率;根据所述筛选总分,从所述特征集合中筛选用于确定业务模型包含的变量的特征。
在一种实施方式中,特征筛选单元32,用于:根据各样本子集中各样本的特征的机器学习算法权值,计算所述各样本子集中各特征对应的筛选分数;通过对同一特征在包括该特征的样本子集中对应的筛选分数求和,得到所述各特征对应的筛选总分。
采用本申请实施例3提供的装置,由于可以通过确定特征的机器学习算法权值,并根据机器学习算法权值,实现对用于确定业务模型包含的变量的特征的选取,无需技术人员采用人工筛选的方式选取特征,因此避免了现有技术中采用人工筛选特征的方式导致筛选效率较低的问题。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (14)

1.一种特征筛选方法,其特征在于,包括:
确定特征集合中特征的机器学习算法权值;其中,特征的机器学习算法权值为:以选取作为样本的特征的值为输入,以特征历史上被选取作为确定业务模型包含的变量的特征的概率值为输出训练指定机器学习算法后,得到的机器学习算法的权值;
根据所述特征的机器学习算法权值,从所述特征集合中筛选用于确定业务模型包含的变量的特征;所述业务模型包含的变量用于实现业务模型的业务功能。
2.如权利要求1所述的方法,其特征在于,确定特征集合中特征的机器学习算法权值,包括:
选取样本构成样本集合;其中所述样本集合中的各样本具备所述特征集合中的部分或全部的特征;
通过分别利用所述样本集合中样本的特征的值对至少两个指定机器学习算法分别进行训练,确定所述特征集合中特征的机器学习算法权值。
3.如权利要求2所述的方法,其特征在于,所述特征集合中的特征,包括:
与待建立的所述业务模型预期实现的业务功能具有关联关系的特征。
4.如权利要求2所述的方法,其特征在于,通过分别利用样本集合中样本的特征的值对至少两个指定机器学习算法分别进行训练,确定所述特征的机器学习算法权值,包括:
通过对所述样本集合中的样本进行抽样,得到至少两个样本子集;所述样本子集由抽样得到的样本构成;
通过利用所述样本子集中的各样本的特征的值对所述至少两个指定机器学习算法分别进行训练,确定所述样本子集中各样本的特征的机器学习算法权值。
5.如权利要求4所述的方法,其特征在于,通过对所述样本集合中的样本进行抽样,包括:
通过重复执行下述操作,以构建出至少两个样本子集:
从所述样本集合中,随机抽取数量小于所述样本集合中所包含样本的数量的样本构建单个样本子集。
6.如权利要求4或5所述的方法,其特征在于,根据所述特征的机器学习算法权值,从所述特征集合中筛选用于确定业务模型包含的变量的特征,包括:
根据所述特征的机器学习算法权值,分别计算所述特征对应的筛选总分;所述筛选总分表示:所述特征被选取作为确定业务模型包含的变量的特征的概率;
根据所述筛选总分,从所述特征集合中筛选用于确定业务模型包含的变量的特征。
7.如权利要求6所述的方法,其特征在于,根据所述特征的机器学习算法权值,分别计算所述特征对应的筛选总分,包括:
根据各样本子集中各样本的特征的机器学习算法权值,计算所述各样本子集中各特征对应的筛选分数;
通过对同一特征在包括该特征的样本子集中对应的筛选分数求和,得到所述各特征对应的筛选总分。
8.一种特征筛选装置,其特征在于,包括:
机器学习算法权值确定单元,用于确定特征集合中特征的机器学习算法权值;其中,特征的机器学习算法权值为:以选取作为样本的特征的值作为输入,以特征历史上被选取作为确定业务模型包含的变量的特征的概率值为输出训练指定机器学习算法后,得到的机器学习算法的权值;
特征筛选单元,用于根据所述部分或全部特征的机器学习算法权值,从所述特征集合中筛选用于确定业务模型包含的变量的特征;所述业务模型包含的变量用于实现业务模型的业务功能。
9.如权利要求8所述的装置,其特征在于,机器学习算法权值确定单元,用于:
选取样本构成样本集合;其中所述样本集合中的各样本具备所述特征集合中的部分或全部的特征;
通过分别利用所述样本集合中样本的特征的值对至少两个指定机器学习算法分别进行训练,确定所述特征集合中特征的机器学习算法权值。
10.如权利要求9所述的装置,其特征在于,所述特征集合中的各特征,包括:与待建立的所述业务模型预期实现的业务功能具有关联关系的特征。
11.如权利要求9所述的装置,其特征在于,机器学习算法权值确定单元,用于:
通过对所述样本集合中的样本进行抽样,得到至少两个样本子集;所述样本子集由抽样得到的样本构成;
通过利用所述样本子集中的各样本的特征的值对所述至少两个指定机器学习算法分别进行训练,确定所述样本子集中的各样本的特征的机器学习算法权值。
12.如权利要求11所述的装置,其特征在于,机器学习算法权值确定单元,用于:
通过重复执行下述操作,以构建出至少两个样本子集:
从所述样本集合中,随机抽取数量小于所述样本集合中所包含样本的数量的样本构建单个样本子集。
13.如权利要求11或12所述的装置,其特征在于,特征筛选单元,用于:
根据所述特征的机器学习算法权值,分别计算所述特征对应的筛选总分;所述筛选总分表示:所述特征被选取作为确定业务模型包含的变量的特征的概率;
根据所述筛选分数,从所述特征集合中筛选用于确定业务模型包含的变量的特征。
14.如权利要求13所述的装置,其特征在于,特征筛选单元,用于:
根据各样本子集中各样本的特征的机器学习算法权值,计算所述各样本子集中各特征对应的筛选分数;
通过对同一特征在包括该特征的样本子集中对应的筛选分数求和,得到所述各特征对应的筛选总分。
CN201610127861.5A 2016-03-07 2016-03-07 一种特征筛选方法及装置 Pending CN107169571A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610127861.5A CN107169571A (zh) 2016-03-07 2016-03-07 一种特征筛选方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610127861.5A CN107169571A (zh) 2016-03-07 2016-03-07 一种特征筛选方法及装置

Publications (1)

Publication Number Publication Date
CN107169571A true CN107169571A (zh) 2017-09-15

Family

ID=59849865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610127861.5A Pending CN107169571A (zh) 2016-03-07 2016-03-07 一种特征筛选方法及装置

Country Status (1)

Country Link
CN (1) CN107169571A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019157946A1 (zh) * 2018-02-13 2019-08-22 阿里巴巴集团控股有限公司 一种反洗钱方法、装置及设备
CN112508462A (zh) * 2021-02-05 2021-03-16 北京芯盾时代科技有限公司 数据筛选方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080131022A1 (en) * 2006-12-01 2008-06-05 Ilia Vitsnudel Method and Apparatus for Resolution Improvement in Digital Capturing
CN103473291A (zh) * 2013-09-02 2013-12-25 中国科学院软件研究所 一种基于隐语义概率模型的个性化服务推荐系统及方法
CN103778227A (zh) * 2014-01-23 2014-05-07 西安电子科技大学 从检索图像中筛选有用图像的方法
CN103824090A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种自适应的人脸低层特征选择方法及人脸属性识别方法
US20140328537A1 (en) * 2011-09-14 2014-11-06 Eads Deutschland Gmbh Automatic Learning Method for the Automatic Learning of Forms of Appearance of Objects in Images
CN104866474A (zh) * 2014-02-20 2015-08-26 阿里巴巴集团控股有限公司 个性化数据搜索方法及装置
CN105069526A (zh) * 2015-07-31 2015-11-18 中国太平洋保险(集团)股份有限公司 一种计算员工留存度概率的计算方法
CN105279023A (zh) * 2015-11-27 2016-01-27 浪潮(北京)电子信息产业有限公司 一种虚拟机迁移方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080131022A1 (en) * 2006-12-01 2008-06-05 Ilia Vitsnudel Method and Apparatus for Resolution Improvement in Digital Capturing
US20140328537A1 (en) * 2011-09-14 2014-11-06 Eads Deutschland Gmbh Automatic Learning Method for the Automatic Learning of Forms of Appearance of Objects in Images
CN103473291A (zh) * 2013-09-02 2013-12-25 中国科学院软件研究所 一种基于隐语义概率模型的个性化服务推荐系统及方法
CN103778227A (zh) * 2014-01-23 2014-05-07 西安电子科技大学 从检索图像中筛选有用图像的方法
CN103824090A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种自适应的人脸低层特征选择方法及人脸属性识别方法
CN104866474A (zh) * 2014-02-20 2015-08-26 阿里巴巴集团控股有限公司 个性化数据搜索方法及装置
CN105069526A (zh) * 2015-07-31 2015-11-18 中国太平洋保险(集团)股份有限公司 一种计算员工留存度概率的计算方法
CN105279023A (zh) * 2015-11-27 2016-01-27 浪潮(北京)电子信息产业有限公司 一种虚拟机迁移方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FRANCESCO BIANCONI 等: "Evaluation of the effects of Gabor filter parameters on texture classification", 《PATTERN RECOGNITION》 *
高尚: "三种计算层次分析法中权值的方法", 《科学技术与工程》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019157946A1 (zh) * 2018-02-13 2019-08-22 阿里巴巴集团控股有限公司 一种反洗钱方法、装置及设备
CN112508462A (zh) * 2021-02-05 2021-03-16 北京芯盾时代科技有限公司 数据筛选方法、装置及存储介质
CN112508462B (zh) * 2021-02-05 2021-05-14 北京芯盾时代科技有限公司 数据筛选方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN106021364B (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
CN105718490A (zh) 一种用于更新分类模型的方法及装置
CN109241424A (zh) 一种推荐方法
CN110097003A (zh) 基于神经网络的课堂考勤方法、设备、存储介质及装置
CN109496322A (zh) 信用评价方法和装置以及梯度渐进决策树参数调整方法和装置
CN106651542A (zh) 一种物品推荐的方法及装置
CN107730286A (zh) 一种目标客户筛选方法及装置
CN108898476A (zh) 一种贷款客户信用评分方法和装置
CN106897262A (zh) 一种文本分类方法和装置以及处理方法和装置
CN106384197A (zh) 一种基于大数据的业务质量评估方法和装置
CN112559900B (zh) 产品推荐方法、装置、计算机设备和存储介质
CN105868254A (zh) 信息推荐方法及装置
CN111062806B (zh) 个人金融信用风险评价方法、系统和存储介质
CN110503198A (zh) 获取神经网络测试报告的方法、装置、设备和存储介质
Devi et al. A relative evaluation of the performance of ensemble learning in credit scoring
CN106251260A (zh) 一种考生志愿填报模拟系统及方法
CN103942604B (zh) 基于森林区分度模型的预测方法及系统
CN107992978A (zh) 一种网贷平台的风险预警方法及相关装置
CN109670927A (zh) 信用额度的调整方法及其装置、设备、存储介质
CN107169571A (zh) 一种特征筛选方法及装置
CN111241258A (zh) 数据清洗方法、装置、计算机设备及可读存储介质
CN113409157B (zh) 一种跨社交网络用户对齐方法以及装置
CN110599351A (zh) 一种投资数据处理方法及装置
Hellström et al. Branch thinning and the large-scale, self-similar structure of trees
CN108228869A (zh) 一种文本分类模型的建立方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170915

RJ01 Rejection of invention patent application after publication