CN112115369B - 特征数据的筛选方法、装置、电子设备及计算机存储介质 - Google Patents

特征数据的筛选方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN112115369B
CN112115369B CN202011046732.6A CN202011046732A CN112115369B CN 112115369 B CN112115369 B CN 112115369B CN 202011046732 A CN202011046732 A CN 202011046732A CN 112115369 B CN112115369 B CN 112115369B
Authority
CN
China
Prior art keywords
feature
features
calculation model
feature set
performance score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011046732.6A
Other languages
English (en)
Other versions
CN112115369A (zh
Inventor
丁锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202011046732.6A priority Critical patent/CN112115369B/zh
Publication of CN112115369A publication Critical patent/CN112115369A/zh
Application granted granted Critical
Publication of CN112115369B publication Critical patent/CN112115369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Train Traffic Observation, Control, And Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种特征数据的筛选方法、装置、电子设备及计算机存储介质,该方法包括:首先,获取特征集合;其中,特征集合中包括至少一个特征;然后,将特征集合中的所有特征输入至计算模型,由计算模型处理输入的特征,得到计算模型的基准性能分值;再将特征集合中除待检测特征以外的每一个特征输入计算模型,由计算模型处理输入的特征,得到计算模型的参考性能分值;待检测特征指代特征集合中的每一个特征;最终,确定参考性能分值大于基准性能分值所对应的待检测特征为有效特征;其中,有效特征用于训练计算模型。以达到挑选出有效的特征对计算模型进行训练,从而提高训练得到的计算模型的性能的目的。

Description

特征数据的筛选方法、装置、电子设备及计算机存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种特征数据的筛选方法、装置、电子设备及计算机存储介质。
背景技术
随着科技的不断发展,各种个性化的预测模型的出现为用户处理信息过载问题提供了一个有效的工具,例如:预测模型通过对海量的用户历史购物信息进行学习,从而可以向用户推荐用户感兴趣的信息和商品;在做个人贷款项目时,预测模型通过用户的历史信息进行学习,从而对用户在进行贷款时是否会发生还款逾期的情况进行预测等。
目前,在对模型进行训练的过程中,通常会选取多个特征对模型进行训练,但是,在选取特征的过程中并不能分辨哪些特征为有效特征,哪些特征为无效特征,如果在模型的训练过程中加入了无效的特征,就会降低模型的性能,即影响后续使用模型进行预测时的准确性。
发明内容
有鉴于此,本申请提供一种特征数据的筛选方法、装置、电子设备及计算机存储介质,用于挑选出有效的特征对计算模型进行训练,从而提高训练得到的计算模型的性能。
本申请第一方面提供了一种特征数据的筛选方法,包括:
获取特征集合;其中,所述特征集合中包括至少一个特征;
将所述特征集合中的所有特征输入至计算模型,由所述计算模型处理输入的特征,得到所述计算模型的基准性能分值;其中,所述计算模型为一个用于实现梯度提升迭代决策树的框架;
将所述特征集合中除待检测特征以外的每一个特征输入所述计算模型,由所述计算模型处理输入的特征,得到所述计算模型的参考性能分值;其中,所述待检测特征指代所述特征集合中的每一个特征;
确定所述参考性能分值大于所述基准性能分值所对应的待检测特征为有效特征;其中,所述有效特征用于训练所述计算模型。
可选的,所述获取特征集合之后,还包括:
按照预设的组合方式对所述特征集合中的特征进行组合,得到组合后的特征;
将所述组合后的特征加入所述特征集合。
可选的,所述按照预设的组合方式对所述特征集合中的特征进行组合,得到组合后的特征之前,还包括:
将每一个所述特征输入至所述计算模型中,计算得到每一个所述特征的分值;
按照所述特征的分值将每一个所述特征从大到小进行排序,得到排序后的特征集合;
在所述排序后的特征集合中选取预设个数的特征,作为筛选后的特征集合;
其中,所述所述按照预设的组合方式对所述特征集合中的特征进行组合,得到组合后的特征,包括:
按照预设的组合方式对所述筛选后的特征集合中的特征进行组合,得到组合后的特征。
可选的,所述预设的组合方式为:将至少两个所述特征相加,将至少两个所述特征相减,将至少两个所述特征相乘,或将至少两个所述特征相除。
本申请第二方面提供了一种特征数据的筛选装置,包括:
获取单元,用于获取特征集合;其中,所述特征集合中包括至少一个特征;
输入单元,用于将特征集合中的所有特征输入至计算模型,由所述计算模型处理输入的特征,得到计算模型的基准性能分值;其中,所述计算模型为一个用于实现梯度提升迭代决策树的框架;
所述输入单元,还用于将所述特征集合中除待检测特征以外的每一个特征输入所述计算模型,由所述计算模型处理输入的特征,得到所述计算模型的参考性能分值;其中,所述待检测特征指代所述特征集合中的每一个特征;
确定单元,用于确定所述参考性能分值大于所述基准性能分值所对应的待检测特征为有效特征;其中,所述有效特征用于训练所述计算模型。
可选的,所述特征数据的筛选装置,还包括:
组合单元,用于按照预设的组合方式对所述特征集合中的特征进行组合,得到组合后的特征;
添加单元,用于将所述组合后的特征加入所述特征集合。
可选的,所述特征数据的筛选装置,还包括:
计算单元,用于将每一个所述特征输入至所述计算模型中,计算得到每一个所述特征的分值;
排序单元,用于按照所述特征的分值将每一个所述特征从大到小进行排序,得到排序后的特征集合;
选取单元,用于在所述排序后的特征集合中选取预设个数的特征,作为筛选后的特征集合;
所述组合单元,还用于按照预设的组合方式对所述筛选后的特征集合中的特征进行组合,得到组合后的特征。
可选的,所述预设的组合方式为:将至少两个所述特征相加,将至少两个所述特征相减,将至少两个所述特征相乘,或将至少两个所述特征相除。
本申请第三方面提供了一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如第一方面任意一项所述的方法。
本申请第四方面提供了一种计算机存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如第一方面任意一项所述的方法。
由以上方案可知,本申请提供的一种特征数据的筛选方法、装置、电子设备及计算机存储介质中,该方法包括:首先,获取特征集合;其中,所述特征集合中包括至少一个特征;然后,将所述特征集合中的所有特征输入至计算模型,由所述计算模型处理输入的特征,得到所述计算模型的基准性能分值;其中,所述计算模型为一个用于实现梯度提升迭代决策树的框架;再将所述特征集合中除待检测特征以外的每一个特征输入所述计算模型,由所述计算模型处理输入的特征,得到所述计算模型的参考性能分值;其中,所述待检测特征指代所述特征集合中的每一个特征;最终,确定所述参考性能分值大于所述基准性能分值所对应的待检测特征为有效特征;其中,所述有效特征用于训练所述计算模型;其中,所述有效特征用于训练所述计算模型。以达到挑选出有效的特征对计算模型进行训练,从而提高训练得到的计算模型的性能的目的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种特征数据的筛选方法的具体流程图;
图2为本申请另一实施例提供的一种特征数据的筛选方法的具体流程图;
图3为本申请另一实施例提供的一种特征数据的筛选方法的具体流程图;
图4为本申请另一实施例提供的一种特征数据的筛选装置的示意图;
图5为本申请另一实施例提供的一种特征数据的筛选装置的示意图;
图6为本申请另一实施例提供的一种特征数据的筛选装置的示意图;
图7为本申请另一实施例提供的一种实现特征数据的筛选方法的电子设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系,而术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请实施例提供了一种特征数据的筛选方法,如图1所示,具体包括以下步骤:
S101、获取特征集合。
其中,特征集合中包括至少一个特征。特征集合中的特征为用户训练计算模型的过程中,所提供的原始特征。需要说明的是这些原始特征,可能是有效特征,也可能是无效特征,但是用户在提供时并不知道每一个特征是否为有效特征。
S102、将特征集合中的所有特征输入至计算模型,由计算模型处理输入的特征,得到计算模型的基准性能分值。
其中,计算模型为一个用于实现梯度提升迭代决策树的框架。
需要说明的是,计算模型可以采用但不限于Light Gradient Boosting Machine(light GBM)模型,light GBM模型是微软开源的一个实现梯度提升迭代决策树(GradientBoosting Decision Tree),GBDT)算法的框架,支持高效率的并行训练。
还需要说明的是,计算得到的计算模型的基准性能分值可以是但不限于受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC)下方的面积(AreaUnderCurve,AUC);其中,ROC曲线是根据一系列不同的二分类方式(分界值或者决定),以真阳性率(敏感性)为纵坐标,假阳性率(1-特异性)为横坐标的曲线;AUC可通过对ROC曲线下各部分的面积求和而得,是衡量学习器优劣的一种性能指标。AUC=1,是完美的分类模型;AUC=[0.85,0.95],效果很好;AUC=[0.7,0.85],效果一般;AUC=[0.5,0.7],效果较低;AUC=0.5,跟随机猜测一样,模型没有预测价值;AUC<0.5,比随机猜测还差。
具体的,将步骤S101中获取得到的特征集合中的所有特征输入至计算模型中,由计算模型处理输入的特征,得到基于特征集合中的所有特征的计算模型的基准性能分值。
S103、将特征集合中除待检测特征以外的每一个特征输入计算模型,由计算模型处理输入的特征,得到计算模型的参考性能分值。
其中,待检测特征指代特征集合中的每一个特征。
与步骤S102采取同样的方式将特征集合中除待检测特征以外的每一个特征输入计算模型,由计算模型处理输入的特征,得到计算模型的参考性能分值。
例如:特征集合中有特征A、B、C、D、E,首先,可以任选一个特征为待检测特征,以特征A为例,将特征A确定为待检测特征,那么将特征B、C、D、E输入至计算模型,由计算模型计算得到没有特征A的计算模型的参考性能分值;在计算完特征A后,可以采用同样的方法,再任意选取一个除A以外的特征作为待检测特征,以特征D为例,将特征A、B、C、E输入至计算模型,由计算模型计算得到没有特征D的计算模型的参考性能分值;以此类推,直至将特征集合中的每一个特征都作为待检测特征,并计算得到待检测特征对应的计算模型的参考性能分值后,结束计算。
S104、确定参考性能分值大于基准性能分值所对应的待检测特征为有效特征。
其中,有效特征用于训练计算模型。
例如:例如:特征集合中有特征A、B、C、D、E,首先,可以任选一个特征为待检测特征,以特征A为例,将特征A确定为待检测特征,那么将特征B、C、D、E输入至计算模型,由计算模型计算得到没有特征A的计算模型的参考性能分值,当计算模型的参考性能分值大于计算模型的基准性能分值时,确定特征A为有效特征,当计算模型的参考性能分值不大于计算模型的基准性能分值时,确定特征A为无效特征;同理,当特征D为待检测特征时,将特征A、B、C、E输入至计算模型,由计算模型计算得到没有特征D的计算模型的参考性能分值,当计算模型的参考性能分值大于计算模型的基准性能分值时,确定特征D为有效特征,当计算模型的参考性能分值不大于计算模型的基准性能分值时,确定特征D为无效特征;以此类推,直至将特征集合中的每一个特征都进行确认是否为有效特征。
由以上方案可知,本申请提供了一种特征数据的筛选方法,首先,获取特征集合;其中,特征集合中包括至少一个特征;然后,将特征集合中的所有特征输入至计算模型,由计算模型处理输入的特征;其中,计算模型为一个用于实现梯度提升迭代决策树的框架;再将特征集合中除待检测特征以外的每一个特征输入计算模型,由计算模型处理输入的特征,得到计算模型的参考性能分值;其中,待检测特征指代特征集合中的每一个特征;最终,确定参考性能分值大于基准性能分值所对应的待检测特征为有效特征;其中,有效特征用于训练计算模型。以达到挑选出有效的特征对计算模型进行训练,从而提高训练得到的计算模型的性能的目的。
可选的,在本申请的另一实施例中,特征数据的筛选方法的一种实施方式,如图2所示,包括:
S201、获取特征集合。
其中,特征集合中包括至少一个特征。
需要说明的是,步骤S201的具体实现过程与上述步骤S101的具体实现过程相同,可相互参见。
S202、按照预设的组合方式对特征集合中的特征进行组合,得到组合后的特征。
可选的,在本申请的另一实施例中,预设的组合方式的一种实施方式包括:将至少两个特征相加,将至少两个特征相减,将至少两个特征相乘,或将至少两个特征相除。
可以理解的是,特征的组合方式不仅限于上述组合方式,还可以采用其他十分容易联想到的方式,例如:将根据用户的实际情况对每一个特征进行加权后,再将至少两个特征相加,将至少两个特征相减,将至少两个特征相乘,或将至少两个特征相除,方式十分多样化,此处不做限定。
S203、将组合后的特征加入特征集合。
S204、将特征集合中的所有特征输入至计算模型,由计算模型处理输入的特征,得到计算模型的基准性能分值。
其中,计算模型为一个用于实现梯度提升迭代决策树的框架。
需要说明的是,步骤S204的具体实现过程与上述步骤S102的具体实现过程相同,可相互参见。
S205、将特征集合中除待检测特征以外的每一个特征输入计算模型,由计算模型处理输入的特征,得到计算模型的参考性能分值。
其中,待检测特征指代特征集合中的每一个特征或组合。
需要说明的是,步骤S205的具体实现过程与上述步骤S103的具体实现过程相同,可相互参见。
S206、确定参考性能分值大于基准性能分值所对应的待检测特征为有效特征。
其中,有效特征用于训练计算模型。
需要说明的是,步骤S206的具体实现过程与上述步骤S104的具体实现过程相同,可相互参见。
由以上方案可知,本申请提供了一种特征数据的筛选方法,首先,获取特征集合;其中,特征集合中包括至少一个特征;然后,按照预设的组合方式对特征集合中的特征进行组合,得到组合后的特征;将组合后的特征加入特征集合,再将特征集合中的所有特征输入至计算模型,由计算模型处理输入的特征,得到计算模型的基准性能分值;其中,计算模型为一个用于实现梯度提升迭代决策树的框架;再将特征集合中除待检测特征以外的每一个特征输入计算模型,由计算模型处理输入的特征,得到计算模型的参考性能分值;其中,待检测特征指代特征集合中的每一个特征;最终,确定参考性能分值大于基准性能分值所对应的待检测特征为有效特征;其中,有效特征用于训练计算模型。以达到挑选出有效的特征对计算模型进行训练,从而提高训练得到的计算模型的性能的目的。
可选的,在本申请的另一实施例中,特征数据的筛选方法的一种实施方式,如图3所示,包括:
S301、获取特征集合。
其中,特征集合中包括至少一个特征。
需要说明的是,步骤S301的具体实现过程与上述步骤S101的具体实现过程相同,可相互参见。
S302、将每一个特征输入至计算模型中,计算得到每一个特征的分值。
具体的,分别将特征集合中的而每一个特征单独输入至计算模型中,由计算模型进行计算,分别到每一个特征的分值。
S303、按照特征的分值将每一个特征从大到小进行排序,得到排序后的特征集合。
S304、在排序后的特征集合中选取预设个数的特征,作为筛选后的特征集合。
其中,预设的个数可以由用户自定义进行设置,可以是20、13、100等,此处不做限定。
S305、按照预设的组合方式对筛选后的特征集合中的特征进行组合,得到组合后的特征。
需要说明的是,步骤S305的具体实现过程与上述步骤S202的具体实现过程相同,可相互参见。
S306、将组合后的特征加入特征集合。
需要说明的是,步骤S306的具体实现过程与上述步骤S203的具体实现过程相同,可相互参见。
S307、将特征集合中的所有特征输入至计算模型,由计算模型处理输入的特征,得到计算模型的基准性能分值。
其中,计算模型为一个用于实现梯度提升迭代决策树的框架。
需要说明的是,步骤S307的具体实现过程与上述步骤S102的具体实现过程相同,可相互参见。
S308、将特征集合中除待检测特征以外的每一个特征输入计算模型,由计算模型处理输入的特征,得到计算模型的参考性能分值。
其中,待检测特征指代特征集合中的每一个特征或组合。
需要说明的是,步骤S308的具体实现过程与上述步骤S103的具体实现过程相同,可相互参见。
S309、确定参考性能分值大于基准性能分值所对应的待检测特征为有效特征。
其中,有效特征用于训练计算模型。
需要说明的是,步骤S309的具体实现过程与上述步骤S104的具体实现过程相同,可相互参见。
由以上方案可知,本申请提供了一种特征数据的筛选方法,首先,获取特征集合;其中,特征集合中包括至少一个特征;将每一个特征输入至计算模型中,计算得到每一个特征的分值;按照特征的分值将每一个特征从大到小进行排序,得到排序后的特征集合;在排序后的特征集合中选取预设个数的特征,作为筛选后的特征集合。按照预设的组合方式对筛选后的特征集合中的特征进行组合,得到组合后的特征;将组合后的特征加入特征集合,再将特征集合中的所有特征输入至计算模型,由计算模型处理输入的特征,得到计算模型的基准性能分值;其中,计算模型为一个用于实现梯度提升迭代决策树的框架;再将特征集合中除待检测特征以外的每一个特征输入计算模型,由计算模型处理输入的特征,得到计算模型的参考性能分值;其中,待检测特征指代特征集合中的每一个特征;最终,确定参考性能分值大于基准性能分值所对应的待检测特征为有效特征;其中,有效特征用于训练计算模型。以达到挑选出有效的特征对计算模型进行训练,从而提高训练得到的计算模型的性能的目的。
本申请另一实施例提供了一种特征数据的筛选装置,如图4所示,具体包括:
获取单元401,用于获取特征集合。
其中,特征集合中包括至少一个特征。
输入单元402,用于将特征集合中的所有特征输入至计算模型,由计算模型处理输入的特征,得到计算模型的基准性能分值。
其中,计算模型为一个用于实现梯度提升迭代决策树的框架。
输入单元402,还用于将特征集合中除待检测特征以外的每一个特征输入计算模型,由计算模型处理输入的特征,得到计算模型的参考性能分值。
其中,待检测特征指代特征集合中的每一个特征。
确定单元403,用于确定参考性能分值大于基准性能分值所对应的待检测特征为有效特征。
其中,有效特征用于训练计算模型。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图1所示,此处不再赘述。
由以上方案可知,本申请提供了一种特征数据的筛选装置,通过获取单元401获取特征集合;其中,特征集合中包括至少一个特征;然后,输入单元402将特征集合中的所有特征输入至计算模型,由计算模型处理输入的特征,得到计算模型的基准性能分值;其中,计算模型为一个用于实现梯度提升迭代决策树的框架;输入单元402再将特征集合中除待检测特征以外的每一个特征输入计算模型,由计算模型处理输入的特征,得到计算模型的参考性能分值;其中,待检测特征指代特征集合中的每一个特征;最终,确定单元403确定参考性能分值大于基准性能分值所对应的待检测特征为有效特征;其中,有效特征用于训练计算模型。以达到挑选出有效的特征对计算模型进行训练,从而提高训练得到的计算模型的性能的目的。
可选的,在本申请的另一实施例中,特征数据的筛选装置的一种实施方式,如图5所示,包括:
获取单元401,用于获取特征集合。
其中,特征集合中包括至少一个特征。
组合单元501,用于按照预设的组合方式对特征集合中的特征进行组合,得到组合后的特征。
添加单元502,将组合后的特征加入特征集合。
输入单元402,用于将特征集合中的所有特征输入至计算模型,由计算模型处理输入的特征,得到计算模型的基准性能分值。
其中,计算模型为一个用于实现梯度提升迭代决策树的框架。
输入单元402,还用于将特征集合中除待检测特征以外的每一个特征输入计算模型,由计算模型处理输入的特征,得到计算模型的参考性能分值。
其中,待检测特征指代特征集合中的每一个特征或组合。
确定单元403,用于确定参考性能分值大于基准性能分值所对应的待检测特征为有效特征。
其中,有效特征用于训练计算模型。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图2所示,此处不再赘述。
由以上方案可知,本申请提供了一种特征数据的筛选装置,通过获取单元401获取特征集合;其中,特征集合中包括至少一个特征;然后,组合单元501按照预设的组合方式对特征集合中的特征进行组合,得到组合后的特征;添加单元502将组合后的特征加入特征集合,输入单元402将特征集合中的所有特征输入至计算模型,由计算模型处理输入的特征,得到计算模型的基准性能分值;其中,计算模型为一个用于实现梯度提升迭代决策树的框架;输入单元402再将特征集合中除待检测特征以外的每一个特征输入计算模型,由计算模型处理输入的特征,得到计算模型的参考性能分值;其中,待检测特征指代特征集合中的每一个特征;最终,确定单元403确定参考性能分值大于基准性能分值所对应的待检测特征为有效特征;其中,有效特征用于训练计算模型。以达到挑选出有效的特征对计算模型进行训练,从而提高训练得到的计算模型的性能的目的。
可选的,在本申请的另一实施例中,特征数据的筛选装置的一种实施方式,如图6所示,包括:
获取单元401,用于获取特征集合。
其中,特征集合中包括至少一个特征。
计算单元601,用于将每一个特征输入至计算模型中,计算得到每一个特征的分值。
排序单元602,用于按照特征的分值将每一个特征从大到小进行排序,得到排序后的特征集合。
选取单元603,用于在排序后的特征集合中选取预设个数的特征,作为筛选后的特征集合。
组合单元501,用于按照预设的组合方式对筛选后的特征集合中的特征进行组合,得到组合后的特征。
添加单元502,用于将组合后的特征加入特征集合。
输入单元402,用于将特征集合中的所有特征输入至计算模型,由计算模型处理输入的特征,得到计算模型的基准性能分值。
其中,计算模型为一个用于实现梯度提升迭代决策树的框架。
输入单元402,还用于将特征集合中除待检测特征以外的每一个特征输入计算模型,由计算模型处理输入的特征,得到计算模型的参考性能分值。
其中,待检测特征指代特征集合中的每一个特征或组合。
确定单元403,用于确定参考性能分值大于基准性能分值所对应的待检测特征为有效特征。
其中,有效特征用于训练计算模型。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图3所示,此处不再赘述。
由以上方案可知,本申请提供了一种特征数据的筛选装置,通过获取单元401获取特征集合;其中,特征集合中包括至少一个特征;利用计算单元601将每一个特征输入至计算模型中,计算得到每一个特征的分值;排序单元602按照特征的分值将每一个特征从大到小进行排序,得到排序后的特征集合;选取单元603在排序后的特征集合中选取预设个数的特征,作为筛选后的特征集合。组合单元501按照预设的组合方式对筛选后的特征集合中的特征进行组合,得到组合后的特征;添加单元502将组合后的特征加入特征集合,输入单元402将特征集合中的所有特征输入至计算模型,由计算模型处理输入的特征,得到计算模型的基准性能分值;其中,计算模型为一个用于实现梯度提升迭代决策树的框架;输入单元402再将特征集合中除待检测特征以外的每一个特征输入计算模型,由计算模型处理输入的特征,得到计算模型的参考性能分值;其中,待检测特征指代特征集合中的每一个特征;最终,确定单元403确定参考性能分值大于基准性能分值所对应的待检测特征为有效特征;其中,有效特征用于训练计算模型。以达到挑选出有效的特征对计算模型进行训练,从而提高训练得到的计算模型的性能的目的。
本申请另一实施例提供了一种电子设备,如图7所示,包括:
一个或多个处理器701。
存储装置702,其上存储有一个或多个程序。
当所述一个或多个程序被所述一个或多个处理器701执行时,使得所述一个或多个处理器701实现如上述实施例中任意一项所述的方法。
本申请另一实施例提供了一种计算机存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如上述实施例中任意一项所述的方法。
在本申请公开的上述实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,直播设备,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种特征数据的筛选方法,其特征在于,包括:
获取特征集合;其中,所述特征集合中包括至少一个特征;
将所述特征集合中的所有特征输入至计算模型,由所述计算模型处理输入的特征,得到所述计算模型的基准性能分值;其中,所述计算模型为一个用于实现梯度提升迭代决策树的框架;
将所述特征集合中除待检测特征以外的每一个特征输入所述计算模型,由所述计算模型处理输入的特征,得到所述计算模型的参考性能分值;其中,所述待检测特征指代所述特征集合中的每一个特征;
确定所述参考性能分值大于所述基准性能分值所对应的待检测特征为有效特征;其中,所述有效特征用于训练所述计算模型。
2.根据权利要求1所述的筛选方法,其特征在于,所述获取特征集合之后,还包括:
按照预设的组合方式对所述特征集合中的特征进行组合,得到组合后的特征;
将所述组合后的特征加入所述特征集合。
3.根据权利要求2所述的筛选方法,其特征在于,所述按照预设的组合方式对所述特征集合中的特征进行组合,得到组合后的特征之前,还包括:
将每一个所述特征输入至所述计算模型中,计算得到每一个所述特征的分值;
按照所述特征的分值将每一个所述特征从大到小进行排序,得到排序后的特征集合;
在所述排序后的特征集合中选取预设个数的特征,作为筛选后的特征集合;
其中,所述所述按照预设的组合方式对所述特征集合中的特征进行组合,得到组合后的特征,包括:
按照预设的组合方式对所述筛选后的特征集合中的特征进行组合,得到组合后的特征。
4.根据权利要求2所述的筛选方法,其特征在于,所述预设的组合方式为:将至少两个所述特征相加,将至少两个所述特征相减,将至少两个所述特征相乘,或将至少两个所述特征相除。
5.一种特征数据的筛选装置,其特征在于,包括:
获取单元,用于获取特征集合;其中,所述特征集合中包括至少一个特征;
输入单元,用于将特征集合中的所有特征输入至计算模型,由所述计算模型处理输入的特征,得到计算模型的基准性能分值;其中,所述计算模型为一个用于实现梯度提升迭代决策树的框架;
所述输入单元,还用于将所述特征集合中除待检测特征以外的每一个特征输入所述计算模型,由所述计算模型处理输入的特征,得到所述计算模型的参考性能分值;其中,所述待检测特征指代所述特征集合中的每一个特征;
确定单元,用于确定所述参考性能分值大于所述基准性能分值所对应的待检测特征为有效特征;其中,所述有效特征用于训练所述计算模型。
6.根据权利要求5所述的筛选装置,其特征在于,还包括:
组合单元,用于按照预设的组合方式对所述特征集合中的特征进行组合,得到组合后的特征;
添加单元,用于将所述组合后的特征加入所述特征集合。
7.根据权利要求6所述的筛选装置,其特征在于,还包括:
计算单元,用于将每一个所述特征输入至所述计算模型中,计算得到每一个所述特征的分值;
排序单元,用于按照所述特征的分值将每一个所述特征从大到小进行排序,得到排序后的特征集合;
选取单元,用于在所述排序后的特征集合中选取预设个数的特征,作为筛选后的特征集合;
所述组合单元,还用于按照预设的组合方式对所述筛选后的特征集合中的特征进行组合,得到组合后的特征。
8.根据权利要求6所述的筛选装置,其特征在于,所述预设的组合方式为:将至少两个所述特征相加,将至少两个所述特征相减,将至少两个所述特征相乘,或将至少两个所述特征相除。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至4中任一所述的方法。
10.一种计算机存储介质,其特征在于,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至4中任一所述的方法。
CN202011046732.6A 2020-09-29 2020-09-29 特征数据的筛选方法、装置、电子设备及计算机存储介质 Active CN112115369B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011046732.6A CN112115369B (zh) 2020-09-29 2020-09-29 特征数据的筛选方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011046732.6A CN112115369B (zh) 2020-09-29 2020-09-29 特征数据的筛选方法、装置、电子设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN112115369A CN112115369A (zh) 2020-12-22
CN112115369B true CN112115369B (zh) 2023-08-18

Family

ID=73797718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011046732.6A Active CN112115369B (zh) 2020-09-29 2020-09-29 特征数据的筛选方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112115369B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319975A (zh) * 2018-01-24 2018-07-24 北京墨丘科技有限公司 数据识别方法、装置、电子设备及计算机可读存储介质
CN109740792A (zh) * 2018-11-29 2019-05-10 深圳市元征科技股份有限公司 数据预测方法、系统、终端及计算机存储介质
CN110378487A (zh) * 2019-07-18 2019-10-25 深圳前海微众银行股份有限公司 横向联邦学习中模型参数验证方法、装置、设备及介质
CN110457675A (zh) * 2019-06-26 2019-11-15 平安科技(深圳)有限公司 预测模型训练方法、装置、存储介质及计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3088899C (en) * 2018-01-22 2021-04-06 Jack Copper Systems and methods for preparing data for use by machine learning algorithms

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319975A (zh) * 2018-01-24 2018-07-24 北京墨丘科技有限公司 数据识别方法、装置、电子设备及计算机可读存储介质
CN109740792A (zh) * 2018-11-29 2019-05-10 深圳市元征科技股份有限公司 数据预测方法、系统、终端及计算机存储介质
CN110457675A (zh) * 2019-06-26 2019-11-15 平安科技(深圳)有限公司 预测模型训练方法、装置、存储介质及计算机设备
CN110378487A (zh) * 2019-07-18 2019-10-25 深圳前海微众银行股份有限公司 横向联邦学习中模型参数验证方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于特征工程的广告点击转化率预测模型;邓秀勤;谢伟欢;刘富春;张翼飞;樊娟;;数据采集与处理(第05期);全文 *

Also Published As

Publication number Publication date
CN112115369A (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
US20170300546A1 (en) Method and Apparatus for Data Processing in Data Modeling
CN110276409A (zh) 一种时间序列异常检测方法、装置、服务器和存储介质
CN110659744A (zh) 训练事件预测模型、评估操作事件的方法及装置
CN109685537B (zh) 用户行为的分析方法、装置、介质和电子设备
CN112200392B (zh) 业务预测方法及装置
CN105678395B (zh) 神经网络的建立方法及系统和神经网络的应用方法及系统
CN111967964A (zh) 银行客户端网点的智能推荐方法及装置
CN111724370A (zh) 一种基于不确定性和概率的多任务无参考图像质量评估方法及系统
CN111967948A (zh) 一种银行产品推荐方法、装置、服务器及存储介质
CN112801231B (zh) 用于业务对象分类的决策模型训练方法和装置
CN111047197A (zh) 一种战略攻守决策评估方法及装置
CN112115369B (zh) 特征数据的筛选方法、装置、电子设备及计算机存储介质
CN111445025B (zh) 确定业务模型超参数的方法和装置
CN113077271A (zh) 一种基于bp神经网络的企业信用评级方法及装置
CN112348808A (zh) 屏幕透图检测方法及装置
CN111160647A (zh) 一种洗钱行为预测方法及装置
CN114862092A (zh) 一种基于神经网络的评标方法及设备
US20090259614A1 (en) Method and expert system for valuating an object
CN113222843A (zh) 一种图像修复方法及其相关设备
CN114514539A (zh) 剪枝模块的确定方法、装置及计算机可读存储介质
CN111506753A (zh) 推荐方法、装置、电子设备及可读存储介质
CN112738098A (zh) 一种基于网络行为数据的异常检测方法及装置
CN112232945A (zh) 一种确定个人客户授信的方法及装置
CN115329968B (zh) 确定量子机器学习算法公平性的方法、系统和电子设备
CN111061968B (zh) 排序方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant