CN106095942A

CN106095942A - 强变量提取方法及装置

Info

Publication number: CN106095942A
Application number: CN201610416751.0A
Authority: CN
Inventors: 刘志斌; 陈培炫; 陈谦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-06-12
Filing date: 2016-06-12
Publication date: 2016-11-09
Anticipated expiration: 2036-06-12
Also published as: CN106095942B

Abstract

本发明公开了一种强变量提取方法及装置；方法包括：基于基础变量池中的基础变量构造强变量，形成用于第k轮迭代训练的强变量候选集；基于所述强变量候选集对特征筛选模型进行第k轮迭代训练，k为取值依次增大的正整数，且k取值满足k≥1；将所述特征筛选模型输出的特征并入到入选特征集合，所述输出的特征为对所述特征筛选模型进行第k轮迭代训练后在所述强变量候选集中提取的强变量；基于第k轮迭代训练后所述特征筛选模型的残差确定需要对所述特征筛选模型进行第k+1轮迭代训练；筛除所述基础变量池中用于构造所述入选特征集合中的特征所使用的基础变量。实施本发明，能够从弱变量中有效提取强变量。

Description

强变量提取方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种强变量提取方法及装置。

背景技术

大数据时代的数据挖掘系统，常要面临数量庞大、种类丰富的各种数据的筛选、处理和建模任务。通常情况下绝大多数的数据与待解决的目标问题或目标变量之间的直接相关性较弱，并且还存在大量数据之间互为冗余的情况，造成数据量大但有用信息少的情况。

对于大数据挖掘系统，如何从众多弱变量中提取出强变量从而能够从大量无用信息中提取出有用信息，相关技术尚无有效解决方案。

发明内容

本发明为至少解决相关技术存在的上述问题而提供一种强变量提取方法及装置。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种强变量提取方法，所述方法包括：

基于基础变量池中的基础变量构造强变量，形成用于第k轮迭代训练的强变量候选集；

基于所述强变量候选集对特征筛选模型进行第k轮迭代训练，k为取值依次增大的正整数，且k取值满足k≥1；

将所述特征筛选模型输出的特征并入到入选特征集合，所述输出的特征为对所述特征筛选模型进行第k轮迭代训练后所述特征筛选模型在所述强变量候选集中提取的强变量；

基于第k轮迭代训练后所述特征筛选模型的残差确定需要对所述特征筛选模型进行第k+1轮迭代训练；

筛除所述基础变量池中用于构造所述入选特征集合中的特征所使用的基础变量。

可选地，所述基于基础变量池中的基础变量构造强变量，形成强变量候选集，包括：

对第k-1轮迭代处理后所述基础变量池中剩余的基础变量采用特征构造、特征变换和特征衍生至少之一的构造方式构造强变量，基于构造的所述强变量形成用于第k轮迭代训练的强变量候选集，k取值满足k﹥1。

可选地，所述基于构造的所述强变量形成所述强变量候选集，包括：

基于构造的所述强变量、以及第k-1轮迭代训练的剩余强变量结合形成用于第k轮迭代训练的强变量候选集；

其中，所述第k-1轮迭代处理的剩余强变量为用于第k-1轮迭代训练的所述强变量候选集中未被所述特征筛选模型提取的强变量。

可选地，所述基于第k轮迭代训练后所述特征筛选模型的残差确定需要对所述特征筛选模型进行第k+1轮迭代训练，包括：

若第k轮迭代训练后所述特征筛选模型对测试数据集的输出结果与参考输出结果之间的残差统计指标未满足要求，则确定需要对所述特征筛选模型进行第k+1轮迭代训练。

可选地，所述方法还包括：

若第k轮迭代训练后所述特征筛选模型对测试数据集的输出结果与参考输出结果之间的残差统计指标满足要求，则停止对所述特征筛选模型的迭代训练。

可选地，所述第k轮迭代训练所使用的特征筛选模型与所述第k+1轮迭代训练所使用的特征筛选模型相同。

可选地，用于所述第k轮迭代训练的强变量候选集中所述强变量的构造方式，不同于所述第k+1轮迭代训练的强变量候选集中所述强变量的构造方式；

所述第k轮迭代训练所使用的特征筛选模型，不同于所述第k+1轮迭代训练所使用的特征筛选模型。

可选地，所述方法还包括：

基于第k轮迭代训练后所述特征筛选模型的残差确定不需要对所述特征筛选模型进行第k+1轮迭代训练，输出第k轮迭代训练的结果。

第二方面，本发明实施例提供一种强变量提取装置，所述装置包括：

构造模块，用于基于基础变量池中的基础变量构造强变量，形成用于第k轮迭代训练的强变量候选集；

特征筛选模块，用于基于所述强变量候选集对特征筛选模型进行第k轮迭代训练，k为取值依次增大的正整数，且k取值满足k≥1；

所述特征筛选模块，还用于将所述特征筛选模型输出的特征并入到入选特征集合，所述输出的特征为对所述特征筛选模型进行第k轮迭代训练后所述特征筛选模型在所述强变量候选集中提取的强变量；

所述特征筛选模块，还用于基于第k轮迭代训练后所述特征筛选模型的残差确定需要对所述特征筛选模型进行第k+1轮迭代训练；

所述特征筛选模块，还用于筛除所述基础变量池中用于构造所述入选特征集合中的特征所使用的基础变量。

可选地，所述构造模块，还用于对第k-1轮迭代处理后所述基础变量池中剩余的基础变量采用特征构造、特征变换和特征衍生至少之一的构造方式构造强变量，基于构造的所述强变量形成用于第k轮迭代训练的强变量候选集，k取值满足k﹥1。

可选地，所述构造模块，还用于基于构造的所述强变量、以及第k-1轮迭代训练的剩余强变量结合形成用于第k轮迭代训练的强变量候选集；

可选地，所述特征筛选模块，还用于若第k轮迭代训练后所述特征筛选模型对测试数据集的输出结果与参考输出结果之间的残差统计指标未满足要求，则确定需要对所述特征筛选模型进行第k+1轮迭代训练。

可选地，所述特征筛选模块，还用于若第k轮迭代训练后所述特征筛选模型对测试数据集的输出结果与参考输出结果之间的残差统计指标满足要求，则停止对所述特征筛选模型的迭代训练。

可选地，所述装置包括的所述构造模块与所述特征筛选模块的数量均为一个，所述特征筛选模块进行第k轮迭代训练所使用的特征筛选模型与进行第k+1轮迭代训练所使用的特征筛选模型相同。

可选地，所述装置包括至少两个所述特征筛选模块以及至少两个所述构造模块，所述至少两个特征筛选模块使用的特征筛选模型不同；其中，

第k组合与第k+1组合级联，所述第k组合为第k构造模块与第k特征筛选模块组合形成，所述第k+1组合为第k+1构造模块与第k+1特征筛选模块组合形成；

所述第k构造模块构造所述强变量的构造方式，所述不同于第k+1构造模块构造所述强变量的构造方式。

可选地，所述特征筛选模块，还用于基于第k轮迭代训练后所述特征筛选模型的残差确定不需要对所述特征筛选模型进行第k+1轮迭代训练，输出第k轮迭代训练的结果。

本发明具有以下有益效果：

1)具有显式的特征提取和强变量的构造过程，与特征筛选模型的学习训练过程融为一个整体的闭环流程，使得特征筛选模型每一轮迭代的结果(如利用入选特征集合中的特征更新基础变量池)可以反馈去指导下一轮的强变量构造和特征选择，实现强变量提取的自动优化。

2)对基础变量构造用于训练的强变量候选集，每一轮迭代中都将特征入选特征集合，实现将最有用的信息提纯(变换)并保留的效果。

3)节约了各种计算、存储和带宽等资源，显著地节省了训练模型和使用模型进行预测等环节所消耗的时间，极大地节约了维护成本，且支持后期对运维成本进行灵活、弹性的优化。

附图说明

图1是本发明实施例中强变量提取装置的一个可选的硬件结构示意图；

图2是本发明实施例中强变量提取的一个可选的架构示意图；

图3是本发明实施例中强变量提取方法的一个可选的流程示意图；

图4是本发明实施例中强变量提取方法的一个可选的流程示意图；

图5是本发明实施例中强变量提取方法的另一个可选的流程示意图；

图6是本发明实施例中强变量提取的另一个可选的架构示意图；

图7是本发明实施例中强变量提取方法的又一个可选的流程示意图；

图8是本发明实施例中强变量提取方法的再一个可选的流程示意图；

图9是本发明实施例中强变量提取装置的一个可选的结构示意图；

图10是本发明实施例中强变量提取装置的另一个可选的结构示意图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所提供的实施例仅仅用以解释本发明，并不用于限定本发明。另外，以下所提供的实施例是用于实施本发明的部分实施例，而非提供实施本发明的全部实施例，在不冲突的情况下，本发明实施例记载的技术方案可以任意组合的方式实施。

对本发明进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)变量：统计学中说明现象某种属性和特征的名称，它包括标志和指标。变量可分为类别变量和数值变量。变量可以是定性的也可以是定量的，变量也可分为离散变量和连续变量。这里的变量可以是一维的或多维的向量。

2)弱变量：可以采集到的数据、或可以人工构造的指标，对于所要解决的目标问题的鉴别能力较弱或者预测能力较弱，或者它们与目标变量的直接相关性较弱。

3)强变量：可以采集到的数据、或可以人工构造的指标，对于所要解决的目标问题的鉴别能力较(弱变量)强或者预测能力较(弱变量)强，或者与目标变量的直接相关性较(弱变量)强。

4)Apps：狭义上通常指移动设备(例如智能手机)上的应用软件，本发明实施例中也泛指一切计算机设备(含PC、移动终端、云计算服务器平台等)上除操作系统之外的一切应用软件及其子软件(例如插件)。

本发明实施例可提供为强变量提取方法以及强变量提取装置，实际应用中，强变量提取装置中的各功能模块可以由设备(如终端设备、服务器或服务器集群)的硬件资源，如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)协同实现。图1示例性示出了设备10的一个可选的硬件结构示意图，包括处理器11、输入/输出接口13(例如显示器、键盘、触摸屏、扬声器麦克风中的一个或多个)，存储介质14以及网络接口12，组件可以经系统总线15连接通信。

当然，本发明实施例不局限于提供为方法和硬件，还可有多种实现方式，例如提供为存储介质(存储有用于执行本发明实施例提供的强变量提取方法的指令)，以下再对不同的实现方式举例说明。

一、移动端应用程序及模块

本发明实施例可提供为使用C/C++、Java等编程语言设计的软件模块，嵌入到基于Android或iOS等系统的各种移动端Apps中(例如微信等)(以可执行指令的存储在移动端的存储介质中，由移动端的处理器执行)，从而直接使用移动端自身的计算资源完成相关的数据挖掘任务，并且定期或不定期地通过各种网络通信方式将数据、中间结果或最终结果传送给远程的服务器，或者在移动端本地保存。

二、服务器应用程序及平台

本发明实施例可提供使用C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块，运行于服务器端(以可执行指令的方式在服务器端的存储介质中存储，并由服务器端的处理器运行)，将接收到的来自其它设备的各种原始数据、各级中间数据和最终结果中的至少一种，与服务器上已有的某些数据或结果综合起来计算得到更新的结果，然后实时或非实时地输出给其他应用程序或模块使用，也可以写入服务器端数据库或文件进行存储。

本发明实施例还可以提供为在多台服务器构成的分布式、并行计算平台上，搭载定制的、易于交互的网络(Web)界面或其他各用户界面(UI，User Interface)，形成供个人、群体或企业使用的数据挖掘平台和信用评估平台(用于评估用户的信用)等。使用者可以将已有的数据包批量上传给此平台以获得各种计算结果，也可以将实时的数据流传输给此平台来实时计算和刷新各级结果。

三、服务器端应用程序接口(API，Application Program Interface)及插件

本发明实施例可提供为实现服务器端的API、软件开发套件(SDK，SoftwareDevelopment Toolkit)或插件，供其他的服务器端应用程序开发人员调用，并嵌入到各类应用程序中。

四、移动设备客户端API及插件

本发明实施例还可提供为移动设备端的API、SDK或插件，供其他的移动端应用程序开发人员调用，并嵌入到各类应用程序中。

五、云端开放服务

本发明实施例可提供为地理位置信息挖掘平台及信用评估平台，本发明实施例还可提供为地理位置信息挖掘平台及信用评估平台的API、SDK及插件等，打包封装成可供企业内外人员开放使用的云服务，或者将各种结果(中间结果以及信用评分的最终结果)以适当形式展示在各种终端显示设备上，供个人、群体或企事业单位查询。

试对本发明实施例提供的强变量提取方法及装置能够适用应用场景进行举例说明，当然不局限于以下所给出的场景示例。

场景1)数据挖掘：从用户的各种行为日志、广告物料的文本描述等海量数据(每一项都是弱变量)中提取有效的、具有强预测力的信息(强变量)。各种电商网站的商品推荐系统，需要从用户的搜索、收藏、浏览和评论行为，以及商品的各种描述，商家的交易历史等海量数据(弱变量)中挖掘有价值的信息，预测当前用户潜在可能对哪些商品感兴趣(强变量)并推荐给该用户。

场景2)信用评估：从用户的各种数据如交易记录、信贷记录、银行流水、职业信息、收入信息以及社交网络应用(例如微信等)上的相关信息(弱变量)中提取出能够反映用户的还款能力、还款意愿的信息(强变量)等用于评定用户的信用评分(或信用等级)的信息。

参见图2示出的强变量提取的一个可选的架构示意图，图2以使用同一特征筛选模型(带有特征筛选机制的分类或回归模型，本发明实施例中也称为特征筛选模型)进行迭代训练(如第1轮迭代训练、第2轮迭代训练……，以此类推)以提取强变量为例进行说明，与图2对应，图3示出了基于图2示出的强变量提取的一个可选的架构示意图中进行第1轮迭代的一个可选的流程示意图，包括以下步骤：

步骤101，基于基础变量池中的基础变量构造强变量，形成用于第1轮迭代训练的强变量候选集。

在一个实施例中，仅基于基础变量池中的基础变量构造得到强变量，基于所构造的强变量形成用于对特征筛选模型进行第1次迭代训练所使用的强变量候选集。示例性地，强变量的构造方式可以采用特征构造、特征变换和特征衍生至少之一，本发明实施例中不限于此。

步骤102，基于强变量候选集对特征筛选模型进行第1轮迭代训练。

示例性地，以强变量候选集中的各强变量作为训练样本对特征筛选模型进行训练，使特征筛选模型基于强变量进行学习而具有选取强变量的特性。

步骤103，将特征筛选模型输出的特征并入入选特征集合。

示例性地，输出的特征为对特征筛选模型进行第1轮迭代训练后，特征筛选模型在强变量候选集中提取的强变量。可选地，在进行第1轮迭代训练之前入选特征集合为空集，入选特征集合中的特征随后续迭代训练的累积而逐渐丰富。

步骤104，基于第1轮迭代训练后特征筛选模型的残差，判断是否需要对特征筛选模型进行第2轮迭代训练，如需要，则执行步骤105；否则，执行步骤106。

示例性地，若第1轮迭代训练后特征筛选模型对测试数据集的输出结果与参考输出结果y之间的残差统计指标z未满足要求，则确定需要对特征筛选模型进行第2轮迭代训练；若满足要求，确定不需要对特征筛选模型进行第2轮迭代训练。

步骤105，筛除基础变量池中用于构造入选特征集合中的特征所使用的基础变量。

示例性地，入选特征集合中的特征是对特征筛选模型进行第1轮迭代训练后，由特征筛选模型从强变量候选集(用于对特征筛选模型进行第1轮迭代训练)中提取(选中)的强变量；相应地，在基础变量池中筛除用于构造入选特征集合中的特征所使用的基础变量，实现对基础变量池的更新。

步骤106，停止迭代训练，输出第1轮迭代训练的结果。

示例性地，可以输出入选特征集合中的特征、对应的基础变量(基础变量池中用于构建特征的基础变量)、特征筛选模型的模型参数，或者根据不同应用的需求，在迭代过程中需要关注的任意的中间结果或结果。

与图2对应，图4示出了基于图2示出的强变量提取的一个可选的架构示意图进行第k轮(k﹥2)迭代的一个可选的流程示意图，直至，在进行第k轮迭代后，特征筛选模型对测验数据集的输出结果与参考输出结果之间的残差统计指标符合残差要求。

步骤201，基于基础变量池中的基础变量构造强变量，形成用于第k轮迭代训练的强变量候选集。

在一个实施例中，仅基于在第k-1轮迭代中更新的基础变量池(已经筛除基础变量池中用于构造第k-1轮迭代处理后入选特征集合中特征的基础变量)中的变量构造得到强变量，基于所构造的强变量形成用于对特征筛选模型进行第k轮迭代训练所使用的强变量候选集。

在另一个实施例中，基于在第k-1轮迭代中更新的基础变量池(已经筛除基础变量池中用于构造第k-1轮迭代处理后入选特征集合中特征的基础变量)中的基础变量构造得到强变量，并结合第k-1轮迭代训练的剩余强变量形成用于第k轮迭代训练的强变量候选集；第k-1轮迭代处理的剩余强变量为用于第k-1轮迭代训练的强变量候选集中未被特征筛选模型(也就是进行第k-1轮迭代训练后的特征筛选模型)提取(作为特征)的强变量。

需要指出的是，用于第k-1轮迭代训练的强变量候选集中强变量的构造方式，与第k轮迭代训练的强变量候选集中强变量的构造方式可以相同，也可以不同，本发明实施例中不限于此，可以根据实际情况灵活处理。

步骤202，基于强变量候选集对特征筛选模型进行第k轮迭代训练。

步骤203，将特征筛选模型输出的特征并入入选特征集合。

示例性地，输出的特征为对特征筛选模型进行第k轮迭代训练后，在强变量候选集中提取的强变量，相应地，入选特征集合中包括特征筛选模型进行第1至k次迭代训练后，在强变量候选集中提取的强变量。

步骤204，基于第k轮迭代训练后特征筛选模型的残差，判断是否需要对特征筛选模型进行第k+1轮迭代训练，如需要，则执行步骤205并返回步骤201进行第k+1轮迭代；否则，执行步骤206。

示例性地，若第k轮迭代训练后特征筛选模型对测试数据集的输出结果与参考输出结果之间的残差统计指标未满足要求，则确定需要对特征筛选模型进行第k+1轮迭代训练；否则，确定不需要对特征筛选模型进行第k+1轮迭代训练。

步骤205，筛除基础变量池中用于构造入选特征集合中的特征所使用的基础变量。

示例性地，在进行第k轮迭代后入选特征集合中的特征包括：对特征筛选模型进行第1轮至第k轮迭代训练后特征筛选模型从强变量候选集中提取(选中)的强变量；相应地，在基础变量池中筛除用于构造第k轮迭代后入选特征集合中的特征所使用的基础变量，实现对基础变量池的再次更新。

步骤206，停止迭代训练，输出第k轮迭代训练的结果。

在图2中，初始训练特征筛选模型时，入选特征集合为空集，特征变换与特征构造可以采用证据权重(WOE，Weight of Evidence)变换、对数变换等各种特征变换、特征构造和特征衍生方法中的至少一个，本发明实施例中不限于此，基于基础变量池构造并筛选出若干强变量形成强变量候选集，然后输送给带特征筛选机制的分类或回归模型(简称为上述的特征筛选模型，本发明实施例中对分类或回归模型的类型不限于此)进行学习和训练。

特征筛选模型从强变量候选集所挑选出的特征加入到入选特征集合，同时检验特征筛选模型模型对测试数据集(用于测试模型的已知的样本)上的输出结果与参考输出结果(用于测试模型的已知的样本的标签如类别标签或某种数值)之间的残差：1)若在整个测试数据集上的残差统计指标满足要求，则不再进行下一轮迭代；2)若残差统计指标不满足要求，则从基础变量池中除去为构造入选特征集合中的特征已经使用的基础变量，然后进行下一轮的迭代。

作为一个示例，对图2中特征变化与构造采用基于矩阵变换+主成分分析(PCA，Principal Component Analysis)时，对提取强变量的处理进行说明，

在本示例中，采用的特征筛选模型为带特征筛选机制的分类或回归模型，起其中分类或回归模型中采用LASSO逻辑回归、带前向-后向选择的逻辑回归、或基于变量显著性检验与挑选的逻辑回归算法，简记为LR模型。

参见图5示出的在本示例中提取强变量的一个可选的流程示意图，包括如下步骤：

步骤301，对LR模型进行迭代之前，计算基础变量池中所有变量的相关性矩阵R。

相关性矩阵R的第i行j列元素R_ij表示第i个基础变量与第j个基础变量之间的相关系数(任何一种数学上定义的相关系数均可，这里以皮尔逊相关系数为例)。

步骤302，对相关性矩阵R进行变换。

在第k(k为取值依次增大的正整数，且k取值满足k≥1)轮迭代时，记入选特征集合中所涉及的基础变量集合为C，通过对矩阵R进行行列变换(等价变换)使得R的左上角(记作分块矩阵A)对应着集合C中的基础变量，而R的右下角(记作分块矩阵L)对应着未入选的基础变量，记此时的矩阵R为如下形式：

R = [\begin{matrix} A & U \\ W & L \end{matrix}]

步骤303，基于相关性矩阵R得到一个列数不变的行向量u。

对相关性矩阵R的右上角矩阵块U，按列进行最大池化(max-pooling)，得到一个列数不变的行向量u，如下：

u＝[u₁ u₂ …]

U＝[U₁ U₂ …]

有u_i＝max(U_i)

示例性地，基于列数不变的行向量u构造强变量并对LR模型进行第k(k为取值依次增大的正整数，且k取值满足k≥1)轮训练有以下几种方式：

步骤304，基于列数不变的行向量u构造强变量，对LR模型进行第k迭代训练。

示例性地，包括以下两种方式：

构造强变量方式1)：对向量u按照元素值的大小，由小到大排列，挑选值最小的前m个元素对应的基础变量，将前m个元素对应的基础变量进行PCA变换得到组合特征，将组合特征传送给LR模型进行第k轮迭代训练。

构造强变量方式2)：对向量u中值小于某个设定阈值δ的所有元素挑选出来，将挑选出的元素对应的基础变量进行PCA变换得到组合特征，将组合特征传送给LR模型进行第k轮跌迭代训练。

步骤305，基于第k轮迭代后LR模型的残差判断是否需要进行第k+1轮迭代，若需要则返回步骤301进行第k+1轮迭代；否则，执行步骤306。

若第k轮迭代后LR模型的输出残差统计指标仍比较大(也即超出残差统计指标，或者残差统计指标不满足预定要求)，则把第k轮迭代中被模型入选的特征加入到入选特征集合中，然后回到步骤301开始第k+1轮迭代

步骤306，停止迭代，输出第k轮迭代的相关结果。

若第k轮迭代完成后，LR模型的输出残差统计指标足够小(也即残差统计指标小于残差统计指标阈值，或者残差统计指标满足预定要求)，则停止迭代，并输出相关结果：如入选特征集合的特征以及在基础变量池中对应的变量；LR模型的模型参数。另外，输出的结果还可以是根据不同应用的需求，在迭代过程中的任意中间结果。

图2示出的提取强变量方法的实现示意图中只使用一个带特征筛选机制的分类或回归模型，可以称为单模型迭代(Single-Model WTSboost，简称SM-WTSboost)方法。这样的方法设计实现简单、易于操作实施，会直接得到一个固定的模型，以及所有入选特征的相对重要性(直接可比)(例如逻辑回归模型中，各个变量的权值，就是代表重要性)。

发明人在实施本发明的过程中发现，图2示出提取强变量的架构存在以下问题：

1)每一轮的特征选择都会跟之前已经入选的特征进行一定程度上的竞争。

所谓竞争是指：后加入入选特征集合的新特征，都要与先加入入选特征集合中的特征进行比较(这个比较工作时模型的算法自动完成)，例如如果与特征筛选模型中已提取的特征相关系数很大，则代表新特征包含的信息冗余，那么新特征可能就不会被加入进来。这可能造成在后续迭代过程中越来越难以挑选出有价值的强变量。

2)带特征筛选机制的分类或回归模型在每一轮迭代中并没有将所有计算资源集中在每一轮的残差空间，效率尚有提升空间。

3)通常一个固定的、设计好的带特征筛选机制的分类或回归模型对于解决残差空间中的细致优化问题并不一定有效，最佳的方式是使用最合适的模型来对每一轮的残差空间进行寻优，如此才可提升整个系统的性能和效果。

针对图6示出的强变量提取方式存在的上述问题，参见图7示出的强变量提取的另一个可选的架构示意图，在图7中，使用k(此时k取值满足k＞2)个不同的特征筛选模型进行k轮迭代，其中每轮迭代基于基础变量池中的基础变量构造强变量的方式不同，例如，在图6中，第1轮迭代使用特征变换与特征构造方式1、第2轮迭代使用特征变换与特征构造方式2，第k轮迭代使用特征变换与特征构造方式n)，并且，k个特征筛选模型的特征筛选方式不同，实际应用中特征筛选方式可以使用不同的算法或算法的组合，本发明实施例中不限于此。

这样，特征变换与特征构造方式1、特征筛选模型1构成一个迭代处理的组合，本发明实施例中称为第1元模组(第1组合)，特征变换与特征构造方式2、特征筛选模型2构成与元模组级联的第2元模组(第2组合)，从而构成k个级联的元模组(组合)。由于使用多个带特征筛选机制的分类或回归模型的组合的级联，也称为多模型迭代(Multi-Model WTSboost，简称MM-WTSboost)方法。每一个元模组中的特征变换和特征构造方式会在之前各级均未入选(上一个级联的组合在基础变量池中未选出作为特征)的基础变量中进行筛选和构造强变量，从而在上一级残差空间中集中计算资源进行挖掘。借助各个元模组中不同特征筛选模型算法的优势，逐步挖掘弱变量的表征能力。

每个元模组包含区别于其他元模组的特征变换与特征构造方式、以及区别于其他元模组的特征筛选机制的分类或回归模型，各个元模组的特征变换与特征构造方法、以及带特征筛选机制的分类或回归模型可选用不同的算法及其组合，使得第k级的元模组仅对第k-1级元模组的输出残差空间进行建模寻优。

以下对基于元模组1进行第1轮迭代的处理进行说明，参见图7，基于图6示出的强变量提取的一个可选的架构示意图进行第1轮迭代的处理包括以下步骤：

步骤401，基于基础变量池中的基础变量，采用特征变换与特征构造方式1构造强变量，形成用于第1轮迭代训练的强变量候选集。

步骤402，基于强变量候选集对特征筛选模型1进行第1轮迭代训练。

步骤403，将特征筛选模型1输出的特征并入入选特征集合。

输出的特征为对特征筛选模型1进行第1轮迭代训练后，在强变量候选集中提取的强变量。

步骤404，基于第1轮迭代训练后特征筛选模型1的残差，判断是否需要对特征筛选模型2进行第2轮迭代训练，如需要，则执行步骤405；否则，执行步骤406。

步骤405，筛除基础变量池中用于构造入选特征集合中的特征所使用的基础变量。

步骤406，停止迭代训练，输出第1轮迭代训练的结果。

示例性地，第1轮迭代训练的结果包括入选特征集合中的特征以及对应的基础变量；特征筛选模型1的模型参数，或者根据不同应用的需求，在迭代过程中的任意中间结果；输出所关注的结果或中间结果。

以下对基于元模组k进行第k(k﹥1)轮迭代的处理进行说明，直至，在对特征筛选模型进行第k轮迭代训练后，特征筛选模型对测验数据集的输出结果与参考输出结果之间的残差统计指标符合残差要求。

参见图8，基于图6示出的强变量提取的一个可选的架构示意图进行第k轮迭代的处理包括以下步骤：

步骤501，采用特征变换与特征构造方式k对基础变量池中的基础变量构造强变量，形成用于第k轮迭代训练的强变量候选集。

基于第k-1轮迭代中更新的基础变量池(已经筛除基础变量池中用于构造第k-1轮迭代处理后入选特征集合中特征的基础变量)中的变量构造得到强变量，基于所构造的强变量形成用于对特征筛选模型进行第k轮迭代训练所使用的强变量候选集；或者，还可以结合所构造的强变量、第k-1轮迭代训练的剩余强变量形成用于第k轮迭代训练的强变量候选集；第k-1轮迭代处理的剩余强变量为用于第k-1轮迭代训练的强变量候选集中未被特征筛选模型提取(作为特征)的强变量。

步骤502，基于强变量候选集对特征筛选模型k进行第k轮迭代训练。

步骤503，将特征筛选模型k输出的特征并入入选特征集合。

步骤504，基于第k轮迭代训练后特征筛选模型的残差，判断是否需要对特征筛选模型k+1进行第k+1轮迭代训练，如需要，则执行步骤505并返回步骤501进行第k+1轮迭代；否则，执行步骤506。

步骤505，筛除基础变量池中用于构造入选特征集合中的特征所使用的基础变量。

步骤506，停止迭代训练，输出第k轮迭代训练的结果。

如入选的特征，如所有入选的特征、各个特征筛选模型入选的特征、以及对应的基础变量；还有各个特征筛选模型的模型参数。或者根据不同应用的需求，在迭代过程中的任意中间结果；输出所关注的结果或中间结果。

与前述的单模型迭代方法对应，对本发明实施例提供的用于实施单模型迭代方法的强变量提取装置的结构进行说明，参见图9示出的强变量提取装置的一个可选的结构示意图，包括一个构造模块81和一个特征筛选模块82，在各次迭代处理中特征筛选模块82进行迭代所使用的特征筛选模型相同。以下对各模块进行说明。

构造模块81基于基础变量池中的基础变量构造强变量，形成用于第k轮迭代训练的强变量候选集；在一个实施例中，采用这样的方式形成强变量候选集，对第k-1轮迭代处理后基础变量池中剩余的基础变量执行特征构造、特征变换和特征衍生至少之一的构造方式构造强变量，基于构造的强变量形成用于第k轮迭代训练的强变量候选集，k取值满足k﹥1；

特征筛选模块82基于强变量候选集对特征筛选模型进行第k轮迭代训练，k为取值依次增大的正整数，且k取值满足k≥1；将特征筛选模型输出的特征并入到入选特征集合，输出的特征为对特征筛选模型进行第k轮迭代训练后在强变量候选集中提取的强变量；基于第k轮迭代训练后特征筛选模型的残差确定是否需要对特征筛选模型进行第k+1轮迭代训练。

在一个实施例中，采用这样的方式确定是否需要对特征筛选模型进行第k+1轮迭代训练并进行对应处理：

1)若第k轮迭代训练后特征筛选模型对测试数据集的输出结果与参考输出结果y之间的残差z统计指标未满足要求，则确定需要对特征筛选模型进行第k+1轮迭代训练；筛除基础变量池中用于构造入选特征集合中的特征所使用的基础变量；

2)若第k轮迭代训练后特征筛选模型对测试数据集的输出结果与参考输出结果之间的残差统计指标满足要求，则停止对特征筛选模型的迭代训练，输出第k轮迭代训练的结果。

与前述的单模型迭代方法对应，对本发明实施例提供的用于实施多模型迭代方法的强变量提取装置的结构进行说明，参见图10示出的强变量提取装置的一个可选的结构示意图，强变量提取装置包括至少两个特征筛选模块以及至少两个构造模块，至少两个特征筛选模块使用的特征筛选模型不同；第k(k≥1)构造模块91k与第k特征筛选模块92k组合形成的第k组合、与第k+1构造模块、第k+1特征筛选模块组合形成的第k+1组合级联。

另外，第k构造模块构造强变量的构造方式，不同于第k+1构造模块构造强变量的构造方式。在每次迭代处理中仅由一个组合进行迭代，例如在第k轮迭代中，由第k特征筛选模块92k利用第k构造模块91k构造的强变量候选集，对第k特征筛选模型(也记为特征筛选模型k)进行迭代训练。

以下对第k轮迭代的处理进行说明。

第k构造模块91k基于基础变量池中的基础变量构造强变量，形成用于第k轮迭代训练的强变量候选集。

在一个实施例中，第k构造模块91k可以基于构造的强变量、以及第k-1轮迭代训练的剩余强变量结合形成用于第k轮迭代训练的强变量候选集；其中，第k-1轮迭代处理的剩余强变量为用于第k-1轮迭代训练的强变量候选集中未被特征筛选模型k-1提取的强变量。

在一个实施例中，第k特征筛选模块92k基于强变量候选集对特征筛选模型k进行第k轮迭代训练，并将特征筛选模型k输出的特征并入到入选特征集合，输出的特征为对特征筛选模型k进行第k轮迭代训练后特征筛选模型k在强变量候选集中提取的强变量。

在一个实施例中，第k特征筛选模块92k基于第k轮迭代训练后特征筛选模型1的残差，确定是否需要第k+1特征筛选模块对特征筛选模型k+1进行第k+1轮迭代训练，示例性地，采用如下方式：

1)若第k轮迭代训练后特征筛选模型k对测试数据集的输出结果与参考输出结果之间的残差统计指标未满足要求，则确定第k+1特征筛选模块对特征筛选模型k+1进行第k+1轮迭代训练，筛除基础变量池中用于构造入选特征集合中的特征所使用的基础变量，从而实现了对第k+1轮迭代训练中构造强变量所使用的基础变量进行更新的效果。

2)若第k轮迭代训练后特征筛选模型k对测试数据集的输出结果与参考输出结果之间的残差统计指标满足要求，则停止迭代训练并输出结果。示例性地，输出的结果包括：入选特征集合的特征以及在基础变量池中对应的变量；k个特征筛选模型的模型参数。另外，输出的结果还可以是根据不同应用的需求，在迭代过程中的任意中间结果。

结合相关技术对于提取强变量主要提供的显式选择和隐式选择两种方案，下面通过对这两种方案的分析来说明本发明实施例所具有的有益效果。

一、显式选择与构造

显式选择与构造方案，具有明确的特征选择和构造步骤(或过程)，包括各种基于经验和形式化准则的人工筛选、构造及衍生，或算法(程序、软件等)自动筛选、构造及衍生。其中的代表性方法有基于IV值、互信息、相关系数、最小的绝对值收缩和变量选择(LASSO，The Least Absolute Shrinkage and Selectionator Operator)、稀疏化、前向-后向等特征选择方法。

存在的问题是：显式选择与构造方案是基于(专家)经验和规则的人工筛选、构造及衍生的诸多方法，虽然可以融入领域知识，但是难以标准化，不具普适性和推广性，难以封装成产品或服务供广大用户(研发人员及企业等)使用。而且耗费的人力较大，时间周期长。

并且，显式选择与构造方案大都将特征构造和特征筛选两个部分分开。特征构造及衍生通常在建模之初由特定的模块(或人工)单独完成，而特征筛选过程则融入分类或回归模型的训练过程一并进行。算法无法对特征构造阶段形成影响及指导，难以在总体上得到最优化的效果。

二、隐式选择与构造

隐式选择与构造的方案，没有明确的特征选择和构造步骤(或过程)，而是融入在分类或回归模型的训练过程中，由机器学习算法自动完成，也称为“黑箱方式”，且中间过程和中间结果也没有可供输出的、明确意义的特征。这方面的代表性方法有：支持向量机(SVM，Support Vector Machine)、(深度)神经网络和k最近邻(kNN，k-Nearest Neighbor)分类算法。

隐式选择与构造类型的方法存在如下问题：

1)属于“黑箱模型”，无法获得明确、有意义的特征供人们理解、检验，难以形成对所解决的问题及所属领域的深刻认识，无法积累有价值的经验并用以解决到所属领域内的其他问题，或其他相关领域内的相关问题。

2)由于难以从中间过程和中间结果中提取出有意义的特征或规则，所以无法被未来解决当前问题的新方法(或更新、更高级版本的改进算法)使用，也无法提供给其他问题中的类似方法、类似模型所使用，存在“信息不可复用性”的问题。

3)同时，由于无法获知输入给算法(或模型、模块)的诸多变量(或特征)中哪些是比较重要的，哪些是相对次要的，不利于在实践中对那些相对更为重要的变量给予关注并改进数据收集和预处理过程、提高数据精度、减少噪声和误差。

隐式选择与构造类型的方法通常对海量的数据和基础变量没有任何的筛选或剔除，无论有用还是没用的信息都同一输入给模型(或算法、模块)，整个系统需要消耗大量的计算资源、时间和维护成本，且后期难以对运维成本进行优化。

本发明实施例提供的强变量提取方法及装置，结合了显式选择与构造、以及隐式选择与构造两种类型方案的优点，并摒弃了这两种类型方案各自存在的问题：具体而言，有如下的特性和突出优势：

1)具有显式的特征选择和构造过程，与分类或回归模型的学习训练过程融为一个整体的闭环流程，分类或回归模型在每个阶段的性能和结果可以反馈回去指导特征选择和构造过程，实现整个大系统的优化。有效地克服了显式选择与构造类方案的缺陷。

2)在迭代式筛选和构造特征的过程中，每一轮被选择的特征及它们的构造表达式、相关含义等都可以作为中间结果输出。并且可以给出每一批入选的特征在同批次中的相对重要程度，以及它们在所有批次综合衡量的重要程度，有效地克服了隐式选择与构造类技术方案的缺陷。

3)对海量的数据和基础变量有明确的筛选、剔除和变换，每一轮迭代中都优先将最有用的信息提纯(变换)并保留，大大节约了各种计算、存储和带宽等资源，显著地节省了训练模型和使用模型进行预测等环节所消耗的时间，极大地节约了维护成本，且支持后期对运维成本进行灵活、弹性的优化，有效地克服了中隐式选择与构造类技术的缺陷。

本领域的技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储装置、随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器、或者网络装置等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储装置、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种强变量提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于基础变量池中的基础变量构造强变量，形成强变量候选集，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于构造的所述强变量形成所述强变量候选集，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于第k轮迭代训练后所述特征筛选模型的残差确定需要对所述特征筛选模型进行第k+1轮迭代训练，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，

所述第k轮迭代训练所使用的特征筛选模型与所述第k+1轮迭代训练所使用的特征筛选模型相同。

7.根据权利要求1所述的方法，其特征在于，

用于所述第k轮迭代训练的强变量候选集中所述强变量的构造方式，不同于所述第k+1轮迭代训练的强变量候选集中所述强变量的构造方式；

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种强变量提取装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，

所述构造模块，还用于对第k-1轮迭代处理后所述基础变量池中剩余的基础变量采用特征构造、特征变换和特征衍生至少之一的构造方式构造强变量，基于构造的所述强变量形成用于第k轮迭代训练的强变量候选集，k取值满足k﹥1。

11.根据权利要求10所述的装置，其特征在于，

所述构造模块，还用于基于构造的所述强变量、以及第k-1轮迭代训练的剩余强变量结合形成用于第k轮迭代训练的强变量候选集；

12.根据权利要求9所述的装置，其特征在于，

所述特征筛选模块，还用于若第k轮迭代训练后所述特征筛选模型对测试数据集的输出结果与参考输出结果之间的残差统计指标未满足要求，则确定需要对所述特征筛选模型进行第k+1轮迭代训练。

13.根据权利要求9所述的装置，其特征在于，

所述特征筛选模块，还用于若第k轮迭代训练后所述特征筛选模型对测试数据集的输出结果与参考输出结果之间的残差统计指标满足要求，则停止对所述特征筛选模型的迭代训练。

14.根据权利要求9所述的装置，其特征在于，

所述装置包括的所述构造模块与所述特征筛选模块的数量均为一个，所述特征筛选模块进行第k轮迭代训练所使用的特征筛选模型与进行第k+1轮迭代训练所使用的特征筛选模型相同。

15.根据权利要求9所述的装置，其特征在于，

所述装置包括至少两个所述特征筛选模块以及至少两个所述构造模块，所述至少两个特征筛选模块使用的特征筛选模型不同；其中，

16.根据权利要求9所述的装置，其特征在于，

所述特征筛选模块，还用于基于第k轮迭代训练后所述特征筛选模型的残差确定不需要对所述特征筛选模型进行第k+1轮迭代训练，输出第k轮迭代训练的结果。