CN104392096A

CN104392096A - 一种统计方法及装置

Info

Publication number: CN104392096A
Application number: CN201410571222.9A
Authority: CN
Inventors: 徐礼锋; 林启东; 谢元智; 袁静
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-10-23
Filing date: 2014-10-23
Publication date: 2015-03-04

Abstract

本发明公开了一种统计方法及装置，用以统计特征变量在建模过程中所起的作用，为后续建模过程中选取特征变量提供依据，达到提高特征变量选取效率的目的。该方法包括：基于一个以上测试样本数据集合对模型进行多次评估，获得每次评估对应的评估结果，确定所述评估结果达到预设的学习目标的各有效评估；根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果，分别计算得到所述各有效评估各自对应的所述各特征变量各自的特征引用度，根据获得的每个所述有效评估中所述各特征变量各自的特征引用度，计算得到所述各特征变量各自的总引用度，所述总引用度用于表征对应的所述特征变量在模型训练中为达到预设的学习目标所起的作用。

Description

一种统计方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种统计方法及装置。

背景技术

机器学习是指机器通过学习数据得到知识的过程，机器学习以数据变量为信息来源，该数据变量可以采用不同的方式提供。数据变量可以分为具体变量和抽象变量，所谓具体变量是指具有具象特征的变量，例如针对用户特征描述中的年龄、性别、国籍等是具有具象特征的具体变量；所谓抽象变量是指具有抽象特征的变量，不能直接表达具体含义，例如地理经纬度。

对于具体变量，可以直接作为机器学习中模型训练的输入数据。而对于抽象变量，则需要经过转换、特征抽取后才能使用。例如，需要将地理经纬度转换为城市、商圈等现实中有意义的位置信息。

现实世界中大部分可以直接获得的信息都是具有抽象特征的抽象信息，如果期望模型训练得到较好的效果，需要针对学习的目标对大量原始信息进行特征抽取，该特征抽取的过程可以概括为特征工程。实际经验表明，特征工程占了整个建模工作量的70％以上，为了提高特征工程的效率，特征抽取的有效性和复用性就显得较为重要。

在现有的机器学习实践中，提高特征工程效率的做法是依赖于一个特征专家团队，依赖于专家的经验和反复实验，根据最终模型评估结果识别有价值的特征。现有的特征抽取过去依赖专家的经验，工业生成效率较为低下，并且对于新业务，专家的经验难以得到继承，仍然需要进行大量的反复实验。

可见，如何提高特征工程的效率是一个需要解决的问题。

发明内容

本发明实施例提供一种统计方法及装置，用以统计特征变量在建模过程中所起的作用，为后续建模过程中选取特征变量提供依据，达到提高特征变量选取效率的目的。

本发明实施例提供的具体技术方案如下：

第一方面，提供了一种统计方法，包括：

基于一个以上测试样本数据集合对模型进行多次评估，获得每次评估对应的评估结果，确定所述评估结果达到预设的学习目标的各有效评估；

根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果，分别计算得到所述各有效评估各自对应的所述各特征变量各自的特征引用度，根据获得的每个所述有效评估中所述各特征变量各自的特征引用度，计算得到所述各特征变量各自的总引用度，所述总引用度用于表征对应的所述特征变量在模型训练中为达到预设的学习目标所起的作用。

结合第一方面，在第一种可能的实现方式中，计算得到所述各特征变量各自的总引用度后，所述方法还包括：

获取预存的特征变量与总引用度的对应关系，根据计算获得的所述各特征变量各自的总引用度，以及所述对应关系中的所述各特征变量各自的总引用度，计算得到新的总引用度，将所述对应关系中的各所述特征变量的总引用度更新为所述新的总引用度。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述获取预存的特征变量与总引用度的对应关系之前，所述方法还包括：

基于一个以上测试样本数据集合对保存的历史模型进行多次评估，获得每次评估对应的评估结果；

确定所述评估结果达到预设的学习目标的各有效评估；

根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果，分别计算得到所述各有效评估各自对应的所述各特征变量各自的特征引用度；

根据获得的每个所述有效评估中所述各特征变量各自的特征引用度，计算得到所述各特征变量各自的总引用度；

根据计算得到所述各特征变量各自的总引用度，建立所述各特征变量与各自的总引用度的对应关系。

结合第一方面的第一种可能的实现方式，在第三种可能的实现方式中，根据计算获得的所述各特征变量各自的总引用度，以及所述对应关系中的所述各特征变量各自的总引用度，计算得到新的总引用度，包括：

分别计算所述计算获得的所述各特征变量各自的总引用度，与对应的所述对应关系中的所述各特征变量各自的总引用度的和，得到所述各特征变量各自的和值；

将所述各特征变量各自对应的所述和值作为所述各特征变量各自的所述新的总引用度。

结合第一方面至第三种可能的实现方式中的任意一种，在第四种可能的实现方式中，计算获得所述特征变量的特征引用度，包括：

按照公式计算获得所述特征变量的特征引用度；

其中，f_i表示所述特征变量，r(f_i,t)表示所述特征变量的特征引用度，t表示所述预设的学习目标，TP表示一次有效评估中样本数据的特征变量实际为真、评估结果也为真的次数，FP表示一次有效评估中样本数据的特征变量实际为假、评估结果为真的次数，FN表示一次有效评估中样本数据的特征变量实际为真、评估结果为假的次数，TN表示一次有效评估中样本数据的特征变量实际为假、评估结果也为假的次数。

结合第一方面的第一种可能的实现方式，在第五种可能的实现方式中，所述方法还包括：

从所述对应关系中选择所述总引用度大于设定阈值的特征变量；

基于选择的所述特征变量以及预设的训练样本数据集合进行模型训练，建立模型。

第二方面，提供了一种统计装置，包括：

确定模块，用于基于一个以上测试样本数据集合对模型进行多次评估，获得每次评估对应的评估结果，确定所述评估结果达到预设的学习目标的各有效评估；

引用度计算模块，用于根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果，分别计算得到所述各有效评估各自对应的所述各特征变量各自的特征引用度，根据获得的每个所述有效评估中所述各特征变量各自的特征引用度，计算得到所述各特征变量各自的总引用度，所述总引用度用于表征对应的所述特征变量在模型训练中为达到预设的学习目标所起的作用。

结合第二方面，在第一种可能的实现方式中，所述引用度计算模块还用于：

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，还包括预处理模块，用于：

确定所述评估结果达到预设的学习目标的各有效评估；

结合第二方面的第一种可能的实现方式，在第三种可能的实现方式中，所述引用度计算模块具体用于：

结合第二方面至第三种可能的实现方式中的任意一种，在第四种可能的实现方式中，所述引用度计算模块或所述预处理模块具体用于：

按照公式计算获得所述特征变量的特征引用度；

结合第二方面的第一种可能的实现方式，在第五种可能的实现方式中，还包括建模模块，用于：

基于上述技术方案，本发明实施例中，通过将特征变量在模型训练中为达到预设的学习目标所起的作用量化为总引用度，从而能够将专家的经验固化为总引用度，使得在后续建模过程中为特征变量的选择提供依据，避免了人工选择特征变量造成的效率低、稳定性差这一问题，提高了特征变量选择的效率。

附图说明

图1为现有的建模实验过程示意图；

图2为本发明实施例中建模方法流程示意图；

图3为本发明实施例中特征变量与总引用度的对应关系建立过程示意图；

图4为本发明实施例中建模装置的结构示意图；

图5为本发明实施例中建模设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，在一个完整的建模实验过程中，数据分析师从大量原始数据中进行数据预处理和特征变量抽取，根据经验抽取出所有对模型有价值的特征。该过程主要依赖数据分析师对业务的理解和对数据的理解，结合自身的知识和经验完成，也会借鉴其他类似模型中抽取的特征。比如数据分析师曾经在一个类似项目中抽取了某些特征，采用这些特征建立的模型效果得到大幅提升，则在本项目中有些想到可以提取该类特征。

数据分析师从大量可能相关的特征中，根据经验挑选与预设的学习目标强相关的特征进行模型训练和评估，该过程是人工结合特征选择算法的过程，主要依赖于数据分析师的经验。

数据分析师将包含所选择特征的样本按照一定的策略划分为训练样本和测试样本，训练样本用于模型的评估，测试样本用于模型的评估。根据评估结果评估所选择特征与学习目标的相关性，经过反复的特征抽取、选择、训练、评估，直至达到理想效果为止。

本发明的核心思想为：统计特征变量在模型建立过程中的总引用度，该总引用度用于表征该特征变量在该模型建立过程中为达到预设的学习目标所起的作用，总引用度的值越大，其对应所起的作用越大。在后续建模过程中进行特征变量选取时，优先选择对模型所起的作用较大的特征变量，达到避免人为选择特征变量造成的效率低、不稳定的问题。

如图2所示，本发明实施例中，在模型评估过程中统计特征变量的总引用度的详细过程如下：

步骤201：基于一个以上测试样本数据集合对模型进行多次评估，获得每次评估对应的评估结果，确定所述评估结果达到预设的学习目标的各有效评估。

步骤202：根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果，分别计算得到所述各有效评估各自对应的各特征变量各自的特征引用度，根据获得的每个所述有效评估中所述各特征变量各自的特征引用度，计算得到所述各特征变量各自的总引用度，所述总引用度用于表征对应的所述特征变量在模型训练中为达到预设的学习目标所起的作用。

优选地，本发明实施例中，通过总引用度表示特征变量在历史建模中所起的作用大小，总引用度的值越大，表示该特征变量在历史建模中所起的作用越大，在以后的建模中，优先选择总引用度大的特征，可以达到提高本次建模效率的目的。

优选地，计算得到所述各特征变量各自的总引用度后，获取预存的特征变量与总引用度的对应关系，根据计算获得的所述各特征变量各自的总引用度，以及所述对应关系中的所述各特征变量各自的总引用度，计算得到新的总引用度，将所述对应关系中的各所述特征变量的总引用度更新为所述新的总引用度。

该优选地实施方式中，在获取预存的各特征变量与各自的总引用度的对应关系之前，需要建立该对应关系，建立该对应关系的具体过程如下：

确定所述评估结果达到预设的学习目标的各有效评估；

一个具体实施中，为了区分各特征变量，可以为特征变量设置特征标识，在该对应关系中保存特征标识与总引用度的对应关系。

具体地，在后续建模过程中，从建立的所述对应关系中选择所述总引用度大于设定阈值的特征变量；

其中，该设定阈值可以是根据经验设定，或者根据多次试验统计获得。

该优选地实施方式中，计算新的总引用度以更新对应关系中特征变量对应的总引用度，具体如下：

优选地，计算特征变量的特征引用度的具体过程如下：

按照公式计算获得所述特征变量的特征引用度；

以下通过一个具体实施对建立各特征变量与各自的总引用度的对应关系的过程进行详细说明。

如图3所示，在如图1所示的完整建模实验过程中，在对原始数据进行预处理后，进行特征抽取，在特征抽取过程中，对抽取出的特征变量设置特征标识，将该特征标识记录到特征元数据库中，即保存特征变量与其特征标识的对应关系。

对抽取出的特征变量进行特征选择，在特征选择时，从特征元数据库中获取选择出的特征变量的特征标识，将选择出的特征变量及其特征标识保存至样本元数据库中。

基于选取出的特征变量以及训练样本集合中样本数据进行模型训练，得到模型。

采用测试样本集合中的样本数据对得到的模型进行模型多次评估，根据每次的评估结果，确定达到预设的学习目标的有效评估，计算每次有效评估中各特征变量各自的特征引用度。

具体地，按照公式计算获得特征变量的特征引用度；

其中，f_i表示特征变量，r(f_i,t)表示特征变量的特征引用度，t表示预设的学习目标，TP表示一次有效评估中样本数据的特征变量实际为真、评估结果也为真的次数，FP表示一次有效评估中样本数据的特征变量实际为假、评估结果为真的次数，FN表示一次有效评估中样本数据的特征变量实际为真、评估结果为假的次数，TN表示一次有效评估中样本数据的特征变量实际为假、评估结果也为假的次数。

根据每次评估对应的各特征变量各自的特征引用度，计算多次评估得到的各特征变量各自的总引用度。

具体地，按照公式计算特征变量的总引用度，其中，f_i表示特征变量，r(f_i,t)表示特征变量的特征引用度，T表示所有学习目标的集合，E(t)表示学习目标为t的对应的所有有效评估，评估结果达到学习目标的评估t的一次评估称为一次有效实验。

其中，在有多个学习目标时，可以分别针对每个学习目标计算得到该学习目标对应的特征变量各自的总引用度。

建立各特征变量与各自的总引用度的对应关系。

基于同一发明构思，本发明实施例中还提供了一种统计装置，该装置的具体实施可参见上述方法部分的描述，如图4所示，该装置主要包括：

确定模块401，用于基于一个以上测试样本数据集合对模型进行多次评估，获得每次评估对应的评估结果，确定所述评估结果达到预设的学习目标的各有效评估；

引用度计算模块402，用于根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果，分别计算得到所述各有效评估各自对应的所述各特征变量各自的特征引用度，根据获得的每个所述有效评估中所述各特征变量各自的特征引用度，计算得到所述各特征变量各自的总引用度，所述总引用度用于表征对应的所述特征变量在模型训练中为达到预设的学习目标所起的作用。

优选地，引用度计算模块402还用于：

优选地，还包括预处理模块403用于建立各特征变量与总引用度的对应关系，具体如下：

确定所述评估结果达到预设的学习目标的各有效评估；

优选地，所述引用度计算模块402计算特征变量新的总引用度，以更新对应关系中相应特征变量的总引用度，具体如下：

优选地，引用度计算模块402或预处理模块403计算特征变量的特征引用度，具体如下：

按照公式计算获得所述特征变量的特征引用度；

优选地，还包括建模模块404，用于：

从各特征变量与总引用度的对应关系中选择所述总引用度大于设定阈值的特征变量；

基于同一发明构思，本发明实施例中还提供了一种统计设备，该设备的具体实施可参见上述方法部分的描述，如图5所示，该设备主要包括处理器501和存储器502，存储器502中保存有预设的程序，处理器501用于读取存储器502中的程序执行以下步骤：

根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果，分别计算得到所述各有效评估各自对应的各特征变量各自的特征引用度，根据获得的每个所述有效评估中所述各特征变量各自的特征引用度，计算得到所述各特征变量各自的总引用度，所述总引用度用于表征对应的所述特征变量在模型训练中为达到预设的学习目标所起的作用。

优选地，处理器501计算得到所述各特征变量各自的总引用度后，获取预存的特征变量与总引用度的对应关系，根据计算获得的所述各特征变量各自的总引用度，以及所述对应关系中的所述各特征变量各自的总引用度，计算得到新的总引用度，将所述对应关系中的各所述特征变量的总引用度更新为所述新的总引用度。

优选地，处理器501获取预存的特征变量与总引用度的对应关系之前，基于一个以上测试样本数据集合对保存的历史模型进行多次评估，获得每次评估对应的评估结果；

确定所述评估结果达到预设的学习目标的各有效评估；

优选地，处理器501更新所述对应关系中的所述各特征变量各自的总引用度的具体过程为：

优选地，处理器501计算获得所述特征变量的特征引用度的具体过程如下：

按照公式计算获得所述特征变量的特征引用度；

优选地，处理器501从所述对应关系中选择所述总引用度大于设定阈值的特征变量；

基于上述技术方案，本发明实施例中，通过将特征变量在模型训练中为达到预设的学习目标所起的作用量化为总引用度，从而能够将专家的经验固化为总引用度，使得在后续建模过程中为特征变量的选择提供依据，避免了人工选择特征变量造成的效率低、稳定性差这一问题，提高了特征变量选择的效率，基于选择的特征变量建模，进而提高了建模实验的效率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种统计方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，计算得到所述各特征变量各自的总引用度后，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，所述获取预存的特征变量与总引用度的对应关系之前，所述方法还包括：

确定所述评估结果达到预设的学习目标的各有效评估；

4.如权利要求2所述的方法，其特征在于，根据计算获得的所述各特征变量各自的总引用度，以及所述对应关系中的所述各特征变量各自的总引用度，计算得到新的总引用度，包括：

5.如权利要求1-4任一项所述的方法，其特征在于，计算获得所述特征变量的特征引用度，包括：

按照公式计算获得所述特征变量的特征引用度；

6.如权利要求2所述的方法，其特征在于，所述方法还包括：

7.一种统计装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述引用度计算模块还用于：

9.如权利要求8所述的装置，其特征在于，还包括预处理模块，用于：

确定所述评估结果达到预设的学习目标的各有效评估；

10.如权利要求8所述的装置，其特征在于，所述引用度计算模块具体用于：

11.如权利要求7-10任一项所述的装置，其特征在于，所述引用度计算模块或所述预处理模块具体用于：

按照公式计算获得所述特征变量的特征引用度；

12.如权利要求8所述的装置，其特征在于，还包括建模模块，用于：