CN107656927B

CN107656927B - 一种特征选择方法及设备

Info

Publication number: CN107656927B
Application number: CN201610586886.1A
Authority: CN
Inventors: 钟伟才; 王群; 沈志宏; 季振峰
Original assignee: Huawei Technologies Co Ltd
Current assignee: Shenzhen Huawei Cloud Computing Technology Co ltd
Priority date: 2016-07-25
Filing date: 2016-07-25
Publication date: 2021-04-09
Anticipated expiration: 2036-07-25
Also published as: CN107656927A

Abstract

本发明实施例提供一种特征选择方法及设备，其中方法包括如下步骤：获取针对目标事件的样本数据中包含的多个数据特征，计算所述多个数据特征中各数据特征之间的独立性概率；根据所述各数据特征之间的独立性概率，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组；按照预设特征选择规则从所述至少一个特征聚类分组中选择预设数量的目标数据特征，并将所述预设数量的目标数据特征确定为所述目标事件的数据特征集合。采用本发明，通过对多个特征进行聚类处理，再分别从各个聚类分组中选择目标数据特征，这样能够降低特征选择的计算复杂度，进而提高选择特征的效率。

Description

一种特征选择方法及设备

技术领域

本发明涉及数据挖掘领域，尤其涉及一种特征选择方法及设备。

背景技术

伴随着计算机技术、通信技术、互联网技术的发展，数据积累的越来越多。面对激增的数据，人们希望能够挖掘出有价值的信息，从而可以更好地利用这些数据为人们服务。每一个需要被挖掘的数据可称作一个事件，并通过多个特征来描述一个事件，随着特征的多样化，特征的数量有时可达到数千维或者数万维，因此使得特征选择尤为重要，而特征选择具体是指去除原始特征集合中的冗余特征和不相关特征，而保留有用特征。

在现有的技术方案中，可以通过模型法去除冗余特征，具体是通过采用某个特定分类器的性能作为特征子集选择的准则，搜索最佳特征子集，例如，逐步向前法(forwardstepwise)、逐步向后法(backward stepwise)等。而模型法对原始特征集合中每一个特征、每两个特征、每三个特征等依次通过预设的模型中进行校验、筛选，例如，若有N个特征，模式法需要对

的任意一种组合进行验证，其中，i＝1，2，……，N，即共有(2^N-1)个组合需要被验证。但是当N的取值较大时，需要验证的特征组合也呈指数级增长，使得采用模型法去除特征间冗余的计算复杂度增大，降低了选择特征的效率。

发明内容

本发明实施例提供一种特征选择方法及设备，通过对多个特征进行聚类处理，再分别从各个聚类分组中选择目标数据特征，这样能够降低特征选择的计算复杂度，进而提高选择特征的效率。

本发明实施例第一方面提供了一种特征选择方法，包括：获取针对目标事件的样本数据中包含的多个数据特征，计算所述多个数据特征中各数据特征之间的独立性概率；根据所述各数据特征之间的独立性概率，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组；按照预设特征选择规则从所述至少一个特征聚类分组中选择预设数量的目标数据特征，并将所述预设数量的目标数据特征确定为所述目标事件的数据特征集合。

通过对多个数据特征进行聚类处理以生成至少一个特征聚类分组，再从特征聚类分组中选择目标数据特征，这样实现了从多个数据特征中选择预设数量的目标数据特征的功能，由于是先对多个特征进行聚类处理，再分别从各个聚类分组中选择目标数据特征，这样使得特征选择的复杂度降低，进而提高了选择特征的效率。

结合第一方面，在第一方面的第一种可能实现方式中，所述计算所述多个数据特征中各数据特征之间的独立性概率，包括：获取所述多个数据特征中的各数据特征包含的至少两个类别；在所述多个数据特征的样本数据中确定所述各数据特征包含的类别数和所述各数据特征的每个类别对应的样本数据的数量；根据第一数据特征的类别数、第二数据特征的类别数、所述第一数据特征的每个类别对应的样本数据的数量和所述第二数据特征的每个类别对应的样本数据的数量，计算所述第一数据特征和所述第二数据特征之间的独立性概率；

其中，所述第一数据特征为所述多个数据特征中的任一个数据特征，所述第二数据特征为所述多个数据特征中除了所述第一数据特征之外的任一个数据特征。通过计算所述多个数据特征中各数据特征之间的独立性概率的步骤获得所述多个特征中任意的两两特征之间的独立性概率。

结合第一方面的第一种可能实现方式，在第一方面的第二种可能实现方式中，所述获取所述多个数据特征中的每个数据特征包含的至少两个类别，包括：若所述多个数据特征中存在样本数据的类型为连续型数据的数据特征时，对所述连续型数据的数据特征的样本数据进行离散化，以生成所述连续型数据的数据特征包含的至少两个类别。可以理解的是，连续型数据的取值是不可列的，通过将连续型数据离散化生成至少两个类别的离散型数据，可便于计算两两特征之间的独立性概率。

结合第一方面的第二种可能实现方式，在第一方面的第三种可能实现方式中，所述根据第一数据特征的类别数、第二数据特征的类别数、所述第一数据特征的每个类别对应的样本数据的数量和所述第二数据特征的每个类别对应的样本数据的数量，计算所述第一数据特征和所述第二数据特征之间的独立性概率，包括：

按照卡方校验方法，并采用第一数据特征的每个类别对应的样本数据的数量和第二数据特征的每个类别对应的样本数据的数量，计算表示所述第一数据特征和所述第二数据特征之间的偏离程度的统计量；根据所述第一数据特征的类别数和所述第二数据特征的类别数，确定所述第一数据特征和所述第二数据特征之间的自由度；获取所述自由度对应的卡方分布，根据所述统计量计算所述第一数据特征和所述第二数据特征之间的独立性概率。

结合第一方面的第一种可能实现方式、第一方面的第二种可能实现方式或第一方面的第三种可能实现方式，在第一方面的第四种可能实现方式中，所述根据所述各数据特征之间的独立性概率，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组，包括：

检测所述第一数据特征和所述第二数据特征之间的独立性概率是否小于预设阈值；若是，则计算所述第一数据特征和所述第二数据特征之间相关度；若否，则确定所述第一数据特征和所述第二数据特征之间的相关度为默认值；根据所述第一数据特征和所述第二数据特征之间相关度，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组。

需要说明的是，如果所述第一数据特征和所述第二数据特征之间的独立性概率小于预设阈值，表示第一数据特征和所述第二数据特征是显著相关的，为了去除冗余特征，则进一步计算所述第一数据特征和所述第二数据特征之间相关度，以使将相关度较强的数据特征划分到一个特征聚类分组。如果所述第一数据特征和所述第二数据特征之间的独立性概率不小于预设阈值，表示第一数据特征和所述第二数据特征的相关度较弱，为了聚类处理则无需在计算其相关度，因此将相关度设置为默认值。

结合第一方面的第四种可能实现方式，在第一方面的第五种可能实现方式中，所述计算所述第一数据特征和所述第二数据特征之间相关度，包括：根据所述第一数据特征的类别数、所述第二数据特征的类别数、所述第一数据特征的每个类别对应的样本数据的数量和所述第二数据特征的每个类别对应的样本数据的数量，计算所述第一数据特征和所述第二数据特征之间效应量，并将所述效应量设定为所述第一数据特征和所述第二数据特征之间相关度。

结合第一方面的第四种可能实现方式，在第一方面的第六种可能实现方式中，所述特征聚类分组中的任一数据特征满足预设条件：所述特征聚类分组中每个数据特征的组内相关度小于所述每个数据特征的组外相关度；其中，所述每个数据特征的组内相关度为所述每个数据特征与所述特征聚类分组中的其他数据特征之间的相关度，所述每个数据特征的组外相关度为所述每个数据特征与其他特征聚类分组中任一数据特征之间的相关度。

结合第一方面的第四种可能实现方式、第一方面的第五种可能实现方式或第一方面的第六种可能实现方式，在第一方面的第七种可能实现方式中，还包括：

在所述第一数据特征和所述第二数据特征之间的相关度大于所述默认值的情况下，确定所述第一数据特征和所述第二数据特征之间存在边连接关系，并根据所述边连接关系生成所述多个数据特征对应的连接网络图。通过展示所述连接网络图，可以使用户较为直观的了解所述多个数据特征之间的关联性，可行的方案中，所述特征选择设备可以通过连接线的粗细程度表示数据特征之间的效应量的大小

结合第一方面的第四种可能实现方式，在第一方面的第八种可能实现方式中，所述按照预设特征选择规则从所述至少一个特征聚类分组中选择预设数量的目标数据特征，包括：

按照预设数量确定在目标特征聚类分组中选择目标数据特征的目标数量，所述目标特征聚类分组为所述至少一个特征聚类分组中的任意一个分组；按照预设数据特征选择规则，从所述目标特征聚类分组中选择目标数量的目标数据特征。

可选的，所述预设特征选择规则是所述特征选择设备预先定义的，所述预设特征选择规则是为了去除各个特征聚类分组中的冗余特征和不相关特征，并保留目标数量的目标数据特征。

结合第一方面的第八种可能实现方式，在第一方面的第九种可能实现方式中，所述按照预设数量确定在目标特征聚类分组中选择目标数据特征的目标数量，包括：结合所述多个数据特征的数据特征数量和预设数量计算选择比例，并按照所述选择比例确定在目标特征聚类分组中选择目标数据特征的目标数量。

可选的，所述方法还可以对于目标特征聚类分组中包含的数据特征的数量较多时，可以设定所选择的目标数量较大；对于目标特征聚类分组中包含的数据特征的数量较少时，可以设定所选择的目标数量较小，本发明实施例对目标数量的设定不做限定。但可以理解的是，所设定的目标数量小于或者等于所述目标特征聚类分组中所包含的数据特征的数量。本发明实施例对各个聚类分组中确定的目标数据特征的目标数量不做限定。

结合第一方面的第八种可能实现方式或第一方面的第九种可能实现方式，在第一方面的第十种可能实现方式中，所述按照预设数据特征选择规则，从所述目标特征聚类分组中选择目标数量的目标数据特征，包括：

将所述目标特征聚类分组中与所述目标特征聚类分组中的其他数据特征之间的相关度之和最大的数据特征，确定为所述目标特征聚类分组的第一个目标数据特征；按照与已选择的目标数据特征的相关度之和最小原则，在所述目标特征聚类分组中确定出包含所述第一个目标数据特征在内的目标数量的目标数据特征，所述已选择的目标数据特征为在当前选择的目标数据特征的之前选择的全部目标数据特征，所述与已选择的目标数据特征的相关度之和最小原则表示当前选择的目标数据特征与已选择的目标数据特征之间的相关度之和最小；将所述目标数量的选择数据特征确定为所述目标特征聚类分组中的目标数据特征。通过迭代的方式实现从各个特征聚类分组中选择目标数据特征。

本发明实施例第二方面提供了一种特征选择设备，包括：

获取单元，用于获取针对目标事件的样本数据中包含的多个数据特征；

计算单元，用于计算所述多个数据特征中各数据特征之间的独立性概率；

生成单元，用于根据所述各数据特征之间的独立性概率，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组；

选择单元，用于按照预设特征选择规则从所述至少一个特征聚类分组中选择预设数量的目标数据特征，并将所述预设数量的目标数据特征确定为所述目标事件的数据特征集合。

结合第二方面，在第二方面的第一种可能实现方式中，所述计算单元包括：

类别获取单元，用于获取所述多个数据特征中的各数据特征包含的至少两个类别；

第一确定单元，用于在所述多个数据特征的样本数据中确定所述各数据特征包含的类别数和所述各数据特征的每个类别对应的样本数据的数量；

概率计算单元，用于根据第一数据特征的类别数、第二数据特征的类别数、所述第一数据特征的每个类别对应的样本数据的数量和所述第二数据特征的每个类别对应的样本数据的数量，计算所述第一数据特征和所述第二数据特征之间的独立性概率；

结合第二方面的第一种可能实现方式，在第二方面的第二种可能实现方式中，类别获取单元具体用于若所述多个数据特征中存在样本数据的类型为连续型数据的数据特征时，对所述连续型数据的数据特征的样本数据进行离散化，以生成所述连续型数据的数据特征包含的至少两个类别。可以理解的是，连续型数据的取值是不可列的，通过将连续型数据离散化生成至少两个类别的离散型数据，可便于计算两两特征之间的独立性概率。

结合第二方面的第二种可能实现方式，在第二方面的第三种可能实现方式中，所述概率计算单元具体用于：按照卡方校验设备，并采用第一数据特征的每个类别对应的样本数据的数量和第二数据特征的每个类别对应的样本数据的数量，计算表示所述第一数据特征和所述第二数据特征之间的偏离程度的统计量；根据所述第一数据特征的类别数和所述第二数据特征的类别数，确定所述第一数据特征和所述第二数据特征之间的自由度；获取所述自由度对应的卡方分布，根据所述统计量计算所述第一数据特征和所述第二数据特征之间的独立性概率。

结合第二方面的第一种可能实现方式、第二方面的第二种可能实现方式或第二方面的第三种可能实现方式，在第二方面的第四种可能实现方式中，所述生成单元，包括：

概率检测单元，用于检测所述第一数据特征和所述第二数据特征之间的独立性概率是否小于预设阈值；

相关度计算单元，用于若检测到所述第一数据特征和所述第二数据特征之间的独立性概率小于所述预设阈值，则计算所述第一数据特征和所述第二数据特征之间相关度；

相关度确定单元，用于若检测到所述第一数据特征和所述第二数据特征之间的独立性概率不小于所述预设阈值，则确定所述第一数据特征和所述第二数据特征之间的相关度为默认值；

分组生成单元，用于根据所述第一数据特征和所述第二数据特征之间相关度，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组。

结合第二方面的第四种可能实现方式，在第二方面的第五种可能实现方式中，所述相关度计算单元具体用于根据所述第一数据特征的类别数、所述第二数据特征的类别数、所述第一数据特征的每个类别对应的样本数据的数量和所述第二数据特征的每个类别对应的样本数据的数量，计算所述第一数据特征和所述第二数据特征之间效应量，并将所述效应量设定为所述第一数据特征和所述第二数据特征之间相关度。

结合第二方面的第四种可能实现方式，在第二方面的第六种可能实现方式中，所述特征聚类分组中的任一数据特征满足预设条件：所述特征聚类分组中每个数据特征的组内相关度小于所述每个数据特征的组外相关度；其中，所述每个数据特征的组内相关度为所述每个数据特征与所述特征聚类分组中的其他数据特征之间的相关度，所述每个数据特征的组外相关度为所述每个数据特征与其他特征聚类分组中任一数据特征之间的相关度。

结合第二方面的第四种可能实现方式、第二方面的第五种可能实现方式或第二方面的第六种可能实现方式，在第二方面的第七种可能实现方式中，所述生成单元，还用于在所述第一数据特征和所述第二数据特征之间的相关度大于所述默认值的情况下，确定所述第一数据特征和所述第二数据特征之间存在边连接关系，并根据所述边连接关系生成所述多个数据特征对应的连接网络图。通过展示所述连接网络图，可以使用户较为直观的了解所述多个数据特征之间的关联性，可行的方案中，所述特征选择设备可以通过连接线的粗细程度表示数据特征之间的效应量的大小

结合第二方面的第四种可能实现方式，在第二方面的第八种可能实现方式中，所述选择单元包括：

第二确定单元，用于按照预设数量确定在目标特征聚类分组中选择目标数据特征的目标数量，所述目标特征聚类分组为所述至少一个特征聚类分组中的任意一个分组；

特征选择单元，用于按照预设数据特征选择规则，从所述目标特征聚类分组中选择目标数量的目标数据特征。

结合第二方面的第八种可能实现方式，在第二方面的第九种可能实现方式中，所述第二确定单元具体用于结合所述多个数据特征的数据特征数量和预设数量计算选择比例，并按照所述选择比例确定在目标特征聚类分组中选择目标数据特征的目标数量。

可选的，所述第二确定单元还可以对于目标特征聚类分组中包含的数据特征的数量较多时，可以设定所选择的目标数量较大；对于目标特征聚类分组中包含的数据特征的数量较少时，可以设定所选择的目标数量较小，本发明实施例对目标数量的设定不做限定。但可以理解的是，所设定的目标数量小于或者等于所述目标特征聚类分组中所包含的数据特征的数量。本发明实施例对各个聚类分组中确定的目标数据特征的目标数量不做限定。

结合第二方面的第八种可能实现方式或第二方面的第九种可能实现方式，在第二方面的第十种可能实现方式中，所述特征选择单元具体用于：

本发明实施例第三方面提供了一种特征选择设备，所述特征选择设备包括处理器和存储器，所述存储器用于存储可执行程序代码；所述处理器通过读取所述存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以执行以下步骤：获取针对目标事件的样本数据中包含的多个数据特征，计算所述多个数据特征中各数据特征之间的独立性概率；根据所述各数据特征之间的独立性概率，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组；按照预设特征选择规则从所述至少一个特征聚类分组中选择预设数量的目标数据特征，并将所述预设数量的目标数据特征确定为所述目标事件的数据特征集合。

本发明实施例第四方面例提供了一种计算机存储介质，用于储存为上述第二方面或第三方面特征选择设备所用的计算机软件指令，其包含用于执行第二方面或第三方面特征选择设备所设计的程序。

相较于现有技术，本发明实施例针对包含多个数据特征的目标事件的样本数据，通过计算多个数据特征中各数据特征之间的独立性概率，并根据各数据特征之间的独立性概率对多个数据特征进行聚类处理以生成至少一个特征聚类分组，最后按照预设特征选择规则从至少一个特征聚类分组中选择预设数量的目标数据特征，这样实现了从多个数据特征中选择预设数量的目标数据特征的功能，由于是先对多个特征进行聚类处理，再分别从各个聚类分组中选择目标数据特征，这样使得特征选择的复杂度降低，进而提高了选择特征的效率。

本发明中，特征选择设备的名字对设备本身不构成限定，在实际实现中，这些设备可以以其他名称出现。只要各个设备的功能和本发明类似，属于本发明权利要求及其等同技术的范围之内。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种特征选择方法的流程示意图；

图2是本发明实施例提供的另一种特征选择方法的流程示意图；

图3是本发明实施例提供的步骤S204的流程示意图；

图4是本发明实施例提供的步骤S210的流程示意图；

图5是本发明实施例提供的一种特征选择设备的结构示意图；

图6是本发明实施例提供的一种计算单元的结构示意图；

图7是本发明实施例提供的一种生成单元的结构示意图；

图8是本发明实施例提供的一种选择单元的结构示意图；

图9是本发明实施例提供的另一种特征选择设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供的特征选择方法可以应用于数据库知识发现(knowledgediscovery in database，KDD)，由于数据库的规模、范围都在快速不断扩大，使得积累了海量的数据资料，而这些海量的数据资料中往往隐含了各种各样的信息，这些信息凭经验是难以发现的，因此通过本发明实施例提供的特征选择方法，例如，从数据库中获取目标事件的样本数据，并解析得到针对目标事件的样本数据中包含的多个数据特征，计算所述多个数据特征中各数据特征之间的独立性概率；根据所述各数据特征之间的独立性概率，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组；按照预设特征选择规则从所述至少一个特征聚类分组中选择预设数量的目标数据特征，并将所述预设数量的目标数据特征确定为所述目标事件的数据特征集合。这样实现了从数据库中的一个事件的样本数据包含的多个特征中选择一定数量的目标特征的功能，减少了数据库存储的信息量，由于是先对多个特征进行聚类处理，再分别从各个聚类分组中选择目标数据特征，这样使得特征选择的复杂度降低，进而提高了选择特征的效率。

请参见图1，为本发明实施例提供了一种特征选择方法的流程示意图。如图1所示，本发明实施例的所述方法可以包括以下步骤S101-步骤S103。

S101，获取针对目标事件的样本数据中包含的多个数据特征，计算所述多个数据特征中各数据特征之间的独立性概率。

具体的，数据特征选择设备获取针对目标事件的样本数据中包含的多个数据特征，计算所述多个数据特征中各数据特征之间的独立性概率。其中，所述多个数据特征是用于在发生所述目标事件的样本数据中的一些基本数据特征，举例来说，对购物软件中对某一物品被购买的这一事件中，可以从多个购买用户的基本信息获取所述多个数据特征，并对多个购买用户的数据特征进行统计整理，进而确定每个数据特征对应的购买数量，如表1所示，为从1000个购买用户的基本信息中获取到购买用户的数据特征可以包括但不限定于购买用户的性别、年龄段、月消费水平、购买时间段等，例如，数据特征为性别时，由于性别包括男性和女性，因此整理获得男性的购买数量和女性的购买数量；数据特征为年龄时，可以对所包括的年龄进行分段，并统计各个年龄段对应的购买数量，等等。

表1

进一步，在获取到针对目标事件的样本数据中包含的多个数据特征之后，所述特征选择设备计算所述多个数据特征中各数据特征之间的独立性概率。结合表1来说，所述特征选择设备计算性别、年龄段、月消费水平、购买时间段等任意两个特征之间的独立性概率。可行的方案中，独立性概率的计算方式可以采用向量空间模型(Vector space model，VSM)，也可以采用卡方校验方式等，本发明实施例对独立性概率的计算方式不做限定。

S102，根据所述各数据特征之间的独立性概率，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组。

具体的，所述特征选择设备根据所述各数据特征之间的独立性概率，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组。可选的，所述特征选择设备对所述多个数据特征分类生成的所述至少一个特征聚类分组的组内各特征间具有较强的相关度，而组间各特征之间的相关度小或没有相关度。可以理解的是，各个特征聚类分组中包含一定数量的特征。进一步，由于本方案中通过独立性概率对多个数据特征进行聚类处理，可行的方案中，所述特征选择设备可以通过层次聚类算法、分割聚类算法、基于约束的聚类算法和用于高维度的聚类算法等。本发明实施例对聚类处理所采用的算法不做限定。

举例来说，如表1所示，在对所述多个数据特征聚类处理之后，在现有列举的几个数据特征中，可以将性别和购买时间段组成一个特征聚类分组，将年龄段和月消费水平组成一个特征聚类分组。

S103，按照预设特征选择规则从所述至少一个特征聚类分组中选择预设数量的目标数据特征，并将所述预设数量的目标数据特征确定为所述目标事件的数据特征集合。

具体的，在将所述多个数据特征划分至各个特征聚类分组之后，所述特征选择设备按照预设特征选择规则从所述至少一个特征聚类分组中选择预设数量的目标数据特征，并将所述预设数量的目标数据特征确定为所述目标事件的数据特征集合。其中，所述预设数量和所述预设特征选择规则是所述特征选择设备预先定义的，所述预设特征选择规则是为了去除所述多个数据特征中的冗余特征和不相关特征，并保留预设数量的目标数据特征。进一步，由于是先对多个特征进行聚类处理，再分别从各个聚类分组中选择目标数据特征，这样使得特征选择的复杂度降低，举例来说，若有N个特征，模式法需要对

(其中i＝1，2，……，N)的任意一种组合进行验证，即共有(2^N-1)个组合需要被验证；本发明将N个特征分为两个特征聚类分组，每个特征聚类分组有N/2个数据特征(假设为N偶数)，每一个分组有(2^N/2-1)个组合需要被验证，因此，共有(2^1+N/2-2)个组合需要被验证，在N>2的情况下，(2^1+N/2-2)远小于(2^N-1)，可想而知，降低了计算复杂度，进而提高了选择特征的效率。

可行的方案中，由于各个特征聚类分组中所包括的数据特征为独立性概率较大的，所述预设特征规则用于从每个特征聚类分组中挑选出该组中相互之间独立性概率较小的数据特征作为目标数据特征，由于该组中独立性概率较大的数据特征为冗余数据特征，所述特征选择设备通过去除组内独立性概率较大的数据特征，能够实现去除冗余。

在本发明实施例中，针对包含多个数据特征的目标事件的样本数据，通过计算多个数据特征中各数据特征之间的独立性概率，并根据各数据特征之间的独立性概率对多个数据特征进行聚类处理以生成至少一个特征聚类分组，最后按照预设特征选择规则从至少一个特征聚类分组中选择预设数量的目标数据特征，这样实现了从多个数据特征中选择预设数量的目标数据特征的功能，由于是先对多个特征进行聚类处理，再分别从各个聚类分组中选择目标数据特征，这样使得特征选择的复杂度降低，进而提高了选择特征的效率。

请参见图2，为本发明实施例提供了另一种特征选择方法的流程示意图。如图2所示，本发明实施例的所述方法可以包括以下步骤S201-步骤S206。

S201，获取针对目标事件的样本数据中包含的多个数据特征。

具体的，所述数据特征选择设备获取针对目标事件的样本数据中包含的多个数据特征，其中，所述多个数据特征是用于在发生所述目标事件的样本数据中的一些基本数据特征，举例来说，对购物软件中对某一物品被购买的这一事件中，可以从多个购买用户的基本信息获取所述多个数据特征，并对多个购买用户的数据特征进行统计整理，进而确定每个数据特征对应的购买数量，如表1所示，为从1000个购买用户的基本信息中获取到购买用户的数据特征可以包括但不限定于购买用户的性别、年龄段、月消费水平、购买时间段等，例如，数据特征为性别时，由于性别包括男性和女性，因此整理获得男性的购买数量和女性的购买数量；数据特征为年龄时，可以对所包括的年龄进行分段，并统计各个年龄段对应的购买数量，等等。

S202，获取所述多个数据特征中的各数据特征包含的至少两个类别。

具体的，在获取到针对目标事件的样本数据中包含的多个数据特征之后，所述特征选择设备获取所述多个数据特征中的各数据特征包含的至少两个类别。结合表1来说，所述特征选择设备如数据特征为性别时，获取性别中的男性类别和女性类别；以及，如数据特征为年龄段时，获取年龄段中的各个年龄段等。

可选的，若所述多个数据特征中存在样本数据的类型为连续型数据的数据特征时，对所述连续型数据的数据特征的样本数据进行离散化，以生成所述连续型数据的数据特征包含的至少两个类别。可以理解的是，连续型数据的取值是不可列的，例如，在表1所示的例子中，若增加购买用户的体重这一数据特征，由于体重的取值是不可列的，从理论上说某一个区间内的实数都可以为购买用户的体重，在表1所示例子中1000个购买用户中，不同购买用户的体重各不相同，因此，在本发明实施例中，可将可以包括每个体重取值的区间进行离散化，划分为4个或者5个子区间，例如，将[30kg，150kg]划分为[30kg，60kg)、[60kg，90kg)、[90kg，120kg)和[120kg，150kg]4个子区间，将1000个购买用户的体重数值进行划分，并确定各个子区间对应的购买数量。进一步，可以理解的是，这里所述的子区间即为体重这一数据特征所包括的类别。

S203，在所述多个数据特征的样本数据中确定所述各数据特征包含的类别数和所述各数据特征的每个类别对应的样本数据的数量。

具体的，所述特征选择设备在所述多个数据特征的样本数据中确定所述各数据特征包含的类别数和所述各数据特征的每个类别对应的样本数据的数量。例如，在表1所示的例子中，性别的类别数为2，男性类别的购买数量为300，女性类别的购买数量为700。

S204，根据第一数据特征的类别数、第二数据特征的类别数、所述第一数据特征的每个类别对应的样本数据的数量和所述第二数据特征的每个类别对应的样本数据的数量，计算所述第一数据特征和所述第二数据特征之间的独立性概率。

具体的，所述特征选择设备根据第一数据特征的类别数、第二数据特征的类别数、所述第一数据特征的每个类别对应的样本数据的数量和所述第二数据特征的每个类别对应的样本数据的数量，计算所述第一数据特征和所述第二数据特征之间的独立性概率。

可行的方案中，请一并参见图3，为本发明实施例提供的步骤S204的流程示意图，如图3所示，步骤S204包括步骤S2041至步骤S2043。

S2041，按照卡方校验方法，并采用第一数据特征的每个类别对应的样本数据的数量和第二数据特征的每个类别对应的样本数据的数量，计算表示所述第一数据特征和所述第二数据特征之间的偏离程度的统计量。

具体的，所述特征选择设备按照卡方校验方法，并采用第一数据特征的每个类别对应的样本数据的数量和第二数据特征的每个类别对应的样本数据的数量，计算表示所述第一数据特征和所述第二数据特征之间的偏离程度的统计量。

举例来说，假设目标事件对应的N个样本数据中包括A数据特征、B数据特征、C数据特征等，其中，A数据特征具有I个类别，B数据特征具有J个类别，N为总的样本数据的数量；按照卡方校验方法计算任两个数据特征之间的统计量，例如，A数据特征和B数据特征之间的统计量χ²，可以采用以下公式计算获得：

其中，N_ij表示A为i类别且B为j类别的样本数据的数量，

表示A为i类别且B为j类别的期望的样本数据的数量，

通过以下公式计算获得：

其中，

表示A为i类别的样本数据的数量，

表示B为j类别的样本数据的数量。

S2042，根据所述第一数据特征的类别数和所述第二数据特征的类别数，确定所述第一数据特征和所述第二数据特征之间的自由度。

具体的，所述特征选择设备根据所述第一数据特征的类别数和所述第二数据特征的类别数，确定所述第一数据特征和所述第二数据特征之间的自由度。其中自由度d的计算公式为:d＝(I-1)(J-1)其中，I和J为大于1的正整数。举例来说，若A数据特征有3个数据类别，B数据特征有5个数据类别，则A数据特征和B数据特征之间的自由度为8。

S2043，获取所述自由度对应的卡方分布，根据所述统计量计算所述第一数据特征和所述第二数据特征之间的独立性概率。

具体的，所述特征选择设备获取所述自由度对应的卡方分布，根据所述统计量计算所述第一数据特征和所述第二数据特征之间的独立性概率。其中，卡方分布是由正态分布构造而成的一个新的分布，当自由度n很大时，卡方分布近似为正态分布，通过卡方分布计算步骤S2041中获得的统计量对应的独立性概率P值，并将计算得到的P值设定为所述第一数据特征和所述第二数据特征之间的独立性概率。

需要说明的是，在图3所示的步骤S204的流程示意图中，所述第一数据特征为所述多个数据特征中的任意一个数据特征，所述第二数据特征为所述多个数据特征中除了所述第一数据特征之外的任意一个数据特征。所述特征选择设备通过步骤S204获得所述多个特征中任意的两两特征之间的独立性概率。

S205，检测所述第一数据特征和所述第二数据特征之间的独立性概率是否小于预设阈值。

具体的，所述特征选择设备检测所述第一数据特征和所述第二数据特征之间的独立性概率是否小于预设阈值。其中，所述预设阈值为所述特征选择设备自定义设定的，例如，0.05。当检测到所述第一数据特征和所述第二数据特征之间的独立性概率小于预设阈值时，执行步骤S206；当检测到所述第一数据特征和所述第二数据特征之间的独立性概率不小于预设阈值时，执行步骤S207。

S206，若是，则计算所述第一数据特征和所述第二数据特征之间相关度。

具体的，当检测到所述第一数据特征和所述第二数据特征之间的独立性概率小于预设阈值时，所述特征选择设备计算所述第一数据特征和所述第二数据特征之间相关度。

可选的，所述特征选择设备可以根据所述第一数据特征的类别数、所述第二数据特征的类别数、所述第一数据特征的每个类别对应的样本数据的数量和所述第二数据特征的每个类别对应的样本数据的数量，计算所述第一数据特征和所述第二数据特征之间效应量，并将所述效应量设定为所述第一数据特征和所述第二数据特征之间相关度。可行的方案中，所述第一数据特征和所述第二数据特征之间效应量的计算公式为：

其中，χ²为第一数据特征和第二数据特征之间的统计量，具体可参照步骤S204的计算方式进行计算，在此不再赘述。若步骤S204中计算了第一数据特征和第二数据特征之间的统计量χ²，则在这个步骤直接采用所计算的χ²计算效应量。

S207，若否，则确定所述第一数据特征和所述第二数据特征之间的相关度为默认值。

具体的，当检测到所述第一数据特征和所述第二数据特征之间的独立性概率小于预设阈值时，所述特征选择设备确定所述第一数据特征和所述第二数据特征之间的相关度为默认值。可行的方案中，所述默认值设为0，这里仅为举例，本发明实施例对默认值的大小不做限定。

需要说明的是，如果根据步骤S204计算的独立性概率小于预设阈值，表示第一数据特征和所述第二数据特征是显著相关的，为了去除冗余特征，则执行步骤S206计算所述第一数据特征和所述第二数据特征之间相关度，以使通过执行步骤S208将相关度较强的数据特征划分到一个特征聚类分组。如果根据步骤S204计算的独立性概率不小于预设阈值，表示第一数据特征和所述第二数据特征的相关度较弱，为了聚类处理则无需在计算其相关度，因此执行步骤S206将相关度设置为默认值。

S208，根据所述第一数据特征和所述第二数据特征之间相关度，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组。

具体的，所述特征选择设备根据所述第一数据特征和所述第二数据特征之间相关度，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组。可选的，所述特征选择设备对所述多个数据特征分类生成的所述至少一个特征聚类分组的组内各特征间具有较强的相关度，而组间各特征之间的相关度小或没有相关度。可以理解的是，各个特征聚类分组中包含一定数量的特征。举例来说，如表1所示，在对所述多个数据特征聚类处理之后，在现有列举的几个数据特征中，可以将性别和购买时间段组成一个特征聚类分组，将年龄段和月消费水平组成一个特征聚类分组。

可行的方案中，所述特征聚类分组中的任一数据特征满足预设条件：所述特征聚类分组中每个数据特征的组内相关度小于所述每个数据特征的组外相关度。其中，所述每个数据特征的组内相关度为所述每个数据特征与所述特征聚类分组中的其他数据特征之间的相关度，所述每个数据特征的组外相关度为所述每个数据特征与其他特征聚类分组中任一数据特征之间的相关度。

可选的，在所述第一数据特征和所述第二数据特征之间的相关度大于所述默认值的情况下，确定所述第一数据特征和所述第二数据特征之间存在边连接关系，并根据所述边连接关系生成所述多个数据特征对应的连接网络图。通过展示所述连接网络图，可以使用户较为直观的了解所述多个数据特征之间的关联性，可行的方案中，所述特征选择设备可以通过连接线的粗细程度表示数据特征之间的效应量的大小。

S209，按照预设数量确定在目标特征聚类分组中选择目标数据特征的目标数量。

具体的，所述特征选择设备按照预设数量确定在目标特征聚类分组中选择目标数据特征的目标数量，所述目标特征聚类分组为所述至少一个特征聚类分组中的任意一个分组。即所述特征选择设备可以预先设定各个数据特征聚类分组中所要选出的目标数据特征的目标数量，例如，对于目标特征聚类分组中包含的数据特征的数量较多时，可以设定所选择的目标数量较大；对于目标特征聚类分组中包含的数据特征的数量较少时，可以设定所选择的目标数量较小，本发明实施例对目标数量的设定不做限定。但可以理解的是，所设定的目标数量小于或者等于所述目标特征聚类分组中所包含的数据特征的数量。

可行的方案中，结合所述多个数据特征的数据特征数量和预设数量计算选择比例，并按照所述选择比例确定在目标特征聚类分组中选择目标数据特征的目标数量。举例来说，若一个目标事件的样本数据中包括100个特征，则所述特征选择设备可以预设20为所述目标事件的目标预设特征的预设数量，因此，所述特征选择设备计算的选择比例为0.2，所述特征选择设备按照0.2的比例确定各个特征聚类分组所选择的目标数据特征的目标数量。

S210，按照预设数据特征选择规则，从所述目标特征聚类分组中选择目标数量的目标数据特征。

具体的，所述特征选择设备按照预设数据特征选择规则，从所述目标特征聚类分组中选择目标数量的目标数据特征。其中，所述预设特征选择规则是所述特征选择设备预先定义的，所述预设特征选择规则是为了去除各个特征聚类分组中的冗余特征和不相关特征，并保留目标数量的目标数据特征。

可行的方案中，请一并参见图4，为本发明实施例提供的步骤S210的流程示意图，如图4所示，步骤S210包括步骤S2101至步骤S2103。

S2101，将所述目标特征聚类分组中与所述目标特征聚类分组中的其他数据特征之间的相关度之和最大的数据特征，确定为所述目标特征聚类分组的第一个目标数据特征。

具体的，所述特征选择设备将所述目标特征聚类分组中与所述目标特征聚类分组中的其他数据特征之间的相关度之和最大的数据特征，确定为所述目标特征聚类分组的第一个目标数据特征。所述特征选择设备通过比较每个数据特征与该分组中的其他数据特征之间的效应量之和，将相关度之和最大的数据特征确定为该分组的第一个目标数据特征。

S2102，按照与已选择的目标数据特征的相关度之和最小原则，在所述目标特征聚类分组中确定出包含所述第一个目标数据特征在内的目标数量的目标数据特征。

具体的，所述特征选择设备按照与已选择的目标数据特征的相关度之和最小原则，在所述目标特征聚类分组中确定出包含所述第一个目标数据特征在内的目标数量的目标数据特征。其中，所述前一个目标数据特征为在当前选择的目标数据特征的之前选择的全部目标数据特征，所述与已选择的目标数据特征的相关度之和最小原则表示当前选择的目标数据特征与已选择的目标数据特征之间的相关度之和最小。

举例来说，所述特征选择设备在确定第一个目标数据特征之后，从所述目标特征聚类分组中除第一个目标数据特征之外的其他特征中，选择与所述第一个目标数据特征之间的相关度最小的数据特征确定为第二个目标数据特征；接着再从所述目标特征聚类分组中的除第一个和第二个目标数据特征之外其他特征中，选择与第一个目标数据特征和所述第二个目标数据特征之间的相关度之和最小的数据特征确定为第三个目标数据特征，以此类推，直至确定出目标数量的目标数据特征。

S2103，将所述目标数量的选择数据特征确定为所述目标特征聚类分组中的目标数据特征。

具体的，所述特征选择设备将所述目标数量的选择数据特征确定为所述目标特征聚类分组中的目标数据特征。

请参见图5，为本发明实施例提供了一种特征选择设备的结构示意图。如图5所示，本发明实施例的所述特征选择设备1可以包括：接收单元11、查找单元12、确定单元13和发送单元14。

获取单元11，用于获取针对目标事件的样本数据中包含的多个数据特征。

计算单元12，用于计算所述多个数据特征中各数据特征之间的独立性概率。

在一个可能的实施例中，请一并参见图6，为本发明实施例提供了一种计算单元的结构示意图，如图6所示，所述计算单元12包括类别获取单元121、第一确定单元122和概率计算单元123。

类别获取单元121，用于获取所述多个数据特征中的各数据特征包含的至少两个类别；可行的方案中，所述类别获取单元121具体用于若所述多个数据特征中存在样本数据的类型为连续型数据的数据特征时，对所述连续型数据的数据特征的样本数据进行离散化，以生成所述连续型数据的数据特征包含的至少两个类别。

第一确定单元122，用于在所述多个数据特征的样本数据中确定所述各数据特征包含的类别数和所述各数据特征的每个类别对应的样本数据的数量。

概率计算单元123，用于根据第一数据特征的类别数、第二数据特征的类别数、所述第一数据特征的每个类别对应的样本数据的数量和所述第二数据特征的每个类别对应的样本数据的数量，计算所述第一数据特征和所述第二数据特征之间的独立性概率；其中，所述第一数据特征为所述多个数据特征中的任一个数据特征，所述第二数据特征为所述多个数据特征中除了所述第一数据特征之外的任一个数据特征。

可行的方案中，所述概率计算单元具体用于按照卡方校验设备，并采用第一数据特征的每个类别对应的样本数据的数量和第二数据特征的每个类别对应的样本数据的数量，计算表示所述第一数据特征和所述第二数据特征之间的偏离程度的统计量；根据所述第一数据特征的类别数和所述第二数据特征的类别数，确定所述第一数据特征和所述第二数据特征之间的自由度；获取所述自由度对应的卡方分布，根据所述统计量计算所述第一数据特征和所述第二数据特征之间的独立性概率。

生成单元13，用于根据所述各数据特征之间的独立性概率，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组。

在一个可能的实施例中，请一并参见图7，为本发明实施例提供了一种生成单元的结构示意图，如图7所示，所述生成单元13包括概率检测单元131、相关度计算单元132、相关度确定单元133和分组生成单元134。

概率检测单元131，用于检测所述第一数据特征和所述第二数据特征之间的独立性概率是否小于预设阈值。

相关度计算单元132，用于若所述概率检测单元131检测到所述第一数据特征和所述第二数据特征之间的独立性概率小于所述预设阈值，则计算所述第一数据特征和所述第二数据特征之间相关度。可行的方案中，所述相关度计算单元132在计算所述第一数据特征和所述第二数据特征之间相关度方面，具体用于根据所述第一数据特征的类别数、所述第二数据特征的类别数、所述第一数据特征的每个类别对应的样本数据的数量和所述第二数据特征的每个类别对应的样本数据的数量，计算所述第一数据特征和所述第二数据特征之间效应量，并将所述效应量设定为所述第一数据特征和所述第二数据特征之间相关度。

相关度确定单元133，用于若概率检测单元131检测到所述第一数据特征和所述第二数据特征之间的独立性概率不小于所述预设阈值，则确定所述第一数据特征和所述第二数据特征之间的相关度为默认值。

分组生成单元132，用于根据所述第一数据特征和所述第二数据特征之间相关度，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组。

可行的方案中，所述特征聚类分组中的任一数据特征满足预设条件：所述特征聚类分组中每个数据特征的组内相关度小于所述每个数据特征的组外相关度；其中，所述每个数据特征的组内相关度为所述每个数据特征与所述特征聚类分组中的其他数据特征之间的相关度，所述每个数据特征的组外相关度为所述每个数据特征与其他特征聚类分组中任一数据特征之间的相关度。

在一个可能的实施例中，所述生成单元13，还用于在所述第一数据特征和所述第二数据特征之间的相关度大于所述默认值的情况下，确定所述第一数据特征和所述第二数据特征之间存在边连接关系，并根据所述边连接关系生成所述多个数据特征对应的连接网络图。

选择单元14，用于按照预设特征选择规则从所述至少一个特征聚类分组中选择预设数量的目标数据特征，并将所述预设数量的目标数据特征确定为所述目标事件的数据特征集合。

在一个可能的实施例中，请一并参见图8，为本发明实施例提供了一种选择单元的结构示意图，如图8所示，所述选择单元14包括第二确定单元141和特征选择单元142。

第二确定单元141，用于按照预设数量确定在目标特征聚类分组中选择目标数据特征的目标数量，所述目标特征聚类分组为所述至少一个特征聚类分组中的任意一个分组。

可行的方案中，所述第二确定单元141具体用于结合所述多个数据特征的数据特征数量和预设数量计算选择比例，并按照所述选择比例确定在目标特征聚类分组中选择目标数据特征的目标数量。

特征选择单元142，用于按照预设数据特征选择规则，从所述目标特征聚类分组中选择目标数量的目标数据特征。

可行的方案中，所述特征选择单元142具体用于将所述目标特征聚类分组中与所述目标特征聚类分组中的其他数据特征之间的相关度之和最大的数据特征，确定为所述目标特征聚类分组的第一个目标数据特征；按照与已选择的目标数据特征的相关度之和最小原则，在所述目标特征聚类分组中确定出包含所述第一个目标数据特征在内的目标数量的目标数据特征，所述已选择的目标数据特征为在当前选择的目标数据特征的之前选择的全部目标数据特征，所述与已选择的目标数据特征的相关度之和最小原则表示当前选择的目标数据特征与已选择的目标数据特征之间的相关度之和最小；将所述目标数量的选择数据特征确定为所述目标特征聚类分组中的目标数据特征。

需要说明的是，本发明实施例所描述的特征选择设备1中各功能单元的功能可根据上述附图1-附图4所示方法实施例中的方法具体实现，此处不再赘述。

在本实施例中，特征选择设备1是以功能单元的形式来呈现。这里的“单元”可以指特定应用集成电路(application-specific integrated circuit，ASIC)，电路，执行一个或多个软件或固件程序的处理器和存储器，集成逻辑电路，和/或其他可以提供上述功能的器件。在一个简单的实施例中，本领域的技术人员可以想到特征选择设备1可以采用图9所示的形式实现。

本发明实施例还提供了一种计算机存储介质，用于储存为上述图5所示特征选择设备所用的计算机软件指令，其包含用于执行上述方法实施例所设计的程序。通过执行存储的程序，可以通过聚类处理实现从多个数据特征中选择一定数量的目标数据特征。

请参见图9，图1或图8中的涉及的特征选择设备可以以图9中的计算机设备(或系统)的方式来实现。图9所示为本发明实施例提供了另一种特征选择设备的结构示意图。如图9所示，所述特征选择设备9包括至少一个处理器901、总线902、存储器903。可选的，所述特征选择设备还可以包括通信接口904。

处理器901可以是一个通用中央处理器(Central Processing Unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。

总线902可包括一通路，在上述组件之间传送信息。总线902可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture，EISA)总线等。所述总线902可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

需理解，通信接口404包括输入设备和输出设备中的至少一种，如显卡、网卡、天线等。

存储器903可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器903可以是独立存在，通过总线902与处理器901相连接。存储器903也可以和处理器901集成在一起。

可选的，所述存储器903用于存储执行本发明方案的应用程序代码，并由处理器901来控制执行。所述处理器901用于执行所述存储器903中存储的应用程序代码。

例如，所述处理器901可执行本发明提供的一种特征选择方法，获取针对目标事件的样本数据中包含的多个数据特征，计算所述多个数据特征中各数据特征之间的独立性概率；根据所述各数据特征之间的独立性概率，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组；按照预设特征选择规则从所述至少一个特征聚类分组中选择预设数量的目标数据特征，并将所述预设数量的目标数据特征确定为所述目标事件的数据特征集合。通过对多个特征进行聚类处理，再分别从各个聚类分组中选择目标数据特征，这样能够降低特征选择的计算复杂度，进而提高选择特征的效率。

在具体实现中，作为一种实施例，特征选择设备9可以包括多个处理器。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为根据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本发明实施例设备中的单元可以根据实际需要进行合并、划分和删减。本领域的技术人员可以将本说明书中描述的不同实施例以及不同实施例的特征进行结合或组合。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可以用硬件实现，或固件实现，或它们的组合方式来实现。当使用软件实现时，可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于：计算机可读介质可以包括随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外。任何连接可以适当的成为计算机可读介质。例如，如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(Digital Subscriber Line，DSL)或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的，那么同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本发明所使用的，盘(Disk)和碟(disc)包括压缩光碟(CD)、激光碟、光碟、数字通用光碟(DVD)、软盘和蓝光光碟，其中盘通常磁性的复制数据，而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护范围之内。

总之，以上所述仅为本发明技术方案的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种特征选择方法，其特征在于，所述特征选择方法应用于数据库知识发现，所述特征选择方法包括：

获取针对目标事件的样本数据中包含的多个数据特征，计算所述多个数据特征中各数据特征之间的独立性概率；其中，目标事件的样本数据是从数据库中获取到的；所述目标事件为购物软件中对某一物品被购买的事件，所述多个数据特征包括购买用户的性别、年龄段、月消费水平和购买时间段；

根据所述各数据特征之间的独立性概率，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组；

按照预设特征选择规则从所述至少一个特征聚类分组中的其中一个特征聚类分组中选择预设数量的目标数据特征，并将所述预设数量的目标数据特征确定为所述目标事件的数据特征集合；

其中，

所述计算所述多个数据特征中各数据特征之间的独立性概率，包括：

获取所述多个数据特征中的各数据特征包含的至少两个类别；

在所述多个数据特征的样本数据中确定所述各数据特征包含的类别数和所述各数据特征的每个类别对应的样本数据的数量；

根据第一数据特征的类别数、第二数据特征的类别数、所述第一数据特征的每个类别对应的样本数据的数量和所述第二数据特征的每个类别对应的样本数据的数量，计算所述第一数据特征和所述第二数据特征之间的独立性概率；独立性概率为性别、年龄段、月消费水平和购买时间段中任意两个特征之间的独立性概率；独立性概率的计算方式采用向量空间模型或卡方校验方式；

其中，所述第一数据特征为所述多个数据特征中的任一个数据特征，所述第二数据特征为所述多个数据特征中除了所述第一数据特征之外的任一个数据特征。

2.根据权利要求1所述的方法，其特征在于，所述获取所述多个数据特征中的每个数据特征包含的至少两个类别，包括：

若所述多个数据特征中存在样本数据的类型为连续型数据的数据特征时，对所述连续型数据的数据特征的样本数据进行离散化，以生成所述连续型数据的数据特征包含的至少两个类别。

3.根据权利要求2所述的方法，其特征在于，所述根据第一数据特征的类别数、第二数据特征的类别数、所述第一数据特征的每个类别对应的样本数据的数量和所述第二数据特征的每个类别对应的样本数据的数量，计算所述第一数据特征和所述第二数据特征之间的独立性概率，包括：

按照卡方校验方法，并采用第一数据特征的每个类别对应的样本数据的数量和第二数据特征的每个类别对应的样本数据的数量，计算表示所述第一数据特征和所述第二数据特征之间的偏离程度的统计量；

根据所述第一数据特征的类别数和所述第二数据特征的类别数，确定所述第一数据特征和所述第二数据特征之间的自由度；

获取所述自由度对应的卡方分布，根据所述统计量计算所述第一数据特征和所述第二数据特征之间的独立性概率。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述各数据特征之间的独立性概率，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组，包括：

检测所述第一数据特征和所述第二数据特征之间的独立性概率是否小于预设阈值；

若是，则计算所述第一数据特征和所述第二数据特征之间相关度；

若否，则确定所述第一数据特征和所述第二数据特征之间的相关度为默认值；

根据所述第一数据特征和所述第二数据特征之间相关度，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组。

5.根据权利要求4所述的方法，其特征在于，所述计算所述第一数据特征和所述第二数据特征之间相关度，包括：

根据所述第一数据特征的类别数、所述第二数据特征的类别数、所述第一数据特征的每个类别对应的样本数据的数量和所述第二数据特征的每个类别对应的样本数据的数量，计算所述第一数据特征和所述第二数据特征之间效应量，并将所述效应量设定为所述第一数据特征和所述第二数据特征之间相关度。

6.根据权利要求4所述的方法，其特征在于，所述特征聚类分组中的任一数据特征满足预设条件：所述特征聚类分组中每个数据特征的组内相关度小于所述每个数据特征的组外相关度；

其中，所述每个数据特征的组内相关度为所述每个数据特征与所述特征聚类分组中的其他数据特征之间的相关度，所述每个数据特征的组外相关度为所述每个数据特征与其他特征聚类分组中任一数据特征之间的相关度。

7.根据权利要求4所述的方法，其特征在于，还包括：

在所述第一数据特征和所述第二数据特征之间的相关度大于所述默认值的情况下，确定所述第一数据特征和所述第二数据特征之间存在边连接关系，并根据所述边连接关系生成所述多个数据特征对应的连接网络图。

8.根据权利要求5-6任一项所述的方法，其特征在于，还包括：

9.根据权利要求4所述的方法，其特征在于，所述按照预设特征选择规则从所述至少一个特征聚类分组中选择预设数量的目标数据特征，包括：

按照预设数量确定在目标特征聚类分组中选择目标数据特征的目标数量，所述目标特征聚类分组为所述至少一个特征聚类分组中的任意一个分组；

按照预设数据特征选择规则，从所述目标特征聚类分组中选择目标数量的目标数据特征。

10.根据权利要求9所述的方法，其特征在于，所述按照预设数量确定在目标特征聚类分组中选择目标数据特征的目标数量，包括：

结合所述多个数据特征的数据特征数量和预设数量计算选择比例，并按照所述选择比例确定在目标特征聚类分组中选择目标数据特征的目标数量。

11.根据权利要求9或10所述的方法，其特征在于，所述按照预设数据特征选择规则，从所述目标特征聚类分组中选择目标数量的目标数据特征，包括：

将所述目标特征聚类分组中与所述目标特征聚类分组中的其他数据特征之间的相关度之和最大的数据特征，确定为所述目标特征聚类分组的第一个目标数据特征；

按照与已选择的目标数据特征的相关度之和最小原则，在所述目标特征聚类分组中确定出包含所述第一个目标数据特征在内的目标数量的目标数据特征，所述已选择的目标数据特征为在当前选择的目标数据特征的之前选择的全部目标数据特征，所述与已选择的目标数据特征的相关度之和最小原则表示当前选择的目标数据特征与已选择的目标数据特征之间的相关度之和最小；

将所述目标数量的选择数据特征确定为所述目标特征聚类分组中的目标数据特征。

12.一种特征选择设备，其特征在于，所述特征选择设备应用于数据库知识发现，包括：

生成单元，用于根据所述各数据特征之间的独立性概率，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组；其中，目标事件的样本数据是从数据库中获取到的；其中，所述目标事件为购物软件中对某一物品被购买的事件，所述多个数据特征包括购买用户的性别、年龄段、月消费水平和购买时间段；

选择单元，用于按照预设特征选择规则从所述至少一个特征聚类分组中的其中一个特征聚类分组中选择预设数量的目标数据特征，并将所述预设数量的目标数据特征确定为所述目标事件的数据特征集合；

其中，所述计算单元包括：

概率计算单元，用于根据第一数据特征的类别数、第二数据特征的类别数、所述第一数据特征的每个类别对应的样本数据的数量和所述第二数据特征的每个类别对应的样本数据的数量，计算所述第一数据特征和所述第二数据特征之间的独立性概率；独立性概率为性别、年龄段、月消费水平和购买时间段中任意两个特征之间的独立性概率；独立性概率的计算方式采用向量空间模型或卡方校验方式；

13.根据权利要求12所述的设备，其特征在于，所述类别获取单元具体用于若所述多个数据特征中存在样本数据的类型为连续型数据的数据特征时，对所述连续型数据的数据特征的样本数据进行离散化，以生成所述连续型数据的数据特征包含的至少两个类别。

14.根据权利要求13所述的设备，其特征在于，所述概率计算单元具体用于：

按照卡方校验设备，并采用第一数据特征的每个类别对应的样本数据的数量和第二数据特征的每个类别对应的样本数据的数量，计算表示所述第一数据特征和所述第二数据特征之间的偏离程度的统计量；

15.根据权利要求12-14任一项所述的设备，其特征在于，所述生成单元，包括：

16.根据权利要求15所述的设备，其特征在于，所述相关度计算单元具体用于根据所述第一数据特征的类别数、所述第二数据特征的类别数、所述第一数据特征的每个类别对应的样本数据的数量和所述第二数据特征的每个类别对应的样本数据的数量，计算所述第一数据特征和所述第二数据特征之间效应量，并将所述效应量设定为所述第一数据特征和所述第二数据特征之间相关度。

17.根据权利要求15所述的设备，其特征在于，所述特征聚类分组中的任一数据特征满足预设条件：所述特征聚类分组中每个数据特征的组内相关度小于所述每个数据特征的组外相关度；

18.根据权利要求15所述的设备，其特征在于，

所述生成单元，还用于在所述第一数据特征和所述第二数据特征之间的相关度大于所述默认值的情况下，确定所述第一数据特征和所述第二数据特征之间存在边连接关系，并根据所述边连接关系生成所述多个数据特征对应的连接网络图。

19.根据权利要求16-17任一项所述的设备，其特征在于，

20.根据权利要求15所述的设备，其特征在于，所述选择单元包括：

21.根据权利要求20所述的设备，其特征在于，所述第二确定单元具体用于结合所述多个数据特征的数据特征数量和预设数量计算选择比例，并按照所述选择比例确定在目标特征聚类分组中选择目标数据特征的目标数量。

22.根据权利要求20或21所述的设备，其特征在于，所述特征选择单元具体用于：

23.一种特征选择设备，其特征在于，所述特征选择设备应用于数据库知识发现，所述特征选择设备包括处理器和存储器，其特征在于，所述存储器用于存储可执行程序代码；所述处理器通过读取所述存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以执行以下步骤：

获取针对目标事件的样本数据中包含的多个数据特征，计算所述多个数据特征中各数据特征之间的独立性概率；其中，目标事件的样本数据是从数据库中获取到的；

根据所述各数据特征之间的独立性概率，对所述多个数据特征进行聚类处理以生成至少一个特征聚类分组；其中，所述目标事件为购物软件中对某一物品被购买的事件，所述多个数据特征包括购买用户的性别、年龄段、月消费水平和购买时间段；独立性概率为性别、年龄段、月消费水平和购买时间段中任意两个特征之间的独立性概率；独立性概率的计算方式采用向量空间模型或卡方校验方式；

其中，

24.一种计算机可读存储介质，其特征在于，

所述计算机可读存储介质存储有计算机程序，所述计算机程序被硬件执行时能够实现权利要求1至11任意一项所述的方法。