CN115729957A

CN115729957A - 一种基于最大信息系数的未知流特征选择方法及装置

Info

Publication number: CN115729957A
Application number: CN202211501087.1A
Authority: CN
Inventors: 周鹏; 陈前臻; 张云云; 赵姝
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-03-03
Anticipated expiration: 2042-11-28
Also published as: CN115729957B

Abstract

本申请提出了一种基于最大信息系数的未知流特征选择方法及装置，涉及数据挖掘领域，包括：根据公共数据集获取目标数据集，得到数据集的条件特征空间与类标签；根据随机选择特征方法确定数据集内特征不断产生并到达的场景；计算场景中新到达的特征和类标签之间的第一相关性，根据第一相关性与第一特征子集的平均相关性大小差值，确定是否丢弃特征；若所述特征保留，确定所述特征与所述第一特征子集的第二相关性，并在所述第二相关性大于预设阈值时，将所述特征加入所述第一特征子集，生成第二特征子集；当没有特征到达场景或程序结束时，输出第二特征子集。本申请在不需要知道每个特征类型时，精确保留数据集所需的最佳显著特征，提高效率。

Description

一种基于最大信息系数的未知流特征选择方法及装置

技术领域

本申请涉及数据挖掘领域，尤其涉及一种基于最大信息系数的未知流特征选择方法及装置。

背景技术

特征选择旨在从原始数据集中选择出一个最优的最小特征子集，已成为数据挖掘和机器学习之前不可或缺的预处理步骤，特别是在大数据时代。大多数特征选择方法都隐含地假设可以在学习之前知道特征类型(分类的、数值的或混合的)，然后设计相应的度量来计算特征之间的相关性。

然而，在实际应用中，特性可能是动态生成的，随着时间的推移一个接一个地到达，我们称之为流特征。现有的大多数流特征选择方法都假设所有动态生成的特征都是同一类型的，或者我们可以动态地知道每个新到达特征的特征类型，但这是不合理和不现实的。

发明内容

针对上述问题，提出了一种基于最大信息系数的未知流特征选择方法及装置。

本申请第一方面提出了一种基于最大信息系数的未知流特征选择方法，包括：

根据公共数据集获取目标数据集，处理所述目标数据集并转换所述目标数据集格式，得到所述目标数据集的条件特征空间与类标签；

根据随机选择特征方法确定所述数据集内特征不断产生并到达的场景；

计算所述场景中新到达的特征和所述目标数据集的类标签之间的第一相关性，根据所述第一相关性与第一特征子集的平均相关性大小差值，确定是否丢弃所述特征；

若所述特征保留，确定所述特征与所述特征子集的第二相关性，并在所述第二相关性大于预设阈值时，将所述特征加入所述第一特征子集，生成第二特征子集；

当没有特征到达所述场景或程序结束时，输出所述第二特征子集。

可选的，所述根据公共数据集获取目标数据集，包括：

选取公共数据集UCI上特征类型混合的数据集作为所述目标数据集的选取目标。

可选的，所述计算所述场景中新到达的特征和所述目标数据集的类标签之间的第一相关性，包括：

对于一个二维变量数据集D＝{(x₁，y₁)，(x₂，y₂)，…(x_n，y_n)}，最大互信息系数MIC(D)的计算方法如下：

MIC(D)＝max{M(D)_k，l}，

其中，MI(D，k，l)表示所述二维变量数据集D上按照整数(k，l)划分的互信息值，当一方互信息为最大值时，k和l的大小通过穷举法得到，其中，k×l≤B(n)，B为样本容量为n的函数。

可选的，以如下公式计算所述第一特征子集的平均相关性大小，所述公式为：

其中，MIC_Cor是为所述第一特征子集的平均相关性，S_t-1为所述第一特征子集，f_i为所述第一特征子集中第i个样本，C为所述目标数据集的类标签。

可选的，所述第一相关性与第一特征子集的平均相关性大小差值，确定是否丢弃所述特征，包括：

对于新到达所述场景的特征f_t，若MIC(f_t；C)＜MIC_Cor(S_t-1，C)，则丢弃所述特征f_t；

若MIC(f_t；C)≥MIC_Cor(S_t-1，C)，则保留所述特征f_t。

可选的，以如下公式确定所述特征与所述第一特征子集的第二相关性，所述公式为：

其中，MIC_gain(f_t，S_t-1)的值为所述第二相关性，C为所述目标数据集的类标签。

可选的，所述在所述第二相关性大于预设阈值时，将所述特征加入所述第一特征子集，生成第二特征子集，包括：

若所述第二相关性MIC_gain(f_t，S_t-1)大于0，将所述特征加入所述第一特征子集，生成第二特征子集；

若所述第二相关性MIC_gain(f_t，S_t-1)小于0，丢弃所述特征。

本申请第二方面提出一种基于最大信息系数的未知流特征选择装置，包括：

筛选模块，用于根据公共数据集获取目标数据集，处理所述目标数据集并转换所述目标数据集格式，得到所述数据集的条件特征空间与类标签；

随机选择模块，用于根据随机选择特征方法确定所述数据集内特征不断产生并到达的场景；

第一计算模块，用于计算所述场景中新到达的特征和所述目标数据集的类标签之间的第一相关性，根据所述第一相关性与第一特征子集的平均相关性大小差值，确定是否丢弃所述特征；

第二计算模块，若所述特征保留下来，用于确定所述特征与所述特征子集的第二相关性，并在所述第二相关性大于预设阈值时，将所述特征加入所述第一特征子集，生成第二特征子集

输出模块，用于当没有特征到达所述场景或程序结束时，输出所述第二特征子集。

本申请第三方面，提出一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述第一方面中任一所述的方法。

本申请第四方面，提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面中任一所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本申请通过提出两个度量标准来确定新到达的特征是否应该被选择，其一决定是否应该选择新的流特征，其二决定丢弃新到达的低相关性特征，在不需要提前知道每个流特征的特征类型信息的情况下，精确保留数据集所需的最佳显著特征，提高效率。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是是根据本申请示例性实施例示出的一种基于最大信息系数的未知流特征选择方法的流程图；

图2是是根据本申请示例性实施例示出的一种基于最大信息系数的未知流特征选择装置的框图；

图3是一种电子设备的框图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

在大数据时代，大多数特征选择方法都隐含地假设可以在学习之前知道特征类型，包括分类的、数值的或混合的，再设计相应度量来计算特征之间的相关性。但是，在流式特征选择场景下，特征类型信息未知更符合实际应用。

图1是根据本申请示例性实施例示出的一种基于最大信息系数的未知流特征选择方法的流程图，包括：

步骤101，根据公共数据集获取目标数据集，处理所述目标数据集并转换所述目标数据集格式，得到所述数据集的条件特征空间与类标签。

本申请实施例中，选取公共数据集UCI上特征类型混合的数据集作为所述目标数据集的选取目标。

具体地说，选取公共数据集UCI上特征类型混合的数据集来进行实验模拟，例如：German、Heart、Australian、Flags、Dermatology等数据集，为更符合实际，我们选取部分大型连续特征数据集来模拟特征类型信息缺失的场景，例如：ARCENE、PROSTATE等数据集。

一种可能的实施例中，选择Heart数据为目标数据集，其中Heart数据集包括303个实例，13个特征以及一个标签信息，该标签用来表明是否患有心脏病。

步骤102，根据随机选择特征方法确定所述数据集内特征不断产生并到达的场景。

本申请实施例中，以步骤101中选取的Heart数据集为例，采用随机选取并处理特征的方法，模拟实际场景中特征不断产生并到达的场景。

步骤103，计算所述场景中新到达的特征和所述目标数据集的类标签之间的第一相关性，根据所述第一相关性与第一特征子集的平均相关性大小差值，确定是否丢弃所述特征。

本申请实施例中，对于条件特征空间为F，类标签为C的目标数据集D，样本空间为U＝{x₁，x₂，...，x_n}，其中x_i是第i个样本，对于流特征选择，无法提前知道|F|的确切数量。在时间戳t处，新的到达流特征为f_t(f_t∈F)，无法确定f_t的属性类型，同时，必须动态决定是否保留或丢弃新的到达特征，时间戳t后选择的特征子集为S_t。

流特征选择的目的是在每个时间戳处最大化S_t的信息，同时使|S_t|的大小尽可能小。互信息可以通过测量S_t和C之间的依赖程度来衡量它们之间共享的信息量。因此，根据信息论，在线流媒体特征选择可以形式化为：

s.t.|S_t|＞0。

MIC(D)＝max{M(D)_k，l}，

本申请实施例中，MIC是一个有效的测量两个变量的依赖性，并可以捕获广泛的泛函和非泛函联系，既可以计算数值数据的互信息，也可以计算类别数据的互信息，MIC值越高，说明变量间相关性越强，反之，MIC值越低，说明变量间相关性越弱。

其次，以MIC计算第一特征子集的平均相关性大小，所述公式为：

由此，对于新到达所述场景的特征f_t，若MIC(f_t；C)＜MIC_Cor(S_t-1，C)，则丢弃所述特征f_t；

若MIC(f_t；C)≥MIC_Cor(S_t-1，C)，则保留所述特征f_t。

步骤104，若所述特征保留下来，确定所述特征与所述特征子集的第二相关性，并在所述第二相关性大于预设阈值时，将所述特征加入所述第一特征子集，生成第二特征子集。

本申请实施例中，以如下公式确定所述特征与所述第一特征子集的第二相关性，所述公式为：

以下具体地说明MIC_gain(f_t，S_t-1)的由来：

定义特征子集S＝[f₁，f₂....f_N]为N维特征向量，C为该特征子集类标签。MIC通过衡量S和C之间的关联程度来衡量它们之间共享的信息量。分别用P(S，C)，P(S)，P(C)表示S和C的联合分布密度及其边际分布。其中，特征与类标签之间的MIC可定义为：

在计算上述公式时，P(S，C)的估计无法避免，假设在时间戳t处，所选特征子集为S_t，直接计算出特征集S_t与类标签C之间的信息，由此，提出一个新的近似，将未知类型流特征选择表述为

其中：

其中，Q_t是由互信息项构造的对称信息矩阵，S_t＝[s₁，s₂....s_N]为所选特征向量，s_N∈{0，1}，β为固定参数。

在时间戳t+1处，假设到达的新特征是f_t+1，将f_t+1添加到第一特征子集中，即所选第二特征子集为S_t+1＝[S_t，f_t+1]，若

则f_t+1可以保留，否则，从S_t+1中删除f_t+1。

由此，判断是否选择f_t+1的条件为：

在变量β被设置为所选特征数量的倒数时，即可在时间戳t处定义度量MIC_gain。

本申请实施例中，若所述第二相关性MIC_gain(f_t，S_t-1)大于0，将所述特征加入所述第一特征子集，生成第二特征子集；

若所述第二相关性MIC_gain(f_t，S_t-1)小于0，丢弃所述特征。

其中，若MIC_gain(f_t，S_t-1)大于0，表示新到达的特征对于所选子集的完整信息是正的。

步骤105，当没有特征到达所述场景或程序结束时，输出所述第二特征子集。

本申请实施例通过提出两个度量标准来确定新到达的特征是否应该被选择，其一决定是否应该选择新的流特征，其二决定丢弃新到达的低相关性特征，在不需要提前知道每个流特征的特征类型的情况下，精确保留数据集所需的最佳显著特征，提高效率。

图2是根据本申请示例性实施例示出的一种基于最大信息系数的未知流特征选择装置200的框图，包括：筛选模块210、随机选择模块220、第一计算模块230、第二计算模块240和输出模块250。

筛选模块210，用于根据公共数据集获取目标数据集，处理所述目标数据集并转换所述目标数据集格式，得到所述数据集的条件特征空间与类标签；

随机选择模块220，用于根据随机选择特征方法确定所述数据集内特征不断产生并到达的场景；

第一计算模块230，用于计算所述场景中新到达的特征和所述目标数据集的类标签之间的第一相关性，根据所述第一相关性与第一特征子集的平均相关性大小差值，确定是否丢弃所述特征；

第二计算模块240，若所述特征保留，用于确定所述特征与所述特征子集的第二相关性，并在所述第二相关性大于预设阈值时，将所述特征加入所述第一特征子集，生成第二特征子集；

输出模块250，用于当没有特征到达所述场景或程序结束时，输出所述第二特征子集。

关于上述实施例中的方法，其中各个方法执行操作的具体方式已经在有关该系统的实施例中进行了详细描述，此处将不做详细阐述说明。

图3示出了可以用来实施本公开的实施例的示例电子设备300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图3所示，设备300包括计算单元301，其可以根据存储在只读存储器(ROM)302中的计算机程序或者从存储单元308加载到随机访问存储器(RAM)303中的计算机程序，来执行各种适当的动作和处理。在RAM 303中，还可存储设备300操作所需的各种程序和数据。计算单元301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口303也连接至总线304。

设备300中的多个部件连接至I/O接口305，包括：输入单元306，例如键盘、鼠标等；输出单元307，例如各种类型的显示器、扬声器等；存储单元308，例如磁盘、光盘等；以及通信单元309，例如网卡、调制解调器、无线通信收发机等。通信单元309允许设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法和处理，例如语音指令响应方法。例如，在一些实施例中，语音指令响应方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 302和/或通信单元309而被载入和/或安装到设备300上。当计算机程序加载到RAM 303并由计算单元301执行时，可以执行上文描述的语音指令响应方法的一个或多个步骤。备选地，在其他实施例中，计算单元301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音指令响应方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种基于最大信息系数的未知流特征选择方法，其特征在于，包括：

根据公共数据集获取目标数据集，处理所述目标数据集并转换所述目标数据集格式，得到所述数据集的条件特征空间与类标签；

若所述特征保留，确定所述特征与所述第一特征子集的第二相关性，并在所述第二相关性大于预设阈值时，将所述特征加入所述第一特征子集，生成第二特征子集；

2.根据权利要求1所述的方法，其特征在于，所述根据公共数据集获取目标数据集，包括：

3.根据权利要求1所述的方法，其特征在于，所述计算所述场景中新到达的特征和所述目标数据集的类标签之间的第一相关性，包括：

MIC(D)＝max{M(D)_k，l}，

4.根据权利要求1所述的方法，其特征在于，以如下公式计算所述第一特征子集的平均相关性大小，所述公式为：

5.根据权利要求1所述的方法，其特征在于，所述第一相关性与第一特征子集的平均相关性大小差值，确定是否丢弃所述特征，包括：

若MIC(f_t；C)≥MIC_Cor(S_t-1，C)，则保留所述特征f_t。

6.根据权利要求1所述的方法，其特征在于，以如下公式确定所述特征与所述第一特征子集的第二相关性，所述公式为：

7.根据权利要求1所述方法，其特征在于，所述在所述第二相关性大于预设阈值时，将所述特征加入所述第一特征子集，生成第二特征子集，包括：

若所述第二相关性MIC_gain(f_t，S_t-1)大于0，将所述特征f_t加入所述第一特征子集，生成第二特征子集；

若所述第二相关性MIC_gain(f_t，S_t-1)小于0，丢弃所述特征f_t。

8.一种基于最大信息系数的未知流特征选择装置，其特征在于，包括：

第二计算模块，若所述特征保留，用于确定所述特征与所述特征子集的第二相关性，并在所述第二相关性大于预设阈值时，将所述特征加入所述第一特征子集，生成第二特征子集；

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7中任一所述的方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-7中任一所述的方法。