CN116720054A

CN116720054A - 一种特征选择方法及系统

Info

Publication number: CN116720054A
Application number: CN202310840181.8A
Authority: CN
Inventors: 刘传鲁; 李常亮; 高伊萱; 薛彬; 尹德义
Original assignee: CASIC Space Engineering Development Co Ltd
Current assignee: CASIC Space Engineering Development Co Ltd
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2023-09-08

Abstract

本发明实施例公开一种特征选择方法及系统。包括计算输入的第一多维特征数据集的方差并进行第一降序排序，过滤得到第二多维特征数据集；对最大相关系数的网格搜索进行改进，并利用改进的最大相关系数对所述第二多维特征数据集进行第一相关性计算，及根据所述第一相关性计算的结果进行第二降序排序，得到第三多维特征数据集；利用改进的最大相关系数和哈希容器对第三多维特征数据集进行第二相关性计算和存储，并根据第一相关性计算的结果和第二相关性计算的结果进行判断，筛选出第四多维特征数据集。该实施方式降低了后续计算的复杂性,使得特征与特征以及特征与标签之间的计算效率提升,减少时间成本,筛选的特征个数可以自主设定，方便灵活。

Description

一种特征选择方法及系统

技术领域

本发明涉及人工智能技术领域。更具体地，涉及一种特征选择方法及系统。

背景技术

现有的最大信息系数(Maximal Information Coefficient，MIC)采用的原始寻优算法存在效率较低的问题，尤其是随着样本量的增大，时间成本呈指数型增长。此外，现有的基于MIC的相关性方法都是通过设置相关性阈值来筛选特征子集，这导致筛选特征个数不可控。

发明内容

本发明的目的在于提供一种特征选择方法及系统，以解决现有技术存在的问题中的至少一个。

为达到上述目的，本发明采用下述技术方案：

本发明第一方面提供了一种特征选择方法，该方法包括

计算输入的第一多维特征数据集的方差并进行第一降序排序，过滤得到第二多维特征数据集；

对最大相关系数的网格搜索进行改进，并利用改进的最大相关系数对所述第二多维特征数据集进行第一相关性计算，及根据所述第一相关性计算的结果进行第二降序排序，得到第三多维特征数据集；

利用所述改进的最大相关系数和哈希容器对所述第三多维特征数据集进行第二相关性计算和存储，并根据所述第一相关性计算的结果和所述第二相关性计算的结果进行判断，筛选出第四多维特征数据集。

可选地，所述计算输入的第一多维特征数据集的方差并进行第一降序排序，过滤得到第二多维特征数据集包括

计算所述第一多维特征数据集中的每个特征数据的方差并进行第一降序排列，选择方差值排名前第二多个的特征数据得到第二多维特征数据集。

可选地，所述利用改进的最大相关系数对所述第二多维特征数据集进行第一相关性计算包括

根据所述第一降序排序的顺序依次计算所述第二多维特征数据集中每个特征数据与标签的相关性。

可选地，所述根据所述第一相关性计算的结果进行第二降序排序，得到第三多维特征数据集包括

将所述第一相关性计算的结果进行所述第二降序排列并存储至第一链表容器，得到第三多维特征数据集。

可选地，所述利用所述改进的最大相关系数对所述第三多维特征数据集进行第二相关性计算包括

计算所述第三多维特征数据集中的任意两个特征数据之间的特征与特征的相关性。

可选地，所述根据所述第一相关性计算的结果和所述第二相关性计算的结果进行判断，筛选出第四多维特征数据集包括

根据所述第二降序排序的顺序，依次对第三多维特征数据集中的特征数据，根据所述第一相关性计算的结果和所述第二相关性计算的结果进行判断，筛选出满足判断条件的第四多个特征数据得到第四多维特征数据集。

可选地，所述根据所述第一相关性计算的结果和所述第二相关性计算的结果进行判断包括

所述判断条件为

式中，SF为存放满足判断条件的特征数据的第二链表容器；|SF|为所述第二链表容器中存放特征数据的个数；C为标签；f_s为所述第二链表容器中的任意一个特征数据；f_y为在所述第一链表容器中待进行判断的一个特征数据；f_x为在所述第一链表容器中除待进行判断的一个特征数据和满足判断条件的特征数据之外的剩余的任意一个特征数据；MICe(f_x,C)为特征数据f_s与标签C的第一相关性计算的结果；MICe(f_x,f_s)为特征数据f_x与特征数据f_s的第二相关性计算的结果；MICe(f_y,C)为特征数据f_y与标签C的第一相关性计算的结果；MICe(f_y,f_s)为特征数据f_y与特征数据f_s的第二相关性计算的结果。

可选地，若所述判断条件成立，则所述待进行判断的一个特征数据被筛选至第四多维特征数据集。

可选地，利用哈希容器对完成所述第二相关性计算的特征数据进行特征索引和存储所述第二相关性计算的结果。

本发明第二方面提供了一种特征选择系统，该系统包括

第一数据集模块，用于计算输入的第一多维特征数据集的方差并进行第一降序排序，过滤得到第二多维特征数据集；

第二数据集模块，用于对最大相关系数的网格搜索进行改进，并利用改进的最大相关系数对所述第二多维特征数据集进行第一相关性计算，及根据所述第一相关性计算的结果进行第二降序排序，得到第三多维特征数据集；

第三数据集模块，用于利用所述改进的最大相关系数和对所述第三多维特征数据集进行第二相关性计算和存储，并根据所述第一相关性计算的结果和所述第二相关性计算的结果进行判断，筛选出第四多维特征数据集。

本发明的有益效果如下：

本发明提供的一种特征选择方法，通过采用计算简单且快速的方差预筛选方法，大大降低了后续计算的复杂性；采用改进的最大相关系数计算相关性，使得特征与特征以及特征与标签之间的计算效率大大提升；采用哈希容器存储已被度量过的成对特征变量，当成对特征变量再次被遍历时可直接映射给出，减少时间成本；筛选的特征个数可以根据用户需求自主设定，方便灵活。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1示出本发明实施例提供的特征选择方法的流程图。

具体实施方式

为了更清楚地说明本发明，下面结合实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

随着信息技术的发展，卫星载荷硬件能力不断提升，空间信息网络中产生的数据急剧增加，海量遥测数据不断积累，海量数据里面有大量冗余信息，这些冗余信息不仅浪费存储资源，而且基于这些冗余信息设计的星载智能算法有较高的时间复杂度和空间复杂度。因此对这些海量数据进行挖掘分析，提炼出重要信息变得越来越重要。

特征选择方法可以消除数据中冗余的特征，降低数据维度，是在海量遥测大数据中提取关键信息的一种重要手段。根据特征选择的方法是否与机器学习模型结合，可分为封装式(Wrapper)方法、嵌入式(Embedded)方法和过滤式(Filter)方法。其中封装式(Wrapper)方法和嵌入式(Embedded)方法需要与机器学习中的分类器交互筛选特征子集。过滤式方法独立于特定的机器学习模型，因此筛选的特征更具泛化性。过滤式方法中基于相关性的方法是通过度量特征与类别间的相关性以及特征与特征之间的相关性来对特征进行筛选。特征与类别间的相关性越强，特征对类别的区分性就越强；特征与特征间的相关性越强，特征间的可替代性就越强，即冗余性越强。度量方法的对于特征相关性和冗余性的衡量非常重要。

目前，很多方法用于衡量两个变量间的相关性，如Pearson相关系数(Pearsoncorrelation coefficient,Pcor)，Spearman相关系数(Spearman's rank correlationcoefficient,Scor)，最大相关系数(Maximal correlation coefficient,Mcor)，距离相关系数(Distance correlation，Dcor)以及最大信息系数(Maximal InformationCoefficient，MIC)。其中MIC方法较之其他的相关性度量方法可以在高维数据中发现广泛范围的关系类型，不局限于特定的函数类型，并且能够对具有相同噪声程度的不同关系类型给出相近的度量值，因此更加适用于特征选择的相关性度量方法。

然而，MIC采用的原始寻优算法存在效率问题，尤其是随着样本量的增大，时间成本呈指数型增长。此外，现有基于MIC的相关性方法都是通过设置相关性阈值来筛选特征子集，这导致筛选特征个数不可控。

有鉴于此，本发明的一个实施例提供了一种特征选择方法，该方法包括计算输入的第一多维特征数据集的方差并进行第一降序排序，过滤得到第二多维特征数据集；对最大相关系数的网格搜索进行改进，并利用改进的最大相关系数对所述第二多维特征数据集进行第一相关性计算，及根据所述第一相关性计算的结果进行第二降序排序，得到第三多维特征数据集；利用所述改进的最大相关系数和哈希容器对所述第三多维特征数据集进行第二相关性计算和存储，并根据所述第一相关性计算的结果和所述第二相关性计算的结果进行判断，筛选出第四多维特征数据集。

本实施例通过引入改进的最大信息系数(高效最大信息系数)MICe，设计一种将方差预筛选和高效最大信息系数MICe结合进行特征选择的方法。

具体的，如图1所示，对于指定个数k的特征选择分为三个阶段，其中第一阶段是通过分析特征本身特性对海量特征数据进行预筛选，降低后两个阶段的计算量。第二阶段与第三阶段是基于高效最大信息系数MICe筛选高相关低冗余特征。其中第二阶段是度量特征与类别间的相关性，应用特征排序方法获得与不同特征与类别之间的强弱关系。第三阶段是冗余性分析阶段，综合考虑特征与类别间的强弱关系，以及特征间的冗余性进行特征选择，最终选出兼顾特征高相关性和低冗余性的特征子集。

本实施例通过采用计算简单且快速的方差预筛选方法，大大降低了后续计算的复杂性；采用改进的最大相关系数计算相关性，使得特征与特征以及特征与标签之间的计算效率大大提升；采用哈希容器存储已被度量过的成对特征变量，当成对特征变量再次被遍历时可直接映射给出，减少时间成本；筛选的特征个数可以根据用户需求自主设定，方便灵活。

在一个具体的示例中，高效最大信息系数估计方法MICe与最大信息系数MIC方法不同之处在于对网格搜索的策略上。MIC既存在均分轴划分数量大于动态划分轴划分数量的情况，也存在动态划分轴划分数量大于均分轴划分数量的情况，而MICe通过更加细致划分均分轴，仅存在均分轴划分数量大于动态划分轴划分数量的情况，减少了动态划分对网格搜索过程，因此MICe在很大程度上缩减了时间成本。

进一步的，以(X,Y)表示二元随机变量，均分y轴的最大信息为

式中，k为以任意形式划分x轴的列数；[l]为均分y轴的行数；G₁(k,[l])表示任意形式划分x轴为k列，均分y轴为l行的网格集合；G₁∈G₁(k,[l])表示G₁(k,[l])中使互信息最大的网格元素；(X,Y)|G₁表示随机变量(X,Y)在网格G₁内的划分；I((X,Y)|G₁)表示随机变量(X,Y)在网格G₁的划分下计算的互信息。

均分x轴的最大互信息

式中，[k]表示均分x轴的列数；l表示以任意形式划分y轴的行数；G₂([k],l)表示均分x轴为k列，任意形式划分y轴为l行的网格集合；G₂∈G₂([k],l)表示G₂([k],l)中使互信息最大的网格元素；(X,Y)|G₂表示随机变量(X,Y)在网格G₂内的划分；I((X,Y)|G₂)表示随机变量(X,Y)在网格G₂的划分下计算的互信息。

总体均分最大互信息为

式中，l表示划分y轴的行数，k表示划分x轴的列数；G₂∈G₂([k],l)表示网格G₂属于均分x轴为k列，任意形式划分y轴为l行的网格集合中的一个元素；G₁∈G₁(k,[l])表示网格G₁属于任意形式划分x轴为k列，均分y轴为l行的网格集合中的一个元素。

需要说明的是，公式中两个G所属于的集合不一样，因为两个网格集合中的均分轴是不同的。

进一步的，以(X,Y)表示二元随机变量，(X,Y)的总体均分特征矩阵为

式中，[M]表示总体均分特征矩阵；(X,Y)_k,l表示对随机变量(X,Y)划分为l行，k列网格所获得最大归一化互信息的划分；min{k,l}表示取k，l中的最小值，logmin{k,l}表示对k，l中的最小值取对数。

进一步的，给定二元变量数据集D＝(x,y)，(x,y)表示二元随机变量(X,Y)的样本，均分特征矩阵为

式中，表示均分特征矩阵；D表示二元变量数据集；(D)_k,l表示对二元变量数据集划分为l行，k列网格所获得最大归一化互信息；I^*(D,k,l)表示总体均分最大互信息。

进一步的，给定样本量为n的二元变量数据集D以及在y轴划分数量k与在x轴划分数量l满足的上限条件kl＜B(n)，高效最大信息系数估计MICe为

式中，kl表示l行，k列中正整数k与l的乘积；n表示样本的数量；B(n)的表达式为B(n)＝n^α，0＜α＜1。

在一种可能的实现方式中，所述计算输入的第一多维特征数据集的方差并进行第一降序排序，过滤得到第二多维特征数据集包括计算所述第一多维特征数据集中的每个特征数据的方差并进行第一降序排列，选择方差值排名前第二多个的特征数据得到第二多维特征数据集。

具体的，考虑到海量数据特征维数高，其中有些特征对类别的区分性弱，这一部分数据表现特点就是特征值的变动幅度小。为了降低时间成本，在进行MICe的相关性特征选择之前，首先采用计算简单快速的方差筛选方法，滤掉不太重要的特征。

以{F,C}表示含有M个特征的数据集，其中F＝(f₁,f₂,…,f_M)表示M个特征，计算每一个特征的方差，按照其方差值大小进行降序排列，选择方差值排名前m(K<m<M)个特征。其中f₁表示第一个特征，f₂表示第二个特征，……，f_M表示第M个特征。

在一种可能的实现方式中，所述利用改进的最大相关系数对所述第二多维特征数据集进行第一相关性计算包括根据所述第一降序排序的顺序依次计算所述第二多维特征数据集中每个特征数据与标签的相关性。

具体的，本实施例基于MICe的特性选择对应方法的第二阶段与第三阶段，首先是特征与标签之间相关性计算，度量每一个特征与标签间的相关性，并将每一个特征与类别(标签)相关性进行保存。由于第二阶段仅能得出特征与标签间的相关性，无法删除冗余特征，因此这一阶段的结果作为第三阶段的输入。

在一种可能的实现方式中，所述根据所述第一相关性计算的结果进行第二降序排序，得到第三多维特征数据集包括将所述第一相关性计算的结果进行所述第二降序排列并存储至第一链表容器，得到第三多维特征数据集。

具体的，特征与标签的相关性包括以F＝(f₁,f₂,…,f_m)表示第一阶段经过低方差过滤处理后的m个特征，C表示分类标签。

进一步的，第i个特征f_i与标签C之间的相关性表示为MICe(f_i,C)，将特征以及其与标签之间的相关性的结果降序排列存储至链表容器FC_Corr。

在一种可能的实现方式中，所述利用所述改进的最大相关系数对所述第三多维特征数据集进行第二相关性计算包括计算所述第三多维特征数据集中的任意两个特征数据之间的特征与特征的相关性。

具体的，特征与特征的冗余消除中的冗余性分析是选择K个最佳特征的核心，其中F中第i个特征f_i与第j个特征f_j之间的相关性表示为MICe(f_i,f_j)，MICe(f_i,f_j)值越大，表明第i个特征f_i与第j个特征f_j之间的可替代性越强，即冗余性越强。

在一种可能的实现方式中，所述根据所述第一相关性计算的结果和所述第二相关性计算的结果进行判断，筛选出第四多维特征数据集包括根据所述第二降序排序的顺序，依次对第三多维特征数据集中的特征数据，根据所述第一相关性计算的结果和所述第二相关性计算的结果进行判断，筛选出满足判断条件的第四多个特征数据得到第四多维特征数据集。

具体的，本实施例对特征子集的筛选是循环进行的，首先在FC_Corr中取出第一个特征加入子集链表容器SF，然后在FC_Corr中依次取出下一个特征，按照判断规则，确定是否可以加入子集链表容器SF，依次进行直到子集链表容器SF中特征个数达到K个。

在一种可能的实现方式中，所述根据所述第一相关性计算的结果和所述第二相关性计算的结果进行判断包括所述判断条件为

在一个具体的示例中，在选择第s+1个特征时，对已选择的存储在链表容器SF中的s个特征(s<K<m)，对于在FC_Corr中选择出的加入SF中的第s+1个特征f_y(s+1≤K)与FC_Corr选择出f_y后剩余m-s-1个特征中的任意一个特征f_x的关系满足上述不等式。

进一步的，SF表示存放已筛选特征的链表容器；|SF|表示特征链表容器中已存放的特征个数；f_x表示其中未被加入SF中的特征；C表示标签；(f_x,C)表示特征f_x和标签C组成的二元变量数据集；f_s∈SF表示SF特征链表容器中的任意一个特征f_s；(f_x,f_s)表示特征f_x和特征f_s组成的二元变量数据集；f_s表示为一个特征。

在一种可能的实现方式中，若所述判断条件成立，则所述待进行判断的一个特征数据被筛选至第四多维特征数据集。

在一种可能的实现方式中，利用哈希容器对完成所述第二相关性计算的特征数据进行特征索引和存储所述第二相关性计算的结果。

具体的，在对特征进行遍历选取最佳特征子集时，考虑到特征之间的相关性会重复计算，为了提升效率，引入哈希容器FFHash，对计算过相关性的特征进行特征索引和相关值进行存储。

本发明的另一个实施例提供了一种特征选择系统，该系统包括第一数据集模块，用于计算输入的第一多维特征数据集的方差并进行第一降序排序，过滤得到第二多维特征数据集；第二数据集模块，用于对最大相关系数的网格搜索进行改进，并利用改进的最大相关系数对所述第二多维特征数据集进行第一相关性计算，及根据所述第一相关性计算的结果进行第二降序排序，得到第三多维特征数据集；第三数据集模块，用于利用所述改进的最大相关系数和哈希容器对所述第三多维特征数据集进行第二相关性计算和存储，并根据所述第一相关性计算的结果和所述第二相关性计算的结果进行判断，筛选出第四多维特征数据集。

在本发明的描述中，需要说明的是，术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

还需要说明的是，在本发明的描述中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于本领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种特征选择方法，其特征在于，该方法包括

2.根据权利要求1所述的特征选择方法，其特征在于，

所述计算输入的第一多维特征数据集的方差并进行第一降序排序，过滤得到第二多维特征数据集包括

3.根据权利要求2所述的特征选择方法，其特征在于，

所述利用改进的最大相关系数对所述第二多维特征数据集进行第一相关性计算包括

4.根据权利要求3所述的特征选择方法，其特征在于，

所述根据所述第一相关性计算的结果进行第二降序排序，得到第三多维特征数据集包括

5.根据权利要求4所述的特征选择方法，其特征在于，

所述利用所述改进的最大相关系数对所述第三多维特征数据集进行第二相关性计算包括

6.根据权利要求5所述的特征选择方法，其特征在于，

所述根据所述第一相关性计算的结果和所述第二相关性计算的结果进行判断，筛选出第四多维特征数据集包括

7.根据权利要求6所述的特征选择方法，其特征在于，

所述根据所述第一相关性计算的结果和所述第二相关性计算的结果进行判断包括

所述判断条件为

8.根据权利要求7所述的特征选择方法，其特征在于，

若所述判断条件成立，则所述待进行判断的一个特征数据被筛选至第四多维特征数据集。

9.根据权利要求8所述的特征选择方法，其特征在于，该方法还包括

利用哈希容器对完成所述第二相关性计算的特征数据进行特征索引和存储所述第二相关性计算的结果。

10.一种特征选择系统，其特征在于，该系统包括

第三数据集模块，用于利用所述改进的最大相关系数和哈希容器对所述第三多维特征数据集进行第二相关性计算和存储，并根据所述第一相关性计算的结果和所述第二相关性计算的结果进行判断，筛选出第四多维特征数据集。