CN113052221A - 一种特征选择方法、装置以及电子设备 - Google Patents
一种特征选择方法、装置以及电子设备 Download PDFInfo
- Publication number
- CN113052221A CN113052221A CN202110288179.5A CN202110288179A CN113052221A CN 113052221 A CN113052221 A CN 113052221A CN 202110288179 A CN202110288179 A CN 202110288179A CN 113052221 A CN113052221 A CN 113052221A
- Authority
- CN
- China
- Prior art keywords
- features
- preset
- verification set
- feature
- evaluation index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
Abstract
本申请提供了一种特征选择方法、装置以及电子设备,涉及数据处理技术领域,缓解了预设模型的预测准确度较低的技术问题。该方法包括:获取第一验证集,所述第一验证集内包含多个待选择特征;对所述待选择特征所在列的特征值按照重置特征值的方式进行数据处理,得到第二验证集;利用预设模型确定所述第二验证集对应的实际评估指标;基于所述实际评估指标和预设评估指标,利用预设公式确定所述待选择特征的分数值;根据多个所述待选择特征对应的分数值,删除预设个数的所述待选择特征。
Description
技术领域
本申请涉及数据处理技术领域,尤其是涉及一种特征选择方法、装置以及电子设备。
背景技术
目前,在机器学习领域中,为了减少计算成本和存储量以及提高预测的准确性,特征选择的技术变得越来越重要,理论上,高维数模型比低维数模型更准确,所以,需要根据大量的特征进行训练,建立高维数模型。在建立高维数模型的过程中,需要选择特征,通常是根据模型训练时的特征重要性来进行的。模型训练时提供的特征重要性一般包括gain和freq两种,gain增益意味着相应的特征对通过对模型中的每个树采取每个特征的贡献而计算出的模型的相对贡献,可以是信息熵增益或损失函数的增益,freq频率(频率)是表示特定特征在模型树中发生的相对次数的百分比。目前常见的特征选择方法包括Embedded嵌入法、Wrapper包装法等,其中,Embedded嵌入法包括SelectFromMode方法。
然而,特征重要性和模型训练相关,和模型预测过程无关,所以特征重要性完全无法体现特征对模型预测的作用效果,如果根据不准确、不相关的训练数据建立高维数模型,则该高维数模型的准确性可能劣化。因此,在这种情况下,该高维数模型不能对信息结构提供令人满意的描述。
发明内容
本申请的目的在于提供一种特征选择方法、装置以及电子设备,以缓解预设模型的预测准确度较低的技术问题。
第一方面,本申请实施例提供了一种特征选择方法,所述方法包括:
获取第一验证集,所述第一验证集内包含多个待选择特征;
对所述待选择特征所在列的特征值按照重置特征值的方式进行数据处理,得到第二验证集;
利用预设模型确定所述第二验证集对应的实际评估指标;
基于所述实际评估指标和预设评估指标,利用预设公式确定所述待选择特征的分数值;
根据多个所述待选择特征对应的分数值,删除预设个数的所述待选择特征。
在一个可能的实现中,对所述待选择特征所在列的特征值按照重置特征值的方式进行数据处理,得到第二验证集的步骤,包括:
针对待选择特征所在列对应的特征值,确定所述特征值的中位数;
将所述中位数确定为待选择特征所在列对应的新的特征值;
根据所述待选择特征所在列的新的特征值,得到第二验证集。
在一个可能的实现中,对所述待选择特征所在列的特征值按照重置特征值的方式进行数据处理,得到第二验证集的步骤,包括:
按照预设次数对待选择特征所在列的特征值进行随机排序,得到多个第二验证集。
在一个可能的实现中,所述方法还包括:
通过预设输入接口获取训练集,所述训练集内包含与所述第一验证集相同的多个待选择特征;
对所述训练集进行机器学习训练,得到预设模型。
在一个可能的实现中,每个用户数据对应多个待选择特征,针对所述用户数据对应的多个所述待选择特征,预先设置每个用户数据的初始标注字段;所述方法还包括:
利用所述预设模型计算第一验证集对应的第一预测标注字段;
将所述第一预测标注字段与所述初始标注字段进行比较,确定所述第一预测标注字段对应的预设评估指标。
在一个可能的实现中,利用预设模型确定所述第二验证集对应的实际评估指标的步骤,包括:
利用预设模型计算所述第二验证集对应的第二预测标注字段;
将所述第二预测标注字段与初始标注字段进行比较,确定所述第二预测标注字段对应的实际评估指标。
在一个可能的实现中,根据多个所述待选择特征对应的分数值,删除预设个数的所述待选择特征的步骤,包括:
对多个所述待选择特征对应的分数值按照由小到大的顺序进行排序,并从排序的尾端开始删除预设个数的所述待选择特征。
第二方面,提供了一种特征选择装置,所述装置包括:
获取模块,用于获取第一验证集,所述第一验证集内包含多个待选择特征;
处理模块,用于对所述待选择特征所在列的特征值按照重置特征值的方式进行数据处理,得到第二验证集;
第一确定模块,用于利用预设模型确定所述第二验证集对应的实际评估指标;
第二确定模块,用于基于所述实际评估指标和预设评估指标,利用预设公式确定所述待选择特征的分数值;
删除模块,用于根据多个所述待选择特征对应的分数值,删除预设个数的所述待选择特征。
第三方面,本申请实施例又提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的第一方面所述方法。
第四方面,本申请实施例又提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述的第一方面所述方法。
本申请实施例带来了以下有益效果:
本申请实施例提供的一种特征选择方法、装置以及电子设备,能够获取第一验证集,第一验证集内包含多个待选择特征;对所述待选择特征所在列的特征值按照重置特征值的方式进行数据处理,得到第二验证集,利用预设模型确定第二验证集对应的实际评估指标;基于实际评估指标和预设评估指标,利用预设公式确定待选择特征的分数值;根据多个待选择特征对应的分数值,删除预设个数的待选择特征。本方案中,对第一验证集中的待选择特征所在列的特征值按照预设处理方式进行数据处理,得到待选择特征对应的错误特征值,进而得到错误的第二验证集,并利用预设模型预测错误第二验证集对应的实际评估指标,基于实际评估指标和预设评估指标,利用预设公式确定待选择特征的分数值,由于待选择特征的分数值是根据错误的第二验证集得到的,所以,当分数值越小时,则说明改变第二验证集内的特征值会导致预设模型的预测精度下降,即待选择特征的特征值对预设模型是有益的,且便于训练出准确的预设模型;当分数值越大时,则说明改变第二验证集内的特征值会导致预设模型的预测精度上升,即待选择特征的特征值对预设模型是无益的,所以需要根据多个待选择特征对应的分数值,删除预设个数的待选择特征,进而,能够减少待选择特征的数量,以及筛选出对预设模型有益的待选择特征,以缓解预设模型的预测准确度较低的技术问题。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的特征选择方法的流程示意图;
图2为本申请实施例提供的一种特征选择装置的结构示意图;
图3示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
目前,在机器学习领域中,为了减少计算成本和存储量以及提高预测的准确性,特征选择的技术变得越来越重要,理论上,高维数模型比低维数模型更准确,所以,需要根据大量的特征进行训练,建立高维数模型。在建立高维数模型的过程中,需要选择特征,通常是根据模型训练时的特征重要性来进行的。模型训练时提供的特征重要性一般包括gain和freq两种,gain增益意味着相应的特征对通过对模型中的每个树采取每个特征的贡献而计算出的模型的相对贡献,可以是信息熵增益或损失函数的增益,freq频率(频率)是表示特定特征在模型树中发生的相对次数的百分比。目前常见的特征选择方法包括Embedded嵌入法、Wrapper包装法等,其中,Embedded嵌入法包括SelectFromMode方法。然而,特征重要性和模型训练相关,和模型预测过程无关,所以特征重要性完全无法体现特征对模型预测的作用效果,如果根据不准确、不相关的训练数据建立高维数模型,则该高维数模型的准确性可能劣化。因此,在这种情况下,该高维数模型不能对信息结构提供令人满意的描述。
基于此,本申请实施例提供了一种特征选择方法、装置以及电子设备,通过该方法可以缓解预设模型的预测准确度较低的技术问题。
下面结合附图对本申请实施例进行进一步地介绍。
图1为本申请实施例提供的一种特征选择方法的流程示意图。其中,该方法应用于电子设备,如图1所示,该方法包括:
步骤S110,获取第一验证集,第一验证集内包含多个待选择特征;
需要说明的是,需要提前配置针对第一验证集的输入接口,进而可以根据输入接口获取第一验证集,第一验证集内包含多个待选择特征,电子设备会自动统计出待选择特征的数量M。
示例性的,第一验证集内包含的待选择特征是:年龄及性别等,其中,年龄包括的数据是:10岁、20岁、30岁、40岁及50岁,即年龄所在列的特征值是:10岁、20岁、30岁、40岁及50岁。
步骤S120,对所述待选择特征所在列的特征值按照重置特征值的方式进行数据处理,得到第二验证集;
需要说明的是,重置特征值的方式包括:重新计算并确定特征值,或/和对特征值重新排序,示例性的,选择一个待选择特征年龄,针对年龄所在列的特征值,重新计算并确定特征值,得到第二验证集1,或/和对年龄所在列的特征值重新排序,重复多次,得到多个第二验证集2。
步骤S130,利用预设模型确定第二验证集对应的实际评估指标;
需要说明的是,预设模型是预先利用待选择特征对应的数据训练得到的,实际评估指标是指利用预设模型预测第二验证集是否准确的评估指标,将第二验证集输入预设模型,可以利用预设模型确定第二验证集对应的实际评估指标。
示例性的,将第二验证集1或/和多个第二验证集2依次输入预设模型,可以利用预设模型确定第二验证集1对应的实际评估指标1,多个第二验证集2对应的多个实际评估指标2。
步骤S140,基于实际评估指标和预设评估指标,利用预设公式确定待选择特征的分数值;
需要说明的是,预设评估指标是指用预设模型预测第一验证集是否准确的评估指标,预设公式是:
分数值=“实际评估指标1”/3+(多个“实际评估指标2”之和)/p*2/3-预设评估指标,
其中,p为实际评估指标2的个数。
在本步骤中,将实际评估指标和预设评估指标代入预设公式中,并利用预设公式确定待选择特征的分数值。
步骤S150,根据多个待选择特征对应的分数值,删除预设个数的待选择特征。
在本步骤中,由于已经计算出了多个待选择特征对应的分数值,所以可以根据多个待选择特征对应的分数值,删除预设个数的待选择特征,保留剩余的待选择特征。
本申请实施例中,可以获取第一验证集,第一验证集内包含多个待选择特征;对待选择特征所在列的特征值按照预设处理方式进行数据处理,得到第二验证集,利用预设模型确定第二验证集对应的实际评估指标;基于实际评估指标和预设评估指标,利用预设公式确定待选择特征的分数值;根据多个待选择特征对应的分数值,删除预设个数的待选择特征。本实施例中,对第一验证集中的待选择特征所在列的特征值按照预设处理方式进行数据处理,得到待选择特征对应的错误特征值,进而得到错误的第二验证集,并利用预设模型预测错误第二验证集对应的实际评估指标,基于实际评估指标和预设评估指标,利用预设公式确定待选择特征的分数值,由于待选择特征的分数值是根据错误的第二验证集得到的,所以,当分数值越小时,则说明改变第二验证集内的特征值会导致预设模型的预测精度下降,即待选择特征的特征值对预设模型是有益的,且便于训练出准确的预设模型;当分数值越大时,则说明改变第二验证集内的特征值会导致预设模型的预测精度上升,即待选择特征的特征值对预设模型是无益的,所以需要根据多个待选择特征对应的分数值,删除预设个数的待选择特征,进而,能够减少待选择特征的数量,以及筛选出对预设模型有益的待选择特征,以缓解预设模型的预测准确度较低的技术问题。
下面对上述步骤进行详细介绍。
在一些实施例中,基于上述步骤S120,可以按照重置特征值的方式对待选择特征进行数据处理。作为一个示例,上述步骤S120可以包括如下步骤:
步骤a),针对待选择特征所在列对应的特征值,确定特征值的中位数;
步骤b),将中位数确定为待选择特征所在列对应的新的特征值;
步骤c),根据待选择特征所在列的新的特征值,得到第二验证集。
对于上述步骤a),示例性的,针对年龄所在列对应的特征值:10岁、20岁、30岁、40岁及50岁,计算10岁、20岁、30岁、40岁及50岁的中位数。
对于上述步骤b),示例性的,将年龄所在列对应的特征值由“10岁、20岁、30岁、40岁及50岁”,均重置成上一步计算得到的中位数。
对于上述步骤c),将年龄所在列的特征值重置后,得到第二验证集。
本申请实施例可以针对待选择特征所在列对应的特征值,确定特征值的中位数;将中位数确定为待选择特征所在列对应的新的特征值;根据待选择特征所在列的新的特征值,得到第二验证集。所以,电子设备可以通过重置待选择特征的特征值,得到第二验证集,进而,便于利用第二验证集验证预设模型的预测准确度。
在一些实施例中,基于上述步骤S120,可以按照重新排序的方式对待选择特征进行数据处理。作为一个示例,上述步骤S120可以包括以下步骤:
步骤d),按照预设次数对待选择特征所在列的特征值进行随机排序,得到多个第二验证集。
示例性的,按照预设次数,例如3次,将待选择特征所在列的特征值随机打乱,并对待选择特征所在列的特征值进行随机排序,得到3个第二验证集。
本申请实施例可以按照预设次数对待选择特征所在列的特征值进行随机排序,得到多个第二验证集。所以,电子设备可以通过对待选择特征的特征值重新排序,得到多个第二验证集,进而,便于利用第二验证集验证预设模型的预测准确度。
在一些实施例中,可以根据获取的训练集进行训练,以便得到预设模型。作为一个示例,上述方法还可以包括如下步骤:
步骤e),通过预设输入接口获取训练集,训练集内包含与第一验证集相同的多个待选择特征;
步骤f),对训练集进行机器学习训练,得到预设模型。
对于上述步骤e),需要说明的是,通过预设输入接口可以获取训练集,训练集内包含与第一验证集相同的多个待选择特征。如果只有训练集,需要提前将训练集切分成训练集和第一验证集两个部分,且训练集和第一验证集包含相同的待选择特征。
对于上述步骤f),对训练集进行机器学习训练,可以得到预设模型。
本申请实施例可以通过预设输入接口获取训练集,训练集内包含与第一验证集相同的多个待选择特征;对训练集进行机器学习训练,得到预设模型。所以,电子设备可以根据训练集进行训练,得到预设模型,进而,便于后续利用第二验证集验证预设模型的预测准确度。
在一些实施例中,可以利用第一预测标注字段确定预设评估指标。作为一个示例,每个用户数据对应多个待选择特征,针对用户数据对应的多个待选择特征,预先设置每个用户数据的初始标注字段;上述方法还可以包括如下步骤:
步骤g),利用预设模型计算第一验证集对应的第一预测标注字段;
步骤h),将第一预测标注字段与初始标注字段进行比较,确定第一预测标注字段对应的预设评估指标。
对于上述步骤g),需要说明的是,初始标注字段是每个用户数据对应的实际喜好习惯等等,第一预测标注字段是预测出的每个用户数据对应的喜好习惯等等。具体的,将第一验证集输入预设模型,并利用预设模型计算第一验证集对应的第一预测标注字段。
对于上述步骤h),将第一预测标注字段与初始标注字段进行比较,例如,将第一预测标注字段与初始标注字段做差,得出差值,并利用差值确定第一预测标注字段对应的预设评估指标。
本申请实施例可以利用预设模型计算第一验证集对应的第一预测标注字段;将第一预测标注字段与初始标注字段进行比较,确定第一预测标注字段对应的预设评估指标。所以,电子设备利用预设模型可以得到第一验证集对应的预设评估指标,进而,便于根据预设评估指标计算待选择特征的分数值。
在一些实施例中,基于上述步骤S130,可以利用第一预测标注字段确定实际评估指标。作为一个示例,上述步骤S130可以包括如下步骤:
步骤i),利用预设模型计算第二验证集对应的第二预测标注字段;
步骤j),将第二预测标注字段与初始标注字段进行比较,确定第二预测标注字段对应的实际评估指标。
对于上述步骤i),具体的,将第二验证集输入预设模型内,并利用预设模型计算第二验证集对应的第二预测标注字段。
对于上述步骤j),将第二预测标注字段与初始标注字段进行比较,例如,将第二预测标注字段与初始标注字段做差,得出差值,并利用差值确定第二预测标注字段对应的实际评估指标。
本申请实施例可以利用预设模型计算第二验证集对应的第二预测标注字段;将第二预测标注字段与初始标注字段进行比较,确定第二预测标注字段对应的实际评估指标。所以,电子设备利用预设模型可以得到第二验证集对应的实际评估指标,进而,便于根据实际评估指标计算待选择特征的分数值。
在一些实施例中,可以作为一个示例,上述方法还需要预先配置最终入模变量的数量N,以及迭代轮数k。具体的,入模变量的数量N即是经k轮迭代并删除后剩余的待选择特征的数量,迭代轮数k应该符合(M-N)/50<=k<=(M-N)/10,当M-N特别大的时候,k推荐取20。在这一步骤也可以配置必须保留的待选择特征,配置完成后,在k轮迭代并删除的过程中,必须保留的待选择特征均不被删除。
在一些实施例中,可以作为一个示例,步骤S150可以包括以下步骤:
步骤k),对多个待选择特征对应的分数值按照由小到大的顺序进行排序,并从排序的尾端开始删除预设个数的待选择特征。
需要说明的是,预设个数=(M-N)/k,在进行k轮循环筛选待选择特征时,每轮删除(M-N)/k个待选择特征,具体的,在每轮筛选待选择特征过程中,对多个待选择特征对应的分数值按照由小到大的顺序进行排序,并从排序的尾端开始删除(M-N)/k个待选择特征。
本申请实施例可以对多个待选择特征对应的分数值按照由小到大的顺序进行排序,并从排序的尾端开始删除预设个数的待选择特征。所以,电子设备在每一轮均可以删除预设个数的待选择特征,进而,得到最终剩余的待选择特征,输出新的训练集和验证集宽表,待选择特征仅保留筛选后的N个,并输出文档,对原始M个待选择特征进行标记是否被保留。
图2提供了一种特征选择装置的结构示意图。该装置可以应用于电子设备。如图2所示,特征选择装置200包括:
获取模块201,用于获取第一验证集,第一验证集内包含多个待选择特征;
处理模块202,用于对所述待选择特征所在列的特征值按照重置特征值的方式进行数据处理,得到第二验证集;
第一确定模块203,用于利用预设模型确定第二验证集对应的实际评估指标;
第二确定模块204,用于基于实际评估指标和预设评估指标,利用预设公式确定待选择特征的分数值;
删除模块205,用于根据多个待选择特征对应的分数值,删除预设个数的待选择特征。
在一些实施例中,处理模块具体用于:
针对待选择特征所在列对应的特征值,确定特征值的中位数;
将中位数确定为待选择特征所在列对应的新的特征值;
根据待选择特征所在列的新的特征值,得到第二验证集。
在一些实施例中,处理模块具体用于:
按照预设次数对待选择特征所在列的特征值进行随机排序,得到多个第二验证集。
在一些实施例中,特征选择装置还用于:
通过预设输入接口获取训练集,训练集内包含与所述第一验证集相同的多个待选择特征;
对训练集进行机器学习训练,得到预设模型。
在一些实施例中,每个用户数据对应多个所述待选择特征,针对用户数据对应的多个待选择特征,预先设置每个用户数据的初始标注字段;特征选择装置还用于:
利用预设模型计算第一验证集对应的第一预测标注字段;
将第一预测标注字段与初始标注字段进行比较,确定第一预测标注字段对应的预设评估指标。
在一些实施例中,第一确定模块具体用于:
利用预设模型计算第二验证集对应的第二预测标注字段;
将第二预测标注字段与初始标注字段进行比较,确定第二预测标注字段对应的实际评估指标。
在一些实施例中,删除模块具体用于:
对多个待选择特征对应的分数值按照由小到大的顺序进行排序,并从排序的尾端开始删除预设个数的待选择特征。
本申请实施例提供的特征选择装置,与上述实施例提供的特征选择方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本申请实施例提供的一种电子设备,如图3所示,电子设备300包括存储器301、处理器302,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例提供的方法的步骤。
参见图3,电子设备还包括:总线303和通信接口304,处理器302、通信接口304和存储器301通过总线303连接;处理器302用于执行存储器301中存储的可执行模块,例如计算机程序。
其中,存储器301可能包含高速随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口304(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线303可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器301用于存储程序,所述处理器302在接收到执行指令后,执行所述程序,前述本申请任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器302中,或者由处理器302实现。
处理器302可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器302中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器302可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器301,处理器302读取存储器301中的信息,结合其硬件完成上述方法的步骤。
对应于上述特征选择方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述特征选择方法的步骤。
本申请实施例所提供的特征选择装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
再例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述特征选择方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种特征选择方法,其特征在于,所述方法包括:
获取第一验证集,所述第一验证集内包含多个待选择特征;
对所述待选择特征所在列的特征值按照重置特征值的方式进行数据处理,得到第二验证集;
利用预设模型确定所述第二验证集对应的实际评估指标;
基于所述实际评估指标和预设评估指标,利用预设公式确定所述待选择特征的分数值;
根据多个所述待选择特征对应的分数值,删除预设个数的所述待选择特征。
2.根据权利要求1所述的特征选择方法,其特征在于,对所述待选择特征所在列的特征值按照重置特征值的方式进行数据处理,得到第二验证集的步骤,包括:
针对待选择特征所在列对应的特征值,确定所述特征值的中位数;
将所述中位数确定为待选择特征所在列对应的新的特征值;
根据所述待选择特征所在列的新的特征值,得到第二验证集。
3.根据权利要求1所述的特征选择方法,其特征在于,对所述待选择特征所在列的特征值按照重置特征值的方式进行数据处理,得到第二验证集的步骤,包括:
按照预设次数对待选择特征所在列的特征值进行随机排序,得到多个第二验证集。
4.根据权利要求1所述的特征选择方法,其特征在于,所述方法还包括:
通过预设输入接口获取训练集,所述训练集内包含与所述第一验证集相同的多个待选择特征;
对所述训练集进行机器学习训练,得到预设模型。
5.根据权利要求4所述的特征选择方法,其特征在于,每个用户数据对应多个待选择特征,针对所述用户数据对应的多个所述待选择特征,预先设置每个用户数据的初始标注字段;所述方法还包括:
利用所述预设模型计算第一验证集对应的第一预测标注字段;
将所述第一预测标注字段与所述初始标注字段进行比较,确定所述第一预测标注字段对应的预设评估指标。
6.根据权利要求1所述的特征选择方法,其特征在于,利用预设模型确定所述第二验证集对应的实际评估指标的步骤,包括:
利用预设模型计算所述第二验证集对应的第二预测标注字段;
将所述第二预测标注字段与初始标注字段进行比较,确定所述第二预测标注字段对应的实际评估指标。
7.根据权利要求1所述的特征选择方法,其特征在于,根据多个所述待选择特征对应的分数值,删除预设个数的所述待选择特征的步骤,包括:
对多个所述待选择特征对应的分数值按照由小到大的顺序进行排序,并从排序的尾端开始删除预设个数的所述待选择特征。
8.一种特征选择装置,其特征在于,所述装置包括:
获取模块,用于获取第一验证集,所述第一验证集内包含多个待选择特征;
处理模块,用于对所述待选择特征所在列的特征值按照重置特征值的方式进行数据处理,得到第二验证集;
第一确定模块,用于利用预设模型确定所述第二验证集对应的实际评估指标;
第二确定模块,用于基于所述实际评估指标和预设评估指标,利用预设公式确定所述待选择特征的分数值;
删除模块,用于根据多个所述待选择特征对应的分数值,删除预设个数的所述待选择特征。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110288179.5A CN113052221A (zh) | 2021-03-17 | 2021-03-17 | 一种特征选择方法、装置以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110288179.5A CN113052221A (zh) | 2021-03-17 | 2021-03-17 | 一种特征选择方法、装置以及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113052221A true CN113052221A (zh) | 2021-06-29 |
Family
ID=76513217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110288179.5A Pending CN113052221A (zh) | 2021-03-17 | 2021-03-17 | 一种特征选择方法、装置以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113052221A (zh) |
-
2021
- 2021-03-17 CN CN202110288179.5A patent/CN113052221A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107729227B (zh) | 应用程序测试范围确定方法、系统、服务器和存储介质 | |
CN108875018B (zh) | 新闻影响力评估方法、装置及电子设备 | |
CN110865785B (zh) | 像素尺寸的获取方法、装置及电子设备 | |
CN111148045B (zh) | 用户行为周期提取方法及设备 | |
CN111091287A (zh) | 风险对象识别方法、装置以及计算机设备 | |
CN111309586A (zh) | 一种命令测试方法、装置及其存储介质 | |
CN111612357A (zh) | 一种为骑手匹配商家的方法、装置、存储介质和电子设备 | |
CN113568836B (zh) | 多时间序列的样本特征提取方法以应用其的软件检测方法 | |
CN108228598B (zh) | 媒体信息排序方法、服务器和系统 | |
CN113032524A (zh) | 商标侵权识别方法、终端设备及存储介质 | |
CN113052221A (zh) | 一种特征选择方法、装置以及电子设备 | |
CN110704573B (zh) | 目录存储方法、装置、计算机设备及存储介质 | |
CN116519003A (zh) | 一种路径规划方法、装置、电子设备及存储介质 | |
CN108804561B (zh) | 数据同步方法及装置 | |
CN111190896A (zh) | 数据处理方法、装置、存储介质和计算机设备 | |
CN111291567A (zh) | 人工标注质量的评估方法、装置、电子设备及存储介质 | |
CN112149402B (zh) | 文档对比方法、装置、电子设备和计算机可读存储介质 | |
CN110555182A (zh) | 用户画像的确定方法、装置及计算机可读存储介质 | |
CN109191192B (zh) | 数据估算方法、装置和计算机可读存储介质 | |
CN111352825B (zh) | 数据接口的测试方法、装置及服务器 | |
CN107203551B (zh) | 一种数据处理方法及装置 | |
CN112000709B (zh) | 一种社交媒体信息的总曝光量批量挖掘方法及装置 | |
CN113780302A (zh) | 一种评估特征有效性的方法及相关装置 | |
CN110309127B (zh) | 一种数据处理方法、装置及电子设备 | |
CN116298930B (zh) | 电池包健康度的测量方法、装置及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |