CN115840885B - 一种深度合成特征的特征选择方法及装置 - Google Patents

一种深度合成特征的特征选择方法及装置 Download PDF

Info

Publication number
CN115840885B
CN115840885B CN202310154323.5A CN202310154323A CN115840885B CN 115840885 B CN115840885 B CN 115840885B CN 202310154323 A CN202310154323 A CN 202310154323A CN 115840885 B CN115840885 B CN 115840885B
Authority
CN
China
Prior art keywords
feature set
feature
candidate
features
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310154323.5A
Other languages
English (en)
Other versions
CN115840885A (zh
Inventor
林以明
周鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innovation Qizhi Technology Group Co ltd
Original Assignee
Qingdao Chuangxin Qizhi Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Chuangxin Qizhi Technology Group Co ltd filed Critical Qingdao Chuangxin Qizhi Technology Group Co ltd
Priority to CN202310154323.5A priority Critical patent/CN115840885B/zh
Publication of CN115840885A publication Critical patent/CN115840885A/zh
Application granted granted Critical
Publication of CN115840885B publication Critical patent/CN115840885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种深度合成特征的特征选择方法及装置,涉及数据处理技术领域,该方法包括:获取候选特征集和初始化的已选择特征集;对候选特征集进行特征选择,得到当前迭代轮次的目标特征集;将目标特征集中的所有特征加入已选择特征集,得到中间特征集;对中间特征集进行特征剪枝处理得到目标已选特征集;输出最终得到的目标已选特征集。可见,实施这种实施方式,能够根据特征选择和剪枝方法,减少需要计算的特征数量,从而节约了计算资源和存储资源,并有效缩短了计算时间。

Description

一种深度合成特征的特征选择方法及装置
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种深度合成特征的特征选择方法及装置。
背景技术
目前,很多场景的数据以类似于关系型数据库表格的形式记录,为了利用这些数据构建机器学习模型,需要通过自动化的深度特征合成方法进行特征合成。在全部合成特征中,一般仅有小部分特征对构建机器学习模型有效,大部分剩余特征的效用很低,但为了筛选出有效特征,现有技术是将候选特征的数值计算出来,然后评估它们在模型中的效果,从中筛选出高效特征。然而,在实践中发现,现有方法需要先计算特征的数值再进行筛选,需要耗费大量计算资源和大量存储资源,且计算时间长。
发明内容
本申请实施例的目的在于提供一种深度合成特征的特征选择方法及装置,能够根据特征选择和剪枝方法,减少需要计算的特征数量,从而节约了计算资源和存储资源,并有效缩短了计算时间。
本申请实施例第一方面提供了一种深度合成特征的特征选择方法,包括:
获取候选特征集和初始化的已选择特征集;
对所述候选特征集进行特征选择,得到当前迭代轮次的目标特征集;
将所述目标特征集中的所有特征加入所述已选择特征集,得到中间特征集;
对所述中间特征集进行特征剪枝处理得到目标已选特征集;
输出最终得到的所述目标已选特征集。
在上述实现过程中,该方法可以优先获取候选特征集和初始化的已选择特征集;然后,对候选特征集进行特征选择,得到当前迭代轮次的目标特征集;再后,将目标特征集中的所有特征加入已选择特征集,得到中间特征集;并对中间特征集进行特征剪枝处理得到目标已选特征集;最后,再输出最终得到的目标已选特征集。可见,该方法能够根据特征选择和剪枝方法,减少需要计算的特征数量,从而节约了计算资源和存储资源,并有效缩短了计算时间。
进一步地,获取所述候选特征集和初始化的所述已选择特征集,包括:
根据深度合成特征定义获取所述候选特征集;
初始化所述已选择特征集为空集。
进一步地,输出最终得到的目标已选特征集的步骤之前,该方法还包括:
对所述候选特征集进行特征剪枝处理,得到剪枝后的候选特征集;
判断剪枝后的所述候选特征集是否为空;
如果是,则执行输出最终得到的目标已选特征集的步骤;
如果否,则执行对所述候选特征集进行特征选择,得到当前迭代轮次的目标特征集的步骤。
进一步地,对所述中间特征集进行特征剪枝处理得到目标已选特征集,包括:
根据所述中间特征集计算已选特征矩阵;
基于所述已选特征矩阵评估所述中间特征集中各个特征的重要度;
根据所述重要度对所述中间特征集进行特征剪枝处理,得到目标已选特征集。
进一步地,对所述候选特征集进行特征选择,得到当前迭代轮次的目标特征集,包括:
初始化本轮特征集为空集;
判断所述候选特征集是否为空;
如果所述候选特征集为空,则获取最终得到的本轮特征集,将所述最终得到的本轮特征集确定为当前迭代轮次的目标特征集;
如果所述候选特征集不为空,则判断所述本轮特征集中的特征总数量是否小于所述候选特征集中所有特征的原始列的总数量;
如果所述特征总数量不小于所述原始列的总数量,则执行获取最终得到的本轮特征集的步骤;
如果所述特征总数量小于所述原始列的总数量,则根据所述原始列归类所述候选特征集,得到归类特征集;
从所述归类特征集中每个类别选择一个特征加入所述本轮特征集,并从所述候选特征集中删除,并执行判断所述候选特征集是否为空的步骤。
进一步地,根据所述重要度对所述中间特征集进行特征剪枝处理,得到目标已选特征集,包括:
根据所述重要度确定最大重要度;
根据所述最大重要度确定重要度阈值;
将所述中间特征集中重要度低于所述重要度阈值的特征确定为低重要度特征;
将所述中间特征集中的所述低重要度特征进行删除处理,得到目标已选特征集。
进一步地,对所述候选特征集进行特征剪枝处理,得到剪枝后的候选特征集,包括:
确定所述候选特征集中与所述低重要度特征相关的目标候选特征;
将所述候选特征集中的目标候选特征进行删除处理,得到剪枝后的候选特征集。
本申请实施例第二方面提供了一种深度合成特征的特征选择装置,所述深度合成特征的特征选择装置包括:
获取单元,用于获取候选特征集和初始化的已选择特征集;
特征选择单元,用于对所述候选特征集进行特征选择,得到当前迭代轮次的目标特征集;
加入单元,用于将所述目标特征集中的所有特征加入所述已选择特征集;
特征剪枝单元,用于对所述已选择特征集进行特征剪枝处理得到目标已选特征集;
输出单元,用于输出最终得到的目标已选特征集。
在上述实现过程中,该装置可以通过获取单元获取候选特征集和初始化的已选择特征集;通过特征选择单元对候选特征集进行特征选择,得到当前迭代轮次的目标特征集;通过加入单元将目标特征集中的所有特征加入已选择特征集,得到中间特征集;通过特征剪枝单元对中间特征集进行特征剪枝处理得到目标已选特征集;通过输出单元输出最终得到的目标已选特征集。可见,该装置能够根据特征选择和剪枝方法,减少需要计算的特征数量,从而节约了计算资源和存储资源,并有效缩短了计算时间。
进一步地,所述获取单元包括:
第一获取子单元,用于根据深度合成特征定义获取所述候选特征集;
第一初始化子单元,用于初始化所述已选择特征集为空集。
进一步地,所述深度合成特征的特征选择装置还包括:
所述特征剪枝单元,还用于在输出最终得到的目标已选特征集之前,对所述候选特征集进行特征剪枝处理,得到剪枝后的候选特征集;
判断单元,用于判断剪枝后的所述候选特征集是否为空;
所述输出单元,具体用于在剪枝后的所述候选特征集为空时,输出最终得到的目标已选特征集;
所述特征选择单元,具体用于在剪枝后的所述候选特征集不为空时,对所述候选特征集进行特征选择,得到当前迭代轮次的目标特征集。
进一步地,所述特征剪枝单元包括:
计算子单元,用于根据所述中间特征集计算已选特征矩阵;
评估子单元,用于基于所述已选特征矩阵评估所述中间特征集中各个特征的重要度;
剪枝子单元,用于根据所述重要度对所述中间特征集进行特征剪枝处理,得到目标已选特征集。
进一步地,所述特征选择单元包括:
第二初始化子单元,用于初始化本轮特征集为空集;
判断子单元,用于判断所述候选特征集是否为空;
第二获取子单元,用于在所述候选特征集为空时,获取最终得到的本轮特征集,将所述最终得到的本轮特征集确定为当前迭代轮次的目标特征集;
所述判断子单元,还用于在所述候选特征集不为空时,判断所述本轮特征集中的特征总数量是否小于所述候选特征集中所有特征的原始列的总数量;
所述第二获取子单元,具体用于在所述特征总数量不小于所述原始列的总数量时,获取最终得到的本轮特征集;
归类子单元,用于在所述特征总数量小于所述原始列的总数量时,根据所述原始列归类所述候选特征集,得到归类特征集;
所述判断子单元,还用于从所述归类特征集中每个类别选择一个特征加入所述本轮特征集,并从所述候选特征集中删除,再判断所述候选特征集是否为空。
进一步地,所述剪枝子单元包括:
确定模块,用于根据所述重要度确定最大重要度;
所述确定模块,还用于根据所述最大重要度确定重要度阈值;
所述确定模块,还用于将所述中间特征集中重要度低于所述重要度阈值的特征确定为低重要度特征;
剪枝模块,用于将所述中间特征集中的所述低重要度特征进行删除处理,得到目标已选特征集。
进一步地,所述特征剪枝单元包括:
确定子单元,用于确定所述候选特征集中与所述低重要度特征相关的目标候选特征;
所述剪枝子单元,还用于将所述候选特征集中的目标候选特征进行删除处理,得到剪枝后的候选特征集。
本申请实施例第三方面提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的深度合成特征的特征选择方法。
本申请实施例第四方面提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例第一方面中任一项所述的深度合成特征的特征选择方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种深度合成特征的特征选择方法的流程示意图;
图2为本申请实施例提供的一种深度合成特征的特征选择装置的结构示意图;
图3为本申请实施例提供的一种深度特征合成选择的举例流程示意图;
图4为本申请实施例提供的一种特征选择的举例流程示意图;
图5为本申请实施例提供的一种特征剪枝的举例流程示意图。
附图标记:210-获取单元;211-第一获取子单元;212-第一初始化子单元;220-特征选择单元;221-第二初始化子单元;222-判断子单元;223-第二获取子单元;224-归类子单元;230-加入单元;240-特征剪枝单元;241-计算子单元;242-评估子单元;243-剪枝子单元;244-确定子单元;250-输出单元;260-判断单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
请参看图1,图1为本实施例提供了一种深度合成特征的特征选择方法的流程示意图。其中,该深度合成特征的特征选择方法包括以下步骤。
S101、根据深度合成特征定义获取候选特征集。
S102、初始化已选择特征集为空集。
S103、对候选特征集进行特征选择,得到当前迭代轮次的目标特征集。
作为一种可选的实施方式,对候选特征集进行特征选择,得到当前迭代轮次的目标特征集,包括:
初始化本轮特征集为空集;
判断候选特征集是否为空;
如果候选特征集为空,则获取最终得到的本轮特征集,将最终得到的本轮特征集确定为当前迭代轮次的目标特征集;
如果候选特征集不为空,则判断本轮特征集中的特征总数量是否小于候选特征集中所有特征的原始列的总数量;
如果特征总数量不小于原始列的总数量,则执行获取最终得到的本轮特征集的步骤;
如果特征总数量小于原始列的总数量,则根据原始列归类候选特征集,得到归类特征集;
从归类特征集中每个类别选择一个特征加入本轮特征集,并从候选特征集中删除,并执行判断候选特征集是否为空的步骤。
S104、将目标特征集中的所有特征加入已选择特征集,得到中间特征集。
S105、根据中间特征集计算已选特征矩阵。
S106、基于已选特征矩阵评估中间特征集中各个特征的重要度。
S107、根据重要度确定最大重要度。
S108、根据最大重要度确定重要度阈值。
S109、将中间特征集中重要度低于重要度阈值的特征确定为低重要度特征。
S110、将中间特征集中的低重要度特征进行删除处理,得到目标已选特征集。
S111、确定候选特征集中与低重要度特征相关的目标候选特征。
S112、将候选特征集中的目标候选特征进行删除处理,得到剪枝后的候选特征集。
S113、判断剪枝后的候选特征集是否为空,若是,则执行步骤S114;若否,则执行步骤S103。
S114、输出最终得到的目标已选特征集。
举例来说,请参看图3,图3示出了一种深度特征合成选择的举例流程示意图。其中,该方法结合图3介绍一种深度特征合成的特征选择的举例方法,具体包括如下步骤:
(1)深度合成特征定义作为候选特征集。
(2)初始化已选择特征集为空,已选择特征集用于记录迭代过程中目前保留下来的特征。
(3)判断候选特征是否非空;若是,即候选特征集不为空,则转入(4);若否,深度合成特征的特征选择流程结束。
(4)选择确定当前迭代轮次的特征集,这里可以有不同的特征选择策略,图4示出的特征选择的流程是一种策略实现。
(5)将上步骤选择的本轮特征加入已选择特征集。
(6)计算本轮特征矩阵并合并为已选特征矩阵。
(7)基于已选择特征矩阵建模,并评估各已选择特征的重要性。
(8)根据特征重要性做特征剪枝,特征剪枝可以有不同的实现策略,图5所示的特征剪枝的流程是一种策略实现。此步骤之后,重新转入(3),并进行下一轮迭代。
举例来说,请参看图4,图4示出了一种特征选择的举例流程示意图。该方法利用相同原始列合成的特征相关性高、特征重要性与合成深度成反比等统计规律,平衡特征的有效性和计算效率。具体的,该方法包括如下步骤:
(1)初始化本轮特征集为空集。
(2)判断候选特征是否非空;若是,即候选特征集不为空,则转入(3);若否,则本轮特征选择流程结束,并返回已选择的本轮特征集。
(3)判断本轮特征集包含的特征数量是否小于候选特征集中所有特征的原始列的数量,原始列指的是合成特征的利用的原始数据表格中的数据列,比如,特征max(order.price)和mean(order.price)有共同的原始列order.price;如是,则转入(4);否则本轮特征选择流程结束,返回已选择的本轮特征集。
(4)依据原始列归类候选特征集,将相同原始列的特征归为一类。
(5)从按照原始列归类的候选特征集中每个类别选择一个特征加入本轮特征集,并从候选特征集中删除。
其中,因为相同原始列的特征可能为多个,可以有不同的选择方式,比如根据同原始列特征的重要性与深度成正比、同原始列等深度不同算子的特征重要性排序在深度变化时保持稳定等统计规律,按照特征深度、算子等排序后选择第一个。之后,重新转入(2),并进行下一轮特征选择迭代。
举例来说,请参看图5,图5示出了一种特征剪枝的举例流程示意图。图5能够根据机器学习模型评估的特征重要性,利用特征间的统计相关性规律,过滤掉从统计意义上有效性弱的候选特征,从而减少总体的特征计算数量,提高特征选择的效率。具体的,该方法包括如下步骤:
(1)确定低重要性的特征,比如定义重要性<重要性最大值*1%的特征为低重要性特征,还可以在综合考虑低重要性特征数量限制等其他方式。
(2)已选特征集删除上步确定的低重要性特征。
(3)候选特征集删除与低重要性特征相关性的候选特征。
这里可以有不同的删除策略,比如删除与低重要性特征同原始列的特征,或者从与低重要性特征相同原始列的特征中,再根据统计的算子相关性,删除统计相关性高的特征。
实施这种实施方式,能够将“先计算再选择”的特征选择方式转变为“先选择再计算”的迭代式的特征选择方式;具体的,该方法能够利用深度合成特征具有的相同原始列的特征相关性高、特征重要性与合成深度成反比等统计规律来实现特征选择;最后,该方法还能够通过机器学习模型来评估特征的重要性,然后再利用特征间的统计相关性规律进行特征剪枝。
本实施例中,该方法的执行主体可以为计算机、服务器等计算装置,对此本实施例中不作任何限定。
在本实施例中,该方法的执行主体还可以为智能手机、平板电脑等智能设备,对此本实施例中不作任何限定。
可见,实施本实施例所描述的深度合成特征的特征选择方法,能够根据先验的特征统计相关性规律,采用迭代式的特征选择和剪枝方法,减少需要计算的特征数量,从而实现节约计算资源和时间的效果。
实施例2
请参看图2,图2为本实施例提供的一种深度合成特征的特征选择装置的结构示意图。如图2所示,该深度合成特征的特征选择装置包括:
获取单元210,用于获取候选特征集和初始化的已选择特征集;
特征选择单元220,用于对候选特征集进行特征选择,得到当前迭代轮次的目标特征集;
加入单元230,用于将目标特征集中的所有特征加入已选择特征集,得到中间特征集;
特征剪枝单元240,用于对中间特征集进行特征剪枝处理得到目标已选特征集;
输出单元250,用于输出最终得到的目标已选特征集。
作为一种可选的实施方式,获取单元210包括:
第一获取子单元211,用于根据深度合成特征定义获取候选特征集;
第一初始化子单元212,用于初始化已选择特征集为空集。
作为一种可选的实施方式,深度合成特征的特征选择装置还包括:
特征剪枝单元240,还用于在输出最终得到的目标已选特征集之前,对候选特征集进行特征剪枝处理,得到剪枝后的候选特征集;
判断单元260,用于判断剪枝后的候选特征集是否为空;
输出单元250,具体用于在剪枝后的候选特征集为空时,输出最终得到的目标已选特征集;
特征选择单元220,具体用于在剪枝后的候选特征集不为空时,对候选特征集进行特征选择,得到当前迭代轮次的目标特征集。
作为一种可选的实施方式,特征剪枝单元240包括:
计算子单元241,用于根据中间特征集计算已选特征矩阵;
评估子单元242,用于基于已选特征矩阵评估中间特征集中各个特征的重要度;
剪枝子单元243,用于根据重要度对中间特征集进行特征剪枝处理,得到目标已选特征集。
作为一种可选的实施方式,特征选择单元220包括:
第二初始化子单元221,用于初始化本轮特征集为空集;
判断子单元222,用于判断候选特征集是否为空;
第二获取子单元223,用于在候选特征集为空时,获取最终得到的本轮特征集,将最终得到的本轮特征集确定为当前迭代轮次的目标特征集;
判断子单元222,还用于在候选特征集不为空时,判断本轮特征集中的特征总数量是否小于候选特征集中所有特征的原始列的总数量;
第二获取子单元223,具体用于在特征总数量不小于原始列的总数量时,获取最终得到的本轮特征集;
归类子单元224,用于在特征总数量小于原始列的总数量时,根据原始列归类候选特征集,得到归类特征集;
判断子单元222,还用于从归类特征集中每个类别选择一个特征加入本轮特征集,并从候选特征集中删除,再判断候选特征集是否为空。
作为一种可选的实施方式,剪枝子单元243包括:
确定模块,用于根据重要度确定最大重要度;
确定模块,还用于根据最大重要度确定重要度阈值;
确定模块,还用于将中间特征集中重要度低于重要度阈值的特征确定为低重要度特征;
剪枝模块,用于将中间特征集中的低重要度特征进行删除处理,得到目标已选特征集。
作为一种可选的实施方式,特征剪枝单元240包括:
确定子单元244,用于确定候选特征集中与低重要度特征相关的目标候选特征;
剪枝子单元243,还用于将候选特征集中的目标候选特征进行删除处理,得到剪枝后的候选特征集。
本实施例中,对于深度合成特征的特征选择装置的解释说明可以参照实施例1中的描述,对此本实施例中不再多加赘述。
可见,实施本实施例所描述的深度合成特征的特征选择装置,能够根据先验的特征统计相关性规律,采用迭代式的特征选择和剪枝方法,减少需要计算的特征数量,从而实现节约计算资源和时间的效果。
本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例1中的深度合成特征的特征选择方法。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例1中的深度合成特征的特征选择方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (9)

1.一种深度合成特征的特征选择方法,其特征在于,包括:
获取候选特征集和初始化的已选择特征集;
对所述候选特征集进行特征选择,得到当前迭代轮次的目标特征集;
将所述目标特征集中的所有特征加入所述已选择特征集,得到中间特征集;
对所述中间特征集进行特征剪枝处理得到目标已选特征集;
输出最终得到的所述目标已选特征集;
其中,对所述候选特征集进行特征选择,得到当前迭代轮次的目标特征集,包括:
初始化本轮特征集为空集;
判断所述候选特征集是否为空;
如果所述候选特征集为空,则获取最终得到的所述本轮特征集,将最终得到的所述本轮特征集确定为当前迭代轮次的目标特征集;
如果所述候选特征集不为空,则获取最终得到的所述本轮特征集,并判断最终得到的所述本轮特征集中的特征总数量是否小于所述候选特征集中所有特征的原始列的总数量;
如果所述特征总数量不小于所述原始列的总数量,则将最终得到的所述本轮特征集确定为当前迭代轮次的目标特征集;
如果所述特征总数量小于所述原始列的总数量,则根据所述原始列归类所述候选特征集,得到归类特征集;
从所述归类特征集中每个类别选择一个特征加入最终得到的所述本轮特征集,并从所述候选特征集中删除,并执行判断所述候选特征集是否为空的步骤。
2.根据权利要求1所述的一种深度合成特征的特征选择方法,其特征在于,获取所述候选特征集和初始化的所述已选择特征集,包括:
根据深度合成特征定义获取所述候选特征集;
初始化所述已选择特征集为空集。
3.根据权利要求1所述的一种深度合成特征的特征选择方法,其特征在于,输出最终得到的目标已选特征集的步骤之前,该方法还包括:
对所述候选特征集进行特征剪枝处理,得到剪枝后的候选特征集;
判断剪枝后的所述候选特征集是否为空;
如果是,则执行输出最终得到的目标已选特征集的步骤;
如果否,则执行对所述候选特征集进行特征选择,得到当前迭代轮次的目标特征集的步骤。
4.根据权利要求3所述的一种深度合成特征的特征选择方法,其特征在于,对所述中间特征集进行特征剪枝处理得到目标已选特征集,包括:
根据所述中间特征集计算已选特征矩阵;
基于所述已选特征矩阵评估所述中间特征集中各个特征的重要度;
根据所述重要度对所述中间特征集进行特征剪枝处理,得到目标已选特征集。
5.根据权利要求4所述的一种深度合成特征的特征选择方法,其特征在于,根据所述重要度对所述中间特征集进行特征剪枝处理,得到目标已选特征集,包括:
根据所述重要度确定最大重要度;
根据所述最大重要度确定重要度阈值;
在所述中间特征集中,将重要度低于所述重要度阈值的特征确定为低重要度特征;
将所述中间特征集中的所述低重要度特征进行删除处理,得到目标已选特征集。
6.根据权利要求5所述的一种深度合成特征的特征选择方法,其特征在于,对所述候选特征集进行特征剪枝处理,得到剪枝后的候选特征集,包括:
确定所述候选特征集中与所述低重要度特征相关的目标候选特征;
将所述候选特征集中的目标候选特征进行删除处理,得到剪枝后的候选特征集。
7.一种深度合成特征的特征选择装置,其特征在于,所述深度合成特征的特征选择装置包括:
获取单元,用于获取候选特征集和初始化的已选择特征集;
特征选择单元,用于对所述候选特征集进行特征选择,得到当前迭代轮次的目标特征集;
加入单元,用于将所述目标特征集中的所有特征加入所述已选择特征集,得到中间特征集;
特征剪枝单元,用于对所述中间特征集进行特征剪枝处理得到目标已选特征集;
输出单元,用于输出最终得到的所述目标已选特征集;
其中,所述特征选择单元包括:
第二初始化子单元,用于初始化本轮特征集为空集;
判断子单元,用于判断所述候选特征集是否为空;
第二获取子单元,用于在所述候选特征集为空时,获取最终得到的本轮特征集,将所述最终得到的本轮特征集确定为当前迭代轮次的目标特征集;
所述判断子单元,还用于在所述候选特征集不为空时,判断所述本轮特征集中的特征总数量是否小于所述候选特征集中所有特征的原始列的总数量;
所述第二获取子单元,具体用于在所述特征总数量不小于所述原始列的总数量时,获取最终得到的本轮特征集;
归类子单元,用于在所述特征总数量小于所述原始列的总数量时,根据所述原始列归类所述候选特征集,得到归类特征集;
所述判断子单元,还用于从所述归类特征集中每个类别选择一个特征加入所述本轮特征集,并从所述候选特征集中删除,再判断所述候选特征集是否为空。
8.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至6中任一项所述的深度合成特征的特征选择方法。
9.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1至6任一项所述的深度合成特征的特征选择方法。
CN202310154323.5A 2023-02-23 2023-02-23 一种深度合成特征的特征选择方法及装置 Active CN115840885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310154323.5A CN115840885B (zh) 2023-02-23 2023-02-23 一种深度合成特征的特征选择方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310154323.5A CN115840885B (zh) 2023-02-23 2023-02-23 一种深度合成特征的特征选择方法及装置

Publications (2)

Publication Number Publication Date
CN115840885A CN115840885A (zh) 2023-03-24
CN115840885B true CN115840885B (zh) 2023-05-09

Family

ID=85580113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310154323.5A Active CN115840885B (zh) 2023-02-23 2023-02-23 一种深度合成特征的特征选择方法及装置

Country Status (1)

Country Link
CN (1) CN115840885B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761026A (zh) * 2021-09-01 2021-12-07 中国电力科学研究院有限公司 基于条件互信息的特征选择方法、装置、设备和存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019594B2 (en) * 2006-06-30 2011-09-13 Robert Bosch Corporation Method and apparatus for progressively selecting features from a large feature space in statistical modeling
US11195057B2 (en) * 2014-03-18 2021-12-07 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
AU2013225800B2 (en) * 2012-03-01 2015-04-09 Sys-Tech Solutions, Inc. Unique identification information from marked features
CN109791546A (zh) * 2016-10-28 2019-05-21 惠普发展公司有限责任合伙企业 目标类别特征模型
CN108960436A (zh) * 2018-07-09 2018-12-07 上海应用技术大学 特征选择方法
CN111401470B (zh) * 2020-03-31 2023-03-10 西安电子科技大学 基于特征空间分布的Fisher特征选择方法
CN114268625B (zh) * 2020-09-14 2024-01-02 腾讯科技(深圳)有限公司 特征选择方法、装置、设备及存储介质
CN112966703A (zh) * 2020-10-10 2021-06-15 天津大学 采用冗余性动态权重的特征选择方法
CN112364012B (zh) * 2021-01-14 2021-04-09 上海冰鉴信息科技有限公司 数据特征确定方法、装置及电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761026A (zh) * 2021-09-01 2021-12-07 中国电力科学研究院有限公司 基于条件互信息的特征选择方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN115840885A (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
JP6771751B2 (ja) リスク評価方法およびシステム
CN104679646B (zh) 一种用于检测sql代码缺陷的方法和装置
CN109784365A (zh) 一种特征选择方法、终端、可读介质及计算机程序
CN110472742B (zh) 一种模型变量确定方法、装置及设备
CN110263817B (zh) 一种基于用户账号的风险等级划分方法及装置
CN105426392A (zh) 一种协同过滤推荐方法及系统
CN110688433A (zh) 一种基于路径的特征生成方法及装置
CN115840885B (zh) 一种深度合成特征的特征选择方法及装置
CN101268465A (zh) 分类一组电子文档的方法
CN116362589B (zh) 一种质量工作考核评价方法
CN110888909B (zh) 一种评估内容的数据统计处理方法及装置
CN112732766B (zh) 一种数据排序方法、装置、电子设备及存储介质
CN113704519B (zh) 一种数据集的确定方法、装置、计算机设备以及存储介质
CN115129882A (zh) 基于知识图谱的事件脉络分析方法、存储介质及设备
JP5211000B2 (ja) ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
CN109614542B (zh) 公众号推荐方法、装置、计算机设备及存储介质
CN114490827A (zh) 一种基于数据挖掘的用户行为分析和预测的方法和装置
CN113360553B (zh) 一种数据冷热程度评估方法及服务器
CN101048777B (zh) 数据处理系统和方法
CN110634017A (zh) 信息分类方法、装置及设备
CN112650834B (zh) 一种意图模型训练方法及装置
CN113128217B (zh) 一种基于网络孪生空间的舆情处置决策方法
CN110796179B (zh) 用于模型训练的样本数据处理方法及装置、存储介质、终端
CN117971913B (zh) 一种应用数据库信息收集反馈指令的系统
US20230316144A1 (en) Decision tree learning with missing data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 266000 Room 501, tower a, Haier International Plaza, No. 939, Zhenwu Road, Jimo Economic Development Zone, Qingdao, Shandong

Patentee after: Innovation Qizhi Technology Group Co.,Ltd.

Country or region after: China

Address before: 266000 Room 501, tower a, Haier International Plaza, No. 939, Zhenwu Road, Jimo Economic Development Zone, Qingdao, Shandong

Patentee before: Qingdao Chuangxin Qizhi Technology Group Co.,Ltd.

Country or region before: China