CN104573741A - 一种特征选择方法及装置 - Google Patents

一种特征选择方法及装置 Download PDF

Info

Publication number
CN104573741A
CN104573741A CN201410820037.9A CN201410820037A CN104573741A CN 104573741 A CN104573741 A CN 104573741A CN 201410820037 A CN201410820037 A CN 201410820037A CN 104573741 A CN104573741 A CN 104573741A
Authority
CN
China
Prior art keywords
feature
subset
preferred
susceptibility
preferred feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410820037.9A
Other languages
English (en)
Inventor
武文博
王云鹏
刘冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Huawei Digital Technologies Co Ltd
Original Assignee
Hangzhou Huawei Digital Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Huawei Digital Technologies Co Ltd filed Critical Hangzhou Huawei Digital Technologies Co Ltd
Priority to CN201410820037.9A priority Critical patent/CN104573741A/zh
Publication of CN104573741A publication Critical patent/CN104573741A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种特征选择方法,包括:从样本数据中提取所述样本数据的特征,根据提取的特征生成特征集;将所述特征集划分为第一特征子集和第二特征子集,所述第一特征子集包括当前周期的上一周期保留的至少一个优选特征,所述第二特征子集包括至少一个候选特征;从所述第一特征子集中选取出满足第一预设指标的优选特征;从所述第二特征子集中选取出满足第二预设指标的候选特征;根据所述满足第一预设指标的优选特征以及所述满足第二预设指标的候选特征生成第三特征子集。本发明实施例还公开了一种特征选择装置。采用本发明,能实现特征选择的最优化。

Description

一种特征选择方法及装置
技术领域
本发明涉及计算机领域,尤其涉及一种特征选择方法及装置。
背景技术
当前基于大数据分析平台的应用如信息检索、挖掘用户的消费倾向、消费模式等不断涌现,这些数据不但数目庞大,且描述样本数据的特征维数高。特征是从样本数据中提取出的能够描述样本数据的有用的属性信息,每个样本数据都具有很多特征,但未必每个特征都对数据的分析有用处,因此需要从大量特征中选择少量的有效特征。选择好的特征不仅可以减小计算复杂度,提高预测精度,从而减少特征集的特征的个数,减少系统运行的时间。
现有的特征选择方法是先构造一个特征集F1,该特征集F1为空集。之后,每次从特征候选集F2中提取出一个特征,将该特征放入特征集F1,并利用预设的评估方法对输入了该特征的特征集F1进行评估。若输入该特征后的特征集F1的评估结果优于输入该特征之前的特征集F1的评估结果,则认为该特征对于特征集F1是有用的特征,并更新特征集F1,反之则将该特征从特征集F1中剔除,重新从特征候选集F2中提取出一个新的特征并重复上述的评估步骤。
然而,由于上述方法的特征集F1的初始状态是空集,因此忽略了对上一周期挑选的关键特征的保留。关键特征往往是经过精挑细选的特征,一旦放弃意味着需要在特征候选集的众多特征中重新寻找关键特征。此外,在评估所有输入的特征时均按照相同的评估方法进行评估,而不能对不同的特征进行区别评估。因此,采用相同的评估方法进行评估会导致评估结果出现较大的误差。
发明内容
本发明提供一种特征选择方法及装置,能实现特征选择的最优化。
本发明第一方面提供一种特征选择方法,包括:
从样本数据中提取所述样本数据的特征,根据提取的特征生成特征集;
将所述特征集划分为第一特征子集和第二特征子集,所述第一特征子集包括当前周期的上一周期保留的至少一个优选特征,所述第二特征子集包括至少一个候选特征;
从所述第一特征子集中选取出满足第一预设指标的优选特征;
从所述第二特征子集中选取出满足第二预设指标的候选特征;
根据所述满足第一预设指标的优选特征以及所述满足第二预设指标的候选特征生成第三特征子集。
结合本发明第一方面的实现方式,在本发明第一方面的第一种可能的实现方式中,所述生成第三特征子集之前,所述方法还包括:
根据所述第一特征子集内优选特征的数量确定所述第三特征子集内包括的所述优选特征以及所述候选特征的数量,其中,生成的所述第三特征子集包括确定数量的优选特征以及候选特征。
结合本发明第一方面的实现方式,在本发明第一方面的第二种可能的实现方式中,所述第一预设指标为所述优选特征的敏感变化率大于或等于预设敏感变化率,则所述从所述第一特征子集中选取出满足第一预设指标的优选特征,具体包括:
计算所述第一特征子集中的各个优选特征的所述上一周期的敏感性以及所述当前周期的敏感性;
根据所述各个优选特征的所述上一周期的敏感性以及所述当前周期的敏感性,得到所述各个优选特征的敏感变化率;
选取出满足第一预设指标的第一优选特征,所述第一优选特征为敏感变化率大于或等于所述预设敏感变化率的优选特征。
结合本发明第一方面的第二种可能的实现方式,在本发明第一方面的第三种可能的实现方式中,所述选取出满足第一预设指标的第一优选特征之后,所述方法还包括:
根据所述第一优选特征生成第四特征子集。
结合本发明第一方面的第三种可能的实现方式,在本发明第一方面的第四种可能的实现方式中,所述第二预设指标为所述候选特征的当前周期的敏感性大于或等于第二优选特征的当前周期的敏感性的平均值,所述第二优选特征为敏感变化率小于所述预设敏感变化率的优选特征,则所述从所述第二特征子集中选取出满足第二预设指标的候选特征,具体包括:
确定敏感变化率小于所述预设敏感变化率的优选特征为所述第二优选特征;
获取所述第二优选特征的当前周期的敏感性;
根据所述第二优选特征的当前周期的敏感性计算所述平均值;
计算各个候选特征的当前周期的敏感性;
选取出所述当前周期的敏感性大于或等于所述平均值的候选特征。
结合本发明第一方面的第四种可能的实现方式,在本发明第一方面的第五种可能的实现方式中,所述选取出所述当前周期的敏感性大于或等于所述平均值的候选特征之后,所述方法还包括:
根据所述当前周期的敏感性大于或等于所述平均值的候选特征生成第五特征子集。
结合本发明第一方面的第五种可能的实现方式,在本发明第一方面的第六种可能的实现方式中,所述根据所述满足第一预设指标的优选特征以及所述满足第二预设指标的候选特征生成第三特征子集,具体包括:
根据所述第四特征子集以及所述第五特征子集生成所述第三特征子集。
结合本发明第一方面的实现方式,在本发明第一方面的第七种可能的实现方式中,所述方法还包括:
根据所述第三特征子集包括的所述优选特征以及所述候选特征训练分类器,以使所述分类器根据所述第三特征子集包括的所述优选特征以及所述候选特征识别所述样本数据。
本发明第二方面提供一种特征选择装置,包括:
提取模块,用于从样本数据中提取所述样本数据的特征,根据提取的特征生成特征集;
划分模块,用于将所述提取模块生成的特征集划分为第一特征子集和第二特征子集,所述第一特征子集包括当前周期的上一周期保留的至少一个优选特征,所述第二特征子集包括至少一个候选特征;
第一选取模块,用于从所述划分模块划分出的第一特征子集中选取出满足第一预设指标的优选特征;
第二选取模块,用于从所述划分模块划分出的第二特征子集中选取出满足第二预设指标的候选特征;
第一生成模块,用于根据所述第一选取模块选取的满足第一预设指标的优选特征以及所述第二选取模块选取的满足第二预设指标的候选特征生成第三特征子集。
结合本发明第二方面的实现方式,在本发明第二方面的第一种可能的实现方式中,所述特征选择装置还包括:
确定模块,用于根据所述第一特征子集内优选特征的数量确定所述第三特征子集内包括的所述优选特征以及所述候选特征的数量,其中,生成的所述第三特征子集包括确定数量的优选特征以及候选特征。
结合本发明第二方面的实现方式,在本发明第二方面的第二种可能的实现方式中,所述第一预设指标为所述优选特征的敏感变化率大于或等于预设敏感变化率,则所述第一选取模块包括:
计算单元,用于计算所述第一特征子集中的各个优选特征的所述上一周期的敏感性以及所述当前周期的敏感性;
得到单元,用于根据所述计算单元计算的各个优选特征的所述上一周期的敏感性以及所述当前周期的敏感性,得到所述各个优选特征的敏感变化率;
选取单元,用于选取出满足第一预设指标的第一优选特征,所述第一优选特征为敏感变化率大于或等于所述预设敏感变化率的优选特征。
结合本发明第二方面的第二种可能的实现方式,在本发明第二方面的第三种可能的实现方式中,所述特征选择装置还包括:
第二生成模块,用于根据所述选取单元选取的第一优选特征生成第四特征子集。
结合本发明第二方面的第三种可能的实现方式,在本发明第二方面的第四种可能的实现方式中,所述第二预设指标为所述候选特征的当前周期的敏感性大于或等于第二优选特征的当前周期的敏感性的平均值,所述第二优选特征为敏感变化率小于所述预设敏感变化率的优选特征,则所述第二选取模块包括:
确定单元,用于确定敏感变化率小于所述预设敏感变化率的优选特征为所述第二优选特征;
获取单元,用于获取所述确定单元确定的第二优选特征的当前周期的敏感性;
第一计算单元,用于根据所述获取单元获取的第二优选特征的当前周期的敏感性计算所述平均值;
第二计算单元,用于计算各个候选特征的当前周期的敏感性;
选取单元,用于选取出所述当前周期的敏感性大于或等于所述平均值的候选特征。
结合本发明第二方面的第四种可能的实现方式,在本发明第二方面的第五种可能的实现方式中,所述特征选择装置还包括:
第三生成模块,用于根据所述选取单元选取的当前周期的敏感性大于或等于所述平均值的候选特征生成第五特征子集。
结合本发明第二方面的第五种可能的实现方式,在本发明第二方面的第六种可能的实现方式中,所述第一生成模块,具体用于:
根据所述第二生成模块生成的第四特征子集以及所述第三生成模块生成的第五特征子集生成所述第三特征子集。
结合本发明第二方面的实现方式,在本发明第二方面的第七种可能的实现方式中,所述特征选择装置还包括:
训练模块,用于根据所述第一生成模块生成的第三特征子集包括的所述优选特征以及所述候选特征训练分类器,以使所述分类器根据所述第三特征子集包括的所述优选特征以及所述候选特征识别所述样本数据。
采用本发明,可从样本数据中提取样本数据的特征,根据提取的特征生成特征集,将特征集划分为第一特征子集和第二特征子集,第一特征子集包括当前周期的上一周期保留的至少一个优选特征,第二特征子集包括至少一个候选特征,从第一特征子集中选取出满足第一预设指标的优选特征,从第二特征子集中选取出满足第二预设指标的候选特征,根据满足第一预设指标的优选特征以及满足第二预设指标的候选特征生成第三特征子集,可在选择特征时对上一周期选出的优选特征有选择性地保留,提高特征选择的效率。此外,对于优选特征以及候选特征采用不同的评估方法进行评估,能够减小评估结果的误差,实现特征选择的最优化。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种特征选择方法的一实施例的流程示意图;
图2是本发明实施例的一种特征选择方法的另一实施例的流程示意图;
图3是本发明实施例的一种特征选择方法的另一实施例的神经网络结构图;
图4是本发明实施例的一种特征选择方法的另一实施例的特征选择结构示意图;
图5是本发明实施例的一种特征选择装置的一实施例的结构示意图;
图6是本发明实施例的一种特征选择装置的另一实施例的结构示意图;
图7是本发明实施例的一种特征选择装置的第三实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
采用本发明实施例,能实现特征选择的最优化。
请参阅图1,图1是本发明实施例的一种特征选择方法的一实施例的流程示意图。如图1所示,本发明实施例的一种特征选择方法的一实施例可以包括以下步骤。
S100,从样本数据中提取所述样本数据的特征,根据提取的特征生成特征集。
具体实现中,特征是能够描述样本数据的属性信息,因此,从大数据分析平台的指定业务的各个样本数据中提取特征,根据提取的所有特征生成特征集。
S101,将所述特征集划分为第一特征子集和第二特征子集,所述第一特征子集包括当前周期的上一周期保留的至少一个优选特征,所述第二特征子集包括至少一个候选特征。
具体实现中,可将特征进行分类,提取当前周期的上一周期选取出的至少一个优选特征并根据至少一个优选特征生成第一特征子集。优选特征是在上一周期选取出的特征,因此需要保留这些选取出的优选特征,使特征选择具有延续性、继承性,还能够加快特征选择的效率。由于每个时段的样本数据都会变化,因此也会出现更多新的特征,对于当前周期出现的新的特征或者特征集内除优选特征之外的特征则归为第二特征子集。
S102,从所述第一特征子集中选取出满足第一预设指标的优选特征。
具体实现中,由于样本数据会随着时间和环境的变化而变化,某些优选特征对于数据分析的重要性随着可能会时间的推移而降低,因此,需要适当淘汰一些优选特征,使选取出的特征更能够适应当前周期的数据分析的需求。本发明实施例则对第一特征子集的优选特征设定第一预设指标,并选取出满足第一预设指标的优选特征。
S103,从所述第二特征子集中选取出满足第二预设指标的候选特征。
具体实现中,可对于各个特征子集设定不同的指标,因此可对第二特征子集设定第二预设指标,从第二特征子集中选取出满足第二预设指标的候选特征。
作为一种可实施的方式,预设指标可根据神经网络的敏感性、信息增益和设定特征重要度等方式进行设定。
S104,根据所述满足第一预设指标的优选特征以及所述满足第二预设指标的候选特征生成第三特征子集。
具体实现中,当从第一特征子集选取出满足第一预设指标的优选特征以及从第二特征子集选取出满足第二预设指标的候选特征后,根据上述选取出的特征生成第三特征子集。第三特征子集即为当前周期的新的优选特征集。
作为一种可实施的方式,可在生成第三特征子集之后,根据第三特征子集包括的特征训练分类器,以使分类器根据第三特征子集包括的特征对未知类别的样本数据进行识别与预测。训练分类器的具体实施步骤为现有技术,本发明实施例则不再赘述。
采用本发明实施例,可从样本数据中提取样本数据的特征,根据提取的特征生成特征集,将特征集划分为第一特征子集和第二特征子集,第一特征子集包括当前周期的上一周期保留的至少一个优选特征,第二特征子集包括至少一个候选特征,从第一特征子集中选取出满足第一预设指标的优选特征,从第二特征子集中选取出满足第二预设指标的候选特征,根据满足第一预设指标的优选特征以及满足第二预设指标的候选特征生成第三特征子集,可在选择特征时对上一周期选出的优选特征有选择性地保留,提高特征选择的效率。此外,对于优选特征以及候选特征采用不同的评估方法进行评估,能够减小评估结果的误差,实现特征选择的最优化。
请参阅图2,图2是本发明实施例的一种特征选择方法的另一实施例的流程示意图。如图2所示,本发明实施例的一种特征选择方法的另一实施例可以包括以下步骤。
S200,从样本数据中提取所述样本数据的特征,根据提取的特征生成特征集。
S201,将所述特征集划分为第一特征子集和第二特征子集,所述第一特征子集包括当前周期的上一周期保留的至少一个优选特征,所述第二特征子集包括至少一个候选特征。
具体实现中,本实施例的步骤S200和步骤S201可详见实施例图1的步骤S100和步骤S101,本实施例则不再赘述。
作为一种可实施的方式,为了方便描述,如图4所示,可设定特征集内包括特征x1至x20。其中x1至x10为当前周期的上一周期保留的优选特征,则将x1至x10归类到第一特征子集中,而剩余的特征x11至x20则以候选特征归类到第二特征子集中。
S202,计算所述第一特征子集中的各个优选特征的所述上一周期的敏感性以及所述当前周期的敏感性。
具体实现中,本发明实施例通过计算优选特征x1至x10在神经网络的敏感性评估优选特征x1至x10。神经网络是一个多并行分布处理器,由单层或多层简单的神经处理单元组成,每一个处理单元都有储存经验信息的功能,并且储存的信息都可以随时用来处理信息。如图3所示,以神经网络为多层神经网络为例,包括输入层、隐含层以及输出层。输入层由n个节点xn组成,xi表示输入模式向量的第i个分量(i=1,2,…,n);隐含层由m个节点bj(j=1,2,…,m)组成;输出层由l个节点yk(k=1,2,…,l)组成。当神经网络训练完成后,它的映射关系也就确定了。设映射关系函数为F(X)(其中X=(x1,x2,…,xn)为输入特征),定义S(Xi)=E(||F(X+△i)-F(X)||2)为该神经网络对第i个输入特征xi的敏感性。其中X+△i=(x1,x2,...,xi+△i,...,xn)T,△i是在[-h,h]上服从均匀分布的随机变量,其中h是一个小的正数,其经验取值为0.01至0.05。||F(X)||2是求取F(X)的欧几里德范数算符,E为求取期望的算符,n为特征集中特征的数量。每个特征都有一个对应的取值△i,通过在其中一个优选特征上添加对应的取值△i,代入公式S(Xi)=E(||F(X+△i)-F(X)||2),计算该优选特征在特征集中的敏感性。通过计算优选特征的敏感性能够了解该优选特征在特征集的影响度,影响度越高的优选特征其敏感性越大。
作为一种可实施的方式,由于每个周期中的特征的数据内容都会变化,每个周期的特征的敏感性也未必相同,在特征集的影响度更是不同,因此通过计算第一特征子集中各个优选特征的上一周期的敏感性S(Xi-1)以及当前周期的敏感性S(Xi)(i大于等于1),得知各个优选特征的敏感性的变化,从而得知各个优选特征在特征集中影响度的变化。
S203,根据所述各个优选特征的所述上一周期的敏感性以及所述当前周期的敏感性,得到所述各个优选特征的敏感变化率。
具体实现中,在上述步骤中计算出第一特征子集中各个优选特征的上一周期的敏感性S(Xi-1)以及当前周期的敏感性S(Xi)后,根据各个优选特征的上一周期的敏感性S(Xi-1)以及当前周期的敏感性S(Xi)计算各个优选特征的敏感变化率R(Xi)。其中,可根据公式计算各个优选特征的敏感变化率R(Xi)。根据敏感变化率的大小判断各个优选特征在特征集的影响度的变化。
S204,选取出满足第一预设指标的第一优选特征,所述第一优选特征为敏感变化率大于或等于所述预设敏感变化率的优选特征。
具体实现中,所述第一预设指标为所述优选特征的敏感变化率大于或等于预设敏感变化率。敏感变化率大于或等于预设敏感变化率的优选特征在当前周期对特征集的影响度依然较大,因此需要保留敏感变化率大于或等于预设敏感变化率的优选特征。只要优选特征的敏感变化率不超出所能容忍的区间阈值,该优选特征就能保留在第一特征集中。而敏感变化率小于预设敏感变化率的优选特征则说明在当前周期该优选特征对特征集的影响度变小,因此可将敏感变化率小于预设敏感变化率的优选特征予以淘汰。如图4所示,经过步骤S204的选取之后满足第一预设指标的第一优选特征为优选特征x1至x6,由于优选特征x7至x10不满足第一预设指标,因此将优选特征x7至x10予以淘汰。
作为一种可实施的方式,可将选取出的予以保留的优选特征定义为第一优选特征。
作为一种可实施的方式,预设指标还可根据信息增益和设定特征重要度等方式进行设定。由于信息增益以及特征重要度的具体实施步骤为现有技术,本发明实施例则不再赘述。
S205,根据所述第一优选特征生成第四特征子集。
具体实现中,根据选取出的敏感变化率大于或等于预设敏感变化率的优选特征x1至x6生成第四特征子集。
S206,确定敏感变化率小于所述预设敏感变化率的优选特征为所述第二优选特征。
具体实现中,将步骤S204中予以淘汰的优选特征x7至x10定义为第二优选特征。第二优选特征的敏感性可作为后续设定第二预设指标的设置基础。
作为一种可实施的方式,实施例图1涉及的所述第二预设指标为所述候选特征的当前周期的敏感性大于或等于第二优选特征的当前周期的敏感性的平均值,所述第二优选特征为敏感变化率小于所述预设敏感变化率的优选特征。
S207,获取所述第二优选特征的当前周期的敏感性。
具体实现中,在步骤S202中已经计算出各个第二优选特征的上一周期的敏感性S(Xi-1)以及当前周期的敏感性S(Xi),因此可直接获取第二优选特征的当前周期的敏感性S(Xi)。
S208,根据所述第二优选特征的当前周期的敏感性计算所述平均值。
具体实现中,根据获取到的第二优选特征的当前周期的敏感性S(Xi)计算所有第二优选特征的敏感性的平均值。
S209,计算各个候选特征的当前周期的敏感性。
具体实现中,由于在步骤S201中将候选特征x11至x20归类在第二特征子集中,因此可根据公式S(Xi)=E(||F(X+△i)-F(X)||2)计算各个候选特征的当前周期的敏感性。由于大部分候选特征为当前周期新添入的特征,大部分候选特征仅有当前周期的数据内容,因此在步骤S209中计算各个候选特征的当前周期的敏感性即可。
S210,选取出所述当前周期的敏感性大于或等于所述平均值的候选特征。
具体实现中,如果存在当前周期的敏感性大于或等于第二优选特征(即在步骤S204中被淘汰的优选特征)的敏感性的平均值的候选特征,则可选取出满足该条件的候选特征,实现对原先第一特征子集保留的优选特征的局部轮换。如图4所示,由于候选特征x11、x15、x18以及x20的当前周期的敏感性大于或等于第二优选特征的敏感性的平均值,因此选取出候选特征x11、x15、x18以及x20
作为一种可实施的方式,对于当前周期的敏感性小于第二优选特征的敏感性的平均值的候选特征x12至x14、x16、x17以及x19本发明实施例将予以淘汰。
S211,根据所述当前周期的敏感性大于或等于所述平均值的候选特征生成第五特征子集。
具体实现中,根据满足第二预设指标的候选特征x11、x15、x18以及x20生成第五特征子集。
S212,根据所述第一特征子集内优选特征的数量确定所述第三特征子集内包括的所述优选特征以及所述候选特征的数量,其中,生成的所述第三特征子集包括确定数量的优选特征以及候选特征。
具体实现中,为了保持第三特征子集中的特征数量的平稳变化,需要控制第三特征子集的包含的特征的数量,即控制第四特征子集与第五特征子集包括的特征的总量。在本发明实施例中,可控制第三特征子集内的数量小于或等于第一特征子集内优选特征的数量的预设倍数,从而确定第四特征子集包括的优选特征数量与第五特征子集包括的候选特征的数量。
S213,根据所述第四特征子集以及所述第五特征子集生成所述第三特征子集。
S214,根据所述第三特征子集包括的所述优选特征以及所述候选特征训练分类器,以使所述分类器根据所述第三特征子集包括的所述优选特征以及所述候选特征识别所述样本数据。
具体实现中,根据第三特征子集中确定数量的优选特征x1至x6以及候选特征x11、x15、x18以及x20训练分类器,以使分类器根据第三特征子集内包括的特征对未知类别的样本数据进行识别与预测。训练分类器的具体实施步骤为现有技术,本发明实施例则不再赘述。
采用本发明实施例,可从样本数据中提取样本数据的特征,根据提取的特征生成特征集,将特征集划分为第一特征子集和第二特征子集,第一特征子集包括当前周期的上一周期保留的至少一个优选特征,第二特征子集包括至少一个候选特征,从第一特征子集中选取出满足第一预设指标的优选特征,从第二特征子集中选取出满足第二预设指标的候选特征,根据满足第一预设指标的优选特征以及满足第二预设指标的候选特征生成第三特征子集,其中,第一预设指标以及第二预设指标可根据神经网络的敏感性设定,可在选择特征时对上一周期选出的优选特征有选择性地保留,提高特征选择的效率。通过限制第三特征子集包括的特征数量保证选取出的特征的数量的平稳变化。此外,对于优选特征以及候选特征采用不同的评估方法进行评估,能够减小评估结果的误差,实现特征选择的最优化。
请参阅图5,图5是本发明实施例的一种特征选择装置的一实施例的结构示意图。如图5所示的特征选择装置包括提取模块500、划分模块501、第一选取模块502、第二选取模块503以及第一生成模块504。
提取模块500,用于从样本数据中提取所述样本数据的特征,根据提取的特征生成特征集;
划分模块501,用于将所述提取模块500生成的特征集划分为第一特征子集和第二特征子集,所述第一特征子集包括当前周期的上一周期保留的至少一个优选特征,所述第二特征子集包括至少一个候选特征;
第一选取模块502,用于从所述划分模块501划分出的第一特征子集中选取出满足第一预设指标的优选特征;
第二选取模块503,用于从所述划分模块501划分出的第二特征子集中选取出满足第二预设指标的候选特征;
第一生成模块504,用于根据所述第一选取模块502选取的满足第一预设指标的优选特征以及所述第二选取模块503选取的满足第二预设指标的候选特征生成第三特征子集。
具体实现中,特征是能够描述样本数据的属性信息,因此,从大数据分析平台的指定业务的各个样本数据中提取特征,根据提取的所有特征生成特征集。
具体实现中,可将特征进行分类,提取当前周期的上一周期选取出的至少一个优选特征并根据至少一个优选特征生成第一特征子集。优选特征是在上一周期选取出的特征,因此需要保留这些选取出的优选特征,使特征选择具有延续性、继承性,还能够加快特征选择的效率。由于每个时段的样本数据都会变化,因此也会出现更多新的特征,对于当前周期出现的新的特征或者特征集内除优选特征之外的特征则归为第二特征子集。
具体实现中,由于样本数据会随着时间和环境的变化而变化,某些优选特征对于数据分析的重要性随着可能会时间的推移而降低,因此,需要适当淘汰一些优选特征,使选取出的特征更能够适应当前周期的数据分析的需求。本发明实施例则对第一特征子集的优选特征设定第一预设指标,并选取出满足第一预设指标的优选特征。
具体实现中,可对于各个特征子集设定不同的指标,因此可对第二特征子集设定第二预设指标,从第二特征子集中选取出满足第二预设指标的候选特征。
作为一种可实施的方式,预设指标可根据神经网络的敏感性、信息增益和设定特征重要度等方式进行设定。
具体实现中,当从第一特征子集选取出满足第一预设指标的优选特征以及从第二特征子集选取出满足第二预设指标的候选特征后,根据上述选取出的特征生成第三特征子集。第三特征子集即为当前周期的新的优选特征集。
作为一种可实施的方式,可在生成第三特征子集之后,根据第三特征子集包括的特征训练分类器,以使分类器根据第三特征子集包括的特征对未知类别的样本数据进行识别与预测。训练分类器的具体实施步骤为现有技术,本发明实施例则不再赘述。
可选的,如图6所示,特征选择装置还包括确定模块505。
确定模块505,用于根据所述第一特征子集内优选特征的数量确定所述第三特征子集内包括的所述优选特征以及所述候选特征的数量,其中,生成的所述第三特征子集包括确定数量的优选特征以及候选特征。
具体实现中,为了保持第三特征子集中的特征数量的平稳变化,需要控制第三特征子集的包含的特征的数量,即控制第四特征子集与第五特征子集包括的特征的总量。在本发明实施例中,可控制第三特征子集内的数量小于或等于第一特征子集内优选特征的数量的预设倍数,从而确定第四特征子集包括的优选特征数量与第五特征子集包括的候选特征的数量。
可选的,所述第一预设指标为所述优选特征的敏感变化率大于或等于预设敏感变化率,则如图6所示,所述第一选取模块502包括计算单元5021、得到单元5022以及选取单元5023。
计算单元5021,用于计算所述第一特征子集中的各个优选特征的所述上一周期的敏感性以及所述当前周期的敏感性;
得到单元5022,用于根据所述计算单元5021计算的各个优选特征的所述上一周期的敏感性以及所述当前周期的敏感性,得到所述各个优选特征的敏感变化率;
选取单元5023,用于选取出满足第一预设指标的第一优选特征,所述第一优选特征为敏感变化率大于或等于所述预设敏感变化率的优选特征。
具体实现中,本发明实施例通过计算优选特征x1至x10在神经网络的敏感性评估优选特征x1至x10。神经网络是一个多并行分布处理器,由单层或多层简单的神经处理单元组成,每一个处理单元都有储存经验信息的功能,并且储存的信息都可以随时用来处理信息。如图3所示,以神经网络为多层神经网络为例,包括输入层、隐含层以及输出层。输入层由n个节点xn组成,xi表示输入模式向量的第i个分量(i=1,2,…,n);隐含层由m个节点bj(j=1,2,…,m)组成;输出层由l个节点yk(k=1,2,…,l)组成。当神经网络训练完成后,它的映射关系也就确定了。设映射关系函数为F(X)(其中X=(x1,x2,…,xn)为输入特征),定义S(Xi)=E(||F(X+△i)-F(X)||2)为该神经网络对第i个输入特征xi的敏感性。其中X+△i=(x1,x2,...,xi+△i,...,xn)T,△i是在[-h,h]上服从均匀分布的随机变量,其中h是一个小的正数,其经验取值为0.01至0.05。||F(X)||2是求取F(X)的欧几里德范数算符,E为求取期望的算符,n为特征集中特征的数量。每个特征都有一个对应的取值△i,通过在其中一个优选特征上添加对应的取值△i,代入公式S(Xi)=E(||F(X+△i)-F(X)||2),计算该优选特征在特征集中的敏感性。通过计算优选特征的敏感性能够了解该优选特征在特征集的影响度,影响度越高的优选特征其敏感性越大。
作为一种可实施的方式,由于每个周期中的特征的数据内容都会变化,每个周期的特征的敏感性也未必相同,在特征集的影响度更是不同,因此通过计算第一特征子集中各个优选特征的上一周期的敏感性S(Xi-1)以及当前周期的敏感性S(Xi)(i大于等于1),得知各个优选特征的敏感性的变化,从而得知各个优选特征在特征集中影响度的变化。
具体实现中,在上述步骤中计算出第一特征子集中各个优选特征的上一周期的敏感性S(Xi-1)以及当前周期的敏感性S(Xi)后,根据各个优选特征的上一周期的敏感性S(Xi-1)以及当前周期的敏感性S(Xi)计算各个优选特征的敏感变化率R(Xi)。其中,可根据公式计算各个优选特征的敏感变化率R(Xi)。根据敏感变化率的大小判断各个优选特征在特征集的影响度的变化。
具体实现中,所述第一预设指标为所述优选特征的敏感变化率大于或等于预设敏感变化率。敏感变化率大于或等于预设敏感变化率的优选特征在当前周期对特征集的影响度依然较大,因此需要保留敏感变化率大于或等于预设敏感变化率的优选特征。只要优选特征的敏感变化率不超出所能容忍的区间阈值,该优选特征就能保留在第一特征集中。而敏感变化率小于预设敏感变化率的优选特征则说明在当前周期该优选特征对特征集的影响度变小,因此可将敏感变化率小于预设敏感变化率的优选特征予以淘汰。如图4所示,经过选取之后满足第一预设指标的第一优选特征为优选特征x1至x6,由于优选特征x7至x10不满足第一预设指标,因此将优选特征x7至x10予以淘汰。
作为一种可实施的方式,可将选取出的予以保留的优选特征定义为第一优选特征。
作为一种可实施的方式,预设指标还可根据信息增益和设定特征重要度等方式进行设定。由于信息增益以及特征重要度的具体实施步骤为现有技术,本发明实施例则不再赘述。
可选的,如图6所示,特征选择装置还包括第二生成模块506。
第二生成模块506,用于根据所述选取单元5023选取的第一优选特征生成第四特征子集。
具体实现中,根据选取出的敏感变化率大于或等于预设敏感变化率的优选特征x1至x6生成第四特征子集。
可选的,所述第二预设指标为所述候选特征的当前周期的敏感性大于或等于第二优选特征的当前周期的敏感性的平均值,所述第二优选特征为敏感变化率小于所述预设敏感变化率的优选特征,则如图6所示,第二选取模块503包括确定单元5031、获取单元5032、第一计算单元5033、第二计算单元5034以及选取单元5035。
确定单元5031,用于确定敏感变化率小于所述预设敏感变化率的优选特征为所述第二优选特征;
获取单元5032,用于获取所述确定单元5031确定的第二优选特征的当前周期的敏感性;
第一计算单元5033,用于根据所述获取单元5032获取的第二优选特征的当前周期的敏感性计算所述平均值;
第二计算单元5034,用于计算各个候选特征的当前周期的敏感性;
选取单元5035,用于选取出所述当前周期的敏感性大于或等于所述平均值的候选特征。
具体实现中,将予以淘汰的优选特征x7至x10定义为第二优选特征。第二优选特征的敏感性可作为后续设定第二预设指标的设置基础。
作为一种可实施的方式,实施例图1涉及的所述第二预设指标为所述候选特征的当前周期的敏感性大于或等于第二优选特征的当前周期的敏感性的平均值,所述第二优选特征为敏感变化率小于所述预设敏感变化率的优选特征。
具体实现中,根据已经计算出各个第二优选特征的上一周期的敏感性S(Xi-1)以及当前周期的敏感性S(Xi),可直接获取第二优选特征的当前周期的敏感性S(Xi)。
具体实现中,根据获取到的第二优选特征的当前周期的敏感性S(Xi)计算所有第二优选特征的敏感性的平均值。
具体实现中,由于候选特征x11至x20已归类在第二特征子集中,因此可根据公式S(Xi)=E(||F(X+△i)-F(X)||2)计算各个候选特征的当前周期的敏感性。由于大部分候选特征为当前周期新添入的特征,大部分候选特征仅有当前周期的数据内容,因此计算各个候选特征的当前周期的敏感性即可。
具体实现中,如果存在当前周期的敏感性大于或等于第二优选特征(被淘汰的优选特征)的敏感性的平均值的候选特征,则可选取出满足该条件的候选特征,实现对原先第一特征子集保留的优选特征的局部轮换。如图4所示,由于候选特征x11、x15、x18以及x20的当前周期的敏感性大于或等于第二优选特征的敏感性的平均值,因此选取出候选特征x11、x15、x18以及x20
作为一种可实施的方式,对于当前周期的敏感性小于第二优选特征的敏感性的平均值的候选特征x12至x14、x16、x17以及x19本发明实施例将予以淘汰。
可选的,如图6所示,特征选择装置还包括第三生成模块507。
第三生成模块507,用于根据所述选取单元5035选取的当前周期的敏感性大于或等于所述平均值的候选特征生成第五特征子集。
具体实现中,根据满足第二预设指标的候选特征x11、x15、x18以及x20生成第五特征子集。
可选的,第一生成模块504,具体用于:
根据所述第二生成模块506生成的第四特征子集以及所述第三生成模块507生成的第五特征子集生成所述第三特征子集。
可选的,如图6所示,特征选择装置还包括训练模块508。
训练模块508,用于根据所述第一生成模块504生成的第三特征子集包括的所述优选特征以及所述候选特征训练分类器,以使所述分类器根据所述第三特征子集包括的所述优选特征以及所述候选特征识别所述样本数据。
具体实现中,根据第三特征子集中确定数量的优选特征x1至x6以及候选特征x11、x15、x18以及x20训练分类器,以使分类器根据第三特征子集内包括的特征对未知类别的样本数据进行识别与预测。训练分类器的具体实施步骤为现有技术,本发明实施例则不再赘述。
采用本发明实施例,可从样本数据中提取样本数据的特征,根据提取的特征生成特征集,将特征集划分为第一特征子集和第二特征子集,第一特征子集包括当前周期的上一周期保留的至少一个优选特征,第二特征子集包括至少一个候选特征,从第一特征子集中选取出满足第一预设指标的优选特征,从第二特征子集中选取出满足第二预设指标的候选特征,根据满足第一预设指标的优选特征以及满足第二预设指标的候选特征生成第三特征子集,其中,第一预设指标以及第二预设指标可根据神经网络的敏感性设定,可在选择特征时对上一周期选出的优选特征有选择性地保留,提高特征选择的效率。通过限制第三特征子集包括的特征数量保证选取出的特征的数量的平稳变化。此外,对于优选特征以及候选特征采用不同的评估方法进行评估,能够减小评估结果的误差,实现特征选择的最优化。
请参阅图7,图7是本发明实施例的一种特征选择装置的第三实施例的结构示意图。如图7所示的终端包括输入装置700、输出装置701和处理器702(设备的处理器702的数量可以为一个或多个,图7中以一个处理器702为例)。在本发明实施例中,输入装置700、输出装置701和处理器702可通过总线或其他方式连接,其中,图7中以通过总线连接为例。
输入装置700,用于从样本数据中提取所述样本数据的特征,根据提取的特征生成特征集;
处理器702,用于将所述特征集划分为第一特征子集和第二特征子集,所述第一特征子集包括当前周期的上一周期保留的至少一个优选特征,所述第二特征子集包括至少一个候选特征;
处理器702,还用于从所述第一特征子集中选取出满足第一预设指标的优选特征;
处理器702,还用于从所述第二特征子集中选取出满足第二预设指标的候选特征;
处理器702,还用于根据所述满足第一预设指标的优选特征以及所述满足第二预设指标的候选特征生成第三特征子集。
具体实现中,特征是能够描述样本数据的属性信息,因此,从大数据分析平台的指定业务的各个样本数据中提取特征,根据提取的所有特征生成特征集。
具体实现中,可将特征进行分类,提取当前周期的上一周期选取出的至少一个优选特征并根据至少一个优选特征生成第一特征子集。优选特征是在上一周期选取出的特征,因此需要保留这些选取出的优选特征,使特征选择具有延续性、继承性,还能够加快特征选择的效率。由于每个时段的样本数据都会变化,因此也会出现更多新的特征,对于当前周期出现的新的特征或者特征集内除优选特征之外的特征则归为第二特征子集。
具体实现中,由于样本数据会随着时间和环境的变化而变化,某些优选特征对于数据分析的重要性随着可能会时间的推移而降低,因此,需要适当淘汰一些优选特征,使选取出的特征更能够适应当前周期的数据分析的需求。本发明实施例则对第一特征子集的优选特征设定第一预设指标,并选取出满足第一预设指标的优选特征。
具体实现中,可对于各个特征子集设定不同的指标,因此可对第二特征子集设定第二预设指标,从第二特征子集中选取出满足第二预设指标的候选特征。
作为一种可实施的方式,预设指标可根据神经网络的敏感性、信息增益和设定特征重要度等方式进行设定。
具体实现中,当从第一特征子集选取出满足第一预设指标的优选特征以及从第二特征子集选取出满足第二预设指标的候选特征后,根据上述选取出的特征生成第三特征子集。第三特征子集即为当前周期的新的优选特征集。
作为一种可实施的方式,可在生成第三特征子集之后,根据第三特征子集包括的特征训练分类器,以使分类器根据第三特征子集包括的特征对未知类别的样本数据进行识别与预测。训练分类器的具体实施步骤为现有技术,本发明实施例则不再赘述。
可选的,处理器702,还用于根据所述第一特征子集内优选特征的数量确定所述第三特征子集内包括的所述优选特征以及所述候选特征的数量,其中,生成的所述第三特征子集包括确定数量的优选特征以及候选特征。
可选的,所述第一预设指标为所述优选特征的敏感变化率大于或等于预设敏感变化率,则处理器702从所述第一特征子集中选取出满足第一预设指标的优选特征,执行如下步骤:
计算所述第一特征子集中的各个优选特征的所述上一周期的敏感性以及所述当前周期的敏感性;根据所述各个优选特征的所述上一周期的敏感性以及所述当前周期的敏感性,得到所述各个优选特征的敏感变化率;选取出满足第一预设指标的第一优选特征,所述第一优选特征为敏感变化率大于或等于所述预设敏感变化率的优选特征。
可选的,处理器702,还用于根据所述第一优选特征生成第四特征子集。
可选的,所述第二预设指标为所述候选特征的当前周期的敏感性大于或等于第二优选特征的当前周期的敏感性的平均值,所述第二优选特征为敏感变化率小于所述预设敏感变化率的优选特征,则处理器702从所述第二特征子集中选取出满足第二预设指标的候选特征,执行如下步骤:
确定敏感变化率小于所述预设敏感变化率的优选特征为所述第二优选特征;获取所述第二优选特征的当前周期的敏感性;根据所述第二优选特征的当前周期的敏感性计算所述平均值;计算各个候选特征的当前周期的敏感性;选取出所述当前周期的敏感性大于或等于所述平均值的候选特征。
可选的,处理器702,还用于根据所述当前周期的敏感性大于或等于所述平均值的候选特征生成第五特征子集。
可选的,处理器702,还用于根据所述第四特征子集以及所述第五特征子集生成所述第三特征子集。
可选的,输出装置701,用于根据所述第三特征子集包括的所述优选特征以及所述候选特征训练分类器,以使所述分类器根据所述第三特征子集包括的所述优选特征以及所述候选特征识别所述样本数据。
采用本发明实施例,可从样本数据中提取样本数据的特征,根据提取的特征生成特征集,将特征集划分为第一特征子集和第二特征子集,第一特征子集包括当前周期的上一周期保留的至少一个优选特征,第二特征子集包括至少一个候选特征,从第一特征子集中选取出满足第一预设指标的优选特征,从第二特征子集中选取出满足第二预设指标的候选特征,根据满足第一预设指标的优选特征以及满足第二预设指标的候选特征生成第三特征子集,其中,第一预设指标以及第二预设指标可根据神经网络的敏感性设定,可在选择特征时对上一周期选出的优选特征有选择性地保留,提高特征选择的效率。通过限制第三特征子集包括的特征数量保证选取出的特征的数量的平稳变化。此外,对于优选特征以及候选特征采用不同的评估方法进行评估,能够减小评估结果的误差,实现特征选择的最优化。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例装置中的模块或单元可以根据实际需要进行合并、划分和删减。
本发明实施例的模块或模块,可以以通用集成电路(如中央处理器CPU),或以专用集成电路(ASIC)来实现。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述的实施方式,并不构成对该技术方案保护范围的限定。任何在上述实施方式的精神和原则之内所作的修改、等同替换和改进等,均应包含在该技术方案的保护范围之内。

Claims (16)

1.一种特征选择方法,其特征在于,包括:
从样本数据中提取所述样本数据的特征,根据提取的特征生成特征集;
将所述特征集划分为第一特征子集和第二特征子集,所述第一特征子集包括当前周期的上一周期保留的至少一个优选特征,所述第二特征子集包括至少一个候选特征;
从所述第一特征子集中选取出满足第一预设指标的优选特征;
从所述第二特征子集中选取出满足第二预设指标的候选特征;
根据所述满足第一预设指标的优选特征以及所述满足第二预设指标的候选特征生成第三特征子集。
2.根据权利要求1所述的方法,其特征在于,
所述生成第三特征子集之前,所述方法还包括:
根据所述第一特征子集内优选特征的数量确定所述第三特征子集内包括的所述优选特征以及所述候选特征的数量,其中,生成的所述第三特征子集包括确定数量的优选特征以及候选特征。
3.根据权利要求1所述的方法,其特征在于,所述第一预设指标为所述优选特征的敏感变化率大于或等于预设敏感变化率,则所述从所述第一特征子集中选取出满足第一预设指标的优选特征,具体包括:
计算所述第一特征子集中的各个优选特征的所述上一周期的敏感性以及所述当前周期的敏感性;
根据所述各个优选特征的所述上一周期的敏感性以及所述当前周期的敏感性,得到所述各个优选特征的敏感变化率;
选取出满足第一预设指标的第一优选特征,所述第一优选特征为敏感变化率大于或等于所述预设敏感变化率的优选特征。
4.根据权利要求3所述的方法,其特征在于,所述选取出满足第一预设指标的第一优选特征之后,所述方法还包括:
根据所述第一优选特征生成第四特征子集。
5.根据权利要求4所述的方法,其特征在于,所述第二预设指标为所述候选特征的当前周期的敏感性大于或等于第二优选特征的当前周期的敏感性的平均值,所述第二优选特征为敏感变化率小于所述预设敏感变化率的优选特征,则所述从所述第二特征子集中选取出满足第二预设指标的候选特征,具体包括:
确定敏感变化率小于所述预设敏感变化率的优选特征为所述第二优选特征;
获取所述第二优选特征的当前周期的敏感性;
根据所述第二优选特征的当前周期的敏感性计算所述平均值;
计算各个候选特征的当前周期的敏感性;
选取出所述当前周期的敏感性大于或等于所述平均值的候选特征。
6.根据权利要求5所述的方法,其特征在于,所述选取出所述当前周期的敏感性大于或等于所述平均值的候选特征之后,所述方法还包括:
根据所述当前周期的敏感性大于或等于所述平均值的候选特征生成第五特征子集。
7.根据权利要求6所述的方法,其特征在于,所述根据所述满足第一预设指标的优选特征以及所述满足第二预设指标的候选特征生成第三特征子集,具体包括:
根据所述第四特征子集以及所述第五特征子集生成所述第三特征子集。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第三特征子集包括的所述优选特征以及所述候选特征训练分类器,以使所述分类器根据所述第三特征子集包括的所述优选特征以及所述候选特征识别所述样本数据。
9.一种特征选择装置,其特征在于,包括:
提取模块,用于从样本数据中提取所述样本数据的特征,根据提取的特征生成特征集;
划分模块,用于将所述提取模块生成的特征集划分为第一特征子集和第二特征子集,所述第一特征子集包括当前周期的上一周期保留的至少一个优选特征,所述第二特征子集包括至少一个候选特征;
第一选取模块,用于从所述划分模块划分出的第一特征子集中选取出满足第一预设指标的优选特征;
第二选取模块,用于从所述划分模块划分出的第二特征子集中选取出满足第二预设指标的候选特征;
第一生成模块,用于根据所述第一选取模块选取的满足第一预设指标的优选特征以及所述第二选取模块选取的满足第二预设指标的候选特征生成第三特征子集。
10.根据权利要求9所述的特征选择装置,其特征在于,所述特征选择装置还包括:
确定模块,用于根据所述第一特征子集内优选特征的数量确定所述第三特征子集内包括的所述优选特征以及所述候选特征的数量,其中,生成的所述第三特征子集包括确定数量的优选特征以及候选特征。
11.根据权利要求9所述的特征选择装置,其特征在于,所述第一预设指标为所述优选特征的敏感变化率大于或等于预设敏感变化率,则所述第一选取模块包括:
计算单元,用于计算所述第一特征子集中的各个优选特征的所述上一周期的敏感性以及所述当前周期的敏感性;
得到单元,用于根据所述计算单元计算的各个优选特征的所述上一周期的敏感性以及所述当前周期的敏感性,得到所述各个优选特征的敏感变化率;
选取单元,用于选取出满足第一预设指标的第一优选特征,所述第一优选特征为敏感变化率大于或等于所述预设敏感变化率的优选特征。
12.根据权利要求11所述的特征选择装置,其特征在于,所述特征选择装置还包括:
第二生成模块,用于根据所述选取单元选取的第一优选特征生成第四特征子集。
13.根据权利要求12所述的特征选择装置,其特征在于,所述第二预设指标为所述候选特征的当前周期的敏感性大于或等于第二优选特征的当前周期的敏感性的平均值,所述第二优选特征为敏感变化率小于所述预设敏感变化率的优选特征,则所述第二选取模块包括:
确定单元,用于确定敏感变化率小于所述预设敏感变化率的优选特征为所述第二优选特征;
获取单元,用于获取所述确定单元确定的第二优选特征的当前周期的敏感性;
第一计算单元,用于根据所述获取单元获取的第二优选特征的当前周期的敏感性计算所述平均值;
第二计算单元,用于计算各个候选特征的当前周期的敏感性;
选取单元,用于选取出所述当前周期的敏感性大于或等于所述平均值的候选特征。
14.根据权利要求13所述的特征选择装置,其特征在于,所述特征选择装置还包括:
第三生成模块,用于根据所述选取单元选取的当前周期的敏感性大于或等于所述平均值的候选特征生成第五特征子集。
15.根据权利要求14所述的特征选择装置,其特征在于,所述第一生成模块,具体用于:
根据所述第二生成模块生成的第四特征子集以及所述第三生成模块生成的第五特征子集生成所述第三特征子集。
16.根据权利要求9所述的特征选择装置,其特征在于,所述特征选择装置还包括:
训练模块,用于根据所述第一生成模块生成的第三特征子集包括的所述优选特征以及所述候选特征训练分类器,以使所述分类器根据所述第三特征子集包括的所述优选特征以及所述候选特征识别所述样本数据。
CN201410820037.9A 2014-12-24 2014-12-24 一种特征选择方法及装置 Pending CN104573741A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410820037.9A CN104573741A (zh) 2014-12-24 2014-12-24 一种特征选择方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410820037.9A CN104573741A (zh) 2014-12-24 2014-12-24 一种特征选择方法及装置

Publications (1)

Publication Number Publication Date
CN104573741A true CN104573741A (zh) 2015-04-29

Family

ID=53089760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410820037.9A Pending CN104573741A (zh) 2014-12-24 2014-12-24 一种特征选择方法及装置

Country Status (1)

Country Link
CN (1) CN104573741A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133188A1 (zh) * 2016-02-05 2017-08-10 华为技术有限公司 一种特征集确定的方法及装置
CN107656927A (zh) * 2016-07-25 2018-02-02 华为技术有限公司 一种特征选择方法及设备
CN107784363A (zh) * 2016-08-31 2018-03-09 华为技术有限公司 数据处理方法、装置及系统
CN107943582A (zh) * 2017-11-14 2018-04-20 广东欧珀移动通信有限公司 特征处理方法、装置、存储介质及电子设备
CN108334935A (zh) * 2017-12-13 2018-07-27 华南师范大学 精简输入的深度学习神经网络方法、装置和机器人系统
CN109784365A (zh) * 2018-12-06 2019-05-21 深圳市创梦天地科技有限公司 一种特征选择方法、终端、可读介质及计算机程序
WO2020118743A1 (zh) * 2018-12-14 2020-06-18 深圳先进技术研究院 数据特征提取方法、装置及电子设备
CN112651416A (zh) * 2019-10-11 2021-04-13 中移动信息技术有限公司 特征选择方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102404249A (zh) * 2011-11-18 2012-04-04 北京语言大学 一种基于协同训练的垃圾邮件过滤方法和装置
CN103400145A (zh) * 2013-07-19 2013-11-20 北京理工大学 基于线索神经网络的语音-视觉融合情感识别方法
CN103927560A (zh) * 2014-04-29 2014-07-16 苏州大学 一种特征选择方法及装置
CN103999150A (zh) * 2011-12-12 2014-08-20 杜比实验室特许公司 媒体数据中的低复杂度重复检测

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102404249A (zh) * 2011-11-18 2012-04-04 北京语言大学 一种基于协同训练的垃圾邮件过滤方法和装置
CN103999150A (zh) * 2011-12-12 2014-08-20 杜比实验室特许公司 媒体数据中的低复杂度重复检测
CN103400145A (zh) * 2013-07-19 2013-11-20 北京理工大学 基于线索神经网络的语音-视觉融合情感识别方法
CN103927560A (zh) * 2014-04-29 2014-07-16 苏州大学 一种特征选择方法及装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107045503A (zh) * 2016-02-05 2017-08-15 华为技术有限公司 一种特征集确定的方法及装置
WO2017133188A1 (zh) * 2016-02-05 2017-08-10 华为技术有限公司 一种特征集确定的方法及装置
US11461659B2 (en) 2016-02-05 2022-10-04 Huawei Technologies Co., Ltd. Feature set determining method and apparatus
CN107045503B (zh) * 2016-02-05 2019-03-05 华为技术有限公司 一种特征集确定的方法及装置
CN107656927A (zh) * 2016-07-25 2018-02-02 华为技术有限公司 一种特征选择方法及设备
CN107656927B (zh) * 2016-07-25 2021-04-09 华为技术有限公司 一种特征选择方法及设备
CN107784363B (zh) * 2016-08-31 2021-02-09 华为技术有限公司 数据处理方法、装置及系统
CN107784363A (zh) * 2016-08-31 2018-03-09 华为技术有限公司 数据处理方法、装置及系统
CN107943582A (zh) * 2017-11-14 2018-04-20 广东欧珀移动通信有限公司 特征处理方法、装置、存储介质及电子设备
CN107943582B (zh) * 2017-11-14 2020-08-04 Oppo广东移动通信有限公司 特征处理方法、装置、存储介质及电子设备
CN108334935A (zh) * 2017-12-13 2018-07-27 华南师范大学 精简输入的深度学习神经网络方法、装置和机器人系统
CN109784365A (zh) * 2018-12-06 2019-05-21 深圳市创梦天地科技有限公司 一种特征选择方法、终端、可读介质及计算机程序
CN109784365B (zh) * 2018-12-06 2023-12-01 深圳市创梦天地科技有限公司 一种特征选择方法、终端、可读介质及计算机程序
CN111325227A (zh) * 2018-12-14 2020-06-23 深圳先进技术研究院 数据特征提取方法、装置及电子设备
WO2020118743A1 (zh) * 2018-12-14 2020-06-18 深圳先进技术研究院 数据特征提取方法、装置及电子设备
CN111325227B (zh) * 2018-12-14 2023-04-07 深圳先进技术研究院 数据特征提取方法、装置及电子设备
CN112651416A (zh) * 2019-10-11 2021-04-13 中移动信息技术有限公司 特征选择方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN104573741A (zh) 一种特征选择方法及装置
CN110659744B (zh) 训练事件预测模型、评估操作事件的方法及装置
CN108875776B (zh) 模型训练方法和装置、业务推荐的方法和装置、电子设备
CN105786860A (zh) 一种数据建模中的数据处理方法及装置
CN105335519A (zh) 模型生成方法及装置、推荐方法及装置
JP2012118977A (ja) 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム
CN107766418A (zh) 一种基于融合模型的信用评估方法、电子设备和存储介质
CN105069122B (zh) 一种基于用户行为的个性化推荐方法及其推荐装置
TW201947510A (zh) 保險業務風險預測的處理方法、裝置及處理設備
CN104717124A (zh) 一种好友推荐方法、装置及服务器
CN111143569A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN108052505A (zh) 文本情感分析方法及装置、存储介质、终端
CN104885101A (zh) 包括表征选择的不确定度的基于不完备描述对新总体成员的相似成员的自动选择
CN106844330B (zh) 文章情感的分析方法和装置
CN114930336A (zh) 用于估计仿真的计算成本的方法和系统
Harding et al. Rejoinder to James Hamilton
CN109787821A (zh) 一种大规模移动客户流量消费智能预测方法
CN112884569A (zh) 一种信用评估模型的训练方法、装置及设备
CN116304341A (zh) 基于用户网络大数据的欺诈判别方法及系统
CN110443574B (zh) 多项目卷积神经网络评审专家推荐方法
Asghari et al. Spatial rainfall prediction using optimal features selection approaches
Couckuyt et al. Towards efficient multiobjective optimization: multiobjective statistical criterions
CN109977131A (zh) 一种房型匹配系统
CN112801784A (zh) 一种数字货币交易所的比特币地址挖掘方法及装置
CN105608460A (zh) 多分类器融合方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150429