CN103927560B - 一种特征选择方法及装置 - Google Patents
一种特征选择方法及装置 Download PDFInfo
- Publication number
- CN103927560B CN103927560B CN201410177935.7A CN201410177935A CN103927560B CN 103927560 B CN103927560 B CN 103927560B CN 201410177935 A CN201410177935 A CN 201410177935A CN 103927560 B CN103927560 B CN 103927560B
- Authority
- CN
- China
- Prior art keywords
- training sample
- feature
- index set
- sample set
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 claims abstract description 189
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000004364 calculation method Methods 0.000 claims description 28
- 230000004044 response Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 description 17
- 238000010187 selection method Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000003745 diagnosis Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种特征选择方法及装置,该方法通过响应接收到的训练样本集,生成第一训练样本集、与该第一训练样本集对应的第一特征索引集、第二训练样本集以及与该第二训练样本集对应的第二特征索引集,根据第一训练样本集计算第一元素,进而完成对第一特征索引集的更新,根据第二训练样本集计算第二元素,进而完成对第二特征索引集的更新,当更新后的第一特征索引集/第二特征索引集中各个特征的数量和满足预设值时,根据得到第一特征索引集以及第二特征索引集计算特征索引集,完成对特征的选择,以实现在特征选择的过程中,在保证学习效率的基础上,降低计算代缴、提高推广能力。
Description
技术领域
本申请涉及医疗诊断技术领域,特别是涉及一种特征选择方法及装置。
背景技术
当今的社会中,任何领域都离不开计算机的帮助。医疗诊断领域亦是如此,其利用一些技术来模拟医学专家诊断和治疗疾病,能够有效得解决各种临床问题,起到“医生助手”的作用,特别是可以帮助年轻无经验的医生提高诊断技能,优化诊治方案。机器学习在医疗诊断中的应用由最原始的应用先验知识进行启发式推理,到后来的概率计算方法和人工智能方法,再到现在应用广泛的神经网络技术,模拟技术和遗传算法等,机器学习在该领域的应用越来越广泛。
特征选择是机器学习等领域的重要研究内容之一。现有技术中特征选择方法主要有如下几种:
1、Filter(过滤)方法,该方法的特征选择过程与学习算法无关,是通过某个适应函数的值来估计某个特征子集的有效性,与具体的分类器无关,虽然该方法可以独立于学习算法,但是,其学习效率并不高。
2、Wrapper(封装)方法,该方法的特征选择过程与学习算法有关,其是用某个特定的分类器的性能作为特征子集选择的准则,这种直接优化分类器的策略虽然可改进分类器的泛化性、提高学习效率、但是其计算代缴相对较高、推广能力较差。
发明内容
有鉴于此,本申请实施例提供一种特征选择方法及装置,以实现在特征选择的过程中,在保证学习效率的基础上,降低计算代缴、提高推广能力。
为了实现上述目的,本申请实施例提供的技术方案如下:
一种特征选择方法,包括:
A、响应接收到的包括多个具有相同特征的训练样本的训练样本集,根据所述训练样本集中训练样本的类别,将所述训练样本集分成第一训练样本集以及第二训练样本集,并根据所述训练样本集中训练样本的特征,生成与所述第一训练样本集对应的第一特征索引集,以及与所述第二训练样本集对应的第二特征索引集;
B、统计与所述训练样本集中单个训练样本对应的各个特征的数量和;
C、计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素;
D、将所述数量和减1;
E、根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集;
F、当所述数量和满足预设值时,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集。
优选的,所述步骤F还包括:当所述数量和不满足预设值时,返回执行步骤C。
优选的,计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素,包括:
计算与所述第一训练样本集对应的第一超球体,以及与所述第二训练样本集对应的第二超球体;
计算与所述第一超球体对应的所有特征方向的能量,以及与所述第二超球体对应的所有特征方向的能量;
根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与所述第一训练样本集对应的第一元素,以及根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与所述第二训练样本集对应的第二元素。
优选的,所述根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集,包括:
剔除所述第一特征索引集中与所述第一元素相同的元素;
剔除所述第二特征索引集中与所述第二元素相同的元素。
优选的,所述根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集,包括:
计算更新后的第一特征索引集以及第二特征索引集的并集;
获取更新后的第一特征索引集以及第二特征索引集的交集;
剔除所述并集中与所述交集中的元素相同的元素,得到特征索引集。
一种特征选择装置,包括:
响应单元,用于执行步骤A响应接收到的包括多个具有相同特征的训练样本的训练样本集,根据所述训练样本集中训练样本的类别,将所述训练样本集分成第一训练样本集以及第二训练样本集,并根据所述训练样本集中训练样本的特征,生成与所述第一训练样本集对应的第一特征索引集,以及与所述第二训练样本集对应的第二特征索引集;
统计单元,用于执行步骤B、统计与所述训练样本集中单个训练样本对应的各个特征的数量和;
第一计算单元,用于执行步骤C、计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素;
第二计算单元,用于执行步骤D、将所述数量和减1;
更新单元,用于执行步骤E、根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集;
第三计算单元,用于执行步骤F、当所述数量和满足预设值时,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集。
优选的,所述第三计算单元,用于执行步骤F,该步骤F还包括:当所述数量和不满足预设值时,返回执行步骤C。
优选的,所述第一计算单元包括:
超球体计算单元,用于计算与所述第一训练样本集对应的第一超球体,以及与所述第二训练样本集对应的第二超球体;
能量计算单元,用于计算与所述第一超球体对应的所有特征方向的能量,以及与所述第二超球体对应的所有特征方向的能量;
特征计算单元,用于根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与所述第一训练样本集对应的第一元素,以及根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与所述第二训练样本集对应的第二元素。
优选的,所述更新单元包括:
第一剔除单元,用于剔除所述第一特征索引集中与所述第一元素相同的元素;
第二剔除单元,用于剔除所述第二特征索引集中与所述第二元素相同的元素。
优选的,所述第三计算单元包括:
并集计算单元,用于计算更新后的第一特征索引集以及第二特征索引集的并集;
交集计算单元,用于获取更新后的第一特征索引集以及第二特征索引集的交集;
特征索引集计算单元,用于剔除所述并集中与所述交集中的元素相同的元素,得到特征索引集。
本申请提供一种特征选择方法及装置,该方法通过响应接收到的训练样本集,生成第一训练样本集、与该第一训练样本集对应的第一特征索引集、第二训练样本集以及与该第二训练样本集对应的第二特征索引集,根据第一训练样本集计算第一元素,进而完成对第一特征索引集的更新,根据第二训练样本集计算第二元素,进而完成对第二特征索引集的更新,当更新后的第一特征索引集/第二特征索引集中各个特征的数量和满足预设值时,根据得到第一特征索引集以及第二特征索引集计算特征索引集,完成对特征的选择,以实现在特征选择的过程中,在保证学习效率的基础上,降低计算代缴、提高推广能力。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的一种特征选择方法流程图;
图2为本申请实施例二提供的一种特征选择装置的结构示意图;
图3为本申请实施例二提供的一种第一计算单元的详细结构示意图;
图4为本申请实施例二提供的一种更新单元的详细结构示意图;
图5为本申请实施例二提供的一种第三计算单元的详细结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
实施例一:
图1为本申请实施例一提供的一种特征选择方法流程图。
如图1所示,该方法包括:
步骤A、响应接收到的包括多个具有相同特征的训练样本的训练样本集,根据训练样本集中训练样本的类别,将训练样本集分成第一训练样本集以及第二训练样本集,并根据训练样本集中训练样本的特征,生成与第一训练样本集对应的第一特征索引集,以及与第二训练样本集对应的第二特征索引集。
在本申请实施例中,首先,响应接收到的训练样本集,该训练样本集可以为用户通过导入的方式输入的,也可以是通过手动输入的方式输入的,该训练样本集包括多个具有相同特征的训练样本,且优选的,该训练样本集为二元训练样本集。
在本申请实施例中,响应接收到的训练样本集其中xi∈RD,yi∈{+1,-1}是xi的标签,表明xi的类别,N是训练样本的总个数,D是训练样本的维数。
根据该训练样本集中训练样本的类别,将训练样本集分成第一训练样本集以及第二训练样本集,如:为第一训练样本集,为第二训练样本集,其中,n+为第一训练样本集中训练样本的个数,n-为第二训练样本集中训练样本的个数。它们都是训练样本集的子集。
根据训练样本集中训练样本的特征,生成与第一训练样本集对应的第一特征索引集,以及与第二训练样本集对应的第二特征索引集,在本申请实施例中,因为训练样本集中各个训练样本具有相同的特征,因此,这里生成的第一特征索引集F+与第二特征索引集F-相同,F+=F-={1,...,D}。且在本申请实施例中,通过该第一特征索引集确定第一训练样本集中的特征,通过该第二特征索引集确定第二训练样本集中的特征。
步骤B、统计与训练样本集中单个训练样本对应的各个特征的数量和。
在本申请实施例中,统计与训练样本集中单个训练样本对应的各个特征的数量和d(即:每个训练样本包括d个特征),且该d=D。
步骤C、计算与第一训练样本集对应的第一元素,以及与第二训练样本集对应的第二元素。
在本申请实施例中,优选的,计算与第一训练样本集对应的第一元素,以及与第二训练样本集对应的第二元素,包括:
1、计算与第一训练样本集对应的第一超球体,以及与第二训练样本集对应的第二超球体。
在本申请实施例中,优选的,计算与第一训练样本集对应的第一超球体的过程为:
其中,αi是Lagrange(拉格朗日)乘子,C+>0是惩罚因子,C+是预先设定的值。
在本申请实施例中,通过求解上面的优化问题,可得到第一超球体的Lagrange乘子
在本申请实施例中,优选的,计算与第二训练样本集对应的第二超球体的过程为:
其中,αi是Lagrange乘子,C->0是惩罚因子,C-是预先设定的值。
在本申请实施例中,通过求解上面的优化问题,可得到第二超球体的Lagrange乘子
2、计算与第一超球体对应的所有特征方向的能量,以及与第二超球体对应的所有特征方向的能量。
在本申请实施例汇总,计算与第一超球体对应的所有特征方向的能量的过程为:
其中,
在本申请实施例汇总,计算与第二超球体对应的所有特征方向的能量的过程为:
其中,
3、根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与第一训练样本集对应的第一元素,以及根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与第二训练样本集对应的第二元素。
在本申请实施例中,根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与第一训练样本集对应的第一元素j+的过程为:
其中,是第一超球体第k个方向的能量。
在本申请实施例中,根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与第二训练样本集对应的第二元素j-的过程为:
其中,是第二超球体第k个方向的能量。
在本申请实施例中,计算得到的第一元素j+即为需要在第一特征索引集中剔除的元素,计算得到的第二元素j-是需要在第二特征索引集中剔除的元素。
步骤D、将数量和减1。
在本申请实施例中,当计算出第一元素以及第二元素后,需要将数量和减1,即,将d=d-1。
步骤E、根据第一元素更新第一特征索引集,并根据第二元素更新第二特征索引集。
在本申请实施例中,根据第一元素更新第一特征索引集的过程为:剔除第一特征索引集中与第一元素相同的元素。如:F+=F+\j+,其表示将与第一元素j+相同的元素从第一特征索引集中剔除。
在本申请实施例中,根据第二元素更新第二特征索引集的过程为:剔除第二特征索引集中与第二元素相同的元素。如:F-=F-\j-,其表示将与第二元素j-相同的元素从第二特征索引集中剔除。
步骤F、当数量和满足预设值时,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集。
在本申请实施例中,预先设置有预设值r,当对第一特征索引集以及第二特征索引集更新完成后,需要判断数量和是否满足该预设值,即判断d=r是否存在。
当判断出数量和满足预设值时,即:d=r时,则根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集。
在本申请实施例中,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集的过程为:
1、计算更新后的第一特征索引集以及第二特征索引集的并集。
计算更新后的第一特征索引集以及第二特征索引集的并集,令F=F+∪F-,其中,F为第一特征索引集F+和第二特征索引集F-的并集。
2、获取更新后的第一特征索引集以及第二特征索引集的交集。
获取更新后的第一特征索引集F+和第二特征索引集F-的交集,即:获取第一特征索引集F+和第二特征索引集F-之间的重复元素。
3、剔除并集中与交集中的元素相同的元素,得到特征索引集。
当获取更新后的第一特征索引集和第二特征索引集的并集,以及更新后的第一特征索引集和第二特征索引集的交集后,需要将该并集中与交集中的元素相同的元素剔除,得到特征索引集,该特征索引集中的各个元素所对应的特征,即为本申请最终选择的特征。
假设更新后的第一特征索引集F+和第二特征索引集F-中均有r个元素,则并集剔除掉重复元素后的得到的特征索引集中含有r'个元素,该特征索引集中的r'个元素所对应特征,即为本申请最终选择的r'个特征。
进一步的,本申请实施例提供的一种特征选择方法中,步骤F还包括:当判断出数量和不满足预设值时,返回执行步骤C。
本申请提供一种特征选择方法,该方法通过响应接收到的训练样本集,生成第一训练样本集、与该第一训练样本集对应的第一特征索引集、第二训练样本集以及与该第二训练样本集对应的第二特征索引集,根据第一训练样本集计算第一元素,进而完成对第一特征索引集的更新,根据第二训练样本集计算第二元素,进而完成对第二特征索引集的更新,当更新后的第一特征索引集/第二特征索引集中各个特征的数量和满足预设值时,根据得到第一特征索引集以及第二特征索引集计算特征索引集,完成对特征的选择,以实现在特征选择的过程中,在保证学习效率的基础上,降低计算代缴、提高推广能力。
实施例二:
图2为本申请实施例二提供的一种特征选择装置的结构示意图。
如图2所示,该装置包括:
响应单元1,用于执行步骤A响应接收到的包括多个具有相同特征的训练样本的训练样本集,根据训练样本集中训练样本的类别,将训练样本集分成第一训练样本集以及第二训练样本集,并根据训练样本集中训练样本的特征,生成与第一训练样本集对应的第一特征索引集,以及与第二训练样本集对应的第二特征索引集。
统计单元2与响应单元1相连接,用于执行步骤B、统计与训练样本集中单个训练样本对应的各个特征的数量和。
第一计算单元3与响应单元1相连接,用于执行步骤C、计算与第一训练样本集对应的第一元素,以及与第二训练样本集对应的第二元素。
第二计算单元4的一端与统计单元2相连接,另一端与第一计算单元3相连接,用于执行步骤D、将数量和减1。
更新单元5的一端与第一计算单元3相连接,另一端与第二计算单元4相连接,用于执行步骤E、根据第一元素更新第一特征索引集,并根据第二元素更新第二特征索引集。
第三计算单元6的一端与第二计算单元4相连接,另一端与更新单元5相连接,用于执行步骤F、当数量和满足预设值时,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集。
图3为本申请实施例二提供的一种第一计算单元的详细结构示意图。
如图3所示,该第一计算单元3包括:
超球体计算单元31,用于计算与第一训练样本集对应的第一超球体,以及与第二训练样本集对应的第二超球体;
能量计算单元32与超球体计算单元31相连接,用于计算与第一超球体对应的所有特征方向的能量,以及与第二超球体对应的所有特征方向的能量;
特征计算单元33与能量计算单元32相连接,用于根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与第一训练样本集对应的第一元素,以及根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与第二训练样本集对应的第二元素。
图4为本申请实施例二提供的一种更新单元的详细结构示意图。
如图4所示,该更新单元5包括:
第一剔除单元51,用于剔除第一特征索引集中与第一元素相同的元素;
第二剔除单元52与第一剔除单元51相连接,用于剔除第二特征索引集中与第二元素相同的元素。
图5为本申请实施例二提供的一种第三计算单元的详细结构示意图。
如图5所示,该第三计算单元6包括:
并集计算单元61,用于计算更新后的第一特征索引集以及第二特征索引集的并集;
交集计算单元62与并集计算单元61相连接,用于获取更新后的第一特征索引集以及第二特征索引集的交集;
特征索引集计算单元63与交集计算单元62相连接,用于剔除并集中与交集中的元素相同的元素,得到特征索引集。
进一步的,本申请实施例提供的一种特征选择装置中的第三计算单元,用于执行步骤F,该步骤F还包括:当数量和不满足预设值时,返回执行步骤C。
本申请提供一种特征选择装置,该装置通过响应接收到的训练样本集,生成第一训练样本集、与该第一训练样本集对应的第一特征索引集、第二训练样本集以及与该第二训练样本集对应的第二特征索引集,根据第一训练样本集计算第一元素,进而完成对第一特征索引集的更新,根据第二训练样本集计算第二元素,进而完成对第二特征索引集的更新,当更新后的第一特征索引集/第二特征索引集中各个特征的数量和满足预设值时,根据得到第一特征索引集以及第二特征索引集计算特征索引集,完成对特征的选择,以实现在特征选择的过程中,在保证学习效率的基础上,降低计算代缴、提高推广能力。
实施例三:
本申请实施例主要是通过诊断模块对本申请进行特征选择的结果进行验证,进而说明本申请实施例特征选择结果的学习效率。
在本申请实施例中,当完成特征选择,得到特征索引集F后,该特征索引集F中包括r'个元素,且因为训练样本集按照特征索引集F中的元素来确定特征选择后训练样本集,因此,根据特征索引集F确定的训练样本集为其中
在本申请实施例中,诊断模块主要对测试样本进行处理,通过多SVDD(SupportVector Data Description,支持向量数据描述)的特征选择,根据给定的排序准则删除若干个不重要特征,最后将多个SVDD剩余的重要特征组合起来;用kNN分类器对新得到的测试样本集进行预测,得出最终分类结果。
验证过程主要如下:
令医疗诊断数据测试样本为x,其中x∈RD。
根据本申请实施例得到的特征索引集F,确定x中的要留下的特征,令特征选择后的测试样本为
将待测样本输入到kNN分类器中,找到训练样本中距离待测样本最近的k个点,然后将待测样本的类别设置为k个点中最多的那类的类别,这样就可得到待测样本的预测分类结果。
而判断预测分类结果的准确性时,可以通过召回率来判断,如:
通过本发明提出的多SVDD的特征选择方法,把38个7129维的训练样本中的27个第一类样本和11个第二类样本都降到100维,然后得到它们的特征索引集F,该特征索引集F中包括196个元素,把34个7129维的测试样本按照F降到196维,用kNN分类器对这34个196维的测试样本进行分类。由于本实验所用的第一类样本以及第二类样本不平衡,因此,表中给出了在第一类样本中的召回率和在第二类样本中的召回率。为了对我们的实验效果一目了然,本实验提出的方法与SVM-RFE(Recursive Feature Elimination,回归特征消除)算法在相同的数据集上做比较。对于SVM-RFE,令C+=100。对于我们的方法,由于该方法形成了两个超球体,就会存在两个C值,分别为第一类样本形成的第一个超球的C+和第二类样本形成的第二个超球的C-。我们令C+=0.037,C-=0.32,表1给出了两种方法的召回率对比:
表1SVM-RFE算法和本发明方法的分类性能(识别率%)对比
通过实验结果我们可以看出本发明的效果明显优于SVM-RFE算法,尤其是第二类样本的召回率大大高于SVM-RFE算法,本方法具有一定的优势。
本申请实施例提供一种针对本申请的特征选择结果进行验证的针对模块,通过该诊断模块可以更加清晰的表现出本申请相对于现有技术的优势,使得本申请提供的特征选择方法更加清晰、有说服力。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
以上仅是本申请的优选实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (6)
1.一种特征选择方法,其特征在于,包括:
A、响应接收到的包括多个具有相同特征的训练样本的训练样本集,根据所述训练样本集中训练样本的类别,将所述训练样本集分成第一训练样本集以及第二训练样本集,并根据所述训练样本集中训练样本的特征,生成与所述第一训练样本集对应的第一特征索引集,以及与所述第二训练样本集对应的第二特征索引集;
B、统计与所述训练样本集中单个训练样本对应的各个特征的数量和;
C、计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素;
D、将所述数量和减1;
E、根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集;
F、当所述数量和满足预设值时,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集;
其中,所述计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素,包括:
计算与所述第一训练样本集对应的第一超球体,以及与所述第二训练样本集对应的第二超球体;
计算与所述第一超球体对应的所有特征方向的能量,以及与所述第二超球体对应的所有特征方向的能量;
根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与所述第一训练样本集对应的第一元素,以及根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与所述第二训练样本集对应的第二元素;
所述根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集,包括:
计算更新后的第一特征索引集以及第二特征索引集的并集;
获取更新后的第一特征索引集以及第二特征索引集的交集;
剔除所述并集中与所述交集中的元素相同的元素,得到特征索引集。
2.根据权利要求1所述的方法,其特征在于,所述步骤F还包括:当所述数量和不满足预设值时,返回执行步骤C。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集,包括:
剔除所述第一特征索引集中与所述第一元素相同的元素;
剔除所述第二特征索引集中与所述第二元素相同的元素。
4.一种特征选择装置,其特征在于,包括:
响应单元,用于执行步骤A响应接收到的包括多个具有相同特征的训练样本的训练样本集,根据所述训练样本集中训练样本的类别,将所述训练样本集分成第一训练样本集以及第二训练样本集,并根据所述训练样本集中训练样本的特征,生成与所述第一训练样本集对应的第一特征索引集,以及与所述第二训练样本集对应的第二特征索引集;
统计单元,用于执行步骤B、统计与所述训练样本集中单个训练样本对应的各个特征的数量和;
第一计算单元,用于执行步骤C、计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素;
第二计算单元,用于执行步骤D、将所述数量和减1;
更新单元,用于执行步骤E、根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集;
第三计算单元,用于执行步骤F、当所述数量和满足预设值时,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集;
其中,所述第一计算单元包括:
超球体计算单元,用于计算与所述第一训练样本集对应的第一超球体,以及与所述第二训练样本集对应的第二超球体;
能量计算单元,用于计算与所述第一超球体对应的所有特征方向的能量,以及与所述第二超球体对应的所有特征方向的能量;
特征计算单元,用于根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与所述第一训练样本集对应的第一元素,以及根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与所述第二训练样本集对应的第二元素;
所述第三计算单元包括:
并集计算单元,用于计算更新后的第一特征索引集以及第二特征索引集的并集;
交集计算单元,用于获取更新后的第一特征索引集以及第二特征索引集的交集;
特征索引集计算单元,用于剔除所述并集中与所述交集中的元素相同的元素,得到特征索引集。
5.根据权利要求4所述的装置,其特征在于,所述第三计算单元,用于执行步骤F,该步骤F还包括:当所述数量和不满足预设值时,返回执行步骤C。
6.根据权利要求5所述的装置,其特征在于,所述更新单元包括:
第一剔除单元,用于剔除所述第一特征索引集中与所述第一元素相同的元素;
第二剔除单元,用于剔除所述第二特征索引集中与所述第二元素相同的元素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410177935.7A CN103927560B (zh) | 2014-04-29 | 2014-04-29 | 一种特征选择方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410177935.7A CN103927560B (zh) | 2014-04-29 | 2014-04-29 | 一种特征选择方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103927560A CN103927560A (zh) | 2014-07-16 |
CN103927560B true CN103927560B (zh) | 2017-03-29 |
Family
ID=51145776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410177935.7A Active CN103927560B (zh) | 2014-04-29 | 2014-04-29 | 一种特征选择方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103927560B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871856A (zh) * | 2017-12-04 | 2019-06-11 | 北京京东尚科信息技术有限公司 | 一种优化训练样本的方法和装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573741A (zh) * | 2014-12-24 | 2015-04-29 | 杭州华为数字技术有限公司 | 一种特征选择方法及装置 |
CN113901999B (zh) * | 2021-09-29 | 2023-09-29 | 国网四川省电力公司电力科学研究院 | 一种高压并联电抗器故障诊断方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006004797A2 (en) * | 2004-06-25 | 2006-01-12 | The Trustees Of Columbia University In The City Ofnew York | Methods and systems for feature selection |
CN102479329A (zh) * | 2010-11-22 | 2012-05-30 | 索尼公司 | 分类器生成装置和方法,检测图像中的对象的装置和方法 |
WO2012121728A1 (en) * | 2011-03-10 | 2012-09-13 | Textwise Llc | Method and system for unified information representation and applications thereof |
CN103020589A (zh) * | 2012-11-19 | 2013-04-03 | 山东神思电子技术股份有限公司 | 一种单训练样本人脸识别方法 |
CN103593674A (zh) * | 2013-11-19 | 2014-02-19 | 太原理工大学 | 一种颈部淋巴结超声图像特征选择方法 |
-
2014
- 2014-04-29 CN CN201410177935.7A patent/CN103927560B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006004797A2 (en) * | 2004-06-25 | 2006-01-12 | The Trustees Of Columbia University In The City Ofnew York | Methods and systems for feature selection |
CN102479329A (zh) * | 2010-11-22 | 2012-05-30 | 索尼公司 | 分类器生成装置和方法,检测图像中的对象的装置和方法 |
WO2012121728A1 (en) * | 2011-03-10 | 2012-09-13 | Textwise Llc | Method and system for unified information representation and applications thereof |
CN103020589A (zh) * | 2012-11-19 | 2013-04-03 | 山东神思电子技术股份有限公司 | 一种单训练样本人脸识别方法 |
CN103593674A (zh) * | 2013-11-19 | 2014-02-19 | 太原理工大学 | 一种颈部淋巴结超声图像特征选择方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871856A (zh) * | 2017-12-04 | 2019-06-11 | 北京京东尚科信息技术有限公司 | 一种优化训练样本的方法和装置 |
CN109871856B (zh) * | 2017-12-04 | 2022-03-04 | 北京京东尚科信息技术有限公司 | 一种优化训练样本的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103927560A (zh) | 2014-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Multi-objective particle swarm optimization approach for cost-based feature selection in classification | |
Zheng et al. | Oversampling method for imbalanced classification | |
Yu et al. | Zinb-based graph embedding autoencoder for single-cell rna-seq interpretations | |
CN104657574B (zh) | 一种医疗诊断模型的建立方法及装置 | |
CN112732583B (zh) | 一种基于聚类和多种群遗传算法的软件测试数据生成方法 | |
Durán-Rosal et al. | A statistically-driven coral reef optimization algorithm for optimal size reduction of time series | |
Naik et al. | Genetic algorithm-aided dynamic fuzzy rule interpolation | |
CN103927560B (zh) | 一种特征选择方法及装置 | |
CN109344969B (zh) | 神经网络系统及其训练方法以及计算机可读介质 | |
CN106033425A (zh) | 数据处理设备和数据处理方法 | |
CN110163350A (zh) | 一种计算装置及方法 | |
WO2023124342A1 (zh) | 一种针对图像分类的神经网络结构低成本自动搜索方法 | |
CN101789000A (zh) | 搜索引擎中的模式分类方法 | |
CN113537245B (zh) | 一种基于特征图的神经网络剪枝方法 | |
CN108805206A (zh) | 一种用于模拟电路故障分类的改进型lssvm建立方法 | |
CN105938561A (zh) | 一种基于典型相关性分析的计算机数据属性约简方法 | |
Alweshah | Hybridization of arithmetic optimization with great deluge algorithms for feature selection problems in medical diagnosis | |
CN115345303A (zh) | 卷积神经网络权重调优方法、装置、存储介质和电子设备 | |
CN109739980A (zh) | 对情感分类器进行调优的方法、装置及终端 | |
CN114625886A (zh) | 基于知识图谱小样本关系学习模型的实体查询方法及系统 | |
CN114021699A (zh) | 一种基于梯度的卷积神经网络剪枝方法及装置 | |
CN110162704B (zh) | 基于多因子遗传算法的多规模关键用户提取方法 | |
JP6600858B1 (ja) | 貢献度算出システム、貢献度算出装置、貢献度算出方法、貢献度算出プログラム及び貢献度算出プログラムを記憶する記憶媒体 | |
WO2020024448A1 (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
Jilani et al. | An application of generalised simulated annealing towards the simultaneous modelling and clustering of glaucoma |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |