CN103927560B - 一种特征选择方法及装置 - Google Patents

一种特征选择方法及装置 Download PDF

Info

Publication number
CN103927560B
CN103927560B CN201410177935.7A CN201410177935A CN103927560B CN 103927560 B CN103927560 B CN 103927560B CN 201410177935 A CN201410177935 A CN 201410177935A CN 103927560 B CN103927560 B CN 103927560B
Authority
CN
China
Prior art keywords
training sample
feature
indexed set
sample set
suprasphere
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410177935.7A
Other languages
English (en)
Other versions
CN103927560A (zh
Inventor
张莉
曹晋
卢星凝
王邦军
何书萍
杨季文
李凡长
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201410177935.7A priority Critical patent/CN103927560B/zh
Publication of CN103927560A publication Critical patent/CN103927560A/zh
Application granted granted Critical
Publication of CN103927560B publication Critical patent/CN103927560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种特征选择方法及装置,该方法通过响应接收到的训练样本集,生成第一训练样本集、与该第一训练样本集对应的第一特征索引集、第二训练样本集以及与该第二训练样本集对应的第二特征索引集,根据第一训练样本集计算第一元素,进而完成对第一特征索引集的更新,根据第二训练样本集计算第二元素,进而完成对第二特征索引集的更新,当更新后的第一特征索引集/第二特征索引集中各个特征的数量和满足预设值时,根据得到第一特征索引集以及第二特征索引集计算特征索引集,完成对特征的选择,以实现在特征选择的过程中,在保证学习效率的基础上,降低计算代缴、提高推广能力。

Description

一种特征选择方法及装置
技术领域
本申请涉及医疗诊断技术领域,特别是涉及一种特征选择方法及装置。
背景技术
当今的社会中,任何领域都离不开计算机的帮助。医疗诊断领域亦是如此,其利用一些技术来模拟医学专家诊断和治疗疾病,能够有效得解决各种临床问题,起到“医生助手”的作用,特别是可以帮助年轻无经验的医生提高诊断技能,优化诊治方案。机器学习在医疗诊断中的应用由最原始的应用先验知识进行启发式推理,到后来的概率计算方法和人工智能方法,再到现在应用广泛的神经网络技术,模拟技术和遗传算法等,机器学习在该领域的应用越来越广泛。
特征选择是机器学习等领域的重要研究内容之一。现有技术中特征选择方法主要有如下几种:
1、Filter(过滤)方法,该方法的特征选择过程与学习算法无关,是通过某个适应函数的值来估计某个特征子集的有效性,与具体的分类器无关,虽然该方法可以独立于学习算法,但是,其学习效率并不高。
2、Wrapper(封装)方法,该方法的特征选择过程与学习算法有关,其是用某个特定的分类器的性能作为特征子集选择的准则,这种直接优化分类器的策略虽然可改进分类器的泛化性、提高学习效率、但是其计算代缴相对较高、推广能力较差。
发明内容
有鉴于此,本申请实施例提供一种特征选择方法及装置,以实现在特征选择的过程中,在保证学习效率的基础上,降低计算代缴、提高推广能力。
为了实现上述目的,本申请实施例提供的技术方案如下:
一种特征选择方法,包括:
A、响应接收到的包括多个具有相同特征的训练样本的训练样本集,根据所述训练样本集中训练样本的类别,将所述训练样本集分成第一训练样本集以及第二训练样本集,并根据所述训练样本集中训练样本的特征,生成与所述第一训练样本集对应的第一特征索引集,以及与所述第二训练样本集对应的第二特征索引集;
B、统计与所述训练样本集中单个训练样本对应的各个特征的数量和;
C、计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素;
D、将所述数量和减1;
E、根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集;
F、当所述数量和满足预设值时,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集。
优选的,所述步骤F还包括:当所述数量和不满足预设值时,返回执行步骤C。
优选的,计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素,包括:
计算与所述第一训练样本集对应的第一超球体,以及与所述第二训练样本集对应的第二超球体;
计算与所述第一超球体对应的所有特征方向的能量,以及与所述第二超球体对应的所有特征方向的能量;
根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与所述第一训练样本集对应的第一元素,以及根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与所述第二训练样本集对应的第二元素。
优选的,所述根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集,包括:
剔除所述第一特征索引集中与所述第一元素相同的元素;
剔除所述第二特征索引集中与所述第二元素相同的元素。
优选的,所述根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集,包括:
计算更新后的第一特征索引集以及第二特征索引集的并集;
获取更新后的第一特征索引集以及第二特征索引集的交集;
剔除所述并集中与所述交集中的元素相同的元素,得到特征索引集。
一种特征选择装置,包括:
响应单元,用于执行步骤A响应接收到的包括多个具有相同特征的训练样本的训练样本集,根据所述训练样本集中训练样本的类别,将所述训练样本集分成第一训练样本集以及第二训练样本集,并根据所述训练样本集中训练样本的特征,生成与所述第一训练样本集对应的第一特征索引集,以及与所述第二训练样本集对应的第二特征索引集;
统计单元,用于执行步骤B、统计与所述训练样本集中单个训练样本对应的各个特征的数量和;
第一计算单元,用于执行步骤C、计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素;
第二计算单元,用于执行步骤D、将所述数量和减1;
更新单元,用于执行步骤E、根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集;
第三计算单元,用于执行步骤F、当所述数量和满足预设值时,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集。
优选的,所述第三计算单元,用于执行步骤F,该步骤F还包括:当所述数量和不满足预设值时,返回执行步骤C。
优选的,所述第一计算单元包括:
超球体计算单元,用于计算与所述第一训练样本集对应的第一超球体,以及与所述第二训练样本集对应的第二超球体;
能量计算单元,用于计算与所述第一超球体对应的所有特征方向的能量,以及与所述第二超球体对应的所有特征方向的能量;
特征计算单元,用于根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与所述第一训练样本集对应的第一元素,以及根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与所述第二训练样本集对应的第二元素。
优选的,所述更新单元包括:
第一剔除单元,用于剔除所述第一特征索引集中与所述第一元素相同的元素;
第二剔除单元,用于剔除所述第二特征索引集中与所述第二元素相同的元素。
优选的,所述第三计算单元包括:
并集计算单元,用于计算更新后的第一特征索引集以及第二特征索引集的并集;
交集计算单元,用于获取更新后的第一特征索引集以及第二特征索引集的交集;
特征索引集计算单元,用于剔除所述并集中与所述交集中的元素相同的元素,得到特征索引集。
本申请提供一种特征选择方法及装置,该方法通过响应接收到的训练样本集,生成第一训练样本集、与该第一训练样本集对应的第一特征索引集、第二训练样本集以及与该第二训练样本集对应的第二特征索引集,根据第一训练样本集计算第一元素,进而完成对第一特征索引集的更新,根据第二训练样本集计算第二元素,进而完成对第二特征索引集的更新,当更新后的第一特征索引集/第二特征索引集中各个特征的数量和满足预设值时,根据得到第一特征索引集以及第二特征索引集计算特征索引集,完成对特征的选择,以实现在特征选择的过程中,在保证学习效率的基础上,降低计算代缴、提高推广能力。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的一种特征选择方法流程图;
图2为本申请实施例二提供的一种特征选择装置的结构示意图;
图3为本申请实施例二提供的一种第一计算单元的详细结构示意图;
图4为本申请实施例二提供的一种更新单元的详细结构示意图;
图5为本申请实施例二提供的一种第三计算单元的详细结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
实施例一:
图1为本申请实施例一提供的一种特征选择方法流程图。
如图1所示,该方法包括:
步骤A、响应接收到的包括多个具有相同特征的训练样本的训练样本集,根据训练样本集中训练样本的类别,将训练样本集分成第一训练样本集以及第二训练样本集,并根据训练样本集中训练样本的特征,生成与第一训练样本集对应的第一特征索引集,以及与第二训练样本集对应的第二特征索引集。
在本申请实施例中,首先,响应接收到的训练样本集,该训练样本集可以为用户通过导入的方式输入的,也可以是通过手动输入的方式输入的,该训练样本集包括多个具有相同特征的训练样本,且优选的,该训练样本集为二元训练样本集。
在本申请实施例中,响应接收到的训练样本集其中xi∈RD,yi∈{+1,-1}是xi的标签,表明xi的类别,N是训练样本的总个数,D是训练样本的维数。
根据该训练样本集中训练样本的类别,将训练样本集分成第一训练样本集以及第二训练样本集,如:为第一训练样本集,为第二训练样本集,其中,n+为第一训练样本集中训练样本的个数,n-为第二训练样本集中训练样本的个数。它们都是训练样本集的子集。
根据训练样本集中训练样本的特征,生成与第一训练样本集对应的第一特征索引集,以及与第二训练样本集对应的第二特征索引集,在本申请实施例中,因为训练样本集中各个训练样本具有相同的特征,因此,这里生成的第一特征索引集F+与第二特征索引集F-相同,F+=F-={1,...,D}。且在本申请实施例中,通过该第一特征索引集确定第一训练样本集中的特征,通过该第二特征索引集确定第二训练样本集中的特征。
步骤B、统计与训练样本集中单个训练样本对应的各个特征的数量和。
在本申请实施例中,统计与训练样本集中单个训练样本对应的各个特征的数量和d(即:每个训练样本包括d个特征),且该d=D。
步骤C、计算与第一训练样本集对应的第一元素,以及与第二训练样本集对应的第二元素。
在本申请实施例中,优选的,计算与第一训练样本集对应的第一元素,以及与第二训练样本集对应的第二元素,包括:
1、计算与第一训练样本集对应的第一超球体,以及与第二训练样本集对应的第二超球体。
在本申请实施例中,优选的,计算与第一训练样本集对应的第一超球体的过程为:
其中,αi是Lagrange(拉格朗日)乘子,C+>0是惩罚因子,C+是预先设定的值。
在本申请实施例中,通过求解上面的优化问题,可得到第一超球体的Lagrange乘子
在本申请实施例中,优选的,计算与第二训练样本集对应的第二超球体的过程为:
其中,αi是Lagrange乘子,C->0是惩罚因子,C-是预先设定的值。
在本申请实施例中,通过求解上面的优化问题,可得到第二超球体的Lagrange乘子
2、计算与第一超球体对应的所有特征方向的能量,以及与第二超球体对应的所有特征方向的能量。
在本申请实施例汇总,计算与第一超球体对应的所有特征方向的能量的过程为:
其中,
在本申请实施例汇总,计算与第二超球体对应的所有特征方向的能量的过程为:
其中,
3、根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与第一训练样本集对应的第一元素,以及根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与第二训练样本集对应的第二元素。
在本申请实施例中,根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与第一训练样本集对应的第一元素j+的过程为:
其中,是第一超球体第k个方向的能量。
在本申请实施例中,根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与第二训练样本集对应的第二元素j-的过程为:
其中,是第二超球体第k个方向的能量。
在本申请实施例中,计算得到的第一元素j+即为需要在第一特征索引集中剔除的元素,计算得到的第二元素j-是需要在第二特征索引集中剔除的元素。
步骤D、将数量和减1。
在本申请实施例中,当计算出第一元素以及第二元素后,需要将数量和减1,即,将d=d-1。
步骤E、根据第一元素更新第一特征索引集,并根据第二元素更新第二特征索引集。
在本申请实施例中,根据第一元素更新第一特征索引集的过程为:剔除第一特征索引集中与第一元素相同的元素。如:F+=F+\j+,其表示将与第一元素j+相同的元素从第一特征索引集中剔除。
在本申请实施例中,根据第二元素更新第二特征索引集的过程为:剔除第二特征索引集中与第二元素相同的元素。如:F-=F-\j-,其表示将与第二元素j-相同的元素从第二特征索引集中剔除。
步骤F、当数量和满足预设值时,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集。
在本申请实施例中,预先设置有预设值r,当对第一特征索引集以及第二特征索引集更新完成后,需要判断数量和是否满足该预设值,即判断d=r是否存在。
当判断出数量和满足预设值时,即:d=r时,则根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集。
在本申请实施例中,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集的过程为:
1、计算更新后的第一特征索引集以及第二特征索引集的并集。
计算更新后的第一特征索引集以及第二特征索引集的并集,令F=F+∪F-,其中,F为第一特征索引集F+和第二特征索引集F-的并集。
2、获取更新后的第一特征索引集以及第二特征索引集的交集。
获取更新后的第一特征索引集F+和第二特征索引集F-的交集,即:获取第一特征索引集F+和第二特征索引集F-之间的重复元素。
3、剔除并集中与交集中的元素相同的元素,得到特征索引集。
当获取更新后的第一特征索引集和第二特征索引集的并集,以及更新后的第一特征索引集和第二特征索引集的交集后,需要将该并集中与交集中的元素相同的元素剔除,得到特征索引集,该特征索引集中的各个元素所对应的特征,即为本申请最终选择的特征。
假设更新后的第一特征索引集F+和第二特征索引集F-中均有r个元素,则并集剔除掉重复元素后的得到的特征索引集中含有r'个元素,该特征索引集中的r'个元素所对应特征,即为本申请最终选择的r'个特征。
进一步的,本申请实施例提供的一种特征选择方法中,步骤F还包括:当判断出数量和不满足预设值时,返回执行步骤C。
本申请提供一种特征选择方法,该方法通过响应接收到的训练样本集,生成第一训练样本集、与该第一训练样本集对应的第一特征索引集、第二训练样本集以及与该第二训练样本集对应的第二特征索引集,根据第一训练样本集计算第一元素,进而完成对第一特征索引集的更新,根据第二训练样本集计算第二元素,进而完成对第二特征索引集的更新,当更新后的第一特征索引集/第二特征索引集中各个特征的数量和满足预设值时,根据得到第一特征索引集以及第二特征索引集计算特征索引集,完成对特征的选择,以实现在特征选择的过程中,在保证学习效率的基础上,降低计算代缴、提高推广能力。
实施例二:
图2为本申请实施例二提供的一种特征选择装置的结构示意图。
如图2所示,该装置包括:
响应单元1,用于执行步骤A响应接收到的包括多个具有相同特征的训练样本的训练样本集,根据训练样本集中训练样本的类别,将训练样本集分成第一训练样本集以及第二训练样本集,并根据训练样本集中训练样本的特征,生成与第一训练样本集对应的第一特征索引集,以及与第二训练样本集对应的第二特征索引集。
统计单元2与响应单元1相连接,用于执行步骤B、统计与训练样本集中单个训练样本对应的各个特征的数量和。
第一计算单元3与响应单元1相连接,用于执行步骤C、计算与第一训练样本集对应的第一元素,以及与第二训练样本集对应的第二元素。
第二计算单元4的一端与统计单元2相连接,另一端与第一计算单元3相连接,用于执行步骤D、将数量和减1。
更新单元5的一端与第一计算单元3相连接,另一端与第二计算单元4相连接,用于执行步骤E、根据第一元素更新第一特征索引集,并根据第二元素更新第二特征索引集。
第三计算单元6的一端与第二计算单元4相连接,另一端与更新单元5相连接,用于执行步骤F、当数量和满足预设值时,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集。
图3为本申请实施例二提供的一种第一计算单元的详细结构示意图。
如图3所示,该第一计算单元3包括:
超球体计算单元31,用于计算与第一训练样本集对应的第一超球体,以及与第二训练样本集对应的第二超球体;
能量计算单元32与超球体计算单元31相连接,用于计算与第一超球体对应的所有特征方向的能量,以及与第二超球体对应的所有特征方向的能量;
特征计算单元33与能量计算单元32相连接,用于根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与第一训练样本集对应的第一元素,以及根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与第二训练样本集对应的第二元素。
图4为本申请实施例二提供的一种更新单元的详细结构示意图。
如图4所示,该更新单元5包括:
第一剔除单元51,用于剔除第一特征索引集中与第一元素相同的元素;
第二剔除单元52与第一剔除单元51相连接,用于剔除第二特征索引集中与第二元素相同的元素。
图5为本申请实施例二提供的一种第三计算单元的详细结构示意图。
如图5所示,该第三计算单元6包括:
并集计算单元61,用于计算更新后的第一特征索引集以及第二特征索引集的并集;
交集计算单元62与并集计算单元61相连接,用于获取更新后的第一特征索引集以及第二特征索引集的交集;
特征索引集计算单元63与交集计算单元62相连接,用于剔除并集中与交集中的元素相同的元素,得到特征索引集。
进一步的,本申请实施例提供的一种特征选择装置中的第三计算单元,用于执行步骤F,该步骤F还包括:当数量和不满足预设值时,返回执行步骤C。
本申请提供一种特征选择装置,该装置通过响应接收到的训练样本集,生成第一训练样本集、与该第一训练样本集对应的第一特征索引集、第二训练样本集以及与该第二训练样本集对应的第二特征索引集,根据第一训练样本集计算第一元素,进而完成对第一特征索引集的更新,根据第二训练样本集计算第二元素,进而完成对第二特征索引集的更新,当更新后的第一特征索引集/第二特征索引集中各个特征的数量和满足预设值时,根据得到第一特征索引集以及第二特征索引集计算特征索引集,完成对特征的选择,以实现在特征选择的过程中,在保证学习效率的基础上,降低计算代缴、提高推广能力。
实施例三:
本申请实施例主要是通过诊断模块对本申请进行特征选择的结果进行验证,进而说明本申请实施例特征选择结果的学习效率。
在本申请实施例中,当完成特征选择,得到特征索引集F后,该特征索引集F中包括r'个元素,且因为训练样本集按照特征索引集F中的元素来确定特征选择后训练样本集,因此,根据特征索引集F确定的训练样本集为其中
在本申请实施例中,诊断模块主要对测试样本进行处理,通过多SVDD(SupportVector Data Description,支持向量数据描述)的特征选择,根据给定的排序准则删除若干个不重要特征,最后将多个SVDD剩余的重要特征组合起来;用kNN分类器对新得到的测试样本集进行预测,得出最终分类结果。
验证过程主要如下:
令医疗诊断数据测试样本为x,其中x∈RD
根据本申请实施例得到的特征索引集F,确定x中的要留下的特征,令特征选择后的测试样本为
将待测样本输入到kNN分类器中,找到训练样本中距离待测样本最近的k个点,然后将待测样本的类别设置为k个点中最多的那类的类别,这样就可得到待测样本的预测分类结果。
而判断预测分类结果的准确性时,可以通过召回率来判断,如:
通过本发明提出的多SVDD的特征选择方法,把38个7129维的训练样本中的27个第一类样本和11个第二类样本都降到100维,然后得到它们的特征索引集F,该特征索引集F中包括196个元素,把34个7129维的测试样本按照F降到196维,用kNN分类器对这34个196维的测试样本进行分类。由于本实验所用的第一类样本以及第二类样本不平衡,因此,表中给出了在第一类样本中的召回率和在第二类样本中的召回率。为了对我们的实验效果一目了然,本实验提出的方法与SVM-RFE(Recursive Feature Elimination,回归特征消除)算法在相同的数据集上做比较。对于SVM-RFE,令C+=100。对于我们的方法,由于该方法形成了两个超球体,就会存在两个C值,分别为第一类样本形成的第一个超球的C+和第二类样本形成的第二个超球的C-。我们令C+=0.037,C-=0.32,表1给出了两种方法的召回率对比:
表1SVM-RFE算法和本发明方法的分类性能(识别率%)对比
通过实验结果我们可以看出本发明的效果明显优于SVM-RFE算法,尤其是第二类样本的召回率大大高于SVM-RFE算法,本方法具有一定的优势。
本申请实施例提供一种针对本申请的特征选择结果进行验证的针对模块,通过该诊断模块可以更加清晰的表现出本申请相对于现有技术的优势,使得本申请提供的特征选择方法更加清晰、有说服力。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
以上仅是本申请的优选实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种特征选择方法,其特征在于,包括:
A、响应接收到的包括多个具有相同特征的训练样本的训练样本集,根据所述训练样本集中训练样本的类别,将所述训练样本集分成第一训练样本集以及第二训练样本集,并根据所述训练样本集中训练样本的特征,生成与所述第一训练样本集对应的第一特征索引集,以及与所述第二训练样本集对应的第二特征索引集;
B、统计与所述训练样本集中单个训练样本对应的各个特征的数量和;
C、计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素;
D、将所述数量和减1;
E、根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集;
F、当所述数量和满足预设值时,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集;
其中,所述计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素,包括:
计算与所述第一训练样本集对应的第一超球体,以及与所述第二训练样本集对应的第二超球体;
计算与所述第一超球体对应的所有特征方向的能量,以及与所述第二超球体对应的所有特征方向的能量;
根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与所述第一训练样本集对应的第一元素,以及根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与所述第二训练样本集对应的第二元素;
所述根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集,包括:
计算更新后的第一特征索引集以及第二特征索引集的并集;
获取更新后的第一特征索引集以及第二特征索引集的交集;
剔除所述并集中与所述交集中的元素相同的元素,得到特征索引集。
2.根据权利要求1所述的方法,其特征在于,所述步骤F还包括:当所述数量和不满足预设值时,返回执行步骤C。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集,包括:
剔除所述第一特征索引集中与所述第一元素相同的元素;
剔除所述第二特征索引集中与所述第二元素相同的元素。
4.一种特征选择装置,其特征在于,包括:
响应单元,用于执行步骤A响应接收到的包括多个具有相同特征的训练样本的训练样本集,根据所述训练样本集中训练样本的类别,将所述训练样本集分成第一训练样本集以及第二训练样本集,并根据所述训练样本集中训练样本的特征,生成与所述第一训练样本集对应的第一特征索引集,以及与所述第二训练样本集对应的第二特征索引集;
统计单元,用于执行步骤B、统计与所述训练样本集中单个训练样本对应的各个特征的数量和;
第一计算单元,用于执行步骤C、计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素;
第二计算单元,用于执行步骤D、将所述数量和减1;
更新单元,用于执行步骤E、根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集;
第三计算单元,用于执行步骤F、当所述数量和满足预设值时,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集;
其中,所述第一计算单元包括:
超球体计算单元,用于计算与所述第一训练样本集对应的第一超球体,以及与所述第二训练样本集对应的第二超球体;
能量计算单元,用于计算与所述第一超球体对应的所有特征方向的能量,以及与所述第二超球体对应的所有特征方向的能量;
特征计算单元,用于根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与所述第一训练样本集对应的第一元素,以及根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与所述第二训练样本集对应的第二元素;
所述第三计算单元包括:
并集计算单元,用于计算更新后的第一特征索引集以及第二特征索引集的并集;
交集计算单元,用于获取更新后的第一特征索引集以及第二特征索引集的交集;
特征索引集计算单元,用于剔除所述并集中与所述交集中的元素相同的元素,得到特征索引集。
5.根据权利要求4所述的装置,其特征在于,所述第三计算单元,用于执行步骤F,该步骤F还包括:当所述数量和不满足预设值时,返回执行步骤C。
6.根据权利要求5所述的装置,其特征在于,所述更新单元包括:
第一剔除单元,用于剔除所述第一特征索引集中与所述第一元素相同的元素;
第二剔除单元,用于剔除所述第二特征索引集中与所述第二元素相同的元素。
CN201410177935.7A 2014-04-29 2014-04-29 一种特征选择方法及装置 Active CN103927560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410177935.7A CN103927560B (zh) 2014-04-29 2014-04-29 一种特征选择方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410177935.7A CN103927560B (zh) 2014-04-29 2014-04-29 一种特征选择方法及装置

Publications (2)

Publication Number Publication Date
CN103927560A CN103927560A (zh) 2014-07-16
CN103927560B true CN103927560B (zh) 2017-03-29

Family

ID=51145776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410177935.7A Active CN103927560B (zh) 2014-04-29 2014-04-29 一种特征选择方法及装置

Country Status (1)

Country Link
CN (1) CN103927560B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871856A (zh) * 2017-12-04 2019-06-11 北京京东尚科信息技术有限公司 一种优化训练样本的方法和装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573741A (zh) * 2014-12-24 2015-04-29 杭州华为数字技术有限公司 一种特征选择方法及装置
CN113901999B (zh) * 2021-09-29 2023-09-29 国网四川省电力公司电力科学研究院 一种高压并联电抗器故障诊断方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006004797A2 (en) * 2004-06-25 2006-01-12 The Trustees Of Columbia University In The City Ofnew York Methods and systems for feature selection
CN102479329A (zh) * 2010-11-22 2012-05-30 索尼公司 分类器生成装置和方法,检测图像中的对象的装置和方法
WO2012121728A1 (en) * 2011-03-10 2012-09-13 Textwise Llc Method and system for unified information representation and applications thereof
CN103020589A (zh) * 2012-11-19 2013-04-03 山东神思电子技术股份有限公司 一种单训练样本人脸识别方法
CN103593674A (zh) * 2013-11-19 2014-02-19 太原理工大学 一种颈部淋巴结超声图像特征选择方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006004797A2 (en) * 2004-06-25 2006-01-12 The Trustees Of Columbia University In The City Ofnew York Methods and systems for feature selection
CN102479329A (zh) * 2010-11-22 2012-05-30 索尼公司 分类器生成装置和方法,检测图像中的对象的装置和方法
WO2012121728A1 (en) * 2011-03-10 2012-09-13 Textwise Llc Method and system for unified information representation and applications thereof
CN103020589A (zh) * 2012-11-19 2013-04-03 山东神思电子技术股份有限公司 一种单训练样本人脸识别方法
CN103593674A (zh) * 2013-11-19 2014-02-19 太原理工大学 一种颈部淋巴结超声图像特征选择方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871856A (zh) * 2017-12-04 2019-06-11 北京京东尚科信息技术有限公司 一种优化训练样本的方法和装置
CN109871856B (zh) * 2017-12-04 2022-03-04 北京京东尚科信息技术有限公司 一种优化训练样本的方法和装置

Also Published As

Publication number Publication date
CN103927560A (zh) 2014-07-16

Similar Documents

Publication Publication Date Title
CN106650699B (zh) 一种基于卷积神经网络的人脸检测方法及装置
CN106682633B (zh) 基于机器视觉的粪便镜检图像有形成分的分类识别方法
CN103413145B (zh) 基于深度图像的关节点定位方法
CN109800789A (zh) 基于图网络的糖尿病视网膜病变分类方法及装置
CN108664897A (zh) 票据识别方法、装置及存储介质
CN107451659A (zh) 用于位宽分区的神经网络加速器及其实现方法
CN109948647A (zh) 一种基于深度残差网络的心电图分类方法及系统
CN107220277A (zh) 基于手绘草图的图像检索算法
CN107784597A (zh) 出行方式识别方法、装置、终端设备及存储介质
CN107133651A (zh) 基于超网络判别子图的功能磁共振影像数据分类方法
CN109117380A (zh) 一种软件质量评价方法、装置、设备及可读存储介质
CN110008259A (zh) 可视化数据分析的方法及终端设备
CN104657574B (zh) 一种医疗诊断模型的建立方法及装置
CN108986115A (zh) 医学图像分割方法、装置及智能终端
CN106022568A (zh) 一种工作流的处理方法和装置
CN110533116A (zh) 基于欧式距离的自适应集成的不平衡数据分类方法
CN103927560B (zh) 一种特征选择方法及装置
CN105389471A (zh) 一种机器学习训练集缩减方法
CN110069546A (zh) 一种数据分类方法、数据分类装置及终端设备
CN109271421A (zh) 一种基于MapReduce的大型数据集聚类方法
CN112132812B (zh) 证件校验方法、装置、电子设备及介质
CN107958472A (zh) 基于稀疏投影数据的pet成像方法、装置、设备及存储介质
CN109671055A (zh) 肺结节检测方法及装置
CN114783021A (zh) 一种口罩佩戴智能检测方法、装置、设备及介质
CN106022359A (zh) 基于有序信息熵的模糊熵空间聚类分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant