CN101937440A - 特征选择的方法及装置 - Google Patents

特征选择的方法及装置 Download PDF

Info

Publication number
CN101937440A
CN101937440A CN2009101500723A CN200910150072A CN101937440A CN 101937440 A CN101937440 A CN 101937440A CN 2009101500723 A CN2009101500723 A CN 2009101500723A CN 200910150072 A CN200910150072 A CN 200910150072A CN 101937440 A CN101937440 A CN 101937440A
Authority
CN
China
Prior art keywords
sample
proper vector
matched
fitness value
feature selecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009101500723A
Other languages
English (en)
Inventor
王上飞
朱华
李德旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Huawei Technologies Co Ltd
Original Assignee
University of Science and Technology of China USTC
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC, Huawei Technologies Co Ltd filed Critical University of Science and Technology of China USTC
Priority to CN2009101500723A priority Critical patent/CN101937440A/zh
Publication of CN101937440A publication Critical patent/CN101937440A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种特征选择的方法及装置,涉及媒体分类技术领域,用以降低特征选择过程中对特征子集进行评价的复杂度。本发明实施例提供的特征选择的方法,包括:生成至少一个特征向量,所述每个特征向量对应一个度量函数和至少一个媒体特征;根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适应度值。本发明实施例提供的方法及装置适用于包含高层分类信息的媒体特征的选择。

Description

特征选择的方法及装置
技术领域
本发明涉及媒体分类技术领域,尤其涉及一种媒体分类中进行特征选择的方法及装置。
背景技术
一般地,在特征获取阶段,为确保提供足够的分类信息,原始特征数目比较多,其中不可避免地存在大量冗余信息,因此就需要通过特征选择从原始特征集中剔除冗余信息,挑选出最有效的特征。
在媒体分类中,特征选择是指通过对数据的评价,从众多原始特征中挑选出用于媒体分类的有限个特征。例如,原始特征集为F={Fi,i=1,...,N},其中原始特征的数目为N;通过特征选择得到一个最优的特征子集,其中特征的数目为M,M≤N。
特征选择需要解决两个问题:一是确定选择算法,在允许的时间内,以可以容忍的代价找出最小的、最能描述类别的特征子集;二是确定评价标准,用以衡量所找到的特征子集是否最优,从而得到满足特征选择操作终止条件的特征子集。特征选择过程一般分两步进行:首先产生特征子集,其中包含至少一个媒体特征;然后对特征子集进行评价;如果所述特征子集满足终止条件则操作完毕,否则重复上述两个步骤直到条件满足为止。
在现有技术中,一种重要的特征选择方法是基于遗传算法,其通过如下方式对个体进行编码:若原始特征有N个,则个体的编码长度L=N,个体的每一个基因依次对应一个特征;具体地,对个体进行编码的方式有两种:一是二进制位串编码方式,当个体中的某一个基因为“1”时,表示该基因对应的特征项被选用;反之,当某一基因为“0”时,表示该基因对应的特征项未被选用;二是实数编码方式,每个基因对应一个实数的权值,权值越大表示其对应的特征项越重要;反之,权值越小表示其对应的特征项越不重要。
在确定了选择算法为基于遗传算法的搜索策略,并通过该选择算法得到一组特征子集后,就需要根据确定的评价标准对选出的特征子集进行评估。现有技术中多数都是基于分类器精度进行特征子集的评估,其将样本集分为训练集及测试集,先利用训练集训练分类器模型并得到相应的模型及参数,接着输入测试集并对测试结果进行评价,将得到的分类精度作为遗传算法的适应度函数。
不过,在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:
现有技术根据分类器分类精度评价特征子集的优劣,需要构建分类器模型、训练分类器模型并得到相应的参数,使得基于分类器分类精度进行特征子集评估的代价较高,而且计算过程很复杂。
发明内容
本发明的实施例提供一种特征选择的方法及装置,可降低特征选择过程中对特征子集进行评价的复杂度。
为达到上述目的,本发明的实施例采用如下技术方案:
一种特征选择的方法,包括:
生成至少一个特征向量,所述每个特征向量对应一个度量函数和至少一个媒体特征;
根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适应度值。
一种进行特征选择的装置,包括:
生成单元,用于生成至少一个特征向量,所述每个特征向量对应一个度量函数和至少一个媒体特征;
计算单元,用于根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适应度值。
本发明实施例提供的特征选择的方法及装置,在特征向量中携带度量函数和媒体特征的信息,其中每个特征向量对应的媒体特征信息都代表着一个特征子集,根据每个特征向量对应的度量函数来计算该特征向量的适应度值,即计算该特征向量对应的特征子集的适应度值,进而根据得到的适应度值对特征子集进行选择;相对于现有技术,本发明实施例提供的特征选择的方法及装置不依赖于特定分类器,没有分类器效率问题的负担,避免了现有的基于分类器学习算法的复杂性,可以实现降低特征选择过程中对特征子集进行评价的复杂度的目的。
附图说明
图1为本发明实施例一中特征选择的方法流程图;
图2为本发明实施例二中特征向量的表达方式一;
图3为本发明实施例二中特征向量的表达方式二;
图4为本发明实施例二中特征选择的方法流程示意图;
图5为本发明实施例二中计算特征向量适应度值的方法流程示意图;
图6为本发明实施例三中进行特征选择的装置结构示意图;
图7为本发明实施例四中进行特征选择的装置结构示意图;
图8为本发明实施例四中进行特征选择的装置中计算模块的结构示意图。
具体实施方式
为了降低特征选择过程中对特征子集进行评价的复杂度,本发明实施例提供了一种特征选择的方法及装置。本发明实施例提供的特征选择的方法是基于遗传算法的,在遗传算法编码方式上,将度量函数和媒体特征项作为等位基因编码到同一条染色体上,其中所述染色体就是本发明实施例中提到的特征向量。
下面结合附图对本发明实施例提供的特征选择的方法及装置进行详细描述。
实施例一:
如图1所示,本发明实施例提供的特征选择的方法,包括以下步骤:
101、生成至少一个特征向量,所述每个特征向量对应一个度量函数和至少一个媒体特征。
在本发明实施例中,所述特征向量对应的度量函数为可选择的度量函数中的一个,特征向量中携带的度量函数信息即为所选度量函数对应的编码;所述至少一个媒体特征代表着一个特征子集,其可以由随机生成的数字表示,所述随机生成的数字可以是二进制位串,也可以是实数串。
102、根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适应度值。
根据所述特征向量中媒体特征的编码确定样本中被选择的特征项,依据所述被选择的特征项并结合所述特征向量所对应的度量函数计算不同样本之间的相似度,然后参考样本之间的相似度对样本进行权重赋值,在消除了各样本的差异性对特征向量的适应度值的影响后,即可确定所述特征向量的适应度值。
上述相似度可以是通过样本之间的相似系数来描述,也可以通过样本之间的距离来描述。
本发明实施例提供的特征选择的方法,在特征向量中携带度量函数和媒体特征的信息,其中每个特征向量对应的媒体特征信息都代表着一个特征子集,根据每个特征向量对应的度量函数来计算该特征向量的适应度值,即计算该特征向量对应的特征子集的适应度值,进而根据得到的适应度值对特征子集进行选择;本发明实施例提供的特征选择的方法不依赖于特定分类器,没有分类器效率问题的负担,避免了现有的基于分类器学习算法的复杂性。
实施例二:
为了能够更好地说明本发明实施例提供的特征选择的方法,现假设有如下应用场景:从含有N(N≥1)个媒体特征的音乐原始特征集中选择出最好的能够表达音乐情感的特征子集,并提供至少一个度量函数和至少两个预先标注有高层分类信息(比如情感信息)的音乐样本用以对所选出的特征子集进行评价,其中每个音乐样本对应的特征项和情感标注均以向量的形式表示。
本发明实施例提供的特征向量同时包含一个度量函数和至少一个媒体特征的信息,即在遗传算法中将度量函数和所有媒体特征统一编码到同一条染色体中;其中,
所述特征向量包含的度量函数为可选择的至少一个度量函数中的一个,如果可供选择的度量函数的数目为W,则在特征向量中用于描述所选度量函数的位数a要大于等于
Figure B2009101500723D0000041
这里的
Figure B2009101500723D0000042
为向上取整符号,例如共有3个可供选择的度量函数,采用二进制编码方式,其编码可以分别设为01、10、11,特征向量中携带的度量函数信息即为所选度量函数对应的编码;上述度量函数为相似性度量函数,具体地,可以是距离函数或者相似系数函数。
所述至少一个媒体特征代表着原始特征集中所有媒体特征被选择的情况,针对媒体特征的编码方式有两种:一是二进制位串编码方式,每个媒体特征的编码位数为1位,“1”表示特征被选中,“0”表示特征未被选中,二进制编码方式如图2所示;二是实数编码方式,每个特征对应一个实数的权值,权值可以限定在0-99范围内,且权值的大小表现出其所对应的媒体特征的重要性,权值越大表示对应的媒体特征越重要,反之权值越小表示对应的媒体特征越不重要,实数编码方式如图3所示。
在上述场景设定的基础上,本发明实施例提供的特征选择方法的具体过程,如图4所示,包括:
401、生成至少一个特征向量,在每个特征向量中包含有一个度量函数和至少一个媒体特征的信息。
上述至少一个特征向量即为遗传算法中的一个种群;
在本发明实施例中,所生成的特征向量对应的度量函数均为可选择的多个度量函数(比如:距离函数、夹角余弦函数等相似性度量函数)中的一个,在所述特征向量中包含所选度量函数对应的编码;
所生成的特征向量中的媒体特征对应的编码则是随机生成的,可以是二进制位串,也可以是实数串;在本实施例中,随机生成N位二进制码作为媒体特征对应的编码。
下面以计算其中一个特征向量的适应度值为例,进一步介绍后续步骤:
402、根据所述特征向量中的媒体特征编码确定每个音乐样本中被选择的特征项。
在本实施例中,所述音乐样本均预先标注有高层分类信息;所谓高层分类信息可以是音乐样本的情感表达、或者音乐流派、或者其他信息;在本实施例中,以音乐样本中包含情感标注为例;
由于本实施例中的特征向量中包含的媒体特征编码为二进制位串,其中的“1”表示特征被选中,“0”表示特征未被选中,因此可以根据所述特征向量中的N位媒体特征编码对每个样本中的N个特征项进行选择。
403、从包含至少两个音乐样本的样本空间中选出一个样本作为目标样本,其余的音乐样本均为待匹配样本。
所述目标样本可以是从样本空间中随机抽取的一个音乐样本,也可以是按照一定顺序从样本空间中选取的一个音乐样本。
在这里,不管是目标样本还是待匹配样本均为对其包含的N个特征项进行了选择后的音乐样本。
404、根据特征向量中的编码所指示的度量函数计算每个待匹配样本相对于目标样本的相似度。
由于每个样本均是以向量形式进行描述的,因此计算待匹配样本相对于目标样本的相似度,即为通过所述度量函数计算两个向量之间的相似度。
405、按照相似度从大到小的顺序对所述待匹配样本进行排序,得到一个序列L。
所述相似度可以是通过距离函数计算得到,也可以是通过相似系数函数计算得到。如果是距离函数,则得到的结果越小说明两个样本间的相似度越大,反之相似度越小;如果是相似系数函数,则得到的结果越大说明两个样本间的相似度越大,反之相似度越小。
406、结合样本的高层分类信息对排序后的待匹配样本进行权重赋值。
如果在样本空间中与目标样本的情感标注(比如,高兴、悲伤、......)相同的待匹配样本的数目为K,则只需对序列L中的前K个待匹配样本进行权重赋值;
具体地,可以将与所述目标样本的情感标注相同且排序序号为i的待匹配样本赋予权重为K+1-i;例如,序列L中的第2个样本与目标样本的情感标注相同,则给第2个样本赋予权重K-1;其中,i≤K;
可以将与所述目标样本的高层分类信息不同的待匹配样本赋予权重为0。
上述赋值方式选用的是离散赋值,在本发明实施例中当然还可以选用其他的赋值方式。
407、对上述前K个待匹配样本分别对应的权重进行归一化,得到的就是所述特征向量相对于目标样本的适应度值。
具体地,所述特征向量相对于目标样本的适应度值e1=(所述前K个待匹配样本对应的权重之和)/(自然数1至K的和)。
为了消除在选择一个目标样本时候造成的差异性,因此还需要更换目标样本,重复执行步骤403至步骤407,若样本空间中共有P个音乐样本,则上述步骤需要重复执行P-1次,从而将样本空间中的其他样本依次作为目标样本,并计算出所述特征向量相对于每个目标样本的适应度值e2、e3、e4、......。
408、在得到了所述特征向量相对于每个音乐样本的适应度值之后,计算上述e1、e2、e3、......的平均值,计算结果即为所述特征向量的适应度值。
所述特征向量的适应度值,即染色体的适应度值,用于说明该特征向量对应的度量函数和所选择的特征子集的优劣程度;所述适应度值越大,说明所述特征向量对应的度量函数和所选择的特征子集越好,反之则越差。
根据步骤402至步骤408所描述的方法,同样可以计算出同一种群中其他特征向量的适应度值。
409、判断上述种群中的至少一个特征向量的适应度值是否满足预设的条件;
如果上述种群中存在至少一个特征向量的适应度值满足预设的终止条件,则进程结束,满足条件的特征向量中所包含的媒体特征信息就对应着进行特征选择后的特征子集,其包含的度量函数信息对应的相似性函数即为最佳的适用于所选特征子集的相似性度量函数;
如果上述种群中所有的特征向量均不满足预设的终止条件,则进行遗传操作,即按照一定的概率条件,经过种群内的选择、交叉、变异操作,最终完成对上述种群中特征向量的数据元素进行变更,得到一组新的特征向量,并跳转至步骤402,迭代执行直至找到满足预设的终止条件的特征向量。
在本发明实施例中,以上编号并不用于限定各个步骤的执行顺序。
为了便于理解本发明实施例提供的特征选择的方法,下面以一个简单的实例对特征选择过程中计算特征向量适应度值的过程进行进一步说明。
首先,设定可供选择的相似性度量函数共有2个:
距离函数W1:
Figure B2009101500723D0000081
其编码是01,以及
夹角余弦函数W2:其编码是10。
当然上述编码还可以是函数W1对应编码为0,函数W2对应编码为1。
其次,在原始特征集中共有10个媒体特征:f0、f1、......、f9;
样本数据库中的midi样本片段共有80首,其中标注高兴情感类别的有9首,标注悲伤情感类别的有8首,其他略;
为更清晰地描述,假设样本数据库中midi样本的编号及其特征和标注的情感描述格式如下:
Midi1,f1,0,f1,1,f1,2,...,f1,9,emotion1(高兴)
Midi2,f2,0,f2,1,f2,2,...,f2,9,emotion2(悲伤)
Midi3,f3,0,f3,1,f3,2,...,f3,9,emotion3(悲伤)
...
Midi80,f80,0,f80,1,f80,2,...,f80,9,emotion80(高兴)
假设数据库中编号为1,5,8,15,23,45,52,68,73的midi样本其情感标注为高兴,数据库中编号为2,3,13,27,48,60,67,75的midi样本其情感标注为悲伤。
根据以上假设情形,现对本发明实施例提供的计算特征向量适应度值的方法展开描述,如图5所示,包括以下步骤:
501、生成至少一个特征向量,其中一个特征向量C1(染色体)为:011010101100;
其中,前两位01表示选择函数W1作为相似性度量函数;
后十位101010110为随机生成的二进制位串,对应十个媒体特征,说明f0、f2、f4、f6、f7这五个特征被选中。
502、选择样本数据库中的样本midi1作为目标样本,则midi2-midi80均为待匹配样本。
503、根据函数W1计算样本midi1与每个待匹配样本之间的距离。
具体地,样本midi1与midi2之间的距离是通过公式
Figure B2009101500723D0000091
计算向量m1:f1,0,f1,2,f1,4,f1,6,f1,7与向量m2:f2,0,f2,2,f2,4,f2,6,f2,7之间的距离;
以同样的方法,可以计算出样本midi1与其他待匹配样本之间的距离。
504、按照距离从小到大的顺序对待匹配样本进行排序,由于与样本midi1的情感标注相同的待匹配样本共有8个,因此表1中只列出排在前面8位的待匹配样本。
表1
距离排序 1 2 3 4 5 6 7 8
midi编号 8 48 15 54 23 52 45 68
其中,灰色底纹的单元格对应的是情感标注为高兴的样本,即与样本midi1的情感标注相同的待匹配样本。
505、结合表1中的排序结果及待匹配样本的情感标注,通过离散赋值对上述前8位的待匹配样本进行权重赋值;不考虑距离之间大小差距的影响,只要是排序上相邻的midi样本其权重间隔都是1,然而,如果所标注情感与目标样本不相同,则赋予权重为0。
具体地,距离排序为1、3、5、6、7、8的midi样本分别赋予权重8、6、4、3、2、1;
距离排序为2和4的midi样本由于与目标样本的情感标注不同,因此赋予权重均为0。
506、对上述前8个待匹配样本分别对应的权重进行归一化,即可得到所述特征向量相对于当前目标样本的适应度值e1;
e 1 = 8 + 0 + 6 + 0 + 4 + 3 + 2 + 1 8 + 7 + 6 + 5 + 4 + 3 + 2 + 1 = 0.67
为了消除在选择目标样本时造成的差异性,因此还需要以样本midi2、midi3、...、midi80分别作为目标样本,计算出特征向量相对于其他样本的适应度值e2、e3、...、e80。
507、计算上述e1、e2、e3、...、e80的平均值,计算结果即为所述特征向量的适应度值。
E = Σ i = 1 80 e i / 80
计算得到的E即为所述特征向量(染色体)的适应度值,该适应度值可用于评价所选出的特征子集的优劣程度;所述适应度值越大,说明所述特征向量对应的度量函数和所选择的特征子集越好,反之则越差。
本发明实施例提供的特征选择的方法,在特征向量中携带度量函数和媒体特征的信息,其中每个特征向量对应的媒体特征信息都代表着一个特征子集,根据每个特征向量对应的度量函数来计算该特征向量的适应度值,即计算该特征向量对应的特征子集的适应度值,进而根据得到的适应度值对特征子集进行选择;本发明实施例提供的特征选择的方法不依赖于特定分类器,没有分类器效率问题的负担,避免了现有的基于分类器学习算法的复杂性;
此外,本发明实施例提供的特征选择的方法在计算特征向量的适应度值的过程中,不仅通过度量函数获取到不同样本间的底层特征间的相似性,而且还充分考虑了媒体样本的高层分类信息对特征向量的适应度值的影响,最终选择出的特征子集和度量函数可以反映人的感知特性;
而且,种群中染色体的编码方式有很多种:比如选择了相同的度量函数,但选择的媒体特征不同;选择了不同的度量函数,但选择的媒体特征相同;选择了不同的度量函数,同时选择的媒体特征也不同,从而充分利用了遗传算法的全局搜索能力。
实施例三:
为了更好地实现上述特征选择的方法,本发明实施例还提供了一种进行特征选择的装置,如图6所示,包括生成单元61和计算单元62;其中,
生成单元61生成至少一个特征向量,所述每个特征向量对应一个度量函数和至少一个媒体特征;所述特征向量对应的度量函数为可选择的度量函数中的一个,特征向量中携带的度量函数信息即为所选度量函数对应的编码;所述至少一个媒体特征代表着一个特征子集,其由随机生成的数字表示,所述随机生成的数字可以是二进制位串、也可以是实数串;
然后,计算单元62根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适应度值。
本发明实施例提供的进行特征选择的装置,通过在特征向量中携带度量函数和媒体特征的信息,其中每个特征向量对应的媒体特征信息都代表着一个特征子集,根据每个特征向量对应的度量函数来计算该特征向量的适应度值,即计算该特征向量对应的特征子集的适应度值,进而根据得到的适应度值对特征子集进行选择;本发明实施例提供的装置在进行特征选择时不依赖于特定分类器,没有分类器效率问题的负担,避免了现有的基于分类器学习算法的复杂性。
实施例四:
如图7所示,本发明实施例提供的进行特征选择的装置,包括生成单元71、计算单元72以及判断单元73;其中,
生成单元71生成至少一个特征向量,所述每个特征向量对应一个度量函数和至少一个媒体特征;所述特征向量对应的度量函数为可选择的度量函数中的一个,特征向量中携带的度量函数信息即为所选度量函数对应的编码;所述至少一个媒体特征代表着一个特征子集,其由随机生成的数字表示,所述随机生成的数字可以是二进制位串、也可以是实数串;
然后,计算单元72根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适应度值;
之后,通过判断单元73判断所述至少一个特征向量的适应度值是否满足预设的终止条件;如果判断结果表明存在至少一个特征向量的适应度值满足预设的终止条件,则进程结束;如果判断结果表明不存在满足预设终止条件的特征向量,则生成单元71按照一定的概率条件,对已有的特征向量的数据元素进行变更,生成至少一个新的特征向量。
在本发明实施例中,计算单元72进一步包括:
确定模块721,用于根据所述媒体特征确定样本中被选择的特征项;
计算模块722,用于以样本空间中所有的样本依次作为目标样本,根据所述度量函数以及所述被选择的特征项计算所述特征向量相对于每个目标样本的适应度值;
平均模块723,用于计算所述特征向量相对于每个目标样本的适应度值的平均值,作为所述特征向量的适应度值。
如果在样本空间中目标样本以外的样本均为待匹配样本,则上述计算模块722,如图8所示,进一步包括:
计算子模块722a,用于根据所述度量函数以及所述被选择的特征项计算每个待匹配样本相对于目标样本的相似度;
排序子模块722b,用于根据所述相似度对所述待匹配样本进行排序;
赋值子模块722c,用于结合样本的高层分类信息对排序后的待匹配样本进行权重赋值;具体地,如果在样本空间中与目标样本的高层分类信息相同的待匹配样本的数目为K,则赋值子模块给与所述目标样本的高层分类信息相同且排序序号为i的待匹配样本赋予权重为K+1-i,而给与所述目标样本的高层分类信息不同的待匹配样本赋予权重为0;其中,i≤K。
归一化子模块722d,用于对所述待匹配样本对应的权重进行归一化,即用所述前K个待匹配样本对应的权重之和除以自然数1至K的和,从而得到所述特征向量相对于目标样本的适应度值。
本发明实施例提供的进行特征选择的装置,通过在特征向量中携带度量函数和媒体特征的信息,其中每个特征向量对应的媒体特征信息都代表着一个特征子集,根据每个特征向量对应的度量函数来计算该特征向量的适应度值,即计算该特征向量对应的特征子集的适应度值,进而根据得到的适应度值对特征子集进行选择;本发明实施例提供的装置在进行特征选择的时候不依赖于特定分类器,没有分类器效率问题的负担,避免了现有的基于分类器学习算法的复杂性;
此外,本发明实施例提供的装置在计算特征向量的适应度值的过程中,不仅通过度量函数获取到不同样本间的底层特征间的相似性,而且还充分考虑了媒体样本的高层分类信息对特征向量的适应度值的影响,最终选择出的特征子集和度量函数可以反映人的感知特性。
本发明实施例提供的特征选择的方法及装置,不仅可以适用于音乐媒体分类中的特征选择,还可以推广至任何相关高层分类信息的领域,比如语音、图像等领域的特征选择。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (13)

1.一种特征选择的方法,其特征在于,包括:
生成至少一个特征向量,所述每个特征向量对应一个度量函数和至少一个媒体特征;
根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适应度值。
2.根据权利要求1所述的特征选择的方法,其特征在于,还包括:
判断所述至少一个特征向量的适应度值是否满足预设的终止条件;
在至少一个所述特征向量的适应度值满足预设的终止条件时,进程结束;
在所有特征向量的适应度值均不满足预设的终止条件时,以原有特征向量为基础生成至少一个新的特征向量。
3.根据权利要求2所述的特征选择的方法,其特征在于,所述以原有特征向量为基础生成至少一个新的特征向量,具体为:
按照预定的概率条件,对原有特征向量的数据元素进行变更,得到至少一个新的特征向量。
4.根据权利要求1或2所述的特征选择的方法,其特征在于,所述根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适应度值,包括:
根据所述媒体特征确定样本中被选择的特征项;
以样本空间中所有的样本依次作为目标样本,根据所述度量函数以及所述被选择的特征项计算所述特征向量相对于每个目标样本的适应度值;
计算所述特征向量相对于每个目标样本的适应度值的平均值,作为所述特征向量的适应度值。
5.根据权利要求4所述的特征选择的方法,其特征在于,在样本空间中目标样本以外的样本均为待匹配样本;
则,所述根据所述度量函数以及所述被选择的特征项计算所述特征向量相对于目标样本的适应度值,包括:
根据所述度量函数以及所述被选择的特征项计算每个待匹配样本相对于目标样本的相似度;
根据所述相似度对所述待匹配样本进行排序;
结合样本的高层分类信息对排序后的待匹配样本进行权重赋值;
对所述待匹配样本对应的权重进行归一化,得到所述特征向量相对于目标样本的适应度值。
6.根据权利要求5所述的特征选择的方法,其特征在于,在样本空间中与目标样本的高层分类信息相同的待匹配样本的数目为K,则
所述结合样本的高层分类信息对排序后的待匹配样本进行权重赋值,具体包括:
为排序后的前K个待匹配样本进行权重赋值;且,
与所述目标样本的高层分类信息相同且排序序号为i的待匹配样本赋予权重为K+1-i,其中,i≤K;
与所述目标样本的高层分类信息不同的待匹配样本赋予权重为0。
7.根据权利要求6所述的特征选择的方法,其特征在于,所述对所述待匹配样本对应的权重进行归一化,具体包括:
用所述前K个待匹配样本对应的权重之和除以自然数1至K的和。
8.一种进行特征选择的装置,其特征在于,包括:
生成单元,用于生成至少一个特征向量,所述每个特征向量对应一个度量函数和至少一个媒体特征;
计算单元,用于根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适应度值。
9.根据权利要求8所述的进行特征选择的装置,其特征在于,进一步包括:
判断单元,用于判断所述至少一个特征向量的适应度值是否满足预设的终止条件;
在所述判断单元的判断结果为存在至少一个特征向量的适应度值满足预设的终止条件时,进程结束;
在所述判断单元的判断结果为所有特征向量的适应度值均不满足预设的终止条件时,所述生成单元以原有特征向量为基础生成至少一个新的特征向量。
10.根据权利要求8或9所述的进行特征选择的装置,其特征在于,所述计算单元包括:
确定模块,用于根据所述媒体特征确定样本中被选择的特征项;
计算模块,用于以样本空间中所有的样本依次作为目标样本,根据所述度量函数以及所述被选择的特征项计算所述特征向量相对于每个目标样本的适应度值;
平均模块,用于计算所述特征向量相对于每个目标样本的适应度值的平均值,作为所述特征向量的适应度值。
11.根据权利要求10所述的进行特征选择的装置,其特征在于,当在样本空间中目标样本以外的样本均为待匹配样本时,所述计算模块包括:
计算子模块,用于根据所述度量函数以及所述被选择的特征项计算每个待匹配样本相对于目标样本的相似度;
排序子模块,用于根据所述相似度对所述待匹配样本进行排序;
赋值子模块,用于结合样本的高层分类信息对排序后的待匹配样本进行权重赋值;
归一化子模块,用于对所述待匹配样本对应的权重进行归一化,得到所述特征向量相对于目标样本的适应度值。
12.根据权利要求11所述的进行特征选择的装置,其特征在于,在样本空间中与目标样本的高层分类信息相同的待匹配样本的数目为K,
所述赋值子模块将与所述目标样本的高层分类信息相同且排序序号为i的待匹配样本赋予权重为K+1-i,将与所述目标样本的高层分类信息不同的待匹配样本赋予权重为0;其中,i≤K。
13.根据权利要求12所述的进行特征选择的装置,其特征在于,所述归一化子模块用所述前K个待匹配样本对应的权重之和除以自然数1至K的和,得到所述特征向量对应于目标样本的适应度值。
CN2009101500723A 2009-06-30 2009-06-30 特征选择的方法及装置 Pending CN101937440A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101500723A CN101937440A (zh) 2009-06-30 2009-06-30 特征选择的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101500723A CN101937440A (zh) 2009-06-30 2009-06-30 特征选择的方法及装置

Publications (1)

Publication Number Publication Date
CN101937440A true CN101937440A (zh) 2011-01-05

Family

ID=43390774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101500723A Pending CN101937440A (zh) 2009-06-30 2009-06-30 特征选择的方法及装置

Country Status (1)

Country Link
CN (1) CN101937440A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855440A (zh) * 2012-09-13 2013-01-02 北京奇虎科技有限公司 一种检测加壳可执行文件的方法、装置和系统
CN103632162A (zh) * 2013-09-06 2014-03-12 中国科学院苏州纳米技术与纳米仿生研究所 一种疾病相关的心电图特征选择方法
CN104537118A (zh) * 2015-01-26 2015-04-22 苏州大学 一种微博数据处理方法、装置及系统
CN104809229A (zh) * 2015-05-07 2015-07-29 北京京东尚科信息技术有限公司 一种文本特征词提取方法及系统
CN106570094A (zh) * 2016-10-31 2017-04-19 广东电网有限责任公司惠州供电局 定值项匹配方法及匹配系统
CN109448792A (zh) * 2018-09-19 2019-03-08 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855440A (zh) * 2012-09-13 2013-01-02 北京奇虎科技有限公司 一种检测加壳可执行文件的方法、装置和系统
CN102855440B (zh) * 2012-09-13 2015-09-02 北京奇虎科技有限公司 一种检测加壳可执行文件的方法、装置和系统
CN103632162A (zh) * 2013-09-06 2014-03-12 中国科学院苏州纳米技术与纳米仿生研究所 一种疾病相关的心电图特征选择方法
CN103632162B (zh) * 2013-09-06 2017-05-03 中国科学院苏州纳米技术与纳米仿生研究所 一种疾病相关的心电图特征选择方法
CN104537118A (zh) * 2015-01-26 2015-04-22 苏州大学 一种微博数据处理方法、装置及系统
CN104537118B (zh) * 2015-01-26 2017-12-26 苏州大学 一种微博数据处理方法、装置及系统
CN104809229A (zh) * 2015-05-07 2015-07-29 北京京东尚科信息技术有限公司 一种文本特征词提取方法及系统
CN104809229B (zh) * 2015-05-07 2018-12-04 北京京东尚科信息技术有限公司 一种文本特征词提取方法及系统
CN106570094A (zh) * 2016-10-31 2017-04-19 广东电网有限责任公司惠州供电局 定值项匹配方法及匹配系统
CN106570094B (zh) * 2016-10-31 2019-06-28 广东电网有限责任公司惠州供电局 定值项匹配方法及匹配系统
CN109448792A (zh) * 2018-09-19 2019-03-08 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备
CN109448792B (zh) * 2018-09-19 2021-11-05 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备

Similar Documents

Publication Publication Date Title
CN110457545B (zh) 一种确定推荐系统中排序模型的参数的方法及装置
CN101937440A (zh) 特征选择的方法及装置
CN110991474A (zh) 一种机器学习建模平台
CN109902823B (zh) 一种基于生成对抗网络的模型训练方法及设备
CN112364942B (zh) 信贷数据样本均衡方法、装置、计算机设备及存储介质
CN112215278B (zh) 一种遗传算法和蜻蜓算法相结合的多维数据特征选择方法
CN113051930B (zh) 基于Bert模型的意图识别方法、装置及相关设备
CN115270004B (zh) 一种基于场因子分解的教育资源推荐方法
CN109189892A (zh) 一种基于文章评论的推荐方法及装置
Chouaib et al. Feature selection combining genetic algorithm and adaboost classifiers
CN112836750A (zh) 一种系统资源分配方法、装置及设备
CN109615421B (zh) 一种基于多目标进化算法的个性化商品推荐方法
CN107886130A (zh) 一种基于聚类和相似度加权的kNN快速分类方法
Fung et al. Enhancing learning paths with concept clustering and rule-based optimization
CN110471854B (zh) 一种基于高维数据混合约简的缺陷报告指派方法
CN104657749A (zh) 一种时间序列的分类方法及装置
CN117197559A (zh) 基于深度学习的猪肉分类模型、构建方法、电子设备和计算机可读介质
CN102270306A (zh) 信息处理设备和方法以及程序
CN116304728A (zh) 一种基于句子表征的短文本相似度匹配方法及应用
CN116128339A (zh) 客户信用评估方法及装置、存储介质及电子设备
CN115936104A (zh) 用于训练机器学习模型的方法和装置
CN110162704B (zh) 基于多因子遗传算法的多规模关键用户提取方法
Kashef et al. MLIFT: enhancing multi-label classifier with ensemble feature selection
CN109508780A (zh) 一种针对高维度数据的特征选择方法、装置及计算机存储介质
Abbas et al. An adaptive evolutionary algorithm for Volterra system identification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110105