CN107292338A - 一种基于样本特征值分布混淆度的特征选择方法 - Google Patents

一种基于样本特征值分布混淆度的特征选择方法 Download PDF

Info

Publication number
CN107292338A
CN107292338A CN201710454479.XA CN201710454479A CN107292338A CN 107292338 A CN107292338 A CN 107292338A CN 201710454479 A CN201710454479 A CN 201710454479A CN 107292338 A CN107292338 A CN 107292338A
Authority
CN
China
Prior art keywords
feature
subset
search
value
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710454479.XA
Other languages
English (en)
Inventor
王演
邱东杰
史晓非
于丽丽
巴海木
祖成玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN201710454479.XA priority Critical patent/CN107292338A/zh
Publication of CN107292338A publication Critical patent/CN107292338A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于样本特征值分布混淆度的特征选择方法,其包括:1、分别对数据集X中各类样本每一个特征fi的取值集合按从小到大的顺序进行排序;2、确定各类样本所对应的特征fi的限定值范围;3、确定数据集中M类样本对于第i个特征所对应的样本混淆数量,计算数据集X中第i个特征的特征值分布混淆度进而使用同样方法获得数据集X中每一个特征的Confusion值;4、依据所获得的Confusion值对数据集X中各个特征进行重要度排序以获得有序特征集合F;5、基于所设定的子集搜索策略,使用分类器对有序特征集合F或有序特征集合F中的部分特征所组成的子集Fsub进行子集搜索以得到所需的特征子集D。本发明能选出性能较好的特征子集,提高特征子集的识别能力,降低子集搜索过程中搜索次数。

Description

一种基于样本特征值分布混淆度的特征选择方法
技术领域
本发明涉及一种降维方法,具体说是涉及一种基于样本特征值分布混淆度 的特征选择方法。
背景技术
特征选择是特征降维的一种方法,不同于主分量分析等降维方法,特征选 择是求解一个计算量随特征个数呈指数增长的组合优化问题。在没有具体研究 领域的相关知识做先验假设的情况下,要从原始的特征集中选取一个包含所有 重要信息的特征子集,只能穷举地去遍历所有可能的特征子集,这种情况下, 特征个数只要稍多一点,计算量就会变得非常庞大。特征选择主要包括候选特 征子集生成、评价准则、停止准则和验证方法4个基本步骤,目前对特征选择 方法的研究主要集中在子集搜索策略和评价准则两个方面。常见的特征选择方 法大致可以分为三类:过滤式(Filter)、包裹式(Wrapper)和嵌入式(Embedding)。
(1)过滤式选择:过滤式特征选择使用评价准则减少特征之间的相关性, 增强特征与类之间的相关性,过滤式特征选择不考虑后续学习器,其中使用的 评价函数可分成四类:其中距离度量有欧式距离、切比雪夫距离、平方距离等。 例如Relief和ReliefF等;信息度量,如BIF(best individual feature), MRMR(minimal-redundancy and maximal-relevance)等算法以及它们的改进算 法。依赖性度量:Pearson相关系数、Fisher分数、t-test、F-statistic、最 小平方回归误差和平方关联系数等。一致性度量,对于给定的两个样本,若它 们特征值相同但是类别不同,则称它们为不一致的,否则是一致的,使用不一率对特征进行度量,如Focus,LVF算法等。
(2)包裹式选择:与过滤式选择方法不同,包裹式特征选择将算法使用最 终要使用的学习器的性能作为特征子集的评价准则。由于包裹式特征选择出的 特征子集是匹配于学习器的,从学习器性能来看,它选出的特征子集准确率更 高。但在选择过程中需要对分类器进行多次训练,用于评价特征的分类算法有 很多,如支持向量机、k近邻法、神经网络、贝叶斯分类器等。
(3)嵌入式选择:嵌入式特征选择将特征选择过程与学习器训练过程融为 一体,学习的过程同时自动地进行特征选择,学习过程结束之后特征选择也随 之完成。决策树算法是一种典型的嵌入式算法,如ID3算法、C4.5算法以及CART 算法。决策树算法会生成一个判定树,根据样本划分特征子集后的子集纯度, 伴随着树的每一步增长的同时进行特征选择。特征选择算法按照子集搜索策略 来分可分为全局最优搜索策略,如分支定界法;随机搜索策略,如ReliefF算 法;启发式搜索策略,如单独最优特征组合,序列前向选择方法(SFS)、广义序 列前向选择方法(GSFS)、序列后向选择算法(SBS)和广义序列后向选择方法(GSBS)等。
由上述可以看出,目前存在着许多种类的特征选择算法,它们各有优点但 都存在着不足。过滤式特征选择算法选择效率高,计算量相对小,速度快,通 用性强,但是选择的特征子集性能通常较差。包裹式特征选择算法选出的特征 子集具有较好的分类效果,且选出的特征子集特征维数要相对小的多,但计算 复杂度高,速度上要比过滤式方法选择慢,泛化能力差。过滤式特征选择方法 虽然计算速度快,能够对特征进行快速地评价,但是选出的特征子集性能一般 较差。嵌入式的特征选择方法将选择方法嵌入到学习算法当中,只能适应于特 定的几类算法。因而要根据具体问题而选择合理有效的特征选择算法。
发明内容
鉴于已有技术存在的缺陷,本发明的目的是要提供一种基于样本特征值分 布混淆度的特征选择方法,该方法是一种分阶段的混合特征选择方法,能够将 Filter和Wrapper特征选择算法结合并分阶段完成特征选择过程,进而能够选 出性能较好的特征子集,提高特征子集的识别能力,降低子集搜索过程中搜索 次数。
为了实现上述目的,本发明的技术方案:
一种基于样本特征值分布混淆度的特征选择方法,其特征在于,包括如下 步骤:
步骤1、分别对数据集X中各类样本所对应的每一个特征fi的取值集合按从 小到大的顺序进行排序;所述数据集的特征取值类型为数值型,并设定数据集X 中原始特征集F'表示为F'={fi|i=1,2,3,...,n},其中n为原始特征集中的特征个 数,fi表示原始特征集中的第i个特征,同时设定数据集X中包含M类样本, M=1,2,…,m,第m类共有样本数Lm,将第m类的样本所对应的特征fi表示为 X(i,m),则对X(i,m)的取值进行升序排序得到有序的特征取值集合为: X(i,m)={xi,m,p|p=1,2,3,...,Lm};
步骤2、确定X(i,m)的各类样本所对应的特征fi的限定值范围 [lower(i,m),upper(i,m)],其中,upper(i,m)和lower(i,m)分别为取值上限值和下限值, 用以界定数据集X中其它类别样本与当前的第m类在特征fi取值上是否与 X(i,m)混淆,
上式中的,p取整数值,其表示特征取值集合X(i,m)中值的序号,上下限取 值调节参数α的取值范围为α∈(0,1],具体值由用户设定;
步骤3、确定M类样本对于第i个特征所对应的样本混淆数量N(i,m)即确定 数据集X中其它类别的样本在第i个特征fi的取值落在限定值范围中的样本数 量,并计算数据集X中第i个特征的特征值分布混淆度Confusion(i),以获得数据 集X中每一个特征的Confusion值,对应的计算公式为
式中n为原始特征集合中特征的个数,M表示数据集X中的类别个数,L表 示数据集X中的样本总数;
步骤4、依据所获得的Confusion值对数据集X中各个特征进行重要度排序, 即按照从小至大的顺序,将各Confusion值所对应的特征进行重新排序以获得有序 特征集合F;
步骤5、基于所设定的子集搜索策略,使用分类器对有序特征集合F或者有 序特征集合F中的部分特征所组成的子集Fsub进行子集搜索进而得到所需的特 征子集D,且所述特征子集D初始为空集。
进一步优选的,在步骤5中子集搜索策略为前向的有序搜索策略即首先将Confusion值最小所对应的特征加入特征子集D,即D={f1},并使用分类器进行训 练得到在当前的特征子集D下的识别率J(D);其次遵循每次向特征子集D中加 入待考察特征fi时,均按照特征fi在集合F中的顺序即按照每个特征的Confusion 值排名顺序进行,依次加入特征到特征fi对应的特征子集D内,且每次仅加入一 个特征,得到特征集合D+fi,在样本集上进行训练得到对应的识别率J(D+fi), 如果满足规定的评价准则,则将特征fi加入到特征子集D中,若不满足则予以剔 除;重复前面的步骤,直到达到子集搜索停止条件或者遍历完特征集合F,则 子集搜索过程结束,获得特征子集D。
进一步优选的,所述评价准则包括下述两种策略任意一种:
策略A:如果向特征子集D中加入特征fi之后,分类器识别率升高,即满足 下式:
J(D+fi)>J(D)
则将特征fi加入到当前的特征子集D中组成新的特征子集D,否则删除;
策略B:如果特征子集D中加入特征fi之后,分类器识别率没有下降,即如 果满足下式:
J(D+fi)≥J(D)
则将特征fi加入到当前的特征子集D中组成新的特征子集D,否则删除。
进一步优选的,所述步骤5还包括设定停止条件停止搜索即在进行搜索时, 若连续尝试所设定的r个特征均没有使分类器识别率J提高,则停止搜索。
进一步优选的,所述方法中还包括步骤6,其包括:步骤61、按照局部SFS 搜索策略进行子集搜索即按照特征集合F中各个特征所对应的Confusion值从小 到大的顺序,依次自特征集合F或者子集Fsub中选择出若干个特征,组成特征集 合Ftop进行局部SFS搜索并得到基于局部SFS搜索的评价函数值,同时基于步骤 5中的所设定的子集搜索策略对特征集合Ftop进行子集搜索并得到相应的评价函 数值;步骤62、选定评价函数值更高的搜索策略所获得的各个特征组成Ftop所对 应的优选特征集合;步骤63、基于步骤5中的所设定的子集搜索策略对剩余的 特征集合F-Ftop或者Fsub-Ftop继续进行搜索,以得到最终的优选特征集合,其中 Ftop={fi|1<i≤k},k为所选择出的Confusion排名靠前的特征的个数。
与现有技术相比,本发明的有益效果:
本发明提出一种有效联合Filter和Wrapper的改进的特征选择方法;其首先 根据数据集样本特征取值分布情况,定义并构建特征值混淆度统计量Confusion以 评估特征重要程度,随后设计一种联合Confusion和基于分类器的Wrapper式特征 选择方法,并给出了相应地子集搜索策略;其具有计算速度快、特征子集识别 能力强等优点。
附图说明
图1为本发明所述方法对应的步骤流程图;
图2(a)为本发明所述EmoDB数据集中对应5类情感,不同α值对选出特 征子集性能的影响示意图;
图2(b)为本发明所述EmoDB数据集中对应7类情感,不同α值对选出特 征子集性能的影响示意图;
图2(c)为本发明所述SAVEE数据集中对应7类情感,不同α值对选出特 征子集性能的影响示意图;
图3(a)为本发明所述EmoDB数据集中对应7类情感,使用SVM分类器时 不同Confusion值的特征识别结果图;
图3(b)为本发明所述EmoDB数据集中对应7类情感,使用DT分类器时不 同Confusion值的特征识别结果图;
图3(c)为本发明所述EmoDB数据集中对应7类情感,使用KNN分类器时 不同Confusion值的特征识别结果图;
图4(a)为本发明所述EmoDB数据集中对应5类情感,使用SVM分类器时 不同Confusion值的特征识别结果图;
图4(b)为本发明所述EmoDB数据集中对应5类情感,使用KNN分类器时 不同Confusion值的特征识别结果图;
图4(c)为本发明所述EmoDB数据集中对应5类情感,使用时DT分类器不 同Confusion值的特征识别结果图;
图5为本发明所述EmoDB数据集中对应7类情感,不同Confusion值的特征使 用SVM识别结果图;
图6(a)为本发明所述EmoDB数据集中对应7类情感,Confusion值整体排 名不同的特征子的集优化子集识别效果图;
图6(b)为本发明所述EmoDB数据集中对应5类情感,Confusion值整体排 名不同的特征子的集优化子集识别效果图;
图6(c)为本发明所述SAVEE数据集,Confusion值整体排名不同的特征子 的集优化子集识别效果图;
图7为本发明所述EmoDB数据集对应策略A和策略B选出特征子集结果与 搜索次数关系图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施 例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本 领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都 属于本发明保护的范围。
本发明设计了一种分阶段的混合特征选择方法,以将Filter和Wrapper特征 选择算法有效结合,进而分阶段完成特征选择过程即使用Filter式的方法对特征 进行快速评价之后完成针对于具体分类器的特征选择;具体的包括使用样本数 据特征值分布混淆度这一统计量(用它来度量数据集中不同类别的样本在某一 特征f上的取值分布混淆程度,称之为样本特征值分布混淆度Confusion,将它作 为衡量特征的区分能力的一种方式)对特征进行评估,然后用两种子集搜索策 略结合分类器进行子集搜索,最后得到优选的特征子集,使其同时兼顾Filter和 Wrapper方法的优点的;本发明所述样本特征值分布混淆度Confusion仅仅适应于 数据集的特征取值为数值型的情况,包括连续取值类型和离散取值类型,并不 能够适用于含有非数值型特征的数据集。
如图1所示:本发明所述的于样本特征值分布混淆度的特征选择方法,其 特征在于,包括如下步骤:
步骤1、分别对数据集X中各类样本所对应的每一个特征fi的取值集合按从 小到大的顺序进行排序;设定数据集X中原始特征集F'表示为 F'={fi|i=1,2,3,...,n},其中n为原始特征集中的特征个数,fi表示原始特征集中 的第i个特征,同时设定数据集X中包含M类样本,M=1,2,…,m,第m类共 有样本数Lm,将第m类的样本所对应的特征fi表示为X(i,m),则对X(i,m)的取 值进行升序排序得到有序的特征取值集合为:X(i,m)={xi,m,p|p=1,2,3,...,Lm};
步骤2、确定X(i,m)的各类样本所对应的特征fi的限定值范围 [lower(i,m),upper(i,m)]即每个特征的视为混淆上下限值,其中,upper(i,m)和 lower(i,m)分别为取值上限值和下限值,用以界定数据集X中其它类别样本与当 前的第m类在特征fi取值上是否与X(i,m)混淆,
上式中的,p表示特征取值集合X(i,m)中值的序号,其取整数值,可分别取 上限值和下限值,防止得到序号无效,上下限取值调节参数α的取值范围为 α∈(0,1],具体值由用户设定;显然当取α=1时,上限值和下限值分别为有序集 合X(i,m)的最大值和最小值,也就是和xi,m,1;如α=0.9,则表示从特征取值 集合中不包括从最小值开始的个值和从最大值开始的个值之后,剩余 的取值集合里最大值和最小值分别为upper(i,m)和lower(i,m);α的取值需要用户 在数据集上验证得到一个合理的值,具体可使用在数据集X中选定小部分的样 本进行基于策略B子集搜索实验以选取合适的上下限取值调节参数α,进而通 过取值上下限值的限定参数α来得到upper(i,m)和lower(i,m);同时对于取值集合 X(i,m),它的上下限限定值upper(i,m)和lower(i,m)定义了一个限定值范围 [lower(i,m),upper(i,m)],如果其它类别的样本取值集合X(j,m)中的某一样本某个特 征取值在这个限定值范围之内,将它视为混淆;如果取值不在此限定值范围之 内,则不将此样本视为混淆;
步骤3、确定M类样本对于第i个特征fi所对应的样本混淆数量N(i,m)即确 定数据集X中其它类别的样本在第i个特征fi的取值落在限定值范围中的样本数 量,使用同样方法得到其它类别对于特征fi的混淆样本数量,由此计算第i个特 征的特征值分布混淆度Confusion(i)进而获得数据集X中每一个特征的Confusion 值,对应的计算公式为
式中n为原始特征集合中特征的个数,M表示数据集X中的类别个数,L表 示数据集X中的样本总数;
步骤4、依据所获得的Confusion值对数据集X中各个特征进行重要度排序, 即按照从小至大的顺序,将各Confusion值所对应的特征进行重新排序以获得有序 特征集合F;本步骤将统计量Confusion用到数据集上,计算数据集X中每一个特 征的Confusion值,按照Confusion值的大小,对数据集的特征进行排序,将Confusion 值小的特征排在Confusion值大的特征前面,这是一种Filter式的特征选择方式, 可以基于此对所有特征进行快速地评价。进一步的,对于Filter方式的特征选择 方法,可以通过均值法、观察法、半数递减搜索算法设定合适的阈值选出一个 特征子集,显然它独立于学习过程,与学习训练阶段所使用的分类器没有关系, 且计算速度快;但这不能保证选出一个优化的子集,特别是在特征与使用的分 类器存在明显关系的时候,而且选出来的特征子集规模可能很庞大,选出来的 特征子集在识别时的表现一般差于Wrapper的方式选出来的特征子集即两种方 法各有优点,结合Filter和Wrapper方式的方法是目前研究的一个新的趋势。
步骤5、基于所设定的子集搜索策略,使用分类器对有序特征集合F或者有 序特征集合F中的部分特征所组成的子集Fsub上进行子集搜索进而得到所需的 特征子集D,且所述特征子集D初始为空集。在结合具体的分类器进行子集搜 索时,以分类器在样本集上的识别率J作为特征子集好坏的评价标准,具体的在 步骤5中子集搜索策略为前向的有序搜索策略即首先初始候选特征子集D为空 集,首先加入排名最高的特征(即将Confusion值最小所对应的特征)加入特征子 集D,即D={f1},并使用分类器进行训练得到在当前的特征子集D下的识别率 J(D);其次遵循每次向特征子集D中加入待考察特征fi时,均按照特征fi在集合 F中的顺序即按照每个特征的Confusion值排名顺序进行,依次加入特征到特征fi对应的特征子集D内,且每次仅加入一个特征,得到特征集合D+fi,在样本集 上进行训练得到对应的识别率J(D+fi),如果满足规定的评价准则,则将特征fi加 入到特征子集D中,若不满足则予以剔除;重复前面的步骤,直到达到子集搜 索停止条件或者遍历完特征集合F,则子集搜索过程结束,获得特征子集D。进 一步优选的,对于按照Confusion值排序后得到的特征集合F,在进行搜索中可以 不使用完整的特征集合F进行,根据实际情况从F中仅选择排名靠前的一定数量 的特征构成特征子集合Fsub,在Fsub中完成子集搜索,这样可以减少步骤(2)中的 分类模型的训练次数,也就减少了算法在子集搜索过程中时间消耗。在不考虑 交叉验证的情况下,分类器的训练次数与F或Fsub中所含特征的数量是相同的, 例如,假设F中有n个特征,那么相应地分类器就需要n次迭代训练。如果使用Fsub进行搜索,虽然最终选出的子集D中可能会漏掉部分有效特征,但是这样做会 明显减少分类器的迭代训练次数,比如选用的Fsub仅包含F中前10%的特征,那
么分类器训练的次数将会由n次减少到次,并且选出的特征子集D在中特征数量上也要明显少于前者。进一步优选的,对于决定一个特征是否满足加入候选 子集D中的评价准则,其包括下述两种策略任意一种:策略A:如果向特征子集 D中加入特征fi之后,分类器识别率升高,即满足下式:
J(D+fi)>J(D)
则将特征fi加入到当前的特征子集D中组成新的特征子集D,否则删除;策略B: 如果特征子集D中加入特征fi之后,分类器识别率没有下降,即如果满足下式:
J(D+fi)≥J(D)
则将特征fi加入到当前的特征子集D中组成新的特征子集D,否则删除;与策略 A有所不同,策略B在剔除特征时采用的方式相对保守,即如果满足 J(D+fi)≥J(D),则将特征加入D,显然一般情况下使用策略B选出的特征子集 中特征个数要多于基于策略A选出特征子集中的特征个数。进一步优选的,在 数据集特征数目较少时,可以按顺序搜索全部的特征子集F完成子集搜索过程, 在特征数量非常多的情况下,除了可以采用在Fsub上进行子集搜索的方式之外, 还可以在子集搜索过程中设置停止准则即所述步骤5还包括设定停止条件停止 搜索即在按Confusion值增大的顺序遍历特征时,r需要考虑实际数据集中原始特 征的维数进行适当选取。
综上可知,从搜索策略的角度来分析,采用枚举法可以得到针对具体分类 算法的最优特征子集,而采用全局搜索策略Wrapper方式可以得到基于当前分 类器的某种规则下的最优特征子集,但对于有n个特征的数据集来说,它们的搜 索空间是O(2n),这是一个随特征数量呈指数增长的搜索空间,当n值较大时, 使用这些方法进行特征选择会带来庞大的计算量,这也是它们没有得到广泛应 用地原因;随机搜索策可以通过设置最大迭代次数将搜索空间限制到小于O(2n), 但在量级上仍然是O(2n);基于启发式搜索策略的SFS、GSFS、SBS、浮动搜索 方法的搜索空间为O(n2)。而本发明采用分类器识别率作为评价的子集搜索策略 A和B虽然也是前向搜索的,但与SFS是不同的。SFS是一种自上而下的搜索 方法,假设所有的特征集合为Q,已选入特征集合D,对每一个未选入特征 fi∈(Q-D),计算评价函数Ji=J(D+fi),选择使Ji最大的fi加入到D中,这样完 成往D中加入一个特征分类器训练的次数等于Q-D中所含特征的个数;在算法 的每一步,都要选择一个特征加入D中,直到在D中加入剩余特征中任意一个特 征都将使得评价函数指标降低或者达到了最大允许的特征个数,此时认为已经 选出最佳的特征子集。而本发明的搜索策略在每次迭代时,并不是在剩余特征 中选取一个特征fi使Ji=J(D+fi)最大,而是按照一定的顺序,即每一次仅仅评 估剩余的特征集合F-D或Fsub-D中Confusion值最小的特征,如果当前评估的特 征fi不满足前面的评价策略A或策略B,则将fi过滤掉,若满足A或B则加入 候选子集中,然后继续评估剩余特征中Confusion值最小的特征,重复此前的步骤, 直到满足停止条件,将得到最终的特征子集。显然,如果在所有的排序特征集 合F中,本发明子集搜索方法的搜索空间是O(n),显然,如果在Fsub中进行此过 程,那么搜索空间将小于O(n)。那么基于本发明所述搜索策略A和B对有序特 征集合F或者Fsub进行子集搜索,其Confusion值最小的f1会首先被加入D中而且必然会存在于最终得到的D中。若f1的真实类别区分能力不强,则它的存在可能 会导致后续搜索过程选出优选特征子集的性能下降,故为了增加本发明的鲁棒 性,本发明中加入对F中靠前的小部分Confusion值小的特征集合Ftop进行局部 SFS搜索过程,得到基于局部SFS搜索的评价函数值,并与此前搜索策略在Ftop上得到评价函数值进行比较,从两者中选择评价函数值更高的方法所得到的Ftop上的优选特征集合,接下来对剩余的特征集合F-Ftop或者Fsub-Ftop使用此前的子 集搜索继续搜索得到最终的优选特征集合,其中Ftop={fi|1<i≤k},k为选取 Confusion排名靠前的特征的个数。从子集搜索空间上分析,在本算法之前方法加 上局部SFS搜索的改进方法的子集搜索空间为O(k2)+O(n),当k远小于n时,搜 索空间仍然是O(n)量级。基于上述内容,进一步优选的,本算法中加入对F中靠 前的小部分Confusion值小的特征集合Ftop进行局部SFS搜索过程,得到基于局部 SFS搜索的评价函数值,并与所设定的搜索策略在Ftop上得到评价函数值进行比 较,从两者中选择评价函数值更高的方法所得到的Ftop上的优选特征集合,接下 来对剩余的特征集合F-Ftop或者Fsub-Ftop使用所设定的搜索策略继续搜索,将两 者结合得到最终的优选特征集合,其中Ftop={fi|1<i≤k},k为所选择的Confusion排 名靠前的特征的个数。
虽然从目前来看,分支定界法是唯一可以得到最优结果的,但它受制于诸多 实际因素,并没有得到广泛的应用,它的搜索空间是O(2n),这种方法在用于处 理高维度多类问题时,时间复杂度太高,故而可行性较低。本发明的特征选择算 法跟其它许多特征选择算法一样,只能得到次优的特征子集,但是本发明的方 法降低了子集搜索空间的量级,这会减少大量的计算和分类器训练次数,并且 结合分类器的方式能够选出一个适应于具体分类方法的较优特征子集。
下述以具体实验数据对本发明所述方案进行详细说明:
实验相关数据:本实验在Ubuntu 16.04LTS机器上进行,程序语言为Python, 版本是2.7.12,同时为验证本发明所述方案的有效性,对情感语音数据库EmoDB 和SAVEE提取751个特征,以构建相应地数据集并进行相关实验。
本发明使用的分类器及其参数设置如下:支持向量机(SupportVectorMachine,SVM),核函数为RBF;k邻近(k-NearestNeighbor,KNN),实验中k值取为7; 决策树(DecisionTree,DT);多层感知器(Multi-layerPerceptron,MLP)神经 网络,各分类器其余参数为scikit-learn 0.18中默认参数。
1、对上下限取值调节参数α不同取值的实验:
在计算本发明给出不同特征的Confusion值时,其中upper和lower的值受上下限取 值调节参数α的影响,为了研究给出的调节参数α取值对所述特征选择算法选出 的特征子集识别性能产生的影响,设计了如下实验:在EmoDB、SAVEE数据库 上使用SVM、KNN和DT作为分类器,选取α∈(0.50,0.98]上间隔0.02的取值加 上α=0.99共24种不同取值进行了实验。实验中使用原始特征子集中Confusion值 较小的前300个特征组成Fsub用于子集搜索,用于局部SFS校正的Ftop的大小, 即所含特征维数为选择特征子集使用策略B加局部 SFS校正的子集搜索方式。实验结果如图2所示:图中具有较大圆点折线代表不 同数据库上使用SVM分类器在不同α取值下的结果,具有较小圆点折线图表示 的是使用KNN分类器的结果,具有三角形折线图表示的是使用DT分类器得到 的结果。
本实验在3个情感数据库上进行了α不同取值对选出特征子集识别性能的 实验,其中在EmoDB上分别进行了5类情感和7类情感两种情况的实验。显然 从图2(a)--图2(c)中可以看出α的取值会对最终选出的特征子集的识别性能 产生影响,各数据集中使用不同α值选出的特征子集识别性能是不同的。对于 EmoDB和SAVEE数据库对于α并不存在近似的单调关系,但可以看出α取少部 分值时选出的特征子集比大多数的α取值所得到的特征子集在识别性能上存在 较为明显的差距,以EmoDB(5类情感)为例,SVM和DT取得的识别率随α值的变化相对比较稳定,KNN在α取值为0.68到0.9以及0.52和0.54时平均识别 率取均在近88%以上,α取其它值时平均识别率降低1%到8%。再如SAVEE数 据库,以SVM做为特征子集评价分类器所得到的特征子集的识别率当α取0.99、 0.98和0.52时可以取得接近65%的最好识别率,但当α取0.54和0.56时所选出 特征子集的识别率只有不到46%,性能差距明显。因此参数α需要根据具体的 数据集选择合适的值。
2、不同Confusion值的特征识别效果对比分析:
为了验证本发明给出用来描述数据集特征值混淆度的统计量Confusion,能够 有效区分出识别能力强弱的特征,本实验在上述情感语音数据库上设计了以下2 组实验,其中对于调节参数α在不同的数据库上选取了相对合适的值,在EmoDB 上α取值0.84,其它两个数据库上的α取值为0.98:
(1)对计算Confusion值排序之后的特征集合,取处于整体排名中不同位 置的特征以SVM、KNN、DT和MLP为分类器进行了对比实验。取排名前 700的特征中的Confusion值最小、最大以及中间各10%的特征即对排名最高 的、处于中间的和最低的70个特征,在EmoDB对5类情感时识别的实验结 果如图3(a)--图3(c)所示,图中每个子图中的三条折线表示处于Confusion 值排名不同位置的70个特征的单一特征识别率,其中具有较大圆点折线表示Confusion最小的70个特征,具有较小圆点折线为Confusion值处于中间的70 个特征,具有三角形折线表示Confusion值较大的70个特征。由上述各图可以 看出在EmoDB数据库上,以SVM等三种分类器进行识别,Confusion值小的 特征比Confusion值大的特征有着明显更强的类别区分能力,在以KNN作分 类器时,排名最高的20个特征在单独作为特征进行识别时的平均识别率超 过了40%,而排名低的特征单独进行识别时识别率普遍较低。本实验验证了 本发明给出的统计量Confusion能够对特征的识别能力进行有效的区分。
同时为了更好的验证本算法提出的Confusion值对于特征重要程度的有效 度量,在SAVEE数据库上进行了同样的实验。其中在SAVEE数据集上得到 的结果如图4所示,可以得到与EmoDB数据库上相同的结论。
表4.1是EmoDB等三个数据库不同分类器对基于Confusion值排名高、中、 低的各70个特征单一识别率的平均值。可以看出平均识别率的高低与基于 Confusion值的排名相对应,且排名不同的特征识别能力差距比较明显。以 EmoDB(7类)为例,SVM分类器在排名不同的三部分特征的平均单一识别率 上分别是31.76%,24.87%和23.78%,KNN分类器的平均单一识别率分别是 31.73%,19.95%和17.97%,DT分类器的平均单一识别率分别是28.38%, 18.61%和16.88%,均呈递减趋势,且中间和较高Confusion值的特征平均单一识别率较低。
表4.1不同排名的特征单独进行识别的平均识别结果
图4是使用SVM作为分类器在EmoDB(7类)上对排名不同的特征单独 作为特征进行识别的结果,虽然整体上看,排名高的特征用作识别时平均识别 率明显更高,但是排名最高的3个特征的识别率并不好,这也验证了本发明提 出搜索策略时加上局部SFS校正是非常有必要的,这样做可以在很大程度上避 免识别能力不佳的特征出现在最终的特征子集里。
另,为了从另一方面验证本发明给出Confusion区分特征识别能力的有效性, 设计如下实验:基于Confusion得到的特征排名,用每10%的特征组成10个特征 子集,在此十个特征子集上进行策略B加局部SFS校正的特征子集搜索,比较 此10个特征子集选出的优化特征子集的识别率,以验证Confusion值小的特征组 成的子集和选出的最终特征子集要比用Confusion大的特征所得的更好。实验结果 如图4(a)---图4(c)中所示:在这10组Confusion值不同的特征子集中每组含 有75个特征,最后一组含有76个特征。第一组是排名最高的前75个,第二组 包括排名76~150的特征,其它依此类推。图5中的横轴表示10组特征的序号, 较大圆点表示SVM分类器,较小圆点表示KNN分类器,正三角和倒三角分别 代表DT和MLP分类器。在EmoDB(7类)、EmoDB(5类)和SAVEE三个数据 库上,使用SVM、KNN、DT和MLP做分类器进行验证,可以看出整体排名高 的特征集合选出的优化子集,识别率明显高于从整体排名低的组中选出的子集。 由EmoDB(7类)数据库上的实验结果,第一组特征得到的四种分类器识别率均 接近70%,而第二、三、四、五组在60%左右,从最后的4组选出的优化特征 子集识别率基本在30%~50%。这种总体形势与在EmoDB和SAVEE数据库上的 实验结果一致,进一步说明了本发明给出的Confusion是有效的。
3、几种不同子集搜索策略的对比实验:
为了对比本发明提出的基于Confusion值排名的4种不同子集搜索策略选出 特征子集的识别性能,设计了如下四组实验:
(1)为了研究本发明提出的基于策略A和B的子集搜索策略选出特征子集 性能与搜索次数之间的关系,在EmoDB(5类情感)进行了十折交叉验证实验, 使用分类器为SVM,得到基于策略A和策略B所选出特征子集性能与分类器搜 索次数的关系,实验结果如图6所示:
此处实验使用子集搜索策略A和子集搜索策略B完成,由于没有使用局部 SFS校正,故搜索次数与特征的Confusion值排名是一致的,即搜索到第k次时, 此时评估的特征的Confusion值排名正好为k,k≤751。由图6,可以得到两点结 论:1)策略B比策略A选出的特征子集性能稍好,这是由于策略A的原则导 致选出的子集中特征数量较少,在搜索过程中,没有将未引起识别率变化的特 征加入到最终选出的特征子集中,这导致后续搜索过程中存在可能与前面已剔 除特征组合在一起获得较好性能的情况,而此种情况未被纳入到最终的特征子 集中。2)由于与图5的实验结果一致,仅对特征排名较高的部分特征进行子集 搜索,就可以得到性能较优的特征子集,例如对EmoDB数据库,搜索所有的 751个特征和只搜索前200个特征所得到的特征子集,在识别性能上差别很小, 也验证了本发明给出可以只对排名较高的特征进行子集搜索得到最终特征子集 是合理的,这样可以以牺牲很小的识别性能来换取计算量的降低。
(2)为了对比本算法给出的基于策略A的子集搜素策略、基于策略B的子集 搜索策略、策略A+局部SFS校正的子集搜索策略、策略B+局部SFS校正的子 集搜素策略4种方式进行特征选择时,在识别性能、选出特征子集维数和分类 器搜索次数上的差别,在EmoDB和SAVEE两个数据库使用SVM和DT分类器 进行实验。对全部特征进行子集搜索,用于局部SFS的Ftop的大小为原始特征维 数的8%,即Ftop为排名高的60个特征,实验采用十折交叉验证,实验结果如表 2和3所示:
表4.2 SVAEE上不同子集搜索策略结果对比
表4.3 EmoDB(7类)上不同子集搜索策略结果对比
由表4.2可以看出在SAVEE数据库上以SVM做分类器时,仅仅基于策略A 和策略B选出的特征子集识别效果并不好,而加上局部SFS校正之后,识别率 明显上升,分别由16.42%和27.86%提升到64.76%和64.52%,而DT分类器的 影响不大,但基于策略B选出的特征子集要好于基于A策略选出的特征子集, 如B+SFS校正选出的子集识别率为78.09%,而A+SFS选出的子集识别率为 69.52%。在EmoDB上对七类情感进行实验,B+SFS选出的子集可以达到81.39% 的识别率。由于设置局部SFS校正的特征数量为60个,由两个表可以看出局部 SFS校正使平均搜索次数大约增加了200次左右。
(3)为了对比本发明提出特征选择方法与搜索空间为O(n2)的SFS搜索策略子 集搜索空间上的差别,在EmoDB(5类情感)对排名前100、200和300的特征组 成的特征集合上,使用A+局部SFS校正、B+局部SFS校正和SFS进行子集搜 索,同时对三种搜索策略的选出特征子集的在性能和特征数量进行了比较,使 用分类器为SVM,实验采用十次十折交叉验证的形式,得到的结果如表4.4所 示:
表4.4 EmoDB上不同子集搜索策略结果对比
由表4.4,可以看出SFS算法可以得到比本算法提出的策略B+SFS和策略 A+SFS,选出特征子集有着更好的识别率。由表4.4中搜索次数可以看出当特征 数量较大时,基于SFS的Wrapper特征选择算法的搜索空间是非常大的,当在 排名前300的特征组成的子集中进行子集搜索,选出特征子集平均需要分类器 进行31743次训练,计算量较大。此外,从前100个特征中进行SFS搜索就可 以得到识别性能较优的特征子集,也从侧面验证了本发明给出的Confusion值可以 有效的度量和评估特征的区分能力。
综上所述,鉴于Filter式特征选择方法计算速度快,但选出的特征子集性能 相对较差;而Wrapper式的特征选择算法选出的特征子集识别能力强,但计算 复杂的特点;本发明提出一种有效联合Filter和Wrapper的改进的特征选择方法; 其首先根据数据集样本特征取值分布情况,定义并构建特征值混淆度统计量 Confusion以评估特征重要程度,随后设计一种联合Confusion和基于分类器的 Wrapper式特征选择方法,并给出了相应地子集搜索策略。通过对比实验,验证 了Confusion对评估特征区分能力的有效性,也验证了本发明提出的特征选择方法 能够选出较优的特征子集。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局 限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本 发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护 范围之内。

Claims (5)

1.一种基于样本特征值分布混淆度的特征选择方法,其特征在于,包括如下步骤:
步骤1、分别对数据集X中各类样本所对应的每一个特征fi的取值集合按从小到大的顺序进行排序;所述数据集的特征取值类型为数值型,并设定数据集X中原始特征集F'表示为F'={fi|i=1,2,3,...,n},其中n为原始特征集中的特征个数,fi表示原始特征集中的第i个特征,同时设定数据集X中包含M类样本,M=1,2,…,m,第m类共有样本数Lm,将第m类的样本所对应的特征fi表示为X(i,m),则对X(i,m)的取值进行升序排序得到有序的特征取值集合为:X(i,m)={xi,m,p|p=1,2,3,...,Lm};
步骤2、确定X(i,m)的各类样本所对应的特征fi的限定值范围[lower(i,m),upper(i,m)],其中,upper(i,m)和lower(i,m)分别为取值上限值和下限值,用以界定数据集X中其它类别样本与当前的第m类在特征fi取值上是否与X(i,m)混淆,
上式中的,p取整数值,其表示特征取值集合X(i,m)中值的序号,上下限取值调节参数α的取值范围为α∈(0,1],具体值由用户设定;
步骤3、确定M类样本对于第i个特征所对应的样本混淆数量N(i,m)即确定数据集X中其它类别的样本在第i个特征fi的取值落在限定值范围中的样本数量,并计算数据集X中第i个特征的特征值分布混淆度Confusion(i),以获得数据集X中每一个特征的Confusion值,对应的计算公式为
<mrow> <mi>C</mi> <mi>o</mi> <mi>n</mi> <mi>f</mi> <mi>u</mi> <mi>s</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>M</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mfrac> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>L</mi> <mo>-</mo> <msub> <mi>L</mi> <mi>m</mi> </msub> </mrow> </mfrac> <mo>,</mo> <mn>1</mn> <mo>&amp;le;</mo> <mi>i</mi> <mo>&amp;le;</mo> <mi>n</mi> </mrow>
式中n为原始特征集合中特征的个数,M表示数据集X中的类别个数,L表示数据集X中的样本总数;
步骤4、依据所获得的Confusion值对数据集X中各个特征进行重要度排序,即按照从小至大的顺序,将各Confusion值所对应的特征进行重新排序以获得有序特征集合F;
步骤5、基于所设定的子集搜索策略,使用分类器对有序特征集合F或者有序特征集合F中的部分特征所组成的子集Fsub进行子集搜索进而得到所需的特征子集D,且所述特征子集D初始为空集。
2.根据权利要求1所述的方法,其特征在于:
在步骤5中子集搜索策略为前向的有序搜索策略即首先将Confusion值最小所对应的特征加入特征子集D,即D={f1},并使用分类器进行训练得到在当前的特征子集D下的识别率J(D);其次遵循每次向特征子集D中加入待考察特征fi时,均按照特征fi在集合F中的顺序即按照每个特征的Confusion值排名顺序进行,依次加入特征到特征fi对应的特征子集D内,且每次仅加入一个特征,进而得到特征集合D+fi,在样本集上进行训练得到对应的识别率J(D+fi),且如果满足规定的评价准则,则将特征fi加入到特征子集D中,若不满足则予以剔除;重复前面的步骤,直到达到子集搜索停止条件或者遍历完特征集合F,则子集搜索过程结束,获得特征子集D。
3.根据权利要求2所述的方法,其特征在于:
所述评价准则包括下述两种策略任意一种:
策略A:如果向特征子集D中加入特征fi之后,分类器识别率升高,即满足下式:
J(D+fi)>J(D)
则将特征fi加入到当前的特征子集D中组成新的特征子集D,否则删除;
策略B:如果特征子集D中加入特征fi之后,分类器识别率没有下降,即如果满足下式:
J(D+fi)≥J(D)
则将特征fi加入到当前的特征子集D中组成新的特征子集D,否则删除。
4.根据权利要求1所述的方法,其特征在于:
所述步骤5还包括设定停止条件停止搜索即在进行搜索时,若连续尝试所设定的r个特征均没有使分类器识别率J提高,则停止搜索。
5.根据权利要求2所述的方法,其特征在于:
所述方法中还包括步骤6,其包括:步骤61、按照局部SFS搜索策略进行子集搜索即按照特征集合F中各个特征所对应的Confusion值从小到大的顺序,依次自特征集合F或者子集Fsub中选择出若干个特征,组成特征集合Ftop进行局部SFS搜索并得到基于局部SFS搜索的评价函数值,同时基于步骤5中的所设定的子集搜索策略对特征集合Ftop进行子集搜索并得到相应的评价函数值;步骤62、选定评价函数值更高的搜索策略所获得的各个特征组成Ftop所对应的优选特征集合;步骤63、基于步骤5中的所设定的子集搜索策略对剩余的特征集合F-Ftop或者Fsub-Ftop进行继续搜索,以得到最终的优选特征集合,其中Ftop={fi|1<i≤k},k为所选择出的Confusion排名靠前的特征的个数。
CN201710454479.XA 2017-06-14 2017-06-14 一种基于样本特征值分布混淆度的特征选择方法 Pending CN107292338A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710454479.XA CN107292338A (zh) 2017-06-14 2017-06-14 一种基于样本特征值分布混淆度的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710454479.XA CN107292338A (zh) 2017-06-14 2017-06-14 一种基于样本特征值分布混淆度的特征选择方法

Publications (1)

Publication Number Publication Date
CN107292338A true CN107292338A (zh) 2017-10-24

Family

ID=60097832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710454479.XA Pending CN107292338A (zh) 2017-06-14 2017-06-14 一种基于样本特征值分布混淆度的特征选择方法

Country Status (1)

Country Link
CN (1) CN107292338A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319987A (zh) * 2018-02-20 2018-07-24 东北电力大学 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN108899046A (zh) * 2018-07-12 2018-11-27 东北大学 一种基于多级支持向量机分类的语音情感识别方法及系统
CN111709440A (zh) * 2020-05-07 2020-09-25 西安理工大学 基于FSA-Choquet模糊积分的特征选择方法
CN112256844A (zh) * 2019-11-21 2021-01-22 北京沃东天骏信息技术有限公司 文本分类方法及装置
CN112348043A (zh) * 2019-08-09 2021-02-09 杭州海康机器人技术有限公司 机器学习中的特征筛选方法和装置
CN113407694A (zh) * 2018-07-19 2021-09-17 深圳追一科技有限公司 客服机器人知识库歧义检测方法、装置及相关设备
CN113921144A (zh) * 2021-09-23 2022-01-11 清华大学 疾病预测集处理方法、装置、电子设备及存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319987A (zh) * 2018-02-20 2018-07-24 东北电力大学 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN108319987B (zh) * 2018-02-20 2021-06-29 东北电力大学 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN108899046A (zh) * 2018-07-12 2018-11-27 东北大学 一种基于多级支持向量机分类的语音情感识别方法及系统
CN113407694A (zh) * 2018-07-19 2021-09-17 深圳追一科技有限公司 客服机器人知识库歧义检测方法、装置及相关设备
CN112348043A (zh) * 2019-08-09 2021-02-09 杭州海康机器人技术有限公司 机器学习中的特征筛选方法和装置
CN112348043B (zh) * 2019-08-09 2024-04-02 杭州海康机器人股份有限公司 机器学习中的特征筛选方法和装置
CN112256844A (zh) * 2019-11-21 2021-01-22 北京沃东天骏信息技术有限公司 文本分类方法及装置
CN112256844B (zh) * 2019-11-21 2024-09-20 北京沃东天骏信息技术有限公司 文本分类方法及装置
CN111709440A (zh) * 2020-05-07 2020-09-25 西安理工大学 基于FSA-Choquet模糊积分的特征选择方法
CN111709440B (zh) * 2020-05-07 2024-02-02 西安理工大学 基于FSA-Choquet模糊积分的特征选择方法
CN113921144A (zh) * 2021-09-23 2022-01-11 清华大学 疾病预测集处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107292338A (zh) 一种基于样本特征值分布混淆度的特征选择方法
WO2017143919A1 (zh) 一种建立数据识别模型的方法及装置
CN109117380A (zh) 一种软件质量评价方法、装置、设备及可读存储介质
CN109657721A (zh) 一种结合模糊集和随机森林树的多类别决策方法
CN109558902A (zh) 一种快速目标检测方法
CN108875795A (zh) 一种基于Relief和互信息的特征选择算法
CN106228183A (zh) 一种半监督学习分类方法与装置
AU2019100968A4 (en) A Credit Reporting Evaluation System Based on Mixed Machine Learning
CN109344907A (zh) 基于改进评判标准分类算法的判别方法
CN110348490A (zh) 一种基于支持向量机算法的土壤质量预测方法及装置
CN107341363A (zh) 一种蛋白质抗原表位的预测方法
CN107480686B (zh) 一种筛选机器学习特征的方法和装置
CN113378831B (zh) 一种小鼠胚胎器官识别与评分方法与系统
CN106874963A (zh) 一种基于大数据技术的配电网故障诊断方法及系统
CN109934420A (zh) 一种预测员工离职的方法及系统
CN109325792A (zh) 信用评估变量的分箱方法及分箱装置、设备和存储介质
CN108764346A (zh) 一种基于熵的混合采样集成分类器
CN107240087A (zh) 目标检测系统和方法
CN101957913A (zh) 一种基于信息融合技术的指纹识别方法及装置
CN115169504B (zh) 一种煤气精脱硫工艺中的设备异常识别方法
CN115050022A (zh) 一种基于多层级自适应注意力的农作物病虫害识别方法
CN107766695A (zh) 一种获取外周血基因模型训练数据的方法及装置
CN110287940A (zh) 一种基于人工智能的掌纹识别方法及系统
CN108564009A (zh) 一种基于互信息量的改进特征评价方法
CN113077271A (zh) 一种基于bp神经网络的企业信用评级方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171024