CN105389480B - 多类不平衡基因组学数据迭代集成特征选择方法及系统 - Google Patents

多类不平衡基因组学数据迭代集成特征选择方法及系统 Download PDF

Info

Publication number
CN105389480B
CN105389480B CN201510925559.XA CN201510925559A CN105389480B CN 105389480 B CN105389480 B CN 105389480B CN 201510925559 A CN201510925559 A CN 201510925559A CN 105389480 B CN105389480 B CN 105389480B
Authority
CN
China
Prior art keywords
feature
msub
iteration
data
mrow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510925559.XA
Other languages
English (en)
Other versions
CN105389480A (zh
Inventor
杨峻山
纪震
朱泽轩
周家锐
殷夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201510925559.XA priority Critical patent/CN105389480B/zh
Publication of CN105389480A publication Critical patent/CN105389480A/zh
Application granted granted Critical
Publication of CN105389480B publication Critical patent/CN105389480B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Abstract

本发明公开多类不平衡基因组学数据迭代集成特征选择方法及系统。本发明针对多类标基因组学数据存在数据分布不平衡的特点,提出了一种迭代式的特征选择方法,在一对多集成分类器的基础上,将欠采样或过采样和特征选择迭代运行,使子数据集的样本随着特征数量的递减,逐渐达到平衡状态。采用此过程集成后的分类器可以明显提高对小类样本的分类识别能力。由于采用集成学习技术,集成基于子平衡数据训练的弱分类器为强分类器,可以明显提高分类准确率。

Description

多类不平衡基因组学数据迭代集成特征选择方法及系统
技术领域
本发明涉及特征选择和识别领域,尤其涉及多类不平衡基因组学数据迭代集成特征选择方法及系统。
背景技术
基因组微阵列技术已在癌症诊断中得到广泛的应用,识别和确定与癌症相关的基因仍然是一大挑战。基因组微阵列数据通常具有成千上万个基因,在这些基因中发现与癌症相关的潜在标志物或基因集合是非常重要的任务。如果从机器学习角度分析这类基因选择问题,其可以看成是特征选择问题。特征选择的目标是把与类标高度相关的特征识别出来。
根据是否使用学习方法评估特征子集,可以将特征选择方法分为主要的三类:(1)过滤式方法(Filter Methods);(2)封装式方法(Wrapper Method);(3)嵌入式方法(Embedded Method)。过滤式方法根据数据特征的统计分布特性对特征的优劣性进行评估。由于过滤式方法没有考虑学习方法,它选取的特征子集往往不能满足学习方法的要求。封装式方法正好相反,封装式方法使用学习方法对候选特征子集进行测试,可以找到更加匹配学习方法的特征子集。嵌入式方法把特征选择过程嵌入到分类学习训练过程中,此类方法只适用于某些特定类型的分类学习过程。
基于特征选择的多类标的癌症预测已经引起业界广泛的兴趣。对于多类标数据问题的解决,通常有三种框架:(1)将已有两分类分类器改为多类标分类器。(2)将多类数据的分类问题改为若干个一对多分类问题,并将这些分类结果集成为最终的分类结果。(3)将多类数据的分类问题看成若干个子类之间的分类把问题,并将这若干个子类分类结果集成为最终的分类结果。
由于大量基因组学存在多类标和以及类标之间样本量不平衡的特点,而现有的特征选择方法往往忽略了基因组学数据不平衡的样本分布特点,导致这些方法常包含以下缺陷:
第一,由于没有充分考虑基因组学数据多类不平衡分布的影响,基于这些特征搜索算法搜索出来的特征而训练的分类器对于预测小类样本的分类准确率较低。
第二,由于基因组学数据多类不平衡分布的特点,已有的特征搜索算法所搜索出的特征通常都与大类样本高度相关,却忽略了与小类类标高度相关的特征。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供多类不平衡基因组学数据迭代集成特征选择方法及系统,旨在解决现有的特征选择方法对于预测小类样本的分类准确率较低、忽略了与小类类标高度相关的特征等问题。
本发明的技术方案如下:
一种多类不平衡基因组学数据迭代集成特征选择方法,其中,包括步骤:
A、将多类不平衡基因组学数据分为K份具有两类样本的子数据集;
B、对于每份子数据集,使用过采样和欠采样的方法将两类样本的数量通过迭代的过程达到平衡,并在每一次迭代过程中进行特征选择,特征选择的数量随迭代过程逐渐减少到指定数量;
C、将特征选择过程中不需要的特征删除掉,得到特征选择后的平衡子数据;
D、将每个特征选择后的平衡子数据作为分类器的训练数据训练对应的分类器;
E、根据训练好的K个分类器,将每个分类器投票集成为最后的强分类器。
所述的多类不平衡基因组学数据迭代集成特征选择方法,其中,所述步骤B中,过采样的方法为SMOTE过采样方法,欠采样的方法为随机欠采样。
所述的多类不平衡基因组学数据迭代集成特征选择方法,其中,所述步骤B中,特征选择采用过滤方式实现。
所述的多类不平衡基因组学数据迭代集成特征选择方法,其中,所述步骤B中,过采样过程中,将小类样本的数量增加Mi个,欠采样过程中,将大类样本的数量减少Mi个,Mi的取值定义如下:
SM为子数据集中大类样本的数量,Sm为子数据集中小类样本的数量,T为迭代次数。
所述的多类不平衡基因组学数据迭代集成特征选择方法,其中,在每一次迭代中的特征选择过程中,每一次所减少的特征个数Ni为:
NM为子数据集的特征个数,Nn为最终选择特征个数。
所述的多类不平衡基因组学数据迭代集成特征选择方法,其中,所述步骤D中的分类器为SVM分类器或kNN分类器。
所述的多类不平衡基因组学数据迭代集成特征选择方法,其中,所述步骤E之后还包括:
当一个新的测试数据集进入到强分类器分类时,根据所述强分类器预测新的测试数据集中的数据分类。
一种多类不平衡基因组学数据迭代集成特征选择系统,其中,包括:
分组模块,用于将多类不平衡基因组学数据分为K份具有两类样本的子数据集;
迭代模块,用于对于每份子数据集,使用过采样和欠采样的方法将两类样本的数量通过迭代的过程达到平衡,并在每一次迭代过程中进行特征选择,特征选择的数量随迭代过程逐渐减少到指定数量;
剔除模块,用于将特征选择过程中不需要的特征删除掉,得到特征选择后的平衡子数据;
训练模块,用于将每个特征选择后的平衡子数据作为分类器的训练数据训练对应的分类器;
投票模块,用于根据训练好的K个分类器,将每个分类器投票集成为最后的强分类器。
所述的多类不平衡基因组学数据迭代集成特征选择系统,其中,还包括:
分类模块,用于当一个新的测试数据集进入到强分类器分类时,根据所述强分类器预测新的测试数据集中的数据分类。
所述的多类不平衡基因组学数据迭代集成特征选择系统,其中,所述迭代模块中,过采样的方法为SMOTE过采样方法,欠采样的方法为随机欠采样。
有益效果:本发明针对多类标基因组学数据存在数据分布不平衡的特点,提出了一种迭代式的特征选择方法,在一对多集成分类器的基础上,将欠采样或过采样和特征选择迭代运行,使子数据集的样本随着特征数量的递减,逐渐达到平衡状态。采用此过程集成后的分类器可以明显提高对小类样本的分类识别能力。由于采用集成学习技术,集成基于子平衡数据训练的弱分类器为强分类器,可以明显提高分类准确率。
附图说明
图1为本发明多类不平衡基因组学数据迭代集成特征选择方法的流程图。
具体实施方式
本发明提供多类不平衡基因组学数据迭代集成特征选择方法及系统,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,图1为本发明所提供的一种多类不平衡基因组学数据迭代集成特征选择方法的流程图,其包括步骤:
S1、将多类不平衡基因组学数据分为K份具有两类样本的子数据集;
S2、对于每份子数据集,使用过采样和欠采样的方法将两类样本的数量通过迭代的过程达到平衡,并在每一次迭代过程中进行特征选择,特征选择的数量随迭代过程逐渐减少到指定数量;
S3、将特征选择过程中不需要的特征删除掉,得到特征选择后的平衡子数据;
S4、将每个特征选择后的平衡子数据作为分类器的训练数据训练对应的分类器;
S5、根据训练好的K个分类器,将每个分类器投票集成为最后的强分类器。
在所述步骤S1中,首先假设多类不平衡基因组学数据具有K(K≥3)类,将其分为K份具有两类的子数据集(S1,…,SK),例如,某一个数据集有A、B、C三类,将属于A类的样本作为一类,将属于B、C两类的样本作为一类,组成一个具有两类的子数据集。
所述步骤S2中,对每份子数据集,两类样本的数量通常是不平衡的,即其中属于某一类的样本数量远大于属于另一类的样本数量,在第二步中,需要使用过采样和欠采样的方法将两类样本的数量通过迭代的过程逐渐达到平衡。除了对不平衡的样本做欠采样/过采样平衡之外,在每一次迭代过程中,还要做特征选择,特征选择的数量随迭代过程逐渐减少到指定数量。
其中,过采样是指将某一类数量较小的样本,通过如插值等方法生成新的样本,本发明采用的过采样方法是SMOTE(Synthetic Minority Over-sampling Technique)过采用方法。欠采样是指将某一类数量较大的样本,通过随机剔除等方法删掉一些样本,本发明采用的欠采样方法是随机欠采样法。
特征选择是模式识别和机器学习领域常见的数据预处理方法,由于某些数据维度较高,使用某种高效的特征选择方法,将某些冗余或多余的特征剔除掉,剩下的特征将有利于提高分类器预测性能。具体地,特征选择是指依据某种特征评估方法作为判断特征优劣的标准,通过某种特征搜索算法将那些优秀的特征搜索出来的过程。根据特征评估方法不同,现有的特征选择方法可以划分为Filter(过滤)和Wrapper(封装)两大类。对于Filter方法,其特征评估方法主要依据特征与类标或特征之间的数理统计量,这些统计量有互信息量、皮尔逊相关系数等,搜索算法依据这些统计量,搜索出那些更为优秀的特征。对于Wrapper方法,其些特征评估方法基于有利于分类模型预测的特征作为优秀的特征。由于Wrapper方法在搜索过程中要完成训练分类器的过程,而Filter方法只是计算统计量,Wrapper方法比Filter方法慢很多。因此,本发明优选采用Filter方法,例如Rank、mRMR(minimum redundancy maximum relevance)或FCBF(fast correlation-based filter)特征选择方法。
过采样过程中,将小类样本的数量增加Mi个,欠采样过程中,将大类样本的数量减少Mi个,Mi的取值定义如下:
SM为子数据集中大类样本的数量,Sm为子数据集中小类样本的数量,T为迭代次数。
在每一次迭代中的特征选择过程中,每一次所减少的特征个数Ni为:
NM为子数据集的特征个数,Nn为最终选择特征个数。
在所述步骤S4中,将每个特征选择后的平衡子数据作为分类器(子分类器,也称弱分类器,下同)的训练数据训练分类器(C1,…,CK)。本发明采用的分类器可以是SVM(SupportVector Machine)分类器或kNN(k-Nearest Neighbor)分类器。训练SVM分类器是基于训练数据修正分类超平面的参数,使超平面更好的区分线性不可分数据。训练kNN分类器是当一个新数据进入分类器的时候,就开始跟训练数据里的每个点求距离,然后挑离这个训练数据最近的k个点看看这几个点属于什么类型,然后用少数服从多数的原则,给新数据归类。
在步骤S5中,根据步骤S4训练好的K个分类器,将每个分类器投票集成为最后的强分类器。投票的过程是,当一个新的测试数据进入强分类器分类的时候,先由每个子分类器预测,根据少数服从多数原则,大多数子分类器判定这个数据属于某一类,则最终预测其为该类。
即在所述步骤S5之后还包括:
当一个新的测试数据集进入到强分类器分类时,根据所述强分类器预测新的测试数据集中的数据分类。
基于上述方法,本发明还提供一种多类不平衡基因组学数据迭代集成特征选择系统,其包括:
分组模块,用于将多类不平衡基因组学数据分为K份具有两类样本的子数据集;
迭代模块,用于对于每份子数据集,使用过采样和欠采样的方法将两类样本的数量通过迭代的过程达到平衡,并在每一次迭代过程中进行特征选择,特征选择的数量随迭代过程逐渐减少到指定数量;
剔除模块,用于将特征选择过程中不需要的特征删除掉,得到特征选择后的平衡子数据;
训练模块,用于将每个特征选择后的平衡子数据作为分类器的训练数据训练对应的分类器;
投票模块,用于根据训练好的K个分类器,将每个分类器投票集成为最后的强分类器。
进一步,系统还包括:
分类模块,用于当一个新的测试数据集进入到强分类器分类时,根据所述强分类器预测新的测试数据集中的数据分类。
进一步,所述迭代模块中,过采样的方法为SMOTE过采样方法,欠采样的方法为随机欠采样。
本发明针对多类标基因组学数据存在数据分布不平衡的特点,提出了一种迭代式的特征选择方法,在一对多集成分类器的基础上,将欠采样或过采样和特征选择迭代运行,使子数据集的样本随着特征数量的递减,逐渐达到平衡状态。采用此过程集成后的分类器可以明显提高对小类样本的分类识别能力。由于采用集成学习技术,集成基于子平衡数据训练的弱分类器为强分类器,可以明显提高分类准确率。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (8)

1.一种多类不平衡基因组学数据迭代集成特征选择方法,其特征在于,包括步骤:
A、将多类不平衡基因组学数据分为K份具有两类样本的子数据集;
B、对于每份子数据集,使用过采样和欠采样的方法将两类样本的数量通过迭代的过程达到平衡,并在每一次迭代过程中进行特征选择,特征选择的数量随迭代过程逐渐减少到指定数量;
C、将特征选择过程中不需要的特征删除掉,得到特征选择后的平衡子数据;
D、将每个特征选择后的平衡子数据作为分类器的训练数据训练对应的分类器;
E、根据训练好的K个分类器,将每个分类器投票集成为最后的强分类器;
步骤B中,过采样过程中,将小类样本的数量增加Mi个,欠采样过程中,将大类样本的数量减少Mi个,Mi的取值定义如下:
<math display = 'block'> <mrow> <msub> <mi>M</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>S</mi> <mi>M</mi> </msub> <mo>&amp;minus;</mo> <msub> <mi>S</mi> <mi>m</mi> </msub> </mrow> <mi>T</mi> </mfrac> </mrow> </math>
SM为子数据集中大类样本的数量,Sm为子数据集中小类样本的数量,T为迭代次数;
在每一次迭代中的特征选择过程中,每一次所减少的特征个数Ni为:
<math display = 'block'> <mrow> <msub> <mi>N</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>N</mi> <mi>M</mi> </msub> <mo>&amp;minus;</mo> <msub> <mi>N</mi> <mi>n</mi> </msub> </mrow> <mi>T</mi> </mfrac> </mrow> </math>
NM为子数据集的特征个数,Nn为最终选择特征个数。
2.根据权利要求1所述的多类不平衡基因组学数据迭代集成特征选择方法,其特征在于,所述步骤B中,过采样的方法为SMOTE过采样方法,欠采样的方法为随机欠采样。
3.根据权利要求1所述的多类不平衡基因组学数据迭代集成特征选择方法,其特征在于,所述步骤B中,特征选择采用过滤方式实现。
4.根据权利要求1所述的多类不平衡基因组学数据迭代集成特征选择方法,其特征在于,所述步骤D中的分类器为SVM分类器或kNN分类器。
5.根据权利要求1所述的多类不平衡基因组学数据迭代集成特征选择方法,其特征在于,所述步骤E之后还包括:
当一个新的测试数据集进入到强分类器分类时,根据所述强分类器预测新的测试数据集中的数据分类。
6.一种多类不平衡基因组学数据迭代集成特征选择系统,其特征在于,包括:
分组模块,用于将多类不平衡基因组学数据分为K份具有两类样本的子数据集;
迭代模块,用于对于每份子数据集,使用过采样和欠采样的方法将两类样本的数量通过迭代的过程达到平衡,并在每一次迭代过程中进行特征选择,特征选择的数量随迭代过程逐渐减少到指定数量;
剔除模块,用于将特征选择过程中不需要的特征删除掉,得到特征选择后的平衡子数据;
训练模块,用于将每个特征选择后的平衡子数据作为分类器的训练数据训练对应的分类器;
投票模块,用于根据训练好的K个分类器,将每个分类器投票集成为最后的强分类器;
所述迭代模块中,过采样过程中,将小类样本的数量增加Mi个,欠采样过程中,将大类样本的数量减少Mi个,Mi的取值定义如下:
<math display = 'block'> <mrow> <msub> <mi>M</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>S</mi> <mi>M</mi> </msub> <mo>&amp;minus;</mo> <msub> <mi>S</mi> <mi>m</mi> </msub> </mrow> <mi>T</mi> </mfrac> </mrow> </math>
SM为子数据集中大类样本的数量,Sm为子数据集中小类样本的数量,T为迭代次数;
在每一次迭代中的特征选择过程中,每一次所减少的特征个数Ni为:
<math display = 'block'> <mrow> <msub> <mi>N</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>N</mi> <mi>M</mi> </msub> <mo>&amp;minus;</mo> <msub> <mi>N</mi> <mi>n</mi> </msub> </mrow> <mi>T</mi> </mfrac> </mrow> </math>
NM为子数据集的特征个数,Nn为最终选择特征个数。
7.根据权利要求6所述的多类不平衡基因组学数据迭代集成特征选择系统,其特征在于,还包括:
分类模块,用于当一个新的测试数据集进入到强分类器分类时,根据所述强分类器预测新的测试数据集中的数据分类。
8.根据权利要求6所述的多类不平衡基因组学数据迭代集成特征选择系统,其特征在于,所述迭代模块中,过采样的方法为SMOTE过采样方法,欠采样的方法为随机欠采样。
CN201510925559.XA 2015-12-14 2015-12-14 多类不平衡基因组学数据迭代集成特征选择方法及系统 Expired - Fee Related CN105389480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510925559.XA CN105389480B (zh) 2015-12-14 2015-12-14 多类不平衡基因组学数据迭代集成特征选择方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510925559.XA CN105389480B (zh) 2015-12-14 2015-12-14 多类不平衡基因组学数据迭代集成特征选择方法及系统

Publications (2)

Publication Number Publication Date
CN105389480A CN105389480A (zh) 2016-03-09
CN105389480B true CN105389480B (zh) 2018-03-02

Family

ID=55421760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510925559.XA Expired - Fee Related CN105389480B (zh) 2015-12-14 2015-12-14 多类不平衡基因组学数据迭代集成特征选择方法及系统

Country Status (1)

Country Link
CN (1) CN105389480B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203891A (zh) 2016-03-17 2017-09-26 阿里巴巴集团控股有限公司 一种自动多阀值特征过滤方法及装置
CN107301562A (zh) * 2017-05-16 2017-10-27 重庆邮电大学 一种o2o优惠券使用大数据预测方法
CN107195020A (zh) * 2017-05-25 2017-09-22 清华大学 一种面向列车自动驾驶模式学习的列车运行记录数据处理方法
CN108805181B (zh) * 2018-05-25 2021-11-23 深圳大学 一种基于多分类模型的图像分类装置及分类方法
CN108846254B (zh) * 2018-06-27 2021-08-24 哈尔滨工业大学(深圳) 一种二阶代谢质谱多化合物检测方法、存储介质及服务器
CN109816028A (zh) * 2019-01-18 2019-05-28 创新奇智(南京)科技有限公司 一种部分特征迁移的非平衡数据集分类模型融合方法
CN110045197B (zh) * 2019-02-27 2022-12-13 国网福建省电力有限公司 一种配网故障预警方法
CN111695626B (zh) * 2020-06-10 2023-10-31 湖南湖大金科科技发展有限公司 基于混合采样与特征选择的高维度不平衡数据分类方法
CN112560900B (zh) * 2020-09-08 2023-01-20 同济大学 一种面向样本不均衡的多疾病分类器设计方法
CN112733960B (zh) * 2021-01-25 2023-06-20 大连交通大学 一种基于人工合成数据过采样技术的不平衡物体识别方法
CN115527614B (zh) * 2022-04-12 2023-12-26 陈恩国 一种肺动脉高压的基因表达分类器
CN116030032A (zh) * 2023-02-16 2023-04-28 四川省肿瘤医院 基于拉曼光谱数据的乳腺癌分析设备、系统及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"一种基于欠采样的不平衡数据分类算法";程险峰等;《计算机工程》;20110731;第37卷(第13期);第147-149页 *
"不平衡情感分类中的特征选择方法研究";王志昊等;《中文信息学报》;20130731;第27卷(第4期);第113-118页 *
"基于不平衡数据的中文情感分类";王中卿等;《中文信息学报》;20120531;第26卷(第3期);第33-37页 *
"基于主动学习SMOTE的非均衡数据分类";张永等;《计算机应用与软件》;20120331;第29卷(第3期);第91-93、162页 *
"基于混合采样的非平衡数据集分类研究";古平等;《计算机应用研究》;20150228;第32卷(第2期);第379-381、418页 *

Also Published As

Publication number Publication date
CN105389480A (zh) 2016-03-09

Similar Documents

Publication Publication Date Title
CN105389480B (zh) 多类不平衡基因组学数据迭代集成特征选择方法及系统
CN103632168B (zh) 一种机器学习中的分类器集成方法
CN109388712A (zh) 一种基于机器学习的行业分类方法及终端设备
CN107766929B (zh) 模型分析方法及装置
CN105069470A (zh) 分类模型训练方法及装置
CN106248559A (zh) 一种基于深度学习的白细胞五分类方法
CN107451597A (zh) 一种样本类别标签纠正方法及装置
CN101871994B (zh) 多分数阶信息融合的模拟电路故障诊断方法
CN111343147B (zh) 一种基于深度学习的网络攻击检测装置及方法
Carstens et al. A global analysis of bats using automated comparative phylogeography uncovers a surprising impact of Pleistocene glaciation
CN106843941A (zh) 信息处理方法、装置和计算机设备
CN107194207A (zh) 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法
CN110826624A (zh) 一种基于深度强化学习的时间序列分类方法
CN110009045A (zh) 物联网终端的识别方法和装置
CN109308564A (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN113516228A (zh) 一种基于深度神经网络的网络异常检测方法
Shoohi et al. DCGAN for Handling Imbalanced Malaria Dataset based on Over-Sampling Technique and using CNN.
CN106570537A (zh) 一种基于混淆矩阵的随机森林模型选择方法
CN103473416A (zh) 蛋白质相互作用的模型建立方法和装置
CN109448842B (zh) 人体肠道微生态失衡的确定方法、装置及电子设备
CN104615910A (zh) 基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法
CN103310126A (zh) 分类模型的建立方法及装置
CN103310205A (zh) 一种手写体数字识别方法及装置
CN110929301B (zh) 一种基于提升算法的硬件木马检测方法
CN104468276B (zh) 基于随机抽样多分类器的网络流量识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180302

Termination date: 20181214

CF01 Termination of patent right due to non-payment of annual fee