CN113535694A - 一种基于Stacking框架的特征选择方法 - Google Patents
一种基于Stacking框架的特征选择方法 Download PDFInfo
- Publication number
- CN113535694A CN113535694A CN202110679793.4A CN202110679793A CN113535694A CN 113535694 A CN113535694 A CN 113535694A CN 202110679793 A CN202110679793 A CN 202110679793A CN 113535694 A CN113535694 A CN 113535694A
- Authority
- CN
- China
- Prior art keywords
- model
- learner
- feature
- characteristic
- stacking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims abstract description 23
- 238000012706 support-vector machine Methods 0.000 claims abstract description 13
- 238000002790 cross-validation Methods 0.000 claims abstract description 11
- 238000007477 logistic regression Methods 0.000 claims abstract description 10
- 238000010845 search algorithm Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000003745 diagnosis Methods 0.000 claims description 16
- 201000010099 disease Diseases 0.000 claims description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 description 10
- 208000019622 heart disease Diseases 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000002526 effect on cardiovascular system Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 208000029078 coronary artery disease Diseases 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 208000020446 Cardiac disease Diseases 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 235000021110 pickles Nutrition 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Pathology (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Quality & Reliability (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于Stacking框架的特征选择方法,使用K‑Fold交叉验证方式训练并保存DNN、SVM基学习器,基学习器预测结果作为元学习器输入,训练并保存逻辑回归学习模型;综合分析全连接神经网络权重矩阵、支持向量机相关系数,根据元学习器模型学习结果为各基学习器赋予不同权重,计算各特征影响因子并调用序列后向搜索算法(SBS)生成最优特征子集。实验结果表明本发明公开的方法能够减少模型训练时间,提升模型的召回率、F1值。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于Stacking框架的特征选择方法。
背景技术
特征选择是通过计算源数据中每个特征对最终模型输出结果的影响因子来进行选择与过滤,其主要用于数据高维特征空间的降维处理,来解决“维度灾难”问题。由于在众多研究领域的模型训练中,均能通过特征选择来降低源数据高维信息的语义矩阵维度,从而减少模型复杂度,达到缩短模型训练时间、降低训练成本的目的,因此,特征选择算法在学术界和行业得到广泛关注。例如在疾病诊断应用上,通常使用特征选择方法生成原始数据特征空间最优的特征子集,然后使用最优特征子集来判断一位就诊人员是否有患心脏病的风险。心脏病诊断的准确性和效率由所选择的特征子集和分类器决定。如果模型特征过多、复杂度高,诊断的准确率和效率就会降低。
传统的特征选择方法主要包括主成分分析法(PCA)、TF-IDF、互信息等。丁雪梅等使用调整的余弦相似度来度量特征间的相关性,提出一种基于Relief的无监督特征选择方法。高宝林等对传统CHI进行改进,引入类内和类间分布因子来降低特征词在类间均匀分布时对分类带来的负贡献并将其应用微博情感分析。周传华等特征相关性和分类能力两个方面对特征进行综合度量,调用序列前向选择来删除冗余特征并用实验证明其有效性。胡峰等动态地将原始特征集划分为若干个特征子空间,提出了一种基于特征聚类的封装式特征选择算法并证明该算法可提升分类器性能。陈谌等提出一种基于随机森林Gini指标和卡方检验的最优特征子集的特征选择方法并应用于支持向量机算法模型中,解决了传统机器学习分类算法在非平衡数据集上准确率降低的问题。雷海锐等提出一种基于filter-wrapper模型的混合式特征选择方法并通过实验证明了该方法选择的特征子集具有更好的分类能力。Chen等针对高维数据提出一种SFR特征选择方法,该方法首先进行子空间特征聚类来判别每个特征对每个类别重要性,然后使用分层特征加权方法对特征排序。Kewen Li等针对正负样本不均衡数据集提出一种加权互信息的WMI特征选择方法,该方法使用模糊C均值聚类为样本分配不同权重,根据权重计算互信息,最后用NASA四个不均衡数据来验证WMI方法有效性。
综上,现有特征选择算法通过分析单个特征信息增益(IG)、平均下降Gini指数等指标来衡量该特征与学习目标相关性,根据相关性大小来过滤冗余特征,没有考虑模型训练时源数据高维语义矩阵线性变换和非线性变换过程中不同维度间相互影响的关系。
发明内容
针对上述存在的问题,本发明提供一种基于Stacking框架的特征选择方法,结合Stacking学习模型能够融合多个机器学习模型的优势,利用序列后向搜索的特征选择算法通过综合分析多个学习模型训练过程中生成的学习参数并做加权处理,能够更细粒度地提取和分析源数据特征空间中每个特征影响因子大小。
实现本发明目的的技术解决方案为:
一种基于Stacking框架的特征选择方法,其特征在于,包括以下步骤:
步骤1:对输入的疾病数据进行清洗,分析各特征维度数据缺失情况并进行填充,并对数据进行标准化处理,得到更加规范的用于机器学习的数据集;
步骤2:使用K-Fold交叉验证方式训练Stacking集成学习模型,并将步骤1得到的数据集输入到所述Stacking集成学习模型中进行训练,得到特征因子影响矩阵;
步骤3:利用特征选择算法对所述特征因子影响矩阵进行选择,不断迭代删除冗余特征,最终输出分类器全局最高精确率和所对应的最优特征子集;
步骤4:根据步骤3得到的最优特征子集构建基于Stacking框架的疾病诊断模型。
进一步地,步骤2中所述的Stacking集成学习模型分为两层架构:第一层组合不同的基学习器,包括全连接神经网络和支持向量机;第二层为元学习器,其采用逻辑回归LR,且元学习器以第一层的预测结果作为元学习器的输入,并对最终的结果进行预测,模型构建过程中,为了减少过拟合,利用K-Fold方法交叉训练基学习器。
进一步地,步骤3的具体操作步骤包括:
步骤31:利用基学习器中的全连接神经网络模型对特征集中的特征进行分析得到权重矩阵;
步骤32:利用基学习器中的支持向量机模型对特征集中的特征进行分析得到特征系数;
步骤33:利用元学习器LR模型分析回归系数,得到回归系数矩阵,根据回归系数矩阵为各基学习器影响因子赋予权重,对基学习器各特征影响因子加权求和,得到特征因子影响矩阵;
步骤34:采用序列后向搜索算法进行特征选择,最终输出最大精确率以及与其相对应的最优特征子集。
本方法与现有技术相比,具有以下有益效果:
本发明提出了一种新型的基于Stacking框架的和序列后向搜索的特征选择方法,使用K-Fold交叉验证方法构建Stacking集成学习模型,通过加权求和得到各特征影响因子,再调用序列后向搜索算法,通过迭代计算依次删除影响因子最小的一个特征并生成最优特征子集。实验结果表明基于本发明提出的Stacking特征选择方法构建的疾病诊断模型的性能明显优于各基学习器独立训练的性能,本发明所提出的特征选择方法能够提升模型召回率、F1值,利用本发明方法构建出的疾病诊断模型能够有效提高诊断的准确率和效率。
附图说明
图1为特征选择流程;
图2为Stacking框架;
图3为本发明提出的Stacking-SBS方法框架图;
图4为本发明中的特征选择模块的框架图;
图5为实施例中得到的各特征维度影响因子;
具体实施方式
为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。
特征选择是指将高维空间的样本通过映射或者是变换的方式转换到低维空间,以避免“维度灾难”问题。首先从特征全集开始按搜索策略产生一个特征子集,运用评价函数对该特征子集进行评估,将评价结果与停止准则进行比较,如果满足则输出最优特征子集,否则产生下一组特征子集继续进行特征选择,特征选择的流程如附图1所示。
本发明提出的基于Stacking框架的特征选择方法,通过构建并综合分析Stacking框架学习参数对原数据特征空间各维度进行重要性度量,采用序列后向搜索(SBS)策略生成最优特征子集,参考附图3可知本发明的方法包括如下步骤:
步骤1:对输入的疾病数据进行清洗,分析各特征维度数据缺失情况并进行填充,并对数据进行标准化处理,得到更加规范的用于机器学习的数据集;
步骤2:使用K-Fold交叉验证方式构建Stacking集成学习模型,并将步骤1得到的数据集输入到所述模型中进行训练,得到特征因子影响矩阵;
步骤3:利用特征选择算法对特征因子影响矩阵进行选择,不断迭代删除冗余特征,最终输出分类器全局最高精确率和所对应的最优特征子集;
步骤4:以得到的最优特征子集构建基于Stacking框架的疾病诊断模型。进一步地,步骤2中所述的Stacking集成学习模型,Stacking是一种分层模型集成框架,由基学习器(base-learner)和元学习器(meta-learner)组成,其框架如附图2所示。具体地,其两层架构为:
第一层组合不同的基学习器,包括全连接神经网络和支持向量机;第二层为元学习器,其采用逻辑回归LR,且元学习器以第一层的预测结果作为元学习器的输入,并对最终的结果进行预测,模型构建过程中,为了减少过拟合,利用K-Fold方法交叉训练基学习器;
进一步地,所述K-Fold交叉验证(k-fold cross validation)是机器学习划分数据集和验证集的一种方法,其主要思想为:将全部数据集分成k个不相交的子集,即K折。假设S中的训练样例个数为m,那么每一个子集有m/k个训练样例,相应的子集称作{s1,s2,...,sk};每次从分好的子集中取一个作为测试集,其它k-1个作为训练集;取k次模型在测试集上精确率的平均值作为该模型k折交叉验证的精确率;
本发明使用K-Fold交叉验证方式构建Stacking集成学习模型的算法如算法2所示。
进一步地,本发明先构建Stacking集成学习模型,然后分别加载各学习器并分析训练参数进行特征重要性度量,通过分析计算DNN训练过程中的权值矩阵得到DNN中各特征影响因子({α1,α2,...,αn,}),根据SVM特征相关系数计算得到SVM中各特征影响因子({β1,β2,...,βn}),使用元学习器LR模型分析回归系数,得到回归系数({μ1,μ2,...,μn}),通过如下公式计算得到各特征影响因子(wi):
Wi=μ1*ax+μ2*β2+...+μn*βn
对基学习器各特征影响因子加权求和,得到特征因子影响矩阵,采用序列后向搜索算法(SBS)生成最优特征子集,特征选择框架如附图4所示,其具体操作步骤为:
步骤31:利用基学习器中的全连接神经网络模型对特征集中的特征进行分析得到权重矩阵;
步骤32:利用基学习器中的支持向量机模型对特征集中的特征进行分析得到特征系数;
步骤33:利用元学习器LR模型分析回归系数,得到回归系数矩阵,根据回归系数矩阵为各基学习器影响因子赋予权重,对基学习器各特征影响因子加权求和,得到特征因子影响矩阵;
步骤34:采用序列后向搜索算法SBS生成最优特征子集。
进一步地,所述序列后向搜索是一种启发式的特征子空间搜索算法,从特征全集(未进行特征选择前Stacking模型学习参数得到的全部特征)开始,每次从特征集删除一个特征,重复该过程使得删除特征后评价函数值达到最优,本发明中的评价函数使用分类器精确度。其具体过程如算法1所示(N为原数据特征空间中属性个数):
算法1序列后向搜索算法
由上可以看出,本发明中的序列后向搜索算法输入为特征空间全集和最大准确率。在迭代过程中,如果将其中一个特征删除后,评价函数值优于删除前,则删除该冗余特征,算法输出为最大精确率和与之对应的最优子集。
实施例
本发明通过构建Stacking学习模型并综合分析训练过程中保存的学习参数得到特征空间中各维度影响因子,调用序列后向搜索方法生成最优特征子集,用最优特征子集重新构建Stacking模型并进行特征选择前后性能对比分析。
1、实验环境
在Windows环境下应用Python、pycharm等语言工具构建基于Stacking框架疾病诊断模型并调用特征选择算法进行对比分析。
2、实验数据
采用网上某镇居民心脏病研究公开数据集,原始数据特征空间包含患者年龄、教育程度、血糖值、心率、BMI等15种特征属性,分类目标是预测患者未来10年内是否有患冠心病(CHD)风险。为便于实验分析,本实验调用sklearn和pandas相关库对数据进行清洗,分析各特征维度数据缺失情况并进行填充,然后对数据进行标准化并存储为numpy文件。
3、评价方法
为了充分验证本发明提出的特征选择方法,采用精确率(precision,见公式1)、召回率(recall,见公式2)、F1值(见公式3)3个指标来评估诊断本方法的性能。
(1)精确率
其中,TP、FP分别表示真正例和假正例。
(2)召回率
其中,FN为真反例。
(3)F1值
本发明采用心脏病研究公开数据集构建基于Stacking框架的疾病诊断模型,Stacking模型基学习器采用全连接神经网络(DNN)、支持向量机(SVM),元学习器采用逻辑回归(LR),K-Fold交叉验证过程K设置为5。DNN和SVM在测试集上性能评估结果如表1所示,Stacking框架学习模型与基学习器性能对比如表2所列(基学习器5次性能评估结果均值作为该学习器最终性能评估结果)。
表1 Stacking框架基学习器5折交叉验证过程性能
表2 Stacking框架与基学习器疾病诊断模型性能对比
对比分析表1和表2可知,与各基学习器独立训练结果相比,基于Stacking框架的疾病诊断模型precision提升了7%左右,recall最多提升了3%,F1值最多提升了5%左右,进而说明Stacking学习框架能够显著提升疾病诊断模型性能。
当Stacking模型构建完成后,再调用pickle库加载K-Fold交叉验证过程中生成的各基学习器模型,综合分析各基学习器训练过程中生成的学习参数并将其归一化,基学习器各特征影响因子加权求和得到该特征最终特征影响因子,各特征影响因子如附图5所示,其中横坐标代表特征序号,纵坐标代表该特征影响因子。在得到特征空间中各维度特征影响因子后,调用序列后向搜索(SBS)算法依次删除影响因子最低的一个特征并生成最优特征子集,本实验最终特征选择情况如表3所列,特征选择前后Stacking模型诊断性能对比如表4所列。
表3特征选择结果
表4特征选择前后Stacking模型诊断性能
分析表4可知,使用最优特征子集构建的疾病诊断模型recall和F1指标均有提升,其中recall提升了4%,F1值提升了3%。此外,特征选择后训练Stacking模型时间约减少了16%,这说明本发明提出的特征选择算法不仅能够提升模型性能,也能够减少模型运行时间成本。
为了进一步验证本文方法的有效性,基于Kaggle网站上心脏病研究公开数集,分别调用IG、Chi、CFS、Stacking-SBS四种特征选择方法删除冗余特征,使用最优特征子集重新构建特征空间并训练Stacking学习模型,4种特征选择方法在心脏病数集上实验对比如表5所列。
表5不同种特征选择方法诊断模型的性能
从表5可以看出,与其他三种特征选择方法相比,本发明所提出的Stacking-SBS特征方法模型诊断性能明显提升,其中precision较IG低于2%,较Chi和CFS提升了6%,recall提升了3%~6%,F1值提升了5%~6%,这说明本方法较其他三种特征方法在特征选择性能提升方面更优。
最后采用Kaggle网站上心血管研究公开数据集来验证本文方法的泛化能力,实验结果如表6所列。
表6心血管数据集上特征选择前后模型诊断性能
从表6可以看出,本文方法在心血管数据集上也有着很好的表现,删除冗余特征后模型recall提升了6%,F1值提升了3%,这说明Stacking-SBS特征选择方法有较好的泛化能力。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管参照前述实施例对本发明专利进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于Stacking框架的特征选择方法,其特征在于,包括以下步骤:
步骤1:对输入的疾病数据进行清洗,分析各特征维度数据缺失情况并进行填充,并对数据进行标准化处理,得到更加规范的用于机器学习的数据集;
步骤2:使用K-Fold交叉验证方式训练Stacking集成学习模型,并将步骤1得到的数据集输入到所述Stacking集成学习模型中进行训练,得到特征因子影响矩阵;
步骤3:利用特征选择算法对所述特征因子影响矩阵进行选择,不断迭代删除冗余特征,最终输出分类器全局最高精确率和所对应的最优特征子集;
步骤4:根据步骤3得到的最优特征子集构建基于Stacking框架的疾病诊断模型。
2.根据权利要求1所述的一种基于Stacking框架的特征选择方法,其特征在于,步骤2中所述的Stacking集成学习模型分为两层架构:第一层组合不同的基学习器,包括全连接神经网络和支持向量机;第二层为元学习器,其采用逻辑回归LR,且元学习器以第一层的预测结果作为元学习器的输入,并对最终的结果进行预测,模型构建过程中,为了减少过拟合,利用K-Fold方法交叉训练基学习器。
3.根据权利要求1所述的一种基于Stacking框架的特征选择方法,其特征在于,步骤3的具体操作步骤包括:
步骤31:利用基学习器中的全连接神经网络模型对特征集中的特征进行分析得到权重矩阵;
步骤32:利用基学习器中的支持向量机模型对特征集中的特征进行分析得到特征系数;
步骤33:利用元学习器LR模型分析回归系数,得到回归系数矩阵,根据回归系数矩阵为各基学习器影响因子赋予权重,对基学习器各特征影响因子加权求和,得到特征因子影响矩阵;
步骤34:采用序列后向搜索算法进行特征选择,最终输出最大精确率以及与其相对应的最优特征子集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110679793.4A CN113535694A (zh) | 2021-06-18 | 2021-06-18 | 一种基于Stacking框架的特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110679793.4A CN113535694A (zh) | 2021-06-18 | 2021-06-18 | 一种基于Stacking框架的特征选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113535694A true CN113535694A (zh) | 2021-10-22 |
Family
ID=78125177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110679793.4A Pending CN113535694A (zh) | 2021-06-18 | 2021-06-18 | 一种基于Stacking框架的特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535694A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724715A (zh) * | 2022-04-12 | 2022-07-08 | 南京邮电大学 | 一种基于最优auc的多机器学习模型特征选择方法 |
CN114881206A (zh) * | 2022-04-21 | 2022-08-09 | 北京航空航天大学 | 一种通用神经网络蒸馏公式方法 |
CN115454988A (zh) * | 2022-09-27 | 2022-12-09 | 哈尔滨工业大学 | 基于随机森林网络的卫星电源系统缺失数据补全方法 |
CN115985503A (zh) * | 2023-03-20 | 2023-04-18 | 西南石油大学 | 基于集成学习的癌症预测系统 |
CN116226629A (zh) * | 2022-11-01 | 2023-06-06 | 内蒙古卫数数据科技有限公司 | 一种基于特征贡献的多模型特征选择方法及系统 |
CN116631516A (zh) * | 2023-05-06 | 2023-08-22 | 海南大学 | 基于混合特征模型和提升模型集成的抗结核肽预测系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100332430A1 (en) * | 2009-06-30 | 2010-12-30 | Dow Agrosciences Llc | Application of machine learning methods for mining association rules in plant and animal data sets containing molecular genetic markers, followed by classification or prediction utilizing features created from these association rules |
CN107507038A (zh) * | 2017-09-01 | 2017-12-22 | 美林数据技术股份有限公司 | 一种基于stacking和bagging算法的电费敏感用户分析方法 |
CN110247910A (zh) * | 2019-06-13 | 2019-09-17 | 深信服科技股份有限公司 | 一种异常流量的检测方法、系统及相关组件 |
CN110881969A (zh) * | 2019-11-27 | 2020-03-17 | 太原理工大学 | 一种基于Stacking集成学习的心力衰竭预警方法 |
CN112185555A (zh) * | 2020-09-10 | 2021-01-05 | 北京工业大学 | 基于stacking算法的妊娠糖尿病预测方法 |
CN112418538A (zh) * | 2020-11-30 | 2021-02-26 | 武汉科技大学 | 一种基于随机森林分类的连铸坯夹杂预测方法 |
CN112901183A (zh) * | 2021-03-15 | 2021-06-04 | 汕头大学 | 一种基于机器学习的盾构施工过程地质特征确定方法 |
-
2021
- 2021-06-18 CN CN202110679793.4A patent/CN113535694A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100332430A1 (en) * | 2009-06-30 | 2010-12-30 | Dow Agrosciences Llc | Application of machine learning methods for mining association rules in plant and animal data sets containing molecular genetic markers, followed by classification or prediction utilizing features created from these association rules |
CN107507038A (zh) * | 2017-09-01 | 2017-12-22 | 美林数据技术股份有限公司 | 一种基于stacking和bagging算法的电费敏感用户分析方法 |
CN110247910A (zh) * | 2019-06-13 | 2019-09-17 | 深信服科技股份有限公司 | 一种异常流量的检测方法、系统及相关组件 |
CN110881969A (zh) * | 2019-11-27 | 2020-03-17 | 太原理工大学 | 一种基于Stacking集成学习的心力衰竭预警方法 |
CN112185555A (zh) * | 2020-09-10 | 2021-01-05 | 北京工业大学 | 基于stacking算法的妊娠糖尿病预测方法 |
CN112418538A (zh) * | 2020-11-30 | 2021-02-26 | 武汉科技大学 | 一种基于随机森林分类的连铸坯夹杂预测方法 |
CN112901183A (zh) * | 2021-03-15 | 2021-06-04 | 汕头大学 | 一种基于机器学习的盾构施工过程地质特征确定方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724715A (zh) * | 2022-04-12 | 2022-07-08 | 南京邮电大学 | 一种基于最优auc的多机器学习模型特征选择方法 |
CN114881206A (zh) * | 2022-04-21 | 2022-08-09 | 北京航空航天大学 | 一种通用神经网络蒸馏公式方法 |
CN114881206B (zh) * | 2022-04-21 | 2024-05-28 | 北京航空航天大学 | 一种通用神经网络蒸馏公式方法 |
CN115454988A (zh) * | 2022-09-27 | 2022-12-09 | 哈尔滨工业大学 | 基于随机森林网络的卫星电源系统缺失数据补全方法 |
CN115454988B (zh) * | 2022-09-27 | 2023-05-23 | 哈尔滨工业大学 | 基于随机森林网络的卫星电源系统缺失数据补全方法 |
CN116226629A (zh) * | 2022-11-01 | 2023-06-06 | 内蒙古卫数数据科技有限公司 | 一种基于特征贡献的多模型特征选择方法及系统 |
CN116226629B (zh) * | 2022-11-01 | 2024-03-22 | 内蒙古卫数数据科技有限公司 | 一种基于特征贡献的多模型特征选择方法及系统 |
CN115985503A (zh) * | 2023-03-20 | 2023-04-18 | 西南石油大学 | 基于集成学习的癌症预测系统 |
CN115985503B (zh) * | 2023-03-20 | 2023-07-21 | 西南石油大学 | 基于集成学习的癌症预测系统 |
CN116631516A (zh) * | 2023-05-06 | 2023-08-22 | 海南大学 | 基于混合特征模型和提升模型集成的抗结核肽预测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113535694A (zh) | 一种基于Stacking框架的特征选择方法 | |
Misra et al. | Improving the classification accuracy using recursive feature elimination with cross-validation | |
CN109036553B (zh) | 一种基于自动抽取医疗专家知识的疾病预测方法 | |
Lucca et al. | CC-integrals: Choquet-like copula-based aggregation functions and its application in fuzzy rule-based classification systems | |
Aslam et al. | Feature generation using genetic programming with comparative partner selection for diabetes classification | |
Peter et al. | Study and development of novel feature selection framework for heart disease prediction | |
Pillai et al. | Prediction of heart disease using rnn algorithm | |
Chamlal et al. | A hybrid feature selection approach for microarray datasets using graph theoretic-based method | |
Manur et al. | A prediction technique for heart disease based on long Short term memory recurrent neural network | |
CN115186798A (zh) | 基于知识蒸馏的再生tsk模糊分类器 | |
Li et al. | Multilevel risk prediction of cardiovascular disease based on Adaboost+ RF ensemble learning | |
Singh et al. | Hybrid approach for gene selection and classification using filter and genetic algorithm | |
Morovvat et al. | An ensemble of filters and wrappers for microarray data classification | |
Balamurugan et al. | An integrated approach to performance measurement, analysis, improvements and knowledge management in healthcare sector | |
Wang et al. | Early diagnosis of Parkinson's disease with Speech Pronunciation features based on XGBoost model | |
Swetha et al. | Leveraging Scalable Classifier Mining for Improved Heart Disease Diagnosis | |
Muthulakshmi et al. | Prediction of Heart Disease using Ensemble Learning | |
Theodorou et al. | Synthesize extremely high-dimensional longitudinal electronic health records via hierarchical autoregressive language model | |
Tasnim et al. | Comparative Performance Analysis of Feature Selection for Mortality Prediction in ICU with Explainable Artificial Intelligence | |
Alajlan | Model-based approach for anEarly diabetes PredicationUsing machine learning algorithms | |
Wu et al. | Tree enhanced deep adaptive network for cancer prediction with high dimension low sample size microarray data | |
Ocheme et al. | A deep neural network approach for cancer types classification using gene selection | |
Sree et al. | A Comprehensive Analysis on Risk Prediction of Heart Disease using Machine Learning Models | |
Jindal et al. | Design and Development of Cardiovascular Disease Prediction System Using Voting Classifier | |
Bahaj | Advanced Cardiovascular Disease Diagnosis with Machine Learning: Exploring KBest, t-SNE, Grid Search, and Ensemble Methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211022 |