CN110189799B - 基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法 - Google Patents
基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法 Download PDFInfo
- Publication number
- CN110189799B CN110189799B CN201910417875.4A CN201910417875A CN110189799B CN 110189799 B CN110189799 B CN 110189799B CN 201910417875 A CN201910417875 A CN 201910417875A CN 110189799 B CN110189799 B CN 110189799B
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- variable
- calculating
- metagenome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Public Health (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Genetics & Genomics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
Abstract
本发明公开了一种基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法,1、对于一个输入的宏基因组分类可操作单元数据集,使用对称不确定性计算每个微生物特征与样本表现型的相关性,依据相关性得分筛选特征,生成子数据集;2、以有放回抽样方式对子数据集进行采样,然后使用变量重要性评分选择前k个特征,迭代上述步骤,迭代完成后统计每个特征的出现次数;3、使用奈曼皮尔逊检验方法计算给定参数下的阈值,筛选出现次数大于阈值的特征作为候选特征集合,出现次数最多的前k个特征为目标特征子集;本发明所提取的宏基因特征显著提高了分类效果,具有更高的稳定性,生成的候选特征集合方便了宏基因组后续医学实验的开展。
Description
技术领域
本发明属于宏基因组丰度数据分析领域,具体涉及一种基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法。
背景技术
宏基因组丰度数据分析的核心问题是从大量微生物中有效识别出少量对表现型有潜在影响的微生物,广泛应用于医学、生物学、环境学和食品学等学科。宏基因组数据集包含的微生物种类繁多,直接研究所有微生物对表现型的影响所需工作量大,因此需要借助其他方法去除原始数据集的噪声,留下对表现型有潜在影响的微生物,即宏基因组数据的特征选择。
为了有效识别关键微生物,领域内通常采用的方法是线性判别分析方法计算特征的效应量,即LEfSe方法。该方法使用效应量可以快速找到样本不同组之间均值差异大的关键微生物,对于区分度较好的数据集具有良好的效果,但还存在明显的缺陷,不能用于非高斯分布和样本分类信息依赖于方差的数据集,欠缺特征之间的相关性分析,这也是宏基因组比较分析研究中的难点。随机森林的变量重要性评分可以从具有复杂关系的宏基因组特征之间有效识别出关键的特征,在宏基因组微生物特征选择中备受青睐。但宏基因组丰度数据包含大量的无关特征,随机森林的特征重要性评分容易受噪声影响。基于奈曼皮尔逊检验的特征选择方法不仅具备基特征选择方法的优点,而且可以将微生物按照等级进行划分,便于下一阶段医学验证实验的开展。
发明内容
本发明针对上述问题,提出了一个基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法,该方法对于输入的宏基因组数据集,首先采用对称不确定性进行相关性分析,过滤与样本类别无关的特征,生成子数据集;然后以有放回抽样方式对子数据进行采样,对采样后的数据集进行随机森林建模,依据随机森林的变量重要性评分筛选前k个特征,迭代上述步骤,迭代完成后统计个特征的出现次数;最后使用奈曼皮尔逊检验计算阈值作为最小的出现次数,筛选出现次数大于阈值的特征作为候选特征集合,选择出现次数最多的特征作为前k个特征。本方法筛选的宏基因特征显著提高了分类效果,具有更高的稳定性,生成的候选特征集合方便了宏基因组后续医学实验的开展。
为达到上述目的,本发明采用如下技术方案:
一种基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法,包括如下步骤:
步骤A:对于一个输入的宏基因组分类可操作单元数据集,使用对称不确定性计算每个微生物特征与样本表现型的相关性,按照大小排序,依据初筛特征数目选择特征子集,生成原始数据的子数据集用于后续步骤分析;
步骤B:首先以有放回抽样方式对子数据集进行采样,然后计算随机森林的变量重要性评分,按照重要性评分大小进行排序,选择评分最大的前k个特征,迭代上述步骤,迭代完成后统计每个特征的出现次数;
步骤C:依据样本大小、迭代次数和特征选择数目等参数,使用奈曼皮尔逊检验方法计算阈值,筛选出现次数大于阈值的特征作为特征集合,其中出现次数最多的前k个特征为最终筛选的特征。
所述步骤A的具体步骤如下:
步骤A01:对于宏基因组分类可操作单元数据集中的一个特征,首先计算特征的熵,公式为式中X为任一特征变量,P(xi)为X取值xi时的先验概率,H(X)为特征变量X的熵;然后计算在已知样本类别下的条件熵,公式为:式中X为任一特征变量,Y为样本样本类别,P(yj)为Y取值yj时的先验概率,P(xi|yj)为已知类别Y取值yj下X取值xi时的先验概率,H(X|Y)为已知样本类别Y下的条件熵;最后计算特征的对称不确定性SU(X,Y),公式为:式中X为任一特征变量,Y为样本类别,H(X)为特征变量X的熵,H(Y)为样本类别的熵,H(X|Y)为已知样本类别Y下的条件熵;步骤A02:依据步骤A01计算所有特征的对称不确定性,按照大小排序,然后选择初筛特征数目要求的特征集合,生成子数据集用于后续步骤分析。
所述步骤B的具体步骤如下:
步骤B01:以有放回抽样方式对子数据集进行采样,生成与数据集样本数量等同的采样数据集;
步骤B02:以随机森林为分类器,对采样数据集进行数据建模,得到每个变量的重要性评分,依据评分大小选择前k个特征,变量重要性评分衡量标准为变量置换计算所得的袋外数据错误率,公式如下:式中为第i个特征的变量重要性评分,M为随机森林决策树个数,ERim为第i个特征在第m棵决策树上的错误率,ER′im为变量置换后的错误率;步骤B03:迭代步骤B01和B02,记录每次迭代筛选的特征,达到循环次数后,统计各个特征的出现次数。
所述步骤C的具体步骤如下:
步骤C01:依据样本大小、迭代次数和特征选择数目,每一次迭代均作为一次独立的伯努利试验,得到随机变量的二项分布概率累积分布的反函数,然后使用奈曼皮尔逊检验计算阈值,公式如下:P(τ>ξcrit′″|H0)=1-P(τ≤ξcrit′″|H0)=α,式中P为二项分布概率,τ为特征出现次数,H0为特征变量随机出现的原假设,a为接受原假设的检验统计量,ξ′″crit为所求阈值;
步骤C02:依据计算所得的阈值,筛选出步骤B中出现次数大于阈值的特征作为候选特征集合,根据出现次数的多少选择最终的前k个特征为所需的特征子集。
本发明技术方案具备以下技术效果:
1.本发明方法以随机森林变量重要性评分为基础特征选择方法,克服了常规方法LEfSe的缺点,适用于非高斯分布和样本分类信息依赖于方差的数据集,分析了特征之间的相关性,具有更好的鲁棒性。
2.本发明方法使用对称不确定性计算特征与样本分组的相关性,快速过滤了宏基因组数据中的噪声,不仅缩减了数据集,减少了计算量,而且有助于提升了后续随机森林特征选择的分类效果。
3.本发明方法采用奈曼皮尔逊检验计算特征出现次数的阈值,筛选得到了较为稳定的特征子集,改善了随机森林变量重要性评分波动的缺陷,具有较好的稳定性和分类效果。
4.受限于数据采集的困难,宏基因组数据多为小样本数据,样本变化对特征选择的结果影响较大,本发明方法通过有放回采样避免了过拟合,依据微生物的评分划分不同等级的特征候选集合,方便了后续的医学验证试验。
附图说明
图1为本发明的流程示意图。
图2为实施例数据集在不同分类器下的受试者工作特征曲线。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本实施例针对肝硬化(Cirrhosisiof Liver,CIR)宏基因组数据集展开,肝硬化数据集由肠道采集,包括232例样本,其中肝硬化118例,对照组114例,涉及532个可操作分类单元。
参照图1,一种基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法,包括以下步骤:
步骤A:对于肝硬化可操作单元数据集,使用对称不确定性计算每个微生物特征与样本表现型的相关性,按照大小排序,选择前200个特征作为特征子集,生成原始数据的子数据集用于后续步骤分析。
步骤B:首先以有放回抽样方式对子数据集进行采样,然后计算随机森林的变量重要性评分,按照重要性评分大小进行排序,选择评分最大的前10个特征,迭代上述步骤1000次,统计每个特征的出现次数。
步骤C:依据样本大小、迭代次数和特征选择数目等参数,使用奈曼皮尔逊检验方法计算阈值,筛选特征出现次数大于阈值的特征作为特征集合,其中出现次数最多的前10个特征为最终筛选的特征。
所述步骤A的具体步骤如下:
步骤A01:对于宏基因组分类可操作单元数据集中的一个特征,首先计算特征的熵,公式为式中X为任一特征变量,P(xi)为X取值xi时的先验概率,H(X)为特征变量X的熵;然后计算在已知样本类别下的条件熵,公式为:式中X为任一特征变量,Y为样本类别,P(yj)为Y取值yj时的先验概率,P(xi|yj)为已知样本类别Y取值yj下X取值xi时的先验概率,H(X|Y)为已知样本类别Y下的条件熵;最后计算特征的对称不确定性SU(X,Y),公式为:式中X为任一特征变量,Y为样本类别,H(X)为特征变量X的熵,H(Y)为样本类别的熵,H(X|Y)为已知样本类别Y下的条件熵;
步骤A02:依据步骤A01计算所有特征的对称不确定性,按照大小排序,然后选择初筛特征数目要求的特征集合,生成子数据集用于后续步骤分析。
所述步骤B的具体步骤如下:
步骤B01:以有放回抽样的方式对子数据集进行采样,生成与数据集样本数量等同的采样数据集,共232个样本;
步骤B02:以随机森林为分类器,对采样数据集进行数据建模,得到每个变量的重要性评分,依据评分大小选择前10个特征,变量重要性评分衡量标准为变量置换计算所得的袋外数据错误率,公式如下:式中为第i个特征的变量重要性评分,M为随机森林决策树个数,ERim为第i个特征在第m棵决策树上的错误率,ER′im为变量置换后的错误率;
步骤B03:迭代步骤B01和B02,记录每次迭代筛选的特征,达到循环次数1000后,统计各个特征的出现次数。
所述步骤C的具体步骤如下:
步骤C01:依据样本大小、迭代次数和特征选择数目,每一次迭代均作为一次独立的伯努利试验,得到随机变量的二项分布概率累积分布的反函数,然后使用奈曼皮尔逊检验计算阈值,公式如下:P(τ>ξcrit″′|H0)=1-P(τ≤ξcrit″′|H0)=α,式中P为二项分布概率,τ为特征出现次数,H0为特征变量随机出现的原假设,α为接受原假设的检验统计量,ξ″′crit为所求阈值;
步骤C02:依据计算所得的阈值,筛选出步骤B中特征出现次数大于阈值的特征作为候选特征集合,根据出现次数的多少选择最终的前10个特征为所需的特征子集。
经过本发明所述的特征选择方法,肝硬化数据集最后筛选特征的索引集合为{189,187,85,333,188,92,186,215,191,273},出现次数分别为{999,983,983,947,934,871,773,711,454,447},候选特征共17个,索引为{189,187,85,333,188,92,186,215,191,273,93,225,91,106,95,115,100},阈值为66次。在随机森林、支持向量机和K近邻分类器下的ROC曲线下面积AUC分别为0.937、0.920和0.896,ROC曲线图如图2所示。综上,本发明方法应用于肝硬化宏基因组数据集所筛选的特征子集保留了数据集中的分类信息,找到了关键的微生物,为后续的肝硬化医学实验节省了时间,提升了效率。
Claims (3)
1.一种基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法,其特征在于:包括以下步骤:
步骤A:对于一个输入的宏基因组分类可操作单元数据集,使用对称不确定性计算每个微生物特征与样本表现型的相关性,按照大小排序,依据初筛特征数目选择特征子集,生成原始数据的子数据集用于后续步骤分析;
步骤B:首先以有放回抽样方式对子数据集进行采样,然后计算随机森林的变量重要性评分,按照重要性评分大小进行排序,选择评分最大的前k个特征,迭代上述步骤,迭代完成后统计每个特征的出现次数;
步骤C:依据样本大小、迭代次数和特征选择数目,使用奈曼皮尔逊检验方法计算阈值,筛选出现次数大于阈值的特征作为候选特征集合,其中出现次数最多的前k个特征为最终筛选的特征;具体步骤如下:
步骤C01:依据样本大小、迭代次数和特征选择数目,每一次迭代均作为一次独立的伯努利试验,得到随机变量的二项分布概率累积分布的反函数,然后使用奈曼皮尔逊检验计算阈值,公式如下:P(τ>ξcrit″′|H0)=1-P(τ≤ξcrit″′|H0)=α,式中P为二项分布概率,τ为特征出现次数,H0为特征变量随机出现的原假设,α为接受原假设的检验统计量,ξ″′crit为所求阈值;
步骤C02:依据计算所得的阈值,筛选出步骤B中出现次数大于阈值的特征作为候选特征集合,根据出现次数的多少选择最终的前k个特征为所需的特征子集。
2.根据权利要求1所述的一种基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法,其特征在于:所述步骤A的具体步骤如下:
步骤A01:对于宏基因组分类可操作单元数据集中的一个特征,首先计算特征的熵,公式为式中X为任一特征变量,P(xi)为X取值xi时的先验概率,H(X)为特征变量X的熵;然后计算在已知样本类别下的条件熵,公式为:式中X为任一特征变量,Y为样本类别,P(yj)为Y取值yj时的先验概率,P(xi|yj)为已知样本类别Y取值yj下X取值xi时的先验概率,H(X|Y)为已知样本类别Y下的条件熵;最后计算特征的对称不确定性SU(X,Y),公式为:式中X为任一特征变量,Y为样本类别,H(X)为特征变量X的熵,H(Y)为样本类别的熵,H(X|Y)为已知样本类别Y下的条件熵;步骤A02:依据步骤A01计算所有特征的对称不确定性,按照大小排序,然后选择初筛特征数目要求的特征集合,生成子数据集用于后续步骤分析。
3.根据权利要求1所述的一种基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法,其特征在于:所述步骤B的具体步骤如下:
步骤B01:以有放回抽样方式对子数据集进行采样,生成与数据集样本数量等同的采样数据集;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910417875.4A CN110189799B (zh) | 2019-05-20 | 2019-05-20 | 基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910417875.4A CN110189799B (zh) | 2019-05-20 | 2019-05-20 | 基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110189799A CN110189799A (zh) | 2019-08-30 |
CN110189799B true CN110189799B (zh) | 2021-02-02 |
Family
ID=67716845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910417875.4A Active CN110189799B (zh) | 2019-05-20 | 2019-05-20 | 基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110189799B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814868A (zh) * | 2020-07-03 | 2020-10-23 | 苏州动影信息科技有限公司 | 一种基于影像组学特征选择的模型、构建方法和应用 |
CN113870948B (zh) * | 2021-08-20 | 2023-04-18 | 中国人民解放军海军军医大学第三附属医院 | 影响医学结局变量关键分子的筛选方法、系统、终端和存储介质 |
CN115331752B (zh) * | 2022-07-22 | 2024-03-05 | 中国地质大学(北京) | 一种能够自适应预测石英形成环境的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598774A (zh) * | 2015-02-04 | 2015-05-06 | 河南师范大学 | 基于logistic与相关信息熵的特征基因选择方法 |
CN107992722A (zh) * | 2017-11-07 | 2018-05-04 | 大连理工大学 | 基于对称不确定性和信息交互增益的特征选择方法 |
CN105657431B (zh) * | 2016-02-01 | 2018-06-26 | 杭州当虹科技有限公司 | 一种基于视频帧dct域的水印算法 |
-
2019
- 2019-05-20 CN CN201910417875.4A patent/CN110189799B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598774A (zh) * | 2015-02-04 | 2015-05-06 | 河南师范大学 | 基于logistic与相关信息熵的特征基因选择方法 |
CN105657431B (zh) * | 2016-02-01 | 2018-06-26 | 杭州当虹科技有限公司 | 一种基于视频帧dct域的水印算法 |
CN107992722A (zh) * | 2017-11-07 | 2018-05-04 | 大连理工大学 | 基于对称不确定性和信息交互增益的特征选择方法 |
Non-Patent Citations (7)
Title |
---|
Feature selection for gene prediction in metagenomic fragments;Amani Al-Ajlan等;《BioData Mining》;20181231;第11卷;第1-12页 * |
Fizzy: feature subset selection for metagenomics;Gregory Ditzler等;《BMC Bioinformatics》;20151231;第16卷;第1-8页 * |
基于对称不确定性和SVM递归特征消除的信息基因选择方法;叶明全 等;《模式识别与人工智能》;20170531;第30卷(第5期);第429-438页 * |
基于随机森林的特征选择算法;姚登举 等;《吉林大学学报(工学版)》;20140131;第44卷(第1期);第137-141页 * |
宏基因组分类问题中的特征提取及其降维研究;陈波 等;《计算机系统应用》;20151231;第24卷(第11期);第31-37页 * |
随机森林变量重要性评分及其研究进展;杨凯 等;《中国科技论文在线》;20150723;第1-9页 * |
面向医学数据的随机森林特征选择及分类方法研究;姚登举;《中国博士学位论文全文数据库 信息科技辑(月刊) 计算机软件及计算机应用》;20171215(第12期);第I138-28页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110189799A (zh) | 2019-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110189799B (zh) | 基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法 | |
CN111666169B (zh) | 一种基于改进的孤立森林算法和高斯分布的联合数据异常检测方法 | |
Grabusts | The choice of metrics for clustering algorithms | |
US7725413B2 (en) | Generating two-class classification model for predicting chemical toxicity | |
CN105975518B (zh) | 基于信息熵的期望交叉熵特征选择文本分类系统及方法 | |
US20110137841A1 (en) | Sample class prediction method, prediction program, and prediction apparatus | |
CN105825078B (zh) | 基于基因大数据的小样本基因表达数据分类方法 | |
CN102176698A (zh) | 一种基于迁移学习的用户异常行为检测方法 | |
CN110633725A (zh) | 训练分类模型的方法和装置以及分类方法和装置 | |
CN112149758B (zh) | 一种基于欧式距离和深度学习的高光谱开放集分类方法 | |
CN108197647B (zh) | 一种汽车起动机耐久测试数据的快速聚类方法 | |
CN108280236A (zh) | 一种基于LargeVis的随机森林可视化数据分析方法 | |
CN108509996A (zh) | 基于Filter和Wrapper选择算法的特征选择方法 | |
CN109800790B (zh) | 一种面向高维数据的特征选择方法 | |
CN108664653A (zh) | 一种基于K-means的医疗消费客户自动分类方法 | |
CN104268572A (zh) | 面向后台多源数据的特征提取和特征选择方法 | |
CN108596227B (zh) | 一种用户用电行为主导影响因素挖掘方法 | |
CN110659682A (zh) | 一种基于MCWD-KSMOTE-AdaBoost-DenseNet算法的数据分类方法 | |
CN106951728B (zh) | 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法 | |
CN111309577A (zh) | 一种面向Spark的批处理应用执行时间预测模型构建方法 | |
CN117349786B (zh) | 基于数据均衡的证据融合变压器故障诊断方法 | |
CN104468276A (zh) | 基于随机抽样多分类器的网络流量识别方法 | |
CN112651424A (zh) | 基于lle降维和混沌算法优化的gis绝缘缺陷识别方法及系统 | |
JP2011257805A (ja) | 情報処理装置および方法、並びにプログラム | |
CN111461135A (zh) | 利用卷积神经网络集成的数字图像局部滤波取证方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |