CN112766352B - 一种基于极端梯度提升算法的新型冠状病毒分类方法 - Google Patents
一种基于极端梯度提升算法的新型冠状病毒分类方法 Download PDFInfo
- Publication number
- CN112766352B CN112766352B CN202110039827.3A CN202110039827A CN112766352B CN 112766352 B CN112766352 B CN 112766352B CN 202110039827 A CN202110039827 A CN 202110039827A CN 112766352 B CN112766352 B CN 112766352B
- Authority
- CN
- China
- Prior art keywords
- model
- training
- sets
- data
- coronavirus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 241000711573 Coronaviridae Species 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000012360 testing method Methods 0.000 claims abstract description 40
- 241000700605 Viruses Species 0.000 claims abstract description 23
- 238000011156 evaluation Methods 0.000 claims abstract description 21
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 44
- 238000001228 spectrum Methods 0.000 claims description 33
- 238000013507 mapping Methods 0.000 claims description 16
- 238000012795 verification Methods 0.000 claims description 14
- 238000002790 cross-validation Methods 0.000 claims description 9
- 208000025721 COVID-19 Diseases 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 239000002773 nucleotide Substances 0.000 claims description 5
- 125000003729 nucleotide group Chemical group 0.000 claims description 5
- 206010022000 influenza Diseases 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 16
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 4
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 3
- 230000003612 virological effect Effects 0.000 description 3
- 229930024421 Adenine Natural products 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- 229960000643 adenine Drugs 0.000 description 2
- 229940104302 cytosine Drugs 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于极端梯度提升算法的新型冠状病毒分类方法,用于解决现有技术中存在的分类精度较低的技术问题,实现步骤为:获取三种现存病毒数据集和新型冠状病毒数据集,预处理三种病毒数据集和新型冠状病毒数据集,三种病毒数据集作为训练集,新型冠状病毒数据集作为独立测试集,使用训练集训练并优化XGBoost模型,获取最优模型后对测试集分类,得到模型评估指标以及测试集的预测标签。本发明有效提高了新型冠状病毒分类的准确性。
Description
技术领域
本发明涉及新型冠状病毒分类技术领域,尤其涉及一种基于极端梯度提升算法的新型冠状病毒分类方法。
背景技术
经研究发现,新型冠状病毒与现有的冠状病毒科之间存在一定的联系。对于一种新出现的病毒,我们要研究它与现有的病毒基因组之间最相关的关系,这就需要将病毒划分类别,从而判断该病毒是否由某些病毒重组产生的,或是作为一个新的感染人类的谱系独立产生的。然而大多技术存在分类精度低,运算速度慢,硬件需求高等缺点。
发明内容
本发明提出一种基于极端梯度提升算法的新型冠状病毒分类方法,其特征在于,包括如下步骤:
(1)获取三种现存病毒数据集和新型冠状病毒数据集;
(1a)从美国国家生物技术信息中心、全球共享流感数据倡议组织、Virus-Host DB三个平台获取所需的病毒数据,包括甲型冠状病毒属,乙型冠状病毒属,丁型冠状病毒属,COVID-19序列;
(1b)排除所有小于2000碱基对和大于50000碱基对的DNA序列,以解决序列长度偏差可能引起的问题;
(2)预处理三种病毒数据集和新型冠状病毒数据集,之后将三种病毒数据集作为训练集,新型冠状病毒数据集作为独立测试集;
(2a)将DNA序列映射成离散数字序列;
(2b)采用零填充方法将DNA序列对应的离散数字序列长度归一化到25000,其中长度小于25000的序列通过零填充扩展到25000,而长度大于25000的序列将其超过25000的部分删除;
(2c)将所述离散数字序列进行离散傅里叶变换(DFT变换),取模后得到幅度谱,该幅度谱也是DNA序列的幅度谱;
(2d)计算出所有序列的幅度谱后,将甲型冠状病毒属,乙型冠状病毒属,丁型冠状病毒属的所有序列的幅度谱整合到一个数据集中,该数据集作为训练集数据,COVID-19序列的幅度谱整合到一个数据集中,该数据集作为独立测试集数据;
(3)使用训练集训练并优化XGBoost模型,并获取最优模型;
(3a)将训练集数据划分为五份,其中一份作为验证集,其余四份作为训练集;
(3b)结合网格搜索方法和内部三折交叉验证对模型的参数进行调整,将训练集划分成三份,其中一份作为内部测试集,另外两份作为内部训练集,在不同的参数组合下使用内部训练集训练XGBoost模型,使用内部测试集对模型的分类性能进行评估,该步骤重复三次,得到三次评价指标中最高分数对应的参数,作为模型的最佳超参数;
(3c)在训练集上使用最佳超参数训练模型,使用训练好后的模型对验证集预测,得到模型对验证集的评估指标;
(3d)重复步骤3a至3c五次以实现五折交叉验证,将在五个验证集中得到的评价指标取平均值作为模型最终的分类性能指标;
(3e)选出五次训练出的模型中的最优模型,用以对独立测试集分类;
(4)使用最优模型结合模型的特征选择功能对测试集分类,得到模型评估指标和测试集的预测标签;
(4a)利用在训练集上训练好的最优模型进行特征重要性排序,得分高的前L个特征为选取的特征子集;
(4b)选取训练集上的特征子集训练模型,在相同的特征方案下对测试集进行评估,得到模型评估指标以及测试集的预测标签。
步骤(2a)所述的将DNA序列映射成离散数字序列,实现方法为:
从平台下载的数据是原始DNA序列数据,DNA序列由数千个连续的核苷酸组成:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)。首先把组成DNA序列的四种碱基(A、C、T、G)映射成相应的数值序列,映射规则为:T=-1.5,C=0.5,A=1.5,G=-0.5。对于给定的s个DNA序列集合Q={Q1,Q2,...,Qs},经过编码后得到DNA序列的数字表示集合,即R={R1,R2,...,Rs},其中Ri是序列Qi的离散数值表示,1≤i≤s。
步骤(2c)所述的将所述离散数字序列进行离散傅里叶变换(DFT变换),取模后得到幅度谱,该幅度谱也是DNA序列的幅度谱,其实现步骤为:
假设所有输入的DNA序列中值长度为n,对于每个DNA序列Qi,
1≤i≤s,Qi(k)∈{A,C,G,T},0≤k≤n-1,数字映射规则为T=-1.5,C=0.5,A=1.5,G=-0.5,简化数字映射规则定义表示为函数f(*),计算其相应的离散数值表示Ri为
Ri=(f(Qi(0)),f(Qi(1)),...,f(Qi(n-1)))(1)
对于0≤k≤n-1,f(Qi(k))表示DNA序列Qi在位置k处的核苷酸的数值表示。然后,信号Ri的DFT记为向量Fi,有
令Zi(k)为信号Ri的幅度向量
Zi(k)=|Fi(k)| (3)
幅度向量Zi既可称为数字信号Ri的幅度谱,也是DNA序列Qi的幅度谱。
步骤(4a)所述的利用在训练集上训练好的最优模型进行特征重要性排序,得分高的前L个特征为选取的特征子集,其实现为:
计算特征的平均信息增益的公式,按照每个特征平均信息增益的大小确定特征的重要性,平均信息增益越大,重要程度越高,平均信息增益可表示为:
其中Np为第p个特征在所有分类树选择的次数,Gaini为该特征第i次作为分割节点的信息增益,Gainaverage_p为第p个特征的平均信息增益。
本发明基于极端梯度提升方法,可以有效提高分类精度,解决新冠病毒分类准确率低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动力的前提下,还可以根据这些附图获得其他的附图。
图1为本发明数据预处理流程图;
图2为本发明网格搜索参数优化流程图;
图3为本发明特征选择流程图;
图4为本发明的整体流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图4为本发明的整体流程图,本发明提出一种基于极端梯度提升算法的新型冠状病毒分类方法,其特征在于,包括如下步骤:
(1)获取三种现存病毒数据集和新型冠状病毒数据集;
(1a)从美国国家生物技术信息中心、全球共享流感数据倡议组织、Virus-HostDB三个平台获取所需的病毒数据,包括甲型冠状病毒属(50个序列),乙型冠状病毒属(50个序列),丁型冠状病毒属(20个序列),COVID-19序列(29个序列);
(1b)排除所有小于2000碱基对和大于50000碱基对的DNA序列,以解决序列长度偏差可能引起的问题;
(2)预处理三种病毒数据集和新型冠状病毒数据集(预处理流程图见图1),之后将三种病毒数据集作为训练集,新型冠状病毒数据集作为独立测试集;
(2a)将DNA序列映射成离散数字序列;
(2b)采用零填充方法将DNA序列对应的离散数字序列长度归一化到25000,其中长度小于25000的序列通过零填充扩展到25000,而长度大于25000的序列将其超过25000的部分删除;
(2c)将所述离散数字序列进行离散傅里叶变换(DFT变换),取模后得到幅度谱,该幅度谱也是DNA序列的幅度谱;
(2d)计算出所有序列的幅度谱后,将甲型冠状病毒属,乙型冠状病毒属,丁型冠状病毒属的所有序列的幅度谱整合到一个数据集中,该数据集作为训练集数据,COVID-19序列的幅度谱整合到一个数据集中,该数据集作为独立测试集数据;
(3)使用训练集训练并优化XGBoost模型,并获取最优模型;
(3a)将训练集数据划分为五份,其中一份作为验证集,其余四份作为训练集;
(3b)结合网格搜索方法和内部三折交叉验证对模型的参数进行调整,将训练集划分成三份,其中一份作为内部测试集,另外两份作为内部训练集,在不同的参数组合下使用内部训练集训练XGBoost模型,使用内部测试集对模型的分类性能进行评估,该步骤重复三次,得到三次评价指标中最高分数对应的参数,作为模型的最佳超参数;
(3c)在训练集上使用最佳超参数训练模型,使用训练好后的模型对验证集预测,得到模型对验证集的评估指标;
(3d)重复步骤3a至3c五次以实现五折交叉验证,将在五个验证集中得到的评价指标取平均值作为模型最终的分类性能指标;
(3e)选出五次训练出的模型中的最优模型,用以对独立测试集分类;
(4)使用最优模型结合模型的特征选择功能对测试集分类,得到模型评估指标和测试集的预测标签;
(4a)利用在训练集上训练好的最优模型进行特征重要性排序,得分高的前L个特征为选取的特征子集;
(4b)选取训练集上的特征子集训练模型,在相同的特征方案下对测试集进行评估,得到模型评估指标以及测试集的预测标签。
步骤(2a)所述的将DNA序列映射成离散数字序列,实现方法为:
从平台下载的数据是原始DNA序列数据,DNA序列由数千个连续的核苷酸组成:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)。首先把组成DNA序列的四种碱基(A、C、T、G)映射成相应的数值序列,映射规则为:T=-1.5,C=0.5,A=1.5,G=-0.5。对于给定的s个DNA序列集合Q={Q1,Q2,...,Qs},经过编码后得到DNA序列的数字表示集合,即R={R1,R2,...,Rs},其中Ri是序列Qi的离散数值表示,1≤i≤s。
步骤(2c)所述的将所述离散数字序列进行离散傅里叶变换(DFT变换),取模后得到幅度谱,该幅度谱也是DNA序列的幅度谱,其实现步骤为:
假设所有输入的DNA序列中值长度为n,对于每个DNA序列Qi,1≤i≤s,Qi(k)∈{A,C,G,T},0≤k≤n-1,数字映射规则为T=-1.5,C=0.5,A=1.5,G=-0.5,简化数字映射规则定义表示为f(*),函数计算其相应的离散数值表示Ri为
Ri=(f(Qi(0)),f(Qi(1)),...,f(Qi(n-1)))(1)
对于0≤k≤n-1,f(Qi(k))表示DNA序列Qi在位置k处的核苷酸的数值表示。然后,信号Ri的DFT记为向量Fi,有
令Zi(k)为信号Ri的幅度向量
Zi(k)=|Fi(k)| (3)
幅度向量Zi既可称为数字信号Ri的幅度谱,也是DNA序列Qi的幅度谱。
预处理方案将DNA序列的频域信号作为模型的输入数据的好处在于频域信号会比数字信号反映出更多的信息,而且使用该预处理方案在模型的分类精度提升上有一定的帮助。
步骤(3b)所述使用网格搜索方法得到最佳超参数,其实现为:网格搜索法结合内部三折交叉验证来优化模型的参数。网格搜索法通过循环遍历,搜索所有的参数组合,然后将各组合用于模型训练,并使用交叉验证对性能进行评估。在拟合函数尝试了所有的参数组合后,模型性能表现最好的参数组合就是最终确定的超参数。网格搜索法的优点是能够同时对多个参数并行化处理,进行高效的参数调优。本实验主要用到下列参数,这里给出网格搜索参数及大致范围。关于参数优化的流程图如图2所示.
max_depth(树的最大深度),范围为[3,8),步长为1
learning_rate(学习率),范围为[0.005,0.01,0.05,0.07,0.1,0.13,0.17]
colsample_bytree(在建立树时对特征采样的比例),范围为[0.3,0.9),步长设为0.1。
subsample(训练模型的子样本占整个样本集合的比例),范围为[0.3,0.9),步长设为0.1。
gamma(节点分裂所需的最小损失函数下降值),范围为[0,1.6),步长设为0.1。
reg_alpha(权重的L1正则化项),范围为[0,1.6),步长设为0.1。
reg_lambda(权重的L2正则化项),范围为[1,1.6),步长设为0.1。
步骤3(c)所述的使用XGBoost模型进行训练,其实现为:首先需要构建XGBoost模型,然后使用预处理得到的训练集来训练模型。假设给定的数据集有n个样本,D={(x1,y1),(x2,y2),...,(xn,yn)},其中xi表示第i个样本,yi为第i个样本的标签。集成模型的预测输出为样本的预测标签如式(4):
其中K为树的个数,f(xi)=wq(xi),q(xi)表示将样本xi分到了某个叶子节点上,w是叶子节点的分数。式(4)表示给定一个输入样本xi,输出值为K棵回归树的预测值相加。接下来需要学习模型,首先需要给定XGBoost的目标函数(5),然后优化目标函数。
(5)式第一部分为预测值与真实值之间的损失函数,第二部分为正则化项,其中γ,λ为用于控制正则化程度的系数,T表示一棵树的叶子节点个数,||w||2表示每棵树的叶节点分数的平方(即L2正则)。接下来使用前向分步算法优化目标函数。设为第i个样本第t次迭代得到的预测值,如式(7):
则目标函数可以表示为:
对目标函数进行泰勒公式二级展开,其中分别是损失函数的一阶和二阶统计量。可将式(8)改为:
式中表示前t-1次迭代的损失函数,相对于当前第t次迭代为一个确定的常数,省略该常数项,并将正则化项代入得到式(10):
其中Ij={i|q(xi)=j}是叶j的实例集,对于给定的树结构q(x),最优叶权重和衡量树结构好坏的最优目标函数分别由公式(11)和(12)给出。
其中Gj是叶子结点gi的累加,Hj是叶子结点hi的累加,γ是对结点数量的调节系数。
等式(13)用于在分割期间对叶节点进行评分。方程的第一项、第二项和第三项分别代表左、右和原叶上的得分。通过上述计算就可以确定每一步的生成回归树的结构和取值,从而确定整个模型结构。
步骤(4a)所述的利用在训练集上训练好的最优模型进行特征重要性排序,得分高的前L个特征为选取的特征子集,其实现为:
计算特征的平均信息增益的公式,按照每个特征平均信息增益的大小确定特征的重要性,平均信息增益越大,重要程度越高,平均信息增益可表示为:
其中Np为第p个特征在所有分类树选择的次数,Gaini为该特征第i次作为分割节点的信息增益,Gainaverage_p为第p个特征的平均信息增益。使用在训练集上训练好的最优模型对特征重要性排序,得分高的前L个特征为选取的特征子集,使用这个特征子集来选择训练集上的特征,用所选择的特征子集训练模型,然后在相同的特征方案下对测试集进行评估。特征选择可以减少特征数量,降维,使模型泛化能力更强,减少过拟合,且不会显著降低分类精度。特征选择流程图见图3。
具体来说,发明流程可概括为:
(1)从平台下载所需的病毒数据:甲型冠状病毒属(50个序列),乙型冠状病毒属(50个序列),丁型冠状病毒属(20个序列),COVID-19序列(29个序列)。
(2)采用数字映射规则将所有DNA序列转化为离散数字信号序列,采用零填充方法将离散数字序列长度归一化到25000后,对离散数字信号作DFT,得到幅度谱,将甲型冠状病毒属,乙型冠状病毒属,丁型冠状病毒属对应的幅值序列整合到一个数据集中,该数据集为本实验的训练集,同理将COVID-19序列对应的幅值序列整合到另一个数据集中,此数据集作为独立测试集。这是一个多分类任务,将甲型冠状病毒属,乙型冠状病毒属,丁型冠状病毒属分别标记为0,1,2,标签为{0,1,2}。
(3)训练集矩阵每一行代表一个样本,将样本分成近似相等的五份,其中一份作为验证集,剩余四份作为训练集。
(4)使用网格搜索法结合内部三折交叉验证对模型的参数进行调整。将训练集分成三份,其中一份作为内部测试集,剩余两份作为内部训练集,使用内部训练集以及不同参数组合训练XGBoost模型,并使用内部测试集对模型的分类性能进行评估,该步骤重复三次,输出三次评价指标中最高分数对应的参数,作为模型的最佳参数。
(5)在训练集上使用最佳超参数训练模型,使用训练好后的模型对验证集预测,得到模型对验证集的评估指标。
(6)重复步骤(3)至(5)五次以实现五折交叉验证,最后将在五个验证集中得到评价指标取平均值作为模型最终的分类性能指标。
(7)选出五次训练出的模型中的最优模型,用以对独立测试集分类。
(8)使用最优模型结合模型的特征选择功能对测试集分类,得到模型评估指标和测试集的预测标签。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (6)
1.一种基于极端梯度提升算法的新型冠状病毒分类方法,包括如下步骤:
步骤1、获取三种现存病毒数据集和新型冠状病毒数据集;
步骤2、预处理三种病毒数据集和新型冠状病毒数据集,之后将三种病毒数据集作为训练集,新型冠状病毒数据集作为独立测试集;
步骤3、使用训练集训练并优化XGBoost模型,并获取最优模型;
步骤4、使用最优模型结合模型的特征选择功能对独立测试集分类,得到模型评估指标和测试集的预测标签;
所述步骤2预处理三种病毒数据集和新型冠状病毒数据集,之后将三种病毒数据集作为训练集,新型冠状病毒数据集作为独立测试集,其步骤包括:
步骤2a、将DNA序列映射成离散数字序列;
步骤2b、采用零填充方法将DNA序列对应的离散数字序列长度归一化到25000,其中长度小于25000的序列通过零填充扩展到25000,而长度大于25000的序列将其超过25000的部分删除;
步骤2c、将所述离散数字序列进行离散傅里叶变换DFT变换,取模后得到幅度谱,该幅度谱也是DNA序列的幅度谱;
步骤2d、计算出所有序列的幅度谱后,将甲型冠状病毒属,乙型冠状病毒属,丁型冠状病毒属的所有序列的幅度谱整合到一个数据集中,该数据集作为训练集数据,
COVID-19序列的幅度谱整合到另一个数据集中,该数据集作为独立测试集数据;
步骤2c所述的将所述离散数字序列进行离散傅里叶变换DFT变换,取模后得到幅度谱,该幅度谱也是DNA序列的幅度谱,其实现步骤为:
2c1、假设所有输入的DNA序列中值长度为n,对于每个DNA序列Qi,1≤i≤s,Qi(k)∈{A,C,G,T},0≤k≤n-1,数字映射规则为T=-1.5,C=0.5,A=1.5,G=-0.5,简化数字映射规则定义表示为函数f(*),计算其相应的离散数值表示Ri为
Ri=(f(Qi(0)),f(Qi(1)),...,f(Qi(n-1)))
对于0≤k≤n-1,f(Qi(k))表示DNA序列Qi在位置k处的核苷酸的数值表示:
2c2、信号Ri的DFT记为向量Fi,有
令Zi(k)为信号Ri的幅度向量
Zi(k)=|Fi(k)|
幅度向量Zi既可称为数字信号Ri的幅度谱,也是DNA序列Qi的幅度谱。
2.根据权利要求1所述的一种基于极端梯度提升算法的新型冠状病毒分类方法,其特征在于,所述步骤1获取三种现存病毒数据集和新型冠状病毒数据集,其步骤包括:
步骤1a、从美国国家生物技术信息中心、全球共享流感数据倡议组织、Virus-Host DB三个平台获取所需的病毒数据,包括甲型冠状病毒属,乙型冠状病毒属,丁型冠状病毒属,COVID-19序列;
步骤1b、排除所有小于2000碱基对和大于50000碱基对的DNA序列。
3.根据权利要求1所述的一种基于极端梯度提升算法的新型冠状病毒分类方法,其特征在于,所述步骤3使用训练集训练并优化XGBoost模型,并获取最优模型,其步骤包括:
步骤3a、将训练集数据划分为五份,其中一份作为验证集,其余四份作为训练集;
步骤3b、结合网格搜索法和三折交叉验证对XGBoost模型的参数进行调整,将训练集划分成三份,其中一份作为内部测试集,另外两份作为内部训练集,在不同的参数组合下使用所述内部训练集训练XGBoost模型,使用所述内部测试集对XGBoost模型的分类性能进行评估,该步骤重复三次,得到三次评价指标中最高分数对应的参数,作为XGBoost模型的最佳超参数;
步骤3c、在训练集上使用最佳超参数训练模型,使用训练好后的模型对验证集预测,得到模型对验证集的评估指标;
步骤3d、重复步骤3(a)至3(c)五次以实现五折交叉验证,在五个验证集中得到的评价指标取平均值作为XGBoost模型最终的分类性能指标;
步骤3e、选出五次训练出的模型中的最优模型,用以对独立测试集分类。
4.根据权利要求1所述的一种基于极端梯度提升算法的新型冠状病毒分类方法,其特征在于,所述步骤4使用最优模型结合模型的特征选择功能对测试集分类,得到模型评估指标和测试集的预测标签,其步骤包括:
步骤4a、利用在训练集上训练好的最优模型进行特征重要性排序,得分高的前L个特征为选取的特征子集;
步骤4b、选取训练集上的特征子集训练模型,在相同的特征方案下对测试集进行评估,得到模型评估指标以及测试集的预测标签。
5.根据权利要求1所述的一种基于极端梯度提升算法的新型冠状病毒分类方法,其特征在于,步骤2a所述的将DNA序列映射成离散数字序列,实现方法为:
从美国国家生物技术信息中心、全球共享流感数据倡议组织、Virus-Host DB三个平台下载的数据是原始DNA序列数据,首先把组成DNA序列的四种碱基(A、C、T、G)映射成相应的数值序列,映射规则为:T=-1.5,C=0.5,A=1.5,G=-0.5:对于给定的s个DNA序列集合Q={Q1,Q2,...,Qs},经过编码后得到DNA序列的数字表示集合,即R={R1,R2,...,Rs},其中Ri是序列Qi的离散数值表示,1≤i≤s。
6.根据权利要求4所述的一种基于极端梯度提升算法的新型冠状病毒分类方法,其特征在于,步骤4a所述的利用在训练集上训练好的最优模型进行特征重要性排序,得分高的前L个特征为选取的特征子集,其实现为:
计算特征的平均信息增益的公式,按照每个特征平均信息增益的大小确定特征的重要性,平均信息增益可表示为:
其中Np为第p个特征在所有分类树选择的次数,Gaini为该特征第i次作为分割节点的信息增益,Gainaverage_p为第p个特征的平均信息增益。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110039827.3A CN112766352B (zh) | 2021-01-13 | 2021-01-13 | 一种基于极端梯度提升算法的新型冠状病毒分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110039827.3A CN112766352B (zh) | 2021-01-13 | 2021-01-13 | 一种基于极端梯度提升算法的新型冠状病毒分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112766352A CN112766352A (zh) | 2021-05-07 |
CN112766352B true CN112766352B (zh) | 2024-03-29 |
Family
ID=75699959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110039827.3A Active CN112766352B (zh) | 2021-01-13 | 2021-01-13 | 一种基于极端梯度提升算法的新型冠状病毒分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112766352B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118136114A (zh) * | 2024-03-08 | 2024-06-04 | 重庆医科大学附属口腔医院 | 一种基于口腔微生物组检测数据的神经精神症状鉴别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111446002A (zh) * | 2020-03-07 | 2020-07-24 | 华中科技大学 | 一种基于人工智能的新型冠状病毒患者病况分类系统 |
CN111524599A (zh) * | 2020-04-24 | 2020-08-11 | 中国地质大学(武汉) | 一种基于机器学习的新冠肺炎数据处理方法及预测系统 |
CN111785328A (zh) * | 2020-06-12 | 2020-10-16 | 中国人民解放军军事科学院军事医学研究院 | 基于门控循环单元神经网络的冠状病毒序列识别方法 |
CN111834010A (zh) * | 2020-05-25 | 2020-10-27 | 重庆工贸职业技术学院 | 一种基于属性约简和XGBoost的COVID-19检测假阴性识别方法 |
CN111951964A (zh) * | 2020-07-30 | 2020-11-17 | 山东大学 | 一种快速检测新型冠状病毒肺炎的方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020176620A1 (en) * | 2019-02-26 | 2020-09-03 | Tempus | Systems and methods for using sequencing data for pathogen detection |
-
2021
- 2021-01-13 CN CN202110039827.3A patent/CN112766352B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111446002A (zh) * | 2020-03-07 | 2020-07-24 | 华中科技大学 | 一种基于人工智能的新型冠状病毒患者病况分类系统 |
CN111524599A (zh) * | 2020-04-24 | 2020-08-11 | 中国地质大学(武汉) | 一种基于机器学习的新冠肺炎数据处理方法及预测系统 |
CN111834010A (zh) * | 2020-05-25 | 2020-10-27 | 重庆工贸职业技术学院 | 一种基于属性约简和XGBoost的COVID-19检测假阴性识别方法 |
CN111785328A (zh) * | 2020-06-12 | 2020-10-16 | 中国人民解放军军事科学院军事医学研究院 | 基于门控循环单元神经网络的冠状病毒序列识别方法 |
CN111951964A (zh) * | 2020-07-30 | 2020-11-17 | 山东大学 | 一种快速检测新型冠状病毒肺炎的方法及系统 |
Non-Patent Citations (5)
Title |
---|
Filippi M.Artificial neural networks in the automatic classification of Alzheimer's disease patients.EUROPEAN JOURNAL OF NEUROLOGY.2017,第241卷(第S1期),47. * |
何龙.深入理解XGBoost 高效机器学习算法与进阶.北京:机械工业出版社,2020,317-321. * |
何龙.深入理解XGBoost 高效机器学习算法与进阶.北京:机械工业出版社,2020,67-72. * |
基于卷积神经网络的RNA二级结构预测方法研究;张春鹤;中国优秀硕士学位论文全文数据库 (基础科学辑);20191215(第12期);全文 * |
河南省儿童白血病发病风险预测模型的建立;王一然;中国优秀硕士学位论文全文数据库 (医药卫生科技辑);20181215(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112766352A (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846259B (zh) | 一种基于聚类和随机森林算法的基因分类方法及系统 | |
Cabello et al. | Fast and accurate time series classification through supervised interval search | |
CN111625576B (zh) | 一种基于t-SNE的成绩聚类分析方法 | |
CN114841257A (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN112766352B (zh) | 一种基于极端梯度提升算法的新型冠状病毒分类方法 | |
V’yugin et al. | Online learning with continuous ranked probability score | |
CN115512772A (zh) | 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统 | |
Kidger et al. | Generalised interpretable shapelets for irregular time series | |
CN112489689B (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN111368686B (zh) | 一种基于深度学习的脑电图情感分类方法 | |
CN113743453A (zh) | 一种基于随机森林的人口数量预测方法 | |
CN111708865B (zh) | 一种基于改进XGBoost算法的技术预见及专利预警分析方法 | |
Demir | Early-exit convolutional neural networks | |
CN117497038A (zh) | 一种基于核方法的快速优化培养基配方的方法 | |
CN115996135B (zh) | 一种基于特征组合优化的工业互联网恶意行为实时检测方法 | |
CN107133348A (zh) | 大规模图片集中基于语义一致性的近似搜索方法 | |
CN117036781A (zh) | 一种基于树综合多样性深度森林的图像分类方法 | |
CN115937493A (zh) | 基于竹子定律和熵的哈里斯鹰机制图像分割方法 | |
CN110796198A (zh) | 基于混合蚁群优化算法的高维特征筛选方法 | |
CN114596913B (zh) | 基于深度中心点模型的蛋白质折叠识别方法及系统 | |
CN113035363B (zh) | 一种概率密度加权的遗传代谢病筛查数据混合采样方法 | |
CN115470863A (zh) | 一种基于双重监督的领域泛化脑电信号分类方法 | |
CN110766087A (zh) | 一种基于离差最大化法改进k-means的提高数据聚类质量的方法 | |
CN113609938A (zh) | 一种基于改进ssd网络的水稻病虫害识别方法 | |
Wali et al. | m-CALP–Yet another way of generating handwritten data through evolution for pattern recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |