CN107480474B - 基于肠道菌群丰度的分类器建模评价校验方法及系统 - Google Patents

基于肠道菌群丰度的分类器建模评价校验方法及系统 Download PDF

Info

Publication number
CN107480474B
CN107480474B CN201710648124.4A CN201710648124A CN107480474B CN 107480474 B CN107480474 B CN 107480474B CN 201710648124 A CN201710648124 A CN 201710648124A CN 107480474 B CN107480474 B CN 107480474B
Authority
CN
China
Prior art keywords
sample
intestinal flora
prediction result
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710648124.4A
Other languages
English (en)
Other versions
CN107480474A (zh
Inventor
刘弘
赵丹丹
郑元杰
何演林
陆佃杰
吕晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201710648124.4A priority Critical patent/CN107480474B/zh
Publication of CN107480474A publication Critical patent/CN107480474A/zh
Application granted granted Critical
Publication of CN107480474B publication Critical patent/CN107480474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Mathematical Physics (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及基于肠道菌群丰度的分类器建模评价校验方法及系统,该方法包括:分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度。

Description

基于肠道菌群丰度的分类器建模评价校验方法及系统
技术领域
本发明属于人工神经网络分类预测的技术领域,尤其涉及一种基于肠道菌群丰度的分类器建模评价校验方法及系统。
背景技术
随着社会的发展和生活水平的提高,人们的生活方式发生了极大的变化。生活节奏加快使得人们容易忽视自身的身体健康,降低了对于一些发病较慢的“隐性”疾病警惕性,如结直肠癌。结直肠癌是最常见的恶性肿瘤之一,在西方发达国家其发病率位居各种恶性肿瘤的第2位;在中国发病率和死亡率在癌症中均位列第3—5位,而在我国的大城市,其发病率位列第2或3位。全球每年约有120万人罹患结直肠癌,死于该病的患者高达60万人,已经对人类的健康造成严重威胁。结直肠癌具有生物学行为复杂多变、容易复发转移以及抵抗化疗药物等特点,因此,尽可能阐明该疾病发生进展的机制,寻找早期、有效的预测方法是结直肠癌研究的重点。
然而,现有的方法需要结合医生的经验得出最终的结果,具有两个局限性:(1)离不开医生的经验,准确性难以保证;(2)在疾病早期预测困难。针对当前结直肠癌诊断手段的局限性,融入机器学习中算法的疾病预测模型成为研究的重点。
支持向量机和人工神经网络算法是经典的分类预测算法,被广泛应用于社交、交通等不同方面,并且得到很好的分类预测效果。然而,人工神经网络本身存在缺点:极易陷入局部最小值,且不适合用于小规模数据的训练。支持向量机则是可以获取到全局最优解,但是适合比较小的数据集的预测。
大量的工作表明在结直肠癌患病的不同阶段(阶段I-III),肠道中的菌群含量是不同的,肠道菌群的丰度变化是判断是否患病的重要指标。
综上所述,在现有技术中如何解决使用机器学习中人工神经网络算法构建基于肠道菌群丰度的分类器的准确度与精确度的问题,尚缺乏有效的解决方案。本发明涉及到两种机器学习算法:支持向量机算法和人工神经网络算法,针对机器学习中支持向量机算法和人工神经网络算法的缺点,提出基于肠道菌群丰度的支持向量机和人工神经网络相结合的分类器建模方法,并应用到结直肠癌的预测中,并对应用于结直肠癌的分类器进行评价与校验,进而达到提高结直肠癌预测准确率与精确度的效果。
发明内容
本发明为了解决上述问题,本发明提供一种基于肠道菌群丰度的分类器建模评价校验方法及系统,本发明将支持向量机和人工神经网络算法进行结合构建分类器模型,从很大程度上避免两个单独模型的缺点,弥补单纯的人工神经网络算法极易陷入局部最小值且不适合用于小规模数据的训练的不足,有效实现提高结直肠癌预测准确率与精确度。
本发明的第一目的是提供一种基于肠道菌群丰度的分类器建模评价校验方法。
为了实现上述目的,本发明采用如下一种技术方案:
一种基于肠道菌群丰度的分类器建模评价校验方法,该方法包括:
(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;
(2)将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;
(3)根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度。
作为进一步的优选方案,所述步骤(1)中,将获取的肠道菌群的DNA序列进行质量控制包括:
将获取的肠道菌群的DNA序列中质量低于33的碱基去掉。
作为进一步的优选方案,所述步骤(1)中,将获取肠道菌群的DNA序列中的肠道菌群丰度包括:
分别从界、门、纲、目、科、属、种七种水平上对各种肠道菌群的含量进行分析,获取肠道菌群的DNA序列中的肠道菌群丰度。
作为进一步的优选方案,所述步骤(1)中,构建的样本集中每个样本均包括:年龄、性别、肥胖指数、肠道菌群丰度和样本所属人群,所述样本所属人群包括健康人群和结直肠癌患者人群。
作为进一步的优选方案,所述步骤(2)的具体步骤为:
(2-1)将样本集划分为训练样本集和测试样本集,样本集的三分之二样本数据设置为训练样本集,样本集的剩余三分之一数据设置为测试样本集,训练样本集和测试样本集输入支持向量机模型进行训练和预测得到第一预测结果,同时训练样本集和测试样本集输入人工神经网络模型进行训练和预测得到第二预测结果;
(2-2)分别从第一预测结果和第二预测结果中选取部分样本作为训练集,第一预测结果和第二预测结果中剩余样本作为测试集,将训练集和测试集输入人工神经网络模型进行再次训练和预测,得出最后的分类预测结果,构建出分类器模型。
作为进一步的优选方案,所述步骤(3)中,评价指标的敏感性为:
其中,Sensitivity为敏感性,表示患者被正确预测为患病的百分比,TP为患者被预测为阳性的样本数量,FN为患者被预测为健康的样本数量;
评价指标的特异性为:
其中,Specificity为特异性,表示健康人被预测为健康的百分比,TN为健康人被正确预测为健康的样本数量,FP为健康人被预测为患者的样本数量;
评价指标的准确率为:
其中,Accuracy为准确率,表示样本被正确预测的百分比,TP为患者被预测为阳性的样本数量,FN为患者被预测为健康的样本数量,TN为健康人被正确预测为健康的样本数量,FP为健康人被预测为患者的样本数量。
作为进一步的优选方案,所述步骤(3)中,具体选用K折交叉验证法作为检验方法对构建出的分类器模型进行校验:
将样本集随机平均分成k个子集,1组作为测试样本,其余的K-1组作为训练样本;
将训练样本输入分类器模型,并使用测试样本测试分类器模型,得到分类率;重复上述过程,计算k次求得的分类率的平均值,作为分类器模型的真实分类率。
本发明的第二目的是提供一种基于肠道菌群丰度的分类器模型。
为了实现上述目的,本发明采用如下一种技术方案:
一种基于肠道菌群丰度的分类器模型,该模型基于一种基于肠道菌群丰度的分类器建模评价校验方法构建:
(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;
(2)将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;
(3)根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度。
本发明的第三目的是提供一种计算机可读存储介质。
为了实现上述目的,本发明采用如下一种技术方案:
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行以下处理:
(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;
(2)将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;
(3)根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度。
本发明的第四目的是提供一种终端设备。
为了实现上述目的,本发明采用如下一种技术方案:
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行以下处理:
(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;
(2)将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;
(3)根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度。
本发明的有益效果:
本发明的一种基于肠道菌群丰度的分类器建模评价校验方法及系统,根据影响结直肠癌的相关因素,如年龄、性别、肥胖指数和肠道菌群丰度作为模型的输入来构建分类器模型,体现不同的阶段变化显著的特点;并结合机器学习的相关算法,充分考虑疾病相关的影响因素并结合支持向量机和人工神经网络的算法两种机器学习算法的优缺点,单独的人工神经网络极易陷入局部最优值,使得预测结果不精确,而且适合大数据量的预测。支持向量机得到的是全局最优解,但适合比较小的数据集的预测,两者结合能从很大程度上避免两个单独模型的缺点。使得构建的分类器模型预测的结果达到最优。有效提高分类器的预测准确度和精确度。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是本发明的方法流程图;
图2是本发明方法的具体流程图;
图3是本发明的分类器模型示意图。
图4是本发明的支持向量机线性分类示意图;
图5是本发明的支持向量机非线性分类示意图;
图6是本发明的人工神经网络局部最优结果;
图7是本发明的人工神经网络全局最优结果;
图8是本发明的支持向量机预测结果;
图9是本发明的人工神经网络预测结果;
图10是本发明的组合模型的实验结果。
具体实施方式:
应该指出,以下详细说明都是例示性的,旨在对本申请提供作为进一步的优选方案说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面结合附图与实施例对本发明作进一步说明。
本发明为了解决上述问题,本发明提供一种基于肠道菌群丰度的分类器建模评价校验方法及系统,本发明将支持向量机和人工神经网络算法进行结合构建分类器模型,从很大程度上避免两个单独模型的缺点,弥补单纯的人工神经网络算法极易陷入局部最小值且不适合用于小规模数据的训练的不足,有效实现提高结直肠癌预测准确率与精确度。
实施例1:
本发明的第一目的是提供一种基于肠道菌群丰度的分类器建模评价校验方法。
为了实现上述目的,本发明采用如下一种技术方案:
如图1所示,
一种基于肠道菌群丰度的分类器建模评价校验方法,该方法包括:
(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;
(2)将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;
(3)根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度。
本方法结合了支持向量机和人工神经网络算法构建基于肠道菌群丰度的分类器模型,可应用于结直肠癌的预测,对于提高疾病预测的准确率具有重要作用。支持向量机不仅可以进行线性分类,如图4所示,而且可以进行非线性分类,如图5所示,适用于构建分类器模型这样的二分类问题。人工神经网络作为一种经典的预测算法,可以广泛的应用到非线性分类的问题中。
在本实施例中,如图2所示,该方法具体包括以下步骤:
步骤1:获取相关数据。
获取结直肠癌相关的样本数据,包括健康样本和患病样本,并且获取对应的肠道菌群的DNA序列。
步骤2:DNA序列质量控制并获取肠道菌群的DNA序列中的肠道菌群丰度
将获取的肠道菌群的DNA序列中质量低于33的碱基去掉。
原始DNA序列的碱基质量参差不齐,一些质量较低的碱基会影响整条DNA序列的质量,因此要将那些质量低的碱基去掉,本实施例用软件Trimmomatic对序列中低于33的碱基去掉。
分别从界、门、纲、目、科、属、种七种水平上对各种肠道菌群的含量进行分析,获取肠道菌群的DNA序列中的肠道菌群丰度。
人类肠道的菌群有千百种,不同水平(界、门、纲、目、科、属、种)菌群的含量会影响人是否患病,本实施例使用软件Metaphlan2从不同的水平上对各种菌群含量的分析。
构建的样本集中每个样本均包括:年龄、性别、肥胖指数、肠道菌群丰度和样本所属人群,所述样本所属人群包括健康人群和结直肠癌患者人群。
步骤3:构建分类器模型
建立支持向量机与人工神经网络预测模型,分别对模型参数进行优化,判断模型是否为最优,若是将预测结果作为支持向量机的输入重新训练测试,若否,返回继续优化参数。
如图3所示,
将样本集划分为训练样本集和测试样本集,样本集的三分之二样本数据设置为训练样本集,样本集的剩余三分之一数据设置为测试样本集,训练样本集和测试样本集输入支持向量机模型进行训练和预测得到第一预测结果,同时训练样本集和测试样本集输入人工神经网络模型进行训练和预测得到第二预测结果;
分别从第一预测结果和第二预测结果中选取部分样本作为训练集,第一预测结果和第二预测结果中剩余样本作为测试集,将训练集和测试集输入人工神经网络模型进行再次训练和预测,得出最后的分类预测结果,构建出分类器模型。
鉴于单独的人工神经网络模型都存在着自身的缺点:极易陷入局部最优值,难以得出全局最优解,如图6和图7所示;而支持向量机模型却有着与神经网络相反的优点—可以获取全局最优解,所以考虑将这两个模型的预测结果作为输入放进支持向量机的模型进行二次训练,经过神经网络后,数据的规模被压缩为较小的样本量,支持向量机则使用于小规模的数据样本的训练,从一定程度上解决了人工神经网络模型由于陷入局部最优值导致的预测精度低的问题。
本发明采用的人工神经网络是根据梯度下降的原则工作的,支持向量机通过选择不同的kernel函数是训练效果达到最佳。支持向量机模型的预测结果如图8所示;人工神经网络模型的预测结果如图9所示。最终的预测结果如图10所示。
步骤4:确定模型评价指标
常用的预测模型评价指标有敏感性(sensitivity)、特异性(specificity)和精确度(accuracy)。
评价指标的敏感性为:
其中,Sensitivity为敏感性,表示患者被正确预测为患病的百分比,TP为患者被预测为阳性的样本数量,FN为患者被预测为健康的样本数量;
评价指标的特异性为:
其中,Specificity为特异性,表示健康人被预测为健康的百分比,TN为健康人被正确预测为健康的样本数量,FP为健康人被预测为患者的样本数量;
评价指标的准确率为:
其中,Accuracy为准确率,表示样本被正确预测的百分比,TP为患者被预测为阳性的样本数量,FN为患者被预测为健康的样本数量,TN为健康人被正确预测为健康的样本数量,FP为健康人被预测为患者的样本数量。
步骤5:分类器模型的校验
本实施例具体选用K折交叉验证法作为检验方法对构建出的分类器模型进行校验:
将样本集随机平均分成k个子集,1组作为测试样本,其余的K-1组作为训练样本;
将训练样本输入分类器模型,并使用测试样本测试分类器模型,得到分类率;重复上述过程,计算k次求得的分类率的平均值,作为分类器模型的真实分类率。
本实施例并不局限于使用K折交叉验证法进行校验,还可选用留一法交叉验证方法。
实施例2:
本发明的第二目的是提供一种基于肠道菌群丰度的分类器模型。
为了实现上述目的,本发明采用如下一种技术方案:
一种基于肠道菌群丰度的分类器模型,该模型基于一种基于肠道菌群丰度的分类器建模评价校验方法构建:
(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;
(2)将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;
(3)根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度。
实施例3:
本发明的第三目的是提供一种计算机可读存储介质。
为了实现上述目的,本发明采用如下一种技术方案:
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行以下处理:
(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;
(2)将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;
(3)根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度。
实施例4:
本发明的第四目的是提供一种终端设备。
为了实现上述目的,本发明采用如下一种技术方案:
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行以下处理:
(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;
(2)将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;
(3)根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度。
本发明的有益效果:
本发明的一种基于肠道菌群丰度的分类器建模评价校验方法及系统,根据影响结直肠癌的相关因素,如年龄、性别、肥胖指数和肠道菌群丰度作为模型的输入来构建分类器模型,体现不同的阶段变化显著的特点;并结合机器学习的相关算法,充分考虑疾病相关的影响因素并结合支持向量机和人工神经网络的算法两种机器学习算法的优缺点,单独的人工神经网络极易陷入局部最优值,使得预测结果不精确,而且适合大数据量的预测。支持向量机得到的是全局最优解,但适合比较小的数据集的预测,两者结合能从很大程度上避免两个单独模型的缺点。使得构建的分类器模型预测的结果达到最优。有效提高分类器的预测准确度和精确度。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (7)

1.一种基于肠道菌群丰度的分类器建模评价校验方法,其特征是:该方法包括:
(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;
(2)将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;
(3)根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度;
所述步骤(1)中,获取肠道菌群的DNA序列中的肠道菌群丰度包括:分别从界、门、纲、目、科、属、种七种水平上对各种肠道菌群的含量进行分析,获取肠道菌群的DNA序列中的肠道菌群丰度;构建的样本集中每个样本均包括:年龄、性别、肥胖指数、肠道菌群丰度和样本所属人群,所述样本所属人群包括健康人群和结直肠癌患者人群;
所述步骤(2)的具体步骤为:
(2-1)将样本集划分为训练样本集和测试样本集,样本集的三分之二样本数据设置为训练样本集,样本集的剩余三分之一数据设置为测试样本集,训练样本集和测试样本集输入支持向量机模型进行训练和预测得到第一预测结果,同时训练样本集和测试样本集输入人工神经网络模型进行训练和预测得到第二预测结果;在步骤(2)中,建立支持向量机与人工神经网络预测模型,分别对模型参数进行优化,判断模型是否为最优,若是将预测结果作为支持向量机的输入重新训练测试,若否,返回继续优化参数;
(2-2)分别从第一预测结果和第二预测结果中选取部分样本作为训练集,第一预测结果和第二预测结果中剩余样本作为测试集,将训练集和测试集输入支持向量机进行再次训练和预测,得出最后的分类预测结果,构建出分类器模型。
2.如权利要求1所述的一种基于肠道菌群丰度的分类器建模评价校验方法,其特征是:所述步骤(1)中,将获取的肠道菌群的DNA序列进行质量控制包括:
将获取的肠道菌群的DNA序列中质量低于33的碱基去掉。
3.如权利要求1所述的一种基于肠道菌群丰度的分类器建模评价校验方法,其特征是:所述步骤(3)中,评价指标的敏感性为:
其中,Sensitivity为敏感性,表示患者被正确预测为患病的百分比,TP为患者被预测为阳性的样本数量,FN为患者被预测为健康的样本数量;
评价指标的特异性为:
其中,Specificity为特异性,表示健康人被预测为健康的百分比,TN为健康人被正确预测为健康的样本数量,FP为健康人被预测为患者的样本数量;
评价指标的准确率为:
其中,Accuracy为准确率,表示样本被正确预测的百分比,TP为患者被预测为阳性的样本数量,FN为患者被预测为健康的样本数量,TN为健康人被正确预测为健康的样本数量,FP为健康人被预测为患者的样本数量。
4.如权利要求1所述的一种基于肠道菌群丰度的分类器建模评价校验方法,其特征是:所述步骤(3)中,具体选用K折交叉验证法作为检验方法对构建出的分类器模型进行校验:
将样本集随机平均分成k个子集,1组作为测试样本,其余的k-1组作为训练样本;
将训练样本输入分类器模型,并使用测试样本测试分类器模型,得到分类率;重复上述过程,计算k次求得的分类率的平均值,作为分类器模型的真实分类率。
5.一种基于肠道菌群丰度的分类器模型,其特征是:该模型基于一种基于肠道菌群丰度的分类器建模评价校验方法构建:
(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;
(2)将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;
(3)根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度;
所述步骤(1)中,获取肠道菌群的DNA序列中的肠道菌群丰度包括:分别从界、门、纲、目、科、属、种七种水平上对各种肠道菌群的含量进行分析,获取肠道菌群的DNA序列中的肠道菌群丰度;构建的样本集中每个样本均包括:年龄、性别、肥胖指数、肠道菌群丰度和样本所属人群,所述样本所属人群包括健康人群和结直肠癌患者人群;
所述步骤(2)的具体步骤为:
(2-1)将样本集划分为训练样本集和测试样本集,样本集的三分之二样本数据设置为训练样本集,样本集的剩余三分之一数据设置为测试样本集,训练样本集和测试样本集输入支持向量机模型进行训练和预测得到第一预测结果,同时训练样本集和测试样本集输入人工神经网络模型进行训练和预测得到第二预测结果;在步骤(2)中,建立支持向量机与人工神经网络预测模型,分别对模型参数进行优化,判断模型是否为最优,若是将预测结果作为支持向量机的输入重新训练测试,若否,返回继续优化参数;
(2-2)分别从第一预测结果和第二预测结果中选取部分样本作为训练集,第一预测结果和第二预测结果中剩余样本作为测试集,将训练集和测试集输入支持向量机进行再次训练和预测,得出最后的分类预测结果,构建出分类器模型。
6.一种计算机可读存储介质,其中存储有多条指令,其特征是:所述指令适于由终端设备的处理器加载并执行以下处理:
(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;
(2)将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;
(3)根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度;
所述步骤(1)中,获取肠道菌群的DNA序列中的肠道菌群丰度包括:分别从界、门、纲、目、科、属、种七种水平上对各种肠道菌群的含量进行分析,获取肠道菌群的DNA序列中的肠道菌群丰度;构建的样本集中每个样本均包括:年龄、性别、肥胖指数、肠道菌群丰度和样本所属人群,所述样本所属人群包括健康人群和结直肠癌患者人群;
所述步骤(2)的具体步骤为:
(2-1)将样本集划分为训练样本集和测试样本集,样本集的三分之二样本数据设置为训练样本集,样本集的剩余三分之一数据设置为测试样本集,训练样本集和测试样本集输入支持向量机模型进行训练和预测得到第一预测结果,同时训练样本集和测试样本集输入人工神经网络模型进行训练和预测得到第二预测结果;在步骤(2)中,建立支持向量机与人工神经网络预测模型,分别对模型参数进行优化,判断模型是否为最优,若是将预测结果作为支持向量机的输入重新训练测试,若否,返回继续优化参数;
(2-2)分别从第一预测结果和第二预测结果中选取部分样本作为训练集,第一预测结果和第二预测结果中剩余样本作为测试集,将训练集和测试集输入支持向量机进行再次训练和预测,得出最后的分类预测结果,构建出分类器模型。
7.一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征是:所述指令适于由处理器加载并执行以下处理:
(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;
(2)将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;
(3)根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度;
所述步骤(1)中,获取肠道菌群的DNA序列中的肠道菌群丰度包括:分别从界、门、纲、目、科、属、种七种水平上对各种肠道菌群的含量进行分析,获取肠道菌群的DNA序列中的肠道菌群丰度;构建的样本集中每个样本均包括:年龄、性别、肥胖指数、肠道菌群丰度和样本所属人群,所述样本所属人群包括健康人群和结直肠癌患者人群;
所述步骤(2)的具体步骤为:
(2-1)将样本集划分为训练样本集和测试样本集,样本集的三分之二样本数据设置为训练样本集,样本集的剩余三分之一数据设置为测试样本集,训练样本集和测试样本集输入支持向量机模型进行训练和预测得到第一预测结果,同时训练样本集和测试样本集输入人工神经网络模型进行训练和预测得到第二预测结果;在步骤(2)中,建立支持向量机与人工神经网络预测模型,分别对模型参数进行优化,判断模型是否为最优,若是将预测结果作为支持向量机的输入重新训练测试,若否,返回继续优化参数;
(2-2)分别从第一预测结果和第二预测结果中选取部分样本作为训练集,第一预测结果和第二预测结果中剩余样本作为测试集,将训练集和测试集输入支持向量机进行再次训练和预测,得出最后的分类预测结果,构建出分类器模型。
CN201710648124.4A 2017-08-01 2017-08-01 基于肠道菌群丰度的分类器建模评价校验方法及系统 Active CN107480474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710648124.4A CN107480474B (zh) 2017-08-01 2017-08-01 基于肠道菌群丰度的分类器建模评价校验方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710648124.4A CN107480474B (zh) 2017-08-01 2017-08-01 基于肠道菌群丰度的分类器建模评价校验方法及系统

Publications (2)

Publication Number Publication Date
CN107480474A CN107480474A (zh) 2017-12-15
CN107480474B true CN107480474B (zh) 2019-03-26

Family

ID=60597286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710648124.4A Active CN107480474B (zh) 2017-08-01 2017-08-01 基于肠道菌群丰度的分类器建模评价校验方法及系统

Country Status (1)

Country Link
CN (1) CN107480474B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108511084A (zh) * 2018-04-02 2018-09-07 张良 一种肠道菌群监测管理的方法和系统
CN109308935A (zh) * 2018-09-10 2019-02-05 天津大学 一种基于支持向量机预测非编码dna的方法及应用平台
CN109182502A (zh) * 2018-09-28 2019-01-11 人和未来生物科技(长沙)有限公司 用于便秘风险预测的微生物群及应用
CN109448842B (zh) * 2018-11-15 2019-09-24 苏州普瑞森基因科技有限公司 人体肠道微生态失衡的确定方法、装置及电子设备
CN110031624A (zh) * 2019-02-28 2019-07-19 中国科学院上海高等研究院 基于多神经网络分类器的肿瘤标志物检测系统、方法、终端、介质
CN110084399B (zh) * 2019-03-21 2023-04-07 山东省疾病预防控制中心 一种基于支持向量机的周期性时间序列预测方法
CN110241205A (zh) * 2019-06-06 2019-09-17 西安交通大学医学院第一附属医院 一种基于肠道菌群的精神分裂症生物标志物组合及其应用与筛选
CN110781915B (zh) * 2019-09-17 2023-06-20 上海派森诺生物科技股份有限公司 一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法
CN113035360A (zh) * 2019-12-09 2021-06-25 浙江普罗亭健康科技有限公司 一种细胞分类模型学习方法
CN112382382B (zh) * 2020-10-23 2024-04-12 北京科技大学 一种代价敏感的集成学习分类方法及系统
CN112435756B (zh) * 2020-11-30 2024-02-09 武汉益鼎天养生物科技有限公司 基于多数据集差异互证的肠道菌群关联疾病风险预测系统
CN112980945B (zh) * 2021-04-28 2022-04-15 广东省科学院微生物研究所(广东省微生物分析检测中心) 一种利用神经网络模型预测低碳饮食减重干预效果的方法
CN113488121B (zh) * 2021-07-24 2024-03-15 山东省千佛山医院 一种结肠癌肠道微生态精准检测评估干预系统及方法
CN114093448B (zh) * 2021-11-24 2022-07-01 首都医科大学附属北京天坛医院 一种疾病风险预测模型的构建方法
CN114334170A (zh) * 2022-03-14 2022-04-12 天津云检医学检验所有限公司 一种代谢年龄预测模型及其在结直肠癌诊断中的应用
CN115831224B (zh) * 2022-11-09 2024-05-03 内蒙古大学 一种预测微生物益生潜力的方法及其装置
CN115881229B (zh) * 2022-12-16 2024-01-09 迪辅乐生物(上海)有限公司 基于肠道微生物信息的过敏预测模型构建方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184453A (zh) * 2011-05-16 2011-09-14 上海电气集团股份有限公司 基于模糊神经网络和支持向量机的风电功率组合预测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7986842B2 (en) * 2006-11-10 2011-07-26 Fuji Xerox Co., Ltd. Collective media annotation using undirected random field models
CN101240315A (zh) * 2008-02-21 2008-08-13 上海交通大学 检测药物防癌效果的非损伤性分子方法
US20130017999A1 (en) * 2011-07-14 2013-01-17 Marc Fremont Methods and Compositions for Evaluating and/or Treating Chronic Immune Diseases
CN102618459A (zh) * 2012-03-09 2012-08-01 北京和美科盛生物技术有限公司 一株可以调节人肠道菌群的益生菌及其检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184453A (zh) * 2011-05-16 2011-09-14 上海电气集团股份有限公司 基于模糊神经网络和支持向量机的风电功率组合预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于神经网络和SVM的短时交通流组合预测研究;伍骏;《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》;20150115(第1期);第31、49、41-42、51页
高通量测序分析老年血液透析患者肠道菌群的改变;胡建广;《中国中西医结合肾病杂志》;20170228;第18 卷(第2 期);第127-131页

Also Published As

Publication number Publication date
CN107480474A (zh) 2017-12-15

Similar Documents

Publication Publication Date Title
CN107480474B (zh) 基于肠道菌群丰度的分类器建模评价校验方法及系统
Piri et al. An analytical study of modified multi-objective Harris Hawk Optimizer towards medical data feature selection
Wang et al. Stacking-based ensemble learning of decision trees for interpretable prostate cancer detection
CN109659033A (zh) 一种基于循环神经网络的慢性疾病病情变化事件预测装置
CN108198621B (zh) 一种基于神经网络的数据库数据综合诊疗决策方法
CN108351862A (zh) 利用人工智能和用户输入来确定发育进展的方法和装置
Gaudreau The 2× 2 model of perfectionism: Commenting the critical comments and suggestions of
CN107180283A (zh) 一种基于最优特征组合的再住院行为预测系统及方法
CN108742513A (zh) 脑卒中患者康复预测方法及系统
CN109920551A (zh) 基于机器学习的自闭症儿童社会行为表现特征分析系统
CN110111885A (zh) 属性预测方法、装置、计算机设备及计算机可读存储介质
Hu Medical data mining based on decision tree algorithm
CN117350905A (zh) 一种基于大数据的体育教学管理系统
CN116597916A (zh) 一种基于器官芯片和深度学习的抗肿瘤化合物预后药效的预测方法
CN108320797B (zh) 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
Hu Can genetic programming perform explainable machine learning for bioinformatics?
Chatzinikolaou Use and limitations of ecological models
Li Application of Machine Learning to Predict Mental Health Disorders and Interpret Feature Importance
Hu et al. Analyzing feature importance for metabolomics using genetic programming
Ho et al. Coupled biological and hydrological processes shape spatial food-web structures in riverine metacommunities
Bilancia et al. Bayesian scanning of spatial disease rates with integrated nested Laplace approximation (INLA)
Asif et al. Indication of Health Status Using Machine Learning Linear Regression and Random Forest
Shen et al. Design and application of tumor prediction model based on statistical method
Gonçalves et al. Monitoring mental stress through mouse behaviour and decision-making patterns
Gao et al. Research on big data classification algorithm of disease gene detection based on complex network technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant