CN107480474B

CN107480474B - 基于肠道菌群丰度的分类器建模评价校验方法及系统

Info

Publication number: CN107480474B
Application number: CN201710648124.4A
Authority: CN
Inventors: 刘弘; 赵丹丹; 郑元杰; 何演林; 陆佃杰; 吕晨
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2017-08-01
Filing date: 2017-08-01
Publication date: 2019-03-26
Anticipated expiration: 2037-08-01
Also published as: CN107480474A

Abstract

本发明涉及基于肠道菌群丰度的分类器建模评价校验方法及系统，该方法包括：分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列，将获取的肠道菌群的DNA序列进行质量控制，并获取肠道菌群的DNA序列中的肠道菌群丰度，构建样本集；将样本集划分为训练样本集和测试样本集，分别运用支持向量机和人工神经网络进行训练和预测，并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集，其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果，构建出分类器模型；根据评价指标评价构建出的分类器模型，并选用检验方法对构建出的分类器模型进行校验，评价指标包括：敏感性、特异性和精确度。

Description

基于肠道菌群丰度的分类器建模评价校验方法及系统

技术领域

本发明属于人工神经网络分类预测的技术领域，尤其涉及一种基于肠道菌群丰度的分类器建模评价校验方法及系统。

背景技术

随着社会的发展和生活水平的提高，人们的生活方式发生了极大的变化。生活节奏加快使得人们容易忽视自身的身体健康，降低了对于一些发病较慢的“隐性”疾病警惕性，如结直肠癌。结直肠癌是最常见的恶性肿瘤之一，在西方发达国家其发病率位居各种恶性肿瘤的第2位；在中国发病率和死亡率在癌症中均位列第3—5位，而在我国的大城市，其发病率位列第2或3位。全球每年约有120万人罹患结直肠癌，死于该病的患者高达60万人，已经对人类的健康造成严重威胁。结直肠癌具有生物学行为复杂多变、容易复发转移以及抵抗化疗药物等特点，因此，尽可能阐明该疾病发生进展的机制，寻找早期、有效的预测方法是结直肠癌研究的重点。

然而，现有的方法需要结合医生的经验得出最终的结果，具有两个局限性：(1)离不开医生的经验，准确性难以保证；(2)在疾病早期预测困难。针对当前结直肠癌诊断手段的局限性，融入机器学习中算法的疾病预测模型成为研究的重点。

支持向量机和人工神经网络算法是经典的分类预测算法，被广泛应用于社交、交通等不同方面，并且得到很好的分类预测效果。然而，人工神经网络本身存在缺点：极易陷入局部最小值，且不适合用于小规模数据的训练。支持向量机则是可以获取到全局最优解，但是适合比较小的数据集的预测。

大量的工作表明在结直肠癌患病的不同阶段(阶段I-III)，肠道中的菌群含量是不同的，肠道菌群的丰度变化是判断是否患病的重要指标。

综上所述，在现有技术中如何解决使用机器学习中人工神经网络算法构建基于肠道菌群丰度的分类器的准确度与精确度的问题，尚缺乏有效的解决方案。本发明涉及到两种机器学习算法：支持向量机算法和人工神经网络算法，针对机器学习中支持向量机算法和人工神经网络算法的缺点，提出基于肠道菌群丰度的支持向量机和人工神经网络相结合的分类器建模方法，并应用到结直肠癌的预测中，并对应用于结直肠癌的分类器进行评价与校验，进而达到提高结直肠癌预测准确率与精确度的效果。

发明内容

本发明为了解决上述问题，本发明提供一种基于肠道菌群丰度的分类器建模评价校验方法及系统，本发明将支持向量机和人工神经网络算法进行结合构建分类器模型，从很大程度上避免两个单独模型的缺点，弥补单纯的人工神经网络算法极易陷入局部最小值且不适合用于小规模数据的训练的不足，有效实现提高结直肠癌预测准确率与精确度。

本发明的第一目的是提供一种基于肠道菌群丰度的分类器建模评价校验方法。

为了实现上述目的，本发明采用如下一种技术方案：

一种基于肠道菌群丰度的分类器建模评价校验方法，该方法包括：

(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列，将获取的肠道菌群的DNA序列进行质量控制，并获取肠道菌群的DNA序列中的肠道菌群丰度，构建样本集；

(2)将样本集划分为训练样本集和测试样本集，分别运用支持向量机和人工神经网络进行训练和预测，并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集，其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果，构建出分类器模型；

(3)根据评价指标评价构建出的分类器模型，并选用检验方法对构建出的分类器模型进行校验，评价指标包括：敏感性、特异性和精确度。

作为进一步的优选方案，所述步骤(1)中，将获取的肠道菌群的DNA序列进行质量控制包括：

将获取的肠道菌群的DNA序列中质量低于33的碱基去掉。

作为进一步的优选方案，所述步骤(1)中，将获取肠道菌群的DNA序列中的肠道菌群丰度包括：

分别从界、门、纲、目、科、属、种七种水平上对各种肠道菌群的含量进行分析，获取肠道菌群的DNA序列中的肠道菌群丰度。

作为进一步的优选方案，所述步骤(1)中，构建的样本集中每个样本均包括：年龄、性别、肥胖指数、肠道菌群丰度和样本所属人群，所述样本所属人群包括健康人群和结直肠癌患者人群。

作为进一步的优选方案，所述步骤(2)的具体步骤为：

(2-1)将样本集划分为训练样本集和测试样本集，样本集的三分之二样本数据设置为训练样本集，样本集的剩余三分之一数据设置为测试样本集，训练样本集和测试样本集输入支持向量机模型进行训练和预测得到第一预测结果，同时训练样本集和测试样本集输入人工神经网络模型进行训练和预测得到第二预测结果；

(2-2)分别从第一预测结果和第二预测结果中选取部分样本作为训练集，第一预测结果和第二预测结果中剩余样本作为测试集，将训练集和测试集输入人工神经网络模型进行再次训练和预测，得出最后的分类预测结果，构建出分类器模型。

作为进一步的优选方案，所述步骤(3)中，评价指标的敏感性为：

其中，Sensitivity为敏感性，表示患者被正确预测为患病的百分比，TP为患者被预测为阳性的样本数量，FN为患者被预测为健康的样本数量；

评价指标的特异性为：

其中，Specificity为特异性，表示健康人被预测为健康的百分比，TN为健康人被正确预测为健康的样本数量，FP为健康人被预测为患者的样本数量；

评价指标的准确率为：

其中，Accuracy为准确率，表示样本被正确预测的百分比，TP为患者被预测为阳性的样本数量，FN为患者被预测为健康的样本数量，TN为健康人被正确预测为健康的样本数量，FP为健康人被预测为患者的样本数量。

作为进一步的优选方案，所述步骤(3)中，具体选用K折交叉验证法作为检验方法对构建出的分类器模型进行校验：

将样本集随机平均分成k个子集，1组作为测试样本，其余的K-1组作为训练样本；

将训练样本输入分类器模型，并使用测试样本测试分类器模型，得到分类率；重复上述过程，计算k次求得的分类率的平均值，作为分类器模型的真实分类率。

本发明的第二目的是提供一种基于肠道菌群丰度的分类器模型。

为了实现上述目的，本发明采用如下一种技术方案：

一种基于肠道菌群丰度的分类器模型，该模型基于一种基于肠道菌群丰度的分类器建模评价校验方法构建：

本发明的第三目的是提供一种计算机可读存储介质。

为了实现上述目的，本发明采用如下一种技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行以下处理：

本发明的第四目的是提供一种终端设备。

为了实现上述目的，本发明采用如下一种技术方案：

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行以下处理：

本发明的有益效果：

本发明的一种基于肠道菌群丰度的分类器建模评价校验方法及系统，根据影响结直肠癌的相关因素，如年龄、性别、肥胖指数和肠道菌群丰度作为模型的输入来构建分类器模型，体现不同的阶段变化显著的特点；并结合机器学习的相关算法，充分考虑疾病相关的影响因素并结合支持向量机和人工神经网络的算法两种机器学习算法的优缺点，单独的人工神经网络极易陷入局部最优值，使得预测结果不精确，而且适合大数据量的预测。支持向量机得到的是全局最优解，但适合比较小的数据集的预测，两者结合能从很大程度上避免两个单独模型的缺点。使得构建的分类器模型预测的结果达到最优。有效提高分类器的预测准确度和精确度。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本发明的方法流程图；

图2是本发明方法的具体流程图；

图3是本发明的分类器模型示意图。

图4是本发明的支持向量机线性分类示意图；

图5是本发明的支持向量机非线性分类示意图；

图6是本发明的人工神经网络局部最优结果；

图7是本发明的人工神经网络全局最优结果；

图8是本发明的支持向量机预测结果；

图9是本发明的人工神经网络预测结果；

图10是本发明的组合模型的实验结果。

具体实施方式：

应该指出，以下详细说明都是例示性的，旨在对本申请提供作为进一步的优选方案说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面结合附图与实施例对本发明作进一步说明。

实施例1：

为了实现上述目的，本发明采用如下一种技术方案：

如图1所示，

本方法结合了支持向量机和人工神经网络算法构建基于肠道菌群丰度的分类器模型，可应用于结直肠癌的预测，对于提高疾病预测的准确率具有重要作用。支持向量机不仅可以进行线性分类，如图4所示，而且可以进行非线性分类，如图5所示，适用于构建分类器模型这样的二分类问题。人工神经网络作为一种经典的预测算法，可以广泛的应用到非线性分类的问题中。

在本实施例中，如图2所示，该方法具体包括以下步骤：

步骤1：获取相关数据。

获取结直肠癌相关的样本数据，包括健康样本和患病样本，并且获取对应的肠道菌群的DNA序列。

步骤2：DNA序列质量控制并获取肠道菌群的DNA序列中的肠道菌群丰度

将获取的肠道菌群的DNA序列中质量低于33的碱基去掉。

原始DNA序列的碱基质量参差不齐，一些质量较低的碱基会影响整条DNA序列的质量，因此要将那些质量低的碱基去掉，本实施例用软件Trimmomatic对序列中低于33的碱基去掉。

人类肠道的菌群有千百种，不同水平(界、门、纲、目、科、属、种)菌群的含量会影响人是否患病，本实施例使用软件Metaphlan2从不同的水平上对各种菌群含量的分析。

构建的样本集中每个样本均包括：年龄、性别、肥胖指数、肠道菌群丰度和样本所属人群，所述样本所属人群包括健康人群和结直肠癌患者人群。

步骤3：构建分类器模型

建立支持向量机与人工神经网络预测模型，分别对模型参数进行优化，判断模型是否为最优，若是将预测结果作为支持向量机的输入重新训练测试，若否，返回继续优化参数。

如图3所示，

将样本集划分为训练样本集和测试样本集，样本集的三分之二样本数据设置为训练样本集，样本集的剩余三分之一数据设置为测试样本集，训练样本集和测试样本集输入支持向量机模型进行训练和预测得到第一预测结果，同时训练样本集和测试样本集输入人工神经网络模型进行训练和预测得到第二预测结果；

分别从第一预测结果和第二预测结果中选取部分样本作为训练集，第一预测结果和第二预测结果中剩余样本作为测试集，将训练集和测试集输入人工神经网络模型进行再次训练和预测，得出最后的分类预测结果，构建出分类器模型。

鉴于单独的人工神经网络模型都存在着自身的缺点：极易陷入局部最优值，难以得出全局最优解，如图6和图7所示；而支持向量机模型却有着与神经网络相反的优点—可以获取全局最优解，所以考虑将这两个模型的预测结果作为输入放进支持向量机的模型进行二次训练，经过神经网络后，数据的规模被压缩为较小的样本量，支持向量机则使用于小规模的数据样本的训练，从一定程度上解决了人工神经网络模型由于陷入局部最优值导致的预测精度低的问题。

本发明采用的人工神经网络是根据梯度下降的原则工作的，支持向量机通过选择不同的kernel函数是训练效果达到最佳。支持向量机模型的预测结果如图8所示；人工神经网络模型的预测结果如图9所示。最终的预测结果如图10所示。

步骤4：确定模型评价指标

常用的预测模型评价指标有敏感性(sensitivity)、特异性(specificity)和精确度(accuracy)。

评价指标的敏感性为：

评价指标的特异性为：

评价指标的准确率为：

步骤5：分类器模型的校验

本实施例具体选用K折交叉验证法作为检验方法对构建出的分类器模型进行校验：

本实施例并不局限于使用K折交叉验证法进行校验，还可选用留一法交叉验证方法。

实施例2：

为了实现上述目的，本发明采用如下一种技术方案：

实施例3：

本发明的第三目的是提供一种计算机可读存储介质。

为了实现上述目的，本发明采用如下一种技术方案：

实施例4：

本发明的第四目的是提供一种终端设备。

为了实现上述目的，本发明采用如下一种技术方案：

本发明的有益效果：

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于肠道菌群丰度的分类器建模评价校验方法，其特征是：该方法包括：

(3)根据评价指标评价构建出的分类器模型，并选用检验方法对构建出的分类器模型进行校验，评价指标包括：敏感性、特异性和精确度；

所述步骤(1)中，获取肠道菌群的DNA序列中的肠道菌群丰度包括：分别从界、门、纲、目、科、属、种七种水平上对各种肠道菌群的含量进行分析，获取肠道菌群的DNA序列中的肠道菌群丰度；构建的样本集中每个样本均包括：年龄、性别、肥胖指数、肠道菌群丰度和样本所属人群，所述样本所属人群包括健康人群和结直肠癌患者人群；

所述步骤(2)的具体步骤为：

(2-1)将样本集划分为训练样本集和测试样本集，样本集的三分之二样本数据设置为训练样本集，样本集的剩余三分之一数据设置为测试样本集，训练样本集和测试样本集输入支持向量机模型进行训练和预测得到第一预测结果，同时训练样本集和测试样本集输入人工神经网络模型进行训练和预测得到第二预测结果；在步骤(2)中，建立支持向量机与人工神经网络预测模型，分别对模型参数进行优化，判断模型是否为最优，若是将预测结果作为支持向量机的输入重新训练测试，若否，返回继续优化参数；

(2-2)分别从第一预测结果和第二预测结果中选取部分样本作为训练集，第一预测结果和第二预测结果中剩余样本作为测试集，将训练集和测试集输入支持向量机进行再次训练和预测，得出最后的分类预测结果，构建出分类器模型。

2.如权利要求1所述的一种基于肠道菌群丰度的分类器建模评价校验方法，其特征是：所述步骤(1)中，将获取的肠道菌群的DNA序列进行质量控制包括：

将获取的肠道菌群的DNA序列中质量低于33的碱基去掉。

3.如权利要求1所述的一种基于肠道菌群丰度的分类器建模评价校验方法，其特征是：所述步骤(3)中，评价指标的敏感性为：

评价指标的特异性为：

评价指标的准确率为：

4.如权利要求1所述的一种基于肠道菌群丰度的分类器建模评价校验方法，其特征是：所述步骤(3)中，具体选用K折交叉验证法作为检验方法对构建出的分类器模型进行校验：

5.一种基于肠道菌群丰度的分类器模型，其特征是：该模型基于一种基于肠道菌群丰度的分类器建模评价校验方法构建：

所述步骤(2)的具体步骤为：

6.一种计算机可读存储介质，其中存储有多条指令，其特征是：所述指令适于由终端设备的处理器加载并执行以下处理：

所述步骤(2)的具体步骤为：

7.一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征是：所述指令适于由处理器加载并执行以下处理：

所述步骤(2)的具体步骤为：