CN110289097A

CN110289097A - 一种基于Xgboost神经网络堆叠模型的模式识别诊断系统

Info

Publication number: CN110289097A
Application number: CN201910589080.1A
Authority: CN
Inventors: 陆彬春; 符礼丹; 艾海男
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2019-09-27

Abstract

本发明设计了基于神经网络集成算法的无创检测识别系统。该系统首先通过数据预处理(基线处理和滤波等)对漂移进行补偿并消除不相关的信息，然后运用Bootstrap Aggregating方法对数据集进行划分，并将得到的训练集输入进BP神经网络进行训练，最后采用Xgboost的方法对神经网络的预测结果进行组合。本发明通过综合多个具有差异性的神经网络，避免了繁琐的参数调节过程，省去了对数据降维处理的特征提取过程，是一种端对端的系统，并且避免了过拟合现象，增加了疾病诊断识别算法的泛化能力。算法由Python平台搭建，最终取得高准确率、高特异性和高灵敏度，可在无创检测领域得到广泛应用。

Description

一种基于Xgboost神经网络堆叠模型的模式识别诊断系统

【技术领域】

本发明专利针对无创检测领域，特别涉及基于神经网络集成模型的疾病筛查的数据处理领域。

【背景技术】

脑电包含了大量的生理和病理信息，可以直接在人体上进行测量，适合于临床应用，能够为某些脑疾病提供诊断依据,甚至成为某些脑疾病有效的治疗手段。近年来，对认知功能的研究越来越受到人们的重视，有效的分析、评价认知功能，对认知障碍疾病的检测和治疗有着重大意义。然而，分类算法的选择显著影响疾病系统的识别效果，并且目前鲜少有针对无创诊断分类算法的研究。并且，采集的信号数据往往是高维非线性的，传统机器学习方法难以有效地去对该数据进行识别，从而导致识别过程不稳定，识别精度低等诸多问题。

针对上述现象，本申请人设计了一种基于Xgboost神经网络堆叠模型的模式识别诊断系统。此算法针对数据采集的后续数据处理及识别过程，着重于提高识别精度和鲁棒性，可在无创检测领域得到广泛应用。

【发明内容】

针对现有方法的不足，本发明集成多个具有差异性的神经网络，避免了过拟合现象，增加了分类算法的稳定性和泛化能力，从而提高疾病识别的精度及其应用能力。为达到上述目的，本发明的技术方案如下：

一种基于神经网络集成的无创诊断模式识别系统，包括下列步骤：

步骤1：采集脑电数据，并进行数据预处理后得到样本集D；

步骤2：对样本集D进行Bootstrap Aggregating方法划分，即样本的有放回抽取得到n个子训练集，并将这些子训练分别用于n个神经网络(基分类器)的训练。

步骤3：训练好的基分类器对训练集的预测值与训练集真实值输入Xgboost元分类器进行训练，得到最佳的集成方法。

步骤4：将测试数据输入已经训练好的算法中，得到最终诊断结果。

所述步骤1包括以下步骤：

步骤1.1：数据采集：使用便携式脑电信号采集方法，进行脑电样本数据的采集；

步骤1.2：数据预处理：采集到的信号数据经过基线处理、滤波和标准化后构成初始历史数据样本集D，数据均在[0,1]区间。

所述步骤1.2中基线处理是每个传感器的检测值减去其基线值，运用小波变换去噪，最后用Z-score进行标准化至[0,1]区间。

所述步骤2包括以下步骤：

步骤2.1：将训练数据进行n次有放回的取样，得到n个训练集；

步骤2.2：将n个训练集分别输入n个神经网络进行训练，并进行五折交叉验证，得到n个训练好的基分类器；

步骤2.3：将训练后的n个神经网络进行保存。

所述步骤3包括以下步骤：

步骤3.1：将训练中五折交叉验证后训练数据的预测标签值和训练数据的真实标签值输入Xgboost元分类器进行训练，即元分类器寻找到一种最优的基分类器组合方法，使得最终预测结果最接近真实值；

步骤3.2：将训练后的元模型进行保存。

所述步骤4包括以下步骤：

步骤4.1：将测试数据输入n个基分类器，得到n个预测值；

步骤4.2：将得到的n个预测值输入元模型进行决策，得到最终的预测结果。

本发明利用神经网络集成，再用Xgboost进行最终的结果决策。采用本发明应用于无损检测的数据处理，不仅克服了原有诊断算法基于小样本容易过拟合的缺陷，并且同时提高准确率、灵敏度和特异性均至93％以上。

【附图说明】

图1神经网络结构图

图2 Bootstrap Aggregating方法示意图

图3算法流程图

【具体实施方式】

下面结合附图,详细说明本发明方法的实施过程。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。

本专利中的脑电数据通过便携式脑电信号采集方法进行采集，采集后进行数据预处理后输入本算法进行模式识别。本文采用基于Xgboost神经网络堆叠模型的算法，每个神经网络的架构如图1。首先运用Bootstrap Aggregating进行数据集划分和多个基分类神经网络的训练，如图2。然后对综合多个基分类器结果的元分类器进行训练，得到最佳的判定方式。最后将整个模型进行保存，将测试数据输入多个基分类器后，基分类器输出每个基分类器输出一个分类结果，将所有基分类器的分类结果输入元模型得到最终的分类结果。

图3是算法流程图，本发明实现工具是基于Python3.6.5的keras工具包和sklearn工具包，本发明实现过程包括如下步骤：

步骤1：采集脑电数据，并进行数据预处理后得到样本集D，样本集划分为训练集和测试集；

步骤2：对训练集进行Bootstrap Aggregating方法划分，即样本的有放回抽取得到n个子训练集，并将这些子训练运用五折交叉验证，分别运用于n个神经网络(基分类器)的训练。神经网络的结构要有差异化，因此将每层神经网络的神经元个数设置为一定范围内的随机值，并且将随机失活层的概率值也设置为一个浮动的范围。

所述步骤1包括以下步骤：

所述步骤1.2中基线处理是每个传感器的检测值减去其基线值，运用小波变换去噪，最后用Z-score进行标准化，经过处理的数据的均值为0，标准差为1。

所述步骤2包括以下步骤：

步骤2.2：将n个训练集分别输入n个神经网络进行训练。每个训练集被均分为五份，每次按顺序选择一份作为预测集，其他四份输入神经网络训练后，再对预测集进行预测。训练五个轮次后，这个训练集的预测标签都可以获得，并得到一个训练好的神经网络，也叫基分类器。同理，n个训练集可以得到n个训练好的基分类器，以及对应的训练集的预测标签；

步骤2.3：将训练后的n个神经网络进行保存。

所述步骤3包括以下步骤：

步骤3.1：将训练中预测标签值和训练数据的对应真实标签值输入Xgboost元分类器进行训练。由于有多个基分类器，得出了多个不同的预测结果，因此需要一个合适的元分类器寻找到一种最优的基分类器组合方法，使得最终预测结果最接近真实值，得到更好的模式识别效果；

步骤3.2：将训练后的元模型进行保存。

所述步骤4包括以下步骤：

步骤4.1：将测试集数据输入n个基分类器，得到n个预测值；

本专利方法第一次使用在无创检测领域，对比四种传统模式识别方法：KNN，SVM，SGD和Adaboost如表1。结论可得，本方法取得更高的准确率、特异性和灵敏度，分别为93.57％，93.78％和94.05％，并且且置信区间更小，说明模型的稳定性更好。因此，在实际应用中，使用本算法进行模式识别具有更精准和稳定的识别效果，可进行广泛推广于无创检测的信号处理领域。

表1模型结果对比

应说明的是，以上实施例仅用以说明本发明专利模式识别算法的说明，而不是对本发明专利的限定。本领域的普通技术人员应当理解，可以对本设计的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于Xgboost神经网络堆叠模型的模式识别算法，其特征设所述方法包括以下步骤：

步骤1：采集脑电数据，并进行数据预处理后得到样本集D；

步骤2：对样本集D进行Bootstrap Aggregating方法划分，即样本的有放回抽取得到n个子训练集，并将这些子训练分别用于n个不同结构的神经网络(基分类器)的训练。

2.根据权利要求1所述基于Xgboost神经网络堆叠模型的模式识别算法，其特征是第一次将此方法运用于无损疾病检测领域，特别是癫痫的脑信号处理及疾病判断。

3.根据权利要求1所述基于Xgboost神经网络堆叠模型的模式识别算法，其特征是所述步骤包括所述步骤1.2中基线处理是每个传感器的检测值减去其基线值，运用小波变换去噪，最后用Z-score进行标准化至[0,1]区间。

4.根据权利要求1所述基于Xgboost神经网络堆叠模型的模式识别算法，其特征是所述步骤2包括以下步骤：

步骤2.3：将训练后的n个神经网络进行保存。

5.根据权利要求1所述基于Xgboost神经网络堆叠模型的模式识别算法，其特征是所述步骤3包括以下步骤：

步骤3.2：将训练后的元模型进行保存。

6.根据权利要求1所述基于Xgboost神经网络堆叠模型的模式识别算法，其特征是所述步骤4包括以下步骤：

步骤4.1：将测试数据输入n个基分类器，得到n个预测值；