CN110289097A - 一种基于Xgboost神经网络堆叠模型的模式识别诊断系统 - Google Patents

一种基于Xgboost神经网络堆叠模型的模式识别诊断系统 Download PDF

Info

Publication number
CN110289097A
CN110289097A CN201910589080.1A CN201910589080A CN110289097A CN 110289097 A CN110289097 A CN 110289097A CN 201910589080 A CN201910589080 A CN 201910589080A CN 110289097 A CN110289097 A CN 110289097A
Authority
CN
China
Prior art keywords
neural network
training
xgboost
algorithm
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910589080.1A
Other languages
English (en)
Inventor
陆彬春
符礼丹
艾海男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201910589080.1A priority Critical patent/CN110289097A/zh
Publication of CN110289097A publication Critical patent/CN110289097A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Abstract

本发明设计了基于神经网络集成算法的无创检测识别系统。该系统首先通过数据预处理(基线处理和滤波等)对漂移进行补偿并消除不相关的信息,然后运用Bootstrap Aggregating方法对数据集进行划分,并将得到的训练集输入进BP神经网络进行训练,最后采用Xgboost的方法对神经网络的预测结果进行组合。本发明通过综合多个具有差异性的神经网络,避免了繁琐的参数调节过程,省去了对数据降维处理的特征提取过程,是一种端对端的系统,并且避免了过拟合现象,增加了疾病诊断识别算法的泛化能力。算法由Python平台搭建,最终取得高准确率、高特异性和高灵敏度,可在无创检测领域得到广泛应用。

Description

一种基于Xgboost神经网络堆叠模型的模式识别诊断系统
【技术领域】
本发明专利针对无创检测领域,特别涉及基于神经网络集成模型的疾病筛查的数据处理领域。
【背景技术】
脑电包含了大量的生理和病理信息,可以直接在人体上进行测量,适合于临床应用,能够为某些脑疾病提供诊断依据,甚至成为某些脑疾病有效的治疗手段。近年来,对认知功能的研究越来越受到人们的重视,有效的分析、评价认知功能,对认知障碍疾病的检测和治疗有着重大意义。然而,分类算法的选择显著影响疾病系统的识别效果,并且目前鲜少有针对无创诊断分类算法的研究。并且,采集的信号数据往往是高维非线性的,传统机器学习方法难以有效地去对该数据进行识别,从而导致识别过程不稳定,识别精度低等诸多问题。
针对上述现象,本申请人设计了一种基于Xgboost神经网络堆叠模型的模式识别诊断系统。此算法针对数据采集的后续数据处理及识别过程,着重于提高识别精度和鲁棒性,可在无创检测领域得到广泛应用。
【发明内容】
针对现有方法的不足,本发明集成多个具有差异性的神经网络,避免了过拟合现象,增加了分类算法的稳定性和泛化能力,从而提高疾病识别的精度及其应用能力。为达到上述目的,本发明的技术方案如下:
一种基于神经网络集成的无创诊断模式识别系统,包括下列步骤:
步骤1:采集脑电数据,并进行数据预处理后得到样本集D;
步骤2:对样本集D进行Bootstrap Aggregating方法划分,即样本的有放回抽取得到n个子训练集,并将这些子训练分别用于n个神经网络(基分类器)的训练。
步骤3:训练好的基分类器对训练集的预测值与训练集真实值输入Xgboost元分类器进行训练,得到最佳的集成方法。
步骤4:将测试数据输入已经训练好的算法中,得到最终诊断结果。
所述步骤1包括以下步骤:
步骤1.1:数据采集:使用便携式脑电信号采集方法,进行脑电样本数据的采集;
步骤1.2:数据预处理:采集到的信号数据经过基线处理、滤波和标准化后构成初始历史数据样本集D,数据均在[0,1]区间。
所述步骤1.2中基线处理是每个传感器的检测值减去其基线值,运用小波变换去噪,最后用Z-score进行标准化至[0,1]区间。
所述步骤2包括以下步骤:
步骤2.1:将训练数据进行n次有放回的取样,得到n个训练集;
步骤2.2:将n个训练集分别输入n个神经网络进行训练,并进行五折交叉验证,得到n个训练好的基分类器;
步骤2.3:将训练后的n个神经网络进行保存。
所述步骤3包括以下步骤:
步骤3.1:将训练中五折交叉验证后训练数据的预测标签值和训练数据的真实标签值输入Xgboost元分类器进行训练,即元分类器寻找到一种最优的基分类器组合方法,使得最终预测结果最接近真实值;
步骤3.2:将训练后的元模型进行保存。
所述步骤4包括以下步骤:
步骤4.1:将测试数据输入n个基分类器,得到n个预测值;
步骤4.2:将得到的n个预测值输入元模型进行决策,得到最终的预测结果。
本发明利用神经网络集成,再用Xgboost进行最终的结果决策。采用本发明应用于无损检测的数据处理,不仅克服了原有诊断算法基于小样本容易过拟合的缺陷,并且同时提高准确率、灵敏度和特异性均至93%以上。
【附图说明】
图1神经网络结构图
图2 Bootstrap Aggregating方法示意图
图3算法流程图
【具体实施方式】
下面结合附图,详细说明本发明方法的实施过程。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
本专利中的脑电数据通过便携式脑电信号采集方法进行采集,采集后进行数据预处理后输入本算法进行模式识别。本文采用基于Xgboost神经网络堆叠模型的算法,每个神经网络的架构如图1。首先运用Bootstrap Aggregating进行数据集划分和多个基分类神经网络的训练,如图2。然后对综合多个基分类器结果的元分类器进行训练,得到最佳的判定方式。最后将整个模型进行保存,将测试数据输入多个基分类器后,基分类器输出每个基分类器输出一个分类结果,将所有基分类器的分类结果输入元模型得到最终的分类结果。
图3是算法流程图,本发明实现工具是基于Python3.6.5的keras工具包和sklearn工具包,本发明实现过程包括如下步骤:
步骤1:采集脑电数据,并进行数据预处理后得到样本集D,样本集划分为训练集和测试集;
步骤2:对训练集进行Bootstrap Aggregating方法划分,即样本的有放回抽取得到n个子训练集,并将这些子训练运用五折交叉验证,分别运用于n个神经网络(基分类器)的训练。神经网络的结构要有差异化,因此将每层神经网络的神经元个数设置为一定范围内的随机值,并且将随机失活层的概率值也设置为一个浮动的范围。
步骤3:训练好的基分类器对训练集的预测值与训练集真实值输入Xgboost元分类器进行训练,得到最佳的集成方法。
步骤4:将测试数据输入已经训练好的算法中,得到最终诊断结果。
所述步骤1包括以下步骤:
步骤1.1:数据采集:使用便携式脑电信号采集方法,进行脑电样本数据的采集;
步骤1.2:数据预处理:采集到的信号数据经过基线处理、滤波和标准化后构成初始历史数据样本集D,数据均在[0,1]区间。
所述步骤1.2中基线处理是每个传感器的检测值减去其基线值,运用小波变换去噪,最后用Z-score进行标准化,经过处理的数据的均值为0,标准差为1。
所述步骤2包括以下步骤:
步骤2.1:将训练数据进行n次有放回的取样,得到n个训练集;
步骤2.2:将n个训练集分别输入n个神经网络进行训练。每个训练集被均分为五份,每次按顺序选择一份作为预测集,其他四份输入神经网络训练后,再对预测集进行预测。训练五个轮次后,这个训练集的预测标签都可以获得,并得到一个训练好的神经网络,也叫基分类器。同理,n个训练集可以得到n个训练好的基分类器,以及对应的训练集的预测标签;
步骤2.3:将训练后的n个神经网络进行保存。
所述步骤3包括以下步骤:
步骤3.1:将训练中预测标签值和训练数据的对应真实标签值输入Xgboost元分类器进行训练。由于有多个基分类器,得出了多个不同的预测结果,因此需要一个合适的元分类器寻找到一种最优的基分类器组合方法,使得最终预测结果最接近真实值,得到更好的模式识别效果;
步骤3.2:将训练后的元模型进行保存。
所述步骤4包括以下步骤:
步骤4.1:将测试集数据输入n个基分类器,得到n个预测值;
步骤4.2:将得到的n个预测值输入元模型进行决策,得到最终的预测结果。
本专利方法第一次使用在无创检测领域,对比四种传统模式识别方法:KNN,SVM,SGD和Adaboost如表1。结论可得,本方法取得更高的准确率、特异性和灵敏度,分别为93.57%,93.78%和94.05%,并且且置信区间更小,说明模型的稳定性更好。因此,在实际应用中,使用本算法进行模式识别具有更精准和稳定的识别效果,可进行广泛推广于无创检测的信号处理领域。
表1模型结果对比
应说明的是,以上实施例仅用以说明本发明专利模式识别算法的说明,而不是对本发明专利的限定。本领域的普通技术人员应当理解,可以对本设计的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.基于Xgboost神经网络堆叠模型的模式识别算法,其特征设所述方法包括以下步骤:
步骤1:采集脑电数据,并进行数据预处理后得到样本集D;
步骤2:对样本集D进行Bootstrap Aggregating方法划分,即样本的有放回抽取得到n个子训练集,并将这些子训练分别用于n个不同结构的神经网络(基分类器)的训练。
步骤3:训练好的基分类器对训练集的预测值与训练集真实值输入Xgboost元分类器进行训练,得到最佳的集成方法。
步骤4:将测试数据输入已经训练好的算法中,得到最终诊断结果。
2.根据权利要求1所述基于Xgboost神经网络堆叠模型的模式识别算法,其特征是第一次将此方法运用于无损疾病检测领域,特别是癫痫的脑信号处理及疾病判断。
3.根据权利要求1所述基于Xgboost神经网络堆叠模型的模式识别算法,其特征是所述步骤包括所述步骤1.2中基线处理是每个传感器的检测值减去其基线值,运用小波变换去噪,最后用Z-score进行标准化至[0,1]区间。
4.根据权利要求1所述基于Xgboost神经网络堆叠模型的模式识别算法,其特征是所述步骤2包括以下步骤:
步骤2.1:将训练数据进行n次有放回的取样,得到n个训练集;
步骤2.2:将n个训练集分别输入n个神经网络进行训练,并进行五折交叉验证,得到n个训练好的基分类器;
步骤2.3:将训练后的n个神经网络进行保存。
5.根据权利要求1所述基于Xgboost神经网络堆叠模型的模式识别算法,其特征是所述步骤3包括以下步骤:
步骤3.1:将训练中五折交叉验证后训练数据的预测标签值和训练数据的真实标签值输入Xgboost元分类器进行训练,即元分类器寻找到一种最优的基分类器组合方法,使得最终预测结果最接近真实值;
步骤3.2:将训练后的元模型进行保存。
6.根据权利要求1所述基于Xgboost神经网络堆叠模型的模式识别算法,其特征是所述步骤4包括以下步骤:
步骤4.1:将测试数据输入n个基分类器,得到n个预测值;
步骤4.2:将得到的n个预测值输入元模型进行决策,得到最终的预测结果。
CN201910589080.1A 2019-07-02 2019-07-02 一种基于Xgboost神经网络堆叠模型的模式识别诊断系统 Pending CN110289097A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910589080.1A CN110289097A (zh) 2019-07-02 2019-07-02 一种基于Xgboost神经网络堆叠模型的模式识别诊断系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910589080.1A CN110289097A (zh) 2019-07-02 2019-07-02 一种基于Xgboost神经网络堆叠模型的模式识别诊断系统

Publications (1)

Publication Number Publication Date
CN110289097A true CN110289097A (zh) 2019-09-27

Family

ID=68021665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910589080.1A Pending CN110289097A (zh) 2019-07-02 2019-07-02 一种基于Xgboost神经网络堆叠模型的模式识别诊断系统

Country Status (1)

Country Link
CN (1) CN110289097A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708865A (zh) * 2020-06-18 2020-09-25 海南大学 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN113408617A (zh) * 2021-06-18 2021-09-17 湘潭大学 一种基于XGBoost与Stacking模型融合的非侵入式负荷识别方法
CN113704756A (zh) * 2021-07-19 2021-11-26 广州大学 基于集成策略的挖矿型恶意代码鲁棒性检测方法、系统及介质
WO2022261950A1 (en) * 2021-06-18 2022-12-22 Huawei Cloud Computing Technologies Co., Ltd. System and method for model composition of neural networks

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2822876A1 (en) * 2010-12-23 2012-06-28 Crc Care Pty Ltd Analyte ion detection method and device
CN103955742A (zh) * 2014-04-28 2014-07-30 淮阴工学院 一种基于集成学习的pm2.5预报方法
CN105930861A (zh) * 2016-04-13 2016-09-07 西安西拓电气股份有限公司 一种基于Adaboost算法的变压器故障诊断方法
US20180333063A1 (en) * 2017-05-22 2018-11-22 Genetesis Inc. Machine differentiation of abnormalities in bioelectromagnetic fields
CN108985335A (zh) * 2018-06-19 2018-12-11 中国原子能科学研究院 核反应堆包壳材料辐照肿胀的集成学习预测方法
CN109063712A (zh) * 2018-06-22 2018-12-21 哈尔滨工业大学 一种基于超声图像的多模型肝脏弥漫性疾病智能诊断方法及系统
CN109448855A (zh) * 2018-09-17 2019-03-08 大连大学 一种基于cnn和模型融合的糖尿病血糖预测方法
CN109754002A (zh) * 2018-12-24 2019-05-14 上海大学 一种基于深度学习的隐写分析混合集成方法
CN109934089A (zh) * 2018-10-31 2019-06-25 北京航空航天大学 基于监督梯度提升器的多级癫痫脑电信号自动识别方法
CN109924973A (zh) * 2019-01-18 2019-06-25 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种基于gbdt模型的癫痫前期eeg信号识别方法与云端系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2822876A1 (en) * 2010-12-23 2012-06-28 Crc Care Pty Ltd Analyte ion detection method and device
CN103955742A (zh) * 2014-04-28 2014-07-30 淮阴工学院 一种基于集成学习的pm2.5预报方法
CN105930861A (zh) * 2016-04-13 2016-09-07 西安西拓电气股份有限公司 一种基于Adaboost算法的变压器故障诊断方法
US20180333063A1 (en) * 2017-05-22 2018-11-22 Genetesis Inc. Machine differentiation of abnormalities in bioelectromagnetic fields
CN108985335A (zh) * 2018-06-19 2018-12-11 中国原子能科学研究院 核反应堆包壳材料辐照肿胀的集成学习预测方法
CN109063712A (zh) * 2018-06-22 2018-12-21 哈尔滨工业大学 一种基于超声图像的多模型肝脏弥漫性疾病智能诊断方法及系统
CN109448855A (zh) * 2018-09-17 2019-03-08 大连大学 一种基于cnn和模型融合的糖尿病血糖预测方法
CN109934089A (zh) * 2018-10-31 2019-06-25 北京航空航天大学 基于监督梯度提升器的多级癫痫脑电信号自动识别方法
CN109754002A (zh) * 2018-12-24 2019-05-14 上海大学 一种基于深度学习的隐写分析混合集成方法
CN109924973A (zh) * 2019-01-18 2019-06-25 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种基于gbdt模型的癫痫前期eeg信号识别方法与云端系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张洪侠: "基于XGBoost算法的2型糖尿病精准预测模型研究", 《中国实验诊断学》 *
徐伟: "基于XGBoost方法在脑电波数据上的大脑年龄诊断研究_徐伟", 《温州大学学报(自然科学版)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708865A (zh) * 2020-06-18 2020-09-25 海南大学 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN111708865B (zh) * 2020-06-18 2021-07-09 海南大学 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN113408617A (zh) * 2021-06-18 2021-09-17 湘潭大学 一种基于XGBoost与Stacking模型融合的非侵入式负荷识别方法
WO2022261950A1 (en) * 2021-06-18 2022-12-22 Huawei Cloud Computing Technologies Co., Ltd. System and method for model composition of neural networks
CN113704756A (zh) * 2021-07-19 2021-11-26 广州大学 基于集成策略的挖矿型恶意代码鲁棒性检测方法、系统及介质

Similar Documents

Publication Publication Date Title
Rubin et al. Recognizing abnormal heart sounds using deep learning
CN110289097A (zh) 一种基于Xgboost神经网络堆叠模型的模式识别诊断系统
CN110811609B (zh) 基于自适应模板匹配与机器学习算法融合的癫痫棘波智能检测装置
Guo et al. Automatic epileptic seizure detection in EEGs based on line length feature and artificial neural networks
CN109934089B (zh) 基于监督梯度提升器的多级癫痫脑电信号自动识别方法
Hulata et al. A method for spike sorting and detection based on wavelet packets and Shannon's mutual information
Christodoulou et al. Unsupervised pattern recognition for the classification of EMG signals
CN110070105B (zh) 基于元学习实例快速筛选的脑电情绪识别方法、系统
Patil et al. A Novel Approach for ABO Blood Group Prediction using Fingerprint through Optimized Convolutional Neural Network
CN112674782B (zh) 癫痫患者发作间期痫样电活动检测装置和方法
CN113855038B (zh) 基于多模型集成的心电信号危急值的预测方法及装置
CN108256579A (zh) 一种基于先验知识的多模态民族认同感量化测量方法
CN107045624B (zh) 一种基于最大加权团的脑电信号预处理与分类方法
CN111488934A (zh) 脑影像数据处理方法、存储介质、计算机设备和装置
CN115496953A (zh) 基于时空图卷积的脑网络分类方法
CN108647584A (zh) 基于稀疏表示和神经网络的心律不齐识别分类方法
CN110827271A (zh) 基于功能影像数据构建个体辨识力提高的脑功能网络方法
CN116484290A (zh) 一种基于Stacking集成的抑郁症识别模型构建方法
CN112869743A (zh) 一种考虑认知分心的运动起始意图神经解析方法
Zayrit et al. Daubechies Wavelet Cepstral Coefficients for Parkinson's Disease Detection
CN110200624A (zh) 基于卷积神经网络-循环神经网络-支持向量机混合模型的疾病识别算法
Nanthini et al. Different approaches of analysing EEG signals for seizure detection
US20210199643A1 (en) Fluid classification
Bengacemi et al. Surface EMG Signal Classification for Parkinson's Disease using WCC Descriptor and ANN Classifier.
Kim et al. A study on user recognition using 2D ECG image based on ensemble networks for intelligent vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190927

WD01 Invention patent application deemed withdrawn after publication