CN115394440A - 基于模型融合的葡萄糖浓度预测方法及相关设备 - Google Patents
基于模型融合的葡萄糖浓度预测方法及相关设备 Download PDFInfo
- Publication number
- CN115394440A CN115394440A CN202210958683.6A CN202210958683A CN115394440A CN 115394440 A CN115394440 A CN 115394440A CN 202210958683 A CN202210958683 A CN 202210958683A CN 115394440 A CN115394440 A CN 115394440A
- Authority
- CN
- China
- Prior art keywords
- training
- model
- sample data
- data set
- prediction result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/145—Measuring characteristics of blood in vivo, e.g. gas concentration, pH value; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid, cerebral tissue
- A61B5/14532—Measuring characteristics of blood in vivo, e.g. gas concentration, pH value; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid, cerebral tissue for measuring glucose, e.g. by tissue impedance measurement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Emergency Medicine (AREA)
- Optics & Photonics (AREA)
- Evolutionary Computation (AREA)
- Heart & Thoracic Surgery (AREA)
- General Engineering & Computer Science (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Veterinary Medicine (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本申请提供一种基于模型融合的葡萄糖浓度预测方法及相关设备,在获取到初始样本数据集后,采用卡尔曼滤波算法对初始样本数据集中的传感器电流信号进行降噪平滑处理,使电流信号更接近真实值,提高预测结果的精度;基于K折交叉验证,将优化后的LSTM模型得到的对葡萄糖浓度的初步预测结果输入优化后的XGBoost模型,得到葡萄糖浓度的最终预测结果。利用模型融合的思想,将LSTM模型的初步预测结果作为XGBoost模型输入,充分发挥LSTM模型和XGBoost模型的各自优势,提高葡萄糖浓度预测的精度。采用K折交叉验证的方式可以降低模型在构建和融合过程中出现过拟合的风险并提高模型的泛化能力,提高预测结果的精度。
Description
技术领域
本申请涉及医学技术技术领域,尤其涉及一种基于模型融合的葡萄糖浓度预测方法及相关设备。
背景技术
血糖浓度是指人体血液中葡萄糖的浓度,机体许多组织、脏器都是以葡萄糖来作为能源,尤其是大脑细胞,主要的能源是依靠葡萄糖,所以血液中葡萄糖的浓度应该在一个恒定的水平,因此通过葡萄糖浓度监测有效地了解自身葡萄糖浓度控制的水平及葡萄糖浓度变化的影响因素是非常有意义的。连续血糖监测(Continues Glucose Monitoring,CGM)是通过葡萄糖传感器监测皮下组织液的葡萄糖浓度来间接反映葡萄糖浓度水平的监测技术,可提供连续、全面、可靠的血糖信息,了解血糖波动的趋势,发现不易监测的高血糖和低血糖。
在人工智能普遍应用的当下,一些主流的机器学习算法被应用在葡萄糖浓度预测,如线性回归、支持向量回归、AR(自回归)模型等。虽然单个可以对葡萄糖浓度进行一定的预测,但葡萄糖浓度受很多因素的影响,并且任何一种单一的模型都有其局限性,且模型构建过程存在较大的过拟合风险,而传感器监测采集到的数据也存在一定的噪声干扰,都会降低映葡萄糖浓度预测的精度。
发明内容
有鉴于此,本申请的目的在于提出一种基于模型融合的葡萄糖浓度预测方法及相关设备。
基于上述目的,本申请的第一方面提供了一种基于模型融合的葡萄糖浓度预测方法,包括:
获取初始样本数据集;
利用卡尔曼滤波算法对所述初始样本数据集进行降噪平滑处理,得到样本数据集;其中,所述样本数据集包括第一测试集和第一训练集;
基于K折交叉验证,将所述样本数据集输入优化后的LSTM模型,得到葡萄糖浓度的初步预测结果;
基于所述K折交叉验证,将所述初步预测结果输入优化后的XGBoost模型,得到葡萄糖浓度的最终预测结果。
可选地,所述基于K折交叉验证,将所述样本数据集输入优化后的LSTM模型,得到葡萄糖浓度的初步预测结果,包括:
将所述第一训练集分为K个第一子样本;
对于K折交叉验证中的任意一次验证:
选取一个所述第一子样本作为第一验证集,其余K-1个所述第一子样本作为第一训练样本;基于所述第一训练样本,利用所述K折交叉验证训练LSTM模型;利用所述粒子群优化算法优化所述LSTM模型的超参数,得到所述优化后的LSTM模型;利用所述优化后的LSTM模型对所述第一验证集进行预测,得到第一预测数据;利用所述优化后的LSTM模型对所述第一测试集进行预测,得到第二预测数据;
将K次验证得到的K个所述第一预测数据进行组合,得到第二训练集,将K次验证得到的K个所述第二预测数据的平均值作为第二测试集;其中,每次验证选取不同的所述第一子样本作为所述第一验证集,所述初步预测结果包括所述第二训练集和所述第二测试集。
可选地,所述基于所述K折交叉验证,将所述初步预测结果输入优化后的XGBoost模型,得到葡萄糖浓度的最终预测结果,包括:
将所述第二训练集分为K个第二子样本;
对于K折交叉验证中的任意一次验证:
选取一个所述第二子样本作为第二验证集,其余K-1个所述第二子样本作为第二训练样本;基于所述第二训练样本,利用所述K折交叉验证训练XGBoost模型;利用所述粒子群优化算法优化所述XGBoost模型的超参数,得到所述优化后的XGBoost模型;利用所述优化后的XGBoost模型对所述第二测试集进行预测,得到第三预测数据;
将K次验证得到的K个所述第三预测数据的平均值作为所述最终预测结果;其中,每次验证选取不同的所述第二子样本作为所述第二验证集。
可选地,在基于所述第一训练样本,利用所述K折交叉验证训练LSTM模型之前,基于模型融合的葡萄糖浓度预测方法还包括:
对所述第一训练样本进行缺省值处理;
其中,所述缺省值处理包括:确定所述第一训练样本中的缺失值及所述缺失值邻域的非缺失值;根据所述非缺失值,采用k最近邻算法对所述缺失值进行插补。
可选地,在基于所述第二训练样本,利用所述K折交叉验证训练XGBoost模型之前,基于模型融合的葡萄糖浓度预测方法还包括:
对所述第二训练样本进行归一化处理和时间序列转化处理:
其中,所述归一化处理包括:将所述第二训练样本中的数据统一映射到[0,1]区间上;
所述时间序列转化处理包括:将所述第二训练样本中的数据转化为带有时间序列的N维矩阵。
可选地,在利用卡尔曼滤波算法对所述初始样本数据集进行降噪平滑处理,得到样本数据集之前,基于模型融合的葡萄糖浓度预测方法还包括:
通过皮尔逊相关系数对所述初始样本数据集进行筛选。
可选地,所述利用卡尔曼滤波算法对所述初始样本数据集进行降噪平滑处理,得到样本数据集,包括:
利用卡尔曼滤波算法对样所述初始本数据集进行降噪平滑处理,将所述初始本数据集中的传感器电流信号转化为去噪电流信号,得到所述样本数据集。
本申请的第二方面提供了一种基于模型融合的葡萄糖浓度预测装置,包括:
数据获取模块,被配置为:获取初始样本数据集;
去噪模块,被配置为:利用卡尔曼滤波算法对所述初始样本数据集进行降噪平滑处理,得到样本数据集;其中,所述样本数据包括第一测试集和第一训练集;
第一融合模块,被配置为:基于K折交叉验证,将所述样本数据集输入优化后的LSTM模型,得到初步预测结果;
第二融合模块,被配置为:基于所述K折交叉验证,将所述初步预测结果输入优化后的XGBoost模型,得到最终预测结果。
本申请的第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本申请第一方面提供的所述的方法。
本申请的第四方面提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行本申请第一方面提供的所述方法。
从上面所述可以看出,本申请提供的基于模型融合的葡萄糖浓度预测方法及相关设备,具有着以下有益效果:在获取到初始样本数据集后,利用卡尔曼滤波算法对初始样本数据集进行降噪平滑处理,得到样本数据集,采用卡尔曼滤波算法对初始样本数据集中的传感器电流信号进行降噪平滑处理,使电流信号更接近真实值,提高预测结果的精度;其中,样本数据包括第一测试集和第一训练集;基于K折交叉验证,将样本数据集输入优化后的LSTM模型,得到葡萄糖浓度的初步预测结果;并将初步预测结果输入优化后的XGBoost模型,得到葡萄糖浓度的最终预测结果。利用模型融合的思想,将LSTM模型的初步预测结果作为XGBoost模型输入,充分发挥LSTM模型和XGBoost模型的各自优势,提高葡萄糖浓度预测的精度。采用K折交叉验证的方式可以降低LSTM模型和XGBoost模型在构建和融合过程中出现过拟合的风险并提高LSTM模型和XGBoost模型的泛化能力,提高预测结果的精度。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例基于模型融合的葡萄糖浓度预测方法的流程图;
图2为本申请实施例得到初步预测结果的流程图;
图3为本申请实施例的模型融合及五折交叉验证的逻辑示意图;
图4为本申请实施例的粒子群优化算法的逻辑示意图;
图5为本申请实施例得到最终预测结果的流程图;
图6为本申请实施例基于模型融合的葡萄糖浓度预测装置的结构示意图;
图7为本申请实施例电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
高血糖是因为胰岛素分泌绝对或相对不足引起的以空腹或餐后血糖值高为主要表现的代谢异常综合症,极易引发全身各种急、慢性并发症,是危害人类健康的一大杀手。目前,医学上并没有可以完全根治糖尿病的方法,由于其是一种慢性病,只有通过长期监测血糖值这一方法才能保障糖尿病患者的生命安全。因此,对血糖的监测就显得至关重要。而在血糖检测方面,目前国际上普遍使用的是侵入式的血糖检测,该方法通过指尖采血的形式来检测血糖值,检测方法简单,随时可以进行操作。但一方面由于高血糖患者一天内需要进行3~5次采血检测且需要长期检测,而检测所需使用的针头、检测试纸是一次性消耗物品,长期检测成本较高;另一方面,由于每次检测都需要使用针头扎破患者手指来获取指尖血进行检测,容易对患者造成生理与心理上的双重伤害。于是,微创的血糖检测方法也逐渐出现,但是由于微创方法多是通过体液以及组织间液来进行血糖估计,但是由于体液及组织间液里的葡萄糖含量较血液中更少,且与血液中的真实血糖值存在时间延迟,所以得到的血糖估计数值往往和真实血糖值有较大偏差,并且多数产品也不能实现连续监测,无法动态监测血糖的变化范围,一旦血糖值突变而无法监测可能会带来危机健康的严重后果。基于以上,越来越多糖尿病患者期待通过无创的方法实现血糖监测。连续血糖监测(Continues Glucose Monitoring,CGM)是通过葡萄糖传感器监测皮下组织液的葡萄糖浓度来间接反映葡萄糖浓度水平的监测技术,可提供连续、全面、可靠的血糖信息,了解血糖波动的趋势,发现不易监测的高血糖和低血糖,具体到无创血糖检测领域,其多用于结合可穿戴设备实现无创血糖检测。在此技术背景下,固有难题也逐渐显现,包括:人体组织构造复杂带来的多物质信息干扰;无创的检测手段以及葡萄糖分子信息在血液中本身含量较少造成信号微弱、难以检测的问题;个体间差异大同样会导致无法建立统一模型对不同人种、具有不同生理特征的人群进行精准的血糖预测;实际运用可穿戴设备进行数据采集时由于操作误差、环境因素影响等问题还会造成数据层面不准确,从而影响建模结果精准性等问题。
在一些实施例中,如图1所示,基于模型融合的葡萄糖浓度预测方法,其特征在于,包括:
步骤100:获取初始样本数据集。
在该步骤中,示例性的,可以利用利用葡萄糖传感器监测皮下组织液的葡萄糖浓度,获取有关葡萄糖浓度的初始样本数据。
步骤200:利用卡尔曼滤波算法对初始样本数据集进行降噪平滑处理,得到样本数据集;其中,样本数据集包括第一测试集和第一训练集。
在该步骤中,针对人体组织构造复杂带来的多物质信息干扰;无创的检测手段以及葡萄糖分子信息在血液中本身含量较少造成信号微弱的问题;实际运用可穿戴设备进行数据采集时由于操作误差、环境因素的影响,在使用初始样本数据集前,首先利用卡尔曼滤波对从初始样本数据集中提取的传感器电流信号进行降噪平滑处理,使该电流信号更接近人体的真实值,得到包括处理后的电流信号的样本数据集。
步骤300:基于K折交叉验证,将样本数据集输入优化后的LSTM模型,得到葡萄糖浓度的初步预测结果。
在该步骤中,示例性的,对应stacking模型融合的第一层,将样本数据集中的第一训练集分为用于训练的部分和用于验证的部分,基于训练部分利用K折交叉验证训练LSTM模型,对训练好的LSTM模型进行优化后,利用优化后的LSTM模型对验证部分进行预测,将预测结果进行拼接,得到用于模型融合第二层的第二训练集;并利用优化后的LSTM模型对第一测试集进行预测,将预测结果进行平均,得到用于模型融合第二层的第二测试集,葡萄糖浓度的初步预测结果包括该第二训练集和第二测试集。
可选的,在模型融合的第一层可以设置多个不同种类的模型,并对这些模型执行如上述LSTM模型相同的操作,多个模型虽然可以进一步的提高的葡萄糖预测的精度,但是提升效果相较于设置一种LSTM模型来说相对较小,但是计算量的提升确较为明显,所说本申请实施例选择在模型融合的第一层设置一种LSTM模型,在保证精度的同时减少运算量。
步骤400:基于K折交叉验证,将初步预测结果输入优化后的XGBoost模型,得到葡萄糖浓度的最终预测结果。
在该步骤中,对应模型融合的第二层,将初步预测结果中的第二训练集分为用于训练的部分和用于验证的部分,基于训练部分利用K折交叉验证训练XGBoost模型,对训练好的XGBoost模型进行优化后,利用优化后的LSTM模型对初步预测结果中的第二测试集进行预测,得到葡萄糖浓度的最终预测结果。
在一些实施例中,如图2所示,基于K折交叉验证,将样本数据集输入优化后的LSTM模型,得到葡萄糖浓度的初步预测结果,包括:
步骤310:将第一训练集分为K个第一子样本;
在该步骤中,在机器学习建模过程中,通行的做法通常是将数据分为训练集和测试集。测试集是与训练独立的数据,完全不参与训练,用于最终模型的评估。在训练过程中,经常会出现过拟合的问题,就是模型可以很好的匹配训练数据,却不能很好在预测训练集外的数据。如果此时就使用测试数据来调整模型参数,就相当于在训练时已知部分测试数据的信息,会影响最终评估结果的准确性。通常的做法是在训练数据再中分出一部分做为验证数据,用来评估模型的训练效果,即采用K折交叉验证来构建模型可以避免建模过程中的过拟合问题。则如图3所示,示例性的,样本数据集中的第一训练集包括10000行数据,第一测试集包括2500行数据。K折交叉验证中的K取值为5,即采用五折交叉验证。将第一训练集的10000行数据随机分为5组,每组2000行数据,每组数据对应一个第一子样本,实现将第一训练集分为5个第一子样本。而五折交叉验证需要重复训练验证5次,每次训练验证过程会训练出不同的LSTM模型。例如:LSTM1模型、LSTM2模型、LSTM3模型、LSTM4模型、LSTM5模型。
对于K折交叉验证中的任意一次验证,包括:
步骤320:选取一个第一子样本作为第一验证集,其余K-1个第一子样本作为第一训练样本。
在该步骤中,第一验证集取自第一训练集,但不参与训练,这样可以相对客观的评估模型对于训练集样本之外数据的匹配程度。模型在验证集中的评估常用的是交叉验证,又称循环验证。如图3所示,训练LSTM1模型时选择第五个第一子样本作为第一验证集,其余4个第一子样本作为第一训练样本;训练LSTM2模型时选择第四个第一子样本作为第一验证集,其余4个第一子样本作为第一训练样本;训练LSTM3模型时选择第三个第一子样本作为第一验证集,其余4个第一子样本作为第一训练样本;训练LSTM4模型时选择第二个第一子样本作为第一验证集,其余4个第一子样本作为第一训练样本;训练LSTM5模型时选择第一个第一子样本作为第一验证集,其余4个第一子样本作为第一训练样本。这样每个LSTM模型的训练数据均不相同,训练出来的LSTM模型的精度也不相同。
步骤330:基于第一训练样本,利用K折交叉验证训练LSTM模型。
在该步骤中,第一验证集不参与模型的训练过程,利用第一训练样本训练对应的LSTM模型,得到训练后的LSTM1模型、训练后的LSTM2模型、训练后的LSTM3模型、训练后的LSTM4模型、训练后的LSTM5模型。
步骤340:利用粒子群优化算法优化LSTM模型的超参数,得到优化后的LSTM模型。
在该步骤中,基于LSTM模型的超参数构建粒子群优化算法的求解空间,该求解空间即为粒子的搜索空间,而求解空间的维度由LSTM模型超参数的个数N决定。粒子群优化算法的逻辑如图4所示,其中整个大的方框表示求解空间,求解空间的每个位置都表示一个解,即不同超参数取值的组合,每个圆形都表示一个粒子,与圆形连接的箭头表示粒子的速度,是一个矢量,大方框中的圆圈表示一个超参数局部求解空间,不同大小的三角形代表不同的适应值,圆圈中的最大的三角形所在的位置表示个体最优解,即使单个超参数取得最优值;整个方框中最大的三角形表示群体最优解,即最优超参数取值组合。使用粒子群优化算法进行优化即为在N维的求解空间内找到最优超参数取值组合对应位置的过程。在N维连续搜索空间中,对粒子群中的第i(i=1,2,……,D)个粒子进行定义:表示第i个粒子在t次迭代时的位置;每个粒子经历过的个体历史最优位置记为群体经历过的群体历史最优位置记为粒子i在t+1时刻的速度位置更新公式如下所示:
其中wt表示惯性权重,t表示当前迭代次数,r1,r2为介于(0,1)的随机数,c1,c2分别为认知参数和社会参数。
优化过程具体如下:
然后,比较和(表示群体历史最优位置处的适应值),若表明优于将群体历史最优位置更新为若表明优于将群体历史最优位置保留。不断进行滚动优化的循环,直至达到最大迭代次数,输出最后一次迭代的群体历史最优位置作为群体最优解则群体最优解对应目标函数的最优解,即使LSTM模型精度最高的产参数取值组合。
步骤350:利用优化后的LSTM模型对第一验证集进行预测,得到第一预测数据。
在该步骤中,利用优化后的LSTM模型对2000行的第一验证集进行预测,得到第一预测数据,该预测数据有2000行,由于是五折检查验证,所以该过程会由优化后的LSTM1模型、优化后的LSTM2模型、优化后的LSTM3模型、优化后的LSTM4模型和优化后的LSTM1模型分别执行1次,得到5个2000行的第一预测数据。
步骤360:利用优化后的LSTM模型对第一测试集进行预测,得到第二预测数据。
在该步骤中,利用优化后的LSTM模型对2500行的第一测试集进行预测,得到第二预测数据,该预测数据有2500行,由于是五折检查验证,所以该过程会执行5次,得到5个2500行的第二预测数据。
步骤370:将K次验证得到的K个第一预测数据进行组合,得到第二训练集,将K次验证得到的K个第二预测数据的平均值作为第二测试集;其中,每次验证选取不同的第一子样本作为第一验证集,初步预测结果包括第二训练集和第二测试集。
在该步骤中,示例性的,以五折交叉验证为例,将5次验证得到的5个2000行的第一预测数据进行组合拼接,得到包括10000行数据的第二训练数据,以使第二训练数据与第一训练数据的的组成相同,都包括10000行数据,且第二训练数据中的10000行数据是由第一训练数据集中的10000行数据经过LSTM模型预测得到的,保证模型融合第一层与第二层训练数据的结构一致性。5次验证得到的5个包括2500行数据的第二预测数据,将5个第二预测数据进行平均,将得到的包括2500行数据的平均值作为第二测试数据。其中,五折交叉验证中每次验证选取不同的第一子样本作为第一验证集,避免了LSTM模型出现过拟合,初步预测结果包括第二训练数据和第二测试数据。
在一些实施例中,如图5所示基于K折交叉验证,将初步预测结果输入优化后的XGBoost模型,得到葡萄糖浓度的最终预测结果,包括:
步骤410:将第二训练集分为K个第二子样本。
在该步骤中,初步预测结果中的第二训练集包括10000行数据,第二测试集包括2500行数据。K折交叉验证中的K取值为5,即采用五折交叉验证。将第二训练集的10000行数据随机分为5组,每组2000行数据,每组数据对应一个第二子样本,实现将第二训练集分为5个第二子样本。而五折交叉验证需要重复训练验证5次,每次训练验证过程会训练出不同的XGBoost模型。例如:XGBoost1模型、XGBoost2模型、XGBoost3模型、XGBoost4模型、XGBoost5模型。
对于K折交叉验证中的任意一次验证,包括:
步骤420:选取一个第二子样本作为第二验证集,其余K-1个第二子样本作为第二训练样本。
在该步骤中,训练XGBoost1模型时选择第五个第二子样本作为第二验证集,其余4个第二子样本作为第二训练样本;训练XGBoost2模型时选择第四个第二子样本作为第二验证集,其余4个第二子样本作为第二训练样本;训练XGBoost3模型时选择第三个第二子样本作为第二验证集,其余4个第二子样本作为第二训练样本;训练XGBoost4模型时选择第二个第二子样本作为第二验证集,其余4个第二子样本作为第二训练样本;训练XGBoost5模型时选择第一个第二子样本作为第二验证集,其余4个第二子样本作为第二训练样本。这样每个XGBoost模型的训练数据均不相同,训练出来的XGBoost模型的精度也不相同。
步骤430:基于第二训练样本,利用K折交叉验证训练XGBoost模型。
在该步骤中,第二验证集不参与模型的训练过程,利用第二训练样本训练对应的XGBoost模型,得到训练后的XGBoost1模型、训练后的XGBoost2模型、训练后的XGBoost3模型、训练后的XGBoost4模型、训练后的XGBoost5模型,并分别用第二验证集验证其精度,避免出现过拟合。
步骤440:利用粒子群优化算法优化XGBoost模型的超参数,得到优化后的XGBoost模型。
在该步骤中,在该步骤中,基于XGBoost模型的超参数构建粒子群优化算法的求解空间,该求解空间即为粒子的搜索空间,而求解空间的维度由XGBoost模型超参数的个数决定,其优化过程与步骤340中优化LSTM模型的超参数过程及有益效果相似,此处不作过多赘述。
步骤450:利用优化后的XGBoost模型对第二测试集进行预测,得到第三预测数据。
在该步骤中,利用优化后的XGBoost模型对2500行的第二测试集进行预测,得到第三预测数据,该预测数据有2500行,由于是五折检查验证,所以该过程会执行5次,得到5个2500行的第三预测数据。
步骤460:将K次验证得到的K个第三预测数据的平均值作为最终预测结果;其中,每次验证选取不同的第二子样本作为第二验证集。
在该步骤中,示例性的,以五折交叉验证为例,5次验证得到的5个包括2500行数据的第三预测数据,将5个第三预测数据进行平均,将得到的包括2500行数据的平均值作为第三测试数据。其中,五折交叉验证中每次验证选取不同的第二子样本作为第二验证集,避免了XGBoost模型出现过拟合。
在一些实施例中,在基于第一训练样本,利用K折交叉验证训练LSTM模型之前,还包括:对第一训练样本进行缺省值处理。
其中,缺省值处理包括:确定第一训练样本中的缺失值及缺失值邻域的非缺失值;根据非缺失值,采用k最近邻算法对缺失值进行插补。将第一训练样本转化为适用于机器学习模型训练的数据集格式。
在一些实施例中,在基于第二训练样本,利用K折交叉验证训练XGBoost模型之前,还包括:对第二训练样本进行归一化处理和时间序列转化处理。
其中,归一化处理包括:将第二训练样本中的数据统一映射到[0,1]区间上;
时间序列转化处理包括:将第二训练样本中的数据转化为带有时间序列的N维矩阵。将第二训练样本转化为适用于机器学习模型训练的数据集格式。
在一些实施例中,在利用卡尔曼滤波算法对初始样本数据集进行降噪平滑处理,得到样本数据集之前,还包括:通过皮尔逊相关系数对初始样本数据集进行筛选。
其中,由于初始样本数据中的干扰信号比较多,这些干扰信号一般为与葡萄糖浓度弱相关的数据,使用皮尔逊相关系数对样本数据集进行筛选,得到与葡萄糖浓度强相关的数据,将一部分干扰数据从初始样本数据中剔除。
在一些实施例中,利用卡尔曼滤波算法对初始样本数据集进行降噪平滑处理,得到样本数据集,包括:利用卡尔曼滤波算法对样初始本数据集进行降噪平滑处理,将初始本数据集中的传感器电流信号转化为去噪电流信号,得到样本数据集。
其中,利用卡尔曼滤波算法对样初始本数据集中的传感器电流信号进行降噪平滑处理包括:
预测过程:通过上一时刻状态估计下一时刻的状态,计算过程如下:
xk=Axk-1+Buk-1
其中,k表示时刻,xk表示先验估计,uk-1表示系统控制量,
修正过程:根据当前时刻的状态估计与观测状态,估计出最优状态,计算过程如下:
Pk=APk-1AT+Q
Pk=(1-KkH)Pk
其中,A表示状态转移矩阵,B表示输入控制矩阵,P表示误差矩阵,Q表示预测协方差矩阵,Kk表示卡尔曼增益,R表示传感器的噪声平均值,H是变换矩阵的状态变量,Zk表示传感器测得的测量值,即初始本数据集中的传感器电流信号,为后验估计即当前最优解,即降噪平滑处理后的电流信号,使之跟接近人体信号的真实值,从数据预处理角度提高葡萄糖浓度的预测精度。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种基于模型融合的葡萄糖浓度预测装置。
参考图6,所述基于模型融合的葡萄糖浓度预测装置,包括:
数据获取模块10,被配置为:获取初始样本数据集。
去噪模块20,被配置为:利用卡尔曼滤波算法对初始样本数据集进行降噪平滑处理,得到样本数据集;其中,样本数据包括第一测试集和第一训练集。
第一融合模块30,被配置为:基于K折交叉验证,将样本数据集输入优化后的LSTM模型,得到初步预测结果。
第二融合模块40,被配置为:基于K折交叉验证,将初步预测结果输入优化后的XGBoost模型,得到最终预测结果。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的基于模型融合的葡萄糖浓度预测方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于模型融合的葡萄糖浓度预测方法。
图7示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的基于模型融合的葡萄糖浓度预测方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于模型融合的葡萄糖浓度预测方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于模型融合的葡萄糖浓度预测方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于模型融合的葡萄糖浓度预测方法,其特征在于,包括:
获取初始样本数据集;
利用卡尔曼滤波算法对所述初始样本数据集进行降噪平滑处理,得到样本数据集;其中,所述样本数据集包括第一测试集和第一训练集;
基于K折交叉验证,将所述样本数据集输入优化后的LSTM模型,得到葡萄糖浓度的初步预测结果;
基于所述K折交叉验证,将所述初步预测结果输入优化后的XGBoost模型,得到葡萄糖浓度的最终预测结果。
2.根据权利要求1所述的方法,其特征在于,所述基于K折交叉验证,将所述样本数据集输入优化后的LSTM模型,得到葡萄糖浓度的初步预测结果,包括:
将所述第一训练集分为K个第一子样本;
对于K折交叉验证中的任意一次验证:
选取一个所述第一子样本作为第一验证集,其余K-1个所述第一子样本作为第一训练样本;基于所述第一训练样本,利用所述K折交叉验证训练LSTM模型;利用所述粒子群优化算法优化所述LSTM模型的超参数,得到所述优化后的LSTM模型;利用所述优化后的LSTM模型对所述第一验证集进行预测,得到第一预测数据;利用所述优化后的LSTM模型对所述第一测试集进行预测,得到第二预测数据;
将K次验证得到的K个所述第一预测数据进行组合,得到第二训练集,将K次验证得到的K个所述第二预测数据的平均值作为第二测试集;其中,每次验证选取不同的第一子样本作为所述第一验证集,所述初步预测结果包括所述第二训练集和所述第二测试集。
3.根据权利要求2所述的方法,其特征在于,所述基于所述K折交叉验证,将所述初步预测结果输入优化后的XGBoost模型,得到葡萄糖浓度的最终预测结果,包括:
将所述第二训练集分为K个第二子样本;
对于K折交叉验证中的任意一次验证:
选取一个所述第二子样本作为第二验证集,其余K-1个所述第二子样本作为第二训练样本;基于所述第二训练样本,利用所述K折交叉验证训练XGBoost模型;利用所述粒子群优化算法优化所述XGBoost模型的超参数,得到所述优化后的XGBoost模型;利用所述优化后的XGBoost模型对所述第二测试集进行预测,得到第三预测数据;
将K次验证得到的K个所述第三预测数据的平均值作为所述最终预测结果;其中,每次验证选取不同的第二子样本作为所述第二验证集。
4.根据权利要求2所述的方法,其特征在于,在基于所述第一训练样本,利用所述K折交叉验证训练LSTM模型之前,还包括:
对所述第一训练样本进行缺省值处理;
其中,所述缺省值处理包括:确定所述第一训练样本中的缺失值及所述缺失值邻域的非缺失值;根据所述非缺失值,采用k最近邻算法对所述缺失值进行插补。
5.根据权利要求3所述的方法,其特征在于,在基于所述第二训练样本,利用所述K折交叉验证训练XGBoost模型之前,还包括:
对所述第二训练样本进行归一化处理和时间序列转化处理:
其中,所述归一化处理包括:将所述第二训练样本中的数据统一映射到[0,1]区间上;
所述时间序列转化处理包括:将所述第二训练样本中的数据转化为带有时间序列的N维矩阵。
6.根据权利要求1所述的方法,其特征在于,在利用卡尔曼滤波算法对所述初始样本数据集进行降噪平滑处理,得到样本数据集之前,还包括:
通过皮尔逊相关系数对所述初始样本数据集进行筛选。
7.根据权利要求1所述的方法,其特征在于,所述利用卡尔曼滤波算法对所述初始样本数据集进行降噪平滑处理,得到样本数据集,包括:
利用卡尔曼滤波算法对样所述初始本数据集进行降噪平滑处理,将所述初始本数据集中的传感器电流信号转化为去噪电流信号,得到所述样本数据集。
8.一种基于模型融合的葡萄糖浓度预测装置,其特征在于,包括:
数据获取模块,被配置为:获取初始样本数据集;
去噪模块,被配置为:利用卡尔曼滤波算法对所述初始样本数据集进行降噪平滑处理,得到样本数据集;其中,所述样本数据包括第一测试集和第一训练集;
第一融合模块,被配置为:基于K折交叉验证,将所述样本数据集输入优化后的LSTM模型,得到初步预测结果;
第二融合模块,被配置为:基于所述K折交叉验证,将所述初步预测结果输入优化后的XGBoost模型,得到最终预测结果。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求1至7任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210958683.6A CN115394440A (zh) | 2022-08-09 | 2022-08-09 | 基于模型融合的葡萄糖浓度预测方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210958683.6A CN115394440A (zh) | 2022-08-09 | 2022-08-09 | 基于模型融合的葡萄糖浓度预测方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115394440A true CN115394440A (zh) | 2022-11-25 |
Family
ID=84119540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210958683.6A Pending CN115394440A (zh) | 2022-08-09 | 2022-08-09 | 基于模型融合的葡萄糖浓度预测方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115394440A (zh) |
-
2022
- 2022-08-09 CN CN202210958683.6A patent/CN115394440A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ali et al. | Continuous blood glucose level prediction of type 1 diabetes based on artificial neural network | |
CN110996785B (zh) | 生物电磁场中异常的机器判别 | |
AU2021200374B2 (en) | Improved accuracy continuous glucose monitoring method, system, and device | |
Naumova et al. | A meta-learning approach to the regularized learning—Case study: Blood glucose prediction | |
KR102141617B1 (ko) | 인공 신경망을 이용하여 부정맥을 추정하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 | |
Paviglianiti et al. | A comparison of deep learning techniques for arterial blood pressure prediction | |
CA3069891A1 (en) | Discovering novel features to use in machine learning techniques, such as machine learning techniques for diagnosing medical conditions | |
CN114173645A (zh) | 使用生物物理信号的动态分析来评估疾病的方法和系统 | |
US20220392632A1 (en) | System, method and computer readable medium for compressing continuous glucose monitor data | |
Zanon et al. | Non-invasive continuous glucose monitoring: improved accuracy of point and trend estimates of the multisensor system | |
CA3069833A1 (en) | Discovering genomes to use in machine learning techniques | |
WO2018106146A2 (ru) | Способ и система неинвазивной скрининговой оценки физиологических параметров и патологий | |
AU2014308015A1 (en) | Method and apparatus for determining a smoothed data point within a stream of data points | |
Zanon et al. | Assessment of linear regression techniques for modeling multisensor data for non-invasive continuous glucose monitoring | |
Ma et al. | PPG-based continuous BP waveform estimation using polarized attention-guided conditional adversarial learning model | |
AU2021363110A1 (en) | Method and system for personalized prediction of infection and sepsis | |
Schmith et al. | Photoplethysmography signal quality assessment using attractor reconstruction analysis | |
Kumar et al. | Attentive Bi-LSTM Based Method for Noise Suppression in Ambulatory ECG Measurements | |
CN111278353A (zh) | 一种生命体征信号噪声的检测方法与系统 | |
CN116779166A (zh) | 数据处理方法及装置、健康评估方法及装置、电子设备和可读存储介质 | |
CN115394440A (zh) | 基于模型融合的葡萄糖浓度预测方法及相关设备 | |
Botros et al. | Automatic Heart Failure Stratification Using a Convolutional Neural Network | |
Lado-Baleato et al. | Optimal Cut-Point Estimation for functional digital biomarkers: Application to Continuous Glucose Monitoring | |
Raju et al. | DNN-BP: a novel framework for cuffless blood pressure measurement from optimal PPG features using deep learning model | |
US20240321447A1 (en) | Method and System for Personalized Prediction of Infection and Sepsis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |