CN114420301B - 基于分段域rf建模预测血糖的方法、系统及存储介质 - Google Patents

基于分段域rf建模预测血糖的方法、系统及存储介质 Download PDF

Info

Publication number
CN114420301B
CN114420301B CN202210109387.9A CN202210109387A CN114420301B CN 114420301 B CN114420301 B CN 114420301B CN 202210109387 A CN202210109387 A CN 202210109387A CN 114420301 B CN114420301 B CN 114420301B
Authority
CN
China
Prior art keywords
data
random forest
blood glucose
blood sugar
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210109387.9A
Other languages
English (en)
Other versions
CN114420301A (zh
Inventor
韦怡婷
黄宇轩
凌永权
刘庆
胡铃越
郑小奔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202210109387.9A priority Critical patent/CN114420301B/zh
Publication of CN114420301A publication Critical patent/CN114420301A/zh
Application granted granted Critical
Publication of CN114420301B publication Critical patent/CN114420301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明提出一种基于分段域RF建模预测血糖的方法、系统及存储介质,涉及无创血糖预测的技术领域,采集志愿者的实际血糖值数据及同步的相关生理特性参数数据,形成特征矩阵,然后将特征矩阵作为数据集,并根据个体饮食结构变化划分为训练集和测试集,利用血糖的分布特性确定血糖区间集中的段数,对训练集划分段域,构建不同分段域的随机森林模型,再对测试集的每一组数据对应的特征求加权欧氏距离,并分类归于不同的随机森林模型,划分段域后得出的血糖预测值更准确,与实际血糖参考值误差更小,拟合程度较好,且实现在饮食结构变化的情况下仍能对血糖进行有效的监测,使血糖预测的准确度更高,便于糖尿病患者在生活中对血糖的积极自我干预。

Description

基于分段域RF建模预测血糖的方法、系统及存储介质
技术领域
本发明涉及无创血糖预测的技术领域,更具体地,涉及一种基于分段域RF建模预测血糖的方法、系统及存储介质。
背景技术
糖尿病是因为胰岛素分泌绝对或相对不足引起的以空腹或餐后高血糖为主要表现的代谢异常综合症,极易引发全身各种急、慢性并发症,是危害人类健康的一大杀手,而目前医学上并没有方法可以完全根治,因此,对血糖的监测就显得至关重要。
在糖尿病人的生活中,若能积极地人为干预体内的血糖水平,有利于自身血糖水平的正常维持,基于此,目前,有创血糖检测仪应用比较广泛,但有创血糖检测仪的使用不仅使患者存在血液感染的风险,而且会造成患者心理和生理上的痛苦,使患者产生抵触感,为患者在生活中自行干预体内的血糖水平带来较多麻烦。为满足患者实现无痛检测血糖的需求,目前使用近红外光谱进行无创血糖检测是最有前景的方式,该方式将近红外光采集得到的信号用于血糖预测。
随机森林(Random Forest,简称RF)是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,可用来预测疾病的风险和病患者的易感性,在血糖预测的领域,目前常用的方式是将无创采集得到的信号与有创血糖参考值处理得出的特征矩阵作为数据集,将其进行划分训练集与测试集后,利用训练集在随机森林中训练出的一个模型,将剩余的测试集放进训练好的模型中得出预测值。如现有技术中公开了一种基于饮食习惯预测糖尿病的模型构建方法,所述的模型即为决策树模型,首先获取包括样本多日餐食的食材信息的第一样本集,然后抽取第一样本集中的若干个数据,将该数据作为特征组成第二样本集,将所述第二样本集划分为训练集、验证集,将所述训练集作为决策树模型器的输入,训练所述决策树模型,直至特征的信息增益低于阈值,得到决策树模型,最后利用这种决策树模型进行糖尿病风险预测,但该方案一方面未结合正常人体的饮食规律状态下血糖变化规律,可靠性较低,另一方面,准确、有效、可靠的血糖预测模型是实现血糖精准预测的关键,该方案中基于单一模型的预测,对血糖的预测准确度也较低。
发明内容
为解决当前采用基于单一模型预测血糖的方式,导致血糖预测准确度低的问题,本发明提出一种基于分段域RF建模预测血糖的方法、系统及存储介质,在个人饮食结构变化的前提下合理预测血糖,并保证了精确度,进一步为临床治疗提供参考。
为了达到上述技术效果,本发明的技术方案如下:
一种基于分段域RF建模预测血糖的方法,包括:
S1.确定志愿者群体,采集志愿者的实际血糖值数据以作为血糖参考值,且采集志愿者同步的相关生理特征参数数据;
S2.基于相关生理特征参数数据与实际血糖数据构建特征矩阵,将特征矩阵作为数据集,并划分为训练集和测试集;
S3.将血糖参考值从低至高排序,形成分布区间,与血糖参考值同步的相关生理特征参数数据也按相同顺序排序;
S4.根据标准血糖变化规律、个体饮食结构以及每天的数据采集时间段确定血糖区间集中的段数N,将排序后的血糖参考值及与血糖参考值同步的相关生理特征参数数据形成的训练集也划分为N段域;
S5.构建N段域训练集分别对应的N个随机森林模型RF并训练,得到训练好的训练随机森林模型RF;
S6.求解测试集中每一组数据在每一个随机森林模型RF中的贡献值,基于贡献值求解测试集的每一组数据对应于每一个随机森林模型RF的加权欧氏距离,根据加权欧氏距离将测试集中的每一组数据分类归属于对应的随机森林模型RF;
S7.在对应的随机森林模型RF中对测试集中的每一组数据进行血糖预测,得到血糖预测结果。
优选地,在步骤S1中,设定数据整体采集时长为T,结合个体饮食结构以及标准血糖变化规律,设定每天的数据采集时间段为早餐前、午餐后、晚餐前以及晚餐后四个时段,设定饮食结构变化的三个阶段数据采集周期,每个阶段为期T/3天,第一阶段为“正常饮食”阶段,第二阶段为“生酮饮食”阶段,第三阶段为“餐后喝可乐”阶段;采集志愿者的实际血糖值数据时采用有创血糖检测方法;所述的相关生理特征参数数据包括:PPG心电信号、ECG脉电信号、血压、心率,采用无创方式采集。
在此,考虑不同的个体在进食同种结构、同种食物后会产生不一样的反应,即血糖指标存在对个体的差异性,而且相同的食物在不同个体之间的血糖反应差异很大,除了食物本身的特征外,个体对食物产生的血糖反应可能受到生理因素、遗传因素以及其他因素的影响,如身高体重、身体素质、消化吸收功能等,因此分别采集个人的相关不同生理特征参数数据以及考虑饮食结构的变化,可以有效避免因个体差异对血糖指标的影响,提升血糖预测结果的准确度,便于糖尿病患者在生活中的积极自我干预。
优选地,在步骤S2中,构建的特征矩阵中设有反映人体生理特性的特征值和血糖特征值,其中,反映人体生理特性的特征值包括PPG心电信号和ECG脉电信号、根据ECG脉电信号提取的波形特征、同步的血压、心率、心跳变异特征,血糖特征值即实际血糖值数据。
所述的训练集为“正常饮食”阶段采集的志愿者的实际血糖值数据和同步的相关生理特征参数数据,所述的测试集为“生酮饮食”阶段和“餐后喝可乐”阶段采集的志愿者的实际血糖值数据和同步的相关生理特征参数数据,“正常饮食”阶段、“生酮饮食”阶段和“餐后喝可乐”阶段采集的志愿者的实际血糖值数据作为血糖参考值。基于三种不同饮食习惯进行三个阶段的实验,以便实现在饮食结构变化的情况下仍能对血糖进行有效的监测,使血糖预测的准确度更高,更具有实际意义。
优选地,在步骤S3中,设血糖参考值表示为[BG1,BG2,…,BGK]序列,K表示采集的实际血糖值数据总个数,将[BG1,BG2,…,BGK]序列的每一个血糖参考值从低至高排序,形成分布区间,得到[BGmin,…,BGmax],其中,BGmax表示排序后的血糖参考值最大值,BGmin排序后的血糖参考值最小值。
优选地,在步骤S5中,N个随机森林模型RF通过自助法重采样技术构建,利用bootstrap法从N个训练集中分别有放回地重复随机抽取k个训练集样本生成新的训练集样本,对于每个新的训练集样本都建立决策树,形成N个随机森林模型RF,构建完成后,依次将训练集数据输入随机森林模型RF,每一个随机森林模型RF的每颗决策树的预测结果作为一次预测投票,以少数服从多数作为预测结果;根据多个预测结果和实际血糖参考值的误差确定随机森林模型RF的精度,将精度与精度设置值对比,对随机森林模型RF进行调整,直至随机森林模型RF的精度达到精度设置值。
优选地,在步骤S6中,测试集中每一组数据在每一个随机森林模型RF中的贡献值是指测试集中PPG心电信号和ECG脉电信号、根据ECG脉电信号提取的波形特征、同步的血压、心率、心跳变异特征在每一个随机森林模型RF中的每棵决策树上做出的贡献,通过基尼指数公式计算;设每一组数据特征贡献率的权值为a1、a2……an,测试集中每一组数据的特征值设为y1、y2……yn,每一组对应的血糖参考值为BG1、BG2……BGn,对训练集中N段域中每一段域的每一列特征值分别求其平均值,并将其每列特征值的平均值记为
Figure BDA0003494630970000041
求解测试集的每一组数据对应于每一个随机森林模型RF的加权欧氏距离,加权欧氏距离表达式为:
Figure BDA0003494630970000042
其中,x表示测试集的每一组数据对应于每一个随机森林模型RF的加权欧氏距离的总称,设按加权欧氏距离表达式,测试集的每一组数据分别求解对应于训练集N个随机森林模型RF的N个加权欧式距离x1、x2、x3、…、xN,设N个随机森林模型RF中第i个随机森林模型RF对应的测试集的j组数据加权欧氏距离xi最小,则测试集的j组数据与该随机森林模型RF的平均距离最小,测试集的j组数据分类归属于第i个随机森林模型RF。
在此,充分考虑了特征值的贡献率(即特征权重)对测试集分类进不同随机森林模型RF的影响,从而使测试集的每组数据得到合理的分类,使血糖预测值更精准。
优选地,步骤S7之后还包括利用克拉克误差网络对血糖预测结果的预测准确度进行验证。
本申请还提出一种基于分段域RF建模预测血糖的计算机系统,所述计算机系统包括存储器、处理器及存储在存储器上并能在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时,实现所述的基于分段域RF建模预测血糖的方法的步骤。
本申请还提出一种计算机存储介质,用于计算机可读存储,所述计算机存储介质上存储有基于分段域RF建模预测血糖的程序,所述基于分段域RF建模预测血糖的程序被处理器执行时,用于实现所述的基于分段域RF建模预测血糖的方法的步骤。
本申请还提出一种基于分段域RF建模预测血糖的装置,所述装置包括:
数据采集模块,用于确定志愿者群体,采集志愿者的实际血糖值数据以作为血糖参考值,且采集志愿者同步的相关生理特征参数数据;
数据处理模块,基于相关生理特征参数数据与实际血糖数据构建特征矩阵,将特征矩阵作为数据集,并划分为训练集和测试集;
排序处理模块,将血糖参考值从低至高排序,形成分布区间,与血糖参考值同步的相关生理特征参数数据也按相同顺序排序;
分段域划分模块,根据标准血糖变化规律、个体饮食结构以及每天的数据采集时间段确定血糖区间集中的段数N,将排序后的血糖参考值及与血糖参考值同步的相关生理特征参数数据形成的训练集也划分为N段域;
随机森林模型构建模块,用于构建N段域训练集分别对应的N个随机森林模型RF并训练,得到训练好的训练随机森林模型RF;
分类归属模块,用于求解测试集中每一组数据在每一个随机森林模型RF中的贡献值,基于贡献值求解测试集的每一组数据对应于每一个随机森林模型RF的加权欧氏距离,根据加权欧氏距离将测试集中的每一组数据分类归属于对应的随机森林模型RF;
预测模块,在对应的随机森林模型RF中对测试集中的每一组数据进行血糖预测,得到血糖预测结果。
在本技术方案中,利用数据采集模块采集相关生理特性参数数据和实际血糖值数据,通过数据处理模块处理后形成特征矩阵,将其作为数据集划分为训练集和测试集,利用血糖的分布特性确定血糖区间集中的段数,然后对训练集划分段域,利用随机森林模型构建模块构建不同的随机森林模型,再对测试集的每一组数据对应的特征点加权求其欧氏距离进行分类,归于不同的随机森林模型,划分段域后对测试集的每一组数据在不同随机森林模型得出的血糖预测值会更精确,与实际血糖参考值误差更小,拟合程度较好。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种基于分段域RF建模预测血糖的方法、系统及存储介质,首先采集志愿者的实际血糖值数据及同步的相关生理特性参数数据,形成特征矩阵,然后将特征矩阵作为数据集,并根据个体饮食结构变化划分为训练集和测试集,利用血糖的分布特性确定血糖区间集中的段数,然后对训练集划分段域,构建不同分段域的随机森林模型,再对测试集的每一组数据对应的特征求加权欧氏距离,根据加权欧式距离分类归于不同的随机森林模型,划分段域后对测试集的每一组数据在不同随机森林模型得出的血糖预测值会更精确,与实际血糖参考值误差更小,拟合程度较好,且实现在饮食结构变化的情况下仍能对血糖进行有效的监测,使血糖预测的准确度更高,便于糖尿病患者在生活中对血糖的积极自我干预,更具有实际意义。
附图说明
图1表示本发明实施例1中提出的基于分段域RF建模预测血糖的方法的流程示意图;
图2表示本发明实施例1中提出的训练集划分不同分段域的示意图;
图3表示本发明实施例1中提出的测试集的每一组数据在随机森林模型的分类归属示意图;
图4表示本发明实施例2中提出的基于分段域RF建模预测血糖的系统的结构示意图;
图5表示本发明实施例3中提出的基于分段域RF建模预测血糖的装置的整体结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
附图中描述位置关系的仅用于示例性说明,不能理解为对本专利的限制;
实施例1
如图1所示,本实施例提出一种基于分段域RF建模预测血糖的方法,参见图1,所述方法包括以下步骤:
S1.确定志愿者群体,采集志愿者的实际血糖值数据以作为血糖参考值,且采集志愿者同步的相关生理特征参数数据;
在本实施例中,选定10个志愿者群体,采集志愿者的实际血糖值数据以作为血糖参考值,采集方式为有创采集,设定数据整体采集时长T为21天。
考虑不同的个体在进食同种结构、同种食物后会产生不一样的反应,即血糖指标存在对个体的差异性,而且相同的食物在不同个体之间的血糖反应差异很大,除了食物本身的特征外,个体对食物产生的血糖反应可能受到生理因素、遗传因素以及其他因素的影响,如身高体重、身体素质、消化吸收功能等,因此分别采集个人的相关不同生理特征参数数据以及考虑饮食结构的变化,可以有效避免因个体差异对血糖指标的影响,提升血糖预测结果的准确度,便于糖尿病患者在生活中的积极自我干预。在此,结合个体饮食结构以及标准血糖变化规律,设定每天的数据采集时间段为早餐前、午餐后、晚餐前以及晚餐后四个时段。
此外,考虑正常人在饮食规律的状态下其一天的血糖变化规律是:空腹最低,餐后血糖立即升高至2小时后开始下降,逐渐降至空腹血糖水平,三餐都有这个波动规律。为基于个体指标的差异性对个人数据建模,而进一步考虑每个个体的饮食习惯也不尽相同,因此基于三种不同饮食习惯(如摄入脂肪含量高而碳水化合物低的生酮饮食、高糖分的可乐)进行三个阶段的实验,以便实现在饮食结构变化的情况下仍能对血糖进行有效的监测,设定饮食结构变化的三个阶段数据采集周期,每个阶段为期7天,第一阶段为“正常饮食”阶段,第二阶段为“生酮饮食”(碳水化合物含量非常低、脂肪含量高、蛋白质含量适中的饮食)阶段,第三阶段为“餐后喝可乐”阶段;采集志愿者的实际血糖值数据时采用有创血糖检测方法;所述的相关生理特征参数数据包括:PPG心电信号、ECG脉电信号、血压、心率,采用无创方式采集,例如应用扣背景法进行光谱修正得到光谱信号或者近红外无创血糖检测法。
S2.基于相关生理特征参数数据与实际血糖数据构建特征矩阵,将特征矩阵作为数据集,并划分为训练集和测试集;
构建的特征矩阵中设有反映人体生理特性的特征值和血糖特征值,其中,反映人体生理特性的特征值包括PPG心电信号和ECG脉电信号、根据ECG脉电信号提取的波形特征、同步的血压、心率、心跳变异特征,血糖特征值即实际血糖值数据。划分的训练集为“正常饮食”阶段采集的志愿者的实际血糖值数据和同步的相关生理特征参数数据,所述的测试集为“生酮饮食”阶段和“餐后喝可乐”阶段采集的志愿者的实际血糖值数据和同步的相关生理特征参数数据,“正常饮食”阶段、“生酮饮食”阶段和“餐后喝可乐”阶段采集的志愿者的实际血糖值数据作为血糖参考值。基于三种不同饮食习惯进行三个阶段的实验,以便实现在饮食结构变化的情况下仍能对血糖进行有效的监测,使血糖预测的准确度更高,更具有实际意义。
S3.将血糖参考值从低至高排序,形成分布区间,与血糖参考值同步的相关生理特征参数数据也按相同顺序排序;
在步骤S3中,设血糖参考值表示为[BG1,BG2,…,BGK]序列,K表示采集的实际血糖值数据总个数,将[BG1,BG2,…,BGK]序列的每一个血糖参考值从低至高排序,形成分布区间,得到[BGmin,…,BGmax],其中,BGmax表示排序后的血糖参考值最大值,BGmin排序后的血糖参考值最小值。
S4.根据标准血糖变化规律、个体饮食结构以及每天的数据采集时间段确定血糖区间集中的段数N,将排序后的血糖参考值及与血糖参考值同步的相关生理特征参数数据形成的训练集也划分为N段域;
在此,基于血糖变化规律和三个阶段的实验数据以及对实验过程中四个时间段的血糖值的研究可发现,血糖区间主要集中在三个部分,因此定义的分段域方法为:根据血糖参考值[BG1,BG2,…,BGK]序列的每一个血糖参考值从低至高排序,形成的分布区间将训练集及划分成三个段域,即本实施例中,N取3;
S5.构建N段域训练集分别对应的N个随机森林模型RF并训练,得到训练好的训练随机森林模型RF;
如图2所示,3段域训练集分别对应3个随机森林模型RF1、RF2及RF3,[BG1,BG2,…,BGK]序列从低至高排序,形成的分布区间[BGmin,…,BGmax]可参见图2,图2中所展示的每个段域的特征值,即是具有代表性的被采集的数据,符合其需要反映的特性,在实际实施时,3个随机森林模型RF通过自助法重采样技术构建,利用bootstrap法从3个训练集中分别有放回地重复随机抽取k个训练集样本生成新的训练集样本,对于每个新的训练集样本都建立决策树,形成N个随机森林模型RF,构建完成后,依次将训练集数据输入随机森林模型RF,每一个随机森林模型RF的每颗决策树的预测结果作为一次预测投票,以少数服从多数作为预测结果;根据多个预测结果和实际血糖参考值的误差确定随机森林模型RF的精度,将精度与精度设置值对比,对随机森林模型RF进行调整,直至随机森林模型RF的精度达到精度设置值。
S6.求解测试集中每一组数据在每一个随机森林模型RF中的贡献值,基于贡献值求解测试集的每一组数据对应于每一个随机森林模型RF的加权欧氏距离,根据加权欧氏距离将测试集中的每一组数据分类归属于对应的随机森林模型RF;测试集中每一组数据在每一个随机森林模型RF中的贡献值是指测试集中PPG心电信号和ECG脉电信号、根据ECG脉电信号提取的波形特征、同步的血压、心率、心跳变异特征在每一个随机森林模型RF中的每棵决策树上做出的贡献,通过基尼指数公式计算,基尼指数是一种不等性度量,通常用来度量收入不平衡,可以用来度量任何不均匀分布,是介于0~1之间的数,0-完全相等,1-完全不相等,总体内包含的类别越杂乱,基尼指数就越大。
设每一组数据特征贡献率的权值为a1、a2……an,测试集中每一组数据的特征值设为y1、y2……yn,每一组对应的血糖参考值为BG1、BG2……BGn,对训练集中N段域中每一段域的每一列特征值分别求其平均值,并将其每列特征值的平均值记为
Figure BDA0003494630970000091
求解测试集的每一组数据对应于每一个随机森林模型RF的加权欧氏距离,加权欧氏距离表达式为:
Figure BDA0003494630970000092
其中,x表示测试集的每一组数据对应于每一个随机森林模型RF的加权欧氏距离的总称,设按加权欧氏距离表达式,测试集的每一组数据分别求解对应于训练集N个随机森林模型RF的N个加权欧式距离x1、x2、x3、…、xN,设N个随机森林模型RF中第i个随机森林模型RF对应的测试集的j组数据加权欧氏距离xi最小,则测试集的j组数据与该随机森林模型RF的平均距离最小,测试集的j组数据分类归属于第i个随机森林模型RF,更具体的,归类于第一个随机森林模型RF1的示意如图3所示,该过程充分考虑了特征值的贡献率(即特征权重)对测试集分类进不同随机森林模型RF的影响,从而使测试集的每组数据得到合理的分类,使血糖预测值更精准。
S7.在对应的随机森林模型RF中对测试集中的每一组数据进行血糖预测,得到血糖预测结果。步骤S7之后还包括利用克拉克误差网络对血糖预测结果的预测准确度进行验证,将测试集中的每一组按加权欧氏距离的方法分类归属进训练集中的随机森林模型RF1、RF2、RF3后,即可相应地得出测试集中每一组的血糖预测结果。根据得到的血糖预测值与实际值在克拉克误差网格中进行预测评估,观测其拟合程度,得出血糖预测的准确率,克拉克误差网格以血糖预测结果值作为纵坐标,以血糖参考值数据为横坐标的坐标系,血糖预测结果值与血糖参考值在克拉克误差网格中标定坐标点,克拉克误差网络中设置有准确度分界线,计算坐标点位于准确度分界线下侧的百分比,以“y=x”对应在克拉克网络坐标系中对应的直线作为准确度分界线,坐标点越趋近于y=x这条直线则模型的准确率越高,从而得出在个人饮食结构在变化的前提下(如摄入高脂肪含量低碳水化合物的生酮饮食、含糖量较高的可乐)监测血糖变化的准确率,使得到的数据更具有实际意义。
实施例2
在本实施例中,提出了一种基于分段域RF建模预测血糖的计算机系统,如图4所示,所述计算机系统包括存储器1、处理器2及存储在存储器1上并能在所述处理器2上运行的计算机程序,所述计算机程序被所述处理器2执行时,实现实施例1所述的基于分段域RF建模预测血糖的方法的步骤。基于此,还提出一种计算机存储介质,用于计算机可读存储,所述计算机存储介质上存储有基于分段域RF建模预测血糖的程序,所述基于分段域RF建模预测血糖的程序被处理器2执行时,用于实现实施例1所述的基于分段域RF建模预测血糖的方法的步骤。
实施例3
在本实施例中,如图5所示,提出了一种基于分段域RF建模预测血糖的装置,所述装置包括:
数据采集模块101,用于确定志愿者群体,采集志愿者的实际血糖值数据以作为血糖参考值,且采集志愿者同步的相关生理特征参数数据;
数据处理模块102,基于相关生理特征参数数据与实际血糖数据构建特征矩阵,将特征矩阵作为数据集,并划分为训练集和测试集;
排序处理模块103,将血糖参考值从低至高排序,形成分布区间,与血糖参考值同步的相关生理特征参数数据也按相同顺序排序;
分段域划分模块104,根据标准血糖变化规律、个体饮食结构以及每天的数据采集时间段确定血糖区间集中的段数N,将排序后的血糖参考值及与血糖参考值同步的相关生理特征参数数据形成的训练集也划分为N段域;
随机森林模型构建模块105,用于构建N段域训练集分别对应的N个随机森林模型RF并训练,得到训练好的训练随机森林模型RF;
分类归属模块106,用于求解测试集中每一组数据在每一个随机森林模型RF中的贡献值,基于贡献值求解测试集的每一组数据对应于每一个随机森林模型RF的加权欧氏距离,根据加权欧氏距离将测试集中的每一组数据分类归属于对应的随机森林模型RF;
预测模块107,在对应的随机森林模型RF中对测试集中的每一组数据进行血糖预测,得到血糖预测结果。
整体上,利用数据采集模块101采集相关生理特性参数数据和实际血糖值数据,通过数据处理模块102处理后形成特征矩阵,将其作为数据集划分为训练集和测试集,结合排序处理模块103对血糖参考值从低至高排序,利用血糖的分布特性确定血糖区间集中的段数,然后利用分段域划分模块104对训练集划分段域,利用随机森林模型构建模块105构建不同的随机森林模型,再利用分类归属模块106对测试集的每一组数据对应的特征点加权求其欧氏距离进行分类,归于不同的随机森林模型,最后通过预测模块107再进行预测。划分段域后对测试集的每一组数据在不同随机森林模型得出的血糖预测值会更精确,与实际血糖参考值误差更小,拟合程度较好。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种基于分段域RF建模预测血糖的方法,其特征在于,包括:
S1.确定志愿者群体,采集志愿者的实际血糖值数据以作为血糖参考值,且采集志愿者同步的相关生理特征参数数据;
在步骤S1中,设定数据整体采集时长为T,结合个体饮食结构以及标准血糖变化规律,设定每天的数据采集时间段为早餐前、午餐后、晚餐前以及晚餐后四个时段,设定饮食结构变化的三个阶段数据采集周期,每个阶段为期T/3天,第一阶段为“正常饮食”阶段,第二阶段为“生酮饮食”阶段,第三阶段为“餐后喝可乐”阶段;采集志愿者的实际血糖值数据时采用有创血糖检测方法;所述的相关生理特征参数数据包括:PPG心电信号、ECG脉电信号、血压和心率,采用无创方式采集;
S2.基于相关生理特征参数数据与实际血糖数据构建特征矩阵,将特征矩阵作为数据集,并划分为训练集和测试集;
S3.将血糖参考值从低至高排序,形成分布区间,与血糖参考值同步的相关生理特征参数数据也按对应的顺序排序;
S4.根据标准血糖变化规律、个体饮食结构以及每天的数据采集时间段确定血糖区间集中的段数N,将排序后的血糖参考值及与血糖参考值同步的相关生理特征参数数据形成的训练集也划分为N段域;
S5.构建N段域训练集分别对应的N个随机森林模型RF并训练,得到训练好的训练随机森林模型RF;
S6.求解测试集中每一组数据在每一个随机森林模型RF中的贡献值,基于贡献值求解测试集的每一组数据对应于每一个随机森林模型RF的加权欧氏距离,根据加权欧氏距离将测试集中的每一组数据分类归属于对应的随机森林模型RF;
S7.在对应的随机森林模型RF中对测试集中的每一组数据进行血糖预测,得到血糖预测结果。
2.根据权利要求1所述的基于分段域RF建模预测血糖的方法,其特征在于,在步骤S2中,构建的特征矩阵中设有反映人体生理特性的特征值和血糖特征值,其中,反映人体生理特性的特征值包括PPG心电信号和ECG脉电信号、根据ECG脉电信号提取的波形特征、同步的血压、心率、心跳变异特征,血糖特征值即实际血糖值数据;
所述的训练集为“正常饮食”阶段采集的志愿者的实际血糖值数据和同步的相关生理特征参数数据,所述的测试集为“生酮饮食”阶段和“餐后喝可乐”阶段采集的志愿者的实际血糖值数据和同步的相关生理特征参数数据,“正常饮食”阶段、“生酮饮食”阶段和“餐后喝可乐”阶段采集的志愿者的实际血糖值数据作为血糖参考值。
3.根据权利要求2所述的基于分段域RF建模预测血糖的方法,其特征在于,在步骤S3中,设血糖参考值表示为[BG 1BG 2,…,BG K]序列,K表示采集的实际血糖值数据总个数,将[BG 1BG 2,…,BG K]序列的每一个血糖参考值从低至高排序,形成分布区间,得到[BG min ,…,BG max ],其中,BG max 表示排序后的血糖参考值最大值,BG min 排序后的血糖参考值最小值。
4.根据权利要求3所述的基于分段域RF建模预测血糖的方法,其特征在于,在步骤S5中,N个随机森林模型RF通过自助法重采样技术构建,利用bootstrap法从N个训练集中分别有放回地重复随机抽取k个训练集样本生成新的训练集样本,对于每个新的训练集样本都建立决策树,形成N个随机森林模型RF,构建完成后,依次将训练集数据输入随机森林模型RF,每一个随机森林模型RF的每颗决策树的预测结果作为一次预测投票,以少数服从多数作为预测结果;根据多个预测结果和实际血糖参考值的误差确定随机森林模型RF的精度,将精度与精度设置值对比,对随机森林模型RF进行调整,直至随机森林模型RF的精度达到精度设置值。
5.根据权利要求4所述的基于分段域RF建模预测血糖的方法,其特征在于,在步骤S6中,测试集中每一组数据在每一个随机森林模型RF中的贡献值是指测试集中PPG心电信号和ECG脉电信号、根据ECG脉电信号提取的波形特征、同步的血压、心率、心跳变异特征在每一个随机森林模型RF中的每棵决策树上做出的贡献,通过基尼指数公式计算;设每一组数据特征贡献率的权值为a 1a 2、…、a n ,测试集中每一组数据的特征值设为y 1y 2、…、y n ,每一组对应的血糖参考值为BG 1BG 2、…、BG n ,对训练集中N段域中每一段域的每一列特征值分别求其平均值,并将其每列特征值的平均值记为
Figure 788860DEST_PATH_IMAGE001
Figure 768318DEST_PATH_IMAGE002
、…、
Figure 548055DEST_PATH_IMAGE003
,求解测试集的每一组数据对应于每一个随机森林模型RF的加权欧氏距离,加权欧氏距离表达式为:
Figure 943264DEST_PATH_IMAGE004
其中,
Figure 757636DEST_PATH_IMAGE005
表示测试集的每一组数据对应于每一个随机森林模型RF的加权欧氏距离的总称,设按加权欧氏距离表达式,测试集的每一组数据分别求解对应于训练集N个随机森林模型RF的N个加权欧式距离x 1x 2、…、x N ,设N个随机森林模型RF中第i个随机森林模型RF对应的测试集的j组数据加权欧氏距离
Figure 642416DEST_PATH_IMAGE006
最小,则测试集的j组数据与该随机森林模型RF的平均距离最小,测试集的j组数据分类归属于第i个随机森林模型RF。
6.根据权利要求5所述的基于分段域RF建模预测血糖的方法,其特征在于,步骤S7之后还包括利用克拉克误差网络对血糖预测结果的预测准确度进行验证。
7.一种基于分段域RF建模预测血糖的计算机系统,其特征在于,所述系统包括存储器、处理器及存储在存储器上并能在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1~6任意一项所述的基于分段域RF建模预测血糖的方法的步骤。
8.一种计算机存储介质,用于计算机可读存储,其特征在于,所述计算机存储介质上存储有基于分段域RF建模预测血糖的程序,所述基于分段域RF建模预测血糖的程序被处理器执行时,用于实现权利要求1~6任意一项所述的基于分段域RF建模预测血糖的方法的步骤。
9.一种基于分段域RF建模预测血糖的装置,其特征在于,所述装置包括:
数据采集模块,用于确定志愿者群体,采集志愿者的实际血糖值数据以作为血糖参考值,且采集志愿者同步的相关生理特征参数数据;数据采集模块设定数据整体采集时长为T,结合个体饮食结构以及标准血糖变化规律,设定每天的数据采集时间段为早餐前、午餐后、晚餐前以及晚餐后四个时段,设定饮食结构变化的三个阶段数据采集周期,每个阶段为期T/3天,第一阶段为“正常饮食”阶段,第二阶段为“生酮饮食”阶段,第三阶段为“餐后喝可乐”阶段;采集志愿者的实际血糖值数据时采用有创血糖检测方法;所述的相关生理特征参数数据包括:PPG心电信号、ECG脉电信号、血压和心率,采用无创方式采集;
数据处理模块,基于相关生理特征参数数据与实际血糖数据构建特征矩阵,将特征矩阵作为数据集,并划分为训练集和测试集;
排序处理模块,将血糖参考值从低至高排序,形成分布区间,与血糖参考值同步的相关生理特征参数数据也按对应的顺序排序;
分段域划分模块,根据标准血糖变化规律、个体饮食结构以及每天的数据采集时间段确定血糖区间集中的段数N,将排序后的血糖参考值及与血糖参考值同步的相关生理特征参数数据形成的训练集也划分为N段域;
随机森林模型构建模块,用于构建N段域训练集分别对应的N个随机森林模型RF并训练,得到训练好的训练随机森林模型RF;
分类归属模块,用于求解测试集中每一组数据在每一个随机森林模型RF中的贡献值,基于贡献值求解测试集的每一组数据对应于每一个随机森林模型RF的加权欧氏距离,根据加权欧氏距离将测试集中的每一组数据分类归属于对应的随机森林模型RF;
预测模块,在对应的随机森林模型RF中对测试集中的每一组数据进行血糖预测,得到血糖预测结果。
CN202210109387.9A 2022-01-28 2022-01-28 基于分段域rf建模预测血糖的方法、系统及存储介质 Active CN114420301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210109387.9A CN114420301B (zh) 2022-01-28 2022-01-28 基于分段域rf建模预测血糖的方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210109387.9A CN114420301B (zh) 2022-01-28 2022-01-28 基于分段域rf建模预测血糖的方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN114420301A CN114420301A (zh) 2022-04-29
CN114420301B true CN114420301B (zh) 2022-08-05

Family

ID=81278963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210109387.9A Active CN114420301B (zh) 2022-01-28 2022-01-28 基于分段域rf建模预测血糖的方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN114420301B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115985515A (zh) * 2023-03-20 2023-04-18 广东工业大学 一种基于机器学习的弱视矫治效果预测方法、装置及设备
CN116889395B (zh) * 2023-08-24 2024-02-13 迈德医疗科技(深圳)有限公司 一种基于catpca的无创血糖膳食分类方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463766A (zh) * 2017-06-23 2017-12-12 深圳市中识创新科技有限公司 血糖预测模型的生成方法、装置及计算机可读存储介质
CN109872821A (zh) * 2019-04-24 2019-06-11 北京信息科技大学 一种构建血糖预测模型的方法及装置
CN111513728A (zh) * 2020-04-23 2020-08-11 中国科学院上海技术物理研究所 一种多技术融合的无创血糖检测装置及测量方法
CN112633601A (zh) * 2020-12-31 2021-04-09 天津开心生活科技有限公司 疾病事件发生概率的预测方法、装置、设备及计算机介质
CN113288131A (zh) * 2021-05-06 2021-08-24 广东工业大学 基于图卷积网络的无创血糖检测方法、处理器及装置
CN113855007A (zh) * 2021-08-27 2021-12-31 联卫医疗科技(上海)有限公司 一种用于血糖预测的机器学习模型样本获取的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10307109B2 (en) * 2011-04-20 2019-06-04 Novo Nordisk A/S Glucose predictor based on regularization networks with adaptively chosen kernels and regularization parameters

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463766A (zh) * 2017-06-23 2017-12-12 深圳市中识创新科技有限公司 血糖预测模型的生成方法、装置及计算机可读存储介质
CN109872821A (zh) * 2019-04-24 2019-06-11 北京信息科技大学 一种构建血糖预测模型的方法及装置
CN111513728A (zh) * 2020-04-23 2020-08-11 中国科学院上海技术物理研究所 一种多技术融合的无创血糖检测装置及测量方法
CN112633601A (zh) * 2020-12-31 2021-04-09 天津开心生活科技有限公司 疾病事件发生概率的预测方法、装置、设备及计算机介质
CN113288131A (zh) * 2021-05-06 2021-08-24 广东工业大学 基于图卷积网络的无创血糖检测方法、处理器及装置
CN113855007A (zh) * 2021-08-27 2021-12-31 联卫医疗科技(上海)有限公司 一种用于血糖预测的机器学习模型样本获取的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XGBoost对比神经网络和随机森林耦合因子分析预诊急性肝衰竭;张冬阳等;《数学的实践与认识》;20200708(第13期);全文 *
一种基于SVM的改进样本加权风速预测;张瑞成等;《电脑知识与技术》;20170905(第25期);全文 *
基于支持向量回归和核岭回归对血糖值预测的对比分析;都承华等;《数学的实践与认识》;20200323(第06期);全文 *

Also Published As

Publication number Publication date
CN114420301A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
Monte-Moreno Non-invasive estimate of blood glucose and blood pressure from a photoplethysmograph by means of machine learning techniques
Li et al. Non-invasive monitoring of three glucose ranges based on ECG by using DBSCAN-CNN
CN114420301B (zh) 基于分段域rf建模预测血糖的方法、系统及存储介质
Afsaneh et al. Recent applications of machine learning and deep learning models in the prediction, diagnosis, and management of diabetes: a comprehensive review
Wang et al. Photoplethysmography-based blood pressure estimation combining filter-wrapper collaborated feature selection with LASSO-LSTM model
CN110299205A (zh) 基于人工智能的生物医学信号特征处理及评测方法、装置及应用
Moreno et al. Type 2 diabetes screening test by means of a pulse oximeter
TWI678630B (zh) 非侵入式估測hba1c與血糖值之系統與方法
Di Martino et al. High-resolution physiological stress prediction models based on ensemble learning and recurrent neural networks
KR102169637B1 (ko) 사망 위험도의 예측 방법 및 이를 이용한 사망 위험도의 예측 디바이스
CN117012392A (zh) 高血压风险评估模型构建方法、膳食食疗及健康管理系统
Dave et al. Detection of hypoglycemia and hyperglycemia using noninvasive wearable sensors: electrocardiograms and accelerometry
Ekong et al. Machine Learning based Model for the Prediction of Fasting Blood Sugar Level towards Cardiovascular Disease Control for the Enhancement of Public Health
Igbe et al. An absolute magnitude deviation of HRV for the prediction of prediabetes with combined artificial neural network and regression tree methods
KR20230044160A (ko) 기계학습을 이용한 비침습적 당화혈색소 또는 혈당 추정 방법 및 장치
CN114403866B (zh) 一种基于近红外光波长变换的无创血糖预测装置
CN110993109A (zh) 一种用于心血管功能无创健康评价方法的装置
CN115633957A (zh) 一种基于高阶和分数低阶统计量的血糖预测方法及系统
CN117116462A (zh) 一种糖化血红蛋白值的预测方法、系统及装置
Winkler et al. Patient-specific performance evaluation for insulin control systems
Lim et al. ECG signal analysis for patient with metabolic syndrome based on 1D-convolution neural network
CN113066547A (zh) 一种基于常规无创参数的ards早期动态预警方法与系统
Shankar et al. Wavelet based Machine Learning Approaches towards Precision Medicine in Diabetes Mellitus.
US20240032825A1 (en) Photoplethysmography Based Non-Invasive Blood Glucose Prediction by Neural Network
Lado-Baleato et al. Optimal Cut-Point Estimation for functional digital biomarkers: Application to Continuous Glucose Monitoring

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant