CN114548158B - 一种用于血糖预测的数据处理方法 - Google Patents

一种用于血糖预测的数据处理方法 Download PDF

Info

Publication number
CN114548158B
CN114548158B CN202210109379.4A CN202210109379A CN114548158B CN 114548158 B CN114548158 B CN 114548158B CN 202210109379 A CN202210109379 A CN 202210109379A CN 114548158 B CN114548158 B CN 114548158B
Authority
CN
China
Prior art keywords
blood sugar
data
characteristic
prediction
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210109379.4A
Other languages
English (en)
Other versions
CN114548158A (zh
Inventor
韦怡婷
盛雨晴
凌永权
刘庆
郭海瑞
胡铃越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202210109379.4A priority Critical patent/CN114548158B/zh
Publication of CN114548158A publication Critical patent/CN114548158A/zh
Application granted granted Critical
Publication of CN114548158B publication Critical patent/CN114548158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/145Measuring characteristics of blood in vivo, e.g. gas concentration, pH value; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid, cerebral tissue
    • A61B5/14532Measuring characteristics of blood in vivo, e.g. gas concentration, pH value; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid, cerebral tissue for measuring glucose, e.g. by tissue impedance measurement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Emergency Medicine (AREA)
  • Optics & Photonics (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提出一种用于血糖预测的数据处理方法,涉及生物医学的技术领域,首先采集数据,将数据提取特征组成特征矩阵,然后将特征值对应的数据划分为第一数据集和第二数据集备用,将第一数据集中的特征值均通过基于经验模态分解算法和多项式曲线拟合,进行特征平滑处理,实现去除特征值中向上或向下突刺的目的,能去除尽可能多的冗余数据,使血糖数据曲线更加纯净,且能最大程度保留有用特征,经两者处理后的特征值融合为新的特征矩阵,便于实现特征数据信息的利用最大化,提高了数据的质量,从而在该数据处理方法用于血糖预测装置时,提高装置中血糖预测单元训练的精度,有利于训练的快速收敛,提升了最终血糖预测的准确度。

Description

一种用于血糖预测的数据处理方法
技术领域
本发明涉及生物医学的技术领域,更具体地,涉及一种用于血糖预测的数据处理方法。
背景技术
糖尿病的预防与治疗是目前社会上的一个重大卫生问题,因为糖尿病的危害严重,其危害的严重性在于后期引起的各种并发症如心脑血管病变、视网膜病变、肾病、中风甚至失明和截肢等问题。到目前为止,糖尿病还没有彻底根治的办法,但临床中,通过采取有效的血糖预测方法对患者的血糖进行预测,以预测值作为指导,再结合饮食、运动和药物的综合治疗,患者的病情是可以控制的,此时,血糖预测的准确度则显得至关重要。
从血糖检测方式层面而言,存在有创血糖检测方式、微创无糖检测方式和无创血糖检测方式,其中,相对于有创检测方式耗材多、易感染、体验感差等多项弊端,微创及无创血糖检测方式正逐渐成为主流,伴随着同步而来的,还有基于无创方式实现的血糖预测技术,如现有技术中公开了一种利用近红外光预测人血糖水平的方法,即利用近红外光谱法采集到脉电(PPG)信号,然后对其进行特征提取,并结合一系列其他特征,同步采集有创血糖值,然后进行模型的搭建,该方案能够有效预测血糖水平。与此同时,随着广大学者们在当前血糖预测领域的深入研究,这些方式的应用原理或者所基于的基本架构已比较清晰,但大家普遍忽略了一个问题,即若要保证应用这些方式进行血糖预测的准确性,前期与血糖预测有关的特征数据的处理十分关键,然而,与血糖预测有关的特征数据在提取后、应用于血糖预测前,需要进行平滑处理,否则,会导致预测模型出现失误,此外,首先特征数据值单个与单个之间比较独立,常规的特征数据平滑方法,如分箱,中值滤波等不再适用;其次,跟血糖参考值相关度较低的特征也会影响血糖预测结果的准确度。
发明内容
为解决如何有效处理与血糖预测相关的特征数据,提高血糖预测准确度的问题,本发明提出一种用于血糖预测的数据处理方法,使特征数据更加纯净,且最大程度保留有用特征,实现特征数据信息的利用最大化,从而用于血糖预测中提高血糖预测准确度。
为了达到上述技术效果,本发明的技术方案如下:
一种用于血糖预测的数据处理方法,包括:
S1.采集与血糖预测相关的数据,包括受试者的生理指标数据及与生理指标数据同步对应采集的实际血糖值;
S2.提取生理指标数据的特征,组成初始特征矩阵,初始特征矩阵中包括X组特征值,每组有Y种特征,将X组特征值与其相应的实际血糖值划分为第一数据集和第二数据集备用,其中第一数据集作为作为血糖预测的训练数据集,第二数据集作为血糖预测的测试数据集;
S3.将第一数据集中每组的Y种特征中某一单个特征Fx与该组同步对应的实际血糖值取出作为一个分组,设共形成n个分组,按实际血糖值的大小将n个分组的内容进行升序排序,得到该特征的特征序列;第二数据集不作处理,后续进行血糖预测时使用;
S4.利用经验模态分解法对特征序列进行处理,得到处理后的特征F1x;
S5.利用多项式曲线拟合法对特征序列进行处理,得到处理后的特征F2x;
S6.对Y种特征中除单个特征Fx之外的剩余Y-1个特征重复执行步骤S3~步骤S5,分别得到经验模态分解算法处理后的特征矩阵F1:{F11,F12,...,F1y}与多项式曲线拟合后的特征矩阵F2:{F21,F22,...,F2y},共2y个特征;
S7.基于随机森林算法,确定特征矩阵F1与特征矩阵F2中2y个特征对血糖值的贡献率,并进行排序筛选,组成最新的特征矩阵F’,完成与血糖预测相关的数据处理。
在本技术方案中,考虑与血糖预测相关的特征数据值单个与单个之间比较独立,常规的特征数据平滑方法不再适用的问题,另外,考虑跟血糖参考值相关度较低的特征也会影响血糖预测结果的准确度,综合以上两项考虑,对于采集的与血糖预测相关的生理指标数据,首先提取生理指标数据特征,这里的提取的“特征”为生理指标数据中比较有代表性的数据,如信号中的各个极值点等,然后基于经验模态分解法与多项式曲线拟合法,进行特征平滑处理,实现去除特征值中向上或向下突刺的目的,能去除尽可能多的冗余数据,使血糖数据曲线更加纯净,且能最大程度保留有用特征,经两者处理后的特征值融合为新的特征矩阵,便于实现特征数据信息的利用最大化,提高了数据的质量,在用于血糖预测时,提升最终血糖预测的准确度。
优选地,所述的受试者的生理指标数据包括:受试者的身高、体重、餐饮习惯、同步心率、血压、血脂、ECG心电信号及PPG脉电信号,利用血糖仪同步对应采集实际血糖值。受试者的生理指标数据在一定程度上与受试者的血糖水平相关,能起到综合影响的作用。
优选地,设置受试者的个数为A,糖尿病患者与指标健康者各占一半;设置数据采集周期为L天,与血糖预测相关的数据每天的采集时段为早餐前、午餐后、下午茶后及晚餐后四个时间点,在L天中每天的每一个时间点后的间隔Δt时间内,采集受试者的生理指标数据,且采集同步对应的实际血糖值,以实际血糖值作为血糖参考值。
优选地,在步骤S2中,设在早餐前、午餐后、下午茶后及晚餐后四个时间点中任意一个时间点后的间隔Δt时间内采集受试者的生理指标数据,提取的特征共Y种,在不同时间点不同受试者上进行采集,得到与血糖预测相关的初始特征矩阵F:
Figure GDA0003837552680000031
其中,每一列代表一种特征,共Y种,每一行代表一组特征值,共X行,ɑXY表示第X组中的第Y种特征值,采集的同步对应的实际血糖值表示为:[BG1、BG2、…、BGX]。
优选地,以特征值为纵坐标,以血糖参考值为横坐标建立直角坐标网络,将步骤S3得到的特征序列中的值在直角坐标网络中标出,然后依次连接,形成特征值与血糖参考值的关系曲线,利用经验模态分解算法提取关系曲线中的IMF分量,得到n个分组的IMF分量:IMF1~IMFn,然后进行经验模态分解算法的迭代操作,得到该特征与血糖参考值的最优IMF分量组合,并重构出关系曲线C:C=IMFn+IMFn-1+…+IMFk,曲线C上的点对应经验模态分解算法处理后的特征F1x,经验模态分解算法能使待处理信号分解为有限个单分量信号,这些分解后的分量称为固有模函数IMF,IMF分量包含原信号的不同时间尺度的局部特征信号,所有的IMF分量可重构得到原来的待处理信号,去除部分信息较少、噪声较多的IMF分量则可以得到降噪后的信号曲线,可以在有效地保留了信号的原始特征的同时去除大量噪声,属于一种性能良好的去噪方法,且在非线性曲线上表现优秀。
优选地,以特征值为纵坐标,以血糖参考值为横坐标建立直角坐标网络,将步骤S3得到的特征序列中的值在直角坐标网络中标出,然后依次连接,形成特征值与血糖参考值的关系曲线,在步骤S5中,利用多项式曲线拟合法对特征值与血糖参考值的关系曲线进行拟合,得出特征值与血糖参考值的关系曲线平滑最优时的最高次项,并得出拟合后的多项式,利用该多项式修正特征值与血糖参考值的关系曲线中的偏差异常值,得到多项式曲线拟合平滑后的特征F2x
在此,多项式曲线拟合指的是利用一个多项式函数,调整函数的参数,使得函数图像逼近于数据曲线,能表现数据曲线的趋势,从而能够用此多项式代替原来的数据序列。
优选地,经验模态分解算法处理后的特征矩阵F1:{F11,F12,...,F1y}与多项式曲线拟合后的特征矩阵F2:{F21,F22,...,F2y}组合成特征矩阵J,表达为:
{F11…F1y;F21…F2y}
在步骤S7中,基于随机森林算法,得到特征矩阵J中的2y个特征各自对血糖值的贡献率,贡献率的计算通过基尼指数计算公式实现;
按照贡献率的大小对特征进行排序,贡献率越大,特征对血糖预测而言越重要,设IF1i表示特征矩阵F1中第i个特征对血糖值的贡献率,IF2i表示特征矩阵F2中第i个特征对血糖值的贡献率,利用Ii=max{IF1i,IF2i})对2Y个特征进行筛选,在IF1i,IF2i中选择较大的一个,舍去另一个,组成y个特征构成的特征矩阵F’:{F’1…F’y}。
本发明提出一种血糖预测装置,所述装置包括:
血糖相关数据采集处理单元,封装有计算机程序,所述计算机程序用于所述的用于血糖预测的数据处理方法,得到第一数据集的特征矩阵F’和不作处理的第二数据集;
血糖预测单元,血糖预测单元以CNN神经网络为基础,经第一数据集的特征矩阵F’训练后,用于预测血糖;
测试单元,将第二数据集中的每组特征值分别输入血糖预测单元,得到每组特征值的血糖预测值。
优选地,CNN神经网络包括输入层、隐藏层和输出层,以第一数据集的特征矩阵F’为输入,设置总误差损失函数为:
Figure GDA0003837552680000051
其中,d为期望输出,L表示第L层,yL表示第L层的输出,||x||2表示向量x的2-范数,计算表达式为
Figure GDA0003837552680000052
反向训练CNN神经网络,直至总误差损失函数收敛,得到训练好的CNN神经网络,用于血糖预测,将第二数据集中的每组特征值分别输入训练好的CNN神经网络,得到每组特征值的血糖预测值。
优选地,所述装置还包括验证单元,所述验证单元封装有克拉克误差网络,用于验证血糖预测单元预测血糖的准确率。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种用于血糖预测的数据处理方法及血糖预测装置,首先采集数据,将数据提取特征组成特征矩阵,然后将特征值对应的数据划分为第一数据集和第二数据集备用,将第一数据集中的特征值均通过基于经验模态分解算法和多项式曲线拟合,进行特征平滑处理,实现去除特征值中向上或向下突刺的目的,能去除尽可能多的冗余数据,使血糖数据曲线更加纯净,且能最大程度保留有用特征,经两者处理后的特征值融合为新的特征矩阵,便于实现特征数据信息的利用最大化,提高了数据的质量,从而在该数据处理方法用于血糖预测装置时,提高装置中血糖预测单元训练的精度,有利于训练的快速收敛,提升了最终血糖预测的准确度。
附图说明
图1表示本发明实施例1中提出的用于血糖预测的数据处理方法的流程示意图;
图2表示本发明实施例1中提出的利用经验模态分解算法平滑关系曲线并重构的示意图;
图3表示本发明实施例1中提出的利用多项式曲线拟合法平滑后得到的曲线示意图;
图4表示本发明实施例2中提出的基于随机森林算法确定特征矩阵F1与特征矩阵F2中2y个特征对血糖值的贡献率并进行排序筛选的过程示意图;
图5表示本发明实施例3中提出的血糖预测装置的结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
附图中描述位置关系的仅用于示例性说明,不能理解为对本专利的限制;
实施例1
如图1所示,本实施例提出了一种用于血糖预测的数据处理方法,参见图1,该方法的步骤包括:
S1.采集与血糖预测相关的数据,包括受试者的生理指标数据及与生理指标数据同步对应采集的实际血糖值;
在本实施例中,受试者的生理指标数据包括:受试者的身高、体重、餐饮习惯、同步心率、血压、血脂、ECG心电信号及PPG脉电信号,利用血糖仪同步对应采集实际血糖值,生理指标数据通过无创检测的方式获得,设置受试者的个数为A,糖尿病患者与指标健康者各占一半,具体实施时,选取受试者共12位,其中6位为糖尿病患者,另外6位为指标正常的受试志愿者,设置数据采集周期为12天,与血糖预测相关的数据每天的采集时段为早餐前、午餐后、下午茶后及晚餐后四个时间点,在12天中每天的每一个时间点后的间隔Δt时间内,采集受试者的生理指标数据,且采集同步对应的实际血糖值,以实际血糖值作为血糖参考值。
S2.提取生理指标数据的特征,组成初始特征矩阵,初始特征矩阵中包括X组特征值,每组有Y种特征,将X组特征值与其相应的实际血糖值划分为第一数据集和第二数据集备用,其中第一数据集作为作为血糖预测的训练数据集,第二数据集作为血糖预测的测试数据集;
设在早餐前、午餐后、下午茶后及晚餐后四个时间点中任意一个时间点后的间隔Δt时间内采集受试者的生理指标数据,如午餐后,提取的特征共Y种,在不同时间点不同受试者上进行采集,得到与血糖预测相关的初始特征矩阵F:
Figure GDA0003837552680000071
其中,每一列代表一种特征,共Y种,每一行代表一组特征值,共X行,ɑXY表示第第X组中的第Y种特征值,因为受试者的生理指标数据在一定程度上与受试者的血糖水平相关,能起到综合影响的作用,所述的特征值提取即从生理指标数据中提取出具有统计特性的代表值,如信号的极大、极小值点等,采集的同步对应的实际血糖值表示为:[BG1、BG2、…、BGX],此处的实际血糖值序列[BG1、BG2、…、BGX]对应初始特征矩阵F中自上而下的每一行。然后,将X组特征值与其相应的实际血糖值划分为第一数据集和第二数据集备用,第一数据集约占总数的
Figure GDA0003837552680000072
设第一数据集的血糖序列为BG1,第二数据集占总数的
Figure GDA0003837552680000073
设第二数据集中的特征矩阵为T,血糖序列为BG2。
S3.将第一数据集中每组的Y种特征中某一单个特征Fx与该组同步对应的实际血糖值取出作为一个分组,设共形成n个分组,按实际血糖值的大小将n个分组的内容进行升序排序,得到该特征的特征序列;第二数据集不作处理,后续进行血糖预测时使用;
S4.利用经验模态分解法对特征序列进行处理,得到处理后的特征F1x;
以特征值为纵坐标,以血糖参考值为横坐标建立直角坐标网络,将步骤S3得到的特征序列中的值在直角坐标网络中标出,然后依次连接,形成特征值与血糖参考值的关系曲线如图2所示,图2中的“实线”即为特征序列中的值,参见图2,利用经验模态分解算法提取关系曲线中的IMF分量,得到n个分组的IMF分量:IMF1~IMFn,然后进行经验模态分解算法的迭代操作,得到该特征与血糖参考值的最优IMF分量组合,并重构出关系曲线C:C=IMFn+IMFn-1+…+IMFk,曲线C如图2中的“虚线”所示,曲线C上的点对应经验模态分解算法处理后的特征F1x。
具体处理过程中,利用3次样条曲线拟合上下极值点的包络线的方式,求出上下包络线的平均值,然后减去它,根据预设判断是否为IMF的一系列迭代过程,得到能够包含尽可能多的信息且使异常值噪声足够小的重构关系曲线C:C=IMFn+IMFn-1+…+IMFk
S5.利用多项式曲线拟合法对特征序列进行处理,得到处理后的特征F2x;
多项式曲线拟合指的是利用一个多项式函数,调整函数的参数,使得函数图像逼近于数据曲线,能表现数据曲线的趋势,从而能够用此多项式代替原来的数据序列。在本实施例中,仍以图2所示的关系曲线中的“实线”的特征序列点为基础,利用多项式曲线拟合法对特征值与血糖参考值的关系曲线进行拟合,得出特征值与血糖参考值的关系曲线平滑最优时的最高次项,由MATLAB得出拟合后的多项式,利用该多项式修正特征值与血糖参考值的关系曲线中的偏差异常值,得到多项式曲线拟合平滑后的特征F2x,在本实施例中对应曲线:y=Ax3+Bx2+Cx+D,拟合后的曲线图如图3所示。
S6.对Y种特征中除单个特征Fx之外的剩余Y-1个特征重复执行步骤S3~步骤S5,分别得到经验模态分解算法处理后的特征矩阵F1:{F11,F12,...,F1y}与多项式曲线拟合后的特征矩阵F2:{F21,F22,...,F2y},共2y个特征;
S7.基于随机森林算法,确定特征矩阵F1与特征矩阵F2中2y个特征对血糖值的贡献率,并进行排序筛选,组成最新的特征矩阵F’,完成与血糖预测相关的数据处理。
实施例2
本实施例针对于实施例1中步骤S7指出的特征矩阵F1:{F11,F12,...,F1y}与多项式曲线拟合后的特征矩阵F2:{F21,F22,...,F2y}组合成特征矩阵J的筛选进行进一步说明。
经验模态分解算法处理后的特征矩阵F1:{F11,F12,...,F1y}与多项式曲线拟合后的特征矩阵F2:{F21,F22,...,F2y}组合成特征矩阵J,表达为:
{F11…F1y;F21…F2y}
在步骤S7中,基于随机森林算法,得到特征矩阵J中的2y个特征各自对血糖值的贡献率,贡献率的计算通过基尼指数计算公式实现。
按照贡献率的大小对特征进行排序,贡献率越大,特征对血糖预测而言越重要,设IF1i表示特征矩阵F1中第i个特征对血糖值的贡献率,IF2i表示特征矩阵F2中第i个特征对血糖值的贡献率,利用Ii=max{IF1i,IF2i})对2Y个特征进行筛选,在IF1i,IF2i中选择较大的一个,舍去另一个,组成y个特征构成的特征矩阵F’:{F’1…F’y}。
其中,随机森林算法是基于决策树的思想,如图4所示,设引入的随机森林算法中涉及共n棵决策树,分别表示为:决策树1、决策树2、…、决策树n,
{F11…F1y;F21…F2y}
计算每一个特征在每一棵决策树的重要性值,计算表达式为:
Figure GDA0003837552680000091
其中,
Figure GDA0003837552680000092
表示第j个特征的重要性值,
Figure GDA0003837552680000093
表示第j个特征在第i棵决策树的重要性值,表达式为:
Figure GDA0003837552680000094
其中,Ginim、Ginil、Ginir分别表示随机森林中节点m、节点l、节点r的基尼指数,任意一个节点的基尼指数计算表达式为:
Figure GDA0003837552680000095
其中,Gini表示随机森林中节点m的基尼指数;K表示特征的个数,k表示当前计算的第k个特征;pmk表示随机森林中节点m中第k个特征所占的比例;每个特征的贡献率的表达式为:
Figure GDA0003837552680000096
其中,K表示特征的个数;VIMj表示第j个特征的贡献率,
Figure GDA0003837552680000097
表示所有平滑特征值的重要性之和。
实施例3
如图3所示,本实施例提出一种血糖预测装置,该装置包括:
血糖相关数据采集处理单元1,封装有计算机程序,所述计算机程序用于执行实施例1所述的用于血糖预测的数据处理方法,主要包括:
S1.采集与血糖预测相关的数据,包括受试者的生理指标数据及与生理指标数据同步对应采集的实际血糖值;
S2.提取生理指标数据的特征,组成初始特征矩阵,初始特征矩阵中包括X组特征值,每组有Y种特征,将X组特征值与其相应的实际血糖值划分为第一数据集和第二数据集备用;
S3.将第一数据集中每组的Y种特征中某一单个特征Fx与该组同步对应的实际血糖值取出作为一个分组,设共形成n个分组,按实际血糖值的大小将n个分组的内容进行升序排序,得到该特征的特征序列;第二数据集不作处理;
S4.利用经验模态分解法对特征序列进行处理,得到处理后的特征F1x;
S5.利用多项式曲线拟合法对特征序列进行处理,得到处理后的特征F2x;
S6.对Y种特征中除单个特征Fx之外的剩余Y-1个特征重复执行步骤S3~步骤S5,分别得到经验模态分解算法处理后的特征矩阵F1:{F11,F12,...,F1y}与多项式曲线拟合后的特征矩阵F2:{F21,F22,...,F2y},共2y个特征;
S7.基于随机森林算法,确定特征矩阵F1与特征矩阵F2中2y个特征对血糖值的贡献率,并进行排序筛选,组成最新的特征矩阵F’,完成与血糖预测相关的数据处理。
总体上,经过以上处理,得到第一数据集的特征矩阵F’和不作处理的第二数据集。
血糖预测单元2,血糖预测单元2以CNN神经网络为基础,经第一数据集的特征矩阵F’训练后,用于预测血糖;CNN神经网络包括输入层、隐藏层和输出层,以第一数据集的特征矩阵F’为输入,设置总误差损失函数为:
Figure GDA0003837552680000101
其中,d为期望输出,L表示第L层,yL表示第L层的输出,||x||2表示向量x的2-范数,计算表达式为
Figure GDA0003837552680000102
反向训练CNN神经网络,直至总误差损失函数收敛,得到训练好的CNN神经网络,将第二数据集中的每组特征值分别输入训练好的CNN神经网络,得到每组特征值的血糖预测值。
测试单元3,将第二数据集中的每组特征值分别输入血糖预测单元2,得到每组特征值的血糖预测值。
除此之外,所述装置还包括验证单元,验证单元封装有克拉克误差网络,用于验证血糖预测单元预测血糖的准确率。
克拉克误差网络是用来评价血糖预测准确度的一个分析手段,一般很多方法会讲自身在某一级别的概率是多少,即指按克拉克误差网络进行的评价分析标定,以y轴代表预测的血糖值,x轴代表血糖参考值,一般认为就是实际血糖值,生成克拉克误差网络分析的结果可以通过MATLAB程序实现,此处不赘述。
实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种用于血糖预测的数据处理方法,其特征在于,包括:
S1.采集与血糖预测相关的数据,包括受试者的生理指标数据及与生理指标数据同步对应采集的实际血糖值;
S2.提取生理指标数据的特征,组成初始特征矩阵,初始特征矩阵中包括X组特征值,每组有Y种特征,将X组特征值与其相应的实际血糖值划分为第一数据集和第二数据集备用,其中第一数据集作为作为血糖预测的训练数据集,第二数据集作为血糖预测的测试数据集;
S3.将第一数据集中每组的Y种特征中某一单个特征Fx与该组同步对应的实际血糖值取出作为一个分组,设共形成n个分组,按实际血糖值的大小将n个分组的内容进行升序排序,得到该特征的特征序列;第二数据集不作处理,后续进行血糖预测时使用;
S4.利用经验模态分解法对特征序列进行处理,得到处理后的特征F1x;
以特征值为纵坐标,以血糖参考值为横坐标建立直角坐标网络,将步骤S3得到的特征序列中的值在直角坐标网络中标出,然后依次连接,形成特征值与血糖参考值的关系曲线,利用经验模态分解算法提取关系曲线中的IMF分量,得到n个分组的IMF分量:IMF1~IMFn,然后进行经验模态分解算法的迭代操作,得到该特征与血糖参考值的最优IMF分量组合,并重构出关系曲线C:C=IMFn+IMFn-1+…+IMFk,曲线C上的点对应经验模态分解算法处理后的特征F1x;
S5.利用多项式曲线拟合法对特征序列进行处理,得到处理后的特征F2x;
以特征值为纵坐标,以血糖参考值为横坐标建立直角坐标网络,将步骤S3得到的特征序列中的值在直角坐标网络中标出,然后依次连接,形成特征值与血糖参考值的关系曲线,在步骤S5中,利用多项式曲线拟合法对特征值与血糖参考值的关系曲线进行拟合,得出特征值与血糖参考值的关系曲线平滑最优时的最高次项,并得出拟合后的多项式,利用该多项式修正特征值与血糖参考值的关系曲线中的偏差异常值,得到多项式曲线拟合平滑后的特征F2x
S6.对Y种特征中除单个特征Fx之外的剩余Y-1个特征重复执行步骤S3~步骤S5,分别得到经验模态分解算法处理后的特征矩阵F1:{F11,F12,...,F1y}与多项式曲线拟合后的特征矩阵F2:{F21,F22,...,F2y},共2y个特征;
S7.基于随机森林算法,确定特征矩阵F1与特征矩阵F2中2y个特征对血糖值的贡献率,并进行排序筛选,组成最新的特征矩阵F’,完成与血糖预测相关的数据处理;
经验模态分解算法处理后的特征矩阵F1:{F11,F12,...,F1y}与多项式曲线拟合后的特征矩阵F2:{F21,F22,...,F2y}组合成特征矩阵J,表达为:
{F11…F1y;F21…F2y}
基于随机森林算法,得到特征矩阵J中的2y个特征各自对血糖值的贡献率,贡献率的计算通过基尼指数计算公式实现;
按照贡献率的大小对特征进行排序,贡献率越大,特征对血糖预测而言越重要,设IF1i表示特征矩阵F1中第i个特征对血糖值的贡献率,IF2i表示特征矩阵F2中第i个特征对血糖值的贡献率,利用Ii=max{IF1i,IF2i})对2Y个特征进行筛选,在IF1i,IF2i中选择较大的一个,舍去另一个,组成y个特征构成的特征矩阵F’:{F’1…F’y}。
2.根据权利要求1所述的用于血糖预测的数据处理方法,其特征在于,所述的受试者的生理指标数据包括:受试者的身高、体重、餐饮习惯、同步心率、血压、血脂、ECG心电信号及PPG脉电信号,利用血糖仪同步对应采集实际血糖值。
3.根据权利要求2所述的用于血糖预测的数据处理方法,其特征在于,设置受试者的个数为A,糖尿病患者与指标健康者各占一半;设置数据采集周期为L天,与血糖预测相关的数据每天的采集时段为早餐前、午餐后、下午茶后及晚餐后四个时间点,在L天中每天的每一个时间点后的间隔Δt时间内,采集受试者的生理指标数据,且采集同步对应的实际血糖值,以实际血糖值作为血糖参考值。
4.根据权利要求3所述的用于血糖预测的数据处理方法,其特征在于,在步骤S2中,设在早餐前、午餐后、下午茶后及晚餐后四个时间点中任意一个时间点后的间隔Δt时间内采集受试者的生理指标数据,提取的特征共Y种,在不同时间点不同受试者上进行采集,得到与血糖预测相关的初始特征矩阵F:
Figure FDA0003832468820000021
其中,每一列代表一种特征,共Y种,每一行代表一组特征值,共X行,ɑXY表示第X组中的第Y种特征值,采集的同步对应的实际血糖值表示为:[BG1、BG2、…、BGX]。
5.一种血糖预测装置,其特征在于,所述装置包括:
血糖相关数据采集处理单元,封装有计算机程序,所述计算机程序用于执行权利要求1所述的用于血糖预测的数据处理方法,得到第一数据集的特征矩阵F’和不作处理的第二数据集;
血糖预测单元,血糖预测单元以CNN神经网络为基础,经第一数据集的特征矩阵F’训练后,用于预测血糖;
测试单元,将第二数据集中的每组特征值分别输入血糖预测单元,得到每组特征值的血糖预测值。
6.根据权利要求5所述的血糖预测装置,其特征在于,CNN神经网络包括输入层、隐藏层和输出层,以第一数据集的特征矩阵F’为输入,设置总误差损失函数为:
Figure FDA0003832468820000031
其中,d为期望输出,L表示第L层,yL表示第L层的输出,||x||2表示向量x的2-范数,计算表达式为
Figure FDA0003832468820000032
反向训练CNN神经网络,直至总误差损失函数收敛,得到训练好的CNN神经网络,用于血糖预测,将第二数据集中的每组特征值分别输入训练好的CNN神经网络,得到每组特征值的血糖预测值。
7.根据权利要求6所述的血糖预测装置,其特征在于,所述装置还包括验证单元,所述验证单元封装有克拉克误差网络,用于验证血糖预测单元预测血糖的准确率。
CN202210109379.4A 2022-01-28 2022-01-28 一种用于血糖预测的数据处理方法 Active CN114548158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210109379.4A CN114548158B (zh) 2022-01-28 2022-01-28 一种用于血糖预测的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210109379.4A CN114548158B (zh) 2022-01-28 2022-01-28 一种用于血糖预测的数据处理方法

Publications (2)

Publication Number Publication Date
CN114548158A CN114548158A (zh) 2022-05-27
CN114548158B true CN114548158B (zh) 2022-11-11

Family

ID=81674519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210109379.4A Active CN114548158B (zh) 2022-01-28 2022-01-28 一种用于血糖预测的数据处理方法

Country Status (1)

Country Link
CN (1) CN114548158B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117503133A (zh) * 2022-07-30 2024-02-06 华为技术有限公司 糖尿病风险检测方法、电子设备及系统
WO2024049445A1 (en) * 2022-09-02 2024-03-07 Google Llc Multi-head convolutional network for average glucose prediction
CN116992293B (zh) * 2023-09-26 2023-12-08 北京豪迈生物工程股份有限公司 一种用于化学发光仪器的智能化数据处理方法
CN117582222B (zh) * 2024-01-18 2024-03-29 吉林大学 信息化血糖监测系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107530015B (zh) * 2015-04-20 2021-12-14 深圳市长桑技术有限公司 一种生命体征分析方法与系统
CN106980746B (zh) * 2016-12-16 2021-01-26 清华大学 一种基于时序分析的通用无创血糖预测方法
CN107463633B (zh) * 2017-07-17 2019-09-06 中国航天系统科学与工程研究院 一种基于eemd-神经网络的实时数据异常值检测方法
CN109117775A (zh) * 2018-08-02 2019-01-01 南京邮电大学 基于多项式的改进emd算法
CN113288132B (zh) * 2021-05-06 2023-04-14 广东工业大学 用于预测血糖值的方法、装置、存储介质及处理器

Also Published As

Publication number Publication date
CN114548158A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN114548158B (zh) 一种用于血糖预测的数据处理方法
US11529103B2 (en) Artificial intelligence self-learning-based automatic electrocardiography analysis method and apparatus
CN106214145B (zh) 一种基于深度学习算法的心电图分类方法
JP7344213B2 (ja) 睡眠段階検出のための方法、コンピューティングデバイス、およびウェアラブルデバイス
Li et al. Non-invasive monitoring of three glucose ranges based on ECG by using DBSCAN-CNN
Xia et al. A novel wearable electrocardiogram classification system using convolutional neural networks and active learning
CN111261289A (zh) 一种基于人工智能模型的心脏疾病的检测方法
WO2019161611A1 (zh) 心电信息处理方法和心电工作站
WO2021071688A1 (en) Systems and methods for reduced lead electrocardiogram diagnosis using deep neural networks and rule-based systems
CN109717833A (zh) 一种基于人体运动姿态的神经疾病辅助诊断系统
US20230107787A1 (en) Blood pressure prediction method and device
CN109726743A (zh) 一种基于三维卷积神经网络的视网膜oct图像分类方法
CN113509186B (zh) 基于深度卷积神经网络的ecg分类系统与方法
CN112906748A (zh) 基于残差网络的12导联ecg心律失常检测分类模型构建方法
CN111000551A (zh) 一种基于深度卷积神经网络模型的心脏病发风险诊断方法
CN114420301B (zh) 基于分段域rf建模预测血糖的方法、系统及存储介质
CN113362944B (zh) 一种基于机器学习的功能性消化不良和针刺疗效预测模型的评估方法
CN115024725A (zh) 融合心理状态多参数检测的肿瘤治疗辅助决策系统
CN114847905A (zh) 一种心率失常数据检测识别方法及系统
CN111329467A (zh) 一种基于人工智能的心脏疾病辅助检测方法
CN114530228B (zh) 基于平滑处理及融合的血糖预测方法、系统及医疗设备
CN116548926A (zh) 一种基于冷刺激的糖尿病足筛查系统及方法
Niu et al. Improving automated tissue characterization in optical coherence tomography by melding attenuation compensation with deep learning
CN114550910A (zh) 基于人工智能的射血分数保留型心衰诊断及分型系统
CN114159071A (zh) 一种基于心电图像的帕金森预测智能化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant