CN114093521B - 基于随机森林的均匀化样本重构血糖估计方法及系统 - Google Patents

基于随机森林的均匀化样本重构血糖估计方法及系统 Download PDF

Info

Publication number
CN114093521B
CN114093521B CN202210062933.8A CN202210062933A CN114093521B CN 114093521 B CN114093521 B CN 114093521B CN 202210062933 A CN202210062933 A CN 202210062933A CN 114093521 B CN114093521 B CN 114093521B
Authority
CN
China
Prior art keywords
data
sample
blood sugar
random forest
blood glucose
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210062933.8A
Other languages
English (en)
Other versions
CN114093521A (zh
Inventor
韦怡婷
许婕希
刘庆
凌永权
李妙
丘梓杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202210062933.8A priority Critical patent/CN114093521B/zh
Publication of CN114093521A publication Critical patent/CN114093521A/zh
Application granted granted Critical
Publication of CN114093521B publication Critical patent/CN114093521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种基于随机森林的均匀化样本重构血糖估计方法及系统,包括:获取血糖样本数据,进行预处理,去除极端数值;以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据直方图划分出等间距的N个基准点;利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,获取趋于均匀分布的N个血糖样本数据,构成子数据集,通过子数据集训练随机森林模型,获得模型的训练参数;利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,通过训练后模型进行血糖估算。本发明通过直方图均衡化对血糖样本进行重构均匀化,从而提高模型对样本空间分布的鲁棒性,提高模型应对极端血糖值的能力。

Description

基于随机森林的均匀化样本重构血糖估计方法及系统
技术领域
本发明涉及数据处理技术领域,更具体的,涉及一种基于随机森林的均匀化样本重构血糖估计方法、系统及介质。
背景技术
糖尿病是危害人类健康的一大杀手,目前已有的有创测血糖技术不仅存在血液感染的风险,而且无法实现在短时间内连续多次进行测量。为了对血糖实现无创连续监测,使用近红外光谱进行无创血糖检测的方法,该方法利用随机森林算法建立回归模型,而现有技术中利用随机森林算法建立回归模型还存在以下缺陷:未对样本数据进行预处理,直接对血糖样本数据进行随机且有放回地抽样,当出现极端血糖值时(血糖突然升高或突然降低),模型会因无法选择到那部分极端样本值去训练而导致准确率急剧下降。针对回归预测方法,当出现极端血糖值时,随机森林不能够做出超越训练集数据范围的预测,这可能导致在某些特定噪声的数据进行建模时出现过度拟合。
针对上述问题,为了让训练集尽可能涵盖所有特征信息,我们提出一种基于随机森林的针对血糖估计的样本训练集和测试集划分方法,旨在通过样本选择,将原本处于不均匀分布的样本空间映射为均匀分布的血糖样本空间,从而使得随机森林在随机且有放回地抽中每个血糖样本数据的概率趋于相同,以此提高模型预测的准确率以及模型对增强样本空间分布特性的鲁棒性。
发明内容
为了解决上述技术问题,本发明提出了一种基于随机森林的均匀化样本重构血糖估计方法、系统及存储介质。
本发明第一方面提供了一种基于随机森林的均匀化样本重构血糖估计方法,包括:
获取血糖样本数据,将所述血糖样本数据进行预处理,去除极端数值;
以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点;
利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据;
根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数;
利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估;
若模型的准确率处于预设阈值范围内,则导出训练后的随机森林模型,通过训练后的随机森林模型对目标用户血糖进行估算。
本方案中,所述的血糖样本数据包括输入特征数据及输出血糖数据,所述输入特 征数据
Figure 660271DEST_PATH_IMAGE001
为一个
Figure 251789DEST_PATH_IMAGE002
维列向量,放在一个
Figure 477234DEST_PATH_IMAGE003
的矩阵
Figure 925533DEST_PATH_IMAGE004
中,其中,
Figure 33166DEST_PATH_IMAGE005
表示样本 数目;所述输出血糖数据
Figure 693955DEST_PATH_IMAGE006
为一个
Figure 773906DEST_PATH_IMAGE007
维列向量,放在一个
Figure 393106DEST_PATH_IMAGE008
的矩阵
Figure 191298DEST_PATH_IMAGE009
中,其中,
Figure 718094DEST_PATH_IMAGE005
表示样本数量。
本方案中,所述的以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点,具体为:
根据血糖样本数据中的输出血糖数据生成输出血糖数据直方图,根据所述输出血 糖数据直方图划分出等间距的N个基准点
Figure 855815DEST_PATH_IMAGE010
所述基准点之间的间距计算公式为:
Figure 442654DEST_PATH_IMAGE011
其中,
Figure 852775DEST_PATH_IMAGE012
表示基准点间距,
Figure 120946DEST_PATH_IMAGE013
表示直方图中最后一个柱形的中心值,
Figure 175489DEST_PATH_IMAGE014
表示直方图 中第一个柱形的中心值,
Figure 136492DEST_PATH_IMAGE015
表示基准点个数。
本方案中,所述的利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据,具体为:
将所述基准点为聚类中心,通过近邻算法分别计算直方图中各个柱形中心值所在点到每个基准点的欧式距离;
根据所述欧式距离对直方图中各柱形对应的样本点进行排序,根据距离排序结果 获取距离最近的一个样本点
Figure 643697DEST_PATH_IMAGE016
根据N个基准点获取N个距离最近的样本点,通过N个距离最近的样本点获得趋于均匀分布的N个血糖样本数据。
本方案中,所述的根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数,具体为:
从N个血糖样本数据中随机且有放回地抽取样本生成子数据集,对所述子数据集进行特征提取,生成特征集合;
根据所述特征集合确定决策树节点及决策树数量,基于决策树建立随机森林模型,根据所述子数据集对所述随机森林模型进行训练。
本方案中,所述的利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,具体为:
将测试集的输入特征数据导入所述随机森林模型,获取随机森林模型中各子决策树的输出生成最终输出信息;
将所述最终输出信息与测试集的输出血糖数据进行对比分析生成偏差率,并预设偏差率阈值;
判断所述偏差率是否大于预设偏差率阈值,若大于,则说明所述随机森林模型的准确率不满足预设标准,同时生成修正信息;
根据所述修正信息二次获取趋于均匀分布的N个血糖样本数据,根据二次获取的血糖样本数据对所述随机森林模型进行二次训练。
本发明第二方面还提供了一种基于随机森林的均匀化样本重构血糖估计系统,该系统包括:存储器、处理器,所述存储器中包括一种基于随机森林的均匀化样本重构血糖估计方法程序,所述一种基于随机森林的均匀化样本重构血糖估计方法程序被所述处理器执行时实现如下步骤:
获取血糖样本数据,将所述血糖样本数据进行预处理,去除极端数值;
以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点;
利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据;
根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数;
利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估;
若模型的准确率处于预设阈值范围内,则导出训练后的随机森林模型,通过训练后的随机森林模型对目标用户血糖进行估算。
本方案中,所述的血糖样本数据包括输入特征数据及输出血糖数据,所述输入特 征数据
Figure 715558DEST_PATH_IMAGE001
为一个
Figure 890187DEST_PATH_IMAGE002
维列向量,放在一个
Figure 756512DEST_PATH_IMAGE003
的矩阵
Figure 751013DEST_PATH_IMAGE004
中,其中,
Figure 360986DEST_PATH_IMAGE005
表示样本 数目;所述输出血糖数据
Figure 390122DEST_PATH_IMAGE006
为一个
Figure 427348DEST_PATH_IMAGE007
维列向量,放在一个
Figure 174724DEST_PATH_IMAGE008
的矩阵
Figure 588388DEST_PATH_IMAGE009
中,其中,
Figure 737610DEST_PATH_IMAGE005
表示样本数量。
本方案中,所述的以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点,具体为:
根据血糖样本数据中的输出血糖数据生成输出血糖数据直方图,根据所述输出血 糖数据直方图划分出等间距的N个基准点
Figure 211316DEST_PATH_IMAGE010
所述基准点之间的间距计算公式为:
Figure 383672DEST_PATH_IMAGE011
其中,
Figure 335447DEST_PATH_IMAGE012
表示基准点间距,
Figure 339175DEST_PATH_IMAGE013
表示直方图中最后一个柱形的中心值,
Figure 983783DEST_PATH_IMAGE014
表示直方图 中第一个柱形的中心值,
Figure 440172DEST_PATH_IMAGE015
表示基准点个数。
本方案中,所述的利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据,具体为:
将所述基准点为聚类中心,通过近邻算法分别计算直方图中各个柱形中心值所在点到每个基准点的欧式距离;
根据所述欧式距离对直方图中各柱形对应的样本点进行排序,根据距离排序结果 获取距离最近的一个样本点
Figure 398901DEST_PATH_IMAGE016
根据N个基准点获取N个距离最近的样本点,通过N个距离最近的样本点获得趋于均匀分布的N个血糖样本数据。
本方案中,所述的根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数,具体为:
从N个血糖样本数据中随机且有放回地抽取样本生成子数据集,对所述子数据集进行特征提取,生成特征集合;
根据所述特征集合确定决策树节点及决策树数量,基于决策树建立随机森林模型,根据所述子数据集对所述随机森林模型进行训练。
本方案中,所述的利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,具体为:
将测试集的输入特征数据导入所述随机森林模型,获取随机森林模型中各子决策树的输出生成最终输出信息;
将所述最终输出信息与测试集的输出血糖数据进行对比分析生成偏差率,并预设偏差率阈值;
判断所述偏差率是否大于预设偏差率阈值,若大于,则说明所述随机森林模型的准确率不满足预设标准,同时生成修正信息;
根据所述修正信息二次获取趋于均匀分布的N个血糖样本数据,根据二次获取的血糖样本数据对所述随机森林模型进行二次训练。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于随机森林的均匀化样本重构血糖估计方法程序,所述一种基于随机森林的均匀化样本重构血糖估计方法程序被处理器执行时,实现如上述任一项所述的一种基于随机森林的均匀化样本重构血糖估计方法的步骤。
本发明公开了一种基于随机森林的均匀化样本重构血糖估计方法及系统,包括:获取血糖样本数据,进行预处理,去除极端数值;以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据直方图划分出等间距的N个基准点;利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,获取趋于均匀分布的N个血糖样本数据,构成子数据集,通过子数据集训练随机森林模型,获得模型的训练参数;利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,通过训练后模型进行血糖估算。本发明通过直方图均衡化对血糖样本进行重构均匀化,从而提高模型对样本空间分布的鲁棒性,提高模型应对极端血糖值的能力。
本发明解决了背景技术中存在的缺陷,具备以下有益效果:
本发明应用直方图均衡化的思想,通过划分出均分分布的数据基准点,再利用近邻算法在样本空间中寻找到最近的数据样本重构样本数据集,从而将不均匀分布的血糖样本空间映射为均匀分布的血糖样本空间,使得在建立随机森林模型时所划分的训练集和测试集更加合理,训练集尽可能地包含所有特征信息,且各个特征信息的占比相似。
当样本数据出现严重不均匀分布现象时,如很多个样本数据含有同一个特征信息,只有极少数样本数据含有另一个特征信息,即血糖值超出正常范围很多的样本数据很少且严重偏离样本中心,此时,该方法能大大提高随机森林算法的性能。
通过优化训练集和测试集的划分规则,使得随机森林算法的血糖准确率更高,应用场景更广,将本发明方法应用于随机森林算法,大大提高了训练集和测试集划分的合理性,减少随机森林出现过拟合的现象,使得随机森林的鲁棒性更强。
附图说明
图1示出了本发明一种基于随机森林的均匀化样本重构血糖估计方法的流程图;
图2示出了血糖样本数据中输出血糖数据
Figure 257136DEST_PATH_IMAGE006
的维度
Figure 338224DEST_PATH_IMAGE007
为1,
Figure 485172DEST_PATH_IMAGE015
取20时
Figure 778750DEST_PATH_IMAGE017
的分布图;
图3示出了本发明一种基于随机森林的均匀化样本重构血糖估计系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于随机森林的均匀化样本重构血糖估计方法的流程图。
如图1所示,本发明第一方面提供了一种基于随机森林的均匀化样本重构血糖估计方法,包括:
S102,获取血糖样本数据,将所述血糖样本数据进行预处理,去除极端数值;
S104,以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点;
S106,利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据;
S108,根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数;
S110,利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估;
S112,若模型的准确率处于预设阈值范围内,则导出训练后的随机森林模型,通过训练后的随机森林模型对目标用户血糖进行估算。
需要说明的是,所述的血糖样本数据包括输入特征数据及输出血糖数据,所述输 入特征数据
Figure 757070DEST_PATH_IMAGE001
为一个
Figure 743481DEST_PATH_IMAGE002
维列向量,放在一个
Figure 377724DEST_PATH_IMAGE003
的矩阵
Figure 474993DEST_PATH_IMAGE004
中,其中,
Figure 307820DEST_PATH_IMAGE005
表示 样本数目;所述输出血糖数据
Figure 465132DEST_PATH_IMAGE006
为一个
Figure 586672DEST_PATH_IMAGE007
维列向量,放在一个
Figure 222052DEST_PATH_IMAGE008
的矩阵
Figure 174965DEST_PATH_IMAGE009
中,其中,
Figure 503178DEST_PATH_IMAGE005
表示样本数量。
需要说明的是,所述的以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点,具体为:
根据血糖样本数据中的输出血糖数据生成输出血糖数据直方图,根据所述输出血 糖数据直方图划分出等间距的N个基准点
Figure 846435DEST_PATH_IMAGE010
,基准点
Figure 816665DEST_PATH_IMAGE018
为一个
Figure 358504DEST_PATH_IMAGE007
维列向 量;例如,当输出血糖数据
Figure 60881DEST_PATH_IMAGE006
的维度
Figure 688172DEST_PATH_IMAGE007
为1时,
Figure 930934DEST_PATH_IMAGE017
有如图2的分布,其中基准点数量
Figure 592860DEST_PATH_IMAGE015
取20。
所述基准点之间的间距计算公式为:
Figure 466138DEST_PATH_IMAGE011
其中,
Figure 580724DEST_PATH_IMAGE012
表示基准点间距,
Figure 361598DEST_PATH_IMAGE013
表示直方图中最后一个柱形的中心值,
Figure 878030DEST_PATH_IMAGE014
表示直方图 中第一个柱形的中心值,
Figure 984527DEST_PATH_IMAGE015
表示基准点个数。
需要说明的是,所述的利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据,具体为:
将所述基准点为聚类中心,通过近邻算法分别计算直方图中各个柱形中心值所在点到每个基准点的欧式距离;
根据所述欧式距离对直方图中各柱形对应的样本点进行排序,根据距离排序结果 获取距离最近的一个样本点
Figure 586409DEST_PATH_IMAGE016
根据N个基准点获取N个距离最近的样本点,通过N个距离最近的样本点获得趋于均匀分布的N个血糖样本数据。
需要说明的是,所述的根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数,具体为:
从N个血糖样本数据中随机且有放回地抽取样本生成子数据集,对所述子数据集进行特征提取,生成特征集合;
根据所述特征集合确定决策树节点及决策树数量,基于决策树建立随机森林模型,根据所述子数据集对所述随机森林模型进行训练。
需要说明的是,所述的利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,具体为:
将测试集的输入特征数据导入所述随机森林模型,获取随机森林模型中各子决策树的输出生成最终输出信息;
将所述最终输出信息与测试集的输出血糖数据进行对比分析生成偏差率,并预设偏差率阈值;
判断所述偏差率是否大于预设偏差率阈值,若大于,则说明所述随机森林模型的准确率不满足预设标准,同时生成修正信息;
根据所述修正信息二次获取趋于均匀分布的N个血糖样本数据,根据二次获取的血糖样本数据对所述随机森林模型进行二次训练。
图3示出了本发明一种基于随机森林的均匀化样本重构血糖估计系统的框图。
本发明第二方面还提供了一种基于随机森林的均匀化样本重构血糖估计系统3,该系统包括:存储器31、处理器32,所述存储器中包括一种基于随机森林的均匀化样本重构血糖估计方法程序,所述一种基于随机森林的均匀化样本重构血糖估计方法程序被所述处理器执行时实现如下步骤:
获取血糖样本数据,将所述血糖样本数据进行预处理,去除极端数值;
以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点;
利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据;
根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数;
利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估;
若模型的准确率处于预设阈值范围内,则导出训练后的随机森林模型,通过训练后的随机森林模型对目标用户血糖进行估算。
需要说明的是,所述的血糖样本数据包括输入特征数据及输出血糖数据,所述输 入特征数据
Figure 374237DEST_PATH_IMAGE001
为一个
Figure 745175DEST_PATH_IMAGE002
维列向量,放在一个
Figure 22573DEST_PATH_IMAGE003
的矩阵
Figure 49435DEST_PATH_IMAGE004
中,其中,
Figure 437691DEST_PATH_IMAGE005
表示 样本数目;所述输出血糖数据
Figure 928715DEST_PATH_IMAGE006
为一个
Figure 111435DEST_PATH_IMAGE007
维列向量,放在一个
Figure 687909DEST_PATH_IMAGE008
的矩阵
Figure 817539DEST_PATH_IMAGE009
中,其中,
Figure 897491DEST_PATH_IMAGE005
表示样本数量。
需要说明的是,所述的以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点,具体为:
根据血糖样本数据中的输出血糖数据生成输出血糖数据直方图,根据所述输出血 糖数据直方图划分出等间距的N个基准点
Figure 516691DEST_PATH_IMAGE010
,基准点
Figure 580462DEST_PATH_IMAGE018
为一个
Figure 44941DEST_PATH_IMAGE007
维列向 量;
所述基准点之间的间距计算公式为:
Figure 448241DEST_PATH_IMAGE011
其中,
Figure 238342DEST_PATH_IMAGE012
表示基准点间距,
Figure 523830DEST_PATH_IMAGE013
表示直方图中最后一个柱形的中心值,
Figure 57580DEST_PATH_IMAGE014
表示直方图 中第一个柱形的中心值,
Figure 315386DEST_PATH_IMAGE015
表示基准点个数。
需要说明的是,所述的利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据,具体为:
将所述基准点为聚类中心,通过近邻算法分别计算直方图中各个柱形中心值所在点到每个基准点的欧式距离;
根据所述欧式距离对直方图中各柱形对应的样本点进行排序,根据距离排序结果 获取距离最近的一个样本点
Figure 10809DEST_PATH_IMAGE016
根据N个基准点获取N个距离最近的样本点,通过N个距离最近的样本点获得趋于均匀分布的N个血糖样本数据。
需要说明的是,所述的根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数,具体为:
从N个血糖样本数据中随机且有放回地抽取样本生成子数据集,对所述子数据集进行特征提取,生成特征集合;
根据所述特征集合确定决策树节点及决策树数量,基于决策树建立随机森林模型,根据所述子数据集对所述随机森林模型进行训练。
需要说明的是,所述的利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,具体为:
将测试集的输入特征数据导入所述随机森林模型,获取随机森林模型中各子决策树的输出生成最终输出信息;
将所述最终输出信息与测试集的输出血糖数据进行对比分析生成偏差率,并预设偏差率阈值;
判断所述偏差率是否大于预设偏差率阈值,若大于,则说明所述随机森林模型的准确率不满足预设标准,同时生成修正信息;
根据所述修正信息二次获取趋于均匀分布的N个血糖样本数据,根据二次获取的血糖样本数据对所述随机森林模型进行二次训练。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于随机森林的均匀化样本重构血糖估计方法程序,所述一种基于随机森林的均匀化样本重构血糖估计方法程序被处理器执行时,实现如上述任一项所述的一种基于随机森林的均匀化样本重构血糖估计方法的步骤。
本发明公开了一种基于随机森林的均匀化样本重构血糖估计方法及系统,包括:获取血糖样本数据,进行预处理,去除极端数值;以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据直方图划分出等间距的N个基准点;利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,获取趋于均匀分布的N个血糖样本数据,构成子数据集,通过子数据集训练随机森林模型,获得模型的训练参数;利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,通过训练后模型进行血糖估算。本发明通过直方图均衡化对血糖样本进行重构均匀化,从而提高模型对样本空间分布的鲁棒性,提高模型应对极端血糖值的能力。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种基于随机森林的均匀化样本重构血糖估计方法,其特征在于,包括以下步骤:
获取血糖样本数据,将所述血糖样本数据进行预处理,去除极端数值;
以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点;
利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据;
根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数;
利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估;
若模型的准确率处于预设阈值范围内,则导出训练后的随机森林模型,通过训练后的随机森林模型对目标用户血糖进行估算;
所述的利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据,具体为:
将所述基准点为聚类中心,通过近邻算法分别计算直方图中各个柱形中心值所在点到每个基准点的欧式距离;
根据所述欧式距离对直方图中各柱形对应的样本点进行排序,根据距离排序结果获取距离最近的一个样本点
Figure 823956DEST_PATH_IMAGE001
根据N个基准点获取N个距离最近的样本点,通过N个距离最近的样本点获得趋于均匀分布的N个血糖样本数据。
2.根据权利要求1所述的一种基于随机森林的均匀化样本重构血糖估计方法,其特征在于,所述的血糖样本数据包括输入特征数据及输出血糖数据,所述输入特征数据
Figure 68992DEST_PATH_IMAGE002
为一个
Figure 114309DEST_PATH_IMAGE003
维列向量,放在一个
Figure 791409DEST_PATH_IMAGE004
的矩阵
Figure 933677DEST_PATH_IMAGE005
中,其中,
Figure 21719DEST_PATH_IMAGE006
表示样本数目;所述输出血糖数据
Figure 570643DEST_PATH_IMAGE007
为一个
Figure 97439DEST_PATH_IMAGE008
维列向量,放在一个
Figure 31897DEST_PATH_IMAGE009
的矩阵
Figure 304222DEST_PATH_IMAGE010
中,其中,
Figure 386448DEST_PATH_IMAGE006
表示样本数量。
3.根据权利要求1所述的一种基于随机森林的均匀化样本重构血糖估计方法,其特征在于,所述的以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点,具体为:
根据血糖样本数据中的输出血糖数据生成输出血糖数据直方图,根据所述输出血糖数据直方图划分出等间距的N个基准点
Figure 389039DEST_PATH_IMAGE011
所述基准点之间的间距计算公式为:
Figure 194315DEST_PATH_IMAGE012
其中,
Figure 952055DEST_PATH_IMAGE013
表示基准点间距,
Figure 459260DEST_PATH_IMAGE014
表示直方图中最后一个柱形的中心值,
Figure 16274DEST_PATH_IMAGE015
表示直方图中第一个柱形的中心值,
Figure 190904DEST_PATH_IMAGE016
表示基准点个数。
4.根据权利要求1所述的一种基于随机森林的均匀化样本重构血糖估计方法,其特征在于,所述的根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数,具体为:
从N个血糖样本数据中随机且有放回地抽取样本生成子数据集,对所述子数据集进行特征提取,生成特征集合;
根据所述特征集合确定决策树节点及决策树数量,基于决策树建立随机森林模型,根据所述子数据集对所述随机森林模型进行训练。
5.根据权利要求1所述的一种基于随机森林的均匀化样本重构血糖估计方法,其特征在于,所述的利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,具体为:
将测试集的输入特征数据导入所述随机森林模型,获取随机森林模型中各子决策树的输出生成最终输出信息;
将所述最终输出信息与测试集的输出血糖数据进行对比分析生成偏差率,并预设偏差率阈值;
判断所述偏差率是否大于预设偏差率阈值,若大于,则说明所述随机森林模型的准确率不满足预设标准,同时生成修正信息;
根据所述修正信息二次获取趋于均匀分布的N个血糖样本数据,根据二次获取的血糖样本数据对所述随机森林模型进行二次训练。
6.一种基于随机森林的均匀化样本重构血糖估计系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括一种基于随机森林的均匀化样本重构血糖估计方法程序,所述一种基于随机森林的均匀化样本重构血糖估计方法程序被所述处理器执行时实现如下步骤:
获取血糖样本数据,将所述血糖样本数据进行预处理,去除极端数值;
以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点;
利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据;
根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数;
利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估;
若模型的准确率处于预设阈值范围内,则导出训练后的随机森林模型,通过训练后的随机森林模型对目标用户血糖进行估算;
所述的利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据,具体为:
将所述基准点为聚类中心,通过近邻算法分别计算直方图中各个柱形中心值所在点到每个基准点的欧式距离;
根据所述欧式距离对直方图中各柱形对应的样本点进行排序,根据距离排序结果获取距离最近的一个样本点
Figure 853966DEST_PATH_IMAGE001
根据N个基准点获取N个距离最近的样本点,通过N个距离最近的样本点获得趋于均匀分布的N个血糖样本数据。
7.根据权利要求6所述的一种基于随机森林的均匀化样本重构血糖估计系统,其特征在于,所述的以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点,具体为:
根据血糖样本数据中的输出血糖数据生成输出血糖数据直方图,根据所述输出血糖数据直方图划分出等间距的N个基准点
Figure 864779DEST_PATH_IMAGE011
所述基准点之间的间距计算公式为:
Figure 474752DEST_PATH_IMAGE012
其中,
Figure 503888DEST_PATH_IMAGE013
表示基准点间距,
Figure 541114DEST_PATH_IMAGE014
表示直方图中最后一个柱形的中心值,
Figure 770713DEST_PATH_IMAGE015
表示直方图中第一个柱形的中心值,
Figure 184377DEST_PATH_IMAGE016
表示基准点个数。
8.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中包括一种基于随机森林的均匀化样本重构血糖估计方法程序,所述一种基于随机森林的均匀化样本重构血糖估计方法程序被处理器执行时,实现如权利要求1至5中任一项所述的一种基于随机森林的均匀化样本重构血糖估计方法的步骤。
CN202210062933.8A 2022-01-20 2022-01-20 基于随机森林的均匀化样本重构血糖估计方法及系统 Active CN114093521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210062933.8A CN114093521B (zh) 2022-01-20 2022-01-20 基于随机森林的均匀化样本重构血糖估计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210062933.8A CN114093521B (zh) 2022-01-20 2022-01-20 基于随机森林的均匀化样本重构血糖估计方法及系统

Publications (2)

Publication Number Publication Date
CN114093521A CN114093521A (zh) 2022-02-25
CN114093521B true CN114093521B (zh) 2022-04-12

Family

ID=80308643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210062933.8A Active CN114093521B (zh) 2022-01-20 2022-01-20 基于随机森林的均匀化样本重构血糖估计方法及系统

Country Status (1)

Country Link
CN (1) CN114093521B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114530250B (zh) * 2022-04-24 2022-08-02 广东工业大学 基于数据增强的可穿戴血糖检测方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110177502A (zh) * 2017-09-13 2019-08-27 美敦力泌力美公司 用于校准和优化葡萄糖传感器和传感器输出的方法、系统和设备
CN110276401A (zh) * 2019-06-24 2019-09-24 广州视源电子科技股份有限公司 样本聚类方法、装置、设备及存储介质
CN111128327A (zh) * 2019-12-30 2020-05-08 中国科学院深圳先进技术研究院 一种低血糖预警方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8005771B2 (en) * 2007-10-04 2011-08-23 Siemens Corporation Segment-based change detection method in multivariate data stream
CN104665840B (zh) * 2015-03-02 2017-11-21 桂林麦迪胜电子科技有限公司 无创血糖测量方法及指端测量探头
CN106980746B (zh) * 2016-12-16 2021-01-26 清华大学 一种基于时序分析的通用无创血糖预测方法
CN112216394A (zh) * 2019-07-11 2021-01-12 浙江远图互联科技股份有限公司 一种基于自适应寻优模型的血糖变化趋势预测系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110177502A (zh) * 2017-09-13 2019-08-27 美敦力泌力美公司 用于校准和优化葡萄糖传感器和传感器输出的方法、系统和设备
CN110276401A (zh) * 2019-06-24 2019-09-24 广州视源电子科技股份有限公司 样本聚类方法、装置、设备及存储介质
CN111128327A (zh) * 2019-12-30 2020-05-08 中国科学院深圳先进技术研究院 一种低血糖预警方法和装置

Also Published As

Publication number Publication date
CN114093521A (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN109864736A (zh) 心电信号的处理方法、装置、终端设备及介质
CN116386869B (zh) 一种基于多变量的病情危重程度评估方法
CN110335276B (zh) 医学图像分割模型、方法、存储介质及电子设备
Alvarado-González et al. P300 detection based on EEG shape features
CN116092680B (zh) 基于随机森林算法的腹主动脉瘤早期预测方法及系统
CN111110224A (zh) 一种基于多角度特征提取的心电图分类方法及装置
CN114093521B (zh) 基于随机森林的均匀化样本重构血糖估计方法及系统
CN117591905B (zh) 基于高光谱特征的猪肉安全性检测方法
CN112488992B (zh) 表皮生长因子受体突变状态判断方法、介质及电子设备
CN112233742B (zh) 一种基于聚类的病历文档分类系统、设备、存储介质
CN118094118B (zh) 数据集质量评估方法、系统、电子设备及存储介质
Thuraisingham A Classification System to Detect Congestive Heart Failure Using Second‐Order Difference Plot of RR Intervals
CN115115620B (zh) 一种基于深度学习的肺炎病变模拟方法及系统
CN111128327A (zh) 一种低血糖预警方法和装置
CN113920109A (zh) 医疗影像识别模型训练方法、识别方法、装置及设备
CN115272797A (zh) 分类器的训练方法、使用方法、装置、设备及存储介质
CN114708264A (zh) 一种光斑质量判别方法、装置、设备和存储介质
CN112236075A (zh) 用于检测心律失常的计算设备
CN116610821B (zh) 一种基于知识图谱的企业风险分析方法、系统和存储介质
CN116150604B (zh) 变压器故障诊断方法、装置及电子设备
US20230245786A1 (en) Method for the prognosis of a desease following upon a therapeutic treatment, and corresponding system and computer program product
CN111506624A (zh) 一种电力缺失数据辨识方法和相关装置
CN115861718A (zh) 胃活检图像分类方法、装置、设备、介质和程序产品
CN111612082B (zh) 检测时间序列中异常子序列的方法及设备
CN112784887A (zh) 一种植物生命状态评价方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant