CN114093521B - 基于随机森林的均匀化样本重构血糖估计方法及系统 - Google Patents
基于随机森林的均匀化样本重构血糖估计方法及系统 Download PDFInfo
- Publication number
- CN114093521B CN114093521B CN202210062933.8A CN202210062933A CN114093521B CN 114093521 B CN114093521 B CN 114093521B CN 202210062933 A CN202210062933 A CN 202210062933A CN 114093521 B CN114093521 B CN 114093521B
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- blood sugar
- random forest
- blood glucose
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000008280 blood Substances 0.000 title claims abstract description 235
- 210000004369 blood Anatomy 0.000 title claims abstract description 235
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 40
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 claims abstract description 106
- 239000008103 glucose Substances 0.000 claims abstract description 106
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000012360 testing method Methods 0.000 claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000003066 decision tree Methods 0.000 claims description 20
- 102000002274 Matrix Metalloproteinases Human genes 0.000 claims description 10
- 108010000684 Matrix Metalloproteinases Proteins 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000000265 homogenisation Methods 0.000 abstract description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 125000004432 carbon atom Chemical group C* 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000002329 infrared spectrum Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种基于随机森林的均匀化样本重构血糖估计方法及系统,包括:获取血糖样本数据,进行预处理,去除极端数值;以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据直方图划分出等间距的N个基准点;利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,获取趋于均匀分布的N个血糖样本数据,构成子数据集,通过子数据集训练随机森林模型,获得模型的训练参数;利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,通过训练后模型进行血糖估算。本发明通过直方图均衡化对血糖样本进行重构均匀化,从而提高模型对样本空间分布的鲁棒性,提高模型应对极端血糖值的能力。
Description
技术领域
本发明涉及数据处理技术领域,更具体的,涉及一种基于随机森林的均匀化样本重构血糖估计方法、系统及介质。
背景技术
糖尿病是危害人类健康的一大杀手,目前已有的有创测血糖技术不仅存在血液感染的风险,而且无法实现在短时间内连续多次进行测量。为了对血糖实现无创连续监测,使用近红外光谱进行无创血糖检测的方法,该方法利用随机森林算法建立回归模型,而现有技术中利用随机森林算法建立回归模型还存在以下缺陷:未对样本数据进行预处理,直接对血糖样本数据进行随机且有放回地抽样,当出现极端血糖值时(血糖突然升高或突然降低),模型会因无法选择到那部分极端样本值去训练而导致准确率急剧下降。针对回归预测方法,当出现极端血糖值时,随机森林不能够做出超越训练集数据范围的预测,这可能导致在某些特定噪声的数据进行建模时出现过度拟合。
针对上述问题,为了让训练集尽可能涵盖所有特征信息,我们提出一种基于随机森林的针对血糖估计的样本训练集和测试集划分方法,旨在通过样本选择,将原本处于不均匀分布的样本空间映射为均匀分布的血糖样本空间,从而使得随机森林在随机且有放回地抽中每个血糖样本数据的概率趋于相同,以此提高模型预测的准确率以及模型对增强样本空间分布特性的鲁棒性。
发明内容
为了解决上述技术问题,本发明提出了一种基于随机森林的均匀化样本重构血糖估计方法、系统及存储介质。
本发明第一方面提供了一种基于随机森林的均匀化样本重构血糖估计方法,包括:
获取血糖样本数据,将所述血糖样本数据进行预处理,去除极端数值;
以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点;
利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据;
根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数;
利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估;
若模型的准确率处于预设阈值范围内,则导出训练后的随机森林模型,通过训练后的随机森林模型对目标用户血糖进行估算。
本方案中,所述的血糖样本数据包括输入特征数据及输出血糖数据,所述输入特
征数据为一个维列向量,放在一个的矩阵中,其中,表示样本
数目;所述输出血糖数据为一个维列向量,放在一个的矩阵
中,其中,表示样本数量。
本方案中,所述的以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点,具体为:
所述基准点之间的间距计算公式为:
本方案中,所述的利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据,具体为:
将所述基准点为聚类中心,通过近邻算法分别计算直方图中各个柱形中心值所在点到每个基准点的欧式距离;
根据N个基准点获取N个距离最近的样本点,通过N个距离最近的样本点获得趋于均匀分布的N个血糖样本数据。
本方案中,所述的根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数,具体为:
从N个血糖样本数据中随机且有放回地抽取样本生成子数据集,对所述子数据集进行特征提取,生成特征集合;
根据所述特征集合确定决策树节点及决策树数量,基于决策树建立随机森林模型,根据所述子数据集对所述随机森林模型进行训练。
本方案中,所述的利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,具体为:
将测试集的输入特征数据导入所述随机森林模型,获取随机森林模型中各子决策树的输出生成最终输出信息;
将所述最终输出信息与测试集的输出血糖数据进行对比分析生成偏差率,并预设偏差率阈值;
判断所述偏差率是否大于预设偏差率阈值,若大于,则说明所述随机森林模型的准确率不满足预设标准,同时生成修正信息;
根据所述修正信息二次获取趋于均匀分布的N个血糖样本数据,根据二次获取的血糖样本数据对所述随机森林模型进行二次训练。
本发明第二方面还提供了一种基于随机森林的均匀化样本重构血糖估计系统,该系统包括:存储器、处理器,所述存储器中包括一种基于随机森林的均匀化样本重构血糖估计方法程序,所述一种基于随机森林的均匀化样本重构血糖估计方法程序被所述处理器执行时实现如下步骤:
获取血糖样本数据,将所述血糖样本数据进行预处理,去除极端数值;
以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点;
利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据;
根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数;
利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估;
若模型的准确率处于预设阈值范围内,则导出训练后的随机森林模型,通过训练后的随机森林模型对目标用户血糖进行估算。
本方案中,所述的血糖样本数据包括输入特征数据及输出血糖数据,所述输入特
征数据为一个维列向量,放在一个的矩阵中,其中,表示样本
数目;所述输出血糖数据为一个维列向量,放在一个的矩阵
中,其中,表示样本数量。
本方案中,所述的以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点,具体为:
所述基准点之间的间距计算公式为:
本方案中,所述的利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据,具体为:
将所述基准点为聚类中心,通过近邻算法分别计算直方图中各个柱形中心值所在点到每个基准点的欧式距离;
根据N个基准点获取N个距离最近的样本点,通过N个距离最近的样本点获得趋于均匀分布的N个血糖样本数据。
本方案中,所述的根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数,具体为:
从N个血糖样本数据中随机且有放回地抽取样本生成子数据集,对所述子数据集进行特征提取,生成特征集合;
根据所述特征集合确定决策树节点及决策树数量,基于决策树建立随机森林模型,根据所述子数据集对所述随机森林模型进行训练。
本方案中,所述的利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,具体为:
将测试集的输入特征数据导入所述随机森林模型,获取随机森林模型中各子决策树的输出生成最终输出信息;
将所述最终输出信息与测试集的输出血糖数据进行对比分析生成偏差率,并预设偏差率阈值;
判断所述偏差率是否大于预设偏差率阈值,若大于,则说明所述随机森林模型的准确率不满足预设标准,同时生成修正信息;
根据所述修正信息二次获取趋于均匀分布的N个血糖样本数据,根据二次获取的血糖样本数据对所述随机森林模型进行二次训练。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于随机森林的均匀化样本重构血糖估计方法程序,所述一种基于随机森林的均匀化样本重构血糖估计方法程序被处理器执行时,实现如上述任一项所述的一种基于随机森林的均匀化样本重构血糖估计方法的步骤。
本发明公开了一种基于随机森林的均匀化样本重构血糖估计方法及系统,包括:获取血糖样本数据,进行预处理,去除极端数值;以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据直方图划分出等间距的N个基准点;利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,获取趋于均匀分布的N个血糖样本数据,构成子数据集,通过子数据集训练随机森林模型,获得模型的训练参数;利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,通过训练后模型进行血糖估算。本发明通过直方图均衡化对血糖样本进行重构均匀化,从而提高模型对样本空间分布的鲁棒性,提高模型应对极端血糖值的能力。
本发明解决了背景技术中存在的缺陷,具备以下有益效果:
本发明应用直方图均衡化的思想,通过划分出均分分布的数据基准点,再利用近邻算法在样本空间中寻找到最近的数据样本重构样本数据集,从而将不均匀分布的血糖样本空间映射为均匀分布的血糖样本空间,使得在建立随机森林模型时所划分的训练集和测试集更加合理,训练集尽可能地包含所有特征信息,且各个特征信息的占比相似。
当样本数据出现严重不均匀分布现象时,如很多个样本数据含有同一个特征信息,只有极少数样本数据含有另一个特征信息,即血糖值超出正常范围很多的样本数据很少且严重偏离样本中心,此时,该方法能大大提高随机森林算法的性能。
通过优化训练集和测试集的划分规则,使得随机森林算法的血糖准确率更高,应用场景更广,将本发明方法应用于随机森林算法,大大提高了训练集和测试集划分的合理性,减少随机森林出现过拟合的现象,使得随机森林的鲁棒性更强。
附图说明
图1示出了本发明一种基于随机森林的均匀化样本重构血糖估计方法的流程图;
图3示出了本发明一种基于随机森林的均匀化样本重构血糖估计系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于随机森林的均匀化样本重构血糖估计方法的流程图。
如图1所示,本发明第一方面提供了一种基于随机森林的均匀化样本重构血糖估计方法,包括:
S102,获取血糖样本数据,将所述血糖样本数据进行预处理,去除极端数值;
S104,以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点;
S106,利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据;
S108,根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数;
S110,利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估;
S112,若模型的准确率处于预设阈值范围内,则导出训练后的随机森林模型,通过训练后的随机森林模型对目标用户血糖进行估算。
需要说明的是,所述的血糖样本数据包括输入特征数据及输出血糖数据,所述输
入特征数据为一个维列向量,放在一个的矩阵中,其中,表示
样本数目;所述输出血糖数据为一个维列向量,放在一个的矩阵中,其中,表示样本数量。
需要说明的是,所述的以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点,具体为:
根据血糖样本数据中的输出血糖数据生成输出血糖数据直方图,根据所述输出血
糖数据直方图划分出等间距的N个基准点,基准点为一个维列向
量;例如,当输出血糖数据的维度为1时,有如图2的分布,其中基准点数量取20。
所述基准点之间的间距计算公式为:
需要说明的是,所述的利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据,具体为:
将所述基准点为聚类中心,通过近邻算法分别计算直方图中各个柱形中心值所在点到每个基准点的欧式距离;
根据N个基准点获取N个距离最近的样本点,通过N个距离最近的样本点获得趋于均匀分布的N个血糖样本数据。
需要说明的是,所述的根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数,具体为:
从N个血糖样本数据中随机且有放回地抽取样本生成子数据集,对所述子数据集进行特征提取,生成特征集合;
根据所述特征集合确定决策树节点及决策树数量,基于决策树建立随机森林模型,根据所述子数据集对所述随机森林模型进行训练。
需要说明的是,所述的利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,具体为:
将测试集的输入特征数据导入所述随机森林模型,获取随机森林模型中各子决策树的输出生成最终输出信息;
将所述最终输出信息与测试集的输出血糖数据进行对比分析生成偏差率,并预设偏差率阈值;
判断所述偏差率是否大于预设偏差率阈值,若大于,则说明所述随机森林模型的准确率不满足预设标准,同时生成修正信息;
根据所述修正信息二次获取趋于均匀分布的N个血糖样本数据,根据二次获取的血糖样本数据对所述随机森林模型进行二次训练。
图3示出了本发明一种基于随机森林的均匀化样本重构血糖估计系统的框图。
本发明第二方面还提供了一种基于随机森林的均匀化样本重构血糖估计系统3,该系统包括:存储器31、处理器32,所述存储器中包括一种基于随机森林的均匀化样本重构血糖估计方法程序,所述一种基于随机森林的均匀化样本重构血糖估计方法程序被所述处理器执行时实现如下步骤:
获取血糖样本数据,将所述血糖样本数据进行预处理,去除极端数值;
以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点;
利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据;
根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数;
利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估;
若模型的准确率处于预设阈值范围内,则导出训练后的随机森林模型,通过训练后的随机森林模型对目标用户血糖进行估算。
需要说明的是,所述的血糖样本数据包括输入特征数据及输出血糖数据,所述输
入特征数据为一个维列向量,放在一个的矩阵中,其中,表示
样本数目;所述输出血糖数据为一个维列向量,放在一个的矩阵中,其中,表示样本数量。
需要说明的是,所述的以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点,具体为:
所述基准点之间的间距计算公式为:
需要说明的是,所述的利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据,具体为:
将所述基准点为聚类中心,通过近邻算法分别计算直方图中各个柱形中心值所在点到每个基准点的欧式距离;
根据N个基准点获取N个距离最近的样本点,通过N个距离最近的样本点获得趋于均匀分布的N个血糖样本数据。
需要说明的是,所述的根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数,具体为:
从N个血糖样本数据中随机且有放回地抽取样本生成子数据集,对所述子数据集进行特征提取,生成特征集合;
根据所述特征集合确定决策树节点及决策树数量,基于决策树建立随机森林模型,根据所述子数据集对所述随机森林模型进行训练。
需要说明的是,所述的利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,具体为:
将测试集的输入特征数据导入所述随机森林模型,获取随机森林模型中各子决策树的输出生成最终输出信息;
将所述最终输出信息与测试集的输出血糖数据进行对比分析生成偏差率,并预设偏差率阈值;
判断所述偏差率是否大于预设偏差率阈值,若大于,则说明所述随机森林模型的准确率不满足预设标准,同时生成修正信息;
根据所述修正信息二次获取趋于均匀分布的N个血糖样本数据,根据二次获取的血糖样本数据对所述随机森林模型进行二次训练。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于随机森林的均匀化样本重构血糖估计方法程序,所述一种基于随机森林的均匀化样本重构血糖估计方法程序被处理器执行时,实现如上述任一项所述的一种基于随机森林的均匀化样本重构血糖估计方法的步骤。
本发明公开了一种基于随机森林的均匀化样本重构血糖估计方法及系统,包括:获取血糖样本数据,进行预处理,去除极端数值;以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据直方图划分出等间距的N个基准点;利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,获取趋于均匀分布的N个血糖样本数据,构成子数据集,通过子数据集训练随机森林模型,获得模型的训练参数;利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,通过训练后模型进行血糖估算。本发明通过直方图均衡化对血糖样本进行重构均匀化,从而提高模型对样本空间分布的鲁棒性,提高模型应对极端血糖值的能力。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种基于随机森林的均匀化样本重构血糖估计方法,其特征在于,包括以下步骤:
获取血糖样本数据,将所述血糖样本数据进行预处理,去除极端数值;
以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点;
利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据;
根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数;
利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估;
若模型的准确率处于预设阈值范围内,则导出训练后的随机森林模型,通过训练后的随机森林模型对目标用户血糖进行估算;
所述的利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据,具体为:
将所述基准点为聚类中心,通过近邻算法分别计算直方图中各个柱形中心值所在点到每个基准点的欧式距离;
根据N个基准点获取N个距离最近的样本点,通过N个距离最近的样本点获得趋于均匀分布的N个血糖样本数据。
4.根据权利要求1所述的一种基于随机森林的均匀化样本重构血糖估计方法,其特征在于,所述的根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数,具体为:
从N个血糖样本数据中随机且有放回地抽取样本生成子数据集,对所述子数据集进行特征提取,生成特征集合;
根据所述特征集合确定决策树节点及决策树数量,基于决策树建立随机森林模型,根据所述子数据集对所述随机森林模型进行训练。
5.根据权利要求1所述的一种基于随机森林的均匀化样本重构血糖估计方法,其特征在于,所述的利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估,具体为:
将测试集的输入特征数据导入所述随机森林模型,获取随机森林模型中各子决策树的输出生成最终输出信息;
将所述最终输出信息与测试集的输出血糖数据进行对比分析生成偏差率,并预设偏差率阈值;
判断所述偏差率是否大于预设偏差率阈值,若大于,则说明所述随机森林模型的准确率不满足预设标准,同时生成修正信息;
根据所述修正信息二次获取趋于均匀分布的N个血糖样本数据,根据二次获取的血糖样本数据对所述随机森林模型进行二次训练。
6.一种基于随机森林的均匀化样本重构血糖估计系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括一种基于随机森林的均匀化样本重构血糖估计方法程序,所述一种基于随机森林的均匀化样本重构血糖估计方法程序被所述处理器执行时实现如下步骤:
获取血糖样本数据,将所述血糖样本数据进行预处理,去除极端数值;
以血糖样本数据中的输出血糖数据为准生成输出血糖数据的直方图,根据所述直方图划分出等间距的N个基准点;
利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据;
根据所述N个血糖样本数据构成子数据集,通过所述子数据集训练随机森林模型,获得模型的训练参数;
利用剩余血糖样本数据作为测试集,输入测试集数据,进行模型性能的评估;
若模型的准确率处于预设阈值范围内,则导出训练后的随机森林模型,通过训练后的随机森林模型对目标用户血糖进行估算;
所述的利用近邻算法选择出分别以N个基准点为聚类中心的聚类距离最近的样本点,根据所述样本点获取趋于均匀分布的N个血糖样本数据,具体为:
将所述基准点为聚类中心,通过近邻算法分别计算直方图中各个柱形中心值所在点到每个基准点的欧式距离;
根据N个基准点获取N个距离最近的样本点,通过N个距离最近的样本点获得趋于均匀分布的N个血糖样本数据。
8.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中包括一种基于随机森林的均匀化样本重构血糖估计方法程序,所述一种基于随机森林的均匀化样本重构血糖估计方法程序被处理器执行时,实现如权利要求1至5中任一项所述的一种基于随机森林的均匀化样本重构血糖估计方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210062933.8A CN114093521B (zh) | 2022-01-20 | 2022-01-20 | 基于随机森林的均匀化样本重构血糖估计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210062933.8A CN114093521B (zh) | 2022-01-20 | 2022-01-20 | 基于随机森林的均匀化样本重构血糖估计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114093521A CN114093521A (zh) | 2022-02-25 |
CN114093521B true CN114093521B (zh) | 2022-04-12 |
Family
ID=80308643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210062933.8A Active CN114093521B (zh) | 2022-01-20 | 2022-01-20 | 基于随机森林的均匀化样本重构血糖估计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114093521B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114530250B (zh) * | 2022-04-24 | 2022-08-02 | 广东工业大学 | 基于数据增强的可穿戴血糖检测方法、系统及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110177502A (zh) * | 2017-09-13 | 2019-08-27 | 美敦力泌力美公司 | 用于校准和优化葡萄糖传感器和传感器输出的方法、系统和设备 |
CN110276401A (zh) * | 2019-06-24 | 2019-09-24 | 广州视源电子科技股份有限公司 | 样本聚类方法、装置、设备及存储介质 |
CN111128327A (zh) * | 2019-12-30 | 2020-05-08 | 中国科学院深圳先进技术研究院 | 一种低血糖预警方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8005771B2 (en) * | 2007-10-04 | 2011-08-23 | Siemens Corporation | Segment-based change detection method in multivariate data stream |
CN104665840B (zh) * | 2015-03-02 | 2017-11-21 | 桂林麦迪胜电子科技有限公司 | 无创血糖测量方法及指端测量探头 |
CN106980746B (zh) * | 2016-12-16 | 2021-01-26 | 清华大学 | 一种基于时序分析的通用无创血糖预测方法 |
CN112216394A (zh) * | 2019-07-11 | 2021-01-12 | 浙江远图互联科技股份有限公司 | 一种基于自适应寻优模型的血糖变化趋势预测系统 |
-
2022
- 2022-01-20 CN CN202210062933.8A patent/CN114093521B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110177502A (zh) * | 2017-09-13 | 2019-08-27 | 美敦力泌力美公司 | 用于校准和优化葡萄糖传感器和传感器输出的方法、系统和设备 |
CN110276401A (zh) * | 2019-06-24 | 2019-09-24 | 广州视源电子科技股份有限公司 | 样本聚类方法、装置、设备及存储介质 |
CN111128327A (zh) * | 2019-12-30 | 2020-05-08 | 中国科学院深圳先进技术研究院 | 一种低血糖预警方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114093521A (zh) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109864736A (zh) | 心电信号的处理方法、装置、终端设备及介质 | |
CN116386869B (zh) | 一种基于多变量的病情危重程度评估方法 | |
CN110335276B (zh) | 医学图像分割模型、方法、存储介质及电子设备 | |
Alvarado-González et al. | P300 detection based on EEG shape features | |
CN116092680B (zh) | 基于随机森林算法的腹主动脉瘤早期预测方法及系统 | |
CN111110224A (zh) | 一种基于多角度特征提取的心电图分类方法及装置 | |
CN114093521B (zh) | 基于随机森林的均匀化样本重构血糖估计方法及系统 | |
CN117591905B (zh) | 基于高光谱特征的猪肉安全性检测方法 | |
CN112488992B (zh) | 表皮生长因子受体突变状态判断方法、介质及电子设备 | |
CN112233742B (zh) | 一种基于聚类的病历文档分类系统、设备、存储介质 | |
CN118094118B (zh) | 数据集质量评估方法、系统、电子设备及存储介质 | |
Thuraisingham | A Classification System to Detect Congestive Heart Failure Using Second‐Order Difference Plot of RR Intervals | |
CN115115620B (zh) | 一种基于深度学习的肺炎病变模拟方法及系统 | |
CN111128327A (zh) | 一种低血糖预警方法和装置 | |
CN113920109A (zh) | 医疗影像识别模型训练方法、识别方法、装置及设备 | |
CN115272797A (zh) | 分类器的训练方法、使用方法、装置、设备及存储介质 | |
CN114708264A (zh) | 一种光斑质量判别方法、装置、设备和存储介质 | |
CN112236075A (zh) | 用于检测心律失常的计算设备 | |
CN116610821B (zh) | 一种基于知识图谱的企业风险分析方法、系统和存储介质 | |
CN116150604B (zh) | 变压器故障诊断方法、装置及电子设备 | |
US20230245786A1 (en) | Method for the prognosis of a desease following upon a therapeutic treatment, and corresponding system and computer program product | |
CN111506624A (zh) | 一种电力缺失数据辨识方法和相关装置 | |
CN115861718A (zh) | 胃活检图像分类方法、装置、设备、介质和程序产品 | |
CN111612082B (zh) | 检测时间序列中异常子序列的方法及设备 | |
CN112784887A (zh) | 一种植物生命状态评价方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |