CN115859096A

CN115859096A - 血糖预测模型训练方法、装置以及设备

Info

Publication number: CN115859096A
Application number: CN202211414245.XA
Authority: CN
Inventors: 郭佳昌; 陈俊; 代小亚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2023-03-28

Abstract

本公开提供了一种血糖预测模型训练方法、装置以及设备，涉及人工智能技术领域，具体涉及机器学习等技术领域。该方法的一具体实施方式包括：获取第一有标签训练样本集合和无标签训练样本集合；将第一有标签训练样本集合中的第一有标签训练样本的第一电化学数据作为输入，将对应的第一血糖值作为输出，训练得到第一辅助模型；利用第一辅助模型对无标签训练样本集合进行标签标注和样本筛选，得到第二有标签训练样本集合；利用第一有标签训练样本集合和第二有标签训练样本集合，训练得到血糖预测模型。该实施方式训练出的血糖预测模型具有较准确的血糖预测能力。

Description

血糖预测模型训练方法、装置以及设备

技术领域

本公开涉及人工智能技术领域，具体涉及机器学习等技术领域。

背景技术

近年来，糖尿病的发病率呈现出逐年增加的趋势。及时监测血糖，能够有效地控制血糖波动，进而降低糖尿病的发生概率。

目前，主要通过血糖仪监测血糖。血糖仪主要依靠电化学原理进行血糖测定，即通过血液试纸施加一定电压产生酶反应。由于血糖试纸、受试者血糖样本以及其他环境情况的不同，血糖仪测量精度会受到不同程度的影响，可能导致血糖仪预测精度不准。

发明内容

本公开实施例提出了一种血糖预测模型训练方法、装置、设备、存储介质以及程序产品。

第一方面，本公开实施例提出了一种血糖预测模型训练方法，包括：获取第一有标签训练样本集合和无标签训练样本集合，其中，第一有标签训练样本集合中的第一有标签训练样本包括第一电化学数据和第一血糖值，无标签训练样本集合中的无标签训练样本包括第二电化学数据；将第一有标签训练样本集合中的第一有标签训练样本的第一电化学数据作为输入，将对应的第一血糖值作为输出，训练得到第一辅助模型；利用第一辅助模型对无标签训练样本集合进行标签标注和样本筛选，得到第二有标签训练样本集合；利用第一有标签训练样本集合和第二有标签训练样本集合，训练得到血糖预测模型。

第二方面，本公开实施例提出了一种血糖预测方法，包括：获取测试用户的电化学数据；利用血糖预测模型对测试用户的电化学数据进行预测，得到测试用户的预测血糖值，其中，血糖预测模型是采用第一方面所述的方法训练得到的。

第三方面，本公开实施例提出了一种血糖预测模型训练装置，包括：第一获取模块，被配置成获取第一有标签训练样本集合和无标签训练样本集合，其中，第一有标签训练样本集合中的第一有标签训练样本包括第一电化学数据和第一血糖值，无标签训练样本集合中的无标签训练样本包括第二电化学数据；第一训练模块，被配置成将第一有标签训练样本集合中的第一有标签训练样本的第一电化学数据作为输入，将对应的第一血糖值作为输出，训练得到第一辅助模型；筛选模块，被配置成利用第一辅助模型对无标签训练样本集合进行标签标注和样本筛选，得到第二有标签训练样本集合；第二训练模块，被配置成利用第一有标签训练样本集合和第二有标签训练样本集合，训练得到血糖预测模型。

第四方面，本公开实施例提出了一种血糖预测装置，包括：获取模块，被配置成获取测试用户的电化学数据；预测模块，被配置成利用血糖预测模型对测试用户的电化学数据进行预测，得到测试用户的预测血糖值，其中，血糖预测模型是采用第三方面所述的装置训练得到的。

第五方面，本公开实施例提出了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法或第二方面中任一实现方式描述的方法。

第六方面，本公开实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法或第二方面中任一实现方式描述的方法。

第七方面，本公开实施例提出了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法或第二方面中任一实现方式描述的方法。

本公开实施例提供的血糖预测模型训练方法，基于机器学习方法训练血糖预测模型，使得血糖预测模型具有较准确的血糖预测能力，能够自适应地根据相关数据快速地计算相应的血糖值。并且，血糖预测模型不仅可以独立使用，也可以搭载在血糖仪内使用。适配不同血糖仪与不同试纸、不同批次试纸的血糖测定需求。可用于家庭便携测试血糖指标，具有更高的鲁棒性，给测量者更准确的预测指标。此外，通过有监督和半监督两种模式训练血糖预测模型，能够在有标签训练样本数量缺乏的情况下辅助有监督训练达到更好的预测性能。

本发明旨在解决上述问题，通过引入机器学习方法自适应的根据相关指标快速计算相应血糖值，适配不同血糖仪与不同试纸、不同批次试纸的血糖测定需求。

本专利建立一套基于机器学习的自适应血糖测定方法，可以搭载在血糖仪内也可以独立使用。

算法系统服务快速血糖预测，可以用于家庭便携测试血糖指标，对比传统的公式计算具有更高的鲁棒性，给测量者更准确的预测指标。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的血糖预测模型训练方法的一个实施例的流程图；

图2是根据本公开的血糖预测模型训练方法的又一个实施例的流程图；

图3是根据本公开的血糖预测方法的一个实施例的流程图；

图4是血糖预测系统图；

图5是血糖预测应用场景图；

图6是根据本公开的血糖预测模型训练装置的一个实施例的结构示意图；

图7是根据本公开的血糖预测装置的一个实施例的结构示意图；

图8是用来实现本公开实施例的血糖预测模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了根据本公开的血糖预测模型训练方法的一个实施例的流程100。该血糖预测模型训练方法包括以下步骤：

步骤101，获取第一有标签训练样本集合和无标签训练样本集合。

在本实施例中，血糖预测模型训练方法的执行主体可以获取第一有标签训练样本集合和无标签训练样本集合。

其中，第一有标签训练样本集合可以包括少量第一有标签训练样本。第一有标签训练样本可以包括第一电化学数据和第一血糖值。无标签训练样本集合可以包括大量无标签训练样本。无标签训练样本可以包括第二电化学数据。电化学数据可以包括但不限于红细胞比容、电流量、电阻、温度和阻抗等等。电化学数据可以是通过预留的对接血糖仪的数据接口获取的，也可以是通过外部的输入方式录入的。

由于不同电化学数据的刻度尺不一样，为了将其对模型的影响统一到一个尺度，可以利用归一化处理方法对电化学数据进行归一化处理。其中，归一处理方法可以包括但不限于max-min、Z-score等方式。max-min方式的公式可以如下：

通常，第一有标签训练样本的第一血糖值通常是通过真实高水平化学实验测量获取的。因此，第一有标签训练样本的质量较高。但是，由于测定成本较高，其数量通常较少。

步骤102，将第一有标签训练样本集合中的第一有标签训练样本的第一电化学数据作为输入，将对应的第一血糖值作为输出，训练得到第一辅助模型。

在本实施例中，对于第一有标签训练样本集合中的第一有标签训练样本，上述执行主体可以将其第一电化学数据作为输入，将对应的第一血糖值作为输出，训练得到第一辅助模型。

通常，将第一电化学数据输入至网络，可以学习得到第一预测血糖值。基于第一血糖值与第一预测血糖值的误差，对网络的参数进行调整，使得误差足够小，即可得到第一辅助模型。

其中，用于训练第一辅助模型的网络可以与用于训练血糖预测模型的网络具有相同的网络结构，包括但不限于以下至少一项：决策树、随机森林、线性回归模型、神经网络模型和支持向量机等。

步骤103，利用第一辅助模型对无标签训练样本集合进行标签标注和样本筛选，得到第二有标签训练样本集合。

在本实施例中，上述执行主体可以利用第一辅助模型对无标签训练样本集合进行标签标注和样本筛选，得到第二有标签训练样本集合。

通常，对于无标签训练样本集合中的无标签训练样本，将其第二电化学数据输入至第一辅助模型，可以预测得到第二血糖值。将第二血糖值作为标签标注到该第二电化学数据上，即可变成候选有标签训练样本。选取至少部分候选有标签训练样本，即可生成第二有标签训练样本集合。例如，随机选取部分候选有标签训练样本加入第二有标签训练样本集合。又例如，将所有候选有标签训练样本加入第二有标签训练样本集合。

这里，通过半监督模式可以对无标签训练样本赋予可信赖的标签，对训练样本进行数据增广，丰富数据分布，提升训练出的血糖预测模型对实际数据的泛化能力。应当理解的是，半监督训练流程可以循环进行，在每次存在无标签训练样本集合补充时均可以进行半监督训练。

步骤104，利用第一有标签训练样本集合和第二有标签训练样本集合，训练得到血糖预测模型。

在本实施例中，上述执行主体可以利用第一有标签训练样本集合和第二有标签训练样本集合，训练得到血糖预测模型。

通常，将第一有标签训练样本集合和第二有标签训练样本集合合并，生成有标签训练样本集合。对于有标签训练样本集合中的有标签训练样本，上述执行主体可以将其电化学数据作为输入，将对应的血糖值作为输出，训练得到血糖预测模型。

通常，将电化学数据输入至网络，可以学习得到预测血糖值。基于血糖值与预测血糖值的误差，对网络的参数进行调整，使得误差足够小，即可得到血糖预测模型。其中，用于训练血糖预测模型的网络的网络结构可以包括但不限于以下至少一项：决策树、随机森林、线性回归模型、神经网络模型和支持向量机等等。

以线性回归模型为例，线性回归方程如下：

y＝w^Tx+b；

其中，w是待训练系数，x是输入项，这里代指电化学，y是输出项，这里代指血糖值，w与T都是系数向量，b为偏置值。

损失函数可以采用均方误差，即训练目标为：

其中，y_i与x_i分别指第i个样本的血糖值与第i个样本的电化学数据。

最后，整个采用随机梯度下降的方法进行模型训练，最终获取血糖预测模型，并用来进行血糖值预测。

此外，测试用户利用血糖预测模型进行预测的相关数据可以通过数据传输的方式传入云数据库，供测试用户查看历史数据，方便回溯。并且，在经过测试用户允许的情况下可以对模型进行优化，模型更新。模型更新可以根据云数据库收集到的数据进行数据迭代，通过一定量的使用情况与用户反馈，获取有标签及无标签训练集合，通过半监督训练流程，对预测模型进行矫正迭代，通过重新训练的方式，更新模型，并通过数据传输进行模型下发，该过程尤其在需要适配新批次血糖试纸以及不同血糖仪电化学精度差异时有重要作用。

本公开实施例提供的血糖预测模型训练方法，基于机器学习方法训练血糖预测模型，使得血糖预测模型具有较准确的血糖预测能力，能够自适应地根据相关数据快速地计算相应的血糖值。并且，血糖预测模型不仅可以独立使用，也可以搭载在血糖仪内使用。适配不同血糖仪与不同试纸、不同批次试纸的血糖测定需求。可用于家庭便携测试血糖指标，具有更高的鲁棒性，给测量者更准确的预测指标。此外，通过有监督和半监督两种模式训练血糖预测模型。在有标签样本数据量足够时可直接训练血糖预测模型；在有标签样本数据量缺乏的情况下辅助有监督训练达到更好的预测性能。

继续参考图2，其示出了根据本公开的血糖预测模型训练方法的又一个实施例的流程200。该血糖预测模型训练方法包括以下步骤：

步骤201，获取第一有标签训练样本集合。

在本实施例中，步骤201的具体操作已在图1所示的实施例中步骤101中进行了详细的介绍，在此不再赘述。

步骤202，基于第一有标签训练样本集合，筛选得到无标签训练样本集合。

在本实施例中，血糖预测模型训练方法的执行主体可以基于第一有标签训练样本集合，筛选得到无标签训练样本集合。通常，为了筛选出质量较高的无标签训练样本集合，可以筛选与第一有标签训练样本的数据分布类似的无标签训练样本。

在本实施例的一些可选的实现方式中，上述执行主体可以利用第一有标签训练样本集合计算样本中心点，来筛选质量高的无标签训练样本。其中，一种可实现的筛选步骤如下：

首先，获取无标签数据集合。

其中，无标签数据集合可以包括大量无标签数据。无标签数据可以包括电化学数据，没有标注标签。

而后，根据第一有标签训练样本集合划分出血糖值域范围。

例如，根据第一有标签训练样本集合中的第一有标签训练样本的第一血糖值，划分出n个血糖值域范围，n为正整数。

之后，计算血糖值域范围内的第一有标签训练样本的样本中心点。

例如，对于每个血糖值域范围，取第一血糖值落入该血糖值域范围内的第一有标签训练样本的m维特征的每一维度的均值，作为该血糖值域范围的样本中心点，m为正整数。

然后，计算无标签数据集合中的无标签数据与样本中心点的距离。

例如，对于每个无标签数据，计算该无标签数据与每个样本中心点的欧式距离。其中，欧式距离计算公式如下：

其中，x代表无标签数据，y代表样本中心点。

最后，将距离满足第一预设条件的无标签数据加入无标签训练样本集合。

例如，第一预设条件可以是距离小于预设距离阈值。

步骤203，将第一有标签训练样本集合中的第一有标签训练样本的第一电化学数据作为输入，将对应的第一血糖值作为输出，训练得到第一辅助模型。

在本实施例中，步骤203的具体操作已在图1所示的实施例中步骤102中进行了详细的介绍，在此不再赘述。

步骤204，将无标签训练样本集合中的无标签训练样本的第二电化学数据输入至第一辅助模型，得到第二血糖值。

在本实施例中，对于无标签训练样本集合中的无标签训练样本，上述执行主体可以将该无标签训练样本的第二电化学数据输入至第一辅助模型。第一辅助模型可以预测得到第二血糖值。

步骤205，基于第二血糖值对对应的无标签训练样本进行标签标注，得到候选有标签训练样本，加入候选有标签训练样本集合。

在本实施例中，上述执行主体可以将第二血糖值作为标签标注到对应的第二电化学数据上，即可得到候选有标签训练样本。候选有标签训练样本可以加入到候选有标签训练样本集合中。

步骤206，从候选有标签训练样本集合中筛选出第二有标签训练样本集合。

在本实施例中，上述执行主体可以从候选有标签训练样本集合中筛选出第二有标签训练样本集合。例如，随机选取部分候选有标签训练样本加入第二有标签训练样本集合。又例如，将所有候选有标签训练样本加入第二有标签训练样本集合。

在本实施例的一些可选的实现方式中，上述执行主体可以从候选有标签训练样本集合中进一步筛选出质量高的候选有标签训练样本，加入第二有标签训练样本集合。其中，一种可实现的筛选步骤如下：

首先，将候选有标签训练样本集合划分成候选有标签训练样本子集。

例如，将候选有标签训练样本集合随机划分成k个候选有标签训练样本子集，k为正整数。

之后，利用候选有标签训练样本子集对第一辅助模型进行训练，得到第二辅助模型。

例如，每轮抽取一个候选有标签训练样本子集，将该候选有标签训练样本子集中的候选有标签训练样本的电化学数据作为输入，将对应的血糖值作为输出，对第一辅助模型进行训练，得到第二辅助模型。

通常，将该候选有标签训练样本子集中的候选有标签训练样本的电化学数据输入至第一辅助模型，可以学习得到预测血糖值。基于血糖值与预测血糖值的误差，对第一辅助模型的参数进行调整，使得误差足够小，即可得到第二辅助模型。

然后，利用第一有标签测试样本集合测试第二辅助模型的性能提升度。

其中，第一有标签测试样本集合可以包括少量第一有标签测试样本。第一有标签测试样本可以包括第三电化学数据和第三血糖值。通常，第一有标签测试样本的第三血糖值通常是通过真实高水平化学实验测量获取的。因此，第一有标签测试样本的质量较高。但是，由于测定成本较高，其数量通常较少。

这里，对于第一有标签测试样本集合中的第一有标签测试样本，将该第一有标签测试样本的第三电化学数据输入至第二辅助模型。第二辅助模型可以预测得到第三预测血糖值。基于第三血糖值与第三预测血糖值的误差，可以确定第二辅助模型的性能提升度。其中，误差越小，第二辅助模型的性能提升度越高。误差可以包括但不限于以下至少一项：均方误差、平均绝对误差和平均绝对误差百分比等。

最后，将性能提升度满足第二预设条件的候选有标签训练样本子集加入第二有标签训练样本集合。

例如，第二预设条件可以是性能提升度大于预设性能提升度阈值。

步骤207，利用第一有标签训练样本集合和第二有标签训练样本集合，训练得到血糖预测模型。

在本实施例中，步骤207的具体操作已在图1所示的实施例中步骤104中进行了详细的介绍，在此不再赘述。

步骤208，获取第二有标签测试样本集合。

在本实施例中，上述执行主体可以获取第二有标签测试样本集合。

其中，第二有标签测试样本集合可以包括少量第二有标签测试样本。第二有标签测试样本可以包括第四电化学数据和第四血糖值。通常，第二有标签测试样本的第四血糖值通常是通过真实高水平化学实验测量获取的。因此，第二有标签测试样本的质量较高。但是，由于测定成本较高，其数量通常较少。

步骤209，将第二有标签测试样本集合中的第二有标签测试样本的第四电化学数据输入至血糖预测模型，得到第四预测血糖值。

在本实施例中，对于第二有标签测试样本集合中的第二有标签测试样本，上述执行主体可以将第二有标签测试样本的第四电化学数据输入至血糖预测模型。血糖预测模型可以预测得到第四预测血糖值。

步骤210，基于第四预测血糖值与第四血糖值计算误差。

在本实施例中，上述执行主体可以基于第四预测血糖值与第四血糖值计算误差。其中，误差可以包括但不限于以下至少一项：均方误差、平均绝对误差和平均绝对误差百分比等。

步骤211，若误差满足第三预设条件，确定血糖预测模型训练完成。

在本实施例中，若误差满足第三预设条件，上述执行主体可以确定血糖预测模型达标，训练完成，可以投入使用。若误差不满足第三预设条件，上述执行主体可以确定血糖预测模型不达标，未训练完成，不可以投入使用。此时，获取新的训练样本继续进行训练。

其中，第三预设条件可以例如是误差小于预设误差阈值。

从图2中可以看出，与图1对应的实施例相比，本实施例中的血糖预测模型训练方法的流程200突出了样本筛选步骤、半监督训练步骤和测试步骤。由此，本实施例描述的方案基于第一有标签训练样本集合，筛选得到无标签训练样本集合，提升了筛选出的无标签训练样本集合的质量。通过有监督训练筛选第二有标签训练样本集合，能够在有标签训练样本数量缺乏的情况下辅助有监督训练达到更好的预测性能。对训练后的血糖预测模型进行测试，从而确保投入使用的血糖预测模型的性能。

进一步参考图3，其示出了根据本公开的血糖预测方法的一个实施例的流程300。该血糖预测方法包括以下步骤：

步骤301，获取测试用户的电化学数据。

在本实施例中，血糖预测方法的执行主体可以获取测试用户的电化学数据。其中，电化学数据可以包括但不限于红细胞比容、电流量、电阻、温度和阻抗等等。电化学数据可以是通过预留的对接血糖仪的数据接口获取的，也可以是通过外部的输入方式录入的。

由于不同电化学数据的刻度尺不一样，为了将其对模型的影响统一到一个尺度，可以对电化学数据进行归一化处理。具体地，利用归一化处理方法对测试用户的电化学数据进行处理，得到归一化电化学数据；将归一化电化学数据输入至血糖预测模型，得到测试用户的预测血糖值。其中，归一处理方法可以包括但不限于max-min、Z-score等方式。max-min方式的公式可以如下：

步骤302，利用血糖预测模型对测试用户的电化学数据进行预测，得到测试用户的预测血糖值。

在本实施例中，上述执行主体可以利用血糖预测模型对测试用户的电化学数据进行预测，得到测试用户的预测血糖值。例如，将测试用户的归一化电化学数据输入至血糖预测模型。血糖预测模型可以预测得到测试用户的预测血糖值。其中，血糖预测模型是采用图1或图2所示的方法训练得到的，这里不再赘述。

本公开实施例提供的血糖预测方法，基于机器学习方法自适应预测血糖，提升了血糖预测准确度。并且，血糖预测模型不仅可以独立使用，也可以搭载在血糖仪内使用。适配不同血糖仪与不同试纸、不同批次试纸的血糖测定需求。可用于家庭便携测试血糖指标，具有更高的鲁棒性，给测量者更准确的预测指标。

为了便于理解，图4示出了血糖预测系统图。如图4所示，数据收集模块410从血糖仪数据接口411或电化学数据录入系统412获取待测量者的电化学数据。并通过归一化处理模块413对电化学数据进行归一化处理，得到归一化电化学数据。血糖预测模块420将归一化电化学数据输入至血糖预测模型421进行血糖指标预测422，得到最终预测结果。此外，测量者利用血糖预测模型进行预测的相关数据可以传入云数据库430。并且，在经过测量者允许的情况下可以通过模型训练模块440进行数据迭代441和模型更新442。

为了便于理解，图5示出了血糖预测应用场景图。如图5所示，一方面执行步骤501和步骤502：步骤501，基于标签数据集合L建立训练集合测试集；步骤502构建辅助模型m1。另一方面执行步骤503-505：步骤503，对标签数据集合L进行均值计算，得到样本中心点集合S；步骤504基于无标签数据集合U确定距样本中心点距离是否小于n；步骤505，将距离小于n的无标签数据加入U1集合。最后执行步骤506-511：步骤506，辅助模型m1可以预测U1获取UL1；步骤507，UL1随机划分为N个集合；步骤508，确定一个集合对辅助模型增量更新是否有效；步骤509，将增量更新有效的集合加入标签数据集合L；步骤510，确定N个集合是否选取完毕；步骤511，根据新的L集合建立模型M。

进一步参考图6，作为对上述各图所示方法的实现，本公开提供了一种血糖预测模型训练装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的血糖预测模型训练装置600可以包括：第一获取模块601、第一训练模块602、筛选模块603和第二训练模块604。其中，第一获取模块601，被配置成获取第一有标签训练样本集合和无标签训练样本集合，其中，第一有标签训练样本集合中的第一有标签训练样本包括第一电化学数据和第一血糖值，无标签训练样本集合中的无标签训练样本包括第二电化学数据；第一训练模块602，被配置成将第一有标签训练样本集合中的第一有标签训练样本的第一电化学数据作为输入，将对应的第一血糖值作为输出，训练得到第一辅助模型；筛选模块603，被配置成利用第一辅助模型对无标签训练样本集合进行标签标注和样本筛选，得到第二有标签训练样本集合；第二训练模块604，被配置成利用第一有标签训练样本集合和第二有标签训练样本集合，训练得到血糖预测模型。

在本实施例中，血糖预测模型训练装置600中：第一获取模块601、第一训练模块602、筛选模块603和第二训练模块604的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101-104的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，第一获取模块601包括：第一筛选子模块，被配置成基于第一有标签训练样本集合，筛选得到无标签训练样本。

在本实施例的一些可选的实现方式中，筛选子模块进一步被配置成：获取无标签数据集合；根据第一有标签训练样本集合划分出血糖值域范围；计算血糖值域范围内的第一有标签训练样本的样本中心点；计算无标签数据集合中的无标签数据与样本中心点的距离；将距离满足第一预设条件的无标签数据加入无标签训练样本集合。

在本实施例的一些可选的实现方式中，筛选模块603包括：输入子模块，被配置成将无标签训练样本集合中的无标签训练样本的第二电化学数据输入至第一辅助模型，得到第二血糖值；标注子模块，被配置成基于第二血糖值对对应的无标签训练样本进行标签标注，得到候选有标签训练样本，加入候选有标签训练样本集合；第二筛选子模块，被配置成从候选有标签训练样本集合中筛选出第二有标签训练样本集合。

在本实施例的一些可选的实现方式中，第二筛选子模块进一步被配置成：将候选有标签训练样本集合划分成候选有标签训练样本子集；利用候选有标签训练样本子集对第一辅助模型进行训练，得到第二辅助模型；利用第一有标签测试样本集合测试第二辅助模型的性能提升度，其中，第一有标签测试样本集合中的第一有标签测试样本包括第三电化学数据和第三血糖值；将性能提升度满足第二预设条件的候选有标签训练样本子集加入第二有标签训练样本集合。

在本实施例的一些可选的实现方式中，血糖预测模型训练装置600还包括：第二获取模块，被配置成获取第二有标签测试样本集合，其中，第二有标签测试样本集合中的第二有标签测试样本包括第四电化学数据和第四血糖值；输入模块，被配置成将第二有标签测试样本集合中的第二有标签测试样本的第四电化学数据输入至血糖预测模型，得到第四预测血糖值；计算模块，被配置成基于第四预测血糖值与第四血糖值计算误差；确定模块，被配置成若误差满足第三预设条件，确定血糖预测模型训练完成。

在本实施例的一些可选的实现方式中，误差包括以下至少一项：均方误差、平均绝对误差、平均绝对误差百分比。

在本实施例的一些可选的实现方式中，血糖预测模型包括以下至少一项：决策树、随机森林、线性回归模型、神经网络模型、支持向量机。

进一步参考图7，作为对上述各图所示方法的实现，本公开提供了一种血糖预测装置的一个实施例，该装置实施例与图3所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的血糖预测装置700可以包括：获取模块701和预测模块702。其中，获取模块701，被配置成获取测试用户的电化学数据；预测模块702，被配置成利用血糖预测模型对测试用户的电化学数据进行预测，得到测试用户的预测血糖值，其中，血糖预测模型是采用如图7所示的装置训练得到的。

在本实施例中，血糖预测装置700中：获取模块701和预测模块702的具体处理及其所带来的技术效果可分别参考图3对应实施例中的步骤301-302的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，预测模块702进一步被配置成：利用归一化处理方法对测试用户的电化学数据进行处理，得到归一化电化学数据；将归一化电化学数据输入至血糖预测模型，得到测试用户的预测血糖值。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如血糖预测模型训练方法或血糖预测方法。例如，在一些实施例中，血糖预测模型训练方法或血糖预测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的血糖预测模型训练方法或血糖预测方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行血糖预测模型训练方法或血糖预测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种血糖预测模型训练方法，包括：

获取第一有标签训练样本集合和无标签训练样本集合，其中，所述第一有标签训练样本集合中的第一有标签训练样本包括第一电化学数据和第一血糖值，所述无标签训练样本集合中的无标签训练样本包括第二电化学数据；

将所述第一有标签训练样本集合中的第一有标签训练样本的第一电化学数据作为输入，将对应的第一血糖值作为输出，训练得到第一辅助模型；

利用所述第一辅助模型对所述无标签训练样本集合进行标签标注和样本筛选，得到第二有标签训练样本集合；

利用所述第一有标签训练样本集合和所述第二有标签训练样本集合，训练得到血糖预测模型。

2.根据权利要求1所述的方法，其中，所述获取无标签训练样本集合，包括：

基于所述第一有标签训练样本集合，筛选得到所述无标签训练样本集合。

3.根据权利要求2所述的方法，其中，所述基于所述第一有标签训练样本集合，筛选得到所述无标签训练样本集合，包括：

获取无标签数据集合；

根据所述第一有标签训练样本集合划分出血糖值域范围；

计算所述血糖值域范围内的第一有标签训练样本的样本中心点；

计算所述无标签数据集合中的无标签数据与所述样本中心点的距离；

将距离满足第一预设条件的无标签数据加入所述无标签训练样本集合。

4.根据权利要求1所述的方法，其中，所述利用所述第一辅助模型对所述无标签训练样本集合进行标签标注和样本筛选，得到第二有标签训练样本集合，包括：

将所述无标签训练样本集合中的无标签训练样本的第二电化学数据输入至所述第一辅助模型，得到第二血糖值；

基于所述第二血糖值对对应的无标签训练样本进行标签标注，得到候选有标签训练样本，加入候选有标签训练样本集合；

从所述候选有标签训练样本集合中筛选出所述第二有标签训练样本集合。

5.根据权利要求4所述的方法，其中，所述从所述候选有标签训练样本集合中筛选出所述第二有标签训练样本集合，包括：

将所述候选有标签训练样本集合划分成候选有标签训练样本子集；

利用所述候选有标签训练样本子集对所述第一辅助模型进行训练，得到第二辅助模型；

利用第一有标签测试样本集合测试所述第二辅助模型的性能提升度，其中，所述第一有标签测试样本集合中的第一有标签测试样本包括第三电化学数据和第三血糖值；

将所述性能提升度满足第二预设条件的候选有标签训练样本子集加入所述第二有标签训练样本集合。

6.根据权利要求1-5中任一项所述的方法，其中，所述方法还包括：

获取第二有标签测试样本集合，其中，所述第二有标签测试样本集合中的第二有标签测试样本包括第四电化学数据和第四血糖值；

将所述第二有标签测试样本集合中的第二有标签测试样本的第四电化学数据输入至所述血糖预测模型，得到第四预测血糖值；

基于所述第四预测血糖值与所述第四血糖值计算误差；

若所述误差满足第三预设条件，确定所述血糖预测模型训练完成。

7.根据权利要求6所述的方法，其中，所述误差包括以下至少一项：均方误差、平均绝对误差、平均绝对误差百分比。

8.根据权利要求1-7中任一项所述的方法，其中，所述血糖预测模型包括以下至少一项：决策树、随机森林、线性回归模型、神经网络模型、支持向量机。

9.一种血糖预测方法，包括：

获取测试用户的电化学数据；

利用血糖预测模型对所述测试用户的电化学数据进行预测，得到所述测试用户的预测血糖值，其中，所述血糖预测模型是采用权利要求1-8中任一项所述的方法训练得到的。

10.根据权利要求9所述的方法，其中，所述利用血糖预测模型对所述测试用户的电化学数据进行预测，得到所述测试用户的预测血糖值，包括：

利用归一化处理方法对所述测试用户的电化学数据进行处理，得到归一化电化学数据；

将所述归一化电化学数据输入至所述血糖预测模型，得到所述测试用户的预测血糖值。

11.一种血糖预测模型训练装置，包括：

第一获取模块，被配置成获取第一有标签训练样本集合和无标签训练样本集合，其中，所述第一有标签训练样本集合中的第一有标签训练样本包括第一电化学数据和第一血糖值，所述无标签训练样本集合中的无标签训练样本包括第二电化学数据；

第一训练模块，被配置成将所述第一有标签训练样本集合中的第一有标签训练样本的第一电化学数据作为输入，将对应的第一血糖值作为输出，训练得到第一辅助模型；

筛选模块，被配置成利用所述第一辅助模型对所述无标签训练样本集合进行标签标注和样本筛选，得到第二有标签训练样本集合；

第二训练模块，被配置成利用所述第一有标签训练样本集合和所述第二有标签训练样本集合，训练得到血糖预测模型。

12.根据权利要求11所述的装置，其中，所述第一获取模块包括：

第一筛选子模块，被配置成基于所述第一有标签训练样本集合，筛选得到所述无标签训练样本集合。

13.根据权利要求12所述的装置，其中，所述筛选子模块进一步被配置成：

获取无标签数据集合；

根据所述第一有标签训练样本集合划分出血糖值域范围；

14.根据权利要求11所述的装置，其中，所述筛选模块包括：

输入子模块，被配置成将所述无标签训练样本集合中的无标签训练样本的第二电化学数据输入至所述第一辅助模型，得到第二血糖值；

标注子模块，被配置成基于所述第二血糖值对对应的无标签训练样本进行标签标注，得到候选有标签训练样本，加入候选有标签训练样本集合；

第二筛选子模块，被配置成从所述候选有标签训练样本集合中筛选出所述第二有标签训练样本集合。

15.根据权利要求14所述的装置，其中，所述第二筛选子模块进一步被配置成：

16.根据权利要求11-15中任一项所述的装置，其中，所述装置还包括：

第二获取模块，被配置成获取第二有标签测试样本集合，其中，所述第二有标签测试样本集合中的第二有标签测试样本包括第四电化学数据和第四血糖值；

输入模块，被配置成将所述第二有标签测试样本集合中的第二有标签测试样本的第四电化学数据输入至所述血糖预测模型，得到第四预测血糖值；

计算模块，被配置成基于所述第四预测血糖值与所述第四血糖值计算误差；

确定模块，被配置成若所述误差满足第三预设条件，确定所述血糖预测模型训练完成。

17.根据权利要求16所述的装置，其中，所述误差包括以下至少一项：均方误差、平均绝对误差、平均绝对误差百分比。

18.根据权利要求11-17中任一项所述的装置，其中，所述血糖预测模型包括以下至少一项：决策树、随机森林、线性回归模型、神经网络模型、支持向量机。

19.一种血糖预测装置，包括：

获取模块，被配置成获取测试用户的电化学数据；

预测模块，被配置成利用血糖预测模型对所述测试用户的电化学数据进行预测，得到所述测试用户的预测血糖值，其中，所述血糖预测模型是采用权利要求11-18中任一项所述的装置训练得到的。

20.根据权利要求19所述的装置，其中，所述预测模块进一步被配置成：

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法或权利要求9-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法或权利要求9-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法或权利要求9-10中任一项所述的方法。