CN117116462A

CN117116462A - 一种糖化血红蛋白值的预测方法、系统及装置

Info

Publication number: CN117116462A
Application number: CN202210534733.8A
Authority: CN
Inventors: 赵芃
Original assignee: Andon Health Co Ltd
Current assignee: Andon Health Co Ltd
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2023-11-24

Abstract

本发明公开了一种糖化血红蛋白值的预测方法、系统及装置，涉及慢病管理技术领域。包括：获取患者相关数据；对数据预处理；将离散特征转变为0‑1的向量并与归一化后的连续特征拼成一个特征向量，以体检时间为节点统计得到多组特征向量；构建得到标签集一、标签集二和标签集三；将多组特征向量分别输入糖化预测模型、第一糖化判别模型和第二糖化判别模型，标签集一、标签集二、标签集三分别为糖化预测模型、第一糖化判别模型和第二糖化判别模型的标签进行训练并保存训练后的模型；将目标患者的特征向量分别输入糖化预测模型、第一糖化判别模型和第二糖化判别模型，实现糖化血红蛋白值预测。本发明提高了糖化血红蛋白值预测的准确性及可靠性。

Description

一种糖化血红蛋白值的预测方法、系统及装置

技术领域

本发明涉及慢病管理技术领域，尤其涉及一种糖化血红蛋白值的预测方法、系统及装置。

背景技术

糖尿病是慢病的一种，具有长期高血糖的特点，且病程长，会引起眼、肾、心脏、血管以及神经慢性损害，导致功能障碍，出现糖尿病并发症。患者在进行治疗糖尿病的过程中，院外的疗养往往占据着举足轻重的地位，患者需要时刻关注自己当前或未来的血糖状态，及时调整干预疗养，才能起到积极的治疗效果。

通过检测血糖来判断和预测糖尿病患者的身体状况是最常见的方法，通过预测糖尿病患者的血糖升高或者降低，来调整用药或诊疗策略，但在测血糖时往往会出现在不同时间点测得的值相差较大导致诊断及预测结果不准确，尤其是对于Ⅱ型糖尿病患者来说，易出现空腹测血糖不高，餐后血糖升高的情况，也就是常说的“糖耐量减低”。此外，每个人在测血糖时的状态都不一样，进食、运动、药物等因素都会对血糖水平产生影响，所以偶测血糖的数值很难完全代表患者平时的血糖水平，这时候就需要一个长期稳定的指标来反应患者的真实血糖情况。

这个指标就是糖化血红蛋白，糖化血红蛋白是红细胞里的血红蛋白与血糖结合产生的产物，血糖和血红蛋白结合的过程是不可逆的，而红细胞的寿命有120天左右，在这个期间内，糖化血红蛋白都能保持相对稳定。同时，糖化血红蛋白的形成取决于血糖浓度和作用时间，生成量与血中葡萄糖浓度成正比。也就是说，患者的血糖越高、持续时间越长，糖化血红蛋白就越多，所以糖化血红蛋白可以用来反应患者近期的血糖水平。此外，中华医学会糖尿病学分会正式将糖化血红蛋白值是否低于6.5％纳入糖尿病辅助诊断标准，若低于6.5％，则判定该糖尿病患者血糖达标，若高于或等于6.5％，则判定该糖尿病患者血糖偏高。因此，如何建立准确、有效、可靠的糖化预测模型是实现糖化血红蛋白精准预测的关键。

基于此，亟需一种糖化血红蛋白值的预测方法、系统及装置，用以解决如上提到的问题。

发明内容

本发明的目的在于提供一种糖化血红蛋白值的预测方法、系统及装置，能够对糖尿病患者的健康达标情况进行详细判断，帮助预测糖尿病患者的患病程度，以便于采取不同的治疗手段，提升疗效，通过三个模型的协同判定提高了糖化血红蛋白值预测的准确性及可靠性。

为达此目的，本发明采用以下技术方案：

本发明提供了一种糖化血红蛋白值的预测方法，其包括如下步骤：

S1、样本数据采集，获取不同糖尿病患者的体征数据和临床诊疗数据；

S2、数据处理，对S1采集的数据进行预处理，构建有效样本集；

S3、特征构建，将S2得到的数据，以临床体检时间为节点成组统计，得到多组特征向量；

标签集构建，构建多组标签集，设定预设值，临床诊疗数据中取得的糖化血红蛋白数据单独划入一组标签集，糖化血红蛋白与预设值进行比较，将比较后的数据按照数据间的共性划分到其余标签集；

S4、模型训练，建立模型，将S3构建的特征向量和标签集作为训练样本进行模型训练；

S5、血糖预测，将目标患者的数据输入S4建立的模型，得到血糖预测结果，并得出病症判断结果。

作为一种糖化血红蛋白值的预测方法的优选的技术方案，所述步骤S2包括：

S20、以临床体检时间为节点将体征数据和临床诊疗数据分为多个样本；

S21、清洗掉体征数据内取得的血糖缺失的样本；

S22、清洗掉体征数据和临床诊疗数据内缺失一个以上数据特征的样本；

S23、分别计算出每个临床体检时间点前预设时间段内的早餐前血糖值、早餐后血糖值、午餐前血糖值、午餐后血糖值、晚餐前血糖值、晚餐后血糖值以及睡前血糖值的均值、中位数、上四分位数和下四分位数中的至少一个值，记为第一组血糖数据；再分别计算出每个临床体检时间点前预设时间段内的餐前血糖值和餐后血糖值的均值、中位数、上四分位数和下四分位数中的至少一个值，记为第二组血糖数据。

作为一种糖化血红蛋白值的预测方法的优选的技术方案，所述步骤S3包括：

特征构建，将S2处理后的体征与临床诊疗数据分为离散特征和连续特征，将离散特征转变为0-1的特征向量，并与归一化处理后的连续特征拼接成一个特征向量，以临床体检时间为节点成组统计，得到多组特征向量；

标签集构建，构建标签集一、标签集二和标签集三，设定第一预设值和第二预设值两个参数，且第二预设值大于第一预设值；将临床诊疗数据中的糖化血红蛋白数据划分为标签集一；将糖化血红蛋白数据中小于等于第一预设值的样本标记为0类，大于第一预设值的样本标记为1类，划分到标签集二；将糖化血红蛋白数据中小于第二预设值的样本标记为0类，大于等于第二预设值的样本标记为1类，划分到标签集三。

作为一种糖化血红蛋白值的预测方法的优选的技术方案，所述模型包括糖化预测模型、第一糖化判别模型和第二糖化判别模型。

作为一种糖化血红蛋白值的预测方法的优选的技术方案，糖化预测模型包括糖化预测主模型和糖化预测辅助模型，糖化预测主模型采用第一组血糖数据、多组特征向量和标签集一进行训练，糖化预测辅助模型采用第二组血糖数据、多组特征向量和标签集一进行训练，糖化预测辅助模型在糖化预测主模型失效时启动；

第一糖化判别模型包括第一糖化判别主模型和第一糖化判别辅助模型，第一糖化判别主模型采用第一组血糖数据、多组特征向量和标签集二进行训练，第一糖化判别辅助模型采用第二组血糖数据、多组特征向量和标签集二进行训练，第一糖化判别辅助模型在第一糖化判别主模型失效时启动；

第二糖化判别模型包括第二糖化判别主模型和第二糖化判别辅助模型，第二糖化判别主模型采用第一组血糖数据、多组特征向量和标签集三进行训练，第二糖化判别辅助模型采用第二组血糖数据、多组特征向量和标签集三进行训练，第二糖化判别辅助模型在第二糖化判别主模型失效时启动。

作为一种糖化血红蛋白值的预测方法的优选的技术方案，糖化预测主模型和糖化预测辅助模型均运用如下函数进行训练：

其中，hba1c⁽ⁱ⁾为第i号样本的糖化血红蛋白值，为第i号样本的第j个特征向量，W1和b1为待优化参数，|features|为数据特征总数，α为控制属性权重的阈值，i为数据迭代游标，j为数据特征迭代游标，N为样本总量；

使用梯度下降法对公式(1)经过多轮迭代之后，得到使该函数取到极小值的参数W1和b1，将W1、b1保存。

作为一种糖化血红蛋白值的预测方法的优选的技术方案，将W1、b1代入如下函数，则得到糖化血红蛋白的预测值：

y＝W1^Tx+b1 (2)

其中，x为目标患者的特征向量；T为转置符，代表将列向量转为行向量。

作为一种糖化血红蛋白值的预测方法的优选的技术方案，第一糖化判别主模型、第一糖化判别辅助模型、第二糖化判别主模型和第二糖化判别辅助模型均采用如下损失函数进行训练：

y_i是临床测得的第i号样本的糖化血红蛋白真实值，并按照阈值的标记分类(即标签集二或标签集三)，N为样本总量，x_i为第i号样本的特征向量，T为转置符，h_w(x_i)为模型的预测值，其取值范围为0～1，由公式(4)定义，e为自然常数，取值为2.718；

将函数(4)代入函数(3)，使用梯度下降法优化函数(3)，经过多轮迭代之后，得到使该函数取到极小值的参数W2和b2，将W2、b2保存；

判别时，将W2、b2代入函数(4)，并将目标患者的相关数据分别输入第一糖化判别模型和第二糖化判别模型，则可根据计算得出的h_w(x_i)取值判定糖化预测值的取值区间。

作为一种糖化血红蛋白值的预测方法的优选的技术方案，连续特征采用如下公式进行归一化：

其中，d为某一连续特征中的某个值，d_min为某一连续特征中的最小值，d_max为某一连续特征中的最大值，z为归一化后的值。

作为一种糖化血红蛋白值的预测方法的优选的技术方案，将目标患者的特征向量分别输入糖化预测模型、第一糖化判别模型和第二糖化判别模型，若糖化预测模型和第一糖化判别模型得到的结果均小于等于第一预设值，且第二糖化判别模型给出的判定结果小于第二预设值，则得出目标患者血糖达标；若糖化预测模型和第一糖化判别模型得到的结果均大于第一预设值，且第二糖化判别模型给出的判定结果小于第二预设值，则得出目标患者症状轻；若糖化预测模型和第二糖化判别模型得到的结果均大于等于第二预设值，且第一糖化判别模型给出的判定结果大于第一预设值，则得出目标患者症状重。

作为一种糖化血红蛋白值的预测方法的优选的技术方案，定期对体征和临床诊疗数据进行更新，以实时对糖化预测模型、第一糖化判别模型和第二糖化判别模型进行训练更新。

本发明还提供了一种糖化血红蛋白值的预测系统，其包括：

数据处理模块，用于获取并预处理糖尿病患者的体征和临床诊疗数据；

特征及标签构建模块，用于进行特征构建及标签构建；

糖化预测模块，包括相并联的糖化预测主模型及糖化预测辅助模型；

判别模块，包括两两相并联的第一糖化判别主模型和第一糖化判别辅助模型、第二糖化判别主模型和第二糖化判别辅助模型；

数据缓存更新模块，用于缓存和更新糖尿病患者的体征和临床诊疗数据，且数据缓存更新模块与数据处理模块连接。

本发明还提供了一种糖化血红蛋白值的预测装置，其包括如上所述的糖化血红蛋白值的预测系统。

本发明的有益效果：

本发明提供了一种糖化血红蛋白值的预测方法、系统及装置，与现有直接通过测量血糖值来反映患者血糖情况的方法相比，本发明采用糖尿病人体征数据和临床诊疗数据来预测糖化血红蛋白值，辅助医护人员通过该糖化血红蛋白值在线关注糖尿病患者在院外的血糖情况，进而了解糖尿病患者的院外疗养情况。具体地，采用糖化预测模型、第一糖化判别模型和第二糖化判别模型协同作用来预测糖尿病患者的患病程度，使预测结果更稳定可靠，以此对其身体健康达标情况进行详细判断，以便于医护人员采取不同的治疗手段或及时调整治疗方案，提升疗效，三个模型的协同作用提高了糖化血红蛋白值预测的准确性及可靠性。

附图说明

图1是本发明实施例提供的糖化血红蛋白值的预测方法的主要步骤流程图；

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案做进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，除非另有明确的规定和限定，术语“相连”、“连接”、“固定”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

本发明实施例公开了一种糖化血红蛋白值的预测方法，如图1所示，该糖化血红蛋白值的预测方法包括如下步骤：

S3、特征构建，将处理后的体征数据和临床诊疗数据分为离散特征和连续特征，将离散特征转变为0-1的特征向量，并与归一化处理后的连续特征拼接成一个特征向量，以临床体检时间为节点成组统计，得到多组特征向量；

标签集构建，构建标签集一、标签集二和标签集三，设定第一预设值和第二预设值两个参数，且第二预设值大于第一预设值；将临床诊疗数据中的糖化血红蛋白数据划分为标签集一；将糖化血红蛋白数据中小于等于第一预设值的样本标记为0类，大于第一预设值的样本标记为1类，划分到标签集二；将糖化血红蛋白数据中小于第二预设值的样本标记为0类，大于等于第二预设值的样本标记为1类，划分到标签集三；

S4、模型训练，建立糖化预测模型、第一糖化判别模型和第二糖化判别模型三个模型，将多组特征向量作为输入数据分别输入糖化预测模型、第一糖化判别模型和第二糖化判别模型，以标签集一、标签集二、标签集三分别作为糖化预测模型、第一糖化判别模型和第二糖化判别模型的训练标签进行训练并保存训练后的模型，得到糖化预测模型、第一糖化判别模型和第二糖化判别模型；

S5、血糖预测，将目标患者的特征向量分别输入糖化预测模型、第一糖化判别模型和第二糖化判别模型，若糖化预测模型和第一糖化判别模型得到的结果均小于等于第一预设值，且第二糖化判别模型给出的判定结果小于第二预设值，则得出目标患者血糖达标；若糖化预测模型和第一糖化判别模型得到的结果均大于第一预设值，且第二糖化判别模型给出的判定结果小于第二预设值，则得出目标患者症状轻；若糖化预测模型和第二糖化判别模型得到的结果均大于等于第二预设值，且第一糖化判别模型给出的判定结果大于第一预设值，则得出目标患者症状重。

本发明与现有直接通过测量血糖值来检查患者血糖情况的方法相比，采用糖化血红蛋白值来辅助医护人员线上监管院外糖尿病患者的血糖情况，使预测结果更稳定可靠。具体地，采用糖化预测模型、第一糖化判别模型和第二糖化判别模型协同作用来预测糖尿病患者的患病程度，以此对其身体健康达标情况进行详细判断以便于采取不同的治疗手段，提高疗效，三个模型的协同作用提高了糖化血红蛋白值预测的准确性及可靠性。

下面，结合附图1，对该方法的各步骤进行详细介绍。

S1、获取不同糖尿病患者的体征数据和临床诊疗数据。

由于不同地区的人有着不同的生活习惯，而这些都会是影响糖尿病患血糖高低的因素，同时，情况各异的患者，包括但不限于长/短病程、高/低年龄、是否需要胰岛素治疗、是否使用了各种类型降糖药、是否有并发症等，皆对糖尿病患者疗养起到不同程度的影响，因此本实施例中采集了各地区的糖尿病患者的体征和临床诊疗数据，以确保数据采集的全面性和可靠性。

具体地，体征数据包括性别、年龄、病程、身高、体重、血糖，其中，血糖包括早餐前-后血糖值、午餐前-后血糖值、晚餐前-后血糖值以及睡前血糖值。以此记录测得的早餐前后、午餐前后、晚餐前后和睡前各时间节点的血糖值，获取模型训练数据。临床诊疗数据包括诊断治疗数据和临床体检数据，诊断治疗数据包括用药信息和并发症信息。用药信息包括糖尿病患者常服用的各类胰岛素使用情况，例如短效、中效、长效、预混胰岛素的使用情况、各类口服药使用情况，例如磺脲类、双胍类、α-糖苷酶抑制剂、噻唑烷二酮类等的使用情况。并发症主要由糖尿病引起的其他附带疾病，并发症信息包括视网膜病变以及心脑血管病变等情况。临床体检数据包括糖化血红蛋白数据，便于后续的模型训练，得到的模型再用于反哺患者，为患者提供预测服务。

需要说明的是，体征数据、诊断治疗数据和临床体检数据均为脱敏数据，即已对数据进行漂白、去隐私化或变形，提高数据安全性。在其他实施例中，体征数据、诊断治疗数据和临床体检数据也可根据需要进行收集调整，不局限于本实施例中，但必须要包含血糖数据和糖化血红蛋白数据。

此外，体征数据和临床诊疗数据的获取方式包括，体征数据为糖尿病患者平时自己利用相关测量工具测量获得，诊断治疗数据由患者去医院看病时，医生诊断所记录的病历和开具的处方获得，临床体检数据由患者去医院体检时采用相关设备检测获得，为方便统计，可将获取的体征数据、诊断治疗数据和临床体检数据上传至数据缓存更新模块进行存储。例如，糖尿病患者可以采用与手机等互联网设备相连的智能血糖仪在院外测量血糖，然后通过智能血糖仪上传自己的血糖信息至云服务器(数据缓存更新模块)，同时患者还可以通过APP输入自身的体征数据和病历信息，如，性别、年龄、病程、身高、体重、用药信息和并发症信息等，以方便记录数据。

S2、对患者的体征数据和临床诊疗数据进行预处理。

对获取的体征数据、诊断治疗数据和临床体检数据进行清洗、筛选，去除不符合要求的样本，提高数据的可用性。

可选地，上述步骤S2具体包括：

S20、以临床体检时间为节点将体征和临床诊疗数据分为多个样本；

S21、清洗掉体征数据内取得的血糖缺失的样本；

具体地，以临床体检时间为节点进行统计，每一次临床体检时检测到一份糖化血红蛋白数据，以及在该临床体检时间前预设时间段内记录的性别、年龄、病程、血糖、用药、并发症等特征数据，该特征数据与糖化血红蛋白数据形成一个样本，以此每一次临床体检时间节点即可统计形成一个样本，从而形成多个样本。

血糖数据是样本中最重要的指标数据之一，如果缺失血糖数据，则认定该样本不可用，应当清洗掉。其次，样本中如果出现大范围数据特征缺失的情况，也会导致样本数据不准确，因此需要进一步清洗掉数据特征缺失一个(其他实施例中，可根据需要设置)以上的样本。优选的，是当样本中缺失了超过一半以上的数据，则需要将该样本清洗掉。以此完成对数据的清洗、筛选，提高数据的可靠性。

糖化血红蛋白是血红蛋白和血液中的葡萄糖结合的产物，是一种不可逆的反应，除非红细胞死亡才会消失，而红细胞的生命周期为80-120天，因此，本发明采用糖化血红蛋白来反应糖尿病患者的血糖水平，其稳定性好、波动性小。可选地，本实施例中的预设时间段为临床体检时间点之前的三个月。体征数据也是收集记录每个临床体检时间点之前的三个月内的数据。在其他实施例中，预设时间段可以是临床体检时间点之前的120天内的任一时间段，具体可根据需要进行调整，不以本实施例为限。

本实施例中，第一组血糖数据包括预设时间段内的早餐前血糖值的均值、中位数、上四分位数和下四分位数；早餐后血糖值的均值、中位数、上四分位数和下四分位数；午餐前血糖值的均值、中位数、上四分位数和下四分位数；午餐后血糖值的均值、中位数、上四分位数和下四分位数；晚餐前血糖值的均值、中位数、上四分位数和下四分位数；晚餐后血糖值的均值、中位数、上四分位数和下四分位数；睡前血糖值的均值、中位数、上四分位数和下四分位数。

第二组血糖数据包括预设时间段内餐前(包括早餐前、午餐前和晚餐前)血糖值的均值、中位数、上四分位数和下四分位数；餐后(包括早餐后、午餐后和晚餐后)血糖值的均值、中位数、上四分位数和下四分位数。

本实施例通过采集各时间点血糖的均值、中位数、上四分位数和下四分位数四个维度的血糖值来作为模型训练时血糖的输入参数，使得血糖数据的可靠性好。当然，在其他实施例中，也可选取均值、中位数、上四分位数和下四分位数中的一个或多个数值进行训练，不局限于本实施例中的方案。

第一组血糖数据和第二组血糖数据仅在测量时间节点的选择上存在区别，第一组血糖数据以早、中、晚及睡前为节点进行血糖测量记录，第二组血糖数据仅以餐前和餐后两个时间为节点进行血糖测量记录，因此第二组血糖数据相较于第一组血糖数据统计的更为粗糙、以满足不同的糖化预测模型的训练需求。

进一步地，本实施例中考虑到不同的糖尿病患者测量血糖的次数可能存在不一样，因而不能直接对该血糖测量记录进行使用，在此计算出了测量记录中的一些特征值，如均值，中位数，上四分位数，下四分位数，通过这四个数值维度代替血糖测量记录输入糖化预测模型里进行训练，既能使得数据记录统一，又能确保数据的准确性。

S3、特征构建，将处理后的体征和临床诊疗数据分为离散特征和连续特征，将离散特征转变为0-1的特征向量，并与归一化处理后的连续特征拼接成一个特征向量，以临床体检时间为节点成组统计，得到多组特征向量；

具体地，离散特征包括性别、用药信息和并发症信息，离散特征采用one-hot方式转变为0-1的特征向量。例如性别，如果某患者性别为女，则女记为1，男记为0，则性别则编码为[1,0],如果某患者性别为男，则女记为0，男记为1，性别则编码为[0,1]。再例如：用药信息中的胰岛素用药情况，胰岛素分为短效胰岛素、中效胰岛素、长效胰岛素、预混胰岛素4个属性列，如果某患者在3个月的时间段内，仅使用了短效胰岛素，则胰岛素相关的四个属性列中，短效胰岛素取1，其他类型的胰岛素取0，胰岛素的用药情况则编码为[1,0,0,0]。同理，其他离散特征按照上述数据特征同方式编码处理，本实施例在此不再赘述。

连续特征包括年龄、血糖及体重等，连续特征采用归一化处理统一量纲，由于不同数据特征有着不同的数值范围，例如，使用mmol/L为单位的血糖的数值范围绝大部分集中在3.0-20.0，而血糖极低和血糖极高的情况虽然存在，但并不多见。相对的，例如年龄，绝大部分2型糖尿病患者是中老年患者，年龄普遍分布在40岁-90岁，虽然其他年龄段也会有2型糖尿病患者，但相比于中老年龄段占比明显偏低。从年龄和血糖的数值分布上可以看出，在实际样本中，年龄的取值要普遍大于血糖的取值，因此在糖化预测模型训练的时候，血糖值的影响就会小于年龄，这是由数值范围引起的数据特征权重的偏差，这是应当避免的，因此本实施例中使用如下公式对连续特征进行归一化：

其中，d为某一连续特征中的某个值，d_min为某一连续特征中的最小值，d_max为某一连续特征中的最大值，z为归一化后的值。通过该公式则能够将连续特征转化为0-1的特征值，实现统一量纲。

为便于理解，下面进行举例说明，例如：有5名糖尿病患者，年龄分别是67、35、79、88、34，则得出年龄的数值范围为34-88，则d_min取该数值范围中的最小值34，d_max取该数值范围中的最大值88，d就是年龄属性下的某一个患者的值。比如对第一个糖尿病患者的年龄进行归一化处理，则d就是第一个糖尿病患者的年龄值67，代入公式得到：z＝(67-34)/(88-34)＝0.61，按照上述方法依次计算，就能得到该5名糖尿病患者的年龄归一化后的值：0.61、0.02、0.83、1、0，完成量纲的统一。

同理，其他数据特征下的数值，例如血糖、身高、体重等也可采用该归一化公式进行处理，以统一量纲。可以理解的是，此处对血糖的归一化处理包括对前述第一组血糖数据计算出的均值、中位数、上四分位数及下四分位数的归一化和对前述第二组血糖数据计算出的均值、中位数、上四分数位及下四分位数的归一化。最后将每个临床体检时间点前3个月内成组统计得到的连续特征与离散特征拼接成一个特征向量，则得到多组特征向量。

需要说明的是，本实施例中采用“线性归一化”进行量纲的统一，操作简单、方便，当然，在其他实施例中，也可采用其他方式归一化，不局限于本实施例中的方案。

本实施例中，每一临床体检获得的糖化血红蛋白值和其对应的前3个月内的体征数据和临床诊疗数据作为一个样本，一个糖尿病患者可以形成一个或多个样本，取决于患者去医院临床体检的次数。例如，现有如下表1所示的收集的部分糖尿病患者的相关诊疗数据：

表1

现已知张三在2020.11.9去医院测得的糖化血红蛋白值(简称糖化值)是7.5，那么需要利用张三从2020.8.9-2020.11.9的若干数据中构建1个样本数据形成特征向量，显然表1内的序号1、2的数据是在这范围内的，那么就可以计算序号1、2中早餐前/后、午餐前/后、晚餐前/后、睡前等测量时间点的血糖值的统计量，统计量包括平均值、中位数、上四分位数、下四分位数等。例如，张三在2020.8.9-2020.11.9的早餐前血糖均值是6.9，其他血糖值也同理可计算出来。

“视网膜是否病变”为离散特征值，用one-hot编码成[是，否]，则张三编码为[1,0]，李四编码为[0,1]，“餐前后血糖、身高、体重”就是连续特征，需归一化处理(具体见上述归一化公式)，最后得到的张三2020.11.9的1条样本数据如下表2：

表2

姓名

早餐前血糖均值

……

身高

体重

视网膜病变

糖化值

张三

6.9

……

170

50

[1，0]

7.5

由于糖化血红蛋白(HbA1c)具备良好的可重复性和稳定性，因此糖化血红蛋白值(上下文简称糖化值)已成为临床上反映糖尿病患者长期血糖控制状况的指标。研究表明，HbA1c是否小于6.5％和大于9.0％可作为糖尿病的诊断标准，因此本实施例中，第一预设值为6.5％，第二预设值为9.0％，即如果HbA1c小于等于6.5％，则判定患者的血糖达标，身体恢复较好；如果HbA1c大于6.5％且小于9.0％，则判定患者症状轻、需继续疗养，如果HbA1c大于等于9.0％，则判定患者症状重、处于高危状态、需干预治疗。

因此，本实施例中的标签构建主要是对临床体检获得的糖化血红蛋白数据进行分类处理，标签集一直接将获得的糖化血红蛋白数据进行存储，标签集二将获得的糖化血红蛋白数据中小于等于6.5％的样本标记为0类，大于6.5％的样本标记为1类；标签集三将糖化血红蛋白数据中小于9.0％的样本标记为0类，大于等于9.0％的样本标记为1类，以备后续的模型训练的使用。

S4、模型训练，将多组特征向量作为输入数据分别输入糖化预测模型、第一糖化判别模型和第二糖化判别模型，以标签集一、标签集二、标签集三分别作为糖化预测模型、第一糖化判别模型和第二糖化判别模型的训练标签进行训练并保存训练后的模型，得到糖化预测模型、第一糖化判别模型和第二糖化判别模型。

第一糖化判别模型和第二糖化判别模型训练所需的样本数据与糖化预测模型基本相同，区别仅在于，判别模型是分类模型，糖化预测模型是回归模型，其糖化值的标签不同。例如张三，上述表2中列出的是糖化预测模型的特征构建所需的样本数据，则用于第一糖化判别模型的张三的特征构建所需的样本数据如下表3，其中采用标签集二对糖化值的类型进行分类：

表3

姓名

早餐前血糖均值

……

身高

体重

视网膜病变

糖化值分类

张三

6.9

……

170

50

[1，0]

1

相反的，用于第二糖化判别模型的张三的样本数据如下表4，其中采用标签集三对糖化值的类型进行分类：

表4

姓名

早餐前血糖均值

……

身高

体重

视网膜病变

糖化值分类

张三

6.9

……

170

50

[1，0]

0

具体地，糖化预测模型包括糖化预测主模型和糖化预测辅助模型，糖化预测主模型采用第一组血糖数据、多组特征向量和标签集一进行训练，糖化预测辅助模型采用第二组血糖数据、多组特征向量和标签集一进行训练，糖化预测辅助模型在糖化预测主模型失效时启动。糖化预测辅助模型对血糖数据的需求相较于糖化预测主模型来说更宽松，仅仅需要患者3个月左右的餐前、餐后血糖数据即可，按此设置，当患者的血糖数据面临部分缺失，无法满足糖化预测主模型的预测需求时，此时，系统则启动糖化预测辅助模型实现糖化血红蛋白预测，提高了预测模型的兼容性、可用性。

进一步地，糖化预测主模型和糖化预测辅助模型均运用如下函数进行训练：

使用梯度下降法对函数(1)经过多轮迭代之后，得到使该函数取到极小值的参数W1和b1，将W1、b1保存。

具体地，糖化预测主模型和糖化预测辅助模型仅以不同的血糖数据进行训练，从而得到血糖粒度不同的糖化预测模型，以满足不同条件下的患者的糖化预测需求，避免预测系统的失效，提高可用性。

进一步地，第一糖化判别模型包括第一糖化判别主模型和第一糖化判别辅助模型，第一糖化判别主模型采用第一组血糖数据、多组特征向量和标签集二进行训练，第一糖化判别辅助模型采用第二组血糖数据、多组特征向量和标签集二进行训练，第一糖化判别辅助模型在第一糖化判别主模型失效时启动。以此设置，第一糖化判别主模型和第一糖化判别辅助模型仅以不同的血糖数据进行训练，从而得到血糖粒度不同的糖化判别模型，以满足不同条件下的患者的糖化判别预测需求，避免预测系统中第一糖化判别模块失效，提高可用性。

相应地，本实施例中第二糖化判别模型包括第二糖化判别主模型和第二糖化判别辅助模型，第二糖化判别主模型采用第一组血糖数据、多组特征向量和标签集三进行训练，第二糖化判别辅助模型采用第二组血糖数据、多组特征向量和标签集三进行训练，第二糖化判别辅助模型在第二糖化判别主模型失效时启动。以此设置，第二糖化判别主模型和第二糖化判别辅助模型仅以不同的血糖数据进行训练，从而得到血糖粒度不同的糖化判别模型，以满足不同条件下的患者的糖化判别预测需求，避免预测系统中第二糖化判别模块失效，提高判别模型的可用性。以糖化预测模型为例进行说明，糖化预测主模型采用第一组血糖数据、多组特征向量和标签集一进行训练，则参照上述表2记录的数据形式形成训练样本，糖化预测辅助模型采用第二组血糖数据、多组特征向量和标签集一进行训练的样本数据如下表5的记录形式：

表5

姓名

餐前血糖均值

……

身高

体重

视网膜病变

糖化值

张三

……

170

50

[1，0]

7.5

同理，第一糖化判别辅助模型和第二糖化判别辅助模型的样本数据记录形式分别与表3和表4的记录形式一样，区别在于将早、中、晚餐前和餐后以及睡前等时间节点的血糖统计量替换为餐前和餐后两个时间节点的血糖统计量即可，此处不再赘述。

由于一些糖尿病患者未必按时检测，可能间隔很久才会测量一次血糖，这就导致部分糖尿病患者的血糖数据稀少，如果按照上述的早餐前后、午餐前后、晚餐前后及睡前等时间节点来划分，可能很多糖尿病患者不能满足特征构建的条件。所以，为了保证预测系统的高可用性，本发明设计了辅助模型，辅助模型对于血糖的划分只以餐前和餐后两个时间节点来区分，不区分早、午、晚这样的时间段。

主模型和辅助模型的使用时机：如果目标患者的血糖数据充足，包含早中晚及睡前各时间节点的血糖数据，则采用糖化预测主模型以及判别主模型，因为主模型参考的数据特征全面、预测和判别结果更准确。如果当前目标患者的血糖数据缺失严重，不足以构建主模型的输入特征，则触发辅助模型，虽然辅助模型的预测准确度会比主模型稍差，但是预测系统会告知，您的测量数据较少，误差可能会稍大，避免系统失效，确保高可用性。

因此，本发明通过设置糖化预测辅助模型、第一糖化判别辅助模型和第二糖化判别辅助模型分别作为糖化预测主模型、第一糖化判别主模型和第二糖化判别主模型的备用模型，提高整个系统的稳定可靠性。

进一步地，第一糖化判别主模型、第一糖化判别辅助模型、第二糖化判别主模型和第二糖化判别辅助模型均采用如下函数进行训练：

其中，y_i是临床测得的第i号样本的糖化血红蛋白真实值，并按照阈值(6.5％或9.0％)划分的标记分类(即标签集二或标签集三)，N为样本总量，x_i为第i号样本的特征向量，T为转置符，h_w(x_i)为模型的预测值，其取值范围为0～1，由公式(4)定义；

将函数(4)代入函数(3)，使用梯度下降法优化函数(3)，经过多轮迭代之后，得到使该函数取到极小值的参数W2和b2，将W2、b2保存，e为自然常数，取值为2.718；

具体地，函数(4)的形式，名为sigmoid函数，常被用作神经网络的激活函数，能将负无穷到正无穷的全体实数映射到0-1之间，通过判定计算出h_w(x_i)的取值，就能够判断出糖化预测值的取值区间概率。

下面，对h_w(x_i)的取值情况进行具体分析：

第一：当第一糖化判别模型和第二糖化判别模型计算出的h_w(x_i)均小于0.5时，则我们判定糖化预测值大于6.5％、大于等于9.0％，同大取大，即最终糖化预测值应大于等于9.0％；

第二：当第一糖化判别模型和第二糖化判别模型计算出的h_w(x_i)均大于0.5时，则我们判定糖化预测值小于等于6.5％、小于9.0％，同小取小，即最终糖化预测值应小于等于6.5％；

第三：当第一糖化判别模型计算出的h_w(x_i)小于0.5，且第二糖化判别模型计算出的h_w(x_i)大于0.5时，则需进一步判定两个模型的输出值之间的关系。如果第一糖化判别模型计算出的h_w(x_i)的值大于第二糖化判别模型计算出的(1-h_w(x_i))的值，则我们判定糖化血红蛋白值更偏向阈值6.5％；如果第一糖化判别模型计算出的h_w(x_i)的值小于第二糖化判别模型计算出的(1-h_w(x_i))的值，则我们判定糖化血红蛋白值更偏向阈值9.0％。

S5、血糖预测，将目标患者的特征向量分别输入糖化预测模型、第一糖化判别模型和第二糖化判别模型，若糖化预测模型和第一糖化判别模型得到的结果均小于等于6.5％，且第二糖化判别模型给出的判定结果小于9.0％，则得出目标患者血糖达标，身体恢复较好；若糖化预测模型和第一糖化判别模型得到的结果均大于6.5％，且第二糖化判别模型给出的判定结果小于9.0％，则得出目标患者症状轻、需继续疗养；若糖化预测模型和第二糖化判别模型得到的结果均大于等于9.0％，且第一糖化判别模型给出的判定结果大于6.5％，则得出目标患者症状重、处于高危状态、需干预治疗。

本实施例中，通过糖化预测模型、第一糖化判别模型和第二糖化判别模型三者的协同作用，来共同判定预测的糖化血红蛋白值是否准确，相较于现有采用单一的血糖预测模型来预测血糖的方式，本发明能够将患者的患病程度预测得更为准确，以便于采取不同的治疗手段，调高疗效，结果更加可靠。

进一步地，将上述糖化预测模型训练得到的参数W1、b1代入如下函数，并输入目标患者的相关数据，则得到糖化血红蛋白的预测值：

y＝W1^Tx+b1 (2)

其中，x为目标患者的特征向量，T为转置符，代表将列向量转为行向量。

具体地，下面结合糖化预测模型、第一糖化判别模型和第二糖化判别模型对预测结果可能出现的情况进行逐一分析。

A：当糖化预测模型预测出的y值小于等于6.5％，例如为4.1％或5.3％等，且第一糖化判别模型和第二糖化判别模型综合判定结果均是糖化预测值小于等于6.5％，则三者结论一致，表明该目标患者的血糖已达标，疗养效果很好；

B：当预测出目标患者的y值大于等于9.0％，例如为9.1％或11.8％等，且第一糖化判别模型和第二糖化判别模型综合判定结果均是糖化预测值大于等于9.0％，则三者结论一致，表明该目标患者的血糖很高，处于高危状态，需要及时干预治疗；

C：当预测出目标患者的y值大于6.5％且小于9.0％，例如为7.1％或6.8％等偏向阈值6.5％的取值时，且第一糖化判别模型和第二糖化判别模型综合判定出糖化血红蛋白值更偏向阈值6.5％，则三者结论一致，表明该目标患者的血糖偏高，但整体向好，继续坚持疗养；

D：当预测出目标患者的y值大于6.5％且小于9.0％，例如为8.1％或7.9％等偏向阈值9.0％的取值时，且第一糖化判别模型和第二糖化判别模型综合判定出糖化血红蛋白值更偏向阈值9.0％，则三者结论一致，表明该目标患者的血糖偏高，整体有向高处发展的趋势，需由医护人员再结合具体情况，酌情考虑是否加强照护管理。

此外，需要说明的是，一般情况下，三个模型得出的结论都是一致的，极少出现结论相悖的情况，如果出现糖化预测模型的预测值和糖化判别模型的判别值相悖的情况，比如，预测的糖化值小于等于6.5％，但是判别结果却是大于6.5％，那么这就会引起医护人员的注意，医护人员会人为关注该目标患者的具体情况，进一步判断是测量存在问题还是出现了一些特殊的血糖状况，或者是用药问题等。但如果是单预测模型，就很难发现这种特殊情况的糖尿病患者，因此本发明的多模型预测方案能够减小预测失误，更容易发现患者隐藏的健康问题，提高预测的准确性。

本实施例中，目标患者的特征向量在输入糖化预测模型、第一糖化判别模型和第二糖化判别模型之前，需要先经过步骤S2的数据预处理，再经过步骤S3中的特征构建形成特征向量，再输入预测模型和判别模型中进行预测和判定，以提高预测的准确性。

定期对诊疗数据进行更新，以实时对糖化预测模型、第一糖化判别模型和第二糖化判别模型训练更新，从而形成高可用、自更新的系统，为患者提供更好的预测服务。

当然，在其他实施例中，也可根据实际需要将第一预设值和第二预设值设置为其他具体数值，不局限于本实施例中的方案。

最后，进行系统架构。将糖化预测主模型、糖化预测辅助模型、第一糖化判别主模型、第一糖化判别辅助模型、第二糖化判别主模型和第二糖化判别辅助模型均并联至同一系统中，同时均与数据缓存更新中心连接，数据缓存更新中心起到存储和更新数据的作用，能够定期对体征和临床诊疗数据进行自采集和自更新，更新完的数据能够反哺给上述六个模型进行自训练，以及时完成模型更新，从而构建成高效、高可用、自学习的系统，为患者提供更好的预测服务。

本实施例还公开了一种测糖化血红蛋白值的预测系统，其包括数据处理模块、特征及标签构建模块、糖化预测模块、判别模块和数据缓存更新模块，其中，数据处理模块用于获取并预处理糖尿病患者的体征和临床诊疗数据，特征及标签构建模块用于进行特征构建及标签构建，糖化预测模块包括相并联的糖化预测主模型及糖化预测辅助模型，判别模块包括两两相并联的第一糖化判别主模型和第一糖化判别辅助模型、第二糖化判别主模型和第二糖化判别辅助模型，数据缓存更新模块用于缓存和更新糖尿病患者的体征和临床诊疗数据，且数据缓存更新模块与数据处理模块连接。

可选地，该系统可以是软件程序或手机APP等，本实施例不作具体限制。

本实施例还公开了一种糖化血红蛋白值的预测装置，其包括如上所述的糖化血红蛋白值的预测系统。可选地，该装置可以是手机、电脑或者其他手持移动设备。

综上，本发明实施例提供了一种糖化血红蛋白值的预测方法、系统及装置，其具备如下优势：

(1)本发明采用糖尿病人体征数据和临床诊疗数据来预测糖化血红蛋白值，辅助医护人员通过该糖化血红蛋白值，更好的监管院外糖尿病患者的血糖情况，使医护人员更稳定可靠的了解患者院外时的血糖情况，有助于治疗方案的及时调整和改进，从而提高治疗效果；

(2)采用糖化预测模型、第一糖化判别模型和第二糖化判别模型协同作用来预测糖尿病患者的血糖状况，以此对其身体健康达标情况进行详细判断，帮助预测糖尿病患者的患病程度，以便于采取不同的治疗手段，提高疗效，三个模型的协同作用提高了糖化血红蛋白值预测的准确性及可靠性。

显然，本发明的上述实施例仅仅是为了清楚说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种糖化血红蛋白值的预测方法，其特征在于，包括如下步骤：

S5、血糖预测，将目标患者的数据输入S4建立的模型内，得到血糖预测结果，并得出病症判断结果。

2.根据权利要求1所述的糖化血红蛋白值的预测方法，其特征在于，所述步骤S2包括：

S21、清洗掉体征数据内取得的血糖缺失的样本；

3.根据权利要求1或2所述的糖化血红蛋白值的预测方法，其特征在于，所述步骤S3包括：

特征构建，将S2处理后的体征数据和临床诊疗数据分为离散特征和连续特征，将离散特征转变为0-1的特征向量，并与归一化处理后的连续特征拼接成一个特征向量，以临床体检时间为节点成组统计，得到多组特征向量；

4.根据权利要求3所述的糖化血红蛋白值的预测方法，其特征在于，所述模型包括糖化预测模型、第一糖化判别模型和第二糖化判别模型。

5.根据权利要求4所述的糖化血红蛋白值的预测方法，其特征在于，糖化预测模型包括糖化预测主模型和糖化预测辅助模型，糖化预测主模型采用第一组血糖数据、多组特征向量和标签集一进行训练，糖化预测辅助模型采用第二组血糖数据、多组特征向量和标签集一进行训练，糖化预测辅助模型在糖化预测主模型失效时启动；

6.根据权利要求5所述的糖化血红蛋白值的预测方法，其特征在于，糖化预测主模型和糖化预测辅助模型均运用如下函数进行训练：

7.根据权利要求6所述的糖化血红蛋白值的预测方法，其特征在于，将W1、b1代入如下函数，则得到糖化血红蛋白的预测值：

y＝W1^Tx+b1 (2)

8.根据权利要求5所述的糖化血红蛋白值的预测方法，其特征在于，第一糖化判别主模型、第一糖化判别辅助模型、第二糖化判别主模型和第二糖化判别辅助模型均采用如下损失函数进行训练：

y_i是临床测得的第i号样本的糖化血红蛋白真实值，并按照阈值划分的标记分类(即标签集二或标签集三)，N为样本总量，x_i为第i号样本的特征向量，T为转置符，h_w(x_i)为模型的预测值，其取值范围为0～1，由公式(4)定义，e是自然常数，取值为2.718；

9.根据权利要求1、2、4-8任一项所述的糖化血红蛋白值的预测方法，其特征在于，连续特征采用如下公式进行归一化：

10.根据权利要求4所述的糖化血红蛋白值的预测方法，其特征在于，将目标患者的特征向量分别输入糖化预测模型、第一糖化判别模型和第二糖化判别模型，若糖化预测模型和第一糖化判别模型得到的结果均小于等于第一预设值，且第二糖化判别模型给出的判定结果小于第二预设值，则得出目标患者血糖达标；若糖化预测模型和第一糖化判别模型得到的结果均大于第一预设值，且第二糖化判别模型给出的判定结果小于第二预设值，则得出目标患者症状轻；若糖化预测模型和第二糖化判别模型得到的结果均大于等于第二预设值，且第一糖化判别模型给出的判定结果大于第一预设值，则得出目标患者症状重。

11.根据权利要求1、2、4-8、10任一项所述的糖化血红蛋白值的预测方法，其特征在于，定期对体征和临床诊疗数据进行更新，以实时对糖化预测模型、第一糖化判别模型和第二糖化判别模型进行训练更新。

12.一种糖化血红蛋白值的预测系统，其特征在于，包括：

数据处理模块，用于获取并预处理糖尿病患者的体征数据和临床诊疗数据；

特征及标签构建模块，用于进行特征构建及标签构建；

13.一种糖化血红蛋白值的预测装置，其特征在于，包括如权利要求12所述的糖化血红蛋白值的预测系统。