CN112117004A

CN112117004A - 一种基于多源医学数据的糖尿病风险预测模型

Info

Publication number: CN112117004A
Application number: CN202010986563.8A
Authority: CN
Inventors: 卜晓军; 姚斌; 马汝辉
Original assignee: Beijing Haoyun Information Technology Co ltd; Qingshu Health Medical Data Research Institute Nanjing Co ltd
Current assignee: Beijing Haoyun Information Technology Co ltd; Qingshu Health Medical Data Research Institute Nanjing Co ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2020-12-22

Abstract

本发明公开了一种基于多源医学数据的糖尿病风险预测模型，具体涉及糖尿病风险预测技术领域，包括以下步骤：步骤一、多源数据采集；步骤二、数据处理；步骤三、模型建立；步骤四、模型验证；步骤五、根据风险预测模型对糖尿病风险进行分析。本发明通过进行多来源数据采集，有利于根据不同国家不同地区的数据建立风险预测模型，使得预测结果更加具有广泛性，同时通过采集人群不同指标数据，能够使得模型从多方面进行糖尿病风险的预测，使得预测数据更加准确合理，通过对糖尿病风险进行预测，能够针对具有潜在患病风险的高危人群给予合理的健康建议，有利降低高危人群的患病风险，进而有利于减缓糖尿病患者的增长速度。

Description

一种基于多源医学数据的糖尿病风险预测模型

技术领域

本发明实施例涉及糖尿病风险预测技术领域，具体涉及一种基于多源医学数据的糖尿病风险预测模型。

背景技术

糖尿病是一组以高血糖为特征的代谢性疾病，高血糖则是由于胰岛素分泌缺陷或其生物作用受损，或两者兼有引起，长期存在的高血糖，导致各种组织，特别是眼、肾、心脏、血管、神经的慢性损害、功能障碍。糖尿病的病理原因主要包含两种情况，第一种是当胰腺无法产生充足的胰岛素(一种调节血糖或血葡萄糖的荷尔蒙)时引发的1型糖尿病(TID)，第二种是当所产生的胰岛素无法被人体有效地利用时引发的2型糖尿病(T2D)。TID通常被称为原发性糖尿病3，这种糖尿病类型的发病机制通常是当胰腺中进行胰岛素分泌的β细胞受到损伤时，人体在短时间内没有充足的胰岛素供使用，从而导致血糖含量无法被及时降低至安全区间内，该过程也称作是胰岛β细胞的郎格罕氏胰岛自身免疫性破坏。另一种更为常见的糖尿病类型的医学名称是非胰岛素依赖型糖尿病，简称T2D，该类糖尿病通常由胰岛素抵抗或者是胰岛素分泌缺陷等因素引起，造成高血糖的直接原因是身体内的胰岛素没能得到有效利用。而引发2型糖尿病的主要原因通常包括生活方式、身体活动、饮食习惯和遗传等因素。

基于糖尿病患病人群数量庞大且不断增长的趋势，高危人群对自身健康质量普遍不了解的情况，以及为了能够有效的减缓患者的增长速度、降低患病风险，有必要发明一种基于多源医学数据的糖尿病风险预测模型。

发明内容

为此，本发明实施例提供一种基于多源医学数据的糖尿病风险预测模型，通过进行多来源数据采集，有利于根据不同国家不同地区的数据建立风险预测模型，使得预测结果更加具有广泛性，同时通过采集人群不同指标数据，能够使得模型从性别、年龄、妊娠、遗传、健康等多方面进行糖尿病风险的预测，使得预测数据更加准确合理，通过对糖尿病风险进行预测，能够针对具有潜在患病风险的高危人群给予合理的健康建议，有利降低高危人群的患病风险，进而有利于减缓糖尿病患者的增长速度。

为了实现上述目的，本发明实施例提供如下技术方案：一种基于多源医学数据的糖尿病风险预测模型，包括以下步骤：

步骤一、多源数据采集：

对不同地区采用问卷调查；

采集国内已有的临床糖尿病患者数据集；

采集国外已有的临床糖尿病患者数据集；

步骤二、数据处理：

数据筛选：将采集的数据中明显不合理以及无效的数据筛除，而后将体质指数、睡眠时间、饮食习惯、每天运动时间、空腹血糖值、餐后血糖值、血脂值和耐糖量试验值等数据采用同一度量单位、同一格式进行标准化，对于缺失的数据采用平均值进行填补；

数据分类：将筛选后的数据按照性别、年龄、是否怀孕、直系亲属中是否有糖尿病患者进行分类；

步骤三、模型建立：使用卷积神经网络建立风险预测模型；

步骤四、模型验证；

步骤五、根据风险预测模型对糖尿病风险进行分析。

进一步地，在步骤一中问卷调查的内容包括性别、年龄、是否怀孕、直系亲属中是否有糖尿病患者、体质指数、睡眠时间、饮食习惯、每天运动时间、空腹血糖值、餐后血糖值、血脂值和耐糖量试验值。

进一步地，在步骤三中所述卷积神经网络的网络结构为卷积层与池化层交替连接，起到特征提取的作用，然后将学习到的特征输入到随后的全连接层，在全连接层采用了Dropout层以防止过拟合，最后是Softmax分类器，根据最后的特征预测分类，三维卷积运算公式为：

其中，

表示l层中在三维的容积空间

进行卷积的核，

表示卷积核中的每个体素的权值,对应的特征空间节点的输出值为

进一步地，在步骤三中模型建立方法为：将同一种类的数据为基本单元随机分成相同的十份，然后将其中的一组放进测试组，其余九组放进训练组，将训练组的数据根据序列中的顺序存放在一个三维矩阵中，作为卷积神经网络的输入数据，训练组由卷积神经网络训练出用于预测结果的模型参数，得到风险预测模型，然后将测试组数据输入到预测模型，最后输入预测的结果，而后再将剩下种类的数据各自随机分成相同的十份，依次使用卷积神经网络训练出用于模型参数，而后得到各自种类数据的风险预测模型。

进一步地，在步骤四中采用国内外已有的临床糖尿病患者数据集对建立的风险预测模型进行验证，选取结果最为准确的预测模型作为最终的风险预测模型。

本发明实施例具有如下优点：

1、本发明通过对不同地区、国内以及国外进行多来源数据的采集，有利于根据不同国家不同地区的数据建立风险预测模型，从而针对不同国家不同地区进行糖尿病风险的预测，使得预测结果更加具有广泛性，同时通过采集人群的性别、年龄、是否怀孕、直系亲属中是否有糖尿病患者、体质指数、睡眠时间、饮食习惯、每天运动时间、空腹血糖值、餐后血糖值、血脂值和耐糖量试验值等不同指标，能够使得模型从性别、年龄、妊娠、遗传、健康等多方面进行糖尿病风险的预测，使得预测数据更加准确合理；

2、本发明通过对糖尿病风险进行预测，能够针对具有潜在患病风险的高危人群给予合理的健康建议，有利降低高危人群的患病风险，进而有利于减缓糖尿病患者的增长速度。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

本发明提供一种基于多源医学数据的糖尿病风险预测模型，包括以下步骤：

步骤一、多源数据采集：

对不同地区采用问卷调查，包括性别、年龄、是否怀孕、直系亲属中是否有糖尿病患者、体质指数、睡眠时间、饮食习惯、每天运动时间、空腹血糖值、餐后血糖值、血脂值和耐糖量试验值；

采集国内已有的临床糖尿病患者数据集；

采集国外已有的临床糖尿病患者数据集；

步骤二、数据处理：

步骤三、模型建立：使用卷积神经网络建立风险预测模型，所述卷积神经网络的网络结构为卷积层与池化层交替连接，起到特征提取的作用，然后将学习到的特征输入到随后的全连接层，在全连接层采用了Dropout层以防止过拟合，最后是Softmax分类器，根据最后的特征预测分类，三维卷积运算公式为：

其中，

表示l层中在三维的容积空间

进行卷积的核，

建立方法为：将同一种类的数据为基本单元随机分成相同的十份，然后将其中的一组放进测试组，其余九组放进训练组，将训练组的数据根据序列中的顺序存放在一个三维矩阵中，作为卷积神经网络的输入数据，训练组由卷积神经网络训练出用于预测结果的模型参数，得到风险预测模型，然后将测试组数据输入到预测模型，最后输入预测的结果，而后再将剩下种类的数据各自随机分成相同的十份，依次使用卷积神经网络训练出用于模型参数，而后得到各自种类数据的风险预测模型；

步骤四、模型验证：采用国内外已有的临床糖尿病患者数据集对建立的风险预测模型进行验证，选取结果最为准确的预测模型作为最终的风险预测模型；

步骤五、根据模型对糖尿病风险分析。

实施例2：

步骤一：对北京的朝阳区的人群采用问卷调查，包括性别、年龄、是否怀孕、直系亲属中是否有糖尿病患者、体质指数、睡眠时间、饮食习惯、每天运动时间、空腹血糖值、餐后血糖值、血脂值和耐糖量试验值，得到北京朝阳区500份数据；

步骤二、数据处理：

数据筛选：将采集的数据中明显不合理以及无效的数据筛除，比如餐后血糖值、血脂值明显为零等不合理的数据，而后将体质指数、睡眠时间、饮食习惯、每天运动时间、空腹血糖值、餐后血糖值、血脂值和耐糖量试验值等数据采用同一度量单位、同一格式进行标准化，对于缺失的数据采用平均值进行填补，比如睡眠时间缺失的填补为平均的每天八小时，筛选得345份数据；

其中，

表示l层中在三维的容积空间

进行卷积的核，

建立方法为：将345份数据为基本单元随机分成相同的十份，然后将其中的一组放进测试组，其余九组放进训练组，将训练组的数据根据序列中的顺序存放在一个三维矩阵中，作为卷积神经网络的输入数据，训练组由卷积神经网络训练出用于预测结果的模型参数，得到风险预测模型，然后将测试组数据输入到预测模型，最后输入预测的结果。

实施例3：

步骤一：对北京的丰台区的人群采用问卷调查，包括性别、年龄、是否怀孕、直系亲属中是否有糖尿病患者、体质指数、睡眠时间、饮食习惯、每天运动时间、空腹血糖值、餐后血糖值、血脂值和耐糖量试验值，得到北京丰台区500份数据；

步骤二、数据处理：

数据筛选：将采集的数据中明显不合理以及无效的数据筛除，比如餐后血糖值、血脂值明显为零等不合理的数据，而后将体质指数、睡眠时间、饮食习惯、每天运动时间、空腹血糖值、餐后血糖值、血脂值和耐糖量试验值等数据采用同一度量单位、同一格式进行标准化，对于缺失的数据采用平均值进行填补，比如睡眠时间缺失的填补为平均的每天八小时，筛选得313份数据；

其中，

表示l层中在三维的容积空间

进行卷积的核，

建立方法为：将313份数据为基本单元随机分成相同的十份，然后将其中的一组放进测试组，其余九组放进训练组，将训练组的数据根据序列中的顺序存放在一个三维矩阵中，作为卷积神经网络的输入数据，训练组由卷积神经网络训练出用于预测结果的模型参数，得到风险预测模型，然后将测试组数据输入到预测模型，最后输入预测的结果。

实施例4：

步骤一：对上海黄浦区的人群采用问卷调查，包括性别、年龄、是否怀孕、直系亲属中是否有糖尿病患者、体质指数、睡眠时间、饮食习惯、每天运动时间、空腹血糖值、餐后血糖值、血脂值和耐糖量试验值，得到上海黄浦区500份数据；

步骤二、数据处理：

数据筛选：将采集的数据中明显不合理以及无效的数据筛除，比如餐后血糖值、血脂值明显为零等不合理的数据，而后将体质指数、睡眠时间、饮食习惯、每天运动时间、空腹血糖值、餐后血糖值、血脂值和耐糖量试验值等数据采用同一度量单位、同一格式进行标准化，对于缺失的数据采用平均值进行填补，比如睡眠时间缺失的填补为平均的每天八小时，筛选得289份数据；

其中，

表示l层中在三维的容积空间

进行卷积的核，

建立方法为：将289份数据为基本单元随机分成相同的十份，然后将其中的一组放进测试组，其余九组放进训练组，将训练组的数据根据序列中的顺序存放在一个三维矩阵中，作为卷积神经网络的输入数据，训练组由卷积神经网络训练出用于预测结果的模型参数，得到风险预测模型，然后将测试组数据输入到预测模型，最后输入预测的结果。

实施例5：

采集国内已有的临床糖尿病患者数据集：瑞金医院糖尿病数据集，采集国外已有的临床糖尿病患者数据集：皮马人糖尿病数据集，用于对实施例2-4风险预测模型进行验证，选取结果最为准确的预测模型作为最终的风险预测模型；

综合糖尿病风险评估数据得到下表：：

由上表可知，患糖尿病风险较高的人群集中在有：年龄大于45岁且每天运动时间低于30分钟的人、有糖耐量异常的、空腹血糖调节受损的人、有糖尿病家族遗传病史的人、有糖尿病家族遗传病史的人、体质指数大于25的人等，对于这些具有潜在患病风险的高危人群给予合理的健康建议，有利降低高危人群的患病风险，进而有利于减缓糖尿病患者的增长速度。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于多源医学数据的糖尿病风险预测模型，其特征在于：包括以下步骤：

步骤一、多源数据采集：

对不同地区采用问卷调查；

采集国内已有的临床糖尿病患者数据集；

采集国外已有的临床糖尿病患者数据集；

步骤二、数据处理：

步骤三、模型建立：使用卷积神经网络建立风险预测模型；

步骤四、模型验证；

步骤五、根据风险预测模型对糖尿病风险进行分析。

2.根据权利要求1所述的一种基于多源医学数据的糖尿病风险预测模型，其特征在于：在步骤一中问卷调查的内容包括性别、年龄、是否怀孕、直系亲属中是否有糖尿病患者、体质指数、睡眠时间、饮食习惯、每天运动时间、空腹血糖值、餐后血糖值、血脂值和耐糖量试验值。

3.根据权利要求1所述的一种基于多源医学数据的糖尿病风险预测模型，其特征在于：在步骤三中所述卷积神经网络的网络结构为卷积层与池化层交替连接，起到特征提取的作用，然后将学习到的特征输入到随后的全连接层，在全连接层采用了Dropout层以防止过拟合，最后是Softmax分类器，根据最后的特征预测分类，三维卷积运算公式为：

其中，

表示l层中在三维的容积空间

进行卷积的核，

4.根据权利要求1所述的一种基于多源医学数据的糖尿病风险预测模型，其特征在于：在步骤三中模型建立方法为：将同一种类的数据为基本单元随机分成相同的十份，然后将其中的一组放进测试组，其余九组放进训练组，将训练组的数据根据序列中的顺序存放在一个三维矩阵中，作为卷积神经网络的输入数据，训练组由卷积神经网络训练出用于预测结果的模型参数，得到风险预测模型，然后将测试组数据输入到预测模型，最后输入预测的结果，而后再将剩下种类的数据各自随机分成相同的十份，依次使用卷积神经网络训练出用于模型参数，而后得到各自种类数据的风险预测模型。

5.根据权利要求1所述的一种基于多源医学数据的糖尿病风险预测模型，其特征在于：在步骤四中采用国内外已有的临床糖尿病患者数据集对建立的风险预测模型进行验证，选取结果最为准确的预测模型作为最终的风险预测模型。