CN110197724A - 预测糖尿病患病阶段的方法、装置及计算机设备 - Google Patents

预测糖尿病患病阶段的方法、装置及计算机设备 Download PDF

Info

Publication number
CN110197724A
CN110197724A CN201910185059.5A CN201910185059A CN110197724A CN 110197724 A CN110197724 A CN 110197724A CN 201910185059 A CN201910185059 A CN 201910185059A CN 110197724 A CN110197724 A CN 110197724A
Authority
CN
China
Prior art keywords
diabetes
data
disaggregated models
illness
target user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910185059.5A
Other languages
English (en)
Inventor
金晓辉
阮晓雯
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910185059.5A priority Critical patent/CN110197724A/zh
Publication of CN110197724A publication Critical patent/CN110197724A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Abstract

本申请公开了一种预测糖尿病患病阶段的方法、装置及计算机设备,涉及计算机技术领域,能有效解决现有技术中只能判断用户是否患糖尿病,却无法判断其患病的严重程度的问题,其中方法包括:获取原始健康档案和电子病历数据中的样本用户数据;根据所述样本用户数据中的用户特征创建糖尿病多分类模型;利用所述糖尿病多分类模型判断目标用户的糖尿病患病类型;根据所述糖尿病患病类型确定所述目标用户的糖尿病患病阶段。本申请适用于对糖尿病患病阶段的预测。

Description

预测糖尿病患病阶段的方法、装置及计算机设备
技术领域
本申请涉及计算机技术领域,尤其涉及到一种预测糖尿病患病阶段的方法、装置及计算机设备。
背景技术
糖尿病是一组以高血糖为特征的代谢性疾病,发病时会导致大血管、微血管受损并危及心、脑、肾、周围神经、眼睛、足等多个部位,还会伴有多种并发症,故加强糖尿病的预测工作是完全必要的。然而随着科技的进步,病种的诊断已经不局限于医生的分析,利用人工智能来预测糖尿病,才是符合如今的发展潮流。
目前业内对于糖尿病预测的常见方法是通过收集糖尿病医案,将糖尿病患者数据与健康人群数据进行对比,构建0-1分类模型,通过患者的各类特征维度数据,判断用户是否患糖尿病。
然而现有的糖尿病的预测方法只能判断用户是否患糖尿病,却无法判断出用户是否处于健康和患糖尿病之间的过渡阶段,使诊断结果不够完善,不能准确诊断出糖尿病患病阶段,可能会导致错过治疗的黄金时间,进而不能对糖尿病进行及时有效的控制。
发明内容
有鉴于此,本申请提供了一种预测糖尿病患病阶段的方法、装置及计算机设备,主要目的在于解决当利用构建的0-1分类模型进行糖尿病的预测时,只能判断用户是否患糖尿病,却无法判断其所处的患病阶段,进而导致诊断结果不够完善的问题。
根据本申请的一个方面,提供了一种预测糖尿病患病阶段的方法,该方法包括:
获取原始健康档案和电子病历数据中的样本用户数据;
根据所述样本用户数据中的用户特征创建糖尿病多分类模型;
利用所述糖尿病多分类模型判断目标用户的糖尿病患病类型;
根据所述糖尿病患病类型确定所述目标用户的糖尿病患病阶段。
根据本申请的另一个方面,提供了一种预测糖尿病患病阶段的装置,该装置包括:
获取模块,用于获取原始健康档案和电子病历数据中的样本用户数据;
创建模块,用于根据所述样本用户数据中的用户特征创建糖尿病多分类模型;
判断模块,用于利用所述糖尿病多分类模型判断目标用户的糖尿病患病类型;
确定模块,用于根据所述糖尿病患病类型确定所述目标用户的糖尿病患病阶段。
根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述预测糖尿病患病阶段的方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述预测糖尿病患病阶段的方法。
借由上述技术方案,本申请提供的一种预测糖尿病患病阶段的方法及装置、存储介质、计算机设备,与目前利用构建的0-1分类模型预测糖尿病的方法相比,本申请在现有的糖尿病预测模型的基础上,增加了糖尿病多分类模型,可利用糖尿病多分类模型判断出目标用户的糖尿病患病类型,根据糖尿病患病类型可判断出目标用户是否患病,并且还能进一步判断出已患病目标用户所处的糖尿病患病阶段,使诊断结果覆盖信息更加充分,能够为患者及医生提供更好的治疗依据。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种预测糖尿病患病阶段的方法的流程示意图;
图2示出了本申请实施例提供的另一种预测糖尿病患病阶段的方法的流程示意图;
图3示出了本申请实施例提供的一种预测糖尿病患病阶段的装置的结构示意图;
图4示出了本申请实施例提供的另一种预测糖尿病患病阶段的装置的结构示意图。
具体实施方式
下文中将参考实施例并结合附图来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前利用构建的0-1分类模型来对糖尿病进行预测时,无法根据用户数据判断出糖尿病患病阶段的问题,本实施例提供了一种预测糖尿病患病阶段的方法,如图1所示,该方法包括:
101、获取原始健康档案和电子病历数据中的样本用户数据。
其中,样本用户数据可包括患者就诊数据、体检指标数据和健康告知数据等,就诊数据又包括门诊、住院和用药数据等。
102、根据样本用户数据中的用户特征创建糖尿病多分类模型。
其中,用户特征可包括用户基础信息、患病史、血糖、血压、皮脂厚度、胰岛素、BMI身体质量指数、糖尿病遗传信息、年龄、诊断结果、住院信息、用药信息等特征维度数据。
糖尿病多分类模型是通过对样本用户数据的特征维度学习,预测判断待测用户是否患某一类糖尿病或处在某一过渡阶段。在本实施例中,糖尿病多分类模型可基于决策树的框架模型构建得到。决策树是属于机器学习监督学习分类算法中比较简单的一种,决策树是预测模型;它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。决策树算法有ID3,C4.5,CART算法,共同点为都是贪心算法,区别为度量方式不同,就比如ID3使用了信息获取量作为度量方式,而C4.5使用最大增益率。
通过创建得到的糖尿病多分类模型可以很好的反应出不同血压、皮脂厚度、胰岛素、BMI身体质量指数、糖尿病遗传信息、年龄、诊断结果等的样本用户分别对应的糖尿病患病类型。
103、利用糖尿病多分类模型判断目标用户的糖尿病患病类型。
其中,目标用户为需要进行糖尿病病情预测的用户;糖尿病患病类型可包括:正常人群、I型糖尿病患者、II型糖尿病患者、空腹血糖损害人群、糖耐量减低人群等。
对于本实施例,基于不同特征的样本用户反应出的糖尿病患病类型,将目标用户的特征与样本用户的特征进行匹配,找到匹配样本用户特征对应的糖尿病患病类型。
104、根据糖尿病患病类型确定目标用户的糖尿病患病阶段。
在具体的应用场景中,可根据目标用户得出的糖尿病患病类型,按照预定关系,判断出目标用户是否正常或处于的患病阶段,进而为用户提供更为精确的诊断结果。
通过上述预测糖尿病患病阶段的方法,可以根据样本用户数据中的用户特征创建糖尿病多分类模型,利用糖尿病多分类模型判断出目标用户糖尿病患病类型,并根据糖尿病患病类型以及对应糖尿病患病阶段的映射关系,确定出目标用户是否患病以及所处的患病阶段,从而使病情诊断结果更为精准,诊断内容更加完善,便于根据糖尿病的不同发展程度进行及时有效的配套治疗,对糖尿病进行及时有效的控制。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本申请实施例中的具体实施过程,提供了另一种预测糖尿病患病阶段的方法,如图2所示,该方法包括:
201、获取原始健康档案和电子病历数据中的样本用户数据。
例如,在原始健康档案和电子病历数据中共获取多项用户特征完整的样本用户数据。
202、利用正则表达式从样本用户数据中提取用户特征,并将用户特征中糖尿病患病类型作为标签信息Y,以及将样本用户的目标特征数据作为特征信息X,创建模型训练集。
其中,目标特征数据至少包括样本用户的用户基础数据、就诊数据、体检数据、健康告知数据中的一项或多项。例如可包括样本用户的年龄、性别、身高体重、就诊内容、用药情况、健康告知等相关信息。
在本实施例中,可利用正则表达式提取样本用户数据中的糖尿病患病类型。具体的,事先统计不同疾病描述分别对应的国际ICD10编码,并且按照国际ICD10编码划分所属的糖尿病患病类型,如表1(I型糖尿病)和表2(II 型糖尿病)所示。
疾病名称 国际ICD编码
胰岛素依赖型糖尿病 E10.901
胰岛素依赖Ⅰ型糖尿病 E10.951
脆弱型糖尿病 E10.952
幼年型糖尿病 E10.953
趋酮症性糖尿病 E10.954
表1
表2
然后基于上述事先统计的内容,在获取得到样本用户数据后,从这些样本用户数据中通过正则表达式(事先按照疾病描述内容定义好的特定字符组合)匹配样本用户数据中的文本。例如,从样本用户A的就诊内容中匹配到疾病描述为“胰岛素依赖型糖尿病”、“I型糖尿病”、“幼年型糖尿病”等,通过表1中可查询到相应的国际ICD10编码为“E10.901”、“E10.951”、“E10.953”等。这三个国际ICD10编码隶属于I型糖尿病的糖尿病患病类型,因此,可将样本用户A的用户数据中用户基础数据、就诊数据、体检数据、健康告知数据等作为特征信息X,并将“I型糖尿病”作为与该特征信息X对应的标签信息Y,在模型训练集中保存二者即二者之间的映射关系。
在本实施例中,还可通过样本用户数据中的空腹血糖值、餐后2小时血糖、胰岛素分泌情况、年龄等特征判定糖尿病患病类型。例如,从样本用户B 的体检数据中匹配到空腹血糖≥7.0mmol/L且餐后2小时血糖≥11.1mmol/L,那么可确定样本用户B属于I型糖尿病患者或II型糖尿病患者;从样本用户 B的体检数据和就诊数据中匹配胰岛素分泌值、年龄等情况,依据样本用户的胰岛素分泌值所处的范围、年龄所处的年龄段,确定样本用户B具体是I 型糖尿病还是II型糖尿病,如果是I型糖尿病,将样本用户B的用户数据中用户基础数据、就诊数据、体检数据、健康告知数据等作为特征信息X,并将“I型糖尿病”作为与该特征信息X对应的标签信息Y;如果是II型糖尿病,将样本用户B的用户数据中用户基础数据、就诊数据、体检数据、健康告知数据等作为特征信息X,并将“II型糖尿病”作为与该特征信息X对应的标签信息Y。
再例如,对于空腹血糖损害、糖耐量减低两种糖尿病患病类型,如果从样本用户C的体检数据中匹配到单项空腹血糖值在6.1mmol/L~7.0mmol/L,则可确定为空腹血糖损害,将样本用户C的用户数据中用户基础数据、就诊数据、体检数据、健康告知数据等作为特征信息X,并将“空腹血糖损害”作为与该特征信息X对应的标签信息Y;如果从样本用户D的体检数据中匹配到单项餐后血糖值在6.1mmol/L~7.0mmol/L,则可确定为糖耐量减低,将样本用户D的用户数据中用户基础数据、就诊数据、体检数据、健康告知数据等作为特征信息X,并将“糖耐量减低”作为与该特征信息X对应的标签信息Y。
203、通过模型训练集基于LightGBM算法训练得到糖尿病多分类模型。
其中,利用糖尿病多分类模型对应的F1值指标确定糖尿病多分类模型是否符合评估标准,通过符合评估标准的糖尿病多分类模型可确定特征信息X 和标签信息Y之间的映射关系。
为了说明糖尿病多分类模型的标准评估过程,作为一种可选方式,上述利用糖尿病多分类模型对应的F1值指标确定糖尿病多分类模型是否符合评估标准的过程,具体可包括:将糖尿病多分类模型正确识别的个体总数除以识别的个体总数,得到糖尿病多分类模型对应的准确率;将糖尿病多分类模型正确识别的个体总数除以测试集中存在的个体总数,得到糖尿病多分类模型对应的召回率;然后利用预设公式F1值=准确率*召回率*2/(正确率+召回率),计算得到糖尿病多分类模型对应的F1值;若该F1值大于预设阈值,则确定糖尿病多分类模型评估通过;若该F1值小于预设阈值,则确定糖尿病多分类模型评估不通过。
例如,测试集中包含150个测试用例,设定的预设阈值为90%,利用糖尿病多分类模型对这150个测试用例进行测试,如果识别出145个,且正确识别的数量为140个,则可得出:准确率=140/145=96.6%:召回率=140/150=93.3%;F1=96.6%*96.7%*2/(96.6%+96.7%)=94.9%,因为求取的 F1值大于预设阈值,故可判定此糖尿病多分类模型通过评估,准确性已达到预设标准,可对目标用户进行糖尿病患病阶段的预测。通过符合评估标准的糖尿病多分类模型进行预测,可保证预测结果的准确性。
为了说明具体的训练过程,作为一种可选方式,步骤203具体可包括:将模型训练集划分为多个子训练集;首先利用每个子训练集基于决策树算法训练得到各自对应的基分类器;再将各个基分类器进行加权融合,得到经过一轮训练得到的糖尿病多分类模型;若根据F1值指标确定经过一轮训练得到的糖尿病多分类模型不符合评估标准,则依据各个基分类器对应的误差率,调整基分类器各自对应的权重,并重新执行划分模型训练集和继续训练基分类器的步骤,直至基分类器利用每次调整后的权重加权融合得到的糖尿病多分类模型符合标准。
例如,预先配置五个糖尿病患病类型各自对应的参考值,如正常人群对应0,空腹血糖损害人群和糖耐量减低人群分别对应1,I型糖尿病患者对应2, II型糖尿病患者对应3。将模型训练集划分为三个子训练集,利用这三个子训练集通过现有的ID3,C4.5,CART决策树算法训练得到三个基分类器,这三个基分类器的初始权重各自设置为1/3,将这三个基分类器进行加权融合,即将基分类器的分类结果进行加权运算,得到的值作为糖尿病多分类模型经过一轮训练得到的预测结果(将三个分类结果乘以各自对应的权重,然后相加求和,将得到的和值与上述哪个糖尿病患病类型对应的参考值最接近,最后将最接近的糖尿病患病类型作为预测结果,如果最接近1,那么可判定为空腹血糖损害人群和/或糖耐量减低人群),然后计算该糖尿病多分类模型的F1值,如果F1值大于预设阈值,则将该模型作为最终训练得到的糖尿病多分类模型。
如果F1值小于预设阈值,则按照下面过程执行:
1)依据各个基分类器对应的误差率,调整三个基分类器各自对应的权重。其中,在通过基分类器基于测试集进行测试时,将测试用例对应的平均误差率作为该基分类器对应的误差率。
利用公式计算基分类器对应的新权重。其中,wm+1,i为基分类器i本次需要设置的新权重,wm,i为基分类器i上一次设置的权重,em为基分类器i的误差率,Q为基分类器的个数,j对应测试集中的用例,yij为测试集中用例j的真实值,Gm(xij)为基分类器i对用例j的预测值,n为测试集中的用例个数。
2)将模型训练集重新划分为三个新子训练集,利用这三个新子训练集对这三个基分类器继续进行训练,然后将最新训练后得到的三个基分类器进行加权融合,即将基分类器的分类结果利用各自对应的新权重进行加权运算,得到的值作为糖尿病多分类模型经过再一轮训练得到的预测结果。如果新训练得到的糖尿病多分类模型的F1值仍不符合评估标准,那么重复执行1)和2) 中的步骤,直至最新训练得到的糖尿病多分类模型的F1值符合评估标准,则停止训练。
204、将目标用户的特征信息输入到糖尿病多分类模型中与特征信息X进行相似度匹配。
其中,目标用户的特征信息对应目标特征数据,即目标用户的特征信息至少包括目标用户的用户基础数据、就诊数据、体检数据、健康告知数据中的一项或多项。
作为一种可选方式,步骤204具体可包括:将目标用户的特征信息经过数据清洗、特征提取、缺失值填充、异常值处理,得到结构化数据的特征信息;将结构化数据的特征信息与所述特征信息X进行相似度匹配。
由于目标用户的特征信息有时是包含无用数据、和/或存在缺失值、和/ 或存在异常值的,即不适合利用糖尿病多分类模型直接进行预测的非结构化数据。因此,首先可对目标用户的特征信息进行数据清洗,清除无用数据(如去除用户现住处所在地、户口所在地等数据,只保留患病史数据、住院数据、就诊用药数据、体检数据、健康告知数据等);再对保留的数据进行特征提取 (如提取患病史数据、住院数据、就诊用药数据、体检数据、健康告知数据等);如果提取的特征数据中存在缺失值时可利用0值进行填充(如用户体检数据中身高和体重一项空缺,可利用0值填充,这样后续与模型中特征信息X 匹配时保证具有可比性,避免特征匹配时产生无法匹配的错误);如果提取的特征数据中存在异常值可参考实际情况进行修正处理(如住院时长一项为 99999天,明显存在异常,可进一步通过住院开始时间和结束时间计算正确的住院时长,然后进行修改处理)。
通过本可选方式中的数据清洗、特征提取、缺失值填充、异常值处理等一系列处理,可保证得到与糖尿病多分类模型中特征信息匹配时具有可比性的结构化数据,避免特征匹配时产生无法匹配的错误,去除异常值,提高特征匹配的精确度。
205、利用相似度大于预设相似度阈值、且相似度最高的特征信息X和所述映射关系,确定目标用户对应的糖尿病患病类型。
其中,相似度阈值可根据实际需求预先设置。例如,相似度阈值设置得越大,相应的特征匹配精度越高,如果相似度为100%,则说明特征完全匹配。
例如,基于步骤203中的实例,最终训练得到的糖尿病多分类模型包含三个分类器,分别为分类器1、2、3。其中,特征信息X中包含分类器1对应的特征信息X1、分类器2对应的特征信息X2、分类器3对应的特征信息 X3,标签信息Y中包含分类器1对应的标签信息Y1、分类器2对应的标签信息Y2、分类器3对应的标签信息Y3,特征信息X1与标签信息Y1对应、特征信息X2与标签信息Y2对应、特征信息X3与标签信息Y3对应。将目标用户的用户特征输入到这三个分类器中,分别与特征信息X1、特征信息X2、特征信息X3进行相似度匹配。三次匹配过程都可设置各自对应的相似度阈值。获取与相似度大于预设相似度阈值、且相似度最高的特征信息X1对应的目标标签信息Y1;获取与相似度大于预设相似度阈值、且相似度最高的特征信息 X2对应的目标标签信息Y2;获取与相似度大于预设相似度阈值、且相似度最高的特征信息X3对应的目标标签信息Y3;最后将Y1、Y2、Y3分别乘以各自对应的最新权重,然后相加求和。如果和值与参考值0最接近,那么目标用户对应的糖尿病患病类型为正常人群;如果和值与参考值1最接近,那么目标用户对应的糖尿病患病类型为空腹血糖损害人群和/或糖耐量减低人群;如果和值与参考值2最接近,那么目标用户对应的糖尿病患病类型为I型糖尿病患者;如果和值与参考值3最接近,那么目标用户对应的糖尿病患病类型为II型糖尿病患者。
206、根据糖尿病患病类型确定目标用户的糖尿病患病阶段。
作为一种可选方式,步骤206具体可包括:若判定目标用户对应的糖尿病患病类型为正常人群,则确定目标用户未患糖尿病;若目标用户对应的糖尿病患病类型为I型糖尿病患者或II型糖尿病患者,则确定目标用户已患糖尿病;若判定目标用户对应的糖尿病患病类型为空腹血糖损害人群和/或糖耐量减低人群,则确定目标用户处于健康和患糖尿病之间的过渡阶段。
在具体的应用场景中,可提前制定糖尿病患病阶段的划分规则,按照划分规则确定五种糖尿病患病类型分别对应处于的患病阶段,并建立所处患病阶段的映射关系,根据目标用户的糖尿病患病类型以及所处患病阶段的映射关系,即判断出目标用户的患病阶段。
例如,设定划分规则为正常人群对应的患病情况为未患病人群;1型糖尿病患者和2型糖尿病患者对应已患糖尿病人群;空腹血糖损害人群和/或糖耐量减低人群对应糖尿病欲患病人群,并分别建立映射关系。若判定目标用户的患病类型未空腹血糖损害人群,则可根据空腹血糖损害人群与对应患病阶段的映射关系,最终确定目标用户所处的阶段为健康和患糖尿病之间的过渡阶段,还未患病,但存在糖尿病患病趋势,患者应引起重视,并采取相应措施加以控制,避免患上糖尿病。
通过上述预测糖尿病患病阶段的方法,将传统二分类模型改进为多分类模型,涵盖了多种糖尿病类型及多种阶段,可以通过对模型训练集进行训练,确定特征信息和标签信息之间的映射关系,将目标用户的结构化数据与糖尿病多分类模型进行匹配,进而通过映射关系确定目标用户的患病类型,并通过患病类型与患病阶段间的映射关系确定目标用户的糖尿病所处的患病阶段,从糖尿病确诊指标出发,相比于传统是否患病的二分类模型,不但能预测用户是否患病,还能判断出糖尿病所处的患病阶段,进而确定目标用户的患病程度,使诊断结果更加完善,覆盖类型更全面,可为患者及医生提供更好的治疗依据。
进一步的,作为图1和图2所示方法的具体体现,本申请实施例提供了一种预测糖尿病患病阶段的装置,如图3所示,该装置包括:获取模块31、创建模块32、判断模块33、确定模块34。
获取模块31,可用于获取原始健康档案和电子病历数据中的样本用户数据;
创建模块32,可用于根据所述样本用户数据中的用户特征创建糖尿病多分类模型;
判断模块33,可用于利用所述糖尿病多分类模型判断目标用户的糖尿病患病类型;
确定模块34,可用于根据所述糖尿病患病类型确定所述目标用户的糖尿病患病阶段。
在具体的应用场景中,为了依据样本用户数据中的用户特征创建糖尿病多分类模型,如图4所示,创建模块32,具体可包括:创建单元321、训练单元322。
创建单元321,具体可用于将所述用户特征中糖尿病患病类型作为标签信息Y,并将样本用户的目标特征数据作为特征信息X,创建模型训练集,所述目标特征数据至少包括所述样本用户的用户基础数据、就诊数据、体检数据、健康告知数据中的一项或多项;
训练单元322,具体可用于通过所述模型训练集基于LightGBM算法训练得到所述糖尿病多分类模型,其中,利用所述糖尿病多分类模型对应的F1值指标确定所述糖尿病多分类模型是否符合评估标准,通过符合评估标准的所述糖尿病多分类模型可确定所述特征信息X和所述标签信息Y之间的映射关系。
相应的,为了保证糖尿病多分类模型预测的准确性,如图4所示,判断模块33,具体可包括:评估单元331、判断单元332。
评估单元331,可用于将所述目标用户的特征信息输入到所述糖尿病多分类模型中与所述特征信息X进行相似度匹配,所述目标用户的特征信息对应所述目标特征数据;
判断单元332,可用于利用相似度大于预设相似度阈值、且相似度最高的所述特征信息X和所述映射关系,确定所述目标用户对应的糖尿病患病类型。
在具体的应用场景中,评估单元331,具体可用于将所述目标用户的特征信息经过数据清洗、特征提取、缺失值填充、异常值处理,得到结构化数据的特征信息;将结构化数据的特征信息与所述特征信息X进行相似度匹配。
在具体的应用场景中,为了根据糖尿病患病类型确定出所述目标用户的糖尿病患病阶段,如图4所示,确定模块34,还可用于若判定所述目标用户对应的糖尿病患病类型为所述正常人群,则确定所述目标用户未患糖尿病;若判定所述目标用户对应的糖尿病患病类型为I型糖尿病患者或II型糖尿病患者,则确定所述目标用户已患糖尿病;若判定所述目标用户对应的糖尿病患病类型为空腹血糖损害人群和/或糖耐量减低人群,则确定所述目标用户处于健康和患糖尿病之间的过渡阶段。
在具体的应用场景中,训练单元322,具体还可用于将所述糖尿病多分类模型正确识别的个体总数除以识别的个体总数,得到所述糖尿病多分类模型对应的准确率;将所述糖尿病多分类模型正确识别的个体总数除以测试集中存在的个体总数,得到所述糖尿病多分类模型对应的召回率;利用预设公式 F1值=所述准确率*所述召回率*2/(所述正确率+所述召回率),计算得到所述糖尿病多分类模型对应的F1值;若所述F1值大于预设阈值,则确定所述糖尿病多分类模型评估通过;若所述F1值小于预设阈值,则确定所述糖尿病多分类模型评估不通过。
在具体的应用场景中,训练单元322,具体还可用于将所述模型训练集划分为多个子训练集;利用每个子训练集基于决策树算法训练得到各自对应的基分类器;将各个所述基分类器进行加权融合,得到经过一轮训练得到的糖尿病多分类模型;若根据F1值指标确定所述经过一轮训练得到的糖尿病多分类模型不符合评估标准,则依据各个所述基分类器对应的误差率,调整所述基分类器各自对应的权重,并重新执行划分所述模型训练集和继续训练所述基分类器的步骤,直至所述基分类器利用每次调整后的权重加权融合得到的糖尿病多分类模型符合标准。
需要说明的是,本实施例提供的一种预测糖尿病患病阶段的装置所涉及各功能模块的其它相应描述,可以参考图1至图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1 和图2所示的预测糖尿病患病阶段的方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1、图2所示的方法,以及图3、图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的预测糖尿病患病阶段的方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频 (RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
非易失性可读存储介质中还可以包括操作系统、网络通信模块。操作系统是管理预测糖尿病患病阶段的实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与目前现有技术相比,本申请将传统二分类模型改进为多分类模型,涵盖了多种糖尿病类型及多种阶段,相比于传统是否患病的二分类模型,覆盖类型更全面。可以利用样本用户数据创建糖尿病多分类模型,并根据糖尿病多分类模型预测出糖果尿病的患病类型以及对应的患病阶段。在检测出目标用户患有糖尿病的基础上,能够根据患病阶段进一步判断出患病的严重程度,可以使诊断结果更加完善,进而可及时跟踪了解目标用户的病情发展情况,掌握治疗的黄金的时段,并进行及时有效的配套治疗。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种预测糖尿病患病阶段的方法,其特征在于,包括:
获取原始健康档案和电子病历数据中的样本用户数据;
根据所述样本用户数据中的用户特征创建糖尿病多分类模型;
利用所述糖尿病多分类模型判断目标用户的糖尿病患病类型;
根据所述糖尿病患病类型确定所述目标用户的糖尿病患病阶段。
2.根据权利要求1所述的方法,其特征在于,所述用户特征是利用正则表达式从所述样本用户数据中提取的;
所述根据所述样本用户数据中的用户特征创建糖尿病多分类模型,具体包括:
将所述用户特征中糖尿病患病类型作为标签信息Y,并将样本用户的目标特征数据作为特征信息X,创建模型训练集,所述目标特征数据至少包括所述样本用户的用户基础数据、就诊数据、体检数据、健康告知数据中的一项或多项;
通过所述模型训练集基于LightGBM算法训练得到所述糖尿病多分类模型,其中,利用所述糖尿病多分类模型对应的F1值指标确定所述糖尿病多分类模型是否符合评估标准,通过符合评估标准的所述糖尿病多分类模型可确定所述特征信息X和所述标签信息Y之间的映射关系。
3.根据权利要求2所述的方法,其特征在于,所述利用所述糖尿病多分类模型判断目标用户的糖尿病患病类型,具体包括:
将所述目标用户的特征信息输入到所述糖尿病多分类模型中与所述特征信息X进行相似度匹配,所述目标用户的特征信息对应所述目标特征数据;
利用相似度大于预设相似度阈值、且相似度最高的所述特征信息X和所述映射关系,确定所述目标用户对应的糖尿病患病类型。
4.根据权利要求3所述的方法,其特征在于,所述糖尿病患病类型包括:正常人群、I型糖尿病患者、II型糖尿病患者、空腹血糖损害人群、糖耐量减低人群;
所述根据所述糖尿病患病类型确定所述目标用户的糖尿病患病阶段,具体包括:
若判定所述目标用户对应的糖尿病患病类型为所述正常人群,则确定所述目标用户未患糖尿病;
若判定所述目标用户对应的糖尿病患病类型为I型糖尿病患者或II型糖尿病患者,则确定所述目标用户已患糖尿病;
若判定所述目标用户对应的糖尿病患病类型为空腹血糖损害人群和/或糖耐量减低人群,则确定所述目标用户处于健康和患糖尿病之间的过渡阶段。
5.根据权利要求3所述的方法,其特征在于,所述将所述目标用户的特征信息输入到所述糖尿病多分类模型中与所述特征信息X进行相似度匹配,具体包括:
将所述目标用户的特征信息经过数据清洗、特征提取、缺失值填充、异常值处理,得到结构化数据的特征信息;
将结构化数据的特征信息与所述特征信息X进行相似度匹配。
6.根据权利要求2所述的方法,其特征在于,所述利用所述糖尿病多分类模型对应的F1值指标确定所述糖尿病多分类模型是否符合评估标准,具体包括:
将所述糖尿病多分类模型正确识别的个体总数除以识别的个体总数,得到所述糖尿病多分类模型对应的准确率;
将所述糖尿病多分类模型正确识别的个体总数除以测试集中存在的个体总数,得到所述糖尿病多分类模型对应的召回率;
利用预设公式F1值=所述准确率*所述召回率*2/(所述正确率+所述召回率),计算得到所述糖尿病多分类模型对应的F1值;
若所述F1值大于预设阈值,则确定所述糖尿病多分类模型评估通过;
若所述F1值小于预设阈值,则确定所述糖尿病多分类模型评估不通过。
7.根据权利要求2所述的方法,其特征在于,所述通过所述模型训练集基于LightGBM算法训练得到所述糖尿病多分类模型,具体包括:
将所述模型训练集划分为多个子训练集;
利用每个子训练集基于决策树算法训练得到各自对应的基分类器;
将各个所述基分类器进行加权融合,作为经过一轮训练得到的糖尿病多分类模型;
若根据F1值指标确定所述经过一轮训练得到的糖尿病多分类模型不符合评估标准,则依据各个所述基分类器对应的误差率,调整所述基分类器各自对应的权重,并重新执行划分所述模型训练集和继续训练所述基分类器的步骤,直至所述基分类器利用每次调整后的权重加权融合得到的糖尿病多分类模型符合标准。
8.一种预测糖尿病患病阶段的装置,其特征在于,包括:
获取模块,用于获取原始健康档案和电子病历数据中的样本用户数据;
创建模块,用于根据所述样本用户数据中的用户特征创建糖尿病多分类模型;
判断模块,用于利用所述糖尿病多分类模型判断目标用户的糖尿病患病类型;
确定模块,用于根据所述糖尿病患病类型确定所述目标用户的糖尿病患病阶段。
9.一种非易失性可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的预测糖尿病患病阶段的方法。
10.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的预测糖尿病患病阶段的方法。
CN201910185059.5A 2019-03-12 2019-03-12 预测糖尿病患病阶段的方法、装置及计算机设备 Pending CN110197724A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910185059.5A CN110197724A (zh) 2019-03-12 2019-03-12 预测糖尿病患病阶段的方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910185059.5A CN110197724A (zh) 2019-03-12 2019-03-12 预测糖尿病患病阶段的方法、装置及计算机设备

Publications (1)

Publication Number Publication Date
CN110197724A true CN110197724A (zh) 2019-09-03

Family

ID=67751741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910185059.5A Pending CN110197724A (zh) 2019-03-12 2019-03-12 预测糖尿病患病阶段的方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN110197724A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048200A (zh) * 2019-11-25 2020-04-21 上海交通大学 一种自闭症患者刻板行为评估系统、方法及终端
CN111126601A (zh) * 2019-12-24 2020-05-08 上海商汤智能科技有限公司 信息处理方法及装置、电子设备和存储介质
CN111184948A (zh) * 2020-01-09 2020-05-22 北京理工大学 基于血管靶向光动力疗法的鲜红斑痣处理方法及系统
CN111261298A (zh) * 2019-12-25 2020-06-09 南京医康科技有限公司 一种医疗数据质量预判方法、装置、可读介质及电子设备
CN112185585A (zh) * 2020-11-03 2021-01-05 浙江大学滨海产业技术研究院 一种基于代谢组学的糖尿病早期预警方法
CN113113142A (zh) * 2021-04-09 2021-07-13 长沙理工大学 一种利用智能分析技术对糖尿病患病风险的预测方法
WO2021159761A1 (zh) * 2020-09-09 2021-08-19 平安科技(深圳)有限公司 病理数据的分析方法、装置、计算机设备和存储介质
WO2021171051A1 (en) * 2020-02-27 2021-09-02 The Chinese University Of Hong Kong Methods for monitoring and analyzing glucose variability of a glucose-insulin system
CN113488166A (zh) * 2021-07-28 2021-10-08 联仁健康医疗大数据科技股份有限公司 糖尿病数据分析模型训练及数据管理方法、装置和设备
CN113658704A (zh) * 2021-09-17 2021-11-16 平安国际智慧城市科技股份有限公司 糖尿病风险预测设备、装置和存储介质
CN113742348A (zh) * 2021-09-07 2021-12-03 上海柯林布瑞信息技术有限公司 Cdr系统中的患者数据匹配方法、主索引建立方法及装置
CN113782216A (zh) * 2021-09-15 2021-12-10 平安科技(深圳)有限公司 一种失能权重确定方法及装置、电子设备、存储介质
CN113951879A (zh) * 2021-12-21 2022-01-21 苏州百孝医疗科技有限公司 血糖预测方法和装置、监测血糖水平的系统
CN116504394A (zh) * 2023-06-21 2023-07-28 天津医科大学朱宪彝纪念医院(天津医科大学代谢病医院、天津代谢病防治中心) 基于多特征融合的辅助医疗方法、装置及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005267042A (ja) * 2004-03-17 2005-09-29 Sysmex Corp 糖尿病診療支援システム
CN2850518Y (zh) * 2005-10-24 2006-12-27 北京软测科技有限公司 便携式糖尿病病情监测仪
CN109411062A (zh) * 2018-09-30 2019-03-01 天津科技大学 一种基于深度学习技术利用生理参数自动判断糖尿病及其并发症的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005267042A (ja) * 2004-03-17 2005-09-29 Sysmex Corp 糖尿病診療支援システム
CN2850518Y (zh) * 2005-10-24 2006-12-27 北京软测科技有限公司 便携式糖尿病病情监测仪
CN109411062A (zh) * 2018-09-30 2019-03-01 天津科技大学 一种基于深度学习技术利用生理参数自动判断糖尿病及其并发症的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈根成 等: "《初级卫生技术人员继续医学教育实用手册 下册》", 31 October 2014, 第四军医大学出版社 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048200A (zh) * 2019-11-25 2020-04-21 上海交通大学 一种自闭症患者刻板行为评估系统、方法及终端
CN111126601A (zh) * 2019-12-24 2020-05-08 上海商汤智能科技有限公司 信息处理方法及装置、电子设备和存储介质
CN111261298B (zh) * 2019-12-25 2024-02-23 医渡云(北京)技术有限公司 一种医疗数据质量预判方法、装置、可读介质及电子设备
CN111261298A (zh) * 2019-12-25 2020-06-09 南京医康科技有限公司 一种医疗数据质量预判方法、装置、可读介质及电子设备
CN111184948A (zh) * 2020-01-09 2020-05-22 北京理工大学 基于血管靶向光动力疗法的鲜红斑痣处理方法及系统
WO2021171051A1 (en) * 2020-02-27 2021-09-02 The Chinese University Of Hong Kong Methods for monitoring and analyzing glucose variability of a glucose-insulin system
WO2021159761A1 (zh) * 2020-09-09 2021-08-19 平安科技(深圳)有限公司 病理数据的分析方法、装置、计算机设备和存储介质
CN112185585A (zh) * 2020-11-03 2021-01-05 浙江大学滨海产业技术研究院 一种基于代谢组学的糖尿病早期预警方法
CN113113142A (zh) * 2021-04-09 2021-07-13 长沙理工大学 一种利用智能分析技术对糖尿病患病风险的预测方法
CN113488166A (zh) * 2021-07-28 2021-10-08 联仁健康医疗大数据科技股份有限公司 糖尿病数据分析模型训练及数据管理方法、装置和设备
CN113742348A (zh) * 2021-09-07 2021-12-03 上海柯林布瑞信息技术有限公司 Cdr系统中的患者数据匹配方法、主索引建立方法及装置
CN113782216A (zh) * 2021-09-15 2021-12-10 平安科技(深圳)有限公司 一种失能权重确定方法及装置、电子设备、存储介质
CN113782216B (zh) * 2021-09-15 2023-10-24 平安科技(深圳)有限公司 一种失能权重确定方法及装置、电子设备、存储介质
CN113658704A (zh) * 2021-09-17 2021-11-16 平安国际智慧城市科技股份有限公司 糖尿病风险预测设备、装置和存储介质
CN113951879A (zh) * 2021-12-21 2022-01-21 苏州百孝医疗科技有限公司 血糖预测方法和装置、监测血糖水平的系统
CN116504394A (zh) * 2023-06-21 2023-07-28 天津医科大学朱宪彝纪念医院(天津医科大学代谢病医院、天津代谢病防治中心) 基于多特征融合的辅助医疗方法、装置及计算机存储介质
CN116504394B (zh) * 2023-06-21 2024-01-30 天津医科大学朱宪彝纪念医院(天津医科大学代谢病医院、天津代谢病防治中心) 基于多特征融合的辅助医疗方法、装置及计算机存储介质

Similar Documents

Publication Publication Date Title
CN110197724A (zh) 预测糖尿病患病阶段的方法、装置及计算机设备
CN110197720A (zh) 糖尿病的预测方法及装置、存储介质、计算机设备
US9165116B2 (en) Patient data mining
JP6909078B2 (ja) 疾病発症予測装置、疾病発症予測方法およびプログラム
KR102558021B1 (ko) 임상 의사결정 지원 앙상블 시스템 및 이를 이용한 임상 의사결정 지원 방법
WO2016120955A1 (ja) 行動予測装置、行動予測装置の制御方法、および行動予測装置の制御プログラム
CN107358040A (zh) 基于医生问诊的慢病患者健康检查系统及方法
US11282611B2 (en) Classifying medical records for identification of clinical concepts
WO2021151295A1 (zh) 患者治疗方案的确定方法、装置、计算机设备及介质
CN106599553A (zh) 疾病预警方法及装置
WO2018106481A1 (en) Computer-implemented methods, systems, and computer-readable media for diagnosing a condition
US20220246301A1 (en) Medical machine learning system
US20160019351A1 (en) Identification of clinical concepts from medical records
CN112447270A (zh) 一种用药推荐方法、装置、设备及存储介质
CN107945840A (zh) 电子病历的评价方法及装置
US20230245779A1 (en) System and method for peri-anaesthetic risk evaluation
JP7044113B2 (ja) 提示方法、提示システム、及びプログラム
CN111933302B (zh) 药物推荐方法、装置、计算机设备及存储介质
KR20220076618A (ko) 질병 예측 장치, 방법 및 기록 매체
CN113782146A (zh) 基于人工智能的全科用药推荐方法、装置、设备及介质
CN113782132B (zh) 标签信息的动态更新方法、装置及介质
Chowdhury Design and Development of a Comprehensive and Interactive Diabetic Parameter Monitoring System-BeticTrack
CN109636161A (zh) 心脏病治疗效果考核方法、装置、设备及存储介质
KR102355123B1 (ko) 바이오 데이터 허브를 구축하는 방법 및 장치
Maciejewski et al. Natural language processing tool for automatic diseases and drugs recognition from electronic health records in polish-pilot study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190903

RJ01 Rejection of invention patent application after publication