CN109192306A - 一种糖尿病的判断装置、设备及计算机可读存储介质 - Google Patents

一种糖尿病的判断装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109192306A
CN109192306A CN201811108625.4A CN201811108625A CN109192306A CN 109192306 A CN109192306 A CN 109192306A CN 201811108625 A CN201811108625 A CN 201811108625A CN 109192306 A CN109192306 A CN 109192306A
Authority
CN
China
Prior art keywords
parameter
diabetes
predicted value
sample characteristics
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811108625.4A
Other languages
English (en)
Inventor
苏天培
刘义
余荣
张浩川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201811108625.4A priority Critical patent/CN109192306A/zh
Publication of CN109192306A publication Critical patent/CN109192306A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Abstract

本申请公开了一种糖尿病的判断装置,通过获取模块获取目标用户的特征参数;然后通过计算模块利用预先设置的预测模型对特征参数进行计算,得出预测值;再通过比较模块比较预测值和判断阈值的大小关系,并根据大小关系判断目标用户是否患有糖尿病。相较于现有技术中分别将各特征参数与标准参数进行比较,并直接根据比较结果判定目标用户是否患有糖尿病的方式,由于预测模型中综合考虑了多种特征项对是否患有糖尿病的影响,因此能够避免偶然因素对判断结果的影响,进而能够提高判断的准确性。本申请还公开了一种糖尿病的判断设备及计算机可读存储介质,均具有上述有益效果。

Description

一种糖尿病的判断装置、设备及计算机可读存储介质
技术领域
本发明涉及医学领域,特别涉及一种糖尿病的判断装置、设备及计算机可读存储介质。
背景技术
随着社会的不断发展进步,人们对健康问题的关注程度也逐渐提升。糖尿病作为患病人口数逐年增长的疾病,越来越受到重视,因此越开越多的人通过检查以判断自身是否患有糖尿病。
目前判断用户是否患糖尿病的普遍的方式为:通过获取各与糖尿病相关的检查项目的检查值,然后将各检查值分别与标准阈值进行比较,根据判断该检查值是否超过标准阈值范围的方式判断是否患糖尿病。在这种方式中,检查值可能由于当前的检测情况而产生随机性的变化,将导致检测值不准确;并且当某项检查值缺失时,则无法得出判断结果。因此现有技术中通过将检查值与标准阈值进行比较的方式来判断是否患有糖尿病的方式,将会导致判断结果不准确,从而给用户带来困扰。
因此,如何提高判断用户是否患有糖尿病的准确性是本领域技术人员目前需要解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种糖尿病的判断装置,能够提高判断用户是否患有糖尿病的准确性;本发明的另一目的是提供一种糖尿病的判断设备及计算机可读存储介质,均具有上述有益效果。
为解决上述技术问题,本发明还提供一种糖尿病的判断装置,包括:
获取模块,用于获取目标用户的特征参数;
计算模块,用于利用预先设置的预测模型对所述特征参数进行计算,得出预测值;
比较模块,用于比较所述预测值和判断阈值的大小关系,并根据所述大小关系判断所述目标用户是否患有糖尿病。
优选地,所述预测模型具体包括Xgboost模型和/或Logistic Regression模型。
优选地,当所述预测模型具体为所述Xgboost模型和所述Logistic Regression模型时,所述计算模块具体包括:
特征参数计算模块,用于分别利用所述Xgboost模型和所述Logistic Regression模型对所述特征参数进行计算,并分别得出第一预测值和第二预测值;
预测值计算模块,用于根据所述第一预测值和所述第二预测值的预设权重计算出所述预测值。
优选地,所述特征参数计算模块还包括:
获取单元,用于获取样本特征参数;
预处理单元,用于对所述样本特征参数进行预处理;
训练单元,用于利用预处理后的所述样本特征参数进行训练,得出所述Xgboost模型。
优选地,获所述预处理单元包括:
特征项确定单元,用于根据所述样本特征参数的类型确定样本特征项;
数据清洗单元,用于对所述样本特征项对应的样本特征参数进行清洗;
归一化处理单元,用于将清洗后的所述样本特征参数进行归一化处理,得到预处理后的所述样本特征参数。
优选地,所述训练单元包括:
筛选子单元,用于利用新Xgboost模型从所述样本特征项中筛选出N个目标样本特征;其中,N为大于1的正整数;
特征交叉子单元,用于将N个所述目标样本特征进行特征交叉,得到交叉特征;
特征融合子单元,用于将所述样本特征项中除N个目标样本特征之外的样本特征和所述交叉特征进行融合,并得到新预处理后的样本特征参数;
训练子单元,用于利用所述新预处理后的样本特征参数进行训练,得出所述Xgboost模型。
优选地,所述特征参数计算模块还包括:
参数计算模块,用于利用所述新预处理后的样本特征参数计算出样本参数和样本截距;
迭代训练模块,用于利用所述样本参数和所述样本截距迭代训练出所述LogisticRegression模型。
为解决上述技术问题,本发明还提供一种糖尿病的判断设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序时,实现如下步骤:
获取目标用户的特征参数;
利用预先设置的预测模型对所述特征参数进行计算,得出预测值;
比较所述预测值和判断阈值的大小关系,并根据所述大小关系判定所述目标用户是否患有糖尿病。
为解决上述技术问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如下步骤:
获取目标用户的特征参数;
利用预先设置的预测模型对所述特征参数进行计算,得出预测值;
比较所述预测值和判断阈值的大小关系,并根据所述大小关系判定所述目标用户是否患有糖尿病。
本发明提供的糖尿病的判断装置,通过获取模块获取目标用户的特征参数;然后通过计算模块利用预先设置的预测模型对特征参数进行计算,得出预测值;再通过比较模块比较预测值和判断阈值的大小关系,并根据大小关系判断目标用户是否患有糖尿病。相较于现有技术中分别将各特征参数与标准参数进行比较,并直接根据比较结果判定目标用户是否患有糖尿病的方式,由于预测模型中综合考虑了多种特征项对是否患有糖尿病的影响,因此能够避免偶然因素对判断结果的影响,进而能够提高判断的准确性。
为解决上述技术问题,本发明还提供了一种糖尿病的判断设备及计算机可读存储介质,均具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种糖尿病的判断装置的结构图;
图2为本发明实施例提供的另一种糖尿病的判断装置的结构图;
图3为本发明实施例提供的另一种糖尿病的判断装置的结构图
图4为本发明实施例提供的又一种糖尿病的判断装置的结构图;
图5为本发明实施例提供的一种糖尿病的判断设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的核心是提供一种糖尿病的判断装置,能够提高判断用户是否患有糖尿病的准确性;本发明的另一核心是提供一种糖尿病的判断设备及计算机可读存储介质,均具有上述有益效果。
为了使本领域技术人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
请参见图1,图1为本发明实施例提供的一种糖尿病的判断装置的结构图。糖尿病的判断装置包括:
获取模块10,用于获取目标用户的特征参数;
计算模块20,用于利用预先设置的预测模型对特征参数进行计算,得出预测值;
比较模块30,用于比较预测值和判断阈值的大小关系,并根据大小关系判断目标用户是否患有糖尿病。
可以理解的是,在判定目标用户是否患有糖尿病之前,首先利用获取模块10获取目标用户的特征参数。本实施例中的特征参数指的是预测模型中预设的用于参与训练的特征项对应的参数,以便可以利用预测模型进行计算,从而可以判定目标用户是否患有糖尿病。具体的,特征项的设置可以参考诊断糖尿病时需要获取的特征项,特征项包括年龄、性别、身高、体重、胆固醇含量、甘油三酯、空腹血浆葡萄糖以及糖化血红蛋白等,本实施例对此不做具体的限定。为了使得计算出的结果更准确可靠,尽可能全面地获取特征项对应的特征参数。
在获取到目标用户的特征参数之后,通过计算模块20利用预先设置的预测模型对特征参数进行计算,得出预测值。需要说明的是,预测模型指的是通过大量的学习,将多种类型的特征参数进行综合训练得出的数学模型,由于预测模型中综合考虑了多种特征项对是否患有糖尿病的判断结果的影响,因此使得判断结果更加准确可靠。
可以理解的是,在计算模块20中,可以根据不同的实际需求选择不同的预测模型,然后将获取到的特征参数放入到预测模型中进行计算并得出预测值。
比较模块30用于在计算模块20计算出预测值之后,利用预先设置的判断阈值与预测值进行比较,然后根据比较得出的大小关系判断目标用户是否患有糖尿病。需要说明的是,判断阈值一般是根据实际操作经验得出的,也可以通过训练模型得出。通过比较预测值与判断阈值的大小关系,也即判断计算出的预测值是否在判断阈值所允许的范围内,从而判断对应的目标用户是否患有糖尿病。
本发明实施例提供的糖尿病的判断装置,通过获取模块获取目标用户的特征参数;然后通过计算模块利用预先设置的预测模型对特征参数进行计算,得出预测值;再通过比较模块比较预测值和判断阈值的大小关系,并根据大小关系判断目标用户是否患有糖尿病。相较于现有技术中分别将各特征参数与标准参数进行比较,并直接根据比较结果判定目标用户是否患有糖尿病的方式,由于预测模型中综合考虑了多种特征项对是否患有糖尿病的影响,因此能够避免偶然因素对判断结果的影响,进而能够提高判断的准确性。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,预测模型具体包括Xgboost模型和/或Logistic Regression模型。
需要说明的是,Xgboost模型是一个监督模型,Xgboost模型对应的是CART树。需要说明的是,Xgboost模型可以直接处理缺失项,也即,在每棵树上划分分支节点时,Xgboost模型会遍历所有特征项,然后取其中精度最高的一个作为分支点,如果在遍历当前的特征遇到缺失值时,则尝试将缺失值划分到左子树和右子树,然后比较两者的精度,并将精度较高的值作为当前特征的精度。通过根据各特征项对应的特征参数可以获取该特征项对应的预测值,通过将每棵树的预测值之和作为最终的预测值。然后通过判断预测值与判断阈值的大小关系,以确定该目标用户是否患有糖尿病。
需要说明的是,Logistic Regression模型是一种逻辑回归模型。通过LogisticRegression模型对特征参数进行计算,以得出预测值,然后将预测值与预设的判断阈值进行比较。例如,将判断阈值设置为0.5,当预测值大于0.5时,则将该预测值划分到1这一组,表示该目标用户患有糖尿病;若预测值小于0.5时,则将该预测值划分到0这一组,表示该目标用户没有患糖尿病。可以理解的是,在具体实施中,也可以根据实际需求将判断阈值设置为其他值,例如,为了进一步提高判断的可信度,可以增大判断阈值,例如当判断阈值为0.8时,表示只有当预测值大于0.8时,将该预测值划分到1这一组以表示该目标用户患有糖尿病。
图2为本发明实施例提供的另一种糖尿病的判断装置的结构图。如图2所示,作为优选的实施方式,当预测模型具体为Xgboost模型和Logistic Regression模型时,计算模块20具体包括:
特征参数计算模块21,用于分别利用Xgboost模型和Logistic Regression模型对特征参数进行计算,并分别得出第一预测值和第二预测值;
预测值计算模块22,用于根据第一预测值和第二预测值的预设权重计算出预测值。
也就是说,当预测模型具体为Xgboost模型和Logistic Regression模型时,在获取到特征参数之后,分别利用Xgboost模型和Logistic Regression模型对特征参数进行计算,从而分别得出Xgboost模型对应的第一预测值和Logistic Regression模型对对应的第二预测值。然后利用预测值模块根据第一预测值和第二预测值的预设权重计算出预测值。可以理解的是,由于各不同的预测模型可能侧重计算的特征参数不同,因此在本实施例中,通过根据第一预测值和第二预测值的预设权重计算出预测值,例如,当第一预测值所占的权重为60%,第二预测值所占的权重为40%时,根据第一预测值和第二预测值的预设权重计算出预测值具体为将第一预测值乘以60%加上第二预测值乘以40%的值作为预测值;或者当两者权重相同时,根据第一预测值和第二预测值的预设权重计算出预测值也即计算第一预测值和第二预测值的平均值,以得出预测值。
本实施例提供的糖尿病的判断装置,通过利用两个预测模型对目标用户的特征参数分别进行预测,并将分别得出的第一预测值和第二预测值进行融合,以减少单个模型进行预测时的偏差的可能性,进一步提高判定的准确度。
图3为本发明实施例提供的另一种糖尿病的判断装置的结构图。如图3所示,在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,特征参数计算模块21还包括:
获取单元211,用于获取样本特征参数;
预处理单元212,用于对样本特征参数进行预处理;
训练单元213,用于利用预处理后的样本特征参数进行训练,得出Xgboost模型。
可以理解的是,特征参数计算模块20中所使用的Xgboost模型,可以是预先训练好然后直接放在特征参数计算模块20中用于计算,也可以是在特征计算模块20中设置获取单元211、预处理单元212以及训练单元213,用于训练得出Xgboost模型。
具体的,获取单元211用于获取样本特征参数,样本特征参数指的是用于训练Xgboost模型的样本数据。需要说明的是,样本特征参数也即大量的特征参数的集合,通过预先获取大量的样本特征数据,以用于训练出Xgboost模型。需要说明的是,样本特征参数可以是通过医院、体检中心等医疗机构获取的关于糖尿病检测的数据,并建立为糖尿病检测数据库。可以理解的是,样本特征参数中特征项包括但不限于:年龄、性别、身高、体重、胆固醇含量、甘油三酯、空腹血浆葡萄糖以及糖化血红蛋白等。需要说明的是,样本特征参数的特征项数越多,也即综合考虑的因素越多,因此预测模型能够计算的结果越准确。另外,样本特征参数的数量越多,预测模型的容量越大,预测模型能够计算的结果也会越准确。
在通过获取单元211获取到样本特征参数之后,再通过预处理单元212对样本特征参数进行预处理。需要说明的是,作为优选的实施方式,获预处理单元212包括:
特征项确定单元,用于根据样本特征参数的类型确定样本特征项;
数据清洗单元,用于对样本特征项对应的样本特征参数进行清洗;
归一化处理单元,用于将清洗后的样本特征参数进行归一化处理,得到预处理后的样本特征参数。
具体的,在获取到样本特征参数之后,首先确定统一的特征项,也即根据样本特征参数的类型确定特征项,抛弃缺失值过多的特征项。例如,若某一特征项中的有效值的比率(即该数据项的有效值数/样本特征参数总数)低于预设阈值,表示这些特征项的有效数据太少,因此不适合作为特征项,故而删除。需要说明的是,在本实施例中,预设阈值一般指的是千分之一或者万分之一等,具体根据实际情况进行设置。可以理解的是,某些特征项中可能也存在缺失值,但是该特征项的有效值的比率大于预设阈值时,则不需要将该特征项删除。
然后利用数据清洗单元对样本特征参数进行清洗,数据清洗是指发现并纠正样本特征参数中可识别的错误的最后一道程序,包括检查样本特征参数一致性,处理无效值等。具体包括检查样本特征参数是否相互冲突、是否超出范围以及是否存在逻辑上的合理性等,并将不符合规范的样本特征参数删除。
在对样本特征参数进行清洗后,利用归一化处理单元将清洗后的样本特征参数进行归一化处理。具体的,在本实施例中,归一化处理的公式为:
其中,x表示各样本特征参数,E(x)表示x的均值,D(x)表示x的方差。
在利用归一化处理单元将样本特征参数进行归一化处理之后,再利用训练单元213对预处理后的样本特征参数进行训练,得出Xgboost模型。需要说明的是,模型训练的方法是本领域技术人员所熟知的内容,因此此处不再赘述。
利用Xgboost模型根据目标用户的特征参数进行预测,可以在目标用户的特征参数并不是很全面时,也可以利用Xgboost模型进行计算并得出判定结果。
需要说明的是,作为优选的实施方式,训练单元213包括:
筛选子单元,用于利用新Xgboost模型从样本特征项中筛选出N个目标样本特征;其中,N为大于1的正整数;
特征交叉子单元,用于将N个目标样本特征进行特征交叉,得到交叉特征;
特征融合子单元,用于将样本特征项中除N各目标样本特征之外的样本特征和交叉特征进行融合,并得到新预处理后的样本特征参数;
训练子单元,用于利用新预处理后的样本特征参数进行训练,得出Xgboost模型。
也就是说,在本实施例中,作为优选的实施方式,首先是通过筛选子单元利用新Xgboost模型从预处理后的样本特征参数中筛选出N个目标样本特征参数;然后利用特征交叉子单元将N个目标样本特征进行特征交叉,得到交叉特征。再通过特征融合子单元将样本特征项中除N个目标样本特征之外的样本特征和交叉特征进行融合,并得到新预处理后的样本特征参数;最后通过训练子单元利用新预处理后的样本特征参数进行训练,得出Xgboost模型。
需要说明的是,在进行特征交叉之前,首先是需要筛选出N个目标样本特征。具体的,先确定各样本特征参数的参数类型,参数类型包括类别特征(如性别)和数值特征(如年龄、身高),一般来说类别特征和没有缺失值的数值特征才能够进行特征交叉。因此,在利用新Xgboost模型从预处理后的样本特征参数中筛选时,还要考虑样本特征参数的参数类型,从而筛选出N个目标样本特征参数。
在本实施例中,利用新Xgboost模型从样本特征项中筛选出N个目标样本特征的具体过程包括:
在服务器中安装Anaconda和Xgboost库后,通过配置环境变量,以使得python可以运行Xgboost模型。然后通过设置Xgboost模型中的参数:
‘booster’:‘gbtree’,xgboost将以基于树的模型进行迭代。
‘objective’:‘binary:logistic’,学习目标为二分类,即是否为糖尿病。
‘n_jobs’:-1,并行处理的个数。
‘eval_metric’:‘auc’,确定评估方法。在本实施例中,优选地使用AUC(AreaUnder Curve)进行评估。AUC是通过计算ROC曲线下面的面积得来的,而ROC曲线是以假阳性概率(False positive rate)为横轴,真阳性概率(True positive rate)为纵轴所组成的坐标图。
表1预测表现与实际表现关系表
结合表1所示的预测表现与实际表现关系表,假阳性概率(False positive rate)=TP/(TP+FN);真阳性概率(True positive rate)=FP/(FP+TN)。
通过设置参数‘eta’:0.1(此参数为xgboost每次迭代的步长,可以根据实际需求设置),‘num_boost_round’:5000(此参数为xgboost进行5000次迭代,可以根据实际需求设置),当训练完后可以通过feature_importances_这个参数来获取特征的重要性,数字越大代表特征被使用的次数也就越多,自然也越重要,选N个样本特征项作为目标样本特征。在本实施例中,优选地选择按照降序排序后的前10%的样本特征项作为目标样本特征。
特征交叉子单元是将N个目标样本特征参数中的每一个特征项进行循环,然后将该特征参数与其他特征参数相加和相乘。具体的,假设经过预处理后共有6个样本特征,通过Xgboost模型筛选出3个目标样本特征A、B和C,那么对应的交叉特征为A+B、A*B、B+C、B*C、A+C和A*C,共6个。并且将各特征项对应的特征参数进行计算,得到各交叉特征对应的特征参数。
特征融合子单元,用于将样本特征项中除N个目标样本特征之外的样本特征和交叉特征进行融合,并得到新预处理后的样本特征参数。例如,在本实施例中,将经过特征交叉后得到的交叉特征参数和剩余的3个预处理后的样本特征参数作为新预处理后样本特征参数,此时新预处理后样本特征包括6个交叉特征的特征参数和剩余的3个预处理后的样本特征参数,也即新预处理后的样本特征参数共9个。
在得出新预处理后样本特征之后,通过训练子单元对新预处理后样本特征进行训练,得出Xgboost模型。
也就是说,本实施例中所使用的Xgboost是先利用新Xgboost筛选出目标样本特征,然后将目标样本特征进行交叉得出交叉特征,再将交叉特征对应的样本特征参数和之前处理后的样本特征参数一起作为新处理后样本特征参数,并训练出Xgboost模型。
可以理解的是,通过特征交叉可以学习到更多的不容易被观察到的隐含信息,因此利用本实施例中的Xgboost模型计算出的预测值能够更准确地判断目标用户是否患有糖尿病。
图4为本发明实施例提供的又一种糖尿病的判断装置的结构图。如图4所示,在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,特征参数计算模块21还包括:
参数计算模块214,用于利用新预处理后样本特征参数计算出样本参数和样本截距;
迭代训练模块215,用于利用样本参数和样本截距迭代训练出LogisticRegression模型。
需要说明的是,Logistic Regression模型可以是基于预处理后的样本参数进行训练得出,也可以是基于利用Xgboost模型得出新预处理后样本参数进行训练得出。在这两种方式中,在训练Logistic Regression模型之前,需要先将预处理后的样本参数中或新预处理后样本参数中的缺失值进行填充,具体的填充值可以是该特征项的样本参数的中位数。
通过参数计算模块214将预处理后的样本参数X计算出样本特征参数和样本截距,其中X表示多个样本参数组成的矩阵,其中,X(m,n)表示特征项的数量为m,每一项的特征数量为n,即样本数量个数为n。
对于一个样本参数来说,y(0)=w(00)*x(00)+w(01)*x(01)+……+w(0n)*x(0n)+b(0);y(1)=w(10)*x(10)+w(11)*x(11)+……+w(1n)*x(1n)+b(1);一直到:y(n)=w(n0)*x(n0)+w(n1)*x(n1)+……+w(nn)*x(nn)+b(n)。其中,w(01)指的是第0个样本的1号特征的特征参数,对应的,y(0)为第0个样本的真实值,b(0)就是第0个样本的样本截距。通过将所有样本参数进行训练,从而得出样本参数和样本截距,然后利用迭代训练模块将样本参数和样本截距迭代训练出Logistic Regression模型。需要说明的是,对每一次迭代,都按照以下公式进行:
h=WT·X+b;
z=sigmoid(h);
delta=z-y;
W:=W-α·dW;
b:=b-α·db;
在最后一次迭代中,
h=WT·X+b;
z=sigmoid(h);
其中,h表示当前的第二预测值;Sigmoid函数是一种神经网络的阈值函数,Sigmoid函数为通过Sigmoid函数使得第二预测值的取值范围从(-∞,+∞)限制为(0,1),也即第二预测值h的取值范围为(0,1);在其他的实施例中,也可以采用其他的阈值函数,此处不做限定。delta表示第二预测值与标准值之差;α也即Xgboost模型中的“eta”参数。
本实施例提供了一种通过参数计算模块和迭代训练模块进行迭代训练出Logistic Regression模型的方式,以便能够利用Logistic Regression模型判断目标用户是否患有糖尿病。
上文对于本发明提供的一种糖尿病的判断装置的实施例进行了详细的描述,本发明还提供了一种糖尿病的判断设备。具体的,如图5所示,图5为本发明实施例提供的一种糖尿病的判断设备500的结构图,包括:
存储器51,用于存储计算机程序;
处理器52,用于执行存储器中存储的计算机程序时,实现如下步骤:
获取目标用户的特征参数;
利用预先设置的预测模型对特征参数进行计算,得出预测值;
比较预测值和判断阈值的大小关系,并根据大小关系判定目标用户是否患有糖尿病。
本发明实施例提供的糖尿病的判断设备,由于可以通过处理器调用存储器存储的与用于糖尿病的判断装置中的计算机程序相同的分析程序,从而实现如上述任一实施例用于糖尿病的判断装置所具有的判断步骤,所以本糖尿病的判断设备具有同上述用于糖尿病的判断装置同样的实际效果。
为解决上述技术问题,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如下步骤:
获取目标用户的特征参数;
利用预先设置的预测模型对特征参数进行计算,得出预测值;
比较预测值和判断阈值的大小关系,并根据大小关系判定目标用户是否患有糖尿病。
可见,本实施例公开的一种计算机可读存储介质,由于可以通过处理器调用计算机可读存储介质存储的与用于糖尿病的判断装置中的计算机程序相同的分析程序,从而实现如上述任一实施例提到的用于糖尿病的判断装置所具有的步骤,所以本实施例提供的计算机可读存储介质具有同上述用于糖尿病的判断装置同样的实际效果。
以上对本发明所提供的糖尿病的判断装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims (9)

1.一种糖尿病的判断装置,其特征在于,包括:
获取模块,用于获取目标用户的特征参数;
计算模块,用于利用预先设置的预测模型对所述特征参数进行计算,得出预测值;
比较模块,用于比较所述预测值和判断阈值的大小关系,并根据所述大小关系判断所述目标用户是否患有糖尿病。
2.根据权利要求1所述的装置,其特征在于,所述预测模型具体包括Xgboost模型和/或Logistic Regression模型。
3.根据权利要求2所述的装置,其特征在于,当所述预测模型具体为所述Xgboost模型和所述Logistic Regression模型时,所述计算模块具体包括:
特征参数计算模块,用于分别利用所述Xgboost模型和所述Logistic Regression模型对所述特征参数进行计算,并分别得出第一预测值和第二预测值;
预测值计算模块,用于根据所述第一预测值和所述第二预测值的预设权重计算出所述预测值。
4.根据权利要求3所述的装置,其特征在于,所述特征参数计算模块还包括:
获取单元,用于获取样本特征参数;
预处理单元,用于对所述样本特征参数进行预处理;
训练单元,用于利用预处理后的所述样本特征参数进行训练,得出所述Xgboost模型。
5.根据权利要求4所述的装置,其特征在于,获所述预处理单元包括:
特征项确定单元,用于根据所述样本特征参数的类型确定样本特征项;
数据清洗单元,用于对所述样本特征项对应的样本特征参数进行清洗;
归一化处理单元,用于将清洗后的所述样本特征参数进行归一化处理,得到预处理后的所述样本特征参数。
6.根据权利要求5所述的装置,其特征在于,所述训练单元包括:
筛选子单元,用于利用新Xgboost模型从所述样本特征项中筛选出N个目标样本特征;其中,N为大于1的正整数;
特征交叉子单元,用于将N个所述目标样本特征进行特征交叉,得到交叉特征;
特征融合子单元,用于将所述样本特征项中除N个目标样本特征之外的样本特征和所述交叉特征进行融合,并得到新预处理后的样本特征参数;
训练子单元,用于利用所述新预处理后的样本特征参数进行训练,得出所述Xgboost模型。
7.根据权利要求6所述的装置,其特征在于,所述特征参数计算模块还包括:
参数计算模块,用于利用所述新预处理后的样本特征参数计算出样本参数和样本截距;
迭代训练模块,用于利用所述样本参数和所述样本截距迭代训练出所述LogisticRegression模型。
8.一种糖尿病的判断设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序时,实现如下步骤:
获取目标用户的特征参数;
利用预先设置的预测模型对所述特征参数进行计算,得出预测值;
比较所述预测值和判断阈值的大小关系,并根据所述大小关系判定所述目标用户是否患有糖尿病。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如下步骤:
获取目标用户的特征参数;
利用预先设置的预测模型对所述特征参数进行计算,得出预测值;
比较所述预测值和判断阈值的大小关系,并根据所述大小关系判定所述目标用户是否患有糖尿病。
CN201811108625.4A 2018-09-21 2018-09-21 一种糖尿病的判断装置、设备及计算机可读存储介质 Pending CN109192306A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811108625.4A CN109192306A (zh) 2018-09-21 2018-09-21 一种糖尿病的判断装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811108625.4A CN109192306A (zh) 2018-09-21 2018-09-21 一种糖尿病的判断装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109192306A true CN109192306A (zh) 2019-01-11

Family

ID=64909491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811108625.4A Pending CN109192306A (zh) 2018-09-21 2018-09-21 一种糖尿病的判断装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109192306A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112117006A (zh) * 2020-09-23 2020-12-22 重庆医科大学 基于集成学习的2型糖尿病肾脏疾病患病风险评估系统
CN112288683A (zh) * 2020-06-30 2021-01-29 深圳市智影医疗科技有限公司 基于多模态融合的肺结核病判定装置和方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688872A (zh) * 2017-08-20 2018-02-13 平安科技(深圳)有限公司 预测模型建立装置、方法及计算机可读存储介质
CN107910068A (zh) * 2017-11-29 2018-04-13 平安健康保险股份有限公司 投保用户的健康风险预测方法、装置、设备及存储介质
CN108257675A (zh) * 2018-02-07 2018-07-06 平安科技(深圳)有限公司 慢阻肺发病风险预测方法、服务器及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688872A (zh) * 2017-08-20 2018-02-13 平安科技(深圳)有限公司 预测模型建立装置、方法及计算机可读存储介质
CN107910068A (zh) * 2017-11-29 2018-04-13 平安健康保险股份有限公司 投保用户的健康风险预测方法、装置、设备及存储介质
CN108257675A (zh) * 2018-02-07 2018-07-06 平安科技(深圳)有限公司 慢阻肺发病风险预测方法、服务器及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288683A (zh) * 2020-06-30 2021-01-29 深圳市智影医疗科技有限公司 基于多模态融合的肺结核病判定装置和方法
CN112117006A (zh) * 2020-09-23 2020-12-22 重庆医科大学 基于集成学习的2型糖尿病肾脏疾病患病风险评估系统

Similar Documents

Publication Publication Date Title
Wang et al. Risk assessment of coronary heart disease based on cloud-random forest
CN107785057B (zh) 医疗数据处理方法、装置、存储介质和计算机设备
US9672326B2 (en) Determining disease state of a patient by mapping a topological module representing the disease, and using a weighted average of node data
CN110010252A (zh) 华法林给药剂量预测方法及装置
CN109920547A (zh) 一种基于电子病历数据挖掘的糖尿病预测模型构建方法
US9558324B2 (en) Artificial general intelligence system/medical reasoning system (MRS) for determining a disease state using graphs
CN107145715B (zh) 一种基于推举算法的临床医学智能判别装置
JP2022530868A (ja) 機械学習に基づくターゲットオブジェクト属性予測方法、関連機器及びコンピュータプログラム
CN109935337A (zh) 一种基于相似性度量的病案查找方法及系统
CN106845140A (zh) 一种基于尿比重和尿量监测的肾衰竭预警方法及系统
CN109192306A (zh) 一种糖尿病的判断装置、设备及计算机可读存储介质
Bhatia et al. Prediction of severity of diabetes mellitus using fuzzy cognitive maps
Mirzajani Prediction and diagnosis of diabetes by using data mining techniques
CN112967803A (zh) 基于集成模型的急诊患者早期死亡率预测方法及系统
Liu et al. Adapting bagging and boosting to learning classifier systems
CN110610766A (zh) 基于症状特征权重推导疾病概率的装置和存储介质
Angbera et al. Efficient fuzzy-based system for the diagnosis and treatment of tuberculosis (EFBSDTTB)
CN116598012A (zh) 一种基于联邦学习价值评估的慢性病医疗保健方法和系统
Tang et al. A neural network to pulmonary embolism aided diagnosis with a feature selection approach
CN113782197A (zh) 基于可解释性机器学习算法的新冠肺炎患者转归预测方法
CN108346471A (zh) 一种病理数据的分析方法及装置
Yazid et al. Clinical pathway variance prediction using artificial neural network for acute decompensated heart failure clinical pathway
CN115376658A (zh) 一种基于深度神经网络的融合表型和分子信息的中药处方人工智能评价方法
CN113066580A (zh) 一种医疗评分确定方法、装置、电子设备及存储介质
CN117672495B (zh) 基于人工智能的房颤合并冠心病患者远期死亡率预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190111