CN112270994A - 一种风险预测模型的构建方法、设备、终端及存储介质 - Google Patents

一种风险预测模型的构建方法、设备、终端及存储介质 Download PDF

Info

Publication number
CN112270994A
CN112270994A CN202011096855.0A CN202011096855A CN112270994A CN 112270994 A CN112270994 A CN 112270994A CN 202011096855 A CN202011096855 A CN 202011096855A CN 112270994 A CN112270994 A CN 112270994A
Authority
CN
China
Prior art keywords
attribute data
value
model
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011096855.0A
Other languages
English (en)
Other versions
CN112270994B (zh
Inventor
冯新星
陈燕燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuwai Hospital of CAMS and PUMC
Original Assignee
Fuwai Hospital of CAMS and PUMC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuwai Hospital of CAMS and PUMC filed Critical Fuwai Hospital of CAMS and PUMC
Priority to CN202011096855.0A priority Critical patent/CN112270994B/zh
Publication of CN112270994A publication Critical patent/CN112270994A/zh
Application granted granted Critical
Publication of CN112270994B publication Critical patent/CN112270994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Abstract

本发明提出了一种风险预测模型的构建方法、设备、终端及存储介质,包括:获取糖尿病合并冠心病患者的属性数据;对属性数据进行评估,得到信息增益;建立模型;基于损失函数对模型进行性能评估,得到性能值;若模型的性能值与初始模型的性能值的差值不大于性能阈值,则生成新的数据集建立模型;若模型的性能值与初始模型的性能值的差值大于性能阈值,则将前一个模型作为最终模型。基于属性数据与深度神经网络建立针对糖尿病合并冠心病人的心血管死亡风险预测模型。通过本方案建立了针对糖尿病合并冠心病患者的心血管死亡风险预测模型,有助于建立个体化干预方案,降低糖尿病合并冠心病患者的死亡风险,提高该类患者的生存率。

Description

一种风险预测模型的构建方法、设备、终端及存储介质
技术领域
本发明涉及风险预测模型技术领域,特别涉及一种风险预测模型的构建方法、设备、终端及存储介质。
背景技术
糖尿病合并冠心病,区别于普通冠心病患者,冠脉病变弥漫而且复杂,经常容易合并糖尿病自主神经病变,很多病人心脏缺血症状较为隐匿,不容易早期识别及干预,导致心血管死亡风险高,社会危害极大。随着本世纪冠心病治疗技术的发展,糖尿病合并冠心病患者的预后得到了显著改善,在一定情况下减少了由于心血管导致死亡的风险,已有的治疗方案包括:标准的药物治疗、在药物治疗基础上的冠脉介入治疗和冠脉搭桥等,但由于糖尿病合并冠心病涉及到的病变情况复杂,目前糖尿病合并冠心病患者的死亡率仍然很高。
目前的治疗策略可以改善糖尿病合并冠心病患者的长期预后,但仍然有部分患者生存周期有限。在此情况下,如果能准确预测糖尿病合并冠心病患者心血管死亡风险,以及对死亡风险影响因素贡献大小作评估,有助于准确识别高危的糖尿病合并冠心病患者,做到及时有效干预。
但现有的针对糖尿病合并冠心病患者的风险因素的研究集中于评估单个危险因素对冠心病变患者预后的影响,缺少多个危险因素综合评估的研究,且不能对相关危险因素贡献度大小综合评估,没有一个有效的心血管死亡预测机制。
发明内容
有鉴于此,本发明提出了一种风险预测模型的构建方法、设备、终端及存储介质,通过本方案建立了针对糖尿病合并冠心病人的心血管死亡风险预测模型,有助于建立个体化干预方案,降低冠冠心病患者的死亡风险,提高严重冠心病患者生存率。
具体的,本发明提出了以下具体的实施例:
本发明提出了一种风险预测模型的构建方法,包括:
步骤S1、获取糖尿病合并冠心病患者的多个属性数据;
步骤S2、基于信息增益评价函数对各所述属性数据进行评估,得到各所述属性数据的信息增益,并基于多个所述属性数据组成数据集;
步骤S3、初始化迭代次数N,N=1;
步骤S4、第N次基于所述数据集在深度神经网络中进行训练生成模型;
步骤S5、基于损失函数对所述模型进行性能评估,得到性能值;
步骤S6、若所述性能值与初始模型的性能值的差值不大于性能阈值,从所述数据集剔除所述信息增益最小的一个或多个所述属性数据,并将所述迭代次数加1后作为N,返回步骤S4;所述初始模型为N=1时基于所有所述属性数据形成的所述数据集在深度神经网络中进行训练生成的;
步骤S7、若所述性能值与所述初始模型的性能值的差值大于性能阈值,将第N-1次生成的模型作为用于预测糖尿病合并冠心病人的心血管死亡风险的最终模型。
在一个具体的实施例中,所述属性数据关联有病例样本的数据;所述步骤S2,包括:
基于信息增益评价函数与所述病例样本的数据确定第一信息熵,且基于信息增益评价函数、所述属性数据及所述病例样本的数据确定第二信息熵;所述第一信息熵为所述病例样本中心血管死亡事件的信息熵;所述第二信息熵为不同的所述属性数据取值下的心血管死亡事件的信息熵;
基于所述第一信息熵与所述第二信息熵的差值确定各所述属性数据的信息增益。
在一个具体的实施例中,所述信息增益评价函数为:
G(D,A)=H(D)-H(D|A);
其中,G(D,A)为所述信息增益;
Figure BDA0002724045030000021
H(D)为第一信息熵;pi包括p0、p1
Figure BDA0002724045030000022
Figure BDA0002724045030000023
N0和N1分别为所述属性数据对应的糖尿病合并冠心病患者中没有发生心血管死亡事件和发生心血管死亡事件的病例数;
Figure BDA0002724045030000024
A为所述属性数据,a为所述属性数据的值;p(A=a)为所述属性数据的值为a时的概率;H(D|A=a)为当所述属性数据的值是a时的第二信息熵。
在一个具体的实施例中,所述步骤S6,包括:
若所述性能值与初始模型的性能值的差值不大于性能阈值,基于预设的剔除阈值从所述数据集剔除所述信息增益最小的一个或多个所述属性数据;
其中,剔除的一个所述属性数据的所述信息增益小于所述剔除阈值,或剔除的多个所述属性数据的所述信息增益的和小于所述剔除阈值。
在一个具体的实施例中,在将第N-1次生成的模型作为所述最终模型之后,该方法还包括:
将第N-1次生成的模型对应的所述数据集中信息增益最小的所述属性数据作为第一属性数据;
将第N-2次生成的模型对应的所述数据集中信息增益最小的所述属性数据作为第二属性数据;
基于所述第一属性数据与所述第二属性数据两者的信息增益确定针对所述属性数据的信息增益阈值。
在一个具体的实施例中,所述步骤S1,包括:
获取糖尿病合并冠心病患者的病例样本;其中,所述病例样本包括没有发生心血管死亡的第一病例样本和发生心血管死亡的第二病例样本;所述第一病例样本的数量大于所述第二病例样本的数量;
对所述第一病例样本进行随机下采样,以使所述第一病例样本的数量和所述第二病例样本的数量相同;
在所述第一病例样本与第二病例样本中获取属性数据。
在一个具体的实施例中,所述步骤S4,包括:
基于所述属性数据确定输入值,并基于所述属性数据关联的病例样本的数据确定输出值;
基于所述输入值与输出值确定所述深度神经网络中每个连接的权值以及每个神经元的偏差值;
基于所述权值与所述偏差值建立针对糖尿病合并冠心病人的心血管死亡风险预测模型。
本发明实施例还提出了一种风险预测模型的构建设备,包括:
获取模块,用于获取糖尿病合并冠心病患者的多个属性数据;
确定模块,用于基于信息增益评价函数对各所述属性数据进行评估,得到各所述属性数据的信息增益,并基于多个所述属性数据组成数据集;
初始化模块,用于初始化迭代次数N,N=1;
建立模块,用于第N次基于所述数据集在深度神经网络中进行训练生成模型;
评估模块,用于基于损失函数对所述模型进行性能评估,得到性能值;
迭代模块,用于若所述性能值与初始模型的性能值的差值不大于性能阈值,从所述数据集剔除所述信息增益最小的一个或多个所述属性数据,并将所述迭代次数加1后作为N,启动所述建立模块;所述初始模型为N=1时基于所有所述属性数据形成的所述数据集在深度神经网络中进行训练生成的;
处理模块,用于若所述性能值与所述初始模型的性能值的差值大于性能阈值,将第(N-1)
次生成的模型作为用于预测糖尿病合并冠心病人的心血管死亡风险的最终模型。
在一个具体的实施例中,所述属性数据关联有病例样本的数据;所述确定模块,用于:
基于信息增益评价函数与所述病例样本的数据确定第一信息熵,且基于信息增益评价函数、所述属性数据及所述病例样本的数据确定第二信息熵;所述第一信息熵为所述病例样本中心血管死亡事件的信息熵;所述第二信息熵为不同的所述属性数据取值下的心血管死亡事件的信息熵;
基于所述第一信息熵与所述第二信息熵的差值确定各所述属性数据的信息增益。
在一个具体的实施例中,所述信息增益评价函数为:
G(D,A)=H(D)-H(D|A);
其中,G(D,A)为所述信息增益;
Figure BDA0002724045030000041
H(D)为第一信息熵;pi包括p0、p1
Figure BDA0002724045030000042
Figure BDA0002724045030000043
N0和N1分别为所述属性数据对应的糖尿病合并冠心病患者中没有发生心血管死亡事件和发生心血管死亡事件的病例数;
Figure BDA0002724045030000044
A为所述属性数据,a为所述属性数据的值;p(A=a)为所述属性数据的值为a时的概率;H(D|A=a)为当所述属性数据的值是a时的第二信息熵。
在一个具体的实施例中,所述迭代模块,用于:
若所述性能值与初始模型的性能值的差值不大于性能阈值,基于预设的剔除阈值从所述数据集剔除所述信息增益最小的一个或多个所述属性数据;
其中,剔除的一个所述属性数据的所述信息增益小于所述剔除阈值,或剔除的多个所述属性数据的所述信息增益的和小于所述剔除阈值。
在一个具体的实施例中,还包括:信息增益阈值模块,用于在将第(N-1)次生成的模型作为所述最终模型之后,将第(N-1)次生成的模型对应的所述数据集中信息增益最小的所述属性数据作为第一属性数据;
将第(N-2)次生成的模型对应的所述数据集中信息增益最小的所述属性数据作为第二属性数据;
基于所述第一属性数据与所述第二属性数据两者的信息增益确定针对所述属性数据的信息增益阈值。
本发明实施例还提出了一种终端,包括用于执行上述方法的处理器。
相较于现有技术,本方案具有以下技术效果:
通过本方案建立了针对糖尿病合并冠心病人的心血管死亡风险预测模型,且该心血管死亡风险预测模型实现了对危险因素综合评估,以及对相关危险因素贡献度大小进行评估;因此本方案中的心血管死亡风险预测模型有助于建立个体化干预方案,降低冠冠心病患者的死亡风险,提高严重冠心病患者生存率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提出的一种风险预测模型的构建方法的流程示意图;
图2为本发明实施例提出的一种风险预测模型的构建设备的结构示意图;
图3为本发明实施例提出的一种终端的结构示意图。
具体实施方式
在下文中,将更全面地描述本公开的各种实施例。本公开可具有各种实施例,并且可在其中做出调整和改变。然而,应理解:不存在将本公开的各种实施例限于在此公开的特定实施例的意图,而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。
在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用,单数形式意在也包括复数形式,除非上下文清楚地另有指示。除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本公开的各种实施例中被清楚地限定。
实施例1
本发明实施例1公开了一种风险预测模型的构建方法,如图1以及图2所示,包括以下步骤:
步骤S1、获取糖尿病合并冠心病患者的多个属性数据;
在一个具体的实施例中,由于在实际获取到的数据中,没有发生心血管死亡的病例远多于发生心血管死亡的病例,由此步骤S1包括:获取糖尿病合并冠心病患者的病例样本;其中,所述病例样本包括没有发生心血管死亡的第一病例样本和发生心血管死亡的第二病例样本;所述第一病例样本的数量大于所述第二病例样本的数量;对所述第一病例样本进行随机下采样,以使所述第一病例样本的数量和所述第二病例样本的数量相同;在所述第一病例样本与第二病例样本中获取属性数据。
步骤S2、基于信息增益评价函数对各所述属性数据进行评估,得到各所述属性数据的信息增益,并基于多个所述属性数据组成数据集;
步骤S3、初始化迭代次数N,N=1;
步骤S4、第N次基于所述数据集在深度神经网络中进行训练生成模型;具体的,当N=1时,数据集中包括所有属性数据,生成的是初始模型;后续不断进行S4-S6的迭代,直到满足条件执行S7确定最终模型,即为需要建立的模型;具体的N≥1且N为正整数,用于标识执行S4的次数;
步骤S5、基于损失函数对所述模型进行性能评估,得到性能值;
步骤S6、若所述性能值与初始模型的性能值的差值不大于性能阈值,从所述数据集剔除所述信息增益最小的一个或多个所述属性数据,并将所述迭代次数加1后作为N,返回步骤S4;所述初始模型为N=1时基于所有所述属性数据形成的所述数据集在深度神经网络中进行训练生成的;
步骤S7、若所述性能值与所述初始模型的性能值的差值大于性能阈值,将第N-1次生成的模型作为用于预测糖尿病合并冠心病人的心血管死亡风险的最终模型。
具体的,通过对糖尿病合并冠心病患者进行多项指标的检查(在机器学习中,这些指标被称为属性),得到患者的属性数据,属性数据对应的属性可以有多种,例如性别、年龄、身高(cm)、身高(cm)、体重(kg)、入院日期、入组日期即造影检查日期、治疗策略、高血压病史、陈旧心梗史、既往心梗史类型、既往心梗次数、既往血运重建史、溶栓史等等多种,具体的每个属性对应有属性的值,每个值均可通过数字来进行标识,即使是非数值类型的值也通过数字来进行标识,例如性别为男通过1来进行标识,性别为女则通过2来进行标识;在一个实施例中,具体的属性数据中属性的名称及对应的值可以如表1所示:
表1
Figure BDA0002724045030000071
Figure BDA0002724045030000081
Figure BDA0002724045030000091
Figure BDA0002724045030000101
具体的,糖尿病合并冠心病患者的属性数据有多个类型,例如可以有:(1)相关属性:对于诊断有帮助,可以提升机器学习算法的效果;(2)无关属性:对于诊断没有任何帮助,不会给算法的效果带来任何提升;(3)冗余属性:不会对诊断带来新的信息,或者这种属性的信息可以由其他的属性推断出。具体的,属性数据的类型是相关属性、无关属性还是冗余属性,是基于重要程度,也即是信息增益来进行判断的,具体的信息增益是对后续需要建立的模型带来性能提升的能力。
此外,所述属性数据关联有病例样本的数据;所述步骤S2,包括:
基于信息增益评价函数与所述病例样本的数据确定第一信息熵,且基于信息增益评价函数、所述属性数据及所述病例样本的数据确定第二信息熵;所述第一信息熵为所述病例样本中心血管死亡事件的信息熵;所述第二信息熵为不同的所述属性数据取值下的心血管死亡事件的信息熵;
基于所述第一信息熵与所述第二信息熵的差值确定各所述属性数据的信息增益。
进一步的,所述属性数据关联有病例样本的数据;所述病例样本的数据中包含所有病例样本中发生心血管死亡事件的概率、所有病例样本中没有发生心血管死亡事件的概率、各所述属性数据不同取值对应的发生心血管死亡事件的概率、各所述属性数据不同取值对应的没有发生心血管死亡事件的概率;具体的具体的,属性数据和与属性数据相关联的病例样本的数据组成了样本数据,在确定各个属性数据的信息增益时,需要用到样本数据。由此,所述步骤S2,包括:
基于信息增益评价函数、所有病例样本中发生心血管死亡事件的概率、所有病例样本中没有发生心血管死亡事件的概率确定心血管死亡事件的信息熵;
基于信息增益评价函数、各所述属性数据不同取值对应的发生心血管死亡事件的概率、各所述属性数据不同取值对应的没有发生心血管死亡事件的概率确定各所述属性数据不同取值下心血管死亡事件的信息熵;
基于所述心血管死亡事件的信息熵与各所述属性数据不同取值下心血管死亡事件的信息熵的差值确定各所述属性数据的信息增益。
其中,具体步骤S2的所述信息增益评价函数为:
G(D,A)=H(D)-H(D|A);
其中,G(D,A)为所述信息增益;
Figure BDA0002724045030000102
H(D)为第一信息熵,也即心血管死亡事件的信息熵;pi包括p0、p1
Figure BDA0002724045030000111
N0和N1分别为所述属性数据中没有发生心血管死亡和发生心血管死亡的病例数;
Figure BDA0002724045030000112
A为所述属性,a为所述属性的值;p(A=a)为所述属性的值为a时的概率;H(D|A=a)为当所述属性的值是a时,基于没有发生心血管死亡事件的概率和发生心血管死亡事件的概率得到的信息熵,也即第二信息熵。
具体的,以属性Treatment strategy为例来进行对如何确定信息增益进行说明,属性Treatment strategy的重要性计算对应的心血管死亡事件的信息熵为:
H(D)=-(0.5*log(0.5)+0.5*log(0.5))=1;
具体的,基于步骤S1的具体流程,第一病例样本的数量和第二病例样本的数量相同,因为心血管死亡事件为0和1的样本相同,所以心血管死亡事件为0和1的概率为0.5。
如表1所示,属性Treatment strategy有三种取值(1,2,3);
1.当属性Treatment strategy为1时,心血管死亡事件的信息熵为:
H(D|Treatment strategy=1)=-(0.6449*log(0.6449)+0.3551*log(0.3551))=0.9385;其中Treatment strategy为1时心血管死亡事件为0的概率为0.6449,Treatmentstrategy为1时心血管死亡事件为1的概率为0.3551。
2.当属性Treatment strategy为2时,心血管死亡事件的信息熵为:
H(D|Treatment strategy=2)=-(0.7119*log(0.7119)+0.2881*log(0.2881))=0.8663;其中Treatment strategy为2时心血管死亡事件为0的概率为0.7119,Treatmentstrategy为2时心血管死亡事件为1的概率为0.2881。
3.当属性Treatment strategy为3时,心血管死亡事件的信息熵为:
H(D|Treatment strategy=3)=-(0.2381*log(0.2381)+0.7619*log(0.7619))=0.7919;其中Treatment strategy为3时心血管死亡事件为0的概率为0.2381,Treatmentstrategy为3时心血管死亡事件为1的概率为0.7619。
综上所述,引入属性Treatment strategy后,属性的三个值对应的心血管死亡事件的信息熵,也即第二信息熵为:
H(D|Treatment strategy)=(0.4125*0.9385+0.1987*0.8663+.3889*0.7919)=0.8671;其中,Treatment strategy为1的概率为0.4125,Treatment strategy为2的概率为0.1987,Treatment strategy为3的概率为0.3889。
因此属性Treatment strategy的信息增益为:
G(D,Treatment strategy)=H(D)-H(D|Treatment strategy)=1-0.8671
也即G(D,Treatment strategy)=0.1329。
参照计算上述属性Treatment strategy的信息增益的方法,计算表1中所有临床变量的信息增益,由于信息增益为0代表无法帮助模型进行性能提升,因此出于减少数据量的目的,可以先将信息增益为0的变量删除,得到表2;
表2
Figure BDA0002724045030000121
Figure BDA0002724045030000131
Figure BDA0002724045030000141
具体的,如表2所述的属性数据可以组成数据集,基于表2中的所有属性数据与深度神经网络建立的模型即为初始模型;在此情况下,基于步骤S6,不断进行迭代,每次迭代可以逐步删除信息增益最小的一个或多个属性数据,并将剩余的属性数据组成新的数据集来建立模型,并与初始模型进行比较,基于合适的性能阈值确定最终模型,具体的模型的性能阈值可以为0,或者根据性能要求选择其他数值作为性能阈值;若性能阈值为0代表删除了属性数据之后,训练得到的最终模型的性能相对初始模型不会降低。
例如所有属性数据的数量为20个,其中最小的属性数据为属性数据1,在此情况下,当N=1时,初始模型是基于包括20个属性数据的数据集在深度神经网络中训练得到的,这种情况下,由于训练生成的模型只有初始模型,性能值的差值为0,肯定不会大于性能阈值,需要剔除数据集中的属性数据1,对数据集进行更新,然后返回步骤S3,此时迭代次数加1,也即N=N+1,得到N=2,此时模型是基于包括19个属性数据的数据集在深度神经网络中训练得到的,得到的该模型与初始模型进行性能值得比较,以此迭代,直到满足S7的条件。
例如当基于表3中对应的所有属性数据得到的模型为最终模型。
表3
Figure BDA0002724045030000142
Figure BDA0002724045030000151
进一步的,所述步骤S6,包括:
若所述性能值与初始模型的性能值的差值不大于性能阈值,基于预设的剔除阈值从所述数据集剔除所述信息增益最小的一个或多个所述属性数据;
其中,剔除的一个所述属性数据的所述信息增益小于所述剔除阈值,或剔除的多个所述属性数据的所述信息增益的和小于所述剔除阈值。
具体的,剔除数据集中属性数据时,是基于剔除阈值来选择被剔除的属性数据的,例如当剔除阈值为0.0001,则每次剔除属性数据的信息增益的和需要小于但是靠近0.0001这个值,通过这种方式可以实现快速迭代,减少迭代的次数,提高得到最终模型的效率,具体的剔除阈值可根据经验进行设置与调整。
此外,考虑到后续可能得到新的属性数据,在此情况下,需要根据新的属性数据来训练得到新的最终模型,且希望这个过程尽可能快,不需要经过本方案的多次迭代过程,为此,在将第N-1次生成的模型作为所述最终模型之后,该方法还包括:
将第N-1次生成的模型对应的所述数据集中信息增益最小的所述属性数据作为第一属性数据;
将第N-2次生成的模型对应的所述数据集中信息增益最小的所述属性数据作为第二属性数据;
基于所述第一属性数据与所述第二属性数据两者的信息增益确定针对所述属性数据的信息增益阈值。
例如,如表2与表3所示,所述最终模型,也即第N-1次生成的模型对应的所述数据集中信息增益最小的所述属性数据为“TnI”、第N-2次生成的模型对应的所述数据集中信息增益最小的所述属性数据为“慢性肾功能不全病史”;
在此情况下,可以设置信息增益阈值的值为0.009833261825842321-0.010435200421651913之间,例如可以设置信息增益阈值为0.01。
根据本实施例中上述实际数据,例如可以设置信息增益阈值为0.01,即只保留信息增益大于0.01的属性数据作为训练模型的数据。如此,不需要经过多次迭代,可以基于该信息增益阈值直接从新的属性数据中筛选出训练模型用的数据,
仍以上述表1,表2的数据为例,基于该信息增益阈值的设置,如表3所示,输入模型的属性从表2中的81个减少到表3中19个,经过对模型的性能进行评估,可知模型性能有提升,具体的,可以通过二值预测对模型的性能进行评估涉及到的参数如表4所示:
表4二值预报结果的四种可能结果
预测的正类 预测的负类
真实的正类 正确的肯定(TP) 错误的否定(FN)
真实的负类 错误的肯定(FP) 正确的否定(TN)
具体的,性能评估可以为二值预测问题,正类表示死亡,负类表示存活。对于一个二值预测系统,其预测结果存在四种可能性,如表4所示。本身是正类又被正确地预测为正类的样本被称为正确的肯定,本身是负类又被正确地预测为负类的样本被称为正确的否定,本身是正类又被错误地预测为负类的样本被称为错误的否定,本身是负类又被错误地预测为正类的样本被称为错误的肯定。
基于表4所示的四类输出,定义如下两个指标刻画心血管死亡风险预测模型的性能:
TPrate=NTP/(NTP+NFN);其中,NTP是正确的肯定样本数,NFN是错误的否定样本数。TNrate=NTN/(NTN+NFP);NTN是正确的否定样本数,NFP是错误的肯定样本数。由此,TP rate和TN rate分别用于评价死亡预测的准确程度和存活预测的准确程度。通过10折交叉验证测试,本方案的心血管死亡风险预测模型对应的TP rate和TN rate均在70%以上,具体的性能评估如表5所示:
表5
性能指标 全部属性 属性选择
TP rate 0.583 0.750
TN rate 0.686 0.622
AUC(受试者工作特征曲线下的面积) 0.720 0.722
以此,如表5所示,输入模型的属性从表2中的81个减少到表3中19个,但是模型性能有较大提升。
此外,在一个具体的实施例中,
所述步骤S4,包括:基于所述属性数据确定输入值,并基于所述属性数据关联的病例样本的数据确定输出值;基于所述输入值与输出值确定所述深度神经网络中每个连接的权值以及每个神经元的偏差值;基于所述权值与所述偏差值建立针对糖尿病合并冠心病人的心血管死亡风险预测模型。
本方案使用深度神经网络建立糖尿病合并冠心病人群得心血管死亡风险预测模型。本发明使用的深度神经网络可以由4层组成,输入层19个节点,两个隐藏层分别为100个节点和10个节点,输出层为2个节点。输入端的网络称为输入层,输出端的网络称为输出层,输入层和输出层中间的所有网络都称为隐藏层。隐藏层数目比较多的神经网络,常常被称为多层感知机;为了应对隐藏层数较多带来的梯度消失问题引入了新的激活函数(如ReLU、maxout等函数),而神经网络建模,可以通过已知模型的输出y和输入x,求解每个连接的权值w和每个神经元上的偏差值b来进行。具体的,可以通过反向传播和梯度下降相结合来求解w和b的值。
此外,在数据样本量有限的条件下,层数较多的深度神经网络容易发生过拟合现象,为此,可以采用如下方案解决深度神经网络的过拟合问题:(1)及早停止训练。一旦发现在验证集合上性能(性能评价指标可以使用AUC值,AUC也即受试者工作特征曲线下的面积)下降,立即停止训练;(2)在损失函数(作用是计算预测值与真实值得差异,并利用该差异修正网络参数)上添加正则项。所谓正则项就是添加对模型复杂度的惩罚项,连接权值越大,惩罚越大。这样模型的优化目标就不仅仅是要预测偏差尽量小,同时还要预测所使用的模型尽量简单;(3)使用Dropout。就是每次随机选择一些神经元不参与训练,只有在预测的时候这些神经元才生效。这个神经元的输出结果要乘以一个概率值,降低贡献;(4)神经元权重加正则项。限制每个神经元的联结的权重的范数在一个阈值内。
通过本方案建立了针对糖尿病合并冠心病人的心血管死亡风险预测模型,且该心血管死亡风险预测模型实现了对危险因素综合评估,以及对相关危险因素贡献度大小进行评估;因此本方案中的心血管死亡风险预测模型有助于建立个体化干预方案,降低冠冠心病患者的死亡风险,提高严重冠心病患者生存率。
实施例2
为了对本发明进行进一步的说明,本发明实施例2还公开了一种风险预测模型的构建设备,如图2所示,包括
获取模块201,用于获取糖尿病合并冠心病患者的多个属性数据;
确定模块202,用于基于信息增益评价函数对各所述属性数据进行评估,得到各所述属性数据的信息增益,并基于多个所述属性数据组成数据集;
初始化模块203,用于初始化迭代次数N,N=1;
建立模块204,用于第N次基于所述数据集在深度神经网络中进行训练生成模型;
评估模块205,用于基于损失函数对所述模型进行性能评估,得到性能值;
迭代模块206,用于若所述性能值与初始模型的性能值的差值不大于性能阈值,从所述数据集剔除所述信息增益最小的一个或多个所述属性数据,并将所述迭代次数加1后作为N,启动所述建立模块;所述初始模型为N=1时基于所有所述属性数据形成的所述数据集在深度神经网络中进行训练生成的;
处理模块207,用于若所述性能值与所述初始模型的性能值的差值大于性能阈值,将第(N-1)次生成的模型作为用于预测糖尿病合并冠心病人的心血管死亡风险的最终模型。
在一个具体的实施例中,所述属性数据关联有病例样本的数据;所述确定模块202,用于:
基于信息增益评价函数与所述病例样本的数据确定第一信息熵,且基于信息增益评价函数、所述属性数据及所述病例样本的数据确定第二信息熵;所述第一信息熵为所述病例样本中心血管死亡事件的信息熵;所述第二信息熵为不同的所述属性数据取值下的心血管死亡事件的信息熵;
基于所述第一信息熵与所述第二信息熵的差值确定各所述属性数据的信息增益。
在一个具体的实施例中,所述信息增益评价函数为:
G(D,A)=H(D)-H(D|A);
其中,G(D,A)为所述信息增益;
Figure BDA0002724045030000191
H(D)为心血管死亡事件的信息熵;pi包括p0、p1
Figure BDA0002724045030000192
Figure BDA0002724045030000193
N0和N1分别为所述属性数据对应的糖尿病合并冠心病患者中没有发生心血管死亡事件和发生心血管死亡事件的病例数;
Figure BDA0002724045030000194
A为所述属性数据,a为所述属性数据的值;p(A=a)为所述属性数据的值为a时的概率;H(D|A=a)为当所述属性数据的值是a时的第二信息熵。
在一个具体的实施例中,
所述迭代模块206,用于:
若所述性能值与初始模型的性能值的差值不大于性能阈值,基于预设的剔除阈值从所述数据集剔除所述信息增益最小的一个或多个所述属性数据;
其中,剔除的一个所述属性数据的所述信息增益小于所述剔除阈值,或剔除的多个所述属性数据的所述信息增益的和小于所述剔除阈值。
还包括:信息增益阈值模块,用于在将第(N-1)次生成的模型作为所述最终模型之后,将第(N-1)次生成的模型对应的所述数据集中信息增益最小的所述属性数据作为第一属性数据;
将第(N-2)次生成的模型对应的所述数据集中信息增益最小的所述属性数据作为第二属性数据;
基于所述第一属性数据与所述第二属性数据两者的信息增益确定针对所述属性数据的信息增益阈值。
在一个具体的实施例中,所述获取模块201,用于:
获取糖尿病合并冠心病患者的病例样本;其中,所述病例样本包括没有发生心血管死亡的第一病例样本和发生心血管死亡的第二病例样本;所述第一病例样本的数量大于所述第二病例样本的数量;
对所述第一病例样本进行随机下采样,以使所述第一病例样本的数量和所述第二病例样本的数量相同;
在所述第一病例样本与第二病例样本中获取属性数据。
在一个具体的实施例中,所述建立模块204,用于:
基于所述属性数据确定输入值,并基于所述属性数据关联的病例样本的数据确定输出值;
基于所述输入值与输出值确定所述深度神经网络中每个连接的权值以及每个神经元的偏差值;
基于所述权值与所述偏差值建立针对糖尿病合并冠心病人的心血管死亡风险预测模型。
实施例3
本发明实施例3还公开了一种终端,包括用于执行实施例1中所述方法的处理器。具体的,本发明实施例3还公开有其他相关特征,具体的相关特征请参见实施例1中的记载。
本发明实施例还提供了【实体装置,例如终端设备】,如图3所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该终端可以为包括、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、电脑等任意终端设备,以终端为电脑为例:
图3示出的是与本发明实施例提供的终端相关的电脑的部分结构的框图。参考图3,电脑包括:存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity,WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图3中示出的结构并不构成对电脑的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图3对电脑的各个构成部件进行具体的介绍:
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而执行电脑的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电脑的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1530可用于接收输入的数字或字符信息,以及产生与电脑的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1580,并能接收处理器1580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及电脑的各种菜单。显示单元1540可包括显示面板1541,可选的,可以采用液晶显示器(LiquidCrystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1541。进一步的,触控面板1531可覆盖显示面板1541,当触控面板1531检测到在其上或附近的触摸操作后,传送给处理器1580以确定触摸事件的类型,随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图3中,触控面板1531与显示面板1541是作为两个独立的部件来实现电脑的输入和输入功能,但是在某些实施例中,可以将触控面板1531与显示面板1541集成而实现电脑的输入和输出功能。
音频电路1560、扬声器1561,传声器1562可提供用户与电脑机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出;
WiFi属于短距离无线传输技术,电脑通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图3示出了WiFi模块1570,但是可以理解的是,其并不属于电脑的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1580是电脑的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行电脑的各种功能和处理数据,从而对电脑进行整体监控。可选的,处理器1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580中。
电脑还包括给各个部件供电的电源1590(比如电池),优选的,电源可以通过电源管理系统与处理器1580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
在本发明实施例中,该终端所包括的处理器1580还具有执行以下步骤的功能:
步骤S1、获取糖尿病合并冠心病患者的多个属性数据;
步骤S2、基于信息增益评价函数对各所述属性数据进行评估,得到各所述属性数据的信息增益,并基于多个所述属性数据组成数据集;
步骤S3、初始化迭代次数N,N=1;
步骤S4、第N次基于所述数据集在深度神经网络中进行训练生成模型;
步骤S5、基于损失函数对所述模型进行性能评估,得到性能值;
步骤S6、若所述性能值与初始模型的性能值的差值不大于性能阈值,从所述数据集剔除所述信息增益最小的一个或多个所述属性数据,并将所述迭代次数加1后作为N,返回步骤S4;所述初始模型为N=1时基于所有所述属性数据形成的所述数据集在深度神经网络中进行训练生成的;
步骤S7、若所述性能值与所述初始模型的性能值的差值大于性能阈值,将第N-1次生成的模型作为用于预测糖尿病合并冠心病人的心血管死亡风险的最终模型。
进一步的,所述属性数据关联有病例样本的数据;所述步骤S2,包括:
基于信息增益评价函数与所述病例样本的数据确定第一信息熵,且基于信息增益评价函数、所述属性数据及所述病例样本的数据确定第二信息熵;所述第一信息熵为所述病例样本中心血管死亡事件的信息熵;所述第二信息熵为不同的所述属性数据取值下的心血管死亡事件的信息熵;
基于所述第一信息熵与所述第二信息熵的差值确定各所述属性数据的信息增益。
在一个具体的实施例中,所述信息增益评价函数为:
G(D,A)=H(D)-H(D|A);
其中,G(D,A)为所述信息增益;
Figure BDA0002724045030000231
H(D)为第一信息熵;pi包括p0、p1
Figure BDA0002724045030000232
Figure BDA0002724045030000233
N0和N1分别为所述属性数据对应的糖尿病合并冠心病患者中没有发生心血管死亡事件和发生心血管死亡事件的病例数;
Figure BDA0002724045030000234
A为所述属性数据,a为所述属性数据的值;p(A=a)为所述属性数据的值为a时的概率;H(D|A=a)为当所述属性数据的值是a时的第二信息熵。
所述步骤S6,包括:
若所述性能值与初始模型的性能值的差值不大于性能阈值,基于预设的剔除阈值从所述数据集剔除所述信息增益最小的一个或多个所述属性数据;
其中,剔除的一个所述属性数据的所述信息增益小于所述剔除阈值,或剔除的多个所述属性数据的所述信息增益的和小于所述剔除阈值。
在一个具体的实施例中,在将第N-1次生成的模型作为所述最终模型之后,该方法还包括:
将第N-1次生成的模型对应的所述数据集中信息增益最小的所述属性数据作为第一属性数据;
将第N-2次生成的模型对应的所述数据集中信息增益最小的所述属性数据作为第二属性数据;
基于所述第一属性数据与所述第二属性数据两者的信息增益确定针对所述属性数据的信息增益阈值。
在一个具体的实施例中,所述步骤S1,包括:
获取糖尿病合并冠心病患者的病例样本;其中,所述病例样本包括没有发生心血管死亡的第一病例样本和发生心血管死亡的第二病例样本;所述第一病例样本的数量大于所述第二病例样本的数量;
对所述第一病例样本进行随机下采样,以使所述第一病例样本的数量和所述第二病例样本的数量相同;
在所述第一病例样本与第二病例样本中获取属性数据。
在一个具体的实施例中,所述步骤S4,包括:
基于所述属性数据确定输入值,并基于所述属性数据关联的病例样本的数据确定输出值;
基于所述输入值与输出值确定所述深度神经网络中每个连接的权值以及每个神经元的偏差值;
基于所述权值与所述偏差值建立针对糖尿病合并冠心病人的心血管死亡风险预测模型。
实施例4
本发明实施例4还公开了一种存储介质,所述存储介质中存储有程序,所述程序运行时执行实施例1-3中任意一项所述方法。具体的,本发明实施例4还公开有其他相关的技术特征,具体其他相关的技术特征请参见实施例1-3中的记载,在此不再进行赘述。
在具体的实施过程中,存储介质包括:通用串行总线闪存盘(Universal SerialBus flash drive,USB)、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的存储介质。
在本发明实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性或其它的形式。
在本发明实施例中的各功能单元可以集成在一个处理单元中,或者各个单元也可以均是独立的物理模块。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备,例如可以是个人计算机,服务器,或者网络设备等,或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(universal serial bus flash drive)、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (14)

1.一种风险预测模型的构建方法,其特征在于,包括:
步骤S1、获取糖尿病合并冠心病患者的多个属性数据;
步骤S2、基于信息增益评价函数对各所述属性数据进行评估,得到各所述属性数据的信息增益,并基于多个所述属性数据组成数据集;
步骤S3、初始化迭代次数N,N=1;
步骤S4、第N次基于所述数据集在深度神经网络中进行训练生成模型;
步骤S5、基于损失函数对所述模型进行性能评估,得到性能值;
步骤S6、若所述性能值与初始模型的性能值的差值不大于性能阈值,从所述数据集剔除所述信息增益最小的一个或多个所述属性数据,并将所述迭代次数加1后作为N,返回步骤S4;所述初始模型为N=1时基于所有所述属性数据形成的所述数据集在深度神经网络中进行训练生成的;
步骤S7、若所述性能值与所述初始模型的性能值的差值大于性能阈值,将第N-1次生成的模型作为用于预测糖尿病合并冠心病人的心血管死亡风险的最终模型。
2.如权利要求1所述的方法,其特征在于,所述属性数据关联有病例样本的数据;所述步骤S2,包括:
基于信息增益评价函数与所述病例样本的数据确定第一信息熵,且基于信息增益评价函数、所述属性数据及所述病例样本的数据确定第二信息熵;所述第一信息熵为所述病例样本中心血管死亡事件的信息熵;所述第二信息熵为不同的所述属性数据取值下的心血管死亡事件的信息熵;
基于所述第一信息熵与所述第二信息熵的差值确定各所述属性数据的信息增益。
3.如权利要求1或2所述的方法,其特征在于,所述信息增益评价函数为:
G(D,A)=H(D)-H(D|A);
其中,G(D,A)为所述信息增益;
Figure FDA0002724045020000011
H(D)为第一信息熵;pi包括p0、p1
Figure FDA0002724045020000012
Figure FDA0002724045020000013
N0和N1分别为所述属性数据对应的糖尿病合并冠心病患者中没有发生心血管死亡事件和发生心血管死亡事件的病例数;
Figure FDA0002724045020000021
A为所述属性数据,a为所述属性数据的值;p(A=a)为所述属性数据的值为a时的概率;H(D|A=a)为当所述属性数据的值是a时的第二信息熵。
4.如权利要求1所述的方法,其特征在于,所述步骤S6,包括:
若所述性能值与初始模型的性能值的差值不大于性能阈值,基于预设的剔除阈值从所述数据集剔除所述信息增益最小的一个或多个所述属性数据;
其中,剔除的一个所述属性数据的所述信息增益小于所述剔除阈值,或剔除的多个所述属性数据的所述信息增益的和小于所述剔除阈值。
5.如权利要求1所述的方法,其特征在于,在将第N-1次生成的模型作为所述最终模型之后,该方法还包括:
将第N-1次生成的模型对应的所述数据集中信息增益最小的所述属性数据作为第一属性数据;
将第N-2次生成的模型对应的所述数据集中信息增益最小的所述属性数据作为第二属性数据;
基于所述第一属性数据与所述第二属性数据两者的信息增益确定针对所述属性数据的信息增益阈值。
6.如权利要求1所述的方法,其特征在于,所述步骤S1,包括:
获取糖尿病合并冠心病患者的病例样本;其中,所述病例样本包括没有发生心血管死亡的第一病例样本和发生心血管死亡的第二病例样本;所述第一病例样本的数量大于所述第二病例样本的数量;
对所述第一病例样本进行随机下采样,以使所述第一病例样本的数量和所述第二病例样本的数量相同;
在所述第一病例样本与第二病例样本中获取属性数据。
7.如权利要求1所述的方法,其特征在于,所述步骤S4,包括:
基于所述属性数据确定输入值,并基于所述属性数据关联的病例样本的数据确定输出值;
基于所述输入值与输出值确定所述深度神经网络中每个连接的权值以及每个神经元的偏差值;
基于所述权值与所述偏差值建立针对糖尿病合并冠心病人的心血管死亡风险预测模型。
8.一种风险预测模型的构建设备,其特征在于,包括:
获取模块,用于获取糖尿病合并冠心病患者的多个属性数据;
确定模块,用于基于信息增益评价函数对各所述属性数据进行评估,得到各所述属性数据的信息增益,并基于多个所述属性数据组成数据集;
初始化模块,用于初始化迭代次数N,N=1;
建立模块,用于第N次基于所述数据集在深度神经网络中进行训练生成模型;
评估模块,用于基于损失函数对所述模型进行性能评估,得到性能值;
迭代模块,用于若所述性能值与初始模型的性能值的差值不大于性能阈值,从所述数据集剔除所述信息增益最小的一个或多个所述属性数据,并将所述迭代次数加1后作为N,启动所述建立模块;所述初始模型为N=1时基于所有所述属性数据形成的所述数据集在深度神经网络中进行训练生成的;
处理模块,用于若所述性能值与所述初始模型的性能值的差值大于性能阈值,将第N-1次生成的模型作为用于预测糖尿病合并冠心病人的心血管死亡风险的最终模型。
9.如权利要求8所述的设备,其特征在于,所述属性数据关联有病例样本的数据;所述确定模块,用于:
基于信息增益评价函数与所述病例样本的数据确定第一信息熵,且基于信息增益评价函数、所述属性数据及所述病例样本的数据确定第二信息熵;所述第一信息熵为所述病例样本中心血管死亡事件的信息熵;所述第二信息熵为不同的所述属性数据取值下的心血管死亡事件的信息熵;
基于所述第一信息熵与所述第二信息熵的差值确定各所述属性数据的信息增益。
10.如权利要求8或9所述的设备,其特征在于,所述信息增益评价函数为:
G(D,A)=H(D)-H(D|A);
其中,G(D,A)为所述信息增益;
Figure FDA0002724045020000041
H(D)为第一信息熵;pi包括p0、p1
Figure FDA0002724045020000042
Figure FDA0002724045020000043
N0和N1分别为所述属性数据对应的糖尿病合并冠心病患者中没有发生心血管死亡事件和发生心血管死亡事件的病例数;
Figure FDA0002724045020000044
A为所述属性数据,a为所述属性数据的值;p(A=a)为所述属性数据的值为a时的概率;H(D|A=a)为当所述属性数据的值是a时的第二信息熵。
11.如权利要求8所述的设备,其特征在于,所述迭代模块,用于:
若所述性能值与初始模型的性能值的差值不大于性能阈值,基于预设的剔除阈值从所述数据集剔除所述信息增益最小的一个或多个所述属性数据;
其中,剔除的一个所述属性数据的所述信息增益小于所述剔除阈值,或剔除的多个所述属性数据的所述信息增益的和小于所述剔除阈值。
12.如权利要求8所述的设备,其特征在于,还包括:信息增益阈值模块,用于在将第N-1次生成的模型作为所述最终模型之后,将第N-1次生成的模型对应的所述数据集中信息增益最小的所述属性数据作为第一属性数据;
将第N-2次生成的模型对应的所述数据集中信息增益最小的所述属性数据作为第二属性数据;
基于所述第一属性数据与所述第二属性数据两者的信息增益确定针对所述属性数据的信息增益阈值。
13.一种终端,其特征在于,包括用于执行权利要求1-6中任意一项所述方法的处理器。
14.一种存储介质,其特征在于,所述存储介质中存储有程序,所述程序运行时执行权利要求1-6中任意一项所述方法。
CN202011096855.0A 2020-10-14 2020-10-14 一种风险预测模型的构建方法、设备、终端及存储介质 Active CN112270994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011096855.0A CN112270994B (zh) 2020-10-14 2020-10-14 一种风险预测模型的构建方法、设备、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011096855.0A CN112270994B (zh) 2020-10-14 2020-10-14 一种风险预测模型的构建方法、设备、终端及存储介质

Publications (2)

Publication Number Publication Date
CN112270994A true CN112270994A (zh) 2021-01-26
CN112270994B CN112270994B (zh) 2021-08-17

Family

ID=74338007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011096855.0A Active CN112270994B (zh) 2020-10-14 2020-10-14 一种风险预测模型的构建方法、设备、终端及存储介质

Country Status (1)

Country Link
CN (1) CN112270994B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113113131A (zh) * 2021-03-24 2021-07-13 南京途博科技有限公司 死亡风险预测模型的生成方法、终端及计算机存储介质
CN113823411A (zh) * 2021-09-26 2021-12-21 萱闱(北京)生物科技有限公司 风险预测模型的训练方法、装置、介质和计算设备
CN114743619A (zh) * 2022-04-20 2022-07-12 山东大学齐鲁医院 一种用于疾病风险预测的调查问卷质量评价方法及系统
CN115394448A (zh) * 2022-10-28 2022-11-25 合肥伊阳健康科技有限公司 冠心病运动反应性预测模型的建模方法、模型、设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101688327A (zh) * 2007-02-16 2010-03-31 不列颠哥伦比亚大学 Serpine1多态性预测对活化蛋白c给药的应答和死亡风险
CN103038772A (zh) * 2010-03-15 2013-04-10 新加坡保健服务集团有限公司 预测患者的存活性的方法
CN103201743A (zh) * 2010-11-08 2013-07-10 皇家飞利浦电子股份有限公司 患者疾病严重性、死亡率和住院时长的连续预测方法
CN106355034A (zh) * 2016-09-28 2017-01-25 湖南老码信息科技有限责任公司 一种基于增量式神经网络模型的亚健康预测方法和预测系统
CN106529729A (zh) * 2016-11-18 2017-03-22 同济大学 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统
CN109938723A (zh) * 2019-03-08 2019-06-28 度特斯(大连)实业有限公司 一种人体疾病风险的判别方法及设备
CN110299207A (zh) * 2019-05-08 2019-10-01 天津市第四中心医院 用于慢性病检测中的基于计算机预测模型数据处理方法
CN110458244A (zh) * 2019-08-20 2019-11-15 合肥工业大学 一种应用于区域路网的交通事故严重度预测方法
CN110634566A (zh) * 2019-09-24 2019-12-31 成都成信高科信息技术有限公司 一种中医临床诊断数据处理系统及方法、信息数据处理终端
CN111292853A (zh) * 2020-01-15 2020-06-16 长春理工大学 基于多参数的心血管疾病风险预测网络模型及其构建方法
CN111489827A (zh) * 2020-04-10 2020-08-04 吉林大学 一种基于关联决策树的甲状腺疾病预测建模方法
CN111540471A (zh) * 2020-05-12 2020-08-14 西安交通大学医学院第一附属医院 一种基于用户健康数据的健康状态跟踪及预警方法和系统
CN111613337A (zh) * 2020-05-15 2020-09-01 首都医科大学 一种重症监护病房用的智能化谵妄评估系统及评估方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101688327A (zh) * 2007-02-16 2010-03-31 不列颠哥伦比亚大学 Serpine1多态性预测对活化蛋白c给药的应答和死亡风险
CN103038772A (zh) * 2010-03-15 2013-04-10 新加坡保健服务集团有限公司 预测患者的存活性的方法
CN103201743A (zh) * 2010-11-08 2013-07-10 皇家飞利浦电子股份有限公司 患者疾病严重性、死亡率和住院时长的连续预测方法
CN106355034A (zh) * 2016-09-28 2017-01-25 湖南老码信息科技有限责任公司 一种基于增量式神经网络模型的亚健康预测方法和预测系统
CN106529729A (zh) * 2016-11-18 2017-03-22 同济大学 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统
CN109938723A (zh) * 2019-03-08 2019-06-28 度特斯(大连)实业有限公司 一种人体疾病风险的判别方法及设备
CN110299207A (zh) * 2019-05-08 2019-10-01 天津市第四中心医院 用于慢性病检测中的基于计算机预测模型数据处理方法
CN110458244A (zh) * 2019-08-20 2019-11-15 合肥工业大学 一种应用于区域路网的交通事故严重度预测方法
CN110634566A (zh) * 2019-09-24 2019-12-31 成都成信高科信息技术有限公司 一种中医临床诊断数据处理系统及方法、信息数据处理终端
CN111292853A (zh) * 2020-01-15 2020-06-16 长春理工大学 基于多参数的心血管疾病风险预测网络模型及其构建方法
CN111489827A (zh) * 2020-04-10 2020-08-04 吉林大学 一种基于关联决策树的甲状腺疾病预测建模方法
CN111540471A (zh) * 2020-05-12 2020-08-14 西安交通大学医学院第一附属医院 一种基于用户健康数据的健康状态跟踪及预警方法和系统
CN111613337A (zh) * 2020-05-15 2020-09-01 首都医科大学 一种重症监护病房用的智能化谵妄评估系统及评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
缪琦: ""基于随机森林和支持向量机的糖尿病风险预测方法研究"", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113113131A (zh) * 2021-03-24 2021-07-13 南京途博科技有限公司 死亡风险预测模型的生成方法、终端及计算机存储介质
CN113113131B (zh) * 2021-03-24 2024-02-13 南京途博科技有限公司 死亡风险预测模型的生成方法、终端及计算机存储介质
CN113823411A (zh) * 2021-09-26 2021-12-21 萱闱(北京)生物科技有限公司 风险预测模型的训练方法、装置、介质和计算设备
CN114743619A (zh) * 2022-04-20 2022-07-12 山东大学齐鲁医院 一种用于疾病风险预测的调查问卷质量评价方法及系统
CN114743619B (zh) * 2022-04-20 2024-03-29 山东大学齐鲁医院 一种用于疾病风险预测的调查问卷质量评价方法及系统
CN115394448A (zh) * 2022-10-28 2022-11-25 合肥伊阳健康科技有限公司 冠心病运动反应性预测模型的建模方法、模型、设备

Also Published As

Publication number Publication date
CN112270994B (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN112270994B (zh) 一种风险预测模型的构建方法、设备、终端及存储介质
Ambekar et al. Disease risk prediction by using convolutional neural network
JP6541868B2 (ja) 再帰型ニューラルネットワークを使用する、条件が満足される尤度の予測
Subanya et al. Feature selection using artificial bee colony for cardiovascular disease classification
Akter et al. Comprehensive performance assessment of deep learning models in early prediction and risk identification of chronic kidney disease
JP2018526697A (ja) 再帰型ニューラルネットワークを使用する健康イベントの分析
US20220044809A1 (en) Systems and methods for using deep learning to generate acuity scores for critically ill or injured patients
JP2020518050A (ja) エンティティ間のコンテキスト的類似度の学習及び適用
CN114724716A (zh) 进展为2型糖尿病的风险预测的方法、模型训练及装置
US20210257067A1 (en) State transition prediction device, and device, method, and program for learning predictive model
Mahmoud et al. Data mining and ontology-based techniques in healthcare management
WO2018036402A1 (zh) 模型中关键变量的探测方法及装置
CN113470799B (zh) 一种医院综合质量监督平台智能化编辑器
US20210334681A1 (en) Electronic device and method for turnover rate prediction
CN109979591B (zh) 一种基于图神经网络分析斑块进展因子的方法及装置
US10846616B1 (en) System and method for enhanced characterization of structured data for machine learning
Verma et al. A machine learning-based predictive model for 30-day hospital readmission prediction for copd patients
US20200005940A1 (en) System and method for generating a care services combination for a user
TWI790479B (zh) 生理狀態評估方法與生理狀態評估裝置
Patnaik Intelligent Decision Support System in Healthcare using Machine Learning Models
Sumathi et al. Machine learning based pattern detection technique for diabetes mellitus prediction
CN109192306A (zh) 一种糖尿病的判断装置、设备及计算机可读存储介质
CN113113131B (zh) 死亡风险预测模型的生成方法、终端及计算机存储介质
Pizarroso et al. Metric Tools for Sensitivity Analysis with Applications to Neural Networks
Imperiale et al. Risk stratification strategies for colorectal cancer screening: from logistic regression to artificial intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant