CN111081334B - 一种基于风险因素概率组合分析的慢性疾病早期预警方法 - Google Patents

一种基于风险因素概率组合分析的慢性疾病早期预警方法 Download PDF

Info

Publication number
CN111081334B
CN111081334B CN201911305884.0A CN201911305884A CN111081334B CN 111081334 B CN111081334 B CN 111081334B CN 201911305884 A CN201911305884 A CN 201911305884A CN 111081334 B CN111081334 B CN 111081334B
Authority
CN
China
Prior art keywords
risk factors
chronic
early warning
chronic disease
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911305884.0A
Other languages
English (en)
Other versions
CN111081334A (zh
Inventor
周春姐
戴鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ludong University
Original Assignee
Ludong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ludong University filed Critical Ludong University
Priority to CN201911305884.0A priority Critical patent/CN111081334B/zh
Publication of CN111081334A publication Critical patent/CN111081334A/zh
Application granted granted Critical
Publication of CN111081334B publication Critical patent/CN111081334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于风险因素概率组合分析的慢性疾病早期预警方法,包括以下步骤:收集数据,确定该慢性疾病的风险因素的基准组合RFx,确定对该慢性疾病影响最大的x个风险因素,进一步确定最佳的风险因素组合。本发明的有益之处在于:(1)综合考虑了生理指征、环境因素、病史记录、生活习惯等多维数据,与目前疾病模型的构建越来越趋向多维度的研究趋势相符;(2)数据集包含不同类型人的记录,实验结果非常具有代表性;(3)选取与慢性疾病相关的风险因素的概率组合方法,具有很好的通用性,并且可以推广到其他国家和地区;(4)对未来可能发展成慢性疾病的大部分患者给予预警,对预防和控制慢性疾病具有重要意义。

Description

一种基于风险因素概率组合分析的慢性疾病早期预警方法
技术领域
本发明涉及一种慢性疾病早期预警方法,具体涉及一种基于风险因素概率组合分析的慢性疾病早期预警方法,属于大数据和人工智能应用技术领域。
背景技术
世界卫生组织《2014年非传染性疾病国家概况》统计数据显示,慢性病已成为中国头号健康威胁,从2000年至2012年,我国肿瘤、II型糖尿病、心血管疾病这三种慢性病死亡总数达近700万,占所有死亡人数的70%,远高于全球平均占比(45%)。《柳叶刀》提出“中国主要的健康挑战是控制慢性病”。《柳叶刀》预测:如不积极应对,慢性病泛滥将对中国经济和社会产生巨大的负面影响。可见,慢性病已经成为一个重大的公共卫生问题,造成了相当高的发病率和死亡率。研究发现,如果能够提供慢性病的早期预警,通过改变生活方式和药物干预等,可以有效延缓慢性病的发展。因此,如何做好慢性病的早期预警成为亟待解决的问题。
对疾病进展进行建模已经引起了学术界的广泛关注。现有的研究工作可大概分为两种:低层模型和高层模型,下面分别进行阐述。
1、低层模型
现有的大部分研究工作只是简单地模拟了影响疾病进展的各项生理变化指标,并且只集中于某种特定的疾病,如肾病、心脏病。Hiragi等人提出了基于肾功能的微观模拟,并设计了慢性肾病模型。文献Discrepancies between the Cockcroft-Gault andChronic Kidney Disease Epidemiology(CKD-EPI)Equations:Implications forRefining Drug Dosage Adjustment Strategies(Delanaye P,Guerber F,Scheen A,etal.Clinical Pharmacokinetics,2017,56(2):193-205.)应用递归约束和区域控制的红细胞生成刺激性剂量,对慢性肾脏病贫血进行建模。Lausser等人利用生物功能基因组学的语义生物标记,构建了心力衰竭模型。文献Data mining for censored time-to-eventdata:a Bayesian network model for predicting cardiovascular risk fromelectronic health record data(Sunayan B,Wolfson J,Vock D,et al.Data Miningand Knowledge Discovery,2015,29(4):1033-1069.)从细胞分析的角度构建了心力衰竭模型。文献A study ofgeneralizability ofrecurrent neural network-basedpredictive models for heart failure onset risk using a large andheterogeneous EHR data set(Bekhet L,WuY,Wang N,et al.Journal ofBiomedicalInformatics,2018,84:11-16.)基于递归神经网络,提出了心力衰竭发作风险模型。
2、高层模型
另外一部分研究工作从医学实践所观察到的“高层”入手,直接对疾病发展趋势以及不同并发症的相互作用进行建模。苗等人使用改进的随机存活森林,构建了心力衰竭患者的医院死亡率模型。文献Multiple disease risk assessment withuniform modelbased on medical clinical notes(Shi X,Hu Y,Zhang Y,et al.IEEE Access,2017,4(99):7074-7083.)提出了多疾病风险统一模型。Nozomi Nori等人开发了一种预测多种疾病死亡率的同步模型,将多种死亡率预测作为一项多任务问题来制定。文献Illness-deathmodel in chronic disease epidemiology:characteristics of a related,differential equation and an inverse problem(Ralph B.Computational andMathematical Methods in Medicine,2018,5091096:1-6.)提出了慢性病流行病学中的疾病-死亡模型。文献Searching for biomarkers ofchronic obstructive pulmonarydisease using proteomics:The current state(Maddalena C,Salvini R,BardoniA,etal.Electrophoresis,2019,40(1):151-164.)利用电子健康档案的文本数据,构建慢性病预测模型。李等人提出了一种社会网络启发的乳腺癌分层预防风险评估模型。文献Diseaseprogression timeline estimation for Alzheimer's disease using discriminativeevent basedmodeling(Vikram V,Esther E,Wiro J,et al.NeuroImage,2019,186:518-532.)提出预测慢性病症状的建模方法。这些模型大多没有考虑数据样本的跨模态问题。
综上,现有方法存在以下不足:
(i)这些模型仅限于某种特定疾病,而不能很好地处理具有不同病因的病症;
(ii)这些建模方法通常只限于单个条件,当包含大量条件时,建模系统的复杂性就会急剧增加,而实际上大多数疾病经常伴随和引起多种并发症;
(iii)只有那些已经充分研究和实证的疾病才可以较准确地设定模型中的自由参数。
通过已有研究工作可知,疾病模型的构建越来越趋向多维度的考虑。我们都知道,海量的医疗数据具有实时高频、多源异构、关系复杂、个性随机等特点,这些特点使得及时发现异常、准确发出预警信号变得非常困难。
目前,在医学领域,已经发现了疾病相似性的作用,即某个人与某类慢性病患者的风险因素(rf)相似性越大,则其患上该类慢性病的风险就越高。
另外,研究发现,生活习惯、个人病史、精神压力等因素都和慢性病的发病概率息息相关。
基于此,本发明旨在找到一组相关的风险因素,从而对某类慢性病的发病概率做出早期预警。
发明内容
为解决现有技术的不足,本发明将医养健康与信息技术交叉融合,目的在于提供一种准确率较高、异常指标主动感知的基于风险因素概率组合分析的慢性疾病早期预警方法。
为了实现上述目标,本发明采用如下的技术方案:
一种基于风险因素概率组合分析的慢性疾病早期预警方法,其特征在于,包括以下步骤:
步骤1:收集数据
通过可穿戴技术收集某一慢性疾病患者和其亲属以及其他健康人的各种生理体征和各类可能与该慢性疾病有关的风险因素信息,并通过移动终端或电话线将收集的数据上传到云端;
步骤2:确定该慢性疾病的风险因素的基准组合RFx
将可能与该慢性疾病有关的每个风险因素定义为rf,首先在可能与该慢性疾病有关的全部风险因素中随机取i个不同的风险因素进行组合,i=1,2,...,N,N是rf的总数,得到
Figure BDA0002323065320000053
个集合,每个集合用
Figure BDA0002323065320000052
表示,j=1,...,i+1,然后求这
Figure BDA0002323065320000054
个集合的平均值,平均值用RFi表示,
Figure BDA0002323065320000051
最后针对不同的RFi对测试数据进行评估,绘出其ROC曲线,选择AUC较大且i较小的那一个集合作为该慢性疾病的风险因素的基准组合RFx
步骤3:确定对该慢性疾病影响最大的x个风险因素
在确定了基准组合RFx之后,我们需要从
Figure BDA0002323065320000055
个集合
Figure BDA0002323065320000056
中找到最佳的那一个集合,针对不同的
Figure BDA0002323065320000057
Figure BDA0002323065320000058
对测试数据进行评估,绘出其ROC曲线,选择AUC最大的那一个集合作为最佳的集合
Figure BDA0002323065320000059
步骤4:进一步确定最佳的风险因素组合
向最佳的集合
Figure BDA00023230653200000510
中逐个添加其他的风险因素,得到的新集合记为Rx+m,m=1,2,...,N-x,并计算ROC曲线的对数值,最终确定AUC最大的那一个新集合为最佳的风险因素组合。
前述的基于风险因素概率组合分析的慢性疾病早期预警方法,其特征在于,在步骤1中,前述生理体征包括:心率、血压和血糖。
前述的基于风险因素概率组合分析的慢性疾病早期预警方法,其特征在于,在步骤2和步骤3中,绘制ROC曲线时,灵敏度和1-特异性使用不同的阈值。
本发明的有益之处在于:
(1)本发明综合考虑了生理指征、环境因素、病史记录、生活习惯等多维数据,与目前疾病模型的构建越来越趋向多维度的研究趋势相符;
(2)数据集包含不同类型人的记录,实验结果非常具有代表性;
(3)选取与慢性疾病相关的风险因素的概率组合方法,具有很好的通用性,并且可以推广到其他国家和地区;
(4)对未来可能发展成慢性疾病的大部分患者给予预警,对预防和控制慢性疾病具有重要意义。
附图说明
图1是不同RFi的ROC曲线图;
图2是Rx和不同Rx+m的ROC曲线的对数值图;
图3是本发明提供的方法与已有方法的效率的比较图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
以慢性心力衰竭为例。
一、收集数据
通过可穿戴技术收集慢性心力衰竭患者和其亲属以及其他健康人的各种生理体征(例如:心率、血压、血糖等)和各类可能与慢性心力衰竭有关的风险因素信息(例如:感染情况,饮食习惯,心律失常,个人病史,精神压力,长期吸烟和酗酒,肥胖,过度体力消耗,心力衰竭家族史,运动习惯,环境因素),然后通过移动终端或电话线将收集的数据上传到云端。
在本具体实施例中,数据来自于我们的一个真实的科研项目——HeartCarer,这是一个面向家庭的远程监控系统,基于云平台,专门用于监控慢性心力衰竭患者并及时进行干预。该远程监控系统通过可穿戴技术监测慢性心力衰竭患者的各种生理体征(具体有:心率、血压、血糖等)和各类可能与慢性心力衰竭有关的风险因素信息(具体有:感染情况,饮食习惯,心律失常,个人病史,精神压力,长期吸烟和酗酒,肥胖,过度体力消耗,心力衰竭家族史,运动习惯,环境因素),并通过移动终端或电话线将监测到的数据上传到云端。
该远程监控系统已经应用于中国6家医疗机构的1026名慢性心力衰竭患者的临床观察研究中,这些慢性心力衰竭患者分别在2015年至2018年期间接受了护理。这些慢性心力衰竭患者多数超过60岁(63.8±12岁),并且大部分是男性(占70%)。
由于该远程监控系统中的可穿戴设备是分角色的,可供全家人使用,因此,这些患者的亲属的相关数据(各种生理体征和各类可能与慢性心力衰竭有关的风险因素信息)也包括在内,参与进来的患者的亲属大约有7500人,这些亲属的年龄从10岁到90岁不等。
另外,发起该科研项目的公司下属的所有分支机构的客户数据(各种生理体征和各类可能与慢性心力衰竭有关的风险因素信息)也被纳入了该项研究中,大约有105239人,这些人都不是慢性心力衰竭患者,都是健康的。
综上,我们收集的数据来自于1026名慢性心力衰竭患者、7500名慢性心力衰竭患者的亲属和105239名健康人,共计113765人,这些人的各类信息数据量超过100GB。
我们使用OrientDB Cluster来存储大规模矩阵图,使用HBase作为顶点属性,使用Hadoop MR进行数据分析和计算。随着人数的增加,将导致CPU和内存需求的高负载,从而降低处理速度,因此,我们将这113765人随机分为50组进行测试,每组约2275人,包括慢性心力衰竭患者和健康人。该集群包括8台运行CentOS 7.4操作系统的服务器,配备12核(24线程)Intel Xeon CPU,运行频率为2.80GHz,内存为64GB。
二、确定慢性心力衰竭的风险因素的基准组合RFx
将可能与慢性心力衰竭有关的每个风险因素(即候选风险因素)定义为rf。在本具体实施例中,可能与慢性心力衰竭有关的风险因素共有11个,其中,rf1=感染情况,rf2=饮食习惯,rf3=心律失常,rf4=个人病史,rf5=长期吸烟和酗酒,rf6=精神压力,rf7=肥胖,rf8=过度体力消耗,rf9=心力衰竭家族史,rf10=运动习惯,rf11=环境因素。
首先,在可能与慢性心力衰竭有关的全部风险因素中随机取i个不同的风险因素进行组合,i=1,2,...,N,N是rf的总数(在本具体实施例中,N=11),得到
Figure BDA0002323065320000081
个集合,每个集合用
Figure BDA0002323065320000085
表示,j=1,...,i+1。
例如:i=5,则从可能与慢性心力衰竭有关的全部(11个)风险因素中随机取5个不同的风险因素进行组合,得到
Figure BDA0002323065320000082
个集合,每个集合分别用
Figure BDA0002323065320000083
表示,表1列出了这
Figure BDA0002323065320000084
个随机集合的一部分。
表1
Figure BDA0002323065320000091
个不同的风险因素rf的组合选择
Figure BDA0002323065320000092
得到
Figure BDA0002323065320000093
个集合
Figure BDA0002323065320000094
后,求这
Figure BDA0002323065320000095
个集合的平均值,平均值用RFi表示,则有:
Figure BDA0002323065320000096
RFi可以用来表示某个人的健康指标,并将该人表示为各类风险因素的概率组合。
最后,针对不同的RFi,i=1,2,...,N,对测试数据进行评估,绘出其ROC曲线,其中灵敏度和1-特异性使用不同的阈值。通过ROC曲线下面积(AUC)来判断评估方法的优劣,AUC越大,该方法的评估值越好,从而确定慢性心力衰竭的风险因素的基准组合。在本具体实施例中,我们针对不同的RFi,对50组测试数据进行了评估,并绘出了其ROC曲线,绘出的ROC曲线如图1所示。从图1中可以看出:
(1)RF1、RF2、RF3和RF4的ROC曲线下面积(AUC)很小,RF5的ROC曲线下面积(AUC)比RF1、RF2、RF3、RF4的ROC曲线下面积(AUC)大,可见,RF5的评估结果明显比RF1、RF2、RF3、RF4的评估结果更好;
(2)RF6、RF7、RF8、RF9、RF10和RF11的ROC曲线下面积(AUC)与RF5的ROC曲线下面积(AUC)相近,可见,进一步增加的风险因素对评估结果并没有明显改善。
考虑到矩阵计算非常耗时,因此,我们选择RF5作为慢性心力衰竭的风险因素的基准组合。
我们将通过绘制ROC曲线得到的基准组合记为RFx,1≤x≤N,在本具体实施例中,x=5。
三、确定对慢性心力衰竭影响最大的x个风险因素
在确定了基准组合RFx之后,我们需要从
Figure BDA0002323065320000101
个集合
Figure BDA0002323065320000102
中找到最佳的那一个集合,从而确定对慢性心力衰竭影响最大的x个风险因素,具体的:
针对不同的
Figure BDA0002323065320000103
j=1,2,...,
Figure BDA0002323065320000104
对测试数据进行评估,绘出其ROC曲线,其中灵敏度和1-特异性使用不同的阈值。
在本具体实施例中,x=5,所以j=1,2,3,…,
Figure BDA0002323065320000105
我们需要从
Figure BDA0002323065320000106
个集合
Figure BDA0002323065320000107
中找到最佳的那一个集合,具体的,针对
Figure BDA0002323065320000108
个集合
Figure BDA0002323065320000109
对测试数据进行评估,分别绘出
Figure BDA0002323065320000111
的ROC曲线,通过比较可以看出,
Figure BDA0002323065320000112
对应的ROC曲线的AUC最大,其评估效果最好,所以我们选定
Figure BDA0002323065320000113
是最佳的那一个集合,从表1可知,
Figure BDA0002323065320000114
这个集合中含有感染情况、饮食习惯、心律失常、个人病史、精神压力这5个可能与慢性心力衰竭有关的风险因素。也就是说,与其他风险因素相比,感染情况、饮食习惯、心律失常、个人病史和精神压力对慢性心力衰竭的影响更大。
我们将从
Figure BDA0002323065320000115
个集合
Figure BDA0002323065320000116
中找到的最佳的那一个集合记为
Figure BDA0002323065320000117
Figure BDA0002323065320000118
Figure BDA0002323065320000119
在本具体实施例中,y=2。
四、进一步确定最佳的风险因素组合
为了使该方法具有最佳评估值,我们向集合
Figure BDA00023230653200001110
中逐个添加其他的风险因素,得到的新集合记为Rx+m,m=1,2,...,N-x,并计算ROC曲线的对数值,从而可以更清楚地看到结果的差异,以便发现最佳的风险因素组合。
在本具体实施例中,
Figure BDA00023230653200001111
Figure BDA00023230653200001112
向集合
Figure BDA00023230653200001114
中逐个添加其他的风险因素后,得到的新集合Rx+m的组成,具体见表2。
表2.不同RFs的组合选择
Figure BDA00023230653200001113
Figure BDA0002323065320000121
针对集合
Figure BDA0002323065320000122
和新集合Rx+m,我们对相应的测试数据进行了评估,计算了每一个集合的ROC曲线的对数值,计算结果如图2所示。由图2可知,当使用R9时,评估结果最佳,明显优于
Figure BDA0002323065320000123
而R10和R11的ROC曲线的对数值与R9非常接近。因此,通过ROC曲线的对数值我们确定R9是预测慢性心力衰竭的最佳的风险因素组合,即感染情况、饮食习惯、心律失常、个人病史、精神压力、长期吸烟和酗酒、肥胖、过度体力消耗、心力衰竭家族史这9个风险因素是预测慢性心力衰竭的最佳的风险因素组合。
我们通过使用不同的训练验证比例重新采样,在不同的训练集和验证集上对本发明提供的方法进行了整体性能的验证。不失一般性,我们使用的训练数据百分比分别为40%、50%和60%。我们用CorrectRatei表示包含i个风险因素的组合的准确率,实验验证结果见表3。
表3性能对比
Figure BDA0002323065320000131
由表3可知:
(1)使用60%的数据进行训练时,准确率最高,分别为0.7180、0.7641、0.7953、0.8391和0.8394,也就是说,本发明提供的方法最佳精度可达到84%左右,接近90%;
(2)使用50%的数据进行训练时,准确率分别为0.7069、0.7532、0.7832、0.8027和0.8046;
(3)使用40%的数据进行训练时,准确率最低,分别为0.6943、0.7346、0.7803、0.7986和0.7992;
(4)在同一训练数据百分比下,CorrectRate11大于CorrectRate1、CorrectRate3、CorrectRate5和CorrectRate9,并且CorrectRate11与CorrectRate9十分接近,这再一次认证了对于慢性心力衰竭而言,选择R9是最合适的。
此外,我们将本发明提供的方法与现有的传统方法——SVM法和ANN法的效率进行了比较,比较结果见图3。从图3中我们可以看到:
(1)当训练数据百分比几乎为0时,所有方法的效率都非常低;
(2)随着训练数据百分比的增加,三种方法的效率均有所提高,当训练数据百分比小于50%时,效率提高的速度较快,当训练数据百分比超过50%时,效率提高的速度放缓;
(3)当训练数据百分比小于50%时,SVM法的效率大于ANN法,当训练数据百分比大于50%时,SVM法的效率小于ANN法,这是因为SVM法适用于小样本学习,当涉及到大数定律时,SVM法的计算和存储性能不能满足要求;
(4)在这三种方法中,在相同训练数据百分比下,本发明提供的方法效率始终是最好的,随着训练数据百分比的增加,这个效率约为90%。
需要说明的是,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (3)

1.一种基于风险因素概率组合分析的慢性疾病早期预警方法,其特征在于,包括以下步骤:
步骤1:收集数据
通过可穿戴技术收集某一慢性疾病患者和其亲属以及其他健康人的各种生理体征和各类可能与该慢性疾病有关的风险因素信息,并通过移动终端或电话线将收集的数据上传到云端;
步骤2:确定该慢性疾病的风险因素的基准组合RFx
将可能与该慢性疾病有关的每个风险因素定义为rf,首先在可能与该慢性疾病有关的全部风险因素中随机取i个不同的风险因素进行组合,i=1,2,...,N,N是rf的总数,得到
Figure FDA0002323065310000011
个集合,每个集合用
Figure FDA0002323065310000012
表示,j=1,...,i+1,然后求这
Figure FDA0002323065310000013
个集合的平均值,平均值用RFi表示,
Figure FDA0002323065310000014
最后针对不同的RFi对测试数据进行评估,绘出其ROC曲线,选择AUC较大且i较小的那一个集合作为该慢性疾病的风险因素的基准组合RFx
步骤3:确定对该慢性疾病影响最大的x个风险因素
在确定了基准组合RFx之后,我们需要从
Figure FDA0002323065310000015
个集合
Figure FDA0002323065310000016
中找到最佳的那一个集合,针对不同的
Figure FDA0002323065310000017
对测试数据进行评估,绘出其ROC曲线,选择AUC最大的那一个集合作为最佳的集合
Figure FDA0002323065310000018
步骤4:进一步确定最佳的风险因素组合
向最佳的集合
Figure FDA0002323065310000019
中逐个添加其他的风险因素,得到的新集合记为Rx+m,m=1,2,...,N-x,并计算ROC曲线的对数值,最终确定AUC最大的那一个新集合为最佳的风险因素组合。
2.根据权利要求1所述的基于风险因素概率组合分析的慢性疾病早期预警方法,其特征在于,在步骤1中,所述生理体征包括:心率、血压和血糖。
3.根据权利要求1所述的基于风险因素概率组合分析的慢性疾病早期预警方法,其特征在于,在步骤2和步骤3中,绘制ROC曲线时,灵敏度和1-特异性使用不同的阈值。
CN201911305884.0A 2019-12-18 2019-12-18 一种基于风险因素概率组合分析的慢性疾病早期预警方法 Active CN111081334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911305884.0A CN111081334B (zh) 2019-12-18 2019-12-18 一种基于风险因素概率组合分析的慢性疾病早期预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911305884.0A CN111081334B (zh) 2019-12-18 2019-12-18 一种基于风险因素概率组合分析的慢性疾病早期预警方法

Publications (2)

Publication Number Publication Date
CN111081334A CN111081334A (zh) 2020-04-28
CN111081334B true CN111081334B (zh) 2023-04-18

Family

ID=70315294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911305884.0A Active CN111081334B (zh) 2019-12-18 2019-12-18 一种基于风险因素概率组合分析的慢性疾病早期预警方法

Country Status (1)

Country Link
CN (1) CN111081334B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724033A (zh) * 2020-05-14 2020-09-29 天津大学 一种基于随机集理论的洪灾风险评价与精细区划方法
CN114121190A (zh) * 2020-09-01 2022-03-01 四川大学华西医院 建立慢性心力衰竭患者共病情绪障碍早期预警模型的方法
CN112992375A (zh) * 2021-04-25 2021-06-18 南京汉卫公共卫生研究院有限公司 一种疾病的预警方法、预警装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102272327A (zh) * 2008-11-07 2011-12-07 赛昆塔公司 通过序列分析监测状况的方法
CN106980909A (zh) * 2017-03-30 2017-07-25 重庆大学 一种基于模糊线性回归的电影票房预测方法
CN107683341A (zh) * 2015-05-08 2018-02-09 新加坡科技研究局 用于慢性心力衰竭的诊断和预后的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018124831A1 (ko) * 2016-12-30 2018-07-05 서울대학교 산학협력단 대사이상 질환의 질병 위험도를 예측하는 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102272327A (zh) * 2008-11-07 2011-12-07 赛昆塔公司 通过序列分析监测状况的方法
CN107683341A (zh) * 2015-05-08 2018-02-09 新加坡科技研究局 用于慢性心力衰竭的诊断和预后的方法
CN106980909A (zh) * 2017-03-30 2017-07-25 重庆大学 一种基于模糊线性回归的电影票房预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
乔秋婷.面向高血压的慢性病管理辅助决策系统的研究.医药卫生科技 *
信息科技.2016,(第undefined期),全文. *
信息科技.2018,(第undefined期),全文. *
许晓莹.基于数据挖掘的心血管健康状态等级预测模型的研究.医药卫生科技 *

Also Published As

Publication number Publication date
CN111081334A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN111081334B (zh) 一种基于风险因素概率组合分析的慢性疾病早期预警方法
Ambekar et al. Disease risk prediction by using convolutional neural network
CN110246577B (zh) 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法
CN107194138B (zh) 一种基于体检数据建模的空腹血糖预测方法
Qu et al. Machine learning models of acute kidney injury prediction in acute pancreatitis patients
CN112967803A (zh) 基于集成模型的急诊患者早期死亡率预测方法及系统
Arora et al. A Novel Architecture for Diabetes Patients’ Prediction Using K‐Means Clustering and SVM
Altikardes et al. A novel method for dipper/non-dipper pattern classification in hypertensive and non-diabetic patients
Chen et al. A deep-learning based ultrasound text classifier for predicting benign and malignant thyroid nodules
He et al. Quantification of cognitive function in Alzheimer’s disease based on deep learning
EP2561457A1 (en) System and method of identifying when a patient undergoing hemodialysis is at increased risk of death by a logistic regression model
CN115116615A (zh) 一种对非酒精性脂肪肝风险的分析预测方法及系统
Adi et al. Stroke risk prediction model using machine learning
Hao et al. Phenotype correlations reveal the relationships of physiological systems underlying human ageing
Samet et al. Diabetes mellitus early stage risk prediction using machine learning algorithms
CN116453694A (zh) 基于有放回欠采样集成框架的疾病风险预测方法及系统
CN114566284A (zh) 疾病预后风险预测模型训练方法、装置及电子设备
Sumathi et al. Machine learning based pattern detection technique for diabetes mellitus prediction
He et al. Diabetes diagnosis and treatment research based on machine learning
Zadsafar et al. A model for Mesothelioma cancer diagnosis based on feature selection using Harris hawk optimization algorithm
Aggarwal A machine learning based approach for the identification of insulin resistance with non-invasive parameters using homa-IR
Tahsin et al. Predictive analysis & brief study of early-stage diabetes using multiple classifier models
Hassan et al. Prediction of Chronic Diseases using Machine Learning Classifiers
Liang et al. Prediction of patients with heart failure after myocardial infarction
Chen et al. Preoperative risk prediction of heart failure with numerical and textual attributes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant