CN105095673A - 一种基于医疗大数据挖掘的慢性病风险模型的构建方法 - Google Patents
一种基于医疗大数据挖掘的慢性病风险模型的构建方法 Download PDFInfo
- Publication number
- CN105095673A CN105095673A CN201510531445.7A CN201510531445A CN105095673A CN 105095673 A CN105095673 A CN 105095673A CN 201510531445 A CN201510531445 A CN 201510531445A CN 105095673 A CN105095673 A CN 105095673A
- Authority
- CN
- China
- Prior art keywords
- hazards
- chronic disease
- confidence
- combination
- support
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种基于医疗大数据挖掘的慢性病风险模型的构建方法,其包括以下步骤:确定慢性病的若干个危险因素,获得参与调查的人群含有危险因素及患有慢性病的临床统计数据;对慢性病的若干个危险因素进行任意组合获得n种危险因素组合,计算每个危险因素组合在医疗统计数据中的支持度和置信度;设置最小支持度和最小置信度,选择出支持度和置信度大于最小支持度和最小置信度的危险因素组合;通过危险因素组合构建慢性病风险模型,慢性病风险模型为慢性病与每种危险因素同时出现的概率,具体是指每种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的概率。本发明可广泛应用于慢性病风险模型的构建中。
Description
技术领域
本发明涉及一种模型的构建方法,特别是关于一种基于医疗大数据挖掘的慢性病风险模型的构建方法。
背景技术
心脏病、脑卒中、肿瘤、慢性呼吸道疾病、糖尿病等慢性病造成严重的社会负担,并呈现出快速上升和年轻化趋势。世界卫生组织2005的一项报告显示对心脏病、中风、癌症和其他慢性病长期存在的误解助长了全球对它们的忽视:2005年因慢性病造成的死亡人数将达3500万,其中80%以上发生在低收入和中等收入国家。报告强调了对慢性病的日益严重性要有所预测和了解,并紧急对其采取行动,这就要求那些能够加强慢性病预防和控制工作的各国领袖以及国际公共卫生界对此采取新的策略,其中,至关重要的第一步是将最新和最准确的知识和信息传授给一线卫生专业人员和广大公众。
遗传因素和不健康生活方式是慢性病发生的根本原因,家庭成员相似的遗传背景和共同的生活习惯,使得慢性病的发生常表现出明显的家族聚集性。高血压、糖尿病、血脂异常、肥胖、冠心病、脑卒中和肿瘤均为多基因遗传病,同时受环境和心理因素的影响。遗传因素与环境因素作用的总和决定一个人是否易于患病,即易患性,这种易患性高到一定的程度(超过阈值)时才会发病。显然,为预防发病,疾病的遗传度越高,就越应该注意控制环境和心理因素的影响,以防止其易患性达到发病的阈值。那种只讲遗传,忽视可改变危险因素干预的宿命论观点是完全错误的,事实上,80%以上的心脏病、脑卒中和糖尿病,40%以上的肿瘤都是可以预防的。
年龄、性别、遗传、高血压、糖尿病、血脂异常、超重和肥胖、不健康膳食、缺乏身体活动、吸烟、精神压力过大、过量饮酒等都是慢性病事件的危险因素。除年龄、性别和遗传背景无法改变外,其他危险因素都是可以干预的。慢性病危险因素间常存在协同作用,即两个危险因素同时存在时,其致病作用远远高于两个因素单独存在时的作用之和。因此,针对所有危险因素进行综合干预效果是最好的。
合理的科学依据为综合或者特定慢性病的健康评估模型,健康评估起源于临床护理,最初是对疾病损害程度的判断工具,后来演化为临床决策和预测的有力助手,基本方法是问卷量表、体检问卷、临床指数公式、评分表和评估模型,采集数据的来源可以是体检数据和各大医院的医疗病例记录。针对某种慢性病的评估模型能够在一定可靠度下对人群的发病风险程度进行划分。
因此,进一步推进我国慢性病高危人群筛查及干预工作、探索其有效防治途径与策略至关重要,可有效提高我国居民发病危险因素知晓率和控制率,降低慢性病的发生率、复发率、死亡率和致残率,从而减轻慢性病给社会和家庭带来的经济负担和疾病负担,提高国民健康水平。
现有慢性病风险模型参差不齐,多数过于简单,缺乏数据支持,不够精确、危险程度划分过粗糙、高危人群过于广泛等缺陷。
发明内容
针对上述问题,本发明的目的是提供一种精确合理、简单易用的基于医疗大数据挖掘的慢性病风险模型的构建方法。
为实现上述目的,本发明采取以下技术方案:一种基于医疗大数据挖掘的慢性病风险模型的构建方法,其包括以下步骤:
1)确定慢性病的若干个危险因素,获得参与调查的人群含有危险因素及是否患有慢性病的医疗统计数据;
2)对慢性病的若干个危险因素进行任意组合获得n种危险因素组合,其中,n为正整数;将每个危险因素组合作为关联规则中的先导X,将慢性病作为关联规则中的后继Y,计算每个危险因素组合在医疗统计数据中的支持度和置信度;
3)设置最小支持度和最小置信度,在n种危险因素组合中选择出支持度和置信度在最小支持度和最小置信度以上的危险因素组合;
4)通过危险因素组合构建慢性病风险模型,其为慢性病与每种危险因素同时出现的概率,具体是指每种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的概率。
所述步骤2)中,每个危险因素组合在医疗统计数据中的支持度为既包含危险因素组合且又包含慢性病的数据在临床统计数据中的概率;每个危险因素组合在临床统计数据中的置信度为既包含危险因素组合且又包含慢性病的数据在包含危险因素组合的数据中的概率。
所述步骤4)中,所述每种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的概率pi为:
pi=ni/N;
式中,pi为第i种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的概率;ni为第i种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的次数;N为支持度和置信度高于最小支持度和最小置信度的危险因素组合数。
本发明由于采取以上技术方案,其具有以下优点:本发明由于采用通过关联规则从大量统计数据中挖掘出慢性病的危险因素与慢性病之间有价值的相关关系构建慢性病风险模型,在慢性病风险模型中,更加简明清晰地显示了慢性病与各个危险因素同时发病的概率,使得人们可以在发现某个危险因素后及时有效地采取慢性病的有效防治措施,从而减轻慢性病给社会和家庭带来的经济负担和疾病负担。综上所述,本发明可以广泛应用于慢性病风险模型的构建中。
附图说明
图1是本发明的基于临床大数据挖掘的慢性病风险模型的构建流程示意图;
图2是本发明的实施例中各个危险因素的出现次数柱状图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
如图1所示,本发明提供一种基于医疗大数据挖掘的慢性病风险模型的构建方法,其包括以下步骤:
1)确定慢性病的若干个危险因素,通过慢性病筛查与防控工程的实施获得参与人群含有危险因素及是否患有慢性病的医疗统计数据。
2)对慢性病的若干个危险因素进行任意组合获得n种危险因素组合,其中,n为正整数。将每个危险因素组合作为关联规则中的先导X,将慢性病作为关联规则中的后继Y,计算每个危险因素组合在医疗统计数据中的支持度supp(XY)和置信度conf(Y|X)。
其中,每个危险因素组合在医疗统计数据中的支持度supp(XY)为既包含危险因素组合且又包含慢性病的数据在医疗统计数据中的概率;置信度conf(Y|X)为既包含危险因素组合且又包含慢性病的数据在包含危险因素组合的数据中的概率。
3)设置最小支持度和最小置信度,在n种危险因素组合中选择出支持度和置信度在最小支持度和最小置信度以上的危险因素组合。
4)通过危险因素组合构建慢性病风险模型;其中,慢性病风险模型为慢性病与每种危险因素同时出现的概率,具体是指每种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的概率pi,计算公式如下:
pi=ni/N(1)
式中,ni为第i种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的次数;N为支持度和置信度高于最小支持度和最小置信度的危险因素组合数。
实施例
1)确定慢性病脑卒中的危险因素包括短暂性脑缺血、高血压病、房颤或瓣膜性心脏病、吸烟、血脂异常、糖尿病、缺乏锻炼、肥胖和脑卒中家族史,共9个,通过脑卒中高危人群筛查和干预试点项目的实施获得参与人群的医疗统计数据,共计862244人的有效数据。
2)对脑卒中的9个危险因素进行任意组合获得511种危险因素组合,将每个危险因素组合作为关联规则中的先导X,将脑卒中作为关联规则中的后继Y,计算每个危险因素组合在医疗统计数据中的支持度supp(XY)和置信度conf(Y|X)。其中,单独因素的支持度supp(XY)和置信度conf(Y|X)的计算结果如表1所示。
表1脑卒中单独因素的支持度和置信度
危险因素 | 支持度 | 置信度 |
短暂性脑缺血 | 0.55% | 16.93% |
高血压病 | 1.34% | 6.31% |
房颤或瓣膜性心脏病 | 0.22% | 7.95% |
吸烟 | 0.42% | 2.34% |
血脂异常 | 0.99% | 3.15% |
糖尿病 | 0.36% | 6.30% |
缺乏锻炼 | 0.58% | 2.94% |
肥胖 | 0.63% | 3.64% |
脑卒中家族史 | 0.48% | 6.92% |
3)设置最小支持度supp(XY)为0.1%和最小置信度conf(Y|X)为10%,在511种危险因素组合中选择出支持度和置信度在最小支持度和最小置信度以上的危险因素组合,共21种,如表2所示。
表221种危险因素组合的支持度和置信度
危险因素组合 | 支持度 | 置信度 |
短暂性脑缺血 | 0.55% | 16.93% |
短暂性脑缺血、高血压病 | 0.37% | 22.43% |
短暂性脑缺血、房颤或瓣膜性心脏病 | 0.11% | 23.94% |
短暂性脑缺血、吸烟 | 0.11% | 18.98% |
短暂性脑缺血、血脂异常 | 0.28% | 15.99% |
短暂性脑缺血、缺乏锻炼 | 0.19% | 18.95% |
短暂性脑缺血、肥胖 | 0.17% | 20.43% |
短暂性脑缺血、脑卒中家族史 | 0.16% | 21.52% |
高血压病、房颤或瓣膜性心脏病 | 0.15% | 11.60% |
高血压病、糖尿病 | 0.27% | 10.24% |
高血压病、脑卒中家族史 | 0.36% | 11.81% |
短暂性脑缺血、高血压病、血脂异常 | 0.20% | 21.73% |
短暂性脑缺血、高血压病、缺乏锻炼 | 0.14% | 24.78% |
短暂性脑缺血、高血压病、肥胖 | 0.13% | 24.52% |
短暂性脑缺血、高血压病、脑卒中家族史 | 0.11% | 27.17% |
短暂性脑缺血、血脂异常、缺乏锻炼 | 0.11% | 18.58% |
高血压病、血脂异常、糖尿病 | 0.17% | 11.66% |
高血压病、血脂异常、脑卒中家族史 | 0.21% | 12.50% |
高血压病、糖尿病、肥胖 | 0.12% | 11.77% |
高血压病、缺乏锻炼、脑卒中家族史 | 0.12% | 13.20% |
高血压病、肥胖、脑卒中家族史 | 0.14% | 12.52% |
4)通过危险因素组合构建脑卒中风险模型。
脑卒中风险模型为脑卒中与每种危险因素同时出现的概率,具体是指每种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的概率pi。
其中,计算每种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的概率pi包括以下步骤:
(1)确定第i种风险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的次数ni,如图2所示,从图2可以得到短暂性脑缺血和高血压病出现次数最多,吸烟出现次数最少。
(2)根据公式pi=ni/N计算每种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的概率pi,其中N为支持度和置信度高于最小支持度和最小置信度的危险因素组合数,即N=21,计算结果如表3所示。
表3每种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的概率pi
危险因素 | 概率pi |
短暂性脑缺血 | 0.6190 |
高血压病 | 0.6190 |
脑卒中家族史 | 0.2857 |
血脂异常 | 0.2381 |
缺乏锻炼 | 0.1905 |
肥胖 | 0.1905 |
糖尿病 | 0.1429 |
房颤或瓣膜性心脏病 | 0.0952 |
吸烟 | 0.0476 |
其中统计选择出的21种危险因素组合中各个危险因素出现的次数,其出现次数柱状图如图2所示,从图2可以得到短暂性脑缺血和高血压病出现次数最多,吸烟出现次数最少。
上述各实施例仅用于说明本发明,其中各部件的结构、连接方式和制作工艺等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。
Claims (3)
1.一种基于医疗大数据挖掘的慢性病风险模型的构建方法,其包括以下步骤:
1)确定慢性病的若干个危险因素,获得参与调查的人群含有危险因素及是否患有慢性病的医疗统计数据;
2)对慢性病的若干个危险因素进行任意组合获得n种危险因素组合,其中,n为正整数;将每个危险因素组合作为关联规则中的先导X,将慢性病作为关联规则中的后继Y,计算每个危险因素组合在医疗统计数据中的支持度和置信度;
3)设置最小支持度和最小置信度,在n种危险因素组合中选择出支持度和置信度在最小支持度和最小置信度以上的危险因素组合;
4)通过危险因素组合构建慢性病风险模型,其为慢性病与每种危险因素同时出现的概率,具体是指每种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的概率。
2.如权利要求1所述的一种基于医疗大数据挖掘的慢性病风险模型的构建方法,其特征在于:所述步骤2)中,每个危险因素组合在医疗统计数据中的支持度为既包含危险因素组合且又包含慢性病的数据在临床统计数据中的概率;每个危险因素组合在临床统计数据中的置信度为既包含危险因素组合且又包含慢性病的数据在包含危险因素组合的数据中的概率。
3.如权利要求1或2所述的一种基于医疗大数据挖掘的慢性病风险模型的构建方法,其特征在于:所述步骤4)中,所述每种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的概率pi为:
pi=ni/N;
式中,pi为第i种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的概率;ni为第i种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的次数;N为支持度和置信度高于最小支持度和最小置信度的危险因素组合数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510531445.7A CN105095673B (zh) | 2015-08-26 | 2015-08-26 | 一种基于医疗大数据挖掘的慢性病风险模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510531445.7A CN105095673B (zh) | 2015-08-26 | 2015-08-26 | 一种基于医疗大数据挖掘的慢性病风险模型的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105095673A true CN105095673A (zh) | 2015-11-25 |
CN105095673B CN105095673B (zh) | 2018-03-13 |
Family
ID=54576091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510531445.7A Expired - Fee Related CN105095673B (zh) | 2015-08-26 | 2015-08-26 | 一种基于医疗大数据挖掘的慢性病风险模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105095673B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI582718B (zh) * | 2016-07-01 | 2017-05-11 | 南臺科技大學 | 整合氣候及空污資料進行呼吸道疾病預防之資料探勘方法及其系統 |
CN106980757A (zh) * | 2017-03-15 | 2017-07-25 | 重庆医科大学 | 川崎病并发冠状动脉病变危险因素管理系统及挖掘方法 |
CN111640499A (zh) * | 2020-06-15 | 2020-09-08 | 柳韶真 | 一种基于互联网的老年人慢性病管理评估系统 |
CN111863266A (zh) * | 2020-01-16 | 2020-10-30 | 上海海事大学 | 基于定向加权关联规则模型的散发性结直肠腺瘤的危险因素筛查方法 |
CN112599252A (zh) * | 2021-03-04 | 2021-04-02 | 北京冠新医卫软件科技有限公司 | 慢性病案特征分类处理方法、装置及终端 |
CN114708983A (zh) * | 2021-12-17 | 2022-07-05 | 华中科技大学 | 基于关联规则和复杂网络的院内感染风险分析方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101667197A (zh) * | 2009-09-18 | 2010-03-10 | 浙江大学 | 基于滑动窗口的数据流关联规则挖掘方法 |
CN103150163A (zh) * | 2013-03-01 | 2013-06-12 | 南京理工大学常熟研究院有限公司 | 一种基于MapReduce模型的并行关联方法 |
CN104077295A (zh) * | 2013-03-27 | 2014-10-01 | 百度在线网络技术(北京)有限公司 | 一种数据标签的挖掘方法及系统 |
-
2015
- 2015-08-26 CN CN201510531445.7A patent/CN105095673B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101667197A (zh) * | 2009-09-18 | 2010-03-10 | 浙江大学 | 基于滑动窗口的数据流关联规则挖掘方法 |
CN103150163A (zh) * | 2013-03-01 | 2013-06-12 | 南京理工大学常熟研究院有限公司 | 一种基于MapReduce模型的并行关联方法 |
CN104077295A (zh) * | 2013-03-27 | 2014-10-01 | 百度在线网络技术(北京)有限公司 | 一种数据标签的挖掘方法及系统 |
Non-Patent Citations (2)
Title |
---|
任仙龙,等: "关联规则在社区居民慢性病患病率分析中的应用", 《中国卫生统计》 * |
郑卓远,等: "慢性病危险因素问卷调查分析", 《中国生物医学工程学会成立30周年纪念大会暨2010年中国生物医学工程学会学术大会》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI582718B (zh) * | 2016-07-01 | 2017-05-11 | 南臺科技大學 | 整合氣候及空污資料進行呼吸道疾病預防之資料探勘方法及其系統 |
CN106980757A (zh) * | 2017-03-15 | 2017-07-25 | 重庆医科大学 | 川崎病并发冠状动脉病变危险因素管理系统及挖掘方法 |
CN111863266A (zh) * | 2020-01-16 | 2020-10-30 | 上海海事大学 | 基于定向加权关联规则模型的散发性结直肠腺瘤的危险因素筛查方法 |
CN111863266B (zh) * | 2020-01-16 | 2023-09-19 | 上海海事大学 | 基于定向加权关联规则模型的散发性结直肠腺瘤的危险因素筛查方法 |
CN111640499A (zh) * | 2020-06-15 | 2020-09-08 | 柳韶真 | 一种基于互联网的老年人慢性病管理评估系统 |
CN112599252A (zh) * | 2021-03-04 | 2021-04-02 | 北京冠新医卫软件科技有限公司 | 慢性病案特征分类处理方法、装置及终端 |
CN114708983A (zh) * | 2021-12-17 | 2022-07-05 | 华中科技大学 | 基于关联规则和复杂网络的院内感染风险分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105095673B (zh) | 2018-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095673A (zh) | 一种基于医疗大数据挖掘的慢性病风险模型的构建方法 | |
Zheng et al. | Colorectal cancer incidence and mortality in China, 2010 | |
Bryan et al. | The association between meeting physical activity guidelines and chronic diseases among Canadian adults | |
Ordon et al. | A population based study of the changing demographics of patients undergoing definitive treatment for kidney stone disease | |
Hou et al. | Empowering women: the effect of women's decision-making power on reproductive health services uptake--Evidence from Pakistan | |
Aghamohamadi et al. | Population and mortality profile in the Islamic Republic of Iran, 2006–2035 | |
Shimizutani et al. | Revisiting the labor supply effect of social security earnings test: New evidence from its elimination and reinstatement in Japan | |
Teh et al. | Assessing potential economic benefits from rebuilding depleted fish stocks in Canada | |
Sauder et al. | Comprehensive assessment of burnout among surgical trainees and practicing surgeons: a systematic review | |
Buys et al. | Updated inventory and projections for Canada's ophthalmology workforce | |
Barrett et al. | Islands, remoteness and effective policy making: Aotearoa New Zealand during the COVID‐19 pandemic | |
Silva et al. | Prevalence and factors associated with overweight in adults-Brazil, 2008-2009 | |
Al-Banna et al. | Disability assessment of diabetic patients in Erbil city | |
Hagedorn et al. | The socioeconomic gradient in healthy life expectancy | |
Rivera et al. | The economic crisis and death by suicide in Spain: Empirical evidence based on a data panel and the quantification of losses in labour productivity | |
Batchuluun et al. | Labor force participation and earnings in Mongolia | |
Fabiyi et al. | Geo-spatial analysis of cardiovascular disease and biomedical risk factors in Ibadan, South-Western Nigeria | |
Dai et al. | A study on whether economic development and urbanization of areas are associated with prevalence of obesity in Chinese adults: findings from 2009 China Health and Nutrition Surveys | |
Rath et al. | Economics of non-communicable diseases: case study of South Africa and India | |
Mydin et al. | Cross Cultural Study to Predict Academic Achievement of Malaysian and Thailand Pharmacy Students 2017 | |
Noglo et al. | The change in monetary inequality among households in Togo over 2011-2015: an illustration based on the decomposition of the Gini coefficient using the Shapley value approach | |
Idris et al. | INPATIENT CARE UTILIZATION AMONG ELDERLY IN INDONESIA: A CROSS-SECTIONAL STUDY FROM INDONESIA FAMILY LIFE SURVEY | |
Maresso | The quality and outcomes framework in England | |
Khaemba et al. | The survival of patients with cancer of the cervix in Nairobi, Kenya | |
Winckler | The failure of pronatalism in developed states ‘with cultural–ethnic hegemony’: the Israeli lesson |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180313 Termination date: 20210826 |