CN112652391A - 一种用于识别慢性阻塞性肺疾病急性加重的系统 - Google Patents
一种用于识别慢性阻塞性肺疾病急性加重的系统 Download PDFInfo
- Publication number
- CN112652391A CN112652391A CN202011486949.9A CN202011486949A CN112652391A CN 112652391 A CN112652391 A CN 112652391A CN 202011486949 A CN202011486949 A CN 202011486949A CN 112652391 A CN112652391 A CN 112652391A
- Authority
- CN
- China
- Prior art keywords
- data
- chronic obstructive
- obstructive pulmonary
- pulmonary disease
- acute exacerbation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 title claims abstract description 51
- 230000009798 acute exacerbation Effects 0.000 title claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 21
- 230000029058 respiratory gaseous exchange Effects 0.000 claims abstract description 7
- 238000004590 computer program Methods 0.000 claims abstract description 4
- 230000000241 respiratory effect Effects 0.000 claims description 22
- 230000004199 lung function Effects 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000003066 decision tree Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 11
- 238000007477 logistic regression Methods 0.000 claims description 10
- 230000001419 dependent effect Effects 0.000 claims description 9
- 208000000059 Dyspnea Diseases 0.000 claims description 8
- 206010013975 Dyspnoeas Diseases 0.000 claims description 8
- 238000007637 random forest analysis Methods 0.000 claims description 8
- 206010036790 Productive cough Diseases 0.000 claims description 7
- 206010011224 Cough Diseases 0.000 claims description 5
- 206010008479 Chest Pain Diseases 0.000 claims description 4
- 206010037660 Pyrexia Diseases 0.000 claims description 4
- 239000008280 blood Substances 0.000 claims description 4
- 210000004369 blood Anatomy 0.000 claims description 4
- 206010062519 Poor quality sleep Diseases 0.000 claims description 3
- 208000037656 Respiratory Sounds Diseases 0.000 claims description 3
- 206010047924 Wheezing Diseases 0.000 claims description 3
- 208000022531 anorexia Diseases 0.000 claims description 3
- 230000036528 appetite Effects 0.000 claims description 3
- 235000019789 appetite Nutrition 0.000 claims description 3
- 206010061428 decreased appetite Diseases 0.000 claims description 3
- 208000016261 weight loss Diseases 0.000 claims description 3
- 230000004580 weight loss Effects 0.000 claims description 3
- 206010006895 Cachexia Diseases 0.000 claims description 2
- 208000006083 Hypokinesia Diseases 0.000 claims description 2
- 208000006673 asthma Diseases 0.000 claims description 2
- 208000026500 emaciation Diseases 0.000 claims description 2
- 208000013220 shortness of breath Diseases 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 9
- 208000024891 symptom Diseases 0.000 description 5
- 241000700605 Viruses Species 0.000 description 4
- 241000712461 unidentified influenza virus Species 0.000 description 4
- 241000709661 Enterovirus Species 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 208000015181 infectious disease Diseases 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 208000024794 sputum Diseases 0.000 description 3
- 210000003802 sputum Anatomy 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 2
- 208000035143 Bacterial infection Diseases 0.000 description 2
- 208000017667 Chronic Disease Diseases 0.000 description 2
- 241000725643 Respiratory syncytial virus Species 0.000 description 2
- 239000013566 allergen Substances 0.000 description 2
- 208000022362 bacterial infectious disease Diseases 0.000 description 2
- 238000004195 computer-aided diagnosis Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 239000012678 infectious agent Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 244000052769 pathogen Species 0.000 description 2
- 230000001717 pathogenic effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000000391 smoking effect Effects 0.000 description 2
- 208000008203 tachypnea Diseases 0.000 description 2
- 206010043089 tachypnoea Diseases 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 230000009385 viral infection Effects 0.000 description 2
- 241000124740 Bocaparvovirus Species 0.000 description 1
- 206010006458 Bronchitis chronic Diseases 0.000 description 1
- 206010007559 Cardiac failure congestive Diseases 0.000 description 1
- 208000003322 Coinfection Diseases 0.000 description 1
- 201000006306 Cor pulmonale Diseases 0.000 description 1
- 206010014561 Emphysema Diseases 0.000 description 1
- 206010017533 Fungal infection Diseases 0.000 description 1
- 230000005526 G1 to G0 transition Effects 0.000 description 1
- 206010019280 Heart failures Diseases 0.000 description 1
- 241000342334 Human metapneumovirus Species 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 208000031888 Mycoses Diseases 0.000 description 1
- 208000002151 Pleural effusion Diseases 0.000 description 1
- 208000003286 Protein-Energy Malnutrition Diseases 0.000 description 1
- 208000010378 Pulmonary Embolism Diseases 0.000 description 1
- 208000004186 Pulmonary Heart Disease Diseases 0.000 description 1
- 208000004756 Respiratory Insufficiency Diseases 0.000 description 1
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 1
- 208000032140 Sleepiness Diseases 0.000 description 1
- 206010041349 Somnolence Diseases 0.000 description 1
- 208000001871 Tachycardia Diseases 0.000 description 1
- 208000036142 Viral infection Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000003915 air pollution Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002924 anti-infective effect Effects 0.000 description 1
- 206010003119 arrhythmia Diseases 0.000 description 1
- 230000006793 arrhythmia Effects 0.000 description 1
- 206010003549 asthenia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 206010006451 bronchitis Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 208000007451 chronic bronchitis Diseases 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003205 diastolic effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000002565 electrocardiography Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000011841 epidemiological investigation Methods 0.000 description 1
- 230000005713 exacerbation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 206010016256 fatigue Diseases 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 206010022000 influenza Diseases 0.000 description 1
- 206010022437 insomnia Diseases 0.000 description 1
- 230000005923 long-lasting effect Effects 0.000 description 1
- 238000011418 maintenance treatment Methods 0.000 description 1
- 206010025482 malaise Diseases 0.000 description 1
- 206010026820 marasmus Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 201000003144 pneumothorax Diseases 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 230000009325 pulmonary function Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 201000004193 respiratory failure Diseases 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000000932 sedative agent Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000006794 tachycardia Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000002255 vaccination Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种用于识别慢性阻塞性肺疾病急性加重的系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器中存有以下模块:数据特征处理模块,用于接收呼吸科就诊数据进行特征处理,生成应用于识别模块的数据;识别模块,用于接收数据特征处理模块发送的数据,并预测目标病人是否处于慢性阻塞性肺疾病急性加重期。利用本发明,可以在减少检查时间的同时,提高识别慢性阻塞性肺疾病急性加重的效率。
Description
技术领域
本发明属于计算机辅助诊断技术领域,尤其是涉及一种用于识别慢性阻塞性肺疾病急性加重的系统。
背景技术
慢性阻塞性肺疾病(chronic obstructive pulmonary diseases,COPD)是一种具有气流阻塞特征的慢性支气管炎和(或)肺气肿,可进一步发展为肺心病和呼吸衰竭的常见慢性疾病。与有害气体及有害颗粒的异常炎症反应有关,致残率和病死率很高,全球40岁以上发病率已高达9%~10%。目前在我国的总患病人口约有1亿左右,其中40岁以上人群慢性阻塞性肺疾病患病率为13.7%,明显是高于国际的平均水平的。60岁以上的患病率超过27%,其中,男性的患病率是女性的2.2倍。如见慢性阻塞性肺疾病已然成为了与高血压、糖尿病等量齐观的最常见的慢性病,造成巨大的社会和经济负担。而慢性阻塞性肺疾病的急性加重期是绝大多数慢性阻塞性肺疾病患者死亡的独立危险因素,其防治水平直接影响患者的生存。因此针对慢性阻塞性肺疾病急性加重的判断是尤为重要的,及时判断患者处于急性加重期,就能降低患者死亡的风险。
慢阻肺本身具有明显的异质性,其急性加重的诱因也复杂多样。50%~70%是由感染引起,包括呼吸道细菌、病毒、非典型病原体等感染,其他引起慢阻肺症状加重的因素包括吸烟、环境污染、吸入过敏原、外科手术、应用镇静药物、维持治疗中断,以及气胸、胸腔积液、肺栓塞、充血性心力衰竭、心律失常等肺内外合并症或并发症。
流行病学调查表明,上呼吸道病毒感染是慢性阻塞性肺疾病急性加重(acuteexacerbation of chronic obstructive pulmonary disease,AECOPD)最早、最常见的诱发因素,约占50%左右,常见病毒为鼻病毒/肠病毒、流感病毒和呼吸道合胞病毒等,人偏肺病毒和博卡病毒较少见。2020年的慢性阻塞性肺疾病急性加重抗感染治疗中国专家共识提到,一项纳入19项研究总共1728例AECOPD患者的系统综述显示鼻/肠病毒(16.39%)、呼吸道合胞病毒(9.90%)和流感病毒(7.83%)是最常见的病毒。国内有研究报道流感病毒在AECOPD患者分离率较高,可能与流感疫苗接种率低有关。2017年慢性阻塞性肺疾病全球创议(global initiative for chronic obstructive lung disease,GOLD)报告指出病毒感染(是)AECOPD的主要触发因素,而且比细菌感染诱发的AECOPD更严重,持续时间长,且易反复发作。约25%的AECOPD住院患者存在病毒和细菌混合感染,其病情重,住院时间长。此外细菌感染、非典型病原体感染、与真菌感染和非感染性因素都是十分多间的,类似与非感染性因素中的如吸烟、空气污染、吸入变应原等都是诱发急性加重的重要因素。慢性阻塞性肺疾病患者只要不注意以上的诱发源,就会从慢性阻塞性肺疾病平稳期转至急性加重期。
慢性阻塞性肺疾病急性加重期定义为呼吸症状急性恶化,导致需要额外的治疗。慢性阻塞性肺疾病急性加重期是一种临床除外诊断,临床和/或实验室检查没有发现其他可以解释的特异疾病,它的主要症状是气促加重,常伴有喘息、胸闷、咳嗽加剧、痰量增加、痰液颜色和/或黏度改变以及发热等。此外,可出现心动过速、呼吸急促、全身不适、失眠、嗜睡、疲乏、抑郁和精神紊乱等非特异性症状。
目前,慢性阻塞性肺疾病急性加重期的诊断完全依赖于临床表现。即患者主诉症状的突然变化(基线呼吸困难、咳嗽、和/或咳痰情况)超过日常变异范围。一般需要通过常规实验室检查、胸部影像学检查、动脉血气分析、肺功能测定、心电图(ECG)和超声心动图(UCG)、血液生化检查以及痰培养及药物敏感试验等才能确定是否处于急性加重期。但是这对于急性加重这种可能致死的情况,检查这么多项目是很困难的,如何快速有效且准确的判断慢性阻塞性肺疾病患者是否处于急性加重期,是当前极为重要的研究点。
人工智能是目前新兴的计算机技术,它所探究的是如何使计算机去做过去只有人才能做的智能工作,并能做的更好。使用人工智能中的计算机辅助诊断技术方法,进行慢性阻塞性肺疾病急性加重期识别,可以通过患者较少的检查信息,快速且准确的判断患者是否处于慢性阻塞性肺疾病急性加重期。该方法克服了病患需要检查多个项目耗时耗力并增加死亡风险的问题,又能有效地判断患者的疾病。这项发明能帮助医生快速的判断患者的状态及时提出治疗方案,降低慢性阻塞性肺疾病急性加重带来的死亡风险。
发明内容
本发明提供了一种用于识别慢性阻塞性肺疾病急性加重的系统,可以在减少检查时间的同时,提高识别慢性阻塞性肺疾病急性加重的效率。
一种用于识别慢性阻塞性肺疾病急性加重的系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器中存有以下模块:
数据特征处理模块,用于接收呼吸科就诊数据进行特征处理,生成应用于识别模块的数据;
识别模块,用于接收数据特征处理模块发送的数据,并预测目标病人是否处于慢性阻塞性肺疾病急性加重期。
数据特征处理模块在接收呼吸科就诊数据之前,先通过对病人的就诊信息和现病史内的关键词进行筛查,筛查的关键词包括:咳嗽、咳痰、呼吸困难、气促、气急、呼吸不畅、呼吸不顺、喘息、气喘、胸闷、发热、气紧、乏力、纳差、胃口不好、睡眠差、消瘦、体重下降,存在上述关键词的病人的数据会被纳入。
所述的呼吸科就诊数据包括呼吸科检验数据和呼吸科肺功能报告。其中,呼吸科检验数据的特征包含血常规CRP所有检验特征;呼吸科肺功能报告的特征包含病人性别、年龄、身高、体重以及肺功能报告内的所有特征,同时根据肺功能报告内的结论,剔除包含“舒张试验阳性”的数据。
所述的特征处理包括数据缺失值填充和统一数据量纲。
所述的识别模块分为两个算法层,第一层是多个基学习器,由完成特征处理的数据作为原始的输入;第二层是一个分类学习器,以第一层基学习器的输出向量作为训练集进行再训练,进行结果分类;两个算法层通过一个完整的STACKING集成,对需要预测的目标病人是否处于慢性阻塞性肺疾病急性加重期进行分类。
第一层是多个基学习器包括逻辑回归模型、随机森林模型、朴素贝叶斯模型、决策树模型以及XGBoost模型。
逻辑回归模型是一种广义线性回归,是分类模型,并常用于二分类。用于描述自变量x和因变量Y之间的关系,或者自变量X对因变量Y的影响程度,并对因变量Y进行预测;逻辑回归的预测函数:
式中,x是输入,θT是需要训练的权重,结果hθ表示归为1类的概率,而1-hθ就是归为0类的概率。
朴素贝叶斯模型是以贝叶斯原理为基础,使用概率统计的知识对样本数据集进行分类。朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立。先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入X求出使得后验概率最大的输出Y;朴素贝叶斯分类器公式:
随机森林模型,是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
决策树模型,决策点代表决策问题,用方案分枝代表可供选择的方案,用概率分枝代表方案可能出现的各种结果,经过对各种方案在各种结果条件下损益值的计算比较,为决策者提供决策依据。
XGBoost模型,是一个树集成模型,他将K(树的个数)个树的结果进行求和,作为最终的预测值。
与现有技术相比,本发明具有以下有益效果:
1、本发明通过将数据进行筛查,特征处理生成可应用于识别算法的数据,将其输入分为两层的算法模型中。第一层用多个分类模型对数据进行特征提取,再将得到的特征作为第二层分类器的输入,输出的结果用于判断患者是否处于慢性阻塞性肺疾病急性加重期。是一种让计算机使用人工智能的方式自主判断患者是否处于慢性阻塞性肺疾病急性加重期的系统。
2、本发明的系统只需要患者检查血常规和肺功能即可,能更有效的应用于现实场景,提高判断的效率,在减少检查时间的同时,提高识别急性加重的效率,从而能有效地降低慢性阻塞性肺疾病急性加重带来的死亡风险。
附图说明
图1为本发明一种用于识别慢性阻塞性肺疾病急性加重的系统结构示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,一种用于识别慢性阻塞性肺疾病急性加重的系统,包括计算机存储器、计算机处理器以及存储在计算机存储器中并可在计算机处理器上执行的计算机程序,计算机存储器中存有以下模块:
数据特征处理模块,用于接收呼吸科就诊数据进行特征处理,生成应用于识别模块的数据;
识别模块,用于接收数据特征处理模块发送的数据,并预测目标病人是否处于慢性阻塞性肺疾病急性加重期。
本发明系统在工作时包括以下步骤:
步骤一:生成可应用于识别模块的数据。
步骤二:将生成的数据输入识别慢性阻塞性肺疾病急性加重的识别模块,预测目标病人是否处于慢性阻塞性肺疾病急性加重期。
具体的,在数据特征处理模块中,生成可应用于识别模块的数据,其中可应用于识别模块的数据包含呼吸科检验数据和呼吸科肺功能报告的详细数据信息。
进一步地,在数据特征处理模块中,生成可应用于识别算法的数据,包括:
获取指定的呼吸科就诊数据;
从指定的呼吸科就诊数据中,通过指定的特征ID,提取得到呼吸科就诊检验和肺功能报告的详细数据信息。
从指定的呼吸科就诊数据中,对提取得到的呼吸科就诊检验和肺功能报告的详细数据信息进行特征工程。包括数据缺失值填充和统一数据量纲。
进一步地,在识别模块的算法层中,将完成特征处理的数据作为算法层的输入,预测目标病人是否处于慢性阻塞性肺疾病急性加重期,包括:
算法层分为两层,第一层是多个基学习器,由完成特征处理的数据作为原始的输入。第二层的模型则是以第一层基学习器的输出作为训练集进行再训练。
通过一个完整的STACKING集成,对需要预测的目标病人是否处于慢性阻塞性肺疾病急性加重期进行分类。
进一步地,通过就诊信息和现病史,获取进一步筛选的呼吸科就诊数据,包括:
通过就诊信息和现病史内的关键词对就诊数据进行进一步的筛查,包括:咳嗽、咳痰、呼吸困难、气促、气急、呼吸不畅、呼吸不顺、喘息、气喘、胸闷、发热、气紧、乏力、纳差、胃口不好、睡眠差、消瘦、体重下降。存在上述关键词的数据会被纳入。
进一步地,通过指定的特征ID,提取得到所述的呼吸科就诊检验和肺功能报告的详细数据信息,包括:
呼吸科检验数据特征包含血常规CRP所有检验特征。
呼吸科肺功能报告特征包含病人性别、年龄、身高、体重以及肺功能报告内的所有特征。同时根据肺功能报告内的结论,剔除包含“舒张试验阳性”的数据。
识别模块的算法层中,第一层的多个基学习器包括逻辑回归模型、随机森林模型、朴素贝叶斯模型、决策树模型以及XGBoost模型。
具体的,逻辑回归模型,是一种广义线性回归,是分类模型,并常用于二分类。逻辑回归分析用来描述自变量x和因变量Y之间的关系,或者说自变量X对因变量Y的影响程度,并对因变量Y进行预测。逻辑回归地预测函数:
结果hθ表示归为1类的概率,而1-hθ就是归为0类的概率。
随机森林模型,是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林算法流程如下:
1.用N来表示训练用例(样本)的个数,M表示特征数目。
2.输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M。
3.从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。
4.对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征,计算其最佳的分裂方式。
5.每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用)。
朴素贝叶斯模型,是以贝叶斯原理为基础,使用概率统计的知识对样本数据集进行分类。朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立。先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入X求出使得后验概率最大的输出Y。朴素贝叶斯分类器公式:
决策树模型,决策点代表决策问题,用方案分枝代表可供选择的方案,用概率分枝代表方案可能出现的各种结果,经过对各种方案在各种结果条件下损益值的计算比较,为决策者提供决策依据。一般决策树使用信息增益作为选择的标准。
信息熵表示的是不确定度。均匀分布时,不确定度最大,此时熵就最大。当选择某个特征对数据集进行分类时,分类后的数据集信息熵会比分类前的小,其差值表示为信息增益。信息增益可以衡量某个特征对分类结果的影响大小。
假设在样本数据集D中,混有c种类别的数据。构建决策树时,根据给定的样本数据集选择某个特征值作为树的节点。在数据集中,可以计算出该数据中的信息熵:
其中D表示训练数据集,c表示数据类别数,Pi表示类别i样本数量占所有样本的比例。对应数据集D,选择特征A作为决策树判断节点时,在特征A作用后的信息熵的为Info(D),计算如下:
其中k表示样本D被分为k个部分。信息增益表示数据集D在特征A的作用后,其信息熵减少的值。对于决策树节点最合适的特征选择,就是Gain(A)值最大的特征公式如下:
Gain(A)=Info(D)-InfoA(D)
XGBoost模型,是一个树集成模型,他将K(树的个数)个树的结果进行求和,作为最终的预测值。即:
进一步地,第二层的模型则是以第一层基学习器的输出作为训练集进行再训练,包括:
使用一个简单的分类学习器,将第一层多个模型的输出的向量作为第二层的输入,进行结果分类,输出结果。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
Claims (9)
1.一种用于识别慢性阻塞性肺疾病急性加重的系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机存储器中存有以下模块:
数据特征处理模块,用于接收呼吸科就诊数据进行特征处理,生成应用于识别模块的数据;
识别模块,用于接收数据特征处理模块发送的数据,并预测目标病人是否处于慢性阻塞性肺疾病急性加重期。
2.根据权利要求1所述的用于识别慢性阻塞性肺疾病急性加重的系统,其特征在于,数据特征处理模块在接收呼吸科就诊数据之前,先通过对病人的就诊信息和现病史内的关键词进行筛查,筛查的关键词包括:咳嗽、咳痰、呼吸困难、气促、气急、呼吸不畅、呼吸不顺、喘息、气喘、胸闷、发热、气紧、乏力、纳差、胃口不好、睡眠差、消瘦、体重下降,存在上述关键词的病人的数据会被纳入。
3.根据权利要求1所述的用于识别慢性阻塞性肺疾病急性加重的系统,其特征在于,所述的呼吸科就诊数据包括呼吸科检验数据和呼吸科肺功能报告。
4.根据权利要求3所述的用于识别慢性阻塞性肺疾病急性加重的系统,其特征在于,呼吸科检验数据的特征包含血常规CRP所有检验特征;呼吸科肺功能报告的特征包含病人性别、年龄、身高、体重以及肺功能报告内的所有特征,同时根据肺功能报告内的结论,剔除包含“舒张试验阳性”的数据。
5.根据权利要求1所述的用于识别慢性阻塞性肺疾病急性加重的系统,所述的特征处理包括数据缺失值填充和统一数据量纲。
6.根据权利要求1所述的用于识别慢性阻塞性肺疾病急性加重的系统,其特征在于,所述的识别模块分为两个算法层,第一层是多个基学习器,由完成特征处理的数据作为原始的输入;第二层是一个分类学习器,以第一层基学习器的输出向量作为训练集进行再训练,进行结果分类;两个算法层通过一个完整的STACKING集成,对需要预测的目标病人是否处于慢性阻塞性肺疾病急性加重期进行分类。
7.根据权利要求6所述的用于识别慢性阻塞性肺疾病急性加重的系统,其特征在于,第一层的多个基学习器包括逻辑回归模型、随机森林模型、朴素贝叶斯模型、决策树模型以及XGBoost模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011486949.9A CN112652391A (zh) | 2020-12-16 | 2020-12-16 | 一种用于识别慢性阻塞性肺疾病急性加重的系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011486949.9A CN112652391A (zh) | 2020-12-16 | 2020-12-16 | 一种用于识别慢性阻塞性肺疾病急性加重的系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112652391A true CN112652391A (zh) | 2021-04-13 |
Family
ID=75354306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011486949.9A Pending CN112652391A (zh) | 2020-12-16 | 2020-12-16 | 一种用于识别慢性阻塞性肺疾病急性加重的系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112652391A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362945A (zh) * | 2021-06-03 | 2021-09-07 | 重庆南鹏人工智能科技研究院有限公司 | 基于多步决策的全肺呼吸内科疾病医学辅助诊断系统 |
CN113628741A (zh) * | 2021-08-12 | 2021-11-09 | 生态环境部华南环境科学研究所 | 一种基于呼出气体标志物检测的健康状态识别方法 |
CN114822827A (zh) * | 2022-05-30 | 2022-07-29 | 北京大学第三医院(北京大学第三临床医学院) | 一种慢性阻塞性肺疾病急性加重预测系统和预测方法 |
CN116612885A (zh) * | 2023-04-26 | 2023-08-18 | 浙江大学 | 一种基于多模态的慢性阻塞性肺病急性加重的预测装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897570A (zh) * | 2017-03-02 | 2017-06-27 | 山东师范大学 | 一种基于机器学习的慢性阻塞性肺疾病测试系统 |
CN108257675A (zh) * | 2018-02-07 | 2018-07-06 | 平安科技(深圳)有限公司 | 慢阻肺发病风险预测方法、服务器及计算机可读存储介质 |
CN108597601A (zh) * | 2018-04-20 | 2018-09-28 | 山东师范大学 | 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法 |
CN111554401A (zh) * | 2020-03-26 | 2020-08-18 | 肾泰网健康科技(南京)有限公司 | 一种构建ai慢性肾病筛查模型的方法、慢性肾病筛查方法及系统 |
-
2020
- 2020-12-16 CN CN202011486949.9A patent/CN112652391A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897570A (zh) * | 2017-03-02 | 2017-06-27 | 山东师范大学 | 一种基于机器学习的慢性阻塞性肺疾病测试系统 |
CN108257675A (zh) * | 2018-02-07 | 2018-07-06 | 平安科技(深圳)有限公司 | 慢阻肺发病风险预测方法、服务器及计算机可读存储介质 |
CN108597601A (zh) * | 2018-04-20 | 2018-09-28 | 山东师范大学 | 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法 |
CN111554401A (zh) * | 2020-03-26 | 2020-08-18 | 肾泰网健康科技(南京)有限公司 | 一种构建ai慢性肾病筛查模型的方法、慢性肾病筛查方法及系统 |
Non-Patent Citations (3)
Title |
---|
中国协和医科大学出版社编: "《中华医学百科全书 临床医学 急诊医学》", 31 January 2018, 中国协和医科大学出版社, pages: 349 - 350 * |
黄照明: "COPD 频繁急性加重表型的识别及频繁急性加重原因研究进展", 《西南国防医药》 * |
黄照明: "COPD 频繁急性加重表型的识别及频繁急性加重原因研究进展", 《西南国防医药》, vol. 25, no. 6, 30 June 2015 (2015-06-30), pages 684 - 685 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362945A (zh) * | 2021-06-03 | 2021-09-07 | 重庆南鹏人工智能科技研究院有限公司 | 基于多步决策的全肺呼吸内科疾病医学辅助诊断系统 |
CN113628741A (zh) * | 2021-08-12 | 2021-11-09 | 生态环境部华南环境科学研究所 | 一种基于呼出气体标志物检测的健康状态识别方法 |
CN114822827A (zh) * | 2022-05-30 | 2022-07-29 | 北京大学第三医院(北京大学第三临床医学院) | 一种慢性阻塞性肺疾病急性加重预测系统和预测方法 |
CN116612885A (zh) * | 2023-04-26 | 2023-08-18 | 浙江大学 | 一种基于多模态的慢性阻塞性肺病急性加重的预测装置 |
CN116612885B (zh) * | 2023-04-26 | 2024-03-22 | 浙江大学 | 一种基于多模态的慢性阻塞性肺病急性加重的预测装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112652391A (zh) | 一种用于识别慢性阻塞性肺疾病急性加重的系统 | |
Guo et al. | Using bayes network for prediction of type-2 diabetes | |
CN108511056A (zh) | 基于脑卒中患者相似性分析的治疗方案推荐方法及系统 | |
Zarandah et al. | A Systematic Literature Review Of Machine and Deep Learning-Based Detection And Classification Methods for Diseases Related To the Respiratory System | |
CN110051324A (zh) | 一种急性呼吸窘迫综合征死亡率预测方法及系统 | |
CN110085314A (zh) | 医学检验数据的智能分析方法、系统以及设备 | |
CN112820416A (zh) | 一种重大传染病队列数据分型方法、分型模型及电子设备 | |
Chadaga et al. | COVID-19 mortality prediction among patients using epidemiological parameters: an ensemble machine learning approach | |
Xue et al. | Deep Convolutional Neural Network Approach for COVID-19 Detection. | |
Dhar | Multistage ensemble learning model with weighted voting and genetic algorithm optimization strategy for detecting chronic obstructive pulmonary disease | |
Alqaissi et al. | Modern machine‐learning predictive models for diagnosing infectious diseases | |
Dawood | A new method based CNN combined with genetic algorithm and support vector machine for COVID-19 detection by analyzing X-ray images | |
CN109907751A (zh) | 一种基于人工智能监督学习的实验室胸痛数据检查辅助识别方法 | |
Tuncer et al. | An automated Covid-19 respiratory sound classification method based on novel local symmetric Euclidean distance pattern and ReliefF iterative MRMR feature selector | |
Navaz et al. | The use of data mining techniques to predict mortality and length of stay in an ICU | |
Wang et al. | Method of non-invasive parameters for predicting the probability of early in-hospital death of patients in intensive care unit | |
CN116344028A (zh) | 一种基于多模态异构数据的肺部疾病自动识别方法及装置 | |
Yavuz et al. | Comparison of k nearest neighbours and regression tree classifiers used with clonal selection algorithm to diagnose haematological diseases | |
CN113436745A (zh) | 一种基于数据库分析的人工智能辅助诊断方法 | |
Komalavalli et al. | An Effective Heart Disease Prediction Using Machine Learning | |
Ayyappan et al. | Knowledge Construction on NIV of COVID-19 for Managing the Patients by ML Techniques | |
Sreedevi et al. | RespoBot: Chatbot used for the prediction of diseases using Machine Learning and Deep Learning with respect to Covid-19 | |
Patel et al. | Impact analysis of the complete blood count parameter using Naive Bayes | |
Vijaya et al. | Classification of Pneumonia using InceptionNet, ResNet and CNN | |
Sundaramoorthy et al. | Hybrid Optimization with Recurrent Neural Network-based Medical Image Processing for Predicting Interstitial Lung Disease |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210413 |