CN116682557A - 一种基于小样本深度学习的慢性病并发症早期风险预警方法 - Google Patents
一种基于小样本深度学习的慢性病并发症早期风险预警方法 Download PDFInfo
- Publication number
- CN116682557A CN116682557A CN202310657353.8A CN202310657353A CN116682557A CN 116682557 A CN116682557 A CN 116682557A CN 202310657353 A CN202310657353 A CN 202310657353A CN 116682557 A CN116682557 A CN 116682557A
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- model
- complications
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000013135 deep learning Methods 0.000 title claims abstract description 26
- 230000001684 chronic effect Effects 0.000 title claims description 31
- 239000013598 vector Substances 0.000 claims abstract description 50
- 239000002245 particle Substances 0.000 claims abstract description 48
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 30
- 208000017667 Chronic Disease Diseases 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000012216 screening Methods 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 238000013145 classification model Methods 0.000 claims abstract description 6
- 238000010276 construction Methods 0.000 claims abstract description 6
- 238000007689 inspection Methods 0.000 claims abstract description 6
- 238000013480 data collection Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 38
- 210000002569 neuron Anatomy 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 16
- 201000010099 disease Diseases 0.000 claims description 14
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 238000003745 diagnosis Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000007547 defect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 238000010187 selection method Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 2
- 230000001174 ascending effect Effects 0.000 claims description 2
- 230000006399 behavior Effects 0.000 claims description 2
- 230000001149 cognitive effect Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000006641 stabilisation Effects 0.000 claims description 2
- 238000011105 stabilization Methods 0.000 claims description 2
- 230000006978 adaptation Effects 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 claims 1
- 238000000611 regression analysis Methods 0.000 abstract description 2
- 208000002249 Diabetes Complications Diseases 0.000 description 9
- 206010012655 Diabetic complications Diseases 0.000 description 8
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 6
- 208000007342 Diabetic Nephropathies Diseases 0.000 description 5
- 208000032131 Diabetic Neuropathies Diseases 0.000 description 5
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 5
- 206010012601 diabetes mellitus Diseases 0.000 description 5
- 208000033679 diabetic kidney disease Diseases 0.000 description 5
- 239000008103 glucose Substances 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 206010012689 Diabetic retinopathy Diseases 0.000 description 4
- 102000017011 Glycated Hemoglobin A Human genes 0.000 description 4
- 108010014663 Glycated Hemoglobin A Proteins 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 150000003626 triacylglycerols Chemical class 0.000 description 4
- 108010023302 HDL Cholesterol Proteins 0.000 description 3
- 108010028554 LDL Cholesterol Proteins 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 235000012000 cholesterol Nutrition 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 229940109239 creatinine Drugs 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000002526 effect on cardiovascular system Effects 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- NOESYZHRGYRDHS-UHFFFAOYSA-N insulin Chemical compound N1C(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(NC(=O)CN)C(C)CC)CSSCC(C(NC(CO)C(=O)NC(CC(C)C)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CCC(N)=O)C(=O)NC(CC(C)C)C(=O)NC(CCC(O)=O)C(=O)NC(CC(N)=O)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CSSCC(NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2C=CC(O)=CC=2)NC(=O)C(CC(C)C)NC(=O)C(C)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2NC=NC=2)NC(=O)C(CO)NC(=O)CNC2=O)C(=O)NCC(=O)NC(CCC(O)=O)C(=O)NC(CCCNC(N)=N)C(=O)NCC(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC(O)=CC=3)C(=O)NC(C(C)O)C(=O)N3C(CCC3)C(=O)NC(CCCCN)C(=O)NC(C)C(O)=O)C(=O)NC(CC(N)=O)C(O)=O)=O)NC(=O)C(C(C)CC)NC(=O)C(CO)NC(=O)C(C(C)O)NC(=O)C1CSSCC2NC(=O)C(CC(C)C)NC(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CC(N)=O)NC(=O)C(NC(=O)C(N)CC=1C=CC=CC=1)C(C)C)CC1=CN=CN1 NOESYZHRGYRDHS-UHFFFAOYSA-N 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 210000002700 urine Anatomy 0.000 description 2
- 108010088751 Albumins Proteins 0.000 description 1
- 102000009027 Albumins Human genes 0.000 description 1
- 108010075254 C-Peptide Proteins 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 description 1
- 208000014085 Chronic respiratory disease Diseases 0.000 description 1
- 108060006698 EGF receptor Proteins 0.000 description 1
- 206010014561 Emphysema Diseases 0.000 description 1
- 102000006395 Globulins Human genes 0.000 description 1
- 108010044091 Globulins Proteins 0.000 description 1
- 102000015779 HDL Lipoproteins Human genes 0.000 description 1
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 102000004877 Insulin Human genes 0.000 description 1
- 108090001061 Insulin Proteins 0.000 description 1
- 208000031662 Noncommunicable disease Diseases 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 208000017442 Retinal disease Diseases 0.000 description 1
- 206010038923 Retinopathy Diseases 0.000 description 1
- 206010044302 Tracheitis Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 229940125396 insulin Drugs 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 208000017169 kidney disease Diseases 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 201000001119 neuropathy Diseases 0.000 description 1
- 230000007823 neuropathy Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 208000033808 peripheral neuropathy Diseases 0.000 description 1
- 230000000291 postprandial effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- UFTFJSFQGQCHQW-UHFFFAOYSA-N triformin Chemical compound O=COCC(OC=O)COC=O UFTFJSFQGQCHQW-UHFFFAOYSA-N 0.000 description 1
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Epidemiology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于小样本深度学习的慢性病并发症早期风险预警方法,早期风险预警任务包括对慢性病患者数据进行收集处理,以及预测模型构建两个部分。对于数据收集和处理,使用Logistics回归分析和SVM‑RFE方法对不同并发症的生化检查数据进行特征因子筛选,对缺失值多的特征利用missForest方法进行数据插补;使用BioBERT模型对电子病历的门诊和住院文书做文本向量嵌入。再将得到的向量和并发症标签进行连接,形成数据形式。对样本数据类不平衡的问题,进行融合条件熵和TF‑IDF的HTTE过采样来解决小样本问题。对于预测模型构建部分,基于粒子群算法优化的DBN模型,利用分类器链方式构建多标签分类模型,在慢性病患病早期对并发症进行预测。
Description
技术领域
本发明属于慢性病并发症预测的技术领域,具体涉及一种基于小样本深度学习的慢性病并发症早期风险预警方法。
背景技术
慢性病,全称慢性非传染性疾病,是对一类起病隐匿、病程长且病情迁延不愈的疾病的概括性总称。常见的主要有心脑血管疾病、慢性阻塞性肺部疾病(慢性气管炎、肺气肿等)、糖尿病、慢性呼吸系统疾病等。长期积累会造成对心血管、脑、肾、眼睛等重要器官的损害。临床数据显示,慢性病发病后期将有30%~40%的患者至少会发生一种并发症,且并发症一旦产生,药物治疗很难逆转,容易造成伤残,且医疗费用极其昂贵,增加社会和家庭的经济负担。“早诊断、早治疗、早达标、早获益”,并发症的发生概率是可以大大减少的。为了更好地保障患者生命财产安全,避免患者身体系统进一步遭到损害,降低慢性病并发症致死致残的可能性,利用深度学习技术进行慢性病并发症早期风险预警模型构建是具有现实意义的。
目前国内慢性病并发症的研究工作集中在辅助诊断领域,即利用慢性病患者现阶段的检验检查数据,构建机器学习诊断模型,辅助医生判断是否患有某种并发症。
在相关的10000篇文章中,包括87个ML模型。神经网络模型是并发症预测最常用的模型,随机森林在微血管和大血管相关并发症预测中表现最佳。辅助诊断所用方法是寻找并发症相关的特征因子,如体重指数、年龄、性别等,构成诸如的数据集作为机器学习模型的输入,训练分类模型,找到合适的参数,即分类决策边界,完成并发症的判断。
然而现有的预测场景,数据处理以及模型都存在着一定的问题。首先,并发症的发病时间在慢性病患病后的3~5年。仅构建辅助诊断的预测模型,可以在一定程度上为医生提供高效的问诊辅助,但不能给患者提供较好的预警作用,如针对可能产生的并发症进行预防方案的制订、辅助用药等等。其次,现有的模型多使用生化检查数据组成数据向量形式,或以“1”“0”来表示是否具有某种症状或病灶特点。而随着自然语言处理领域的发展,从医学文书中提取更有价值的信息受到了越来越多研究者的关注,因而对于电子病历文书的处理不再局限于单一的数据量化上。在保留文书语义信息的同时,关注文书词与词之间的相关性,可以更充分地挖掘其中可供分类的知识,实现多维度整体化表达语义。但与此同时,机器学习的分类模型无法很好的拟合出决策边界,需要引入深度学习模型来增强模型的学习能力。此外,现实场景下,患者的正负样本比例失衡,存在类不均衡问题。若丢失负样本,则存在小样本的问题;若对负样本进行过采样,简单的采样方法可能会产生过拟合等问题。同时还需解决特征缺失值数目多的问题。
发明内容
技术问题:
本发明提供了一种基于小样本深度学习的慢性病并发症早期风险预警方法,该方法使用Logistics回归分析和SVM-RFE方法对不同并发症的生化检查数据进行特征因子筛选,对缺失值多的特征利用missForest方法进行数据插补,并使用BioBERT模型对电子病历的门诊和住院文书做文本向量嵌入。对样本数据类不平衡的问题,进行融合条件熵和TF-IDF的HTTE过采样来解决小样本问题。基于粒子群算法优化的DBN模型,利用分类器链方式构建多标签分类模型,在慢性病患病早期实现科学、准确的并发症风险预测。
技术方案:
本发明正是针对现有技术中存在的问题,提供一种基于小样本深度学习的慢性病并发症早期风险预警方法,包括如下步骤,首先收集医院系统中慢性病并发症患者首次就诊的门诊和住院生化检查数据以及电子病历文书;再对生化检查数据进行Logistics分析和SVM-RFE特征筛选进行特征因子组合的确定,构建特征表,并使用missForest进行缺失值的数据插补。同时对电子病历文书进行处理,利用Biobert模型进行文本向量嵌入,并对结果向量进行主成分分析降维,拼接形成数据格式[生化检查向量,文书嵌入向量,并发症单标签];对于不均衡数据集,使用融合条件熵和TF-IDF的HTTE过采样方法进行少数类样本集的创建,划分得到模型训练所需训练集以及测试集;建立基于粒子群算法优化的深度置信网络,将训练集数据输入模型进行训练,得到单标签训练完成的模型;进行标签相关性检验,确定分类器链结构,构建多标签数据集,输入单标签训练后的模型进行调优;最后将测试患者数据输入调优得到的模型中,对目标患者慢性病中后期是否会患有并发症进行预测。本发明方法在慢性病患病早期风险预警中同时考虑了生化检查数据和电子病历文书对预测结果的影响,对现实场景下的粗糙数据集进行全面深入的处理,并结合了数据集特点优化了预测模型的选择和构建方法,能够实现科学、准确的预测,提高了慢性病并发症早期风险预警的准确性。
为了实现上述目的,本发明采取的技术方案是:一种基于小样本深度学习的慢性病并发症早期风险预警方法,包括如下步骤:
1)数据收集:收集医院系统中慢性病并发症患者首次就诊的门诊和住院生化检查数据以及电子病历文书,并根据文书内容获取并发症强相关的疾病字典,排除首次就诊即患有相关并发症的患者;
2)生化检查数据处理:对步骤1)获得的生化检查数据进行处理,利用Logistics分析进行统计学意义上特征的选择,再使用SVM-RFE进一步进行特征排序和模型意义上的特征筛选。确定特征因子组合后,构建特征表,并使用missForest进行缺失值的数据插补。
3)电子病历文书处理:对步骤1)获得的电子病历文书进行处理,利用Biobert模型进行文本向量嵌入,并对结果向量进行主成分分析降维。
4)类不平衡处理:对步骤2)和3)得到的生化检查向量、文书嵌入向量以及并发症标签进行拼接,形成数据格式[生化检查向量,文书嵌入向量,并发症单标签]。对于不均衡数据,使用融合条件熵和TF-IDF的HTTE过采样方法进行少数类样本集的创建,解决小样本问题,得到类平衡的数据集,划分得到模型训练所需训练集以及测试集。
5)模型建立:建立基于粒子群算法优化的深度置信网络,对DBN隐藏层的神经元的个数和学习率进行寻优。所述模型包括输入层、四个隐藏层和输出层六层,所述输入层包括[生化检查向量,文书嵌入向量,并发症单标签]三方面的向量组合;所述隐藏层包含的神经元个数由粒子群算法寻优得到。进行标签相关性检验,确定分类器链结构,构建多标签数据集。
6)模型训练:将步骤4)获得的训练集数据输入步骤5)建立的基于粒子群算法优化的深度置信网络模型进行训练,得到单标签训练完成的模型。再将步骤5)获得的多标签数据集输入单标签训练后的模型进行模型调优,得到训练完成的模型。
7)并发症早期风险预警:将步骤4)获得的测试数据输入步骤6)训练完成的模型中,对目标患者慢性病中后期是否会患有并发症进行预测。
本发明的基于小样本深度学习的慢性病并发症早期风险预警方法中,所述步骤1)中,慢性病并发症患者首次就诊数据来源于市医院患者信息数据系统,涵盖近二十年所有相关慢性病患者,对所获数据做保密处理。所获数据同时包括生化检查数据和电子病历文书,数据格式具体为[生化检查向量,文书嵌入向量,并发症单标签]。
本发明的基于小样本深度学习的慢性病并发症早期风险预警方法中,所述步骤2)中,在进行基础的Logistics分析,得到统计学意义上的相关变量后,本发明还进行SVM-RFE特征排序和筛选,选择出对预警模型有意义的变量。SVM-RFE是一个基于SVM最大间隔原理的特征选择算法,它通过样本训练SVM模型计算出每个特征的重要性得分,进而实现特征排序。此处的重要性得分以每个特征对分类超平面函数y=WTX+b具有的影响作用为评判准则,即每个特征的权值向量ωi。具体而言,输入为Logistics分析得到的特征集样本,进入SVM模型训练后得到特征得分,每次递归去除权值ωi 2最小的特征重新训练SVM,直到完成所有特征的排序,输出为特征排序列表r。对于特征排序列表r,获取它的所有特征子集{r1,r2,r3,…,rm},再使用每一个特征子集训练SVM,得到相应的评分函数,评分最高的即最佳的特征因子组合。
本发明的基于小样本深度学习的慢性病并发症早期风险预警方法中,所述步骤2)中,使用missForest对特征缺失值进行数据插补。MissForest是一种基于随机森林算法的数据插补算法,弥补了“惰性”插补方法(如中位数或平均值)的单一性,以及KNN方法需要进行数据预处理、参数k调整、异常值敏感等缺点,可以应用于连续值和离散值的混合数据类型。具体过程如下,使用中位数/众数插补来填充缺失值,将这一值标记为预测值,其他为训练行。按照变量的缺失率从小到大使用missForest进行填补,一直迭代这一过程,直至满足一定的条件(如最新的填补结果和上一次变化很小)时停止。
本发明的基于小样本深度学习的慢性病并发症早期风险预警方法中,所述步骤3)中,对电子病历文书进行文本向量嵌入。尽管BERT模型在大部分类似任务里表现良好,但在医学等专业性领域的文本上,其表现相对较差。BioBERT是通过BERT初始化权重,基于生物医学领域语料库进行继续预训练,本质上是对BERT的一个延伸,其性能在电子病历文书的信息挖掘任务中远优于BERT。
本发明的基于小样本深度学习的慢性病并发症早期风险预警方法中,所述步骤4)中,融合条件熵和TF-IDF的HTTE过采样方法首先对离散型数据进行独热编码,对连续型数据进行分段标记处理,拼接后得到不同特征组合X以及并发症标签Y。计算组合X条件下Y的不确定性,即变量Y的条件熵。对于每种组合X,若其标签Y仅为少数类,则X为新的组合方式X_new,并计算其TF-IDF的值,得到数据选择指标value=条件熵/TF-IDF。按这一指标进行升序排序,根据输入参数α和正负样本数量差diff进行安全样本的选择。若X_new的数量≤diff/α,所有的X_new都可以作为安全样本;若X_new的数量>diff/α,且diff/α>1,则取X_new的前diff/α行为安全样本,反之则取前5行。最后,创建少数类样本。随机取一个安全样本,将连续数据恢复区间块,取区间块内的任意值即可。
本发明的基于小样本深度学习的慢性病并发症早期风险预警方法中,所述步骤5)深度置信网络DBN中,使用粒子群算法PSO进行参数寻优。为了使得模型具有较强的聚类学习能力,本发明设定了四层DBN结构,每层的神经元数是影响分类性能的重要因子,而粒子群算法可以对模型隐藏层的神经元个数进行寻优。算法的基本原理是将在解空间中寻求最优解位置的问题转换为鸟群寻找栖息地的实际场景,由于群体之间互相交流,因而最优解朝着例子可行性方向运动。假设N个粒子在n维搜索空间里寻找最优位置,每个粒子在任意时刻的速度表示为Vi=(vi1,vi2,…,vin),位置表示为Xi=(xi1,xi2,…,xin),最优位置表示为pbesti=(pbesti1,pbesti2,…,pbestin)。
设f(x)为最小化目标函数,则最优位置的表示公式如下:
N个粒子中存在一个粒子对应的位置为最佳位置,即全局最优位置,可以表示为gbest(t)=min{f(pbest1(t),f(pbest2(t)),…,f(pbestN(t)}。则粒子的速度和位置更新方程可以分别表示为:
vij(t+1)=ωvij(t)+c1r1×(pbestij-xij(t))+c2r2×(gbestj-xij(t))
xij(t+1)=xij(t)+vij(t)+vij(t+1)
速度公式的第一项是惯性部分,由惯性权重和粒子速度构成,表示粒子对先前运动状态的信任。其中ω是惯性权值,影响着全局和局部性能的平衡。当ω在(0.8,1.2)之间时,算法的收敛速度和全局搜索能力最强,在这一区间可以使用线性调整策略改变ω的取值,即:
第二项是认知部分,即粒子当前位置和自身历史最优位置间的距离和方向,是粒子的经验部分。第三项则是社会部分,是粒子之间的信息共享,即粒子当前位置和群体历史最优位置的距离和方向。其中c1,c2为加速因子,r1,r2为[0,1]的随机数。加速因子的引入有利于粒子逐步收敛并趋于稳定,避免陷入局部最优,计算公式如下,c1i,c2i为初值,c1f,c2f为终值:
粒子在每次迭代过程中都会对局部解进行优化,直到在某次迭代中产生最佳的分类准确率或满足一定的条件(即确定适应度函数),则在局部解中产生全局最优解,得到DBN的最优神经元个数。
本发明的基于小样本深度学习的慢性病并发症早期风险预警方法中,所述步骤5)多标签数据集构建中,进行标签相关性检验来确定分类器链的顺序。由于涉及多种慢性病并发症的分类,分类器链的顺序影响着分类模型。简单的解决方法是随机产生几种分类器链顺序训练模型,使用投票的方式决定那种顺序最优。本发明使用了基于标签相关性检验进行标签关系网络节点中心性度量的顺序选择方法。网络中的节点为并发症,存在边则代表并发症间具有相关性,边的权重表示相关性的大小。两个标签节点间的相关性大小可表示为ωij表示节点i和节点j的相关性大小。而节点在网络中的中心性程度,可以衡量节点对其他节点的影响,即节点的重要性程度,其计算方式如下:
其中,n表示网络中节点的个数。
根据标签的重要性程度排序,重要程度越高,给其他标签提供的信息越多,在分类器链中的顺序则越靠前。
有益效果:
本发明与现有技术相比,具有以下优点:
1.使用粒子群算法优化深度置信网络,这一算法可以优化模型的调参过程,并且能够寻找到最优的神经元个数,避免在调参过程中陷入局部最优、无法收敛的僵局,而耗费大量的时间和精力。此外,在预警模型部分从单标签预测转至多标签预测,引入了对标签顺序的考量,相比于单标签预测,对模型进行了进一步的训练调整,有助于对预测准确率的提高,在多疾病预测的场景中有更为突出的表现。
2.在慢性病并发症的产生过程中,除了生化检查数据可以反映病人的患病情况,电子病历所记录的病症特点等也是相当重要的考量因素。然而在以往的预测中,往往只是提取出病历文书部分的某几种相关疾病,作为离散类型的特征纳入考量。在本发明中,利用生物医学领域优化的语言处理模型BioBERT进行文本向量嵌入,保留了文书语义之间的关系,对信息的挖掘更加深入。
3.进行生化检查数据的特征选择时,在进行Logistics分析的基础上,使用SVM-RFE特征选择算法进行特征排序和进一步筛选。使得最终确定的特征因子组合不泛泛于统计学意义的变量,而是择出与模型更紧密相关的特征因子。
4.在数据插补的部分,使用missForest数据插补算法,弥补了“惰性”插补方法(如中位数或平均值)的单一性,以及KNN方法需要进行数据预处理、参数k调整、异常值敏感等缺点。并且可以应用于连续值和离散值的混合数据类型,插补得到的预测值和真实值之间的差值也更小。
5.本发明利用融合条件熵和TF-IDF的HTTE过采样方法,相比于一般的采样方法,可以避免过拟合现象的产生,采样得到的新样本也更和真实样本情况接近,解决了小样本场景的问题。
附图说明
图1是本发明一种基于小样本深度学习的慢性病并发症早期风险预警方法的步骤流程图;
图2是本发明方法步骤5)中深度置信网络模型的结构示意图;
图3是本发明方法中一个RBM层的结构示意图;
图4是本发明实施方式中并发症关系网络示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
实施例:以糖尿病并发症患者的数据为例,基于小样本深度学习的慢性病并发症早期风险预警方法,如图1所示,包括以下步骤:
1)数据收集和初步筛选。
需要进行两次糖尿病并发症患者数据的收集。第一次获取医院系统中糖尿病患者的门诊及住院电子病历文书,根据电子病历文书获得糖尿病肾病、糖尿病视网膜病变和糖尿病神经病三种慢性病并发症强相关的疾病字典。根据疾病字典在糖尿病患者的所有数据里进行患者第一次筛选,找到所有三种并发症相关患者的索引号。进一步地,为了更好地实现风险预测,需要二次筛选,排除患病初期就确诊并发症的患者。根据二次筛选获取的索引号,进行第二次数据收集,获取信息库中相关患者的基本信息及门诊和住院的生化检查数据。合并电子病历文书数据得到所需数据集整体。上述数据集是后续进行特征筛选等操作的根本来源,也是模型赖以训练的基础。。
2)对所得数据的生化检查数据部分进行特征选择和数据插补的处理。
不同糖尿病并发症最为常见的影响因素主要为性别、年龄、糖尿病病程、血压、葡萄糖、糖化血红蛋白、肌酐、血红蛋白、总胆固醇、总蛋白、白蛋白、球蛋白、甘油三酯、高密度脂蛋白胆固醇(HDL)、低密度脂蛋白胆固醇(LDL-C)、尿微量白蛋白、空腹血糖等。在具体实施时,需要从以下四个方面出发进行特征因子选择。
(1)一是在学术网站上进行糖尿病并发症辅助诊断、影响因子等关键词的搜索,查阅相关中英文文献。并请教专业医生,获取直接的指导,或者是在《中国Ⅱ型糖尿病防治指南》中查找对应的医学诊断标准。二是结合实际筛选出的三种并发症患者数据集,进行数据挖掘和分析,初步整理出影响相应并发症的关键指标,确定一个医学上有效、数据集上可行的并发症影响因素表,如下表所示。
并发症影响因素表
(2)完成上述过程仅仅是限定了一个特征范围,还需进行数据上的分析。三是利用Logistics分析,以显著性值P≤0.05为统计学意义,进一步确定相关程度大、具有统计学意义的变量。Logistic分析的方法主要通过单因素分析,并结合多因素分析构建模型,最终得出糖尿病并发症的相关因素。单因素Logistics分析可以说明单一因素对糖尿病患者并发症发生的影响,对上述影响因素表进行分析后,共有12个变量有统计学意义。这些变量主要包括糖化血红蛋白、病程、空腹血糖和部分生化检查指标,具体的P值结果如下表所示。
影响因素 | 肾病 | 视网膜病变 | 神经病变 |
病程 | 0.001 | 0.001 | 0.001 |
糖化血红蛋白 | 0.003 | 0.001 | 0.004 |
甘油三酯 | 0.026 | 0.873 | 0.003 |
总胆固醇 | 0.005 | 0.002 | 0.003 |
HDL-C | 0.036 | 0.072 | 0.830 |
LDL-C | 0.311 | 0.116 | 0.001 |
空腹血糖 | 0.001 | 0.001 | 0.001 |
eGFR(MDRD) | 0.001 | 0.048 | 0.037 |
尿微量白蛋白/肌酐 | 0.001 | 0.274 | 0.683 |
空腹C肽 | 0.563 | 0.002 | 0.480 |
... | ... | ... | ... |
空腹胰岛素 | 0.475 | 0.002 | 0.103 |
餐后2小时血糖 | 0.002 | 0.003 | 0.002 |
并发症不同影响因素P值结果
再以这12个相关变量进行多因素Logistics分析。结果显示,在多因素Logistics分析的结果中,有10个变量与并发症的发生相关性强。由统计学分析所得特征因子表如下表所示。
统计学分析所得特征因子表
(3)四是进行SVM-RFE特征筛选,本发明使用scikit-learn库进行算法构建,选择特征完整的数据集作为输入,选取AUC作为评价函数选择最优特征子集。由于统计学分析已经针对三种并发症分别得到10个相关变量,SVM-RFE算法就会产生10个特征子集。通过AUC分析,当选择的特征数目小于10个时,随着特征增加,得分整体呈现出波动中上升到最大值;当选择的特征数目大于10个时,随着特征增加,得分呈下降趋势。因此最优特征子集即上表所得结果。
(4)根据最终确定的特征因子构建的数据集缺少很多特征值,特别是与脂质相关的数据。对于这些缺失数据,本发明使用missForest进行数据插补,选择的参数为100棵树、迭代次数为100次。为了测试插补策略的性能,仅考虑没有丢失数据的患者实例来组装一个数据完整集,然后通过随机删除属性记录来更改数据完整集。随机删除的比例是基于原始数据集上每个属性的缺失值百分比,只需从数据完整集中随机删除相同的百分比,从而创建人工缺失数据集来测试插补能力。通过计算真实值和人工缺失值的均方根误差(RMSE)对比插补性能,对比结果如下表:
特征因子 | 葡萄糖 | 糖化血红蛋白 | 总胆固醇 | 甘油三酯 |
missForest | 0.60 | 3.65 | 23.1 | 49.04 |
均值 | 3.23 | 11.51 | 36.37 | 73.35 |
中位数 | 3.23 | 11.81 | 36.37 | 75.37 |
数据插补RMSE结果
可以看出本发明所用的数据插补算法missForest优于均值或中位数插补的方法。
3)对电子病历文书进行文本向量嵌入和PCA降维。
本发明使用开源的BioBERT_v1.1_pubmed版本作为向量嵌入的预训练模型,并进行微调,对并发症患者的门诊及住院病历文书内容进行整体嵌入,得到每个患者诊断文本的特征向量,每条描述文本会被转化为一个768维的向量。由于维度过高可能会弱化原有的生化检查特征,需要对嵌入向量进行降维处理。为了避免过度降维造成的向量信息缺失,将向量从768维降至30维。
4)将步骤2)和3)得到的向量连接后进行类不均衡处理,解决小样本场景的影响。
本发明采用融合条件熵和TF-IDF的过采样方法进行小样本数据的补充。在机器学习标准库中选取不均衡数据集进行方法验证,和普遍使用的欠采样、重采样和SMOTE过采样方法进行对比。以Accuracy为评价指标,HTTE方法在不同数据集上的表现都优于普通方法,实验结果如下表所示:
采样方法实验结果对比
5)建立基于粒子群算法优化的深度置信网络。
基于小样本深度学习的慢性病并发症早期风险预警方法的网络模型由六层构成:输入层,四个隐藏层和输出层。模型的整体结构如图2所示。所述输入层包括[生化检查向量,文书嵌入向量,并发症单标签]的向量组合。
所述隐藏层由BP神经网络层和三层受限玻尔兹曼机RBM构成,为了寻找全局最优值,需要在每一层之间都进行最优选择,即每一层都会作为输入层用于训练。其优势在于隐藏层有大量的神经元,更有利于特征向量的构建,有更强的学习能力;在训练中可采取逐层初始化的方法,克服了深度神经网络训练的难度。具体而言,一个RBM是由一个可视层和一个隐含层进行全连接并加以限制组成的,如图3所示。用a表示可视层v的偏置系数,b表示隐含层h的偏置系数,它们之间的权重用ω表示,θ={ωij,ai,bj},则RBM的函数可以表示为:
可以计算出可视层和隐含层的联合概率分布为:
当可视层的神经元个数被确定时,隐含层单元的激活状态也被确定,σ为Sigmoid激活函数,因此单个隐含层单元被激活的概率为:
同理,单个可视层被激活的概率为:
DBN的训练过程相当于简化为利用对比散度算法(CD)对多个RBM的训练,确定隐含层单元的激活状态,逐层的训练过程如下:
(a)最底部RBM以原始输入数据进行训练;
(b)将底部RBM抽取的特征作为顶部RBM的输入继续训练;
(c)重复这个过程直至训练到最顶部的RBM层;
(d)使用BP神经网络层对模型进行微调。
尽管训练过程明晰,但隐藏层即RBM的神经元个数是不确定的,下一RBM层的神经元个数是由上一RBM层决定的。使用PSO进行该参数的寻优,可以避免经验取值带来的过拟合问题或模型过于简单的问题。在具体实现时,设定初始种群粒子的个数为
30,进行100次迭代完成解位置的更新。在迭代的过程中,采用5倍交叉验证来寻求最优解。最终,当各隐含层的神经元的个数分别为(70,82,150,141)时,DBN在单标签上分类效果达到最好。
6)基于标签相关性检验确定分类器链的顺序,构建多标签数据集。
根据糖尿病肾病、糖尿病神经病变和糖尿病视网膜病变的相关性可以构建出一个简单的并发症标签网络如图4所示。图中每条边的权值为两端相应并发症的相关系数ω。根据公式可以计算出的每个糖尿病并发症节点的紧密中心性值。结果为:糖尿病肾病0.3114,糖尿病神经病变0.4385,糖尿病视网膜病变0.3576,因此分类器链中标签顺序为糖尿病神经病变-糖尿病视网膜病变-糖尿病肾病。根据标签在分类器链上的顺序,构建多标签数据集为
[生化检查向量,文书嵌入向量,糖尿病神经病变标签,糖尿病视网膜病变标签,糖尿病肾病标签]。
7)利用所述步骤6)中所得多标签数据再次训练5)中的DBN模型。
使用多标签数据集对单标签数据集上训练所得的DBN模型进行再次训练,得到多标签数据集的最优解在网络结构的隐含层神经元的个数分别为(71,82,150,140)时实现。
8)利用所述步骤7)中训练完成的模型,对数据集划分得到的测试集进行预测。
本实施例最终获得三种糖尿病并发症在糖尿病中后期患病的预测结果。这里使用
Accuracy和F1-score作为评估指标,来评估模型的效果。
下表分别显示了三种糖尿病并发症使用本发明的模型以及前人使用的模型对患病进行早期风险预警的对比情况。
不同模型预测三种糖尿病并发症的结果比较
结果表明,本发明提出的模型相较于前人提出的模型取得了最佳的Accuracy和F1-score,这表明本发明提出的模型相比于以往的预测方法取得了最好的效果。可以看到即使是小规模的数据集,PSO-DBN也比机器学习中较优的模型随机森林RF的效果要好,对于更复杂的分类预测任务PSO-DBN的效果会更加突出。
综上,本发明方法在早期风险预警的过程中纳入了电子病历文书作为考量因素,结合生物医学领域的数据特点,进行了文本向量嵌入、特征选择与数据插补完成数据处理。针对多种并发症预警的场景,构建多标签的深度网络模型,并利用粒子群算法对模型进行优化,实现了科学高效的风险预警,提高了慢性病并发症预测的准确率。
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。
Claims (8)
1.一种基于小样本深度学习的慢性病并发症早期风险预警方法,其特征在于,包括如下步骤:
1)数据收集:收集医院系统中慢性病并发症患者首次就诊的门诊和住院生化检查数据以及电子病历文书,并根据文书内容获取并发症强相关的疾病字典,排除首次就诊即患有相关并发症的患者,
2)生化检查数据处理:对步骤1)获得的生化检查数据进行处理,利用Logistics分析进行统计学意义上特征的选择,再使用SVM-RFE进一步进行特征排序和模型意义上的特征筛选,确定特征因子组合后,构建特征表,并使用missForest进行缺失值的数据插补,
3)电子病历文书处理:对步骤1)获得的电子病历文书进行处理,利用Biobert模型进行文本向量嵌入,并对结果向量进行主成分分析降维,
4)类不平衡处理:对步骤2)和3)得到的生化检查向量、文书嵌入向量以及并发症标签进行拼接,形成数据格式[生化检查向量,文书嵌入向量,并发症单标签],对于不均衡数据,使用融合条件熵和TF-IDF的HTTE过采样方法进行少数类样本集的创建,解决小样本问题,得到类平衡的数据集,划分得到模型训练所需训练集以及测试集,
5)模型建立:建立基于粒子群算法优化的深度置信网络,对DBN隐藏层的神经元的个数和学习率进行寻优,所述模型包括输入层、四个隐藏层和输出层六层,所述输入层包括[生化检查向量,文书嵌入向量,并发症单标签]三方面的向量组合;所述隐藏层包含的神经元个数由粒子群算法寻优得到,进行标签相关性检验,确定分类器链结构,构建多标签数据集,
6)模型训练:将步骤4)获得的训练集数据输入步骤5)建立的基于粒子群算法优化的深度置信网络模型进行训练,得到单标签训练完成的模型,再将步骤5)获得的多标签数据集输入单标签训练后的模型进行模型调优,得到训练完成的模型,
7)并发症早期风险预警:将步骤4)获得的测试数据输入步骤6)训练完成的模型中,对目标患者慢性病中后期是否会患有并发症进行预测。
2.如权利要求1所述的一种基于小样本深度学习的慢性病并发症早期风险预警方法,其特征在于:所述步骤1)中,慢性病并发症患者首次就诊数据来源于市医院患者信息数据系统,涵盖近二十年所有相关慢性病患者,对所获数据做保密处理,所获数据同时包括生化检查数据和电子病历文书,数据格式具体为:
[生化检查向量,文书嵌入向量,并发症单标签]。
3.如权利要求2所述的一种基于小样本深度学习的慢性病并发症早期风险预警方法,其特征在于:所述步骤2)中,在进行基础的Logistics分析,得到统计学意义上的相关变量后,还进行SVM-RFE特征排序和筛选,选择出对预警模型有意义的变量,SVM-RFE是一个基于SVM最大间隔原理的特征选择算法,它通过样本训练SVM模型计算出每个特征的重要性得分,进而实现特征排序,此处的重要性得分以每个特征对分类超平面函数y=WTX+b具有的影响作用为评判准则,即每个特征的权值向量ωi,具体而言,输入为Logistics分析得到的特征集样本,进入SVM模型训练后得到特征得分,每次递归去除权值ωi 2最小的特征重新训练SVM,直到完成所有特征的排序,输出为特征排序列表r;对于特征排序列表r,获取它的所有特征子集{r1,r2,r3,…,rm},再使用每一个特征子集训练SVM,得到相应的评分函数,评分最高的即最佳的特征因子组合。
4.如权利要求2所述的一种基于小样本深度学习的慢性病并发症早期风险预警方法,其特征在于:所述步骤2)中,使用missForest对特征缺失值进行数据插补,MissForest是一种基于随机森林算法的数据插补算法,弥补了“惰性”插补方法的单一性,以及KNN方法需要进行数据预处理、参数k调整、异常值敏感等缺点,应用于连续值和离散值的混合数据类型,具体过程如下,使用中位数/众数插补来填充缺失值,将这一值标记为预测值,其他为训练行,按照变量的缺失率从小到大使用missForest进行填补,一直迭代这一过程,直至满足条件时停止。
5.如权利要求3所述的一种基于小样本深度学习的慢性病并发症早期风险预警方法,其特征在于:所述步骤3)中,对电子病历文书进行文本向量嵌入,BioBERT是通过BERT初始化权重,基于生物医学领域语料库进行继续预训练,本质上是对BERT的一个延伸,其性能在电子病历文书的信息挖掘任务中远优于BERT。
6.如权利要求4所述的一种基于小样本深度学习的慢性病并发症早期风险预警方法,其特征在于:所述步骤4)中,融合条件熵和TF-IDF的HTTE过采样方法首先对离散型数据进行独热编码,对连续型数据进行分段标记处理,拼接后得到不同特征组合X以及并发症标签Y,计算组合X条件下Y的不确定性,即变量Y的条件熵,对于每种组合X,若其标签Y仅为少数类,则X为新的组合方式X_new,并计算其TF-IDF的值,得到数据选择指标value=条件熵/TF-IDF,按这一指标进行升序排序,根据输入参数α和正负样本数量差diff进行安全样本的选择,若X_new的数量≤diff/α,所有的X_new都可以作为安全样本;若X_new的数量>diff/α,且diff/α>1,则取X_new的前diff/α行为安全样本,反之则取前5行,最后,创建少数类样本,随机取一个安全样本,将连续数据恢复区间块,取区间块内的任意值即可。
7.如权利要求5所述的一种基于小样本深度学习的慢性病并发症早期风险预警方法,其特征在于:所述步骤5)深度置信网络DBN中,使用粒子群算法PSO进行参数寻优,为了使得模型具有较强的聚类学习能力,设定了四层DBN结构,每层的神经元数是影响分类性能的重要因子,而粒子群算法对模型隐藏层的神经元个数进行寻优,算法的基本原理是将在解空间中寻求最优解位置的问题转换为鸟群寻找栖息地的实际场景,由于群体之间互相交流,因而最优解朝着例子可行性方向运动,假设N个粒子在n维搜索空间里寻找最优位置,每个粒子在任意时刻的速度表示为Vi=(vi1,vi2,...,vin),位置表示为Xi=(xi1,xi2,...,xin),最优位置(个体最优解)表示为pbesti=(pbesti1,pbesti2,...,pbestin),
设f(x)为最小化目标函数,则最优位置的表示公式如下:
其中,pbesti(t)表示t时刻粒子i的最优位置,f(pbesti(t))表示t时刻粒子i最优位置的适应值(优化目标函数的值),f(Xi(t+1))则表示t+1时刻粒子i所在位置的适应值,
N个粒子中存在一个粒子对应的位置为最佳位置,即全局最优位置(群体最优解),可以表示为gbest(t)=min{f(pbest1(t),f(pbest2(t)),...,f(pbestN(t))},则粒子的速度和位置更新方程分别表示为:
vij(t+1)=ωvij(t)+c1r1×(pbestij(t)-xij(t))+c2r2×(gbestj(t)-xij(t))
xij(t+1)=xij(t)+vij(t)+vij(t+1)
其中,vij(t),xij(t),pbestij(t)分别表示t时刻粒子i在维度j的速度、位置以及最优位置,gbestj(t)则表示t时刻粒子群在维度j的全局最优位置,此外,c1,c2为加速因子,r1,r2为[0,1]的随机数,
具体而言,速度公式的第一项是惯性部分,由惯性权重和粒子速度构成,表示粒子对先前运动状态的信任,其中ω是惯性权值,影响着全局和局部性能的平衡,当ω在(0.8,1.2)之间时,算法的收敛速度和全局搜索能力最强,在这一区间可以使用线性调整策略改变ω的取值,即:
第二项是认知部分,即粒子当前位置和自身历史最优位置间的距离和方向,是粒子的经验部分,第三项则是社会部分,是粒子之间的信息共享,即粒子当前位置和群体历史最优位置的距离和方向,其中c1,c2为加速因子,r1,r2为[0,1]的随机数,加速因子的引入有利于粒子逐步收敛并趋于稳定,避免陷入局部最优,计算公式如下,c1i,c2i为初值,c1f,c2f为终值:
粒子在每次迭代过程中都会对局部解进行优化,直到在某次迭代中产生最佳的分类准确率或满足一定的条件(即确定适应度函数),则在局部解中产生全局最优解,得到DBN的最优神经元个数。
8.如权利要求5一种基于小样本深度学习的慢性病并发症早期风险预警方法,其特征在于:所述步骤5)多标签数据集构建中,进行标签相关性检验来确定分类器链的顺序,由于涉及多种慢性病并发症的分类,分类器链的顺序影响着分类模型,简单的解决方法是随机产生几种分类器链顺序训练模型,使用投票的方式决定那种顺序最优,使用了基于标签相关性检验进行标签关系网络节点中心性度量的顺序选择方法,网络中的节点为并发症,存在边则代表并发症间具有相关性,边的权重表示相关性的大小,两个标签节点间的相关性大小可表示为ωij表示节点i和节点j的相关性大小,而节点在网络中的中心性程度,衡量节点对其他节点的影响,即节点的重要性程度,其计算方式如下:
根据标签的重要性程度排序,重要程度越高,给其他标签提供的信息越多,在分类器链中的顺序则越靠前。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310657353.8A CN116682557A (zh) | 2023-06-05 | 2023-06-05 | 一种基于小样本深度学习的慢性病并发症早期风险预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310657353.8A CN116682557A (zh) | 2023-06-05 | 2023-06-05 | 一种基于小样本深度学习的慢性病并发症早期风险预警方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116682557A true CN116682557A (zh) | 2023-09-01 |
Family
ID=87790321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310657353.8A Pending CN116682557A (zh) | 2023-06-05 | 2023-06-05 | 一种基于小样本深度学习的慢性病并发症早期风险预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116682557A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116936134A (zh) * | 2023-09-18 | 2023-10-24 | 四川互慧软件有限公司 | 一种基于护理晨交班数据的并发症监测方法和系统 |
CN117219247A (zh) * | 2023-11-08 | 2023-12-12 | 厦门培邦信息科技有限公司 | 一种用于患者就诊的智慧管理系统 |
CN117558460A (zh) * | 2024-01-11 | 2024-02-13 | 卓世未来(天津)科技有限公司 | 基于小样本学习和大语言模型的慢性病管理方法及系统 |
CN117633625A (zh) * | 2023-11-30 | 2024-03-01 | 成都市成华区妇幼保健院 | 一种基于大数据的妇产科术后护理数据分析方法及系统 |
CN117909658A (zh) * | 2024-03-19 | 2024-04-19 | 北京航空航天大学 | 一种基于循环神经网络的插补方法及系统 |
CN118262911A (zh) * | 2024-03-12 | 2024-06-28 | 广东省人民医院 | 一种糖尿病患者dme风险评估模型及早期筛查系统 |
-
2023
- 2023-06-05 CN CN202310657353.8A patent/CN116682557A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116936134A (zh) * | 2023-09-18 | 2023-10-24 | 四川互慧软件有限公司 | 一种基于护理晨交班数据的并发症监测方法和系统 |
CN117219247A (zh) * | 2023-11-08 | 2023-12-12 | 厦门培邦信息科技有限公司 | 一种用于患者就诊的智慧管理系统 |
CN117219247B (zh) * | 2023-11-08 | 2024-02-23 | 厦门培邦信息科技有限公司 | 一种用于患者就诊的智慧管理系统 |
CN117633625A (zh) * | 2023-11-30 | 2024-03-01 | 成都市成华区妇幼保健院 | 一种基于大数据的妇产科术后护理数据分析方法及系统 |
CN117558460A (zh) * | 2024-01-11 | 2024-02-13 | 卓世未来(天津)科技有限公司 | 基于小样本学习和大语言模型的慢性病管理方法及系统 |
CN117558460B (zh) * | 2024-01-11 | 2024-04-05 | 卓世未来(天津)科技有限公司 | 基于小样本学习和大语言模型的慢性病管理方法及系统 |
CN118262911A (zh) * | 2024-03-12 | 2024-06-28 | 广东省人民医院 | 一种糖尿病患者dme风险评估模型及早期筛查系统 |
CN117909658A (zh) * | 2024-03-19 | 2024-04-19 | 北京航空航天大学 | 一种基于循环神经网络的插补方法及系统 |
CN117909658B (zh) * | 2024-03-19 | 2024-05-14 | 北京航空航天大学 | 一种基于循环神经网络的插补方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mishra et al. | EAGA-MLP—an enhanced and adaptive hybrid classification model for diabetes diagnosis | |
CN116682557A (zh) | 一种基于小样本深度学习的慢性病并发症早期风险预警方法 | |
Akella et al. | Machine learning algorithms for predicting coronary artery disease: efforts toward an open source solution | |
Ruan et al. | Representation learning for clinical time series prediction tasks in electronic health records | |
Elkholy et al. | Early prediction of chronic kidney disease using deep belief network | |
Silveira et al. | Exploring early prediction of chronic kidney disease using machine learning algorithms for small and imbalanced datasets | |
Wee et al. | Diabetes detection based on machine learning and deep learning approaches | |
Sarra et al. | A robust framework for data generative and heart disease prediction based on efficient deep learning models | |
Li et al. | Predicting clinical outcomes with patient stratification via deep mixture neural networks | |
CN114530248A (zh) | 确定心血管疾病潜在不适当处方的风险预警模型的方法 | |
Rudd | Application of support vector machine modeling and graph theory metrics for disease classification | |
Poolsawad et al. | Issues in the mining of heart failure datasets | |
Ellouze et al. | Artificial intelligence-based diabetes diagnosis with belief functions theory | |
Yadav et al. | Exploring Hyper-Parameters and Feature Selection for Predicting Non-Communicable Chronic Disease Using Stacking Classifier | |
Du et al. | The effects of deep network topology on mortality prediction | |
Dhar et al. | Multi-tier ensemble learning model with neighborhood component analysis to predict health diseases | |
Rao et al. | Medical Big Data Analysis using LSTM based Co-Learning Model with Whale Optimization Approach. | |
CN115862875B (zh) | 基于多类型特征融合的术后肺部并发症预测方法及系统 | |
Gupta et al. | Feature importance for human epithelial (HEp-2) cell image classification | |
Yousef | Prediction of chronic kidney disease using different classification algorithms: A comparative study | |
Onoja | An integrated interpretable machine learning framework for high-dimensional multi-omics datasets | |
Gairola et al. | Multi-feature Fusion Deep Network for Skin Disease Diagnosis | |
Kumar et al. | Chronic Kidney Disease Prediction Using Gradient Boosting and KNN Classifier | |
Geo Jenefer et al. | Diabetes disease prediction using firefly optimization-based cat-boost classifier in big data analytics | |
Avila-George et al. | A hybrid intelligent approach to predict discharge diagnosis in pediatric surgical patients |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |