CN113555077B - 疑似传染病预测方法及装置 - Google Patents
疑似传染病预测方法及装置 Download PDFInfo
- Publication number
- CN113555077B CN113555077B CN202111095969.8A CN202111095969A CN113555077B CN 113555077 B CN113555077 B CN 113555077B CN 202111095969 A CN202111095969 A CN 202111095969A CN 113555077 B CN113555077 B CN 113555077B
- Authority
- CN
- China
- Prior art keywords
- information
- vector
- diagnosis
- examination report
- patient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000035473 Communicable disease Diseases 0.000 title claims abstract description 83
- 208000015181 infectious disease Diseases 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000003745 diagnosis Methods 0.000 claims abstract description 118
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000000280 densification Methods 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims description 187
- 238000012545 processing Methods 0.000 claims description 152
- 238000013528 artificial neural network Methods 0.000 claims description 42
- 238000010606 normalization Methods 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 26
- 238000007689 inspection Methods 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 19
- 201000010099 disease Diseases 0.000 description 18
- 230000006870 function Effects 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 9
- 208000024891 symptom Diseases 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 6
- 230000036541 health Effects 0.000 description 4
- 206010019799 Hepatitis viral Diseases 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 208000008128 pulmonary tuberculosis Diseases 0.000 description 3
- 201000008827 tuberculosis Diseases 0.000 description 3
- 201000001862 viral hepatitis Diseases 0.000 description 3
- 208000030507 AIDS Diseases 0.000 description 2
- 208000025721 COVID-19 Diseases 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 2
- 201000005505 Measles Diseases 0.000 description 2
- 206010035664 Pneumonia Diseases 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 208000020089 femoral neck fracture Diseases 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 206010022000 influenza Diseases 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000017074 necrotic cell death Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 206010057654 Breast cancer female Diseases 0.000 description 1
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 description 1
- 206010012688 Diabetic retinal oedema Diseases 0.000 description 1
- 206010012689 Diabetic retinopathy Diseases 0.000 description 1
- 206010012742 Diarrhoea infectious Diseases 0.000 description 1
- 208000020061 Hand, Foot and Mouth Disease Diseases 0.000 description 1
- 208000025713 Hand-foot-and-mouth disease Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 208000007433 Lymphatic Metastasis Diseases 0.000 description 1
- 208000031662 Noncommunicable disease Diseases 0.000 description 1
- 201000005702 Pertussis Diseases 0.000 description 1
- 206010057190 Respiratory tract infections Diseases 0.000 description 1
- 208000000453 Skin Neoplasms Diseases 0.000 description 1
- 206010043774 Thyroid tuberculosis Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 206010003119 arrhythmia Diseases 0.000 description 1
- 230000006793 arrhythmia Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000000038 chest Anatomy 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000011190 diabetic macular edema Diseases 0.000 description 1
- IZEKFCXSFNUWAM-UHFFFAOYSA-N dipyridamole Chemical compound C=12N=C(N(CCO)CCO)N=C(N3CCCCC3)C2=NC(N(CCO)CCO)=NC=1N1CCCCC1 IZEKFCXSFNUWAM-UHFFFAOYSA-N 0.000 description 1
- 208000028659 discharge Diseases 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 208000001848 dysentery Diseases 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005311 nuclear magnetism Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000002685 pulmonary effect Effects 0.000 description 1
- 206010038534 renal tuberculosis Diseases 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 201000000849 skin cancer Diseases 0.000 description 1
- 208000006379 syphilis Diseases 0.000 description 1
- 210000001685 thyroid gland Anatomy 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明是关于一种疑似传染病预测方法及装置,方法包括:从医疗数据库中获取所有患者的电子病历信息和检查报告信息;利用每个患者的电子病历信息和检查报告信息以及第一多输入稠密化诊断模型进行训练,以得到二分类预测模型;利用每个患者的电子病历信息和检查报告信息以及第二多输入稠密化诊断模型进行训练,以得到多分类预测模型;获取目标患者的电子病历信息和检查报告信息;使用二分类预测模型预测目标患者是否是疑似传染病;当预测目标患者是疑似传染病时,使用多分类预测模型预测疑似传染病的具体类型。
Description
技术领域
本发明涉及传染病预测技术领域,尤其涉及一种疑似传染病预测方法及装置。
背景技术
传染病一直伴随着人类的发展,严重威胁着人类的健康。尽管医学研究一直在进步,但传染病仍然是世界范围内造成死亡、疾病、残疾和社会经济动荡的主要原因。早期诊断预测,准确选择诊疗方案,提前进行干预,可以极大地影响传染病的治疗效果和预防控制。中国对传染病实行分类管理,目前的法定报告传染病分为甲、乙、丙3类,加上2020年新增的COVID-19,共达40种之多。此外,还包括国家卫生健康委决定列入乙类、丙类传染病管理的其他传染病和按照甲类管理开展应急监测报告的其他传染病。针对不同类别传染病采用不同管理方式,甲类传染病需要在诊断2小时内报告至国家疾控中心,乙丙类需要在诊断的24小时内报告。传染病类型复杂,如何尽早做出准确的诊断是传染病防控过程中的重要环节。
目前将人工智能方法应用于疾病分类的研究较少,大多研究基于影像类数据,如X光、CT、核磁、心电图、超声等,Hannun等人使用深度神经网络来检测和分类动态心电图中的心脏病专家级心律失常,其结果显示了较好的分类精度(曲线下面积=0.97)。Attia等人测试了AI在心电图中的应用准确性,观察到的准确率为85.7%。Wildman Tobriner等人表明,采用AI方法优化的甲状腺成像报告和数据系统(TI-RADS)可以适度提高特异性和敏感性。LIYang等将神经网络应用于基于X光的股骨头坏死诊断上,根据神经网络学习图像特征角度变化确诊股骨头坏死,并推荐疾病分期。S Sathitratanacheewin等人设计了DCNN在美国国立卫生研究院临床中心National Institute of Health Clinical Centers和NationalLibrary of Medicine Shenzhen No.3 Hospital数据上,进行基于X光片的肺结节监测。基于不同AI算法的类似诊断工具在检测乳腺癌女性淋巴结转移、皮肤癌皮肤科级别分类、糖尿病视网膜病变和糖尿病黄斑水肿和阿尔茨海默病多类诊断方面具有良好的准确性。但现有适用于传染病的推荐诊断辅助决策研究较少,Rogachev等人使用了决策树与贝叶斯方法针对呼吸道感染疾病进行分类诊断,最终分类准确度为63.38%-70.68%。针对COVID-19,Govindaraj等人基于胸部CT图像数据,使用卷积神经网络进行特征提取与分类,尝试新冠肺炎分类模型结均达到90%以上。Rajpurkar P等人专门针对艾滋病患者的X光信息,采用深度学习,辅助提升艾滋病患者的肺结核确诊率,准确率可以达到79%,研究中数据仅有X光原始影像,缺少病历等重要的文本信息。虽然前期已有人员对传染病辅助诊断进行了探索,但在结合真实文本病历的研究方向上亟待探索,且当前研究普遍为基于影像数据的某一种传染病,尚缺乏对多种传染病同时有效的方法。
发明内容
为克服相关技术中存在的问题,本发明提供一种疑似传染病预测方法及装置。
根据本发明实施例的第一方面,提供一种疑似传染病预测方法,方法包括:
从医疗数据库中获取所有患者的电子病历信息和检查报告信息;
利用每个患者的电子病历信息和检查报告信息以及第一多输入稠密化诊断模型进行训练,以得到二分类预测模型;
利用每个患者的电子病历信息和检查报告信息以及第二多输入稠密化诊断模型进行训练,以得到多分类预测模型;
获取目标患者的电子病历信息和检查报告信息;
使用所述二分类预测模型预测所述目标患者是否是疑似传染病;
当预测所述目标患者是疑似传染病时,使用所述多分类预测模型预测所述疑似传染病的具体类型。
在一个实施例中,优选地,利用每个患者的电子病历信息和检查报告信息以及第一多输入稠密化诊断模型进行训练,以得到二分类预测模型,包括:
第一多输入稠密化诊断模型根据每个患者的电子病历信息和检查报告信息,确定该患者的个人信息、门诊信息或住院信息和检查报告信息;
根据所述患者的个人信息确定个人信息向量,根据所述门诊信息或住院信息确定诊疗向量,根据所述检查报告信息确定检查报告向量;
将所述诊疗向量和检查报告向量分别进行自编码器处理,以得到对应的稠密诊疗向量和稠密检查报告向量;
将所述个人信息向量、稠密诊疗向量和稠密检查报告向量进行合并和归一化处理,以得到输入向量;
将所述输入向量输入自注意力层,以得到第一输出结果;
将所述稠密诊疗向量、稠密检查报告向量和所述第一输出结果进行批归一化处理,得到第一处理结果;
将所述第一处理结果输入前馈神经网络,输出神经网络计算结果;
将所述第一处理结果和所述神经网络计算结果进行批归一化处理,得到第二处理结果;
将所述第二处理结果输入sigmoid函数,以输出是否是疑似传染病的概率。
在一个实施例中,优选地,利用每个患者的电子病历信息和检查报告信息以及第二多输入稠密化诊断模型进行训练,以得到多分类预测模型,包括:
第一多输入稠密化诊断模型根据每个患者的电子病历信息和检查报告信息,确定该患者的个人信息、门诊信息或住院信息和检查报告信息;
根据所述患者的个人信息确定个人信息向量,根据所述门诊信息或住院信息确定诊疗向量,根据所述检查报告信息确定检查报告向量;
将所述诊疗向量和检查报告向量分别进行自编码器处理,以得到对应的稠密诊疗向量和稠密检查报告向量;
将所述个人信息向量、稠密诊疗向量和稠密检查报告向量进行合并和归一化处理,以得到输入向量;
将所述输入向量输入自注意力层,以得到第一输出结果;
将所述稠密诊疗向量、稠密检查报告向量和所述第一输出结果进行批归一化处理,得到第一处理结果;
将所述第一处理结果输入前馈神经网络,输出神经网络计算结果;
将所述第一处理结果和所述神经网络计算结果进行批归一化处理,得到第二处理结果;
将所述第二处理结果输入归一化指数函数,以输出疑似传染病的具体类型的预测值。
在一个实施例中,优选地,所述自编码器在优化过程中把所述诊疗向量和检查报告向量同时作为分类预测模型的输入和输出,通过最小化重构误差希望学习到对应的抽象特征表示Z矩阵,其中,对于不同类型的文书,构建的自编码器不同。
在一个实施例中,优选地,在利用每个患者的电子病历信息和检查报告信息进行模型训练之前,还包括:
从所述每个患者的电子病历信息中获取电子病历文本数据;
对所述电子病历文本数据进行序列标注和分词处理,并使用BiLSTM- CRF网络结构从中提取实体特征信息以及实体之间的关系,并通过独热编码对所述实体特征信息进行格式转化,以利用转化格式后的所述实体特征信息进行模型训练。
根据本发明实施例的第二方面,提供一种疑似传染病预测装置,所述装置包括:
第一获取模块,用于从医疗数据库中获取所有患者的电子病历信息和检查报告信息;
第一训练模块,用于利用每个患者的电子病历信息和检查报告信息以及第一多输入稠密化诊断模型进行训练,以得到二分类预测模型;
第二训练模块,用于利用每个患者的电子病历信息和检查报告信息以及第二多输入稠密化诊断模型进行训练,以得到多分类预测模型;
第二获取模块,用于获取目标患者的电子病历信息和检查报告信息;
第一预测模块,用于使用所述二分类预测模型预测所述目标患者是否是疑似传染病;
第二预测模块,用于当预测所述目标患者是疑似传染病时,使用所述多分类预测模型预测所述疑似传染病的具体类型。
在一个实施例中,优选地,所述第一训练模块包括:
第一确定单元,用于第一多输入稠密化诊断模型根据每个患者的电子病历信息和检查报告信息,确定该患者的个人信息、门诊信息或住院信息和检查报告信息;
第二确定单元,用于根据所述患者的个人信息确定个人信息向量,根据所述门诊信息或住院信息确定诊疗向量,根据所述检查报告信息确定检查报告向量;
第一处理单元,用于将所述诊疗向量和检查报告向量分别进行自编码器处理,以得到对应的稠密诊疗向量和稠密检查报告向量;
第二处理单元,用于将所述个人信息向量、稠密诊疗向量和稠密检查报告向量进行合并和归一化处理,以得到输入向量;
第三处理单元,用于将所述输入向量输入自注意力层,以得到第一输出结果;
第四处理单元,用于将所述稠密诊疗向量、稠密检查报告向量和所述第一输出结果进行批归一化处理,得到第一处理结果;
第五处理单元,用于将所述第一处理结果输入前馈神经网络,输出神经网络计算结果;
第六处理单元,用于将所述第一处理结果和所述神经网络计算结果进行批归一化处理,得到第二处理结果;
第七处理单元,将所述第二处理结果输入sigmoid函数,以输出是否是疑似传染病的概率。
在一个实施例中,优选地,所述第二训练模块包括:
第一确定单元,用于第一多输入稠密化诊断模型根据每个患者的电子病历信息和检查报告信息,确定该患者的个人信息、门诊信息或住院信息和检查报告信息;
第二确定单元,用于根据所述患者的个人信息确定个人信息向量,根据所述门诊信息或住院信息确定诊疗向量,根据所述检查报告信息确定检查报告向量;
第一处理单元,用于将所述诊疗向量和检查报告向量分别进行自编码器处理,以得到对应的稠密诊疗向量和稠密检查报告向量;
第二处理单元,用于将所述个人信息向量、稠密诊疗向量和稠密检查报告向量进行合并和归一化处理,以得到输入向量;
第三处理单元,用于将所述输入向量输入自注意力层,以得到第一输出结果;
第四处理单元,用于将所述稠密诊疗向量、稠密检查报告向量和所述第一输出结果进行批归一化处理,得到第一处理结果;
第五处理单元,用于将所述第一处理结果输入前馈神经网络,输出神经网络计算结果;
第六处理单元,用于将所述第一处理结果和所述神经网络计算结果进行批归一化处理,得到第二处理结果;
第七处理单元,用于将所述第二处理结果输入归一化指数函数,以输出疑似传染病的具体类型的预测值。
在一个实施例中,优选地,所述自编码器在优化过程中把所述诊疗向量和检查报告向量同时作为分类预测模型的输入和输出,通过最小化重构误差希望学习到对应的抽象特征表示Z矩阵,其中,对于不同类型的文书,构建的自编码器不同。
在一个实施例中,优选地,还包括:
第三获取模块,用于在利用每个患者的电子病历信息和检查报告信息进行模型训练之前,从所述每个患者的电子病历信息中获取电子病历文本数据;
转化模块,用于对所述电子病历文本数据进行序列标注和分词处理,并使用BiLSTM- CRF网络结构从中提取实体特征信息以及实体之间的关系,并通过独热编码对所述实体特征信息进行格式转化,以利用转化格式后的所述实体特征信息进行模型训练。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面中任一项方法的步骤。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明实施例中,以医院真实传染病历为数据基础,通过全病程数据采集,建立基础数据集。利用自编码器无监督学习方式对高维数据进行高效的特征提取和特征表示,对稀疏数据进行稠密化,从而使模型更易训练。构建MIDDM深度学习模型,引入残差网络和注意力attention机制,提升模型性能,从而实现对疑似传染病的预测,进而及时采取相应的措施。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种传染病流行趋势预测方法的流程图。
图2是根据一示例性实施例示出的一种传染病流行趋势预测方法中步骤S102的流程图。
图3是根据一示例性实施例示出的一种传染病流行趋势预测方法中步骤S102的流程示意图。
图4是根据一示例性实施例示出的一种传染病流行趋势预测方法中步骤S103的流程图。
图5是根据一示例性实施例示出的一种传染病流行趋势预测方法中步骤S103的流程示意图。
图6是根据一示例性实施例示出的一种传染病流行趋势预测装置的框图。
图7是根据一示例性实施例示出的一种传染病流行趋势预测过程示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种传染病流行趋势预测方法的流程图,如图1所示,该方法包括:
步骤S101,从医疗数据库中获取所有患者的电子病历信息和检查报告信息;
针对传染病的诊断需要患者病例数据中的多个特征,本发明所用病历数据主要从北京大学第三医院医学数据中心中获取。针对部分传染病患者病例数较少的问题,将门急诊与住院数据合并纳入,用以扩充数据集规模。由于患者数据提取自电子病历的文本数据,所以在训练诊断模型前应对缺乏统一性的数据进行多步骤处理。例如,对数据所用特征、疾病等存在的别名、子类名称,利用知识库进行归一替换;利用正则表达式、自然语言处理方法等规范化特征取值;并针对模型训练数据做结构化、向量化等处理。为尽可能广泛考虑病例中对传染病有重要影响因素的信息,训练模型所使用数据包含了患者个人信息以及当前症状、疾病等多种特征,具体包含:病案首页中患者性别、年龄、就诊时间等个人信息;入院记录与门诊病历中主诉、现病史、既往病史、社会史、体格检查、辅助检查等能够表明患者症状、疾病信息;以及能够更细致、精确量化当前患者状态的多种检查报告、检验报告,且包括其中含有的检查项目、检查结果、正常结果范围等数据,如表1所示。
表1 病历抽取数据
步骤S102,利用每个患者的电子病历信息和检查报告信息以及第一多输入稠密化诊断模型进行训练,以得到二分类预测模型;
二分类预测模型用于对患者是否是传染病进行预测。
步骤S103,利用每个患者的电子病历信息和检查报告信息以及第二多输入稠密化诊断模型进行训练,以得到多分类预测模型;多分类预测模型用于具体预测疑似传染病的类型。
步骤S104,获取目标患者的电子病历信息和检查报告信息;
步骤S105,使用所述二分类预测模型预测所述目标患者是否是疑似传染病;
步骤S106,当预测所述目标患者是疑似传染病时,使用所述多分类预测模型预测所述疑似传染病的具体类型。
图2是根据一示例性实施例示出的一种传染病流行趋势预测方法中步骤S102的流程图。
如图2和图3所示,在一个实施例中,优选地,步骤S102包括:
步骤S201,第一多输入稠密化诊断模型根据每个患者的电子病历信息和检查报告信息,确定该患者的个人信息、门诊信息或住院信息和检查报告信息;
步骤S202,根据所述患者的个人信息确定个人信息向量,根据所述门诊信息或住院信息确定诊疗向量,根据所述检查报告信息确定检查报告向量;
步骤S203,将所述诊疗向量和检查报告向量分别进行自编码器处理,以得到对应的稠密诊疗向量和稠密检查报告向量;
步骤S204,将所述个人信息向量、稠密诊疗向量和稠密检查报告向量进行合并和归一化处理,以得到输入向量;
步骤S205,将所述输入向量输入自注意力层,以得到第一输出结果;
步骤S206,将所述稠密诊疗向量、稠密检查报告向量和所述第一输出结果进行批归一化处理,得到第一处理结果;
步骤S207,将所述第一处理结果输入前馈神经网络,输出神经网络计算结果;
步骤S208,将所述第一处理结果和所述神经网络计算结果进行批归一化处理,得到第二处理结果;
步骤S209,将所述第二处理结果输入sigmoid函数,以输出是否是疑似传染病的概率。
如图4和图5所示,在一个实施例中,优选地,上述步骤S103包括:
步骤S401,第一多输入稠密化诊断模型根据每个患者的电子病历信息和检查报告信息,确定该患者的个人信息、门诊信息或住院信息和检查报告信息;
步骤S402,根据所述患者的个人信息确定个人信息向量,根据所述门诊信息或住院信息确定诊疗向量,根据所述检查报告信息确定检查报告向量;
步骤S403,将所述诊疗向量和检查报告向量分别进行自编码器处理,以得到对应的稠密诊疗向量和稠密检查报告向量;
步骤S404,将所述个人信息向量、稠密诊疗向量和稠密检查报告向量进行合并和归一化处理,以得到输入向量;
步骤S405,将所述输入向量输入自注意力层,以得到第一输出结果;
步骤S406,将所述稠密诊疗向量、稠密检查报告向量和所述第一输出结果进行批归一化处理,得到第一处理结果;
步骤S407,将所述第一处理结果输入前馈神经网络,输出神经网络计算结果;
步骤S408,将所述第一处理结果和所述神经网络计算结果进行批归一化处理,得到第二处理结果;
批归一化采用以下公式进行计算:
步骤S409,将所述第二处理结果输入归一化指数函数,以输出疑似传染病的具体类型的预测值。
归一化指数函数表示为:
在一个实施例中,优选地,所述自编码器在优化过程中把所述诊疗向量和检查报告向量同时作为分类预测模型的输入和输出,通过最小化重构误差希望学习到对应的抽象特征表示Z矩阵,其中,对于不同类型的文书,构建的自编码器不同。
本发明针对当前多种常见传染病构建了多输入稠密化诊断模型(Multi InputDensification Diagnosis Model,MIDDM)。由于高维的稀疏数据(即0值较多的数据)在训练中计算复杂度较高、模型难以优化。所以需要使用一定方法对数据进行压缩、特征提取。针对医疗数据中大量的稀疏数据,MIDDM引入Auto-Encoder深度学习模型,采用无监督学习方式对高维数据进行高效的特征提取和特征表示。利用此方法可对稀疏数据进行稠密化,从而使模型更易训练,取得更优效果。Auto-Encoder主要分为三个部分, encoder、decoder以及特征。 Auto-Encoder在优化过程中无需使用样本的label,而是把样本的输入同时作为神经网络的输入和输出,通过最小化重构误差希望学习到样本的抽象特征表示Z矩阵。由于不同病历文书中包含特征种类不同、数量不同,所以在稠密化过程中分别对不同的文书构建不同的、有针对性的Auto-Encoder模型,从而获取各自更有效的抽象特征表达。之后将稠密化数据与包含患者个人信息的编码向量横向合并,在输入至后续分类结构前利用Layer Normalization方法对合并后向量进行归一化。由于不同文书经过不同Auto-Encoder后所得稠密向量不属于相同特征数值空间,利用层归一化对整个向量进行归一化,从而减小上述问题对训练结果产生的影响。MIDDM后续计算结构主要引入了自注意力Self-Attention与残差学习。将稠密向量与经过Self-Attention计算后结果进行加和,后续将加和的结果与经过前馈神经网络计算后的结果再进行直接求和。模型最终以Softmax作为激活函数,输出多个传染病各自的概率,从而完成对多个传染病的同时分类。
在一个实施例中,优选地,在利用每个患者的电子病历信息和检查报告信息进行模型训练之前,还包括:
从所述每个患者的电子病历信息中获取电子病历文本数据;
对所述电子病历文本数据进行序列标注和分词处理,并使用BiLSTM- CRF网络结构从中提取实体特征信息以及实体之间的关系,并通过独热编码对所述实体特征信息进行格式转化,以利用转化格式后的所述实体特征信息进行模型训练。
电子病历包含了患者全面、详实、准确的个人健康信息,含有非常丰富可以深度利用的信息。通过深入分析和挖掘电子病历中的信息,可以获得大量与患者密切相关的潜在信息。但是在电子病历中,除了检验等结构化较好数据,非结构化的自由文本数据占有非常大的比例,自由文本在各个层次上广泛存在着各种各样的歧义性或多义性。一般来说,模型训练很难理解和利用这类数据。因此,通过NLP(Natural Language Processing)方法将这些数据有效地转换为模型可以识别的结构化数据是构建传染病辅助诊断模型的基础。其中序列标注(Sequence Labeling)是NLP任务中进行信息抽取和挖掘深层语义的核心任务之一,包括词性标注,命名实体识别,关键词抽取,词义角色标注等等。对电子病历文本数据进行序列标注可以从中提取出包括疾病、症状、药品、检验、检查项目等实体,以及各个实体之间的关系。本发明基于目前序列标注效果比较好的开源方法BiLSTM-CRF网络,结合规则模型等方法实现对原始电子病历数据的信息抽取。如图7所示,首先将分词后的序列化文本输入BiLSTM层之后,将前向和后向的隐藏状态结果进行结合,生成BiLSTM的输出。之后,将BiLSTM的输出送至CRF作为输入,这样就形成了BiLSTM- CRF网络结构。这种结构结合了BiLSTM和CRF的优势:基于双向 LSTM 组件,可以有效地保存整句的前后信息,提取句子中的特征信息;借助CRF层,它能够有效的学习到学习语料中的约束信息,进而进一步提高信息抽取准确率。
在NLP提取数据之后需要对数据进行编码处理,首先将数据清洗,去除噪声数据,之后对数据进行异常值处理,对于明显偏离的异常值去除后,进行1/0二值化处理,对于数值型数据转换到[0,1]统一数值区间,最后是进行标准化处理,将症状、疾病、体征等实体别名替换为知识库中标准名称,尤其是章节和实体关系的特征拼接,病历中不同的章节中有可能包含相同的实体信息,但在医学上表示着不同的医疗意义,如主诉中症状和现病史中时间节点的症状名称相同,但是一个代表着现在的主要症状,一个代表着以前出现过的症状即既往史。因此要基于章节对特征做拼接。如”主诉_股骨颈骨折”和”既往史_股骨颈骨折”;将分词后数据转化为特征,1表示拥有此特征,0表示未有此特征。举例如表2所示。
表2 NLP分词后数据转化为特征
传染病多分类MIDDM模型预测排位第一的诊断与患者的出院诊断一致的即为正确,否则即为不正确,在临床当中,传染病作为第一诊断的概率为8.5%(17/200),同时根据医疗安全管理要求,传染病与其他非传染病不同,为单独管理,因此传染病诊断准确率不考虑第几诊断情况。
准确率的定义公式为:
下面以具体实施例详细说明本发明的上述技术方案。
首先,利用法定传染病数据表对归一后的传染病名称进行过滤,之后将其下属不具有传染性的子疾病进行筛除,如,结核病的子分类下甲状腺结核、肾结核等不属于传染病。之后,为保证训练模型所用数据的类别平衡性和模型预测能力的可测试性,将每季度病例数量少于10例的传染病进行剔除,最终对共计7种传染病进行预测与验证研究。为使数据能够输入至多分类神经网络中进行训练,需利用自然语言处理技术实现的分词、实体识别方法对传染病文本病例数据进行特征提取,并通过独热编码(One-Hot Encoding)进行格式转化,最终获得病历质量较高,可以用于研究的20620例样本数据。其中训练数据占比80%,包含16496条样本,测试数据占比20%,包含4124条数据。MIDDM将744287维稀疏数据通过抽象层神经元个数为1024的Auto-Encoder压缩为1024维稠密向量。此外分类结构中的FeedForward神经元个数为256。本实验使用0.001学习率对模型训练了32个Epoch。所得结果如表3所示。
表3 针对传染病多分类诊断的训练与测试结果
由表3可知,MIDDM在针对7种传染病进行诊断的实验中取得了较优的预测结果。在疾病诊断特征干扰因素相近的情况下,样本数据较多的疾病分类预测准确率明显优于样本数据较少的疾病分类预测准确率,如病毒性肝炎、流行性感冒、手足口病的训练数据分别达到2954、3924、3015,对应的测试准确率分别取得了99.53%、95.42%、95.24%的测试准确率。而梅毒、感染性腹泻、麻疹,其使用的训练数据较少,分别为1208、575与190,对应测试准确率有所降低,分别为72.73%、60.47%与37.50%。而疾病诊断特征干扰因素的增加会直接影响预测准确率如肺结核样本量4630,预测准确率86.89%。对于肺结核分类结果,虽然样本量最多达到4630但结果并没有明显优于样本量2954的病毒性肝炎,主要原因是肺结核病历文本本身与其他很多疾病较为相似,比如肺癌、肺炎、慢性阻塞性肺疾病等,同时肺结核还涉及病原学阳性与阴性等多个分型,疾病在临床诊断中也明细复杂于病毒性肝炎、流行性感冒等疾病。但对于麻疹、百日咳等数据量极少的传染病,导致训练中无法充分学习到传染病的特性,训练集准确率较低;同时测试集准确率也较低,无法通过小量的测试集广泛验证模型结果。针对数据样本较少的疾病,有待提高数据量,进一步证明模型的有效性。
图6是根据一示例性实施例示出的一种传染病流行趋势预测装置的框图。
如图6所示,根据本发明实施例的第二方面,提供一种疑似传染病预测装置,所述装置包括:
第一获取模块61,用于从医疗数据库中获取所有患者的电子病历信息和检查报告信息;
第一训练模块62,用于利用每个患者的电子病历信息和检查报告信息以及第一多输入稠密化诊断模型进行训练,以得到二分类预测模型;
第二训练模块63,用于利用每个患者的电子病历信息和检查报告信息以及第二多输入稠密化诊断模型进行训练,以得到多分类预测模型;
第二获取模块64,用于获取目标患者的电子病历信息和检查报告信息;
第一预测模块65,用于使用所述二分类预测模型预测所述目标患者是否是疑似传染病;
第二预测模块66,用于当预测所述目标患者是疑似传染病时,使用所述多分类预测模型预测所述疑似传染病的具体类型。
在一个实施例中,优选地,所述第一训练模块包括:
第一确定单元,用于第一多输入稠密化诊断模型根据每个患者的电子病历信息和检查报告信息,确定该患者的个人信息、门诊信息或住院信息和检查报告信息;
第二确定单元,用于根据所述患者的个人信息确定个人信息向量,根据所述门诊信息或住院信息确定诊疗向量,根据所述检查报告信息确定检查报告向量;
第一处理单元,用于将所述诊疗向量和检查报告向量分别进行自编码器处理,以得到对应的稠密诊疗向量和稠密检查报告向量;
第二处理单元,用于将所述个人信息向量、稠密诊疗向量和稠密检查报告向量进行合并和归一化处理,以得到输入向量;
第三处理单元,用于将所述输入向量输入自注意力层,以得到第一输出结果;
第四处理单元,用于将所述稠密诊疗向量、稠密检查报告向量和所述第一输出结果进行批归一化处理,得到第一处理结果;
第五处理单元,用于将所述第一处理结果输入前馈神经网络,输出神经网络计算结果;
第六处理单元,用于将所述第一处理结果和所述神经网络计算结果进行批归一化处理,得到第二处理结果;
第七处理单元,将所述第二处理结果输入sigmoid函数,以输出是否是疑似传染病的概率。
在一个实施例中,优选地,所述第二训练模块包括:
第一确定单元,用于第一多输入稠密化诊断模型根据每个患者的电子病历信息和检查报告信息,确定该患者的个人信息、门诊信息或住院信息和检查报告信息;
第二确定单元,用于根据所述患者的个人信息确定个人信息向量,根据所述门诊信息或住院信息确定诊疗向量,根据所述检查报告信息确定检查报告向量;
第一处理单元,用于将所述诊疗向量和检查报告向量分别进行自编码器处理,以得到对应的稠密诊疗向量和稠密检查报告向量;
第二处理单元,用于将所述个人信息向量、稠密诊疗向量和稠密检查报告向量进行合并和归一化处理,以得到输入向量;
第三处理单元,用于将所述输入向量输入自注意力层,以得到第一输出结果;
第四处理单元,用于将所述稠密诊疗向量、稠密检查报告向量和所述第一输出结果进行批归一化处理,得到第一处理结果;
第五处理单元,用于将所述第一处理结果输入前馈神经网络,输出神经网络计算结果;
第六处理单元,用于将所述第一处理结果和所述神经网络计算结果进行批归一化处理,得到第二处理结果;
第七处理单元,用于将所述第二处理结果输入归一化指数函数,以输出疑似传染病的具体类型的预测值。
在一个实施例中,优选地,所述自编码器在优化过程中把所述诊疗向量和检查报告向量同时作为分类预测模型的输入和输出,通过最小化重构误差希望学习到对应的抽象特征表示Z矩阵,其中,对于不同类型的文书,构建的自编码器不同。
在一个实施例中,优选地,还包括:
第三获取模块,用于在利用每个患者的电子病历信息和检查报告信息进行模型训练之前,从所述每个患者的电子病历信息中获取电子病历文本数据;
转化模块,用于对所述电子病历文本数据进行序列标注和分词处理,并使用BiLSTM- CRF网络结构从中提取实体特征信息以及实体之间的关系,并通过独热编码对所述实体特征信息进行格式转化,以利用转化格式后的所述实体特征信息进行模型训练。根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面中任一项方法的步骤。
进一步可以理解的是,本发明中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
进一步可以理解的是,本发明实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (4)
1.一种疑似传染病预测方法,其特征在于,所述方法包括:
从医疗数据库中获取所有患者的电子病历信息和检查报告信息;
利用每个患者的电子病历信息和检查报告信息以及第一多输入稠密化诊断模型进行训练,以得到二分类预测模型;
利用每个患者的电子病历信息和检查报告信息以及第二多输入稠密化诊断模型进行训练,以得到多分类预测模型;
获取目标患者的电子病历信息和检查报告信息;
使用所述二分类预测模型预测所述目标患者是否是疑似传染病;
当预测所述目标患者是疑似传染病时,使用所述多分类预测模型预测所述疑似传染病的具体类型;
利用每个患者的电子病历信息和检查报告信息以及第一多输入稠密化诊断模型进行训练,以得到二分类预测模型,包括:
第一多输入稠密化诊断模型根据每个患者的电子病历信息和检查报告信息,确定该患者的个人信息、门诊信息或住院信息和检查报告信息;
根据所述患者的个人信息确定个人信息向量,根据所述门诊信息或住院信息确定诊疗向量,根据所述检查报告信息确定检查报告向量;
将所述诊疗向量和检查报告向量分别进行自编码器处理,以得到对应的稠密诊疗向量和稠密检查报告向量;
将所述个人信息向量、稠密诊疗向量和稠密检查报告向量进行合并和归一化处理,以得到输入向量;
将所述输入向量输入自注意力层,以得到第一输出结果;
将所述稠密诊疗向量、稠密检查报告向量和所述第一输出结果进行批归一化处理,得到第一处理结果;
将所述第一处理结果输入前馈神经网络,输出神经网络计算结果;
将所述第一处理结果和所述神经网络计算结果进行批归一化处理,得到第二处理结果;
将所述第二处理结果输入sigmoid函数,以输出是否是疑似传染病的概率;
利用每个患者的电子病历信息和检查报告信息以及第二多输入稠密化诊断模型进行训练,以得到多分类预测模型,包括:
第一多输入稠密化诊断模型根据每个患者的电子病历信息和检查报告信息,确定该患者的个人信息、门诊信息或住院信息和检查报告信息;
根据所述患者的个人信息确定个人信息向量,根据所述门诊信息或住院信息确定诊疗向量,根据所述检查报告信息确定检查报告向量;
将所述诊疗向量和检查报告向量分别进行自编码器处理,以得到对应的稠密诊疗向量和稠密检查报告向量;
将所述个人信息向量、稠密诊疗向量和稠密检查报告向量进行合并和归一化处理,以得到输入向量;
将所述输入向量输入自注意力层,以得到第一输出结果;
将所述稠密诊疗向量、稠密检查报告向量和所述第一输出结果进行批归一化处理,得到第一处理结果;
将所述第一处理结果输入前馈神经网络,输出神经网络计算结果;
将所述第一处理结果和所述神经网络计算结果进行批归一化处理,得到第二处理结果;
将所述第二处理结果输入归一化指数函数,以输出疑似传染病的具体类型的预测值;
所述自编码器在优化过程中把所述诊疗向量和检查报告向量同时作为分类预测模型的输入和输出,通过最小化重构误差希望学习得 到对应的抽象特征表示Z矩阵,其中,对于不同类型的文书,构建的自编码器不同。
2.根据权利要求1所述的方法,其特征在于,在利用每个患者的电子病历信息和检查报告信息进行模型训练之前,还包括:
从所述每个患者的电子病历信息中获取电子病历文本数据;
对所述电子病历文本数据进行序列标注和分词处理,并使用BiLSTM- CRF网络结构从中提取实体特征信息以及实体之间的关系,并通过独热编码对所述实体特征信息进行格式转化,以利用转化格式后的所述实体特征信息进行模型训练。
3.一种疑似传染病预测装置,其特征在于,所述装置包括:
第一获取模块,用于从医疗数据库中获取所有患者的电子病历信息和检查报告信息;
第一训练模块,用于利用每个患者的电子病历信息和检查报告信息以及第一多输入稠密化诊断模型进行训练,以得到二分类预测模型;
第二训练模块,用于利用每个患者的电子病历信息和检查报告信息以及第二多输入稠密化诊断模型进行训练,以得到多分类预测模型;
第二获取模块,用于获取目标患者的电子病历信息和检查报告信息;
第一预测模块,用于使用所述二分类预测模型预测所述目标患者是否是疑似传染病;
第二预测模块,用于当预测所述目标患者是疑似传染病时,使用所述多分类预测模型预测所述疑似传染病的具体类型;
所述第一训练模块包括:
第一确定单元,用于第一多输入稠密化诊断模型根据每个患者的电子病历信息和检查报告信息,确定该患者的个人信息、门诊信息或住院信息和检查报告信息;
第二确定单元,用于根据所述患者的个人信息确定个人信息向量,根据所述门诊信息或住院信息确定诊疗向量,根据所述检查报告信息确定检查报告向量;
第一处理单元,用于将所述诊疗向量和检查报告向量分别进行自编码器处理,以得到对应的稠密诊疗向量和稠密检查报告向量;
第二处理单元,用于将所述个人信息向量、稠密诊疗向量和稠密检查报告向量进行合并和归一化处理,以得到输入向量;
第三处理单元,用于将所述输入向量输入自注意力层,以得到第一输出结果;
第四处理单元,用于将所述稠密诊疗向量、稠密检查报告向量和所述第一输出结果进行批归一化处理,得到第一处理结果;
第五处理单元,用于将所述第一处理结果输入前馈神经网络,输出神经网络计算结果;
第六处理单元,用于将所述第一处理结果和所述神经网络计算结果进行批归一化处理,得到第二处理结果;
第七处理单元,将所述第二处理结果输入sigmoid函数,以输出是否是疑似传染病的概率;
所述第二训练模块包括:
第一确定单元,用于第一多输入稠密化诊断模型根据每个患者的电子病历信息和检查报告信息,确定该患者的个人信息、门诊信息或住院信息和检查报告信息;
第二确定单元,用于根据所述患者的个人信息确定个人信息向量,根据所述门诊信息或住院信息确定诊疗向量,根据所述检查报告信息确定检查报告向量;
第一处理单元,用于将所述诊疗向量和检查报告向量分别进行自编码器处理,以得到对应的稠密诊疗向量和稠密检查报告向量;
第二处理单元,用于将所述个人信息向量、稠密诊疗向量和稠密检查报告向量进行合并和归一化处理,以得到输入向量;
第三处理单元,用于将所述输入向量输入自注意力层,以得到第一输出结果;
第四处理单元,用于将所述稠密诊疗向量、稠密检查报告向量和所述第一输出结果进行批归一化处理,得到第一处理结果;
第五处理单元,用于将所述第一处理结果输入前馈神经网络,输出神经网络计算结果;
第六处理单元,用于将所述第一处理结果和所述神经网络计算结果进行批归一化处理,得到第二处理结果;
第七处理单元,用于将所述第二处理结果输入归一化指数函数,以输出疑似传染病的具体类型的预测值;
所述自编码器在优化过程中把所述诊疗向量和检查报告向量同时作为分类预测模型的输入和输出,通过最小化重构误差希望学习得 到对应的抽象特征表示Z矩阵,其中,对于不同类型的文书,构建的自编码器不同。
4.根据权利要求3所述的装置,其特征在于,还包括:
第三获取模块,用于在利用每个患者的电子病历信息和检查报告信息进行模型训练之前,从所述每个患者的电子病历信息中获取电子病历文本数据;
转化模块,用于对所述电子病历文本数据进行序列标注和分词处理,并使用BiLSTM-CRF网络结构从中提取实体特征信息以及实体之间的关系,并通过独热编码对所述实体特征信息进行格式转化,以利用转化格式后的所述实体特征信息进行模型训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111095969.8A CN113555077B (zh) | 2021-09-18 | 2021-09-18 | 疑似传染病预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111095969.8A CN113555077B (zh) | 2021-09-18 | 2021-09-18 | 疑似传染病预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113555077A CN113555077A (zh) | 2021-10-26 |
CN113555077B true CN113555077B (zh) | 2022-01-11 |
Family
ID=78134448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111095969.8A Active CN113555077B (zh) | 2021-09-18 | 2021-09-18 | 疑似传染病预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113555077B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724710A (zh) * | 2022-06-10 | 2022-07-08 | 北京大学第三医院(北京大学第三临床医学院) | 突发事件的应急方案推荐方法、装置及存储介质 |
CN115148319B (zh) * | 2022-07-25 | 2024-08-02 | 哈尔滨理工大学 | 多临床分期疾病的辅助分类方法、设备及存储介质 |
CN116246749B (zh) * | 2023-05-11 | 2023-07-21 | 西南医科大学附属医院 | 集成电子病历的内分泌病人个性化健康管理系统 |
CN117238452B (zh) * | 2023-10-08 | 2024-05-17 | 中世康恺科技有限公司 | 一种区域医学影像云及检查检验结果互认共享平台 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980608A (zh) * | 2017-03-16 | 2017-07-25 | 四川大学 | 一种中文电子病历分词和命名实体识别方法及系统 |
US11636340B2 (en) * | 2018-04-17 | 2023-04-25 | Bgi Shenzhen | Modeling method and apparatus for diagnosing ophthalmic disease based on artificial intelligence, and storage medium |
US20200265953A1 (en) * | 2019-02-14 | 2020-08-20 | Babylon Partners Limited | Identifying Valid Medical Data for Facilitating Accurate Medical Diagnosis |
CN110534206A (zh) * | 2019-08-26 | 2019-12-03 | 北京好医生云医院管理技术有限公司 | 一种医疗诊断辅助系统的工作方法 |
CN111834012A (zh) * | 2020-07-14 | 2020-10-27 | 中国中医科学院中医药信息研究所 | 基于深度学习和注意力机制的中医证候诊断方法及装置 |
CN113342973A (zh) * | 2021-06-03 | 2021-09-03 | 重庆南鹏人工智能科技研究院有限公司 | 一种基于疾病二分类器的辅助诊断模型的诊断方法 |
-
2021
- 2021-09-18 CN CN202111095969.8A patent/CN113555077B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113555077A (zh) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113555077B (zh) | 疑似传染病预测方法及装置 | |
US20210233658A1 (en) | Identifying Relevant Medical Data for Facilitating Accurate Medical Diagnosis | |
EP3734604A1 (en) | Method and system for supporting medical decision making | |
Yu et al. | Evaluating progress in automatic chest x-ray radiology report generation | |
CN113241135A (zh) | 一种基于多模态融合的疾病风险预测方法和系统 | |
Agu et al. | AnaXNet: anatomy aware multi-label finding classification in chest X-ray | |
CN112489740B (zh) | 病历检测方法及相关模型的训练方法和相关设备、装置 | |
Gupta et al. | A novel deep similarity learning approach to electronic health records data | |
Levy et al. | Comparison of machine-learning algorithms for the prediction of current procedural terminology (CPT) codes from pathology reports | |
Pesquita | Towards Semantic Integration for Explainable Artificial Intelligence in the Biomedical Domain. | |
CN117954090A (zh) | 一种基于多模态缺失数据患者的死亡率预测方法及系统 | |
Zhang et al. | Development of a radiology decision support system for the classification of MRI brain scans | |
Leng et al. | Bi-level artificial intelligence model for risk classification of acute respiratory diseases based on Chinese clinical data | |
Kumar et al. | Deep-learning-enabled multimodal data fusion for lung disease classification | |
Donnat et al. | A Bayesian hierarchical network for combining heterogeneous data sources in medical diagnoses | |
CN115862875B (zh) | 基于多类型特征融合的术后肺部并发症预测方法及系统 | |
Chen et al. | Automatically structuring on Chinese ultrasound report of cerebrovascular diseases via natural language processing | |
Luo et al. | Towards Accurate and Clinically Meaningful Summarization of Electronic Health Record Notes: A Guided Approach | |
Heryawan et al. | Deep learning and machine learning model comparison for diagnosis detection from medical records | |
Zhu et al. | An intelligent prediagnosis system for disease prediction and examination recommendation based on electronic medical record and a medical-semantic-aware convolution neural network (MSCNN) for pediatric chronic cough | |
Kim et al. | Automatic diagnosis of medical conditions using deep learning with Symptom2VEC | |
Qu et al. | Five-dimensional evaluation system and perceptron intelligent computing performance measurement methods based on medical heterogeneous equipment health data | |
Shetty et al. | Diagnostic Performance Evaluation of Deep Learning-Based Medical Text Modelling to Predict Pulmonary Diseases from Unstructured Radiology Free-Text Reports | |
Belinda et al. | Five layered Ensembled Deep Fully Connected Neural Network based Brain Stroke Prediction | |
US20240029848A1 (en) | Systems and methods for generating a text report and simulating health care journey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |