CN112185564B - 一种基于结构化电子病历的眼科疾病预测方法和存储设备 - Google Patents

一种基于结构化电子病历的眼科疾病预测方法和存储设备 Download PDF

Info

Publication number
CN112185564B
CN112185564B CN202011121868.9A CN202011121868A CN112185564B CN 112185564 B CN112185564 B CN 112185564B CN 202011121868 A CN202011121868 A CN 202011121868A CN 112185564 B CN112185564 B CN 112185564B
Authority
CN
China
Prior art keywords
medical record
electronic medical
probability
model
disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011121868.9A
Other languages
English (en)
Other versions
CN112185564A (zh
Inventor
江瑞
崔雪建
陈福沨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Fuzhou Institute Of Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou Institute Of Data Technology Co ltd filed Critical Fuzhou Institute Of Data Technology Co ltd
Priority to CN202011121868.9A priority Critical patent/CN112185564B/zh
Publication of CN112185564A publication Critical patent/CN112185564A/zh
Application granted granted Critical
Publication of CN112185564B publication Critical patent/CN112185564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Eye Examination Apparatus (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明涉及数据处理技术领域,特别涉及一种基于结构化电子病历的眼科疾病预测方法和存储设备。所述一种基于结构化电子病历的眼科疾病预测方法,包括步骤:建立眼科疾病数据库;获取文本向量,及获取数值向量,将文本向量和数值向量作为待诊断电子病历的整体特征向量,并对整体特征向量进行加权拼接;得训练好的模型;得到各疾病的模型概率。进行相似度计算,得相似概率;对模型概率和相似概率进行加权求和,得最终的患病概率向量。在上述步骤中,对整体特征向量的加权拼接预设模型的使用,使得模型部分与现有深度学习模型相比,具有更高的可解释性,每一部分的权重,比如主诉或主诉的某个特征,都可对应于该部分对最终模型输出结果的贡献。

Description

一种基于结构化电子病历的眼科疾病预测方法和存储设备
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于结构化电子病历的眼科疾病预测方法和存储设备。
背景技术
根据世界卫生组织发布的数据显示,全球有近3亿视力受损患者,眼科疾病已成为继肿瘤、心血管疾病之后第三位危害及影响人们生存质量的疾病,包括盲在内的视觉损伤是涉及民生的重大公共卫生问题和社会问题。
眼健康主要分为眼病和视力不正常两块。我国眼科疾病众多,包括白内障、青光眼(全国患者近1000万)、屈光不正等。我国是世界上盲和视觉损伤患者数量最多的国家之一。据国际防盲协会披露,我国盲人数量早已突破600万。此外,年龄相关性眼病患病率提高,青少年屈光不正等问题日益突出;眼科医疗资源总量不足、质量不高、分布不均的问题依然存在。
目前,眼科疾病诊断主要通过专业眼科医生人工进行。医生需要获取并整合大量患者相关信息进行诊断和治疗。随着病人数量的日益增长和对疾病诊断准确率要求的不断提高,医生每天接收的信息量和信息密度都很巨大。然而目前我国眼科学的发展水平还不能满足大量眼病患者的需求,眼科医生数量稀少,水平参差不齐,这给疾病诊断的进一步发展带来了极大的困难。使得眼科疾病诊断效率低、精准度低等问题。
发明内容
为此,需要提供一种基于结构化电子病历的眼科疾病预测方法,用以解决人工进行眼科疾病诊断效率低、准确度低等问题。具体技术方案如下:
一种基于结构化电子病历的眼科疾病预测方法,包括步骤:
建立眼科疾病数据库;
获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接;
输入训练集数据电子病历的整体特征向量至预设模型进行训练,得训练好的模型;
输入测试集电子病历的整体特征向量至所述训练好的模型,并经过softmax模块后得到各疾病的模型概率;
获取向量化后的电子病历数据库,对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率;
对所述模型概率和所述相似概率进行加权求和,得最终的患病概率向量。
进一步的,还包括步骤:
判断最终的患病概率是否大于等于预设的疾病的判定阈值,若大于等于,则判定患该种疾病。
进一步的,所述“建立眼科疾病数据库”,还包括步骤:
通过不同途径获取用于训练的眼科语料,用所述眼科语料对BERT模型进行训练,对训练好后的BERT模型进行fine-tune得眼科疾病数据库。
进一步的,所述“获取向量化后的电子病历数据库”,还包括步骤:输入现有的电子病历数据库至BERT模型得向量化后的电子病历数据库。
进一步的,所述“对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率”,还包括步骤:
Figure BDA0002732250400000021
其中A为已知诊断结果病历的文本向量,B为待诊断电子病历的拼接向量,s为A与B的相似概率。
进一步的,所述预设模型为ElasticNet回归模型。
为解决上述技术问题,还提供了一种存储设备,具体技术方案如下:
一种存储设备,其中存储有指令集,所述指令集用于执行:
建立眼科疾病数据库;
获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接;
输入训练集数据电子病历的整体特征向量至预设模型进行训练,得训练好的模型;
输入测试集电子病历的整体特征向量至所述训练好的模型,并经过softmax模块后得到各疾病的模型概率;
获取向量化后的电子病历数据库,对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率;
对所述模型概率和所述相似概率进行加权求和,得最终的患病概率向量。
进一步的,所述指令集还用于执行:判断最终的患病概率是否大于等于预设的疾病的判定阈值,若大于等于,则判定患该种疾病。
进一步的,所述指令集还用于执行:所述“建立眼科疾病数据库”,还包括步骤:
通过不同途径获取用于训练的眼科语料,用所述眼科语料对BERT模型进行训练,对训练好后的BERT模型进行fine-tune得眼科疾病数据库。
进一步的,所述指令集还用于执行:所述“获取向量化后的电子病历数据库”,还包括步骤:输入现有的电子病历数据库至BERT模型得向量化后的电子病历数据库。
进一步的,所述指令集还用于执行:所述“对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率”,还包括步骤:
Figure BDA0002732250400000041
其中A为已知诊断结果病历的文本向量,B为待诊断电子病历的拼接向量,s为A与B的相似概率。
本发明的有益效果是:通过建立眼科疾病数据库;获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接;输入训练集数据电子病历的整体特征向量至预设模型进行训练,得训练好的模型;输入测试集电子病历的整体特征向量至所述训练好的模型,并经过softmax模块后得到各疾病的模型概率;获取向量化后的电子病历数据库,对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率;对所述模型概率和所述相似概率进行加权求和,得最终的患病概率向量。在上述步骤中,对整体特征向量的加权拼接预设模型的使用,使得模型部分与卷积神经网络、循环神经网络等深度学习模型相比,具有更高的可解释性,每一部分的权重,比如主诉或主诉的某个特征,都可对应于该部分对最终模型输出结果的贡献。且整个过程中灵活使用了现有电子病历来辅助诊断,可大大节约人力,提高效率。
此外相似概率的计算使得对已知诊断结果的电子病历的更加充分的利用,该部分的加入将会使得输出概率更加稳定可靠,也使得输出概率的解释效果增强。
附图说明
图1为具体实施方式所述一种基于结构化电子病历的眼科疾病预测方法的流程图;
图2为具体实施方式所述一种基于结构化电子病历的眼科疾病预测方法的示意图;
图3为具体实施方式所述一种存储设备的模块示意图。
附图标记说明:
300、存储设备。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1至图2,在本实施方式中,一种基于结构化电子病历的眼科疾病预测方法可应用在一种存储设备上,所述存储设备包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端等。具体实施如下:
步骤S101:建立眼科疾病数据库。请参阅图2,具体可如下:通过不同途径获取用于训练的眼科语料,用所述眼科语料对BERT模型进行训练,对训练好后的BERT模型进行fine-tune得眼科疾病数据库。其中不同途径如:眼科疾病相关的中文电子书籍,比如《眼科学》,包含眼的生理、病理等特征描述以及眼的各种检查技术,专业性很强。眼科电子病历有着很好的眼科病历的基本描述和格式。百度搜索的眼科疾病问答文本等语料包含了较多的眼科疾病基本症状和诊断建议等信息。以上用于BERT模型训练的语料使得训练好的BERT模型对眼科电子病历有着较高的特异性和敏感度。采用BERT中文预训练模型可以提高对正常语言数据的泛化能力。从预训练模型出发进行fine-tune,形成眼科疾病数据库。
步骤S102:获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接。具体可如下:将待诊断病历中主诉、检查、病史等自由文本,从训练好的BERT数据库中提取各自的文本embedding向量(即文本向量),从待诊断病历中眼部生化指标中提取相应数值化特征(即数值向量)。为形成该病历整体的文本embedding特征(即整体特征向量),需要将以上各部分的文本embedding向量特征进行加权拼接,权重可在模型训练过程中不断调整,也可人为设定。
步骤S103:输入训练集数据电子病历的整体特征向量至预设模型进行训练,得训练好的模型。在本实施方式中,所述预设模型为ElasticNet回归模型。步骤S104:输入测试集电子病历的整体特征向量至所述训练好的模型,并经过softmax模块后得到各疾病的模型概率。具体可如下:将训练集数据电子病历的整体特征向量输入ElasticNet回归模型(如下式)进行训练,然后将测试集电子病历的整体特征向量输入训练好的模型,经过softmax模块后得到1*k的列向量(该向量各项加和为1,k为眼科疾病种类数目),认为该向量即为各疾病的模型概率。
min(Y-XW)T(Y-XW)+λ1||W||12||W||2
||.||1与||.||2分别为1范数与2范数,λ1和λ2为正则化系数。
步骤S105:获取向量化后的电子病历数据库,对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率。其中所述“获取向量化后的电子病历数据库”,还包括步骤:输入现有的电子病历数据库至BERT模型得向量化后的电子病历数据库。所述“对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率”,还包括步骤:
Figure BDA0002732250400000071
其中A为已知诊断结果病历的文本向量,B为待诊断电子病历的拼接向量,s为A与B的相似概率。
步骤S106:对所述模型概率和所述相似概率进行加权求和,得最终的患病概率向量。具体可如下:对于计算得到的模型概率与相似概率,进行加权求和(默认求平均值,权重可根据诊断效果略作调整),得到最终的患病概率向量。
对于计算得到的患病概率,结合疾病的常见程度设置是否患病的判定阈值,判断最终的患病概率是否大于等于预设的疾病的判定阈值,若大于等于,则判定患该种疾病,若小于该阈值,则判定不患该种疾病。
基于该阈值,将患者判定为不患病、患某一种或多种眼科疾病,从而给出诊断建议。比如,根据患病概率向量,可判断该患者患A病的概率为0.8,患B病的概率为0.1。
通过建立眼科疾病数据库;获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接;输入训练集数据电子病历的整体特征向量至预设模型进行训练,得训练好的模型;输入测试集电子病历的整体特征向量至所述训练好的模型,并经过softmax模块后得到各疾病的模型概率;获取向量化后的电子病历数据库,对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率;对所述模型概率和所述相似概率进行加权求和,得最终的患病概率向量。在上述步骤中,对整体特征向量的加权拼接预设模型的使用,使得模型部分与卷积神经网络、循环神经网络等深度学习模型相比,具有更高的可解释性,每一部分的权重,比如主诉或主诉的某个特征,都可对应于该部分对最终模型输出结果的贡献。且整个过程中灵活使用了现有电子病历来辅助诊断,可大大节约人力,提高效率。
此外相似概率的计算使得对已知诊断结果的电子病历的更加充分的利用,该部分的加入将会使得输出概率更加稳定可靠,也使得输出概率的解释效果增强。
请参阅图2至图3,在本实施方式中,一种存储设备300的具体实施方式如下:
一种存储设备300,其中存储有指令集,所述指令集用于执行:建立眼科疾病数据库;获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接;输入训练集数据电子病历的整体特征向量至预设模型进行训练,得训练好的模型;输入测试集电子病历的整体特征向量至所述训练好的模型,并经过softmax模块后得到各疾病的模型概率;获取向量化后的电子病历数据库,对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率;对所述模型概率和所述相似概率进行加权求和,得最终的患病概率向量。
进一步的,所述指令集还用于执行:所述“建立眼科疾病数据库”,还包括步骤:通过不同途径获取用于训练的眼科语料,用所述眼科语料对BERT模型进行训练,对训练好后的BERT模型进行fine-tune得眼科疾病数据库。其中不同途径如:眼科疾病相关的中文电子书籍,比如《眼科学》,包含眼的生理、病理等特征描述以及眼的各种检查技术,专业性很强。眼科电子病历有着很好的眼科病历的基本描述和格式。百度搜索的眼科疾病问答文本等语料包含了较多的眼科疾病基本症状和诊断建议等信息。以上用于BERT模型训练的语料使得训练好的BERT模型对眼科电子病历有着较高的特异性和敏感度。采用BERT中文预训练模型可以提高对正常语言数据的泛化能力。从预训练模型出发进行fine-tune,形成眼科疾病数据库。
进一步的,所述指令集还用于执行:判断最终的患病概率是否大于等于预设的疾病的判定阈值,若大于等于,则判定患该种疾病。
获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接。具体可如下:将待诊断病历中主诉、检查、病史等自由文本,从训练好的BERT数据库中提取各自的文本embedding向量(即文本向量),从待诊断病历中眼部生化指标中提取相应数值化特征(即数值向量)。为形成该病历整体的文本embedding特征(即整体特征向量),需要将以上各部分的文本embedding向量特征进行加权拼接,权重可在模型训练过程中不断调整,也可人为设定。
在本实施方式中,所述预设模型为ElasticNet回归模型。
将训练集数据电子病历的整体特征向量输入ElasticNet回归模型(如下式)进行训练,然后将测试集电子病历的整体特征向量输入训练好的模型,经过softmax模块后得到1*k的列向量(该向量各项加和为1,k为眼科疾病种类数目),认为该向量即为各疾病的模型概率。
min(Y-XW)T(Y-XW)+λ1||W||12||W||2
||.||1与||.||2分别为1范数与2范数,λ1和λ2为正则化系数。
进一步的,所述指令集还用于执行:所述“获取向量化后的电子病历数据库”,还包括步骤:输入现有的电子病历数据库至BERT模型得向量化后的电子病历数据库。
进一步的,所述指令集还用于执行:所述“对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率”,还包括步骤:
Figure BDA0002732250400000101
其中A为已知诊断结果病历的文本向量,B为待诊断电子病历的拼接向量,s为A与B的相似概率。
进一步的,对于计算得到的模型概率与相似概率,进行加权求和(默认求平均值,权重可根据诊断效果略作调整),得到最终的患病概率向量。
对于计算得到的患病概率,结合疾病的常见程度设置是否患病的判定阈值,判断最终的患病概率是否大于等于预设的疾病的判定阈值,若大于等于,则判定患该种疾病,若小于该阈值,则判定不患该种疾病。
基于该阈值,将患者判定为不患病、患某一种或多种眼科疾病,从而给出诊断建议。比如,根据患病概率向量,可判断该患者患A病的概率为0.8,患B病的概率为0.1。
通过建立眼科疾病数据库;获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接;输入训练集数据电子病历的整体特征向量至预设模型进行训练,得训练好的模型;输入测试集电子病历的整体特征向量至所述训练好的模型,并经过softmax模块后得到各疾病的模型概率;获取向量化后的电子病历数据库,对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率;对所述模型概率和所述相似概率进行加权求和,得最终的患病概率向量。在上述步骤中,对整体特征向量的加权拼接预设模型的使用,使得模型部分与卷积神经网络、循环神经网络等深度学习模型相比,具有更高的可解释性,每一部分的权重,比如主诉或主诉的某个特征,都可对应于该部分对最终模型输出结果的贡献。且整个过程中灵活使用了现有电子病历来辅助诊断,可大大节约人力,提高效率。
此外相似概率的计算使得对已知诊断结果的电子病历的更加充分的利用,该部分的加入将会使得输出概率更加稳定可靠,也使得输出概率的解释效果增强。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

Claims (5)

1.一种基于结构化电子病历的眼科疾病预测方法,其特征在于,包括步骤:
建立眼科疾病数据库;
获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接;
输入训练集数据中的电子病历的整体特征向量至预设模型进行训练,得训练好的模型;
输入测试集中的电子病历的整体特征向量至所述训练好的模型,并经过softmax模块后得到各疾病的模型概率;
获取向量化后的电子病历数据库,对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率;
对所述模型概率和所述相似概率进行加权求和,得最终的患病概率向量;
所述建立眼科疾病数据库,还包括步骤:
通过不同途径获取用于训练的眼科语料,用所述眼科语料对BERT模型进行训练,对训练好后的BERT模型进行fine-tune得眼科疾病数据库;
所述预设模型为ElasticNet回归模型;
所述对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率,还包括步骤:
Figure FDA0003685009450000011
其中A为已知诊断结果病历的文本向量,B为待诊断电子病历的拼接向量,s为A与B的相似概率。
2.根据权利要求1所述的一种基于结构化电子病历的眼科疾病预测方法,其特征在于,还包括步骤:
判断最终的患病概率是否大于等于预设的疾病的判定阈值,若大于等于,则判定患所述预设的疾病。
3.根据权利要求1所述的一种基于结构化电子病历的眼科疾病预测方法,其特征在于,所述获取向量化后的电子病历数据库,还包括步骤:输入现有的电子病历数据库至BERT模型得向量化后的电子病历数据库。
4.一种存储设备,其中存储有指令集,其特征在于,所述指令集用于执行:
建立眼科疾病数据库;
获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接;
输入训练集数据中的电子病历的整体特征向量至预设模型进行训练,得训练好的模型;
输入测试集中的电子病历的整体特征向量至所述训练好的模型,并经过softmax模块后得到各疾病的模型概率;
获取向量化后的电子病历数据库,对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率;
对所述模型概率和所述相似概率进行加权求和,得最终的患病概率向量;
所述建立眼科疾病数据库,还包括步骤:
通过不同途径获取用于训练的眼科语料,用所述眼科语料对BERT模型进行训练,对训练好后的BERT模型进行fine-tune得眼科疾病数据库;
所述预设模型为ElasticNet回归模型;
所述对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率,还包括步骤:
Figure FDA0003685009450000031
其中A为已知诊断结果病历的文本向量,B为待诊断电子病历的拼接向量,s为A与B的相似概率。
5.根据权利要求4所述的一种存储设备,其特征在于,所述指令集还用于执行:判断最终的患病概率是否大于等于预设的疾病的判定阈值,若大于等于,则判定患所述预设的疾病。
CN202011121868.9A 2020-10-20 2020-10-20 一种基于结构化电子病历的眼科疾病预测方法和存储设备 Active CN112185564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011121868.9A CN112185564B (zh) 2020-10-20 2020-10-20 一种基于结构化电子病历的眼科疾病预测方法和存储设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011121868.9A CN112185564B (zh) 2020-10-20 2020-10-20 一种基于结构化电子病历的眼科疾病预测方法和存储设备

Publications (2)

Publication Number Publication Date
CN112185564A CN112185564A (zh) 2021-01-05
CN112185564B true CN112185564B (zh) 2022-09-06

Family

ID=73922681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011121868.9A Active CN112185564B (zh) 2020-10-20 2020-10-20 一种基于结构化电子病历的眼科疾病预测方法和存储设备

Country Status (1)

Country Link
CN (1) CN112185564B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550946A (zh) * 2022-02-28 2022-05-27 京东方科技集团股份有限公司 医疗数据处理方法、装置及存储介质
CN116259422B (zh) * 2023-03-13 2024-02-06 暨南大学 基于虚拟数据增强的眼科疾病诊疗意见生成方法、系统、介质和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697285A (zh) * 2018-12-13 2019-04-30 中南大学 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN109949929A (zh) * 2019-03-19 2019-06-28 挂号网(杭州)科技有限公司 一种基于深度学习大规模病历的辅助诊断系统
CN111415740A (zh) * 2020-02-12 2020-07-14 东北大学 问诊信息的处理方法、装置、存储介质及计算机设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017173428A1 (en) * 2016-04-01 2017-10-05 20/20 Genesystems Inc. Methods and compositions for aiding in distinguishing between benign and maligannt radiographically apparent pulmonry nodules
CN112513999A (zh) * 2017-10-13 2021-03-16 人工智能技术公司 眼科疾病和病症的基于深度学习的诊断和转诊
CN108154928A (zh) * 2017-12-27 2018-06-12 北京嘉和美康信息技术有限公司 一种疾病诊断方法及装置
WO2019200535A1 (zh) * 2018-04-17 2019-10-24 深圳华大生命科学研究院 基于人工智能的眼科疾病诊断建模方法、装置及系统
CN109949936B (zh) * 2019-03-13 2023-05-30 成都数联易康科技有限公司 一种基于深度学习混合模型的再住院风险预测方法
CN109992778B (zh) * 2019-03-26 2022-12-13 深圳八爪网络科技有限公司 基于机器学习的简历文档判别方法及装置
CN110867231A (zh) * 2019-11-18 2020-03-06 中山大学 基于文本分类的疾病预测方法、装置、计算机设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697285A (zh) * 2018-12-13 2019-04-30 中南大学 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN109949929A (zh) * 2019-03-19 2019-06-28 挂号网(杭州)科技有限公司 一种基于深度学习大规模病历的辅助诊断系统
CN111415740A (zh) * 2020-02-12 2020-07-14 东北大学 问诊信息的处理方法、装置、存储介质及计算机设备

Also Published As

Publication number Publication date
CN112185564A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN108806767B (zh) 基于电子病历的疾病症状关联分析方法
CN112133441B (zh) 一种mh术后裂孔状态预测模型的建立方法和终端
CN110111884B (zh) 一种基于cmkmc的人机协同智慧医疗辅助决策系统
KR20170061222A (ko) 건강데이터 패턴의 일반화를 통한 건강수치 예측 방법 및 그 장치
CN112185564B (zh) 一种基于结构化电子病历的眼科疾病预测方法和存储设备
CN112102940B (zh) 一种屈光检测方法、装置、计算机设备及存储介质
Yan et al. Attention‐based deep learning system for automated diagnoses of age‐related macular degeneration in optical coherence tomography images
Adel et al. Automatic classification of retinal eye diseases from optical coherence tomography using transfer learning
CN114999656B (zh) 一种阿尔兹海默病风险评估系统及模块
Wang et al. Development and evaluation of novel ophthalmology domain-specific neural word embeddings to predict visual prognosis
CN115985515A (zh) 一种基于机器学习的弱视矫治效果预测方法、装置及设备
CN112700858A (zh) 一种儿童青少年近视预警方法及设备
CN116563932A (zh) 基于多任务学习的眼部图像识别方法及相关设备
Datta et al. Hyper parameter tuning based gradient boosting algorithm for detection of diabetic retinopathy: an analytical review
CN115691786A (zh) 基于电子病历的眼科疾病信息提取方法和辅助诊断装置
CN112599244A (zh) 一种基于机器学习的人工晶状体屈光度数计算系统
CN117338234A (zh) 一种屈光度与视力联合检测方法
Erickson et al. Development and validation of a multidimensional quality-of-life scale for myopia
Rausch-Koster et al. Calibration of the Dutch EyeQ to measure vision related quality of life in patients with exudative retinal diseases
Tiwari et al. Broad analysis of deep learning techniques for diabetic retinopathy screening
Prat et al. Big data analysis of glaucoma prevalence in Israel
Li et al. Refractive associations with corneal biomechanical properties among young adults: a population-based Corvis ST study
Nam et al. Zernike radial slope polynomials for wavefront reconstruction and refraction
KR20220095291A (ko) 빅데이터와 인공지능 기술기반의 시기능 변화 예측 시스템 및 방법
Wen et al. On the deep learning-based age prediction of color fundus images and correlation with ophthalmic diseases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220915

Address after: 100084 Tsinghua Yuan, Beijing, Haidian District

Patentee after: TSINGHUA University

Address before: Building 6#, No. 33, Donghu Road, Digital Fujian Industrial Park, Changle District, Fuzhou City, Fujian Province, 350000

Patentee before: Fuzhou Institute of Data Technology Co.,Ltd.