CN117438025B - 一种基于深度学习的单病种电子病历数据库构建方法 - Google Patents

一种基于深度学习的单病种电子病历数据库构建方法 Download PDF

Info

Publication number
CN117438025B
CN117438025B CN202311749633.8A CN202311749633A CN117438025B CN 117438025 B CN117438025 B CN 117438025B CN 202311749633 A CN202311749633 A CN 202311749633A CN 117438025 B CN117438025 B CN 117438025B
Authority
CN
China
Prior art keywords
disease
electronic medical
database
constructing
medical record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311749633.8A
Other languages
English (en)
Other versions
CN117438025A (zh
Inventor
黄璐
崔秋季
徐晓岚
李郭成
阚苏立
姚继龙
周瑞宁
吴辰凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Jiangbei New Area Biopharmaceutical Public Service Platform Co ltd
Original Assignee
Nanjing Jiangbei New Area Biopharmaceutical Public Service Platform Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Jiangbei New Area Biopharmaceutical Public Service Platform Co ltd filed Critical Nanjing Jiangbei New Area Biopharmaceutical Public Service Platform Co ltd
Priority to CN202311749633.8A priority Critical patent/CN117438025B/zh
Publication of CN117438025A publication Critical patent/CN117438025A/zh
Application granted granted Critical
Publication of CN117438025B publication Critical patent/CN117438025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于深度学习的单病种电子病历数据库构建方法,包括以下步骤:步骤1:构建单病种数据库指标;步骤2:构建数据采集模块,并构建单病种结构化模型预训练数据集;步骤3:使用步骤2数据采集模块,构建单病种结构化模型微调数据集;步骤4:使用步骤2得到的预训练数据集对ERNIE‑Health模型进行专项预训练;步骤5:使用通用信息提取框架加载步骤4的ERNIE‑Health模型构建单病种结构化模型,进行微调训练后封装成数据库指标提取模块;步骤6:将各个模块封装成系统,实现构建单病种电子病历结构化数据库功能。本发明可以显著提高数据转化效率,有效构建电子病历数据库。

Description

一种基于深度学习的单病种电子病历数据库构建方法
技术领域
本发明属于医疗大数据处理领域,具体涉及一种基于深度学习的单病种电子病历数据库构建方法。
背景技术
随着我国人民生活水平提高、人口老龄化不断加剧和居民健康管理意识的增强,我国医疗和健康服务需求不断提高,下游应用需求的拓展带动了健康医疗大数据产业的发展。自2015年起国家就陆续发布了《促进大数据发展行动纲要》、《关于促进和规范健康医疗大数据应用发展的指导意见》、《“健康中国2030”规划纲要》等政策文件。这些政策文件旨在推动健康医疗大数据资源共享开放、培育健康医疗大数据应用新业态、发展智慧健康医疗便民惠民服务。强调要推进基于区域人口健康信息平台的医疗健康大数据开发共享、深度挖掘和广泛应用。消除数据壁垒,建立跨部门、跨领域密切配合,统一归口的健康医疗数据共享机制。
我国作为人口最多的国家之一,医疗数据巨大且结构复杂,很多医疗机构和研究机构面临着海量的电子病历数据如何处理和应用的问题。本发明中的构建单病种电子病历数据库的方法可以帮助将电子病历等大量的医疗文本数据转化为结构化的信息,并基于此提取关键的临床信息,如疾病诊断、药物治疗、手术操作等,从而提高临床决策的准确性和效率。
发明内容
本发明的目的在于实现对异构医疗信息化系统采集的结构化数据和非结构化数据进行指标提取,统一构建单病种电子病历数据库的方法。
本发明的发明目的通过以下技术方案实现:
步骤1:根据疾病类型构建单病种数据库指标;
步骤2:构建数据采集模块,使用数据采集模块得到高质量临床电子病历和疾病治疗指南,构建单病种结构化模型预训练数据集;
步骤3:使用步骤2所述数据采集模块,得到小样本的单病种患者电子病历,基于步骤1所述数据库指标,对单病种患者电子病历进行标注,构建单病种结构化模型微调数据集;
步骤4:使用步骤2得到的预训练数据集对ERNIE-Health模型进行专项预训练;
步骤5:使用通用信息提取(Universal Information Extraction,UIE)框架加载步骤4预训练后的ERNIE-Health模型构建单病种结构化模型,通过步骤3标注的微调数据集对模型进行微调训练,将训练好的模型与国家健康医疗大数据东部中心单病种数据库进行封装,得到数据库指标提取模块;
步骤6:将数据采集模块、数据库指标提取模块,封装成统一的单病种电子病历结构化系统,实现构建单病种电子病历结构化数据库功能。
进一步地,步骤2中数据采集模块通过Python代码开发,实现了统一数据采集接口分别对接不同数据库类型(如CSV、Oracle、MySQL、GaussDB、Postgre、HDFS等)。
进一步地,步骤2使用的高质量临床电子病历来源于国家健康医疗大数据东部中心汇聚的临床诊疗数据集,包括脱敏后患者的住院、检查检验、医嘱等电子病历数据。
进一步地,步骤2使用的治疗指南来源于国家健康医疗大数据东部中心收集的专业治疗指南和专业书籍。
进一步地,步骤4中使用的ERNIE-Health预训练模型,依托百度文心ERNIE预训练模型,使用了针对医疗问答匹配任务与定制医疗词汇掩码策略,并已经在海量医疗文本数据上进行有效预训练。
进一步地,步骤5中使用的UIE框架,是支持多任务统一的文本到结构的生成框架,通过结构化模式提示器(Structural Schema Instructor,SSI),把希望抽取的Schema信息转换成“线索词”,将各类信息抽取任务统一为“Prompt+文本”为输入,用不同的Prompt代表不同任务,输出结构化抽取语言(Structural Extraction Language, SEL)的形式,使得模型的输出结构针对不同任务都是一致的,公式如下:
y = UIE(s ⊕ x)
UIE表示UIE模型,它由Transformer的Encoder和Decoder组成,s表示SSI,x表示需要输入的原始句子,输出y就是采用SEL语法描述的结构化数据,其中s ⊕ x形式如下:
s ⊕ x
具体来说,首先将s ⊕ x输入至Encoder,得到每一个token的隐层表示,形式化表示如下:
其中Encoder(·)是Transformer编码器,接下来使用隐层表示在Decoder端生成目标结构化信息,表示如下所示:
其中Decoder(·)是Transformer解码器。
进一步地,步骤6中使用Flask框架对数据采集、数据处理、数据传输进行API封装,实现不同疾病类型的单病种数据库的批量、自动化构建。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的整体方法流程图。
图2是本发明中数据标注示例。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细说明。
参照附图1,本发明提供了一种基于深度学习的单病种电子病历数据库构建方法。以急性心肌梗死(acute myocardial infarction,AMI)为例,包括以下步骤:
步骤1:根据疾病类型构建单病种数据库指标,如药品所属的类别和支架所属的类别。
步骤2:构建数据采集模块,使用数据采集模块得到高质量临床电子病历和疾病治疗指南,构建单病种结构化模型预训练数据集。
数据采集模块通过Python代码开发,实现了统一数据采集接口分别对接不同数据库类型(如CSV、Oracle、MySQL、GaussDB、Postgre、HDFS等)。预训练数据集准备内容一部分是真实世界电子病历数据,主要来源为国家健康医疗大数据东部中心汇聚的临床诊疗数据集,从经过去标识化处理后的急性心肌梗死患者群中按照地域分布、医疗机构分布不同提取1000名患者的住院、检查检验、医嘱等电子病历数据;另一部分是心梗治疗指南和专业书籍,主要包括急性心梗死疾病相关诊断和治疗指南、冠状动脉造影与临床电子书,具体内容见表1。使用数据采集模块对上述数据进行提取,同时进行数据脱敏、数据清洗和预处理工作。
表1 心梗治疗指南和专业书籍清单
编号 书籍名称
1 科学-第9版 急性冠脉综合症
2 急性ST段抬高型心肌梗死诊断和治疗指南(2019)
3 冠状动脉造影与临床
步骤3:使用步骤2所述数据采集模块,得到小样本的AMI患者电子病历,并基于步骤1所述数据库指标,对AMI患者电子病历进行标注,构成微调数据集。
参照附图2,使用急性心梗死患者真实病历数据进行小样本标注,构成单病种结构化模型微调数据集。
步骤4:使用步骤2得到的预训练数据集对ERNIE-Health进行专项预训练。
ERNIE-Health预训练模型,依托百度文心ERNIE预训练模型,通过医疗知识增强技术进一步学习海量的医疗数据, 以掌握专业的医学知识,利用医疗实体掩码策略对专业术语等实体级知识进行学习,并通过学习医疗问答匹配任务描述与医生专业治疗方案的对应关系,获得了医疗实体知识之间的内在联系。
分别使用心梗治疗指南和专业书籍和真实世界电子病历数据对ERNIE-Health大模型进行专项预训练。
步骤5:使用UIE框架加载步骤4预训练后的ERNIE-Health模型。
UIE框架是支持多任务统一的文本到结构的生成框架,通过结构化模式提示器,把希望抽取的Schema信息转换成“线索词”,将各类信息抽取任务统一为“Prompt+文本”为输入,用不同的Prompt代表不同任务,输出结构化抽取语言的形式,使得模型的输出结构针对不同任务都是一致的,公式如下:
y = UIE(s ⊕ x)
UIE表示UIE模型,它由Transformer的Encoder和Decoder组成,s表示SSI,x表示需要输入的原始句子,输出y就是采用SEL语法描述的结构化数据,其中s ⊕ x形式如下:
s ⊕ x
具体来说,首先将s ⊕ x输入至Encoder,得到每一个token的隐层表示,形式化表示如下:
其中Encoder(·)是Transformer编码器,接下来使用隐层表示在Decoder端生成目标结构化信息,表示如下所示:
其中Decoder(·)是Transformer解码器。
根据不同单病种电子病历数据库要求设计结构化抽取语言并构建结构化模式提示器,本发明所用急性型梗死单病种指标提取模型Schema为:【“心电图”,“胸片”,“溶栓治疗”“心超”,“室壁瘤”,“左心室血栓”,“抗凝用药”,“Killip”,“抗血小板药”,“β阻滞剂”,“ACEI”,“ARB”,“肠外抗凝药”,“PCI禁忌”,“P2Y12禁忌”,“ACEI禁忌”,“ARB禁忌”,“β阻滞剂禁忌”,“他汀禁忌”,“PCI治疗”,{“LAD”:【“狭窄程度”,“术前TIMI”,“TIMI”,“置入支架”】},{“LCX”:【“狭窄程度”,“术前TIMI”,“TIMI”,“置入支架”】},{“RCA”:【“狭窄程度”,“术前TIMI”,“TIMI”,“置入支架”】},{“LM”:【“狭窄程度”,“术前TIMI”,“TIMI”,“置入支架”】},{“LM-LAD”:【“置入支架”】}】。
通过标注的微调数据集对UIE进行微调训练,对模型进行精调训练、评估和调优,主要评估指标包括准确度、召回率、F1分数等。模型具体的超参数设置如表2所示。
表2 精调模型超参数设置
超参数名称
预训练模型 Retrained ERNIE-Health
隐藏层节点数 768
隐藏层激活函数 GELU
优化器 AdamW
学习率 1e-05
词表大小 40000
注意力头数量 12
随机失活率 0.1
位置编码最大值 2048
将训练好的急性型梗死疾病指标提取模型与国家健康医疗大数据东部中心自建的急性心梗死术语库和药物数据库进行集成封装,构成数据库指标提取模块。
步骤6:使用Flask框架将数据采集模块、数据库指标提取模块进行API封装,形成可根据不同疾病类型与指标要求进行数据提取的标准化流程,实现构建单病种电子病历结构化数据库功能。
使用国家健康医疗大数据东部中心的电子病历数据,对急性心梗死电子病历结构化数据库构建工具开展集成测试,主要包括功能测试和性能测试,并根据测试结果进行迭代优化,整体准确率可达94.7%。

Claims (6)

1.一种基于深度学习的单病种电子病历数据库构建方法,其特征在于,包括以下步骤:
步骤1:根据疾病类型构建单病种数据库指标;
步骤2:构建数据采集模块,使用数据采集模块得到高质量临床电子病历和疾病治疗指南,构建单病种结构化模型预训练数据集;
步骤3:使用步骤2所述数据采集模块,得到小样本的单病种患者电子病历,基于步骤1所述数据库指标,对单病种患者电子病历进行标注,构建单病种结构化模型微调数据集;
步骤4:使用步骤2得到的预训练数据集对ERNIE-Health模型进行专项预训练;
步骤5:构建通用信息提取框架,所述通用信息提取框架是支持多任务统一的文本到结构的生成框架,通过结构化模式提示器,把目标抽取的Schema信息转换成“线索词”,将各类信息抽取任务统一成“Prompt+文本”的形式作为输入,用不同的Prompt代表不同任务,输出结构化抽取语言的形式,使得模型的输出结构针对不同任务都是一致的,公式如下:
UIE表示通用信息提取框架模型,它由Transformer的Encoder和Decoder组成,s表示结构化模式提示器,x表示需要输入的原始句子,输出y就是采用结构化抽取语法描述的结构化数据,其中形式如下:
具体来说,首先将输入至Encoder,得到每一个token的隐层表示,形式化表示如下:
H=Encoder(s1,s2,…s|s|,x1,x2,…x|x|)
其中Encoder(·)是Transformer编码器,接下来使用隐层表示在Decoder端生成目标结构化信息,表示如下所示:
其中Decoder(·)是Transformer解码器;使用所述通用信息提取框架加载步骤4预训练后的ERNIE-Health模型构建单病种结构化模型,通过步骤3标注的微调数据集对模型进行微调训练,将训练好的模型与东部中心单病种数据库进行封装,得到数据库指标提取模块;
步骤6:将数据采集模块与数据库指标提取模块进行封装,形成统一的单病种电子病历结构化系统,实现单病种电子病历结构化数据库构建功能。
2.根据权利要求1所述的基于深度学习的单病种电子病历数据库构建方法,其特征在于,步骤2中数据采集模块通过Python代码开发,实现了统一数据采集接口分别对接不同数据库类型,包括CSV、Oracle、MySQL、GaussDB、Postgre、HDFS。
3.根据权利要求1所述的基于深度学习的单病种电子病历数据库构建方法,其特征在于,步骤2使用的高质量临床电子病历来源于国家健康医疗大数据东部中心汇聚的临床诊疗数据集,包括脱敏后患者住院、检查检验和医嘱的电子病历数据。
4.根据权利要求1所述的基于深度学习的单病种电子病历数据库构建方法,其特征在于,步骤2使用的治疗指南为国家健康医疗大数据东部中心收集的专业治疗指南和专业书籍。
5.根据权利要求1所述的基于深度学习的单病种电子病历数据库构建方法,其特征在于,步骤4中使用的ERNIE-Health预训练模型,依托百度文心ERNIE预训练模型,使用了针对医疗问答匹配任务与定制医疗词汇Mask策略,并已经在海量医疗文本数据上进行有效预训练。
6.根据权利要求1所述的基于深度学习的单病种电子病历数据库构建方法,其特征在于,步骤6中使用Flask框架对数据采集、数据处理、数据传输进行API封装,实现不同疾病类型的单病种数据库的批量、自动化构建。
CN202311749633.8A 2023-12-19 2023-12-19 一种基于深度学习的单病种电子病历数据库构建方法 Active CN117438025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311749633.8A CN117438025B (zh) 2023-12-19 2023-12-19 一种基于深度学习的单病种电子病历数据库构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311749633.8A CN117438025B (zh) 2023-12-19 2023-12-19 一种基于深度学习的单病种电子病历数据库构建方法

Publications (2)

Publication Number Publication Date
CN117438025A CN117438025A (zh) 2024-01-23
CN117438025B true CN117438025B (zh) 2024-03-22

Family

ID=89553756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311749633.8A Active CN117438025B (zh) 2023-12-19 2023-12-19 一种基于深度学习的单病种电子病历数据库构建方法

Country Status (1)

Country Link
CN (1) CN117438025B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344250A (zh) * 2018-09-07 2019-02-15 北京大学 基于医保数据的单病种诊断信息快速结构化方法
CN110335647A (zh) * 2019-06-21 2019-10-15 上海市精神卫生中心(上海市心理咨询培训中心) 一种临床数据标准化系统及标准化数据采集方法
CN112802570A (zh) * 2021-02-07 2021-05-14 成都延华西部健康医疗信息产业研究院有限公司 一种针对电子病历命名实体识别系统及方法
CN116779183A (zh) * 2023-05-26 2023-09-19 北京易康医疗科技有限公司 创建单病种数据库的方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022178892A (ja) * 2021-05-21 2022-12-02 株式会社日立ハイテク 機械学習システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344250A (zh) * 2018-09-07 2019-02-15 北京大学 基于医保数据的单病种诊断信息快速结构化方法
CN110335647A (zh) * 2019-06-21 2019-10-15 上海市精神卫生中心(上海市心理咨询培训中心) 一种临床数据标准化系统及标准化数据采集方法
CN112802570A (zh) * 2021-02-07 2021-05-14 成都延华西部健康医疗信息产业研究院有限公司 一种针对电子病历命名实体识别系统及方法
CN116779183A (zh) * 2023-05-26 2023-09-19 北京易康医疗科技有限公司 创建单病种数据库的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN117438025A (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
CN110704631B (zh) 医疗知识图谱的构建方法及装置
CN117316466A (zh) 一种基于知识图谱与自然语言处理技术的临床决策方法、系统及设备
Kwiatkowska et al. Fuzzy logic and semiotic methods in modeling of medical concepts
KR20170122146A (ko) 규칙 최적화를 통한 임상 병리 검사에 대한 전문가 경험 지식 학습 및 소견 생성 방법
Fedele et al. What about fertility staff emotions? An explorative analysis of healthcare professionals’ subjective perspective
CN117438025B (zh) 一种基于深度学习的单病种电子病历数据库构建方法
Julina et al. Ontology based EMR for decision making in health care using SNOMED CT
CN112382388A (zh) 一种压疮不良事件的预警方法
Yousefianzadeh et al. COVID-19 ontologies and their application in medical sciences: Reviewing Bioportal
CN116881413A (zh) 基于中文医学知识的智能医疗问答方法
Chondrogiannis et al. A novel approach for clinical data harmonization
Wang et al. Application of physical examination data on health analysis and intelligent diagnosis
Ebietomere et al. Crafting Electronic Medical Record Ontology for Interoperability
Parker et al. Using Natural Language Processing to Understand Unstructured Healthcare Data
Biswas et al. Can ChatGPT be Your Personal Medical Assistant?
CN105912869A (zh) 实现冠心病临床事件全自动处理的系统及方法
Ghadage et al. Voice-Based Prescription Generation using Artificial Intelligence
CN117316372B (zh) 一种基于深度学习的耳疾电子病历解析方法
Sun et al. Multi-strategy fusion for medical named entity recognition
Zhang [Retracted] Nursing Diagnosis of Urology Operating Room Based on New Association Classification Algorithm
Qi et al. Research on Speech Emotion Recognition Method Based A-CapsNet
Griffiths et al. INTEGRATE: A methodology to facilitate critical care research using multiple, linked electronic health records at population scale.
Garg et al. Performance of Hoeffding Tree and C4. 5 Algorithms to Envisage an Occurrence of Hepatitis–A Liver Disease
CN117854748A (zh) 一种基于知识图谱和生成式大模型的问诊方法及系统
Kersloot et al. FAIRification Efforts of Clinical Researchers: The Current State of Affairs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant