CN117637097A - 基于大模型的门诊问诊对话生成电子病历的方法及系统 - Google Patents
基于大模型的门诊问诊对话生成电子病历的方法及系统 Download PDFInfo
- Publication number
- CN117637097A CN117637097A CN202311658787.6A CN202311658787A CN117637097A CN 117637097 A CN117637097 A CN 117637097A CN 202311658787 A CN202311658787 A CN 202311658787A CN 117637097 A CN117637097 A CN 117637097A
- Authority
- CN
- China
- Prior art keywords
- medical record
- module
- data
- dialogue
- medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims description 32
- 238000007781 pre-processing Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 14
- 238000013480 data collection Methods 0.000 claims description 13
- 230000006978 adaptation Effects 0.000 claims description 6
- 238000003745 diagnosis Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 208000024891 symptom Diseases 0.000 claims description 6
- 238000013499 data model Methods 0.000 claims description 5
- 238000003491 array Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims description 3
- 201000010099 disease Diseases 0.000 claims description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000008713 feedback mechanism Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 238000000586 desensitisation Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000013518 transcription Methods 0.000 abstract description 3
- 230000035897 transcription Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了基于大模型的门诊问诊对话生成电子病历的方法及系统,其系统包括问诊语音数据收集模块,所述问诊语音数据收集模块电性连接有数据预处理模块,数据预处理模块电性连接有病历数据的模型训练模块,病历数据的模型训练模块电性连接有对话理解与电子病历生成模块,对话理解与电子病历生成模块电性连接有病历审核与编辑模块。本发明通过语音识别和文本生成技术,实现问诊对话的自动转录和电子病历的自动生成,极大减少医生的手动录入工作量,极大的提高了医生的工作效率,从而大大缩短了患者的等待时间,另外统一的格式和结构化的病历内容,使得病历数据更容易被查询和管理。
Description
技术领域
本发明涉及智慧门诊技术领域,尤其涉及基于大模型的门诊问诊对话生成电子病历的方法及系统。
背景技术
传统的电子病历生成方式主要依赖医生手动输入,效率较低且易出错,近年来虽然出现了一些自动化电子病历生成系统,但这些系统多依赖于规则和模板,无法充分理解和处理复杂的医疗对话,导致医生需花费大量时间在病历录入和编辑上,这降低了其工作效率,也延长了患者的等待时间,另外不同医生录入的病历格式可能不统一,这又导致了病历管理和查询的困难,基于上述现状,我们提出了基于大模型的门诊问诊对话生成电子病历的方法及系统。
发明内容
基于背景技术存在的技术问题,本发明提出了基于大模型的门诊问诊对话生成电子病历的方法及系统。
本发明提出的基于大模型的门诊问诊对话生成电子病历的系统,包括问诊语音数据收集模块,所述问诊语音数据收集模块电性连接有数据预处理模块,数据预处理模块电性连接有病历数据的模型训练模块,病历数据的模型训练模块电性连接有对话理解与电子病历生成模块,对话理解与电子病历生成模块电性连接有病历审核与编辑模块。
优选的,所述问诊语音数据收集模块用于对医生和患者的对话进行实时录音收集,并发送到数据预处理模块上。
优选的,所述数据预处理模块将得到的文本数据进行清洗和规范化处理,并将标准化处理后的文本数据发送到病历数据的模型训练模块上,数据预处理模块还可以对文本数据的质量进行评估和监控。
优选的,所述病历数据的模型训练模块将接收到的文本数据进行基于多任务学习和域适应的医疗对话理解模型处理,经过优化处理后的文本数据发送到对话理解与电子病历生成模块上,病历数据的模型训练模块还需要引入医疗领域的专业评估标准,并建立用户反馈机制、敏感信息脱敏处理机制和隐私保护机制。
优选的,所述对话理解与电子病历生成模块利用训练好的BERT模型对医患对话内容进行实时分析,并从中提取出病历所需的信息,自动整理并生成结构化病历,并给出合理的治疗建议,最终发送到病历审核与编辑模块上,对话理解与电子病历生成模块上还建立有实时反馈和学习机制,从而不断优化BERT模型。
优选的,所述病历审核与编辑模块接收到的病历以供专业医务人员对病历进行审核与编辑,病历审核与编辑模块还供医生进行最终审核、编辑和注释,病历审核与编辑模块可以记录医生的每次编辑操作,包括修改的内容和添加的批注等,将医生的编辑记录反馈到病历数据的模型训练模块,用于优化BERT模型性能,病历审核与编辑模块还可以根据医生的编辑习惯和反馈,对BERT模型进行个性化调整。
本发明还提出了基于大模型的门诊问诊对话生成电子病历的方法,包括以下步骤:
S1:问诊语音数据收集模块对医生和患者的对话进行实时录音收集,其具体实施过程如下:
S10:选择高质量的麦克风和声音捕捉设备,并在问诊房间内合理布置麦克风阵列,然后调整好环境音效;
S11:使用专业的录音软件或硬件设备进行音频录制,并在录音的过程中实时监控音频质量,得到音频文件;
S12:将得到音频文件转换为标准格式的音频数据,并对转换为标准格式后的音频数据进行压缩处理;
S13:选用高性能的语音识别软件或服务将音频数据转录为文本数据;
S14:将S13得到的文本数据与原始音频数据进行同步,并对收集到的所有数据进行备份,S13得到的文本数据还发送到数据预处理模块上;
S2:数据预处理模块将得到的文本数据进行清洗和规范化处理,其具体过程如下所示:
S20:数据预处理模块首先将得到的文本数据进行去除非语言字符和噪声,然后在去除非语言字符和噪声的基础上,针对患者口述的自然语言和医生专业术语的差异,实施差异化的文本清洗策略,同时识别并保留对诊断和治疗具有重要信息价值的口头禅和习惯用语;
S21:结合医患角色和语境信息,优化语音识别错误的纠正算法,并建立医患对话的语境模型,根据上下文信息判断并纠正语音识别的歧义和错误;
S22:对医生使用的专业术语和患者使用的日常语言分别建立标准化词典,并进行差异化处理,当检测到非标准术语或缩写时,可提示医生进行确认和修正;
S23:针对医学领域的特殊词汇和患者的口语表达,优化分词和词性标注算法,并引入领域专有的词汇库和语法规则,确保医学术语的正确切分和词性标注;
S24:针对医疗领域的实体和关系类型,建立专门的命名实体识别和关系抽取模型,根据医患角色分离的原则,区分患者描述的症状实体和医生描述的诊断实体;
S25:在文本结构化的基础上,针对医患对话的特点,将医生和患者的语言分开处理和展示,然后对医生和患者的语言分别进行标准化处理,最后将标准化处理后的文本数据发送到病历数据的模型训练模块上;
S3:病历数据的模型训练模块将接收到的文本数据进行基于多任务学习和域适应的医疗对话理解模型处理,其具体过程如下所示:
S30:将任务定义为一个端到端的问答系统,输入为医生和患者的对话,输出为结构化的病历信息,同步对医疗对话数据进行细致的标注;
S31:在BERT模型的基础上,设计一个生成式的模型结构,如加入Transformer的Decoder部分,用于生成结构化的病历文本,通过Masked Language Model(MLM)和NextSentence Prediction(NSP)等任务进行预训练,再通过序列到序列的生成任务进行微调训练;
S32:引入上下文建模机制,确保模型能够充分理解医生和患者对话的上下文关系,使用关系抽取技术,从对话中抽取病人的症状、体征、疾病等关键信息,为生成病历打下基础;
S33:设计病历生成模板和引入规则引导机制,如在生成过程中使用规则或知识库来辅助判断和生成;
S34:对模型生成的病历进行后处理,包括校正语法错误、优化表述、填充缺失信息等,并设计优化算法,根据医疗知识和常见病例,对生成的病历进行细致的调整和优化,最终发送到对话理解与电子病历生成模块上;
S4:对话理解与电子病历生成模块利用训练好的BERT模型对医患对话内容进行实时分析,并从中提取出病历所需的信息,自动整理并生成结构化病历,并给出合理的治疗建议,最终发送到病历审核与编辑模块上;
S5:病历审核与编辑模块接收到的病历以供专业医务人员对病历进行审核与编辑,病历审核与编辑模块还供医生进行最终审核、编辑和注释。
与现有的技术相比,本发明通过语音识别和文本生成技术,实现问诊对话的自动转录和电子病历的自动生成,极大减少医生的手动录入工作量,极大的提高了医生的工作效率,从而大大缩短了患者的等待时间,另外统一的格式和结构化的病历内容,使得病历数据更容易被查询和管理。
附图说明
图1为本发明提出的基于大模型的门诊问诊对话生成电子病历的系统的框图;
图2为图1中的问诊语音数据收集模块的工作流程图;
图3为图1中的数据预处理模块的工作流程图;
图4为图1中的病历数据的模型训练模块的工作流程图;
图5为图1中的对话理解与电子病历生成模块的工作流程图;
图6为图1中的病历审核与编辑模块的工作流程图。
具体实施方式
下面结合具体实施例对本发明作进一步解说。
实施例
参照图1-6,本实施例提出了基于大模型的门诊问诊对话生成电子病历的系统,包括问诊语音数据收集模块,问诊语音数据收集模块电性连接有数据预处理模块,数据预处理模块电性连接有病历数据的模型训练模块,病历数据的模型训练模块电性连接有对话理解与电子病历生成模块,对话理解与电子病历生成模块电性连接有病历审核与编辑模块;
问诊语音数据收集模块用于对医生和患者的对话进行实时录音收集,并发送到数据预处理模块上,数据预处理模块将得到的文本数据进行清洗和规范化处理,并将标准化处理后的文本数据发送到病历数据的模型训练模块上,数据预处理模块还可以对文本数据的质量进行评估和监控,病历数据的模型训练模块将接收到的文本数据进行基于多任务学习和域适应的医疗对话理解模型处理,经过优化处理后的文本数据发送到对话理解与电子病历生成模块上,病历数据的模型训练模块还需要引入医疗领域的专业评估标准,并建立用户反馈机制、敏感信息脱敏处理机制和隐私保护机制,对话理解与电子病历生成模块利用训练好的BERT模型对医患对话内容进行实时分析,并从中提取出病历所需的信息,自动整理并生成结构化病历,并给出合理的治疗建议,最终发送到病历审核与编辑模块上,对话理解与电子病历生成模块上还建立有实时反馈和学习机制,从而不断优化BERT模型,病历审核与编辑模块接收到的病历以供专业医务人员对病历进行审核与编辑,病历审核与编辑模块还供医生进行最终审核、编辑和注释,病历审核与编辑模块可以记录医生的每次编辑操作,包括修改的内容和添加的批注等,将医生的编辑记录反馈到病历数据的模型训练模块,用于优化BERT模型性能,病历审核与编辑模块还可以根据医生的编辑习惯和反馈,对BERT模型进行个性化调整,本实施例通过语音识别和文本生成技术,实现问诊对话的自动转录和电子病历的自动生成,极大减少医生的手动录入工作量,极大的提高了医生的工作效率,从而大大缩短了患者的等待时间,另外统一的格式和结构化的病历内容,使得病历数据更容易被查询和管理。
本实施例还提出了基于大模型的门诊问诊对话生成电子病历的方法,包括以下步骤:
S1:问诊语音数据收集模块对医生和患者的对话进行实时录音收集,其具体实施过程如下:
S10:选择高质量的麦克风和声音捕捉设备,并在问诊房间内合理布置麦克风阵列,然后调整好环境音效;
S11:使用专业的录音软件或硬件设备进行音频录制,并在录音的过程中实时监控音频质量,得到音频文件;
S12:将得到音频文件转换为标准格式的音频数据,并对转换为标准格式后的音频数据进行压缩处理;
S13:选用高性能的语音识别软件或服务将音频数据转录为文本数据;
S14:将S13得到的文本数据与原始音频数据进行同步,并对收集到的所有数据进行备份,S13得到的文本数据还发送到数据预处理模块上;
S2:数据预处理模块将得到的文本数据进行清洗和规范化处理,其具体过程如下所示:
S20:数据预处理模块首先将得到的文本数据进行去除非语言字符和噪声,然后在去除非语言字符和噪声的基础上,针对患者口述的自然语言和医生专业术语的差异,实施差异化的文本清洗策略,同时识别并保留对诊断和治疗具有重要信息价值的口头禅和习惯用语;
S21:结合医患角色和语境信息,优化语音识别错误的纠正算法,并建立医患对话的语境模型,根据上下文信息判断并纠正语音识别的歧义和错误;
S22:对医生使用的专业术语和患者使用的日常语言分别建立标准化词典,并进行差异化处理,当检测到非标准术语或缩写时,可提示医生进行确认和修正;
S23:针对医学领域的特殊词汇和患者的口语表达,优化分词和词性标注算法,并引入领域专有的词汇库和语法规则,确保医学术语的正确切分和词性标注;
S24:针对医疗领域的实体和关系类型,建立专门的命名实体识别和关系抽取模型,根据医患角色分离的原则,区分患者描述的症状实体和医生描述的诊断实体;
S25:在文本结构化的基础上,针对医患对话的特点,将医生和患者的语言分开处理和展示,然后对医生和患者的语言分别进行标准化处理,最后将标准化处理后的文本数据发送到病历数据的模型训练模块上;
S3:病历数据的模型训练模块将接收到的文本数据进行基于多任务学习和域适应的医疗对话理解模型处理,其具体过程如下所示:
S30:将任务定义为一个端到端的问答系统,输入为医生和患者的对话,输出为结构化的病历信息,同步对医疗对话数据进行细致的标注;
S31:在BERT模型的基础上,设计一个生成式的模型结构,如加入Transformer的Decoder部分,用于生成结构化的病历文本,通过Masked Language Model(MLM)和NextSentence Prediction(NSP)等任务进行预训练,再通过序列到序列的生成任务进行微调训练;
S32:引入上下文建模机制,确保模型能够充分理解医生和患者对话的上下文关系,使用关系抽取技术,从对话中抽取病人的症状、体征、疾病等关键信息,为生成病历打下基础;
S33:设计病历生成模板和引入规则引导机制,如在生成过程中使用规则或知识库来辅助判断和生成;
S34:对模型生成的病历进行后处理,包括校正语法错误、优化表述、填充缺失信息等,并设计优化算法,根据医疗知识和常见病例,对生成的病历进行细致的调整和优化,最终发送到对话理解与电子病历生成模块上;
S4:对话理解与电子病历生成模块利用训练好的BERT模型对医患对话内容进行实时分析,并从中提取出病历所需的信息,自动整理并生成结构化病历,并给出合理的治疗建议,最终发送到病历审核与编辑模块上;
S5:病历审核与编辑模块接收到的病历以供专业医务人员对病历进行审核与编辑,病历审核与编辑模块还供医生进行最终审核、编辑和注释。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.基于大模型的门诊问诊对话生成电子病历的系统,包括问诊语音数据收集模块,其特征在于,所述问诊语音数据收集模块电性连接有数据预处理模块,数据预处理模块电性连接有病历数据的模型训练模块,病历数据的模型训练模块电性连接有对话理解与电子病历生成模块,对话理解与电子病历生成模块电性连接有病历审核与编辑模块。
2.根据权利要求1所述的基于大模型的门诊问诊对话生成电子病历的系统,其特征在于,所述问诊语音数据收集模块用于对医生和患者的对话进行实时录音收集,并发送到数据预处理模块上。
3.根据权利要求2所述的基于大模型的门诊问诊对话生成电子病历的系统,其特征在于,所述数据预处理模块将得到的文本数据进行清洗和规范化处理,并将标准化处理后的文本数据发送到病历数据的模型训练模块上,数据预处理模块还可以对文本数据的质量进行评估和监控。
4.根据权利要求3所述的基于大模型的门诊问诊对话生成电子病历的系统,其特征在于,所述病历数据的模型训练模块将接收到的文本数据进行基于多任务学习和域适应的医疗对话理解模型处理,经过优化处理后的文本数据发送到对话理解与电子病历生成模块上,病历数据的模型训练模块还需要引入医疗领域的专业评估标准,并建立用户反馈机制、敏感信息脱敏处理机制和隐私保护机制。
5.根据权利要求4所述的基于大模型的门诊问诊对话生成电子病历的系统,其特征在于,所述对话理解与电子病历生成模块利用训练好的BERT模型对医患对话内容进行实时分析,并从中提取出病历所需的信息,自动整理并生成结构化病历,并给出合理的治疗建议,最终发送到病历审核与编辑模块上,对话理解与电子病历生成模块上还建立有实时反馈和学习机制,从而不断优化BERT模型。
6.根据权利要求5所述的基于大模型的门诊问诊对话生成电子病历的系统,其特征在于,所述病历审核与编辑模块接收到的病历以供专业医务人员对病历进行审核与编辑,病历审核与编辑模块还供医生进行最终审核、编辑和注释,病历审核与编辑模块可以记录医生的每次编辑操作,包括修改的内容和添加的批注等,将医生的编辑记录反馈到病历数据的模型训练模块,用于优化BERT模型性能,病历审核与编辑模块还可以根据医生的编辑习惯和反馈,对BERT模型进行个性化调整。
7.根据权利要求1所述的基于大模型的门诊问诊对话生成电子病历的方法,其特征在于,包括以下步骤:
S1:问诊语音数据收集模块对医生和患者的对话进行实时录音收集,其具体实施过程如下:
S10:选择高质量的麦克风和声音捕捉设备,并在问诊房间内合理布置麦克风阵列,然后调整好环境音效;
S11:使用专业的录音软件或硬件设备进行音频录制,并在录音的过程中实时监控音频质量,得到音频文件;
S12:将得到音频文件转换为标准格式的音频数据,并对转换为标准格式后的音频数据进行压缩处理;
S13:选用高性能的语音识别软件或服务将音频数据转录为文本数据;
S14:将S13得到的文本数据与原始音频数据进行同步,并对收集到的所有数据进行备份,S13得到的文本数据还发送到数据预处理模块上;
S2:数据预处理模块将得到的文本数据进行清洗和规范化处理,其具体过程如下所示:
S20:数据预处理模块首先将得到的文本数据进行去除非语言字符和噪声,然后在去除非语言字符和噪声的基础上,针对患者口述的自然语言和医生专业术语的差异,实施差异化的文本清洗策略,同时识别并保留对诊断和治疗具有重要信息价值的口头禅和习惯用语;
S21:结合医患角色和语境信息,优化语音识别错误的纠正算法,并建立医患对话的语境模型,根据上下文信息判断并纠正语音识别的歧义和错误;
S22:对医生使用的专业术语和患者使用的日常语言分别建立标准化词典,并进行差异化处理,当检测到非标准术语或缩写时,可提示医生进行确认和修正;
S23:针对医学领域的特殊词汇和患者的口语表达,优化分词和词性标注算法,并引入领域专有的词汇库和语法规则,确保医学术语的正确切分和词性标注;
S24:针对医疗领域的实体和关系类型,建立专门的命名实体识别和关系抽取模型,根据医患角色分离的原则,区分患者描述的症状实体和医生描述的诊断实体;
S25:在文本结构化的基础上,针对医患对话的特点,将医生和患者的语言分开处理和展示,然后对医生和患者的语言分别进行标准化处理,最后将标准化处理后的文本数据发送到病历数据的模型训练模块上;
S3:病历数据的模型训练模块将接收到的文本数据进行基于多任务学习和域适应的医疗对话理解模型处理,其具体过程如下所示:
S30:将任务定义为一个端到端的问答系统,输入为医生和患者的对话,输出为结构化的病历信息,同步对医疗对话数据进行细致的标注;
S31:在BERT模型的基础上,设计一个生成式的模型结构,如加入Transformer的Decoder部分,用于生成结构化的病历文本,通过Masked Language Model(MLM)和NextSentence Prediction(NSP)等任务进行预训练,再通过序列到序列的生成任务进行微调训练;
S32:引入上下文建模机制,确保模型能够充分理解医生和患者对话的上下文关系,使用关系抽取技术,从对话中抽取病人的症状、体征、疾病等关键信息,为生成病历打下基础;
S33:设计病历生成模板和引入规则引导机制,如在生成过程中使用规则或知识库来辅助判断和生成;
S34:对模型生成的病历进行后处理,包括校正语法错误、优化表述、填充缺失信息等,并设计优化算法,根据医疗知识和常见病例,对生成的病历进行细致的调整和优化,最终发送到对话理解与电子病历生成模块上;
S4:对话理解与电子病历生成模块利用训练好的BERT模型对医患对话内容进行实时分析,并从中提取出病历所需的信息,自动整理并生成结构化病历,并给出合理的治疗建议,最终发送到病历审核与编辑模块上;
S5:病历审核与编辑模块接收到的病历以供专业医务人员对病历进行审核与编辑,病历审核与编辑模块还供医生进行最终审核、编辑和注释。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311658787.6A CN117637097A (zh) | 2023-12-06 | 2023-12-06 | 基于大模型的门诊问诊对话生成电子病历的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311658787.6A CN117637097A (zh) | 2023-12-06 | 2023-12-06 | 基于大模型的门诊问诊对话生成电子病历的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117637097A true CN117637097A (zh) | 2024-03-01 |
Family
ID=90024998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311658787.6A Pending CN117637097A (zh) | 2023-12-06 | 2023-12-06 | 基于大模型的门诊问诊对话生成电子病历的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117637097A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117954067A (zh) * | 2024-03-26 | 2024-04-30 | 北京大学第三医院(北京大学第三临床医学院) | 一种基于多模态大语言模型的就诊分诊系统 |
CN117993021A (zh) * | 2024-04-07 | 2024-05-07 | 北京惠每云科技有限公司 | 远程检查系统安全性提升方法及装置 |
CN117995340A (zh) * | 2024-04-07 | 2024-05-07 | 北京惠每云科技有限公司 | 基于大模型的临床试验智能招募方法及装置 |
CN118072901A (zh) * | 2024-04-18 | 2024-05-24 | 中国人民解放军海军青岛特勤疗养中心 | 一种基于语音识别的门诊电子病历生成方法及系统 |
-
2023
- 2023-12-06 CN CN202311658787.6A patent/CN117637097A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117954067A (zh) * | 2024-03-26 | 2024-04-30 | 北京大学第三医院(北京大学第三临床医学院) | 一种基于多模态大语言模型的就诊分诊系统 |
CN117954067B (zh) * | 2024-03-26 | 2024-07-30 | 北京大学第三医院(北京大学第三临床医学院) | 一种基于多模态大语言模型的就诊分诊系统 |
CN117993021A (zh) * | 2024-04-07 | 2024-05-07 | 北京惠每云科技有限公司 | 远程检查系统安全性提升方法及装置 |
CN117995340A (zh) * | 2024-04-07 | 2024-05-07 | 北京惠每云科技有限公司 | 基于大模型的临床试验智能招募方法及装置 |
CN118072901A (zh) * | 2024-04-18 | 2024-05-24 | 中国人民解放军海军青岛特勤疗养中心 | 一种基于语音识别的门诊电子病历生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117637097A (zh) | 基于大模型的门诊问诊对话生成电子病历的方法及系统 | |
WO2019227579A1 (zh) | 会议信息记录方法、装置、计算机设备及存储介质 | |
US20090037171A1 (en) | Real-time voice transcription system | |
CN110298252A (zh) | 会议纪要生成方法、装置、计算机设备及存储介质 | |
CN113129898B (zh) | 一种机器辅助的会议记录系统及方法 | |
CN105094717A (zh) | 基于语音输入的打印方法、打印装置和打印机 | |
WO2005027092A1 (ja) | 文書作成閲覧方法、文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム | |
CN111329494B (zh) | 抑郁症参考数据的获取方法及装置 | |
CN111613220A (zh) | 基于语音识别交互的病理信息登记录入装置及其方法 | |
CN115424618A (zh) | 一种基于机器学习的电子病历语音交互设备 | |
CN117690581A (zh) | 一种基于大语言模型的疾病问诊过程辅助信息生成方法 | |
CN116665674A (zh) | 基于语音和预训练模型的互联网智能化招聘发布方法 | |
TWI769520B (zh) | 多國語言語音辨識及翻譯方法與相關的系統 | |
CN117877660A (zh) | 基于语音识别的医学报告获取方法及系统 | |
CN113555133A (zh) | 一种医疗问诊数据处理方法和装置 | |
CN107825433A (zh) | 一种儿童语音指令识别的卡片机器人 | |
CN115294966A (zh) | 核电厂语音识别训练方法、智能语音控制方法和系统 | |
CN114462376A (zh) | 基于rpa和ai的庭审笔录生成方法、装置、设备及介质 | |
KR20220122141A (ko) | 학습데이터 수집장치, 학습데이터 수집방법, 및 음성인식장치 | |
TWM611494U (zh) | 語音合成配音系統 | |
JP2005149083A (ja) | 電子カルテ入力支援装置 | |
TWI743798B (zh) | 漢語多重語音識別的方法與裝置 | |
Fazil et al. | An Assistive tool for Orthopedic Students: CNN-LSTM based Continuous Speech Recognition System for Writing Exams | |
CN117892826A (zh) | 一种基于大模型对医疗语音数据识别和转录的方法及系统 | |
CN114201580A (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |