CN117253576A - 基于中文医疗大模型的门诊电子病历生成方法 - Google Patents
基于中文医疗大模型的门诊电子病历生成方法 Download PDFInfo
- Publication number
- CN117253576A CN117253576A CN202311417136.8A CN202311417136A CN117253576A CN 117253576 A CN117253576 A CN 117253576A CN 202311417136 A CN202311417136 A CN 202311417136A CN 117253576 A CN117253576 A CN 117253576A
- Authority
- CN
- China
- Prior art keywords
- model
- medical
- corpus
- medical record
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 40
- 230000000694 effects Effects 0.000 claims abstract description 21
- 238000005516 engineering process Methods 0.000 claims abstract description 16
- 238000004140 cleaning Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000013135 deep learning Methods 0.000 claims abstract description 4
- 230000005236 sound signal Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 15
- 238000003058 natural language processing Methods 0.000 claims description 12
- 230000002787 reinforcement Effects 0.000 claims description 11
- 238000013461 design Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000003631 expected effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005215 recombination Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 claims 1
- 238000013508 migration Methods 0.000 abstract description 3
- 230000005012 migration Effects 0.000 abstract description 3
- 238000003745 diagnosis Methods 0.000 description 10
- 239000003795 chemical substances by application Substances 0.000 description 7
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 208000024891 symptom Diseases 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 206010019233 Headaches Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 231100000869 headache Toxicity 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000002483 medication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了基于中文医疗大模型的门诊电子病历生成方法,涉及医疗信息技术领域,用于解决现有针对门诊病历自动生成方式存在生成的效果不符合预期、推理速度慢及模型迁移能力差缺陷的问题,本发明包括S1:数据预处理,收集并整理中文医疗语料,进行数据清洗、格式标准化等操作,以提高后续模型的训练效果;S2:模型训练,利用深度学习技术配合指令微调,构建中文医疗大模型,输入预处理后的数据进行训练,本发明,在海量医疗语料做了指令微调之后,可以得到中文医疗大模型,模型整体架构采用解码器,由于模型的容量较大,可以通过海量训练数据的学习提升模型的表征能力,此外能够同时用于生成类的任务和理解类的任务。
Description
技术领域
本发明涉及医疗信息技术领域,具体为基于中文医疗大模型的门诊电子病历生成方法。
背景技术
病历作为患者的医疗记录,是医疗机构诊治过程中记录的非常重要的文档,在现有技术中,为了提高医生的工作效率,逐渐抛弃了传统的纸质病历而改用电子病历,医生在给患者看病时或者看病结束后,可以在电脑等电子设备中的病历系统上录入、整理患者的诊断治疗信息,得到电子病历,从而更加便于保存、管理和重现。
针对门诊病历自动生成,现有的主流方案是采用seq2seq的方法。seq2seq是编码器-解码器架构,通常编码器采用BiLSTM,解码器采用LSTM,二者均可以使用多层架构。通过构建对话流程-病历文本对的训练集,训练seq2seq的模型完成文书的自动生成。在模型训练的过程中,可以借助PointerNetwork的方法,使得模型自动学习从输入中识别关键词,保证生成的病历文本包含对话流程中的关键词。为了进一步提升关键词识别的效果,可以单独训练实体识别,属性抽取和关系抽取模型,通过Pipeline的方式,将抽取到的关键词用显式的方式作为生成模型输入的一部分,以此保留生成的病历文书中关键信息的不丢失。
但现有的门诊病历自动生成方式依旧存在缺陷,具体的:
生成的效果不符合预期:由于编码器和解码器的模型容量较小,模型对训练数据的理解能力不到位,导致在文本生成的时候,比较容易出现生成的文本不连贯,语义重复,出现逻辑性错误,关键信息丢失,幻觉等现象;
推理速度慢:给定对话流程,在预测时,输入端要经过编码器的编码以及解码器的解码,由于是逐字的生成方式,故导致实际应用时的推理效率较低,降低了实用性;
模型迁移能力差:采用seq2seq的架构,理论上针对每一个具体的应用场景,都需要重新构建训练数据和训练模型,导致模型的研发成本较高,可复用性较低,此外,seq2seq的架构通常只用于文本生成类任务,当用于文本理解类的任务时,则需要不同的架构设计。
为了解决上述缺陷,现提供一种技术方案。
发明内容
本发明的目的在于解决现有针对门诊病历自动生成方式存在生成的效果不符合预期、推理速度慢及模型迁移能力差缺陷的问题,而提出一种基于中文医疗大模型的门诊电子病历生成方法。
本发明的目的可以通过以下技术方案实现:
基于中文医疗大模型的门诊电子病历生成方法,包括以下步骤:
S1:数据预处理,收集并整理中文医疗语料,进行数据清洗、格式标准化等操作,以提高后续模型的训练效果;
S2:模型训练,利用深度学习技术配合指令微调,构建中文医疗大模型,输入预处理后的数据进行训练,通过大规模的语料库和迭代训练,提高模型的理解能力和生成准确性;
S3:输入识别与分析,将医生和患者的对话过程作为输入的初始信息进行自然语言处理,识别关键信息并进行语义分析,以确定病历的基本框架和结构;
S4:内容生成与填充,根据医生输入的初始信息和患者的实际情况,结合中文医疗大模型的生成能力,自动生成门诊电子病历内容,并填充到相应的位置;
S5:验收与修正,生成的门诊电子病历进行人工验证和评分,优化门诊电子病历输出结果。
进一步的,还包括病历生成系统,病历生成系统包括:
识别模块,用于识别医生和患者的对话过程;
信息抽取模块,对识别模块中转化的文本进行关键信息抽取;
人工审核模块,用于对生成的病历报告进行人工审核;
模型建立模块,用于通过指令微调得到一个中文医疗大模型。
进一步的,所述模型建立模块构建中文医疗大模型的具体操作步骤如下:
采用ChatGLM-6B做为基础中文大模型,整体训练过程分为三个阶段,分别是预训练阶段、指令微调阶段和强化学习阶段;
在预训练阶段,基于中文医疗语料,主要包括病历文书及临床指南,通过自回归的方式完成模型的领域适配;
在指令微调阶段,利用医疗知识图谱,在线问诊和医疗NLP方向的Benchmark,构建指令数据集作为该阶段的训练数据集;
在强化学习阶段,通过人工对模型的输出答案进行排序,首先训练一个Reward模型,之后利用Reward模型做为打分模型,通过强化学习的方式训练中文医疗大模型,经过若干次迭代,直到模型的效果满足预期,该阶段用于提升模型答案输出的质量,使之与人类意图对齐。
进一步的,所述据预处理的具体操作步骤如下:
a:收集的中文医疗语料,在现有病历文书及临床指南的基础上通过爬虫技术从公开的医学网站、论坛、问答社区搜集相关数据;
b:数据清洗,去除HTML标签:通过正则表达式或语料库,去除语料中的HTML标签,提取纯文本内容;去除特殊符号:去除语料中的特殊符号、表情符号、标点符号,以保留纯文本信息;去除非中文字符:去除非中文字符,以便后续处理只针对中文文本;去除重复数据:检查和去除重复的语料数据,确保语料库的多样性;
c:分词:将预处理后的语料通过结巴分词或哈工大LTP工具进行分词,将句子拆分为单个词语;
d:停用词过滤:根据领域特点,去除停用词,以减小数据规模,提高后续模型的效果;
e:标准化格式:使用术语标准化工具或构建自定义词典来将不同的表达方式统一为标准格式,以消除医疗文本存在不同的表达方式和缩写;
f:数据增强:通过同义词替换、词性变换、句子重组技术扩增语料规模对语料进行数据增强,达到提升模型的泛化能力和鲁棒性。
进一步的,所述识别模块识别的具体操作步骤如下:
通过麦克风阵列,捕获医生和患者的对话过程,利用语音识别和声纹识别的技术,将对话过程转化为文本并区分医生和患者两类角色;
通过声纹识别技术对医生和患者区分医患角色的基础上,还用于对医生或患者音频数据随机截取,识别音频中对话人的声音信号,具体的声音信号包括共振峰、音色、频率、声调及语速,并对识别到对话人声音信号进行建档标号,由医生或患者进行基本信息录入,同时对声音信号中的共振峰、音色、频率、声调及语速分析计算得到声信值;
将得到的声信值向上及下分别扩张预设基值,形成声信区间;当更换患者后进行对话,实时采集新的患者的声音信号并计算实时声信值与声信区间进行比对,当属于声信区间范围内时,则直接调取患者以往的门诊对话记录,以便医生对病情进行快速分析;当不位于声信区间范围内时,则对新的患者重新建档。
进一步的,所述信息抽取模块抽取关键信息的具体操作步骤如下:
首先利用基于BERT模型的实体识别技术和属性抽取技术,从对话文本中抽取对话中的隐含知识;
同时引入医疗知识图谱的信息,通过预设的提示词,整合知识图谱,对话文本和对话文本中隐藏的知识,共同作为中文医疗大模型的输入,自动生成初版病历报告;通过提示词工程,完成若干次迭代,直到生成效果满足预期;
其中提示词设计具体的:针对具体场景,提示词的设计满足两个要求,分别为写出清晰的指令和明确模型思考的步骤。
进一步的,所述人工审核模块进行人工验证和评分的具体操作步骤如下:
首先通过人工对生成的满足预期效果的病历报告进行审核校验得到最终的病历报告;再利用人工对模型的输出答案进行排序;先训练一个Reward模型,之后利用Reward模型做为打分模型,经过若干次迭代,直到模型的效果满足预期,从而提升模型答案输出的质量,使之与人类意图对齐。
与现有技术相比,本发明的有益效果是:
(1)本发明,在海量医疗语料做了指令微调之后,可以得到中文医疗大模型,模型整体架构采用解码器,由于模型的容量较大,可以通过海量训练数据的学习提升模型的表征能力,此外能够同时用于生成类的任务和理解类的任务;
(2)通过引入中文医疗大模型用于门诊病历的自动化生成,在显著提升对话理解,更好地完成信息抽取任务的同时,能够有效提升生成病历的质量。
附图说明
为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明;
图1为本发明的方法流程图;
图2为本发明中的技术流程框图;
图3为本发明中病历生成系统的系统框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
应当理解,本披露的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本披露说明书中所使用的术语仅仅是出于描述特定实施例的目的,而并不意在限定本披露。如在本披露说明书和权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本披露说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如图3和图2所示,基于中文医疗大模型的门诊电子病历生成方法,包括病历生成系统,病历生成系统包括识别模块、信息抽取模块、人工审核模块及模型建立模块;
识别模块用于识别医生和患者的对话过程;通过麦克风阵列,捕获医生和患者的对话过程,利用语音识别和声纹识别的技术,将对话过程转化为文本并区分医生和患者两类角色;
通过声纹识别技术对医生和患者区分医患角色的基础上,还用于对医生或患者音频数据随机截取,识别音频中对话人的声音信号,具体的声音信号包括共振峰、音色、频率、声调及语速,并对识别到对话人声音信号进行建档标号,由医生或患者进行基本信息录入,同时对声音信号中的共振峰、音色、频率、声调及语速分别标定为GZ、YY、PI、SS及YC,归一化处理后代入公式:以得到声信值SYZ,式中α、β、χ、δ分别为共振峰GZ的预设权重系数、音色YY的预设权重系数、频率PI的预设权重系数、声调SS及语速YC之和的预设权重系数,并分别取值为1.553、1.223、1.124及0.995;
将得到的声信值SYZ向上及下分别扩张预设基值,形成声信区间;当更换患者后进行对话,实时采集新的患者的声音信号并计算实时声信值与声信区间进行比对,当属于声信区间范围内时,则直接调取患者以往的门诊对话记录,以便医生对病情进行快速分析。
信息抽取模块对识别模块中转化的文本进行关键信息抽取;
利用基于BERT模型的实体识别技术和属性抽取技术,从对话文本中抽取对话中的隐含知识;BERT模型通过在大规模无标签文本上进行预训练,学习到深层次的双向语言表示,使其具备了更好的语言理解能力,BERT模型基于Transformer架构,其中包含多个编码器层,在预训练阶段通过掩码语言模型和下一句预测任务进行训练,利用BERT模型进行实体识别,可以将文本中的具体实体提取出来,此处举例如"我昨天头很疼"中的"我"作为实体,属性抽取则是指从文本中提取出实体的相关属性信息,如从"我昨天头很疼"中抽取出"头很疼"作为实体"我"的属性,可应用于许多NLP任务,如信息抽取、问答系统等;
为了丰富对话文本的上下文,引入医疗知识图谱的信息,通过预设的提示词,整合知识图谱,对话文本和对话文本中隐藏的知识,共同作为中文医疗大模型的输入,自动生成初版病历报告;通过提示词工程,完成若干次迭代,直到生成效果满足预期;
其中提示词设计具体的:针对具体场景,提示词的设计满足两个要求,分别为写出清晰的指令和明确模型思考的步骤;
针对写出清晰的指令要求,指令内容为“根据以下对话内容,帮我写一份诊疗报告”,此指令中,以显式的方式明确了模型的输入,以及模型的输出;
其中门诊病历包括主诉、现病史、辅助检查、既往史、诊断和建议六个部分;六个部分对应了模型的不同思考阶段,如先去生成主诉,再去生成现病史,则对应的提示词为:
主诉:主要症状或体征;
现病史:主要症状的描述即发病情况及发病时间;
辅助检查:病人已有的检查项目、检查结果及会诊记录;
既往史:既往的健康状况、过去曾经患过的疾病;
诊断:对疾病的诊断;
建议:检查建议、药物治疗、注意事项。
提示词的最后用显式的方式拼接完整的对话文本,对应提示词为“对话内容如下:”。
输入给模型的完整的提示词如下:
"根据以下对话内容,帮我写一份诊疗报告,主诉:主要症状或体征;现病史:主要症状的描述即发病情况及发病时间;辅助检查:病人已有的检查项目、检查结果及会诊记录;既往史:既往的健康状况、过去曾经患过的疾病;诊断:对疾病的诊断;建议:检查建议、药物治疗、注意事项;对话内容如下:”。
人工审核模块,用于对生成的病历报告进行人工审核;
通过人工对生成的满足预期效果的病历报告进行审核校验得到最终的病历报告;通过人工对模型的输出答案进行排序,首先训练一个Reward模型,之后利用Reward模型做为打分模型,此过程可以经过若干次迭代,直到模型的效果满足预期,该阶段的主要目的是提升模型答案输出的质量,使之与人类意图对齐;
Reward模型在机器学习和强化学习领域中用于定义问题的目标和指导智能体行为的一种模型,用于量化智能体在特定状态下采取特定动作所获得的立即奖励,Reward模型可以被看作是一个函数,接收智能体的当前状态和选择的动作,并返回一个表示奖励大小的数值,这个数值可以是正值、负值或零,用于衡量智能体在该状态下的行为好坏程度;
通过设计合适的Reward模型,可引导智能体向着预期的目标进行优化,在强化学习中,智能体通过与环境交互,观察状态、选择动作并获取奖励,以逐步学习如何最大化累积奖励,Reward模型起到了定义问题的目标和提供反馈的作用,帮助智能体在学习过程中找到有效的策略。
模型建立模块用于通过指令微调得到一个中文医疗大模型;
采用ChatGLM-6B做为基础中文大模型,整体训练过程分为三个阶段,分别是预训练阶段、指令微调阶段和强化学习阶段;其中,ChatGPT-6B是一个基于GPT-3.5模型的对话生成模型,GPT是"GenerativePre-trainedTransformer"的缩写,它是一种基于Transformer架构的语言模型,GPT-3.5是OpenAI在GPT系列上的最新版本之一,它具有60亿个参数,被训练用于生成高质量的自然语言文本,ChatGPT-6B版本是针对对话任务进行了优化的模型,在处理对话时能够生成连贯、有意义的回答;
在预训练阶段,基于中文医疗语料,主要包括病历文书及临床指南,通过自回归的方式完成模型的领域适配;针对中文医疗语料中病历文书及临床指南首先进行预处理,具体的预处理步骤:
a:收集的中文医疗语料,在现有病历文书及临床指南的基础上通过爬虫技术从公开的医学网站、论坛、问答社区搜集相关数据;
b:数据清洗,去除HTML标签:通过正则表达式或语料库,去除语料中的HTML标签,提取纯文本内容;去除特殊符号:去除语料中的特殊符号、表情符号、标点符号,以保留纯文本信息;去除非中文字符:去除非中文字符,以便后续处理只针对中文文本;去除重复数据:检查和去除重复的语料数据,确保语料库的多样性;
c:分词:将预处理后的语料通过结巴分词或哈工大LTP工具进行分词,将句子拆分为单个词语;
d:停用词过滤:根据领域特点,去除停用词,如“的”、“是”、“有”等,以减小数据规模,提高后续模型的效果;
e:标准化格式:使用术语标准化工具或构建自定义词典来将不同的表达方式统一为标准格式,以消除医疗文本存在不同的表达方式和缩写;
f:数据增强:通过同义词替换、词性变换、句子重组技术扩增语料规模对语料进行数据增强,达到提升模型的泛化能力和鲁棒性;
在指令微调阶段,利用医疗知识图谱,在线问诊和医疗NLP方向的Benchmark,构建指令数据集作为该阶段的训练数据集;主要目的是使得模型具备指令理解的能力;医疗NLP方向的Benchmark为医疗自然语言处理领域中,用于评估算法或系统性能的标准化测试集合,Benchmark通常由一系列的样本数据和对应的期望输出组成,用于衡量模型在不同任务上的准确性、性能和效率;其中在医疗NLP方向中,Benchmark包括以下任务:
命名实体识别:识别文本中的医学专业词汇、实体或概念,例如,识别疾病名称、药物、手术过程等;
关系抽取:从文本中提取出医学实体之间的关系,例如,识别病人与医生之间的关系;
文本分类:将医学文本进行分类,例如将病例描述分类为疾病、症状、诊断等类别;
问答系统:回答与医学领域相关的问题,在给定的问题下,系统需给出准确的答案或推荐合适的医疗建议;
利用医疗知识图谱来构建这些任务的指令数据集,为训练NLP模型提供更具挑战性和现实应用的数据,帮助改进医疗NLP系统的性能;
在强化学习阶段,通过人工对模型的输出答案进行排序,首先训练一个Reward模型,之后利用Reward模型做为打分模型,通过强化学习的方式训练中文医疗大模型,这个过程可以经过若干次迭代,直到模型的效果满足预期,该阶段的主要目的是提升模型答案输出的质量,使之与人类意图对齐。
参考图1,基于中文医疗大模型的门诊电子病历生成方法包括以下步骤:
S1:数据预处理,收集并整理中文医疗语料,进行数据清洗、格式标准化等操作,以提高后续模型的训练效果;
S2:模型训练,利用深度学习技术配合指令微调,构建中文医疗大模型,输入预处理后的数据进行训练,通过大规模的语料库和迭代训练,提高模型的理解能力和生成准确性;
S3:输入识别与分析,将医生和患者的对话过程作为输入的初始信息进行自然语言处理,识别关键信息并进行语义分析,以确定病历的基本框架和结构;
S4:内容生成与填充,根据医生输入的初始信息和患者的实际情况,结合中文医疗大模型的生成能力,自动生成门诊电子病历内容,并填充到相应的位置;
S5:验收与修正,生成的门诊电子病历进行人工验证和评分,优化门诊电子病历输出结果。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (5)
1.基于中文医疗大模型的门诊电子病历生成方法,其特征在于,包括以下步骤:
S1:数据预处理,收集并整理中文医疗语料,进行数据清洗、格式标准化等操作,以提高后续模型的训练效果;
S2:模型训练,通过模型建立模块利用深度学习技术配合指令微调,构建中文医疗大模型,输入预处理后的数据进行训练,通过大规模的语料库和迭代训练,提高模型的理解能力和生成准确性;
S3:利用识别模块将对话内容进行输入识别与分析,将医生和患者的对话过程作为输入的初始信息进行自然语言处理,通过信息抽取模块抽取关键信息并进行语义分析,以确定病历的基本框架和结构;
其中识别模块具体的识别步骤包括:
S301:通过麦克风阵列,捕获医生和患者的对话过程,利用语音识别和声纹识别的技术,将对话过程转化为文本并区分医生和患者两类角色;
S302:通过声纹识别技术对医生和患者区分医患角色的基础上,还用于对医生或患者音频数据随机截取,识别音频中对话人的声音信号,具体的声音信号包括共振峰、音色、频率、声调及语速;
S303:对识别到对话人声音信号进行建档标号,由医生或患者进行基本信息录入,同时对声音信号中的共振峰、音色、频率、声调及语速分析计算得到声信值;再将得到的声信值向上及下分别扩张预设基值,形成声信区间;
S304:更换患者后进行对话,实时采集新的患者的声音信号并计算实时声信值与声信区间进行比对,当属于声信区间范围内时,则直接调取患者以往的门诊对话记录,以便医生对病情进行快速分析;当不位于声信区间范围内时,则对新的患者重新建档;
S4:内容生成与填充,根据医生输入的初始信息和患者的实际情况,结合中文医疗大模型的生成能力,自动生成门诊电子病历内容,并填充到相应的位置;
S5:验收与修正,生成的门诊电子病历利用人工审核模块进行人工验证和评分。
2.根据权利要求1所述的一种基于中文医疗大模型的门诊电子病历生成方法,其特征在于,所述模型建立模块构建中文医疗大模型的具体操作步骤如下:
采用ChatGLM-6B做为基础中文大模型,整体训练过程分为三个阶段,分别是预训练阶段、指令微调阶段和强化学习阶段;
在预训练阶段,基于中文医疗语料,主要包括病历文书及临床指南,通过自回归的方式完成模型的领域适配;
在指令微调阶段,利用医疗知识图谱,在线问诊和医疗NLP方向的Benchmark,构建指令数据集作为该阶段的训练数据集;
在强化学习阶段,通过人工对模型的输出答案进行排序,首先训练一个Reward模型,之后利用Reward模型做为打分模型,通过强化学习的方式训练中文医疗大模型,经过若干次迭代,直到模型的效果满足预期。
3.根据权利要求2所述的一种基于中文医疗大模型的门诊电子病历生成方法,其特征在于,所述据预处理的具体操作步骤如下:
a:收集的中文医疗语料,在现有病历文书及临床指南的基础上通过爬虫技术从公开的医学网站、论坛、问答社区搜集相关数据;
b:数据清洗,去除HTML标签:通过正则表达式或语料库,去除语料中的HTML标签,提取纯文本内容;去除特殊符号:去除语料中的特殊符号、表情符号、标点符号,以保留纯文本信息;去除非中文字符:去除非中文字符,以便后续处理只针对中文文本;去除重复数据:检查和去除重复的语料数据,确保语料库的多样性;
c:分词:将预处理后的语料通过结巴分词或哈工大LTP工具进行分词,将句子拆分为单个词语;
d:停用词过滤:根据领域特点,去除停用词,以减小数据规模,提高后续模型的效果;
e:标准化格式:使用术语标准化工具或构建自定义词典来将不同的表达方式统一为标准格式,以消除医疗文本存在不同的表达方式和缩写;
f:数据增强:通过同义词替换、词性变换、句子重组技术扩增语料规模对语料进行数据增强。
4.根据权利要求1所述的一种基于中文医疗大模型的门诊电子病历生成方法,其特征在于,所述信息抽取模块抽取关键信息的具体操作步骤如下:
首先利用基于BERT模型的实体识别技术和属性抽取技术,从对话文本中抽取对话中的隐含知识;
同时引入医疗知识图谱的信息,通过预设的提示词,整合知识图谱,对话文本和对话文本中隐藏的知识,共同作为中文医疗大模型的输入,自动生成初版病历报告;通过提示词工程,完成若干次迭代,直到生成效果满足预期;
其中提示词设计针对具体场景设计满足两个要求,分别为写出清晰的指令和明确模型思考的步骤。
5.根据权利要求1所述的一种基于中文医疗大模型的门诊电子病历生成方法,其特征在于,所述人工审核模块进行人工验证和评分的具体操作步骤如下:
首先通过人工对生成的满足预期效果的病历报告进行审核校验得到最终的病历报告;再利用人工对模型的输出答案进行排序;先训练一个Reward模型,之后利用Reward模型做为打分模型,经过若干次迭代,直到模型的效果满足预期。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311417136.8A CN117253576B (zh) | 2023-10-30 | 2023-10-30 | 基于中文医疗大模型的门诊电子病历生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311417136.8A CN117253576B (zh) | 2023-10-30 | 2023-10-30 | 基于中文医疗大模型的门诊电子病历生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117253576A true CN117253576A (zh) | 2023-12-19 |
CN117253576B CN117253576B (zh) | 2024-03-05 |
Family
ID=89133257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311417136.8A Active CN117253576B (zh) | 2023-10-30 | 2023-10-30 | 基于中文医疗大模型的门诊电子病历生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117253576B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117743315A (zh) * | 2024-02-20 | 2024-03-22 | 浪潮软件科技有限公司 | 一种为多模态大模型系统提供高质量数据的方法 |
CN117932042A (zh) * | 2024-03-21 | 2024-04-26 | 支付宝(杭州)信息技术有限公司 | 作为医生代理的大语言模型的评测方法和装置 |
CN117952121A (zh) * | 2024-03-27 | 2024-04-30 | 北方健康医疗大数据科技有限公司 | 一种医疗文本的质量评估方法、系统、电子设备及介质 |
CN117995393A (zh) * | 2024-04-07 | 2024-05-07 | 北京惠每云科技有限公司 | 医疗鉴别诊断方法、装置、电子设备及存储介质 |
CN117995373A (zh) * | 2024-04-07 | 2024-05-07 | 北京惠每云科技有限公司 | 医院查房记录生成方法、装置、电子设备及存储介质 |
CN118072901A (zh) * | 2024-04-18 | 2024-05-24 | 中国人民解放军海军青岛特勤疗养中心 | 一种基于语音识别的门诊电子病历生成方法及系统 |
CN118098475A (zh) * | 2024-04-22 | 2024-05-28 | 来未来科技(浙江)有限公司 | 一种鉴别诊断文书生成方法、装置、设备及存储介质 |
CN118101878A (zh) * | 2024-03-26 | 2024-05-28 | 深圳市麦驰安防技术有限公司 | 一种医护对讲终端及其系统 |
CN118280562A (zh) * | 2024-05-24 | 2024-07-02 | 湘江实验室 | 知识图谱驱动的医疗大模型诊断方法 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106251865A (zh) * | 2016-08-04 | 2016-12-21 | 华东师范大学 | 一种基于语音识别的医疗健康记录自动填写方法 |
CN109949791A (zh) * | 2019-03-22 | 2019-06-28 | 平安科技(深圳)有限公司 | 基于hmm的情感语音合成方法、装置及存储介质 |
CN110428813A (zh) * | 2019-07-23 | 2019-11-08 | 北京奇艺世纪科技有限公司 | 一种语音理解的方法、装置、电子设备及介质 |
AU2019101223A4 (en) * | 2019-10-05 | 2020-01-16 | Sun, Ruiqi MR | A Speech Contents Recognition System based on Deep Learning |
AU2020102350A4 (en) * | 2020-09-21 | 2020-10-29 | Guizhou Minzu University | A Spark-Based Deep Learning Method for Data-Driven Traffic Flow Forecasting |
CN111863237A (zh) * | 2020-05-29 | 2020-10-30 | 东莞理工学院 | 一种基于深度学习的移动端疾病智能辅助诊断系统 |
CN112102907A (zh) * | 2020-09-09 | 2020-12-18 | 厦门波耐模型设计有限责任公司 | 基于物联网的数字病历生成、显示及使用方法、装置、存储介质 |
CN112542223A (zh) * | 2020-12-21 | 2021-03-23 | 西南科技大学 | 一种从中文电子病历构建医疗知识图谱的半监督学习方法 |
CN113555133A (zh) * | 2021-05-31 | 2021-10-26 | 北京易康医疗科技有限公司 | 一种医疗问诊数据处理方法和装置 |
CN113724695A (zh) * | 2021-08-30 | 2021-11-30 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的电子病历生成方法、装置、设备及介质 |
CN114492465A (zh) * | 2022-02-14 | 2022-05-13 | 平安科技(深圳)有限公司 | 对话生成模型训练方法和装置、对话生成方法、电子设备 |
CN114530223A (zh) * | 2022-01-18 | 2022-05-24 | 华南理工大学 | 一种基于nlp的心血管疾病病历结构化系统 |
CN114582353A (zh) * | 2022-03-07 | 2022-06-03 | 云知声智能科技股份有限公司 | 基于语音识别的电子病历自动生成方法及系统 |
CN115148350A (zh) * | 2022-06-21 | 2022-10-04 | 浙江中医药大学 | 一种面向中西医结合的痛风智能辅助诊疗系统 |
US20230126972A1 (en) * | 2020-08-24 | 2023-04-27 | Unlikely Artificial Intelligence Limited | Computer implemented method for the automated analysis or use of data |
CN116612879A (zh) * | 2023-07-19 | 2023-08-18 | 北京惠每云科技有限公司 | 诊断结果预测方法、装置、电子设备及存储介质 |
CN116741330A (zh) * | 2023-05-11 | 2023-09-12 | 北京百度网讯科技有限公司 | 诊疗报告生成方法、装置、设备及存储介质 |
-
2023
- 2023-10-30 CN CN202311417136.8A patent/CN117253576B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106251865A (zh) * | 2016-08-04 | 2016-12-21 | 华东师范大学 | 一种基于语音识别的医疗健康记录自动填写方法 |
CN109949791A (zh) * | 2019-03-22 | 2019-06-28 | 平安科技(深圳)有限公司 | 基于hmm的情感语音合成方法、装置及存储介质 |
CN110428813A (zh) * | 2019-07-23 | 2019-11-08 | 北京奇艺世纪科技有限公司 | 一种语音理解的方法、装置、电子设备及介质 |
AU2019101223A4 (en) * | 2019-10-05 | 2020-01-16 | Sun, Ruiqi MR | A Speech Contents Recognition System based on Deep Learning |
CN111863237A (zh) * | 2020-05-29 | 2020-10-30 | 东莞理工学院 | 一种基于深度学习的移动端疾病智能辅助诊断系统 |
US20230126972A1 (en) * | 2020-08-24 | 2023-04-27 | Unlikely Artificial Intelligence Limited | Computer implemented method for the automated analysis or use of data |
CN112102907A (zh) * | 2020-09-09 | 2020-12-18 | 厦门波耐模型设计有限责任公司 | 基于物联网的数字病历生成、显示及使用方法、装置、存储介质 |
AU2020102350A4 (en) * | 2020-09-21 | 2020-10-29 | Guizhou Minzu University | A Spark-Based Deep Learning Method for Data-Driven Traffic Flow Forecasting |
CN112542223A (zh) * | 2020-12-21 | 2021-03-23 | 西南科技大学 | 一种从中文电子病历构建医疗知识图谱的半监督学习方法 |
CN113555133A (zh) * | 2021-05-31 | 2021-10-26 | 北京易康医疗科技有限公司 | 一种医疗问诊数据处理方法和装置 |
CN113724695A (zh) * | 2021-08-30 | 2021-11-30 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的电子病历生成方法、装置、设备及介质 |
CN114530223A (zh) * | 2022-01-18 | 2022-05-24 | 华南理工大学 | 一种基于nlp的心血管疾病病历结构化系统 |
CN114492465A (zh) * | 2022-02-14 | 2022-05-13 | 平安科技(深圳)有限公司 | 对话生成模型训练方法和装置、对话生成方法、电子设备 |
CN114582353A (zh) * | 2022-03-07 | 2022-06-03 | 云知声智能科技股份有限公司 | 基于语音识别的电子病历自动生成方法及系统 |
CN115148350A (zh) * | 2022-06-21 | 2022-10-04 | 浙江中医药大学 | 一种面向中西医结合的痛风智能辅助诊疗系统 |
CN116741330A (zh) * | 2023-05-11 | 2023-09-12 | 北京百度网讯科技有限公司 | 诊疗报告生成方法、装置、设备及存储介质 |
CN116612879A (zh) * | 2023-07-19 | 2023-08-18 | 北京惠每云科技有限公司 | 诊断结果预测方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
穆玉芝: "基于深度学习的语音信号处理研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 05, 15 May 2021 (2021-05-15), pages 136 - 352 * |
蔡玥清: "基于Transformer的非自回归中文语音合成方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 02, 15 February 2023 (2023-02-15), pages 136 - 405 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117743315B (zh) * | 2024-02-20 | 2024-05-14 | 浪潮软件科技有限公司 | 一种为多模态大模型系统提供高质量数据的方法 |
CN117743315A (zh) * | 2024-02-20 | 2024-03-22 | 浪潮软件科技有限公司 | 一种为多模态大模型系统提供高质量数据的方法 |
CN117932042A (zh) * | 2024-03-21 | 2024-04-26 | 支付宝(杭州)信息技术有限公司 | 作为医生代理的大语言模型的评测方法和装置 |
CN118101878A (zh) * | 2024-03-26 | 2024-05-28 | 深圳市麦驰安防技术有限公司 | 一种医护对讲终端及其系统 |
CN117952121A (zh) * | 2024-03-27 | 2024-04-30 | 北方健康医疗大数据科技有限公司 | 一种医疗文本的质量评估方法、系统、电子设备及介质 |
CN117995373B (zh) * | 2024-04-07 | 2024-06-21 | 北京惠每云科技有限公司 | 医院查房记录生成方法、装置、电子设备及存储介质 |
CN117995373A (zh) * | 2024-04-07 | 2024-05-07 | 北京惠每云科技有限公司 | 医院查房记录生成方法、装置、电子设备及存储介质 |
CN117995393A (zh) * | 2024-04-07 | 2024-05-07 | 北京惠每云科技有限公司 | 医疗鉴别诊断方法、装置、电子设备及存储介质 |
CN118072901A (zh) * | 2024-04-18 | 2024-05-24 | 中国人民解放军海军青岛特勤疗养中心 | 一种基于语音识别的门诊电子病历生成方法及系统 |
CN118072901B (zh) * | 2024-04-18 | 2024-07-19 | 中国人民解放军海军青岛特勤疗养中心 | 一种基于语音识别的门诊电子病历生成方法及系统 |
CN118098475A (zh) * | 2024-04-22 | 2024-05-28 | 来未来科技(浙江)有限公司 | 一种鉴别诊断文书生成方法、装置、设备及存储介质 |
CN118280562A (zh) * | 2024-05-24 | 2024-07-02 | 湘江实验室 | 知识图谱驱动的医疗大模型诊断方法 |
CN118280562B (zh) * | 2024-05-24 | 2024-08-23 | 湘江实验室 | 知识图谱驱动的医疗大模型诊断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117253576B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117253576B (zh) | 基于中文医疗大模型的门诊电子病历生成方法 | |
Maas et al. | The Care2Report System: Automated Medical Reporting as an Integrated Solution to Reduce Administrative Burden in Healthcare. | |
US11727915B1 (en) | Method and terminal for generating simulated voice of virtual teacher | |
CN117787282B (zh) | 基于大语言模型的医患文本智能提取方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
Wagner et al. | Applying cooperative machine learning to speed up the annotation of social signals in large multi-modal corpora | |
Wadud et al. | Non-autoregressive end-to-end neural modeling for automatic pronunciation error detection | |
CN117194604B (zh) | 一种智慧医疗病患问诊语料库构建方法 | |
Gris et al. | Evaluating OpenAI's Whisper ASR for Punctuation Prediction and Topic Modeling of life histories of the Museum of the Person | |
Kozhirbayev et al. | Cascade Speech Translation for the Kazakh Language | |
Nanayakkara et al. | Clinical dialogue transcription error correction using Seq2Seq models | |
CN116306592A (zh) | 一种基于阅读理解的老年痴呆量表纠错方法、系统及介质 | |
CN115588486A (zh) | 一种基于Transformer的中医诊断生成装置及其应用 | |
Janfada et al. | A review of the most important studies on automated text simplification evaluation metrics | |
Bruchansky | Political footprints: Political discourse analysis using pre-trained word vectors | |
CN112347786A (zh) | 人工智能评分训练方法和装置 | |
Bisen et al. | A review on natural language generation | |
Abegunde et al. | Design Issues in Sentiment Analysis for Yorùbá Written Text | |
CN116187348A (zh) | 主题增强的两阶段医疗对话摘要模型 | |
Tejedor-García et al. | Towards an Open-Source Dutch Speech Recognition System for the Healthcare Domain | |
Desai et al. | Virtual Assistant for Enhancing English Speaking Skills | |
Takahashi et al. | A home health care system for elderly people | |
Moe | Post-processing automatic speech recognition transcriptions: A study for investigative interviews | |
Jim et al. | BTSQA: An Architecture for Bangla Textual and Spoken Question Answering | |
Agerie | Bi-directional English-Awngi Machine Translation Using Deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |