CN117253576B

CN117253576B - 基于中文医疗大模型的门诊电子病历生成方法

Info

Publication number: CN117253576B
Application number: CN202311417136.8A
Authority: CN
Inventors: 张海鹏; 墙辉; 郭立超; 徐帆; 陈泽桐
Original assignee: Lailai Future Technology Zhejiang Co ltd
Current assignee: Lailai Future Technology Zhejiang Co ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-03-05
Anticipated expiration: 2043-10-30
Also published as: CN117253576A

Abstract

本发明公开了基于中文医疗大模型的门诊电子病历生成方法，涉及医疗信息技术领域，用于解决现有针对门诊病历自动生成方式存在生成的效果不符合预期、推理速度慢及模型迁移能力差缺陷的问题，本发明包括S1：数据预处理，收集并整理中文医疗语料，进行数据清洗、格式标准化等操作，以提高后续模型的训练效果；S2：模型训练，利用深度学习技术配合指令微调，构建中文医疗大模型，输入预处理后的数据进行训练，本发明，在海量医疗语料做了指令微调之后，可以得到中文医疗大模型，模型整体架构采用解码器，由于模型的容量较大，可以通过海量训练数据的学习提升模型的表征能力，此外能够同时用于生成类的任务和理解类的任务。

Description

基于中文医疗大模型的门诊电子病历生成方法

技术领域

本发明涉及医疗信息技术领域，具体为基于中文医疗大模型的门诊电子病历生成方法。

背景技术

随着社会的不断发展和生活水平的不断提高，人们对健康的重视程度也越来越高，医院求医问药的人逐年增多，如何利用相对匮乏的医疗资源满足人们对健康的需求，是当前迫切需要解决的问题。病历作为患者的医疗记录，是医疗机构诊治过程中记录的非常重要的文档，在现有技术中，为了提高医生的工作效率，逐渐抛弃了传统的纸质病历而改用电子病历，医生在给患者看病时或者看病结束后，可以在电脑等电子设备中的病历系统上录入、整理患者的诊断治疗信息，得到电子病历，从而更加便于保存、管理和重现。

针对门诊病历自动生成，现有的主流方案是采用seq2seq的方法。seq2seq是编码器-解码器架构，通常编码器采用BiLSTM，解码器采用LSTM，二者均可以使用多层架构。通过构建对话流程-病历文本对的训练集，训练seq2seq的模型完成文书的自动生成。在模型训练的过程中，可以借助PointerNetwork的方法，使得模型自动学习从输入中识别关键词，保证生成的病历文本包含对话流程中的关键词。为了进一步提升关键词识别的效果，可以单独训练实体识别，属性抽取和关系抽取模型，通过Pipeline的方式，将抽取到的关键词用显式的方式作为生成模型输入的一部分，以此保留生成的病历文书中关键信息的不丢失。

但现有的门诊病历自动生成方式依旧存在缺陷，具体的：

生成的效果不符合预期：由于编码器和解码器的模型容量较小，模型对训练数据的理解能力不到位，导致在文本生成的时候，比较容易出现生成的文本不连贯，语义重复，出现逻辑性错误，关键信息丢失，幻觉等现象；

推理速度慢：给定对话流程，在预测时，输入端要经过编码器的编码以及解码器的解码，由于是逐字的生成方式，故导致实际应用时的推理效率较低，降低了实用性；

模型迁移能力差：采用seq2seq的架构，理论上针对每一个具体的应用场景，都需要重新构建训练数据和训练模型，导致模型的研发成本较高，可复用性较低，此外，seq2seq的架构通常只用于文本生成类任务，当用于文本理解类的任务时，则需要不同的架构设计。

为了解决上述缺陷，现提供一种技术方案。

发明内容

本发明的目的在于解决现有针对门诊病历自动生成方式存在生成的效果不符合预期、推理速度慢及模型迁移能力差缺陷的问题，而提出一种基于中文医疗大模型的门诊电子病历生成方法。

本发明的目的可以通过以下技术方案实现：

基于中文医疗大模型的门诊电子病历生成方法，包括以下步骤：

S1：数据预处理，收集并整理中文医疗语料，进行数据清洗和格式标准化操作，以提高后续模型的训练效果；

S2：模型训练，利用深度学习技术配合指令微调，构建中文医疗大模型，输入预处理后的数据进行训练，通过大规模的语料库和迭代训练，提高模型的理解能力和生成准确性；

S3：输入识别与分析，将医生和患者的对话过程作为输入的初始信息进行自然语言处理，识别关键信息并进行语义分析，以确定病历的基本框架和结构；

S4：内容生成与填充，根据医生输入的初始信息和患者的实际情况，结合中文医疗大模型的生成能力，自动生成门诊电子病历内容，并填充到相应的位置；

S5：验收与修正，生成的门诊电子病历进行人工验证和评分，优化门诊电子病历输出结果。

进一步的，还包括病历生成系统，病历生成系统包括：

识别模块，用于识别医生和患者的对话过程；

信息抽取模块，对识别模块中转化的文本进行关键信息抽取；

人工审核模块，用于对生成的病历报告进行人工审核；

模型建立模块，用于通过指令微调得到一个中文医疗大模型。

进一步的，所述模型建立模块构建中文医疗大模型的具体操作步骤如下：

采用ChatGLM-6B做为基础中文大模型，整体训练过程分为三个阶段，分别是预训练阶段、指令微调阶段和强化学习阶段；

在预训练阶段，基于中文医疗语料，主要包括病历文书及临床指南，通过自回归的方式完成模型的领域适配；

在指令微调阶段，利用医疗知识图谱，在线问诊和医疗NLP方向的Benchmark，构建指令数据集作为该阶段的训练数据集；

在强化学习阶段，通过人工对模型的输出答案进行排序，首先训练一个Reward模型，之后利用Reward模型做为打分模型，通过强化学习的方式训练中文医疗大模型，经过若干次迭代，直到模型的效果满足预期，该阶段用于提升模型答案输出的质量，使之与人类意图对齐。

进一步的，所述据预处理的具体操作步骤如下：

a：收集的中文医疗语料，在现有病历文书及临床指南的基础上通过爬虫技术从公开的医学网站、论坛和问答社区搜集相关数据；

b：数据清洗，去除HTML标签：通过正则表达式或语料库，去除语料中的HTML标签，提取纯文本内容；去除特殊符号：去除语料中的特殊符号、表情符号和标点符号，以保留纯文本信息；去除非中文字符：去除非中文字符，以便后续处理只针对中文文本；去除重复数据：检查和去除重复的语料数据，确保语料库的多样性；

c：分词：将预处理后的语料通过结巴分词或哈工大LTP工具进行分词，将句子拆分为单个词语；

d：停用词过滤：根据领域特点，去除停用词，以减小数据规模，提高后续模型的效果；

e：标准化格式：使用术语标准化工具或构建自定义词典来将不同的表达方式统一为标准格式，以消除医疗文本存在不同的表达方式和缩写；

f：数据增强：通过同义词替换、词性变换和句子重组技术扩增语料规模对语料进行数据增强，达到提升模型的泛化能力和鲁棒性。

进一步的，所述识别模块识别的具体操作步骤如下：

通过麦克风阵列，捕获医生和患者的对话过程，利用语音识别和声纹识别的技术，将对话过程转化为文本并区分医生和患者两类角色；

通过声纹识别技术对医生和患者区分医患角色的基础上，还用于对医生或患者音频数据随机截取，识别音频中对话人的声音信号，具体的声音信号包括共振峰、音色、频率、声调及语速，并对识别到对话人声音信号进行建档标号，由医生或患者进行基本信息录入，同时对声音信号中的共振峰、音色、频率、声调及语速分析计算得到声信值；

将得到的声信值向上及下分别扩张预设基值，形成声信区间；当更换患者后进行对话，实时采集新的患者的声音信号并计算实时声信值与声信区间进行比对，当属于声信区间范围内时，则直接调取患者以往的门诊对话记录，以便医生对病情进行快速分析；当不位于声信区间范围内时，则对新的患者重新建档。

进一步的，所述信息抽取模块抽取关键信息的具体操作步骤如下：

首先利用基于BERT模型的实体识别技术和属性抽取技术，从对话文本中抽取对话中的隐含知识；

同时引入医疗知识图谱的信息，通过预设的提示词，整合知识图谱，对话文本和对话文本中隐藏的知识，共同作为中文医疗大模型的输入，自动生成初版病历报告；通过提示词工程，完成若干次迭代，直到生成效果满足预期；

其中提示词设计具体的：针对具体场景，提示词的设计满足两个要求，分别为写出清晰的指令和明确模型思考的步骤。

进一步的，所述人工审核模块进行人工验证和评分的具体操作步骤如下：

首先通过人工对生成的满足预期效果的病历报告进行审核校验得到最终的病历报告；再利用人工对模型的输出答案进行排序；先训练一个Reward模型，之后利用Reward模型做为打分模型，经过若干次迭代，直到模型的效果满足预期，从而提升模型答案输出的质量，使之与人类意图对齐。

与现有技术相比，本发明的有益效果是：

(1)本发明，在海量医疗语料做了指令微调之后，可以得到中文医疗大模型，模型整体架构采用解码器，由于模型的容量较大，可以通过海量训练数据的学习提升模型的表征能力，此外能够同时用于生成类的任务和理解类的任务；

(2)通过引入中文医疗大模型用于门诊病历的自动化生成，在显著提升对话理解，更好地完成信息抽取任务的同时，能够有效提升生成病历的质量。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明；

图1为本发明的方法流程图；

图2为本发明中的技术流程框图；

图3为本发明中病历生成系统的系统框图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

应当理解，本披露的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本披露说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本披露。如在本披露说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本披露说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如图3和图2所示，基于中文医疗大模型的门诊电子病历生成方法，包括病历生成系统，病历生成系统包括识别模块、信息抽取模块、人工审核模块及模型建立模块；

识别模块用于识别医生和患者的对话过程；通过麦克风阵列，捕获医生和患者的对话过程，利用语音识别和声纹识别的技术，将对话过程转化为文本并区分医生和患者两类角色；

通过声纹识别技术对医生和患者区分医患角色的基础上，还用于对医生或患者音频数据随机截取，识别音频中对话人的声音信号，具体的声音信号包括共振峰、音色、频率、声调及语速，并对识别到对话人声音信号进行建档标号，由医生或患者进行基本信息录入，同时对声音信号中的共振峰、音色、频率、声调及语速分别标定为GZ、YY、PI、SS及YC，归一化处理后代入公式：以得到声信值SYZ，式中α、β、χ、δ分别为共振峰GZ的预设权重系数、音色YY的预设权重系数、频率PI的预设权重系数、声调SS及语速YC之和的预设权重系数，并分别取值为1.553、1.223、1.124及0.995；

将得到的声信值SYZ向上及下分别扩张预设基值，形成声信区间；当更换患者后进行对话，实时采集新的患者的声音信号并计算实时声信值与声信区间进行比对，当属于声信区间范围内时，则直接调取患者以往的门诊对话记录，以便医生对病情进行快速分析。

信息抽取模块对识别模块中转化的文本进行关键信息抽取；

利用基于BERT模型的实体识别技术和属性抽取技术，从对话文本中抽取对话中的隐含知识；BERT模型通过在大规模无标签文本上进行预训练，学习到深层次的双向语言表示，使其具备了更好的语言理解能力，BERT模型基于Transformer架构，其中包含多个编码器层，在预训练阶段通过掩码语言模型和下一句预测任务进行训练，利用BERT模型进行实体识别，可以将文本中的具体实体提取出来，此处举例如"我昨天头很疼"中的"我"作为实体，属性抽取则是指从文本中提取出实体的相关属性信息，如从"我昨天头很疼"中抽取出"头很疼"作为实体"我"的属性，可应用于许多NLP任务，如信息抽取、问答系统等；

为了丰富对话文本的上下文，引入医疗知识图谱的信息，通过预设的提示词，整合知识图谱，对话文本和对话文本中隐藏的知识，共同作为中文医疗大模型的输入，自动生成初版病历报告；通过提示词工程，完成若干次迭代，直到生成效果满足预期；

其中提示词设计具体的：针对具体场景，提示词的设计满足两个要求，分别为写出清晰的指令和明确模型思考的步骤；

针对写出清晰的指令要求，指令内容为“根据以下对话内容，帮我写一份诊疗报告”，此指令中，以显式的方式明确了模型的输入，以及模型的输出；

其中门诊病历包括主诉、现病史、辅助检查、既往史、诊断和建议六个部分；六个部分对应了模型的不同思考阶段，如先去生成主诉，再去生成现病史，则对应的提示词为：

主诉：主要症状或体征；

现病史：主要症状的描述即发病情况及发病时间；

辅助检查：病人已有的检查项目、检查结果及会诊记录；

既往史：既往的健康状况、过去曾经患过的疾病；

诊断：对疾病的诊断；

建议：检查建议、药物治疗、注意事项。

提示词的最后用显式的方式拼接完整的对话文本，对应提示词为“对话内容如下:”。

输入给模型的完整的提示词如下：

"根据以下对话内容，帮我写一份诊疗报告，主诉：主要症状或体征；现病史：主要症状的描述即发病情况及发病时间；辅助检查：病人已有的检查项目、检查结果及会诊记录；既往史：既往的健康状况、过去曾经患过的疾病；诊断：对疾病的诊断；建议：检查建议、药物治疗、注意事项；对话内容如下：”。

人工审核模块，用于对生成的病历报告进行人工审核；

通过人工对生成的满足预期效果的病历报告进行审核校验得到最终的病历报告；通过人工对模型的输出答案进行排序，首先训练一个Reward模型，之后利用Reward模型做为打分模型，此过程可以经过若干次迭代，直到模型的效果满足预期，该阶段的主要目的是提升模型答案输出的质量，使之与人类意图对齐；

Reward模型在机器学习和强化学习领域中用于定义问题的目标和指导智能体行为的一种模型，用于量化智能体在特定状态下采取特定动作所获得的立即奖励，Reward模型可以被看作是一个函数，接收智能体的当前状态和选择的动作，并返回一个表示奖励大小的数值，这个数值可以是正值、负值或零，用于衡量智能体在该状态下的行为好坏程度；

通过设计合适的Reward模型，可引导智能体向着预期的目标进行优化，在强化学习中，智能体通过与环境交互，观察状态、选择动作并获取奖励，以逐步学习如何最大化累积奖励，Reward模型起到了定义问题的目标和提供反馈的作用，帮助智能体在学习过程中找到有效的策略。

模型建立模块用于通过指令微调得到一个中文医疗大模型；

采用ChatGLM-6B做为基础中文大模型，整体训练过程分为三个阶段，分别是预训练阶段、指令微调阶段和强化学习阶段；其中，ChatGPT-6B是一个基于GPT-3.5模型的对话生成模型，GPT是"GenerativePre-trainedTransformer"的缩写，它是一种基于Transformer架构的语言模型，GPT-3.5是OpenAI在GPT系列上的最新版本之一，它具有60亿个参数，被训练用于生成高质量的自然语言文本，ChatGPT-6B版本是针对对话任务进行了优化的模型，在处理对话时能够生成连贯、有意义的回答；

在预训练阶段，基于中文医疗语料，主要包括病历文书及临床指南，通过自回归的方式完成模型的领域适配；针对中文医疗语料中病历文书及临床指南首先进行预处理，具体的预处理步骤：

a：收集的中文医疗语料，在现有病历文书及临床指南的基础上通过爬虫技术从公开的医学网站、论坛、问答社区搜集相关数据；

b：数据清洗，去除HTML标签：通过正则表达式或语料库，去除语料中的HTML标签，提取纯文本内容；去除特殊符号：去除语料中的特殊符号、表情符号、标点符号，以保留纯文本信息；去除非中文字符：去除非中文字符，以便后续处理只针对中文文本；去除重复数据：检查和去除重复的语料数据，确保语料库的多样性；

d：停用词过滤：根据领域特点，去除停用词，如“的”、“是”、“有”等，以减小数据规模，提高后续模型的效果；

f：数据增强：通过同义词替换、词性变换、句子重组技术扩增语料规模对语料进行数据增强，达到提升模型的泛化能力和鲁棒性；

在指令微调阶段，利用医疗知识图谱，在线问诊和医疗NLP方向的Benchmark，构建指令数据集作为该阶段的训练数据集；主要目的是使得模型具备指令理解的能力；医疗NLP方向的Benchmark为医疗自然语言处理领域中，用于评估算法或系统性能的标准化测试集合，Benchmark通常由一系列的样本数据和对应的期望输出组成，用于衡量模型在不同任务上的准确性、性能和效率；其中在医疗NLP方向中，Benchmark包括以下任务：

命名实体识别：识别文本中的医学专业词汇、实体或概念，例如，识别疾病名称、药物、手术过程等；

关系抽取：从文本中提取出医学实体之间的关系，例如，识别病人与医生之间的关系；

文本分类：将医学文本进行分类，例如将病例描述分类为疾病、症状、诊断等类别；

问答系统：回答与医学领域相关的问题，在给定的问题下，系统需给出准确的答案或推荐合适的医疗建议；

利用医疗知识图谱来构建这些任务的指令数据集，为训练NLP模型提供更具挑战性和现实应用的数据，帮助改进医疗NLP系统的性能；

在强化学习阶段，通过人工对模型的输出答案进行排序，首先训练一个Reward模型，之后利用Reward模型做为打分模型，通过强化学习的方式训练中文医疗大模型，这个过程可以经过若干次迭代，直到模型的效果满足预期，该阶段的主要目的是提升模型答案输出的质量，使之与人类意图对齐。

参考图1，基于中文医疗大模型的门诊电子病历生成方法包括以下步骤：

S1：数据预处理，收集并整理中文医疗语料，进行数据清洗、格式标准化等操作，以提高后续模型的训练效果；

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.基于中文医疗大模型的门诊电子病历生成方法，其特征在于，包括以下步骤：

S2：模型训练，通过模型建立模块利用深度学习技术配合指令微调，构建中文医疗大模型，输入预处理后的数据进行训练，通过大规模的语料库和迭代训练，提高模型的理解能力和生成准确性；模型建立模块构建中文医疗大模型的具体操作步骤如下：

在强化学习阶段，通过人工对模型的输出答案进行排序，首先训练一个Reward模型，之后利用Reward模型做为打分模型，通过强化学习的方式训练中文医疗大模型，经过若干次迭代，直到模型的效果满足预期；

S3：利用识别模块将对话内容进行输入识别与分析，将医生和患者的对话过程作为输入的初始信息进行自然语言处理，通过信息抽取模块抽取关键信息并进行语义分析，以确定病历的基本框架和结构；

其中识别模块具体的识别步骤包括：

S301：通过麦克风阵列，捕获医生和患者的对话过程，利用语音识别和声纹识别的技术，将对话过程转化为文本并区分医生和患者两类角色；

S302：通过声纹识别技术对医生和患者区分医患角色的基础上，还用于对医生或患者音频数据随机截取，识别音频中对话人的声音信号，具体的声音信号包括共振峰、音色、频率、声调及语速；

S303：对识别到对话人声音信号进行建档标号，由医生或患者进行基本信息录入，同时对声音信号中的共振峰、音色、频率、声调及语速分析计算得到声信值；再将得到的声信值向上及下分别扩张预设基值，形成声信区间；

S304：更换患者后进行对话，实时采集新的患者的声音信号并计算实时声信值与声信区间进行比对，当属于声信区间范围内时，则直接调取患者以往的门诊对话记录，以便医生对病情进行快速分析；当不位于声信区间范围内时，则对新的患者重新建档；

S5：验收与修正，生成的门诊电子病历利用人工审核模块进行人工验证和评分。

2.根据权利要求1所述的基于中文医疗大模型的门诊电子病历生成方法，其特征在于，所述数据预处理的具体操作步骤如下：

f：数据增强：通过同义词替换、词性变换和句子重组技术扩增语料规模对语料进行数据增强。

3.根据权利要求1所述的基于中文医疗大模型的门诊电子病历生成方法，其特征在于，所述信息抽取模块抽取关键信息的具体操作步骤如下：

其中提示词设计针对具体场景设计满足两个要求，分别为写出清晰的指令和明确模型思考的步骤。

4.根据权利要求1所述的基于中文医疗大模型的门诊电子病历生成方法，其特征在于，所述人工审核模块进行人工验证和评分的具体操作步骤如下：

首先通过人工对生成的满足预期效果的病历报告进行审核校验得到最终的病历报告；再利用人工对模型的输出答案进行排序；先训练一个Reward模型，之后利用Reward模型做为打分模型，经过若干次迭代，直到模型的效果满足预期。