CN116759074A

CN116759074A - 多轮会话式医学影像分析模型的训练方法及应用

Info

Publication number: CN116759074A
Application number: CN202310809708.0A
Authority: CN
Inventors: 许振影; 张旷; 周华健; 傅亦婷; 赵宇飞; 杨啸天; 方震宇
Original assignee: Zhejiang Yishan Intelligent Medical Research Co ltd
Current assignee: Zhejiang Yishan Intelligent Medical Research Co ltd
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2023-09-15

Abstract

本发明提供一种多轮会话式医学影像分析模型的训练方法及应用，该方案针对多轮会话式医学影像分析模型的训练分为三大阶段，第一阶段是利用医学领域知识文本数据集训练大语言模型得到具有医学领域知识的医学知识语言模型，第二阶段是利用医学影像文本报告数据集训练医学知识语言模型得到可知晓医学影像同文本报告关联关系的医学影像文本报告模型；第三阶段利用问题回答数据集进一步训练医学影像文本报告模型得到可理解问题和医学影像之间的关系且针对问题做出应答的多轮会话式医学影像分析模型。

Description

多轮会话式医学影像分析模型的训练方法及应用

技术领域

本申请涉及会话式模型领域，特别是涉及多轮会话式医学影像分析模型的训练方法及应用。

背景技术

医学影像分析是指利用各种医学影像技术获取的图像数据进行解读和分析的过程。医学影像可以包括X射线、计算机断层扫描(CT扫描)、磁共振成像(MRI)、超声波成像、正电子发射计算机断层扫描(PET-CT)等，医学影像分析在医疗领域中扮演着重要的角色，它能够帮助医生进行疾病的诊断、治疗方案的制定和疾病的监测。医学影像分析通常借助计算机辅助诊断(CAD)系统来辅助医生进行影像解读和分析，CAD系统利用图像处理、模式识别和机器学习等技术，自动提取图像特征，并辅助医生进行诊断和决策。随着人工智能和机器学习的发展，医学影像分析正逐渐向着自动化和智能化方向发展。

目前的医学影像分析模型方法一般只有输入图像-输出结果这一种方式，也就是说，使用者将需要分析的医学影像输入到医学影像分析模型中经过分析后得到分析结果，这样的医学影像分析模型无法满足用户的会话式的查询需求。而面向于大众用户的大语言模型虽然可以满足用户的会话式需求，但仅能针对语音文本进行对话，无法针对特定输入的医学影像进行专业的医疗会话。换言之，目前现有技术暂无可靠的可针对医学影像进行多轮会话的分析模型。

发明内容

本申请实施例提供了一种多轮会话式医学影像分析模型的训练方法及应用，结合医学影像编码器同利用医学领域知识预训练的大语音模型，设计了可用于分析医学影像并回答与医学影像相关的会话式开放查询的多轮会话式医学影像分析模型，满足用户对于医学影像的会话式分析需求。

第一方面，本申请实施例提供了一种多轮会话式医学影像分析模型的训练方法，包括以下步骤：

获取医学领域知识文本数据集，其中医学领域知识文本数据集包括相关于医学影像的医学领域知识，利用医学领域知识文本数据集训练大语言模型得到医学知识语言模型；

获取医学影像文本报告数据集，其中所述医学影像文本报告数据集包括多张医学影像以及对应每一医学影像的文本报告；将医学影像文本报告集处理成对应的医学影像向量以及报告文本向量，利用医学影像向量作为医学知识语言模型的初始隐藏状态、对应同一医学影像向量的报告文本向量作为医学知识语言模型的输出结果对医学知识语言模型进行训练得到医学影像文本报告模型；

获取针对医学影像的问题回答数据集，其中所述问题回答数据集包括多张医学影像、针对每一医学影像的问题以及针对每一问题的回答，将问题回答数据集处理成对应的医学影像向量、问题文本向量以及回答文本向量，利用医学影像向量和问题文本向量作为医学影像文本报告模型的输入，回答文本向量作为医学影像文本报告模型的输出对医学影像文本报告模型进行训练得到多轮会话式医学影像分析模型。

第二方面，本申请实施例提供了一种多轮会话式医学影像分析模型，采用任一所述的多轮会话式医学影像分析模型的训练方法对对应的医学影像进行训练得到。

第三方面，本申请实施例提供了一种多轮会话式医学影像分析模型的应用方法，包括：将医学影像输入到医学影像编码器中得到医学影像向量；将医学影像向量输入到对应的任一所述的多轮会话式医学影像分析模型的训练方法训练后的多轮会话式医学影像分析模型中，并将相关该医学影像的问题输入到多轮会话式医学影像分析模型中输出对应的回答。

本发明的主要贡献和创新点如下：

本申请实施例提供了一种多轮会话式医学影像分析模型的训练方法，通过大量医学领域知识预训练大语音模型得到医学知识语言模型，并将分析医学医影像医学影像编码器与医学知识语言模型通过简单的线性变换对齐后，训练得到可用于分析医学影像并回答与医学影像本身相关的开放式会话查询的多轮会话式医学影像分析模型，融入了医学领域知识的医学知识语言模型其本身强大的对话功能可以很好地帮助完成会话式查询任务，进而使得该多轮会话式医学影像分析模型可以生成关于医学影像丰富的上下文对话，满足用户对医学影像在不同场景下的会话需求。

该方案具有强大的灵活性和泛化能力：采用了预训练的大型语言模型，这使得模型具有出色的语言理解和生成能力，可以从大量的非结构化文本中学习，并应用到语言生成任务中，这使得模型在遇到新问题或新情境时也能够产生准确的输出；具有增强的互动性：不同于传统的影像报告生成模型只能生成静态报告，该模型可以根据新问题生成新的答案，让医生可以通过向模型提问获取更深入的洞察，进一步提高诊断的准确性；可以融合多模态的医学信息：将影像和文本信息相结合，因此可以处理更复杂的任务，例如针对特定影像的问题回答。这使得本方案的医学影像分析模型相较于传统的单一模态报告生成模型有更大的优势

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的多轮会话式医学影像分析模型的训练过程的逻辑示意图；

图2是根据本申请一种实施例的多轮会话式医学影像分析模型的推理过程的逻辑示意图；

图3是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

本方案提供了一种多轮会话式医学影像分析模型的训练方法，包括以下步骤：

如图1所示，本方案针对多轮会话式医学影像分析模型的训练分为三大阶段，第一阶段是利用医学领域知识文本数据集训练大语言模型得到具有医学领域知识的医学知识语言模型，第二阶段是利用医学影像文本报告数据集训练医学知识语言模型得到可知晓医学影像同文本报告关联关系的医学影像文本报告模型；第三阶段利用问题回答数据集进一步训练医学影像文本报告模型得到可理解问题和医学影像之间的关系且针对问题做出应答的多轮会话式医学影像分析模型。

在第一阶段的医学知识语言模型的训练时，本方案选择相关于医学影像的医学领域知识作为医学领域知识文本数据集，所述医学领域知识取自电子病历、研究论文、专家报告、医学教科书以及网络知识中的文本数据。需要说明的是，医学领域知识为相关于医学影像以及该医学影像对应的疾病的文本数据，比如若医学影像为肺部X光片的话，则医学领域知识为相关于肺部疾病以及肺部X光片的文本数据。

当然，由于医学领域知识文本数据集采自各个公开渠道，且一些医学领域知识还存在敏感信息，故本方案在将医学领域知识文本数据集输入到大语言模型中进行训练前对医学领域知识文本数据集进行预处理。相对应的，在“利用医学领域知识文本数据集训练大语言模型得到医学知识语言模型”步骤中，对医学领域知识文本数据集中的医学领域知识进行数据清洗和数据修正，并将每段医学领域知识分割成系列的tokens，将系列tokens输入到大语言模型中进行训练得到医学知识语言模型。

需要说明的是，任何原始文本都不能直接作为输入到模型中直接训练，都要先切割为tokens，类似的，后面的报告文本向量和回答文本向量也是通过将对应的文本切割成tokens，并将这些tokens转化为向量形式得到的。这样做的目的是为了将文本数据转化为模型可接受的数值输入。图1中的文本向量实际上是由文本切割成的tokens组成的向量序列，通过将文本切割为tokens并转化为向量形式能够将文本数据转化为机器学习模型可以处理的形式，进而进行训练和预测。

具体的，本方案对医学领域知识进行数据清洗以去除所有敏感信息，进行数据修正以修正任何显著的文本错误，并利用适合处理中文数据的tokenizer将每段医学领域知识分割成系列的tokens，这个过程涉及到了将每段文本分割成更小的单位，如词、短语或者单个字符，在这个过程中尽可能保留了文本的原始信息，包括词语之间的顺序和上下文关系。

另外，在“利用医学领域知识文本数据集训练大语言模型得到医学知识语言模型”步骤中，利用医学领域知识文本数据集对预训练的大语言模型进行无监督训练，将处理成系列的tokens且未带有标签的医学领域知识文本数据集输入到预训练的大语言模型中进行训练，其中大语言模型利用中文文本进行预训练。

本方案之所以采用无监督训练的方式训练医学知识语言模型是为了让医学知识语言模型可以根据前面的词预测下一个词，使得医学知识语言模型在后续处理多轮会话任务时具有初步的能力。具体的，本方案采用中文文本预训练得到的Chinese-Vicuna作为大语言模型，Chinese-Vicuna将系列的tokens转换为高维数值数组的文本向量以提取系列的token的语义信息。在训练医学知识语言模型时使用大量的计算资源比如多个高性能的GPU进行长时间的训练，且采用动态学习率调整、梯度裁剪和权重衰减等训练手段，使得最终得到的医学知识语言模型后续可处理医学影像及相关疾病的多轮会话。

示例性的，若医学影像为肺部X光片的话，则医学领域知识为相关于肺部疾病以及肺部X光片的文本数据，则训练得到的医学知识语言模型可以处理肺部疾病相关的多轮会话问询。

在第二阶段的医学影像文本报告模型的训练时，本方案选择多张医学影像及对应医学影像的文本报告作为医学影像报告数据集。在一些实施例中，本方案从公共数据集MIMIC-CXR中获取了大约20万份医学影像和文本报告在内的数据作为医学影像文本报告数据集，且对医学影像文本报告数据集进行了保险和隐私要求的去识别。

对应的，在“获取医学影像文本报告数据集”步骤中，将所有医学影像进行图像调整后得到统一规格标准的医学影像，移除缺乏影像描述评估、影像描述不满足要求、影像评估不满足要求的文本报告，并移除文本报告中引用病患过往医疗情况的文本。

具体的，本方案对医学影像文本报告数据集进行以下预处理步骤：

1.针对医学影像完成灰度化、归一化和大小调整等步骤，使得所有的医学影像都处于同一标准。

2.针对文本报告移除了缺少影像描述或影像诊断评估部分的不完整报告。

3.消除了文本报告影像描述部分少于10个单词的文本报告。

4.排除了文本报告影像诊断评估部分含有少于2个单词的文本报告。

5.移除了文本报告引用病人以前的医疗历史的句子。

在“将医学影像文本报告集处理成对应的医学影像向量以及报告文本向量”步骤中，采用预训练的医学影像编码器对医学影像进行处理得到医学影像向量，利用预训练的语言编码器将文本报告进行处理得到报告文本向量，且将医学影像向量通过线性变换层投影到报告文本向量的空间。

需要说明的是，预训练的语言编码器在将文本报告进行处理得到报告文本向量时，也是将文本报告先处理成tokens，并将这些tokens转化为向量形式得到。具体的，本方案采用针对于医学影像处理的预处理过的医学影像编码器对医学影像进行处理，在一些实施例中，本方案采用预训练过的MedClip作为医学影像编码器，医学影像编码器Eimg()将医学影像编码转为医学影像向量embeddings。随后采用线性投影将医学影像向量映射到适当的维度。在一些实施例中，本方案选择将医学影像向量映射到512的输出维度，经过实验验证发现512这个维度可以在保证模型性能的同时不会引入过多的计算复杂度，且512这个维度也比较适合现有的硬件资源。

关于处理医学影像向量的公式如下：

Vp＝fv(Eimg(x))

其中Eimg()是医学影像编码器，x是医学影像，fv是线性投影，fv是医学影像向量。

另外，为了满足医学影像向量和报告文本向量空间之间的差异，本方案将医学影像向量投影到对应的报告文本向量所在的空间，具体的计算方式如下：

Lv＝t(vp)

其中线性变换层表示为t，医学影像向量表示为Vp表，Lv为投影到对应的语言embedding tokens。

关于线性变换层主要就是进行特征的映射和转换，具体可以表示为Lv＝W*Vp+b，其中：Lv是经过线性变换层后的输出向量，可以直接输入给语言模型，Vp是医学影像编码器输出的医学影像向量，W是线性变换层的权重矩阵，b是偏置向量。这里的W和b是模型的参数，在训练开始时，这些参数通常会被初始化为随机的小数值。它们在训练过程中会不断更新以最小化损失函数，这个线性变换层的设计目标就是要将医学影像向量转换为能够输入到大语言模型中的向量Lv，在训练过程中通过最小化模型在医学影像文本报告集上的损失函数来更新W和b，从而使得医学影像文本报告模型能够从医学影像中提取出有用的信息，生成高质量的文本报告。

在“利用预训练的语言编码器将文本报告进行处理得到报告文本向量”步骤中，采用中文文本预训练的大语言模型作为语言编码器将文本报告进行处理得到报告文本向量，语言编码器选择为Chinese-Vicuna。

另外，本方案对医学影像文本报告模型的训练是监督学习的过程，本方案利用医学影像向量作为医学知识语言模型的输入，对应的报告文本向量作为输出对医学影像文本报告模型进行训练，且本方案医学影像文本报告模型的损失函数修改为交叉熵损失函数以满足监督学习的要求。

当然，关于医学影像文本报告模型的训练使用大量的计算资源比如多个高性能的GPU进行长时间的训练，且采用动态学习率调整、梯度裁剪和权重衰减等训练手段，使得最终得到的医学影像文本报告模型后续可处理医学影像及相关疾病的多轮会话。

在第三阶段的医学影像分析模型的训练过程中，本方案选用问题回答数据集作为训练样本，每一训练样本包括一张医学影像，一个针对该医学影像的问题以及针对该问题的回答。

在“将问题回答数据集处理成对应的医学影像向量、问题文本向量以及回答文本向量”步骤中，采用预训练的医学影像编码器对医学影像进行处理得到医学影像向量，利用预训练的语言编码器将问题和回答进行处理得到问题文本向量以及回答文本向量，且将医学影像向量通过线性变换层投影到问题文本向量和回答文本向量的空间。关于此时的医学影像编码器和此时的语言编码器均同于第二阶段医学影像文本报告模型的训练时的结构，关于此时的线性变换层的映射也同于第二阶段的内容，故此不再累赘说明。为了能够让多轮会话式医学影像分析模型可以理解问题和医学影像之间的关系，本方案将医学影像文本和问题文本向量拼接后输入到医学影像文本报告模型，将回答文本向量作为医学影像文本报告模型的输出训练医学影像文本报告模型。医学影像文本报告模型根据输入的特征预测每个回答文本向量的概率。具体的，本方案将影像特征向量作为多轮会话式医学影像分析模型的初始隐藏状态，然后让多轮会话式医学影像分析模型根据这个初始隐藏状态和问题的文问题文本向量生成回答。

该多轮会话式医学影像分析模型的训练也是采用监督学习的方式，故损失函数选择为交叉熵损失，通过最小化多轮会话式医学影像分析模型输出的回答同真实的回答文本向量之间的交叉熵损失完成对多轮会话式医学影像分析模型的训练。关于多轮会话式医学影像分析模型的训练使用大量的计算资源比如多个高性能的GPU进行长时间的训练，且采用动态学习率调整、梯度裁剪和权重衰减等训练手段，使得最终得到的医学影像文本报告模型后续可处理医学影像及相关疾病的多轮会话。

为了验证本方案的多轮会话式医学影像分析模型的预测效果，本方案采用独立的测试集对多轮会话式医学影像分析模型进行评估，评估指标包括但不限于准确率(accuracy)、BLEU分数和ROUGE分数以及一些特定于对话系统的评估指标，比如对话成功率和用户满意度，结果如图2显示，我们的模型在处理肺部影像问答任务上，表现优于其他的基线模型。

实施例二

基于相同的构思，本申请还提出了一种多轮会话式医学影像分析模型，根据实施例一所述的多轮会话式医学影像分析模型的训练方法训练得到，可用于针对用户对不同医学影像的问题做出回答，完成多轮会话任务。另外，若需要使其应对不同医学影像做出回答，仅需调整训练样本集的内容即可。

关于该多轮会话式医学影像分析模型的架构如实施例一所示，本方案在此不额外赘述。

实施例三

基于相同的构思，本申请提供了一种多轮会话式医学影像分析模型的应用方法，包括：

将医学影像输入到医学影像编码器中得到医学影像向量，将相关于该医学影像的问题输入到语言编码器中得到问题文本向量；

将医学影像向量输入到对应的经训练后的多轮会话式医学影像分析模型中，并将相关该医学影像的问题文本向量输入到多轮会话式医学影像分析模型中输出对应的回答。

也就是说，本方案的多轮会话式医学影像分析模型配套预训练好的图像影像编码器和语言编码器共同使用，当用户需要使用该多轮会话式医学影像分析模型时需要先将医学影像输入到医学影像编码器中得到医学影像向量，将相关于该医学影像的问题输入到语言编码器中得到问题文本向量，其中语言编码器还包括用于将问题进行分割成tokens的Tokenizer，随后将tokens进行编码得到问题文本向量。

关于该实施例三中同于实施例一的内容在此不进行累赘说明。

实施例三

本实施例还提供了一种电子装置，参考图3，包括存储器304和处理器302，该存储器304中存储有计算机程序，该处理器302被设置为运行计算机程序以执行上述任一项多轮会话式医学影像分析模型的训练方法或者多轮会话式医学影像分析模型的应用方法的实施例中的步骤。

具体地，上述处理器302可以包括中央处理器(CPU)，或者特定集成电路(ApplicationSpecificIntegratedCircuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器304可以包括用于数据或指令的大容量存储器304。举例来说而非限制，存储器304可包括硬盘驱动器(HardDiskDrive，简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器304可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器304可在数据处理装置的内部或外部。在特定实施例中，存储器304是非易失性(Non-Volatile)存储器。在特定实施例中，存储器304包括只读存储器(Read-OnlyMemory，简称为ROM)和随机存取存储器(RandomAccessMemory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory，简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory，简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory，简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器304(FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory，简称SDRAM)等。

存储器304可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器302所执行的可能的计算机程序指令。

处理器302通过读取并执行存储器304中存储的计算机程序指令，以实现上述实施例中的任意一种多轮会话式医学影像分析模型的训练方法或者多轮会话式医学影像分析模型的应用方法。

可选地，上述电子装置还可以包括传输设备306以及输入输出设备308，其中，该传输设备306和上述处理器302连接，该输入输出设备308和上述处理器302连接。

传输设备306可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备306可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

输入输出设备308用于输入或输出信息。在本实施例中，输入的信息可以是医学影像和问题等，输出的信息可以是针对该问题的回答等。

可选地，在本实施例中，上述处理器302可以被设置为通过计算机程序执行以下步骤：

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种多轮会话式医学影像分析模型的训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多轮会话式医学影像分析模型的训练方法，其特征在于，在“利用医学领域知识文本数据集训练大语言模型得到医学知识语言模型”步骤中，对医学领域知识文本数据集中的医学领域知识进行数据清洗和数据修正，并将每段医学领域知识分割成系列的tokens，将系列tokens输入到大语言模型中进行训练得到医学知识语言模型。

3.根据权利要求1所述的多轮会话式医学影像分析模型的训练方法，其特征在于，在“获取医学影像文本报告数据集”步骤中，将所有医学影像进行图像调整后得到统一规格标准的医学影像，移除缺乏影像描述评估、影像描述不满足要求、影像评估不满足要求的文本报告，并移除文本报告中引用病患过往医疗情况的文本。

4.根据权利要求1所述的多轮会话式医学影像分析模型的训练方法，其特征在于，在“将医学影像文本报告集处理成对应的医学影像向量以及报告文本向量”步骤中，采用预训练的医学影像编码器对医学影像进行处理得到医学影像向量，利用预训练的语言编码器将文本报告进行处理得到报告文本向量，且将医学影像向量通过线性变换层投影到报告文本向量的空间。

5.根据权利要求4所述的多轮会话式医学影像分析模型的训练方法，其特征在于，线性变换层表示为Lv＝W*Vp+b，其中：Lv是经过线性变换层后的输出向量，Vp是医学影像编码器输出的医学影像向量，W是线性变换层的权重矩阵，b是偏置向量，W和b在训练过程中会不断更新以最小化损失函数。

6.根据权利要求1所述的多轮会话式医学影像分析模型的训练方法，其特征在于，在“将问题回答数据集处理成对应的医学影像向量、问题文本向量以及回答文本向量”步骤中，采用预训练的医学影像编码器对医学影像进行处理得到医学影像向量，利用预训练的语言编码器将问题和回答进行处理得到问题文本向量以及回答文本向量，且将医学影像向量通过线性变换层投影到问题文本向量以及回答文本向量的空间。

7.一种多轮会话式医学影像分析模型，其特征在于，采用权利要求1到7任一所述的多轮会话式医学影像分析模型的训练方法对对应的医学影像进行训练得到。

8.一种多轮会话式医学影像分析模型的应用方法，其特征在于，包括：

将医学影像输入到医学影像编码器中得到医学影像向量，将相关于该医学影像的问题输入到语言编码器中得到问题文本向量；将医学影像向量输入到对应的经权利要求1到7任一所述的多轮会话式医学影像分析模型的训练方法训练后的多轮会话式医学影像分析模型中，并将相关该医学影像的问题文本向量输入到多轮会话式医学影像分析模型中输出对应的回答。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1到7任一所述的多轮会话式医学影像分析模型的训练方法或权利要求8所述的多轮会话式医学影像分析模型的应用方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1到7任一所述的多轮会话式医学影像分析模型的训练方法或权利要求8所述的多轮会话式医学影像分析模型的应用方法。