CN116340778B

CN116340778B - 基于多模态的医疗大模型构建方法及其相关设备

Info

Publication number: CN116340778B
Application number: CN202310596917.1A
Authority: CN
Inventors: 左勇; 刘伟华; 邱建华
Original assignee: Athena Eyes Co Ltd
Current assignee: Athena Eyes Co Ltd
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-10-03
Anticipated expiration: 2043-05-25
Also published as: US12086716B1; CN116340778A

Abstract

本发明公开了一种基于多模态的医疗大模型构建方法及其相关设备，通过包含多模态转换器T、提示管理器M、对话引擎L、任务控制器H和多模态基座模块MMF，多模态基座模块MMF至少包括一个医疗基础模块态基座MFMs的医疗大模型，采用模态分析、模型分配、下游任务结果返回、模态转换归一和响应生成五个阶段，同时处理融合多种模态数据并充分利用了多种模态数据之间的关联，实现多模态任务的快速处理，提高了针对人工智能任务的智能化处理程度和处理效率。

Description

基于多模态的医疗大模型构建方法及其相关设备

技术领域

本发明涉及数据处理领域，尤其涉及一种基于多模态的医疗大模型构建方法及其相关设备。

背景技术

随着人工智能技术的发展，深度学习在计算机视觉（CV）和自然语言处理（NLP）等各种AI研究领域取得了巨大进展。例如，深度残差网络（ResNets）在图像分类方面已经超过了人类的表现。随着大语言模型（如chatGPT和GPT-4）的出现推动了自然语言处理技术的飞快发展，基于大量的网络文本数据语料库和强大的架构，大语言模型可以像人类一样读、写和对话。语言模型 RoBERTa4在GLUE基准测试的几项自然语言理解任务上也优于人类。关系网络由DeepMind设计，在关系推理数据集上实现了超人的表现。

发明人在实现本发明的过程中，意识到现有技术至少存在如下技术问题：在实际的场景应用中，数据的模态不限于文本。语音，图像，视频同样重要，但大多数现有的人工智能进步只关注在单一认知能力，当前的人工智能的技术发展往往只关注单一方面的认知能力（例如，图像分类、语言理解或音频处理）上的提升，去接近或超越人类智能，以ChatGPT为例，ChatGPT是用语言进行训练的，因此它目前无法处理或生成来自视觉和语音世界的图像和音频。与此同时，视觉基础模型，如视觉Transformer或稳定扩散，虽然显示出强大的视觉理解和生成能力，但它们只具备一轮固定输入和输出的特定任务的性能，无法进行多轮的任务处理。

发明内容

本发明实施例提供一种基于多模态的医疗大模型构建方法、装置、计算机设备和存储介质，以实现多模态任务处理并提高处理效率。

为了解决上述技术问题，本申请实施例提供一种基于多模态的医疗大模型构建方法，所述基于多模态的医疗大模型包括多模态转换器T、提示管理器M、对话引擎L、任务控制器H和多模态基座模块MMF，所述多模态基座模块MMF至少包括一个医疗基础模块态基座MFMs，所述医疗基础模块态基座MFMs包括用于下游任务的基础模型和一个医疗语言对话模块MLM，所述基于多模态的医疗大模型构建方法包括：

第一阶段模态分析，采用多模态转换器T对输入的查询信息进行模态分析，得到任务类型；

第二阶段模型分配，通过任务控制器H和提示管理器M，选定用于进行任务处理的模型Pp及其对应的参数hPp，并将任务类型对应的资源分配给模型Pp，其中，所述模型Pp为所述用于下游任务的基础模型中的一个；

第三阶段下游任务结果返回，通过所述医疗基础模块态基座MFMs执行所述模型Pp，得到任务输出结果oPp，并将所述任务输出结果oPp反馈给所述多模态基座模块MMF；

第四阶段模态转换归一，采用所述医疗语言对话模块MLM，从所述多模态基座模块MMF发送的所述任务输出结果oPp中，提取与实体相关的文本跨度，得到结构化实体，并对所述结构化实体进行注释，得到反馈文本，反馈给所述多模态基座模块MMF；

第五阶段响应生成，采用所述医疗语言对话模块MLM接收所述多模态基座模块MMF传输的查询结果，并基于医学知识库，生成所述查询结果对应的专业回答反馈给用户。

可选地，所述采用多模态转换器T对输入的查询信息进行模态分析，得到任务类型包括：

采用多模态转换器T将所述输入的查询信息转化为查询描述和一组大小为k的查询相关资源/>，其中，所述查询描述/>为向量化形式，所述输入的查询信息为文本、音频和影像格式中的至少一种；

对所述查询描述进行模态检查，确定所述任务类型。

可选地，所述多模态转换器T内置判别器，所述对所述查询描述进行模态检查，确定所述任务类型包括：

对所述查询描述进行语义对齐，得到新的查询；

基于判别器对所述新的查询进行判别，得到所述任务类型。

可选地，所述通过任务控制器H和提示管理器M，选定用于进行任务处理的模型Pp及其对应的参数hPp包括：

采用所述任务控制器H确定每个所述查询相关资源的类型，确定不同的任务族；

对于选定的任务族，将任务族对应的所述查询描述传递到所述提示管理器M生成参数，包括选定的任务基础模型Pp及其相应的任务相关参数hPp，其中p是选择的任务模型的任务模型集/>，其中，hPp是由任务处理程序H选择的任务族，P为模型的数量，i取值范围为[1,P]的正整数。

可选地，所述用于下游任务的基础模型包括视觉任务模型和音频任务模型，所述视觉任务模型包括对医学影像中的标志物进行检测和分割，还包括根据人脸视频分析得到血压心率和健康指标参数，所述音频任务模型用于对音频进行识别。

可选地，所述基于医学知识库，生成所述查询结果对应的专业回答反馈给用户包括：

对于音频任务，输出中显示图像的波形和根据对应音频的识别结果，并生成对应的文本信息，作为所述查询结果对应的专业回答进行反馈；

对于文本的任务，返回转录的文本作为所述查询结果对应的专业回答进行反馈；

对于视觉任务，显示输出视频和相关的图像帧，并调用所述医疗基础模块态基座MLMs中的相应视觉任务模型，并将结果反馈给所述多模态基座模块，再由所述多模态基座模块根据结果模态转换生成文本对话，作为所述查询结果对应的专业回答进行反馈；

对于医学图像肿瘤检测任务，在时间跨度内显示分割后的的后验图，并根据图像分割结果,调用医疗语言对话模块MLM生成对应的文本内容，作为所述查询结果对应的专业回答进行反馈。

为了解决上述技术问题，本申请实施例还提供一种基于多模态的医疗大模型构建装置，所述基于多模态的医疗大模型包括多模态转换器T、提示管理器M、对话引擎L、任务控制器H和多模态基座模块MMF，所述多模态基座模块MMF至少包括一个医疗基础模块态基座MFMs，所述医疗基础模块态基座MFMs包括用于下游任务的基础模型和一个医疗语言对话模块MLM，所述基于多模态的医疗大模型构建装置还包括：

模态分析模块，采用多模态转换器T对输入的查询信息进行模态分析，得到任务类型；

模型分配模块，通过任务控制器H和提示管理器M，选定用于进行任务处理的模型Pp及其对应的参数hPp，并将任务类型对应的资源分配给模型Pp，其中，所述模型Pp为所述用于下游任务的基础模型中的一个；

下游任务结果返回模块，通过所述医疗基础模块态基座MFMs执行所述模型Pp，得到任务输出结果oPp，并将所述任务输出结果oPp反馈给所述多模态基座模块MMF；

模态转换归一模块，采用所述医疗语言对话模块MLM，从所述多模态基座模块MMF发送的所述任务输出结果oPp中，提取与实体相关的文本跨度，得到结构化实体，并对所述结构化实体进行注释，得到反馈文本，反馈给所述多模态基座模块MMF；

响应生成模块，采用所述医疗语言对话模块MLM接收所述多模态基座模块MMF传输的查询结果，并基于医学知识库，生成所述查询结果对应的专业回答反馈给用户。

可选地，所述模态分析模块包括：

信息转化子模块，用于采用多模态转换器T将所述输入的查询信息转化为查询描述和一组大小为k的查询相关资源/>，其中，所述查询描述为向量化形式，所述输入的查询信息为文本、音频和影像格式中的至少一种；

模态检查子模块，用于对所述查询描述进行模态检查，确定所述任务类型。

可选地，所述多模态转换器T内置判别器，所述模态检查子模块包括：

语义对齐单元，用于对所述查询描述进行语义对齐，得到新的查询；

判别单元，用于基于判别器对所述新的查询进行判别，得到所述任务类型。

可选地，模型分配模块包括：

任务族确定单元，用于采用所述任务控制器H确定每个所述查询相关资源的类型，确定不同的任务族；

模型选取单元，用于对于选定的任务族，将任务族对应的所述查询描述传递到所述提示管理器M生成参数，包括选定的任务基础模型Pp及其相应的任务相关参数hPp，其中p是选择的任务模型的任务模型集/>，其中，hPp是由任务处理程序H选择的任务族，P为模型的数量，i取值范围为[1,P]的正整数。

可选地，所述响应生成模块包括：

第一生成单元，用于对于音频任务，输出中显示图像的波形和根据对应音频的识别结果，并生成对应的文本信息，作为所述查询结果对应的专业回答进行反馈；

第二生成单元，用于对于文本的任务，返回转录的文本作为所述查询结果对应的专业回答进行反馈；

第三生成单元，用于对于视觉任务，显示输出视频和相关的图像帧，并调用所述医疗基础模块态基座MLMs中的相应视觉任务模型，并将结果反馈给所述多模态基座模块，再由所述多模态基座模块根据结果模态转换生成文本对话，作为所述查询结果对应的专业回答进行反馈；

第四生成单元，用于对于医学图像肿瘤检测任务，在时间跨度内显示分割后的的后验图，并根据图像分割结果,调用医疗语言对话模块MLM生成对应的文本内容，作为所述查询结果对应的专业回答进行反馈。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于多模态的医疗大模型构建方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于多模态的医疗大模型构建方法的步骤。

本发明实施例提供的基于多模态的医疗大模型构建方法、装置、计算机设备及存储介质，通过包含多模态转换器T、提示管理器M、对话引擎L、任务控制器H和多模态基座模块MMF，多模态基座模块MMF至少包括一个医疗基础模块态基座MFMs的医疗大模型，采用模态分析、模型分配、下游任务结果返回、模态转换归一和响应生成五个阶段，同时处理融合多种模态数据并充分利用了多种模态数据之间的关联，实现多模态任务的快速处理，提高了针对人工智能任务的智能化处理程度和处理效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是本申请的基于多模态的医疗大模型构建方法的一个实施例的流程图；

图3是本申请基于多模态的医疗大模型构建方法的一个应用示例图；

图4是根据本申请的基于多模态的医疗大模型构建装置的一个实施例的结构示意图；

图5是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3 )、MP4( Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于多模态的医疗大模型构建方法由服务器执行，相应地，基于多模态的医疗大模型构建装置设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器，本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。

请参阅图2和图3，图2示出本发明实施例提供的一种基于多模态的医疗大模型构建方法，图3为本申请基于多模态的医疗大模型构建方法的一个应用示例图，以该方法应用在图1中的服务端为例进行说明，该基于多模态的医疗大模型包括多模态转换器T、提示管理器M、对话引擎L、任务控制器H和多模态基座模块MMF，多模态基座模块MMF至少包括一个医疗基础模块态基座MFMs，医疗基础模块态基座MFMs包括用于下游任务的基础模型和一个医疗语言对话模块MLM。

其中，多模态基座模块MMF负责对查询输入的模态进行分析和任务分析（模态分析），并调用基础模块中的相应任务模型XS（任务分配），在多模态基座模块MMF中它为影像（影像可包括：医学影像如CT，MRI，人脸视频等）配备了视觉基础模型来处理复杂的下游视觉任务，如检测和分割出医学影像中的标志物（肿瘤），或根据人脸视频分析得到血压，心率等；为音频任务配备了音频基础模型来处理复杂的音频任务，如根据呼吸声监测睡眠状态。将子任务模型的处理后结果返回多模态基座模块MMF（结果返回），并通过医疗基础模块态基座MFMs来实现根据视觉或音频任务处理后的结果进行模态转换（模态转换），根据医学知识库和任务处理结果生成语言对话与用户进行交互（响应生成）。

在一具体示例中，每次的输入为一次对话查询qi，i表示第i轮查询，每一次的输出为一次对话反应ri。一个有（n-1）轮相互作用的上下文对话定义为C={(q1，r1),(q2，r2),...,(qn-1，rn-1)}，利用对话引擎L和提示管理器M将查询解析为任务控制器H的结构参数an；任务控制器H将结构化参数an参数发送到相应的音频任务处理器。在执行后，通过对话引擎L结合来自(q（n）、C、Ps（an））的信息，进行模态转换，最后通过医疗语言对话模块MLM并基于知识库生成最终的响应rn。

本实施例中，基于多模态的医疗大模型构建方法具体包括如下步骤：

S201：第一阶段模态分析，采用多模态转换器T对输入的查询信息进行模态分析，得到任务类型。

具体地，第一阶段模态分析目的是对输入的查询信息进行精准识别，确定任务类型，由于输入的查询信息为多模态，可能是图片、语音、视频和文字中的任意一种或多种组合，在人工智能任务处理过程中，只有在确定输入的查询信息中包含的模态，才能更为准确生成任务并处理任务。

其中，多模态转化器具体可以通过基于的Vision Transformer模态转化、基于生成对抗网络(GANs)的多模态转化等方式实现。此处不做限定。

在一具体可选实施方式中，步骤S201中，采用多模态转换器T对输入的查询信息进行模态分析，得到任务类型包括：

采用多模态转换器T将输入的查询信息转化为查询描述和一组大小为k的查询相关资源/>，其中，查询描述/>为向量化形式，输入的查询信息为文本、音频和影像格式中的至少一种；

对查询描述进行模态检查，确定任务类型。

在一具体可选实施方式中，多模态转换器T内置判别器，对查询描述进行模态检查，确定任务类型包括：

对查询描述进行语义对齐，得到新的查询；

基于判别器对新的查询进行判别，得到任务类型。

其中，语义对齐是指对查询描述进行的一项预处理，目的是方便后续的判别比较，具体可以通过对齐模块进行变换处理，对齐模块实现可根据实际需求进行设定，例如通过Transformer网络或者编码器等。

本实施例中，在进行语义对齐之后，通过判别器对查询进行判别，提高任务类型确定的准确性。

S202：第二阶段模型分配，通过任务控制器H和提示管理器M，选定用于进行任务处理的模型Pp及其对应的参数hPp，并将任务类型对应的资源分配给模型Pp，其中，模型Pp为用于下游任务的基础模型中的一个。

在一具体可选实施方式中，步骤S202中，通过任务控制器H和提示管理器M，选定用于进行任务处理的模型Pp及其对应的参数hPp包括：

采用任务控制器H确定每个查询相关资源的类型，确定不同的任务族；

对于选定的任务族，将任务族对应的查询描述传递到提示管理器M生成参数，包括选定的任务基础模型Pp及其相应的任务相关参数hPp，其中p是选择的任务模型的任务模型集/>，其中，hPp是由任务处理程序H选择的任务族，P为模型的数量，i取值范围为[1,P]的正整数。

需要说明的是，对于一个文本、音频或图像输入任务族，hPp还可能包含来自前一个上下文C的必要资源（例如，音频或图像）。此时，上下文C在参数提取之前被输入到对话引擎L中。

任务族是通过任务控制器H考虑I/O模式来确定的。

。

可选地，本实施例中用于下游任务的基础模型包括视觉任务模型和音频任务模型，视觉任务模型包括对医学影像中的标志物进行检测和分割，还包括根据人脸视频分析得到血压心率和健康指标参数，例如包含一个健康预测基础模型，输入是视频，输出是预测是生理指标，比如预测血压、心率。通过一个深度网络所实现。音频任务模型用于对音频进行识别。

S203：第三阶段下游任务结果返回，通过医疗基础模块态基座MFMs执行模型Pp，得到任务输出结果oPp，并将任务输出结果oPp反馈给多模态基座模块MMF。

其中，医疗基础模块态基座MFMs（Medical Foundation Models, MFMs）包括一系列用于处理下游任务的基础模型，和一个医疗语言对话模块MLM(Medical languagemodule,MLM)，需要说明的是，针对一个会话查询，可能涉及一个或多个任务类型，医疗基础模块态基座MFMs可根据实际需要，调用多个用于处理下游任务的基础模型并行进行处理，提高处理效率。

其中，医疗语言对话模块MLM可以由GPT模型的gpt-3.5-turbo的大型语言模型和传统的知识聊天机器人组成，基于现有的实体注释的医疗问答对话数据集进行预训练。

S204：第四阶段模态转换归一，采用医疗语言对话模块MLM，从多模态基座模块MMF发送的任务输出结果oPp中，提取与实体相关的文本跨度，得到结构化实体，并对结构化实体进行注释，得到反馈文本，反馈给多模态基座模块MMF。

具体地，首先从多模态基座模块MMF接收过来的多模态的输出结果中提取与实体相关的文本跨度，具体可以通过内置的结构化检索器，对知识库进行实体检索后，从知识库获得实体相关的一些属性等来实现，然后对其相应的规范化实体进行注释。具体来说，注释包括但不限于疾病、症状、医学、检查和属性等。

S205：第五阶段响应生成，采用医疗语言对话模块MLM接收多模态基座模块MMF传输的查询结果，并基于医学知识库，生成查询结果对应的专业回答反馈给用户。

需要说明的是，响应生成与选择任务Pp及任务输出结果oPp高度相关。

在一具体可选实施方中，基于医学知识库，生成查询结果对应的专业回答反馈给用户包括：

对于音频任务，输出中显示图像的波形和根据对应音频的识别结果，并生成对应的文本信息，作为查询结果对应的专业回答进行反馈；

对于文本的任务，返回转录的文本作为查询结果对应的专业回答进行反馈；

对于视觉任务，显示输出视频和相关的图像帧，并调用医疗基础模块态基座MLMs中的相应视觉任务模型，并将结果反馈给多模态基座模块，再由多模态基座模块根据结果模态转换生成文本对话，作为查询结果对应的专业回答进行反馈；

对于医学图像肿瘤检测任务，在时间跨度内显示分割后的的后验图，并根据图像分割结果,调用医疗语言对话模块MLM生成对应的文本内容，作为查询结果对应的专业回答进行反馈。

具体地，本实施例中的多模态任务，不仅限与图-文两种模态，而是能够同时兼顾图片、文本、音频、视频四种模态的任务分析与处理，并以多轮对话的形式反馈输出结果给用户，具备更强的可解释性。

本实施例中，通过包含多模态转换器T、提示管理器M、对话引擎L、任务控制器H和多模态基座模块MMF，多模态基座模块MMF至少包括一个医疗基础模块态基座MFMs的医疗大模型，采用模态分析、模型分配、下游任务结果返回、模态转换归一和响应生成五个阶段，同时处理融合多种模态数据并充分利用了多种模态数据之间的关联，实现多模态任务的快速处理，提高了针对人工智能任务的智能化处理程度和处理效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图4示出与上述实施例基于多模态的医疗大模型构建方法一一对应的基于多模态的医疗大模型构建装置的原理框图。如图4所示，该基于多模态的医疗大模型构建装置包括模态分析模块31、模型分配模块32、下游任务结果返回模块33、模态转换归一模块34和响应生成模块35。各功能模块详细说明如下：

模态分析模块31，采用多模态转换器T对输入的查询信息进行模态分析，得到任务类型；

模型分配模块32，通过任务控制器H和提示管理器M，选定用于进行任务处理的模型Pp及其对应的参数hPp，并将任务类型对应的资源分配给模型Pp，其中，模型Pp为用于下游任务的基础模型中的一个；

下游任务结果返回模块33，用于通过医疗基础模块态基座MFMs执行模型Pp，得到任务输出结果oPp，并将任务输出结果oPp反馈给多模态基座模块MMF；

模态转换归一模块34，采用医疗语言对话模块MLM，从多模态基座模块MMF发送的任务输出结果oPp中，提取与实体相关的文本跨度，得到结构化实体，并对结构化实体进行注释，得到反馈文本，反馈给多模态基座模块MMF；

响应生成模块35，采用医疗语言对话模块MLM接收多模态基座模块MMF传输的查询结果，并基于医学知识库，生成查询结果对应的专业回答反馈给用户。

可选地，模态分析模块31包括：

信息转化子模块，用于采用多模态转换器T将输入的查询信息转化为查询描述和一组大小为k的查询相关资源/>，其中，查询描述/>为向量化形式，输入的查询信息为文本、音频和影像格式中的至少一种；

模态检查子模块，用于对查询描述进行模态检查，确定任务类型。

可选地，多模态转换器T内置判别器，模态检查子模块包括：

语义对齐单元，用于对查询描述进行语义对齐，得到新的查询；

判别单元，用于基于判别器对新的查询进行判别，得到任务类型。

可选地，模型分配模块32包括：

任务族确定单元，用于采用任务控制器H确定每个查询相关资源的类型，确定不同的任务族；

模型选取单元，用于对于选定的任务族，将任务族对应的查询描述传递到提示管理器M生成参数，包括选定的任务基础模型Pp及其相应的任务相关参数hPp，其中p是选择的任务模型的任务模型集/>，其中，hPp是由任务处理程序H选择的任务族，P为模型的数量，i取值范围为[1,P]的正整数。

可选地，响应生成模块35包括：

第一生成单元，用于对于音频任务，输出中显示图像的波形和根据对应音频的识别结果，并生成对应的文本信息，作为查询结果对应的专业回答进行反馈；

第二生成单元，用于对于文本的任务，返回转录的文本作为查询结果对应的专业回答进行反馈；

第三生成单元，用于对于视觉任务，显示输出视频和相关的图像帧，并调用医疗基础模块态基座MLMs中的相应视觉任务模型，并将结果反馈给多模态基座模块，再由多模态基座模块根据结果模态转换生成文本对话，作为查询结果对应的专业回答进行反馈；

第四生成单元，用于对于医学图像肿瘤检测任务，在时间跨度内显示分割后的的后验图，并根据图像分割结果,调用医疗语言对话模块MLM生成对应的文本内容，作为查询结果对应的专业回答进行反馈。

关于基于多模态的医疗大模型构建装置的具体限定可以参见上文中对于基于多模态的医疗大模型构建方法的限定，在此不再赘述。上述基于多模态的医疗大模型构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图5，图5为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或D界面显示存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如电子文件的控制的程序代码等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据，例如运行基于多模态的医疗大模型构建的程序代码。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有界面显示程序，所述界面显示程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于多模态的医疗大模型构建方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于多模态的医疗大模型构建方法，其特征在于，所述基于多模态的医疗大模型包括多模态转换器T、提示管理器M、对话引擎L、任务控制器H和多模态基座模块MMF，所述多模态基座模块MMF至少包括一个医疗基础模块态基座MFMs，所述医疗基础模块态基座MFMs包括用于下游任务的基础模型和一个医疗语言对话模块MLM，所述基于多模态的医疗大模型构建方法包括：

第二阶段模型分配，通过任务控制器H和提示管理器M，选定用于进行任务处理的模型Pp及其对应的参数hPp，并将任务类型对应的资源分配给模型Pp，其中，所述模型Pp为所述用于下游任务的基础模型中的一个，其中，P为模型的数量，p为选择的任务模型的任务模型集，所述参数hPp为通过任务处理程序H选择的任务族的标识；

第五阶段响应生成，采用所述医疗语言对话模块MLM接收所述多模态基座模块MMF传输的查询结果，并基于医学知识库，生成所述查询结果对应的专业回答反馈给用户；

其中，所述采用多模态转换器T对输入的查询信息进行模态分析，得到任务类型包括：

采用多模态转换器T将所述输入的查询信息转化为查询描述和一组大小为k的查询相关资源/>其中，所述查询描述/>为向量化形式，所述输入的查询信息为文本、音频和影像格式中的至少一种，其中，s₁至s_k为所述查询相关资源的序号；

对所述查询描述进行模态检查，确定所述任务类型。

2.如权利要求1所述的基于多模态的医疗大模型构建方法，其特征在于，所述多模态转换器T内置判别器，所述对所述查询描述进行模态检查，确定所述任务类型包括：

对所述查询描述进行语义对齐，得到新的查询；

基于判别器对所述新的查询进行判别，得到所述任务类型。

3.如权利要求1或2所述的基于多模态的医疗大模型构建方法，其特征在于，所述通过任务控制器H和提示管理器M，选定用于进行任务处理的模型Pp及其对应的参数hPp包括：

对于选定的任务族，将任务族对应的所述查询描述传递到所述提示管理器M生成参数，包括选定的任务基础模型Pp及其相应的任务相关参数hPp，其中p是选择的任务模型的任务模型集/>其中，hPp是由任务处理程序H选择的任务族的标识，P为模型的数量，i取值范围为[1,P]的正整数。

4.如权利要求3所述的基于多模态的医疗大模型构建方法，其特征在于，所述用于下游任务的基础模型包括视觉任务模型和音频任务模型，所述视觉任务模型包括对医学影像中的标志物进行检测和分割，还包括根据人脸视频分析得到血压心率和健康指标参数，所述音频任务模型用于对音频进行识别。

5.如权利要求1至4任一项所述的基于多模态的医疗大模型构建方法，其特征在于，所述基于医学知识库，生成所述查询结果对应的专业回答反馈给用户包括：

6.一种基于多模态的医疗大模型构建装置，其特征在于，所述基于多模态的医疗大模型包括多模态转换器T、提示管理器M、对话引擎L、任务控制器H和多模态基座模块MMF，所述多模态基座模块MMF至少包括一个医疗基础模块态基座MFMs，所述医疗基础模块态基座MFMs包括用于下游任务的基础模型和一个医疗语言对话模块MLM，所述基于多模态的医疗大模型构建装置还包括：

模型分配模块，通过任务控制器H和提示管理器M，选定用于进行任务处理的模型Pp及其对应的参数hPp，并将任务类型对应的资源分配给模型Pp，其中，所述模型Pp为所述用于下游任务的基础模型中的一个，其中，P为模型的数量，p为选择的任务模型的任务模型集，所述参数hPp为通过任务处理程序H选择的任务族的标识；

响应生成模块，采用所述医疗语言对话模块MLM接收所述多模态基座模块MMF传输的查询结果，并基于医学知识库，生成所述查询结果对应的专业回答反馈给用户；其中，所述模态分析模块包括：

信息转化子模块，用于采用多模态转换器T将所述输入的查询信息转化为查询描述和一组大小为k的查询相关资源/>其中，所述查询描述/>为向量化形式，所述输入的查询信息为文本、音频和影像格式中的至少一种；

7.如权利要求6所述的基于多模态的医疗大模型构建装置，其特征在于，所述模型分配模块包括：

模型选取单元，用于对于选定的任务族，将任务族对应的所述查询描述传递到所述提示管理器M生成参数，包括选定的任务基础模型Pp及其相应的任务相关参数hPp，其中p是选择的任务模型的任务模型集/>P为模型的数量，i取值范围为[1,P]的正整数，其中，hPp是由任务处理程序H选择的任务族的标识。

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的基于多模态的医疗大模型构建方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的基于多模态的医疗大模型构建方法。