CN114972929B

CN114972929B - 一种医学多模态模型的预训练方法及装置

Info

Publication number: CN114972929B
Application number: CN202210903886.5A
Authority: CN
Inventors: 李姣; 王序文
Original assignee: Institute of Medical Information CAMS
Current assignee: Institute of Medical Information CAMS
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-10-18
Anticipated expiration: 2042-07-29
Also published as: CN114972929A

Abstract

本发明公开了一种医学多模态模型的预训练方法及装置，包括：获取初始医学图文样本数据，初始医学图文样本数据包括多组医学图文对，每组医学图文对包括医学图像和文本信息；基于初始医学图文样本数据进行多阶段任务训练，得到初始预训练模型；基于初始预训练模型和初始医学图文样本数据中的已人工标注的医学图文对，对初始医学图文样本数据进行优化，得到目标医学图文样本数据；利用目标医学图文样本数据对初始预训练模型的模型参数进行调整，得到目标医学多模态预训练模型。本发明通过分阶段进行训练，充分捕捉了医学图像与多粒度文本的关联信息，并且能够降低样本数据中噪声的影响，从而提升了模型学习准确性以及效率。

Description

一种医学多模态模型的预训练方法及装置

技术领域

本发明涉及医学信息处理技术领域，特别是涉及一种医学多模态模型的预训练方法及装置。

背景技术

由于事物发生方式的不同而产生的各种各样的数据，都可以称为一种“模态”。不同模态的数据会从不同角度、不同方面来描述事物，从而能够使得用户更加全面地观察和分析事物。相较于经典的图像、语音、文本等多模态数据的划分形式，现在的多模态数据是一个更为细粒度的概念，不仅有不同媒介产生的不同的模态，同一媒介下也能够存在不同的模态。对多模态数据的挖掘分析过程可理解为“多模态学习”，其目的是建立一个能处理和关联多种模态信息的模型，有效的“多模态学习”可获得更丰富的语义信息，进而提升待表示事物的整体性能。目前，基于深度学习的多模态学习旨在通过机器自动学习来实现理解多源模态信息的能力，已成为各种模态数据内容分析与理解的主要手段。

现有神经网络的训练过程，通常先对网络参数进行随机初始化，再利用随机梯度下降等优化算法不断优化模型参数。而预训练实质是模型参数不再是随机初始化的，而是通过一些任务进行预先训练，得到一套模型参数，然后用这套参数对模型进行初始化，再进行训练。

当前多模态预训练模型需要大量训练数据和计算资源，而通用视觉语言模型尺寸庞大，难以在资源不足的情况下应用，大多利用由web中搜集的大规模图文对数据，其中往往含有大量噪声，不利于模型的训练。由于隐私保护及伦理等限制，医学领域的多模态数据收集尤其困难，更加限制了通用模型在临床场景下的适用性，降低了模型学习准确性以及效率。

发明内容

针对于上述问题，本发明提供一种医学多模态模型的预训练方法及装置，实现了更适用于医学信息的处理场景中，提升了模型学习准确性和效率。

为了实现上述目的，本发明提供了如下技术方案：

一种医学多模态模型的预训练方法，包括：

获取初始医学图文样本数据，所述初始医学图文样本数据包括多组医学图文对，每组医学图文对包括医学图像和文本信息；

基于所述初始医学图文样本数据进行多阶段任务训练，得到初始预训练模型，所述多阶段任务至少包括基于语义标签单元和基于句子单元的预训练任务；

基于所述初始预训练模型和所述初始医学图文样本数据中的已人工标注的医学图文对，对所述初始医学图文样本数据进行优化，得到目标医学图文样本数据；

利用所述目标医学图文样本数据对所述初始预训练模型的模型参数进行调整，得到目标医学多模态预训练模型。

可选地，所述基于所述初始医学图文样本数据进行多阶段任务训练，得到初始预训练模型，包括：

基于第一阶段的训练任务，提取所述初始医学图文样本数据中包括语义标签的第一医学图文对，所述第一阶段的训练任务表征基于语义标签单元的训练任务；

基于所述第一医学图文对对初始模型结构进行训练；

基于第二阶段的训练任务，提取所述初始医学图文样本数据中包括句子描述的第二医学图文对，所述第二阶段的训练任务表征基于句子单元的训练任务；

基于所述第二医学图文对对初始模型结构进行训练；

响应于所述初始预训练模型完成所述第一阶段的训练任务以及所述第二阶段的训练任务，获得训练好的初始预训练模型。

可选地，所述初始预训练模型的模型结构包括单模态编码器、基于图像的文本编码器和基于图像的文本解码器，其中，所述基于所述初始预训练模型和所述初始医学图文样本数据中的已人工标注的医学图文对，对所述初始医学图文样本数据进行优化，得到目标医学图文样本数据，包括：

通过所述单模态编码器对所述初始医学图文样本数据中的每组医学图文对对应的医学图像和文本信息进行编码，得到图像编码信息和文本编码信息；

基于所述已人工标注的医学图文对对所述基于图像的文本解码器进行调整，得到描述器；

利用所述描述器生成所述初始医学图文样本数据中的无人工标注文本信息的第一图像的文本描述信息，得到第一类图文对，所述第一类图文对为图像与通过描述器生成的文本描述信息对应的图文对；

基于所述已人工标注的医学图文对对所述基于图像的文本编码器进行调整，得到过滤器；

利用所述过滤器对所述第一类图文对和第二类图文对进行过滤，得到第三类图文对，其中，所述第二类图文对为无人工标注文本信息的图像和与之对应的自动提取的文本信息组成的图文对，所述第三类图文对包括过滤后的第一类图文对和过滤后的第二类图文对；

根据所述已人工标注的医学图文对和所述第三类图文对，生成目标医学图文样本数据。

可选地，所述利用所述目标医学图文样本数据对所述初始预训练模型的模型参数进行调整，得到目标医学多模态预训练模型，包括：

基于第一阶段的训练任务，提取所述目标医学图文样本数据中包括语义标签的第三医学图文对；

基于第二阶段的训练任务，提取所述目标医学图文样本数据中包括句子描述的第四医学图文对；

基于所述第一阶段的训练任务和所述第二阶段的训练任务，对所述初始预训练模型的模型参数进行调整，得到目标医学多模态预训练模型。

可选地，所述方法还包括：

获取医学目标处理任务对应的目标样本数据；

基于所述目标样本数据对所述目标医学多模态预训练模型进行训练，得到与所述目标处理任务相匹配的目标处理模型。

一种医学多模态模型的预训练装置，包括：

样本获取单元，用于获取初始医学图文样本数据，所述初始医学图文样本数据包括多组医学图文对，每组医学图文对包括医学图像和文本信息；

模型训练单元，用于基于所述初始医学图文样本数据进行多阶段任务训练，得到初始预训练模型，所述多阶段任务至少包括基于语义标签单元和基于句子单元的预训练任务；

样本优化单元，用于基于所述初始预训练模型和所述初始医学图文样本数据中的已人工标注的医学图文对，对所述初始医学图文样本数据进行优化，得到目标医学图文样本数据；

模型调整单元，用于利用所述目标医学图文样本数据对所述初始预训练模型的模型参数进行调整，得到目标医学多模态预训练模型。

可选地，所述模型训练单元包括：

第一提取子单元，用于基于第一阶段的训练任务，提取所述初始医学图文样本数据中包括语义标签的第一医学图文对，所述第一阶段的训练任务表征基于语义标签单元的训练任务；

第一训练子单元，用于基于所述第一医学图文对对初始模型结构进行训练；

第二提取子单元，用于基于第二阶段的训练任务，提取所述初始医学图文样本数据中包括句子描述的第二医学图文对，所述第二阶段的训练任务表征基于句子单元的训练任务；

第二训练子单元，用于基于所述第二医学图文对对初始模型结构进行训练；

模型获得子单元，用于响应于所述初始预训练模型完成所述第一阶段的训练任务以及所述第二阶段的训练任务，获得训练好的初始预训练模型。

可选地，所述初始预训练模型的模型结构包括单模态编码器、基于图像的文本编码器和基于图像的文本解码器，其中，所述样本优化单元包括：

编码子单元，用于通过所述单模态编码器对所述初始医学图文样本数据中的每组医学图文对对应的医学图像和文本信息进行编码，得到图像编码信息和文本编码信息；

第一调整子单元，用于基于所述已人工标注的医学图文对对所述基于图像的文本解码器进行调整，得到描述器；

描述信息生成子单元，用于利用所述描述器生成所述初始医学图文样本数据中的无人工标注文本信息的第一图像的文本描述信息，得到第一类图文对，所述第一类图文对为图像与通过描述器生成的文本描述信息对应的图文对；

第二调整子单元，用于基于所述已人工标注的医学图文对对所述基于图像的文本编码器进行调整，得到过滤器；

过滤子单元，用于利用所述过滤器对所述第一类图文对和第二类图文对进行过滤，得到第三类图文对，其中，所述第二类图文对为无人工标注文本信息的图像和与之对应的自动提取的文本信息组成的图文对，所述第三类图文对包括过滤后的第一类图文对和过滤后的第二类图文对；

样本生成子单元，用于根据所述已人工标注的医学图文对和所述第三类图文对，生成目标医学图文样本数据。

可选地，所述模型调整单元具体用于：

可选地，所述装置还包括：

任务数据获取单元，用于获取医学目标处理任务对应的目标样本数据；

任务模型训练单元，用于基于所述目标样本数据对所述目标医学多模态预训练模型进行训练，得到与所述目标处理任务相匹配的目标处理模型。

相较于现有技术，本发明提供了一种医学多模态模型的预训练方法及装置，包括：获取初始医学图文样本数据，初始医学图文样本数据包括多组医学图文对，每组医学图文对包括医学图像和文本信息；基于初始医学图文样本数据进行多阶段任务训练，得到初始预训练模型，多阶段任务至少包括基于语义标签单元和基于句子单元的预训练任务；基于初始预训练模型和初始医学图文样本数据中的已人工标注的医学图文对，对初始医学图文样本数据进行优化，得到目标医学图文样本数据；利用目标医学图文样本数据对初始预训练模型的模型参数进行调整，得到目标医学多模态预训练模型。本发明利用从较小的语义标签单元到较大的句子单元的医学图文对数据分阶段进行训练，充分捕捉了医学图像与多粒度文本的关联信息，并且能够降低样本数据中噪声的影响，从而提升了模型学习准确性以及效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种医学多模态模型的预训练方法的流程示意图；

图2为本发明实施例提供医学图文对数据自举工作流的示意图；

图3为本发明实施例提供的一种医学多模态模型的预训练装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在本发明实施例中提供了一种医学多模态模型的预训练方法，通过该方法可以生成能够用于医学信息领域的预训练模型。基于预训练方法得到的预训练模型通常使用大规模的医学数据集合在较为简单的任务上进行预训练，预训练完成后，根据特定的医学下游任务（如对医学影像病变的自动识别），加载预训练模型的参数后，继续进行模型参数的调整，便可以让预训练模型在相关下游任务上取得显著的性能提升。

本发明实施例中的医学多模态模型的预训练方法，针对医学领域可获取的多模态训练数据较少的现实情况，研究如何利用有限数据资源分阶段训练医学多模态预训练模型，并通过数据自举的方式扩展高质量的医学图文对数据集，实现对预训练模型的迭代优化，从而获得与通用领域相当的医学图像理解及生成等下游任务性能。对应的，本发明实施例中的一种医学多模态模型的预训练方法可以应用于服务器、个人计算机或移动终端等电子设备，具体的，执行主体本发明不进行限定。

具体的，参见图1，为本发明实施例提供的一种医学多模态模型的预训练方法的流程示意图，该方法可以包括以下步骤：

S101、获取初始医学图文样本数据。

在进行医学多模态模型的预训练时，可以通过公开的医学文献、公开的医学影像、医学报告等采集大量的医学图文样本数据。该初始医学图文样本数据包括多组医学图文对，每组医学图文对包括医学图像和文本信息。其中，医学图像和文本信息可以是经过人工标注和清洗的，也可以是未经过人工标注和清洗的，如可以是医学影像中对应的医学图像与标注的医学影像描述文本，也可以是医学报告中提取出的医学图像和文本信息。

具体的，在本发明实施例中的初始医学图文样本数据包括已人工标注的医学图文对以及未进行人工标注的医学图文对，其中，已人工标注的医学图文对是指通过具有相关经验的医学人员或者研究人员对已有的医学图像，进行相应的文本信息的标注，或者也可以是具有经验的上述人员对医学图像对应的文本信息进行审核或者修订后重新得到与之对应的文本信息，即已人工标注的医学图文对可以理解为是图像与标注的文本信息之间的匹配度和准确度均较高的图文对。对应的，未进行人工标注的医学图文对，可以是基于文本提取器自动对医学图像对应的文本内容，进行提取后得到与该图像对应的文本信息，即其中的文本信息是未经过相关经验人员审核的文本信息，该未进行人工标注的医学图文对的匹配度和准确度相对较低。需要说明的是本发明实施例中的任何类型或者形式的图文对都是图像和文本信息一一匹配的信息对。

S102、基于初始医学图文样本数据进行多阶段任务训练，得到初始预训练模型。

多阶段任务训练是一个多阶段的多模态预训练模型，实质是从较小的语义标签单元到较大的句子单元的医学图文对数据分阶段进行训练，从而在不同阶段学习不同粒度的图像-文本对应信息。因此，该多阶段任务训练至少包括基于语义标签单元和基于句子单元的预训练任务。这样可以充分捕捉了医学图像与多粒度文本的关联信息，提升模型预训练学习的准确性。

在一种实施方式中，所述基于所述初始医学图文样本数据进行多阶段任务训练，得到初始预训练模型，包括：

基于所述第一医学图文对对初始模型结构进行训练；

基于所述第二医学图文对对初始模型结构进行训练；

具体的，第一阶段的训练为基于语义标签单元的预训练，其目的是实现细粒度（标签/词）单元层面的图文对齐。本阶段的文本输入是关于医学图像中目标对象的语义类别标签，图像输入是目标对象的视觉特征。预训练任务包括单模态的掩码语言模型（MaskedLanguage Modeling, MLM）、掩码目标分类（Masked Object Classification, MOC）、以及图像特征随机洗牌（Image Feature Random Shuffle, IFRS）以及跨模态的图文对比学习（Image-text Contrastive Learning，ITC）。其中，掩码目标分类任务可以预测被掩码的目标特征类别及属性标签；图像特征随机洗牌任务可以按预定概率随机改变局部图像三元组中的特征顺序，从而增强模型对齐图像目标特征及其语义标签的鲁棒性；图文对比学习任务通过计算图文对比损失函数，对齐视觉transformer和文本transformer的特征空间，从而获得更加优质的图像和文本表示。

第二阶段的训练为基于句子单元的预训练，其目的是实现较大粒度如句子层面的图文匹配及文本生成。该阶段文本输入为关于医学图像的句子级描述，图像输入为医学图像特征。预训练任务包括单模态的掩码语言模型（Masked Language Modeling, MLM）、掩码目标分类（Masked Object Classification, MOC）以及跨模态的图像句子主题任务（Topicof Image and Text for Sentence, TITS）、图文匹配（Image-text Matching, ITM）以及基于图像的语言模型（Image Conditioned Language Modeling, ICLM）。其中，图像句子主题任务可以预测图像与句子文本共同描述的信息（共享主题）内容；图文匹配任务旨在学习图文多模态表示，从而捕获视觉和语言的细粒度对齐；基于图像的语言模型具有将视觉信息转换为连贯字幕的泛化能力，为给定的图片生成对应的描述。

通过利用初始医学图文样本数据进行多阶段任务训练可以得到初始预训练模型。

S103、基于初始预训练模型和初始医学图文样本数据的已人工标注的医学图文对，对初始医学图文样本数据进行优化，得到目标医学图文样本数据。

由于初始医学图文样本数据中包括已人工标注的医学图文对，还包括未进行人工标注的医学图文对，并且未进行人工标注的医学图文对仅是自动提取了与医学图像对应的文本信息，并不一定是与当前医学图像对应的准确的描述文本。因此，初始医学图文样本数据中存在着一定的数据噪声，需要对这些噪声数据进行剔除或修正，才能保证最终的预训练模型的准确性。

因此，在本发明实施例中通过初始预训练模型和已人工标注的医学图文对，对初始医学图文样本数据进行优化，得到将数据噪声降到较低范围的目标医学图文样本数据。

其中，初始预训练模型的模型结构包括单模态编码器、基于图像的文本编码器和基于图像的文本解码器，具体的，单模态编码器是分别针对文本和图像的输入数据进行编码，相当于特征提取器，为后续的基于图像的文本编码器和基于图像的文本解码器提供文本模态和图像模态的输入向量。单模态编码器对医学图像和相关文本进行单模态编码的过程主要包括：利用ViT（Vision Transformer）模型对医学图像进行编码，将输入图像划分成一组图片块（patch），再输入transformer单元，得到输出的图像，输出的图像嵌入序列加上一个[CLS]标记，构成全局图像特征，其中，[CLS]标记为专用标记，放在图片或文本输入内容之前，代表整个图片或句子信息。对应的，文本模态的编码方式与BERT模型（Bidirectional Encoder Representations from Transformer，基于 Transformer 的双向编码器表示，是一个预训练的语言表征模型）一致，并添加一个[CLS]标记表示全局的文本信息。

基于图像的文本编码器，需要获取单模态编码器得到的图像编码信息即单模态图像输入向量，其单独使用可以用于图文匹配过滤器，也可以结合基于图像的文本解码器构成编解码器联合使用。基于图像的文本编码器在在BERT模型的基础上，在前馈网络层（FFN）和自注意力层（SA）之间增加一个交叉注意力层（Cross Attention, CA）层，为网络注入图像信息。文本前附加了一个[Encode] 标记，输出的嵌入表示作为图文对的多模态表示信息。

基于图像的文本解码器需要对单模态编码器的图像/文本编码信息进行解码，可以生成图像的文本描述信息。即将基于图像的文本编码器中的双向自注意力层替换为因果自注意力层，用于解码操作，同时文本中附加一个[Decode]标记用于表示序列的开始，[EOS]标记表示序列的结束。

需要说明的是，单模态编码器、基于图像的文本编码器和基于图像的文本解码器均可以应用在对初始预训练模型的训练过程中图文对的学习过程中。此外，在本发明实施例中还可以利用上述结构对初始医学图文样本数据进行优化。

在一种实施方式中，所述基于初始预训练模型和初始医学图文样本数据中的已人工标注的医学图文对，对初始医学图文样本数据进行优化，得到目标医学图文样本数据，包括：

即在本发明实施例中基于图像的文本编码器可以作为“过滤器”使用，基于图像的文本解码器可以作为“描述器”使用，从而实现数据自举的处理过程，以解决初始医学图文样本数据中存在数据噪声的问题。在该实施方式中，当基于图像的文本编码器可以作为“过滤器”使用，基于图像的文本解码器可以作为“描述器”使用时，是从同一个经过预训练的初始预训练模型中初始化，并再经过高质量的已人工标注的医学图文对上分别进行微调得到的。描述器根据给定医学图像生成对应的合成描述文本信息，过滤器可以用于判定通过自动提取文字的方式得到的医学图文对，或通过描述器给医学图像生成的描述信息是否匹配，如果不匹配，则过滤掉对应的图文对。

参见图2，为本发明实施例提供的医学图文对数据自举工作流的示意图。在图2中，D1为初始医学图文样本数据，在初始医学图文样本数据中包括已人工标注的图文对d1，以及未进行人工标注的医学图文对d2，其中，d1和d2中均包括多组图文对。通过对D1进行多阶段任务训练，得到初始预训练模型，用多模态混合编解码器MED表示。通过已人工标注的图文对d1分别对基于图的文本编码器和基于图的文本解码器进行微调，得到对应的过滤器和描述器，描述器主要是针对没有进行人工文本信息标注的医学图像集合I，然后生成与I中每一图像匹配的描述文本信息，得到第一类图文对d3，即该d3中每一个图文对都是医学图像与通过描述器生成的文本描述信息对应的信息对。然后将d2和d3输入到过滤器中进行过滤，得到过滤后的图文对d4和d5，其中，d4中每一图文对都是没有进行人工标注的医学图像与过滤后的与该图像对应的自动提取的文本信息组成的信息对，d5中每一图文对都是没有经过人工标注的医学图像与过滤后的与该图像对应的文本描述信息组成的信息对。因此，最终得到的目标医学图文样本数据为D2，D2包括d1、d4和d5。该目标医学图文样本数据用于对初始预训练模型进行调整。

S104、利用目标医学图文样本数据对初始预训练模型的模型参数进行调整，得到目标医学多模态预训练模型。

由于目标医学图文样本数据是通过数据自举的方式降低了初始医学图文样本数据中的数据噪声，因此，可以利用该目标医学图文样本数据对初始预训练模型再进行训练，实现对其参数的调整和更新，从而得到更准确的目标医学多模态预训练模型。

需要说明的是，利用该目标医学图文样本数据对初始预训练模型再进行训练的过程也是一个多阶段任务训练的过程，该处理过程已经在前面的实施例中进行详细说明，此处不再进行详述。具体的，所述利用所述目标医学图文样本数据对所述初始预训练模型的模型参数进行调整，得到目标医学多模态预训练模型，包括：基于第一阶段的训练任务，提取所述目标医学图文样本数据中包括语义标签的第三医学图文对；基于第二阶段的训练任务，提取所述目标医学图文样本数据中包括句子描述的第四医学图文对；基于所述第一阶段的训练任务和所述第二阶段的训练任务，对所述初始预训练模型的模型参数进行调整，得到目标医学多模态预训练模型。

由于在本发明实施例中的多阶段训练是一个迭代更新的过程，即通过训练反复对初始预训练模型的模型参数进行调整，得到最终满足要求的目标医学多模态预训练模型。

在前述实施例的基础上，本发明还包括：

获取医学目标处理任务对应的目标样本数据；

其中，医学目标处理任务可以是具体的医学领域的下游任务，目标样本数据为对应该下游任务的样本数据，通过目标样本数据对目标医学多模态预训练模型进行训练，可以得到能够实现该医学目标处理任务的模型，便于后续对该任务的处理。例如，基于训练好的目标医学多模态预训练模型，面向多个具体的医学领域下游任务，在真实临床多模态数据集上，如胸部X线影像报告，进行单独微调和验证。

本发明的医学多模态预训练模型具有较好的领域泛化性，通过利用不同粒度和类型的医学图文对数据进行分阶段训练，充分捕捉了医学图像与多粒度文本的关联信息，在医学影像理解及其描述生成等下游任务上达到了SOTA的效果，同时模型使用了多轮数据自举的方法来解决由医学文献中自动收集的大量噪声数据的问题。

本发明实施例提供了一种医学多模态模型的预训练方法，包括：获取初始医学图文样本数据，初始医学图文样本数据包括多组医学图文对，每组医学图文对包括医学图像和文本信息；基于初始医学图文样本数据进行多阶段任务训练，得到初始预训练模型，多阶段任务至少包括基于语义标签单元和基于句子单元的预训练任务；基于初始预训练模型和初始医学图文样本数据中的已人工标注的医学图文对，对初始医学图文样本数据进行优化，得到目标医学图文样本数据；利用目标医学图文样本数据对初始预训练模型的模型参数进行调整，得到目标医学多模态预训练模型。本发明利用从较小的语义标签单元到较大的句子单元的医学图文对数据分阶段进行训练，充分捕捉了医学图像与多粒度文本的关联信息，并且能够降低样本数据中噪声的影响，从而提升了模型学习准确性以及效率。

参见图3，在本发明实施例中还提供了一种医学多模态模型的预训练装置，该装置可以包括：

样本获取单元301，用于获取初始医学图文样本数据，所述初始医学图文样本数据包括多组医学图文对，每组医学图文对包括医学图像和文本信息；

模型训练单元302，用于基于所述初始医学图文样本数据进行多阶段任务训练，得到初始预训练模型，所述多阶段任务至少包括基于语义标签单元和基于句子单元的预训练任务；

样本优化单元303，用于基于所述初始预训练模型和所述初始医学图文样本数据中的已人工标注的医学图文对，对所述初始医学图文样本数据进行优化，得到目标医学图文样本数据；

模型调整单元304，用于利用所述目标医学图文样本数据对所述初始预训练模型的模型参数进行调整，得到目标医学多模态预训练模型。

可选地，所述模型训练单元包括：

可选地，所述模型调整单元具体用于：

可选地，所述装置还包括：

本发明提供了一种医学多模态模型的预训练装置，包括：样本获取单元获取初始医学图文样本数据，初始医学图文样本数据包括多组医学图文对，每组医学图文对包括医学图像和文本信息；模型训练单元基于初始医学图文样本数据进行多阶段任务训练，得到初始预训练模型，多阶段任务至少包括基于语义标签单元和基于句子单元的预训练任务；样本优化单元基于初始预训练模型和初始医学图文样本数据中的已人工标注的医学图文对，对初始医学图文样本数据进行优化，得到目标医学图文样本数据；模型调整单元利用目标医学图文样本数据对初始预训练模型的模型参数进行调整，得到目标医学多模态预训练模型。本发明利用从较小的语义标签单元到较大的句子单元的医学图文对数据分阶段进行训练，充分捕捉了医学图像与多粒度文本的关联信息，并且能够降低样本数据中噪声的影响，从而提升了模型学习准确性以及效率。

需要说明的是，本实施例中各个单元以及子单元的具体实现可以参考前文中的相应内容，此处不再详述。

在本申请的另一实施例中，还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上任一项所述的医学多模态模型的预训练方法各个步骤。

在本申请的另一实施例中，还提供了一种电子设备，所述电子设备可以包括：

存储器，用于存储应用程序和所述应用程序运行所产生的数据；

处理器，用于执行所述应用程序，以实现如上述中任一项所述医学多模态模型的预训练方法。

需要说明的是，本实施例中处理器的具体实现可以参考前文中的相应内容，此处不再详述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种医学多模态模型的预训练方法，其特征在于，包括：

利用所述目标医学图文样本数据对所述初始预训练模型的模型参数进行调整，得到目标医学多模态预训练模型；

所述初始预训练模型的模型结构包括单模态编码器、基于图像的文本编码器和基于图像的文本解码器，其中，所述基于所述初始预训练模型和所述初始医学图文样本数据中的已人工标注的医学图文对，对所述初始医学图文样本数据进行优化，得到目标医学图文样本数据，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述初始医学图文样本数据进行多阶段任务训练，得到初始预训练模型，包括：

基于所述第一医学图文对对初始模型结构进行训练；

基于所述第二医学图文对对初始模型结构进行训练；

3.根据权利要求2所述的方法，其特征在于，所述利用所述目标医学图文样本数据对所述初始预训练模型的模型参数进行调整，得到目标医学多模态预训练模型，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取医学目标处理任务对应的目标样本数据；

5.一种医学多模态模型的预训练装置，其特征在于，包括：

模型调整单元，用于利用所述目标医学图文样本数据对所述初始预训练模型的模型参数进行调整，得到目标医学多模态预训练模型；

所述初始预训练模型的模型结构包括单模态编码器、基于图像的文本编码器和基于图像的文本解码器，其中，所述样本优化单元包括：

6.根据权利要求5所述的装置，其特征在于，所述模型训练单元包括：

7.根据权利要求6所述的装置，其特征在于，所述模型调整单元具体用于：

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：