CN118365605A

CN118365605A - 针对多模态医学图像的标注方法、装置、设备和存储介质

Info

Publication number: CN118365605A
Application number: CN202410466431.0A
Authority: CN
Inventors: 何孟贤; 蒋帅; 王克冰; 刘博文; 求佳宁; 袁武
Original assignee: Shijia Smart Technology Shenzhen Co ltd
Current assignee: Shijia Smart Technology Shenzhen Co ltd
Priority date: 2024-01-24
Filing date: 2024-04-18
Publication date: 2024-07-19

Abstract

本发明实施例提供了一种针对多模态医学图像的标注方法、装置、设备和存储介质，该方法包括：获取待标注的眼科医学图像数据集；眼科医学图像数据集包括多种数据模态的眼科医学图像；将眼科医学图像数据集输入目标模型中，输出得到标注信息；标注信息包括眼科医学图像数据集中每一种数据模态的眼科医学图像的眼部病变特征标记；其中，目标模型基于多模态训练数据集训练得到，多模态训练数据集包括多种数据模态的眼部图像数据集。该方法可以解决现有技术中针对眼科影像的人工智能工具局限于单个数据模态、且只能标记单个病变类型的问题。

Description

针对多模态医学图像的标注方法、装置、设备和存储介质

技术领域

本发明实施例涉及机器学习技术领域，尤其涉及一种针对多模态医学图像的标注方法、装置、设备和存储介质。

背景技术

目前针对眼科影像的人工智能工具大多只能局限于单个数据模态的影像数据，且只能标记单个病变类型。而眼病的诊断常依赖多种数据模态的眼科影像数据综合分析的结果，现有的人工智能工具无法完成多模态、多病变类型的标注和分割。

因此，在眼科医师的实际诊疗过程中，现有的人工智能工具并不能充当高效全面的辅助工具。再者，年轻眼科医师和基层医师本身就缺少相关临床经验，现有的针对单模态眼科影像数据的人工智能工具亦无法对多模态眼科影像数据进行有效解读，无法作为医师日常工作学习中的可靠助手。

发明内容

本发明实施例提出了一种针对多模态医学图像的标注方法、装置、设备和存储介质，以解决现有技术中针对眼科影像的人工智能工具局限于单个数据模态、且只能标记单个病变类型的问题。

第一方面，本发明实施例提供了一种针对多模态医学图像的标注方法，包括：

获取待标注的眼科医学图像数据集；所述眼科医学图像数据集包括多种数据模态的眼科医学图像；

将所述眼科医学图像数据集输入目标模型中，输出得到标注信息；所述标注信息包括所述眼科医学图像数据集中每一种数据模态的眼科医学图像的眼部病变特征标记；

其中，所述目标模型基于多模态训练数据集训练得到，所述多模态训练数据集包括多种数据模态的眼部图像数据集，具体包括眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集；所述目标模型包括一个目标编码模块和级联在所述目标编码模块上的四个解码模块，所述目标编码模块在训练过程中用于针对所述眼底镜检查照片模态数据集、所述光学相干断层扫描OCT模态数据集、所述核磁共振MRI眼部模态数据集以及所述眼科超声生物显微镜检查UBM模态数据集进行特征编码；所述四个解码模块在训练过程中用于分别对应所述眼底镜检查照片模态数据集、所述光学相干断层扫描OCT模态数据集、所述核磁共振MRI眼部模态数据集以及所述眼科超声生物显微镜检查UBM模态数据集经过所述目标编码模块进行特征编码后输出的眼部编码特征进行解码，所述四个解码模块在训练过程中分别以所述眼底镜检查照片模态数据集对应匹配的第一标签特征图、所述光学相干断层扫描OCT模态数据集对应匹配的第二标签特征图、所述核磁共振MRI眼部模态数据集对应匹配的第三标签特征图以及所述眼科超声生物显微镜检查UBM模态数据集对应匹配的第四标签特征图作为预期值进行并行训练；所述第一标签特征图、所述第二标签特征图、所述第三标签特征图以及所述第四标签特征图均标记有对应数据模态的眼部病变特征。

第二方面，本发明实施例还提供了一种针对多模态医学图像的标注装置，包括：

数据获取模块，用于获取待标注的眼科医学图像数据集；所述眼科医学图像数据集包括多种数据模态的眼科医学图像；

标注模块，用于将所述眼科医学图像数据集输入目标模型中，输出得到标注信息；所述标注信息包括所述眼科医学图像数据集中每一种数据模态的眼科医学图像的眼部病变特征标记；

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任一所述的针对多模态医学图像的标注方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方中任一项所述的针对多模态医学图像的标注方法。

在本申请实施例中，获取待标注的眼科医学图像数据集；所述眼科医学图像数据集包括多种数据模态的眼科医学图像；将所述眼科医学图像数据集输入目标模型中，输出得到标注信息；所述标注信息包括所述眼科医学图像数据集中每一种数据模态的眼科医学图像的眼部病变特征标记；其中，所述目标模型基于多模态训练数据集训练得到，所述多模态训练数据集包括多种数据模态的眼部图像数据集，具体包括眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集；所述目标模型包括一个目标编码模块和级联在所述目标编码模块上的四个解码模块，所述目标编码模块在训练过程中用于针对所述眼底镜检查照片模态数据集、所述光学相干断层扫描OCT模态数据集、所述核磁共振MRI眼部模态数据集以及所述眼科超声生物显微镜检查UBM模态数据集进行特征编码；所述四个解码模块在训练过程中用于分别对应所述眼底镜检查照片模态数据集、所述光学相干断层扫描OCT模态数据集、所述核磁共振MRI眼部模态数据集以及所述眼科超声生物显微镜检查UBM模态数据集经过所述目标编码模块进行特征编码后输出的眼部编码特征进行解码，所述四个解码模块在训练过程中分别以所述眼底镜检查照片模态数据集对应匹配的第一标签特征图、所述光学相干断层扫描OCT模态数据集对应匹配的第二标签特征图、所述核磁共振MRI眼部模态数据集对应匹配的第三标签特征图以及所述眼科超声生物显微镜检查UBM模态数据集对应匹配的第四标签特征图作为预期值进行并行训练；所述第一标签特征图、所述第二标签特征图、所述第三标签特征图以及所述第四标签特征图均标记有对应数据模态的眼部病变特征。该针对多模态医学图像的标注方法能够解决现有技术中针对眼科影像的人工智能工具局限于单个数据模态、且只能标记单个病变类型的问题；进一步的，由于目标模型是基于多模态训练数据集训练得到的，多模态训练数据集包括多种数据模态的眼部图像数据集，具体包括了常见眼科影像数据中的眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集；使得该目标模型在训练过程中已经习得常见眼科影像数据中各种数据模态下的眼部图像中的眼部特征，即该目标模型中的目标编码模块可以针对多种数据模态的眼部图像进行特征编码，并将编码后的特征传递给具备级联关系的解码模块进行解码处理；再者，四个解码模块是对应上述四种数据模态进行特征解码训练的，且四个解码模块在训练过程中分别以眼底镜检查照片模态数据集对应匹配的第一标签特征图、光学相干断层扫描OCT模态数据集对应匹配的第二标签特征图、核磁共振MRI眼部模态数据集对应匹配的第三标签特征图以及眼科超声生物显微镜检查UBM模态数据集对应匹配的第四标签特征图作为预期值进行并行训练，使得四个解码模块在各自的训练中学习到了各个对应数据模态的眼部特征与标签特征图之间的关联，且第一标签特征图、第二标签特征图、第三标签特征图以及第四标签特征图均标记有对应数据模态的眼部病变特征，故各个解码模块在训练中亦能够学习到不同数据模态的眼部图像所对应匹配的眼部病变特征，使得训练完成后的解码模块可以对经过目标编码模块编码不同数据模态的眼部图像中的眼部编码特征回归预测出针对不同数据模态的眼部图像的眼部病变特征。因此，当对该目标模型输入待标注的眼科医学图像数据集时，该目标模型可以输出得到包括眼科医学图像数据集中每一种数据模态的眼科医学图像的眼部病变特征标记的标注信息。该目标模型能够适用于对多模态、多病变类型的眼科影像进行标注和分割的应用场景，可以辅助医师进行眼病的诊断，作为医师日常工作学习中的可靠助手，对于缺少相关临床经验的年轻医师和基层医师，该目标模型可以对多种眼部病变特征标记分割后，供其对比自身诊断积累经验，也能避免因经验欠缺未识别病变图像而导致的误诊漏诊。

附图说明

图1为本发明实施例一提供的一种针对多模态医学图像的标注方法的流程图；

图2为本发明实施例二提供的一种针对多模态医学图像的标注装置的结构示意图；

图3为本发明实施例三提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

本发明实施例中所提供的目标模型可以同时处理眼底照片、眼部MRI、OCT和UBM眼部超声显微镜四种模态图像数据，同时对多种病变(玻璃膜疣、出血、新生血管、微小动脉瘤、眼眶肿瘤、纤维增生、棉絮状斑点、渗出、视网膜内液等)进行标记分割(眼底照片)，对玻璃体、视网膜、视网膜色素上皮、脉络膜进行分层(OCT图像)，对眼窝肿瘤进行分割(MRIslice)，和对巩膜骨刺、角凹槽、巩膜骨刺与角膜后切线的交点进行标记检测(眼部超声显微镜检查UBM)。依托目标模型对多模态影像数据同时标记、分割，眼科医师可以快速捕捉到影像数据的关键信息，提升工作效率。对于年轻医师和基层医师，本发明所提供的目标模型可以对多种病变特征标记分割后，供其对比自身诊断积累经验，也能避免因经验欠缺未识别病变图像而导致的误诊漏诊。

实施例一

图1为本发明实施例一提供的一种针对多模态医学图像的标注方法的流程图，本实施例可适用于对多模态、多病变类型的眼科影像进行标注和分割的情况，该方法可以由针对多模态医学图像的标注装置来执行，该针对多模态医学图像的标注装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，个人笔记本电脑、台式机、服务器、工控机、电脑一体机，医疗设备，等等，具体包括如下步骤：

S110、获取待标注的眼科医学图像数据集；眼科医学图像数据集包括多种数据模态的眼科医学图像。

S120、将眼科医学图像数据集输入目标模型中，输出得到标注信息；标注信息包括眼科医学图像数据集中每一种数据模态的眼科医学图像的眼部病变特征标记。

其中，目标模型基于多模态训练数据集训练得到，多模态训练数据集包括多种数据模态的眼部图像数据集，具体包括眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集；目标模型包括一个目标编码模块和级联在该目标编码模块上的四个解码模块，目标编码模块在训练过程中用于针对眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集进行特征编码；四个解码模块在训练过程中用于分别对应眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集经过目标编码模块进行特征编码后输出的眼部编码特征进行解码，四个解码模块在训练过程中分别以眼底镜检查照片模态数据集对应匹配的第一标签特征图、光学相干断层扫描OCT模态数据集对应匹配的第二标签特征图、核磁共振MRI眼部模态数据集对应匹配的第三标签特征图以及眼科超声生物显微镜检查UBM模态数据集对应匹配的第四标签特征图作为预期值进行并行训练；第一标签特征图、第二标签特征图、第三标签特征图以及第四标签特征图均标记有对应数据模态的眼部病变特征；例如，眼底镜检查照片模态数据集对应匹配的第一标签特征图可以包括玻璃膜疣、出血、新生血管、微小动脉瘤、眼眶肿瘤、纤维增生、棉絮状斑点、渗出、视网膜内液等眼部病变特征，光学相干断层扫描OCT模态数据集对应匹配的第二标签特征图可以包括对玻璃体、视网膜、视网膜色素上皮、脉络膜进行分层的眼部病变特征，核磁共振MRI眼部模态数据集对应匹配的第三标签特征图可以包括对眼窝肿瘤进行分割的眼部病变特征，眼科超声生物显微镜检查UBM模态数据集对应匹配的第四标签特征图可以包括对巩膜骨刺、角凹槽、巩膜骨刺与角膜后切线的交点进行标记检测后的眼部病变特征。

需要说明的是，为了区分描述用于模型训练的眼部图像和实际应用过程中采集到的眼部图像，本发明将模型训练中用到的多张眼部图像描述为眼部图像数据集，将实际数据标注应用中所用到的多张眼部图像描述为眼科医学图像数据集；其中，用于模型训练的多模态训练数据集包括多种数据模态的眼部图像数据集，具体包括眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集，即眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集分别为包括多张眼部图像的不同数据模态的图像数据集；实际数据标注应用中所用到的眼科医学图像数据集包括多种数据模态的眼科医学图像(该眼科医学图像只是为了区别描述，实质也为眼部图像)；即，本实施例中的眼部图像数据集和眼科医学图像数据集的本质均为包括多张眼部图像的图像数据集。

本实施例中的眼部图像可以为眼底图像或外眼图像。

由于眼球的构造很精巧，与传统相机类似。眼底就好比是照相机的底片，包括视盘(视神经)、血管、视网膜组织及脉络膜等。另外，眼底是全身唯一能用肉眼直接、集中观察到动脉、静脉和毛细血管的部位，这些血管可以反映人体全身血液循环的动态以及健康状况，许多全身疾病都可以从眼底上反映出来，比如眼底出血是严重的糖尿病并发症，高血压、冠心病以及肾病等也都会在眼底留下“蛛丝马迹”。使用眼底图像可以用于对眼科疾病诊断分级、对病变点和重要的生物标记进行分割等等，可以对应深度学习中的分类、分割、检测、合成等多个任务。本实施例的眼底图像可以是由单目相机捕获到的眼底的2D图像，也可以是由眼底镜检测眼睛所获取到的图像，还可以是通过其他方式采集到的其他类型图像，本发明实施例对此不作限定。

外眼图像可以是通过摄像头采集到的眼睛外部照片，与眼底图像能够反映出视盘(视神经)、血管、视网膜组织及脉络膜等不同，外眼图像主要包括眼球与眼眶、眼睑、泪器、结膜、角膜、巩膜、前房、虹膜、瞳孔、晶状体等部位。

在一个实施例中，多模态训练数据集可以包括眼底图像和外眼图像两种类型的眼部图像，这是为了让目标模型在训练中学习到更多的眼部特征，增强模型的泛化性和鲁棒性。

在本实施例的一个示例中，眼底镜检查照片模态数据集可以选择17个公开视网膜血管分割数据集(retinal vessel segmentation)，光学相干断层扫描OCT模态数据集可以选择6个公开的OCT分层分割数据集，核磁共振MRI眼部模态数据集可以选择由资深医师标注的眼窝肿瘤分割非公开数据集，眼科超声生物显微镜检查UBM模态数据集可以选择由资深医师标注的标记检测数据集，预先标记的眼部损伤可以包括巩膜骨刺、角凹槽、巩膜骨刺与角膜后切线的交点。

在本实施例中，由于训练数据量庞大，可以将多模态训练数据集中的所有眼部图像进行随机截取、并剪裁为预设尺寸大小的分辨率，本发明实施例对此不作限定。

在本实施例中，在将待标注的眼科医学图像数据集输入目标模型中，输出得到标注信息之前，需要先确定用于对多模态医学图像进行标注的目标模型，该目标模型的训练方法可以包括如下步骤：

S10、利用多模态训练数据集对多个初始编码模块进行对齐训练，得到目标编码模块。

其中，初始编码模块为利用多模态训练数据集中单一数据模态的眼部图像数据集训练得到的编码模块。

在一种实现方式中，S10可以包括如下步骤：

S101、以多模态训练数据集中的任一一种数据模态的眼部图像数据集作为训练样本，预训练一个初始编码模块，直到满足预设的编码终止条件则确定初始编码模块预训练完成。

其中，多模态训练数据集中的任一一种数据模态的眼部图像数据集为眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集中的任一一种。

预设的编码终止条件可以为训练迭代次数的阈值，也可以为计算得到的损失值小于预设损失阈值，本实施例对此不做限定。

在一个示例中，S101可以包括如下具体步骤：

S1011、确定初始编码模块包括初始网络参数和网络结构均相同的教师网络和学生网络。

S1012、利用多模态训练数据集中的任一一种数据模态的眼部图像数据集对教师网络和学生网络进行并行训练，直到满足预设的编码终止条件则确定初始编码模块预训练完成；其中，教师网络在并行训练过程中为学生网络的训练提供监督信号。

在该示例中，用于对教师网络和学生网络进行并行训练的任一一种数据模态的眼部图像数据集可以为经过数据预处理后的眼部图像数据集，该经过数据预处理后的眼部图像数据集包括：第一类增强眼部图像和第一类原始眼部图像配对后形成的第一配对图像对，以及，第二类增强眼部图像和第二类原始眼部图像配对后形成的第二配对图像对。其中，第一类原始眼部图像为第一类增强眼部图像在当前所选数据模态的眼部图像数据集中未被进行数据增强处理时所对应的眼部图像；第二类原始眼部图像为第二类增强眼部图像在当前所选数据模态的眼部图像数据集中未被进行数据增强处理时所对应的眼部图像；第一类增强眼部图像和第二类增强眼部图像为经过数据增强处理后的当前所选数据模态的眼部图像数据集中的眼部图像。需要说明的是，本实施例中所述的数据增强处理可以包括但不限于颜色抖动(color jittering)、随机高斯模糊(Gaussian blur)、随机灰度化(grayscale)、随机曝光(solarization)、随机量化操作(randomized solarization)等数据增强处理技术。

在该示例的一种具体实现方式中，S1012可以包括如下步骤：

S1、以第一配对图像对中的第一类原始眼部图像和第二配对图像对中的第二类原始眼部图像作为训练的样本，训练教师网络。

S2、以第一配对图像对中的第一类增强眼部图像和第二配对图像对中的第二类增强眼部图像进行随机掩膜后作为训练的样本、教师网络的输出结果作为学生网络的预期输出值，训练学生网络。

其中，在教师网络与学生网络并行训练的过程中，教师网络将接收到的每一批次输入数据中的第一类原始眼部图像和第二类原始眼部图像所对应输出的第一输出结果传递给当前并行训练中的学生网络；第一输出结果作为学生网络在接收到同一批次输入数据中的第一类增强眼部图像和第二类增强眼部图像所对应输出的第二输出结果的预期输出值，利用预期输出值跟第二输出结果之间的损失值反向传播更新学生网络的网络参数；每一批次输入数据为第一训练数据集中的部分数据，包括第一配对图像对和第二配对图像对；学生网络将每轮训练迭代时期结束时所更新的网络参数通过指数移动平均的方式迁移到教师网络中，以更新教师网络的网络参数。

S12023、当教师网络与学生网络均满足预设的编码终止条件时，则确定在最后一轮训练迭代时期结束时、通过指数移动平均的方式接收学生网络在该最后一轮训练迭代时期所更新的网络参数的教师网络，作为预训练完成的初始编码模块。

其中，指数移动平均(Exponential Moving Average)也叫权重移动平均(Weighted Moving Average)，是一种给予近期数据更高权重的平均方法，采用指数移动平均的方式将学生网络的网络参数过渡到教师网络上，可以使得最后一轮训练迭代时期更新有学生网络的网络参数的教师模型作为最终预训练完成的编码模块更加的鲁棒。

在一个示例中，针对上述预训练过程，可以采用Cross Entropy Loss作为损失函数和1e-3的学习率，并以AdamW作为优化器。

S102、确定待训练的特征融合模型包括四个预训练完成的初始编码模块和级联在四个预训练完成的初始编码模块上的多层感知器。

其中，多层感知器的网络参数在特征融合模型的训练过程中是固定的，四个预训练完成的初始编码模块的网络参数在特征融合模型的训练过程中是跟随训练迭代次数同步更新的。

S103、通过将四个预训练完成的初始编码模块分别对应每一种数据模态的眼部图像数据集生成的特征向量以余弦相似度进行对齐的方式，利用多模态训练数据集训练特征融合模型，直到满足预设的融合终止条件则确定特征融合模型训练完成。

在一个示例中，四个预训练完成的初始编码模块分别为：对应眼底镜检查照片模态数据集进行特征编码的第一初始编码模块，对应光学相干断层扫描OCT模态数据集进行特征编码的第二初始编码模块，对应核磁共振MRI眼部模态数据集进行特征编码的第三初始编码模块，以及对应眼科超声生物显微镜检查UBM模态数据集进行特征编码的第四初始编码模块；S103可以包括如下具体步骤：

S1031、将多模态训练数据集中的眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集分别输入第一初始编码模块、第二初始编码模块、第三初始编码模块以及第四初始编码模块中，分别输出得到第一初始特征向量、第二初始特征向量、第三初始特征向量以及第四初始特征向量。

S1032、将第一初始特征向量、第二初始特征向量、第三初始特征向量以及第四初始特征向量输入特征融合模型中的多层感知器中，得到第一预测特征向量、第二预测特征向量、第三预测特征向量以及第四预测特征向量。

其中，多层感知器级联在第一初始编码模块、第二初始编码模块、第三初始编码模块以及第四初始编码模块上，用于通过固定的网络参数将第一初始特征向量、第二初始特征向量、第三初始特征向量以及第四初始特征向量线性投影为固定大小的第一预测特征向量、第二预测特征向量、第三预测特征向量以及第四预测特征向量。

S1033、利用预设的损失函数计算第一预测特征向量、第二预测特征向量、第三预测特征向量以及第四预测特征向量两两向量之间的余弦相似度损失值。

S1034、根据余弦相似度损失值更新特征融合模型中四个初始编码模块中的网络参数，直到满足预设的融合终止条件则确定特征融合模型训练完成。

具体实现中，预设的融合终止条件包括第一融合终止条件和第二融合终止条件；

当确认余弦相似度损失值是由来自同一用户样本的眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集计算得到的时，则确认在特征融合模型的反向传播过程中利用余弦相似度损失值的梯度变化值向数值减小的方向更新四个初始编码模块中的网络参数，直到满足第一融合终止条件；

当确认余弦相似度损失值是由来自不同用户样本的眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集计算得到的时，则确认在特征融合模型的反向传播过程中利用余弦相似度损失值的梯度变化值向数值增大的方向更新四个初始编码模块中的网络参数，直到满足第二融合终止条件。

需要说明的是，本实施例的特征融合模型中，将之前预训练好的四个对应不同数据模态的初始编码模块级联了多层感知器(MLP)作为线性投影头，可以通过固定网络参数的线性投影头以获得固定大小的特征向量，并利用用于计算余弦相似度损失值的损失函数约束不同初始编码模块生成的特征向量彼此之间的距离，可以让每个初始编码模块学习到不同数据模态的眼部图像之间的关联。

在一个示例中，可以选择InfoNCE Loss作为预设的损失函数，用以计算余弦相似度损失值。可以通过最小化InfoNCE Loss来约束余弦相似度损失值的计算过程，但是其计算目标不是一味地提高余弦相似度。

在本实施例中，当确定需要根据来自不同用户样本的眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集计算余弦相似度损失值时，期望的余弦相似度要减少，即计算得到的第一预测特征向量、第二预测特征向量、第三预测特征向量以及第四预测特征向量两两向量之间的余弦相似度损失值在训练特征融合模型的反向传播优化过程中，应当使其彼此间的距离变得更长。当确定需要根据来自同一用户样本的眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集计算余弦相似度损失值时，期望的余弦相似度要增大，即计算得到的第一预测特征向量、第二预测特征向量、第三预测特征向量以及第四预测特征向量两两向量之间的余弦相似度损失值在训练特征融合模型的反向传播优化过程中，应当使其彼此间的距离变得更短。

根据余弦相似度损失值更新特征融合模型中四个初始编码模块中的网络参数的优化目标是约束这四个对应不同数据模态的初始编码模块的输出越来越相似，则最后可以选择任一一个数据模态对应的初始编码模块作为最终的目标编码模块。

S104、选择训练完成的特征融合模型中的任一一个初始编码模块作为目标编码模块。

S20、确定待训练的初始模型包括目标编码模块和级联在目标编码模块上的四个解码模块；其中，每个解码模块用于对多模态训练数据集中单一数据模态的眼部图像数据集经过目标编码模块进行特征编码后输出的眼部编码特征进行解码。

S30、在保证目标编码模块中的网络参数不变的情况下，以多模态训练数据集为样本、与多模态训练数据集中每一种数据模态对应匹配的标签特征图作为预期值，并行训练初始模型中的四个解码模块。

其中，四个解码模块在训练过程中用于针对每一种数据模态对应匹配的标签特征图预测得到对应该数据模态的眼部图像数据集的眼部病变特征标记。具体的，四个解码模块分别对应眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集经过目标编码模块进行特征编码后输出的眼部编码特征进行解码；眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集这四种不同数据模态的眼部图像数据集各自匹配有标签特征图；具体的，眼底镜检查照片模态数据集对应匹配有第一标签特征图，光学相干断层扫描OCT模态数据集对应匹配有第二标签特征图，核磁共振MRI眼部模态数据集对应匹配有第三标签特征图，眼科超声生物显微镜检查UBM模态数据集对应匹配有第四标签特征图；本实施例中的标签特征图用于作为解码模块在训练过程中的预期值(参考真值)，用于参与训练过程中损失值的计算。

在一种实现方式中，S30可以包括如下步骤：

S301、将多模态训练数据集输入到初始模型中进行前向传播，得到每一种数据模态的眼部图像数据集的眼部病变特征预测标记。

S302、针对每一种数据模态的眼部图像数据集，计算该数据模态的眼部病变特征预测标记与该数据模态对应匹配的标签特征图之间的损失值。

S303、针对每一种数据模态的损失值，将损失值输入至四个解码模块中对应的解码模块进行反向传播，在反向传播过程中利用损失值的梯度变化值更新该解码模块中的网络参数，直到满足预设的解码终止条件则确定该解码模块训练完成。

其中，预设的解码终止条件可以为训练迭代次数的阈值，也可以为计算得到的损失值小于预设损失阈值，本实施例对此不做限定。

S40、当初始模型中的四个解码模块训练完成时，则确定由训练完成的四个解码模块和目标编码模块级联构成的初始模型为用于对多模态医学图像进行标注的目标模型。

需要说明的是，在本实施例中，待训练的初始模型架构为编码-解码架构，包括编码模块和解码模块，该编码模块的数量可以仅为一个，即用一个编码模块对应处理不同数据模态的眼部图像，而解码模块的数量需要与对应处理的眼部图像的数据模态的数量保持一致，例如当眼部图像数据集中眼部图像的数据模态有4种，则需要对应训练4个解码模块。

本申请实施例通过获取待标注的眼科医学图像数据集；眼科医学图像数据集包括多种数据模态的眼科医学图像；将眼科医学图像数据集输入目标模型中，输出得到标注信息；标注信息包括眼科医学图像数据集中每一种数据模态的眼科医学图像的眼部病变特征标记；其中，目标模型基于多模态训练数据集训练得到，多模态训练数据集包括多种数据模态的眼部图像数据集，具体包括眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集；目标模型包括一个目标编码模块和级联在该目标编码模块上的四个解码模块，目标编码模块在训练过程中用于针对眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集进行特征编码；四个解码模块在训练过程中用于分别对应眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集经过目标编码模块进行特征编码后输出的眼部编码特征进行解码，四个解码模块在训练过程中分别以眼底镜检查照片模态数据集对应匹配的第一标签特征图、光学相干断层扫描OCT模态数据集对应匹配的第二标签特征图、核磁共振MRI眼部模态数据集对应匹配的第三标签特征图以及眼科超声生物显微镜检查UBM模态数据集对应匹配的第四标签特征图作为预期值进行并行训练；第一标签特征图、第二标签特征图、第三标签特征图以及第四标签特征图均标记有对应数据模态的眼部病变特征。该针对多模态医学图像的标注方法能够解决现有技术中针对眼科影像的人工智能工具局限于单个数据模态、且只能标记单个病变类型的问题；进一步的，由于目标模型是基于多模态训练数据集训练得到的，多模态训练数据集包括多种数据模态的眼部图像数据集，具体包括了常见眼科影像数据中的眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集；使得该目标模型在训练过程中已经习得常见眼科影像数据中各种数据模态下的眼部图像中的眼部特征，即该目标模型中的目标编码模块可以针对多种数据模态的眼部图像进行特征编码，并将编码后的特征传递给具备级联关系的解码模块进行解码处理；再者，四个解码模块是对应上述四种数据模态进行特征解码训练的，且四个解码模块在训练过程中分别以眼底镜检查照片模态数据集对应匹配的第一标签特征图、光学相干断层扫描OCT模态数据集对应匹配的第二标签特征图、核磁共振MRI眼部模态数据集对应匹配的第三标签特征图以及眼科超声生物显微镜检查UBM模态数据集对应匹配的第四标签特征图作为预期值进行并行训练，使得四个解码模块在各自的训练中学习到了各个对应数据模态的眼部特征与标签特征图之间的关联，且第一标签特征图、第二标签特征图、第三标签特征图以及第四标签特征图均标记有对应数据模态的眼部病变特征，故各个解码模块在训练中亦能够学习到不同数据模态的眼部图像所对应匹配的眼部病变特征，使得训练完成后的解码模块可以对经过目标编码模块编码不同数据模态的眼部图像中的眼部编码特征回归预测出针对不同数据模态的眼部图像的眼部病变特征。因此，当对该目标模型输入待标注的眼科医学图像数据集时，该目标模型可以输出得到包括眼科医学图像数据集中每一种数据模态的眼科医学图像的眼部病变特征标记的标注信息。该目标模型能够适用于对多模态、多病变类型的眼科影像进行标注和分割的应用场景，可以辅助医师进行眼病的诊断，作为医师日常工作学习中的可靠助手，对于缺少相关临床经验的年轻医师和基层医师，该目标模型可以对多种眼部病变特征标记分割后，供其对比自身诊断积累经验，也能避免因经验欠缺未识别病变图像而导致的误诊漏诊。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例二

图2为本发明实施例二提供的一种针对多模态医学图像的标注装置的结构示意图，具体可以包括如下模块：

数据获取模块210，用于获取待标注的眼科医学图像数据集；所述眼科医学图像数据集包括多种数据模态的眼科医学图像；

标注模块220，用于将所述眼科医学图像数据集输入目标模型中，输出得到标注信息；所述标注信息包括所述眼科医学图像数据集中每一种数据模态的眼科医学图像的眼部病变特征标记；

在本发明的一个实施例中，在所述将所述眼科医学图像数据集输入目标模型中，输出得到标注信息之前，所述标注装置还包括目标模型训练模块，该目标模型训练模块可以包括：

子模块，用于利用所述多模态训练数据集对多个初始编码模块进行对齐训练，得到目标编码模块；其中，所述初始编码模块为利用所述多模态训练数据集中单一数据模态的眼部图像数据集训练得到的编码模块；

解码子模块，用于确定待训练的初始模型包括目标编码模块和级联在目标编码模块上的四个解码模块；其中，每个所述解码模块用于对所述多模态训练数据集中单一数据模态的眼部图像数据集经过所述目标编码模块进行特征编码后输出的眼部编码特征进行解码；

解码子模块，用于在保证所述目标编码模块中的网络参数不变的情况下，以所述多模态训练数据集为样本、与所述多模态训练数据集中每一种数据模态对应匹配的标签特征图作为预期值，并行训练所述初始模型中的四个解码模块；其中，所述四个解码模块在训练过程中用于针对每一种数据模态对应匹配的标签特征图预测得到对应该数据模态的眼部图像数据集的眼部病变特征标记；

目标模型确定子模块，用于当所述初始模型中的四个解码模块训练完成时，则确定由训练完成的四个解码模块和目标编码模块级联构成的初始模型为用于对多模态医学图像进行标注的目标模型。

在本发明的一个实施例中，所述解码子模块包括：

初始编码模块训练单元，用于以所述多模态训练数据集中的任一一种数据模态的眼部图像数据集作为训练样本，预训练一个初始编码模块，直到满足预设的编码终止条件则确定所述初始编码模块预训练完成；其中，所述任一一种数据模态的眼部图像数据集为眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集中的任一一种；

特征融合模型确定单元，用于确定待训练的特征融合模型包括四个预训练完成的初始编码模块和级联在所述四个预训练完成的初始编码模块上的多层感知器；其中，所述多层感知器的网络参数在特征融合模型的训练过程中是固定的，所述四个预训练完成的初始编码模块的网络参数在特征融合模型的训练过程中是跟随训练迭代次数同步更新的；

特征融合模型训练单元，用于通过将四个预训练完成的初始编码模块分别对应每一种数据模态的眼部图像数据集生成的特征向量以余弦相似度进行对齐的方式，利用所述多模态训练数据集训练所述特征融合模型，直到满足预设的融合终止条件则确定所述特征融合模型训练完成；

目标编码模块确定单元，用于选择训练完成的所述特征融合模型中的任一一个初始编码模块作为目标编码模块。

在本发明的一个实施例中，所述初始编码模块训练单元包括：

初始编码模块确认子单元，用于确定初始编码模块包括初始网络参数和网络结构均相同的教师网络和学生网络；

初始编码模块训练子单元，用于利用所述多模态训练数据集中的任一一种数据模态的眼部图像数据集对所述教师网络和所述学生网络进行并行训练，直到满足预设的编码终止条件则确定所述初始编码模块预训练完成；其中，所述教师网络在并行训练过程中为所述学生网络的训练提供监督信号。

在本发明的一个实施例中，所述四个预训练完成的初始编码模块分别为：对应眼底镜检查照片模态数据集进行特征编码的第一初始编码模块，对应光学相干断层扫描OCT模态数据集进行特征编码的第二初始编码模块，对应核磁共振MRI眼部模态数据集进行特征编码的第三初始编码模块，以及对应眼科超声生物显微镜检查UBM模态数据集进行特征编码的第四初始编码模块；所述特征融合模型训练单元包括：

初始特征向量输出子单元，用于将所述多模态训练数据集中的眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集分别输入所述第一初始编码模块、所述第二初始编码模块、所述第三初始编码模块以及所述第四初始编码模块中，分别输出得到第一初始特征向量、第二初始特征向量、第三初始特征向量以及第四初始特征向量；

预测特征向量输出子单元，用于将所述第一初始特征向量、所述第二初始特征向量、所述第三初始特征向量以及所述第四初始特征向量输入所述特征融合模型中的多层感知器中，得到第一预测特征向量、第二预测特征向量、第三预测特征向量以及第四预测特征向量；其中，所述多层感知器级联在所述第一初始编码模块、所述第二初始编码模块、所述第三初始编码模块以及所述第四初始编码模块上，用于通过固定的网络参数将所述第一初始特征向量、所述第二初始特征向量、所述第三初始特征向量以及所述第四初始特征向量线性投影为固定大小的所述第一预测特征向量、所述第二预测特征向量、所述第三预测特征向量以及所述第四预测特征向量；

余弦相似度损失值计算子单元，用于利用预设的损失函数计算所述第一预测特征向量、所述第二预测特征向量、所述第三预测特征向量以及所述第四预测特征向量两两向量之间的余弦相似度损失值；

网络参数更新子单元，用于根据所述余弦相似度损失值更新所述特征融合模型中四个初始编码模块中的网络参数，直到满足预设的融合终止条件则确定所述特征融合模型训练完成。

在本发明的一个实施例中，所述预设的融合终止条件包括第一融合终止条件和第二融合终止条件；所述网络参数更新子单元包括：

第一更新执行子单元，用于当确认所述余弦相似度损失值是由来自同一用户样本的眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集计算得到的时，则确认在所述特征融合模型的反向传播过程中利用所述余弦相似度损失值的梯度变化值向数值减小的方向更新四个初始编码模块中的网络参数，直到满足所述第一融合终止条件；

第二更新执行子单元，用于当确认所述余弦相似度损失值是由来自不同用户样本的眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集计算得到的时，则确认在所述特征融合模型的反向传播过程中利用所述余弦相似度损失值的梯度变化值向数值增大的方向更新四个初始编码模块中的网络参数，直到满足所述第二融合终止条件。

在本发明的一个实施例中，所述解码子模块包括：

前向传播单元，用于将所述多模态训练数据集输入到所述初始模型中进行前向传播，得到每一种数据模态的眼部图像数据集的眼部病变特征预测标记；

损失值计算单元，用于针对每一种数据模态的眼部图像数据集，计算该数据模态的眼部病变特征预测标记与该数据模态对应匹配的标签特征图之间的损失值；

反向传播单元，用于针对每一种数据模态的损失值，将所述损失值输入至四个解码模块中对应的解码模块进行反向传播，在反向传播过程中利用所述损失值的梯度变化值更新该解码模块中的网络参数，直到满足预设的解码终止条件则确定该解码模块训练完成。

本发明实施例所提供的针对多模态医学图像的标注装置可执行本发明任意实施例所提供的针对多模态医学图像的标注方法，具备执行方法相应的功能模块和有益效果。

实施例三

图3为本发明实施例三提供的一种计算机设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图3显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明任意一个实施例所提供的针对多模态医学图像的标注方法。

实施例四

本发明实施例四还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述针对多模态医学图像的标注方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种针对多模态医学图像的标注方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述将所述眼科医学图像数据集输入目标模型中，输出得到标注信息之前，还包括：

利用所述多模态训练数据集对多个初始编码模块进行对齐训练，得到目标编码模块；其中，所述初始编码模块为利用所述多模态训练数据集中单一数据模态的眼部图像数据集训练得到的编码模块；

确定待训练的初始模型包括目标编码模块和级联在目标编码模块上的四个解码模块；其中，每个所述解码模块用于对所述多模态训练数据集中单一数据模态的眼部图像数据集经过所述目标编码模块进行特征编码后输出的眼部编码特征进行解码；

在保证所述目标编码模块中的网络参数不变的情况下，以所述多模态训练数据集为样本、与所述多模态训练数据集中每一种数据模态对应匹配的标签特征图作为预期值，并行训练所述初始模型中的四个解码模块；其中，所述四个解码模块在训练过程中用于针对每一种数据模态对应匹配的标签特征图预测得到对应该数据模态的眼部图像数据集的眼部病变特征标记；

当所述初始模型中的四个解码模块训练完成时，则确定由训练完成的四个解码模块和目标编码模块级联构成的初始模型为用于对多模态医学图像进行标注的目标模型。

3.根据权利要求2所述的方法，其特征在于，所述利用所述多模态训练数据集对多个初始编码模块进行对齐训练，得到目标编码模块，包括：

以所述多模态训练数据集中的任一一种数据模态的眼部图像数据集作为训练样本，预训练一个初始编码模块，直到满足预设的编码终止条件则确定所述初始编码模块预训练完成；其中，所述任一一种数据模态的眼部图像数据集为眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集中的任一一种；

确定待训练的特征融合模型包括四个预训练完成的初始编码模块和级联在所述四个预训练完成的初始编码模块上的多层感知器；其中，所述多层感知器的网络参数在特征融合模型的训练过程中是固定的，所述四个预训练完成的初始编码模块的网络参数在特征融合模型的训练过程中是跟随训练迭代次数同步更新的；

通过将四个预训练完成的初始编码模块分别对应每一种数据模态的眼部图像数据集生成的特征向量以余弦相似度进行对齐的方式，利用所述多模态训练数据集训练所述特征融合模型，直到满足预设的融合终止条件则确定所述特征融合模型训练完成；

选择训练完成的所述特征融合模型中的任一一个初始编码模块作为目标编码模块。

4.根据权利要求3所述的方法，其特征在于，所述以所述多模态训练数据集中的任一一种数据模态的眼部图像数据集作为训练样本，预训练一个初始编码模块，直到满足预设的编码终止条件则确定所述初始编码模块预训练完成，包括：

确定初始编码模块包括初始网络参数和网络结构均相同的教师网络和学生网络；

利用所述多模态训练数据集中的任一一种数据模态的眼部图像数据集对所述教师网络和所述学生网络进行并行训练，直到满足预设的编码终止条件则确定所述初始编码模块预训练完成；其中，所述教师网络在并行训练过程中为所述学生网络的训练提供监督信号。

5.根据权利要求3所述的方法，其特征在于，所述四个预训练完成的初始编码模块分别为：对应眼底镜检查照片模态数据集进行特征编码的第一初始编码模块，对应光学相干断层扫描OCT模态数据集进行特征编码的第二初始编码模块，对应核磁共振MRI眼部模态数据集进行特征编码的第三初始编码模块，以及对应眼科超声生物显微镜检查UBM模态数据集进行特征编码的第四初始编码模块；

所述通过将四个预训练完成的初始编码模块分别对应每一种数据模态的眼部图像数据集生成的特征向量以余弦相似度进行对齐的方式，利用所述多模态训练数据集训练所述特征融合模型，直到满足预设的融合终止条件则确定所述特征融合模型训练完成，包括：

将所述多模态训练数据集中的眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集分别输入所述第一初始编码模块、所述第二初始编码模块、所述第三初始编码模块以及所述第四初始编码模块中，分别输出得到第一初始特征向量、第二初始特征向量、第三初始特征向量以及第四初始特征向量；

将所述第一初始特征向量、所述第二初始特征向量、所述第三初始特征向量以及所述第四初始特征向量输入所述特征融合模型中的多层感知器中，得到第一预测特征向量、第二预测特征向量、第三预测特征向量以及第四预测特征向量；其中，所述多层感知器级联在所述第一初始编码模块、所述第二初始编码模块、所述第三初始编码模块以及所述第四初始编码模块上，用于通过固定的网络参数将所述第一初始特征向量、所述第二初始特征向量、所述第三初始特征向量以及所述第四初始特征向量线性投影为固定大小的所述第一预测特征向量、所述第二预测特征向量、所述第三预测特征向量以及所述第四预测特征向量；

利用预设的损失函数计算所述第一预测特征向量、所述第二预测特征向量、所述第三预测特征向量以及所述第四预测特征向量两两向量之间的余弦相似度损失值；

根据所述余弦相似度损失值更新所述特征融合模型中四个初始编码模块中的网络参数，直到满足预设的融合终止条件则确定所述特征融合模型训练完成。

6.根据权利要求5所述的方法，其特征在于，所述预设的融合终止条件包括第一融合终止条件和第二融合终止条件；

所述根据所述余弦相似度损失值更新所述特征融合模型中四个初始编码模块中的网络参数，直到满足预设的融合终止条件则确定所述特征融合模型训练完成，包括：

当确认所述余弦相似度损失值是由来自同一用户样本的眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集计算得到的时，则确认在所述特征融合模型的反向传播过程中利用所述余弦相似度损失值的梯度变化值向数值减小的方向更新四个初始编码模块中的网络参数，直到满足所述第一融合终止条件；

当确认所述余弦相似度损失值是由来自不同用户样本的眼底镜检查照片模态数据集、光学相干断层扫描OCT模态数据集、核磁共振MRI眼部模态数据集以及眼科超声生物显微镜检查UBM模态数据集计算得到的时，则确认在所述特征融合模型的反向传播过程中利用所述余弦相似度损失值的梯度变化值向数值增大的方向更新四个初始编码模块中的网络参数，直到满足所述第二融合终止条件。

7.根据权利要求2所述的方法，其特征在于，所述在保证所述目标编码模块中的网络参数不变的情况下，以所述多模态训练数据集为样本、与所述多模态训练数据集中每一种数据模态对应匹配的标签特征图作为预期值，并行训练所述初始模型中的四个解码模块，包括：

将所述多模态训练数据集输入到所述初始模型中进行前向传播，得到每一种数据模态的眼部图像数据集的眼部病变特征预测标记；

针对每一种数据模态的眼部图像数据集，计算该数据模态的眼部病变特征预测标记与该数据模态对应匹配的标签特征图之间的损失值；

针对每一种数据模态的损失值，将所述损失值输入至四个解码模块中对应的解码模块进行反向传播，在反向传播过程中利用所述损失值的梯度变化值更新该解码模块中的网络参数，直到满足预设的解码终止条件则确定该解码模块训练完成。

8.一种针对多模态医学图像的标注装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的针对多模态医学图像的标注方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的针对多模态医学图像的标注方法。