CN116563572A

CN116563572A - 一种推理模型训练方法及装置

Info

Publication number: CN116563572A
Application number: CN202210095035.2A
Authority: CN
Inventors: 陶建军; 谢凌曦; 乔楠; 张雷
Original assignee: Huawei Cloud Computing Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2023-08-08
Also published as: WO2023142532A1

Abstract

本申请实施例涉及一种推理模型训练方法，方法可以包括：根据已标注病理图片训练得到推理模型。然后，可以根据未标注病理图片、第一病理文本以及已标注病理图片，更新推理模型。其中，推理模型用于对输入的待检测病理图片进行推理，得到待检测病理图片对应的病理结果。第一病理文本为未标注病理图片相关联的病理文本。本申请通过结合未标注病理图片、第一病理文本和已标注病理图片对推理模型进行更新，使得模型融入了更多领域经验知识，从而大大提升了推理模型对病理图片的预测准确率。

Description

一种推理模型训练方法及装置

技术领域

本申请涉及电子技术领域，尤其涉及一种基于半监督学习(semi-supervisedlearning，SSL)的推理模型训练方法及装置。

背景技术

随着社会的不断发展，各行业内对于人工智能(artificial intelligence，AI)的运用逐渐普及。人们可以通过构建AI模型以实现不同领域的相应任务。目前，在图像识别任务中通常可以采用AI模型实现图像的分类识别，或者在图像中准确识别出某个物体，如可以将某些物体框出。

对于目前在医学领域，以往的传统手段通常需要医生结合自身在该领域的业务知识以及长期积累的经验，对医学图像进行专业判别。例如确定出医学图像中是否存在某些疾病，或者确定出患处的严重程度。但是，传统方式需要医生针对每个图片进行单独分析，确定出病灶位置以及患处严重程度，导致非常的费时费力。因此，在一些方案中，采用结合AI模型进行辅助识别，如通过图像中的颜色、色调、表面构型、边界、血管形态等方面进行综合评估。然后再对检测出的可疑区域进行进一步医学检测，以确定是否真的存在疾病。

然而，目前的方案在进行AI模型构建时，往往不具备大量的训练数据。在AI模型的训练阶段，需要采用专业医生进行精细标注的图像进行训练，即带标注的图像进行监督训练。然而，专业医生进行精细标注的效率是非常有限，经验丰富的医生本身也属于稀有资源。因此，通过专业医生进行精细标注的训练数据通常非常少，这也导致训练后的AI模型准确率不高。

发明内容

本申请实施例提供了一种推理模型训练方法，根据已标注病理图片训练出推理模型后，可以结合未标注病理图片、相关联的病理文本以及已标注病理图片，一起对推理模型进行更新。从而极大提高推理模型对病理图片中病理类型的预测准确率。

第一方面，提供了一种推理模型训练方法，方法可以包括：根据已标注病理图片训练得到推理模型。然后，可以根据未标注病理图片、第一病理文本以及已标注病理图片，更新推理模型。其中，推理模型用于对输入的待检测病理图片进行推理，得到待检测病理图片对应的病理结果。第一病理文本为未标注病理图片相关联的病理文本。本申请通过结合未标注病理图片、第一病理文本和已标注病理图片对推理模型进行更新，使得模型融入了更多历史病例中的经验知识，从而大大提升了推理模型对病理图片的预测准确率。

在一个可能的实施方式中，推理模型可以包括分割模型和分类模型。更新推理模型可以包括：更新分类模型。

在一个可能的实施方式中，更新推理模型，可以包括：将未标注病理图片和第一病理文本输入至预先训练好的标注模型，从而确定出未标注病理图片对应的伪标签。然后，可以根据伪标签和第一预测结果，确定第一损失。其中，第一预测结果为未标注病理图片输入推理模型得到的预测结果。之后，可以根据已标注病理图片的标注标签和第二预测结果，确定第二损失。其中，第二预测结果为已标注病理图片输入推理模型得到的预测结果。再根据第一损失和第二损失更新推理模型。本申请通过结合未标注的病理图片以及已标注的病理图片进行半监督学习更新推理模型，可以使得推理模型得到更好的收敛，从而提升预测准确率。

在一个可能的实施方式中，确定未标注病理图片对应的伪标签，可以包括：提取未标注病理图片的图像特征向量。以及，提取第一病理文本的文本特征向量。然后，可以结合图像特征向量和文本特征向量，确定未标注病理图片对应的伪标签。本申请可以结合图像的特征信息和文本特征信息，通过多模态信息融合的方式确定出未标注病理图片对应的伪标签，使得该伪标签的类别可以更加准确的对应未标注病理图片，以便后续可以更好的对推理模型进行优化更新。

在一个可能的实施方式中，文本特征向量可以包括病变区域位置特征向量、病变级别特征向量和病变性状特征向量中的一种或多种。

在一个可能的实施方式中，确定第一损失还可以包括：将已标注病理图片和第二病理文本输入至预先训练好的标注模型，确定已标注病理图片对应的伪标签。其中，第二病理文本为已标注病理图片相关联的病理文本。之后，可以根据已标注病理图片对应的伪标签和第二预测结果，确定第一损失。本申请在通过未标注图片确定第一损失的时候，还可以融入部分已标注图片，以避免伪标签过于离散，从而得到更好的第一损失，并使得推理模型得到更好的收敛。

在一个可能的实施方式中，根据第一损失和第二损失更新推理模型，可以包括：将第一损失和第二损失按照预设权重进行累加，确定第三损失。然后，根据第三损失更新推理模型。本申请采用半监督学习的方式更新推理模型，通过赋予不同权重的方式融合通过未标注图片得到的第一损失以及通过已标注图片得到的第二损失。以便更好的对推理模型进行更新，保障更新后的推理模型可以大大提升对病理图片的预测准确率。

在一个可能的实施方式中，预先训练好的标注模型经过预训练得到，预训练过程可以包括：将已标注病理图片和第二病理文本输入至初始模型中，确定已标注病理图片的训练标签。之后，根据训练标签和标注标签，确定第四损失。然后，根据第四损失对初始模型进行更新，以得到标注模型。

在一个可能的实施方式中，方法还包括：当获取到待检测病理图片时，通过更新后的推理模型进行预测，得到待检测病理图片对应的病理结果。然后，可以将待检测病理图片以及待检测病理图片对应的病理结果进行输出。之后，可以接收待检测病理图片相关联的病理文本。再将待检测病理图片、待检测病理图片相关联的病理文本作为新的未标注病理图片、新的第一病理文本进行存储。本申请还可以接收到待检测病理图片相关联的真实的病理文本作为新的未标注数据进行存储，从而不断扩充未标注数据的数据量，以便后续可以对推理模型进行更好的更新。

第二方面，提供了一种推理模型训练装置，装置包括：训练模块，用于根据已标注病理图片训练得到推理模型；更新模块，用于根据未标注病理图片、第一病理文本，以及已标注病理图片，更新推理模型，其中，推理模型用于对输入的待检测病理图片进行推理，得到待检测病理图片对应的病理结果，第一病理文本为未标注病理图片相关联的病理文本。本申请通过结合未标注病理图片、第一病理文本和已标注病理图片对推理模型进行更新，使得模型融入了更多领域经验知识，从而大大提升了推理模型对病理图片的预测准确率。

在一个可能的实施方式中，推理模型包括分割模型和分类模型；更新模块还用于，更新分类模型。

在一个可能的实施方式中，更新模块还用于：将未标注病理图片和第一病理文本输入至预先训练好的标注模型，确定未标注病理图片对应的伪标签；根据伪标签和第一预测结果，确定第一损失，第一预测结果为未标注病理图片输入推理模型得到的预测结果；根据已标注病理图片的标注标签和第二预测结果，确定第二损失，第二预测结果为已标注病理图片输入推理模型得到的预测结果；根据第一损失和第二损失更新推理模型。本申请通过结合未标注的病理图片以及已标注的病理图片进行半监督学习更新推理模型，可以使得推理模型得到更好的收敛，从而提升预测准确率。

在一个可能的实施方式中，更新模块还用于：提取未标注病理图片的图像特征向量；提取第一病理文本的文本特征向量；结合图像特征向量和文本特征向量，确定未标注病理图片对应的伪标签。本申请可以结合图像的特征信息和文本特征信息，通过多模态信息融合的方式确定出未标注病理图片对应的伪标签，使得该伪标签的类别可以更加准确的对应未标注病理图片，以便后续可以更好的对推理模型进行优化更新。

在一个可能的实施方式中，文本特征向量包括病变区域位置特征向量、病变级别特征向量和病变性状特征向量中的一种或多种。

在一个可能的实施方式中，更新模块还用于：将已标注病理图片和第二病理文本输入至预先训练好的标注模型，确定已标注病理图片对应的伪标签，其中，第二病理文本为已标注病理图片相关联的病理文本；根据已标注病理图片对应的伪标签和第二预测结果，确定第一损失。本申请在通过未标注图片确定第一损失的时候，还可以融入部分已标注图片，以避免伪标签过于离散，从而得到更好的第一损失，并使得推理模型得到更好的收敛。

在一个可能的实施方式中，更新模块还用于：将第一损失和第二损失按照预设权重进行累加，确定第三损失；根据第三损失更新推理模型。本申请采用半监督学习的方式更新推理模型，通过赋予不同权重的方式融合通过未标注图片得到的第一损失以及通过已标注图片得到的第二损失。以便更好的对推理模型进行更新，保障更新后的推理模型可以大大提升对病理图片的预测准确率。

在一个可能的实施方式中，装置还包括：标注模型预训练模块，用于将已标注病理图片和第二病理文本输入至初始模型中，确定已标注病理图片的训练标签；根据训练标签和标注标签，确定第四损失；根据第四损失对初始模型进行更新，得到标注模型。

在一个可能的实施方式中，装置还包括：预测模块，用于当获取到待检测病理图片时，通过更新后的推理模型进行预测，得到待检测病理图片对应的病理结果；发送模块，用于将待检测病理图片以及待检测病理图片对应的病理结果进行输出；接收模块，用于接收待检测病理图片相关联的病理文本；存储模块，用于将待检测病理图片、待检测病理图片相关联的病理文本作为新的未标注病理图片、新的第一病理文本进行存储。本申请还可以接收到待检测病理图片相关联的真实的病理文本作为新的未标注数据进行存储，从而不断扩充未标注数据的数据量，以便后续可以对推理模型进行更好的更新。

第三方面，提供了一种推理模型训练设备，设备包括：处理器用于与存储器耦合，以及读取并执行存储在存储器中的指令；当处理器运行时执行指令，使得处理器用于根据已标注病理图片训练得到推理模型；根据未标注病理图片、第一病理文本，以及已标注病理图片，更新推理模型，其中，推理模型用于对输入的待检测病理图片进行推理，得到待检测病理图片对应的病理结果，第一病理文本为未标注病理图片相关联的病理文本。本申请通过结合未标注病理图片、第一病理文本和已标注病理图片对推理模型进行更新，使得模型融入了更多领域经验知识，从而大大提升了推理模型对病理图片的预测准确率。

在一个可能的实施方式中，推理模型包括分割模型和分类模型；处理器还用于，更新分类模型。

在一个可能的实施方式中，处理器还用于：将未标注病理图片和第一病理文本输入至预先训练好的标注模型，确定未标注病理图片对应的伪标签；根据伪标签和第一预测结果，确定第一损失，第一预测结果为未标注病理图片输入推理模型得到的预测结果；根据已标注病理图片的标注标签和第二预测结果，确定第二损失，第二预测结果为已标注病理图片输入推理模型得到的预测结果；根据第一损失和第二损失更新推理模型。本申请通过结合未标注的病理图片以及已标注的病理图片进行半监督学习更新推理模型，可以使得推理模型得到更好的收敛，从而提升预测准确率。

在一个可能的实施方式中，处理器还用于：提取未标注病理图片的图像特征向量；提取第一病理文本的文本特征向量；结合图像特征向量和文本特征向量，确定未标注病理图片对应的伪标签。本申请可以结合图像的特征信息和文本特征信息，通过多模态信息融合的方式确定出未标注病理图片对应的伪标签，使得该伪标签的类别可以更加准确的对应未标注病理图片，以便后续可以更好的对推理模型进行优化更新。

在一个可能的实施方式中，处理器还用于：将已标注病理图片和第二病理文本输入至预先训练好的标注模型，确定已标注病理图片对应的伪标签，其中，第二病理文本为已标注病理图片相关联的病理文本；根据已标注病理图片对应的伪标签和第二预测结果，确定第一损失。本申请在通过未标注图片确定第一损失的时候，还可以融入部分已标注图片，以避免伪标签过于离散，从而得到更好的第一损失，并使得推理模型得到更好的收敛。

在一个可能的实施方式中，处理器还用于：将第一损失和第二损失按照预设权重进行累加，确定第三损失；根据第三损失更新推理模型。本申请采用半监督学习的方式更新推理模型，通过赋予不同权重的方式融合通过未标注图片得到的第一损失以及通过已标注图片得到的第二损失。以便更好的对推理模型进行更新，保障更新后的推理模型可以大大提升对病理图片的预测准确率。

在一个可能的实施方式中，处理器还用于：将已标注病理图片和第二病理文本输入至初始模型中，确定已标注病理图片的训练标签；根据训练标签和标注标签，确定第四损失；根据第四损失对初始模型进行更新，得到标注模型。

在一个可能的实施方式中，处理器还用于：当获取到待检测病理图片时，通过更新后的推理模型进行预测，得到待检测病理图片对应的病理结果；设备还包括：显示器，用于将待检测病理图片以及待检测病理图片对应的病理结果进行输出；接收器，用于接收待检测病理图片相关联的病理文本；存储器还用于，将待检测病理图片、待检测病理图片相关联的病理文本作为新的未标注病理图片、新的第一病理文本进行存储。本申请还可以接收到待检测病理图片相关联的真实的病理文本作为新的未标注数据进行存储，从而不断扩充未标注数据的数据量，以便后续可以对推理模型进行更好的更新。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在终端设备上运行时，使得终端设备执行如第一方面中的任意一项方法。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行第一方面中任意一项的方法。

第六方面，提供了一种计算机集群，计算机集群包括至少一台计算机，每台计算机包括处理器和存储器。至少一台计算机的处理器用于执行至少一台计算机的存储器中存储的指令，以使计算机集群执行第一方面任意一项的方法。

本申请公开了一种推理模型训练方法及装置，在根据已标注病理图片训练出推理模型后，可以通过结合未标注病理图片、相关联的病理文本以及已标注病理图片对推理模型采用半监督学习的方式进行更新。使得更新后的推理模型对病理图片中病理类型的预测准确率得到极大提升。

附图说明

图1为一种图像识别分类场景示意图；

图2为一种通用阴道镜图像识别AI模型的运行流程示意图；

图3为本申请实施例提供的一种推理模型训练系统示意图；

图4为本申请实施例提供的一种预训练推理模型示意图；

图5为本申请实施例提供的一种标注模型训练示意图；

图6为本申请实施例提供的一种半监督学习更新分类模型示意图；

图7为本申请实施例提供的一种方案对比示意图；

图8为本申请实施例提供的一种多模态数据迭代融合流程示意图；

图9为本申请实施例提供的一种推理模型训练方法流程图；

图10为本申请实施例提供的另一种推理模型训练方法流程图；

图11为本申请实施例提供的又一种推理模型训练方法流程图；

图12为本申请实施例提供的一种推理模型训练平台示意图；

图13为本申请实施例提供的一种推理模型训练装置示意图；

图14为本申请实施例提供的一种计算设备示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本申请主要应用于通过AI模型对病理图片进行识别分类的场景。如图1所示，假设图1示出了一个病理图片，目前传统的思路是医生结合自己的领域经验和业务知识对病理图片进行分析。以通过阴道镜进行宫颈癌(cervical cancer)筛查为例，目前医生主要通过肉眼观察阴道镜的实时图像，然后通过对图像的颜色、色调、表面构形、边界、血管形态等方面进行综合评估。之后可以涂抹3％的醋酸后再观察宫颈表面，并进行碘着色实验进行观察。在上述过程中，保存各个阶段的有意义的图像，最后再对医生判别的可疑病变区域进行采样活检，并送病理科进行金标准检查。可以理解的是，金标准是指当前临床医学界公认的诊断疾病的最可靠方法。使用金标准的目的就是准确区分受试对象是否为某病患者。较为常用的金标准例如可以包括：活检、手术发现、微生物培养、尸检、特殊检查、影像诊断以及长期随访的结果等等。

在当前的一些方案中，随着AI算法与医疗行业的深入融合，在阴道镜筛查的场景下，可以采用训练深度学习模型来自动识别出可疑病变区域。深度学习(deep learning，DL)是机器学习中一种基于对数据进行表征学习的算法。观测值(例如一幅图像)可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如，人脸识别或面部表情识别)。深度学习的好处是可以采用无监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。在训练时用到的训练数据，通常需要有资深经验的医生对阴道镜图像进行精细化的图片标注，以用于对模型中的相应区域进行分类。正如图1中示出了对图像进行的标注。可以看出，图1中深色区域为医生通过经验标记出的高病变区域(High-grade squamous intraepithelial lesion，HSIL)，图1中浅色区域为医生通过经验标记出的低病变区域(low-grade squamous intraepithelial lesion，LSIL)。在一些例子中，医生进行的标记还可以携带病变区域的坐标信息。例如包括该病变区域多个端点的坐标信息。

之后，可以基于资深医生标注过的阴道镜标注图片对通用AI模型进行训练，以便得到通用的阴道镜图像识别AI模型。图2则示出了一种通用的阴道镜图像识别AI模型的运行流程示意图。如图2所示出的，首先资深医生需要对未标注的阴道镜历史图片进行手动标注。例如，资深医生首选从未标注的阴道镜历史图片中选取质量较好的图片，并利用标注平台(或标注工具)进行手动标注。可以包括对可以病变区域的分割，并在分割后的基础上分别标注相应类别，如标记出HSIL和LSIL两个类别，又或者还包括其它病变。当然，在其它例子中，还可以根据分类用途的实际情况进行更为精细化的划分。此时得到了部分已标注的阴道镜图片。当然，可以理解的是，还可以包括与之相关联的病理文本。之后，采用部分的已标注的阴道镜图片对初始模型进行训练。在一些例子中，每个类别采用数百个已标注的阴道镜图片进行训练。在一些例子中，初始模型可以包括初始分割模型和初始分类模型。训练方式采用有监督方式进行训练。从而训练得到区域分割模型和病变分类模型。此时，可以将待检测病理图片输入至推理模型中进行预测推理，例如依次输入至区域分割模型进行区域分割，并将分割后的数据输入病变分类模型中进行预测推理，以得到各个病变区域预测的类别。可以理解的是，预测得到的类别数量与医生手动标注的类别相同。之后，可以对预测推理得到的可疑病变区域进行取样，并送检病理科完成对采样区域的化验分析。从而得到真实的病理分析文本，并将真实的病理分析文本作为病人病历的金标准。

在一个例子中，分割模型可以采用掩膜区域卷积神经网络(mask regionconvolutional neural networks，Mask R-CNN)实现。Mask R-CNN是一种流行的基于卷积网络的目标检测算法，相比之前版本的面向语义分割的深度学习网络，在准确率不下降的情况下，具有更快的速度，并且把端到端的概念引入到语义分割中。通过区分相应的可疑病变区域，从而实现区域分割。

但是，上述方案目前存在以下几类问题。首先，要保证阴道镜图像识别AI模型可以达到可使用的程度，需要大量的已标注图片。对于采用医生手动标注的方式，则会导致医生手动标注的工作量过大。正如表1所示出的，

表1

可以看出，目前阴道镜图像识别AI模型识别准确率仅能达到经验较浅医生的准确率，但仍然需要19个资深医生每天进行标注，且每个类别标注至少300例。若想要进一步提升阴道镜图像识别AI模型识别的准确率，例如想要达到经验深厚医生(即资深医生)的准确率，则医生标注的工作量将在现有每天19人的基础上呈指数增加。显然需要投入更大量的人力、财力。

其次，标注样本的质量依赖于资深医生的大量投入，但资深医生(也可以称为经验深厚医生)本身也是稀缺资源，同时每个资深医生的时间也是稀缺资源，即使标注少量样本，也需要大量的时间。

然而，目前医学中存在大量已归档的历史文本数据，即诊断病理数据，又称金标准等。此类数据并未得到充分的挖掘和利用。已归档的历史文本数据中病理文本与病理图片可以通过病人的唯一身份标识(identity，ID)进行关联。然而此类数据沉淀了大量资深医生在该领域的经验知识，如果没有充分利用，显然是对医疗资源的一种极大浪费。同时，图2所示的流程也并未形成有效的闭环，当对待检测病理图片经过预测分析后，对可疑病变区域送检并得到金标准后，金标准和对应的待检测病理图片并未重新作为训练数据融入到阴道镜图像识别AI模型的自我迭代和完善升级中。

因此，本申请提供了一种推理模型训练方法及设备，在根据已标注病理图片训练出推理模型后，结合未标注病理图片、相关联的病理文本以及已标注病理图片对推理模型采用半监督学习的方式进行更新。使得更新后的推理模型对病理图片中病理类型的预测准确率得到极大提升。

进一步的，可以采用更新后的推理模型对待检测病理图片进行预测，并在预测后进行送检得到的金标准，结合待检测病理图片和送检得到的金标准再融入到未标注图片及相关联的病理文本中，以便后续对推理模型进行新一轮更新，逐步提升推理模型对病理图片中病理类型的预测准确率。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行详细描述。

图3为本申请实施例提供的一种推理模型训练系统示意图。

如图3所示，本申请提供了一种推理模型训练系统架构，该推理模型训练系统可以应用于服务器上。可以理解的是，服务器可以与终端设备通过有线或无线的方式相连接，以便进行通信。例如发送或者接收数据。其中，无线方式可以包括2G/3G/4G/5G/6G等无线通信的解决方案，或是包括无线局域网(wireless local area networks，WLAN)、蓝牙(bluetooth，BT)、全球导航卫星系统(global navigation satellite system，GNSS)、调频(frequency modulation，FM)、近距离无线通信技术(near field communication，NFC)、紫蜂(zigbee)和红外技术(infrared，IR)等无线通信的解决方案。其中，WLAN例如可以是无线保真(wireless fidelity，Wi-Fi)网络。在一些例子中，终端设备可以包括但不限于手机、智能电视、智能音响、可穿戴设备、平板电脑、桌面型计算机、电脑一体机、手持计算机、笔记本电脑、服务器、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digitalassistant，PDA)、膝上型计算机(laptop)、移动电脑、增强现实(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备和/或人工智能(artificial intelligence，AI)设备等任意终端设备或便携式终端设备。

继续回到图3，该推理模型训练系统主要用于对推理模型310进行训练更新，以便更新后的推理模型310可以对待检测病理图片进行预测推理，预测出待检测病理图片中相应区域的类别。可以理解的是，更新后的推理模型310得到的预测结果其准确率更高。通常情况下推理模型310可以用于对病理图片进行预测推理，以预测推理出相应区域的类别，如HSIL、LSIL或其它病变分类等。在该推理模型训练系统中，首先可以采用已标注的病理图片对初始模型进行冷启动预训练，得到推理模型310。在一个例子中，推理模型310可以包括分割模型311和分类模型312。

可以理解的是，本申请以对宫颈癌阴道镜图片进行识别分类为例进行描述。宫颈癌是一种严重危害女性健康的恶性肿瘤，全世界每年估计有49万名女性被诊断为宫颈癌，每年约24万名女性死于宫颈癌。我国每年新发宫颈癌病例13.5万，约占全球发病数量的1/3。然而，宫颈癌变的发展过程漫长，可达5～10年之久，因此医生和患者有足够的时间去发现宫颈的癌前病变或早期原位癌(微浸润癌)。另外，超过90％的宫颈癌能通过每一至两年一次的阴道镜筛查来有效预防和处理，早期宫颈癌变的术后五年生存率可达99％以上。

阴道镜是一种内窥镜，可在强光源下用双目立体放大镜或电子监视器直接观察子宫颈和下生殖道上皮的病变。阴道镜可分为光学和电子两种，是确定子宫颈癌及癌前病变的重要辅助方法之一。当临床可疑或细胞学检查异常时往往建议进行阴道镜检查。阴道镜与人乳头瘤病毒(human papilloma virus，HPV)检测或细胞学合用可以减少假阴性的发生，并显著提高子宫颈癌的早诊率。阴道镜检查最大的优点是可，发现肉眼看不见的亚临床病变，并在可疑病变处定位活检，从而提高活检的阳性率和诊断的准确率。阴道镜检查的准确性通常受设备、检查者经验及技术水平等的影响。

其中，阴道镜活检(colposcopy histopathology)是在放大镜下检查官颈、阴道、外阴等部位有无可疑的病变，并酌情在可疑病变区域取样活检，为临床治疗提供组织学和病理学依据。

当然，对于其它领域的图像识别，本申请的方案仍然适用。

继续以医学领域中针对阴道镜图片进行识别为例进行描述。在采用有标注的病理图片对初始模型进行冷启动预训练的过程可以如图4所示出的。其中，冷启动表示在进行预训练时，采用初始模型进行训练，而非采用经过训练过的模型再次训练。在一个例子中，可以采用已标注的醋酸染图片先对初始分割模型进行有监督训练，以得到醋酸染分割模型401。可以理解的是，已标注的醋酸染图片预先经过资深医生进行过分割。之后，可以将分割后已标注的醋酸染图片对初始分类模型进行有监督训练，得到醋酸染分类模型402。可以理解的是，已经被分割后的已标注的醋酸染图片携带的标签用于表示该图片的分类，例如HSIL、LSIL或其它病变分类等。具体训练过程可以参考现有方式实现，本申请不做限定。

在一些例子中，在医学领域中对阴道镜图片进行识别时，通常可以包含两类图片，一类是醋酸染图片，另一类是碘染图片。因此，还可以针对已标注的碘染图片分别训练初始分割模型，以得到碘染分割模型403；以及，训练初始分类模型，以得到碘染分类模型404。

通过图4所示出的方式可以得到预训练好的推理模型310，即包含分割模型311和分类模型312。当然，其中分割模型311可以包括醋酸染分割模型401和碘染分割模型403；分类模型312可以包括醋酸染分类模型402和碘染分类模型404。此时的推理模型310可以针对不同的待检测病理图片，如对待检测醋酸染图片或待检测碘染图片进行分割预测，并确定出分割出的区域对应的类别，例如HSIL、LSIL或其它病变分类。在一些例子中，若待检测病理图片为待检测醋酸染图片，则可以采用醋酸染分割模型401和醋酸染分类模型402进行分割预测；同理，若待检测病理图片为待检测碘染图片，则可以采用碘染分割模型403和碘染分类模型404进行分割预测。然而，由于在进行冷启动预训练时，仅采用了经过资深医生标注过的已标注病理图片。但已标注病理图片数量较少，导致训练得到的推理模型310对待检测病理图片进行分割再分类后得到的预测结果准确率较低。

因此，本申请引入未标注病理图片对推理模型310中的分类模型312进行半监督学习更新，以使得更新后的分类模型312’可以对待检测病理图片的预测结果更加准确。同时可以引入未标注病理图片中大量的领域经验知识。因此，本申请提供了一种标注模型，在一些例子中也可以称为多模态融合辅助标注模型，可以对未标注病理图片进行辅助标注，从而方便后续更分类模型312。其中，辅助标注(auxiliary annotation)是利用计算机执行算法来辅助人工进行数据(图片/文本/语音等模态)的标注工作。

图5为本申请实施例提供的一种标注模型训练示意图。

如图5所示，示出了一种训练标注模型的过程。其中，标注模型320也可以称为多模态融合辅助标注模型，标注模型320可以包括：图像特征提取子模型510、文本特征提取子模型520、融合子模型530、线性层540和归一化层550。

可以看出，标注模型320主要用于从图像中提取相应图像特征，以及从病理文本中提取相应文本特征，再将两种特征相融合后以便最终确定出可能的类别，从而实现对病理图像及病理文本中类别的识别。模态(modality)是指事物发生或存在的方式，多模态是指两个或者两个以上的模态的各种形式的组合。对每一种信息的来源或者形式，都可以称为一种模态。目前研究领域中主要是对图像、文本、语音三种模态的处理。之所以要对多种模态进行融合，是因为不同模态的表现方式不一样，对同一事物的表征也会不一样。所以存在一些交叉(即信息冗余)、互补(可以理解为比单一特征更优秀)的现象，甚至模态间可能还存在多种不同的信息交互，如果能合理的处理多模态信息，就能得到丰富特征信息。因此，在本申请中将对病理图像和病理文本两种模态进行融合，从而实现多模态融合(multimodal fusion)。

在训练过程中，采用已标注病理图片对初始标注模型进行训练，从而得到训练完成的标注模型320。首先，可以将如图1所示出的已标注病理图片中标记出的区域进行提取，其中，被标记的区域可以称为掩膜(mask)区域，可简称mask，以得到mask区域图片。之后，将mask区域图片输入至图像特征提取子模型510中的扩充层511进行扩充。例如可以按照预先设定的方式将mask转换为一个边界框(bounding box)图像。在一个例子中，预先设定的方式可以是根据mask区域位于病理图片中四个方位的极值点确定出bounding box的四个端点坐标，例如根据图像的上下左右四个方位的极值点，从而可以选定出最小框出mask的bounding box，并得到该bounding box四个端点的坐标。通常bounding box是一个矩形框。可以理解的是，扩充层511的作用可以认为是将mask扩充为一个检测框，这样可以方便统一图像的特征维度。此时，bounding box包含了图像的所有视觉特征，例如图片的颜色、纹理等信息。同时还具有空间特征，即bounding box四个端点的坐标。之后，可以将该boundingbox分别输入感兴趣区域(region of interest，ROI)池化(pooling)层512和位置特征(location)层514。将bounding box输入ROI pooling层512的目的是进行感兴趣区域特征提取，再经过第一全连接层(fully connect)513将提取的感兴趣区域特征映射到某个维度。在一个例子中，bounding box经过ROI pooling层512后可以得到7*7大小的特征图，显然该特征图即上述感兴趣区域特征。当然具体特征图的大小可以根据实际情况进行任意调整，本申请不做限定。当然，在一些例子中，可能存在bounding box过小的情况，在此情况下经过ROI pooling层512时也可以进行适当的填充，例如补零，从而保证得到特定大小的特征图。之后，再将经过ROI pooling层512后得到的特征图输入第一全连接层513，以将特征图映射到某个维度，得到视觉特征向量。可以理解的是，视觉特征向量的维度与第一全连接层513中神经元的个数相关。

另一方面，bounding box还输入至location层514中提取坐标特征，例如将bounding box的坐标信息输入location层514后，再经过第二全连接层515得到空间特征向量。可以理解的是，本申请中为了后续计算方便，可以设定第一全连接层513和第二全连接层515中的神经元个数相同，以便提取得到的视觉特征向量和空间特征向量的维度相同。显然，维度的数量也与特征向量所含参数的数量相同。此时，视觉特征向量和空间特征向量可以统称为图像特征向量，可以认为是一种嵌入特征向量(embedding)。其中，视觉特征向量可以记为E_mask，空间特征向量可以记为E_location。E可以用于表示embedding。

由于标注模型320用于进行多模态融合，因此，还可以将已标注病理图片相关联的病理文本输入至标注模型320中的文本特征提取子模型520提取文本特征向量。在一个例子中，例如可以首先将已标注病理图片相关联的病理文本输入至文本特征提取子模型520中的命名实体识别(named entity recognition，NER)层521中识别出特定的名词。其中，命名实体识别是指识别文本中具有特定意义的实体，例如可以包括人名、地名、机构名、专有名词等。通常可以包括实体边界识别、确定实体类别(如人名、地名、机构名或其它等)。命名实体识别是信息提取、问答系统、句法分析、机器翻译、知识图谱等应用领域的重要基础工具。因此，假设病理文本为“宫颈6点：高级别鳞状上皮内病变”则通过NER层521可以分别识别出“6点”、“高级别”、“鳞状”、“病变”等。然后，NER层521将识别出的各个实体名词输入至自注意力变换网络的双向编码器表示法(bidirectional encoder representation fromtransformers，bert)层522中提取相应文本特征。例如针对每一个识别出的命名实体，均提取出对应的特征向量，例如可以记作E_6点，表示为“6点”对应的文本特征向量。当然，还可以包括E_高级别、E_鳞状、E_病变等特征向量。当然，E_6点、E_高级别、E_鳞状、E_病变可以统称为文本特征向量。在一个例子中，可以设置bert层522中相应参数，以保证输出的文本特征向量的维度与图像特征向量的维度相同。当然，具体的NER层521中的模型结构，以及bert层522中的模型结构可以参考现有的模型结构实现。具体模型中配置的相应参数根据实际情况进行任意调整，以满足需求，本申请不做限定。

可以理解的是，病理文本中可以包含病变区域的空间位置信息，例如上述例子中的“宫颈6点”。其记录方式以表盘指针为空间映射，并以文本方式体现了病变区域的位置。例如，以圆形时钟表盘为例，6点位置即指示时钟表盘中“6点钟”方向。该描述可以大致表述出病变区域的位置，由于病理文本与病理图片相互关联，因此该描述即指示了病理图片中相应mask位于病理图片的大致方位。当然，病理文本中还可以包含病变区域的类别信息，例如“高级别”。同时还可以包含病变区域的性状信息，如“鳞状”等。

此时，经过图像特征提取子模型510提取到图像特征向量，以及经过文本特征提取子模型520提取到文本特征向量后，可以将图像特征信息和文本特征向量一并输入至融合子模型530中。在一个例子中，融合子模型530可以包括多个特征变换(transformer)层531。例如可以包括12个transformer层。在一些例子中，transformer也可称为自注意力变换网络。在一个例子中，可以将具有相同维度的E_mask、E_location、E_6点、E_高级别、E_鳞状、E_病变等embedding向量一并输入至transformer层531中进行特征融合。当然，在一些例子中，可以经过多个transformer层进行特征融合，最终得到联合特征向量。可以理解的是，transformer层的具体模型结构可以参考现有模型结构，而对于每个transformer层模型的相应参数可以根据实际情况进行任意调整，本申请不再赘述。在一个例子中，经过融合子模型530进行特征融合后的联合特征向量可以分别记为T_mask、T_location、T_6点、T_高级别、T_鳞状、T_病变，其中，T用于表示为transformer。

之后，将经过融合子模型530融合特征后得到的联合特征向量经过线性层540以及归一化层550，以得到各个类别的概率。可以理解的是，线性层540的神经元个数与类别数量相关联，例如若仅包含HSIL、LSIL或其它病变分类三类，则线性层540中的神经元个数可以为3，当然具体数量以及分类数量可以根据实际情况进行调整，本申请不做限定。之后经过归一化层550后可以得到不同类别的概率。在一个例子中，可以将概率最高的类别作为类别结果。在模型训练过程中，可以根据该类别结果以及病理图片所携带的真实标签计算损失函数(loss)。在一个例子中，可以计算交叉熵损失函数(cross entropy loss)。并基于该交叉熵损失函数调整标注模型320中各个层中的参数。

在经过多个已标注病理图片及其相关联的病理文本对初始的标注模型训练后，可以得到训练完成的标注模型320。当执行图3所示出的图像识别过程中，则可以使用训练完成的标注模型320根据未标注病理图片以及关联的病理文本，对未标注病理图片中的相应病变区域辅助标记出伪标签。并利用带有伪标签的未标注病理图片对于分类模型312进行半监督学习更新。当然，在一些例子中，当辅助标记伪标签时，需要借助分割模型311将未标注病理图片进行分割，然后在针对每个分割后的图片标记相应的伪标签。显然，标注模型320可以利用上未标注病理图片以及相关联的病理文本，通过多模态融合的方式联合语义信息，从而辅助大量未标注病理图片标记伪标签。

可以理解的是，伪标签可以认为是一种知识表示(knowledge representation，KR)。在AI中，知识表示就是要把问题求解中所需要的对象、前提条件、算法等知识构造为计算机可处理的数据结构以及解释这种结构的某些过程。这种数据结构与解释过程的结合，将导致智能的行为。

具体更新过程如图6所示出的，为本申请实施例提供的一种半监督学习更新分类模型示意图。

可以看出，针对大量未标注病理图片首先经过分割模型311进行区域分割，得到第一分割图像集合。可以理解的是，第一分割图像集合中包含有多个未标注病理图像中分割出的图像。之后，结合第一分割图像集合，以及第一病理文本，通过图5训练好的标注模型320对第一分割图像集合中的每个分割图像进行辅助标注，即标记对应的伪标签。可以理解的是，伪标签表示通过标注模型预测出来的标签，非真实标签。之后，可以将已标记伪标签的第一分割图像集合通过分类模型312得到第一预测结果。显然，第一预测结果为分类模型312对已标记伪标签的第一分割图像集合中的数据进行预测得到的分类结果。然后，针对已标记伪标签的第一分割图像集合中的每个分割图像，根据对应的伪标签和分类模型312预测得到的第一预测结果，可以确定第一损失。在一个例子中，第一损失可以采用均方差(mean square error，MSE)损失函数计算得到。

对于已标注病理图片，由于预先经过资深医生进行分割标注，因此可以直接得到第二分割图像集合。其中，第二分割图像集合中包含有多个已标注病理图片中分割出的图像。之后，可以将第二分割图像集合输入分类模型312，得到第二预测结果。显然，第二预测结果为分类模型312对第二分割图像集合中的数据进行预测得到的分类结果。之后，针对第二分割图像集合中的每个分割图像，根据相应分割图像对应的标注标签和分类模型312预测得到的第二预测结果，确定第二损失。可以理解的是，由于已标注病理图片预先经过资深医生进行分割标注，因此每个分割图像均对应有标注标签。在一个例子中，第二损失可以采用交叉熵损失函数计算得到。

然后，可以根据第一损失和第二损失对分类模型312中的参数进行更新调整。在一个例子中，例如可以预先配置第一损失的权重以及第二损失的权重，然后将带有权重的第一损失和第二损失进行累加以确定第三损失。可以理解的是，为第一损失和第二损失配置权重是为了保证在进行累加时可以处于同一数量级上进行计算。当然，具体设置的权重数值可以根据实际情况进行调整。

在另一些例子中，由于对分类模型312进行半监督学习更新时，会采用一定量的数据进行计算，因此通常可以按照批(batch)进行处理。可以预先设置一批数据包含的数据量。然后，每批次计算时可以综合确定出损失值。例如，在计算第一损失时，从第一分割图像集合中选择一批次数据，并将该批次数据分别输入分类模型312中得到对应的第一预测结果。之后，该批次数据中的每条数据均可根据相应的伪标签、第一预测结果得到对应的第一损失。然后，可以按照预设方式计算该批次数据对应的第一损失，例如可以计算均值、中位数、累加值、平方和等任意等效的计算方式，本申请不做限定。同理，第二损失也可以按照上述方式通过第二分割图像集合中的某一批次数据计算得到。再根据第一损失和第二损失确定出第三损失，以便对分类模型312中的相应参数进行更新调整。

当然，在一些例子中，因为按照批次计算第一损失和第二损失，因此，为了避免个别未标注病理图片的伪标签过于偏离真实情况，因此可以采用锐化函数来减少伪标签分布的熵，从而剔除部分不利于更新标注模型312的数据。

在又一些例子中，为了更好的对分类模型312进行半监督学习更新，还可以对第一分割图像集合与第二分割图像集合进行混合。例如，将已标记伪标签的第一分割图像集合与第二分割图像集合进行混合，得到混合数据集w。在一些例子中，混合也可以称为洗牌(shuffle)。当然，对已标记伪标签的第一分割图像集合与第二分割图像集合进行shuffle，可以认为是充分且随机的混合。可以理解，具体shuffle的实现方式可以参考现有方式，本申请不再赘述。

在shuffle得到混合数据集w之后，可以从混合数据集w中选取任意k个数据，并与第二分割图像集合重新混合，得到第二数据集。以及，将混合数据集w中除选取出的k个数据以外其余的数据与已标记伪标签的第一分割图像集合重新混合，得到第一数据集。然后再分别采用第一数据集、第二数据集通过分类模型312，得到第一数据集中每条数据对应的第一预测结果，以及第二数据集中每条数据对应的第二预测结果。可以理解的是，shuffle的目的是为了在未标注病理图片中融入部分已标注病理图片，从而更好的帮助分类模型312在半监督学习时参数的拟合情况。第一数据集中虽然包含部分已标注病理图片，但此部分已标注病理图片仍然通过标注模型320确定相应的伪标签，并根据已标注病理图片经分类模型312确定的第一预测结果，共同计算得到相应的第一损失。

而对于第二数据集中也包含部分未标注病理图片，由于此部分未标注病理图片并不具有标签，因此在确定第二损失时，可以忽略此部分未标注病理图片。换句话说，就是计算第二损失时不考虑第二数据集中的未标注病理图片。

经过shuffle后得到的第一数据集和第二数据集，再经过分类模型312后并与相应的标注标签或伪标签计算得到第一损失和第二损失，可以更有利于分类模型312的更新，使得更新后的分类模型312结果更收敛，并极大提升分类模型312的预测准确率。

可以理解的是，在对分类模型312中参数进行更新过程，需要经过多次第三损失进行调整，使得分类模型312逐渐收敛。

在分类模型312通过半监督学习更新完成后，当新的待检测病理图片输入推理模型310时，可以先经过分割模型311对待检测病理图片进行区域分割，再将分割后的图片输入更新后的分类模型312中进行预测推理。此时，针对分割后的图片预测的分类结果(也可称为推理结果)，其准确率将大大提升。可以理解的是，该预测得到的推理结果可以认为是待检测病理图片对应的病理结果。当然，在一些例子中，医生可以根据推理结果(即待检测病理图片对应的病理结果)，将可疑病变区域进行取样并送检，从而得到对应区域的病理文本(或称病例分析文本、金标准等)。显然该对应区域的病理文本与待检测病理图片相关联。当然，在一些例子中，可以通过输出待检测病理图片和待检测病理图片对应的病理结果，以便医生根据实际情况确定是否取样送检，或者是针对哪些病变区域进行取样送检。之后，可以将待检测病理图片和相关联的病理文本作为新的未标注病理图片和新的第一病理文本进行保存。例如可以建立未标注病理数据库，该未标注病理数据库中存储有大量的未标注病理图片和相关联的病理文本(即第一病理文本)。该未标注病理数据库中每条数据对应了一条病例信息，包含未标注病理图片，以及相关联的病理文本。此过程可以不断丰富未标注病理数据库，从而更有利于后续对分类模型312的再次半监督学习更新。该过程也可以称为归档。

可以理解的是，对分类模型312的半监督学习更新可以按照预先设定的频率周期性执行。当然，也可以在未标注病理数据库中存入新的数据时直接更新，本申请不做限定。

在一些例子中，对于待检测病理图片，还可以根据医生的经验知识直接对可以病变区域进行采样送检，并在得到相关联的病理文本后，将待检测病理图片和相关联的病理文本作为新的未标注病理图片和新的第一病理文本进行保存。

本申请上述图3至图6所描述的方案，充分挖掘了海量历史归档的无标注内窥镜(即阴道镜)图片以及对应的文本格式病理诊断结果(即病理文本)，通过可以融合文本病理信息和无标注图片的多模态辅助标注模型，充分辅助标注数万例归档无标注内窥镜(即阴道镜)图片。然后基于半监督框架来迭代更新已有的分类模型，进而达到利用数万例标注图片来训练推理模型的效果，大大提升了推理模型对相应类别的识别准确率(或称预测准确率)和泛化能力。

本申请中采用了多模态数据融合迭代流程，包括归档历史数据迭代抽取、多模态融合模型训练、海量历史数据辅助标注、半监督学习更新分类模型、推理待检测新入组图片、待检测病理图片病理金标准分析及归档等闭环迭代的若干环节。相比现有方案中单向的训练过程，标注数据仅被单向使用一次，本申请的标注数据和未标注数据可以被批量迭代训练多次，达到模型最优收敛的效果。

图7为本申请实施例提供的一种方案对比示意图。

如图7所示出的，在针对医学领域阴道镜图片的识别方案中，方案1为最原始方案，完全通过医生所具有的临床经验进行判断，并对相应活检区域进行采样送检，以得到相应的病理结果。方案1流程较短，简单直接。严重依赖医生的临床经验和业务水平。例如资深医生的准确率大于85％，而新手医生或普通医生的准确率约为60％。仅能通过沉点固化医生的研读经验，以及加强业务培训。因此，在一些方案中，如方案2提供了可以根据医生标注的醋酸染病理图片/碘染病理图片训练推理模型。并基于该推理模型对待检测病理图片进行预测推理。然后，可以基于预测推理的结果进行区域采样并送检，以便得到相应的病理结果。方案2采用了AI模型固化医生的领域知识及经验，但是需要医生手动标注数据以进行推理模型的初始化训练。推理模型的准确率严重依赖训练样本的规模大小。然而大量的未标注数据未能充分利用。由于训练推理模型的数据过少，本申请提供了方案3，通过结合大量未标注病理图片及其相关联的病理文本，通过多模态融合的方式给未标注病理图片辅助标记伪标签，然后基于部分已标注病理图片和标记有伪标签的病理图片对推理模型进行半监督学习更新。从而提升推理模型对待检测病理图片的预测准确率。本申请充分挖掘了多模态数据的特点，通过多模态辅助标注模型对未标注病理图片标记伪标签，以便于后续对推理模型进行半监督学习更新。

图8为本申请实施例提供的一种多模态数据迭代融合流程示意图。

正如图8所示出的，本申请结合大量未标注病理图片和相关联的病理文本，通过标注模型320为未标注病理图片进行多模态融合辅助标注伪标签。之后，结合部分已标注病理图片对分类模型312进行半监督学习更新模型参数。然后，可以采用分割模型311和更新后的分类模型312对待检测病理图片进行预测，并针对可疑病变区域进行采样送检，得到与待检测病理图片相关联的病理文本。再将待检测病理图片以及相关联的病理文本作为新的未标注病理图片和新的第一病理文本进行归档，从而形成了闭环，以便后续再次对分类模型进行更新。

当然具体实现过程可以参考图3至图6中相应的描述，本申请在此不再赘述。

图9为本申请实施例提供的一种推理模型训练方法流程图。

如图9所示，本申请提供了一种推理模型训练方法，该方法可以包括以下步骤：

S901，根据已标注病理图片训练得到推理模型。

S902，根据未标注病理图片、第一病理文本，以及已标注病理图片，更新推理模型。其中，推理模型用于对输入的待检测病理图片进行推理，得到待检测病理图片对应的病理结果，第一病理文本为所述未标注病理图片相关联的病理文本。

在一个可能的实施方式中，推理模型可以包括：分割模型和分类模型。更新推理模型，可以包括：更新分类模型。

在一个可能的实施方式中，更新推理模型，可以包括：将未标注病理图片和第一病理文本输入至预先训练好的标注模型，确定未标注病理图片对应的伪标签。然后，根据伪标签和第一预测结果，确定第一损失。其中，第一预测结果为未标注病理图片输入推理模型得到的预测结果。根据已标注病理图片的标注标签和第二预测结果，确定第二损失。其中，第二预测结果为已标注病理图片输入推理模型得到的预测结果。根据第一损失和第二损失更新推理模型。

在一个可能的实施方式中，确定未标注病理图片对应的伪标签，可以包括：提取未标注病理图片的图像特征向量。提取第一病理文本的文本特征向量。结合图像特征向量和文本特征向量，确定未标注病理图片对应的伪标签。

在一个可能的实施方式中，确定第一损失还包括：将已标注病理图片和第二病理文本输入至预先训练好的标注模型，确定已标注病理图片对应的伪标签。其中，第二病理文本为已标注病理图片相关联的病理文本。根据已标注病理图片对应的伪标签和第二预测结果，确定第一损失。

在一个可能的实施方式中，根据第一损失和第二损失更新推理模型，可以包括：将第一损失和第二损失按照预设权重进行累加，确定第三损失。然后，根据第三损失更新推理模型。

图10为本申请实施例提供的另一种推理模型训练方法流程图。

如图10所述，本申请还提供了另一种推理模型训练方法，在S902之前，可以预先训练得到标注模型，因此在S902之前该方法还可以包括以下步骤：

S1001，将已标注病理图片和第二病理文本输入至初始模型中，确定已标注病理图片的训练标签。

S1002，根据训练标签和标注标签，确定第四损失。

S1003，根据第四损失对初始模型进行更新，得到标注模型。

图11为本申请实施例提供的又一种推理模型训练方法流程图。

如图11所述，本申请还提供了又一种推理模型训练方法，在S902之后，还可以对待检测病理图片进行预测后作为新的未标注病理图片进行归档，因此在S902之后该方法还可以包括以下步骤：

S1101，当获取到待检测病理图片时，通过更新后的推理模型进行预测，得到待检测病理图片对应的病理结果。

S1102，将待检测病理图片以及待检测病理图片对应的病理结果进行输出。

S1103，接收待检测病理图片相关联的病理文本。

S1104，将待检测病理图片、待检测病理图片相关联的病理文本作为新的未标注病理图片、新的第一病理文本进行存储。

可以理解的是，图9至图10所描述的方法具体实现过程可以参考图3至图6中的相应描述，本申请在此不再赘述。

图12为本申请实施例提供的一种推理模型训练平台示意图。

如图12所示，本申请还提供了一种推理模型训练平台1200。该平台1200可以是一种AI云平台。在一些例子中，平台1200可以独立地部署在云环境的数据中心中的服务器或虚拟机上，平台1200也可以分布式地部署在数据中心中的多台服务器1210上、或者分布式地部署在数据中心中的多台虚拟机上。

在另一个实施例中，本申请提供的平台1200还可以分布式地部署在不同的环境中。本申请提供的平台1200可以在逻辑上分成多个部分，每个部分具有不同的功能。例如，平台1200中的一部分可以部署在边缘环境中的计算设备中(也可称边缘计算设备)，另一部分可以部署在云环境中的设备中。边缘环境为在地理位置上距离用户的终端计算设备较近的环境，边缘环境包括边缘计算设备，例如：边缘服务器、拥有计算能力的边缘小站等。部署在不同环境或设备的平台1200的各个部分协同实现为用户提供图3至图11所描述的训练更新推理模型310等功能。

如前所述，由于本申请提供的平台1200中的各个模块可以分布式地部署在同一环境或不同环境中的多个计算设备上。因此，在一些实施例中，一个或多个服务器1210可以构成计算机设备集群，用于部署平台1200以实现图3至图11所描述的训练更新推理模型310等功能。可以理解的是，计算机设备集群中可以包括多个计算设备，每个计算设备可以是服务器1210。

图13为本申请实施例提供的一种推理模型训练装置示意图。

如图13所示，本申请还提供了一种推理模型训练装置1300。该装置1300可以是图12中的服务器1210。例如可以是计算机设备集群中的任意一个服务器。当然，在一些例子中，装置1300上也可以运行图12中所描述的虚拟机。

装置1300可以包括：训练模块1310，用于根据已标注病理图片训练得到推理模型；更新模块1320，用于根据未标注病理图片、第一病理文本，以及已标注病理图片，更新推理模型。其中，推理模型用于对输入的待检测病理图片进行推理，得到待检测病理图片对应的病理结果，第一病理文本为未标注病理图片相关联的病理文本。

本申请通过结合未标注病理图片、第一病理文本和已标注病理图片对推理模型进行更新，使得模型融入了更多领域经验知识，从而大大提升了推理模型对病理图片的预测准确率。

在一个可能的实施方式中，推理模型包括分割模型和分类模型。更新模块1320还用于，更新分类模型。

在一个可能的实施方式中，更新模块1320还用于：将未标注病理图片和第一病理文本输入至预先训练好的标注模型，确定未标注病理图片对应的伪标签；根据伪标签和第一预测结果，确定第一损失，第一预测结果为未标注病理图片输入推理模型得到的预测结果；根据已标注病理图片的标注标签和第二预测结果，确定第二损失，第二预测结果为已标注病理图片输入推理模型得到的预测结果；根据第一损失和第二损失更新推理模型。

本申请通过结合未标注的病理图片以及已标注的病理图片进行半监督学习更新推理模型，可以使得推理模型得到更好的收敛，从而提升预测准确率。

在一个可能的实施方式中，更新模块1320还用于：提取未标注病理图片的图像特征向量；提取第一病理文本的文本特征向量；结合图像特征向量和文本特征向量，确定未标注病理图片对应的伪标签。

本申请可以结合图像的特征信息和文本特征信息，通过多模态信息融合的方式确定出未标注病理图片对应的伪标签，使得该伪标签的类别可以更加准确的对应未标注病理图片，以便后续可以更好的对推理模型进行优化更新。

在一个可能的实施方式中，更新模块1320还用于：将已标注病理图片和第二病理文本输入至预先训练好的标注模型，确定已标注病理图片对应的伪标签，其中，第二病理文本为已标注病理图片相关联的病理文本；根据已标注病理图片对应的伪标签和第二预测结果，确定第一损失。

本申请在通过未标注图片确定第一损失的时候，还可以融入部分已标注图片，以避免伪标签过于离散，从而得到更好的第一损失，并使得推理模型得到更好的收敛。

在一个可能的实施方式中，更新模块1320还用于：将第一损失和第二损失按照预设权重进行累加，确定第三损失；根据第三损失更新推理模型。

本申请采用半监督学习的方式更新推理模型，通过赋予不同权重的方式融合通过未标注图片得到的第一损失以及通过已标注图片得到的第二损失。以便更好的对推理模型进行更新，保障更新后的推理模型可以大大提升对病理图片的预测准确率。

在一个可能的实施方式中，装置1300还包括：标注模型预训练模块1330，用于将已标注病理图片和第二病理文本输入至初始模型中，确定已标注病理图片的训练标签；根据训练标签和标注标签，确定第四损失；根据第四损失对初始模型进行更新，得到标注模型。

在一个可能的实施方式中，装置1300还包括：预测模块1340，用于当获取到待检测病理图片时，通过更新后的推理模型进行预测，得到待检测病理图片对应的病理结果；发送模块1350，用于将待检测病理图片以及待检测病理图片对应的病理结果进行输出；接收模块1360，用于接收待检测病理图片相关联的病理文本；存储模块1370，用于将待检测病理图片、待检测病理图片相关联的病理文本作为新的未标注病理图片、新的第一病理文本进行存储。

本申请还可以接收到待检测病理图片相关联的真实的病理文本作为新的未标注数据进行存储，从而不断扩充未标注数据的数据量，以便后续可以对推理模型进行更好的更新。

当装置1300上部署了图12中所示的平台1200后，可以实现图3至图11所描述的任意一种方法。具体实现过程可以参考图3至图11中相应的描述，本申请不再赘述。

图14为本申请实施例提供的一种计算设备示意图。

如图14所示，本申请还提供一种计算设备1400。该计算设备1400可以是图12中的服务器1210。例如可以是计算机设备集群中的任意一个服务器。当然，在一些例子中，计算设备1400上也可以运行图12中所描述的虚拟机。计算设备1400包括处理器1310、存储器1420、通信接口1430以及总线1440。其中，处理器1410、存储器1420、通信接口1430可以通过总线1440实现彼此之间的通信连接。通信接口1430可以与外部设备实现有线或无线通信。

处理器1410读取存储器1420存储的程序和数据集合以执行前述平台1200执行的方法。

当然，在一些例子中，与计算设备1400通过有线或无线相连接的终端设备，可以包括显示器，用以显示计算设备1400发送的待检测病理图片，以及对待检测病理图片的预测结果，即待检测病理图片对应的病理结果。

本申请所提供的计算设备1400当部署了图12所描述的平台1200后，可以实现上述图3至图11中描述的任意一种方法，具体实现方式可以参考述图3至图11的相应描述，在此不再赘述。

可以理解的是，本申请主要以宫颈癌阴道镜图片作为示例进行描述，当然，在其它例子中，例如其它病理图片的辅助类别标记、识别，或者针对体育运动图片的辅助类别标记、识别，又或日常生活照片的辅助类别标记、识别等场景均适用于本方案，本申请不作任何限定。

本申请首先基于资深医生少量精标注的内窥镜(或称阴道镜)图片，然后进行敏感区域分割/分类模型的训练。基于训练所得的推理模型，推理出待检测病理图片的待活检区域去做病理学化验。然而，限于时间有限和标注工作量巨大，资深医生所提供的精标注图片是非常有限的(每个类别仅可提供约在数百例)，以此为基础训练所得模型泛化性能较差，模型精度也存在不足。因此，本申请通过融合病理文本和无标注病理图片的多模态辅助标注模型，充分辅助标注数万例归档无标注内窥镜(或称阴道镜)图片。充分挖掘利用了在医学归档的海量病例记录中，沉淀的大量资深医生的领域经验知识。然后基于半监督框架来迭代更新分类模型，进而达到利用数万例无标注图片来训练推理模型的效果。大大提升了模型对不同病理类别的预测准确率和泛化能力。

同时，本申请还可以将预测后送检得到的病理文本与待检测病理图片进行归档，从而实现模型的闭环迭代，可以进一步提升分类模型更新后的预测准确率和泛化能力。

本申请主要解决了阴道镜内窥镜图片进行人工智能算法建模，以及提升模型性能的海量无标注图片的辅助标注问题，从而提升阴道镜辅助筛查的决策效率，提高预测准确率，减轻潜在病人的风险敞口。

本申请中的多模态数据融合过程，可以包括归档历史数据迭代抽取、多模态融合模型训练、海量历史数据标签更新、敏感区域分类模型迭代更新、推理待检测新入组图片、待检测病理图片病理金标准分析及归档等闭环迭代的若干环节。这些数据流转环节对于提升训练模型的数据规模，提高数据质量至关重要。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种推理模型训练方法，其特征在于，所述方法包括：

根据已标注病理图片训练得到推理模型；

根据未标注病理图片、第一病理文本，以及所述已标注病理图片，更新所述推理模型，其中，所述推理模型用于对输入的待检测病理图片进行推理，得到所述待检测病理图片对应的病理结果，所述第一病理文本为所述未标注病理图片相关联的病理文本。

2.如权利要求1所述的方法，其特征在于，所述推理模型包括分割模型和分类模型；

所述更新所述推理模型，包括：更新所述分类模型。

3.如权利要求1或2所述的方法，其特征在于，所述更新所述推理模型，包括：

将所述未标注病理图片和所述第一病理文本输入至预先训练好的标注模型，确定所述未标注病理图片对应的伪标签；

根据所述伪标签和第一预测结果，确定第一损失，所述第一预测结果为所述未标注病理图片输入所述推理模型得到的预测结果；

根据所述已标注病理图片的标注标签和第二预测结果，确定第二损失，所述第二预测结果为所述已标注病理图片输入所述推理模型得到的预测结果；

根据所述第一损失和第二损失更新所述推理模型。

4.如权利要求3所述的方法，其特征在于，所述确定所述未标注病理图片对应的伪标签，包括：

提取所述未标注病理图片的图像特征向量；

提取所述第一病理文本的文本特征向量；

结合所述图像特征向量和所述文本特征向量，确定所述未标注病理图片对应的伪标签。

5.如权利要求4所述的方法，其特征在于，所述文本特征向量包括病变区域位置特征向量、病变级别特征向量和病变性状特征向量中的一种或多种。

6.如权利要求3-5任意一项所述的方法，其特征在于，所述确定第一损失还包括：

将所述已标注病理图片和第二病理文本输入至预先训练好的标注模型，确定所述已标注病理图片对应的伪标签，其中，所述第二病理文本为所述已标注病理图片相关联的病理文本；

根据已标注病理图片对应的伪标签和第二预测结果，确定所述第一损失。

7.如权利要求3-6任意一项所述的方法，其特征在于，所述根据所述第一损失和第二损失更新所述推理模型，包括：

将所述第一损失和所述第二损失按照预设权重进行累加，确定第三损失；

根据所述第三损失更新所述推理模型。

8.如权利要求3-7任意一项所述的方法，其特征在于，所述预先训练好的标注模型经过预训练得到，所述预训练过程包括：

将所述已标注病理图片和第二病理文本输入至初始模型中，确定所述已标注病理图片的训练标签；

根据所述训练标签和所述标注标签，确定第四损失；

根据所述第四损失对所述初始模型进行更新，得到所述标注模型。

9.如权利要求1-8任意一项所述的方法，其特征在于，所述方法还包括：

当获取到所述待检测病理图片时，通过所述更新后的推理模型进行预测，得到所述待检测病理图片对应的病理结果；

将所述待检测病理图片以及所述待检测病理图片对应的病理结果进行输出；

接收所述待检测病理图片相关联的病理文本；

将所述待检测病理图片、所述待检测病理图片相关联的病理文本作为新的未标注病理图片、新的第一病理文本进行存储。

10.一种推理模型训练装置，其特征在于，所述装置包括：

训练模块，用于根据已标注病理图片训练得到推理模型；

更新模块，用于根据未标注病理图片、第一病理文本，以及所述已标注病理图片，更新所述推理模型，其中，所述推理模型用于对输入的待检测病理图片进行推理，得到所述待检测病理图片对应的病理结果，所述第一病理文本为所述未标注病理图片相关联的病理文本。

11.如权利要求10所述的装置，其特征在于，所述推理模型包括分割模型和分类模型；

所述更新模块还用于，更新所述分类模型。

12.如权利要求10或11所述的装置，其特征在于，所述更新模块还用于：

根据所述第一损失和第二损失更新所述推理模型。

13.如权利要求12所述的装置，其特征在于，所述更新模块还用于：

提取所述未标注病理图片的图像特征向量；

提取所述第一病理文本的文本特征向量；

14.如权利要求13所述的装置，其特征在于，所述文本特征向量包括病变区域位置特征向量、病变级别特征向量和病变性状特征向量中的一种或多种。

15.如权利要求12-14任意一项所述的装置，其特征在于，所述更新模块还用于：

16.如权利要求12-15任意一项所述的装置，其特征在于，所述更新模块还用于：

根据所述第三损失更新所述推理模型。

17.如权利要求12-16任意一项所述的装置，其特征在于，所述装置还包括：

预训练模块，用于将所述已标注病理图片和第二病理文本输入至初始模型中，确定所述已标注病理图片的训练标签；

根据所述训练标签和所述标注标签，确定第四损失；

18.如权利要求10-17任意一项所述的装置，其特征在于，所述装置还包括：

预测模块，用于当获取到待检测病理图片时，通过所述更新后的推理模型进行预测，得到所述待检测病理图片对应的病理结果；

发送模块，用于将所述待检测病理图片以及所述待检测病理图片对应的病理结果进行输出；

接收模块，用于接收所述待检测病理图片相关联的病理文本；

存储模块，用于将所述待检测病理图片、所述待检测病理图片相关联的病理文本作为新的未标注病理图片、新的第一病理文本进行存储。

19.一种推理模型训练设备，其特征在于，所述设备包括处理器和存储器：

所述处理器，用于与存储器耦合，以及读取并执行存储在所述存储器中的指令；

当所述处理器运行时执行所述指令，以实现所述权利要求1-9中任意一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机实现如权利要求1-9任意一项所述的方法。

21.一种计算机集群，其特征在于，所述计算机集群包括至少一台计算机，每台计算机包括处理器和存储器；

所述至少一台计算机的处理器用于执行所述至少一台计算机的存储器中存储的指令，以使所述计算机集群执行如权利要求1至9任意一项所述的方法。