CN117809121A

CN117809121A - 目标对象识别方法、对象识别模型训练方法、目标对象处理方法以及信息处理方法

Info

Publication number: CN117809121A
Application number: CN202410217003.4A
Authority: CN
Inventors: 王一睿; 俞勤吉; 闫轲; 李浩申; 郭大洲; 吕乐; 金达开
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2024-02-27
Filing date: 2024-02-27
Publication date: 2024-04-02

Abstract

本说明书实施例提供目标对象识别方法、对象识别模型训练方法、目标对象处理方法以及信息处理方法，其中所述目标对象识别方法，包括：确定待识别图像；将所述待识别图像输入对象识别模型进行对象识别，获得所述待识别图像中的目标对象，其中，所述对象识别模型是通过从样本图像中识别的样本目标对象、以及所述样本图像的样本标签训练获得，所述样本目标对象是通过多个样本候选对象的对象类型识别结果以及对象位置检测结果，从所述多个样本候选对象中确定，所述对象位置检测结果是通过对所述多个样本候选对象的对象位置进行位置检测获得，所述多个样本候选对象通过对所述样本图像进行对象识别获得。

Description

目标对象识别方法、对象识别模型训练方法、目标对象处理方法以及信息处理方法

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种目标对象识别方法、计算设备以及存储介质。

背景技术

随着计算机技术的不断发展，神经网络模型广泛应用于各种服务场景中；而在图像处理场景中，可以利用神经网络模型针对图像中的特定对象进行识别，从而为图像处理场景提供服务。

而现有技术中，神经网络模型无法精准的识别出图像中特定对象的对象位置，从而导致识别出的特定对象出现不准确的问题，因此如何准确的识别图像中的特定对象成为亟需解决的问题。

发明内容

有鉴于此，本说明书实施例提供了一种目标对象识别方法。本说明书一个或者多个实施例同时涉及一种对象识别模型训练方法，一种肝脏CT图像中的病灶识别方法，一种目标对象处理方法，一种信息处理方法，一种目标对象识别装置，一种对象识别模型训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序产品，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种目标对象识别方法，包括：

确定待识别图像；

将所述待识别图像输入对象识别模型进行对象识别，获得所述待识别图像中的目标对象，其中，所述对象识别模型是通过从样本图像中识别的样本目标对象、以及所述样本图像的样本标签训练获得，所述样本目标对象是通过多个样本候选对象的对象类型识别结果以及对象位置检测结果，从所述多个样本候选对象中确定，所述对象位置检测结果是通过对所述多个样本候选对象的对象位置进行位置检测获得，所述多个样本候选对象通过对所述样本图像进行对象识别获得。

根据本说明书实施例的第二方面，提供了一种目标对象识别装置，包括：

图像确定模块，被配置为确定待识别图像；

对象识别模块，被配置为将所述待识别图像输入对象识别模型进行对象识别，获得所述待识别图像中的目标对象，其中，所述对象识别模型是通过从样本图像中识别的样本目标对象、以及所述样本图像的样本标签训练获得，所述样本目标对象是通过多个样本候选对象的对象类型识别结果以及对象位置检测结果，从所述多个样本候选对象中确定，所述对象位置检测结果是通过对所述多个样本候选对象的对象位置进行位置检测获得，所述多个样本候选对象通过对所述样本图像进行对象识别获得。

根据本说明书实施例的第三方面，提供了一种对象识别模型训练方法，包括：

确定待训练对象识别模型的样本图像，以及所述样本图像对应的样本标签；

将所述样本图像输入所述待训练对象识别模型，利用所述待训练对象识别模型对所述样本图像进行对象识别，获得多个样本候选对象，以及各样本候选对象对应的对象类型识别结果；

通过对所述多个样本候选对象的对象位置进行位置检测，获得所述各样本候选对象的对象位置检测结果；

基于所述对象类型识别结果以及所述对象位置检测结果，从所述多个样本候选对象中确定样本目标对象；

基于所述样本目标对象以及所述样本标签，对待训练对象识别模型进行训练，获得对象识别模型。

根据本说明书实施例的第四方面，提供了一种对象识别模型训练装置，包括：

样本确定模块，被配置为确定待训练对象识别模型的样本图像，以及所述样本图像对应的样本标签；

样本候选对象识别模块，被配置为将所述样本图像输入所述待训练对象识别模型，利用所述待训练对象识别模型对所述样本图像进行对象识别，获得多个样本候选对象，以及各样本候选对象对应的对象类型识别结果；

位置检测模块，被配置为通过对所述多个样本候选对象的对象位置进行位置检测，获得所述各样本候选对象的对象位置检测结果；

样本目标对象识别模块，被配置为基于所述对象类型识别结果以及所述对象位置检测结果，从所述多个样本候选对象中确定样本目标对象；

模型训练模块，被配置为基于所述样本目标对象以及所述样本标签，对待训练对象识别模型进行训练，获得对象识别模型。

根据本说明书实施例的第五方面，提供了一种肝脏CT图像中的病灶识别方法，包括：

确定包含病灶的肝脏CT图像；

将所述肝脏CT图像输入病灶识别模型进行病灶识别，获得所述包含病灶的肝脏CT图像中的目标病灶，其中，所述病灶识别模型是通过从包含病灶的肝脏CT样本图像中识别的样本目标病灶、以及所述包含病灶的肝脏CT样本图像的样本标签训练获得，所述样本目标病灶是通过多个样本候选病灶的病灶类型识别结果以及病灶位置检测结果，从所述多个样本候选病灶中确定，所述病灶位置检测结果是通过对所述多个样本候选病灶的病灶位置进行位置检测获得，所述多个样本候选病灶通过对所述包含病灶的肝脏CT样本图像进行病灶识别获得。

根据本说明书实施例的第六方面，提供了一种目标对象处理方法，应用于医疗系统的客户端，包括：

响应于用户针对所述客户端的展示界面的点选操作，确定待识别医学图像；

将所述待识别医学图像发送至所述医疗系统的服务端，接收所述服务端返回的目标对象，其中，所述目标对象为通过对象识别模型对所述待识别医学图像进行对象识别处理后输出的对象，所述对象识别模型是通过从样本医学图像中识别的样本目标对象、以及所述样本医学图像的样本标签训练获得，所述样本目标对象是通过多个样本候选对象的对象类型识别结果以及对象位置检测结果，从所述多个样本候选对象中确定，所述对象位置检测结果是通过对所述多个样本候选对象的对象位置进行位置检测获得，所述多个样本候选对象通过对所述样本医学图像进行对象识别获得；

将所述目标对象通过所述展示界面展示给所述用户。

根据本说明书实施例的第七方面，提供了一种信息处理方法，包括：

确定待识别医学图像；

将所述待识别医学图像输入对象识别模型进行对象识别，获得所述待识别医学图像中的目标对象，其中，所述对象识别模型是通过从样本医学图像中识别的样本目标对象、以及所述样本医学图像的样本标签训练获得，所述样本目标对象是通过多个样本候选对象的对象类型识别结果以及对象位置检测结果，从所述多个样本候选对象中确定，所述对象位置检测结果是通过对所述多个样本候选对象的对象位置进行位置检测获得，所述多个样本候选对象通过对所述样本医学图像进行对象识别获得；

根据所述待识别医学图像中的目标对象，确定信息处理结果。

根据本说明书实施例的第八方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述目标对象识别方法、对象识别模型训练方法、肝脏CT图像中的病灶识别方法、目标对象处理方法或者信息处理方法的步骤。

根据本说明书实施例的第九方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述目标对象识别方法、对象识别模型训练方法、肝脏CT图像中的病灶识别方法、目标对象处理方法或者信息处理方法的步骤。

根据本说明书实施例的第十方面，提供了一种计算机程序产品，其中，当所述计算机程序产品在计算机中执行时，令计算机执行上述目标对象识别方法、对象识别模型训练方法、肝脏CT图像中的病灶识别方法、目标对象处理方法或者信息处理方法的步骤。

本说明书一个或多个实施例提供了一种目标对象识别方法，包括：确定待识别图像；将所述待识别图像输入对象识别模型进行对象识别，获得所述待识别图像中的目标对象，其中，所述对象识别模型是通过从样本图像中识别的样本目标对象、以及所述样本图像的样本标签训练获得，所述样本目标对象是通过多个样本候选对象的对象类型识别结果以及对象位置检测结果，从所述多个样本候选对象中确定，所述对象位置检测结果是通过对所述多个样本候选对象的对象位置进行位置检测获得，所述多个样本候选对象通过对所述样本图像进行对象识别获得。

具体的，本说明书提供的目标对象识别方法中，该对象识别模型在训练过程中需要确定样本图像中的多个样本候选对象，以及该多个样本候选对象的对象类型识别结果以及对象位置检测结果，其中，该对象位置检测结果是通过对所述多个样本候选对象的对象位置进行位置检测获得。然后基于样本标签以及通过对象类型识别结果和对象位置检测结果确定的样本目标对象进行模型训练，从而获得准确识别出待识别图像中目标对象位置的对象识别模型，基于此，当将待识别图像输入对象识别模型进行对象识别的过程中，能够识别出位置准确的目标对象，避免目标对象不准确的问题。

附图说明

图1是本说明书一个实施例提供的一种淋巴结检测的示意图；

图2是本说明书一个实施例提供的一种目标对象识别方法的应用示意图；

图3是本说明书一个实施例提供的一种目标对象识别方法的流程图；

图4是本说明书一个实施例提供的一种对象识别模型训练方法的流程图；

图5是本说明书一个实施例提供的一种对象识别模型训练方法的处理过程流程图；

图6是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

此外，需要说明的是，本说明书一个或多个实施例所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

本说明书一个或多个实施例中，大模型是指具有大规模模型参数的深度学习模型，通常包含上亿、上百亿、上千亿、上万亿甚至十万亿以上的模型参数。大模型又可以称为基石模型/基础模型（Foundation Model），通过大规模无标注的语料进行大模型的预训练，产出亿级以上参数的预训练模型，这种模型能适应广泛的下游任务，模型具有较好的泛化能力，例如大规模语言模型（Large Language Model, LLM）、多模态预训练模型（multi-modal pre-training model）等。

大模型在实际应用时，仅需少量样本对预训练模型进行微调即可应用于不同的任务中，大模型可以广泛应用于自然语言处理（Natural Language Processing，简称NLP）、计算机视觉等领域，具体可以应用于如视觉问答（Visual Question Answering，简称VQA）、图像描述（Image Caption，简称IC）、图像生成等计算机视觉领域任务，以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务，大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

LymphNode：简称LN，或LNs，是指淋巴结。

Transformer:一种神经网络架构。

Query：Transformer计算流程组成部分，可译为查询。

Contrastiverepresentation：对比学习表示。

CT：(Computed Tomography)，即电子计算机断层扫描，它是利用精确准直的X线束、γ射线、超声波等，与灵敏度极高的探测器一同围绕人体的某一部位作一个接一个的断面扫描。

CNN：卷积神经网络(Convolutional Neural Networks,简称为CNN)。

FCN；全卷积网络(Fully Convolutional Networks，简称为FCN)。

Mask R-CNN：(Mask Region-based Convolutional Neural Network)，是一种用于目标检测和实例分割的深度学习模型。

DINO：一种视觉模型。

R-CNN：一种进行物体检测的神经网络模型。

Flatten：一维化处理。

ResNet：（深度残差网络）。

随着计算机技术的不断发展，神经网络模型广泛应用于各种服务场景中；而在图像处理场景中，可以利用神经网络模型针对图像中的特定对象进行识别，从而为图像处理场景提供服务，但是，神经网络模型无法精准的识别出图像中特定对象的对象位置。例如，在淋巴结检测场景中，需要利用神经网络模型从CT图像中检测出淋巴结。具体的，计算机辅助检测（CADe）是医学成像领域的一个活跃研究领域，随着深度学习技术的发展而迅速发展。在CADe任务中，淋巴结(LN)的识别是一个关键但尚未得到充分研究的问题，它在放射学和肿瘤学的日常临床工作中都占有重要的一部分。作为人体免疫系统的重要组成部分，淋巴结广泛分布于全身，是肿瘤扩散的主要途径。LN评估通常基于三维计算机断层扫描(CT)。因此，在CT上准确发现具有临床意义的LNs对于癌症的诊断、分期、治疗计划和预后评估具有重要意义。

淋巴结（LN）评估是放射学和肿瘤学日常临床工作中一项关键、不可或缺但具有挑战性的任务。准确的LN分析对于癌症的诊断、分期和治疗计划至关重要。即使对于经验丰富的医生来说，在3D CT中发现分散分布、低对比度的临床相关LNs也很困难，同时观察者之间的差异也很大。由于许多相邻解剖结构具有相似的强度、形状或纹理（血管、肌肉、食管等），先前在自动LN检测方面的工作通常会产生高假阳性（FPs）。具有由于以下原因，导致CT中的LN检测对医生来说是一项具有挑战性的任务。首先，考虑到LNs相对于邻近软组织的强度难以区分，LNs与邻近解剖结构的相对对比度非常低。其次，除了强度外，LNs也表现出与附近软组织相似的大小和形状(球形或椭球)。这些相似性使得LN很容易与血管、肌肉、食道、心包隐窝和其他结构相混淆，例如图1，图1是本说明书一个实施例提供的一种淋巴结检测的示意图。因此，即使是有经验的医生，也可能会出现LNs缺失或误认的情况。此外，LNs分散分布在身体的各个区域，如颈部、脐部、胸部和腹部。因此，从每个患者的CT的数百个2D CT切片进行手动检查很容易误认具有临床意义的LNs，尤其是在时间限制的情况下。

针对上述问题，本说明书提供了几类方案，第一类方案是统计学习方案，该方案使用手工制作的特征或基于CNN的方案来研究自动LN检测。具体的，该统计学习方案采用手工制作的图像特征，如形状、空间先验和体积方向差滤波器，来捕捉LNs的外观并对其进行定位。通过应用FCN或Mask R-CNN直接分割或检测LN，基于CNN的方案实现淋巴结检测的功能。但是，该第一类方案存在许多缺陷。第一、这些工作仅检测到淋巴结肿大（短轴≥10mm），尽管研究表明，在癌症患者中，单纯的淋巴结肿大并不是淋巴结恶性肿瘤的可靠预测因素，其敏感性仅为60%-80%。第二、有基于CNN的工作试图使用淋巴结站先验（通常在临床实践中不可用）来检测增大和较小的淋巴结，然而，其性能较低，该方案的平均召回率<60%。第三、该方案的另一个局限性是，它们通常只关注单个身体区域，如胸部或腹部，缺乏覆盖主要身体部位的通用LN检测模型。

第二类方案是基于视觉转换器的方案，该方案将对象检测公式化为集合预测任务，并通过二分图匹配分配标签。与上述基于CNN的检测器的第一类方案相比，第二类方案通过改进去噪训练过程和利用混合查询选择进行锚点初始化，实现了淋巴结检测的性能。并且通过添加掩码预测分支来支持分割任务，从而进一步扩展了方案性能。但是，该第二类方案同样存在缺陷，无法精准的从图像中检测出准确的淋巴结，并未解决上述自动LN检测方面的高假阳性问题。

第三类方案是通用病灶检测的方案，该方案基于CNN的检测器，采用R-CNN进行肺结节检测。由于相邻轴向切片中的3D上下文信息对于区分具有其他类似解剖结构的病变很重要，因此一些工作通过使用具有多切片输入的2D网络架构来采用2.5D方法。与直接的3D检测器相比，具有预训练的2D模型权重的2.5D方法显示出较好的精度和较快的运行速度。第三类方案中的一种基于Mask R-CNN架构的方案，多任务通用病变分析网络（MULAN）在大型病变数据集（即DeepDisease）中实现了较优的性能。第三类方案中的另一种损伤序列（LENS）方案，通过新的无锚提议网络和多数据集学习策略进一步改进了MULAN。并且，通过设计了切片注意力转换器模块，将其插入基于CNN的检测器中，用于融合3D信息。但是，该第二类方案也存在无法精准的从图像中检测出准确的淋巴结的问题，未解决上述自动LN检测方面的高假阳性问题。并且，第三类方案的研究是一类没有基于Transformer的主干的病变检测的研究。

第四类方案是采用基于模型或基于统计学习的方案。由于自动LN检测已经开发了较长时间，但主要集中在提取有效的LN特征，结合器官先验或利用先进的学习模型。因此通常采用基于模型或基于统计学习的方法。基于此，第四类方案是采用基于模型或基于统计学习的方案。该方案通过提出全局-局部注意模块和多任务不确定性损失来检测腹部MR图像中的LNs，从而改进掩模R-CNN。此外，还探索了基于CNN的LN检测分割模型。然而，这些分割方法通常需要额外的标签(如器官或LN勾画)或成像方式，这缩小了它们在临床应用中的适用性。并且，直接分割LNs可能性能较差，因为LNs是小而分散分布的对象，其中体素分割损失可能难以监督面向实例的目标学习。以往的研究通常只关注单个身体区域或疾病，或者只检测增大的淋巴结(≥10mm)，而忽略了临床上至关重要的较小的转移性淋巴结。

基于此，在本说明书中，提供了一种目标对象识别方法，本说明书同时涉及一种对象识别模型训练方法，一种肝脏CT图像中的病灶识别方法，一种目标对象识别装置，一种对象识别模型训练装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图2，图2示出了根据本说明书一个实施例提供的一种目标对象识别方法的应用示意图，基于图2可知，用户可以通过终端102将患者CT图像发送至服务端104，该目标对象识别方法应用于该服务端104，该服务端104可以理解为服务器或云端。具体淋巴结识别过程为：首先，服务端104将患者CT图像输入至淋巴结识别模型（即对象识别模型）进行淋巴结识别，通过淋巴结识别模型中的图像处理模块对患者CT图像进行图像处理，获得图像特征向量，并将该图像特征向量输入至淋巴结识别模型的Transformer编码器。其次，Transformer 编码器对该图像特征向量进行处理，获得该患者CT图像对应的淋巴结识别结果，该淋巴结识别结果包括淋巴结位置框、分类分数、淋巴结图像以及IoU评分。利用该IoU分数与分类分数从多个淋巴结识别结果中选择较为准确的淋巴结识别结果，并输入至Transformer 解码器。最后，淋巴结识别模型的Transformer 解码器对较为准确的淋巴结识别结果进行解码，输出准确度较高的多个淋巴结识别结果。从而识别出位置准确的淋巴结，避免淋巴结不准确的问题。

参见图3，图3示出了根据本说明书一个实施例提供的一种目标对象识别方法的流程图，具体包括以下步骤。

步骤302：确定待识别图像。

其中，该待识别图像可以理解为需要对象识别模型进行对象识别处理的图像，该待识别图像中包含目标对象。例如，该待识别图像可以为人的3D CT影像、或者动物的3D CT影像。在本说明书提供的一个或多个实施例中，该待识别图像可以为扫描获得的患者的3DCT影像。

在本说明书提供的一个或多个实施例中，提出了一种新的LN DE DetectionTRansformer的算法模型，可以称为LN-DETR（基于最新的Transformer检测/分割框架MaskDINO），从而以实现更准确的识别性能。并且该模型通过使用多尺度2.5D特征融合来增强2D主干，从而融入3D背景。也即是说，在本说明书实施例中，提出了一种端到端LN检测TRansformer，称为LN-DETR模型，以解决具有挑战性的通用LN检测问题。需要说明的是，LN-DETR包含用于锚点初始化的改进的去噪训练和混合查询选择的关键组件。基于以下关键观察结果，进一步改进了LN-DETR模型。该观察结果是指：CT是体积数据，具有用于LN识别的重要3D背景。然而，纯3D DETR在计算上是昂贵的，并且不能利用预训练的权重，这对于实现Transformer模型的高性能至关重要。因此，在本说明书提供的目标对象识别方法，通过利用有效的多尺度2.5D融合方案来增强LN-DETR，同时利用预训练的2D权重来结合3D上下文。具体方式如下。

所述确定待识别图像，包括：

确定待识别影像数据，并对所述待识别影像数据进行图像切分，获得多个切分图像；

从所述多个切分图像中确定目标切分图像，以及除所述目标切分图像之外的其他切分图像；

基于所述目标切分图像，构建目标待识别图像集合，并基于所述其他切分图像，构建其他待识别图像集合；

将所述目标待识别图像集合以及所述其他待识别图像集合，作为待识别图像。

其中，该待识别影像数据可以为患者的3D CT影像，切分图像可以理解为3D CT影像的二维切片。目标切分图像可以理解为目标CT切片，该目标切分图像是3D CT扫描影像中最接近淋巴结（LNs）位置的图像切片（一个截面）。

其他切分图像可以理解为3D CT影像中除目标切分图像之外的其他切片，例如，以目标CT切片为中心，从原始CT扫描影像中提取四个上切片、和四个下切片作为中心目标CT切片的三维背景，该三维背景可以为其他切分图像。

下面以本说明书提供的目标对象识别方法，在基于两阶段Transformer框架的全身淋巴结检测场景下的应用为例进行说明。其中，待识别影像数据为3D CT影像。基于此，为了检测3D CT影像中的淋巴结（LNs），需要从原始CT扫描中提取多个切片，具体步骤如下。

首先：原始CT扫描中确定目标CT切片。其中，该原始CT扫描：是一个病人身体的3DCT扫描影像。目标CT切片：是3D CT扫描图像中做接近淋巴结（LNs）位置的图像切片（一个截面）。其次，以目标CT切片为中心，从原始CT扫描中提取四个上切片、和四个下切片作为中心目标CT切片的三维背景。为了检测目标CT切片中的LNs，将这9个连续的CT切片分成3组的3通道图像集合，每个通道图像集合由共享的CNN主干独立处理。也即是说，将这9个连续的CT切片分成3组3通道图像，也就是3个切片集合。例如，切片集合1中包含4个上切片、切片集合2中包含4个下切片、切片集合2中包含1个目标CT切片。从而便于后续准确的识别出待识别图像中的目标对象（即淋巴结）。

步骤304：将所述待识别图像输入对象识别模型进行对象识别，获得所述待识别图像中的目标对象。

其中，所述对象识别模型是通过从样本图像中识别的样本目标对象、以及所述样本图像的样本标签训练获得，所述样本目标对象是通过多个样本候选对象的对象类型识别结果以及对象位置检测结果，从所述多个样本候选对象中确定，所述对象位置检测结果是通过对所述多个样本候选对象的对象位置进行位置检测获得，所述多个样本候选对象通过对所述样本图像进行对象识别获得。

其中，该对象识别模型可以理解为一种能够识别出图像中包含的目标对象的模型。该对象识别模型可以是一种基于两阶段Transformer框架的全身淋巴结检测模型。例如，该对象识别模型可以为上述实施例中的LN-DETR模型。在本说明书提供的一个或多个实施例中，该对象识别模型可以为Transformer模型。

目标对象可以理解为对象识别模型输出的、该待识别图像中包含的对象，例如该目标对象可以为淋巴结、肺部结节等对象，可以根据实际应用场景进行设置。在本说明书提供的一个或多个实施例中，该目标对象可以由对象位置检测结果、对象位置检测结果、目标对象的对象位置、以及从待识别图像中分割的该目标对象的对象图像（可以通过特征向量表示）构成。通过对象位置检测结果、对象位置检测结果、目标对象的对象位置、目标对象的对象图像，可以从待识别图像中准确确定一个目标对象。例如，该目标对象可以为对象识别模型输出的淋巴结查询结果，该淋巴结查询结果由淋巴结分类分数、淋巴结位置框、淋巴结图像（从CT图像中分割出的淋巴结图像，可以通过特征向量表示）以及淋巴结的IoU分数构成。

样本图像可以理解为作为样本的包含样本目标对象的图像，例如，作为样本的患者3D CT影像，样本目标对象可以为淋巴结。在本说明书提供的一个或多个实施例中，本说明书提供的目标对象识别方法中的对象识别模型，可以是一种基于Transformer的检测器。在对象识别模型进行训练过程中可以使用大规模数据，例如可以将多名患者、涉及不同的身体部位和疾病的3D CT扫描影像，作为训练样本图像；将该3D CT扫描影像上标记的淋巴结标记，作为样本标签，例如3D CT扫描影像上标记有10000多个放大和缩小标记的淋巴结。从而结合不同身体部位（颈部、胸部和腹部）和病理的七个淋巴结数据集对该对象识别模型进行训练和测试，以解决具有挑战性但临床上重要的LN检测任务。

样本候选对象可以理解为模型训练过程中对象识别模型所检测出的对象，后续需要从该样本候选对象中选择出可信度较高的作为样本目标对象。该样本目标对象是指多个样本候选对象中可信度较高的样本候选对象。例如，该样本候选对象可以为对象识别模型所检测出的多个淋巴结；样本目标对象可以为多个淋巴结中可信度较高的淋巴结。

该对象位置检测结果可以理解为表征该样本候选对象的对象位置是否识别准确的检测结果，例如对象位置检测结果为IoU分数。例如，在本说明书提供的一个或多个实施例中，考虑到与自然图像中物体通常具有明显的边缘不同，在CT扫描中，LN的边界通常与相邻解剖结构产生细微的差异，相邻解剖结构也表现出相似的强度、形状或纹理。因此检测器也会在真LNs附近产生大量假阳性(FP)或重复预测。为了解决这一挑问题，本说明书提供的目标对象识别方法引入了LN-DETR的两个关键进展，旨在提高查询嵌入质量，这将提高定位精度，并更好地将真LNs与其他类似的解剖结构(显示为FP或重复预测)区分出来。也即是说，为了提高LN查询的表示质量，考虑到LN边界通常不清楚，所以引入了IoU预测头和IoU引导的查询选择，以选择定位精度更高的LN查询作为解码器查询的初始化，IoU预测头能够对LN边界进行检测并给出相应的IoU分数（IoU分数可以理解为定位置信度）。通过附加了一个IoU预测任务来估计查询结果的本地化置信度。并提出了一种IoU引导的查询选择，以从多个LN查询（即样本候选对象）中选择具有较高本地化置信度的LN查询（即样本目标对象）。这些选定的LN查询作为Transformer解码器的初始内容查询和初始锚，确保更精确的初始化。

对象类型识别结果可以理解为表征该样本候选对象的是否为样本目标对象的检测结果，例如，该对象类型识别结果可以是样本候选对象对应的分类分数，分类分数越大，该样本候选对象是样本目标对象的程度越高。在样本候选对象为识别的多个候选淋巴结的情况下，候选淋巴结的分类分数越大，该候选淋巴结是真实淋巴结（即样本目标对象）的程度越高。对象位置可以理解为样本候选对象在待识别图像中的位置。

在本说明书提供的一个或多个实施例中，所述将所述待识别图像输入对象识别模型进行对象识别，获得所述待识别图像中的目标对象，包括步骤一至步骤二：

步骤一：将所述待识别图像输入对象识别模型，利用所述对象识别模型确定所述待识别图像中的多个候选对象，并确认各候选对象的对象类型识别结果以及对象位置检测结果。

具体的，在本说明书提供的一个或多个实施例中，所述利用所述对象识别模型确定所述待识别图像中的多个候选对象，并确认各候选对象的对象类型识别结果以及对象位置检测结果，包括：

利用所述对象识别模型确定所述待识别图像对应的待识别图像特征；

对所述待识别图像特征进行对象识别，确定所述待识别图像中的多个候选对象，以及所述多个候选对象的对象类型识别结果；

对所述多个候选对象的对象位置进行位置检测，获得各候选对象对应的对象位置检测结果。

其中，待识别图像特征可以理解为该待识别图像对应的向量特征。

候选对象可以理解为对象识别模型所检测出的对象，后续需要从该多个候选对象中选择出可信度较高的作为目标对象。例如，该候选对象可以为对象识别模型所检测出的多个淋巴结；目标对象可以为多个淋巴结中位置较为准确，且可信度较高的淋巴结。

对象类型识别结果可以理解为表征该候选对象的是否为目标对象的检测结果，例如，该对象类型识别结果可以是候选对象对应的分类分数，分类分数越大，该候选对象是目标对象的程度越高。在候选对象为识别的多个候选淋巴结的情况下，候选淋巴结的分类分数越大，该候选淋巴结是真实淋巴结（即目标对象）的程度越高。

对象位置检测结果可以理解为表征该候选对象的对象位置是否识别准确的检测结果，例如对象位置检测结果为IoU分数。

具体的，本说明书提供的目标对象识别方法，能够将待识别图像输入对象识别模型，而该对象识别模型，首先会对待识别图像进行特征提取，从而确定待识别图像对应的待识别图像特征；其次对待识别图像特征进行对象识别，确定待识别图像中的多个候选对象，并对多个候选对象进行对象分类识别，从而确定多个候选对象的对象类型识别结果；最后，会确定多个候选对象的对象位置，并基于该对象位置对该多个候选对象进行位置检测，从而获得各候选对象对应的对象位置检测结果。便于后续基于该对象类型识别结果以及对象位置检测结果，从多个候选对象中选择位置准确的目标对象。

沿用上例，候选对象为候选淋巴结，对象类型识别结果为分类分数、对象位置检测结果为IoU分数。基于此，在获得切片集合之后，将该切片集合对应的图像特征输入Transformer 编码器所包含的编码层。将Transformer 编码层输出的特征向量，输入至Transformer 编码器所包含的预测头，该预测头负责预测CT切片图像中的多个淋巴结识别结果（即淋巴结查询结果），该淋巴结查询结果包含淋巴结（LNs）位置框、iou分数、分类分数以及淋巴结图像。

在本说明书提供的一个或多个实施例中，所述利用所述对象识别模型确定所述待识别图像对应的待识别图像特征，包括：

利用所述对象识别模型中的图像处理模块对所述待识别图像进行处理，获得候选图像特征；

利用所述对象识别模型中的编码模块对所述候选图像特征进行编码处理，获得所述待识别图像对应的待识别图像特征。

其中，该图像处理模块可以理解为该对象识别模型中用于进行特征提取的模块。该图像处理模块可以为CNN主干（或称为CNN骨干网络）。在本说明书提供的一个或多个实施例中，LN-DETR框架由具有多尺度2.5D特征融合的CNN骨干网络，以及Transformer的编码器、解码器组成，其中，CNN骨干网络用于进行多尺度2.5D特征融合。虽然3D环境对于LN检测至关重要，但3D检测器的性能通常不如使用大规模数据预训练权重初始化的2D模型。为了弥补这一差距，本说明书提供的目标对象识别方法，将2.5D特征级融合方案应用于LN-DETR。与仅使用FPN的输出进行预测不同，通过将来自多个级别的2.5D融合特征提供给Transformer编码器，以避免信息丢失并实现编码器层中的跨尺度令牌交互。具体来说，为了检测目标CT切片中的LNs，在将上述实施例中的9个连续的CT切片分成3组3通道图像之后，每个集合由共享的CNN主干独立处理，获得融合的图像特征（即候选图像特征）。

编码模块可以理解为该对象识别模型中用于对特征进行编码处理的模块，例如，该对象识别模型的编码层。

沿用上例，为了检测目标CT切片中的淋巴结（LNs），会从原始CT扫描中提取多个切片。并将多个连续的CT切片分成3组3通道图像。也就是3个切片集合。之后将切片集合作为训练样本图像输入到LN-DETR模型中，该LN-DETR中的CNN骨干网络（CNN backbone）对该切片集合进行特征融合处理，每个切片集合由共享的CNN骨干网络（CNN backbone）独立进行特征提取处理，获得候选图像特征。在获得候选图像特征之后，将切片集合的图像特征，通过flatten层进行一维化处理；将一维化处理后的切片图像的特征向量、和该切片特征向量对应的位置向量（Position Embedding）相加，获得2.5D图像令牌（2.5D Image tokens，可以理解为一种特征向量）；将该2.5D图像令牌输入Transformer 编码层，获得编码层输出的特征向量（即待识别图像特征）。从而便于后续Transformer编码器进行目标对象的准确识别。

在本说明书提供的一个或多个实施例中，所述利用所述对象识别模型中的图像处理模块对所述待识别图像进行处理，获得候选图像特征，包括：

利用所述对象识别模型中的图像处理模块，对多个待识别图像集合进行特征提取，获得各待识别图像集合对应的图像特征；

将所述多个待识别图像集合对应的图像特征进行特征串联处理以及特征转换处理，获得目标图像特征；

从所述多个待识别图像集合中确定目标待识别图像集合，并将所述目标待识别图像集合对应的图像特征，替换为所述目标图像特征；

基于所述多个待识别图像集合对应的图像特征，获取所述候选图像特征。

沿用上例，该LN-DETR中的CNN骨干网络（CNN backbone）对该切片集合进行特征融合处理，具体的，首先，通过串联和转换将三个切片集合进行特征提取，获得每个切片集合对应的图像特征（即特征映射）；其次，将每个集合对应的图像特征进行融合，获得融合后的图像特征。最后，将切片集合中的原中心目标片的图像特征，替换为融合后的图像特征，其他2个集合的图像特征保持不变，通过将各切片集合对应的图像特征确定为候选图像特征，从而达到快速的获得候选图像特征的目的。需要注意的是，该融合操作应用于CNN骨干网络中的所有四个ResNet块。

在本说明书提供的一个或多个实施例中，本说明书提供的目标对象识别方法采用CNN骨干网络对CT图像进行处理。本说明书中的CNN骨干网络，提出一种具有改进的去噪锚盒的DETR（即DINO），其可以进行端到端优化，其去噪训练的增强版本是DN-DETR的扩展。掩码DINO通过添加支持不同分割任务的掩码预测分支进一步扩展了DINO。因此，为提高具有挑战性的LN检测性能做出了贡献。

在本说明书提供的一个或多个实施例中，所述对所述待识别图像特征进行对象识别，确定所述待识别图像中的多个候选对象，以及所述多个候选对象的对象类型识别结果，包括：

利用所述对象识别模型中的对象位置识别模块对所述待识别图像特征进行对象位置识别，确定所述待识别图像中多个候选对象的对象位置；

将所述多个候选对象的对象位置以及所述待识别图像特征，输入所述对象识别模型中的对象识别模块进行对象识别，获得所述待识别图像中的多个候选对象；

利用所述对象识别模型中的对象分类模块对各候选对象进行对象类型识别，确定所述各候选对象对应的对象类型识别分数。

需要说明的是，将Transformer 编码器中包含预测模块（预测头predictionheads），该预测头由：IoU预测头（IoU prediction head 由单个MLP层组成）、分类头（classification head）、边框回归头（box regression heads）和掩码生成头（maskgeneration heads）构成，该IoU预测头、分类头、边框回归头和掩码生成头并行运行。其中，对象位置识别模块可以理解为边框回归头：用于通过边框，定位淋巴结所处的位置，从而确定淋巴结的位置框。对象分类模块可以理解为分类头：用于对图像中的物体进行分类，从而识别出图像中的淋巴结。对象识别模块可以理解为掩码生成头：用于进行图像分割，获得候选对象的对象图像，例如淋巴结图像。对象位置检测模块可以理解为IoU预测头：使用IoU评分来估计查询定位质量，并利用IoU置信度来指导最后一层编码器的查询排序和选择。

沿用上例，在获得编码层输出的特征向量之后，需要将该特征向量输入至Transformer 编码器中包含预测头中，利用边框回归头基于特征向量进行淋巴结位置框预测，从而通过位置框定位淋巴结所处的位置，从而确定淋巴结的位置框。通过掩码生成头基于淋巴结的位置框和特征向量进行淋巴结分割，从而提取从CT图像中的淋巴结。而该分类头基于特征向量进行淋巴结分类，从而对图像中的淋巴结进行分类评估，从而获得CT图像中每个淋巴结的分类分数。具体过程可以为：

针对边框回归头：将CT切片图像对应的特征向量输入至该边框回归头，该边框回归头能够基于该特征向量进行淋巴结位置框（也称为淋巴结边框）预测，识别出CT切片图像中的多个淋巴结位置框。基于该位置框，能够定位淋巴结所处的位置。

针对该掩码生成头：将CT切片图像对应的特征向量、以及淋巴结位置框输入至该掩码生成头。通过该掩码生成头，对淋巴结位置框所框定的淋巴结进行图像分割，获得该淋巴结图像对应的特征向量表示。

针对分类头：将CT切片图像对应的特征向量、以及淋巴结位置框输入至该分类头，该分类头能够对淋巴结位置框所框定的淋巴结进行评估，确定该淋巴结的分类分数。该分类分数越高，该淋巴结位置框所框定的物体为淋巴结的概率越高。

通过获得CT图像中每个淋巴结位置框、淋巴结图像以及淋巴结的分类分数（对象类型识别分数），从而便于后续基于对象类型识别分数准确的从多个候选对象中确定目标对象。

在本说明书提供的一个或多个实施例中，所述对所述多个候选对象的对象位置进行位置检测，获得各候选对象对应的对象位置检测结果，包括：

将所述多个候选对象的对象位置以及所述待识别图像特征，输入所述对象识别模型中的对象位置检测模块进行位置检测，获得各候选对象对应的对象位置检测分数。

沿用上例，在获得编码层输出的特征向量之后，需要将该特征向量输入至Transformer 编码器中包含预测头中，利用IoU预测头基于特征向量进行淋巴结位置精度评估，从而获得IoU预测（定位置信度）。具体针对该IoU预测头的执行过程为：将CT切片图像对应的特征向量、以及淋巴结位置框输入至该IoU预测头，利用该IoU预测头，对淋巴结位置框所框定的淋巴结进行定位分析，获得IoU评分（即IoU置信度）。后续可以使用IoU评分来估计查询定位质量，并利用IoU置信度来指导最后一层编码器的查询排序和选择。从而便于后续基于对象位置检测分数准确的从多个候选对象中确定目标对象。

步骤二：基于所述对象类型识别结果以及所述对象位置检测结果，从所述多个候选对象中确定所述目标对象。

具体的，在本说明书提供的一个或多个实施例中，所述对象位置检测结果为对象位置检测分数，所述对象类型识别结果为对象类型识别分数；

所述基于所述对象类型识别结果以及所述对象位置检测结果，从所述多个候选对象中确定所述目标对象，包括：

将所述对象位置检测分数和所述对象类型识别分数相乘，获得所述多个候选对象的对象识别分数；

基于所述对象识别分数，从所述多个候选对象中选择所述目标对象。

沿用上例，利用计算的IoU预测（定位置信度）通过将查询的IoU分数与其分类分数相乘来使用新的查询排名分数。根据编码器输出处的新的查询排名分数（更准确的LNs边界框）选择前K个查询，从而识别出位置准确的目标对象，避免目标对象不准确的问题。

在本说明书提供的一个或多个实施例中，目标对象识别方法提出的LN-DETR的总体框架由具有多尺度2.5D特征融合的CNN主干和变换器编码器和解码器组成。在模型训练过程中包括（1）编码器最后一层中的IoU引导的查询排名和选择模块（基于额外的IoU预测头）；以及（2）查询对比学习模块（自然地利用掩码DINO中的去噪锚框），以提高用于区分真实LN查询与附近FP或重复查询的查询表示能力。具体的，LN- DETR模型的整体架构采用了多尺度可变形的注意力模块来聚合多尺度特征图。为了加速训练收敛，采用了额外的去噪查询和去噪损失。此外，它从转换器编码器的输出中计算得分最高的查询(用作区域建议)，以初始化内容查询和参考框，这些查询和参考框被反馈到解码器以供后续细化。在选择前K个查询时，只考虑分类置信度作为排序标准。然而，分类置信度并不一定与预测的边界框的质量有关，具有较高分类置信度的预测LN边界框与相应的GT框的重叠程度反而较小。因此，这些不准确的初始参考框可能导致解码器的次优预测。例如，一个估计定位置信度的IoU预测分支用于随后的盒细化。与这些工作不同的是，本说明书提供的目标对象识别方法在Transformer编码器和解码器中都添加了一个IoU预测头，使用IoU评分来估计查询定位质量，并利用IoU置信度来指导最后一层编码器的查询排序和选择。另一个观察到的问题是，由于LN边界的模糊和相似的相邻解剖结构，原始Mask DINO的LN预测通常包含许多重复或假阳性。而其主要原因可能是匈牙利算法的一对一匹配步骤，该算法只将每个GT分配给其最匹配的查询，并强制所有未匹配的查询预测相同的背景标签，而不考虑它们的相对排名。这导致没有足够的监督来区分本地相似的查询。为了缓解这个问题，引入了一个简单而有效的查询对比学习模块(自然地利用Mask DINO中的去噪锚框)来提高查询表示能力，以区分真正的LN查询与附近的FP或重复查询。基于此，针对对象识别模型的训练过程如下。

在本说明书提供的一个或多个实施例中，所述将所述待识别图像输入对象识别模型进行对象识别，获得所述待识别图像中的目标对象之前，还包括：

基于所述样本目标对象以及所述样本标签，对待训练对象识别模型进行训练，获得所述对象识别模型。

针对上述针对该待训练对象识别模型的训练过程，可以参见下述一种对象识别模型训练方法的步骤，在此不作过多赘述。

本说明书提供的目标对象识别方法中，该对象识别模型在训练过程中需要确定样本图像中的多个样本候选对象，以及该多个样本候选对象的对象类型识别结果以及对象位置检测结果，其中，该对象位置检测结果是通过对所述多个样本候选对象的对象位置进行位置检测获得。然后基于对象类型识别结果以及对象位置检测结果确定的样本目标对象和样本标签进行模型训练，从而获得准确确定待识别图像中目标对象位置的对象识别模型，基于此，当将待识别图像输入对象识别模型进行对象识别后，能够识别出位置准确的目标对象，避免目标对象不准确的问题。

参见图4，图4示出了根据本说明书一个实施例提供的一种对象识别模型训练方法的流程图，具体包括以下步骤。

步骤402：确定待训练对象识别模型的样本图像，以及所述样本图像对应的样本标签。

步骤404：将所述样本图像输入所述待训练对象识别模型，利用所述待训练对象识别模型对所述样本图像进行对象识别，获得多个样本候选对象，以及各样本候选对象对应的对象类型识别结果。

在本说明书提供的一个或多个实施例中，所述利用所述待训练对象识别模型对所述样本图像进行对象识别，获得多个样本候选对象，以及各样本候选对象对应的对象类型识别结果，包括：

利用所述待训练对象识别模型确定所述样本图像对应的样本图像特征；

利用所述待训练对象识别模型中的对象位置识别模块对所述样本图像特征进行对象位置识别，确定所述样本图像中多个样本候选对象的对象位置；

将所述多个样本候选对象的对象位置以及所述样本图像特征，输入所述待训练对象识别模型中的对象识别模块进行对象识别，获得所述样本图像中的多个样本候选对象；

利用所述待训练对象识别模型中的对象分类模块对各样本候选对象进行对象类型识别，确定所述各样本候选对象对应的对象类型识别分数。

下面以本说明书提供的对象识别模型训练方法在训练LN-DETR模型场景的应用为例进行说明。该LN-DETR框架由具有多尺度2.5D特征融合的CNN骨干网和Transformer编码器和解码器组成。CNN骨干网络能够进行多尺度2.5D特征融合。虽然3D环境对于LN检测至关重要，但3D检测器的性能通常不如使用大规模数据预训练权重初始化的2D模型。为了弥补这一差距，将中的2.5D特征级融合方案应用于LN-DETR。通过将来自多个级别的2.5D融合特征提供给Transformer编码器，以避免信息丢失并实现编码器层中的跨尺度令牌交互。具体来说，为了检测样本CT切片（即样本图像）中的LNs（即样本目标对象），从原始CT扫描中提取四个上下切片作为中心目标切片的三维背景。然后，将这9个连续的CT切片分成3组3通道图像。每个集合由共享的CNN主干独立处理，然后通过串联和转换将三个集合融合。之后，将原中心目标片的特征映射替换为融合后的特征映射，上下集的特征映射保持不变。

在获得候选图像特征之后，将切片集合的图像特征，通过flatten层进行一维化处理；将一维化处理后的切片图像的特征向量、和该切片特征向量对应的位置向量（PositionEmbedding）相加，获得2.5D图像令牌（2.5D Image tokens，可以理解为一种特征向量）；将该2.5D图像令牌输入Transformer编码器的编码层，获得编码层输出的特征向量（即样本图像特征）。

Transformer 编码器中包含预测模块（预测头prediction heads），该预测头由：IoU预测头（IoU prediction head 由单个MLP层组成）、分类头（classification head）、边框回归头（box regression heads）和掩码生成头（mask generation heads）构成，在获得编码层输出的特征向量之后，需要将该特征向量输入至Transformer 编码器中包含预测头中，利用边框回归头基于特征向量进行淋巴结位置框预测，从而通过位置框定位淋巴结所处的位置，从而确定淋巴结的位置框。通过掩码生成头基于淋巴结的位置框和特征向量进行淋巴结分割，从而提取从样本CT图像中的淋巴结。而该分类头基于特征向量进行淋巴结分类，从而对图像中的淋巴结进行分类评估，从而获得CT图像中每个淋巴结的分类分数。具体的，针对边框回归头：将样本CT切片图像对应的特征向量（即样本图像特征）输入至该边框回归头，该边框回归头能够基于该特征向量进行淋巴结位置框（也称为淋巴结边框）预测，识别出样本CT切片图像中的多个淋巴结位置框（即样本候选对象的对象位置）。基于该位置框，能够定位淋巴结所处的位置。

针对该掩码生成头：将样本CT切片图像对应的特征向量、以及淋巴结位置框输入至该掩码生成头。通过该掩码生成头，对淋巴结位置框所框定的淋巴结进行图像分割，获得该淋巴结图像对应的特征向量表示（即样本候选对象）。

针对分类头：将样本CT切片图像对应的特征向量、以及淋巴结位置框输入至该分类头，该分类头能够对淋巴结位置框所框定的淋巴结进行评估，确定该淋巴结的分类分数（即对象类型识别分数）。该分类分数越高，该淋巴结位置框所框定的物体为淋巴结的概率越高。

通过获得样本CT图像中每个淋巴结位置框、淋巴结图像以及淋巴结的分类分数，从而便于后续基于对象类型识别分数准确的从多个样本候选对象中确定样本目标对象。

步骤406：通过对所述多个样本候选对象的对象位置进行位置检测，获得所述各样本候选对象的对象位置检测结果。

本说明书提供的一个或多个实施例中，所述通过对所述多个样本候选对象的对象位置进行位置检测，获得所述各样本候选对象的对象位置检测结果，包括：

将所述多个样本候选对象的对象位置以及所述样本图像特征，输入所述待训练对象识别模型中的对象位置检测模块进行位置检测，获得所述各样本候选对象对应的对象位置检测分数。

沿用上例，为了选择分类和定位精度都很高的查询，需要对iou引导的查询选择模块进行训练，首先训练一个额外的IoU预测头。在Transformer编码器和所有具有共享参数的解码器层的最后一层引入预测头，用于预测查询的定位精度(IoU)。IoU预测头由单个MLP层(类似于)组成，与分类头、边框回归头和掩码生成头并行。具体针对该IoU预测头的执行过程为：将样本CT切片图像对应的特征向量、以及淋巴结位置框输入至该IoU预测头，利用该IoU预测头，对淋巴结位置框所框定的淋巴结进行定位分析，获得IoU评分（即IoU置信度）。后续可以使用IoU评分来估计查询定位质量，并利用IoU置信度来指导最后一层编码器的查询排序和选择该IoU预测头也应用于每个解码器层的查询，以提高IoU预测的准确性。

在本说明书提供的一个或多个实施例中，需要训练该IoU预测头。为了训练IoU预测头，使用GTs和匹配框预测之间的真实IoU值来监督IoU预测。给定具有M个GT boxes的CT切片（样本图像），将匹配的M个查询特征表示为{q1, q2，…， qM}，每个查询的IoU预测为。假设Hungarian Matching将第i个GT分配给第j个查询，那么可以计算查询框预测到匹配的GT框的IoU分数，记为/>。基于此，获得该IoU预测头预测的IoU分数。后续的IoU损失定义为下述公式1:

公式1

步骤408：基于所述对象类型识别结果以及所述对象位置检测结果，从所述多个样本候选对象中确定样本目标对象。

沿用上例，利用计算的IoU预测（定位置信度），通过将查询的IoU分数与其分类分数相乘来使用新的查询排名分数。根据编码器输出处的新的查询排名分数（更准确的LNs边界框）选择前K个查询（即样本目标对象）。

步骤410：基于所述样本目标对象以及所述样本标签，对待训练对象识别模型进行训练，获得对象识别模型。

本说明书提供的一个或多个实施例中，所述基于所述样本目标对象以及所述样本标签，对待训练对象识别模型进行训练，获得对象识别模型，包括：

确定所述样本标签包含的样本候选对象标签、对象类型识别分数标签、对象位置标签、对象位置检测分数标签以及样本目标对象标签；

基于所述对象类型识别分数以及所述对象类型识别分数标签确定第一损失值、基于所述对象位置以及所述对象位置标签确定第二损失值、基于所述样本候选对象标签与所述多个样本候选对象确定第三损失值、基于所述对象位置检测分数以及所述对象位置检测分数标签确定第四损失值；

基于所述样本目标对象以及所述样本目标对象标签，确定第五损失值；

基于所述第一损失值、所述第二损失值、所述第三损失值、所述第四损失值以及所述第五损失值，对所述待训练对象识别模型进行训练，直至达到模型训练停止条件，获得对象识别模型。

沿用上例，在训练阶段，总损失为原始损失，即分类头的损失值、边框回归头的损失值和掩码头的损失值，以及本说明书一个或多个实施例中提出的IoU预测损失和查询对比损失的组合，具体请参见下述公式2。

公式2

其中是指分类头的损失值，即第一损失值，/>是指边框回归头的损失值，即第二损失值，/>是指掩码头的损失值，即第三损失值，/>是指IoU预测损失，即第四损失值，/>是指查询对比损失，即第五损失值。/>至/>这多个损失值为每个损耗分量的权值，/>至/>这多个损失值保持与原始Mask DINO相同，根据实验设置，/>。在推理阶段，删除查询对比分支，并对编码器和解码器输出应用IoU引导的查询选择。通过上述总损失值对LN-DETR模型进行训练，直至达到模型训练停止条件。从而获得能准确识别目标对象对应的目标对象位置的对象识别模型，避免目标对象识别不准确的问题。

本说明书提供的一个或多个实施例中，所述基于所述样本目标对象以及所述样本目标对象标签，确定第五损失值，包括：

对所述样本目标对象标签进行噪声处理，获得样本目标对象标签对应的多个噪声对象标签，其中，所述多个噪声对象标签的数量与多个样本目标对象的数量为一致；

为多个样本目标对象确定对应的噪声对象标签，并计算各样本目标对象以及所述各样本目标对象对应的噪声对象标签进行关联，获得多个对象关联组；

计算各对象关联组中的样本目标对象和噪声对象标签之间的关联分数，并基于所述关联分数，将多个对象关联组划分为第一对象关联组和第二对象关联组；

基于所述第一对象关联组和所述第二对象关联组之间的相似度，确定第五损失值。

其中，样本目标对象标签可以理解为与样本目标对象对应的，作为样本标签的真实对象。例如，该样本目标对象标签可以为样本图像中真实淋巴结图像。

噪声对象标签可以理解为进行噪声处理后的样本目标对象标签。其中，该进行噪声处理可以理解为进行添加噪声和去噪处理。

关联分数可以理解为表征样本目标对象和噪声对象标签之间关联程度的分数，分数越高，样本目标对象和噪声对象标签之间越关联。

相似度可以理解为表征第一对象关联组和第二对象关联组之间的相似程度的数值，该数值越高，第一对象关联组和第二对象关联组越相似。

需要说明的是，为提高LN查询的表示质量，引入了IoU预测头和IoU引导的查询选择，以选择定位精度更高的LN查询作为解码器查询的初始化。此外，为了减少FP，提出了查询对比学习，目标是使与真实目标查询（从去噪锚框获得）相匹配的淋巴结查询，相对于未匹配的查询得到加强。通过在解码器的输出中引入了查询对比学习模块，该模块明确地将正查询增强为与其最匹配的基真(GT)查询(来自Mask DINO中的去噪训练)，而不是不匹配的负查询预测。从研究中可以看出，这两种成分有效地提高了LN检测性能。

沿用上例，在模型训练过程中引入查询对比学习，为了在特征级别上更好地将LNs与相似的相邻解剖结构或重复预测区分开来，在解码器的输出端引入了查询对比学习模块。正查询对和负查询对的构造和计算过程如下所示。

具体的，将K个查询结果作为初始化内容（Init contents），以及将预测位置框作为初始化建议（Init proposals），输入至Transformer 解码器中的解码层。同时，将GT向量（GT embeddings）和对应的GT框+噪声（GT boxes noise）输入至解码层，对添加噪声的GT向量进行去噪处理，即可获得多个去噪的GT查询（多个噪声对象标签），该GT查询由GT向量和GT真实标注框（即标签）构成。

本方案中，需要将每个GT及其最匹配的输出查询形成一个正查询对，而该GT的所有其他不匹配查询都作为负查询。在这种设置中，GT需要有其查询表示，例如，可以通过处理GT框和通过Transformer 解码器对嵌入标签进行导出。需要说明的是，构造正查询和负查询对的一种直观方法是使用匈牙利匹配结果：每个GT及其最匹配的输出查询形成一个正查询对，而该GT的所有其他不匹配查询都作为负查询。在这种设置中，GT需要有其查询表示，例如，可以通过处理GT框和通过转换器解码器嵌入标签来导出。而通过Mask DINO中的去噪训练过程，可以很容易地获得GT查询。因此，利用多组去噪训练，可以获得与同一GT对应的多个GT查询，以形成多个正对，这鼓励了更多的发散性和鲁棒性，进一步有利于对比学习。

具体来说，假设有N个去噪组，每个组包含M个去噪的GT查询，即锚点查询，因此总的锚点查询为下述公式3所示：

公式3

其中M是CT切片中的GT LN框的数量。将K个查询结果以及对应的预测位置框，与去噪组中的GT查询相匹配，假设第K个查询结果与CT切片中第i个GT的匹配代价（即关联分数）最小，则为与N个锚点查询/>配对为正查询对，其他未匹配的K-1查询结果作为/>的负查询对。

之后可以对正查询对和负查询对进行对比计算，通过对比计算，计算所有正锚对（正查询对）和负锚对（负查询对）之间的相似度，基于该相似度确定损失值。具体的，本方案没有直接测量不同查询嵌入之间的相似性，而是首先使用简单的共享MLP层φ将查询嵌入投影到潜在空间中。通过投影查询嵌入，计算所有正锚和负锚对之间的相似度。之后采用InfoNCE损失（即查询对比损失）将匹配的正查询拉近其指定的锚查询，同时远离所有其他不匹配的负查询。给定CT切片的总查询对比损失公式，如下述公式4所示。

公式4

其中为余弦相似度，τ为温度系数，设为0.05。将这种对比度损失应用于最后一层解码器的输出查询。

在本说明书提供的一个或多个实施例中，在完成模型训练之后，会对训练后的对象识别模型进行评估，具体的，首先在LN检测任务中评估LN- DETR，其中，收集了7个不同身体部位和疾病的LN数据集，共包含多名患者和10,000多个标记LN实例。其中5个数据集用于模型开发和内部测试，其余2个数据集作为独立的外部测试。比较了基于CNN和Transformer的检测和分割方法。为了进一步证明LN- DETR的有效性，使用DeepLesion数据集进行训练和评估的结果。具体针对该对象识别模型的数据集和评估指标的内容，可以参见下述描述。针对LN数据集:收集和整理了7个LN数据集，包括多名患者，其中有10,000多个注释的LN，包含不同的身体部位(颈部、胸部和上腹部),以及不同的疾病（头颈癌症、癌症、癌症、COVID和其他疾病），具体参见表1。

表1

其中，表1中的数据集列，是指提供7个LN检测数据集的数据源，该数据集列中的“NIH-LN”是一个公共数据集；中心1、中心2、中心3、中心4、中心5是指五个不同的临床中心，用于表示数据集可以是从五个不同的临床中心收集的内部数据集，HN、Eso和Mul分别代表头颈癌症、癌症和多种疾病。因此，数据集列中的“中心1 HN”和“中心5 HN”可以是指临床中心1和临床中心5提供的头颈癌症数据；“中心2 Eso”和“中心3 Eso”可以是指临床中心2和临床中心3提供的癌症数据；“中心2 肺”是指临床中心2提供的肺部疾病（例如肺癌）数据；“中心4 Mul”是指临床中心4提供的多种疾病数据。

需要说明的是，表1中第八行（即最后一行）是用于统计数值总数，比如，第八行中的“全部的”，用于表示统计全部数据源的数值总数。

表1中的#Patient列是指病人数量。也即是说，该#Patient列中展示每个数据源提供的数据来自于多少名的病人。比如，表1中第一行的#Patient列中的数值为“89”，表示“NIH-LN”公共数据集中的数据来自于89名病人。同理，#Patient列中的其他数值，用于表示各临床中心提供的数据来自于多少名的病人。

需要说明的是，表1中第八行中的“1067”，表示全部数据源提供的数据来自于1067名病人。

表1中的#LNs列是指每个数据集中淋巴结（LNs）的数量，也即是说，该#LNs列中展示每个数据源提供的数据中所包含的淋巴结的数量。比如，表1中第一行的#LNs列中的数值为“1956”，表示“NIH-LN”公共数据集中的淋巴结数量为1956个。同理，#LNs列中的其他数值，用于表示各临床中心提供的数据中所包含的淋巴结的数量。

需要说明的是，表1中第八行中的“10435”，表示全部数据源提供的数据中，所包含的淋巴结的数量为10435个。

其中，表1中的平均分辨率（mm）列是指每个数据集中数据的平均分辨率。该数据集中的数据可以为CT图像，因此，该平均分辨率是指CT图像的平均分辨率。比如，表1中第一行的平均分辨率（mm）列中的数值为“（0.82,0.82,2.0）”，表示“NIH-LN”公共数据集中的CT图像的平均分辨率为（0.82,0.82,2.0）。同理，平均分辨率（mm）列中的其他数值，用于表示各临床中心提供的CT图像的平均分辨率。

其中，表1中的背景列是指各数据集的用途，表1统计了7个LN检测数据集，其中5个作为模型开发和内部测试的内部数据，其余2个作为独立的外部测试集。

上述数据集，具有放大（短轴>1cm）和较小尺寸的LNs。表1展示了详细的患者数量、LN数量、成像方案和评估设置。虽然NIH-LN是一个公共LN数据集，但其余六个数据集来自五个临床中心，本说明书提供的对象识别模型训练方法使用NIH-LN和1-3中心的4个数据集（涵盖头颈癌、食道癌和肺癌）作为内部数据集来开发和内部测试模型性能。来自中心4和5的数据集用作独立的外部测试集，其中，中心4 Mul包含三种不同类型的患者，即肺癌癌症、癌症和传染性肺病。

对于五个内部数据集，可以将每个数据集随机分为70%的训练、10%的验证和20%的患者级测试。将五个数据集的训练和验证数据一起用于开发和选择LN检测模型，并保留五个数据集中的休息测试患者来报告内部测试结果。通用病灶数据集：DeepDisease可以由4427名患者的32735个病变组成。它包含多种病变，包括肺结节、肝/肾/骨病变、增大的淋巴结等。使用官方的训练/验证/测试分割，并在测试集上报告结果。

其中，针对评估指标：对于LN检测，本说明书提供的对象识别模型训练方法，使用自由反应受试者工作特性（FROC）曲线作为评估指标，并报告每个患者/CT体积0.5，1，2，4FPs的灵敏度/召回率。将所有方法的2D检测框合并为3D检测框。当将检测到的3D框与GT 3D框进行比较时，如果它们在检测到的边界框比率（IoBB）上的3D交点大于0.3，则预测框被视为真阳性。对于淋巴结检测，由于转移性淋巴结可能小到5毫米，可以将后处理尺寸阈值设置为5mm，以便在推理过程中检测到放大的和较小的LNs(短轴≥5mm)。如果检测到小于5mm的GT LN，则不计入TP和FP。在训练中，本说明书提供的对象识别模型训练方法，使用各种大小的LN注释，对于DeepLesion检测，使用其官方评估指标，即每张图像/ct切片在0.5、1、2、4FPs时的灵敏度/召回率。DeepLesion报告的召回率是基于2D图像/ct切片的，因此，这里没有执行3D盒合并操作。

本说明图提供的一个或多个实施例中，本说明书提供的对象识别模型训练方法，对LN检测进行了广泛的对比评估，包括通用目标检测方法以及两种实例分割方法。

需要说明的是，在本说明书提供的一个或多个实施例中，使用ResNet作为CNN主干进行特征提取。该模型使用COCO数据集上预训练的权重初始化。在训练过程中，使用8个batch大小，起始学习率为。余弦学习率调度器用于将学习率降低到1e-5，预热步长为500。设置/>的权重衰减以避免过度拟合。并且，通过将三维CT体归一化为0.8×0.8×2mm的分辨率，并随机应用水平翻转、裁剪、缩放和随机噪声来增强训练数据。

ResNet中的所有块都采用2.5D融合，最后三个块的输出发送到Transformer编码器。将位置嵌入和水平嵌入添加到编码器中的扁平标记中，提供空间和水平位置先验。为了在编码器之后生成初始内容查询和锚框，根据提出的iou引导排名标准选择前300个查询。在解码器中，将去噪查询的数量设置为100。在推理过程中，选择排名前20的查询预测作为最终的LN检测输出。

在本说明书提供的一个或多个实施例中，考虑到疾病类型数据集需要详细信息，因此，收集和整理了七个LN数据集。其中，NIH-LN是一个公共LN数据集，其余六个数据集来自五个临床中心。具体而言，NIH-LN包括89名癌症患者。临床中心1-HN包括256名头部和颈部癌症患者。临床中心2提供91名食管癌症患者（表示为临床中心2-Eso）和97名癌症患者（表示为由临床中心2-lung）。临床中心3-Eso由另外300名癌症食管癌患者组成。临床中心1-3加上NIH-LN作为内部数据来开发和内部测试LN检测性能。来自临床中心4和临床中心5的数据集用作独立的外部测试数据，其中临床中心-Mul。包括184名不同类型疾病（肺癌、癌症食管癌和传染性肺病）的患者，临床中心-HN包括50名癌症头颈部患者。

在本说明书提供的一个或多个实施例中，采用ResNet作为主干。在训练过程中，为了进一步收敛，总训练次数增加到50次，其他设置与LN-DETR相同。在推理过程中，这些实例分割方法的LN边界框是由它们的掩码预测得到的。

在本说明书提供的一个或多个实施例中，训练获得的对象检测模型，验证了所提出的多尺度2.5D融合、IoU引导的查询选择（IQS）和对比学习（CL）的有效性，结果汇总在表2中。

表2

其中，表2中的“2.5D”是指多尺度2.5D融合，“CL”是指对比学习，“IQS”是指IoU引导的查询选择。基于此，表2中的第一列是指，从“2.5D”、“IQS”以及“IQS”中选择不同的方案进行淋巴结识别。比如，表2第二行第一列“√”（位于“2.5D”下方）是指选择多尺度2.5D融合的方案进行淋巴结识别。同理，表2第三行第一列“√ √”（位于“2.5D”和“CL”下方）是指选择多尺度2.5D融合以及对比学习搭配的方案进行淋巴结识别。从而通过此种方式，表示从“2.5D”、“IQS”以及“IQS”中选择不同的方案进行淋巴结识别。

其中，表2中的第二列表示，从“2.5D”、“IQS”以及“IQS”中选择不同的方案进行淋巴结识别的过程中，各淋巴结识别方案的有效性，该有效性通过FPs召回率表示（即表2中的召回率(%)@FPs）。

第二列中的“@0.5”是指采用0.5FPs（FPs是指高假阳性）的样本数据；第二列中的“@1”是指采用1FPs的样本数据；第二列中的“@2”是指采用2FPs的样本数据；第二列中的“@4”是指采用4FPs的样本数据。需要说明的是，在确定@0.5、@1、@2以及@4之后，测试多个淋巴结识别方案在@0.5、@1、@2以及@4上的召回率。第二列中的“平均”是指@0.5、@1、@2以及@4的平均召回率。

其中，表2第二列中的多个数值，分别表示各种搭配的淋巴结识别方案，在@0.5、@1、@2以及@4上的召回率以及平均召回率。比如，表2中第二行第二列中“39.34”是指多尺度2.5D融合的方案在0.5FPs的样本数据上的召回率为39.34。表2中第二行第二列中“47.09”是指多尺度2.5D融合的方案在1FPs的样本数据上的召回率为47.09。表2中第二行第二列中“51.32”是指多尺度2.5D融合的方案在@0.5、@1、@2以及@4上的召回率的平均值（即平均召回率）。同理，表2第二列中的其他数值也用于表示多种淋巴结识别方案，在@0.5、@1、@2以及@4上的召回率以及平均召回率。

需要说明的是，需要说明的是，表2第一行是指通过其他淋巴结识别方案，在@0.5、@1、@2以及@4上进行淋巴结识别的召回率和平均召回率。

具体的，LN-DETR的三个组成部分，即2.5D特征融合、IoU引导的查询选择和查询对比学习的有效性在表2中得到了证明。首先，2.5D特征融合在0.5至4 FPs/患者范围内的平均召回率提高了1.08%(即表2中的+1.08%，表示平均召回率从51.32%提高到52.40%)。其次，在2.5D融合的基础（平均召回率52.40%）上，仅使用查询对比学习和iou引导的查询选择，LN检测的平均召回率分别提高了1.04%(从52.40%提高到53.44%)和2.11%(从52.40%提高到54.51%)。更重要的是，结合这两个模块，LN-DETR将平均召回率提高了近4%。

需要说明的是，表2中的“+2.12%”、“+3.19%”以及“+4.95%”表示，与其他其他淋巴结识别方案的平均召回率（51.32%）相比，提高了2.12%、3.19%以及4.95%。

基于上述实施例可知，本说明书提供的对象识别模型训练方法，训练了一种利用Transformer中的位置增强查询选择和对比查询表示在CT扫描中有效检测淋巴结的模型。也即是一种LN检测TransformerLN-DETR，它结合了IoU引导的查询选择和对比查询学习来增强LN查询的表示能力，这对于提高检测灵敏度和减少FP或重复预测至关重要。还通过采用有效的多尺度2.5D融合方案来结合3D环境来增强LN-DETR。通过对多例患者的CT扫描进行训练和评估，本说明书提供的对象识别模型训练方法在内部(5个数据集)和外部(2个数据集)测试中显著提高了至少的平均召回率。并且使用DeepLesion数据集进一步评估了LN-DETR在通用病灶检测任务上的效果，并通过达到较好的性能来证明其有效性。当使用DeepDisease对普通病变检测任务进行进一步评估时，本方法在每张图像0.5到4个FP的平均召回率上达到了88.46%的最高性能。

本说明书提供的对象识别模型训练方法，解决了淋巴结检测的关键但具有挑战性的任务。基于最新的Transformer检测/分割框架Mask DINO，通过提出了一种新的LN检测TransformerLN- DETR，以实现更准确的性能。并且，通过引入了一种具有较高定位精度的io引导查询选择作为解码器查询的初始化，并引入了查询对比学习模块来提高学习查询的质量，减少假阳性和重复预测。本说明书提供的对象识别模型训练方法，在多例患者的3DCT扫描上进行了训练和测试，这些患者有10,000多个标记的LN(迄今为止最大的LN数据集)，在内部和外部测试中显著提高了至少的平均召回率。当使用DeepLesion对通用病灶检测任务进行进一步评估时，LN-DETR达到了88.47%的召回率。

本说明书提供的对象识别模型训练方法，利用待训练对象识别模型对样本图像进行对象识别，获得多个样本候选对象，以及各样本候选对象对应的对象类型识别结果；并通过对多个样本候选对象的对象位置进行位置检测，获得对象位置检测结果；之后通过利用对象类型识别结果以及对象位置检测结果确定的样本目标对象以及样本标签，对待训练对象识别模型进行训练，获得能准确识别目标对象对应的目标对象位置的对象识别模型，避免目标对象识别不准确的问题。

下述结合附图5，以本说明书提供的对象识别模型训练方法在淋巴结识别场景下的应用为例，对所述对象识别模型训练方法进行进一步说明。其中，图5示出了本说明书一个实施例提供的一种对象识别模型训练方法的处理过程流程图，需要说明的是，图5提供给第一部分和第二部分这两个部分，对所述对象识别模型训练方法的处理过程流程进行展示，具体包括以下步骤。

步骤502：获取原始CT扫描作为训练样本，为了检测目标CT切片中的淋巴结（LNs），从原始CT扫描中提取多个切片。

具体的，获取大规模的LN CT扫描作为样本数据，该CT扫描中包含来自多名患者的、具有10000多个人工标注的淋巴结(LN)勾画，并且涉及不同的身体部位和疾病。

将该样本数据分为训练样本集、测试样本集；分别用于进行模型训练和模型测试。

其中，从原始CT扫描中提取多个切片的步骤为：

首先：原始CT扫描中确定目标CT切片。其中，该原始CT扫描：是一个病人身体的3DCT扫描图像。目标CT切片：是3D CT扫描图像中最接近淋巴结（LNs）位置的图像切片（一个截面）。

其次，以目标CT切片为中心，从原始CT扫描中提取四个上切片、和四个下切片作为中心目标CT切片的三维背景。

步骤504：对多个切片进行串联和转换处理，获得融合特征。

首先：将这9个连续的CT切片分成3组3通道图像，也就是3个切片集合。例如，切片集合1中包含4个上切片、切片集合2中包含4个下切片、切片集合2中包含1个目标CT切片。

其次，将切片集合作为训练样本输入到模型中，每个集合由共享的CNN骨干网络（CNN backbone）独立处理。

再次，对三个切片集合进行特征提取，获得对应的图像特征（即特征映射），并通过串联和转换处理，将三个切片集合对应的图像特征进行融合，获得融合后的图像特征。

最后，将切片集合中的原中心目标片的图像特征，替换为融合后的图像特征，其他2个集合的图像特征保持不变。

步骤506：将切片集合，通过flatten层进行一维化处理，获得一维化的图像特征向量。

步骤508：将一维化处理后的图像特征向量和该图像特征向量对应的位置向量（Position Embedding）相加，获得2.5D图像令牌（即2.5D Image tokens，可以理解为一种特征向量）；并将该2.5D图像令牌输入Transformer 编码器所包含的编码层。

步骤510：将Transformer 编码层输出的特征向量，输入至Transformer 编码器所包含的预测头（prediction heads），该预测头负责预测CT切片图像中的淋巴结（LNs）位置框、iou分数、分类分数以及淋巴结图像。

具体的，该预测头中包含：IoU预测头（IoU prediction head 由单个MLP层组成）、分类头（classification head）、边框回归头（box regression heads）和掩码生成头（maskgeneration heads）。

其中，针对边框回归头：将CT切片图像对应的特征向量输入至该边框回归头，该边框回归头能够基于该特征向量进行淋巴结位置框（也称为淋巴结边框）预测，识别出CT切片图像中的多个淋巴结位置框。基于该位置框，能够定位淋巴结所处的位置。

针对该IoU预测头：将CT切片图像对应的特征向量、以及淋巴结位置框输入至该IoU预测头，利用该IoU预测头，对淋巴结位置框所框定的淋巴结进行定位分析，获得IoU评分（即IoU置信度）。后续可以使用IoU评分来估计查询定位质量，并利用IoU置信度来指导最后一层编码器的查询排序和选择。

需要说明的是，在进行模型训练的过程中，会通过样本图像和样本标签，对上述IoU预测头、分类头、边框回归头和掩码生成头进行训练。本步骤510中基于样本CT图像所获得的淋巴结位置框、分类分数、淋巴结图像、IoU评分，可以在后续用于计算损失函数。

以IoU预测头的训练过程为例，具体该IoU预测头的训练过程为：

首先，将CT切片的分类分数以及淋巴结框之间的真实IoU作为标签；将CT切片图像作为样本图像。其中，该标签可以为：GTs和匹配框（淋巴结位置框）预测之间的真实IoU值，用于监督IoU预测。

其次，将样本图像对应的特征向量输入至边框回归头，确定样本图像中淋巴结的位置框。

再次，将该样本图像的特性向量和淋巴结位置框，输入至IoU预测头，获得淋巴结位置框对应的IoU评分。

最后，在损失计算阶段，假设Hungarian Matching将第i个GT分配给第j个查询，那么可以计算第j个查询的位置框，和相匹配的GT框之间的IoU分数，第i个GT的IoU损失定义为：

步骤512：对于步骤514中获得的多个查询结果，将查询结果的IoU分数与分类分数相乘，获得新的查询结果排名分数，并选择分数最高的K个查询结果以及对应的预测位置框。

其中，该查询结果是指：淋巴结对应的分类分数、淋巴结图像、IoU评分。

预测位置框是指：淋巴结的位置框。

步骤514：将K个查询结果作为初始化内容（Init contents），以及将预测位置框作为初始化建议（Init proposals），输入至Transformer 解码器中的解码层。同时，将GT向量（GT embeddings）和对应的GT框+噪声（GT boxes noise）输入至解码层。

需要说明的是，GT是指：一张图像中的人为标注框(Ground-Truth)，也即是标签；而使用算法估计的位置框框为predictions,可以称之为Bboxes，即bounding boxes。

具体的，本方案中，需要将每个GT及其最匹配的输出查询形成一个正查询对，而该GT的所有其他不匹配查询都作为负查询。在这种设置中，GT需要有其查询表示，例如，可以通过处理GT框和通过Transformer 解码器对嵌入标签进行导出。

步骤516：对解码层输出的特征向量进行去噪处理（Denoise），并进行匹配。

具体方式为：

首先，对添加噪声的GT向量进行去噪处理，即可获得多个去噪的GT查询，该GT查询由GT向量和GT真实标注框（即标签）构成。假设，进行去噪处理后有N个去噪组，每个组包含M个去噪的GT查询，即锚点查询，因此总的锚点查询为：

其中，M是CT切片中的GT LN框的数量。

步骤518：将K个查询结果以及对应的预测位置框，与去噪组中的GT查询相匹配（Matching）。

假设第K个查询结果与CT切片中第i个GT的匹配代价最小，则为与N个锚点查询/>配对为正查询对，其他未匹配的K-1查询结果作为/>的负查询对。

步骤520：通过对比计算，计算所有正锚对（正查询对）和负锚对（负查询对）之间的相似度，基于该相似度确定损失值。

例如，可以使用共享MLP层将查询对的嵌入投影到潜在空间中。通过投影查询嵌入，计算所有正锚对和负锚对之间的相似度。

之后，采用InfoNCE损失将匹配的正查询拉近其指定的锚点查询，同时远离所有其他不匹配的负查询。基于此，给定CT切片的总查询对比损失公式参见上述公式4。

步骤522：计算总损失值。

在训练阶段，总损失为原始损失，即分类头的损失值、边框回归头的损失值和掩码头的损失值，以及上述步骤中提出的IoU预测损失、查询对比损失的组合，具体可参见上述公式2。

其中，分类头的损失值：通过分类头对样本图像进行处理获得的分类分数，与该分类头对应的样本标签（即真实的淋巴结分类分数）计算获得。

边框回归头的损失值：通过边框回归头对样本图像进行处理获得的淋巴结位置框，与该边框回归头对应的样本标签（即上述GT框，真实的淋巴结位置框）计算获得。

掩码头的损失值：通过掩码头对样本图像进行图像分割获得的淋巴结图像，与该掩码头对应的样本标签（即上述真实的淋巴结图像）计算获得。

通过该总损失值对LN-DETR模型进行训练，直至达到模型训练停止条件。

需要说明的是，当模型训练完成、对该LN-DETR模型进行应用的过程中。可以将患者的CT图像输入至LN-DETR模型进行淋巴结识别，具体步骤为：

首先：通过LN-DETR模型中的CNN骨干网络对CT图像进行图像处理，获得图像特征向量，并将该图像特征向量输入至Transformer 的编码器。

其次，Transformer 编码器包含的编码层对该图像特征向量进行编码处理，并将输出的特征向量输入至Transformer 编码器包含的预测头，利用IoU预测头、分类头、边框回归头和掩码生成头进行处理，获得该CT图像对应的淋巴结位置框、分类分数、淋巴结图像、IoU评分。

再次，将查询结果的IoU分数与分类分数相乘，获得新的查询结果排名分数，并选择分数最高的K个查询结果以及对应的预测位置框，输入至Transformer 解码器。

最后，Transformer 解码器包含的编码层K个查询结果以及对应的预测位置框进行解码，输出准确度较高的多个淋巴结查询结果。

基于上述步骤可知，本说明书提供的对象识别模型训练方法，是一种能够同时检测多个身体部位（涵盖从头颈部、胸部、上腹部）所有可见5mm以上淋巴结的方案，也是一个基于Transformer框架的淋巴结检测方法。通过在模型中添加了2.5D特征融合技术特征，并提出了定位增强的查询选择(location-enhanced query selection)和查询的对比学习表达(contrastive query representation)来提升检测准确性。并且，本方案除了在淋巴结检测任务上取得较好的性能，在通用病灶检测任务上也取得较好的性能，将为后续淋巴结相关任务提供基础支持。

本说明书实施例还提供了一种肝脏CT图像中的病灶识别方法，包括：

确定包含病灶的肝脏CT图像；

其中，所述病灶识别模型通过上述实施例中的对象识别模型训练方法训练获得。该病灶识别模型可以理解为上述一种目标对象识别方法，或者对象识别模型训练方法中的对象识别模型，该目标病灶可以理解为上述一种目标对象识别方法中的目标对象。

其中，包含病灶的肝脏CT图像可以理解为上述实施例中一种目标对象识别方法的待识别图像。

本说明书提供的肝脏CT图像中的病灶识别方法，该病灶识别模型在训练过程中需要确定包含病灶的肝脏CT样本图像中的多个样本候选病灶，以及该多个样本候选病灶的病灶类型识别结果以及病灶位置检测结果，其中，该病灶位置检测结果是通过对所述多个样本候选病灶的病灶位置进行位置检测获得。然后基于病灶类型识别结果以及病灶位置检测结果确定的样本目标病灶和样本标签进行模型训练，从而获得准确确定包含病灶的肝脏CT图像中目标病灶位置的对象识别模型，基于此，当将包含病灶的肝脏CT图像输入病灶识别模型进行病灶识别后，能够识别出位置准确的目标病灶，避免目标病灶不准确的问题。

上述为本实施例的一种肝脏CT图像中的病灶识别方法的示意性方案。需要说明的是，该肝脏CT图像中的病灶识别方法的技术方案与上述的目标对象识别方法以及对象识别模型训练方法的技术方案属于同一构思，肝脏CT图像中的病灶识别方法的技术方案未详细描述的细节内容，均可以参见上述目标对象识别方法以及对象识别模型训练方法的技术方案的描述。

本说明书实施例还提供了一种目标对象处理方法，应用于医疗系统的客户端，包括：

将所述目标对象通过所述展示界面展示给所述用户。

本说明书一个或多个实施例提供的目标对象处理方法，用户通过客户端将待识别医学图像发送至服务端之后，通过服务端的对象识别模型对待识别医学图像进行对象识别处理，并输出目标对象。由于对象识别模型在训练过程中需要确定样本医学图像中的多个样本候选对象，以及该多个样本候选对象的对象类型识别结果以及对象位置检测结果，其中，该对象位置检测结果是通过对所述多个样本候选对象的对象位置进行位置检测获得。然后基于样本标签以及通过对象类型识别结果和对象位置检测结果确定的样本目标对象进行模型训练，从而获得准确识别出待识别医学图像中目标对象位置的对象识别模型，基于此，当将待识别医学图像输入对象识别模型进行对象识别的过程中，能够识别出位置准确的目标对象，避免目标对象不准确的问题。并且，通过客户端的展示界面将目标对象展示给所述用户，避免使用户获知到不准确的目标对象的问题。

上述为本实施例的一种目标对象处理方法的示意性方案。需要说明的是，该目标对象处理方法的技术方案与所述的目标对象识别方法、对象识别模型训练方法、肝脏CT图像中的病灶识别方法、以及信息处理方法的技术方案属于同一构思，目标对象处理方法的技术方案未详细描述的细节内容，均可以参见上述目标对象识别方法、对象识别模型训练方法、肝脏CT图像中的病灶识别方法、以及信息处理方法的技术方案的描述。

本说明书实施例还提供了一种信息处理方法，包括：

确定待识别医学图像；

其中，该信息处理结果可以理解为具体疾病的诊断结果，例如，淋巴癌的诊断结果、肺癌的诊断结果等。

本说明书一个或多个实施例提供的信息处理方法，该对象识别模型在训练过程中需要确定样本医学图像中的多个样本候选对象，以及该多个样本候选对象的对象类型识别结果以及对象位置检测结果，其中，该对象位置检测结果是通过对所述多个样本候选对象的对象位置进行位置检测获得。然后基于样本标签以及通过对象类型识别结果和对象位置检测结果确定的样本目标对象进行模型训练，从而获得准确识别出待识别医学图像中目标对象位置的对象识别模型，基于此，当将待识别医学图像输入对象识别模型进行对象识别的过程中，能够识别出位置准确的目标对象，避免目标对象不准确的问题。进一步的，基于准确的目标对象确定信息处理结果的过程中，能够保证信息处理结果的准确度，避免获得错误的信息处理结果。

上述为本实施例的一种信息处理方法的示意性方案。需要说明的是，该信息处理方法的技术方案与所述的目标对象识别方法、对象识别模型训练方法、肝脏CT图像中的病灶识别方法、以及目标对象处理方法的技术方案属于同一构思，信息处理方法的技术方案未详细描述的细节内容，均可以参见上述目标对象识别方法、对象识别模型训练方法、肝脏CT图像中的病灶识别方法、以及目标对象处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了目标对象识别装置实施例，该装置包括：

图像确定模块，被配置为确定待识别图像；

可选地，所述对象识别模块，还被配置为：

将所述待识别图像输入对象识别模型，利用所述对象识别模型确定所述待识别图像中的多个候选对象，并确认各候选对象的对象类型识别结果以及对象位置检测结果；

基于所述对象类型识别结果以及所述对象位置检测结果，从所述多个候选对象中确定所述目标对象。

可选地，所述对象识别模块，还被配置为：

可选地，所述对象位置检测结果为对象位置检测分数，所述对象类型识别结果为对象类型识别分数；

所述对象识别模块，还被配置为：

可选地，所述图像确定模块，还被配置为：

可选地，所述目标对象识别装置还包括模型训练模块，被配置为：

本说明书提供的目标对象识别装置，该对象识别模型在训练过程中需要确定样本图像中的多个样本候选对象，以及该多个样本候选对象的对象类型识别结果以及对象位置检测结果，其中，该对象位置检测结果是通过对所述多个样本候选对象的对象位置进行位置检测获得。然后基于对象类型识别结果以及对象位置检测结果确定的样本目标对象和样本标签进行模型训练，从而获得准确确定待识别图像中目标对象位置的对象识别模型，基于此，当将待识别图像输入对象识别模型进行对象识别后，能够识别出位置准确的目标对象，避免目标对象不准确的问题。

上述为本实施例的一种目标对象识别装置的示意性方案。需要说明的是，该目标对象识别装置的技术方案与上述的目标对象识别方法的技术方案属于同一构思，目标对象识别装置的技术方案未详细描述的细节内容，均可以参见上述目标对象识别方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了对象识别模型训练装置实施例，该装置包括：

可选地，所述样本候选对象识别模块，还被配置为：

可选地，所述位置检测模块，还被配置为：

可选地，所述模型训练模块，还被配置为：

本说明书提供的对象识别模型训练装置，利用待训练对象识别模型对样本图像进行对象识别，获得多个样本候选对象，以及各样本候选对象对应的对象类型识别结果；并通过对多个样本候选对象的对象位置进行位置检测，获得对象位置检测结果；之后通过利用对象类型识别结果以及对象位置检测结果确定的样本目标对象以及样本标签，对待训练对象识别模型进行训练，获得能准确识别目标对象对应的目标对象位置的对象识别模型，避免目标对象识别不准确的问题。

上述为本实施例的一种对象识别模型训练装置的示意性方案。需要说明的是，该对象识别模型训练装置的技术方案与上述的对象识别模型训练方法的技术方案属于同一构思，对象识别模型训练装置的技术方案未详细描述的细节内容，均可以参见上述对象识别模型训练方法的技术方案的描述。

图6示出了根据本说明书一个实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网（PSTN，Public SwitchedTelephone Network）、局域网（LAN，Local Area Network）、广域网（WAN，Wide AreaNetwork）、个域网（PAN，Personal Area Network）或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口（例如，网络接口卡（NIC，networkinterface controller））中的一个或多个，诸如IEEE802.11无线局域网（WLAN，WirelessLocal Area Network）无线接口、全球微波互联接入（Wi-MAX，WorldwideInteroperability for Microwave Access）接口、以太网接口、通用串行总线（USB，Universal Serial Bus）接口、蜂窝网络接口、蓝牙接口、近场通信（NFC，Near FieldCommunication）。

在本说明书的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备（例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等）、移动电话（例如，智能手机）、可佩戴的计算设备（例如，智能手表、智能眼镜等）或其他类型的移动设备，或者诸如台式计算机或个人计算机（PC，Personal Computer）的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述目标对象识别方法、对象识别模型训练方法、肝脏CT图像中的病灶识别方法、目标对象处理方法或者信息处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的目标对象识别方法、对象识别模型训练方法、肝脏CT图像中的病灶识别方法、目标对象处理方法或者信息处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述目标对象识别方法、对象识别模型训练方法、肝脏CT图像中的病灶识别方法、目标对象处理方法或者信息处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述目标对象识别方法、对象识别模型训练方法、肝脏CT图像中的病灶识别方法、目标对象处理方法或者信息处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的目标对象识别方法、对象识别模型训练方法、肝脏CT图像中的病灶识别方法、目标对象处理方法或者信息处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述目标对象识别方法、对象识别模型训练方法、肝脏CT图像中的病灶识别方法、目标对象处理方法或者信息处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序产品，其中，当所述计算机程序产品在计算机中执行时，令计算机执行上述目标对象识别方法、对象识别模型训练方法、肝脏CT图像中的病灶识别方法、目标对象处理方法或者信息处理方法的步骤。

上述为本实施例的一种计算机程序产品的示意性方案。需要说明的是，该计算机程序产品的技术方案与上述的目标对象识别方法、对象识别模型训练方法、肝脏CT图像中的病灶识别方法、目标对象处理方法或者信息处理方法的技术方案属于同一构思，计算机程序产品的技术方案未详细描述的细节内容，均可以参见上述目标对象识别方法、对象识别模型训练方法、肝脏CT图像中的病灶识别方法、目标对象处理方法或者信息处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序产品代码，所述计算机程序产品代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序产品代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减，例如在某些地区，根据专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种目标对象识别方法，包括：

确定待识别图像；

2.根据权利要求1所述的目标对象识别方法，所述将所述待识别图像输入对象识别模型进行对象识别，获得所述待识别图像中的目标对象，包括：

3.根据权利要求2所述的目标对象识别方法，所述利用所述对象识别模型确定所述待识别图像中的多个候选对象，并确认各候选对象的对象类型识别结果以及对象位置检测结果，包括：

4.根据权利要求3所述的目标对象识别方法，所述利用所述对象识别模型确定所述待识别图像对应的待识别图像特征，包括：

5.根据权利要求4所述的目标对象识别方法，所述利用所述对象识别模型中的图像处理模块对所述待识别图像进行处理，获得候选图像特征，包括：

6.根据权利要求3所述的目标对象识别方法，所述对所述待识别图像特征进行对象识别，确定所述待识别图像中的多个候选对象，以及所述多个候选对象的对象类型识别结果，包括：

7.根据权利要求6所述的目标对象识别方法，所述对所述多个候选对象的对象位置进行位置检测，获得各候选对象对应的对象位置检测结果，包括：

8.根据权利要求2所述的目标对象识别方法，所述对象位置检测结果为对象位置检测分数，所述对象类型识别结果为对象类型识别分数；

9.根据权利要求1所述的目标对象识别方法，所述确定待识别图像，包括：

10.根据权利要求1所述的目标对象识别方法，所述将所述待识别图像输入对象识别模型进行对象识别，获得所述待识别图像中的目标对象之前，还包括：

11.一种对象识别模型训练方法，包括：

12.根据权利要求11所述的对象识别模型训练方法，所述利用所述待训练对象识别模型对所述样本图像进行对象识别，获得多个样本候选对象，以及各样本候选对象对应的对象类型识别结果，包括：

13.根据权利要求12所述的对象识别模型训练方法，所述通过对所述多个样本候选对象的对象位置进行位置检测，获得所述各样本候选对象的对象位置检测结果，包括：

14.根据权利要求13所述的对象识别模型训练方法，所述基于所述样本目标对象以及所述样本标签，对待训练对象识别模型进行训练，获得对象识别模型，包括：

15.根据权利要求13所述的对象识别模型训练方法，所述基于所述样本目标对象以及所述样本目标对象标签，确定第五损失值，包括：

16.一种目标对象处理方法，应用于医疗系统的客户端，包括：

将所述目标对象通过所述展示界面展示给所述用户。

17.一种信息处理方法，包括：

确定待识别医学图像；

18.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述目标对象识别方法、权利要求11至15任意一项所述对象识别模型训练方法、权利要求16任意一项目标对象处理方法或者权利要求17任意一项信息处理方法的步骤。

19.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述目标对象识别方法、权利要求11至15任意一项所述对象识别模型训练方法、权利要求16任意一项目标对象处理方法或者权利要求17任意一项信息处理方法的步骤。

20.一种计算机程序产品，其中，当所述计算机程序产品在计算机中执行时，令计算机执行权利要求1至10任意一项所述目标对象识别方法、权利要求11至15任意一项所述对象识别模型训练方法、权利要求16任意一项目标对象处理方法或者权利要求17任意一项信息处理方法的步骤。