CN113469172B

CN113469172B - 目标定位、模型训练、界面交互方法及设备

Info

Publication number: CN113469172B
Application number: CN202010238747.6A
Authority: CN
Inventors: 郭恒; 许敏丰; 迟颖; 張磊; 华先胜
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2022-07-01
Anticipated expiration: 2040-03-30
Also published as: CN113469172A

Abstract

本申请实施例提供一种目标定位、模型训练、界面交互方法及设备。其中，方法包括如下的步骤：获取待识别图像；将所述待识别图像输入至目标定位模型中的分类网络，获得目标类别对应的第一注意力图；利用所述目标定位模型中的映射网络，将所述第一注意力图映射成尺寸大于所述第一注意力图的第二注意力图；根据所述第二注意力图，确定目标定位结果。本申请实施例提供的方案所获取到的高分辨率注意力图是经过学习得到的，并非是对低分辨率注意力图进行简单的插值得到。与简单插值得到的注意力图相比，本申请实施例提供的方案所获取到的高分辨率注意力图具有精细的目标边缘结构信息，能够提高目标定位精度。

Description

目标定位、模型训练、界面交互方法及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种目标定位、模型训练、界面交互方法及设备。

背景技术

在图像处理和计算机视觉研究领域中，目标物体的定位一直是一个热点、难点。目标的准确定位对于目标的识别以及图像的理解与分析起着十分重要的作用。目标定位技术已经广泛应用于工业、农业、航天、医疗等领域。

在医学影像领域，通常存在很多两阶段甚至多阶段的任务，在这些任务中，第一个阶段往往需要定位样本目标器官的位置，以便后续阶段使用。

发明内容

本申请实施例提供了一种目标定位、模型训练、界面交互方法及设备，以提高模型的目标定位能力、降低模型训练成本。

于是，在本申请的一个实施例中，提供了一种目标定位方法。该方法包括：

获取待识别图像；

将所述待识别图像输入至目标定位模型中的分类网络，获得目标类别对应的第一注意力图；

利用所述目标定位模型中的映射网络，将所述第一注意力图映射成尺寸大于所述第一注意力图的第二注意力图；

根据所述第二注意力图，确定目标定位结果。

在本申请的另一实施例中，提供了一种模型训练方法。该方法，包括：

将样本图像输入至目标定位模型中的分类网络中，获得目标类别对应的第一样本注意力图；

利用所述目标定位模型中的映射网络，将所述第一样本注意力图映射成尺寸大于所述第一样本注意力图的第二样本注意力图；

结合所述第一样本注意力图，对所述样本图像进行处理，得到参考样本注意力图；

结合所述参考样本注意力图与所述第二样本注意力图，对所述目标定位模型进行参数优化；其中，所述目标定位模型用于对待识别图像进行目标定位。

在本申请的另一个实施例中，提供了一种界面交互方法。该方法包括：

显示交互界面；

获取用户在所述交互界面输入的待识别图像；

在所述交互界面显示所述待识别图像的目标定位结果；

其中，所述目标定位结果的确定过程如下：将所述待识别图像输入至目标定位模型中的分类网络，获得目标类别对应的第一注意力图；利用所述目标定位模型中的映射网络，将所述第一注意力图映射成尺寸大于所述第一注意力图的第二注意力图；根据所述第二注意力图，确定目标定位结果。

在本申请的另一实施例中，提供了一种电子设备。该设备，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：

获取待识别图像；

根据所述第二注意力图，确定目标定位结果。

所述存储器，用于存储程序；

显示交互界面；

获取用户在所述交互界面输入的待识别图像；

在所述交互界面显示所述待识别图像的目标定位结果；

本申请实施例提供的目标定位方法中，从分类网络抽取到的低分辨率的第一注意力图后，采用经过训练的映射网络将低分辨率的第一注意力图映射成高分辨率的第一注意力图。也就是说，本申请实施例提供的方案所获取到的高分辨率注意力图是经过学习得到的，并非是对低分辨率注意力图进行简单的插值得到。与简单插值得到的注意力图相比，本申请实施例提供的方案所获取到的高分辨率注意力图具有精细的目标边缘结构信息，能够提高目标定位精度。

本申请实施例提供的模型训练方法中，结合从分类网络抽取到的低分辨率的第一样本注意力图，对样本图像进行处理，得到作为定位标注数据的参考样本注意力图，以对低分辨率的第一样本注意力图映射成高分辨率的第二样本注意力图的过程进行训练引导。可见，本申请实施例提供的训练方法可自动生成定位标注数据，无需对样本图像进行精细的定位标注即可完成目标定位模型的训练，降低了目标定位模型训练的成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请一实施例提供的目标定位方法的示例图；

图1b为本申请一实施例提供的目标定位方法的流程示意图；

图2a为本申请一实施例提供的模型训练方法的示例图；

图2b为本申请一实施例提供的模型训练方法的流程示意图；

图3为本申请一实施例提供的模型训练装置的结构框图；

图4为本申请一实施例提供的目标定位装置的结构框图；

图5为本申请另一实施例提供的电子设备的结构框图；

图6为本申请一实施例提供的界面交互方法的流程示意图；

图7为本申请一实施例提供的界面交互装置的结构框图。

具体实施方式

现有技术中，基于分类网络对目标进行定位的方案中，通常是在低空间分辨率下提取注意力图，然后通过简单的插值手段将其放大到原始尺寸。这样，就造成了非常模糊和平滑的边界，虽然具备一定的目标定位能力，但是距离揭示精细的解剖结构还相差甚远。

为了解决或部分解决上述技术问题，本申请实施例提供了一种目标定位方法，该方法通过学习的方式来对低分辨率的注意力图进行放大，具有较好的目标定位能力。

术语解释：

CAM(Class Activation Map)：一种分类网络中提取的类别激活图，用以揭示支撑分类网络判断的显著性区域。

AM(Attention Map)：注意力图，一种范围更广的显著性区域展示方法，CAM属于AM的一种。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

此外，在本申请的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图1b示出了本申请又一实施例提供的目标定位方法的流程示意图。该方法的执行主体可以为客户端，也可以为服务端。其中，所述客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、智能音箱等任意终端设备。其中，服务端可以是常用服务器、云端或虚拟服务器等，本申请实施例对此不作具体限定。

如图1b所示，该方法包括：

101、获取待识别图像。

102、将所述待识别图像输入至目标定位模型中的分类网络，获得目标类别对应的第一注意力图。

103、利用所述目标定位模型中的映射网络，将所述第一注意力图映射成尺寸大于所述第一注意力图的第二注意力图。

104、根据所述第二注意力图，确定目标定位结果。

本申请实施例中，目标定位模型具体为神经网络模型，其包括分类网络和映射网络。其中，分类网络和映射网络的网络架构可以根据实际需要来设计，本申请实施例对此不作具体限定。在一实例中，上述分类网络具体可包括编码器网络；所述映射网络具体可包括解码器网络，也就是说，目标定位模型采用了编解码结构。可选地，所述编码器网络与所述解码器网络之间还可设有跳跃连接，这样编码器中所提取的各个层级的特征图通过跳跃连接能够传输到解码器相应的部分，从而弥补注意力图在空间信息(也即细节信息)上的缺失。

此外，目标定位是指根据图像中目标对象将图像归类为候选类别中的目标类别并定位目标对象所在的区域。在实际应用中，候选类别及其数量可以根据实际应用需求设定。

上述101中，上述待识别图像指的是待进行目标定位的图像。需要说明的是，本申请文件中“目标”指的是目标对象。在医学影像领域，该待识别图像具体可以为医学器官图像，例如：医学心脏图像、医学肾脏图像。当待识别图像为医学心脏图像时，该待识别图像中待定位的目标为心脏；当待识别图像为医学肾脏图像时，该待识别图像中待定位的目标为肾脏。在遥感领域，该待识别图像具体可以为遥感图像，遥感图像中待定位的目标具体可以为某一指定建筑、某一指定高山等，本申请对此不作具体限定。

上述102和103中，所述目标定位模型包括分类网络和映射网络；所述分类网络用于根据输入的待识别图像，获得目标类别对应的第一注意力图；所述映射网络用于将所述第一注意力图映射成尺寸大于所述第一注意力图的第二注意力图。其中，目标类别具体指的是目标对象所属类别。

上述第一注意力图用于揭示待识别图像中用于支撑分类网络将待识别图像的类别判别为目标类别所依据的显著性区域。第一注意力图中与待识别图像中的该显著性区域相对的第三区域内各像素的值大于第四区域内各像素的值，其中，第四区域为所述第一注意力图中除第三区域以外的区域。具体地，第一注意力图可以为目标类别对应的类别激活图。

需要说明的是，通常情况下，第一注意力图的尺寸是小于待识别图像的尺寸的，故第一注意力图中与待识别图像中的该显著性区域相对的第三区域的尺寸是小于该显著性区域的尺寸的。

在一种可实现的方案中，可通过分类网络的反向传播来生成第一注意力图。具体地，上述“所述分类网络用于根据输入的待识别图像，获得目标类别对应的第一注意力图”，具体可采用如下步骤来实现：

S31、将样本图像输入至目标定位模型中的分类网络中，获得所述分类网络针对所述待识别图像的图像分类结果。

其中，所述图像分类结果中包括所述待识别图像属于所述目标类别的概率。

S32、根据所述待识别图像属于所述目标类别的概率以及所述分类网格中提取到的第一特征图，利用反向传播算法，计算出所述第一注意力图。

上述S31中，图像分类结果中可包括所述待识别图像属于候选类别中各候选类别的概率。在一实例中，上述分类网络具体可以为二分类网络，则图像分类结果中可包括所述待识别图像属于目标类别的概率以及属于背景类别的概率。在一实际应用场景中，上述待识别图像具体可以为医学心脏图像，那么，上述目标类别具体可为心脏类别。

上述S32中，通常，分类网络会对待识别图像依次进行多次特征提取，得到多个尺度依次减小的特征图。可从多个尺度依次减小的特征图中确定出第一特征图。

在实际应用时，上述分类网络的主干网络具体可包括五个下采样模块，具体可以为ResNet34网络，该网络有五次下采样过程。上述第一样本特征图具体可以为ResNet34网络中倒数第二个残差块ResBlock输出的特征图。倒数第二个残差块ResBlock输出的特征图具有空间信息和高级语义间的良好平衡，这样可确保生成的第一样本注意力图也具有空间信息和高级语义间的良好平衡，有助于提高模型定位能力。

上述反向传播过程具体如下：先计算待识别图像属于目标类别的概率对第一特征图中所有像素的偏导数，也即梯度值。然后，将第一特征图中各通道上各像素的值与各自对应的梯度值相乘，得到第一特征图的多个处理后通道；将第一特征图的多个处理后通道进行相加，即可获得第一注意力图。

需要补充说明的是，在上述实施例中默认第一特征图的数量为一个。在实际应用时，上述第一特征图的数量还可以为多个，即从多个尺寸依次减小的特征图中确定出多个第一特征图。当第一特征图的数量为多个时，可根据所述待识别图像属于所述目标类别的概率以及各第一特征图，采用反向传播算法，计算出各第一特征图对应的第四注意力图；由于各第一特征图对应的第四注意力图的尺寸不同，故可对各第一特征图对应的第四注意力图进行插值处理，以使各第一特征图对应的第四注意力图的尺寸相同；将尺寸相同的多个第一特征图对应的第四注意力图进行求和，从而得到上述第一注意力图。

上述103中，上述第一注意力图的尺寸与第一特征图的尺寸相同。通常，第一特征图的尺寸是小于待识别图像的尺寸的。也就是说，第一注意力图的分辨率较低，只能够进行粗略的目标定位。为了提高目标定位的准确性，上述目标定位模型中还设置有映射网络，用于将第一注意力图映射成尺寸大于第一注意力图的第二样本注意力图。其中，所述映射网络中包含有多个经过训练(或经过学习)的网络参数，利用映射网络中多个经过训练的网络参数，将所述第一注意力图映射成尺寸大于所述第一注意力图的第二注意力图。也就是说，第二注意力图是经过学习得到的，而非经过简单的插值得到的，具有更好的定位能力。

在一种可实现的方案中，可利用具有类别标注以及定位标注的样本图像对上述目标定位模型进行训练，结合类别标注以及目标定位模型针对样本图像的图像分类结果，计算分类损失；结合定位标注以及目标定位模型针对样本图像的目标定位结果，来计算定位损失；综合分类损失和定位损失来对目标定位模型进行参数优化。其中，分类损失、定位损失以及参数优化的具体实现可参见现有技术，在此不再详述。

通常，与深度学习相关的方法，往往需要在有大量训练数据的情况下，才能表现良好。以医学领域为例，在医学图像中获取大量带精细标注的训练数据通常很麻烦，有时甚至是不可能的。

为了解决或部分解决上述技术问题，本申请实施例提供了一种模型训练方法，无需对样本图像进行定位标注，即可训练出具有较好的目标定位能力的目标定位模型，降低了模型训练成本。具体地，所述目标定位模型的训练过程如下：

201、将样本图像输入至目标定位模型中的分类网络中，获得目标类别对应的第一样本注意力图。

202、利用所述目标定位模型中的映射网络，将所述第一样本注意力图映射成尺寸大于所述第一样本注意力图的第二样本注意力图。

203、结合所述第一样本注意力图，对所述样本图像进行处理，得到参考样本注意力图。

204、结合所述参考样本注意力图与所述第二样本注意力图，对所述目标定位模型进行参数优化。

其中，所述目标定位模型用于对待识别图像进行目标定位。

上述201中，目标定位是指根据图像中目标对象将图像归类为候选类别中的目标类别并定位目标对象所在的区域。在实际应用中，候选类别及其数量可以根据实际应用需求设定。其中，目标类别也即目标对象(简称目标)或样本目标对象(简称样本目标)所属类别。例如：在二分类场景中，候选类别可仅包括目标类别和背景类别。

上述样本图像具体可以为医学器官图像。例如：医学心脏图像、医学肾脏图像。当样本图像为医学心脏图像时，该样本图像中的样本目标为心脏；当样本图像为医学肾脏图像时，该样本图像中的样本目标为肾脏。

上述第一样本注意力图用于揭示样本图像中用于支撑分类网络将样本图像的类别判别为目标类别所依据的显著性区域。第一样本注意力图中与样本图像中的该显著性区域相对的第一区域内各像素的值大于第二区域内各像素的值，其中，第二区域为所述第一样本注意力图中除第一区域以外的区域。具体地，第一样本注意力图可以为目标类别对应的类别激活图。

需要说明的是，通常情况下，第一样本注意力图的尺寸是小于样本图像的尺寸的，故第一样本注意力图中与样本图像中的该显著性区域相对的第一区域的尺寸是小于该显著性区域的尺寸的。

在一种可实现的方案中，可通过分类网络的反向传播来生成第一样本注意力图。具体地，上述201中“将样本图像输入至目标定位模型中的分类网络中，获得目标类别对应的第一样本注意力图”，具体可采用如下步骤来实现：

2011、将样本图像输入至目标定位模型中的分类网络中，获得所述分类网络针对所述样本图像的图像分类结果。

其中，所述图像分类结果中包括所述样本图像属于所述目标类别的概率。

2012、根据所述样本图像属于所述目标类别的概率以及所述分类网格中提取到的第一样本特征图，利用反向传播算法，计算出所述第一样本注意力图。

上述2011中，图像分类结果中可包括所述样本图像属于候选类别中各候选类别的概率。在一实例中，上述分类网络具体可以为二分类网络，则图像分类结果中可包括所述样本图像属于目标类别的概率以及属于背景类别的概率。在一实际应用场景中，上述样本图像具体可以为医学心脏图像，那么，上述目标类别具体可为心脏类别。

上述2012中，通常，分类网络会对样本图像依次进行多次特征提取，得到多个尺度依次减小的样本特征图。可从多个尺度依次减小的样本特征图中确定出第一样本特征图。

在实际应用时，上述分类网络的主干网络具体可以为ResNet34网络，该网络有五次下采样过程。上述第一样本特征图具体可以为ResNet34网络中倒数第二个残差块ResBlock输出的样本特征图。倒数第二个残差块ResBlock输出的样本特征图具有空间信息和高级语义间的良好平衡，这样可确保生成的第一样本注意力图也具有空间信息和高级语义间的良好平衡，有助于提高模型训练效果，提高模型定位能力。

上述反向传播过程具体如下：先计算样本图像属于目标类别的概率对第一样本特征图中所有像素的偏导数，也即梯度值，用

表示。其中，s^c为样本图像属于目标类别c的概率；其中，k代表第一样本特征图的通道维度的序号，i和j分别是第一样本特征图的高宽维度的序号，

代表第一样本特征图的第k个通道上的第i行第j列的像素。然后，将第一样本特征图中各通道上各像素的值与各自对应的梯度值相乘，得到第一样本特征图的多个处理后通道；将第一样本特征图的多个处理后通道进行相加，即可获得第一样本注意力图。

需要补充说明的是，在上述实施例中默认第一样本特征图的数量为一个。在实际应用时，上述第一样本特征图的数量还可以为多个，即从多个尺寸依次减小的样本特征图中确定出多个第一样本特征图。当第一样本特征图的数量为多个时，可根据所述样本图像属于所述目标类别的概率以及各第一样本特征图，采用反向传播算法，计算出各第一样本特征图对应的第四样本注意力图；由于各第一样本特征图对应的第四样本注意力图的尺寸不同，故可对各第一样本特征图对应的第四样本注意力图进行插值处理，以使各第一样本特征图对应的第四样本注意力图的尺寸相同；将尺寸相同的多个第一样本特征图对应的第四样本注意力图进行求和，从而得到上述第一样本注意力图。

上述202中，上述第一样本注意力图的尺寸与第一样本特征图的尺寸相同。通常，第一样本特征图的尺寸是小于样本图像的尺寸的。也就是说，第一样本注意力图的分辨率较低，只能够进行粗略的目标定位。为了提高目标定位的准确性，上述目标定位模型中还设置有映射网络，用于将第一样本注意力图映射成尺寸大于第一样本注意力图的第二样本注意力图。其中，所述映射网络中包含有多个待学习(即待训练或待优化)的网络参数。利用映射网络中的多个待学习的网络参数，将第一样本注意力图映射成尺寸大于第一样本注意力图的第二样本注意力图。这样，第二样本注意力图的分辨率高于第一样本注意力图的分辨率，且第二样本注意力图具有更精细的目标定位能力。

在一实例中，上述映射网络的主干网络具体可以由五个上采样模块组成，该上采样模块具体可以为“conv2d-conv2d-pixelshuffle”。即该网络有五次上采样过程。

上述203中，第一样本注意力图揭示了样本图像中用于支撑分类网络将样本图像的类别判别为目标类别所依据的显著性区域。那么，根据第一样本注意力图，即可从样本图像中确定出该显著性区域。该显著性区域中包含有充足的样本目标的结构信息，例如：轮廓信息。那么，基于该显著性区域获取到的参考样本注意力图中也就包含有充足的样本目标的结构信息。这样，参考样本注意力图就可以作为几何约束来引导第一样本注意力图的放大过程，也即模型的训练过程。

上述204中，将上述参考样本注意力图作为定位标注数据。可计算所述参考样本注意力图与所述第二样本注意力图之间的第一差异；结合第一差异，对所述目标定位模型中的分类网络和映射网络中的网络参数进行优化。上述第二样本注意力图可看成是对第一样本注意力图进行重构得到的重构后样本注意力图，因此，上述第一差异也可称为重构损失。

可通过第一损失函数来计算上述第一差异，第一损失函数可根据实际需要来选取，本申请实施例对此不作具体限定。上述第一损失函数具体可以为范数损失函数，例如：L1范数损失函数或者L2范数损失函数。其中，L2范数损失函数也称为欧几里得损失函数。

其中，分类网络和映射网络中各个网络参数的初始值可以为随机数值。具体的对目标定位模型中网络参数的优化过程可参见现有技术，在此不再详述。

本申请实施例提供的技术方案中，结合从分类网络抽取到的低分辨率的第一样本注意力图，对样本图像进行处理，得到作为定位标注数据的参考样本注意力图，以对低分辨率的第一样本注意力图映射成高分辨率的第二样本注意力图的过程进行训练引导。可见，本申请实施例提供的训练方法可自动生成定位标注数据，无需对样本图像进行精细的定位标注即可完成目标定位模型的训练，降低了目标定位模型训练的成本。

需要说明的是，为了提高模型训练效果，可事先对分类网络进行预训练。预训练的具体实现方式可参见现有技术，在此不再详述。在对分类网络进行预训练时，所采用的样本图像只需具有类别标注。

在一种可实现的方案中，上述203中“结合所述第一样本注意力图，对所述样本图像进行处理，得到参考样本注意力图”，具体可采用如下步骤来实现：

2031、根据所述第一样本注意力图，从所述样本图像中确定样本目标区域。

2032、对所述样本目标区域进行形态学处理，得到参考样本注意力图。

上述2031中，根据第一样本注意力图，可从样本图像中确定出上述显著性区域，将该显著性区域作为样本目标区域。

具体地，上述2031中“根据所述第一样本注意力图，从所述样本图像中确定样本目标区域”，具体可采用如下步骤来实现：

S11、对所述第一样本注意力图进行插值处理，得到与所述样本图像尺寸相同的第三样本注意力图。

S12、根据所述第三样本注意力图，确定有关所述样本目标的分割掩膜。

S13、根据所述分割掩膜，从所述样本图像中确定所述样本目标区域。

上述S11中，第一样本注意力图的尺寸小于样本图像的尺寸，故需要对第一样本注意力图进行插值处理，以得到与样本图像尺寸相同的第三样本注意力图。

上述S12中，可将第三样本注意力图作为sigmoid函数的输入，执行该sigmoid函数，得到有关样本目标的分割掩膜，其中，sigmoid函数的具体形式及其函数参数的具体数值可根据实际需要来设定，本申请对此不作具体限定。或者，对第三注意力图进行二值化处理，得到有关样本目标的分割掩膜。

需要说明的是，利用sigmoid函数得到的分割掩膜可称为软掩膜；通过二值化处理得到的分割掩膜可称为硬掩膜。

上述S13中，分割掩膜的尺寸与样本图像的尺寸相同。具体地，可将分割掩膜与样本图像按元素相乘，从而得到包含样本目标区域的掩膜后图像。该掩膜后图像中除样本目标区域以外的区域中各像素的灰度值均为0。

上述2032中，对样本目标区域进行形态学处理，也即对上述掩膜后图像中各像素的灰度值进行处理，从而得到参考样本注意力图。

具体地，上述2032中“对所述样本目标区域进行形态学处理，得到参考样本注意力图”，具体可采用如下步骤来实现：

S21、对所述样本目标区域进行灰度值的二值化处理，得到二值化图。

S22、对所述二值化图进行距离变换，得到所述参考样本注意力图。

上述S21中，可设置一个阈值，将样本目标区域中灰度值小于该阈值的像素的灰度值改为0；将样本目标区域中灰度值大于或等于该阈值的像素的灰度值改为1。上述阈值可以为一个经验值，可根据实验来确定。

对样本目标区域进行灰度值的二值化处理，得到二值化图，实质上是：对上述掩膜后图像进行灰度值的二值化处理，得到二值化图。将掩膜后图像中灰度值小于该阈值的像素的灰度值改为0；将掩膜后图像中灰度值大于或等于该阈值的像素的灰度值改为1。

上述S22中，对所述二值化图进行距离变换(Distance Transform)，得到参考样本注意力图。距离变换的具体过程可参见现有技术，在此不再详述。

本实施例中，得到的参考样本注意力图中包含有充足的样本目标的结构信息，尤其是轮廓信息，能够正确引导模型训练过程，使得训练得到的目标定位模型不仅可以具有较好的图像类别判别以及目标定位精度，还能较为精细地描绘出待识别图像中目标对象的轮廓结构信息，达到准分割的级别。

在实际应用时，在对目标定位模型进行参数优化时，除了依据上述重构损失外，还可依据分类网络的分类损失。因此，上述204中“结合所述参考样本注意力图与所述第二样本注意力图，对所述目标定位模型进行参数优化”，具体可采用如下步骤来实现：

2041、根据所述参考样本注意力图与所述第二样本注意力图，计算第一差异。

2042、根据所述样本图像的标注类别以及所述分类网络针对所述样本图像的图像分类结果，计算第二差异。

2043、综合所述第一差异和所述第二差异，对所述目标定位模型进行参数优化。

在一实例中，上述2041中，可将参考样本注意力图与所述第二样本注意力图作为范数损失函数的输入，执行该范数损失函数，得到第一差异。

上述2042中，可将所述样本图像的标注类别以及所述分类网络针对所述样本图像的图像分类结果作为交叉熵损失函数的输入，执行该交叉熵损失函数，得到第二差异。

上述2043中“综合所述第一差异和所述第二差异，对所述目标定位模型进行参数优化”，具体可采用如下方式中的一种或多种来实现：

方式一：根据第一差异和第二差异之和，对目标定位模型进行参数优化。

方式二：获取所述第一差异对应的第一权重以及所述第二差异对应的第二权重；结合所述第一权重和所述第二权重，对所述第一差异和所述第二差异进行加权求和，得到总差异；根据所述总差异，对所述目标定位模型进行参数优化。

上述第一权重和第二权重具体为经验值，具体数值可通过实验来确定。在一实例中，上述第一权重可以为0.01；第二权重可以为1。

在上述方式一中，将第一差异和第二差异视为同等重要。考虑到实际应用时，上述第二差异是基于真实的标注数据来计算的，其可信度较高；而第一差异是基于后续生成的标注数据来计算的，其可信度低于第二差异，故可将第一权重设置地小于第二权重，有利于正确引导模型训练。

可选地，上述方法，还可包括：

205、获取三维医学器官图像。

其中，所述三维医学器官图像中样本目标器官在所述三维医学器官图像的第一轴向上的两个边界位置被标注。

206、沿垂直于所述第一轴向的第一切面，从三维医学器官图像的位于在所述两个边界位置之间的第一区域，抽取得到用于训练所述目标定位模型的正样本图像。

207、沿垂直于所述第一轴向的第一切面，从三维医学器官图像的除所述第一区域以外的第二区域，抽取得到用于训练所述目标定位模型的负样本图像。

正样本图像中包含有样本目标器官的影像；负样本图像中不包含样本目标器官的影像。可自动将正样本图像标注成目标类别；将负样本图像标注成背景类别。

基于本申请实施例提出的方法，对于3D医学影像数据，只需要标注样本目标器官的上下边界两帧即可，大幅度降低了数据标注量和数据标注难度，降低了标注成本。

综上所述，本申请实施例提供的方案在恢复低分辨率注意力图的空间尺寸这个过程中，采取的是一种基于学习的方法，直接利用目标区域的空间特征(也即结构信息)来引导低分辨注意力图的放大过程。这种方式所带来的直接好处就是使得学习到的高分辨率注意力图具备更精细的目标器官定位能力，甚至达到了准分割的级别。

本申请实施例提出了一种弱监督场景下的目标定位方案；提出了一种局部区域重建方法LAR(Local Area Reconstruction)，使得经过学习得到的高分辨率注意力图具备精细的边缘结构信息；提出了一种自动生成定位标注数据的策略；提出了一种无需生成候选区域(即proposal-free)的方法，降低模型训练和后续应用过程的数据处理量。

下面将结合图1a对本申请实施例提供的目标定位过程进行详细介绍：如图1a所示：

步骤701、用户可将待识别图像1上传到服务端。

步骤702、服务端将待识别图像1输入到经过训练的目标定位模型中的分类网络中。

步骤703、分类网络输出低分辨率的第一注意力图2。

步骤704、将低分辨率的第一注意力图2输入到目标定位模型中的映射网络中，以由映射网络根据其内部的多个经过训练的网络参数，将低分辨率的第一注意力图2映射成高分辨率的第二注意力图5。

步骤705、映射网络输出第二注意力图5。

步骤706、服务端根据第二注意力图5，确定并返回目标定位结果至客户端，以由客户端进行展示。

在本申请实施例中，是通过学习的方式来对第一注意力图进行放大的，而不是通过简单的插值方式来放大第一注意力图的。采用本申请实施例提供的技术方案得到的放大后的第二注意力图具有更好的目标定位能力。

图2b示出了本申请一实施例提供的模型训练方法的流程示意图。该方法的执行主体可以为客户端，也可以为服务端。其中，所述客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、智能音箱等任意终端设备。其中，服务端可以是常用服务器、云端或虚拟服务器等，本申请实施例对此不作具体限定。

如图2b所示，该方法包括：

401、将样本图像输入至所述目标定位模型中的分类网络中，获得目标类别对应的第一样本注意力图。

402、利用所述目标定位模型中的映射网络，将所述第一样本注意力图映射成尺寸大于所述第一样本注意力图的第二样本注意力图。

403、结合所述第一样本注意力图，对所述样本图像进行处理，得到参考样本注意力图。

404、结合所述参考样本注意力图与所述第二样本注意力图，对所述目标定位模型进行参数优化。

上述步骤401至404的具体实现可参见上述各实施例中的相应内容，在此不再赘述。

在一实例中，上述样本图像具体可以为医学器官图像。

本实施例中，结合从分类网络抽取到的低分辨率的第一样本注意力图，对样本图像进行处理，得到作为定位标注数据的参考样本注意力图，以对低分辨率的第一样本注意力图映射成高分辨率的第二样本注意力图的过程进行训练引导。可见，本申请实施例提供的训练方法可自动生成定位标注数据，无需对样本图像进行精细的定位标注即可完成目标定位模型的训练，降低了目标定位模型训练的成本。

这里需要说明的是：本申请实施例提供的所述方法中各步骤未尽详述的内容可参见上述实施例中的相应内容，此处不再赘述。此外，本申请实施例提供的所述方法中除了上述各步骤以外，还可包括上述各实施例中其他部分或全部步骤，具体可参见上述各实施例相应内容，在此不再赘述。

下面将结合图2a对本申请实施例提供的模型训练过程进行详细介绍：

如图2a所示，目标定位模型包括：分类网络100和映射网络200。

步骤301、将样本图像1输入至分类网络100中，通过反向传播算法，计算得到低分辨率注意力图2(即上述第一样本注意力图)。

其中，分类网络100中包括：卷积块、残差块1、残差块2、残差块3、残差块4、全连接层1和全连接层2。

步骤302、对低分辨率注意力图2进行插值处理，得到尺寸与样本图像尺寸相同的插值后注意力图3(即上述第三样本注意力图)。

步骤303、根据插值后注意力图3，确定有关样本目标的分割掩膜；根据分割掩膜，从样本图像1中确定样本目标区域；对样本目标区域进行灰度值的二值化处理，得到二值化图；对二值化图进行距离变换，得到作为定位标注数据的参考样本注意力图4。

从图2a中，可以看出，与低分辨率注意力图2或插值后注意力图3相比，定位标注数据中包含有充足的样本目标的结构信息，尤其是轮廓信息。

步骤304、将低分辨率注意力图2作为映射网络的输入，以由映射网络将低分辨率注意力图2映射成高分辨率注意力图5，也即目标定位网络模型针对样本图像的目标定位结果。

其中，映射网络中包括：上采样块1、上采样块2、上采样块3、上采样块4以及上采样块5。

步骤305、根据作为定位标注数据的参考样本注意力图4和高分辨率注意力图5，计算重建损失(也即上述第一差异)。

步骤306、根据分类网络针对样本图像的图像分类结果与样本图像的标注类别，计算分类损失(也即上述第二差异)。

步骤307(对应于图2a中的307a和307b)、综合重建损失和分类损失，对分类网络和映射网络进行网络参数优化。

由图2a可看出，对目标定位模型进行训练的样本图像只需进行类别标注即可，无需进行精细的定位标注。其方案可自动生成定位标注数据来引导模型的训练，有效减少了标注工作量，降低了训练成本。并且，训练得到的目标定位模型能够提供较为精细的目标定位能力，能够达到准分割的级别。

图6示出了本申请一实施例提供的界面交互方法的流程示意图。该方法的执行主体可以为客户端。其中，所述客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、智能音箱等任意终端设备。如图6所示，该方法，包括：

801、显示交互界面。

802、获取用户在所述交互界面输入的待识别图像。

803、在所述交互界面显示所述待识别图像的目标定位结果。

上述802中，上述交互界面上可显示一个输入控件。响应于用户在交互界面上针对输入控件的触发操作，在交互界面弹出多个选择框以供用户选择一种输入待识别图像的方式，例如：“从相册选择”和“拍照”这两个选择框；响应于用户按照其选择的输入待识别图像的方式执行的输入操作，获取所述用户输入的待识别图像。

在一实例中，可在交互界面显示用户输入的待识别图像。

此外，还可在交互界面上显示识别控件。响应于用户对交互界面上的识别控件的触发操作，客户端可通过网络上传待识别图像至服务端以由服务端进行目标定位，或由客户端自己进行目标定位。也就是说，上述目标定位结果的确定过程可以由服务端来执行，也可以由客户端来执行，本申请实施例对此不作具体限定。上述目标定位结果的确定过程具体可参见上述各实施例中的相应内容，在此不再赘述。

本申请实施例提供的方案中，从分类网络抽取到的低分辨率的第一注意力图后，采用经过训练的映射网络将低分辨率的第一注意力图映射成高分辨率的第一注意力图。也就是说，本申请实施例提供的方案所获取到的高分辨率注意力图是经过学习得到的，并非是对低分辨率注意力图进行简单的插值得到。与简单插值得到的注意力图相比，本申请实施例提供的方案所获取到的高分辨率注意力图具有精细的目标边缘结构信息，能够提高目标定位精度。

可选地，上述方法，还可包括：804、响应于所述用户在所述交互界面，针对所述目标定位结果触发的修正操作，在所述交互界面修正所述目标定位结果。

当目标定位结果不够准确时，用户可根据自己的经验通过交互界面对目标定位结果进行修正，得到修正后的目标定位结果，满足用户的修正需求。

可选地，上述方法，还可包括：

针对所述待识别图像，保存修正后的所述目标定位结果，以作为后续训练所述目标定位模型的训练样本。

通常来说，修正后的目标定位结果的正确性较高，可以作为后续训练目标定位模型的训练样本，有助于提高目标定位模型的定位能力。

图3示出了本申请一实施例提供的模型训练装置的结构框图。该装置，包括：

第一输入模块501，用于将样本图像输入至目标定位模型中的分类网络中，获得目标类别对应的第一样本注意力图；

第一映射模块502，用于利用所述目标定位模型中的映射网络，将所述第一样本注意力图映射成尺寸大于所述第一样本注意力图的第二样本注意力图；

第一处理模块503，用于结合所述第一样本注意力图，对所述样本图像进行处理，得到参考样本注意力图；

第一优化模块504，用于结合所述参考样本注意力图与所述第二样本注意力图，对所述目标定位模型进行参数优化；其中，所述目标定位模型用于对待识别图像进行目标定位。

可选地，所述样本图像为医学器官图像。

可选地，上述装置，还可包括：

第一获取模块，用于获取三维医学器官图像。

其中，所述三维医学器官图像中样本目标器官在所述三维医学器官图像的第一轴向上的两个边界位置被标注；

第一抽取模块，用于沿垂直于所述第一轴向的第一切面，从三维医学器官图像的位于在所述两个边界位置之间的第一区域，抽取得到用于训练所述目标定位模型的正样本图像；并沿垂直于所述第一轴向的第一切面，从三维医学器官图像的除所述第一区域以外的第二区域，抽取得到用于训练所述目标定位模型的负样本图像。

可选地，上述装置，还可包括：

第一预训练模块，用于对所述分类网络进行预训练。

这里需要说明的是：上述实施例提供的模型训练装置可实现上述各方法实施例中描述的技术方案，上述各模块以及目标定位模型的具体实现的原理可参见上述各方法实施例中的相应内容，此处不再赘述。

图4示出了本申请一实施例提供的目标定位装置的结构框图。该装置，包括：

第二获取模块601，用于获取待识别图像；

第二输入模块602，将所述待识别图像输入至目标定位模型中的分类网络，获得目标类别对应的第一注意力图；

第二映射模块603，用于利用所述目标定位模型中的映射网络，将所述第一注意力图映射成尺寸大于所述第一注意力图的第二注意力图；

第一确定模块604，用于根据所述第二注意力图，确定目标定位结果。

这里需要说明的是：上述实施例提供的目标定位装置可实现上述各方法实施例中描述的技术方案，上述各模块以及目标定位模型的具体实现的原理可参见上述各方法实施例中的相应内容，此处不再赘述。

图7示出了本申请一实施例提供的界面交互装置的结构框图。该装置，包括：

第一显示模块901，用于显示交互界面；

第三获取模块902，用于获取用户在所述交互界面输入的待识别图像；

所述第一显示模块901，还用于在所述交互界面显示所述待识别图像的目标定位结果；

可选地，上述装置，还包括：

第一修正模块，用于响应于所述用户在所述交互界面，针对所述目标定位结果触发的修正操作，在所述交互界面修正所述目标定位结果。

可选地，上述装置，还包括：

第一保存模块，用于针对所述待识别图像，保存修正后的所述目标定位结果，以作为后续训练所述目标定位模型的训练样本。

这里需要说明的是：上述实施例提供的界面交互装置可实现上述各方法实施例中描述的技术方案，上述各模块以及目标定位模型的具体实现的原理可参见上述各方法实施例中的相应内容，此处不再赘述。

图5示出了本申请一实施例提供的电子设备的结构示意图。如图所示，所述电子设备包括存储器1101以及处理器1102。存储器1101可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

所述存储器，用于存储程序；

所述处理器1102，与所述存储器1101耦合，用于执行所述存储器1101中存储的所述程序，以用于实现上述各实施例中模型训练方法、目标定位方法或界面交互方法。

进一步，如图5所示，电子设备还包括：通信组件1103、显示器1104、电源组件1105、音频组件1106等其它组件。图5中仅示意性给出部分组件，并不意味着电子设备只包括图5所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述各实施例提供的模型训练方法、目标定位方法、界面交互方法的步骤或功能。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种目标定位方法，其特征在于，包括：

获取待识别图像；

根据所述第二注意力图，确定目标定位结果；

所述目标定位模型的训练过程如下：

将样本图像输入至所述目标定位模型中的分类网络中，获得目标类别对应的第一样本注意力图；

结合所述参考样本注意力图与所述第二样本注意力图，对所述目标定位模型进行参数优化。

2.根据权利要求1所述的方法，其特征在于，结合所述第一样本注意力图，对所述样本图像进行处理，得到参考样本注意力图，包括：

根据所述第一样本注意力图，从所述样本图像中确定样本目标区域；

对所述样本目标区域进行形态学处理，得到参考样本注意力图。

3.根据权利要求2所述的方法，其特征在于，根据所述第一样本注意力图，从所述样本图像中确定样本目标区域，包括：

对所述第一样本注意力图进行插值处理，得到与所述样本图像尺寸相同的第三样本注意力图；

根据所述第三样本注意力图，确定有关所述样本目标的分割掩膜；

根据所述分割掩膜，从所述样本图像中确定所述样本目标区域。

4.根据权利要求2所述的方法，其特征在于，对所述样本目标区域进行形态学处理，得到参考样本注意力图，包括：

对所述样本目标区域进行灰度值的二值化处理，得到二值化图；

对所述二值化图进行距离变换，得到所述参考样本注意力图。

5.根据权利要求1至4中任一项所述的方法，其特征在于，结合所述参考样本注意力图与所述第二样本注意力图，对所述目标定位模型进行参数优化，包括：

根据所述参考样本注意力图与所述第二样本注意力图，计算第一差异；

根据所述样本图像的标注类别以及所述分类网络针对所述样本图像的图像分类结果，计算第二差异；

综合所述第一差异和所述第二差异，对所述目标定位模型进行参数优化。

6.根据权利要求5所述的方法，其特征在于，综合所述第一差异和所述第二差异，对所述目标定位模型进行参数优化，包括：

获取所述第一差异对应的第一权重以及所述第二差异对应的第二权重；

结合所述第一权重和所述第二权重，对所述第一差异和所述第二差异进行加权求和，得到总差异；

根据所述总差异，对所述目标定位模型进行参数优化。

7.根据权利要求6所述的方法，其特征在于，根据所述参考样本注意力图与所述第二样本注意力图，计算第一差异，包括：

将参数样本注意力图与所述第二样本注意力图作为范数损失函数的输入，执行所述范数损失函数，得到所述第一差异。

8.根据权利要求1至4中任一项所述的方法，其特征在于，将样本图像输入至目标定位模型中的分类网络中，获得目标类别对应的第一样本注意力图，包括：

将样本图像输入至目标定位模型中的分类网络中，获得所述分类网络针对所述样本图像的图像分类结果；所述图像分类结果中包括所述样本图像属于所述目标类别的概率；

根据所述样本图像属于所述目标类别的概率以及所述分类网络中提取到的第一样本特征图，利用反向传播算法，计算出所述第一样本注意力图。

9.根据权利要求1至4中任一项所述的方法，其特征在于，还包括：

获取三维医学器官图像；其中，所述三维医学器官图像中样本目标器官在所述三维医学器官图像的第一轴向上的两个边界位置被标注；

沿垂直于所述第一轴向的第一切面，从三维医学器官图像的位于在所述两个边界位置之间的第一区域，抽取得到用于训练所述目标定位模型的正样本图像；

沿垂直于所述第一轴向的第一切面，从三维医学器官图像的除所述第一区域以外的第二区域，抽取得到用于训练所述目标定位模型的负样本图像。

10.根据权利要求1至4中任一项所述的方法，其特征在于，所述分类网络包括编码器网络；所述映射网络包括解码器网络。

11.根据权利要求10所述的方法，其特征在于，所述编码器网络与所述解码器网络之间设有跳跃连接。

12.根据权利要求1至4中任一项所述的方法，其特征在于，还包括：

对所述分类网络进行预训练。

13.根据权利要求1至4中任一项所述的方法，其特征在于，所述待识别图像为医学器官图像。

14.一种模型训练方法，其特征在于，包括：

15.根据权利要求14所述的方法，其特征在于，所述样本图像为医学器官图像。

16.一种界面交互方法，其特征在于，包括：

显示交互界面；

获取用户在所述交互界面输入的待识别图像；

在所述交互界面显示所述待识别图像的目标定位结果；

其中，所述目标定位结果的确定过程如下：将所述待识别图像输入至目标定位模型中的分类网络，获得目标类别对应的第一注意力图；利用所述目标定位模型中的映射网络，将所述第一注意力图映射成尺寸大于所述第一注意力图的第二注意力图；根据所述第二注意力图，确定目标定位结果；

所述目标定位模型的训练过程如下：

17.根据权利要求16所述的方法，其特征在于，还包括：

响应于所述用户在所述交互界面，针对所述目标定位结果触发的修正操作，在所述交互界面修正所述目标定位结果。

18.根据权利要求17所述的方法，其特征在于，还包括：

19.一种电子设备，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

获取待识别图像；

根据所述第二注意力图，确定目标定位结果；

所述目标定位模型的训练过程如下：

20.一种电子设备，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

21.一种电子设备，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

显示交互界面；

获取用户在所述交互界面输入的待识别图像；

在所述交互界面显示所述待识别图像的目标定位结果；

所述目标定位模型的训练过程如下：