CN113393416A

CN113393416A - 利用三元组损失和预测区域识别和定位图像的方法和介质

Info

Publication number: CN113393416A
Application number: CN202011304879.0A
Authority: CN
Inventors: 张�诚; 弗朗辛·陈; 陈殷盈
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-03-12
Filing date: 2020-11-19
Publication date: 2021-09-14
Also published as: JP2021144675A; US11449717B2; US20210287054A1

Abstract

利用三元组损失和预测区域识别和定位图像的方法和介质。提供了一种使用神经网络对图像特征进行分类的方法和系统。该方法包括：使用三元组损失处理来训练神经网络，其包括：接收锚图像，选择正图像和负图像，生成与锚图像、正图像和负图像中的每一个关联的图像嵌入，基于锚图像的图像嵌入对从锚图像提取的图像特征进行分类，确定与分类的图像特征关联的图像标签位置，提取与所确定的图像标签位置关联的特征，并且对与所确定的图像标签位置关联的特征进行分类；以及使用加权损失和将多标签损失与局部图像分类损失和三元组损失组合。

Description

利用三元组损失和预测区域识别和定位图像的方法和介质

技术领域

本公开涉及图像分析，更具体地，涉及自动地识别和定位图像区域的系统和方法。

背景技术

在现有技术的应用中，医学图像中疾病的识别和定位已应用于医学图像中疾病的分割。此外，其还可用于将医学报告中疾病的文字描述与报告中所讨论的图像区域关联起来。现有技术方法已允许器官的自动分割。通过了解图像中出现了哪些疾病以及各个疾病的近似位置，可将器官分割方法应用于疾病分割。继而，这将改进测量医学图像中的疾病大小的效率。

此外，在现有技术中，执行疾病定位的能力还允许对放射科医师或医生的报告中描述的疾病或异常状况在医学图像中的位置进行链接或高亮。这可有助于改进医生及其患者对医学报告的理解。尽管存在疾病的存在被标注的多个医学数据集，但是很少有疾病位置的标注。因此，可取的是开发一种需要很少(如果有的话)疾病位置的标注(例如，指示疾病区域的边界框)的系统。

发明内容

本申请的各方面可包括一种使用神经网络对图像特征进行分类的方法。该方法包括以下步骤：使用三元组损失处理来训练神经网络，其包括：接收锚图像以及与锚图像关联的图像标签，锚图像要用于训练神经网络；选择正图像以及与正图像关联的图像标签，正图像具有与锚图像共享的至少一个图像标签；选择负图像以及与负图像关联的图像标签，负图像没有与锚图像共享的图像标签；使用图像特征嵌入网络来生成与锚图像、正图像和负图像中的每一个关联的图像嵌入；通过神经网络基于锚图像的图像嵌入对从锚图像提取的图像特征进行分类；以及基于与锚图像、正图像和负图像中的每一个关联的图像嵌入来计算三元组损失，以确定图像特征的分类加权；使用所训练的神经网络来对不具有任何关联的标记特征的测试数据图像的图像特征进行分类。

本申请的附加方面可包括一种使用神经网络对图像特征进行分类的方法。该方法包括以下步骤：使用三元组损失处理来训练神经网络，其包括：接收锚图像以及与锚图像关联的图像标签，锚图像要用于训练所述神经网络；使用图像特征嵌入网络来生成与锚图像关联的图像嵌入；通过神经网络基于锚图像的图像嵌入对从锚图像提取的图像特征进行分类；确定与所分类的图像特征关联的图像标签位置；提取与所确定的图像标签位置关联的特征；使用神经网络对与所确定的图像标签位置关联的特征进行分类；以及确定与所确定的图像标签位置所关联的特征关联的局部图像分类损失；使用所训练的神经网络对不具有任何关联的标记特征的测试数据图像的图像特征进行分类。

本申请的另外的方面可包括一种非暂时性计算机可读介质，其编码有用于使得计算机执行使用神经网络对图像特征进行分类的方法的指令。该方法包括以下步骤：使用三元组损失处理来训练神经网络，其包括：接收锚图像以及与锚图像关联的图像标签，锚图像要用于训练神经网络；选择正图像以及与正图像关联的图像标签，正图像具有与锚图像共享的至少一个图像标签；选择负图像以及与负图像关联的图像标签，负图像没有与锚图像共享的图像标签；使用图像特征嵌入网络来生成与锚图像、正图像和负图像中的每一个关联的图像嵌入；通过神经网络基于锚图像的图像嵌入对从锚图像提取的图像特征进行分类；以及确定与所分类的图像特征关联的图像标签位置；提取与所确定的图像标签位置关联的特征；使用神经网络对与所确定的图像标签位置关联的特征进行分类；确定与所确定的图像标签位置所关联的特征关联的局部图像分类损失；基于与锚图像、正图像和负图像中的每一个关联的图像嵌入来计算三元组损失，以确定图像特征的分类加权；以及使用加权损失和将局部图像分类损失和三元组损失组合；使用所训练的神经网络对不具有任何关联的标记特征的测试数据图像的图像特征进行分类。

本申请的另外的方面可包括一种使用神经网络对图像特征进行分类的计算装置。该计算装置可包括用于使用三元组损失处理来训练神经网络的装置，使用三元组损失处理来训练神经网络包括：接收锚图像以及与锚图像关联的图像标签，锚图像要用于训练神经网络；选择正图像以及与正图像关联的图像标签，正图像具有与锚图像共享的至少一个图像标签；选择负图像以及与负图像关联的图像标签，负图像没有与锚图像共享的图像标签；使用图像特征嵌入网络来提取图像特征并生成与锚图像、正图像和负图像中的每一个关联的图像嵌入；通过神经网络基于锚图像的图像嵌入对从锚图像提取的图像特征进行分类；以及确定与所分类的图像特征关联的图像标签位置；提取与所确定的图像标签位置关联的特征；使用神经网络对与所确定的图像标签位置关联的特征进行分类；确定与所确定的图像标签位置所关联的特征关联的局部图像分类损失；基于与锚图像、正图像和负图像中的每一个关联的图像嵌入来计算三元组损失，以确定图像特征的分类加权；以及使用加权损失和将局部图像分类损失和三元组损失组合；使用所训练的神经网络来对不具有任何关联的标记特征的测试数据图像的图像特征进行分类。

附图说明

本专利或申请文件包含至少一个彩色附图。带有彩色附图的本专利或专利申请公布的副本将由主管局根据请求并在支付必要费用后提供。

图1示出根据本申请的示例实现方式的使用三元组损失来训练多标签疾病分类器的示意性表示。

图2示出根据本申请的示例实现方式的使用局部疾病预测来训练图像分类器的示意性表示。

图3示出根据本申请的其它示例实现方式的使用局部疾病预测来训练图像分类器的示意性表示。

图4示出根据本申请的示例实现方式的使用训练的神经网络对图像进行分类的处理的流程图。

图5和图6示出本申请的示例实现方式的评估结果的图形表示。

图7和图8示出使用本申请的示例实现方式的示例热图以及疾病的预测和真实(ground truth)位置。

图9示出具有适用于一些示例实现方式的示例计算机装置的示例计算环境。

具体实施方式

以下详细描述提供了本申请的附图和示例实现方式的进一步的细节。为了清晰，附图之间的冗余元件的标号和描述被省略。贯穿说明书使用的术语作为示例提供，并非旨在限制。例如，术语“自动”的使用可涉及全自动或半自动实现方式，涉及对实现方式的特定方面的用户或操作者控制，这取决于实践本申请的实现方式的本领域普通技术人员的期望的实现方式。此外，诸如“第一”、“第二”、“第三”等的顺序术语在说明书和权利要求中可仅用于标记目的，不应限于表示所描述的动作或项目以所描述的顺序发生。在不脱离本申请的范围的情况下，动作或项目可被排序为不同的顺序或者可并行或动态地执行。

在本申请中，术语“计算机可读介质”可包括本地存储装置、基于云的存储装置、远程服务器或者对于本领域普通技术人员而言可显而易见的任何其它存储装置。

如上所述，医学图像中疾病的识别和定位已应用于医学图像中疾病的分割，并且还可用于将医学报告中的疾病的文字描述与所讨论的图像区域关联起来。当已知图像中出现了什么疾病以及各个疾病的近似位置时，可使用现有器官自动分割方法。然而，很少有疾病位置的标注。因此，可取的是开发一种需要很少(如果有的话)疾病位置的标注(例如，指示疾病区域的边界框)的系统。

本申请的示例实现方式可提供医学图像中疾病的改进的分类和定位。在本申请的一些示例实现方式中，可使用对象定位处理来自动地识别包含相关器官(例如，位于胸部的肺)的图像区域，从而去除由于在相关器官不在的区域(例如，肩膀或手臂)中错误地识别疾病而引起的错误。在其它示例实现方式中，可将三元组损失处理应用于分类模型，以使得模型以更连续的方式学习包含不同疾病的成对图像之间的距离增加多少。此外，在一些示例实现方式中，可在训练期间将估计的疾病区域反馈给模型，以更好地学习如何在医学图像中确保疾病大小定位疾病。在一些示例实现方式中，所有这些技术可被组合。

尽管可在医学图像中的疾病识别的上下文中描述本申请的示例实现方式，但示例实现方式不限于医学图像的分析。相反，示例实现方式可应用于对于本领域普通技术人员可显而易见的其它类型的图像分析。

图1示出根据本申请的示例实现方式的使用三元组损失来训练多标签疾病分类器的示意性表示100。在一些示例实现方式中，医学图像常常包含比出现疾病的区域更大的区域。例如，胸部x射线常常包含患者的肩膀和手臂。在这些示例实现方式中，可使用空间变换器网络来裁剪医学图像以聚焦于出现疾病的区域。此步骤在一些示例实现方式中可执行，或者在一些示例实现方式中可被省略。

此外，如所示，在一些示例实现方式中，可调整三元组损失技术作为多标签分类系统的一部分。具体地，可使用三元组损失来促使具有至少一个常见疾病的图像在特征空间中靠近在一起，而没有任何常见疾病的图像在特征空间中相距甚远。三元组损失可使要分类的图像或锚105与相同类型(例如，同一患者、相同疾病或其它相似特性)的另一图像之间的距离最小化。如图1所示，相同类型的图像被示出为包含至少一个常见疾病的图像(例如，正图像107)。此外，疾病标签的交集为空的图像被视为不同类型；这些用作负图像109的示例。利用三元组损失，对于各个输入的锚图像105，从同一训练批次随机选择一个正图像107和一个负图像109。在一些示例实现方式中，可使用硬示例挖掘来改进下面更详细讨论的三元组损失技术的性能。

如图1所示，一旦随机选择了正图像107和负图像109，由空间变换器网络处理各个图像(例如，锚图像105、正图像107和负图像109)以变换各个图像，以允许图像比较。例如，在111由空间变换器网络处理锚图像105。此外，在113由处理空间变换器网络处理正图像107。此外，在115由空间变换器网络处理负图像109。

空间变换器网络可以是对输入图像(特征图)应用裁剪、平移、旋转、缩放和偏斜的可微分模块，并且仅需要6个参数。具体地，示例实现方式，具有宽度W和高度H的输入胸部x射线图像105可表示x＝(x_i,x_j)_i＝1,2；:::；W_,j＝1,2,:::,H。空间变换器网络在111输出6维向量，其可被参数化为仿射变换A_Θ。在仿射情况下，逐点变换为：

其中(x^t _i,y^t _i)是输出特征图中的目标坐标，(x^s _i,y^s _i)是输入图像(特征图)中的源坐标，A_Θ是允许对原始图像的裁剪、平移和各向同性缩放的仿射变换。在训练期间，模型学习s(缩放)以及t_x和t_y(平移)的值。

在空间变换器网络处理各个图像(例如，锚图像105、正图像107和负图像109)之后，由图像特征嵌入网络处理各个图像以嵌入用于疾病分类的图像特征以生成图像嵌入。如图1所示，由图像特征嵌入网络在117从锚图像105生成图像嵌入123。类似地，由嵌入网络在119从正图像107生成图像嵌入125。此外，由嵌入网络在121从负图像109生成图像嵌入127。

在一些示例实现方式中，可使用疾病定位器包括疾病位置信息作为嵌入特征以嵌入疾病位置特征。疾病定位器的使用下面关于图2和图3更详细地讨论。

然后，从锚图像105创建的图像嵌入123可经过分类器网络129以基于训练数据中指派给锚图像105的标签来计算损失因子。换言之，基于来自训练数据的与锚图像105关联的指派标签与分类网络129对锚图像105的分类之间的差异来计算多标签损失因子131。

除了多标签损失因子131之外，可如下所述计算第二损失因子，三元组损失因子133。然后，使用加权和将两个损失组合，给予整个图像分类损失和局部图像分类损失相等的权重。另选地，可在训练期间学习权重。

在一些示例实现方式中，考虑三元组约束集合X可如下考虑：

X＝{(x_i,x⁺ _i,x^- _i)|(x_i,x⁺ _i)∈P；(x_i,x^- _i)∈N；i＝1,2,…,；M} (式2)

其中P包含正对，N包括负对，M表示整个三元组集合的基数。两个样本的相似性函数被表示为l₂距离：

dist(x_i,x_j)＝||x_i；x_j||² ₂ (式3)

在一些示例实现方式中，可另选地使用余弦距离。

在一些示例实现方式中，给定锚x_i，一个三元组的合页损失可被定义为：

l(x_i,x⁺ _I,x^- _i)＝[dist(x_i,x⁺ _i)-dist(x_i,x^- _i)+m]₊ (式4)

其中m是在正对和负对之间强加的裕度。因此，全局三元组损失L_triplet在训练集合中的所有可能的三元组上最小化可被计算为：

L_triplet＝Σ_{(xi,x+i,x-i)∈x}l(x_i,x⁺ _i,x^- _i) (式5)

最后，与三元组学习集成的分类的总损失L_cls可被表述为：

L_cls＝βL_binary+(1-β)L_triplet (式6)

其中L_binary是多标签分类的传统训练的二元交叉熵损失，并且β是系数。

在一些示例实现方式中，可使用疾病位置算法来训练疾病分类器以进一步改进疾病识别和定位的性能。例如，可使用诸如CAM或GradCAM的现有图像区域定位算法来训练分类器。两个算法从用于类或疾病预测的网络激活计算并生成“热图”，其中图像中支持分类的区域具有较大的值。由于执行多标签分类，所以可针对各个识别的类单独地运行算法(例如，GradCAM、CAM或其它算法)。下面关于图2和图3更详细地讨论使用这种定位改进疾病识别。

图2示出根据本申请的示例实现方式的使用局部疾病预测来训练图像分类器的示意性表示200。在一些示例实现方式中，可使用定位疾病产生来检查预测的疾病位置是否与分类器一致。在这些示例实现方式中，如果图像被不正确地裁剪，则分类将可能不正确。换言之，如果图像已被裁剪为不包括疾病区域，则疾病分类可能不正确。

类似于关于图1讨论的模型，锚图像105(为训练目的分析的图像)经过空间变换器网络111以将图像变换为公共图像比例。然后，来自空间变换器网络111的变换的图像经过图像特征嵌入网络117以嵌入用于疾病分类的图像特征以生成图像嵌入123。如下所述，图像嵌入123包括将由疾病定位器202用来嵌入疾病位置特征的疾病位置信息。

类似于图1中描述的模型，从锚图像105创建的图像嵌入123然后可经过分类器网络129以基于训练数据中指派给锚图像105的标签来计算损失因子。换言之，基于来自训练数据的与锚图像105关联的指派标签与分类网络129对锚图像105的分类之间的差异来计算多标签损失因子131(也称为整个图像计算损失)。

除了基于对整个输入图像中的疾病进行分类来计算分类器损失(整个图像分类损失131)之外，示例实现方式可在分类之前针对各个疾病使用预测的边界框来裁剪图像。具体地，如所示，定位器202确定疾病的预测位置206并将图像裁剪至疾病的预测位置的区域以生成局部图像嵌入204。具体地，定位器202在锚图像105中在局部疾病的预测位置边界框内提取区域特征。边界框之外的区域的特征值被设定为0。修改的特征或局部图像嵌入204表示边界框内的图像并被输入到第二分类器中。替代方法将利用例如值0掩蔽非疾病区域，并且使用掩蔽图像作为分类器的输入。要注意的是，通过在预测的边界框内选择特征(或来自局部化的特征)，可跳过计算的多个层，导致效率更高。

在一些示例实现方式中，可使用CAM定位算法，其中提取DenseNet的最后一层的激活。另选地，在示例实现方式中可使用GradCAM定位算法。在不同的示例实现方式中可使用不同的定位方法。在一些示例实现方式中，所有特征上的最大值可用于归一化。在其它示例实现方式中，所有特征上的最大值和最小值之间的差可用于归一化。在各个情况下，可识别大于固定阈值的特征激活的位置。计算阈值激活周围的矩形边界框，并且使边界框之外的特征为零。然后，所得特征图被馈送到分类器205中，分类器205与原始分类器(参见图2)共享权重。另选地，利用训练的分类器参数(仅分类层)初始化的单独分类器可用于对局部图像进行分类。在另一替代示例实现方式中，由定位器202确定的图像的局部区域可从图像特征嵌入网络(而非恰好在分类器之前的特征嵌入)表示(DENSENET表示)的任何层确定。

在一些示例实现方式中，使用下式7将来自整个图像分类的损失131和来自局部图像分类的损失208组合作为加权和212：

L_total＝αL_whole+(1-α)L_local (式7)

其中α在多个时期上从0变化为0.5，以使得局部图像损失的影响逐渐增加。例如，在一些示例实现方式中，α可在20个时期上增加。之后，α可保持恒定。

在一些示例实现方式中，可利用训练的基线模型的参数将该训练模型初始化。可通过训练达固定数量的迭代或者通过充分训练直至损失在验证数据集上渐进来获得训练的基线模型。使用该初始化或预训练，以使得在第一次迭代中，估计的局部区域更可能是正确的，因此局部特征更可能具有一些信息。如果未执行初始化，则在初始迭代中，局部区域估计的估计纯为噪声，因此，模型给出非常嘈杂的局部特征，这将增加早期训练迭代期间的难度。

在一些示例实现方式中，图2所示的预测的局部特征模型可与图1的三元组损失预测模型组合。具体地，可首先单独训练三元组模型以提供预训练的分类模型，类似于预训练二元分类器。然后，图1中的分类器网络129可由图2所示的两个分类器129、205和定位器202代替。然后，损失将是整个图像损失(多标签损失131)、局部图像损失208和三元组损失133的组合。组合的模型旨在学习更好的特征空间以区分多个疾病。

然而，在替代示例实现方式中，可单独使用图2的预测的局部特征模型，而没有图1的三元组损失预测模型。在其它示例实现方式中，可单独使用图1的三元组损失预测模型，而没有图2的预测的局部特征模型。

图3示出根据本申请的其它示例实现方式的使用局部疾病预测来训练图像分类器的示意性表示300。图3的模型类似于图2的模式，下面提供了类似描述。在一些示例实现方式中，可使用局部疾病产生来检查疾病的预测位置是否与分类器一致。在这些示例实现方式中，如果图像被不正确地裁剪，则分类将可能不正确。换言之，如果图像已被裁剪为不包括疾病区域，则疾病分类可能不正确。

类似于关于图1和图2讨论的模型，锚图像105(为训练目的分析的图像)经过空间变换器网络111以将图像变换为公共图像比例。然后，来自空间变换器网络111的变换的图像经过图像特征嵌入网络117以嵌入用于疾病分类的图像特征以生成图像嵌入123。如下所述，图像嵌入123包括将由疾病定位器202用来嵌入疾病位置特征的疾病位置信息。

类似于关于图1和图2描述的模型，从锚图像105创建的图像嵌入123然后可经过分类器网络129以基于训练数据中指派给锚图像105的标签来计算损失因子。换言之，基于来自训练数据的与锚图像105关联的指派标签与分类网络129对锚图像105的分类之间的差异来计算多标签损失因子131(也称为整个图像计算损失)。

除了基于对整个输入图像中的疾病进行分类来计算分类器损失(整个图像分类损失131)之外，示例实现方式可在分类之前针对各个疾病使用预测的边界框来裁剪图像。具体地，如所示，定位器302确定疾病的预测位置并将图像裁剪至疾病的预测位置的区域以生成局部图像嵌入304。具体地，定位器302在锚图像305中在局部疾病的预测位置边界框内提取区域特征。边界框之外的特征值被设定为0。修改的特征或局部图像嵌入304表示边界框内的图像并被输入到第二分类器中。替代方法将利用例如值0掩蔽非疾病区域，并且使用掩蔽图像作为分类器的输入。要注意的是，通过在预测的边界框内选择特征(或来自局部化的特征)，可跳过计算的多个层，导致效率更高。

另外，在图3的模型中，图像嵌入304可被反馈到图像特征嵌入网络117中以改进从锚图像105提取的特征的图像嵌入。

在一些示例实现方式中，可使用CAM定位算法，其中提取DenseNet的最后一层的激活。另选地，在示例实现方式中可使用GradCAM定位算法。在不同的示例实现方式中可使用不同的归一化方法。在一些示例实现方式中，所有特征上的最大值可用于归一化。在其它示例实现方式中，所有特征上的最大值和最小值之间的差可用于归一化。在各个情况下，可识别大于固定阈值的特征激活的位置。计算阈值激活周围的矩形边界框，并且使边界框之外的特征为零。然后，所得特征图被馈送到分类器305中，分类器305与原始分类器(参见图3)共享权重。另选地，利用训练的分类器参数(仅分类层)初始化的单独分类器可用于对局部图像进行分类。使用下式8将来自整个图像分类的损失131和来自局部图像分类的损失308组合作为加权和312：

L_total＝αL_whole+(1-α)L_local (式8)

在一些示例实现方式中，可利用训练的基线模型的参数将该训练模型初始化。可通过训练达固定数量的迭代或者通过充分训练直至损失在验证数据集上的渐进来获得训练的基线模型。使用该初始化或预训练，以使得在第一次迭代中，估计的局部区域更可能是正确的，因此局部特征更可能具有一些信息。如果未执行初始化，则在初始迭代中，局部区域估计的估计纯为噪声，因此，模型给出非常嘈杂的局部特征，这将增加早期训练迭代期间的难度。

在一些示例实现方式中，图3所示的预测的局部特征模型可与图1的三元组损失预测模型组合。具体地，可首先单独训练三元组模型以提供预训练的分类模型，类似于预训练二元分类器。然后，图1中的分类器网络129可由图3所示的两个分类器129、305和定位器302代替。然后，损失将是整个图像损失(多标签损失131)、局部图像损失308和三元组损失133的组合。组合的模型旨在学习更好的特征空间以区分多个疾病。

然而，在替代示例实现方式中，可单独使用图3的预测的局部特征模型，而没有图1的三元组损失预测模型。在其它示例实现方式中，可单独使用图1的三元组损失预测模型，而没有图3的预测的局部特征模型。

图4示出根据本申请的示例实现方式的使用训练的神经网络对图像进行分类的处理400的流程图。处理400可由计算环境中的计算装置执行。例如，图9的计算环境900的计算装置905可执行处理400。

如图4所示，在405使用标记的图像样本来训练神经网络。训练可涉及使用利用图像标签标记的多个标记的图像样本，而非图像标签位置信息(例如，识别图像内图像标签所在的区域的信息)。例如，标记的图像样本可以是来自利用疾病标签或其它诊断信息标记的公开可用的医学图像集合(例如，NIH CHESTXRAY14数据集)的医学图像。

在一些示例实现方式中，405处的神经网络的训练可涉及如图1所示使用三元组损失来训练图像分类器。在其它示例实现方式中，405处的神经网络的训练可涉及如图2或图3所示使用局部疾病预测来训练图像分类器。在其它示例实现方式中，405处的神经网络的训练可涉及组合首先如图1所示使用三元组损失来训练图像分类器，然后如图2或图3所示使用局部疾病预测来训练图像分类器。

在训练神经网络之后，在410选择用于分析的图像(例如，测试数据图像)。在一些示例实现方式中，所选择的测试数据图像可以是与训练图像数据中的图像的主体不同并且被怀疑具有与训练相同类型的特征(例如，可能相同的疾病)的新主体(例如，新患者)。所选择的测试数据图像可以是与训练数据中的图像的主体相同的主体(例如，同一患者)。另外，测试图像日期和训练图像数据可以是三维图像的二维切片。

在415，对所选图像应用训练的神经网络以确定与所选图像关联的图像特征分类。例如，神经网络可分析所选图像以确定与所选图像关联的疾病分类。在一些示例实现方式中，对所选图像应用训练的神经网络可涉及使用特殊变换器网络来变换图像以具有恒定的图像取向以及与用于训练图像数据的训练数据一致的比例。

在420，可选地，训练的神经网络还可确定与所确定的图像特征分类关联的图像标签位置(例如，图像内图像标签所在的区域)。例如，训练的神经网络还可检测与在415确定的疾病分类关联的图像区域。

在425，所确定的图像特征分类可被提供或导出给用户。例如，可生成疾病分类报告以附到与所选医学图像关联的医学报告。

在430，可选地，所确定的图像标签位置(例如，图像内图像标签所在的区域)也可被提供或导出给用户。例如，识别所选医学图像的患病区域的边界框可被附到医学报告。在425图像特征分类被提供给用户之后，或者在430所确定的图像标签位置可选地被提供或导出给用户之后，处理400可结束。

示例实现方式的评估

表1：两个基线模型、我们的模型以及与其它模型不同在训练时使用一些标记的边界框的Google模型的分类和定位性能的总结。不使用标记的边界框的性能最佳的模型以粗体示出。所有模型中性能最佳的模型以粗斜体示出。

对于示例实现方式的评估，使用NIH ChestXray14数据集。对于三元组损失实验，任务是数据集中14种标记的疾病的多标签分类。第二任务是在数据集中不存在局部特征的情况下使用GradCAM来定位8种疾病。

对于使用局部特征的实验，针对三种疾病将示例实现方式与二元模型进行比较，这应该更清楚地指示局部特征是否改进各个疾病的性能而不会混淆其它疾病的影响。尽管二元模型用于局部特征实验以检查局部特征是否有帮助，但是该方法可被集成为STN+三元组损失模型。疾病为心肥大、肿块和结节。用于这些的分类测试集合与多标签分类中的三种疾病的测试数据相同。定位测试集合是具有标记的边界框的测试数据的子集。

STN和三元组损失结果

使用两个基线模型ChestX-ray14(NIH)和CheXNext来与示例实现方式模型(STN+Triplet)进行比较。基线模型ChestX-ray14(NIH)使用四个图像分析模型(即，AlexNet、GoogLeNet、VGGNet-16和ResNet-50)比较以计算图像表示。CheXNext表明，使用DenseNet121的性能优于ChestX-ray14(NIH)所使用的模型。两个基线模型执行疾病分类，然后执行定位。示例实现方式模型还与Google模型[2]比较，其使用70％的边界框标签来训练其定位模型。边界框标签难以获得，因为医生需要手动标记，这超出了常规做法。

表1示出两个基线模型ChestXray14和CheXNext以及使用附加数据的Google模型的分类和定位性能。在训练中不使用一些标记的边界框的模型当中，对于分类和定位二者，示例实现方式模型(STN+Triplet)总体均表现最佳。另外，示例实现方式模型还证明性能接近于在训练期间利用了更多标记数据的Google模型的性能。

图5和图6中示出四个模型对各个疾病的更详细的性能。图5示出在训练期间使用一些标签边界框的基线模型、示例实现方式模型以及Google模型的分类准确性。图6示出对于在训练期间使用一些标记的边界框的基线模型、示例实现方式模型和Google模型，使用IOU测量的定位性能。

使用局部特征训练

对于这些实验，将使用局部特征训练的有效性与由DenseNet121与单层疾病分类器组成的基线模型进行比较。针对各个疾病创建单独的二元分类器以评估将局部特征与来自整个图像的特征一起使用是否改进性能。

表2：基线模型以及使用两个将激活图归一化的不同方法计算局部特征的模型的分类准确性。最佳测试模型准确性为粗体。

上面的表2示出基线模型以及使用利用两个不同的归一化方法计算的局部特征的两个模型对不同疾病的分类准确性。对于准确性评估，当横跨所有三种疾病以任一种归一化方法使用局部特征时，均注意到测试准确性的一致改进。相反，性能最佳的验证准确性是基线模型，但是最佳验证性能并未转化为最佳测试性能。采用局部特征的两个模型的验证和测试之间的性能差异小于基线。较小的差异可指示局部特征有助于模型更好地泛化至新数据。

表3：评估为交并比(IoU)大于给定阈值的百分比的不同模型的定位测试性能。最佳模型定位性能为粗体。

表3比较了与表2中相同的模型的定位性能。在IoU阈值为0.1的情况下，仅对于心肥大，基线模型的性能优于两个局部特征模型。对于三种情况，通过最小激活值归一化的norm1方法的性能优于基线，而norm2方法的性能在两种情况下优于基线。

从表2和表3中的结果注意到，使用预测的局部特征横跨三种测试疾病一致地改进了测试分类准确性。此外，局部特征模型略优于基线模型：各自对两种疾病具有最佳定位性能，其中之一对于0.5的IoU，更严格的标准需要更高的交叠。基线模型对一种疾病具有最佳性能，其在IOU阈值为0.1的情况下是不太严格的标准。

定性结果

图7和图8示出使用多标签三元组模型的示例热图以及疾病的预测(红框)和真实(绿框)位置。图7示出当预测到真实疾病的概率大于0.5并且真实与预测的疾病边界框之间存在至少0.5IoU时的示例。图8示出不正确预测的示例。前两列显示边界框正确但是疾病的预测概率低于0.5(不正确)的情况。第三列显示边界框不正确并且疾病的预测概率可能大于或者可能不大于0.5的情况。

示例计算环境

图9示出具有适用于一些示例实现方式的示例计算机装置905的示例计算环境900。计算环境900中的计算装置905可包括一个或更多个处理单元、核或处理器910、存储器915(例如，RAM、ROM等)、内部存储装置920(例如，磁、光学、固态存储装置和/或有机)和/或I/O接口925，其中任一个可联接在用于通信信息的通信机构或总线930上或嵌入在计算装置905中。

计算装置905可在通信上联接到输入/接口935和输出装置/接口940。输入/接口935和输出装置/接口940中的任一者或两者可以是有线或无线接口并且可为可拆卸的。输入/接口935可包括可用于提供输入的任何装置、组件、传感器或接口(物理的或虚拟的)(例如，按钮、触摸屏接口、键盘、指点/光标控制、麦克风、相机、盲文、运动传感器、光学读取器等)。

输出装置/接口940可包括显示器、电视、监视器、打印机、扬声器、盲文等。在一些示例实现方式中，输入/接口935(例如，用户接口)和输出装置/接口940可被嵌入或物理联接到计算装置905。在其它示例实现方式中，其它计算装置可用作或提供用于计算装置905的输入/接口935和输出装置/接口940的功能。这些元件可包括(但不限于)熟知的AR硬件输入以允许用户与AR环境交互。

计算装置905的示例可包括(但不限于)高度移动装置(例如，智能电话、车辆和其它机器中的装置、人和动物携带的装置等)、移动装置(例如，平板、笔记本、膝上型计算机、个人计算机、便携式电视、收音机等)以及不是为移动性设计的装置(例如，台式计算机、服务器装置、其它计算机、信息亭、嵌入有和/或联接有一个或更多个处理器的电视、收音机等)。

计算装置905可(例如，经由I/O接口925)在通信上联接到外部存储装置945和网络950以用于与任何数量的联网组件、装置和系统通信，包括相同或不同配置的一个或更多个计算装置。计算装置905或任何连接的计算装置可用作、提供其服务或被称为服务器、客户端、精简服务器、通用机器、专用机器或另一标签。

I/O接口925可包括(但不限于)使用任何通信或I/O协议或标准(例如，以太网、802.11xs、通用系统总线、WiMAX、调制解调器、蜂窝网络协议等)以用于至少向和/或从计算环境900中的所有连接的组件、装置和网络通信信息的有线和/或无线接口。网络950可以是任何网络或网络组合(例如，互联网、局域网、广域网、电话网络、蜂窝网络、卫星网络等)。

计算装置905可使用计算机可用或计算机可读介质(包括暂时性介质和非暂时性介质)和/或使用其通信。暂时性介质包括传输介质(例如，金属线缆、光纤)、信号、载波等。非暂时性介质包括磁介质(例如，磁盘和磁带)、光学介质(例如，CD ROM、数字视频盘、蓝光盘)、固态介质(例如，RAM、ROM、闪存、固态存储装置)以及其它非易失性存储装置或存储器。

计算装置905可用于在一些示例计算环境中实现技术、方法、应用、处理或计算机可执行指令。计算机可执行指令可从暂时性介质检索，以及被存储在非暂时性介质上并从其检索。可执行指令可源自任何编程、脚本和机器语言(例如，C、C++、C#、Java、VisualBasic、Python、Perl、JavaScript等)中的一个或更多个。

处理器910可在本机或虚拟环境中在任何操作系统(OS)(未示出)下执行。可部署一个或更多个应用，其包括逻辑单元955、应用编程接口(API)单元960、输入单元965、输出单元970、空间变换器975、特征嵌入器980、图像分类器985、定位器990以及用于不同单元彼此通信、与OS通信以及与其它应用(未示出)通信的单元间通信机制995。

例如，输出单元970、空间变换器975、特征嵌入器980、图像分类器985和定位器990可实现图6所示的一个或更多个处理并且实现图1至图4所示的架构。所描述的单元和元件的设计、功能、配置或实现方式可变化，不限于所提供的描述。

在一些示例实现方式中，当通过API单元960接收到信息或执行指令时，可将其通信到一个或更多个其它单元(例如，空间变换器975、特征嵌入器980、图像分类器985和定位器990)。例如，空间变换器975可变换一个或更多个图像以旋转和缩放图像为公共取向。特征嵌入器980可从传送的图像提取并嵌入图像特征。图像分类器985可基于嵌入的图像特征对变换的图像的特征进行分类。定位器990确定与嵌入的图像特征关联的图像位置以辅助图像分类。

在一些情况下，在上述一些示例实现方式中，逻辑单元955可被配置为控制单元之间的信息流并引导由API单元960、空间变换器975、特征嵌入器980、图像分类器985和定位器990提供的服务。例如，一个或更多个处理或实现方式的流程可由逻辑单元955单独控制或结合API单元960控制。

尽管已示出和描述了一些示例实现方式，但是提供这些示例实现方式是为了将本文所描述的主题传达给熟悉本领域的人。应该理解，本文所描述的主题可按照各种形式实现，而不限于所描述的示例实现方式。本文所描述的主题可在没有那些具体定义或描述的事项或者具有未描述的其它或不同元件或事项的情况下实践。熟悉本领域的人将理解，在不脱离本文中所描述的如所附权利要求及其等同物中限定的主题的情况下，可对这些示例性实现方式进行改变。

Claims

1.一种使用神经网络对图像特征进行分类的方法，该方法包括以下步骤：

使用三元组损失处理来训练所述神经网络，训练所述神经网络的步骤包括：

接收锚图像以及与所述锚图像关联的图像标签，所述锚图像要用于训练所述神经网络；

选择正图像以及与所述正图像关联的图像标签，所述正图像具有与所述锚图像共享的至少一个图像标签；

选择负图像以及与所述负图像关联的图像标签，所述负图像没有与所述锚图像共享的图像标签；

使用图像特征嵌入网络来生成与所述锚图像、所述正图像和所述负图像中的每一个关联的图像嵌入；

通过所述神经网络基于所述锚图像的所述图像嵌入来对从所述锚图像提取的图像特征进行分类；以及

基于与所述锚图像、所述正图像和所述负图像中的每一个关联的所述图像嵌入来计算三元组损失，以确定所述图像特征的分类加权；

使用所训练的神经网络来对不具有任何关联的标记特征的测试数据图像的图像特征进行分类。

2.根据权利要求1所述的方法，其中，训练所述神经网络的步骤还包括：

基于所分类的从与所述图像嵌入关联的所述锚图像提取的图像特征以及与所述锚图像关联的所述图像标签来计算多标签损失；以及

使用加权损失和将所述多标签损失与所计算的三元组损失组合。

3.根据权利要求2所述的方法，其中，训练所述神经网络的步骤还包括：

使用空间变换器网络通过缩放、旋转和裁剪来变换所述锚图像、所述正图像和所述负图像中的每一个以建立公共视图取向。

4.根据权利要求1所述的方法，其中，训练所述神经网络的步骤还包括：

确定与所分类的图像特征关联的图像标签位置；

提取与所确定的图像标签位置关联的特征；

使用所述神经网络对与所确定的图像标签位置关联的所述特征进行分类；

确定与所确定的图像标签位置所关联的特征关联的局部图像分类损失；以及

使用加权损失和将多标签损失与所述局部图像分类损失和所述三元组损失组合。

5.根据权利要求4所述的方法，该方法还包括使用所训练的神经网络在测试图像数据上识别图像标签位置。

6.根据权利要求4所述的方法，其中，训练所述神经网络的步骤还包括：

基于与所确定的图像标签位置关联的所提取的特征来生成所述锚图像的新的图像嵌入；以及

通过所述神经网络基于所述新的图像嵌入对从所述锚图像提取的所述特征进行分类。

7.根据权利要求4所述的方法，其中，所述锚图像、所述正图像和所述负图像各自是与一个或更多个疾病关联的医学诊断图像。

8.一种使用神经网络对图像特征进行分类的方法，该方法包括以下步骤：

使用图像特征嵌入网络来生成与所述锚图像关联的图像嵌入；

通过所述神经网络基于所述锚图像的所述图像嵌入对从所述锚图像提取的图像特征进行分类；

确定与所分类的图像特征关联的图像标签位置；

提取与所确定的图像标签位置关联的特征；

使用所述神经网络对与所确定的图像标签位置关联的所述特征进行分类；以及

确定与所确定的图像标签位置所关联的特征关联的局部图像分类损失；

使用所训练的神经网络对不具有任何关联的标记特征的测试数据图像的图像特征进行分类。

9.根据权利要求8所述的方法，其中，训练所述神经网络的步骤还包括：

使用加权损失和将所述多标签损失与所述局部图像分类损失组合。

10.根据权利要求8所述的方法，该方法还包括使用所训练的神经网络在测试图像数据上识别图像标签位置。

11.根据权利要求9所述的方法，其中，训练所述神经网络的步骤还包括：

12.根据权利要求8所述的方法，其中，训练所述神经网络的步骤还包括：

选择负图像以及与所述负图像关联的图像标签，所述负图像没有与所述锚图像共享的图像标签，

其中，使用图像特征嵌入网络来生成图像嵌入的步骤包括使用图像特征嵌入网络来生成与所述锚图像、所述正图像和所述负图像中的每一个关联的图像嵌入；

基于与所述锚图像、所述正图像和所述负图像中的每一个关联的所述图像嵌入来计算三元组损失，以确定所述图像特征的分类加权；以及

13.根据权利要求12所述的方法，其中，训练所述神经网络的步骤还包括：

14.根据权利要求12所述的方法，其中，所述锚图像、所述正图像和所述负图像各自是与一个或更多个疾病关联的医学诊断图像。

15.一种编码有指令的非暂时性计算机可读介质，所述指令用于使得计算机执行一种使用神经网络对图像特征进行分类的方法，该方法包括以下步骤：

通过所述神经网络基于所述锚图像的所述图像嵌入对从所述锚图像提取的图像特征进行分类；以及

确定与所分类的图像特征关联的图像标签位置；

提取与所确定的图像标签位置关联的特征；

使用加权损失和将所述局部图像分类损失和所述三元组损失组合；

16.根据权利要求15所述的非暂时性计算机可读介质，其中，训练所述神经网络的步骤还包括：

使用加权损失和将所述多标签损失与所述局部图像分类损失和所述三元组损失组合。

17.根据权利要求16所述的非暂时性计算机可读介质，其中，训练所述神经网络的步骤还包括：

18.根据权利要求16所述的非暂时性计算机可读介质，其中，所述方法还包括使用所训练的神经网络在测试图像数据上识别图像标签位置。

19.根据权利要求18所述的非暂时性计算机可读介质，其中，训练所述神经网络的步骤还包括：

20.根据权利要求19所述的非暂时性计算机可读介质，其中，所述锚图像、所述正图像和所述负图像各自是与一个或更多个疾病关联的医学诊断图像。