CN111832584A

CN111832584A - 图像处理装置及其训练装置和训练方法

Info

Publication number: CN111832584A
Application number: CN201910304695.5A
Authority: CN
Inventors: 沈伟; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2020-10-27
Also published as: JP2020177647A; US20200334490A1

Abstract

本公开涉及图像处理装置以及用于训练该图像处理装置的训练装置和训练方法。该训练装置包括：特征图提取单元，提取支持图像和查询图像的特征图；细化单元，针对每个支持图像，基于特征图确定匹配特征向量；以及联合训练单元，使用训练图像作为查询图像对执行联合训练，使得能够针对新的查询图像确定匹配支持图像和匹配位置，其中训练图像与特定的支持图像匹配。通过上述训练技术训练的图像处理装置能够同时确定分别属于不同类别的多个支持图像中的与查询图像匹配的匹配支持图像并且确定查询图像与匹配支持图像的匹配位置。

Description

图像处理装置及其训练装置和训练方法

技术领域

本公开总体上涉及图像处理的技术领域，更具体地，涉及用于训练图像处理装置的训练装置和训练方法以及通过所述训练装置和训练方法训练的图像处理装置。

背景技术

目前，由于收集和标记样本数据集合需要耗费大量的时间和算力，因此少样本精准分类方法如One-short Learning方法已被广泛研究，以使得机器学习系统能够快速地从少量样本数据学习到分类知识。

然而，在将上述少样本精准分类方法应用于图像分类领域时，由于仅使用图像级信息用于分类，因此所获得的分类结果仅能够指出图像之间是否相似，但是不能给出关于图像之间的相似对象的具体信息。例如，假设支持图像(标记数据)和查询图像(未标记数据)中显示的对象均为橙子，现有的使用少样本精准分类方法的图像分类技术仅能够判断这两个图像是相似的，但是既不能指出这两个图像之间的相似对象是橙子，也不能指出这两个图像中的相似对象即橙子在图像中的具体位置。换言之，现有的图像分类技术不能给出关于对象级相似性的信息。

为了解决上述问题，目前提出了将分类器应用于查询图像的特征图的各个位置的方法，从而能够获取图像的对象级信息，并且据此执行图像分类处理。然而，在查询图像中的对象与支持图像集合中的任何对象均不匹配的情况下，由于上述方法缺乏关于该新对象的分类器，因而可能出现分类失败的问题。

因此，仍然需要一种图像处理技术，其能够确定分别属于不同类别的多个支持图像中的与查询图像匹配的匹配支持图像并且确定查询图像与匹配支持图像的匹配位置。此外，该图像处理技术能够处理查询图像与任何支持图像均不匹配的情况。

发明内容

为了解决现有技术中存在的问题，本公开提出了一种新型的用于训练图像处理装置的训练技术。该训练技术通过提取支持图像和查询图像的特征图来确定表示支持图像和查询图像之间的匹配程度和匹配位置的匹配特征向量，并且使用与特定支持图像匹配的训练图像作为查询图像基于匹配特征向量对图像处理装置进行训练。

在下文中将给出关于本公开的简要概述，以便提供关于本公开的某些方面的基本理解。应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分，也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本公开的目的之一在于提供用于图像处理装置的训练装置和训练方法。通过根据本公开的训练装置和训练方法进行训练的图像处理装置能够确定分别属于不同类别的多个支持图像中的与查询图像匹配的匹配支持图像并且确定查询图像与匹配支持图像的匹配位置。此外，通过该训练技术训练的图像处理装置能够处理查询图像与任何支持图像均不匹配的情况。

为了实现本公开的目的，根据本公开的一个方面，提供了一种用于训练图像处理装置的训练装置。该图像处理装置用于确定分别属于不同类别的多个支持图像中的与查询图像匹配的匹配支持图像并且确定查询图像与匹配支持图像的匹配位置。该训练装置可以包括：特征图提取单元，其提取多个支持图像中的每个的特征图和查询图像的特征图；细化单元，器针对每个支持图像，基于支持图像和查询图像的特征图通过N次迭代计算确定表示支持图像与查询图像之间的匹配程度和匹配位置的匹配特征向量，其中N是大于2的自然数；以及联合训练单元，其使用多个训练图像中的每个作为查询图像基于匹配特征向量对特征图提取单元的参数和细化单元的参数执行联合训练，使得图像处理装置能够针对新的查询图像确定匹配支持图像和匹配位置，其中多个训练图像中的每个与多个支持图像中的特定的支持图像匹配。

根据本公开的另一方面，提供了一种用于训练图像处理装置的训练方法。该图像处理装置用于确定分别属于不同类别的多个支持图像中的与查询图像匹配的匹配支持图像并且确定查询图像与匹配支持图像的匹配位置。该训练方法包括：提取多个支持图像中的每个的特征图和查询图像的特征图；针对每个支持图像，基于支持图像和查询图像的特征图通过N次迭代计算确定表示支持图像与查询图像之间的匹配程度和匹配位置的匹配特征向量，其中N是大于2的自然数；以及使用多个训练图像中的每个作为查询图像基于匹配特征向量对特征图提取单元的参数和循环细化单元的参数执行联合训练，使得图像处理装置能够针对新的查询图像确定匹配支持图像和匹配位置，其中多个训练图像中的每个与多个支持图像中的特定的支持图像匹配。

根据本公开的另一方面，提供了一种图像处理装置，用于确定分别属于不同类别的多个支持图像中的与查询图像匹配的匹配支持图像并且确定查询图像与匹配支持图像的匹配位置。该图像处理装置可以包括根据本公开的上述方面的训练装置的特征图提取单元和喜欢单元、以及卷积单元。

根据本公开的另一方面，提供了一种能够实现上述的训练方法的计算机程序。此外，还提供了具有至少计算机可读介质形式的计算机程序产品，其上记录有用于实现上述的训练方法的计算机程序代码。

根据本公开的技术进行训练的图像处理装置能够确定分别属于不同类别的多个支持图像中的与查询图像匹配的匹配支持图像并且确定查询图像与匹配支持图像的匹配位置。此外，通过该训练技术训练的图像处理装置能够处理查询图像与任何支持图像均不匹配的情况。

附图说明

参照下面结合附图对本公开实施方式的说明，会更加容易地理解本公开的以上和其它目的、特点和优点，在附图中：

图1示出了根据本公开的实施方式的用于训练图像处理装置的训练装置的框图；

图2示出了根据本公开的实施方式的细化单元的框图；

图3示出了根据本公开的实施方式的细化单元的示意图；

图4A示出了特征向量提取子单元在第1次迭代计算中执行的处理的示意图；

图4B示出了特征向量提取子单元在第n次迭代计算中执行的处理的示意图；

图5A示出了典型的LSTM单元的示意图；

图5B示出了根据本公开的实施方式的简化的LSTM单元的示意图；

图6示出了根据本公开的实施方式的图像处理装置的框图；

图7示出了根据本公开的实施方式的图像处理装置的处理示例的示意图；

图8示出了根据本公开的实施方式的用于训练图像处理装置的训练方法的流程图；以及

图9示出了可用来实现根据本公开的实施方式的训练装置和训练方法的通用机器的结构简图。

具体实施方式

在下文中，将参照所附的说明性示图详细描述本公开的一些实施方式。在用附图标记指示附图的元件时，尽管相同的元件在不同的附图中示出，但相同的元件将由相同的附图标记表示。此外，在本公开的以下描述中，在有可能使本公开的主题不清楚的情况下，将省略对并入于本文中的已知功能和配置的详细描述。

本文中使用的术语仅用于描述特定实施方式的目的，而非旨在限制本公开。如本文所使用的，除非上下文另外指出，否则单数形式旨在也包括复数形式。还将理解的是，说明书中使用的术语“包括”、“包含”和“具有”旨在具体说明所陈述的特征、实体、操作和/或部件的存在，但是并不排除一个或更多个其他的特征、实体、操作和/或部件的存在或添加。

除非另有定义，否则本文中使用的包括技术术语和科学术语的所有术语具有与本发明构思所属领域技术人员通常理解的含义相同的含义。将进一步理解的是，诸如在常用词典中定义的那些术语应该被解释为具有与其在相关领域的上下文中的含义一致的含义，除非在此明确定义否则不应以理想化或过于正式的意义来解释。

在下面的描述中，阐述了许多具体细节以提供对本公开的全面理解。本公开可以在没有这些具体细节中的一些或所有具体细节的情况下实施。在其他实例中，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的部件，而省略了与本公开关系不大的其他细节。

在下文中，术语“支持图像”和“训练图像”是指带有标记的图像数据，即图像中显示的对象的类别是已知的，其中支持图像可以表示显示特定对象的图像集合，即特定类别的图像集合中的代表性图像，而训练图像可以表示显示特定对象的图像集合中的任一图像。

在下面的描述的实施方式中，为了便于描述，对于多个类别的图像中的每个类别，只选用该类别的图像中的一个图像作为表示该类别的代表性图像的支持图像。然而，本领域技术人员应认识到，每个类别的图像数据集合可以具有一个或更多个支持图像。

在下文中，术语“查询图像”是指不带有标记的图像数据，即图像中显示的对象的类别是未知的。本公开的目的在于提供一种用于训练图像处理装置的训练技术。通过该训练技术训练的图像处理装置能够确定哪个支持图像与查询图像匹配，即确定匹配支持图像，并且确定与匹配支持图像所属类别对应的对象在查询图像中的位置。

本公开的技术的核心思想在于利用反映支持图像和查询图像的高阶特征的特征图来获得表示支持图像与查询图像之间的匹配程度和匹配位置的匹配特征向量，通过该匹配特征向量可以确定与查询图像匹配的支持图像，即查询图像的类别，同时还能够确定与该类别对应的对象在查询图像和支持图像中的位置。

在下文中，将参照附图详细描述根据本公开的每个实施方式的用于训练图像处理装置的训练装置和训练方法。

图1是示出根据本公开的实施方式的用于训练图像处理装置的训练装置100的框图。

如图1所示，训练装置100可以包括特征图提取单元101、细化单元102和联合训练单元103。

根据本公开的实施方式，特征图提取单元101可以提取多个支持图像中的每个的特征图和查询图像的特征图，并且可以将获得的特征图提供给细化单元102。

在一些实施方式中，特征图提取单元101可以通过卷积神经网络(CNN)来实现。

CNN是一种前馈人工神经网络，被广泛地应用于图像和语音处理领域。CNN基于三个重要特征，即感受野，权值共享和池化。

CNN假设每个神经元仅与邻近区域中的神经元存在连接关系并且彼此产生影响。感受野表示该邻近区域的大小。此外，CNN假设某个区域的神经元之间的连接权值也可以应用于所有其他区域，即权值共享。CNN的池化指的是在将CNN用于解决分类问题时基于聚合统计进行的降维操作。

相应地，CNN由输入层和输出层以及其间的多个隐藏层组成，隐藏层可以包括卷积层，池化层、激活层和全连接层。在每个卷积层处，图像数据以三维形式存在，其可被视为多个二维图像的叠层，即特征图。该特征图反映输入图像的高阶特征。通常，为了保留输入图像的足够的特征，每层特征图的尺寸不小于5×5。

通过CNN的处理，可以获得多个支持图像中的每个的特征图和查询图像的特征图。

鉴于通过CNN提取图像的特征图的处理是本领域技术人员已知的技术，因此为简洁起见，本文不对其技术细节进行进一步的描述。

根据本公开的实施方式，细化单元102可以针对每个支持图像，基于特征图提取单元101提供的支持图像和查询图像的特征图，通过N次迭代计算确定表示支持图像与查询图像之间的匹配程度和匹配位置的匹配特征向量，其中N是大于2的自然数。图2示出了根据本公开的实施方式的细化单元102的框图。

在一些实施方式中，如图2中所示，细化单元102可以包括特征向量提取子单元1021、相似度计算子单元1022和循环更新子单元1023。

图3示出了根据本公开的实施方式的细化单元102的示意图。

在一些实施方式中，特征向量提取子单元1021可以基于支持图像和查询图像的特征图提取支持图像和查询图像的特征向量。相似度计算子单元1022可以计算支持图像的特征向量与查询图像的特征向量之间的相似度。循环更新子单元1023可以基于支持图像和查询图像的特征向量以及相似度计算匹配特征向量。

在一些实施方式中，如图3所示，在细化单元102中，特征向量提取子单元1021可以基于从特征图提取单元101提供的支持图像的特征图和查询图像的特征图以及从循环更新子单元1023反馈的作为上一次迭代计算的结果的先前的匹配特征向量，生成支持图像的特征向量和查询图像的特征向量。

例如，支持图像的特征向量可以用fs表示，而查询图像的特征向量可以用fq表示。

在一些实施方式中，对于N次迭代计算中的第1次迭代计算，由于不存在上一次迭代计算结果，因此特征向量提取子单元1021仅基于支持图像的特征图和查询图像的特征图通过全局平均池化来提取支持图像和查询图像的特征向量fs₁和fp₁。

图4A示出了特征向量提取子单元1021在第1次迭代计算中执行的处理的示意图。如图4A所示，具有三维形式的特征图可以通过在CNN中的池化层中执行全局平均池化而被降维成相应的特征向量。鉴于CNN中的池化处理是本领域技术人员已知的技术，因此为简洁起见，本文不对其技术细节进行进一步的描述。

在一些实施方式中，对于N次迭代计算中的第n次迭代计算，其中n是大于1且小于或等于N的自然数，特征向量提取子单元1021可以基于支持图像和查询图像的特征图以及第n-1次迭代计算得到的匹配特征向量通过全局平均池化来提取支持图像和查询图像的特征向量fs_n和fp_n。

图4B示出了特征向量提取子单元在第n次迭代计算中执行的处理的示意图。

如图4B所示，细化单元102的上一次迭代计算的结果，即匹配特征向量可以用fm_n-1表示。根据本公开的实施方式，以支持图像的特征图为例，在当前迭代周期中，特征向量提取子单元1021将作为上一次迭代计算的结果的匹配特征向量fm_n-1与支持图像的特征图做卷积运算，所得到的结果可以被称为注意力掩模。该注意力掩模物理上可以被理解为表示支持图像中的特定对象所在的区域，其在图4B的示意图中以高亮度区域表示。

随后，特征向量提取子单元1021将得到的注意力掩模与支持图像的特征图做点乘计算并且执行全局平均池化处理，可以得到支持图像的特征向量fs。

上文参照图4B以支持图像的特征图为例描述的处理同样应用于查询图像，从而得到查询图像的特征向量fq。

如图3所示，特征向量提取子单元1021将得到的支持图像的特征向量fs和查询图像的特征向量fq输入到相似度计算子单元1022，其计算支持图像的特征向量fs与查询图像的特征向量fq之间的相似度a。

可以通过多种方式计算特征向量fs与特征向量fq之间的相似度。在一些实施方式中，相似度计算子单元1022可以通过作为多层全连接神经网络模型的多层感知器(MLP)来实现。鉴于通过MLP计算两个向量之间的相似度的处理是本领域技术人员已知的技术，因此为简洁起见，本文不对其技术细节进行进一步的描述。

如上文所述，循环更新子单元1023可以使用相似度计算子单元1022计算的特征向量fs与特征向量fq之间的相似度a以及支持图像的特征向量fs和查询图像的特征向量fq计算匹配特征向量w。

具体地，在一些实施方式中，循环更新子单元1023可以通过简化输出门运算的长短期记忆模型(LSTM)来实现。图5A示出了典型的LSTM单元的示意图，而图5B示出了根据本公开的实施方式的简化的LSTM单元的示意图。

LSTM模型能够通过其记忆单元学习长时间范围的依赖关系，其通常包括四个单元，即输入门i_t，输出门o_t，遗忘门f_t和存储状态C_t，其中t表示当前时间步骤。存储状态C_t根据上一个时间步骤的状态影响其他单元的当前状态。遗忘门f_t可用于确定应放弃哪些信息。上述过程可以用下式表示

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

o_t＝σ(W_o[h_t-1，x_t]+b_o)

C_t＝f_t*C_t-1+i_t*C_t

其中σ是sigmoid函数，x_t表示当前时间步骤t的输入，h_t表示当前时间步骤t的中间状态，o_t表示当前时间步骤t的输出。连接权重矩阵W_f、W_i、W_C、W_o和偏置向量b_i、b_f、b_C、b_o是待训练的参数。

在使用上述LSTM实现循环更新子单元1023时，如图5B所示，在根据本公开的实施方式使用的简化的LSTM单元中，省去了中间状态h_t的计算。这样，在简化的LSTM单元的输入端只输入上一时间步骤t-1的向量C_t-1和输入向量x_t。为了便于理解，图5B中使用附图标记w替换C。

输入向量x_t＝[w_t-1,ctx_t-1]，表示将上一个时间步骤的向量w_t-1与向量ctx_t-1拼接在一起得到的向量。

如图5B所示，根据本公开的实施方式，向量w_t-1＝fs+afq，其中α是相似度计算子单元1022计算的相似度，α值越小，则表示特征向量fs与特征向量fq之间的相似度越小。根据本公开的实施方式使用的简化的LSTM单元的当前输出w_t可被理解为当前计算的匹配特征向量，其可以表示查询图像中是否存在与支持图像相同的显示对象以及该对象的位置。w_t向量在物理意义上可以被理解为与支持图像分别对应的各分类器的权重。

此外，根据本公开的实施方式，向量ctxⁱ＝∑_jb^ijwⁱ，其中b_ij＝(wⁱ⁾T^j，其中b^ij在物理意义上可被理解为向量w中的各个权重与其他权重之间的关系。

在一些实施方式中，对于N次迭代计算中的第1次迭代计算，由于不存在上一次迭代计算的结果，循环更新子单元1023仅基于特征向量提取子单元1021提取的支持图像和查询图像的特征向量以及相似度计算子单元1022计算的相似度计算匹配特征向量。对于N次迭代计算中的第n次迭代计算，其中n是大于1且小于或等于N的自然数，循环更新子单元1023使用特征向量提取子单元1021基于第n-1次迭代计算得到的匹配特征向量而提取的支持图像和查询图像的特征向量、特征向量提取子单元1022计算的相似度、以及第n-1次迭代计算得到的匹配特征向量来计算当前的匹配特征向量。

在一些实施方式中，细化单元102的迭代次数N可以根据经验确定，也可以根据具体应用环境确定。通常，N不小于2。

如上文所述，联合训练单元103可以使用多个训练图像中的每个作为查询图像基于匹配特征向量对特征图提取单元的参数和细化单元的参数执行联合训练，其中多个训练图像中的每个与多个支持图像中的特定的支持图像匹配。

在一些实施方式中，联合训练单元103可以实现特征图提取单元101的CNN、实现相似度计算子单元1022的MLP以及实现循环更新子单元1023的简化的LSTM的参数进行联合训练。该联合训练的目的在于使匹配特征向量与查询图像的特征向量之间的softmax分类误差最小。可以通过多种方法构造训练装置100的损失函数，并据此使用训练图像通过梯度下降法执行联合训练。鉴于使用梯度下降法执行联合训练的技术在本领域中是已知的，因此这里不对其技术细节进行进一步的描述。

相应地，本公开还提出了一种图像处理装置，其通过上述训练装置100训练。

图6示出了根据本公开的实施方式的图像处理装置600的框图，并且图7示出了根据本公开的实施方式的图像处理装置600的处理示例的示意图。

如图6所示，图像处理装置600可以包括特征图提取单元601、细化单元602和卷积单元603。特征图提取单元601可以具有与上文所述的特征图提取单元101相同的结构并且通过上文所述的训练装置100进行训练。此外，细化单元602可以具有与上文所述的细化单元601相同的结构并且通过上文所述的训练装置100进行训练。

例如，如图7所示，假设存在五个类别的图像数据集合，其中显示的对象是不同的，所述五个类别的图像数据集合分别具有作为各自的代表性图像的支持图像。

在将无标记的查询图像输入图像处理装置600的情况下，图像处理装置600的特征图提取单元601提取查询图像的特征图和各支持图像的特征图。随后将查询图像和特征图和各支持图像的特征图分别配对以输入到细化单元602中，从而得到表示查询图像与相应的支持图像的匹配程度和匹配位置的匹配特征向量。

根据本公开的实施方式，卷积单元603通过将匹配特征向量分别与支持图像的特征图和查询图像的特征图做卷积运算，可以确定支持图像与查询图像之间的匹配程度和匹配位置。

例如，如图7所示，查询图像与第1个支持图像均显示了橙子。图像处理装置600可以识别出这两个图像均显示了共同的对象，即橙子，并且以高亮方式呈现所述对象在查询图像与第1个支持图像中的位置。

由此可见，根据本公开的实施方式的图像处理装置能够确定分别属于不同类别的多个支持图像中的与查询图像匹配的匹配支持图像并且确定查询图像与匹配支持图像的匹配位置。

此外，对于不与查询图像匹配的其他支持图像，图像处理装置600仅能使得其他支持图像中的相应的对象被高亮显示。由于查询图像中不存在与其他支持图像中的对象匹配的对象，因此关于查询图像的处理结果是全黑的图像。

由此可见，即便输入的查询图像与任何支持图像均不匹配，根据本公开的实施方式的图像处理装置仍能够给出相应的处理结果，例如卷积单元603针对查询图像的卷积运算的结果全部是全黑色的图像。因此，根据本公开的实施方式的图像处理装置能够处理查询图像与任何支持图像均不匹配的情况。

此外，图7中为说明方便起见示出了与图像数据的类别数目对应的细化单元的数目。然而，本领域技术人员应认识到，细化单元的数目没有特别限制，可以使用一个细化单元用于全部类别的图像数据，通过时间复用的方式将查询图像与支持图像进行逐一比对。此外，为了提高分类速度，也可以使用多个细化单元，每个细化单元对应于一个或更多个类别的图像数据。

相应地，本公开还提出了一种用于训练图像处理装置的训练方法。

图8是示出根据本公开的实施方式的用于训练图像处理装置的训练方法800的流程图。

训练方法800开始于步骤S801。随后，在步骤S802中，提取多个支持图像中的每个的特征图和查询图像的特征图。在一些实施方式中，步骤S802中的处理可以通过根据上文参照图1至5描述的特征图提取单元101来实现。

随后，在步骤S803中，针对每个支持图像，基于支持图像和查询图像的特征图通过N次迭代计算确定表示支持图像与查询图像之间的匹配程度和匹配位置的匹配特征向量，其中N是不小于2的自然数。在一些实施方式中，步骤S803中的处理可以通过根据上文参照图1至5描述的细化单元102来实现。

随后，在步骤S804中，使用多个训练图像中的每个作为查询图像基于匹配特征向量对特征图提取单元的参数和循环细化单元的参数执行联合训练，其中多个训练图像中的每个与多个支持图像中的特定的支持图像匹配。在一些实施方式中，步骤S804中的处理可以通过根据上文参照图1至5描述的联合训练单元103来实现。

最后，训练方法800结束于步骤S905。

通过上述训练方法训练的图像处理装置能够确定分别属于不同类别的多个支持图像中的与查询图像匹配的匹配支持图像并且确定所述查询图像与所述匹配支持图像的匹配位置。此外，该图像处理装置还能够处理查询图像与任何支持图像均不匹配的情况。

尽管上文以图像数据为例描述了本公开的实施方式，但是对于本领域技术人员明显的是，本公开的实施方式同样可以应用于其他少样本精准分类领域，例如语音数据、文本数据等。

图9是示出可用来实现根据本公开的实施方式的训练装置和训练方法的通用机器900的结构简图。通用机器900可以是例如计算机系统。应注意，通用机器900只是一个示例，并非暗示对本公开的训练方法和训练装置的使用范围或者功能的局限。也不应将通用机器900解释为对上述训练装置或训练方法中示出的任一组件或其组合具有依赖或需求。

在图9中，中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机存取存储器(RAM)903的程序执行各种处理。在RAM 903中，还根据需要存储当CPU 901执行各种处理等等时所需的数据。CPU 901、ROM 902和RAM 903经由总线904彼此连接。输入/输出接口905也连接到总线904。

下述部件也连接到输入/输出接口905：输入部分906(包括键盘、鼠标等等)、输出部分907(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分908(包括硬盘等)、通信部分909(包括网络接口卡例如LAN卡、调制解调器等)。通信部分909经由网络例如因特网执行通信处理。根据需要，驱动器910也可连接到输入/输出接口905。可拆卸介质911例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器910上，使得从中读出的计算机程序可根据需要被安装到存储部分908中。

在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可拆卸介质911安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图9所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 902、存储部分908中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

此外，本公开还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本公开的训练方法。相应地，用于承载这种程序产品的上面列举的各种存储介质也包括在本公开的范围内。

上面已通过框图、流程图和/或实施方式进行了详细描述，阐明了根据本公开的实施方式的装置和/或方法的具体实施方式。当这些框图、流程图和/或实施方式包含一个或多个功能和/或操作时，本领域的技术人员明白，这些框图、流程图和/或实施方式中的各功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。在一种实施方式中，本说明书中描述的主题的几个部分可通过特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成形式实现。然而，本领域的技术人员会认识到，本说明书中描述的实施方式的一些方面能够全部或部分地以在一个或多个计算机上运行的一个或多个计算机程序的形式(例如，以在一个或多个计算机系统上运行的一个或多个计算机程序的形式)、以在一个或多个处理器上运行的一个或多个程序的形式(例如，以在一个或多个微处理器上运行的一个或多个程序的形式)、以固件的形式、或以实质上它们的任意组合的形式等效地实施，并且，根据本说明书中公开的内容，设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”，“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度，而仅仅是为了描述清楚起见而用于在这些特征、要素、步骤或组件之间进行标识。

综上，在根据本公开的实施方式中，本公开提供了如下方案，但不限于此：

方案1.一种用于训练图像处理装置的训练装置，所述图像处理装置用于确定分别属于不同类别的多个支持图像中的与查询图像匹配的匹配支持图像并且确定所述查询图像与所述匹配支持图像的匹配位置，所述训练装置包括：

特征图提取单元，被配置成提取所述多个支持图像中的每个的特征图和所述查询图像的特征图；

细化单元，被配置成针对每个支持图像，基于所述支持图像和所述查询图像的特征图通过N次迭代计算确定表示所述支持图像与所述查询图像之间的匹配程度和匹配位置的匹配特征向量，其中N是不小于2的自然数；以及

联合训练单元，被配置成使用多个训练图像中的每个作为所述查询图像基于匹配特征向量对所述特征图提取单元的参数和所述细化单元的参数执行联合训练，使得所述图像处理装置能够针对新的查询图像确定所述匹配支持图像和所述匹配位置，其中所述多个训练图像中的每个与所述多个支持图像中的特定的支持图像匹配。

方案2.根据方案1所述的训练装置，其中所述多个支持图像的每个类别具有一个或更多个支持图像。

方案3.根据方案1或2所述的训练装置，其中所述特征图提取单元通过卷积神经网络来实现。

方案4.根据方案1至3中任一项所述的训练装置，其中所述细化单元进一步包括：

特征向量提取子单元，被配置成基于所述支持图像和所述查询图像的特征图提取所述支持图像和所述查询图像的特征向量；

相似度计算子单元，被配置成计算所述支持图像的特征向量与所述查询图像的特征向量之间的相似度；以及

循环更新子单元，被配置成基于所述支持图像和所述查询图像的特征向量以及所述相似度计算所述匹配特征向量。

方案5.根据方案4所述的训练装置，其中所述特征向量提取子单元被进一步配置成：

对于第1次迭代计算，基于所述支持图像和所述查询图像的特征图通过全局平均池化来提取所述支持图像和所述查询图像的特征向量；以及

对于第n次迭代计算，基于所述支持图像和所述查询图像的特征图以及第n-1次迭代计算得到的匹配特征向量通过全局平均池化来提取所述支持图像和所述查询图像的特征向量，其中n是大于1且小于或等于N的自然数。

方案6.根据方案4所述的训练装置，其中所述相似度计算子单元通过多层感知器来实现。

方案7.根据方案4所述的训练装置，其中所述循环更新子单元被进一步配置成：

对于第1次迭代计算，基于所述支持图像和所述查询图像的特征向量以及所述相似度计算所述匹配特征向量；以及

对于第n次迭代计算，基于所述支持图像和所述查询图像的特征向量、所述相似度以及第n-1次迭代计算得到的匹配特征向量计算所述匹配特征向量，其中n是大于1且小于或等于N的自然数。

方案8.根据方案4所述的训练装置，其中所述循环更新子单元通过简化输出门运算的长短期记忆模型来实现。

方案9.根据方案1至8中任一项所述的训练装置，其中所述联合训练单元被进一步配置成对实现所述特征图提取单元的卷积神经网络、实现所述相似度计算子单元的多层感知器以及实现所述循环更新子单元的简化的长短期记忆模型的参数进行联合训练。

方案10.一种用于训练图像处理装置的训练方法，所述图像处理装置用于确定分别属于不同类别的多个支持图像中的与查询图像匹配的匹配支持图像并且确定所述查询图像与所述匹配支持图像的匹配位置，所述训练方法包括：

提取所述多个支持图像中的每个的特征图和所述查询图像的特征图；

针对每个支持图像，基于所述支持图像和所述查询图像的特征图通过N次迭代计算确定表示所述支持图像与所述查询图像之间的匹配程度和匹配位置的匹配特征向量，其中N是不小于2的自然数；以及

使用多个训练图像中的每个作为所述查询图像基于匹配特征向量对所述特征图提取单元的参数和所述循环细化单元的参数执行联合训练，使得所述图像处理装置能够针对新的查询图像确定所述匹配支持图像和所述匹配位置，其中所述多个训练图像中的每个与所述多个支持图像中的特定的支持图像匹配。

方案11.根据方案10所述的训练方法，其中所述多个支持图像的每个类别具有一个或更多个支持图像。

方案12.根据方案10或11所述的训练方法，其中提取所述特征图的步骤通过卷积神经网络来实现。

方案13.根据方案10至12中任一项所述的训练方法，其中确定所述匹配特征向量的步骤进一步包括：

基于所述支持图像和所述查询图像的特征图提取所述支持图像和所述查询图像的特征向量；

计算所述支持图像的特征向量与所述查询图像的特征向量之间的相似度；以及

基于所述支持图像和所述查询图像的特征向量以及所述相似度计算所述匹配特征向量。

方案14.根据方案13所述的训练方法，其中提取所述特征向量的步骤进一步包括：

方案15.根据方案13所述的训练方法，其中计算所述相似度的步骤通过多层感知器来实现。

方案16.根据方案13所述的训练方法，其中计算所述匹配特征向量的步骤进一步包括：

方案17.根据方案13所述的训练方法，其中计算所述匹配特征向量的步骤通过简化输出门运算的长短期记忆模型来实现。

方案18.根据方案10至17中任一项所述的训练方法，其中执行所述联合训练的步骤对实现提取所述特征图的步骤的卷积神经网络、实现计算所述相似度的步骤的多层感知器以及实现计算所述匹配特征向量的步骤的简化的长短期记忆模型的参数进行联合训练。

方案19.一种图像处理装置，用于确定分别属于不同类别的多个支持图像中的与查询图像匹配的匹配支持图像并且确定所述查询图像与所述匹配支持图像的匹配位置，所述图像处理装置是通过根据方案1至8所述的训练装置进行训练而得到的，所述图像处理装置包括：

所述特征图提取单元；

所述细化单元；以及

卷积单元，其被配置成执行所述匹配特征向量与所述支持图像的特征图的卷积运算以及所述匹配特征向量与所述查询图像的卷积运算。

方案20.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被执行时使得计算机执行如下处理：

尽管上面已经通过对本公开的具体实施方式的描述对本公开进行了披露，但是，应该理解，本领域的技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开的保护范围内。

Claims

1.一种用于训练图像处理装置的训练装置，所述图像处理装置用于确定分别属于不同类别的多个支持图像中的与查询图像匹配的匹配支持图像并且确定所述查询图像与所述匹配支持图像的匹配位置，所述训练装置包括：

2.根据权利要求1所述的训练装置，其中所述特征图提取单元通过卷积神经网络来实现。

3.根据权利要求1所述的训练装置，其中所述细化单元进一步包括：

4.根据权利要求3所述的训练装置，其中所述特征向量提取子单元被进一步配置成：

5.根据权利要求3所述的训练装置，其中所述相似度计算子单元通过多层感知器来实现。

6.根据权利要求3所述的训练装置，其中所述循环更新子单元被进一步配置成：

7.根据权利要求3所述的训练装置，其中所述循环更新子单元通过简化输出门运算的长短期记忆模型来实现。

8.根据权利要求1至7中任一项所述的训练装置，其中所述联合训练单元被进一步配置成对实现所述特征图提取单元的卷积神经网络、实现所述相似度计算子单元的多层感知器以及实现所述循环更新子单元的简化的长短期记忆模型的参数进行联合训练。

9.一种用于训练图像处理装置的训练方法，所述图像处理装置用于确定分别属于不同类别的多个支持图像中的与查询图像匹配的匹配支持图像并且确定所述查询图像与所述匹配支持图像的匹配位置，所述训练方法包括：

针对每个支持图像，基于所述支持图像和所述查询图像的特征图通过N次迭代计算确定表示所述支持图像与所述查询图像之间的匹配程度和匹配位置的匹配特征向量，其中N是大于2的自然数；以及

10.一种图像处理装置，用于确定分别属于不同类别的多个支持图像中的与查询图像匹配的匹配支持图像并且确定所述查询图像与所述匹配支持图像的匹配位置，所述图像处理装置是通过根据权利要求1至8所述的训练装置进行训练而得到的，所述图像处理装置包括：

所述特征图提取单元；

所述细化单元；以及