CN110506274B

CN110506274B - 图像中的对象检测和表示

Info

Publication number: CN110506274B
Application number: CN201880024390.2A
Authority: CN
Inventors: G.F.施罗夫; W.胡
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-09-14
Filing date: 2018-06-11
Publication date: 2023-11-24
Anticipated expiration: 2038-06-11
Also published as: US10452954B2; JP6905079B2; JP2020522773A; EP3593277A1; WO2019055080A1; KR20190126857A; CN110506274A; US20190080204A1; KR102252439B1

Abstract

用于图像中的对象检测和表示的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。在一个方面，方法包括检测在第一持续时间内捕获的图像中特定类型的对象的出现，并且迭代地训练图像嵌入函数以产生描绘特定类型的对象的出现的输入图像的特征表示作为输出，其中为描绘在指定的持续时间内捕获的特定类型的对象的相同实例的图像生成相似的特征表示，并且为描绘特定类型的对象的不同实例的图像生成不相似的特征表示。

Description

图像中的对象检测和表示

技术领域

本说明书涉及图像处理领域，更具体地，涉及图像中的对象检测和表示。

背景技术

手动组织和检索存储的图像可能很困难。例如，由于存储的图像的体积和复杂性，手动查看和分组图像可能会很耗时。

用于图像组织的自动化方法可以基于图像之间识别的相似性对图像进行分组。这些方法中的一些优化了用于识别图像之间的相似性的模型函数。可以使用各种模型函数和训练方法。例如，面部识别过程可以用于检索其中检测的“对象”是面部的照片。这提供了基于检测到的面部的相似性对个人照片进行分组的个人搜索特征。然而，这种方法不适用于面部不可识别的个人图像，诸如面部太小、被其他对象遮挡或者处于面部识别过程无法克服的角度。

发明内容

本说明书描述了与图像处理相关的技术，特别是训练图像嵌入函数，该图像嵌入函数为描绘在指定的持续时间内捕获的特定类型的对象的相同实例的图像生成相似的特征表示，并为描绘特定类型的对象的不同实例的图像生成不相似的特征表示。

通常，本说明书中描述的主题的一个创新方面可以体现在用于训练图像嵌入函数的方法中。该方法包括：检测训练图像集中的每个图像中特定类型的对象的出现，其中训练图像集中的图像是已经在第一持续时间内捕获的图像；从训练图像集中的图像提取子图像，其中每个子图像描绘检测对象的一次出现；迭代地训练图像嵌入函数，其中图像嵌入函数包括对输入图像进行操作以产生输入图像的特征表示作为输出的一组参数权重，训练的每次迭代包括：从提取的子图像中选择第一类型的图像对和第二类型的图像对，每个图像对是第一子图像和第二子图像的组合，其中：第一类型的图像对包括描绘特定类型的对象的相同实例的第一子图像和第二子图像；第二类型的图像对包括描绘特定类型的对象的不同实例的第一子图像和第二子图像；以及对于第一类型的图像对，从在第二持续时间内捕获的图像中提取图像对的至少第一子图像和第二子图像，其中第二持续时间比第一持续时间短；将每个选择的图像对提供作为图像嵌入函数的输入，并生成相应的输出；确定图像嵌入函数的性能测量；基于性能测量调整图像嵌入函数的参数权重；以及执行训练的另一次迭代，直到停止事件发生。

在一些实施方式中，选择第一类型和第二类型的图像对包括选择图像三元组，每个图像三元组是第一子图像、第二子图像和第三子图像的组合，其中：包括第一子图像和第二子图像的图像对是第一类型的图像对；并且包括第一子图像和第三子图像的图像对是第二类型的图像对。

在一些实施方式中，提供图像三元组作为图像嵌入函数的输入并生成相应的输出包括通过图像嵌入函数生成图像三元组中第一图像的第一特征表示、图像三元组中第二图像的第二特征表示以及图像三元组中第三图像的第三特征表示。

在一些实施方式中，确定图像嵌入的性能测量包括，对于每个选择的图像三元组：基于第一特征表示和第二特征表示，确定测量第一特征表示与第二特征表示的相似性的第一相似性测量；以及基于第一特征表示和第三特征表示，确定测量第一特征表示与第三特征表示的相似性的第二相似性测量。

在一些实施方式中，图像嵌入函数生成输入图像在欧几里德空间中的映射作为输出特征表示；并且对于每个选择的图像三元组：确定第一相似性测量包括确定第一特征表示和第二特征表示之间的第一欧几里德距离；并且确定第二相似性测量包括确定第一特征表示和第三特征表示之间的第二欧几里德距离。

在一些实施方式中，确定图像嵌入函数的性能测量是基于每个选择的图像三元组的第一欧几里德距离和第二欧几里德距离。

在一些实施方式中，基于每个选择的图像三元组的第一欧几里德距离和第二欧几里德距离来确定性能测量包括基于每个选择的图像三元组的第一欧几里德距离和第二欧几里德距离的差来确定合页损失(hinge loss)。

在一些实施方式中，确定性能测量包括对选择的图像三元组的合页损失求和。

在一些实施方式中，图像嵌入函数包括卷积神经网络。

在一些实施方式中，对象是完整的人体。

在一些实施方式中，使用聚类算法将由经训练的神经网络生成的特征表示分配给组。

在一些实施方式中，每个提取的子图像用关键点注释；图像嵌入函数的输出包括输入图像的特征表示和输入图像的预测的关键点注释；并且确定图像嵌入函数的性能测量包括确定预测的关键点注释和关键点注释之间的相似性。

在一些实施方式中，从训练图像集中的图像提取子图像还包括：用关键点注释每个子图像；选择特定子图像作为参考图像；以及变换每个子图像以将其关键点与参考子图像的关键点对齐。

在一些实施方式中，每个提取的子图像用关键点注释；图像嵌入函数的输入包括输入图像和输入图像的注释的关键点；并且将每个选择的图像对提供作为图像嵌入函数的输入还包括将每个选择的图像对中的每个子图像的注释的关键点提供作为图像嵌入函数的输入。

在一些实施方式中，对于第一类型的图像对，基于在特定事件期间捕获的、从其中提取第一子图像和第二子图像的图像来选择第一子图像和第二子图像。

在一些实施方式中，对于第一类型的图像对，基于在第二持续时间内捕获的、从其中提取第一子图像和第二子图像的图像来选择第一子图像和第二子图像。

在一些实施方式中，该方法还包括：接收一个或多个输入图像；并且，对于一个、一些或所有接收的输入图像，从(相应的)输入图像中提取一个或多个子图像；以及使用从(相应的)输入图像提取的(多个)子图像和图像嵌入函数对(相应的)输入图像进行分类。

在一些实施方式中，该方法还包括基于对(多个)输入图像进行分类的结果来控制实体。例如，如果输入图像是由自主车辆上的一个或多个相机获得的，那么对(多个)输入图像进行分类的结果可以例如指示接近车辆的个人是车辆的所有者(例如，即使该个人的面部被遮挡)。响应于确定接近车辆的个人是车辆的所有者，车辆可以解锁其车门或鸣其喇叭(例如，将该个人的注意力吸引到车辆的位置)。

本说明书中描述的主题的另一个创新方面可以体现在由数据处理装置执行的图像分类的计算机实施方法中，包括：检测训练图像集中的每个图像中特定类型的对象的出现，其中训练图像集中的图像是已经在第一持续时间内捕获的图像；从训练图像集中的图像提取子图像，其中每个子图像描绘检测对象的一次出现；迭代地训练图像嵌入函数，其中图像嵌入函数包括对输入图像进行操作以产生输入图像的特征表示作为输出的一组参数权重，训练的每次迭代包括：从提取的子图像中选择第一类型的图像对和第二类型的图像对，每个图像对是第一子图像和第二子图像的组合，其中：第一类型的图像对包括描绘特定类型的对象的相同实例的第一子图像和第二子图像；第二类型的图像对包括描绘特定类型的对象的不同实例的第一子图像和第二子图像；并且对于第一类型的图像对，从在第二持续时间内捕获的图像中提取图像对的至少第一子图像和第二子图像，其中第二持续时间比第一持续时间短；将每个选择的图像对提供作为图像嵌入函数的输入，并生成相应的输出；确定图像嵌入函数的性能测量；基于性能测量调整图像嵌入函数的参数权重；执行训练的另一次迭代，直到停止事件发生；接收一个或多个输入图像；并且，对于一个、一些或所有接收的输入图像，从(相应的)输入图像中提取一个或多个子图像；以及使用从(相应的)输入图像提取的(多个)子图像和图像嵌入函数对(相应的)输入图像进行分类。

本说明书中描述的主题的另一个创新方面可以体现在图像分类系统中，该图像分类系统包括：输入，用于接收一个或多个输入图像；对象提取器，用于从(相应的)输入图像中提取一个或多个子图像；以及分类器，用于使用从(相应的)输入图像提取的(多个)子图像和由根据本公开的任何方面或实施方式的方法生成的图像嵌入函数来对(相应的)输入图像进行分类。

本说明书中描述的主题的另一个创新方面可以体现在用于基于前一方面的图像分类系统的输出来控制实体的控制系统中。

其他方面包括一种系统，该系统包括：一个或多个计算设备；以及一个或多个计算机可读介质，其耦合到所述一个或多个计算设备并具有存储在其上的指令，当所述指令被所述一个或多个计算设备执行时，使得所述一个或多个计算设备执行包括根据本公开的任何方面或实施方式的方法的操作；以及编码有计算机程序的计算机存储介质，所述程序包括指令，当所述指令被数据处理装置执行时，使得所述数据处理装置执行包括根据本公开的任何方面或实施方式的方法的操作。

该方面的其他实施例包括相应的系统、装置和计算机程序，其被配置为执行编码在计算机存储设备上的方法的动作。

可以实施本说明书中描述的主题的特定实施例，以便实现一个或多个以下优点。下面描述的系统和方法训练图像嵌入函数，该图像嵌入函数为描绘在指定的持续时间内捕获的特定类型的对象的相同实例的图像生成相似的特征表示，并为描绘特定类型的对象的不同实例的图像生成不相似的特征表示。通过要求图像嵌入函数为描绘仅在指定的持续时间内捕获的特定类型的对象的相同实例的图像生成相似的特征表示，图像嵌入函数可以应用于无需面部识别处理的个人识别的上下文中。这是部分地因为，在指定的持续时间期间，一个人的外观可能不会改变，例如，该个人穿着相同的衣服、佩戴着相同的珠宝等。这对于处理可能部分或全部模糊的面部图像特别有利，因此是图像识别处理技术领域的改进。

此外，图像嵌入函数可以通过简化模型来实施，并且与图像嵌入函数被要求为描绘特定类型的对象的相同实例的图像生成相似的特征表示相比，训练图像嵌入函数的过程可以耗时更少并且计算强度更低，而不管图像被捕获的持续时间。这些优点也是图像处理技术领域的改进。

除了生成输入图像的特征表示之外，可以训练图像嵌入函数来预测输入图像中关键点的位置。与不使用关键点的嵌入函数相比，这提高了由图像嵌入函数生成的特征表示的质量。

在训练期间将给定图像作为图像嵌入函数的输入之前，可以应用变换(transformation)来将给定图像的关键点与参考图像的关键点对齐。这种变换允许图像嵌入函数通过简化的模型来实施，并且使得训练图像嵌入函数的过程比在没有关键点的这种变换的情况下训练模型耗时更少且计算强度更低。

本说明书中描述的主题的一个或多个实施例的细节在附图和以下描述中阐述。从说明书、附图和权利要求书中，主题的其他特征、方面和优点将变得显而易见。

附图说明

图1A是用于基于图像三元组训练数据学习图像嵌入函数的网络架构的框图。

图1B是用于基于图像对训练数据学习图像嵌入函数的网络架构的框图。

图2A是用于基于图像三元组训练数据学习图像嵌入函数的示例过程的流程图。

图2B是用于基于图像对训练数据学习图像嵌入函数的示例过程的流程图。

图3是用于生成可行(feasible)图像三元组的示例过程的流程图。

图4是用于确定图像嵌入函数的性能测量的示例过程的流程图。

图5是用于基于图像中检测对象的出现来分配图像组的网络架构的框图。

图6是用于基于图像中检测对象的出现来分配图像组的示例过程的流程图。

不同附图中相同的附图标记和名称表示相同的元件。

具体实施方式

为了训练图像嵌入函数，系统检测训练图像集中的每个图像中特定类型的对象的出现。训练图像集中的图像是已经在第一持续时间内捕获的图像，并且每个图像可以描绘特定类型的一个或多个对象。有许多对象类型，每个对象类型都可以被认为是具有相似视觉特性的一类对象。例如，对象类型可以是个人、地标或汽车，因为每个都分别具有相似的视觉特性。

一旦检测到对象，系统就从训练图像集中的图像中提取子图像。每个子图像描绘检测对象的一次出现。例如，对于描绘“个人”对象类型的两次出现的图像，可以从该图像中提取两个子图像，每个子图像描绘检测到的个人对象。

然后，系统迭代地在图像对或图像三元组上训练图像嵌入函数，这将在下面更详细地描述。图像嵌入函数包括对输入图像进行操作以产生输入图像的特征表示作为输出的一组参数权重。训练的每次迭代包括选择图像三元组，并将每个选择的图像三元组提供作为图像嵌入函数的输入，并生成相应的输出。确定图像嵌入函数的性能测量，并且基于该性能测量来调整图像嵌入函数的参数权重。此后，执行另一次迭代，直到停止事件发生。

为了从提取的子图像中选择图像三元组，系统选择从第一图像提取的第一子图像、从第二图像提取的第二子图像和从第三图像提取的第三子图像的组合。第一子图像和第二子图像描绘了特定类型的对象的相同实例。例如，第一子图像和第二子图像可以是来自在比第一持续时间小的第二持续时间内拍摄的图像的两个不同时间的特定个人的描绘。第三子图像描绘了与第一子图像和第二子图像中描绘的对象的相同实例不同的特定类型的对象的实例。例如，第三子图像可以是与第一子图像和第二子图像中描绘的不同的个人。第三子图像可以来自在第一持续时间期间的任何时间拍摄的图像。

这些特征和附加特征将在下面更详细地描述。

图1A是用于基于图像三元组训练数据学习图像嵌入函数f(.)的系统100的框图。系统100可以在一个或多个联网计算机的数据处理装置系统中实施。

系统100迭代地在三幅图像110、112、114的图像三元组上训练图像嵌入函数。图像110、112和114描绘了由对象检测器104从已经在第一持续时间T₁124期间捕获的训练图像102中检测到的特定类型的对象的出现。图像嵌入函数基于对输入图像进行操作以产生图像的特征表示作为输出的一组参数权重W。定义图像嵌入函数的数据存储在模型数据128中。

每个图像三元组是第一子图像110、第二子图像112和第三子图像114的组合。虽然图像三元组的第一子图像110、第二子图像112和第三子图像114通常是从其他图像提取的子图像，但是它们也可以是整个图像，这取决于对象在图像中是如何描绘的。然而，在本说明书的剩余部分，三元组将被称为“子图像”，因为它们最经常是从更大的图像中提取的。

第一子图像110可以被认为是“锚”图像A，第二子图像112可以被认为是“正”图像P，而第三子图像114可以被认为是“负”图像N。选择三元组，使得第一子图像和第二子图像被识别为特定类型的对象的相同实例的描绘，并且第三子图像被识别为描绘不同于第一图像和第二图像中描绘的对象的相同实例的特定类型的不同对象。此外，在作为第一持续时间T₁ 126的适当子集的第二持续时间T₂内捕获分别从其中检测到第一和第二检测对象的子图像。例如，如果第一持续时间是30天的持续时间，则第二持续时间可以是六小时的持续时间。

如下所述，系统100使用三元组来训练图像嵌入函数，该图像嵌入函数一旦被训练，就可以生成在指定的持续时间(T₂)内捕获的特定类型的对象的相同实例的相似的特征表示，以及特定类型的对象的不同实例的不相似的特征表示。如在本说明书中使用的，特征表示可以是例如由图像嵌入函数输出的一组或多组特征权重。

在一些实施方式中，可以选择图像对，而不是选择三元组。图1B是用于基于图像对训练数据学习图像嵌入函数f(.)的系统130的框图。系统130可以在一个或多个联网计算机的数据处理装置系统中实施。

系统130基于图像对训练数据学习图像嵌入函数f(.)，并且类似于系统100来定义其组件。系统130迭代地在两个子图像140和142的图像对上训练图像嵌入函数。图像对可以是第一类型，其中两个子图像描绘特定类型的对象的相同实例，并且从在第二持续时间T₂内捕获的图像中提取，或者图像对可以是第二类型，其中两个子图像描绘特定类型的对象的不同实例。

如下所述，并且类似于系统100，系统130使用图像对来训练图像嵌入函数，该图像嵌入函数一旦被训练，就可以生成在指定的持续时间(T₂)内捕获的特定类型的对象的相同实例的相似的特征表示，以及特定类型的对象的不同实例的不相似的特征表示。

参考图2A描述系统100的操作，图2A是用于基于图像三元组训练数据学习图像嵌入函数的示例过程200的流程图。过程200可以在一个或多个联网计算机的数据处理装置系统中实施，并且数据处理装置执行下面描述的步骤，除非另有说明。

过程200是在生成其相似性可以基于距离度量来确定的表示的特定图像嵌入函数的上下文中描述的。此外，图像嵌入函数f(.)的一个示例实施方式将图像映射到欧几里德空间中的点。然而，也可以使用生成图像的其他表示的其他图像嵌入函数。因此，可以使用可以由过程200迭代地训练的任何合适的可调函数，并且因此图像嵌入函数不需要是下面描述的特定示例函数。

过程200检测特定类型的对象的出现(202)。例如，在训练图像集中的图像102中检测特定类型的对象的出现。训练图像集中的图像是已经在第一持续时间T₁ 124期间捕获的图像。检测特定类型的对象的出现可以通过自动化方法来执行。训练图像集中的一些图像可能不包含特定类型的对象的出现。

过程200提取子图像，其中每个子图像包含检测对象的单次出现(204)。例如，从训练图像集中的图像提取子图像，其中每个子图像是来自训练图像集中的图像内部的连续区域。每个子图像描绘了检测对象的一次出现。

可以从训练图像集中的一个图像中提取多个子图像。子图像可以重叠，并且特别地，对象的相同出现可以由从训练图像集中的相同图像提取的多个子图像来描绘。子图像可以被定义为训练集中的图像中的矩形边界框(或任何几何定义的边界框)的内部。边界框的位置可以通过其顶点的笛卡尔坐标来参数化。一旦检测到子图像，迭代过程开始。

在一些实施方式中，每个提取的子图像可以用给定的关键点进行注释。给定的关键点可以手动注释，或者可以通过自动化方法注释，并且可以包括图像中的有序坐标列表，其中每个坐标表示关键点的位置。例如，在人类对象类型的上下文中，关键点可以是描绘身体和骨骼点的点，例如肘部、头部、躯干、腿部等。训练图像集中的一些图像可以用关键点的适当子集来注释。例如，在人类对象类型的上下文中，腿部的关键点不能注释在描绘腰部以上的人的子图像上。在这些实施方式中，可以选择提取的子图像作为参考子图像，并且可以变换每个其他提取的子图像，以将它们相应的关键点与参考子图像的关键点对齐。该变换可以包括线性变换(诸如移位和旋转)以及非线性变换(诸如由控制点网格的位移参数化的变换)两者。可以通过最大化要变换的子图像的关键点和参考子图像的关键点之间的相似性测量来计算该变换。

过程200选择图像三元组(206)。三元组选择层108从包含检测对象的子图像106中选择图像三元组。参考图3的过程300描述选择图像三元组的一种示例方式，现在我们转向该过程。

过程300通过选择包含第一检测对象的第一子图像110(302)和包含第二检测对象的第二子图像112来选择可行图像三元组，其中第二子图像和第一子图像描绘特定类型的对象的相同实例，并且从在第二持续时间T₂内捕获的图像中提取(304)。例如，相同实例可以是在第二持续时间期间在相同或不同时间拍摄的特定个人的两幅图像。在一些实施方式中，基于在特定事件(例如生日聚会)期间捕获的、从其中提取第一子图像和第二子图像的图像来选择第一子图像和第二子图像。过程300然后选择包含特定类型的第三检测对象的第三子图像114，该第三检测对象不同于第一子图像和第二子图像中描绘的对象的相同实例(306)。

在给定的迭代中，可以选择所有可行图像三元组的适当子集。在任何给定的迭代中，可以优先选择“硬”图像三元组，其中该图像三元组中第一子图像和第二子图像的特征表示尽可能不相似，并且该图像三元组中第一子图像和第三子图像的特征表示尽可能相似，以便加速图像嵌入函数的训练。

注意，步骤206被描绘为第一迭代步骤，但是在一些实施方式中，步骤206可以被执行一次，并且步骤208可以是第一迭代步骤。

回到图2A，过程200提供每个选择的图像三元组的第一、第二和第三子图像中的每一个作为图像嵌入函数的输入(208)。例如，如图1A所示，三元组选择层108将图像三元组的第一子图像110、第二子图像112和第三子图像114提供给图像嵌入函数f(.)以生成实例f(.)116，f(.)118和f(.)120。每个实例使用相同的嵌入函数f(.)但是只接收图像三元组中的一个图像作为输入。

过程200通过图像嵌入函数生成每个图像三元组中的每个图像的视觉特征的表示(210)。例如，如图1A所示，生成表示f(A)、f(P)、和f(N)。在一些实施方式中，嵌入函数生成图像在欧几里德空间中的映射，作为输出特征表示。然而，可以使用生成其他表示的其他函数。

过程200基于图像三元组的各个特征表示的相似性测量来确定图像嵌入函数的性能测量(212)。参考图4的过程400来描述确定性能测量的一种示例方式，现在我们转向该过程。

对于每个三元组，过程400确定第一相似性测量，其测量图像三元组中第一图像的第一特征表示与图像三元组中第二图像的第二特征表示的相似性(402)。同样，对于每个图像三元组，过程400确定第二相似性测量，其测量图像三元组中第一图像的第一特征表示与图像三元组中第三图像的第三特征表示的相似性(404)。

过程400然后基于图像三元组的第一相似性测量和第二相似性测量来确定图像嵌入函数的性能测量(406)。在嵌入函数将图像映射到欧几里德空间的情况下，模型性能测量层132可以使用欧几里德距离作为相似性测量，例如，

因此，距离D越小，特征表示f(A)和特征表示f(P)(或f(A)和f(N))之间的相似性越大。相反地，距离D越大，特征表示f(A)和特征表示f(P)(或f(A)和f(N))之间的相似性越小。

同样，可以使用其他度量来测量特征表示之间的相似性。所使用的相似性测量可以取决于图像嵌入函数f(.)生成的表示。

在相似性测量是欧几里德距离的情况下，模型性能测量层122可以基于锚图像的特征表示和正图像的特征表示之间的第一欧几里德距离以及锚图像的特征表示和负图像的特征表示之间的第二欧几里德距离来确定图像三元组的第一相似性测量和第二相似性测量。当使用这种类型的图像嵌入函数时，系统100试图学习生成图像三元组的特征表示的图像嵌入函数f(.)，其中第一相似性测量小于第二相似性测量，其可以表示为：

其中α是正和负对之间强制执行的指定边距，并且Γ是选择的图像三元组的集合。

性能测量可以包括基于图像三元组的第一欧几里德距离和第二欧几里德距离的差来确定合页损失，例如，

性能测量可以包括对每个选择的图像三元组的合页损失项求和，例如：

在一些实施方式中，每个提取的子图像可以用给定的关键点注释，并且图像嵌入函数可以在图像三元组和关键点注释上迭代地训练。在一些实施方式中，图像嵌入函数的输出包括输入图像的特征表示和输入图像的预测的关键点注释。在这些实施方式中，性能测量可以包括由图像嵌入函数预测的关键点注释和给定关键点注释之间的相似性测量。在一些其他实施方式中，图像嵌入函数的输入包括输入图像和输入图像的注释的关键点。

也可以使用取决于图像嵌入函数f(.)的输出的其他类型的性能测量。

回到图2A，过程200基于性能测量来调整图像嵌入函数的参数权重(214)。例如，基于图像嵌入函数的性能测量来调整图像嵌入函数的参数权重。可以根据性能测量来调整参数权重以改善图像嵌入函数的性能。调整可以包括计算损失函数关于网络参数的梯度，并基于该梯度调整网络参数。基于梯度的参数权重更新的侵略性(aggressiveness)可以取决于标量“学习率”变量。学习率可能在迭代之间改变。

过程200确定停止事件是否已经发生(216)。停止事件是使得训练过程停止执行进一步训练迭代的事件。例如，达到训练迭代的最大次数、达到指定的阈值的性能测量以及达到指定的阈值的迭代之间的性能测量的改变可以是停止事件。停止事件可以基于基于没有被选择用于包括在训练过程的任何迭代中的图像三元组评估的图像嵌入函数的第二性能测量。如果确定已经发生停止事件，则训练终止。

如果确定停止事件没有发生，则过程200可以返回到步骤206(或步骤208，取决于实施方式)，并且重复。否则，训练结束(218)。

如上所述，在其他实施方式中，诸如图2B的示例，使用图像对。参考图2B描述该示例实施方式的操作，图2B是用于基于图像对训练数据来学习图像嵌入函数的示例过程220的流程图。过程220可以在一个或多个联网计算机的数据处理装置系统中实施，并且数据处理装置执行下面描述的步骤，除非另有说明。

过程220类似于过程200，除了图像嵌入函数是基于图像对训练数据而不是图像三元组训练数据来学习的。因此，下面仅描述步骤222、224、226和228；其他步骤如图2A所示。

过程200为每个图像对选择第一类型和第二类型的图像对(步骤222)，对于每个图像对向图像嵌入函数提供第一图像和第二图像(步骤224)，通过图像嵌入函数为每个图像生成特征表示(步骤226)，基于图像对的各个特征表示的相似性测量来确定图像嵌入函数的性能测量(步骤228)，否则类似地进行到过程200。

然后，经训练的模型可以被保存并在图像处理系统中实施。参考图5描述经训练的图像嵌入函数的一个这样的应用，图5是用于对来自图像集502的图像进行分类(例如通过使用经训练的图像嵌入函数将图像分类成组(或对照片进行“分组”))的系统500的框图。系统500可以在一个或多个联网计算机的数据处理装置系统中实施。

系统500基于图像中特定类型的对象的出现对来自图像集中的图像进行分组或以其他方式进行分类。模型数据128对应于图像嵌入函数506，图像嵌入函数506由过程200训练以生成特定类型的对象的表示。对象检测器104从图像集中的图像中检测特定类型的对象，并且提取描绘检测对象的出现的子图像504。经如上所述训练的图像嵌入函数506生成描绘特定类型的检测对象的子图像的特征表示，并且聚类算法508将这些特征表示分配给组。如上所述，对输入图像集进行分类的结果可以例如用作控制实体的控制系统的输入。

参考图6描述系统500的操作，图6是用于基于图像中特定类型的对象的出现对来自图像集中的图像进行分组的示例过程600的流程图。过程600可以在一个或多个联网计算机的数据处理装置系统中实施，并且数据处理装置执行下面描述的步骤，除非另有说明。

过程600检测图像集中的图像中的特定类型的对象的出现，并从图像中提取子图像，其中每个子图像描绘特定类型的对象的一次出现(602)。该步骤可以相似于上述步骤202和204。

过程600通过将每个子图像输入到生成特征表示的经训练的图像嵌入函数506来为每个子图像生成特征表示(604)。经训练的图像嵌入函数506已经如上所述被训练。

过程600通过对提取的子图像的生成的特征表示进行聚类，来将生成的特征表示分配给检测对象组(606)。例如，在图像嵌入函数映射到欧几里德空间的实施方式中，聚类算法可以是k均值(k-means)算法或期望最大化(expectation-maximization，EM)算法。

过程600将图像集中的图像分配给图像组(608)。分配可以基于检测对象组，其中如果从第一图像提取的第一子图像和从第二图像提取的第二子图像被分配给相同的检测对象组，则来自图像组的第一图像和来自图像组的第二图像被分配给相同的图像组。注意，图像集中的一个图像可以被分配给多个图像组。例如，如果第一图像显示对象实例A，第二图像显示对象实例B，并且第三图像显示对象实例A和B两者，其中对象实例A不同于对象实例B，则第一图像和第二图像将被分配给不同的图像组，并且第三图像将被分配给两个不同的图像组。

在一个实施方式中，特定类型的对象是完整的人体，并且系统500被应用于将个人照片进行分组，其中描绘相同个人的照片被分配给相同组。基于检测到的面部的相似性对个人照片进行分组的方法在面部不可识别的情况下很难成功地对照片进行分组。面部可能无法识别，原因包括面部太小、被遮挡或处于背视图中。然而，基于检测到的完整身体的相似性对个人照片进行分组(其中如果描绘在每个图像中检测到的完整身体的子图像的特征表示被分配给相同的检测对象组，则两个图像被分配给相同的图像组)对于这些挑战更加具有鲁棒性。

在一些实施方式中，图1A或图1B的系统可以用于训练实施图像嵌入函数f(.)的人工神经网络结构。人工神经网络计算图像的嵌入I:f(I)∈R^d，其中d是特征嵌入的维度。

如上所述，性能测量层122评估嵌入函数的性能。在使用神经网络来生成嵌入函数的情况下，性能测量层122将梯度反向传播到网络的更低层，使得更低层可以调整它们的参数以最小化损失。

神经网络可以包括多个堆叠层，每个堆叠层由多个神经元组成，每个神经元被配置为接收多个输入并配备有激活函数。这些层可以包括卷积层、池化层、局部归一化层和完全连接层。激活函数可以是sigmoid、tanh、修正线性(rectified linearity)、带泄露修正线性(leaky rectified linearity)或maxout。

卷积层接收输入，并将其与一组学习到的核进行卷积，以产生特征图。核可以自适应地学习检测与嵌入有关的局部图像特征，诸如边缘。

最大池化层在像素周围的局部邻域上执行最大池化。最大池化包括选择被池化的块的最大值。平均池化层在像素周围的局部邻域上执行平均池化。平均池包括计算被池化的块的平均值。池化层可以使得特征图对于小的变换具有鲁棒性。

归一化层将卷积神经网络的输出归一化到归一化尺度。在一些实施方式中，归一化层将局部邻域周围的特征图归一化为具有单位范数和零均值。这导致特征图对光照和对比度的差异具有鲁棒性。

神经网络可以实施一个或多个参数权重正则化(regularization)策略。性能测量可以是包括正则化项的损失函数，正则化项计算神经网络的参数权重的范数。神经网络可以实施丢弃(dropout)，这包括随机丢弃神经元以防止神经元互相适应。

本说明书中描述的主题和操作的实施例可以在数字电子电路中实施，或者在计算机软件、固件或硬件(包括本说明书中公开的结构及其结构等同物)中实施、或者在它们中的一个或多个的组合中实施。本说明书中描述的主题的实施例可以实施为编码在计算机存储介质上的一个或多个计算机程序，即计算机程序指令的一个或多个模块，用于由数据处理装置执行或控制数据处理装置的操作。

计算机存储介质可以是或包括在计算机可读存储设备、计算机可读存储基底、随机或串行存取存储器阵列或设备、或它们中的一个或多个的组合中。此外，虽然计算机存储介质不是传播信号，但是计算机存储介质可以是编码在人工生成的传播信号中的计算机程序指令的源或目的地。

本说明书中描述的操作可以实施为由数据处理装置对存储在一个或多个计算机可读存储设备上或从其他来源接收的数据执行的操作。

术语“数据处理装置”涵盖用于处理数据的所有类型的装置、设备和机器，包括例如可编程处理器、计算机、片上系统、或上述中的多个或组合。装置可以包括专用逻辑电路，例如FPGA(Field Programmable Gate Array，现场可编程门阵列)或ASIC(Application-specific Integrated Circuit，专用集成电路)。除了硬件之外，装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或它们中的一个或多个的组合的代码。装置和执行环境可以实现各种不同的计算模型基础架构，诸如网络服务、分布式计算和网格计算基础架构。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言编写，包括编译或解释语言、声明或过程语言，并且可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程、对象或适合在计算环境中使用的其他单元。计算机程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中，存储在专用于所讨论的程序的单个文件中，或者存储在多个协调文件中(例如，存储一个或多个模块、子程序或部分代码的文件)。计算机程序可以被部署为在位于一个站点或跨多个站点分布并通过通信网络互连的一台或多台计算机上执行。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器执行，该处理器执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行动作。举例来说，适于执行计算机程序的处理器包括通用和专用微处理器两者，以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于根据指令执行动作的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘，或者被可操作地耦合以从一个或多个大容量存储设备接收数据或将数据传送到一个或多个大容量存储设备，或两者。然而，计算机不需要这样的设备。

本说明书中描述的主题的实施例可以在计算系统中实施，该计算系统包括后端组件，例如作为数据服务器，或者包括中间件组件，例如应用服务器，或者包括前端组件，例如具有图形用户界面或网络浏览器的用户计算机，用户可以通过该图形用户界面或网络浏览器与本说明书中描述的主题的实施方式进行交互，或者包括一个或多个这样的后端、中间件或前端组件的任意组合。系统的组件可以通过任何形式或介质的数字数据通信相互连接，例如通信网络。

计算系统可以包括用户和服务器。用户和服务器通常彼此远离，并且通常通过通信网络进行交互。用户和服务器的关系是通过在各自的计算机上运行并且彼此之间具有用户-服务器关系的计算机程序而产生的。

虽然本说明书包含许多具体的实施细节，但这些不应被解释为对所要求保护的范围的限制。本说明书中在分开的实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反地，在单个实施例的上下文中描述的各种特征也可以在多个实施例中分开或以任何合适的子组合来实施。此外，尽管在上面特征可能被描述为以某些组合起作用，甚至最初被要求保护如此，但是在某些情况下，可以从所要求保护的组合中删除该组合中的一个或多个特征，并且所要求保护的组合可以指向子组合或子组合的变体。

相似地，尽管在附图中以特定顺序描绘了操作，但这不应理解为要求以所示的特定顺序或以连续顺序执行这些操作，或者要求执行所有所示的操作，以获得期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上述实施例中的各种系统组件的分离不应理解为在所有实施例中都需要这种分离，并且应当理解，所描述的程序组件和系统通常可以在单个软件产品中集成在一起或者封装到多个软件产品中。

因此，已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。在一些情况下，权利要求中列举的动作可以以不同的顺序执行，并且仍然获得期望的结果。此外，附图中描绘的过程不一定要求所示的特定顺序或连续顺序来获得期望的结果。在某些实施方式中，多任务处理和并行处理可能是有利的。

Claims

1.一种由数据处理装置执行的计算机实施的方法，所述方法包括：

检测训练图像集中的每个图像中特定类型的对象的出现，其中训练图像集中的图像是已经在第一持续时间内捕获的图像；

从训练图像集中的图像提取子图像，其中每个子图像描绘检测对象的一次出现；

迭代地训练图像嵌入函数，其中所述图像嵌入函数包括对输入图像进行操作以产生输入图像的特征表示作为输出的一组参数权重，训练的每次迭代包括：

从提取的子图像中选择多个第一类型的图像对和多个第二类型的图像对，每个图像对是第一子图像和第二子图像的组合，其中：

每个第一类型的图像对包括描绘特定类型的对象的相同实例的第一子图像和第二子图像；

每个第二类型的图像对包括描绘特定类型的对象的不同实例的第一子图像和第二子图像；以及

对于每个第一类型的图像对：

从对应的第一图像提取该第一类型的图像对的第一子图像并且从对应的第二图像提取该第一类型的图像对的第二子图像，其中对应于该第一类型的图像对的所述第一图像和所述第二图像被捕获的时间之间经过的持续时间小于第二持续时间，其中第二持续时间短于第一持续时间；

将每个选择的图像对提供作为图像嵌入函数的输入，并生成相应的输出；

确定图像嵌入函数的性能测量；

基于性能测量调整图像嵌入函数的参数权重；以及

执行训练的另一次迭代，直到停止事件发生，

其中：

用关键点注释每个提取的子图像；

图像嵌入函数的输入包括输入图像和输入图像的注释的关键点；

将每个选择的图像对提供作为图像嵌入函数的输入还包括将每个选择的图像对中的每个子图像的注释的关键点提供作为图像嵌入函数的输入；

图像嵌入函数的输出包括输入图像的特征表示和输入图像的预测的关键点注释；以及

确定图像嵌入函数的性能测量包括确定预测的关键点注释和关键点注释之间的相似性。

2.根据权利要求1所述的计算机实施的方法，其中选择第一类型的图像对和第二类型的图像对包括选择图像三元组，每个图像三元组是第一子图像、第二子图像和第三子图像的组合，其中：

包括第一子图像和第二子图像的图像对是第一类型的图像对；并且

包括第一子图像和第三子图像的图像对是第二类型的图像对。

3.根据权利要求2所述的计算机实施的方法，其中提供图像三元组作为图像嵌入函数的输入并生成相应的输出包括通过图像嵌入函数生成图像三元组中第一图像的第一特征表示、图像三元组中第二图像的第二特征表示以及图像三元组中第三图像的第三特征表示。

4.根据权利要求3所述的计算机实施的方法，其中，对于每个选择的图像三元组，确定图像嵌入的性能测量包括：

基于第一特征表示和第二特征表示，确定测量第一特征表示与第二特征表示的相似性的第一相似性测量；以及

基于第一特征表示和第三特征表示，确定测量第一特征表示与第三特征表示的相似性的第二相似性测量。

5.根据权利要求4所述的计算机实施的方法，其中：

图像嵌入函数生成输入图像在欧几里德空间中的映射作为输出特征表示；以及

对于每个选择的图像三元组：

确定第一相似性测量包括确定第一特征表示和第二特征表示之间的第一欧几里德距离；和

确定第二相似性测量包括确定第一特征表示和第三特征表示之间的第二欧几里德距离。

6.根据权利要求5所述的计算机实施的方法，其中确定图像嵌入函数的性能测量是基于每个选择的图像三元组的第一欧几里德距离和第二欧几里德距离。

7.根据权利要求6所述的计算机实施的方法，其中基于每个选择的图像三元组的第一欧几里德距离和第二欧几里德距离来确定性能测量包括基于每个选择的图像三元组的第一欧几里德距离和第二欧几里德距离的差来确定合页损失。

8.根据权利要求7所述的计算机实施的方法，其中确定性能测量包括对选择的图像三元组的合页损失求和。

9.根据前述权利要求中任一项所述的计算机实施的方法，其中所述图像嵌入函数包括卷积神经网络。

10.根据权利要求1所述的计算机实施的方法，其中所述对象是完整的人体。

11.根据权利要求1所述的计算机实施的方法，其中使用聚类算法将由经训练的神经网络生成的特征表示分配给组。

12.根据权利要求1所述的计算机实施的方法，其中从训练图像集中的图像提取子图像进一步包括：

用关键点注释每个子图像；

选择特定子图像作为参考图像；以及

变换每个子图像，以将其关键点与参考子图像的关键点对齐。

13.根据权利要求1所述的计算机实施的方法，其中对于第一类型的图像对，基于在特定事件期间捕获的、从其中提取第一子图像和第二子图像的图像来选择第一子图像和第二子图像。

14.根据权利要求1所述的计算机实施的方法，其中对于第一类型的图像对，基于在第二持续时间内捕获的、从其中提取第一子图像和第二子图像的图像来选择第一子图像和第二子图像。

15.一种图像处理系统，包括：

一个或多个计算设备；以及

一个或多个计算机可读介质，耦合到所述一个或多个计算设备，并且其上存储有指令，当所述指令被所述一个或多个计算设备执行时，使得所述一个或多个计算设备执行包括以下内容的操作：

对于每个第一类型的图像对：

确定图像嵌入函数的性能测量；

基于性能测量调整图像嵌入函数的参数权重；以及

执行训练的另一次迭代，直到停止事件发生，

其中：

用关键点注释每个提取的子图像；

16.一种编程有计算机程序的计算机存储介质，所述程序包括指令，当所述指令由数据处理装置执行时，使得所述数据处理装置执行包括以下内容的操作：

对于每个第一类型的图像对：

确定图像嵌入函数的性能测量；

基于性能测量调整图像嵌入函数的参数权重；以及

执行训练的另一次迭代，直到停止事件发生，

其中：

用关键点注释每个提取的子图像；