CN112801208A

CN112801208A - 基于结构化代理的深度度量学习方法和装置

Info

Publication number: CN112801208A
Application number: CN202110215067.7A
Authority: CN
Inventors: 周杰; 鲁继文; 郑文钊; 张博睿
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-05-14
Anticipated expiration: 2041-02-25
Also published as: CN112801208B

Abstract

本发明提出一种基于结构化代理的深度度量学习方法和装置，其中，方法包括：获取多个样本图像集；提取多个样本图像集中每个样本图像的图像特征向量；根据预设的结构化损失函数对多个样本图像集中所有样本图像的图像特征向量计算，获取计算结果；根据梯度下降算法和计算结果筛选出每个样本图像集中的代理样本图像；根据所有的代理样本图像训练预设的深度卷积网络，并根据训练好的深度卷积网络提取目标图像在度量空间中的目标特征向量，以便于根据目标特征向量确定目标图像与其他图像的相似性。由此，解决了现有深度度量学习技术中构建代理时使用信息不充分的问题。

Description

基于结构化代理的深度度量学习方法和装置

技术领域

本发明涉及计算机视觉与机器学习技术领域，尤其涉及一种基于结构化代理的深度度量学习方法和装置。

背景技术

深度度量学习的目标是学习一种高效的距离度量来衡量图片的相似性，使得图片类内距离小于类间距离。目前常用的方法是用深度卷积网络来提取图片的特征向量，然后使用欧氏距离来度量特征向量相似性。深度度量学习在图像聚类、行人识别、房间布局估计和实例分割中都有广泛的应用。深度度量学习中基本的目标是减小同类样本的距离、增大不同类样本的距离。

相关技术中，直接将同类样本拉近，不同类推远。但是这种方法涉及到多元组的采样问题，可能导致收敛缓慢。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于结构化代理的深度度量学习方法，以解决了现有深度度量学习技术中构建代理时使用信息不充分的问题。

本发明的第二个目的在于提出一种基于结构化代理的深度度量学习装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于结构化代理的深度度量学习方法，包括：获取多个样本图像集，其中，每个所述样本图像集中包括多张同一个类别的样本图像，不同样本图像集的类别不同；提取所述多个样本图像集中每个样本图像的图像特征向量；根据预设的结构化损失函数对所述多个样本图像集中所有样本图像的图像特征向量计算，获取计算结果；根据梯度下降算法和所述计算结果筛选出每个样本图像集中的代理样本图像；根据所有的所述代理样本图像训练预设的深度卷积网络，并根据训练好的深度卷积网络提取目标图像在度量空间中的目标特征向量，以便于根据所述目标特征向量确定目标图像与其他图像的相似性。

为达上述目的，本发明第二方面实施例提出了一种基于结构化代理的深度度量学习装置，包括：获取模块，用于获取多个样本图像集，其中，每个所述样本图像集中包括多张同一个类别的样本图像，不同样本图像集的类别不同；提取模块，用于提取所述多个样本图像集中每个样本图像的图像特征向量；计算模块，用于根据预设的结构化损失函数对所述多个样本图像集中所有样本图像的图像特征向量计算，获取计算结果；筛选模块，用于根据梯度下降算法和所述计算结果筛选出每个样本图像集中的代理样本图像；相似度处理模块，用于根据所有的所述代理样本图像训练预设的深度卷积网络，并根据训练好的深度卷积网络提取目标图像在度量空间中的目标特征向量，以便于根据所述目标特征向量确定目标图像与其他图像的相似性。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述第一方面实施例所述的基于结构化代理的深度度量学习方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面实施例所述的基于结构化代理的深度度量学习方法。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如上述第一方面实施例所述的基于结构化代理的深度度量学习方法。

本发明的实施例，至少具有如下的技术效果：

一方面，从真实性、代表性和判别性三个方面来评价代理，而现有的方法很难兼顾三者，本发明则通过使用结构化损失函数来进行权衡；另一方面，现有方法仅适用小批数据获取代理，不能充分利用全局信息，而本发明使用全局数据来获取代理。首先，本发明使用深度卷积网络提取图片的特征向量，固定网络参数，使用全部的特征向量求解结构化代理。其次，使用这些代理引导网络参数的学习，得到最终的度量函数。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种基于结构化代理的深度度量学习方法的流程示意图；

图2为本发明实施例所提供的一种度量空间的图像特征图像特征向量的示意图；

图3为本发明实施例所提供的另一种基于结构化代理的深度度量学习方法的流程示意图；以及

图4为本发明实施例所提供的一种基于结构化代理的深度度量学习装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于结构化代理的深度度量学习方法和装置。

针对背景技术中所提到的技术问题，相关技术中，采用一些基于代理的方法，通过约束代理与样本间距离，而非样本与样本间距离，增加收敛速度，其中，代理类理解为样本图像中的代理样本图像，代理样本图像通常训练效果较好，作为训练模型的代表。

目前构建代理的方法主要分为两类：基于采样的方法和基于梯度更新的方法。

其中，基于采样的方法：传统的度量学习方法直接在训练样本上施加距离限制，相当于直接将采样的样本作为代理。对比损失函数尝试尽可能拉近正样本对，并推远负样本对。三元组损失函数通过对包含锚样本、正样本、负样本的三元组仅施加距离排序的限制来放宽约束条件。最近提出的方法通过使用更复杂结构来构建多元组，同时施加更强的约束。

样本间的组合会产生数量巨大的多元组，因此采样问题非常重要。对代理的选择能够很大程度上使得方法更具有代表性或者判别性。一种常见的采样策略是难负样本对挖掘，这种方法认为距离较小的负样本对能够提供更充分的信息。为了产生包含信息更充分的样本，一些方法提出通过使用GAN、VAE或者线性差值的方法来合成样本。然而，所有这些方法都是在训练集上随机选择代理，同时仅在小批数据中选择代理，从而不能全面代表样本分布的全局结构。

基于梯度更新的方法：采样得到的代理能够更多程度上保持数据的真实性，但是分散的训练信号可能导致收敛缓慢。这促使一些方法维护代理集合，在代理和样本间施加约束，并且使用梯度方法进行更新。

除此之外，对于广泛使用的softmax损失函数以及其变体(SphereFace、CosFace、ArcFace)，如果将网络最后一层权重矩阵的每一行看作代理，则也能够将其归类为基于梯度更新的方法。基于梯度的方法能够获得与基于采样的方法相当的表现，同时由于使用代理能够获得更快的收敛速度。然而，这些方法直接使用度量损失函数更新代理，可能和希望得到的代理不能保持一致。

因此，在本发明中，率先研究代理样本的构建问题，用来更好地引导训练过程。我们提出从真实性、代表性和判别性三个方面来评估代理，并且运用一个独立的结构化损失函数学习代理，从而较好地权衡三者。

本发明的目的是解决现有深度度量学习技术中构建代理时使用信息不充分的问题，通过结构化代理损失函数，使用训练集的全部数据学习代理集合，同时为了提高效率，仅仅在每一轮训练开始前计算代理集合，训练过程中只使用梯度微调，从而提出了一种基于结构化代理的深度度量学习框架。

图1为本发明实施例所提供的一种基于结构化代理的深度度量学习方法的流程示意图。

步骤101，获取多个样本图像集，其中，每个所述样本图像集中包括多张同一个类别的样本图像，不同样本图像集的类别不同。

本实施例中，获取多个样本图像集，每个本图像集中包括多张同一个类别的样本图像，不同样本图像集的类别不同，这里的类别可以理解为样本图像中包含的实体不同，比如，包含鸟、足球、植物等。

步骤102，提取多个样本图像集中每个样本图像的图像特征向量。

在本发明的一个实施例中，可以根据预先训练的深度卷积网络，提取所述每个样本图像的128维的图像特征向量。

步骤103，根据预设的结构化损失函数对多个样本图像集中所有样本图像的图像特征向量计算，获取计算结果。

在本发明的一个实施例中，使用预训练的深度卷积网络，通过网络前向传播获取训练集图片的128维特征向量。在每轮训练开始前，需要一次性加载全部样本图像的图像特征向量和标签进入内存。

并且，上一步已经获得了全部训练集的样本图像的图像特征向量，此时需要利用结构化损失函数求解全局的代理，全局代理必须具有如下性质：

1、真实性

真实性指的是要求每一个代理样本图像能够和一个真实的样本点比较近，防止样本处于度量空间的错误位置。

2、代表性

代表性要求代理样本图像能够全面描述数据的分布，从而产生无偏的训练信号。

3、判别性

判别性则需要分属不同类的样本图像需要能够相互分离开来。

在一些可能的示例中，预设的结构化损失函数，可以为如下公式(1)：

其中，k表示样本图像集对应的类别的数目，P表示全部代理样本的集合，P_k表示第k类的代理样本集合，|P_k|是P_k的数目，P⁺和P^-分别表示正负代理样本集合，λ_r和λ_d是两个用来权衡真实性、代表性和判别性的超参数，x_i表示真实样本，s(·，·)表示相似度函数，特别地，对于使用欧氏距离的情况，

d(x_i，x_j)＝||f(x_i)-f(x_j)||₂，其中f(·)为含参数θ的变换。

其中，在上述公式(1)中，J_auth项通过最大化每个代理样本图像与距离其最近样本图像的相似性，使得每个代理样本图像能够至少与一个真实样本保持较近的距离，从而保证真实性；J_repre最大化每个样本图像与距离其最近的样本图像代理的相似性，使得每类的代理样本图像能够尽可能代表类内分布；J_disc直接对所有的代理施加约束，使得不同类代理样本图像推远，相同类代理样本图像拉近，从而确保判别性。

步骤104，根据梯度下降算法和计算结果筛选出每个样本图像集中的代理样本图像。

在本示例中，根据梯度下降算法和计算结果筛选出每个样本图像集中的代理样本图像，保证获取到的代理样本图像可以尽可能的兼顾上述三性的要求。

步骤105，根据所有的代理样本图像训练预设的深度卷积网络，并根据训练好的深度卷积网络提取目标图像在度量空间中的目标特征向量，以便于根据目标特征向量确定目标图像与其他图像的相似性。

在本实施例中，使用上一步得到的结构化代理，对包括网络参数θ和代理样本集合P进行优化，训练结束后，通过训练好的网络前向传播，提取测试集图片的特征向量，从而得到图片在度量空间中的表示。

进一步的，在本发明的实施例中，获取所述其他图像的图像特征向量，计算所述目标特征向量和所述其他图像的图像特征向量的向量距离，根据所述向量距离确定所述相似性。

在一些可能的实施例中，当预设的深度神经网络为CNN时，本发明中，使用全局信息来构建代理；构建代理在于拟合样本的全局分布，现有的基于代理的方法仅仅从小批数据中更新代理，优化时容易收敛在局部极值，从而无法获取数据的全局结构化信息；而本发明通过在每轮训练前直接针对全局数据计算代理，能够避免仅使用小批量数据陷入局部极值的情况，充分利用全局信息，并且，在本发明的实施例中，使用结构化损失函数权衡真实性、代表性和判别性；现有的基于采样的方法仅能够保证代理的真实性，代表性和判别性不足，而基于梯度更新的方法能具有一定判别性，但缺乏真实性和代表性；而本发明提出的结构化损失函数能够同时权衡三个方面，本发明提出了基于代理的深度度量学习整体框架；本发明提出了“代理收集、代理选择和数据对加权”的深度度量学习框架，将现有的度量学习方法进行了整合，同时提高了方法的性能。本发明使用深度卷积网络提取图片的特征向量；在每轮训练网络参数前，先使用全部特征向量通过结构化损失函数求解代理，这种代理能够兼顾真实性、代表性和判别性，如附图2；接下来使用梯度方法对所有参数(包括网络和代理)进行微调；训练结束后，能够获得一个性能更好的度量函数。

在实际执行过程中，参照图3，本发明使用全局数据来获取代理。首先，本发明使用深度卷积网络提取图片的特征向量，固定网络参数，使用全部的特征向量求解结构化代理。其次，使用这些代理引导网络参数的学习，得到最终的度量函数。

综上，本发明实施例的基于结构化代理的深度度量学习方法，一方面，从真实性、代表性和判别性三个方面来评价代理，而现有的方法很难兼顾三者，本发明则通过使用结构化损失函数来进行权衡；另一方面，现有方法仅适用小批数据获取代理，不能充分利用全局信息，而本发明使用全局数据来获取代理。首先，本发明使用深度卷积网络提取图片的特征向量，固定网络参数，使用全部的特征向量求解结构化代理。其次，使用这些代理引导网络参数的学习，得到最终的度量函数。

为了实现上述实施例，本发明还提出一种基于结构化代理的深度度量学习装置。

图4为本发明实施例提供的一种基于结构化代理的深度度量学习装置的结构示意图。

如图4所示，该基于结构化代理的深度度量学习装置包括：获取模块410、提取模块420、计算模块430、筛选模块440和相似度处理模块450。

其中，获取模块410，用于获取多个样本图像集，其中，每个所述样本图像集中包括多张同一个类别的样本图像，不同样本图像集的类别不同；

提取模块420，用于提取所述多个样本图像集中每个样本图像的图像特征向量；

计算模块430，用于根据预设的结构化损失函数对所述多个样本图像集中所有样本图像的图像特征向量计算，获取计算结果；

筛选模块440，用于根据梯度下降算法和所述计算结果筛选出每个样本图像集中的代理样本图像；

相似度处理模块450，用于根据所有的所述代理样本图像训练预设的深度卷积网络，并根据训练好的深度卷积网络提取目标图像在度量空间中的目标特征向量，以便于根据所述目标特征向量确定目标图像与其他图像的相似性。

需要说明的是，前述对基于结构化代理的深度度量学习方法实施例的解释说明也适用于该实施例的基于结构化代理的深度度量学习装置，此处不再赘述。

为了实现上述实施例，本发明还提出一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述实施例所描述的基于结构化代理的深度度量学习方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例所描述的基于结构化代理的深度度量学习方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如上述实施例所描述的基于结构化代理的深度度量学习方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于结构化代理的深度度量学习方法，其特征在于，包括：

获取多个样本图像集，其中，每个所述样本图像集中包括多张同一个类别的样本图像，不同样本图像集的类别不同；

提取所述多个样本图像集中每个样本图像的图像特征向量；

根据预设的结构化损失函数对所述多个样本图像集中所有样本图像的图像特征向量计算，获取计算结果；

根据梯度下降算法和所述计算结果筛选出每个样本图像集中的代理样本图像；

根据所有的所述代理样本图像训练预设的深度卷积网络，并根据训练好的深度卷积网络提取目标图像在度量空间中的目标特征向量，以便于根据所述目标特征向量确定目标图像与其他图像的相似性。

2.如权利要求1所述的方法，其特征在于，

不同类别的所述样本图像包含不同的实体。

3.如权利要求1所述的方法，其特征在于，所述提取所述多个样本图像集中每个样本图像的图像特征向量，包括：

根据预先训练的深度卷积网络，提取所述每个样本图像的128维的图像特征向量。

4.如权利要求1所述的方法，其特征在于，所述预设的结构化损失函数，包括:

其中f(·)为含参数θ的变换。

5.如权利要求1所述的方法，其特征在于，所述根据梯度下降算法和所述计算结果筛选出每个样本图像集中的代理样本图像，包括：

根据所述预设的一般损失函数和当前计算得到的代理样本集合P更新模型参数θ，从而更新所述所有样本图像的图像特征向量x_i；

根据所述预设的结构化损失函数对所述多个样本图像集中所有样本图像的图像特征向量f(x_i)计算，获取计算结果，直至所述计算结果达到最小值时，计算出每个样本图像集中的代理样本图像p_i。

6.如权利要求1所述的方法，其特征在于，所述根据所述目标特征向量确定目标图像与其他图像的相似性，包括：

获取所述其他图像的图像特征向量；

计算所述目标特征向量和所述其他图像的图像特征向量的向量距离，根据所述向量距离确定所述相似性。

7.一种基于结构化代理的深度度量学习装置，其特征在于，包括：

获取模块，用于获取多个样本图像集，其中，每个所述样本图像集中包括多张同一个类别的样本图像，不同样本图像集的类别不同；

提取模块，用于提取所述多个样本图像集中每个样本图像的图像特征向量；

计算模块，用于根据预设的结构化损失函数对所述多个样本图像集中所有样本图像的图像特征向量计算，获取计算结果；

筛选模块，用于根据梯度下降算法和所述计算结果筛选出每个样本图像集中的代理样本图像；

相似度处理模块，用于根据所有的所述代理样本图像训练预设的深度卷积网络，并根据训练好的深度卷积网络提取目标图像在度量空间中的目标特征向量，以便于根据所述目标特征向量确定目标图像与其他图像的相似性。

8.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-6中任一所述的方法。

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。

10.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由处理器执行时，实现如权利要求1-6中任一所述的方法。