CN105808732A

CN105808732A - 一种基于深度度量学习的一体化目标属性识别与精确检索方法

Info

Publication number: CN105808732A
Application number: CN201610135001.6A
Authority: CN
Inventors: 田永鸿; 刘弘也; 王耀威; 黄铁军
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2016-03-10
Filing date: 2016-03-10
Publication date: 2016-07-27
Anticipated expiration: 2036-03-10
Also published as: CN105808732B

Abstract

本发明实施例提供了一种基于深度度量学习的一体化目标属性识别与精确检索方法。所述方法包括：获取查询图片和图片数据库；根据预先训练好的深度神经网络模型，分别得到所述查询图片和所述图片数据库中所有图片的特征向量,所述特征向量包括图片中个体目标的类别特征与个体目标的身份特征；根据所述特征向量，分别计算所述查询图片与所述图片数据库中的图片在欧式空间中的欧氏距离；根据所述查询图片与所述图片数据库中的所有图片的欧氏距离，从所述图片数据库中选择与所述查询图片相似度最大的图片。本发明能够提高图像检索的准确性。

Description

一种基于深度度量学习的一体化目标属性识别与精确检索方法

技术领域

本发明涉及图像检索领域，尤其涉及一种基于深度度量学习的一体化目标属性识别与精确检索方法。

背景技术

目标精确检索与个体目标属性识别一直是计算机视觉领域里至关重要的两个问题，并且是个体目标跟踪、行为分析等上层应用分析的基础，目前在学术界，两者属于两个独立的问题。

前者的主要目标在于：将某特定个体目标从一系列来自不同摄像头拍摄的个体目标图片中识别出来，已有的研究大部分集中在人脸或者行人等特定类型个体目标的检索问题上。在现实场景中，一般只有人脸精确检索(或称为人脸识别)可以达到足够实用的准确度，同样甚至更加重要的行人、车辆精确检索问题均还没有得到充分的研究，因此急需提出新的能够高效且准确解决各类个体目标检索问题的算法模型。

后者个体目标属性识别可以归于标准的分类问题，目标在于：对某个具体个体目标提取一些抽象的属性信息，比如车辆的型号或者行人衣服裤子的颜色，目前而言算是一个比较成熟的问题。

此外，对于检索和属性识别两个问题，一般需要分别训练不同的模型来实现对应的功能。

目标精确检索问题的目标在于：将某特定个体目标从一系列来自不同摄像头拍摄的个体目标图片中识别出来，和个体目标检测、识别类似，一般可以从目标的外形、颜色及纹理等特征入手，再通过某种数学模型将该个体目标与其他个体目标区分。但不同的是，目标检索不仅需要精确到个体目标类别的程度，还需要在同类别个体目标中把指定目标与其他同类别个体目标区分开来。在实际视频分析系统中，它是个体目标行为分析、长时间轨迹跟踪等上层应用的基础，其准确性通常是评估整个算法性能的重要指标。

目标精确检索问题一般而言包含两个技术关键点，即特征提取和距离度量。前者是在计算机中用某种特定模式对自然图片的描述，后者是度量任意两个个体目标图片的差异程度。已有的算法框架大多也是针对这两个子问题进行优化。

发明内容

本发明的实施例提供了一种基于深度度量学习的一体化目标属性识别与精确检索方法，能够提高图像检索的准确率。

为了实现上述目的，本发明采取了如下技术方案。

一种基于深度度量学习的一体化目标属性识别与精确检索方法，其特征在于，所述方法包括如下步骤：

获取查询图片和图片数据库；

根据预先训练好的深度神经网络模型，分别得到所述查询图片和所述图片数据库中所有图片的特征向量,所述特征向量包括图片中个体目标的类别特征与个体目标的身份特征；

根据所述特征向量，分别计算所述查询图片与所述图片数据库中的图片在欧式空间中的欧氏距离；

根据所述查询图片与所述图片数据库中的所有图片的欧氏距离，从所述图片数据库中选择与所述查询图片相似度最大的图片。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例中，同时进行目标精确检索与个体目标属性识别的多分支网络结构，提高了检索的准确性。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于深度度量学习的一体化目标属性识别与精确检索方法的处理流程图；

图2为以车辆为个体目标例，模型训练阶段的框架示意图。

图3为在VGG_CNN_M_1024基础上修改得到的网络结构示意图。

图4为同车型、同颜色的车辆从外观上区分的示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

如图1所示，为本发明所述的一种基于深度度量学习的一体化目标属性识别与精确检索方法，所述方法包括如下步骤：

步骤110，获取查询图片和图片数据库；

步骤120，根据预先训练好的深度神经网络模型，分别得到所述查询图片和所述图片数据库中所有图片的特征向量,所述特征向量包括图片中个体目标的类别特征与个体目标的身份特征；

步骤130，根据所述特征向量，分别计算所述查询图片与所述图片数据库中的图片在欧式空间中的欧氏距离；

步骤140，根据所述查询图片与所述图片数据库中的所有图片的欧氏距离，从所述图片数据库中选择与所述查询图片相似度最大的图片。欧氏距离表示图片之间的相似度，距离越近，表示图片之间相似度越大。

其中，所述深度神经网络模型的训练步骤包括：

a)网络结构建立步骤；根据查询图片中个体目标的类别信息和个体目标身份信息，建立可同时提取两类特征并将两类特征融合成一个特征的深度神经网络模型；第一特征为用于区分不同类别的类别特征，第二特征为用于区分相似个体的个体目标的身份特征；类别特征可以包括多个属性特征，不一定只有一个。其中，类别信息就是属性信息(例如为颜色、车型、男女等)，个体目标的身份信息则是用来标识具体的个体身份(例如为：张三、李四)。网络模型根据个体目标的类别、身份信息，产生对应的特征表示。

b)模型训练步骤；网络训练采用随机梯度下降算法，每组训练数据获取两个图片集合，第一组图片集合为正样本集合，包含同一个体目标但是拍摄自不同摄像头的多张不同图片；第二组图片集合为负样本集合，包含不同个体目标的多张图片；并且所述第二组图片集合的图片与第一个图片集合中的图片不属于同一个体目标,每个图片标示有个体目标ID。根据深度神经网络的训练方式，在建立的所述深度神经网络模型上，根据所述两组图片集合构成的训练数据，不断执行前向传播与反向传播，直到最终输出的损失函数收敛为止。

所述网络结构建立步骤包括：

a)选定一个单分支分类网络作为基础网络结构；例如为：(VGG_CNN_M_1024,GoogleNet等；

b)在所述分类网络的中前部设置一个分支点，然后复制之后的子网络，使所述分支点后的网络直到最后一个特征提取层具有上下两个对称分支；

c)在所述分类网络的上方分支的最后一个特征提取层之后，根据查询图片中个体目标的类别特征添加一个多类分类层(Softmax分类)，用于提取个体目标的类别特征；

d)在所述分类网络的下方分支的最后一个特征提取层之后，连接第一簇聚类损失函数，用于提取个体目标的个体目标的身份特征；

e)把两个分支的特征层拼接起来，然后再连接一个全连接层进行特征融合，得到同时表示类别特征和个体目标的身份特征的特征向量；

f)在最后的融合特征层后，连接第二簇聚类损失函数。

所述第一或者第二簇聚类损失函数的计算方法包括：

a)计算所述正样本集合的中心点，用来估计正样本集合的簇中心；

b)计算所述正样本集合和负样本集合中各样本到所述簇中心的距离；

c)根据所述正样本集合和负样本集合，计算损失函数值和反向传播的偏导数。

所述损失函数值根据以下公式计算：

L (W, X^{p}, X^{n}) = Σ_{i}^{N^{p}} \frac{1}{2} m a x {0, | | f (x_{i}^{p}) - c^{p} | |_{2}^{2} + α - | | f (x_{*}^{n}) - c^{p} | |_{2}^{2}};

f(x)表示图片经过深度神经网络模型提取得到的特征向量；

是离正样本中心点c^p最近的一个负样本点；

W为损失函数网络层之前的子网络参数；c^p为正样本集合的中心点；

所述网络反向传播的偏导数根据以下公式计算：

对应所有正样本的导数为：

\frac{\partial L}{\partial f (x_{i}^{p})} = f (x_{i}^{p}) - c^{p};

对应离中心点cp最近的负样本的导数为：

\frac{\partial L}{\partial f (x_{*}^{n})} = c^{p} - f (x_{*}^{n}) .

以下描述本发明的应用场景和设计思想。

本发明提供一种基于深度度量学习的目标精确检索与属性识别方法，涉及监控视频行人、车辆精确检索方法，可以适用于基于视频处理的智能交通和智能监控领域。

本发明主要是为了一体化的解决实际监控场景中行人、车辆等特定目标的精确检索与属性识别问题，即给定一张查询图片，需要在一个大型的历史图片数据库中通过视觉特征查找相同的个体目标目标，并同时输出个体目标目标具有的抽象属性。提出了一种利用深度神经网络进行图片距离度量的一体化目标属性识别与精确检索方法，该方法可以使用一个统一的网络模型，同时提取出个体目标间的外观差异以及一些属性信息，然后，综合生成一个欧式空间中的特征向量，在比较不同个体目标图片的差异度时，只需要计算两幅图片对应特征的欧式距离即可，以车辆为例，模型训练阶段的框架如图2所示(当然，本发明并不仅限于车辆)。

具体为：

每次输入两个图片集合。第一个集合为正样本，包含同一个个体目标但是拍摄自不同摄像头的多张不同图片；第二个集合为负样本，包含不同个体目标的多张图片。两个集合图片数量没有特殊限制，但是每张个体目标图片除了本身的身份ID信息，还需要有抽象类别(属性)信息。前者用于提取可以度量个体差异的特征，后者用于提取可以度量类别间差异的特征。

所有输入图片经过相同的深度神经网络，然后被映射到一个高维欧式空间，优化目标是在欧氏空间中让正样本集合的所有图片特征能尽量靠近，而负样本集合的所有图片特征则尽量远离，使得不同的目标个体目标可以在这个空间直接通过欧式距离进行区分。

本发明中的深度神经网络与普通的分类网络不同，使用了多任务学习框架，网络在中间分成了两个分支用于提取不同的特征信息，然后在后端又重新合并，融合得到一个统一的特征向量。

网络中，在中间设计两个不同分支主要目的在于：通过同时执行属性分类任务，对目标精确检索任务进行监督。其基本原理是：如果两幅个体目标图片属于不同的类别，那么它们一定不是相同一个个体；如果两幅图片中的个体目标具有相同的类别特征，那么还需要考虑其是否具有一些特殊的个体特征能够被区分。

此外，本发明中的深度神经网络并不具有某种具体、固定的网络结构，可以在现有各类识别网络的基础上加以调整，得到适用于车辆检索场景的特殊深度神经网络模型，也就是说，本发明为同时度量类别特征和个体特征的网络结构。

下面，对上述用于目标精确检索与属性识别问题的深度度量模型进行具体描述：

簇聚类损失函数(CoupledClustersLoss)

本发明利用深度神经网络，对图片进行特征提取，然后把图片映射到一个特殊的欧式空间中，使得相同个体目标的图片相互之间距离很近，而和任意其他个体目标图片的距离较远。为了实现这个目标，设计了一个特殊的优化目标，让整个神经网络不断逼近最优点。假设在目标欧式空间中，同个体目标的不同图片相互距离很近，并且具有一个中心点，多张图片组成一个“簇”(cluster)，不同的个体目标图片组成多个不同的“簇”，并且簇与簇之间的距离大于簇内个体目标图片的距离。具体训练细节如下:

网络输入：包含两个图片集合。第一个集合为正样本，包含同一个体目标但是拍摄自不同摄像头的多张不同图片；第二个集合为负样本，包含不同个体目标的多张图片。一般情况下，负样本总是比正样本集合容易收集，因此所有正负样本集合的比例可能差距非常大。两个集合图片数量没有具体的限制，但是前者不能过少，尽可能大于5张较为合适，后者一般以10-20张比较合适。用代表正样本集合，包含N^p张属于同一个体目标的不同图片，用代表负样本集合，包含Nⁿ张属于其他个体目标的图片，用f(x)表示任意一个图片经过深度神经网络提取得到的特征向量。

损失函数：假设损失函数前的子网络参数为W。首先计算正样本集合的中心点：

c^{p} = \frac{1}{N^{p}} Σ_{i}^{N^{p}} f (x_{i}^{p})

理想的相对距离关系是：

\begin{matrix} | | f (x_{i}^{p}) - c^{p} \leq | |_{2}^{2} + α \leq | | f (x_{j}^{n}) - c^{p} | |_{2}^{2} \\ &ForAll; 1 \leq i \leq N^{p} a n d 1 \leq j \leq N^{n} \end{matrix}

根据这个目标，网络尝试学习优化的损失函数是：

L (W, X^{p}, X^{n}) = Σ_{i}^{N^{p}} \frac{1}{2} m a x {0, | | f (x_{i}^{p}) - c^{p} | |_{2}^{2} + α - | | f (x_{*}^{n}) - c^{p} | |_{2}^{2}}

其中，是离正样本中心点c^p最近的一个负样本点。

在网络反向传导时，对应所有正样本的导数为：

\frac{\partial L}{\partial f (x_{i}^{p})} = f (x_{i}^{p}) - c^{p}

对应离c^p最近负样本的导数为：

\frac{\partial L}{\partial f (x_{*}^{n})} = c^{p} - f (x_{*}^{n})

其余样本的导数为0。

这样，在网络前向传播时，计算损失函数L(W,X^p,Xⁿ)，反向传播时，根据对应样本的导数进行网络权重更新，即可不断使网络逼近最优值。

混合距离度量网络(MixedDifferenceNetwork)

根据之前所述，类似于TripletLoss算法中，仅仅尝试让不同车辆图片之间满足类内距离小于类间距离的条件，或许很难让网络学习到最优解，而目标精确检索问题与普通检索问题最大不同就是需要同时注意到目标个体目标之间的类别差异和个体差异，因此这里考虑使用某些抽象属性分类对目标精确检索任务进行监督，具体网络结构如图3所示。需要说明的是，混合距离度量的网络结构并不局限于某种特定的样式，可以在已有个体目标识别网络基础上修改，图3为在VGG_CNN_M_1024基础上修改得到的网络结构。

图3中网络前三层为正常的卷积与池化层(Pooling)；从第四层开始，分成两个分支，一个用于抽象属性分类人物，提取个体目标类别特征；另一个进行个体特征学习，接入簇聚类损失函数。两个分支各自提取出1024维特征向量，然后，通过一个全连接层进行融合，得到一个1024维的统一表示；最后，该融合特征重新接入簇聚类损失函数，用以学习类别特征和个体特征的融合方式。本文把具有这种分支结构且同时学习个体目标类别和个体差异性特征的网络称为混合距离度量网络(MDN,MixedDifferenceNetwork)。

一种基于深度度量学习的一体化目标属性识别与精确检索方法，所述方法包括如下步骤：

深度神经网络训练步骤，所述深度神经网络训练步骤包括针对同一目标个体目标不同摄像头拍摄的图片数据通过具有某种特定结构性质的深度神经网络进行类别与个体特征提取，然后使该特征在高维欧氏空间中满足相同目标个体目标距离靠近，不同目标个体目标距离较远的相对位置关系；

目标精确检索步骤，所述目标精确检索步骤包括利用已经训练好的深度网络模型对图片进行特征提取，然后在欧式空间计算多张图片的欧氏距离，通过排序实现目标精确检索的目标；

在所述深度神经网络训练步骤中，还包括如下步骤：

a)网络结构设计步骤，根据选择的个体目标类别特征信息设计能够同时提取用于区分不同属性类别个体目标和用于区分不同个体目标的两种特征，并在最终融合成一个特征的混合距离度量网络结构；

b)模型训练步骤，准备好数据及相应标注信息后，根据深度神经网络的训练方式，在a步骤设计的网络模型上，不断执行前向传播与反向传播，直到最终输出的损失函数收敛为止。

在所述网络结构设计步骤中，还包括如下步骤：

a)选定一个通用的分类网络作为基础网络结构；

b)在该分类网络在中前部分加入一个分支点，使分支点后的网络直到最后一个特征提取层具有上下两个对称分支；

c)在上方分支的最后一个特征提取层之后根据所选取的属性特征添加softmax分类层，用于提取目标个体目标的属性类别特征；

d)在下方分支的最后一个特征提取层之后接上一个簇聚类损失函数，用于提取个体目标个体的特有特征；

e)把两个分支的特征层拼接起来，然后再接一个全连接层进行特征融合，得到一个同时表示类别特征和个体特征的特征向量；

f)在最后的融合特征层厚再接上一个簇聚类损失函数。

4.根据权利要求1-3所述的一种基于深度度量学习的一体化目标属性识别与精确检索方法，其特征在于，在所述簇聚类损失函数中，还包括如下步骤：

a)计算正样本集合的中心点，用来估计“簇中心”；

b)计算所有正样本和负样本到“簇中心”的距离；

c)根据说明书所述公式计算损失函数值和反向传播的偏导数。

在所述目标精确检索步骤中，还包括如下步骤：

a)使用已经训练完成的网络模型对所有个体目标图片提取特征；

b)计算不同图片特征的欧氏距离；

c)根据距离排序，得到各个图片间的差异程度，实现目标精确检索。

以下描述两个应用实施例。

实施例1(车辆精确检索)

本实施例基于室外监控场景。在室外环境中，除去不同车辆本身的外观差异，光照变化、阴影以及被风吹动的树等都会给车辆精确检索带来不同程度的干扰，本实施例着重介绍如何将本发明应用在车辆精确搜索问题上。

这里需要注意，该问题不能通过车牌识别技术来解决，因为车辆检索技术就是为了在车牌识别无法工作的特殊情况下通过外观进行车辆的搜索任务；此外，车辆检索问题与行人或人脸检索问题不同，理论上不同身份的行人/人脸一定在外观上会有差异，但是不同ID的车辆如果颜色与型号相同，那么它们的外观可能会非常相似，因此很多研究人员认为车辆检索问题本身就是一个不可解问题，但是在我们仔细、大规模的分析了实际车辆数据之后，发现情况并非如此，除非新车，否则各个车辆在被驾驶过一定时间后均可能会有一些自己独有的特征，比如车主贴上的广告、装饰性图案、年检标志或者某些特殊划痕、喷漆，如图4所示,因此，理论上，它们是可以和其他同车型同颜色的车辆从外观上区分的。

根据之前发明方法所述，需要实用车辆都具有的一些属性分类信息，这里以车型和颜色为例，介绍如何解决车辆精确检索的问题。

深度神经网络依然用于特征提取，使用混合距离度量网络同时进行类别与个体特征提取。以下图所示网络为例，其中上面一个分支提取得到的1024维特征Fc7后，再连接一个车型分类器和一个颜色分类器(实际使用中可以用一个属性也可以用更多属性)，用于提取可以识别车辆型号和颜色的特征。下面的分支在提取完1024维特Fc7_2征后，接入簇聚类损失函数，用于提取度量个体间差异的特征；然后为了融合这两者，后面先将Fc7和Fc7_2拼接起来得到一个2048维特征，然后再通过一个全连接层,得到最终我们所需要的1024维特征Fc8，并二次接入一个簇聚类损失函数作为优化目标。

在实际测试阶段，可以把所有簇聚类损失函数层去掉，属性分类层可以保留也可以去除，实际精确检索时,只需要把不同个体目标图片提取得到的特征向量Fc8计算欧氏距离，即可得到互相的差异程度，然后倒序排列，寻找最像的目标个体目标。

实施例2(行人精确检索)

与车辆不同，行人具有的属性特征更多，但是并非所有属性都具有同等的作用，这里使用三个属性特征：性别、上衣颜色、裤子(或裙子)颜色，然后加上行人本身的身份ID来训练网络模型，实际使用中可以用一个属性也可以用更多属性。

深度神经网络依然用于特征提取，使用混合距离度量网络同时进行类别与个体特征提取。以之前所示网络为例，其中上面一个分支提取得到的1024维特征Fc7后，再连接一个性别分类器、一个上衣颜色分类器和一个裤子(或裙子)颜色分类器，用于提取可以识别行人性别与上下身颜色的特征，下面的分支在提取完1024维特Fc7_2征后接入簇聚类损失函数，用于提取度量个体间差异的特征，然后为了融合这两者，后面先将Fc7和Fc7_2拼接起来得到一个2048维特征，然后再通过一个全连接层得到最终我们所需要的1024维特征Fc8，并二次接入一个簇聚类损失函数作为优化目标。

在实际测试阶段，可以把所有簇聚类损失函数层去掉，属性分类层可以保留也可以去除，实际精确检索时只需要把不同个体目标图片提取得到的特征向量Fc8计算欧氏距离，即可得到互相的差异程度，然后倒叙排列寻找最像的目标个体目标。

本发明提出了基于簇聚类的新型深度神经网络优化函数；建立同时利用属性类别特征和个体差异特征进行目标精确检索任务的混合距离度量网络；建立同时进行目标精确检索与个体目标属性识别的多分支网络结构，具有以下有益效果：

1、本发明利用簇聚类网络优化函数实现特征提取、距离度量一体化的目标检索框架，与传统算法相比，处理速度和准确率均得到了极大的提高；

2、本发明通过多任务学习思想设计的混合距离度量网络，大大提升了单一分支网络的检索准确率；

3、本发明把目标精确检索和个体目标属性识别进行融合，能够提高准确率。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于深度度量学习的一体化目标属性识别与精确检索方法，其特征在于，所述方法包括如下步骤：

获取查询图片和图片数据库；

根据预先训练好的深度神经网络模型，分别得到所述查询图片和所述图片数据库中所有图片的特征向量,所述特征向量表示图片中个体目标的类别特征与个体目标的身份特征；

2.根据权利要求1所述的方法，其特征在于，所述深度神经网络模型的训练步骤包括：

a)网络结构建立步骤；根据查询图片中个体目标的类别信息和个体目标的身份信息，建立可同时提取两类特征并将两类特征融合成一个特征的深度神经网络模型；第一特征为用于区分不同类别的类别特征，第二特征为用于区分相似个体的个体目标的身份特征

b)模型训练步骤；网络训练采用随机梯度下降算法，每组训练数据获取两个图片集合，第一组图片集合为正样本集合，包含同一个体目标但是拍摄自不同摄像头的多张不同图片；第二组图片集合为负样本集合，包含不同个体目标的多张图片，并且所述第二组图片集合的图片与第一个图片集合中的图片不属于同一个体目标；根据深度神经网络的训练方式，在建立的所述深度神经网络模型上，根据所述两组图片集合构成的训练数据，不断执行前向传播与反向传播，直到最终输出的损失函数收敛为止。

3.根据权利要求2所述的方法，其特征在于，所述网络结构建立步骤包括：

a)选定一个单分支分类网络作为基础网络结构；

c)在所述分类网络的上方分支的最后一个特征提取层之后，根据查询图片中个体目标的类别特征添加一个多类分类层，用于提取个体目标的类别特征；

d)在所述分类网络的下方分支的最后一个特征提取层之后，连接第一簇聚类损失函数，用于提取个体目标的个体目标身份特征；

e)把两个分支的特征层拼接起来，然后再连接一个全连接层进行特征融合，得到同时表示类别特征和个体目标身份特征的特征向量；

f)在最后的融合特征层后，连接第二簇聚类损失函数。

4.根据权利要求3所述的方法，其特征在于，所述第一或者第二簇聚类损失函数的计算方法包括：

5.根据权利要求4所述的方法，其特征在于，所述损失函数值根据以下公式计算：

f(x)表示图片x经过深度神经网络模型提取得到的特征向量；

是离正样本中心点c^p最近的一个负样本点；

W为损失函数网络层之前的子网络参数；c^p为正样本集合的中心点。

6.根据权利要求4所述的方法，其特征在于，所述网络反向传播的偏导数根据所述公式计算：

对应所有正样本的导数为：

对应离中心点cp最近的负样本的导数为：