CN109117888A

CN109117888A - 目标对象识别方法及其神经网络生成方法以及装置

Info

Publication number: CN109117888A
Application number: CN201810951565.6A
Authority: CN
Inventors: 廖星宇; 张弛
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2019-01-01

Abstract

本发明提供了一种目标对象识别方法及其神经网络生成方法以及装置，目标对象识别方法包括：根据第一目标对象的二维图像和第一目标对象的三维图像，分别通过第一神经网络和第二神经网络，得到第一特征信息和第二特征信息；根据第二目标对象的二维图像和第二目标对象的三维图像，分别通过第一神经网络和第二神经网络，得到第三特征信息和第四特征信息；将第一特征信息和第二特征信息进行合并，得到第一对象特征；将第三特征信息和第四特征信息进行合并，得到第二对象特征；根据第一对象特征和第二对象特征之间的特征距离，确定第一目标对象和第二目标对象是否为同一对象，解决了目前的Reid方法很容易识别出不准确甚至错误的对象结果的技术问题。

Description

目标对象识别方法及其神经网络生成方法以及装置

技术领域

本发明涉及图像识别技术领域，尤其是涉及一种目标对象识别方法及其神经网络生成方法以及装置。

背景技术

行人重识别(Person Re-identification，简称Reid)是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术，属于一个图像检索的子问题。其可以理解为，给定一个监控行人图像，检索跨设备下的该行人图像，也可以是利用一张行人图像去图像库或者视频中找到该人。Reid目的在于弥补目前固定的摄像头的视觉局限，并可与行人检测、行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。

例如，在刑侦领域的应用中，需要根据一张图像在城市中庞大的摄像头网络中找到该人。在视频结构化的诸多应用中，行人的分析至关重要，特别是对于人的身份识别，因此，其在安防、视频检索等众多领域起到了重要作用。

目前，通常的Reid方法是利用一张拍到的行人图像来进行检索，但在某些情况下，该方法识别出的对象并不准确，很容易识别出错误的对象结果。

发明内容

有鉴于此，本发明的目的在于提供一种目标对象识别方法及其神经网络生成方法以及装置，以解决现有技术中存在的利用目前的Reid方法很容易识别出不准确甚至错误的对象结果的技术问题。

第一方面，本发明实施例提供了一种目标对象识别方法，包括：

根据第一目标对象的二维图像和第一目标对象的三维图像，分别通过第一神经网络和第二神经网络，得到第一特征信息和第二特征信息；

根据第二目标对象的二维图像和第二目标对象的三维图像，分别通过第一神经网络和第二神经网络，得到第三特征信息和第四特征信息；

将所述第一特征信息和所述第二特征信息进行合并，得到第一对象特征；

将所述第三特征信息和所述第四特征信息进行合并，得到第二对象特征；

根据所述第一对象特征和所述第二对象特征之间的特征距离，确定第一目标对象和第二目标对象是否为同一对象。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，还包括：

根据第一目标对象的二维图像通过三维重建算法，得到第一目标对象的三维图像；

根据第二目标对象的二维图像通过三维重建算法，得到第二目标对象的三维图像。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述根据所述第一对象特征和所述第二对象特征之间的特征距离，确定第一目标对象和第二目标对象是否为同一对象，包括：

当所述第一对象特征和所述第二对象特征之间的特征距离小于等于预设值时，确定第一目标对象和第二目标对象为同一对象；

当所述第一对象特征和所述第二对象特征之间的特征距离大于预设值时，确定第一目标对象和第二目标对象不为同一对象。

第二方面，本发明实施例还提供一种神经网络生成方法，用于生成如第一方面所述的第一神经网络和第二神经网络，所述神经网络生成方法包括：

根据二维图像通过第一初始神经网络，得到第一特征向量；

根据所述二维图像对应的三维图像，通过第二初始神经网络，得到第二特征向量；

将所述第一特征向量和所述第二特征向量进行合并，得到合并特征；

基于多个二维图像，分别执行上述步骤，得到多个合并特征；

根据所述多个合并特征之间的距离得到损失函数，并通过所述损失函数分别对所述第一初始神经网络和所述第二初始神经网络进行训练，生成第一神经网络和第二神经网络。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述根据所述多个合并特征之间的距离得到损失函数，包括：

对于属于相同对象的多个二维图像，通过拉近相应的多个所述合并特征之间的距离得到损失函数；

对于属于不同对象的多个二维图像，通过拉远相应的多个所述合并特征之间的距离得到损失函数。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，还包括：

将所述多个合并特征输入至第三初始神经网络中进行训练，得到相同对象的分类结果；

根据所述多个合并特征之间的距离以及所述分类结果得到损失函数，利用所述损失函数分别对所述第一初始神经网络、所述第二初始神经网络以及所述第三初始神经网络进行训练，生成第一神经网络、第二神经网络以及分类神经网络。

第三方面，本发明实施例还提供一种目标对象识别装置，包括：

获取模块，用于根据第一目标对象的二维图像和第一目标对象的三维图像，分别通过第一神经网络和第二神经网络，得到第一特征信息和第二特征信息；所述获取模块还用于根据第二目标对象的二维图像和第二目标对象的三维图像，分别通过第一神经网络和第二神经网络，得到第三特征信息和第四特征信息；

合并模块，用于将所述第一特征信息和所述第二特征信息进行合并，得到第一对象特征；所述合并模块还用于将所述第三特征信息和所述第四特征信息进行合并，得到第二对象特征；

确定模块，用于根据所述第一对象特征和所述第二对象特征之间的特征距离，确定第一目标对象和第二目标对象是否为同一对象。

第四方面，本发明实施例还提供一种神经网络生成装置，包括：

获取模块，用于根据二维图像通过第一初始神经网络，得到第一特征向量；所述获取模块还用于根据所述二维图像对应的三维图像，通过第二初始神经网络，得到第二特征向量；

合并模块，用于将所述第一特征向量和所述第二特征向量进行合并，得到合并特征；

生成模块，用于根据多个合并特征之间的距离得到损失函数，并通过所述损失函数分别对所述第一初始神经网络和所述第二初始神经网络进行训练，生成第一神经网络和第二神经网络，其中，所述多个合并特征是基于多个二维图像，分别通过所述获取模块与所述合并模块所得到。

第五方面，本发明实施例还提供一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述如第一方面或第二方面所述的方法的步骤。

第六方面，本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行如第一方面或第二方面所述的方法。

本发明实施例提供的技术方案带来了以下有益效果：本发明实施例提供的目标对象识别方法及其神经网络生成方法以及装置。首先，根据第一目标对象的二维图像和第一目标对象的三维图像，分别通过第一神经网络和第二神经网络从而得到第一特征信息和第二特征信息，再者，根据第二目标对象的二维图像和第二目标对象的三维图像，分别通过第一神经网络和第二神经网络从而得到第三特征信息和第四特征信息，然后，将第一特征信息和第二特征信息进行合并从而得到第一对象特征，将第三特征信息和第四特征信息进行合并从而得到第二对象特征，之后，根据第一对象特征和第二对象特征之间的特征距离，确定第一目标对象和第二目标对象是否为同一对象。因此，通过第一神经网络和第二神经网络得到更加精确的特征信息，而且，在特征信息的获取过程中，不仅利用目标对象的二维图像，还充分利用了目标对象的三维图像，使合并后的对象特征信息更加全面且完整，从而更加贴合目标对象的现实情况，因此测得的两个目标对象之间的特征距离便能够更加精确，从而根据该特征距离判断出的对象一致性结果的准确率便得到了大幅度提高，从而解决了现有技术中存在的利用目前的Reid方法很容易识别出不准确甚至错误的对象结果的技术问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例一所提供的目标对象识别方法的流程图；

图2示出了本发明实施例二所提供的目标对象识别方法的流程图；

图3示出了本发明实施例三所提供的神经网络生成方法的流程图；

图4示出了本发明实施例四所提供的神经网络生成方法的流程图；

图5示出了本发明实施例五所提供的一种目标对象识别装置的结构示意图；

图6示出了本发明实施例六所提供的一种目标对象识别装置的结构示意图；

图7示出了本发明实施例七所提供的一种电子设备的结构示意图。

图标：1-目标对象识别装置；11-获取模块；12-合并模块；13-确定模块；2-神经网络生成装置；21-获取模块；22-合并模块；23-生成模块；4-电子设备；41-存储器；42-处理器；43-总线；44-通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，通常的Reid方法是利用一张拍到的行人图像进行检索，但某些情况下，二维的图像信息有限，无法较好较完整的描述整个人，更无法有效的进行行人重识别，因此，目前的Reid方法在某些情况下，识别出的对象并不准确，很容易识别出错误的对象结果。

基于此，本发明实施例提供的一种目标对象识别方法及其神经网络生成方法以及装置，可以解决现有技术中存在的利用目前的Reid方法很容易识别出不准确甚至错误的对象结果的技术问题。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种目标对象识别方法及其神经网络生成方法以及装置进行详细介绍。

实施例一：

本发明实施例提供的一种目标对象识别方法，如图1所示，该方法包括：

S11：根据第一目标对象的二维图像和第一目标对象的三维图像，分别通过第一神经网络和第二神经网络，得到第一特征信息和第二特征信息。

其中，目标对象不一定是人，也可以是动物、植物等其他可识别的对象，简单的说，只要是独立存在的物体都可以作为本实施例中的目标对象。作为一个优选方案，本实施例中的目标对象为人。

本步骤中，将第一目标对象的二维图像输入第一神经网络，从而得到第一特征信息；将第一目标对象的三维图像输入第二神经网络，从而得到第二特征信息。因此，第一特征信息与第二特征信息都属于第一目标对象的特征信息。

S12：根据第二目标对象的二维图像和第二目标对象的三维图像，分别通过第一神经网络和第二神经网络，得到第三特征信息和第四特征信息。

同样的，将第二目标对象的二维图像也输入第一神经网络，从而得到第三特征信息；将第二目标对象的三维图像也输入第二神经网络，从而得到第四特征信息。因此，第三特征信息与第四特征信息都属于第二目标对象的特征信息。

S13：将第一特征信息和第二特征信息进行合并，得到第一对象特征。

由于第一特征信息与第二特征信息都属于第一目标对象的特征信息，在将第一特征信息和第二特征信息进行合并后，便可得到第一目标对象的结合了二维图像与三维图形的综合特征，即第一对象特征。

S14：将第三特征信息和第四特征信息进行合并，得到第二对象特征。

由于第三特征信息与第四特征信息都属于第二目标对象的特征信息，在将第三特征信息和第四特征信息进行合并后，便可得到第二目标对象的结合了二维图像与三维图形的综合特征，即第二对象特征。

S15：根据第一对象特征和第二对象特征之间的特征距离，确定第一目标对象和第二目标对象是否为同一对象。

具体的，检测第一对象特征和第二对象特征之间的特征距离，并根据该特征距离来判断第一目标对象和第二目标对象是否为同一对象。例如，当该特征距离小于或等于某个阈值时，判断第一目标对象和第二目标对象为同一对象；当该特征距离大于某个阈值时，判断第一目标对象和第二目标对象不为同一对象。

现有的目标对象识别方法是基于一张目标对象的二维图像而进行检索、对比，从而得到识别结果，但是，二维的图像信息有限，无法较好较完整的描述整个目标对象，导致识别结果的准确度较低。

本实施例中，在进行目标对象的识别过程中，通过第一神经网络和第二神经网络得到更加精确的特征信息，而且，在特征信息的获取过程中，不仅利用目标对象的二维图像，还充分利用了目标对象的三维图像，将二维图像与三维图像的对象特征进行结合，使合并后的对象特征的信息更加全面且完整，从而更加贴合目标对象的现实情况，因此测得的两个目标对象之间的特征距离便能够更加精确，因此根据该特征距离判断出的对象一致性结果的准确率，能够得到大幅度提高。

实施例二：

本发明实施例提供的一种目标对象识别方法，如图2所示，包括：

S21：根据第一目标对象的二维图像通过三维重建算法，得到第一目标对象的三维图像。

作为本实施例的优选实施方式，其中的二维图像可以是通过普通摄像机或深度摄像机等图像采集装置获取到的动态视频、静态图片等。

需要说明的是，三维重建是指对三维物体建立适合计算机表示和处理的数学模型，是在计算机环境下对其进行处理、操作和分析其性质的基础，也是在计算机中建立表达客观世界的虚拟现实的关键技术。在计算机视觉中，三维重建是指根据单视图或者多视图的图像重建三维信息的过程。由于单视频的信息不完全，因此三维重建需要利用经验知识。而多视图的三维重建相对比较容易，其方法是先对摄像机进行标定，即计算出摄像机的图像坐标系与世界坐标系的关系，然后利用多个二维图像中的信息重建出三维信息。

其中，单视图可以是通过单目摄像头获取到的二维图像；多视图可以是通过双目摄像头获取到的二维图像，类似于人的双目定位。本实施例中，可以根据第一目标对象的单视图通过三维重建算法，得到第一目标对象的三维图像；也可以根据第一目标对象的多视图通过三维重建算法，得到第一目标对象的三维图像。

在实际应用中，三维重建算法的步骤可以为：首先，基于二维图像对目标对象进行姿势重建，即构建目标对象的三维形状模型；然后，对重建的模型进行一致形态评估；之后，根据评估结果生成目标对象的纹理，其中包括身体外形、头发、衣物和骨架等等；最后，根据纹理即可得到三维重建后的目标对象图像，同时，通过其中的三维图形还能够得到人像侧面的信息。

S22：根据第二目标对象的二维图像通过三维重建算法，得到第二目标对象的三维图像。

作为本实施例的优选实施方式，根据第二目标对象的二维图像通过步骤S21的方法，获取第二目标对象的三维图像。

S23：根据第一目标对象的二维图像和第一目标对象的三维图像，分别通过第一神经网络和第二神经网络，得到第一特征信息和第二特征信息。

本步骤中，将第一目标对象的二维图像输入第一神经网络，得到第一特征信息；将第一目标对象的三维图像输入第二神经网络，得到第二特征信息。因此，第一特征信息与第二特征信息都属于第一目标对象的特征信息。

其中，特征信息可以以特征向量、特征值或特征像素等形式来表示。作为一个优选方案，特征信息以特征向量的形式来表示，因此，本实施例以特征信息为特征向量为例进行说明。

当然，该特征向量不限于一个向量，也可以包括多个向量，即根据第一目标对象的二维图像和第一目标对象的三维图像，分别通过第一神经网络和第二神经网络，能够得到第一特征向量组和第二特征向组。

具体的，通过神经网络进行图像分析以及特征提取，从而得到能够表示目标对象特征的特征向量组，以实现通过向量的形式更好的表示出目标对象的特征。其中，在一个特征向量组中可以只有一个特征向量，也可以包括多个特征向量。当然，若干个特征向量可以为多种方向，以更好的符合目标对象的特征。本实施例以x轴、y轴的方向为例进行说明，例如，多种方向可以包括：向x轴正方向的向量，向y轴负方向的向量，向与x轴负向夹角为25°且与y轴正向夹角为65°方向的向量，等等，根据目标对象的图像特征能够得到各种方向的特征向量。

S24：根据第二目标对象的二维图像和第二目标对象的三维图像，分别通过第一神经网络和第二神经网络，得到第三特征信息和第四特征信息。

作为一个优选方案，根据第二目标对象的二维图像以及三维图像，通过步骤S23的方法获取第三特征信息和第四特征信息。同样的，在第二特征向量组中可以只有一个特征向量，也可以包括多个各种方向的特征向量。

S25：将第一特征信息和第二特征信息进行合并，得到第一对象特征。

本实施例中，合并的过程也可以为特征融合的过程。具体的，将第一特征信息和第二特征信息进行特征融合，从而得到特征融合结果，即第一对象特征。因此，该第一对象特征中包含了第一目标对象在二维图像以及三维图像中的所有特征。

本实施例以特征向量组为例进行说明，将基于二维图像而得到的第一特征向量组，与基于三维图像而得到的第二特征向量组，进行特征融合，从而得到包含了目标对象二维图像特征以及目标对象三维图像特征的融合向量，即第一对象特征。

其中，特征融合的方式可以有两种，在一种实现方式中，通过对应元素(element-wise)相乘法或element-wise相加法将第一特征向量组与第二特征向量组进行特征融合，得到融合向量组。其中，element-wise相乘或相加法指每个对应的元素相乘或相加。例如，特征向量(a1，a2，a3，a4，……)与特征向量(b1，b2，b3，b4，……)的element-wise乘法方式特征融合结果为：(a1×b1，a2×b2，a3×b3，a4×b4，……)，即a1与b1之间是对应元素，a2与b2之间是对应元素，a3与b3之间是对应元素，a4与b4之间是对应元素；特征向量(a1，a2，a3，a4，……)与特征向量(b1，b2，b3，b4，……)的element-wise加法方式特征融合结果为：(a1+b1，a2+b2，a3+b3，a4+b4，……)，即a1与b1之间是对应元素，a2与b2之间是对应元素，a3与b3之间是对应元素，a4与b4之间是对应元素。

在另一种实现方式中，通过数组连接法(concat)将第一特征向量组与第二特征向量组进行特征融合，得到融合向量组。其中，数组连接法(concat)用于连接两个或多个数组，该方法不会改变现有的数组，而仅仅会返回被连接数组的一个副本，即返回一个新的数组。该新的数组是通过把所有第二个数组参数添加到第一个数组中生成的。如果进行concat操作的参数是数组，那么添加的是数组中的元素，而不是数组。例如，将特征向量(a1，a2，a3，a4，……)与特征向量(b1，b2，b3，b4，……)进行concat法特征融合，则结果为：(a1，a2，a3，a4，……，b1，b2，b3，b4，……)。

S26：将第三特征信息和第四特征信息进行合并，得到第二对象特征。

作为一个优选方案，通过步骤S25的方法将第三特征信息和第四特征信息进行合并，得到第二目标对象的特征融合向量，即第二对象特征。

S27：判断第一对象特征和第二对象特征之间的特征距离是否大于预设值。如果是，则进行步骤S28；如果否，则进行步骤S29。

首先，测量第一目标对象的特征融合向量与第二目标对象的特征融合向量之间的距离，即为第一对象特征和第二对象特征之间的特征距离。然后，将该特征距离与预设距离(即预设值)进行对比，判断该特征距离是否大于预设距离。如果是，则进行步骤S28；如果否，则进行步骤S29。

S28：确定第一目标对象和第二目标对象不为同一对象。

当第一对象特征和第二对象特征之间的特征距离大于预设值时，通过判断确定第一目标对象和第二目标对象不为同一对象。

S29：确定第一目标对象和第二目标对象为同一对象。

当第一对象特征和第二对象特征之间的特征距离小于等于预设值时，通过判断确定第一目标对象和第二目标对象为同一对象。

因此，在第一对象特征和第二对象特征之间的特征距离足够大时，便可认为第一对象特征和第二对象特征是不同的两个对象；在第一对象特征和第二对象特征之间的特征距离足够小时，便可认为第一对象特征和第二对象特征是同一个对象，以此对比出各个目标对象，使目标对象的识别结果更加准确。

通过将三维重建应用到目标对象的识别中，能够对目标对象进行更加完整的视觉描述。本实施例中，利用重建之后的目标对象三维图像与二维图像相结合，使神经网络的目标对象识别过程更加全面，更加符合目标对象的现实情况，从而得出更加准确的目标对象识别结果。

在实际应用中，目标对象识别方法也可以作为行人重识别方法，利用行人三维图像进行行人重识别以及行人检索，从而构建了基于三维重建的行人重识别系统。因此，能够通过摄像头的多个角度进行三维重建，然后基于重建的人像再进行重识别，能够更加准确的描述整个人，进而更好的辅助刑侦工作。

作为本实施例的另一种实施方式，除了利用合并后的第一对象特征与第二对象特征之间的距离来判断目标对象情况，还可以同时结合第一特征信息与三特征信息之间的距离，和/或，第二特征信息与四特征信息之间的距离，来确定第一目标对象与第二目标对象是否为同一对象，能够使识别的依据更加全面、完整、可靠，使识别结果更加贴合目标对象现实情景，从而更加贴近目标对象的实际情况。

实施例三：

本发明实施例提供的神经网络生成方法，用于生成上述实施例一或施例二提供中的第一神经网络和第二神经网络，如图3所示，神经网络生成方法包括：

S31：根据二维图像通过第一初始神经网络，得到第一特征数据。

具体的，将带有目标对象的二维图像输入第一初始神经网络，通过神经网络的图像分析、特征提取等过程，得到第一特征数据。

S32：根据二维图像对应的三维图像，通过第二初始神经网络，得到第二特征数据。

具体的，将步骤S31中的二维图像所对应的三维图像输入第二初始神经网络，通过神经网络的图像分析、特征提取等过程，得到第二特征数据。

需要说明的是，本实施例中的第一初始神经网络、第二初始神经网络等初始卷积神经网络可以为现有技术中常用的图像识别神经网络等卷积神经网络(ConvolutionalNeural Network，简称CNN)，卷积神经网络是目前图像识别、视频分析中常用的一种网络，由若干层卷积、池化、全连接等构成。该初始卷积神经网络的参数可以由多层卷积神经网络构成，也可以使用已经训练好的基础模型初始化，如：GoogleNet、VGG、ResNet等网络结构。需要说明的是，卷积神经网络是一种深度前馈人工神经网络，人工神经元可以响应周围单元，应用于图像识别，可以进行大型图像处理。

其中，第一初始神经网络与第二初始神经网络的参数可以相同，也可以不同。当然，第一初始神经网络与第二初始神经网络也可以为一个初始神经网络的两个分支。

S33：将第一特征数据和第二特征数据进行合并，得到合并特征。

作为本实施例的优选实施方式，该合并的过程可以与实施例二中步骤S25的合并过程相同。

本实施例中，基于多个二维图像，分别执行上述步骤S31至S33，从而得到多个合并特征。

S34：根据多个合并特征之间的距离得到损失函数，并通过损失函数分别对第一初始神经网络和第二初始神经网络进行训练，生成第一神经网络和第二神经网络。

本步骤中，通过调整上述多个合并特征之间的距离而得到损失函数(loss)，再利用该损失函数分别对第一初始神经网络和第二初始神经网络进行训练学习，分别生成第一神经网络和第二神经网络。

需要说明的是，在神经网络的训练学习过程中，每一次训练得到的损失函数值(即损失函数)，将对下次的训练过程进行调整，从而通过一次次调整的训练学习过程，逐渐形成第一神经网络和第二神经网络，以使第一神经网络和第二神经网络的识别结果，更加符合对象在二维图像以及三维图像中的特性，从而使识别结果的准确率更高。

实施例四：

本发明实施例提供的神经网络生成方法，用于生成上述实施例一或施例二提供中的第一神经网络和第二神经网络，如图4所示，神经网络生成方法包括：

S41：根据二维图像通过第一初始神经网络，得到第一特征数据。

其中，特征数据可以以特征向量、特征值或特征像素等形式来表示。作为一个优选方案，特征数据以特征向量的形式来表示，因此，本实施例以特征数据为特征向量为例进行说明。

S42：根据二维图像对应的三维图像，通过第二初始神经网络，得到第二特征数据。

其中，三维图像可以通过实施例二的步骤S21中的三维重建算法来获取。因此，本步骤中，可以根据步骤S41中的二维图像，通过三维重建算法得到该二维图像所对应的三维图像。

S43：将第一特征数据和第二特征数据进行合并，得到合并特征。

作为一个优选方案该合并的过程可以与实施例二中步骤S25的合并过程相同。

本实施例中，基于多个二维图像，分别执行上述步骤S41至S43，得到多个合并特征，即合并向量。

需要说的是，上述多个二维图像作为网络训练素材的原始图像，其中可以包括同一个目标对象的不同二维图像，也可以包括不同目标对象的二维图像，其数量可以根据实际情况而设定。例如，可以选取32个人作为训练素材对象，其中，每个人选取4个不同的二维图像，即一共选取128个二维图像作为训练素材的原始图像，即128个步骤S41中的二维图像。在实际应用中，可以给32个不同的人照相，每个人照4次，最终得到128张内容不完全相同的照片。

本实施例以3个人且每人选取2个图像为例进行说明，即训练素材的原始图像为对象A的两个二维图像A1与A2、对象B的两个二维图像B1与B2、对象C的两个二维图像C1与C2。首先，根据这8个图像，分别通过第一初始神经网络，分别得到8个第一特征向量，即第一特征数据；然后，根据这8个图像对应的三维图像，分别通过第二初始神经网络，分别得到8个第二特征向量，即第二特征数据；之后，将A1的第一特征向量与A1的第二特征向量进行合并从而得到A1的合并向量，将A2的第一特征向量与A2的第二特征向量进行合并从而得到A2的合并向量，将B1的第一特征向量与B1的第二特征向量进行合并从而得到B1的合并向量，将B2的第一特征向量与B2的第二特征向量进行合并从而得到B2的合并向量，将C1的第一特征向量与C1的第二特征向量进行合并从而得到C1的合并向量，将C2的第一特征向量与C2的第二特征向量进行合并从而得到C2的合并向量。因此，基于6个二维图像，分别执行上述步骤S41至S43，能够得到6个合并向量。

S44：对于属于相同对象的多个二维图像，通过拉近相应的多个合并数据之间的距离得到损失函数。

本实施例中，对于同属于对象A的两个二维图像即A1与A2，通过拉近A1的合并向量与A2的合并向量之间的距离得到第一损失函数；对于同属于对象B的两个二维图像即B1与B2，通过拉近B1的合并向量与B2的合并向量之间的距离得到第一损失函数；对于同属于对象C的两个二维图像即C1与C2，通过拉近C1的合并向量与C2的合并向量之间的距离得到第一损失函数。

作为一个优选方案，先检测各个合并向量之间的距离，其中，各个合并向量之间的距离为标量，仅表示向量之间的距离值，可以通过将两个向量相减后再求绝对值的算法计算出该距离值。然后，在属于相同对象的多个二维图像情况时，对其中距离大于等于某个预设阈值的两个合并向量之间的距离，或是其中距离最远的两个合并向量之间的距离，通过对其进行拉近从而得到第一损失函数。

S45：对于属于不同对象的多个二维图像，通过拉远相应的多个合并数据之间的距离得到损失函数。

本实施例中，对于属于不同对象的多个二维图像，即A、B、C三个不同对象的图像之间，通过拉远A、B、C相应的合并向量之间的距离得到第二损失函数。具体的，在A1、A2、B1、B2、C1、C2之间，除了A1与A2之间、B1与B2之间以及C1与C2之间，其他各自的合并向量之间，都可以通过拉远二者的距离而得到第二损失函数。例如，通过拉远A1的合并向量与B2的合并向量之间的距离得到第二损失函数；通过拉远A1的合并向量与C1的合并向量之间的距离得到第二损失函数；通过拉远B1的合并向量与C2的合并向量之间的距离得到第二损失函数，等等有多种选择。

作为一个优选方案，先检测各个合并向量之间的距离，其中，各个合并向量之间的距离为标量，仅表示向量之间的距离值，可以通过将两个向量相减后再求绝对值的算法计算出该距离值。然后，在属于不同对象的多个二维图像情况时，对其中距离小于某个预设阈值的两个合并向量之间的距离，或是其中距离最近的两个合并向量之间的距离，通过对其进行拉远从而得到第二损失函数。

因此，通过拉近相应的多个合并数据之间的距离得到第一损失函数，通过拉远相应的多个合并数据之间的距离得到第二损失函数，第一损失函数与第二损失函数共同构成损失函数，其中，共同构成的损失函数是通过调整(包括拉近和/或拉远)相应的多个合并特征之间距离而得到。

S46：通过损失函数分别对第一初始神经网络和第二初始神经网络进行训练，生成第一神经网络和第二神经网络。

基于步骤S44与步骤S45的优选实施方式，通过第一损失函数与第二损失函数，共同对第一初始神经网络进行训练，进而生成第一神经网络；再者，通过第一损失函数与第二损失函数，共同对第二初始神经网络进行训练，进而生成第二神经网络。

在第一神经网络、第二神经网络等神经网络的训练生成过程中，自适应的学习目标对象的图像分析以及特征提取过程。通过损失函数(包括第一损失函数与第二损失函数)的一次次调整，能够在两个图像中的目标对象相同时(即两个图像为A1与A2、或B1与B2、或C1与C2的情况)，使神经网络识别出的两个图像的特征向量之间的距离，趋向于不断的接近，即通过多次训练，使最终生成的神经网络识别出的这两个图像的特征向量之间的距离，足够的近；通过损失函数的一次次调整，能够在两个图像中的目标对象不同时(即两个图像为A1与B2、B1与C1或C2与A1等情况)，使神经网络识别出的两个图像的特征向量之间的距离，趋向于不断的拉远，即通过多次训练，使最终生成的神经网络识别出的这两个图像的特征向量之间的距离，足够的远。

作为本实施例的另一种实施方式，可以再引入一个分类神经网络的训练过程，通过该分类神经网络的训练过程，能够得到第三损失函数，再通过第一损失函数、第二损失函数以及第三损失函数，共同对第一初始神经网络进行训练从而生成第一神经网络，以及共同对第二初始神经网络进行训练从而生成第二神经网络，以及共同对第三初始神经网络进行训练从而生成分类神经网络。

进一步，将多个合并特征输入至第三初始神经网络中进行训练，从而得到相同对象的分类结果；然后，根据之前的多个合并特征之间的距离以及该分类结果得到总损失函数，利用这个总损失函数分别对第一初始神经网络、第二初始神经网络以及第三初始神经网络进行训练，生成第一神经网络、第二神经网络以及分类神经网络。

具体的，通过初始的分类神经网络(即第三初始神经网络)，得到相同对象的分类结果，即同一个对象的所有二维图像与三维图像会被分到同一类，例如A1与A2被分为一类，B1与B2被分为另一类，且该分类结果是通过对所有对象进行上述方式分类而得到的分类结果；基于分类结果得到第三损失函数，利用第一损失函数、第二损失函数以及第三损失函数，共同对第一初始神经网络、第二初始神经网络以及第三初始神经网络进行训练，生成第一神经网络、第二神经网络以及分类神经网络。更具体的，基于相同对象的分类结果，根据多个合并特征之间的距离所表示的各个分类之间的误差，得到第三损失函数。然后，利用第一损失函数、第二损失函数以及第三损失函数共同形成总损失函数，总损失函数分别对第一初始神经网络、第二初始神经网络以及第三初始神经网络进行训练，生成第一神经网络、第二神经网络以及分类神经网络。其中，对第一初始神经网络、第二初始神经网络以及第三初始神经网络进行训练的总损失函数，为第一损失函数、第二损失函数以及第三损失函数的损失函数值加权，即总的损失函数。

因此，在第一损失函数、第二损失函数的基础上，再加上第三损失函数，能够通过更多的损失函数使第一神经网络和第二神经网络的生成过程效率更高，且生成的第一神经网络和第二神经网络的效果更加精确。

实施例五：

本发明实施例提供的一种目标对象识别装置，如图5所示，目标对象识别装置1包括：获取模块11、合并模块12以及确定模块13。

在实际应用中，获取模块用于根据第一目标对象的二维图像和第一目标对象的三维图像，分别通过第一神经网络和第二神经网络，得到第一特征信息和第二特征信息。获取模块还用于根据第二目标对象的二维图像和第二目标对象的三维图像，分别通过第一神经网络和第二神经网络，得到第三特征信息和第四特征信息。

进一步的是，合并模块用于将第一特征信息和第二特征信息进行合并，得到第一对象特征。合并模块还用于将第三特征信息和第四特征信息进行合并，得到第二对象特征。此外，确定模块用于根据第一对象特征和第二对象特征之间的特征距离，确定第一目标对象和第二目标对象是否为同一对象。

本发明实施例提供的目标对象识别装置，与上述实施例提供的目标对象识别方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

实施例六：

本发明实施例提供的一种神经网络生成装置，如图6所示，神经网络生成装置2包括：获取模块21、合并模块22以及生成模块23。

其中，获取模块用于根据二维图像通过第一初始神经网络，得到第一特征向量。获取模块还用于根据二维图像对应的三维图像，通过第二初始神经网络，得到第二特征向量。此外，合并模块用于将第一特征向量和第二特征向量进行合并，得到合并特征。

进一步，生成模块用于根据多个合并特征之间的距离得到损失函数，并通过损失函数分别对第一初始神经网络和第二初始神经网络进行训练，生成第一神经网络和第二神经网络，其中，多个合并特征是基于多个二维图像，分别通过获取模块与合并模块所得到。

本发明实施例提供的神经网络生成装置，与上述实施例提供的神经网络生成方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

实施例七：

本发明实施例提供的一种电子设备，如图7所示，电子设备4包括存储器41、处理器42，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例一、实施例二、实施例三或实施例四提供的方法的步骤。

参见图7，电子设备还包括：总线43和通信接口44，处理器42、通信接口44和存储器41通过总线43连接；处理器42用于执行存储器41中存储的可执行模块，例如计算机程序。

其中，存储器41可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口44(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线43可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器41用于存储程序，所述处理器42在接收到执行指令后，执行所述程序，前述本发明任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器42中，或者由处理器42实现。

处理器42可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器42中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器42可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41，处理器42读取存储器41中的信息，结合其硬件完成上述方法的步骤。

实施例八：

本发明实施例提供的一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述实施例一、实施例二、实施例三或实施例四提供的方法。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本发明实施例提供的具有处理器可执行的非易失的程序代码的计算机可读介质，与上述实施例提供的目标对象识别方法、神经网络生成方法、目标对象识别装置、神经网络生成装置以及电子设备具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明实施例所提供的进行目标对象识别方法以及神经网络生成方法的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种目标对象识别方法，其特征在于，包括：

2.根据权利要求1所述的目标对象识别方法，其特征在于，还包括：

3.根据权利要求1所述的目标对象识别方法，其特征在于，所述根据所述第一对象特征和所述第二对象特征之间的特征距离，确定第一目标对象和第二目标对象是否为同一对象，包括：

4.一种神经网络生成方法，其特征在于，用于生成如权利要求1-3任一项中所述的第一神经网络和第二神经网络，所述神经网络生成方法包括：

根据二维图像通过第一初始神经网络，得到第一特征向量；

5.根据权利要求4所述的神经网络生成方法，其特征在于，所述根据所述多个合并特征之间的距离得到损失函数，包括：

6.根据权利要求4所述的神经网络生成方法，其特征在于，还包括：

7.一种目标对象识别装置，其特征在于，包括：

8.一种神经网络生成装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法的步骤。

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1至6任一所述方法。