CN109697389B

CN109697389B - 身份识别方法与装置

Info

Publication number: CN109697389B
Application number: CN201710994597.XA
Authority: CN
Inventors: 张爱喜; 叶韵; 陈宇; 翁志
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2021-10-01
Anticipated expiration: 2037-10-23
Also published as: CN109697389A

Abstract

本公开提供一种基于图像的身份识别方法与装置。身份识别方法包括：获取多个训练样本不同拍摄视角的多张图片，对每张所述图片标注拍摄视角；根据所述多张图片及其拍摄视角获取包括多张拟合的视角转换图片的第一数据集；根据所述第一数据集以及所述多张图片生成第二数据集；使用所述第二数据集训练身份识别模型；通过所述身份识别模型识别被测对象多个拍摄视角的图片。本公开提供的身份识别方法可以识别不同拍摄视角下的同一对象。

Description

身份识别方法与装置

技术领域

本公开涉及图像识别技术领域，具体而言，涉及一种身份识别方法与装置。

背景技术

身份识别(person re-identification)是近年来人工智能发展的重要领域。现有的身份识别技术方案往往是将经过行人检测后的多个摄像头拍摄的视频帧作为训练数据，训练基于深度卷积神经网络的图像分类算法(Image Classification)模型，或者训练基于深度卷积神经网络的度量学习算法模型，如Triplet模型，然后通过模型提取被测图像的顶层特征，将多个顶层特征中特征距离最近的被测对象识别为同一身份。

在现有的身份识别技术方案中，对多个摄像头的拍摄帧的检测结果一视同仁，统一对待。但在，在真实的多个摄像头给出的训练数据中，即便多个被测图片是不同身份被测人员在相同视角的拍摄样本，其特征距离也比多个相同身份被测人员在不同视角的拍摄样本要近，影响身份识别结果的准确度。另外，由于摄像头个数限制和行人在摄像头下时间限制，每个行人的样本数量都比较有限，因此如何在有限的图像条件下更加准确地对行人进行身份识别，是本领域急需解决的技术问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种身份识别方法与身份识别装置，用于解决来自不同相机源下的被测行人图片因为拍摄视角不同而造成的相同身份难以匹配的问题。

根据本公开实施例的第一方面，提供一种身份识别方法，包括：获取多个训练样本不同拍摄视角的多张图片，对每张所述图片标注拍摄视角；

根据所述多张图片及其拍摄视角获取包括多张拟合的视角转换图片的第一数据集；

根据所述第一数据集以及所述多张图片生成第二数据集；

使用所述第二数据集训练身份识别模型；

通过所述身份识别模型识别被测对象多个拍摄视角的图片。

在本公开的一种示例性实施例中，所述获取多个训练样本不同拍摄视角的多张图片，对每张所述图片标注拍摄视角包括：

使用原始视频帧训练检测模型，以输出具有人身图像的所述多张图片；

对所述多张图片中的所述人身图像进行抠图；

通过视角识别模型识别抠图后的人身图像的拍摄视角，并对所述图片标注其被识别的所述拍摄视角。

在本公开的一种示例性实施例中，根据所述多张图片及其拍摄视角获取包括多张拟合的视角转换图片的第一数据集包括：

根据所述拍摄视角将同一训练样本的多张图片两两配对，获取多组训练视角；

根据所述多组训练视角，使用所述多张图片训练图像生成模型，拟合生成具有对应所述多组训练视角的多张视角转换图片；

根据所述多张视角转换图片获取所述第一数据集。

在本公开的一种示例性实施例中，所述图像生成模型包括Pix2Pix模型。

在本公开的一种示例性实施例中，所述通过所述身份识别模型识别被测对象多个拍摄视角的图片包括：

通过所述身份识别模型提取具有人身图像的被测图片的顶层特征；

将多个所述顶层特征中特征距离小于预设值的图片识别为同一被测对象多个拍摄视角的图片。

根据本公开实施例的第二方面，提供一种身份识别装置，包括：

数据标注模块，设置为获取多个训练样本不同拍摄视角的多张图片，对每张所述图片标注拍摄视角；

视角转换模块，设置为根据所述多张图片及其拍摄视角获取包括多张拟合的视角转换图片的第一数据集；

数据拟合模块，设置为根据所述第一数据集以及所述多张图片生成第二数据集；

模型训练模块，设置为使用所述第二数据集训练身份识别模型；

身份识别模块，设置为通过所述身份识别模型识别被测对象多个拍摄视角的图片。

在本公开的一种示例性实施例中，所述数据标注模块包括：

截图单元，设置为使用原始视频帧训练检测模型，以输出具有人身图像的所述多张图片；

抠图单元，设置为对所述多张图片中的所述人身图像进行抠图；

视角识别单元，设置为通过视角识别模型识别抠图后的人身图像的拍摄视角，并对所述图片标注其被识别的所述拍摄视角。

在本公开的一种示例性实施例中，所述视角转换模块包括：

训练视角获取单元，设置为根据所述拍摄视角将同一训练样本的多张图片两两配对，获取多组训练视角；

模型训练单元，设置为根据所述多组训练视角，使用所述多张图片训练图像生成模型，生成具有对应所述多组训练视角的多张视角转换图片；

图像集合单元，设置为根据所述多张视角转换图片获取所述第一数据集。

在本公开的一种示例性实施例中，所述通身份识别模块包括：

特征提取单元，设置为通过所述身份识别模型提取具有人身图像的被测图片的顶层特征；

特征距离计算单元，设置为将多个所述顶层特征中特征距离小于预设值的图片识别为同一被测对象多个拍摄视角的图片。

根据本公开的第三方面，提供一种身份识别装置，包括：存储器；以及耦合到所属存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上述任意一项所述的方法。

根据本公开的第四方面，提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如上述任意一项所述的身份识别方法。

本公开通过对被测对象不同拍摄视角的图片进行视角标注，并将标注后的图片输入Pix2Pix模型，拟合生成视角转换图片，使用拟合后的图片数据以及原图片训练身份识别模型，实现了对同一对象不同拍摄视角图片之间的特征空间的填充，从而可以使被训练的身份识别模型具有更高的识别精度，可以识别出来自不同相机源的不同拍摄视角的相同身份的行人。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中身份识别方法的流程图。

图2示意性示出本公开示例性实施例中身份识别方法的一种流程图。

图3示意性示出本公开示例性实施例中身份识别方法的一种流程图。

图4示意性示出本公开一个示例性实施例中生成拟合图片的示意图。

图5示意性示出本公开身份识别方法的效果示意图。

图6示意性示出本公开一个示例性实施例中一种身份识别装置的方框图。

图7示意性示出本公开一个示例性实施例中另一种身份识别装置的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

下面结合附图对本公开示例实施方式进行详细说明。

图1示意性示出本公开示例性实施例中身份识别方法的流程图。参考图1，身份识别方法100可以包括：

步骤S102，获取多个训练样本不同拍摄视角的多张图片，对每张所述图片标注拍摄视角；

步骤S104，根据所述多张图片及其拍摄视角获取包括多张拟合的视角转换图片的第一数据集；

步骤S106，根据所述第一数据集以及所述多张图片生成第二数据集；

步骤S108，使用所述第二数据集训练身份识别模型；

步骤S110，通过所述身份识别模型识别被测对象多个拍摄视角的图片。

下面，对身份识别方法100的各步骤进行详细说明。

在步骤S102，获取多个训练样本不同拍摄视角的多张图片，对每张所述图片标注拍摄视角；

图2示意性示出了本公开实施例中对图片标注拍摄视角的流程图。参考图2，所述获取多个训练样本不同拍摄视角的多张图片，对每张所述图片标注拍摄视角包括：

步骤S1022，使用原始视频帧训练检测模型，以输出具有人身图像的所述多张图片。

步骤S1024，对所述多张图片中的所述人身图像进行抠图。

步骤S1026，通过视角识别模型识别抠图后的人身图像的拍摄视角，并对所述图片标注其被识别的所述拍摄视角。

示例性而言，可以用多个摄像头拍摄的行人视频帧训练基于深度卷积神经网络的检测模型如SSD(Single Shot MultiBox Detector，单点多箱检测模型)等，并对模型输出的视频帧截取检测结果进行抠图，将抠图结果作为身份识别的训练数据。

在对上述训练数据进行视角标注时，可以使用人工或者经过训练的简单四分类模型进行标注，获得所有训练数据的视角标签。在一些实施例中，视角标签可以包括前向(Front)、后向(Back)、左向(Left)和右向(Right)等四个方向。在其他一些实施例中，视角标签也可以根据实际需求设置，例如八个不同方向，本公开对此不作特殊限定。

图3示意性示出了本公开实施例中获取第一数据集的流程图。参考图3，步骤S104包括：

步骤S1042，根据所述拍摄视角将同一训练样本的多张图片两两配对，获取多组训练视角。

步骤S1044，根据所述多组训练视角，使用所述多张图片训练图像生成模型，拟合生成具有对应所述多组训练视角的多张视角转换图片。

步骤S1046，根据所述多张视角转换图片获取所述第一数据集。

将上述训练数据根据视角标签两两配对，可以得到6种配对方案：Front-Back，Front-Left，Front-Right，Back-Left，Back-Right，Left-Right。考虑包含正反方向，得到12种视角生成模型的训练数据。以上述12种视角为条件，使用上述训练数据训练图像生成模型，可以获得模型输出的视角转换的生成数据，例如根据Front样本以及Back样本生成特征值介于Front样本与Back样本之间的图片。

示例性而言，可以将上述训练数据根据视角标签作为训练数据输入图像生成模型，输出身份对应而视角不同的拟合数据。生成的图片数据为输入图片的数据经过拟合后的数据，其特征值介于一组输入图片的特征值之间，即生成了多张特征值介于输入图片的特征值之间的图片，输入图片的特征值之间的特征空间得到了填充。

参考图4，生成拟合图片还可以包括根据相同身份的行人的Front拍摄视角图片数据生成Left拍摄视角图片以及根据Left拍摄视角图片数据生成Front拍摄视角图片。

Pix2Pix是一个基于GAN(Generative Adversarial Net，生成式对抗网络)的算法。通过输入两个数据集的配对样本对Pix2Pix模型进行训练，可以获得两个数据集的风格的任意转换。GAN包含一个生成模型(generative model G)和一个判别模型(discriminative model D)。G捕捉样本数据的分布，D是一个二分类器，判别输入是真实数据还是生成的样本。训练时固定一方，更新另一个模型的参数，交替迭代，使得对方的错误最大化，最终，G能估测出样本数据的分布，从而产生拟合样本。

使用上述拟合数据与上述训练数据构成新的训练数据集，即第二数据集。

步骤S108，使用所述第二数据集训练身份识别模型；

在本公开的一种示例性实施例中，身份识别模型可以为基于分类网络的模型或者Triplet网络模型。

可以使用被训练后的模型对测试集每个样本提取模型顶层特征，构成样本特征库。对每个测试案例，搜索特征库中特征距离最近的样本，即可为该案例预测相同身份行人。

图5示意性示出本公开身份识别方法的效果对比图。

参考图5，在没有拟合图片数据的情况下，如浅色线圈出结果，相同视角不同身份的样例更易被判断为相同对象，即使通过深度学习的训练也很难消除视角差异性带来的特征差异。通过Conditional Pix2Pix补充的拟合图片数据，在特征空间分布上，填充两个拍摄视角样例之间的特征空间，且生成的拟合图片与原图片具有相同的身份标签。因此训练身份再识别模型时，相同身份的样例在特征空间上聚类更紧凑，也更容易向更紧凑的方向收敛，如深色线圈出的结果所示。

本公开提供的身份识别方法，针对多摄像头拍摄的相同行人视角不同的特点，通过对身份识别训练数据进行视角标注和配对，利用视角匹配数据训练ConditionalPix2Pix以生成不同视角的拟合数据，并利用Pix2Pix产生的拟合数据融合原始训练数据训练身份识别模型，填充了不同拍摄视角之间的特征空间，缓解了行人视角不同导致的同一身份难识别问题。

本方案带来的性能改进可以帮助多个场景，例如在无人商店中判断顾客身份，根据街道监控摄像头拍摄的视频查找嫌疑犯身影，获取银行ATM摄像头拍摄的视频以实现针对犯罪事件的事后分析等。

对应于上述方法实施例，本公开还提供一种身份识别装置，可以用于执行上述方法实施例。

参考图6，身份识别装置600可以包括：

数据标注模块602，设置为获取多个训练样本不同拍摄视角的多张图片，对每张所述图片标注拍摄视角；

视角转换模块604，设置为根据所述多张图片及其拍摄视角获取包括多张拟合的视角转换图片的第一数据集；

数据拟合模块606，设置为根据所述第一数据集以及所述多张图片生成第二数据集；

模型训练模块608，设置为使用所述第二数据集训练身份识别模型；

身份识别模块610，设置为通过所述身份识别模型识别被测对象多个拍摄视角的图片。

由于装置600的各功能已在其对应的方法实施例中予以详细说明，本公开于此不再赘述。

根据本公开的一个方面，提供一种身份识别装置，包括：存储器；以及耦合到所属存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上述任意一项所述的方法。

该实施例中的装置的处理器执行操作的具体方式已经在有关该身份识别方法的实施例中执行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种装置700的框图。装置700可以是智能手机、平板电脑等移动终端。

参照图7，装置700可以包括以下一个或多个组件：处理组件702，存储器704，电源组件706，多媒体组件708，音频组件710，传感器组件714以及通信组件716。

处理组件702通常控制装置700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作以及记录操作相关联的操作等。处理组件702可以包括一个或多个处理器718来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理组件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在装置700的操作。这些数据的示例包括用于在装置700上操作的任何应用程序或方法的指令。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器704中还存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器718执行，以完成上述任一所示方法中的全部或者部分步骤。

电源组件706为装置700的各种组件提供电力。电源组件706可以包括电源管理系统，一个或多个电源，及其他与为装置700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述装置700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当装置700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

传感器组件714包括一个或多个传感器，用于为装置700提供各个方面的状态评估。例如，传感器组件714可以检测到装置700的打开/关闭状态，组件的相对定位，传感器组件714还可以检测装置700或装置700一个组件的位置改变以及装置700的温度变化。在一些实施例中，该传感器组件714还可以包括磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于装置700和其他设备之间有线或无线方式的通信。装置700可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件716还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在本公开的一种示例性实施例中，还提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如上述任意一项所述的身份识别方法。该计算机可读存储介质例如可以为包括指令的临时性和非临时性计算机可读存储介质。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和构思由权利要求指出。

Claims

1.一种基于图像的身份识别方法，其特征在于，包括：

获取多个训练样本不同拍摄视角的多张图片，对每张所述图片标注拍摄视角；

根据所述第一数据集以及所述多张图片生成第二数据集；

使用所述第二数据集训练身份识别模型；

通过所述身份识别模型识别被测对象多个拍摄视角的图片；

其中，根据所述多张图片及其拍摄视角获取包括多张拟合的视角转换图片的第一数据集包括：

根据所述多组训练视角，使用所述多张图片训练图像生成模型，拟合生成具有对应所述多组训练视角的多张视角转换图片，其中，所述多张视角转换图片包括多张特征值介于输入图片的特征值之间的图片；

根据所述多张视角转换图片获取所述第一数据集。

2.如权利要求1所述的身份识别方法，其特征在于，所述获取多个训练样本不同拍摄视角的多张图片，对每张所述图片标注拍摄视角包括：

对所述多张图片中的所述人身图像进行抠图；

3.如权利要求1所述的身份识别方法，其特征在于，所述通过所述身份识别模型识别被测对象多个拍摄视角的图片包括：

4.一种基于图像的身份识别装置，其特征在于，包括：

身份识别模块，设置为通过所述身份识别模型识别被测对象多个拍摄视角的图片；

其中，所述视角转换模块包括：

模型训练单元，设置为根据所述多组训练视角，使用所述多张图片训练图像生成模型，拟合生成具有对应所述多组训练视角的多张视角转换图片，其中，所述多张视角转换图片包括多张特征值介于输入图片的特征值之间的图片；

5.如权利要求4所述的装置，其特征在于，所述数据标注模块包括：

6.如权利要求4所述的装置，其特征在于，所述身份识别模块包括：

7.一种身份识别装置，其特征在于，包括：

存储器；以及

耦合到所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1-3任一项所述的身份识别方法。

8.一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如权利要求1-3任一项所述的身份识别方法。