CN111881826A

CN111881826A - 跨模态行人重识别方法、装置、电子设备及存储介质

Info

Publication number: CN111881826A
Application number: CN202010737849.2A
Authority: CN
Inventors: 张�浩; 李一力; 邵新庆; 刘强; 徐�明
Original assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Current assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-11-03

Abstract

本发明公开了一种跨模态行人重识别方法、装置、电子设备及存储介质，包括：获取含有行人的图像信息；将含有行人的图像信息输入预先训练的神经网络中，得到行人的特征向量；预先训练的神经网络包括至少两个子神经网络，每个所述子神经网络对应输入不同模态含有行人的图像信息；基于行人的特征向量对图像信息中的行人进行重识别。由于神经网络在训练阶段基于不同模态含有行人的图像信息进行训练，使得训练得到的神经网络能够提高不同模态相同行人的图像的特征向量的相似度，以提高跨模态行人重识别的精度。

Description

跨模态行人重识别方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种跨模态行人重识别方法、装置、电子设备及存储介质。

背景技术

行人重识别是指根据所获取的行人图像，在不同拍摄设备所拍摄的图像中检索该行人图像中的行人，跨模态行人重识别则是指在不同模态的图像中检索行人图像中的行人，例如RGB图像和红外图像为不同模态的图像，这样在RGB图像和红外图像中同时进行检索的方式即为跨模态行人重识别。

现有技术在进行行人重识别时，一般是用神经网络模型提取行人的特征向量，然后比较行人的特征向量之间的相似度，将最相似的特征向量对应的图像作为检索结果。然而，按照现有方式训练得来的神经网络模型无法提高不同模态相同行人的图像的特征向量的相似度，即无法提高类内跨模态特征向量相似度，因此导致跨模态行人重识别的精度较差。

发明内容

本发明主要解决的技术问题是如何提高跨模态行人重识别的精度。

根据第一方面，一种实施例中提供一种跨模态行人重识别方法，包括：

获取含有行人的图像信息；

将所述含有行人的图像信息输入预先训练的神经网络中，得到行人的特征向量；所述预先训练的神经网络包括至少两个子神经网络，每个所述子神经网络对应输入含有行人的不同模态图像信息；

基于所述行人的特征向量对图像信息中的行人进行重识别。

进一步地，所述预先训练的神经网络通过以下方式训练得到：

构建神经网络；

获取多模态训练图像数据集，所述多模态训练图像数据集包括至少两个模态的图像信息，所述至少两个模态的图像信息含有相同行人；

将所述多模态训练图像数据集输入所述神经网络中进行训练，其中每个模态的图像信息输入对应的所述子神经网络中。

进一步地，所述将所述多模态训练图像数据集输入所述神经网络中进行训练包括：

将所述多模态训练图像数据集中每个模态的图像信息输入对应的所述子神经网络中，得到至少两个行人的特征向量；所述每个模态的图像信息包含有相同行人；

将所述至少两个行人的特征向量拼接为一个特征向量，计算该特征向量的交叉熵损失值、中心损失值和异质中心损失值；

基于所述特征向量的交叉熵损失值、中心损失值和异质中心损失值，确定所述神经网络的损失值，再基于所述神经网络的损失值，调节所述神经网络的网络参数；

重复将所述多模态训练图像数据集中每个模态的图像信息输入对应的子神经网络中，基于所述神经网络的损失值调节所述神经网络的网络参数，直至所述神经网络的损失值稳定且不再变小为止。

进一步地，所述基于所述特征向量的交叉熵损失值、中心损失值和异质中心损失值，确定所述神经网络的损失值包括：

通过以下公式确定所述神经网络的损失值：

L＝Lce+λ1*Lcenter+λ2*Lhc

其中，L为神经网络的损失值，Lce为交叉熵损失值，Lcenter为中心损失值，Lhc为异质中心损失值，λ1和λ2为系数。

根据第二方面，一种实施例中提供一种跨模态行人重识别装置，包括：

图像获取模块，用于获取含有行人的图像信息；

特征提取模块，用于将所述含有行人的图像信息输入预先训练的神经网络中，得到行人的特征向量；其中，所述预先训练的神经网络包括至少两个子神经网络，每个所述子神经网络对应输入含有行人的不同模态图像信息；

行人重识别模块，用于基于所述行人的特征向量对图像信息中的行人进行重识别。

构建神经网络；

通过以下公式确定所述神经网络的损失值：

L＝Lce+λ1*Lcenter+λ2*Lhc

根据第三方面，一种实施例提供一种电子设备，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现上述实施例所述的方法。

根据第四方面，一种实施例提供一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现上述实施例所述的方法。

依据上述实施例的跨模态行人重识别方法、装置、电子设备及存储介质，由于神经网络在训练阶段基于不同模态含有行人的图像信息进行训练，使得训练得到的神经网络能够提高不同模态相同行人的图像的特征向量的相似度，以提高跨模态行人重识别的精度。

附图说明

图1为一种实施例的跨模态行人重识别方法的流程图；

图2为一种实施例的神经网络结构示意图；

图3为一种实施例的跨模态行人重识别装置的结构框图；

图4为一种实施例的电子设备的结构框图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

实施例一：

请参考图1，图1为一种实施例的跨模态行人重识别方法的流程图，所述的行人重识别方法可在服务器上执行，其包括步骤S10至步骤S30，下面具体说明。

步骤S10，获取含有行人的图像信息。本实施例中含有行人的图像信息可以为监控摄像头所拍摄的行人视频或者行人图片，其可以为RGB图像、红外图像等多种形式的图像。

步骤S20，将所含有行人的图像信息输入预先训练的神经网络中，得到行人的特征向量；其中，预先训练的神经网络包括至少两个子神经网络，每个子神经网络对应输入不同模态含有行人的图像信息。每个子神经网络均可通过平均池化操作生成特征向量。

在一实施例中，请参考图2，预先训练的神经网络包括RGB子神经网络和IR子神经网络，RGB子神经网络用于输入RGB图像并提取RGB图像中的行人特征向量，IR子神经网络用于输入红外图像并提取红外图像中的行人特征向量。本实施例中的所有子神经网络均为基本神经网络，其可以为Resnet等常见网络结构。

在神经网络的训练阶段，预先训练的神经网络通过以下方式训练得到：

步骤S201，构建神经网络。本实施例中的神经网络包括并联的RGB子神经网络和IR子神经网络。

步骤S202，获取多模态训练图像数据集，多模态训练图像数据集包括至少两个模态的图像信息，至少两个模态的图像信息含有相同行人。本实施例的多模态训练图像数据集包括RGB图像和红外图像，并且RGB图像和红外图像中均含有相同行人，也就是RGB图像和红外图像具有相同的行人ID标签。在本实施例中，多模态训练图像数据集中可包括多组RGB图像和红外图像，至少一组的RGB图像和红外图像具有相同的行人ID标签，一种具体实施方式下，每10组RGB图像和红外图像具有相同的行人ID标签。

步骤S203，将多模态训练图像数据集输入神经网络中进行训练，其中每个模态的图像信息输入对应的子神经网络中。在训练阶段，每次将多模态训练图像数据集中具有相同行人ID标签的一组不同模态的图像信息输入其对应的子神经网络中完成一次训练，通过多次训练，直至神经网络的损失值稳定且不会减小时，此时的网络参数形成的神经网络即为预先训练的神经网络。

在一实施例中，将多模态训练图像数据集输入神经网络中进行训练包括：

将多模态训练图像数据集中每个模态的图像信息输入对应的子神经网络中，得到至少两个行人的特征向量；每个模态的图像信息包含有相同行人。也就是每次输入神经网络中的一组不同模态的图像信息具有相同行人ID的标签。

将至少两个行人的特征向量拼接为一个特征向量，计算该特征向量的交叉熵损失值、中心损失值和异质中心损失值。本实施例将各个子神经网络输出的行人的特征向量按着预设顺序拼接为一个长的特征向量。

基于特征向量的交叉熵损失值、中心损失值和异质中心损失值，确定神经网络的损失值，再基于神经网络的损失值，调节神经网络的网络参数。

重复将多模态训练图像数据集中每个模态的图像信息输入对应的子神经网络中，基于神经网络的损失值调节所述神经网络的网络参数，直至神经网络的损失值稳定且不再变小为止。

在一实施例中，基于特征向量的交叉熵损失值、中心损失值和异质中心损失值，确定神经网络的损失值包括：

通过以下公式确定神经网络的损失值：

L＝Lce+λ1*Lcenter+λ2*Lhc

其中，L为神经网络的损失值，Lce为交叉熵损失值，Lcenter为中心损失值，Lhc为异质中心损失值，λ1和λ2为系数。本实施例中λ1和λ2的取值范围可以为0.1至1。

在本实施例中，λ1和λ2的最优值可通过以下实验确定：

先固定神经网络其余参数，随机在0.1至1取值范围内选取多个值作为λ1的待选值，再同样随机在0.1至1取值范围内选取多个值作为λ2的待选值，其中所选取的λ1的待选值和λ2的待选值在数量上应是相同的，此外λ1的待选值还可以在0.1至1取值范围内等间隔选取，λ2的待选值也可以在0.1至1取值范围内等间隔选取，且其与λ1的待选值具有相同数量。

令λ1依次等于其对应待选值中的一个，同样令λ2依次等于其对应待选值中的一个，分别记录λ1和λ2取每个待选值时对应跨模态行人重识别的mAP值，使得mAP最高的λ1的待选址和λ2的待选值即为当前神经网络参数对应的λ1和λ2的最优值。

在本实施例中，交叉熵损失值

其中，n为输入训练图像的总数，y为训练图像的标注标签生成的One-Hot向量，a为网络训练输出的概率向量，x表示输入训练的图像。其中，One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。举例：假设数据集共有三个不同的行人ID，用标签1,2,3表示，将标签转化为One-Hot编码可以表示为[1,0,0]，[0,1,0]，[0,0,1]。

中心损失值

其中，x_i表示第i个输入训练图像对应输出的特征向量，c_yi表示第i个输入训练图像对应的类别的所有样本特征的平均特征向量，m表示输入训练图像的总数。

异质中心损失值

其中，c_i,1和c_i,2为两个不同模态的输入训练图像对应输出的特征向量。

步骤S30，基于行人的特征向量对图像信息中的行人进行重识别。

在本实施中，采用相似性方式对行人的特征向量与预设的行人特征向量进行重识别。

在本发明实施例中，在训练神经网络阶段，将不同模态的训练图像数据输入对应的子神经网络中，输出多个特征向量，将多个特征向量拼接为一个长的特征向量，并基于该长的特征向量计算得到的交叉熵损失值、中心损失值和异质中心损失值来确定神经网络的损失值，这样利用交叉熵损失值拉大异类间距，中心损失值来拉近同类距离，异质中心损失值来拉近异质同类的中心，三种损失值共同作用，使得神经网络在跨模态行人重识别上具有更优地性能。

实施例二：

请参考图3，图3为一种实施例的跨模态行人重识别装置的结构框图，所述的行人重识别装置包括：图像获取模块101、特征提取模块102和行人重识别模块103。

其中，图像获取模块101用于获取含有行人的图像信息。本实施例中含有行人的图像信息可以为监控摄像头所拍摄的行人视频或者行人图片，其可以为RGB图像、红外图像等多种形式的图像。

特征提取模块102用于将含有行人的图像信息输入预先训练的神经网络中，得到行人的特征向量；其中，预先训练的神经网络包括至少两个子神经网络，每个子神经网络对应输入不同模态含有行人的图像信息。每个子神经网络均可通过平均池化操作生成特征向量。在一实施例中，预先训练的神经网络包括RGB子神经网络和IR子神经网络，RGB子神经网络用于输入RGB图像并提取RGB图像中的行人特征向量，IR子神经网络用于输入红外图像并提取红外图像中的行人特征向量。本实施例中的所有子神经网络均为基本神经网络，其可以为Resnet等常见网络结构。

构建神经网络。本实施例中的神经网络包括并联的RGB子神经网络和IR子神经网络。

获取多模态训练图像数据集，多模态训练图像数据集包括至少两个模态的图像信息，至少两个模态的图像信息含有相同行人。本实施例的多模态训练图像数据集包括RGB图像和红外图像，并且RGB图像和红外图像中均含有相同行人，也就是RGB图像和红外图像具有相同的行人ID标签。在本实施例中，多模态训练图像数据集中可包括多组RGB图像和红外图像，至少一组的RGB图像和红外图像具有相同的行人ID标签，一种具体实施方式下，每10组RGB图像和红外图像具有相同的行人ID标签。

将多模态训练图像数据集输入神经网络中进行训练，其中每个模态的图像信息输入对应的子神经网络中。在训练阶段，每次将多模态训练图像数据集中具有相同行人ID标签的一组不同模态的图像信息输入其对应的子神经网络中完成一次训练，通过多次训练，直至神经网络的损失值稳定且不会减小时，此时的网络参数形成的神经网络即为预先训练的神经网络。

通过以下公式确定神经网络的损失值：

L＝Lce+λ1*Lcenter+λ2*Lhc

在本实施例中，λ1和λ2可通过实验确定，具体为固定神经网络其余参数，λ1分别取值0.1-1，λ2分别取值0.1-1，记录对应跨模态行人重识别的mAP值，使得mAP最高的λ1、λ2即为当前神经网络参数对应的最佳系数。

行人重识别模块103用于基于行人的特征向量对图像信息中的行人进行重识别。在本实施中，采用相似性方式对行人的特征向量与预设的行人特征向量进行重识别。

请参考图4，本发明的一个实施方式提供了一种电子设备。其中，该电子设备包括存储器201、处理器202、输入/输出接口203。其中，存储器201，用于存储程序。处理器202，用于调用存储器301所存储的程序执行本发明实施例的特征融合方法。其中，处理器202分别与存储器201、输入/输出接口203连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器201可用于存储程序和数据，包括本发明实施例中涉及的特征融合程序，处理器202通过运行存储在存储器201的程序从而执行电子设备的各种功能应用以及数据处理。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种跨模态行人重识别方法，其特征在于，包括：

获取含有行人的图像信息；

基于所述行人的特征向量对图像信息中的行人进行重识别。

2.如权利要求1所述的方法，其特征在于，所述预先训练的神经网络通过以下方式训练得到：

构建神经网络；

3.如权利要求2所述的方法，其特征在于，所述将所述多模态训练图像数据集输入所述神经网络中进行训练包括：

将所述多模态训练图像数据集中每个模态的图像信息输入对应的子神经网络中，得到至少两个行人的特征向量；所述每个模态的图像信息包含有相同行人；

重复将所述多模态训练图像数据集中每个模态的图像信息输入对应的所述子神经网络中，基于所述神经网络的损失值调节所述神经网络的网络参数，直至所述神经网络的损失值稳定且不再变小为止。

4.如权利要求3所述的方法，其特征在于，所述基于所述特征向量的交叉熵损失值、中心损失值和异质中心损失值，确定所述神经网络的损失值包括：

通过以下公式确定所述神经网络的损失值：

L＝Lce+λ1*Lcenter+λ2*Lhc

5.一种跨模态行人重识别装置，其特征在于，包括：

图像获取模块，用于获取含有行人的图像信息；

6.如权利要求5所述的装置，其特征在于，所述预先训练的神经网络通过以下方式训练得到：

构建神经网络；

7.如权利要求6所述的装置，其特征在于，所述将所述多模态训练图像数据集输入所述神经网络中进行训练包括：

8.如权利要求7所述的装置，其特征在于，所述基于所述特征向量的交叉熵损失值、中心损失值和异质中心损失值，确定所述神经网络的损失值包括：

通过以下公式确定所述神经网络的损失值：

L＝Lce+λ1*Lcenter+λ2*Lhc

9.一种电子设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1-4中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-4中任一项所述的方法。