CN111461038B

CN111461038B - 一种基于分层多模式注意力机制的行人再识别方法

Info

Publication number: CN111461038B
Application number: CN202010263999.4A
Authority: CN
Inventors: 耿艳兵; 廉永健
Original assignee: North University of China
Current assignee: North University of China
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2022-08-05
Anticipated expiration: 2040-04-07
Also published as: CN111461038A

Abstract

本发明提出了一种基于分层多模式注意力机制的行人再识别方法，主要包含网络模型的训练阶段和再识别阶段，其中网络模型的训练阶段主要包括四个部分：第一，基于通道注意力模型的高层显著特征学习；第二，基于混合注意力模型的中层显著特征提取；第三，基于区域注意力模型的低层显著特征学习；第四、基于分层特征相似性自适应融合学习；再识别阶段主要包括两个部分：第一，利用训练好的网络进行分层显著特征提取和分层相似度度量，第二，利用训练好的权重进行多层相似度融合。上述基于分层多模式注意力机制的行人再识别方法，能获得较高识别准确率，适用于复杂监控场景的行人再识别。

Description

一种基于分层多模式注意力机制的行人再识别方法

技术领域

本发明涉及一种智能视频监控的行人再识别方法，尤其涉及一种基于注意力机制的深度神经网络的行人再识别方法，具体为一种基于分层多模式注意力机制的行人再识别方法，属于计算机视觉和模式识别领域。

背景技术

行人再识别实现同一行人在不同监控视野里的身份确认。在面向公共安防的智能视频监控中，行人再识别是行人接力跟踪、指定行人搜索、人群行为分析和身份鉴别等视频内容分析的研究基础，是计算机视觉和模式识别领域关注的重点。然而，由于复杂背景的干扰、自动检测的偏差、姿态视角的变化、遮挡的存在、以及跨场景的时空不连贯问题，给准确的行人再识别带来极大挑战。

目前，由于基于深度神经网络的特征较人工设计特征具有更稳健的特征表达能力，已成为研究的主导。神经网络不同层上的特征表现出不同的再识别性能，高层语义特征对局部变化较为鲁棒，而低层局部特征对度量细粒度的相似度更具优势。利用不同层特征的互补特性可以提高行人再识别的准确率。然而，行人图像中存在的类间差异小、类内差异大、受噪声干扰导致行人主体在图像中不突出等问题，依然是基于深度学习的行人再识别研究的难点。注意力模型近年来在深度学习各个领域被广泛使用，它通过模拟人类的注意力机制，关注具有高辨识度的特定区域，自动学习特征对应区域的重要性。将注意力机制引入基于深度神经网络的行人再识别研究，使得神经网络所提特征能够在关注行人关键区域的同时，减少无效甚至干扰信息的影响,提高特征提取的有效性。然而，现有基于注意力机制的行人再识别在显著特征提取和不同层特征的融合方面存在不足：(1)在显著特征提取方面，现有方法通常采用相同的注意力模型指导深度神经网络不同层级的显著特征学习，忽略了不同层特征在行人表达上的不同特点：高层语义特征本身已经能够获取显著特征的近似区域，但不同通道上的语义特征与行人关键信息的相关度存在明显差异；因此，高层特征的注意力机制需要关注不同通道特征的显著性差异。中低层特征能够对行人进行细粒度的特征描述，但同时包含更多噪声区域，而这些噪声区域在不同通道上并无明显差异。因此，中低层特征的注意力机制需要关注不同空间区域的显著性差异。(2)在多层特征融合方面，现有方法通常利用全连接层进行首尾连接或相加的融合方式，这种方式忽略了不同层级特征对行人准确辨识的差异性：高层特征能够进行粗粒度的行人区分：如对相似语义特征的行人进行分类，而在细粒度的行人辨识上存在不足，在区分具有相似语义的行人时，高层特征在其语义上相似的主导优势会削弱低层特征的有效性；低层特征在细粒度的行人身份确认上具有一定优势，但易到受噪声的干扰。现有融合方式不能充分利用高、低层特征在行人不同的互补性。以上问题将影响行人的准确身份识别。

发明内容

本发明提出了一种基于分层多模式注意力机制的行人再识别方法，该方法首先采用多模式注意力机制，根据深度神经网络不同层特征的特点，采用不同的注意力机制进行不同层上的显著特征学习；对学习到的显著特征，本发明进一步采用分层特征自适应相似性融合的方式，进行不同层的特征融合。该发明从行人在深度神经网络中不同层特征的特点出发，针对性地进行分层显著特征提取和融合。可以提高行人再识别的准确率。

为实现上述目的，本发明采用下述技术方案。

一种基于分层多模式注意力机制的行人再识别方法，包括如下步骤：

(A)在训练过程中，将训练集中的行人划分N个三元组

每个三元组包含三张行人图像，分别命名为指定行人a(anchor)，正样本 p(positive)和负样本n(negative)，其中a和p组成正样本对，a和n组成负样本对。对于每个三元组，采用inception-v2深度网络模型进行每幅行人图像的特征提取。

(B)将inception-v2网络的incept-1、incept-2和incept-3层所提特征对应为本发明所述低层特征、中层特征和高层特征，

其中H_i、W_i和L_i分别为不同层上三维张量特征的高、宽以及通道数，i代表不同的层，i∈(1,...,3)。对不同层的特征采用基于分层多模式注意力机制的方法进行不同粒度的显著特征提取。

(C)对步骤(B)中incept-1层输出的低层特征，采用区域注意力模型 (AttentiveRegion Model:ar)进行不同空间区域的显著性学习，得到 {f_a-ar,f_p-ar,f_n-ar}；对于粗粒度的高层特征，采用通道注意力模型 (channel-wise attention Model:ca)进行不同通道的显著性学习，得到 {f_a-ca,f_p-ca,f_n-ca}；对于中层特征，采用混合注意力模型(FusedAttention Model:fa)进行不同空间区域和不同通道的显著性学习，得到 {f_a-fa,f_p-fa,f_n-fa}。

(D)对步骤(C)中学习到的不同层的显著特征，采用分层自适应显著特征相似度融合的方式，利用triplet loss，使用如下公式(1)，学习得到三元组在这三层上的损失函数，然后将这三层上的损失函数加权融合，得到三元组总的损失函数L_trp：

其中，f_a-il,f_p-il,f_n-il分别代表指定行人a、正样本p和负样本n在不同层采用不同注意力模型映射得到的显著特征，其中il∈(ar,fa,ca)分别代表采用区域注意力模型、混合注意力模型和通道注意力模型；w_il∈(0,1)即代表不同层损失函数的权重，也代表行人再识别时，不同层相似度度量相融合的权重，∑_{il∈(ar,fa,ca)}w_il＝1；α_trp-il是设置在正样本对距离和负样本对距离之间的一个最小间隔，为人为设定的常数，当正样本对的距离加上最小间隔大于负样本对的距离时，就会产生损失，当正样本对的距离加上最小间隔小于负样本对的距离时，损失为零。

(E)判断损失函数L_trp是否小于给定阈值，如果大于给定阈值，按照 inception-v2神经网络反向传播，进行网络参数和自适应权重参数的更新，并更新训练三元组数据，继续按照网络前向传播，迭代上述操作过程，直到满足损失函数小于给定阈值，并且所有训练三元组全部参与训练完成为止；接下来，判断学习次数是否满足给定值，如果没有，重新将所有训练三元组输入网络，继续按照网络前向传播，迭代上述操作过程，直到学习次数满足给定值为止，保持网络参数和自适应权重参数，训练结束。利用得到的inception-v2网络模型，进行行人再识别。

上述的一种基于分层多模式注意力机制的行人再识别方法，所述步骤(C)中，采用区域注意力模型指导incept-1层显著特征的提取时，区域注意力映射函数

如公式

所述，由带batch nomalization(BN)的1×1卷积和RelU激活函数计算得到，其中L为注意力映射的通道数；注意力特征

由区域注意力映射

和低层特征f₁的内积得到，最后级联L个注意力特征作为最终的低层显著特征f_k-ar,k∈(a,p,n)；

上述的一种基于分层多模式注意力机制的行人再识别方法，所述步骤(C)中，采用通道注意力模型指导incept-3层显著特征提取时，采用公式

首先对 incept-3层输出的特征f₃联合使用全局平均池化和全局最大化池化聚合空间维度特征，产生两个空间维度描述符，随后分别经过通道数为C/2的1 ×1卷积、通道数为C的1×1卷积和激活函数sigmoid层，得到通道注意力映射

最后将

与高层特征相乘，得到高层显著特征f_k-ca,k∈(a,p,n)。

上述的一种基于分层多模式注意力机制的行人再识别方法，所述步骤(C)中，采用混合注意力模型指导incept-2层显著特征提取时，采用公式

首先对incept-2层输出的特征分别经过通道数为C/2的1×1卷积、通道数为C的1×1卷积和激活函数sigmoid(σ)进行非线性化，得到通道注意力映射

接下来将

和与incept-2层输出的特征做点乘运算得到基于通道注意力的显著特征

然后计算

特征的区域注意力映射β_l ²，最后将β_l ²与

做点乘运算，得到在第l层的混合注意力特征，最后级联L个混合注意力特征作为最终的中层显著特征f_k-fa。

上述的一种基于分层多模式注意力机制的行人再识别方法，所述步骤(C)中模型所涉及的参数，采用训练的方式确定。

上述的一种基于分层多模式注意力机制的行人再识别方法，所述步骤(D)中不同层相似度度量的权重w_il，采用训练的方式确定。

如上所述基于分层多模式注意力机制的行人再识别方法，在进行待识别图像和候选图像的相似度度量时，首先根据所训模型分别获取图像在incept-1、incept-2和incept-3层的显著特征，然后采用欧氏距离度量两幅图像在每层间的相似度值，最后根据训练得到的权重w_il，将不同层的相似度值相融合，即为待识别图像和候选图像的相似度值。根据相似度值的大小，判断候选行人与待识别行人是否为同一个人。

为此，本发明提出了一种基于分层多模式注意力机制的行人再识别方法，该方法根据深度神经网络低层细粒度特征对噪声干扰比较敏感、高层语义特征对噪声较为鲁棒但在度量细粒度的相似度方面不足的特点，分别采用基于通道注意力模型的高层显著特征学习、基于混合注意力模型的中层显著特征提取和基于区域注意力模型的低层显著特征学习；采用不同的注意力机制进行不同层上的显著特征学习；对学习到的显著特征，本发明进一步采用分层特征自适应相似性融合的方式，进行不同层的特征融合。实验表明，该方法适用于复杂监控场景的行人再识别。

附图说明

下面结合附图和具体实施方式对本发明作进一步的说明。

图1为本发明的框架图。

图2为基于分层多模式注意力机制的显著特征学习流程图。

图3为通道注意力模型图

图4为区域注意力模型的流程图。

图5为混合注意力模型的流程图。

图6为行人再识别的流程图。

图7为行人再识别结果示意图。

具体实施方式

本发明提出了一种基于分层多模式注意力机制的行人再识别方法，包括基于分层多模式注意力机制的深度神经网络模型训练阶段和再识别阶段。如图1所示，首先将数据集划分为训练集和测试集，在此基础上，基于分层多模式注意力机制的深度神经网络模型训练如图1左分支所示，首先将训练集划分为多个三元组，每个三元组由指定行人a(anchor)，正样本p(positive)和负样本n(negative)三幅图像组成。训练过程主要包括以下两个部分：第一、基于分层多模式注意力机制的多粒度显著特征学习方法。该方法将多模式注意力模式分别应用于深度神经网络 inception-v2上的incept-1、incept-2和incept-3层，进行不同层的显著特征学习。第二、基于分层自适应的多粒度特征相似度融合学习方法。该方法通过最小化待匹配的行人图像，分别在incept-1、incept-2和incept-3 层上的相似度度量值的损失函数的加权和，学习待匹配行人在深度网络不同层上相似度的权重。经过多次迭代优化，得到网络模型参数和自适应融合的权重参数。

再识别阶段如图1右侧分支所示，首先将测试集划分为待识别行人和候选行人集。再识别过程主要包括两个部分：第一、根据训练得到的网络模型，提取待匹配行人(待识别行人和候选行人组成待匹配行人) 在深度神经网络inception-v2的incept-1、incept-2和incept-3层的显著特征；第二、分别进行待匹配行人在incept-1、incept-2和incept-3层上的相似度度量，并利用训练得到的不同层相似度的权重，进行不同层的相似度度量值加权融合。最后，根据得到的相似程度，进行候选行人的身份确认。

本发明尤其适用于室外复杂监控视频中的行人再识别工作。下面展开具体说明。

1基于分层多模式注意力机制的多粒度显著特征学习方法

该方法基于inception-v2网络，流程图如图2所示，首先初始化 inception-v2网络参数和自适应融合权重参数，将训练三元组提供给网络，按照神经网络前向传播，首先分别获取三元组图像在incept-1、incept-2 和incept-3层的输出特征，然后对于各层输出的特征进行不同注意力模型的显著性映射，得到不同层的显著特征，具体如下：

(1)基于区域注意力模型的显著特征提取

对于incept-1层输出的特征f₁，采用图3所示方法，依次进行通道为8、卷积核1×1的卷积操作、batch normalization归一化操作和ReLU 激活函数将显著性映射进行非线性化，得到基于区域注意力模型的显著性映射。单个通道的区域注意力映射函数

如公式(2)计算得到。

基于区域注意力映射的显著特征提取如公式(3)所述，每个通道的注意力特征由公式(2)所得区域注意力映射

和低层特征f₁的内积得到，最后级联L个通道的注意力特征作为最终的低层显著特征f_k-ar,k∈(a,p,n)。

(2)基于通道注意力模型的显著特征提取

对于incept-3层输出的特征f₃，采用如图4所示方法，联合使用全局平均池化(Global Average Pooling:GAP)和全局最大化池化(Global Max Pooling:GMP)聚合空间维度特征，分别生产两个空间维度描述符

和

随后如公式(4)所述，分别经过通道数为 C/2的1×1卷积(w₁)和通道数为C的1×1卷积(w₂)，激活函数sigmoid(σ) 进行非线性化，得到通道注意力映射

基于通道注意力模型的显著特征f_k-ca,k∈(a,p,n)的获取如公式(5)所示，将

与高层特征f₃相乘，得到高层显著特征。

(3)基于混合注意力模型的显著特征提取

对于incept-2层输出的特征f₂，采用如图5所示方法，首先对incept-2 层输出的特征使用公式(4)得到的通道注意力映射

接下来将

和与incept-2层输出的特征f₂做点乘运算得到基于通道注意力的显著特征

然后使用公式(2)计算

特征的区域注意力映射β_l ²，最后将β_l ²与

做点乘运算，得到基于混合注意力模型的显著特征f_k-fa，具体实现如公式 (6)所示。

2基于分层自适应的多粒度特征相似度融合学习方法

在如上所述提取三元组在inception-v2网络的inpcept-1、inpcept-2 和inpcept-3层输出特征的显著特征后，如公式(1)所述，采用triplet loss 分别计算三元组在这三层上的损失函数，然后将这三层上的损失函数加权融合，得到三元组总的损失函数。

接下来，如图1所示，判断损失函数是否小于给定阈值，如果大于给定阈值，按照inception-v2神经网络反向传播，进行网络参数和自适应权重参数的更新，并更新训练三元组数据，继续按照网络前向传播，迭代上述操作过程，直到满足损失函数小于给定阈值，并且所有训练三元组全部参与训练完成为止；接下来，判断学习次数是否满足给定值，如果没有，重新将所有训练三元组输入网络，继续按照网络前向传播，迭代上述操作过程，直到学习次数满足给定值为止，保持网络参数和自适应权重参数，训练结束。

3基于分层多注意力机制的行人再识别方法

在行人再识别阶段，首先分别提取待识别行人(probe:p)和候选行人 (gallery:g)在训练好的inception-v2网络上incept-1、incept-2和incept-3 层输出的显著特征，接下来，采用欧式距离，分别进行待识别行人和候选行人在这三层上输出特征的相似度度量，然后利用训练得到的自适应权重(w₁,w₂,w₃)，将待识别行人和候选行人在这三层上的相似度值加权融合，根据相似度值的大小，判断候选行人与待识别行人是否为同一个人。

其中，Sim(I_probe,I_gallery)表示待识别行人图像I_probe和候选行人图像I_gallery间的相似度度量，f_p-il,f_g-il分别代表待识别行人p和候选行人g在不同层采用不同注意力模型映射得到的显著特征，其中il∈(ar,fa,ca)分别代表所采用的区域注意力模型、混合注意力模型和通道注意力模型；w_il∈(0,1)代表不同层相似度度量相融合的权重，∑_{il∈(ar,fa,ca)}w_il＝1。

具体流程如图6所示。

行人搜索识别结果如示意图7所示。

以上公开的仅为本发明的具体实施例。根据本发明提供的技术思想，本领域的技术人员能思及的变化，都应落入本发明的保护范围内。

Claims

1.一种基于分层多模式注意力机制的行人再识别方法，其特征在于包括如下步骤：

(A)将训练集中的行人划分为N个三元组

每个三元组包含三张行人图像，分别命名为指定行人a，正样本p和负样本n，对于每个三元组，采用inception-v2深度网络模型进行每幅行人图像的特征提取；

(B)将inception-v2网络的incept-1、incept-2和incept-3层所提特征分别对应为低层特征、中层特征和高层特征；对不同层的特征采用基于分层多模式注意力机制的方法进行不同粒度的显著特征提取；

(C)对步骤(B)中incept-1层输出的低层特征，采用区域注意力模型进行不同空间区域的显著性学习，得到{f_a-ar,f_p-ar,f_n-ar}，对于粗粒度的高层特征，采用通道注意力模型学习不同通道的显著性学习，得到{f_a-ca,f_p-ca,f_n-ca}，对于中层特征，采用混合注意力模型进行不同空间区域和不同通道的显著性学习，得到{f_a-fa,f_p-fa,f_n-fa}；

(D)对步骤(C)中学习到的不同层的显著特征，采用分层自适应显著特征相似度融合的方式，利用triplet loss，学习得到三元组在这三层上的损失函数，然后将这三层上的损失函数加权融合，得到三元组总的损失函数L_trp：

其中，f_a-il,f_p-il,f_n-il分别代表指定行人a、正样本p和负样本n在不同层采用不同注意力模型映射得到的显著特征，其中il∈(ar,fa,ca)分别代表采用区域注意力模型、混合注意力模型和通道注意力模型；w_il∈(0,1)即代表不同层损失函数的权重，也代表行人再识别时，不同层相似度度量相融合的权重，∑_{il∈(ar,fa,ca)}w_il＝1；

(E)判断损失函数L_trp是否小于给定阈值，如果大于给定阈值，按照inception-v2网络反向传播，进行网络参数和自适应权重参数的更新，并更新训练三元组数据，继续按照网络前向传播，迭代上述操作过程，直到满足损失函数小于给定阈值，并且所有训练三元组全部参与训练完成为止；接下来，判断学习次数是否满足给定值，如果没有，重新将所有训练三元组输入网络，继续按照网络前向传播，迭代上述操作过程，直到学习次数满足给定值为止，保持网络参数和自适应权重参数，训练结束；利用得到的inception-v2网络模型，进行行人再识别；

所述步骤(C)中，采用区域注意力模型指导incept-1层显著特征的提取时，区域注意力映射β_l ¹如公式

β_l ¹＝ReLU(BN(CONV(f_l ¹)))∈X^L×W×H l∈(1...L)所述，由带BN的1×1卷积和RelU激活函数计算得到，其中L为注意力映射的通道数；公式

注意力特征由区域注意力映射β_l ¹和低层特征f₁的内积得到，最后级联L个注意力特征作为最终的低层显著特征f_k-ar,k∈(a,p,n)；

所述步骤(C)中，采用通道注意力模型指导incept-3层显著特征提取时，采用公式

首先对incept-3层输出的特征f₃联合使用全局平均池化和全局最大化池化聚合空间维度特征，产生两个空间维度描述符，随后分别经过通道数为C/2的1×1卷积、通道数为C的1×1卷积和激活函数sigmoid层，得到通道注意力映射

最后将

与高层特征相乘，得到高层显著特征f_k-ca,k∈(a,p,n)；

所述步骤(C)中，采用混合注意力模型指导incept-2层显著特征提取时，采用公式

首先对incept-2层输出的特征分别经过通道数为C/2的1×1卷积、通道数为C的1×1卷积和激活函数sigmoid进行非线性化，得到通道注意力映射

接下来将

然后计算

特征的区域注意力映射

将β_l ²与

2.如权利要求1所述的一种基于分层多模式注意力机制的行人再识别方法，其特征在于所述步骤(C)中模型所涉及的参数，采用训练的方式确定。

3.如权利要求1或2所述的一种基于分层多模式注意力机制的行人再识别方法，其特征在于所述步骤(D)中不同层相似度度量的权重w_il，采用训练的方式确定。

4.如权利要求1或2所述的一种基于分层多模式注意力机制的行人再识别方法，其特征在于所述步骤(E)行人再识别中，在进行待识别图像和候选图像的相似度度量时，首先根据所训模型分别获取图像在incept-1、incept-2和incept-3层的显著特征，然后采用欧氏距离度量两幅图像在每层间的相似度值，最后根据训练得到的权重w_il，将不同层的相似度值相融合，即为待识别图像和候选图像的相似度值，根据相似度值的大小，判断候选行人与待识别行人是否为同一个人。