CN112200093B

CN112200093B - 一种基于不确定性估计的行人再识别方法

Info

Publication number: CN112200093B
Application number: CN202011091366.6A
Authority: CN
Inventors: 马占宇; 谢吉洋; 孙文宇; 司中威
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2022-08-30
Anticipated expiration: 2040-10-13
Also published as: CN112200093A

Abstract

本发明涉及一种基于不确定性估计的行人再识别方法，属于行人再识别技术领域，包括步骤：获取待识别的原始图像序列，原始图像序列中的每一帧原始图像均包含同一行人；将原始图像序列输入至利用基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型中，计算输出集合；使用不确定性估计集合对输出集合进行排序，选择不确定性估计最高的Δ个输出的标号，获得标号集合和选定输出集合；将选定输出集合中的所有输出与数据库中的样本计算距离，并分别匹配出距离最小的图像作为行人再识别的检索结果。本发明能够同时抑制输入图像中的区域噪声和随机噪声，降低噪声对于行人再识别模型性能的影响，提高模型的稳定性，提升行人再识别的准确率。

Description

一种基于不确定性估计的行人再识别方法

技术领域

本发明涉及行人再识别技术领域，特别是涉及一种基于不确定性估计的行人再识别方法。

背景技术

在行人再识别技术领域中，现有基于人工智能和深度学习的识别方法大多直接将识别到的行人候选框图像输入到卷积神经网络(Convolutional Neural Network，CNN)中提取深度特征，再计算候选框图像的深度特征与数据库中图像的深度特征在特征空间中的距离(如欧氏距离(Euclidean Distance)、马氏距离(Mahalanobis Distance)、余弦相似度(Cosine Similarity)等)，用于在数据库中检索与候选框图像相匹配的图像。同时，由于用于检索的输入图像是序列化的(即在视频序列中逐帧提取行人图像组合成序列，并作为检索匹配的输入图像序列)，序列中不同图像的质量不尽相同，需要对序列中的图像进行质量评估，并根据评估结果对匹配结果进行筛选。

行人再识别(Person Re-identification)是传统图像检索任务的子任务，主要是针对通过多个摄像头拍摄的行人照片进行识别匹配的过程。行人再识别技术主要用于安防监控、疑犯追踪、走失人口调查、城市交通规划等关系到社会民生的重要行业应用中。但是，由于环境问题(如障碍物遮挡、恶劣天气情况等)，以及摄像机成像问题(如成像模糊、摄像机抖动、摄像机系统噪声等)等因素的影响，通过摄像机获得的图像往往带有一定的噪声。这些噪声主要是由上述因素导致的。同时，数据采集问题(如训练集中的错误标签)也会为训练集带来一定的噪声。现有方法难以对含有上述噪声的图像进行正确检索，使得行人再识别模型性能降低，难以应用于实际场景中。

发明内容

环境问题、摄像机成像问题等因素会为摄像机拍摄图像带入噪声。这些噪声包括区域噪声(如遮挡等)和随机噪声(如模糊、摄像机系统噪声等)。同时，这些噪声是无法有效消除的。当噪声过大时，现有的行人再识别方法难以对含有上述噪声的图像进行正确检索，使得行人再识别模型性能降低，难以应用于实际场景中。基于此，有必要针对上述技术问题，提供一种基于不确定性估计的行人再识别方法。

为解决上述问题，本发明采取如下的技术方案：

一种基于不确定性估计的行人再识别模型训练方法，包括以下步骤：

步骤1：获取原始图像和初始化卷积神经网络参数；

步骤2：将所述原始图像按行分割成上下多个局部，得到分块图像；

步骤3：将所述分块图像的各个张量分别输入到卷积神经网络中，得到对应的局部特征；

步骤4：计算每一个所述局部特征对应的局部不确定性估计；

步骤5：根据各个所述局部特征和各个所述局部不确定性估计计算局部训练过程的第一损失函数；

步骤6：根据所述分块图像的各个张量和对应的所述局部不确定性估计计算精炼后图像；

步骤7：将所述精炼后图像输入到与步骤3中卷积神经网络共享参数的卷积神经网络中，得到整体特征；

步骤8：计算所述整体特征对应的整体不确定性估计；

步骤9：根据所述整体特征和所述整体不确定性估计计算模型输出；

步骤10：根据各个所述局部特征、各个所述局部不确定性估计、所述整体特征和所述整体不确定性估计计算整体训练过程的第二损失函数；

步骤11：对所述第一损失函数和所述第二损失函数求和，得到模型训练过程的总损失函数，并通过反向传播算法优化模型参数；

步骤12：重复上述步骤1至步骤11，直至所述总损失函数收敛，得到训练完成的行人再识别模型。

同时，本发明还提供一种基于不确定性估计的行人再识别方法，包括以下步骤：

步骤一：获取待识别的原始图像序列，所述原始图像序列中的每一帧原始图像均包含同一行人；

步骤二：将所述原始图像序列输入至利用所述的基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型中，所述行人再识别模型对输入的所述原始图像序列执行以下步骤：

步骤二一：对所述原始图像序列中的所有原始图像依次进行所述基于不确定性估计的行人再识别模型训练方法中的步骤二至步骤四及步骤六至步骤七，得到整体特征集合

其中

是输入的第b帧原始图像

对应的整体特征，b＝1,…,B，B是所述原始图像序列的序列长度；

步骤二二：分别计算每个整体特征

的不确定性估计

得到不确定性估计集合

步骤二三：计算输出集合

其中

可通过下式计算：

步骤三：使用不确定性估计集合

对输出集合

进行排序，选择不确定性估计最高的Δ个输出的标号，获得标号集合

和选定输出集合

步骤四：将所述选定输出集合

中的所有输出与数据库中的样本计算距离，并分别匹配出距离最小的图像作为行人再识别的检索结果。

相应地，本发明还提供一种基于不确定性估计的行人再识别系统，包括：

获取模块，用于获取待识别的原始图像序列，所述原始图像序列中的每一帧原始图像均包含同一行人；

识别模块，包括利用所述的基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型，所述基于不确定性估计的行人再识别模型对输入的所述原始图像序列执行以下步骤：

是输入的第b帧原始图像

步骤二二：分别计算每个整体特征

的不确定性估计

得到不确定性估计集合

步骤二三：计算输出集合

其中

可通过下式计算：

排序模块，用于使用不确定性估计集合

对输出集合

和选定输出集合

输出模块，用于将所述选定输出集合

与现有技术相比，本发明具有以下有益效果：

本发明所提出的基于不确定性估计的行人再识别模型训练方法及行人再识别方法、系统将不确定性估计方法分别用于行人再识别模型的局部训练过程和整体训练过程，同时以分块图像和整体图像为单位进行质量过滤，分块图像的质量过滤能够很好地反映区域噪声，整体图像的质量过滤能够很好地反映随机噪声，因此能够同时抑制输入图像中的区域噪声和随机噪声，降低噪声对于行人再识别模型性能的影响，使行人再识别模型能够更加适应真实复杂场景，提高模型的稳定性，提升行人再识别的准确率。

附图说明

图1为本发明的一种基于不确定性估计的行人再识别模型训练方法在一个实施例中的流程示意图；

图2为本发明的一种基于不确定性估计的行人再识别模型训练方法的原理框图；

图3为本发明的一种基于不确定性估计的行人再识别方法在一个实施例中的流程示意图；

图4为本发明的一种基于不确定性估计的行人再识别系统在一个实施例中的结构框图。

具体实施方式

下面将结合附图及较佳实施例对本发明的技术方案进行详细描述。

在其中一个实施例中，如图1和图2(图2中仅以P＝4为例)所示，本发明提供一种基于不确定性估计的行人再识别模型训练方法，该方法包括以下步骤1至步骤12，其中步骤1至步骤5为局部训练过程，步骤6至步骤10为整体训练过程。基于不确定性估计的行人再识别模型训练方法的具体训练过程如下：

步骤1(S1)：获取用于模型输入的原始图像X∈R^C×W×H，其中，R表示实数，C、W和H分别表示原始图像X的通道数、宽和高，对于常用的RGB图像C＝3，同时还获取初始化卷积神经网络参数Ω。

步骤2(S2)：计算最佳局部分割方案，将原始图像X按行分割成上下多个局部，得到分块图像Z。定义局部分割函数为g(·)，即Z＝g(X)。进一步地，通过局部分割函数g(·)计算分块图像Z的过程如下：

步骤21：获取掩膜M∈R^W×H，掩膜M中的元素M_i,j可通过下式计算：

其中，i＝1,…,W，j＝1,…,H，a是行人在原始图像X中占据的比例，0<a≤1；

步骤22：计算原始图像X每行的颜色信息X^(r)∈R^H，每行的颜色信息X^(r)中的元素

可通过下式计算：

其中，k＝1,…,C；

步骤23：计算每行的颜色信息X^(r)相邻两项的差值，得到差值向量X^(d)∈R^H-1，差值向量X^(d)中的元素

可通过下式计算：

其中，j′＝1,…,(H-1)，|·|是取绝对值操作；

步骤24：利用密度估计(Density Estimation)方法计算差值向量X^(d)的P个峰值的下标

且1<n₁<…<n_p<…<n_P<H，n_p为整数，p＝1,…,P；

步骤25：使用下标

对原始图像X按行进行分割，得到分块图像

其中，

是包含所有满足下标条件的原始图像X的元素的张量，且n₀＝1，n_p+1＝H。

步骤3(S3)：将分块图像Z的各个张量Z_p∈Z分别输入到卷积神经网络CNN(·；Ω)中，得到对应的局部特征

C^(f)、W^(f)和H^(f)分别是卷积神经网络输出整体特征的通道数、宽和高，

是第p个局部特征的高。

步骤4(S4)：计算每一个局部特征对应的局部不确定性估计

σ_p为标量，可通过下式计算：

其中，GAP(·)是全局平均池化(Global Average Pooling，GAP)函数，其具体形式为下式：

是连续伯努利分布(Continuous Bernoulli，CB)的概率密度函数(Probability Density Function，PDF)，x是输入，0<x<1，λ是分布参数，0<λ<1，

的具体形式为下式：

其中，Const(·)是归一化函数，其形式为：

tanh(·)是双曲正切函数，tanh^-1(·)是双曲正切函数的反函数，表达式为：

其中，e是自然对数的底数，ln(·)是自然对数；

λ_p通过下式计算：

其中，

是第p个全连接(Fully-connected，FC)层，参数为

的具体形式为：

步骤5(S5)：根据步骤3计算得到的各个局部特征和步骤4计算得到的各个局部不确定性估计计算局部训练过程的第一损失函数L₁。

第一损失函数L₁由三部分组成，分别是三元组损失(Triplet Loss)函数

分类损失函数

和正则项R₁(σ)，其计算方式如下：

其中，α₁、β₁和γ₁均是非负乘子；

其中，

是将所有GAP(f_p)拼接之后的特征，

分别是在训练集中随机抽取的与输入图像相同类别的图像(正样本)和不同类别的图像(负样本)所提取的拼接后的特征，d(·,·)是距离度量，ξ是输入图像与正负样本距离的最小差值，ξ>0，max(·,·)是取两数较大值的函数；

其中，t是输入图像对应的目标类别编号，L_CE(·,·)是交叉熵损失(Cross-entropy Loss，CE Loss)函数，其形式为：

L_CE(q,t)＝-lnq_t

q和q^(p),p＝1,…,(P+1)分别是所有GAP(f_p)拼接之后的特征f和局部特征f_p输入到全局平均池化、全连接层、softmax函数后的输出向量，其表达式分别为：

其中，

和

均是全连接层，

和

分别是对应全连接层的参数，S是类别数，softmax(·)函数的输入为向量，其形式为：

R₁(σ)是

的正则项，其表达式为：

步骤6(S6)：根据分块图像Z的各个张量Z_p∈Z和对应的局部不确定性估计

计算精炼后图像

精炼后图像

由

在图像j维度拼接而成，

具体通过下式计算：

步骤7(S7)：将精炼后图像

整体输入到与步骤3中卷积神经网络CNN(·；Ω)共享参数Ω的卷积神经网络CNN(·；Ω)中，得到整体特征

和

分别是卷积神经网络输出整体特征的通道数、宽和高；

步骤8(S8)：计算整体特征对应的整体不确定性估计

可通过下式计算：

其中，

是全连接层，参数为

步骤9(S9)：根据步骤7计算的整体特征和步骤8计算的整体不确定性估计计算模型输出Y，模型输出Y可通过下式计算：

其中，

是将

维的

转化成对角矩阵，且

的元素为主对角线上元素，

是随机数矩阵，且其元素

均是服从标准正态分布的随机数；

步骤10(S10)：根据各个局部特征、各个局部不确定性估计、整体特征和整体不确定性估计计算整体训练过程的第二损失函数L₂：

第二损失函数L₂由三部分组成，分别是三元组损失函数

分类损失函数

和正则项

其计算方式如下：

其中，α₂、β₂和γ₂均是非负乘子；

其中，

分别是在训练集中随机抽取的与输入图像相同类别的图像(正样本)和不同类别的图像(负样本)所提取的拼接后的特征，

其中，

其中，

其中，y_k′是Y的第k′个元素，KL(·||·)是KL散度(Kullback-LeiblerDivergence)，其表达式为：

步骤11(S11)：计算模型训练过程的总损失函数L并通过反向传播(Backpropagation，BP)算法优化模型参数，其中总损失函数L通过下式计算：

L＝L₁+L₂

通过反向传播算法优化模型参数。

步骤12(S12)：重复上述步骤1至步骤11，直至总损失函数L收敛，获得训练完成的模型参数，进而得到训练完成的行人再识别模型。

本实施例所提出的基于不确定性估计的行人再识别模型训练方法将不确定性估计方法分别用于行人再识别模型的局部训练过程和整体训练过程，同时以分块图像和整体图像为单位进行质量过滤，分块图像的质量过滤能够很好地反映区域噪声，整体图像的质量过滤能够很好地反映随机噪声，因此能够同时抑制输入图像中的区域噪声和随机噪声，降低噪声对于行人再识别模型性能的影响，使行人再识别模型能够更加适应真实复杂场景，提高模型的稳定性，提升行人再识别的准确率。

在另一个实施例中，如图3所示，本发明提供一种基于不确定性估计的行人再识别方法，该方法利用前述实施例所述的基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型进行行人再识别，具体包括以下步骤：

步骤一(s1)：获取用于模型输入的待识别的原始图像序列

其中，B是原始图像序列的序列长度，

是第b帧原始图像，b＝1,…,B，在每一帧原始图像

中均包含同一行人；

步骤二(s2)：将原始图像序列输入至利用前述实施例的基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型中，行人再识别模型对输入的原始图像序列执行以下步骤：

步骤二一(s21)：对所有原始图像

进行前述实施例中基于不确定性估计的行人再识别模型训练方法中的步骤2至步骤4及步骤6至步骤7，计算得到整体特征集合

其中

是输入的第b帧原始图像

对应的整体特征；

步骤二二(s22)：分别计算每个整体特征

的得分，即分别计算每个整体特征

的不确定性估计

得到不确定性估计集合

步骤二三(s23)：计算输出集合

其中

可通过下式计算：

步骤三(s3)：使用不确定性估计集合

对输出集合

进行排序，选择得分即不确定性估计最高的Δ个输出的标号，获得标号集合

和选定输出集合

步骤四(s4)：将选定输出集合

中的所有输出与数据库中的样本计算距离，并分别匹配出距离最小的图像作为行人再识别的检索结果，最终得到行人再识别结果。

本实施例所提出的基于不确定性估计的行人再识别方法使用行人再识别模型进行行人再识别，行人再识别模型为利用基于不确定性估计的行人再识别模型训练方法训练得到的模型，在行人再识别模型训练过程中将不确定性估计方法分别用于局部训练过程和整体训练过程，同时以分块图像和整体图像为单位进行质量过滤，分块图像的质量过滤能够很好地反映区域噪声，整体图像的质量过滤能够很好地反映随机噪声，因此能够同时抑制输入图像中的区域噪声和随机噪声，降低噪声对于行人再识别模型性能的影响，使行人再识别模型能够更加适应真实复杂场景，具有更好的稳定性和更高的行人再识别准确率，因此本实施例所提出的基于不确定性估计的行人再识别方法具有行人再识别准确率和效率较高等优点。

此外，本发明还提供一种基于不确定性估计的行人再识别系统，该系统利用前述实施例所述的基于不确定性估计的行人再识别模型训练方法训练得到的基于不确定性估计的行人再识别模型进行行人再识别，具体包括：

获取模块100：获取用于模型输入的待识别的原始图像序列

其中，B是原始图像序列的序列长度，

是第b帧原始图像，b＝1,…,B，在每一帧原始图像中均包含同一行人；

识别模块200，包括利用前述实施例的基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型，行人再识别模型对输入的原始图像序列执行以下步骤：

步骤二一：对所有原始图像

其中

是输入的第b帧原始图像

对应的整体特征；

步骤二二：分别计算每个整体特征

的得分，即分别计算每个整体特征

的不确定性估计

得到不确定性估计集合

步骤二三：计算输出集合

其中

可通过下式计算：

排序模块300，用于使用不确定性估计集合

对输出集合

和选定输出集合

输出模块400，用于将选定输出集合

本实施例所提出的基于不确定性估计的行人再识别系统使用行人再识别模型进行行人再识别，行人再识别模型为利用基于不确定性估计的行人再识别模型训练方法训练得到的模型，在行人再识别模型训练过程中将不确定性估计方法分别用于局部训练过程和整体训练过程，同时以分块图像和整体图像为单位进行质量过滤，分块图像的质量过滤能够很好地反映区域噪声，整体图像的质量过滤能够很好地反映随机噪声，因此能够同时抑制输入图像中的区域噪声和随机噪声，降低噪声对于行人再识别模型性能的影响，使行人再识别模型能够更加适应真实复杂场景，具有更好的稳定性和更高的行人再识别准确率，因此本实施例所提出的基于不确定性估计的行人再识别系统具有行人再识别准确率和效率较高等优点。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于不确定性估计的行人再识别模型训练方法，其特征在于，包括以下步骤：

步骤一：获取原始图像和初始化卷积神经网络参数；

步骤二：将所述原始图像按行分割成上下多个局部，得到分块图像；

步骤三：将所述分块图像的各个张量分别输入到卷积神经网络中，得到对应的局部特征；

步骤四：计算每一个所述局部特征对应的局部不确定性估计；

步骤五：根据各个所述局部特征和各个所述局部不确定性估计计算局部训练过程的第一损失函数；

步骤六：根据所述分块图像的各个张量和对应的所述局部不确定性估计计算精炼后图像；

步骤七：将所述精炼后图像输入到与步骤三中卷积神经网络共享参数的卷积神经网络中，得到整体特征；

步骤八：计算所述整体特征对应的整体不确定性估计；

步骤九：根据所述整体特征和所述整体不确定性估计计算模型输出；

步骤十：根据各个所述局部特征、各个所述局部不确定性估计、所述整体特征和所述整体不确定性估计计算整体训练过程的第二损失函数；

步骤十一：对所述第一损失函数和所述第二损失函数求和，得到模型训练过程的总损失函数，并通过反向传播算法优化模型参数；

步骤十二：重复上述步骤一至步骤十一，直至所述总损失函数收敛，得到训练完成的行人再识别模型。

2.根据权利要求1所述的基于不确定性估计的行人再识别模型训练方法，其特征在于，步骤二包括以下步骤：

步骤二一：获取掩膜M∈R^W×H，掩膜M中的元素M_i,j通过下式计算：

其中，i＝1,…,W，j＝1,…,H，a是行人在所述原始图像中占据的比例，0<a≤1，R表示实数，W表示所述原始图像的宽，H表示所述原始图像的高；

步骤二二：计算所述原始图像每行的颜色信息X^(r)∈R^H，每行的颜色信息X^(r)中的元素

通过下式计算：

其中，k＝1,…,C，C表示所述原始图像的通道数；

步骤二三：计算每行的颜色信息X^(r)相邻两项的差值，得到差值向量X^(d)∈R^H-1，差值向量X^(d)中的元素

通过下式计算：

其中，j'＝1,…,(H-1)，|·|是取绝对值操作；

步骤二四：利用密度估计方法计算差值向量X^(d)的P个峰值的下标

且1<n₁<…<n_p<…<n_P<H，n_p为整数，p＝1,…,P；

步骤二五：使用下标

对所述原始图像按行进行分割，得到分块图像

其中，

是包含所有满足下标条件的所述原始图像的元素的张量，且n₀＝1，n_p+1＝H。

3.根据权利要求2所述的基于不确定性估计的行人再识别模型训练方法，其特征在于，步骤四中通过下式计算每一个所述局部特征对应的局部不确定性估计

其中，

为第p个局部特征，CNN(·；Ω)为步骤三中的卷积神经网络，

是第p个局部特征的高，

C^(f)、W^(f)和H^(f)分别是卷积神经网络输出整体特征的通道数、宽和高；

GAP(·)是全局平均池化函数，其具体形式为下式：

是连续伯努利分布的概率密度函数，x是输入，0<x<1，λ是分布参数，0<λ<1，其具体形式为下式：

其中，Const(·)是归一化函数；

λ_p通过下式计算：

其中，

是第p个全连接层，参数为

的具体形式为：

4.根据权利要求3所述的基于不确定性估计的行人再识别模型训练方法，其特征在于，步骤八中通过下式计算所述整体特征对应的整体不确定性估计

其中，

是全连接层，参数为

5.根据权利要求1或2所述的基于不确定性估计的行人再识别模型训练方法，其特征在于，所述第一损失函数为：

其中，

为三元组损失函数，

为分类损失函数，R₁(σ)为正则项，α₁、β₁和γ₁均是非负乘子。

6.根据权利要求1或2所述的基于不确定性估计的行人再识别模型训练方法，其特征在于，所述第二损失函数为：

其中，

为三元组损失函数，

为分类损失函数，

为正则项，α₂、β₂和γ₂均是非负乘子。

7.一种基于不确定性估计的行人再识别方法，其特征在于，包括以下步骤：

步骤二：将所述原始图像序列输入至利用权利要求1至6任意一项所述的基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型中，所述行人再识别模型对输入的所述原始图像序列执行以下步骤：

其中

是输入的第b帧原始图像

步骤二二：分别计算每个整体特征

的不确定性估计

得到不确定性估计集合

步骤二三：计算输出集合

其中

通过下式计算：

步骤三：使用不确定性估计集合

对输出集合

和选定输出集合

步骤四：将所述选定输出集合

8.一种基于不确定性估计的行人再识别系统，其特征在于，包括：

识别模块，包括利用权利要求1至6任意一项所述的基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型，所述行人再识别模型对输入的所述原始图像序列执行以下步骤：

是输入的第b帧原始图像

步骤二二：分别计算每个整体特征

的不确定性估计

得到不确定性估计集合

步骤二三：计算输出集合

其中

通过下式计算：

排序模块，用于使用不确定性估计集合

对输出集合

和选定输出集合

输出模块，用于将所述选定输出集合