CN111639580A

CN111639580A - 一种结合特征分离模型和视角转换模型的步态识别方法

Info

Publication number: CN111639580A
Application number: CN202010452373.8A
Authority: CN
Inventors: 华璟; 罗利鹏
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-09-08
Anticipated expiration: 2040-05-25
Also published as: CN111639580B

Abstract

本发明公开了一种结合特征分离模型和视角转换模型的步态识别方法，该方法包括以下步骤：数据采集；训练基于特征分离模型和生成式对抗网络的视角转换器；训练视角判别器；训练步态识别器；测试与实际应用；本发明通过特征分离模型分离开外观特征和步态特征，使得在训练和实际应用中可以直接使用摄像机拍摄到的图像作为算法输入，而无需对图像进行语义分割等背景减法，有效降低了背景减法产生的误差；本发明通过视角转换降低了跨摄像头视角不同导致的识别误差；在测试时，本发明无需以步态模板或者连续视频序列作为输入，仅需要部分视频帧即可，且对是否连续没有要求。本发明提高了步态识别算法的鲁棒性。

Description

一种结合特征分离模型和视角转换模型的步态识别方法

技术领域

本发明属于计算机视觉中的步态识别领域，具体涉及一种结合特征分离模型和视角转换模型的步态识别方法。

背景技术

步态作为一种生物特征，相较脸部，指纹和虹膜等其他生物特征有其独特性。一是步态信息可以远距离捕捉识别，二是步态信息难以长期伪装。故步态识别技术在安全防控、社会保障等领域具有广泛的应用前景。

现有的步态识别方法可以分为基于模板和基于序列两种。基于模板的方法首先通过背景减法取得每帧中的人体轮廓；然后基于人体轮廓生成不同行人的步态模板；接下来通过机器学习的方法获取步态特征并测量目标的步态模板与数据库中其他模板的相似度；最后通过分类器来判断目标模板的便签。基于序列的方法，与前一种方法相比，去除了生成步态模板的步骤，直接以一段帧序列作为输入，提取时序特征，也常采用循环神经网络作为特征提取的手段。

上述两种方法都是基于一段连续的完整的去除背景的人体轮廓图序列，这与实际应用中摄像机拍摄到的图像有很大区别：一是去除图像所有背景得到人体轮廓图耗时耗力且存在误差；二是摄像机拍摄的图片可能存在连续帧丢失情况；三是上述算法对视角十分敏感，摄像头视角变动就会影响算法精度。

发明内容

针对现有技术存在的技术缺陷，本发明提出一种结合特征分离模型和视角转换模型的步态识别方法。

本发明的目的是通过以下技术方案实现的：一种结合特征分离模型和视角转换模型的步态识别方法，该方法包括以下步骤：

(1)数据采集：通过若干不同角度摄像头采集行人的行走图像，为图像标注身份标签和视角标签；

(2)训练基于特征分离模型和生成式对抗网络的视角转换器；

所述视觉转换器包括依次连接的编码器E、视角转换层V、生成器G和判别器D；

所述视角转换器的输入是：从采集图片中随机选取n组训练样本x＝[x₁,x₂,x₃…,x_n]，用x_i表示第i组图片，每组图片由两张同属于同一个人同一时段不同视角的图片组成，分别表示为

其中α，β代表不同视角，记摄像头采集的全部视角数目为m；

(a)构建编码器E实现基于卷积神经网络的特征提取与分离：编码器E是由数层卷积层构成的神经网络，输入是单张图片；每张图片通过编码器得到两个特征向量

和

其中

代表这张图片的外观纹理特征，

代表这张图片的步态特征，即：E(x_i)＝v_i，

(b)构建视角转换层V实现特征向量的视角转换：视角转换层V是一个全连接层，采用流形学习的方法来进行视角转换，从α角度到β角度的视角转换可以表述为：

其中h_k是从视角k到k+1的视角变换向量；全连接层的权重参数为H＝[h₁，h₂。。。h_m]；通过将视角α和β正确编码为矢量表示

其中e^αβ∈{0,1}，完整的特征向量视角转换过程可以写为：

v^βg′＝v^αg+He^αβ

(c)通过生成式对抗网络的方式生成视角转换后的图片，以G代指生成器，D代指判别器，两者的作用是相互对抗学习以生成高质量的图片，具体地：

生成器G采用U-net网络，将α视角的图片通过编码和视角转换得到的特征向量v^βg′，与步骤(a)中分别将两个视角图片输入编码器E得到的外观特征的均值

输入生成器G，得到生成的β视角图片，记为

是两张图片外观特征的均值，代表他们共同的外观特征；

判别器D采用CNN分类器，输入是生成器生成的图片

和真实的视角β的图片x^β，输出是real或者fake；

(d)视角转换器的目标函数如下：

它由三个损失函数组成，分别是逐像素损失L₁、多任务对抗损失L₂和外观特征相似度损失L₃，γ₁,，γ₂是超参数，用来权衡三个损失之间的比重；

L₁逐像素损失函数如下：

其中，Entropy代表交叉熵函数，E(x^α)^o代表α角度图片输入编码器后产生的外观特征，E(x^α)^g代表α角度图片输入编码器后产生的步态特征；

L₂多任务对抗损失函数如下：

L₃外观特征相似度损失函数如下：

(3)训练视角判别器：

视角判别器C由数层全卷积层接一个sofamax函数构成，目的是判断输入图片的角度编号；网络的输入是从步骤(2)的(a)步骤得到的特征向量，输出是不同视角的概率；

(4)训练步态识别器，包括：

(a)基于卷积神经网络的特征提取：从步骤(1)处理后的图片中随机选取n'组训练样本x＝[x₁,x₂,x₃…,x_n']作为网络的训练集，用x_i表示第i组图片；每组图片由若干张同一个行人同一角度下的图片组成，即x_i＝[x_i,1，x_i,2…x_i,j]，其中j为同一个人某个视角下的图片的数目；通过卷积神经网络E'可以得到一组特征向量v_i，即：E'(x_i)＝v_i，v_i＝[v_i,1,v_i,2…v_i,j]；

(b)整合特征向量：通过取平均数mean()的方法将上述得到的特征向量组整合为单一特征向量

即

(c)通过三元组损失训练网络：三元组由三个元素构成：从训练数据集中随机选一个Anchor样本记为x^A，然后再随机选取一个和Anchor属于同一类的Positive样本记为x^P和不同类的Negative样本记为x^N，由此构成一个Anchor，Positive，Negative三元组；

通过上述(a)，(b)两步，得到对应的三元组特征向量

和

让

和

特征表达之间的距离尽可能小，而

和

的特征表达之间的距离尽可能大，并且要让

与

之间的距离和

与

之间的距离之间有一个最小间隔α，公式化的表示为：

对应的目标函数：

其中+表示[]内的值大于零的时候，取该值为损失，小于零的时候，损失为零；当

与

之间的距离小于

与

之间的距离加最小间隔α时，[]内的值大于0，就会产生损失；当

与

之间的距离大于

与

之间的距离加最小间隔α时，[]内的值小于0，损失为0；

(5)测试与实际应用：对于一组步态图片Q，目标是在已标注了身份ID的图片库G中找到Q的身份，包括：

(a)视角判别：对于序列Q，通过训练好的视角判别器，判断其对应的特定角度；

(b)对序列G中的图片进行视角转换：将序列G中所有图片转换为步骤(a)中判断出的角度，得到序列G'；

(c)将序列Q输入到步态识别器网络中生成多尺度特征，将这些特征连接起来形成最终的表示F_p；将序列G'中的每一个样本均输入步态识别器网络中生成多尺度特征，并将特征连接起来生成F_g；计算F_p与F_g之间的欧式距离，距离最接近的即为序列Q的身份ID。

进一步地，所述步骤(2)构建编码器E过程中，同一个人在同一场景不同视角下的外观纹理特征

和

希望它们是相同的，步态特征

和

不同但是能够相互转换。

进一步地，所述步骤(2)中，生成器和判别器互相训练，生成器的训练目的是生成出以假乱真的图片骗过判别器，而判别器的训练目的是判别出输入图片的真假。

进一步地，所述步骤(2)中，逐像素损失L₁的目的是为了最小化伪图像和真实图像之间的像素级重建误差，外观特征相似度损失L₃的目的是在分离步态特征和外观特征中保证同一个人在相同场景不同视角下的外观纹理特征相同。

进一步地，所述步骤(3)中，训练视角判别器的损失函数采用交叉熵损失：

本发明相对于现有技术的有益效果是：

本发明提出了一种结合特征分离模型和视角转换模型的步态识别方法。第一通过特征分离模型分离开外观特征和步态特征，这使得在训练和实际应用中，可以直接使用摄像机拍摄到的图像作为算法输入，而无需对图像进行语义分割等背景减法，有效降低了背景减法产生的误差。第二通过视角转换降低了跨摄像头视角不同导致的识别误差。第三在测试的时候，无需以步态模板或者连续视频序列作为输入，仅需要部分视频帧即可，且对是否连续没有要求。综上三点提高了步态识别算法的鲁棒性。

附图说明

图1是本发明实施例视角转换器网络结构图；

图2是本发明实施例步态识别器网络结构图；

图3是本发明实施例中测试和实际应用流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本申请提出的一种结合特征分离模型和视角转换模型的步态识别方法，具体步骤如下：

步骤(1)数据采集：

通过固定架设的数个不同角度摄像头采集行人的行走图像，为图像标注身份标签和视角标签。

步骤(2)训练基于特征分离模型和生成式对抗网络的视角转换器：

视觉转换器包括依次连接的编码器E、视角转换层V、生成器G和判别器D，具体网络结构如图1所示；

整个视角转换器的输入是：从步骤(1)处理后的图片中随机选取n组训练样本x＝[x₁,x₂,x₃…,x_n]，用x_i表示第i组图片，每组图片由两张同属于同一个人同一时段不同视角的图片组成，分别表示为

其中α，β代表不同视角，记摄像头采集的全部视角数目为m。

(a)构建编码器E实现基于卷积神经网络的特征提取与分离：编码器E是由数层卷积层构成的神经网络，输入是单张图片。每张图片通过编码器得到两个特征向量

和

其中

代表这张图片的外观纹理特征，

代表这张图片的步态特征。同一个人在同一场景不同视角下的外观纹理特征

和

我们希望它们是相同的；步态特征

和

不同但是能够相互转换。即：E(x_i)＝v_i，

以此来实现特征的分离，外观特征用在之后的图像生成重构，步态特征用来识别一个人的身份。

(b)构建视角转换层V实现特征向量的视角转换：视角转换层V本质上是一个全连接层。采用流形学习的方法来进行视角转换。如果数据均匀采样于一个高维欧氏空间中的低维流形上，流形学习就是从高维采样数据中恢复低维流形结构，即找到高维空间中的低维流形，并求出相应的嵌入映射以实现维数约简。依照流形学习，从α角度到β角度的视角转换可以表述为：

其中h_k是从视角k到k+1的视角变换向量。

例如用11个摄像头采集0°到180°的步态图片，相邻摄像头之间相差18°，分别编号为角度1到角度11。那么36°的视角特征向量转换为90°就可以表述为：

全连接层的权重参数为H＝[h₁，h₂。。。h_m]。通过将视角α和β正确编码为矢量表示

其中e^αβ∈{0,1}，完整的特征向量视角转换过程可以写为：

v^βg′＝v^αg+He^αβ

(c)通过生成式对抗网络的方式生成视角转换后的图片，以G代指生成器Generator，D代指判别器Discriminator。两者的作用是相互对抗学习，以生成高质量的图片。具体地：

输入生成器G，得到生成的β视角图片，记为

是两张图片外观特征的均值，代表他们共同的外观特征；

判别器D采用基础的CNN分类器，输入是生成器生成的图片

和真实的视角β的图片x^β，输出是real或者fake；

生成器和判别器互相训练，生成器的训练目的是生成出以假乱真的图片骗过判别器，而判别器的训练目的是判别出输入图片的真假。

(d)目标函数：视角转换器的目标函数如下：

完整的各组件E，V，D，G目标函数如下：

它由三个损失函数组成，分别是逐像素损失L₁、多任务对抗损失L₂和外观相似度损失L₃。γ_1,，γ₂是超参数，用来权衡三个损失之间的比重。

L₁逐像素损失函数的目的是为了最小化伪图像和真实图像之间的像素级重建误差：

其中‖.‖₁代表一级范数，Entropy代表交叉熵函数，E(x^α)^o代表α角度图片输入编码器后产生的外观特征，E(x^α)^g代表α角度图片输入编码器后产生的步态特征，mean()是平均数函数。

L₂多任务对抗损失是生成式对抗网络中常用损失函数：

L₃外观特征相似度损失的目的是在分离步态特征和外观特征中保证同一个人在相同场景不同视角下的外观纹理特征相同：

其中‖.‖₂代表二级范数。

步骤(3)训练视角判别器：

在实际应用中，无法通过原始的摄像头数据直接确定人物的具体视角，故需要训练得到一个视角判别器来完成该目的。视角判别器用C表示，由数层全卷积层接一个sofamax函数构成，目的是判断输入图片的角度编号。网络的输入是从步骤(2)的(a)步骤得到的特征向量，输出是不同视角的概率，损失函数采用交叉熵损失：

步骤(4)训练步态识别器：

步态识别器的具体网络结构如图2所示；

(a)基于卷积神经网络的特征提取：从步骤(1)处理后的图片中随机选取n'组训练样本x＝[x₁,x₂,x₃…,x_n']作为网络的训练集，用x_i表示第i组图片。与步骤(2)不同，每组图片由若干张同一个行人同一角度下的图片组成，即x_i＝[x_i,1，x_i,2…x_i,j]，其中j为同一个人某个视角下的图片的数目。通过另一卷积神经网络E'可以得到一组特征向量v_i，即：E'(x_i)＝v_i，v_i＝[v_i,1,v_i,2…v_i,j]。

即

(c)通过三元组损失训练网络：三元组由三个元素构成：从训练数据集中随机选一个样本，该样本称为Anchor，然后再随机选取一个和Anchor(记为x^A)属于同一类的样本和不同类的样本，这两个样本分别称为Positive(记为x^P)和Negative(记为x^N)，由此构成一个Anchor，Positive，Negative三元组。通过上述(a)，(b)两步，得到对应的三元组特征向量

和

让

和

特征表达之间的距离尽可能小，而

和

的特征表达之间的距离尽可能大，并且要让

与

之间的距离和

与

之间的距离之间有一个最小间隔α。公式化的表示为：

对应的目标函数：

这里距离用欧式距离度量，+表示[]内的值大于零的时候，取该值为损失，小于零的时候，损失为零。当

与

之间的距离小于

与

与

之间的距离大于

与

之间的距离加最小间隔α时，[]内的值小于0，损失为0。

步骤(5)测试与实际应用：

测试和实际应用流程如图3所示。

对于一组步态图片Q，目标是在已标注了身份ID的图片库G中找到Q的身份。

(a)视角判别：对于序列Q，首先通过训练好的视角判别器，判断其对应的特定角度。

(b)对序列G中的图片进行视角转换：将序列G中所有图片转换为步骤(a)中判断出来的角度，得到序列G'。

(c)将序列Q输入到步态识别器网络中生成多尺度特征，将这些特征连接起来形成最终的表示F_p。然后将序列G'中的每一个样本都走一遍相同的流程，即输入步态识别器网络中生成多尺度特征，并将特征连接起来生成F_g。计算F_p与F_g之间的欧式距离，距离最接近的就是序列Q的身份ID。

以上所述仅是本发明优选的实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明所保护范围内。

Claims

1.一种结合特征分离模型和视角转换模型的步态识别方法，其特征在于，包括以下步骤：

(2)训练基于特征分离模型和生成式对抗网络的视角转换器；

所述视觉转换器包括依次连接的编码器E、视角转换层V、生成器G和判别器D。

所述视角转换器的输入是：从采集图片中随机选取n组训练样本x＝[x₁，x₂，x₃...，x_n]，用x_i表示第i组图片，每组图片由两张同属于同一个人同一时段不同视角的图片组成，分别表示为

和

其中

代表这张图片的外观纹理特征，

代表这张图片的步态特征，即：

其中eαβ∈{0，1}，完整的特征向量视角转换过程可以写为：

v^βg′＝v^αg+He^αβ

输入生成器G，得到生成的β视角图片，记为

是两张图片外观特征的均值，代表他们共同的外观特征；

判别器D采用CNN分类器，输入是生成器生成的图片

和真实的视角β的图片x^β，输出是real或者fake。

(d)视角转换器的目标函数如下：

它由三个损失函数组成，分别是逐像素损失L₁、多任务对抗损失L₂和外观特征相似度损失L₃，γ_1，，γ₂是超参数，用来权衡三个损失之间的比重；

L₁逐像素损失函数如下：

L₂多任务对抗损失函数如下：

L₃外观特征相似度损失函数如下：

(3)训练视角判别器：

视角判别器C由数层全卷积层接一个sofamax函数构成，目的是判断输入图片的角度编号；网络的输入是从步骤(2)的(a)步骤得到的特征向量，输出是不同视角的概率。

(4)训练步态识别器，包括：

(a)基于卷积神经网络的特征提取：从步骤(1)处理后的图片中随机选取n′组训练样本x＝[x₁，x₂，x₃...，x_n′]作为网络的训练集，用x_i表示第i组图片；每组图片由若干张同一个行人同一角度下的图片组成，即x_i＝[x_i，1，x_i，2…x_i，j]，其中j为同一个人某个视角下的图片的数目；通过卷积神经网络E′可以得到一组特征向量v_i，即：E′(x_i)＝v_i，v_i＝[v_i，1，v_i， ₂...v_i，j]；

即

(c)通过三元组损失训练网络：三元组由三个元素构成：从训练数据集中随机选一个Anchor样本记为x^A，然后再随机选取一个和Anchor属于同一类的Positive样本记为x^P和不同类的Negative样本记为x^N，由此构成一个Anchor，Positive，Negative三元组；通过上述(a)，(b)两步，得到对应的三元组特征向量