CN111553213A

CN111553213A - 移动边缘云中实时分布式的身份感知行人属性识别方法

Info

Publication number: CN111553213A
Application number: CN202010303792.5A
Authority: CN
Inventors: 徐子川; 吴将凯; 夏秋粉
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-18
Anticipated expiration: 2040-04-17
Also published as: CN111553213B

Abstract

本发明属于计算机视觉技术领域，提供了一种移动边缘云中实时分布式的身份感知行人属性识别方法。本发明首次提出了跨摄像头分析身份绑定的行人属性的系统，并给出了完整的算法实现与部署方案。此外，本发明中某些局部算法均存在对现有技术的改进。一是改进的行人属性识别与行人重识别联合训练方法，在减少神经网络冗余信息的同时提升了识别精度；二是分布式行人图像库，采用并行计算加速了行人重识别中特征距离计算的过程。此外，基于上下文多臂老虎机的模块分配算法具有普适性，可用于其他模型在移动边缘网络中的部署。

Description

移动边缘云中实时分布式的身份感知行人属性识别方法

技术领域

本发明涉及行人属性识别与行人重识别技术，属于计算机视觉领域，涉及一种移动边缘云中实时分布式的身份感知行人属性识别方法。

背景技术

行人属性识别(Pedestrian Attribute Recognition,PAR)技术的目的是从给定的图像或视频序列中识别出目标行人的属性，如性别、年龄、发型、穿着等。行人属性是可用于检索的语义描述，越来越多地被应用于智能监控领域。与方向梯度直方图(Histogram ofOriented Gradient,HOG)等底层特征不同的是，属性可以看作是高层的语义信息，通常作为辅助信息被集成到计算机视觉领域其他任务中。行人属性识别从基于支持向量机(Support Vector Machine,SVM)的传统方法发展到目前基于深度学习(Deep Learning,DL)的最新方法后，识别精度与鲁棒性有了显著提升。然而，现有的行人属性识别的输入都是经过裁切的行人图像或视频序列，画面中只有单个行人。识别的结果只是当前给定行人的属性，无法在识别属性的同时识别出行人的身份，将属性与行人身份绑定。若将现有行人属性识别技术用于智能监控系统，同一行人在不同摄像头下、不同视角、不同背景被识别出的属性无法相联系，无法被归纳到该人，系统会认为是不同行人的属性，可见绑定身份信息对于行人属性来说是十分重要的。如何实现身份感知，将不同摄像头下的行人属性归纳到个人，实现跨摄像头的行人属性识别，还有大量研究工作需要完成。

传统监控系统主要依靠人工查看回放来发现问题，没有主动监督的功能。随着计算机视觉(Computer Vision,CV)的发展，智能视觉监控能够在不需要人为干预的情况下，通过对摄像机采集的图像序列进行自动分析，实现对动态场景中目标的定位、识别与追踪。系统不间断地进行监控，当异常发生时，向安保人员准确及时地发出警报，从而避免犯罪的发生，同时也减少雇佣大批监视人员所需要的人力、物力和财力的投入。

云计算(Cloud Computing)能够为计算机视觉提供算力支撑，现有的智能视觉监控解决方案通常是基于一种集中式结构，所有摄像头都把采集到的数据传输到远程的云服务器上进行集中式处理。然而，如果把摄像头拍摄的所有原始视频都传输到远程云上，这会导致严重的传输延迟。同时，由于大多数时候摄像头下是没有行人经过的，此时的数据是一种冗余，若依然传输会造成带宽的严重浪费。故要实现智能视觉监控系统的实时分析，还存在许多问题。

随着5G技术的快速发展，移动边缘计算(Mobile Edge Computing,MEC)正在成为一个有前景的范例，以实现移动用户附近的实时网络服务。在支持MEC的摄像头网络中，CV的任务可以被卸载到附近的计算节点，如cloudlets或带有人工智能加速器的基站。然而，现有的CV模型推理框架无法直接被部署到MEC网络中，存在算力限制与通信开销等问题，故迫切需要在MEC网络中对CV推理模型和任务分配进行更细粒度的集成。

发明内容

本发明所要解决的一个技术问题是如何实现身份感知，将不同摄像头下相同行人的属性与身份绑定，实现跨摄像头的行人属性识别。

另一个技术问题是如何将本发明的推理框架分布式地部署在移动边缘网络上，以最小化在线推理请求的延迟，实现监控系统的实时分析。同时，分布式部署算法应该能够根据网络环境的变化而动态地调整部署方式。

本发明的技术方案：

为了解决上述问题，本发明提出了一种移动边缘云中实时分布式的身份感知行人属性识别方法，步骤如下：

(1)神经网络训练子系统

采用行人重识别技术实现行人身份感知，将行人属性识别与行人重识别的联合训练，在一个神经网络中同时完成两个子任务，以实现在识别行人属性的同时识别出身份；

(1.1)用卷积神经网络作为骨干网络，对输入的图片提取特征表示；

(1.2)现有的行人属性识别与行人重识别联合训练方法都是将每个属性的识别当做单独的任务，为每个属性独立地训练分类器。然而这样训练得到的模型会包含巨大的冗余信息，臃肿的模型不适合在移动边缘网络中动态地分配。与之不同的是，本发明将所有属性同时考虑，训练单个能够同时识别所有属性的分类器。属性间的相关性也能够被学习，识别的精度得以提升。同时减少了模型的冗余信息，模型容量得以大幅减小，利于在移动边缘网络中动态地分配。

行人属性识别子任务的输入为骨干网络提取的特征表示，损失函数为交叉熵损失函数：

w_j＝exp(-ρ_j/σ²)

其中：N是训练集中的样本数目，M是训练集中每位行人的属性数目。

是预测行人样本i含有属性j的概率。y_ij是真实值，指明了行人样本i是否含有属性j。对于属性j，有损失权重w_j来处理属性分布不均衡的问题。ρ_j是属性j在训练集中的比率。σ是用来调优的超参数。

(1.3)属性识别子任务的输出与骨干网络提取的特征表示相连接，作为新的特征表示。行人重识别子任务的输入为新的特征表示，损失函数为分类交叉熵函数：

其中：N是训练集中的样本数目，K是训练集含有的行人数目。是预测行人样本i的编号为k的概率。y_ik是真实值，指明了行人样本i的编号是否为k。

(1.4)采用多任务学习，在单个模型中同时完成行人属性识别与行人重识别两个子任务。两个子任务对应骨干网络之后的两个分支。训练时，整体的损失函数为：

其中：λ为超参数，用来平衡行人属性识别与行人重识别两个子任务的损失值。

(2)分布式推理子系统

(2.1)模块的位置：将推理框架拆分为4个模块，同时使模块间的通信开销最小。模块可以被分配到不同的边缘服务器，实现分布式推理。现有技术采用将摄像头拍摄的所有原始视频皆传输到云端，这会导致严重的传输延迟。同时，由于大多时刻摄像头下是没有行人经过的，此时的数据是一种冗余，若依然传输会造成带宽的严重浪费。本发明中，模块A从摄像头端原始视频流中提取有效的行人图像，发送至服务器。故本系统中，模块A搭载于摄像头端，模块B、C、D搭载于边缘服务器端。

(2.2)模块的数目：现有的行人重识别技术只含有单个行人图像库，随着系统的不断运行，图像库将变得巨大，因此计算特征距离的耗时将会成为系统性能的瓶颈。与之不同的是，本发明采用了多个分布式图像库，通过并行计算加速特征距离计算这一过程。故本系统中存在多个模块C，模块B、D仅有一个，模块A的数目为摄像头的数目。

(2.3)各模块详细说明，以一次推理请求为例：

(2.3.1)模块A：模块A为行人检测器，搭载于各摄像头上。模块A从实时的视频流中提取出有效的行人图片x，将x作为待识别的行人发送到模块B进行处理；

(2.3.2)模块B：此模块B接收模块A发出的x。模块B使用训练完成的神经网络，提取x的特征表示φ。φ输入行人属性识别分支，识别出行人的属性序列

与φ相连接，形成新的特征表示φ′。与神经网络训练阶段不同的是，φ′不再输入行人重识别分支，而是作为待检索行人的完整特征传输到每个模块C；

(2.3.3)模块C：此模块C包含一个分布式行人图像库，图像库中存储的是已编号的行人特征。当收到模块B发出的待检索行人特征φ′后，模块C会计算待检索特征φ′与图像库中各特征之间的相似度。最大的m个相似度值与对应的行人编号被发送到模块D；

(2.3.4)模块D：此模块D存储已编号的行人属性。设有n个模块C，模块D接收各模块C发出的m个带编号的相似度，将收到的所有m×n个相似度进行排序，得到最大的相似度值为s，对应编号为k。若s小于阈值ε，则表明待检索行人x首次进入系统的监控范围，x不存在于n个行人图像库中。此时，模块D为行人x分配编号，并将其属性

与编号更新到模块D的属性集合中。若s大于等于阈值ε，则表明待检索行人x编号为k，此时应该用新识别的属性

更新模块D属性集合中编号k的历史属性。模块D执行完后，将特征φ′与编号更新回图像库中；

模块D中存储的是跨摄像头且与身份绑定的行人属性，问题一得以解决。

(3)基于上下文多臂老虎机的模块分配子系统：

在本发明提出的分布式推理模型中，各模块的位置对在线推理请求的延迟起着决定性的作用，而当前摄像头网络的状态影响着模块位置的选择。本发明提出一种基于上下文多臂老虎机(Contextual Multi-Armed Bandits)的模块分配算法，将网络状态作为上下文，为模块放置位置与数据传输链路的选择给出最优决策。系统为每个模块分配一个代理，代理负责其模块在每个决策周期的决策。

具体运行过程如下：

(3.1)初始化存储摄像头网络延迟统计信息的经验回放存储器M；

(3.2)初始化策略集Π。其中：每个策略π(π∈Π)对应D到A的不同映射。D是所有可能网络状态的集合，且网络状态数量有限。A是所有可能行动a的集合，且行动a数量有限。a可以表示为{0,1}的集合，其中1表示代理选择了某边缘服务器来运行模块或选择了某链路来进行数据传输，而0表示未选择它们；

(3.3)在每个决策周期开始时，从M中取得

其中：

表示边缘服务器处理一次请求产生的最大与最小处理延迟。

表示传输一次请求的数据产生的最大与最小传输延迟；

(3.4)将处理延迟与传输延迟划分为L个等级，每一级l(1≤l≤L表示固定的延迟范围；

(3.5)观察当前网络环境，并用(3.4)划分的延迟等级进行量化，记当前网络状态为d。其中：d∈D；

(3.6)对策略集Π中的每个策略π：计算网络状态为d时，π所对应的行动a产生回报的期望。选择回报期望最大的策略π。其中：策略π的回报是指采取行动a后，处理延迟和传输延迟的减少量。策略的历史回报信息存储在策略集中；

(3.7)观察所选策略π的回报，更新策略集Π与经验回放存储器M。新的决策周期开始时，返回(3.3)继续执行；

代理通过在线学习，给出的是模块分配的最优决策，且能根据网络状态的变化动态地调整部署方式，问题二得以解决。

本发明的有益效果：

(1)行人属性是可用于检索的语义描述，对智能安防有很大的意义。然而，现有的行人属性识别算法大多作为其他视觉任务的辅助，无法单独在智能监控系统中发挥分析作用，原因有两方面：一是现有技术无法将属性与行人身份绑定。若将现有行人属性识别技术用于智能监控系统，同一行人在不同摄像头下被识别出的属性无法相联系，会被系统认为是不同行人的属性，如此的属性信息是无意义的。二是现有的部署方式存在延迟大、带宽浪费等问题，不利于实时分析。本发明提出的推理模型，能够实现跨摄像头的身份感知行人属性识别。与身份绑定的行人属性，在智能监控系统中产生了巨大的应用价值。此外，本发明提出的基于上下文多臂老虎机的模块分配算法，使系统能将推理模型分布式地部署在移动边缘网络上，最小化在线推理请求的延迟，实现监控系统的实时分析。同时，系统能够根据网络状态的变化动态地调整部署方式，表现出优秀的自适应能力和鲁棒性。

(2)本发明首次提出了跨摄像头分析身份绑定的行人属性的系统，并给出了完整的算法实现与部署方案。此外，本发明中某些局部算法均存在对现有技术的改进。一是改进的行人属性识别与行人重识别联合训练方法，在减少神经网络冗余信息的同时提升了识别精度；二是分布式行人图像库，采用并行计算加速了行人重识别中特征距离计算的过程。此外，基于上下文多臂老虎机的模块分配算法具有普适性，可用于其他模型在移动边缘网络中的部署。

附图说明

图1为本发明所述的行人属性识别与行人重识别联合训练的神经网络结构图。

图2为本发明所述的分布式推理流程图。

图3为本发明所述的基于上下文多臂老虎机的模块分配算法流程图。

具体实施方式

为了将本发明的目的，技术方案和优点表达的更清晰明了，接下来将通过实施例和附图，对本发明做进一步的详尽的说明。此处的具体实施例仅用来解释说明本发明，并不局限于本发明。

一种移动边缘云中实时分布式的身份感知行人属性识别方法及系统，所用的系统包括神经网络训练子系统、分布式推理子系统、基于上下文多臂老虎机的模块分配子系统。

参照图1，神经网络训练子系统的详细说明如下：

采用在ImageNet上预训练后的ResNet-50作为骨干网络，对输入的图片提取特征表示；

现有的行人属性识别与行人重识别联合训练方法都是将每个属性的识别当做单独的任务，为每个属性独立地训练分类器。然而这样训练得到的模型会包含巨大的冗余信息，臃肿的模型不适合在移动边缘网络中动态地分配。与之不同的是，本发明将所有属性同时考虑，训练单个能够同时识别所有属性的分类器。属性间的相关性也能够被学习，识别的精度得以提升。同时减少了模型的冗余信息，模型容量得以大幅减小，利于在移动边缘网络中动态地分配。

行人属性识别子任务的输入为骨干网络ResNet-50提取的特征表示，用属性分类器进行预测。参照图1，属性分类器依次包含512维的全连接(Fully Connected,FC)层、批归一化(Batch Normalization,BN)层、修正线性单元(Rectified Linear Unit,ReLU)层、Dropout层以及最后的全连接层。损失函数为交叉熵损失函数：

w_j＝exp(-ρ_j/σ²)

是预测行人样本i含有属性j的概率。y_ij是真实值，指明了行人样本i是否含有属性j。对于属性j，有损失权重w_j来处理属性分布不均衡的问题。σ_j是属性j在训练集中的比率。σ是用来调优的超参数，取σ＝0.95。

属性分类器的输出与骨干网络ResNet-50提取的特征表示相连接，作为新的特征表示。行人重识别子任务的输入为新的特征表示，用身份分类器进行预测。参照图1，身份分类器依次包含512维的全连接层、批归一化层、Dropout层以及最后的全连接层。损失函数为分类交叉熵函数：

其中：N是训练集中的样本数目，K是训练集含有的行人数目。

是预测行人样本i的编号为k的概率。y_ik是真实值，指明了行人样本i的编号是否为k。

采用多任务学习，在单个模型中同时完成行人属性识别与行人重识别两个子任务。两个子任务对应骨干网络之后的两个分支。训练时，整体的损失函数为：

其中：λ为超参数，用来平衡行人属性识别与行人重识别两个子任务的损失值，取λ＝0.5。

训练时：回合(Epoch)数为80，批尺寸(Batch Size)为32，学习率(Learning Rate)为0.02且在10个回合内逐渐增大(warmup)。将输入图片缩放到384×128尺寸，并采用随机擦除(Random Erasing)。

参照图2，以一次推理请求为例，分布式推理子系统详细说明如下：

模块的位置：本发明将推理框架拆分为4个模块，同时使模块间的通信开销最小。模块可以被分配到不同的边缘服务器，实现分布式推理。现有技术采用将摄像头拍摄的所有原始视频皆传输到云端，这会导致严重的传输延迟。同时，由于大多时刻摄像头下是没有行人经过的，此时的数据是一种冗余，若依然传输会造成带宽的严重浪费。本发明中，模块A从摄像头端原始视频流中提取有效的行人图像，发送至服务器。故本系统中，模块A搭载于摄像头端，模块B、C、D搭载于边缘服务器端。

模块的数目：现有的行人重识别技术只含有单个行人图像库，随着系统的不断运行，图像库将变得巨大，因此计算特征距离的耗时将会成为系统性能的瓶颈。与之不同的是，本发明采用了多个分布式图像库，通过并行计算加速特征距离计算这一过程。故本系统中存在多个模块C，模块B、D仅有一个，模块A的数目为摄像头的数目。

模块A：此模块为行人检测器，搭载于各摄像头上。模块A用行人检测算法从实时的视频流中提取出有效的行人图片x，将x作为待识别的行人发送到模块B进行处理；

模块B：此模块接收模块A发出的x。模块B使用训练完成的神经网络，提取x的特征表示φ。φ输入行人属性识别分支，识别出行人的属性序列

模块C：此模块包含一个分布式行人图像库，图像库中存储的是已编号的行人特征。当收到模块B发出的待检索行人特征φ′后，模块C会计算待检索特征φ′与图像库中各特征之间的相似度。最大的m＝1个相似度值与对应的行人编号被发送到模块D；

模块D：此模块存储已编号的行人属性。设有n＝5个模块C，模块D接收各模块C发出的m＝1个带编号的相似度，将收到的所有5×1个相似度进行排序，得到最大的相似度值为s，对应编号为k。若s小于阈值ε＝0.9，则表明待检索行人x首次进入系统的监控范围，x不存在于n＝5个行人图像库中。此时，模块D为行人x分配编号，并将其属性

与编号更新到模块D的属性集合中。若s大于等于阈值ε＝0.9，则表明待检索行人x编号为k，此时应该用新识别的属性

参照图3，基于上下文多臂老虎机的模块分配子系统具体运行过程如下：

初始化存储摄像头网络延迟统计信息的经验回放存储器M；

初始化策略集Π。其中：每个策略π(π∈Π)对应D到A的不同映射。D是所有可能网络状态的集合，且网络状态数量有限。A是所有可能行动a的集合，且行动a数量有限。a可以表示为{0,1}的集合，其中1表示代理选择了某边缘服务器来运行模块或选择了某链路来进行数据传输，而0表示未选择它们；

在每个决策周期开始时，从M中取得

其中：

表示边缘服务器处理一次请求产生的最大与最小处理延迟。

表示传输一次请求的数据产生的最大与最小传输延迟；

将处理延迟与传输延迟划分为L＝20个等级，每一级l(1≤l≤L)表示固定的延迟范围；

观察当前网络环境，并用划分的L个延迟等级进行量化，记当前网络状态为d。其中：d∈D；

对策略集Π中的每个策略π：计算网络状态为d时，π所对应的行动a产生回报的期望。选择回报期望最大的策略π。其中：策略π的回报是指采取行动a后，处理延迟和传输延迟的减少量。策略的历史回报信息存储在策略集中；

观察所选策略π的回报，更新策略集Π与经验回放存储器M。新的决策周期开始时，返回步骤三继续执行。

Claims

1.一种移动边缘云中实时分布式的身份感知行人属性识别方法，其特征在于，步骤如下：

(1)神经网络训练子系统

(1.2)将所有行人属性同时考虑，训练单个能同时识别所有行人属性的分类器；行人属性间的相关性也能被学习，识别的精度得以提升；同时减少了模型的冗余信息，模型容量得以大幅减小，利于在移动边缘网络中动态地分配；

其中：N是训练集中的样本数目；M是训练集中每位行人的属性数目；

是预测行人样本i含有属性j的概率；y_ij是真实值，指明了行人样本i是否含有属性j；对于属性j，有损失权重w_j来处理属性分布不均衡的问题；ρ_j是属性j在训练集中的比率；σ是用来调优的超参数；

(1.3)属性识别子任务的输出与骨干网络提取的特征表示相连接，作为新的特征表示；行人重识别子任务的输入为新的特征表示，损失函数为分类交叉熵函数：

其中：N是训练集中的样本数目；K是训练集含有的行人数目；

是预测行人样本i的编号为k的概率；y_ik是真实值，指明了行人样本i的编号是否为k；

(1.4)采用多任务学习，在单个模型中同时完成行人属性识别与行人重识别两个子任务；两个子任务对应骨干网络之后的两个分支；训练时，整体的损失函数为：

其中：λ为超参数，用来平衡行人属性识别与行人重识别两个子任务的损失值；

(2)分布式推理子系统

(2.1)模块的位置：将推理框架拆分为4个模块，同时使模块间的通信开销最小；模块被分配到不同的边缘服务器，实现分布式推理；本方法中，模块A从摄像头端原始视频流中提取有效的行人图像，发送至服务器；故模块A搭载于摄像头端，模块B、C、D搭载于边缘服务器端；

(2.2)模块的数目：本方法采用多个分布式图像库，通过并行计算加速特征距离计算过程；分布式推理子系统中存在多个模块C，模块B和模块D仅有一个，模块A的数目为摄像头的数目；

(2.3)一次推理请求：

(2.3.1)模块A：模块A为行人检测器，搭载于各摄像头上；模块A从实时的视频流中提取出有效的行人图片x，将行人图片x作为待识别的行人发送到模块B进行处理；

(2.3.2)模块B：模块B接收模块A发出的行人图片x；模块B使用训练完成的神经网络，提取行人图片x的特征表示φ；φ输入行人属性识别分支，识别出行人的属性序列

与φ相连接，形成新的特征表示φ′；与神经网络训练阶段不同的是，φ′不再输入行人重识别分支，而是作为待检索行人的完整特征传输到每个模块C；

(2.3.3)模块C：模块C包含一个分布式行人图像库，图像库中存储的是已编号的行人特征；当收到模块B发出的待检索行人特征φ′后，模块C计算待检索特征φ′与图像库中各特征之间的相似度；最大的m个相似度值与对应的行人编号被发送到模块D；

(2.3.4)模块D：模块D存储已编号的行人属性；设有n个模块C，模块D接收各模块C发出的m个带编号的相似度，将收到的所有m×n个相似度进行排序，得到最大的相似度值为s，对应编号为k；若s小于阈值ε，则表明待检索行人图片x首次进入系统的监控范围，行人图片x不存在于n个行人图像库中；此时，模块D为行人图片x分配编号，并将其属性

与编号更新到模块D的属性集合中；若s大于等于阈值ε，则表明待检索行人图片x编号为k，此时用新识别的属性

更新模块D属性集合中编号k的历史属性；模块D执行完后，将特征φ′与编号更新回图像库中；

模块D中存储的是跨摄像头且与身份绑定的行人属性；

(3)基于上下文多臂老虎机的模块分配子系统

在分布式推理子系统中，各模块的位置对在线推理请求的延迟起着决定性的作用，而当前摄像头网络的状态影响着模块位置的选择；本方法提出一种基于上下文多臂老虎机的模块分配算法，将网络状态作为上下文，为模块放置位置与数据传输链路的选择给出最优决策；基于上下文多臂老虎机的模块分配子系统为每个模块分配一个代理，代理负责其模块在每个决策周期的决策；

具体运行过程如下：

(3.2)初始化策略集Π；其中：每个策略π对应D到A的不同映射，π∈Π；D是所有可能网络状态的集合，且网络状态数量有限；A是所有可能行动a的集合，且行动a数量有限；a表示为{0,1}的集合，其中1表示代理选择了某边缘服务器来运行模块或选择了某链路来进行数据传输，而0表示未选择它们；

(3.3)在每个决策周期开始时，从M中取得

其中：

表示边缘服务器处理一次请求产生的最大与最小处理延迟；

表示传输一次请求的数据产生的最大与最小传输延迟；

(3.4)将处理延迟与传输延迟划分为L个等级，每一级l表示固定的延迟范围，1≤l≤L；

(3.5)观察当前网络环境，并用步骤(3.4)划分的延迟等级进行量化，记当前网络状态为d；其中：d∈D；

(3.6)对策略集Π中的每个策略π：计算网络状态为d时，π所对应的行动a产生回报的期望；选择回报期望最大的策略π；其中：策略π的回报是指采取行动a后，处理延迟和传输延迟的减少量；策略的历史回报信息存储在策略集中；

(3.7)观察所选策略π的回报，更新策略集Π与经验回放存储器M；新的决策周期开始时，返回(3.3)继续执行。