CN113807200B

CN113807200B - 基于动态拟合多任务推理网络的多行人识别方法及系统

Info

Publication number: CN113807200B
Application number: CN202110990135.7A
Authority: CN
Inventors: 管洪清; 徐亮; 王伟; 孙浩云; 张元杰; 张庆涛; 孙江涛; 郝焕萍
Original assignee: Qingdao Windaka Technology Co ltd
Current assignee: Qingdao Windaka Technology Co ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2024-04-19
Anticipated expiration: 2041-08-26
Also published as: CN113807200A

Abstract

本发明公开了基于动态拟合多任务推理网络的多行人识别方法及系统，包括：获取待识别的视频流，对待识别的视频帧进行解码生成待识别的视频帧序列；将待识别的视频帧序列，输入到训练后的动态拟合多任务推理神经网络，得到行人检测结果、行人属性识别结果和行人的重识别结果。采用多任务网络将行人检测、行人属性识别、行人重识别集成为一个端到端的神经网络，在多行人属性识别任务中，大大提高了检测速度。

Description

基于动态拟合多任务推理网络的多行人识别方法及系统

技术领域

本发明涉及视频处理、人工智能、深度学习技术领域，特别是涉及基于动态拟合多任务推理网络的多行人识别方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

近些年来，随着GPU等硬件设备的的发展，深度学习技术开始崛起。在众多之领域中，包括图像分类，图像分割，图像识语音识别等，深度神经网络都取得了目前最好的效果。然而随着实际应用中的需求越来越多元化，人们不单单满足于单纯的检测功能，多任务神经网络应运而生。在机器学习中，通常关心优化某一特定指标，不管这个指标是一个标准值，还是企业KPI。为了达到这个目标，训练单一模型或多个模型集合来完成指定得任务。然后，通过精细调参，来改进模型直至性能不再提升。

尽管这样做可以针对一个任务得到一个可接受得性能，但是可能忽略了一些信息，这些信息有助于在关心的指标上做得更好。具体来说，这些信息就是相关任务的监督数据。通过在相关任务间共享表示信息，模型在原始任务上泛化性能更好，这种方法称为多任务学习。

行人属性识别作为监控场景下的重要目标之一，对社区安防、人员监控等领域具有重要意义，除此之外，可以通过行人属性作为辅助信息用于描述社区居民人物识别，定位居民移动路径。在实际应用中，监控场景下的多行人属性识别需要配合行人检测和行人重识别。行人检测是人体属性识别的前提，行人重识别可以追踪行人轨迹，并且避免重复识别产生重复数据。当前的人体属性识别方案需要配合行人检测模型以及行人重识别模型才能完成针对监控场景中的多行人属性识别，最少需要经过三个模型处理，多次的特征提出，导致效率非常慢。

发明内容

为了解决现有技术的不足，本发明提供了基于动态拟合多任务推理网络的多行人识别方法及系统；通过多任务网络将行人检测、行人属性识别、行人重识别集成到一个端到端的单任务神经网络。提出特征再提取模块对行人属性特征和行人重识别特征进行再提取，提出动态拟合策略抑制多任务损失产生的强震荡，防止梯度爆炸。该方法大大地提高了监控场景下多行人属性识别的效率。

第一方面，本发明提供了基于动态拟合多任务推理网络的多行人识别方法；

基于动态拟合多任务推理网络的多行人识别方法，包括：

获取待识别的视频流，对待识别的视频帧进行解码生成待识别的视频帧序列；

将待识别的视频帧序列，输入到训练后的动态拟合多任务推理神经网络，得到行人检测结果、行人属性识别结果和行人的重识别结果。

第二方面，本发明提供了基于动态拟合多任务推理网络的多行人识别系统；

基于动态拟合多任务推理网络的多行人识别系统，包括：

获取模块，其被配置为：获取待识别的视频流，对待识别的视频帧进行解码生成待识别的视频帧序列；

多行人识别模块，其被配置为：将待识别的视频帧序列，输入到训练后的动态拟合多任务推理神经网络，得到行人检测结果、行人属性识别结果和行人的重识别结果。

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

与现有技术相比，本发明的有益效果是：

本发明通过视频流调度器获取摄像头视频流并进行解码生成视频帧序列，动态拟合多任务推理网络对视频帧序列进行处理，最终得到图像中的行人检测结果、行人属性识别结果、行人重识别结果。该网络通过特征重识别模块来将行人检测网络、行人属性识别网络、行人重识别网络集成到一个端到端的神经网络，并采用动态损失策略实现多任务损失的拟合。在多行人重识别领域相比于当前前沿算法形成的解决方案，该方法在实际应用中的检测效率和识别精度上均有显著优势。

采用多任务网络将行人检测、行人属性识别、行人重识别集成为一个端到端的神经网络，在多行人属性识别任务中，大大提高了检测速度。

本发明提出特征再提取模块对行人属性特征进行特征再提取，提高了行人属性识别的精度。

本发明提出动态拟合策略，抑制多任务损失的强烈震荡，防止梯度爆炸，这一策略可以很方便的迁移到其他多任务神经网络中。

本发明附加方面的优点将在下面的描述中部分给出，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明中多行人属性识别方法的流程图；

图2为本发明中动态拟合多任务推理网络的网络结构图；

图3为本发明中特征再提取模块的网络结构图；

图4为本发明中动态拟合策略的流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

术语解释：ROI，region of interest感兴趣区域

实施例一

本实施例提供了基于动态拟合多任务推理网络的多行人识别方法；

如图1所示，基于动态拟合多任务推理网络的多行人识别方法，包括：

S101：获取待识别的视频流，对待识别的视频帧进行解码生成待识别的视频帧序列；

S102：将待识别的视频帧序列，输入到训练后的动态拟合多任务推理神经网络，得到行人检测结果、行人属性识别结果和行人的重识别结果。

进一步地，如图2所示，所述动态拟合多任务推理神经网络，包括：

特征提取层，所述特征提取层的输入端用于输入待识别的视频帧序列；

所述特征提取层的输出端分别与行人检测分支的输入端、行人属性识别分支的输入端和行人重识别分支的输入端连接；

行人检测分支的输出端用于输出行人检测结果；

行人属性识别分支的输出端用于输出行人属性识别结果；

行人重识别分支的输出端用于输出行人重识别结果。

进一步地，所述行人检测分支，包括：依次连接的第一区域生成网络RPN(RegionProposal Networks)层和第一感兴趣区域ROI Align层；其中，第一区域生成网络RPN层与特征提取层连接；第一感兴趣区域ROI Align层分别与第一特征分类层和第一边框回归层连接。

其中，第一特征分类层，是通过softmax分类器实现；

其中，第一边框回归层，是通过全连接网络来实现。

进一步地，所述行人检测分支，工作原理包括：

经过第一RPN层提取候选框，经过第一ROI Align层进行特征对齐，最后在第一特征分类层实现行人的检测，在第一边框回归层实现行人的识别；识别类别包括：步行行人、骑行行人。

进一步地，所述行人属性识别分支，包括：依次连接的第一特征再提取模块、第二区域生成网络RPN(Region Proposal Networks)层和第二ROI Align层；其中，第一特征再提取模块与特征提取层连接；第一特征再提取模块与第二ROI Align层连接，第二ROIAlign层分别与第二特征分类层和第二边框回归层连接。

其中，第二特征分类层，是通过softmax分类器实现；

其中，第二边框回归层，是通过全连接网络来实现。

进一步地，所述行人属性识别分支，工作原理包括：

采用第一特征再提取模块提取行人属性特征，经过第二RPN层提取候选框，经过第二ROI Align层进行特征对齐，最后在第二特征分类层和第二边框回归层实现行人属性的识别；

识别信息包括：头部(帽子、人脸、口罩、眼镜)、衣服风格(短袖上衣、长袖上衣、长款上衣、短款上衣、长裤、短款、裙子)、衣服颜色(黑、白、灰、蓝、浅蓝、深蓝、红、浅红、深红、黄、橘黄、绿、深绿、棕、紫)、携带包(背包、挎包、手提包、行李箱)。

进一步地，所述行人重识别分支，包括：依次连接的第二特征再提取模块和归一化层；其中，第二特征再提取模块与特征提取层连接；归一化模块与度量学习层连接；其中，度量学习层，其被配置为，计算特征之间的距离，以衡量特征之间的相似程度。

进一步地，所述行人重识别分支，工作原理包括：

采用第二特征再提取模块提取行人之间的相似度特征；

采用归一化层对行人之间的相似度特征进行归一化处理；

最后通过度量学习计算特征之间的距离，完成行人重识别的任务。

应理解的，行人重识别的目标是为了实现行人跟踪、避免视频中同一行人的重复检测。

进一步地，所述第一特征再提取模块与第二特征再提取模块的结构是一致的。

进一步地，如图3所示，所述第一特征再提取模块，包括：

依次连接的特征切割层、特征对齐层、卷积层A1、池化层B1、卷积层A2、池化层B2、卷积层A3、池化层B3、卷积层A4和池化层B4。

进一步地，所述特征切割层，按照候选框对应到特征图上的位置进行切割；

进一步地，所述特征对齐层，为了保证切割后的特征可以进行组合计算，以最大特征图为基准，其他特征图进行补0对齐；

进一步地，所述第一特征再提取模块，其工作原理包括：

首先对特征提取层所提取出来的特征图进行特征切割，生成区域特征队列；特征切割原则：按照候选框对应到特征图上的位置进行切割；

以队列尺寸的最大长和最大宽为基准，以最大特征图为基准，对其他特征图进行补0对齐；

对齐后的区域特征队列，经过四次的卷积和池化操作计算得到再提取特征图。

应理解的，所述第一特征再提取模块与第二特征再提取模块的使用可以避免噪声干扰。

进一步地，所述训练后的动态拟合多任务推理神经网络，其训练过程包括：

构建训练集；所述训练集为已知行人检测标签、已知行人属性标签和已知行人轨迹标签的多行人视频帧序列；

将训练集输入到动态拟合多任务推理神经网络中，对其进行训练；

训练的过程中，得到第一特征分类层输出的第一损失函数值、第一边框回归层输出的第二损失函数值、第二特征分类层输出的第三损失函数值、第二边框回归层输出的第四损失函数值、度量学习层输出的第五损失函数值；

采用根绝动态拟合函数，计算每一个损失函数值的权重；

基于权重，对第一、第二、第三、第四、第五损失函数值进行加权处理，得到加权损失函数；如图4所示；

当加权损失函数达到最小值时，停止训练，得到训练后的动态拟合多任务推理神经网络。

示例性的，当所示损失计算完成后，利用动态拟合函数计算每一个损失值Loss的权重并对其进行加权处理，得到加权损失wLoss。

动态拟合函数：

其中，xs表示各个任务的损失集合，x表示当前损失值，lx表示上一次迭代产生的损失。F(x)表示当前损失值动态拟合之后的值。

动态拟合多任务推理网络，由于包含多个任务和损失函数，因此提出动态拟合策略，对强震荡损失进行加权抑制，防止梯度爆炸。

进一步地，所述S101：获取待识别的视频流，对待识别的视频帧进行解码生成待识别的视频帧序列，具体包括：

采用视频流调度器，从监控摄像头中获取视频流，对待识别的视频帧进行解码生成待识别的视频帧序列。

进一步地，采用视频流调度器，从监控摄像头中获取视频流，具体包括：

选择需要监测的区域，安装高清摄像头或者视频采集装置，获取该区域下所有的视频流，对视频流进行解码生成视频帧序列。

进一步地，所述训练后的动态拟合多任务推理神经网络部署在服务器中。

本发明能够对监控场景下的多行人属性信息进行识别，包括行人目标、行人属性(头部信息、衣服信息、衣服颜色信息、携带包信息)、行人重识别特征等。本发明通过多任务神经网络将行人检测、行人属性识别、行人重识别结成到端到端的神经网络，可以高效的完成多行人属性识别，并通过特征再提取提高识别精度。

本发明的针对监控场景下的多行人属性识别方法，行人检测、行人属性识别、行人重识别通过多任务结构集成为一个端到端的单神经网络，大大提高了多行人属性识别的检测速度；提出特征再识别模块对行人属性特征进行再提取，提高的行人属性识别的精度；提出动态拟合策略对训练过程中产生的损失进行加权抑制，有效的防止了损失震荡引起的梯度爆炸。本发明促进了智慧社区的进一步发展。

实施例二

本实施例提供了基于动态拟合多任务推理网络的多行人识别系统；

基于动态拟合多任务推理网络的多行人识别系统，包括：

此处需要说明的是，上述获取模块和多行人识别模块对应于实施例一中的步骤S101至S102，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于动态拟合多任务推理网络的多行人识别方法，其特征是，包括：

将待识别的视频帧序列，输入到训练后的动态拟合多任务推理神经网络，得到行人检测结果、行人属性识别结果和行人的重识别结果；

所述动态拟合多任务推理神经网络，包括：特征提取层，所述特征提取层的输入端用于输入待识别的视频帧序列；所述特征提取层的输出端分别与行人检测分支的输入端、行人属性识别分支的输入端和行人重识别分支的输入端连接；行人检测分支的输出端用于输出行人检测结果；行人属性识别分支的输出端用于输出行人属性识别结果；行人重识别分支的输出端用于输出行人重识别结果；

所述行人检测分支，包括：依次连接的第一区域生成网络RPN层和第一感兴趣区域ROIAlign层；其中，第一区域生成网络RPN层与特征提取层连接；第一感兴趣区域ROIAlign层分别与第一特征分类层和第一边框回归层连接；所述行人检测分支，工作原理包括：经过第一RPN层提取候选框，经过第一ROI Align层进行特征对齐，最后在第一特征分类层实现行人的检测，在第一边框回归层实现行人的识别；识别类别包括：步行行人、骑行行人；

所述行人属性识别分支，包括：依次连接的第一特征再提取模块、第二区域生成网络RPN层和第二ROI Align层；其中，第一特征再提取模块与特征提取层连接；第一特征再提取模块与第二ROIAlign层连接，第二ROIAlign层分别与第二特征分类层和第二边框回归层连接；所述行人属性识别分支，工作原理包括：采用第一特征再提取模块提取行人属性特征，经过第二RPN层提取候选框，经过第二ROI Align层进行特征对齐，最后在第二特征分类层和第二边框回归层实现行人属性的识别；

所述行人重识别分支，包括：依次连接的第二特征再提取模块和归一化层；其中，第二特征再提取模块与特征提取层连接；归一化模块与度量学习层连接；其中，度量学习层，其被配置为，计算特征之间的距离，以衡量特征之间的相似程度；所述行人重识别分支，工作原理包括：采用第二特征再提取模块提取行人之间的相似度特征；采用归一化层对行人之间的相似度特征进行归一化处理；最后通过度量学习计算特征之间的距离，完成行人重识别的任务；

所述训练后的动态拟合多任务推理神经网络，其训练过程包括：构建训练集；所述训练集为已知行人检测标签、已知行人属性标签和已知行人轨迹标签的多行人视频帧序列；将训练集输入到动态拟合多任务推理神经网络中，对其进行训练；训练的过程中，得到第一特征分类层输出的第一损失函数值、第一边框回归层输出的第二损失函数值、第二特征分类层输出的第三损失函数值、第二边框回归层输出的第四损失函数值、度量学习层输出的第五损失函数值；采用动态拟合函数，对第一、第二、第三、第四、第五损失函数值进行处理，得到损失函数；当损失函数达到最小值时，停止训练，得到训练后的动态拟合多任务推理神经网络；

动态拟合函数loss：

其中，xs表示各个任务的损失集合，x表示当前损失值，lx表示上一次迭代产生的损失，F(x)表示当前损失值动态拟合之后的值。

2.如权利要求1所述的基于动态拟合多任务推理网络的多行人识别方法，其特征是，所述第一特征再提取模块，其工作原理包括：

3.采用如权利要求1所述的基于动态拟合多任务推理网络的多行人识别方法的基于动态拟合多任务推理网络的多行人识别系统，其特征是，包括：

4.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-2任一项所述的方法。

5.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-2任一项所述方法的指令。