CN115240121A

CN115240121A - 一种用于增强行人局部特征的联合建模方法和装置

Info

Publication number: CN115240121A
Application number: CN202211155651.9A
Authority: CN
Inventors: 王宏升; 陈�光
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2022-10-25
Anticipated expiration: 2042-09-22
Also published as: WO2024060321A1; CN115240121B

Abstract

本发明公开了一种用于增强行人局部特征的联合建模方法和装置，包括以下步骤：S1：获取原始监控视频图像数据集，将原始监控视频图像数据集按比例划分训练集与测试集；S2：将监控视频图像训练集进行切割得到图像块向量序列；本发明采用多头注意力神经网络提取视频图像行人局部特征，使用通道卷积核学习图像通道权重参数，利用空间卷积在图像上扫描空间特征，增强行人局部特征提高行人识别率，采用前馈神经网络与激活函数，输入前馈神经网络经过线性层变换，并采用激活函数将行人概率分布映射成分类，识别出行人，输出行人在图像中位置坐标并框选出行人，实现行人重识别，使得能够获取可用的人脸图像。

Description

一种用于增强行人局部特征的联合建模方法和装置

技术领域

本发明涉及计算机视觉领域，特别涉及一种用于增强行人局部特征的联合建模方法和装置。

背景技术

行人重识别，是一种利用计算机视觉技术检测识别监控视频或图像中是否存在特定行人的技术。不同摄像头下行人的姿态、外观、拍摄距离等存在差别，通常情况下摄像头拍摄行人的姿态、外观、距离、清晰度等存在差别，多数情况下无法获取可用的人脸图像，无法识别行人，多数情况下无法获取可用的人脸图像，此时使用增强行人局部特征的联合建模方法和装置行人重识别技术实现行人识别与跟踪，广泛用于视频监控与安防领域。

发明内容

本发明的目的在于提供一种用于增强行人局部特征的联合建模方法和装置，以克服现有技术中的不足。

为实现上述目的，本发明提供如下技术方案：

本发明公开了一种用于增强行人局部特征的联合建模方法，包括以下步骤：

S1：获取原始监控视频图像数据集，将原始监控视频图像数据集按比例划分训练集与测试集；

S2：将监控视频图像训练集进行切割得到图像块向量序列；

S3：构建多头注意力神经网络，将图像块向量序列输入多头注意力神经网络，提取行人局部特征；

S4：构建增强通道特征神经网络，将图像输入增强通道特征神经网络，采用三通道图像卷积，捕捉行人图像通道之间差异特征；

S5：构建增强空间特征神经网络，将图像输入增强空间特征神经网络，采用空间卷积，扫描得到行人图像空间差异特征；

S6：将多头注意力神经网络的行人局部特征、增强通道特征神经网络的行人图像通道之间差异特征、增强空间特征神经网络的行人图像空间差异特征，交互拼接，进行联合建模，增强行人局部特征；

S7：将增强行人局部特征输入前馈神经网络，在图像中识别出行人；

S8：对联合建模得到的神经网络迭代训练，得到行人重识别联合模型并识别出行人。

作为优选的，所述步骤S1中原始监控视频图像数据集包括图像标注样本、图像标注样本坐标文件、未标注样本。

作为优选的，所述步骤S2包括如下子步骤：

S21：将监控视频图像按照图像的通道数进行分割，得到图像块；

S22：将图像块的高度与宽度转换成多头注意力神经网络固定的输入大小；

S23：将图像块平铺构成序列，得到图像块向量序列。

作为优选的，所述图像块向量序列的长度等于图像大小乘以图像高度乘以图像宽度，所述图像块向量序列包含图像块位置坐标，将序列转转换成矩阵，所述矩阵作为多头注意力神经网络的输入。

作为优选的，S31：计算单个注意力：对于步骤S3中图像块向量序列存在的查询矩阵、键矩阵、值矩阵，通过查询矩阵与键矩阵进行矩阵相乘得出注意力分数矩阵，将注意力分数矩阵作用于值矩阵，将两者矩阵相乘后经过激活函数得出单个注意力；

S32：构建多头注意力：针对图像块向量序列，分别计算每一个图像块向量序列的单个注意力，将每个图像块向量序列计算得出的单个注意力进行交互计算得到多头注意力；

S33：利用多头注意力提取行人局部特征：将图像块向量序列输入已构建的多头注意力神经网络，采用局部多头自注意力机制，计算每个图像的像素与相邻图像的像素局部自注意力，通过并行矩阵乘法计算，提取行人局部特征。

作为优选的，所述步骤S4包括如下子步骤：

S41：针对输入图像的三个通道，构建三通道增强图像卷积神经网络，三通道增强图像卷积神经网络包括三个卷积核，三个卷积核分别对应图像的三个通道；

S42：三个卷积核分别学习相对应图像通道的权重参数，输出三组不同的权重参数；

S43：三个卷积核之间独立计算，学习三个同通道之间的差异参数权重，得到三个通道特征空间图，将三个通道特征空间图交互计算得出行人图像通道特征。

作为优选的，所述步骤S5包括如下子步骤：

S51：定义一个二维卷积，将二维卷积在空间上分为两个子卷积核；

S52：使用两个子卷积核分别扫描图像空间特征，得到两个空间特征，将两个空间特征进行矩阵相乘得到行人图像空间差异特征。

作为优选的，所述步骤S6包括如下子步骤：

S61：增强通道特征神经网络至多头注意力神经网络的交互拼接：首先卷积网络的输出经过全局平均池化层，使用第一层三通道卷积进行图像通道间的权重参数学习，经过第一层激活函数之后再使用第二层三通道卷积变换维度，最后经过激活函数将特征值转化为概率分布，并将概率分布输入多头自注意力分支中计算；

S62：多头注意力神经网络至增强通道特征神经网络的交互拼接：多头注意力计算的输出经过第一层三通道卷积，学习三通道之间不同的权重参数，并将图像道数转换为一，经过第一层激活函数之后再经过第二层三通道卷积，减少学习到的权重参数，经过第二层激活函数，变为空间维度上的概率分布，作为增强通道特征卷积网络分支中的输出；

S63：增强空间特征神经网络至增强通道特征神经网络的交互拼接：增强空间特征神经网络的二维卷积的两个子卷积输出行人多维卷积空间特征矩阵，将行人多维空间特征矩阵转换成二维空间特征矩阵，通过矩阵乘法再经过激活函数，作为增强通道特征神经网络的输出；

S64：将多头注意力的输出、增强通道特征卷积的输出、空间卷积的输出输入多层感知机，行人局部特征通过线性层映射到并行分支进行特征融合计算，得到增强行人局部特征。

作为优选的，所述步骤S7包括如下子步骤：

S71：采用前馈神经网络与激活函数方式，针对已得出的增强行人局部特征输入前馈神经网络中，经过线性层变换，并采用激活函数将行人概率分布映射成分类，识别出行人；

S72：根据已识别的行人和原始监控视频图像数据集中的图像标注样本坐标，计算两者坐标的交并比、计算精确率与召回率，其中精确率是针对已识别出的行人，表示预测为正的样本中真正的行人的比例；召回率是针对原始监控视频图像数据集中的图像标注样本，表示样本中的正例中被正确识别行人比例。

作为优选的，所述步骤S8包括如下子步骤：

S81：对联合建模得到的神经网络采用残差连接方式，加速模型收敛，迭代训练，调整训练参数，得到行人重识别联合模型；

S82：根据步骤S81训练得到的行人重识别联合模型，输入原始监控视频图像测试集进行预测，并在图像中框选出行人，实现行人重识别。

本发明公开了一种用于增强行人局部特征的联合建模装置，包括以下模块：

获取原始监控视频图像样本集模块，用于获取原始数据集；

图像分割模块，将图像按照通分割得到图像块；

行人局部特征模块，用于构建多头注意力神经网络，提取行人局部特征；

行人图像通道之间差异特征模块，用于构建增强通道特征神经网络，采用卷积神经网络，捕捉行人图像通道之间差异特征；

行人图像空间差异特征模块，用于构建增强空间特征神经网络，扫描行人图像空间差异特征；

增强行人局部特征模块，用于将多头注意力神经网络的行人局部特征、增强通道特征神经网络的行人图像通道之间差异特征、增强空间特征神经网络的行人图像空间差异特征，交互拼接，进行联合建模；

行人识别模块，用于构建前馈神经网络，增强行人局部特征经过线性变换映射成行人概率输出；

模型训练模块：用于对联合建模得到的神经网络迭代训练，更新模型参数，直到模型训练收敛，得到行人识别职合模型；

图像行人识别模块：将测试集行人识别职合模型中识别出行人。

本发明公开了一种用于增强行人局部特征的联合建模装置，所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述用于增强行人局部特征的联合建模方法。

本发明的有益效果：本发明一种用于增强行人局部特征的联合建模方法和装置实现行人重识别，采用多头注意力神经网络提取视频图像行人局部特征，使用通道卷积核学习图像通道权重参数，利用空间卷积在图像上扫描空间特征，增强行人局部特征提高行人识别率，采用前馈神经网络与激活函数，输入前馈神经网络经过线性层变换，并采用激活函数将行人概率分布映射成分类，识别出行人，输出行人在图像中位置坐标并框选出行人，实现行人重识别，使得能够获取可用的人脸图像。

附图说明

图1是本发明实施例的整体流程图；

图2是本发明实施例监控视频图像行人局部特提取示意图；

图3是本发明实施例行人图像通道特征捕捉示意图；

图4是本发明实施例行人图像空间特征扫描示意图；

图5是本发明实施例增强行人局部特征示意图；

图6是本发明实施例装置示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

参阅图1，本发明一种用于增强行人局部特征的联合建模的行人重识别方法，针对视频图像进进行分割得到图像块；将图像块序列输入多头注意力神经网络，提取行人局部特征；图像块输入三通道卷积神经网络，捕捉行人图像通道特征；构建增强通道特征神经网络，捕捉行人图像通道之间差异特征；局部特征、图通道特、空间特征交互拼接，联合建模；将增强行人局部特征输入前馈神经网络，在图像中识别出行人；对多头注意力神经网络与卷积神经网络迭代训练，得到行人重识别联合模型；将测试集输入行人重识别联合模型输出行人识别结果。使用该方法和装置能够跨多个摄像头监控视频与图像，对目标行人进行跟踪并识别。

通过以下步骤对本发明进行详细说明。

本发明是一种用于增强行人局部特征的联合建模方法，整个过程分为八个阶段：

第一阶段，获取原始监控视频图像数据集，将原始监控视频图像数据集按比例划分训练集与测试集；

第二阶段，监控视频图像分割：将原始监控视频图像训练集图像按照图像通道进行分割得到图像块；

第三阶段，监控视频图像行人局部特提取：采用多头注意力神经网络（Transformer）对图像块进行特征提取；

第四阶段，行人图像通道特征捕捉：采用三通道图像卷积，捕捉图像通道特征；

第五阶段，行人图像空间特征扫描：采用空间卷积，扫描图像空间特征；

第六阶段，增强行人局部特征：局部特征、图通道特、空间特征交互拼接，进行联合建模，增强行人局部特征；

第七阶段，图像中识别出行人：采用前馈神经网络与激活函数，针对已得出的增强行人局部特征输入前馈神经网络中，经过线性层变换，并采用激活函数将行人概率分布映射成分类，识别出行人；

第八阶段，行人重识别联合模型与行人识别：对行人重识别联合模型迭代训练，得到行人重识别联合模型并识别出行人。

进一步地，所述第一阶段中原始监控视频图像数据集包括图像标注样本、图像标注样本坐标文件、未标注样本。

进一步地，所述第二阶段具体为：将训练集中每张视频监控图像按照图像高度乘以宽度乘以通道数得出数量，并按照得出的数量进行图像分割，并且每个图像块拥有唯一的标识，采用线性变换将大小不相同的图像块，映射成多头注意力神经网络的指定的输入大小，把每个拥有唯一的标识的图像块平铺构成序列，得到图像块序列，序列长度等于图像块数量乘以图像块高度乘以图像块宽度，序列包含图像块位置坐标，再将序列转转换成矩阵，矩阵作为多头注意力神经网络（Transformer）的输入。

进一步地，所述第三阶段具体为：将矩阵输入多头注意力神经网络（Transformer）行人局部特征提取，参阅图2，包括以下子步骤：

步骤一：首先计算单个注意力，对于图像块向量序列存在查询（Query）矩阵、键（Key）矩阵、值（Value）矩阵，通过查询（Query）矩阵与键（Key）矩阵进行矩阵相乘得出注意力分数矩阵，将注意力分数矩阵作用于值（Value）矩阵，两者矩阵相乘之后经过激活函数得出单个注意力；计算多头注意力，针对图像块向量序列，分别计算每一个图像块向量序列的单个注意力，将每个图像块向量序列计算得出的单个注意力进行交互计算得到多头注意力。

步骤二：将图像块向量序列输入多头注意力神经网络，计算每个图像的像素与相邻图像的像素局部自注意力，通过并行矩阵乘法计算，捕捉行人局部特征，计算方式如下：

1、将向量特征Query，Key，Value输入多头层，采用

表示输入权重向量，通过Query和Key 进行矩阵相乘计算，并通过激活函数（Softmax）计算向量注意力分布；

2、

通过激活函数（Softmax）计算多头注意力权重；

3、

，其中

为注意力概率分布，

为注意力评分；

4、计算单个注意力：

；

5、多头注意力：

；

其中

表示多个注意力头。

进一步地，所述第四阶段具体为：将图像输入三通道图像卷积神经网络，捕捉行人图像通道特征，参阅图3，分为以下子步骤：

步骤一：针对输入图像的三个通道，构建三通道图像卷积神经网络，三通道图像卷积神经网络包括三个卷积核，三个卷积核分别对应图像的三个通道；三个卷积核分别学习相对应图像通道的权重参数，输出三组不同的权重参数，卷积核的尺寸为 1×1×3，其中3为输入的图像的通道数；将图像输入三通道图像卷积神经网络中，输入的图像在卷积深度方向上进行加权组合，经过3个1×1×3的卷积核后，输出3个局部特征，局部特征包含3个通道之间的权重参数，计算公式如下：

；

其中：

为输出矩阵，I为输入矩阵，K为卷积核矩阵，卷积核矩阵K形状为

；

表示输入矩阵的元素

与核矩阵的元素

相乘，

分别在矩阵的横向和纵向累加求和。

步骤二：三个卷积核之间独立计算，学习三个同通道之间的差异参数权重，得到三个通道特征空间图，将三个通道特征空间图交互计算得出行人图像通道特征。

进一步地，所述第五阶段具体为：构建增强空间特征神经网络，扫描行人图像空间差异特征，参阅图4，分为以下子步骤：

步骤一：将二维卷积3×3在空间上分为两个子卷积核，第一个卷积核大小为3×1，第二个卷积核大小为1×3；

步骤二：使用两个子卷积核分别扫描图像空间特征，得到两个空间特征图，将两个子卷积矩阵相乘得到图像空间特征。

进一步地，所述第六阶段具体为：多头注意力神经网络的输出、通道卷积神经网络的输出、增强空间特征神经网络的输出，交互拼接，联合建模，参阅图5，分为以下子步骤：

步骤一：卷积至多头注意力的交互拼接，卷积网络的输出先经过全局平均池化层，首先经过第一层三通道卷积并使用1×1卷积核进行通道间的权重特征提取，采用激活函数（GELU），其次经过第二层1×1三通道卷积变换维度减少参数，最后经过激活函数（Softmax）将特征值转化为概率分布，将概率分布作为多头自注意力Value输入并计算。

步骤二：多头注意力至卷积分支的交互拼接，多头注意力计算的输出，经过第一层三通道1×1卷积，捕捉局部特征，采用激活函数（GELU），接着经过第二层1×1三通道卷积变换维度减少参数，并将图像道数转换为一，通过激活函数（Softmax）之后变为空间维度上的概率分布，作为卷积分支中的输出。

步骤三：增强空间特征神经网络至增强通道特征神经网络的交互拼接，增强空间特征神经网络的二维卷积的两个子卷积输出行人多维卷积空间特征矩阵，将行人多维空间特征矩阵转换成二维空间特征矩阵，通过矩阵乘法再经过激活函数（Softmax），作为增强通道特征神经网络的输出。

步骤四：将多头注意力的输出、通道卷积的输出、空间卷积的输出输入多层感知机，行人局部特征通过线性层映射到并行分支进行特征融合计算，得到增强行人局部特征，计算公式如下：

；

其中：

为多头注意力输出，

为卷积输出，

为拼接，

为权重，

为损失，

为卷积，

与

为特征向量，

为线性层，

为多层感知机。

进一步地，所述第七阶段具体为：图像中识别出行人，分为以下子步骤：

步骤一：采用前馈神经网络与激活函数（Softmax），针对已得出的增强行人局部特征输入前馈神经网络中，经过线性层变换，并采用激活函数（Softmax）将行人概率分布映射成分类，识别出行人；

步骤二：根据已识别的行人，原始监控视频图像数据集中的图像标注样本坐标，计算两者坐标的交并比；计算精确率与召回率，精确率是针已识别出的行人，表示预测为正的样本中有多少是真正的行人；召回率是针对原始监控视频图像数据集中的图像标注样本，表示样本中的正例有多少行人被正确识别。

进一步地，所述第八阶段具体为：行人重识别联合模型与行人识别，分为以下子步骤：

步骤一：防止行人重识别联合模型在训练过程中梯度爆炸，梯度消失，采用残差连接方式，加速模型收敛，迭代训练，调整训练参数，得到行人重识别联合模型；

步骤二：根据步骤一训练得到的行人重识别联合模型，输入原始监控视频图像测试集进行预测并在图像中框选出行人，实现行人重识别。

本发明实施例还提供了一种用于增强行人局部特征的联合建模装置，包括以下模块：获取原始监控视频图像样本集模块，用于获取原始数据集；图像分割模块，将图像按照通分割得到图像块；行人局部特征模块，构建多头注意力神经网络，提取行人局部特征；行人图像通道之间差异特征模块，构建增强通道特征神经网络，捕捉行人图像通道之间差异特征；行人图像空间差异特征模块，构建增强空间特征神经网络，扫描行人图像空间差异特征；增强行人局部特征模块，将多头注意力神经网络的行人局部特征、增强通道特征神经网络的行人图像通道之间差异特征、增强空间特征神经网络的行人图像空间差异特征，交互拼接，进行联合建模；行人识别模块，构建前馈神经网络，增强行人局部特征经过线性变换映射成行人概率输出；模型训练模块：将卷积神经网络与多头注意力神经网络迭代训练，更新模型参数，直到模型训练收敛，得到行人识别职合模型；图像行人识别模块：将测试集行人识别职合模型中识别出行人。

参见图6，本发明实施例还提供了一种用于增强行人局部特征的联合建模装置，还包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的用于增强行人局部特征的联合建模方法。

本发明一种用于增强行人局部特征的联合建模装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本发明一种用于增强行人局部特征的联合建模装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的用于增强行人局部特征的联合建模方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于增强行人局部特征的联合建模方法，其特征在于：包括以下步骤：

S2：将监控视频图像训练集进行切割得到图像块向量序列；

2.如权利要求1所述的一种用于增强行人局部特征的联合建模方法，其特征在于：所述步骤S1中原始监控视频图像数据集包括图像标注样本、图像标注样本坐标文件、未标注样本。

3.如权利要求1所述的一种用于增强行人局部特征的联合建模方法，其特征在于：所述步骤S2包括如下子步骤：

S23：将图像块平铺构成序列，得到图像块向量序列。

4.如权利要求1所述的一种用于增强行人局部特征的联合建模方法，其特征在于：所述图像块向量序列的长度等于图像大小乘以图像高度乘以图像宽度，所述图像块向量序列包含图像块位置坐标，将序列转转换成矩阵，所述矩阵作为多头注意力神经网络的输入。

5.如权利要求1所述的一种用于增强行人局部特征的联合建模方法，其特征在于：所述步骤S3包括如下子步骤：

S31：计算单个注意力：对于步骤S3中图像块向量序列存在的查询矩阵、键矩阵、值矩阵，通过查询矩阵与键矩阵进行矩阵相乘得出注意力分数矩阵，将注意力分数矩阵作用于值矩阵，将两者矩阵相乘后经过激活函数得出单个注意力；

6.如权利要求1所述的一种用于增强行人局部特征的联合建模方法，其特征在于：所述步骤S4包括如下子步骤：

7.如权利要求1所述的一种用于增强行人局部特征的联合建模方法，其特征在于：所述步骤S5包括如下子步骤：

8.如权利要求1所述的一种用于增强行人局部特征的联合建模方法，其特征在于：所述步骤S6包括如下子步骤：

9.如权利要求1所述的一种用于增强行人局部特征的联合建模方法，其特征在于：所述步骤S7包括如下子步骤：

10.如权利要求1所述的一种用于增强行人局部特征的联合建模方法，其特征在于：所述步骤S8包括如下子步骤：

11.一种用于增强行人局部特征的联合建模装置，其特征在于，包括以下模块：

获取原始监控视频图像样本集模块，用于获取原始数据集；

图像分割模块，将图像按照通分割得到图像块；

12.一种用于增强行人局部特征的联合建模装置，其特征在于：所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-10任一项所述用于增强行人局部特征的联合建模方法。