CN114783003B

CN114783003B - 一种基于局部特征注意力的行人重识别方法和装置

Info

Publication number: CN114783003B
Application number: CN202210714468.1A
Authority: CN
Inventors: 王宏升; 陈�光
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-09-20
Anticipated expiration: 2042-06-23
Also published as: CN114783003A; WO2023082784A1; US11699290B1

Abstract

本发明公开了一种基于局部特征注意力的行人重识别方法和装置，包括如下步骤：S1：获取原始监控视频图像数据集，并将原始监控视频图像数据集按比例划分训练集与测试集；S2：将原始监控视频图像训练集进行图像增强，得到增强图像，并将所述增强图像转化成序列数据；基于局部特征注意力的行人重识别技术，采用多头注意力机制神经网络对捕捉提取视频图像特征序列，使用多头注意力机制代替卷积神经网络中的卷积核，采用全连接层与激活函数，针对行人局部特征序列通过权值矩阵组合成完整行人特征序列，将已得到行人特征序列进行预测，输出行人在图像中位置坐标并框选出行人，实现行人重识别。

Description

一种基于局部特征注意力的行人重识别方法和装置

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于局部特征注意力的行人重识别方法和装置。

背景技术

行人重识别，是利用计算机视觉技术检测识别监控视频或者图像中是否存在特定行人的技术，提供监控行人图像，搜索识别跨监控设备下的该行人图像。不同摄像头下行人的姿态、外观、拍摄距离等存在差别，多数情况下无法获取可用的人脸图像，此时使用行人重识别技术实现行人识别。多头注意力机制特征序列行人重识别技术，采用多头注意力机制神经网络对捕捉提取视频图像特征序列，采用全连接层与激活函数，对行人局部特征序列通过权值矩阵组合成完整行人特征序列，将已得到行人特征序列进行预测，并在图像中框选出行人，实现行人重识别。

发明内容

本发明的目的在于提供一种基于局部特征注意力的行人重识别方法和装置，以克服现有技术中的不足。

为实现上述目的，本发明提供如下技术方案：

本发明公开了一种基于局部特征注意力的行人重识别方法，包括如下步骤：

S1：获取原始监控视频图像数据集，并将原始监控视频图像数据集按比例划分训练集与测试集；

S2：将原始监控视频图像训练集进行图像增强得到增强图像，并将所述增强图像转化成序列数据；

S3：使用行人重识别神经网络对增强图像进行特征序列提取，得到图像中所有物体特征序列；

S4：针对已提取的图像中所有物体特征序列，采用多头注意力机制捕捉行人局部特征序列；

S5：采用全连接层与激活函数，将行人局部特征序列通过权值矩阵组合成完整行人特征序列；

S6：将已得到行人特征序列进行预测，确定行人在图像中的位置坐标；

S7：根据已得到的行人位置坐标和原始监控视频图像数据集中的图像标注样本坐标，计算行人特征序列预测交并比；

S8：采用残差连接对行人重识别神经网络迭代训练，得到行人重识别检测模型；

S9：将测试集输入行人重识别检测模型输出行人识别结果。

作为优选的，所述步骤S1中所述原始监控视频图像数据集包括图像标注样本、图像标注样本坐标文件、未标注样本。

作为优选的，所述步骤S2的具体子步骤如下：

S21：将彩色图像转变为灰度图像；

S22：采用直方图均衡将视频监控图像从相对集中的灰度间隔转变为整个灰度范围内的均匀分布，采用非线性拉伸图像并重新分配图像像素值，使灰度范围大致相同；

S23：使用伽玛校正检测图像信号部分和浅色部分中的暗色，并增加二者的比率以提高图像对比度效果；

S24：将增强图像按照图像的高度宽度通道数进行切割，得到网格图像序列，将网格图像大小转换成行人重识别神经网络的可接收的输入大小，将每个网格图像序列转换成二维矩阵，作为行人重识别神经网络的输入。

作为优选的，所述步骤S24中，所述网格图像序列长度等于网格图像大小乘以网格图像高度乘以网格图像宽度，采用线性网络将大小不相同的网格图像映射成可被行人重识别神经网络接收，且输入大小固定的带令牌特征的网格图像，把每个令牌特征的网格图像平铺构成序列，序列包含网格图像位置编码，再将每个网格图像序列转换成二维矩阵。

作为优选的，所述步骤S3的具体过程为：通过计算和统计图像局部区域的梯度方向直方图构成特征序列，通过梯度的方向密度分布描述局部目标的表象和形状。

作为优选的，所述步骤S4的具体过程为：针对网格图像每个像素，计算每个像素相邻的局部自注意力，采用局部多头自注意力机制，二维矩阵转换成并行矩阵计算，捕捉行人局部特征序列。

作为优选的，所述步骤S5的具体过程为：采用二层全连接层与激活函数方式，针对已捕捉的行人特征序列经过第一层全连接层并激活，得到符合行人局部特征序列存在的部分神经元，根据提取到的行人局部特征序列进行组合并输入到第二层全连接层神经元处，经过组合得到完整行人特征序列。

作为优选的，所述步骤S6的具体过程为：将行人特征序列输入行人重识别神经网络，采用多头注意力进行计算，检测行人特征序列元素有多少在网格图像中心点上，计算中心到网格图像边界的距离，从而得出行人位置坐标，根据得出的位置坐标画出行人在视频监控图像边界框。

本发明公开了一种基于局部特征注意力的行人重识别装置，包括以下模块：

获取原始监控视频图像样本集模块：用于获取原始数据集，包括标注样本、未标注样本、标注样本坐标文件；

图像预处理模块：用于对原始监控视频图像数据集进行图像预处理；

图像增强模块：用于训练集图像增强，得到对应的增强图像；

图像特征序列提取模块：用于提取增强图像特征序列；

行人特征序列捕捉模块：根据所述图像中所有物体特征序列，采用多头注意力机制捕捉得到行人局部特征序列；

全连接层模块：根据所述行人局部特征序列，通过权值矩阵组合成完整行人特征序列；

行人位置预测模块：根据所述完整行人特征序列，预测出所在图像中位置坐标；

交并比计算模块：根据所述行人在图像中的位置坐标，原始监控视频图像数据集中的图像标注样本坐标，计算两者坐标的交并比；

模型训练模块：采用残差连接，对所述行人重识别神经网络进行训练，得到行人重识别模型；

图像行人识别模块：输入测试集使用行人重识别模型识别出行人。

本发明还公开了一种基于局部特征注意力的行人重识别装置，所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述基于局部特征注意力的行人重识别方法。

本发明的有益效果：本发明一种基于局部特征注意力的行人重识别方法和装置，基于局部特征注意力的行人重识别技术，采用多头注意力机制神经网络对捕捉提取视频图像特征序列，使用多头注意力机制代替卷积神经网络中的卷积核，采用全连接层与激活函数，针对行人局部特征序列通过权值矩阵组合成完整行人特征序列，将已得到行人特征序列进行预测，输出行人在图像中位置坐标并框选出行人，实现行人重识别。

附图说明

图1是本发明实施例的整体流程图；

图2是本发明实施例的图像分割示意图；

图3是本发明实施例的多头注意力机制示意图：

图4是本发明实施例的装置示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

参阅图1，本发明提供了一种基于局部特征注意力的行人重识别方法，包括如下步骤：

S2：将原始监控视频图像训练集进行图像增强，得到增强图像，并将增强图像转化成序列数据；

S8：采用残差连接，对行人重识别神经网络迭代训练，得到行人重识别检测模型；

S9：将测试集输入行人重识别检测模型输出行人识别结果。

另外，本发明还提供了一种基于局部特征注意力的行人重识别装置，包括以下模块：

图像特征序列提取模块：用于提取增强图像特征序列；

通过以下步骤对本发明进行详细说明：

本发明是一种基于局部特征注意力的行人重识别方法和装置，整个过程分为四个阶段：

第一阶段，监控视频图像增强与预处理：如图2所示，将原始监控视频图像训练集进行图像增强，得到增强图像，针对增强图像进行分割得到网格图像。

所述第一阶段具体为：获取视频图像数据集，包括图像标注样本、图像标注样本坐标文件、未标注样本；对视频图像进行图像增强得到增强图像；将增强图像转化成序列数据，包括以下子步骤：

步骤一：采用直方图均衡将视频监控图像从相对集中的灰度间隔转变为整个灰度范围内的均分布，采用非线性拉伸图像并重新分配图像像素值，使灰度范围大致相同。

步骤二：使用伽玛校正检测视频监控图像信号部分和浅色部分中的暗色，并增加二者的比率以提高图像对比度效果。

步骤三：将每张视频监控图像按照图像的高度宽度通道数进行切割，得到网格图像序列，网格图像序列长度等于网格图像大小乘以网格图像高度乘以网格图像宽度，采用线性网络将大小不相同的网格图像，映射成行人重识别神经网络的可接收的输入大小固定的带令牌特征的网格图像，把每个令牌特征的网格图像平铺构成序列，序列包含网格图像位置编码，再将序列转转换成二维矩阵，二维矩阵作为行人重识别神经网络（Transformer）的输入。

第二阶段，监控视频图像物体特征序列与行人特征序列捕捉：如图3所示，行人重识别神经网络（Transformer）对增强图像进行特征序列提取，采用多头注意力机制捕捉行人局部特征序。

所述第二阶段具体为：将二维矩阵输入行人重识别神经网络（Transformer）进行特征序列提取，包括以下子步骤：

步骤一：计算和统计图像局部区域的梯度方向直方图来构成特征序列，局部目标的表象和形状能够被梯度的方向密度分布描述出来。

步骤二：首先对二维矩阵进行整体特征提取，特征序列特征满足均值为0，方差为1的分布，得到网格图像中所有物体特征序列，特征序列包括网格图像中所有物体各部分之间的关系；

步骤三：针对已提取的网格图像中所有物体特征序列，采用多头注意力机制，将每个二维矩阵转换成并行矩阵计算，捕捉行人局部特征序列；首先整体特征序列输入嵌入层，得到长度相同的向量特征序列，计算方式如下：

1、将向量特征序列的查询矩阵Query，键矩阵Key，值矩阵Value输入多头层；

2、使用

表示输入权重向量特征序列；

3、计算注意力分布

：通过计算 Query 和 Key 进行点积相乘计算相关度，并通过激活函数Softmax计算分数；

4、

通过激活函数Softmax 计算注意力权重：

；

其中

为注意力概率分布，

为注意力打分机制。

步骤四：采用二层全连接层，针对已捕捉的行人特征序列映射到第一层全连接层中，经过激活函数，得到符合行人局部特征序列存在的部分神经元，根据提取到的行人局部特征序列进行组合并输入到第二层全连接层神经元处，经过组合得到完整行人特征序列。激活函数公式如下：

其中：

为激活函数，

为行人特征序列，

为概率分布，

为整体特征序列，

是正太分布的概率函数。

第三阶段，监控视频图像行人特征序列位置坐标预测：行人特征序列坐标位置预测，在图像中框选出行人。

所述第三阶段具体为：预测出行人位置坐标，预测出行人边界框，包括以下子步骤：

步骤一：将行人特征序列输入行人重识别神经网络（Transformer）采用多头注意力进行计算，每个行人特征序列元素有多少在网格图像中心点上，计算中心到网格图像边界的距离，从而得出行人位置坐标，行人位置坐标包括，左上角坐标，右上角坐标，左下角坐标，右下角坐标，根据得出的位置坐标画出行人在视频监控图像边界框。

步骤二：根据步骤一得出的行人位置坐标，原始监控视频图像数据集中的图像标注样本坐标，计算两者坐标的交并比，计算公式如下：

其中

为交并比，

为：行人位置坐标，原始监控视频图像数据集中的图像标注样本坐标，两者矩形框面积的交集，

为：行人位置坐标，原始监控视频图像数据集中的图像标注样本坐标，两者矩形框面积的并集。

第四阶段，行人重识别神经网络（Transformer）模型训练与行人识别：采用残差连接，对行人重识别神经网络（Transformer）迭代训练，得到行人重识别检测模型并识别出行人。

所述第四阶段具体为，行人重识别神经网络（Transformer）模型训练与行人识别，包括以下子步骤：

步骤一：由于行人重识别神经网络（Transformer）模型较大，防止模型在训练过程中梯度爆炸，梯度消失，模型采用残差连接方式，加速模型收敛，迭代训练，调整训练参数，得到行人重识别检测模型。

步骤二：根据步骤一训练得到的行人重识别检测模型，输入原始监控视频图像测试集进行预测并在图像中款选出行人，实现行人重识别。

参见图4，本发明实施例还提供了一种基于局部特征注意力的行人重识别装置，还包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的基于局部特征注意力的行人重识别方法。

本发明一种基于局部特征注意力的行人重识别装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明一种基于局部特征注意力的行人重识别装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于局部特征注意力的行人重识别方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

基于本发明一种基于局部特征注意力的行人重识别方法和装置，进行了如下实验：

步骤一：获取Market-1501 数据集，数据集在清华大学校园中采集，由6个摄像头（其中5个高清摄像头和1个低清摄像头）拍摄到的1501个行人、32668个检测到的行人矩形框，训练集有751人，包含12936张图像，平均每个人有17.2张训练数据；测试集有750人，包含19732 张图像，平均每个人有26.3 张测试数据。

步骤二：采用本发明提供的基于注意力机制的行人重识别方法，采用步骤一数据集，按照本发明具体实施方式步骤，检测19732张图片，识别出700 个行人，行人重识别率达到87.36%，并且根据实验，在不同摄像头下行人的姿态、外观、拍摄距离等存在差别，多数情况下无法获取可用的人脸图像，此时使用基于注意力机制的行人重识别方法可以提升行人重识别效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于局部特征注意力的行人重识别方法，其特征在于，包括如下步骤：

S2：将原始监控视频图像训练集进行图像增强得到增强图像，并将所述增强图像按照图像的高度宽度通道数进行切割，得到网格图像序列；

S9：将测试集输入行人重识别检测模型输出行人识别结果。

2.如权利要求1所述的一种基于局部特征注意力的行人重识别方法，其特征在于：所述步骤S1中所述原始监控视频图像数据集包括图像标注样本、图像标注样本坐标文件、未标注样本。

3.如权利要求1所述的一种基于局部特征注意力的行人重识别方法，其特征在于：所述步骤S2的具体子步骤如下：

S21：将彩色图像转变为灰度图像；

4.如权利要求3所述的一种基于局部特征注意力的行人重识别方法，其特征在于：所述步骤S24中，所述网格图像序列长度等于网格图像大小乘以网格图像高度乘以网格图像宽度，采用线性网络将大小不相同的网格图像映射成可被行人重识别神经网络接收，且输入大小固定的带令牌特征的网格图像，把每个令牌特征的网格图像平铺构成序列，序列包含网格图像位置编码，再将每个网格图像序列转换成二维矩阵。

5.如权利要求1所述的一种基于局部特征注意力的行人重识别方法，其特征在于：所述步骤S3的具体过程为：通过计算和统计图像局部区域的梯度方向直方图构成特征序列，通过梯度的方向密度分布描述局部目标的表象和形状。

6.如权利要求1所述的一种基于局部特征注意力的行人重识别方法，其特征在于：所述步骤S4的具体过程为：针对网格图像每个像素，计算每个像素相邻的局部自注意力，采用局部多头自注意力机制，二维矩阵转换成并行矩阵计算，捕捉行人局部特征序列。

7.如权利要求1所述的一种基于局部特征注意力的行人重识别方法，其特征在于：所述步骤S5的具体过程为：采用二层全连接层与激活函数方式，针对已捕捉的行人特征序列经过第一层全连接层并激活，得到符合行人局部特征序列存在的部分神经元，根据提取到的行人局部特征序列进行组合并输入到第二层全连接层神经元处，经过组合得到完整行人特征序列。

8.如权利要求1所述的一种基于局部特征注意力的行人重识别方法，其特征在于：所述步骤S6的具体过程为：将行人特征序列输入行人重识别神经网络，采用多头注意力进行计算，检测行人特征序列元素有多少在网格图像中心点上，计算中心到网格图像边界的距离，从而得出行人位置坐标，根据得出的位置坐标画出行人在视频监控图像边界框。

9.一种基于局部特征注意力的行人重识别装置，其特征在于，包括以下模块：

图像特征序列提取模块：用于将所述增强图像按照图像的高度宽度通道数进行切割，得到网格图像序列，并进行特征序列提取；

模型训练模块：采用残差连接，对行人重识别神经网络进行训练，得到行人重识别模型；图像行人识别模块：输入测试集使用行人重识别模型识别出行人。

10.一种基于局部特征注意力的行人重识别装置，其特征在于：所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-8任一项所述基于局部特征注意力的行人重识别方法。