CN116229511A

CN116229511A - 基于金丝猴躯干特征提取的身份重识别方法

Info

Publication number: CN116229511A
Application number: CN202310158824.0A
Authority: CN
Inventors: 王安文; 卫毅; 尹爽; 杨璐瑶; 张媛媛; 张添祥; 郭竞; 许鹏飞; 郭松涛
Original assignee: NORTHWEST UNIVERSITY
Current assignee: NORTHWEST UNIVERSITY
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-06-06

Abstract

本申请涉及一种基于金丝猴躯干局部特征提取的身份重识别方法，使用卷积神经网络进行全局特征提取，然后使用MMpose工具进行关键点检测，再利用得到的关键点坐标信息对全局特征进行定位切分，得到局部特征；相比较使用平均硬切分方式，利用骨架结构更能够表达金丝猴的身体结构信息，能够解决部位不对齐和姿势多样化的问题；利用得到的全局特征信息和局部特征信息构建时间和空间关系的超图结构，有效提高了视频金丝猴重识别的准确率。

Description

基于金丝猴躯干特征提取的身份重识别方法

技术领域

本申请涉及目标识别技术领域，具体地，涉及一种基于金丝猴躯干特征提取的身份重识别方法。

背景技术

金丝猴是国家一级保护动物，对金丝猴进行个体识别和检测，不仅可以起到保护作用，还可以从中更好地了解它们的习性。目前针对金丝猴的观察研究除主要通过肉眼观察，但随着计算机视觉技术的广泛应用，深度学习技术也逐渐解决了计算机视觉中的问题，其中主要应用有面部识别技术，但面部识别技术对数据要求高，而且存在不同金丝猴面部特征相似性高识别等问题。另外深度学习在其他动物诸如斑马、老虎、企鹅和大象等的识别方面有所进展，但是需要依赖动物的辅助信息，比如体型描述、外形特点和标签等。通过重识别技术利用视频中的运动时序信息和空间信息进行身份识别，将金丝猴外观特征和步态时序特征结合达到对金丝猴识别的目的。

目前重识别方面研究主要针对行人，根据行人重识别进行分析，从数据形式划分主要有基于图像和基于视频两类，但基于图像识别任务中，图像所包含的信息较少，只能得到外观特征信息，无法根据时间变化提取到时序的特征信息，相比较而言基于视频的重识别更精确。目前的基于视频的重识别研究提取全局和局部特征再结合距离度量学习，局部特征的提取大多采用平均分割的方法，或是分割输入图片，或是分割全局特征，但都存在个体部位是否对齐，是否精准分割到具体部位的问题。

发明内容

为了克服现有技术中的至少一个不足，本申请实施例提供一种基于金丝猴躯干特征提取的身份重识别方法。

第一方面，提供一种目标特征提取模型构建方法，包括：

对采集到的目标视频进行预处理，得到模型构建数据；目标视频中包含目标；

基于模型构建数据对目标特征提取模型进行训练，得到训练后的目标特征提取模型；目标特征提取模型包括特征提取模块和超图模块；

特征提取模块用于根据模型构建数据，提取目标的全局特征信息；还用于获取目标的关键点坐标信息，基于关键点坐标信息对全局特征进行切分，提取目标的局部特征信息；

超图模块用于基于全局特征信息和局部特征信息，得到目标的视频级别特征。

在一个实施例中，特征提取模块包括卷积神经网络模块和关键点坐标信息提取模块，卷积神经网络模块用于提取目标的全局特征信息，关键点坐标信息提取模块用于采用MMpose工具提取目标的关键点坐标信息。

在一个实施例中，基于全局特征信息和局部特征信息，得到目标的视频级别特征，包括：

将全局特征信息作为节点，将邻近的两个节点之间用超边连接，构建全局超图；

将局部特征信息作为节点，将邻近的两个节点之间用超边连接，构建局部超图；

提取全局超图和局部超图的图特征；

将全局超图的图特征和局部超图的图特征进行聚合，得到目标的视频级别特征。

在一个实施例中，提取全局超图和局部超图的图特征，包括：

针对全局超图或者局部超图的任意一个节点，确定节点的每个超边的超边初始特征；

根据节点的节点特征和每个超边的超边初始特征，确定每个超边的重要程度；

根据每个超边的重要程度和超边初始特征，得到节点对应的所有超边的最终特征；

将节点对应的所有超边的最终特征与节点的节点特征采用全连接层连接，得到节点的最终特征；

根据每个节点的重要程度和每个节点的最终特征，得到全局超图的图特征或者局部超图的图特征。

在一个实施例中，对采集到的目标视频进行预处理，得到模型构建数据，包括：

针对目标视频采用YOLOv3目标检测网络进行目标检测，得到多个包含目标的视频帧；

对多个包含目标的视频帧进行数据增广处理，得到模型构建数据。

在一个实施例中，基于模型构建数据对目标特征提取模型进行训练，包括：

通过分类损失函数和三元组损失函数对目标特征提取模型进行训练。

第二方面，提供一种基于金丝猴躯干局部特征提取的身份重识别方法，包括：

对待识别目标视频和候选视频分别进行预处理，得到多个待识别目标视频帧和多个候选视频帧；待识别目标视频和候选视频中均包含待识别目标；

将多个待识别目标视频帧和多个候选视频帧均输入到目标特征提取模型中，分别输出多个待识别目标视频帧的视频级别特征和多个候选视频帧的视频级别特征；

根据多个待识别目标视频帧的视频级别特征和多个候选视频帧的视频级别特征对待识别目标进行身份重识别；

目标特征提取模型为根据上述的目标特征提取模型构建方法得到的。

在一个实施例中，根据多个待识别目标视频帧的视频级别特征和多个候选视频帧的视频级别特征对待识别目标进行身份重识别，包括：

计算每个待识别目标视频帧的视频级别特征与每个候选视频帧的视频级别特征之间的相似度，构成相似度矩阵；

根据相似度矩阵对待识别目标进行身份重识别。

第三方面，提供一种目标特征提取模型构建装置，包括：

第一视频预处理单元，用于对采集到的目标视频进行预处理，得到模型构建数据；目标视频中包含目标；

模型训练单元，用于基于模型构建数据对目标特征提取模型进行训练，得到训练后的目标特征提取模型；目标特征提取模型包括特征提取模块和超图模块；

特征提取模块用于根据模型构建数据，提取目标的全局特征信息；并获取目标的关键点坐标信息，基于关键点坐标信息对全局特征进行切分，提取目标的局部特征信息；

第四方面，提供一种基于金丝猴躯干局部特征提取的身份重识别装置，包括：

第二视频预处理单元，用于对待识别目标视频和候选视频分别进行预处理，得到多个待识别目标视频帧和多个候选视频帧；待识别目标视频和候选视频中均包含待识别目标；

特征提取单元，用于将多个待识别目标视频帧和多个候选视频帧均输入到目标特征提取模型中，分别输出多个待识别目标视频帧的视频级别特征和多个候选视频帧的视频级别特征；

身份重识别单元，用于根据多个待识别目标视频帧的视频级别特征和多个候选视频帧的视频级别特征对待识别目标进行身份重识别；

相对于现有技术而言，本申请具有以下有益效果：

(1)本申请使用卷积神经网络进行全局特征提取，局部特征使用部位分割的方式进行提取，首先使用MMpose工具进行关键点检测，再利用得到的关键点坐标信息对全局特征进行定位切分，得到局部特征；相比较使用平均硬切分方式，利用骨架结构更能够表达金丝猴的身体结构信息，能够解决部位不对齐和姿势多样化的问题。

(2)本申请利用得到的特征信息构建时间和空间关系的超图结构，采用超图神经网络方式更新超图节点特征，最后是使用注意力机制进行特征融合，有效提高了视频金丝猴重识别的准确率。

附图说明

本申请可以通过参考下文中结合附图所给出的描述而得到更好的理解，附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。在附图中：

图1示出了根据本申请实施例的目标特征提取模型构建方法的流程框图；

图2示出了采集到的金丝猴视频帧；

图3示出了经过目标检测后的金丝猴视频帧；

图4示出了预处理后的金丝猴视频帧；

图5示出了根据本申请实施例的目标特征提取模型的示意图；

图6示出了金丝猴关键点坐标信息提取结果；

图7示出了根据本申请实施例的基于金丝猴躯干局部特征提取的身份重识别方法的流程框图；

图8示出了根据本申请实施例的目标特征提取模型构建装置的结构框图；

图9示出了根据本申请实施例的基于金丝猴躯干局部特征提取的身份重识别装置的结构框图。

具体实施方式

在下文中将结合附图对本申请的示例性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施例的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定，以便实现开发人员的具体目标，并且这些决定可能会随着实施例的不同而有所改变。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本申请，在附图中仅仅示出了与根据本申请的方案密切相关的装置结构，而省略了与本申请关系不大的其他细节。

应理解的是，本申请并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中，在可行的情况下，实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。

本申请针对现有的对金丝猴进行身份重识别的过程中，局部特征之间无法对齐的问题，运用深度学习等领域相关知识，根据部位进行分割得到局部特征，再结合时序信息实现金丝猴的视频重识别任务。

本申请的基于金丝猴躯干局部特征的身份重识别方法，首先采用目标特征提取模型对待识别目标进行特征提取，然后基于提取的特征进行待识别目标的身份重识别。以下详细介绍目标特征提取模型的构建方法。

本申请实施例提供一种目标特征提取模型构建方法，图1示出了根据本申请实施例的目标特征提取模型构建方法的流程框图，参见图1，方法包括：

步骤S1，对采集到的目标视频进行预处理，得到模型构建数据；目标视频中包含目标；这里，目标可以为金丝猴。

该步骤中，采用高分辨率摄像头采集金丝猴的视频，人工筛选出符合条件的视频，例如角度良好、个体清晰、光线良好等；然后，可以针对筛选出来的视频采用YOLOv3目标检测网络进行目标检测，得到多个只包含金丝猴的视频帧，并去除多余背景以减少背景因素的干扰并对处理后的视频帧进行矫正处理；最后，对包含目标的视频帧进行数据增广处理，以增加数据量，这里，数据增广处理可以包括旋转、翻转、颜色抖动和高斯噪声等处理方式，从而得到模型构建数据，这里，模型构建数据为多个经过预处理的包含金丝猴的视频帧。图2示出了采集到的金丝猴视频，图3示出了经过目标检测后的金丝猴视频帧，图4示出了预处理后的金丝猴视频帧。

步骤S2，基于模型构建数据对目标特征提取模型进行训练，得到训练后的目标特征提取模型；

图5示出了根据本申请实施例的目标特征提取模型的示意图，目标特征提取模型包括特征提取模块和超图模块；特征提取模块用于根据模型构建数据，提取目标的全局特征信息；还用于获取目标的关键点坐标信息，基于关键点坐标信息对全局特征进行切分，提取目标的局部特征信息；超图模块用于基于全局特征信息和局部特征信息，得到目标的视频级别特征。

具体地，该步骤中，可以通过分类损失函数和三元组损失函数对目标特征提取模型进行训练。

该实施例中，使用卷积神经网络进行全局特征提取，局部特征使用部位分割的方式进行提取，首先使用MMpose工具进行关键点检测，再利用得到的关键点坐标信息对全局特征进行定位切分，相比较使用平均硬切分方式，利用骨架结构更能够表达金丝猴的身体结构信息，能够解决部位不对齐和姿势多样化的问题。

在一个实施例中，特征提取模块包括卷积神经网络模块和关键点坐标信息提取模块，卷积神经网络模块用于提取目标的全局特征信息，关键点坐标信息提取模块用于采用MMpose工具提取目标的关键点坐标信息。图6示出了金丝猴关键点坐标信息提取结果。

步骤S21，将全局特征信息作为节点，将邻近的两个节点之间用超边连接，构建全局超图；

步骤S22，将局部特征信息作为节点，将邻近的两个节点之间用超边连接，构建局部超图；

步骤S23，提取全局超图和局部超图的图特征；

步骤S24，将全局超图的图特征和局部超图的图特征进行聚合，得到目标的视频级别特征。

该实施例中，当两个节点的时间距离满足时间阈值，这两个节点即为邻近的节点，采用超边进行连接，超边的长度与超边连接的两个节点之间的时间距离有关。这里，可以采用互信息最小化将全局超图的图特征和局部超图的图特征进行聚合，能够减少信息的冗余，得到目标的视频级别特征。

步骤S231，针对全局超图或者局部超图的任意一个节点，确定节点v_i的每个超边的超边初始特征；

这里，设节点v_i一共有K个超边，对于第k个超边e_ik，超边e_ik上有多个节点，将超边e_ik上所有节点的节点特征进行累加，得到超边e_ik的超边初始特征。

步骤S232，根据节点v_i的节点特征和每个超边的超边初始特征，确定每个超边的重要程度；

这里，计算节点v_i的节点特征与每个超边的超边初始特征的相似度，即为每个超边的重要程度。相似度具体可以采用余弦相似度计算方法。

步骤S233，根据每个超边的重要程度和超边初始特征，得到节点v_i对应的所有超边的最终特征；

具体地，节点v_i对应的所有超边的最终特征g_i：

其中，a_ik为超边e_ik的重要程度，σ_ik为a_ik归一化处理的结果，b_ik为超边e_ik的超边初始特征。

步骤S234，将节点v_i对应的所有超边的最终特征与节点v_i的节点特征采用全连接层连接，得到节点v_i的最终特征

步骤S235，根据每个节点的重要程度和每个节点的最终特征，得到全局超图的图特征或者局部超图的图特征；

具体地，图特征h：

其中，v为超图中所有节点的集合，

为节点v_i的最终特征/>

α_i为节点v_i的重要性权重值。

其中，

d_i为节点v_i的重要程度，W_d为权重矩阵。

该实施例中，节点的节点特征为全局特征信息或者局部特征信息。

本申请实施例还提供一种基于金丝猴躯干局部特征提取的身份重识别方法，图7示出了根据本申请实施例的基于金丝猴躯干局部特征提取的身份重识别方法的流程框图，方法包括：

步骤S71，对待识别目标视频和候选视频分别进行预处理，得到多个待识别目标视频帧和多个候选视频帧；待识别目标视频和候选视频中均包含待识别目标；

步骤S72，将多个待识别目标视频帧和多个候选视频帧均输入到目标特征提取模型中，分别输出多个待识别目标视频帧的视频级别特征和多个候选视频帧的视频级别特征；目标特征提取模型为根据上述实施例的目标特征提取模型构建方法得到的。

这里，多个候选视频帧构成候选图像集，候选图像集表示待检索识别的一系列图像。多个待识别目标视频帧输入目标特征提取模型后，输出多个视频级别特征，多个候选视频帧输入到目标特征提取模型后，同样输出多个视频级别特征。

步骤S73，根据多个待识别目标视频帧的视频级别特征和多个候选视频帧的视频级别特征对待识别目标进行身份重识别。

该步骤中，对待识别目标进行身份重识别指的是针对每个待识别目标视频帧，在候选图像集中找到与之相似度最高的视频帧，相似度越高表明两段视频帧中的个体是同一只金丝猴的可能性越大。

具体地，根据多个待识别目标视频帧的视频级别特征和多个候选视频帧的视频级别特征对待识别目标进行身份重识别，包括：

首先，计算每个待识别目标视频帧的视频级别特征与每个候选视频帧的视频级别特征之间的相似度，构成相似度矩阵；然后，根据相似度矩阵对待识别目标进行身份重识别。

该实施例中，针对每个待识别目标视频帧的视频级别特征，计算其与多个候选视频帧的视频级别特征之间的相似度；将相似度最大的候选视频帧确定为待识别目标视频帧的最相似候选视频帧；最相似候选视频帧与待识别目标视频帧中的待识别目标属于同一个目标的可能性较大，且相似度值越大，待识别目标属于同一个目标的可能性越大。

进一步地，还可以根据相似度矩阵确定身份重识别的准确度，可以采用计算平均精度均值mAP作为准确度，准确度用于确定身份重识别结果的准确性。这里，计算的准确度越高，表明重识别结果越准确。

基于与本申请实施例的本申请实施例目标特征提取模型构建方法相同的发明构思，本申请还提供一种目标特征提取模型构建装置，图8示出了根据本申请实施例的目标特征提取模型构建装置的结构框图，装置包括：

第一视频预处理单元81，用于对采集到的目标视频进行预处理，得到模型构建数据；目标视频中包含目标；

模型训练单元82，用于基于模型构建数据对目标特征提取模型进行训练，得到训练后的目标特征提取模型；目标特征提取模型包括特征提取模块和超图模块；

该实施例中，各个模块的具体实现功能与前述目标特征提取模型构建方法的实施例相同，不再具体描述，可引用到目标特征提取模型构建装置的实施例中。

基于与本申请实施例提供的基于金丝猴躯干局部特征提取的身份重识别方法相同的发明构思，本申请实施例还提供一种基于金丝猴躯干局部特征提取的身份重识别装置，图9示出了根据本申请实施例的基于金丝猴躯干局部特征提取的身份重识别装置的结构框图，装置包括：

第二视频预处理单元91，用于对待识别目标视频和候选视频分别进行预处理，得到多个待识别目标视频帧和多个候选视频帧；待识别目标视频和候选视频中均包含待识别目标；

特征提取单元92，用于将多个待识别目标视频帧和多个候选视频帧均输入到目标特征提取模型中，分别输出多个待识别目标视频帧的视频级别特征和多个候选视频帧的视频级别特征；目标特征提取模型为根据上述实施例中的目标特征提取模型构建方法得到的；

身份重识别单元93，用于根据多个待识别目标视频帧的视频级别特征和多个候选视频帧的视频级别特征对待识别目标进行身份重识别。

综上，本申请具有以下有益效果：

(1)本申请使用卷积神经网络进行全局特征提取，局部特征使用部位分割的方式进行提取，首先使用MMpose工具进行关键点检测，再利用得到的关键点坐标信息对全局特征进行定位切分，相比较使用平均硬切分方式，利用骨架结构更能够表达金丝猴的身体结构信息，能够解决部位不对齐和姿势多样化的问题。

(2)本申请利用得到的特征信息构建时间和空间关系的超图结构，采用超图神经网络方式更新超图节点特证，最后是使用注意力机制进行特征融合，有效提高了视频金丝猴重识别的准确率。

为了验证本申请的基于金丝猴躯干局部特征提取的身份重识别方法的有效性，搭建实验进行身份重识别，采用的评价指标为平均精度均值(mAP)，mAP是更加全面地衡量ReID算法效果的指标，它反映了待识别个体在候选图库中的所有正确图片排在结果队列前面的程度，而不止首位命中。当mAP指标高时表示待识别个体在候选图库中所有的图片都排在最前面。当被待识别个体排在前边，并且没有任何其他个体照片插在它前边，就相当于同一个个体的所有照片距离都是最近的，这种情况即最好的。

利用创建的金丝猴视频重识别数据集，通过与其他的重识别算法BiCnetTKS、GRL、AITL、MGH、AP3D和TCL进行对比，分别运行250个epoch，每50个epoch计算一次结果，选取实验中最好的结果进行对比，实验结果如表1所示，根据表1可知，本申请的方法得到mAP最高，表面本申请的方法的重识别结果较好。

表1与其他视频重识别算法对比

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种目标特征提取模型构建方法，其特征在于，包括：

对采集到的目标视频进行预处理，得到模型构建数据；所述目标视频中包含目标；

基于所述模型构建数据对目标特征提取模型进行训练，得到训练后的目标特征提取模型；所述目标特征提取模型包括特征提取模块和超图模块；

所述特征提取模块用于根据所述模型构建数据，提取所述目标的全局特征信息；还用于获取所述目标的关键点坐标信息，基于所述关键点坐标信息对所述全局特征进行切分，提取所述目标的局部特征信息；

所述超图模块用于基于所述全局特征信息和所述局部特征信息，得到所述目标的视频级别特征。

2.如权利要求1所述的方法，其特征在于，所述特征提取模块包括卷积神经网络模块和关键点坐标信息提取模块，所述卷积神经网络模块用于提取所述目标的全局特征信息，所述关键点坐标信息提取模块用于采用MMpose工具提取目标的关键点坐标信息。

3.如权利要求1所述的方法，其特征在于，所述基于所述全局特征信息和所述局部特征信息，得到所述目标的视频级别特征，包括：

将所述全局特征信息作为节点，将邻近的两个节点之间用超边连接，构建全局超图；

将所述局部特征信息作为节点，将邻近的两个节点之间用超边连接，构建局部超图；

提取所述全局超图和所述局部超图的图特征；

将所述全局超图的图特征和所述局部超图的图特征进行聚合，得到所述目标的视频级别特征。

4.如权利要求3所述的方法，其特征在于，所述提取所述全局超图和所述局部超图的图特征，包括：

针对所述全局超图或者所述局部超图的任意一个节点，确定节点的每个超边的超边初始特征；

根据节点的节点特征和所述每个超边的超边初始特征，确定每个超边的重要程度；

根据所述每个超边的重要程度和所述超边初始特征，得到节点对应的所有超边的最终特征；

将所述节点对应的所有超边的最终特征与节点的节点特征采用全连接层连接，得到节点的最终特征；

5.如权利要求1所述的方法，其特征在于，所述对采集到的目标视频进行预处理，得到模型构建数据，包括：

针对所述目标视频采用YOLOv3目标检测网络进行目标检测，得到多个包含目标的视频帧；

对所述多个包含目标的视频帧进行数据增广处理，得到模型构建数据。

6.如权利要求1所述的方法，其特征在于，所述基于所述模型构建数据对目标特征提取模型进行训练，包括：

7.一种基于金丝猴躯干局部特征提取的身份重识别方法，其特征在于，包括：

对待识别目标视频和候选视频分别进行预处理，得到多个待识别目标视频帧和多个候选视频帧；所述待识别目标视频和所述候选视频中均包含待识别目标；

将所述多个待识别目标视频帧和多个候选视频帧均输入到目标特征提取模型中，分别输出所述多个待识别目标视频帧的视频级别特征和多个候选视频帧的视频级别特征；

根据所述多个待识别目标视频帧的视频级别特征和多个候选视频帧的视频级别特征对所述待识别目标进行身份重识别；

所述目标特征提取模型为根据权利要求1-6中任一权利要求所述的目标特征提取模型构建方法得到的。

8.如权利要求7所述的方法，其特征在于，其中，根据所述多个待识别目标视频帧的视频级别特征和多个候选视频帧的视频级别特征对所述待识别目标进行身份重识别，包括：

根据所述相似度矩阵对待识别目标进行身份重识别。

9.一种目标特征提取模型构建装置，其特征在于，包括：

第一视频预处理单元，用于对采集到的目标视频进行预处理，得到模型构建数据；所述目标视频中包含目标；

模型训练单元，用于基于所述模型构建数据对目标特征提取模型进行训练，得到训练后的目标特征提取模型；所述目标特征提取模型包括特征提取模块和超图模块；

所述特征提取模块用于根据所述模型构建数据，提取所述目标的全局特征信息；并获取所述目标的关键点坐标信息，基于所述关键点坐标信息对所述全局特征进行切分，提取所述目标的局部特征信息；

10.一种基于金丝猴躯干局部特征提取的身份重识别装置，其特征在于，包括：

第二视频预处理单元，用于对待识别目标视频和候选视频分别进行预处理，得到多个待识别目标视频帧和多个候选视频帧；所述待识别目标视频和所述候选视频中均包含待识别目标；

特征提取单元，用于将所述多个待识别目标视频帧和多个候选视频帧均输入到目标特征提取模型中，分别输出所述多个待识别目标视频帧的视频级别特征和多个候选视频帧的视频级别特征；

身份重识别单元，用于根据所述多个待识别目标视频帧的视频级别特征和多个候选视频帧的视频级别特征对所述待识别目标进行身份重识别；