CN115527147A

CN115527147A - 一种多模态目标重识别方法

Info

Publication number: CN115527147A
Application number: CN202211208332.XA
Authority: CN
Inventors: 王同喜; 许子民; 肖一烽; 向华; 何黎霞
Original assignee: Yangtze University
Current assignee: Yangtze University
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2022-12-27

Abstract

本发明公开了一种多模态目标重识别方法，通过目标检测模型、目标跟踪模型、行为识别模型、属性识别模型以及人脸检测模型对监控视频数据库S_L进行转换和识别形成多模态目标信息集MIS，同时将目标的特征信息、属性信息、行为信息和时间信息关联在一起，在目标重识别时，当进行目标重识别时，将目标图像输入到特征提取模块中，得到待检索目标的特征矩阵WTF，再对MIS的特征信息列进行检索，计算MIS中各目标与WTF之间的相似度，确定是否存在对应目标t_i，当不存在对应目标时，将待检索目标的多模态信息作为输入从中MIS检索。采用上述结构的一种多模态目标重识别方法，可以对海量的视频、图像资源进行标准化处理，降低视频存储的资源消耗，有效提高检索效率，降低人力消耗。

Description

一种多模态目标重识别方法

技术领域

本发明涉及安防监控技术领域，尤其是涉及一种多模态目标重识别方法。

背景技术

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行检测、识别和跟踪等机器视觉，并进一步做图形处理，用电脑处理成为更适合人眼观察或传送给仪器检测的图像。

在智能安防、视频监控等领域，目前的视频监控技术主要以人工分析为主，这就造成了消耗大、效率低的问题，因此，实现智能视频监控已是迫切需求。智能视频监控利用模式识别和计算机视觉技术对海量监控视频数据进行处理和分析时，资源消耗大，检索效率低。

发明内容

本发明的目的是提供一种多模态目标重识别方法，可以对海量的视频、图像资源进行标准化处理，降低视频存储的资源消耗，有效提高检索效率，降低人力消耗。

为实现上述目的，本发明提供了一种多模态目标重识别方法，具体步骤如下：

步骤S1：通过多个摄像头采集不同场景下的监控视频，得到监控视频数据库S_L，利用S_L训练目标检测模型、目标跟踪模型、行为识别模型、属性识别模型以及人脸检测模型；

步骤S2：通过目标检测模型得到目标序列O＝{o₁,o₂,...,o_n}，同时对检测到的目标o_i通过目标跟踪模型进行跟踪，直到目标o_i超出摄像头的监控范围，得到目标o_i出现的时间范围

得到所有目标在监控视频中出现的时间序列T＝{t₁,t₂,...,t_n}；

步骤S3：通过行为识别模型得到监控视频中各个目标的行为序列B＝{b₁,b₂,...,b_n}；

步骤S4：将步骤S2中的目标序列O输入到属性识别模型中得到各个目标的属性序列A＝{a₁,a₂,...,a_n}；

步骤S5：通过特征提取模块将O中各个目标从图像转换成特征矩阵F＝{f₁,f₂,...,f_n}，并将每个目标的特征信息、属性信息、行为信息和时间信息关联在一起，形成目标的多模态信息集MIS＝{I₁,I₂,...,I_n}，其中I_i＝{f_i,a₂b_i,t_i}，当目标为人时，检测目标通过人脸检测模型得到面部特征FF＝{ff_i,ff₂,...,ff_i}，I_i＝{f_i,a₂b_i,ff_i,t_i}；

步骤S6：当进行目标重识别时，将目标图像输入到特征提取模块中，得到待检索目标的特征矩阵WTF，再对MIS的特征信息列进行检索，计算MIS中各目标与WTF之间的相似度，确定是否存在对应目标t_i，当不存在对应目标时，将待检索目标的多模态信息作为输入从中MIS检索。

优选的，在步骤S2中，在目标检测过程中，对于模糊度高于设定阀值的目标不加入目标序列中，目标检测模型将场景中检测到的目标裁剪出来形成一个图像库，并将图像库转换为特征矩阵进行存储。

优选的，在步骤S6中，在进行特征提取前，当图像的模糊度高于设定值时，通过图像的多模态信息进行作为输入从中MIS检索，当图像的模糊度小于等于设定值时，进行特征提取，得到目标的特征矩阵WTF。

优选的，所述多模态信息为目标属性信息或行为信息或其组合。

因此，本发明采用上述一种多模态目标重识别方法，具有以下有益效果：

(1)通过对监控视频进行结构化处理，从而降低视频存储所消耗的资源，并且可以提高从监控视频中进行目标重识别的效率。

(2)将待检索目标的多模态信息作为输入从中MIS检索，可以更好地应对实际场景中的各类情况，可以为视频侦察提供技术支撑，有效提高检索效率，降低人力消耗。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明视频结构化处理的流程示意图；

图2为本发明从结构化信息中检索感兴趣目标的流程示意图。

具体实施方式

实施例

图1为本发明视频结构化处理的流程示意图，如图1所示，一种多模态目标重识别方法，具体步骤如下：

步骤S1：通过多个摄像头采集不同场景下的监控视频，得到监控视频数据库S_L，利用S_L训练目标检测模型、目标跟踪模型、行为识别模型、属性识别模型以及人脸检测模型。

步骤S2：通过目标检测模型得到目标序列O＝{o₁,o₂,...,o_n}，在目标检测过程中，对于模糊度高于设定阀值的目标不加入目标序列中，目标检测模型将场景中检测到的目标裁剪出来形成一个图像库，并将图像库转换为特征矩阵进行存储。对于图像类的模态信息，由于直接存储会消耗大量资源，因此会进一步将图像转换成特征矩阵来进行存储。

同时对检测到的目标o_i通过目标跟踪模型进行跟踪，直到目标o_i超出摄像头的监控范围，得到目标o_i出现的时间范围

得到所有目标在监控视频中出现的时间序列T＝{t₁,t₂,...,t_n}，获取运动轨迹，便于后续行为分析。

步骤S3：通过行为识别模型得到监控视频中各个目标的行为序列B＝{b₁,b₂,...,b_n}。

步骤S4：将步骤S2中的目标序列O输入到属性识别模型中得到各个目标的属性序列A＝{a₁,a₂,...,a_n}。

步骤S5：通过特征提取模块将O中各个目标从图像转换成特征矩阵F＝{f₁,f₂,...,f_n}，并将每个目标的特征信息、属性信息、行为信息和时间信息关联在一起，形成目标的多模态信息集MIS＝{I₁,I₂,...,I_n}，其中I_i＝{f_i,a₂b_i,t_i}，当目标为人时，检测目标通过人脸检测模型得到面部特征FF＝{ff_i,ff₂,...,ff_i}，I_i＝{f_i,a₂b_i,ff_i,t_i}。

步骤S6：图2为本发明从结构化信息中检索感兴趣目标的流程示意图，如图2所示，当进行目标重识别时，当图像的模糊度高于设定值时，通过图像的多模态信息进行作为输入从中MIS检索，当图像的模糊度小于等于设定值时，进行特征提取，得到目标的特征矩阵WTF。将目标图像输入到特征提取模块中，得到待检索目标的特征矩阵WTF，再对MIS的特征信息列进行检索，计算MIS中各目标与WTF之间的相似度，确定是否存在对应目标t_i，当不存在对应目标时，将待检索目标的多模态信息作为输入从中MIS检索。多模态信息为目标属性信息或行为信息或其组合，可以更好地应对实际场景中的各类情况。

因此，本发明采用上述一种多模态目标重识别方法，该方法通过对监控视频进行结构化处理，从而降低视频存储所消耗的资源，并且可以提高从监控视频中进行目标重识别的效率。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种多模态目标重识别方法，其特征在于，具体步骤如下：

2.根据权利要求1所述的一种多模态目标重识别方法，其特征在于：在步骤S2中，在目标检测过程中，对于模糊度高于设定阀值的目标不加入目标序列中，目标检测模型将场景中检测到的目标裁剪出来形成一个图像库，并将图像库转换为特征矩阵进行存储。

3.根据权利要求2所述的一种多模态目标重识别方法，其特征在于：在步骤S6中，在进行特征提取前，当图像的模糊度高于设定值时，通过图像的多模态信息进行作为输入从中MIS检索，当图像的模糊度小于等于设定值时，进行特征提取，得到目标的特征矩阵WTF。

4.根据权利要求3所述的一种多模态目标重识别方法，其特征在于：所述多模态信息为目标属性信息或行为信息或其组合。