CN115527147A - 一种多模态目标重识别方法 - Google Patents
一种多模态目标重识别方法 Download PDFInfo
- Publication number
- CN115527147A CN115527147A CN202211208332.XA CN202211208332A CN115527147A CN 115527147 A CN115527147 A CN 115527147A CN 202211208332 A CN202211208332 A CN 202211208332A CN 115527147 A CN115527147 A CN 115527147A
- Authority
- CN
- China
- Prior art keywords
- target
- information
- mis
- image
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种多模态目标重识别方法,通过目标检测模型、目标跟踪模型、行为识别模型、属性识别模型以及人脸检测模型对监控视频数据库SL进行转换和识别形成多模态目标信息集MIS,同时将目标的特征信息、属性信息、行为信息和时间信息关联在一起,在目标重识别时,当进行目标重识别时,将目标图像输入到特征提取模块中,得到待检索目标的特征矩阵WTF,再对MIS的特征信息列进行检索,计算MIS中各目标与WTF之间的相似度,确定是否存在对应目标ti,当不存在对应目标时,将待检索目标的多模态信息作为输入从中MIS检索。采用上述结构的一种多模态目标重识别方法,可以对海量的视频、图像资源进行标准化处理,降低视频存储的资源消耗,有效提高检索效率,降低人力消耗。
Description
技术领域
本发明涉及安防监控技术领域,尤其是涉及一种多模态目标重识别方法。
背景技术
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行检测、识别和跟踪等机器视觉,并进一步做图形处理,用电脑处理成为更适合人眼观察或传送给仪器检测的图像。
在智能安防、视频监控等领域,目前的视频监控技术主要以人工分析为主,这就造成了消耗大、效率低的问题,因此,实现智能视频监控已是迫切需求。智能视频监控利用模式识别和计算机视觉技术对海量监控视频数据进行处理和分析时,资源消耗大,检索效率低。
发明内容
本发明的目的是提供一种多模态目标重识别方法,可以对海量的视频、图像资源进行标准化处理,降低视频存储的资源消耗,有效提高检索效率,降低人力消耗。
为实现上述目的,本发明提供了一种多模态目标重识别方法,具体步骤如下:
步骤S1:通过多个摄像头采集不同场景下的监控视频,得到监控视频数据库SL,利用SL训练目标检测模型、目标跟踪模型、行为识别模型、属性识别模型以及人脸检测模型;
步骤S2:通过目标检测模型得到目标序列O={o1,o2,...,on},同时对检测到的目标oi通过目标跟踪模型进行跟踪,直到目标oi超出摄像头的监控范围,得到目标oi出现的时间范围得到所有目标在监控视频中出现的时间序列T={t1,t2,...,tn};
步骤S3:通过行为识别模型得到监控视频中各个目标的行为序列B={b1,b2,...,bn};
步骤S4:将步骤S2中的目标序列O输入到属性识别模型中得到各个目标的属性序列A={a1,a2,...,an};
步骤S5:通过特征提取模块将O中各个目标从图像转换成特征矩阵F={f1,f2,...,fn},并将每个目标的特征信息、属性信息、行为信息和时间信息关联在一起,形成目标的多模态信息集MIS={I1,I2,...,In},其中Ii={fi,a2bi,ti},当目标为人时,检测目标通过人脸检测模型得到面部特征FF={ffi,ff2,...,ffi},Ii={fi,a2bi,ffi,ti};
步骤S6:当进行目标重识别时,将目标图像输入到特征提取模块中,得到待检索目标的特征矩阵WTF,再对MIS的特征信息列进行检索,计算MIS中各目标与WTF之间的相似度,确定是否存在对应目标ti,当不存在对应目标时,将待检索目标的多模态信息作为输入从中MIS检索。
优选的,在步骤S2中,在目标检测过程中,对于模糊度高于设定阀值的目标不加入目标序列中,目标检测模型将场景中检测到的目标裁剪出来形成一个图像库,并将图像库转换为特征矩阵进行存储。
优选的,在步骤S6中,在进行特征提取前,当图像的模糊度高于设定值时,通过图像的多模态信息进行作为输入从中MIS检索,当图像的模糊度小于等于设定值时,进行特征提取,得到目标的特征矩阵WTF。
优选的,所述多模态信息为目标属性信息或行为信息或其组合。
因此,本发明采用上述一种多模态目标重识别方法,具有以下有益效果:
(1)通过对监控视频进行结构化处理,从而降低视频存储所消耗的资源,并且可以提高从监控视频中进行目标重识别的效率。
(2)将待检索目标的多模态信息作为输入从中MIS检索,可以更好地应对实际场景中的各类情况,可以为视频侦察提供技术支撑,有效提高检索效率,降低人力消耗。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明视频结构化处理的流程示意图;
图2为本发明从结构化信息中检索感兴趣目标的流程示意图。
具体实施方式
实施例
图1为本发明视频结构化处理的流程示意图,如图1所示,一种多模态目标重识别方法,具体步骤如下:
步骤S1:通过多个摄像头采集不同场景下的监控视频,得到监控视频数据库SL,利用SL训练目标检测模型、目标跟踪模型、行为识别模型、属性识别模型以及人脸检测模型。
步骤S2:通过目标检测模型得到目标序列O={o1,o2,...,on},在目标检测过程中,对于模糊度高于设定阀值的目标不加入目标序列中,目标检测模型将场景中检测到的目标裁剪出来形成一个图像库,并将图像库转换为特征矩阵进行存储。对于图像类的模态信息,由于直接存储会消耗大量资源,因此会进一步将图像转换成特征矩阵来进行存储。
同时对检测到的目标oi通过目标跟踪模型进行跟踪,直到目标oi超出摄像头的监控范围,得到目标oi出现的时间范围得到所有目标在监控视频中出现的时间序列T={t1,t2,...,tn},获取运动轨迹,便于后续行为分析。
步骤S3:通过行为识别模型得到监控视频中各个目标的行为序列B={b1,b2,...,bn}。
步骤S4:将步骤S2中的目标序列O输入到属性识别模型中得到各个目标的属性序列A={a1,a2,...,an}。
步骤S5:通过特征提取模块将O中各个目标从图像转换成特征矩阵F={f1,f2,...,fn},并将每个目标的特征信息、属性信息、行为信息和时间信息关联在一起,形成目标的多模态信息集MIS={I1,I2,...,In},其中Ii={fi,a2bi,ti},当目标为人时,检测目标通过人脸检测模型得到面部特征FF={ffi,ff2,...,ffi},Ii={fi,a2bi,ffi,ti}。
步骤S6:图2为本发明从结构化信息中检索感兴趣目标的流程示意图,如图2所示,当进行目标重识别时,当图像的模糊度高于设定值时,通过图像的多模态信息进行作为输入从中MIS检索,当图像的模糊度小于等于设定值时,进行特征提取,得到目标的特征矩阵WTF。将目标图像输入到特征提取模块中,得到待检索目标的特征矩阵WTF,再对MIS的特征信息列进行检索,计算MIS中各目标与WTF之间的相似度,确定是否存在对应目标ti,当不存在对应目标时,将待检索目标的多模态信息作为输入从中MIS检索。多模态信息为目标属性信息或行为信息或其组合,可以更好地应对实际场景中的各类情况。
因此,本发明采用上述一种多模态目标重识别方法,该方法通过对监控视频进行结构化处理,从而降低视频存储所消耗的资源,并且可以提高从监控视频中进行目标重识别的效率。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
Claims (4)
1.一种多模态目标重识别方法,其特征在于,具体步骤如下:
步骤S1:通过多个摄像头采集不同场景下的监控视频,得到监控视频数据库SL,利用SL训练目标检测模型、目标跟踪模型、行为识别模型、属性识别模型以及人脸检测模型;
步骤S2:通过目标检测模型得到目标序列O={o1,o2,...,on},同时对检测到的目标oi通过目标跟踪模型进行跟踪,直到目标oi超出摄像头的监控范围,得到目标oi出现的时间范围得到所有目标在监控视频中出现的时间序列T={t1,t2,...,tn};
步骤S3:通过行为识别模型得到监控视频中各个目标的行为序列B={b1,b2,...,bn};
步骤S4:将步骤S2中的目标序列O输入到属性识别模型中得到各个目标的属性序列A={a1,a2,...,an};
步骤S5:通过特征提取模块将O中各个目标从图像转换成特征矩阵F={f1,f2,...,fn},并将每个目标的特征信息、属性信息、行为信息和时间信息关联在一起,形成目标的多模态信息集MIS={I1,I2,...,In},其中Ii={fi,a2bi,ti},当目标为人时,检测目标通过人脸检测模型得到面部特征FF={ffi,ff2,...,ffi},Ii={fi,a2bi,ffi,ti};
步骤S6:当进行目标重识别时,将目标图像输入到特征提取模块中,得到待检索目标的特征矩阵WTF,再对MIS的特征信息列进行检索,计算MIS中各目标与WTF之间的相似度,确定是否存在对应目标ti,当不存在对应目标时,将待检索目标的多模态信息作为输入从中MIS检索。
2.根据权利要求1所述的一种多模态目标重识别方法,其特征在于:在步骤S2中,在目标检测过程中,对于模糊度高于设定阀值的目标不加入目标序列中,目标检测模型将场景中检测到的目标裁剪出来形成一个图像库,并将图像库转换为特征矩阵进行存储。
3.根据权利要求2所述的一种多模态目标重识别方法,其特征在于:在步骤S6中,在进行特征提取前,当图像的模糊度高于设定值时,通过图像的多模态信息进行作为输入从中MIS检索,当图像的模糊度小于等于设定值时,进行特征提取,得到目标的特征矩阵WTF。
4.根据权利要求3所述的一种多模态目标重识别方法,其特征在于:所述多模态信息为目标属性信息或行为信息或其组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211208332.XA CN115527147A (zh) | 2022-09-30 | 2022-09-30 | 一种多模态目标重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211208332.XA CN115527147A (zh) | 2022-09-30 | 2022-09-30 | 一种多模态目标重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115527147A true CN115527147A (zh) | 2022-12-27 |
Family
ID=84699429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211208332.XA Pending CN115527147A (zh) | 2022-09-30 | 2022-09-30 | 一种多模态目标重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115527147A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118072354A (zh) * | 2024-03-29 | 2024-05-24 | 北京积加科技有限公司 | 行人重识别方法、装置、电子设备和计算机可读介质 |
-
2022
- 2022-09-30 CN CN202211208332.XA patent/CN115527147A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118072354A (zh) * | 2024-03-29 | 2024-05-24 | 北京积加科技有限公司 | 行人重识别方法、装置、电子设备和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783576B (zh) | 基于改进型YOLOv3网络和特征融合的行人重识别方法 | |
CN102509118B (zh) | 一种监控视频检索方法 | |
Javed et al. | Byte-level object identification for forensic investigation of digital images | |
CN112183468A (zh) | 一种基于多注意力联合多级特征的行人再识别方法 | |
CN113052185A (zh) | 一种基于Faster R-CNN的小样本目标检测方法 | |
Molina-Moreno et al. | Efficient scale-adaptive license plate detection system | |
CN111401308B (zh) | 一种基于光流效应的鱼类行为视频识别方法 | |
CN111814690B (zh) | 一种目标重识别方法、装置和计算机可读存储介质 | |
CN110298248A (zh) | 一种基于语义分割的多目标跟踪方法及系统 | |
CN110096945B (zh) | 基于机器学习的室内监控视频关键帧实时提取方法 | |
Kong et al. | Automatic analysis of complex athlete techniques in broadcast taekwondo video | |
Liu et al. | A novel shot detection approach based on ORB fused with structural similarity | |
CN111508006A (zh) | 一种基于深度学习的运动目标同步检测、识别与跟踪方法 | |
CN111144220B (zh) | 适于大数据的人员检测方法、装置、设备和介质 | |
CN115527147A (zh) | 一种多模态目标重识别方法 | |
CN111882000A (zh) | 一种应用于小样本细粒度学习的网络结构及方法 | |
CN111898418A (zh) | 一种基于t-tiny-yolo网络的人体异常行为检测方法 | |
CN114743257A (zh) | 图像目标行为的检测识别方法 | |
CN117058736A (zh) | 基于关键点检测的人脸误检识别方法、装置、介质和设备 | |
CN113221824B (zh) | 基于个体模型生成的人体姿态识别方法 | |
Wang et al. | Tracking salient keypoints for human action recognition | |
CN112258453A (zh) | 一种工业故障巡检机器人定位地标检测方法 | |
CN110879970A (zh) | 一种基于深度学习的视频兴趣区域人脸摘要方法、设备及其存储设备 | |
Shi et al. | Kernel null-space-based abnormal event detection using hybrid motion information | |
CN109583441A (zh) | 基于监控平台的字幕识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |