CN116645634A - 一种基于视频实例分割的步态识别方法及装置 - Google Patents
一种基于视频实例分割的步态识别方法及装置 Download PDFInfo
- Publication number
- CN116645634A CN116645634A CN202310639571.9A CN202310639571A CN116645634A CN 116645634 A CN116645634 A CN 116645634A CN 202310639571 A CN202310639571 A CN 202310639571A CN 116645634 A CN116645634 A CN 116645634A
- Authority
- CN
- China
- Prior art keywords
- gait
- sequence
- instance segmentation
- video instance
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005021 gait Effects 0.000 title claims abstract description 230
- 230000011218 segmentation Effects 0.000 title claims abstract description 191
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 21
- 230000000007 visual effect Effects 0.000 description 8
- 238000011176 pooling Methods 0.000 description 7
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 210000003423 ankle Anatomy 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000001624 hip Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 210000003371 toe Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种基于视频实例分割的步态识别方法及装置,涉及特征识别技术领域,通过摄像机采集目标人员的步态视频,并将该步态视频输入训练好的视频实例分割模型,得到所述目标人员的步态序列;从得到的所述步态序列中提取所述目标人员的步态特征;将提取到的所述步态特征与底库进行对比,获取满足设定阈值的识别对象;即通过训练好的视频实例分割模型一步就能够获取步态序列,从而简化步态识别步骤,提升模型泛化性。
Description
技术领域
本申请涉及特征识别技术领域,具体而言,涉及一种基于视频实例分割的步态识别方法及装置。
背景技术
步态识别作为一种远距离且无需对象配合的生物特征识别手段,旨在根据人们行走的步态实现对个人身份的识别、鉴定或生理、病理及心理特征的检测。步态识别可在较低图像质量下进行,无需识别对象的配合,识别距离较远,且难以伪装和掩藏,与传统生物特征识别相比有明显优势。
但是目前,步态识别技术步骤较为繁琐,模型泛化性低。
发明内容
有鉴于此,本申请的目的在于提供一种基于视频实例分割的步态识别方法、装置、电子设备及存储介质,能够简化步态识别步骤。
第一方面,本申请实施例提供一种基于视频实例分割的步态识别方法,所述方法包括以下步骤:
通过摄像机采集目标人员的步态视频,并将该步态视频输入训练好的视频实例分割模型,得到所述目标人员的步态序列;其中,所述步态序列为剪影序列、关键点序列或者人体部位序列;
从得到的所述步态序列中提取所述目标人员的步态特征;其中,针对所述剪影序列、所述关键点序列或者所述人体部位序列,采用的提取目标人员的步态特征的方法不同;
将提取到的所述步态特征与底库进行对比,获取满足设定阈值的识别对象。
在一些实施例中,通过如下方式得到所述目标人员的剪影序列:
获取利用开源视频实例分割数据集训练得到的预训练好的第一视频实例分割模型;其中,所述第一视频实例分割模型基于SeqFormer构建;
对所述开源视频实例分割数据集中的分割监督信息进行更换,以将所述目标人员以外的类别均视为背景;
利用更换分割监督信息之后的所述开源视频实例分割数据集对所述预训练好的第一视频实例分割模型进行微调,得到训练好的第一视频实例分割模型;
将采集的所述步态视频输入所述训练好的第一视频实例分割模型,得到所述目标人员的剪影序列。
在一些实施例中,过如下方式得到所述目标人员的关键点序列:
获取利用开源视频实例分割数据集训练得到的预训练好的第二视频实例分割模型;其中,所述第二视频实例分割模型基于SeqFormer构建;
将所述开源视频实例分割数据集中的分割监督信息更换为人体关键点标注监督信息;
利用更换分割监督信息之后的所述开源视频实例分割数据集对所述预训练好的第二视频实例分割模型进行微调,得到训练好的第二视频实例分割模型;
将采集的所述步态视频输入所述训练好的第二视频实例分割模型,得到所述目标人员的关键点序列。
在一些实施例中,通过如下方式得到所述目标人员的人体部位序列:
获取利用开源视频实例分割数据集训练得到的预训练好的第三视频实例分割模型;其中,所述第三视频实例分割模型基于SeqFormer构建;
将所述开源视频实例分割数据集中所述目标人员以外的类别均视为背景之后,更换为人体部位解析监督信息;
利用更换分割监督信息之后的所述开源视频实例分割数据集对所述预训练好的第三视频实例分割模型进行微调,得到训练好的第三视频实例分割模型;
将采集的所述步态视频输入所述训练好的第三视频实例分割模型,得到所述目标人员的人体部位序列。
在一些实施例中,述从得到的所述步态序列中提取所述目标人员的步态特征,包括以下步骤:
识别得到的所述目标人员的步态序列的类别;
根据识别出的所述步态序列的类别,采用对应的步态识别模型从所述步态序列提取步态特征。
在一些实施例中,若所述步态序列为剪影序列,利用第一步态识别模型从所述剪影序列中提取步态特征,其中,所述第一步态识别模型基于GaitSet构建;
若所述步态序列为关键点序列,利用第二步态识别模型从所述关键点序列中提取步态特征,其中,所述第二步态识别模型基于GaitGraph构建;
若所述步态序列为人体部位序列,利用第三步态识别模型从所述人体部位序列中提取步态特征,所述第三步态识别模型基于多分支GaitSet构建。
在一些实施例中,所述将提取到的所述步态特征与底库进行对比,获取满足设定阈值的识别对象,包括以下步骤:
将提取到的所述步态特征归一化,并分别计算与底库中所有步态序列之间的余弦相似度;
根据计算出的余弦相似度,确定满足设定阈值的识别对象,并将确定出的识别对象按照相似度从高到低的顺序进行排列。
第二方面,本申请实施例提供一种基于视频实例分割的步态识别装置,所述装置包括:
采集模块,用于利用摆放在不同角度的相机同时录制目标人员的行走状态视频,得到所述目标人员的不同视角的行走序列;
特征提取模块,用于从所述目标人员的不同视角的行走序列提取步态特征;
识别模块,用于将所述步态特征与底库进行对比,获取满足设定阈值的识别对象。
第三方面,本申请实施例提供的一种电子设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面任一项所述的基于视频实例分割的步态识别方法的步骤。
第四方面,本申请实施例提供的一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面任一项所述的基于视频实例分割的步态识别方法的步骤。
本申请所述的一种基于视频实例分割的步态识别方法、装置、电子设备及存储介质,通过摄像机采集目标人员的步态视频,并将该步态视频输入训练好的视频实例分割模型,得到所述目标人员的步态序列;从得到的所述步态序列中提取所述目标人员的步态特征;将提取到的所述步态特征与底库进行对比,获取满足设定阈值的识别对象;即通过训练好的视频实例分割模型一步就能够获取步态序列,从而简化步态识别步骤,提升模型泛化性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所述基于视频实例分割的步态识别方法的流程图;
图2示出了本申请实施例所得到所述目标人员的剪影序列的流程图;
图3示出了本申请实施例所得到所述SeqFormer模型的结构示意图;
图4示出了本申请实施例所述得到所述目标人员的关键点序列的流程图;
图5示出了本申请实施例所述得到所述目标人员的人体部位序列的流程图;
图6示出了本申请实施例所述分割监督信息可视化结果的示意图;
图7示出了本申请实施例所述GaitSet模型的结构示意图;
图8示出了本申请实施例所述GaitGraph模型的结构示意图;
图9示出了本申请实施例所述基于视频实例分割的步态识别装置的结构示意图;
图10示出了本申请实施例所述电子设备的结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
鉴于背景技术所提出的技术问题,本申请提供一种基于视频实例分割的步态识别方法、装置、电子设备及存储介质,能够简化步态识别步骤,提升模型泛化性。
参见说明书附图1,本申请实施例提供的一种基于视频实例分割的步态识别方法,包括以下步骤:
S1、通过摄像机采集目标人员的步态视频,并将该步态视频输入训练好的视频实例分割模型,得到所述目标人员的步态序列;其中,所述步态序列为剪影序列、关键点序列或者人体部位序列;
S2、从得到的所述步态序列中提取所述目标人员的步态特征;其中,针对所述剪影序列、所述关键点序列或者所述人体部位序列,采用的提取目标人员的步态特征的方法不同;
S3、将提取到的所述步态特征与底库进行对比,获取满足设定阈值的识别对象。
本申请实施例提供的一种基于视频实例分割的步态识别方法,能够将拍摄的目标人员的步态视频输入训练好的视频实例分割模型,直接得到所述目标人员的步态序列,简化了步态序列的获取步骤。而现有技术中,往往需要经过两个步骤才能获取步态序列,先检测行人位置,再通过分割/姿态估计/人体解析等方法获得步态序列,两步走的方法泛化性低,当输入模态改变时,不同的输入数据要设计不同的模型,此外,由于第一步中的检查模型不直接作用于对应模态步态序列的获取,可能造成局部最优解。
其中,所述步态序列具体是指目标人员行走时的轮廓序列,用于表征人体行走时的姿态和行为特征,可以为人体通过髋、膝、踝、足趾的一系列连续活动。在该实施例中,所述步态序列可以为剪影序列、关键点序列或者人体部位序列,由不同的训练好的视频实例分割模型输出得到。
具体的,在一实施例中,参见说明书附图2,通过如下方式得到所述目标人员的剪影序列:
S101、获取利用开源视频实例分割数据集训练得到的预训练好的第一视频实例分割模型;其中,所述第一视频实例分割模型基于SeqFormer构建;
S102、对所述开源视频实例分割数据集中的分割监督信息进行更换,以将所述目标人员以外的类别均视为背景;
S103、利用更换分割监督信息之后的所述开源视频实例分割数据集对所述预训练好的第一视频实例分割模型进行微调,得到训练好的第一视频实例分割模型;
S104、将采集的所述步态视频输入所述训练好的第一视频实例分割模型,得到所述目标人员的剪影序列。
在步骤S101-S104中,所述开源视频实例分割数据集来源于YouTube-VIS 2019数据集和COCO数据集,将其作为第一训练样本集,对预构建的第一视频实例分割模型进行训练得到预训练好的第一视频实例分割模型。在该实施例中,所述预训练好的第一视频实例分割模型基于SeqFormer构建构建,SeqFormer模型的结构示意图可以刹那间说明书附图3。所述SeqFormer模型整体分为三个部分:CNN骨干网络,Transformer编码器和查询分解编码器。给定输入帧CNN骨干网络独立的提取每一帧的特征图;之后紧接一个1*1卷积层,将通道维度降低到256,生成特征图为/>添加位置编码后输入到Transformer编码器,输出特征与输入特征维度相同;接下来将编码特征输入到查询分解Transformer解码器,首先定义了固定维度的可学习实例查询向量,在第一个解码器层,使用初始实例查询共享到每一帧上做可变形注意力/>其中,/>是从第一层解码器的第t帧上的边界框查询,Iq是实例查询,ft是第t帧上的特征;在之后第l层(l>1)中使用上一层的查询作为输入/>在经过了所有的解码器后,为每个实例获得一个实例查询和T个边界框查询,实例查询是共享的视频级实例表示,边界框查询包含用于预测每个帧上边界框的位置信息。最后共有三个输出头分别输出实例掩码(掩码头),实例类别(类别头)和实例边界框(边界框头)。
另外,在通过第一训练样本集(从YouTube-VIS 2019数据集和COCO数据集提取的)训练得到预训练好的第一视频实例分割模型之后,还需要对该预训练好的第一视频实例分割模型进行参数微调。具体的,先将第一训练样本集中的分割监督信息中除去行人以外的类别都视为背景,其中分割监督信息更换前后的可视化示意图可以参见说明书附图6,图中(a)即为原始分割监督信息的可视化示意图,图中(b)为将行人以外的类别都视为背景的分割监督信息的可视化示意图;然后在更换监督信息的第一训练样本集上对预训练好的第一视频实例分割模型进行参数微调,进而得到训练好的第一视频实例分割模型,从而将采集的步态视频输入到该训练好的第一视频实例分割模型,得到目标人员的剪影序列。
其中,训练第一视频实例分割模型以及参数微调的过程应为领域技术人员所熟知的技术手段,在此不做赘述。
参见说明书附图4,通过如下方式得到所述目标人员的关键点序列:
P101、获取利用开源视频实例分割数据集训练得到的预训练好的第二视频实例分割模型;其中,所述第二视频实例分割模型基于SeqFormer构建;
P102、将所述开源视频实例分割数据集中的分割监督信息更换为人体关键点标注监督信息;
P103、利用更换分割监督信息之后的所述开源视频实例分割数据集对所述预训练好的第二视频实例分割模型进行微调,得到训练好的第二视频实例分割模型;
P104、将采集的所述步态视频输入所述训练好的第二视频实例分割模型,得到所述目标人员的关键点序列。
在步骤S101-S104中,先通过第二训练样本集(从YouTube-VIS 2019数据集和COCO数据集提取的)训练基于SeqFormer构建的第二视频实例分割模型得到预训练好的第一视频实例分割模型,再通过更换分割监督信息的第二训练样本集对其参数微调,最终得到训练好的第二视频实例分割模型,从而将采集的步态视频输入到该训练好的第二视频实例分割模型,得到目标人员的关键点序列。其中,分割监督信息更换前后的示意图可以参见说明书附图6,图中(a)即为原始分割监督信息的可视化示意图,图中(c)为将分割监督信息更换为人体关键点标注监督信息的可视化示意图。
参见说明书附图5,通过如下方式得到所述目标人员的关键点序列:
Q101、获取利用开源视频实例分割数据集训练得到的预训练好的第三视频实例分割模型;其中,所述第三视频实例分割模型基于SeqFormer构建;
Q102、将所述开源视频实例分割数据集中所述目标人员以外的类别均视为背景之后,更换为人体部位解析监督信息;
Q103、利用更换分割监督信息之后的所述开源视频实例分割数据集对所述预训练好的第三视频实例分割模型进行微调,得到训练好的第三视频实例分割模型;
Q104、将采集的所述步态视频输入所述训练好的第三视频实例分割模型,得到所述目标人员的人体部位序列。
在步骤Q101-Q104中,先通过第三训练样本集(从YouTube-VIS 2019数据集和COCO数据集提取的)训练基于SeqFormer构建的第三视频实例分割模型得到预训练好的第三视频实例分割模型,再通过更换分割监督信息的第三训练样本集对其参数微调,最终得到训练好的第三视频实例分割模型,从而将采集的步态视频输入到该训练好的第三视频实例分割模型,得到目标人员的关键点序列。其中,分割监督信息更换前后的示意图可以参见说明书附图6,图中(a)即为原始分割监督信息的可视化示意图,图中(d)为将行人以外的类别都视为背景并更换为人体部位解析监督信息的可视化示意图。
在步骤S2中,具体是根据识别得到的目标人员的步态序列的类别,采用相对应的步态识别模型从步态序列中提取步态特征。其中,当输入步态识别模型的是剪影序列时,利用第一步态识别模型从所述剪影序列中提取步态特征,所述第一步态识别模型基于GaitSet构建;所述GaitSet模型的结构可以参见说明书附图7,包括CNN、集合池化层(Setpooling)和水平金字塔池化层,其中,先将剪影序列输入CNN提取帧剪影特征,通过集合池化层(Set pooling)将基于帧的特征融合为基于集合的特征,再将帧级特征和集合级特征通过水平金字塔池化层映射,最终得到步态特征;
当输入步态识别模型的是关键点序列时,利用第二步态识别模型从所述关键点序列中提取步态特征,所述第二步态识别模型基于GaitGrapht构建;所述GaitGraph模型的结构可以参见说明书附图8,包括ResGCN模块和全连接层,其中,先将关键点序列输入到多组ResGCN模块中,其中ResGCN包括图卷积层,2d卷积层,瓶颈层等,再为输出特征做平均池化,输入到全连接层,输出最终步态特征;
当输入步态识别模型的是人体部位序列时,利用第三步态识别模型从所述人体部位序列中提取步态特征,所述第三步态识别模型基于多分支GaitSet构建;其中,将K个部位的剪影序列输入到GaitSet提取K组特征,再选择K组部位特征中不同维度最具有辨识力的部分组合为最终步态特征。
在步骤S3中,具体的,先将提取到的所述步态特征归一化,并分别计算与底库中所有步态序列之间的余弦相似度;再根据计算出的余弦相似度,确定满足设定阈值的识别对象,并将确定出的识别对象按照相似度从高到低的顺序进行排列。其中,所述底库为真实场景下抓拍的各类步态数据确定的若干候选行走序列组成。在该实施例中,将步态特征作为检索对
象,用表示,底库中单个步态序列用/>表示,C为步态特征的维度,计算公式如下:
则利用上述公式依次计算p与底库中所有步态序列的余弦相似度,然后将满足一定阈值的查询结果返回,并按照相似度从高到低的顺序进行排列。例如,设定阈值为0.7,则将底库中所有步态序列的余弦相似度s>0.7的结构返回,并从高到低进行排序。
可见,本申请提供的一种基于视频实例分割的步态识别方法,能够将拍摄的目标人员的步态视频输入训练好的视频实例分割模型,直接所述目标人员的步态序列,进而输入到步态识别模型中提取步态特征,从而简化了步态序列的获取步骤,并且使用基于视频实例解析模型只需要根据序列类别进行对应的微调即可,泛化性高,同时保证检测任务的优化目标与对应模态步态序列获取任务一致。
基于同一发明构思,本申请实施例中还提供了一种基于视频实例分割的步态识别装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述一种基于视频实例分割的步态识别方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
如说明书附图9所示,本申请还提供了一种基于视频实例分割的步态识别装置,所述装置包括:
采集模块901,用于通过摄像机采集目标人员的步态视频,并将该步态视频输入训练好的视频实例分割模型,得到所述目标人员的步态序列;其中,所述步态序列为剪影序列、关键点序列或者人体部位序列;
提取模块902,用于从得到的所述步态序列中提取所述目标人员的步态特征;其中,针对所述剪影序列、所述关键点序列或者所述人体部位序列,采用的提取目标人员的步态特征的方法不同;
识别模块903,用于将提取到的所述步态特征与底库进行对比,获取满足设定阈值的识别对象。
在一些实施例中,所述采集模块901得到所述目标人员的剪影序列,包括:
获取利用开源视频实例分割数据集训练得到的预训练好的第一视频实例分割模型;其中,所述第一视频实例分割模型基于SeqFormer构建;
对所述开源视频实例分割数据集中的分割监督信息进行更换,以将所述目标人员以外的类别均视为背景;
利用更换分割监督信息之后的所述开源视频实例分割数据集对所述预训练好的第一视频实例分割模型进行微调,得到训练好的第一视频实例分割模型;
将采集的所述步态视频输入所述训练好的第一视频实例分割模型,得到所述目标人员的剪影序列。
在一些实施例中,所述采集模块901得到所述目标人员的关键点序列,包括:
获取利用开源视频实例分割数据集训练得到的预训练好的第二视频实例分割模型;其中,所述第二视频实例分割模型基于SeqFormer构建;
将所述开源视频实例分割数据集中的分割监督信息更换为人体关键点标注监督信息;
利用更换分割监督信息之后的所述开源视频实例分割数据集对所述预训练好的第二视频实例分割模型进行微调,得到训练好的第二视频实例分割模型;
将采集的所述步态视频输入所述训练好的第二视频实例分割模型,得到所述目标人员的关键点序列。
在一些实施例中,所述采集模块901得到所述目标人员的人体部位序列,包括:
获取利用开源视频实例分割数据集训练得到的预训练好的第三视频实例分割模型;其中,所述第三视频实例分割模型基于SeqFormer构建;
将所述开源视频实例分割数据集中所述目标人员以外的类别均视为背景之后,更换为人体部位解析监督信息;
利用更换分割监督信息之后的所述开源视频实例分割数据集对所述预训练好的第三视频实例分割模型进行微调,得到训练好的第三视频实例分割模型;
将采集的所述步态视频输入所述训练好的第三视频实例分割模型,得到所述目标人员的人体部位序列。
在一些实施例中,所述提取模块902从得到的所述步态序列中提取所述目标人员的步态特征,包括:
识别得到的所述目标人员的步态序列的类别;
根据识别出的所述步态序列的类别,采用对应的步态识别模型从所述步态序列提取步态特征;其中,若所述步态序列为剪影序列,利用第一步态识别模型从所述剪影序列中提取步态特征,其中,所述第一步态识别模型基于GaitSet构建;若所述步态序列为关键点序列,利用第二步态识别模型从所述关键点序列中提取步态特征,其中,所述第二步态识别模型基于GaitGraph构建;若所述步态序列为人体部位序列,利用第三步态识别模型从所述人体部位序列中提取步态特征,所述第三步态识别模型基于多分支GaitSet构建。
在一些实施例中,所述识别模块903提取到的所述步态特征与底库进行对比,获取满足设定阈值的识别对象,包括:
将提取到的所述步态特征归一化,并分别计算与底库中所有步态序列之间的余弦相似度;
根据计算出的余弦相似度,确定满足设定阈值的识别对象,并将确定出的识别对象按照相似度从高到低的顺序进行排列。
本申请提供的一种基于视频实例分割的步态识别装置,通过采集模块将采集的目标人员的步态视频输入训练好的视频实例分割模型,得到所述目标人员的步态序列;其中,所述步态序列为剪影序列、关键点序列或者人体部位序列;通过提取模块从得到的所述步态序列中提取所述目标人员的步态特征;其中,针对所述剪影序列、所述关键点序列或者所述人体部位序列,采用的提取目标人员的步态特征的方法不同;通过识别模块将提取到的所述步态特征与底库进行对比,获取满足设定阈值的识别对象。从而简化步态识别步骤,提升模型泛化性。
基于本发明的同一构思,说明书附图10所示,本申请实施例提供的一种电子设备1000的结构,该电子设备1000包括:至少一个处理器1001,至少一个网络接口1004或者其他用户接口1003,存储器1005,至少一个通信总线1002。通信总线1002用于实现这些组件之间的连接通信。该电子设备1000可选的包含用户接口1003,包括显示器(例如,触摸屏、LCD、CRT、全息成像(Holographic)或者投影(Projector)等),键盘或者点击设备(例如,鼠标,轨迹球(trackball),触感板或者触摸屏等)。
存储器1005可以包括只读存储器和随机存取存储器,并向处理器1001提供指令和数据。存储器1005的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器1005存储了如下的元素,可保护模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统10051,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;
应用程序模块10052,包含各种应用程序,例如桌面(launcher)、媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。
在本申请实施例中,通过调用存储器1005存储的程序或指令,处理器1001用于执行如一种基于视频实例分割的步态识别方法中的步骤,能够简化步态识别步骤,提升模型泛化性。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如基于视频实例分割的步态识别方法中的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述基于视频实例分割的步态识别方法。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于视频实例分割的步态识别方法,其特征在于,所述方法包括以下步骤:
通过摄像机采集目标人员的步态视频,并将该步态视频输入训练好的视频实例分割模型,得到所述目标人员的步态序列;其中,所述步态序列为剪影序列、关键点序列或者人体部位序列;
从得到的所述步态序列中提取所述目标人员的步态特征;其中,针对所述剪影序列、所述关键点序列或者所述人体部位序列,采用的提取目标人员的步态特征的方法不同;
将提取到的所述步态特征与底库进行对比,获取满足设定阈值的识别对象。
2.根据权利要求1所述的一种基于视频实例分割的步态识别方法,其特征在于,通过如下方式得到所述目标人员的剪影序列:
获取利用开源视频实例分割数据集训练得到的预训练好的第一视频实例分割模型;其中,所述第一视频实例分割模型基于SeqFormer构建;
对所述开源视频实例分割数据集中的分割监督信息进行更换,以将所述目标人员以外的类别均视为背景;
利用更换分割监督信息之后的所述开源视频实例分割数据集对所述预训练好的第一视频实例分割模型进行微调,得到训练好的第一视频实例分割模型;
将采集的所述步态视频输入所述训练好的第一视频实例分割模型,得到所述目标人员的剪影序列。
3.根据权利要求1所述的一种基于视频实例分割的步态识别方法,其特征在于,通过如下方式得到所述目标人员的关键点序列:
获取利用开源视频实例分割数据集训练得到的预训练好的第二视频实例分割模型;其中,所述第二视频实例分割模型基于SeqFormer构建;
将所述开源视频实例分割数据集中的分割监督信息更换为人体关键点标注监督信息;
利用更换分割监督信息之后的所述开源视频实例分割数据集对所述预训练好的第二视频实例分割模型进行微调,得到训练好的第二视频实例分割模型;
将采集的所述步态视频输入所述训练好的第二视频实例分割模型,得到所述目标人员的关键点序列。
4.根据权利要求1所述的一种基于视频实例分割的步态识别方法,其特征在于,通过如下方式得到所述目标人员的人体部位序列:
获取利用开源视频实例分割数据集训练得到的预训练好的第三视频实例分割模型;其中,所述第三视频实例分割模型基于SeqFormer构建;
将所述开源视频实例分割数据集中所述目标人员以外的类别均视为背景之后,更换为人体部位解析监督信息;
利用更换分割监督信息之后的所述开源视频实例分割数据集对所述预训练好的第三视频实例分割模型进行微调,得到训练好的第三视频实例分割模型;
将采集的所述步态视频输入所述训练好的第三视频实例分割模型,得到所述目标人员的人体部位序列。
5.根据权利要求1所述的一种基于视频实例分割的步态识别方法,其特征在于,所述从得到的所述步态序列中提取所述目标人员的步态特征,包括以下步骤:
识别得到的所述目标人员的步态序列的类别;
根据识别出的所述步态序列的类别,采用对应的步态识别模型从所述步态序列提取步态特征。
6.根据权利要求5所述的一种基于视频实例分割的步态识别方法,其特征在于,若所述步态序列为剪影序列,利用第一步态识别模型从所述剪影序列中提取步态特征,其中,所述第一步态识别模型基于GaitSet构建;
若所述步态序列为关键点序列,利用第二步态识别模型从所述关键点序列中提取步态特征,其中,所述第二步态识别模型基于GaitGraph构建;
若所述步态序列为人体部位序列,利用第三步态识别模型从所述人体部位序列中提取步态特征,所述第三步态识别模型基于多分支GaitSet构建。
7.根据权利要求6所述的一种基于视频实例分割的步态识别方法,其特征在于,所述将提取到的所述步态特征与底库进行对比,获取满足设定阈值的识别对象,包括以下步骤:
将提取到的所述步态特征归一化,并分别计算与底库中所有步态序列之间的余弦相似度;
根据计算出的余弦相似度,确定满足设定阈值的识别对象,并将确定出的识别对象按照相似度从高到低的顺序进行排列。
8.一种基于视频实例分割的步态识别装置,其特征在于,所述装置包括:
采集模块,用于通过摄像机采集目标人员的步态视频,并将该步态视频输入训练好的视频实例分割模型,得到所述目标人员的步态序列;其中,所述步态序列为剪影序列、关键点序列或者人体部位序列;
提取模块,用于从得到的所述步态序列中提取所述目标人员的步态特征;其中,针对所述剪影序列、所述关键点序列或者所述人体部位序列,采用的提取目标人员的步态特征的方法不同;
识别模块,用于将提取到的所述步态特征与底库进行对比,获取满足设定阈值的识别对象。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的基于视频实例分割的步态识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的基于视频实例分割的步态识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310639571.9A CN116645634A (zh) | 2023-05-31 | 2023-05-31 | 一种基于视频实例分割的步态识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310639571.9A CN116645634A (zh) | 2023-05-31 | 2023-05-31 | 一种基于视频实例分割的步态识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116645634A true CN116645634A (zh) | 2023-08-25 |
Family
ID=87643152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310639571.9A Pending CN116645634A (zh) | 2023-05-31 | 2023-05-31 | 一种基于视频实例分割的步态识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645634A (zh) |
-
2023
- 2023-05-31 CN CN202310639571.9A patent/CN116645634A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Happy et al. | Fuzzy histogram of optical flow orientations for micro-expression recognition | |
Elharrouss et al. | A combined multiple action recognition and summarization for surveillance video sequences | |
Kumar et al. | The p-destre: A fully annotated dataset for pedestrian detection, tracking, and short/long-term re-identification from aerial devices | |
CN109934176B (zh) | 行人识别系统、识别方法及计算机可读存储介质 | |
CN110070010B (zh) | 一种基于行人重识别的人脸属性关联方法 | |
Charfi et al. | Optimized spatio-temporal descriptors for real-time fall detection: comparison of support vector machine and Adaboost-based classification | |
Almasawa et al. | A survey on deep learning-based person re-identification systems | |
CN108288051B (zh) | 行人再识别模型训练方法及装置、电子设备和存储介质 | |
CN111310731A (zh) | 基于人工智能的视频推荐方法、装置、设备及存储介质 | |
CN110659589B (zh) | 基于姿态和注意力机制的行人再识别方法、系统、装置 | |
CN114220176A (zh) | 一种基于深度学习的人体行为的识别方法 | |
CN110287370B (zh) | 基于现场鞋印的犯罪嫌疑人追踪方法、装置及存储介质 | |
Etezadifar et al. | A new sample consensus based on sparse coding for improved matching of SIFT features on remote sensing images | |
CN113160276B (zh) | 一种目标跟踪方法、目标跟踪装置及计算机可读存储介质 | |
CN113627380B (zh) | 一种用于智能安防及预警的跨视域行人重识别方法及系统 | |
CN106407978B (zh) | 一种结合似物度的无约束视频中显著物体检测方法 | |
CN116645697A (zh) | 一种多视角步态识别方法、装置、电子设备及存储介质 | |
CN114998928A (zh) | 多粒度特征利用的跨模态行人重识别方法 | |
Pang et al. | Analysis of computer vision applied in martial arts | |
CN115100684A (zh) | 基于姿态与样式归一化的换衣行人重识别方法 | |
Liu et al. | Visual object tracking with partition loss schemes | |
Gao et al. | Occluded person re-identification based on feature fusion and sparse reconstruction | |
Alghamdi et al. | Automated person identification framework based on fingernails and dorsal knuckle patterns | |
Kamiński et al. | Human activity recognition using standard descriptors of MPEG CDVS | |
Лобачев et al. | Machine learning models and methods for human gait recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |