CN113627218A - 基于视频数据的人物识别方法及装置 - Google Patents

基于视频数据的人物识别方法及装置 Download PDF

Info

Publication number
CN113627218A
CN113627218A CN202010381421.9A CN202010381421A CN113627218A CN 113627218 A CN113627218 A CN 113627218A CN 202010381421 A CN202010381421 A CN 202010381421A CN 113627218 A CN113627218 A CN 113627218A
Authority
CN
China
Prior art keywords
video
image
frame
person
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010381421.9A
Other languages
English (en)
Inventor
吴斌
王文哲
李芳涛
刘子荷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010381421.9A priority Critical patent/CN113627218A/zh
Publication of CN113627218A publication Critical patent/CN113627218A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视频数据的人物识别方法及装置,其中,该方法包括:在待识别视频中,依据时间均匀抽取多帧图像作为关键帧;对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪,对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化;对每个视觉线索,将每帧图像的特征进行融合,得到视频级别的特征;对不同视觉线索对应的视频级别的特征进行融合,得到待识别视频中人物的特征表达;通过待识别视频中人物的特征表达对视频中的人物进行识别。在给定一个视频片段时,TMAM模型输出就是视频中人物的身份,解决了无约束视频数据中的人物识别问题。

Description

基于视频数据的人物识别方法及装置
技术领域
本发明涉及图像识别技术领域,特别涉及一种基于视频数据的人物识别方法及装置。
背景技术
随着信息时代的到来,视频数据已经主导了互联网的流量。视频语义分析和内容理解在实际应用中有着迫切的需求。对视频中的人物身份进行识别在公安监察、社会管理、信息检索、娱乐生态等领域都拥有巨大的社会和商业价值。
作为计算机视觉领域的一个关键问题,图像和视频数据中的人物识别问题是当前的一个研究热点。已有的图像和视频数据中的人物识别方案主要包括以下3类:
(1)基于单一视觉线索的人物识别方法
对于多媒体数据的人物识别问题,大多数研究主要关注基于单一视觉线索的人物识别,其主要包括人脸识别和行人重识别问题。其中,人脸识别即基于人的脸部特征信息进行身份识别,作为近年来应用最广泛的研究方向之一,人脸识别算法取得了大量突破性的成果,并分别在人脸验证和识别的标准数据集中达到了极高的准确率。例如,ArcFace算法在LFW数据集上取得了99.83%的人脸验证准确率,甚至超越了人类的表现;行人重识别算法则旨在识别一定时间内不同镜头间的图像或视频序列中行人的身份,特别地,AlignedReID++算法在行人重识别标准数据集Market1501和CUHK03上也取得了超越人类的效果。
但是,基于单一视觉线索的人物识别方法对单一视觉环境依赖过于敏感,因此无法处理无约束视频环境下的人物识别问题。具体来说,在无约束环境中,人脸识别模型无法解决实际应用场景中人脸模糊、遮挡,甚至不可见的情况,而行人重识别模型则无法应对实际应用场景中人物服饰变化、视图变化的情况。
(2)基于多视觉线索的图像人物识别方法
部分研究关注于基于多视觉线索的图像人物识别方法。目前,该研究重点关注相册中的人物识别问题。其中,Zhang等人构建了一个PIPA数据集用于该问题的研究,并组合了3个视觉识别器,来分别针对人物的人脸、身体和姿态线索来对人物进行识别。进一步的,一些研究在此基础上探索了更多的视觉线索,例如头部、上半身、场景等,甚至引入了年龄、性别、社交等高层语义信息来辅助相册中人物的识别。
基于多视觉线索的图像人物识别方法能够综合多种不同的视觉线索信息来识别无约束环境下图像中的人物。然而,对于视频数据而言,直接应用这些基于图像的方法将会损失视频中的时序信息,并且复杂性较高。
(3)视频人物识别方法
目前针对视频中人物识别问题的研究仍相对较少。Huang等人将视频中每帧的人脸特征作为输入,引入数据增强等方法,最后将视频片段每帧的预测结果通过加权平均的方式进行融合作为最终的预测结果。
但是,已有的视频人物识别方法仅仅使用人脸信息或者采用简单的级联方法来处理多线索信息,并使用求平均值或者启发式加权平均的方法来融合视频不同帧的信息,这些方法显然过于简单,难以综合利用视频中复杂的多线索视觉信息和时序信息。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于视频数据的人物识别方法,该方法解决了无约束视频数据中的人物识别问题。
本发明的另一个目的在于提出一种基于视频数据的人物识别装置。
为达到上述目的,本发明一方面实施例提出了一种基于视频数据的人物识别方法,包括:
在待识别视频中,依据时间均匀抽取多帧图像作为关键帧;
对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪,对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化;
对每个视觉线索,将每帧图像的特征进行融合,得到视频级别的特征;
对不同视觉线索对应的所述视频级别的特征进行融合,得到所述待识别视频中人物的特征表达;
通过所述待识别视频中人物的特征表达对视频中的人物进行识别。
本发明实施例的基于视频数据的人物识别方法,通过在待识别视频中,依据时间均匀抽取多帧图像作为关键帧;对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪,对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化;对每个视觉线索,将每帧图像的特征进行融合,得到视频级别的特征;对不同视觉线索对应的视频级别的特征进行融合,得到待识别视频中人物的特征表达;通过待识别视频中人物的特征表达对视频中的人物进行识别。由此,在给定一个视频片段时,TMAM模型输出就是视频中人物的身份,解决了无约束视频数据中的人物识别问题。
另外,根据本发明上述实施例的基于视频数据的人物识别方法还可以具有以下附加的技术特征:
在本发明的一个实施例中,所述对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪,包括:
利用在MS-COCO预训练的Mask R-CNN模型对人物人体进行检测;
利用在HollywoodHeads上预训练的SSD模型对头部进行检测;
利用MTCNN模型对人脸进行检测和对齐;
上半身图像基于人体和头部的位置利用几何规则进行确定。
在本发明的一个实施例中,对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化包括:利用ArcFace模型对人脸特征进行提取,利用在ImageNet上预训练的ResNet模型对上半身和整张图像的特征进行提取。
在本发明的一个实施例中,对每个视觉线索,将每帧图像的特征进行融合,得到视频级别的特征,包括:
通过时序注意力模型对每帧图像进行评估,得到每帧图像的权重分数,根据所述权重分数对特征进行加权融合,得到视频级别的特征。
在本发明的一个实施例中,对每个视觉线索,将每帧图像的特征进行融合,得到视频级别的特征,具体包括:
所述时序注意力模型的输入为:
Figure BDA0002482219320000031
其中,F代表关键帧的数目,D代表特征向量的长度;
将X输入到一个全连接层和Softmax层中,获得质量分数矩阵Z:
Y=WFX+b,
Figure BDA0002482219320000032
其中,
Figure BDA0002482219320000033
Figure BDA0002482219320000034
为训练参数,zi表示Z矩阵的第i行,即第i帧对应的质量分数向量;
得到输出特征向量
Figure BDA0002482219320000035
Figure BDA0002482219320000036
其中,⊙代表矩阵的元素积运算,xi表示X矩阵的第i行,即第i帧对应的特征向量。
在本发明的一个实施例中,对不同视觉线索对应的所述视频级别的特征进行融合,得到所述待识别视频中人物的特征表达,包括:
通过多线索注意力模型学习所述待识别视频中不同视觉线索的重要性差异,并依据所述多线索注意力模型生成权重分数,根据所述权重分数对不同视觉线索的特征以加权级联的方式进行融合,得到所述待识别视频中人物的特征表达。
在本发明的一个实施例中,所述多线索注意力模型的输入为:
Figure BDA0002482219320000041
其中,N代表选取的视觉线索的数目,D代表特征向量的长度,xi表示X矩阵的第i行,即第i个线索输出的对应的视频级别特征;
将X输入到通过一个全连接层和一个Softmax层来得到N个线索对应的权重:
Y=WNX+b
Figure BDA0002482219320000042
Figure BDA0002482219320000043
其中,
Figure BDA0002482219320000044
Figure BDA0002482219320000045
是训练参数,yi,j表示Y矩阵的第i行第j列的对应元素,zi表示Z矩阵的第i行,即第i个视觉线索对应的权重分数;
得到输出特征向量o:
oi=zixi
o=concat(o1,o2,…,oN)
其中,concat()表示多个向量的级联操作。
在本发明的一个实施例中,通过所述待识别视频中人物的特征表达对视频中的人物进行识别,包括:
利用一个3层多层感知机模型进行分类,并使用了Dropout和批标准化方法。
在本发明的一个实施例中,根据对模型效果和复杂度的要求调整所述关键帧的数目。
为达到上述目的,本发明另一方面实施例提出了一种基于视频数据的人物识别装置,包括:
抽取模块,用于在待识别视频中,依据时间均匀抽取多帧图像作为关键帧;
特征提取模块,用于对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪,对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化;
第一融合模块,用于对每个视觉线索,将每帧图像的特征进行融合,得到视频级别的特征;
第二融合模块,用于对不同视觉线索对应的所述视频级别的特征进行融合,得到所述待识别视频中人物的特征表达;
识别模块,用于通过所述待识别视频中人物的特征表达对视频中的人物进行识别。
本发明实施例的基于视频数据的人物识别装置,通过在待识别视频中,依据时间均匀抽取多帧图像作为关键帧;对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪,对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化;对每个视觉线索,将每帧图像的特征进行融合,得到视频级别的特征;对不同视觉线索对应的视频级别的特征进行融合,得到待识别视频中人物的特征表达;通过待识别视频中人物的特征表达对视频中的人物进行识别。由此,在给定一个视频片段时,TMAM模型输出就是视频中人物的身份,解决了无约束视频数据中的人物识别问题。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于视频数据的人物识别方法流程图;
图2为根据本发明一个实施例的基于视频数据的人物识别方法流程框架图;
图3为根据本发明一个实施例的基于视频数据的人物识别装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于视频数据的人物识别方法及装置。
首先将参照附图描述根据本发明实施例提出的基于视频数据的人物识别方法。
图1为根据本发明一个实施例的基于视频数据的人物识别方法流程图。
如图1所示,该基于视频数据的人物识别方法包括以下步骤:
步骤S1,在待识别视频中,依据时间均匀抽取多帧图像作为关键帧。
步骤S2,对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪,对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化。
可以理解的是,本发明的任务识别方法是基于时序和多线索注意力机制的端到端的视频人物识别模型(Temporal and Multi-cue Attention Model,TMAM),通过充分挖掘并融合视频中的时序和多视觉线索信息,从而提高视频中人物实体识别的效果。在模型训练阶段,选择交叉熵作为损失函数,以端到端的方式进行。
首先是对待识别视频的预处理和特征提取,TMAM模型以一个视频片段作为输入。将视频片段依据时间均匀地抽取F帧图像作为关键帧(可根据对模型效果和复杂度的要求进行调整,通常F取16即可);接着,对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪。
具体地,分别选择在MS-COCO预训练的Mask R-CNN模型对人体进行检测,在HollywoodHeads上预训练的SSD模型对头部进行检测,选择MTCNN模型对人脸进行检测和对齐,上半身图像则可以基于人体和头部的位置利用几何规则进行确定。
对裁剪出来的人脸图像、上半身图像和整张图像进行特征提取和特征归一化。
具体地,可以选择ArcFace模型对人脸特征进行提取,选择在ImageNet上预训练的ResNet模型对上半身和整张图像的特征进行提取。特别地,如果某身体部位未检测到或者不存在,则选取全零向量作为其特征。
步骤S3,对每个视觉线索,将每帧图像的特征进行融合,得到视频级别的特征。
对每个视觉线索,将每帧图像的特征进行融合,得到视频级别的特征,包括:
通过时序注意力模型对每帧图像进行评估,得到每帧图像的权重分数,根据权重分数对特征进行加权融合,得到视频级别的特征。
对于每个视觉线索(身体部位),需要将视频中每帧的特征进行融合,得到一个视频级别的特征。在这里,引入一个时序注意力模型来自动评估视频各帧的重要性,并依据得到的权重分数将它们进行加权融合。具体来说,时序注意力模型的输入为:
Figure BDA0002482219320000061
其中F代表采样关键帧的数目,D代表特征向量的长度。接着,X被输入到一个全连接层和Softmax层中,来获得质量分数矩阵Z:
Y=WFX+b
Figure BDA0002482219320000062
其中,
Figure BDA0002482219320000063
Figure BDA0002482219320000064
是训练参数,zi表示Z矩阵的第i行,即第i帧对应的质量分数向量。最后,通过下列公式得到输出特征向量
Figure BDA0002482219320000065
Figure BDA0002482219320000066
其中,⊙代表矩阵的元素积(element-wise)运算,xi表示X矩阵的第i行,即第i帧对应的特征向量。
综上所述,对于每个视觉线索,时序注意力模型分别为其对应的视频的每一个关键帧生成了一个质量分数向量,并将各帧依据其质量分数进行加权聚合,从而能够综合不同帧之间的互补信息,利用质量较高的帧来弥补质量较低的帧的影响。
步骤S4,对不同视觉线索对应的视频级别的特征进行融合,得到待识别视频中人物的特征表达。
对不同视觉线索对应的视频级别的特征进行融合,得到待识别视频中人物的特征表达,包括:
通过多线索注意力模型学习待识别视频中不同视觉线索的重要性差异,并依据多线索注意力模型生成权重分数,根据权重分数对不同视觉线索的特征以加权级联的方式进行融合,得到待识别视频中人物的特征表达。
由上一步骤得到了视频中每个视觉线索对应的视频级别特征,需要对不同线索的特征进行融合,得到视频中人物最终的特征表达。在这里,引入了一个多线索注意力模型来自动地学习对于该视频不同视觉线索的重要性差异,并依据模型生成的权重对不同视觉线索的特征进行增强并级联。具体来说,多线索注意力模型的输入为:
Figure BDA0002482219320000071
其中N代表选取的视觉线索的数目,D代表特征向量的长度。xi表示X矩阵的第i行,即第i个线索经过对应的视频级别特征。接着,主要通过一个全连接层和一个Softmax层来得到N个线索对应的权重:
Y=WNX+b
Figure BDA0002482219320000072
Figure BDA0002482219320000073
其中,
Figure BDA0002482219320000074
Figure BDA0002482219320000075
是训练参数,yi,j表示Y矩阵的第i行第j列的对应元素,zi表示Z矩阵的第i行,即第i个视觉线索对应的重要性分数。最后,通过下列公式得到输出特征向量o:
oi==zixi
o=concat(o1,o2,…,oN)
其中,concat()表示多个向量的级联操作。
综上所述,多线索注意力模型为每一个视觉线索自适应地计算其重要性,并通过该重要性分数对不同线索的信息以加权级联的方式进行融合,得到了最终的视频人物特征表达。
步骤S5,通过待识别视频中人物的特征表达对视频中的人物进行识别。
得到视频中人物最终的特征表达之后,通过该特征对视频中的人物进行识别。具体来说,使用一个3层MLP模型进行分类,并使用了Dropout和批标准化技术。
如图2所示,展示了视频数据的人物识别方法的流程,解决了无约束视频数据中的人物识别问题,在给定一个视频片段(默认只含有一个人物)时,TMAM模型输出就是视频中人物的身份。
基于TMAM模型,新标注了一个视频人物识别数据集(由约5000段视频组成,划分为训练集、验证集和测试集,每个视频片段仅包含一个人物)上进行了相关的对比实验,结果如表1所示:
表1对比实验结果
Figure BDA0002482219320000081
(1)人脸+MLP:Huang等人的方法(为方便对比,移除了数据增强和模型集成部分),该方法仅以图像级别的人脸特征作为输入,利用MLP模型进行分类,利用视频片段各帧预测结果向量的平均值作为视频的最终预测结果;
(2)多线索+MLP:将(1)中的输入由人脸特征替换为多视觉线索特征;
(3)TMAM-时序:TMAM的简化版本,将TMAM中的多线索信息建模方法替换为了级联;
(4)TMAM-多线索:TMAM的简化版本,将TMAM中的时序建模方法替换为了平均池化;
(5)TMAM-完整:TMAM的完整版本。
实验结果表明,相比已有的视频人物识别方法,TMAM模型中的时序和多线索信息建模方法均能大大提高视频中人物识别的效果。
根据本发明实施例提出的视频数据的人物识别方法,通过在待识别视频中,依据时间均匀抽取多帧图像作为关键帧;对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪,对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化;对每个视觉线索,将每帧图像的特征进行融合,得到视频级别的特征;对不同视觉线索对应的视频级别的特征进行融合,得到待识别视频中人物的特征表达;通过待识别视频中人物的特征表达对视频中的人物进行识别。由此,在给定一个视频片段时,TMAM模型输出就是视频中人物的身份,解决了无约束视频数据中的人物识别问题。
其次参照附图描述根据本发明实施例提出的基于视频数据的人物识别装置。
图3为根据本发明一个实施例的基于视频数据的人物识别装置结构示意图。
如图3所示,该基于视频数据的人物识别装置包括:抽取模块100、特征提取模块200、第一融合模块300、第二融合模块400和识别模块500。
其中,抽取模块100,用于在待识别视频中,依据时间均匀抽取多帧图像作为关键帧。
特征提取模块200,用于对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪,对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化。
第一融合模块300,用于对每个视觉线索,将每帧图像的特征进行融合,得到视频级别的特征。
第二融合模块400,用于对不同视觉线索对应的视频级别的特征进行融合,得到待识别视频中人物的特征表达。
识别模块500,用于通过待识别视频中人物的特征表达对视频中的人物进行识别。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的基于视频数据的人物识别装置,通过在待识别视频中,依据时间均匀抽取多帧图像作为关键帧;对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪,对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化;对每个视觉线索,将每帧图像的特征进行融合,得到视频级别的特征;对不同视觉线索对应的视频级别的特征进行融合,得到待识别视频中人物的特征表达;通过待识别视频中人物的特征表达对视频中的人物进行识别。由此,在给定一个视频片段时,TMAM模型输出就是视频中人物的身份,解决了无约束视频数据中的人物识别问题。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于视频数据的人物识别方法,其特征在于,包括以下步骤:
在待识别视频中,依据时间均匀抽取多帧图像作为关键帧;
对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪,对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化;
对每个视觉线索,将每帧图像的特征进行融合,得到视频级别的特征;
对不同视觉线索对应的所述视频级别的特征进行融合,得到所述待识别视频中人物的特征表达;
通过所述待识别视频中人物的特征表达对视频中的人物进行识别。
2.根据权利要求1所述的基于视频数据的人物识别方法,其特征在于,所述对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪,包括:
利用在MS-COCO预训练的Mask R-CNN模型对人物人体进行检测;
利用在HollywoodHeads上预训练的SSD模型对头部进行检测;
利用MTCNN模型对人脸进行检测和对齐;
上半身图像基于人体和头部的位置利用几何规则进行确定。
3.根据权利要求1所述的基于视频数据的人物识别方法,其特征在于,对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化包括:利用ArcFace模型对人脸特征进行提取,利用在ImageNet上预训练的ResNet模型对上半身和整张图像的特征进行提取。
4.根据权利要求1所述的基于视频数据的人物识别方法,其特征在于,对每个视觉线索,将每帧图像的特征进行融合,得到视频级别的特征,包括:
通过时序注意力模型对每帧图像进行评估,得到每帧图像的权重分数,根据所述权重分数对特征进行加权融合,得到视频级别的特征。
5.根据权利要求4所述的基于视频数据的人物识别方法,其特征在于,对每个视觉线索,将每帧图像的特征进行融合,得到视频级别的特征,具体包括:
所述时序注意力模型的输入为:
Figure FDA0002482219310000011
其中,F代表关键帧的数目,D代表特征向量的长度;
将X输入到一个全连接层和Softmax层中,获得质量分数矩阵Z:
Y=WFX+b,
Figure FDA0002482219310000012
其中,
Figure FDA0002482219310000021
为训练参数,zi表示Z矩阵的第i行,即第i帧对应的质量分数向量;
得到输出特征向量
Figure FDA0002482219310000022
Figure FDA0002482219310000023
其中,⊙代表矩阵的元素积运算,xi表示X矩阵的第i行,即第i帧对应的特征向量。
6.根据权利要求1所述的基于视频数据的人物识别方法,其特征在于,对不同视觉线索对应的所述视频级别的特征进行融合,得到所述待识别视频中人物的特征表达,包括:
通过多线索注意力模型学习所述待识别视频中不同视觉线索的重要性差异,并依据所述多线索注意力模型生成权重分数,根据所述权重分数对不同视觉线索的特征以加权级联的方式进行融合,得到所述待识别视频中人物的特征表达。
7.根据权利要求6所述的基于视频数据的人物识别方法,其特征在于,
所述多线索注意力模型的输入为:
Figure FDA0002482219310000024
其中,N代表选取的视觉线索的数目,D代表特征向量的长度,xi表示X矩阵的第i行,即第i个线索输出的对应的视频级别特征;
将X输入到通过一个全连接层和一个Softmax层来得到N个线索对应的权重:
Y=WNX+b
Figure FDA0002482219310000025
Figure FDA0002482219310000026
其中,
Figure FDA0002482219310000027
是训练参数,yi,j表示Y矩阵的第i行第j列的对应元素,zi表示Z矩阵的第i行,即第i个视觉线索对应的权重分数;
得到输出特征向量o:
oi=zixi
o=concat(o1,o2,...,oN)
其中,concat()表示多个向量的级联操作。
8.根据权利要求1所述的基于视频数据的人物识别方法,其特征在于,通过所述待识别视频中人物的特征表达对视频中的人物进行识别,包括:
利用一个3层多层感知机模型进行分类,并使用了Dropout和批标准化方法。
9.根据权利要求1所述的基于视频数据的人物识别方法,其特征在于,
根据对模型效果和复杂度的要求调整所述关键帧的数目。
10.一种基于视频数据的人物识别装置,其特征在于,包括:
抽取模块,用于在待识别视频中,依据时间均匀抽取多帧图像作为关键帧;
特征提取模块,用于对每帧图像中的人物人体、上半身、头部和人脸进行检测并裁剪,对裁剪出的人脸图像、上半身图像和整张图像进行特征提取和特征归一化;
第一融合模块,用于对每个视觉线索,将每帧图像的特征进行融合,得到视频级别的特征;
第二融合模块,用于对不同视觉线索对应的所述视频级别的特征进行融合,得到所述待识别视频中人物的特征表达;
识别模块,用于通过所述待识别视频中人物的特征表达对视频中的人物进行识别。
CN202010381421.9A 2020-05-08 2020-05-08 基于视频数据的人物识别方法及装置 Pending CN113627218A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010381421.9A CN113627218A (zh) 2020-05-08 2020-05-08 基于视频数据的人物识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010381421.9A CN113627218A (zh) 2020-05-08 2020-05-08 基于视频数据的人物识别方法及装置

Publications (1)

Publication Number Publication Date
CN113627218A true CN113627218A (zh) 2021-11-09

Family

ID=78377211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010381421.9A Pending CN113627218A (zh) 2020-05-08 2020-05-08 基于视频数据的人物识别方法及装置

Country Status (1)

Country Link
CN (1) CN113627218A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100725A (zh) * 2022-08-23 2022-09-23 浙江大华技术股份有限公司 目标识别方法、目标识别装置以及计算机存储介质
CN115092091A (zh) * 2022-07-11 2022-09-23 中国第一汽车股份有限公司 一种基于车联网的车辆行人保护系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8885887B1 (en) * 2012-01-23 2014-11-11 Hrl Laboratories, Llc System for object detection and recognition in videos using stabilization
CN107958244A (zh) * 2018-01-12 2018-04-24 成都视观天下科技有限公司 一种基于视频多帧人脸特征融合的人脸识别方法及装置
US20180181813A1 (en) * 2016-12-22 2018-06-28 TCL Research America Inc. Face detection, identification, and tracking system for robotic devices
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109961041A (zh) * 2019-03-21 2019-07-02 腾讯科技(深圳)有限公司 一种视频识别方法、装置及存储介质
CN110110601A (zh) * 2019-04-04 2019-08-09 深圳久凌软件技术有限公司 基于多时空注意力模型的视频行人重识别算法及装置
CN110222719A (zh) * 2019-05-10 2019-09-10 中国科学院计算技术研究所 一种基于多帧音视频融合网络的人物识别方法及系统
CN110287879A (zh) * 2019-06-26 2019-09-27 天津大学 一种基于注意力机制的视频行为识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8885887B1 (en) * 2012-01-23 2014-11-11 Hrl Laboratories, Llc System for object detection and recognition in videos using stabilization
US20180181813A1 (en) * 2016-12-22 2018-06-28 TCL Research America Inc. Face detection, identification, and tracking system for robotic devices
CN107958244A (zh) * 2018-01-12 2018-04-24 成都视观天下科技有限公司 一种基于视频多帧人脸特征融合的人脸识别方法及装置
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109961041A (zh) * 2019-03-21 2019-07-02 腾讯科技(深圳)有限公司 一种视频识别方法、装置及存储介质
CN110110601A (zh) * 2019-04-04 2019-08-09 深圳久凌软件技术有限公司 基于多时空注意力模型的视频行人重识别算法及装置
CN110222719A (zh) * 2019-05-10 2019-09-10 中国科学院计算技术研究所 一种基于多帧音视频融合网络的人物识别方法及系统
CN110287879A (zh) * 2019-06-26 2019-09-27 天津大学 一种基于注意力机制的视频行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
解怀奇;乐红兵;: "基于通道注意力机制的视频人体行为识别", 电子技术与软件工程, no. 04 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115092091A (zh) * 2022-07-11 2022-09-23 中国第一汽车股份有限公司 一种基于车联网的车辆行人保护系统及方法
CN115092091B (zh) * 2022-07-11 2024-06-18 中国第一汽车股份有限公司 一种基于车联网的车辆行人保护系统及方法
CN115100725A (zh) * 2022-08-23 2022-09-23 浙江大华技术股份有限公司 目标识别方法、目标识别装置以及计算机存储介质
CN115100725B (zh) * 2022-08-23 2022-11-22 浙江大华技术股份有限公司 目标识别方法、目标识别装置以及计算机存储介质

Similar Documents

Publication Publication Date Title
CN110427867B (zh) 基于残差注意力机制的面部表情识别方法及系统
Littlewort et al. Towards social robots: Automatic evaluation of human-robot interaction by facial expression classification
Gao et al. The labeled multiple canonical correlation analysis for information fusion
CN112766159A (zh) 一种基于多特征融合的跨数据库微表情识别方法
CN112183468A (zh) 一种基于多注意力联合多级特征的行人再识别方法
Anand et al. An improved local binary patterns histograms techniques for face recognition for real time application
Zakaria et al. Face detection using combination of Neural Network and Adaboost
Li et al. A deep feature based multi-kernel learning approach for video emotion recognition
Nimbarte et al. Age Invariant Face Recognition using Convolutional Neural Network.
CN113627218A (zh) 基于视频数据的人物识别方法及装置
Littlewort et al. Fully automatic coding of basic expressions from video
CN116645694A (zh) 基于动态自进化信息抽取和对齐的文本-目标检索方法
Alom et al. Digit recognition in sign language based on convolutional neural network and support vector machine
Modi et al. A state-of-the-art survey on face recognition methods
El-Naggar et al. Ear detection in the wild using faster R-CNN deep learning
Chen et al. Facial/license plate detection using a two-level cascade classifier and a single convolutional feature map
Farooq et al. Cross modal person re-identification with visual-textual queries
Fu et al. Fusion of gait and face for human identification at the feature level
Nimbarte et al. Biased face patching approach for age invariant face recognition using convolutional neural network
Basbrain et al. A neural network approach to score fusion for emotion recognition
CN113553947B (zh) 生成描述多模态行人重识别方法、装置及电子设备
Rasyid Comparison Of LBPH, Fisherface, and PCA For Facial Expression Recognition of Kindergarten Student
Gavade et al. Facial Expression Recognition in Videos by learning Spatio-Temporal Features with Deep Neural Networks
Goyal et al. Online Attendance Management System Based on Face Recognition Using CNN
Wang et al. Audiovisual emotion recognition via cross-modal association in kernel space

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211109