CN116385929A - 视频人物识别方法、装置、电子设备及存储介质 - Google Patents
视频人物识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116385929A CN116385929A CN202310345035.8A CN202310345035A CN116385929A CN 116385929 A CN116385929 A CN 116385929A CN 202310345035 A CN202310345035 A CN 202310345035A CN 116385929 A CN116385929 A CN 116385929A
- Authority
- CN
- China
- Prior art keywords
- face feature
- feature vector
- video
- similar
- vector matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 239000013598 vector Substances 0.000 claims abstract description 630
- 239000011159 matrix material Substances 0.000 claims abstract description 330
- 238000001514 detection method Methods 0.000 claims description 39
- 238000000605 extraction Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 9
- 230000015556 catabolic process Effects 0.000 abstract description 13
- 238000006731 degradation reaction Methods 0.000 abstract description 13
- 230000007547 defect Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种视频人物识别方法、装置、电子设备及存储介质,其中视频人物识别方法,包括:获取待识别视频中各图像帧的人脸特征向量;针对各人脸特征向量,将人脸特征向量添加至相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵,相似人脸特征向量矩阵为相似人脸特征向量矩阵集合中与人脸特征向量之间的相似度大于预设阈值的矩阵或新建的矩阵;将目标相似人脸特征向量矩阵中的相似人脸特征向量与预设视频人物库中的预设视频人物进行匹配,识别待识别视频中的目标视频人物。本发明方法能够避免待识别视频因模糊和退化严重而难以识别视频人物的缺陷,从而大幅提升了从模糊和退化严重的影视视频中识别视频人物的准确率,并且适用范围广。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种视频人物识别方法、装置、电子设备及存储介质。
背景技术
目前,人物识别方法是指能够识别或验证图像中主体身份的技术,并且随着电影、电视剧和综艺节目等影视视频的日益盛行,如何识别影视视频中的视频人物也就显得尤为重要。
相关技术中,通常是对影视视频中的视频帧进行人脸检测,再针对检测到的人脸图像进行特征提取,后基于提取到的人脸特征信息识别影视视频中的视频人物。
然而,当影视视频中存在人脸分辨率低、尺度变化范围大、光照和姿态变化剧烈、乔装打扮、遮挡和拍摄角度等问题时均会造成模糊和退化,产生低质量的人脸图像,并且当人脸图像退化过大时,使用现有视频人物识别方法提取特征时不可避免地会丢失重要或关键的人脸特征信息,从而导致从模糊和退化严重的影视视频中识别视频人物的准确率低且适用范围受限。
发明内容
本发明提供一种视频人物识别方法、装置、电子设备及存储介质,用以解决现有技术从模糊和退化严重的影视视频中识别视频人物的准确率低且适用范围受限的缺陷,大幅提升了从模糊和退化严重的影视视频中识别视频人物的准确率,并且适用范围广。
本发明提供一种视频人物识别方法,包括:
获取待识别视频中各图像帧的人脸特征向量;
针对各人脸特征向量,将所述人脸特征向量添加至相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵,所述相似人脸特征向量矩阵为相似人脸特征向量矩阵集合中与所述人脸特征向量之间的相似度大于预设阈值的矩阵或新建的矩阵;
将所述目标相似人脸特征向量矩阵中的相似人脸特征向量与预设视频人物库中的预设视频人物进行匹配,识别所述待识别视频中的目标视频人物。
根据本发明提供的一种视频人物识别方法,所述将所述人脸特征向量添加至相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵,包括:
在所述相似人脸特征向量矩阵集合为空集的情况下,将所述人脸特征向量添加至新建的相似人脸特征向量矩阵,确定所述目标相似人脸特征向量矩阵;
在所述相似人脸特征向量矩阵集合为非空集的情况下,根据所述人脸特征向量与所述相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度,将所述人脸特征向量添加至与所述人脸特征向量匹配的相似人脸特征向量矩阵中,或者将所述人脸特征向量添加至新建的相似人脸特征向量矩阵中,确定所述目标相似人脸特征向量矩阵。
根据本发明提供的一种视频人物识别方法,确定所述人脸特征向量与所述相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度,包括:
针对各相似人脸特征向量矩阵,确定所述人脸特征向量与所述相似人脸特征向量矩阵中各相似人脸特征向量之间的相似度;
将各所述相似度的均值确定为所述人脸特征向量与所述相似人脸特征向量矩阵之间的相似度;
将所述人脸特征向量与各所述相似人脸特征向量矩阵之间的相似度中的最大相似度,确定为所述人脸特征向量与所述相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度。
根据本发明提供的一种视频人物识别方法,所述根据所述人脸特征向量与所述相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度,将所述人脸特征向量添加至与所述人脸特征向量匹配的相似人脸特征向量矩阵中,或者将所述人脸特征向量添加至新建的相似人脸特征向量矩阵中,确定所述目标相似人脸特征向量矩阵,确定所述目标相似人脸特征向量矩阵,包括:
根据所述人脸特征向量与所述相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度,比较所述目标相似度与第一预设阈值的大小关系;
在所述目标相似度大于等于所述第一预设阈值的情况下,将所述人脸特征向量添加至与所述目标最大相似度对应的相似人脸特征向量矩阵中,确定所述目标相似人脸特征向量矩阵;
在所述目标相似度小于所述第一预设阈值的情况下,将所述人脸特征向量添加至新建的相似人脸特征向量矩阵中,确定所述目标相似人脸特征向量矩阵。
根据本发明提供的一种视频人物识别方法,所述将所述目标相似人脸特征向量矩阵中的相似人脸特征向量与预设视频人物库中的预设视频人物进行匹配,识别所述待识别视频中的目标视频人物,包括:
在所述目标相似人脸特征向量矩阵的最大维度大于等于第二预设阈值的情况下,确定所述目标相似人脸特征向量矩阵中每个相似人脸特征向量与所述预设视频人物库中每个预设视频人物之间的人物特征相似度;
基于多个所述人物特征相似度,确定与所述预设视频人物库中相同预设视频人物的人物特征最相似的所述相似人脸特征向量的个数;
在所述个数大于第三预设阈值的情况下,识别所述预设视频人物库中所述相同预设视频人物为所述待识别视频中的目标视频人物。
根据本发明提供的一种视频人物识别方法,所述获取待识别视频中各图像帧的人脸特征向量,包括:
对待识别视频进行按序解码,获取所述待识别视频的多个有序图像帧;
对每个所述有序图像帧进行人脸信息检测;
基于每个检测到的人脸信息进行裁剪对齐后提取特征向量,从而获取所述待识别视频中各图像帧的人脸特征向量。
根据本发明提供的一种视频人物识别方法,所述对每个所述有序图像帧进行人脸信息检测,包括:
将每个所述有序图像帧输入至预设人脸信息检测模型中进行人脸信息检测;所述预设人脸信息检测模型为预先训练至收敛的人脸信息检测模型。
根据本发明提供的一种视频人物识别方法,所述基于每个检测到的人脸信息进行裁剪对齐后提取特征向量,从而获取所述待识别视频中各图像帧的人脸特征向量,包括:
基于每个检测到的人脸信息进行裁剪对齐后,获取每个裁剪对齐后的人脸信息;
将所述每个裁剪对齐后的人脸信息输入至预设人脸特征向量提取模型中进行人脸特征向量提取,获取所述待识别视频中各图像帧的人脸特征向量;所述预设人脸特征向量提取模型为预先训练至收敛的人脸特征向量提取模型。
本发明还提供一种视频人物识别装置,包括:
获取模块,用于获取待识别视频中各图像帧的人脸特征向量;
确定模块,用于针对各人脸特征向量,将所述人脸特征向量添加至相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵,所述相似人脸特征向量矩阵为相似人脸特征向量矩阵集合中与所述人脸特征向量之间的相似度大于预设阈值的矩阵或新建的矩阵;
识别模块,用于将所述目标相似人脸特征向量矩阵中的相似人脸特征向量与预设视频人物库中的预设视频人物进行匹配,识别所述待识别视频中的目标视频人物。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述视频人物识别方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述视频人物识别方法。
本发明提供的视频人物识别方法、装置、电子设备及存储介质,其中视频人物识别方法,终端设备通过先确定待识别视频中各图像帧的人脸特征向量匹配,再针对各人脸特征向量,将人脸特征向量添加至相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵,相似人脸特征向量矩阵为相似人脸特征向量矩阵集合中与人脸特征向量之间的相似度大于预设阈值的矩阵或新建的矩阵,最后再将目标相似人脸特征向量矩阵中的相似人脸特征向量与预设视频人物库中的预设视频人物进行匹配,识别待识别视频中的目标视频人物。以此结合将多个人脸特征向量中同一视频人物出现多次的所有人脸特征向量归为一类目标相似人脸特征向量矩阵,以及将目标相似人脸特征向量矩阵与每个预设视频人物进行匹配这一技术手段,避免了待识别视频因模糊和退化严重而难以识别视频人物的缺陷,从而大幅提升了从模糊和退化严重的影视视频中识别视频人物的准确率,并且适用范围广。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的视频人物识别方法的流程示意图;
图2是本发明提供的人脸信息检测的流程示意图;
图3是本发明提供的确定目标相似人脸特征向量矩阵的过程示意图;
图4是本发明提供的构建相似人脸特征向量矩阵集合的过程示意图;
图5是本发明提供的识别目标视频人物的过程示意图;
图6是本发明提供的视频人物识别装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,人脸识别方法是指能够识别或验证图像中主体身份的技术,并且随着电影、电视剧和综艺节目等影视视频的日益盛行,如何识别影视视频中的视频人物也就显得尤为重要。
考虑到人脸识别方法通常由人脸检测、人脸对齐、人脸表征和人脸匹配4部分组成,人脸检测用于检测图像中人脸的位置且返回人脸关键点坐标信息,人脸对齐用于根据人脸关键点坐标信息进行放射变换,并检测到人脸区域;人脸表征用于从检测到的人脸区域提取人脸特征信息;人脸匹配用于通过比较两个人脸特征信息得到相似性分数,并表明两个人脸特征信息是否来自同一个人。
然而,当影视视频中存在人脸分辨率低、尺度变化范围大、光照和姿态变化剧烈、乔装打扮、遮挡和拍摄角度等问题时均会造成模糊和退化,产生低质量的人脸图像,因此当人脸图像退化过大时,使用现有目标识别方法提取特征时不可避免地会丢失重要或关键的人脸特征信息,从而导致识别视频人物的准确率低且适用范围受限。
为了解决上述技术问题,本发明提供一种视频人物识别方法、装置、电子设备及存储介质,其中视频人物识别方法的执行主体可以为终端设备或者服务器,终端设备或者服务器均至少具备视频解码功能、信息检测功能、信息提取功能、信息比对功能和数据处理功能;并且,终端设备可以为个人计算机(Personal Computer,PC)、便携式设备、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等其它电子设备;服务器可以使用独立的服务器或者多个服务器组成的服务器集群,比如服务器可以为包含独立主机的物理服务器、主机集群承载的虚拟服务器、云服务器等。本发明对终端设备或者服务器的具体形式也不做限定。下述方法实施例以执行主体为终端设备为例进行说明。
参照图1,为本发明实施例提供的视频人物识别方法的流程示意图,如图1所示,该视频人物识别方法,包括以下步骤:
步骤110、获取待识别视频中各图像帧的人脸特征向量。
其中,待识别视频可以为电影、电视剧或者综艺节目等其它影视视频的部分或者全部,比如待识别视频可以为一部电影或者一集电视机的片段,也可以为整部电影或者整集电视剧。此处不作具体限定。并且待识别视频因人脸分辨率低、尺度变化范围大、光照和姿态变化剧烈、乔装打扮、遮挡和拍摄角度等问题造成模糊和退化。此外,每个人脸特征向量可以用于表征待识别视频中对应图像帧含有的人脸信息的特征,待识别视频中对应图像帧的人脸信息可以对应一个人脸特征向量,并且待识别视频中对应图像帧的人脸信息可以为影视明星、群众演员、观众或者工作人员等其他人的人脸信息。此处也不作具体限定。
具体的,终端设备可以通过人为在与终端设备连接的客户端应用中输入待识别视频的方式获取待识别视频,还可以从预先存储的影视视频集中选取至少一个影视视频作为待识别视频的方式获取待识别视频,并且待识别视频可以通过视频信息上传模块上传至终端设备的处理模块,比如处理器。
进一步的,终端设备针对获取的待识别视频,可以通过预先存储的针对输入视频提取人脸特征向量的提取方法,获取待识别视频中各图像帧的人脸特征向量;也可以为终端设备直接接收用户上传的待识别视频中各图像帧的人脸特征向量,比如,可以通过用户人为在终端设备上输入待识别视频中各图像帧的人脸特征向量的方式获取,也可以通过人为在与终端设备连接的客户端应用中输入中各图像帧的人脸特征向量的方式获取,还可以通过将拍摄的含有中各图像帧的人脸特征向量上传输入的方式获取。此处对终端设备获取待识别视频及待识别视频中各图像帧的人脸特征向量的方式均不作具体限定。
步骤120、针对各人脸特征向量,将人脸特征向量添加至相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵,相似人脸特征向量矩阵为相似人脸特征向量矩阵集合中与人脸特征向量之间的相似度大于预设阈值的矩阵或新建的矩阵。
其中,目标相似人脸特征向量矩阵中至少含有一个相似人脸特征向量。并且,当相似人脸特征向量矩阵集合不为空集时至少存在一个相似人脸特征向量矩阵,相似人脸特征向量矩阵中至少存在一个人脸特征向量。此外,当相似人脸特征向量矩阵中存在至少两个人脸特征向量时为,该至少两个人脸特征向量为属于同一类人物特征的相似人脸特征向量。
具体的,终端设备首先构建一个相似人脸特征向量矩阵集合R,该相似人脸特征向量矩阵集合R用于将具备相似关系的人脸特征向量分别归类为一个相似人脸特征向量矩阵且初始为空集;并且,随着针对每个人脸特征向量的归类流程的不断进行,该相似人脸特征向量矩阵集合R的类别索引值数量和每个类别索引值对应的相似人脸特征向量矩阵的维度也会随之不断增加,最终该相似人脸特征向量矩阵集合R中将保存n个相似人脸特征向量矩阵,n为类别索引值的数量,也即待识别视频中出现的人物总个数;并且,每个类别索引值的相似人脸特征向量矩阵可以为Ai(j×m),i∈1,2,…,n,i为当前类别索引值,相似人脸特征向量矩阵Ai由待识别视频中出现的第i个人物(也即第i类人物)j次被定为检测出来的人脸信息的1×m大小的相似人脸特征向量组合而成,j∈1,2,…,k,k和n分别为正整数;相似人脸特征向量矩阵Ai中每个相似人脸特征向量的大小与预设视频人物库Y中每个预设人脸特征向量的大小相同。
基于此,终端设备可以针对各人脸特征向量与相似人脸特征向量矩阵集合R进行相似性分析,并基于相似性分析结果,判定是将当前的人脸特征向量添加至相似人脸特征向量矩阵集合R中与人脸特征向量之间的相似度大于预设阈值的矩阵中,还是在相似人脸特征向量矩阵集合R中新建矩阵并添加,从而确定出与当前的人脸特征向量对应的目标相似人脸特征向量矩阵。然后选择下一个人脸特征向量作为当前的人脸特征向量,重复执行步骤120。直至得到每个人脸特征向量对应的目标相似人脸特征向量矩阵。
步骤130、将目标相似人脸特征向量矩阵中的相似人脸特征向量与预设视频人物库中的预设视频人物进行匹配,识别待识别视频中的目标视频人物。
其中,预设视频人物库Y为预先构建的r×m维矩阵且由r个1×m大小的预设人脸特征向量组合而成,每个1×m大小的预设人脸特征向量对应一个预设视频人物,每个预设视频人物可以为对应影视明星的标准视频人物或者参考视频人物。此外,r和m分别为正整数。
具体的,终端设备将目标相似人脸特征向量矩阵中的每个相似人脸特征向量和预设视频人物库中每个预设视频人物进行匹配,以便于确定目标相似人脸特征向量矩阵中的全部相似人脸特征向量与预设视频人物库中哪个预设视频人物之间的匹配度最高,并将匹配度最高时对应于预设视频人物库中的预设视频人物,确定为待识别视频中的目标视频人物。
本发明提供的视频人物识别方法,终端设备通过先确定待识别视频中各图像帧的人脸特征向量匹配,再针对各人脸特征向量,将人脸特征向量添加至相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵,相似人脸特征向量矩阵为相似人脸特征向量矩阵集合中与人脸特征向量之间的相似度大于预设阈值的矩阵或新建的矩阵,最后再将目标相似人脸特征向量矩阵中的相似人脸特征向量与预设视频人物库中的预设视频人物进行匹配,识别待识别视频中的目标视频人物。以此结合将多个人脸特征向量中同一视频人物出现多次的所有人脸特征向量归为一类目标相似人脸特征向量矩阵,以及将目标相似人脸特征向量矩阵与每个预设视频人物进行匹配这一技术手段,避免了待识别视频因模糊和退化严重而难以识别视频人物的缺陷,从而大幅提升了从模糊和退化严重的影视视频中识别视频人物的准确率,并且适用范围广。
可选的,步骤110的具体实现过程可以包括:
首先,对待识别视频进行按序解码,获取待识别视频的多个有序图像帧;再进一步对每个有序图像帧进行人脸信息检测;然后,基于每个检测到的人脸信息进行裁剪对齐后提取特征向量,从而获取待识别视频中各图像帧的人脸特征向量。
具体的,终端设备针对视频信息上传模块上传的待识别视频,结合待识别视频的视频流特性,可以对待识别视频进行按序解码,以将待识别视频解码为多个有序图像帧,也即获取待识别视频的多个有序图像帧,比如图像帧1、图像帧2、……、图像帧K,K为大于1的正整数;如果每秒解码25个有序图像帧且待识别视频为从一部电影中截取的40秒视频片段时,K=25*40。
进一步的,终端设备对每个有序图像帧依次进行人脸信息检测,由于有序图像帧存在可以检测多个人脸信息的可能性,因此在有序图像帧检测到人脸信息的情况下,可以针对检测到的至少一个人脸信息进行标签管理,使得有序图像帧检测到的至少一个人脸信息均携带有标签,比如图像帧2检测到5个人脸信息时,检测到的5个人脸信息的标签可以依次为人脸信息1、人脸信息2、人脸信息3、人脸信息4和人脸信息5;此时,再针对有序图像帧检测到的至少一个人脸信息进行裁剪对齐后提取特征向量,获取从有序图像帧中提取到的人脸特征向量,从有序图像帧中检测到的人脸信息数量与提取到的人脸特征向量数量相同且一一对应,比如图像帧2检测到5个人脸信息时,图像帧2可以对应提取到5个人脸特征向量。以此获取待识别视频中各图像帧的人脸特征向量。
需要说明的是,针对人脸特征向量的提取,此处可以使用卷积神经网络(Convolutional Neural Network,CNN)为基础的网络模型FaceNet来提取人脸特征向量,并设计新的损失函数。FaceNet将人脸映射到128维向量空间中,并设计了Triplet损失函数,Triplet损失函数的自变量包含三个部分:某个特定人脸(称为anchor)、与该人匹配的人脸(称为正样本positive)、与该人不匹配的人脸(称为负样本negative),目标是训练后anchor与positive比较近,而离negative比较远。以此方法可以提取人脸特征向量。也可以使用现有的用于提取人脸特征向量的其它网络模型提取。此处不作具体限定。
需要说明的是,针对K个有序图像帧依次进行人脸信息检测,如果图像帧1检测到人脸信息时,则针对检测到的至少一个人脸信息对应提取人脸特征向量;反之,如果图像帧1未检测出人脸信息,则对下一图像帧(也即图像帧2)进行人脸信息检测。直至针对K个有序图像帧均完成人脸信息检测。
本发明实施例提供的视频人物识别方法,通过将待识别视频解码的多个有序图像帧依次进行人脸信息检测且对每个检测到的人脸信息进行裁剪对齐后提取特征向量的方式,获取待识别视频中各图像帧的人脸特征向量。以此结合解码视频、人脸信息检测、裁剪对齐和提取特征向量技术,提高了获取人脸特征向量的高效性和可靠性,为后续视频人物的准确识别奠定基础。
可选的,对每个有序图像帧进行人脸信息检测,其具体实现过程可以包括:
将每个有序图像帧输入至预设人脸信息检测模型中进行人脸信息检测;预设人脸信息检测模型为预先训练至收敛的人脸信息检测模型。
具体的,为了提高视频解码的速率和检测人脸信息的准确性,可以结合中央处理器(Central Processing Unit,CPU)和图形处理器(Graphics Processing Unit,GPU)的特性进行视频解码和检测人脸信息,具体参照图2所示的人脸信息检测的流程示意图,终端设备针对视频信息上传模块上传的待识别视频,可以综合利用GPU和CPU组合进行待识别视频的解码,提取多个有序图像帧,再进一步将每个有序图像帧输入至预设人脸信息检测模型中进行人脸信息检测时,可以综合利用GPU和CPU组合进行每个有序图像帧的检测与识别,从而获取每个检测到的人脸信息的标签,以此实现标签管理目的。
需要说明的,在采用预设人脸信息检测模型进行人脸信息检测和识别的时候,会有很多线性运算,例如针对每个人脸特征向量的运算,可以将涉及线性运算的数据放在GPU上进行处理,以此可以提升运算速度。此外,由于现有的每一个神经网络模型的优化中都要精心的设计特征提取网络和复杂的损失函数,不断迭代训练来提升人脸识别的正确率,相较于此,本发明使用现有训练至收敛的预设人脸信息检测模型进行人脸信息检测的方法算法简单,容易理解,适用范围广。
本发明实施例提供的视频人物识别方法,通过将每个有序图像帧输入至预设人脸信息检测模型中进行人脸信息检测的方式,大幅提高了人脸信息检测的快速高效性和可靠准确性,并且由于预设人脸信息检测模型为预先训练至收敛的人脸信息检测模型,因此也避免了构建神经网络模型、设计损失函数及不断迭代训练所导致的运算复杂度高个适用范围受限的问题,不仅提高了人脸信息检测的准确率,适用范围也很广。
可选的,基于每个检测到的人脸信息进行裁剪对齐后提取特征向量,从而获取待识别视频中各图像帧的人脸特征向量,其具体实现过程可以包括:
首先,基于每个检测到的人脸信息进行裁剪对齐后,获取每个裁剪对齐后的人脸信息;再进一步将每个裁剪对齐后的人脸信息输入至预设人脸特征向量提取模型中进行人脸特征向量提取,获取待识别视频中各图像帧的人脸特征向量;预设人脸特征向量提取模型为预先训练至收敛的人脸特征向量提取模型。
具体的,终端设备针对每个检测到的人脸信息可以先进行裁剪对齐,以此获取每个裁剪对齐后的人脸信息,此处的裁剪对齐方法可以采用现有常规的裁剪对齐方法。并且将每个裁剪对齐后的人脸信息输入至预设人脸特征向量提取模型中进行人脸特征向量提取,此处将每个裁剪对齐后的人脸信息输入至预设人脸特征向量提取模型中进行人脸特征向量提取时,也可以综合利用GPU和CPU组合进行人脸特征向量提取,以此提升运算速度,并且通过使用现有训练至收敛的预设人脸特征向量提取模型进行人脸特征向量提取的方法算法简单,容易理解,也能进一步广泛适用范围。
需要说明的是,本发明可以使用现有的人脸检测算法如RetinaFace、多任务卷积神经网络(Multi-task Convolutional Neural Network,MTCNN)等其它算法定位人脸信息得到人脸信息得到坐标信息,再使用现有的人脸识别算法如AdaFace、FaceNet等其它算法从人脸信息中提取人脸特征向量,并采用公式(1)判断提取的两个人脸特征向量是否相似:
p=abT (1)
式(1)中,p表示两个人脸特征向量a和b的相似程度,上标T为转置操作。
本发明实施例提供的视频人物识别方法,通过使用预设人脸特征向量提取模型对每个裁剪对齐后的人脸信息进行人脸特征向量提取的方式,也能大幅提高提取人脸特征向量的快速高效性和可靠准确性,并且由于预设人脸特征向量提取模型为预先训练至收敛的人脸特征向量提取模型,因此也能避免构建神经网络模型、设计损失函数及不断迭代训练所导致的运算复杂度高个适用范围受限的问题,不仅提高了人脸特征向量提取的准确率,适用范围也很广。
可选的,步骤120中将人脸特征向量添加至相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵的具体实现过程可以包括:
在相似人脸特征向量矩阵集合为空集的情况下,将人脸特征向量添加至新建的相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵;在相似人脸特征向量矩阵集合为非空集的情况下,根据人脸特征向量与相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度,将人脸特征向量添加至与人脸特征向量匹配的相似人脸特征向量矩阵中,或者将人脸特征向量添加至新建的相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵。
具体的,终端设备可以确定人脸特征向量与相似人脸特征向量矩阵集合R的目标相似度和目标最大相似度对应的类别索引值,也即确定人脸特征向量与相似人脸特征向量矩阵集合R中相似人脸特征向量矩阵Ai之间的目标相似度和目标相似度的索引值。
基于此,终端设备针对各人脸特征向量中当前的人脸特征向量a、相似人脸特征向量矩阵集合R中的相似人脸特征向量矩阵Ai,确定的最大相似度p和最大相似度对应的类别索引值g进行分析判断,当判定相似人脸特征向量矩阵集合R为空集时,则确定人脸特征向量a为相似人脸特征向量矩阵集合R中第1个类别索引值对应的相似人脸特征向量矩阵A1,也即A1=a;当判定相似人脸特征向量矩阵集合R为不空集时,将人脸特征向量a添加至相似人脸特征向量矩阵集合R中与人脸特征向量a匹配的相似人脸特征向量矩阵中,或者将人脸特征向量a添加至新建的相似人脸特征向量矩阵中,从而确定目标相似人脸特征向量矩阵。
示例性的,可以参照图3所示的确定目标相似人脸特征向量矩阵的过程示意图,在图3中,针对一个有序图像帧提取的两个人脸特征向量[0.24,0.23,......,0.92]和[0.12,0.73,......,0.52],通过对所计算的目标相似度和目标相似度对应的类别索引值进行分析,可以将[0.24,0.23,......,0.92]添加至已有类别索引值对应的相似人脸特征向量矩阵中,以及将[0.12,0.73,......,0.52]作为相似人脸特征向量矩阵集合R中新建的类别索引值对应的相似人脸特征向量矩阵中。
本发明实施例提供的视频人物识别方法,终端设备通过在判定相似人脸特征向量矩阵集合为空集时,将人脸特征向量添加至新建的相似人脸特征向量矩阵索引值中,或者在判定相似人脸特征向量矩阵集合不为空集时,将人脸特征向量添加至与人脸特征向量匹配的相似人脸特征向量矩阵中或者将人脸特征向量添加至新建的相似人脸特征向量矩阵中的方式,确定目标相似人脸特征向量矩阵。以此通过在相似人脸特征向量矩阵集合中以待识别视频已经出现的人脸特征向量作为基准来归类当前人脸特征向量,并且此基准随着识别流程的进行不断扩大时,用于归类的人脸特征也越来越丰富,从而能够有效地将低质量人脸归类正确,也有效提高了确定与多个人脸特征向量匹配的相似人脸特征向量矩阵的准确性和可靠性。
可选的,确定人脸特征向量与所述相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度,其具体实现过程可以包括:
首先,针对各相似人脸特征向量矩阵,确定人脸特征向量与相似人脸特征向量矩阵中各相似人脸特征向量之间的相似度;再进一步将各相似度的均值确定为人脸特征向量与相似人脸特征向量矩阵之间的相似度;然后将人脸特征向量与各相似人脸特征向量矩阵之间的相似度中的最大相似度,确定为人脸特征向量与相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度。
具体的,针对各相似人脸特征向量矩阵,终端设备先确定人脸特征向量与相似人脸特征向量矩阵中各相似人脸特征向量之间的相似度,假设相似人脸特征向量矩阵中含有k个人脸特征向量时可以确定k个相似度,再针对确定的多个相似度求均值,比如求取k个相似度的均值,此处求均值后所得到的结果即为人脸特征向量与相似人脸特征向量矩阵之间的相似度,以此方式确定人脸特征向量与相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的相似度,假如有n个相似度,此时将n个相似度中的最大相似度确定为人脸特征向量与相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度,此过程可以采用式(2)~(4)实现:
p=fmax(P) (3)
g=fargmax(P) (4)
式(2)~(4)中,fmean为求均值操作,fmax为求最大值操作,fargmax为求最大索引值操作,Ai∈R,y∈1,2,…,n,a为当前的人脸特征向量,Pi为人脸特征向量a和相似人脸特征向量矩阵集合R的相似人脸特征向量矩阵Ai的相似度,P为人脸特征向量a和相似人脸特征向量矩阵集合R的相似度集合,p为相似度集合P中的目标相似度,g为目标相似度p对应的类别索引值。
本发明实施例提供的视频人物识别方法,终端设备通过先确定人脸特征向量与相似人脸特征向量矩阵中各相似人脸特征向量之间的相似度、再将各相似度的均值确定为人脸特征向量与相似人脸特征向量矩阵之间的相似度、后将人脸特征向量与各相似人脸特征向量矩阵之间的相似度中的最大相似度确定为目标相似度的方式,有效提高了确定人脸特征向量与相似人脸特征向量矩阵集合之间的目标相似度的可靠性和准确性,为后续视频人物的准确识别提供可靠保障。
可选的,根据人脸特征向量与相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度,将人脸特征向量添加至与人脸特征向量匹配的相似人脸特征向量矩阵中,或者将人脸特征向量添加至新建的相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵,其具体实现过程可以包括:
根据人脸特征向量与相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度,比较目标相似度与第一预设阈值的大小关系;在目标相似度大于等于第一预设阈值的情况下,将人脸特征向量添加至与目标最大相似度对应的相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵;或者,在目标相似度小于第一预设阈值的情况下,将人脸特征向量添加至新建的相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵。
具体的,针对当前的人脸特征向量a、相似人脸特征向量矩阵集合R中的相似人脸特征向量矩阵Ai通过式(2)~(4)计算出的目标相似度p和目标相似度p对应的类别索引值g,可以根据以下情况进行具体分析并确定目标相似人脸特征向量矩阵:
情况一:若相似人脸特征向量矩阵集合R不为空集并且目标相似度p大于等于第一预设阈值,则确定在相似人脸特征向量矩阵集合R中第g个类别索引值对应的相似人脸特征向量矩阵Ag(j×m,j∈1,2,…,k)中添加一维人脸特征向量a,也即Ag[j+1]=a,并且令j=j+1;以此确定目标相似人脸特征向量矩阵Ag;
情况二:若相似人脸特征向量矩阵集合R不为空集并且目标相似度p小于第一预设阈值,则确定在相似人脸特征向量矩阵集合R中新增一个类别索引值对应的相似人脸特征向量矩阵An+1并在相似人脸特征向量矩阵An+1中添加人脸特征向量a,也即An+1=a,并且令n=n+1;以此确定目标相似人脸特征向量矩阵An。
需要说明的是,若相似人脸特征向量矩阵集合R不为空集并且人脸特征向量a与相似人脸特征向量矩阵集合R中每个相似人脸特征向量矩阵之间的目标相似度都较低时,也需要在相似人脸特征向量矩阵集合R中新增一个类别索引值对应的相似人脸特征向量矩阵添加此人脸特征向量a。
需要说明的是,终端设备通过将获取的待识别视频中的每个人脸特征向量均采用式(2)~(4)以及上述分析过程,即可对待识别视频中各图像帧的人脸特征向量进行相似人脸特征向量归类直至完成相似人脸特征向量矩阵集合的构建过程。示例性的,参照图4所示的构建相似人脸特征向量矩阵集合的过程示意图,在图4中,针对待识别视频解码的多个有序图像帧,依次检测每个有序图像帧中的人脸信息,并裁剪对齐后提取特征向量,从而得到每个人脸信息对应的人脸特征向量,也即图4中所示的人脸信息1对应的[特征向量1]、人脸信息2对应的[特征向量2]、人脸信息3对应的[特征向量3]、人脸信息4对应的[特征向量4]、人脸信息5对应的[特征向量5]、人脸信息6对应的[特征向量6]、……、人脸信息n对应的[特征向量n]、人脸信息n+1对应的[特征向量n+1]以及人脸信息n+2对应的[特征向量n+2]、……;并且按序依次将相似人脸特征向量归类,从而构建相似人脸特征向量矩阵集合R包括图4所示的A1和A2。
本发明实施例提供的视频人物识别方法,终端设备通过在相似人脸特征向量矩阵集合为空集时比较当前的人脸特征向量与相似人脸特征向量矩阵集合的目标相似度与第一预设阈值大小关系的方式,确定将当前的人脸特征向量添加至相似人脸特征向量矩阵集合中已有类别索引值对应的相似人脸特征向量矩阵中,还是归类于相似人脸特征向量矩阵集合中新增类别索引值对应的相似人脸特征向量矩阵中。以此结合依据待识别视频中前序人脸特征向量为基准对后续人脸特征向量进行聚类的方法能够确保待识别视频中的低质量人脸信息聚类正确,从而有效提高了后续视频人物识别的准确性。
可选的,步骤130的具体实现过程可以包括:
首先,在目标相似人脸特征向量矩阵的最大维度大于等于第二预设阈值的情况下,确定目标相似人脸特征向量矩阵中每个相似人脸特征向量与预设视频人物库中每个预设视频人物之间的人物特征相似度;再进一步基于多个人物特征相似度,确定与预设视频人物库中相同预设视频人物的人物特征最相似的相似人脸特征向量的个数;然后,在所述个数大于第三预设阈值的情况下,识别预设视频人物库中相同预设视频人物为待识别视频中的目标视频人物。
具体的,终端设备针对待识别视频中各图像帧的人脸特征向量进行相似人脸特征向量归类直至完成相似人脸特征向量矩阵集合的构建时,即可认为将待识别视频中各图像帧的人脸特征向量匹配归类到了不同的目标相似人脸特征向量矩阵中,此时将相似人脸特征向量矩阵集合中的每个目标相似人脸特征向量矩阵和预设视频人物库中各预设视频人物进行匹配,也即针对各目标相似人脸特征向量矩阵,依次判断目标相似人脸特征向量矩阵的最大维度是否小于第二预设阈值,若目标相似人脸特征向量矩阵的最大维度小于第二预设阈值,则可以确定待识别视频中的对应人物为群演、观众等不属于视频人物识别范畴的人物,此时确定该类人物不识别,并且此处的第二预设阈值可以设置为不大于4的正整数;反之,若目标相似人脸特征向量矩阵的最大维度大于等于第二预设阈值,则确定目标相似人脸特征向量矩阵中每个相似人脸特征向量与预设视频人物库中每个预设视频人物的人物特征相似度,并基于确定的多个人物特征相似度,确定与预设视频人物库中相同预设视频人物的人物特征最相似的相似人脸特征向量的个数s,也可以一并确定此处相同预设视频人物的索引值,其计算公式如式(5)和(6)所示:
s=fsame_count(fargmax(AiYT)) (5)
g=findex_count(fargmax(AiYT)) (6)
式(5)和(6)中,fsame_count为求人物特征相似度指代预设视频人物库中相同预设视频人物的最多个数操作,findex_count为求最多个数人物特征相似度指代预设视频人物库中相同预设视频人物的索引值操作,s和g表示目标相似人脸特征向量矩阵中的所有相似人脸特征向量中有s个相似人脸特征向量与预设视频人物库Y中第g个预设视频人物的人物特征相似度最高,fargmax为求最大索引值操作。
基于此,终端设备可以根据个数s与第三预设阈值的大小关系确定视频人物识别结果,也即,当个数s小于等于第三预设阈值时,可以确定目标相似人脸特征向量矩阵中对应于待识别视频中的人物无识别;反之,当个数s大于第三预设阈值时,可以确定目标相似人脸特征向量矩阵中对应于待识别视频中的人物为预设视频人物库Y中第g个预设视频人物。此处的第三预设阈值可以为大于j/2的最大整数,j为相似人脸特征向量矩阵Ai的最大维度(最大维度也可以为k)。比如,针对目标相似人脸特征向量矩阵的最大维度为50的情况,若26个相似人脸特征向量指代预设视频人物库Y中第g个预设视频人物,则目标相似人脸特征向量矩阵对应于待识别视频中的人物则为预设视频人物库Y中第g个预设视频人物;反之,若24个相似人脸特征向量指代预设视频人物库Y中第g个预设视频人物,则判定不识别目标相似人脸特征向量矩阵对应于待识别视频中的人物。
需要说明的是,为了提高识别精度,本发明采用投票方法进行视频人物识别,在相似人脸特征向量矩阵集合每一个类别索引值对应的目标相似人脸特征向量矩阵识别中,首先将该类别索引值对应的目标相似人脸特征向量矩阵中每个相似人脸特征向量与预设视频人物库Y匹配,以对每个相似人脸特征向量匹配到的预设视频人物进行“投票”,最多得票的预设视频人物超过第三预设阈值,则判定该类别索引值对应的目标相似人脸特征向量矩阵中所有相似人脸特征向量属于该预设视频人物。由于相似人脸特征向量矩阵集合中已经将同一人物出现的所有人脸特征向量归为一类相似人脸特征向量矩阵,因此该类中可能存在低质量人脸特征向量,若单独识别低质量人脸特征向量很大程度会识别错误,而采取“投票”的办法,使该类中低质量人脸特征向量服从高质量人脸特征向量的识别结果,有效提升识别正确率,同时,若该类中的人脸不在预设视频人物库中,那么就会“投票”失败,防止误识别。
示例性的,参照图5所示的识别目标视频人物的过程示意图进行视频人物识别,可以得到识别结果为待识别视频中的目标视频人物为预设视频人物库Y中的第8个预设视频人物和第20个预设视频人物。其具体实现过程可以参照前述实施例,此处不再赘述。
本发明提供的视频人物识别方法,终端设备首先在目标相似人脸特征向量矩阵的最大维度大于等于第二预设阈值的情况下,确定目标相似人脸特征向量矩阵中每个相似人脸特征向量与预设视频人物库中每个预设视频人物的人物特征相似度,再从多个人物特征相似度中,确定与预设视频人物库中相同预设视频人物的人物特征最相似的人物特征相似度的个数;最后在个数大于第三预设阈值的情况下,识别预设视频人物库中相同预设视频人物为待识别视频中的目标视频人物。以此通过将待识别视频中相似的人脸特征向量矩阵集合在一起后再分别对每一类目标相似人脸特征向量矩阵采用投票的手段识别目标视频人物的方式,不仅能够很大程度不识别预设视频人物库中不存在的人物,降低误识别概率,而且也能够大幅提高视频人物的识别准确度。
下面对本发明提供的视频人物识别装置进行描述,下文描述的视频人物识别装置与上文描述的视频人物识别方法可相互对应参照。
参照图6,为本发明提供的视频人物识别装置的结构示意图,如图6所示,该视频人物识别装置600,包括:
获取模块610,用于获取待识别视频中各图像帧的人脸特征向量;
确定模块620,用于针对各人脸特征向量,将人脸特征向量添加至相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵,相似人脸特征向量矩阵为相似人脸特征向量矩阵集合中与人脸特征向量之间的相似度大于预设阈值的矩阵或新建的矩阵;
识别模块630,用于将目标相似人脸特征向量矩阵中的相似人脸特征向量与预设视频人物库中的预设视频人物进行匹配,识别待识别视频中的目标视频人物。
可选的,获取模块610,具体可以用于对待识别视频进行按序解码,获取待识别视频的多个有序图像帧;对每个有序图像帧进行人脸信息检测;基于每个检测到的人脸信息进行裁剪对齐后提取特征向量,从而获取待识别视频中各图像帧的人脸特征向量。
可选的,获取模块610,具体还可以用于将每个有序图像帧输入至预设人脸信息检测模型中进行人脸信息检测;预设人脸信息检测模型为预先训练至收敛的人脸信息检测模型。
可选的,获取模块610,具体还可以用于基于每个检测到的人脸信息进行裁剪对齐后,获取每个裁剪对齐后的人脸信息;将每个裁剪对齐后的人脸信息输入至预设人脸特征向量提取模型中进行人脸特征向量提取,获取待识别视频中各图像帧的人脸特征向量;预设人脸特征向量提取模型为预先训练至收敛的人脸特征向量提取模型。
可选的,确定模块620,具体可以用于在相似人脸特征向量矩阵集合为空集的情况下,将人脸特征向量添加至新建的相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵;在相似人脸特征向量矩阵集合为非空集的情况下,根据人脸特征向量与相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度,将人脸特征向量添加至与人脸特征向量匹配的相似人脸特征向量矩阵中,或者将人脸特征向量添加至新建的相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵。
可选的,确定模块620,具体还可以用于针对各相似人脸特征向量矩阵,确定人脸特征向量与相似人脸特征向量矩阵中各相似人脸特征向量之间的相似度;将各相似度的均值确定为人脸特征向量与相似人脸特征向量矩阵之间的相似度;将人脸特征向量与各相似人脸特征向量矩阵之间的相似度中的最大相似度,确定为人脸特征向量与相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度。
可选的,确定模块620,具体还可以用于根据人脸特征向量与相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度,比较目标相似度与第一预设阈值的大小关系;在目标相似度大于等于第一预设阈值的情况下,将人脸特征向量添加至与目标最大相似度对应的相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵;在目标相似度小于第一预设阈值的情况下,将人脸特征向量添加至新建的相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵。
可选的,识别模块630,具体可以用于在所述目标相似人脸特征向量矩阵的最大维度大于等于第二预设阈值的情况下,确定所述目标相似人脸特征向量矩阵中每个相似人脸特征向量与所述预设视频人物库中每个预设视频人物之间的人物特征相似度;基于多个所述人物特征相似度,确定与所述预设视频人物库中相同预设视频人物的人物特征最相似的相似人脸特征向量的个数;在所述个数大于第三预设阈值的情况下,识别所述预设视频人物库中相同预设视频人物为所述待识别视频中的目标视频人物。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备700可以包括:处理器(processor)710、通信接口(CommunicationsInterface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行视频人物识别方法,该方法包括:
获取待识别视频中各图像帧的人脸特征向量;
针对各人脸特征向量,将人脸特征向量添加至相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵,相似人脸特征向量矩阵为相似人脸特征向量矩阵集合中与人脸特征向量之间的相似度大于预设阈值的矩阵或新建的矩阵;
将目标相似人脸特征向量矩阵中的相似人脸特征向量与预设视频人物库中的预设视频人物进行匹配,识别待识别视频中的目标视频人物。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的视频人物识别方法,该方法包括:
获取待识别视频中各图像帧的人脸特征向量;
针对各人脸特征向量,将人脸特征向量添加至相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵,相似人脸特征向量矩阵为与相似人脸特征向量矩阵集合中人脸特征向量之间的相似度大于预设阈值的矩阵或新建的矩阵;
将目标相似人脸特征向量矩阵中的相似人脸特征向量与预设视频人物库中的预设视频人物进行匹配,识别待识别视频中的目标视频人物。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的视频人物识别方法,该方法包括:
获取待识别视频中各图像帧的人脸特征向量;
针对各人脸特征向量,将人脸特征向量添加至相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵,相似人脸特征向量矩阵为相似人脸特征向量矩阵集合中与人脸特征向量之间的相似度大于预设阈值的矩阵或新建的矩阵;
将目标相似人脸特征向量矩阵中的相似人脸特征向量与预设视频人物库中的预设视频人物进行匹配,识别待识别视频中的目标视频人物。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (11)
1.一种视频人物识别方法,其特征在于,包括:
获取待识别视频中各图像帧的人脸特征向量;
针对各人脸特征向量,将所述人脸特征向量添加至相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵,所述相似人脸特征向量矩阵为相似人脸特征向量矩阵集合中与所述人脸特征向量之间的相似度大于预设阈值的矩阵或新建的矩阵;
将所述目标相似人脸特征向量矩阵中的相似人脸特征向量与预设视频人物库中的预设视频人物进行匹配,识别所述待识别视频中的目标视频人物。
2.根据权利要求1所述的视频人物识别方法,其特征在于,所述将所述人脸特征向量添加至相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵,包括:
在所述相似人脸特征向量矩阵集合为空集的情况下,将所述人脸特征向量添加至新建的相似人脸特征向量矩阵中,确定所述目标相似人脸特征向量矩阵;
在所述相似人脸特征向量矩阵集合为非空集的情况下,根据所述人脸特征向量与所述相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度,将所述人脸特征向量添加至与所述人脸特征向量匹配的相似人脸特征向量矩阵中,或者将所述人脸特征向量添加至新建的相似人脸特征向量矩阵中,确定所述目标相似人脸特征向量矩阵。
3.根据权利要求2所述的视频人物识别方法,其特征在于,确定所述人脸特征向量与所述相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度,包括:
针对各相似人脸特征向量矩阵,确定所述人脸特征向量与所述相似人脸特征向量矩阵中各相似人脸特征向量之间的相似度;
将各所述相似度的均值确定为所述人脸特征向量与所述相似人脸特征向量矩阵之间的相似度;
将所述人脸特征向量与各所述相似人脸特征向量矩阵之间的相似度中的最大相似度,确定为所述人脸特征向量与所述相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度。
4.根据权利要求2所述的视频人物识别方法,其特征在于,所述根据所述人脸特征向量与所述相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度,将所述人脸特征向量添加至与所述人脸特征向量匹配的相似人脸特征向量矩阵中,或者将所述人脸特征向量添加至新建的相似人脸特征向量矩阵中,确定所述目标相似人脸特征向量矩阵,确定所述目标相似人脸特征向量矩阵,包括:
根据所述人脸特征向量与所述相似人脸特征向量矩阵集合中每个相似人脸特征向量矩阵之间的目标相似度,比较所述目标相似度与第一预设阈值的大小关系;
在所述目标相似度大于等于所述第一预设阈值的情况下,将所述人脸特征向量添加至与所述目标最大相似度对应的相似人脸特征向量矩阵中,确定所述目标相似人脸特征向量矩阵;
在所述目标相似度小于所述第一预设阈值的情况下,将所述人脸特征向量添加至新建的相似人脸特征向量矩阵中,确定所述目标相似人脸特征向量矩阵。
5.根据权利要求1至4任一项所述的视频人物识别方法,其特征在于,所述将所述目标相似人脸特征向量矩阵中的相似人脸特征向量与预设视频人物库中的预设视频人物进行匹配,识别所述待识别视频中的目标视频人物,包括:
在所述目标相似人脸特征向量矩阵的最大维度大于等于第二预设阈值的情况下,确定所述目标相似人脸特征向量矩阵中每个相似人脸特征向量与所述预设视频人物库中每个预设视频人物之间的人物特征相似度;
基于多个所述人物特征相似度,确定与所述预设视频人物库中相同预设视频人物的人物特征最相似的所述相似人脸特征向量的个数;
在所述个数大于第三预设阈值的情况下,识别所述预设视频人物库中所述相同预设视频人物为所述待识别视频中的目标视频人物。
6.根据权利要求1至4任一项所述的视频人物识别方法,其特征在于,所述获取待识别视频中各图像帧的人脸特征向量,包括:
对待识别视频进行按序解码,获取所述待识别视频的多个有序图像帧;
对每个所述有序图像帧进行人脸信息检测;
基于每个检测到的人脸信息进行裁剪对齐后提取特征向量,从而获取所述待识别视频中各图像帧的人脸特征向量。
7.根据权利要求6所述的视频人物识别方法,其特征在于,所述对每个所述有序图像帧进行人脸信息检测,包括:
将每个所述有序图像帧输入至预设人脸信息检测模型中进行人脸信息检测;所述预设人脸信息检测模型为预先训练至收敛的人脸信息检测模型。
8.根据权利要求6所述的视频人物识别方法,其特征在于,所述基于每个检测到的人脸信息进行裁剪对齐后提取特征向量,从而获取所述待识别视频中各图像帧的人脸特征向量,包括:
基于每个检测到的人脸信息进行裁剪对齐后,获取每个裁剪对齐后的人脸信息;
将所述每个裁剪对齐后的人脸信息输入至预设人脸特征向量提取模型中进行人脸特征向量提取,获取所述待识别视频中各图像帧的人脸特征向量;所述预设人脸特征向量提取模型为预先训练至收敛的人脸特征向量提取模型。
9.一种视频人物识别装置,其特征在于,包括:
获取模块,用于获取待识别视频中各图像帧的人脸特征向量;
确定模块,用于针对各人脸特征向量,将所述人脸特征向量添加至相似人脸特征向量矩阵中,确定目标相似人脸特征向量矩阵,所述相似人脸特征向量矩阵为与相似人脸特征向量矩阵集合中所述人脸特征向量之间的相似度大于预设阈值的矩阵或新建的矩阵;
识别模块,用于将所述目标相似人脸特征向量矩阵中的相似人脸特征向量与预设视频人物库中的预设视频人物进行匹配,识别所述待识别视频中的目标视频人物。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述视频人物识别方法。
11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述视频人物识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310345035.8A CN116385929A (zh) | 2023-03-31 | 2023-03-31 | 视频人物识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310345035.8A CN116385929A (zh) | 2023-03-31 | 2023-03-31 | 视频人物识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116385929A true CN116385929A (zh) | 2023-07-04 |
Family
ID=86967041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310345035.8A Pending CN116385929A (zh) | 2023-03-31 | 2023-03-31 | 视频人物识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116385929A (zh) |
-
2023
- 2023-03-31 CN CN202310345035.8A patent/CN116385929A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10733421B2 (en) | Method for processing video, electronic device and storage medium | |
Hirzer et al. | Person re-identification by efficient impostor-based metric learning | |
US8358837B2 (en) | Apparatus and methods for detecting adult videos | |
WO2021026805A1 (zh) | 对抗样本检测方法、装置、计算设备及计算机存储介质 | |
RU2668717C1 (ru) | Генерация разметки изображений документов для обучающей выборки | |
Bekhouche et al. | Pyramid multi-level features for facial demographic estimation | |
US9613296B1 (en) | Selecting a set of exemplar images for use in an automated image object recognition system | |
US11126827B2 (en) | Method and system for image identification | |
Eroglu Erdem et al. | BAUM-2: A multilingual audio-visual affective face database | |
CN111209897B (zh) | 视频处理的方法、装置和存储介质 | |
US10423817B2 (en) | Latent fingerprint ridge flow map improvement | |
CN111582027B (zh) | 身份认证方法、装置、计算机设备和存储介质 | |
CN112270204A (zh) | 目标识别方法及装置、存储介质及电子设备 | |
Alsawwaf et al. | In your face: person identification through ratios and distances between facial features | |
CN109697240A (zh) | 一种基于特征的图像检索方法及装置 | |
Karappa et al. | Detection of sign-language content in video through polar motion profiles | |
CN112257513B (zh) | 一种手语视频翻译模型的训练方法、翻译方法及系统 | |
CN113128427A (zh) | 人脸识别方法、装置、计算机可读存储介质及终端设备 | |
CN112488072A (zh) | 一种人脸样本集获取方法、系统及设备 | |
Chuang et al. | Hand posture recognition and tracking based on bag-of-words for human robot interaction | |
CN107424141B (zh) | 一种基于概率块的面部图像质量评估方法 | |
CN116385929A (zh) | 视频人物识别方法、装置、电子设备及存储介质 | |
Hrkac et al. | Tattoo detection for soft biometric de-identification based on convolutional neural networks | |
CN113177479B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN112766139A (zh) | 目标识别方法及装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |