CN116612542A - 基于多模态生物特征一致性的音视频人物识别方法及系统 - Google Patents

基于多模态生物特征一致性的音视频人物识别方法及系统 Download PDF

Info

Publication number
CN116612542A
CN116612542A CN202310571748.6A CN202310571748A CN116612542A CN 116612542 A CN116612542 A CN 116612542A CN 202310571748 A CN202310571748 A CN 202310571748A CN 116612542 A CN116612542 A CN 116612542A
Authority
CN
China
Prior art keywords
face
gait
features
audio
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310571748.6A
Other languages
English (en)
Inventor
曾鸣
李恒达
郑英林
林宇鑫
宋昊东
张湘君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202310571748.6A priority Critical patent/CN116612542A/zh
Publication of CN116612542A publication Critical patent/CN116612542A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Social Psychology (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Psychiatry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开一种基于多模态生物特征一致性的音视频人物识别方法及系统,涉及人物身份识别领域。本发明利用人脸检测器和人体检测器技术提取人脸区域和人体区域,利用前后景分离技术从人体区域中获取人体剪影;同时,运用深度学习技术,利用人脸识别从人脸区域提取人脸特征,利用步态识别从人体区域提取步态特征,以及利用声纹识别从音频帧中提取声纹特征;进一步利用新颖的多模态筛选方法和多模态一致性计分方法,能够高效利用包括人脸特征、步态特征和声纹特征的多模态信息,更准确地识别人物身份。并且本发明方法尤其适用于复杂场景,如社区治安、公共安全管理和智能家居等场景使用。

Description

基于多模态生物特征一致性的音视频人物识别方法及系统
技术领域
本发明涉及人物身份识别技术领域,特别是涉及一种基于多模态生物特征一致性的音视频人物识别方法及系统。
背景技术
传统的人物身份识别方法主要面向视觉信息,以人脸识别为主,与穿着和体态有着关联,局限于单一模态识别,普遍存在以下问题:(1)单模态信息受限,信息利用效率低下,对识别场景的要求较高:目前的行人识别算法主要基于单模态信息(如图像颜色、纹理、深度等特征)进行识别,然而,单模态信息存在受限性,无法全面反映行人外貌和特征,在复杂场景下识别效果有限,同时不同的识别场景要求不同,对算法的泛化能力有很大的挑战;(2)难以识别戴帽子等遮挡物的对象:随着外部环境和个人隐私等因素的影响,行人往往会戴帽子、口罩等遮挡物,这使得识别算法难以获取完整的行人图像信息,从而识别效果下降。
发明内容
针对上述背景技术中提出的问题,本发明提供一种基于多模态生物特征一致性的音视频人物识别方法及系统,以提高复杂场景下人物身份识别的准确性。
为实现上述目的,本发明提供了如下方案:
一方面,本发明提供一种基于多模态生物特征一致性的音视频人物识别方法,包括:
获取待识别身份的音视频流并进行预处理,分离出视频流数据和音频流数据;
对于视频流数据中的每一帧数据,利用人脸检测器提取人脸区域和对应的人脸关键点,利用人体检测器提取帧前后一个时间窗内人脸区域对应的人体区域;
利用人脸识别网络提取人脸区域的人脸特征,并提取人体区域的步态特征;
对于音频流数据中的每一帧数据,提取帧前后一个时间窗内的声纹特征;
对提取的人脸特征、步态特征和声纹特征进行多模态筛选,得到待选人物集合;
对待选人物集合中的每个人物进行多模态一致性计分,返回分数最高者的人物身份作为识别出的人物身份;
根据识别出的人物身份对音视频流中每一帧上的人物进行身份标注,输出身份识别后的音视频流。
可选地,所述提取人体区域的步态特征,具体包括:
将人脸区域对应的人体区域输入至前后景分离网络,输出人体剪影序列;
将人体剪影序列输入步态识别网络,输出提取的步态特征。
可选地,所述对于音频流数据中的每一帧数据,提取帧前后一个时间窗内的声纹特征,具体包括:
对于音频流数据中的每一帧数据,将帧前后一个时间窗内的声音信号序列转化为梅尔频谱并进行MFCC特征提取,提取出对应的语音特征;
将语音特征输入至语音识别网络,提取出对应的声纹特征。
可选地,所述对提取的人脸特征、步态特征和声纹特征进行多模态筛选,得到待选人物集合,具体包括:
计算提取的人脸特征与人脸库中各个人脸特征的余弦相似度,将多个余弦相似度按值从高到低排序,返回前K个余弦相似度值C_face1,C_face2,...,C_faceK与对应的人物身份;
计算提取的步态特征与步态库中各个步态特征的余弦相似度,将多个余弦相似度按值从高到低排序,返回前K个余弦相似度值C_gait1,C_gait2,...,C_gaitK与对应的人物身份;
计算提取的声纹特征与声纹库中各个声纹特征的余弦相似度,将多个余弦相似度按值从高到低排序,返回前K个余弦相似度值C_voice1,C_voice2,...,C_voiceK与对应的人物身份;
对人脸特征、步态特征和声纹特征这三个模态各自返回的前K个结果取并集,获得待选人物集合M。
可选地,所述对待选人物集合中的每个人物进行多模态一致性计分,返回分数最高者的人物身份作为识别出的人物身份,具体包括:
对待选人物集合M中的第k个人物Mk,比较其人脸特征和步态特征的余弦相似度,取余弦相似度高的模态作为Mk的基础模态,将基础模态对应的余弦相似度值作为基础模态分Score_basek
根据人脸区域和对应的人体区域计算人脸与步态的一致性分数wf,g
根据人脸关键点和梅尔频谱计算人脸与声纹的一致性分数wf,v
将步态与声纹的一致性分数记为wg,v
根据一致性分数wf,g、wf,v和wg,v计算不同基础模态下的模态一致分Score_coink
根据基础模态分Score_basek和模态一致分Score_coink计算第k个人物Mk的总分Scorek=Score_basek+Score_coink
返回总分Scorek最高者的人物身份作为识别出的人物身份。
另一方面,本发明提供一种基于多模态生物特征一致性的音视频人物识别系统,包括:
预处理模块,用于获取待识别身份的音视频流并进行预处理,分离出视频流数据和音频流数据;
人脸及人体区域提取模块,用于对于视频流数据中的每一帧数据,利用人脸检测器提取人脸区域和对应的人脸关键点,利用人体检测器提取帧前后一个时间窗内人脸区域对应的人体区域;
人脸及步态特征提取模块,用于利用人脸识别网络提取人脸区域的人脸特征,并提取人体区域的步态特征;
声纹特征提取模块,用于对于音频流数据中的每一帧数据,提取帧前后一个时间窗内的声纹特征;
多模态筛选模块,用于对提取的人脸特征、步态特征和声纹特征进行多模态筛选,得到待选人物集合;
多模态一致性计分模块,用于对待选人物集合中的每个人物进行多模态一致性计分,返回分数最高者的人物身份作为识别出的人物身份;
人物身份标注模块,用于根据识别出的人物身份对音视频流中每一帧上的人物进行身份标注,输出身份识别后的音视频流。
另一方面,本发明还提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的基于多模态生物特征一致性的音视频人物识别方法。
可选地,所述存储器为非暂态计算机可读存储介质。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种基于多模态生物特征一致性的音视频人物识别方法及系统,利用人脸检测器和人体检测器技术提取人脸区域和人体区域,利用前后景分离技术从人体区域中获取人体剪影;同时,运用深度学习技术,利用人脸识别从人脸区域提取人脸特征,利用步态识别从人体区域提取步态特征,以及利用声纹识别从音频帧中提取声纹特征;进一步利用新颖的多模态筛选方法和多模态一致性计分方法,能够高效利用包括人脸特征、步态特征和声纹特征的多模态信息,更准确地识别人物身份。并且本发明方法尤其适用于复杂场景,如社区治安、公共安全管理和智能家居等场景使用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于多模态生物特征一致性的音视频人物识别方法的流程图;
图2为本发明一种基于多模态生物特征一致性的音视频人物识别方法的原理示意图;
图3为本发明一种基于多模态生物特征一致性的音视频人物识别方法的多模态筛选过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于多模态生物特征一致性的音视频人物识别方法及系统,以提高复杂场景下人物身份识别的准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1和图2分别为本发明一种基于多模态生物特征一致性的音视频人物识别方法的流程图及原理示意图。参见图1和图2,一种基于多模态生物特征一致性的音视频人物识别方法,包括:
步骤1:获取待识别身份的音视频流并进行预处理,分离出视频流数据和音频流数据。
对于输入的待识别身份的音视频流进行预处理,包括分离视频流数据和音频流数据。假设当前音视频流场景中有行为各异的n个人物,分别记为P1,P2,P3,...,Pn
步骤2:对于视频流数据中的每一帧数据,利用人脸检测器提取人脸区域和对应的人脸关键点,利用人体检测器提取帧前后一个时间窗内人脸区域对应的人体区域。
以视频流数据中的第i帧为例,利用人脸检测器检测第i帧中的m个人脸区域,分别为F1,F2,F3,…,Fm;利用人体检测器,检测第i帧中出现的o个人体区域,记为B1,B2,B3,…,Bo
人脸检测器与人体检测器均可以采用yolov3网络训练得到,区别在于使用的训练样本集不同,人脸检测器的输入为视频帧数据,输出为视频帧中的人脸区域;人体检测器的输入为视频帧数据,输出为视频帧中的人体区域。
步骤3:利用人脸识别网络提取人脸区域的人脸特征,并提取人体区域的步态特征。
本发明利用人脸识别网络提取人脸区域的人脸特征,并将人脸区域对应的人体区域输入至前后景分离网络,输出人体剪影序列,然后将人体剪影序列输入步态识别网络,输出提取的步态特征。其中前后景分离网络和步态识别网络的网络类型均可为卷积神经网络,利用不同的训练样本集训练得到。
遍历第i帧中的每个人脸区域,以第x个人脸为例,对人脸区域Fx进行裁剪,分别将其送入人脸识别网络和人脸关键点检测网络,利用特征提取算法创建面部嵌入face-embeding,代表一个人脸的人脸特征向量f_facex,通过人脸关键点检测网络获得人脸关键点landmarkx;对于这帧的前后一个时间窗W(该滑动窗口最大为31帧,该帧前后长度为15,若无则以0填充,滑动步长为1),对该人脸区域Fx所对应的人体区域Bx进行裁剪,并输入至前后景分离网络,获取一个时间窗口内同一个人物的人体剪影序列W_silx=(Si-15,Si-14,...,Si,…,,Si+14,Si+15)。将人体的剪影序列W_silx输入步态识别网络,获取步态特征f_gaitx
步骤4:对于音频流数据中的每一帧数据,提取帧前后一个时间窗内的声纹特征。
对于音频流数据中的每一帧数据,将帧前后一个时间窗内的声音信号序列转化为梅尔频谱并进行MFCC特征提取,提取出对应的语音特征;将语音特征输入至语音识别网络,即可提取出对应的声纹特征。语音识别网络可利用卷积神经网络训练得到。
具体地,将第i帧前后一个时间窗口W的声音信号序列W_audiox=(Ai-15,Ai-14,...,Ai,…,,Ai+14,Ai+15)转化为梅尔频谱MFCCi,对其进行MFCC特征提取,提取出对应的语音特征记为f_audiox;将语音特征f_audiox输入至语音识别网络,获取声纹特征f_voicex
步骤5:对提取的人脸特征、步态特征和声纹特征进行多模态筛选,得到待选人物集合。
本发明预先建立的人物数据库中包括:具有N_Face个人物人脸特征face1,face2,…,faceN_Face的人脸库,具有N_Gait个人物步态特征gait1,gait2,…,gatiN_Gait的步态库,以及具有N_Voice个人物声纹特征voice1,voice2,…,voiceN_Voice的声纹库。
如图3所示,将获取的人脸特征f_facex、步态特征f_gaitx以及声纹特征f_voicex分别与对应模态的后台人物数据库中存储的各模态特征进行匹配,计算两个特征向量的夹角余弦值,分别得到人脸特征模态的余弦相似度C_face1,C_face2,…,C_faceN_Face,步态特征模态的余弦相似度C_gait1,C_gait2,…,C_gaitN_Gait,声纹特征模态的余弦相似度C_voice1,C_voice2,…,C_voiceN_Voice
计算提取的人脸特征f_facex与人脸库中各个人脸特征face1,face2,…,faceN_Face的余弦相似度,将多个余弦相似度C_face1,C_face2,…,C_faceN_Face按值从高到低排序,返回前K个余弦相似度值C_face1,C_face2,...,C_faceK与对应的人物身份。
计算提取的步态特征f_gaitx与步态库中各个步态特征gait1,gait2,…,gatiN_Gait的余弦相似度,将多个余弦相似度C_gait1,C_gait2,…,C_gaitN_Gait按值从高到低排序,返回前K个余弦相似度值C_gait1,C_gait2,...,C_gaitK与对应的人物身份。
计算提取的声纹特征f_voicex与声纹库中各个声纹特征voice1,voice2,…,voiceN_Voice的余弦相似度,将多个余弦相似度C_voice1,C_voice2,…,C_voiceN_Voice按值从高到低排序,返回前K个余弦相似度值C_voice1,C_voice2,...,C_voiceK与对应的人物身份。
其中计算余弦相似度的方法为:分别对各模态特征向量进行归一化;计算两个特征向量的夹角余弦值作为二者的余弦相似度。
对人脸特征、步态特征和声纹特征这三个模态各自返回的前K个结果取并集,获得待选人物集合M。即分别将各模态余弦相似度的值从高到低排列,将各个模态得到的前K个人物取并集,组成具有N_K个人物的待选人物集合M=(M1,M2,…,MN_K)。
步骤6:对待选人物集合中的每个人物进行多模态一致性计分,返回分数最高者的人物身份作为识别出的人物身份。
本发明多模态一致性计分的计分规则,分为模态基础分与模态一致分。由于人脸特征和步态特征这两者置信度高,因此在设置基础模态时,只考虑人脸特征和步态特征这两种模态。
仅考虑人脸特征模态和步态特征模态,取余弦相似度较高的模态作为基础模态,将基础模态对应的余弦相似度作为模态基础分。当某个模态对应的余弦相似度值大于0时,表示存在这个模态的数据并可以将其加入模态一致分的计算。当待选人物集合M中第k个候选人Mk同时入选人脸特征模态、步态特征模态、声纹特征模态其中两个以上时,即Mk对应的人脸余弦相似度C_facek、步态余弦相似度C_gaitk、余弦相似度C_voicek中有两个以上大于0时,增加模态一致分,模态一致分的具体计算方法为:
1)当所选基础模态为人脸特征模态时:
①若人脸特征模态、步态特征模态、声纹特征模态均入选时,模态一致分为:
Score_coink=wf,g×C_gaitk+wf,v×C_voicek
②仅当人脸特征模态和步态特征模态入选时,模态一致分为:
Score_coink=wf,g×C_gaitk
2)当所选基础模态为步态特征模态时,模态一致分包括:
①仅当步态与人脸特征模态入选时,模态一致分为:
Score_coink=wf,g×C_facek
②仅当步态与声纹特征模态入选时,模态一致分为:
Score_coink=wg,v×C_voicek
其中wf,v为人脸与声纹一致性分数,定义为每帧声音MFCC能量(声音幅度)与嘴部张开的关系,利用人脸关键点landmark,检测到嘴部闭合但MFCC幅度高时,则说明不是此人发声,分数为0,否则分数为1;wg,v为步态与声纹一致性分数,因行走姿态与人物发声无明显的联系,故该项置0;wf,g为人脸与步态一致性分数,定义为人脸区域与步态对应的人体区域的接近水平,取值为(0,1],两者区域越接近,则分值越接近1。
因此,所述步骤6具体包括:
步骤6.1:对待选人物集合M中的第k个人物Mk,比较其人脸特征和步态特征的余弦相似度C_facek和C_gaitk,取余弦相似度高的模态作为Mk的基础模态,将基础模态对应的余弦相似度值作为基础模态分Score_basek
步骤6.2:根据人脸区域和对应的人体区域计算人脸与步态的一致性分数wf,g
具体地,获取第i帧的人脸区域Fx中心点为(Xface,Yface);对应音频帧的梅尔频谱为MFCCi;获取人体区域Bx的中心点为(Xbody,Ybody),该中心点到该人体区域的左右、上下边界距离记为DX,DY;则人脸与步态的一致性分数记为:
步骤6.3:根据人脸关键点和梅尔频谱计算人脸与声纹的一致性分数wf,v
将人脸关键点landmarkx中嘴唇关键点的张闭状态记为Statelips,值为1表示嘴唇关键点张开,值为0表示嘴唇关键点闭合,则人脸与声纹的一致性分数记为:
步骤6.4:将步态与声纹的一致性分数记为wg,v
由于行走姿态与人物发声无明显关系,因此步态与声纹的一致性分数记为:
wg,v=0;
步骤6.5:根据一致性分数wf,g、wf,v和wg,v计算不同基础模态下的模态一致分Score_coink
①当基础模态为人脸特征模态时:
②当基础模态为步态特征模态时:
步骤6.6:根据基础模态分Score_basek和模态一致分Score_coink计算第k个人物Mk的总分Scorek=Score_basek+Score_coink
步骤6.7:返回总分Scorek最高者的人物身份作为识别出的人物身份。
遍历完待选集M后得到各人物总分集合S=(Score1,Score2,…,ScoreN_K)。按降序排列,取最高分的人物身份作为第i帧第x个人物的身份。
步骤7:根据识别出的人物身份对音视频流中每一帧上的人物进行身份标注,输出身份识别后的音视频流。
本发明方法的输入为待识别身份的多人物音视频流,输出为给音视频流中每一帧的各个人物进行身份标注后的视频,可以用于行人视频人物识别,但本发明可应用场景并不局限于此。
基于本发明提供的方法,本发明还提供一种基于多模态生物特征一致性的音视频人物识别系统,包括:
预处理模块,用于获取待识别身份的音视频流并进行预处理,分离出视频流数据和音频流数据;
人脸及人体区域提取模块,用于对于视频流数据中的每一帧数据,利用人脸检测器提取人脸区域和对应的人脸关键点,利用人体检测器提取帧前后一个时间窗内人脸区域对应的人体区域;
人脸及步态特征提取模块,用于利用人脸识别网络提取人脸区域的人脸特征,并提取人体区域的步态特征;
声纹特征提取模块,用于对于音频流数据中的每一帧数据,提取帧前后一个时间窗内的声纹特征;
多模态筛选模块,用于对提取的人脸特征、步态特征和声纹特征进行多模态筛选,得到待选人物集合;
多模态一致性计分模块,用于对待选人物集合中的每个人物进行多模态一致性计分,返回分数最高者的人物身份作为识别出的人物身份;
人物身份标注模块,用于根据识别出的人物身份对音视频流中每一帧上的人物进行身份标注,输出身份识别后的音视频流。
进一步地,本发明还提供一种电子设备,该电子设备可以包括:处理器、通信接口、存储器和通信总线。其中,处理器、通信接口、存储器通过通信总线完成相互间的通信。处理器可以调用存储器中的计算机程序,以执行所述的基于多模态生物特征一致性的音视频人物识别方法。
此外,上述的存储器中的计算机程序通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非暂态计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
本发明融合了属于视觉信息的人脸特征信息、人体特有的行走步态特征信息和属于听觉信息的声纹特征信息;同时,新颖的模态筛选方法和多模态融合的一致性计分方法被用来高效利用视觉与听觉信息,实现多模态信息互补,提高身份识别的准确性和鲁棒性。本发明可在多人音视频中快速、准确识别不同人物的身份,具有广泛的应用价值,特别是在社区治安、公共安全管理和智能家居等领域,具有极高的实用价值和经济、社会效益。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于多模态生物特征一致性的音视频人物识别方法,其特征在于,包括:
获取待识别身份的音视频流并进行预处理,分离出视频流数据和音频流数据;
对于视频流数据中的每一帧数据,利用人脸检测器提取人脸区域和对应的人脸关键点,利用人体检测器提取帧前后一个时间窗内人脸区域对应的人体区域;
利用人脸识别网络提取人脸区域的人脸特征,并提取人体区域的步态特征;
对于音频流数据中的每一帧数据,提取帧前后一个时间窗内的声纹特征;
对提取的人脸特征、步态特征和声纹特征进行多模态筛选,得到待选人物集合;
对待选人物集合中的每个人物进行多模态一致性计分,返回分数最高者的人物身份作为识别出的人物身份;
根据识别出的人物身份对音视频流中每一帧上的人物进行身份标注,输出身份识别后的音视频流。
2.根据权利要求1所述的基于多模态生物特征一致性的音视频人物识别方法,其特征在于,所述提取人体区域的步态特征,具体包括:
将人脸区域对应的人体区域输入至前后景分离网络,输出人体剪影序列;
将人体剪影序列输入步态识别网络,输出提取的步态特征。
3.根据权利要求1所述的基于多模态生物特征一致性的音视频人物识别方法,其特征在于,所述对于音频流数据中的每一帧数据,提取帧前后一个时间窗内的声纹特征,具体包括:
对于音频流数据中的每一帧数据,将帧前后一个时间窗内的声音信号序列转化为梅尔频谱并进行MFCC特征提取,提取出对应的语音特征;
将语音特征输入至语音识别网络,提取出对应的声纹特征。
4.根据权利要求1所述的基于多模态生物特征一致性的音视频人物识别方法,其特征在于,所述对提取的人脸特征、步态特征和声纹特征进行多模态筛选,得到待选人物集合,具体包括:
计算提取的人脸特征与人脸库中各个人脸特征的余弦相似度,将多个余弦相似度按值从高到低排序,返回前K个余弦相似度值C_face1,C_face2,...,C_faceK与对应的人物身份;
计算提取的步态特征与步态库中各个步态特征的余弦相似度,将多个余弦相似度按值从高到低排序,返回前K个余弦相似度值C_gait1,C_gait2,...,C_gaitK与对应的人物身份;
计算提取的声纹特征与声纹库中各个声纹特征的余弦相似度,将多个余弦相似度按值从高到低排序,返回前K个余弦相似度值C_voice1,C_voice2,...,C_voiceK与对应的人物身份;
对人脸特征、步态特征和声纹特征这三个模态各自返回的前K个结果取并集,获得待选人物集合M。
5.根据权利要求4所述的基于多模态生物特征一致性的音视频人物识别方法,其特征在于,所述对待选人物集合中的每个人物进行多模态一致性计分,返回分数最高者的人物身份作为识别出的人物身份,具体包括:
对待选人物集合M中的第k个人物Mk,比较其人脸特征和步态特征的余弦相似度,取余弦相似度高的模态作为Mk的基础模态,将基础模态对应的余弦相似度值作为基础模态分Score_basek
根据人脸区域和对应的人体区域计算人脸与步态的一致性分数wf,g
根据人脸关键点和梅尔频谱计算人脸与声纹的一致性分数wf,v
将步态与声纹的一致性分数记为wg,v
根据一致性分数wf,g、wf,v和wg,v计算不同基础模态下的模态一致分Score_coink
根据基础模态分Score_basek和模态一致分Score_coink计算第k个人物Mk的总分Scorek=Score_basek+Score_coink
返回总分Scorek最高者的人物身份作为识别出的人物身份。
6.一种基于多模态生物特征一致性的音视频人物识别系统,其特征在于,包括:
预处理模块,用于获取待识别身份的音视频流并进行预处理,分离出视频流数据和音频流数据;
人脸及人体区域提取模块,用于对于视频流数据中的每一帧数据,利用人脸检测器提取人脸区域和对应的人脸关键点,利用人体检测器提取帧前后一个时间窗内人脸区域对应的人体区域;
人脸及步态特征提取模块,用于利用人脸识别网络提取人脸区域的人脸特征,并提取人体区域的步态特征;
声纹特征提取模块,用于对于音频流数据中的每一帧数据,提取帧前后一个时间窗内的声纹特征;
多模态筛选模块,用于对提取的人脸特征、步态特征和声纹特征进行多模态筛选,得到待选人物集合;
多模态一致性计分模块,用于对待选人物集合中的每个人物进行多模态一致性计分,返回分数最高者的人物身份作为识别出的人物身份;
人物身份标注模块,用于根据识别出的人物身份对音视频流中每一帧上的人物进行身份标注,输出身份识别后的音视频流。
7.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的基于多模态生物特征一致性的音视频人物识别方法。
8.根据权利要求7所述的电子设备,其特征在于,所述存储器为非暂态计算机可读存储介质。
CN202310571748.6A 2023-05-19 2023-05-19 基于多模态生物特征一致性的音视频人物识别方法及系统 Pending CN116612542A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310571748.6A CN116612542A (zh) 2023-05-19 2023-05-19 基于多模态生物特征一致性的音视频人物识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310571748.6A CN116612542A (zh) 2023-05-19 2023-05-19 基于多模态生物特征一致性的音视频人物识别方法及系统

Publications (1)

Publication Number Publication Date
CN116612542A true CN116612542A (zh) 2023-08-18

Family

ID=87674138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310571748.6A Pending CN116612542A (zh) 2023-05-19 2023-05-19 基于多模态生物特征一致性的音视频人物识别方法及系统

Country Status (1)

Country Link
CN (1) CN116612542A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117174092A (zh) * 2023-11-02 2023-12-05 北京语言大学 基于声纹识别与多模态分析的移动语料转写方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117174092A (zh) * 2023-11-02 2023-12-05 北京语言大学 基于声纹识别与多模态分析的移动语料转写方法及装置
CN117174092B (zh) * 2023-11-02 2024-01-26 北京语言大学 基于声纹识别与多模态分析的移动语料转写方法及装置

Similar Documents

Publication Publication Date Title
Mahmood et al. WHITE STAG model: Wise human interaction tracking and estimation (WHITE) using spatio-temporal and angular-geometric (STAG) descriptors
Goh et al. Micro-expression recognition: an updated review of current trends, challenges and solutions
Perveen et al. Spontaneous expression recognition using universal attribute model
CN109472198B (zh) 一种姿态鲁棒的视频笑脸识别方法
Guanghui et al. Multi-modal emotion recognition by fusing correlation features of speech-visual
Chauhan et al. Study & analysis of different face detection techniques
More et al. Hand gesture recognition system using image processing
Cheng et al. Visual speaker authentication with random prompt texts by a dual-task CNN framework
Paul et al. Extraction of facial feature points using cumulative histogram
Siddiqui et al. Human action recognition: a construction of codebook by discriminative features selection approach
Tsitsoulis et al. A methodology for extracting standing human bodies from single images
CN116612542A (zh) 基于多模态生物特征一致性的音视频人物识别方法及系统
Galiyawala et al. Person retrieval in surveillance using textual query: a review
Hrkać et al. Deep learning architectures for tattoo detection and de-identification
Sarin et al. Cnn-based multimodal touchless biometric recognition system using gait and speech
Aly et al. Arabic sign language recognition using spatio-temporal local binary patterns and support vector machine
Sujatha et al. Lip feature extraction for visual speech recognition using Hidden Markov Model
CN116883900A (zh) 一种基于多维生物特征的视频真伪鉴别方法和系统
CN116778530A (zh) 一种基于生成模型的跨外观行人重识别检测方法
Mahbub et al. One-shot-learning gesture recognition using motion history based gesture silhouettes
Xu et al. A novel mid-level distinctive feature learning for action recognition via diffusion map
Gupta et al. Comparative analysis of movement and tracking techniques for Indian sign language recognition
Vo et al. Automatic hand gesture segmentation for recognition of Vietnamese sign language
Yazdi Depth-based lip localization and identification of open or closed mouth, using kinect 2
Mustafa et al. An Efficient Lip-reading Method Using K-nearest Neighbor Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Li Hengda

Inventor after: Zeng Ming

Inventor after: Zheng Yinglin

Inventor after: Lin Yuxin

Inventor after: Song Haodong

Inventor after: Zhang Xiangjun

Inventor before: Zeng Ming

Inventor before: Li Hengda

Inventor before: Zheng Yinglin

Inventor before: Lin Yuxin

Inventor before: Song Haodong

Inventor before: Zhang Xiangjun