CN116612542A

CN116612542A - 基于多模态生物特征一致性的音视频人物识别方法及系统

Info

Publication number: CN116612542A
Application number: CN202310571748.6A
Authority: CN
Inventors: 曾鸣; 李恒达; 郑英林; 林宇鑫; 宋昊东; 张湘君
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-08-18

Abstract

本发明公开一种基于多模态生物特征一致性的音视频人物识别方法及系统，涉及人物身份识别领域。本发明利用人脸检测器和人体检测器技术提取人脸区域和人体区域，利用前后景分离技术从人体区域中获取人体剪影；同时，运用深度学习技术，利用人脸识别从人脸区域提取人脸特征，利用步态识别从人体区域提取步态特征，以及利用声纹识别从音频帧中提取声纹特征；进一步利用新颖的多模态筛选方法和多模态一致性计分方法，能够高效利用包括人脸特征、步态特征和声纹特征的多模态信息，更准确地识别人物身份。并且本发明方法尤其适用于复杂场景，如社区治安、公共安全管理和智能家居等场景使用。

Description

基于多模态生物特征一致性的音视频人物识别方法及系统

技术领域

本发明涉及人物身份识别技术领域，特别是涉及一种基于多模态生物特征一致性的音视频人物识别方法及系统。

背景技术

传统的人物身份识别方法主要面向视觉信息，以人脸识别为主，与穿着和体态有着关联，局限于单一模态识别，普遍存在以下问题：(1)单模态信息受限，信息利用效率低下，对识别场景的要求较高：目前的行人识别算法主要基于单模态信息(如图像颜色、纹理、深度等特征)进行识别，然而，单模态信息存在受限性，无法全面反映行人外貌和特征，在复杂场景下识别效果有限，同时不同的识别场景要求不同，对算法的泛化能力有很大的挑战；(2)难以识别戴帽子等遮挡物的对象：随着外部环境和个人隐私等因素的影响，行人往往会戴帽子、口罩等遮挡物，这使得识别算法难以获取完整的行人图像信息，从而识别效果下降。

发明内容

针对上述背景技术中提出的问题，本发明提供一种基于多模态生物特征一致性的音视频人物识别方法及系统，以提高复杂场景下人物身份识别的准确性。

为实现上述目的，本发明提供了如下方案：

一方面，本发明提供一种基于多模态生物特征一致性的音视频人物识别方法，包括：

获取待识别身份的音视频流并进行预处理，分离出视频流数据和音频流数据；

对于视频流数据中的每一帧数据，利用人脸检测器提取人脸区域和对应的人脸关键点，利用人体检测器提取帧前后一个时间窗内人脸区域对应的人体区域；

利用人脸识别网络提取人脸区域的人脸特征，并提取人体区域的步态特征；

对于音频流数据中的每一帧数据，提取帧前后一个时间窗内的声纹特征；

对提取的人脸特征、步态特征和声纹特征进行多模态筛选，得到待选人物集合；

对待选人物集合中的每个人物进行多模态一致性计分，返回分数最高者的人物身份作为识别出的人物身份；

根据识别出的人物身份对音视频流中每一帧上的人物进行身份标注，输出身份识别后的音视频流。

可选地，所述提取人体区域的步态特征，具体包括：

将人脸区域对应的人体区域输入至前后景分离网络，输出人体剪影序列；

将人体剪影序列输入步态识别网络，输出提取的步态特征。

可选地，所述对于音频流数据中的每一帧数据，提取帧前后一个时间窗内的声纹特征，具体包括：

对于音频流数据中的每一帧数据，将帧前后一个时间窗内的声音信号序列转化为梅尔频谱并进行MFCC特征提取，提取出对应的语音特征；

将语音特征输入至语音识别网络，提取出对应的声纹特征。

可选地，所述对提取的人脸特征、步态特征和声纹特征进行多模态筛选，得到待选人物集合，具体包括：

计算提取的人脸特征与人脸库中各个人脸特征的余弦相似度，将多个余弦相似度按值从高到低排序，返回前K个余弦相似度值C_face₁,C_face₂,...,C_face_K与对应的人物身份；

计算提取的步态特征与步态库中各个步态特征的余弦相似度，将多个余弦相似度按值从高到低排序，返回前K个余弦相似度值C_gait₁,C_gait₂,...,C_gait_K与对应的人物身份；

计算提取的声纹特征与声纹库中各个声纹特征的余弦相似度，将多个余弦相似度按值从高到低排序，返回前K个余弦相似度值C_voice₁,C_voice₂,...,C_voice_K与对应的人物身份；

对人脸特征、步态特征和声纹特征这三个模态各自返回的前K个结果取并集，获得待选人物集合M。

可选地，所述对待选人物集合中的每个人物进行多模态一致性计分，返回分数最高者的人物身份作为识别出的人物身份，具体包括：

对待选人物集合M中的第k个人物M_k，比较其人脸特征和步态特征的余弦相似度，取余弦相似度高的模态作为M_k的基础模态，将基础模态对应的余弦相似度值作为基础模态分Score_base_k；

根据人脸区域和对应的人体区域计算人脸与步态的一致性分数w_f,g；

根据人脸关键点和梅尔频谱计算人脸与声纹的一致性分数w_f,v；

将步态与声纹的一致性分数记为w_g,v；

根据一致性分数w_f,g、w_f,v和w_g,v计算不同基础模态下的模态一致分Score_coin_k；

根据基础模态分Score_base_k和模态一致分Score_coin_k计算第k个人物M_k的总分Score_k＝Score_base_k+Score_coin_k；

返回总分Score_k最高者的人物身份作为识别出的人物身份。

另一方面，本发明提供一种基于多模态生物特征一致性的音视频人物识别系统，包括：

预处理模块，用于获取待识别身份的音视频流并进行预处理，分离出视频流数据和音频流数据；

人脸及人体区域提取模块，用于对于视频流数据中的每一帧数据，利用人脸检测器提取人脸区域和对应的人脸关键点，利用人体检测器提取帧前后一个时间窗内人脸区域对应的人体区域；

人脸及步态特征提取模块，用于利用人脸识别网络提取人脸区域的人脸特征，并提取人体区域的步态特征；

声纹特征提取模块，用于对于音频流数据中的每一帧数据，提取帧前后一个时间窗内的声纹特征；

多模态筛选模块，用于对提取的人脸特征、步态特征和声纹特征进行多模态筛选，得到待选人物集合；

多模态一致性计分模块，用于对待选人物集合中的每个人物进行多模态一致性计分，返回分数最高者的人物身份作为识别出的人物身份；

人物身份标注模块，用于根据识别出的人物身份对音视频流中每一帧上的人物进行身份标注，输出身份识别后的音视频流。

另一方面，本发明还提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的基于多模态生物特征一致性的音视频人物识别方法。

可选地，所述存储器为非暂态计算机可读存储介质。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种基于多模态生物特征一致性的音视频人物识别方法及系统，利用人脸检测器和人体检测器技术提取人脸区域和人体区域，利用前后景分离技术从人体区域中获取人体剪影；同时，运用深度学习技术，利用人脸识别从人脸区域提取人脸特征，利用步态识别从人体区域提取步态特征，以及利用声纹识别从音频帧中提取声纹特征；进一步利用新颖的多模态筛选方法和多模态一致性计分方法，能够高效利用包括人脸特征、步态特征和声纹特征的多模态信息，更准确地识别人物身份。并且本发明方法尤其适用于复杂场景，如社区治安、公共安全管理和智能家居等场景使用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于多模态生物特征一致性的音视频人物识别方法的流程图；

图2为本发明一种基于多模态生物特征一致性的音视频人物识别方法的原理示意图；

图3为本发明一种基于多模态生物特征一致性的音视频人物识别方法的多模态筛选过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于多模态生物特征一致性的音视频人物识别方法及系统，以提高复杂场景下人物身份识别的准确性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1和图2分别为本发明一种基于多模态生物特征一致性的音视频人物识别方法的流程图及原理示意图。参见图1和图2，一种基于多模态生物特征一致性的音视频人物识别方法，包括：

步骤1：获取待识别身份的音视频流并进行预处理，分离出视频流数据和音频流数据。

对于输入的待识别身份的音视频流进行预处理，包括分离视频流数据和音频流数据。假设当前音视频流场景中有行为各异的n个人物，分别记为P₁，P₂，P₃，...，P_n。

步骤2：对于视频流数据中的每一帧数据，利用人脸检测器提取人脸区域和对应的人脸关键点，利用人体检测器提取帧前后一个时间窗内人脸区域对应的人体区域。

以视频流数据中的第i帧为例，利用人脸检测器检测第i帧中的m个人脸区域，分别为F₁，F₂，F₃，…，F_m；利用人体检测器，检测第i帧中出现的o个人体区域，记为B₁，B₂，B₃，…，B_o。

人脸检测器与人体检测器均可以采用yolov3网络训练得到，区别在于使用的训练样本集不同，人脸检测器的输入为视频帧数据，输出为视频帧中的人脸区域；人体检测器的输入为视频帧数据，输出为视频帧中的人体区域。

步骤3：利用人脸识别网络提取人脸区域的人脸特征，并提取人体区域的步态特征。

本发明利用人脸识别网络提取人脸区域的人脸特征，并将人脸区域对应的人体区域输入至前后景分离网络，输出人体剪影序列，然后将人体剪影序列输入步态识别网络，输出提取的步态特征。其中前后景分离网络和步态识别网络的网络类型均可为卷积神经网络，利用不同的训练样本集训练得到。

遍历第i帧中的每个人脸区域，以第x个人脸为例，对人脸区域F_x进行裁剪，分别将其送入人脸识别网络和人脸关键点检测网络，利用特征提取算法创建面部嵌入face-embeding，代表一个人脸的人脸特征向量f_face_x，通过人脸关键点检测网络获得人脸关键点landmark_x；对于这帧的前后一个时间窗W(该滑动窗口最大为31帧，该帧前后长度为15，若无则以0填充，滑动步长为1)，对该人脸区域F_x所对应的人体区域B_x进行裁剪，并输入至前后景分离网络，获取一个时间窗口内同一个人物的人体剪影序列W_sil_x＝(S_i-15,S_i-14,...,S_i,…,,S_i+14,S_i+15)。将人体的剪影序列W_sil_x输入步态识别网络，获取步态特征f_gait_x。

步骤4：对于音频流数据中的每一帧数据，提取帧前后一个时间窗内的声纹特征。

对于音频流数据中的每一帧数据，将帧前后一个时间窗内的声音信号序列转化为梅尔频谱并进行MFCC特征提取，提取出对应的语音特征；将语音特征输入至语音识别网络，即可提取出对应的声纹特征。语音识别网络可利用卷积神经网络训练得到。

具体地，将第i帧前后一个时间窗口W的声音信号序列W_audio_x＝(A_i-15,A_i-14,...,A_i,…,,A_i+14,A_i+15)转化为梅尔频谱MFCC_i，对其进行MFCC特征提取，提取出对应的语音特征记为f_audio_x；将语音特征f_audio_x输入至语音识别网络，获取声纹特征f_voice_x。

步骤5：对提取的人脸特征、步态特征和声纹特征进行多模态筛选，得到待选人物集合。

本发明预先建立的人物数据库中包括：具有N_Face个人物人脸特征face₁，face₂，…，face_{N_Face}的人脸库，具有N_Gait个人物步态特征gait₁，gait₂，…，gati_{N_Gait}的步态库，以及具有N_Voice个人物声纹特征voice₁，voice₂，…，voice_{N_Voice}的声纹库。

如图3所示，将获取的人脸特征f_face_x、步态特征f_gait_x以及声纹特征f_voice_x分别与对应模态的后台人物数据库中存储的各模态特征进行匹配，计算两个特征向量的夹角余弦值，分别得到人脸特征模态的余弦相似度C_face₁，C_face₂，…，C_face_{N_Face}，步态特征模态的余弦相似度C_gait₁，C_gait₂，…，C_gait_{N_Gait}，声纹特征模态的余弦相似度C_voice₁，C_voice₂，…，C_voice_{N_Voice}。

计算提取的人脸特征f_face_x与人脸库中各个人脸特征face₁，face₂，…，face_{N_Face}的余弦相似度，将多个余弦相似度C_face₁，C_face₂，…，C_face_{N_Face}按值从高到低排序，返回前K个余弦相似度值C_face₁,C_face₂,...,C_face_K与对应的人物身份。

计算提取的步态特征f_gait_x与步态库中各个步态特征gait₁，gait₂，…，gati_{N_Gait}的余弦相似度，将多个余弦相似度C_gait₁，C_gait₂，…，C_gait_{N_Gait}按值从高到低排序，返回前K个余弦相似度值C_gait₁,C_gait₂,...,C_gait_K与对应的人物身份。

计算提取的声纹特征f_voice_x与声纹库中各个声纹特征voice₁，voice₂，…，voice_{N_Voice}的余弦相似度，将多个余弦相似度C_voice₁，C_voice₂，…，C_voice_{N_Voice}按值从高到低排序，返回前K个余弦相似度值C_voice₁,C_voice₂,...,C_voice_K与对应的人物身份。

其中计算余弦相似度的方法为：分别对各模态特征向量进行归一化；计算两个特征向量的夹角余弦值作为二者的余弦相似度。

对人脸特征、步态特征和声纹特征这三个模态各自返回的前K个结果取并集，获得待选人物集合M。即分别将各模态余弦相似度的值从高到低排列，将各个模态得到的前K个人物取并集，组成具有N_K个人物的待选人物集合M＝(M₁，M₂，…，M_{N_K})。

步骤6：对待选人物集合中的每个人物进行多模态一致性计分，返回分数最高者的人物身份作为识别出的人物身份。

本发明多模态一致性计分的计分规则，分为模态基础分与模态一致分。由于人脸特征和步态特征这两者置信度高，因此在设置基础模态时，只考虑人脸特征和步态特征这两种模态。

仅考虑人脸特征模态和步态特征模态，取余弦相似度较高的模态作为基础模态，将基础模态对应的余弦相似度作为模态基础分。当某个模态对应的余弦相似度值大于0时，表示存在这个模态的数据并可以将其加入模态一致分的计算。当待选人物集合M中第k个候选人M_k同时入选人脸特征模态、步态特征模态、声纹特征模态其中两个以上时，即M_k对应的人脸余弦相似度C_face_k、步态余弦相似度C_gait_k、余弦相似度C_voice_k中有两个以上大于0时，增加模态一致分，模态一致分的具体计算方法为：

1)当所选基础模态为人脸特征模态时：

①若人脸特征模态、步态特征模态、声纹特征模态均入选时，模态一致分为：

Score_coin_k＝w_f,g×C_gait_k+w_f,v×C_voice_k；

②仅当人脸特征模态和步态特征模态入选时，模态一致分为：

Score_coin_k＝w_f,g×C_gait_k；

2)当所选基础模态为步态特征模态时，模态一致分包括：

①仅当步态与人脸特征模态入选时，模态一致分为：

Score_coin_k＝w_f,g×C_face_k；

②仅当步态与声纹特征模态入选时，模态一致分为：

Score_coin_k＝w_g,v×C_voice_k。

其中w_f,v为人脸与声纹一致性分数，定义为每帧声音MFCC能量(声音幅度)与嘴部张开的关系，利用人脸关键点landmark，检测到嘴部闭合但MFCC幅度高时，则说明不是此人发声，分数为0，否则分数为1；w_g,v为步态与声纹一致性分数，因行走姿态与人物发声无明显的联系，故该项置0；w_f,g为人脸与步态一致性分数，定义为人脸区域与步态对应的人体区域的接近水平，取值为(0，1]，两者区域越接近，则分值越接近1。

因此，所述步骤6具体包括：

步骤6.1：对待选人物集合M中的第k个人物M_k，比较其人脸特征和步态特征的余弦相似度C_face_k和C_gait_k，取余弦相似度高的模态作为M_k的基础模态，将基础模态对应的余弦相似度值作为基础模态分Score_base_k；

步骤6.2：根据人脸区域和对应的人体区域计算人脸与步态的一致性分数w_f,g；

具体地，获取第i帧的人脸区域F_x中心点为(X_face，Y_face)；对应音频帧的梅尔频谱为MFCC_i；获取人体区域B_x的中心点为(X_body，Y_body)，该中心点到该人体区域的左右、上下边界距离记为D_X,D_Y；则人脸与步态的一致性分数记为：

步骤6.3：根据人脸关键点和梅尔频谱计算人脸与声纹的一致性分数w_f,v；

将人脸关键点landmark_x中嘴唇关键点的张闭状态记为State_lips，值为1表示嘴唇关键点张开，值为0表示嘴唇关键点闭合，则人脸与声纹的一致性分数记为：

步骤6.4：将步态与声纹的一致性分数记为w_g,v；

由于行走姿态与人物发声无明显关系，因此步态与声纹的一致性分数记为：

w_g,v＝0；

步骤6.5：根据一致性分数w_f,g、w_f,v和w_g,v计算不同基础模态下的模态一致分Score_coin_k；

①当基础模态为人脸特征模态时：

②当基础模态为步态特征模态时：

步骤6.6：根据基础模态分Score_base_k和模态一致分Score_coin_k计算第k个人物M_k的总分Score_k＝Score_base_k+Score_coin_k；

步骤6.7：返回总分Score_k最高者的人物身份作为识别出的人物身份。

遍历完待选集M后得到各人物总分集合S＝(Score₁,Score₂,…,Score_{N_K})。按降序排列，取最高分的人物身份作为第i帧第x个人物的身份。

步骤7：根据识别出的人物身份对音视频流中每一帧上的人物进行身份标注，输出身份识别后的音视频流。

本发明方法的输入为待识别身份的多人物音视频流，输出为给音视频流中每一帧的各个人物进行身份标注后的视频，可以用于行人视频人物识别，但本发明可应用场景并不局限于此。

基于本发明提供的方法，本发明还提供一种基于多模态生物特征一致性的音视频人物识别系统，包括：

进一步地，本发明还提供一种电子设备，该电子设备可以包括：处理器、通信接口、存储器和通信总线。其中，处理器、通信接口、存储器通过通信总线完成相互间的通信。处理器可以调用存储器中的计算机程序，以执行所述的基于多模态生物特征一致性的音视频人物识别方法。

此外，上述的存储器中的计算机程序通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非暂态计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

本发明融合了属于视觉信息的人脸特征信息、人体特有的行走步态特征信息和属于听觉信息的声纹特征信息；同时，新颖的模态筛选方法和多模态融合的一致性计分方法被用来高效利用视觉与听觉信息，实现多模态信息互补，提高身份识别的准确性和鲁棒性。本发明可在多人音视频中快速、准确识别不同人物的身份，具有广泛的应用价值，特别是在社区治安、公共安全管理和智能家居等领域，具有极高的实用价值和经济、社会效益。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多模态生物特征一致性的音视频人物识别方法，其特征在于，包括：

2.根据权利要求1所述的基于多模态生物特征一致性的音视频人物识别方法，其特征在于，所述提取人体区域的步态特征，具体包括：

将人体剪影序列输入步态识别网络，输出提取的步态特征。

3.根据权利要求1所述的基于多模态生物特征一致性的音视频人物识别方法，其特征在于，所述对于音频流数据中的每一帧数据，提取帧前后一个时间窗内的声纹特征，具体包括：

将语音特征输入至语音识别网络，提取出对应的声纹特征。

4.根据权利要求1所述的基于多模态生物特征一致性的音视频人物识别方法，其特征在于，所述对提取的人脸特征、步态特征和声纹特征进行多模态筛选，得到待选人物集合，具体包括：

5.根据权利要求4所述的基于多模态生物特征一致性的音视频人物识别方法，其特征在于，所述对待选人物集合中的每个人物进行多模态一致性计分，返回分数最高者的人物身份作为识别出的人物身份，具体包括：

将步态与声纹的一致性分数记为w_g,v；

返回总分Score_k最高者的人物身份作为识别出的人物身份。

6.一种基于多模态生物特征一致性的音视频人物识别系统，其特征在于，包括：

7.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的基于多模态生物特征一致性的音视频人物识别方法。

8.根据权利要求7所述的电子设备，其特征在于，所述存储器为非暂态计算机可读存储介质。