CN110222719B

CN110222719B - 一种基于多帧音视频融合网络的人物识别方法及系统

Info

Publication number: CN110222719B
Application number: CN201910388158.3A
Authority: CN
Inventors: 高科; 王永杰
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2021-09-24
Anticipated expiration: 2039-05-10
Also published as: CN110222719A

Abstract

本发明提出一种基于多帧音视频融合网络的人物识别方法及系统，其特征在于，包括：视觉特征融合步骤，解码待人物识别的视频，得到该视频的连续K帧，提取该连续K帧中每一帧的人脸特征，对所有该人脸特征进行加权融合得到多帧视觉特征，K为正整数；声纹特征融合步骤，提取该连续K帧中每一帧的声纹特征，使用时间递归神经网络融合所有该声纹特征，得到多帧声纹特征；音视频特征融合步骤，使用全连接层对该多帧视觉特征和该多帧声纹特征进行融合，并用分类损失约束融合过程，得到多帧音视频融合特征，根据该多帧音视频融合特征进行人物识别。

Description

一种基于多帧音视频融合网络的人物识别方法及系统

技术领域

本发明涉及人物识别领域，并特别涉及一种基于多帧音视频融合网络的人物识别方法及系统。

背景技术

视频中的人物识别主要利用该人的内在或者外在属性来确定其身份的过程。目前常用的做法主要是利用人体的生物特性，比如说人脸、声纹等，来识别人物身份。与之对应的算法有人脸识别算法、声纹识别算法等。主流的人脸识别算法使用卷积神经网络从大规模的人脸数据集中，学习从原始人脸图像到身份不变的特征的映射。研究人员往往精心设计不同的损失函数，如二元组损失、三元组损失、中心损失，来约束从图像到特征的映射过程。最小化上述的损失函数，获得最优/局部最优的解，就可以获得人脸特征的提取器。声纹识别主要利用视频中说话人的语音信息，提取声纹特征，来确定人物身份。部分研究人员采用音视频融合的方式对人物识别算法做出改进。该融合算法首先使用人脸特征和短时的声纹特征进行融合，再用融合后特征来区分人物身份。与单一的人脸特征和声纹特征相比，该融合特征充分挖掘了多个模态之间的共有信息，能够有效提高识别准确率。

人脸识别算法相对成熟，识别准确率较高。但是在低分辨率、光照变化、姿态变化、遮挡、表情变化、编解码损失、距离镜头较远等情形下区分能力下降严重。语音信号相对稳定，但声纹特征的区分能力有限。目前基于音视频融合的人物识别算法能够充分利用人脸特征和声纹特征的信息来确定人物身份，但是该融合算法未能解决视觉特征在低质情形下区分性下降的问题。

发明人在进行网络音视频监控领域上人物识别研究时，发现现有的技术以下缺陷：其一是基于单模态的算法难以解决复杂的网络音视频监控的实际问题，人脸识别算法在低质图像下退化严重，声纹识别算法识别精度也有限；其二，在网络音视频监控领域，往往存在大量难以识别的画面。直接从这些识别困难的画面中提取人脸特征，会导致特征的区分能力下降，进而影响后续融合特征的效果。发明人经过一系列分析研究后发现，解决该项缺陷可以通过多帧融合的算法来实现。我们分别提取连续帧的人脸特征，对多帧人脸特征进行加权融合得到更具鲁棒性和区分性的视觉特征，再与对应音频特征进行融合。这样能够有效地避免难以识别画面对整个融合过程的影响。

发明内容

本发明的目的是解决网络音视频监控领域上，难以识别的画面会降低音视频融合特征的可区分性，提出了一种基于多帧的音视频融合的人物识别算法。

具体来说本发明提出了一种基于多帧音视频融合网络的人物识别方法，其中包括：

视觉特征融合步骤，解码待人物识别的视频，得到该视频的连续K帧，提取该连续K帧中每一帧的人脸特征，对所有该人脸特征进行加权融合得到多帧视觉特征，K为正整数；

声纹特征融合步骤，提取该连续K帧中每一帧的声纹特征，使用时间递归神经网络融合所有该声纹特征，得到多帧声纹特征；

音视频特征融合步骤，使用全连接层对该多帧视觉特征和该多帧声纹特征进行融合，并用分类损失约束融合过程，得到多帧音视频融合特征，根据该多帧音视频融合特征进行人物识别。

所述的基于多帧音视频融合网络的人物识别方法，其中该视觉特征融合步骤包括：

提取该连续K帧的人脸特征{f₁,f₂,...,f_K}，使用基于注意力机制的多帧视觉特征融合算法，得到该连续K帧中每帧对应的权重{a₁,a₂,...,a_K}，对该连续K帧中每一帧的人脸特征进行加权融合，得到该多帧视觉特征r；

所述的基于多帧音视频融合网络的人物识别方法，其中使用MFCC特征作为单帧声频的该声纹特征。

在识别第N至第N+K-1帧的时候，将该连续K帧中人脸图像的人脸特征建立一个长度为K的队列，当识别第N帧的时候，将第N帧的人脸特征放入该队列的队尾，将队首的人脸特征移出队列，并将该队列中的人脸特征进行融合。

所述的基于多帧音视频融合网络的人物识别方法，其中该音视频特征融合步骤包括：

将该多帧音视频融合特征输入人物识别分类器，以得到该待识别人物的身份信息；或

获取已标注身份信息的多个视频，并通过该视觉特征融合步骤、该声纹特征融合步骤和该音视频特征融合步骤，得到该多个视频中每一个人物的多帧音视频融合特征，以构建包含多帧音视频融合特征和其对应身份信息的数据库，对于测试人物，以该测试人物的多帧音视频融合特征检索该数据库，输出该数据库中与该测试人物的多帧音视频融合特征相似度最高的身份信息作为该测试人物的身份信息。

本发明还提出了一种基于多帧音视频融合网络的人物识别系统，其中包括：

视觉特征融合模块，解码待人物识别的视频，得到该视频的连续K帧，提取该连续K帧中每一帧的人脸特征，对所有该人脸特征进行加权融合得到多帧视觉特征，K为正整数；

声纹特征融合模块，提取该连续K帧中每一帧的声纹特征，使用时间递归神经网络融合所有该声纹特征，得到多帧声纹特征；

音视频特征融合模块，使用全连接层对该多帧视觉特征和该多帧声纹特征进行融合，并用分类损失约束融合过程，得到多帧音视频融合特征，根据该多帧音视频融合特征进行人物识别。

所述的基于多帧音视频融合网络的人物识别系统，其中该视觉特征融合模块包括：

所述的基于多帧音视频融合网络的人物识别系统，其中使用MFCC特征作为单帧声频的该声纹特征。

所述的基于多帧音视频融合网络的人物识别系统，其中该音视频特征融合模块包括：

获取已标注身份信息的多个视频，并通过该视觉特征融合模块、该声纹特征融合模块和该音视频特征融合模块，得到该多个视频中每一个人物的多帧音视频融合特征，以构建包含多帧音视频融合特征和其对应身份信息的数据库，对于测试人物，以该测试人物的多帧音视频融合特征检索该数据库，输出该数据库中与该测试人物的多帧音视频融合特征相似度最高的身份信息作为该测试人物的身份信息。

由以上方案可知，本发明的优点在于：

1、多帧的音视频融合算法；技术效果：能够充分挖掘网络视频流中的视频和音频信息，并且能够有效避免难以识别的帧对融合过程的影响。

2、多帧音视频融合的应用优化；技术效果：使多帧的音视频融合算法的时间复杂度近似于单帧的音视频融合算法的时间复杂度。

在公开的Hu-Friends音视频数据集(简称Hu-Friends数据集)和收集的低质画面的音视频数据集(简称低质数据集)上进行实验，同时与目前领域内期刊会议公开发表的算法进行比较，均取得了优异的识别效果，具体请见图1和图2。

附图说明

图1、图2均为本发明的技术效果图；

图3为本发明多帧音视频融合网络的整体结构图；

图4为本发明多帧音视频融合网络在实际应用中优化过程图。

具体实施方式

近些年，视频占据网络流量的绝大部分，并且占比持续增大。海量视频中不免掺杂着非法视频，并且这些视频传播速度快，影响范围广，危害性极大。因此对视频内容智能分析，防止非法视频在网络泛滥成为亟须解决的问题。非法视频是一个复杂的概念，对它进行准确识别不仅需要分析底层的视觉特征，还需要理解高层的语义关联，是一项极具挑战的任务。而人作为视频内容的主体，特定人物的准确识能够有效辅助非法视频智能分析。如图1所示，多帧音视频融合算法主要分为三个阶段：多帧视觉特征的融合，多帧声纹特征融合，多帧音视频特征融合。

多帧视觉特征融合：假设对视频进行解码，得到连续的K帧，提取K帧的人脸特征为{f₁,f₂,...,f_K}。本发明采用了基于注意力机制的多帧视觉特征融合算法，学习每帧对应的权重{a₁,a₂,...,a_K}。其中f_i区分性越高，对应的权重a_i越大。对多帧特征进行加权融合就可以得到更具有区分性的人脸特征

多帧声纹特征融合：本发明使用了75维的MFCC(Mel-frequency cepstralcoefficients)特征(包括25维的一阶差分，和25维的二阶差分)作为单帧声频的声纹特征，将多帧的声纹特征使用双层的LSTM进行融合，得到融合的特征g。

多帧音视频特征融合：本发明使用多层的全连接层对人脸特征和声纹特征进行融合，用分类损失约束融合过程，使用梯度下降算法，学习融合的过程。在得到融合特征以后，可以通过以下两种方法确定人物身份：第一，收集待识别人物的人脸图片和声音片段，提取音视频融合特征，训练得到人物识别的分类器。对于测试人物，首先使用同样算法提取音视频融合特征，再根据上述分类器的预测结果确定人物身份；第二，收集待识别人物的人脸图片和声音片段，提取音视频融合特征，建立一个数据库。对于测试人物，使用同样特征提取算法提取音视频融合特征，然后计算该特征与数据库中的特征的距离(如欧式距离，余弦相似度等)。若最小的特征距离小于指定的阈值(阈值取决于特征，距离计算方式，待识别图像等，一般手动设定)，则认为特征之间相似度较高，那么待识别人物与数据库内的特征最小距离的人物同属一人。

多帧融合的应用优化如图4所示。多帧融合过程中，需要分别提取K帧的人脸特征，那么总的特征时间将会变为单帧特征时间的K倍，会降低整个算法的处理时间。分析发现，直接进行多帧融合过程中，每帧都会提取K次相同的特征，存在大量的计算冗余。例如在识别第N至第N+K-1帧的时候，都会提取第N帧的特征进行融合。本发明采用操作系统流水线的策略，首先将连续帧中人脸图像的特征建立一个长度为K的队列，当识别第N帧的时候，将第N帧的人脸特征放入队尾，将队首的人脸的特征移出队列，然后将队列中的人脸特征进行融合。假设t1为提取单帧特征的时间，t2为多帧融合特征的提取时间，假设每次融合K帧人脸特征。实际应用中，融合的时间相对于单帧特征提取时间可以忽略不计。那么改进后多帧融合算法能够将原始的融合算法速度提高将近K倍，与单帧的音视频融合算法时间复杂度近似。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。