CN112989967A

CN112989967A - 一种基于音视频信息融合的人员身份识别方法

Info

Publication number: CN112989967A
Application number: CN202110213548.4A
Authority: CN
Inventors: 潘志灏; 程颖; 冯瑞
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-06-18

Abstract

本发明提供了一种基于音视频信息融合的人员身份识别方法，具有这样的特征，包括以下步骤，步骤S1，读入音视频资料的视频信息以及音频信息，对视频信息以及音频信息进行预处理，得到预处理视频信息以及预处理音频信息；步骤S2，将预处理音频信息进行处理，提取出音频特征；步骤S3，将预处理视频信息进行处理，提取出针对预处理视频信息中人员的人脸特征、头部特征以及身体特征；步骤S4，搭建多个MLP神经网络模型，并对多个MLP神经网络模型进行训练以及权值的设定，得到MLP神经网络联合模型；步骤S5，把音频特征、人脸特征、头部特征以及身体特征输入MLP神经网络联合模型，得到判断的类别结果。

Description

一种基于音视频信息融合的人员身份识别方法

技术领域

本发明涉及计算机视觉听觉、人工智能技术领域，具体涉及到一种多基于音视频信息融合的人员身份识别方法。

背景技术

音视频资料中的人识别是计算机视觉和机器学习领域的一个具有挑战性的课题。目前这一领域有两种方案，一种叫人脸识别，另一种叫声纹识别。所谓人脸识别是指判断待测人脸图像和数据库中的已知人脸图像是否属于同一个人；声纹识别是指判断待测音频和数据库中的已知音频是否属于同一个人。

与静止图像不同，音视频资料同时包含视频信息和音频信息。但是上述的两种方案并没有真正利用到全部的音视频信息，而且由于人脸识别对姿态、模糊、遮挡等干扰因素十分敏感，以及人物并非一直出现在视频之中，这使得单纯的人脸识别时常失效。

多模式身份识别是一种更具前景的方法，可以联合利用人脸、头部、身体、音频等特征，提供更精确、稳定的身份识别。

发明内容

本发明是为了解决上述问题而进行的，目的在于提供一种多基于音视频信息融合的人员身份识别方法。

本发明提供了一种基于音视频信息融合的人员身份识别方法，具有这样的特征，包括以下步骤：步骤S1，读入音视频资料的视频信息以及音频信息，对视频信息以及音频信息进行预处理，得到预处理视频信息以及预处理音频信息；步骤S2，将预处理音频信息进行处理，提取出音频特征；步骤S3，将预处理视频信息进行处理，提取出针对预处理视频信息中人员的人脸特征、头部特征以及身体特征；步骤S4，搭建多个MLP神经网络模型，并对多个MLP神经网络模型进行训练以及权值的设定，得到MLP神经网络联合模型；步骤S5，把音频特征、人脸特征、头部特征以及身体特征输入MLP神经网络联合模型，得到判断的类别结果；其中，步骤S4包括以下子步骤，步骤S4-1，搭建多个MLP神经网络模型，其包含的模型参数为随机设置；步骤S4-2，把训练集输入多个MLP神经网络模型进行模型训练并进行一次迭代；步骤S4-3，迭代后，采用多个MLP神经网络模型最后一层的模型参数分别计算出损失误差，然后将计算得到的损失误差反向传播，从而更新模型参数；步骤S4-4，重复步骤S4-2至步骤S4-3直至达到训练完成条件，得到多个训练后的卷积神经网络模型；步骤S4-5，根据多个训练后的MLP神经网络模型在模型训练中的准确率对多个MLP神经网络模型进行权值的设定，得到MLP神经网络联合模型。

在本发明提供的基于音视频信息融合的人员身份识别方法中，还可以具有这样的特征：其中，在步骤S1中，预处理包括删除低帧率、低像素的视频信息，以及对视频信息每2秒截取一次、对音频信息每5秒截取一次。

在本发明提供的基于音视频信息融合的人员身份识别方法中，还可以具有这样的特征：其中，步骤S2包括以下子步骤，步骤S2-1，通过音频格式的转换工具ffmpeg将预处理音频信息转化为wav格式的音频，得到wav格式预处理音频信息；步骤S2-2，按sample rate乘上切割时长得到数据的长度，再按得到的数据长度切割wav格式预处理音频信息，得到切割后wav格式预处理音频信息；步骤S2-3，对切割后wav格式预处理音频信息进行梅尔频谱的特征提取，通过对切割后wav格式预处理音频信息进行对数计算而得到1*64*200维度的能量谱特征，并对能量谱特征进行一阶求导而得到与能量谱特征相同维度的一阶求导能量谱特征，对能量谱特征进行二阶求导而得到与能量谱特征相同维度的二阶求导能量谱特征；步骤S2-4，将能量谱特征、一阶导数能量谱特征、二阶导数能量谱特征在通道层面上进行融合组成一个3*64*200维度的初步音频特征；步骤S2-5，将初步音频特征输入到声纹特征提取器中提取得到1*512维度的音频特征。

在本发明提供的基于音视频信息融合的人员身份识别方法中，还可以具有这样的特征：其中，步骤S2-3中，能量谱特征为三维矩阵，这三个维度名称分别为通道、梅尔特征数量、梅尔特征长度。

在本发明提供的基于音视频信息融合的人员身份识别方法中，还可以具有这样的特征：其中，在步骤S3中，人脸特征通过arcface的模型进行特征提取，头部特征以及身体特征通过ReID的模型进行特征提取。

发明的作用与效果

根据本发明所涉及的基于音视频信息融合的人员身份识别方法，由于充分利用音视频资料的视频信息以及音频信息，提取并融合音视频资料的音频特征、人脸特征、头部特征以及身体特征，本发明所涉及的基于音视频信息融合的人员身份识别方法扩充了输入MLP神经网络模型的特征信息，并通过多个MLP神经网络模型加权后进行联合判断的形式，保证了对人员身份识别的精确性和稳定性。

附图说明

图1是本发明的实施例中基于音视频信息融合的人员身份识别方法的流程图；以及

图2是本发明的实施例中MLP神经网络模型的结构示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下实施例结合附图对本发明所涉及的基于音视频信息融合的人员身份识别方法作具体阐述。

<实施例>

本实施例采用iQIYI-VID2019和YouTube视频数据集为数据集，并将数据集分为训练集和测试集。

iQIYI-VID2019为包含5000位名人的60万个视频片段的名人身份数据集。这些视频片段是从爱奇艺的大量在线视频中提取出来的，所有视频中的人物都经过手动标注。

YouTube视频数据集为包含上百万个人物类别的视频数据类型，本实施例选用了5000位名人的100万个视频片段，视频的标注采用YouTude自带的人物标注信息。

另外，本实施例实现的硬件平台需要一张NVIDIA GTX 1080ti显卡(GPU加速)。

图1为本实施例中基于音视频信息融合的人员身份识别方法的流程图。由图1可知，本实施例中基于音视频信息融合的人员身份识别方法的流程图包括以下步骤：

步骤S1，读入音视频资料的视频信息以及音频信息，对视频信息以及音频信息进行预处理，得到预处理视频信息以及预处理音频信息。

预处理包括删除低帧率、低像素的视频信息，以及对视频信息每2秒截取一次、对音频信息每5秒截取一次。

步骤S2，将预处理音频信息进行处理，提取出音频特征。

提取音频特征的过程包括以下子步骤：

步骤S2-1，通过音频格式的转换工具ffmpeg将预处理音频信息转化为wav格式的音频，得到wav格式预处理音频信息。

步骤S2-2，按sample rate乘上切割时长得到数据的长度，再按得到的数据长度切割wav格式预处理音频信息，得到切割后wav格式预处理音频信息。

步骤S2-3，对切割后wav格式预处理音频信息进行梅尔频谱的特征提取，通过对切割后wav格式预处理音频信息进行对数计算得到1*64*200的能量谱特征，即切割后wav格式预处理音频信息在能量谱上的特征，并对能量谱特征进行一阶求导而得到与能量谱特征相同维度的一阶求导能量谱特征，对能量谱特征进行二阶求导而得到与能量谱特征相同维度的二阶求导能量谱特征。

能量谱特征为三维矩阵，这三个维度名称分别为通道、梅尔特征数量、梅尔特征长度，即在音频数据上提取64个梅尔特征，每个梅尔特征长度为200。

步骤S2-4，将能量谱特征、一阶导数能量谱特征、二阶导数能量谱特征在通道层面上进行融合组成一个3*64*200维度的初步音频特征。

步骤S2-5，将初步音频特征输入到声纹特征提取器中提取高层次的音频特征，得到1*512维度的音频特征。

步骤S3，将预处理视频信息进行处理，提取出针对预处理视频信息中人员的人脸特征、头部特征以及身体特征。

预处理视频信息中的人脸特征通过arcface的模型进行特征提取，预处理视频信息中的头部特征以及身体特征通过ReID的模型进行特征提取。

提取预处理视频信息中的人脸特征时，根据人脸质量对人脸特征进行排序，选出每个视频片段中排名前32位的人脸特征。如果一个视频片段中人脸特征少于32个，则进行随机抽取特征，直到特征数量达到32个。

步骤S4，搭建多个MLP神经网络模型，并对多个MLP神经网络模型进行训练以及权值的设定，得到MLP神经网络联合模型。

MLP即多层感知器，本实施例搭建的MLP神经网络模型的数量为14。

其中，步骤S4包括以下子步骤：

步骤S4-1，搭建14个MLP神经网络模型，其包含的模型参数为随机设置。

多个MLP神经网络模型通过深度学习框架pytorch进行搭建，采用了残差网络结构，引入了残差块之间的快捷连接，提高了训练效率，提高了模型的性能。

图2为本实施例的MLP神经网络模型的结构示意图。

如图2所示，MLP神经网络模型的结构中包括依次设置的输入层、特征提取层、模型判别层和最后的联合判别层。MLP神经网络模型具体包括如下结构：

(1)输入层I，用于输入各个经过预处理的特征数据，其大小与归一化后，为1*4*512。

(2)经过MLP神经网络模型之后会得到一个1*人物个数的矩阵，其中的每个数据代表着待测视频是该类别的概率大小，通常来说可以将概率最大的数据判断为是该类别。

MLP神经网络模型每一层都使用了批量规范化，提高了模型的泛化能力，并使用PRelu作为每层的激活函数。MLP神经网络模型的输入层的尺寸为2048。

步骤S4-2，通过步骤S1、步骤S2以及步骤S3从训练集集的各个音视频资料中提取音频特征、人脸特征、头部特征以及身体特征，并将训练集各个音视频资料的音频特征、人脸特征、头部特征以及身体特征依次输入各个MLP神经网络模型进行模型训练并进行一次迭代。

步骤S4-3，迭代后，采用各个MLP神经网络模型最后一层的模型参数分别计算出损失误差，然后将计算得到的损失误差反向传播，从而更新模型参数。

计算出损失误差时，采用交叉熵损失作为损失函数来计算预测标签与正确标签之间的误差。为了最小化损失，还应用Adam作为优化器，并将小批量的大小设置为512。学习率初始设置为0.001，在每个历元中衰减，衰减系数为0.01。当验证损失在10个周期内未得到改善时，采用早期停止策略。

训练集中的音频特征分批次进行训练时，每次进入网络模型的训练音频批次大小为64，一共迭代训练100次。

步骤S4-4，重复步骤S4-2至步骤S4-3直至达到训练完成条件，得到14个训练后的卷积神经网络模型。

步骤S4-5，根据多个训练后的MLP神经网络模型在模型训练中的准确率对14个MLP神经网络模型进行权值的设定，得到MLP神经网络联合模型。

本实施例中权值设定的具体过程为：根据在模型训练中的准确率对14个训练后的卷积神经网络模型进行评分，对评分高的训练后的卷积神经网络模型赋予更高的权值。

MLP神经网络联合模型通过14个训练后的卷积神经网络模型根据权值进行组合而得。

步骤S5，把音频特征、人脸特征、头部特征以及身体特征输入MLP神经网络联合模型，得到判断的类别结果。

本实施例通过步骤S1、步骤S2以及步骤S3从测试集的各个音视频资料中提取音频特征、人脸特征、头部特征以及身体特征，并将测试集各个音视频资料的音频特征、人脸特征、头部特征以及身体特征依次输入MLP神经网络联合模型中进行判断，MLP神经网络联合模型对测试集的判断准确率为87.5％。

实施例的作用与效果

根据本实施例所涉及的基于音视频信息融合的人员身份识别方法，由于充分利用音视频资料的视频信息以及音频信息，提取并融合音视频资料的音频特征、人脸特征、头部特征以及身体特征，本实施例所涉及的基于音视频信息融合的人员身份识别方法扩充了输入MLP神经网络模型的特征信息，并通过多个MLP神经网络模型加权后进行联合判断的形式，保证了对人员身份识别的精确性和稳定性。

上述实施方式为本发明的优选案例，并不用来限制本发明的保护范围。

Claims

1.一种基于音视频信息融合的人员身份识别方法，其特征在于,包括以下步骤：

步骤S1，读入音视频资料的视频信息以及音频信息，对所述视频信息以及所述音频信息进行预处理，得到预处理视频信息以及预处理音频信息；

步骤S2，将所述预处理音频信息进行处理，提取出音频特征；

步骤S3，将所述预处理视频信息进行处理，提取出针对所述预处理视频信息中人员的人脸特征、头部特征以及身体特征；

步骤S4，搭建多个MLP神经网络模型，并对多个所述MLP神经网络模型进行训练以及权值的设定，得到MLP神经网络联合模型；

步骤S5，把所述音频特征、所述人脸特征、所述头部特征以及所述身体特征输入所述MLP神经网络联合模型，得到判断的类别结果；

其中，步骤S4包括以下子步骤：

步骤S4-1，搭建多个所述MLP神经网络模型，其包含的模型参数为随机设置；

步骤S4-2，把训练集输入多个所述MLP神经网络模型进行模型训练并进行一次迭代；

步骤S4-3，迭代后，采用多个所述MLP神经网络模型最后一层的模型参数分别计算出损失误差，然后将计算得到的损失误差反向传播，从而更新所述模型参数；

步骤S4-4，重复步骤S4-2至步骤S4-3直至达到训练完成条件，得到多个训练后的所述卷积神经网络模型；

步骤S4-5，根据多个训练后的所述MLP神经网络模型在所述模型训练中的准确率对多个所述MLP神经网络模型进行权值的设定，得到MLP神经网络联合模型。

2.根据权利要求1所述的一种基于深度学习的双视野眼底图像融合方法，其特征在于：

其中，在步骤S1中，所述预处理包括删除低帧率、低像素的所述视频信息，以及对视频信息每2秒截取一次、对音频信息每5秒截取一次。

3.根据权利要求1所述的一种基于深度学习的双视野眼底图像融合方法，其特征在于：

其中，步骤S2包括以下子步骤：

步骤S2-1，通过音频格式的转换工具ffmpeg将所述预处理音频信息转化为wav格式的音频，得到wav格式预处理音频信息；

步骤S2-2，按sample rate乘上切割时长得到数据的长度，再按得到的数据长度切割所述wav格式预处理音频信息，得到切割后wav格式预处理音频信息；

步骤S2-3，对所述切割后wav格式预处理音频信息进行梅尔频谱的特征提取，通过对所述切割后wav格式预处理音频信息进行对数计算而得到1*64*200维度的能量谱特征，并对所述能量谱特征进行一阶求导而得到与所述能量谱特征相同维度的一阶求导能量谱特征，对所述能量谱特征进行二阶求导而得到与所述能量谱特征相同维度的二阶求导能量谱特征；

步骤S2-4，将所述能量谱特征、所述一阶导数能量谱特征、所述二阶导数能量谱特征在通道层面上进行融合组成一个3*64*200维度的初步音频特征；

步骤S2-5，将所述初步音频特征输入到声纹特征提取器中提取得到1*512维度的所述音频特征。

4.根据权利要求3所述的一种基于深度学习的双视野眼底图像融合方法，其特征在于：

其中，步骤S2-3中，所述能量谱特征为三维矩阵，这三个维度名称分别为通道、梅尔特征数量、梅尔特征长度。

5.根据权利要求1所述的一种基于深度学习的双视野眼底图像融合方法，其特征在于：

其中，在步骤S3中，所述人脸特征通过arcface的模型进行特征提取，所述头部特征以及所述身体特征通过ReID的模型进行特征提取。