CN110674483B

CN110674483B - 一种基于多模态信息的身份识别方法

Info

Publication number: CN110674483B
Application number: CN201910749103.0A
Authority: CN
Inventors: 管贻生; 叶家杰
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2022-05-13
Anticipated expiration: 2039-08-14
Also published as: CN110674483A

Abstract

本发明公开了一种基于多模态信息的身份识别方法，包括下述步骤：步骤一，制作带有标签的多模态视频数据集；步骤二，分别构建和训练人脸和头部检测模型；步骤三，构建和训练人脸、头部和声音的特征提取模型；步骤四，通过训练好的特征提取模型，对人脸、头部和声音信息进行特征提取；步骤五，构建和训练分类模型分别对三种提取后的特征进行分类；步骤六，通过分类模型分别使用三种特征进行结果预测；步骤七，依据制定的多模态信息融合策略对分类结果进行信息融合；步骤八，对融合后的结果进行整理后输出身份识别结果；本发明提出基于多模态信息的身份识别网络模型，在人机交互、信息安全和安保监控等领域有着广泛的应用前景。

Description

一种基于多模态信息的身份识别方法

技术领域

本发明涉及模式识别和生物识别技术领域，具体涉及一种基于多模态信息的身份识别方法。

背景技术

随着经济发展与经验积累，科技创新取得了长足进步，尤其近十几年来，以生物鉴别技术为代表的一系列新兴技术突飞猛进，在身份识别的方法中，人脸识别技术最为引人关注。人脸识别技术通过收集分析人的面部特征来识别目标身份，具有易于采样、便于后台操作、不与采样对象发生接触等特点，在实际应用中相比其它识别模式有着明显优势，在身份识别和智能人机交互领域发挥显著作用，并向安全监控、多媒体娱乐等领域辐射出相当影响力。

由于近年来深度学习的兴趣，对身份识别的研究有了很大的提升，尤其在基于人脸识别和说话人识别的研究方面，在公开数据集上的表现已经超越了人的识别能力。同时，基于这些单一模态的身份识别算法不断的优化，研究者们逐渐把研究的方向从受约束环境转到无约束环境中，大大提高了身份识别的难度，在无约束环境中提高身份识别算法的识别能力也是目前研究的一个难题，而且往往在很多无约束的环境中，单靠单一模态信息不足以完成身份识别任务，需要考虑使用多种模态信息作为依据，提高识别能力。所以，基于多模态信息的身份识别方法是一个重要的研究方向。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于多模态信息的身份识别方法，该方法通过利用多种模态信息，提高算法在无约束环境下的身份识别能力，并利用决策层级的融合方法，对多种模态信息进行有效的融合，体现基于多种模态信息在识别技术领域的作用。

本发明的目的通过下述技术方案实现：

一种基于多模态信息的身份识别方法，包括下述步骤：

步骤一，收集影视明星和知名人士的影视片段和视频片段，制作包含多种模态信息的人物数据集，并为数据集添加身份标签；

步骤二，构建人脸和头部的检测模型，分别使用不同的开源数据集进行训练，检测步骤一中人物数据集中的人脸和头部；

步骤三，根据步骤二中检测到的人脸和头部信息，构建人脸、头部和声音三种模态信息的特征提取模型，并使用开源数据集训练模型；

步骤四，依据步骤三中的特征提取模型，分别对人脸、头部和声音信息进行特征提取；

步骤五，构建分类模型，使用步骤一中人物数据集中的训练集和验证集训练分类模型；

步骤六，使用步骤五中的分类模型，分别对步骤一中人物数据集中的测试集进行结果预测；

步骤七，根据步骤六中的预测结果，通过制定融合策略对预测结果进行信息融合；

步骤八，根据步骤七中的融合结果进行整理排序，输出最终身份识别结果。

优选地，所述步骤一中制作包含多种模态信息的人物数据集并为数据集添加身份标签的具体过程为：

构建和训练一个人脸检测分数评价和质量评价模型，对已获取的大量视频进行人脸检测评分和质量分数评价，检测评分范围为0至1，质量评分范围为0至200，通过人脸检测评价和质量评价模型筛选视频，并将视频随机切分成3-30秒的视频片段，整个数据集80％视频数据为高评分视频片段，20％为低评分视频片段，并在数据集中添加5％的未知标签视频片段。

优选地，所述步骤二中构建人脸检测模型，根据Pyramidbox算法构建检测模型，使用开源数据集Megaface和MS-Celeb-1M训练检测模型；所述头部检测模型为YOLOv3，使用开源预训练好的权重，只检测人的头部位置。

优选地，所述步骤三中人脸的特征提取模型为一种基于VGG16结构和ArcFace损失函数的神经网络特征提取模型，使用开源数据集Megaface和MS-Celeb-1M训练模型；其中ArcFace损失函数，如下述公式(1)所示：

上式中，N代表输入数据的批量大小，s代表半径为s的超球面，m代表附加角度边缘惩罚值，

代表真实值的角度，θ_j代表第j列权重与第i个样本特征的夹角；

人脸和头部的特征提取模型具有相同的神经网络结构，相同的损失函数，但网络参数不共享；

声音的特征提取模型为一种基于Resnet50神经网络模型，最后一层损失函数为softmax，使用开源数据集VoxCeleb2训练模型。

优选地，使用步骤四中人脸、头部和声音的特征提取模型，对步骤一中的人物数据集进行特征提取，取倒数第二层全连接层的输出为所要提取的特征，其中倒数第二层共512个节点。

优选地，所述步骤五中的分类模型为多层感知机，具有三个全连接层，第一和第二层均为1024个节点，第三层节点数为分类的类数，只使用训练集和验证集中提取的三种模态信息训练分类模型，三种模态信息分别训练三个分类模型。

优选地，所述步骤六中使用分类模型对人物数据集的测试集进行结果预测，预测结果为三种，由人脸、头部和声音分类模型分别预测得出。

优选地，所述步骤七中的融合策略是一种在决策层上进行信息融合的方法，使用加权平均的方法求得融合结果，其中权值的选择分为两部分，在人脸检测分数和质量分数高的情况下，选用人脸的检测分数和质量分数作为权值，其他情况均采用预测结果排位分数作为权值；

具体来说，所述权值的选择根据人脸的检测分数和质量分数划分两部分，高评分视频通过第一部分进行预测分类，低评分视频通过第二部分进行预测分类；

其中，第一部分的融合策略主要利用检测分数和质量分数作为权值，计算加权均值，如下述公式(2)所示：

上式中，qua score_i表示第i帧图像的质量评分，det score_i表示第i帧图像的检测评分，n表示当前输入的视频所含有的帧数，f_i表示当前视频中第i帧的特征，F表示通过加权平均所得到的合成特征表达；

第二部分的融合策略主要利用三种预测结果做决策融合，根据不同的标签把预测结果相同的视频ID进行累加，通过排名分数求加权均值，如下述公示(3)、(4)所示：

上式中，label i表示第i个标签，result score_j表示第j个预测结果，rank score_j表示第j个预测结果的排名位置，m表示在所有的预测结果中，同一标签下且同一个视频ID的预测结果数，W表示同一标签且同一视频ID的权重分数，N表示数据集中的分类类别数量，k表示在同一标签下所包含的视频ID数量。

优选地，所述步骤八中使用步骤七的融合结果，根据数据集中标签类别分别对融合结果进行排序，使用top K的方法排序选择，根据排序结果输出身份识别结果。

本发明与现有技术相比具有以下的有益效果：

(1)本发明提出了一种制作多模态信息数据集的方法，解决了在有大量数据的情况下，筛选出符合要求的多模态信息数据的技术问题；

(2)本发明提出了一种有效的多模态信息融合模型，解决了在真实无约束环境下，通过单一模态信息无法进行身份识别的问题，如人脸识别无法在图片具有曝光、侧脸和人脸有遮挡的情况下进行精确识别；

(3)本发明提出了一种基于加权均值的融合多种预测结果的方法，并结合K-fold的数据集分层抽样的方法，增强了预测结果，提高结果预测准确率，解决了在决策层级进行结果融合时容易导致预测准确率下降的问题。

附图说明

图1为本发明的流程示意图；

图2为本发明多模态信息数据集制作的流程示意图；

图3为本发明多模态特征提取的流程示意图；

图4为本发明融合策略模型的模型结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1～4所示，一种基于多模态信息的身份识别方法，包括下述步骤：

步骤一，制作带有标签和多模态信息的人物视频数据集，其中多模态信息包括人脸、头部和声音等；

如图2所示，构建和训练一个人脸检测分数评价和质量评价模型，对从网络获取的大量视频进行人脸检测评分和质量分数评价，检测评分范围为0至1，质量评分范围为0至200，通过人脸检测评价和质量评价模型筛选视频，并将视频随机切分成3-30秒的视频片段，其中检测分数大于0.8且质量评分大于80为高评分视频片段，其他则为低评分视频片段，整个数据集80％视频数据为高评分视频片段，20％为低评分视频片段，并在数据集中添加5％的未知标签视频片段。

步骤二，分别构建和训练人脸和头部检测模型，其中人脸和头部检测模型神经网络结构不同，人脸检测模型使用开源数据集训练，而头部检测模型使用开源的预训练权重；

(1)构建人脸检测模型，根据Pyramidbox算法构建检测模型，使用开源数据集Megaface和MS-Celeb-1M训练检测模型。

(2)构建头部的检测模型为YOLOv3，使用开源预训练好的权重，只检测人的头部位置。

步骤三，构建和训练人脸、头部和声音的特征提取模型，人脸和头部特征提取模型均选用VGG16结构和ArcFace损失函数的神经网络特征提取模型，并使用开源数据集Megaface和MS-Celeb-1M训练模型；所述的声音提取模型为一种基于Resnet50神经网络模型，倒数第二层节点数为512，最后一层损失函数为softmax，使用开源数据集VoxCeleb2训练模型；所述ArcFace损失函数，如下述公式(1)所示：

代表真实值的角度，θ_j代表第j列权重与第i个样本特征的夹角。

步骤四，通过训练好的特征提取模型，对人脸、头部和声音信息进行特征提取，利用步骤二中的人脸和头部检测模型和步骤三中的三种特征提取模型，提取步骤一中所述的人物数据集中的人脸、头部和声音特征，取每个特征提取模型的倒数第二层的输出作为提取特征，具体特征提取流程如图3所示。

步骤五，构建和训练分类模型分别对三种提取后的特征进行分类，分类模型均选用多层感知机结构，所述的多层感知机具有三层神经网络结构即具有三个全连接层，第一和第二层均为1024个节点，第三层节点数为分类的类数，即最后一层输出层的节点数为数据集分类的类别数，最后一层的损失函数为softmax函数；只使用训练集和验证集中提取的三种模态信息训练分类模型，三种模态信息分别训练三个分类模型。

步骤六，通过分类模型分别使用三种特征进行结果预测，具体步骤：利用K-fold方法对人物数据集进行分层抽样，拆分成K个数据集，分别利用三种模型对K个人脸检测模数据集进行结果预测，得到3乘K个预测结果。

步骤七，依据制定的多模态信息融合策略对分类结果进行信息融合，具体步骤如图4所示；

所述的融合策略主要分为两个部分，根据人脸的检测分数和质量分数划分两部分，高评分视频通过第一部分进行预测分类，低评分视频通过第二部分进行预测分类。

上式中，qua score_i表示第i帧图像的质量评分，det score_i表示第i帧图像的检测评分，n表示当前输入的视频所含有的帧数，f_i表示当前视频中第i帧的特征，F表示通过加权平均所得到的合成特征表达。

第二部分的融合策略主要利用三种预测结果做决策融合，根据不同的标签把预测结果相同的视频ID进行累加，通过排名分数求加权均值，如下述公式(3)、(4)所示：

步骤八，利用步骤七得到的融合结果，根据每个标签下的权重得分进行排序，最后根据Top K的方法输出身份识别结果。

本发明提出了一种制作多模态信息数据集的方法，解决了在有大量数据的情况下，筛选出符合要求的多模态信息数据的技术问题；提出了一种有效的多模态信息融合模型，解决了在真实无约束环境下，通过单一模态信息无法进行身份识别的问题，如人脸识别无法在图片具有曝光、侧脸和人脸有遮挡的情况下进行精确识别；提出了一种基于加权均值的融合多种预测结果的方法，并结合K-fold的数据集分层抽样的方法，增强了预测结果，提高结果预测准确率，解决了在决策层级进行结果融合时容易导致预测准确率下降的问题。

上述为本发明较佳的实施方式，但本发明的实施方式并不受上述内容的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多模态信息的身份识别方法，其特征在于，包括下述步骤：

步骤八，根据步骤七中的融合结果进行整理排序，输出最终身份识别结果；

所述步骤七中的融合策略是一种在决策层上进行信息融合的方法，使用加权平均的方法求得融合结果，其中权值的选择分为两部分，在人脸检测分数和质量分数高的情况下，选用人脸的检测分数和质量分数作为权值，其他情况均采用预测结果排位分数作为权值；

上式中，quascore_i表示第i帧图像的质量评分，detscore_i表示第i帧图像的检测评分，n表示当前输入的视频所含有的帧数，f_i表示当前视频中第i帧的特征，F表示通过加权平均所得到的合成特征表达；

第二部分的融合策略主要利用三种预测结果做决策融合，根据不同的标签把预测结果相同的视频ID进行累加，通过排名分数求加权均值，如下述公式 (3)、(4)所示：

上式中，label i表示第i个标签，resultscore_j表示第j个预测结果，rankscore_j表示第j个预测结果的排名位置，m表示在所有的预测结果中，同一标签下且同一个视频ID的预测结果数，W表示同一标签且同一视频ID的权重分数，N表示数据集中的分类类别数量，k表示在同一标签下所包含的视频ID数量。

2.根据权利要求1所述的基于多模态信息的身份识别方法，其特征在于，所述步骤一中制作包含多种模态信息的人物数据集并为数据集添加身份标签的具体过程为：

3.根据权利要求1所述的基于多模态信息的身份识别方法，其特征在于，所述步骤二中构建人脸检测模型，根据Pyramidbox算法构建检测模型，使用开源数据集Megaface和MS-Celeb-1M训练检测模型；所述头部检测模型为YOLOv3，使用开源预训练好的权重，只检测人的头部位置。

4.根据权利要求1所述的基于多模态信息的身份识别方法，其特征在于，所述步骤三中人脸的特征提取模型为一种基于VGG16结构和ArcFace损失函数的神经网络特征提取模型，使用开源数据集Megaface和MS-Celeb-1M训练模型；其中ArcFace损失函数，如下述公式(1)所示：

上式中，N代表输入数据的批量大小，s代表半径为s的超球面，m代表附加角度边缘惩罚值，θ_yi代表真实值的角度，θ_j代表第j列权重与第i个样本特征的夹角；

5.根据权利要求1所述的基于多模态信息的身份识别方法，其特征在于，使用步骤四中人脸、头部和声音的特征提取模型，对步骤一中的人物数据集进行特征提取，取倒数第二层全连接层的输出为所要提取的特征，其中倒数第二层共512个节点。

6.根据权利要求1所述的基于多模态信息的身份识别方法，其特征在于，所述步骤五中的分类模型为多层感知机，具有三个全连接层，第一和第二层均为1024个节点，第三层节点数为分类的类数，只使用训练集和验证集中提取的三种模态信息训练分类模型，三种模态信息分别训练三个分类模型。

7.根据权利要求1所述的基于多模态信息的身份识别方法，其特征在于，所述步骤六中使用分类模型对人物数据集的测试集进行结果预测，预测结果为三种，由人脸、头部和声音分类模型分别预测得出。

8.根据权利要求1所述的基于多模态信息的身份识别方法，其特征在于，所述步骤八中使用步骤七的融合结果，根据数据集中标签类别分别对融合结果进行排序，使用top K的方法排序选择，根据排序结果输出身份识别结果。