CN113986005B

CN113986005B - 基于集成学习的多模态融合视线估计框架

Info

Publication number: CN113986005B
Application number: CN202111191739.1A
Authority: CN
Inventors: 黄承浩; 黄和金; 王虓一; 张瑞昌; 李金豪; 洪峰; 王岩; 张彦如
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2023-07-07
Anticipated expiration: 2041-10-13
Also published as: CN113986005A

Abstract

本发明提供一种基于集成学习的多模态融合视线估计框架，包括如下步骤：进行特征提取，分别对摄像头下的视频信息和对应音频中的信息进行提取；采用多模态Transformer进行特征融合，在减少了参数的同时提取了更多的信息；使用集成学习组合多个个体学习模型，提高预测准确率。该基于集成学习的多模态融合视线估计框架具有的优点如下：(1)使用更高效的LMF‑MET框架处理视频和语音信息，使得模型可以完全利用视频信息和音频信息，并对多模态信息进行深入的交叉感知。(2)采取集成学习，利用多个个体学习器，将多个个体学习器结合成强的学习器，使得模型对数据的准确度得到了提升，并加快模型学习速度，从而提高视线估计预测效率。

Description

基于集成学习的多模态融合视线估计框架

技术领域

本发明具体涉及一种基于集成学习的多模态融合视线估计框架。

背景技术

目前越来越多的领域开始关注视线估计在VR、自动驾驶、自闭症儿童的检测与诊断等方面的应用。在群体交流中，说话者的面部表情、说话者的顺序、群体中的眼神交流均会吸引他人的视线。然而，传统的几何方法主要是根据眼睛的位置特征，比如眼角、瞳孔位置等关键点，来确定视线落点，虽然准确率高，但是对图片的分辨率也要求很高，而实际应用中高分辨率图片获取的成本很高。利用一个头戴式相机来追踪眼睛关键点位置(虹膜和瞳孔)，需要高清摄像头来获取高分辨率图像和大量的红外LED来追踪眼睛关键点，不仅成本高，还会对眼睛造成伤害。如果直接学习一个将眼睛外观映射到视线的模型，这种方法可以弥补上述方法的缺陷，但也带来了新的问题：需要大量的图片来参与训练，并且容易出现过拟合的问题。这些方法都有一个共同特点:只利用了单一的图片信息或者视频信息来预测视线落点，忽略了语言和眼神之间的联系，但是，已经有研究表明，在群体交流中，人们通常注视着说话者，说话者也会轮流注视其他人。目前针对视线估计的研究忽略了视频和音频之间的关系，无法充分利用多模态信息，不能很好的进行视线预测。通过简单的信息融合方式混合处理视频和音频信息，会使得模型混淆视频和音频信息，出现视频信息和音频信息无法匹配的情况，使得模型难以分辨出视频和音频各自的信息，导致预测结果非常差，模型收敛性弱。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于集成学习的多模态融合视线估计框架，该基于集成学习的多模态融合视线估计框架可以很好地解决上述问题。

为达到上述要求，本发明采取的技术方案是：提供一种基于集成学习的多模态融合视线估计框架，该基于集成学习的多模态融合视线估计框架包括如下步骤：进行特征提取，分别对摄像头下的视频信息和对应音频中的信息进行提取；采用多模态Transformer进行特征融合，在减少了参数的同时提取了更多的信息；使用集成学习组合多个个体学习模型，提高预测准确率。

该基于集成学习的多模态融合视线估计框架具有的优点如下：

(1)使用更高效的LMF-MET框架处理视频和语音信息，使得模型可以完全利用视频信息和音频信息，并对多模态信息进行深入的交叉感知。

(2)采取集成学习，利用多个个体学习器，将多个个体学习器结合成强的学习器，使得模型对数据的准确度得到了提升，并加快模型学习速度，从而提高视线估计预测效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，在这些附图中使用相同的参考标号来表示相同或相似的部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示意性地示出了根据本申请一个实施例的基于集成学习的多模态融合视线估计框架中提取特征的流程构示意图。

图2示意性地示出了根据本申请一个实施例的基于集成学习的多模态融合视线估计框架中的单个模型主要学习框架示意图。

图3示意性地示出了根据本申请一个实施例的基于集成学习的多模态融合视线估计框架中的集成学习训练阶段的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，以下结合附图及具体实施例，对本申请作进一步地详细说明。

在以下描述中，对“一个实施例”、“实施例”、“一个示例”、“示例”等等的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、元素或限度，但并非每个实施例或示例都必然包括特定特征、结构、特性、性质、元素或限度。另外，重复使用短语“根据本申请的一个实施例”虽然有可能是指代相同实施例，但并非必然指代相同的实施例。

为简单起见，以下描述中省略了本领域技术人员公知的某些技术特征。根据本申请的一个实施例，提供一种基于集成学习的多模态融合视线估计框架，如图1-3所示，步骤包括：

步骤S1:使用开源机器学习库dlib和基于目标检测的预训练模型获得视频中说话者的面部特征；

步骤S2:使用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)进行语音特征提取；

步骤S3:对多模态信息进行融合，利用Transformer with Low-rank MultimodalFusion针对群体中的每个个体分别构建学习模型；

步骤S4:使用集成学习将多个个体学习器组合成一个预测准确率更高、鲁棒性更好的强学习器Multimedia-based Ensemble Transformer with Low-rank MultimodalFusion(LMF-MET)。

其中，步骤S1包括步骤：

使用dlib和脸部识别框架OpenFace获得视频中包含的初级面部特征

其中K代表视频中有K个检测目标，每个目标所得的特征是d维。针对p处的摄像头捕捉到的视频r，其捕捉到的脸部图像特征就是：/>

脸部偏移特征就是

脸部描述特征就是:/>

其中，p表示四个摄像头的位置，故p的取值为1，2，3，4；t_k表示视频r的第K个10秒间隔；

为有效防止信息丢失，通过resnet34、2D convolutional layer和max-poolinglayer进一步进行特征提取；

对获取到的特征进行维度对齐，得到

基于/>

利用OpenFacek计算可得到10s内的脸部偏移量，即：/>

然后再利用机器学习库dlib计算面部描述符/>

得到三个脸部特征向量，分别是：/>

其中，步骤S2包括步骤：

利用MFCC对音频进行数据增强，记作A^r，其维度为32维；

为了学习更多的全局特征，将p位置(四个摄像头的位置，取值1，2，3，4)的特征和其他特征以逆时针的方式连接，即：

如图1所示，进一步拼接视频特征和音频特征，得到：

进一步的是，所示步骤S3包括步骤，如图2所示：

使用一维卷积将

平铺成

其中T_F，T_A，T_V，代表F、A、V卷积核的大小；

使用Low-rank Multimodal Fusion(LMF)对提取到的视频特征和音频特征进行特征融合，整体融合后的特征就是:F＝{F¹，F²，...，F^R}，其中R代表记录的总数，记录r融合后的特征就是：

其中T_F是融合后得到的特征F对应卷积核的大小；d_F代表F的特征数；

为了训练过程中充分利用特征的时间序列，对融合后的特征F进行positionalembedding，得到：

同时将

作为两个crossmodal transformer的输入，使用crossmodal attention将/>

分别和/>

连接得到增强后的特征F_A，F_V:

将两个增强后的特征连接起来得到：

将其输入到Transformer，即可得到单个视线估计学习器；

其中，步骤S4包括步骤，如图3所示：

根据4个模型在验证集上的准确率，采用加权多数投票法来分配权重:

其中，p_t，j表示分类器t选择方向j的概率，T表示分类器的个数，即为4，C代表视线落点的方向数，即为3。

针对具有广泛应用的视线估计，现有技术采用单一图片信息或者视频信息进行建模，忽略了音频信息的作用，没有对多模态信息进行交叉感知。或使用简单的信息融合，使得模型混淆了视频信息和音频信息，预测效果非常差。本发明使用高效的LMF-MET框架处理包含头部运动、嘴部运动的视频信息和包含说话内容的音频信息，框架主体是transformer，输入视频和音频的特征后，该模型可以完全利用视频和音频之间的信息，并对多模态信息进行深入的交叉感知；同时，采用集成学习方法，利用多个若监督模型学习每个摄像头收集到的视频信息以及对于录音器收集到的音频信息，再利用软投票机制将个体学习器组合得到更好更全面的LMF-MET模型，使得模型的收敛速度比原始模型快了数倍，视线预测的准确率也增强了很多。因此本方案能够比较好地解决上述问题。

视线估计旨在确定视线方向及落点，其在多个领域如医疗、社交、VR等领域的应用越来越广泛，使得深入研究视线估计以提高其性能变得越来越重要。在发明中，本方案提出了一种新的方案LMF-MET，通过基于视频和语音的多模态信息以提高视线估计的准确度。该框架可以应用在其他用户各类交流信息场景中进行相关预测，如VR中的视线落点预测、自闭症儿童确诊辅助预测、手机屏幕解锁、短视频特效等。同时将集成学习应用到MultimodalTransformer(MulT)模型可以提高模型准确性、鲁棒性。

以上所述实施例仅表示本发明的几种实施方式，其描述较为具体和详细，但并不能理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明保护范围。因此本发明的保护范围应该以所述权利要求为准。