CN113986005A - 基于集成学习的多模态融合视线估计框架 - Google Patents
基于集成学习的多模态融合视线估计框架 Download PDFInfo
- Publication number
- CN113986005A CN113986005A CN202111191739.1A CN202111191739A CN113986005A CN 113986005 A CN113986005 A CN 113986005A CN 202111191739 A CN202111191739 A CN 202111191739A CN 113986005 A CN113986005 A CN 113986005A
- Authority
- CN
- China
- Prior art keywords
- learning
- features
- information
- video
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 35
- 230000001815 facial effect Effects 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 230000008447 perception Effects 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 2
- 210000001747 pupil Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010003805 Autism Diseases 0.000 description 1
- 208000020706 Autistic disease Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供一种基于集成学习的多模态融合视线估计框架,包括如下步骤:进行特征提取,分别对摄像头下的视频信息和对应音频中的信息进行提取;采用多模态Transformer进行特征融合,在减少了参数的同时提取了更多的信息;使用集成学习组合多个个体学习模型,提高预测准确率。该基于集成学习的多模态融合视线估计框架具有的优点如下:(1)使用更高效的LMF‑MET框架处理视频和语音信息,使得模型可以完全利用视频信息和音频信息,并对多模态信息进行深入的交叉感知。(2)采取集成学习,利用多个个体学习器,将多个个体学习器结合成强的学习器,使得模型对数据的准确度得到了提升,并加快模型学习速度,从而提高视线估计预测效率。
Description
技术领域
本发明具体涉及一种基于集成学习的多模态融合视线估计框架。
背景技术
目前越来越多的领域开始关注视线估计在VR、自动驾驶、自闭症儿童的检测与诊断等方面的应用。在群体交流中,说话者的面部表情、说话者的顺序、群体中的眼神交流均会吸引他人的视线。然而,传统的几何方法主要是根据眼睛的位置特征,比如眼角、瞳孔位置等关键点,来确定视线落点,虽然准确率高,但是对图片的分辨率也要求很高,而实际应用中高分辨率图片获取的成本很高。利用一个头戴式相机来追踪眼睛关键点位置(虹膜和瞳孔),需要高清摄像头来获取高分辨率图像和大量的红外LED来追踪眼睛关键点,不仅成本高,还会对眼睛造成伤害。如果直接学习一个将眼睛外观映射到视线的模型,这种方法可以弥补上述方法的缺陷,但也带来了新的问题:需要大量的图片来参与训练,并且容易出现过拟合的问题。这些方法都有一个共同特点:只利用了单一的图片信息或者视频信息来预测视线落点,忽略了语言和眼神之间的联系,但是,已经有研究表明,在群体交流中,人们通常注视着说话者,说话者也会轮流注视其他人。目前针对视线估计的研究忽略了视频和音频之间的关系,无法充分利用多模态信息,不能很好的进行视线预测。通过简单的信息融合方式混合处理视频和音频信息,会使得模型混淆视频和音频信息,出现视频信息和音频信息无法匹配的情况,使得模型难以分辨出视频和音频各自的信息,导致预测结果非常差,模型收敛性弱。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于集成学习的多模态融合视线估计框架,该基于集成学习的多模态融合视线估计框架可以很好地解决上述问题。
为达到上述要求,本发明采取的技术方案是:提供一种基于集成学习的多模态融合视线估计框架,该基于集成学习的多模态融合视线估计框架包括如下步骤:进行特征提取,分别对摄像头下的视频信息和对应音频中的信息进行提取;采用多模态Transformer进行特征融合,在减少了参数的同时提取了更多的信息;使用集成学习组合多个个体学习模型,提高预测准确率。
该基于集成学习的多模态融合视线估计框架具有的优点如下:
(1)使用更高效的LMF-MET框架处理视频和语音信息,使得模型可以完全利用视频信息和音频信息,并对多模态信息进行深入的交叉感知。
(2)采取集成学习,利用多个个体学习器,将多个个体学习器结合成强的学习器,使得模型对数据的准确度得到了提升,并加快模型学习速度,从而提高视线估计预测效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示意性地示出了根据本申请一个实施例的基于集成学习的多模态融合视线估计框架中提取特征的流程构示意图。
图2示意性地示出了根据本申请一个实施例的基于集成学习的多模态融合视线估计框架中的单个模型主要学习框架示意图。
图3示意性地示出了根据本申请一个实施例的基于集成学习的多模态融合视线估计框架中的集成学习训练阶段的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。
在以下描述中,对“一个实施例”、“实施例”、“一个示例”、“示例”等等的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、元素或限度,但并非每个实施例或示例都必然包括特定特征、结构、特性、性质、元素或限度。另外,重复使用短语“根据本申请的一个实施例”虽然有可能是指代相同实施例,但并非必然指代相同的实施例。
为简单起见,以下描述中省略了本领域技术人员公知的某些技术特征。根据本申请的一个实施例,提供一种基于集成学习的多模态融合视线估计框架,如图1-3所示,步骤包括:
步骤S1:使用开源机器学习库dlib和基于目标检测的预训练模型获得视频中说话者的面部特征;
步骤S2:使用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)进行语音特征提取;
步骤S3:对多模态信息进行融合,利用Transformer with Low-rank MultimodalFusion针对群体中的每个个体分别构建学习模型;
步骤S4:使用集成学习将多个个体学习器组合成一个预测准确率更高、鲁棒性更好的强学习器Multimedia-based Ensemble Transformer with Low-rank MultimodalFusion(LMF-MET)。
其中,步骤S1包括步骤:
使用dlib和脸部识别框架OpenFace获得视频中包含的初级面部特征其中K代表视频中有K个检测目标,每个目标所得的特征是d维。针对p处的摄像头捕捉到的视频r,其捕捉到的脸部图像特征就是:脸部偏移特征就是脸部描述特征就是:其中,p表示四个摄像头的位置,故p的取值为1,2,3,4;tk表示视频r的第K个10秒间隔;
为有效防止信息丢失,通过resnet34、2D convolutional layer和max-poolinglayer进一步进行特征提取;
其中,步骤S2包括步骤:
利用MFCC对音频进行数据增强,记作Ar,其维度为32维;
如图1所示,进一步拼接视频特征和音频特征,得到:
进一步的是,所示步骤S3包括步骤,如图2所示:
使用Low-rank Multimodal Fusion(LMF)对提取到的视频特征和音频特征进行特征融合,整体融合后的特征就是:F={F1,F2,...,FR},其中R代表记录的总数,记录r融合后的特征就是:
为了训练过程中充分利用特征的时间序列,对融合后的特征F进行positionalembedding,得到:
其中,步骤S4包括步骤,如图3所示:
针对具有广泛应用的视线估计,现有技术采用单一图片信息或者视频信息进行建模,忽略了音频信息的作用,没有对多模态信息进行交叉感知。或使用简单的信息融合,使得模型混淆了视频信息和音频信息,预测效果非常差。本发明使用高效的LMF-MET框架处理包含头部运动、嘴部运动的视频信息和包含说话内容的音频信息,框架主体是transformer,输入视频和音频的特征后,该模型可以完全利用视频和音频之间的信息,并对多模态信息进行深入的交叉感知;同时,采用集成学习方法,利用多个若监督模型学习每个摄像头收集到的视频信息以及对于录音器收集到的音频信息,再利用软投票机制将个体学习器组合得到更好更全面的LMF-MET模型,使得模型的收敛速度比原始模型快了数倍,视线预测的准确率也增强了很多。因此本方案能够比较好地解决上述问题。
视线估计旨在确定视线方向及落点,其在多个领域如医疗、社交、VR等领域的应用越来越广泛,使得深入研究视线估计以提高其性能变得越来越重要。在发明中,本方案提出了一种新的方案LMF-MET,通过基于视频和语音的多模态信息以提高视线估计的准确度。该框架可以应用在其他用户各类交流信息场景中进行相关预测,如VR中的视线落点预测、自闭症儿童确诊辅助预测、手机屏幕解锁、短视频特效等。同时将集成学习应用到MultimodalTransformer(MulT)模型可以提高模型准确性、鲁棒性。
以上所述实施例仅表示本发明的几种实施方式,其描述较为具体和详细,但并不能理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明保护范围。因此本发明的保护范围应该以所述权利要求为准。
Claims (6)
1.一种基于集成学习的多模态融合视线估计框架,其特征在于,包括如下步骤:
进行特征提取,分别对摄像头下的视频信息和对应音频中的信息进行提取;
采用多模态Transformer进行特征融合,在减少了参数的同时提取了更多的信息;
使用集成学习组合多个个体学习模型,提高预测准确率。
2.根据权利要求1所述的基于集成学习的多模态融合视线估计框架,其特征在于,具体包括如下步骤:
S1:使用开源机器学习库dlib和基于目标检测的预训练模型获得视频中说话者的面部特征;
S2:使用梅尔频率倒谱系数进行语音特征提取;
S3:对多模态信息进行融合,利用Transformer with Low-rank Multimodal Fusion针对群体中的每个个体分别构建学习模型;
S4:使用集成学习将多个个体学习器组合成一个预测准确率更高、鲁棒性更好的强学习器。
3.根据权利要求2所述的基于集成学习的多模态融合视线估计框架,其特征在于,使用开源机器学习库dlib和基于目标检测的预训练模型获得视频中说话者的面部特征的步骤具体如下:
为有效防止信息丢失,通过resnet34、2D convolutional layer和max-pooling layer进一步进行特征提取;
5.根据权利要求4所述的基于集成学习的多模态融合视线估计框架,其特征在于,对多模态信息进行融合,利用Transformer with Low-rank Multimodal Fusion针对群体中的每个个体分别构建学习模型的步骤具体包括:
使用Low-rank Multimodal Fusion对提取到的视频特征和音频特征进行特征融合;
整体融合后的特征为:F={F1,F2,...,FR},其中R代表记录的总数;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111191739.1A CN113986005B (zh) | 2021-10-13 | 2021-10-13 | 基于集成学习的多模态融合视线估计框架 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111191739.1A CN113986005B (zh) | 2021-10-13 | 2021-10-13 | 基于集成学习的多模态融合视线估计框架 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113986005A true CN113986005A (zh) | 2022-01-28 |
CN113986005B CN113986005B (zh) | 2023-07-07 |
Family
ID=79738423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111191739.1A Active CN113986005B (zh) | 2021-10-13 | 2021-10-13 | 基于集成学习的多模态融合视线估计框架 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113986005B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006279111A (ja) * | 2005-03-25 | 2006-10-12 | Fuji Xerox Co Ltd | 情報処理装置、情報処理方法およびプログラム |
CN102902505A (zh) * | 2011-07-28 | 2013-01-30 | 苹果公司 | 具有增强音频的器件 |
CA2902090A1 (en) * | 2014-08-29 | 2016-02-29 | Enable Training And Consulting, Inc. | System and method for integrated learning |
CN107256392A (zh) * | 2017-06-05 | 2017-10-17 | 南京邮电大学 | 一种联合图像、语音的全面情绪识别方法 |
JP2018077791A (ja) * | 2016-11-11 | 2018-05-17 | 日本電信電話株式会社 | 推定方法及び推定システム |
US20190034706A1 (en) * | 2010-06-07 | 2019-01-31 | Affectiva, Inc. | Facial tracking with classifiers for query evaluation |
CN110168531A (zh) * | 2016-12-30 | 2019-08-23 | 三菱电机株式会社 | 用于多模态融合模型的方法和系统 |
CN110795982A (zh) * | 2019-07-04 | 2020-02-14 | 哈尔滨工业大学(深圳) | 一种基于人体姿态分析的表观视线估计方法 |
CN113269277A (zh) * | 2020-07-27 | 2021-08-17 | 西北工业大学 | 基于Transformer编码器和多头多模态注意力的连续维度情感识别方法 |
CN113408649A (zh) * | 2021-07-09 | 2021-09-17 | 南京工业大学 | 基于视频图像面部表情和语音的多模态儿童情绪识别融合模型 |
-
2021
- 2021-10-13 CN CN202111191739.1A patent/CN113986005B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006279111A (ja) * | 2005-03-25 | 2006-10-12 | Fuji Xerox Co Ltd | 情報処理装置、情報処理方法およびプログラム |
US20190034706A1 (en) * | 2010-06-07 | 2019-01-31 | Affectiva, Inc. | Facial tracking with classifiers for query evaluation |
CN102902505A (zh) * | 2011-07-28 | 2013-01-30 | 苹果公司 | 具有增强音频的器件 |
CA2902090A1 (en) * | 2014-08-29 | 2016-02-29 | Enable Training And Consulting, Inc. | System and method for integrated learning |
JP2018077791A (ja) * | 2016-11-11 | 2018-05-17 | 日本電信電話株式会社 | 推定方法及び推定システム |
CN110168531A (zh) * | 2016-12-30 | 2019-08-23 | 三菱电机株式会社 | 用于多模态融合模型的方法和系统 |
CN107256392A (zh) * | 2017-06-05 | 2017-10-17 | 南京邮电大学 | 一种联合图像、语音的全面情绪识别方法 |
CN110795982A (zh) * | 2019-07-04 | 2020-02-14 | 哈尔滨工业大学(深圳) | 一种基于人体姿态分析的表观视线估计方法 |
CN113269277A (zh) * | 2020-07-27 | 2021-08-17 | 西北工业大学 | 基于Transformer编码器和多头多模态注意力的连续维度情感识别方法 |
CN113408649A (zh) * | 2021-07-09 | 2021-09-17 | 南京工业大学 | 基于视频图像面部表情和语音的多模态儿童情绪识别融合模型 |
Non-Patent Citations (1)
Title |
---|
管业鹏: "基于多模态视觉特征的自然人机交互", 《电子学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113986005B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Speech emotion recognition using deep convolutional neural network and discriminant temporal pyramid matching | |
Tao et al. | End-to-end audiovisual speech recognition system with multitask learning | |
WO2022161298A1 (zh) | 信息生成方法、装置、设备、存储介质及程序产品 | |
Chen | Audiovisual speech processing | |
CN112151030B (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
WO2024000867A1 (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN113516990B (zh) | 一种语音增强方法、训练神经网络的方法以及相关设备 | |
Hassanat | Visual speech recognition | |
CN111259976B (zh) | 基于多模态对齐与多向量表征的人格检测方法 | |
Saitoh et al. | SSSD: Speech scene database by smart device for visual speech recognition | |
CN110348409A (zh) | 一种基于声纹生成人脸图像的方法和装置 | |
WO2023035969A1 (zh) | 语音与图像同步性的衡量方法、模型的训练方法及装置 | |
CN115188074A (zh) | 一种互动式体育训练测评方法、装置、系统及计算机设备 | |
CN115512191A (zh) | 一种联合问答的图像自然语言描述方法 | |
Pu et al. | Review on research progress of machine lip reading | |
Haq et al. | Using lip reading recognition to predict daily Mandarin conversation | |
CN114492579A (zh) | 情绪识别方法、摄像装置、情绪识别装置及存储装置 | |
CN117115312B (zh) | 一种语音驱动面部动画方法、装置、设备及介质 | |
CN116522212B (zh) | 基于图像文本融合的谎言检测方法、装置、设备及介质 | |
CN116975602A (zh) | 一种基于多模态信息双重融合的ar互动情感识别方法和系统 | |
Shrivastava et al. | Puzzling out emotions: a deep-learning approach to multimodal sentiment analysis | |
CN113986005A (zh) | 基于集成学习的多模态融合视线估计框架 | |
Saitoh et al. | Lip25w: Word-level lip reading web application for smart device | |
Ivanko et al. | A novel task-oriented approach toward automated lip-reading system implementation | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |