CN113986005A - 基于集成学习的多模态融合视线估计框架 - Google Patents

基于集成学习的多模态融合视线估计框架 Download PDF

Info

Publication number
CN113986005A
CN113986005A CN202111191739.1A CN202111191739A CN113986005A CN 113986005 A CN113986005 A CN 113986005A CN 202111191739 A CN202111191739 A CN 202111191739A CN 113986005 A CN113986005 A CN 113986005A
Authority
CN
China
Prior art keywords
learning
features
information
video
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111191739.1A
Other languages
English (en)
Other versions
CN113986005B (zh
Inventor
黄承浩
黄和金
王虓一
张瑞昌
李金豪
洪峰
王岩
张彦如
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202111191739.1A priority Critical patent/CN113986005B/zh
Publication of CN113986005A publication Critical patent/CN113986005A/zh
Application granted granted Critical
Publication of CN113986005B publication Critical patent/CN113986005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供一种基于集成学习的多模态融合视线估计框架,包括如下步骤:进行特征提取,分别对摄像头下的视频信息和对应音频中的信息进行提取;采用多模态Transformer进行特征融合,在减少了参数的同时提取了更多的信息;使用集成学习组合多个个体学习模型,提高预测准确率。该基于集成学习的多模态融合视线估计框架具有的优点如下:(1)使用更高效的LMF‑MET框架处理视频和语音信息,使得模型可以完全利用视频信息和音频信息,并对多模态信息进行深入的交叉感知。(2)采取集成学习,利用多个个体学习器,将多个个体学习器结合成强的学习器,使得模型对数据的准确度得到了提升,并加快模型学习速度,从而提高视线估计预测效率。

Description

基于集成学习的多模态融合视线估计框架
技术领域
本发明具体涉及一种基于集成学习的多模态融合视线估计框架。
背景技术
目前越来越多的领域开始关注视线估计在VR、自动驾驶、自闭症儿童的检测与诊断等方面的应用。在群体交流中,说话者的面部表情、说话者的顺序、群体中的眼神交流均会吸引他人的视线。然而,传统的几何方法主要是根据眼睛的位置特征,比如眼角、瞳孔位置等关键点,来确定视线落点,虽然准确率高,但是对图片的分辨率也要求很高,而实际应用中高分辨率图片获取的成本很高。利用一个头戴式相机来追踪眼睛关键点位置(虹膜和瞳孔),需要高清摄像头来获取高分辨率图像和大量的红外LED来追踪眼睛关键点,不仅成本高,还会对眼睛造成伤害。如果直接学习一个将眼睛外观映射到视线的模型,这种方法可以弥补上述方法的缺陷,但也带来了新的问题:需要大量的图片来参与训练,并且容易出现过拟合的问题。这些方法都有一个共同特点:只利用了单一的图片信息或者视频信息来预测视线落点,忽略了语言和眼神之间的联系,但是,已经有研究表明,在群体交流中,人们通常注视着说话者,说话者也会轮流注视其他人。目前针对视线估计的研究忽略了视频和音频之间的关系,无法充分利用多模态信息,不能很好的进行视线预测。通过简单的信息融合方式混合处理视频和音频信息,会使得模型混淆视频和音频信息,出现视频信息和音频信息无法匹配的情况,使得模型难以分辨出视频和音频各自的信息,导致预测结果非常差,模型收敛性弱。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于集成学习的多模态融合视线估计框架,该基于集成学习的多模态融合视线估计框架可以很好地解决上述问题。
为达到上述要求,本发明采取的技术方案是:提供一种基于集成学习的多模态融合视线估计框架,该基于集成学习的多模态融合视线估计框架包括如下步骤:进行特征提取,分别对摄像头下的视频信息和对应音频中的信息进行提取;采用多模态Transformer进行特征融合,在减少了参数的同时提取了更多的信息;使用集成学习组合多个个体学习模型,提高预测准确率。
该基于集成学习的多模态融合视线估计框架具有的优点如下:
(1)使用更高效的LMF-MET框架处理视频和语音信息,使得模型可以完全利用视频信息和音频信息,并对多模态信息进行深入的交叉感知。
(2)采取集成学习,利用多个个体学习器,将多个个体学习器结合成强的学习器,使得模型对数据的准确度得到了提升,并加快模型学习速度,从而提高视线估计预测效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示意性地示出了根据本申请一个实施例的基于集成学习的多模态融合视线估计框架中提取特征的流程构示意图。
图2示意性地示出了根据本申请一个实施例的基于集成学习的多模态融合视线估计框架中的单个模型主要学习框架示意图。
图3示意性地示出了根据本申请一个实施例的基于集成学习的多模态融合视线估计框架中的集成学习训练阶段的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。
在以下描述中,对“一个实施例”、“实施例”、“一个示例”、“示例”等等的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、元素或限度,但并非每个实施例或示例都必然包括特定特征、结构、特性、性质、元素或限度。另外,重复使用短语“根据本申请的一个实施例”虽然有可能是指代相同实施例,但并非必然指代相同的实施例。
为简单起见,以下描述中省略了本领域技术人员公知的某些技术特征。根据本申请的一个实施例,提供一种基于集成学习的多模态融合视线估计框架,如图1-3所示,步骤包括:
步骤S1:使用开源机器学习库dlib和基于目标检测的预训练模型获得视频中说话者的面部特征;
步骤S2:使用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)进行语音特征提取;
步骤S3:对多模态信息进行融合,利用Transformer with Low-rank MultimodalFusion针对群体中的每个个体分别构建学习模型;
步骤S4:使用集成学习将多个个体学习器组合成一个预测准确率更高、鲁棒性更好的强学习器Multimedia-based Ensemble Transformer with Low-rank MultimodalFusion(LMF-MET)。
其中,步骤S1包括步骤:
使用dlib和脸部识别框架OpenFace获得视频中包含的初级面部特征
Figure BDA0003301423540000031
其中K代表视频中有K个检测目标,每个目标所得的特征是d维。针对p处的摄像头捕捉到的视频r,其捕捉到的脸部图像特征就是:
Figure BDA0003301423540000041
脸部偏移特征就是
Figure BDA0003301423540000042
脸部描述特征就是:
Figure BDA0003301423540000043
其中,p表示四个摄像头的位置,故p的取值为1,2,3,4;tk表示视频r的第K个10秒间隔;
为有效防止信息丢失,通过resnet34、2D convolutional layer和max-poolinglayer进一步进行特征提取;
对获取到的特征进行维度对齐,得到
Figure BDA0003301423540000044
基于
Figure BDA0003301423540000045
利用OpenFacek计算可得到10s内的脸部偏移量,即:
Figure BDA0003301423540000046
然后再利用机器学习库dlib计算面部描述符
Figure BDA0003301423540000047
得到三个脸部特征向量,分别是:
Figure BDA0003301423540000048
其中,步骤S2包括步骤:
利用MFCC对音频进行数据增强,记作Ar,其维度为32维;
为了学习更多的全局特征,将p位置(四个摄像头的位置,取值1,2,3,4)的特征和其他特征以逆时针的方式连接,即:
Figure BDA0003301423540000049
Figure BDA00033014235400000410
如图1所示,进一步拼接视频特征和音频特征,得到:
Figure BDA00033014235400000411
进一步的是,所示步骤S3包括步骤,如图2所示:
使用一维卷积将
Figure BDA0003301423540000051
平铺成
Figure BDA0003301423540000052
其中TF,TA,TV,代表F、A、V卷积核的大小;
使用Low-rank Multimodal Fusion(LMF)对提取到的视频特征和音频特征进行特征融合,整体融合后的特征就是:F={F1,F2,...,FR},其中R代表记录的总数,记录r融合后的特征就是:
Figure BDA0003301423540000053
其中TF是融合后得到的特征F对应卷积核的大小;dF代表F的特征数;
为了训练过程中充分利用特征的时间序列,对融合后的特征F进行positionalembedding,得到:
Figure BDA0003301423540000054
同时将
Figure BDA0003301423540000055
作为两个crossmodal transformer的输入,使用crossmodal attention将
Figure BDA0003301423540000056
分别和
Figure BDA0003301423540000057
连接得到增强后的特征FA,FV:
Figure BDA0003301423540000058
Figure BDA0003301423540000059
将两个增强后的特征连接起来得到:
Figure BDA00033014235400000510
将其输入到Transformer,即可得到单个视线估计学习器;
其中,步骤S4包括步骤,如图3所示:
根据4个模型在验证集上的准确率,采用加权多数投票法来分配权重:
Figure BDA0003301423540000061
其中,pt,j表示分类器t选择方向j的概率,T表示分类器的个数,即为4,C代表视线落点的方向数,即为3。
针对具有广泛应用的视线估计,现有技术采用单一图片信息或者视频信息进行建模,忽略了音频信息的作用,没有对多模态信息进行交叉感知。或使用简单的信息融合,使得模型混淆了视频信息和音频信息,预测效果非常差。本发明使用高效的LMF-MET框架处理包含头部运动、嘴部运动的视频信息和包含说话内容的音频信息,框架主体是transformer,输入视频和音频的特征后,该模型可以完全利用视频和音频之间的信息,并对多模态信息进行深入的交叉感知;同时,采用集成学习方法,利用多个若监督模型学习每个摄像头收集到的视频信息以及对于录音器收集到的音频信息,再利用软投票机制将个体学习器组合得到更好更全面的LMF-MET模型,使得模型的收敛速度比原始模型快了数倍,视线预测的准确率也增强了很多。因此本方案能够比较好地解决上述问题。
视线估计旨在确定视线方向及落点,其在多个领域如医疗、社交、VR等领域的应用越来越广泛,使得深入研究视线估计以提高其性能变得越来越重要。在发明中,本方案提出了一种新的方案LMF-MET,通过基于视频和语音的多模态信息以提高视线估计的准确度。该框架可以应用在其他用户各类交流信息场景中进行相关预测,如VR中的视线落点预测、自闭症儿童确诊辅助预测、手机屏幕解锁、短视频特效等。同时将集成学习应用到MultimodalTransformer(MulT)模型可以提高模型准确性、鲁棒性。
以上所述实施例仅表示本发明的几种实施方式,其描述较为具体和详细,但并不能理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明保护范围。因此本发明的保护范围应该以所述权利要求为准。

Claims (6)

1.一种基于集成学习的多模态融合视线估计框架,其特征在于,包括如下步骤:
进行特征提取,分别对摄像头下的视频信息和对应音频中的信息进行提取;
采用多模态Transformer进行特征融合,在减少了参数的同时提取了更多的信息;
使用集成学习组合多个个体学习模型,提高预测准确率。
2.根据权利要求1所述的基于集成学习的多模态融合视线估计框架,其特征在于,具体包括如下步骤:
S1:使用开源机器学习库dlib和基于目标检测的预训练模型获得视频中说话者的面部特征;
S2:使用梅尔频率倒谱系数进行语音特征提取;
S3:对多模态信息进行融合,利用Transformer with Low-rank Multimodal Fusion针对群体中的每个个体分别构建学习模型;
S4:使用集成学习将多个个体学习器组合成一个预测准确率更高、鲁棒性更好的强学习器。
3.根据权利要求2所述的基于集成学习的多模态融合视线估计框架,其特征在于,使用开源机器学习库dlib和基于目标检测的预训练模型获得视频中说话者的面部特征的步骤具体如下:
使用dlib和脸部识别框架OpenFace获得视频中包含的初级面部特征
Figure FDA0003301423530000011
其中K代表视频中有K个检测目标,每个目标所得的特征是d维;
针对p处的摄像头捕捉到的视频r,其捕捉到的脸部图像特征就是:
Figure FDA0003301423530000012
脸部偏移特征就是
Figure FDA0003301423530000013
脸部描述特征就是:
Figure FDA0003301423530000021
其中,p表示四个摄像头的位置,故p的取值为1,2,3,4;tk表示视频r的第K个10秒间隔;
为有效防止信息丢失,通过resnet34、2D convolutional layer和max-pooling layer进一步进行特征提取;
对获取到的特征进行维度对齐,得到
Figure FDA0003301423530000022
基于
Figure FDA0003301423530000023
利用OpenFacek计算可得到10s内的脸部偏移量,即:
Figure FDA0003301423530000024
然后再利用机器学习库dlib计算面部描述符
Figure FDA0003301423530000025
得到三个脸部特征向量,分别是:
Figure FDA0003301423530000026
4.根据权利要求3所述的基于集成学习的多模态融合视线估计框架,其特征在于,使用梅尔频率倒谱系数进行语音特征提取的步骤具体如下:
利用MFCC对音频进行数据增强,记作Ar,其维度为32维;
为了学习更多的全局特征,将p位,置即四个摄像头的位置,取值1,2,3,4的特征和其他特征以逆时针的方式连接,即:
Figure FDA0003301423530000027
Figure FDA0003301423530000028
进一步拼接视频特征和音频特征,得到:
Figure FDA0003301423530000029
5.根据权利要求4所述的基于集成学习的多模态融合视线估计框架,其特征在于,对多模态信息进行融合,利用Transformer with Low-rank Multimodal Fusion针对群体中的每个个体分别构建学习模型的步骤具体包括:
使用一维卷积将
Figure FDA0003301423530000031
平铺成
Figure FDA0003301423530000032
其中TF,TA,TV,代表F、A、V卷积核的大小;
使用Low-rank Multimodal Fusion对提取到的视频特征和音频特征进行特征融合;
整体融合后的特征为:F={F1,F2,...,FR},其中R代表记录的总数;
记录r融合后的特征就是:
Figure FDA0003301423530000033
其中TF是融合后得到的特征F对应卷积核的大小;dF代表F的特征数;
为了训练过程中充分利用特征的时间序列,对融合后的特征F进行positionalembedding,得到:
Figure FDA0003301423530000034
同时将
Figure FDA0003301423530000035
作为两个crossmodal transformer的输入,使用crossmodal attention将
Figure FDA0003301423530000036
分别和
Figure FDA0003301423530000037
连接得到增强后的特征FA,FV
Figure FDA0003301423530000038
Figure FDA0003301423530000039
将两个增强后的特征连接起来得到:
Figure FDA0003301423530000041
将其输入到Transformer,即可得到单个视线估计学习器。
6.根据权利要求5所述的基于集成学习的多模态融合视线估计框架,其特征在于,使用集成学习将多个个体学习器组合成一个预测准确率更高、鲁棒性更好的强学习器的步骤具体包括:
根据4个模型在验证集上的准确率,采用加权多数投票法来分配权重:
Figure FDA0003301423530000042
其中,pt,j表示分类器t选择方向j的概率,T表示分类器的个数,即为4,C代表视线落点的方向数,即为3。
CN202111191739.1A 2021-10-13 2021-10-13 基于集成学习的多模态融合视线估计框架 Active CN113986005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111191739.1A CN113986005B (zh) 2021-10-13 2021-10-13 基于集成学习的多模态融合视线估计框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111191739.1A CN113986005B (zh) 2021-10-13 2021-10-13 基于集成学习的多模态融合视线估计框架

Publications (2)

Publication Number Publication Date
CN113986005A true CN113986005A (zh) 2022-01-28
CN113986005B CN113986005B (zh) 2023-07-07

Family

ID=79738423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111191739.1A Active CN113986005B (zh) 2021-10-13 2021-10-13 基于集成学习的多模态融合视线估计框架

Country Status (1)

Country Link
CN (1) CN113986005B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279111A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 情報処理装置、情報処理方法およびプログラム
CN102902505A (zh) * 2011-07-28 2013-01-30 苹果公司 具有增强音频的器件
CA2902090A1 (en) * 2014-08-29 2016-02-29 Enable Training And Consulting, Inc. System and method for integrated learning
CN107256392A (zh) * 2017-06-05 2017-10-17 南京邮电大学 一种联合图像、语音的全面情绪识别方法
JP2018077791A (ja) * 2016-11-11 2018-05-17 日本電信電話株式会社 推定方法及び推定システム
US20190034706A1 (en) * 2010-06-07 2019-01-31 Affectiva, Inc. Facial tracking with classifiers for query evaluation
CN110168531A (zh) * 2016-12-30 2019-08-23 三菱电机株式会社 用于多模态融合模型的方法和系统
CN110795982A (zh) * 2019-07-04 2020-02-14 哈尔滨工业大学(深圳) 一种基于人体姿态分析的表观视线估计方法
CN113269277A (zh) * 2020-07-27 2021-08-17 西北工业大学 基于Transformer编码器和多头多模态注意力的连续维度情感识别方法
CN113408649A (zh) * 2021-07-09 2021-09-17 南京工业大学 基于视频图像面部表情和语音的多模态儿童情绪识别融合模型

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279111A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 情報処理装置、情報処理方法およびプログラム
US20190034706A1 (en) * 2010-06-07 2019-01-31 Affectiva, Inc. Facial tracking with classifiers for query evaluation
CN102902505A (zh) * 2011-07-28 2013-01-30 苹果公司 具有增强音频的器件
CA2902090A1 (en) * 2014-08-29 2016-02-29 Enable Training And Consulting, Inc. System and method for integrated learning
JP2018077791A (ja) * 2016-11-11 2018-05-17 日本電信電話株式会社 推定方法及び推定システム
CN110168531A (zh) * 2016-12-30 2019-08-23 三菱电机株式会社 用于多模态融合模型的方法和系统
CN107256392A (zh) * 2017-06-05 2017-10-17 南京邮电大学 一种联合图像、语音的全面情绪识别方法
CN110795982A (zh) * 2019-07-04 2020-02-14 哈尔滨工业大学(深圳) 一种基于人体姿态分析的表观视线估计方法
CN113269277A (zh) * 2020-07-27 2021-08-17 西北工业大学 基于Transformer编码器和多头多模态注意力的连续维度情感识别方法
CN113408649A (zh) * 2021-07-09 2021-09-17 南京工业大学 基于视频图像面部表情和语音的多模态儿童情绪识别融合模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
管业鹏: "基于多模态视觉特征的自然人机交互", 《电子学报》 *

Also Published As

Publication number Publication date
CN113986005B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
Zhang et al. Speech emotion recognition using deep convolutional neural network and discriminant temporal pyramid matching
Tao et al. End-to-end audiovisual speech recognition system with multitask learning
WO2022161298A1 (zh) 信息生成方法、装置、设备、存储介质及程序产品
Chen Audiovisual speech processing
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
WO2024000867A1 (zh) 情绪识别方法、装置、设备及存储介质
CN113516990B (zh) 一种语音增强方法、训练神经网络的方法以及相关设备
Hassanat Visual speech recognition
CN111259976B (zh) 基于多模态对齐与多向量表征的人格检测方法
Saitoh et al. SSSD: Speech scene database by smart device for visual speech recognition
CN110348409A (zh) 一种基于声纹生成人脸图像的方法和装置
WO2023035969A1 (zh) 语音与图像同步性的衡量方法、模型的训练方法及装置
CN115188074A (zh) 一种互动式体育训练测评方法、装置、系统及计算机设备
CN115512191A (zh) 一种联合问答的图像自然语言描述方法
Pu et al. Review on research progress of machine lip reading
Haq et al. Using lip reading recognition to predict daily Mandarin conversation
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
CN117115312B (zh) 一种语音驱动面部动画方法、装置、设备及介质
CN116522212B (zh) 基于图像文本融合的谎言检测方法、装置、设备及介质
CN116975602A (zh) 一种基于多模态信息双重融合的ar互动情感识别方法和系统
Shrivastava et al. Puzzling out emotions: a deep-learning approach to multimodal sentiment analysis
CN113986005A (zh) 基于集成学习的多模态融合视线估计框架
Saitoh et al. Lip25w: Word-level lip reading web application for smart device
Ivanko et al. A novel task-oriented approach toward automated lip-reading system implementation
CN115472182A (zh) 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant