CN113986005B - 基于集成学习的多模态融合视线估计框架 - Google Patents

基于集成学习的多模态融合视线估计框架 Download PDF

Info

Publication number
CN113986005B
CN113986005B CN202111191739.1A CN202111191739A CN113986005B CN 113986005 B CN113986005 B CN 113986005B CN 202111191739 A CN202111191739 A CN 202111191739A CN 113986005 B CN113986005 B CN 113986005B
Authority
CN
China
Prior art keywords
features
video
learning
fusion
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111191739.1A
Other languages
English (en)
Other versions
CN113986005A (zh
Inventor
黄承浩
黄和金
王虓一
张瑞昌
李金豪
洪峰
王岩
张彦如
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202111191739.1A priority Critical patent/CN113986005B/zh
Publication of CN113986005A publication Critical patent/CN113986005A/zh
Application granted granted Critical
Publication of CN113986005B publication Critical patent/CN113986005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供一种基于集成学习的多模态融合视线估计框架,包括如下步骤:进行特征提取,分别对摄像头下的视频信息和对应音频中的信息进行提取;采用多模态Transformer进行特征融合,在减少了参数的同时提取了更多的信息;使用集成学习组合多个个体学习模型,提高预测准确率。该基于集成学习的多模态融合视线估计框架具有的优点如下:(1)使用更高效的LMF‑MET框架处理视频和语音信息,使得模型可以完全利用视频信息和音频信息,并对多模态信息进行深入的交叉感知。(2)采取集成学习,利用多个个体学习器,将多个个体学习器结合成强的学习器,使得模型对数据的准确度得到了提升,并加快模型学习速度,从而提高视线估计预测效率。

Description

基于集成学习的多模态融合视线估计框架
技术领域
本发明具体涉及一种基于集成学习的多模态融合视线估计框架。
背景技术
目前越来越多的领域开始关注视线估计在VR、自动驾驶、自闭症儿童的检测与诊断等方面的应用。在群体交流中,说话者的面部表情、说话者的顺序、群体中的眼神交流均会吸引他人的视线。然而,传统的几何方法主要是根据眼睛的位置特征,比如眼角、瞳孔位置等关键点,来确定视线落点,虽然准确率高,但是对图片的分辨率也要求很高,而实际应用中高分辨率图片获取的成本很高。利用一个头戴式相机来追踪眼睛关键点位置(虹膜和瞳孔),需要高清摄像头来获取高分辨率图像和大量的红外LED来追踪眼睛关键点,不仅成本高,还会对眼睛造成伤害。如果直接学习一个将眼睛外观映射到视线的模型,这种方法可以弥补上述方法的缺陷,但也带来了新的问题:需要大量的图片来参与训练,并且容易出现过拟合的问题。这些方法都有一个共同特点:只利用了单一的图片信息或者视频信息来预测视线落点,忽略了语言和眼神之间的联系,但是,已经有研究表明,在群体交流中,人们通常注视着说话者,说话者也会轮流注视其他人。目前针对视线估计的研究忽略了视频和音频之间的关系,无法充分利用多模态信息,不能很好的进行视线预测。通过简单的信息融合方式混合处理视频和音频信息,会使得模型混淆视频和音频信息,出现视频信息和音频信息无法匹配的情况,使得模型难以分辨出视频和音频各自的信息,导致预测结果非常差,模型收敛性弱。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于集成学习的多模态融合视线估计框架,该基于集成学习的多模态融合视线估计框架可以很好地解决上述问题。
为达到上述要求,本发明采取的技术方案是:提供一种基于集成学习的多模态融合视线估计框架,该基于集成学习的多模态融合视线估计框架包括如下步骤:进行特征提取,分别对摄像头下的视频信息和对应音频中的信息进行提取;采用多模态Transformer进行特征融合,在减少了参数的同时提取了更多的信息;使用集成学习组合多个个体学习模型,提高预测准确率。
该基于集成学习的多模态融合视线估计框架具有的优点如下:
(1)使用更高效的LMF-MET框架处理视频和语音信息,使得模型可以完全利用视频信息和音频信息,并对多模态信息进行深入的交叉感知。
(2)采取集成学习,利用多个个体学习器,将多个个体学习器结合成强的学习器,使得模型对数据的准确度得到了提升,并加快模型学习速度,从而提高视线估计预测效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示意性地示出了根据本申请一个实施例的基于集成学习的多模态融合视线估计框架中提取特征的流程构示意图。
图2示意性地示出了根据本申请一个实施例的基于集成学习的多模态融合视线估计框架中的单个模型主要学习框架示意图。
图3示意性地示出了根据本申请一个实施例的基于集成学习的多模态融合视线估计框架中的集成学习训练阶段的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。
在以下描述中,对“一个实施例”、“实施例”、“一个示例”、“示例”等等的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、元素或限度,但并非每个实施例或示例都必然包括特定特征、结构、特性、性质、元素或限度。另外,重复使用短语“根据本申请的一个实施例”虽然有可能是指代相同实施例,但并非必然指代相同的实施例。
为简单起见,以下描述中省略了本领域技术人员公知的某些技术特征。根据本申请的一个实施例,提供一种基于集成学习的多模态融合视线估计框架,如图1-3所示,步骤包括:
步骤S1:使用开源机器学习库dlib和基于目标检测的预训练模型获得视频中说话者的面部特征;
步骤S2:使用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)进行语音特征提取;
步骤S3:对多模态信息进行融合,利用Transformer with Low-rank MultimodalFusion针对群体中的每个个体分别构建学习模型;
步骤S4:使用集成学习将多个个体学习器组合成一个预测准确率更高、鲁棒性更好的强学习器Multimedia-based Ensemble Transformer with Low-rank MultimodalFusion(LMF-MET)。
其中,步骤S1包括步骤:
使用dlib和脸部识别框架OpenFace获得视频中包含的初级面部特征
Figure BDA0003301423540000031
其中K代表视频中有K个检测目标,每个目标所得的特征是d维。针对p处的摄像头捕捉到的视频r,其捕捉到的脸部图像特征就是:/>
Figure BDA0003301423540000041
脸部偏移特征就是
Figure BDA0003301423540000042
脸部描述特征就是:/>
Figure BDA0003301423540000043
其中,p表示四个摄像头的位置,故p的取值为1,2,3,4;tk表示视频r的第K个10秒间隔;
为有效防止信息丢失,通过resnet34、2D convolutional layer和max-poolinglayer进一步进行特征提取;
对获取到的特征进行维度对齐,得到
Figure BDA0003301423540000044
基于/>
Figure BDA0003301423540000045
利用OpenFacek计算可得到10s内的脸部偏移量,即:/>
Figure BDA0003301423540000046
然后再利用机器学习库dlib计算面部描述符/>
Figure BDA0003301423540000047
得到三个脸部特征向量,分别是:/>
Figure BDA0003301423540000048
其中,步骤S2包括步骤:
利用MFCC对音频进行数据增强,记作Ar,其维度为32维;
为了学习更多的全局特征,将p位置(四个摄像头的位置,取值1,2,3,4)的特征和其他特征以逆时针的方式连接,即:
Figure BDA0003301423540000049
Figure BDA00033014235400000410
如图1所示,进一步拼接视频特征和音频特征,得到:
Figure BDA00033014235400000411
进一步的是,所示步骤S3包括步骤,如图2所示:
使用一维卷积将
Figure BDA0003301423540000051
平铺成
Figure BDA0003301423540000052
其中TF,TA,TV,代表F、A、V卷积核的大小;
使用Low-rank Multimodal Fusion(LMF)对提取到的视频特征和音频特征进行特征融合,整体融合后的特征就是:F={F1,F2,...,FR},其中R代表记录的总数,记录r融合后的特征就是:
Figure BDA0003301423540000053
其中TF是融合后得到的特征F对应卷积核的大小;dF代表F的特征数;
为了训练过程中充分利用特征的时间序列,对融合后的特征F进行positionalembedding,得到:
Figure BDA0003301423540000054
同时将
Figure BDA0003301423540000055
作为两个crossmodal transformer的输入,使用crossmodal attention将/>
Figure BDA0003301423540000056
分别和/>
Figure BDA0003301423540000057
连接得到增强后的特征FA,FV:
Figure BDA0003301423540000058
Figure BDA0003301423540000059
将两个增强后的特征连接起来得到:
Figure BDA00033014235400000510
将其输入到Transformer,即可得到单个视线估计学习器;
其中,步骤S4包括步骤,如图3所示:
根据4个模型在验证集上的准确率,采用加权多数投票法来分配权重:
Figure BDA0003301423540000061
其中,pt,j表示分类器t选择方向j的概率,T表示分类器的个数,即为4,C代表视线落点的方向数,即为3。
针对具有广泛应用的视线估计,现有技术采用单一图片信息或者视频信息进行建模,忽略了音频信息的作用,没有对多模态信息进行交叉感知。或使用简单的信息融合,使得模型混淆了视频信息和音频信息,预测效果非常差。本发明使用高效的LMF-MET框架处理包含头部运动、嘴部运动的视频信息和包含说话内容的音频信息,框架主体是transformer,输入视频和音频的特征后,该模型可以完全利用视频和音频之间的信息,并对多模态信息进行深入的交叉感知;同时,采用集成学习方法,利用多个若监督模型学习每个摄像头收集到的视频信息以及对于录音器收集到的音频信息,再利用软投票机制将个体学习器组合得到更好更全面的LMF-MET模型,使得模型的收敛速度比原始模型快了数倍,视线预测的准确率也增强了很多。因此本方案能够比较好地解决上述问题。
视线估计旨在确定视线方向及落点,其在多个领域如医疗、社交、VR等领域的应用越来越广泛,使得深入研究视线估计以提高其性能变得越来越重要。在发明中,本方案提出了一种新的方案LMF-MET,通过基于视频和语音的多模态信息以提高视线估计的准确度。该框架可以应用在其他用户各类交流信息场景中进行相关预测,如VR中的视线落点预测、自闭症儿童确诊辅助预测、手机屏幕解锁、短视频特效等。同时将集成学习应用到MultimodalTransformer(MulT)模型可以提高模型准确性、鲁棒性。
以上所述实施例仅表示本发明的几种实施方式,其描述较为具体和详细,但并不能理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明保护范围。因此本发明的保护范围应该以所述权利要求为准。

Claims (2)

1.一种基于集成学习的多模态融合视线估计框架,其特征在于,包括如下步骤:
进行特征提取,分别对摄像头下的视频信息和对应音频中的信息进行提取;
采用多模态Transformer进行特征融合,在减少了参数的同时提取了更多的信息;
使用集成学习组合多个个体学习模型,提高预测准确率;
具体包括如下步骤:
S1:使用开源机器学习库dlib和基于目标检测的预训练模型获得视频中说话者的面部特征;
S2:使用梅尔频率倒谱系数进行语音特征提取;
S3:对多模态信息进行融合,利用Transformer with Low-rank Multimodal Fusion针对群体中的每个个体分别构建学习模型;
S4:使用集成学习将多个个体学习器组合成一个预测准确率更高、鲁棒性更好的强学习器;
使用开源机器学习库dlib和基于目标检测的预训练模型获得视频中说话者的面部特征的步骤具体如下:
使用dlib和脸部识别框架OpenFace获得视频中包含的初级面部特征
Figure FDA0004230972130000011
其中K代表视频中有K个检测目标,每个目标所得的特征是d维;
针对p处的摄像头捕捉到的视频r,其捕捉到的脸部图像特征就是:
Figure FDA0004230972130000012
脸部偏移特征就是/>
Figure FDA0004230972130000013
脸部描述特征就是:
Figure FDA0004230972130000014
其中,p表示四个摄像头的位置,故p的取值为1,2,3,4;tk表示视频r的第K个10秒间隔;
为有效防止信息丢失,通过resnet34、2D convolutional layer和max-pooling layer进一步进行特征提取;
对获取到的特征进行维度对齐,得到
Figure FDA0004230972130000021
基于/>
Figure FDA00042309721300000210
利用OpenFacek计算可得到10s内的脸部偏移量,即:/>
Figure FDA0004230972130000023
然后再利用机器学习库dlib计算面部描述符
Figure FDA0004230972130000024
得到三个脸部特征向量,分别是:
Figure FDA0004230972130000025
使用梅尔频率倒谱系数进行语音特征提取的步骤具体如下:
利用MFCC对音频进行数据增强,记作Ar,其维度为32维;
为了学习更多的全局特征,将p位,置即四个摄像头的位置,取值1,2,3,4的特征和其他特征以逆时针的方式连接,即:
Figure FDA0004230972130000026
Figure FDA0004230972130000027
进一步拼接视频特征和音频特征,得到:
Figure FDA0004230972130000028
对多模态信息进行融合,利用Transformer with Low-rank Multimodal Fusion针对群体中的每个个体分别构建学习模型的步骤具体包括:
使用一维卷积将
Figure FDA0004230972130000029
平铺成
Figure FDA0004230972130000031
其中TF,TA,TV,代表F、A、V卷积核的大小;
使用Low-rank Multimodal Fusion对提取到的视频特征和音频特征进行特征融合;
整体融合后的特征为:F={F1,F2,...,FR},其中R代表记录的总数;
记录r融合后的特征就是:
Figure FDA0004230972130000032
其中TF是融合后得到的特征F对应卷积核的大小;dF代表F的特征数;
为了训练过程中充分利用特征的时间序列,对融合后的特征F进行positionalembedding,得到:
Figure FDA0004230972130000033
同时将
Figure FDA0004230972130000034
作为两个crossmodal transformer的输入,使用crossmodal attention将
Figure FDA0004230972130000035
分别和/>
Figure FDA0004230972130000036
连接得到增强后的特征FA,FV:
Figure FDA0004230972130000037
Figure FDA0004230972130000038
将两个增强后的特征连接起来得到:
Figure FDA0004230972130000039
将其输入到Transformer,即可得到单个视线估计学习器。
2.根据权利要求1所述的基于集成学习的多模态融合视线估计框架,其特征在于,使用集成学习将多个个体学习器组合成一个预测准确率更高、鲁棒性更好的强学习器的步骤具体包括:
根据4个模型在验证集上的准确率,采用加权多数投票法来分配权重
Figure FDA0004230972130000041
其中,pt,j表示分类器t选择方向j的概率,T表示分类器的个数,即为4,C代表视线落点的方向数,即为3。
CN202111191739.1A 2021-10-13 2021-10-13 基于集成学习的多模态融合视线估计框架 Active CN113986005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111191739.1A CN113986005B (zh) 2021-10-13 2021-10-13 基于集成学习的多模态融合视线估计框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111191739.1A CN113986005B (zh) 2021-10-13 2021-10-13 基于集成学习的多模态融合视线估计框架

Publications (2)

Publication Number Publication Date
CN113986005A CN113986005A (zh) 2022-01-28
CN113986005B true CN113986005B (zh) 2023-07-07

Family

ID=79738423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111191739.1A Active CN113986005B (zh) 2021-10-13 2021-10-13 基于集成学习的多模态融合视线估计框架

Country Status (1)

Country Link
CN (1) CN113986005B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279111A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 情報処理装置、情報処理方法およびプログラム
CN102902505A (zh) * 2011-07-28 2013-01-30 苹果公司 具有增强音频的器件
CA2902090A1 (en) * 2014-08-29 2016-02-29 Enable Training And Consulting, Inc. System and method for integrated learning
CN107256392A (zh) * 2017-06-05 2017-10-17 南京邮电大学 一种联合图像、语音的全面情绪识别方法
JP2018077791A (ja) * 2016-11-11 2018-05-17 日本電信電話株式会社 推定方法及び推定システム
CN110168531A (zh) * 2016-12-30 2019-08-23 三菱电机株式会社 用于多模态融合模型的方法和系统
CN110795982A (zh) * 2019-07-04 2020-02-14 哈尔滨工业大学(深圳) 一种基于人体姿态分析的表观视线估计方法
CN113269277A (zh) * 2020-07-27 2021-08-17 西北工业大学 基于Transformer编码器和多头多模态注意力的连续维度情感识别方法
CN113408649A (zh) * 2021-07-09 2021-09-17 南京工业大学 基于视频图像面部表情和语音的多模态儿童情绪识别融合模型

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034706A1 (en) * 2010-06-07 2019-01-31 Affectiva, Inc. Facial tracking with classifiers for query evaluation

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279111A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 情報処理装置、情報処理方法およびプログラム
CN102902505A (zh) * 2011-07-28 2013-01-30 苹果公司 具有增强音频的器件
CA2902090A1 (en) * 2014-08-29 2016-02-29 Enable Training And Consulting, Inc. System and method for integrated learning
JP2018077791A (ja) * 2016-11-11 2018-05-17 日本電信電話株式会社 推定方法及び推定システム
CN110168531A (zh) * 2016-12-30 2019-08-23 三菱电机株式会社 用于多模态融合模型的方法和系统
CN107256392A (zh) * 2017-06-05 2017-10-17 南京邮电大学 一种联合图像、语音的全面情绪识别方法
CN110795982A (zh) * 2019-07-04 2020-02-14 哈尔滨工业大学(深圳) 一种基于人体姿态分析的表观视线估计方法
CN113269277A (zh) * 2020-07-27 2021-08-17 西北工业大学 基于Transformer编码器和多头多模态注意力的连续维度情感识别方法
CN113408649A (zh) * 2021-07-09 2021-09-17 南京工业大学 基于视频图像面部表情和语音的多模态儿童情绪识别融合模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多模态视觉特征的自然人机交互;管业鹏;《电子学报》(第11期);113-119 *

Also Published As

Publication number Publication date
CN113986005A (zh) 2022-01-28

Similar Documents

Publication Publication Date Title
Tao et al. End-to-end audiovisual speech recognition system with multitask learning
JP6351689B2 (ja) 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
EP3665676B1 (en) Speaking classification using audio-visual data
CN112559698B (zh) 基于多模态融合模型的提高视频问答精度方法及系统
WO2022161298A1 (zh) 信息生成方法、装置、设备、存储介质及程序产品
Kim et al. Lexicon-free fingerspelling recognition from video: Data, models, and signer adaptation
CN113835522A (zh) 手语视频生成、翻译、客服方法、设备和可读介质
Geng et al. Learning deep spatiotemporal feature for engagement recognition of online courses
CN114120432A (zh) 基于视线估计的在线学习注意力跟踪方法及其应用
Saitoh et al. SSSD: Speech scene database by smart device for visual speech recognition
Wang et al. Baidu-uts submission to the epic-kitchens action recognition challenge 2019
CN113705349A (zh) 一种基于视线估计神经网络的注意力量化分析方法及系统
CN115129934A (zh) 一种多模态视频理解方法
CN115512191A (zh) 一种联合问答的图像自然语言描述方法
CN114519880A (zh) 基于跨模态自监督学习的主动说话人识别方法
Kaushik et al. Deployment and layout of deep learning-based smart eyewear applications platform for vision disabled individuals
Docío-Fernández et al. Lse_uvigo: A multi-source database for Spanish sign language recognition
CN115188074A (zh) 一种互动式体育训练测评方法、装置、系统及计算机设备
Pu et al. Review on research progress of machine lip reading
CN116522212B (zh) 基于图像文本融合的谎言检测方法、装置、设备及介质
CN116310975B (zh) 一种基于一致片段选择的视听事件定位方法
CN113986005B (zh) 基于集成学习的多模态融合视线估计框架
CN113409770A (zh) 发音特征处理方法、装置、服务器及介质
CN116312512A (zh) 面向多人场景的视听融合唤醒词识别方法及装置
CN116721449A (zh) 视频识别模型的训练方法、视频识别方法、装置以及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant