CN116978122A - 基于跨模态上下文序列转导的连续手语识别方法和装置 - Google Patents

基于跨模态上下文序列转导的连续手语识别方法和装置 Download PDF

Info

Publication number
CN116978122A
CN116978122A CN202310924979.0A CN202310924979A CN116978122A CN 116978122 A CN116978122 A CN 116978122A CN 202310924979 A CN202310924979 A CN 202310924979A CN 116978122 A CN116978122 A CN 116978122A
Authority
CN
China
Prior art keywords
sign language
gloss
video
language
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310924979.0A
Other languages
English (en)
Inventor
张怀文
郭子航
高嘉怿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University
Original Assignee
Inner Mongolia University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University filed Critical Inner Mongolia University
Priority to CN202310924979.0A priority Critical patent/CN116978122A/zh
Publication of CN116978122A publication Critical patent/CN116978122A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于跨模态上下文序列转导的连续手语识别方法和装置,该方法包括:获取待识别的手语视频;将手语视频输入至手语识别模型中,得到手语视频对应的Gloss语言序列;手语识别模型是基于Gloss语言特征与手语视频特征的融合特征训练得到的。本发明的方法将Gloss语言序列先验知识融合到视觉表示中,从而实现更好的手语语义建模,也就使得训练后的手语识别模型可以基于手语视频特征,可以更加准确高效地进行手语的识别,提升了手语识别的准确性。

Description

基于跨模态上下文序列转导的连续手语识别方法和装置
技术领域
本发明涉及计算机视觉和自然语言处理交叉技术领域,尤其涉及一种基于跨模态上下文序列转导的连续手语识别方法和装置。
背景技术
手语是利用手/手臂位置和身体姿势等信号来帮助全球听力障碍患者进行沟通交流,手语不仅为聋哑人士和听力障碍者提供了一种有效的沟通工具,使得他们能够交流和表达自己的想法和情感,手语还可以作为聋哑人士的基础教育,使他们能够获取知识、交流和参与社交活动。总的来说,手语是提高聋哑人士和听力障碍者的生活质量不可或缺的工具。
相关技术中,为了方便聋哑人士与正常人之间的交流,人们提出连续手语识别任务,旨在通过输入手语视频,将其识别为对应的Gloss(手语中的最小语义单元)语言序列。因此,如何准确地识别手语视频对应的Gloss语言序列是本领域技术人员亟须解决的技术问题。
发明内容
针对现有技术中的问题,本发明实施例提供一种基于跨模态上下文序列转导的连续手语识别方法和装置。
具体地,本发明实施例提供了以下技术方案:
第一方面,本发明实施例提供了一种基于跨模态上下文序列转导的连续手语识别方法,包括:
获取待识别的手语视频;
将手语视频输入至手语识别模型中,得到手语视频对应的Gloss语言序列;手语识别模型是基于Gloss语言特征与手语视频特征的融合特征训练得到的。
进一步地,手语识别模型,包括以下至少一项:
手语视频局部时序特征提取模块;手语视频局部时序特征提取模块用于将待识别的手语视频对应的视频帧中相邻N帧的语义进行聚合,生成多个手语视频局部时序特征;
手语视频全局时序特征提取模块;手语视频全局时序特征提取模块用于根据多个手语视频局部时序特征,得到手语视频全局时序特征;手语视频全局时序特征包括手语视频局部时序特征之间的时序关系;
Gloss语言特征提取模块;Gloss语言特征提取模块用于提取Gloss语言特征;Gloss语言特征包括Gloss文本的上下文特征信息;
Gloss语言特征与手语视频特征融合模块;Gloss语言特征与手语视频特征融合模块用于将第S个手语视频全局时序特征和/或手语视频局部时序特征与第1个至第S-1个Gloss语言特征进行融合,得到第S个融合特征;S为大于1的正整数;
解码模块;解码模块用于根据第1个至第S个融合特征,得到待识别的手语视频对应的Gloss语言序列。
进一步地,解码模块用于:
根据第1个至第S个融合特征,得到融合特征在所有对齐路径中概率最大的对齐路径所对应的Gloss语言序列;将Gloss语言序列作为待识别的手语视频对应的Gloss语言序列;对齐路径为基于动态规划算法所规划的融合特征至各个候选Gloss语言序列的对齐路径。
进一步地,Gloss语言特征与手语视频特征融合模块用于利用如下公式确定第S个Gloss语言特征与手语视频特征的融合特征:
其中,表示第S个融合特征;ls表示第S个手语视频全局时序特征或第S个手语视频局部时序特征;/>表示第1个至第S-1个Gloss语言特征。
进一步地,手语识别模型是基于如下方式进行训练的:
将手语视频样本输入手语视频局部时序特征提取模块,得到手语视频样本对应的手语视频局部时序特征;
将手语视频样本输入手语视频全局时序特征提取模块,得到手语视频样本对应的手语视频全局时序特征;
将数据集样本中手语视频的标注信息输入至Gloss语言特征提取层,得到Gloss语言特征;
将Gloss语言特征分别与手语视频样本对应的手语视频局部时序特征和手语视频全局时序特征进行融合,得到目标融合特征;
通过动态规划算法规划目标融合特征至各个候选Gloss语言序列的对齐路径;确定目标融合特征至各个候选Gloss语言序列的对齐路径的概率之和;
基于目标损失函数对手语识别模型训练,使得目标融合特征至各个候选Gloss语言序列的对齐路径的概率之和达到预设条件。
进一步地,目标损失函数基于如下公式确定:
其中,表示目标损失函数;p(Z∣J)表示目标融合特征J转导为对齐路径Z的条件依赖概率;STC(Z,Y)表示真实标注与对齐路径之间的编辑距离。
进一步地,利用如下公式确定目标融合特征J识别为Gloss序列Z的条件依赖的概率:
其中,p(Z∣J)表示目标融合特征J转导为对齐路径Z的条件依赖概率;J表示目标融合特征;P(Zs∣Z<s,J)表示根据目标融合特征J和第1个至第S-1个Gloss得到对齐路径Z中第S个Gloss的概率。
第二方面,本发明实施例还提供了一种基于跨模态上下文序列转导的连续手语识别装置,包括:
获取模块,用于获取待识别的手语视频;
识别模块,用于将手语视频输入至手语识别模型中,得到手语视频对应的Gloss语言序列;手语识别模型是基于Gloss语言特征与手语视频特征的融合特征训练得到的。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述基于跨模态上下文序列转导的连续手语识别方法。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述基于跨模态上下文序列转导的连续手语识别方法。
第五方面,本发明实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述基于跨模态上下文序列转导的连续手语识别方法。
本发明实施例提供的基于跨模态上下文序列转导的连续手语识别方法和装置,将Gloss语言序列先验知识融合到视觉表示中,从而实现更好的手语语义建模,也就使得训练后的手语识别模型可以基于手语视频特征,可以更加准确高效地进行手语的识别,提升了手语识别的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单的介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于跨模态上下文序列转导的连续手语识别方法的流程示意图之一;
图2是本发明实施例提供的基于跨模态上下文序列转导的连续手语识别方法的流程示意图之二;
图3是本发明实施例提供的基于跨模态上下文序列转导的连续手语识别方法的流程示意图之三;
图4是本发明实施例提供的基于跨模态上下文序列转导的连续手语识别方法的流程示意图之四;
图5是本发明实施例提供的基于跨模态上下文序列转导的连续手语识别方法的流程示意图之五;
图6是本发明实施例提供的基于跨模态上下文序列转导的连续手语识别方法的识别结果示意图;
图7是本发明实施例提供的基于跨模态上下文序列转导的连续手语识别装置的结构示意图;
图8是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的方法可以应用于手语识别的场景中,实现准确高效地进行手语的识别。
相关技术中,为了方便聋哑人士与正常人之间的交流,人们提出连续手语识别任务,旨在通过输入手语视频,将其识别为对应的Gloss(手语中的最小语义单元)语言序列。
本发明实施例的基于跨模态上下文序列转导的连续手语识别方法,将Gloss语言序列先验知识融合到视觉表示中,从而实现更好的手语语义建模,也就使得训练后的手语识别模型可以基于手语视频特征,可以更加准确高效的进行手语的识别,提升了手语识别的准确性。
下面结合图1-图8以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1是本发明实施例提供的基于跨模态上下文序列转导的连续手语识别方法一实施例的流程示意图。如图1所示,本实施例提供的方法,包括:
步骤101、获取待识别的手语视频;
具体地,为了准确高效地将手语视频识别为对应的Gloss语言序列,本发明实施例中首先获取待识别的手语视频。
步骤102、将手语视频输入至手语识别模型中,得到手语视频对应的Gloss语言序列;手语识别模型是基于Gloss语言特征与手语视频特征的融合特征训练得到的。
具体地,本发明实施中通过将待识别的手语视频输入至手语识别模型中,通过手语识别模型将待识别的手语视频转换为对应的Gloss语言序列,从而使得视听正常的人员根据转换后的Gloss语言序列也就可以有效地理解手语的含义,也就可以更好地实现和聋哑人士的交流和沟通。可选的,本发明实施例中手语识别模型是基于Gloss语言特征与手语视频特征的融合特征训练得到的,也就是本申请实施例中的手语识别模型在训练的过程中基于Gloss语言特征与手语视频特征融合后的融合特征进行手语识别模型的训练,其中,Gloss语言特征为Gloss语言序列向量化表示提取特征得到的,Gloss语言特征包括Gloss文本的上下文特征信息;也就是本申请的手语识别模型中将Gloss语言序列先验知识融合到视觉表示中,从而实现更好的手语语义建模,也就使得训练后的手语识别模型可以基于手语视频特征,更加准确高效地进行手语的识别,提升了手语识别的准确性。
在一实施例中,手语识别模型,包括以下至少一项:
手语视频局部时序特征提取模块;手语视频局部时序特征提取模块用于将待识别的手语视频对应的视频帧中相邻N帧的语义进行聚合,生成多个手语视频局部时序特征;
手语视频全局时序特征提取模块;手语视频全局时序特征提取模块用于根据多个手语视频局部时序特征,得到手语视频全局时序特征;手语视频全局时序特征包括手语视频局部时序特征之间的时序关系;
Gloss语言特征提取模块;Gloss语言特征提取模块用于提取Gloss语言特征;Gloss语言特征包括Gloss文本的上下文特征信息;
Gloss语言特征与手语视频特征融合模块;Gloss语言特征与手语视频特征融合模块用于将第S个手语视频全局时序特征和/或手语视频局部时序特征与第1个至第S-1个Gloss语言特征进行融合,得到第S个融合特征;S为大于1的正整数;
解码模块;解码模块用于根据第1个至第S个融合特征,得到待识别的手语视频对应的Gloss语言序列。
具体地,本申请实施例中的手语识别模型包括手语视频局部时序特征提取模块、手语视频全局时序特征提取模块、Gloss语言特征提取模块、Gloss语言特征与手语视频特征融合模块和解码模块。
其中,手语视频局部时序特征提取模块用于将手语视频中相邻N帧的语义进行聚合,生成多个手语视频局部时序特征;可选地,手语视频局部时序特征提取模块的输入为一段手语视频,首先将这段手语视频送入现有的视觉空间感知模块,以获得原始视频的空间特征作为手语视频的空间语义建模表示;之后将提取到的空间特征输入手语视频局部时序特征提取模块,以获取近距离的时序语义建模表示。可选地,手语视频局部时序特征提取模块为二维卷积层和时序上升池化层重复堆叠而成的一维时间卷积网络(1D-TCN),在时间轴上进行卷积和池化操作后,视频帧被聚合为S个块级特征,也就是被聚合为S个局部时序特征。例如,通过设定窗口大小,从时间维度上将手语视频中的N帧进行聚合,也就是通过把相邻N帧的语义聚合起来,从而基于局部时序特征中的相邻N帧的先验知识也就使得手语识别结果更加的准确。
手语视频全局时序特征提取模块用于根据多个手语视频局部时序特征,得到手语视频全局时序特征;手语视频全局时序特征包括手语视频局部时序特征之间的全局时序关系。可选地,可以将提取到的S个局部时序特征输入手语视频全局时序特征提取模块以获取S个全局时序特征,从而获取远距离的时序语义建模表示;可选地,手语视频全局时序特征提取模块基于双向长短时记忆网络(Bi-LSTM)构建,通过两层BiLSTM对全局信息进行利用,从而将局部时序特征变换为全局时序特征。例如,根据S个局部时序特征得到S个全局时序特征后,全局时序特征中包括S个局部时序特征前后的时序关系,从而基于局部时序特征中的相邻帧的先验知识和局部时序特征前后的时序关系,也就使得手语识别结果更加的准确。
Gloss语言特征提取层用于提取Gloss语言特征;Gloss语言特征包括Gloss语言的上下文特征信息;可选地,Gloss语言特征用于提取Gloss语言特征及上下文信息,进而也就可以根据第N个Gloss语言特征及上下文信息,以及第N+1个视频特征,更加准确高效的进行手语的识别,提升手语识别的准确性。
可选地,Gloss语言特征提取层由通用语料上预先训练的变换器(Transformer)模型和一个适配器层构成,来获取Gloss语言序列的上下文信息。Gloss语言特征提取层首先在语料库上进行预训练,然后与连续手语识别模型结合,使用手语识别相关损失函数一同在连续手语识别数据集中进行训练。由于文本和视频特征需要在高维度向量空间需要对齐,因此Gloss语言特征提取模块中的适配器主要用于将语言特征维度适配于视频模态。至此,原始Gloss语言序列已被处理为Gloss特征向量,Gloss特征向量包括Gloss文本的上下文特征信息。
Gloss语言特征与手语视频特征融合模块用于将第S个手语视频全局时序特征和/或手语视频局部时序特征与第1个至第S-1个Gloss语言特征进行融合,得到第S个融合特征;也就是将手语Gloss语言的先验知识(上下文特征信息)融入到视频特征,得到语言特征和视频特征的融合特征。本申请实施例的手语识别模型中将Gloss语言序列先验知识融合到视觉表示中,从而实现更好的手语语义建模,也就使得训练后的手语识别模型可以基于手语视频特征,更加准确高效地进行手语的识别,提升手语识别的准确性。
解码模块用于根据第1个至第S个融合特征,得到待识别的手语视频对应的Gloss语言序列,从而实现了更加高效准确地进行手语的识别。
上述实施例的方法,通过手语识别模型中的手语视频局部时序特征提取模块将手语视频中的相邻N帧的语义聚合起来,使得时序局部特征中含有相邻帧的语义信息,从而达到局部的时序建模的效果,并考虑到了相邻帧的先验知识,从而基于局部时序特征中的相邻帧的先验知识也就使得手语识别结果更加的准确;通过手语视频全局时序特征提取模块将局部时序特征转换为全局时序特征后,也就可以得到局部时序特征前后的时序关系,从而基于局部时序特征中的相邻帧的先验知识和局部时序特征前后的时序关系,也就使得手语识别结果更加的准确;通过Gloss语言特征提取层提取Gloss语言特征,其中Gloss语言特征中包括先验信息(上下文特征信息),进而也就可以基于Gloss语言特征和手语视频特征的融合特征,更加准确高效地进行手语的识别,提升手语识别的准确性;通过解码模块解码Gloss语言特征、手语视频特征的融合特征,也就可以更加高效准确进行手语的识别,达到将手语视频转换为Gloss语言序列的效果。
在一实施例中,解码模块用于:
根据第1个至第S个融合特征,得到融合特征在所有对齐路径中概率最大的对齐路径所对应的Gloss语言序列;将Gloss语言序列作为待识别的手语视频对应的Gloss语言序列;对齐路径为基于动态规划算法所规划的融合特征至各个候选Gloss语言序列的对齐路径。
具体地,本发明实施例中通过动态规划算法规划融合特征至各个候选Gloss语言序列的对齐路径。并将融合特征在所有对齐路径中概率最大的对齐路径所对应的Gloss语言序列作为识别出的手语视频对应的Gloss语言序列,从而也就实现了从所有对齐路径中选择出与手语视频最匹配的Gloss语言序列,实现了手语视频至Gloss语言序列的准确识别和准换。
可选地,利用如下公式确定将目标融合特征J转导为对齐路径Z的条件依赖概率:
其中,p(Z∣J)表示目标融合特征J转导为对齐路径Z的条件依赖概率;J表示目标融合特征;P(Zs∣Z<s,J)表示根据目标融合特征J和第1个至第S-1个Gloss得到对齐路径Z中第S个Gloss的概率。
在一实施例中,Gloss语言特征与手语视频特征融合模块用于利用如下公式确定第S个Gloss语言特征与手语视频特征的融合特征:
其中,表示第S个融合特征;ls表示第S个手语视频全局时序特征或第S个手语视频局部时序特征;/>表示第1个至第S-1个Gloss语言特征。
具体地,本发明实施例中,利用如下公式确定第S个Gloss语言特征与手语视频特征的融合特征:
其中,表示第S个融合特征;ls表示第S个手语视频全局时序特征或第S个手语视频局部时序特征;/>表示第1个至第S-1个Gloss语言特征。
也就是如图2所示,Gloss语言特征与手语视频特征融合层将第S个手语视频全局时序特征和/或手语视频局部时序特征与第1个至第S-1个Gloss语言特征进行融合,得到第S个融合特征;即将手语Gloss语言序列的先验知识(上下文特征信息)融入到视频特征,得到语言特征和视频特征的融合特征,从而实现将Gloss语言序列先验知识融合到视觉表示中,实现更好的手语语义建模,使得融合特征中所包含的信息更加的丰富和全面,也就使得训练后的手语识别模型可以基于Gloss语言特征、手语视频特征的融合特征以及Gloss语言序列先验知识得到的融合特征,可以更加准确高效地进行手语的识别,提升手语识别的准确性。
在一实施例中,手语识别模型是基于如下方式进行训练的:
将手语视频样本对应的视频帧特征输入手语视频局部时序特征提取模块,得到手语视频样本对应的手语视频局部时序特征;
将手语视频局部时序特征输入手语视频全局时序特征提取模块,得到手语视频样本对应的手语视频全局时序特征;
将数据集样本中手语视频的标注信息输入至Gloss语言特征提取层,得到Gloss语言特征;
将Gloss语言特征分别与手语视频样本对应的手语视频局部时序特征和手语视频全局时序特征进行融合,得到目标融合特征;
通过动态规划算法规划目标融合特征至各个候选Gloss语言序列的对齐路径;
确定目标融合特征至各个候选Gloss语言序列的对齐路径的概率之和;
基于目标损失函数对手语识别模型训练,使得目标融合特征至各个候选Gloss语言序列的对齐路径的概率之和达到预设条件。
具体地,本发明实施例在手语识别模型的训练过程中,首先将手语视频样本对应的视频帧特征输入手语视频局部时序特征提取模块,得到手语视频样本对应的手语视频局部时序特征;将手语视频样本输入手语视频全局时序特征提取模块,得到手语视频样本对应的手语视频全局时序特征。
进一步地,根据当前的第S步的视频局部时序特征、手语视频全局时序特征和S步之前所有的语言特征及上下文关系,得到当前第S步的融合特征。
例如,对于拥有s步的局部特征第一步首先初始化一个空标签/>送入Gloss语言特征提取层得到语言特征/>之后将/>和l0送入Gloss语言特征与手语视频特征融合层得到/>及y1,之后构造{y0,y1}序列,送入Gloss语言特征提取层得到/>以此类推,对于第s步,通过循环将gloss序列/>以获得当前s前gloss序列表示/>然后将视频特征和语言特征融合如下:
其中ls是由手语视频局部时序特征提取模块抽取的局部视频特征,是时间步长s的块级跨模态上下文特征(融合特征),通过专门设计的注意力模块得到。也就是将第S个局部特征和之前所有的语言特征融合之后,得到的第S个融合特征。
最后当前步的可以通过经由一个分类器计算出概率分布后通过一个softmax层计算:
其中是块级融合特征经由softmax后的概率输出所得到的具体标签,F为分类器,然后/>为下一个时间进一步s+1做好准备。进入最终步骤后我们得到了块级跨模态上下文特征/>视频级跨模态上下文特征Jυ可以类似地获得。在这里我们分别将块级和视频级的融合特征送入共享权重的分类器,即块级和视频级特征共同使用F作为分类器,以获得更好的融合效果。至此,视频特征和语言特征通过循环融合得到了融合特征。
然后,如图3所示,通过动态规划算法规划目标融合特征至各个候选Gloss语言序列的对齐路径,并确定目标融合特征至各个候选Gloss语言序列的对齐路径的概率之和;
可选地,可以利用如下公式确定目标融合特征J识别为Gloss序列Z的条件依赖的概率:
其中,p(Z∣J)表示目标融合特征J转导为对齐路径Z的条件依赖概率;J表示目标融合特征;P(Zs∣Z<s,J)表示根据目标融合特征J和第1个至第S-1个Gloss得到对齐路径Z中第S个Gloss的概率。
进一步地,基于目标损失函数对手语识别模型训练,使得目标融合特征至各个候选Gloss语言序列的对齐路径的概率之和达到预设条件;可选地,在目标融合特征至各个候选Gloss语言序列的对齐路径的概率之和保持稳定的情况下,则认为手语识别模型已经训练完成,并且通过手语识别模型基于融合特征可以从所有对齐路径中选择出与手语视频最匹配的Gloss语言序列,从而实现手语视频至Gloss语言序列的准确识别和转换。
在一实施例中,目标损失函数基于如下公式确定:
其中,表示目标损失函数;p(Z∣J)表示目标融合特征J转导为对齐路径Z的条件依赖概率;STC(Z,Y)表示真实标注与对齐路径之间的编辑距离。
具体地,本发明实施例在手语识别模型的训练过程中,如图3所示,基于动态规划算法规划融合特征至各个候选Gloss语言序列的对齐路径,此时针对融合特征和目标的Gloss语言序列,建模出所有可能的对齐路径中Z的概率,其意义为融合特征与gloss序列的映射关系;可选地,对齐路径相比较gloss序列可能会存在重复单词以及空白符。此外,它不对标签预测做出条件独立假设。我们在步骤s之前使用预测的Gloss,即z<s代表的映射Gloss语言序列作为循环模型的附加输入来预测步骤s的Gloss,也就是根据目标融合特征J和第1个至第S-1个Gloss语言特征得到第S个Gloss语言特征Zs的概率:
给定特征序列J=(j1,j2,…,js)和gloss序列Y=(y1,y2,…,yT),每个可能的对齐路径Z从初始步骤s=1开始,此时t=0并且到步骤s=S+1,t=T结束,我们将前向变量αs(t)定义为到步骤s输出(y1,y2,…,yt)的概率,后向变量βs(t)作为从步骤s开始输出的概率。前向和后向变量可以递归计算如下:
其中p(yt+1∣s,t)是归一化指数函数(softmax)层使用节点(s,t)处的网络状态计算出yt+1的概率,在含义上等价于 是空白的概率/>因此,目标gloss序列Y的概率可以通过对所有可能路径求和来计算,即β0(0)。整个模型可以通过最小化负对数似然来求解:
为了使得手语识别模型可以更加准确的识别出对应的Gloss语言序列,本发发明实施例中基于如下损失函数进行模型的训练:
其中,表示目标损失函数;p(Z∣J)表示目标融合特征J转导为对齐路径Z的条件依赖概率;STC(Z,Y)表示真实标注与对齐路径之间的编辑距离。
也就是通过对所有可能的比对路径求和来优化真实Gloss语言序列Y的概率,从而避免了训练过程中只关注从训练期间学习的路径分支出来的具有最大可能性的gloss序列,而忽略所有其他可能的序列。本申请实施例中通过更加关注模型预测的具有较小序列级误差的潜在序列,使用编辑距离对求解的最大可能对齐路径的概率进行约束,通过对所求概率除以编辑距离进而缓解曝光偏差,从而使得训练出的手语识别模型可以更加准确的进行手语的识别。
示例性的,手语识别模型的训练流程如图4和图5所示:
首先,基于时序上升池化层的手语视频局部时序特征提取模块,通过接受抽取出的视频帧级特征作为输入,使用时序上升池化层,以固定窗口,对视频帧级特征进行聚合,输出局部时序特征。
然后,基于双向长短时记忆模型的手语视频全局时序特征提取模块,将获得的局部时序特征作为输入,使用双向长短时记忆网络,使得每个局部特征可以获取整个序列的信息,输出全局特征;
接着,基于Gloss语言特征提取层执行以下步骤:将Gloss序列作为输入,使用在手语数据集上预训练过的语言模型将其转化为特征;将语言特征送入适配器层以进一步使语言特征适应持续手语识别模型;
然后,继续基于Gloss语言特征与手语视频特征融合层执行以下步骤:将局部特征与Gloss语言特征使用注意力机制进行循环融合以获得块级跨模态上下文特征;将全局特征与语言特征使用注意力机制进行循环融合以获得视频级跨模态上下文特征;将块级跨模态上下文特征和视频级跨模态上下文特征送入一组享权重的分类器得到类别概率分布;使用相对熵(Kullback-Leibler divergence)损失函数使两个分类器输出的类别概率尽可能接近。也就是基于Gloss语言特征与手语视频特征融合模块,使用循环的方式对文本和视频模态特征进行融合,将Gloss语言序列的语义信息嵌入到视频中,以提高手语识别的准确度。
最后,基于损失函数进行模型训练,包含以下步骤:使用一个动态转移方程计算出当前所有可能的Gloss和视频帧对齐路径。转移方程受到步骤和时序的约束,使转移方程当前步可以关注到上下文的信息。将所有的对齐路径通过一个最小化负对数似然计算,计算出最大可能的对齐路径概率。通过使用编辑距离对求解的最大可能对齐路径的概率进行约束,对所求概率除以编辑距离进而缓解曝光偏差。
为了评估本发明实施例中的手语视频识别结果的准确性,将本发明的测试结果和现有的连续手语识别方法对比,基于跨模态序列转导的连续手语识别方法优于其他方法并达到了最好的性能。如图6所示,在手语识别数据集Phoenix-2014的验证集和测试集上进行测试,结果显示我们的方法超过了现有的最好的方法2.5%和1.5%。在Phoenix-2014-T中,我们在验证集上实现了3.0%的改进在测试集中为1.8%。在CSL-Daily数据集中的验证集中获得了5.2%的提升,在测试集中获得了4.9%的提升。
下面对本发明提供的基于跨模态上下文序列转导的连续手语识别装置进行描述,下文描述的基于跨模态上下文序列转导的连续手语识别装置与上文描述的基于跨模态上下文序列转导的连续手语识别方法可相互对应参照。
图7是本发明提供的基于跨模态上下文序列转导的连续手语识别装置的结构示意图。本实施例提供的基于跨模态上下文序列转导的连续手语识别装置,包括:
获取模块710,用于获取待识别的手语视频;
识别模块720,用于将手语视频输入至手语识别模型中,得到手语视频对应的Gloss语言序列;手语识别模型是基于Gloss语言特征与手语视频特征的融合特征训练得到的。
可选的,手语识别模型,包括以下至少一项:
手语视频局部时序特征提取模块;手语视频局部时序特征提取模块用于将待识别的手语视频对应的视频帧中相邻N帧的语义进行聚合,生成多个手语视频局部时序特征;
手语视频全局时序特征提取模块;手语视频全局时序特征提取模块用于根据多个手语视频局部时序特征,得到手语视频全局时序特征;手语视频全局时序特征包括手语视频局部时序特征之间的时序关系;
Gloss语言特征提取模块;Gloss语言特征提取模块用于提取Gloss语言特征;Gloss语言特征包括Gloss文本的上下文特征信息;
Gloss语言特征与手语视频特征融合模块;Gloss语言特征与手语视频特征融合模块用于将第S个手语视频全局时序特征和/或手语视频局部时序特征与第1个至第S-1个Gloss语言特征进行融合,得到第S个融合特征;S为大于1的正整数;
解码模块;解码模块用于根据第1个至第S个融合特征,得到待识别的手语视频对应的Gloss语言序列。
可选的,解码模块用于:
根据第1个至第S个融合特征,得到融合特征在所有对齐路径中概率最大的对齐路径所对应的Gloss语言序列;将Gloss语言序列作为待识别的手语视频对应的Gloss语言序列;对齐路径为基于动态规划算法所规划的融合特征至各个候选Gloss语言序列的对齐路径。
可选地,Gloss语言特征与手语视频特征融合模块用于利用如下公式确定第S个Gloss语言特征与手语视频特征的融合特征:
其中,表示第S个融合特征;ls表示第S个手语视频全局时序特征或第S个手语视频局部时序特征;/>表示第1个至第S-1个Gloss语言特征。
可选的,手语识别模型是基于如下方式进行训练的:
将手语视频样本输入手语视频局部时序特征提取模块,得到手语视频样本对应的手语视频局部时序特征;
将手语视频样本输入手语视频全局时序特征提取模块,得到手语视频样本对应的手语视频全局时序特征;
将数据集样本中手语视频的标注信息输入至Gloss语言特征提取层,得到Gloss语言特征;
将Gloss语言特征分别与手语视频样本对应的手语视频局部时序特征和手语视频全局时序特征进行融合,得到目标融合特征;
通过动态规划算法规划目标融合特征至各个候选Gloss语言序列的对齐路径;确定目标融合特征至各个候选Gloss语言序列的对齐路径的概率之和;
基于目标损失函数对手语识别模型训练,使得目标融合特征至各个候选Gloss语言序列的对齐路径的概率之和达到预设条件。
可选地,目标损失函数基于如下公式确定:
其中,表示目标损失函数;p(Z∣J)表示目标融合特征J转导为对齐路径Z的条件依赖概率;STC(Z,Y)表示真实标注与对齐路径之间的编辑距离。
可选地,利用如下公式确定目标融合特征J转导为对齐路径Z的条件依赖概率:
其中,其中,p(Z∣J)表示目标融合特征J转导为对齐路径Z的条件依赖概率;J表示目标融合特征;P(Zs∣Z<s,J)表示根据目标融合特征J和第1个至第S-1个Gloss得到对齐路径Z中第S个Gloss的概率。
本发明实施例的装置,其用于执行前述任一方法实施例中的方法,其实现原理和技术效果类似,此次不再赘述。
图8示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理((processor)810、通信接((Communications Interface)820、存储((memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行基于跨模态上下文序列转导的连续手语识别方法,该方法包括:获取待识别的手语视频;将手语视频输入至手语识别模型中,得到手语视频对应的Gloss语言序列;手语识别模型是基于Gloss语言特征与手语视频特征的融合特征训练得到的。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于跨模态上下文序列转导的连续手语识别方法,该方法包括:获取待识别的手语视频;将手语视频输入至手语识别模型中,得到手语视频对应的Gloss语言序列;手语识别模型是基于Gloss语言特征与手语视频特征的融合特征训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于跨模态上下文序列转导的连续手语识别方法,该方法包括:获取待识别的手语视频;将手语视频输入至手语识别模型中,得到手语视频对应的Gloss语言序列;手语识别模型是基于Gloss语言特征与手语视频特征的融合特征训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元既即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于跨模态上下文序列转导的连续手语识别方法,其特征在于,包括:
获取待识别的手语视频;
将所述手语视频输入至手语识别模型中,得到所述手语视频对应的Gloss语言序列;所述手语识别模型是基于Gloss语言特征与手语视频特征的融合特征训练得到的。
2.根据权利要求1所述的手语识别方法,其特征在于,所述手语识别模型,包括以下至少一项:
手语视频局部时序特征提取模块;所述手语视频局部时序特征提取模块用于将待识别的手语视频对应的视频帧中相邻N帧的语义进行聚合,生成多个手语视频局部时序特征;
手语视频全局时序特征提取模块;所述手语视频全局时序特征提取模块用于根据多个所述手语视频局部时序特征,得到手语视频全局时序特征;所述手语视频全局时序特征包括手语视频局部时序特征之间的时序关系;
Gloss语言特征提取模块;所述Gloss语言特征提取模块用于提取Gloss语言特征;所述Gloss语言特征包括Gloss文本的上下文特征信息;
Gloss语言特征与手语视频特征融合模块;所述Gloss语言特征与手语视频特征融合模块用于将第S个手语视频全局时序特征和/或手语视频局部时序特征与第1个至第S-1个Gloss语言特征进行融合,得到第S个融合特征;所述S为大于1的正整数;
解码模块;所述解码模块用于根据第1个至第S个融合特征,得到所述待识别的手语视频对应的Gloss语言序列。
3.根据权利要求2所述的手语识别方法,其特征在于,所述解码模块用于:
根据第1个至第S个融合特征,得到所述融合特征在所有对齐路径中概率最大的对齐路径所对应的Gloss语言序列;将所述Gloss语言序列作为待识别的手语视频对应的Gloss语言序列;所述对齐路径为基于动态规划算法所规划的融合特征至各个候选Gloss语言序列的对齐路径。
4.根据权利要求3所述的手语识别方法,其特征在于,所述Gloss语言特征与手语视频特征融合模块用于利用如下公式确定第S个Gloss语言特征与手语视频特征的融合特征:
其中,表示第S个融合特征;ls表示第S个手语视频全局时序特征或第S个手语视频局部时序特征;/>表示第1个至第S-1个Gloss语言特征。
5.根据权利要求4所述的手语识别方法,其特征在于,所述手语识别模型是基于如下方式进行训练的:
将手语视频样本对应的视频帧特征输入手语视频局部时序特征提取模块,得到手语视频样本对应的手语视频局部时序特征;
将手语视频局部时序特征输入手语视频全局时序特征提取模块,得到手语视频样本对应的手语视频全局时序特征;
将数据集样本中手语视频的标注信息输入至Gloss语言特征提取层,得到Gloss语言特征;
将所述Gloss语言特征分别与所述手语视频样本对应的手语视频局部时序特征和手语视频全局时序特征进行融合,得到目标融合特征;
通过动态规划算法规划目标融合特征至各个候选Gloss语言序列的对齐路径;确定目标融合特征至各个候选Gloss语言序列的对齐路径的概率之和;
基于目标损失函数对所述手语识别模型训练,使得所述目标融合特征至各个候选Gloss语言序列的对齐路径的概率之和达到预设条件。
6.根据权利要求5所述的手语识别方法,其特征在于,所述目标损失函数基于如下公式确定:
其中,表示目标损失函数;p(Z∣J)表示目标融合特征J转导为对齐路径Z的条件依赖概率;STC(Z,Y)表示真实标注与对齐路径之间的编辑距离。
7.根据权利要求6所述的手语识别方法,其特征在于,利用如下公式建模目标融合特征J转导为对齐路径Z的条件依赖概率:
其中,p(Z∣J)表示目标融合特征J转导为对齐路径Z的条件依赖概率;J表示目标融合特征;P(Zs∣Z<s,J)表示根据目标融合特征J和第1个至第S-1个Gloss得到对齐路径中第S个Gloss的概率。
8.一种基于跨模态上下文序列转导的连续手语识别装置,其特征在于,包括:
获取模块,用于获取待识别的手语视频;
识别模块,用于将手语视频输入至手语识别模型中,得到手语视频对应的Gloss语言序列;手语识别模型是基于Gloss语言特征与手语视频特征的融合特征训练得到的。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的基于跨模态上下文序列转导的连续手语识别方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于跨模态上下文序列转导的连续手语识别方法。
CN202310924979.0A 2023-07-25 2023-07-25 基于跨模态上下文序列转导的连续手语识别方法和装置 Pending CN116978122A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310924979.0A CN116978122A (zh) 2023-07-25 2023-07-25 基于跨模态上下文序列转导的连续手语识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310924979.0A CN116978122A (zh) 2023-07-25 2023-07-25 基于跨模态上下文序列转导的连续手语识别方法和装置

Publications (1)

Publication Number Publication Date
CN116978122A true CN116978122A (zh) 2023-10-31

Family

ID=88482645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310924979.0A Pending CN116978122A (zh) 2023-07-25 2023-07-25 基于跨模态上下文序列转导的连续手语识别方法和装置

Country Status (1)

Country Link
CN (1) CN116978122A (zh)

Similar Documents

Publication Publication Date Title
US11562147B2 (en) Unified vision and dialogue transformer with BERT
CN109582767B (zh) 对话系统处理方法、装置、设备及可读存储介质
CN109840531B (zh) 训练多标签分类模型的方法和装置
CN109740620B (zh) 人群画像分类模型的建立方法、装置、设备和存储介质
WO2022048173A1 (zh) 基于人工智能的客户意图识别方法、装置、设备及介质
CN107480144B (zh) 具备跨语言学习能力的图像自然语言描述生成方法和装置
CN111159367B (zh) 一种信息处理方法及相关设备
CN115132313A (zh) 基于注意力机制的医学影像报告自动生成方法
CN111695053A (zh) 序列标注方法、数据处理设备、可读存储介质
CN113516152A (zh) 一种基于复合图像语义的图像描述方法
CN113806646A (zh) 序列标注系统及序列标注模型的训练系统
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN116958868A (zh) 用于确定文本和视频之间的相似度的方法和装置
CN116881520A (zh) 基于偏序的内容检索模型训练方法、内容检索方法及装置
CN115510193B (zh) 查询结果向量化方法、查询结果确定方法及相关装置
US20240037335A1 (en) Methods, systems, and media for bi-modal generation of natural languages and neural architectures
Popattia et al. Guiding attention using partial-order relationships for image captioning
CN112328774B (zh) 基于多文档的任务型人机对话任务的实现方法
CN116978122A (zh) 基于跨模态上下文序列转导的连续手语识别方法和装置
CN115662565A (zh) 一种融合标签信息的医学影像报告生成方法及设备
CN110991155A (zh) 文本修正方法、设备及介质
CN111428005A (zh) 标准问答对确定方法、装置及电子设备
CN112287690A (zh) 基于条件句子生成和跨模态重排的手语翻译方法
Nada et al. Visual question answering
CN113837910B (zh) 试题推荐方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination