CN112347826A - 一种基于强化学习的视频连续手语识别方法及系统 - Google Patents

一种基于强化学习的视频连续手语识别方法及系统 Download PDF

Info

Publication number
CN112347826A
CN112347826A CN201910738365.7A CN201910738365A CN112347826A CN 112347826 A CN112347826 A CN 112347826A CN 201910738365 A CN201910738365 A CN 201910738365A CN 112347826 A CN112347826 A CN 112347826A
Authority
CN
China
Prior art keywords
video
sign language
time
features
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910738365.7A
Other languages
English (en)
Other versions
CN112347826B (zh
Inventor
李厚强
周文罡
魏承承
赵鉴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201910738365.7A priority Critical patent/CN112347826B/zh
Publication of CN112347826A publication Critical patent/CN112347826A/zh
Application granted granted Critical
Publication of CN112347826B publication Critical patent/CN112347826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于强化学习的视频连续手语识别方法及系统,方法包括:基于残差连接的三维卷积神经网络对原始手语视频的各个视频段进行时空域特征提取,对时空域特征利用双向长短时记忆网络进行上下文学习,得到手语视频的特征;基于多尺度感知网络对手语视频进行不同感受野下的再表达,以最小化联结主义时间分类损失为目标将网络训练至收敛后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存;基于保存的视频特征,利用边界检测器根据定义的状态确定出视频段的语义边界;将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征,基于进一步提取到的特征进行手语词汇的识别。本发明能够提高手语识别性能。

Description

一种基于强化学习的视频连续手语识别方法及系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于强化学习的视频连续手语识别方法及系统。
背景技术
根据世界卫生组织发布的最新数据,全球大约有4.66亿人患有残疾性听力损失。据估计,到2050年将有9亿多人出现残疾性听力损失。长久以来,聋人与聋人、聋人与听人之间的交流主要依赖于手语。受限于日常手语环境和专业手语教育的缺失,绝大多数听人无法通过手语与聋人交流,造成了聋人在公共环境(如医院、车站等)中的交流障碍。此外,手语具有很强的地域差异性,即不同地域的手语规则和意义具有显著的不同,这给聋人之间的交流带来了不便。为了缓解上述问题,手语识别技术应运而生。手语识别主要分为两种类别:基于孤立词的手语识别和基于连续句子的手语识别。更加贴合实际应用场景的连续手语识别任务是指,给定一段手语视频,设计识别系统,使之识别出视频中描述的句子。连续手语识别是一种将图像序列(长序列)映射到单词序列(短序列)的任务。在实际应用场景中,图像序列和单词序列之间并没有对齐信息,即没有明确的时间间隔将图像序列分隔开,指明两个间隔之间的若干帧对应某一个单词。因此连续手语识别是一种弱监督任务。
随着深度神经网络技术的飞速发展,CNN(Convolutional Neural Networks,卷积神经网络)和RNN(Recurrent Neural Network,循环神经网络)分别在计算机视觉和自然语言处理领域取得了显著的成绩。卷积神经网络具有强大的特征表达能力,循环神经网络具有优越的上下文建模能力。近年来,众多手语识别方法借助这两类神经网络的优势,取得了很大的性能突破。此外,针对弱监督性质,连续手语识别方法引入了CTC(Connectionisttemporal classification,联结主义时间分类器)进行序列对齐的学习。目前,CNN-RNN-CTC框架被普遍应用于连续手语识别任务,具有较好的性能。具体而言,这些方法首先把原始视频等间隔切分成若干视频段,采用卷积神经网络对每一段视频进行时间-空间域的联合特征表达,再利用循环神经网络进行全局的上下文建模。此时,每段视频都被表达成一个包含语义的特征向量。连接主义时间分类器算法在训练阶段计算出目标方程,而在测试阶段,根据视频段的特征向量,将该视频段分类为一个单词。把所有视频段对应的单词做连接以后,通过删除无意义单词、合并重复单词的操作,最终可以得到原视频对应的预测句子。
一般而言,手语视频具有交替性和重复性两种性质。交替性是指随着视频的播放,有用信息和无用信息交替出现,这里无用信息包含动作间的过渡、动作静止等情况;重复性是指一个具体的手语词义,需要不止一个视频段才能完整表达,或者一段无意义信息,一般覆盖不止一个视频段。现有的基于CNN-RNN-CTC的手语识别技术存在的问题是,只着眼于一个视频段将其分类为一种手语词汇,这种模型忽略了相邻视频段表达含义也相似的潜在信息,即没有利用手语视频语义重复的性质,这是性能提升的瓶颈。
因此,如何更加有效的进行视频连续手语识别,是一项亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种基于强化学习的视频连续手语识别方法,能够利用强化学习检测出手语视频中的语义边界,对语义相似的手语视频段做更高层次的特征抽取,在包含高阶语义的视频特征层面上进行手语识别以提高其性能。
本发明提供了一种基于强化学习的视频连续手语识别方法,包括:
获取原始手语视频;
将获取的所述原始手语视频切分为多个视频段;
基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取;
对提取到的所述时空域特征利用双向长短时记忆网络进行上下文学习,得到手语视频的特征;
基于多尺度感知网络对手语视频进行不同感受野下的再表达,以最小化联结主义时间分类损失为目标将网络训练至收敛后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存;
基于保存的所述视频特征,利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界;
将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征;
基于进一步提取到的所述特征进行手语词汇的识别。
优选地,所述方法还包括:
计算识别出的手语句子和真实句子之间的距离,取距离值的相反数作为所述边界检测器的奖励函数。
优选地,所述基于保存的所述视频特征,利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界,包括:
基于所述视频特征,以滑窗的形式确定当前观测到的状态,边界检测器根据当前定义的状态确定出窗口内的语义边界,滑窗在视频上滑动,依次确定出整个手语视频中的语义边界。
一种基于强化学习的视频连续手语识别系统,包括:
获取模块,用于获取原始手语视频;
切分模块,用于将获取的所述原始手语视频切分为多个视频段;
残差连接的三维卷积神经网络模块,用于对各个视频段进行时空域特征提取;
双向长短时记忆网络模块,用于对提取到的所述时空域特征进行上下文学习,得到手语视频的特征;
多尺度感知网络模块,用于对手语视频进行不同感受野下的再表达,以最小化联结主义时间分类损失为目标将网络训练至收敛后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存;
边界检测器,用于基于保存的所述视频特征,根据定义的状态确定出视频段的语义边界,其中,所述边界检测器利用强化学习算法训练得到;
特征提取模块,用于将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征;
识别模块,用于基于进一步提取到的所述特征进行手语词汇的识别。
优选地,所述系统还包括:
计算模块,用于计算识别出的手语句子和真实句子之间的距离,取距离值的相反数作为所述边界检测器的奖励函数。
优选地,所述边界检测器在执行基于保存的所述视频特征,根据定义的状态确定出视频段的语义边界时,具体用于:
基于所述视频特征,以滑窗的形式确定当前观测到的状态,根据当前定义的状态确定出窗口内的语义边界,滑窗在视频上滑动,依次确定出整个手语视频中的语义边界。
综上所述,本发明公开了一种基于强化学习的视频连续手语识别方法,当需要进行手语识别时,首先获取原始手语视频,然后将获取的原始手语视频切分为多个视频段;基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取,对提取到的时空域特征利用双向长短时记忆网络进行上下文学习,得到手语视频的特征;基于多尺度感知网络对手语视频进行不同感受野下的再表达,以最小化联结主义时间分类损失为目标将网络训练至收敛后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存;基于保存的视频特征,利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界,将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征,基于进一步提取到的特征进行手语词汇的识别。本发明能够利用强化学习检测出手语视频中的语义边界,对语义相似的手语视频段做更高层次的特征抽取,在包含高阶语义的视频特征层面上进行手语识别以提高其性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种基于强化学习的视频连续手语识别方法实施例1的方法流程图;
图2为本发明公开的一种基于强化学习的视频连续手语识别方法实施例2的方法流程图;
图3为本发明公开的一种基于强化学习的视频连续手语识别系统实施例1的结构示意图;
图4为本发明公开的一种基于强化学习的视频连续手语识别系统实施例2的结构示意图;
图5为本发明公开的基于监督学习框架的视频表达网络结构示意图;
图6为本发明公开的边界检测阶段状态转移的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明公开的一种基于强化学习的视频连续手语识别方法实施例1的方法流程图,所述方法可以包括以下步骤:
S101、获取原始手语视频;
当需要对连续手语视频进行语义识别时,首先获取需要进行识别的原始手语视频。
S102、将获取的原始手语视频切分为多个视频段;
当获取到原始手语视频后,在视频表达阶段,首先将原始手语视频等分若干视频段;其中,切分的视频段的数量可以根据实际需求进行灵活设置。
S103、基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取;
然后,将切分后的原始手语视频的各个视频段,用基于残差连接的三维卷积神经网络做时空域特征的抽取。
S104、对提取到的时空域特征利用双向长短时记忆网络进行上下文学习,得到手语视频的特征;
然后,再利用双向长短时记忆网络对视频进行上下文建模,即,对提取到的时空域特征进行上下文学习,得到手语视频的特征。
S105、基于多尺度感知网络对手语视频进行不同感受野下的再表达,以最小化联结主义时间分类损失为目标将网络训练至收敛后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存;
接着,通过设计的多尺度感知网络对手语视频进行不同感受野下的再表达,每一种感受野对应表达都通过联结主义时间分类损失来约束。本阶段的训练目标是所有联结主义时间分类损失之和。网络收敛以后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存下来,作为语义边界检测的输入数据。
S106、基于保存的视频特征,利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界;
然后,基于马尔科夫决策过程定义强化学习框架下的语义边界检测问题。将智能体称为边界检测器。状态定义为相邻若干视频段的特征表达,动作定义为决策的边界位置。给定特征提取阶段得到的视频段表达,即保存的视频特征,边界检测器习得视频中的语义边界。
S107、将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征;
然后,将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征
S108、基于进一步提取到的特征进行手语词汇的识别。
再基于这个特征进行手语词汇的识别。
综上所述,在上述实施例中,当需要进行手语识别时,首先获取原始手语视频,然后将获取的原始手语视频切分为多个视频段;基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取,对提取到的时空域特征利用双向长短时记忆网络进行上下文学习,得到手语视频的特征;基于多尺度感知网络对手语视频进行不同感受野下的再表达,以最小化联结主义时间分类损失为目标将网络训练至收敛后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存;基于保存的视频特征,利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界,将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征,基于进一步提取到的特征进行手语词汇的识别。本发明能够利用强化学习检测出手语视频中的语义边界,对语义相似的手语视频段做更高层次的特征抽取,在包含高阶语义的视频特征层面上进行手语识别以提高其性能。
如图2所示,为本发明公开的一种基于强化学习的视频连续手语识别方法实施例2的方法流程图,所述方法可以包括以下步骤:
S201、获取原始手语视频;
当需要对连续手语视频进行语义识别时,首先获取需要进行识别的原始手语视频。
S202、将获取的原始手语视频切分为多个视频段;
当获取到原始手语视频后,在视频表达阶段,首先将原始手语视频等分若干视频段;其中,切分的视频段的数量可以根据实际需求进行灵活设置。
例如,将原始手语视频切分为包含8帧的视频段,每两个相邻视频段之间共用4帧图像,手语视频可以表示为
Figure BDA0002161381310000081
其中vi表示第i个视频段,共N个视频段。
S203、基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取;
然后,将切分后的原始手语视频的各个视频段,用基于残差连接的三维卷积神经网络做时空域特征的抽取。
S204、对提取到的时空域特征利用双向长短时记忆网络进行上下文学习,得到手语视频的特征;
然后,再对提取到的特征利用双向长短时记忆网络进行上下文学习,最终得到手语视频的特征
Figure BDA0002161381310000082
其中
Figure BDA0002161381310000083
是手语视频段vi的特征表达。
S205、基于多尺度感知网络对手语视频进行不同感受野下的再表达,以最小化联结主义时间分类损失为目标将网络训练至收敛后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存;
视频段流具有重复特征,即一个手语词汇需要不止一个视频段才能完整表达,且一段无意义的信息也通常覆盖不止一个视频段。相邻两个视频段倾向于具有相似的语义。为了对具有相似语义的视频段进一步提取高阶语义特征,本发明提出了一种多尺度感知网络结构,实质是用不同时间感受野来表达手语视频。在某个特定感受野s下,用一维时间池化层抽取相邻s个视频段的总特征,再基于s个视频段的总特征进行手语词汇的识别。这种做法较为有效地规避了由于单个视频段信息不足引起的手语识别失误。如图5所示,多尺度感知网络是一系列不同时间感受野的一维池化层。感受野从1到n,对应的时间粒度从精到粗。本方法具体使用最大池化层,因其在分类任务中的优越表现,以及在抽取最具有代表性的特征方面具有强大的能力。用
Figure BDA0002161381310000094
表示感受野为s的最大池化层,则此感受野下的手语识别可以表示为:
Figure BDA0002161381310000091
其中,
Figure BDA0002161381310000092
是池化得到的结果向量,
Figure BDA0002161381310000093
是特征向量的数量。把残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频段特征H输入到多尺度感知网络以后,可以得到一系列不同精细程度的手语视频表达G={G1,G2,…,Gn}。在训练阶段,本方法计算每个时间粒度s对应的联结主义时间分类损失之和作为训练目标,每次梯度下降会更新残差连接的三维卷积神经网络和双向长短时记忆网络的参数,参数的优化将逐渐提高手语视频的表达质量。当训练收敛以后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频段特征H保存,作为下个阶段语义检测的输入数据。
S206、基于视频特征,以滑窗的形式,利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界;
然后,基于马尔科夫决策过程定义强化学习框架下的语义边界检测问题。将智能体称为边界检测器。状态定义为相邻若干视频段的特征表达,动作定义为决策的边界位置。给定特征提取阶段得到的视频段表达,即保存的视频特征,边界检测器习得视频中的语义边界。
S207、将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征;
然后,将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征
S208、基于进一步提取到的特征进行手语词汇的识别;
再基于这个特征进行手语词汇的识别。
S209、计算识别出的手语句子和真实句子之间的距离,取距离值的相反数作为边界检测器的奖励函数。
然后,衡量识别出的手语句子与真实句子之间的距离,取距离值的相反数作为边界检测器的奖励。
具体的,在上述实施例中,状态定义,如图6所示,假设有一个窗口在视频特征H上滑动。窗口宽为l,其物理含义是我们每次只关注于相邻的l个视频段,从中找出手语的语义边界。将窗口内的l个视频段特征<hi,hi+1,…,hi+l-1>在通道维度上做连接,得到的一维向量
Figure BDA0002161381310000101
即为当前的状态向量。策略网络π由三层全连接层构成。将状态输入进策略网络,得到关于动作空间A的概率分布pt(A):
pt(A)=π(A|st,θ);
其中,θ是策略网络的参数。
其中,动作定义为:根据窗口提供的状态,边界检测器对概率分布函数pt(A)做采样得到相应的动作。动作集合定义为A={1,2,…,l-1},其中,at=i(1≤i≤l-1)代表智能体认为窗口内前i个视频段具有语义一致性。由于在特征提取阶段,多尺度感知网络具有1~n共n个不同的感受野,三维卷积神经网络和双向长短时记忆网络中被更新的参数适应于至多n个视频段做池化,因此在动作定义层面,也限制智能体的选择,规定最多认为前n个视频段具有语义一致性,以方便后续对语义一致的视频段做池化操作。根据对动作集合的定义和限制,可以得到n=l-1。
其中,状态转移为:定义头指针x,代表当前状态中第一个特征向量的位置。假如智能体认为前at个视频段具有语义一致性,窗口将滑过前at个特征表达,此时头指针通过x←x+at更新,其中初始值为x=1。下一时刻的状态进而定义为st+1=<hx,hx+1,…,hx+l-1>。通过这种方式,一个完整的状态转移
Figure BDA0002161381310000111
就完成了。图6展示了一个状态转移的例子。假定l=4,则初始状态可以表示为s0=<h1,h2,h3,h4>,智能体根据动作空间的概率分布p0(A)决定a0=2,意味着窗口内的前两个视频段被认为具有语义一致性,则智能体在h2和h3之间标记语义边界,窗口向右滑动两个特征长度,到达下一个状态s1=<h3,h4,h5,h6>。至此,第一个状态转移完成,下一个状态转移以s1开始。智能体接着做决定a1=1,认为<h3>具有独特的语义,并在h3后标记语义边界,则下一个时刻的状态转移到s2=<h4,h5,h6,h7>。以这种方式不断地进行状态转移,当剩余的视频段不足以形成一个跨度为l个视频段的完整状态,状态转移过程停止。此时边界检测器输出一个语义边界提案,包含这个手语视频中所有被标记的语义边界。
其中,奖励定义为:智能体输出语义边界提案以后,两个语义边界之间的若干个视频段具有语义一致性。用最大池化操作对这些视频段做进一步的特征提取,再基于得到的语义层面的特征,用全连接层将通道维数转换到手语词汇表的容量数,用束搜索算法解码出预测的手语句子。将预测句子和真实句子之间距离的相反数作为智能体的奖励。误字率(WER)是一种广泛使用的度量标准,用于在连续手语识别任务中定量评估预测句子的质量。实际上,它计算了两个句子之间的距离。误字率定义如下:
Figure BDA0002161381310000121
其中#ins,#del和#sub分别代表从预测句子转化到参考句子需要插入、删除和替换单词的次数,#reference代表参考句子包含的单词个数。预测句子质量越高,则误字率的值越小,说明智能体检测出的语义边界越接近实际。因此取误字率的相反数作为智能体的奖励,即r=-WER。
综上所述,本发明的实现包含两个阶段:基于监督学习的视频表达和基于强化学习的语义边界检测。在视频表达阶段,首先利用基于残差连接的三维卷积神经网络和基于双向长短时记忆网络的循环神经网络分别对手语识别做时空域特征提取和全局上下文建模。然后,本发明提出一种多尺度感知网络在不同感知野下表达同一个手语视频,每一种表达都用联结主义时间分类器模型求出相应的损失函数,所有尺度下的损失函数之和作为监督学习阶段的训练目标。监督学习阶段训练收敛以后,存储残差网络和双向长短时记忆网络对原始视频的表达,作为语义边界检测阶段的输入数据。
在视频语义边界检测阶段,本发明将手语视频的语义边界检测定义为马尔科夫决策过程,将马尔科夫决策过程的智能体称为边界检测器。状态定义为相邻若干视频段的特征表达,动作定义为决策的边界位置。给定状态,边界检测器决定哪两个视频段之间是手语的语义边界,进而标记边界。当检测器检测完整个手语视频,给出一个语义边界提案,根据提案提取相邻两边界之间的特征,借助束搜索算法解码出预测的句子。计算预测句子和真实的标签句子之间的距离,对距离求相反数作为智能体的奖励。用策略梯度算法来训练强化学习框架,训练收敛以后,边界检测器可以较为准确地检测出视频的语义边界,进而帮助手语识别提升其性能。
如图3所示,为本发明公开的一种基于强化学习的视频连续手语识别系统实施例1的结构示意图,所述系统可以包括:
获取模块301,用于获取原始手语视频;
当需要对连续手语视频进行语义识别时,首先获取需要进行识别的原始手语视频。
切分模块302,用于将获取的原始手语视频切分为多个视频段;
当获取到原始手语视频后,在视频表达阶段,首先将原始手语视频等分若干视频段;其中,切分的视频段的数量可以根据实际需求进行灵活设置。
残差连接的三维卷积神经网络模块303,用于对各个视频段进行时空域特征提取;
然后,将切分后的原始手语视频的各个视频段,用基于残差连接的三维卷积神经网络做时空域特征的抽取。
双向长短时记忆网络模块304,用于对提取到的时空域特征进行上下文学习,得到手语视频的特征;
然后,再利用双向长短时记忆网络对视频进行上下文建模,即,对提取到的时空域特征进行上下文学习,得到手语视频的特征。
多尺度感知网络模块305,用于对手语视频进行不同感受野下的再表达,以最小化联结主义时间分类损失为目标将网络训练至收敛后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存;
接着,通过设计的多尺度感知网络对手语视频进行不同感受野下的再表达,每一种感受野对应表达都通过联结主义时间分类损失来约束。本阶段的训练目标是所有联结主义时间分类损失之和。网络收敛以后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存下来,作为语义边界检测的输入数据。
边界检测器306,用于基于保存的所述视频特征,根据定义的状态确定出视频段的语义边界,其中,边界检测器利用强化学习算法训练得到;
然后,基于马尔科夫决策过程定义强化学习框架下的语义边界检测问题。将智能体称为边界检测器。状态定义为相邻若干视频段的特征表达,动作定义为决策的边界位置。给定特征提取阶段得到的视频段表达,即保存的视频特征,边界检测器习得视频中的语义边界。
特征提取模块307,用于将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征;
然后,将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征
识别模块308,用于基于进一步提取到的特征进行手语词汇的识别。
再基于这个特征进行手语词汇的识别。
综上所述,在上述实施例中,当需要进行手语识别时,首先获取原始手语视频,然后将获取的原始手语视频切分为多个视频段;基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取,对提取到的时空域特征利用双向长短时记忆网络进行上下文学习,得到手语视频的特征;基于多尺度感知网络对手语视频进行不同感受野下的再表达,以最小化联结主义时间分类损失为目标将网络训练至收敛后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存;基于保存的视频特征,利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界,将两两边界之间语义一致的多个视频段以池化的方式进一步提取特征,基于进一步提取到的特征进行手语词汇的识别。本发明能够利用强化学习检测出手语视频中的语义边界,对语义相似的手语视频段做更高层次的特征抽取,在包含高阶语义的视频特征层面上进行手语识别以提高其性能。
如图4所示,为本发明公开的一种基于强化学习的视频连续手语识别系统实施例2的结构示意图,所述系统可以包括:
获取模块401,用于获取原始手语视频;
当需要对连续手语视频进行语义识别时,首先获取需要进行识别的原始手语视频。
切分模块402,用于将获取的原始手语视频切分为多个视频段;
当获取到原始手语视频后,在视频表达阶段,首先将原始手语视频等分若干视频段;其中,切分的视频段的数量可以根据实际需求进行灵活设置。
例如,将原始手语视频切分为包含8帧的视频段,每两个相邻视频段之间共用4帧图像,手语视频可以表示为
Figure BDA0002161381310000151
其中vi表示第i个视频段,共N个视频段。
残差连接的三维卷积神经网络模块403,用于对各个视频段进行时空域特征提取;
然后,将切分后的原始手语视频的各个视频段,用基于残差连接的三维卷积神经网络做时空域特征的抽取。
双向长短时记忆网络模块404,用于对提取到的时空域特征进行上下文学习,得到手语视频的特征;
然后,再对提取到的特征利用双向长短时记忆网络进行上下文学习,最终得到手语视频的特征
Figure BDA0002161381310000152
其中
Figure BDA0002161381310000153
是手语视频段vi的特征表达。
多尺度感知网络模块405,用于对手语视频进行不同感受野下的再表达,以最小化联结主义时间分类损失为目标将网络训练至收敛后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存;
视频段流具有重复特征,即一个手语词汇需要不止一个视频段才能完整表达,且一段无意义的信息也通常覆盖不止一个视频段。相邻两个视频段倾向于具有相似的语义。为了对具有相似语义的视频段进一步提取高阶语义特征,本发明提出了一种多尺度感知网络结构,实质是用不同时间感受野来表达手语视频。在某个特定感受野s下,用一维时间池化层抽取相邻s个视频段的总特征,再基于s个视频段的总特征进行手语词汇的识别。这种做法较为有效地规避了由于单个视频段信息不足引起的手语识别失误。如图5所示,多尺度感知网络是一系列不同时间感受野的一维池化层。感受野从1到n,对应的时间粒度从精到粗。本方法具体使用最大池化层,因其在分类任务中的优越表现,以及在抽取最具有代表性的特征方面具有强大的能力。用
Figure BDA0002161381310000161
表示感受野为s的最大池化层,则此感受野下的手语识别可以表示为:
Figure BDA0002161381310000162
其中,
Figure BDA0002161381310000163
是池化得到的结果向量,
Figure BDA0002161381310000164
是特征向量的数量。把残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频段特征H输入到多尺度感知网络以后,可以得到一系列不同精细程度的手语视频表达G={G1,G2,…,Gn}。在训练阶段,本方法计算每个时间粒度s对应的联结主义时间分类损失之和作为训练目标,每次梯度下降会更新残差连接的三维卷积神经网络和双向长短时记忆网络的参数,参数的优化将逐渐提高手语视频的表达质量。当训练收敛以后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频段特征H保存,作为下个阶段语义检测的输入数据。
边界检测器406,用于基于视频特征,以滑窗的形式,根据定义的状态确定出视频段的语义边界;
然后,基于马尔科夫决策过程定义强化学习框架下的语义边界检测问题。将智能体称为边界检测器。状态定义为相邻若干视频段的特征表达,动作定义为决策的边界位置。给定特征提取阶段得到的视频段表达,即保存的视频特征,边界检测器习得视频中的语义边界。
特征提取模块407,用于将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征;
然后,将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征
识别模块408,用于基于进一步提取到的特征进行手语词汇的识别;
再基于这个特征进行手语词汇的识别。
计算模块409,用于计算识别出的手语句子和真实句子之间的距离,取距离值的相反数作为边界检测器的奖励函数。
然后,衡量识别出的手语句子与真实句子之间的距离,取距离值的相反数作为边界检测器的奖励。
具体的,在上述实施例中,状态定义,如图6所示,假设有一个窗口在视频特征H上滑动。窗口宽为l,其物理含义是我们每次只关注于相邻的l个视频段,从中找出手语的语义边界。将窗口内的l个视频段特征<hi,hi+1,…,hi+l-1>在通道维度上做连接,得到的一维向量
Figure BDA0002161381310000171
即为当前的状态向量。策略网络π由三层全连接层构成。将状态输入进策略网络,得到关于动作空间A的概率分布pt(A):
pt(A)=π(A|st,θ);
其中,θ是策略网络的参数。
其中,动作定义为:根据窗口提供的状态,边界检测器对概率分布函数pt(A)做采样得到相应的动作。动作集合定义为A={1,2,…,l-1},其中,at=i(1≤i≤l-1)代表智能体认为窗口内前i个视频段具有语义一致性。由于在特征提取阶段,多尺度感知网络具有1~n共n个不同的感受野,三维卷积神经网络和双向长短时记忆网络中被更新的参数适应于至多n个视频段做池化,因此在动作定义层面,也限制智能体的选择,规定最多认为前n个视频段具有语义一致性,以方便后续对语义一致的视频段做池化操作。根据对动作集合的定义和限制,可以得到n=l-1。
其中,状态转移为:定义头指针x,代表当前状态中第一个特征向量的位置。假如智能体认为前at个视频段具有语义一致性,窗口将滑过前at个特征表达,此时头指针通过x←x+at更新,其中初始值为x=1。下一时刻的状态进而定义为st+1=<hx,hx+1,…,hx+l-1>。通过这种方式,一个完整的状态转移
Figure BDA0002161381310000181
就完成了。图6展示了一个状态转移的例子。假定l=4,则初始状态可以表示为s0=<h1,h2,h3,h4>,智能体根据动作空间的概率分布p0(A)决定a0=2,意味着窗口内的前两个视频段被认为具有语义一致性,则智能体在h2和h3之间标记语义边界,窗口向右滑动两个特征长度,到达下一个状态s1=<h3,h4,h5,h6>。至此,第一个状态转移完成,下一个状态转移以s1开始。智能体接着做决定a1=1,认为<h3>具有独特的语义,并在h3后标记语义边界,则下一个时刻的状态转移到s2=<h4,h5,h6,h7>。以这种方式不断地进行状态转移,当剩余的视频段不足以形成一个跨度为l个视频段的完整状态,状态转移过程停止。此时边界检测器输出一个语义边界提案,包含这个手语视频中所有被标记的语义边界。
其中,奖励定义为:智能体输出语义边界提案以后,两个语义边界之间的若干个视频段具有语义一致性。用最大池化操作对这些视频段做进一步的特征提取,再基于得到的语义层面的特征,用全连接层将通道维数转换到手语词汇表的容量数,用束搜索算法解码出预测的手语句子。将预测句子和真实句子之间距离的相反数作为智能体的奖励。误字率(WER)是一种广泛使用的度量标准,用于在连续手语识别任务中定量评估预测句子的质量。实际上,它计算了两个句子之间的距离。误字率定义如下:
Figure BDA0002161381310000182
其中#ins,#del和#sub分别代表从预测句子转化到参考句子需要插入、删除和替换单词的次数,#reference代表参考句子包含的单词个数。预测句子质量越高,则误字率的值越小,说明智能体检测出的语义边界越接近实际。因此取误字率的相反数作为智能体的奖励,即r=-WER。
综上所述,本发明的实现包含两个阶段:基于监督学习的视频表达和基于强化学习的语义边界检测。在视频表达阶段,首先利用基于残差连接的三维卷积神经网络和基于双向长短时记忆网络的循环神经网络分别对手语识别做时空域特征提取和全局上下文建模。然后,本发明提出一种多尺度感知网络在不同感知野下表达同一个手语视频,每一种表达都用联结主义时间分类器模型求出相应的损失函数,所有尺度下的损失函数之和作为监督学习阶段的训练目标。监督学习阶段训练收敛以后,存储残差网络和双向长短时记忆网络对原始视频的表达,作为语义边界检测阶段的输入数据。
在视频语义边界检测阶段,本发明将手语视频的语义边界检测定义为马尔科夫决策过程,将马尔科夫决策过程的智能体称为边界检测器。状态定义为相邻若干视频段的特征表达,动作定义为决策的边界位置。给定状态,边界检测器决定哪两个视频段之间是手语的语义边界,进而标记边界。当检测器检测完整个手语视频,给出一个语义边界提案,根据提案提取相邻两边界之间的特征,借助束搜索算法解码出预测的句子。计算预测句子和真实的标签句子之间的距离,对距离求相反数作为智能体的奖励。用策略梯度算法来训练强化学习框架,训练收敛以后,边界检测器可以较为准确地检测出视频的语义边界,进而帮助手语识别提升其性能。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种基于强化学习的视频连续手语识别方法,其特征在于,包括:
获取原始手语视频;
将获取的所述原始手语视频切分为多个视频段;
基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取;
对提取到的所述时空域特征利用双向长短时记忆网络进行上下文学习,得到手语视频的特征;
基于多尺度感知网络对手语视频进行不同感受野下的再表达,以最小化联结主义时间分类损失为目标将网络训练至收敛后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存;
基于保存的所述视频特征,利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界;
将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征;
基于进一步提取到的所述特征进行手语词汇的识别。
2.根据权利要求1所述的方法,其特征在于,还包括:
计算识别出的手语句子和真实句子之间的距离,取距离值的相反数作为所述边界检测器的奖励函数。
3.根据权利要求1所述的方法,其特征在于,所述基于保存的所述视频特征,利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界,包括:
基于所述视频特征,以滑窗的形式确定当前观测到的状态,边界检测器根据当前状态确定出窗口内的语义边界,滑窗在视频上滑动,依次确定出整个手语视频中的语义边界。
4.一种基于强化学习的视频连续手语识别系统,其特征在于,包括:
获取模块,用于获取原始手语视频;
切分模块,用于将获取的所述原始手语视频切分为多个视频段;
残差连接的三维卷积神经网络模块,用于对各个视频段进行时空域特征提取;
双向长短时记忆网络模块,用于对提取到的所述时空域特征进行上下文学习,得到手语视频的特征;
多尺度感知网络模块,用于对手语视频进行不同感受野下的再表达,以最小化联结主义时间分类损失为目标将网络训练至收敛后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存;
边界检测器,用于基于保存的所述视频特征,根据定义的状态确定出视频段的语义边界,其中,所述边界检测器利用强化学习算法训练得到;
特征提取模块,用于将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征;
识别模块,用于基于进一步提取到的所述特征进行手语词汇的识别。
5.根据权利要求4所述的系统,其特征在于,还包括:
计算模块,用于计算识别出的手语句子和真实句子之间的距离,取距离值的相反数作为所述边界检测器的奖励函数。
6.根据权利要求4所述的系统,其特征在于,所述边界检测器在执行基于保存的所述视频特征,根据定义的状态确定出视频段的语义边界时,具体用于:
基于所述视频特征,以滑窗的形式确定当前观测到的状态,根据当前状态确定出窗口内语义边界,滑窗在视频上滑动,依次确定出整个手语视频中的语义边界。
CN201910738365.7A 2019-08-09 2019-08-09 一种基于强化学习的视频连续手语识别方法及系统 Active CN112347826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910738365.7A CN112347826B (zh) 2019-08-09 2019-08-09 一种基于强化学习的视频连续手语识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910738365.7A CN112347826B (zh) 2019-08-09 2019-08-09 一种基于强化学习的视频连续手语识别方法及系统

Publications (2)

Publication Number Publication Date
CN112347826A true CN112347826A (zh) 2021-02-09
CN112347826B CN112347826B (zh) 2024-02-27

Family

ID=74367806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910738365.7A Active CN112347826B (zh) 2019-08-09 2019-08-09 一种基于强化学习的视频连续手语识别方法及系统

Country Status (1)

Country Link
CN (1) CN112347826B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239834A (zh) * 2021-05-20 2021-08-10 中国科学技术大学 一种可预训练手模型感知表征的手语识别系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160203360A1 (en) * 2015-01-13 2016-07-14 Google Inc. Systems and methods for performing actions in response to user gestures in captured images
US20170150235A1 (en) * 2015-11-20 2017-05-25 Microsoft Technology Licensing, Llc Jointly Modeling Embedding and Translation to Bridge Video and Language
CN109063615A (zh) * 2018-07-20 2018-12-21 中国科学技术大学 一种手语识别方法及系统
CN109190578A (zh) * 2018-09-13 2019-01-11 合肥工业大学 基于时域卷积网络与循环神经网络融合的手语视频翻译方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160203360A1 (en) * 2015-01-13 2016-07-14 Google Inc. Systems and methods for performing actions in response to user gestures in captured images
US20170150235A1 (en) * 2015-11-20 2017-05-25 Microsoft Technology Licensing, Llc Jointly Modeling Embedding and Translation to Bridge Video and Language
CN109063615A (zh) * 2018-07-20 2018-12-21 中国科学技术大学 一种手语识别方法及系统
CN109190578A (zh) * 2018-09-13 2019-01-11 合肥工业大学 基于时域卷积网络与循环神经网络融合的手语视频翻译方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
袁甜甜;赵伟;杨学;胡彬;: "大规模连续中国手语数据集的创建与分析", 计算机工程与应用, no. 11 *
高翔;陈志;岳文静;龚凯;: "基于视频场景深度学习的人物语义识别模型", 计算机技术与发展, no. 06 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239834A (zh) * 2021-05-20 2021-08-10 中国科学技术大学 一种可预训练手模型感知表征的手语识别系统
CN113239834B (zh) * 2021-05-20 2022-07-15 中国科学技术大学 一种可预训练手模型感知表征的手语识别系统

Also Published As

Publication number Publication date
CN112347826B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN108090857B (zh) 一种多模态的学生课堂行为分析系统和方法
JP6351689B2 (ja) 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN101539994B (zh) 一种手语语音互译系统及手语语音互译方法
CN109165563B (zh) 行人再识别方法和装置、电子设备、存储介质、程序产品
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN110472548B (zh) 一种基于语法分类器的视频连续手语识别方法及系统
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN111508480A (zh) 音频识别模型的训练方法、音频识别方法、装置及设备
CN110929640A (zh) 一种基于目标检测的宽幅遥感描述生成方法
CN114898416A (zh) 一种人脸识别方法、装置、电子设备及可读存储介质
Wei et al. Sequence-to-segment networks for segment detection
US20120053944A1 (en) Method for Determining Compressed State Sequences
CN112347826B (zh) 一种基于强化学习的视频连续手语识别方法及系统
Goyal Indian sign language recognition using mediapipe holistic
Choudhury et al. An adaptive thresholding-based movement epenthesis detection technique using hybrid feature set for continuous fingerspelling recognition
Kelly et al. Recognition of spatiotemporal gestures in sign language using gesture threshold hmms
US20220207866A1 (en) Method, device, and computer readable storage medium for image processing
CN115457654A (zh) 一种基于人体关键点的实时视频流手语识别方法
CN115035463A (zh) 行为识别方法、装置、设备和存储介质
CN111767402B (zh) 一种基于对抗学习的限定域事件检测方法
CN114495265A (zh) 多跨域场景下基于活动图加权的人体行为识别方法
Rodríguez-Moreno et al. A Hierarchical Approach for Spanish Sign Language Recognition: From Weak Classification to Robust Recognition System
Rao et al. Sign Language Detection Application Using CNN
CN112990145B (zh) 一种基于组稀疏年龄估计方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant