CN108647603B - 基于注意力机制的半监督连续手语翻译方法及装置 - Google Patents

基于注意力机制的半监督连续手语翻译方法及装置 Download PDF

Info

Publication number
CN108647603B
CN108647603B CN201810399532.5A CN201810399532A CN108647603B CN 108647603 B CN108647603 B CN 108647603B CN 201810399532 A CN201810399532 A CN 201810399532A CN 108647603 B CN108647603 B CN 108647603B
Authority
CN
China
Prior art keywords
sequence
sign language
word
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810399532.5A
Other languages
English (en)
Other versions
CN108647603A (zh
Inventor
徐枫
薄子豪
雍俊海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810399532.5A priority Critical patent/CN108647603B/zh
Publication of CN108647603A publication Critical patent/CN108647603A/zh
Application granted granted Critical
Publication of CN108647603B publication Critical patent/CN108647603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于注意力机制的连续手语翻译方法及装置,其中,方法包括:根据输入的手语视频通过手部区域检测网络生成手部区域图像序列;对手部区域图像序列和输出语言词汇进行编码,以输入手语翻译模型,并训练相应的词对齐序列;将相应的词对齐序列作为解码输入,以对手语翻译模型进行全监督训练,并生成连续手语翻译语句。该方法能够消除视频中手部以外信息对语言模型的影响,对手语表达过程中的冗余和过渡姿势有更强的分辨能力,能够准确迅速地对连续手语进行翻译。

Description

基于注意力机制的半监督连续手语翻译方法及装置
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于注意力机制的半监督连续手语翻译方法及装置。
背景技术
手语是一种使用肢体语言的最具语法结构的交流方式,因此,对手语的识别与翻译将是一种理想的解决诸如情感分析、残障人士交流和智能人机交互的途径。
然而,连续手语翻译不同于单独的手势识别或标志识别,单独的手势识别或标志识别任务仅需要找出某时刻单独的动作或标志对应哪一个训练集中的标签。连续手语翻译则不仅要做到动作分类,还要做到动态时间分析、过渡与空白动作分析等,甚至手势和相应的语句词汇在顺序上都不一致,对翻译技术具有一定要求。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于注意力机制的半监督连续手语翻译方法,该方法能够准确迅速地对连续手语进行翻译。
本发明的另一个目的在于提出一种基于注意力机制的半监督连续手语翻译装置。
为达到上述目的,本发明一方面实施例提出了一种基于注意力机制的半监督连续手语翻译方法,包括以下步骤:根据输入的手语视频通过手部区域检测网络生成手部区域图像序列;对所述手部区域图像序列和输出语言词汇进行编码,以输入手语翻译模型,并训练相应的词对齐序列;将所述相应的词对齐序列作为解码输入,以对所述手语翻译模型进行全监督训练,并生成连续手语翻译语句。
本发明实施例的基于注意力机制的半监督连续手语翻译方法,通过建立手部区域图像序列,根据手语翻译模型训练相应的词对齐序列,并进行全监督训练以生成连续手语翻译语句,能够消除视频中手部以外信息对语言模型的影响,对手语表达过程中的冗余和过渡姿势有更强的分辨能力,能够准确迅速地对连续手语进行翻译。
另外,根据本发明上述实施例的基于注意力机制的半监督连续手语翻译方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述根据手语视频,通过手部区域检测网络,生成手部区域图像序列,进一步包括:根据视频时间采样获取所述图像序列;根据所述图像序列通过目标检测SSD网络输出手部区域的包围坐标,并提取手部区域。
进一步地,在本发明的一个实施例中,所述对所述手部区域图像序列和输出语言词汇编码,输入手语翻译模型,训练相应的词对齐序列,进一步包括:对所述手部图像序列进行编码,并提取卷积神经网络特征;通过词向量模型对翻译语句单词进行编码获取所述词特征序列;将所述图像特征和所述词特征输入编码-解码结构的注意力机制语言模型,以对输出的连续时域分类损失函数进行最小化训练,并得到经过训练的词对齐序列。
进一步地,在本发明的一个实施例中,将所述词对齐序列作为解码输入,对所述手语翻译模型进行全监督的训练,生成连续手语翻译语句,进一步包括:将所述词对齐序列作为编码输入目标,通过所述语言模型进行训练,根据输出单词序列分类交叉熵作为损失函数进行训练;每得到一个生成词更新编码输入预测下一生成词,直至所述翻译语句结束。
进一步地,在本发明的一个实施例中,所述全监督的训练还包括:
将所述语言模型作用为L:
Figure GDA0002653010080000021
其中,
Figure GDA0002653010080000022
为解码器线性输出,则第j个输出片段属于类别i的概率为:
Figure GDA0002653010080000023
CTC词对齐模型输出词对齐序列为π,则使得π中剔除空白标签和连续重复标签得到的序列为y:
π∈B-1(y)={π|B(π}=y},
在输入
Figure GDA0002653010080000024
下,输出词对齐序列为π的概率为:
Figure GDA0002653010080000025
对应样本文本输出y的概率为
Figure GDA0002653010080000026
词对齐模型的损失函数为:
LosSCTC=-logPCTC(y|s)。
为达到上述目的,本发明另一方面实施例提出了一种基于注意力机制的半监督连续手语翻译装置,包括:生成模块,用于根据输入的手语视频通过手部区域检测网络生成手部区域图像序列;训练模块,用于对所述手部区域图像序列和输出语言词汇进行编码,以输入手语翻译模型,并训练相应的词对齐序列;监督翻译模块,用于将所述相应的词对齐序列作为解码输入,以对所述手语翻译模型进行全监督训练,并生成连续手语翻译语句。
本发明实施例的基于注意力机制的半监督连续手语翻译装置,通过建立手部区域图像序列,根据手语翻译模型训练相应的词对齐序列,并进行全监督训练以生成连续手语翻译语句,能够消除视频中手部以外信息对语言模型的影响,对手语表达过程中的冗余和过渡姿势有更强的分辨能力,能够准确迅速地对连续手语进行翻译。
另外,根据本发明上述实施例的基于注意力机制的半监督连续手语翻译装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述生成模块还包括:采样单元,用于根据视频时间采样获取所述图像序列;提取单元,根据所述图像序列通过目标检测SSD网络输出手部区域的包围坐标,并提取手部区域。
进一步地,在本发明的一个实施例中,所述训练模块还包括:卷积神经网络特征提取单元,用于对所述手部图像序列进行编码,并提取卷积神经网络特征;编码单元,用于通过词向量模型对翻译语句单词进行编码获取所述词特征序列;最小化训练单元,用于将所述图像特征和所述词特征输入编码-解码结构的注意力机制语言模型,以对输出的连续时域分类损失函数进行最小化训练,并得到经过训练的词对齐序列。
进一步地,在本发明的一个实施例中,所述监督翻译模块还包括:训练单元,将所述词对齐序列作为编码输入目标,通过所述语言模型进行训练,根据输出单词序列分类交叉熵作为损失函数进行训练;预测单元,用于每得到一个生成词更新编码输入预测下一生成词,直至所述翻译语句结束。
进一步地,在本发明的一个实施例中,所述全监督的训练还包括:
将所述语言模型作用为L:
Figure GDA0002653010080000031
其中,
Figure GDA0002653010080000032
为解码器线性输出,则第j个输出片段属于类别i的概率为:
Figure GDA0002653010080000033
CTC词对齐模型输出词对齐序列为π,则使得π中剔除空白标签和连续重复标签得到的序列为y:
π∈B-1(y)={π|B(π}=y},
在输入
Figure GDA0002653010080000034
下,输出词对齐序列为π的概率为:
Figure GDA0002653010080000035
则对应样本文本输出y的概率为
Figure GDA0002653010080000036
则词对齐模型的损失函数为:
LosSCTC=-logPCTC(y|s)。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于注意力机制的半监督连续手语翻译方法的流程图;
图2为根据本发明一个实施例的基于注意力机制的半监督连续手语翻译方法的模型结构图示意图;
图3为根据本发明一个实施例的基于注意力机制的半监督连续手语翻译方法的编码-解码语言模型的内部结构示意图;
图4为根据本发明实施例的基于注意力机制的半监督连续手语翻译装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于注意力机制的半监督连续手语翻译方法及装置,首先将参照附图描述根据本发明实施例提出的基于注意力机制的半监督连续手语翻译方法。
图1为根据本发明实施例的基于注意力机制的半监督连续手语翻译方法的流程图。
如图1所示,该基于注意力机制的半监督连续手语翻译方法包括以下步骤:
在步骤S101中,根据输入的手语视频通过手部区域检测网络生成手部区域图像序列。
具体而言,根据手语视频,通过手部区域检测网络,生成手部区域图像序列,包括:根据视频时间采样获取图像序列;根据图像序列通过目标检测SSD网络输出手部区域的包围坐标,并提取手部区域。
在本发明的一个实施例中,如图2所示,为了使语言模型能够重点关注人手区域,忽略视频其他区域内容给编码输入带来的影响,使用目标检测网络对人手进行区域提取。具体来言,使用SSD网络作为目标检测网络,分别对手语者的左右手两个部分进行提取。
设输入图像序列为
Figure GDA0002653010080000041
其中,T为时间帧数量。经过目标检测网络,输出图像进行归一化,调整至统一大小,得到左右手图像序列
Figure GDA0002653010080000042
得:
Figure GDA0002653010080000051
可以理解的是,目标检测网络的训练数据可以手动标注,也可以使用现有数据集和处理方法生成,网络在PascalVOC上进行预训练处理。
进一步地,检测得到的图像序列经过卷积神经网络,提取出左右手两个通道的图像特征序列。具体而言,卷积神经网络使用MobileNetV2模型,利用depthwise卷积和pointwise卷积结构,降低模型训练参数,减小训练时间。MobileNetV2卷积网络在imagenet上进行预训练,得到:
Figure GDA0002653010080000052
进一步地,图像序列在时间维进行卷积,提取视频时间维特征,其中,卷积网络使用两层conv1d-maxpool结构。设时域卷积作用为TC,输出片段序列长度为N,得:
Figure GDA0002653010080000053
左右手特征进行串接融合得到:
Figure GDA0002653010080000054
在步骤S102中,对手部区域图像序列和输出语言词汇进行编码,以输入手语翻译模型,并训练相应的词对齐序列。
具体而言,对手部区域图像序列和输出语言词汇编码,输入手语翻译模型,训练相应的词对齐序列,进一步包括:对手部图像序列进行编码,并提取卷积神经网络特征;通过词向量模型对翻译语句单词进行编码获取词特征序列;将图像特征和词特征输入编码-解码结构的注意力机制语言模型,以对输出的连续时域分类损失函数进行最小化训练,并得到经过训练的词对齐序列。
在本发明的一个实施例中,步骤102中手语训练数据是半监督的,即没有输出语句的单词同输入视频的时间段对应的数据。全监督的数据会使模型在编码器与解码器attention层面更加一致,有助于生成时间有序的、有效甄别手语过渡与空白信息的输出语句。
进一步地,如图3所示,语言模型使用编码解码结构,内部基于attention神经网络。编码器单元使用两个残差注意力-前向模块组合,其中残差注意力模块内部基于谷歌的Multi-Head Attention网络,输入Q、K、V三个序列,经过矩阵相乘,得到Q和K在V上的线性组合:
Figure GDA0002653010080000055
其中,dk是Q和K的特征维度。
可以理解的是,在编码器中,使用自注意力机制,即Q、K和V均为编码器输入序列。前向模块由两层时间维全连接网络和残差项构成,且两个前向模块的输出分别作为解码器问答注意力模块的Q和K项输入序列。
进一步地,解码器在编码器基础上,额外增加两个问答注意力模块,其基本结构同残差注意力模块相同,只是Q和K输入改为编码器相应网络输出。
可以理解的是,在编码器和解码器输入部分,融合了序列的位置编码。由于此注意力网络不同于传统的循环神经网络,是基于卷积神经网络的,拥有可并行处理的优势,但同时失去了循环神经网络对时间维度信息的处理能力。所以,序列的位置编码有助于编解码器得到有关输入的时间信息。
在词对齐序列生成过程中,使用连续时域分类(CTC)损失函数,具体为:编码器输入手部图像序列特征,解码器输入词向量序列特征。解码器输出对应词对齐序列的softmax概率,包含空白<blank>标签用来表示两个手语语义间的过渡动作与无手语动作。其中,语言模型作用为L:
Figure GDA0002653010080000061
其中,
Figure GDA0002653010080000062
为解码器线性输出,则第j个输出片段属于类别i的概率为:
Figure GDA0002653010080000063
进一步地,设CTC词对齐模型输出词对齐序列为π,包含词汇标签和空标签,存在一个从样本词汇序列y到CTC序列π的映射B,使得π中剔除空白标签和连续重复标签得到的序列即为y:
π∈B-1(y)={π|B(π}=y},
在输入
Figure GDA0002653010080000064
下,输出词对齐序列为π的概率是:
Figure GDA0002653010080000065
对应样本文本输出y的概率为:
Figure GDA0002653010080000066
词对齐模型的损失函数为:
LossCTC=-logPCTC(y|s),
经过词对齐模型的训练后,语言模型可以输出相应输入对应的词对齐序列输出,用于下一步语言模型交叉熵训练。
在步骤S103中,将相应的词对齐序列作为解码输入,以对手语翻译模型进行全监督训练,并生成连续手语翻译语句。
具体而言,将词对齐序列作为编码输入目标,通过语言模型进行训练,根据输出单词序列分类交叉熵作为损失函数进行训练;每得到一个生成词更新编码输入预测下一生成词,直至翻译语句结束。
在本发明的一个实施例中,经过步骤S102的训练,语言模型已经可以生成较为准确的词对齐序列了。进一步地,将语言模型生成的词对齐序列
Figure GDA0002653010080000071
作为解码器输入,对语言模型做全监督的训练,语言模型参数由第二步训练得到的参数做初始化:
Figure GDA0002653010080000072
此时可以得出的解码器输出
Figure GDA0002653010080000073
经过softmax层,输出第j个片段属于类别i的概率为:
Figure GDA0002653010080000074
在输入
Figure GDA0002653010080000075
下,输出词对齐序列的概率为:
Figure GDA0002653010080000076
语言模型的交叉熵损失函数为:
Lossc_e=-logPc_e(π|s)。
进一步地,对模型输出进行剔除空白与连续重复标签,得到最终输出结果。在进行预测时,无需进行第二步的词对齐序列预测,直接使用第三部训练得到的语言模型进行预测。由于预测时无法在第一时间得到解码器的输入,所以程序可以一步一步运行,得到下一词汇的预测概率,更新解码器输入,再得到下个词汇的预测概率,以此类推,直到下一词汇预测为语句结束。在此迭代过程中,使用BeamSearch进行输出词汇的选择,Beam大小设置为3。
本发明实施例的基于注意力机制的半监督连续手语翻译方法,通过建立手部区域图像序列,根据手语翻译模型训练相应的词对齐序列,并进行全监督训练以生成连续手语翻译语句,能够消除视频中手部以外信息对语言模型的影响,对手语表达过程中的冗余和过渡姿势有更强的分辨能力,能够准确迅速地对连续手语进行翻译。
其次参照附图描述根据本发明实施例提出的基于注意力机制的半监督连续手语翻译装置。
图4是本发明一个实施例的基于注意力机制的半监督连续手语翻译装置的结构示意图。
如图4所示,该基于注意力机制的半监督连续手语翻译装置10包括:生成模块100、训练模块200和监督翻译模块300。
其中,生成模块100用于根据输入的手语视频通过手部区域检测网络生成手部区域图像序列。训练模块200用于对手部区域图像序列和输出语言词汇进行编码,以输入手语翻译模型,并训练相应的词对齐序列。监督翻译模块300用于将相应的词对齐序列作为解码输入,以对手语翻译模型进行全监督训练,并生成连续手语翻译语句。该基于注意力机制的半监督连续手语翻译装置10能够准确迅速地对连续手语进行翻译。
进一步地,在本发明的一个实施例中,生成模块100还包括:采样单元,用于根据视频时间采样获取图像序列;提取单元,根据图像序列通过目标检测SSD网络输出手部区域的包围坐标,并提取手部区域。
进一步地,在本发明的一个实施例中,训练模块200还包括:卷积神经网络特征提取单元,用于对手部图像序列进行编码,并提取卷积神经网络特征;编码单元,用于通过词向量模型对翻译语句单词进行编码获取词特征序列;最小化训练单元,用于将图像特征和词特征输入编码-解码结构的注意力机制语言模型,以对输出的连续时域分类损失函数进行最小化训练,并得到经过训练的词对齐序列。
进一步地,在本发明的一个实施例中,监督翻译模块300还包括:训练单元,将词对齐序列作为编码输入目标,通过语言模型进行训练,根据输出单词序列分类交叉熵作为损失函数进行训练;预测单元,用于每得到一个生成词更新编码输入预测下一生成词,直至翻译语句结束。
进一步地,在本发明的一个实施例中,全监督的训练还包括:
将语言模型作用为L:
Figure GDA0002653010080000081
其中,
Figure GDA0002653010080000082
为解码器线性输出,则第j个输出片段属于类别i的概率为:
Figure GDA0002653010080000083
CTC词对齐模型输出词对齐序列为π,则使得π中剔除空白标签和连续重复标签得到的序列为y:
π∈B-1(y)={π|B(π}=y},
在输入
Figure GDA0002653010080000084
下,输出词对齐序列为π的概率为:
Figure GDA0002653010080000085
则对应样本文本输出y的概率为
Figure GDA0002653010080000086
则词对齐模型的损失函数为:
LosSCTC=-logPCTC(y|s)。
需要说明的是,前述对基于注意力机制的半监督连续手语翻译方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
本发明实施例的基于注意力机制的半监督连续手语翻译装置,通过建立手部区域图像序列,根据手语翻译模型训练相应的词对齐序列,并进行全监督训练以生成连续手语翻译语句,能够消除视频中手部以外信息对语言模型的影响,对手语表达过程中的冗余和过渡姿势有更强的分辨能力,能够准确迅速地对连续手语进行翻译。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于注意力机制的半监督连续手语翻译方法,其特征在于,包括以下步骤:
根据输入的手语视频通过手部区域检测网络生成手部区域图像序列;
对所述手部区域图像序列和输出语言词汇进行编码,以输入手语翻译模型,并训练相应的词对齐序列;
将所述相应的词对齐序列作为解码输入,以对所述手语翻译模型进行全监督训练,并生成连续手语翻译语句;
所述全监督的训练还包括:
将语言模型作用为L:
Figure FDA0002653010070000011
其中,
Figure FDA0002653010070000012
为解码器线性输出,则第j个输出片段属于类别i的概率为:
Figure FDA0002653010070000013
CTC词对齐模型输出词对齐序列为π,则使得π中剔除空白标签和连续重复标签得到的序列为y:
π∈B-1(y)={π|B(π}=y},
在输入
Figure FDA0002653010070000014
下,输出词对齐序列为π的概率为:
Figure FDA0002653010070000015
对应样本文本输出y的概率为
Figure FDA0002653010070000016
词对齐模型的损失函数为:
LossCTC=-logPCTC(y|s)。
2.根据权利要求1所述的基于注意力机制的半监督连续手语翻译方法,其特征在于,所述根据手语视频,通过手部区域检测网络,生成手部区域图像序列,进一步包括:
根据视频时间采样获取所述图像序列;
根据所述图像序列通过目标检测SSD网络输出手部区域的包围坐标,并提取手部区域。
3.根据权利要求2所述的基于注意力机制的半监督连续手语翻译方法,其特征在于,所述对所述手部区域图像序列和输出语言词汇编码,输入手语翻译模型,训练相应的词对齐序列,进一步包括:
对所述手部区域图像序列进行编码,并提取卷积神经网络特征;
通过词向量模型对翻译语句单词进行编码获取词特征序列;
将图像特征和所述词特征输入编码-解码结构的注意力机制语言模型,以对输出的连续时域分类损失函数进行最小化训练,并得到经过训练的词对齐序列。
4.根据权利要求3所述的基于注意力机制的半监督连续手语翻译方法,其特征在于,将所述词对齐序列作为解码输入,对所述手语翻译模型进行全监督的训练,生成连续手语翻译语句,进一步包括:
将所述词对齐序列作为编码输入目标,通过所述语言模型进行训练,根据输出单词序列分类交叉熵作为损失函数进行训练;
每得到一个生成词更新编码输入预测下一生成词,直至所述翻译语句结束。
5.一种基于注意力机制的半监督连续手语翻译装置,其特征在于,包括:
生成模块,用于根据输入的手语视频通过手部区域检测网络生成手部区域图像序列;
训练模块,用于对所述手部区域图像序列和输出语言词汇进行编码,以输入手语翻译模型,并训练相应的词对齐序列;
监督翻译模块,用于将所述相应的词对齐序列作为解码输入,以对所述手语翻译模型进行全监督训练,并生成连续手语翻译语句;所述全监督的训练还包括:
将语言模型作用为L:
Figure FDA0002653010070000021
其中,
Figure FDA0002653010070000022
为解码器线性输出,则第j个输出片段属于类别i的概率为:
Figure FDA0002653010070000023
CTC词对齐模型输出词对齐序列为π,则使得π中剔除空白标签和连续重复标签得到的序列为y:
π∈B-1(y)={π|B(π}=y},
在输入
Figure FDA0002653010070000024
下,输出词对齐序列为π的概率为:
Figure FDA0002653010070000025
则对应样本文本输出y的概率为
Figure FDA0002653010070000026
则词对齐模型的损失函数为:
LossCTC=-logPCTC(y|s)。
6.根据权利要求5所述的基于注意力机制的半监督连续手语翻译装置,其特征在于,所述生成模块还包括:
采样单元,用于根据视频时间采样获取所述图像序列;
提取单元,根据所述图像序列通过目标检测SSD网络输出手部区域的包围坐标,并提取手部区域。
7.根据权利要求6所述的基于注意力机制的半监督连续手语翻译装置,其特征在于,所述训练模块还包括:
卷积神经网络特征提取单元,用于对所述手部区域图像序列进行编码,并提取卷积神经网络特征;
编码单元,用于通过词向量模型对翻译语句单词进行编码获取词特征序列;
最小化训练单元,用于将图像特征和所述词特征输入编码-解码结构的注意力机制语言模型,以对输出的连续时域分类损失函数进行最小化训练,并得到经过训练的词对齐序列。
8.根据权利要求7所述的基于注意力机制的半监督连续手语翻译装置,其特征在于,所述监督翻译模块还包括:
训练单元,将所述词对齐序列作为编码输入目标,通过所述语言模型进行训练,根据输出单词序列分类交叉熵作为损失函数进行训练;
预测单元,用于每得到一个生成词更新编码输入预测下一生成词,直至所述翻译语句结束。
CN201810399532.5A 2018-04-28 2018-04-28 基于注意力机制的半监督连续手语翻译方法及装置 Active CN108647603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810399532.5A CN108647603B (zh) 2018-04-28 2018-04-28 基于注意力机制的半监督连续手语翻译方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810399532.5A CN108647603B (zh) 2018-04-28 2018-04-28 基于注意力机制的半监督连续手语翻译方法及装置

Publications (2)

Publication Number Publication Date
CN108647603A CN108647603A (zh) 2018-10-12
CN108647603B true CN108647603B (zh) 2021-01-29

Family

ID=63748578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810399532.5A Active CN108647603B (zh) 2018-04-28 2018-04-28 基于注意力机制的半监督连续手语翻译方法及装置

Country Status (1)

Country Link
CN (1) CN108647603B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214347A (zh) * 2018-09-19 2019-01-15 北京因时机器人科技有限公司 一种跨语种的手语翻译方法、装置和移动设备
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN109635805B (zh) * 2018-12-11 2022-01-11 上海智臻智能网络科技股份有限公司 图像文本定位方法及装置、图像文本识别方法及装置
CN111368558B (zh) * 2018-12-25 2024-01-02 Tcl科技集团股份有限公司 基于神经网络的实时翻译方法、智能终端及存储介质
CN109859736B (zh) * 2019-01-23 2021-05-25 北京光年无限科技有限公司 语音合成方法及系统
CN110084209B (zh) * 2019-04-30 2022-06-24 电子科技大学 基于父子分类器的实时性手势识别方法
CN111918126A (zh) * 2019-05-10 2020-11-10 Tcl集团股份有限公司 音视频信息处理方法、装置、可读存储介质及终端设备
CN110163181B (zh) * 2019-05-29 2021-07-06 中国科学技术大学 手语识别方法及装置
CN110210416B (zh) * 2019-06-05 2021-10-01 中国科学技术大学 基于动态伪标签解码的手语识别系统优化方法及装置
CN110334684A (zh) * 2019-07-12 2019-10-15 上海秒针网络科技有限公司 指导洗手流程的方法及装置
CN110348420B (zh) * 2019-07-18 2022-03-18 腾讯科技(深圳)有限公司 手语识别方法、装置、计算机可读存储介质和计算机设备
CN110532912B (zh) * 2019-08-19 2022-09-27 合肥学院 一种手语翻译实现方法及装置
CN110728203B (zh) * 2019-09-23 2022-04-12 清华大学 基于深度学习的手语翻译视频生成方法及系统
CN110633688A (zh) * 2019-09-23 2019-12-31 中国科学技术大学 翻译模型的训练方法及装置和手语视频翻译方法及装置
CN110929869B (zh) * 2019-12-05 2021-09-07 同盾控股有限公司 序列数据处理方法、装置、设备及存储介质
CN111310701B (zh) * 2020-02-27 2023-02-10 腾讯科技(深圳)有限公司 手势识别方法、装置、设备及存储介质
CN111523435A (zh) * 2020-04-20 2020-08-11 安徽中科首脑智能医疗研究院有限公司 一种基于目标检测ssd的手指检测方法、系统及存储介质
CN111860485B (zh) * 2020-07-24 2024-04-26 腾讯科技(深圳)有限公司 图像识别模型的训练方法、图像的识别方法、装置、设备
CN112132094B (zh) * 2020-09-30 2022-07-15 中国科学技术大学 基于多语言协同的连续手语识别系统
CN112149603B (zh) * 2020-09-30 2022-07-15 中国科学技术大学 一种基于跨模态数据增广的连续手语识别方法
CN112861827B (zh) * 2021-04-08 2022-09-06 中国科学技术大学 运用单语料回译的手语翻译方法及系统
CN113537024B (zh) * 2021-07-08 2022-06-21 天津理工大学 多层时序注意力融合机制的弱监督神经网络手语识别方法
CN113609922B (zh) * 2021-07-13 2022-05-13 中国矿业大学 基于模态匹配的连续手语语句识别方法
CN113361505B (zh) * 2021-08-10 2021-12-07 杭州一知智能科技有限公司 基于对比解耦元学习的非特定人的手语翻译方法和系统
CN113657257B (zh) * 2021-08-16 2023-12-19 浙江大学 一种端到端的手语翻译方法和系统
CN113657127B (zh) * 2021-08-16 2023-08-18 浙江大学 手语生成方法和系统
CN117975573B (zh) * 2024-03-29 2024-06-18 华南理工大学 基于CNN-Transformer混合模型的手语翻译方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030031987A1 (en) * 2001-05-31 2003-02-13 Gore Jimmy Challis Manipulative visual language tool and method
CA2591808A1 (en) * 2007-07-11 2009-01-11 Hsien-Hsiang Chiu Intelligent object tracking and gestures sensing input device
CN104463250B (zh) * 2014-12-12 2017-10-27 广东工业大学 一种基于达芬奇技术的手语识别翻译方法
US9672418B2 (en) * 2015-02-06 2017-06-06 King Fahd University Of Petroleum And Minerals Arabic sign language recognition using multi-sensor data fusion
CN106778700A (zh) * 2017-01-22 2017-05-31 福州大学 一种基于変分编码器中国手语识别方法
CN106815578A (zh) * 2017-01-23 2017-06-09 重庆邮电大学 一种基于深度运动图‑尺度不变特征变换的手势识别方法

Also Published As

Publication number Publication date
CN108647603A (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
CN108647603B (zh) 基于注意力机制的半监督连续手语翻译方法及装置
WO2021233112A1 (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
Cihan Camgoz et al. Subunets: End-to-end hand shape and continuous sign language recognition
Gao et al. RNN-transducer based Chinese sign language recognition
WO2023035610A1 (zh) 基于关键词感知的多模态注意力视频问答方法与系统
CN110297908A (zh) 诊疗方案预测方法及装置
Liu et al. Towards multi-modal sarcasm detection via hierarchical congruity modeling with knowledge enhancement
CN113779310B (zh) 一种基于层级表征网络的视频理解文本生成方法
CN113486669B (zh) 应急救援输入语音的语义识别方法
CN113516152B (zh) 一种基于复合图像语义的图像描述方法
CN110110059A (zh) 一种基于深度学习的医疗对话系统意图识别分类方法
CN114676234A (zh) 一种模型训练方法及相关设备
CN110888980A (zh) 基于知识增强的注意力神经网络的隐式篇章关系识别方法
Kim et al. Cromm-vsr: Cross-modal memory augmented visual speech recognition
CN111144130A (zh) 一种基于上下文感知的混合神经网络的细粒度情感分类方法
CN111340006B (zh) 一种手语识别方法及系统
CN110298046B (zh) 一种翻译模型训练方法、文本翻译方法及相关装置
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
CN116432019A (zh) 一种数据处理方法及相关设备
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN113435216B (zh) 神经网络机器翻译模型训练方法、机器翻译方法和装置
Xue et al. Lcsnet: End-to-end lipreading with channel-aware feature selection
CN114360584A (zh) 一种基于音素级的语音情感分层式识别方法及系统
Yin et al. Spatial temporal enhanced network for continuous sign language recognition
CN117235261A (zh) 一种多模态方面级情感分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant