CN111339782A - 一种基于多层次语义解析的手语翻译系统及方法 - Google Patents
一种基于多层次语义解析的手语翻译系统及方法 Download PDFInfo
- Publication number
- CN111339782A CN111339782A CN202010103960.6A CN202010103960A CN111339782A CN 111339782 A CN111339782 A CN 111339782A CN 202010103960 A CN202010103960 A CN 202010103960A CN 111339782 A CN111339782 A CN 111339782A
- Authority
- CN
- China
- Prior art keywords
- action
- visual
- sign language
- sequence
- video frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多层次语义解析的手语翻译系统及方法,该方法包括:1、使用卷积神经网络提取手语视频数据的视频帧特征;2、串联相邻的视频帧特征,并构建全连接网络学习串联后的视频帧特征,得到连续的视素单元;3、串联相邻的视素单元,并使用池化方法对串联后的视素单元进行降维压缩,得到视觉子动作特征;4、将视觉子动作特征聚类成多个动作块,并分别对每个动作块进行采样,输出一连串的动作块特征;5、构建循环神经网络,将连续的动作块特征转换成单词序列;6、使用联结主义时序分类模型将单词序列翻译成手语句子。本发明能从长时手语视频中翻译出自然语句,并提高连续手语翻译的准确性和连贯性。
Description
技术领域
本发明属于多媒体信息处理领域,涉及到计算机视觉、自然语言处理、机器学习等技术,具体地说是一种基于多层次语义解析的手语翻译系统及方法。
背景技术
手语是聋哑人与外界沟通的一种重要方式,基于视觉的手语识别与翻译为健全人和失聪失声人群的交流和互动提供了便利。早期的手语识别任务主要关注于离散手语单词的识别,而现实生活中的手语基本都以句子的形式出现,因此这类技术很难用于手语应用的实际情况。
随着计算存储设备和数字化设备的使用以及多媒体技术的发展,手语视频数据体量不断增大,数据形式也越来越复杂。如何高效学习和理解这些视频数据成为了手语翻译任务中一个亟待解决的问题。现有手语翻译方式包括直接对视频的每一帧进行分析,以获取描述语句,但是这种方式会产生大量的冗余信息,而且效率比较低。现有技术中,也有通过采用3D卷积神经网络的方式来理解手语视频,但是这种方式往往会不可避免的造成局部信息的丢失,从而导致了长时连续手语翻译的结果准确度较低。
发明内容
本发明针对现有技术中存在的不足之处,提供一种基于多层次语义解析的手语翻译系统及方法,以期能实现对基于视觉的连续手语句子的翻译,并提高手语翻译的准确性。
本发明为解决技术问题采用如下的方法方案:
本发明一种基于多层次语义解析的手语翻译系统的特点包括:特征提取模块,精细层语义解析模块,粗略层语义对齐模块;
所述特征提取模块,是采用深度学习的方法搭建并训练基于2D卷积神经网络的特征提取模型,并使用所述特征提取模型从数据库的长时手语视频中提取视频帧特征;
所述精细层语义解析模块,是对所述视频帧特征中的多个特征进行串联和学习,得到多个视素单元,并对所视素单元进行串联和池化操作,获得多个等长的视觉子动作;再通过聚类操作,将所述视觉子动作转换成一连串的动作块,并从所述动作块中采样出相同维度尺寸的动作块特征;
所述粗略层语义对齐模块,是采用深度学习的方法搭建并训练基于循环神经网络的序列转换模型,用于对所述动作块特征所构成的序列进行转换,得到一连串解码的单词序列,并使用联结主义时序分类模型对所述单词序列进行翻译,从而输出完整的手语自然语句。
本发明一种基于多层次语义解析的手语翻译方法的特点是按如下步骤进行:
步骤1、提取视频帧特征:
步骤2、学习视素单元:
步骤3、获取视觉子动作:
H=MaxPool([[g1,…,gn,…,gN]]) (2)
式(2)中,[[…]]表示串联操作,MaxPool(·)表示最大化池化;
步骤4、聚合动作块特征:
步骤4.1:在[0,1]范围内随机设定一个相关系数阈值λ;
步骤4.2:初始化s=1;
步骤4.3:根据式(3)计算所述视觉子动作集合H中的第s个视觉子动作hs与其相邻视觉子动作hs+1的相关系数Qs:
式(3)中,hi s表示第s个视觉子动作hs所表示的向量中第i个位置的值,hi s+1表示第s+1个视觉子动作hs+1所表示的向量中第i个位置的值,I为视觉子动作所表示的向量的总长度;
步骤4.4:若Qs≤λ,则将对应的相邻视觉子动作hs和hs+1划分为一类后,执行步骤4.5;否则,直接执行步骤4.5;
步骤4.5:将s+1赋值给s后,判断s>S是否成立,若成立,则表示获得所述视觉子动作集合H中的所有相邻的视觉子动作之间的相关系数和分类结果;否则,返回步骤4.3执行;
步骤5、转换单词序列:
步骤5.1:采用深度学习的方法构建基于循环神经网络的序列转换模型RNN,将动作块特征序列K′输入序列转换模型RNN,从而根据式(4)得到转换后的动作块特征序列K″:
式(4)中,RNN(·)表示序列转换模型,k″m表示转换后的第m个动作块特征;
步骤5.2:将转换后的动作块特征序列K″输入全连接网络FC(·),从而根据式(3)计算概率得分矩阵P:
步骤6、翻译手语句子:
将所述单词序列W中连续重复出现的单词进行合并,再删除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语自然语句。
与现有技术相比,本发明的有益效果体现在:
1、本发明利用多种深度学习技术,提出了一种基于多层次语义解析的手语翻译系统,该系统由特征提取模块、精细层语义解析模块和粗略层语义对齐模块组成,可以充分适用于长时连续手语视频的理解与翻译,并提高了手语识别的准确性。
2、本发明提出的精细层语义解析模块中,使用卷积神经网络、池化、聚类等多种方法对提取到的视频特征逐步求精、不断化简,得到的动作块特征对手语动作具有更强的表征能力,并且易于组合得到整个视频的语义表达。
3、本发明提出的粗略层语义对齐模块中,使用循环神经网络学习动作块之间的语义相关性,并采用联结主义时序分类方法翻译经过循环神经网络解码的单词序列,输出的手语自然语句具有更好连贯性和更高的准确度。
4、本发明提出一种基于多层次语义解析的手语翻译方法,该方法中从不同层次分析组合手语视频语义的方式可以学习到不同粒度的视觉信息,先理解分析再组合对齐翻译的方式充分发掘了视频数据的空间时序关联和上下文语义连贯性,提高了连续手语翻译的整体效果。
附图说明
图1为本发明实施例中多层次语义解析手语翻译系统的模块框图;
图2为本发明实施例中多层次语义解析手语翻译系统的精细层语义解析模块的结构图;
图3为本发明实施例中多层次语义解析手语翻译系统的粗略层语义对齐模块的结构图;
图4为本发明实施例中多层次语义解析手语翻译方法的操作流程图。
具体实施方式
下面将结合附图,对本发明的具体实施技术方案进行详细说明。
本实施例中,一种基于多层次语义解析的手语翻译系统,如图1所示,包括:特征提取模块,精细层语义解析模块,粗略层语义对齐模块;
其中,特征提取模块,是采用深度学习的方法搭建并训练基于2D卷积神经网络的特征提取模型,并使用特征提取模型从数据库的长时手语视频中提取视频帧特征;
在本实施例中,手语视频数据库包含100个常见句子的手语视频数据,由50个人对每个句子对应的手语进行演示,共有5000个视频。
精细层语义解析模块的结构图如图2所示,是对视频帧特征中的多个特征进行串联和学习,得到多个视素单元,并对所视素单元进行串联和池化操作,获得多个等长的视觉子动作;再通过聚类操作,将视觉子动作转换成一连串的动作块,并从动作块中采样出相同维度尺寸的动作块特征;
粗略层语义对齐模块的结构图如图3所示,是采用深度学习的方法搭建并训练基于循环神经网络的序列转换模型RNN,用于对动作块特征所构成的序列进行转换,从而根据式(1)的映射关系得到一连串解码的单词序列W;再使用联结主义时序分类模型对单词序列W进行翻译,具体的说,是先将单词序列中连续重复出现的单词进行合并,再删除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语自然语句;
本实施例中,一种基于多层次语义解析的手语翻译方法,首先使用卷积神经网络提取手语视频数据的视频帧特征;接着串联相邻的视频帧特征,并构建全连接网络学习串联后的视频帧特征,得到连续的视素单元;然后串联相邻的视素单元,并使用池化方法对串联后的视素单元进行降维压缩,得到视觉子动作特征;接下来将视觉子动作特征聚类成多个动作块,并分别对每个动作块进行采样,输出一连串的动作块特征;再构建循环神经网络,将连续的动作块特征转换成单词序列;最后使用联结主义时序分类模型将单词序列翻译成手语句子。如图4所示,具体的说,包括如下步骤:
步骤1、提取视频帧特征:
获取连续手语视频数据库,并将数据库中的视频数据划分为训练数据集和测试数据集两部分。划分的训练数据集包含4000个视频,测试数据集包含1000个视频。每条数据同时RGB视频数据和对应的手语自然语句。
将手语视频按照30帧每秒的帧率切割成连续视频帧序列,采用深度学习的方法搭建并训练基于2D卷积神经网络的特征提取模型,并使用特征提取模型对切割后的连续视频帧序列提取视频帧特征其中T表示长时手语视频的总帧数,ft代表第t帧的视频帧特征;
步骤2、学习视素单元:
步骤3、获取视觉子动作:
式(2)中,[[…]]表示串联操作,MaxPool(·)表示最大化池化;
步骤4、聚合动作块特征:
步骤4.1:在[0,1]范围内随机设定一个相关系数阈值λ;
步骤4.2:初始化s=1;
步骤4.3:根据式(4)计算视觉子动集合作H中的第s个视觉子动作hs与其相邻视觉子动作hs+1的相关系数Qs:
式(3)中,D(a,b)表示计算向量a和向量b的相关系数,hi s表示第s个视觉子动作hs所表示的向量中第i个位置的值,hi s+1表示第s+1个视觉子动作hs+1所表示的向量中第i个位置的值,I为视觉子动作所表示的向量的总长度;
步骤4.4:比较相关系数Qs和相关系数阈值λ的大小,若相关系数小于等于预设系数阈值时,则将对应的相邻视觉子动作hs和hs+1划分为一类后,执行步骤4.5;否则,直接执行步骤4.5;
步骤4.5:将s+1赋值给s后,判断s>S是否成立,若成立,则表示获得视觉子动作H中的所有相邻的子动作之间的相关系数和分类结果;否则,返回步骤4.3执行;
步骤5、转换单词序列:
步骤5.1:采用深度学习的方法构建基于循环神经网络的序列转换模型RNN,将动作块特征序列K′输入序列转换模型RNN,从而计算得到转换后的动作块特征序列K″;
在本实施例中,使用LSTM循环神经网络作为序列转换模型,先根据式(5)计算得到转换更新后的动作块特征序列K″:
式(5)中,LSTM(·)表示LSTM循环神经网络,k″m表示转换更新后的第m个动作块特征。
步骤5.2:将转换后的动作块特征序列K″输入全连接网络FC(·),并根据式(6)计算概率得分矩阵P:
步骤6、翻译手语句子:
先将单词序列W中连续重复出现的单词进行合并,再删除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语自然语句。
综上所述,本发明提出的一种基于多层次语义解析的手语翻译系统及方法,解决了连续手语翻译过程中视频数据语义理解的问题,通过多层次的精细语义解析使得手语视频的空间时序表示更加准确;采用的粗略层语义对齐模块避开了连续手语建模中时序动作分割的难题;该连续手语翻译系统及方法有效提升了长时手语视频翻译的性能。
Claims (2)
1.一种基于多层次语义解析的手语翻译系统,其特征包括:特征提取模块,精细层语义解析模块,粗略层语义对齐模块;
所述特征提取模块,是采用深度学习的方法搭建并训练基于2D卷积神经网络的特征提取模型,并使用所述特征提取模型从数据库的长时手语视频中提取视频帧特征;
所述精细层语义解析模块,是对所述视频帧特征中的多个特征进行串联和学习,得到多个视素单元,并对所视素单元进行串联和池化操作,获得多个等长的视觉子动作;再通过聚类操作,将所述视觉子动作转换成一连串的动作块,并从所述动作块中采样出相同维度尺寸的动作块特征;
所述粗略层语义对齐模块,是采用深度学习的方法搭建并训练基于循环神经网络的序列转换模型,用于对所述动作块特征所构成的序列进行转换,得到一连串解码的单词序列,并使用联结主义时序分类模型对所述单词序列进行翻译,从而输出完整的手语自然语句。
2.一种基于多层次语义解析的手语翻译方法,其特征是按如下步骤进行:
步骤1、提取视频帧特征:
步骤2、学习视素单元:
步骤3、获取视觉子动作:
步骤4、聚合动作块特征:
步骤4.1:在[0,1]范围内随机设定一个相关系数阈值λ;
步骤4.2:初始化s=1;
步骤4.3:根据式(3)计算所述视觉子动作集合H中的第s个视觉子动作hs与其相邻视觉子动作hs+1的相关系数Qs:
式(3)中,hi s表示第s个视觉子动作hs所表示的向量中第i个位置的值,hi s+1表示第s+1个视觉子动作hs+1所表示的向量中第i个位置的值,I为视觉子动作所表示的向量的总长度;
步骤4.4:若Qs≤λ,则将对应的相邻视觉子动作hs和hs+1划分为一类后,执行步骤4.5;否则,直接执行步骤4.5;
步骤4.5:将s+1赋值给s后,判断s>S是否成立,若成立,则表示获得所述视觉子动作集合H中的所有相邻的视觉子动作之间的相关系数和分类结果;否则,返回步骤4.3执行;
步骤5、转换单词序列:
步骤5.1:采用深度学习的方法构建基于循环神经网络的序列转换模型RNN,将动作块特征序列K′输入序列转换模型RNN,从而根据式(4)得到转换后的动作块特征序列K″:
式(4)中,RNN(·)表示序列转换模型,k″m表示转换后的第m个动作块特征;
步骤5.2:将转换后的动作块特征序列K″输入全连接网络FC(·),从而根据式(3)计算概率得分矩阵P:
步骤6、翻译手语句子:
将所述单词序列W中连续重复出现的单词进行合并,再删除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语自然语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010103960.6A CN111339782B (zh) | 2020-02-20 | 2020-02-20 | 一种基于多层次语义解析的手语翻译系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010103960.6A CN111339782B (zh) | 2020-02-20 | 2020-02-20 | 一种基于多层次语义解析的手语翻译系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339782A true CN111339782A (zh) | 2020-06-26 |
CN111339782B CN111339782B (zh) | 2023-03-28 |
Family
ID=71183461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010103960.6A Active CN111339782B (zh) | 2020-02-20 | 2020-02-20 | 一种基于多层次语义解析的手语翻译系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339782B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171198A (zh) * | 2018-01-11 | 2018-06-15 | 合肥工业大学 | 基于非对称多层lstm的连续手语视频自动翻译方法 |
CN109190578A (zh) * | 2018-09-13 | 2019-01-11 | 合肥工业大学 | 基于时域卷积网络与循环神经网络融合的手语视频翻译方法 |
WO2019114695A1 (zh) * | 2017-12-15 | 2019-06-20 | 腾讯科技(深圳)有限公司 | 基于翻译模型的训练方法、翻译方法、计算机设备及存储介质 |
-
2020
- 2020-02-20 CN CN202010103960.6A patent/CN111339782B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019114695A1 (zh) * | 2017-12-15 | 2019-06-20 | 腾讯科技(深圳)有限公司 | 基于翻译模型的训练方法、翻译方法、计算机设备及存储介质 |
CN108171198A (zh) * | 2018-01-11 | 2018-06-15 | 合肥工业大学 | 基于非对称多层lstm的连续手语视频自动翻译方法 |
CN109190578A (zh) * | 2018-09-13 | 2019-01-11 | 合肥工业大学 | 基于时域卷积网络与循环神经网络融合的手语视频翻译方法 |
Non-Patent Citations (1)
Title |
---|
肖焕侯等: "基于C3D和视觉元素的视频描述", 《华南理工大学学报(自然科学版)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111339782B (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN111831789B (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN111259804B (zh) | 一种基于图卷积的多模态融合手语识别系统及方法 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN113515951B (zh) | 基于知识增强注意力网络和组级语义的故事描述生成方法 | |
CN112990296A (zh) | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 | |
CN113204633B (zh) | 一种语义匹配蒸馏方法及装置 | |
CN113076465A (zh) | 一种基于深度哈希的通用跨模态检索模型 | |
CN113283336A (zh) | 一种文本识别方法与系统 | |
CN111858984A (zh) | 一种基于注意力机制哈希检索的图像匹配方法 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN114154016A (zh) | 基于目标空间语义对齐的视频描述方法 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN112990196B (zh) | 基于超参数搜索和二阶段训练的场景文字识别方法及系统 | |
CN111582287B (zh) | 一种基于充足视觉信息与文本信息的图像描述方法 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN111339782B (zh) | 一种基于多层次语义解析的手语翻译系统及方法 | |
CN114239575B (zh) | 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备 | |
CN113609355B (zh) | 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质 | |
CN115019137A (zh) | 一种多尺度双流注意力视频语言事件预测的方法及装置 | |
CN114565625A (zh) | 一种基于全局特征的矿物图像分割方法及装置 | |
CN114722798A (zh) | 一种基于卷积神经网络和注意力机制的反讽识别模型 | |
CN113569867A (zh) | 一种图像处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |