CN110096987A - 一种基于双路3dcnn模型的哑语动作识别方法 - Google Patents

一种基于双路3dcnn模型的哑语动作识别方法 Download PDF

Info

Publication number
CN110096987A
CN110096987A CN201910333068.4A CN201910333068A CN110096987A CN 110096987 A CN110096987 A CN 110096987A CN 201910333068 A CN201910333068 A CN 201910333068A CN 110096987 A CN110096987 A CN 110096987A
Authority
CN
China
Prior art keywords
video data
model
information
sign language
hand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910333068.4A
Other languages
English (en)
Other versions
CN110096987B (zh
Inventor
王斌
杨晓春
赵征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201910333068.4A priority Critical patent/CN110096987B/zh
Publication of CN110096987A publication Critical patent/CN110096987A/zh
Application granted granted Critical
Publication of CN110096987B publication Critical patent/CN110096987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于双路3DCNN模型的哑语动作识别方法,涉及计算机视觉技术领域。本发明步骤如下:步骤1:采集视频数据集;步骤2:对视频数据集进行预处理;步骤3:建立提取手势局部信息的3D卷积神经网络模型,输出手部的特征向量的集合;步骤4:建立提取整体全局信息的3D卷积神经网络模型,提取整体全局特征向量的集合;步骤5:建立双路的3D卷积神经网络模型,得出具有局部手势信息和全局整体信息的特征图谱;步骤6:得到词嵌入特征向量,将特征图谱和特征向量输入生成哑语句子的长短期记忆网络,经过迭代训练得到与哑语动作相对应的连贯句子。本方法能正确捕捉到人体的手势和肢体信息得到连贯的句子,客服了只能识别单一词汇的问题。

Description

一种基于双路3DCNN模型的哑语动作识别方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于双路3DCNN模型的哑语动作识别方法。
背景技术
哑语是聋哑人进行信息交流和交际的最自然的方法,也是聋哑学校进行教学和传递思想的重要途径。目前在中国的哑语教科书中包括大约5500个常规手势,每个手势对应一个汉语词。哑语识别的目的是通过计算机提供一种有效且准确的机制,将哑语翻译成文本或者语音使得聋哑人和听力正常的人之间的交流变得更加方便,快捷。在聋哑人与外界沟通时,如果对方不懂哑语,则会产生很多困扰,因此,许多的专家和学者都对哑语的机器识别展开了一系列研究,在欧美等许多发达国家中,对于该领域的研究都有专项的研究基金投入。目前,在我国约有2000万聋哑人,因此,如果能够成功研发出哑语的自动识别系统,那么无疑将直接造福于这个群体,为其提供一种更加自然,更加方便快捷地与健听人交流的途径,以便聋哑人更好地融入社会。在进行哑语识别时,不仅需要正确的捕捉手势动作,还要正确的对手势动作进行提取、分割、合成。而现今打大多数方法都是基于特征分类的方法对手势动作进行区分,这种方法的一个主要缺点是没有时间维度信息,因此只适用于对单个单词的识别,在进行长句子的连续识别时,效果较差。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于双路3DCNN模型的哑语动作识别方法,本方法可以正确捕捉到人体的手势和肢体信息,还加入了时间维度信息,可以得到连贯的句子,客服了只能识别单一词汇的问题。
为解决上述技术问题,本发明所采取的技术方案是:
本发明提供一种基于双路3DCNN模型的哑语动作识别方法,包括如下步骤:
步骤1:采集视频数据集,视频数据集包括训练集和测试集,所述训练集中的视频数据是人为标定了手部边框坐标信息的视频数据;
利用深度摄像头对视频数据进行采集,采集的数据要求能够清晰的显示出手的手掌和手腕关节点的坐标信息,同时还要对肢体及面部表情进行关键点的标定工作。每只手都需要采集5×4个关节以及手心共计21组数据,肢体动作需要采集14个关键点,总共标定56个关键点信息;
步骤2:对视频数据集进行预处理,包括对视频数据的填充、剪裁、缩放、数据集的增广操作;
步骤3:根据训练集中的视频数据建立提取手势局部信息的3D卷积神经网络模型,将测试集中的待识别视频数据F输入到提取手势局部信息的3D卷积神经网络模型中,输出手部的特征向量的集合U;所述3D为在二维图像上引入时间维度后组成的3D数据;具体步骤如下:
步骤3.1:建立初始SSD目标检测模型和分类网络模型,对SSD目标检测模型中的所有参数采用穷举和遍历的方式来确定合理的参数值范围;根据训练集中预先标定了手部边框标签信息的视频数据对初始SSD目标检测模型进行预训练,得到SSD目标检测模型;
步骤3.2:利用SSD目标检测模型对待识别视频数据F中的手部信息进行跟踪检测,得到手部信息的局部边框坐标的集合H={h1,h2,…,hp,…,hP},其中hp代表第p个手部信息的局部边框坐标,1≤p≤P;
步骤3.3:对步骤3.2中得到的局部边框坐标集合H中的每个数据按照尺寸集合S={s1,s2,…,sk,…,sm}中的尺寸进行放缩,其中sk代表第k个尺寸,1≤k≤m;得到放缩后的手部边框坐标数据集合H′={h′1,h′2,…,h′b,…,h′B};
集合S中的数据根据如下公式得出:
上式中,smin代表人为设定的最小尺寸,smax代表人为设定的最大尺寸;
步骤3.4:将集合H′={h′1,h′2,…,h′b,…,h′B}按照从大到小的编号顺序输入到分类网络模型中进行训练,提取手部特征向量的集合U;
步骤4:根据训练集中的视频数据建立提取整体全局信息的3D卷积神经网络模型,将待识别视频数据F作为提取整体全局信息的3D卷积神经网络模型的输入,提取出视频数据F的整体全局特征向量的集合U′;具体步骤如下:
步骤4.1:建立初始针对全局信息的目标检测模型,并对全局信息的目标检测模型中的所有参数采用穷举和遍历的方式来确定合理的参数值范围,得到针对全局信息的目标检测模型;
步骤4.2:将整个待识别视频数据F中按照人为选定的帧数将该帧数的视频图像以图片形式保存,得到按照时间顺序储存的图片帧的集合W={w1,w2,…,wl,…,wL},其中wl代表编号为l的图片,对集合中的图片按照S′={s′1,s′2,…,s′k,…,s′m}中的尺寸进行放缩操作,得到缩放后的图片帧的集合W′={w′1,w′2,…,w′q,…,w′Q};
上式中,s′min代表人为设定的最小尺寸,s′max代表人为设定的最大尺寸;
步骤4.3:将缩放后的图片帧的集合W′={w′1,w′2,…,w′q,…,w′Q}按照编号从大到小的顺序输入到针对全局信息的目标检测模型中进行训练,提取出视频的整体全局特征向量的集合U′;
步骤5:将步骤3和步骤4得出的提取手势局部信息的3D卷积神经网络模型和提取整体全局信息的3D卷积神经网络模型按照视频数据的时间顺序并行执行,形成双路的3D卷积神经网络模型,将该模型输出的两个特征图谱沿着图谱的维度进行拼接,最终形成了既具有局部手势信息又具有全局整体信息的特征图谱;
步骤6:对视频中的哑语动作所对应的文本信息进行词嵌入向量编码,得到词嵌入特征向量,将一个单词转换成固定长度的向量表示,通过词嵌入用特征向量来代表特定的自然语言;将步骤5所得到的特征图谱和词嵌入特征向量作为生成哑语句子的长短期记忆网络的输入,经过迭代训练得到与哑语动作相对应的连贯句子。
采用上述技术方案所产生的有益效果在于:本发明提供的一种基于双路3DCNN模型的哑语动作识别方法,可以正确捕捉到人体的手势和肢体信息,从而可以准确的识别出相应的哑语含义,并且最终可以结合语言模型生成连贯的句子,实现了将哑语视频精准翻译成对应的自然语言的功能。如果将本发明嵌入到聋哑人的辅助设备当中去,那么一定可以更好的帮助聋哑人与健听人进行无障碍的沟通和交流,从而帮助聋哑人群更好的融入社会,提升聋哑人群的生活质量和精神幸福指数。另外,该项还可以应用于计算机辅助哑语教学、电视节目双语播放、医疗研究等诸多方面,可以为他们带来技术上帮助。本方法还加入了时间维度信息,可以得到连贯的句子,客服了只能识别单一词汇的弊端。
附图说明
图1为本发明实施例提供的哑语动作识别方法的流程图;
图2为本发明实施例提供的双路3DCNN模型图;
图3为本发明实施例提供的LSTM语言框架图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
传统的卷积神经网络只能获取输入数据的空间特征,但是对于手语视频来说,其包含的时间维度上的特征也非常重要,因此,本方法希望利用3DCNN模型框架来同时提取哑语视频流中的空间维度和时间维度上的信息,这里的3D不是指三维空间的3D,而是指在二维图像上,引入了时间维度后组成的3D数据,即由一连串的视频帧组成的数据。同时,哑语动作不同于一般的手势动作,哑语动作除了最重要的手部信息外,还需要脸部表情,肢体动作等其他部分的关键信息来辅助表达,因此,本专利除了需要在捕获局部关键信息的同时,还应该提取整体的全局信息来辅助解析。为此,本专利采用了两个并行执行的3DCNN网络来同时提取图片的局部信息和全局信息,我们将其称之为双路3DCNN模型,如图2所示。
如图1所示,本实施例的方法如下所述。
本发明提供一种基于双路3DCNN模型的哑语动作识别方法,包括如下步骤:
步骤1:采集视频数据集,视频数据集包括训练集和测试集,所述训练集中的视频数据是人为标定了手部边框坐标信息的视频数据;
利用深度摄像头对视频数据进行采集,采集的数据要求能够清晰的显示出手的手掌和手腕关节点的坐标信息,同时还要对肢体及面部表情进行关键点的标定工作。每只手都需要采集5×4个关节以及手心共计21组数据,肢体动作需要采集14个关键点,总共标定56个关键点信息;
对于每一种手势,需要采集1000次以上的数据样本;同时,要对训练集中的样本进行标注,标注信息包括56个关键点信息、用于确定手势位置和边框信息以及代表哑语含义的文本信息。
步骤2:对视频数据集进行预处理,包括对视频数据的填充、剪裁、缩放、数据集的增广等操作;
本实施例中为首先对任意尺寸的视频进行平均值填充操作,使得视频的宽高比例为1:1,然后再对视频进行统一的缩放操作,如统一缩放到尺寸为224×224大小的视频,最后,对图片进行颜色转换,锐化,通道变换等操作来扩展数据集的大小,以提供模型的泛化能力;
步骤3:根据训练集中的视频数据建立提取手势局部信息的3D卷积神经网络模型;将测试集中的待识别视频数据F输入到提取手势局部信息的3D卷积神经网络模型中,输出手部的特征向量的集合U;所述3D为在二维图像上引入时间维度后组成的3D数据;具体步骤如下:
步骤3.1:建立初始SSD目标检测模型和分类网络模型,对SSD目标检测模型中的所有参数采用穷举和遍历的方式来确定合理的参数值范围;本专利采用的模型框架的通用参数设置如表1所示;首先将训练集中视频流按照人为设定的不同帧进行截取,组成图片数据集,然后将图片数据集和对应的手部边框标签制作成模型训练时使用的格式,根据训练集中预先标定了手部边框标签信息的视频数据对初始SSD目标检测模型进行预训练,得到SSD目标检测模型;
表1中的卷积神经网络模型包括三部分,第一部分是输入层,第二部分是5段卷积网络,每一段内包含2~3个卷积层,同时每一个卷积层之后还会有一个ReLU函数坐标激活函数,并且每一段卷积层之后都会利用池化层将特征图谱的尺寸减小。第三部分是2个全连接层,同样采用了ReLU函数为激活函数。需要注意的是,这里的全连接层的作用是辅助特征提取网络的预训练,在和后序模型拼接时,会将全连接层去掉,而只使用卷积网络部分,将其作为一个特征提取器来使用。
表1模型框架的通用参数设置
网络结构(提取局部特征)
输入层(224X 224RGB图像)
卷积层(core:3X 3filters:32stride:1X 1)
卷积层(core:3X 3filters:32stride:1X 1)
最大池化层(core:2X 2filters:32)
卷积层(core:3X 3filters:64stride:1X 1)
卷积层(core:3X 3filters:64stride:1X 1)
卷积层(core:3X 3filters:64stride:1X 1)
最大池化层(core:2X 2filters:64)
卷积层(core:3X 3filters:128stride:1X 1)
卷积层(core:3X 3filters:128stride:1X 1)
卷积层(core:3X 3filters:128stride:1X 1)
最大池化层(core:2X 2filters:128)
卷积层(core:3X 3filters:256stride:1X 1)
卷积层(core:3X 3filters:256stride:1X 1)
卷积层(core:3X 3filters:256stride:1X 1)
最大池化层(core:2X 2filters:128)
卷积层(core:3X 3filters:512stride:1X 1)
卷积层(core:3X 3filters:512stride:1X 1)
最大池化层(core:2X 2filters:512)
全连接层(1024)
全连接层(100)
soft-max
步骤3.2:利用SSD目标检测模型对待识别视频数据F中的手部信息进行跟踪检测,这里获得的手部信息的边框坐标是用来确定手的位置,得到手部信息的局部边框坐标的集合H={h1,h2,…,hp,…,hP},其中hp代表第p个手部信息的局部边框坐标,1≤p≤P;
步骤3.3:对步骤3.2中得到的局部边框坐标集合H中的每个数据按照尺寸集合S={s1,s2,…,sk,…,sm}中的尺寸进行放缩,以便适应不同场景下的数据输入;其中sk代表第k个尺寸,1≤k≤m;得到放缩后的手部边框坐标数据集合H′={h′1,h′2,…,h′b,…,h′B};
集合S中的数据根据如下公式得出:
上式中,smin代表人为设定的最小尺寸,smax代表人为设定的最大尺寸;
步骤3.4:将集合H′={h′1,h′2,…,h′b,…,h′B}按照从大到小的编号顺序输入到分类网络模型中进行训练,提取手部特征向量的集合U;具体来说,我们会将步骤3.1中放缩后的视频帧送入到步骤3.2中定义的网络模型中去,然后对模型进行训练,训练完成后,我们会将全连接层去掉,而只留下可以产生特征向量的卷积层;
步骤4:根据训练集中的视频数据建立提取整体全局信息的3D卷积神经网络模型,将待识别视频数据F作为提取整体全局信息的3D卷积神经网络模型的输入,提取出视频数据F的整体全局特征向量的集合U′;具体步骤如下:
步骤4.1:建立初始针对全局信息的目标检测模型,并对全局信息的目标检测模型中的所有参数采用穷举和遍历的方式来确定合理的参数值范围,得到针对全局信息的目标检测模型;
当前的参数设置应该是针对整体全局信息而言的,具体的参数设置如表2所示;具体来说,这里我们需要设计的模型是针对正确全局信息而言的,因此,相对于步骤3.1中的模型结构,这里的网络模型需要设计更大的感受野以及更强的特征提取能力,我们可以通过增加每一个卷积段中卷积层的数量来达到这个目的;
表2针对整体全局信息的参数设置
网络结构(提取全局特征)
输入层(224X 224RGB图像)
卷积层(core:3X 3filters:32stride:1X 1)
卷积层(core:3X 3filters:32stride:1X 1)
最大池化层(core:2X 2filters:32)
卷积层(core:1X 1filters:32stride:1X 1)
卷积层(core:3X 3filters:32stride:1X 1)
卷积层(core:3X 3filters:32stride:1X 1)
卷积层(core:1X 1filters:64stride:1X 1)
最大池化层(core:2X 2filters:64)
卷积层(core:1X 1filters:64stride:1X 1)
卷积层(core:3X 3filters:64stride:1X 1)
卷积层(core:3X 3filters:64stride:1X 1)
卷积层(core:1X 1filters:128stride:1X 1)
最大池化层(core:2X 2filters:128)
卷积层(core:1X 1filters:128stride:1X 1)
卷积层(core:3X 3filters:128stride:1X 1)
卷积层(core:3X 3filters:128stride:1X 1)
卷积层(core:1X 1filters:256stride:1X 1)
最大池化层(core:2X 2filters:128)
卷积层(core:3X 3filters:512stride:1X 1)
卷积层(core:3X 3filters:512stride:1X 1)
最大池化层(core:2X 2filters:512)
全连接层(1024)
全连接层(100)
soft-max
步骤4.2:将整个待识别视频数据F中按照人为选定的帧数将该帧数的视频图像以图片形式保存,得到按照时间顺序储存的图片帧的集合W={w1,w2,…,wl,…,wL},其中wl代表编号为l的图片,对集合中的图片按照S′={s′1,s′2,…,s′k,…,s′m}中的尺寸进行放缩操作,以便适应不同场景下的数据输入,得到缩放后的图片帧的集合W′={w′1,w′2,…,w′q,…,w′Q};
上式中,s′min代表人为设定的最小尺寸,s′max代表人为设定的最大尺寸;
步骤4.3:将缩放后的图片帧的集合W′={w′1,w′2,…,w′q,…,w′Q}按照编号从大到小的顺序输入到针对全局信息的目标检测模型中进行训练,提取出视频的整体全局特征向量的集合U′;此处的操作和步骤3.4中的操作类似,需要注意的是要确保两个模型最终输出的特征向量的尺寸必须是一致的;
步骤5:以上的步骤3和步骤4虽然一个是对整体特征进行提取,一个是对局部特征进行提取,但是二者没有互相依附的关系,而是互相补充的关系,将步骤3和步骤4得出的提取手势局部信息的3D卷积神经网络模型和提取整体全局信息的3D卷积神经网络模型按照视频数据的时间顺序并行执行,形成双路的3D卷积神经网络模型,将该模型输出的两个特征图谱沿着图谱的维度进行拼接,最终形成了既具有局部手势信息又具有全局整体信息的特征图谱;具体来说,在步骤3和步骤4中得到的两个特征图谱,它们的尺寸是相同的,因此,我们可以沿着深度维度将两个特征图谱“堆叠”在一起。
步骤6:对视频中的哑语动作所对应的文本信息进行词嵌入向量编码,得到词嵌入特征向量,将一个单词转换成固定长度的向量表示,通过词嵌入用特征向量来代表特定的自然语言;将步骤5所得到的特征图谱和词嵌入特征向量作为生成哑语句子的长短期记忆(LSTM)网络的输入,经过迭代训练得到与哑语动作相对应的连贯句子,如图3所示。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (3)

1.一种基于双路3DCNN模型的哑语动作识别方法,其特征在于:包括如下步骤:
步骤1:采集视频数据集,视频数据集包括训练集和测试集,所述训练集中的视频数据是人为标定了手部边框坐标信息的视频数据;
利用深度摄像头对视频数据进行采集,采集的数据要求能够清晰的显示出手的手掌和手腕关节点的坐标信息,同时还要对肢体及面部表情进行关键点的标定工作;每只手都需要采集5×4个关节以及手心共计21组数据,肢体动作需要采集14个关键点,总共标定56个关键点信息;
步骤2:对视频数据集进行预处理,包括对视频数据的填充、剪裁、缩放、数据集的增广操作;
步骤3:根据训练集中的视频数据建立提取手势局部信息的3D卷积神经网络模型,将测试集中的待识别视频数据F输入到提取手势局部信息的3D卷积神经网络模型中,输出手部的特征向量的集合U;所述3D为在二维图像上引入时间维度后组成的3D数据;
步骤4:根据训练集中的视频数据建立提取整体全局信息的3D卷积神经网络模型,将待识别视频数据F作为提取整体全局信息的3D卷积神经网络模型的输入,提取出视频数据F的整体全局特征向量的集合U′;
步骤5:将步骤3和步骤4得出的提取手势局部信息的3D卷积神经网络模型和提取整体全局信息的3D卷积神经网络模型按照视频数据的时间顺序并行执行,形成双路的3D卷积神经网络模型,将该模型输出的两个特征图谱沿着图谱的维度进行拼接,最终形成了既具有局部手势信息又具有全局整体信息的特征图谱;
步骤6:对视频中的哑语动作所对应的文本信息进行词嵌入向量编码,得到词嵌入特征向量,将一个单词转换成固定长度的向量表示,通过词嵌入用特征向量来代表特定的自然语言;将步骤5所得到的特征图谱和词嵌入特征向量作为生成哑语句子的长短期记忆网络的输入,经过迭代训练得到与哑语动作相对应的连贯句子。
2.根据权利要求1所述的一种基于双路3DCNN模型的哑语动作识别方法,其特征在于:所述步骤3具体步骤如下:
步骤3.1:建立初始SSD目标检测模型和分类网络模型,对SSD目标检测模型中的所有参数采用穷举和遍历的方式来确定合理的参数值范围;根据训练集中预先标定了手部边框标签信息的视频数据对初始SSD目标检测模型进行预训练,得到SSD目标检测模型;
步骤3.2:利用SSD目标检测模型对待识别视频数据F中的手部信息进行跟踪检测,得到手部信息的局部边框坐标的集合H={h1,h2,…,hp,…,hP},其中p代表第p个手部信息的局部边框坐标,1≤p≤P;
步骤3.3:对步骤3.2中得到的局部边框坐标集合H中的每个数据按照尺寸集合S={s1,s2,…,sk,…,sm}中的尺寸进行放缩,其中sk代表第k个尺寸,1≤k≤m;得到放缩后的手部边框坐标数据集合H′={h′1,h′2,…,h′b,…,h′B};
集合S中的数据根据如下公式得出:
上式中,smin代表人为设定的最小尺寸,smax代表人为设定的最大尺寸;
步骤3.4:将集合H′={h′1,h′2,…,h′b,…,h′B}按照从大到小的编号顺序输入到分类网络模型中进行训练,提取手部特征向量的集合U。
3.根据权利要求1所述的一种基于双路3DCNN模型的哑语动作识别方法,其特征在于:所述步骤4具体步骤如下:
步骤4.1:建立初始针对全局信息的目标检测模型,并对全局信息的目标检测模型中的所有参数采用穷举和遍历的方式来确定合理的参数值范围,得到针对全局信息的目标检测模型;
步骤4.2:将整个待识别视频数据F中按照人为选定的帧数将该帧数的视频图像以图片形式保存,得到按照时间顺序储存的图片帧的集合W={w1,w2,…,wl,…,wL},其中wl代表编号为l的图片,对集合中的图片按照S′={s′1,s′2,…,s′k,…,s′m}中的尺寸进行放缩操作,得到缩放后的图片帧的集合W′={w′1,w′2,…,w′q,…,w′Q};
上式中,s′min代表人为设定的最小尺寸,s′max代表人为设定的最大尺寸;
步骤4.3:将缩放后的图片帧的集合W′={w′1,w′2,…,w′q,…,w′Q}按照编号从大到小的顺序输入到针对全局信息的目标检测模型中进行训练,提取出视频的整体全局特征向量的集合U′。
CN201910333068.4A 2019-04-24 2019-04-24 一种基于双路3dcnn模型的哑语动作识别方法 Active CN110096987B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910333068.4A CN110096987B (zh) 2019-04-24 2019-04-24 一种基于双路3dcnn模型的哑语动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910333068.4A CN110096987B (zh) 2019-04-24 2019-04-24 一种基于双路3dcnn模型的哑语动作识别方法

Publications (2)

Publication Number Publication Date
CN110096987A true CN110096987A (zh) 2019-08-06
CN110096987B CN110096987B (zh) 2022-04-12

Family

ID=67445668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910333068.4A Active CN110096987B (zh) 2019-04-24 2019-04-24 一种基于双路3dcnn模型的哑语动作识别方法

Country Status (1)

Country Link
CN (1) CN110096987B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340006A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法及系统
CN112149540A (zh) * 2020-09-14 2020-12-29 东北大学 基于yolov3端到端手语识别技术
CN113420703A (zh) * 2021-07-03 2021-09-21 西北工业大学 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
US20180239144A1 (en) * 2017-02-16 2018-08-23 Magic Leap, Inc. Systems and methods for augmented reality
US20180322338A1 (en) * 2017-05-02 2018-11-08 King Fahd University Of Petroleum And Minerals Computer implemented method for sign language characterization
CN109032356A (zh) * 2018-07-27 2018-12-18 深圳绿米联创科技有限公司 手语控制方法、装置及系统
CN109325411A (zh) * 2018-08-17 2019-02-12 安徽信息工程学院 基于Kinect的动态手语识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180239144A1 (en) * 2017-02-16 2018-08-23 Magic Leap, Inc. Systems and methods for augmented reality
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
US20180322338A1 (en) * 2017-05-02 2018-11-08 King Fahd University Of Petroleum And Minerals Computer implemented method for sign language characterization
CN109032356A (zh) * 2018-07-27 2018-12-18 深圳绿米联创科技有限公司 手语控制方法、装置及系统
CN109325411A (zh) * 2018-08-17 2019-02-12 安徽信息工程学院 基于Kinect的动态手语识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIE HUANG 等: "SIGN LANGUAGE RECOGNITION USING 3D CONVOLUTIONAL NEURAL NETWORKS", 《IEEE》 *
YANQIU LIAO 等: "Dynamic Sign Language Recognition Based on Video Sequence With BLSTM-3D Residual Networks", 《IEEE》 *
徐鑫鑫 等: "连续复杂手语中关键动作的提取算法", 《计算机科学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340006A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法及系统
CN112149540A (zh) * 2020-09-14 2020-12-29 东北大学 基于yolov3端到端手语识别技术
CN113420703A (zh) * 2021-07-03 2021-09-21 西北工业大学 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法

Also Published As

Publication number Publication date
CN110096987B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN110414519A (zh) 一种图片文字的识别方法及其识别装置
CN107239801A (zh) 视频属性表示学习方法及视频文字描述自动生成方法
CN109376582A (zh) 一种基于生成对抗网络的交互式人脸卡通方法
CN110096987A (zh) 一种基于双路3dcnn模型的哑语动作识别方法
CN113343705B (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN110728220A (zh) 基于人体动作骨骼信息的体操辅助训练方法
CN110675853A (zh) 一种基于深度学习的情感语音合成方法及装置
CN108664885A (zh) 基于多尺度级联HourGlass网络的人体关键点检测方法
CN102567716A (zh) 一种人脸合成系统及实现方法
CN115209180A (zh) 视频生成方法以及装置
CN115908659A (zh) 一种基于生成对抗网络的说话人脸合成方法和装置
CN112102468B (zh) 模型训练、虚拟人物图像生成方法和装置以及存储介质
CN109993130A (zh) 一种基于深度图像动态手语语义识别系统及方法
CN109300469A (zh) 基于机器学习的同声传译方法及装置
CN116109455B (zh) 一种基于人工智能的语言教学辅助系统
CN109145946A (zh) 一种智能图像识别和描述方法
CN110648654A (zh) 一种引入语言向量的语音识别增强方法和装置
CN104505089B (zh) 口语纠错方法及设备
CN115471886A (zh) 一种数字人生成方法及系统
CN115861614A (zh) 一种基于羽绒服图像的自动生成语义分割图的方法和装置
CN111105487B (zh) 一种虚拟教师系统中的面部合成方法及装置
CN109859306A (zh) 一种基于机器学习的从照片中提取人体模型的方法
CN110796150B (zh) 一种基于情感显著性区域检测的图片情感识别方法
US11734389B2 (en) Method for generating human-computer interactive abstract image
CN111312211A (zh) 一种基于过采样技术的方言语音识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant