CN110096987A

CN110096987A - 一种基于双路3dcnn模型的哑语动作识别方法

Info

Publication number: CN110096987A
Application number: CN201910333068.4A
Authority: CN
Inventors: 王斌; 杨晓春; 赵征
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-08-06
Anticipated expiration: 2039-04-24
Also published as: CN110096987B

Abstract

本发明提供一种基于双路3DCNN模型的哑语动作识别方法，涉及计算机视觉技术领域。本发明步骤如下：步骤1：采集视频数据集；步骤2：对视频数据集进行预处理；步骤3：建立提取手势局部信息的3D卷积神经网络模型，输出手部的特征向量的集合；步骤4：建立提取整体全局信息的3D卷积神经网络模型，提取整体全局特征向量的集合；步骤5：建立双路的3D卷积神经网络模型，得出具有局部手势信息和全局整体信息的特征图谱；步骤6：得到词嵌入特征向量，将特征图谱和特征向量输入生成哑语句子的长短期记忆网络，经过迭代训练得到与哑语动作相对应的连贯句子。本方法能正确捕捉到人体的手势和肢体信息得到连贯的句子，客服了只能识别单一词汇的问题。

Description

一种基于双路3DCNN模型的哑语动作识别方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于双路3DCNN模型的哑语动作识别方法。

背景技术

哑语是聋哑人进行信息交流和交际的最自然的方法，也是聋哑学校进行教学和传递思想的重要途径。目前在中国的哑语教科书中包括大约5500个常规手势，每个手势对应一个汉语词。哑语识别的目的是通过计算机提供一种有效且准确的机制，将哑语翻译成文本或者语音使得聋哑人和听力正常的人之间的交流变得更加方便，快捷。在聋哑人与外界沟通时，如果对方不懂哑语，则会产生很多困扰，因此，许多的专家和学者都对哑语的机器识别展开了一系列研究，在欧美等许多发达国家中，对于该领域的研究都有专项的研究基金投入。目前，在我国约有2000万聋哑人，因此，如果能够成功研发出哑语的自动识别系统，那么无疑将直接造福于这个群体，为其提供一种更加自然，更加方便快捷地与健听人交流的途径，以便聋哑人更好地融入社会。在进行哑语识别时，不仅需要正确的捕捉手势动作，还要正确的对手势动作进行提取、分割、合成。而现今打大多数方法都是基于特征分类的方法对手势动作进行区分，这种方法的一个主要缺点是没有时间维度信息，因此只适用于对单个单词的识别，在进行长句子的连续识别时，效果较差。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于双路3DCNN模型的哑语动作识别方法，本方法可以正确捕捉到人体的手势和肢体信息，还加入了时间维度信息，可以得到连贯的句子，客服了只能识别单一词汇的问题。

为解决上述技术问题，本发明所采取的技术方案是：

本发明提供一种基于双路3DCNN模型的哑语动作识别方法，包括如下步骤：

步骤1：采集视频数据集，视频数据集包括训练集和测试集，所述训练集中的视频数据是人为标定了手部边框坐标信息的视频数据；

利用深度摄像头对视频数据进行采集，采集的数据要求能够清晰的显示出手的手掌和手腕关节点的坐标信息，同时还要对肢体及面部表情进行关键点的标定工作。每只手都需要采集5×4个关节以及手心共计21组数据，肢体动作需要采集14个关键点，总共标定56个关键点信息；

步骤2：对视频数据集进行预处理，包括对视频数据的填充、剪裁、缩放、数据集的增广操作；

步骤3：根据训练集中的视频数据建立提取手势局部信息的3D卷积神经网络模型，将测试集中的待识别视频数据F输入到提取手势局部信息的3D卷积神经网络模型中，输出手部的特征向量的集合U；所述3D为在二维图像上引入时间维度后组成的3D数据；具体步骤如下：

步骤3.1：建立初始SSD目标检测模型和分类网络模型，对SSD目标检测模型中的所有参数采用穷举和遍历的方式来确定合理的参数值范围；根据训练集中预先标定了手部边框标签信息的视频数据对初始SSD目标检测模型进行预训练，得到SSD目标检测模型；

步骤3.2：利用SSD目标检测模型对待识别视频数据F中的手部信息进行跟踪检测，得到手部信息的局部边框坐标的集合H＝{h₁,h₂,…,h_p,…,h_P}，其中h_p代表第p个手部信息的局部边框坐标，1≤p≤P；

步骤3.3：对步骤3.2中得到的局部边框坐标集合H中的每个数据按照尺寸集合S＝{s₁,s₂,…,s_k,…,s_m}中的尺寸进行放缩，其中s_k代表第k个尺寸，1≤k≤m；得到放缩后的手部边框坐标数据集合H′＝{h′₁,h′₂,…,h′_b,…,h′_B}；

集合S中的数据根据如下公式得出：

上式中，s_min代表人为设定的最小尺寸，s_max代表人为设定的最大尺寸；

步骤3.4：将集合H′＝{h′₁,h′₂,…,h′_b,…,h′_B}按照从大到小的编号顺序输入到分类网络模型中进行训练，提取手部特征向量的集合U；

步骤4：根据训练集中的视频数据建立提取整体全局信息的3D卷积神经网络模型，将待识别视频数据F作为提取整体全局信息的3D卷积神经网络模型的输入，提取出视频数据F的整体全局特征向量的集合U′；具体步骤如下：

步骤4.1：建立初始针对全局信息的目标检测模型，并对全局信息的目标检测模型中的所有参数采用穷举和遍历的方式来确定合理的参数值范围，得到针对全局信息的目标检测模型；

步骤4.2：将整个待识别视频数据F中按照人为选定的帧数将该帧数的视频图像以图片形式保存，得到按照时间顺序储存的图片帧的集合W＝{w₁,w₂,…,w_l,…,w_L}，其中w_l代表编号为l的图片，对集合中的图片按照S′＝{s′₁,s′₂,…,s′_k,…,s′_m}中的尺寸进行放缩操作，得到缩放后的图片帧的集合W′＝{w′₁,w′₂,…,w′_q,…,w′_Q}；

上式中，s′_min代表人为设定的最小尺寸，s′_max代表人为设定的最大尺寸；

步骤4.3：将缩放后的图片帧的集合W′＝{w′₁,w′₂,…,w′_q,…,w′_Q}按照编号从大到小的顺序输入到针对全局信息的目标检测模型中进行训练，提取出视频的整体全局特征向量的集合U′；

步骤5：将步骤3和步骤4得出的提取手势局部信息的3D卷积神经网络模型和提取整体全局信息的3D卷积神经网络模型按照视频数据的时间顺序并行执行，形成双路的3D卷积神经网络模型，将该模型输出的两个特征图谱沿着图谱的维度进行拼接，最终形成了既具有局部手势信息又具有全局整体信息的特征图谱；

步骤6：对视频中的哑语动作所对应的文本信息进行词嵌入向量编码，得到词嵌入特征向量，将一个单词转换成固定长度的向量表示，通过词嵌入用特征向量来代表特定的自然语言；将步骤5所得到的特征图谱和词嵌入特征向量作为生成哑语句子的长短期记忆网络的输入，经过迭代训练得到与哑语动作相对应的连贯句子。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于双路3DCNN模型的哑语动作识别方法，可以正确捕捉到人体的手势和肢体信息，从而可以准确的识别出相应的哑语含义，并且最终可以结合语言模型生成连贯的句子，实现了将哑语视频精准翻译成对应的自然语言的功能。如果将本发明嵌入到聋哑人的辅助设备当中去，那么一定可以更好的帮助聋哑人与健听人进行无障碍的沟通和交流，从而帮助聋哑人群更好的融入社会，提升聋哑人群的生活质量和精神幸福指数。另外，该项还可以应用于计算机辅助哑语教学、电视节目双语播放、医疗研究等诸多方面，可以为他们带来技术上帮助。本方法还加入了时间维度信息，可以得到连贯的句子，客服了只能识别单一词汇的弊端。

附图说明

图1为本发明实施例提供的哑语动作识别方法的流程图；

图2为本发明实施例提供的双路3DCNN模型图；

图3为本发明实施例提供的LSTM语言框架图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

传统的卷积神经网络只能获取输入数据的空间特征，但是对于手语视频来说，其包含的时间维度上的特征也非常重要，因此，本方法希望利用3DCNN模型框架来同时提取哑语视频流中的空间维度和时间维度上的信息，这里的3D不是指三维空间的3D，而是指在二维图像上，引入了时间维度后组成的3D数据，即由一连串的视频帧组成的数据。同时，哑语动作不同于一般的手势动作，哑语动作除了最重要的手部信息外，还需要脸部表情，肢体动作等其他部分的关键信息来辅助表达，因此，本专利除了需要在捕获局部关键信息的同时，还应该提取整体的全局信息来辅助解析。为此，本专利采用了两个并行执行的3DCNN网络来同时提取图片的局部信息和全局信息，我们将其称之为双路3DCNN模型，如图2所示。

如图1所示，本实施例的方法如下所述。

对于每一种手势，需要采集1000次以上的数据样本；同时，要对训练集中的样本进行标注，标注信息包括56个关键点信息、用于确定手势位置和边框信息以及代表哑语含义的文本信息。

步骤2：对视频数据集进行预处理，包括对视频数据的填充、剪裁、缩放、数据集的增广等操作；

本实施例中为首先对任意尺寸的视频进行平均值填充操作，使得视频的宽高比例为1:1，然后再对视频进行统一的缩放操作，如统一缩放到尺寸为224×224大小的视频，最后，对图片进行颜色转换，锐化，通道变换等操作来扩展数据集的大小，以提供模型的泛化能力；

步骤3：根据训练集中的视频数据建立提取手势局部信息的3D卷积神经网络模型；将测试集中的待识别视频数据F输入到提取手势局部信息的3D卷积神经网络模型中，输出手部的特征向量的集合U；所述3D为在二维图像上引入时间维度后组成的3D数据；具体步骤如下：

步骤3.1：建立初始SSD目标检测模型和分类网络模型，对SSD目标检测模型中的所有参数采用穷举和遍历的方式来确定合理的参数值范围；本专利采用的模型框架的通用参数设置如表1所示；首先将训练集中视频流按照人为设定的不同帧进行截取，组成图片数据集，然后将图片数据集和对应的手部边框标签制作成模型训练时使用的格式，根据训练集中预先标定了手部边框标签信息的视频数据对初始SSD目标检测模型进行预训练，得到SSD目标检测模型；

表1中的卷积神经网络模型包括三部分，第一部分是输入层，第二部分是5段卷积网络，每一段内包含2～3个卷积层，同时每一个卷积层之后还会有一个ReLU函数坐标激活函数，并且每一段卷积层之后都会利用池化层将特征图谱的尺寸减小。第三部分是2个全连接层，同样采用了ReLU函数为激活函数。需要注意的是，这里的全连接层的作用是辅助特征提取网络的预训练，在和后序模型拼接时，会将全连接层去掉，而只使用卷积网络部分，将其作为一个特征提取器来使用。

表1模型框架的通用参数设置

网络结构(提取局部特征)
	输入层(224X 224RGB图像)
卷积层(core：3X 3filters：32stride：1X 1)
	卷积层(core：3X 3filters：32stride：1X 1)
最大池化层(core：2X 2filters：32)
	卷积层(core：3X 3filters：64stride：1X 1)
卷积层(core：3X 3filters：64stride：1X 1)
	卷积层(core：3X 3filters：64stride：1X 1)
最大池化层(core：2X 2filters：64)
	卷积层(core：3X 3filters：128stride：1X 1)
卷积层(core：3X 3filters：128stride：1X 1)
	卷积层(core：3X 3filters：128stride：1X 1)
最大池化层(core：2X 2filters：128)
	卷积层(core：3X 3filters：256stride：1X 1)
卷积层(core：3X 3filters：256stride：1X 1)
	卷积层(core：3X 3filters：256stride：1X 1)
最大池化层(core：2X 2filters：128)
	卷积层(core：3X 3filters：512stride：1X 1)
卷积层(core：3X 3filters：512stride：1X 1)
	最大池化层(core：2X 2filters：512)
全连接层(1024)
	全连接层(100)
soft-max

步骤3.2：利用SSD目标检测模型对待识别视频数据F中的手部信息进行跟踪检测，这里获得的手部信息的边框坐标是用来确定手的位置，得到手部信息的局部边框坐标的集合H＝{h₁,h₂,…,h_p,…,h_P}，其中h_p代表第p个手部信息的局部边框坐标，1≤p≤P；

步骤3.3：对步骤3.2中得到的局部边框坐标集合H中的每个数据按照尺寸集合S＝{s₁,s₂,…,s_k,…,s_m}中的尺寸进行放缩，以便适应不同场景下的数据输入；其中s_k代表第k个尺寸，1≤k≤m；得到放缩后的手部边框坐标数据集合H′＝{h′₁,h′₂,…,h′_b,…,h′_B}；

集合S中的数据根据如下公式得出：

步骤3.4：将集合H′＝{h′₁,h′₂,…,h′_b,…,h′_B}按照从大到小的编号顺序输入到分类网络模型中进行训练，提取手部特征向量的集合U；具体来说，我们会将步骤3.1中放缩后的视频帧送入到步骤3.2中定义的网络模型中去，然后对模型进行训练，训练完成后，我们会将全连接层去掉，而只留下可以产生特征向量的卷积层；

当前的参数设置应该是针对整体全局信息而言的，具体的参数设置如表2所示；具体来说，这里我们需要设计的模型是针对正确全局信息而言的，因此，相对于步骤3.1中的模型结构，这里的网络模型需要设计更大的感受野以及更强的特征提取能力，我们可以通过增加每一个卷积段中卷积层的数量来达到这个目的；

表2针对整体全局信息的参数设置

网络结构(提取全局特征)
	输入层(224X 224RGB图像)
卷积层(core：3X 3filters：32stride：1X 1)
	卷积层(core：3X 3filters：32stride：1X 1)
最大池化层(core：2X 2filters：32)
	卷积层(core：1X 1filters：32stride：1X 1)
卷积层(core：3X 3filters：32stride：1X 1)
	卷积层(core：3X 3filters：32stride：1X 1)
卷积层(core：1X 1filters：64stride：1X 1)
	最大池化层(core：2X 2filters：64)
卷积层(core：1X 1filters：64stride：1X 1)
	卷积层(core：3X 3filters：64stride：1X 1)
卷积层(core：3X 3filters：64stride：1X 1)
	卷积层(core：1X 1filters：128stride：1X 1)
最大池化层(core：2X 2filters：128)
	卷积层(core：1X 1filters：128stride：1X 1)
卷积层(core：3X 3filters：128stride：1X 1)
	卷积层(core：3X 3filters：128stride：1X 1)
卷积层(core：1X 1filters：256stride：1X 1)
	最大池化层(core：2X 2filters：128)
卷积层(core：3X 3filters：512stride：1X 1)
	卷积层(core：3X 3filters：512stride：1X 1)
最大池化层(core：2X 2filters：512)
	全连接层(1024)
全连接层(100)
	soft-max

步骤4.2：将整个待识别视频数据F中按照人为选定的帧数将该帧数的视频图像以图片形式保存，得到按照时间顺序储存的图片帧的集合W＝{w₁,w₂,…,w_l,…,w_L}，其中w_l代表编号为l的图片，对集合中的图片按照S′＝{s′₁,s′₂,…,s′_k,…,s′_m}中的尺寸进行放缩操作，以便适应不同场景下的数据输入，得到缩放后的图片帧的集合W′＝{w′₁,w′₂,…,w′_q,…,w′_Q}；

步骤4.3：将缩放后的图片帧的集合W′＝{w′₁,w′₂,…,w′_q,…,w′_Q}按照编号从大到小的顺序输入到针对全局信息的目标检测模型中进行训练，提取出视频的整体全局特征向量的集合U′；此处的操作和步骤3.4中的操作类似，需要注意的是要确保两个模型最终输出的特征向量的尺寸必须是一致的；

步骤5：以上的步骤3和步骤4虽然一个是对整体特征进行提取，一个是对局部特征进行提取，但是二者没有互相依附的关系，而是互相补充的关系，将步骤3和步骤4得出的提取手势局部信息的3D卷积神经网络模型和提取整体全局信息的3D卷积神经网络模型按照视频数据的时间顺序并行执行，形成双路的3D卷积神经网络模型，将该模型输出的两个特征图谱沿着图谱的维度进行拼接，最终形成了既具有局部手势信息又具有全局整体信息的特征图谱；具体来说，在步骤3和步骤4中得到的两个特征图谱，它们的尺寸是相同的，因此，我们可以沿着深度维度将两个特征图谱“堆叠”在一起。

步骤6：对视频中的哑语动作所对应的文本信息进行词嵌入向量编码，得到词嵌入特征向量，将一个单词转换成固定长度的向量表示，通过词嵌入用特征向量来代表特定的自然语言；将步骤5所得到的特征图谱和词嵌入特征向量作为生成哑语句子的长短期记忆(LSTM)网络的输入，经过迭代训练得到与哑语动作相对应的连贯句子，如图3所示。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于双路3DCNN模型的哑语动作识别方法，其特征在于：包括如下步骤：

利用深度摄像头对视频数据进行采集，采集的数据要求能够清晰的显示出手的手掌和手腕关节点的坐标信息，同时还要对肢体及面部表情进行关键点的标定工作；每只手都需要采集5×4个关节以及手心共计21组数据，肢体动作需要采集14个关键点，总共标定56个关键点信息；

步骤3：根据训练集中的视频数据建立提取手势局部信息的3D卷积神经网络模型，将测试集中的待识别视频数据F输入到提取手势局部信息的3D卷积神经网络模型中，输出手部的特征向量的集合U；所述3D为在二维图像上引入时间维度后组成的3D数据；

步骤4：根据训练集中的视频数据建立提取整体全局信息的3D卷积神经网络模型，将待识别视频数据F作为提取整体全局信息的3D卷积神经网络模型的输入，提取出视频数据F的整体全局特征向量的集合U′；

2.根据权利要求1所述的一种基于双路3DCNN模型的哑语动作识别方法，其特征在于：所述步骤3具体步骤如下：

步骤3.2：利用SSD目标检测模型对待识别视频数据F中的手部信息进行跟踪检测，得到手部信息的局部边框坐标的集合H＝{h₁,h₂,…,h_p,…,h_P}，其中p代表第p个手部信息的局部边框坐标，1≤p≤P；

集合S中的数据根据如下公式得出：

步骤3.4：将集合H′＝{h′₁,h′₂,…,h′_b,…,h′_B}按照从大到小的编号顺序输入到分类网络模型中进行训练，提取手部特征向量的集合U。

3.根据权利要求1所述的一种基于双路3DCNN模型的哑语动作识别方法，其特征在于：所述步骤4具体步骤如下：

步骤4.3：将缩放后的图片帧的集合W′＝{w′₁,w′₂,…,w′_q,…,w′_Q}按照编号从大到小的顺序输入到针对全局信息的目标检测模型中进行训练，提取出视频的整体全局特征向量的集合U′。