CN112464816A

CN112464816A - 基于二次迁移学习的地方手语识别方法、装置

Info

Publication number: CN112464816A
Application number: CN202011361432.7A
Authority: CN
Inventors: 蒋贤维
Original assignee: Nanjing Normal University Of Special Education
Current assignee: Nanjing Normal University Of Special Education
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-09

Abstract

本发明公开了一种基于二次迁移学习的地方手语识别方法、装置，其中地方手语识别模型的学习训练步骤包括：采用普通图片作为训练集对卷积神经网络模型进行训练，得到初始图像识别模型；保持初始图像识别模型的部分网络层，对其他网络层进行替换，得到一次迁移学习手语识别模型；采用地方手语图像作为训练集，对一次迁移学习手语识别模型进行参数调整，得到二次迁移学习手语识别模型。采用上述方案，对地方手语训练模型进行训练的过程中，采用二次迁移学习，降低模型对于地方手语标签样本数据的依赖性，提高地方手语训练模型的识别准确率，降低训练学习成本。

Description

基于二次迁移学习的地方手语识别方法、装置

技术领域

本发明涉及手语识别领域，尤其涉及一种基于二次迁移学习的地方手语识别方法、装置。

背景技术

手语识别可以通过计算机技术把手语信息转换成文本、语音、视频或其他自然语言表现等容易理解和交流的信息，一定程度上解决了在众多场合下很难专门投入手语翻译人员长期进行手语翻译，可以帮助聋人和听障人士融入社会生活。但在我国的手语体系之中，除了中残联组织专家编制的《国家通用手语词典》标准，各个地方还有自己的手语表达方式，根据“中国手语使用调查”，59.6％的成年聋人和33％的聋人学生更愿意使用地方手语，甚至77.3％的特殊学校教师相信同省同行们使用和表达的手语是有所不同或非常不同的。因此，地方手语的识别研究成为中国手语识别新的挑战，同时也为将来进一步完成地方手语的调查和保护提供支撑。

由于神经网络的深度训练学习依赖于海量的标签样本数据，因此在在足够数据训练集的模式下，国家标准手语识别准确率得到了很大提升，但是对于地方手语而言，由于标签样本数据的数量很小，因此难以训练得到识别准确率较高的地方手语识别模型。

发明内容

发明目的：本发明旨在提供一种基于二次迁移学习的地方手语识别方法，对于地方手语的识别结果准确率较高。

技术方案：本发明提供一种基于二次迁移学习的地方手语识别方法，包括：

采用地方手语识别模型，对地方手语图像进行识别；所述地方手语识别模型的学习训练步骤包括如下：

采用普通图片作为训练集对卷积神经网络模型进行训练，得到初始图像识别模型；

将输出层的分类输出数量修改为与手语类别数量相对应后，保持初始图像识别模型的部分网络层不变，对其他网络层进行替换，采用全国手语图像作为训练集对初始图像识别模型进行训练，得到一次迁移学习手语识别模型；

对一次迁移学习手语识别模型进行参数调整，采用地方手语图像作为训练集，得到二次迁移学习手语识别模型，将二次迁移学习手语识别模型作为所述地方手语识别模型。

具体的，所述卷积神经网络模型为AlexNet网络模型，应用ReLU函数作为激活函数，应用dropout函数，应用本地响应规范化层用于对相邻数据进行归一化，应用重叠池化层。

具体的，所述AlexNet网络模型的网络层依次包括输入层、五层卷积层、三层全连接层、softmax层和输出层，其中每层卷积层对应有ReLU层、归一化层和池化层。

具体的，保持五层卷积层和前两层全连接层不变，基于最后一层全连接层与输出层的分类输出数量相对应，随机初始化最后一层全连接层后，对初始图像识别模型进行训练。

具体的，采用数据增强扩充训练集；所述数据增强包括：PCA色彩增强，仿射变换，噪声注入，图像缩放，图像随机移位和图像伽玛校正。

具体的，应用自适应动量算法对二次迁移学习手语识别模型进行优化训练。

具体的，基于二次迁移学习手语识别模型的混淆矩阵和各分类类别对应的ROC曲线，对识别准确率低于预设阈值的手语类别的训练数据进行标签修正后，再次进行训练。

本发明提供一种基于二次迁移学习的地方手语识别装置，包括：识别单元、初始训练单元、一次迁移单元和二次迁移单元，其中：

所述识别单元，用于采用地方手语识别模型，对地方手语图像进行识别；所述地方手语识别模型的学习训练步骤包括如下：

所述初始训练单元，用于采用普通图片作为训练集对卷积神经网络模型进行训练，得到初始图像识别模型；

所述一次迁移单元，用于将输出层的分类输出数量修改为与手语类别数量相对应后，保持初始图像识别模型的部分网络层不变，对其他网络层进行替换，采用全国手语图像作为训练集对初始图像识别模型进行训练，得到一次迁移学习手语识别模型；

所述二次迁移单元，对一次迁移学习手语识别模型进行参数调整，用于采用地方手语图像作为训练集，得到二次迁移学习手语识别模型，将二次迁移学习手语识别模型作为所述地方手语识别模型。

具体的，所述卷积神经网络模型为AlexNet网络模型，所述AlexNet网络模型的网络层依次包括输入层、五层卷积层、三层全连接层、softmax层和输出层，其中每层卷积层对应有ReLU层、归一化层和池化层。

具体的，所述一次迁移单元，用于保持五层卷积层和前两层全连接层不变，基于最后一层全连接层与输出层的分类输出数量相对应，随机初始化最后一层全连接层后，对初始图像识别模型进行训练。

有益效果：与现有技术相比，本发明具有如下显著优点：在对地方手语训练模型进行训练的过程中，采用二次迁移，降低模型对于地方手语标签样本数据的依赖性，提高地方手语训练模型的识别准确率，降低训练学习成本。

附图说明

图1为本发明提供的基于二次迁移学习的地方手语识别模型的训练流程示意图；

图2为本发明提供的一次迁移学习冻结层和替换层的示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

参阅图1，其为本发明提供的基于二次迁移学习的地方手语识别模型的训练流程示意图。

本发明提供一种基于二次迁移学习的地方手语识别方法，包括：

步骤1，采用普通图片(可以不仅仅是手语图像)作为训练集对卷积神经网络模型进行训练，得到初始图像识别模型；

步骤2，将输出层的分类输出数量修改为与手语类别数量(例如手语拼音类别数量)相对应后，保持初始图像识别模型的部分网络层不变，对其他网络层进行替换，采用全国手语图像作为训练集对初始图像识别模型进行训练，得到一次迁移学习手语识别模型；

步骤3，对一次迁移学习手语识别模型进行参数调整，采用地方手语图像作为训练集，得到二次迁移学习手语识别模型，将二次迁移学习手语识别模型作为所述地方手语识别模型。

本发明实施例中，所述卷积神经网络模型为AlexNet网络模型，应用ReLU函数作为激活函数，应用dropout函数，应用本地响应规范化层用于对相邻数据进行归一化，应用重叠池化层。

本发明实施例中，所述AlexNet网络模型的网络层依次包括输入层、五层卷积层、三层全连接层、softmax层和输出层，其中每层卷积层对应有ReLU层、归一化层和池化层。

在具体实施中，基本的AlexNet神经网络的包含五个卷积层(CL层)和三个完全连接层(FCL层，其中包括softmax层)。所有这些层都有可学习的权重系数，需要适当调整和优化，为了适应对手语图像的学习训练，对AlexNet网络模型进行相应的优化和改进。本发明中构建包括优化拓展功能的共26层的AlexNet神经网络，分别是输入层，卷积层CL1，ReLU层1，归一化层1，池化层1，卷积层CL2，ReLU层2，归一化层2，池化层2，卷积层CL3，ReLU层3，归一化层3，池化层3，卷积层CL4，ReLU层4，归一化层4，池化层4，卷积层CL5，ReLU层5，归一化层5，池化层5，全连接层FCL6，全连接层FCL7，全连接层FCL8，Softmax层和分类输出层。相关参数设置如下：

输入图像大小为256×256×3，卷积层1中设置卷积核为11×11，卷积层2中设置卷积核为5×5，卷积层3到卷积层5中设置卷积核为3×3，各卷积层对应的滤波器值设置分别为96，256，384，384和256，偏离系数分别为1×1×96，1×1×256，1×1×384，1×1×384，1×1×256，4096×1，4096×1和N×1，其中后三位偏离系数分别对应全连接层FCL6、FCL7、FCL8，N值取决于当前手语分类类别的数量。如下表所示：

在具体实施中，使用ReLU作为激活函数。如果将非线性函数用作激活函数，模型的输出与输入不再是线性关系，可以近似任何函数，等效于使用了隐藏层，S型函数的大量计算和梯度消失问题会减慢收敛速度并导致信息丢失，从而使深层网络训练无法完成。但ReLU没有梯度消失问题，可以使模型的收敛速度保持在稳定状态，同时，ReLU将使某些神经元的输出为零，使网络稀疏并减少参数之间的依赖性，从而防止过拟合。另外，ReLU是单侧的，更符合生物神经元的特征。

在具体实施中，使用dropout函数可以防止过度拟合。在正向传播中应用dropout，特定神经元以概率p停止(一般地，丢弃率p为0.5，可以通过实验测试确定本参数)，并且可以摆脱某些局部特征的依赖性，使模型更通用。丢弃随机隐藏神经元的dropout等同于重新训练网络，由于随机丢弃一半的隐藏神经元会导致网络结构不同，因此丢弃过程会使神经网络平均化。应用dropout技术后，神经元随机出现在dropout网络中，可以破坏节点的固定关系，影响权重更新，从而驱动网络模型的识别准确率提高。

在具体实施中，使用本地响应规范化层(LRN)。LRN是使用相邻数据进行归一化。应用LRN可以带来局部神经元活动的竞争，进一步增加了较大响应的值，同时抑制了具有较小反馈的其他神经元。可以增强模型的泛化能力。在神经网络中，激活函数用于对神经元输出进行非线性映射，但由于ReLU获得的值范围没有间隔，因此必须将结果标准化，这就是本地响应的标准化。LRN的方法表示为以下公式：

其中，

表示本地响应规范化的结果，

表示第i个内核位置的ReLU激活函数输出，n表示

的邻居数量，N表示内核总数。常数k，

ω和n都是超参数，可以由验证集确定，常选用如下的值：

k＝2

ω＝0.75

n＝5。

在具体实施中，应用重叠(overlapping)。池化往往在卷积运算之后应用，主要用于特征融合和降维，是类似卷积的运算，只是池化层的所有参数都是超参数，无需学习即可获得。常规池化并不重叠，即池化区域的窗口大小与步长相同，但AlexNet神经网络中往往使用池化重叠。若AlexNet池化窗口的大小为3×3，步长为2，那么将生成覆盖池化操作，可以得到更准确的结果。因此，AlexNet中采用重叠以避免过度拟合。

本发明实施例中，所述保持初始图像识别模型的部分网络层不变，对其他网络层进行替换，包括：保持五层卷积层和前两层全连接层不变，基于最后一层全连接层与输出层的分类输出数量相对应，随机初始化最后一层全连接层后，对初始图像识别模型进行训练。

参阅图2，其为本发明提供的一次迁移学习冻结层和替换层的示意图。

在具体实施中，已有的国家手语语料库相对比较完整，为标准手语识别提供了数据集。但初始图像识别模型是用于普通图片识别，其全连接输出设计一般是用于1000个分类。因此，需要对其进行重新设计使其符合手语识别分类应用，但其他层保持不变。以上被称为冻结-替换方法，是迁移学习方案的一种。

从普通图片到全国手语图片(来自于视频关键帧)，实现基于国家手语语料库的一次迁移学习，从初始图像识别模型，利用优化和冻结-替换方案建立一次迁移学习手语识别模型。其中，不同的参数设置和网络层冻结(参阅图2)将带来不同的迁移学习模型和效果，经过多次实验，证明只替换最后一层全连接层，即FCL8，迁移学习后的识别效果最佳。因此，本发明实施例中迁移学习模型中冻结保持CL1、CL2、CL3、CL4、CL5、FCL6、FCL7层不变，仅替换修改FCL8层。层替换结构如下表：

通过训练输出可以识别国家标准手语的一次迁移学习手语识别模型，保证针对国家手语语料库的识别准确率大约在90％左右。

在具体实施中，利用深度相机或高像素手机等设备采集某地区的地方手语视频或图片，从视频中提取关键帧并归一化预处理。由于图片识别技术比视频识别更成熟，因此通过“提取视频关键帧，视频转图片”的方法构建地方手语图片数据集。由于地方手语的小众性，此数据集为小样本数据集。

在具体实施中，传统的机器学习应用需要大量的标签数据，并且这些数据存在分布差异和训练有效期问题。迁移学习可以充分利用之前的标签数据，保证用于相似领域的模型在新任务上的准确率。迁移学习可以把之前域或任务中学习得到的知识和技能在新任务或域中得到转移应用。应用参数微调方案，适合两个相似数据集或对象领域，其主要内容是优化学习因子和各类超参数。因此，可以首先在相对完备的数据集上预训练成熟一次迁移学习手语识别模型，然后通过参数微调，得到二次迁移学习手语识别模型，使之适合小样本数据集。地方手语相对国家手语语料库而言属于小样本数据集，数据量的不足将影响识别准确率。因此，可以从样本量大的国家手语识别一次迁移学习手语识别模型迁移学习至地方手语识别模型(二次迁移学习手语识别模型)。

在具体实施中，参数微调包括优化设置神经网络模型中每个独立网络层的学习率因子；修改第一卷积层(CL1)核尺寸使之更适合特征信息学习；运用log-ReLU等函数替换传统ReLU函数；优化超参数dropout丢弃率；用1×1卷积代替全连接层以降低神经网络模型中的权值和偏离，对于不同的实际应用场景，参数微调的程度和范围有一定的区别。

本发明实施例中，地方手语图像作为训练集，包括：采用数据增强扩充训练集；所述数据增强包括：PCA色彩增强，仿射变换，噪声注入，图像缩放，图像随机移位和图像伽玛校正。

在具体实施中，引入数据增强技术扩充训练集可以提升识别准确率。经过实验验证，适合手语分类识别的数据增强技术有六种：PCA色彩增强，仿射变换，噪声注入，图像缩放，图像随机移位和图像伽玛校正。其中，PCA色彩增强采用原始图像中出现最多的色彩进行移位；放射变换是使原图像发生变形但保持直线；噪声注入采用均值为0方差为1的高斯噪声产生新的噪声图像；图像缩放采用0.7到1.3的缩放比例，步长为0.02；图像移动在[-15,15]区间内进行随机移动；图像伽马校正系数范围[0.4,1.6]，递增步长0.04。采用以上这六种方式进行数据增强可以将原数据训练集进行扩充，但并不是数据集越扩充大越好，经过大量实验证明，增强因子设置为181倍效果最佳。通过数据增强极大的提升了训练集数量，进而提高了地方手语识别模型的识别准确率。

本发明实施例中，得到二次迁移学习手语识别模型之后，还包括：应用自适应动量算法对二次迁移学习手语识别模型进行优化训练。

在具体实施中，深度学习通常需要大量时间和计算机资源进行训练，因此优化训练算法也极为重要。通过实验，对比了具有动量的随机梯度下降(SGDM)，均方根传播(RMSProp)和Adam(自适应动量)算法三种训练算法，发现Adam占用较少的资源，可以使模型收敛更快，加快学习速度，提高效果。本质上，Adam是一阶优化算法，可以代替传统的随机梯度下降过程。它根据动量的一阶矩估算值加入了第二矩估算值，并为Adadelta的矩量添加了力矩。通过使用梯度的第一和第二矩估计，可以动态地调整每个参数的学习率，它还添加了偏差校正，从而使参数相对稳定，对于手语识别模型的优化和识别准确率的提高十分明显。

本发明实施例中，得到二次迁移学习手语识别模型之后，还包括：基于二次迁移学习手语识别模型的混淆矩阵和各分类类别对应的ROC曲线，对识别准确率低于预设阈值的手语类别的训练数据进行标签修正后，再次进行训练。

在具体实施中，基于已有识别结果的灵敏度(Sensitivity)和特异度(Specificity)数值，可以对个别识别严重错误的分类进行重定位。同时，基于已有分类模型B的混淆矩阵和各手语分类类别对应的ROC曲线，对识别准确率不高的手语类别的数据训练集进行标签修正。最后，基于修正标签的训练数据集再次训练二次迁移学习手语识别模型，可以得到更高的准确识别率。

本发明还提供一种基于二次迁移学习的地方手语识别装置，包括：识别单元、初始训练单元、一次迁移单元和二次迁移单元，其中：

本发明实施例中，所述一次迁移单元，用于保持五层卷积层和前两层全连接层不变，基于最后一层全连接层与输出层的分类输出数量相对应，随机初始化最后一层全连接层后，对初始图像识别模型进行训练。

本发明实施例中，所述二次迁移单元，用于采用数据增强扩充训练集；所述数据增强包括：PCA色彩增强，仿射变换，噪声注入，图像缩放，图像随机移位和图像伽玛校正。

本发明实施例中，所述二次迁移单元，用于应用自适应动量算法对二次迁移学习手语识别模型进行优化训练。

本发明实施例中，所述二次迁移单元，用于基于二次迁移学习手语识别模型的混淆矩阵和各分类类别对应的ROC曲线，对识别准确率低于预设阈值的手语类别的训练数据进行标签修正后，再次进行训练。

Claims

1.一种基于二次迁移学习的地方手语识别方法，其特征在于，包括：

2.根据权利要求1所述的基于二次迁移学习的地方手语识别方法，其特征在于，所述卷积神经网络模型为AlexNet网络模型，应用ReLU函数作为激活函数，应用dropout函数，应用本地响应规范化层用于对相邻数据进行归一化，应用重叠池化层。

3.根据权利要求2所述的基于二次迁移学习的地方手语识别方法，其特征在于，所述AlexNet网络模型的网络层依次包括输入层、五层卷积层、三层全连接层、softmax层和输出层，其中每层卷积层对应有ReLU层、归一化层和池化层。

4.根据权利要求3所述的基于二次迁移学习的地方手语识别方法，其特征在于，所述保持初始图像识别模型的部分网络层不变，对其他网络层进行替换，包括：

保持五层卷积层和前两层全连接层不变，基于最后一层全连接层与输出层的分类输出数量相对应，随机初始化最后一层全连接层后，对初始图像识别模型进行训练。

5.根据权利要求4所述的基于二次迁移学习的地方手语识别方法，其特征在于，所述采用地方手语图像作为训练集，包括：

采用数据增强扩充训练集；所述数据增强包括：PCA色彩增强，仿射变换，噪声注入，图像缩放，图像随机移位和图像伽玛校正。

6.根据权利要求4所述的基于二次迁移学习的地方手语识别方法，其特征在于，所述在对一次迁移学习手语识别模型进行参数调整，得到二次迁移学习手语识别模型之后，还包括：

应用自适应动量算法对二次迁移学习手语识别模型进行优化训练。

7.根据权利要求4所述的基于二次迁移学习的地方手语识别方法，其特征在于，所述在对一次迁移学习手语识别模型进行参数调整，得到二次迁移学习手语识别模型之后，还包括：

基于二次迁移学习手语识别模型的混淆矩阵和各分类类别对应的ROC曲线，对识别准确率低于预设阈值的手语类别的训练数据进行标签修正后，再次进行训练。

8.一种基于二次迁移学习的地方手语识别装置，其特征在于，包括：识别单元、初始训练单元、一次迁移单元和二次迁移单元，其中：

所述二次迁移单元，用于对一次迁移学习手语识别模型进行参数调整，采用地方手语图像作为训练集，得到二次迁移学习手语识别模型，将二次迁移学习手语识别模型作为所述地方手语识别模型。

9.根据权利要求8所述的基于二次迁移学习的地方手语识别装置，其特征在于，所述卷积神经网络模型为AlexNet网络模型，所述AlexNet网络模型的网络层依次包括输入层、五层卷积层、三层全连接层、softmax层和输出层，其中每层卷积层对应有ReLU层、归一化层和池化层。

10.根据权利要求9所述的基于二次迁移学习的地方手语识别装置，其特征在于，所述一次迁移单元，用于保持五层卷积层和前两层全连接层不变，基于最后一层全连接层与输出层的分类输出数量相对应，随机初始化最后一层全连接层后，对初始图像识别模型进行训练。