CN112464816A - 基于二次迁移学习的地方手语识别方法、装置 - Google Patents
基于二次迁移学习的地方手语识别方法、装置 Download PDFInfo
- Publication number
- CN112464816A CN112464816A CN202011361432.7A CN202011361432A CN112464816A CN 112464816 A CN112464816 A CN 112464816A CN 202011361432 A CN202011361432 A CN 202011361432A CN 112464816 A CN112464816 A CN 112464816A
- Authority
- CN
- China
- Prior art keywords
- sign language
- recognition model
- layer
- training
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013526 transfer learning Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 90
- 238000013508 migration Methods 0.000 claims abstract description 57
- 230000005012 migration Effects 0.000 claims abstract description 55
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 24
- 238000011176 pooling Methods 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 7
- 238000002347 injection Methods 0.000 claims description 6
- 239000007924 injection Substances 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 6
- 210000002569 neuron Anatomy 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 206010011878 Deafness Diseases 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008014 freezing Effects 0.000 description 2
- 238000007710 freezing Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于二次迁移学习的地方手语识别方法、装置,其中地方手语识别模型的学习训练步骤包括:采用普通图片作为训练集对卷积神经网络模型进行训练,得到初始图像识别模型;保持初始图像识别模型的部分网络层,对其他网络层进行替换,得到一次迁移学习手语识别模型;采用地方手语图像作为训练集,对一次迁移学习手语识别模型进行参数调整,得到二次迁移学习手语识别模型。采用上述方案,对地方手语训练模型进行训练的过程中,采用二次迁移学习,降低模型对于地方手语标签样本数据的依赖性,提高地方手语训练模型的识别准确率,降低训练学习成本。
Description
技术领域
本发明涉及手语识别领域,尤其涉及一种基于二次迁移学习的地方手语识别方法、装置。
背景技术
手语识别可以通过计算机技术把手语信息转换成文本、语音、视频或其他自然语言表现等容易理解和交流的信息,一定程度上解决了在众多场合下很难专门投入手语翻译人员长期进行手语翻译,可以帮助聋人和听障人士融入社会生活。但在我国的手语体系之中,除了中残联组织专家编制的《国家通用手语词典》标准,各个地方还有自己的手语表达方式,根据“中国手语使用调查”,59.6%的成年聋人和33%的聋人学生更愿意使用地方手语,甚至77.3%的特殊学校教师相信同省同行们使用和表达的手语是有所不同或非常不同的。因此,地方手语的识别研究成为中国手语识别新的挑战,同时也为将来进一步完成地方手语的调查和保护提供支撑。
由于神经网络的深度训练学习依赖于海量的标签样本数据,因此在在足够数据训练集的模式下,国家标准手语识别准确率得到了很大提升,但是对于地方手语而言,由于标签样本数据的数量很小,因此难以训练得到识别准确率较高的地方手语识别模型。
发明内容
发明目的:本发明旨在提供一种基于二次迁移学习的地方手语识别方法,对于地方手语的识别结果准确率较高。
技术方案:本发明提供一种基于二次迁移学习的地方手语识别方法,包括:
采用地方手语识别模型,对地方手语图像进行识别;所述地方手语识别模型的学习训练步骤包括如下:
采用普通图片作为训练集对卷积神经网络模型进行训练,得到初始图像识别模型;
将输出层的分类输出数量修改为与手语类别数量相对应后,保持初始图像识别模型的部分网络层不变,对其他网络层进行替换,采用全国手语图像作为训练集对初始图像识别模型进行训练,得到一次迁移学习手语识别模型;
对一次迁移学习手语识别模型进行参数调整,采用地方手语图像作为训练集,得到二次迁移学习手语识别模型,将二次迁移学习手语识别模型作为所述地方手语识别模型。
具体的,所述卷积神经网络模型为AlexNet网络模型,应用ReLU函数作为激活函数,应用dropout函数,应用本地响应规范化层用于对相邻数据进行归一化,应用重叠池化层。
具体的,所述AlexNet网络模型的网络层依次包括输入层、五层卷积层、三层全连接层、softmax层和输出层,其中每层卷积层对应有ReLU层、归一化层和池化层。
具体的,保持五层卷积层和前两层全连接层不变,基于最后一层全连接层与输出层的分类输出数量相对应,随机初始化最后一层全连接层后,对初始图像识别模型进行训练。
具体的,采用数据增强扩充训练集;所述数据增强包括:PCA色彩增强,仿射变换,噪声注入,图像缩放,图像随机移位和图像伽玛校正。
具体的,应用自适应动量算法对二次迁移学习手语识别模型进行优化训练。
具体的,基于二次迁移学习手语识别模型的混淆矩阵和各分类类别对应的ROC曲线,对识别准确率低于预设阈值的手语类别的训练数据进行标签修正后,再次进行训练。
本发明提供一种基于二次迁移学习的地方手语识别装置,包括:识别单元、初始训练单元、一次迁移单元和二次迁移单元,其中:
所述识别单元,用于采用地方手语识别模型,对地方手语图像进行识别;所述地方手语识别模型的学习训练步骤包括如下:
所述初始训练单元,用于采用普通图片作为训练集对卷积神经网络模型进行训练,得到初始图像识别模型;
所述一次迁移单元,用于将输出层的分类输出数量修改为与手语类别数量相对应后,保持初始图像识别模型的部分网络层不变,对其他网络层进行替换,采用全国手语图像作为训练集对初始图像识别模型进行训练,得到一次迁移学习手语识别模型;
所述二次迁移单元,对一次迁移学习手语识别模型进行参数调整,用于采用地方手语图像作为训练集,得到二次迁移学习手语识别模型,将二次迁移学习手语识别模型作为所述地方手语识别模型。
具体的,所述卷积神经网络模型为AlexNet网络模型,所述AlexNet网络模型的网络层依次包括输入层、五层卷积层、三层全连接层、softmax层和输出层,其中每层卷积层对应有ReLU层、归一化层和池化层。
具体的,所述一次迁移单元,用于保持五层卷积层和前两层全连接层不变,基于最后一层全连接层与输出层的分类输出数量相对应,随机初始化最后一层全连接层后,对初始图像识别模型进行训练。
有益效果:与现有技术相比,本发明具有如下显著优点:在对地方手语训练模型进行训练的过程中,采用二次迁移,降低模型对于地方手语标签样本数据的依赖性,提高地方手语训练模型的识别准确率,降低训练学习成本。
附图说明
图1为本发明提供的基于二次迁移学习的地方手语识别模型的训练流程示意图;
图2为本发明提供的一次迁移学习冻结层和替换层的示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
参阅图1,其为本发明提供的基于二次迁移学习的地方手语识别模型的训练流程示意图。
本发明提供一种基于二次迁移学习的地方手语识别方法,包括:
采用地方手语识别模型,对地方手语图像进行识别;所述地方手语识别模型的学习训练步骤包括如下:
步骤1,采用普通图片(可以不仅仅是手语图像)作为训练集对卷积神经网络模型进行训练,得到初始图像识别模型;
步骤2,将输出层的分类输出数量修改为与手语类别数量(例如手语拼音类别数量)相对应后,保持初始图像识别模型的部分网络层不变,对其他网络层进行替换,采用全国手语图像作为训练集对初始图像识别模型进行训练,得到一次迁移学习手语识别模型;
步骤3,对一次迁移学习手语识别模型进行参数调整,采用地方手语图像作为训练集,得到二次迁移学习手语识别模型,将二次迁移学习手语识别模型作为所述地方手语识别模型。
本发明实施例中,所述卷积神经网络模型为AlexNet网络模型,应用ReLU函数作为激活函数,应用dropout函数,应用本地响应规范化层用于对相邻数据进行归一化,应用重叠池化层。
本发明实施例中,所述AlexNet网络模型的网络层依次包括输入层、五层卷积层、三层全连接层、softmax层和输出层,其中每层卷积层对应有ReLU层、归一化层和池化层。
在具体实施中,基本的AlexNet神经网络的包含五个卷积层(CL层)和三个完全连接层(FCL层,其中包括softmax层)。所有这些层都有可学习的权重系数,需要适当调整和优化,为了适应对手语图像的学习训练,对AlexNet网络模型进行相应的优化和改进。本发明中构建包括优化拓展功能的共26层的AlexNet神经网络,分别是输入层,卷积层CL1,ReLU层1,归一化层1,池化层1,卷积层CL2,ReLU层2,归一化层2,池化层2,卷积层CL3,ReLU层3,归一化层3,池化层3,卷积层CL4,ReLU层4,归一化层4,池化层4,卷积层CL5,ReLU层5,归一化层5,池化层5,全连接层FCL6,全连接层FCL7,全连接层FCL8,Softmax层和分类输出层。相关参数设置如下:
输入图像大小为256×256×3,卷积层1中设置卷积核为11×11,卷积层2中设置卷积核为5×5,卷积层3到卷积层5中设置卷积核为3×3,各卷积层对应的滤波器值设置分别为96,256,384,384和256,偏离系数分别为1×1×96,1×1×256,1×1×384,1×1×384,1×1×256,4096×1,4096×1和N×1,其中后三位偏离系数分别对应全连接层FCL6、FCL7、FCL8,N值取决于当前手语分类类别的数量。如下表所示:
在具体实施中,使用ReLU作为激活函数。如果将非线性函数用作激活函数,模型的输出与输入不再是线性关系,可以近似任何函数,等效于使用了隐藏层,S型函数的大量计算和梯度消失问题会减慢收敛速度并导致信息丢失,从而使深层网络训练无法完成。但ReLU没有梯度消失问题,可以使模型的收敛速度保持在稳定状态,同时,ReLU将使某些神经元的输出为零,使网络稀疏并减少参数之间的依赖性,从而防止过拟合。另外,ReLU是单侧的,更符合生物神经元的特征。
在具体实施中,使用dropout函数可以防止过度拟合。在正向传播中应用dropout,特定神经元以概率p停止(一般地,丢弃率p为0.5,可以通过实验测试确定本参数),并且可以摆脱某些局部特征的依赖性,使模型更通用。丢弃随机隐藏神经元的dropout等同于重新训练网络,由于随机丢弃一半的隐藏神经元会导致网络结构不同,因此丢弃过程会使神经网络平均化。应用dropout技术后,神经元随机出现在dropout网络中,可以破坏节点的固定关系,影响权重更新,从而驱动网络模型的识别准确率提高。
在具体实施中,使用本地响应规范化层(LRN)。LRN是使用相邻数据进行归一化。应用LRN可以带来局部神经元活动的竞争,进一步增加了较大响应的值,同时抑制了具有较小反馈的其他神经元。可以增强模型的泛化能力。在神经网络中,激活函数用于对神经元输出进行非线性映射,但由于ReLU获得的值范围没有间隔,因此必须将结果标准化,这就是本地响应的标准化。LRN的方法表示为以下公式:
k=2
ω=0.75
n=5。
在具体实施中,应用重叠(overlapping)。池化往往在卷积运算之后应用,主要用于特征融合和降维,是类似卷积的运算,只是池化层的所有参数都是超参数,无需学习即可获得。常规池化并不重叠,即池化区域的窗口大小与步长相同,但AlexNet神经网络中往往使用池化重叠。若AlexNet池化窗口的大小为3×3,步长为2,那么将生成覆盖池化操作,可以得到更准确的结果。因此,AlexNet中采用重叠以避免过度拟合。
本发明实施例中,所述保持初始图像识别模型的部分网络层不变,对其他网络层进行替换,包括:保持五层卷积层和前两层全连接层不变,基于最后一层全连接层与输出层的分类输出数量相对应,随机初始化最后一层全连接层后,对初始图像识别模型进行训练。
参阅图2,其为本发明提供的一次迁移学习冻结层和替换层的示意图。
在具体实施中,已有的国家手语语料库相对比较完整,为标准手语识别提供了数据集。但初始图像识别模型是用于普通图片识别,其全连接输出设计一般是用于1000个分类。因此,需要对其进行重新设计使其符合手语识别分类应用,但其他层保持不变。以上被称为冻结-替换方法,是迁移学习方案的一种。
从普通图片到全国手语图片(来自于视频关键帧),实现基于国家手语语料库的一次迁移学习,从初始图像识别模型,利用优化和冻结-替换方案建立一次迁移学习手语识别模型。其中,不同的参数设置和网络层冻结(参阅图2)将带来不同的迁移学习模型和效果,经过多次实验,证明只替换最后一层全连接层,即FCL8,迁移学习后的识别效果最佳。因此,本发明实施例中迁移学习模型中冻结保持CL1、CL2、CL3、CL4、CL5、FCL6、FCL7层不变,仅替换修改FCL8层。层替换结构如下表:
通过训练输出可以识别国家标准手语的一次迁移学习手语识别模型,保证针对国家手语语料库的识别准确率大约在90%左右。
在具体实施中,利用深度相机或高像素手机等设备采集某地区的地方手语视频或图片,从视频中提取关键帧并归一化预处理。由于图片识别技术比视频识别更成熟,因此通过“提取视频关键帧,视频转图片”的方法构建地方手语图片数据集。由于地方手语的小众性,此数据集为小样本数据集。
在具体实施中,传统的机器学习应用需要大量的标签数据,并且这些数据存在分布差异和训练有效期问题。迁移学习可以充分利用之前的标签数据,保证用于相似领域的模型在新任务上的准确率。迁移学习可以把之前域或任务中学习得到的知识和技能在新任务或域中得到转移应用。应用参数微调方案,适合两个相似数据集或对象领域,其主要内容是优化学习因子和各类超参数。因此,可以首先在相对完备的数据集上预训练成熟一次迁移学习手语识别模型,然后通过参数微调,得到二次迁移学习手语识别模型,使之适合小样本数据集。地方手语相对国家手语语料库而言属于小样本数据集,数据量的不足将影响识别准确率。因此,可以从样本量大的国家手语识别一次迁移学习手语识别模型迁移学习至地方手语识别模型(二次迁移学习手语识别模型)。
在具体实施中,参数微调包括优化设置神经网络模型中每个独立网络层的学习率因子;修改第一卷积层(CL1)核尺寸使之更适合特征信息学习;运用log-ReLU等函数替换传统ReLU函数;优化超参数dropout丢弃率;用1×1卷积代替全连接层以降低神经网络模型中的权值和偏离,对于不同的实际应用场景,参数微调的程度和范围有一定的区别。
本发明实施例中,地方手语图像作为训练集,包括:采用数据增强扩充训练集;所述数据增强包括:PCA色彩增强,仿射变换,噪声注入,图像缩放,图像随机移位和图像伽玛校正。
在具体实施中,引入数据增强技术扩充训练集可以提升识别准确率。经过实验验证,适合手语分类识别的数据增强技术有六种:PCA色彩增强,仿射变换,噪声注入,图像缩放,图像随机移位和图像伽玛校正。其中,PCA色彩增强采用原始图像中出现最多的色彩进行移位;放射变换是使原图像发生变形但保持直线;噪声注入采用均值为0方差为1的高斯噪声产生新的噪声图像;图像缩放采用0.7到1.3的缩放比例,步长为0.02;图像移动在[-15,15]区间内进行随机移动;图像伽马校正系数范围[0.4,1.6],递增步长0.04。采用以上这六种方式进行数据增强可以将原数据训练集进行扩充,但并不是数据集越扩充大越好,经过大量实验证明,增强因子设置为181倍效果最佳。通过数据增强极大的提升了训练集数量,进而提高了地方手语识别模型的识别准确率。
本发明实施例中,得到二次迁移学习手语识别模型之后,还包括:应用自适应动量算法对二次迁移学习手语识别模型进行优化训练。
在具体实施中,深度学习通常需要大量时间和计算机资源进行训练,因此优化训练算法也极为重要。通过实验,对比了具有动量的随机梯度下降(SGDM),均方根传播(RMSProp)和Adam(自适应动量)算法三种训练算法,发现Adam占用较少的资源,可以使模型收敛更快,加快学习速度,提高效果。本质上,Adam是一阶优化算法,可以代替传统的随机梯度下降过程。它根据动量的一阶矩估算值加入了第二矩估算值,并为Adadelta的矩量添加了力矩。通过使用梯度的第一和第二矩估计,可以动态地调整每个参数的学习率,它还添加了偏差校正,从而使参数相对稳定,对于手语识别模型的优化和识别准确率的提高十分明显。
本发明实施例中,得到二次迁移学习手语识别模型之后,还包括:基于二次迁移学习手语识别模型的混淆矩阵和各分类类别对应的ROC曲线,对识别准确率低于预设阈值的手语类别的训练数据进行标签修正后,再次进行训练。
在具体实施中,基于已有识别结果的灵敏度(Sensitivity)和特异度(Specificity)数值,可以对个别识别严重错误的分类进行重定位。同时,基于已有分类模型B的混淆矩阵和各手语分类类别对应的ROC曲线,对识别准确率不高的手语类别的数据训练集进行标签修正。最后,基于修正标签的训练数据集再次训练二次迁移学习手语识别模型,可以得到更高的准确识别率。
本发明还提供一种基于二次迁移学习的地方手语识别装置,包括:识别单元、初始训练单元、一次迁移单元和二次迁移单元,其中:
所述识别单元,用于采用地方手语识别模型,对地方手语图像进行识别;所述地方手语识别模型的学习训练步骤包括如下:
所述初始训练单元,用于采用普通图片作为训练集对卷积神经网络模型进行训练,得到初始图像识别模型;
所述一次迁移单元,用于将输出层的分类输出数量修改为与手语类别数量相对应后,保持初始图像识别模型的部分网络层不变,对其他网络层进行替换,采用全国手语图像作为训练集对初始图像识别模型进行训练,得到一次迁移学习手语识别模型;
所述二次迁移单元,对一次迁移学习手语识别模型进行参数调整,用于采用地方手语图像作为训练集,得到二次迁移学习手语识别模型,将二次迁移学习手语识别模型作为所述地方手语识别模型。
本发明实施例中,所述卷积神经网络模型为AlexNet网络模型,应用ReLU函数作为激活函数,应用dropout函数,应用本地响应规范化层用于对相邻数据进行归一化,应用重叠池化层。
本发明实施例中,所述AlexNet网络模型的网络层依次包括输入层、五层卷积层、三层全连接层、softmax层和输出层,其中每层卷积层对应有ReLU层、归一化层和池化层。
本发明实施例中,所述一次迁移单元,用于保持五层卷积层和前两层全连接层不变,基于最后一层全连接层与输出层的分类输出数量相对应,随机初始化最后一层全连接层后,对初始图像识别模型进行训练。
本发明实施例中,所述二次迁移单元,用于采用数据增强扩充训练集;所述数据增强包括:PCA色彩增强,仿射变换,噪声注入,图像缩放,图像随机移位和图像伽玛校正。
本发明实施例中,所述二次迁移单元,用于应用自适应动量算法对二次迁移学习手语识别模型进行优化训练。
本发明实施例中,所述二次迁移单元,用于基于二次迁移学习手语识别模型的混淆矩阵和各分类类别对应的ROC曲线,对识别准确率低于预设阈值的手语类别的训练数据进行标签修正后,再次进行训练。
Claims (10)
1.一种基于二次迁移学习的地方手语识别方法,其特征在于,包括:
采用地方手语识别模型,对地方手语图像进行识别;所述地方手语识别模型的学习训练步骤包括如下:
采用普通图片作为训练集对卷积神经网络模型进行训练,得到初始图像识别模型;
将输出层的分类输出数量修改为与手语类别数量相对应后,保持初始图像识别模型的部分网络层不变,对其他网络层进行替换,采用全国手语图像作为训练集对初始图像识别模型进行训练,得到一次迁移学习手语识别模型;
对一次迁移学习手语识别模型进行参数调整,采用地方手语图像作为训练集,得到二次迁移学习手语识别模型,将二次迁移学习手语识别模型作为所述地方手语识别模型。
2.根据权利要求1所述的基于二次迁移学习的地方手语识别方法,其特征在于,所述卷积神经网络模型为AlexNet网络模型,应用ReLU函数作为激活函数,应用dropout函数,应用本地响应规范化层用于对相邻数据进行归一化,应用重叠池化层。
3.根据权利要求2所述的基于二次迁移学习的地方手语识别方法,其特征在于,所述AlexNet网络模型的网络层依次包括输入层、五层卷积层、三层全连接层、softmax层和输出层,其中每层卷积层对应有ReLU层、归一化层和池化层。
4.根据权利要求3所述的基于二次迁移学习的地方手语识别方法,其特征在于,所述保持初始图像识别模型的部分网络层不变,对其他网络层进行替换,包括:
保持五层卷积层和前两层全连接层不变,基于最后一层全连接层与输出层的分类输出数量相对应,随机初始化最后一层全连接层后,对初始图像识别模型进行训练。
5.根据权利要求4所述的基于二次迁移学习的地方手语识别方法,其特征在于,所述采用地方手语图像作为训练集,包括:
采用数据增强扩充训练集;所述数据增强包括:PCA色彩增强,仿射变换,噪声注入,图像缩放,图像随机移位和图像伽玛校正。
6.根据权利要求4所述的基于二次迁移学习的地方手语识别方法,其特征在于,所述在对一次迁移学习手语识别模型进行参数调整,得到二次迁移学习手语识别模型之后,还包括:
应用自适应动量算法对二次迁移学习手语识别模型进行优化训练。
7.根据权利要求4所述的基于二次迁移学习的地方手语识别方法,其特征在于,所述在对一次迁移学习手语识别模型进行参数调整,得到二次迁移学习手语识别模型之后,还包括:
基于二次迁移学习手语识别模型的混淆矩阵和各分类类别对应的ROC曲线,对识别准确率低于预设阈值的手语类别的训练数据进行标签修正后,再次进行训练。
8.一种基于二次迁移学习的地方手语识别装置,其特征在于,包括:识别单元、初始训练单元、一次迁移单元和二次迁移单元,其中:
所述识别单元,用于采用地方手语识别模型,对地方手语图像进行识别;所述地方手语识别模型的学习训练步骤包括如下:
所述初始训练单元,用于采用普通图片作为训练集对卷积神经网络模型进行训练,得到初始图像识别模型;
所述一次迁移单元,用于将输出层的分类输出数量修改为与手语类别数量相对应后,保持初始图像识别模型的部分网络层不变,对其他网络层进行替换,采用全国手语图像作为训练集对初始图像识别模型进行训练,得到一次迁移学习手语识别模型;
所述二次迁移单元,用于对一次迁移学习手语识别模型进行参数调整,采用地方手语图像作为训练集,得到二次迁移学习手语识别模型,将二次迁移学习手语识别模型作为所述地方手语识别模型。
9.根据权利要求8所述的基于二次迁移学习的地方手语识别装置,其特征在于,所述卷积神经网络模型为AlexNet网络模型,所述AlexNet网络模型的网络层依次包括输入层、五层卷积层、三层全连接层、softmax层和输出层,其中每层卷积层对应有ReLU层、归一化层和池化层。
10.根据权利要求9所述的基于二次迁移学习的地方手语识别装置,其特征在于,所述一次迁移单元,用于保持五层卷积层和前两层全连接层不变,基于最后一层全连接层与输出层的分类输出数量相对应,随机初始化最后一层全连接层后,对初始图像识别模型进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011361432.7A CN112464816A (zh) | 2020-11-27 | 2020-11-27 | 基于二次迁移学习的地方手语识别方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011361432.7A CN112464816A (zh) | 2020-11-27 | 2020-11-27 | 基于二次迁移学习的地方手语识别方法、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112464816A true CN112464816A (zh) | 2021-03-09 |
Family
ID=74809229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011361432.7A Pending CN112464816A (zh) | 2020-11-27 | 2020-11-27 | 基于二次迁移学习的地方手语识别方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464816A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642422A (zh) * | 2021-07-27 | 2021-11-12 | 东北电力大学 | 一种连续中文手语识别方法 |
CN113989833A (zh) * | 2021-09-30 | 2022-01-28 | 西安工业大学 | 一种基于EfficientNet网络的口腔粘膜性疾病识别方法 |
CN114419341A (zh) * | 2022-01-20 | 2022-04-29 | 大连海事大学 | 一种基于迁移学习改进的卷积神经网络图像识别方法 |
CN115359784A (zh) * | 2022-10-21 | 2022-11-18 | 成都爱维译科技有限公司 | 基于迁移学习的民航陆空语音识别模型训练方法及系统 |
CN116452511A (zh) * | 2023-03-17 | 2023-07-18 | 西南交通大学 | 钻爆法隧道掌子面围岩级别智能判识方法、装置及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107657602A (zh) * | 2017-08-09 | 2018-02-02 | 武汉科技大学 | 基于两次迁移卷积神经网络的乳腺结构紊乱识别方法 |
CN110084125A (zh) * | 2019-03-28 | 2019-08-02 | 国智恒北斗好年景农业科技有限公司 | 一种基于深度学习的农业保险查勘技术方法 |
CN110175551A (zh) * | 2019-05-21 | 2019-08-27 | 青岛科技大学 | 一种手语识别方法 |
CN110390275A (zh) * | 2019-07-04 | 2019-10-29 | 淮阴工学院 | 一种基于迁移学习的手势分类方法 |
US20200184278A1 (en) * | 2014-03-18 | 2020-06-11 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
-
2020
- 2020-11-27 CN CN202011361432.7A patent/CN112464816A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200184278A1 (en) * | 2014-03-18 | 2020-06-11 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
CN107657602A (zh) * | 2017-08-09 | 2018-02-02 | 武汉科技大学 | 基于两次迁移卷积神经网络的乳腺结构紊乱识别方法 |
CN110084125A (zh) * | 2019-03-28 | 2019-08-02 | 国智恒北斗好年景农业科技有限公司 | 一种基于深度学习的农业保险查勘技术方法 |
CN110175551A (zh) * | 2019-05-21 | 2019-08-27 | 青岛科技大学 | 一种手语识别方法 |
CN110390275A (zh) * | 2019-07-04 | 2019-10-29 | 淮阴工学院 | 一种基于迁移学习的手势分类方法 |
Non-Patent Citations (2)
Title |
---|
JIANG X,ET AL.: "Fingerspelling identification for Chinese sign language via AlexNet-based transfer learning and Adam optimizer", 《SCIENTIFIC PROGRAMMING》, pages 1 - 12 * |
邱锡鹏 等: "《神经网络与深度学习》", 机械工业出版社, pages: 183 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642422A (zh) * | 2021-07-27 | 2021-11-12 | 东北电力大学 | 一种连续中文手语识别方法 |
CN113989833A (zh) * | 2021-09-30 | 2022-01-28 | 西安工业大学 | 一种基于EfficientNet网络的口腔粘膜性疾病识别方法 |
CN114419341A (zh) * | 2022-01-20 | 2022-04-29 | 大连海事大学 | 一种基于迁移学习改进的卷积神经网络图像识别方法 |
CN114419341B (zh) * | 2022-01-20 | 2024-04-26 | 大连海事大学 | 一种基于迁移学习改进的卷积神经网络图像识别方法 |
CN115359784A (zh) * | 2022-10-21 | 2022-11-18 | 成都爱维译科技有限公司 | 基于迁移学习的民航陆空语音识别模型训练方法及系统 |
CN115359784B (zh) * | 2022-10-21 | 2023-01-17 | 成都爱维译科技有限公司 | 基于迁移学习的民航陆空语音识别模型训练方法及系统 |
CN116452511A (zh) * | 2023-03-17 | 2023-07-18 | 西南交通大学 | 钻爆法隧道掌子面围岩级别智能判识方法、装置及介质 |
CN116452511B (zh) * | 2023-03-17 | 2024-05-03 | 西南交通大学 | 钻爆法隧道掌子面围岩级别智能判识方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112464816A (zh) | 基于二次迁移学习的地方手语识别方法、装置 | |
CN110163299B (zh) | 一种基于自底向上注意力机制和记忆网络的视觉问答方法 | |
CN106650789B (zh) | 一种基于深度lstm网络的图像描述生成方法 | |
CN108399428B (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
CN110046252B (zh) | 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法 | |
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN109829541A (zh) | 基于学习自动机的深度神经网络增量式训练方法及系统 | |
CN111008293A (zh) | 基于结构化语义表示的视觉问答方法 | |
CN112733768B (zh) | 基于双向特征语言模型的自然场景文本识别方法及装置 | |
CN110765775A (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN107145484A (zh) | 一种基于隐多粒度局部特征的中文分词方法 | |
CN112036276B (zh) | 一种人工智能视频问答方法 | |
CN111680702B (zh) | 一种使用检测框实现弱监督图像显著性检测的方法 | |
CN110866113B (zh) | 基于稀疏自注意力机制微调伯特模型的文本分类方法 | |
CN110874411A (zh) | 一种基于注意力机制融合的跨领域情感分类系统 | |
CN115099409A (zh) | 一种文本-图像增强的多模态知识图谱嵌入方法 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN113204645A (zh) | 一种基于知识引导的方面级情感分析模型训练方法 | |
CN113807214B (zh) | 基于deit附属网络知识蒸馏的小目标人脸识别方法 | |
CN114925205A (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN111783852B (zh) | 一种基于深度强化学习自适应式生成图像描述的方法 | |
CN111382871A (zh) | 基于数据扩充一致性的领域泛化和领域自适应学习方法 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
CN115906846A (zh) | 一种基于双图的层次特征融合的文档级命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |