CN115359562A - 基于卷积神经网络的手语字母拼写识别方法 - Google Patents

基于卷积神经网络的手语字母拼写识别方法 Download PDF

Info

Publication number
CN115359562A
CN115359562A CN202211007786.0A CN202211007786A CN115359562A CN 115359562 A CN115359562 A CN 115359562A CN 202211007786 A CN202211007786 A CN 202211007786A CN 115359562 A CN115359562 A CN 115359562A
Authority
CN
China
Prior art keywords
image
sign language
depth
picture
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211007786.0A
Other languages
English (en)
Inventor
孙力娟
高奇志
郭剑
韩崇
王娟
王长龙
朱东晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211007786.0A priority Critical patent/CN115359562A/zh
Publication of CN115359562A publication Critical patent/CN115359562A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

基于卷积神经网络的手语字母拼写识别方法,利用卷积神经网络提取手部深度图特征并进行手语字母拼写识别。深度相机获取到手语图片及深度图片后,将之送给目标检测网络提取出精确的手部目标图片及精确的深度图片;待手部目标提取完毕,将深度图片通过基于灰度值伪色彩线性变换及色域分割算法来分割精确手语手势目标,通过色彩融合算法补充丢失手语手势信息。分割完毕通过灰度化、局部区域二值化对图片进行像素处理为单通道二值图来降低网络输入参数量,图片预处理完成。最后将预处理后的手语手势图片送入卷积神经网络进行特征提取,将提取出的特征与全连接层相连接,通过softmax分类器进行分类。训练完毕,保存网络模型并用来进行手语字母拼写识别。

Description

基于卷积神经网络的手语字母拼写识别方法
技术领域
本发明属于计算机视觉和图像识别处理技术领域,具体涉及一种基于卷积神经网络的手语字母拼写识别方法。
背景技术
手势是人与人之间通过肢体动作传达信息的最有效也是自然的方式。虽然手势并非传统意义上的语言交际,但它已经成为传递聋哑人和听障人士之间的交流信息的有效信息载体。美国国家耳聋和其他沟通障碍研究所将美国手语(American Sign Language,ASL)定义为一种完整、复杂的语言,它使用手势在聋人或重听人之间表达思想和交流信息。从最近提出的手语识别器来看,一些手语识别器的功能基于硬编码算法,例如边缘检测。此外,这些算法需要像图像分割这样的预处理来去除不需要的数据,或者需要形态学滤波器来去除缺陷(膨胀、侵蚀)。一些作者研究了基于人工智能的算法在手语图像识别中的应用。伊斯拉姆等人,采用带前馈的人工神经网络(Artificial Neural Network,ANN),用30个特征向量进行反向传播训练。将K-曲率算法和凸壳算法相结合进行特征提取,作为预处理阶段对指尖进行检测。Pansare等人提出了基于边缘方向直方图的ASL手势识别器,采用区域和特征提取、特征匹配和模式识别等方法对手语图像进行预处理来提升手语识别精度。最近人工智能(Artificial Intelligence,AI)的发展,如深度学习和迁移学习,可以帮助弥合这一沟通差距,同时提高推理阶段所需的分类准确性和计算能力,增加自动化、模式识别、特征提取和神经学习的价值,降低软件开发和维护的成本。
目前大部分工作是基于RGB图像分割来进行的,但是基于RGB图像分割技术存在很多缺陷,比如当环境光和用户肤色相近时,图像分割效果很差,再者基于RGB图像所训练的分类器对于不同用户的分类性能很差,这大大限制了模型的泛化性。通过调研发现目前手语手势分割工作并不完善并且目前的分类模型对于弱光场景、噪声干扰、目标无关等场景的鲁棒性较差,而在现实生活中手语环境是复杂多变的,这对于手语字母拼写识别是一个巨大的挑战,并且大部分工作所使用的模型较大,训练参数较多,训练开销成本大。
发明内容
针对以上问题,本发明提出基于卷积神经网络的手语字母拼写识别方法,通过目标检测算法将手部目标从深度相机拍摄图片中分割出来得到精确的手语手势图像;利用手势分割以及图像处理算法提取出精确的手部轮廓信息,便于将手部从背景中分离出来,从而便于卷积神经网络提取特征;利用卷积神经网络提取手语拼写字母手势特征并对网络进行训练,训练完毕后可以实现对手语字母拼写的识别并且提升识别精度;利用所提出的轻量型卷积神经网络提升复杂场景如光线变化、噪声干扰、目标无关等场景的识别精度,提升系统的鲁棒性;使用轻量型的神经网络,降低网络结构复杂度,降低网络训练开销。
为实现上述目的,本发明提出的技术方案为基于卷积神经网络的手语字母拼写识别方法。手语字母拼写识别主要包含三个过程:手部目标检测、手势分割、网络训练。手部目标检测所做的工作主要有:生成存在目标的感兴趣区域、特征提取筛选目标。手势分割阶段主要做的工作有:基于距离信息可视化深度图、基于色域分割和色彩融合、特征通道转换。网络训练阶段主要做的工作有:提取特征训练网络。
该方法的主要内容如下:
步骤1:手部目标检测,通过深度相机获取手语彩色图片和深度图片,通过目标检测网络将手部图像中切割出来,同时根据手部切割图像尺寸信息及深度相机内参对深度图像进行切割。
步骤2:对获取的局部深度图像进行归一化,将深度信息转换为灰度信息,并且对图像进行基于灰度信息的伪色彩线性变换,实现深度图像可视化。
步骤3:获取可视化后的深度图并根据色域对手势进行分割,同时按照手势融合规则对分割手势结果进行判别并进行色彩融合。
步骤4:对生成的手语分割手势灰度化二值化处理,并且对处理结果进行像素反转集中图像像素信息,处理完毕将图像送入卷积神经网络进行训练。
步骤5:训练时将分割深度图尺寸归一化并送入卷积神经网络进行特征提取,将输出特征与全连接层相连接,最后通过softmax输出24分类概率。在网络训练设定轮数后保存训练模型并加载用来测试,五人数据集中四人手语数据集用来训练,一人用于测试,进行五次交叉训练,验证模型泛化性并保存最佳训练模型。
进一步的,在步骤1中,根据原始手语彩色图像生成图像金字塔,使其满足不同尺寸物体的需求,从图像金字塔中通过选择性搜索算法获得若干个可能存在目标的感兴趣区域。将感兴趣区域缩放成227*227的大小并输入到卷积神经网络提取特征,将卷积神经网络全连接层的输出作为SMV分类器的输入对输入图像进行分类,对于SVM分好类的感兴趣区域做边框回归,用回归框的回归值校正原来的建议窗口,生成预测窗口坐标及预测概率,选择预测概率最大的结果进行输出并保存。
进一步的,在步骤2中,深度相机获取的原始手语手势深度信息为16位,像素范围为(0到65535)。首先需对16位深度信息进行归一化处理为8位深度,假设原深度信息矩阵H,经过归一化后为J,则有如下公式:
Figure BDA0003809602480000041
归一化完毕所有像素信息被归一化到(0~255)范围内,此时深度信息被转化为灰度信息,同一距离像素将拥有相同灰度值。
16位深度图经过归一化后转换为8位深度图,距离信息被转化为灰度信息,图像灰度信息表示图像局部明暗程度,对于给定图像的位深度及其取值范围,可以通过灰度图到彩色图像的转化,从而让图像内部差异化更加明显,从而实现手势分割。首先需要对原深度下的数据做基于灰度信息的伪色彩线性变换,使原位深度下的最小值和最大值分别对应转换后位深度下的最小值和最大值,假设Src为表示图像的三维数组,维度分别是高度、宽度、维度,Dst为线性变换后输出数组,scale为比例因子,shift为偏移量,通过如下线性变换公式进行变换:
Dst=Deal(Src)×scale+(shift)
其中像素反变换矩阵Deal(src)由下述线性变换公式得出:
Figure BDA0003809602480000051
Figure BDA0003809602480000052
Figure BDA0003809602480000053
其中R(x,y)、G(x,y)、B(x,y)分别表示R、G、B通道的颜色值,f(x,y)表示特定点灰度图像的灰度值,f是所选灰度图像的灰度值。
输入图像后按照比例因子scale对数组进行缩放并对元素进行偏移,偏移量为shift,缩放完毕图像深度信息及像素信息发生相应变化从而色彩发生改变。
根据手部离相机远近确定比例因子,比例因子通过如下公式确定:
D×scale=255
其中D为感兴趣区域到相机的距离,通过设置不同感兴趣区域可以将不同的区域颜色进行高亮。
进一步的,在步骤3中,为了便于对图像像素进行修改操作,需要将图像从RGB图像空间转换为HSV颜色空间。HSV由三个分量分别是色调(Hue)、饱和度(Saturation)及明度(Value)组成。首先修改H的值来确定待分割颜色,其次动态调整S、V的值确定待分割颜色范围。
要分割绿色,根据颜色空间表确定绿色颜色空间范围为:(35,43,46)~(77,255,255)同时根据原始图片尺寸生成掩膜空间(img,lowerb,upperb),其中img是hsv格式图片、lowerb和upperb为掩膜空间范围。
拷贝hsv图片并对图像像素做掩膜运算,将掩膜空间范围内的图像像素值变为255(白色),其余图像像素值变为0(黑色),最后将原始img图片与根据掩膜空间处理后的图片做“与”运算(剔除黑色,保留白色),获取原图掩膜位置区域,分割完毕。
因为深度相机不能完美的将手语距离信息保存下来,当手语前后动作距离跨度较大时及时预先设定好感兴趣区域手部图像可视化时也会出现两种颜色,为了保持手语手势的完整性,需要记录感兴趣区域内的多种颜色矩阵并将之融合起来。
将经过灰度值伪色彩线性变换的图像通过基于色域分割法将手部图像像素分别保存于两个图像矩阵Img_matrix_1、Img_matrix_2,根据经验手动设置融合阈值Eff_low_1、Eff_low_2通过如下判别规则进行融合:
规则①:若Img_matrix_1(或Img_matrix_2)的像素值小于Eff_low_1,将当前手语分割图像指定为Img_matrix_2(或Img_matrix_1)。
规则②:若Img_matrix_1(或Img_matrix_2)的像素值大于Eff_low_2,将当前手语分割图像指定为Img_matrix_1(或Img_matrix_2)。
规则③:若Img_matrix_1(或Img_matrix_2)的像素值大于Eff_low_1且小于Eff_low_2,则通过下述融合公式对图像矩阵进行融合:
result=255-(255-Img_matrix_1)×(255-Img_matrix_2)÷128
其中result为图像融合后的图片,通过此公式可以将两种颜色的图片融合到一起显示出完整的手语手势图。
进一步的,在步骤4中,彩色图像的灰度按加权的方法转换,R,G,B的比为3:6:1,假设某点的的颜色为RGB(红:R,绿:G,蓝:B),则有如下计算公式:
Gray=R×0.3+G×0.59+B×0.11
其中,R、G、B是图像三原色分别代表红绿蓝,Gray为图像的灰度值,系数是加权转换后得到的数值,为了从亮度不均匀的图像中分割出手势目标,不可以使用统一的阈值对全局目标进行过滤,考虑从局部像素点出发,以当前像素点为中心逐步计算出阈值,为了凸显图像像素特征需要对图像进行阈值反转,首先通过局部阈值二值化方法对图像做二值化处理,接着通过如下公式将阈值化结果进行反转:
Reverse=255-binary
其中Reverse为翻转后的图像,binary为单通道二值图,通过此方法,将图像翻转使得图像特征明显。
进一步的,在步骤5中,为了有效提取出手语的特征信息,提出了一个轻量级的卷积神经网络,网络共有三个卷积模块组成分别是conv1、conv2、conv3,为了更有效的提取特征分别设置第一层为32通道的卷积核,第二层为64层,第三层为128层,通过如下公式进行卷积运算:
Figure BDA0003809602480000081
其中N为卷积后输出特征图的尺寸,W为输入网络图片/特征图尺寸,F为卷积核大小,P为膨胀系数,S为卷积步长。
同时为了加快计算及防止梯度弥散等问题使用ReLU非线性激活函数,每层卷积完毕进行进行最大值池化来降低参数数量,同时为了网络更快的收敛,设置每层卷积层的卷积步长为3.设置dropout防止网络过拟合;训练时将分割深度图尺寸归一化并送入卷积神经网络进行特征提取,将输出特征与全连接层相连接,最后通过softmax输出24分类概率。在网络训练设定轮数后保存训练模型并加载用来测试,五人数据集中四人手语数据集用来训练,一人用于测试,并且反复交替进行五次交叉训练,验证模型泛化性并保存最佳训练模型。
待模型训练完毕,加载模型并进行手语识别。首先相机获取人手语深度图像并根据本发明所提出分割深度图像算法对其进行分割,接着将分割深度图像送入网络进行预测,并将预测结果以文字方式输出,最后记录预测结果并与真实标签比对,验证模型手语识别性能。
与现有的技术相比,本发明的有益效果:
(1)本发明中通过轻量型网络降低了计算开销,提高了运算效率。
(2)本发明基于可视化深度信息,避免了肤色,光线等环境因素的影响,手语手势分割精度高,误差低。
(3)本方案在传统方法基础之上,通过对图像深度信息做基于灰度伪色彩线性变换,使得手势分割更加准确,提升了手语手势分割精度。
(4)本发明在较少训练轮次的情况下可大幅提高手语识别的精度。
附图说明
图1为本发明实施例中手语字母拼写识别的流程图。
图2为本发明实施例中手部目标检测阶段的工作流程图。
图3为本发明实施例中利用深度信息可视化深度图阶段的工作流程图。
图4为本发明实施例中手势分割的色域分割和色彩融合阶段的工作流程图。
图5为本发明实施例中手势分割的特征通道转换的工作流程图。
图6为本发明实施例中提取特征训练网络的工作流程图。
图7为本发明实施例中卷积神经网络的工作流程图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
基于深度学习的手语字母拼写识别研究利用深度相机进行手语拍摄得到手语的RGB-D图像,利用深度信息将手势从背景中分割出来得到精确的手语手势,借助卷积神经网络模型进行训练,最后对手语进行识别分类。
首先,目标在kinect深度相机前一定距离落座,待稳定之后,在一段固定距离开始做手语手势,同时kinect按照预先设置的时间间隔来拍摄手语手势图片并按照类别进行保存,每个手语手势拍摄1000张图片,拍摄完毕之后,kinect深度相机自动会生成RGB彩色图片和16位深度图片,彩色图片中保存手语手势像素信息,深度图中保存手语手势到深度相机的距离信息。接着对拍摄到的手语图片进行目标检测处理,此过程包括两个步骤:生成存在目标的感兴趣区域、特征提取筛选目标首先通过Faster R-CNN目标检测网络对手势目标进行检测,按照预先设置长宽比的边界框在原图上利用滑动窗口来提取感兴趣区域,提取完毕进入到特征提取筛选目标阶段,通过RPN网络来对感兴趣区域进行特征提取并训练RPN网络,最后得到精度最好的手势提议,借助手势提议对RGB彩色图片和深度图片进行裁剪操作,裁剪完毕获得精确手语手势的RGB彩色图和深度图。目标检测完毕后,就开始进行手语手势分割。手语手势分割阶段做的工作主要是:深度图像归一化、基于距离信息可视化深度图、基于色域分割、色彩融合、灰度化二值化通过这些操作将手势精确的从背景中分离出来。最后是网络训练阶段,得到精确手语手势图后,将之送入网络训练并可以进行手语识别分类工作。手语手势分割阶段中,本发明利用深度信息,通过深度信息与颜色信息转换,并通过色域信息分割处理,使得手语手势可以精确的被分割出来,使得网络能够更好的提取手语特征,此方法不会受到肤色、环境光等因素的干扰,同时大大提升了手语字母拼写识别的精度。
本方法主要分为如下几个步骤:
步骤1:手部目标检测,将手部从整张拍摄图像中切割出来,工作流程框图如图2所示:
步骤1.1)相机拍摄手语RGB彩色图和深度图。
步骤1.2)通过RPN目标检测网络来提取感兴趣区域。
步骤1.3)将区域建议送入到拥有13个卷积层、13个非线性激活层、4个池化层的卷积神经网络中进行特征提取操作。
步骤1.4)将获得的感兴趣区域和卷积神经网络提取到的特征图一起送入到感兴趣区域池化层中对其进行特征处理,边框回归并与全连接层进行全连接同时输出网络预测坐标,修正感兴趣区域的尺寸从而获得精确的手语手势图。
步骤1.5)在输出的一组感兴趣区域数据(输出数据为图像及概率信息)中按照概率从大到小选择指定数量的数据并根据切割手势图像尺寸信息及深度相机内参信息同步切割深度图像。
步骤2:对获取局部深度图像进行基于灰度信息的伪色彩线性变换,实现深度图像可视化,工作流程框图如图3所示:
步骤2.1)设置深度图像中的有效深度范围。
步骤2.2)选择颜色分配策略:按照深度从小到大的顺序,深度越小颜色越深,深度越大颜色越浅。
步骤2.3)记录深度图色域信息和图像像素信息,保证图像颜色变化范围幅度在一定范围内,动态调节颜色分配策略。
步骤2.4)输出可视化后的深度图并保存。
步骤3:获取可视化后的深度图并根据色域对手势进行分割并进行色彩融合,流程框图如图4所示:
步骤3.1)读取手部图片色域信息和深度信息,确定手部图像的色域范围P为[pixela,pixelb]。
步骤3.2)对图像中的每个像素依次判定是否包含在色域范围P内,若是则将像素值拷贝到新的相同尺寸的空白图片中,若不属于则将该像素值清零。
步骤3.3)将不同色域的像素累加到一起生成新的手语分割图片并保存。
步骤4:对生成的手语分割手势进行特征通道转换,便于网络训练,工作流程框图如图5所示:
步骤4.1)输入手语分割图片并进行灰度化。
步骤4.2)根据经验设定阈值Ex,图像像素点Pixel小于等于Ex则将像素值调整为0,像素点Pixel大于Ex则将该值变为255获取手语手势二值图。
步骤4.3)输出单通道手语手势二值图。
步骤五:通过如图7所示卷积神经网络对分割手势进行特征提取并训练和测试网络,工作流程框图如图6所示:
步骤5.1)手语手势图像送入卷积神经网络提取特征。
步骤5.2)更新权重、偏置参数等参数信息,同时输出损失函数。
步骤5.3)网络训练完毕保存训练模型,根据测试样例对网络进行测试,验证网络有效性和精度。
通过以上说明可见与现有的技术相比,本发明提出的基于深度学习的手语字母拼写识别算法通过利用手语深度信息将手语手势从背景中精确的分割出来,使用轻量型的卷积神经网络进行特征提取和训练,降低训练时间并提升网络特征利用率,使得本网络模型对于肤色、环境光和噪声干扰等因素具有很强的适应性,提升识别效果实现高精度的手语字母拼写识别。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (10)

1.基于卷积神经网络的手语字母拼写识别方法,其特征在于:所述方法包括如下步骤:
步骤1,手部目标检测,通过深度相机获取手语彩色图片和深度图片,通过目标检测网络将手部图像中切割出来,同时根据手部切割图像尺寸信息及深度相机内参对深度图像进行切割;
步骤2,对获取的局部深度图像进行归一化,将深度信息转换为灰度信息,并且对图像进行基于灰度信息的伪色彩线性变换,实现深度图像可视化;
步骤3,获取可视化后的深度图并根据色域对手势进行分割,同时按照手势融合规则对分割手势结果进行判别并进行色彩融合;
步骤4,对生成的手语分割手势灰度化二值化处理,并且对处理结果进行像素反转集中图像像素信息,处理完毕将图像送入卷积神经网络进行训练;
步骤5,训练时将分割深度图尺寸归一化并送入卷积神经网络进行特征提取,将输出特征与全连接层相连接,最后通过softmax输出24分类概率;在网络训练设定轮数后保存训练模型并加载用来测试,对于采集的数据集划分训练集和测试集,进行五次交叉训练,验证模型泛化性并保存最佳训练模型。
2.根据权利要求1所述的基于卷积神经网络的手语字母拼写识别方法,其特征在于:步骤1中,根据手语彩色图像生成图像金字塔,使其满足不同尺寸物体的需求,从图像金字塔中通过选择性搜索算法获得若干个可能存在目标的感兴趣区域;将感兴趣区域缩放成227*227的大小并输入到卷积神经网络提取特征,将卷积神经网络全连接层的输出作为SMV分类器的输入对输入图像进行分类,对于SVM分好类的感兴趣区域做边框回归,用回归框的回归值校正原来的建议窗口,生成预测窗口坐标及预测概率,选择预测概率最大的结果进行输出并保存。
3.根据权利要求1所述的基于卷积神经网络的手语字母拼写识别方法,其特征在于:步骤2中,深度相机获取的原始手语手势深度信息为16位,像素范围为0到65535;首先需对16位深度信息进行归一化处理为8位深度,假设原深度信息矩阵H,经过归一化后为J,则有如下公式:
Figure FDA0003809602470000021
归一化完毕所有像素信息被归一化到0~255范围内,此时深度信息被转化为灰度信息,同一距离像素将拥有相同灰度值。
4.根据权利要求3所述的基于卷积神经网络的手语字母拼写识别方法,其特征在于:步骤2中,对原深度下的数据做基于灰度信息的伪色彩线性变换,使原位深度下的最小值和最大值分别对应转换后位深度下的最小值和最大值,假设Src为表示图像的三维数组,维度分别是高度、宽度、维度,Dst为线性变换后输出数组,scale为比例因子,shift为偏移量,通过如下线性变换公式进行变换:
Dst=Deal(Src)×scale+(shift)
其中像素反变换矩阵Deal(src)由下述线性变换公式得出:
Figure FDA0003809602470000031
Figure FDA0003809602470000032
Figure FDA0003809602470000033
其中R(x,y)、G(x,y)、B(x,y)分别表示R、G、B通道的颜色值,f(x,y)表示特定点灰度图像的灰度值,f是所选灰度图像的灰度值;
输入图像后按照比例因子scale对数组进行缩放并对元素进行偏移,偏移量为shift,缩放完毕图像深度信息及像素信息发生相应变化从而色彩发生改变;
根据手部离相机远近确定比例因子,比例因子通过如下公式确定:
D×scale=255
其中D为感兴趣区域到相机的距离,通过设置不同感兴趣区域将不同的区域颜色进行高亮。
5.根据权利要求1所述的基于卷积神经网络的手语字母拼写识别方法,其特征在于:步骤3中,将图像从RGB图像空间转换为HSV颜色空间;HSV由色调Hue、饱和度Saturation及明度Value三个分量组成;首先修改H的值来确定待分割颜色,其次动态调整S、V的值确定待分割颜色范围;
根据颜色空间表确定颜色的空间范围为,同时根据原始图片尺寸生成掩膜空间(img,lowerb,upperb),其中img是hsv格式图片、lowerb和upperb为掩膜空间范围;
拷贝hsv图片并对图像像素做掩膜运算,将掩膜空间范围内的图像像素值变为255即白色,其余图像像素值变为0即黑色,最后将原始img图片与根据掩膜空间处理后的图片做与运算,即剔除黑色并保留白色,获取原图掩膜位置区域,分割完毕。
6.根据权利要求5所述的基于卷积神经网络的手语字母拼写识别方法,其特征在于:步骤3中,为了保持手语手势的完整性,记录感兴趣区域内的多种颜色矩阵并将之融合起来;
将经过灰度值伪色彩线性变换的图像通过基于色域分割法将手部图像像素分别保存于两个图像矩阵Img_matrix_1、Img_matrix_2,根据经验手动设置融合阈值Eff_low_1、Eff_low_2通过如下判别规则进行融合:
规则1,若Img_matrix_1或Img_matrix_2的像素值小于Eff_low_1,将当前手语分割图像指定为Img_matrix_2或Img_matrix_1;
规则2,若Img_matrix_1或Img_matrix_2的像素值大于Eff_low_2,将当前手语分割图像指定为Img_matrix_1或Img_matrix_2;
规则3,若Img_matrix_1或Img_matrix_2的像素值大于Eff_low_1且小于Eff_low_2,则通过下述融合公式对图像矩阵进行融合:
result=255-(255-Img_matrix_1)×(255-Img_matrix_2)÷128
其中result为图像融合后的图片,通过此公式将两种颜色的图片融合到一起显示出完整的手语手势图。
7.根据权利要求1所述的基于卷积神经网络的手语字母拼写识别方法,其特征在于:步骤4中,彩色图像的灰度按加权的方法转换,R、G、B的比为3:6:1,假设某点的的颜色为RGB,则有如下计算公式:
Gray=R×0.3+G×0.59+B×0.11
其中,R、G、B是图像三原色分别代表红绿蓝,Gray为图像的灰度值,系数是加权转换后得到的数值;考虑从局部像素点出发,以当前像素点为中心逐步计算出阈值,为了凸显图像像素特征需要对图像进行阈值反转,首先通过局部阈值二值化方法对图像做二值化处理,接着通过如下公式将阈值化结果进行反转:
Reverse=255-binary
其中Reverse为翻转后的图像,binary为单通道二值图,通过此方法,将图像翻转使得图像特征明显。
8.根据权利要求1所述的基于卷积神经网络的手语字母拼写识别方法,其特征在于:步骤5中,提出了一个轻量级的卷积神经网络,网络共有三个卷积模块组成分别是conv1、conv2、conv3,分别设置第一层为32通道的卷积核,第二层为64层,第三层为128层,通过如下公式进行卷积运算:
Figure FDA0003809602470000051
其中N为卷积后输出特征图的尺寸,W为输入网络图片/特征图尺寸,F为卷积核大小,P为膨胀系数,S为卷积步长;
使用ReLU非线性激活函数,每层卷积完毕进行进行最大值池化来降低参数数量,设置每层卷积层的卷积步长为3;设置dropout防止网络过拟合。
9.根据权利要求8所述的基于卷积神经网络的手语字母拼写识别方法,其特征在于:步骤5中,训练时将分割深度图尺寸归一化并送入卷积神经网络进行特征提取,将输出特征与全连接层相连接,最后通过softmax输出24分类概率。
10.根据权利要求9所述的基于卷积神经网络的手语字母拼写识别方法,其特征在于:步骤5中,待模型训练完毕,加载模型并进行手语识别;首先相机获取人手语深度图像并对其进行分割,接着将分割深度图像送入网络进行预测,并将预测结果以文字方式输出,最后记录预测结果并与真实标签比对,验证模型手语识别性能。
CN202211007786.0A 2022-08-22 2022-08-22 基于卷积神经网络的手语字母拼写识别方法 Pending CN115359562A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211007786.0A CN115359562A (zh) 2022-08-22 2022-08-22 基于卷积神经网络的手语字母拼写识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211007786.0A CN115359562A (zh) 2022-08-22 2022-08-22 基于卷积神经网络的手语字母拼写识别方法

Publications (1)

Publication Number Publication Date
CN115359562A true CN115359562A (zh) 2022-11-18

Family

ID=84001997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211007786.0A Pending CN115359562A (zh) 2022-08-22 2022-08-22 基于卷积神经网络的手语字母拼写识别方法

Country Status (1)

Country Link
CN (1) CN115359562A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116087036A (zh) * 2023-02-14 2023-05-09 中国海洋大学 一种深海采矿沉积物羽流图像识别的装置及图像分析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116087036A (zh) * 2023-02-14 2023-05-09 中国海洋大学 一种深海采矿沉积物羽流图像识别的装置及图像分析方法
CN116087036B (zh) * 2023-02-14 2023-09-22 中国海洋大学 一种深海采矿沉积物羽流图像识别的装置及图像分析方法

Similar Documents

Publication Publication Date Title
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN112990097B (zh) 一种基于对抗消除的人脸表情识别方法
CN110059586B (zh) 一种基于空洞残差注意力结构的虹膜定位分割系统
CN108717524B (zh) 一种基于双摄手机和人工智能系统的手势识别系统
CN108268859A (zh) 一种基于深度学习的人脸表情识别方法
CN109657612B (zh) 一种基于人脸图像特征的质量排序系统及其使用方法
CN111914727B (zh) 基于平衡采样与非线性特征融合的小目标人体检测方法
CN111914797B (zh) 基于多尺度轻量级卷积神经网络的交通标志识别方法
CN113592911B (zh) 表观增强深度目标跟踪方法
CN107169508B (zh) 一种基于融合特征的旗袍图像情感语义识别方法
CN110969171A (zh) 基于改进卷积神经网络的图像分类模型、方法及应用
Tereikovskyi et al. The method of semantic image segmentation using neural networks
CN113763417B (zh) 一种基于孪生网络和残差结构的目标跟踪方法
CN113221956B (zh) 基于改进的多尺度深度模型的目标识别方法及装置
CN111401145A (zh) 一种基于深度学习与ds证据理论的可见光虹膜识别方法
CN112232351A (zh) 一种基于深度神经网络的车牌识别系统
CN110046544A (zh) 基于卷积神经网络的数字手势识别方法
CN111080754B (zh) 一种头部肢体特征点连线的人物动画制作方法及装置
US20040022440A1 (en) Method and apparatus for image processing
CN113537173B (zh) 一种基于面部补丁映射的人脸图像真伪识别方法
CN115359562A (zh) 基于卷积神经网络的手语字母拼写识别方法
JP2011170890A (ja) 顔検出方法および装置並びにプログラム
KR20180092453A (ko) Cnn과 스테레오 이미지를 이용한 얼굴 인식 방법
CN114898464B (zh) 一种基于机器视觉的轻量化精准手指语智能算法识别方法
CN114219757B (zh) 一种基于改进Mask R-CNN的车辆智能定损方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination