CN114677766B

CN114677766B - 基于无镜头成像技术的手语识别方法、系统及交互设备

Info

Publication number: CN114677766B
Application number: CN202210580281.7A
Authority: CN
Inventors: 苏秀琴; 姚晓鹏; 刘牧原; 郝伟
Original assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Current assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2023-02-14
Anticipated expiration: 2042-05-26
Also published as: CN114677766A

Abstract

本发明属于手语识别技术领域，特别涉及一种基于无镜头成像技术的手语识别方法、系统及设备。利用编码掩模和图像传感器构成的图像采集模块采集需要识别的手语图像，获得手语图像信息；之后基于计算机视觉方法处理手语图像信息，获得识别结果并输出至输出设备。交互设备包括设备主体以及设置在设备主体上的基于无镜头成像技术的手语识别系统。本发明通过运用无镜头成像技术移除了手语识别系统的光学镜头部分，用后端计算和光学调制器件代替光学镜头的光线调制作用，克服了传统手语识别系统体积过大，隐蔽性较低的缺点，增进普通人和聋哑人之间的沟通效率，促使聋哑人能够更好的融入社会生活中。

Description

基于无镜头成像技术的手语识别方法、系统及交互设备

技术领域

本发明属于手语识别技术领域，特别涉及一种基于无镜头成像技术的手语识别方法、系统及交互设备。

背景技术

目前有数以千万计的聋哑人在使用手语。但对于一般人而言，手语学习成本过高，日常使用率较低，大部分人难以掌握和理解口语代表的含义，给聋哑人和普通人之间的交流造成了极大的不便。目前虽然已有一些手语识别系统，但其数据都需通过传统的光学镜头进行采集，而传统光学镜头相对体积较大，在部分涉及手语的交流场景中，不便使用的同时易造成聋哑人的心理障碍。

发明内容

本发明的目的是提供一种基于无镜头成像技术的手语识别方法、系统及交互设备，克服现有手语识别系统因体积较大而导致的使用受限于环境以及易造成聋哑人心理障碍的技术问题。

本发明的构思是：

无镜头成像技术是一种新型成像技术，一般使用光学调制器件代替传统光学镜头的方法来实现。由于无镜头成像技术不需要使用传统光学镜头，所以此类系统在设计时不需要考虑焦距等因素对相机成像质量的影响，大大降低了系统的体积；基于此，本发明利用无镜头成像技术设计一种手语识别方法、系统及设备，能够在准确实时翻译手语的前提下，兼顾设备隐蔽性的需求。

本发明的技术方案是提供一种基于无镜头成像技术的手语识别系统，其特殊之处在于，包括以下步骤：

步骤1、采集图像信息；

利用编码掩模和图像传感器构成的图像采集模块采集需要识别的手语图像，获得手语图像信息；

步骤2、图像信息处理；

步骤2.1、预处理手语图像信息；

步骤2.2、构建及训练卷积神经网络模型；

步骤2.3、利用训练好的卷积神经网络模型对预处理后的手语图像信息进行特征提取和匹配，获得识别结果；

步骤3、向使用者传递识别结果；

通过输出设备，将识别结果以文字或语音的形式输出。

进一步地，为保证图像采集模块只能捕获到手部动作信息，较少冗余信息干扰，同时兼顾本发明的隐蔽性便携需求，步骤1中，需要选择较小的图像传感器和编码掩模。通过选择足够小的图像传感器和编码掩模，确保图像采集模块的视场较小，只能捕获到手语使用者的手部动作信息；同时还可以在输出设备中给使用者划定标定区域，使用者在使用时，将手语使用者的手部动作置于划定的标定区域中，以此确保图像采集模块只能捕获到手语使用者的手部动作信息。

进一步地，为节省计算资源和提高计算速度，步骤2.1具体为：对手语图像信息增强图像纹理特征，获得预处理后的手语图像信息。

进一步地，步骤2.2具体包括以下过程：

步骤2.21、构建手语数据集；

搜集丰富的手语图像创建手语数据集，将该手语数据集中的各个手语图像归一化到一个统一的尺寸；将手语数据集中的部分数据作为训练集，另一部分作为测试集；

步骤2.22、搭建卷积神经网络模型；

步骤2.23、根据实际需求构建目标损失函数；

步骤2.24、利用目标损失函数和训练集训练卷积神经网络模型参数，使其收敛，完成训练；

步骤2.25、利用测试集检验完成训练的卷积神经网络模型性能，若达到要求性能，进行下一步，否则返回步骤2.24，重新训练卷积神经网络模型。

进一步地，步骤2.22中选择FPN卷积神经网络模型作为分类和匹配的卷积神经网络模型，根据FPN卷积神经网络模型和数据集，依次搭建自下而上网络结构、自上而下网络结构和横向连接网络结构三个部分以及输入输出层，组成FPN卷积神经网络模型。

进一步地，步骤2.23中构建交叉熵损失函数作为目标损失函数

：

其中i为样本，c为类别，N表示样本数量，M表示类别的数量，

表示符号函数（0或 1），如果样本i的真实类别等于c则取1，否则取0，

表示观测样本i属于类别c的预测概率。

本发明还提供一种基于无镜头成像技术的手语识别系统，用于实现上述方法，其特殊之处在于：包括图像采集模块、图像处理模块和输出设备；

所述图像采集模块包括编码掩模和图像传感器，用于采集需要识别的手语图像；

所述图像处理模块用于对数据采集模块发送的手语图像信息进行预处理，并基于计算机视觉方法处理预处理后的手语图像信息，获得识别结果并输出至输出设备；

所述输出设备用于通过文字或语音的形式，将识别结果输出。

进一步地，为了保证在正常的社交距离内，图像采集模块只能捕获到手语使用者的手部动作信息，通过选择足够小的图像传感器和编码掩模，确保图像采集模块的视场较小，只能捕获到手部动作信息；同时还可以在输出设备中给使用者划定标定区域，使用者在使用时，可以将手语使用者的手部动作区域置于划定的标定区域中，以此确保图像采集模块的视场瞄向手语使用者的手部动作区域。

进一步地，所述图像处理模块包括图像预处理单元、图像处理单元及图像输出单元；所述图像预处理单元用于增强手语图像信息的纹理信息；所述图像处理单元用于通过计算机视觉方法对图像预处理单元处理后的图像进行数据特征提取和匹配，获得识别结果；所述图像输出单元用于接收识别结果并输出至输出设备。

本发明还提供一种交互设备，其特殊之处在于：包括设备主体以及设置在设备主体上的上述基于无镜头成像技术的手语识别系统。

进一步地，所述设备主体为眼镜或蓝牙耳机，还可以采用其他常见输出设备。

本发明的有益效果是：

随着摩尔定律的不断累积，计算资源越来越廉价和强大，本发明通过运用无镜头成像技术移除了手语识别系统的光学镜头部分，用后端计算和光学调制器件代替光学镜头的光线调制作用，克服了传统手语识别系统体积过大，隐蔽性较低的缺点，增进普通人和聋哑人之间的沟通效率，促使聋哑人能够更好的融入社会生活中。

附图说明

图1为实施例手语识别方法的流程示意图；

图2为实施例中图像采集模块示意图；

图中附图标记为：1-编码掩模，2-图像传感器；

图3为实施例中图像采集模块视场示意图；

图4为LBP算子简图；

图5为实施例交互设备的标识区域与视场示意图；

图中附图标记为：3-标定区域；

图6为实施例手语识别交互设备示意图；

图中附图标记为：4-图像采集模块，5-图像处理模块，6-输出设备；

图7为实施例中输出设备展示方式示意图；

图8为实施例应用场景示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。

结合图1对本实施例的手语识别过程进行详细描述：

步骤1、采集图像数据；

基于图像采集模块采集需要识别的手语图像，为了减少整个设备或系统的体积，本实施例采用超薄无镜头相机作为图像采集模块。如图2所示，本实施例超薄无镜头相机由编码掩模1和图像传感器2组成，图像传感器2置于编码掩模1之后，需要识别的手语图像通过编码掩模1被图像传感器2接收，获得手语图像信息。目前大多编码掩模都是基于m序列、随机序列等制作，本实施例选用基于m序列制作的编码掩模。本实施例采用CMOS图像传感器，在其他实施例中还可以采用其他类型图像传感器，如CCD图像传感器等。

为保证图像采集模块只能捕获到手部动作信息，而较少冗余信息干扰，同时兼顾本发明的隐蔽性便携需求，需要选择较小的图像传感器2和编码掩模1。在本实施例中，图像传感器2的大小不应超过1/2.7英寸，编码掩模1的大小应小于图像传感器2。通过选择足够小的图像传感器2和编码掩模1，确保图像采集模块的视场较小，只能捕获到手语使用者的手部动作信息，如图3所示。

步骤2、数据预处理；

首先对采集到的手语图像信息进行数据预处理，增强图像纹理特征。本实施例采用LBP算子对手语图像信息进行预处理。

如图4所示：对于采集到的手语图像信息矩阵，在3×3的窗口内，将窗口中心像素灰度值设为阈值，将相邻的8个像素的灰度值与阈值比较，大于阈值的像素点标记为1，否则标记为0，最后将八个标记值按照顺时针排列，视为一个二进制数，最后，将其转化为十进制，完成数据预处理。

用公式表示如下：

其中

为中心像素，

表示中心像素的邻域像素编号，

为灰度值，

是相邻像素的灰度值，s为符号函数：

步骤3、构建及训练卷积神经网络模型；

在本实施例中，选取FPN卷积神经网络模型作为特征提取和特征匹配的卷积神经网络模型。构建卷积神经网络模型可分为以下四个步骤：

3.1）制作相应的手语数据集。搜集丰富的手语图像创建手语数据集，将该手语数据集中的各个手语图像归一化到一个统一的尺寸；将其中一部分数据作为训练集，另一部分数据作为测试集。

3.2）根据实际需求搭建相应的卷积神经网络模型。

根据FPN卷积神经网络模型和手语数据集，依次搭建自下而上网络结构、自上而下网络结构和横向连接网络结构三个部分以及输入输出层，组成FPN卷积神经网络模型。

3.3）根据实际需求构建目标损失函数。本实施例选择交叉熵损失函数

其中N表示样本数量，M表示类别的数量；

表示符号函数（0或1），如果样本i的真实类别等于c则取1，否则取0；

表示观测样本i属于类别c的预测概率。

3.4）利用损失函数和训练集，训练卷积神经网络模型参数，使其收敛。

根据构建的训练集和FPN卷积神经网络模型，设置合适的学习率，优化器等，利用训练集对FPN卷积神经网络模型进行反复训练，当该模型的损失值足够低且稳定时，训练完成。

3.5）利用测试集检验训练完成的FPN卷积神经网络模型性能。

利用测试集测试FPN卷积神经网络模型的准确率，若达到要求性能，进行下一步，否则返回上一步，重新训练FPN卷积神经网络模型。

步骤4、利用训练好的FPN卷积神经网络模型进行特征提取和匹配；

利用训练好的FPN卷积神经网络模型对预处理后的图像提取特征。

具体可将经过数据预处理后的手语图像信息作为FPN卷积神经网络模型的输入，通过FPN卷积神经网络模型进行特征提取和特征匹配，即可输出识别结果。该网络的输出为匹配后的手语文本信息，在其他实施例中还可为语音信息。

步骤5、通过输出设备6，向使用者传递手语文本信息或语音信息；

在实际使用中，可选择可视化眼镜屏幕组件、蓝牙耳机和其他常见输出设备进行传递。若为可视化眼镜屏幕组件，则将手语文本信息展示在mini-LED可视化眼镜屏幕组件上；若为蓝牙耳机，则将语音信息通过蓝牙耳机输出。

如图5所示，本实施例选用可视化眼镜屏幕组件作为输出设备6时，还可以在可视化眼镜屏幕组件中给使用者划定标定区域3，使用者在使用时通过调整头部动作，将手语使用者的手部动作区域置于划定的标定区域3中，以此，确保图像采集模块的视场瞄向手语使用者的手部动作区域。

本实施例可基于以下系统实现上述方法：

具体系统可包括图像采集模块4、图像处理模块5和输出设备6，可整体设置在具体的可穿戴设备上。如图6所示，本实施例设置在眼镜上，在其他实施例中还可以设置在耳机、手机、手表等设备上。

结合图6可以看出，图像采集模块4和图像处理模块5作为一个整体设置在眼镜腿上，输出设备6设置在镜片部位，具体为可视化眼镜屏幕组件。其中图像采集模块4采用由编码掩模1和图像传感器2组成的超薄无镜头相机，用于采集需要识别的手语图像。结合图2，可以看出，图像传感器2置于编码掩模1之后，需要识别的手语图像通过编码掩模1被图像传感器2接收，形成传感器测量图像，获得手语图像信息。本实施例选用基于m序列制作的编码掩模，采用CMOS图像传感器。

传统的基于图像的手语识别技术需要先将图像信息中的手部动作进行框定，再利用各种计算机视觉方法进行识别和匹配。而无镜头成像技术一直未用于手语识别系统，原因之一就是无镜头相机获取的传感器测量图像是一种多路复用的测量图像，图像的每一部分都包含了相机视场内的信息，难以将手部动作区域进行框定。

为解决该问题，本实施例将图像采集模块4进行特殊处理，缩小其视场。保证在正常的社交距离内，图像采集模块4只能捕获到手部动作信息，而较少有冗余信息干扰。

具体可以采用如图3及图5的方法实现：

通过选择足够小的编码掩模1，确保图像采集模块4的视场较小，只能捕获到手部动作信息和较少的冗余信息，如图3所示；同时可以在输出设备6中给使用者划定标定区域3，使用者在使用时通过调整头部动作，将手语使用者的手部动作区域置于划定的标定区域3中，以此确保图像采集模块4的视场瞄向手语使用者的手部动作区域，如图5所示。

在数据采集完成后，将数据传输至图像处理模块5，在图像处理模块5进行数据特征提取和匹配。本实施例图像处理模块5可包括图像预处理单元、图像处理单元及图像输出单元；图像预处理单元用于对采集的手语图像进行预处理；图像处理单元用于通过计算机视觉方法对图像预处理单元处理后的图像进行数据特征提取和匹配，获得识别结果；图像输出单元用于接收识别结果并输出至输出设备6。

对于图像预处理方法，传统的思路是将编码后的图案利用Learned-TSVD等算法进行重建，再利用计算机视觉的方法进行手语识别。

本实施例出于节省计算资源和提高计算速度的考虑，省去重建图像的操作，利用图像预处理单元增强图像的纹理信息后，直接在图像处理单元中通过计算机视觉方法进行数据特征提取和匹配。

如图7所示，本实施例以mini-LED可视化眼镜屏幕组件作为输出设备6，将识别结果以文字的形式传递给使用者。在其他实施例中，输出设备6还可以为蓝牙耳机等其他常见输出设备，可以将识别结果以语音的形式传递给使用者。图8为，本实施例的应用场景示意图，可以看出，本实施例手语识别交互设备隐蔽性较高，可以很好的增进普通人和聋哑人之间的沟通效率，促使聋哑人能够更好的融入社会生活中。

Claims

1.一种基于无镜头成像技术的手语识别方法，其特征在于，包括以下步骤：

步骤1、采集图像信息；

编码掩模和图像传感器的大小需确保图像采集模块只能捕获到手语使用者的手部动作信息；

步骤2、图像信息处理；

步骤2.1、预处理手语图像信息；

采用LBP算子对手语图像信息增强图像纹理特征，获得预处理后的手语图像信息；

对于采集到的手语图像信息矩阵，在3×3的窗口内，将窗口中心像素灰度值设为阈值，将相邻的8个像素的灰度值与阈值比较，大于阈值的像素点标记为1，否则标记为0，最后将八个标记值按照顺时针排列，视为一个二进制数，最后，将其转化为十进制，完成数据预处理；

用公式表示如下：

其中(x_c，y_c)为中心像素，p表示中心像素的邻域像素编号，i^c为灰度值，i^p是相邻像素的灰度值，s为符号函数：

步骤2.2、构建及训练卷积神经网络模型；

步骤3、向使用者传递识别结果；

通过输出设备，将识别结果以文字或语音的形式输出；

在输出设备上划定标定区域；在采集过程中，将手语使用者的手部动作置于划定的标定区域中，确保图像采集模块只能捕获到手语使用者的手部动作信息；步骤2.2具体包括以下过程：

步骤2.21、构建手语数据集；

搜集手语图像创建手语数据集，将该手语数据集中的各个手语图像归一化到一个统一的尺寸；将手语数据集中的部分数据作为训练集，另一部分作为测试集；

步骤2.22、搭建卷积神经网络模型，选择FPN卷积神经网络模型作为卷积神经网络模型；

步骤2.23、根据实际需求构建目标损失函数，

构建交叉熵损失函数作为目标损失函数L：

其中i为样本，c为类别，N表示样本数量，M表示类别的数量；y_ic表示符号函数，为0或1，如果样本i的真实类别等于c则取1，否则取0；p_ic表示样本i属于类别c的预测概率；

2.一种基于无镜头成像技术的手语识别系统，用于实现权利要求1所述方法，其特征在于：包括图像采集模块、图像处理模块和输出设备；

所述输出设备用于通过文字或语音的形式，将识别结果输出；图像传感器和编码掩模的大小需确保图像采集模块只能捕获到手语使用者的手部动作信息；所述输出设备上划定有标定区域；所述图像处理模块包括图像预处理单元、图像处理单元及图像输出单元；所述图像预处理单元用于增强手语图像信息的纹理信息；所述图像处理单元用于通过计算机视觉方法对图像预处理单元处理后的图像进行数据特征提取和匹配，获得识别结果；所述图像输出单元用于接收识别结果并输出至输出设备。

3.一种交互设备，其特征在于：包括设备主体以及设置在设备主体上的权利要求2所述基于无镜头成像技术的手语识别系统。

4.根据权利要求3所述的交互设备，其特征在于：所述设备主体为眼镜或蓝牙耳机。