CN114296544A

CN114296544A - 一种基于多通道音频采集装置的手势交互系统及方法

Info

Publication number: CN114296544A
Application number: CN202111347090.8A
Authority: CN
Inventors: 宋维涛; 刘通; 刘越; 王涌天
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-04-08
Anticipated expiration: 2041-11-15
Also published as: CN114296544B

Abstract

本发明公开了一种基于多通道音频采集装置的手势交互系统及方法，包括集成至少一个超小型无线音频采集单元的传感器模块、信息处理模块和交互、渲染与显示模块，基于音频信号得到特征数据，并采用域自适应神经网络模型进行识别，识别目标手势。用户通过在手腕佩戴或将超小型音频采集模块放置在交互平面可以快速、准确、舒适的实现对虚拟物体的控制、手势识别以及文本输入等功能，将双手直接转化为交互平面，增强了交互系统的性能和效率，提供了一种高效、自然、舒适的新方法。本发明不仅可以适用于移动手机、桌面电脑等老式电子设备，也可以满足VR、AR等新兴电子系统的交互需求，可以将多种平面快速转化为交互区域，提高用户的交互效率。

Description

一种基于多通道音频采集装置的手势交互系统及方法

技术领域

本发明涉及智能交互技术领域，具体涉及一种基于多通道音频采集装置的手势交互系统及方法。

背景技术

目前，一些研究提出了借助声音信号进行手势识别的方法和装置，现有的方法大多使用超声波传感器来检测手部的形状和运动轨迹，而超声波传感器由于受到器件大小、制作工艺等的影响，会产生设备布置困难、信号采集步骤繁琐等问题，进一步导致手势识别精度低、交互性能差等问题，极大地影响了用户的交互效率。

有研究提出，基于接收传播经过用户做出的目标手势后的音频信号对手势进行识别的方法。该方法提供了一种基于音频的手势识别方法，基于原始音频信号和目标音频信号进行信道估计，得到信道估计的特征数据，并采用预先构建的域自适应神经网络模型对信道估计的特征数据进行识别，得到目标手势的识别结果。但是，这种方法中，发射和接收音频信号与调制信号需要多个设备共同完成，且手势操作的区域不同会导致音频信号信道估计的误差增大。因此，使用该技术方案会导致系统的复杂性过高，应用条件会受到极大的限制，且对于手势操作区域的约束较多，识别误差较大。

目前，有研究利用超声波发射器发射超声波信号，并接收来自手部的反射超声波信号，配置超声波发射器与接收器形成第一参考线，处理反射超声波信号，通过得到的反射超声波信号的时间频率分布确定第一参考线上的物体移动的投影轨迹对应的一维手势，从而以非接触的方式实现手势识别。该装置利用手机上的扬声器提供超声波信号，引入多个超声波收发设备可用于提高手势识别的分辨率。但是，单一超声波发射器的手势识别分辨率较低，识别准确率不高，但市面上大部分手机并不具备多扬声器的配置，提高手势识别的分辨率需额外配置超声波发射器，因此这种方法的可推广性一般，无法保证在提高识别精度的同时降低设备的复杂度。

因此，目前亟需一种手势交互系统，可以考虑到用户使用的舒适性和便捷性的同时，减小手势识别的误差，降低设备的复杂程度。

发明内容

有鉴于此，本发明提供了一种基于多通道音频采集装置的手势交互系统及方法，能够兼顾用户使用的舒适性和便捷性的同时，减小手势识别的误差，降低设备的复杂程度。

为实现上述发明目的，本发明的技术方案为：

一种超小型无线音频采集单元，包含一个高清麦克风、下位机处理器和无线通讯单元；高清麦克风采集手指在交互平面进行触摸手势所产生的声音，转化为音频模拟信号，传输到下位机处理器中；下位机处理器将音频模拟信号转化为音频数字信号，通过无线通讯单元对音频数字信号进行无线传输。

一种基于多通道音频采集装置的手势交互系统，针对超小型无线音频采集单元，包括传感器模块、信息处理模块和交互和渲染与显示模块。

传感器模块中，集成至少一个超小型无线音频采集单元，高清麦克风在不同位置采集手指在交互平面进行触摸的手势所产生的声音，在超小型无线音频采集单元各自的下位机处理器中转化为音频模拟信号；下位机处理器将音频模拟信号转化为音频数字信号，传入无线通讯单元；无线通讯单元将音频数字信号无线传输到信息处理模块中。

信息处理模块中，上位机处理器接收所有超小型无线音频采集单元的音频数字信号，转化得到频谱图，并将频谱图压缩

后进行拼接，得到一张拼接频谱图输入到训练好的神经网络中进行分类，神经网络输出手势分类结果；其中，n为频谱图的个数。

交互、渲染与显示模块中，图像渲染器渲染出虚拟场景，手势分类传输到图像渲染器中，图像渲染器根据手势分类结果控制虚拟物体在虚拟场景中进行移动，显示在图像显示器上。

进一步的，下位机处理器包括一个数字音频功放芯片和外围的模数转换电路，上位处理器为PC端或手机。

进一步的，交互、渲染与显示模块中包括图像显示器和图像渲染器，图像显示器是PC端或VR/AR头盔，图形渲染器是Unity 3D平台。

一种基于多通道音频采集装置的手势交互方法，针对系统，具体步骤包括：

手势交互系统上电，传感器模块中的高清麦克风手指在交互平面进行触摸手势所产生的声音，转化为音频模拟信号；下位机处理器将音频模拟信号转化为音频数字信号，增加包头，放入下位机处理器的缓冲区中；通过无线通讯单元，将音频数字信号传输到上位处理器中；上位机处理器将音频数字信号进行滤波并裁剪为1.5s的片段，提取频率特征得到频谱图；上位机处理器接收所有超小型无线音频采集单元的音频数字信号，转化频谱图，并将频谱图压缩

后进行拼接，得到一张拼接频谱图输入到训练好的神经网络中，n为频谱图的个数；神经网络对拼接频谱图进行分类与识别，得到手势分类结果；图像渲染器渲染出虚拟场景，手势分类结果传输到图像渲染器中，图像渲染器根据手势分类结果控制虚拟物体在虚拟场景中进行移动，显示在图像显示器上。

在下位机处理模块中，当音频模拟信号大于噪声门限时，下位机处理器将音频模拟信号处理为无音频数据并滤波处理，不向上位机处理器传输。

进一步的，神经网络采用有监督学习方式训练。

进一步的，手势分类有14种，分别是：上滑、下滑、左滑、右滑、单击、双击、三连击、从右侧画一个上半圆、从左侧画一个上半圆、从上方画一个左半圆、从下方画一个左半圆、从上方画一个右半圆、从下方画一个右半圆和画一个V形折线。

有益效果：

1、本发明提供了一种超小型无线音频采集单元，将高清麦克风、下位机处理器和无线通讯单元集成在一个极小的装置内，形成超小型音频采集传感器，采集用户在各类交互平面上进行滑动、敲击、点按等触摸手势操作时产生的声音信号，实现采集设备的小型化，拓宽实用性；用户通过在手腕佩戴或将超小型音频采集模块放置在交互平面可以快速、准确、舒适的实现对虚拟物体的控制、手势识别以及文本输入等功能，极大地增强了交互系统的性能和效率。

2、基于超小型无线音频采集单元，本发明提供了一种基于多通道音频采集装置的手势交互系统，包括集成至少一个超小型无线音频采集单元的传感器模块、信息处理模块和交互、渲染与显示模块。本发明利用无线传输的通讯方式传递音频信号，形成了分离式系统，即通过无线通讯的形式连接上位机和下位机，形成了轻量级、易拓展的手势识别系统，更利于用户使用。本发明基于音频信号得到频谱图，采用预先构建的域自适应神经网络对频谱图行精确识别，得到手势分类。此外，该系统不仅可以适用于移动手机、桌面电脑等老式电子设备，也可以满足VR、AR等新兴电子系统的交互需求，可以将生活中的多种平面快速转化为有效的交互区域，提高用户的交互效率。

3、针对上述系统，本发明提供了一种基于多通道音频采集装置的手势交互方法，检测用户使用手指在交互平面上进行滑动、敲击、点按等触摸时产生的声音信号，将超小型无线音频采集单元采集到的音频信号经过滤波、放大和拼接处理后，将频谱图输入到训练好的深度神经网络结构中进行分类和识别，进而判断出用户此时的手势分类。

附图说明

图1为本发明的系统组成图。

图2为本发明提出的超小型音频采集装置软件流程图。

图3为超小型音频采集装置佩戴于手腕的示意图。

图4为超小型音频采集装置的平面布置图。

图5为手势识别的方法流程图。

图6为本发明方法流程图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

如图3所示，本发明提供了一种超小型无线音频采集单元，包含一个高清麦克风、下位机处理器和无线通讯单元。本发明实施例中，高清麦克风的参数如表1所示。

表1高清麦克风参数表

采样频率	44.1kHz
		采样深度	16位
码率	0.7Mbps

超小型无线音频采集单元通过腕带的形式固定在用户的手腕，或者通过粘贴的形式布置在桌面、墙面、头戴显示设备表面等多种表面，检测用户使用手指在手背/手心，以及各类平面上进行滑动、敲击、点按等触摸手势操作时产生的声音，将模块采集到的声音经过滤波、放大和拼接处理后，将其频谱图输入到训练好的深度神经网络结构中进行分类和识别，进而判断出用户此时的手势操作。同时，由于在不同位置进行的手势操作会相对于多个音频采集模块产生不同的声音信号，因此通过对多个模块采集到的声音信号共同进行分类可以获取手势操作的所在区域，以方便对手势操作空间进行划分。本发明实施例中，超小型无线音频采集单元为一个或两个。

如图1所示，基于超小型无线音频采集单元，本发明提供了一种基于多通道音频采集装置的手势交互系统，包括传感器模块、信息处理模块和交互、渲染与显示模块。

传感器模块中，集成至少一个超小型无线音频采集单元。高清麦克风在不同位置采集手指在交互平面进行触摸手势所产生的声音，在超小型无线音频采集单元各自的下位机处理器中转化为音频模拟信号；下位机处理器将音频模拟信号转化为音频数字信号，传入无线通讯单元；无线通讯单元将音频数字信号无线传输到信息处理模块中，软件流程图如图2所示。本发明实施例中，下位机处理器包括一个数字音频功放芯片和外围的模数转换电路。

信息处理模块中，上位机处理器接收所有超小型无线音频采集单元的音频数字信号，转化频谱图，并将频谱图压缩

后进行拼接，得到一张拼接频谱图输入到训练好的神经网络中进行分类，神经网络输出手势分类；其中，n为频谱图的个数。信息处理模块主要是由上位机处理器构成。上位机处理器的硬件可使用PC端、手机和头戴显示一体机等处理单元；上位机处理器的软件部分主要由神经网络构成。上位机处理器实时接收下位机处理器实时发送的各个麦克风的音频信号，并将同一时刻所接收到的一组音频信号制作成一张频谱图。上位机处理器将频谱图输入到已经训练好的神经网络中进行分类，最终输出当前手指所做的滑动或敲击手势。其中，神经网络的训练采用有监督学习的方式。

交互、渲染与显示模块中，图像渲染器渲染出虚拟场景，手势分类传输到图像渲染器中，图像渲染器根据手势分类控制虚拟物体在虚拟场景中进行移动，显示在图像显示器上。如图4和图5所示，图像渲染器根据用户的方向性手势操作可以对虚拟物体的移动方向进行控制、根据用户的数字与字母书写手势可以实现文本输入、根据用户的敲击、滑动等手势操作可以与系统界面(音视频APP、娱乐游戏、文本浏览)进行交互，显示在图像显示器上。

本系统利用人体手指与各类平面间的触摸手势操作，通过对手势操作产生的声音信号进行处理和分类的方式，可以实现高效、准确、快速的交互，可用于增强现实、虚拟现实、平板电脑、智能手表以及各类平面的交互，包括但不限于控制虚拟物体的移动、配合虚拟键盘进行本文输入等。

交互、渲染与显示模块的硬件部分可以使用HTC VIVE等虚拟现实头戴式显示器，也可以使用Hololens等增强现实头戴式显示器或者手机、个人计算机显示器等设备。交互、渲染与显示模块的软件部分可以使用Unity 3D或UE 4等渲染引擎。交互、渲染与显示模块将信息分类处理模块中得到的方向信息输入渲染引擎中，对虚拟环境中的虚拟物体进行控制以及滑动手势识别等功能。除了实现对虚拟物体的控制和滑动手势识别以外，用户还可以结合虚拟键盘及虚拟光标等实现文本输入等功能。

如图2和图6所示，本发明提出一种基于多通道音频采集装置的手势交互方法，针对上述系统，具体步骤包括：

手势交互系统上电，传感器模块中的高清麦克风手指在交互平面进行触摸手势所产生的声音，转化为音频模拟信号；下位机处理器将音频模拟信号转化为音频数字信号，增加包头，放入下位机处理器的缓冲区中；通过无线通讯单元，将音频数字信号传输到上位处理器中。在下位机处理模块中，当音频模拟信号大于噪声门限时，下位机处理器将音频模拟信号处理为无音频数据并滤波处理，不向上位机处理器传输。

上位机处理器将音频数字信号进行滤波并裁剪为1.5s的片段，提取频率特征得到频谱图；上位机处理器接收所有超小型无线音频采集单元的音频数字信号，转化频谱图，并将频谱图压缩

后进行拼接，得到一张拼接频谱图输入到训练好的神经网络中，n为频谱图的个数；神经网络对拼接频谱图进行分类与识别，得到手势分类。

图像渲染器渲染出虚拟场景，手势分类传输到图像渲染器中，图像渲染器根据手势分类控制虚拟物体在虚拟场景中进行移动，显示在图像显示器上。

手势分类有14种，分别是：上滑、下滑、左滑、右滑、单击、双击、三连击、从右侧画一个上半圆、从左侧画一个上半圆、从上方画一个左半圆、从下方画一个左半圆、从上方画一个右半圆、从下方画一个右半圆和画一个V形折线。

以上步骤不分先后。

本发明实施例中，上位机处理器的软件部分主要由神经网络构成，上位机处理器接收所有超小型无线音频采集单元的音频数字信号，转化频谱图，并将频谱图压缩

后进行拼接，得到一张拼接频谱图输入到训练好的神经网络中，其中神经网络的训练方式为：

步骤一、收集训练数据。首先按照手势分类结果划分好数据集，生成名为0-13的文件夹，把对应同一类别的频谱图放到同一文件夹下，并划分出训练集(占80％数据集)，测试集(占10％数据集)和验证集(占10％数据集)。然后将训练集放到文件地址data/splitData/train下，测试集放到文件地址data/splitData/test下，验证集放到文件地址data/splitData/valid下。

步骤二、设计神经网络的结构，本发明采用MobileNetV3的网络结构，如表2所示。

表2神经网络结构

其中，第一列Input代表神经网络每个特征层的shape变化，按照input中规定的通道数对频谱图进行拆分；第二列Operator代表频谱图中的特征层即将经历的block结构，本发明采用bneck结构进行特征提取；第三、四列分别代表了bneck结构内逆残差结构上升后的通道数、输入到bneck结构时特征层的通道数；第五列SE代表是否在该特征层引入注意力机制，注意力机制补偿缺失、重复或不连续的特征；第六列NL代表激活函数的种类，HS代表h-swish，RE代表RELU，激活函数将特征映射output端；第七列s代表每一次block结构所用的步长。

步骤三、权重初始化。Batch-size设置为50；Max_epoch设置为64；LR设置为0.0001；Log_interval设置为3；Val_interval设置为1。

步骤四、神经网络的训练。把训练集、测试集和验证集按顺序输入神经网络，经过神经网络计算得到output，在每种手势分类结果的label下，进行损失函数loss计算，然后通过反向传播算法来更新神经网络的神经元权重后，再进行前面过程，直至loss值达到预期效果。神经元权重会保存在weights目录下，best.pkl代表最好结果，last.pkl代表最后一个epoch得到的权重。当一个完整的数据集通过了神经网络一次并且返回了一次,这个过程称为一次epoch。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种超小型无线音频采集单元，其特征在于，包含一个高清麦克风、下位机处理器和无线通讯单元；高清麦克风采集手指在交互平面进行触摸手势所产生的声音，转化为音频模拟信号，传输到下位机处理器中；下位机处理器将音频模拟信号转化为音频数字信号，通过无线通讯单元对音频数字信号进行无线传输。

2.一种基于多通道音频采集装置的手势交互系统，其特征在于，针对如权利要求1所述的超小型无线音频采集单元，包括传感器模块、信息处理模块和交互和渲染与显示模块；

传感器模块中，集成至少一个超小型无线音频采集单元，高清麦克风在不同位置采集手指在交互平面进行触摸的手势所产生的声音，在超小型无线音频采集单元各自的下位机处理器中转化为音频模拟信号；下位机处理器将音频模拟信号转化为音频数字信号，传入无线通讯单元；无线通讯单元将音频数字信号无线传输到信息处理模块中；

信息处理模块中，上位机处理器接收所有超小型无线音频采集单元的音频数字信号，转化得到频谱图，并将所述频谱图压缩

后进行拼接，得到一张拼接频谱图输入到训练好的神经网络中进行分类，神经网络输出手势分类结果；其中，n为频谱图的个数；

交互、渲染与显示模块中，图像渲染器渲染出虚拟场景，所述手势分类传输到图像渲染器中，图像渲染器根据所述手势分类结果控制虚拟物体在虚拟场景中进行移动，显示在图像显示器上。

3.如权利要求1所述的系统，其特征在于，所述下位机处理器包括一个数字音频功放芯片和外围的模数转换电路，上位处理器为PC端或手机。

4.如权利要求1所述的系统，其特征在于，所述交互、渲染与显示模块中包括图像显示器和图像渲染器，图像显示器是PC端或VR/AR头盔，图形渲染器是Unity3D平台。

5.一种基于多通道音频采集装置的手势交互方法，其特征在于，针对如权利要求2-4所述的系统，具体步骤包括：

手势交互系统上电，传感器模块中的高清麦克风手指在交互平面进行触摸手势所产生的声音，转化为音频模拟信号；下位机处理器将音频模拟信号转化为音频数字信号，增加包头，放入下位机处理器的缓冲区中；通过无线通讯单元，将音频数字信号传输到上位处理器中；所述上位机处理器将音频数字信号进行滤波并裁剪为1.5s的片段，提取频率特征得到频谱图；上位机处理器接收所有超小型无线音频采集单元的音频数字信号，转化频谱图，并将所述频谱图压缩

后进行拼接，得到一张拼接频谱图输入到训练好的神经网络中，n为频谱图的个数；神经网络对拼接频谱图进行分类与识别，得到手势分类结果；图像渲染器渲染出虚拟场景，手势分类结果传输到图像渲染器中，图像渲染器根据手势分类结果控制虚拟物体在虚拟场景中进行移动，显示在图像显示器上；

在下位机处理模块中，当音频模拟信号大于噪声门限时，下位机处理器将音频模拟信号处理为无音频数据并滤波处理，不向所述上位机处理器传输。

6.如权利要求5所述的方法，其特征在于，神经网络采用有监督学习方式训练。

7.如权利要求4所述的方法，其特征在于，所述手势分类有14种，分别是：上滑、下滑、左滑、右滑、单击、双击、三连击、从右侧画一个上半圆、从左侧画一个上半圆、从上方画一个左半圆、从下方画一个左半圆、从上方画一个右半圆、从下方画一个右半圆和画一个V形折线。