CN110383284B

CN110383284B - 基于超声波的手势识别

Info

Publication number: CN110383284B
Application number: CN201880016277.XA
Authority: CN
Inventors: I·J·塔谢夫; S·M·扎拉; A·达斯
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-03-06
Filing date: 2018-02-27
Publication date: 2023-09-01
Anticipated expiration: 2038-02-27
Also published as: US20170300124A1; EP3593275A1; US10528147B2; WO2018164873A1; CN110383284A

Abstract

提供了一种超声手势识别系统，其基于对从手势反射的超声波脉冲的返回信号的分析来识别手势。该系统传输超声波线性调频并且以采样间隔对麦克风阵列进行采样以收集每个麦克风的返回信号。然后，系统将波束形成技术应用于返回信号的频域表示，以生成具有针对多个方向的波束形成的返回信号的声学图像。然后，系统从声学图像生成特征图像，以针对每个方向标识例如从麦克风阵列到手势的距离或深度。然后，系统将特征图像提交给深度学习系统以对手势进行分类。

Description

基于超声波的手势识别

背景技术

移动交互设备正在成为个性化计算的下一前沿。这种移动交互设备包括头戴式显示器(“HMD”)(例如，支持增强现实)和可穿戴设备。这种设备的广泛采用将取决于提供有效的输入输出(“IO”)模态，诸如手势、触摸和语音。存在的挑战在于为移动交互设备提供手势识别。当前技术采用光学感测来进行手势识别。这些技术依赖于通过测量空中的飞行时间(“ToF”)来估计到目标对象的距离。ToF是探测信号被传输到目标对象的时间与接收到探测信号的反射版本的时间之间的持续时间。其被测量为其中d是目标对象的距离，并且c＝2.998×10⁸m/s是大气中的光速。

尽管光学传感器在手势识别方面是有效的，但由于照明开销和处理复杂性(例如，捕获、同步和分析)，它们面临高能耗。高耗限制了它们在移动交互设备中的使用，其中由于电池的重量和尺寸，能耗在很大程度上具有很大优势。例如，在1500mAH(3.8V)电池上运行的HMD可以具有20％的IO能量预算(即，4104J)。如果光学传感器消耗2.5W的功率，则HMD可以支持约500个手势，其中每个手势持续3秒(例如，IO预算/每手势能量＝4104J/7.5J)。

发明内容

提供了一种超声手势识别(“UGR”)系统，其基于对从手势反射的超声波脉冲的返回信号的分析来识别手势。UGR系统可以传输超声波线性调频并且经由麦克风阵列以采样间隔收集样本。麦克风的样本形成麦克风的返回信号。然后，UGR系统使用波束形成技术来从返回信号生成针对线性调频的声学图像。对于多个方向，声学图像包含估计的频域返回信号，该估计的频域返回信号被估计为已经在该方向上从手势反射。然后，UGR系统根据声学图像生成特征图像，以针对每个方向识别例如从麦克风到手势的距离或深度。然后，UGR系统将特征图像提交给深度学习系统以对手势进行分类。

提供本“发明内容”是为了以简化的形式介绍一些概念，这些概念将在下面的“具体实施方式”中进一步描述。本“发明内容”不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

附图说明

图1是示出一些实施例中的UGR系统的架构的框图。

图2是一些实施例中的发射器/接收器的图像。

图3示出了一些实施例中的CNN的组件。

图4是示出一些实施例中的双输入CNN架构的框图。

图5示出了一些实施例中的LSTM层的存储器单元。

图6是示出一些实施例中的UGR系统的组件的框图。

图7是示出一些实施例中的识别手势组件的处理的流程图。

图8是示出一些实施例中的收集返回信号组件的处理的流程图。

图9是示出一些实施例中的生成声学图像组件的处理的流程图。

图10是示出一些实施例中的生成特征图像组件的处理的流程图。

具体实施方式

提供了一种用于基于超声信号识别手势的方法和系统以及深度学习网络。在一些实施例中，基于超声的手势识别(“UGR”)系统经由发射器传输频率变化的超声信号(例如，线性调频)以从手势接收返回信号。例如，手势可以是静态手势(例如，OK手势)或动态手势(例如，点击、打开(bloom)或手语手势)。然后，UGR系统通过以采样间隔对接收器阵列进行采样来接收超声信号的返回信号，以收集针对每个接收器的时域返回信号。例如，发射器可以是由用于接收时域返回信号的麦克风阵列围绕的换能器。然后，UGR系统将每个时域返回信号转换为频域返回信号。UGR系统生成声学图像，该声学图像包括针对多个方向中的每个方向的波束形成的频域返回信号，该波束形成的频域返回信号近似于来自该方向的频域返回信号。可以认为每个方向对应于与水平角度和竖直角度相关联的声学图像的像素。例如，水平和竖直角度可以在+/-40度的范围内，并且方向可以分开5度，从而产生17×17像素的声学图像。UGR系统采用波束形成技术，以通过组合接收器的频域返回信号来生成波束形成的频域返回信号。然后，UGR系统从声学图像生成具有针对每个方向的特征值的特征图像的例如，特征可以是深度(例如，到反射点的距离)或从针对一方向的波束形成的频域返回信号导出的强度。然后，UGR系统将特征图像提交给分类器，以将特征图像分类为表示特定手势。例如，分类器可以是深度学习系统，诸如卷积神经网络(“CNN”)，CNN包括卷积层，之后是完全连接(“FC”)层。卷积层可以包括卷积子层、整流线性单元(“ReLU”)子层和最大池化子层。可以使用包括特征图像的训练数据来训练分类器，特征图像具有指示其分类(例如，手势类型)的标签。当HMD使用超声波传感器(<15mW)与UGR系统而不是光学传感器时，HMD将能够在与光学传感器相同的IO能量预算内支持近100k的手势，如背景技术中所述，所支持的手势数目增加了200倍。

在一些实施例中，UGR系统通过发出超声信号序列并且如上所述生成针对每个超声信号的特征图像来识别动态手势。例如，如果预计动态手势需要三秒钟，则UGR系统发送短超声信号序列持续三秒。在这种情况下，深度学习网络可以包括CNN以及输入CNN的输出的长短期存储器(“LSTM”)层。当表示动态手势的特征图像序列被输入到深度学习网络时，LSTM层计算LSTM层的每个节点的激活值。节点的激活值是基于当前特征图像和先前特征图像的激活值来计算的。以这种方式，UGR系统连续地处理序列的特征图像，将序列的每个特征图像的分类考虑在内。另外，深度学习网络可以包括串联连接的多个卷积层，之后是FC层、LSTM层、softmax层和平均池化层。深度学习网络还可以用于处理多个特征的特征图像的并行序列，诸如针对深度的特征图像序列和针对强度的特征图像序列。在这种情况下，深度学习网络可以包括用于每个特征的卷积层，之后是完全连接到每个卷积层的FC层，之后是LSTM层、softmax层和平均池化层。

图1是示出一些实施例中的UGR系统的架构的框图。UGR系统包括脉冲设计组件101，脉冲设计组件101生成用以形成线性调频的信号并且将该信号发送到压电换能器102以生成线性调频。麦克风阵列103接收由形成手势的手反射的线性调频的返回信号。波束形成组件104接收用于线性调频的返回信号的样本，并且形成可以由匹配滤波组件105过滤的声学图像。特征提取组件106估计线性调频的声学图像生成特征图像。深度分类器组件107输入特征图像或特征图像序列，并且输出手势的分类。

CNN概述

CNN是一种已经被开发用于处理图像的神经网络。CNN输入图像并且输出图像的分类。例如，CNN可以用于自动确定患者的扫描是否表明存在肿瘤。CNN具有多个层，诸如卷积层(例如，具有卷积子层、ReLU子层和池化子层)、FC层等。一些更复杂的CNN可以具有多个卷积层、ReLU层、池化层和FC层。

卷积子层可以包括多个滤波器(也称为内核或激活函数)。滤波器输入图像的卷积窗口，将权重应用于卷积窗口的每个像素，并且输出该卷积窗口的激活值。例如，如果图像是256×256像素，则卷积窗口可以是8×8像素。滤波器可以对64个像素中的每个应用不同的权重以生成激活值。对于每个滤波器，卷积子层可以包括用于图像的每个像素的节点(也称为神经元)。每个节点基于在CNN的训练阶段期间学习的一组权重来输出激活值。例如，如果图像是256×256像素，则每个滤波器可以与65,536个节点(即，256*256)相关联。可以认为节点形成3D卷积卷(volume)，其高度和宽度为256，深度为3(即，滤波器的数目)，每个节点具有64个权重。如果假定为一个位置处的卷积窗口计算的用于识别特征或特性(例如，边缘)的激活值将有助于在不同位置识别该特征，则滤波器的所有节点可以共享同一组权重。通过共享权重，可以显著减少训练时间和存储要求。

ReLU子层具有ReLU卷，ReLU卷可以具有针对卷积卷的每个节点的节点，卷积卷具有相同的高度、宽度和深度(即，相同数目的滤波器)。ReLU子层将滤波器应用于卷积卷的每个激活值以生成ReLU卷的激活值。例如，可以使用诸如max(0，激活值)等滤波器来确保激活值不是负的。

池化子层可以用于通过下采样ReLU卷来减小ReLU卷的大小以形成池化卷。例如，池化卷可以具有激活值，该激活值是ReLU卷的2×2激活值的组的平均值。继续上面的示例，对于每个滤波器，池化子层的卷将具有128×128个节点。

FC层包括一定数目的节点，每个节点连接到池化卷的每个节点。例如，如果要将图像分类为猫、狗、鸟、鼠或雪貂，则FC层可以包括五个节点，这些节点的激活值提供指示图像包含这些动物之一的可能性的得分。每个节点具有滤波器，滤波器具有一组自己的权重，这些权重适合于滤波器适合分类的动物类型。

发射器/接收器设计和信号设计

在一些实施例中，UGR系统采用包括发射器和多个接收器的发射器/接收器。发射器可以是放置在诸如微机电系统(“MEMS”)麦克风等8元件接收器阵列的中央的压电换能器。发射器/接收器连接到音频接口(模数转换器和数模转换器)。发射器/接收器可以由处理返回信号的相同计算系统控制，或者由控制发射和接收的专用处理器控制。在一些实施例中，图2是发射器/接收器的图像。

在一些实施例中，UGR系统可以采用具有以下特性的超声信号：

(a)其自相关具有一个尖峰，以便更容易使用互相关方法检测回波；

(b)如果压电传感器在40kHz附近谐振，则发射脉冲的频带可以限制在36-44kHz；以及

(c)脉冲也是时间限制的，因为脉冲的宽度T_P应当小于最小飞行时间ToF_min(例如，对于d_min＝30cm，ToF_min＝1.7ms)。

UGR系统可以采用线性频率调制(“LFM”)的线性调频，其具有持续时间＝1.5ms并且被频带限制为36-44kHz。LFM线性调频的频谱泄漏量与线性调频的持续时间成反比。UGR系统在期望频率范围(即，36-44kHz)中在频域中应用矩形滤波器，然后在时域中应用汉明窗口以减少自相关函数中的扩展(关联)。

在一些实施例中，UGR系统周期性地传输线性调频。线性调频可以以36kHz的频率开始并且在1.5ms的持续时间内线性地增加到44kHz的频率。UGR系统可以以192kHz的速率对由每个麦克风接收的返回信号的频率进行采样。

波束形成技术

如上所述，UGR系统例如针对水平(方位角)和竖直(俯仰角)的+/-40度的视场(“FoV”)生成“声学图像”。声学图像可以包括针对每5度的像素。因此，声学图像将是17×17像素，总共289个像素，每个像素表示一方向。为了生成声学图像，UGR系统采用波束形成技术为每个像素生成具有多个频率区间的波束形成的频域返回信号，以表示来自像素的方向的频域返回信号。

在一些实施例中，UGR系统对由m元件麦克风阵列(例如，m＝8)接收的超声信号进行采样，并且组合这些信号以形成针对每个方向的单个接收信号。UGR系统可以采用最小方差无失真响应(“MVDR”)波束形成器(“BF”)，如1969年的Proc.IEEE,vol.57,no.8,pp.1408–1418的J.Capon的“High-resolution frequency-wavenumber spectrum analysis”中所述，之后是整体BF架构，如I.Tashev,Sound Capture and Processing,PracticalApproaches,Wiley,UK,1st edition,2009,ISBN 978-0-470-31983-3中描述的。

在下文中，x(t，m)是表示由麦克风m在时间t接收的幅度的矩阵。UGR系统可以在返回信号的预期到达之前开始对麦克风进行采样，并且持续比线性调频的长度长的一段时间。UGR系统将x(t，m)转换为频域返回信号，并且将与线性调频的频率相对应的部分提取为X(f，m)。X(f，m)是表示频率区间f的频域返回信号的矩阵。频率区间的数目可以是512。Y(d，f)是表示从方向d接收的估计的频域返回信号的矩阵(例如，声学图像)。方向的数目可以是289。以下伪代码概述了Y(d，f)的计算。

W(d，f，m)是表示针对每个方向和频率与每个麦克风相关联的权重的矩阵。为了生成针对频率和方向的估计频域返回信号的值，UGR系统针对每个麦克风生成该麦克风的该频率幅度乘以该频率和方向的权重的乘积。UGR系统对乘积求和，以给出该频率和该方向的估计频域返回信号的值，如伪码的第4行所示。是矩阵(m×m)，它是麦克风阵列的逆噪声协方差矩阵。在基于类似于UGR系统的操作环境的房间来使用UGR系统之前，计算/>的元素。由于/>未更新，因此波束形成器是时不变的，并且可以离线设计，如2016年ICASSP的M.Thomas、H.Gamper和I.Tashev的“BFGUI:An interactive tool for the synthesisand analysis of microphone array beamformers”中描述的。在实时操作期间，UGR系统仅需要获取特定频率的权重矢量与该频率的频域返回信号的值的矢量的内积来计算Y(d，f)。

D(d，f，m)是对于每个方向和频率表示[1e^(if(t_d2-t_d1))...e^(if(t_dM-t_d1))]^H的矩阵，其中i是复数sqrt(-1)，f是频率，t_dm表示声音经由直接路径从方向d的手势移动到麦克风m所花费的时间(例如，假定手距离麦克风60cm)，并且H是Hermitian转置。在波束形成之后，UGR系统可以利用线性调频对Y(d，f)执行匹配滤波，以在被白噪声破坏时最大化时域接收信号的信噪比。

在一些实施例中，UGR系统可以从针对每个方向的估计频域返回信号中提取诸如深度(飞行时间)和强度等特征，以生成特征图像。UGR系统通过找到由下式表示的互相关中的峰值来提取深度d*：

R_XS(τ)＝FFT^-1[X(f)S^★(f)]

UGR系统将每个估计的频域返回信号与频域线性调频进行卷积，并且将最大重叠时间τ^★标识为深度。强度I^★是τ^★周围的信号的L₂范数，即

分类

UGR系统对手势的识别可以被认为是序列学习问题。目的是产生概括用于任意长度输入序列<x₁，x₂，...，x_T>的手势的特征图像的输入序列的单个标签(或手势)，其中T是序列的长度。换言之，学习问题是估计函数f，其中f：

在一些实施例中，UGR系统可以使用CNN，CNN是CNN层和LSTM层的组合。图3示出了一些实施例中的CNN的组件。CNN 300包括第一卷积层310、第二卷积层320、FC层330、LSTM层340、softmax层350和平均池化层360。每个卷积层包括卷积子层311、ReLU子层312和池化子层313。输入到CNN 300的特征图像301是针对深度或强度特征。

虽然深度的特征图像捕获空间深度，但它不能及时捕获深度。由于动态手势在空间和时间上都发展，UGR系统通过使用递归神经网络(“RNN”)合并时间重复连接来捕获关于时间动态的附加信息。尽管RNN在语音识别、语音增强和语言建模任务方面取得了成功，但由于长时间步骤中的梯度消失/爆炸问题，它们难以被训练。UGR系统使用包含存储器单元的LSTM层克服了这个问题，这些存储器单元允许CNN在给定新输入的情况下学习选择性地更新或忘记先前的隐藏状态。UGR系统可以使用单向从左到右的LSTM。LSTM层输入由CNN生成的高级特征以捕获手势的时间结构。时间连接可以仅在LSTM层发生。图4示出了一些实施例中的LSTM层的存储器单元400。单元401连接到卷积门402、输入门403、遗忘门404和输出门405。卷积门输入由CNN层输出的特征窗口，并且应用滤波器以生成卷积值。输入门输入窗口和单元的当前激活值，并且应用函数来生成输入值。卷积值和输入值(例如，使用加权函数)被组合以生成输入到单元的值。遗忘门输入窗口和单元的当前值，并且应用函数来生成输入到单元的遗忘值。单元组合输入值以生成新的当前激活值。输出门输入窗口和单元的新的当前激活值，并且应用函数来生成输出值。对于最终分类阶段，softmax层输入LSTM层的输出。

在一些实施例中，UGR系统可以使用监督的交叉熵训练来训练CNN中的所有权重。对于时间步长t的每个特征图像x，CNN生成针对手势C的后验概率，即其中C是手势集。由于目标是为从t＝1到t＝T的整个序列生成单个手势，因此UGR系统执行所有手势的后验的均值池化并且挑选具有最高平均后验的手势。为了进一步提高准确度，UGR系统可以使用深度和强度特征，这些特征在结合使用时可以提供有用的补充信息。因此，UGR系统可以使用双输入CNN架构。图5是示出一些实施例中的双输入CNN架构的框图。图5类似于图3，不同之处在于，单独的卷积层用于每个特征。对于第一特征，CNN包括输入第一特征的特征图像501(1)的卷积层510(1)和520(1)。对于第二特征，CNN包括输入第二特征的特征图像501(2)的卷积层510(2)和520(2)。卷积层520(1)和520(2)的输出完全连接到FC层530。因此特征图像501(1)和501(2)被同时处理。

在一些实施例中，UGR系统可以使用计算网络工具包“CNTK”来训练CNN，如2014年的Tech.Rep.Microsoft,Redmond,Wash.的D.Yu等人的“An Introduction toComputational Networks and the Computational Network Toolkit”中描述的。UGR系统可以使用深度特征和强度特征。对于这两个特征，UGR系统可以使用2×2的2D内核大小。水平和竖直步幅的步幅长度可以是1。可以在图像边缘处使用零填充。这些设置可以用于卷积层。UGR系统可以在尺寸为2×2的小区域上执行最大池化，其中非重叠水平和垂直步幅的长度为2。深度和强度卷积层之间的差异在于内核的数目。对于深度特征，UGR系统可以针对410(1)和420(1)分别使用16个和32个内核。对于强度特征，UGR系统可以针对410(2)和420(2)两者均使用16个内核。UGR系统可以使用0.2的丢失因子来改善泛化。UGR系统可以使用128作为FC层的输出维度。

在一些实施例中，UGR系统可以通过沿着信道堆叠相邻帧来在每个时间步长使用上下文信息。对于深度特征，可以使用大小为5(即，来自t-2、……、t+2)的上下文窗口。因此，在每个时间步长，具有上下文的输入特征图像可以是尺寸为17×17×5的张量，而不是没有上下文的17×17×1张量。类似地，对于强度特征，可以使用大小为7的上下文窗口。

图6是示出一些实施例中的UGR系统的组件的框图。UGR系统600包括识别手势组件601、收集返回信号组件602、生成声学图像组件603、生成特征图像组件604、CNN组件605、生成线性调频组件606和样本接收器组件607。识别手势组件通过调用其他组件来控制整体手势识别。调用生成线性调频组件以基于存储在线性调频存储器611中的线性调频的指定来生成线性调频，并且指示线性调频以经由发射器/接收器630传输。调用样本接收器组件以对来自发射器/接收器的返回信号进行采样。收集返回信号组件收集针对每个样本的返回信号并且将返回信号存储在返回信号存储装置612中。生成声学图像组件生成针对线性调频的声学图像并且将声学图像存储在声学图像存储装置613中。生成特征图像组件根据声学图像生成特征图像并且将特征图像存储在特征图像存储装置614中。调用CNN组件以使用在训练阶段期间学习的存储在CNN权重存储器615中的权重基于特征图像序列识别手势。

可以在其上实现UGR系统的计算系统可以包括中央处理单元、输入设备、输出设备(例如，显示设备和扬声器)、存储设备(例如，存储器和盘驱动器)、网络接口、图形处理单元、加速度计、蜂窝无线电链路接口、全球定位系统设备等。计算系统可以包括数据中心的服务器、大规模并行系统等。计算系统可以访问计算机可读介质，包括计算机可读存储介质和数据传输介质。计算机可读存储介质是有形存储装置，其不包括暂时的传播信号。计算机可读存储介质的示例包括诸如主存储器、高速缓冲存储器和辅助存储器(例如，DVD)和其他存储器等存储器。计算机可读存储介质可以记录在它们上，或者可以用实现UGR系统的计算机可执行指令或逻辑来编码。数据传输介质用于经由有线或无线连接经由暂态、传播信号或载波(例如，电磁)来传输数据。

UGR系统可以在由一个或多个计算机、处理器或其他设备执行的计算机可执行指令(诸如程序模块和组件)的一般上下文中描述。通常，程序模块或组件包括执行特定任务或实现特定数据类型的例程、程序、对象、数据结构等。通常，程序模块的功能可以在各种实施例中根据需要进行组合或分布。UGR系统的各方面可以使用例如专用集成电路(ASIC)以硬件实现。

图7是示出一些实施例中的识别手势组件的处理的流程图。识别手势组件700控制手势的整体识别。在框701-706中，组件循环传输线性调频序列并且处理返回信号以标识动态手势。在框701中，组件调用生成线性调频组件以生成线性调频。在框702中，组件调用收集返回信号组件以从线性调频收集返回信号。在框703中，组件调用生成声学图像组件以生成线性调频的声学图像。在框704中，组件调用生成特征图像组件以从声学图像序列生成特征图像。在框705中，组件将CNN应用于特征图像。在判定框706中，如果满足终止标准(例如，已经传输了一定数目的线性调频)，则组件在框707继续，否则组件循环到框701以传输下一线性调频。在框707中，组件输出由CNN标识的手势并且然后完成。

图8是示出一些实施例中的收集返回信号组件的处理的流程图。调用收集返回信号组件800以收集线性调频的返回信号。在框801中，组件等待下一采样周期。在判定框802中，如果已经选择了所有采样周期，则组件完成，否则组件在框803处继续。在框803中，组件从麦克风阵列收集读数。在框804中，组件将读数作为返回信号存储在返回信号存储器中，并且然后循环到框801以等待下一采样周期。

图9是示出一些实施例中的生成声学图像组件的处理的流程图。调用生成声学图像组件900以根据每个麦克风的收集的返回信号生成声学图像。在框901中，组件在每个麦克风的返回信号内定位线性调频。在框902中，组件选择与线性调频相对应的每个麦克风的返回信号。在框903中，组件将每个麦克风的返回信号从时域返回信号转换为频域返回信号。在框904中，组件选择下一方向d。在判定框905中，如果已经选择了所有方向，则组件完成，否则组件在框906处继续。在框906中，组件计算方向d的估计的频域返回信号并且循环到框904以选择下一方向。

图10是示出一些实施例中的生成特征图像组件的处理的流程图。生成特征图像组件1000生成深度特征和强度特征的特征图像，并且将它们存储在特征图像存储器中。在框1001中，组件选择下一方向d。在判定框1002中，如果已经选择了所有方向，则组件完成，否则组件在框1003处继续。在框1003-1005中，组件计算针对所选择的方向d的深度d*。在框1006中，组件与方向相关联地将深度存储在特征图像存储器中。在框1007中，组件计算针对所选择的方向的强度I*。在框1008中，组件与所选择的方向相关联地将强度存储在特征图像存储中，并且然后循环到框1001以选择下一方向。

以下段落描述UGR系统的各方面的各种实施例。UGR系统的实现可以采用实施例的任何组合。下面描述的处理可以由具有处理器的计算设备执行，该处理器执行存储在计算机可读存储介质上的实现UGR系统的计算机可执行指令。

在一些实施例中，提供了一种由计算设备执行的用于识别手势的方法。该方法经由发射器传输超声波线性调频以从手势接收时域返回信号。对于多个接收器中的每个接收器，该方法通过以采样间隔对该接收器进行采样来接收时域返回信号，并且将时域返回信号转换为频域返回信号。该方法生成具有针对多个方向中的每个方向的波束形成的频率返回信号的声学图像。声学图像的生成包括针对每个方向执行频域返回信号的波束形成以生成波束形成的频域返回信号。该方法从声学图像生成具有针对每个方向的特征值的针对特征的特征图像。该方法还将特征图像提交给分类器以对手势进行分类。在一些实施例中，分类器是卷积神经网络。在一些实施例中，按顺序传输多个线性调频，并且特征图像序列被生成以具有针对每个线性调频信号使用一个特征图像，并且其中提交包括将特征图像序列提交给分类器以对动态手势进行分类。在一些实施例中，分类器是卷积神经网络(“CNN”)。在一些实施例中，分类器包括卷积层和长短期存储器(“LSTM”)层。在一些实施例中，分类器包括多个卷积层、完全连接层、长短期存储器(“LSTM”)层、softmax层和平均池化层。在一些实施例中，针对多个特征生成多个特征图像序列，并且分类器包括用于每个特征的卷积层、完全连接层、长短期存储器(“LSTM”)层、softmax层和平均池化层，其中完全连接层完全连接到卷积层。在一些实施例中，该特征选自包括深度和强度的组。在一些实施例中，波束形成使用在线性调频的传输之前生成的接收器的噪声协方差矩阵。在一些实施例中，声学图像的生成包括执行波束形成的频域返回信号和传输的线性调频的匹配滤波。

在一些实施例中，提供了一种用于识别手势的计算系统，该计算系统包括存储计算机可执行指令的一个或多个计算机可读存储介质、以及用于执行存储在一个或多个计算机可读存储介质中的计算机可执行指令的一个或多个处理器。这些指令包括对于多个超声波脉冲中的每个访问时域返回信号的组件的指令，时域返回信号是来自所传输的超声波脉冲的姿势的反射，其中每个时域返回信号已经由接收器接收。这些指令包括波束形成组件的指令，该波束形成组件对于每个超声波脉冲和每个方向执行波束形成，以从与时域返回信号相对应的频域返回信号生成针对脉冲和方向的波束形成的频域返回信号。这些指令包括特征提取组件的指令，该特征提取组件对于每个超声波脉冲，从波束形成的频域返回信号中提取每个方向的特征的特征值。这些指令包括分类器组件的指令，该分类器组件接收每个超声波脉冲的特征值，基于特征值识别手势，并且输出所识别的手势的指示。在一些实施例中，分类器组件实现卷积神经网络(“CNN”)。在一些实施例中，CNN包括卷积层和长短期存储器(“LSTM”)层。在一些实施例中，CNN包括多个卷积层、完全连接层、长短期存储器(“LSTM”)层、softmax层和平均池化层。在一些实施例中，特征提取组件提取多个特征的特征值，并且CNN包括用于每个特征的卷积层、完全连接层、长短期存储器(“LSTM”)层、softmax层和均值池化层，其中完全连接层完全连接到卷积层。在一些实施例中，超声波脉冲的频率变化。

在一些实施例中，提供了一种由计算系统执行的用于识别手势的方法。该方法传输超声波脉冲。该方法在多个接收器中的每个接收器处从超声波脉冲接收返回信号。该方法基于返回信号执行波束形成，以生成针对多个方向中的每个方向的波束形成的返回信号。该方法为每个波束形成的返回信号生成特征值。该方法将分类器应用于特征值以对手势进行分类。在一些实施例中，分类器是卷积神经网络。在一些实施例中，分类器由深度学习系统执行。

在一些实施例中，提供了一种深度学习系统，用于根据从手势反射的超声波脉冲的返回信号生成的特征图像来识别手势。深度学习系统包括按顺序输入特征图像并且输出针对每个特征图像生成的第一特征的第一卷积层，第一卷积层包括第一卷积子层、第一整流线性单元(“ReLU”)子层和第一最大池化子层。深度学习系统还包括按顺序输入第一特征并且输出针对每个特征图像生成的第二特征的第二卷积层，第二卷积层包括第二卷积子层、第二ReLU子层和第二最大池化层。深度学习系统还包括按顺序输入第二特征并且输出针对每个特征图像生成的第三特征的完全连接层。深度学习系统还包括按顺序输入第三特征并且输出针对每个特征图像的第四特征的长短期存储器层。深度学习系统还包括按顺序输入第四特征并且输出针对特征图像序列的分类的概率的softmax层。深度学习系统还包括输入分类的概率并且输出针对特征图像序列的分类的指示的最大池化层。

尽管用结构特征和/或动作专用的语言描述了本主题，但是应当理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。而是，上述具体特征和动作被公开作为实现权利要求的示例形式。因此，除了所附权利要求之外，本发明不受限制。超声深度成像的各方面在于2014年9月11日提交的题为“Ultrasonic Depth Imaging”的美国专利申请公开No.2016/0077206中描述。

Claims

1.一种由计算设备执行的用于识别手势的方法，所述方法包括：

经由发射器传输超声线性调频以从所述手势接收时域返回信号；

对于多个接收器中的每个接收器，

通过以采样间隔对所述接收器进行采样来接收所述时域返回信号；以及

将所述时域返回信号转换为频域返回信号；

生成具有针对多个方向中的每个方向的波束形成的频率返回信号的声学图像，所述声学图像的所述生成包括：对所述频域返回信号执行波束形成以生成针对每个方向的波束形成的频域返回信号；

从所述声学图像生成具有针对每个方向的特征值的针对特征的特征图像；以及

将所述特征图像提交给分类器以对所述手势进行分类，其中所述分类器是卷积神经网络CNN，所述卷积神经网络包括多个卷积层、完全连接层、长短期存储器LSTM层、softmax层和平均池化层。

2.根据权利要求1所述的方法，其中多个线性调频按顺序被传输，并且特征图像序列被生成以具有针对每个线性调频的一个特征图像，并且其中提交包括将所述特征图像序列提交给所述分类器以对动态手势进行分类。

3.根据权利要求1所述的方法，其中多个特征图像序列针对多个特征被生成，并且所述分类器包括用于每个特征的卷积层，并且其中所述完全连接层完全连接到所述卷积层。

4.根据权利要求1所述的方法，其中所述特征选自包括深度和强度的组。

5.根据权利要求1所述的方法，其中所述波束形成使用针对在所述线性调频的所述传输之前生成的所述接收器的噪声协方差矩阵。

6.根据权利要求1所述的方法，其中所述声学图像的所述生成包括：执行所述波束形成的频域返回信号和所传输的所述线性调频的匹配滤波。

7.一种用于识别手势的计算系统，所述计算系统包括：

存储以下组件的计算机可执行指令的一个或多个计算机可读存储介质：

对于多个超声波脉冲中的每个超声波脉冲，访问时域返回信号的组件，所述时域返回信号是来自所传输的所述超声波脉冲的所述手势的反射，每个时域返回信号已经由接收器接收；

波束形成组件，对于每个超声波脉冲和每个方向，所述波束形成组件执行波束形成以从与所述时域返回信号相对应的频域返回信号生成针对所述脉冲和方向的波束形成的频域返回信号；

特征提取组件，对于每个超声波脉冲，所述特征提取组件从所述波束形成的频域返回信号中提取针对每个方向的特征的特征值；以及

分类器组件，所述分类器组件接收针对每个超声波脉冲的所述特征值，基于所述特征值识别所述手势，并且输出所识别的所述手势的指示，其中所述分类器组件实现卷积神经网络CNN，所述卷积神经网络包括多个卷积层、完全连接层、长短期存储器LSTM层、softmax层和平均池化层；以及

一个或多个处理器，用于执行存储在所述一个或多个计算机可读存储介质中的所述计算机可执行指令。

8.根据权利要求7所述的计算系统，其中所述特征提取组件提取针对多个特征的特征值，并且所述CNN包括用于每个特征的卷积层，并且其中所述完全连接层完全连接到所述卷积层。

9.根据权利要求7所述的计算系统，其中所述超声波脉冲的频率发生变化。

10.一种由计算设备执行的用于识别手势的方法，所述方法包括：

传输超声波脉冲；

在多个接收器中的每个接收器处，从所述超声波脉冲接收返回信号；

基于所述返回信号执行波束形成，以生成针对多个方向中的每个方向的波束形成的返回信号；

针对每个波束形成的返回信号生成特征值；以及

将分类器应用于所述特征值以对所述手势进行分类，其中所述分类器组件实现卷积神经网络CNN，所述卷积神经网络包括多个卷积层、完全连接层、长短期存储器LSTM层、softmax层和平均池化层。

11.根据权利要求10所述的方法，其中所述分类器由深度学习系统执行。

12.一种深度学习系统，用于从特征图像识别手势，所述特征图像根据从手势反射的超声波脉冲的返回信号被生成，所述深度学习系统包括：

第一卷积层，所述第一卷积层按顺序输入特征图像并且输出针对每个特征图像生成的第一特征，所述第一卷积层包括第一卷积子层、第一整流线性单元ReLU子层和第一最大池化子层；

第二卷积层，所述第二卷积层按顺序输入所述第一特征并且输出针对每个特征图像生成的第二特征，所述第二卷积层包括第二卷积子层、第二ReLU子层和第二最大池化层；

完全连接层，所述完全连接层按顺序输入所述第二特征并且输出针对每个特征图像生成的第三特征；

长短期存储器层，所述长短期存储器层按顺序输入所述第三特征并且输出针对每个特征图像的第四特征；

softmax层，所述softmax层按顺序输入所述第四特征并且输出针对所述特征图像序列的分类的概率；以及

最大池化层，所述最大池化层输入所述分类的概率并且输出针对所述特征图像序列的所述分类的指示。