CN102981615B

CN102981615B - 手势识别装置及识别方法

Info

Publication number: CN102981615B
Application number: CN201210435804.5A
Authority: CN
Inventors: 王小军; 唐琪
Original assignee: Ruisheng Acoustic Technology Changzhou Co ltd; AAC Acoustic Technologies Shenzhen Co Ltd; Ruisheng Technology Nanjing Co Ltd
Current assignee: Ruisheng Acoustic Technology Changzhou Co ltd; AAC Technologies Holdings Shenzhen Co Ltd; Ruisheng Technology Nanjing Co Ltd
Priority date: 2012-11-05
Filing date: 2012-11-05
Publication date: 2015-11-25
Anticipated expiration: 2032-11-05
Also published as: US20140125582A1; US9176589B2; CN102981615A

Abstract

本发明涉及了一种手势识别装置及识别方法，该装置包括：左声源和右声源，所述左声源和右声源水平向间隔设置，用于向手势探测区域发出声音信号；信号采集模块，所述信号采集模块置于所述左声源和右声源的连线的中垂线上，用于接收左声源和右声源发出的声音信号并将声音信号转化为音频信号；手势分析模块，接收并分析信号采集模块输出的音频信号，确定手势并输出指令。本发明提供的手势识别装置及识别方法，具有计算量小、误判率低、无需依赖光的特点，并且可以在个人电脑、笔记本电脑、平板电脑以及其它移动设备上通过扬声器和麦克风实现对电脑的非接触式指令输出。

Description

手势识别装置及识别方法

【技术领域】

本发明涉及手势识别领域，尤其涉及一种手势识别装置及识别方法。

【背景技术】

随着个人电子产品的不断发展，人与电子设备交互的方式也在不断变化，从一开始的键盘输入，到触摸输入，现在又出现了新的非接触式的手势识别人际交互模式。

目前流行的手势识别的方式有基于视频的手势识别以及基于语音的手势识别。基于视频的手势识别具有计算量大、误判率高、对光照有要求等缺点。而基于语音的手势识别通过捕获例如关键词的讲话过程获得的一组语音的信息，这样就要求人的发音准确性以及需要记住语音命令等缺陷_。

因此，有必要提供一种新型的手势识别装置及识别方法。

【发明内容】

本发明的目的在于提供一种手势识别装置及识别方法，具有计算量小、误判率低、无需依赖光的特点，并且可以在个人电脑、笔记本电脑、平板电脑以及其它移动设备上通过扬声器和麦克风实现对电脑的非接触式指令输出。

一种手势识别装置，该装置包括：左声源和右声源，所述左声源和右声源水平向间隔设置，用于向手势探测区域发出声音信号；信号采集模块，所述信号采集模块置于所述左声源和右声源的连线的中垂线上，用于接收左声源和右声源发出的声音信号并将声音信号转化为音频信号，所述音频信号包括直接由左声源和右声源发出且不经过手势探测区域反射的基准信号和经过手势探测区域反射回来的频移信号；手势分析模块，接收信号采集模块输出的音频信号，对音频信号进行处理得到二值化的频移曲线，根据所述频移曲线得出手势的状态序列，将手势的状态序列与模板序列作比较，确定手势并输出指令。

优选的，所述左声源和右声源之间的间距为30～60cm。

优选的，所述手势探测区域位于左声源和右声源的前方，并且离左声源和右声源的距离为10～40cm。

一种手势识别方法，该方法包括如下步骤：S1，左声源和右声源分别向手势探测区域发出声音信号；S2，信号采集模块接收左声源和右声源发出的声音信号并将声音信号转化为音频信号，所述音频信号包括直接由左声源和右声源发出且不经过手势探测区域反射的基准信号和经过手势探测区域反射回来的频移信号；S3，手势分析模块接收并分析信号采集模块输出的音频信号，确定手势并输出指令，其具体步骤下：S31，对音频信号进行加窗处理，汉明窗的系数公式为：

w (n) = 0.54 - 0.46 \csc (2 π \frac{n}{N}), 0 \leq n \leq N

其中，所述N＝L-1，L为汉明窗长度，汉明窗长度与FFT的长度一致；S32，将音频信号从时域转化为频域，分离音频信号中的基准信号和频移信号，并提取频移信号；S33，将频移信号除以基准信号的幅值，得到归一化的频移信号；S34，分别对音频信号的蓝移与红移的能量求和，所述蓝移或红移能量和的公式为：

E = Σ A_{k}^{2}, 0 \leq k \leq M - 1

其中,M为FFT长度的一半，A_k为蓝移或红移频带内的每一个频点的信号幅值，然后将某一段时间内的频移定义为蓝移能量与红移能量之差，记作：

S＝Eb-Er

其中，Eb为蓝移能量，Er为红移能量，把所有时间段的频移连起来，从而得到频移曲线；S35，选取合适的阀值，将频移曲线简化为+1、0、-1的三值曲线，从而得到二值化后的频移曲线，进一步可以得出手势的状态序列；S36，将得到的状态序列与手势库中的模板序列作比较，从而完成手势识别过程，并输出指令。

优选的，所述左声源和右声源输出的声音信号都为单频信号，其频率范围为18kHz～22kHz。

优选的，所述左声源和右声源分别输出的声音信号的频率之差不小于1000Hz。

优选的，在步骤S3中，所述汉明窗的长度L的取值范围为4096～8192。

优选的，在步骤S34中，在对音频信号的蓝移与红移的能量求和时，需要预先设定基准频率的带宽Bc和频移频率的带宽Bs。

优选的，在步骤S35中，正阀值的取值范围为0.00005～0.0005，负阀值的取值范围为-0.00005～-0.0005。

本发明的有益效果在于:本发明提供的提供一种手势识别装置及识别方法，具有计算量小、误判率低、无需依赖光的特点，并且可以在个人电脑、笔记本电脑、平板电脑以及其它移动设备上通过扬声器和麦克风实现对电脑的非接触式指令输出。

【附图说明】

图1是本发明手势识别装置的实施例图；

图2是本发明手势识别方法的流程图；

图3是本发明手势识别方法中的经过FFT得到的频谱信息图；

图4是本发明手势识别方法中的频移能量求和图；

图5是本发明手势识别方法中的频移曲线图；

图6是本发明手势识别方法中的二值化频移曲线图；

图7是本发明手势识别方法中的手势定义图；

图8是本发明手势识别方法中的各手势的特征状态模板序列库图。

【具体实施方式】

下面结合附图和实施方式对本发明作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明提供的手势识别装置及识别方法是基于声学的，即由声音的多普勒效应来实现的，因此需要利用设备的声学器件来实现。设备中的扬声器作为声源，麦克风作为信号采集模块，当用户在设备前方的手势探测区域内完成特定的手势时，本手势识别装置及识别方法可以探测到用户的手势，并向设备发送特定的用户指定。本发明实现的原理在于：因为不同的手势会产生不同的多普勒效应，从而产生独特的频率偏移，从这种偏移中提取不同的特征值，就可以识别出各种手势。

多普勒效应的原理是主要内容为：声源辐射的声音波长因为波源和观测者的相对运动而产生变化。在运动的波源前面，波被压缩，波长变得较短，频率变得较高，即蓝移(BlueShift)；当运动在波源后面时，会产生相反的效应。波长变得较长，频率变得较低，即红移(RedShift)。波源的速度越高，所产生的效应越大。根据波红(蓝)移的程度，可以计算出波源与观测者相对运动的速度。

根据上述原理，本发明的提供了一种手势识别装置，其具体结构如图1所示(本实施例为笔记本电脑)，包括左声源11、右声源12、位于所述左声源11和右声源12的连线的中垂线上的信号采集模块13、以及手势分析模块(位于笔记本电脑内部，未标记)，实际上，在电子设备中，可以将扬声器作为左声源11和右声源12，麦克风作为信号采集模块13。左声源和右声源还可以安置在笔记本的显示器两边，就如1中的左声源11’和右声源12’。

左声源11和右声源12水平向间隔设置，间隔距离为30～60cm，用于向手势探测区域发出声音信号。手势探测区域位于左声源11和右声源12的前方，并且离左声源11和右声源12的距离为10～40cm。由左声源11和右声源12发出的一部分声音信号(又称为基准信号)不经过手势探测区域反射就被信号采集模块13接收；还有一部分声音信号经过手势探测区域反射回来被信号采集模块13接收，即为频移信号，信号采集模块13将接收到的声音信号转化为音频信号。

手势分析模块，接收信号采集模块13输出的音频信号，对音频信号进行处理得到二值化的频移曲线，根据所述频移曲线得出手势的状态序列，将手势的状态序列与模板序列作比较，确定手势并输出指令。

左声源11和右声源12发出不同频率的声音信号，该声音信号为单频信号，经过手势探测区域中的手的反射被信号采集模块13接收。优选的，该声音信号的频率范围为18kHz～22kHz，频率之差不小于1000Hz，这样，可以保证声音信号的频率不在可听频率范围内，左声源11发出的声音信号和右声源12发出的声音信号也不会形成干扰。

实际上，本发明提供的手势识别装置还可以应用于个人台式电脑、平板电脑以及其它移动音频设备。

本发明还提供了一种基于上述如图1所示的手势识别装置的手势识别方法，结合图1和图2所示，该方法包括如下步骤：

S1，左声源11和右声源12分别向手势探测区域发出声音信号；

S2，信号采集模块13接收左声源11和右声源12发出的声音信号并将声音信号转化为音频信号，所述音频信号包括直接由左声源11和右声源12发出且不经过手势探测区域反射的基准信号和经过手势探测区域反射回来的频移信号；

S3，手势分析模块接收并分析信号采集模块13输出的音频信号，确定手势并输出指令，其具体步骤如下：

S31，对音频信号进行加窗处理，汉明窗的系数公式为：

w (n) = 0.54 - 0.46 \csc (2 π \frac{n}{N}), 0 \leq n \leq N

其中，所述N＝L-1，L为汉明窗长度，汉明窗长度与FFT的长度一致；

S32，将音频信号从时域转化为频域，分离音频信号中的基准信号和频移信号，并提取频移信号；

S33，将频移信号除以基准信号的幅值，得到归一化的频移信号；

S34，分别对音频信号的蓝移与红移的能量求和，所述蓝移或红移能量和的公式为：

E = Σ A_{k}^{2}, 0 \leq k \leq M - 1

S＝Eb-Er

其中，Eb为蓝移能量，Er为红移能量，把所有时间段的频移连起来，从而得到频移曲线；

S35，选取合适的阀值，将频移曲线简化为+1、0、-1的三值曲线，从而得到二值化后的频移曲线，进一步可以得出手势的状态序列；

S36，将得到的状态序列与手势库中的模板序列作比较，从而完成手势识别过程，并输出指令。

在步骤S1中，所述左声源11和右声源12输出的声音信号都为单频信号，其频率范围为18kHz～22kHz，并且所述左声源11和右声源12分别输出的声音信号的频率之差不小于1000Hz，这样，分别由左声源11和右声源12发出的声音信号的频域不会互相干扰，在信号处理阶段，需要一个信号采集模块13便可以同时处理左声源11和右声源12输出的声音信号。

在步骤S3中，因为L越大，则计算量越大，同时会使后面频移能量不够平滑，容易产生误判；L越小，则所得的频移能量不够精确，也容易产生误判，所以，在本发明中，所述汉明窗的长度L的优选取值范围为4096～8192。

在步骤S32中，如图3所示，经过FFT得到的频谱信息。

在步骤S33中，因为左声源11和右声源12发出的声音信号的频率不一样，所以，信号采集模块13接收并转化后的音频信号的频率也不一样，该音频信号中的基准信号的幅度也会产生差异，因为对同一手势的频移信号强度也不一致。因此需要将频移信号除以基准信号的幅值，以得到归一化的频移信号，使得后续的二值化处理更加准确。

在步骤S34中，为了得到频移去现，先对音频信号的蓝移与红移的能量求和，蓝移即大于基准信号的频率的频谱部分，红移即小于基准信号的频率的频谱部分。在实际操作中，需要预先设定基准频率的带宽Bc和频移频率的带宽Bs，如图3、图4和图5所示，举实施例说明如下：

首先，我们约定LSP代表左声源，RSP代表右声源，ShiftPower代表频移能量，Time代表时间，同时我们对于不同的手势作出约定，并将手势定义如图7所示。

假设左声源发出的声音信号频率(即基准信号频率)为19kHz(定义为左路频移)，右声源发出的声音信号频率(即基准信号频率)为20kHz(定义为右路频移)，分别记为FI和Fh。实际操作中，需要预先设定基准信号频率的带宽Bc和频移信号频率带宽Bs，我们选取Bc取值为120Hz左右，Bs的取值为1000Hz左右。

在Bc之外，而在Bs之内的频谱即认定为频移信号。高频部分为蓝移，低频部分为红移。我们将蓝移部分的能量和视为蓝移能量，将红移部分的能量和视为红移能量。

经过FFT之后，可以得到频谱上的各个频率点的幅值为：A_k，k的范围为[0,M-1]，M为FFT长度的一半。每个频率点的频率值为fk＝k/N*Fs，频率点的频率间隔为Fs/N，Fs为采样率。

设两个基准信号的频率分别为Fl、Fh，

在图中Fl的红移部分的频率范围为[Fl-Bs/2,Fl-Bc/2]，蓝移部分的频率范围为[Fl+Bs/2,Fl+Bc/2]。

A_k是幅值，频移能量和公式就是：k的取值范围由频移部分的频率范围决定，即k的范围为[0，M-1]，M为FFT长度的一半。

以图中的Fl的红移部分的频移能量为例：k的取值范围为：[(Fl-Bs/2)*N/Fs,(Fl-Bc/2)*N/Fs]，(对边界进行取整)。

对蓝移部分和Fh的频移能量，同理可以得出。

当产生蓝移时，蓝移能量是一个较大的值，而红移能量几乎为零；当产生红移时，红移能量是一个较大的值，而蓝移能量几乎为零。

基于以上分析将某一时间段的频移定义为蓝移能量与红移能量之差，记作：

S＝Eb-Er

S代表蓝移能量与红移能量之差，Eb为蓝移能量，Er为红移能量。把所有时间段的频移连起来，便可得到一条频移曲线，正如图5所示。

如图6所示，在步骤S35中，将曲线与正阀值比较，大于正阀值的部分记为+1；与负阀值比较，小于负阀值的部分记为-1；其它部分记为0，这样就可以得到二值化后的频移曲线，进一步得到状态序列，然后将状态序列与如图8所示的各手势的特征状态模板序列库作比较，从而可以判断手势，然后向设备输出指令。其中，正阀值的取值范围为0.00005～0.0005，负阀值的取值范围为-0.00005～-0.0005。

本发明提供的提供一种手势识别装置及识别方法，具有计算量小、误判率低、无需依赖光的特点，并且可以在个人电脑、笔记本电脑、平板电脑以及其它移动设备上通过扬声器和麦克风实现对电脑的非接触式指令输出。

以上所述的仅是本发明的较佳实施方式，在此应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。

Claims

1.一种手势识别装置，其特征在于，该装置包括：

左声源和右声源，所述左声源和右声源水平向间隔设置，用于向手势探测区域发出声音信号；

信号采集模块，所述信号采集模块置于所述左声源和右声源的连线的中垂线上，用于接收左声源和右声源发出的声音信号并将声音信号转化为音频信号，所述音频信号包括直接由左声源和右声源发出且不经过手势探测区域反射的基准信号和经过手势探测区域反射回来的频移信号；

手势分析模块，接收信号采集模块输出的音频信号，对音频信号进行处理得到二值化的频移曲线，根据所述频移曲线得出手势的状态序列，将手势的状态序列与模板序列作比较，确定手势并输出指令。

2.根据权利要求1所述的手势识别装置，其特征在于：所述左声源和右声源之间的间距为30～60cm。

3.根据权利要求1或2所述的手势识别装置，其特征在于：所述手势探测区域位于左声源和右声源的前方，并且离左声源和右声源的距离为10～40cm。

4.一种手势识别方法，其特征在于，该方法包括如下步骤：

S1，左声源和右声源分别向手势探测区域发出声音信号；

S2，信号采集模块接收左声源和右声源发出的声音信号并将声音信号转化为音频信号，所述音频信号包括直接由左声源和右声源发出且不经过手势探测区域反射的基准信号和经过手势探测区域反射回来的频移信号；

S3，手势分析模块接收并分析信号采集模块输出的音频信号，确定手势并输出指令，其具体步骤如下：

S31，对音频信号进行加窗处理，汉明窗的系数公式为：

w (n) = 0.54 - 0.46 \csc (2 π \frac{n}{N}), 0 \leq n \leq N

E = Σ A_{k}^{2}, 0 \leq k \leq M - 1

S＝Eb-Er

5.根据权利要求4所述的手势识别方法，其特征在于：所述左声源和右声源输出的声音信号都为单频信号，其频率范围为18kHz～22kHz。

6.根据权利要求5所述的手势识别方法，其特征在于：所述左声源和右声源分别输出的声音信号的频率之差不小于1000Hz。

7.根据权利要求4所述的手势识别方法，其特征在于：在步骤S3中，所述汉明窗的长度L的取值范围为4096～8192。

8.根据权利要求4所述的手势识别方法，其特征在于：在步骤S34中，在对音频信号的蓝移与红移的能量求和时，需要预先设定基准频率的带宽Bc和频移频率的带宽Bs。

9.根据权利要求4所述的手势识别方法，其特征在于：在步骤S35中，正阀值的取值范围为0.00005～0.0005，负阀值的取值范围为-0.00005～-0.0005。