CN105744434B - 一种基于手势识别的智能音箱控制方法及系统 - Google Patents

一种基于手势识别的智能音箱控制方法及系统 Download PDF

Info

Publication number
CN105744434B
CN105744434B CN201610100398.5A CN201610100398A CN105744434B CN 105744434 B CN105744434 B CN 105744434B CN 201610100398 A CN201610100398 A CN 201610100398A CN 105744434 B CN105744434 B CN 105744434B
Authority
CN
China
Prior art keywords
gesture
signal
frequency
module
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610100398.5A
Other languages
English (en)
Other versions
CN105744434A (zh
Inventor
吴伟涛
曾懋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Maxustech Co Ltd
Original Assignee
Shenzhen Maxustech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Maxustech Co Ltd filed Critical Shenzhen Maxustech Co Ltd
Priority to CN201610100398.5A priority Critical patent/CN105744434B/zh
Publication of CN105744434A publication Critical patent/CN105744434A/zh
Application granted granted Critical
Publication of CN105744434B publication Critical patent/CN105744434B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/03Connection circuits to selectively connect loudspeakers or headphones to amplifiers

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于手势识别的智能音箱控制方法,包括:设置若干种不同的指令状态;设置同一手势动作在不同的指令状态下代表不同的音箱控制指令;获取手势识别结果,并结合当前指令状态将手势识别结果转化为控制指令;将控制指令发送至音箱控制装置实现对音箱的控制。还公开一种基于手势识别的智能音箱控制系统,所述音箱控制系统包括手势识别装置、主控处理器和音箱控制装置。本发明设置若干种不同的指令状态,使同一手势动作在不同的指令状态下转化为对音箱的不同操作,实现对简单的手势动作进行复用,采用超声信号作为手势动作检测和识别的载体,能有效避免用户隐私泄露的风险,同时信号处理的复杂度更小,对资源需求更小,识别率也得到提升。

Description

一种基于手势识别的智能音箱控制方法及系统
技术领域
本发明涉及智能音箱控制领域,具体涉及一种基于手势识别的智能音箱控制方法及系统。
背景技术
随着音频信号处理技术和无线通信技术的发展,音箱从最早的纯模拟输出的设备逐渐走向数字化、集成化和智能化。在这个智能硬件蓬勃发展的时代,智能音箱也是层出不穷。智能音箱与传统音箱的一个重要区别是,智能音箱通常采用wifi或蓝牙等无线通信方式向播放源(通常是电脑和智能手机等)获取媒体文件,然后进行音频解码、滤波、放大等操作,直至完成输出。而传统音箱则通常是采用音频线接收播放源的模拟音频信号,进行处理输出。
音箱的智能化为其人机交互提供了多种可能,基本可以分为两类,即接触式交互和非接触式交互。其中,接触式的交互方式包括实体按键(包含旋钮)控制和电容式触摸控制,现代智能音箱通常采用电容式触摸控制。显然,接触式交互都没有脱离音箱箱体,依然需要人对实体音箱箱体进行操作,这种方式不能最大化体现智能化的优势。而非接触式的交互方式包括语音识别控制以及手势识别控制。语音识别控制方式是一切智能化设备理想的人机交互方式,然而语音识别控制方式在智能音箱的使用上有天然的局限性。这是由于音箱在播放时的音频会与语音指令相互干扰,导致语音识别的识别率和准确率大大降低,严重影响用户体验。而手势识别控制涉及到将手势识别结果转化为音箱控制指令,针对一个维度上的手势识别装置,由于其只能在一个维度上识别手势动作,并且识别的手势动作的种类有限,通常只能够准确识别推,拉,双击,三击等基本动作。而音箱的音箱控制指令有多种,如果需要实现多个的动作指令,要么采用手势动作的时序组合来表示不同的指令,要么在多维度上识别手势动作。但前者会增加用户的学习成本和使用难度,用户体验将受到很大影响;后者则增加了整个手势识别装置的实现难度和成本。
发明内容
本发明的目的是解决现有技术的缺陷,提供一种基于手势识别的智能音箱控制方法,采用的技术方案如下:
一种基于手势识别的智能音箱控制方法,包括:
设置若干种不同的指令状态;
设置同一手势动作在不同的指令状态下代表不同的音箱控制指令;
获取手势识别结果,并结合当前指令状态将手势识别结果转化为控制指令;
将控制指令发送至音箱控制装置实现对音箱的控制。
本发明的另一目的是解决现有技术的缺陷,提供一种基于手势识别的智能音箱控制系统,采用的技术方案如下:
一种基于手势识别的智能音箱控制系统,包括
手势识别装置、主控处理器和音箱控制装置,所述主控处理器分别与手势识别装置和音箱控制装置连接,所述手势识别装置用于识别手势动作并将识别结果发送至主控处理器,所述主控处理器接收手势识别结果,根据接收到的结果判断是否切换指令状态,并根据当前指令状态将手势识别结果转化为控制指令,发送至音箱控制装置,所述音箱控制装置用于控制音箱。
本发明的另一目的是解决现有技术的缺陷,提供一种基于手势识别的智能音箱控制系统,采用的技术方案如下:
一种基于手势识别的智能音箱控制系统,包括相互连接的手势识别装置、主控处理器和音箱控制装置,所述手势识别装置用于识别手势并将识别结果发送至主控处理器,所述主控处理器根据接收到的手势识别结果生成控制指令并发送至音箱控制装置,实现对音箱的控制;所述手势识别装置包括依次连接的信号发射模块、信号接收模块和信号预处理模块,还包括与信号预处理模块连接的属性特征向量提取模块,所述属性特征向量提取模块连接了切比雪夫前向神经网络分类器,所述信号发射模块用于发射超声信号,所述信号接收模块用于接收反射回来的超声回波信号,所述信号预处理模块用于对接收到的超声回波信号进行预处理,所述属性特征向量提取模块用于提取手势动作的属性特征向量,所述切比雪夫前向神经网络分类器用于对属性特征向量进行识别并输出识别结果。
与现有技术相比,本发明的有益效果:
1、本发明设置若干种不同的指令状态,使同一手势动作在不同的指令状态下转化为对音箱的不同操作,实现对简单的手势动作进行复用,并且由于智能音箱本身控制指令不多,不会因为指令状态过多而增加用户学习的复杂性,因而不会降低用户的体验。
2、本发明采用超声信号作为手势动作检测和识别的载体,一方面能有效避免用户隐私泄露的风险,另一方面信号处理的复杂度更小,对资源需求更小。利用切比雪夫前向神经网络的学习和泛化能力,训练切比雪夫前向神经网络分类器对提取的属性特征向量进行识别,使得本发明能够在不同环境下对不同用户的手势动作进行准确的识别,识别率能达到96.7%,并且根据不同的应用场景,识别距离可达20厘米到3米。
附图说明
图1是本发明实施例1的流程图;
图2是本发明实施例2的系统结构示意图;
图3是本发明实施例3的系统结构示意图。
具体实施方式
下面结合附图及实施例对本发明作进一步详细说明。
实施例1:
如图1所示,一种基于手势识别的智能音箱控制方法,包括:
设置若干种不同的指令状态;
设置同一手势动作在不同的指令状态下代表不同的音箱控制指令;
获取手势识别结果,并结合当前指令状态将手势识别结果转化为控制指令;
将控制指令发送至音箱控制装置实现对音箱的控制。
本实施例具体包括:
设置0和1两种不同的指令状态,并通过手势三击来切换指令状态,并设置状态指示灯指示当前状态;
当为状态0时,将手势推转化为降低音量的音箱控制指令,将手势拉转化为提高音量的音箱控制指令;
当为状态1时,将手势推转化为切换至下一首的音箱控制指令,将手势拉转化为切换至上一首的音箱控制指令;
两种状态下,双击都转化为播放或停止的音箱控制指令。
本实施例中,所述手势识别结果的获取过程包括:
发射频率固定的超声信号;
接收反射回来的超声回波信号并输出,对超声回波声波进行预处理,提取手势动作的属性特征向量;
将提取到的属性特征向量输入到切比雪夫前向神经网络分类器,由切比雪夫前向神经网络分类器进行识别并输出识别结果。
本实施例中,在发射超声信号前先检测环境中是否存在对备选发射频率正负1kHz范围内的频点的干扰,并选择干扰最小的频率作为发射频率。
本实施例中,所述切比雪夫前向神经网络包括输入神经元、隐神经元和输出神经元,所述切比雪夫前向神经网络的训练包括如下步骤:
a.对待识别的N种目标手势动作,分别收集若干个样本;
b.将收集的样本划分为M等份,初始化计算次数V为V=1,全局最优隐神经元数目K(app)=0,当前计算最优隐神经元数目K(Vmin)=O;
c.初始化当前隐神经元数目K(cur)=I、当前最小样本校验误差为E(Vmin)
d.根据K(cur)构造切比雪夫前向神经网络,计算最优权值矩阵,并计算当前隐神经元数目K(cur)对应的样本校验误差E(V)
e.判断E(V)与E(Vmin)的大小,若E(V)<E(Vmin),则令E(Vmin)=E(V)、K(Vmin)=K(cur)、K(cur)=K(cur)+1,返回步骤d;若E(v)>E(Vmin),则转至步骤f;
f.若K(cur)<K(Vmin)+A,则令K(cur)=K(cur)+1,返回步骤d;若K(cur)>K(Vmin)+A,则令K(app)=K(app)+K(Vmin)
i.若V<4则令V=V+1,返回步骤c;若V=4,返回
j.根据K(app)构造切比雪夫前向神经网络,并计算得到最优权值矩阵。
本实施例中,E(Vmin)=50,A=15,M=4。
本实施例的最优权值矩阵是运用权值直接确定法计算得到的。
本实施例通过MEMS麦克风阵列接收超声回波信号,所述对超声回波声波进行预处理具体包括:
采用数字滤波器对MEMS麦克风阵列输出的PDM信号进行采样,其中下采样率为64,然后对得到的时域PCM信号N个点做快速傅里叶变换得到频域信息作为一个信号帧;
判断信号帧是否出现目标手势动作,若是则保留该信号帧,若否则丢弃该信号帧。
本实施例根据得到的信号帧的能量、频谱平坦度以及能量最高的频点来判断某个信号帧是否包含目标手势动作。
信号帧的能量是指各个频点的能量之和,频谱平坦度的定义是SMFdB=10log10(Gm/Am),其中,Gm是信号帧频谱的几何平均,而Am是信号帧频谱的算术平均,参考文献:MoattarM H,Homayounpour M M.A simple but efficient real-time voice activitydetection algorithm[C]//Signal Processing Conference,2009 17th European.IEEE,2009:2549-2553来判断是否出现目标手势动作。
本实施例中,提取手势动作的属性特征向量具体为:
对于每一个包含目标手势动作的信号帧,找到最大频移所对应的频点,计算其相对于发射信号的频率的最大频移,并将之添加到向量ActionData中,直到再找不到包含目标手势动作的信号帧,此时提取ActionData的长度Length,ActionData中频移最大的值Maxhift,ActionData中频移方向变化的次数Direction Change,ActionData中两个频移方向的时间比例Duty Ratio。
其中,Length是指特征向量的长度,该属性能够有效地表示动作持续的时间,可用于区分细微动作和大幅度动作;Max Shift指最大多普勒频移,该属性可以用于判断手势动作的快慢;Direction Change是指手势动作的方向变化次数,该属性可用于区分来回运动的手势;Duty Ratio是指手势动作过程中,靠近接收模块所用时间与手势动作持续时间之比,该属性的引入可以有效地避免识别误差。测试表明,将这四个属性特征组成的向量作为神经网络的输入,训练得到的切比雪夫前向神经网络手势动作识别率达到96.7%。
当设定提取上述四个属性特征向量作为切比雪夫神经网络的输入时,训练得到的切比雪夫神经网络结构包含4个输入神经元,17个隐神经元和1个输出神经元的神经网络结构,所述输入神经元与隐神经元之间的连接权值全部设定为1,隐神经元与输出神经元之间的连接权值如下表所示。
1 1.81652662
2 -26.33026976
3 27.56856299
4 5.741545638
5 4.22151319
6 11.46923787
7 -23.04494832
8 -3.545677987
9 -0.198633811
10 -7.603181348
11 -1.578860381
12 10.51308548
13 0.052366493
14 -0.758134866
15 -3.941964954
16 -5.894792379
17 14.21290353
切比雪夫神经网络的隐层神经元激励函数由切比雪夫正交多项式构成,切比雪夫多项式:
i=0,1,2,…
切比雪夫正交多项式激励函数:
其中,hk(X)为第k个隐神经元的激励函数,由上式可知每一个隐神经元的激励函数由四个输入属性特征向量对应的切比雪夫多项式的乘积组成,这四个切比雪夫多项式的幂次符合分级词典顺序。比如,本发明的切比雪夫前向神经网络的隐神经元激励函数的幂次如下表所示。
本实施例中,待识别的N种目标手势动作包括推、拉、单击、双击和无动作5种,对每种待识别的目标手势动作分别收集1000个样本,共得到5000个样本,将5000个样本随机划分为四等份。
实施例2:
如图2所示,一种基于手势识别的智能音箱控制系统,包括
手势识别装置、主控处理器和音箱控制装置,所述主控处理器分别与手势识别装置和音箱控制装置连接,所述手势识别装置用于识别手势动作并将识别结果发送至主控处理器,所述主控处理器接收手势识别结果,根据接收到的结果判断是否切换指令状态,并根据当前指令状态将手势识别结果转化为控制指令,发送至音箱控制装置,所述音箱控制装置用于控制音箱。
手势识别装置识别用户的各种手势动作并将识别结果传送至主控处理器,主控处理器接收识别结果,根据当前指令状态将手势识别结果转化为控制指令,并将控制指令传送到音箱控制装置或指令状态模块。比如,本发明中设置0和1两种不同的指令状态,当为状态0时,将手势推转化为降低音箱音量的操作,当为状态1时,将手势推转化为切换至下一首的操作;设置三击为切换指令状态的动作。因此,当主控处理器接收到的手势识别结果为三击时,主控处理器切换指令状态,而当主控处理器接收到的手势识别结果为推并且当前的指令状态为0时则发送相应的控制指令到音箱控制装置实现降低音箱的音量,而当接收到的识别结果为推而状态为1时则发送相应的控制指令到音箱控制装置实现切换到下一首。
所述主控处理器包括相互连接的信号接收判断模块和指令状态模块,所述信号接收判断模块连接了指令状态指示灯,所述信号接收判断模块用于接收手势识别结果,并根据当前指令状态生成控制指令并发送至音箱控制装置,所述指令状态模块存储当前指令状态并发送给信号接收判断模块,当其接收到信号接收判断模块发送的信号时改变当前指令状态。
所述音箱控制装置包括分别于主控处理器连接的播放/停止控制装置、歌曲切换装置和音量控制装置。
如上所述,如当主控处理器接收到的手势识别结果为推并且当前的指令状态为0时,主控处理器生成相应的控制指令,并发送至音量控制装置实现降低音箱的音量。当主控处理器接收到的手势识别结果为推并且当前的指令状态为1时,主控处理器生成相应的控制指令并发送至歌曲切换装置,实现切换至下一首。实施时可以根据实际需要在音箱上安装其他用于控制音箱的装置,并设置多种状态。
所述手势识别装置包括依次连接的信号发射模块、信号接收模块和信号预处理模块,还包括与信号预处理模块连接的属性特征向量提取模块,所述属性特征向量提取模块连接了切比雪夫前向神经网络分类器,所述信号发射模块用于发射超声信号,所述信号接收模块用于接收反射回来的超声回波信号,所述信号预处理模块用于对接收到的超声回波信号进行预处理,所述属性特征向量提取模块用于提取手势动作的属性特征向量,所述切比雪夫前向神经网络分类器用于对属性特征向量进行识别并输出识别结果。
所述手势识别装置还包括与信号发射模块连接的干扰检测模块,所述干扰检测模块用于检测环境中是否存在对备选发射频率正负1kHz范围内的频点的干扰,并选择干扰最小的频率作为发射频率。
所述切比雪夫前向神经网络的训练包括如下步骤:
a.对待识别的N种目标手势动作,分别收集若干个样本;
b.将收集的样本划分为M等份,初始化计算次数V为V=1,全局最优隐神经元数目K(app)==0,当前计算最优隐神经元数目K(Vmin)=0;
c.初始化当前隐神经元数目K(cur)=1、当前最小样本校验误差为E(Vmin)
d.根据K(cur)构造切比雪夫前向神经网络,计算最优权值矩阵,并计算当前隐神经元数目K(cur)对应的样本校验误差E(V)
e.判断E(V)与E(Vmin)的大小,若E(V)<E(Vmin),则令E(Vmin)=E(V)、K(Vmin)=K(cur)、K(cur)=K(cur)+1,返回步骤d;若E(V)>E(Vmin),则转至步骤f;
f.若K(cur)<K(Vmin)+A,则令K(cur)=K(cur)+1,返回步骤d;若K(cur)>K(Vmin)+A,则令K(app)=K(app)+K(Vmin)
i.若V<4,则令V=V+1,返回步骤c;若V=4,返回
j.根据K(app)构造切比雪夫前向神经网络,并计算得到最优权值矩阵。
本实施例中,E(Vmin)=50,A=15,M=4。
本实施例的最优权值矩阵是运用权值直接确定法计算得到的。
本实施例中,所述信号接收模块为MEMS麦克风阵列,所述信号预处理模块包括依次连接的数字滤波器、时频变换模块和音频活动检测模块,所述数字滤波器用于对MEMS麦克风阵列输出的PDM信号进行采样,完成PDM信号到PCM信号的转换,其中下采样率为64,所述时频变换模块用于对时域PCM信号N个点做快速傅里叶变换得到频域信息作为一个信号帧,所述音频活动检测模块用于判断某个信号帧是否出现目标手势动作,若是则将对应信号帧传送至属性特征向量提取模块,若否则丢弃。
所述音频活动检测模块根据得到的信号帧的能量、频谱平坦度以及能量最高的频点来判断某个信号帧是否包含目标手势动作。
信号帧的能量是指各个频点的能量之和,频谱平坦度的定义是SMFdB=10log10(Gm/Am),其中,Gm是信号帧频谱的几何平均,而Am是信号帧频谱的算术平均,参考文献:MoattarM H,Homayounpour M M.A simple but efficient real-time voice activitydetection algorithm[C]//Signal Processing Conference,200917th European.IEEE,2009:2549-2553来判断是否出现目标手势动作。
所述属性特征向量提取模块提取属性特征向量的具体过程为:对于每一个包含目标手势动作信号帧,找到最大频移所对应的频点,计算其相对于发射信号的频率的最大频移,并将之添加到一个向量ActionData中,直到不能再找到包含目标手势动作的信号帧,此时提取ActionData的长度Length,ActionData中频移最大的值Max hift,ActionData中频移方向变化的次数Direction Change,ActionData中两个频移方向的时间比例DutyRatio。
其中,Length是指特征向量的长度,该属性能够有效地表示动作持续的时间,可用于区分细微动作和大幅度动作;Max Shift指最大多普勒频移,该属性可以用于判断手势动作的快慢;Direction Change是指手势动作的方向变化次数,该属性可用于区分来回运动的手势;Duty Ratio是指手势动作过程中,靠近接收模块所用时间与手势动作持续时间之比,该属性的引入可以有效地避免识别误差。测试表明,将这四个属性特征组成的向量作为神经网络的输入,训练得到的切比雪夫前向神经网络手势动作识别率达到96.7%。
当设定提取上述四个属性特征向量作为切比雪夫神经网络的输入时,训练得到的切比雪夫神经网络结构包含4个输入神经元,17个隐神经元和1个输出神经元的神经网络结构,所述输入神经元与隐神经元之间的连接权值全部设定为1,隐神经元与输出神经元之间的连接权值如下表所示。
切比雪夫神经网络的隐层神经元激励函数由切比雪夫正交多项式构成,切比雪夫多项式:
i=0,1,2,…
切比雪夫正交多项式激励函数:
其中,hk(X)为第k个隐神经元的激励函数,由上式可知每一个隐神经元的激励函数由四个输入属性特征向量对应的切比雪夫多项式的乘积组成,这四个切比雪夫多项式的幂次符合分级词典顺序。比如,本发明的切比雪夫前向神经网络的隐神经元激励函数的幂次如下表所示。
本实施例中,待识别的N种目标手势动作包括推、拉、单击、双击和无动作5种,对每种待识别的目标手势动作分别收集1000个样本,共得到5000个样本,将5000个样本随机划分为四等份。
本实施例中,主控处理器和音箱控制装置安装在音箱箱体上,手势识别装置集成在主控处理器上,当然,实施的时候可以根据需要,将手势识别装置与音箱箱体分体设置,此时手势识别装置通过UART接口与主控处理器连接。
实施例3:
如图3所示,一种基于手势识别的智能音箱控制系统,包括相互连接的手势识别装置、主控处理器和音箱控制装置,所述手势识别装置用于识别手势并将识别结果发送至主控处理器,所述主控处理器根据接收到的手势识别结果生成控制指令并发送至音箱控制装置,实现对音箱的控制;所述手势识别装置包括依次连接的信号发射模块、信号接收模块和信号预处理模块,还包括与信号预处理模块连接的属性特征向量提取模块,所述属性特征向量提取模块连接了切比雪夫前向神经网络分类器,所述信号发射模块用于发射超声信号,所述信号接收模块用于接收反射回来的超声回波信号,所述信号预处理模块用于对接收到的超声回波信号进行预处理,所述属性特征向量提取模块用于提取手势动作的属性特征向量,所述切比雪夫前向神经网络分类器用于对属性特征向量进行识别并输出识别结果。
由于超声频段在自由空间中相对干净,干扰信号较少,本实施例首先通过超声发射器连续发出人类听觉以外的固定频率的超声信号,人类不同的手势动作将会影响接收设备接收到的超声回波信号,通过对接收的信号进行特征提取,并使用切比雪夫前向神经网络对该特征进行学习得到切比雪夫前向神经网络分类器,在识别时将提取的特征输入切比雪夫前向神经网络分类器由切比雪夫前向神经网络分类器进行准确的识别并输出结果。
本实施例采用超声信号作为手势动作检测和识别的载体,一方面能有效避免用户隐私泄露的风险,另一方面信号处理的复杂度更小,对资源需求更小,信号处理完全可以在通用微处理器上实现,因此,以超声信号作为载体的手势识别方案尤其适合在智能物联网领域的电子设备上使用。
传统的分类器或手势识别库为特征向量的属性设定不同的阈值,根据属性组合来对手势动作进行分类,但是由于手势动作存在个体差异,不同人做出相同动作时可能得到不同的属性值,因此,简单的阈值分类不能满足应用需求。本发明采用切比雪夫前向神经网络构建分类器,切比雪夫神经网络具有强大的学习能力和泛化能力,在学习样本分类知识的同时能够避免过拟合,因此能够适应个体差异。
将收集到的属性特征向量输入到神经网络,经过网络计算,将输出代表不同动作的编码,本发明对于待识别的目标手势的识别率达96.7%,并且根据不同的应用场景,识别距离可达20厘米到3米,并且可以在已经学习的目标手势动作的基础上,衍生出不同手势组合,或采用多个维度组合,来扩展手势种类数量以供不同应用场景使用。本发明能够广泛应用于智能手机、平板电脑,智能家居和车载智能设备,机器人等智能物联网领域设备的多种不同应用场景,满足智能物联网泛在人机交互的需求。
本实施例中,所述手势识别装置还包括与信号发射模块连接的干扰检测模块,所述干扰检测模块用于检测环境中是否存在对备选发射频率正负1kHz范围内的频点的干扰,并选择干扰最小的频率作为发射频率。
本实施例中,所述切比雪夫前向神经网络的训练包括如下步骤:
a.对待识别的N种目标手势动作,分别收集若干个样本;
b.将收集的样本划分为M等份,初始化计算次数V为V=1,全局最优隐神经元数目K(app)=0,当前计算最优隐神经元数目K(Vmin)=0;
c.初始化当前隐神经元数目K(cur)=1、当前最小样本校验误差为E(Vmin)
d.根据K(cur)构造切比雪夫前向神经网络,计算最优权值矩阵,并计算当前隐神经元数目K(cur)对应的样本校验误差E(V)
e.判断E(V)与E(Vmin)的大小,若E(V)<E(Vmin),则令E(Vmin)=E(V)、K(Vmin)=K(cur)、K(cur)=K(cur)+1,返回步骤d;若E(V)>E(Vmin),则转至步骤f;
f.若K(cur)<K(Vmin)+A,则令K(cur)=K(cur)+1,返回步骤d;若K(cur)>K(Vmin)+A,则令K(app)=K(app)+K(Vmin)
i.若V<4,则令V=V+1,返回步骤c;若V=4,返回
j.根据构造切比雪夫前向神经网络,并计算得到最优权值矩阵。
运用切比雪夫神经网络时需要根据具体的应用对其网络结构进行训练,以对其结构进行优化。切比雪夫前向神经网络包括输入神经元、隐神经元和输出神经元,在切比雪夫前向神经网络中,输入神经元与隐神经元之间的连接权值全部设定为1,神经网络的训练目标是在给定隐神经元数目条件下确定最佳隐神经元到输出层权值,并在此基础上最优化隐神经元数目,即寻找样本校验误差最小的隐神经元数目,经过本发明的切比雪夫前向神经网络的训练,得到的切比雪夫神经网络结构是最优的,大大节省了计算和存储资源,尤其适合在通用的通用微处理器上实现。
本实施例中,E(Vmin)=50,A=15,M=4。
当若E(V)>E(Vmin)时,再向前搜索计算A次对应的隐神经元数目下的样本校验误差,以优化神经网络的结构,测试表明,当A=15时,训练得到的神经网络的结构最佳。
本实施例的最优权值矩阵是运用权值直接确定法计算得到的。
运用权值直接确定法确定其权值,大大提高了神经网络权值的训练速度。
本实施例中,所述信号接收模块为MEMS麦克风阵列,所述信号预处理模块包括依次连接的数字滤波器、时频变换模块和音频活动检测模块,所述数字滤波器用于对MEMS麦克风阵列输出的PDM信号进行采样,完成PDM信号到PCM信号的转换,其中下采样率为64,所述时频变换模块用于对时域PCM信号N个点做快速傅里叶变换得到频域信息作为一个信号帧,所述音频活动检测模块用于判断某个信号帧是否出现目标手势动作,若是则将对应信号帧传送至属性特征向量提取模块,若否则丢弃。
信号预处理模块依赖通用微处理器实现,通用微处理器提供的音频解码库对声波的处理通常仅基于音频信息进行优化,不能灵活对信号进行分帧处理,不能灵活调整输入和输出参数,其输入和输出格式固定,难以满足本发明超声手势识别的应用。因此,本发明重新设计数字滤波器对MEMS数字麦克风输出的PDM信号进行解码。由于PDM本身只有1比特输出,必须采用过采样的方式来保证采样精度,为提高信号精度设定PDM信号的过采样倍数为64倍奈奎斯特采样率。所述的数字滤波器对过采样的PDM信号进行下采样后得到PCM信号,然后通过通用微处理器对时域PCM信号N个点做FFT得到频域信息作为一个信号帧。数字滤波器可采用二阶CIC数字滤波器。本发明中MEMS输入的时钟频率根据超声波发生器所发出的频率不同而不同,如超声波发射频率为40kHz时,MEMS输入的时钟频率6.144MH。N值可以根据不同的精度要求和使用场景来设定。
本实施例中,所述音频活动检测模块根据得到的信号帧的能量、频谱平坦度以及能量最高的频点来判断某个信号帧是否包含目标手势动作。
信号帧的能量是指各个频点的能量之和,频谱平坦度的定义是SMFdB=10log10(Gm/Am),其中,Gm是信号帧频谱的几何平均,而Am是信号帧频谱的算术平均,参考文献:MoattarM H,Homayounpour M M.A simple but efficient real-time voice activitydetection algorithm[C]//Signal Processing Conference,200917th European.IEEE,2009:2549-2553来判断是否出现目标手势动作。
本实施例中,所述属性特征向量提取模块提取属性特征向量的具体过程为:对于每一个包含目标手势动作信号帧,找到最大频移所对应的频点,计算其相对于发射信号的频率的最大频移,并将之添加到一个向量ActionData中,直到不能再找到包含目标手势动作的信号帧,此时提取ActionData的长度Length,ActionData中频移最大的值Max hift,ActionData中频移方向变化的次数Direction Change,ActionData中两个频移方向的时间比例Duty Ratio。
其中,Length是指特征向量的长度,该属性能够有效地表示动作持续的时间,可用于区分细微动作和大幅度动作;Max Shift指最大多普勒频移,该属性可以用于判断手势动作的快慢;Direction Change是指手势动作的方向变化次数,该属性可用于区分来回运动的手势;Duty Ratio是指手势动作过程中,靠近接收模块所用时间与手势动作持续时间之比,该属性的引入可以有效地避免识别误差。测试表明,将这四个属性特征组成的向量作为神经网络的输入,训练得到的切比雪夫前向神经网络手势动作识别率达到96.7%。
当设定提取上述四个属性特征向量作为切比雪夫神经网络的输入时,训练得到的切比雪夫神经网络结构包含4个输入神经元,17个隐神经元和1个输出神经元的神经网络结构,所述输入神经元与隐神经元之间的连接权值全部设定为1,隐神经元与输出神经元之间的连接权值如下表所示。
1 1.81652662
2 -26.33026976
3 27.56856299
4 5.741545638
5 4.22151319
6 11.46923787
7 -23.04494832
8 -3.545677987
9 -0.198633811
10 -7.603181348
11 -1.578860381
12 10.51308548
13 0.052366493
14 -0.758134866
15 -3.941964954
16 -5.894792379
17 14.21290353
切比雪夫神经网络的隐层神经元激励函数由切比雪夫正交多项式构成,切比雪夫多项式:
i=0,1,2,…
切比雪夫正交多项式激励函数:
其中,hk(X)为第k个隐神经元的激励函数,由上式可知每一个隐神经元的激励函数由四个输入属性特征向量对应的切比雪夫多项式的乘积组成,这四个切比雪夫多项式的幂次符合分级词典顺序。比如,本发明的切比雪夫前向神经网络的隐神经元激励函数的幂次如下表所示。
本实施例中,待识别的N种目标手势动作包括推、拉、单击、双击和无动作5种,对每种待识别的目标手势动作分别收集1000个样本,共得到5000个样本,将5000个样本随机划分为四等份。
本实施例中,主控处理器和音箱控制装置安装在音箱箱体上,手势识别装置集成在主控处理器上,当然,实施的时候可以根据需要,将手势识别装置与音箱箱体分体设置,此时手势识别装置通过UART接口与主控处理器连接。

Claims (8)

1.一种基于手势识别的智能音箱控制方法,其特征在于,包括:
设置若干种不同的指令状态;
设置同一手势动作在不同的指令状态下代表不同的音箱控制指令;
获取手势识别结果,并结合当前指令状态将手势识别结果转化为控制指令;
将控制指令发送至音箱控制装置实现对音箱的控制;
所述手势识别结果的获取包括:
发射频率固定的超声信号;
接收反射回来的超声回波信号并输出,对超声回波声波进行预处理,提取手势动作的属性特征向量;
将提取到的属性特征向量输入到切比雪夫前向神经网络分类器,由切比雪夫前向神经网络分类器进行识别并输出识别结果;
提取手势动作的属性特征向量具体为:
对于每一个包含目标手势动作的信号帧,找到最大频移所对应的频点,计算其相对于发射信号的频率的最大频移,并将之添加到向量ActionData中,直到再找不到包含目标手势动作的信号帧,此时提取ActionData的长度Length、ActionData中频移最大的值MaxShift、ActionData中频移方向变化的次数Direction Change、ActionData中两个频移方向的时间比例Duty Ratio,将长度Length、频移最大的值Max Shift、频移方向变化的次数Direction Change、两个频移方向的时间比例Duty Ratio组成属性特征向量。
2.根据权利要求1所述的一种基于手势识别的智能音箱控制方法,其特征在于,具体包括:
设置0和1两种不同的指令状态,并通过手势三击来切换指令状态,并设置状态指示灯指示当前状态;
当为状态0时,将手势推转化为降低音量的音箱控制指令,将手势拉转化为提高音量的音箱控制指令;
当为状态1时,将手势推转化为切换至下一首的音箱控制指令,将手势拉转化为切换至上一首的音箱控制指令;
两种状态下,双击都转化为播放或停止的音箱控制指令。
3.根据权利要求1所述的一种基于手势识别的智能音箱控制方法,其特征在于,在发射超声信号前先检测环境中是否存在对备选发射频率正负1kHz范围内的频点的干扰,并选择干扰最小的频率作为发射频率。
4.一种基于手势识别的智能音箱控制系统,包括手势识别装置、主控处理器和音箱控制装置,所述主控处理器分别与手势识别装置和音箱控制装置连接,所述手势识别装置用于识别手势动作并将识别结果发送至主控处理器,其特征在于,所述主控处理器接收手势识别结果,根据接收到的结果判断是否切换指令状态,并根据当前指令状态将手势识别结果转化为控制指令,发送至音箱控制装置,所述音箱控制装置用于控制音箱;
所述手势识别装置包括依次连接的信号发射模块、信号接收模块和信号预处理模块,还包括与信号预处理模块连接的属性特征向量提取模块,所述属性特征向量提取模块连接了切比雪夫前向神经网络分类器,所述信号发射模块用于发射超声信号,所述信号接收模块用于接收反射回来的超声回波信号,所述信号预处理模块用于对接收到的超声回波信号进行预处理,所述属性特征向量提取模块用于提取手势动作的属性特征向量,所述切比雪夫前向神经网络分类器用于对属性特征向量进行识别并输出识别结果;
所述属性特征向量提取模块提取属性特征向量的具体过程为:
对于每一个包含目标手势动作信号帧,找到最大频移所对应的频点,计算其相对于发射信号的频率的最大频移,并将之添加到一个向量ActionData中,直到不能再找到包含目标手势动作的信号帧,此时提取ActionData的长度Length,ActionData中频移最大的值MaxShift,ActionData中频移方向变化的次数Direction Change ,ActionData中两个频移方向的时间比例Duty Ratio,将长度Length、频移最大的值Max Shift、频移方向变化的次数Direction Change、两个频移方向的时间比例Duty Ratio组成属性特征向量。
5.根据权利要求4所述的一种基于手势识别的智能音箱控制系统,其特征在于,所述主控处理器包括相互连接的信号接收判断模块和指令状态模块,所述信号接收判断模块连接了指令状态指示灯,所述信号接收判断模块用于接收手势识别结果,并根据当前指令状态生成控制指令并发送至音箱控制装置,所述指令状态模块存储当前指令状态并发送给信号接收判断模块,当其接收到信号接收判断模块发送的信号时改变当前指令状态。
6.根据权利要求4所述的一种基于手势识别的智能音箱控制系统,其特征在于,所述手势识别装置还包括与信号发射模块连接的干扰检测模块,所述干扰检测模块用于检测环境中是否存在对备选发射频率正负1kHz范围内的频点的干扰,并选择干扰最小的频率作为发射频率。
7.一种基于手势识别的智能音箱控制系统,包括相互连接的手势识别装置、主控处理器和音箱控制装置,所述手势识别装置用于识别手势并将识别结果发送至主控处理器,所述主控处理器根据接收到的手势识别结果生成控制指令并发送至音箱控制装置,实现对音箱的控制,其特征在于,所述手势识别装置包括依次连接的信号发射模块、信号接收模块和信号预处理模块,还包括与信号预处理模块连接的属性特征向量提取模块,所述属性特征向量提取模块连接了切比雪夫前向神经网络分类器,所述信号发射模块用于发射超声信号,所述信号接收模块用于接收反射回来的超声回波信号,所述信号预处理模块用于对接收到的超声回波信号进行预处理,所述属性特征向量提取模块用于提取手势动作的属性特征向量,所述切比雪夫前向神经网络分类器用于对属性特征向量进行识别并输出识别结果;
所述属性特征向量提取模块提取属性特征向量的具体过程为:
对于每一个包含目标手势动作信号帧,找到最大频移所对应的频点,计算其相对于发射信号的频率的最大频移,并将之添加到一个向量ActionData中,直到不能再找到包含目标手势动作的信号帧,此时提取ActionData的长度Length,ActionData中频移最大的值MaxShift,ActionData中频移方向变化的次数Direction Change ,ActionData中两个频移方向的时间比例Duty Ratio,将长度Length、频移最大的值Max Shift、频移方向变化的次数Direction Change、两个频移方向的时间比例Duty Ratio组成属性特征向量。
8.根据权利要求7所述的一种基于手势识别的智能音箱控制系统,其特征在于,所述手势识别装置还包括与信号发射模块连接的干扰检测模块,所述干扰检测模块用于检测环境中是否存在对备选发射频率正负1kHz范围内的频点的干扰,并选择干扰最小的频率作为发射频率。
CN201610100398.5A 2016-02-25 2016-02-25 一种基于手势识别的智能音箱控制方法及系统 Active CN105744434B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610100398.5A CN105744434B (zh) 2016-02-25 2016-02-25 一种基于手势识别的智能音箱控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610100398.5A CN105744434B (zh) 2016-02-25 2016-02-25 一种基于手势识别的智能音箱控制方法及系统

Publications (2)

Publication Number Publication Date
CN105744434A CN105744434A (zh) 2016-07-06
CN105744434B true CN105744434B (zh) 2019-01-11

Family

ID=56248276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610100398.5A Active CN105744434B (zh) 2016-02-25 2016-02-25 一种基于手势识别的智能音箱控制方法及系统

Country Status (1)

Country Link
CN (1) CN105744434B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446801B (zh) * 2016-09-06 2020-01-07 清华大学 基于超声主动探测的微手势识别方法及系统
CN106708041B (zh) * 2016-12-12 2020-12-29 西安Tcl软件开发有限公司 智能音箱、智能音箱定向移动方法及装置
CN106934406A (zh) * 2017-04-14 2017-07-07 华南理工大学 基于手势识别的音乐编辑器及音乐编辑方法
WO2019056236A1 (zh) * 2017-09-21 2019-03-28 深圳传音通讯有限公司 基于手势动作的控制方法、多媒体播放终端、及存储介质
CN107846646B (zh) * 2017-11-09 2019-12-13 北京小米移动软件有限公司 智能音箱的控制方法、装置及可读存储介质
CN108064006A (zh) * 2018-02-11 2018-05-22 深圳市沃特沃德股份有限公司 智能音箱及播放控制方法
CN108509036A (zh) * 2018-03-22 2018-09-07 四川斐讯信息技术有限公司 一种基于全触摸屏幕且无按键的电子设备、及其控制方法
CN108762479A (zh) * 2018-04-02 2018-11-06 珠海格力电器股份有限公司 一种进行控制的方法与设备
CN108873715A (zh) * 2018-07-04 2018-11-23 深圳众厉电力科技有限公司 基于手势识别的智能家居控制系统
CN109358543B (zh) * 2018-10-23 2020-12-01 南京迈瑞生物医疗电子有限公司 手术室控制系统、方法、计算机设备和存储介质
CN109597312B (zh) 2018-11-26 2022-03-01 北京小米移动软件有限公司 音箱控制方法及装置
CN109933199B (zh) * 2019-03-13 2022-05-24 阿波罗智联(北京)科技有限公司 基于手势的控制方法、装置、电子设备及存储介质
CN111459268A (zh) * 2020-03-06 2020-07-28 北京金茂绿建科技有限公司 一种手势控制智能设备的方法和系统
CN112436987A (zh) * 2020-11-12 2021-03-02 中国联合网络通信集团有限公司 一种控制终端设备开关的方法以及系统
CN113311939A (zh) * 2021-04-01 2021-08-27 江苏理工学院 基于手势识别的智能音箱控制系统
CN113573213B (zh) * 2021-09-23 2022-02-15 深圳大佳印务有限公司 一种带屏幕智能音响音质优化方法、智能音响及播放系统
CN114161413B (zh) * 2021-12-02 2024-01-23 上海神泰医疗科技有限公司 控制方法、开发方法、控制设备及机器人系统
CN114594857B (zh) * 2022-02-24 2023-11-21 北京大学 一种利用无线射频信号识别空中手势的方法
CN114998996B (zh) * 2022-06-14 2024-04-05 中国电信股份有限公司 具有运动属性信息的信号处理方法、装置、设备及存储

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251023A (ja) * 2005-03-08 2006-09-21 Nec Tokin Corp 姿勢角度検出装置を用いた電子楽器およびその制御方法
CN102253709A (zh) * 2010-05-19 2011-11-23 禾瑞亚科技股份有限公司 手势判断的方法与装置
CN104662491A (zh) * 2012-08-16 2015-05-27 微晶片科技德国第二公司 用于传感器系统的自动手势辨认
CN104795080A (zh) * 2015-04-09 2015-07-22 广东欧珀移动通信有限公司 一种音乐播放控制方法和装置
CN105187982A (zh) * 2015-10-19 2015-12-23 江南大学 基于语音和体感技术的智能音箱系统及其控制方法
CN105242861A (zh) * 2015-10-15 2016-01-13 广东欧珀移动通信有限公司 一种基于超声波的参数调节方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251023A (ja) * 2005-03-08 2006-09-21 Nec Tokin Corp 姿勢角度検出装置を用いた電子楽器およびその制御方法
CN102253709A (zh) * 2010-05-19 2011-11-23 禾瑞亚科技股份有限公司 手势判断的方法与装置
CN104662491A (zh) * 2012-08-16 2015-05-27 微晶片科技德国第二公司 用于传感器系统的自动手势辨认
CN104795080A (zh) * 2015-04-09 2015-07-22 广东欧珀移动通信有限公司 一种音乐播放控制方法和装置
CN105242861A (zh) * 2015-10-15 2016-01-13 广东欧珀移动通信有限公司 一种基于超声波的参数调节方法及装置
CN105187982A (zh) * 2015-10-19 2015-12-23 江南大学 基于语音和体感技术的智能音箱系统及其控制方法

Also Published As

Publication number Publication date
CN105744434A (zh) 2016-07-06

Similar Documents

Publication Publication Date Title
CN105744434B (zh) 一种基于手势识别的智能音箱控制方法及系统
JP7434137B2 (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
CN110364144B (zh) 一种语音识别模型训练方法及装置
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
US11830479B2 (en) Voice recognition method and apparatus, and air conditioner
CN107393526B (zh) 语音静音检测方法、装置、计算机设备和存储介质
CN109800700B (zh) 一种基于深度学习的水下声信号目标分类识别方法
CN105760825A (zh) 一种基于切比雪夫前向神经网络的手势识别系统和方法
CN106782563B (zh) 一种智能家居语音交互系统
US20180358003A1 (en) Methods and apparatus for improving speech communication and speech interface quality using neural networks
CN103730116B (zh) 在智能手表上实现智能家居设备控制的系统及其方法
CN108510982A (zh) 音频事件检测方法、装置及计算机可读存储介质
CN112289338B (zh) 信号处理方法及装置、计算机设备以及可读存储介质
CN102509548B (zh) 一种基于多距离声传感器的音频索引方法
CN115424627A (zh) 基于卷积循环网络和wpe算法的语音增强混合处理方法
CN109584864A (zh) 图像处理装置和方法
CN110517702A (zh) 信号生成的方法、基于人工智能的语音识别方法及装置
Ge et al. Intelligent instruction-based IoT framework for smart home applications using speech recognition
CN112731291B (zh) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
Wang et al. HearASL: your smartphone can hear American Sign Language
Yu Mobile Communication Voice Enhancement Under Convolutional Neural Networks and the Internet of Things.
Bi et al. Acoustic Scene Classification for Bone-Conducted Sound Using Transfer Learning and Feature Fusion
CN114118171A (zh) 基于超声波的手写识别方法、系统及移动端和服务器
CN113838466B (zh) 语音识别方法、装置、设备及存储介质
Huang et al. Intelligent Design for Sound Detection of Goblet Clinking

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant