CN115774490A - 一种超声手势识别方法和系统 - Google Patents

一种超声手势识别方法和系统 Download PDF

Info

Publication number
CN115774490A
CN115774490A CN202211520469.9A CN202211520469A CN115774490A CN 115774490 A CN115774490 A CN 115774490A CN 202211520469 A CN202211520469 A CN 202211520469A CN 115774490 A CN115774490 A CN 115774490A
Authority
CN
China
Prior art keywords
gesture
channel
frequency
ultrasonic
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211520469.9A
Other languages
English (en)
Inventor
王欢良
李霄
刘雍
孙奥
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Qimengzhe Technology Co ltd
Original Assignee
Suzhou Qimengzhe Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Qimengzhe Technology Co ltd filed Critical Suzhou Qimengzhe Technology Co ltd
Priority to CN202211520469.9A priority Critical patent/CN115774490A/zh
Publication of CN115774490A publication Critical patent/CN115774490A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本申请提供了一种超声手势识别方法及系统,其中方法包括:生成并发出多频超声波信号;通过麦克风阵列采集多通道手势超声信号,所述麦克风阵列至少包括两个平行于手势挥动方向的麦克风;从多通道手势超声信号中提取各个通道的频谱能量特征,计算通道间频谱能量差特征,并计算每个通道的手势相对麦克风距离变化量特征,将这三种特征组合成特征向量;将该特征向量输入预先训练好的手势识别模型,识别出手势类型。本申请通过以设定通道的通道频谱能量、通道间频谱能量差和每个通道的手势相对麦克风距离变化量特征组合成特征向量,能够更好地识别出对称平移手势,并且不易受到周围环境反射和高频噪声的干扰,手势识别的稳定性较好。

Description

一种超声手势识别方法和系统
技术领域
本发明涉及超声手势识别技术,尤其涉及一种超声手势识别方法和系统。
背景技术
传统超声手势识别通常利用多普勒频移效应原理,采用超声波频谱能量作为识别模型的输入特征。这种方法很难区分相对麦克风距离变化趋势相同的手势。比如,手从左向右和从右向左对称地从单一麦克风前方挥动,对麦克风来说,其相对麦克风的距离变化是完全相同的,其产生的信号频谱也完全相同。因此,单纯采用单一麦克风信号的频谱特征很难区分这两种手势。另外,采用普通扬声器发射的超声波功率比较低,方向性差,容易受周围环境反射和高频噪声的干扰,导致手势识别的稳定性较差。
发明内容
本发明的目的在于提供一种超声手势识别方法和系统,能够识别对称的平移挥动手势,并且具有良好的抗干扰性和稳定性。
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
根据本发明的第一方面,提供了一种超声手势识别方法,包括:
生成并发出多频超声波信号;
通过麦克风阵列采集多通道手势超声信号,所述麦克风阵列至少包括两个平行于手势挥动方向的麦克风;
从多通道手势超声信号中提取各个通道的频谱能量特征,计算通道间频谱能量差特征,并计算每个通道的手势相对麦克风距离变化量特征,将这三种特征组合成特征向量;
将该特征向量输入预先训练好的手势识别模型,识别出手势类型。
在一实施例中,所述多频超声波信号由N个基本频率成分fn混合组成,n=1...N,N≥2,各个基本频率成分之间的频率间隔为Δf。
在一实施例中,所述从多通道手势超声信号中提取各个通道的频谱能量特征,包括:
将采集到的多通道手势超声信号表示为x(m,t),其中,m为通道编号,t为时间,m=1...M,M为总通道数,t=1...T,T为信号总时长;
对x(m,t)分帧并作离散傅里叶变换,得到
Xi(m,f)=DFFT(frame(x(m,t)))
其中,frame(.)为分帧加窗处理操作,DFFT为离散傅里叶变换;
对Xi(m,f)做频域带通滤波,仅保留频率区间
Figure BDA0003973625790000021
之间的频谱,其中f1为多频超声波信号中的最低频率成分;
以每个基本频率成分fn为中心,提取频率区间
Figure BDA0003973625790000022
之内的频带能量作为该基本频率成分的特征,然后把所有基本频率成分的特征拼接在一起,作为该通道的频谱能量特征
Fi(f)=||Xi(m,f)||。
在一实施例中,所述提取设定通道的频谱能量特征,还包括采用三角滤波降低特征维度。
在一实施例中,在所述提取通道的频谱能量特征之后,还包括用预先统计好的能量归一化特征量对提取到的频谱能量特征进行归一化,具体包括:
S331、对通道m的某一帧的每个频带的频谱能量,按照能量大小进行排序,如果最大的前N个频谱能量所对应的频带,刚好为多频超声波信号的N个基本频率成分,并且其他频带能量均小于预设阈值,则把该帧频谱能量暂存起来,且计数器加1;否则计数器清零,并清除缓存的频谱能量特征;
S332、重复执行S331,直到计数器值大于预设值L,然后计算缓存的L帧频谱能量特征均值作为归一化项
Figure BDA0003973625790000031
S333、采用
Figure BDA0003973625790000033
对后续的频谱能量特征作归一化处理
Figure BDA0003973625790000032
在一实施例中,所述通道间频谱能量差特征,通过如下方法来提取:
Fi(k,a,f)=||Xi(k,f)||-||Xi(a,f)||
其中,通道k为设定通道,通道a为麦克风阵列另一麦克风对应的通道,并且通道k与通道a对应的麦克风平行于手势挥动方向。
在一实施例中,所述计算每个通道的手势相对麦克风距离变化量特征,包括:
采用基于声学相位信息的相对距离变化算法,粗略估计得到每个时刻手势相对麦克风移动距离的变化量,然后对此变化量作平滑处理,最后再作均值方差归一化处理,得到最终的相对距离变化量特征
Di(m)=norm(smooth(llap(frame(x(m,t)))))
其中,llap(.)是相对距离变化算法,smooth(.)为平滑处理,norm(.)为归一化操作。
根据本发明的第二方面,提供了一种超声手势识别系统,包括:
信号生成模块,用于生成多频超声波信号;
扬声器,用于发出多频超声信号;
麦克风阵列,用于采集多通道手势超声信号,所述麦克风阵列至少包括两个平行于手势挥动方向的麦克风;
手势特征提取模块,用于提取各个通道的频谱能量特征,计算通道间频谱能量差特征和每个通道的手势相对麦克风距离变化量特征,并组合成特征向量;
手势识别模块,用于将特征向量输入预先训练好的手势识别模型,识别出手势类型。
本发明实施例的有益效果是:通过以设定通道的通道频谱能量、通道间频谱能量差和每个通道的手势相对麦克风距离变化量特征组合成特征向量,能够更好地识别出对称平移手势,并且不易受到周围环境反射和高频噪声的干扰,手势识别的稳定性较好。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1是本申请方法实施例的流程图;
图2是本申请方法实施例的特征提取组合过程示意图;
图3是本申请系统实施例的结构框图;
图4是实施例一中通道间频谱能量差计算示意图;
图5是实施例二中麦克风阵列组合示意图。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
如图1所示,本申请实施例提供了一种超声手势识别方法,包括:
S1,生成并发出多频超声波信号;
其中,多频超声波信号由N个基本频率成分fn混合组成,n=1...N,N≥2,各个基本频率成分之间的频率间隔为Δf。其最低频率成分f1一般设置为大于16kHz。
S2,通过麦克风阵列采集多通道手势超声信号,麦克风阵列至少包括两个平行于手势挥动方向的麦克风,通道数与麦克风数对应。例如,要识别水平方向挥动手势,可设置水平方向线性排布的多个麦克风。要识别竖直方向挥动手势,可设置竖直方向线性排布的多个麦克风。
S3,从多通道手势超声信号中提取各通道的频谱能量特征,计算通道间能量差特征,并计算每个通道的手势相对麦克风距离变化量特征,将这三种特征组合成特征向量;如图2所示,S3具体包括:
S31,将采集到的多通道手势超声信号表示为x(m,t),其中,m为通道编号,t为时间,m=1...M,M为总通道数,t=1...T,T为信号总时长;
对x(m,t)分帧并作离散傅里叶变换,得到
Xi(m,f)=DFFT(frame(x(m,t)))
其中,frame(.)为分帧加窗处理操作,DFFT为离散傅里叶变换。
优选地,还可对Xi(m,f)做频域带通滤波,仅保留频率区间
Figure BDA0003973625790000061
Figure BDA0003973625790000062
之间的频谱,其中f1为多频超声波信号中的最低频率成分。
S32,以每个基本频率成分fn为中心,提取频率区间
Figure BDA0003973625790000063
Figure BDA0003973625790000064
之内的频带能量作为该基本频率成分的特征,然后把所有基本频率成分的特征拼接在一起,作为该通道的频谱能量特征Fi(f)=||Xi(m,f)||。
优选地,提取通道的频谱能量特征后,还可采用三角滤波降低特征维度。
为了消除不同型号设备和系统设置情况下超声信号的能量差异,在提取通道的频谱能量特征之后,还包括S33,用预先统计好的能量归一化特征量对提取到的频谱能量特征进行归一化,S33具体包括:
S331、对通道m的某一帧的每个频带的频谱能量,按照能量大小进行排序,如果最大的前N个频谱能量所对应的频带,刚好为多频超声波信号的N个基本频率成分,并且其他频带能量均小于预设阈值,则把该帧频谱能量暂存起来,且计数器加1;否则计数器清零,并清除缓存的频谱能量特征;
S332、重复执行S331,直到计数器值大于预设值L,然后计算缓存的L帧频谱能量特征均值作为归一化项
Figure BDA0003973625790000071
S333、采用
Figure BDA0003973625790000073
对后续的频谱能量特征作归一化处理
Figure BDA0003973625790000072
S34,通道间频谱能量差特征则可通过如下方法来提取:
Fi(k,a,f)=||Xi(k,f)||-||Xi(a,f)||
其中,通道k为设定通道,通道a为麦克风阵列中另一麦克风对应的通道,并且通道k与通道a对应的麦克风平行于手势挥动方向。
S35,计算每个通道的手势相对麦克风距离变化量特征,具体包括:
采用基于声学相位信息的相对距离变化算法(参见Wei Wang,et al.Device-FreeGesture Tracking Using Acoustic Signals.International Conference on MobileComputing&Networking,2016),粗略估计得到每个时刻手势相对麦克风移动距离的变化量,然后对此变化量作平滑处理,最后再作均值方差归一化处理,得到最终的相对距离变化量特征。可表示为:
Di(m)=norm(smooth(llap(frame(x(m,t)))))
其中,llap(.)是相对距离变化算法,smooth(.)为平滑处理,norm(.)为归一化操作。
S36,最后将Fi(f),Fi(k,a,f)以及Di(m)组合成特征向量。
S4,将该特征向量输入预先训练好的手势识别模型,识别出手势类型。
本方法所采用的手势识别模型,根据任务采用定义的特征来训练,模型结构为深度学习模型,例如可以为DNN/CNN/RNN以及他们的变体和组合结构。
基于上述方法,本申请实施例还提供了一种超声手势识别系统,如图3所示,包括:
信号生成模块301,用于生成多频超声波信号
扬声器302,用于发出多频超声信号;
麦克风阵列303,用于采集多通道手势超声信号;麦克风阵列在手势运动方向上至少设置有两个麦克风.
手势特征提取模块304,用于提取设定通道的频谱能量特征,计算通道间能量差特征和每个通道的手势相对麦克风距离变化量特征,并组合成特征向量;
手势识别模块305,用于将特征向量输入预先训练好的手势识别模型,识别出手势类型。
以下提供两个具体实施例。
实施例一
手势识别系统要识别向前、向后、向左、向右4种挥动手势并拒识其他手势动作。为了区分向左和向右手势,采用如图4所示的4麦克风阵列,4个麦克风的排布方向和左/右手势挥动方向一致。采用双频超声信号,2个频率成分分别为17500H和18000Hz,麦克风采样率48kHz。首先对信号分帧,帧长4096点,帧移2048点,然后做DFFT,提取频谱能量特征,设置Δf=150,提取得到60维特征。用预先统计好的能量归一化特征量对特征进行归一化,得到归一化后的60维频谱能量特征。
为了减少计算复杂度,不需要计算所有通道之间的能量差。本实施例中,只采用Mic1和Mic4计算特征。当然,也可以计算所有通道间的能量差特征,这样识别性能会更好,但是相比计算复杂度的增加,这种性能提升是不显著的。
基于两个通道的60维频谱能量特征,计算得到60维通道间能量差特征。同时采用LLAP算法,提取手势相对两个麦克风的距离变化量特征。最后,把第1个麦克风通道的频谱能量特征、通道间频谱能量差特征和手势相对麦克风距离变化量特征拼接在一起,得到最终用于手势识别的122维特征(60+60+2)。将该122维特征输入手势识别模型,识别出手势类型。
实施例二
手势识别系统要识别向前、向后、向左、向右、向上、向下6种手势并拒识其他手势动作。为了区分向左和向右、向上和向下手势,采用如图5所示的3麦阵列,其中2个麦克风的排布方向和左/右手势挥动方向一致,如图5中a所示,另2个麦克风的排布方向和向上/向下手势挥动方向一致,入图5中b所示。其频谱能量特征以及相对距离变化量特征的提取和实施例一相同。通道间频谱能量差特征提取Mic1和Mic2,Mic1和Mic3两组通道组合的能量差特征共12O维。把第1个麦克风通道的频谱能量特征、通道间频谱能量特征和相对距离变化量特征拼接在一起,得到最终用于手势识别的183维特征(60+60*2+3)。将该183维特征输入手势识别模型,识别出手势类型。
综上所述,本方案通过以设定通道的通道频谱能量、通道间频谱能量差和每个通道的手势相对麦克风距离变化量特征组合成特征向量,能够更好地识别出对称平移手势,并且不易受到周围环境反射和高频噪声的干扰,手势识别的稳定性较好。传统方案直接采用频谱能量特征,难以区分沿麦克风对称的手势,而本方案所增加特征可以很好地解决沿麦克风对称的手势区分问题,并且对于手势之间的细微差别也具有区分度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。
以上所述仅为本申请的较佳实例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (8)

1.一种超声手势识别方法,其特征在于,包括:
生成并发出多频超声波信号;
通过麦克风阵列采集多通道手势超声信号,所述麦克风阵列至少包括两个平行于手势挥动方向的麦克风;
从多通道手势超声信号中提取各个通道的频谱能量特征,计算通道间频谱能量差特征,并计算每个通道的手势相对麦克风距离变化量特征,将这三种特征组合成特征向量;
将该特征向量输入预先训练好的手势识别模型,识别出手势类型。
2.根据权利要求1所述的超声手势识别方法,其特征在于:所述多频超声波信号由N个基本频率成分fn混合组成,n=1...N,N≥2,各个基本频率成分之间的频率间隔为Δf。
3.根据权利要求2所述的超声手势识别方法,其特征在于,所述从多通道手势超声信号中提取各个通道的频谱能量特征,包括:
将采集到的多通道手势超声信号表示为x(m,t),其中,m为通道编号,t为时间,m=1...M,M为总通道数,t=1...T,T为信号总时长;
对x(m,t)分帧并作离散傅里叶变换,得到
Xi(m,f)=DFFT(frame(x(m,t)))
其中,frame(.)为分帧加窗处理操作,DFFT为离散傅里叶变换,i表示数据帧编号;
对Xi(m,f)做频域带通滤波,仅保留频率区间
Figure FDA0003973625780000011
之间的频谱,其中f1为多频超声波信号中的最低频率成分;
以每个基本频率成分fn为中心,提取频率区间
Figure FDA0003973625780000021
之内的频带能量作为该基本频率成分的特征,然后把所有基本频率成分的特征拼接在一起,作为该通道的频谱能量特征
Fi(f)=||Xi(m,f)||。
4.根据权利要求3所述的超声手势识别方法,其特征在于:在提取各个通道的频谱能量特征后,还包括采用三角滤波降低特征维度。
5.根据权利要求3所述的超声手势识别方法,其特征在于,在所述提取通道的频谱能量特征之后,还包括用预先统计好的能量归一化特征量对提取到的频谱能量特征进行归一化,具体包括:
S 331、对通道m的某一帧的每个频带的频谱能量,按照能量大小进行排序,如果最大的前N个频谱能量所对应的频带,刚好为多频超声波信号的N个基本频率成分,并且其他频带能量均小于预设阈值,则把该帧频谱能量暂存起来,且计数器加1;否则计数器清零,并清除缓存的频谱能量特征;
S332、重复执行S331,直到计数器值大于预设值L,然后计算缓存的L帧频谱能量特征均值作为归一化项
Figure FDA0003973625780000022
S333、采用
Figure FDA0003973625780000023
对后续的频谱能量特征作归一化处理
Figure FDA0003973625780000024
6.根据权利要求3所述的超声手势识别方法,其特征在于,所述通道间频谱能量差特征,通过如下方法来提取:
Fi(k,a,f)=||Xi(k,f)||-||Xi(a,f)||
其中,通道k为设定通道,通道a为麦克风阵列中另一麦克风对应的通道,并且通道k与通道a对应的麦克风位置平行于手势挥动方向。
7.根据权利要求3所述的超声手势识别方法,其特征在于,所述计算每个通道的手势相对麦克风距离变化量特征,包括:
采用基于声学相位信息的相对距离变化算法,粗略估计得到每个时刻手势相对麦克风移动距离的变化量,然后对此变化量作平滑处理,最后再作均值方差归一化处理,得到最终的相对距离变化量特征
Di(m)=norm(smooth(llap(frame(x(m,t)))))
其中,llap(.)是相对距离变化算法,smooth(.)为平滑处理,norm(.)为归一化操作。
8.一种超声手势识别系统,其特征在于,包括:
信号生成模块,用于生成多频超声波信号;
扬声器,用于发出多频超声信号;
麦克风阵列,用于采集多通道手势超声信号,所述麦克风阵列至少包括两个平行于手势挥动方向的麦克风;
手势特征提取模块,用于提取各个通道的频谱能量特征,计算通道间频谱能量差特征和每个通道的手势相对麦克风距离变化量特征,并组合成特征向量;
手势识别模块,用于将特征向量输入预先训练好的手势识别模型,识别出手势类型。
CN202211520469.9A 2022-11-30 2022-11-30 一种超声手势识别方法和系统 Pending CN115774490A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211520469.9A CN115774490A (zh) 2022-11-30 2022-11-30 一种超声手势识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211520469.9A CN115774490A (zh) 2022-11-30 2022-11-30 一种超声手势识别方法和系统

Publications (1)

Publication Number Publication Date
CN115774490A true CN115774490A (zh) 2023-03-10

Family

ID=85390721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211520469.9A Pending CN115774490A (zh) 2022-11-30 2022-11-30 一种超声手势识别方法和系统

Country Status (1)

Country Link
CN (1) CN115774490A (zh)

Similar Documents

Publication Publication Date Title
US7383178B2 (en) System and method for speech processing using independent component analysis under stability constraints
CN109817209B (zh) 一种基于双麦克风阵列的智能语音交互系统
US9640194B1 (en) Noise suppression for speech processing based on machine-learning mask estimation
Sun et al. UltraSE: single-channel speech enhancement using ultrasound
US8762144B2 (en) Method and apparatus for voice activity detection
CN109599124A (zh) 一种音频数据处理方法、装置及存储介质
CN110047478B (zh) 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN107004424A (zh) 噪声降低和语音增强的方法、设备和系统
CN109427328B (zh) 一种基于滤波网络声学模型的多通道语音识别方法
Pandey et al. TPARN: Triple-path attentive recurrent network for time-domain multichannel speech enhancement
CN108109617A (zh) 一种远距离拾音方法
JP2012150237A (ja) 音信号処理装置、および音信号処理方法、並びにプログラム
EP2630807A1 (en) Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
JP2012234150A (ja) 音信号処理装置、および音信号処理方法、並びにプログラム
JP2020115206A (ja) システム及び方法
CN103208291A (zh) 一种可用于强噪声环境的语音增强方法及装置
CN112363112A (zh) 一种基于线性麦克风阵列的声源定位方法及装置
JP6705410B2 (ja) 音声認識装置、音声認識方法、プログラム及びロボット
CN105590630A (zh) 基于指定带宽的定向噪音抑制方法
CN111312275A (zh) 一种基于子带分解的在线声源分离增强系统
WO2024103485A1 (zh) 一种基于人类语音结构的语音干扰噪声设计方法
Hazrati et al. Leveraging automatic speech recognition in cochlear implants for improved speech intelligibility under reverberation
Kumar et al. Murmured speech recognition using hidden markov model
Qi et al. Exploring deep hybrid tensor-to-vector network architectures for regression based speech enhancement
Tu et al. DNN training based on classic gain function for single-channel speech enhancement and recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination