CN112863515A - 利用手机扬声器和麦克风识别人体舌头下颚动作的方法 - Google Patents

利用手机扬声器和麦克风识别人体舌头下颚动作的方法 Download PDF

Info

Publication number
CN112863515A
CN112863515A CN202011631284.6A CN202011631284A CN112863515A CN 112863515 A CN112863515 A CN 112863515A CN 202011631284 A CN202011631284 A CN 202011631284A CN 112863515 A CN112863515 A CN 112863515A
Authority
CN
China
Prior art keywords
signal
tongue
ear canal
mobile phone
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011631284.6A
Other languages
English (en)
Other versions
CN112863515B (zh
Inventor
李凡
曹烨彤
宋肖玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202011631284.6A priority Critical patent/CN112863515B/zh
Publication of CN112863515A publication Critical patent/CN112863515A/zh
Application granted granted Critical
Publication of CN112863515B publication Critical patent/CN112863515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/60Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles
    • H04R25/604Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers
    • H04R25/606Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers acting directly on the eardrum, the ossicles or the skull, e.g. mastoid, tooth, maxillary or mandibular bone, or mechanically stimulating the cochlea, e.g. at the oval window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Neurosurgery (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种利用手机扬声器和麦克风识别人体舌头下颚动作的方法。使用手机扬声器和麦克风组成一个简易主动声纳系统,通过使用动态阈值切割算法、支持向量数据描述分类器,可精准从带有其他动作引起的耳道壁运动信号中提取和切分由舌头下颚动作引起的耳道壁运动信号。通过使用信号转换算法,有效消除由用户耳道形态差异以及音频传感器位置差异引起的耳道壁运动信号差异。基于分类器反馈,对耳道壁运动信号特征进行选择,筛选出最有益于舌头下颚动作识别的时域特征,利用这些特征和随机森林分类器,实现舌头下颚动作准确识别。本发明不依赖各类传感器和穿戴设备,具有成本低、使用舒适度高、隐蔽性高、不受光照条件影响等优势。

Description

利用手机扬声器和麦克风识别人体舌头下颚动作的方法
技术领域
本发明涉及一种人体舌头下颚动作识别方法,尤其涉及一种利用智能手机扬声器和麦克风识别人体舌头下颚动作的方法,用于扩展人机交互应用,属于移动计算应用技术领域。
背景技术
随着人机交互方法的不断发展和革新,如何自然地与AI系统进行交互变的越来越重要。近年来,这一需求促进了多种类型的人机交互技术,例如语音识别和手势识别。然而,这些方法易被窃听,而且只对健康的用户有效。
人体舌头及下颚的运动,可以通过不同运动组合呈现丰富的信息,与现有的交互方式相比,更有利于隐私性,允许有语言障碍或者手指协调能力差的用户进行交互。
现有的舌头下颚动作识别方法,主要依赖在口腔内布置传感器实现。例如,通过布置在舌尖的磁力计追踪舌尖位置;通过布置在上颚的数百个接触传感器感知舌尖接触的部位。但是,这类方法会造成用户的不适,且会影响用户言语交际和其他口部功能。另外,口腔内置的传感器对卫生要求较高,不利于广泛应用。
目前,也存在一些利用部署在用户身体上的专用设备进行舌头下颚动作识别的方法。例如,通过观察用户的脑电图、肌电图和耳后皮肤变形程度来监测控制舌头下颚运动的肌肉状态,从而识别舌头下颚动作;通过一组集成在头盔中的雷达捕捉舌头的运动状态。但是,这些专用设备通常都存在成本高昂、需要具有专业知识的人协助佩戴和抗干扰性差等问题。
此外,还有一些利用摄像头的舌头下颚动作识别方法。但是,该类方法无法在闭口时检测舌头动作,其只能识别张口时舌头动作的特性破坏了交互隐蔽性,并且该类方法的准确率受到环境光照强度的影响较大。
综上所述,现有的方法存在各种不足,亟需新方法来克服其局限性。
发明内容
本发明的目的是为了克服现有技术的不足,为了解决低成本且有效识别人体舌头下颚动作的技术问题,提出一种利用手机扬声器和麦克风识别人体舌头下颚动作的方法。
本发明的创新点在于:使用智能手机的扬声器和麦克风,组成一个简易主动声纳系统。扬声器发送音频信号至耳道内,麦克风捕捉耳道反射的音频信号。当人体舌头下颚动作时,会引起耳道壁运动,造成耳道变形。通过分析反射音频中由舌头下颚动作引起的独特音频反射信号,识别用户执行的舌头下颚动作。
本发明的目的是通过以下技术方案实现的:
一种利用手机扬声器和麦克风识别人体舌头下颚动作的方法,包括以下步骤:
步骤1:检测手机麦克风和扬声器与耳道的相对位置关系。
该步骤的目的是帮助用户将手机上的音频传感器(麦克风和扬声器)对准耳道腔体,以获取携带有耳道壁运动信息的音频多径反射信号。
具体地,包括以下步骤:
步骤1.1:采集用户耳道的反射音频信号。
用户将手机贴近耳部并执行预定义的舌头下颚动作,手机扬声器发出连续的音频信号,该音频信号经过运动的耳道壁的反射生成特殊反射音频信号,反射音频信号被手机麦克风所采集。
步骤1.2:提取步骤1.1采集的反射音频信号的上包络,基于信号包络的形态特点,判断音频传感器是否与耳道对齐。如果与耳道对齐,则采集信号进行后续步骤处理,否则,引导用户调整手机位置,直到与耳道对齐。
步骤1.3:分析手机三轴加速度计的数据,根据三轴加速度数据的幅值差异,得到手机旋转角度;
步骤2:切分反射音频信号,检测舌头下颚引起的耳道壁运动信号。
该步骤的目的是消除两个连续舌头下颚动作之间不可避免的额外动作以及其他非舌头下颚动作(例如转动头部)引起的耳道壁运动信号,只保留舌头下颚动作引起的耳道壁运动信号。
具体地,包括以下步骤:
步骤2.1:使用基于动态阈值的方法,对音频信号进行切分,提取耳道壁运动信号;
步骤2.2:分析步骤2.1提取的耳道壁运动信号,提取信号时域特征,使用基于支持向量数据描述分类器,识别由舌头下颚动作引起的耳道壁运动信号。
步骤3:消除特征差异。
该步骤的目的是消除由用户耳道形态差异以及音频传感器位置差异引起的耳道壁运动信号差异。
具体地,包括以下步骤:
步骤3.1:分析步骤2提取的舌头下颚动作引起的耳道壁运动信号,使用基于动态时间规整的对齐方法,使采集的信号与预先存储的模板信号拉伸至具有相同的数据长度;
步骤3.2:利用混合高斯模型估算采集到的信号与存储的模板信号的概率分布;
步骤3.3:分析步骤3.2获得的采集信号与模板信号的概率分布,使用基于相对熵的距离算法提取采集信号与模板信号的概率分布间的距离矩阵;
步骤3.4:搜索步骤3.3提取出的距离矩阵,基于最小距离的原则构建转换目标向量;
步骤3.5:基于步骤3.4生成的转换目标向量,使用基于最小均方误差的方法计算转换方程,消除耳道壁运动信号中由用户耳道形态差异以及音频传感器位置差异引起的差异;
步骤四:识别舌头下颚动作。
具体地,包括以下步骤:
步骤4.1:分析步骤3提取的转换信号,提取信号时域特征;
步骤4.2:使用随机森林分类器,识别用户执行的舌头下颚动作。
至此,从步骤1到步骤4,实现了人体舌头下颚动作识别。
有益效果
本发明方法,与现有舌头下颚动作识别方法相比,具有以下优点:
1.本发明仅依靠手机的扬声器发出连续音频信号,麦克风接受耳道的反射音频信号,就可以实现持续的、非侵入式的、精准的舌头下颚动作识别。因此本发明不依赖各类传感器和穿戴设备,具有成本低、使用舒适度高、隐蔽性高、不受光照条件影响的优势。
2.本发明通过使用动态阈值切割算法、支持向量数据描述分类器,可以精准地从带有其他动作引起的耳道壁运动信号中提取和切分由舌头下颚动作引起的耳道壁运动信号。
3.本发明通过使用信号转换算法,可以有效消除由用户耳道形态差异以及音频传感器位置差异引起的耳道壁运动信号差异。
4.本发明基于分类器反馈,对耳道壁运动信号特征进行了选择,筛选出了12种最有益于舌头下颚动作识别的时域特征。利用这些特征和随机森林分类器,实现了舌头下颚动作的准确识别。
附图说明
图1为本发明方法的原理图;
图2为本发明提出的信号转换策略的图示;
图3为本发明实施例研究的6种舌头下颚动作:(a)动作1;(b)动作2;(c)动作3;(d)动作4;(e)动作5;(f)动作6;
图4为本发明实施例识别六种舌头下颚动作的混淆矩阵;
图5为本发明实施例在不同音频传感器旋转角度下的舌头下颚动作识别的性能;
图6为本发明实施例在不同使用场景下的舌头下颚动作识别的性能。
具体实施方式
下面结合附图和实施例对本发明方法做详细说明。
如图1所示,一种利用手机扬声器和麦克风识别人体舌头下颚动作的方法,包括以下步骤:
步骤1:检测麦克风和扬声器与耳道的相对位置关系。
步骤1.1:采集用户耳道的反射音频信号。
用户将手机贴近耳部并执行预定义的舌头下颚动作,使用手机麦克风和扬声器组成的主动声纳系统采集音频信号:手机扬声器发出连续的音频信号,该音频信号通过运动的耳道壁的反射生成特殊的反射音频信号,反射音频信号被手机麦克风采集。运动的耳道壁被视为一个虚拟声源。
目前,大部分的手机麦克风的采样率为48kHz,可采集频率24kHz以下的音频信号。为了减少对用户的打扰和环境噪音的干扰,音频信号的频率应尽量高于人耳可听范围,即15kHz。同时,考虑到不同型号智能手机的硬件差异,发射音频信号的频率设定为低于20kHz,本实施例选取频率为16kHz,其他属于[15kHz,20kHz]的设定,也在本发明范围之内。
步骤1.2:提取步骤1.1采集的反射音频信号的上包络,基于信号包络的形态特点判断音频传感器是否与耳道对齐。
通常情况下,人体耳道口直径为1cm。为了使手机音频传感器能够采集到耳道壁运动信号,需将音频传感器与狭窄的耳道口对齐。
利用动态阈值G检测采集音频信号上包络各个波峰的突出度,超出阈值的信号波峰被视作耳道壁运动信号,当用户执行舌头下颚动作时,伸出和回到原位的两种动态状态应在音频信号中同时具有两个连续的耳道壁运动信号。为了适应不同型号手机的硬件差异,本实施例中,设G为最大峰值突出度的30%。其他基于最大峰值计算阈值G的设定,也在本发明范围之内。
步骤1.3:分析手机三轴加速度计数据,根据三轴加速度数据的幅值差异估计手机旋转角度。
通常情况下,手机麦克风与扬声器为长10mm、宽1mm长条形的音频传感器集合。
定义音频传感器中心与耳道所连成的直线为旋转轴,手机加速度计X-Y轴平面与重力-Z轴平面的交线为旋转开始位置,音频传感器长边所在中线与旋转开始位置所成的夹角为旋转角。手机围绕加速度计Z轴旋转的角度与音频传感器的旋转角度相同,因此,通过计算手机围绕加速度计Z轴旋转角度估计音频传感器旋转角度。
将重力在加速度计X轴、Y轴的分量记作gx和gy,旋转角度α为:
Figure BDA0002880115830000061
音频传感器旋转不同角度时采集的信号具有差异。为消除耳道壁运动信号差异、提升用户体验,设置有效旋转角度区间为[130°,140°],当用户布置音频传感器超出此区间时,系统将提示用户调整音频传感器旋转角度。
步骤2:切分反射音频信号,检测舌头下颚引起的耳道壁运动信号。
步骤2.1:使用基于动态阈值的方法切分音频信号,提取耳道壁运动信号。
在两个连续的舌头下颚运动之间,舌头和下颚暂停很短的时间,因此,通过检测信号包络中的停顿和明显的抖动来分割运动。
当包络出现抖动信号,一阶导数呈现峰值。当包络出现停顿,一阶导数接近于0,且相对稳定。在某时刻包络一阶导数超过阈值H,则被认为是运动的开始。在某时刻之后的t秒内,一阶导数低于阈值H被认为是运动的结束。经过试验,本实施例将t设为0.5,其他属于[0.1,5]秒的设定,也在本发明范围之内。阈值H要以能够捕捉所有舌头下颚运动,同时能够避免捕捉到采集信号中的随机噪声为原则。然而,由于耳道壁信号幅度范围的多样性和噪声的不确定性,很难找到适合每个人的固定阈值。因此,本发明使用百分位测定法来确定动态阈值H,具体为:
分析输入信号一阶导数的绝对值,根据信号强度a计算其强度分布I(a),动态阈值H需满足:
Figure BDA0002880115830000062
其中,A为常量。为获得最好的切分效果,A的取值范围优选0至100,本实施例将A设为63。
步骤2.2:分析步骤2.1提取的耳道壁运动信号,提取信号时域特征。
使用基于支持向量数据描述分类器,识别由舌头下颚动作引起的耳道壁运动信号。
在两个连续的舌头下颚动作之间切换时,需要额外的舌头和下巴运动。此外,人体面部表情、头部动作和其他动作在真实场景中也很常见。
为了减少计算量和避免错误分类,需筛选耳道壁运动信号,检测由舌头下颚动作引起的耳道壁运动信号。具体方法如下:
首先,提取耳道壁运动信号的时域特征表示每个运动信号片段,包括信号峰度、标准差、波峰数量。此外,还可以选用方差、信号长度等常用时域特征辅助进行耳道壁运动信号检测。
然后,使用分类器来检测舌头下颚运动。由于非舌头下颚运动是不可预测的,并且训练样本有限,因此采用单类分类器实现舌头下颚动作识别。本发明采用一种有效的单分类分类器,支持向量数据描述。支持向量数据描述在分类时确定舌头下颚动作类的边界,并根据样本是否在边界之内分配样本至类内或类外。
本实施例中,在检测前,利用六种舌头下颚动作作为一个整体来训练支持向量数据描述分类器。识别时,面部表情、头部运动、额外运动和其他边界外的运动被丢弃,舌头下颚动作被保留并进一步处理。
步骤3:消除特征差异。
由于不同人体的耳道形态具有差异,因此,音频信号经过耳道壁运动后产生的耳道壁运动信号具有差异,同时,不同音频传感器位置下采集的耳道壁运动信号也具有差异。
为实现准确舌头下颚动作识别,需消除耳道壁运动信号的差异,提取鲁棒的特征,利用数据转换的方法消除耳道壁运动信号的差异。图2展示了信号转换策略。具体如下:
步骤3.1:分析步骤2.2提取的舌头下颚动作引起的耳道壁运动信号,使用基于动态时间规整的对齐方法,使采集的信号与预先存储的模板信号拉伸至相同的数据长度。
预先存储多种舌头下颚动作引起的耳道壁运动信号模板,计作ym,其中m=1,2,…,n。采集的耳道壁运动信号x与信号模板ym利用动态时间规整算法对齐后,具有相同长度。
步骤3.2:利用混合高斯模型估计采集信号与模板信号的概率分布。
混合高斯模型是一组高斯概率密度函数的加权和。采集的信号x表示为
Figure BDA0002880115830000081
Figure BDA0002880115830000082
信号模板ym表示为
Figure BDA0002880115830000083
其中,αi和βj分别表示第i个和第j个高斯概率密度函数的权重,第i个高斯概率密度函数表示为
Figure BDA0002880115830000084
其期望为μi、标准差为σi。使用期望最大化估算上述联合概率密度分布的权重、期望和标准差。将采集的信号x分解为k个高斯概率密度函数。将n个信号模板ym,m=1,2,…,n,分别分解为k个高斯概率密度函数,共获得n·k个高斯概率密度函数。
步骤3.3:分析步骤3.2获得的采集信号与存储的模板信号的概率分布,使用基于自由熵的距离算法生成概率分布的距离矩阵。
矩阵中的元素Di,j定义如下:
Figure BDA0002880115830000085
其中KL(*)表示自由熵:
Figure BDA0002880115830000086
其中,σi表示采集信号x分解出的第i个高斯概率密度函数的标准差,σj表示信号模板ym分解出的第j个高斯概率密度函数的标准差。
步骤3.4:搜索步骤3.3得到的距离矩阵,基于最小距离的原则构建向量,即转换目标向量。该步骤目的是从模板信号的概率分布函数中选择K个与采集信号的K个概率分布函数最相似的分量,构建成目标转换向量y′。
首先按行搜索距离矩阵,在每行中找到距离最小的元素Di,j,其中i表示行,j表示列。然后将j所对应的分解自信号模板的高斯概率密度函数重新组合为目标转换向量。
参考混合高斯模型,定义目标转换向量Py′为:
Figure BDA0002880115830000091
利用贝叶斯定理,计算概率密度的权重γi为:
Figure BDA0002880115830000092
其中,
Figure BDA0002880115830000093
表示距离矩阵第i行所对应的分解自采集的信号x的高斯概率密度函数,αi表示其权重。
Figure BDA0002880115830000094
表示距离矩阵第i行中最小距离元素Di,j对应的第j个分解自信号模板的高斯概率密度函数,βj为其权重。
步骤3.5:基于步骤3.4生成的转换目标向量,使用基于最小均方误差的方法计算转换方程
Figure BDA0002880115830000095
将采集的信号x转换为y′,消除步骤2.2提取的音频信号中由用户耳道形态差异以及音频传感器位置差异引起的耳道壁运动信号差异。
利用最小均方误差的方法,得到转换方程:
Figure BDA0002880115830000096
其中,Px(x)即输入信号x的概率密度,由步骤3.2获得。P(x,y′)为输入信号x与转换目标向量y′的联合概率密度。
为完善x和y′统计分布的描述,利用混合高斯模型描述x和y′构成的联合向量z=[xT,yT]T,T表示矩阵转置。通过混合高斯模型估计目标向量和采集数据之间所需的转换关系,该转换关系只依赖于它们的时间索引Pz
Figure BDA0002880115830000097
其中,ωi表示权重,μi和Σi为期望矩阵和标准差矩阵:
Figure BDA0002880115830000098
其中,cov(*)表示协方差算子。使用期望最大化,估算上述联合概率密度分布的权重、期望和标准差。
步骤4:识别舌头下颚动作。
步骤4.1:分析步骤3.5提取的转换信号,每种舌头下颚动作提取独特且一致的统计特征。基本思想是,在分类前建立一个包含各种舌头下颚动作引起的耳道壁运动信号的数据库,并利用该数据库训练分类器来推断所执行的舌头下颚运动。
首先,进行特征选择,经过人工挑选出候选特征,通过随机森林分类器对候选特征的有效性进行排序,从时域特征中选择方差、绝对能量、矢量化近似熵、自相关系数、最大/最小值的第一个位置、线性最小二乘回归。此外,还可选用超出/低于均值计数,波峰数量等常用时域特征辅助进行舌头下颚动作识别。
步骤4.2:使用随机森林分类器识别用户执行的舌头下颚动作。
在识别前,训练一个利用随机森林的多类分类器识别舌头下颚动作。识别时,将步骤4.1提取出的信号特征输入训练好的多类分类器,预测所采集的信号属于各类的概率。比较各类预测概率,将输入样本分配给预测概率最大的舌头下颚动作类。
实施例验证
为了验证本方法的性能,将本方法编写成一个手机应用程序部署在不同型号的手机中。共招募20名志愿者(10名男性与10名女性)参与实验。在收集实验数据之前,志愿者们均仔细清理了耳道。在数据采集过程中,志愿者将智能手机顶部麦克风和听筒扬声器与耳道对齐,并将智能手机紧贴耳部。为了适应轻微的传感器位置差异,我们鼓励参与者将智能手机旋转130°到140°。本实施例研究6种舌头下颚动作,如图3所示。志愿者分别执行6种舌颌运动共计6000次。
混淆矩阵、召回率和准确率被用来进行系统性能评价。其中,混淆矩阵(ConfusionMatrix)定义为:矩阵的每一行和每一列分别代表实际类和预测类。每个元素ci,j表示属于第i类的样本被预测为第j类样本的比率;召回率(Recall)定义为:对于某个微手势,用本方法正确识别的样本个数和实际上属于该类微手势的样本个数的比值;准确率(Precision)定义为:对于某个微手势,正确识别的样本可数的占全部识别为该类微手势的样本个数的比例。
本实施例通过智能手机持续发送16kHz音频信号,以48kHz采样率收集通过耳道壁反射后的音频信号。步骤2.1切分耳道壁运动信号阈值H满足:
Figure BDA0002880115830000101
步骤3.2中以12个分量估计信号的概率分布。在步骤3.5中以12个分量估计信号的联合概率分布。
首先,测试本方法识别六种舌头下颚动作的总体性能,经过五次交叉验证,平均召回率和准确率分别为94.84%和95.00%。图4展示了五折交叉验证的总体混淆矩阵。可从图中观察到动作4和动作5能被更精准的识别。经过分析,执行动作4与动作5与其他动作相比,舌头和下颚具有更剧烈的运动。因此,扩展动作集合至包含更多舌头下颚动作时,应选择舌头下颚移动剧烈的动作。由图中可以看出六种舌头下颚动作识别比率分别为94.06%、93.23%、94.99%、96.90%、95.08%和94.78%,表明本方法可以准确识别六种舌头下颚动作。
然后,测试本方法在不同音频传感器旋转角度下的性能。本实验设置了4种旋转角度条件,包括120°、130°、140°和150°。图5展示了在四种旋转角度条件下的识别结果,本方法的召回率分别为82.22%、91.58%、93.60%和88.31%,准确率分别为83.06%、91.82%、93.62%和87.71%。本方法在140°条件下达到最高的召回率和准确率。当志愿者将智能手机旋转至[130°,140°]的有效区域之外时,耳道中的多径反射会发生显著变化,从而导致召回率和准确率下降。
最后,测试本方法在真实场景下的识别效果,证明本方法可以在多种真实场景下达到较高的精度。本实验设置了3中场景,包括静止站立、坐在匀速行驶的汽车中和站在匀速行驶的公交车中。志愿者分别在此三种情境下采集六种舌头下颚动作的信号数据,并按照本方法选取75%的数据训练多类随机森林分类器。以其余25%数据测试六种舌头下颚动作的识别结果,如图6所示。静止站立状态下达到的召回率和准确率最高,分别为94.71%和94.91%。坐在行驶中的汽车的表现稍差。召回率降低到90.24%,准确率降低到90.03%,在实际环境中是可以接受的。当站立在一辆行驶中的公交车上时,身体晃动会引起耳道壁运动信号变形,从而导致81.90%的召回率和81.68%的准确率。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例,用于解释本发明,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.利用手机扬声器和麦克风识别人体舌头下颚动作的方法,其特征在于,包括以下步骤:
步骤1:检测手机麦克风和扬声器与耳道的相对位置关系,以获取携带有耳道壁运动信息的音频多径反射信号;
步骤2:切分反射音频信号,检测舌头下颚引起的耳道壁运动信号;
步骤2.1:使用基于动态阈值的方法,对音频信号进行切分,提取耳道壁运动信号;
步骤2.2:分析步骤2.1提取的耳道壁运动信号,提取信号时域特征,使用单类描述分类器,识别由舌头下颚动作引起的耳道壁运动信号;
步骤3:消除特征差异;
步骤3.1:分析步骤2.2提取的舌头下颚动作引起的耳道壁运动信号,使用基于动态时间规整的对齐方法,使采集的信号与预先存储的模板信号拉伸至相同的数据长度;
预先存储多种舌头下颚动作引起的耳道壁运动信号模板,计作ym,其中m=1,2,…,n;采集的耳道壁运动信号x与信号模板ym利用动态时间规整算法对齐后,具有相同长度;
步骤3.2:利用混合高斯模型估算采集到的信号与存储的模板信号的概率分布;
混合高斯模型是一组高斯概率密度函数的加权和;采集的信号x表示为
Figure FDA0002880115820000011
Figure FDA0002880115820000012
信号模板ym表示为
Figure FDA0002880115820000013
其中,αi和βj分别表示第i个和第j个高斯概率密度函数的权重,第i个高斯概率密度函数表示为
Figure FDA0002880115820000014
其期望为μi、标准差为σi;使用期望最大化估算上述联合概率密度分布的权重、期望和标准差;将采集的信号x分解为k个高斯概率密度函数,将n个信号模板ym,m=1,2,…,n,分别分解为k个高斯概率密度函数,共获得n·k个高斯概率密度函数;
步骤3.3:分析步骤3.2获得的采集信号与模板信号的概率分布,使用基于相对熵的距离算法提取采集信号与模板信号的概率分布间的距离矩阵;
矩阵中的元素Di,j定义如下:
Figure FDA0002880115820000021
其中KL(*)表示自由熵:
Figure FDA0002880115820000022
其中,σi表示采集信号x分解出的第i个高斯概率密度函数的标准差,σj表示信号模板ym分解出的第j个高斯概率密度函数的标准差;
步骤3.4:搜索步骤3.3提取出的距离矩阵,基于最小距离的原则构建转换目标向量;
步骤3.5:基于步骤3.4生成的转换目标向量,使用基于最小均方误差的方法计算转换方程
Figure FDA0002880115820000023
消除耳道壁运动信号中由用户耳道形态差异以及音频传感器位置差异引起的差异;
步骤4:识别舌头下颚动作;
步骤4.1:分析步骤3提取的转换信号,提取信号时域特征;
步骤4.2:使用随机森林分类器,识别用户执行的舌头下颚动作。
2.如权利要求1所述的利用手机扬声器和麦克风识别人体舌头下颚动作的方法,其特征在于,步骤1包括以下步骤:
步骤1.1:采集用户耳道的反射音频信号;
运动的耳道壁被视为一个虚拟声源;用户将手机贴近耳部并执行预定义的舌头下颚动作,手机扬声器发出连续的音频信号,该音频信号经过运动的耳道壁的反射生成特殊反射音频信号,反射音频信号被手机麦克风所采集;
步骤1.2:提取步骤1.1采集的反射音频信号的上包络,基于信号包络的形态特点,判断音频传感器是否与耳道对齐;
如果与耳道对齐,则采集信号进行后续步骤处理,否则,引导用户调整手机位置,直到与耳道对齐;
步骤1.3:分析手机三轴加速度计的数据,根据三轴加速度数据的幅值差异,得到手机旋转角度。
3.如权利要求2所述的利用手机扬声器和麦克风识别人体舌头下颚动作的方法,其特征在于,步骤1.1中,为减少对用户的打扰和环境噪音的干扰,发射音频信号的频率范围设定为在15kHz至20kHz之间。
4.如权利要求2所述的利用手机扬声器和麦克风识别人体舌头下颚动作的方法,其特征在于,步骤1.2中,利用动态阈值G检测采集音频信号上包络各个波峰的突出度,超出阈值的信号波峰被视作耳道壁运动信号,当用户执行舌头下颚动作时,伸出和回到原位的两种动态状态应在音频信号中同时具有两个连续的耳道壁运动信号。
5.如权利要求2所述的利用手机扬声器和麦克风识别人体舌头下颚动作的方法,其特征在于,步骤1.3中,定义音频传感器中心与耳道所连成的直线为旋转轴,手机加速度计X-Y轴平面与重力-Z轴平面的交线为旋转开始位置,音频传感器长边所在中线与旋转开始位置所成的夹角为旋转角;
手机围绕加速度计Z轴旋转的角度与音频传感器的旋转角度相同,通过计算手机围绕加速度计Z轴旋转角度估计音频传感器旋转角度,将重力在加速度计X轴、Y轴的分量记作gx和gy,旋转角度α为:
Figure FDA0002880115820000031
由于音频传感器旋转不同角度时采集的信号具有差异,设置有效旋转角度区间为[130°,140°],当用户布置音频传感器超出此区间时,系统将提示用户调整音频传感器旋转角度。
6.如权利要求1所述的利用手机扬声器和麦克风识别人体舌头下颚动作的方法,其特征在于,步骤2.1使用基于动态阈值的方法切分音频信号提取耳道壁运动信号的方法如下:
当信号包络中出现抖动信号,一阶导数呈现峰值;当信号包络出现停顿,一阶导数接近于0,且相对稳定;
在某时刻信号包络一阶导数超过阈值H,则被认为是运动的开始;在某时刻之后的t秒内,一阶导数低于阈值H被认为是运动的结束;t取值范围为[0.1,5]秒;阈值H要以能够捕捉所有舌头下颚运动,同时能够避免捕捉到采集信号中的随机噪声为准。
7.如权利要求6所述的利用手机扬声器和麦克风识别人体舌头下颚动作的方法,其特征在于,使用百分位测定法确定动态阈值H,具体为:
分析输入信号一阶导数的绝对值,根据信号强度a计算其强度分布I(a),动态阈值H需满足:
Figure FDA0002880115820000041
其中,A为常量,取值范围为0至100。
8.如权利要求1所述的利用手机扬声器和麦克风识别人体舌头下颚动作的方法,其特征在于,步骤2.2提取信号时域特征的方法如下:
使用基于支持向量数据描述分类器,识别由舌头下颚动作引起的耳道壁运动信号;为减少计算量和避免错误分类,需筛选耳道壁运动信号,检测由舌头下颚动作引起的耳道壁运动信号,具体方法如下:
首先,提取耳道壁运动信号的时域特征表示每个运动信号片段,包括信号峰度、标准差、波峰数量;
然后,使用单类分类器来检测舌头下颚运动,即,支持向量数据描述分类器,支持向量数据描述在分类时确定舌头下颚动作类的边界,并根据样本是否在边界之内分配样本至类内或类外。
9.如权利要求1所述的利用手机扬声器和麦克风识别人体舌头下颚动作的方法,其特征在于,步骤3.4的实现方法如下:
该步骤目的是从模板信号的概率分布函数中选择K个与采集信号的K个概率分布函数最相似的分量,构建成目标转换向量y′;
首先,按行搜索距离矩阵,在每行中找到距离最小的元素Di,j,其中i表示行,j表示列;
然后,将j所对应的分解自信号模板的高斯概率密度函数重新组合为目标转换向量;
参考混合高斯模型,定义目标转换向量Py′为:
Figure FDA0002880115820000051
利用贝叶斯定理,计算概率密度的权重γi为:
Figure FDA0002880115820000052
其中,
Figure FDA0002880115820000053
表示距离矩阵第i行所对应的分解自采集的信号x的高斯概率密度函数,αi表示其权重。
Figure FDA0002880115820000054
表示距离矩阵第i行中最小距离元素Di,j对应的第j个分解自信号模板的高斯概率密度函数,βj为其权重。
10.如权利要求1所述的利用手机扬声器和麦克风识别人体舌头下颚动作的方法,其特征在于,步骤3.5中,利用最小均方误差的方法,得到转换方程:
Figure FDA0002880115820000055
其中,Px(x)即输入信号x的概率密度,由步骤3.2获得;P(x,y′)为输入信号x与转换目标向量y′的联合概率密度;
为完善x和y′统计分布的描述,利用混合高斯模型描述x和y′构成的联合向量z=[xT,yT]T,T表示矩阵转置;通过混合高斯模型估计目标向量和采集数据之间所需的转换关系,该转换关系只依赖于它们的时间索引Pz
Figure FDA0002880115820000056
其中,ωi表示权重,μi和Σi为期望矩阵和标准差矩阵:
Figure FDA0002880115820000057
其中,cov(*)表示协方差算子;
使用期望最大化,估算上述联合概率密度分布的权重、期望和标准差。
CN202011631284.6A 2020-12-31 2020-12-31 利用手机扬声器和麦克风识别人体舌头下颚动作的方法 Active CN112863515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011631284.6A CN112863515B (zh) 2020-12-31 2020-12-31 利用手机扬声器和麦克风识别人体舌头下颚动作的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011631284.6A CN112863515B (zh) 2020-12-31 2020-12-31 利用手机扬声器和麦克风识别人体舌头下颚动作的方法

Publications (2)

Publication Number Publication Date
CN112863515A true CN112863515A (zh) 2021-05-28
CN112863515B CN112863515B (zh) 2022-12-09

Family

ID=75999855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011631284.6A Active CN112863515B (zh) 2020-12-31 2020-12-31 利用手机扬声器和麦克风识别人体舌头下颚动作的方法

Country Status (1)

Country Link
CN (1) CN112863515B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115950590A (zh) * 2023-03-15 2023-04-11 凯晟动力技术(嘉兴)有限公司 气体发动机泄露预警系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025635A2 (en) * 2000-09-19 2002-03-28 Logometrix Corporation Palatometer and nasometer apparatus
WO2017137071A1 (en) * 2016-02-09 2017-08-17 Sonova Ag A method of performing real ear measurements by placing a probe element at an intended position from a tympanic membrane of an individual's ear canal and a measuring system configured to carry out such method.
CN110428812A (zh) * 2019-07-30 2019-11-08 天津大学 基于动态时间规划根据语音信息合成舌超声视频的方法
CN111712183A (zh) * 2017-10-27 2020-09-25 高等工艺学校 耳内非语言音频事件分类系统和方法
CN111986674A (zh) * 2020-08-13 2020-11-24 广州仿真机器人有限公司 基于三级特征采集的智能语音识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025635A2 (en) * 2000-09-19 2002-03-28 Logometrix Corporation Palatometer and nasometer apparatus
WO2017137071A1 (en) * 2016-02-09 2017-08-17 Sonova Ag A method of performing real ear measurements by placing a probe element at an intended position from a tympanic membrane of an individual's ear canal and a measuring system configured to carry out such method.
CN111712183A (zh) * 2017-10-27 2020-09-25 高等工艺学校 耳内非语言音频事件分类系统和方法
CN110428812A (zh) * 2019-07-30 2019-11-08 天津大学 基于动态时间规划根据语音信息合成舌超声视频的方法
CN111986674A (zh) * 2020-08-13 2020-11-24 广州仿真机器人有限公司 基于三级特征采集的智能语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张敬姝: "基于生理信息的声道归一化研究及其在发音运动识别中的应用", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115950590A (zh) * 2023-03-15 2023-04-11 凯晟动力技术(嘉兴)有限公司 气体发动机泄露预警系统
CN115950590B (zh) * 2023-03-15 2023-05-30 凯晟动力技术(嘉兴)有限公司 气体发动机泄露预警系统

Also Published As

Publication number Publication date
CN112863515B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN107157450B (zh) 用于对帕金森病人的手部运动能力进行量化评估方法和系统
CN108305615A (zh) 一种对象识别方法及其设备、存储介质、终端
US20090018828A1 (en) Automatic Speech Recognition System
CN110659595A (zh) 一种基于特征分类的跌倒类型及伤害部位检测方法
TW201201115A (en) Facial expression recognition systems and methods and computer program products thereof
WO2012020591A1 (ja) 個体識別システム、特徴量特定装置、特徴量特定方法および記録媒体
CN103705218B (zh) 构音障碍识别的方法、系统和装置
KR102134154B1 (ko) 1-d cnn 기반의 uwb 호흡 데이터 패턴 인식 시스템
CN108182418A (zh) 一种基于多维声波特征的键击识别方法
Cao et al. CanalScan: Tongue-jaw movement recognition via ear canal deformation sensing
CN106308801A (zh) 一种利用智能手机检测人体呼吸频率的方法
CN110946554A (zh) 咳嗽类型识别方法、装置及系统
CN112863515B (zh) 利用手机扬声器和麦克风识别人体舌头下颚动作的方法
Nguyen et al. Cover your cough: Detection of respiratory events with confidence using a smartwatch
KR101329100B1 (ko) 상황 인지 장치 및 이를 이용한 상황 인지 방법
CN103315767B (zh) 心音信号的判别方法及心音信号的判别系统
CN107363862B (zh) 基于机器人的社交系统
US20150039314A1 (en) Speech recognition method and apparatus based on sound mapping
Liu et al. Novel footstep features using dominant frequencies for personal recognition
Li et al. Interpreting sign components from accelerometer and sEMG data for automatic sign language recognition
Mendes et al. Subvocal speech recognition based on EMG signal using independent component analysis and neural network MLP
CN114764580A (zh) 一种基于无穿戴设备的实时人体手势识别方法
CN113033407B (zh) 一种利用智能音箱的非接触式健身监测方法
Arjunan et al. Unspoken vowel recognition using facial electromyogram
Fan et al. A method of hand gesture recognition based on multiple sensors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant