CN112259124B - 基于音频频域特征的对话过程捂嘴手势识别方法 - Google Patents
基于音频频域特征的对话过程捂嘴手势识别方法 Download PDFInfo
- Publication number
- CN112259124B CN112259124B CN202011131535.4A CN202011131535A CN112259124B CN 112259124 B CN112259124 B CN 112259124B CN 202011131535 A CN202011131535 A CN 202011131535A CN 112259124 B CN112259124 B CN 112259124B
- Authority
- CN
- China
- Prior art keywords
- voice
- voice input
- mouth
- input signal
- mobile terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000008569 process Effects 0.000 title claims abstract description 28
- 238000012544 monitoring process Methods 0.000 claims abstract description 22
- 238000004891 communication Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 27
- 238000007789 sealing Methods 0.000 claims description 26
- 238000012546 transfer Methods 0.000 claims description 17
- 230000005236 sound signal Effects 0.000 claims description 15
- 230000003993 interaction Effects 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 2
- 238000011410 subtraction method Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 230000036544 posture Effects 0.000 abstract description 6
- 210000000883 ear external Anatomy 0.000 description 5
- 210000003027 ear inner Anatomy 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
- H04R1/083—Special constructions of mouthpieces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1091—Details not provided for in groups H04R1/1008 - H04R1/1083
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提出基于音频频域特征的对话过程捂嘴手势识别方法,包括如下步骤:S1:建立语音接收组件与移动终端的无线通信;S2:语音接收组件通过第一语音监测通道和第二语音监测通道接收语音输入信号;S3:所述第一语音监测通道将接收的第一语音输入信号发送至所述移动终端;S4:所述移动终端基于内置的声纹识别模型判断当前语音输入是否为授权用户输入S5:第二语音监测通道将接收的第二语音输入信号发送至移动终端;S6:移动终端基于第一语音输入信号和第二语音输入信号各自的音频频域特征比对进行捂嘴手势识别。本发明能够识别用户语音输入过程中的捂嘴手势,捂嘴手势的不同姿势以及连续变化,以支持丰富的语音输入控制操作。
Description
技术领域
本发明属于人机智能交互技术领域,尤其涉及一种基于音频频域特征的对话过程捂嘴手势识别。
背景技术
手势交互、触控交互和语音交互是当下主要的3种交互方式。语音交互需要用户能进行听和说;触控交互需要用户能和设备进行接触;手势交互需要用户的手能自由移动。但在一些场景下,用户并没有条件进行上述交互行为。以医生为例,可能在他已经对双手进行严格消毒后,仍需要查看病人的相关资料。但是他无法确保,所有的屏幕、X光片、档案等都是干净的。这时如果能通过非接触的手势或语音进行操作,就不会有被污染的风险。
用户一直认为使用语音输入与计算设备进行交互是一种方便自然的交互方法。语音输入可用于多种任务,包括文本输入,通信和发送语音命令。但是,语音输入存在两个主要挑战。首先,用户担心在讲话时泄露其个人信息的隐私风险;其次,在多轮语音输入过程中,他们不方便反复讲起唤醒词或按下按钮。
然而,进行语音交互时,用户需要把指令说出来。这其中最主要的实现技术就是唤醒词。当只有自己一人时,说些什么可能都没有关系。但当人多起来时,尤其是不熟悉的人多起来时,当众说一些东西会让用户觉得自己很傻,并且还涉及到隐私保护的问题。现有技术中所有的语音助手,都还是被动地交谈,你必须给出命令,它们才会应答。例如,智能音箱。当人正在与他人进行交流时,使用语音进行交互是一件打断性非常强的事情。例如几个人聊天聊得正嗨,想要播放音乐或调解灯光来营造气氛,突然来一句“小x同学,播放音乐″会显得很突兀。
为解决上述技术问题,本申请人先前提交了几份专利申请,在如下四个方面上提出了多项新的技术方案:1、基于人类说话时风噪声特征的语音输入触发,具体地,通过识别人说话时候的语音和风噪声音来直接启动语音输入并将接收的声音信号作为语音输入处理;2、基于多个麦克风接收的声音信号的差别的语音输入触发;3、基于低声说话方式识别的语音输入触发;4、基于麦克风的声音信号的距离判断的语音输入触发,相关专利申请公开案号为CN110262767A、CN110223711A、CN110428806A、CN110111776A、CN110097875A、CN110164440A,本文将这几篇专利文献全文并入,作为本公开的内容。
进一步的,中国发明专利申请CN202010198596.6提出能够识别用户捂嘴手势下发声的单耳耳机、智能电子便携设备和语音交互唤醒方法。单耳耳机具有耳内麦克风和耳外麦克风,以及具有一块电路板,电路板上具有存储器和处理器,存储器上存储有计算机可执行指令,计算机可执行指令被处理器执行时能够执行如下操作:接收所述耳内麦克风和耳外麦克风采集的信号;分析耳内麦克风和耳外麦克风采集的信号,识别用户是否在做捂嘴手势的状态下发声。所述识别结果可以触发语音输入。
然而,在实际应用中,申请人发现上述方法还存在进一步改进的空间,尤其是在用单侧捂嘴动作对于同一侧耳机外部麦克风收音能量的减少来做捂嘴动作的识别效率方面,现有技术有待进一步提高。
发明内容
为此,本发明提出基于音频频域特征的对话过程捂嘴手势识别方法和相应的计算机可读存贮介质。本发明的技术方案能够基于两路音频的传递函数(transfer function),更加全面的感知和比较两路音频传播途径的区别,进而识别和分类捂嘴手势,同时利用单耳机实现对是否存在捂嘴手势,捂嘴手势的类型,捂嘴手势的连续变化分别进行了识别。
具体而言,在本发明的第一个方面,提供一种基于音频频域特征的对话过程捂嘴手势识别方法,所述方法应用于基于语音接收组件和移动终端实现的语音输入过程。
所述方法包括如下步骤:
S1:建立所述语音接收组件与所述移动终端的无线通信;
S2:响应于所述移动终端开启语音输入的操作,所述语音接收组件通过第一语音监测通道和第二语音监测通道接收语音输入信号;
S3:所述第一语音监测通道将接收的第一语音输入信号发送至所述移动终端;
S4:所述移动终端基于内置的声纹识别模型判断当前语音输入是否为授权用户输入;
如果是,则进入步骤S5;
如果否,则返回步骤S2;
S5:所述第二语音监测通道将接收的第二语音输入信号发送至所述移动终端;
S6:所述移动终端基于所述第一语音输入信号和所述第二语音输入信号各自的音频频域特征比对,进行所述捂嘴手势识别。
进一步的,所述步骤S4中所述移动终端基于内置的声纹识别模型判断当前语音输入是否为授权用户输入,具体包括:
预先在所述移动终端中注册授权用户正常状态下的声纹特征信号;
将所述第一语音输入信号进行音频频域特征处理后,得到多个音频频域特征;
判断所述音频频域特征与所述声纹特征信号是否满足匹配条件,如果满足,则所述当前语音输入为授权用户输入。
所述步骤S6中所述移动终端基于所述第一语音输入信号和所述第二语音输入信号各自的音频频域特征比对,进行所述捂嘴手势识别,具体包括如下步骤:
S61:通过人声检测算法(Voice Acticity Dection)提取出所述第一语音输入信号和所述第二语音输入信号各自包含用户语音的片段;
S62:将所述第一语音输入信号和所述第二语音输入信号各自包含用户语音的片段对齐,S63:通过傅里叶变换和梅尔倒谱计算方法提取表征音频片段频率特征的特征值,并对于音频片段的平均幅度进行计算;
S64:比较两路音频上述特征的差异,若音量差异以及频率差异超过一定阈值,则判定为用户在语音输入的同时维持了朝向麦克的捂嘴手势。
本发明的上述方法可以通过计算机设备自动化的程序化实现。因此,在本发明的第二个方面,提供一种非易失性计算机可读存贮介质,其上存储有可执行程序指令;通过包含处理器和存储器的终端设备,执行所述程序指令,用于实现前述的一种基于音频频域特征的对话过程捂嘴手势识别方法的部分或者全部步骤。
本发明的优点和关键技术手段至少包括:
利用单耳机实现对是否存在捂嘴手势,捂嘴手势的类型,捂嘴手势的连续变化分别进行了识别,三种不同类型的识别分别有各自的应用场景:
1)识别捂嘴手势的存在,可以简化用户语音输入前的唤醒步骤,用户维持捂嘴手势时的语音输入被识别为对设备的语音输入;改变传感硬件配置,使用单耳机内外耳麦克风进行手势识别。
2)识别捂嘴手势的类型,可以实现对语音输入的参数控制,例如,可以将单侧捂嘴手势映射为语音输入,将拳头捂嘴映射为语音转文字;又如,可以将不同的捂嘴手势映射为不同的对话对象;再如,可以将不同的捂嘴手势映射为不同的语音输入应用。
3)识别捂嘴手势的连续变化,可以实现对语音输入过程的连续参数控制。连续变化体现在捂嘴手势的手部姿态的变化、手部位置的变化以及手部朝向的变化。例如,在单边捂嘴手势的基础上,用户顺时针旋转旋转手部,可以将手部的旋转角度识别为连续变化的变量,用以控制与语音音量等输入参数。
本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的基于音频频域特征的对话过程捂嘴手势识别方法的主体流程图;
图2是图1所述方法部分步骤的进一步实施细节图;
图3是本发明所述方法进行捂嘴手势识别和分类的场景示意图;
图4是本发明所述方法的技术原理图。
具体实施方式
下面,结合附图以及具体实施方式,对发明做出进一步的描述。
图1是本发明一个实施例的基于音频频域特征的对话过程捂嘴手势识别方法的主体流程图。
在图1中,所述方法应用于基于语音接收组件和移动终端实现的语音输入过程,其特征在于,所述方法包括如下步骤:
S1:建立所述语音接收组件与所述移动终端的无线通信;
S2:响应于所述移动终端开启语音输入的操作,所述语音接收组件通过第一语音监测通道和第二语音监测通道接收语音输入信号;
S3:所述第一语音监测通道将接收的第一语音输入信号发送至所述移动终端;
S4:所述移动终端基于内置的声纹识别模型判断当前语音输入是否为授权用户输入;
如果是,则进入步骤S5;
如果否,则返回步骤S2;
S5:所述第二语音监测通道将接收的第二语音输入信号发送至所述移动终端;
S6:所述移动终端基于所述第一语音输入信号和所述第二语音输入信号各自的音频频域特征比对,进行所述捂嘴手势识别。
作为优选,所述移动终端包括手机、平板电脑、可穿戴设备之一或者其组合;所述语音接收组件包括单耳耳机;
所述第一语音监测通道为所述单耳耳机的耳内麦克风。
所述第二语音监测通道为所述单耳耳机的耳外麦克风。
在图1所述的步骤步骤S4中所述移动终端基于内置的声纹识别模型判断当前语音输入是否为授权用户输入,具体包括:
预先在所述移动终端中注册授权用户正常状态下的声纹特征信号;
将所述第一语音输入信号进行音频频域特征处理后,得到多个音频频域特征;
判断所述音频频域特征与所述声纹特征信号是否满足匹配条件,如果满足,则所述当前语音输入为授权用户输入。
基于上述方案,当其他用户在用户附近说话时,上述限定可避免误触发。
此外,在后面的实施例还可以看到,当其他用户在用户附近说话时,还会因为声源位置导致两路音频路径不对称,接受信号音量和频率存在显著差异,而引起算法误触。而本发明基于麦克风收音的传递函数识别,对传播路径及过程进行感知,可以有效避免误触发问题,识别鲁棒性高。在图1基础上,参见图2。
将所述第一语音输入信号进行音频频域特征处理后,得到多个音频频域特征,具体包括如下步骤:
S41:通过高通滤波器对所述第一语音输入信号进行预加重处理,所述高通滤波器的传递函数为:H(z)=1-αz-1,其中,0<α<1;z为传递函数变量;
S42:采用滑动时间窗口对所述进行预加重处理后的第一语音输入信号进行分帧;
所述滑动时间窗口函数表达式如下:
S43:采用谱减法对所述分帧后的序列进行去噪;
S44:对所述去噪后的序列进行端点检测,获取每两个相邻端点之间的音频频域特征。
需要指出的是,步骤S42所采用的滑动时间窗口函数是本发明对于同一侧耳机外部麦克风收音能量的减少来做捂嘴动作的识别效率提高的一个重要改进之一,采用这种改进的滑动时间窗口函数,能够确保相邻帧序列重叠的序列长度D满足如下条件:
即确保重叠长度大于帧长的一半,从而保证准确率与效率替身。
相比之下,目前语音信号分帧常用的窗函数主要有常规的矩形窗函数和汉明窗函数两种,其重叠长度最多为帧长的一半,并且滑动时间窗口函数本身的参数与高通滤波器的传递函数的参数选择不存在关联,二者不相关。
而在本发明的上述实施例中,滑动时间窗口函数本身的参数与高通滤波器的传递函数的参数选择存在强烈的关联性(即α),能够自适应变化,从而使得算法执行速度更快。
该实施例中提到的其他方法,例如谱减降噪,可参见相关现有技术,本实施例不再赘述。
在上述实施例中,所述步骤S6中所述移动终端基于所述第一语音输入信号和所述第二语音输入信号各自的音频频域特征比对,进行所述捂嘴手势识别,具体包括如下步骤:
S61:通过人声检测算法(Voice Acticity Dection)提取出所述第一语音输入信号和所述第二语音输入信号各自包含用户语音的片段;
S62:将所述第一语音输入信号和所述第二语音输入信号各自包含用户语音的片段对齐;
S63:通过傅里叶变换和梅尔倒谱计算方法提取表征音频片段频率特征的特征值,并对于音频片段的平均幅度进行计算;
S64:比较两路音频上述特征的差异,若音量差异以及频率差异超过一定阈值,则判定为用户在语音输入的同时维持了朝向麦克的捂嘴手势。
具体而言,通过采集耳机麦克风的音频信号,基于人声检测截取包含用户输入的语音片段,分析捂嘴手势对音频传播路径的改变在音频信号频域特征上的反应,完成捂嘴手势的识别。基本原理为捂嘴手势的改变了用户语音传播到麦克风的信号通路,比如,捂嘴手势遮挡了部分通路,或者通过反射强化了部分通路,这些影响反应在音频信号的频率特征上。
基于此原理,本发明识别用户语音输入过程中的捂嘴手势,用以区分用户的有意语音输入和无意对话,简化语音界面的唤醒过程,避免误触发;同时,基于语音信号对比,本发明识别捂嘴手势的不同姿势以及连续变化,以支持丰富的语音输入控制操作。
作为更进一步的优选,所述第一语音监测通道为所述单耳耳机的耳内麦克风;所述第二语音监测通道为所述单耳耳机的耳外麦克风;
所述步骤S6中所述移动终端基于所述第一语音输入信号和所述第二语音输入信号各自的音频频域特征比对,进行所述捂嘴手势识别,具体包括如下步骤:
通过计算耳内与耳外麦克风信号路径的传递函数来对用户语音输入过程中是否维持捂嘴手势,以及维持的捂嘴手势类型进行区分和分类。
基于分类结果,将不同的捂嘴手势映射为不同的交互指令,对所述移动终端进行操作控制。
作为进一步的原理性介绍,用户在正常说话以及以不同手势捂嘴的情况下,内耳麦克风接收音频信号的路径及过程稳定不受影响,同时外耳麦克风接收音频信号的路径则由于捂嘴手势对声音的遮挡、反射而显著改变。利用这一显著特点,本发明通过计算内耳与外耳麦克风信号路径的传递函数来对用户语音输入过程中是否维持捂嘴手势,以及维持的捂嘴手势类型进行区分和分类。基于分类结果,本发明可以将不同的捂嘴手势识别为不同的交互指令,完成对语音界面不同交互操作。
分类结果可以基于不同的场景实现,例如不同年龄的用户捂嘴、不同性别的用户捂嘴以及不同姿态手势的捂嘴,图3给出了几种示意性的例子。
更具体的,通过计算音频传播路径的传递函数来识别捂嘴手势对音频产生的影响,进而识别和分类捂嘴手势,并对捂嘴手势的连续姿态变化(位置、朝向、姿态)进行识别和估计。
更详细的,参见图4。算法首先读取内耳和外耳麦克收集到的两路同步音频信号,通过人声检测算法(Voice Acticity Dection)提取出音频中包含用户语音的片段,将两路音频信号的人声片段对齐,随后计算两音频片段的迁移函数,或者迁移函数的参数值作为表征音频信号通路差别的特征值。将上述特征值输入到机器学习模型中,以用户维持捂嘴手势的音频输入作为正例,以用户正常说话数据作为反例,经数据训练后,模型可以输出判别用户当前是否维持捂嘴手势,若是,该音频片段被视为对计算设备的语音输入。
相比于基于整段语音输入特征(音量,梅尔频谱)对比的手势识别方法,本专利通过计算音频传播路径的区别实现对捂嘴手势的识别和分类,对捂嘴手势对语音信号的音箱进行了更加全面的感知,对外部语音干扰有较强的抵抗能力,可以有效避免由于他人在附近说话引起的语音唤醒误触发问题。
具体应用中,使用商用的主动降噪耳机(Active Noise Cancelling,ANC)作为承载技术的硬件设备。ANC耳机默认配有内外耳两个麦克风(为实现主动降噪),因此可以获取单路或者同步的两路音频信号。耳机可通过无线网络,连接线或者蓝牙等连接方式将采集到的音频信号传输给计算设备(如智能手机,增强现实眼镜等),计算设备实现对捂嘴手势的识别和分类,并执行相应交互指令,通过耳机提供对应语音反馈。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.一种基于音频频域特征的对话过程捂嘴手势识别方法,所述方法应用于基于语音接收组件和移动终端实现的语音输入过程,其特征在于,
所述方法包括如下步骤:
S1:建立所述语音接收组件与所述移动终端的无线通信;
S2:响应于所述移动终端开启语音输入的操作,所述语音接收组件通过第一语音监测通道和第二语音监测通道接收语音输入信号;
S3:所述第一语音监测通道将接收的第一语音输入信号发送至所述移动终端;
S4:所述移动终端基于内置的声纹识别模型判断当前语音输入是否为授权用户输入;
如果是,则进入步骤S5;
如果否,则返回步骤S2;
S5:所述第二语音监测通道将接收的第二语音输入信号发送至所述移动终端;
S6:所述移动终端基于所述第一语音输入信号和所述第二语音输入信号各自的音频频域特征比对,进行所述捂嘴手势识别;
其中,所述步骤S6进一步包括:
提取出所述第一语音输入信号和所述第二语音输入信号各自包含用户语音的片段;
计算所述第一语音输入信号和所述第二语音输入信号各自包含用户语音的片段的迁移函数,将所述迁移函数的参数值作为表征音频信号通路差别的特征值;
将上述特征值输入到经数据训练后的机器学习模型中,模型输出判别用户当前是否维持捂嘴手势。
2.如权利要求1所述的一种基于音频频域特征的对话过程捂嘴手势识别方法,其特征在于:
所述移动终端包括手机、平板电脑、可穿戴设备之一或者其组合;
所述语音接收组件包括单耳耳机。
3.如权利要求1所述的一种基于音频频域特征的对话过程捂嘴手势识别方法,其特征在于:
所述步骤S4中所述移动终端基于内置的声纹识别模型判断当前语音输入是否为授权用户输入,具体包括:
预先在所述移动终端中注册授权用户正常状态下的声纹特征信号;
将所述第一语音输入信号进行音频频域特征处理后,得到多个音频频域特征;
判断所述音频频域特征与所述声纹特征信号是否满足匹配条件,如果满足,则所述当前语音输入为授权用户输入。
5.如权利要求1所述的一种基于音频频域特征的对话过程捂嘴手势识别方法,其特征在于:
所述步骤S6中所述移动终端基于所述第一语音输入信号和所述第二语音输入信号各自的音频频域特征比对,进行所述捂嘴手势识别,具体包括如下步骤:
S61:通过人声检测算法(Voice Acticity Dection)提取出所述第一语音输入信号和所述第二语音输入信号各自包含用户语音的片段;
S62:将所述第一语音输入信号和所述第二语音输入信号各自包含用户语音的片段对齐;
S63:通过傅里叶变换和梅尔倒谱计算方法提取表征音频片段频率特征的特征值,并对于音频片段的平均幅度进行计算;
S64:比较两路音频上述特征的差异,若音量差异以及频率差异超过一定阈值,则判定为用户在语音输入的同时维持了朝向麦克的捂嘴手势。
7.如权利要求2所述的一种基于音频频域特征的对话过程捂嘴手势识别方法,其特征在于:
所述第一语音监测通道为所述单耳耳机的耳内麦克风;所述第二语音监测通道为所述单耳耳机的耳外麦克风;
所述步骤S6中所述移动终端基于所述第一语音输入信号和所述第二语音输入信号各自的音频频域特征比对,进行所述捂嘴手势识别,具体包括如下步骤:
通过计算耳内与耳外麦克风信号路径的传递函数来对用户语音输入过程中是否维持捂嘴手势,以及维持的捂嘴手势类型进行区分和分类。
8.如权利要求7所述的一种基于音频频域特征的对话过程捂嘴手势识别方法,其特征在于:
基于分类结果,将不同的捂嘴手势映射为不同的交互指令,对所述移动终端进行操作控制。
9.一种非易失性可读存贮介质,其上存储有可执行程序指令;通过包含处理器和存储器的终端设备,执行所述程序指令,用于实现权利要求1-8任一项所述的一种基于音频频域特征的对话过程捂嘴手势识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011131535.4A CN112259124B (zh) | 2020-10-21 | 2020-10-21 | 基于音频频域特征的对话过程捂嘴手势识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011131535.4A CN112259124B (zh) | 2020-10-21 | 2020-10-21 | 基于音频频域特征的对话过程捂嘴手势识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112259124A CN112259124A (zh) | 2021-01-22 |
CN112259124B true CN112259124B (zh) | 2021-06-15 |
Family
ID=74263868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011131535.4A Active CN112259124B (zh) | 2020-10-21 | 2020-10-21 | 基于音频频域特征的对话过程捂嘴手势识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112259124B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114120603B (zh) * | 2021-11-26 | 2023-08-08 | 歌尔科技有限公司 | 语音控制方法、耳机和存储介质 |
CN114143653B (zh) * | 2021-11-30 | 2024-05-28 | 深圳市科奈信科技有限公司 | 耳机收音模式的切换方法及耳机 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2770750A1 (en) * | 2013-02-25 | 2014-08-27 | Spreadtrum Communications (Shanghai) Co., Ltd. | Detecting and switching between noise reduction modes in multi-microphone mobile devices |
CN104505101A (zh) * | 2014-12-24 | 2015-04-08 | 北京巴越赤石科技有限公司 | 一种实时音频比对方法 |
CN105761728A (zh) * | 2015-12-02 | 2016-07-13 | 中国传媒大学 | 中国典型听觉文化符号特征选择方法 |
CN108872960A (zh) * | 2018-05-09 | 2018-11-23 | 南京航空航天大学 | 用于hrrp目标识别的滑动分帧方法 |
CN110164440A (zh) * | 2019-06-03 | 2019-08-23 | 清华大学 | 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质 |
CN110232933A (zh) * | 2019-06-03 | 2019-09-13 | Oppo广东移动通信有限公司 | 音频检测方法、装置、存储介质及电子设备 |
CN110574103A (zh) * | 2018-06-29 | 2019-12-13 | 华为技术有限公司 | 一种语音控制方法、可穿戴设备及终端 |
CN111028860A (zh) * | 2019-11-22 | 2020-04-17 | 深圳市康冠智能科技有限公司 | 音频数据处理方法、装置、计算机设备以及存储介质 |
CN111432303A (zh) * | 2020-03-19 | 2020-07-17 | 清华大学 | 单耳耳机、智能电子设备、方法和计算机可读介质 |
-
2020
- 2020-10-21 CN CN202011131535.4A patent/CN112259124B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2770750A1 (en) * | 2013-02-25 | 2014-08-27 | Spreadtrum Communications (Shanghai) Co., Ltd. | Detecting and switching between noise reduction modes in multi-microphone mobile devices |
CN104505101A (zh) * | 2014-12-24 | 2015-04-08 | 北京巴越赤石科技有限公司 | 一种实时音频比对方法 |
CN105761728A (zh) * | 2015-12-02 | 2016-07-13 | 中国传媒大学 | 中国典型听觉文化符号特征选择方法 |
CN108872960A (zh) * | 2018-05-09 | 2018-11-23 | 南京航空航天大学 | 用于hrrp目标识别的滑动分帧方法 |
CN110574103A (zh) * | 2018-06-29 | 2019-12-13 | 华为技术有限公司 | 一种语音控制方法、可穿戴设备及终端 |
CN110164440A (zh) * | 2019-06-03 | 2019-08-23 | 清华大学 | 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质 |
CN110232933A (zh) * | 2019-06-03 | 2019-09-13 | Oppo广东移动通信有限公司 | 音频检测方法、装置、存储介质及电子设备 |
CN111028860A (zh) * | 2019-11-22 | 2020-04-17 | 深圳市康冠智能科技有限公司 | 音频数据处理方法、装置、计算机设备以及存储介质 |
CN111432303A (zh) * | 2020-03-19 | 2020-07-17 | 清华大学 | 单耳耳机、智能电子设备、方法和计算机可读介质 |
Non-Patent Citations (2)
Title |
---|
Designing a verbal deaf talker system using mouth gestures;Amro Mukhtar Hassan;《2018 International Conference on Computer, Control, Electrical, and Electronics Engineering (ICCCEEE)》;20181101;全文 * |
低信噪比环境下语音端点检测方法的研究;夏令祥;《中国优秀硕士论文全文数据库》;20190915(第9期);I136-94 * |
Also Published As
Publication number | Publication date |
---|---|
CN112259124A (zh) | 2021-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109671433B (zh) | 一种关键词的检测方法以及相关装置 | |
US10433075B2 (en) | Low latency audio enhancement | |
US11412333B2 (en) | Interactive system for hearing devices | |
WO2021184549A1 (zh) | 单耳耳机、智能电子设备、方法和计算机可读介质 | |
CN108681440A (zh) | 一种智能设备音量控制方法及系统 | |
CN107799126A (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
CN109195042B (zh) | 低功耗的高效降噪耳机及降噪系统 | |
CN112259124B (zh) | 基于音频频域特征的对话过程捂嘴手势识别方法 | |
US20240163612A1 (en) | Method of waking a device using spoken voice commands | |
CN112992169A (zh) | 语音信号的采集方法、装置、电子设备以及存储介质 | |
KR20190015081A (ko) | 자동통역 시스템, 디바이스 및 방법 | |
CN112532266A (zh) | 智能头盔及智能头盔的语音交互控制方法 | |
CN111863020B (zh) | 语音信号处理方法、装置、设备及存储介质 | |
CN111477243B (zh) | 音频信号处理方法及电子设备 | |
CN109756818B (zh) | 双麦克风降噪方法、装置、存储介质及电子设备 | |
WO2022233308A1 (zh) | 佩戴检测方法、可穿戴设备及存储介质 | |
CN112911441A (zh) | 降噪方法、装置、音频设备和计算机可读存储介质 | |
Lezzoum et al. | Voice activity detection system for smart earphones | |
WO2017108142A1 (en) | Linguistic model selection for adaptive automatic speech recognition | |
CN109639908A (zh) | 一种蓝牙耳机、防窃听方法、装置、设备及介质 | |
CN110390953A (zh) | 啸叫语音信号的检测方法、装置、终端及存储介质 | |
CN109754823A (zh) | 一种语音活动检测方法、移动终端 | |
CN113938785A (zh) | 降噪处理方法、装置、设备、耳机及存储介质 | |
CN115810356A (zh) | 语音控制方法、装置、存储介质以及电子设备 | |
CN111182416B (zh) | 处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |