CN110164440A - 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质 - Google Patents

基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质 Download PDF

Info

Publication number
CN110164440A
CN110164440A CN201910475947.0A CN201910475947A CN110164440A CN 110164440 A CN110164440 A CN 110164440A CN 201910475947 A CN201910475947 A CN 201910475947A CN 110164440 A CN110164440 A CN 110164440A
Authority
CN
China
Prior art keywords
mouth
user
gesture
hand
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910475947.0A
Other languages
English (en)
Other versions
CN110164440B (zh
Inventor
喻纯
史元春
阎裕康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Interactive Future Beijing Technology Co ltd
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910475947.0A priority Critical patent/CN110164440B/zh
Publication of CN110164440A publication Critical patent/CN110164440A/zh
Priority to US17/616,075 priority patent/US20220319520A1/en
Priority to PCT/CN2020/092190 priority patent/WO2020244410A1/zh
Application granted granted Critical
Publication of CN110164440B publication Critical patent/CN110164440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Abstract

本发明提供了一种捂嘴手势触发的交互方法和智能电子便携设备。该交互方法应用于具有传感器的智能电子便携设备。智能电子便携设备包括传感器系统,能够捕捉到从其能判断用户的手放在用户嘴部做出捂嘴手势的信号,处理所述信号以确定用户将手放在嘴部做出捂嘴手势;响应于确定用户将手放在嘴边做出捂嘴手势,将捂嘴手势作为用户交互输入控制的方式,控制智能电子设备上的程序执行,包括触发相应的控制指令或者触发其他输入方式。该交互方法适用于用户在携带有智能电子设备时简单触发交互指令,用户不必接触智能设备,因此简化交互过程;捂嘴手势在用户进行语音输入等操作时,可以减少对周围他人的干扰,保护用户的隐私,降低用户交互时的心理负担;同时该手势为日常常用手势,学习成本低,交互自然。

Description

基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质
技术领域
本发明总的来说涉及智能电子便携设备的控制及交互方法。
背景技术
随着计算机技术的发展,语音识别算法日益成熟,语音输入因其在交互方式上的高自然性与有效性而正变得越来越重要。用户可以通过语音与移动设备(手机、手表等)进行交互,完成指令输入、信息查询、语音聊天等多种任务。
随着计算机技术的发展,智能电子便携设备日益普及,用户可以通过控制指令控制智能设备,或通过语音,图像等不同模态向智能设备输入进行交互,完成指令输入、信息查询等多种任务。
而在何时触发控制指令及语音等模态的信息输入这一点上,现有的解决方案都有一些缺陷:
1.物理按键触发
按下(或按住)移动设备的某个(或某些)物理按键后,触发特定指令或激活语音等模态的信息输入。
该方案的缺点是:需要物理按键;容易误触发;需要用户按键。
2.界面元素触发
点击(或按住)移动设备的屏幕上的界面元素(如图标),触发指令或激活语音等模态的信息输入。
该方案的缺点是:需要设备具备屏幕;触发元素占用屏幕内容;受限于软件UI限制,可能导致触发方式繁琐;容易误触发。
3.唤醒词(语音)检测
对于语音输入的触发,可以以某个特定词语(如产品昵称)为唤醒词,设备检测到对应的唤醒词后激活语音输入。
该方案的缺点是:隐私性和社会性较差;交互效率较低;用户日常交流过程中内容包含唤醒词,会引起误触发等问题
发明内容
鉴于上述情况,提出了本发明:
根据本发明的一个方面,提供了一种智能电子便携设备,包括传感器系统,能够捕捉到从其能判断用户的手放在用户嘴部做出捂嘴手势的信号,智能电子便携设备包括存储器和处理器,存储器上存储有计算机可执行指令,所述计算机可执行指令被处理器执行时可操作来执行如下交互方法:处理所述信号以确定用户是否将手放在嘴部做出捂嘴手势;响应于确定用户将手放在嘴边做出捂嘴手势,将捂嘴手势作为用户交互输入控制的方式,控制智能电子设备上的程序执行,包括触发相应的控制指令或者触发其他输入方式。
优选的,捂嘴手势区分使用左手做出和使用右手做出。
优选的,捂嘴手势区分手掌相对于嘴部的不同位置,包括手掌处于嘴部到左耳之间,手掌处于嘴部到右耳之间,手掌处于嘴部正前方。
优选的,捂嘴手势区分接触脸部与不接触脸部的手势类别。
优选的,所述捂嘴手势具体手型包括但不限于以下类别:
手掌遮挡住整个嘴部的捂嘴手势;
拇指贴在嘴边,食指贴在嘴唇上方,掌心以下露出嘴部的捂嘴手势;
拇指贴在下颌,食指贴在嘴唇上方,掌心以下露出嘴部的捂嘴手势;
拇指贴在嘴边,尾指接触下颌,掌心以上露出嘴部的捂嘴手势。
优选的,当智能电子设备识别捂嘴手势为预定类别时,执行特定的控制指令。
优选的,执行的控制指令为触发除捂嘴手势外的其它输入方式,即处理其它输入方式输入的信息。
优选的,所述其他输入方式包括语音输入、非捂嘴手势输入、视线输入、眨眼输入、头动输入之一或者其组合。
优选的,处理所述信号以检测用户是否去除捂嘴手势;响应于检测到用户去除捂嘴手势,智能电子设备结束所述交互过程。
优选的,提供包括视觉、听觉任一项反馈,提示用户智能电子设备已经触发其他输入方式。
优选的,触发的其他输入方式为语音输入,智能电子设备对用户在保持捂嘴手势同时进行的语音输入进行处理。
优选的,当所述用于识别捂嘴手势的信号包括用户的语音信号时,智能电子设备将该语音信号当作语音输入进行处理。
优选的,所述智能电子设备为手机,装备有双耳蓝牙耳机,有线耳机或者摄像头中的一种传感器。
优选的,所述智能电子设备为手表、智能戒指、腕表中的一种智能穿戴设备。
优选的,所述智能电子设备为头戴式智能显示设备,装备有麦克风或者多麦克风组。
优选的,所述传感器系统包括下述项目中的一项或者多项:摄像头;红外摄像头;深度摄像头;麦克风;双麦克风组;多麦克风组;接近传感器;以及加速度计。
优选的,所述传感器系统识别所用信号包括摄像头拍摄到的脸部图像。
优选的,在所述信号包括摄像头拍摄到的脸部图像时,在用户做出捂嘴手势后,识别用户的一类或者多类捂嘴手势。
优选的,所述智能电子设备为智能手机,所述摄像头包括智能手机的前置摄像头。
优选的,所述传感器系统识别所用信号的特征包括单麦克风接收到的声音信号的时域特征、频谱特征或声音信号的声源位置特征中的一种或者多种。
优选的,所述麦克风为手机上的麦克风和/或线控耳机上的麦克风。
优选的,所述传感器系统识别所用信号的特征包括多麦克风接收到的声音信号之间的差异特征。
优选的,传感设备是无线蓝牙耳机时,通过左右耳机的信号差异来识别捂嘴手势。
优选的,所述信号为智能戒指上的接近光传感器信号。
根据本发明的另一方面,提供了一种智能电子设备的交互方法,所述智能电子设备包括传感器系统,能够捕捉到用户单手在嘴边并做捂嘴手势的信号,所述智能电子设备执行的交互方法包括:处理所述信号以确定用户单手在嘴边做出捂嘴手势;响应于确定用户将手放在嘴边持续保持捂嘴手势,根据所做捂嘴手势类别、智能设备当前应用的交互内容、用户同时通过其它模态输入的信息,对于用户的交互意图进行解析;根据解析得到的交互意图,智能设备将对于用户的输入信息进行接收,分析及做出相应的内容输出;响应用户捂嘴手势后,在用户与智能设备交互情况下,处理所述信号以确定用户去除捂嘴手势;响应于确定用户去除捂嘴手势,结束所述交互过程。
优选的,内容输出形式包括语音、图像中一种或其组合。
优选的,用户的输入信息除了捂嘴手势本身,还包含用户的其他模态信息。
优选的,所述其他模态信息包括语音或眼神。
根据本发明的另一方面,提供了一种计算机可读介质,其上存储有计算机可执行指令,计算机可执行指令被计算机执行时能够执行前述的语音交互唤醒方法。
根据本发明实施例的技术方案具有以下优势中的一点或多点:
1.交互更加自然。用户做出捂嘴手势即可进行交互,符合用户习惯与认知。
2.使用效率更高。单手即可使用。用户无需操作设备或在不同的用户界面/应用之间切换,不需按住某个按键或者重复说出唤醒词,直接抬起手到嘴边就能使用。
3.高隐私性与社会性。做出捂嘴手势,用户进行语音输入对他人的干扰较小,同时具有较好的隐私保护,降低用户语音输入时的心理负担。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的上述和/或其它目的、特征和优势将变得更加清楚并更容易理解。其中:
图1是根据本发明实施例的语音输入交互方法的示意性流程图。
图2是根据本发明实施例的触发姿势中的右手向左捂嘴的正面示意图。
图3是根据本发明实施例的触发姿势中的右手向左捂嘴的侧面示意图。
图4是根据本发明实施例的触发姿势中的四指不超出鼻子姿势的示意图。
图5是根据本发明实施例的触发姿势中的拇指抵于下巴姿势的示意图。
具体实施方式
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明作进一步详细说明。
首先,对本文中使用的术语进行说明。
摄像头,除非特别指明,本文中的摄像头指普通摄像头,而不包括红外摄像头。
图1是根据本发明实施例的智能电子设备通过识别用户捂嘴手势和去除捂嘴手势来开启和结束与用户交互的交互方法的示意性流程图。智能电子便携设备,包括传感器系统,能够捕捉到从其能判断用户的手放在用户嘴部做出捂嘴手势或去除捂嘴手势的信号。所述传感器系统包括下述项目中的一项或者多项:摄像头、红外摄像头、麦克风、双麦克风组、多麦克风组、接近传感器、加速度计。
这里的交互,可以包括但不限于:语音交互、眼神交互、手势交互等等。
需要说明的是,以语音交互为例,根据本发明实施例,从用户角度,为了进行语音交互,只需要将手放在嘴部做出捂嘴手势,并同时或接着进行语音输入即可,要想结束语音交互,则只需放下手不再捂嘴即可。
如图1所示,S101,处理所述信号以确定用户将手放在嘴部做出捂嘴手势。
作为示例,捂嘴手势区分使用左手做出和使用右手做出。
作为示例,捂嘴手势区分手掌相对于嘴部的不同位置,包括手掌处于嘴部到左耳之间,手掌处于嘴部到右耳之间,手掌处于嘴部正前方。
作为示例,捂嘴手势区分接触脸部与不接触脸部的手势类别。
具体地,捂嘴手势可以包括下面项目中的一个:
用户单手向左侧或者右侧捂嘴;
用户单手接触脸部捂嘴,遮挡住整个嘴部的捂嘴手势;
用户单手接触脸部捂嘴,拇指贴在嘴边,食指接触在嘴唇上方,掌心以下露出嘴部的捂嘴手势;
用户单手接触脸部捂嘴,拇指贴在嘴边,尾指接触下颌,掌心以上露出嘴部的捂嘴手势;
用户单手不接触脸部捂嘴,遮挡住整个嘴部的捂嘴手势;
用户单不手接触脸部捂嘴,拇指贴在嘴边,食指接触在嘴唇上方,掌心以下露出嘴部的捂嘴手势;
用户单手不接触脸部捂嘴,拇指贴在嘴边,尾指接触下颌,掌心以上露出嘴部的捂嘴手势。
图2至图5显示了几例用户将单手放在嘴边并做出捂嘴手势以触发信息输入的情况。其中,图2与图3分别是触发姿势中的左手向右捂嘴的正面与侧面示意图。在这种姿势下,用户将左手放在嘴部左边,伸展手指向左捂嘴,拇指保持向上,其余四指向左在嘴唇上方,鼻子下方位置,即嘴部的上方和左方被左手挡住。根据不同用户的使用习惯,除拇指外其他四指伸展位置可以不超过鼻子右边或者超出,拇指可位于脸侧面或者抵于下巴。图4与图5分别是四指不超出鼻子和拇指抵于下巴的姿势的示意图。与前述左手向右捂嘴姿势相类似,两种姿势拇指及其他四指的位置和伸展程度不同。上述对触发姿势的说明是示例性的,并非穷尽性的,并且也不限于所披露的各姿势。
在步骤S102中,响应于确定用户将手放在嘴边做出捂嘴手势,将捂嘴手势作为用户交互输入控制的方式,控制智能电子设备上的程序执行,包括触发相应的控制指令或者触发其他输入方式。例如,当智能电子设备为智能手机时,通过智能手机的前置摄像头检测到用户将手放在嘴边做出捂嘴手势,触发的控制指令为设置手机静音;另一种设计是当检测到用户将手放在嘴边做出捂嘴手势时,智能手机通过震动方式提示用户已经进入语音输入模式,用户可以通过说话来做语音输入。又例如,智能电子设备还可以为无线耳机,通过分析耳机上的麦克风信号的差异,确定用户将手放在嘴边做出捂嘴手势。
例如,响应于确定用户将手放在嘴边持续保持捂嘴手势,根据所做捂嘴手势类别、智能设备当前应用的交互内容、用户同时通过其它模态输入的信息,对于用户的交互意图进行解析。
换句话说,智能电子设备识别用户做的是哪种捂嘴手势,然后将该捂嘴手势对应到预定的用户意图(指令)(该对应关系可以是根据人类使用习惯来限定的),从而对该指令做出响应。
具体地,当智能电子设备识别捂嘴手势为预定类别时,执行特定的控制指令。
例如,当捂嘴手势为第一预定类别例如向左侧捂嘴的手势时,确定用户意图为语音输入,智能设备对用户在保持捂嘴手势同时进行的语音输入进行接收、分析及做出相应的内容输出。
例如,当捂嘴手势为第二预定类别例如向右侧捂嘴的手势时,确定用户意图为头动输入,智能设备对用户在保持捂嘴手势同时进行的头动输入进行接收、分析及做出相应的内容输出。
例如,当捂嘴手势为第三预定类别例如单手遮挡住整个嘴部的捂嘴手势时,确定用户意图对智能设备执行特定的控制指令,即智能设备识别用户保持捂嘴时,解析为特定的控制指令。
当捂嘴手势区分不同姿势时,比如左手捂嘴、右手捂嘴,确定用户意图对智能设备执行的不同控制指令,智能设备识别用户保持捂嘴时,根据捂嘴手势的不同类别解析为不同的控制指令。
优选地,当前应用不同时,捂嘴手势触发不同的控制指令或触发不同模态类型信息的输入。
优选地,当捂嘴手势区分不同姿势时,比如左手捂嘴、右手捂嘴,每一类手势在不同应用内,触发不同的控制指令或触发不同模态类型信息的输入。所述不同模态类型信息的输入或其他输入方式包括语音输入、非捂嘴手势输入、视线输入、眨眼输入、头动输入之一或者其组合。
作为示例,可以提供包括视觉、听觉任一项反馈,提示用户智能电子设备已经触发其他输入方式。
作为示例,触发的其他输入方式为语音输入,智能电子设备对用户在保持捂嘴手势同时进行的语音输入进行处理。进一步地,当所述用于识别捂嘴手势的信号包括用户的语音信号时,智能电子设备将该语音信号当作语音输入进行处理。
可选地,在响应用户捂嘴手势用户与智能设备交互的过程中,处理所述信号以检测用户是否做出去除捂嘴手势。
响应于检测到用户做出去除捂嘴手势,结束语音所述交互过程。
当用户将单手放在嘴边并做出捂嘴手势时,智能电子便携设备通过自身的各种传感器,检测和识别手的位置及姿势。
下面以某几种智能便携设备及传感器为例进行说明,其中判断用户做出捂嘴手势等同于用户需要触发信息输入。
第一实施例 智能便携设备为手机,传感器系统包括摄像头情况
此时传感器系统识别所用信号包括摄像头拍摄到的脸部图像。在所述信号包括摄像头拍摄到的脸部图像时,在用户做出捂嘴手势后,识别用户的一类或者多类捂嘴手势。
例如,手机配置有前置摄像头,拍摄到用户单手遮挡在嘴边的图像,手机处理图像识别到用户在做单手捂嘴手势,该单手捂嘴手势可被解析为对手机的控制指令,如静音。
第二实施例 智能便携设备为手机,传感器系统包括摄像头,在输入前进行语音提示情况
手机前置摄像头拍摄到用户遮挡在嘴边,判断用户在做单手捂嘴手势。该捂嘴手势可被解析为用户的语音输入意图。耳机(如果用户佩戴)或者手机发出提示音,提示用户可以进行语音输入,用户听到提示音后开始语音输入。
第三实施例 智能便携设备为智能手表或智能戒指或腕表等中的一种智能穿戴设备,传感器系统包括接近传感器和麦克风情况
通过检测位于智能手表或戒指上的接近传感器和麦克风,当接近传感器检测结果为接近同时麦克风接收到语音信号时,判断用户可能在做单手捂嘴手势。
第四实施例 智能便携设备为手机和/或线控耳机,传感器系统包括麦克风情况
通过分析线控麦克风录制的用户语音的特征,如鼻音、语气、音量等,当用户做单手捂嘴手势时,声音经过手的遮挡传入麦克风,声音特征与非遮挡情况在以上方面存在显著区别,可以判断用户是否在做单手捂嘴手势。
传感器系统识别所用信号的特征包括单麦克风接收到的声音信号的时域特征、频谱特征或声音信号的声源位置特征中的一种或者多种
第五实施例 智能便携设备为手机和双蓝牙耳机,传感器系统包括位于双耳的双麦克风组
通过比较两个麦克风接收到的声音信号差异,以左手向右捂嘴为例,由于用户左手处在嘴和左耳之间,阻挡声音从嘴向位于左边的麦克风的传播路径,因此,声音信号传播到左侧和右侧的麦克风时,两侧接收到的声音信号在音量,不同频率能量分布上存在显著差异,可用来判断用户可能在做单手捂嘴手势。
第六实施例 智能便携设备为头戴式显示设备,传感器系统包括多麦克风情况
用户佩戴头戴式显示设备,该设备上在不同位置配有多个麦克风,与第五实施例类似,可通过不同位置采集到的声音信号比较差异,来判断用户是否在做单手捂嘴手势。
第七实施例,使用多传感器信号的组合
用户佩戴智能手表或者戒指等位于手部附近的可穿戴设备,该可穿戴设备配有运动传感器及方向传感器,同时头部戴有智能显示设备或者耳机,该设备或者耳机配有方向传感器。通过分析位于手部的运动传感器信号,识别用户抬手动作,之后分析位于头部及手部的方向传感器信号,计算用户头、手方向关系,当头、手方向关系满足捂嘴手势要求时,比如手掌面与脸部表面基本平行时,激活语音交互。
第八实施例:捂嘴手势与其他模态输入相结合的交互
根据此实施例,除了使用捂嘴手势执行控制指令外还可结合其他模态信息来进行交互。其他模态信息可以包括:用户的语音、头动、眼动之一或者其组合。例如,检测到捂嘴手势之后,触发语音输入,用户通过语音直接控制智能电子设备。又例如,检测到捂嘴手势之后,激活头动输入,用户通过点头动作来做确认操作。如此,捂嘴手势可便捷准确的开启其他模态输入。
在所用信号包括摄像头拍摄到的脸部附近图像时,在用户做出捂嘴手势后,未进行其他模态输入前,通过图像处理识别特定捂嘴手势而识别出用户交互意图。
在一个示例中,在用户未进行其他模态输入前,提供包括视觉、听觉任一项的提示,以确认是否激活其他模态的输入。
第九实施例 使用多传感器信号的组合
其中,智能电子便携设备可使用上述传感器,同时也可包括但不限于麦克风、双/多麦克风组、摄像头、接近传感器等。使用多个传感器信号的组合,可以使得是否激活语音输入的检测与判断的准确率和召回率更高。同时,对各种传感器信号的使用,可以使得本发明能更好地应用在各种智能电子便携设备上,适应更多的使用情况。
需要说明的是,所述传感器系统识别所用信号的特征包括麦克风接收到的声音信号的时域特征、频谱特征或声音信号的声源位置特征中的一种或者多种。
根据本发明的另一实施例,提供了一种智能电子设备的交互方法,所述智能电子设备包括传感器系统,能够捕捉到用户单手在嘴边并做捂嘴手势的信号,所述智能电子设备执行的交互方法包括:处理所述信号以确定用户单手在嘴边做出捂嘴手势;响应于确定用户将手放在嘴边持续保持捂嘴手势,根据所做捂嘴手势类别、智能设备当前应用的交互内容、用户同时通过其它模态输入的信息,对于用户的交互意图进行解析;根据解析得到的交互意图,智能设备将对于用户的输入信息进行接收,分析及做出相应的内容输出;响应用户捂嘴手势后,在用户与智能设备交互情况下,处理所述信号以确定用户去除捂嘴手势;响应于确定用户去除捂嘴手势,结束所述交互过程。
作为示例,内容输出形式可以包括语音、图像中一种或其组合。
用户的输入信息除了捂嘴手势本身,还可以包含用户的其他模态信息或者说其它输入信息。
作为示例,其他模态信息或其他输入信息可以包括语音输入、非捂嘴手势输入、视线输入、眨眼输入、头动输入等或这些的组合。
下面给出一个应用场景举例,以用户携带有智能手机同时佩戴双耳蓝牙耳机同时身处公共场合为例。用户希望通过语音输入查询当天的天气情况,使用本发明,用户将单手放在嘴边做出捂嘴手势,同时说出“今天的天气怎么样?”。通过上述方法智能手机识别到用户单手捂嘴手势及语音输入内容,可以通过耳机提供天气信息的内容输出。如此,用户无需接触手机,或通过手机的界面进行信息查询;无需说出特定唤醒词以唤醒语音交互;同时,捂嘴的手势降低语音输入对于周围他人的干扰,保护用户语音输入的隐私,符合用户日常语言交流的习惯和认知,简单自然。
总结起来,根据本发明实施例的技术方案具有下面优势中的一个或多个:
1.交互更加自然。用户做出捂嘴手势即可进行交互,符合用户习惯与认知。
2.使用效率更高。单手即可使用。用户无需操作设备或在不同的用户界面/应用之间切换,不需按住某个按键或者重复说出唤醒词,直接抬起手到嘴边就能使用。
3.高隐私性与社会性。做出捂嘴手势,用户进行语音输入对他人的干扰较小,同时具有较好的隐私保护,降低用户语音输入时的心理负担。
前面的传感器类型作为示例而非作为限制,概括而言,所述传感器系统包括下述项目中的一项或者多项:摄像头;红外摄像头;深度摄像头;麦克风;双麦克风组;多麦克风组;接近传感器;以及加速度计。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种智能电子便携设备,包括传感器系统,能够捕捉到从其能判断用户的手放在用户嘴部做出捂嘴手势的信号,智能电子便携设备包括存储器和处理器,存储器上存储有计算机可执行指令,所述计算机可执行指令被处理器执行时可操作来执行如下交互方法:
处理所述信号以确定用户是否将手放在嘴部做出捂嘴手势;
响应于确定用户将手放在嘴边做出捂嘴手势,将捂嘴手势作为用户交互输入控制的方式,控制智能电子设备上的程序执行,包括触发相应的控制指令或者触发其他输入方式。
2.根据权利要求1的智能电子便携设备,所述捂嘴手势区分使用左手做出和使用右手做出。
3.根据权利要求1的智能电子设备,所述捂嘴手势区分手掌相对于嘴部的不同位置,包括手掌处于嘴部到左耳之间,手掌处于嘴部到右耳之间,手掌处于嘴部正前方。
4.根据权利要求1的智能电子设备,所述捂嘴手势区分接触脸部与不接触脸部的手势类别。
5.根据权利要求1的智能电子设备,所述捂嘴手势具体手型包括但不限于以下类别:
手掌遮挡住整个嘴部的捂嘴手势;
拇指贴在嘴边,食指贴在嘴唇上方,掌心以下露出嘴部的捂嘴手势;
拇指贴在下颌,食指贴在嘴唇上方,掌心以下露出嘴部的捂嘴手势;
拇指贴在嘴边,尾指接触下颌,掌心以上露出嘴部的捂嘴手势。
6.根据权利要求1-5的智能电子设备,当智能电子设备识别捂嘴手势为预定类别时,执行特定的控制指令。
7.根据权利要求6的智能电子设备,执行的控制指令为触发除捂嘴手势外的其它输入方式,即处理其它输入方式输入的信息。
8.根据权利要求7的智能电子设备,所述其他输入方式包括语音输入、非捂嘴手势输入、视线输入、眨眼输入、头动输入之一或者其组合。
9.一种智能电子设备的语音交互唤醒方法,所述智能电子设备包括传感器系统,能够捕捉到用户单手在嘴边并做捂嘴手势的信号,
所述智能电子设备执行的语音交互唤醒方法包括:
处理所述信号以确定用户单手在嘴边做出捂嘴手势;
响应于确定用户将手放在嘴边持续保持捂嘴手势,根据所做捂嘴手势类别、智能设备当前应用的交互内容、用户同时通过其它模态输入的信息,对于用户的交互意图进行解析;
根据解析得到的交互意图,智能设备将对于用户的输入信息进行接收,分析及做出相应的内容输出;
响应用户捂嘴手势后,在用户与智能设备交互情况下,处理所述信号以确定用户去除捂嘴手势;
响应于确定用户去除捂嘴手势,结束所述交互过程。
10.一种计算机可读介质,其上存储有计算机可执行指令,计算机可执行指令被计算机执行时能够执行权利要求9所述的语音交互唤醒方法。
CN201910475947.0A 2019-06-03 2019-06-03 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质 Active CN110164440B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910475947.0A CN110164440B (zh) 2019-06-03 2019-06-03 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质
US17/616,075 US20220319520A1 (en) 2019-06-03 2020-05-26 Voice interaction wakeup electronic device, method and medium based on mouth-covering action recognition
PCT/CN2020/092190 WO2020244410A1 (zh) 2019-06-03 2020-05-26 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910475947.0A CN110164440B (zh) 2019-06-03 2019-06-03 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质

Publications (2)

Publication Number Publication Date
CN110164440A true CN110164440A (zh) 2019-08-23
CN110164440B CN110164440B (zh) 2022-08-09

Family

ID=67627224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910475947.0A Active CN110164440B (zh) 2019-06-03 2019-06-03 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质

Country Status (3)

Country Link
US (1) US20220319520A1 (zh)
CN (1) CN110164440B (zh)
WO (1) WO2020244410A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866465A (zh) * 2019-10-29 2020-03-06 维沃移动通信有限公司 电子设备的控制方法及电子设备
CN111432303A (zh) * 2020-03-19 2020-07-17 清华大学 单耳耳机、智能电子设备、方法和计算机可读介质
CN111625094A (zh) * 2020-05-25 2020-09-04 北京百度网讯科技有限公司 智能后视镜的交互方法、装置、电子设备和存储介质
WO2020244410A1 (zh) * 2019-06-03 2020-12-10 清华大学 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质
CN112133313A (zh) * 2020-10-21 2020-12-25 交互未来(北京)科技有限公司 基于单耳机语音对话过程捂嘴手势的识别方法
CN112216030A (zh) * 2020-08-31 2021-01-12 厦门宸力科技有限公司 智能服药监测方法、智能服药机、智能服药站和管理系统
CN112259124A (zh) * 2020-10-21 2021-01-22 交互未来(北京)科技有限公司 基于音频频域特征的对话过程捂嘴手势识别方法
CN113191184A (zh) * 2021-03-02 2021-07-30 深兰科技(上海)有限公司 实时视频处理方法、装置、电子设备及存储介质
CN113805691A (zh) * 2020-12-28 2021-12-17 京东科技控股股份有限公司 电子设备的控制方法、装置、电子设备和存储介质
CN114527924A (zh) * 2022-02-16 2022-05-24 珠海读书郎软件科技有限公司 一种基于双屏设备的控制方法、存储介质及设备
CN114915682A (zh) * 2021-02-10 2022-08-16 华为技术有限公司 语音处理方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022125782A (ja) * 2021-02-17 2022-08-29 京セラドキュメントソリューションズ株式会社 電子機器及び画像形成装置
CN116301389B (zh) * 2023-05-17 2023-09-01 广东皮阿诺科学艺术家居股份有限公司 一种基于深度学习的多模态智能家具控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104835059A (zh) * 2015-04-27 2015-08-12 东华大学 一种基于体感交互技术的智能广告投放系统
US20180045982A1 (en) * 2013-03-13 2018-02-15 Kopin Corporation Noise Cancelling Microphone Apparatus
CN108052202A (zh) * 2017-12-11 2018-05-18 深圳市星野信息技术有限公司 一种3d交互方法、装置、计算机设备及存储介质
CN108271078A (zh) * 2018-03-07 2018-07-10 康佳集团股份有限公司 通过手势识别的语音唤醒方法、智能电视及存储介质
CN108304062A (zh) * 2017-01-11 2018-07-20 西门子公司 虚拟环境交互方法、设备和系统
CN108492825A (zh) * 2018-03-12 2018-09-04 陈火 一种语音识别的启动方法、头戴式设备及语音识别系统

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3997392B2 (ja) * 2001-12-13 2007-10-24 セイコーエプソン株式会社 表示装置及び表示装置の入力方法
KR101581883B1 (ko) * 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
EP2524279A1 (en) * 2010-01-14 2012-11-21 BrainLAB AG Gesture support for controlling and/or operating a medical device
DE102011075467A1 (de) * 2011-05-06 2012-11-08 Deckel Maho Pfronten Gmbh Vorrichtung zum bedienen einer automatisierten maschine zur handhabung, montage oder bearbeitung von werkstücken
BR112014015844A8 (pt) * 2011-12-26 2017-07-04 Intel Corp determinação das entradas de áudio e visuais de ocupantes baseada em veículo
JP5998861B2 (ja) * 2012-11-08 2016-09-28 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
DE102013001331A1 (de) * 2013-01-26 2014-07-31 Audi Ag Verfahren zum Betreiben einer Vorrichtung, insbesondere eines Kraftwagens oder eines mobilen Endgeräts, mittels Gestensteuerung und Spracheingabe sowie Vorrichtung
KR102091028B1 (ko) * 2013-03-14 2020-04-14 삼성전자 주식회사 사용자 기기의 오브젝트 운용 방법 및 장치
US9436287B2 (en) * 2013-03-15 2016-09-06 Qualcomm Incorporated Systems and methods for switching processing modes using gestures
US10884493B2 (en) * 2013-06-20 2021-01-05 Uday Parshionikar Gesture based user interfaces, apparatuses and systems using eye tracking, head tracking, hand tracking, facial expressions and other user actions
EP3074954A4 (en) * 2013-11-26 2017-06-14 Yoav Shefi Method and system for constructing a virtual image anchored onto a real-world object
US9971412B2 (en) * 2013-12-20 2018-05-15 Lenovo (Singapore) Pte. Ltd. Enabling device features according to gesture input
CA2979560C (en) * 2015-03-05 2023-11-07 Magic Leap, Inc. Systems and methods for augmented reality
WO2017070121A1 (en) * 2015-10-20 2017-04-27 Magic Leap, Inc. Selecting virtual objects in a three-dimensional space
CN106155311A (zh) * 2016-06-28 2016-11-23 努比亚技术有限公司 Ar头戴设备、ar交互系统及ar场景的交互方法
CN106774917A (zh) * 2016-12-27 2017-05-31 努比亚技术有限公司 终端控制装置、穿戴式设备、终端及终端控制方法
US20200050256A1 (en) * 2017-01-25 2020-02-13 Google Llc Techniques to cause changes in both virtual environment and physical environment
EP3602544A4 (en) * 2017-03-23 2020-02-05 Joyson Safety Systems Acquisition LLC SYSTEM AND METHOD FOR CORRELATION OF MOUTH IMAGES WITH INPUT COMMANDS
CN108181992A (zh) * 2018-01-22 2018-06-19 北京百度网讯科技有限公司 基于手势的语音唤醒方法、装置、设备及计算机可读介质
US10554886B2 (en) * 2018-05-18 2020-02-04 Valve Corporation Power management for optical position tracking devices
US10948993B2 (en) * 2018-06-07 2021-03-16 Facebook, Inc. Picture-taking within virtual reality
US11017217B2 (en) * 2018-10-09 2021-05-25 Midea Group Co., Ltd. System and method for controlling appliances using motion gestures
CN110164440B (zh) * 2019-06-03 2022-08-09 交互未来(北京)科技有限公司 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质
EP3660633A1 (en) * 2019-07-31 2020-06-03 Taurum Technologies SL Hand-worn data-input device
CN111432303B (zh) * 2020-03-19 2023-01-10 交互未来(北京)科技有限公司 单耳耳机、智能电子设备、方法和计算机可读介质
CN112596605A (zh) * 2020-12-14 2021-04-02 清华大学 一种ar眼镜控制方法、装置、ar眼镜及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180045982A1 (en) * 2013-03-13 2018-02-15 Kopin Corporation Noise Cancelling Microphone Apparatus
CN104835059A (zh) * 2015-04-27 2015-08-12 东华大学 一种基于体感交互技术的智能广告投放系统
CN108304062A (zh) * 2017-01-11 2018-07-20 西门子公司 虚拟环境交互方法、设备和系统
CN108052202A (zh) * 2017-12-11 2018-05-18 深圳市星野信息技术有限公司 一种3d交互方法、装置、计算机设备及存储介质
CN108271078A (zh) * 2018-03-07 2018-07-10 康佳集团股份有限公司 通过手势识别的语音唤醒方法、智能电视及存储介质
CN108492825A (zh) * 2018-03-12 2018-09-04 陈火 一种语音识别的启动方法、头戴式设备及语音识别系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020244410A1 (zh) * 2019-06-03 2020-12-10 清华大学 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质
CN110866465A (zh) * 2019-10-29 2020-03-06 维沃移动通信有限公司 电子设备的控制方法及电子设备
WO2021184549A1 (zh) * 2020-03-19 2021-09-23 清华大学 单耳耳机、智能电子设备、方法和计算机可读介质
CN111432303A (zh) * 2020-03-19 2020-07-17 清华大学 单耳耳机、智能电子设备、方法和计算机可读介质
CN111432303B (zh) * 2020-03-19 2023-01-10 交互未来(北京)科技有限公司 单耳耳机、智能电子设备、方法和计算机可读介质
CN111625094A (zh) * 2020-05-25 2020-09-04 北京百度网讯科技有限公司 智能后视镜的交互方法、装置、电子设备和存储介质
CN112216030A (zh) * 2020-08-31 2021-01-12 厦门宸力科技有限公司 智能服药监测方法、智能服药机、智能服药站和管理系统
CN112216030B (zh) * 2020-08-31 2022-02-22 厦门宸力科技有限公司 智能服药监测方法、智能服药机、智能服药站和管理系统
CN112133313A (zh) * 2020-10-21 2020-12-25 交互未来(北京)科技有限公司 基于单耳机语音对话过程捂嘴手势的识别方法
CN112259124A (zh) * 2020-10-21 2021-01-22 交互未来(北京)科技有限公司 基于音频频域特征的对话过程捂嘴手势识别方法
CN112259124B (zh) * 2020-10-21 2021-06-15 交互未来(北京)科技有限公司 基于音频频域特征的对话过程捂嘴手势识别方法
CN113805691A (zh) * 2020-12-28 2021-12-17 京东科技控股股份有限公司 电子设备的控制方法、装置、电子设备和存储介质
CN114915682A (zh) * 2021-02-10 2022-08-16 华为技术有限公司 语音处理方法及装置
CN113191184A (zh) * 2021-03-02 2021-07-30 深兰科技(上海)有限公司 实时视频处理方法、装置、电子设备及存储介质
CN114527924A (zh) * 2022-02-16 2022-05-24 珠海读书郎软件科技有限公司 一种基于双屏设备的控制方法、存储介质及设备

Also Published As

Publication number Publication date
CN110164440B (zh) 2022-08-09
US20220319520A1 (en) 2022-10-06
WO2020244410A1 (zh) 2020-12-10

Similar Documents

Publication Publication Date Title
CN110164440A (zh) 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质
CN107392056A (zh) 终端及儿童模式实现方法、计算机可读存储介质
CN107919123A (zh) 多语音助手控制方法、装置及计算机可读存储介质
CN107786743A (zh) 防止终端误触的方法及装置
WO2018133874A1 (zh) 一种发送报警消息的方法和装置
CN107292158A (zh) 移动终端及模式触发方法、计算机可读存储介质
CN108521505B (zh) 一种来电处理方法及移动终端
CN110097875A (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN106778531A (zh) 人脸定位方法及装置
CN103226436A (zh) 一种智能终端的人机交互方法及系统
CN110428806A (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN110223711A (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN110111776A (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN107623778A (zh) 来电接听方法及移动终端
CN108769410B (zh) 一种信息发送方法及移动终端
CN107704190A (zh) 手势识别方法、装置、终端及存储介质
CN114360527A (zh) 车载语音交互方法、装置、设备及存储介质
CN108920047A (zh) 一种应用程序的控制方法、终端和计算机可读存储介质
CN117130469A (zh) 一种隔空手势识别方法、电子设备及芯片系统
CN106127132B (zh) 滑动式录入指纹的提示方法及装置、电子设备
CN110401806A (zh) 一种移动终端的视频通话方法、移动终端及存储介质
CN110213444A (zh) 移动终端消息的显示方法、装置、移动终端及存储介质
WO2020244401A1 (zh) 基于靠近嘴部检测的语音输入唤醒装置、方法和介质
CN106469003A (zh) 解锁方法和装置
CN107437018A (zh) 移动终端及其控制方法、计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211021

Address after: Room 410, 4th floor, building 9, No. 5 (Xiyuan), Jiuxianqiao South Road, Chaoyang District, Beijing 100016

Applicant after: Interactive future (Beijing) Technology Co.,Ltd.

Address before: 100084 Tsinghua University, Beijing, Haidian District

Applicant before: TSINGHUA University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant