CN110262767A

CN110262767A - 基于靠近嘴部检测的语音输入唤醒装置、方法和介质

Info

Publication number: CN110262767A
Application number: CN201910476243.5A
Authority: CN
Inventors: 喻纯; 史元春; 杨志灿
Original assignee: Tsinghua University
Current assignee: Interactive future (Beijing) Technology Co.,Ltd.
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-09-20
Anticipated expiration: 2039-06-03
Also published as: WO2020244401A1; CN110262767B

Abstract

本发明提供了一种语音输入触发方法和智能电子设备。该触发方法应用于具有传感器系统的智能电子设备。当智能电子设备位于用户的嘴边时，自动激活语音输入。移动设备通过传感器系统捕捉信号，判断智能电子设备是否接近用户嘴部。响应于确定自身位于用户嘴边，激活语音输入。在用户进行语音输入的情况下，传感器系统检测用户嘴部离开智能电子设备的信号，以结束语音输入应用。这适于用户在智能电子设备上进行语音输入，提高了语音输入的收音质量、效率与隐私性，并使得交互更加自然。

Description

基于靠近嘴部检测的语音输入唤醒装置、方法和介质

技术领域

本发明总的来说涉及语音输入领域，且更为具体地，涉及智能电子设备、语音输入触发方法。

背景技术

随着计算机技术的发展，语音识别算法日益成熟，语音输入因其在交互方式上的高自然性与有效性而正变得越来越重要。用户可以通过语音与移动设备(手机、手表等)进行交互，完成指令输入、信息查询、语音聊天等多种任务。

而在何时触发语音输入这一点上，现有的解决方案都有一些缺陷：

1.物理按键触发

按下(或按住)移动设备的某个(或某些)物理按键后，激活语音输入。

该方案的缺点是：需要物理按键；容易误触发；需要用户按键。

2.界面元素触发

点击(或按住)移动设备的屏幕上的界面元素(如图标)，激活语音输入。

该方案的缺点是：需要设备具备屏幕；触发元素占用屏幕内容；受限于软件UI限制，导致触发方式繁琐；容易误触发。

3.唤醒词(语音)检测

以某个特定词语(如产品昵称)为唤醒词，设备检测到对应的唤醒词后激活语音输入。

该方案的缺点是：隐私性和社会性较差；交互效率较低；检测的准确率与语音信号相关，容易在日常对话中误触发。

发明内容

鉴于上述情况，提出了本发明：

当用户将移动设备移动到自己嘴部附近时，自动激活语音输入。

根据本发明的一个方面，提供了一种智能电子设备，包括传感器系统，能够捕捉到从其能判定智能电子设备接近用户嘴部的信号，智能电子设备包括存储器和处理器，存储器上存储有计算机可执行指令，所述计算机可执行指令被处理器执行时可操作来：处理所述信号以确定智能电子设备是否接近用户嘴部，响应于确定自身接近用户嘴部，激活语音输入。

优选的，传感器系统还能够捕捉到从其能判定智能电子设备碰触嘴部附近的脸部部位的信号，智能电子设备处理所述信号以确定是否碰触用户嘴部附近的脸部部位，响应于确定自身碰触用户嘴部附近的脸部部位，确定智能电子设备接近用户嘴部，激活语音输入。

优选的，在确定智能电子设备与用户脸部的距离处于0～10厘米范围内时，智能电子设备确定自身接近用户嘴部。

优选的，所识别的特定姿态包括下面的一种或者多种：智能电子设备接近用户嘴部，但不碰触用户脸部，接近距离为0～3厘米；智能电子设备接近用户嘴部，但不碰触用户脸部，接近距离为3～10厘米；智能电子设备接近用户嘴部，碰触用户脸部，碰触的嘴部附近的脸部部位为鼻子；智能电子设备接近用户嘴部，碰触用户脸部，碰触的嘴部附近的脸部部位为上嘴唇和鼻子之间的部位；智能电子设备接近用户嘴部，碰触用户脸部，智能电子设备所碰触的嘴部附近的脸部部位为下巴；智能电子设备接近用户嘴部，碰触用户脸部，智能电子设备所碰触的嘴部附近的脸部部位为面颊。

优选的，智能电子设备还通过所述传感器信号，识别智能电子设备接近用户嘴部的姿态；响应于识别的特定姿态，智能电子设备以特定的方式处理语音输入。

优选的，智能电子设备响应于确定自身接近用户嘴部，智能电子设备提供图像、声音或者触觉反馈中的至少一种，提示用户进行语音输入。

优选的，在激活语音输入之后，处理所述信号以确定用户嘴部是否离开智能电子设备；响应于确定用户嘴部离开智能电子设备，结束语音输入。

优选的，智能电子设备处理所述信号以确定智能电子设备是否接近用户嘴部包括：计算智能电子设备接近用户嘴部的概率；将所述概率与预定概率阈值相比较，当所述概率大于等于预定概率阈值时，确定智能电子设备接近用户嘴部。

优选的，所述响应于确定自身接近用户嘴部，激活语音输入包括：结合智能电子便携设备自身、用户与环境的情况，判断是否激活语音输入。

优选的，所述结合智能电子便携设备自身、用户与环境的情况，判断是否激活语音输入包括：由声纹判定用户是否是特定的授权用户，在判定用户是特定的授权用户的情况下，激活语音输入。

优选的，传感器系统包括普通摄像头。

优选的，传感器系统包括红外摄像头。

优选的，传感器系统包括深度摄像头。

优选的，传感器系统包接近光传感器。

优选的，传感器系统包括距离传感器。

优选的，传感器系统包括广角摄像头。

优选的，传感器系统包括电容感应传感器。

优选的，传感器系统包括运动传感器。

优选的，所述传感器系统包括摄像头，智能电子设备分析摄像头采集的图像信号，检测图像中是否存在近距离拍摄嘴部附近的脸部部位特征，识别智能电子设备是否接近嘴部。

优选的，传感器系统还包括距离传感器，通过距离传感器信号检测智能电子设备与用户脸部的距离。

优选的，传感器系统还包括接近光传感器，通过接近光传感器信号识别智能电子设备是否接近用户脸部。

优选的，传感器系统还包括电容感应传感器，通过电容感应传感器信号识别智能电子设备是否碰触用户脸部。

优选的，其中智能电子设备通过电容感应传感器信号识别碰触的用户脸部部位。

优选的，智能手机上传感器系统包括加速度计、陀螺仪和接近光传感器；接近光传感器识别智能电子设备前方被遮挡，基于此前的加速度计和陀螺仪的信号识别用户将手机放到嘴边的动作，而非放置到耳朵边的动作。

根据本发明的另一方面，提供了一种智能电子设备的语音输入触发方法，智能电子设备包括传感器系统，能够捕捉到从其能判定智能电子设备接近用户嘴部的信号，所述语音输入触发方法包括：处理所述信号以确定智能电子设备是否接近用户嘴部；响应于确定自身接近用户嘴部，激活语音输入。

优选的，所述传感器系统还能够捕捉到从其能判定智能电子设备碰触嘴部附近的脸部部位的信号，智能电子设备处理所述信号以确定是否碰触用户嘴部附近的脸部部位，响应于确定自身碰触用户嘴部附近的脸部部位，确定智能电子设备接近用户嘴部，激活语音输入。

优选的，语音输入触发方法还包括：通过所述传感器信号，识别智能电子设备接近用户嘴部的姿态；响应于识别的特定姿态，智能电子设备以特定的方式处理语音输入。

优选的，语音输入触发方法还包括：响应于确定自身接近用户嘴部，智能电子设备提供图像、声音或者触觉反馈中的至少一种，提示用户进行语音输入。

优选的，语音输入触发方法还包括在激活语音输入之后，处理所述信号以确定用户嘴部是否离开智能电子设备；响应于确定用户嘴部离开智能电子设备，结束语音输入。

此处的移动设备包括但不限于手机、手表，以及智能戒指、腕表等更小型的智能穿戴设备。

根据本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，所述指令当被计算机执行时，可操作来执行前面任一项所述的方法。

根据本发明实施例的智能电子设备和语音触发方法具有如下优势中的一个或多个：

1.交互更加自然。将设备放在嘴前即触发语音输入，符合用户习惯与认知。

2.使用效率更高。单手即可使用。无需在不同的用户界面/应用之间切换，也不需按住某个按键，直接抬起手到嘴边就能使用。

3.收音质量高。设备的录音机在用户嘴边，收取的语音输入信号清晰，受环境音的影响较小。

4.高隐私性与社会性。设备在嘴前，则用户只需发出相对较小的声音即可完成高质量的语音输入，对他人的干扰较小，同时具有较好的隐私保护。

附图说明

从下面结合附图对本发明实施例的详细描述中，本发明的上述和/或其它目的、特征和优势将变得更加清楚并更容易理解。其中：

图1是根据本发明实施例的语音输入交互方法的示意性流程图。

图2是根据本发明实施例的触发姿势中的上端遮嘴姿势的正面示意图。

图3是根据本发明实施例的触发姿势中的上端遮嘴姿势的侧面示意图。

图4是根据本发明实施例的触发姿势中的碰触鼻子姿势的示意图。

图5是根据本发明实施例的触发姿势中的不碰鼻子姿势的示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

在本文中电子设备接近用户嘴部指的是电子设备与用户嘴部距离在预定距离阈值或者基于概率判定电子设备与用户嘴部接近的概率大于预定概率阈值，包括电子设备接触嘴部附近的脸部部位的触碰情况。判定电子设备与用户嘴部接近的概率大于预定概率阈值包括显式地计算概率，也包括隐式地判断，例如通过深度神经网络来进行自主学习、判定电子设备是否接近用户嘴部。

根据本发明一个实施例，提供了一种智能电子设备，包括传感器系统，能够捕捉到从其能判定智能电子设备接近用户嘴部的信号，智能电子设备包括存储器和处理器，存储器上存储有计算机可执行指令，所述计算机可执行指令被处理器执行时可操作来：处理所述信号以确定智能电子设备是否接近用户嘴部，响应于确定自身接近用户嘴部，激活语音输入。

作为例子而非作为限制，这里的智能电子设备可以是智能手机、智能手表、智能指环等等。

下文中，主要以手机作为智能电子设备的例子。

如图1所示，S101，用户通过将智能电子设备移动到嘴边，以启用语音输入。

图2至图5显示了几例用户将智能电子设备移动到嘴边以触发语音输入的情况。其中，图2与图3分别是触发姿势中的上端遮嘴姿势的正面与侧面示意图。在这种姿势下，用户将手机的上端移动到鼻子与嘴唇之间，也即人中附近，遮挡嘴部。根据不同用户的使用习惯，手机上端既可以顶在人中上，也可以距离脸部1～10厘米。图4与图5分别是触发姿势中的碰触鼻子姿势与不碰鼻子姿势的示意图。上述对触发姿势的说明是示例性的，并非穷尽性的，并且也不限于所披露的各姿势。

在步骤S102中，智能电子设备接收自身的传感器感测的信号，处理所述信号，检测自身被移动到用户嘴前。

在步骤S103中，智能电子设备处理上述传感器检测的信号，以确定智能电子设备是否接近用户嘴部。

当用户将智能电子设备移动到嘴边时，智能电子设备通过自身的各种传感器，检测和识别自身是否被移动到用户嘴边。下面以某几种传感器为例进行说明，其中判断到自身被移动到用户嘴边被解释为用户需要触发语音输入。

需要说明的是，以下所有实施例示例仅从某单个传感器本身出发，给出该传感器预测的概率值，不过这仅为示例，而非作为限制，实际应用中，识别算法很可能会综合传感器系统中的多种传感器结果，给出最终的识别结果。

第一示例传感器系统包括接近传感器和摄像头的情况

接近传感器是替代限位开关等接触式检测方式，以无需接触检测对象进行检测为目的的传感器的总称，接近传感器例如有感应型、静电容量型、超声波型、光电型、磁力型等种类的传感器。

接近传感器的读数值从不接近变更为接近时，例如状态显示变更为接近时，触发采集摄像头图像，通过摄像头图像中是否出现脸部特征，包括鼻子、嘴等判断智能设备是否处于嘴边。

第二示例传感器系统包括加速度计和摄像头的情况

利用加速度计检测到智能设备从运动到静止的状态，触发采集摄像头图像，通过摄像头图像中是否出现脸部特征，包括鼻子、嘴等判断智能设备是否处于嘴边。

第三示例智能手机上传感器系统包括加速度计、陀螺仪和接近光传感器的情况

接近光传感器识别智能设备前方被遮挡，基于此前的加速度计和陀螺仪的信号识别用户将手机放到嘴边的动作，而非放置到耳朵边的动作。

具体地，例如当用户持握智能手机移动到嘴部附近时，智能手机的运动状态为先加速后停止，该模式可以通过加速度计检测；在移动的最后阶段，智能手机是运动方向是近乎垂直于手机平面的，该模式可以通过加速度的方向检测；智能手机整体移动过程中会发生转动和朝向的变化，可以通过陀螺仪检测。

第四示例传感器系统包括摄像头情况

通过前置摄像头拍摄的图像，检测到用户脸部特定特征，如极近距离拍摄到的眼睛、嘴部、皮肤，以及其他物体的特征，如眼镜等时，判断自身位于用户嘴边。

第五示例传感器系统包括电容触摸屏情况

在用户使用如图4所示的碰触鼻子姿势触发语音输入时，智能电子设备会记录下鼻子与屏幕中央的电容图像信号，进而推断出自身位于用户嘴边。

第六示例智能电子设备通过传感器系统检测用户使用设备的姿势。比如，电容屏幕检测到用户鼻子的电容图像与没检测到的即对应为两种不同的姿势(图4和图5)。在不同的姿势下，设备对用户的语音信息进行不同的响应与处理，如在不碰触鼻子时，设备按照自然语言理解并处理用户的语音信息；而在碰触鼻子时，设备则统一按照发送语音消息理解并执行。

第七示例传感器系统包括距离传感器，通过ToF(time of flight)距离传感器信号检测智能电子设备与用户脸部的距离。

在一个示例中，在确定智能电子设备与用户脸部的距离处于0～10厘米范围内时，智能电子设备确定自身接近用户嘴部。

在一个示例中，智能电子设备还通过所述传感器信号，识别智能电子设备接近用户嘴部的姿态；响应于识别到的特定姿态，智能电子设备以特定的方式处理语音输入。

在一个示例中，所识别的特定姿态包括下面的一种或者多种：

智能电子设备接近用户嘴部，但不碰触，接近距离为0～3厘米；

智能电子设备接近用户嘴部，但不碰触，接近距离为3～10厘米；

智能电子设备所碰触的嘴部附近的脸部部位为鼻子；

智能电子设备所碰触的嘴部附近的脸部部位为上嘴唇和鼻子之间的部位；

智能电子设备所碰触的嘴部附近的脸部部位为下巴；

智能电子设备所碰触的嘴部附近的脸部部位为面颊。

在一个示例中，智能电子设备响应于确定自身接近用户嘴部，智能电子设备提供图像、声音或者触觉反馈中的至少一种，提示用户进行语音输入。

在一个示例中，在激活语音输入之后，处理所述信号以确定用户嘴部是否离开智能电子设备，以及响应于确定用户嘴部离开智能电子设备，结束语音输入。

在一个示例中，智能电子设备处理所述信号以确定智能电子设备是否接近用户嘴部包括：计算智能电子设备接近用户嘴部的概率；将所述概率与预定概率阈值相比较，当所述概率大于等于预定概率阈值时，确定智能电子设备接近用户嘴部。

在一个示例中，响应于确定自身接近用户嘴部，激活语音输入包括：结合智能电子便携设备自身、用户与环境的情况，判断是否激活语音输入。

在一个示例中，结合智能电子便携设备自身、用户与环境的情况，判断是否激活语音输入可以包括：由声纹判定用户是否是特定的授权用户，在判定用户是特定的授权用户的情况下，激活语音输入。

作为示例而非作为限制，传感器系统包括下述中的一种或多种：普通摄像头；红外摄像头；深度摄像头；接近光传感器；距离传感器；广角摄像头；电容感应传感器；运动传感器。

在步骤S104中，响应于确定自身接近用户嘴部，智能电子设备直接激活语音输入。在智能电子设备检测到自身移动到用户嘴边，也即用户需要使用语音输入时，智能电子设备激活语音输入，例如开启麦克风录制用户的语音信息。

可选地，智能电子设备可以做出反馈输出，帮助用户确认已可开始语音输入。需要说明的是，这里的反馈输出是向用户通知，语音输入应用已经启动，处于进行录音和解析理解语音的模式下，而并非是向用户来请求输入指令。其中所述反馈输出包括但不限于震动、语音、图像等提示方式：反馈模式是震动时，用户可以通过感受手中智能电子设备的震动获得已开启语音输入的反馈；反馈模式是语音时，设备通过发出短促的提示音或自然语音“请进行语音输入”提示用户；反馈模式是图像时，设备的屏幕会大幅改变屏幕色调，使得用户在极近距离下也能通过余光观察到。用户在接受到相应的反馈后，通过说话的方式对智能电子设备进行语音输入。智能电子设备录制下用户的语音内容，根据任务与上下文的不同，再结合自然语言处理技术理解用户的语音输入并完成相应的任务。

最后，用户将智能电子设备移开嘴边，以结束该次语音输入语音，这种结束语音输入的方式非常自然。检测是否移开嘴边的方法与前述检测接近嘴边的方法相似。

前文中将手机作为智能电子设备的例子，不过智能电子设备并不局限于此，还可以例如为可穿戴式智能电子手表、智能手环、智能戒指等等。

前文中是描述智能电子设备与嘴边接近时，以智能电子设备是便携式的手机为例，说明将手机移动到嘴边，不过此为示例，也可以智能电子设备保持不动，用户主动移动将嘴部靠近智能电子设备，例如在用户开车的状态下，假设智能电子设备固定于方向盘，用户可以主动使得嘴部接近智能电子设备。

利用本发明实施例的智能电子设备，具有以下优势中的一个或多个：

1.交互更加自然。将设备放在嘴前即触发语音输入，而不需要用户进行额外的按下按钮等确认操作，符合用户习惯与认知。

2.使用效率更高。用户单手即可使用，无需在不同的用户界面/应用之间切换，也不需按住某个按键，例如在手机的情况下直接抬起手到嘴边就能使用。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种智能电子设备，包括传感器系统，能够捕捉到从其能判定智能电子设备接近用户嘴部的信号，智能电子设备包括存储器和处理器，存储器上存储有计算机可执行指令，所述计算机可执行指令被处理器执行时可操作来：

处理所述信号以确定智能电子设备是否接近用户嘴部，

响应于确定自身接近用户嘴部，激活语音输入。

2.根据权利要求1的智能电子设备,所述传感器系统还能够捕捉到从其能判定智能电子设备碰触嘴部附近的脸部部位的信号，

智能电子设备处理所述信号以确定是否碰触用户嘴部附近的脸部部位，

响应于确定自身碰触用户嘴部附近的脸部部位，确定智能电子设备接近用户嘴部，激活语音输入。

3.根据权利要求1的智能电子设备，在确定智能电子设备与用户脸部的距离处于0～10厘米范围内时，智能电子设备确定自身接近用户嘴部。

4.根据权利要求1-2的智能电子设备，所识别的特定姿态包括下面的一种或者多种：

智能电子设备接近用户嘴部，但不碰触用户脸部，接近距离为0～3厘米，

智能电子设备接近用户嘴部，但不碰触用户脸部，接近距离为3～10

厘米，

智能电子设备接近用户嘴部，碰触用户脸部，碰触的嘴部附近的脸部部位为鼻子，

智能电子设备接近用户嘴部，碰触用户脸部，碰触的嘴部附近的脸部部位为上嘴唇和鼻子之间的部位，

智能电子设备接近用户嘴部，碰触用户脸部，智能电子设备所碰触的嘴部附近的脸部部位为下巴，

智能电子设备接近用户嘴部，碰触用户脸部，智能电子设备所碰触的嘴部附近的脸部部位为面颊。

5.根据权利要求1-4的智能电子设备，还包括：

通过所述传感器信号，识别智能电子设备接近用户嘴部的姿态；

响应于识别的特定姿态，智能电子设备以特定的方式处理语音输入。

6.根据权利要求1的智能电子设备，还包括：

响应于确定自身接近用户嘴部，智能电子设备提供图像、声音或者触觉反馈中的至少一种，提示用户进行语音输入。

7.根据权利要求1的智能电子设备，在激活语音输入之后，处理所述信号以确定用户嘴部是否离开智能电子设备；

响应于确定用户嘴部离开智能电子设备，结束语音输入。

8.根据权利要求1的智能电子设备，智能电子设备处理所述信号以确定智能电子设备是否接近用户嘴部包括：

计算智能电子设备接近用户嘴部的概率；

将所述概率与预定概率阈值相比较，当所述概率大于等于预定概率阈值时，确定智能电子设备接近用户嘴部。

9.一种智能电子设备的语音输入触发方法，智能电子设备包括传感器系统，能够捕捉到从其能判定智能电子设备接近用户嘴部的信号，所述语音输入触发方法包括：

处理所述信号以确定智能电子设备是否接近用户嘴部，

响应于确定自身接近用户嘴部，激活语音输入。

10.一种计算机可读存储介质，其上存储有计算机可读指令，所述指令当被计算机执行时，可操作来执行权利要求9所述的方法。