CN112133313A

CN112133313A - 基于单耳机语音对话过程捂嘴手势的识别方法

Info

Publication number: CN112133313A
Application number: CN202011131532.0A
Authority: CN
Inventors: 喻纯; 李竹
Original assignee: Interactive Future Beijing Technology Co ltd
Current assignee: Interactive Future Beijing Technology Co ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2020-12-25

Abstract

本发明提出基于单耳机语音对话过程捂嘴手势的识别方法，包括如下步骤：通过双模蓝牙通信组件，建立单耳机与交互式移动终端之间的无线连接；通过所述单耳机的第一麦克风通道和第二麦克风通道接收语音输入信号；分析所述第一麦克风通道和第二麦克风通道各自接收的语音输入信号的差异，识别所述语音输入过程中是否存在捂嘴操作；如果存在捂嘴操作，则通过所述双模蓝牙通信组件向所述交互性移动终端发出控制指令。本发明的技术方案可以简化用户进行语音输入时的唤醒过程，在进行语音输入时只需维持单手捂嘴手势，便可免除说唤醒词或者触摸设备等的界面唤醒步骤，同时捂嘴手势可以有效保护用户语音对话过程的隐私，提高交互效率与交互自然性。

Description

基于单耳机语音对话过程捂嘴手势的识别方法

技术领域

本发明属于人机智能交互技术领域，尤其涉及一种基于单耳机语音对话过程捂嘴手势的识别方法。

背景技术

手势交互、触控交互和语音交互是当下主要的3种交互方式。语音交互需要用户能进行听和说；触控交互需要用户能和设备进行接触；手势交互需要用户的手能自由移动。但在一些场景下，用户并没有条件进行上述交互行为。以医生为例，可能在他已经对双手进行严格消毒后，仍需要查看病人的相关资料。但是他无法确保，所有的屏幕、X光片、档案等都是干净的。这时如果能通过非接触的手势或语音进行操作，就不会有被污染的风险。

然而，进行语音交互时，用户需要把指令说出来。这其中最主要的实现技术就是唤醒词。当只有自己一人时，说些什么可能都没有关系。但当人多起来时，尤其是不熟悉的人多起来时，当众说一些东西会让用户觉得自己很傻，并且还涉及到隐私保护的问题。现有技术中所有的语音助手，都还是被动地交谈，你必须给出命令，它们才会应答。例如，智能音箱。当人正在与他人进行交流时，使用语音进行交互是一件打断性非常强的事情。例如几个人聊天聊得正嗨，想要播放音乐或调解灯光来营造气氛，突然来一句″小x同学，播放音乐”会显得很突兀。

为解决上述技术问题，本申请人先前提交了几份专利申请，在如下四个方面上提出了多项新的技术方案：1、基于人类说话时风噪声特征的语音输入触发，具体地，通过识别人说话时候的语音和风噪声音来直接启动语音输入并将接收的声音信号作为语音输入处理；2、基于多个麦克风接收的声音信号的差别的语音输入触发；3、基于低声说话方式识别的语音输入触发；4、基于麦克风的声音信号的距离判断的语音输入触发，相关专利申请公开案号为CN110262767A、CN110223711A、CN110428806A、CN110111776A、CN110097875A、CN110164440A，本文将这几篇专利文献全文并入，作为本公开的内容。

进一步的，中国发明专利申请CN202010198596.6提出能够识别用户捂嘴手势下发声的单耳耳机、智能电子便携设备和语音交互唤醒方法。单耳耳机具有耳内麦克风和耳外麦克风，以及具有一块电路板，电路板上具有存储器和处理器，存储器上存储有计算机可执行指令，计算机可执行指令被处理器执行时能够执行如下操作：接收所述耳内麦克风和耳外麦克风采集的信号；分析耳内麦克风和耳外麦克风采集的信号，识别用户是否在做捂嘴手势的状态下发声。所述识别结果可以触发语音输入。

本申请是针对上述问题的进一步改进型发明，相比于已有的方案，本发明的技术方案进一步解决了用户隐私保护问题，并且简化用户进行语音输入时的唤醒过程，在进行语音输入时只需维持单手捂嘴手势，便可免除说唤醒词或者触摸设备等的界面唤醒步骤，同时捂嘴手势可以有效保护用户语音对话过程的隐私，提高交互效率与交互自然性。

发明内容

本发明提出基于单耳机语音对话过程捂嘴手势的识别方法，包括如下步骤：通过双模蓝牙通信组件，建立单耳机与交互式移动终端之间的无线连接；通过所述单耳机的第一麦克风通道和第二麦克风通道接收语音输入信号；分析所述第一麦克风通道和第二麦克风通道各自接收的语音输入信号的差异，识别所述语音输入过程中是否存在捂嘴操作；如果存在捂嘴操作，则通过所述双模蓝牙通信组件向所述交互性移动终端发出控制指令。

本发明的技术方案可以简化用户进行语音输入时的唤醒过程，在进行语音输入时只需维持单手捂嘴手势，便可免除说唤醒词或者触摸设备等的界面唤醒步骤，同时捂嘴手势可以有效保护用户语音对话过程的隐私，提高交互效率与交互自然性。

具体而言，在本发明的第一个方面，提供一种基于单耳机语音对话过程捂嘴手势的识别方法，所述单耳机与交互式移动终端无线通信；

作为第一个优点，所述单耳机与所述交互式移动终端均配置有双模蓝牙通信组件；

基于所述双模蓝牙通信组件，所述单耳机和所述交互性移动终端进行数据通信和指令交互，完成所述语音对话过程捂嘴手势的识别；

所述识别方法包括如下步骤：

通过所述双模蓝牙通信组件，建立所述单耳机与交互式移动终端之间的无线连接；

通过所述单耳机的第一麦克风通道和第二麦克风通道接收语音输入信号；

分析所述第一麦克风通道和第二麦克风通道各自接收的语音输入信号的差异，识别所述语音输入过程中是否存在捂嘴操作；

如果存在捂嘴操作，则通过所述双模蓝牙通信组件向所述交互性移动终端发出控制指令。

作为本发明第二个优点，所述交互式移动终端包含至少一个存储组件，所述存储组件内置至少一个深度学习模型；

响应于所述单耳机与所述交互式移动终端建立所述无线连接，将所述第一麦克风通道接收的第一语音输入信号发送至所述交互式移动终端；

所述交互式移动终端基于所述深度学习模型对所述第一语音输入信号进行声纹识别；

基于所述声纹识别结果，判断当前用户是否是授权用户。

若所述当前用户不是授权用户，则所述交互性移动终端不执行所述控制指令。

若所述当前用户为授权用户，则读取所述第一麦克风通道接收的第一语音输入信号和所述第二麦克风通道接收的第二语音输入信号；

通过人声检测算法提取出音频中包含用户语音的片段；

将两路音频信号的人声片段对齐，通过傅里叶变换和梅尔倒谱计算方法提取表征两路音频片段频率特征的至少两个特征值；

基于所述至少两个特征值，识别所述语音输入过程中是否存在捂嘴操作。

在本发明的第二个方面，提供一种语音交互控制系统，所述控制系统包括双通道单耳耳机和移动终端，所述双通道单耳机与所述移动终端进行无线连接后，用于实现前述的一种基于单耳机语音对话过程捂嘴手势的识别方法的部分或者全部步骤。

此外，本发明的上述方法可以通过计算机设备自动化的程序化实现。因此，在本发明的第三个方面，提供一种非易失性计算机可读存贮介质，其上存储有可执行程序指令；通过包含处理器和存储器的终端设备，执行所述程序指令，用于实现前述的一种基于单耳机语音对话过程捂嘴手势的识别方法的部分或者全部步骤。

本发明的优点和关键技术手段至少包括：

1)识别捂嘴手势的存在，可以简化用户语音输入前的唤醒步骤，用户维持捂嘴手势时的语音输入被识别为对设备的语音输入，使用单耳机内外耳麦克风进行手势识别。

2)识别捂嘴手势的类型，可以实现对语音输入的参数控制，将不同的捂嘴手势映射为不同的语音输入应用。

3)识别捂嘴手势的连续变化，可以实现对语音输入过程的连续参数控制。

本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是实现本发明所述识别方法的一种语音交互控制系统的示意图；

图2是本发明一个实施例的基于单耳机语音对话过程捂嘴手势的识别方法的主体流程图；

图3是图1所述方法的进一步优选实施例；

图4是用户在正常说话以及以不同手势捂嘴的情况下，内耳麦克风接收到的音频信号示意图。

具体实施方式

下面，结合附图以及具体实施方式，对发明做出进一步的描述。

图1是实现本发明所述识别方法的一种语音交互控制系统的示意图。

图1中示出一种语音交互控制系统，所述控制系统包括双通道单耳耳机和移动终端，所述双通道单耳机与所述移动终端进行无线连接。

更具体的，所述移动终端为可交互性的移动设备，包括手机、便携式电脑、可穿戴设备等。

基于图1所述系统实现语音对话过程捂嘴手势的识别，所述单耳机与交互式移动终端无线通信；所述单耳机与所述交互式移动终端均配置有双模蓝牙通信组件；

基于所述双模蓝牙通信组件，所述单耳机和所述交互性移动终端进行数据通信和指令交互，完成所述语音对话过程捂嘴手势的识别。

需要指出的是，作为本发明的第一个配置，所述双模蓝牙通信组件包含双模蓝牙芯片。

该双模蓝牙芯片包括经典蓝牙模块和低功耗蓝牙模块。经典蓝牙(ClassicBluetooth)模块泛指支持蓝牙协议3.0及以下版本的模块，功耗高、传输数据量大、传输距离只有10米，一般用于语音、音乐等较高数据量近距离传输的场景，如蓝牙耳机、蓝牙音箱等。低功耗蓝牙模块(Bluetooth Low Energy，BLE)，泛指支持蓝牙协议4.0及以上版本的模块，具有低功耗，数据量小，传输速率快，距离50米左右的特点，连接智能手机软件app时使用低功耗蓝牙，如共享单车锁、蓝牙智能锁、蓝牙防丢器、蓝牙室内定位，是目前智能手机和智能硬件通信的性价比最高的手段。低功耗蓝牙的直线通信距离约50米，比WIFI、4G等大数据量的通信协议更实用。

双模蓝牙芯片支持蓝牙所有版本，兼容低功耗蓝牙及经典蓝牙，可以在目前使用标准蓝牙芯片的任何场合使用。本发明实施例要实现语音智能识别，既要传输音频数据又要传输控制指令数据，因此，使用双模蓝牙模块同时支持经典蓝牙模式和低功耗蓝牙模式。

与用户移动终端建立基于双模蓝牙模式的连接关系是指与用户移动终端建立兼容经典蓝牙模式和低功耗蓝牙模式的连接关系，当耳机与用户移动终端之间要进行音频传输时采用经典蓝牙模式，当耳机与用户移动终端之间要进行较少数据量(比如，传输控制消息或指令)传输时采用低功耗蓝牙模式。

在图1基础上，图2是本发明一个实施例的基于单耳机语音对话过程捂嘴手势的识别方法的主体流程图。

图2所述识别方法包括如下步骤：

更具体的，结合图1，所述第一麦克风为耳内麦克风；所述第二麦克风为耳外麦克风。

在图1-图2基础上，参见图3。

所述交互式移动终端包含至少一个存储组件，所述存储组件内置至少一个深度学习模型；预先在所述交互式移动终端中注册至少一个授权用户的语音特征；

基于所述声纹识别结果，判断当前用户是否是授权用户。

通过人声检测算法提取出音频中包含用户语音的片段；

所述预先在所述交互式移动终端中注册至少一个授权用户的语音特征，具体包括：

在正常通话状态下，通过所述第一麦克风通道和第二麦克风通道接收授权用户的正常语音输入信号，将所述正常语音输入信号表示时间变化序列X(n)；

对所述时间变化序列X(n)进行分帧和加窗处理，得到多帧语音数据序列，每一帧语音数据序列的长度为N，对其进行离散傅里叶变换如下：

其中，x_i(m)为经过所述分帧和加窗处理后的第i帧语音数据序列，X_i(k)为x_i(m)对应的离散傅里叶变换结果。

将所述第一麦克风通道接收的第一正常语音输入信号和第二麦克风通道接收的第二正常语音输入信号各自进行端点检测；

基于所述端点检测的结果，对所述第一正常语音输入信号和所述第二正常语音输入信号进行对齐后加权得到所述时间变化序列X(n)。

所述交互式移动终端基于所述深度学习模型对所述第一语音输入信号进行声纹识别，具体包括：

将所述第一语音输入信号进行分帧和加窗处理，得到T帧语音数据序列,T为大于1的正整数，每一帧语音数据序列的长度为N；

对于每一帧语音数据序列，通过谱减法进行去噪处理。

在上述实施例中，本发明同步采集耳机内外两麦克风的音频信号，基于人声检测截取包含用户输入的语音片段，通过对比两路音频的信号差异，完成捂嘴手势的识别。基本原理为内耳麦克主要收集通过用户头部骨骼传入的音频信号，外耳麦克主要收集由外部环境传入的语音信号，因此用户做朝向耳机的捂嘴手势时，手部通过反射用户语音信号使得外耳麦克接受到的信号强度增强，而对内耳麦克风接收到的信号基本无影响，通过比较两麦克音频信号的差异可以识别此通路变化。基于此原理，本发明识别用户语音输入过程中的捂嘴手势，用以区分用户的有意语音输入和无意对话，简化语音界面的唤醒过程，避免误触发；同时，基于语音信号对比，本发明识别捂嘴手势的不同姿势以及连续变化，以支持丰富的语音输入控制操作。

需要指出的是，某些现有技术需要用户双耳佩戴两只耳机，需要处理两路音频的同步问题，同时由于捂嘴手势对两耳机均有影响，该识别方法易受周围其他语音的干扰，如存在其他用户在用户附近说话，由于其到两耳机距离不同，两耳机接收到的信号也存在显著差异，可能引起误触发问题。而本发明基于同一耳机的内外麦克风的信号对比，内耳麦克风不受到外部环境影响，识别鲁棒性高。

为进一步解释本发明的实现方式，参见图4，图4给出了用户在正常说话以及以不同手势捂嘴的情况下，内耳麦克风接收到的音频信号示意图。

可以看到，用户在正常说话以及以不同手势捂嘴的情况下，内耳麦克风接收到的音频信号稳定不受影响，同时外耳麦克风接收到的音频信号则在音量上对应出现明显变化。利用这一显著特点，本发明通过比较内耳与外耳麦克风信号来对用户语音输入过程中是否维持捂嘴手势，以及维持的捂嘴手势类型进行区分和分类。基于分类结果，本发明可以将不同的捂嘴手势识别为不同的交互指令，完成对语音界面不同交互操作。由于已经存在基于两个耳机的外部麦克风和基于单个麦克风的方案，本方案希望能保护捂嘴动作导致的声音反弹能够增大外部麦克风接收到的声音的能量。本方案中的捂嘴动作，不需要捂严，手和嘴部之间可以留出间隙，让声音通过手掌更多的反射到耳机的麦克风上，导致声音能量的增加，从而识别捂嘴动作。

作为一个实例，在具体硬件构成实施中，使用商用的主动降噪耳机(Active NoiseCancelling,ANC)作为承载技术的硬件设备。ANC耳机默认配有内外耳两个麦克风(为实现主动降噪)，因此可以获取同步的两路音频信号。耳机在嵌入式芯片上处理信号，也可通过无线网络，连接线或者蓝牙等连接方式将采集到的音频信号传输给计算设备(如智能手机，增强现实眼镜等)，计算设备实现对捂嘴手势的识别和分类，并执行相应交互指令，通过耳机提供对应语音反馈。

总之，相比于基于两耳机麦克风的手势识别技术，本发明使用单一耳机的内外耳麦克作为捂嘴手势的传感设备，可以在硬件层面实现对两路音频的同步，避免双耳机面临的由于传输过程和算法处理面临的数据同步问题。同时由于内耳麦克仅感知佩戴用户的语音输入，对外部语音干扰有较强的抵抗能力，可以有效避免由于他人在附近说话引起的语音唤醒误触发问题。

进一步的，在实际应用时，利用单耳机实现对是否存在捂嘴手势，捂嘴手势的类型，捂嘴手势的连续变化分别进行了识别，三种不同类型的识别分别有各自的应用场景：

2)识别捂嘴手势的类型，可以实现对语音输入的参数控制，例如，可以将单侧捂嘴手势映射为语音输入，将拳头捂嘴映射为语音转文字；又如，可以将不同的捂嘴手势映射为不同的对话对象；再如，可以将不同的捂嘴手势映射为不同的语音输入应用。

3)识别捂嘴手势的连续变化，可以实现对语音输入过程的连续参数控制。连续变化体现在捂嘴手势的手部姿态的变化、手部位置的变化以及手部朝向的变化。例如，在单边捂嘴手势的基础上，用户顺时针旋转旋转手部，可以将手部的旋转角度识别为连续变化的变量，用以控制与语音音量等输入参数。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于单耳机语音对话过程捂嘴手势的识别方法，所述单耳机与交互式移动终端无线通信；

其特征在于：

所述单耳机与所述交互式移动终端均配置有双模蓝牙通信组件；

所述识别方法包括如下步骤：

2.如权利要求1所述的一种基于单耳机语音对话过程捂嘴手势的识别方法，其特征在于：

所述第一麦克风为耳内麦克风；所述第二麦克风为耳外麦克风。

3.如权利要求1或2所述的一种基于单耳机语音对话过程捂嘴手势的识别方法，其特征在于：

所述交互式移动终端包含至少一个存储组件，所述存储组件内置至少一个深度学习模型；

基于所述声纹识别结果，判断当前用户是否是授权用户。

4.如权利要求3所述的一种基于单耳机语音对话过程捂嘴手势的识别方法，其特征在于：

5.如权利要求3所述的一种基于单耳机语音对话过程捂嘴手势的识别方法，其特征在于：

预先在所述交互式移动终端中注册至少一个授权用户的语音特征；

通过人声检测算法提取出音频中包含用户语音的片段；

6.如权利要求4所述的一种基于单耳机语音对话过程捂嘴手势的识别方法，其特征在于：

7.如权利要求6所述的一种基于单耳机语音对话过程捂嘴手势的识别方法，其特征在于：

8.如权利要求6所述的一种基于单耳机语音对话过程捂嘴手势的识别方法，其特征在于：

对于每一帧语音数据序列，通过谱减法进行去噪处理。

9.一种语音交互控制系统，所述控制系统包括双通道单耳耳机和移动终端，所述双通道单耳机与所述移动终端进行无线连接后，用于实现权利要求1-8任一项所述的识别方法。

10.一种非易失性计算机可读存贮介质，其上存储有可执行程序指令；通过包含处理器和存储器的终端设备，执行所述程序指令，用于实现权利要求1-8任一项所述的基于单耳机语音对话过程捂嘴手势的识别方法。