CN112259124B

CN112259124B - 基于音频频域特征的对话过程捂嘴手势识别方法

Info

Publication number: CN112259124B
Application number: CN202011131535.4A
Authority: CN
Inventors: 喻纯; 李竹
Original assignee: Interactive Future Beijing Technology Co ltd
Current assignee: Interactive Future Beijing Technology Co ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2021-06-15
Anticipated expiration: 2040-10-21
Also published as: CN112259124A

Abstract

本发明提出基于音频频域特征的对话过程捂嘴手势识别方法，包括如下步骤：S1：建立语音接收组件与移动终端的无线通信；S2：语音接收组件通过第一语音监测通道和第二语音监测通道接收语音输入信号；S3：所述第一语音监测通道将接收的第一语音输入信号发送至所述移动终端；S4：所述移动终端基于内置的声纹识别模型判断当前语音输入是否为授权用户输入S5：第二语音监测通道将接收的第二语音输入信号发送至移动终端；S6：移动终端基于第一语音输入信号和第二语音输入信号各自的音频频域特征比对进行捂嘴手势识别。本发明能够识别用户语音输入过程中的捂嘴手势，捂嘴手势的不同姿势以及连续变化，以支持丰富的语音输入控制操作。

Description

基于音频频域特征的对话过程捂嘴手势识别方法

技术领域

本发明属于人机智能交互技术领域，尤其涉及一种基于音频频域特征的对话过程捂嘴手势识别。

背景技术

手势交互、触控交互和语音交互是当下主要的3种交互方式。语音交互需要用户能进行听和说；触控交互需要用户能和设备进行接触；手势交互需要用户的手能自由移动。但在一些场景下，用户并没有条件进行上述交互行为。以医生为例，可能在他已经对双手进行严格消毒后，仍需要查看病人的相关资料。但是他无法确保，所有的屏幕、X光片、档案等都是干净的。这时如果能通过非接触的手势或语音进行操作，就不会有被污染的风险。

用户一直认为使用语音输入与计算设备进行交互是一种方便自然的交互方法。语音输入可用于多种任务，包括文本输入，通信和发送语音命令。但是，语音输入存在两个主要挑战。首先，用户担心在讲话时泄露其个人信息的隐私风险；其次，在多轮语音输入过程中，他们不方便反复讲起唤醒词或按下按钮。

然而，进行语音交互时，用户需要把指令说出来。这其中最主要的实现技术就是唤醒词。当只有自己一人时，说些什么可能都没有关系。但当人多起来时，尤其是不熟悉的人多起来时，当众说一些东西会让用户觉得自己很傻，并且还涉及到隐私保护的问题。现有技术中所有的语音助手，都还是被动地交谈，你必须给出命令，它们才会应答。例如，智能音箱。当人正在与他人进行交流时，使用语音进行交互是一件打断性非常强的事情。例如几个人聊天聊得正嗨，想要播放音乐或调解灯光来营造气氛，突然来一句“小x同学，播放音乐″会显得很突兀。

为解决上述技术问题，本申请人先前提交了几份专利申请，在如下四个方面上提出了多项新的技术方案：1、基于人类说话时风噪声特征的语音输入触发，具体地，通过识别人说话时候的语音和风噪声音来直接启动语音输入并将接收的声音信号作为语音输入处理；2、基于多个麦克风接收的声音信号的差别的语音输入触发；3、基于低声说话方式识别的语音输入触发；4、基于麦克风的声音信号的距离判断的语音输入触发，相关专利申请公开案号为CN110262767A、CN110223711A、CN110428806A、CN110111776A、CN110097875A、CN110164440A，本文将这几篇专利文献全文并入，作为本公开的内容。

进一步的，中国发明专利申请CN202010198596.6提出能够识别用户捂嘴手势下发声的单耳耳机、智能电子便携设备和语音交互唤醒方法。单耳耳机具有耳内麦克风和耳外麦克风，以及具有一块电路板，电路板上具有存储器和处理器，存储器上存储有计算机可执行指令，计算机可执行指令被处理器执行时能够执行如下操作：接收所述耳内麦克风和耳外麦克风采集的信号；分析耳内麦克风和耳外麦克风采集的信号，识别用户是否在做捂嘴手势的状态下发声。所述识别结果可以触发语音输入。

然而，在实际应用中，申请人发现上述方法还存在进一步改进的空间，尤其是在用单侧捂嘴动作对于同一侧耳机外部麦克风收音能量的减少来做捂嘴动作的识别效率方面，现有技术有待进一步提高。

发明内容

为此，本发明提出基于音频频域特征的对话过程捂嘴手势识别方法和相应的计算机可读存贮介质。本发明的技术方案能够基于两路音频的传递函数(transfer function)，更加全面的感知和比较两路音频传播途径的区别，进而识别和分类捂嘴手势，同时利用单耳机实现对是否存在捂嘴手势，捂嘴手势的类型，捂嘴手势的连续变化分别进行了识别。

具体而言，在本发明的第一个方面，提供一种基于音频频域特征的对话过程捂嘴手势识别方法，所述方法应用于基于语音接收组件和移动终端实现的语音输入过程。

所述方法包括如下步骤：

S1：建立所述语音接收组件与所述移动终端的无线通信；

S2：响应于所述移动终端开启语音输入的操作，所述语音接收组件通过第一语音监测通道和第二语音监测通道接收语音输入信号；

S3：所述第一语音监测通道将接收的第一语音输入信号发送至所述移动终端；

S4：所述移动终端基于内置的声纹识别模型判断当前语音输入是否为授权用户输入；

如果是，则进入步骤S5；

如果否，则返回步骤S2；

S5：所述第二语音监测通道将接收的第二语音输入信号发送至所述移动终端；

S6：所述移动终端基于所述第一语音输入信号和所述第二语音输入信号各自的音频频域特征比对，进行所述捂嘴手势识别。

进一步的，所述步骤S4中所述移动终端基于内置的声纹识别模型判断当前语音输入是否为授权用户输入，具体包括：

预先在所述移动终端中注册授权用户正常状态下的声纹特征信号；

将所述第一语音输入信号进行音频频域特征处理后，得到多个音频频域特征；

判断所述音频频域特征与所述声纹特征信号是否满足匹配条件，如果满足，则所述当前语音输入为授权用户输入。

所述步骤S6中所述移动终端基于所述第一语音输入信号和所述第二语音输入信号各自的音频频域特征比对，进行所述捂嘴手势识别，具体包括如下步骤：

S61：通过人声检测算法(Voice Acticity Dection)提取出所述第一语音输入信号和所述第二语音输入信号各自包含用户语音的片段；

S62：将所述第一语音输入信号和所述第二语音输入信号各自包含用户语音的片段对齐，S63：通过傅里叶变换和梅尔倒谱计算方法提取表征音频片段频率特征的特征值，并对于音频片段的平均幅度进行计算；

S64：比较两路音频上述特征的差异，若音量差异以及频率差异超过一定阈值，则判定为用户在语音输入的同时维持了朝向麦克的捂嘴手势。

本发明的上述方法可以通过计算机设备自动化的程序化实现。因此，在本发明的第二个方面，提供一种非易失性计算机可读存贮介质，其上存储有可执行程序指令；通过包含处理器和存储器的终端设备，执行所述程序指令，用于实现前述的一种基于音频频域特征的对话过程捂嘴手势识别方法的部分或者全部步骤。

本发明的优点和关键技术手段至少包括：

利用单耳机实现对是否存在捂嘴手势，捂嘴手势的类型，捂嘴手势的连续变化分别进行了识别，三种不同类型的识别分别有各自的应用场景：

1)识别捂嘴手势的存在，可以简化用户语音输入前的唤醒步骤，用户维持捂嘴手势时的语音输入被识别为对设备的语音输入；改变传感硬件配置，使用单耳机内外耳麦克风进行手势识别。

2)识别捂嘴手势的类型，可以实现对语音输入的参数控制，例如，可以将单侧捂嘴手势映射为语音输入，将拳头捂嘴映射为语音转文字；又如，可以将不同的捂嘴手势映射为不同的对话对象；再如，可以将不同的捂嘴手势映射为不同的语音输入应用。

3)识别捂嘴手势的连续变化，可以实现对语音输入过程的连续参数控制。连续变化体现在捂嘴手势的手部姿态的变化、手部位置的变化以及手部朝向的变化。例如，在单边捂嘴手势的基础上，用户顺时针旋转旋转手部，可以将手部的旋转角度识别为连续变化的变量，用以控制与语音音量等输入参数。

本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的基于音频频域特征的对话过程捂嘴手势识别方法的主体流程图；

图2是图1所述方法部分步骤的进一步实施细节图；

图3是本发明所述方法进行捂嘴手势识别和分类的场景示意图；

图4是本发明所述方法的技术原理图。

具体实施方式

下面，结合附图以及具体实施方式，对发明做出进一步的描述。

图1是本发明一个实施例的基于音频频域特征的对话过程捂嘴手势识别方法的主体流程图。

在图1中，所述方法应用于基于语音接收组件和移动终端实现的语音输入过程，其特征在于，所述方法包括如下步骤：

S1：建立所述语音接收组件与所述移动终端的无线通信；

如果是，则进入步骤S5；

如果否，则返回步骤S2；

作为优选，所述移动终端包括手机、平板电脑、可穿戴设备之一或者其组合；所述语音接收组件包括单耳耳机；

所述第一语音监测通道为所述单耳耳机的耳内麦克风。

所述第二语音监测通道为所述单耳耳机的耳外麦克风。

在图1所述的步骤步骤S4中所述移动终端基于内置的声纹识别模型判断当前语音输入是否为授权用户输入，具体包括：

基于上述方案，当其他用户在用户附近说话时，上述限定可避免误触发。

此外，在后面的实施例还可以看到，当其他用户在用户附近说话时，还会因为声源位置导致两路音频路径不对称，接受信号音量和频率存在显著差异，而引起算法误触。而本发明基于麦克风收音的传递函数识别，对传播路径及过程进行感知，可以有效避免误触发问题，识别鲁棒性高。在图1基础上，参见图2。

将所述第一语音输入信号进行音频频域特征处理后，得到多个音频频域特征，具体包括如下步骤：

S41：通过高通滤波器对所述第一语音输入信号进行预加重处理，所述高通滤波器的传递函数为：H(z)＝1-αz^-1，其中，0<α<1；z为传递函数变量；

S42：采用滑动时间窗口对所述进行预加重处理后的第一语音输入信号进行分帧；

所述滑动时间窗口函数表达式如下：

N为每一帧的长度；

S43：采用谱减法对所述分帧后的序列进行去噪；

S44：对所述去噪后的序列进行端点检测，获取每两个相邻端点之间的音频频域特征。

需要指出的是，步骤S42所采用的滑动时间窗口函数是本发明对于同一侧耳机外部麦克风收音能量的减少来做捂嘴动作的识别效率提高的一个重要改进之一，采用这种改进的滑动时间窗口函数，能够确保相邻帧序列重叠的序列长度D满足如下条件：

即确保重叠长度大于帧长的一半，从而保证准确率与效率替身。

相比之下，目前语音信号分帧常用的窗函数主要有常规的矩形窗函数和汉明窗函数两种，其重叠长度最多为帧长的一半，并且滑动时间窗口函数本身的参数与高通滤波器的传递函数的参数选择不存在关联，二者不相关。

而在本发明的上述实施例中，滑动时间窗口函数本身的参数与高通滤波器的传递函数的参数选择存在强烈的关联性(即α)，能够自适应变化，从而使得算法执行速度更快。

该实施例中提到的其他方法，例如谱减降噪，可参见相关现有技术，本实施例不再赘述。

在上述实施例中，所述步骤S6中所述移动终端基于所述第一语音输入信号和所述第二语音输入信号各自的音频频域特征比对，进行所述捂嘴手势识别，具体包括如下步骤：

S62：将所述第一语音输入信号和所述第二语音输入信号各自包含用户语音的片段对齐；

S63：通过傅里叶变换和梅尔倒谱计算方法提取表征音频片段频率特征的特征值，并对于音频片段的平均幅度进行计算；

具体而言，通过采集耳机麦克风的音频信号，基于人声检测截取包含用户输入的语音片段，分析捂嘴手势对音频传播路径的改变在音频信号频域特征上的反应，完成捂嘴手势的识别。基本原理为捂嘴手势的改变了用户语音传播到麦克风的信号通路，比如，捂嘴手势遮挡了部分通路，或者通过反射强化了部分通路，这些影响反应在音频信号的频率特征上。

基于此原理，本发明识别用户语音输入过程中的捂嘴手势，用以区分用户的有意语音输入和无意对话，简化语音界面的唤醒过程，避免误触发；同时，基于语音信号对比，本发明识别捂嘴手势的不同姿势以及连续变化，以支持丰富的语音输入控制操作。

作为更进一步的优选，所述第一语音监测通道为所述单耳耳机的耳内麦克风；所述第二语音监测通道为所述单耳耳机的耳外麦克风；

通过计算耳内与耳外麦克风信号路径的传递函数来对用户语音输入过程中是否维持捂嘴手势，以及维持的捂嘴手势类型进行区分和分类。

基于分类结果，将不同的捂嘴手势映射为不同的交互指令，对所述移动终端进行操作控制。

作为进一步的原理性介绍，用户在正常说话以及以不同手势捂嘴的情况下，内耳麦克风接收音频信号的路径及过程稳定不受影响，同时外耳麦克风接收音频信号的路径则由于捂嘴手势对声音的遮挡、反射而显著改变。利用这一显著特点，本发明通过计算内耳与外耳麦克风信号路径的传递函数来对用户语音输入过程中是否维持捂嘴手势，以及维持的捂嘴手势类型进行区分和分类。基于分类结果，本发明可以将不同的捂嘴手势识别为不同的交互指令，完成对语音界面不同交互操作。

分类结果可以基于不同的场景实现，例如不同年龄的用户捂嘴、不同性别的用户捂嘴以及不同姿态手势的捂嘴，图3给出了几种示意性的例子。

更具体的，通过计算音频传播路径的传递函数来识别捂嘴手势对音频产生的影响，进而识别和分类捂嘴手势，并对捂嘴手势的连续姿态变化(位置、朝向、姿态)进行识别和估计。

更详细的，参见图4。算法首先读取内耳和外耳麦克收集到的两路同步音频信号，通过人声检测算法(Voice Acticity Dection)提取出音频中包含用户语音的片段，将两路音频信号的人声片段对齐，随后计算两音频片段的迁移函数，或者迁移函数的参数值作为表征音频信号通路差别的特征值。将上述特征值输入到机器学习模型中，以用户维持捂嘴手势的音频输入作为正例，以用户正常说话数据作为反例，经数据训练后，模型可以输出判别用户当前是否维持捂嘴手势，若是，该音频片段被视为对计算设备的语音输入。

相比于基于整段语音输入特征(音量，梅尔频谱)对比的手势识别方法，本专利通过计算音频传播路径的区别实现对捂嘴手势的识别和分类，对捂嘴手势对语音信号的音箱进行了更加全面的感知，对外部语音干扰有较强的抵抗能力，可以有效避免由于他人在附近说话引起的语音唤醒误触发问题。

具体应用中，使用商用的主动降噪耳机(Active Noise Cancelling,ANC)作为承载技术的硬件设备。ANC耳机默认配有内外耳两个麦克风(为实现主动降噪)，因此可以获取单路或者同步的两路音频信号。耳机可通过无线网络，连接线或者蓝牙等连接方式将采集到的音频信号传输给计算设备(如智能手机，增强现实眼镜等)，计算设备实现对捂嘴手势的识别和分类，并执行相应交互指令，通过耳机提供对应语音反馈。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于音频频域特征的对话过程捂嘴手势识别方法，所述方法应用于基于语音接收组件和移动终端实现的语音输入过程，其特征在于，

所述方法包括如下步骤：

S1：建立所述语音接收组件与所述移动终端的无线通信；

如果是，则进入步骤S5；

如果否，则返回步骤S2；

S6：所述移动终端基于所述第一语音输入信号和所述第二语音输入信号各自的音频频域特征比对，进行所述捂嘴手势识别；

其中，所述步骤S6进一步包括：

提取出所述第一语音输入信号和所述第二语音输入信号各自包含用户语音的片段；

计算所述第一语音输入信号和所述第二语音输入信号各自包含用户语音的片段的迁移函数，将所述迁移函数的参数值作为表征音频信号通路差别的特征值；

将上述特征值输入到经数据训练后的机器学习模型中，模型输出判别用户当前是否维持捂嘴手势。

2.如权利要求1所述的一种基于音频频域特征的对话过程捂嘴手势识别方法，其特征在于：

所述移动终端包括手机、平板电脑、可穿戴设备之一或者其组合；

所述语音接收组件包括单耳耳机。

3.如权利要求1所述的一种基于音频频域特征的对话过程捂嘴手势识别方法，其特征在于：

所述步骤S4中所述移动终端基于内置的声纹识别模型判断当前语音输入是否为授权用户输入，具体包括：

4.如权利要求3所述的一种基于音频频域特征的对话过程捂嘴手势识别方法，其特征在于：

S41：通过高通滤波器对所述第一语音输入信号进行预加重处理，所述高通滤波器的传递函数为：H(z)＝1-αz^-1，其中，0＜α＜1；z为传递函数变量；

所述滑动时间窗口函数表达式如下：

N为每一帧的长度；

S43：采用谱减法对所述分帧后的序列进行去噪；

5.如权利要求1所述的一种基于音频频域特征的对话过程捂嘴手势识别方法，其特征在于：

6.如权利要求4所述的一种基于音频频域特征的对话过程捂嘴手势识别方法，

其特征在于：

所述步骤S42采用滑动时间窗口对所述进行预加重处理后的第一语音输入信号进行分帧后，相邻帧序列重叠的序列长度D满足如下条件：

7.如权利要求2所述的一种基于音频频域特征的对话过程捂嘴手势识别方法，其特征在于：

所述第一语音监测通道为所述单耳耳机的耳内麦克风；所述第二语音监测通道为所述单耳耳机的耳外麦克风；

8.如权利要求7所述的一种基于音频频域特征的对话过程捂嘴手势识别方法，其特征在于：

9.一种非易失性可读存贮介质，其上存储有可执行程序指令；通过包含处理器和存储器的终端设备，执行所述程序指令，用于实现权利要求1-8任一项所述的一种基于音频频域特征的对话过程捂嘴手势识别方法。