CN116364087A

CN116364087A - 一种提高唤醒率的方法、系统、设备及存储介质

Info

Publication number: CN116364087A
Application number: CN202310207841.9A
Authority: CN
Inventors: 王欢良; 张李; 肖佳林; 王佳珺; 唐浩元; 李霄; 李志�
Original assignee: Suzhou Qimengzhe Technology Co ltd
Current assignee: Suzhou Qimengzhe Technology Co ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-06-30

Abstract

本发明公开了一种提高唤醒率的方法、系统、设备及存储介质，上述的提高唤醒率的系统包括超声波和语音提供模块、超声感知模块、超声定位模块、声源定位模块、目标声源方位确定模块、语音增强模块和语音唤醒模块；本发明通过接收超声波信号后分析超声波的多普勒频移效应来感知所处场景中是否有活动的物体，显著降低了误唤醒率；同时从超声定位模块和声源定位模块中得出目标方位和声源方位，然后将两者融合后得到的目标声源方位更加准确，语音增强效果更好，从而显著提升噪声情况下的唤醒率，避免了盲目的多角度多波束增强，适应性广，符合实际的需求。

Description

一种提高唤醒率的方法、系统、设备及存储介质

技术领域

本发明涉及语音信号处理与视频信号处理技术领域，尤其涉及一种提高唤醒率的方法、系统、设备及存储介质。

背景技术

所谓语音唤醒是指通过说一个唤醒词来激活设备，通常设备处于低功耗休眠状态，当人准备和设备进行交互时，通过说一个唤醒词就可以激活设备，然后开始人机交互，唤醒率实际上是指语音唤醒的成功率。

目前，在有噪声情况下，唤醒率急剧下降，采用麦克风阵列的语音增强是提高唤醒率的一种方法，而麦克风阵列语音增强通常需要预先知道精确的声源方向才能最大限度地增强目标方向语音，但这个在噪声情况下是比较困难的。

现有常规的做法是在空间中同时做多个基于波束的语音增强，然后把增强之后的语音都送入唤醒系统进行唤醒；但是这样做有两个缺点：1)如果波束数目比较多，那么计算量将线性增加；2)如果波束数目比较少，那么目标声源很容易位于波束旁瓣位置，增强效果不明显。

发明内容

本发明目的是为了克服现有技术的不足而提供一种通过超声波感知技术来检测所处场景中是否有活动的物体，降低了误唤醒率看，同时从超声波感知技术中得到的目标声源方位更加准确，语音增强效果更好，提升唤醒率的提高唤醒率的方法、系统、设备及存储介质。

为达到上述目的，本发明采用的技术方案是：一种提高唤醒率的方法，包括如下步骤：

提供超声波信号源和语音信号源；

通过分析接收到的超声波信号的多普勒频移效应来检测环境中是否有活动物体，如果有则进入下一步；否则不唤醒，继续检测；

从接收到的多通道超声波信号中对活动目标进行方位和距离预测，输出目标方位估计值及其置信度；

从接收到的多通道语音信号中对声源方位进行估计，输出声源方位估计值及其置信度；

融合目标方位和声源方位得到最终的目标声源方位，如果存在目标声源，输出目标声源方位，进入下一步骤；否则不唤醒，继续检测；

根据目标声源方位对该方向声音信号进行增强，对其它方向声音信号进行抑制，输出增强后的语音信号；

对接收到的语音信号进行唤醒词检测，如果存在唤醒词，则启动后续动作；否则不唤醒，继续检测。

进一步的，提供超声波信号源和语音信号源的步骤如下：

S11:通过扬声器循环播放预先设计好的线性调频连续超声波信号；

S12:通过麦克风阵列不间断采集空间传播的声音信号，用于同时接收超声波信号。

进一步的，从接收到的多通道超声波信号中对活动目标进行方位和距离预测，输出目标方位估计值及其置信度的步骤如下：

S21:首先对麦克风阵列采集的多通道超声信号进行带通滤波，滤除带外噪声；

S22:去除所有静态传播路径的信号；

S33:去除信号中的负频率成分；

S34:用接收信号乘以伪发射信号；

S35:应用低通滤波器得到移动目标反射波信号，对此信号进行时域波束成型增强；

S36:在设定的窗口信号上通过2D-MUSIC算法获得波达角-距离轮廓图，然后计算给定距离范围内活动目标的方位和距离。

进一步的，从接收到的多通道语音信号中对声源方位进行估计，输出声源方位估计值及其置信度的步骤如下：

S31：对麦克风阵列采集的多通道超声波信号进行低通滤波后得到音频信号；

S32：采用声音活动检测算法检测音频信号中是否包含语音成分，如果不包含语音成分，则输出声源方位为空；否则进入下一步骤；

S33：采用麦克风阵列声源定位算法确定语音声源方位，并输出。

进一步的，融合目标方位和声源方位得到最终的目标声源方位的步骤如下：

S41：如果目标方位估计的置信度大于给定域值TAC1，且声源方位估计的置信度大于给定域值TAC2，进入下一步骤；否则输出不存在目标声源；

S42：如果目标方位估计值TA1和声源方位估计值TA2相差小于给定域值T1，通过下式计算目标声源方位TA并输出：

否则进入下一步骤；

S43：如果目标方位估计置信度大于声源方位置信度，输出目标声源方位TA＝TA1；否则输出目标声源方位TA＝TA2。

进一步的，根据目标声源方位采用波束成型技术对该方向声音信号进行增强。

一种提高唤醒率的系统，该系统包括：

超声波和语音提供模块，用于提供超声波信号源和语音信号源；

超声感知模块，用于通过分析接收到的超声波信号的多普勒频移效应来检测环境中是否有活动物体，如果有则进入下一步；否则不唤醒，继续检测；

超声定位模块，用于从接收到的多通道超声波信号中对活动目标进行方位和距离预测，输出目标方位估计值及其置信度；

声源定位模块，用于从接收到的多通道语音信号中对声源方位进行估计，输出声源方位估计值及其置信度；

目标声源方位确定模块，用于融合目标方位和声源方位得到最终的目标声源方位，如果存在目标声源，输出目标声源方位，进入下一步骤；否则不唤醒，继续检测；

语音增强模块，用于根据目标声源方位对该方向声音信号进行增强，对其它方向声音信号进行抑制，输出增强后的语音信号；

语音唤醒模块，用于对接收到的语音信号进行唤醒词检测，如果存在唤醒词，则启动后续动作；否则不唤醒，继续检测。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

1.超声波感知模块可以通过超声波的多普勒频移效应来感知所处场景中是否有活动的物体，显著降低了误唤醒率。

2.超声定位模块和声源定位模块从超声波和语言信号中得出目标方位和声源方位，然后将两者融合后得到的目标声源方位更加准确，语音增强效果更好，从而显著提升噪声情况下的唤醒率，避免了盲目的多角度多波束增强，在显著降低计算量的情况下，相同误唤醒下明显提高了唤醒率。

附图说明

下面结合附图对本发明技术方案作进一步说明：

图1为本发明实施例提供的一种提高唤醒率的方法的流程图；

图2为本发明实施例提供的一种使用流程示意图；

图3为本发明实施例提供的一种提高唤醒率系统的示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

参阅图1，本发明实施例提供一种提高唤醒率的方法，该方法通过分析接收到的超声波信号的多普勒频移效应来检测环境中是否有活动物体，显著降低了误唤醒，同时通过超声定位和声源定位相融合后得到目标声源，目标声源方位更加准确，语音增强效果更好，从而显著提升噪声情况下的唤醒率，其包括如下步骤：

S1提供超声波信号源和语音信号源；

S2通过分析接收到的超声波信号的多普勒频移效应来检测环境中是否有活动物体，如果有则进入下一步S3；否则不唤醒，继续检测；

S3从接收到的多通道超声波信号中对活动目标进行方位和距离预测，输出目标方位估计值及其置信度；

S4从接收到的多通道语音信号中对声源方位进行估计，输出声源方位估计值及其置信度；

S5融合目标方位和声源方位得到最终的目标声源方位，如果存在目标声源，输出目标声源方位，进入下一步骤S6；否则不唤醒，继续检测；

S6根据目标声源方位对该方向声音信号进行增强，对其它方向声音信号进行抑制，输出增强后的语音信号；

S7对接收到的语音信号进行唤醒词检测，如果存在唤醒词，则启动后续动作；否则不唤醒，继续检测。

本发明实施例在步骤S1中，提供超声波信号源和语音信号源包括如下步骤：

S11:通过扬声器循环播放预先设计好的线性调频连续超声波信号，该信号起至频率为18kHz和22kHz，每个信号时长50ms，具体的起至频率和时长不是唯一的，可以根据硬件和算法以及性能指标来选择设置。

通过上述步骤S1，利用采集到的超声波信号可以得到＝相关的超声波信号和语音信号；其中的语音信号主要是指人的语音和环境噪声；他们和超声波信号处于不同的频带，超声波信号包括扬声器发出的直达超声波和物体反射超声波。

本发明实施例在步骤S2中，通过分析接收到的超声波信号的多普勒频移效应来检测环境中是否有活动物体，具体的，首先从麦克风阵列采集的多通道信号中选择其中一路信号(不失一般性，不妨选择第一通道信号)，然后对该信号进行18kHz～23kHz的带通滤波，最后通过检测多普勒频移来确定是否有活动物体。

本实施例中步骤S2通过检测多普勒频移来确定是否有活动物体，其检测精准度高，明显降低了误唤醒率。

步骤S3包括如下步骤：S31首先对麦克风阵列采集的多通道超声信号进行带通滤波，滤除带外噪声；S22:去除所有静态传播路径的信号；S33:去除信号中的负频率成分；S34:用接收信号乘以伪发射信号；S35:应用低通滤波器得到移动目标反射波信号，对此信号进行时域波束成型增强；S36:在设定的窗口信号上通过2D-MUSIC算法获得波达角-距离轮廓图，然后计算给定距离范围内活动目标的方位和距离。

其中，采用预先训练的RNN模型利用历史窗口的波达角-距离轮廓图信息和当前波达角-距离轮廓图预测输出当前窗口内的目标角度和距离。

步骤S4包括如下步骤：S31：对麦克风阵列采集的多通道超声波信号进行低通滤波后得到音频信号，滤波<8KHz；S32：采用声音活动检测算法检测音频信号中是否包含语音成分，如果不包含语音成分，则输出声源方位为空；否则进入下一步骤；S33：采用麦克风阵列声源定位算法确定语音声源方位，并输出，麦克风阵列声源定位算法包括GCC-PHAT，SRP-PHAT等。

通过上述步骤3和4能精准定位活动目标的方位和距离并确定声源方位。

步骤S5包括如下步骤：S41：如果目标方位估计的置信度大于给定域值TAC1，且声源方位估计的置信度大于给定域值TAC2，进入下一步骤；否则输出不存在目标声源；S42：如果目标方位估计值TA1和声源方位估计值TA2相差小于给定域值T1，通过下式计算目标声源方位TA并输出：

否则进入下一步骤；S43：如果目标方位估计置信度大于声源方位置信度，输出目标声源方位TA＝TA1；否则输出目标声源方位TA＝TA2。

步骤S6中，基于目标声源方位确定模块输出的目标声源方位，对麦克风阵列采集的多通道信号采用波束成型技术(如MVDR，GSC等)对目标声源方位进行信号增强，对其他方位进行噪声抑制处理，最后输出目标方位增强之后的单通道音频信号。

步骤S7中，利用预先训练好的唤醒模型对语音增强模块输出的音频信号进行解码处理，检测是否包含唤醒词；如果包含唤醒词，则启动后续动作；否则继续检测。

对本提高唤醒率的方法进行一个实施例的具体工作流程描述，其工作流程如图2所示：

首先由扬声器发超声后，麦克风阵列采集声音；

接着超声物体活动的检测，如果有物体活动，则进行超声目标定位和语音声源定位；若没有则继续进行超声物体活动的检测；

通过超声目标定位和语音声源定位融合后确定目标声源定位，若目标声源存在，则对目标声源方位做语音增强；

接着进行语音唤醒，如果存在唤醒词，则进行激活单，若不在则继续进行超声物体活动的检测。

综上可知，本发明的提高唤醒率的方法具有如下优点：

1.通过分析接收到的超声波信号的多普勒频移效应来检测环境中是否有活动物体，显著降低了误唤醒率；

2.从超声波信号中得出目标方位和声源方位，然后将两者融合后得到的目标声源方位更加准确，语音增强效果更好，从而显著提升噪声情况下的唤醒率。

参阅图3，本发明另一实施例还提供一种提高唤醒率系统，用于实现前述实施例提供的方法，该系统主要包括：

本发明另一实施例还提供一种电子设备，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

本发明另一实施例还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

以上仅是本发明的具体应用范例，对本发明的保护范围不构成任何限制。凡采用等同变换或者等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种提高唤醒率的方法，其特征在于，包括如下步骤：

提供超声波信号源和语音信号源；

2.如权利要求1所述的提高唤醒率的方法，其特征在于，提供超声波信号源和语音信号源的步骤如下：

3.如权利要求1所述的提高唤醒率的方法，其特征在于，从接收到的多通道超声波信号中对活动目标进行方位和距离预测，输出目标方位估计值及其置信度的步骤如下：

S22:去除所有静态传播路径的信号；

S33:去除信号中的负频率成分；

S34:用接收信号乘以伪发射信号；

4.如权利要求1所述的提高唤醒率的方法，其特征在于，从接收到的多通道语音信号中对声源方位进行估计，输出声源方位估计值及其置信度的步骤如下：

5.如权利要求1所述的提高唤醒率的方法，其特征在于，融合目标方位和声源方位得到最终的目标声源方位的步骤如下：

否则进入下一步骤；

6.如权利要求1所述的提高唤醒率的方法，其特征在于：根据目标声源方位采用波束成型技术对该方向声音信号进行增强。

7.一种提高唤醒率的系统，其特征在于，用于实现权利要求1～6任一项所述的方法，该系统包括：

8.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1～6任一项所述的方法。

9.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1～6任一项所述的方法。