CN110797051A

CN110797051A - 一种唤醒门限设置方法、装置、智能音箱及存储介质

Info

Publication number: CN110797051A
Application number: CN201911033614.9A
Authority: CN
Inventors: 凌华东
Original assignee: Xingluo Intelligent Technology Co Ltd
Current assignee: Xingluo Intelligent Technology Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-02-14

Abstract

本发明公开了一种唤醒门限设置方法、装置、智能音箱及存储介质。本发明中，统计用户声音信号出现在每个预设的声源角度区域内的概率；根据预设唤醒门限值和每个预设的声源角度区域内出现用户声音信号的概率确定每个预设的声源角度区域的唤醒门限值。语音交互设备通常放置在家庭中的固定位置，用户声音信号通常出现在某些固定的角度区域内，根据用户声音信号出现在每个预设的声源角度区域内的概率调整唤醒门限值，使得出现用户声音信号概率较高的角度区域的唤醒门限值低，出现用户声音信号概率较低的角度区域的唤醒门限值高，降低用户声音信号的唤醒门槛，提高非用户声音信号的唤醒门槛，从而兼顾较高的唤醒率和较低的误唤醒率，提升用户体验。

Description

一种唤醒门限设置方法、装置、智能音箱及存储介质

技术领域

本发明涉及语音识别技术领域，特别是涉及一种唤醒门限设置方法、装置、智能音箱及存储介质。

背景技术

随着科技的发展，越来越多的家庭中开始使用具有语音识别功能的语音交互设备，如智能音箱等。在家庭中，语音交互设备通常会拾取到来自电视机或墙面反射的声音，这些非用户期望的声音通常会造成语音交互设备被误唤醒。为了避免语音交互设备被误唤醒，通常会调整唤醒门限，通过提高唤醒门限从而降低误唤醒率，但也同时降低了唤醒率，即同时带来了用户难以唤醒语音交互设备的问题。因此现有的解决语音交互设备被误唤醒的方法无法兼顾较高的唤醒率和较低的误唤醒率，造成用户体验差的问题。

发明内容

本发明主要提供一种唤醒门限设置方法，能够克服现有的解决语音交互设备被误唤醒的方法无法兼顾较高的唤醒率和较低的误唤醒率，造成用户体验差的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种唤醒门限设置方法，所述唤醒门限设置方法应用于语音交互设备，所述唤醒门限设置方法包括：

每当拾取到用户声音信号时，对所述用户声音信号进行语音识别，并确定所述用户声音信号所属的声源角度区域；

对语音识别成功的次数进行计数，以及根据每次所述语音识别成功时所确定的所述用户声音信号所属的声源角度区域，对每个预设的声源角度区域内出现用户声音信号的次数进行计数；

判断所述语音识别成功的次数是否达到预设次数，若是，则根据所述语音识别成功的次数以及每个所述预设的声源角度区域内出现用户声音信号的次数计算每个所述预设的声源角度区域内出现用户声音信号的概率；

根据预设唤醒门限值和每个所述预设的声源角度区域内出现用户声音信号的概率确定每个所述预设的声源角度区域所对应的唤醒门限值。

优选地，所述根据预设唤醒门限值和每个所述预设的声源角度区域内出现用户声音信号的概率确定每个所述预设的声源角度区域所对应的唤醒门限值的步骤具体包括：

根据预设唤醒门限值、每个所述预设的声源角度区域内出现用户声音信号的概率及唤醒门限值计算公式确定每个所述预设的声源角度区域所对应的唤醒门限值；所述唤醒门限值计算公式为：

其中，Fn为每个所述预设的声源角度区域所对应的唤醒门限值；F0为预设唤醒门限值；Fmax为预设最大唤醒门限值；An为每个所述预设的声源角度区域内出现用户声音信号的概率。

优选地，所述唤醒门限设置方法还包括：

预先将360°声源角度范围划分为36个声源角度区域，其中，每10°为一个声源角度区域。

优选地，所述确定所述用户声音信号所属的声源角度区域的步骤具体包括：

根据基于高分辨率谱估计的定位算法或基于波束形成的定位算法或基于到达时间差的定位算法，确定所述用户声音信号所属的声源角度；

根据所述声源角度和预先划分的声源角度区域确定所述用户声音信号所属的声源角度区域。

优选地，所述语音识别成功具体包括：

对所述用户声音信号进行语音识别，并根据所述语音识别结果执行完成相应操作，则所述语音识别成功。

优选地，所述根据所述语音识别成功的次数以及每个所述预设的声源角度区域内出现用户声音信号的次数计算每个所述预设的声源角度区域内出现用户声音信号的概率的步骤具体包括：

计算每个所述预设的声源角度区域内出现用户声音信号的次数与所述语音识别成功的次数的比值；

所述比值为每个所述预设的声源角度区域内出现用户声音信号的概率。

优选地，所述语音交互设备中设置有重力传感器；

当所述重力传感器检测到X轴、Y轴或Z轴的数据变化值超过预设阈值时，重新确定每个所述预设的声源角度区域内出现用户声音信号的概率；

根据重新确定的每个所述预设的声源角度区域内出现用户声音信号的概率重新确定每个所述预设的声源角度区域所对应的唤醒门限值。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种唤醒门限设置装置，所述唤醒门限设置装置包括：

语音识别模块，用于每当拾取到用户声音信号时，对所述用户声音信号进行语音识别，并确定所述用户声音信号所属的声源角度区域；

计数模块，用于对语音识别成功的次数进行计数，以及根据每次所述语音识别成功时所确定的所述用户声音信号所属的声源角度区域，对每个预设的声源角度区域内出现用户声音信号的次数进行计数；

概率统计模块，用于判断所述语音识别成功的次数是否达到预设次数，若是，则根据所述语音识别成功的次数以及每个所述预设的声源角度区域内出现用户声音信号的次数计算每个所述预设的声源角度区域内出现用户声音信号的概率；

唤醒门限设置模块，用于根据预设唤醒门限值和每个所述预设的声源角度区域内出现用户声音信号的概率确定每个所述预设的声源角度区域所对应的唤醒门限值。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种智能音箱，所述智能音箱包括处理器以及存储器，所述处理器耦合所述存储器，所述处理器在工作时执行指令以实现上述的唤醒门限设置方法。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述的唤醒门限设置方法。

本发明的有益效果是：区别于现有技术的情况，本发明中，统计用户声音信号出现在每个预设的声源角度区域内的概率；进而根据预设唤醒门限值和每个预设的声源角度区域内出现用户声音信号的概率确定每个预设的声源角度区域的唤醒门限值。语音交互设备通常放置在家庭中的固定位置，用户声音信号通常出现在某些固定的角度区域内，根据用户声音信号出现在每个预设的声源角度区域内的概率调整唤醒门限值，使得出现用户声音信号概率较高的声源角度区域的唤醒门限值低，出现用户声音信号概率较低的声源角度区域的唤醒门限值较高，降低用户声音信号的唤醒门槛，提高非用户声音信号的唤醒门槛，从而可兼顾较高的唤醒率和较低的误唤醒率，提升用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本发明一实施例提供的唤醒门限设置方法的流程图；

图2是本发明另一实施例提供的唤醒门限设置装置的结构示意图；

图3是本发明另一实施例提供的智能音箱的结构示意图；

图4是本发明另一实施例提供的存储介质的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明一实施例提供的唤醒门限设置方法的流程图，唤醒门限设置方法应用于语音交互设备，语音交互设备可为智能音箱或带有语音交互功能的设备，语音交互设备具有麦克风，唤醒门限设置方法包括步骤S100、步骤S200、步骤S300及步骤S400。

步骤S100：每当拾取到用户声音信号时，对用户声音信号进行语音识别，并确定用户声音信号所属的声源角度区域。

具体地，语音交互设备通过麦克风拾取用户声音信号，每次当拾取到用户声音信号后，则对用户声音信号进行语音识别，并基于现有的声源定位算法确定用户声音信号的声源角度，进而确定用户声音信号所属的声源角度区域。

进一步具体地，预先将360°声源角度范围划分为36个声源角度区域，其中，每10°为一个声源角度区域，如0°-10°为第一声源角度区域，10°-20°为第二声源角度区域，以此类推，将360°声源角度范围划分为36个声源角度区域。基于现有的声源定位算法确定用户声音信号的声源角度，根据该确定的声源角度和预先划分的声源角度区域确定该用户声音信号所属的声源角度区域。其中，现有的声源定位算法包括基于高分辨率谱估计的定位算法、基于波束形成的定位算法及基于到达时间差的定位算法等，基于现有的一种声源定位算法即可确定用户声音信号的声源角度。如基于声源定位算法确定用户声音信号的声源角度为5°，则用户声音信号属于第一声源角度区域(0°-10°)。

步骤S200：对语音识别成功的次数进行计数，以及根据每次语音识别成功时所确定的用户声音信号所属的声源角度区域，对每个预设的声源角度区域内出现用户声音信号的次数进行计数。

具体地，对用户声音信号进行语音识别，根据语音识别结果执行完成相应操作，则语音识别成功，语音交互设备能够根据用户声音信号中所包含的命令执行完成相应操作，则表示语音交互设备对用户声音信号进行了成功识别。

进一步具体地，对语音识别成功次数从零开始计数，每当语音识别成功，则语音识别成功次数加1；在每次语音识别成功时，根据所确定的用户声音信号所属的声源角度区域，相应的预设的声源角度区域内出现用户声音信号的次数计数加1，每个预设的声源角度区域内出现用户声音信号的次数也是从零开始计数，预设的声源角度区域为预先划分的36个声源角度区域。语音识别成功的总次数与所有预设的声源角度区域内出现用户声音信号的次数的总和相等。如：第一次语音识别成功时，确定的用户声音信号所属的声源角度区域为第一声源角度区域，则第一声源角度区域出现用户声音信号的次数加1；当第二次语音识别成功时，确定的用户声音信号所属的声源角度区域为第一声源角度区域，则第一声源角度区域出现用户声音信号的次数再次加1。

步骤S300：判断语音识别成功的次数是否达到预设次数，若是，则根据语音识别成功的次数以及每个预设的声源角度区域内出现用户声音信号的次数计算每个预设的声源角度区域内出现用户声音信号的概率。

具体地，预设次数可设置为100次，判断语音识别成功的次数是否达到100次，若语音识别成功次数达到100次，则根据语音识别成功的次数以及每个预设的声源角度区域内出现用户声音信号的次数计算每个预设的声源角度区域内出现用户声音信号的概率。其中，计算每个预设的声源角度区域内出现用户声音信号的次数与语音识别成功的次数的比值，该比值为每个预设的声源角度区域内出现用户声音信号的概率。如：语音识别成功的次数为100次，第一声源角度区域内出现用户声音信号的次数为40次，第二声源角度区域内出现用户声音信号的次数为60次，则第一声源角度区域内出现用户声音信号的概率为40％，第二声源角度区域内出现用户声音信号的概率为60％，其他声源角度区域内出现用户声音信号的概率均为零。

步骤S400：根据预设唤醒门限值和每个预设的声源角度区域内出现用户声音信号的概率确定每个预设的声源角度区域所对应的唤醒门限值。

具体地，预设唤醒门限值为语音交互设备默认的唤醒门限值，在默认的唤醒门限值的基础上，基于每个预设的声源角度区域内出现用户声音信号的概率，确定每个预设的声源角度区域所对应的唤醒门限值。

进一步具体地，根据预设唤醒门限值、每个预设的声源角度区域内出现用户声音信号的概率及唤醒门限值计算公式确定每个预设的声源角度区域所对应的唤醒门限值；唤醒门限值计算公式为：

其中，F_n为每个预设的声源角度区域所对应的唤醒门限值；F₀为预设唤醒门限值；F_max为预设最大唤醒门限值；A_n为每个预设的声源角度区域内出现用户声音信号的概率。预设的声源角度区域包括36个区域，F_n包括F₁、F₂、F₃……F₃₆，对应地，A_n包括A₁、A₂、A₃……A₃₆，F₀为语音交互设备默认的唤醒门限值，F_max为语音交互设备默认的最大唤醒门限值。

其中，当F₀/A_n的值大于F_max时，F_n取值为F_max；当F₀/A_n的值小于等于F_max时，F_n取值为F₀/A_n。

本发明实施例中，语音交互设备中设置有重力传感器，当重力传感器检测到X轴、Y轴或Z轴的数据变化值超过预设阈值时，根据上述步骤S100、步骤S200及步骤S300重新确定每个预设的声源角度区域内出现用户声音信号的概率，进而根据重新确定的每个预设的声源角度区域内出现用户声音信号的概率以及步骤S400重新确定每个预设的声源角度区域的唤醒门限值。当重力传感器检测到X轴、Y轴或Z轴的数据变化值超过预设阈值时，则表明语音交互设备的放置位置发生变化，预先划分的声源角度区域所对应的空间位置随着发生变化，此时需要重新确定每个预设的声源角度区域内出现用户声音信号的概率，进而重新确定每个预设的声源角度区域的唤醒门限值。

在本发明实施例中，由于电视机声音方向或墙面等方向出现用户声音信号的概率较小甚至为零，将上述角度区域的唤醒门限提高，提高上述角度区域的唤醒难度，则可避免来自上述角度区域的声音误唤醒语音交互设备，降低误唤醒率。同时，将出现用户声音信号概率较高的角度区域的唤醒门限降低，降低该角度区域的唤醒难度，可提高唤醒率。

在本发明实施例中，首先通过多次拾取用户声音信号，并对用户声音信号进行成功识别，统计获取用户声音信号出现在每个预设的声源角度区域内的概率；进而根据预设唤醒门限值和每个预设的声源角度区域内出现用户声音信号的概率确定每个预设的声源角度区域的唤醒门限值。语音交互设备通常放置在家庭中的固定位置，用户声音信号通常出现在某些固定的角度区域内，根据用户声音信号出现在每个预设的声源角度区域内的概率调整唤醒门限值，使得出现用户声音信号概率较高的声源角度区域的唤醒门限值低，出现用户声音信号概率较低的声源角度区域的唤醒门限值较高，降低用户声音信号的唤醒门槛，提高非用户声音信号的唤醒门槛，从而可兼顾较高的唤醒率和较低的误唤醒率，提升用户体验。

实施例二

图2为本发明另一实施例提供的唤醒门限设置装置的结构示意图，唤醒门限设置装置包括语音识别模块100、计数模块200、概率统计模块300及唤醒门限设置模块400。

语音识别模块100用于每当拾取到用户声音信号时，对用户声音信号进行语音识别，并确定用户声音信号所属的声源角度区域.

计数模块200用于对语音识别成功的次数进行计数，以及根据每次语音识别成功时所确定的用户声音信号所属的声源角度区域，对每个预设的声源角度区域内出现用户声音信号的次数进行计数。

概率统计模块300用于判断语音识别成功的次数是否达到预设次数，若是，则根据语音识别成功的次数以及每个预设的声源角度区域内出现用户声音信号的次数计算每个预设的声源角度区域内出现用户声音信号的概率。

唤醒门限设置模块400用于根据预设唤醒门限值和每个所述预设的声源角度区域内出现用户声音信号的概率确定每个所述预设的声源角度区域所对应的唤醒门限值。

本发明实施例提供的唤醒门限设置装置的具体实现与唤醒门限设置方法的具体实现相同，唤醒门限设置装置的具体实现可参阅上述实施例一的描述，在此不再赘述。

实施例三

图3为本发明另一实施例提供的智能音箱的结构示意图，智能音箱包括处理器500以及存储器600，处理器500耦合存储器600，处理器500在工作时执行指令以实现上述任一实施例中的唤醒门限设置方法。

其中，处理器500还可以称为CPU(Central Processing Unit，中央处理单元)。处理器500可能是一种集成电路芯片，具有信号的处理能力。处理器500还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器，但不仅限于此。

实施例四

参阅图4，图4是本发明另一实施例提供的存储介质的示意图，本实施例中的计算机可读存储介质存储有计算机程序700，该计算机程序700能够被处理器500执行以实现上述任一实施例中的唤醒门限设置方法。

可选的，该可读存储介质可以是U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

本发明中，统计用户声音信号出现在每个预设的声源角度区域内的概率；进而根据预设唤醒门限值和每个预设的声源角度区域内出现用户声音信号的概率确定每个预设的声源角度区域的唤醒门限值。语音交互设备通常放置在家庭中的固定位置，用户声音信号通常出现在某些固定的角度区域内，根据用户声音信号出现在每个预设的声源角度区域内的概率调整唤醒门限值，使得出现用户声音信号概率较高的声源角度区域的唤醒门限值低，出现用户声音信号概率较低的声源角度区域的唤醒门限值较高，降低用户声音信号的唤醒门槛，提高非用户声音信号的唤醒门槛，从而可兼顾较高的唤醒率和较低的误唤醒率，提升用户体验。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种唤醒门限设置方法，其特征在于，所述唤醒门限设置方法应用于语音交互设备，所述唤醒门限设置方法包括：

2.根据权利要求1所述的唤醒门限设置方法，其特征在于，所述根据预设唤醒门限值和每个所述预设的声源角度区域内出现用户声音信号的概率确定每个所述预设的声源角度区域所对应的唤醒门限值的步骤具体包括：

其中，F_n为每个所述预设的声源角度区域所对应的唤醒门限值；F₀为预设唤醒门限值；F_max为预设最大唤醒门限值；A_n为每个所述预设的声源角度区域内出现用户声音信号的概率。

3.根据权利要求1所述的唤醒门限设置方法，其特征在于，所述唤醒门限设置方法还包括：

4.根据权利要求3所述的唤醒门限设置方法，其特征在于，所述确定所述用户声音信号所属的声源角度区域的步骤具体包括：

5.根据权利要求1所述的唤醒门限设置方法，其特征在于，所述语音识别成功具体包括：

6.根据权利要求1所述的唤醒门限设置方法，其特征在于，所述根据所述语音识别成功的次数以及每个所述预设的声源角度区域内出现用户声音信号的次数计算每个所述预设的声源角度区域内出现用户声音信号的概率的步骤具体包括：

7.根据权利要求1所述的唤醒门限设置方法，其特征在于，所述语音交互设备中设置有重力传感器；

8.一种唤醒门限设置装置，其特征在于，所述唤醒门限设置装置包括：

9.一种智能音箱，其特征在于，所述智能音箱包括处理器以及存储器，所述处理器耦合所述存储器，所述处理器在工作时执行指令以实现权利要求1～7任一项所述的唤醒门限设置方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行以实现权利要求1～7任一项所述的唤醒门限设置方法。