CN110794368B

CN110794368B - 一种声源定位方法、装置、智能音箱及存储介质

Info

Publication number: CN110794368B
Application number: CN201911031188.5A
Authority: CN
Inventors: 凌华东
Original assignee: Xingluo Intelligent Technology Co Ltd
Current assignee: Xingluo Home Yunwulian Technology Co ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2021-10-19
Anticipated expiration: 2039-10-28
Also published as: CN110794368A

Abstract

本发明公开了一种声源定位方法、装置、智能音箱及存储介质。本发明中，首先通过多次拾取用户声音信号，并对用户声音信号进行成功识别，统计获取用户声音信号出现在每个预设的声源角度区域内的概率；当再次拾取到用户声音信号时，基于声源定位算法获取用户声音信号在多个角度的声源定位计算结果，根据多个角度的声源定位计算结果以及每个预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度。本发明中将用户声音信号出现在每个预设的声源角度区域内的概率考虑进声源定位中，可以避免来自特定角度区域的电视机声音或墙面反射的声音对语音识别的影响，提升语音识别准确率。

Description

一种声源定位方法、装置、智能音箱及存储介质

技术领域

本发明涉及语音识别技术领域，特别是涉及一种声源定位方法、装置、智能音箱及存储介质。

背景技术

随着科技的发展，越来越多的家庭中开始使用具有语音识别功能的智能音箱设备，在家庭中，用户通常会将智能音箱放置在电视柜上电视机旁，或者放置在靠墙位置，当智能音箱放置在上述位置，用户与智能音箱进行语音交互时，由于电视声音的影响或墙面对用户声音的反射，造成智能音箱不能准确地定位用户声源，进而无法进行准确地语音识别，影响语音识别准确率。

发明内容

本发明主要提供一种声源定位方法，能够克服现有的智能音箱因放置在电视机旁或墙面附近，受电视机声音或墙面对声音反射的影响，导致无法准确定位用户声源，影响语音识别的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种声源定位方法，所述声源定位方法应用于语音交互设备，所述声源定位方法包括：

每当拾取到用户声音信号时，对所述用户声音信号进行语音识别，并确定所述用户声音信号所属的声源角度区域；

对语音识别成功的次数进行计数，以及根据每次所述语音识别成功时所确定的所述用户声音信号所属的声源角度区域，对每个预设的声源角度区域内出现用户声音信号的次数进行计数；

判断所述语音识别成功的次数是否达到预设次数，若是，则根据所述语音识别成功的次数以及每个所述预设的声源角度区域内出现用户声音信号的次数计算每个所述预设的声源角度区域内出现用户声音信号的概率；

当再次拾取到用户声音信号时，基于声源定位算法获取所述用户声音信号在多个角度的声源定位计算结果，根据多个角度的所述声源定位计算结果以及每个所述预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度。

优选地，所述声源定位方法还包括：

预先将360°声源角度范围划分为36个声源角度区域，其中，每10°为一个声源角度区域。

优选地，确定所述用户声音信号所属的声源角度区域的步骤具体包括：

根据基于高分辨率谱估计的定位算法或基于波束形成的定位算法或基于到达时间差的定位算法，确定所述用户声音信号所属的声源角度；

根据所述声源角度和预先划分的声源角度区域确定所述用户声音信号所属的声源角度区域。

优选地，所述语音识别成功具体包括：

对所述用户声音信号进行语音识别，并根据所述语音识别结果执行完成相应操作，则所述语音识别成功。

优选地，所述根据所述语音识别成功的次数以及每个所述预设的声源角度区域内出现用户声音信号的次数计算每个所述预设的声源角度区域内出现用户声音信号的概率的步骤具体包括：

计算每个所述预设的声源角度区域内出现用户声音信号的次数与所述语音识别成功的次数的比值；

所述比值为每个所述预设的声源角度区域内出现用户声音信号的概率。

优选地，所述获取所述用户声音信号在多个角度的声源定位计算结果，根据多个角度的所述声源定位计算结果以及每个所述预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度的步骤具体包括：

根据基于高分辨率谱估计的定位算法获取所述用户声音信号在多个角度的谱函数的峰值；

根据每个所述角度所属的声源角度区域和每个所述预设的声源角度区域内出现用户声音信号的概率获取每个所述角度所对应的出现用户声音信号的概率；

计算每个所述角度的谱函数峰值与每个所述角度所对应的出现用户声音信号的概率的乘积，将乘积最大值所对应的角度确定为所述用户声音信号的声源角度。

根据基于波束形成的定位算法获取所述用户声音信号在多个角度的功率值；

计算每个所述角度的功率值与每个所述角度所对应的出现用户声音信号的概率的乘积，将乘积最大值所对应的角度确定为所述用户声音信号的声源角度。

基于到达时间差的定位算法计算多个角度分别对应的时延差，并根据每个角度所对应的所述时延差计算距离差；

将每个所述角度所对应的距离差除以每个所述角度所对应的出现用户声音信号的概率得到每个所述角度重新确定的距离差；

根据每个所述角度重新确定的距离差以及麦克风阵列的空间几何位置确定用户声音信号的声源角度。

优选地，所述语音交互设备中设置有重力传感器，当所述重力传感器检测到X轴、Y轴或Z轴的数据变化值超过预设阈值时，重新确定每个所述预设的声源角度区域内出现用户声音信号的概率。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种声源定位装置，所述声源定位装置包括：

语音识别模块，用于每当拾取到用户声音信号时，对所述用户声音信号进行语音识别，并确定所述用户声音信号所属的声源角度区域；

计数模块，用于对语音识别成功的次数进行计数，以及根据每次所述语音识别成功时所确定的所述用户声音信号所属的声源角度区域，对每个预设的声源角度区域内出现用户声音信号的次数进行计数；

概率统计模块，用于判断所述语音识别成功的次数是否达到预设次数，若是，则根据所述语音识别成功的次数以及每个所述预设的声源角度区域内出现用户声音信号的次数计算每个所述预设的声源角度区域内出现用户声音信号的概率；

声源角度定位模块，用于当再次拾取到用户声音信号时，基于声源定位算法获取所述用户声音信号在多个角度的声源定位计算结果，根据多个角度的所述声源定位计算结果以及每个所述预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种智能音箱，所述智能音箱包括处理器以及存储器，所述处理器耦合所述存储器，所述处理器在工作时执行指令以实现上述的声源定位方法。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述的声源定位方法。

本发明的有益效果是：区别于现有技术的情况，本发明中首先通过多次拾取用户声音信号，并对用户声音信号进行成功识别，统计获取用户声音信号出现在每个预设的声源角度区域内的概率；当再次拾取到用户声音信号时，基于声源定位算法获取用户声音信号在多个角度的声源定位计算结果，根据多个角度的声源定位计算结果以及每个预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度。本发明中将用户声音信号出现在每个预设的声源角度区域内的概率考虑进声源定位中，可以避免来自特定角度区域的电视机声音或墙面反射的声音对语音识别的影响，提升语音识别准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本发明一实施例提供的声源定位方法的流程图；

图2是本发明另一实施例提供的声源定位装置的结构示意图；

图3是本发明另一实施例提供的智能音箱的结构示意图；

图4是本发明另一实施例提供的存储介质的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明一实施例提供的声源定位方法的流程图，声源定位方法应用于语音交互设备，语音交互设备可为智能音箱或带有语音交互功能的设备，语音交互设备具有麦克风，声源定位方法包括步骤S100、步骤S200、步骤S300及步骤S400。

步骤S100：每当拾取到用户声音信号时，对用户声音信号进行语音识别，并确定用户声音信号所属的声源角度区域。

具体地，语音交互设备通过麦克风拾取用户声音信号，每次当拾取到用户声音信号后，则对用户声音信号进行语音识别，并基于现有的声源定位算法确定用户声音信号所属的声源角度区域。

进一步具体地，预先将360°声源角度范围划分为36个声源角度区域，其中，每10°为一个声源角度区域，如0°-10°为第一声源角度区域，10°-20°为第二声源角度区域，以此类推，将360°声源角度范围划分为36个声源角度区域。基于现有的声源定位算法确定用户声音信号的声源角度，根据该确定的声源角度和预先划分的声源角度区域确定该用户声音信号所属的声源角度区域。其中，现有的声源定位算法包括基于高分辨率谱估计的定位算法、基于波束形成的定位算法及基于到达时间差的定位算法等，基于现有的一种声源定位算法即可确定用户声音信号的声源角度。如基于声源定位算法确定用户声音信号的声源角度为5°，则用户声音信号属于第一声源角度区域(0°-10°)。

步骤S200：对语音识别成功的次数进行计数，以及根据每次语音识别成功时所确定的用户声音信号所属的声源角度区域，对每个预设的声源角度区域内出现用户声音信号的次数进行计数。

具体地，对用户声音信号进行语音识别，根据语音识别结果执行完成相应操作，则语音识别成功，语音交互设备能够根据用户声音信号中所包含的命令执行完成相应操作，则表示语音交互设备对用户声音信号进行了成功识别。

进一步具体地，对语音识别成功次数从零开始计数，每当语音识别成功，则语音识别成功次数加1；在每次语音识别成功时，根据所确定的用户声音信号所属的声源角度区域，相应的预设的声源角度区域内出现用户声音信号的次数计数加1，每个预设的声源角度区域内出现用户声音信号的次数也是从零开始计数，预设的声源角度区域为预先划分的36个声源角度区域。语音识别成功的总次数与所有预设的声源角度区域内出现用户声音信号的次数的总和相等。如：第一次语音识别成功时，确定的用户声音信号所属的声源角度区域为第一声源角度区域，则第一声源角度区域出现用户声音信号的次数加1；当第二次语音识别成功时，确定的用户声音信号所属的声源角度区域为第一声源角度区域，则第一声源角度区域出现用户声音信号的次数再次加1。

步骤S300：判断语音识别成功的次数是否达到预设次数，若是，则根据语音识别成功的次数以及每个预设的声源角度区域内出现用户声音信号的次数计算每个预设的声源角度区域内出现用户声音信号的概率。

具体地，预设次数可设置为100次，判断语音识别成功的次数是否达到100次，若语音识别成功次数达到100次，则根据语音识别成功的次数以及每个预设的声源角度区域内出现用户声音信号的次数计算每个预设的声源角度区域内出现用户声音信号的概率。其中，计算每个预设的声源角度区域内出现用户声音信号的次数与语音识别成功的次数的比值，该比值为每个预设的声源角度区域内出现用户声音信号的概率。如：语音识别成功的次数为100次，第一声源角度区域内出现用户声音信号的次数为40次，第二声源角度区域内出现用户声音信号的次数为60次，则第一声源角度区域内出现用户声音信号的概率为40％，第二声源角度区域内出现用户声音信号的概率为60％，其他声源角度区域内出现用户声音信号的概率均为零。

步骤S400：当再次拾取到用户声音信号时，基于声源定位算法获取用户声音信号在多个角度的声源定位计算结果，根据多个角度的声源定位计算结果以及每个预设的声源角度区域内出现用户声音信号的概率确定用户声音信号的声源角度。

具体地，在确定了每个预设的声源角度区域内出现用户声音信号的概率之后，当再次拾取到用户声音信号时，基于现有的声源定位算法获取用户声音信号在多个角度的声源定位计算结果，根据多个角度的声源定位计算结果以及每个预设的声源角度区域内出现用户声音信号的概率确定用户声音信号的声源角度。

优选地，当基于高分辨率谱估计的定位算法进行声源定位时，根据基于高分辨率谱估计的定位算法计算用户声音信号在多个角度的频谱的峰值，根据每个角度所属的声源角度区域和每个预设的声源角度区域内出现用户声音信号的概率确定每个角度所对应的出现用户声音信号的概率，计算每个角度的频谱峰值与每个角度所对应的出现用户声音信号的概率的乘积，将乘积最大值所对应的角度确定为用户声音信号的声源角度，即在基于高分辨率谱估计的定位算法中加入每个预设的声源角度区域内出现用户声音信号的概率，进而确定用户声音信号的声源角度。如：基于高分辨率谱估计的定位算法计算得到0°方向的频谱的峰值为20，0°所属的第一声源角度区域内出现用户声音信号的概率为10％，则重新确定0°方向的频谱的峰值为20*10％＝2，其他角度方向重新确定的频谱的峰值以此类推，最后将重新确定的各个角度的频谱峰值中的最大值所对应的角度确定为用户声音信号的声源角度，如5°方向所对应的重新确定的频谱峰值最大，则用户声音信号的声源角度为5°

优选地，当基于波束形成的定位算法进行声源定位时，根据基于波束形成的定位算法获取用户声音信号在多个角度的功率值；根据每个角度所属的声源角度区域和每个预设的声源角度区域内出现用户声音信号的概率获取每个角度所对应的出现用户声音信号的概率；计算每个角度的功率值与每个角度所对应的出现用户声音信号的概率的乘积，将乘积最大值所对应的角度确定为用户声音信号的声源角度。如：基于波束形成的定位算法得到0°方向的功率值为20，0°所属的第一声源角度区域内出现用户声音信号的概率为10％，则重新确定0°方向的功率值为20*10％＝2，其他角度方向重新确定的功率值以此类推，最后将重新确定的各个角度的功率值中的最大值所对应的角度确定为用户声音信号的声源角度，如5°方向所对应的重新确定的功率值最大，则用户声音信号的声源角度为5°。

优选地，当基于到达时间差的定位算法进行声源定位时，根据基于到达时间差的定位算法计算多个角度分别对应的时延差，并根据每个角度对应的时延差计算距离差，将每个角度所对应的距离差除以每个角度所对应的出现用户声音信号的概率得到每个角度重新确定的距离差，进而根据每个角度重新确定的距离差以及麦克风阵列的空间几何位置确定用户声音信号的声源角度。

本发明实施例中，语音交互设备中设置有重力传感器，当重力传感器检测到X轴、Y轴或Z轴的数据变化值超过预设阈值时，根据上述步骤S100、步骤S200及步骤S300重新确定每个预设的声源角度区域内出现用户声音信号的概率。当重力传感器检测到X轴、Y轴或Z轴的数据变化值超过预设阈值时，则表明语音交互设备的放置位置发生变化，预先划分的声源角度区域所对应的空间位置随着发生变化，此时需要重新确定每个预设的声源角度区域内出现用户声音信号的概率。

在本发明实施例中，由于电视机声音方向和墙面方向出现用户声音信号的概率较小甚至为零，在声源定位算法中，加入各预设的声源角度区域内出现用户声音信号的概率，则可弱化电视机声音方向和墙面方向的声音信号对声源定位计算的影响，提高声源定位算法进行声源定位的准确率，进而提升语音识别的准确率。

在本发明实施例中，首先通过多次拾取用户声音信号，并对用户声音信号进行成功识别，统计获取用户声音信号出现在每个预设的声源角度区域内的概率；当再次拾取到用户声音信号时，基于声源定位算法获取用户声音信号在多个角度的声源定位计算结果，根据多个角度的声源定位计算结果以及每个预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度。本发明中将用户声音信号出现在每个预设的声源角度区域内的概率考虑进声源定位中，可以避免来自特定角度区域的电视机声音或墙面反射的声音对语音识别的影响，提升语音识别准确率。

实施例二

图2为本发明另一实施例提供的声源定位装置的结构示意图，声源定位装置包括语音识别模块100、计数模块200、概率统计模块300及声源角度定位模块400。

语音识别模块100用于每当拾取到用户声音信号时，对用户声音信号进行语音识别，并确定用户声音信号所属的声源角度区域.

计数模块200用于对语音识别成功的次数进行计数，以及根据每次语音识别成功时所确定的用户声音信号所属的声源角度区域，对每个预设的声源角度区域内出现用户声音信号的次数进行计数。

概率统计模块300用于判断语音识别成功的次数是否达到预设次数，若是，则根据语音识别成功的次数以及每个预设的声源角度区域内出现用户声音信号的次数计算每个预设的声源角度区域内出现用户声音信号的概率。

声源角度定位模块400用于当再次拾取到用户声音信号时，基于声源定位算法获取用户声音信号在多个角度的声源定位计算结果，根据多个角度的声源定位计算结果以及每个预设的声源角度区域内出现用户声音信号的概率确定用户声音信号的声源角度。

本发明实施例提供的声源定位装置的具体实现与声源定位方法的具体实现相同，声源定位装置的具体实现可参阅上述实施例一的描述，在此不再赘述。

实施例三

图3为本发明另一实施例提供的智能音箱的结构示意图，智能音箱包括处理器500以及存储器600，处理器500耦合存储器600，处理器500在工作时执行指令以实现上述任一实施例中的声源定位方法。

其中，处理器500还可以称为CPU(Central Processing Unit，中央处理单元)。处理器500可能是一种集成电路芯片，具有信号的处理能力。处理器500还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器，但不仅限于此。

实施例四

参阅图4，图4是本发明另一实施例提供的存储介质的示意图，本实施例中的计算机可读存储介质存储有计算机程序700，该计算机程序700能够被处理器500执行以实现上述任一实施例中的声源定位方法。

可选的，该可读存储介质可以是U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

本发明中，首先通过多次拾取用户声音信号，并对用户声音信号进行成功识别，统计获取用户声音信号出现在每个预设的声源角度区域内的概率；当再次拾取到用户声音信号时，基于声源定位算法获取用户声音信号在多个角度的声源定位计算结果，根据多个角度的声源定位计算结果以及每个预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度。本发明中将用户声音信号出现在每个预设的声源角度区域内的概率考虑进声源定位中，可以避免来自特定角度区域的电视机声音或墙面反射的声音对语音识别的影响，提升语音识别准确率。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种声源定位方法，其特征在于，所述声源定位方法应用于语音交互设备，所述声源定位方法包括：

2.根据权利要求1所述的声源定位方法，其特征在于，所述声源定位方法还包括：

3.根据权利要求2所述的声源定位方法，其特征在于，确定所述用户声音信号所属的声源角度区域的步骤具体包括：

4.根据权利要求1所述的声源定位方法，其特征在于，所述语音识别成功具体包括：

5.根据权利要求1所述的声源定位方法，其特征在于，所述根据所述语音识别成功的次数以及每个所述预设的声源角度区域内出现用户声音信号的次数计算每个所述预设的声源角度区域内出现用户声音信号的概率的步骤具体包括：

6.根据权利要求1所述的声源定位方法，其特征在于，所述获取所述用户声音信号在多个角度的声源定位计算结果，根据多个角度的所述声源定位计算结果以及每个所述预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度的步骤具体包括：

7.根据权利要求1所述的声源定位方法，其特征在于，所述获取所述用户声音信号在多个角度的声源定位计算结果，根据多个角度的所述声源定位计算结果以及每个所述预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度的步骤具体包括：

8.根据权利要求1所述的声源定位方法，其特征在于，所述获取所述用户声音信号在多个角度的声源定位计算结果，根据多个角度的所述声源定位计算结果以及每个所述预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度的步骤具体包括：

9.根据权利要求1所述的声源定位方法，其特征在于，所述语音交互设备中设置有重力传感器，当所述重力传感器检测到X轴、Y轴或Z轴的数据变化值超过预设阈值时，重新确定每个所述预设的声源角度区域内出现用户声音信号的概率。

10.一种声源定位装置，其特征在于，所述声源定位装置包括：

11.一种智能音箱，其特征在于，所述智能音箱包括处理器以及存储器，所述处理器耦合所述存储器，所述处理器在工作时执行指令以实现权利要求1～9任一项所述的声源定位方法。

12.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行以实现权利要求1～9任一项所述的声源定位方法。