CN115267671A

CN115267671A - 一种分布式语音交互终端设备及其声源定位方法和装置

Info

Publication number: CN115267671A
Application number: CN202210746441.0A
Authority: CN
Inventors: 孟永亮
Original assignee: Jinmao Cloud Technology Service Beijing Co ltd
Current assignee: Jinmao Cloud Technology Service Beijing Co ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-11-01

Abstract

本发明实施例提供了一种分布式语音交互终端设备及其声源定位方法和装置，该终端设备包括麦克风阵列、定位设备和跟踪控制设备。麦克风阵列至少包括两个降噪麦克风，降噪麦克风用于拾取露天空旷场所内的人声交互语音，并生成多路语音信号；定位设备用于采集多路语音信号，并通过广义互相关时延估计方法对多路语音信号进行处理，得到人声交互语音的声源位置；跟踪控制设备根据声源位置实时驱动麦克风阵列对声源位置进行追踪，以使降噪麦克风朝向声源位置。本技术方案通过实时驱动麦克风阵列使其朝向声音位置，实现对声音的精确定位，从而解决了对移动声源的交互识别能力差的问题。

Description

一种分布式语音交互终端设备及其声源定位方法和装置

技术领域

本发明实施例涉及语音处理技术领域，特别是涉及一种分布式语音交互终端设备及其声源定位方法和装置。

背景技术

在露天空旷场景下如露天园区中，经常需要某些智能终端对移动声源进行移动语音交互。本发明实施例申请人在实施本发明实施例的过程中发现，现有的分布式语音交互系统多用于室内封闭场所，适用环境较为简单，对声源的定位精度不高，从而使得其在露天空旷场景下对移动声源的交互识别能力较差。

发明内容

为此，本发明实施例提供一种分布式语音交互终端设备及其声源定位方法和装置，以解决现有分布式语音交互系统对露天空旷场景的移动声源的交互识别能力较差的问题。

有鉴于此，本发明实施例公开了一种分布式语音交互终端设备，包括麦克风阵列、定位设备和跟踪控制设备，其中：

所述麦克风阵列至少包括两个降噪麦克风，所述降噪麦克风被置于露天空旷场所内，用于拾取所述露天空旷场所内的交互语音，并基于所述交互语音生成多路语音信号；

所述定位设备与所述麦克风阵列连接，用于采集所述多路语音信号，并通过广义互相关时延估计方法对所述多路语音信号进行处理，得到所述交互语音的声源位置；

所述跟踪控制设备与所述定位设备连接，用于获取所述声源位置，并基于所述声源位置实时驱动所述麦克风阵列对所述声源位置进行追踪，以使所述降噪麦克风朝向所述声源位置。

可选的，所述跟踪控制设备包括方位比较器、伺服驱动器和驱动部件，其中：

所述方位比较器用于对所述声源位置和所述降噪麦克风的当前位置进行比较处理，得到位置差值；

所述伺服驱动器与所述方位比较器信号连接，用于根据所述位置差值输出伺服驱动信号；

所述驱动部件与所述伺服驱动器连接，用于接收所述伺服驱动信号，并在所述伺服驱动信号的驱动下带动所述降噪麦克风变换方向，以使所述降噪麦克风的方向逼近并朝向所述声源位置。

可选的，所述驱动部件为步进电机。

本发明实施例还提供了如上任一项所述的一种分布式语音交互终端设备的声源定位方法，所述声源定位方法包括：

对所述多路语音信号进行互功率谱分析，得到互相关函数；

对所述互相关函数进行傅里叶逆变换，得到频域特性函数；

基于神经网络模型对所述频域特性函数和加权函数进行处理，得到所述降噪麦克风之间的时延差值；

根据所述时延差值计算所述声源位置。

可选的，所述声源定位方法还包括：

获取多种露天空旷场景下多个麦克风的语音信号；

利用广义互相关方法对所述语音信号进行处理，得到训练样本；

利用所述训练样本对预设神经网络进行训练，得到所述神经网络模型。

本发明实施例还提供了如上任一项所述的一种分布式语音交互终端设备的声源定位装置，其特征在于，所述声源定位装置包括：

信号分析模块，用于对所述多路语音信号进行互功率谱分析，得到互相关函数；

信号变换模块，用于对所述互相关函数进行傅里叶逆变换，得到频域特性函数；

时延计算模块，用于基于神经网络模型对所述频域特性函数和加权函数进行处理，得到所述降噪麦克风之间的时延差值；

位置计算模块，用于根据所述时延差值计算所述声源位置。

可选的，所述声源定位装置还包括：

信号获取模块，用于获取多种露天空旷场景下多个麦克风的语音信号；

样本处理模块，用于利用广义互相关方法对所述语音信号进行处理，得到训练样本；

模型训练模块，用于利用所述训练样本对预设神经网络进行训练，得到所述神经网络模型。

从上述技术方案可以看出，本发明实施例提供了一种分布式语音交互终端设备及其声源定位方法和装置，该终端设备包括麦克风阵列、定位设备和跟踪控制设备。麦克风阵列至少包括两个降噪麦克风，降噪麦克风用于拾取露天空旷场所内的人声交互语音，并生成多路语音信号；定位设备用于采集多路语音信号，并通过广义互相关时延估计方法对多路语音信号进行处理，得到人声交互语音的声源位置；跟踪控制设备根据声源位置实时驱动麦克风阵列对声源位置进行追踪，以使降噪麦克风朝向声源位置。本技术方案通过实时驱动麦克风阵列使其朝向声音位置，实现对声音的精确定位，从而解决了对移动声源的交互识别能力差的问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种分布式语音交互终端设备的逻辑框图；

图2为本发明实施例公开的另一种分布式语音交互终端设备的逻辑框图；

图3为本发明实施例公开的一种分布式语音交互终端设备的声源定位方法的流程图；

图4为本发明实施例的一种模型训练方法的流程图；

图5为本发明实施例公开的一种分布式语音交互终端设备的声源定位装置的逻辑框图；

图6为本发明实施例公开的一种分布式语音交互终端设备的另一种声源定位装置的逻辑框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为为本发明实施例公开的一种分布式语音交互终端设备的逻辑框图。

参照图1所示，本实施例提供的分布式语音交互终端设备应用于露天空旷场所，包括麦克风阵列100、定位设备200和跟踪控制设备300。其中定位设备分别与麦克风阵列、跟踪控制设备连接。

该麦克风阵列至少包括两个相距一定距离的降噪麦克风101，降噪麦克风设置在该露天空旷场所的周边或两侧，该降噪麦克风的数量可以为多个。每个降噪麦克风用于拾取露天空旷场所内目标用户的交互语音，并基于该交互语音生成相应的信号，并对该信号进行预先滤波处理，通过对该信号的滤波处理得到语音信号，由于降噪麦克风为两个或多个，因此该麦克风阵列输出的为多路语音信号。

另外，本发明实施例中的整个终端设备或者仅麦克风阵列可以在一定条件下处于休眠状态，可以通过预先定位相应的激活关键词的方式，在接收到现场发出的该激活关键词时对麦克风阵列或者真个终端设备进行激活，使之进入工作状态。

定位设备用于接收该麦克风阵列输出的多路语音信号，并通过广义相关时延估计方法对该多路语音信号进行处理，得到上述语音信号的声源位置，即发出该语音信号的人的位置。同时，这里的声源位置包括该声源位置相对于麦克风阵列中每个降噪麦克风的方位和距离。定位设备在得到上述声源位置后将其输出到跟踪控制设备。

跟踪控制设备在得到上述声源位置后，用于基于该声源位置驱动麦克风阵列中每个降噪麦克风对声源位置做出追踪动作，以使相应降噪麦克风朝向该声源位置。所谓使降噪麦克风朝向该声源位置是指是降噪麦克风的拾音面朝向该声源位置。

从上述技术方案可以看出，本实施例提供了一种分布式语音交互终端设备，包括麦克风阵列、定位设备和跟踪控制设备。麦克风阵列至少包括两个降噪麦克风，降噪麦克风用于拾取露天空旷场所内的人声交互语音，并生成多路语音信号；定位设备用于采集多路语音信号，并通过广义互相关时延估计方法对多路语音信号进行处理，得到人声交互语音的声源位置；跟踪控制设备根据声源位置实时驱动麦克风阵列对声源位置进行追踪，以使降噪麦克风朝向声源位置。本技术方案通过实时驱动麦克风阵列使其朝向声音位置，实现对声音的精确定位，从而解决了对移动声源的交互识别能力差的问题。

在本发明实施例的一个具体实施方式中，该跟踪控制设备300包括方位比较器301、伺服驱动器302和驱动部件303，如图2所示。

该方位比较器用于对上述的声源位置和降噪麦克风的当前位置进行比较运算，得到两者之间的位置差值，即声源位置与当前位置之间的误差，也就是说该误差是需要消除的一个数据。位置差值在这里一般是指相应降噪麦克风的实际指向与声源位置相对于降噪麦克风的方位之间的方位角差值。

伺服驱动器用于基于上述位置差值向驱动部件输出伺服驱动信号，该伺服驱动信号用于驱动该驱动部件运动。驱动部件在伺服驱动信号的驱动下带动相应降噪麦克风运动，或者说变换当前的指向，使得该降噪麦克风的方向逼近并实际朝向该声源位置，从而实现定位。该驱动部件为步进电机等伺服电机。

图3为本发明实施例公开的一种分布式语音交互终端设备的声源定位方法的流程图。

参照图3所示，本实施例提供的声源定位方法应用于实施例一中的分布式语音交互终端设备，具体来说，该方法应用于该终端设备的定位设备，用于使该定位设备得到上述声源位置，该声源定位方法包括如下步骤：

S1、对多路语音信号进行互功率谱分析。

即在该定位设备获取到麦克风阵列的多路语音信号后，对该多路语音信号进行互功率谱分析，从而得到多路语音信号的互相关函数。

例如，若声源为s(k)，则两个降噪麦克风接收到的语音信号为：

x(t)＝a₁s(k-τ₁)+n₁(k)

y(t)＝a₂s(k-τ₂)+n₂(k)

两路语音信号的互相关函数可以表示为：

R_xy(τ)＝E[x(t)y(t-τ)]。

S2、对互相关函数进行傅里叶逆变换。

在得到上述互相关函数的基础上，对该互相关函数进行傅里叶逆变换，得到频域特性函数。通过对上述互相关函数的傅里叶逆变换，可以得到频域特性函数：

S3、对频域特性函数进行处理，得到时延差值。

即基于预先得到的神经网络模型对频域特性函数和加权函数进行处理，得到降噪麦克风之间的时延差值。这里得到的时延差值实际为该声源到达不同降噪麦克风之间的时间之差。本实施例中的加权函数如下：

时延差值为：

τ＝arg max(R’_xy(τ))

S4、根据时延差值计算声源位置。

在得到声源到达不同降噪麦克风之间的时延差值之后，即可根据降噪麦克风的当前位置和该时延差值计算得到声源位置。

通过得到声源位置可以使上一实施例中的分布式语音交互装置对声源位置进行精确定位。另外，本实施例的神经网络模型可以通过如下步骤得到，具体如图4所示：

S301、获取多种露天空旷场景下语音信号。

即通过设置相应露天空旷场景下的多个麦克风，获取多个语音信号，每个语音信号可以是通过滤波处理后的语音信号，滤波处理可以在相应麦克风内部进行处理。

S302、利用广义相关方法对语音信号进行处理。

在得到多个语音信号后，利用广义相关(GCC-PHAT)方法对语音信号进行处理，得到用于模型训练所需的训练样本，训练样本可以包括相应的训练集和测试集。

S303、利用训练样本进行模型训练。

在得到上述寻样本后，利用其中的训练集对预先搭建的神经网络进行训练，并利用测试集进行测试，通过最终的参数调整，即可得到上述的神经网络模型。

通过本步骤，可以使得该声源定位方法更为完善。

图5为本发明实施例公开的一种分布式语音交互终端设备的声源定位装置的逻辑框图。

参照图5所示，本实施例提供的声源定位装置应用于实施例一中的分布式语音交互终端设备，具体来说，该装置应用于该终端设备的定位设备，用于使该定位设备得到上述声源位置，该声源定位装置包括信号分析模块10、信号变换模块20、时延计算模块30和位置计算模块40。

信号分析模块用于对多路语音信号进行互功率谱分析。

x(t)＝a₁s(k-τ₁)+n₁(k)

y(t)＝a₂s(k-τ₂)+n₂(k)

两路语音信号的互相关函数可以表示为：

R_xy(τ)＝E[x(t)y(t-τ)]。

信号变换模块用于对互相关函数进行傅里叶逆变换。

时延计算模块用于对频域特性函数进行处理，得到时延差值。

时延差值为：

τ＝arg max(R’_xy(τ))

位置计算模块用于根据时延差值计算声源位置。

通过得到声源位置可以使上一实施例中的分布式语音交互装置对声源位置进行精确定位。另外，本实施例的声源定位装置还包括信号获取模块50、样本处理模块60和模型训练模块70，，具体如图6所示：

信号获取模块用于获取多种露天空旷场景下语音信号。

样本处理模块用于利用广义相关方法对语音信号进行处理。

模型训练模块用于利用训练样本进行模型训练。

通过上述模块可以得到上述的神经网络模型，从而使该声源定位装置更为完善。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明实施例所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明实施例的限制。

Claims

1.一种分布式语音交互终端设备，其特征在于，包括麦克风阵列、定位设备和跟踪控制设备，其中：

2.如权利要求1所述的一种分布式语音交互终端设备，其特征在于，所述跟踪控制设备包括方位比较器、伺服驱动器和驱动部件，其中：

3.如权利要求2所述的一种分布式语音交互终端设备，其特征在于，所述驱动部件为步进电机。

4.如权利要求1至3任一项所述的一种分布式语音交互终端设备的声源定位方法，其特征在于，所述声源定位方法包括：

对所述多路语音信号进行互功率谱分析，得到互相关函数；

对所述互相关函数进行傅里叶逆变换，得到频域特性函数；

根据所述时延差值计算所述声源位置。

5.如权利要求4所述的声源定位方法，其特征在于，所述声源定位方法，还包括：

获取多种露天空旷场景下多个麦克风的语音信号；

6.如权利要求1至3任一项所述的一种分布式语音交互终端设备的声源定位装置，其特征在于，所述声源定位装置包括：

位置计算模块，用于根据所述时延差值计算所述声源位置。

7.如权利要求6所述的声源定位装置，其特征在于，所述声源定位装置还包括：