CN109597022A

CN109597022A - 声源方位角运算、定位目标音频的方法、装置和设备

Info

Publication number: CN109597022A
Application number: CN201811455880.6A
Authority: CN
Inventors: 郑脊萌; 刘二男; 高毅; 黎韦伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2019-04-09
Anticipated expiration: 2038-11-30
Also published as: US20210174792A1; US11967316B2; CN110491403A; WO2020108614A1; US20240233719A1; EP3822654B1; CN109597022B; EP3822654A1; CN110491403B; EP3822654A4; JP2021533423A; JP7158806B2

Abstract

本发明揭示了一种声源方位角运算方法、音频交互设备定位目标音频的方法、装置和音频交互设备。所述方法包括：获取音频信号进行消回声处理；获取消回声后音频信号的时频域表达和时频点的权值；通过时频点的权值和时频域表达，获取对应于时频点的加权协方差矩阵；通过加权协方差矩阵进行空间谱的加权运算获得音频信号按照时频点加权的空间谱；由空间谱获得音频信号中目标音频直射信号对应的声源方位角。在空间谱作用下有效控制运算量，并且由于加权协方差矩阵是对应于音频信号中目标音频直射信号的相对比重的，因此有效降低干扰信号对空间谱的干扰，增强方位角运算在复杂场景下的鲁棒性，方位角的准确性得到增强，能够为音频交互准确获得方位角。

Description

声源方位角运算、定位目标音频的方法、装置和设备

技术领域

本发明涉及音频交互应用技术领域，特别涉及一种声源方位角运算、音频交互设备定位目标音频的方法、装置和音频交互设备。

背景技术

随着智能音箱及其衍生品的流行，人机之间的语音交互逐渐成为一个重要的人机交互方式。智能音箱等音频交互设备为人们的日常提供了语音识别接口，以此来开启人机之间的语音交互。

音频交互设备在与人所进行的语音交互中，需要获知人，即目标语音所对应声源的方位，由此才可定向拾音，做降噪处理，同时对目标语音进行语音增强，进而提升语音信号质量。

具体而言，将通过波束形成算法等来增强目标方向的声音，即目标语音，此过程依赖于目标方向，即描述目标语音方向的方位角。在现有的实现中，波束形成算法需要系统预先给定目标语音的方位角，并且波束形成算法对该方位角的准确度非常敏感。

因此，提升方位角的准确性成了提升语音信号质量以及语音交互性能的瓶颈。

发明内容

为了解决相关技术中无法准确获得方位角的技术问题，本发明提供一种声源方位角运算方法、音频交互设备定位目标音频的方法、装置和音频交互设备。

其中，本发明所采用的技术方案为：

一种声源方位角运算方法，所述方法包括：获取音频信号；对所述音频信号进行消回声处理；获取消回声后音频信号的时频域表达以及时频点的权值；通过所述时频点的权值和时频域表达，获取对应于所述时频点的加权协方差矩阵，所述加权协方差矩阵用于描述音频信号中目标音频直射信号的相对比重；通过所述加权协方差矩阵进行空间谱的加权运算，获得所述音频信号按照时频点经过加权的空间谱；由所述空间谱获得所述音频信号中目标语音直射信号对应的声源方位角。

一种音频交互设备定位目标音频的方法，所述方法包括：音频交互设备获取音频信号；对所述音频信号进行消回声处理；音频交互设备获取消回声后音频信号的时频域表达以及时频点的权值，所述音频信号是所述音频交互设备中麦克风采样所得到的；通过所述时频点上的权值和时频域表达，获取所述音频信号对应于所述时频点的加权协方差矩阵，所述加权协方差矩阵用于描述音频信号中目标音频直射信号的相对比重；通过所述加权协方差矩阵进行空间谱的加权运算，获得所述音频信号按照时频点经过加权的空间谱；所述音频交互设备由所述空间谱获得音频交互中目标音频对应的声源方位角；通过所述声源方位角定位所述音频交互中目标音频的声源位置。

一种声源方位角运算装置，所述装置包括：信号获取模块，用于获取音频信号；消回声模块，用于对所述音频信号进行消回声处理；权值运算模块，用于获取消回声后音频信号的时频域表达以及时频点的权值；矩阵构建模块，用于通过所述时频点的权值和时频域表达，获取对应于所述时频点的加权协方差矩阵，所述加权协方差矩阵用于描述音频信号中目标音频直射信号的相对比重；空间谱运算模块，用于通过所述加权协方差矩阵进行空间谱的加权运算，获得所述音频信号按照时频点经过加权的空间谱；方位角确定模块，用于由所述空间谱获得所述音频信号中目标音频直射信号对应的声源方位角。

一种音频交互设备定位目标音频的装置，所述装置包括：音频获取模块，用于获取音频信号；消回声处理模块，用于对所述音频信号进行消回声处理；时频点运算模块，用于音频交互设备获取消回声后音频信号的时频域表达以及时频点的权值，所述音频信号是所述音频交互设备中麦克风采样所得到的；矩阵运算模块，用于通过所述时频点上的权值和时频域表达，获取所述音频信号对应于所述时频点的加权协方差矩阵，所述加权协方差矩阵用于描述音频信号中目标音频直射信号的相对比重；空间谱加权模块，用于通过所述加权协方差矩阵进行空间谱的加权运算，获得所述音频信号按照时频点经过加权的空间谱；方位角定位模块，用于所述音频交互设备由所述空间谱获得音频交互中目标音频对应的声源方位角；位置确定模块，用于通过所述声源方位角定位所述音频交互中目标音频的声源位置。

一种音频交互设备，包括：处理器；以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如前所述的方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

面向给定音频信号，在对其进行消回声处理之后，首先获取其消回声之后获得的时域域表达以及时频点的权值，然后通过时频点的权值和时频域表达，获取对应于时频点的加权协方差矩阵，此加权协方差矩阵用于描述音频信号中目标音频直射信号的相对比重，通过加权协方差矩阵进行空间谱的加权运算，获得音频信号按照时频点经过加权的空间谱，最后由空间谱来获得音频信号中目标音频直射信号对应的声源方位角，在空间谱的作用下，有效控制了运算量，并且由于加权协方差矩阵是对应于音频信号中目标音频直射信号的相对比重的，因此，有效降低了干扰信号对空间谱的干扰，增强方位角运算在复杂场景下的鲁棒性，进而方位角的准确性得到极大增强，能够为音频交互的进行准确获得方位角。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本发明所涉及的实施环境的示意图。

图2是根据一示例性实施例示出的一种音频交互设备的硬件结构框图。

图3是根据一示例性实施例示出的一种声源方位角运算方法的流程图。

图4是根据一示例性实施例示出的空间谱与角度之间的关系示意图。

图5是根据图3对应实施例示出的对步骤350进行描述的流程图。

图6是根据一示例性实施例示出的DRR到权值的一种可能映射关系示意图。

图7是根据图5对应实施例示出的对步骤355进行描述的流程图。

图8是根据另一示例性实施例示出的一种声源方位角运算方法的流程图。

图9是根据一示例性实施例示出的一种音频交互设备定位目标音频的方法流程图。

图10是根据一示例性实施例示出的本发明在音频交互设备实现方位角确定的系统架构图。

图11是根据一示例性实施例示出的加权估计模块实现示意图。

图12是根据一示例性实施例示出的一种声源方位角运算装置的框图。

图13是图12对应实施例示出的对权值运算模块进行描述的框图。

图14是根据图12对应实施例示出的对权值映射单元进行描述的框图。

图15是根据另一示例性实施例示出的消回声模块的框图。

图16是根据一示例性实施例示出的一种音频交互设备定位目标音频的装置的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本发明所涉及的实施环境的示意图。在一个示例性实施例中，该实施环境可以是音频交互设备的任意使用场景。如图1所示的，该使用环境为客厅中用户以所配置音频交互设备110为入口的嘈杂环境。

在这一使用环境中，除了用户的语音输入，还存在着客厅中电视等设备输出的声音，以此来构成了相对用户语音输入而言的背景噪声。

音频交互设备110上装设有麦克风阵列，通过麦克风阵列来进行采样，获得音频信号。获得的音频信号中，包含着目标音频直射信号以及噪声信号、回声信号等等，需要经由音频交互设备110为此而估计目标音频的方位角，进而以方位角为依据增强目标音频，以便于音频交互设备110能够最终获得用户发出的音频信号，即用户的语音信号，并交由音频识别服务识别，以此来向用户提供内容服务。

通过音频交互设备110，对用户得以实现语音识别，进而以所识别语音内容为依据，向用户提供相应的内容。当然，可以理解的，除了为用户的语音识别而进行方位角运算，也可以对所需要识别的音频进行方位角运算，并以此来准确识别音频。以音频交互设备110为入口而输入的可以是语音信号，也可以是其它音频信号，即统称为音频信号，进而适用于各种不同场景。

混响较大或者音频交互设备自发生，以产生回声的场景，例如前述所示例性举例说明的嘈杂环境，由于混响和/或回声的存在，方位角估计变得非常困难，容易产生与目标方向完全不相关甚至背离的方位角估计结果，而在本发明作用下，通过加权协方差的估计以及加权协方差的作用，得以增强了方位角运算的鲁棒性，所获得的方位角准确性非常优越。

图2是根据一示例性实施例示出的一种音频交互设备的硬件结构框图。需要说明的是，该音频交互设备仅仅只是一个适配于本发明的示例，不能认为是提供了对本发明的使用范围的任何限制。该音频交互设备也不能解释为需要依赖于或者必须具有图2中示出的示例性的硬件结构。

该音频交互设备110的硬件结构可因配置或者性能的不同而产生较大的差异，如图2所示，该音频交互设备110包括：功能按键111、拾音话筒112、主板113、主控芯片114、蓝牙芯片115、WiFi芯片116以及散热片117。

其中，功能按键111用于进行该音频交互设备110中的功能配置。用户通过功能按键111的触发而对该音频交互设备配置所需要的功能。

拾音话筒112，由多麦克风阵列构成，以此来增强音频信号的输入，很好的实现远距离拾音。

功能按键111和拾音话筒112都通过连接线与主板113相连，以受控于主板113上的芯片，进而即可实现音频交互设备110的功能。

主板113上的芯片，包括主控芯片114、蓝牙芯片115、WiFi芯片116。应当理解，主控芯片114上写入的操作系统用于实现音频交互设备110的功能，其内部所部署的存储介质将作为资源存储的载体。

存储介质可以是随机存储介质、磁盘或者光盘等，其上所存储的资源包括操作系统、应用程序及数据等，存储方式可以是短暂存储或者永久存储。其中，操作系统用于管理与控制音频交互设备110的各硬件以及应用程序。应用程序是基于操作系统之上完成至少一项特定工作的计算机程序，通过一系列操作指令的执行实现本发明所涉及的方法。数据可以是存储于磁盘中的照片、图片等等。

正如上面所详细描述的，适用于本发明的音频交互设备110将通过主控芯片114读取存储介质中存储的一系列操作指令的形式来进行目标音频的方位角确定。

图3是根据一示例性实施例示出的一种声源方位角运算方法的流程图。在一个示例性实施例中，该声源方位角运算方法，如图3所示，至少包括以下步骤。

在步骤310中，获取音频信号。

其中，音频信号是音频交互设备采样所得到的。一个示例性实施例中，在所进行的音频交互中，用户的语音输入，即为目标音频，其所形成的目标音频直射信号，与噪声信号、回声信号一起，构成了音频交互设备采样而获得的音频信号。音频信号是音频交互设备为获得目标音频直射信号而通过麦克风阵列采样得到的，目标音频直射信号为语音交互所需要进行的语音识别提供语音内容。

音频信号包括除了用户输入的语音信号之外，还可包括适应于不同场景的其它音频信号。在其它示例性实施例中，音频信号并非由用户的语音输入产生，而是由其它音频源所产生的，例如，与音频交互设备联动的音频源。但无论适用于何种场景中的音频信号，都将由音频交互设备采样所获得。

在步骤330中，对音频信号进行消回声处理。

其中，对音频交互设备采样的音频信号，都将进行音频处理，此音频处理包括执行回声参考信号提取、消除回声、时频域分析等一系列过程。

所执行的回声参考提取以及消除回声的过程，即为对音频信号所进行的消回声处理，以此来获得消回声后的音频信号。

在步骤350中，获取消回声后音频信号的时频域表达以及时频点的权值。

其中，正如前述描述的，对音频交互设备采样的音频信号，将进行音频处理，即执行回声参考信号提取、消除回声、时频域分析等一系列过程，进而获得音频信号消回声之后的时频域表达。

在此所指的时频域表达，是音频信号完成消回声处理之后经过时频域分析得到对应于时频点的音频信号表示。应当理解，按帧表达的音频信号，在时频域是从时域和频域两个方面进行信号表达的，此即为所获得的时频域表达，每一时频域表达都是对应于唯一存在的时频点的。

音频信号的时频域表达，用于进行时频域的信号描述。通过音频信号对应于时频点的时频域表达，获得每一时频点的权值。时频点的权值，将用于描述此时频点上目标音频直射信号的相对比重。音频信号在此时频点上目标音频直射信号的相对比重越大，则权值越大，反之，音频信号中目标音频直射信号的相对比重越小，权值也越小。

时频点权值的获取，是借助于音频信号消回声之后在此时频点存在的，与目标音频相关的信息运算所得到。由此方能够估计得到每一时频点描述目标音频比重的权值。

应当理解的，对于时频点运算得到的权值，其可以是从某一维与目标音频相关的信息运算得到，即对时频点运算得到单一权值，此单一权值便作为音频信号在时频点的权值；除此之外，也可以从多维与目标音频相关的信息运算得到时频点的多个权值，此时，将综合多个权值而获得音频信号在时频点的权值。

示例性的，与目标音频相关的信息是音频特征参数，该音频特征参数可以是时频域表达在时频点的信噪比估计值；在此基础之上，该音频特征参数还包括时频域表达在时频点的直射对混响信号强度比、残留回声信号估计值以及时频点对应于目标唤醒词的概率这几种音频特征参数中的一种或者任意组合。

在步骤370中，通过时频点的权值和时频域表达，获取对应于时频点的加权协方差矩阵，该加权协方差矩阵用于描述音频信号中目标音频直射信号的相对比重。

其中，通过步骤350的执行，获得了音频信号在每一时频点的权值，由此，将基于所获得的权值和音频信号消回声之后的时频域表达进行加权协方差矩阵的估计。

估计得到的加权协方差矩阵，与音频信号的时频域表示相关。加权协方差矩阵是对音频信号在每一时频点上的权值以及时频表达进行加权运算所得到的。

加权协方差矩阵中的加权元素，其所对应的数值大小用于表示所对应时频点上目标音频直射信号的相对比重大小。

音频信号消回声之后的时频域表达，是音频信号为目标音频直射信号在时频域而进行的准确描述。而时频点的权值，也是根据音频信号消回声之后的时频域表达为目标音频所估计得到的，因此，二者都用于表征音频信号中目标音频直射信号的存在，综合二者来构建加权协方差矩阵，以便于后续所进行的空间谱运算能够针对于每一时频点而进行。

在步骤380中，通过该加权协方差矩阵进行空间谱的加权运算，获得音频信号按照时频点经过加权的空间谱。

其中，对于空间谱的运算，将引入加权协方差矩阵，为音频信号消回声之后的时频域表达，进行每一帧所对应面向于每一频点的空间谱加权运算，以此来获得音频信号按照时频点经过加权的空间谱。以此来为空间谱的运算降低噪声以及残留回声的干扰，在控制运算量的前提下，提高鲁棒性。

在一个示例性实施例中，未加权的空间谱，将通过以下公式运算得到，即：

目标唤醒词处于帧n₀到帧n₁时间段内，即n为帧编号，f为频点编号，f＝1,2,…,N_f，N_f是频点的个数，f₀和f₁是选定的用于估计空间谱的频率范围，“.H”代表共轭转置运算符(Hermitian Operator)，w(θ,f)是预先设计的，在频点f上，指向方向θ的空间滤波器系数，w(θ,f)∈C^N×1(N×1的复数向量)。

应当理解的，w(θ,f)的设计可以采用固定波束形成算法，或者自适应波束形成算法实现，w(θ,f)的设计目标/效果是：保留θ方向的信号，最大程度抑制其它方向来的信号。

在此基础之上，计算加权之后的空间谱p_g(θ_i)，即引入加权协方差矩阵进行空间谱加权，将由以下公式实现：

其中，g(n,f)为每一个时频点上的权值。

此时，定义C(n,f)＝S(n,f)S^H(n,f)，则将公式(3)简化为：

定义加权协方差矩阵G(n₀,n₁,f)为：

则公式(3)可以被进一步简化表达为：

至此，通过公式(4)得到经过加权的空间谱。

在步骤390中，由空间谱获得音频信号中目标音频直射信号对应的声源方位角。

其中，在通过如上所述的步骤完成空间谱估计之后，由于空间谱是对应于方向的，可由空间谱来进行方位角的选取，进而获知目标音频直射信号位于麦克风阵列的方位角方向，此即为所进行音频交互中的声源方位角。

空间谱估计是引入加权协方差矩阵而进行的，并且加权协方差矩阵中的权值元素表征噪声信号以及残留回声信号对目标音频直射信号的干扰大小，因此，将在加权协方差矩阵的作用下，屏蔽噪声信号以及残留回声信号在空间谱估计中的干扰。

例如，当音频交互设备，比如智能音箱等，在自发声时，虽然已经通过回声消除过程去掉了音频信号中的大部分回声信号，但是所获得时频域表达中，如果残留回声信号的能量仍然可能大于目标音频直射信号的能量，尤其是用户距离音频交互设备较远，或者说话声音较小时，此时，在加权协方差矩阵的作用下，得以屏蔽残留回声信号对空间谱估计产生较强的干扰，进而避免所估计得到的方位角偏向音频交互设备喇叭方向，或者临近区域内的某个强反射源方向。

对于根据空间谱所进行的方位角选取，在一个示例性实施例中，通过空间谱与角度的关系，取所对应空间谱处于峰值点的角度作为声源方位角。

例如，空间谱与角度的关系如图4所示，图4是根据一示例性实施例示出的空间谱与角度之间的关系示意图。在通过前述步骤运算得到空间谱p(θ_i)之后，在图4中取其中的峰值点，即图2中的60度方向，以此来作为声源方位角。

当然，应当理解的是，这仅仅是声源方位角获得的一种示例性的方式，但不仅限于此，也可经由其它的一些方法来根据空间谱选取得到声源方位角。无论采用何种选取方式，都在面对复杂场景具备鲁棒性的空间谱作用下准确获得声源方位角。

例如，如果环境复杂，存在着很强的混响或反射源，则会导致运算得到的空间谱在混响方向或者反射源方向产生较高的能量峰，相应的，也可能导致目标音频直射信号的能量峰相对其它方向变弱，这都是空间谱的估计受到复杂环境的影响，鲁棒性不强而造成的。

但是，通过如上所述的步骤实现，即加权协方差矩阵的估计和介入，得以极大的增强了空间谱的鲁棒性，由此将不需要改变经由空间谱获得声源方位角的方式，也能够准确得到声源方位角，并且也由于空间谱的应用而控制了运算量。

图5是根据图3对应实施例示出的对步骤350进行描述的流程图。在一个示例性实施例中，该步骤350，包括：

在步骤351中，获取音频信号的时频域表达。

在步骤353中，对音频信号的时频域表达，按照时频点进行音频特征参数的估计。

在步骤355中，根据对应于时频点的音频特征参数获得音频信号在时频点的权值。

其中，如前所述的，音频信号的时频域表达，是音频信号消回声之后在时频点的信号表示。也就是说，每一时频点，都有所对应的音频信号时频域表达。音频特征参数，则用于描述音频信号消回声之后目标音频的存在情况以及噪声、残留回声的存在情况。

在一个示例性实施例中，音频特征参数至少是时频域表达在时频点的信噪比(Signal-to-Noise Ratio，简称SNR)估计值。除此多外，音频特征参数还可以包括其它类型的特征参数，例如，时频域表达在时频点上的直射对混响信号强度比(Direct-to-ReverbRatio，简称DRR)、残留回声信号估计值(Signal-to-Echo Ratio，简称SER)以及时频点对应于目标唤醒词的概率。

应当理解，根据单一类型的音频特征参数，将获得此单一类型音频特征参数的维度下音频信号在时频点的权值。换而言之，音频信号在一时频点上，所估计的音频特征参数是单一存在的，则在此时频点上将获得单一一个权值，并将此权值作为音频信号在时频点的权值。

与此相对应的，根据多种类型的音频特征参数，将为所在的时频点获得每一音频特征参数对应的权值，并综合所在时频点得到的所有权值作为音频信号在时频点的权值。

进一步说明的，将分别针对于不同类型的音频特征参数，来阐述音频特征参数的估计。

(1)对于时频域表达在时频点的信噪比估计值，指的是由此时频域表达而对自身所在时频点估计得到的信噪比。

在一个示例性实施例中，信噪比SNR，可通过下述公式运算得到，即：

其中，k(n,f)是在时频点(n,f)上的噪声估计信号，S₁(n,f)是语音信号消回声后在时频点(n,f)上时频域表达。噪声估计信号k(n,f)是通过所进行的最小值追踪所得到的。

(2)对于时频域表达在时频点的直射对混响信号强度比，指的是在此时频点上对于时频域表达而言，目标音频直射信号与混响信号各自的能量比。

在一个示例性实施例中，可通过如下所示的简便计算方法估计得到，即：

其中，B_n＞0代表房间的混响时间长度(或预设的某个固定时间长度)；B_f＞0为系统所采用的时频分析算法的频间泄漏宽度，比如，时频分析(FFT)的长度和所用时间分析窗函数决定的频率分辨率。

(3)对于残留回声信号估计值，是估计时频域表达S₁(n,f)中的SER(Signal-to-Echo Ratio)。残留回声信号估计值的获得，是通过进行EC-PP(Echo-Cancellation-Post-Processing回声消除后处理)估计实现的。

在一个示例性实施例中，首先估计时频域表达中的残留回声信号然后再由以下公式运算得到残留回声信号估计值，即：

(4)对于时频点对应于目标唤醒词的概率，是时频点归属于目标唤醒词的概率。应当理解的，麦克风阵列的前处理过程中，都会进行关键词检测，以检测音频信号中预设的关键词，即为目标唤醒词是否出现。

在一个示例性实施例中，在检测关键词的同时，也获得关键词，即目标唤醒词中每一个音素出现的起止时间点，甚至目标唤醒词所在的时频点。

由此，可以得到每一个时频点属于目标唤醒词的概率，即得到时频点对应于目标唤醒词的概率，能够将一部分非目标唤醒词的时频点排除在空间谱估计的计算之外，进一步提高空间谱估计对噪声，特别是非稳态噪声的鲁棒性。

总而言之，在估计得到对应于时频点的音频特征参数之后，便由对应于时频点的音频特征参数映射得到音频信号在此时频点的权值。

由于音频特征参数是针对于目标音频直射信号，音频特征参数的数值大小是与目标音频直射信号呈正相关，与噪声信号以及回声信号负相关，音频特征参数是对应于目标音频直射信号对于所在时频点的能量强度的。因此，音频特征参数与权值之间存在着正相关的映射关系。

在一个示例性实施例中，可由映射函数而根据估计得到的音频特征参数获得所对应时频点的权值。

正如图6所描述的，图6是根据一示例性实施例示出的DRR(n,f)到权值g₁(n,f)的一种可能映射关系示意图。基于该DRR估计值，可以通过图6所示的映射函数获得权值g₁(n,f)。在此，也应当理解的，图6中采用的函数曲线及两个拐点的位置皆为示例。

在此示例性实施例中，通过对音频信号的时频域表达，得以获得描述目标音频的音频特征参数，进而是到能够排除噪声信号、残留回声信号的权值，以此来保障了后续空间谱计算不会受到干扰。

在一个示例性实施例中，音频特征参数可以是单一一种，即为时频域表达在时频点上的信噪比估计值，该步骤353包括：对音频信号的时频域表达估计每一个时频点的信噪比估计值，该信噪比估计值用于映射得到音频信号在时频点的权值。

其中，对于音频特征参数，时频域表达在时频点的信噪比估计值，是必不可少的。如果音频特征参数的类型单一，则此音频特征参数即为时频域表达在时频点的信噪比估计值，如果音频特征参数包括了多种类型的特征参数，则是在频域表达在时频点上的信噪比估计值基础上新增和丰富的其它类型特征参数。

图7是根据图5对应实施例示出的对步骤355进行描述的流程图。在一个示例性实施例中，音频特征参数为多种，该步骤355，至少包括以下步骤。

在步骤401中，获取音频信号的时频域表达在时频点不同音频特征参数分别映射的权值。

在步骤403中，对获取的权值进行加权计算，获得音频信号在时频点的权值。

其中，正如前述所描述的，时频域表达在时频点上的音频特征参数可为多种类型，进而在不同维度下映射得到相应的权值。

对于所映射得到的多个权值，进行加权计算，以综合多个权值来得到音频信号在时频点的权值。

在一个示例性实施例中，音频特征参数包括了时频点对应于目标唤醒词概率，此时，步骤353包括：

检测音频信号中的目标唤醒词，对检测的目标唤醒词估计所在的时频点，获得每一时频点对应于目标唤醒词的概率。

其中，借助于所进行关键词检测(Keyword-Spotting，简称KWS)，来估计检测的目标唤醒词所在的时频点，以此来对每一时频点获得自身对应于目标唤醒词的概率。

在一个示例性实施例中，该步骤370，包括：在时频点上通过音频信号的时频域表达和权值，进行加权运算得到时频点在加权协方差矩阵对应的加权元素值，所有时频点对应的加权元素值构成加权协方差矩阵。

其中，通过前述步骤的执行，获得每一时频点上音频信号的时频域表达以及权值之后，即可为此时频点运算其在加权协方差矩阵的加权元素值。

具体的，通过时频域表达以及权值之间的加权运算而获得加权元素值，即如下述公式所描述的，加权协方差矩阵G(n₀,n₁,f)为：

图8是根据另一示例性实施例示出的一种声源方位角运算方法的流程图。在另一示例性实施例中，该声源方位角运算方法，如图8所示，执行步骤330，至少包括以下步骤。

在步骤510中，在音频交互设备中获取回声参考信号，通过回声参考信号对麦克风采集的音频信号进行线性回声消除。

在步骤530中，在音频信号消回声之后进行时频分析，获得所述消回声后音频信号的时频域表达。

其中，音频交互设备作为音频所相关服务的接口，用于为用户实现音频交互。音频交互设备可以是智能音箱、带语音控制功能的智能电视或电视盒子等产品，音频交互设备的麦克风，是阵列形式的，即为麦克风阵列。

音频交互设备处于工作状态时，进行着信号采样，以获得所在环境存在的的音频信号。应当理解，语音交互中，获得的音频信号，包括了目标音频直射信号、噪声信号以及回声信号。

所指的时频分析，在一个示例性实施例中，可以是通过短时傅里叶变换实现信号时频分析。

麦克风阵列中，每一麦克风采样得到的音频信号，都借助于回声参考信号消回声之后，对每一音频信号都获得在每一时频点的时频域表达，由此方可引入加权协方差矩阵而进入空间谱估计，获得能够确定声源方位角的空间谱。

通过此示例性实施例，实现了音频交互设备中音频信号涉及的前处理，以便于能够在此基础上进行加权协方差矩阵以及相应的空间谱估计。

图9是根据一示例性实施例示出的一种音频交互设备定位目标音频的方法流程图。在一个示例性实施例中，如图9所示，该音频交互设备定位目标音频的方法，至少包括以下步骤。

在步骤710中，音频交互设备获取音频信号。

在步骤720中，对音频信号进行消回声处理。

在步骤730中，音频交互设备获取消回声后音频信号的时频域表达以及时频点的权值，音频信号是音频交互设备中麦克风采样所得到的。

在步骤740中，通过时频点的权值和时频域表达，获取音频信号对应于时频点的加权协方差矩阵，加权协方差矩阵用于描述音频信号中目标音频直射信号的相对比重。

在步骤750中，通过加权协方差矩阵进行空间谱的加权运算，获得音频信号按照时频点经过加权的空间谱。

在步骤760中，音频交互设备由空间谱获得音频交互中目标音频对应的声源方位角。

在步骤770中，通过声源方位角定位音频交互中目标音频的声源位置。

通过此示例性实施例，实现了目标音频的声源定位，以获知目标音频所对应声源的位置。

通过如上所述的示例性实施例，便得以在控制运算量的情况下，实现鲁棒性得到增强的空间谱估计，有效降低干扰信号，例如，噪声信号、残留回声信号对空间谱估计的干扰，进而提高方位角估计的鲁棒性。

由此，能够提高在混响、回声和噪声场景下，方位角估计的准确性和鲁棒性，相应使得音频交互设备中的音频识别性能能够得到改进和提升。

以描述一音频交互设备中方位角估计的实现为例，结合上述方法实现进行阐述。

现有的方位角估计中，一方面可通过经典空间谱估计算法实现，应用来自空间中各个方向的信号能量来估计方位角；另一方面则是通过带有线性解混响能力的空间谱估计算法实现。

其中，经典空间谱估计算法，通过音频信号的时频域表达，来获得空间谱估计结果。

但是，如果环境中有很强的混响或者反射源，则所估计的空间谱可能会在混响方向或者反射源方向产生一个较高的能量峰，也可能使其目标音频的能量峰相对其它方向变弱，这都将导致方位角无法准确估计。

又例如，通过所进行的音频信号前处理，虽然能够去掉音频信号中的大部分回声信号，但是，音频信号的时频域表达中残留的回声信号仍然可能大过目标音频信号的能量，尤其是当用户距离音频交互设备较远，或者说话声音较小时，残留的回声信号都会对估计的空间谱产生较强干扰，并最终导致方位角偏向音频交互设备喇叭方向或者某个强反射源方向。

因此，经典空间谱估计算法，缺乏鲁棒性，进而也将导致方位角估计的不准确性。

而带有线性解混响能力的空间谱估计算法，是通过线性处理算法来降低各路音频信号中的混响成分，保留空间中各个目标音频的直射成分，以此来降低混响对空间谱估计的影响。

但是这一线性解混响算法是自适应算法，当即环境还存在噪声或回声时，解混响的性能下降非常明显，并且容易出现不收敛乃至发散的情况。其次，线性解混响算法无法提高空间谱估计在噪声和回声场景下的鲁棒性，并且运算量非常大，难以在音频交互设备上部署。

因此，现有的方位角估计，均不适用于音频交互设备，需要通过本发明示例性实施例的方法实现来在控制运算量的前提下，提升空间谱估计针对混响、噪声和喇叭回声的鲁棒性。

图10是根据一示例性实施例示出的本发明在音频交互设备实现方位角确定的系统架构图。本发明在音频交互设备进行的方位角估计，如图10所示的，音频交互设备中麦克风阵列进行着音频信号的采样，获得多路音频信号。

即，通过阵列的麦克风mic-1、mic-2、……、mic-N，分别采样得到多路语音信号m₁(t)、m₂(t)、……、m_N(t)，并输入到线性回声消除模块910。

线性回声消除模块910，根据提取的回声参考信号r(t)，完成回声消除获得回声消除之后的音频信号S₁(t)、S₂(t)、……、S_N(t)，进而输入到时频分析模块930。

通过时频分析模块对多路回声消除之后的音频信号S₁(t)、S₂(t)、……、S_N(t)进行时频分析之后即可获得相应的时频域表达，即S₁(n,f)、S₂(n,f)、……、S_N(n,f)，进而进入空间谱估计模块970。

对于音频信号的时频域表达S₁(n,f)、S₂(n,f)、……、S_N(n,f)，加权估计模块950借助于KWS信息、回声参考信号的时频域表达R(n,f)以及DRR估计、SNR估计、EC-PP估计来获得加权协方差矩阵，图11是根据一示例性实施例示出的加权估计模块实现示意图，以此来获得构成加权协方差矩阵的权值。

具体的，对于所得到的多个权值，以相乘的方式给予综合，即如下述公式所示：

以此即可保证，当一个时频点的DRR估计值、SER、SNR都较高时，对应的权值才可能接近1，当任一权值较低时，该时频点的权值都会接近0，以此来提高目标音频直射信号在加权协方差矩阵中的相对比重，降低干扰信号对空间谱估计的影响。

对于空间谱，应当理解的，空间角度θ是一个连续变量(存在无数个方位角)，所以无法给每一个方位角计算一次空间谱p(θ)。在实际工程应用中，往往选取有限数量的方位角θ_i,i＝1,2,…,N_θ(N_θ为选取的方位角个数)，并计算对应方向的空间谱。

通过本发明的实现，空间谱估计模块对目标语音直射信号s_d，目标语音的混响反射信号s_r，噪声信号的直射以及反射分量n_dr,还有残留的回声信号e，通过加权值g(n,f)，进行空间谱的估计，在s_d占主导的时频点中g(n,f)较大，在s_d被s_r、n_dr或e掩盖的时频点中g(n,f)较小，由此提高语音的直射信号s_d在加权协方差矩阵G(n₀,n₁,f)中的相对比重，进而降低干扰信号(包括s_r、n_dr和e)对空间谱估计的干扰，最终提高方位角估计算法在复杂场景下的鲁棒性。

下述为本发明装置实施例，用于执行本发明上述方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明别方法实施例。

图12是根据一示例性实施例示出的一种声源方位角运算装置的框图。在一个示例性实施例中，如图12所示，该声源方位角运算装置包括但不限于：信号获取模块1110、消回声模块1120、权值运算模块1130、矩阵构建模块1140、空间谱运算模块1150和方位角确定模块1160。

信号获取模块1110，用于获取音频信号。

消回声模块1120，用于对音频信号进行消回声处理。

权值运算模块1130，用于获取消回声后音频信号的时频域表达以及时频点的权值。

矩阵构建模块1140，用于通过所述时频点的权值和时频域表达，运算对应于所述时频点的加权协方差矩阵，所述加权协方差矩阵用于描述音频信号中目标音频直射信号的相对比重。

空间谱运算模块1150，用于通过所述加权协方差矩阵进行空间谱的加权运算，获得所述音频信号按照时频点经过加权的空间谱。

方位角确定模块1160，用于由所述空间谱获得所述音频信号中目标音频直射信号对应的声源方位角。

图13是图12对应实施例示出的对权值运算模块进行描述的框图。在一个示例性实施例中，如图13所示，该权值运算模块1110包括：时频分析单元1111、参数估计单元1113和权值映射单元1115。

时频分析单元1111，用于获取音频信号的时频表达。

参数估计单元1113，用于对音频信号的时频域表达，按照时频点进行音频特征参数的估计。

权值映射单元1115，用于根据对应于所述时频点的音频特征参数获得所述音频信号在所述时频点的权值。

在一个示例性实施例中，音频特征参数包括时频域表达在时频点的信噪比估计值，参数估计单元1111进一步用于对音频信号的时频域表达估计每一个时频点的信噪比估计值，所述信噪比估计值用于映射得到所述音频信号在时频点的权值。

图14是根据图12对应实施例示出的对权值映射单元进行描述的框图。在一个示例性实施例中，音频特征参数为多种，如图14所示，该权值映射单元1113包括映射获取单元1201和加权单元1203。

映射获取单元1201，用于获取音频信号的时频域表达在时频点不同音频特征参数分别映射的权值。

加权单元1203，用于对获取的所述权值进行加权计算，获得所述音频信号在所述时频点的权值。

在一个示例性实施例中，音频特征参数包括时频点对应于目标唤醒词概率，参数估计单元1113进一步用于检测所述音频信号中的目标唤醒词，对检测的所述目标唤醒词估计所在的时频点，获得每一时频点对应于目标唤醒词的概率。

在一个示例性实施例中，矩阵构建模块进一步用于在时频点上通过所述音频信号的时频域表达和权值，进行加权运算得到所述时频点在所述加权协方差矩阵对应的加权元素值，所有时频点对应的加权元素值构成所述加权协方差矩阵。

图15是根据另一示例性实施例示出的一种声源方位角运算装置的框图。在另一示例性实施例中，如图15所示，该消回声模块1120，包括消回声模块1121以及时频分析模块1123。

消回声模块1121，用于在所述音频交互设备中获取回声参考信号，通过所述回声参考信号对麦克风采集的所述音频信号进行线性回声消除。

时频分析模块1123，用于在所述音频信号消回声之后进行时频分析，获得所述消回声后音频信号的时频域表达。

图16是根据一示例性实施例示出的一种音频交互设备定位目标音频的装置的框图。在一个示例性实施例中，如图16所示，该音频交互设备定位目标音频的装置包括音频获取模块1410、消回声处理模块1420、时频点运算模块1430、矩阵运算模块1440、空间谱加权模块1450、方位角定位模块1460和位置确定模块1470。

音频获取模块1410，用于获取音频信号。

消回声处理模块1420，用于对音频信号进行消回声处理。

时频点运算模块1430，用于音频交互设备获取消回声后音频信号的时频域表达以及时频点的权值，所述音频信号是所述音频交互设备中麦克风采样所得到的。

矩阵运算模块1440，用于通过所述时频点的权值和时频域表达，获取所述音频信号对应于所述时频点的加权协方差矩阵，所述加权协方差矩阵用于描述音频信号中目标音频直射信号的相对比重。

空间谱加权模块1450，用于通过所述加权协方差矩阵进行空间谱的加权运算，获得所述音频信号按照时频点经过加权的空间谱。

方位角定位模块1460，用于所述音频交互设备由所述空间谱获得音频交互中目标音频对应的声源方位角。

位置确定模块1470，用于通过所述声源方位角定位所述音频交互中目标音频的声源位置。

可选的，本发明还提供一种音频交互设备，该音频交互设备可以用于图1所示实施环境中，执行图3、图5、图6、图7、图8和图9任一所示的方法的全部或者部分步骤。所述装置包括：

处理器。

用于存储处理器可执行指令的存储器。

其中，所述处理器被配置为执行实现前述所指的方法。

该实施例中的装置的处理器执行操作的具体方式已经在有关前述实施例中执行了详细描述，此处将不做详细阐述说明。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种声源方位角运算方法，其特征在于，所述方法包括：

获取音频信号；

对所述音频信号进行消回声处理；

获取消回声后音频信号的时频域表达以及时频点的权值；

通过所述时频点的权值和时频域表达，获取对应于所述时频点的加权协方差矩阵，所述加权协方差矩阵用于描述音频信号中目标音频直射信号的相对比重；

通过所述加权协方差矩阵进行空间谱的加权运算，获得所述音频信号按照时频点经过加权的空间谱；

由所述空间谱获得所述音频信号中目标音频直射信号对应的声源方位角。

2.根据权利要求1所述的方法，其特征在于，所述获取所述消回声后音频信号的时频域表达以及时频点的权值，包括：

获取所述音频信号的时频域表达；

对音频信号的时频域表达，按照时频点进行音频特征参数的估计；

根据对应于所述时频点的音频特征参数获得所述音频信号在所述时频点的权值。

3.根据权利要求2所述的方法，其特征在于，所述音频特征参数包括所述时频域表达在时频点的信噪比估计值，所述对音频信号的时频域表达，按照时频点进行音频特征参数的估计，包括：

对音频信号的时频域表达估计每一个时频点的信噪比估计值，所述信噪比估计值用于映射得到所述音频信号在时频点的权值。

4.根据权利要求2所述的方法，其特征在于，所述音频特征参数为多种，所述根据对应于所述时频点的音频特征参数获得所述音频信号在所述时频点的权值，包括：

获取音频信号的时频域表达在时频点不同音频特征参数分别映射的权值；

对获取的所述权值进行加权计算，获得所述音频信号在所述时频点的权值。

5.根据权利要求4所述的方法，其特征在于，所述音频特征参数还包括时频域表达在时频点上的直射对混响信号强度比、残留回声信号估计值以及所述时频点对应于目标唤醒词的概率中至少一种或者任意组合。

6.根据权利要求5所述的方法，所述音频特征参数包括所述时频点对应于目标唤醒词概率，所述对音频信号的时频域表达，按照时频点进行音频特征参数的估计，包括：

检测所述音频信号中的目标唤醒词，对检测的所述目标唤醒词估计所在的时频点，获得每一时频点对应于目标唤醒词的概率。

7.根据权利要求1所述的方法，其特征在于，所述通过所述时频点上的权值和时频域表达，运算所述音频信号对应于所述时频点的加权协方差矩阵，包括：

在时频点上通过所述音频信号的时频域表达和权值，进行加权运算得到所述时频点在所述加权协方差矩阵对应的加权元素值，所有时频点对应的加权元素值构成所述加权协方差矩阵。

8.根据权利要求1所述的方法，其特征在于，所述对所述音频信号进行消回声处理，包括：

在所述音频交互设备中获取回声参考信号，通过所述回声参考信号对麦克风采集的所述音频信号进行线性回声消除；

在所述音频信号消回声之后进行时频分析，获得所述消回声后音频信号的时频域表达。

9.一种音频交互设备定位目标音频的方法，其特征在于，所述方法包括：

音频交互设备获取音频信号；

对所述音频信号进行消回声处理；

音频交互设备获取消回声后音频信号的时频域表达以及时频点的权值，所述音频信号是所述音频交互设备中麦克风采样所得到的；

通过所述时频点的权值和时频域表达，获取所述音频信号对应于所述时频点的加权协方差矩阵，所述加权协方差矩阵用于描述音频信号中目标音频直射信号的相对比重；

所述音频交互设备由所述空间谱获得音频交互中目标音频对应的声源方位角；

通过所述声源方位角定位所述音频交互中目标音频的声源位置。

10.一种声源方位角运算装置，其特征在于，所述装置包括：

信号获取模块，用于获取音频信号；

消回声模块，用于对所述音频信号进行消回声处理；

权值运算模块，用于获取消回声后音频信号的时频域表达以及时频点的权值；

矩阵构建模块，用于通过所述时频点的权值和时频域表达，获取对应于所述时频点的加权协方差矩阵，所述加权协方差矩阵用于描述音频信号中目标音频直射信号的相对比重；

空间谱运算模块，用于通过所述加权协方差矩阵进行空间谱的加权运算，获得所述音频信号按照时频点经过加权的空间谱；

方位角确定模块，用于由所述空间谱获得所述音频信号中目标音频直射信号对应的声源方位角。

11.根据权利要求10所述的装置，其特征在于，所述权值运算模块包括：

时域分析单元，用于获取所述音频信号的时频域表达；

参数估计单元，用于对音频信号的时频域表达，按照时频点进行音频特征参数的估计；

权值映射单元，用于根据对应于所述时频点的音频特征参数获得所述音频信号在所述时频点的权值。

12.根据权利要求11所述的装置，其特征在于，所述音频特征参数为多种，所述权值映射单元包括：

映射获取单元，用于获取音频信号的时频域表达在时频点不同音频特征参数分别映射的权值；

加权单元，用于对获取的所述权值进行加权计算，获得所述音频信号在所述时频点的权值。

13.根据权利要求10所述的装置，其特征在于，所述矩阵构建模块进一步用于在时频点上通过所述音频信号的时频域表达和权值，进行加权运算得到所述时频点在所述加权协方差矩阵对应的加权元素值，所有时频点对应的加权元素值构成所述加权协方差矩阵。

14.一种音频交互设备定位目标音频的装置，其特征在于，所述装置包括：

音频获取模块，用于获取音频信号；

消回声处理模块，用于对所述音频信号进行消回声处理；

时频点运算模块，用于音频交互设备获取消回声后音频信号的时频域表达以及时频点的权值，所述音频信号是所述音频交互设备中麦克风采样所得到的；

矩阵运算模块，用于通过所述时频点的权值和时频域表达，获取所述音频信号对应于所述时频点的加权协方差矩阵，所述加权协方差矩阵用于描述音频信号中目标音频直射信号的相对比重；

空间谱加权模块，用于通过所述加权协方差矩阵进行空间谱的加权运算，获得所述音频信号按照时频点经过加权的空间谱；

方位角定位模块，用于所述音频交互设备由所述空间谱获得音频交互中目标音频对应的声源方位角；

位置确定模块，用于通过所述声源方位角定位所述音频交互中目标音频的声源位置。

15.一种音频交互设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至9中任一项所述的方法。