CN114611546A

CN114611546A - 一种基于空间和频谱时序信息建模的多移动声源定位方法和系统

Info

Publication number: CN114611546A
Application number: CN202210137621.9A
Authority: CN
Inventors: 刘宏; 杨冰; 李一迪
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2022-06-10

Abstract

本发明涉及一种基于空间和频谱时序信息建模的多移动声源定位方法和系统。本发明将直达路径相位差和声源活跃程度信息以加权求和的方式编码到学习目标中，从而指导网络学习具有竞争性和时变性的多移动声源的直达路径相位差特征，避免了多目标回归框架面临的分配歧义以及输出维度不确定问题；通过迭代地检测和定位主导声源来确定多移动声源的位置，降低了多声源之间的相互影响；引入频谱特征提取网络，建立了声源位置与声源身份之间的关联，通过对空间和频谱的时序信息进行建模实现了可靠的多移动声源跟踪。

Description

一种基于空间和频谱时序信息建模的多移动声源定位方法和系统

技术领域

本发明属于机器人听觉音频信号处理领域，具体涉及一种基于空间和频谱时序信息建模的多移动声源定位方法和系统。

背景技术

机器人听觉是一种智能、友好、自然的机器人与外界环境交互的方式。由于声音信号具有衍射性和全向性，听觉不受直线视野的约束，在存在视野遮挡的情况下依然可以正常工作。机器人听觉系统声源定位是指机器人利用搭载在机器人听觉系统中的麦克风阵列确定声源的空间相对位置。声源定位技术在智能机器人听觉、人机交互等领域有着广泛的应用，并且作为语音增强、声源分离、自动语音识别等音频信号处理任务的前端，其性能直接关乎着机器人听觉功能是否能很好地运行。近年来，声源定位技术已经引起了众多音频和声学信号处理学术组织的关注。

声源定位技术旨在确定外界声源相对于麦克风阵列的空间位置。传统的声源定位方法主要包括到达时间差技术、可控波束形成、高分辨率谱估计等。随着深度学习技术的发展，基于监督方式学习的声源定位方法受到越来越多的研究学者关注。与传统无监督的方法相比，基于深度学习的声源定位方法是数据驱动的，因此可以很好地适应训练数据中存在的声学条件。根据深度神经网络(Deep neural network，DNN)在声源定位中所起的作用，可以将声源定位方法大致分为四类，即基于特征-位置映射的方法、基于信号-位置映射的方法、基于特征-特征映射的方法和基于信号-特征映射的方法。基于特征-位置映射的方法和基于信号-位置映射的方法能够学习特征或信号到声源位置的非线性映射函数。基于特征-特征映射的方法和基于信号-特征映射的方法提供了一种简单、有效的方式从失真特征或信号中恢复出有效的定位特征。基于深度学习的声源定位方法一般采取更改损失函数或者改变网络输出的方式来处理多声源的情况。在分类框架下，常采用多分类交叉熵(Categorical cross entropy)损失函数训练单声源定位网络，将损失函数换成多标签二分类交叉熵(Binary cross entropy)损失函数即可直接应用于多声源定位。分类网络的输出维度由定位空间的划分精度决定，其随着定位空间划分精度的提高而增加。相比于转向角定位，转向角和俯仰角联合估计任务的离散角度类别会成倍增加，这使得分类网络的输出维度也变得很大。在回归框架下，单声源定位网络一般输出一个位置或特征。为了处理多声源情况，一个方式是将定位网络的单一输出改为与声源(或者可能存在的最多声源)数量相同的输出。多个网络输出与多个训练目标之间存在分配歧义的问题，这增加了网络训练的难度。并且，当声源数量未知且不固定时，很难采用统一网络回归出变化数量的位置或者特征。基于深度学习的移动声源定位方法可以分成两类，即短期时序信息处理方法和长期时序信息处理方法。一般情况下，移动声源运动具有连续性，并且声源的空间特征随时间的推移呈缓慢变化。基于短期时序信息处理的定位工作将短期信号的空间信息看作是不变的，采用静态声源定位方法进行处理，但是长时期的时序背景信息会被忽略。基于长期时序信息处理的方法主要采用时序网络来对移动声源的时空信息进行建模。

近些年，尽管机器人听觉系统声源定位技术的研究已经取得了很大的进展，但是大多数研究工作或者针对交互对象复杂性提出多静态声源定位解决方案，或者针对运动复杂性提出单移动声源定位解决方案。机器人听觉系统的实际工作场景往往既存在多个交互声源，也存在声源运动。多移动声源场景要求定位算法可以及时地去估计和跟踪竞争声源的动态位置，这对声源定位任务提出了新的挑战。

发明内容

本发明针对复杂场景中多移动声源空间位置动态变化、声源轨迹跟踪失败等问题，提出了一种基于空间和频谱时序信息建模的多移动声源定位方法和系统。

本发明采用的技术方案如下：

一种基于空间和频谱时序信息建模的多移动声源定位方法，包括以下步骤：

1)采用因果卷积循环神经网络(Convolutional recurrent neural network，CRNN)来预测具有竞争性和时变性的多声源空间特征；

2)采用迭代声源检测与定位方法将多声源空间特征分离开，确定活跃声源的数量和到达方向(Direction of arrival,DOA)；

3)依据声源DOA，采用波束形成器分离出各个声源的麦克风信号时频表示；

4)根据各个声源的麦克风信号时频表示，采用频谱特征提取网络为各个声源提取身份辨识特征，将当前时刻的身份辨识特征与历史中的身份辨识特征进行匹配，确定当前时刻活跃声源的身份。

进一步地，步骤1)涉及到一种因果卷积循环神经网络，网络输入为双通道麦克风信号的幅度谱和相位谱，网络学习目标以加权求和的形式编码了多声源的直达路径相位差和活跃程度信息，取网络输出和训练目标之间的均方误差作为网络训练的损失。网络预测的多声源空间特征能够直接用于构建多声源空间谱。

进一步地，步骤2)涉及到一种迭代声源检测与定位方法。该迭代方法的每次迭代主要包括三个步骤：a)依据多声源空间特征构建空间谱；b)通过最大化空间谱检测新声源，确定新声源的DOA、相位差序列以及活跃程度；c)从多声源空间特征中移除该新声源的贡献。

进一步地，步骤4)涉及到一种频谱特征提取网络，网络结构基于孪生网络，输入为对应于每个声源的单通道麦克风信号的时频表示，输出为具有身份辨识性的频谱特征，即身份辨识特征。

一种采用上述方法的基于空间和频谱时序信息建模的多移动声源定位系统，其包括：

多声源空间特征提取模块，用于采用因果卷积循环神经网络来预测具有竞争性和时变性的多声源空间特征；

迭代声源检测与定位模块，用于采用迭代声源检测与定位方法将多声源空间特征分离开，确定活跃声源的数量和到达方向；

声源信号分离模块，用于依据声源的到达方向，采用波束形成器分离出各个声源的麦克风信号时频表示；

声源频谱特征提取模块，用于根据各个声源的麦克风信号时频表示，采用频谱特征提取网络为各个声源提取身份辨识特征；

声源身份确定模块，用于将当前时刻的身份辨识特征与历史中的身份辨识特征进行匹配，确定当前时刻活跃声源的身份。

本发明将直达路径相位差和声源活跃程度信息以加权求和的方式编码到学习目标中，从而指导网络学习具有竞争性和时变性的多移动声源的直达路径相位差特征，避免了多目标回归框架面临的分配歧义以及输出维度不确定问题；通过迭代地检测和定位主导声源来确定多移动声源的位置，降低了多声源之间的相互影响；引入频谱特征提取网络，建立了声源位置与声源身份之间的关联，通过对空间和频谱的时序信息进行建模实现了可靠的多移动声源跟踪。

附图说明

图1.本发明方法的总体流程图。

具体实施方式

为更加清楚、完整地描述本发明方法，下面将结合本发明具体实施例和附图，对本发明做进一步说明。

参考图1，是本发明方法的流程图，主要包括以下几个步骤：

步骤1：多声源空间特征提取

首先使用短时傅里叶变换将多通道麦克风信号从时域变换到时频域，然后依据各麦克风对的相位谱和幅度谱估计得到多声源空间特征。多声源空间特征提取的网络结构为因果CRNN。网络输入为双通道麦克风信号的对数幅度谱和相位谱。输入特征被送入10个因果卷积模块，每个模块均由因果卷积层、批归一化层和ReLU激活函数组成。在每两个卷积模块之后增加最大池化层来压缩频率和时间维度。将卷积神经网络层输出在频率和滤波器维度上展成一个维度，送入一层单向门控循环单元。使用全连接层和K_max倍的Tanh激活函数输出麦克风对的直达路径相位差。这里，K_max指的是可能出现的声源数量的最大值。将多个声源的直达路径相位差向量和声源活跃程度信息以加权求和方式构成训练目标，即

其中，R_mm'(n')表示对应于第n'个输出帧的麦克风对mm’的训练目标，m和m’均表示麦克风索引；加和权重β_k(n')表示第n'个输出帧中第k个声源的活跃概率，取值在0到1之间；K表示声源的真实数量。r_mm'(θ_k)为全频带的直达路径相位差向量，表示为：

其中，θ_k表示第k个声源的到达方向，ω_f表示第f个频带的角频率，τ_mm'表示第m个麦克风与第m’个麦克风接收到的信号之间的到达时间差，F表示频带的数量。

相应地，加和后的向量元素的取值在[0,K]之内。取网络输出和训练目标之间的均方误差作为网络训练的损失。

步骤2：迭代声源检测与定位

该方法的迭代过程主要包含三个步骤。第一步为空间谱估计过程，在得到多声源空间特征预测值之后，利用所有麦克风对的特征构建空间谱，即：

其中，P(θ,n')表示利用所有麦克风对的特征构建的空间谱，θ表示用于构建空间谱的候选到达方向，

表示多声源空间特征预测值，M表示麦克风数量。

第二步通过最大化空间谱检测新的声源，确定新声源的DOA、相位差序列以及活跃程度，分别表示为：

第三步从多声源空间特征中移除该新声源的贡献，对于所有麦克风对有：

当新检测到的声源的活跃程度足够小时，即

时，其中β_TH表示预先定义的阈值，主导声源

不活跃，迭代索引k减1，迭代停止；否则的话，将

赋值给

声源第n'帧的DOA估计值为

步骤3：声源信号分离

依据各个声源的DOA估计值，采用最小方差无失真响应(Minimum-variancedistortionless response，MVDR)波束形成器，提取出各个声源的信号

其中，n和f分别表示时间帧和频率索引。

步骤4：声源频谱特征提取

采用孪生网络作为频谱特征提取网络，输入为对应于每个声源的单通道麦克风信号的时频表示

输出为具有身份辨识性的频谱特征v_k。使用对比损失函数对网络进行训练。

步骤5：声源身份确定

将频谱特征提取网络输出的声源身份辨识性特征与历史中的身份辨识特征进行匹配，当最匹配的声源匹配度足够高时，则将其作为当前时刻活跃声源的身份；当最匹配的声源匹配度较低时，则认为当前时刻活跃声源为新增声源。通过这种方式将声源身份与位置进行关联。

基于同一发明构思，本发明的另一个实施例提供一种采用上述方法的基于空间和频谱时序信息建模的多移动声源定位系统，其包括：

基于同一发明构思，本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于空间和频谱时序信息建模的多移动声源定位方法，其步骤包括：

采用因果卷积循环神经网络来预测具有竞争性和时变性的多声源空间特征；

采用迭代声源检测与定位方法将多声源空间特征分离开，确定活跃声源的数量和到达方向；

依据声源的到达方向，采用波束形成器分离出各个声源的麦克风信号时频表示；

根据各个声源的麦克风信号时频表示，采用频谱特征提取网络为各个声源提取身份辨识特征，将当前时刻的身份辨识特征与历史中的身份辨识特征进行匹配，确定当前时刻活跃声源的身份。

2.如权利要求1所述的方法，其特征在于，所述因果卷积循环神经网络将直达路径相位差和声源活跃程度信息以加权求和的方式编码到学习目标中，指导网络学习具有竞争性和时变性的多移动声源空间特征，取网络输出和训练目标之间的均方误差作为网络训练的损失；网络预测的多声源空间特征能够直接用于构建多声源空间谱。

3.如权利要求1所述的方法，其特征在于，所述迭代声源检测与定位方法的迭代过程包括以下三个步骤：

依据多声源空间特征构建多声源空间谱；

通过最大化空间谱检测新声源，确定新声源的到达方向、相位差序列以及活跃程度；

从多声源空间特征中移除该新声源的贡献。

4.如权利要求3所述的方法，其特征在于，按如下公式计算所述多声源空间谱：

其中，P(θ,n')表示利用所有麦克风对的特征构建的空间谱，θ表示用于构建空间谱的候选到达方向，n'表示第n'个输出帧；M表示麦克风数量；F表示频带的数量；m、m’表示第m个麦克风与第m’个麦克风；

表示多声源空间特征预测值；r_mm'(θ_k)为全频带的直达路径相位差向量。

5.如权利要求4所述的方法，其特征在于，按如下公式确定所述新声源的到达方向、相位差序列以及活跃程度：

其中，

分别表示所述新声源的到达方向、相位差序列以及活跃程度。

6.如权利要求5所述的方法，其特征在于，按如下公式从多声源空间特征中移除该新声源的贡献：

7.如权利要求1所述的方法，其特征在于，利用所述频谱特征提取网络确定当前时刻特定到达方向的声源身份，从而应对声源新增以及声源轨迹跟踪失败的情况。

8.一种采用权利要求1～7中任一权利要求所述方法的基于空间和频谱时序信息建模的多移动声源定位系统，其特征在于，包括：

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一权利要求所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一权利要求所述的方法。