CN110501673A

CN110501673A - 一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统

Info

Publication number: CN110501673A
Application number: CN201910808412.0A
Authority: CN
Inventors: 刘宏; 庞程; 丁润伟; 杨冰; 袁佩佩
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2019-11-26

Abstract

本发明提出了一种基于多任务时频卷积神经网络的双耳声源空间方向估计方法和系统。本方法首先提取双耳信号连续多帧的时频双耳特征线索作为神经网络的输入；然后，利用时频卷积神经网络对输入的时频双耳特征线索进行建模和融合，输出可用于同时估计声源转向角和俯仰角的共享特征；最后，基于该共享特征利用多任务神经网络对声源转向角和俯仰角进行学习和估计。本方法对未知类型的噪声具有较好的鲁棒性，时频卷积神经网络可有效地学习双耳特征的时频信息同时实现对双耳线索的有效融合，多任务神经网络可有效地结合并增强声源转向角和俯仰角估计。该方法的优势在于为实际复杂噪声场景下的声源定位提供了一种有效的思路。

Description

一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统

技术领域

本发明属于机器人双耳听觉信号处理领域，具体涉及一种基于多任务时频卷积神经网络的双耳声源空间方向估计方法和系统。

背景技术

声源定位是实现自然、友好人机交互的一项关键技术，通过定位出外界声源相对于机器人的方位，可以让机器人像人一样判别出声音的源头，提高机器人与外界交互的能力。基于双耳听觉的声源定位是声源定位技术发展的一个重要分支。该技术充分利用了双麦克风的易搭载性及耳廓的滤波特性，不仅拥有双麦克风简易的阵列结构，又结合了人耳听觉特性，从结构上可克服双麦克风定位的前后向歧义性。该技术有着广泛的实际应用，如智能监控、人机交互、助听器语音增强、视频会议、虚拟现实等。

基于双耳听觉的声源定位研究起始于一百年前，最早开始是研究人体心理感官对不同方向声音处理方式，所以最早应属于声学或者心理学范畴。学者Rayleigh在大量试验的基础上提出了“双元学说理论”，并认为双耳时间差和双耳能量差是声源定位的至关重要的定位线索。上世纪80年代，Lyon提出了一个双耳定位的计算模型，即耳廓模型(cochlearmodel)，为基于双耳麦克风的声音定位开启了一个新的视角。1992年，随着对人耳的几何形状和对双耳定位影响研究的不断深入，头相关传递函数(Head-related TransferFunction，HRTF)概念被提出，耳廓、头部、耳道、肩膀和躯体等因素都会影响HRTF。同时，谱线索被认为是头相关传递函数HRTF表达声源位置的一个重要因素。从此，基于头相关传递函数的双耳定位方法成为主流，而测量HRTF是机器人学习声学环境的难点和核心，因为HRTF代表了声源到机器人声学传感器这个复杂系统的系统传递函数，从中可以提取出表征声源方位的从声源传播到双耳的时延和能量信息。近年来，针对头相关传递函数HRTF模拟声源到麦克风传播过程的幅度和时间变化特性，许多基于HRTF特征的双耳定位方法被提出应用于声源定位中。目前，国内外主流研究机构包括法国国家信息与自动化研究所、伦敦玛丽王后大学智能传感中心、北京大学、中国科学院、清华大学等。

为了提升基于双耳麦克风的声源定位算法在不同机器人听觉系统上的适应性，同时在不同机器人平台上易于搭载并且实现实时的声源定位，机器人的双耳麦克风系统需要尽量模拟人耳生理结构，其麦克风间距也需符合大量生物统计得到的双耳平均尺寸、耳廓拓扑结构尽量规则且严格对称。由于双耳声源定位只利用两个麦克风的信息，相比于基于麦克风阵列的声源定位，定位的算法复杂度可以有效降低从而保证定位系统的实时性。然而，双耳声源定位可利用的麦克风信号信息相对较少，实现鲁棒精确的定位具有一定的挑战。为了提高双耳声源定位线索提取的精确度和鲁棒性，双耳麦克风需要精确的拓扑结构，同时也可以提高机器人的类人性。同时，在真实的人机交互场景中，周围环境的噪声会给机器人的声源定位性能带来很大的挑战，这对双耳声源定位的实用化提出了要求。

发明内容

本发明针对复杂噪声场景下的声源空间方向估计，提出了一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统。

本发明采用的技术方案如下：

一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法，包括以下步骤：

1)提取双耳信号连续多帧的双耳特征线索，得到时频双耳特征线索；

2)利用时频卷积神经网络对时频双耳特征线索进行建模和融合，通过二维卷积操作学习输入的时频双耳特征线索的时频信息，输出能够用于同时估计声源转向角和俯仰角的共享特征；

3)基于声源转向角和俯仰角的共享特征，利用多任务神经网络对声源转向角和俯仰角进行学习和估计。

进一步地，步骤1)所述时频双耳特征线索包括双耳相位差和双耳能量差。通过对双耳信号进行傅里叶变换变换到频域，然后对每一个频带的双耳信号的相位和幅度求差异，以提取双耳相位差和双耳能量差。将一个固定时间段内多帧的双耳相位差和双耳能量差放在一起构成时频双耳特征线索，作为声源定位神经网络的输入。

进一步地，步骤2)采用二维卷积层的时频卷积神经网络对提取的时频双耳特征线索进行建模，所述时频卷积神经网络包含四个二维卷积层四个批标准化层和一个特征展开层，线性整流单元函数ReLU被用作每一个批标准化层后的激活函数。

进一步地，步骤3)所述多任务神经网络是通过结合转向角和俯仰角估计的代价函数来训练得到的。训练完成后，对于给定的时频双耳特征线索，该多任务神经网络可估计出每个候选空间方向上的后验概率，拥有最大后验概率的候选空间方向则被判别为最终的声源空间方向，即声源转向角和俯仰角。

基于同一发明构思，本发明还提供一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计系统，其包括：

双耳特征线索提取模块，用于提取双耳信号连续多帧的双耳特征线索，得到时频双耳特征线索；

双耳特征线索融合模块，用于利用时频卷积神经网络对时频双耳特征线索进行建模和融合，通过二维卷积操作学习输入的时频双耳特征线索的时频信息，输出用于同时估计声源转向角和俯仰角的共享特征；

声源空间方向估计模块，用于基于声源转向角和俯仰角的共享特征，利用多任务神经网络对声源转向角和俯仰角进行学习和估计。

基于同一发明构思，本发明还提供一种计算机，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明的方法的各步骤的指令。

本发明的有益效果如下：

本发明使用时频卷积神经网络学习输入特征的时频信息实现了对噪声干扰双耳定位特征的鲁棒建模，同时有效地融合了双耳相位差和双耳能量差信息用于空间方向(即转向角和俯仰角)的估计；使用时频卷积神经网络实现了在不同类型与信噪比的空间不相关噪声和扩散噪声影响下鲁棒的声源空间方向估计，该网络对未知类型噪声干扰下的声源定位也是有效的；利用多任务学习共享特征提升并增强了对声源转向角和俯仰角的定位，提升了对声源空间方向估计的效率。

附图说明

图1.本发明方法的总体流程图。

图2.双耳相位差和双耳能量差相对于不同俯仰角的分布。

图3.时频卷积神经网络结构。

图4.用于转向角和俯仰角估计的多任务神经网络结构。

具体实施方式

为更加清楚、完整地描述本发明方法，下面将结合本发明具体实施例和附图，对本发明做进一步说明。

参考图1，是本发明方法地流程图，主要包括以下几个步骤：

步骤1：时频双耳特征线索提取

从双耳信号直接提取双耳相位差和双耳能量差作为定位线索。采用短时傅里叶变换将双耳麦克风信号变换到频域，得到时频域双耳信号：

X_i(κ,ω)＝S(κ,ω)H_i(ω)+V_i(κ,ω)

其中，i∈{r,l}表示双耳信号索引，r表示右耳，l表示左耳；X_i，S和V_i分别表示双耳麦克风信号、声源信号和噪声信号的短时傅里叶变换，H_i表示双耳麦克风通道的头相关传递函数，κ表示音频帧索引，ω表示频带索引。

依据时频域双耳信号，第κ帧第ω频带的双耳相位差可表示为：

同样的，第κ帧第ω频带的双耳能量差可表示为：

采用CIPIC HRTF数据库#21头模数据，画出双耳特征线索在不同方向转向角条件下(俯仰角为0°)的分布，如图2所示。其中，子图(a)和子图(b)分别表示不同频率下双耳相位差和双耳能量差相对于不同转向角的分布。从中可以看出双耳相位差和双耳能量差的值随着转向角的变化而明显地改变，并且存在一定的变化规律。对于不同的转向角，双耳相位差在低频部分没有混淆，双耳能量差在高频部分变化更加显著。

将K帧和F个频带的双耳相位差放在一起构成输入神经网络的时频双耳相位差特征，其形式为

同理，输入神经网络的时频双耳能量差特征形式为

步骤2：基于时频卷积神经网络的双耳特征融合

采用二维卷积层的时频卷积神经网络(Time-Frequency Convolutional NeuralNetwork,TF-CNN)对提取的时频双耳特征线索进行建模。时频卷积神经网络结构如图3所示，其包含四个二维卷积层Conv1～Conv4，四个批标准化(Batch Normalization，BN)层和一个特征展开层(Flatten)。线性整流单元(Rectified Linear Unit，ReLU)函数被用作每一个批标准化层后的激活函数。卷积层内卷积核(Kernel)的大小表示为R×S，其中R和S分别表示时域和频域的维度。输入的时频双耳特征线索首先经过一个二维卷积层的处理，该卷积层卷积核的大小为5×5，步幅(Stride)为3，滤波器数量(Channel)为32。然后，一个批标准化层通过归一化卷积层输出的特征提升该网络的稳定性。在对特征进行批标准化处理后，一个卷积核大小为3×3，步幅为2，滤波器数量为64的二维卷积层以及其后的批标准化层被用于加权输入的时频双耳特征线索。接下来，处理后的特征将通过两次相同的二维卷积和批标准化处理，但这里的二维卷积层滤波器的数量不同，分别为96和128。ReLU(线性整流单元函数)激活函数在每一次批标准化操作后进行。最后，一个特征展开层用于将之前的神经网络层处理后的特征展开为特征向量。从TF-CNN输出的特征向量被作为后续多任务声源定位的共享特征。

步骤3：基于多任务学习的声源空间方向估计

声源定位的多任务包括对声源转向角和俯仰角的估计以实现声源空间方向的定位。图4展示了用于声源空间方向定位的多任务学习神经网络结构，其包含了两个用于转向角和俯仰角估计的深度神经网络分支。图4中的上分支用于转向角的估计，其包含四个全连接(Fully Connected，FC)层，其被用于融合由TF-CNN生成的共享特征中的局部结构以用于转向角的估计。这四个全连接层包括具有ReLU激活函数的FC11、FC12和FC13层，以及没有激活函数的FC14层，图4中1024、512、256表示神经元的个数，P表示候选转向角的个数，Q表示候选俯仰角的个数。该神经网络分支输出的大小为候选转向角的数量。由于在本方法中候选转向角的数量与候选俯仰角的数量相同，所以俯仰角的估计也基于了相同的神经网络分支结构，如图4中所示神经网络的下分支。该分支同样包含四个全连接层，即具有ReLU激活函数的FC21、FC22和FC23层，和没有激活函数的FC24层。该分支也被用于融合由TF-CNN生成的共享特征中的局部结构以用于俯仰角的估计，输出的大小为候选俯仰角的数量。将得到的FC14和FC24输出分别通过两个softmax层。这两个softmax层的输出被分别看作输入的时频双耳特征线索相对候选转向角和俯仰角的后验概率。通过寻找最大的后验概率所对应的候选转向角和俯仰角来确定最终的估计。

基于同一发明构思，本发明的另一个实施例提供一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计系统，其包括：

基于同一发明构思，本发明的另一个实施例提供一种计算机/服务器，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法，其步骤包括：

2)利用时频卷积神经网络对时频双耳特征线索进行建模和融合，通过二维卷积操作学习输入的时频双耳特征线索的时频信息，输出用于同时估计声源转向角和俯仰角的共享特征；

2.如权利要求1所述的方法，其特征在于，步骤1)在时频域提取双耳相位差和双耳能量差作为时频双耳特征线索。

3.如权利要求1所述的方法，其特征在于，步骤2)采用二维卷积层的时频卷积神经网络对提取的时频双耳特征线索进行建模，所述时频卷积神经网络包含四个二维卷积层四个批标准化层和一个特征展开层，线性整流单元函数ReLU被用作每一个批标准化层后的激活函数。

4.如权利要求3所述的方法，其特征在于，输入的时频双耳特征线索首先经过第一个二维卷积层的处理；然后，一个批标准化层通过归一化第一个二维卷积层输出的特征提升网络的稳定性；在对特征进行批标准化处理后，第二个二维卷积层以及其后的批标准化层被用于加权输入的时频双耳特征线索；接下来，处理后的特征通过第三个二维卷积层以及其后的批标准化层、第四个二维卷积层以及其后的批标准化层，进行两次相同的二维卷积和批标准化处理；ReLU激活函数在每一次批标准化操作后进行；最后，一个特征展开层用于将之前的神经网络层处理后的特征展开为特征向量。

5.如权利要求4所述的方法，其特征在于，所述第一个二维卷积层的卷积核大小为5×5，步幅为3，滤波器数量为32；所述第二个二维卷积层的卷积核大小为3×3，步幅为2，滤波器数量为64；所述第三个二维卷积层的卷积核大小为3×3，步幅为2，滤波器数量为96；所述第四个二维卷积层的卷积核大小为3×3，步幅为2，滤波器数量为128。

6.如权利要求1所述的方法，其特征在于，步骤3)采用多任务神经网络实现声源空间方向的定位，所述多任务神经网络包含两个分支：用于转向角估计的神经网络分支和用于俯仰角估计的神经网络分支。

7.如权利要求6所述的方法，其特征在于，所述用于转向角的估计的神经网络分支包含四个全连接层，其被用于融合由时频卷积神经网络生成的共享特征中的局部结构以用于转向角的估计，该神经网络分支输出的大小为候选转向角的数量；所述用于俯仰角的估计的神经网络分支同样包含四个全连接层，该分支被用于融合由时频卷积神经网络生成的共享特征中的局部结构以用于俯仰角的估计，该神经网络分支输出的大小为候选俯仰角的数量。

8.如权利要求7所述的方法，其特征在于，将两个分支的输出分别通过两个softmax层，该两个softmax层的输出被分别看作输入的时频双耳特征线索相对候选转向角和俯仰角的后验概率，通过寻找最大的后验概率所对应的候选转向角和俯仰角来确定最终的估计。

9.一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计系统，其特征在于，包括：

10.一种计算机，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～8中任一权利要求所述方法的各步骤的指令。