CN113923580B

CN113923580B - 一种双模拾音装置

Info

Publication number: CN113923580B
Application number: CN202010578889.7A
Authority: CN
Inventors: 郑成诗; 汤亮; 柯雨璇; 李晓东
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2022-07-26
Anticipated expiration: 2040-06-23
Also published as: CN113923580A

Abstract

本发明公开了一种双模拾音装置，该装置包括：微机电系统传声器、光纤传声器、微机电系统振动膜、工作模式切换模块和信号处理模块；当微机电系统传声器和光纤传声器同时工作时，为高性能工作模式；当只有微机电系统传声器工作时为低功耗待机模式；两种传声器，均用于采集语音信号；微机电系统振动膜，用于为微机电传声器采集语音信号提供机械应力，还用于为光纤传声器采集语音信号提供激光反射面；工作模式切换模块，用于根据微机电系统传声器采集的语音信号与阈值的比较结果实现装置的工作模式切换；还用于进行音频处理并发送至信号处理模块；信号处理模块，用于通过特征提取和语音增强处理，得到抑制环境噪声和混响后的语音。

Description

一种双模拾音装置

技术领域

发明涉及电声技术领域，具体涉及一种双模拾音装置，尤其是一种提高灵敏度并降低功耗的双模拾音装置。

背景技术

目前驻极体电容传声器(ECM，Electret Condenser Micphone)以及微机电系统(MEMS，Micro-Electro-Mechanical System)传声器是两种应用最广泛的传声器类型。与ECM相比，MEMS传声器具有耐热性强、稳定性高以及体积小等优点。传声器正逐步向着轻型化、小尺寸、无源、便携式以及恶劣环境应用等方面发展，因此MEMS传声器应用领域越来越广泛，正逐步取代ECM传声器。MEMS传声器包括MEMS电容式传声器和压电式传声器，都具有体积小、功耗低且最大声学过载点高的优点，通常而言，其功耗仅为毫瓦量级而最大声学过载点通过设计可达125dB以上。然而在微弱声信号探测、远距离目标探测、边境预警监控等应用场景下，MEMS传声器的灵敏度往往过低无法达到需求。

光纤传声器与传统电声传声器相比具有诸多优势，如灵敏度高、抗电磁干扰能力强、传输损耗低、体积小、重量轻等。因此在对传声器系统灵敏度要求较高的许多场景下，光纤传声器被广泛的研究和应用。按照工作原理的不同，光纤传声器主要分为强度型、光纤光栅型和干涉型。强度型光纤传声器是通过直接检测光强的变化得到声音信息，具有结构简单、易于解调等特点；光纤光栅型传声器是通过检测光栅波长变化量实现声信号探测，具有体积小、成本低、易于组成阵列等特点；干涉型光纤传声器是通过检测相位的变化实现声信号的测量，因此其灵敏度较高。然而，光纤传声器相对于传统MEMS传声器，最大声学过载点较低，常见的光纤传声器最大声学过载点都低于120dB，因而采用光纤传声器系统拾取声信号时容易出现过载现象。另外，光纤传声器相较于MEMS传声器，功耗较高，目前常见的光纤传声器功耗可达几百毫瓦。

发明内容

本发明的目的在于克服现有技术缺陷，提出了一种双模拾音装置。

为了实现上述目的，本发明提出了一种双模拾音装置，所述装置包括：微机电系统传声器、光纤传声器、微机电系统振动膜、工作模式切换模块和信号处理模块；当微机电系统传声器和光纤传声器同时工作时，所述装置处于高性能工作模式；当只有微机电系统传声器工作时，所述装置处于低功耗待机模式；其中，

所述微机电系统传声器，用于采集语音信号，并发送至工作模式切换模块；

所述光纤传声器，用于采集语音信号，并发送至工作模式切换模块；

所述微机电系统振动膜，用于为微机电传声器采集语音信号提供所需要的机械应力，还用于为光纤传声器采集语音信号提供激光反射面；

所述工作模式切换模块，用于将微机电系统传声器采集的语音信号与阈值进行比较，根据比较结果实现所述装置在两种工作模式间的切换；还用于对语音信号进行音频处理，并发送至信号处理模块；

所述信号处理模块，用于对语音信号进行处理，通过特征提取和语音增强处理，得到抑制环境噪声和混响后的语音。

作为上述装置的一种改进，所述工作模式切换模块包括第一放大器、第二放大器、比较器、带通滤波器、数字音频处理器、光纤传声器处理电路和电源管理芯片；其中，

所述第一放大器，用于对微机电系统传声器输出的一路语音信号进行放大，输出至比较器；

所述第二放大器，用于对微机电系统传声器输出的一路语音信号进行放大，输出至带通滤波器；

所述带通滤波器，用于对输入的语音信号进行滤波处理，输出至数字音频处理器；

所述比较器，用于将收到的语音信号与阈值进行比较，根据比较结果产生唤醒触发信号，并发送至数字音频处理器；

所述光纤传声器处理电路，用于接收光纤传声器输出的语音信号，处理后输出至数字音频处理器；

所述数字音频处理器，用于根据唤醒触发信号，产生电源使能信号，并发送至电源管理芯片；还用于对带通滤波器输出的语音信号以及光纤传声器处理电路输出的语音信号进行音频处理，并将处理后的语音信号发送至信号处理模块；

所述电源管理芯片，用于根据电源使能信号，为光纤传声器处理电路提供电源。

作为上述装置的一种改进，所述比较器的具体实现过程为：

接收所述第一放大器输出的语音信号；

将语音信号与阈值进行比较，当语音信号大于阈值时，产生的唤醒触发信号为高电平，否则，产生的唤醒触发信号为低电平；

发送唤醒触发信号至所述数字音频处理器。

作为上述装置的一种改进，所述数字音频处理器包括信号处理单元和音频处理单元；其中，

所述信号处理单元，用于根据唤醒触发信号，产生电源使能信号，并发送至电源管理芯片；

所述音频处理单元，用于对带通滤波器输出的语音信号以及光纤传声器处理电路输出的语音信号进行音频处理，并将处理后的信号发送至信号处理模块。

作为上述装置的一种改进，所述信号处理单元的具体实现过程为：

接收所述比较器输出的唤醒触发信号；

判断唤醒触发信号，当唤醒触发信号为高电平时，产生的电源使能信号为高电平；

当唤醒触发信号在预设的时间段内均为低电平时，产生的电源使能信号为低电平；

发送电源使能信号至所述电源管理芯片。

作为上述装置的一种改进，所述电源管理芯片的具体实现过程为：

接收所述数字音频处理器输出的电源使能信号；

判断电源使能信号，当电源使能信号为高电平时，开启所述光纤传声器处理电路的电源，使所述装置进入高性能工作模式；否则，关闭所述光纤传声器处理电路的电源，使所述装置进入低功耗待机模式。

作为上述装置的一种改进，所述信号处理模块包括训练好的语音增强模型、特征提取单元和语音处理单元；其中，

所述特征提取单元，用于对数字音频处理器输出的两路语音信号进行融合，根据对数谱特征和梅尔频率倒谱系数，对融合后的语音信号进行特征提取，对提取的特征进行串联，然后扩帧，并输入语音处理单元；

所述语音处理单元，用于将特征提取单元输出的语音信号输入训练好的语音增强模型进行处理，得到抑制环境噪声和混响后的语音。

作为上述装置的一种改进，所述语音增强模型采用DNN模型，结构为1层输入层、4层隐藏层和1层输出层，其中，输入层包含960个神经单元；隐藏层为全连接层，分别包含1024、2048、2048和1024个神经单元，dropout为0.2；输出层包含805个神经单元，输入层和隐藏层均采用tanh激活函数，输出层采用线性回归算法。

作为上述装置的一种改进，所述语音增强模型的训练过程具体为：

以纯净语音与噪声仿真带噪语音构建训练集，对DNN模型进行训练，得到带噪语音特征与纯净语音特征之间的映射关系，获得DNN1模型；

以训练好的DNN1模型权重为初始权重，利用少量的所述装置接收的数据对DNN1模型的最后一层隐藏层和输出层的权重进行微调，得到训练好的语音增强模型DNN2。

作为上述装置的一种改进，所述微机电系统传声器为MEMS电容式传声器或者压电式传声器。

与现有技术相比，本发明的优势在于：

1、采用MEMS方法进行振动膜的设计和加工，提出在一个振动膜上同时实现低功耗的MEMS传声器如压电传声器和高灵敏度的光纤传声器的敏感结构，减小尺寸；

2、采用MEMS传声器和光纤传声器双模设计，同时实现低功耗待机和高性能拾音，兼顾功耗和性能要求；

3、通过单点实现两种方式拾音，完成高声音过载点设计目标，实现双模信号深度融合，提高拾音质量和可靠性；

4、独特的深度学习语音信号提取和增强方案，提高信噪比和语音质量，提高语音可懂度。

附图说明

图1是本发明的实施例1系统架构图；

图2(a)是本发明的实施例1外部结构主视图；

图2(b)是本发明的实施例1外部结构侧视图；

图2(c)是本发明的实施例1外部结构底视图；

图2(d)是本发明的实施例1外部结构俯视图；

图3(a)是本发明的实施例1内部组装图；

图3(b)是本发明的实施例1立体分解图；

图4是本发明的实施例1的MEMS振动膜结构图；

图5是本发明的实施例1MEMS振动膜在1Pa(1kHz)声压作用下的位移分布；

图6是本发明的实施例1采用差分电极提高灵敏度；

图7是本发明的实施例1的19个阵元串联组成阵列提高灵敏度和信噪比；

图8是本发明的实施例1的MEMS振动膜19个压电阵元连接方式；

图9(a)是本发明的实施例1比较器的输入信号与阈值比较的示意图；

图9(b)是本发明的实施例1比较器的输出信号示意图；

图10是本发明的实施例1基于迁移训练的DNN模型训练及测试系统框图；

图11是本发明的实施例1基于仿真数据的DNN模型训练系统框图。

具体实施方式

针对光纤传声器的最大声学过载点较低和功耗过高的问题，本发明提出设计一种新的装置，该装置通过结合两种不同传感类型的拾音单元，以实现低功耗待机、高灵敏度和高声学过载点的目标。本发明以光纤传声器和压电传声器组合为例，介绍该发明的装置设计、实施及其相应的信号处理方法，该装置可以同时实现压电传声器和光纤传声器两种拾音模式。通过结合低灵敏度压电传声器和高灵敏度光纤传声器，既可实现弱声音信号的有效拾取，又能保证大声压级场景下的拾音线性度，提高最大声压过载点。同时，本发明利用压电传声器的压电特性，可实现系统在低功耗待机模式和高性能工作模式之间自动切换。

另外，在传声器实际工作过程中，复杂声学环境中的噪声和混响等会严重降低语音质量和语音可懂度，影响系统性能。针对该问题，本发明提出采用单通道和阵列语音信号处理方法进行语音增强，可采用传统单通道和阵列语音增强方法也可采用基于机器学习的语音增强方法。其中利用传统语音增强算法如谱减法可以首先对各通道独立处理，再根据信号相关性和信噪比等进行数据融合；基于机器学习的语音增强方法可采用基于声学场景分析的机器学习模型，通过使用两种拾音方式学习声学场景的噪声特性、房间特性以及说话人语音特性和空间特性等，并最终融合两种拾音方式的声信号实现环境噪声和混响抑制，从而提取出目标语音信号。

本发明所提的光纤传声器系统通过结合MEMS振动膜能够克服传统光纤传声器最大声压过载点过低以及功耗过大的问题，并且通过单点两种类型信号相互协作与融合，显著提高有效拾音距离以及语音可懂度。

本发明公开的高灵敏度低功耗拾音装置包括硬件装置和信号处理方法。硬件装置的主要功能是通过设计MEMS振动膜，集成低灵敏度低功耗的压电传声器和高灵敏度高功耗的光纤传声器，使拾音装置在单点同时获取两种信号，并将MEMS振动膜作为系统低功耗待机/高性能工作模式切换的开关；信号处理方法的主要功能是融合压电传声器和光纤传声器接收信号，提高系统最大声压过载点，并通过单通道或阵列语音增强算法实现环境噪声和混响抑制。整体系统框图如图1所示。

本发明公开了一种双模拾音装置，该装置通过结合两种不同传感类型的拾音单元，以实现低功耗待机、高灵敏度和高声学过载点的目标。这两种不同类型的传感单元可以是光纤传声器和MEMS电容式传声器组合，也可以是光纤传声器和压电传声器的组合，亦可以是其他类型的高功耗高灵敏度和低功耗低灵敏度的拾音单元组合。

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

如图1所示，本发明的实施例1提供了一种双模拾音装置。本实施例以光纤传声器和压电传声器组合为例，阐述该发明的装置设计以及相应的信号处理方法。在这种组合装置中具有一个带有压电换能器的振动膜，该振动膜的铝上电极作为光纤传声器的激光反射面，可以在单点上同时实现低功耗的压电传声器和高灵敏度的光纤传声器两种拾音方式。在无外界声音激励时，较高功耗的高灵敏度拾音单元处于低功耗待机模式；当有外界声音激励时，可利用较低功耗的低灵敏度拾音单元对整个光纤传声器系统进行触发，使系统进入高性能双模工作模式。本发明在高性能双模工作模式下，通过融合高灵敏度光纤传声器和低灵敏度压电传声器的接收语音信号，既可实现弱语音信号的有效拾取，又能保证大声压级场景下的拾音线性度，提高最大声压过载点；同时，结合两个传声器拾音，可进行阵列信号处理实现复杂环境中的语音信号增强。

外部结构的主视图、侧视图、底视图和俯视图分别如图2(a)、2(b)、2(c)和2(d)所示，内部电源和信号通过5线接口引出。该高灵敏度低功耗拾音装置的内部组装图如图3(a)所示，立体分解图如图3(b)所示，主要由防护帽、防水防尘膜、隔离及固定支架1、MEMS振动膜、隔离及固定支架2、自聚焦透镜、外壳主体结构、3dB光耦合器、激光器和光电探测器及信号调理电路、外壳底座组成。该装置的功耗低至毫瓦量级，同时灵敏度可达数百mv/pa。

1MEMS振动膜的结构

光纤传声器采用MEMS方法制备带有压电换能器的振动膜，振动膜的结构如图4所示。图中各部分材料为：

该MEMS振动膜具有Mo/AlN/Al压电三明治结构，其中Ti/Mo层为下电层、AlN层为压电层、Ti/Al层为上电层。在外界声音声压作用下，该振动膜发生振动和形变，图5为该振动膜在1Pa(1kHz)声压作用下的位移示意图。通过实验可知在振膜中心位置有最大振幅。在振动膜应力集中的区域将产生电荷，通过拾取该电荷并进行放大处理，可以得到与外界声音信号相关的电压信号。同时，由于振动膜受压形变时，在振膜的中心区域和边缘区域将产生不同极性电荷，通过对上电极的优化设计，实现差分电极，可以有效提高压电传声器的灵敏度，结构示意图如图6所示。为了进一步提高压电传声器的灵敏度，将19个阵元组成阵列，阵元间采用串联的方式进行电极连接，如图7所示。另外，如图8所示，通过开关阵列控制串联的19个压电阵元，可以在灵敏度和最大声学过载点之间进行折中选择。

2系统低功耗待机和触发方案

由于MEMS振动膜中采用AlN材料的压电效应，压电传声器具有在没有外加电源驱动的情况下由外界声刺激致动的固有能力，这种物理特性使压电传声器具有超低功耗检测的特性。外界声音信号引起振膜的机械应力，由压电效应产生电荷，可以采用超低功耗电路将该电荷转换成电压，并通过简单的增益电路进行信号放大。利用压电传声器的这种性能，可以针对特定应用选择最小声输入信号阈值。当外界声音输入信号小于该阈值时，系统处于低功耗待机模式。光纤传声器处理电路和DSP处于休眠状态，仅压电传声器持续采集音频信号，系统整体功耗低至1mW以内。当外界声音输入信号大于该阈值时，压电传声器输出的微弱电压信号经低功耗运放放大后，与电压阈值进行比较，如图9(a)所示。若超过电压阈值，则比较器输出高电平，如图9(b)所示。从而唤醒DSP，并使能光纤传声器处理电路电源，使光纤传声器也可进行声波采集处理，系统进入高性能模式，当DSP内部的TIMER持续60s监测唤醒触发信号均为低电平时，再次关闭光纤传声器处理电路电源，从而使光纤传声器处理电路和DSP再次进入休眠状态。特别注意的是，该系统保持了快速触发和缓慢关闭的机制，充分利用了语音特性，确保语音间歇段不会频繁切换系统开关。最终，系统在保证高灵敏度、高稳定拾音前提下，可以做到低功耗待机，在电池供电模式下，可以有效延长系统工作时间。

3光纤传声器

本发明将压电MEMS振动膜的铝上电极作为光纤传声器的激光反射面，在高性能工作模式下，可在单点上同时获取压电传声器和光纤传声器拾取的两种信号。光纤传声器可采用强度型光纤传声器、光栅型光纤传声器和干涉型光纤传声器中的任意一种。如采用强度型光纤传声器，可将激光源对准MEMS振动膜的中心位置，振动膜接收到声信号产生振动时，传输激光的光程差发生改变，该变化经过输出光纤、探测器以及放大电路即可获得与声信号相关的电信号。如采用光栅型传声器，可将光栅粘接到MEMS振动膜上，声音振动导致光纤光栅发生形变，使光栅中心波长发生改变，通过检测波长变化量即可实现声信号探测。如采用干涉型光纤传声器，可通过构造由自聚焦透镜和MEMS振动膜组成的动态Fizeau干涉光路，将外界声压对MEMS振动膜的作用转化为对光路相位的调制，对得到的干涉光信号直接光电转换后，再通过相位生成载波解调技术(PGC)还原声音信号。采用其他干涉原理的光纤传声器也可以作为本发明的高灵敏高功耗拾音单元使用。

4系统信号处理方法

在传声器实际工作过程中，复杂声学环境中的噪声和混响等会严重降低语音质量和语音可懂度，影响系统性能。传统语音提取技术只适用于平稳态噪声，为了克服传统语音提取和增强系统的固有局限，本发明提出基于应用声学场景分析深度学习的方法，通过融合单点上的两种拾音方式学习声学场景的噪声特性、房间特性以及说话人语音特性和空间特性等，既可以有效提高最大声压过载点，又可以降低各种噪声干扰和混响的影响，提高语音可懂度。

由于基于深度学习的算法需要大批量的训练数据对模型进行训练，当数据集较小时，模型的鲁棒性会降低。针对本发明所提的光纤传声器系统的训练数据需要通过实际测量获得，因此难以获取大批量数据对DNN网络进行训练。进一步研究表明，利用一种语言的语音数据集对DNN模型进行训练，在另外一种语言数据集上进行测试时，由于两种语言的特性不匹配，模型的泛化能力会降低。最后，合成的训练集和实际应用环境拾音也存在匹配性问题，需要提高实际应用场景的性能。针对此问题，本发明采用迁移学习方法，根据不同种类语音之间的相似性，首先利用容易获取的仿真语音数据集对DNN模型进行训练，使网络学习到相似的语音特征和噪声特性，然后以训练好的DNN模型权重为初始权重，利用少量的目标种类语音对DNN模型的部分权重进行调整。如图10所示，首先利用大量的纯净语音与噪声仿真带噪语音构建训练集，对DNN模型进行训练，得到带噪语音特征与纯净语音特征之间的映射关系，即DNN1模型，以训练好的DNN1模型权重为初始权重，利用少量的本装置接收的数据对DNN1模型的最后一层隐藏层以及输出层的权重进行微调，得到训练好的语音增强模型DNN2。对仿真数据的DNN模型训练框图如图11所示。

DNN模型结构为1层输入层、4层隐藏层和1层输出层，其中，输入层包含960个神经单元(每帧包含161维对数谱和31维梅尔倒谱系数，每个样本有5帧数据)；隐藏层为全连接层分别包含1024、2048、2048、1024个神经单元，dropout为0.2；输出层包含805个神经单元(161维对数谱×5帧)。输出层采用线性回归，其余层均采用tanh激活函数。

另一方面，由于在高性能模式下，有两种类型的拾音单元同时工作，两个拾音单元拾取的声信号既有相似性，又相互补充。进一步可采用输入两个拾音单元的信号，提取其特征，构造目标函数和代价函数，并通过深度学习方法训练模型，得到最终的深度学习语音增强模型。

实施例2

本发明的实施例2提供了采用光纤传声器与MEMS电容式传声器组合。本发明本质上是在一个装置内结合高低不同灵敏度、高低不同功耗的拾音单元，通过二者的融合实现低功耗、高灵敏度和高声压过载点的目标。在光纤传声器与MEMS电容式传声器组合的方式下，MEMS振动膜上不再需要使用压电材料，而是需要给MEMS振动膜加上一个背极，系统其余组成与实施例1基本一致。

实施例3

本发明的实施例3基于实施例1或实施例2提供的硬件系统组成，与实施例1和实施例2的区别在于信号处理模块。

本信号处理模块方法如下：

两个拾音单元拾取的声信号采用传统的单通道语音增强方法如谱减法等进行各自通道的处理，然后根据信号相关性和信噪比等进行数据融合；也可以采用传统的阵列信号处理如波束形成或者基于阵列后处理的方法实现信号的提取和增强。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种双模拾音装置，其特征在于，所述装置包括：微机电系统传声器、光纤传声器、微机电系统振动膜、工作模式切换模块和信号处理模块；当微机电系统传声器和光纤传声器同时工作时，所述装置处于高性能工作模式；当只有微机电系统传声器工作时，所述装置处于低功耗待机模式；其中，

所述工作模式切换模块，用于将微机电系统传声器采集的语音信号与阈值进行比较，当外界声音输入信号小于该阈值时，系统处于低功耗待机模式；当外界声音输入信号大于该阈值时，系统处于高性能模式；还用于对微机电系统传声器和光纤传声器采集的语音信号均进行音频处理，并发送至信号处理模块；

2.根据权利要求1所述的双模拾音装置，其特征在于，所述工作模式切换模块包括第一放大器、第二放大器、比较器、带通滤波器、数字音频处理器、光纤传声器处理电路和电源管理芯片；其中，

3.根据权利要求2所述的双模拾音装置，其特征在于，所述比较器的具体实现过程为：

接收所述第一放大器输出的语音信号；

发送唤醒触发信号至所述数字音频处理器。

4.根据权利要求3所述的双模拾音装置，其特征在于，所述数字音频处理器包括信号处理单元和音频处理单元；其中，

5.根据权利要求4所述的双模拾音装置，其特征在于，所述信号处理单元的具体实现过程为：

接收所述比较器输出的唤醒触发信号；

发送电源使能信号至所述电源管理芯片。

6.根据权利要求5所述的双模拾音装置，其特征在于，所述电源管理芯片的具体实现过程为：

接收所述数字音频处理器输出的电源使能信号；

7.根据权利要求6所述的双模拾音装置，其特征在于，所述信号处理模块包括训练好的语音增强模型、特征提取单元和语音处理单元；其中，

8.根据权利要求7所述的双模拾音装置，其特征在于，所述语音增强模型采用DNN模型，结构为1层输入层、4层隐藏层和1层输出层，其中，输入层包含960个神经单元；隐藏层为全连接层，分别包含1024、2048、2048和1024个神经单元，dropout为0.2；输出层包含805个神经单元，输入层和隐藏层均采用tanh激活函数，输出层采用线性回归算法。

9.根据权利要求8所述的双模拾音装置，其特征在于，所述语音增强模型的训练过程具体为：

10.根据权利要求9所述的双模拾音装置，其特征在于，所述微机电系统传声器为MEMS电容式传声器或者压电式传声器。