CN113923580B - 一种双模拾音装置 - Google Patents
一种双模拾音装置 Download PDFInfo
- Publication number
- CN113923580B CN113923580B CN202010578889.7A CN202010578889A CN113923580B CN 113923580 B CN113923580 B CN 113923580B CN 202010578889 A CN202010578889 A CN 202010578889A CN 113923580 B CN113923580 B CN 113923580B
- Authority
- CN
- China
- Prior art keywords
- microphone
- signal
- voice
- optical fiber
- power supply
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims abstract description 78
- 239000013307 optical fiber Substances 0.000 claims abstract description 51
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 230000007613 environmental effect Effects 0.000 claims abstract description 7
- 230000000452 restraining effect Effects 0.000 claims abstract description 5
- 239000000835 fiber Substances 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 210000005036 nerve Anatomy 0.000 claims description 5
- 238000004088 simulation Methods 0.000 claims description 5
- 230000001537 neural effect Effects 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 230000035945 sensitivity Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 11
- 230000006872 improvement Effects 0.000 description 9
- 238000013461 design Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 8
- 238000003672 processing method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 239000012528 membrane Substances 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 2
- 229910052782 aluminium Inorganic materials 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R31/00—Apparatus or processes specially adapted for the manufacture of transducers or diaphragms therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B10/00—Transmission systems employing electromagnetic waves other than radio-waves, e.g. infrared, visible or ultraviolet light, or employing corpuscular radiation, e.g. quantum communication
- H04B10/25—Arrangements specific to fibre transmission
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/003—Mems transducers or their use
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Manufacturing & Machinery (AREA)
- Electromagnetism (AREA)
- Computer Networks & Wireless Communication (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种双模拾音装置,该装置包括:微机电系统传声器、光纤传声器、微机电系统振动膜、工作模式切换模块和信号处理模块;当微机电系统传声器和光纤传声器同时工作时,为高性能工作模式;当只有微机电系统传声器工作时为低功耗待机模式;两种传声器,均用于采集语音信号;微机电系统振动膜,用于为微机电传声器采集语音信号提供机械应力,还用于为光纤传声器采集语音信号提供激光反射面;工作模式切换模块,用于根据微机电系统传声器采集的语音信号与阈值的比较结果实现装置的工作模式切换;还用于进行音频处理并发送至信号处理模块;信号处理模块,用于通过特征提取和语音增强处理,得到抑制环境噪声和混响后的语音。
Description
技术领域
发明涉及电声技术领域,具体涉及一种双模拾音装置,尤其是一种提高灵敏度并降低功耗的双模拾音装置。
背景技术
目前驻极体电容传声器(ECM,Electret Condenser Micphone)以及微机电系统(MEMS,Micro-Electro-Mechanical System)传声器是两种应用最广泛的传声器类型。与ECM相比,MEMS传声器具有耐热性强、稳定性高以及体积小等优点。传声器正逐步向着轻型化、小尺寸、无源、便携式以及恶劣环境应用等方面发展,因此MEMS传声器应用领域越来越广泛,正逐步取代ECM传声器。MEMS传声器包括MEMS电容式传声器和压电式传声器,都具有体积小、功耗低且最大声学过载点高的优点,通常而言,其功耗仅为毫瓦量级而最大声学过载点通过设计可达125dB以上。然而在微弱声信号探测、远距离目标探测、边境预警监控等应用场景下,MEMS传声器的灵敏度往往过低无法达到需求。
光纤传声器与传统电声传声器相比具有诸多优势,如灵敏度高、抗电磁干扰能力强、传输损耗低、体积小、重量轻等。因此在对传声器系统灵敏度要求较高的许多场景下,光纤传声器被广泛的研究和应用。按照工作原理的不同,光纤传声器主要分为强度型、光纤光栅型和干涉型。强度型光纤传声器是通过直接检测光强的变化得到声音信息,具有结构简单、易于解调等特点;光纤光栅型传声器是通过检测光栅波长变化量实现声信号探测,具有体积小、成本低、易于组成阵列等特点;干涉型光纤传声器是通过检测相位的变化实现声信号的测量,因此其灵敏度较高。然而,光纤传声器相对于传统MEMS传声器,最大声学过载点较低,常见的光纤传声器最大声学过载点都低于120dB,因而采用光纤传声器系统拾取声信号时容易出现过载现象。另外,光纤传声器相较于MEMS传声器,功耗较高,目前常见的光纤传声器功耗可达几百毫瓦。
发明内容
本发明的目的在于克服现有技术缺陷,提出了一种双模拾音装置。
为了实现上述目的,本发明提出了一种双模拾音装置,所述装置包括:微机电系统传声器、光纤传声器、微机电系统振动膜、工作模式切换模块和信号处理模块;当微机电系统传声器和光纤传声器同时工作时,所述装置处于高性能工作模式;当只有微机电系统传声器工作时,所述装置处于低功耗待机模式;其中,
所述微机电系统传声器,用于采集语音信号,并发送至工作模式切换模块;
所述光纤传声器,用于采集语音信号,并发送至工作模式切换模块;
所述微机电系统振动膜,用于为微机电传声器采集语音信号提供所需要的机械应力,还用于为光纤传声器采集语音信号提供激光反射面;
所述工作模式切换模块,用于将微机电系统传声器采集的语音信号与阈值进行比较,根据比较结果实现所述装置在两种工作模式间的切换;还用于对语音信号进行音频处理,并发送至信号处理模块;
所述信号处理模块,用于对语音信号进行处理,通过特征提取和语音增强处理,得到抑制环境噪声和混响后的语音。
作为上述装置的一种改进,所述工作模式切换模块包括第一放大器、第二放大器、比较器、带通滤波器、数字音频处理器、光纤传声器处理电路和电源管理芯片;其中,
所述第一放大器,用于对微机电系统传声器输出的一路语音信号进行放大,输出至比较器;
所述第二放大器,用于对微机电系统传声器输出的一路语音信号进行放大,输出至带通滤波器;
所述带通滤波器,用于对输入的语音信号进行滤波处理,输出至数字音频处理器;
所述比较器,用于将收到的语音信号与阈值进行比较,根据比较结果产生唤醒触发信号,并发送至数字音频处理器;
所述光纤传声器处理电路,用于接收光纤传声器输出的语音信号,处理后输出至数字音频处理器;
所述数字音频处理器,用于根据唤醒触发信号,产生电源使能信号,并发送至电源管理芯片;还用于对带通滤波器输出的语音信号以及光纤传声器处理电路输出的语音信号进行音频处理,并将处理后的语音信号发送至信号处理模块;
所述电源管理芯片,用于根据电源使能信号,为光纤传声器处理电路提供电源。
作为上述装置的一种改进,所述比较器的具体实现过程为:
接收所述第一放大器输出的语音信号;
将语音信号与阈值进行比较,当语音信号大于阈值时,产生的唤醒触发信号为高电平,否则,产生的唤醒触发信号为低电平;
发送唤醒触发信号至所述数字音频处理器。
作为上述装置的一种改进,所述数字音频处理器包括信号处理单元和音频处理单元;其中,
所述信号处理单元,用于根据唤醒触发信号,产生电源使能信号,并发送至电源管理芯片;
所述音频处理单元,用于对带通滤波器输出的语音信号以及光纤传声器处理电路输出的语音信号进行音频处理,并将处理后的信号发送至信号处理模块。
作为上述装置的一种改进,所述信号处理单元的具体实现过程为:
接收所述比较器输出的唤醒触发信号;
判断唤醒触发信号,当唤醒触发信号为高电平时,产生的电源使能信号为高电平;
当唤醒触发信号在预设的时间段内均为低电平时,产生的电源使能信号为低电平;
发送电源使能信号至所述电源管理芯片。
作为上述装置的一种改进,所述电源管理芯片的具体实现过程为:
接收所述数字音频处理器输出的电源使能信号;
判断电源使能信号,当电源使能信号为高电平时,开启所述光纤传声器处理电路的电源,使所述装置进入高性能工作模式;否则,关闭所述光纤传声器处理电路的电源,使所述装置进入低功耗待机模式。
作为上述装置的一种改进,所述信号处理模块包括训练好的语音增强模型、特征提取单元和语音处理单元;其中,
所述特征提取单元,用于对数字音频处理器输出的两路语音信号进行融合,根据对数谱特征和梅尔频率倒谱系数,对融合后的语音信号进行特征提取,对提取的特征进行串联,然后扩帧,并输入语音处理单元;
所述语音处理单元,用于将特征提取单元输出的语音信号输入训练好的语音增强模型进行处理,得到抑制环境噪声和混响后的语音。
作为上述装置的一种改进,所述语音增强模型采用DNN模型,结构为1层输入层、4层隐藏层和1层输出层,其中,输入层包含960个神经单元;隐藏层为全连接层,分别包含1024、2048、2048和1024个神经单元,dropout为0.2;输出层包含805个神经单元,输入层和隐藏层均采用tanh激活函数,输出层采用线性回归算法。
作为上述装置的一种改进,所述语音增强模型的训练过程具体为:
以纯净语音与噪声仿真带噪语音构建训练集,对DNN模型进行训练,得到带噪语音特征与纯净语音特征之间的映射关系,获得DNN1模型;
以训练好的DNN1模型权重为初始权重,利用少量的所述装置接收的数据对DNN1模型的最后一层隐藏层和输出层的权重进行微调,得到训练好的语音增强模型DNN2。
作为上述装置的一种改进,所述微机电系统传声器为MEMS电容式传声器或者压电式传声器。
与现有技术相比,本发明的优势在于:
1、采用MEMS方法进行振动膜的设计和加工,提出在一个振动膜上同时实现低功耗的MEMS传声器如压电传声器和高灵敏度的光纤传声器的敏感结构,减小尺寸;
2、采用MEMS传声器和光纤传声器双模设计,同时实现低功耗待机和高性能拾音,兼顾功耗和性能要求;
3、通过单点实现两种方式拾音,完成高声音过载点设计目标,实现双模信号深度融合,提高拾音质量和可靠性;
4、独特的深度学习语音信号提取和增强方案,提高信噪比和语音质量,提高语音可懂度。
附图说明
图1是本发明的实施例1系统架构图;
图2(a)是本发明的实施例1外部结构主视图;
图2(b)是本发明的实施例1外部结构侧视图;
图2(c)是本发明的实施例1外部结构底视图;
图2(d)是本发明的实施例1外部结构俯视图;
图3(a)是本发明的实施例1内部组装图;
图3(b)是本发明的实施例1立体分解图;
图4是本发明的实施例1的MEMS振动膜结构图;
图5是本发明的实施例1MEMS振动膜在1Pa(1kHz)声压作用下的位移分布;
图6是本发明的实施例1采用差分电极提高灵敏度;
图7是本发明的实施例1的19个阵元串联组成阵列提高灵敏度和信噪比;
图8是本发明的实施例1的MEMS振动膜19个压电阵元连接方式;
图9(a)是本发明的实施例1比较器的输入信号与阈值比较的示意图;
图9(b)是本发明的实施例1比较器的输出信号示意图;
图10是本发明的实施例1基于迁移训练的DNN模型训练及测试系统框图;
图11是本发明的实施例1基于仿真数据的DNN模型训练系统框图。
具体实施方式
针对光纤传声器的最大声学过载点较低和功耗过高的问题,本发明提出设计一种新的装置,该装置通过结合两种不同传感类型的拾音单元,以实现低功耗待机、高灵敏度和高声学过载点的目标。本发明以光纤传声器和压电传声器组合为例,介绍该发明的装置设计、实施及其相应的信号处理方法,该装置可以同时实现压电传声器和光纤传声器两种拾音模式。通过结合低灵敏度压电传声器和高灵敏度光纤传声器,既可实现弱声音信号的有效拾取,又能保证大声压级场景下的拾音线性度,提高最大声压过载点。同时,本发明利用压电传声器的压电特性,可实现系统在低功耗待机模式和高性能工作模式之间自动切换。
另外,在传声器实际工作过程中,复杂声学环境中的噪声和混响等会严重降低语音质量和语音可懂度,影响系统性能。针对该问题,本发明提出采用单通道和阵列语音信号处理方法进行语音增强,可采用传统单通道和阵列语音增强方法也可采用基于机器学习的语音增强方法。其中利用传统语音增强算法如谱减法可以首先对各通道独立处理,再根据信号相关性和信噪比等进行数据融合;基于机器学习的语音增强方法可采用基于声学场景分析的机器学习模型,通过使用两种拾音方式学习声学场景的噪声特性、房间特性以及说话人语音特性和空间特性等,并最终融合两种拾音方式的声信号实现环境噪声和混响抑制,从而提取出目标语音信号。
本发明所提的光纤传声器系统通过结合MEMS振动膜能够克服传统光纤传声器最大声压过载点过低以及功耗过大的问题,并且通过单点两种类型信号相互协作与融合,显著提高有效拾音距离以及语音可懂度。
本发明公开的高灵敏度低功耗拾音装置包括硬件装置和信号处理方法。硬件装置的主要功能是通过设计MEMS振动膜,集成低灵敏度低功耗的压电传声器和高灵敏度高功耗的光纤传声器,使拾音装置在单点同时获取两种信号,并将MEMS振动膜作为系统低功耗待机/高性能工作模式切换的开关;信号处理方法的主要功能是融合压电传声器和光纤传声器接收信号,提高系统最大声压过载点,并通过单通道或阵列语音增强算法实现环境噪声和混响抑制。整体系统框图如图1所示。
本发明公开了一种双模拾音装置,该装置通过结合两种不同传感类型的拾音单元,以实现低功耗待机、高灵敏度和高声学过载点的目标。这两种不同类型的传感单元可以是光纤传声器和MEMS电容式传声器组合,也可以是光纤传声器和压电传声器的组合,亦可以是其他类型的高功耗高灵敏度和低功耗低灵敏度的拾音单元组合。
下面结合附图和实施例对本发明的技术方案进行详细的说明。
实施例1
如图1所示,本发明的实施例1提供了一种双模拾音装置。本实施例以光纤传声器和压电传声器组合为例,阐述该发明的装置设计以及相应的信号处理方法。在这种组合装置中具有一个带有压电换能器的振动膜,该振动膜的铝上电极作为光纤传声器的激光反射面,可以在单点上同时实现低功耗的压电传声器和高灵敏度的光纤传声器两种拾音方式。在无外界声音激励时,较高功耗的高灵敏度拾音单元处于低功耗待机模式;当有外界声音激励时,可利用较低功耗的低灵敏度拾音单元对整个光纤传声器系统进行触发,使系统进入高性能双模工作模式。本发明在高性能双模工作模式下,通过融合高灵敏度光纤传声器和低灵敏度压电传声器的接收语音信号,既可实现弱语音信号的有效拾取,又能保证大声压级场景下的拾音线性度,提高最大声压过载点;同时,结合两个传声器拾音,可进行阵列信号处理实现复杂环境中的语音信号增强。
外部结构的主视图、侧视图、底视图和俯视图分别如图2(a)、2(b)、2(c)和2(d)所示,内部电源和信号通过5线接口引出。该高灵敏度低功耗拾音装置的内部组装图如图3(a)所示,立体分解图如图3(b)所示,主要由防护帽、防水防尘膜、隔离及固定支架1、MEMS振动膜、隔离及固定支架2、自聚焦透镜、外壳主体结构、3dB光耦合器、激光器和光电探测器及信号调理电路、外壳底座组成。该装置的功耗低至毫瓦量级,同时灵敏度可达数百mv/pa。
1MEMS振动膜的结构
光纤传声器采用MEMS方法制备带有压电换能器的振动膜,振动膜的结构如图4所示。图中各部分材料为:该MEMS振动膜具有Mo/AlN/Al压电三明治结构,其中Ti/Mo层为下电层、AlN层为压电层、Ti/Al层为上电层。在外界声音声压作用下,该振动膜发生振动和形变,图5为该振动膜在1Pa(1kHz)声压作用下的位移示意图。通过实验可知在振膜中心位置有最大振幅。在振动膜应力集中的区域将产生电荷,通过拾取该电荷并进行放大处理,可以得到与外界声音信号相关的电压信号。同时,由于振动膜受压形变时,在振膜的中心区域和边缘区域将产生不同极性电荷,通过对上电极的优化设计,实现差分电极,可以有效提高压电传声器的灵敏度,结构示意图如图6所示。为了进一步提高压电传声器的灵敏度,将19个阵元组成阵列,阵元间采用串联的方式进行电极连接,如图7所示。另外,如图8所示,通过开关阵列控制串联的19个压电阵元,可以在灵敏度和最大声学过载点之间进行折中选择。
2系统低功耗待机和触发方案
由于MEMS振动膜中采用AlN材料的压电效应,压电传声器具有在没有外加电源驱动的情况下由外界声刺激致动的固有能力,这种物理特性使压电传声器具有超低功耗检测的特性。外界声音信号引起振膜的机械应力,由压电效应产生电荷,可以采用超低功耗电路将该电荷转换成电压,并通过简单的增益电路进行信号放大。利用压电传声器的这种性能,可以针对特定应用选择最小声输入信号阈值。当外界声音输入信号小于该阈值时,系统处于低功耗待机模式。光纤传声器处理电路和DSP处于休眠状态,仅压电传声器持续采集音频信号,系统整体功耗低至1mW以内。当外界声音输入信号大于该阈值时,压电传声器输出的微弱电压信号经低功耗运放放大后,与电压阈值进行比较,如图9(a)所示。若超过电压阈值,则比较器输出高电平,如图9(b)所示。从而唤醒DSP,并使能光纤传声器处理电路电源,使光纤传声器也可进行声波采集处理,系统进入高性能模式,当DSP内部的TIMER持续60s监测唤醒触发信号均为低电平时,再次关闭光纤传声器处理电路电源,从而使光纤传声器处理电路和DSP再次进入休眠状态。特别注意的是,该系统保持了快速触发和缓慢关闭的机制,充分利用了语音特性,确保语音间歇段不会频繁切换系统开关。最终,系统在保证高灵敏度、高稳定拾音前提下,可以做到低功耗待机,在电池供电模式下,可以有效延长系统工作时间。
3光纤传声器
本发明将压电MEMS振动膜的铝上电极作为光纤传声器的激光反射面,在高性能工作模式下,可在单点上同时获取压电传声器和光纤传声器拾取的两种信号。光纤传声器可采用强度型光纤传声器、光栅型光纤传声器和干涉型光纤传声器中的任意一种。如采用强度型光纤传声器,可将激光源对准MEMS振动膜的中心位置,振动膜接收到声信号产生振动时,传输激光的光程差发生改变,该变化经过输出光纤、探测器以及放大电路即可获得与声信号相关的电信号。如采用光栅型传声器,可将光栅粘接到MEMS振动膜上,声音振动导致光纤光栅发生形变,使光栅中心波长发生改变,通过检测波长变化量即可实现声信号探测。如采用干涉型光纤传声器,可通过构造由自聚焦透镜和MEMS振动膜组成的动态Fizeau干涉光路,将外界声压对MEMS振动膜的作用转化为对光路相位的调制,对得到的干涉光信号直接光电转换后,再通过相位生成载波解调技术(PGC)还原声音信号。采用其他干涉原理的光纤传声器也可以作为本发明的高灵敏高功耗拾音单元使用。
4系统信号处理方法
在传声器实际工作过程中,复杂声学环境中的噪声和混响等会严重降低语音质量和语音可懂度,影响系统性能。传统语音提取技术只适用于平稳态噪声,为了克服传统语音提取和增强系统的固有局限,本发明提出基于应用声学场景分析深度学习的方法,通过融合单点上的两种拾音方式学习声学场景的噪声特性、房间特性以及说话人语音特性和空间特性等,既可以有效提高最大声压过载点,又可以降低各种噪声干扰和混响的影响,提高语音可懂度。
由于基于深度学习的算法需要大批量的训练数据对模型进行训练,当数据集较小时,模型的鲁棒性会降低。针对本发明所提的光纤传声器系统的训练数据需要通过实际测量获得,因此难以获取大批量数据对DNN网络进行训练。进一步研究表明,利用一种语言的语音数据集对DNN模型进行训练,在另外一种语言数据集上进行测试时,由于两种语言的特性不匹配,模型的泛化能力会降低。最后,合成的训练集和实际应用环境拾音也存在匹配性问题,需要提高实际应用场景的性能。针对此问题,本发明采用迁移学习方法,根据不同种类语音之间的相似性,首先利用容易获取的仿真语音数据集对DNN模型进行训练,使网络学习到相似的语音特征和噪声特性,然后以训练好的DNN模型权重为初始权重,利用少量的目标种类语音对DNN模型的部分权重进行调整。如图10所示,首先利用大量的纯净语音与噪声仿真带噪语音构建训练集,对DNN模型进行训练,得到带噪语音特征与纯净语音特征之间的映射关系,即DNN1模型,以训练好的DNN1模型权重为初始权重,利用少量的本装置接收的数据对DNN1模型的最后一层隐藏层以及输出层的权重进行微调,得到训练好的语音增强模型DNN2。对仿真数据的DNN模型训练框图如图11所示。
DNN模型结构为1层输入层、4层隐藏层和1层输出层,其中,输入层包含960个神经单元(每帧包含161维对数谱和31维梅尔倒谱系数,每个样本有5帧数据);隐藏层为全连接层分别包含1024、2048、2048、1024个神经单元,dropout为0.2;输出层包含805个神经单元(161维对数谱×5帧)。输出层采用线性回归,其余层均采用tanh激活函数。
另一方面,由于在高性能模式下,有两种类型的拾音单元同时工作,两个拾音单元拾取的声信号既有相似性,又相互补充。进一步可采用输入两个拾音单元的信号,提取其特征,构造目标函数和代价函数,并通过深度学习方法训练模型,得到最终的深度学习语音增强模型。
实施例2
本发明的实施例2提供了采用光纤传声器与MEMS电容式传声器组合。本发明本质上是在一个装置内结合高低不同灵敏度、高低不同功耗的拾音单元,通过二者的融合实现低功耗、高灵敏度和高声压过载点的目标。在光纤传声器与MEMS电容式传声器组合的方式下,MEMS振动膜上不再需要使用压电材料,而是需要给MEMS振动膜加上一个背极,系统其余组成与实施例1基本一致。
实施例3
本发明的实施例3基于实施例1或实施例2提供的硬件系统组成,与实施例1和实施例2的区别在于信号处理模块。
本信号处理模块方法如下:
两个拾音单元拾取的声信号采用传统的单通道语音增强方法如谱减法等进行各自通道的处理,然后根据信号相关性和信噪比等进行数据融合;也可以采用传统的阵列信号处理如波束形成或者基于阵列后处理的方法实现信号的提取和增强。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种双模拾音装置,其特征在于,所述装置包括:微机电系统传声器、光纤传声器、微机电系统振动膜、工作模式切换模块和信号处理模块;当微机电系统传声器和光纤传声器同时工作时,所述装置处于高性能工作模式;当只有微机电系统传声器工作时,所述装置处于低功耗待机模式;其中,
所述微机电系统传声器,用于采集语音信号,并发送至工作模式切换模块;
所述光纤传声器,用于采集语音信号,并发送至工作模式切换模块;
所述微机电系统振动膜,用于为微机电传声器采集语音信号提供所需要的机械应力,还用于为光纤传声器采集语音信号提供激光反射面;
所述工作模式切换模块,用于将微机电系统传声器采集的语音信号与阈值进行比较,当外界声音输入信号小于该阈值时,系统处于低功耗待机模式;当外界声音输入信号大于该阈值时,系统处于高性能模式;还用于对微机电系统传声器和光纤传声器采集的语音信号均进行音频处理,并发送至信号处理模块;
所述信号处理模块,用于对语音信号进行处理,通过特征提取和语音增强处理,得到抑制环境噪声和混响后的语音。
2.根据权利要求1所述的双模拾音装置,其特征在于,所述工作模式切换模块包括第一放大器、第二放大器、比较器、带通滤波器、数字音频处理器、光纤传声器处理电路和电源管理芯片;其中,
所述第一放大器,用于对微机电系统传声器输出的一路语音信号进行放大,输出至比较器;
所述第二放大器,用于对微机电系统传声器输出的一路语音信号进行放大,输出至带通滤波器;
所述带通滤波器,用于对输入的语音信号进行滤波处理,输出至数字音频处理器;
所述比较器,用于将收到的语音信号与阈值进行比较,根据比较结果产生唤醒触发信号,并发送至数字音频处理器;
所述光纤传声器处理电路,用于接收光纤传声器输出的语音信号,处理后输出至数字音频处理器;
所述数字音频处理器,用于根据唤醒触发信号,产生电源使能信号,并发送至电源管理芯片;还用于对带通滤波器输出的语音信号以及光纤传声器处理电路输出的语音信号进行音频处理,并将处理后的语音信号发送至信号处理模块;
所述电源管理芯片,用于根据电源使能信号,为光纤传声器处理电路提供电源。
3.根据权利要求2所述的双模拾音装置,其特征在于,所述比较器的具体实现过程为:
接收所述第一放大器输出的语音信号;
将语音信号与阈值进行比较,当语音信号大于阈值时,产生的唤醒触发信号为高电平,否则,产生的唤醒触发信号为低电平;
发送唤醒触发信号至所述数字音频处理器。
4.根据权利要求3所述的双模拾音装置,其特征在于,所述数字音频处理器包括信号处理单元和音频处理单元;其中,
所述信号处理单元,用于根据唤醒触发信号,产生电源使能信号,并发送至电源管理芯片;
所述音频处理单元,用于对带通滤波器输出的语音信号以及光纤传声器处理电路输出的语音信号进行音频处理,并将处理后的信号发送至信号处理模块。
5.根据权利要求4所述的双模拾音装置,其特征在于,所述信号处理单元的具体实现过程为:
接收所述比较器输出的唤醒触发信号;
判断唤醒触发信号,当唤醒触发信号为高电平时,产生的电源使能信号为高电平;
当唤醒触发信号在预设的时间段内均为低电平时,产生的电源使能信号为低电平;
发送电源使能信号至所述电源管理芯片。
6.根据权利要求5所述的双模拾音装置,其特征在于,所述电源管理芯片的具体实现过程为:
接收所述数字音频处理器输出的电源使能信号;
判断电源使能信号,当电源使能信号为高电平时,开启所述光纤传声器处理电路的电源,使所述装置进入高性能工作模式;否则,关闭所述光纤传声器处理电路的电源,使所述装置进入低功耗待机模式。
7.根据权利要求6所述的双模拾音装置,其特征在于,所述信号处理模块包括训练好的语音增强模型、特征提取单元和语音处理单元;其中,
所述特征提取单元,用于对数字音频处理器输出的两路语音信号进行融合,根据对数谱特征和梅尔频率倒谱系数,对融合后的语音信号进行特征提取,对提取的特征进行串联,然后扩帧,并输入语音处理单元;
所述语音处理单元,用于将特征提取单元输出的语音信号输入训练好的语音增强模型进行处理,得到抑制环境噪声和混响后的语音。
8.根据权利要求7所述的双模拾音装置,其特征在于,所述语音增强模型采用DNN模型,结构为1层输入层、4层隐藏层和1层输出层,其中,输入层包含960个神经单元;隐藏层为全连接层,分别包含1024、2048、2048和1024个神经单元,dropout为0.2;输出层包含805个神经单元,输入层和隐藏层均采用tanh激活函数,输出层采用线性回归算法。
9.根据权利要求8所述的双模拾音装置,其特征在于,所述语音增强模型的训练过程具体为:
以纯净语音与噪声仿真带噪语音构建训练集,对DNN模型进行训练,得到带噪语音特征与纯净语音特征之间的映射关系,获得DNN1模型;
以训练好的DNN1模型权重为初始权重,利用少量的所述装置接收的数据对DNN1模型的最后一层隐藏层和输出层的权重进行微调,得到训练好的语音增强模型DNN2。
10.根据权利要求9所述的双模拾音装置,其特征在于,所述微机电系统传声器为MEMS电容式传声器或者压电式传声器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010578889.7A CN113923580B (zh) | 2020-06-23 | 2020-06-23 | 一种双模拾音装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010578889.7A CN113923580B (zh) | 2020-06-23 | 2020-06-23 | 一种双模拾音装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113923580A CN113923580A (zh) | 2022-01-11 |
CN113923580B true CN113923580B (zh) | 2022-07-26 |
Family
ID=79231271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010578889.7A Active CN113923580B (zh) | 2020-06-23 | 2020-06-23 | 一种双模拾音装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113923580B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016162701A1 (en) * | 2015-04-09 | 2016-10-13 | Sintef Tto As | Speech recognition |
CN109506764A (zh) * | 2018-12-12 | 2019-03-22 | 电子科技大学 | 一种光纤mems麦克风阵列声波探测板及系统 |
EP3629598A1 (en) * | 2018-09-26 | 2020-04-01 | ams AG | Integrated optical transducer and method for fabricating an integrated optical transducer |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI327032B (en) * | 2006-12-29 | 2010-07-01 | Ind Tech Res Inst | Alternative sensing circuit for mems microphone and sensing method therefor |
US8190217B2 (en) * | 2010-01-04 | 2012-05-29 | Slevin Richard S | Dual mode electronic headset with local and remote focused microphones |
US8391517B2 (en) * | 2010-02-11 | 2013-03-05 | Silicon Audio, Inc. | Optical microphone packaging |
US10008990B2 (en) * | 2016-02-03 | 2018-06-26 | Infineon Technologies Ag | System and method for acoustic transducer supply |
US9975760B2 (en) * | 2016-06-28 | 2018-05-22 | Robert Bosch Gmbh | MEMS sensor device package housing with an embedded controllable device |
GB2565376B (en) * | 2017-08-11 | 2020-03-25 | Cirrus Logic Int Semiconductor Ltd | MEMS devices and processes |
-
2020
- 2020-06-23 CN CN202010578889.7A patent/CN113923580B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016162701A1 (en) * | 2015-04-09 | 2016-10-13 | Sintef Tto As | Speech recognition |
EP3629598A1 (en) * | 2018-09-26 | 2020-04-01 | ams AG | Integrated optical transducer and method for fabricating an integrated optical transducer |
CN109506764A (zh) * | 2018-12-12 | 2019-03-22 | 电子科技大学 | 一种光纤mems麦克风阵列声波探测板及系统 |
Non-Patent Citations (5)
Title |
---|
An optical fiber MEMS pressure sensor using microwave photonics filtering technique;Yiping Wang;《2017 25th Optical Fiber Sensors Conference (OFS)》;20170629;全文 * |
MEMS传声器封装结构的声学特性建模仿真研究;聂亚飞;《中国声学学会会议论文集》;20190930;全文 * |
MEMS双光纤位移声传感器设计与分析;李晓龙;《红外与激光工程》;20131024;全文 * |
光纤声波传感器研制及其去噪算法研究;张海鑫;《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》;20191215;全文 * |
基于MEMS的高灵敏度电容式低频传声器;宫铭举;《压电与声光》;20091031;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113923580A (zh) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10313796B2 (en) | VAD detection microphone and method of operating the same | |
US20190116428A1 (en) | Ultrasonic operation of a digital microphone | |
US8180082B2 (en) | Microphone unit, close-talking voice input device, information processing system, and method of manufacturing microphone unit | |
US8098853B2 (en) | Microphone unit and sound input apparatus | |
CN101543091A (zh) | 语音输入装置及其制造方法、信息处理系统 | |
EP2007167A2 (en) | Voice input-output device and communication device | |
CN103873977A (zh) | 基于多麦克风阵列波束成形的录音系统及其实现方法 | |
EP2280559A1 (en) | Audio input device, method for manufacturing the same, and information processing system | |
JP5166117B2 (ja) | 音声入力装置及びその製造方法、並びに、情報処理システム | |
CN112116918B (zh) | 语音信号增强处理方法和耳机 | |
CN110300364B (zh) | 骨导硅麦克风 | |
WO2008014416A2 (en) | Apparatus comprising a directionality-enhanced acoustic sensor | |
EP2101514A1 (en) | Voice input device, its manufacturing method and information processing system | |
EP2364036A2 (en) | Voice input device, its manufacturing method and information processing system | |
Zhang et al. | Multi-band asymmetric piezoelectric MEMS microphone inspired by the Ormia ochracea | |
CN113923580B (zh) | 一种双模拾音装置 | |
US20160097856A1 (en) | Acoustic apparatus with dual mems devices | |
WO2022121729A1 (zh) | 一种电子设备 | |
KR102126204B1 (ko) | 커브드 형태의 복수의 주파수 채널을 갖는 음성인식 센서 | |
JP4212635B1 (ja) | 音声入力装置及びその製造方法、並びに、情報処理システム | |
Menasinakai et al. | Review of Power Efficient MEMS Microphone for Hearing Aid | |
JP2870176B2 (ja) | 光音響セル | |
CN210168223U (zh) | 骨导式硅麦克风 | |
CN113223432B (zh) | 一种显示面板和显示装置 | |
JP5097511B2 (ja) | 音声入力装置及びその製造方法、並びに、情報処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |