CN113889137A - 麦克风阵列语音增强的方法、装置、电子设备及存储介质 - Google Patents

麦克风阵列语音增强的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113889137A
CN113889137A CN202111473848.2A CN202111473848A CN113889137A CN 113889137 A CN113889137 A CN 113889137A CN 202111473848 A CN202111473848 A CN 202111473848A CN 113889137 A CN113889137 A CN 113889137A
Authority
CN
China
Prior art keywords
enhanced
voice signal
sound source
fourier
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111473848.2A
Other languages
English (en)
Other versions
CN113889137B (zh
Inventor
聂帅
梁山
陶建华
易江燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202111473848.2A priority Critical patent/CN113889137B/zh
Publication of CN113889137A publication Critical patent/CN113889137A/zh
Application granted granted Critical
Publication of CN113889137B publication Critical patent/CN113889137B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请涉及一种麦克风阵列语音增强的方法、装置、电子设备及存储介质,所述方法包括:通过麦克风阵列获取已知声源方向的待增强语音信号;提取所述待增强语音信号的频谱特征和方向相干特征;将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号,本申请通过语音增强网络实现了波束形成的滤波操作,并且波束形成的权重系数基于数据驱动的监督性学习方法训练得到,更接近实际应用场景,以提高语音增强效果。

Description

麦克风阵列语音增强的方法、装置、电子设备及存储介质
技术领域
本申请涉及语音处理领域,尤其涉及一种麦克风阵列语音增强的方法、装置、电子设备及存储介质。
背景技术
语音是人与机器之间最自然的交互方式之一。在物联网时代,语音交互的应用场景从近场过渡到远场,由于声音在传播过程中,其能量随传播距离呈指数级衰减,在远场条件下,语音信号受到噪声和混响的干扰更加严重,极大地影响了语音识别和语音通讯等应用的性能。语音增强旨在消除噪声和混响的同时,尽可能避免语音畸变,以提高语音的可懂度和感知质量,它对以语音识别、语音通讯为核心技术的语音交互应用具有重要的价值。基于麦克风阵列的多通道语音增强已经被证明能够显著提升远场语音识别的性能、语音的可懂度和感知质量。
掩蔽和波束形成是最常用的语音增强技术。掩蔽技术能够显著地消除加性噪声,但是它并没有考虑相位的影响,不可避免地会带来一定的语音畸变,特别是在远场混响条件下,语音畸变更加严重,极大地降低了语音识别的性能,损害了语音的感知质量和可懂度。尽管固定波束形成具有相位增强的能力,能够有效地避免语音畸变,有一定的能力应对远场混响环境,但其降噪能力非常有限。相对于固定波束形成,自适应波束形成依赖于数据,通过挖掘信号的统计信息来显著提高降噪性能,但是它严重依赖于信号统计信息的估计,这在远场混响环境里,信号统计信息的估计是一个非常有挑战性的问题,而且需要积累长时信息,会造成较大的处理时延。
从语音增强性能和处理时延考虑,基于掩蔽的波束形成是一个很有前景的方案,它通过将估计的掩蔽作用到波束滤波的信号来实现语音增强的目的。然而,在现有技术中,掩蔽和波束形成都是通过级联的方式分步进行的,并且波束形成器是在一定的声场假设下预先设计的,这可能限制了该方案增强语音和降低噪声的能力。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请的实施例提供了一种麦克风阵列语音增强的方法、装置、电子设备及存储介质。
第一方面,本申请的实施例提供了一种麦克风阵列语音增强的方法,包括以下步骤:
通过麦克风阵列获取已知声源方向的待增强语音信号;
提取所述待增强语音信号的频谱特征和方向相干特征;
将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;
对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号。
优选地,所述提取所述待增强语音信号的频谱特征和方向相干特征,包括:
对所述待增强语音信号进行分帧、加窗和傅里叶变换,得到所述待增强语音信号的傅里叶系数;
根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数,计算所述待增强语音信号的频谱特征;
根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,计算所述待增强语音信号的方向相干特征,其中,所述陷波方向与所述声源方向对应。
优选地,通过以下表达式,根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数,计算所述待增强语音信号的频谱特征:
Figure 651717DEST_PATH_IMAGE001
其中,
Figure 930252DEST_PATH_IMAGE002
为所述待增强语音信号的频谱特征,
Figure DEST_PATH_IMAGE003
为所述声源方向对应的预设的波束形成器系数,
Figure 875074DEST_PATH_IMAGE004
为所述待增强语音信号的傅里叶系数。
优选地,通过以下表达式,根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,计算所述待增强语音信号的方向相干特征:
Figure DEST_PATH_IMAGE005
Figure 227558DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
Figure 966844DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
Figure 467095DEST_PATH_IMAGE010
其中,
Figure DEST_PATH_IMAGE011
其中,
Figure 215608DEST_PATH_IMAGE012
其中,
Figure DEST_PATH_IMAGE013
为与所述声源方向对应的预设的波束形成器系数,
Figure 484916DEST_PATH_IMAGE014
为均匀散射场的归一化的相关矩阵,
Figure DEST_PATH_IMAGE015
为所述声源方向的导向矢量,
Figure 660682DEST_PATH_IMAGE016
为第一白噪声增益控制系数,
Figure DEST_PATH_IMAGE017
为与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,
Figure 585913DEST_PATH_IMAGE018
为通过所述声源方向的冯米塞斯分布得到的归一化的相关矩阵,
Figure DEST_PATH_IMAGE019
Figure 875467DEST_PATH_IMAGE020
的柯西分解,
Figure DEST_PATH_IMAGE021
为第二白噪声增益控制系数,
Figure 264860DEST_PATH_IMAGE022
为所述待增强语音信号的当前帧的傅里叶系数,
Figure DEST_PATH_IMAGE023
为一个陷波方向对应的方向相干特征,
Figure 611528DEST_PATH_IMAGE024
为从至少两个陷波方向中选出的方向相干特征,
Figure DEST_PATH_IMAGE025
为声源方向,
Figure 820792DEST_PATH_IMAGE026
为陷波方向,
Figure DEST_PATH_IMAGE027
为所述待增强语音信号在声源方向滤波后傅里叶系数,
Figure 911108DEST_PATH_IMAGE028
为所述待增强语音信号在声源方向和陷波方向滤波后傅里叶系数,
Figure DEST_PATH_IMAGE029
为共轭转置运算,
Figure 92691DEST_PATH_IMAGE030
为共轭运算。
优选地,所述预先训练好的语音增强网络包括预先训练好的掩蔽预测网络和波束形成网络,所述将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数,包括:
对所述待增强语音信号的频谱特征和方向相干特征进行拼接,得到拼接特征;
以所述拼接特征作为预先训练好的掩蔽预测网络的输入,以所述待增强语音信号的掩蔽值作为输出;
以所述待增强语音信号的当前帧的傅里叶系数和上一帧的傅里叶系数作为预先训练好的波束形成网络的输入,以所述待增强语音信号的滤波后傅里叶系数作为输出;
根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数。
优选地,所述波束形成网络的激活函数为:
Figure DEST_PATH_IMAGE031
其中,
Figure 610260DEST_PATH_IMAGE032
为所述待增强语音信号的滤波后傅里叶系数,
Figure DEST_PATH_IMAGE033
为当前帧语音信号与所述声源方向对应的预设的波束形成器系数,
Figure 572400DEST_PATH_IMAGE034
为上一帧语音信号与所述声源方向对应的预设的波束形成器系数,
Figure 138510DEST_PATH_IMAGE022
为所述待增强语音信号的当前帧的傅里叶系数,
Figure DEST_PATH_IMAGE035
为所述待增强语音信号的上一帧的傅里叶系数。
优选地,通过以下表达式,根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数:
Figure 236916DEST_PATH_IMAGE036
其中,
Figure DEST_PATH_IMAGE037
为所述待增强语音信号的滤波后傅里叶系数,
Figure 945894DEST_PATH_IMAGE038
为所述待增强语音信号的掩蔽值,
Figure DEST_PATH_IMAGE039
为所述待增强语音信号的滤波后傅里叶系数,
Figure 129751DEST_PATH_IMAGE040
为点乘运算。
优选地,所述波束形成网络的数量为多个,各所述波束形成网络与预先对麦克风阵列空间划分的目标区域对应,所述掩蔽预测网络和波束形成网络通过以下步骤训练得到:
采集类散射噪声数据,并利用类散射噪声数据生成双麦散射噪声;
利用双麦散射噪声、采集的纯净语音数据和纯净噪声数据生成双麦远场带噪数据训练集,并预存与所述双麦远场带噪数据训练集对应的双麦远场纯净语音数据;
提取所述双麦远场带噪数据集中,已知声源方向的双麦远场带噪数据的频谱特征和方向相干特征;
以所述双麦远场带噪数据的频谱特征和方向相干特征作为掩蔽预测网络的输入,以所述双麦远场带噪数据的掩蔽值作为输出;
根据所述声源方向所属的目标区域确定与所述双麦远场带噪数据对应的波束形成网络;
以所述双麦远场带噪数据的当前帧的傅里叶系数和上一帧的傅里叶系数作为对应的波束形成网络的输入,以所述双麦远场带噪数据的滤波后傅里叶系数作为输出;
根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数;
利用每一个波束形成网络的损失函数训练所述掩蔽预测网络和所述波束形成网络的权重系数。
优选地,通过以下表达式,根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数:
Figure DEST_PATH_IMAGE041
Figure 561869DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
其中,
Figure 780361DEST_PATH_IMAGE044
为通过所述声源方向属于同一目标区域的每一个双麦远场带噪数据的增强后傅里叶系数,其通过每一个双麦远场带噪数据的掩蔽值与其滤波后傅里叶系数点乘得到,
Figure DEST_PATH_IMAGE045
为所述声源方向属于同一目标区域的所有双麦远场带噪数据的波形信号,其通过对所有双麦远场带噪数据的增强后傅里叶系数作逆傅里叶变换得到,
Figure 639733DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE047
分别为所述声源方向属于同一目标区域的所有双麦远场纯净语音数据的波形信号和傅里叶系数。
优选地,所述利用每一个波束形成网络的损失函数训练所述掩蔽预测网络和所述波束形成网络的权重系数,包括:
利用每一个波束形成网络的损失函数分别对与其对应的波束形成网络的权重系数进行训练;
利用每一个波束形成网络的损失函数值的总和对掩蔽预测网络的权重系数进行训练。
第二方面,本申请的实施例提供了一种麦克风阵列语音增强的装置,包括:
获取模块,其用于通过麦克风阵列获取已知声源方向的待增强语音信号;
提取模块,其用于提取所述待增强语音信号的频谱特征和方向相干特征;
输入模块,其用于将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;
处理模块,其用于对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号。
第三方面,本申请的实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-9任一项所述的麦克风阵列语音增强的方法的步骤。
第四方面,本申请的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-9任一项所述的麦克风阵列语音增强的方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,通过麦克风阵列获取已知声源方向的待增强语音信号;提取所述待增强语音信号的频谱特征和方向相干特征;将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号,本申请通过语音增强网络实现了波束形成的滤波操作,并且波束形成的权重系数基于数据驱动的监督性学习方法训练得到,更接近实际应用场景,以提高语音增强效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了本申请实施例提供的一种麦克风阵列语音增强的方法的流程示意图;
图2示意性示出了本申请又一实施例提供的一种麦克风阵列语音增强的方法流程示意图;
图3示意性示出了本申请又一实施例提供的一种麦克风阵列语音增强的方法流程示意图;
图4示意性示出了本申请又一实施例提供的一种麦克风阵列语音增强的方法流程示意图;
图5示意性示出了本申请又一实施例提供的一种麦克风阵列语音增强的方法流程示意图;
图5示意性示出了本申请又一实施例提供的一种麦克风阵列语音增强的方法流程示意图;
图6示意性示出了本申请又一实施例提供的一种麦克风阵列语音增强的方法的应用流程示意图;
图7示意性示出了本申请实施例提供的数据仿真流程示意图;
图8示意性示出了本申请实施例提供的线性麦克风阵列空间划分结构示意图;
图9示意性示出了本申请实施例提供的特征提取流程示意图;
图10示意性示出了本申请实施例提供的语音增强网络的模型框架示意图;以及
图11示意性示出了本申请又一实施例提供的一种麦克风阵列语音增强的装置结构示意图;
图12示意性示出了本申请又一实施例提供的一种电子设备结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种麦克风阵列语音增强的方法的流程示意图。如图1所示,本申请的麦克风阵列语音增强的方法,以下步骤:
S1,通过麦克风阵列获取已知声源方向的待增强语音信号;
S2,提取所述待增强语音信号的频谱特征和方向相干特征;
S3,将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;
S4,对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号。
如图2所示,步骤S2中,所述提取所述待增强语音信号的频谱特征和方向相干特征,包括:
S21,对所述待增强语音信号进行分帧、加窗和傅里叶变换,得到所述待增强语音信号的傅里叶系数;
S22,根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数,计算所述待增强语音信号的频谱特征;
S23,根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,计算所述待增强语音信号的方向相干特征,其中,所述陷波方向与所述声源方向对应。
本实施例中,步骤S22中,通过以下表达式,根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数,计算所述待增强语音信号的频谱特征:
Figure 310885DEST_PATH_IMAGE048
其中,
Figure 218799DEST_PATH_IMAGE002
为所述待增强语音信号的频谱特征,
Figure 291797DEST_PATH_IMAGE003
为所述声源方向对应的预设的波束形成器系数,
Figure 259753DEST_PATH_IMAGE004
为所述待增强语音信号的傅里叶系数。
本实施例中,步骤S23中,通过以下表达式,根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,计算所述待增强语音信号的方向相干特征:
Figure DEST_PATH_IMAGE049
Figure 418202DEST_PATH_IMAGE050
Figure 129806DEST_PATH_IMAGE007
Figure 325819DEST_PATH_IMAGE008
Figure 464677DEST_PATH_IMAGE009
Figure 844842DEST_PATH_IMAGE010
其中,
Figure 360137DEST_PATH_IMAGE011
其中,
Figure 345411DEST_PATH_IMAGE012
其中,
Figure 717487DEST_PATH_IMAGE013
为与所述声源方向对应的预设的波束形成器系数,
Figure 522631DEST_PATH_IMAGE014
为均匀散射场的归一化的相关矩阵,
Figure 638355DEST_PATH_IMAGE015
为所述声源方向的导向矢量,
Figure 478135DEST_PATH_IMAGE016
为第一白噪声增益控制系数,
Figure 21112DEST_PATH_IMAGE017
为与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,
Figure 579132DEST_PATH_IMAGE018
为通过所述声源方向的冯米塞斯分布得到的归一化的相关矩阵,
Figure 170650DEST_PATH_IMAGE019
Figure 192833DEST_PATH_IMAGE020
的柯西分解,
Figure 844394DEST_PATH_IMAGE021
为第二白噪声增益控制系数,
Figure 686448DEST_PATH_IMAGE022
为所述待增强语音信号的当前帧的傅里叶系数,
Figure 81658DEST_PATH_IMAGE023
为一个陷波方向对应的方向相干特征,
Figure 896030DEST_PATH_IMAGE024
为从至少两个陷波方向中选出的方向相干特征,
Figure 780809DEST_PATH_IMAGE025
为声源方向,
Figure 47843DEST_PATH_IMAGE026
为陷波方向,
Figure 306130DEST_PATH_IMAGE027
为所述待增强语音信号在声源方向滤波后傅里叶系数,
Figure 975009DEST_PATH_IMAGE028
为所述待增强语音信号在声源方向和陷波方向滤波后傅里叶系数,
Figure 968372DEST_PATH_IMAGE029
为共轭转置运算,
Figure 785019DEST_PATH_IMAGE030
为共轭运算。
如图3所示,步骤S3中,所述预先训练好的语音增强网络包括预先训练好的掩蔽预测网络和波束形成网络,所述将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数,包括:
S31,对所述待增强语音信号的频谱特征和方向相干特征进行拼接,得到拼接特征;
S32,以所述拼接特征作为预先训练好的掩蔽预测网络的输入,以所述待增强语音信号的掩蔽值作为输出;
S33,以所述待增强语音信号的当前帧的傅里叶系数和上一帧的傅里叶系数作为预先训练好的波束形成网络的输入,以所述待增强语音信号的滤波后傅里叶系数作为输出;
S34,根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数。
本实施例中,步骤S33中,所述波束形成网络的激活函数为:
Figure 787610DEST_PATH_IMAGE031
其中,
Figure 373312DEST_PATH_IMAGE032
为所述待增强语音信号的滤波后傅里叶系数,
Figure 537577DEST_PATH_IMAGE033
为当前帧语音信号与所述声源方向对应的预设的波束形成器系数,
Figure 841519DEST_PATH_IMAGE034
为上一帧语音信号与所述声源方向对应的预设的波束形成器系数,
Figure 382222DEST_PATH_IMAGE022
为所述待增强语音信号的当前帧的傅里叶系数,
Figure 760114DEST_PATH_IMAGE035
为所述待增强语音信号的上一帧的傅里叶系数。
本实施例中,步骤S34中,通过以下表达式,根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数:
Figure 423176DEST_PATH_IMAGE036
其中,
Figure 886519DEST_PATH_IMAGE037
为所述待增强语音信号的滤波后傅里叶系数,
Figure 293229DEST_PATH_IMAGE038
为所述待增强语音信号的掩蔽值,
Figure 525628DEST_PATH_IMAGE039
为所述待增强语音信号的滤波后傅里叶系数,
Figure 359591DEST_PATH_IMAGE040
为点乘运算。
如图4所示,步骤S32和步骤S33中,所述波束形成网络的数量为多个,各所述波束形成网络与预先对麦克风阵列空间划分的目标区域对应,所述掩蔽预测网络和波束形成网络通过以下步骤训练得到:
S41,采集类散射噪声数据,并利用类散射噪声数据生成双麦散射噪声;
在实际应用中,利用收集和整理的类散射噪声集,利用散射噪声仿真工具ANF-Generator产生双麦散射噪声。
S42,利用双麦散射噪声、采集的纯净语音数据和纯净噪声数据生成双麦远场带噪数据训练集,并预存与所述双麦远场带噪数据训练集对应的双麦远场纯净语音数据;
在实际应用中,收集纯净语音数据和纯净噪声数据,随机选择纯净语音、纯净噪声和散射噪声按照一定信噪比和信干比,利用仿真工具pyroomacoustics产生双麦远场带噪数据,保留加噪前的远场纯净双麦语音数据,用以为后续步骤产生目标语音,保留目标语音的方位用以提取该方位的频谱特征和空间特征。
S43,提取所述双麦远场带噪数据集中,已知声源方向的双麦远场带噪数据的频谱特征和方向相干特征;
在实际应用中,可以将麦克风阵列的空间方位均匀地划分为多个目标区域,例如以5个目标方向{0,45,90,135,180}为中心轴的5个目标区域{-22.5~+22.5,22.5~ 67.5,67.5~ 112.5,112.5~ 157.5,157.5~ 202.5},针对每一个目标方向,可以选择2个干扰源候选区域,根据麦克风阵列的阵型和几何参数,对每个方向设计超定向固定波束和带有陷波的固定波束(陷波方向为该目标方向所对应的干扰源候选方向),以根据超定向固定波束和带有陷波的固定波束提取已知声源方向的双麦远场带噪数据的频谱特征和方向相干特征;
S44,以所述双麦远场带噪数据的频谱特征和方向相干特征作为掩蔽预测网络的输入,以所述双麦远场带噪数据的掩蔽值作为输出;
S45,根据所述声源方向所属的目标区域确定与所述双麦远场带噪数据对应的波束形成网络;
S46,以所述双麦远场带噪数据的当前帧的傅里叶系数和上一帧的傅里叶系数作为对应的波束形成网络的输入,以所述双麦远场带噪数据的滤波后傅里叶系数作为输出;
S47,根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数;
S48,利用每一个波束形成网络的损失函数训练所述掩蔽预测网络和所述波束形成网络的权重系数。
本实施例中,步骤S47中,通过以下表达式,根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数:
Figure 310230DEST_PATH_IMAGE041
Figure 255052DEST_PATH_IMAGE051
Figure 607536DEST_PATH_IMAGE052
其中,
Figure 615331DEST_PATH_IMAGE044
为通过所述声源方向属于同一目标区域的每一个双麦远场带噪数据的增强后傅里叶系数,其通过每一个双麦远场带噪数据的掩蔽值与其滤波后傅里叶系数点乘得到,
Figure 53265DEST_PATH_IMAGE045
为所述声源方向属于同一目标区域的所有双麦远场带噪数据的波形信号,其通过对所有双麦远场带噪数据的增强后傅里叶系数作逆傅里叶变换得到,
Figure 801779DEST_PATH_IMAGE046
Figure 8769DEST_PATH_IMAGE047
分别为所述声源方向属于同一目标区域的所有双麦远场纯净语音数据的波形信号和傅里叶系数。
如图5所示,步骤S47中,所述利用每一个波束形成网络的损失函数训练所述掩蔽预测网络和所述波束形成网络的权重系数,包括:
S51,利用每一个波束形成网络的损失函数分别对与其对应的波束形成网络的权重系数进行训练;
S52,利用每一个波束形成网络的损失函数值的总和对掩蔽预测网络的权重系数进行训练。
如图6所示,下面解释在将麦克风阵列空间划分为5个目标区域的应用场景下,本申请的麦克风阵列语音增强的方法。
步骤A1:数据准备-按照如图7所示的数据仿真流程仿真双麦数据
(1)收集和整理开源纯净语音数据集“863-1中文语音数据”、“AISHELL-1”、“AISHELL-2”;收集和整理网上开源纯净噪声数据集“Google Audioset”;收集和整理类散射噪声集“NOISEX-92”、空调噪声、风噪、咖啡厅噪声、广场噪声等;
(2)利用收集和整理的类散射噪声集,通过散射噪声仿真工具ANF-Generator产生20,000句双麦散射噪声,麦克风间距为4厘米;
(3)从纯净语音数据集中随机选择语音,从纯净噪声数据集中随机选择噪声,从仿真的散射噪声中随机选择散射噪声,根据下表1所示的仿真参数,利用仿真工具Pyroomacoustics随机产生10,000,000句远场带噪双麦数据,作为训练集、另外分别产生10,000句远场带噪双麦数据作为测试集和开发集。仿真过程中,除保存远场带噪双麦数据外,还需要保存加噪前的远场纯净双麦语音数据以及记录目标语音的方位。
表1
仿真参数 最小值 最大值
房间长度 3.0米 9.0米
房间宽度 2.5米 6.5米
房间高度 2.5米 4.0米
混响时间 0.2秒 0.6秒
目标声源距离 0.5米 5.5米
干扰源距离 1.0米 7.0米
干扰源个数 1 3
与干扰源角度差 30度 330度
信噪比 0db 20db
信干比 -5db 15db
音频幅度 367 22937
步骤A2:固定波束设计
如图8所示,对于线性麦克风阵列,其方向区分度为0~180度,首先均匀地将整个空间划分为以5个目标方向{0,45,90,135,180}为中心轴的5个目标区域{-22.5~+22.5,22.5~67.5,67.5~ 112.5,112.5~ 157.5,157.5~ 202.5},针对每个空间区域设计一个超定向波束形成器,目标方向分别指向0,45,90,135,180度。该波束形成器在保证目标方向不失真的同时,尽可能压制散射噪声。其波束形成器系数可通过求解如下优化问题得到:
Figure 184535DEST_PATH_IMAGE011
其中,
Figure 109766DEST_PATH_IMAGE053
为采样的目标方位,
Figure 396391DEST_PATH_IMAGE054
为方向
Figure 723467DEST_PATH_IMAGE055
的波束形成器系数,
Figure 804556DEST_PATH_IMAGE056
为均匀散射场的归一化的相关矩阵,
Figure 217082DEST_PATH_IMAGE057
为方向
Figure 245081DEST_PATH_IMAGE058
的导向矢量,
Figure 488981DEST_PATH_IMAGE059
为白噪声增益控制系数,其中,
Figure 944233DEST_PATH_IMAGE060
保证来自方向
Figure 640793DEST_PATH_IMAGE061
的声源不失真,而最小化空间散射噪声的能量。
针对每一个目标方向,可以选择但不限于2个干扰源候选区域(陷波方向),针对每个目标设计带有陷波的固定波束形成器,该波束形成器在保证目标方向不失真的同时,尽可能压制来自陷波方向的声源。陷波方向为该目标方向对应的干扰源候选方向,具体如下:
Figure 206904DEST_PATH_IMAGE063
Figure 570889DEST_PATH_IMAGE065
Figure 197043DEST_PATH_IMAGE067
Figure 377970DEST_PATH_IMAGE069
Figure 747771DEST_PATH_IMAGE071
波束形成器系数可通过求解如下带有约束的优化问题得到:
Figure 903946DEST_PATH_IMAGE012
其中,
Figure 763317DEST_PATH_IMAGE072
为采样的目标方位,
Figure 372153DEST_PATH_IMAGE074
为对应的陷波方向,
Figure 342383DEST_PATH_IMAGE075
为目标方向为
Figure 353065DEST_PATH_IMAGE076
,陷波方向为
Figure 321021DEST_PATH_IMAGE077
的波束形成器系数,
Figure 479470DEST_PATH_IMAGE078
为通过方向为
Figure 191074DEST_PATH_IMAGE079
的冯米塞斯分布(Von Mises distribution)得到的归一化的相关矩阵,
Figure 118578DEST_PATH_IMAGE080
Figure 257436DEST_PATH_IMAGE081
的柯西分解(Cholesky factorization),
Figure 840864DEST_PATH_IMAGE082
为方向
Figure 418476DEST_PATH_IMAGE083
的导向矢量,
Figure 138170DEST_PATH_IMAGE084
为白噪声增益控制系数,其中,
Figure 510245DEST_PATH_IMAGE085
保证来自方向
Figure 580970DEST_PATH_IMAGE086
的声源不失真,尽可能压制来自
Figure 696693DEST_PATH_IMAGE087
方向的声源。
需要说明的是,麦克风阵列的形式包括但不限于线性,例如环形和矩形等,而且当麦克风阵列的形式为环形或矩形时,其方向区分度可以为0~360度。
步骤A3:特征提取-按照图9所示的特征提取流程提取频谱特征和空间特征
首先,对双麦数据进行分帧,帧长为512,帧移为256,然后对其加汉明窗,再利用傅里叶变换得到双麦数据的傅里叶系数
Figure 536473DEST_PATH_IMAGE088
根据给定的目标语音方向
Figure 17133DEST_PATH_IMAGE089
,选择对应的固定波束形成器
Figure 640400DEST_PATH_IMAGE090
,按照如下公式执行波形形成操作,并计算其频谱特征-对数能量谱特征
Figure 231918DEST_PATH_IMAGE091
Figure 988522DEST_PATH_IMAGE092
其中,
Figure 905662DEST_PATH_IMAGE093
为双麦数据的傅里叶系数,
Figure 685399DEST_PATH_IMAGE095
为共轭转置运算。
根据给定的目标语音方向
Figure 142926DEST_PATH_IMAGE096
,选择对应的固定波束形成器
Figure 957298DEST_PATH_IMAGE097
,按照如下计算步骤计算其空间特征-方向性相干特征DCF。
算法1 DCF提取步骤
Figure 842077DEST_PATH_IMAGE098
其中,
Figure 109110DEST_PATH_IMAGE100
是共轭转置运算,
Figure 370327DEST_PATH_IMAGE102
是共轭运算。
将提取的
Figure 39206DEST_PATH_IMAGE103
和DCF按照特征维度进行拼接,得到最终的输入特征
Figure 32570DEST_PATH_IMAGE104
步骤A4:搭建和训练基于掩蔽神经波束的语音增强网络
图10为本实施例中所提出的基于掩蔽神经波束的语音增强网络的模型框架,本发明中采用的模型框架有两部分组成:掩蔽预测网络和神经波束形成网络。掩蔽预测网络由3层LSTM(Long Short-Term Memory,长短期记忆网络)层和1层全连接层组成,每个LSTM层有512个结点,全连接层(fully connected layers,FC)有257个结点,全连接层的激活函数为Sigmoid,因此掩蔽预测网络的输出为[0,1]的掩蔽值。分别针对0,45,90,135,180度5个方向设计了5个独立的神经波束形成网络,神经波束形成网络的计算方式和波束形成的计算方式一样,但考虑到现存的波束形成没有利用历史信号,引入了一个额外的滤波器
Figure 849216DEST_PATH_IMAGE105
对历史信号进行建模,具体如下式所示:
Figure 586228DEST_PATH_IMAGE106
其中,
Figure 171930DEST_PATH_IMAGE107
Figure 601775DEST_PATH_IMAGE108
是方向为
Figure 843400DEST_PATH_IMAGE109
的神经波束形成网络的复数权重系数,复数向量的乘法运算可以转化为实数向量乘法进行计算,如下所示:
Figure 180840DEST_PATH_IMAGE110
Figure 824311DEST_PATH_IMAGE111
Figure 218865DEST_PATH_IMAGE112
Figure 947787DEST_PATH_IMAGE113
其中,
Figure 88918DEST_PATH_IMAGE114
为取复数的实部,
Figure 586895DEST_PATH_IMAGE115
为取复数的虚部,因此,神经波束形成网络的权重系数是可以优化的。
当给定目标语音的方位
Figure 358542DEST_PATH_IMAGE116
时,根据步骤A3从双麦观测信号中提取该方向的频谱特征和空间特征,拼接频谱特征和空间特征,输入到掩蔽预测网络中得到预测的掩蔽
Figure 371498DEST_PATH_IMAGE117
。同时利用
Figure 254003DEST_PATH_IMAGE118
方向的神经波束对双麦观测信号进行滤波得到波束形成滤波后的信号
Figure 668804DEST_PATH_IMAGE119
,最后利用掩蔽技术得到最终增强的目标语音傅里叶系数:
Figure 611352DEST_PATH_IMAGE120
其中,
Figure 111604DEST_PATH_IMAGE121
为点乘运算,对
Figure 532221DEST_PATH_IMAGE122
作逆傅立叶变换可得到增强后的波形信号
Figure 67107DEST_PATH_IMAGE123
在训练掩蔽预测网络和神经波束形成网络的过程中,使用指数压制的能量谱最小均方误差(MSE)损失和尺度不变的信号失真比(scale-invariant signal-to-distortion,SI-SDR)作为优化目标来联合优化掩蔽预测网络和神经波束形成网络。需要注意的是我们使用加噪前的远场纯净双麦语音数据波束形成后的信号作为目标语音,用以计算优化目标。
Figure 180557DEST_PATH_IMAGE041
Figure 168104DEST_PATH_IMAGE042
Figure 392412DEST_PATH_IMAGE043
其中,
Figure 516226DEST_PATH_IMAGE124
为通过所述声源方向属于同一目标区域的每一个双麦远场带噪数据的增强后傅里叶系数,其通过每一个双麦远场带噪数据的掩蔽值与其滤波后傅里叶系数点乘得到,
Figure 800577DEST_PATH_IMAGE045
为所述声源方向属于同一目标区域的所有双麦远场带噪数据的波形信号,其通过对所有双麦远场带噪数据的增强后傅里叶系数作逆傅里叶变换得到,
Figure 213104DEST_PATH_IMAGE046
Figure 306349DEST_PATH_IMAGE047
分别为所述声源方向属于同一目标区域的所有双麦远场纯净语音数据的波形信号和傅里叶系数。
需要说明的是,掩蔽预测网络和神经波束的权重系数都是随机设置的,利用仿真的训练数据,通过频谱损失和波形损失的联合优化目标,来优化整个网络,直到收敛,采用Adam优化器,使用Warmup的学习率调整策略,总共训练24轮,批处理的尺寸为16,输入特征的每个维度根据训练集的统计信息规范化到0均值和1方差。
步骤A5:测试和验证本发明所提出的掩蔽神经波束语音增强网络
当掩蔽神经波束语音增强网络完成训练之后,得到训练好的语音增强网络,该网络便能实现对真实采集数据的增强。根据给定的目标声源方位,按照步骤A3提取实际采集的双麦音频数据的频谱特征和空间特征,然后对其进行0均值1方差规范化,输入到步骤A4训练好的掩蔽神经波束形成器中,分别得到掩蔽和神经波束滤波输出,最后通过掩蔽运算得到最终增强的目标语音,通过逆傅里叶变化便得到增强后的语音波形信号。
本申请的麦克风阵列语音增强的方法,波束形成网络不仅对当前时刻的信号进行滤波,还考虑对历史信号进行建模,并通过数据驱动的监督性训练,对掩蔽预测网络和神经波束形成网络进行联合优化,实现了使用神经网络进行波束形成的滤波操作,掩蔽预测网络和神经波束形成网络的权重系数能够基于数据驱动的监督性学习方法训练得到,使得掩蔽预测网络和神经波束形成网络输出的信号更接近实际情况,能够提高语音增强的精确性。
本申请的麦克风阵列语音增强的方法,以待增强语音的频谱特征和方向相干特征作为掩蔽预测网络的输入训练掩蔽预测网络,考虑了具有方向指示性并且抗混响抗散射噪声的空间特征,能够提高空间特征的方向区分性和抗混响抗散射噪声的能力,从而提高掩蔽预测的准确性。
本申请的麦克风阵列语音增强的方法,在训练掩蔽预测网络和波束形成网络时,使用加噪前的远场纯净双麦语音数据的波束形成后的信号作为语音增强网络的目标,能够确保从训练好的掩蔽预测网络和波束形成网络中输出的语音增强信号更精确。
本申请的麦克风阵列语音增强的方法,在构建波束形成网络时,对空间方位划分得到的每个区域独立地设计神经波束形成网络,且每个神经波束形成网络的优化基于目标语音在其所负责的区域的音频数据训练得到,能够得到针对不同声源方向的波束形成网络,进一步提高语音增强信号的精确性。
本申请的麦克风阵列语音增强的方法,没有基于理想浮值掩蔽直接优化掩蔽神经网络,而是基于神经波束形成网络的输出,同时考虑频谱损失和波形损失来优化,进一步提高掩蔽预测的准确性。
本申请的麦克风阵列语音增强的方法,利用两种波束形成器系数提出了方向性的方向相干特征,其中,一种波束形成器系数保持目标方位信号不失真,尽可能压制散射噪声,另一种波束形成器系数带有陷波,保持目标方位信号不失真,尽可能压制来自陷波方向的噪声,能够尽最大可能的提高语音增强的效果。
基于同一发明构思,如图11所示,本发明实施例提供了一种麦克风阵列语音增强的装置,所述装置包括:获取模块11、提取模块12、输入模块13和处理模块14。
在本实施例中,获取模块11,其用于通过麦克风阵列获取已知声源方向的待增强语音信号;
在本实施例中,提取模块12,其用于提取所述待增强语音信号的频谱特征和方向相干特征;
在本实施例中,输入模块13,其用于将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;
在本实施例中,处理模块14,其用于对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号。
在一些实施例中,所述提取模块12,还用于:
对所述待增强语音信号进行分帧、加窗和傅里叶变换,得到所述待增强语音信号的傅里叶系数;
根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数,计算所述待增强语音信号的频谱特征;
根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,计算所述待增强语音信号的方向相干特征,其中,所述陷波方向与所述声源方向对应。
在一些实施例中,所述提取模块12中,通过以下表达式,根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数,计算所述待增强语音信号的频谱特征:
Figure 487932DEST_PATH_IMAGE125
其中,
Figure 739921DEST_PATH_IMAGE002
为所述待增强语音信号的频谱特征,
Figure 639744DEST_PATH_IMAGE003
为所述声源方向对应的预设的波束形成器系数,
Figure 268172DEST_PATH_IMAGE004
为所述待增强语音信号的傅里叶系数。
在一些实施例中,所述提取模块12中,通过以下表达式,根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,计算所述待增强语音信号的方向相干特征:
Figure 569840DEST_PATH_IMAGE126
Figure 992731DEST_PATH_IMAGE127
Figure 379850DEST_PATH_IMAGE007
Figure 811969DEST_PATH_IMAGE008
Figure 702564DEST_PATH_IMAGE128
Figure 561936DEST_PATH_IMAGE010
其中,
Figure 170772DEST_PATH_IMAGE011
其中,
Figure 406581DEST_PATH_IMAGE012
其中,
Figure 417262DEST_PATH_IMAGE129
为与所述声源方向对应的预设的波束形成器系数,
Figure 385218DEST_PATH_IMAGE130
为均匀散射场的归一化的相关矩阵,
Figure 543667DEST_PATH_IMAGE131
为所述声源方向的导向矢量,
Figure 255271DEST_PATH_IMAGE132
为第一白噪声增益控制系数,
Figure 203284DEST_PATH_IMAGE133
为与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,
Figure 342141DEST_PATH_IMAGE134
为通过所述声源方向的冯米塞斯分布得到的归一化的相关矩阵,
Figure 987886DEST_PATH_IMAGE135
Figure 237602DEST_PATH_IMAGE136
的柯西分解,
Figure 285192DEST_PATH_IMAGE137
为第二白噪声增益控制系数,
Figure 594951DEST_PATH_IMAGE138
为所述待增强语音信号的当前帧的傅里叶系数,
Figure 727992DEST_PATH_IMAGE139
为一个陷波方向对应的方向相干特征,
Figure 781399DEST_PATH_IMAGE140
为从至少两个陷波方向中选出的方向相干特征,
Figure 683495DEST_PATH_IMAGE141
为声源方向,
Figure 164155DEST_PATH_IMAGE142
为陷波方向,
Figure 518913DEST_PATH_IMAGE143
为所述待增强语音信号在声源方向滤波后傅里叶系数,
Figure 376011DEST_PATH_IMAGE144
为所述待增强语音信号在声源方向和陷波方向滤波后傅里叶系数,
Figure 132614DEST_PATH_IMAGE145
为共轭转置运算,
Figure 784176DEST_PATH_IMAGE146
为共轭运算。
在一些实施例中,所述输入模块13,还用于:
对所述待增强语音信号的频谱特征和方向相干特征进行拼接,得到拼接特征;
以所述拼接特征作为预先训练好的掩蔽预测网络的输入,以所述待增强语音信号的掩蔽值作为输出;
以所述待增强语音信号的当前帧的傅里叶系数和上一帧的傅里叶系数作为预先训练好的波束形成网络的输入,以所述待增强语音信号的滤波后傅里叶系数作为输出;
根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数。
在一些实施例中,所述输入模块13中,所述波束形成网络的激活函数为:
Figure 891809DEST_PATH_IMAGE031
其中,
Figure 352265DEST_PATH_IMAGE147
为所述待增强语音信号的滤波后傅里叶系数,
Figure 901058DEST_PATH_IMAGE148
为当前帧语音信号与所述声源方向对应的预设的波束形成器系数,
Figure 989099DEST_PATH_IMAGE149
为上一帧语音信号与所述声源方向对应的预设的波束形成器系数,
Figure 318450DEST_PATH_IMAGE150
为所述待增强语音信号的当前帧的傅里叶系数,
Figure 517350DEST_PATH_IMAGE151
为所述待增强语音信号的上一帧的傅里叶系数。
在一些实施例中,所述输入模块13中,通过以下表达式,根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数:
Figure 982966DEST_PATH_IMAGE036
其中,
Figure 241909DEST_PATH_IMAGE152
为所述待增强语音信号的滤波后傅里叶系数,
Figure 58555DEST_PATH_IMAGE153
为所述待增强语音信号的掩蔽值,
Figure 795567DEST_PATH_IMAGE154
为所述待增强语音信号的滤波后傅里叶系数,
Figure 381269DEST_PATH_IMAGE040
为点乘运算。
在一些实施例中,所述输入模块13中,所述波束形成网络的数量为多个,各所述波束形成网络与预先对麦克风阵列空间划分的目标区域对应,所述掩蔽预测网络和波束形成网络通过以下步骤训练得到:
采集类散射噪声数据,并利用类散射噪声数据生成双麦散射噪声;
利用双麦散射噪声、采集的纯净语音数据和纯净噪声数据生成双麦远场带噪数据训练集,并预存与所述双麦远场带噪数据训练集对应的双麦远场纯净语音数据;
提取所述双麦远场带噪数据集中,已知声源方向的双麦远场带噪数据的频谱特征和方向相干特征;
以所述双麦远场带噪数据的频谱特征和方向相干特征作为掩蔽预测网络的输入,以所述双麦远场带噪数据的掩蔽值作为输出;
根据所述声源方向所属的目标区域确定与所述双麦远场带噪数据对应的波束形成网络;
以所述双麦远场带噪数据的当前帧的傅里叶系数和上一帧的傅里叶系数作为对应的波束形成网络的输入,以所述双麦远场带噪数据的滤波后傅里叶系数作为输出;
根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数;
利用每一个波束形成网络的损失函数训练所述掩蔽预测网络和所述波束形成网络的权重系数。
在一些实施例中,所述输入模块13中,通过以下表达式,根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数:
Figure 811114DEST_PATH_IMAGE041
Figure 849477DEST_PATH_IMAGE042
Figure 390180DEST_PATH_IMAGE043
其中,
Figure 95967DEST_PATH_IMAGE124
为通过所述声源方向属于同一目标区域的每一个双麦远场带噪数据的增强后傅里叶系数,其通过每一个双麦远场带噪数据的掩蔽值与其滤波后傅里叶系数点乘得到,
Figure 431134DEST_PATH_IMAGE045
为所述声源方向属于同一目标区域的所有双麦远场带噪数据的波形信号,其通过对所有双麦远场带噪数据的增强后傅里叶系数作逆傅里叶变换得到,
Figure 222372DEST_PATH_IMAGE046
Figure 301187DEST_PATH_IMAGE047
分别为所述声源方向属于同一目标区域的所有双麦远场纯净语音数据的波形信号和傅里叶系数。
在一些实施例中,所述输入模块13,还用于:
利用每一个波束形成网络的损失函数分别对与其对应的波束形成网络的权重系数进行训练;
利用每一个波束形成网络的损失函数值的总和对掩蔽预测网络的权重系数进行训练。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
基于同一发明构思,如图12所示,本发明实施例提供了一种电子设备,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信;
存储器1130,用于存放计算机程序;
处理器1110,用于执行存储器1130上所存放的程序时,实现如下所示麦克风阵列语音增强的方法:
通过麦克风阵列获取已知声源方向的待增强语音信号;
提取所述待增强语音信号的频谱特征和方向相干特征;
将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;
对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号。
上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
基于同一发明构思,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任意可能的实现方式中的麦克风阵列语音增强的方法。
可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,包括计算机程序,所述程序被处理器执行时实现上述任意可能的实现方式中的麦克风阵列语音增强的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (13)

1.一种麦克风阵列语音增强的方法,其特征在于,包括以下步骤:
通过麦克风阵列获取已知声源方向的待增强语音信号;
提取所述待增强语音信号的频谱特征和方向相干特征;
将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;
对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号。
2.根据权利要求1所述的方法,其特征在于,所述提取所述待增强语音信号的频谱特征和方向相干特征,包括:
对所述待增强语音信号进行分帧、加窗和傅里叶变换,得到所述待增强语音信号的傅里叶系数;
根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数,计算所述待增强语音信号的频谱特征;
根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,计算所述待增强语音信号的方向相干特征,其中,所述陷波方向与所述声源方向对应。
3.根据权利要求2所述的方法,其特征在于,通过以下表达式,根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数,计算所述待增强语音信号的频谱特征:
Figure 679790DEST_PATH_IMAGE001
其中,
Figure 579613DEST_PATH_IMAGE002
为所述待增强语音信号的频谱特征,
Figure 208041DEST_PATH_IMAGE003
为所述声源方向对应的预设的波束形成器系数,
Figure 244130DEST_PATH_IMAGE004
为所述待增强语音信号的傅里叶系数。
4.根据权利要求2所述的方法,其特征在于,通过以下表达式,根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,计算所述待增强语音信号的方向相干特征:
Figure 932600DEST_PATH_IMAGE005
Figure 319719DEST_PATH_IMAGE006
Figure 486258DEST_PATH_IMAGE007
Figure 642433DEST_PATH_IMAGE008
Figure 439488DEST_PATH_IMAGE009
Figure 107711DEST_PATH_IMAGE010
其中,
Figure 281203DEST_PATH_IMAGE011
其中,
Figure 354201DEST_PATH_IMAGE012
其中,
Figure 322158DEST_PATH_IMAGE013
为与所述声源方向对应的预设的波束形成器系数,
Figure 418289DEST_PATH_IMAGE014
为均匀散射场的归一化的相关矩阵,
Figure 926631DEST_PATH_IMAGE015
为所述声源方向的导向矢量,
Figure 57398DEST_PATH_IMAGE016
为第一白噪声增益控制系数,
Figure 258572DEST_PATH_IMAGE017
为与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,
Figure 842001DEST_PATH_IMAGE018
为通过所述声源方向的冯米塞斯分布得到的归一化的相关矩阵,
Figure 154033DEST_PATH_IMAGE019
Figure 139307DEST_PATH_IMAGE020
的柯西分解,
Figure 511382DEST_PATH_IMAGE021
为第二白噪声增益控制系数,
Figure 582106DEST_PATH_IMAGE022
为所述待增强语音信号的当前帧的傅里叶系数,
Figure 697830DEST_PATH_IMAGE023
为一个陷波方向对应的方向相干特征,
Figure 537610DEST_PATH_IMAGE024
为从至少两个陷波方向中选出的方向相干特征,
Figure 80587DEST_PATH_IMAGE025
为声源方向,
Figure 373028DEST_PATH_IMAGE026
为陷波方向,
Figure 295372DEST_PATH_IMAGE027
为所述待增强语音信号在声源方向滤波后傅里叶系数,
Figure 989659DEST_PATH_IMAGE028
为所述待增强语音信号在声源方向和陷波方向滤波后傅里叶系数,
Figure 703537DEST_PATH_IMAGE029
为共轭转置运算,
Figure 748853DEST_PATH_IMAGE030
为共轭运算。
5.根据权利要求1所述的方法,其特征在于,所述预先训练好的语音增强网络包括预先训练好的掩蔽预测网络和波束形成网络,所述将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数,包括:
对所述待增强语音信号的频谱特征和方向相干特征进行拼接,得到拼接特征;
以所述拼接特征作为预先训练好的掩蔽预测网络的输入,以所述待增强语音信号的掩蔽值作为输出;
以所述待增强语音信号的当前帧的傅里叶系数和上一帧的傅里叶系数作为预先训练好的波束形成网络的输入,以所述待增强语音信号的滤波后傅里叶系数作为输出;
根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数。
6.根据权利要求5所述的方法,其特征在于,所述波束形成网络的激活函数为:
Figure 206379DEST_PATH_IMAGE031
其中,
Figure 755172DEST_PATH_IMAGE032
为所述待增强语音信号的滤波后傅里叶系数,
Figure 843214DEST_PATH_IMAGE033
为当前帧语音信号与所述声源方向对应的预设的波束形成器系数,
Figure 172564DEST_PATH_IMAGE034
为上一帧语音信号与所述声源方向对应的预设的波束形成器系数,
Figure 105885DEST_PATH_IMAGE022
为所述待增强语音信号的当前帧的傅里叶系数,
Figure 837081DEST_PATH_IMAGE035
为所述待增强语音信号的上一帧的傅里叶系数。
7.根据权利要求5所述的方法,其特征在于,通过以下表达式,根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数:
Figure 96024DEST_PATH_IMAGE036
其中,
Figure 647091DEST_PATH_IMAGE037
为所述待增强语音信号的滤波后傅里叶系数,
Figure 649682DEST_PATH_IMAGE038
为所述待增强语音信号的掩蔽值,
Figure 235384DEST_PATH_IMAGE039
为所述待增强语音信号的滤波后傅里叶系数,
Figure 399649DEST_PATH_IMAGE040
为点乘运算。
8.根据权利要求5所述的方法,其特征在于,所述波束形成网络的数量为多个,各所述波束形成网络与预先对麦克风阵列空间划分的目标区域对应,所述掩蔽预测网络和波束形成网络通过以下步骤训练得到:
采集类散射噪声数据,并利用类散射噪声数据生成双麦散射噪声;
利用双麦散射噪声、采集的纯净语音数据和纯净噪声数据生成双麦远场带噪数据训练集,并预存与所述双麦远场带噪数据训练集对应的双麦远场纯净语音数据;
提取所述双麦远场带噪数据集中,已知声源方向的双麦远场带噪数据的频谱特征和方向相干特征;
以所述双麦远场带噪数据的频谱特征和方向相干特征作为掩蔽预测网络的输入,以所述双麦远场带噪数据的掩蔽值作为输出;
根据所述声源方向所属的目标区域确定与所述双麦远场带噪数据对应的波束形成网络;
以所述双麦远场带噪数据的当前帧的傅里叶系数和上一帧的傅里叶系数作为对应的波束形成网络的输入,以所述双麦远场带噪数据的滤波后傅里叶系数作为输出;
根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数;
利用每一个波束形成网络的损失函数训练所述掩蔽预测网络和所述波束形成网络的权重系数。
9.根据权利要求8所述的方法,其特征在于,通过以下表达式,根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数:
Figure 703591DEST_PATH_IMAGE041
Figure 244294DEST_PATH_IMAGE042
Figure 705011DEST_PATH_IMAGE043
其中,
Figure 305756DEST_PATH_IMAGE044
为通过所述声源方向属于同一目标区域的每一个双麦远场带噪数据的增强后傅里叶系数,其通过每一个双麦远场带噪数据的掩蔽值与其滤波后傅里叶系数点乘得到,
Figure 769099DEST_PATH_IMAGE045
为所述声源方向属于同一目标区域的所有双麦远场带噪数据的波形信号,其通过对所有双麦远场带噪数据的增强后傅里叶系数作逆傅里叶变换得到,
Figure 175809DEST_PATH_IMAGE046
Figure 673787DEST_PATH_IMAGE047
分别为所述声源方向属于同一目标区域的所有双麦远场纯净语音数据的波形信号和傅里叶系数。
10.根据权利要求8所述的方法,其特征在于,所述利用每一个波束形成网络的损失函数训练所述掩蔽预测网络和所述波束形成网络的权重系数,包括:
利用每一个波束形成网络的损失函数分别对与其对应的波束形成网络的权重系数进行训练;
利用每一个波束形成网络的损失函数值的总和对掩蔽预测网络的权重系数进行训练。
11.一种麦克风阵列语音增强的装置,其特征在于,包括:
获取模块,其用于通过麦克风阵列获取已知声源方向的待增强语音信号;
提取模块,其用于提取所述待增强语音信号的频谱特征和方向相干特征;
输入模块,其用于将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;
处理模块,其用于对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号。
12.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-9任一项所述的麦克风阵列语音增强的方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9任一项所述的麦克风阵列语音增强的方法的步骤。
CN202111473848.2A 2021-12-06 2021-12-06 麦克风阵列语音增强的方法、装置、电子设备及存储介质 Active CN113889137B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111473848.2A CN113889137B (zh) 2021-12-06 2021-12-06 麦克风阵列语音增强的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111473848.2A CN113889137B (zh) 2021-12-06 2021-12-06 麦克风阵列语音增强的方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113889137A true CN113889137A (zh) 2022-01-04
CN113889137B CN113889137B (zh) 2022-04-01

Family

ID=79016379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111473848.2A Active CN113889137B (zh) 2021-12-06 2021-12-06 麦克风阵列语音增强的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113889137B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114636971A (zh) * 2022-04-26 2022-06-17 海南浙江大学研究院 一种水听器阵列数据远场信号分离方法及装置
CN116092501A (zh) * 2023-03-14 2023-05-09 澳克多普有限公司 语音增强方法、语音识别方法、说话人识别方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110038489A1 (en) * 2008-10-24 2011-02-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
US20190043491A1 (en) * 2018-05-18 2019-02-07 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
CN110600050A (zh) * 2019-09-12 2019-12-20 深圳市华创技术有限公司 基于深度神经网络的麦克风阵列语音增强方法及系统
CN112735460A (zh) * 2020-12-24 2021-04-30 中国人民解放军战略支援部队信息工程大学 基于时频掩蔽值估计的波束成形方法及系统
CN113470685A (zh) * 2021-07-13 2021-10-01 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110038489A1 (en) * 2008-10-24 2011-02-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
US20190043491A1 (en) * 2018-05-18 2019-02-07 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN110600050A (zh) * 2019-09-12 2019-12-20 深圳市华创技术有限公司 基于深度神经网络的麦克风阵列语音增强方法及系统
CN112735460A (zh) * 2020-12-24 2021-04-30 中国人民解放军战略支援部队信息工程大学 基于时频掩蔽值估计的波束成形方法及系统
CN113470685A (zh) * 2021-07-13 2021-10-01 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114636971A (zh) * 2022-04-26 2022-06-17 海南浙江大学研究院 一种水听器阵列数据远场信号分离方法及装置
CN116092501A (zh) * 2023-03-14 2023-05-09 澳克多普有限公司 语音增强方法、语音识别方法、说话人识别方法和系统
CN116092501B (zh) * 2023-03-14 2023-07-25 深圳市玮欧科技有限公司 语音增强方法、语音识别方法、说话人识别方法和系统

Also Published As

Publication number Publication date
CN113889137B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
Pedersen et al. Two-microphone separation of speech mixtures
CN113889137B (zh) 麦克风阵列语音增强的方法、装置、电子设备及存储介质
CN107039045A (zh) 用于语音增强的全局优化最小二乘后滤波
US20220068288A1 (en) Signal processing apparatus, signal processing method, and program
Naqvi et al. Multimodal (audio–visual) source separation exploiting multi-speaker tracking, robust beamforming and time–frequency masking
Zhang et al. Multi-channel multi-frame ADL-MVDR for target speech separation
US20220059114A1 (en) Method and apparatus for determining a deep filter
CN111681665A (zh) 一种全向降噪方法、设备及存储介质
Lv et al. A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation
Cui et al. Multi-objective based multi-channel speech enhancement with BiLSTM network
Aroudi et al. Dbnet: Doa-driven beamforming network for end-to-end reverberant sound source separation
Song et al. An integrated multi-channel approach for joint noise reduction and dereverberation
CN113823301A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
CN113593596A (zh) 一种基于子阵划分的鲁棒自适应波束形成定向拾音方法
Hassani et al. LCMV beamforming with subspace projection for multi-speaker speech enhancement
CN114245266B (zh) 小型麦克风阵列设备的区域拾音方法及系统
CN114242104A (zh) 语音降噪的方法、装置、设备及存储介质
CN114758670A (zh) 波束形成方法、装置、电子设备及存储介质
CN114220451A (zh) 音频消噪方法、电子设备和存储介质
Wang et al. Speech separation and extraction by combining superdirective beamforming and blind source separation
Li et al. Speech enhancement based on binaural sound source localization and cosh measure wiener filtering
Shukla et al. Speech enhancement system using deep neural network optimized with Battle Royale Optimization
Kothapally et al. Monaural Speech Dereverberation using Deformable Convolutional Networks
Gerlach et al. Joint estimation of pitch and direction of arrival: improving robustness and accuracy for multi-speaker scenarios
CN113921027B (zh) 一种基于空间特征的语音增强方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant