CN111508516A - 基于信道关联时频掩膜的语音波束形成方法 - Google Patents

基于信道关联时频掩膜的语音波束形成方法 Download PDF

Info

Publication number
CN111508516A
CN111508516A CN202010244951.9A CN202010244951A CN111508516A CN 111508516 A CN111508516 A CN 111508516A CN 202010244951 A CN202010244951 A CN 202010244951A CN 111508516 A CN111508516 A CN 111508516A
Authority
CN
China
Prior art keywords
voice
time
channel
noise
frequency mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010244951.9A
Other languages
English (en)
Inventor
杨磊
文飞
王维钦
周良辰
谭璐芬
戴俊宇
王立众
刘佩林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010244951.9A priority Critical patent/CN111508516A/zh
Publication of CN111508516A publication Critical patent/CN111508516A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供了一种基于信道关联时频掩膜的语音波束形成方法及系统,将噪声分量丰富的信道称为噪声信道,将语音分量丰富的信道称为语音信道;使用噪声信道估算噪声时频掩膜,使用语音信道估算语音时频掩膜;使用时频掩膜分别计算噪声协方差矩阵和语音协方差矩阵;根据二者协方差矩阵进行广义特征值分解,得到应进行语音增强的滤波器参数,对滤波器参数进行归一化并以此构建语音增强滤波器;使用语音增强滤波器对输入的多通道语音进行滤波,并对增强后语音中值滤波,输出单通道增强语音。本发明可以提高波束形成算法的语音增强效果,同时由于信道关联的特点,提高了在移动端设备上的语音增强适应性及效果。

Description

基于信道关联时频掩膜的语音波束形成方法
技术领域
本发明涉及语音信号增强技术领域,具体地,涉及一种基于信道关联时频掩膜的语音波束形成方法。
背景技术
目前,语音增强技术是语音信号处理必不可少的部分,能够提高语音信号的信噪比,使得语音处理时更少的被噪声影响。波束形成方法是语音增强技术中,多通道信号增强领域最具效果的方法。传统的波束形成方法针对理想的麦克风阵列设计,在非标准化设计的硬件环境中表现不能达到最好。将信道分类标记,使用噪声丰富的信道和语音丰富的信道分别估计噪声和语音特征,能够使得波束形成方法获得更好的增强效果,也能够更好的适应非标准化设计的硬件环境。
与本专利相关的技术是基于时频掩膜的波束形成方法,该方法根据多通道输入估计噪声时频掩膜,然后根据输入信号和噪声时频掩膜估计语音时频掩膜;将两个时频掩膜分别计算噪声协方差矩阵和语音协方差矩阵;根据二者协方差矩阵进行广义特征值分解,得到应进行语音增强的滤波器参数,对滤波器参数进行归一化并以此构建语音增强滤波器;使用语音增强滤波器对输入的多通道语音进行滤波,并对增强后语音中值滤波,输出单通道增强语音。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于信道关联时频掩膜的语音波束形成方法。
根据本发明提供的一种基于信道关联时频掩膜的语音波束形成方法,包括以下步骤:
信道关联的时频掩膜估计步骤:将噪声分量大于语音分量信道称为噪声信道,将语音分量大于噪声分量的信道称为语音信道;使用神经网络训练时频掩膜分类器;使用噪声信道输入信号和时频掩膜分类器估算噪声时频掩膜,使用语音信道输入信号和神经网络估算语音时频掩膜;
波束形成滤波器构建步骤:使用时频掩膜分别计算噪声协方差矩阵和语音协方差矩阵,根据二者协方差矩阵进行广义特征值分解,得到应进行语音增强的滤波器参数,对滤波器参数进行归一化并以此构建语音增强滤波器;
语音降噪增强步骤:使用语音增强滤波器对输入的多通道语音进行滤波,并对增强后语音中值滤波,输出单通道增强语音。
优选地,所述信道关联的时频掩膜估计步骤包括:
信道标注步骤:根据语音采集设备的硬件使用环境,将噪声分量丰富的信道称为噪声信道,将语音分量丰富的信道称为语音信道;
时频掩膜分类器训练步骤:利用纯语音和纯噪声训练时频掩膜分类器,时频掩膜分类器的输入为语音、噪声,输出为语音掩膜值及噪声掩膜值,获得训练好的时频掩膜分类器;
时频掩膜估计步骤:使用训练好的时频掩膜分类器估计时频掩膜值,时频掩膜分类器的输入为语音、噪声或带噪语音信号,输出为语音时频掩膜值及噪声时频掩膜值。
优选地,所述波束形成滤波器构建步骤包括:
协方差矩阵计算步骤:根据语音时频掩膜及输入的多通道信号功率谱计算语音协方差矩阵,根据噪声时频掩膜及输入多通道信号的功率谱计算噪声协方差矩阵;
广义特征值分解步骤:根据噪声协方差矩阵和信号协方差矩阵,使用广义特征值分解,获得广义特征值及特征向量,最优滤波器参数为最大特征值对应的特征向量;
参数归一化步骤:根据最优滤波器参数,构建语音增强滤波器,使用后置归一化滤波,对输入多通道信号的各个频率输入增益归一化处理,输出无失真信号。
优选地,所述语音降噪增强步骤包括:
波束形成滤波步骤:使用归一化后的滤波器参数构建滤波器,并作用于输入多通道信号的每个通道,输出滤波后多通道信号;
中值滤波步骤:根据滤波后多通道信号,使用中值滤波将多通道信号平滑为单通道信号,并输出滤波后单通道信号。
优选地,所述时频掩膜分类器训练步骤包括:
输入数据处理步骤:将训练所用的噪声数据标记噪声标签,将训练所用的语音数据标记语音标签;根据输入数据,使用短时傅里叶变换将其转变到时频域,并获得时频信号矩阵,该矩阵为神经网络输入;
损失计算步骤:结合输入数据标签及神经网络正向传播的结果,计算神经网络结果与标签之间的误差值,并计算损失函数值;
反向传播步骤:结合损失函数值,计算梯度,反向传播并更新神经网络节点参数;
迭代训练步骤:根据损失函数值,重复上述损失计算步骤和反向传播步骤,当损失函数值不再下降时停止,得到训练完成的时频掩膜分类器。
优选地,所述时频掩膜估计步骤包括:
输入数据处理步骤:根据输入数据,使用信道标注结果将数据标注为噪声丰富数据或者语音丰富数据,使用短时傅里叶变换将其转变到时频域,并获得时频信号矩阵,该矩阵为神经网络输入;
时频掩膜估计步骤:根据输入数据类型判断估计噪声时频掩膜抑或语音时频掩膜;将噪声丰富数据的时频信号矩阵输入训练完成的神经网络,获得噪声时频掩膜;将语音丰富数据的时频信号矩阵输入训练完成的神经网络,获得语音时频掩膜。
根据本发明提供的一种基于信道关联时频掩膜的语音波束形成系统,包括以下模块:
信道关联的时频掩膜估计模块:将噪声分量大于语音分量信道称为噪声信道,将语音分量大于噪声分量的信道称为语音信道;使用神经网络训练时频掩膜分类器;使用噪声信道输入信号和时频掩膜分类器估算噪声时频掩膜,使用语音信道输入信号和神经网络估算语音时频掩膜;
波束形成滤波器构建模块:使用时频掩膜分别计算噪声协方差矩阵和语音协方差矩阵,根据二者协方差矩阵进行广义特征值分解,得到应进行语音增强的滤波器参数,对滤波器参数进行归一化并以此构建语音增强滤波器;
语音降噪增强模块:使用语音增强滤波器对输入的多通道语音进行滤波,并对增强后语音中值滤波,输出单通道增强语音。
优选地,所述信道关联的时频掩膜估计模块包括:
信道标注模块:根据语音采集设备的硬件使用环境,将噪声分量丰富的信道称为噪声信道,将语音分量丰富的信道称为语音信道;
时频掩膜分类器训练模块:利用纯语音和纯噪声训练时频掩膜分类器,时频掩膜分类器的输入为语音、噪声,输出为语音掩膜值及噪声掩膜值,获得训练好的时频掩膜分类器;
时频掩膜估计模块:使用训练好的时频掩膜分类器估计时频掩膜值,时频掩膜分类器的输入为语音、噪声或带噪语音信号,输出为语音时频掩膜值及噪声时频掩膜值;
所述波束形成滤波器构建模块包括:
协方差矩阵计算模块:根据语音时频掩膜及输入的多通道信号功率谱计算语音协方差矩阵,根据噪声时频掩膜及输入多通道信号的功率谱计算噪声协方差矩阵;
广义特征值分解模块:根据噪声协方差矩阵和信号协方差矩阵,使用广义特征值分解,获得广义特征值及特征向量,最优滤波器参数为最大特征值对应的特征向量;
参数归一化模块:根据最优滤波器参数,构建语音增强滤波器,使用后置归一化滤波,对输入多通道信号的各个频率输入增益归一化处理,输出无失真信号;
所述语音降噪增强模块包括:
波束形成滤波模块:使用归一化后的滤波器参数构建滤波器,并作用于输入多通道信号的每个通道,输出滤波后多通道信号;
中值滤波模块:根据滤波后多通道信号,使用中值滤波将多通道信号平滑为单通道信号,并输出滤波后单通道信号。
优选地,所述时频掩膜分类器训练模块包括:
输入数据处理模块:将训练所用的噪声数据标记噪声标签,将训练所用的语音数据标记语音标签;根据输入数据,使用短时傅里叶变换将其转变到时频域,并获得时频信号矩阵,该矩阵为神经网络输入;
损失计算模块:结合输入数据标签及神经网络正向传播的结果,计算神经网络结果与标签之间的误差值,并计算损失函数值;
反向传播模块:结合损失函数值,计算梯度,反向传播并更新神经网络节点参数;
迭代训练模块:根据损失函数值,重新调用损失计算模块和反向传播模块,当损失函数值不再下降时停止,得到训练完成的时频掩膜分类器;
所述时频掩膜估计模块包括:
输入数据处理模块:根据输入数据,使用信道标注结果将数据标注为噪声丰富数据或者语音丰富数据,使用短时傅里叶变换将其转变到时频域,并获得时频信号矩阵,该矩阵为神经网络输入;
时频掩膜估计模块:根据输入数据类型判断估计噪声时频掩膜抑或语音时频掩膜;将噪声丰富数据的时频信号矩阵输入训练完成的神经网络,获得噪声时频掩膜;将语音丰富数据的时频信号矩阵输入训练完成的神经网络,获得语音时频掩膜。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述中任一项所述的信道关联的时频掩膜估计方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
1、本发明可以提高语音波束形成方法对于不标准麦克风硬件条件的适应性;
2、本发明提供了信道关联型时频掩膜,可以针对不同的信道估计不同的时频掩膜,提高了波束形成算法对信道的利用效率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明算法流程图;
图2为本发明实施例中手机端麦克风布设图;
图3为本发明实施例中不同麦克风之间信号时频图的映射关系图.
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
根据本发明提供的一种基于信道关联时频掩膜的语音波束形成方法,包括以下步骤:
信道关联的时频掩膜估计步骤:将噪声分量大于语音分量信道称为噪声信道,将语音分量大于噪声分量的信道称为语音信道;使用神经网络训练时频掩膜分类器;使用噪声信道输入信号和时频掩膜分类器估算噪声时频掩膜,使用语音信道输入信号和神经网络估算语音时频掩膜;
波束形成滤波器构建步骤:使用时频掩膜分别计算噪声协方差矩阵和语音协方差矩阵,根据二者协方差矩阵进行广义特征值分解,得到应进行语音增强的滤波器参数,对滤波器参数进行归一化并以此构建语音增强滤波器;
语音降噪增强步骤:使用语音增强滤波器对输入的多通道语音进行滤波,并对增强后语音中值滤波,输出单通道增强语音。
具体地,所述信道关联的时频掩膜估计步骤包括:
信道标注步骤:根据语音采集设备的硬件使用环境,将噪声分量丰富的信道称为噪声信道,将语音分量丰富的信道称为语音信道;
时频掩膜分类器训练步骤:利用纯语音和纯噪声训练时频掩膜分类器,时频掩膜分类器的输入为语音、噪声,输出为语音掩膜值及噪声掩膜值,获得训练好的时频掩膜分类器;
时频掩膜估计步骤:使用训练好的时频掩膜分类器估计时频掩膜值,时频掩膜分类器的输入为语音、噪声或带噪语音信号,输出为语音时频掩膜值及噪声时频掩膜值。
具体地,所述波束形成滤波器构建步骤包括:
协方差矩阵计算步骤:根据语音时频掩膜及输入的多通道信号功率谱计算语音协方差矩阵,根据噪声时频掩膜及输入多通道信号的功率谱计算噪声协方差矩阵;
广义特征值分解步骤:根据噪声协方差矩阵和信号协方差矩阵,使用广义特征值分解,获得广义特征值及特征向量,最优滤波器参数为最大特征值对应的特征向量;
参数归一化步骤:根据最优滤波器参数,构建语音增强滤波器,使用后置归一化滤波,对输入多通道信号的各个频率输入增益归一化处理,输出无失真信号。
具体地,所述语音降噪增强步骤包括:
波束形成滤波步骤:使用归一化后的滤波器参数构建滤波器,并作用于输入多通道信号的每个通道,输出滤波后多通道信号;
中值滤波步骤:根据滤波后多通道信号,使用中值滤波将多通道信号平滑为单通道信号,并输出滤波后单通道信号。
具体地,所述时频掩膜分类器训练步骤包括:
输入数据处理步骤:将训练所用的噪声数据标记噪声标签,将训练所用的语音数据标记语音标签;根据输入数据,使用短时傅里叶变换将其转变到时频域,并获得时频信号矩阵,该矩阵为神经网络输入;
损失计算步骤:结合输入数据标签及神经网络正向传播的结果,计算神经网络结果与标签之间的误差值,并计算损失函数值;
反向传播步骤:结合损失函数值,计算梯度,反向传播并更新神经网络节点参数;
迭代训练步骤:根据损失函数值,重复上述损失计算步骤和反向传播步骤,当损失函数值不再下降时停止,得到训练完成的时频掩膜分类器。
具体地,所述时频掩膜估计步骤包括:
输入数据处理步骤:根据输入数据,使用信道标注结果将数据标注为噪声丰富数据或者语音丰富数据,使用短时傅里叶变换将其转变到时频域,并获得时频信号矩阵,该矩阵为神经网络输入;
时频掩膜估计步骤:根据输入数据类型判断估计噪声时频掩膜抑或语音时频掩膜;将噪声丰富数据的时频信号矩阵输入训练完成的神经网络,获得噪声时频掩膜;将语音丰富数据的时频信号矩阵输入训练完成的神经网络,获得语音时频掩膜。
根据本发明提供的一种基于信道关联时频掩膜的语音波束形成系统,包括以下模块:
信道关联的时频掩膜估计模块:将噪声分量大于语音分量信道称为噪声信道,将语音分量大于噪声分量的信道称为语音信道;使用神经网络训练时频掩膜分类器;使用噪声信道输入信号和时频掩膜分类器估算噪声时频掩膜,使用语音信道输入信号和神经网络估算语音时频掩膜;
波束形成滤波器构建模块:使用时频掩膜分别计算噪声协方差矩阵和语音协方差矩阵,根据二者协方差矩阵进行广义特征值分解,得到应进行语音增强的滤波器参数,对滤波器参数进行归一化并以此构建语音增强滤波器;
语音降噪增强模块:使用语音增强滤波器对输入的多通道语音进行滤波,并对增强后语音中值滤波,输出单通道增强语音。
具体地,所述信道关联的时频掩膜估计模块包括:
信道标注模块:根据语音采集设备的硬件使用环境,将噪声分量丰富的信道称为噪声信道,将语音分量丰富的信道称为语音信道;
时频掩膜分类器训练模块:利用纯语音和纯噪声训练时频掩膜分类器,时频掩膜分类器的输入为语音、噪声,输出为语音掩膜值及噪声掩膜值,获得训练好的时频掩膜分类器;
时频掩膜估计模块:使用训练好的时频掩膜分类器估计时频掩膜值,时频掩膜分类器的输入为语音、噪声或带噪语音信号,输出为语音时频掩膜值及噪声时频掩膜值;
所述波束形成滤波器构建模块包括:
协方差矩阵计算模块:根据语音时频掩膜及输入的多通道信号功率谱计算语音协方差矩阵,根据噪声时频掩膜及输入多通道信号的功率谱计算噪声协方差矩阵;
广义特征值分解模块:根据噪声协方差矩阵和信号协方差矩阵,使用广义特征值分解,获得广义特征值及特征向量,最优滤波器参数为最大特征值对应的特征向量;
参数归一化模块:根据最优滤波器参数,构建语音增强滤波器,使用后置归一化滤波,对输入多通道信号的各个频率输入增益归一化处理,输出无失真信号;
所述语音降噪增强模块包括:
波束形成滤波模块:使用归一化后的滤波器参数构建滤波器,并作用于输入多通道信号的每个通道,输出滤波后多通道信号;
中值滤波模块:根据滤波后多通道信号,使用中值滤波将多通道信号平滑为单通道信号,并输出滤波后单通道信号。
具体地,所述时频掩膜分类器训练模块包括:
输入数据处理模块:将训练所用的噪声数据标记噪声标签,将训练所用的语音数据标记语音标签;根据输入数据,使用短时傅里叶变换将其转变到时频域,并获得时频信号矩阵,该矩阵为神经网络输入;
损失计算模块:结合输入数据标签及神经网络正向传播的结果,计算神经网络结果与标签之间的误差值,并计算损失函数值;
反向传播模块:结合损失函数值,计算梯度,反向传播并更新神经网络节点参数;
迭代训练模块:根据损失函数值,重新调用损失计算模块和反向传播模块,当损失函数值不再下降时停止,得到训练完成的时频掩膜分类器;
所述时频掩膜估计模块包括:
输入数据处理模块:根据输入数据,使用信道标注结果将数据标注为噪声丰富数据或者语音丰富数据,使用短时傅里叶变换将其转变到时频域,并获得时频信号矩阵,该矩阵为神经网络输入;
时频掩膜估计模块:根据输入数据类型判断估计噪声时频掩膜抑或语音时频掩膜;将噪声丰富数据的时频信号矩阵输入训练完成的神经网络,获得噪声时频掩膜;将语音丰富数据的时频信号矩阵输入训练完成的神经网络,获得语音时频掩膜。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述中任一项所述的信道关联的时频掩膜估计方法的步骤。
下面通过优选例,对本发明进行更为具体地说明。
优选例1:
本发明的具体应用场景包括在移动端设备,尤其是智能手机端,如图2,应用手机麦克风进行声音采集,然后使用本发明所提供的波束形成方法进行语音增强。
本实施例提供了手机端的语音波束形成增强方法,其中提供了:基于信道关联的时频掩膜估计方法;基于时频掩膜的波束形成方法;基于波束形成的语音增强方法。
主要过程通过Python来实现,如图1所示,该方法包括如下步骤:
信道关联的时频掩膜估计步骤:使用神经网络训练时频掩膜分类器,将手机端麦克风采集的信号输入神经网络,根据不同的麦克风信道估算不同的时频掩膜;
波束形成滤波器构建步骤:使用时频掩膜计算协方差矩阵,并对协方差矩阵进行广义特征值分解,将最大的特征值对应的特征向量定义为滤波器参数;
语音降噪增强步骤:使用语音增强滤波器对输入的多通道语音进行滤波,并对增强后语音中值滤波,输出单通道增强语音。
在信道关联的时频掩膜估计步骤,首先将手机端麦克风根据功能类型不同,标注为噪声信道和语音信道;使用纯语音和纯噪声训练神经网络分类器(时频掩膜分类器的本质即神经网络,所以神经网络分类器与时频掩膜分类器是同义的);将噪声信道的信号输入神经网络并输出噪声时频掩膜,将语音信道的信号输入神经网络并输出语音时频掩膜。
波束形成滤波器构建步骤,根据输入信号及得到的噪声时频掩膜和语音时频掩膜,分别计算噪声协方差矩阵和语音协方差矩阵,并对两个协方差矩阵进行广义特征值分解,将最大特征值对应的特征向量定义为滤波器参数;为了输出无失真信号,需要对滤波器参数进行后置归一化滤波。无失真信号是语音增强滤波器的输出,滤波器参数与无失真信号不一样。利用滤波器参数构建一个函数,该函数即为滤波器,输入信号乘以该函数(滤波器)得到输出无失真信号。
语音降噪增强步骤,使用归一化后的滤波器参数构建滤波器,作用于输入多通道信号的每个通道,然后使用中值滤波将多通道信号平滑为单通道信号,并输出滤波后单通道信号。
以下将对其中内容进行进一步展开,其中只详细描述本方法提出算法的部分内容。
步骤一、信道关联的时频掩膜估计
首先,会根据手机端麦克风特点分为噪声信道或者语音信道,如图2,将上部麦克风定义为噪声信道,下部麦克风定义为语音信道。然后将语音信道采集得到的信号表达为:
Figure BDA0002433747720000091
式中,
SRMf,t表示语音时频掩膜;
Figure BDA0002433747720000092
代表语音的功率谱;
Figure BDA0002433747720000093
代表噪声功率谱;
Figure BDA0002433747720000094
代表输入的带噪语音功率谱;
α是时频掩膜的全局能量调节系数;
将语音信道采集得到的信号表达为:
Figure BDA0002433747720000101
式中,
NRMf,t表示语音时频掩膜;
Figure BDA0002433747720000102
代表语音的功率谱;
Figure BDA0002433747720000103
代表噪声功率谱;
Figure BDA0002433747720000104
代表输入的带噪语音功率谱;
α是时频掩膜的全局能量调节系数;
步骤二、波束形成滤波器构建
首先,根据步骤一中得到的语音时频掩膜计算得到语音协方差矩阵和噪声协方差矩阵:
Figure BDA0002433747720000105
Figure BDA0002433747720000106
式中,Rnoise代表噪声协方差矩阵;
Rsignal代表语音协方差矩阵;
Pf,t代表信号的功率谱;
Figure BDA0002433747720000107
代表噪声的时频掩膜;
Figure BDA0002433747720000108
代表语音的时频掩膜。
然后,对语音协方差矩阵和噪声协方差矩阵进行广义特征值分解,并将最大的特征值对应的特征向量定义为滤波器参数:
Rsignalwf=λRnoisewf (5)
Figure BDA0002433747720000109
Figure BDA00024337477200001010
式中,λ代表广义特征值分解的特征值;
wf代表广义特征值分解的特征向量。
然后,将得到的滤波器参数进行后置归一化滤波,得到最终的滤波器参数:
Figure BDA0002433747720000111
式中,M代表麦克风的数量。
最终,将滤波器作用于输入信号,便得到增强后语音信号:
Figure BDA0002433747720000112
Figure BDA0002433747720000113
优选例2:
根据本发明提供的一种基于信道关联时频掩膜的语音波束形成方法,包括以下步骤:
信道关联的时频掩膜估计步骤:将噪声分量丰富的信道称为噪声信道,将语音分量丰富的信道称为语音信道;使用神经网络训练时频掩膜分类器;使用噪声信道输入信号和神经网络估算噪声时频掩膜,使用语音信道输入信号和神经网络估算语音时频掩膜;
波束形成滤波器构建步骤:使用时频掩膜分别计算噪声协方差矩阵和语音协方差矩阵,根据二者协方差矩阵进行广义特征值分解,得到应进行语音增强的滤波器参数,对滤波器参数进行归一化并以此构建语音增强滤波器;
语音降噪增强步骤:使用语音增强滤波器对输入的多通道语音进行滤波,并对增强后语音中值滤波,输出单通道增强语音。
所述信道关联的时频掩膜估计步骤包括:
信道标注步骤:根据语音采集设备的硬件使用环境,将噪声分量丰富的信道称为噪声信道,将语音分量丰富的信道称为语音信道;
时频掩膜估计器训练步骤:利用纯语音和纯噪声训练神经网络分类器,神经网络的输入为语音、噪声,输出为语音掩膜值及噪声掩膜值;
时频掩膜估计步骤:使用训练好的神经网络分类器估计时频掩膜值,输入为语音、噪声或带噪语音信号,输出为语音掩膜值及噪声掩膜值。
所述波束形成滤波器构建骤包括:
协方差矩阵计算步骤:根据语音时频掩膜及输入的多通道信号功率谱计算语音协方差矩阵,根据噪声时频掩膜及输入多通道信号的功率谱计算噪声协方差矩阵;
广义特征值分解步骤:根据噪声协方差矩阵和信号协方差矩阵,使用广义特征值分解,获得广义特征值及特征向量,最优滤波器参数为最大特征值对应的特征向量;
参数归一化步骤:根据最优滤波器参数,使用后置归一化滤波,对输入多通道信号的各个频率输入增益归一化处理,输出无失真信号。
所述语音降噪增强步骤:
波束形成滤波步骤:使用归一化后的滤波器参数构建滤波器,并作用于输入多通道信号的每个通道,输出滤波后多通道信号;
中值滤波步骤:根据滤波后多通道信号,使用中值滤波将多通道信号平滑为单通道信号,并输出滤波后单通道信号。
根据本发明提供的一种信道关联的时频掩膜估计方法,包括以下步骤:
信道标注步骤:根据语音采集设备的硬件使用环境,将噪声分量丰富的信道称为噪声信道,将语音分量丰富的信道称为语音信道;
时频掩膜估计器训练步骤:利用纯语音和纯噪声训练神经网络分类器,神经网络的输入为语音、噪声,输出为语音掩膜值及噪声掩膜值;
时频掩膜估计步骤:使用训练好的神经网络分类器估计时频掩膜值,输入为语音、噪声或带噪语音信号,输出为语音掩膜值及噪声掩膜值。
所述时频掩膜估计器训练步骤包括:
输入数据处理步骤:将训练所用的噪声数据标记噪声标签,将训练所用的语音数据标记语音标签;根据输入数据,使用短时傅里叶变换将其转变到时频域,并获得时频信号矩阵,该矩阵为神经网络输入;
损失计算步骤:结合输入数据标签及神经网络正向传播的结果,计算神经网络结果与标签之间的误差值(即一一判别结果与标签是否不同,并统计不同值占整体的比重),并计算损失函数值;
反向传播步骤:结合损失函数值,计算梯度,反向传播并更新神经网络节点参数;
迭代训练步骤:根据损失函数值,重复上述损失计算步骤和反向传播步骤,当损失函数值不再下降时停止,得到训练完成的时频掩膜模型。
所述时频掩膜估计步骤包括:
输入数据处理步骤:根据输入数据,使用信道标注结果将数据标注为噪声丰富数据或者语音丰富数据,使用短时傅里叶变换将其转变到时频域,并获得时频信号矩阵,该矩阵为神经网络输入;
时频掩膜估计步骤:根据输入数据类型判断估计噪声时频掩膜抑或语音时频掩膜;将噪声丰富数据的时频信号矩阵输入训练完成的神经网络,获得噪声时频掩膜;将语音丰富数据的时频信号矩阵输入训练完成的神经网络,获得语音时频掩膜。

Claims (10)

1.一种基于信道关联时频掩膜的语音波束形成方法,其特征在于,包括以下步骤:
信道关联的时频掩膜估计步骤:将噪声分量大于语音分量信道称为噪声信道,将语音分量大于噪声分量的信道称为语音信道;使用神经网络训练时频掩膜分类器;使用噪声信道输入信号和时频掩膜分类器估算噪声时频掩膜,使用语音信道输入信号和神经网络估算语音时频掩膜;
波束形成滤波器构建步骤:使用时频掩膜分别计算噪声协方差矩阵和语音协方差矩阵,根据二者协方差矩阵进行广义特征值分解,得到应进行语音增强的滤波器参数,对滤波器参数进行归一化并以此构建语音增强滤波器;
语音降噪增强步骤:使用语音增强滤波器对输入的多通道语音进行滤波,并对增强后语音中值滤波,输出单通道增强语音。
2.根据权利要求1所述的基于信道关联时频掩膜的语音波束形成方法,其特征在于,所述信道关联的时频掩膜估计步骤包括:
信道标注步骤:根据语音采集设备的硬件使用环境,将噪声分量丰富的信道称为噪声信道,将语音分量丰富的信道称为语音信道;
时频掩膜分类器训练步骤:利用纯语音和纯噪声训练时频掩膜分类器,时频掩膜分类器的输入为语音、噪声,输出为语音掩膜值及噪声掩膜值,获得训练好的时频掩膜分类器;
时频掩膜估计步骤:使用训练好的时频掩膜分类器估计时频掩膜值,时频掩膜分类器的输入为语音、噪声或带噪语音信号,输出为语音时频掩膜值及噪声时频掩膜值。
3.根据权利要求1所述的基于信道关联时频掩膜的语音波束形成方法,其特征在于,所述波束形成滤波器构建步骤包括:
协方差矩阵计算步骤:根据语音时频掩膜及输入的多通道信号功率谱计算语音协方差矩阵,根据噪声时频掩膜及输入多通道信号的功率谱计算噪声协方差矩阵;
广义特征值分解步骤:根据噪声协方差矩阵和信号协方差矩阵,使用广义特征值分解,获得广义特征值及特征向量,最优滤波器参数为最大特征值对应的特征向量;
参数归一化步骤:根据最优滤波器参数,构建语音增强滤波器,使用后置归一化滤波,对输入多通道信号的各个频率输入增益归一化处理,输出无失真信号。
4.根据权利要求1所述的基于信道关联时频掩膜的语音波束形成方法,其特征在于,所述语音降噪增强步骤包括:
波束形成滤波步骤:使用归一化后的滤波器参数构建滤波器,并作用于输入多通道信号的每个通道,输出滤波后多通道信号;
中值滤波步骤:根据滤波后多通道信号,使用中值滤波将多通道信号平滑为单通道信号,并输出滤波后单通道信号。
5.根据权利要求2所述的信道关联的时频掩膜估计方法,其特征在于,所述时频掩膜分类器训练步骤包括:
输入数据处理步骤:将训练所用的噪声数据标记噪声标签,将训练所用的语音数据标记语音标签;根据输入数据,使用短时傅里叶变换将其转变到时频域,并获得时频信号矩阵,该矩阵为神经网络输入;
损失计算步骤:结合输入数据标签及神经网络正向传播的结果,计算神经网络结果与标签之间的误差值,并计算损失函数值;
反向传播步骤:结合损失函数值,计算梯度,反向传播并更新神经网络节点参数;
迭代训练步骤:根据损失函数值,重复上述损失计算步骤和反向传播步骤,当损失函数值不再下降时停止,得到训练完成的时频掩膜分类器。
6.根据权利要求2所述的基于信道关联时频掩膜的语音波束形成方法,其特征在于,所述时频掩膜估计步骤包括:
输入数据处理步骤:根据输入数据,使用信道标注结果将数据标注为噪声丰富数据或者语音丰富数据,使用短时傅里叶变换将其转变到时频域,并获得时频信号矩阵,该矩阵为神经网络输入;
时频掩膜估计步骤:根据输入数据类型判断估计噪声时频掩膜抑或语音时频掩膜;将噪声丰富数据的时频信号矩阵输入训练完成的神经网络,获得噪声时频掩膜;将语音丰富数据的时频信号矩阵输入训练完成的神经网络,获得语音时频掩膜。
7.一种基于信道关联时频掩膜的语音波束形成系统,其特征在于,包括以下模块:
信道关联的时频掩膜估计模块:将噪声分量大于语音分量信道称为噪声信道,将语音分量大于噪声分量的信道称为语音信道;使用神经网络训练时频掩膜分类器;使用噪声信道输入信号和时频掩膜分类器估算噪声时频掩膜,使用语音信道输入信号和神经网络估算语音时频掩膜;
波束形成滤波器构建模块:使用时频掩膜分别计算噪声协方差矩阵和语音协方差矩阵,根据二者协方差矩阵进行广义特征值分解,得到应进行语音增强的滤波器参数,对滤波器参数进行归一化并以此构建语音增强滤波器;
语音降噪增强模块:使用语音增强滤波器对输入的多通道语音进行滤波,并对增强后语音中值滤波,输出单通道增强语音。
8.根据权利要求7所述的基于信道关联时频掩膜的语音波束形成系统,其特征在于,所述信道关联的时频掩膜估计模块包括:
信道标注模块:根据语音采集设备的硬件使用环境,将噪声分量丰富的信道称为噪声信道,将语音分量丰富的信道称为语音信道;
时频掩膜分类器训练模块:利用纯语音和纯噪声训练时频掩膜分类器,时频掩膜分类器的输入为语音、噪声,输出为语音掩膜值及噪声掩膜值,获得训练好的时频掩膜分类器;
时频掩膜估计模块:使用训练好的时频掩膜分类器估计时频掩膜值,时频掩膜分类器的输入为语音、噪声或带噪语音信号,输出为语音时频掩膜值及噪声时频掩膜值;
所述波束形成滤波器构建模块包括:
协方差矩阵计算模块:根据语音时频掩膜及输入的多通道信号功率谱计算语音协方差矩阵,根据噪声时频掩膜及输入多通道信号的功率谱计算噪声协方差矩阵;
广义特征值分解模块:根据噪声协方差矩阵和信号协方差矩阵,使用广义特征值分解,获得广义特征值及特征向量,最优滤波器参数为最大特征值对应的特征向量;
参数归一化模块:根据最优滤波器参数,构建语音增强滤波器,使用后置归一化滤波,对输入多通道信号的各个频率输入增益归一化处理,输出无失真信号;
所述语音降噪增强模块包括:
波束形成滤波模块:使用归一化后的滤波器参数构建滤波器,并作用于输入多通道信号的每个通道,输出滤波后多通道信号;
中值滤波模块:根据滤波后多通道信号,使用中值滤波将多通道信号平滑为单通道信号,并输出滤波后单通道信号。
9.根据权利要求8所述的基于信道关联时频掩膜的语音波束形成方法,其特征在于,所述时频掩膜分类器训练模块包括:
输入数据处理模块:将训练所用的噪声数据标记噪声标签,将训练所用的语音数据标记语音标签;根据输入数据,使用短时傅里叶变换将其转变到时频域,并获得时频信号矩阵,该矩阵为神经网络输入;
损失计算模块:结合输入数据标签及神经网络正向传播的结果,计算神经网络结果与标签之间的误差值,并计算损失函数值;
反向传播模块:结合损失函数值,计算梯度,反向传播并更新神经网络节点参数;
迭代训练模块:根据损失函数值,重新调用损失计算模块和反向传播模块,当损失函数值不再下降时停止,得到训练完成的时频掩膜分类器;
所述时频掩膜估计模块包括:
输入数据处理模块:根据输入数据,使用信道标注结果将数据标注为噪声丰富数据或者语音丰富数据,使用短时傅里叶变换将其转变到时频域,并获得时频信号矩阵,该矩阵为神经网络输入;
时频掩膜估计模块:根据输入数据类型判断估计噪声时频掩膜抑或语音时频掩膜;将噪声丰富数据的时频信号矩阵输入训练完成的神经网络,获得噪声时频掩膜;将语音丰富数据的时频信号矩阵输入训练完成的神经网络,获得语音时频掩膜。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的信道关联的时频掩膜估计方法的步骤。
CN202010244951.9A 2020-03-31 2020-03-31 基于信道关联时频掩膜的语音波束形成方法 Pending CN111508516A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010244951.9A CN111508516A (zh) 2020-03-31 2020-03-31 基于信道关联时频掩膜的语音波束形成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010244951.9A CN111508516A (zh) 2020-03-31 2020-03-31 基于信道关联时频掩膜的语音波束形成方法

Publications (1)

Publication Number Publication Date
CN111508516A true CN111508516A (zh) 2020-08-07

Family

ID=71864764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010244951.9A Pending CN111508516A (zh) 2020-03-31 2020-03-31 基于信道关联时频掩膜的语音波束形成方法

Country Status (1)

Country Link
CN (1) CN111508516A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113030862A (zh) * 2021-03-12 2021-06-25 中国科学院声学研究所 一种多通道语音增强方法及装置
CN114613384A (zh) * 2022-03-14 2022-06-10 中国电子科技集团公司第十研究所 一种基于深度学习多输入语音信号波束形成信息互补方法
CN114613383A (zh) * 2022-03-14 2022-06-10 中国电子科技集团公司第十研究所 一种机载环境下多输入语音信号波束形成信息互补方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040136544A1 (en) * 2002-10-03 2004-07-15 Balan Radu Victor Method for eliminating an unwanted signal from a mixture via time-frequency masking
CN103959376A (zh) * 2011-12-06 2014-07-30 英特尔公司 低功率语音检测
CN104376848A (zh) * 2013-08-12 2015-02-25 展讯通信(上海)有限公司 语音信号处理方法和装置
US20160111108A1 (en) * 2014-10-21 2016-04-21 Mitsubishi Electric Research Laboratories, Inc. Method for Enhancing Audio Signal using Phase Information
CN106228977A (zh) * 2016-08-02 2016-12-14 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法
CN106328152A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测系统
CN110364175A (zh) * 2019-08-20 2019-10-22 北京凌声芯语音科技有限公司 语音增强方法及系统、通话设备
CN110503971A (zh) * 2018-05-18 2019-11-26 英特尔公司 用于语音处理的基于神经网络的时频掩模估计和波束形成
CN110600050A (zh) * 2019-09-12 2019-12-20 深圳市华创技术有限公司 基于深度神经网络的麦克风阵列语音增强方法及系统
CN110931036A (zh) * 2019-12-07 2020-03-27 杭州国芯科技股份有限公司 一种麦克风阵列波束形成方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040136544A1 (en) * 2002-10-03 2004-07-15 Balan Radu Victor Method for eliminating an unwanted signal from a mixture via time-frequency masking
CN103959376A (zh) * 2011-12-06 2014-07-30 英特尔公司 低功率语音检测
CN104376848A (zh) * 2013-08-12 2015-02-25 展讯通信(上海)有限公司 语音信号处理方法和装置
US20160111108A1 (en) * 2014-10-21 2016-04-21 Mitsubishi Electric Research Laboratories, Inc. Method for Enhancing Audio Signal using Phase Information
CN106328152A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测系统
CN106228977A (zh) * 2016-08-02 2016-12-14 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法
CN110503971A (zh) * 2018-05-18 2019-11-26 英特尔公司 用于语音处理的基于神经网络的时频掩模估计和波束形成
CN110364175A (zh) * 2019-08-20 2019-10-22 北京凌声芯语音科技有限公司 语音增强方法及系统、通话设备
CN110600050A (zh) * 2019-09-12 2019-12-20 深圳市华创技术有限公司 基于深度神经网络的麦克风阵列语音增强方法及系统
CN110931036A (zh) * 2019-12-07 2020-03-27 杭州国芯科技股份有限公司 一种麦克风阵列波束形成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ERNST WARSITZ ET AL.: "《Blind Acoustic Beamforming Based on Generalized Eigenvalue Decomposition》", vol. 15, no. 5 *
JUNYU DAI ET AL.: "《A System Integrating Speech Interaction and Vision Sensing Applying in Smart Home Scenario》", pages 1 - 5 *
黄镒东 应忍冬: "《基于时频稀疏约束的多通道声源分离算法》" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113030862A (zh) * 2021-03-12 2021-06-25 中国科学院声学研究所 一种多通道语音增强方法及装置
CN114613384A (zh) * 2022-03-14 2022-06-10 中国电子科技集团公司第十研究所 一种基于深度学习多输入语音信号波束形成信息互补方法
CN114613383A (zh) * 2022-03-14 2022-06-10 中国电子科技集团公司第十研究所 一种机载环境下多输入语音信号波束形成信息互补方法
CN114613384B (zh) * 2022-03-14 2023-08-29 中国电子科技集团公司第十研究所 一种基于深度学习多输入语音信号波束形成信息互补方法

Similar Documents

Publication Publication Date Title
CN109643554B (zh) 自适应语音增强方法和电子设备
CN111508516A (zh) 基于信道关联时频掩膜的语音波束形成方法
CN108831495A (zh) 一种应用于噪声环境下语音识别的语音增强方法
US8223988B2 (en) Enhanced blind source separation algorithm for highly correlated mixtures
US11894010B2 (en) Signal processing apparatus, signal processing method, and program
CN112735460B (zh) 基于时频掩蔽值估计的波束成形方法及系统
US20030055627A1 (en) Multi-channel speech enhancement system and method based on psychoacoustic masking effects
CN110148420A (zh) 一种适用于噪声环境下的语音识别方法
CN103632675A (zh) 个人通信中降噪和回波消除时的噪声估计
US11373667B2 (en) Real-time single-channel speech enhancement in noisy and time-varying environments
CN110164468B (zh) 一种基于双麦克风的语音增强方法及装置
CN112331224A (zh) 轻量级时域卷积网络语音增强方法与系统
CN111081267A (zh) 一种多通道远场语音增强方法
CN110556125B (zh) 基于语音信号的特征提取方法、设备及计算机存储介质
CN102969000A (zh) 一种多通道语音增强方法
CN101853665A (zh) 语音中噪声的消除方法
CN112992173B (zh) 基于改进bca盲源分离的信号分离和去噪方法
CN111681665A (zh) 一种全向降噪方法、设备及存储介质
Spriet et al. Stochastic gradient-based implementation of spatially preprocessed speech distortion weighted multichannel Wiener filtering for noise reduction in hearing aids
CN112802490B (zh) 一种基于传声器阵列的波束形成方法和装置
CN112037813B (zh) 一种针对大功率目标信号的语音提取方法
CN113409804A (zh) 一种基于变张成广义子空间的多通道频域语音增强算法
WO2023108864A1 (zh) 小型麦克风阵列设备的区域拾音方法及系统
CN114724574A (zh) 一种期望声源方向可调的双麦克风降噪方法
CN114242104A (zh) 语音降噪的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination