CN113030862B - 一种多通道语音增强方法及装置 - Google Patents

一种多通道语音增强方法及装置 Download PDF

Info

Publication number
CN113030862B
CN113030862B CN202110268660.8A CN202110268660A CN113030862B CN 113030862 B CN113030862 B CN 113030862B CN 202110268660 A CN202110268660 A CN 202110268660A CN 113030862 B CN113030862 B CN 113030862B
Authority
CN
China
Prior art keywords
target voice
time
domain signal
voice
multichannel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110268660.8A
Other languages
English (en)
Other versions
CN113030862A (zh
Inventor
张鹏远
石倩
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN202110268660.8A priority Critical patent/CN113030862B/zh
Publication of CN113030862A publication Critical patent/CN113030862A/zh
Application granted granted Critical
Publication of CN113030862B publication Critical patent/CN113030862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/20Position of source determined by a plurality of spaced direction-finders

Abstract

本申请提供了一种多通道语音增强方法及装置。该方法包括:对多通道语音频域信号做去混响处理;然后根据多通道语音频域信号中声源的方位信息构建复角中心高斯混合概率模型,并通过复角中心高斯混合概率模型获得目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵;进行通过获得的时频掩蔽矩阵获得最小方差无失真滤波器并对多通道语音频域信号进行滤波,以及通过目标语音时频掩蔽矩阵对信号进行后滤波,获得最终的目标语音。该方法通过方位信息构建复角中心高斯混合概率模型,解决了模型无序输出时频掩蔽导致目标语音和噪声发生置换的问题,此外,去混响处理以及利用目标语音时频掩蔽进行后滤波处理,提升了目标语音的可懂度。

Description

一种多通道语音增强方法及装置
技术领域
本申请涉及语音处理技术领域,尤其涉及一种多通道语音增强方法及装置。
背景技术
越来越多的麦克风阵列应用在各种可以采集语音的设备中,麦克风阵列可以以不同形态的阵列呈现,包括线阵和环阵等。多通道语音增强是麦克风阵列采集的语音进行滤波处理,从输入的包含有目标语音、噪声和混响的信号中提取出声源的目标语音。
现有技术对多通道语音增强进行滤波处理,通常采用随机数初始化的高斯混合概率模型获得时频掩蔽,进而通过时频掩蔽提取出目标语音。但这种方法在频域进行时,各个频带相互独立,且均存在一定的置换问题,即无法确定目标语音和噪声的输出顺序,需要进一步进行甄别。
发明内容
本申请实施例提供了一种一种多通道语音增强方法及装置,根据声源的方位信息初始化复角中心高斯混合概率模型,能够获得目标语音和噪声的时频掩蔽,进而进行滤波处理,解决了现有技术中目标语音和噪声排序模糊的问题。
第一方面,本申请实施例提供了一种多通道语音增强方法,该方法包括:
将多通道语音时域信号转换到频域中,获得向量形式的多通道语音频域信号,多通道语音时域信号由麦克风阵列采集;
利用声源定位算法获取多通道语音频域信号中声源的方位信息,方位信息包括声源相对麦克风阵列的入射角度;
根据入射角度构建复角中心高斯混合概率模型;
利用复角中心高斯混合概率模型获得多通道语音频域信号对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵;
根据目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定最小方差无失真滤波器,并利用最小方差无失真滤波器获得多通道语音频域信号对应的多通道目标语音初始频域信号;
利用目标语音时频掩蔽矩阵对多通道目标语音初始频域信号进行后滤波处理,获得多通道目标语音频域信号;
根据多通道目标语音频域信号确定目标语音时域信号。
本申请中,通过获取的频域信号中声源的方位信息构建复角中心高斯混合概率模型,可以直接获得目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵,解决了因模型输出的时频掩蔽排序混乱导致的目标语音和噪声发生置换的问题;此外,在最小方差无失真滤波器滤波之后,再次利用目标语音时频掩蔽进行后滤波,进一步提高了目标语音的可辨识度。
在一种实施方式中,在利用声源定位算法获取多通道语音频域信号中声源的方位信息之前,方法还包括:
利用加权预测误差方法对多通道语音频域信号进行去混响处理。
本申请实施例中,去混响处理可以减少混响语音对目标语音的干扰,使获得的目标语音更加纯净。
在一种实施方式中,根据入射角度构建复角中心高斯混合概率模型包括:
根据入射角度确定初始的目标语音协方差矩阵;
根据初始的目标语音协方差矩阵和预设的初始的噪声协方差矩阵,构建复角中心高斯混合概率模型,其中,预设的初始的噪声协方差矩阵利用各向同性柱形噪声场获得。
本申请中,根据入射角度确定的初始的目标语音协方差矩阵,可以准确获得目标语音的时频掩蔽,进而解决模型无序输出时频掩蔽,导致的目标语音和噪声发生置换的问题。
在一种实施方式中,根据入射角度确定初始的目标语音协方差矩阵包括:
根据入射角度和麦克风阵列中参考麦克风的声学传递函数,确定麦克风阵列的导向向量;
根据导向向量确定初始的目标语音协方差矩阵;
在一种实施方式中,利用复角中心高斯混合概率模型获得多通道语音频域信号对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵包括:
将多通道语音频域信号代入复角中心高斯混合概率模型;
采用期望最大化算法迭代更新复角中心高斯混合概率模型的模型参数;
根据复角中心高斯混合概率模型迭代更新结束时的模型参数,确定多通道语音频域信号对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵;
其中,模型参数包括:目标语音协方差矩阵、噪声协方差矩阵、目标语音权重系数和噪声权重系数。
在一种实施方式中,采用期望最大化算法迭代更新复角中心高斯混合概率模型的模型参数包括:
根据当前迭代的目标语音协方差矩阵和目标语音权重系数确定当前迭代的目标语音时频掩蔽矩阵、以及根据当前迭代的噪声协方差矩阵和噪声权重系数确定当前迭代的噪声时频掩蔽矩阵。
在一种实施方式中,采用期望最大化算法迭代更新复角中心高斯混合概率模型的模型参数还包括:
分别根据当前迭代的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定下一次迭代的目标语音权重系数和噪声权重系数、根据当前迭代的目标语音协方差矩阵和目标语音时频掩蔽矩阵确定下一次迭代的目标语音协方差矩阵、以及根据当前迭代的噪声协方差矩阵和噪声时频掩蔽矩阵确定下一次迭代的噪声协方差矩阵。
本申请实施例中,通过迭代更新模型的参数,使得模型对多通道语音频域信号中信号成分的概率分布更加接近真实的分布情况,进而提高了最终获得的时频掩蔽的准确性。
在一种实施方式中,根据目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定最小方差无失真滤波器包括:
分别根据目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵,确定目标语音功率谱密度和噪声功率谱密度;
根据目标语音功率谱密度和噪声功率谱密度,确定最小方差无失真滤波器。
在一种实施方式中,根据多通道目标语音频域信号确定目标语音时域信号包括:
将多通道目标语音频域信号转换到时域中,获得多通道目标语音时域信号;
对多通道目标语音时域信号进行重叠相加处理,获得目标语音时域信号。
第二方面,本申请实施例提供了一种多通道语音增强装置,该装置包括:
频域转换模块,用于将多通道语音时域信号转换到频域中,获得向量形式的多通道语音频域信号,多通道语音时域信号由麦克风阵列采集;
方位获取模块,用于利用声源定位算法获取多通道语音频域信号中声源的方位信息,方位信息包括声源相对麦克风阵列的入射角度;
模型构建模块,用于根据入射角度构建复角中心高斯混合概率模型;
模型处理模块,用于利用复角中心高斯混合概率模型获得多通道语音频域信号对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵;
第一滤波模块,用于根据目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定最小方差无失真滤波器,并利用最小方差无失真滤波器获得多通道语音频域信号对应的多通道目标语音初始频域信号;
第二滤波模块,用于利用目标语音时频掩蔽矩阵对多通道目标语音初始频域信号进行后滤波处理,获得多通道目标语音频域信号;
时域转换模块,用于根据多通道目标语音频域信号确定目标语音时域信号。
在一种实施方式中,该装置还包括:
混响处理模块,用于利用加权预测误差方法对所述多通道语音频域信号进行去混响处理。
在一种实施方式中,模型构建模块具体用于:
根据所述入射角度确定初始的目标语音协方差矩阵;
根据所述初始的目标语音协方差矩阵和预设的初始的噪声协方差矩阵,构建所述复角中心高斯混合概率模型,其中,所述预设的初始的噪声协方差矩阵利用各向同性柱形噪声场获得。
在一种实施方式中,模型构建模块还具体用于:
根据所述入射角度和所述麦克风阵列中参考麦克风的声学传递函数,确定所述麦克风阵列的导向向量;
根据所述导向向量确定所述初始的目标语音协方差矩阵;
在一种实施方式中,模型处理模块具体用于:
将所述多通道语音频域信号代入所述复角中心高斯混合概率模型;
采用期望最大化算法迭代更新所述复角中心高斯混合概率模型的模型参数;
根据所述复角中心高斯混合概率模型迭代更新结束时的模型参数,确定所述多通道语音频域信号对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵;
其中,所述模型参数包括:目标语音协方差矩阵、噪声协方差矩阵、目标语音权重系数和噪声权重系数。
在一种实施方式中,模型处理模块还具体用于:
根据当前迭代的目标语音协方差矩阵和目标语音权重系数确定所述当前迭代的目标语音时频掩蔽矩阵、以及根据当前迭代的噪声协方差矩阵和噪声权重系数确定当前迭代的噪声时频掩蔽矩阵。
在一种实施方式中,模型处理模块还具体用于:
分别根据所述当前迭代的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定下一次迭代的目标语音权重系数和噪声权重系数、根据所述当前迭代的目标语音协方差矩阵和目标语音时频掩蔽矩阵确定下一次迭代的目标语音协方差矩阵、以及根据所述当前迭代的噪声协方差矩阵和噪声时频掩蔽矩阵确定下一次迭代的噪声协方差矩阵。
在一种实施方式中,第一滤波模块具体用于:
分别根据所述目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵,确定目标语音功率谱密度和噪声功率谱密度;
根据所述目标语音功率谱密度和噪声功率谱密度,确定所述最小方差无失真滤波器。
在一种实施方式中,时域转换模块具体用于:
将所述多通道目标语音频域信号转换到时域中,获得多通道目标语音时域信号;
对所述多通道目标语音时域信号进行重叠相加处理,获得所述目标语音时域信号。
附图说明
图1是本申请实施例提供的多通道语音增强方法的流程图;
图2是本申请实施例提供的声源相对于线性麦克风阵列的方位信息的示意图;
图3是本申请实施例提供的一种多通道语音增强装置的结构示意图;
图4是本申请实施例提供的一种计算设备的结构示意图。
具体实施方式
为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本申请实施例中的技术方案进行描述。
在本申请实施例的描述中,“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B这三种情况。另外,除非另有说明,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例提供一种多通道语音增强方法,对多通道语音时域信号进行滤波,从中获得目标语音时域信号。多通道语音时域信号由麦克风阵列采集,其中,由于麦克风阵列由多个麦克风组成,因此采集到的是多通道语音时域信号,一个通道对应一个麦克风。本申请实施例中,以麦克风阵列为线阵进行说明,即麦克风阵列中各麦克风呈线形排布。
图1是本申请提供的一种多通道语音增强方法的流程图。如图1所示,该方法包括如下的步骤S1步骤S6。
步骤S1.获取多通道多通道语音时域信号对应的多通道语音频域信号。
本实施例中,处于空间环境中的声源发出语音;然后通过麦克风阵列采集声源发出的语音,获得多通道语音时域信号x(n);接着对x(n)进行短时傅里叶变换,获得多通道语音频域信号。其中,做傅里叶变换时,对每个通道的语音信号分别进行分帧加窗处理,然后对每一帧计算傅里叶变换得到相应的频谱ytf
其中,x(n)为向量形式,x(n)=[x1(n) … xm(n) … xM(n)],M表示麦克风阵列的麦克风总数。
步骤S2.对多通道语音频域信号进行去混响处理。
由于在远场的场景中,麦克风接收信号会受到卷积混响的影响。假设声源所处环境的脉冲响应RIR的早期信号对识别和感知有利,需要被抑制的则是尾部混响信号。考虑RIR主峰后50毫秒内的信号有利于直达信号,剩下的尾部信号会引起失真,即频域信号可用数学表达式表示为
Figure BDA0002973372060000061
其中,/>
Figure BDA0002973372060000062
为早期RIR卷积声源得到的早期信号,/>
Figure BDA0002973372060000063
为反射后晚期RIR卷积声源形成的尾部混响信号。
因此,本实施例中,采用加权预测误差方法(weighted predict error,WPE)方法对ytf进行去混响处理。WPE算法去混响时,先估计出待处理信号的尾部混响信号,再从频域信号中减去尾部混响信号,从而获得最优的早期信号,早期信号里包括了直达声的信号和早期反射信号。具体地的,可通过滤波器来对早期信号进行估计,具体为
Figure BDA0002973372060000064
式中,Δ表示时延,即在估计混响信号时涉及的过去的帧数,Δ>0,/>
Figure BDA0002973372060000065
和/>
Figure BDA0002973372060000066
分别代表该滤波器的权重矩阵和时间为t-Δ所对应的观测信号,ytf表示当前时间t所对应的观测信号。
步骤S3.获取声源的方位信息,根据方位信息构建复角中心高斯混合概率模型。
本实施例中,方位信息包括声源相对麦克风阵列的入射角度。具体地,利用声源定位算法处理步骤S2获得的多通道语音频域信号即可获得该入射角度。构建复角中心高斯混合概率模型时包括如下的步骤S301-步骤S303。
步骤S301.基于入射角度构建导向向量。具体地,预先在麦克风阵列中选定参考麦克风,然后将入射角度代入参考麦克风的声学传递函数中,获得导向向量。本申请实施例中,如图2所示,将麦克风阵列中与声源距离最近的麦克风1作为参考麦克风。
示例性的,可按公式(1)获得导向向量。
Figure BDA0002973372060000067
公式(1)中,hf为对应的导向向量,f为频点,θ为入射角度,c为声速,d为麦克风阵列中麦克风阵元的间隔,j为虚部,T表示矩阵或向量的转置。
步骤S302.根据获得的导向向量计算初始的目标语音协方差矩阵。具体地,可按公式(2)进行计算,获得多通道语音频域信号对应的初始的目标语音协方差矩阵。
Figure BDA0002973372060000071
公式(2)中,
Figure BDA0002973372060000072
为初始的目标语音协方差矩阵,ε为接近于零的常数,I为单位矩阵,H表示向量或矩阵的共轭转置。
步骤S303.根据初始的目标语音协方差矩阵和预设的初始的噪声协方差矩阵,构建复角中心高斯混合概率模型。其中,预设的初始的噪声协方差矩阵利用各向同性柱形噪声场获得。
具体地,将初始的目标语音协方差矩阵和预设的初始的噪声协方差矩阵代入复角中心高斯混合概率模型的表达式,以初始化复角中心高斯混合概率模型。模型的表达式如公式(3)所示。
Figure BDA0002973372060000073
公式(3)中,ztf为标准化后的多通道语音频域信号,
Figure BDA0002973372060000074
Figure BDA0002973372060000075
的范数,其中,ztf为M×T×F维度的,M为通道总数(即麦克风阵列的阵元总数),T为总帧数,F为频点总数,t表示帧,f表示频点,T由窗长和窗移决定,F为傅里叶变换长度的一半加1;/>
Figure BDA0002973372060000076
为权重系数,k取值为0或1,k=0时,/>
Figure BDA0002973372060000077
表示目标语音权重系数,k=1时,/>
Figure BDA0002973372060000078
表示噪声权重系数;/>
Figure BDA0002973372060000079
为协方差矩阵,k=0时,/>
Figure BDA00029733720600000710
为目标语音协方差矩阵,k=1时,/>
Figure BDA00029733720600000711
为噪声语音协方差矩阵;/>
Figure BDA00029733720600000712
表示ztf和/>
Figure BDA00029733720600000713
的复角中心分布。
其中,
Figure BDA00029733720600000714
为M×M的矩阵,M表示麦克风阵列的阵元总数,i∈[1,M],j∈[1,M],矩阵/>
Figure BDA00029733720600000715
中第i行第j列的元素表示为/>
Figure BDA00029733720600000716
其中,dij为第i个麦克风和第j个麦克风之间的距离,J0(·)为零阶贝塞尔函数,/>
Figure BDA00029733720600000717
Figure BDA00029733720600000718
为积分变量。
步骤S4.利用复角中心高斯混合概率模型获得目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵。
本实施例中,在模型初始化之后,将多通道语音频域信号代入模型中,并用期望最大化算法迭代更新模型的参数,包括
Figure BDA0002973372060000081
和/>
Figure BDA0002973372060000082
具体地,迭代更新模型的表达式为
Figure BDA0002973372060000083
迭代更新参数时,先根据公式(4)计算当前迭代后的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵,然后分别根据公式(5)和公式(6)更新模型下一迭代中的权重系数和协方差矩阵。
Figure BDA0002973372060000084
公式(4)中,k=0时,
Figure BDA0002973372060000085
为目标语音时频掩蔽矩阵,k=1时,/>
Figure BDA0002973372060000086
为噪声时频掩蔽矩阵。
Figure BDA0002973372060000087
Figure BDA0002973372060000088
在模型收敛时,迭代更新结束,并根据公式(4)获取模型最后一次迭代对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵。
步骤S5.根据目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵对多通道语音频域信号进行滤波,获得多通道目标语音频域信号。
本实施例中,基于目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵获得最小方差无失真滤波器ωf,然后利用最小方差无失真滤波器ωf获得多通道目标语音频域信号,即
Figure BDA0002973372060000089
其中,按公式(7)确定最小方差无失真滤波器ωf。/>
Figure BDA00029733720600000810
公式(7)中,Rxx,f为目标语音功率谱密度矩阵,
Figure BDA0002973372060000091
为Rnn,f的逆矩阵,Rnn,f为噪声功率谱密度矩阵,/>
Figure BDA0002973372060000092
u为独热向量,维度等同于通道数目M,参考麦克风对应的维度上的数值为1,其余为0。
步骤S6.根据多通道目标语音频域信号确定目标语音时域信号。
本实施例中,先对多通道目标语音频域信号做傅里叶逆变换,将其转换到时域中,获得多通道目标语音时域信号,然后对多通道目标语音时域信号进行重叠相加处理,获得目标语音时域信号。
在其他实施例中,在对多通道目标语音频域信号做傅里叶逆变换之前,还可以利用目标语音时频掩蔽矩阵对多通道目标语音频域信号进行后滤波,以提升滤波效果。
基于上述方法实施例,本申请实施例还提供一种多通道语音增强装置,该装置可应用于配置有麦克风阵列的设备中,如图3所示,该装置300包括:频域转换模块、方位获取模块、模型构建模块、模型处理模块、第一滤波模块、第二滤波模块和时域转换模块。应理解,图3所示的结构划分只是一种示例,本申请不对装置的具体划分做任何限定。图3所示模块的具体功能参见前述发明内容部分的介绍,此处不再赘述。
基于上述方法实施例,本申请实施例还提供一种计算设备,用于执行上述方法实施例中的方法步骤,该计算设备400包括处理器401、通信总线402、存储器403和至少一个通信接口404。
可以理解的是,本申请的实施例中的处理器401可以是中央处理单元(centralprocessing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
存储器403可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其它类型的静态存储设备,随机存取存储器(random access memory,RAM))或者可存储信息和指令的其它类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质,但不限于此。存储器可以是独立存在,通过通信总线与处理器相连接。存储器也可以和处理器集成在一起。存储器可以存储计算机指令,当存储器中存储的计算机指令被处理器执行时,可以实现本申请的模型优化方法。另外,存储器中还可以存储有处理器在执行上述方法的过程中所需的数据以及所产生的中间数据和/或结果数据。
通信接口404,使用任何收发器一类的装置,用于与其它设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(Wireless Local Area Networks,WLAN)等。
本申请的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编程只读存储器(programmable rom,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。

Claims (9)

1.一种多通道语音增强方法,其特征在于,所述方法包括:
将多通道语音时域信号转换到频域中,获得向量形式的多通道语音频域信号,所述多通道语音时域信号由麦克风阵列采集;
利用声源定位算法获取所述多通道语音频域信号中声源的方位信息,所述方位信息包括所述声源相对所述麦克风阵列的入射角度;
根据所述入射角度确定初始的目标语音协方差矩阵;根据所述初始的目标语音协方差矩阵和预设的初始的噪声协方差矩阵,构建复角中心高斯混合概率模型,其中,所述预设的初始的噪声协方差矩阵利用各向同性柱形噪声场获得;利用所述复角中心高斯混合概率模型获得所述多通道语音频域信号对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵;
根据所述目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定最小方差无失真滤波器,并利用所述最小方差无失真滤波器获得所述多通道语音频域信号对应的多通道目标语音初始频域信号;
利用所述目标语音时频掩蔽矩阵对所述多通道目标语音初始频域信号进行后滤波处理,获得多通道目标语音频域信号;
根据所述多通道目标语音频域信号确定目标语音时域信号。
2.根据权利要求1所述的方法,其特征在于,在所述利用声源定位算法获取所述多通道语音频域信号中声源的方位信息之前,所述方法还包括:
利用加权预测误差方法对所述多通道语音频域信号进行去混响处理。
3.根据权利要求1所述的方法,其特征在于,所述根据所述入射角度确定初始的目标语音协方差矩阵包括:
根据所述入射角度和所述麦克风阵列中参考麦克风的声学传递函数,确定所述麦克风阵列的导向向量;
根据所述导向向量确定所述初始的目标语音协方差矩阵。
4.根据权利要求1所述的方法,其特征在于,所述利用所述复角中心高斯混合概率模型获得所述多通道语音频域信号对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵包括:
将所述多通道语音频域信号代入所述复角中心高斯混合概率模型;
采用期望最大化算法迭代更新所述复角中心高斯混合概率模型的模型参数;
根据所述复角中心高斯混合概率模型迭代更新结束时的模型参数,确定所述多通道语音频域信号对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵;
其中,所述模型参数包括:目标语音协方差矩阵、噪声协方差矩阵、目标语音权重系数和噪声权重系数。
5.根据权利要求4所述的方法,其特征在于,所述采用期望最大化算法迭代更新所述复角中心高斯混合概率模型的模型参数包括:
根据当前迭代的目标语音协方差矩阵和目标语音权重系数确定所述当前迭代的目标语音时频掩蔽矩阵、以及根据当前迭代的噪声协方差矩阵和噪声权重系数确定当前迭代的噪声时频掩蔽矩阵。
6.根据权利要求4所述的方法,其特征在于,所述采用期望最大化算法迭代更新所述复角中心高斯混合概率模型的模型参数还包括:
分别根据当前迭代的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定下一次迭代的目标语音权重系数和噪声权重系数、根据所述当前迭代的目标语音协方差矩阵和目标语音时频掩蔽矩阵确定下一次迭代的目标语音协方差矩阵、以及根据所述当前迭代的噪声协方差矩阵和噪声时频掩蔽矩阵确定下一次迭代的噪声协方差矩阵。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定最小方差无失真滤波器包括:
分别根据所述目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵,确定目标语音功率谱密度和噪声功率谱密度;
根据所述目标语音功率谱密度和噪声功率谱密度,确定所述最小方差无失真滤波器。
8.根据权利要求1所述的方法,其特征在于,所述根据所述多通道目标语音频域信号确定目标语音时域信号包括:
将所述多通道目标语音频域信号转换到时域中,获得多通道目标语音时域信号;
对所述多通道目标语音时域信号进行重叠相加处理,获得所述目标语音时域信号。
9.一种多通道语音增强装置,其特征在于,所述装置包括:
频域转换模块,用于将多通道语音时域信号转换到频域中,获得向量形式的多通道语音频域信号,所述多通道语音时域信号由麦克风阵列采集;
方位获取模块,用于利用声源定位算法获取所述多通道语音频域信号中声源的方位信息,所述方位信息包括所述声源相对所述麦克风阵列的入射角度;
模型构建模块,用于根据所述入射角度确定初始的目标语音协方差矩阵;根据所述初始的目标语音协方差矩阵和预设的初始的噪声协方差矩阵,构建复角中心高斯混合概率模型,其中,所述预设的初始的噪声协方差矩阵利用各向同性柱形噪声场获得;
模型处理模块,用于利用所述复角中心高斯混合概率模型获得所述多通道语音频域信号对应的目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵;
第一滤波模块,用于根据所述目标语音时频掩蔽矩阵和噪声时频掩蔽矩阵确定最小方差无失真滤波器,并利用所述最小方差无失真滤波器获得所述多通道语音频域信号对应的多通道目标语音初始频域信号;
第二滤波模块,用于利用所述目标语音时频掩蔽矩阵对所述多通道目标语音初始频域信号进行后滤波处理,获得多通道目标语音频域信号;
时域转换模块,用于根据所述多通道目标语音频域信号确定目标语音时域信号。
CN202110268660.8A 2021-03-12 2021-03-12 一种多通道语音增强方法及装置 Active CN113030862B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110268660.8A CN113030862B (zh) 2021-03-12 2021-03-12 一种多通道语音增强方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110268660.8A CN113030862B (zh) 2021-03-12 2021-03-12 一种多通道语音增强方法及装置

Publications (2)

Publication Number Publication Date
CN113030862A CN113030862A (zh) 2021-06-25
CN113030862B true CN113030862B (zh) 2023-06-02

Family

ID=76470162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110268660.8A Active CN113030862B (zh) 2021-03-12 2021-03-12 一种多通道语音增强方法及装置

Country Status (1)

Country Link
CN (1) CN113030862B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689870A (zh) * 2021-07-26 2021-11-23 浙江大华技术股份有限公司 一种多通道语音增强方法及其装置、终端、可读存储介质
CN113823311B (zh) * 2021-08-19 2023-11-21 广州市盛为电子有限公司 基于音频增强的语音识别方法及装置
CN113707136B (zh) * 2021-10-28 2021-12-31 南京南大电子智慧型服务机器人研究院有限公司 服务型机器人语音交互的音视频混合语音前端处理方法
CN114268883A (zh) * 2021-11-29 2022-04-01 苏州君林智能科技有限公司 一种选择麦克风布放位置的方法与系统
CN114337908B (zh) * 2022-01-05 2024-04-12 中国科学院声学研究所 一种目标语音信号的干扰信号生成方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103632672B (zh) * 2012-08-28 2017-03-22 腾讯科技(深圳)有限公司 一种变声系统、方法及人机交互系统及方法
CN105244036A (zh) * 2014-06-27 2016-01-13 中兴通讯股份有限公司 一种麦克风语音增强方法及装置
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN108564963B (zh) * 2018-04-23 2019-10-18 百度在线网络技术(北京)有限公司 用于增强语音的方法和装置
CN108831495B (zh) * 2018-06-04 2022-11-29 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN110085246A (zh) * 2019-03-26 2019-08-02 北京捷通华声科技股份有限公司 语音增强方法、装置、设备和存储介质
CN110400572B (zh) * 2019-08-12 2021-10-12 思必驰科技股份有限公司 音频增强方法及系统
CN110503972B (zh) * 2019-08-26 2022-04-19 北京大学深圳研究生院 语音增强方法、系统、计算机设备及存储介质
CN110600050B (zh) * 2019-09-12 2022-04-15 深圳市华创技术有限公司 基于深度神经网络的麦克风阵列语音增强方法及系统
CN111161751A (zh) * 2019-12-25 2020-05-15 声耕智能科技(西安)研究院有限公司 复杂场景下的分布式麦克风拾音系统及方法
CN111081267B (zh) * 2019-12-31 2023-03-28 中国科学院声学研究所 一种多通道远场语音增强方法
CN111508516A (zh) * 2020-03-31 2020-08-07 上海交通大学 基于信道关联时频掩膜的语音波束形成方法
CN111816200B (zh) * 2020-07-01 2022-07-29 电子科技大学 一种基于时频域二值掩膜的多通道语音增强方法

Also Published As

Publication number Publication date
CN113030862A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN113030862B (zh) 一种多通道语音增强方法及装置
US10891967B2 (en) Method and apparatus for enhancing speech
WO2015196729A1 (zh) 一种麦克风阵列语音增强方法及装置
Lavandier et al. Prediction of binaural speech intelligibility against noise in rooms
JP4096104B2 (ja) 雑音低減システム及び雑音低減方法
US20080247274A1 (en) Sensor array post-filter for tracking spatial distributions of signals and noise
US10410641B2 (en) Audio source separation
CN106558315B (zh) 异质麦克风自动增益校准方法及系统
WO2016119388A1 (zh) 一种基于语音信号构造聚焦协方差矩阵的方法及装置
Hammer et al. Dynamically localizing multiple speakers based on the time-frequency domain
CN110739004B (zh) 一种用于wasn的分布式语音噪声消除系统
CN112802490B (zh) 一种基于传声器阵列的波束形成方法和装置
CN113687305A (zh) 声源方位的定位方法、装置、设备及计算机可读存储介质
CN111505569B (zh) 声源定位方法以及相关设备、装置
Astapov et al. Far field speech enhancement at low SNR in presence of nonstationary noise based on spectral masking and MVDR beamforming
Kovalyov et al. Dfsnet: A steerable neural beamformer invariant to microphone array configuration for real-time, low-latency speech enhancement
CN111755021B (zh) 基于二元麦克风阵列的语音增强方法和装置
Šarić et al. Supervised speech separation combined with adaptive beamforming
CN117037836B (zh) 基于信号协方差矩阵重构的实时声源分离方法和装置
Zhao et al. Frequency-domain beamformers using conjugate gradient techniques for speech enhancement
Ji et al. Robust noise power spectral density estimation for binaural speech enhancement in time-varying diffuse noise field
Mirabilii et al. Generating coherence-constrained multisensor signals using balanced mixing and spectrally smooth filters
Liu et al. A new neural beamformer for multi-channel speech separation
Chang et al. Distributed multichannel Wiener filtering for speech enhancement in acoustic sensor networks
Ranjbaryan et al. Distributed speech presence probability estimator in fully connected wireless acoustic sensor networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant