CN111210835B

CN111210835B - 一种基于听觉模型和信源方位的多通路语音降噪方法

Info

Publication number: CN111210835B
Application number: CN202010018821.3A
Authority: CN
Inventors: 杨子晖; 钟小丽; 宋昊
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2023-07-18
Anticipated expiration: 2040-01-08
Also published as: CN111210835A

Abstract

本发明公开一种基于听觉模型和信源方位的多通路语音降噪方法。该方法将多通路带噪语音信号进行通路分离，导入听觉模型映射成为各个独立通路的语谱灰度图；将语谱灰度图输入方向识别神经网络模型，得到各个独立通路的语声信源的方位；进一步，将语谱灰度图导入相应信源方位的降噪神经网络，降噪神经网络对语谱图有语音部分与无语音部分实施分区降噪处理；将各个独立通路的降噪后语谱图进行逆变换，再进行通路合并，最终获得降噪后的多通路语音信号。本方法利用人类听觉模型将带噪语音信号映射到初级感知域进行处理，更加符合人类生理感知；此外，对不同空间方位的语声信源实施分区域个性化降噪策略，有助于提高降噪的精准度。

Description

一种基于听觉模型和信源方位的多通路语音降噪方法

技术领域

本发明属于语音降噪技术领域，涉及一种基于听觉模型和信源方位的多通路语音降噪方法。

背景技术

语言是人与人之间交流的重要媒介。伴随着电子技术与通信技术的飞速发展，语音信号拥有丰富的存储媒介与传播途径。相较于书写或键入文字，语音凭借着输出信息的高效性与快捷性已经成为物联网的重要入口。人类日常生活工作的声环境十分复杂，如何获取高质量的语音信号成为亟待解决的行业难题。在噪声环境下直接取得高质量的语音信号需要昂贵的专业录音设备与严苛的录制环境。因此，一个普适性的方法是对录制得到的带噪语音信号进行后期降噪处理。常用的语音降噪处理手段有谱减法、维纳滤波法、自适应滤波法等，这些方法直接作用于带噪语音信号，针对特定类型的噪声能够得到一定的降噪效果。然而，人对于噪声的感知是生理与心理的共同作用，传统的语音降噪方法仅针对语音信号自身性质进行处理，没有考虑与人相关的因素。

目前，为了满足人们日益增长的美好生活需要，高质量的立体声重放技术得到了飞速发展。立体声重放的基础是与之匹配的多通路音源。多通路信号可以由分别布置的多个传声器分别拾音然后合并得到，也可以由传声器阵列对同一声源录制得到。目前，尚无成熟的算法可以实现对噪声环境下录制得到的多通路语音信号的有效降噪。

发明内容

本发明为了解决上述现有多通路语音信号降噪方法的缺陷，提出了一种基于听觉模型和信源方位的多通路语音降噪方法。本发明将时域多通路带噪语音信号通过听觉模型映射到初级感知域进行处理，通过对各通路信号语声信源空间方位的判断，以及对信号有语音部分和无语音部分的划分，引入神经网络实现了对多通路带噪语音信号的分时段、分空间的精细化高效降噪。

本发明的目的通过以下技术方案实现。

一种基于听觉模型和信源方位的多通路语音降噪方法，包括如下步骤：

步骤1，将多通路带噪语音信号进行通路分离，得到各通路上独立的带噪语音信号；

步骤2，将各通路信号导入听觉模型映射到初级感知域，进一步依据幅值映射成为语谱灰度图；

步骤3，将语谱灰度图输入方向识别神经网络模型，得到语声信源的空间方位；

步骤4，将语谱灰度图输入相应信源方位的降噪神经网络，对有语音部分和无语音部分分别实施Non-local Means非局部均值降噪；

步骤5，对步骤2得到的每个通路分别实施步骤3到步骤4，得到每个通路的降噪后语谱图；

步骤6：将每个通路的降噪后语谱图进行逆变换，然后进行通路合并，得到降噪后的多通路语音信号。

进一步地，步骤2具体包括：

步骤201：将各通路上独立的带噪语音信号进行短时傅里叶变换，得到M×N的时频矩阵x，其中N为短时傅里叶变换总帧数，M为每一帧包含的采样点数；

步骤202：将时频矩阵x导入听觉模型进行幅度调整，听觉模型的输出为M×N的矩阵X，所述的听觉模型如公式(1)、(2)所示：

(1)式中，G为权重(0<G<1)；n为短时傅里叶变换的帧数；k为帧长，即各帧包含的采样点数；f_k为每一帧内各采样点对应的频率，单位为Hz；A(f_k)为频率权重调整系数，具体计算方法如(2)式所示；

步骤203：将听觉模型的输出结果X转换为M×N尺寸的灰度语谱图，转换方法如公式(3)所示：

(3)式中，α为灰度语谱图的灰度阶数；X_min为听觉模型输出矩阵X的最小取值；X_max为听觉模型输出矩阵X的最大取值；β为灰度语谱图各像素点的灰度值。

进一步地，步骤3所述的方向识别神经网络模型为卷积神经网络模型，训练过程具体为：

步骤301：将方位已知的单通路带噪语音信号X_i的语谱灰度图与对应语声信源的空间方位L_i作为训练方向识别神经网络模型的输入；其中，方位L_i为μ位的01二值序列，二值序列上各位置元素与μ个语声信源方向一一对应，根据带噪语音信号X_i的语声信源方向将二值序列L_i对应位置元素的值置为1，其余位置元素的值置为0，以此类推；

步骤302：方向识别神经网络模型输出语音信号X_i的语声信源方向L′_i，L′_i同样为μ位的01二值序列；

步骤303：神经网络模型的损失函数为模型输出的方向序列L′_i与实际方向序列L_i间的均方差值，通过使损失函数最小化优化卷积神经网络参数，对神经网络进行训练，均方差值计算方法如公式(4)所示：

(4)式中，σ为语声信源方向序列的各位元素；μ为语声信源方向序列的长度；MSE_dir为计算得到的方向序列均方差值。

进一步地，步骤3所述的方向识别神经网络模型训练过程，其中步骤301中单通路带噪语音信号采集方式具体为：

步骤3011：在噪声场内使用单通路传声器对某一定点语音声源进行样本采集，传声器与声源处于同一高度且相对距离固定，将传声器对准声源作为初始偏差0°位置，采集带噪语音片段；

步骤3012：在0°位置采集到足够多的带噪语音片段后，水平旋转传声器θ，此时声源相对传声器轴向偏离θ，采集带噪语音片段；

步骤3013：以θ为间隔在ρ个位置(ρ＝360°/θ)取得足够的带噪语音样本，以偏转角度作为标签，对应角度采集的带噪语音片段作为样本对方向识别神经网络进行训练。

进一步地，步骤4所述的降噪神经网络采用Non-local Means非局部均值降噪法，对灰度语谱图有语音部分与无语音部分分别进行图像降噪处理，训练过程包括以下步骤：

步骤401：对灰度语谱图进行有语音部分与无语音部分划分，分别采用不同的降噪神经网络进行处理；

步骤402，将待降噪部分图像像素点设为P(ε)，，构建以P(ε)点为中心的λ×λ(λ为大于1的奇数)像素点方阵Nei(ε)，称为P(ε)点的邻域；

步骤403，在待降噪部分图像最外周增补值为0的像素点，增补周数为γ＝(λ-1)/2；

步骤404，遍历图像，对于图像内任一像素点根据/>点邻域/>与Nei(ε)间的差异更新P(ε)点的灰度值，计算方法如公式(5)、(6)所示：

(5)式中，P′(ε)为更新后的像素点灰度值；为原图象内任一像素点灰度值；为权值函数，具体计算方法如(6)式所示；(6)式中，λ为邻域像素点方阵尺寸；h为Non-local Means降噪算法衰减因子；Nei(ε)、/>分别为点P(ε)、/>的邻域；

步骤405，根据步骤404将图像中所有像素点灰度值进行更新，即完成了待降噪部分图像的降噪处理；

步骤406，以某一方向的带噪语音灰度语谱图和对应的无噪语音灰度语谱图作为降噪神经网络的输入，对降噪神经网络模型进行训练，训练得到合适的Non-local Means降噪衰减因子h₁、h₂，使得降噪后语谱图与无噪语谱图间像素灰度均方误差最小，最终训练得到不同方向的μ个降噪神经网络，训练流程如公式(7)所示：

(7)式中，h₁、h₂分别为对语谱图有语音部分和无语音部分Non-local Means降噪的衰减因子；为降噪后语谱图像素点灰度；/>为无噪语音语谱图像素点灰度；M、N为语谱图尺寸；/>为训练得到的最优衰减因子。

进一步地，步骤401所述的对灰度语谱图进行有语音部分与无语音部分划分，具体包括以下步骤：

步骤4011：将尺寸M×N的二维灰度语谱图压缩为1×N的一维平均灰度序列，序列的每一个元素对应灰度图每一列像素的灰度均值；

步骤4012：取检测窗长为τ，步长为υ(τ、υ均为正整数，且υ≤τ)，从序列第一个元素开始进行语音检测；

步骤4013：若第个检测窗内的元素均值相较于第/>个窗产生了大于+5dB的跃升，第/>个检测窗内的元素均值相较于第/>个窗产生了大于-5dB的下降，则第/>帧到第/>帧被标记为语音部分，即灰度语谱图的第/>列到第/>列像素被标记为语音部分；

步骤4014：在整个序列上进行检测窗滑动，根据步骤4013对有语音部分和无语音部分进行划分。

进一步地，步骤6具体包括以下步骤：

步骤601：降噪前灰度语谱图设为尺寸为M×N，降噪后语谱图设为计算幅值调整矩阵/>计算方法如公式(8)所示：

(8)式中，δ分别表示语谱图的第/>行、第δ列；

步骤602：将系数矩阵C与听觉模型的输出矩阵X对应相乘进行幅值调整，得到降噪矩阵X′，X′＝X×C；

步骤603：通过逆听觉模型对降噪矩阵X′进行初级感知域逆映射，逆听觉模型计算方法如公式(9)、(10)、(11)所示：

(9)式中，G为权重(0<G<1)；矩阵x′为逆听觉模型的输出；降噪矩阵X′为步骤602的结果，作为逆听觉模型的输入；n、k分别为矩阵的行数、列数；f_k为矩阵内各采样点对应的频率，单位为Hz；A(f_k)为频率权重调整系数，具体计算方法如(10)式所示；Sign[n,k]为符号修正函数，根据原听觉模型的输出调整矩阵x′的符号，具体计算方法如(11)式所示；(11)式中，矩阵x为听觉模型的输出矩阵；

步骤604：对步骤603的输出矩阵x′进行逆短时傅里叶变换，实现对各通路信号的时域还原；

步骤605：通过通路合并得到降噪后的多通路语音信号。

本发明与现有技术相比，具有以下优点及有益效果：

1.本发明提出了一种基于听觉模型的语音降噪方法，降噪结果更加贴近人类生理感知；

2.本发明根据各通路语音信号的声源方向，对多通路语音信号的每一通路进行了个性化的降噪处理，同时在降噪过程中引入了分区域降噪的概念，对有语音部分与无语音部分分别进行降噪处理，使降噪结果更加准确；

3.本发明在通路语声信源方位识别及降噪处理中引入了神经网络，提高了多通路语音信号降噪的效率。

附图说明：

图1是本发明实施例中多通路语音降噪原理示意图；

图2是本发明实施例中多通路语音降噪原理的细化步骤图；

图3是本发明实施例中方向识别神经网络模型训练过程示意图；

图4是本发明实施例中降噪神经网络模型训练过程示意图。

具体实施方式

下面结合附图对本发明作进一步的说明，但本发明要求保护范围并不局限于实施例表示的范围。

图1是本发明实施例中多通路语音降噪原理示意图。其中，多通路带噪语音信号可以在噪声场下，由分别布置的多个传声器分别拾音然后合并得到，也可以由传声器阵列对某一语音源录制得到。如图1所示，本实施例的方法，包括：

S101：将多通路带噪语音信号进行通路分离，得到各通路上独立的带噪语音信号；

S102：将各通路信号导入听觉模型映射到初级感知域，进一步依据幅值映射成为语谱灰度图；

S103：将语谱灰度图输入方向识别神经网络模型，得到语声信源的空间方位；

S104：将语谱灰度图输入相应信源方位的降噪神经网络，对有语音部分和无语音部分分别实施Non-local Means非局部均值降噪；

S105：对S102得到的每个通路分别实施S103到S104，得到每个通路的降噪后语谱图；将每个通路的降噪后语谱图进行逆变换，然后进行通路合并，得到降噪后的多通路语音信号。

图2是本发明实施例中多通路语音降噪原理的细化步骤图。如图2所示，基于听觉模型和信源方位的多通路语音降噪方法具体包括以下步骤:

S201：将通道数为T的多通路带噪语音信号进行通路分离，得到各通路上独立的带噪语音信号Sig₁、Sig₂…Sig_m…Sig_T；

S202：将各通路信号进行短时傅里叶变换，得到对应的N个时频矩阵FSig₁、FSig₂…FSig_m…FSig_T；

S203：时频矩阵FSig₁、FSig₂…FSig_m…FSig_T导入听觉模型映射到初级感知域，得到经听觉模型调制的时频矩阵ASig₁、ASig₂…ASig_m…ASig_T，听觉模型幅度调制遵循公式(1)、(2)：

(1)式中，权重G＝0.028；x_m,n[k]为第m通路语音信号经过短时傅里叶变换后第n帧的结果；X_m,n[k]为听觉模型的输出矩阵；k为帧长，即各帧包含的采样点数；f_k为每一帧内各采样点对应的频率，单位为Hz；A(f_k)为频率权重调整系数，具体计算方法如(2)式所示；

S204：将时频矩阵ASig₁、ASig₂…ASig_m…ASig_T依据幅值映射成为语谱灰度图。设ASig_m为M×N时频矩阵，其中N为短时傅里叶变换总帧数，M为每一帧包含的采样点数，转换方法如公式(3)所示：

(3)式中，α为灰度语谱图的灰度阶数；X_min为听觉模型输出矩阵X的最小取值；X_max为听觉模型输出矩阵X的最大取值；β为灰度语谱图各像素点的灰度值；

本实施例以16位灰度图为例(α＝16)，即将ASig_m矩阵中的数据线性映射为16位灰度值(0-65535)，其中0对应矩阵最小值min(ASig_m)，65535对应矩阵最大值max(ASig_m)，根据公式(3)将M×N的时频矩阵ASig_m转换为16位的M×N尺寸灰度语谱图PSig_m；

S205：将各通道灰度语谱图PSig₁、PSig₂…PSig_m…PSig_T输入方向识别神经网络模型，判断出各通路语音信号的声源方向，其中，方向识别神经网络模型为卷积神经网络模型，由采集到的不同方向的单通路带噪语音信号语谱灰度图训练得到；

S206：依据声源方向将各通路语谱图PSig₁、PSig₂…PSig_m…PSig_T导入对应方向的降噪神经网络进行图像的降噪处理，将降噪后的语谱图记为P′Sig₁、P′Sig₂…P′Sig_m…P′Sig_T。降噪神经网络将语谱图划分为有语音部分和无语音部分，采用Non-local Means非局部均值去噪滤波法，使用不同的衰减因子h₁、h₂，分别对有语音部分和无语音部分图像进行降噪处理。其中，降噪神经网络训练时的输入为带噪语音语谱图与无噪语音语谱图，根据降噪后语谱图与无噪语谱图间的灰度差值对神经网络进行训练，得到恰当的衰减因子h₁、h₂；

S207：根据降噪前后语谱图灰度值的变化，得到幅值调整矩阵CSig₁、CSig₂…CSig_m…CSig_T，幅值调整矩阵CSig_m通过公式(4)得到：

(4)式中，δ分别表示语谱图的第/>行、第δ列；PSig_m为第m通路带噪语音语谱图；P′Sig_m为第m通路降噪后语音语谱图

S208：通过幅值调整矩阵CSig₁、CSig₂…CSig_m…CSig_T对S103中听觉模型的输出结果ASig₁、ASig₂…ASig_m…ASig_T进行调整，得到降噪后的时频矩阵A′Sig₁、A′Sig₂…A′Sig_m…A′Sig_T。其中，A′Sig_m＝ASig_m×CSig_m；

S209：将时频矩阵A′Sig₁、A′Sig₂…A′Sig_m…A′Sig_T导入逆听觉模型，计算方法如公式(5)、(6)、(7)所示：

(5)式中，权重G＝0.028；x’_m,n[k]为逆听觉模型的输出矩阵；A′Sig_m,n[k]为时频矩阵A′Sig_m在第n列(即第n帧)的取值；f_k为每一帧内各采样点对应的频率，单位为Hz；A(f_k)为频率权重调整系数，具体计算方法如(6)式所示；Sign[n,k]为符号修正函数，根据原听觉模型的输出调整矩阵x’_m,n[k]的符号，具体计算方法如(7)式所示；(7)式中，矩阵x_m,n[k]为听觉模型的输出矩阵；

S210：通过逆短时傅里叶变换对各通路信号进行还原；

S211：通过通路合并得到降噪后的多通路语音信号。

图3是本发明实施例中方向识别神经网络模型训练过程示意图。在噪声场内使用单通路传声器对某一定点语音声源进行样本采集，传声器与声源处于同一高度且相对距离固定，将传声器对准声源作为初始偏差0°位置，采集到足够数量的带噪语音片段后，水平旋转传声器θ，此时声源相对传声器轴向偏离θ。本实施例以15°为例(即θ＝15°)，以15°为间隔在24个位置(0°、15°、30°…345°)取得足够多的带噪语音片段，以偏转角度作为标签，对应角度采集的带噪语音片段作为样本对方向识别神经网络进行训练。如图3所示，方向识别神经网络模型训练方法具体包括以下步骤：

S301：将方向已知的单通路带噪语音信号S_i进行短时傅里叶变换，得到对应的时频矩阵FS_i。其中，语音信号S_i的语声信源方位L_i记为μ位(本实施例以μ＝24为例)的01二值序列，二值序列上各位置元素与0°、15°、30°……345°等24个语声信源方位一一对应，语音信号的语声信源方位若为30°，则将二值序列30°方向对应位置元素的值置为1，其余位置元素的值置为0，以此类推；

S302：将时频矩阵FS_i导入听觉模型映射到初级感知域，得到经听觉模型调制的时频矩阵AS_i，听觉模型幅度调制公式与步骤S203相同；

S303：将时频矩阵AS_i依据幅值映射成为语谱灰度图PS_i，映射方法与步骤S204相同；

S304：将灰度语谱图PS_i输入方向识别神经网络模型，输出语音信号S_i的语声信源方位L′_i，其中，方向识别神经网络模型为卷积神经网络模型，L′_i同样为μ位的01二值序列；

S305：神经网络模型的损失函数为模型输出的方向序列L′_i与实际方向序列L_i的均方差值，通过使损失函数最小化优化卷积神经网络参数，对方向识别神经网络进行训练。均方差值计算方法如公式(8)所示：

(8)式中，σ为语声信源方向序列的各位元素，MSE_dir为计算得到的方向序列均方差值。

图4是本发明实施例中降噪神经网络模型训练过程示意图。训练样本为某一方向的单通路带噪语音信号及对应的无噪语音信号。单通路带噪语音信号可以使用方向识别神经网络模型的训练样本，无噪语音信号可以是单通路带噪语音样本采集时的使用的语音源信号。如图4所示，训练方法包括：

S401：将某一方向的单通路带噪语音信号NS_i与对应的无噪语音信号进行短时傅里叶变换，得到对应的时频矩阵FNS_i与/>

S402：将时频矩阵FNS_i与导入听觉模型映射到初级感知域，得到经听觉模型调制的时频矩阵ANS_i与/>听觉模型幅度调制公式与步骤S203相同；

S403：将时频矩阵ANS_i与依据幅值映射成为语谱灰度图PNS_i与/>映射方法与步骤S204相同；

S404：将灰度语谱图PNS_i与输入降噪神经网络模型。降噪神经网络将灰度语谱图划分为有语音部分和无语音部分，将尺寸为M×N的二维灰度语谱图压缩为1×N的一维平均能量序列，序列的每一个元素对应灰度图每一列像素的灰度均值，取检测窗长为τ，步长为υ(τ、υ均为正整数，且υ≤τ)，从序列第一个元素开始进行语音检测，若/>个检测窗内的元素均值相较于第/>个窗产生了大于+5dB的跃升，第/>个检测窗内的元素均值相较于第/>个窗产生了大于-5dB的下降，则第/>帧到第/>帧被标记为语音部分，即灰度语谱图的第/>列到第/>列像素被标记为语音部分；

S405：采用Non-local Means非局部均值去噪滤波法，对灰度语谱图PNS_i与有语音部分与无语音部分分别进行图像降噪处理，包括以下步骤：

步骤A，将待降噪部分图像像素点设为P(ε)，构建以P(ε)点为中心的λ×λ(λ为大于1的奇数，本实施例以λ＝3为例)像素点阵Nei(ε)，称为P(ε)点的邻域；

步骤B，在待降噪部分图像最外围增补一周值为0的像素点；

步骤C，遍历图像，对图像所有像素点根据/>点邻域/>与Nei(ε)间的差异更新P(ε)点的灰度值，计算方法如公式(9)、(10)所示：

(9)式中，P′(ε)为更新后的像素点灰度值；为原图像内任一像素点灰度值；为权值函数，具体计算方法如(10)式所示；(10)式中，λ为邻域像素点方阵尺寸；h为Non-local Means降噪算法衰减因子；Nei(ε)、/>分别为点P(ε)、/>的邻域；

步骤D，根据步骤C对图像中所有像素点灰度值进行更新，即完成了待降噪部分图像的降噪处理；

S406：以某一方向的带噪语音灰度语谱图和对应的无噪语音灰度语谱图作为降噪神经网络的输入，对降噪神经网络模型进行训练，训练得到合适的Non-local Means降噪衰减因子h₁、h₂。其中，h₁、h₂分别为对语谱图有语音部分和无语音部分降噪的衰减因子。降噪神经网络的损失函数为降噪后语谱图与无噪语谱图间像素灰度的均方误差，训练过程如公式(11)所示：

(11)式中，h₁、h₂分别为对语谱图有语音部分和无语音部分Non-local Means降噪的衰减因子，为降噪后语谱图像素点灰度，/>为无噪语音语谱图像素点灰度，M、N为语谱图尺寸，/>与/>为训练得到的最佳Non-local Means图像降噪衰减因子参数。

本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于听觉模型和信源方位的多通路语音降噪方法，其特征在于包括以下步骤：

步骤2，将各通路带噪语音信号导入听觉模型，映射到初级感知域，进一步映射成为语谱灰度图；

步骤4，将语谱灰度图输入对应信源方位的降噪神经网络，对有语音部分和无语音部分分别实施Non-local Means非局部均值降噪；所述的降噪神经网络采用Non-local Means非局部均值降噪法，对语谱灰度图的有语音部分与无语音部分分别进行图像降噪处理，训练过程包括以下步骤：

步骤401：对语谱灰度图进行有语音部分与无语音部分划分，分别采用不同参数的降噪神经网络进行处理；所述的对语谱灰度图进行有语音部分与无语音部分划分，具体包括以下步骤：

步骤4011：将尺寸为M×N的二维语谱灰度图压缩为1×N的一维平均灰度序列，序列的每一个元素对应灰度图每一列像素的灰度均值；

步骤4012：取检测窗长为τ，步长为υ，从序列第一个元素开始进行语音检测，τ、υ均为正整数，且υ≤τ；

步骤4013：若第个检测窗内的元素均值相较于第/>个窗产生了大于+5dB的跃升，第/>个检测窗内的元素均值相较于第/>个窗产生了大于-5dB的下降，则第/>帧到第/>帧被标记为语音部分，即语谱灰度图的第/>列到第/>列像素被标记为语音部分；

步骤4014：在整个序列上进行检测窗滑动，根据步骤4013对有语音部分和无语音部分进行划分；

步骤402，将待降噪部分图像像素点设为P(ε)，构建以P(ε)点为中心的λ×λ像素点阵Nei(ε)，称为P(ε)点的邻域；λ为大于1的奇数，且为邻域像素点方阵尺寸；

(5)式中，P′(ε)为更新后的像素点灰度值；为原图像内任一像素点灰度值；为权值函数，具体计算方法如(6)式所示；h为Non-localMeans降噪算法衰减因子；Nei(ε)、/>分别为点P(ε)、/>的邻域；

步骤406，以其中一方向的带噪语音语谱灰度图和对应的无噪语音语谱灰度图作为降噪神经网络的输入，对降噪神经网络模型进行训练，训练得到合适的Non-local Means降噪衰减因子h₁、h₂，h₁、h₂分别为对语谱图有语音部分和无语音部分降噪的衰减因子，使得降噪后语谱图与无噪语谱图间像素灰度均方误差最小，最终训练得到不同方向的μ个降噪神经网络，训练流程如公式(7)所示：

(7)式中，h₁、h₂分别为对语谱图有语音部分和无语音部分Non-local Means降噪的衰减因子；为降噪后语谱图像素点灰度；/>为无噪语音语谱图像素点灰度；M、N为语谱图尺寸；/>为训练得到的最优衰减因；

步骤5，对步骤2得到的每个通路语谱灰度图分别实施步骤3到步骤4，得到每个通路的降噪后语谱图；

步骤6：将每个通路的降噪后语谱图进行逆变换，然后进行通路合并，得到降噪后的多通路语音信号；

具体包括以下步骤：

步骤601：降噪前语谱灰度图设为尺寸为M×N，降噪后语谱图设为/>计算幅值调整矩阵/>计算方法如公式(8)所示：

(8)式中，δ分别表示语谱图的第/>行、第δ列；

(9)式中，G为权重，0＜G＜1；矩阵x′为逆听觉模型的输出；降噪矩阵X′为步骤602的计算结果，作为逆听觉模型的输入；n、k分别为矩阵的行数、列数；f_k为矩阵内各采样点对应的频率，单位为Hz；A(f_k)为频率权重调整系数，具体计算方法如(10)式所示；Sign[n，k]为符号修正函数，根据原听觉模型的输出调整矩阵x′的符号，具体计算方法如(11)式所示；(11)式中，矩阵x为听觉模型的输出矩阵；

步骤605：通过通路合并得到降噪后的多通路语音信号。

2.根据权利要求1所述的基于听觉模型和信源方位的多通路语音降噪方法，其特征在于：步骤2具体包括：

(1)式中，G为权重，0＜G＜1；n为短时傅里叶变换的帧数；k为帧长，即各帧包含的采样点数；f_k为每一帧内各采样点对应的频率，单位为Hz；A(f_k)为频率权重调整系数，具体计算方法如(2)式所示；

步骤203：将听觉模型的输出结果X转换为M×N尺寸的语谱灰度图，转换方法如公式(3)所示：

(3)式中，α为语谱灰度图的灰度阶数；X_min为听觉模型输出矩阵X的最小取值；X_max为听觉模型输出矩阵X的最大取值；β为语谱灰度图各像素点的灰度值。

3.根据权利要求1所述的基于听觉模型和信源方位的多通路语音降噪方法，其特征在于：步骤3所述的方向识别神经网络模型为卷积神经网络模型，训练过程具体为：

4.根据权利要求3所述的基于听觉模型和信源方位的多通路语音降噪方法，其特征在于：步骤301中单通路带噪语音信号采集过程具体为：

步骤3011：在噪声场内使用单通路传声器对其中一定点语音声源进行样本采集，传声器与声源处于同一高度且相对距离固定，将传声器对准声源作为初始偏差0°位置，采集带噪语音片段；

步骤3013：以θ为间隔在p个位置取得足够多的带噪语音样本，ρ＝360°/θ，以偏转角度作为标签，对应角度采集的带噪语音片段作为样本，对方向识别神经网络进行训练。