CN113903353A - 一种基于空间区分性检测的定向噪声消除方法及装置 - Google Patents

一种基于空间区分性检测的定向噪声消除方法及装置 Download PDF

Info

Publication number
CN113903353A
CN113903353A CN202111135208.0A CN202111135208A CN113903353A CN 113903353 A CN113903353 A CN 113903353A CN 202111135208 A CN202111135208 A CN 202111135208A CN 113903353 A CN113903353 A CN 113903353A
Authority
CN
China
Prior art keywords
noise
signal
filter
module
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111135208.0A
Other languages
English (en)
Inventor
何平
蒋升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suirui Technology Group Co Ltd
Original Assignee
Suirui Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suirui Technology Group Co Ltd filed Critical Suirui Technology Group Co Ltd
Priority to CN202111135208.0A priority Critical patent/CN113903353A/zh
Publication of CN113903353A publication Critical patent/CN113903353A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于空间区分性检测的定向噪声消除方法及装置,属于信息处理的领域,该方法包括:S1:对每个麦克风的时域信号进行导向矢量和信号拾取滤波器初始化计算;S2:对初始化后的信号转化为时频域信号,并且构建频域预测向量;S3:对时频域信号进行噪声消除滤波器计算,获取用于分离目标语音与噪声信号的滤波器;S4:根据获取的滤波器,得到目标语音的频域估计,进而得到目标语音时域估计。本发明能够有效消除干扰声音,可显著提升在线语音会议通讯质量,也可以提高后续语音识别的准确性。

Description

一种基于空间区分性检测的定向噪声消除方法及装置
技术领域
本发明属于信息处理的领域,特别是关于一种基于空间区分性检测的定向噪声消除方法及装置。
背景技术
在语音会议系统、车载语音通讯系统及人机交互系统等诸多应用中,目标说话人通常受到其他方向点源噪声的干扰,比如电视等。
麦克风阵列波束形成技术广泛应用于在线会议系统、车载人机交互、智能家居等领域。实际环境中,来自于其他方向的干扰信号,比如音乐等,会显著降低会议通讯的听感和后续语音识别的准确率。基于麦克风阵列多阵元进行定向拾取是降低信号噪声、提高通讯质量最常用的方法。
常用的方案包括以超指向滤波器为代表的固定波束形成技术;以广义旁瓣消除为代表的自适应波束形成技术。超指向滤波器的优点在于语音失真小,但是噪声抑制性能有限。广义旁瓣消除等自适应波束形成方法,可以达到更好的噪声消除效果,但是存在较大的语音失真风险。这两类技术通常基于说话人方位相对于麦克风阵列的空间方位信息,计算理想的导向矢量,基于最小化噪声能量的原则设计滤波器。然而,实际应用中麦克风之间的不一致性,混响等因素都会造成理想导向矢量与实际导向矢量的误差较大,进而导致噪声消除效果不理想或者造成较大的语音失真。
现有技术中,定向消除噪声的方法主要有以下缺点:
1)单纯采用基于方位信息的理想导向矢量,由于导向矢量在混响、麦克风不一致等场景下与真实矢量的不匹配,导致性能下降。
2)只考虑到目标说话人的方位信息,不考虑干扰方位信息,导致空间区分性信息计算不足,导致噪声消除性能不足。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本发明的目的在于提供一种基于空间区分性检测的定向噪声消除方法及装置,其能够有效消除干扰声音,可显著提升在线语音会议通讯质量,也可以提高后续语音识别的准确性。
为实现上述目的,本发明提供了一种基于空间区分性检测的定向噪声消除方法,包括以下步骤:
S1:对每个麦克风的时域信号进行导向矢量和信号拾取滤波器初始化计算;
S2:对初始化后的信号转化为时频域信号,并且构建频域预测向量;
S3:对时频域信号进行噪声消除滤波器计算,获取用于分离目标语音与噪声信号的滤波器;其中,噪声消除滤波器的计算包括:计算空间区分性系数和空间掩蔽信息、更新互相关系数向量和导向矢量、更新噪声协方差矩阵以及计算噪声消除滤波器;
S4:根据获取的滤波器,得到目标语音的频域估计,进而得到目标语音时域估计。
在本发明的一实施方式中,所述步骤S1之前,还包括获取麦克风的语音信号xm(n);
所述步骤S1中,具体包括以下步骤:
S101:对每个频带k,计算目标语音导向矢量us(k)和噪声导向矢量uv(k):
Figure BDA0003281758720000031
Figure BDA0003281758720000032
Figure BDA0003281758720000033
q(θs)=[cos(θs),sin(θs)],q(θv)=[cos(θv),sin(θv)];
S102:对每个频带k,分别计算语音拾取滤波器hs(k)和噪声拾取滤波器hv(k):
Figure BDA0003281758720000034
Figure BDA0003281758720000035
在本发明的一实施方式中,所述步骤S2包括以下步骤:
S201:对时域信号xm(n)进行短时傅里叶变换得到时频域表达:
Figure BDA0003281758720000036
S202:对每一个频带k,构建频域原始向量X(l,k):
X(l,k)=[X1(l,k),X2(l,k),...,XM(l,k)]T
在本发明的一实施方式中,所述步骤S3包括以下步骤:
S301:计算空间区分性系数和空间掩蔽信息:
空间区分性系数的计算如下:
Figure BDA0003281758720000037
Figure BDA0003281758720000038
Figure BDA0003281758720000039
其中,ρs(l),ρv(l)和ρx(l)分别代表第l帧语音方向、噪声方向以及麦克风拾取信号能量估计,能量分布的差异代表了空间区分性;
空间掩蔽信息γ(l)的计算如下:
Figure BDA0003281758720000041
S302:更新互相关系数向量和导向矢量;
对每一个频带k,互相关系数向量Γ(l,k)的更新如下:
Figure BDA0003281758720000042
对每一个频带k,目标方向导向矢量
Figure BDA0003281758720000043
的更新如下:
Figure BDA0003281758720000044
S303:更新噪声协方差矩阵和噪声消除滤波器:
对每一个频带k,噪声协方差矩阵
Figure BDA0003281758720000045
的更新如下:
Figure BDA0003281758720000046
对每一个频带k,噪声消除滤波器
Figure BDA0003281758720000047
的计算如下:
Figure BDA0003281758720000048
在本发明的一实施方式中,所述步骤S4包括以下步骤:
S401:根据求解得到的噪声消除滤波器,得到目标语音的频域估计
Figure BDA0003281758720000049
Figure BDA00032817587200000410
S402:对目标语音的频域估计进行傅里叶逆变换得到最终的目标语音估计
Figure BDA00032817587200000411
Figure BDA00032817587200000412
本发明还提供了一种基于空间区分性检测的定向噪声消除装置,包括初始化模块、信号分解模块、滤波器计算模块和目标语音估计模块;
所述初始化模块,用于对每个麦克风的时域信号进行导向矢量和信号拾取滤波器初始化计算;
所述信号分解模块,用于对初始化后的信号转化为时频域信号,并且构建频域预测向量;
所述滤波器计算模块,用于对时频域信号进行噪声消除滤波器计算,获取用于分离目标语音与噪声信号的滤波器;其中,所述滤波器计算模块包括:用于计算空间区分性系数和空间掩蔽信息的第一计算模块、用于更新互相关系数向量和导向矢量的第一更新模块、以及用于更新噪声协方差矩阵和噪声消除滤波器的第二更新模块;
所述目标语音估计模块,用于根据获取的滤波器,得到目标语音的频域估计,进而得到目标语音时域估计。
在本发明的一实施方式中,所述初始化模块还用于获取麦克风的语音信号xm(n);
所述初始化模块用于进行以下操作:
对每个频带k,计算目标语音导向矢量us(k)和噪声导向矢量uv(k):
Figure BDA0003281758720000051
Figure BDA0003281758720000052
Figure BDA0003281758720000053
q(θs)=[cos(θs),sin(θs)],q(θv)=[cos(θv),sin(θv)];
对每个频带k,分别计算语音拾取滤波器hs(k)和噪声拾取滤波器hv(k):
Figure BDA0003281758720000054
Figure BDA0003281758720000055
在本发明的一实施方式中,所述信号分解模块包括信号转换模块和向量构建模块;
所述信号转换模块,用于对时域信号xm(n)进行短时傅里叶变换得到时频域表达:
Figure BDA0003281758720000061
所述向量构建模块,用于对每一个频带k,构建频域原始向量X(l,k):
X(l,k)=[X1(l,k),X2(l,k),...,XM(l,k)]T
在本发明的一实施方式中,所述步骤S3包括以下步骤:
在所述第一计算模块中,空间区分性系数的计算如下:
Figure BDA0003281758720000062
Figure BDA0003281758720000063
Figure BDA0003281758720000064
其中,ρs(l),ρv(l)和ρx(l)分别代表第l帧语音方向、噪声方向以及麦克风拾取信号能量估计,能量分布的差异代表了空间区分性;
空间掩蔽信息γ(l)的计算如下:
Figure BDA0003281758720000065
在所述第一更新模块中,对每一个频带k,互相关系数向量Γ(l,k)的更新如下:
Figure BDA0003281758720000066
对每一个频带k,目标方向导向矢量
Figure BDA0003281758720000067
的更新如下:
Figure BDA0003281758720000068
在所述第二更新模块中,对每一个频带k,噪声协方差矩阵
Figure BDA0003281758720000071
的更新如下:
Figure BDA0003281758720000072
对每一个频带k,噪声消除滤波器
Figure BDA0003281758720000073
的计算如下:
Figure BDA0003281758720000074
在本发明的一实施方式中,所述目标语音估计模块包括频域估计模块和目标语音估计模块;
所述频域估计模块,用于根据求解得到的噪声消除滤波器,得到目标语音的频域估计
Figure BDA0003281758720000078
Figure BDA0003281758720000075
所述目标语音估计模块,用于对目标语音的频域估计进行傅里叶逆变换得到最终的目标语音估计
Figure BDA0003281758720000076
Figure BDA0003281758720000077
与现有技术相比,根据本发明的一种基于空间区分性检测的定向噪声消除方法及装置,相比于传统自适应波束形成方法,本项发明用空间区分性因子计算出空间掩蔽信息,对于时频单元进行分类,噪声消除效果更好。此外,本发明采用的空间掩蔽信息,用以后续导向矢量的估计,可以更好适应混响场景,鲁棒性更高,目标语音失真度更小,可有效提高语音通讯质量以及语音识别准确率。
附图说明
图1为本具体实施方式中的基于空间区分性检测的定向噪声消除方法的流程图。
图2为本具体实施方式中的使用的汉明窗函数的示意图。
图3为本具体实施方式中的基于空间区分性检测的定向噪声消除的示意图。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
如图1所示,根据本发明优选实施方式的一种基于空间区分性检测的定向噪声消除方法,基于麦克风阵列设计了一组空间区分性特征,可以在时频空间有效区分目标说话人、噪声干扰主导的时频单元,进而针对性的设计滤波器,在实时提取的目标说话人语音中,有效消除干扰声音,可显著提升在线语音会议通讯质量,也可以提高后续语音识别的准确性。
该方法应用于基于麦克风阵列的系统,具体包括以下四个实施步骤:
S1:对每个麦克风的时域信号进行导向矢量和信号拾取滤波器初始化计算。
在步骤S1之前,还包括获取麦克风的语音信号,获取的语音信号如下:假设xm(n)代表M个麦克风阵元实时拾取的原始时域信号,其中,m代表麦克风序号标签,其取值从1到M;n代表时间标签;目标语音相对麦克风阵列的方向已知为θs,噪声干扰相对麦克风阵列的方向已知为θv
其中,目标语音是指对应目标方向的语音信号,对于语音分离任务而言,目标方向是根据所提取的信号提前知晓的,比如对于大屏语音通讯设备,希望分离的是90度方位的目标语音信号,以及30度方位的干扰噪声信号。
具体地,本步骤S1中,具体包括以下步骤:
S101:对每个频带k(k=1,2,...K),计算目标语音导向矢量us(k)和噪声导向矢量uv(k),其中,频带是指某个频率对应的信号分量。其具体的计算公式如下:
Figure BDA0003281758720000091
Figure BDA0003281758720000092
Figure BDA0003281758720000093
q(θs)=[cos(θs),sin(θs)],q(θv)=[cos(θv),sin(θv)]。
其中,fk为第k个频带的频率,k=1,2,...K,其中K的取值是根据后续傅里叶变换来确定,如果帧长为512,那么K的取值为帧长的一半;c为声速,c=340m/s;dm为第m个麦克风的二维坐标值;上标H代表共轭转置算符;j代表虚数单位
Figure BDA0003281758720000094
q(θ)为方向矢量,ωk为频带圆频率。
该步骤S101用以初始化导向矢量,该导向矢量代表了无混响、阵元无差异理想场景下,目标方向和噪声干扰方向的各个麦克风阵元的信号差异。用以后续步骤S101中分别计算语音、噪声拾取滤波器。
S102:对每个频带k,分别计算语音拾取滤波器hs(k)和噪声拾取滤波器hv(k)。其具体的计算公式如下:
Figure BDA0003281758720000095
Figure BDA0003281758720000096
其中,R(k)代表均匀散射场的各个麦克风关于拾取信号归一化的自相关系数,上标-1矩阵的逆。该滤波器理论上可以分别保留目标方向、噪声干扰方向的信号,同时最大程度抑制均匀散射场噪声。
S2:对初始化后的信号转化为时频域信号,并且构建频域预测向量。
具体地,该步骤S2包括以下步骤:
S201:对时域信号xm(n)进行短时傅里叶变换得到时频域表达,其目的是把时域信号转化为时频域信号。其具体的计算公式如下:
Figure BDA0003281758720000101
其中,N为帧长,N=512;w(n)为长度512的汉明窗,其中,n代表时间上的序号,因此w(n)代表每一个对应时间序号n上的值;1为时间帧序号,以帧为单位;k为频率序号。Xm(l,k)为第m个麦克风信号,在第1帧,第k个频带的频谱。本发明中,使用的汉明窗函数如图2所示。
S202:对每一个频带k,构建一个频域原始向量X(l,k)。其具体的计算公式如下:
X(l,k)=[X1(l,k),X2(l,k),...,XM(l,k)]T
其中,上标T代表转置运算符,得到该原始向量为M维度列向量。该向量由各个阵元信号排练组成,用以整体表征信号的空间相关性信息。
通过上述步骤能够完成从时域信号到时频域的变换。
S3:对时频域信号进行噪声消除滤波器计算,获取用于分离目标语音与噪声信号的滤波器。
其中,噪声消除滤波器的计算包括:计算空间区分性系数和空间掩蔽信息、更新互相关系数向量和导向矢量、更新噪声协方差矩阵以及计算噪声消除滤波器。
具体地,该步骤S3包括以下步骤:
S301:计算空间区分性系数和空间掩蔽信息;
空间区分性系数的计算如下:
Figure BDA0003281758720000102
Figure BDA0003281758720000103
Figure BDA0003281758720000104
其中,|.|代表取复数的模;α为相邻帧间平滑因子,取值范围在0和1之间。本发明中,优选α=0.92,如果该值α小于0.88会导致能量估计变化幅度超过20%,存在不稳定的缺陷,如果该值α高于0.96,则能量估计过于平稳,空间区分度低于40度。取值0.92可以非常好的平衡鲁棒性和准确性。
公式中,ρs(l),ρv(l)和ρx(l)分别代表第l帧语音方向、噪声方向以及麦克风拾取信号能量估计,ρs(l-1),ρv(l-1)和ρx(l-1)分别代表第l-1帧语音方向、噪声方向以及麦克风拾取信号能量估计。能量分布的差异代表了空间区分性。
空间掩蔽信息γ(l)的计算如下:
Figure BDA0003281758720000111
该空间掩蔽信息用以区分目标语音主导(取值为1)、干扰噪声主导的时频单元(取值为-1)和其他情况。&代表逻辑运算符并,即两个条件需要同时满足。
μ代表空间置信度阈值,取值范围为0-1之间。本发明采用阈值μ=0.5,采用该阈值可以取得最优的时频单元分类准确率。
该步骤S301为后续导向矢量和噪声协方差的更新提供判断依据。
S302:更新互相关系数向量和导向矢量;
对每一个频带k,互相关系数向量Γ(l,k)的更新如下:
Figure BDA0003281758720000112
其中,α为相邻帧间平滑因子,该平滑因子α与步骤S301中相同;上标*代表共轭算符。该相关系数向量代表了由空间掩蔽信息得到目标语音做主导的时频单元累积得到相关性向量,内含了目标方向语音信号在各麦克风阵元的信号差异。该步骤用以后续步骤中进行目标方向导向矢量的更新。
对每一个频带k,目标方向导向矢量
Figure BDA0003281758720000121
的更新如下:
Figure BDA0003281758720000122
其中,Γ1(l,k)代表相关系数向量的第一个元素值。该导向矢量,根据实际数据估计得到的对应目标方向的各麦克风阵元的信号差异,用以后续步骤S303中进行噪声消除滤波器的更新。
S303:更新噪声协方差矩阵和噪声消除滤波器。
对每一个频带k,噪声协方差矩阵
Figure BDA0003281758720000123
的更新如下:
Figure BDA0003281758720000124
该协方差矩阵代表了噪声主动时频单元累积得到信号相关性矩阵,用以后续步骤中进行噪声消除滤波器的更新。
对每一个频带k,噪声消除滤波器
Figure BDA0003281758720000125
的计算如下:
Figure BDA0003281758720000126
该噪声消除滤波器,用以后续步骤S4中进行目标语音的频域估计计算。
S4:根据获取的滤波器,得到目标语音的频域估计,进而得到目标语音时域估计。
具体包括以下步骤:
S401:根据求解得到的噪声消除滤波器,得到目标语音的频域估计
Figure BDA0003281758720000127
其具体计算公式如下:
Figure BDA0003281758720000128
S402:对目标语音的频域估计进行傅里叶逆变换得到最终的目标语音估计
Figure BDA0003281758720000129
其具体计算公式如下:
Figure BDA00032817587200001210
通过本发明的上述步骤,可以实现目标语音估计信号的初始化、信号分解、滤波器计算和目标语音估计。
本发明的实施方式在实际使用时,基于8麦克风线性阵列,麦克风间距为3.5cm在8米长4米宽2.5米高的会议场景,目标方向已知为90度,干扰噪声方向为30度,采用本项发明算法可以提高信噪比15dB(噪声能量抑制了97%)。
如图3所示,本发明的一实施方式为一种指向信息引导的实时语音分离装置,应用于基于麦克风阵列的系统,其包括初始化模块1、信号分解模块2、滤波器计算模块3和目标语音估计模块4。
初始化模块1,用于对每个麦克风的时域信号进行导向矢量和信号拾取滤波器初始化计算。
初始化模块1还能够用于获取麦克风的语音信号,获取的语音信号如下:假设xm(n)代表M个麦克风阵元实时拾取的原始时域信号,其中,m代表麦克风序号标签,其取值从1到M;n代表时间标签;目标语音相对麦克风阵列的方向已知为θs,噪声干扰相对麦克风阵列的方向已知为θv
其中,目标语音是指对应目标方向的语音信号,对于语音分离任务而言,目标方向是根据所提取的信号提前知晓的,比如对于大屏语音通讯设备,希望分离的是90度方位的目标语音信号,以及30度方位的干扰噪声信号。
具体地,初始化模块1用于进行以下操作:
对每个频带k(k=1,2,...K),计算目标语音导向矢量us(k)和噪声导向矢量uv(k),其中,频带是指某个频率对应的信号分量。其具体的计算公式如下:
Figure BDA0003281758720000131
Figure BDA0003281758720000132
Figure BDA0003281758720000133
q(θs)=[cos(θs),sin(θs)],q(θv)=[cos(θv),sin(θv)]。
其中,fk为第k个频带的频率,k=1,2,...K,其中K的取值是根据后续傅里叶变换来确定,如果帧长为512,那么K的取值为帧长的一半;c为声速,c=340m/s;dm为第m个麦克风的二维坐标值;上标H代表共轭转置算符;j代表虚数单位
Figure BDA0003281758720000141
q(θ)为方向矢量,ωk为频带圆频率。
上述操作用以初始化导向矢量,该导向矢量代表了无混响、阵元无差异理想场景下,目标方向和噪声干扰方向的各个麦克风阵元的信号差异。用以后续操作中分别计算语音、噪声拾取滤波器。
对每个频带k,分别计算语音拾取滤波器hs(k)和噪声拾取滤波器hv(k)。其具体的计算公式如下:
Figure BDA0003281758720000142
Figure BDA0003281758720000143
其中,R(k)代表均匀散射场的各个麦克风关于拾取信号归一化的自相关系数,上标-1矩阵的逆。该滤波器理论上可以分别保留目标方向、噪声干扰方向的信号,同时最大程度抑制均匀散射场噪声。
信号分解模块2,用于对初始化后的信号转化为时频域信号,并且构建频域预测向量。
具体地,信号分解模块2包括以下子模块:信号转换模块和向量构建模块。
信号转换模块,用于对时域信号xm(n)进行短时傅里叶变换得到时频域表达,其目的是把时域信号转化为时频域信号。其具体的计算公式如下:
Figure BDA0003281758720000144
其中,N为帧长,N=512;w(n)为长度512的汉明窗,其中,n代表时间上的序号,因此w(n)代表每一个对应时间序号n上的值;1为时间帧序号,以帧为单位;k为频率序号。Xm(l,k)为第m个麦克风信号,在第1帧,第k个频带的频谱。本发明中,使用的汉明窗函数如图2所示。
向量构建模块,用于对每一个频带k,构建一个频域原始向量X(l,k)。其具体的计算公式如下:
X(l,k)=[X1(l,k),X2(l,k),...,XM(l,k)]T
其中,上标T代表转置运算符,得到该原始向量为M维度列向量。该向量由各个阵元信号排练组成,用以整体表征信号的空间相关性信息。
通过信号分解模块2能够完成从时域信号到时频域的变换。
滤波器计算模块3,用于对时频域信号进行噪声消除滤波器计算,获取用于分离目标语音与噪声信号的滤波器。
其中,滤波器计算模块3包括:用于计算空间区分性系数和空间掩蔽信息的第一计算模块、用于更新互相关系数向量和导向矢量的第一更新模块、以及用于更新噪声协方差矩阵和噪声消除滤波器的第二更新模块。
具体地,在第一计算模块中,空间区分性系数的计算如下:
Figure BDA0003281758720000151
Figure BDA0003281758720000152
Figure BDA0003281758720000153
其中,|.|代表取复数的模;α为相邻帧间平滑因子,取值范围在0和1之间。本发明中,优选α=0.92,如果该值α小于0.88会导致能量估计变化幅度超过20%,存在不稳定的缺陷,如果该值α高于0.96,则能量估计过于平稳,空间区分度低于40度。取值0.92可以非常好的平衡鲁棒性和准确性。
公式中,ρs(l),ρv(l)和ρx(l)分别代表第l帧语音方向、噪声方向以及麦克风拾取信号能量估计,ρs(l-1),ρv(l-1)和ρx(l-1)分别代表第l-1帧语音方向、噪声方向以及麦克风拾取信号能量估计。能量分布的差异代表了空间区分性。
空间掩蔽信息γ(l)的计算如下:
Figure BDA0003281758720000161
该空间掩蔽信息用以区分目标语音主导(取值为1)、干扰噪声主导的时频单元(取值为-1)和其他情况。&代表逻辑运算符并,即两个条件需要同时满足。
μ代表空间置信度阈值,取值范围为0-1之间。本发明采用阈值μ=0.5,采用该阈值可以取得最优的时频单元分类准确率。
上述操作能够为后续导向矢量和噪声协方差的更新提供判断依据。
在第一更新模块中,对每一个频带k,互相关系数向量Γ(l,k)的更新如下:
Figure BDA0003281758720000162
其中,α为相邻帧间平滑因子,该平滑因子α与第一计算模块中的平滑因子α相同;上标*代表共轭算符。该相关系数向量代表了由空间掩蔽信息得到目标语音做主导的时频单元累积得到相关性向量,内含了目标方向语音信号在各麦克风阵元的信号差异。该第一更新模块的计算结果用以后续的目标方向导向矢量的更新。
对每一个频带k,目标方向导向矢量
Figure BDA0003281758720000163
的更新如下:
Figure BDA0003281758720000164
其中,Γ1(l,k)代表相关系数向量的第一个元素值。该导向矢量,根据实际数据估计得到的对应目标方向的各麦克风阵元的信号差异,用以后续操作中进行噪声消除滤波器的更新。
在第二更新模块中,对每一个频带k,噪声协方差矩阵
Figure BDA0003281758720000165
的更新如下:
Figure BDA0003281758720000171
该协方差矩阵代表了噪声主动时频单元累积得到信号相关性矩阵,用以后续的噪声消除滤波器的更新。
对每一个频带k,噪声消除滤波器
Figure BDA0003281758720000172
的计算如下:
Figure BDA0003281758720000173
该噪声消除滤波器,用以后续操作中进行目标语音的频域估计计算。
目标语音估计模块4,用于根据获取的滤波器,得到目标语音的频域估计,进而得到目标语音时域估计。
具体地,目标语音估计模块4包括以下子模块:频域估计模块和目标语音估计模块。
频域估计模块用于根据求解得到的噪声消除滤波器,得到目标语音的频域估计
Figure BDA0003281758720000174
其具体计算公式如下:
Figure BDA0003281758720000175
目标语音估计模块用于对目标语音的频域估计进行傅里叶逆变换得到最终的目标语音估计
Figure BDA0003281758720000176
其具体计算公式如下:
Figure BDA0003281758720000177
通过本发明的上述4个模块缺一不可。并且任一模块的缺失,都会导致目标语音无法提取。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (10)

1.一种基于空间区分性检测的定向噪声消除方法,其特征在于,包括以下步骤:
S1:对每个麦克风的时域信号进行导向矢量和信号拾取滤波器初始化计算;
S2:对初始化后的信号转化为时频域信号,并且构建频域预测向量;
S3:对时频域信号进行噪声消除滤波器计算,获取用于分离目标语音与噪声信号的滤波器;其中,噪声消除滤波器的计算包括:计算空间区分性系数和空间掩蔽信息、更新互相关系数向量和导向矢量、更新噪声协方差矩阵以及计算噪声消除滤波器;
S4:根据获取的滤波器,得到目标语音的频域估计,进而得到目标语音时域估计。
2.如权利要求1所述的基于空间区分性检测的定向噪声消除方法,其特征在于,所述步骤S1之前,还包括获取麦克风的语音信号xm(n);
所述步骤S1中,具体包括以下步骤:
S101:对每个频带k,计算目标语音导向矢量us(k)和噪声导向矢量uv(k):
Figure FDA0003281758710000011
Figure FDA0003281758710000012
Figure FDA0003281758710000013
q(θs)=[cos(θs),sin(θs)],q(θv)=[cos(θv),sin(θv)];
S102:对每个频带k,分别计算语音拾取滤波器hs(k)和噪声拾取滤波器hv(k):
Figure FDA0003281758710000021
Figure FDA0003281758710000022
3.如权利要求2所述的基于空间区分性检测的定向噪声消除方法,其特征在于,所述步骤S2包括以下步骤:
S201:对时域信号xm(n)进行短时傅里叶变换得到时频域表达:
Figure FDA0003281758710000023
S202:对每一个频带k,构建频域原始向量X(l,k):
X(l,k)=[X1(l,k),X2(l,k),...,XM(l,k)]T
4.如权利要求3所述的基于空间区分性检测的定向噪声消除方法,其特征在于,所述步骤S3包括以下步骤:
S301:计算空间区分性系数和空间掩蔽信息:
空间区分性系数的计算如下:
Figure FDA0003281758710000024
Figure FDA0003281758710000025
Figure FDA0003281758710000026
其中,ρs(l),ρv(l)和ρx(l)分别代表第l帧语音方向、噪声方向以及麦克风拾取信号能量估计,能量分布的差异代表了空间区分性;
空间掩蔽信息γ(l)的计算如下:
Figure FDA0003281758710000027
S302:更新互相关系数向量和导向矢量;
对每一个频带k,互相关系数向量Γ(l,k)的更新如下:
Figure FDA0003281758710000031
对每一个频带k,目标方向导向矢量
Figure FDA0003281758710000032
的更新如下:
Figure FDA0003281758710000033
S303:更新噪声协方差矩阵和噪声消除滤波器:
对每一个频带k,噪声协方差矩阵
Figure FDA0003281758710000034
的更新如下:
Figure FDA0003281758710000035
对每一个频带k,噪声消除滤波器
Figure FDA0003281758710000036
的计算如下:
Figure FDA0003281758710000037
5.如权利要求4所述的基于空间区分性检测的定向噪声消除方法,其特征在于,所述步骤S4包括以下步骤:
S401:根据求解得到的噪声消除滤波器,得到目标语音的频域估计
Figure FDA0003281758710000038
Figure FDA0003281758710000039
S402:对目标语音的频域估计进行傅里叶逆变换得到最终的目标语音估计
Figure FDA00032817587100000310
Figure FDA00032817587100000311
6.一种基于空间区分性检测的定向噪声消除装置,其特征在于,包括初始化模块、信号分解模块、滤波器计算模块和目标语音估计模块;
所述初始化模块,用于对每个麦克风的时域信号进行导向矢量和信号拾取滤波器初始化计算;
所述信号分解模块,用于对初始化后的信号转化为时频域信号,并且构建频域预测向量;
所述滤波器计算模块,用于对时频域信号进行噪声消除滤波器计算,获取用于分离目标语音与噪声信号的滤波器;其中,所述滤波器计算模块包括:用于计算空间区分性系数和空间掩蔽信息的第一计算模块、用于更新互相关系数向量和导向矢量的第一更新模块、以及用于更新噪声协方差矩阵和噪声消除滤波器的第二更新模块;
所述目标语音估计模块,用于根据获取的滤波器,得到目标语音的频域估计,进而得到目标语音时域估计。
7.如权利要求6所述的基于空间区分性检测的定向噪声消除装置,其特征在于,所述初始化模块还用于获取麦克风的语音信号xm(n);
所述初始化模块用于进行以下操作:
对每个频带k,计算目标语音导向矢量us(k)和噪声导向矢量uv(k):
Figure FDA0003281758710000041
Figure FDA0003281758710000042
Figure FDA0003281758710000043
q(θs)=[cos(θs),sin(θs)],q(θv)=[cos(θv),sin(θv)];
对每个频带k,分别计算语音拾取滤波器hs(k)和噪声拾取滤波器hv(k):
Figure FDA0003281758710000044
Figure FDA0003281758710000045
8.如权利要求7所述的基于空间区分性检测的定向噪声消除装置,其特征在于,所述信号分解模块包括信号转换模块和向量构建模块;
所述信号转换模块,用于对时域信号xm(n)进行短时傅里叶变换得到时频域表达:
Figure FDA0003281758710000051
所述向量构建模块,用于对每一个频带k,构建频域原始向量X(l,k):
X(l,k)=[X1(l,k),X2(l,k),...,XM(l,k)]T
9.如权利要求8所述的基于空间区分性检测的定向噪声消除方法,其特征在于,所述步骤S3包括以下步骤:
在所述第一计算模块中,空间区分性系数的计算如下:
Figure FDA0003281758710000052
Figure FDA0003281758710000053
Figure FDA0003281758710000054
其中,ρs(l),ρv(l)和ρx(l)分别代表第l帧语音方向、噪声方向以及麦克风拾取信号能量估计,能量分布的差异代表了空间区分性;
空间掩蔽信息γ(l)的计算如下:
Figure FDA0003281758710000055
在所述第一更新模块中,对每一个频带k,互相关系数向量Γ(l,k)的更新如下:
Figure FDA0003281758710000056
对每一个频带k,目标方向导向矢量
Figure FDA0003281758710000057
的更新如下:
Figure FDA0003281758710000058
在所述第二更新模块中,对每一个频带k,噪声协方差矩阵
Figure FDA0003281758710000059
的更新如下:
Figure FDA0003281758710000061
对每一个频带k,噪声消除滤波器
Figure FDA0003281758710000062
的计算如下:
Figure FDA0003281758710000063
10.如权利要求9所述的基于空间区分性检测的定向噪声消除装置,其特征在于,所述目标语音估计模块包括频域估计模块和目标语音估计模块;
所述频域估计模块,用于根据求解得到的噪声消除滤波器,得到目标语音的频域估计
Figure FDA0003281758710000064
Figure FDA0003281758710000065
所述目标语音估计模块,用于对目标语音的频域估计进行傅里叶逆变换得到最终的目标语音估计
Figure FDA0003281758710000066
Figure FDA0003281758710000067
CN202111135208.0A 2021-09-27 2021-09-27 一种基于空间区分性检测的定向噪声消除方法及装置 Pending CN113903353A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111135208.0A CN113903353A (zh) 2021-09-27 2021-09-27 一种基于空间区分性检测的定向噪声消除方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111135208.0A CN113903353A (zh) 2021-09-27 2021-09-27 一种基于空间区分性检测的定向噪声消除方法及装置

Publications (1)

Publication Number Publication Date
CN113903353A true CN113903353A (zh) 2022-01-07

Family

ID=79029627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111135208.0A Pending CN113903353A (zh) 2021-09-27 2021-09-27 一种基于空间区分性检测的定向噪声消除方法及装置

Country Status (1)

Country Link
CN (1) CN113903353A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114422039A (zh) * 2022-01-21 2022-04-29 中车大连电力牵引研发中心有限公司 一种能够去除信号中噪声的方法
WO2023226592A1 (zh) * 2022-05-25 2023-11-30 青岛海尔科技有限公司 噪音信号的处理方法和装置、存储介质及电子装置
CN117935835A (zh) * 2024-03-22 2024-04-26 浙江华创视讯科技有限公司 音频降噪方法、电子设备以及存储介质
CN117935835B (zh) * 2024-03-22 2024-06-07 浙江华创视讯科技有限公司 音频降噪方法、电子设备以及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114422039A (zh) * 2022-01-21 2022-04-29 中车大连电力牵引研发中心有限公司 一种能够去除信号中噪声的方法
CN114422039B (zh) * 2022-01-21 2024-03-19 中车大连电力牵引研发中心有限公司 一种能够去除信号中噪声的方法
WO2023226592A1 (zh) * 2022-05-25 2023-11-30 青岛海尔科技有限公司 噪音信号的处理方法和装置、存储介质及电子装置
CN117935835A (zh) * 2024-03-22 2024-04-26 浙江华创视讯科技有限公司 音频降噪方法、电子设备以及存储介质
CN117935835B (zh) * 2024-03-22 2024-06-07 浙江华创视讯科技有限公司 音频降噪方法、电子设备以及存储介质

Similar Documents

Publication Publication Date Title
JP7011075B2 (ja) マイク・アレイに基づく対象音声取得方法及び装置
CN111025233B (zh) 一种声源方向定位方法和装置、语音设备和系统
CN102421050B (zh) 使用麦克风的非均匀布局来增强音频质量的设备和方法
US9100734B2 (en) Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
US7995773B2 (en) Methods for processing audio input received at an input device
CN101828407B (zh) 基于空间分析的麦克风阵列处理器
CN109285557B (zh) 一种定向拾音方法、装置及电子设备
CN110085247B (zh) 一种针对复杂噪声环境的双麦克风降噪方法
CN113903353A (zh) 一种基于空间区分性检测的定向噪声消除方法及装置
CN111798860B (zh) 音频信号处理方法、装置、设备及存储介质
CN111435598B (zh) 语音信号处理方法、装置、计算机可读介质及电子设备
Li et al. Geometrically constrained independent vector analysis for directional speech enhancement
CN112951257A (zh) 一种音频图像采集设备及说话人定位及语音分离方法
CN115457971A (zh) 一种降噪方法、电子设备及存储介质
CN112363112B (zh) 一种基于线性麦克风阵列的声源定位方法及装置
Zheng et al. BSS for improved interference estimation for blind speech signal extraction with two microphones
CN113539288A (zh) 一种语音信号去噪方法及装置
CN110890099A (zh) 声音信号处理方法、装置以及存储介质
CN116312602B (zh) 基于干扰噪声空间谱矩阵的语音信号波束成形方法
CN113707136B (zh) 服务型机器人语音交互的音视频混合语音前端处理方法
CN113744752A (zh) 语音处理方法及装置
CN109901113B (zh) 一种基于复杂环境的语音信号定位方法、装置及系统
CN110858485B (zh) 语音增强方法、装置、设备及存储介质
CN113628634B (zh) 一种指向信息引导的实时语音分离方法和装置
CN113948101A (zh) 一种基于空间区分性检测的噪声抑制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination