CN109087664B - 语音增强方法 - Google Patents

语音增强方法 Download PDF

Info

Publication number
CN109087664B
CN109087664B CN201810960226.4A CN201810960226A CN109087664B CN 109087664 B CN109087664 B CN 109087664B CN 201810960226 A CN201810960226 A CN 201810960226A CN 109087664 B CN109087664 B CN 109087664B
Authority
CN
China
Prior art keywords
signal
interference
noise
voice
array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810960226.4A
Other languages
English (en)
Other versions
CN109087664A (zh
Inventor
叶中付
朱媛媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201810960226.4A priority Critical patent/CN109087664B/zh
Publication of CN109087664A publication Critical patent/CN109087664A/zh
Application granted granted Critical
Publication of CN109087664B publication Critical patent/CN109087664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种语音增强方法,包括:采用联合字典学习方法的训练方法,针对干净的语音信号、干扰和噪声,学习获得联合字典;通过多重信号分类算法测得期望语音信号的入射方向,并采用MVDR波束形成器来处理阵列接收到的信号,在抑制非期望语音方向上的干扰和噪声的同时增强期望语音方向的语音信号;利用学习获得的联合字典,对MVDR波束形成器的输出信号进行一级联合稀疏表示,并根据稀疏表示的残留成分设计权重系数,从而获得最终估计的语音信号、干扰和噪声,再结合维纳滤波器的形式得到对语音信号的基于均方意义的最优估计,最终恢复出期望的语音信号,实现语音增强。该方法能够在方向性的非平稳干扰和无方向性的环境噪声同时存在的情况下仍然保持良好的语音增强的性能。

Description

语音增强方法
技术领域
本发明涉及多通道语音降噪技术领域,尤其涉及一种语音增强方法。
背景技术
语音是人类最便捷和自然的交流工具之一,一方面它消除了人与人之间交流的距离隔阂,另一方面它也提高了人与机器之间交互的效率。然而,现实环境中无处不在的噪声也不同程度地影响着语音交流的质量,研究有效的语音增强技术就显得尤为重要,是近几十年来学者们研究的热点。
在现有的语音增强算法中,可以根据麦克风的数量将其分为两大类,即多通道语音增强算法和单通道语音增强算法。其中在多通道算法中,波束形成方法最为常见。然而波束形成算法往往对抑制方向性干扰和噪声的能力较好,对于无方向性的环境噪声,波束形成的性能就会降低。因此,近年来波束形成与后置滤波结合的方法成为了研究热点。但是,目前提出的后置滤波的方法大多假设环境噪声为高斯白噪声或者是散弹噪声,并且没有考虑干扰的情况,因此当方向性的非平稳干扰和环境噪声同时存在时,这些后置滤波方法对语音信号的增强效果并不是很好。
发明内容
本发明的目的是针对麦克风阵列接收的多通道语音信号提供一种语音增强方法,能够在方向性的非平稳干扰和无方向性的环境噪声同时存在的情况下仍然保持良好的语音增强的性能。
本发明的目的是通过以下技术方案实现的:
一种语音增强方法,包括:
采用联合字典学习方法的训练方法,针对干净的语音信号、干扰和噪声,学习获得联合字典;
通过多重信号分类算法测得期望语音信号的入射方向,并采用MVDR波束形成器来处理阵列接收信号,在抑制非期望语音方向上的干扰和噪声的同时增强期望方向的语音信号;
利用学习获得的联合字典,对MVDR波束形成器的输出信号进行一级联合稀疏表示,并根据稀疏表示的残留成分设计权重系数,从而获得最终估计的语音信号、干扰和噪声,再结合维纳滤波器的形式得到对语音信号的基于均方意义的最优估计,最终恢复出期望的语音信号,实现语音增强。
由上述本发明提供的技术方案可以看出,充分利用了多通道信号的空域信息、时域信息和频域信息,利用联合字典学习的方法进一步估计出了波束形成的输出信号中的残留干扰和残留噪声,从而能够保持较好的语音增强的能力。此外,由于本方法并不依赖于对噪声场的假设,因此具有较强的适应性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种语音增强方法的流程图;
图2为本发明实施例提供的一种语音增强方法的框图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种语音增强方法对于方向性的非平稳干扰和无方向性的环境噪声,此方法均有很好的语音增强性能。本发明实例适用于多干扰和噪声共存的情况下,以单干扰和单噪声为例进行介绍。如图1所示,该方法主要包括如下步骤:
步骤1、采用联合字典学习方法的训练方法,针对干净的语音信号、干扰和噪声,学习获得联合字典。
步骤2、通过多重信号分类算法测得期望语音信号的入射方向,并采用最小方差无畸变响应(Minimum Variance Distortionless Response,MVDR)波束形成器来处理阵列接收信号,在抑制非期望语音方向上的干扰和噪声的同时增强期望方向的语音信号。
步骤3、利用学习获得的联合字典,对MVDR波束形成器的输出信号进行一级联合稀疏表示,并根据稀疏表示的残留成分设计权重系数,从而获得最终估计的语音信号、干扰和噪声,再结合维纳滤波器的形式得到对语音信号的基于均方意义的最优估计,最终恢复出期望的语音信号,实现语音增强。
本发明上述方案,相比较于已有的波束形成与后置滤波结合的语音增强算法,通过利用多通道信号的空域信息达到抑制干扰和噪声的目的,然后通过联合稀疏表示分别估计出波束形成输出信号的语音信号、残留的干扰和噪声,最后通过设计权重系数充分利用各个稀疏表示的互补优势,更加准确地估计出了期望语音信号,达到了语音增强的目的。该方法有较好的适用性。
为了便于理解,下面针对上述方法的三个步骤做详细的说明。
1、采用单通道联合字典学习方法进行联合字典的训练。
本发明实施例中,同时考虑了干扰和噪声对语音信号的影响,在训练阶段,将干净语音信号str(t)、干净干扰itr(t)、干净噪声ntr(t)分别通过短时傅里叶变换得到时频域上的干净语音信号Str、干净干扰Itr和干净噪声Ntr,将这些时频域上的信号线性相加得到混合信号Ytr
采用联合字典学习的方法来获得联合字典,其包括:具有映射关系的混合信号字典Dy1和语音字典Ds,记为
Figure BDA0001773632730000031
混合信号字典Dy2和干扰字典Di,记为
Figure BDA0001773632730000032
以及混合信号字典Dy3和噪声字典Dn,记为
Figure BDA0001773632730000033
Figure BDA0001773632730000035
其中,虽然三个混合信号字典Dy1、Dy2和Dy3都是由混合信号Ytr生成的字典,但是由于与它们联合的字典是不同的(Dy1联合Ds,Dy2联合Di,Dy3联合Dn),其中的映射关系也不相同,因此这三个混合信号字典是不相同的。式中,C1是对于混合信号和干净语音信号的相同稀疏表示系数,C2是对于混合信号和干净干扰的相同稀疏表示系数,C3是对于混合信号和干净噪声的相同稀疏表示系数,q为稀疏约束;c1,g、c2,g和c3,g对应地表示稀疏系数矩阵C1、C2和C3的第g列;
Figure BDA0001773632730000041
表示弗罗贝尼乌斯范数,||·||1表示1-范数。
2、采用MVDR波束形成器来处理阵列接收信号。
本发明实施例中,利用MVDR波束形成处理阵列接收信号,通过抑制来自非目标方向上的信号来实现抑制干扰和噪声的目的。本发明实例适用于任意类型的阵列流行,包括线阵列、圆阵列或者面阵列等等。下面以线阵列为例进行介绍:
假设一个由M个全向性阵元排列成均匀线阵列,来自空间中的远场信号入射到该阵列,则在观测时刻t第m个阵元接收到的信号xm(t)为:
xm(t)=s[t-τms)]+i[t-τmi)]+nm(t)
式中,s[t-τms)](m=1,2,…,M)表示接收信号中的期望语音信号,i[t-τmi)]表示干扰(主要由点噪声源产生),nm(t)表示环境噪声(散弹噪声,即无方向噪声);τms)为第m个阵元与参考点接收到的期望语音信号之间的时间差,τmi)为第m个阵元与参考点接收到的干扰之间的时间差,θs和θi分别表示期望语音信号和干扰的入射方向。那么阵列接收信号可以表示为:
x(t)=[x1(t)x2(t)…xM(t)]T
阵列接收信号x(t)经过短时傅里叶变换后为x(k,ω):
x(k,ω)=gs(ω)S(k,ω)+gi(ω)I(k,ω)+n(k,ω);
其中:
Figure BDA0001773632730000042
式中,Xm(k,ω),S(k,ω),I(k,ω)和Nm(k,ω)分别为xm(t),s(t),i(t)和nm(t)的短时傅里叶变换,s(t)、i(t)分别为观测时刻t阵列接收信号中的期望语音信号、干扰;gs(ω)为对应期望语音信号S(k,ω)的方向角度的导向矢量,其中的元素对应于各个阵元;gi(ω)为对应干扰i(t)的方向角度的导向矢量,其中的元素对应于各个阵元;n(k,ω)为观测时刻t阵列接收信号中环境噪声n(t)的短时傅里叶变换结果;k和ω分别为帧索引和频率点索引;
在远场假设条件下:
Figure BDA0001773632730000051
Figure BDA0001773632730000052
式中,fω表示在频率点ω处的频率。
波束形成本质上是一种空域滤波,为了对达到增强期望语音信号、抑制干扰与噪声的目的,需要对各阵元的接收信号进行线性加权。虽然阵列是全向的,但阵列的输出经过加权求和后,可以使增益聚集在一个方向上形成了一个“波束”,对不同的权矢量会形成不同方向的空间波束。
对每帧中每个频点的各阵元的接收信号进行加权求和后,输出表示为:
Figure BDA0001773632730000053
其中,w(ω)=[w1(ω),w2(ω),…,wM(ω)]T表示MVDR波束形成器的权矢量;
为了最大化输出信噪比,在保证期望方向上的信号增益不变的同时,使噪声和来自其他方向的干扰贡献的功率最小,求解如下优化问题:
Figure BDA0001773632730000054
得到MVDR波束形成器的权矢量w(ω)为:
Figure BDA0001773632730000055
式中,Rv(ω)为干扰加噪声协方差矩阵;Rv(ω)=E{v(k,ω)vH(k,ω)},v(k,ω)=gi(ω)I(k,ω)+n(k,ω);
在实际情况下,理想的信号统计信息难以获取,通常利用样本矩阵求逆的算法来实现,主要思路就是用样本协方差矩阵
Figure BDA0001773632730000056
来代替理想的协方差矩阵Rv(ω)来求解权值矢量。
本发明实施例中,由语音活动检测技术检测出的无期望语音信号段估算得到估计结果
Figure BDA0001773632730000057
Figure BDA0001773632730000061
式中,
Figure BDA0001773632730000062
表示仅有干扰和噪声的帧的集合,Lv是集合中帧的数目。
3、采用单通道联合字典学习方法进行语音增强。
尽管MVDR波束形成器能够在一定程度上抑制干扰和噪声,但是在干扰为非平稳,环境噪声为无方向性的散弹噪声情况下,波束形成器的性能并不是很好,因此需要采用一定的后滤波技术进一步提高语音增强的效果。
已有的单通道联合字典学习方法大多只考虑了噪声对干净语音信号的污染,忽略了干扰的影响,而且采用基尼系数作为权重系数来联合不同的稀疏表示,其性能的好坏依赖于噪声的结构性,且不适用于干扰和噪声并存的情况。
在字典学习的增强阶段,利用一级联合稀疏表示分别获得初步估计的语音信号、干扰和噪声,根据稀疏表示的残留成分设计权重系数以充分利用其互补属性,最终恢复出期望的语音信号,实现语音增强;主要过程如下:
计算MVDR波束形成器的输出信号的时频域上的幅度
Figure BDA0001773632730000063
在各个联合字典上的稀疏表示系数:
Figure BDA0001773632730000064
式中,e1,g、e2,g和e3,g对应的表示矩阵E1、E2和E3的第g列,而E1、E2和E3分别为
Figure BDA0001773632730000065
在混合信号字典Dy1、Dy2和Dy3上相应的稀疏表示系数。
利用联合稀疏表示初步估计语音信号
Figure BDA0001773632730000066
干扰
Figure BDA0001773632730000067
和噪声
Figure BDA0001773632730000068
Figure BDA0001773632730000069
MVDR波束形成器的输出信号的时频域上的幅度
Figure BDA00017736327300000610
是语音信号、残留干扰和噪声的线性相加之和,则得到优化后的语音信号
Figure BDA00017736327300000611
干扰
Figure BDA00017736327300000612
和噪声
Figure BDA00017736327300000613
Figure BDA0001773632730000071
需要注意的是,
Figure BDA0001773632730000072
Figure BDA0001773632730000073
的估计精度是不同的,前者的估计精度依赖于在混合信号字典和语音字典
Figure BDA0001773632730000074
上的稀疏表示,而后者的估计精度依赖于在
Figure BDA0001773632730000075
Figure BDA0001773632730000076
上的稀疏表示。
为了充分利用这些不同的稀疏表示的估计精度,根据稀疏表示的残留成分设计分别对应于语音信号、干扰和噪声的权重系数α1、α2和α3
Figure BDA0001773632730000077
其中:
Figure BDA0001773632730000078
式中,
Figure BDA0001773632730000079
Figure BDA00017736327300000710
分别代表估计的语音信号、干扰和噪声中归一化的残留的其他成分。
最终估计的语音信号
Figure BDA00017736327300000711
干扰
Figure BDA00017736327300000712
和噪声
Figure BDA00017736327300000713
表示为:
Figure BDA00017736327300000714
不难看出,当
Figure BDA0001773632730000081
中含有较多的残留干扰和残留噪声成分时,即
Figure BDA0001773632730000082
的估计精度低于
Figure BDA0001773632730000083
就会随之相对增大,
Figure BDA0001773632730000084
Figure BDA0001773632730000085
中所占的权重(1-α1)就会相对减小,
Figure BDA0001773632730000086
的权重α1就会相对增大,从而使得语音信号的估计值
Figure BDA0001773632730000087
更为准确,充分利用了不同稀疏表示的精度;对于
Figure BDA0001773632730000088
Figure BDA0001773632730000089
Figure BDA00017736327300000810
的分析类似。
最后,结合维纳滤波器的形式得到对语音信号的基于均方意义的最优估计,表示为:
Figure BDA00017736327300000811
式中,(·)2表示取矩阵中各元素的平方和,
Figure BDA00017736327300000812
表示点乘运算;
然后,利用MVDR波束形成器输出信号YMV(k,ω)构成的矩阵YMV的相位,恢复出带有相位的语音信号
Figure BDA00017736327300000813
Figure BDA00017736327300000814
最后,对
Figure BDA00017736327300000815
做STFT的逆变换,重建出期望的语音信号
Figure BDA00017736327300000816
本发明实施例提供的上述语音增强方法,通过结合MVDR波束形成方法和单通道联合字典学习方法,充分利用了多通道语音信号的空域、时域和频域的信息,从而更准确地估计出期望的语音信号,提升语音增强的性能。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (6)

1.一种语音增强方法,其特征在于,包括:
采用联合字典学习方法的训练方法,针对干净的语音信号、干扰和噪声,学习获得联合字典;
通过多重信号分类算法测得期望语音信号的入射方向,并采用MVDR波束形成器来处理阵列接收信号,在抑制非期望语音方向上的干扰和噪声的同时增强期望方向的语音信号;
利用学习获得的联合字典,对MVDR波束形成器的输出信号进行一级联合稀疏表示,并根据稀疏表示的残留成分设计权重系数,从而获得最终估计的语音信号、干扰和噪声,再结合维纳滤波器的形式得到对语音信号的基于均方意义的最优估计,最终恢复出期望的语音信号,实现语音增强。
2.根据权利要求1所述的一种语音增强方法,其特征在于,所述采用联合字典学习方法的训练方法,针对干净的语音信号、干扰和噪声,学习获得联合字典包括:
在训练阶段,将干净语音信号str(t)、干净干扰itr(t)、干净噪声ntr(t)分别通过短时傅里叶变换得到时频域上的干净语音信号Str、干净干扰Itr和干净噪声Ntr,将这些时频域上的信号线性相加得到混合信号Ytr
采用联合字典学习的方法来获得联合字典,其包括:具有映射关系的混合信号字典Dy1和语音字典Ds,记为
Figure FDA0003725841100000011
混合信号字典Dy2和干扰字典Di,记为
Figure FDA0003725841100000012
以及混合信号字典Dy3和噪声字典Dn,记为
Figure FDA0003725841100000013
Figure FDA0003725841100000014
Figure FDA0003725841100000015
Figure FDA0003725841100000016
其中,三个混合信号字典Dy1、Dy2与Dy3是由混合信号Ytr生成的互不相同的字典,C1是对于混合信号和干净语音信号的相同稀疏表示系数,C2是对于混合信号和干净干扰的相同稀疏表示系数,C3是对于混合信号和干净噪声的相同稀疏表示系数,q为稀疏约束;c1,g、c2,g和c3,g对应的表示稀疏系数矩阵C1、C2和C3的第g列;
Figure FDA0003725841100000021
表示弗罗贝尼乌斯范数,||·||1表示1-范数。
3.根据权利要求1所述的一种语音增强方法,其特征在于,阵列接收到的信号采用下述方式来表示:
阵列为任意类型的阵列,包括:线阵列、圆阵列或者面阵列;
假设一个由M个全向性的阵元排列成均匀线阵列,来自空间中的远场信号入射到该阵列,则在观测时刻t第m个阵元接收到的信号xm(t)为:
xm(t)=s[t-τms)]+i[t-τmi)]+nm(t)
式中,s[t-τms)](m=1,2,…,M)表示接收信号中的期望语音信号,i[t-τmi)]表示干扰,nm(t)表示环境噪声;τms)为第m个阵元与参考点接收到的期望语音信号之间的时间差,τmi)为第m个阵元与参考点接收到的干扰之间的时间差,θs和θi分别表示期望语音信号和干扰的入射方向;
阵列接收信号表示为:
x(t)=[x1(t) x2(t)…xM(t)]T
阵列接收信号x(t)经过短时傅里叶变换后为x(k,ω):
x(k,ω)=gs(ω)S(k,ω)+gi(ω)I(k,ω)+n(k,ω);
其中:
Figure FDA0003725841100000022
式中,Xm(k,ω),S(k,ω),I(k,ω)和Nm(k,ω)分别为xm(t),s(t),i(t)和nm(t)的短时傅里叶变换,s(t)、i(t)分别为观测时刻t阵列接收信号中的期望语音信号、干扰;gs(ω)为对应期望语音信号S(k,ω)的方向角度的导向矢量,其中的元素对应于各个阵元;gi(ω)为对应干扰i(t)的方向角度的导向矢量,其中的元素对应于各个阵元;n(k,ω)为观测时刻t阵列接收信号中环境噪声n(t)的短时傅里叶变换;k和ω分别为帧索引和频率点索引;
在远场假设条件下:
Figure FDA0003725841100000031
Figure FDA0003725841100000032
式中,fω表示在频率点ω处的中心频率。
4.根据权利要求1或3所述的一种语音增强方法,其特征在于,采用MVDR波束形成器来处理阵列接收信号包括:
通过对各阵元的接收信号进行线性加权,来抑制非期望方向上的信号来抑制干扰和噪声,对每帧中每个频点的各阵元的接收信号进行加权求和后,输出表示为:
Figure FDA0003725841100000033
其中,w(ω)=[w1(ω),w2(ω),…,wM(ω)]T表示MVDR波束形成器的权矢量;
求解如下优化问题:
Figure FDA0003725841100000034
得到MVDR波束形成器的权矢量w(ω)为:
Figure FDA0003725841100000035
式中,Rv(ω)为干扰加噪声协方差矩阵;
由语音活动检测技术检测出的无期望语音信号段估算得到估计结果
Figure FDA0003725841100000036
Figure FDA0003725841100000037
式中,
Figure FDA0003725841100000038
表示仅有干扰和噪声的帧的集合,Lv是集合中帧的数目;
将估计结果
Figure FDA0003725841100000039
作为干扰加噪声协方差矩阵Rv(ω)。
5.根据权利要求2所述的一种语音增强方法,其特征在于,获得最终估计的语音信号、干扰和噪声的过程包括:
计算MVDR波束形成器的输出信号的时频域上的幅度
Figure FDA00037258411000000310
在各个联合字典上的稀疏表示系数:
Figure FDA0003725841100000041
Figure FDA0003725841100000042
Figure FDA0003725841100000043
式中,e1,g、e2,g和e3,g对应的表示矩阵E1、E2和E3的第g列,E1、E2和E3分别为
Figure FDA0003725841100000044
在混合信号字典Dy1、Dy2和Dy3上相应的稀疏表示系数;
利用联合稀疏表示初步估计语音信号
Figure FDA0003725841100000045
干扰
Figure FDA0003725841100000046
和噪声
Figure FDA0003725841100000047
Figure FDA0003725841100000048
MVDR波束形成器的输出信号的时频域上的幅度
Figure FDA0003725841100000049
是语音信号、残留干扰和噪声的线性相加之和,则得到优化后的语音信号
Figure FDA00037258411000000410
干扰
Figure FDA00037258411000000411
和噪声
Figure FDA00037258411000000412
Figure FDA00037258411000000413
根据稀疏表示的残留成分设计分别对应于语音信号、干扰和噪声的权重系数α1、α2和α3
Figure FDA00037258411000000414
其中:
Figure FDA0003725841100000051
式中,
Figure FDA0003725841100000052
Figure FDA0003725841100000053
分别代表估计的语音信号、干扰和噪声中归一化的残留的其他成分;
最终估计的语音信号
Figure FDA0003725841100000054
干扰
Figure FDA0003725841100000055
和噪声
Figure FDA0003725841100000056
表示为:
Figure FDA0003725841100000057
6.根据权利要求5所述的一种语音增强方法,其特征在于,结合维纳滤波器的形式得到对语音信号的基于均方意义的最优估计,表示为:
Figure FDA0003725841100000058
式中,(·)2表示取矩阵中各元素的平方和,
Figure FDA0003725841100000059
表示点乘运算;
然后,利用MVDR波束形成器输出信号YMV(k,ω)构成的矩阵YMV的相位,恢复出带有相位的语音信号
Figure FDA00037258411000000510
Figure FDA00037258411000000511
最后,对
Figure FDA00037258411000000512
做STFT的逆变换,重建出期望的语音信号
Figure FDA00037258411000000513
CN201810960226.4A 2018-08-22 2018-08-22 语音增强方法 Active CN109087664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810960226.4A CN109087664B (zh) 2018-08-22 2018-08-22 语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810960226.4A CN109087664B (zh) 2018-08-22 2018-08-22 语音增强方法

Publications (2)

Publication Number Publication Date
CN109087664A CN109087664A (zh) 2018-12-25
CN109087664B true CN109087664B (zh) 2022-09-02

Family

ID=64794226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810960226.4A Active CN109087664B (zh) 2018-08-22 2018-08-22 语音增强方法

Country Status (1)

Country Link
CN (1) CN109087664B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
CN112335261B (zh) 2018-06-01 2023-07-18 舒尔获得控股公司 图案形成麦克风阵列
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US11310596B2 (en) 2018-09-20 2022-04-19 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11438691B2 (en) 2019-03-21 2022-09-06 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
US11303981B2 (en) 2019-03-21 2022-04-12 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
WO2020237206A1 (en) 2019-05-23 2020-11-26 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
WO2020243471A1 (en) 2019-05-31 2020-12-03 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
EP4018680A1 (en) 2019-08-23 2022-06-29 Shure Acquisition Holdings, Inc. Two-dimensional microphone array with improved directivity
US12028678B2 (en) 2019-11-01 2024-07-02 Shure Acquisition Holdings, Inc. Proximity microphone
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
CN111312270B (zh) * 2020-02-10 2022-11-22 腾讯科技(深圳)有限公司 语音增强方法及装置、电子设备和计算机可读存储介质
CN111508518B (zh) * 2020-05-18 2022-05-13 中国科学技术大学 一种基于联合字典学习和稀疏表示的单通道语音增强方法
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
CN111696567B (zh) * 2020-06-12 2022-04-01 思必驰科技股份有限公司 用于远场通话的噪声估计方法及系统
JP2024505068A (ja) 2021-01-28 2024-02-02 シュアー アクイジッション ホールディングス インコーポレイテッド ハイブリッドオーディオビーム形成システム
US11805360B2 (en) * 2021-07-21 2023-10-31 Qualcomm Incorporated Noise suppression using tandem networks
CN116964667A (zh) * 2021-11-11 2023-10-27 深圳市韶音科技有限公司 语音活动检测方法、系统、语音增强方法以及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009151578A2 (en) * 2008-06-09 2009-12-17 The Board Of Trustees Of The University Of Illinois Method and apparatus for blind signal recovery in noisy, reverberant environments
CN105303009A (zh) * 2014-05-30 2016-02-03 西安电子科技大学 基于压缩感知与正则mfocuss的超分辨谱估计方法
CN107966677A (zh) * 2017-11-16 2018-04-27 黑龙江工程学院 一种基于空间稀疏约束的圆阵模态域方位估计方法
WO2018095509A1 (en) * 2016-11-22 2018-05-31 Huawei Technologies Co., Ltd. A sound processing node of an arrangement of sound processing nodes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009151578A2 (en) * 2008-06-09 2009-12-17 The Board Of Trustees Of The University Of Illinois Method and apparatus for blind signal recovery in noisy, reverberant environments
CN105303009A (zh) * 2014-05-30 2016-02-03 西安电子科技大学 基于压缩感知与正则mfocuss的超分辨谱估计方法
WO2018095509A1 (en) * 2016-11-22 2018-05-31 Huawei Technologies Co., Ltd. A sound processing node of an arrangement of sound processing nodes
CN107966677A (zh) * 2017-11-16 2018-04-27 黑龙江工程学院 一种基于空间稀疏约束的圆阵模态域方位估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种基于稀疏干扰协方差矩阵重构的稳健自适应波束形成算法;鹿玉泽等;《电子设计工程》;20170820(第16期);全文 *
基于稀疏重构的电子侦察技术研究;沈志博;《中国优秀博硕士学位论文全文数据库(博士)》;20160415(第04期);全文 *
基于连续稀疏重构的宽频段欠定波达方向估计;吴晨曦等;《上海交通大学学报》;20170928(第09期);全文 *

Also Published As

Publication number Publication date
CN109087664A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN109087664B (zh) 语音增强方法
Gannot et al. A consolidated perspective on multimicrophone speech enhancement and source separation
Nadiri et al. Localization of multiple speakers under high reverberation using a spherical microphone array and the direct-path dominance test
CN107039045B (zh) 用于语音增强的全局优化最小二乘后滤波
Moore et al. Direction of arrival estimation in the spherical harmonic domain using subspace pseudointensity vectors
CN110931036B (zh) 一种麦克风阵列波束形成方法
Brendel et al. A unified probabilistic view on spatially informed source separation and extraction based on independent vector analysis
Cho et al. A beamforming algorithm based on maximum likelihood of a complex Gaussian distribution with time-varying variances for robust speech recognition
Wan et al. Spacial extrapolation-based blind DOA estimation approach for closely spaced sources
Xiao et al. Beamforming networks using spatial covariance features for far-field speech recognition
Huang et al. Globally optimized least-squares post-filtering for microphone array speech enhancement
WO2023108864A1 (zh) 小型麦克风阵列设备的区域拾音方法及系统
Hoang et al. Joint maximum likelihood estimation of power spectral densities and relative acoustic transfer functions for acoustic beamforming
Fischer et al. Robust constrained MFMVDR filtering for single-microphone speech enhancement
Çöteli et al. Sparse representations with legendre kernels for doa estimation and acoustic source separation
CN113257270A (zh) 一种基于参考麦克风优化的多通道语音增强方法
Thiemann et al. An experimental comparison of source separation and beamforming techniques for microphone array signal enhancement
Gao et al. A modified frequency weighted MUSIC algorithm for multiple sound sources localization
Hafezi et al. Subspace hybrid beamforming for head-worn microphone arrays
Kühne et al. A new evidence model for missing data speech recognition with applications in reverberant multi-source environments
McCowan et al. Multi-channel sub-band speech recognition
Ito et al. Crystal-MUSIC: Accurate localization of multiple sources in diffuse noise environments using crystal-shaped microphone arrays
Shimizu et al. Isotropic noise suppression in the power spectrum domain by symmetric microphone arrays
Laufer et al. ML estimation and CRBs for reverberation, speech, and noise PSDs in rank-deficient noise field
Abend et al. Spatio-spectral masking for spherical array beamforming

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant