CN108447498B - 应用于麦克风阵列的语音增强方法 - Google Patents

应用于麦克风阵列的语音增强方法 Download PDF

Info

Publication number
CN108447498B
CN108447498B CN201810225373.7A CN201810225373A CN108447498B CN 108447498 B CN108447498 B CN 108447498B CN 201810225373 A CN201810225373 A CN 201810225373A CN 108447498 B CN108447498 B CN 108447498B
Authority
CN
China
Prior art keywords
tensor
signal
time
voice data
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810225373.7A
Other languages
English (en)
Other versions
CN108447498A (zh
Inventor
叶中付
贾翔宇
童仁杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201810225373.7A priority Critical patent/CN108447498B/zh
Publication of CN108447498A publication Critical patent/CN108447498A/zh
Application granted granted Critical
Publication of CN108447498B publication Critical patent/CN108447498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种应用于麦克风阵列的语音增强方法,包括:将接收到的麦克风阵列多路语音数据信号表示成张量形式,利用时间、频率和通道三个物理量把信号建模成一个三阶张量;采用张量分解方法建立多模滤波器,通过时域、频域和空域三个滤波器分别对带噪的多路语音数据信号进行迭代滤波,从而恢复出期望的干净的多路语音数据信号,实现语音信号的增强。

Description

应用于麦克风阵列的语音增强方法
技术领域
本发明涉及语音降噪技术领域,尤其涉及一种在高维空间中利用张量模型解决麦克风阵列信号的语音增强方法。
背景技术
人们已经提出了若干单麦克风的语音降噪算法,包括谱减法、维纳滤波算法和卡尔曼滤波算法等,这些单麦克风降噪算法由于其简单快速并可以在一定程度上抑制噪声,而得到广泛的应用。与单麦克风的降噪算法相比,基于麦克风阵列的语音增强算法可以同时获得接收语音信号的时域和空域信息,算法上也能更加灵活的利用这样的多维信息提高降噪性能。近年来张量分析理论不断完善,实现了在高维空间中通过张量工具解决信号处理问题。基于张量分析的方法一般把接收的多路数据表示成张量形式,或者叫多维矩阵,每一维可以是基本物理量如时间、频率、宽度、高度和通道等。在研究中,多路数据被认为是一个不可分隔的张量整体,模型很自然需要用到多重线性代数这样的信号处理技术特别是张量分解和张量近似方法,这种理论尤其适合于处理多路麦克风语音信号,因此张量在阵列语音信号降噪系统中的应用也是一个值得研究的课题。在本文的麦克风阵列语音信号处理中,我们可以通过时间、频率和通道三个物理量把接收到的语音信号建模成一个三阶张量。
发明内容
本发明的目的是提供一种应用于麦克风阵列的语音增强方法,与传统的波束形成方法相比,该算法利用到接收的多通道信号的时间、频率和通道三个物理量将其表示为一个三阶张量,因而能够更加明显地去除空间白噪声和特定的方向性噪声,并尽可能地无失真恢复出期望的干净语音。
本发明的目的是通过以下技术方案实现的:
一种应用于麦克风阵列的语音增强方法,包括:
步骤一、基于张量分析理论,将接收到的麦克风阵列多路语音数据信号表示成张量形式,利用到时间、频率和通道三个物理量把信号建模成一个三阶张量;
步骤二、采用张量分解方法获得对应的多模滤波器,通过时域、频域和空域三个滤波器分别对原始带噪的多路语音数据信号进行迭代滤波,恢复出期望的干净的多路语音数据信号,实现对语音数据信号的增强。
上述步骤一中,基于张量分析理论,将接收到的麦克风阵列多路语音数据信号表示成张量形式,利用时间、频率和通道三个物理量把信号建模成一个三阶张量;基于张量分析的信号处理方法扩展了低维空间的信号处理方法。假设原始的干净的多路语音数据信号用张量
Figure BDA0001601181190000021
表示,当其叠加上干扰噪声
Figure BDA0001601181190000022
时,会得到带噪的多路语音数据信号Y,表示如下:
Figure BDA0001601181190000023
也就是:
Figure BDA0001601181190000024
其中,F表示频率点个数,与物理量频率对应;N表示分段语音的帧数,与物理量时间对应;I表示麦克风数目,与物理量通道对应;Y(f,n,i)表示第i个麦克风接收通道中的第n帧的第f个元素;因此在这个模型中,XN分别代表目标语音部分和噪声部分,都是三阶的张量,这里的噪声可以是高斯白噪声,也可以是色噪声,也可以是两者的混合。
上述步骤二中,我们的目标就是用多维滤波器估计原始干净的多路语音数据信号X
Figure BDA0001601181190000025
其中{Hf,Ht,Hs}表示基矩阵,是各个模的重要成份组成,分别代表了频域滤波器、时域滤波器和空域滤波器,Y表示带噪语音信号的复张量形式,×k,k=1,2,3表示mode-k张量积。具体地,
Figure BDA0001601181190000026
表示观测张量mode-1纤维Y(:,n,i)的基矩阵,
Figure BDA0001601181190000027
表示观测张量mode-2纤维Y(f,:,i)的基矩阵,
Figure BDA0001601181190000028
表示观测张量mode-3纤维Y(f,n,:)的基矩阵。
为了进一步提高多维滤波的效果,可以在上述步骤二中通过优化估计多模滤波器的准则进行。将多路语音数据信号作为是不可分隔的张量整体,根据最小化均方误差(meansquare error,MSE)准则选择最小化目标估计信号
Figure BDA0001601181190000029
与目标原始信号X之间的均方误差MSE对多模滤波器进行优化:
minimize||X-Y×1Hf×2Ht×3Hs||2,
类似于传统的基于子空间语音增强算法,我们分别定义平均语音失真为:
Jasd=E(||X-X×1Hf×2Ht×3Hs||2),
定义平均噪声残留为:
Janr=E(||N×1Hf×2Ht×3Hs||2),
其中,E(·)表示期望,三个滤波器可以通过下式得到,
f,Ht,Hs)=argmin(Jasd+λ·Janr);
上述目标函数表示我们最终的目标是最小化语音失真和残留噪声的线性组合,即最好的保留目标语音信号信息并将信号失真程度降到最小,λ是均衡残留噪声和语音失真的折衷因子。
该目标函数是一个非线性最优化问题,但涉及到的{Hf,Ht,Hs}是相互耦合在一起的;
在张量计算中,一般采用分块坐标下降算法(Block Coordinate Descent,BCD)方法,其基本思想是交替最优化关于一组变量的子问题而其他变量保持固定,该过程迭代直到收敛。这种算法是成熟的交替最小二乘法的扩展。
在第m次迭代中,分别得到:
Figure BDA0001601181190000031
Figure BDA0001601181190000032
Figure BDA0001601181190000033
这里,需要注意考虑到语音信号的短时平稳特性,在滤波器的计算过程中,我们是分别对张量块进行处理的,此时待处理的带噪语音信号张量块定义为YΡ(:,n-C:n+C,:),其中,n是帧数。我们先利用张量理论分析估计求得三个滤波器后,然后就可以通过{Hf,Ht,Hs}分别对带噪语音信号进行频域-时域-空域的滤波处理,进而得到估计的干净的多路语音数据信号,也就是
Figure BDA0001601181190000034
原始干净的多路语音数据信号可以通过对上述得到的信号
Figure BDA0001601181190000035
进行逆短时傅立叶变换及叠接相加,从而恢复出期望的干净的多路语音数据信号,实现语音信号的增强。
为了改善该方法的性能,我们可以在上述步骤三中采用延迟-求和波束形成器对步骤二得到的多路语音数据信号进行进一步进行处理。
综上所述,本发明提出的技术方案,相比于传统的多通道语音增强算法,通过利用高阶张量表示实现多通道语音信号的增强,有以下几个优点。
首先,考虑到了语音增强处理过程中相位的重要性,并综合利用到了带噪语音信号时域-频域-空域三个维度的信息,可以通过理论和实验验证该技术的优越性。
其次,本发明利用张量分解技术将建立的三维模型投影在相对低维空间中,即分别通过三个二维的滤波器对带噪语音信号进行滤波,如图3所示,降低了计算复杂度,在保证最大限度降噪效果的同时将失真程度尽可能降低到最小。
此外,本发明进一步引入基于波束形成的后处理技术,以实现更大程度的降噪和更低程度的失真。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种应用于麦克风阵列的语音增强方法的流程图;
图2为本发明实施例提供的语音信号复张量表示形式的示意图。
图3为本发明实施例提供的多维滤波框架的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
图1为本发明实施例提供的一种应用于麦克风阵列的语音增强方法的流程图。如图1所示,其主要包括如下步骤:
步骤S101、通过时间、频率和通道三个物理量,把麦克风接收到的带噪语音信号建模成一个三阶张量形式,如图2所示。
步骤S102、基于张量分析理论建立多模滤波器模型,根据最小均方误差准则对多模滤波器进行优化,选择合适的折衷因子使得均衡后的语音失真和噪声残留最小化,并且采用BCD法求解出时域-频域-空域三个滤波器。
步骤S103、对建立的带噪声语音张量模型进行三维滤波器滤波,然后对上述得到的信号进行逆短时傅里叶逆变换及叠接相加,从而恢复出期望的干净语音信号。
步骤S104、为了进一步提高该技术的性能,还可以对增强后的语音信号进行波束形成器后处理。
本发明上述方案,相比于传统的多通道语音增强算法,通过利用高阶张量表示实现多通道语音信号的增强,有以下几个优点。
首先,考虑到了语音增强处理过程中相位的重要性,并综合利用到了带噪语音信号时域-频域-空域三个维度的信息,可以通过理论和实验验证该技术的优越性。
其次,本发明利用张量分解技术将建立的三维模型投影在相对低维空间中,即分别通过三个二维的滤波器对带噪语音信号进行滤波,如图3所示,降低了计算复杂度,在保证最大限度降噪效果的同时将失真程度尽可能降低到最小。
此外,本发明进一步引入基于波束形成的后处理技术,以实现更大程度的降噪和更低程度的失真。
为了便于理解,下面针对上述两个步骤做详细的说明。
1、基于复张量表示的联合时域-频域-空域滤波模型
本发明实施例中,是利用到接收信号的时空频三维信息对带噪语音信号进行滤波等一系列处理。该多维滤波器技术是在帧内-帧间滤波器的模型上进行扩展延伸的,这个基础模型在时域上表示如下:
Figure BDA0001601181190000051
其中,sj(t),j=1,...,J表示在t时刻的第j个目标信号,cj(t)=[c1j(t),...,cIj(t)]Τ是指j个信号源分别经过I个麦克风接收记录的信号,aj(t,τ)=[a1j(t,τ),...,aIj(t,τ)]Τ表示第j个目标源对I个麦克风的声脉冲响应。
为了应用语音信号的短时频域的稀疏性,对上式做短时傅里叶变换,得到:
cj(n,f)=aj(n,f)sj(n,f).
其中,n∈{0,...,N-1}表示帧数,f∈{0,...,F-1}表示频率点,,每个时间点n对应着一帧信号cj(n,:),此处的f表示一个数值变量,一帧信号中包含有多个频率点数值。cj(n,f)=[c1j(n,f),...,cIj(n,f]Τ)、aj(n,f)=[a1j(n,f),...,aIj(n,f)]Τ和sj(n,f)分别对应着cj(t)=[c1j(t),...,cIj(t)]Τ、aj(t,τ)=[a1j(t,τ),...,aIj(t,τ)]Τ和sj(t)的短时傅里叶变换。当考虑到帧内信息和子带间的信息时,我们得到:
Figure BDA0001601181190000061
其中,aj(n′,f′,f)表示从频率点f到频率点f′的子带间滤波器,此滤波器利用到了频率维度的信息。n′是语音第n帧相邻的帧数,此参数的引入利用到了帧间的信息。基于子带滤波近似理论,上式可以化简为:
Figure BDA0001601181190000062
这里,我们仅仅考虑只有一个信号源的情况,也就是J=1,因此,为了方便,接下来我们就把上文中的信号源系数j都省略。c(n,f)在综合考虑到帧间,频率间,通道间的信息后可以被重新排列成三阶张量的形式,如图2所示的
Figure BDA0001601181190000063
易知,此时的c(n,f)是复张量的一个管纤维,即X(f,n,:)=c(n,f)。基于张量理论,我们提出了利用时域-频域-空域三维滤波框架,将观测到的多通道语音信号数据的短时傅里叶变换系数表示为一个三阶复数张量。这里所建立的框架与上述帧内-帧间滤波器的模型相比具有三个特征。首先,它减少了在傅里叶变换域中估计脉冲响应信号引起的较高的计算复杂度。其次,在该多维滤波器框架下,观测数据表示为复数张量,保留了多通道语音信号的结构和相位信息。最后,考虑到语音信号的短时平稳特性引入分块滤波,可以进一步减少因为孤立的时频单元导致的音乐噪声。
2、基于联合时域-频域-空域滤波的语音增强方法
这里提出的联合时域-频域-空域的多维滤波框架,通过将接收到的多通道语音数据的短时傅里叶变换系数表示为三阶复张量形式,试图将时空频滤波整合到统一的框架中。假设观测到的多路语音数据的短时傅里叶变换系数可以表示为三阶复张量
Figure BDA0001601181190000064
其中,XN分别表示干净语音和噪声信号,Y(f,n,i)表示第i个通道中第n帧带噪语音信号的第f个频率点。如图3所示,待估计的纯净语音信号表示为:
Figure BDA0001601181190000065
其中,频域滤波器
Figure BDA0001601181190000066
时域滤波器
Figure BDA0001601181190000067
和空域滤波器
Figure BDA0001601181190000068
分别利用到了带噪语音信号Y的频率维,时间维和空间维的信息。×i,i=1,2,3表示i-模积。通过多维滤波处理后,所提出的技术可以产生与基于帧内-帧间-空间的张量分解即只利用到时域-空域信息的语音增强算法具有相似的性能,但是利用短时傅里叶变换的对称性,可以将每个张量块中的数据量减少到原来的一半。
这里,我们定义平均语音失真为:
Jasd=E(||X-X×1Hf×2Ht×3Hs||2),
平均噪声残留为:
Janr=E(||N×1Hf×2Ht×3Hs||2),
为了得到三维滤波器,我们应当优化下面目标函数:
f,Ht,Hs)=argmin(Jasd+λ·Janr),
λ是均衡语音失真和噪声残留的折衷因子。
3、滤波器的求解方法
我们需要使用BCD方法去迭代更新求解时域、空域和频域滤波器。也就是说,当我们更新一个滤波器时,需要固定另外两个滤波器。这里,我们把这三个滤波器初始化为单位矩阵,在第m,(m≥1)次迭代中,这些滤波器更新如下:
Figure BDA0001601181190000071
Figure BDA0001601181190000072
Figure BDA0001601181190000073
通过若干次迭代,上述过程即可收敛得到结果。
下面,以空域滤波器Hs的更新为例。为了表述方便,定义两个新的矩阵:
Figure BDA0001601181190000074
利用下面性质:
Figure BDA0001601181190000075
Figure BDA0001601181190000076
我们可以进一步把问题延伸为:
min E(||X (3)-Hs X (3)SH||2)+λ·E(||Hs N (3)SH||2),
接着,我们定义
Figure BDA0001601181190000081
X (3)的加权协方差矩阵。类似地,
Figure BDA0001601181190000082
Figure BDA0001601181190000083
综合上述关系,可以得到空域滤波器为:
Figure BDA0001601181190000088
接下来,我们对空域滤波器使用特征值分解。其中,C是E(X (3) X (3) H)的酉特征向量矩阵,X (3)=CO,O是一个元素相互独立的随机加权矩阵,E(OOH)是E(X (3) X (3) H)的对角特征矩阵。类似地,ΛS=E(OSOH)和ΛT=E(OTOH)分别是RSX和RTX的对角特征矩阵。
综合上述内容,空域滤波器可以写成如下形式:
Figure BDA0001601181190000084
对于方差为δ2的空间白噪声,RTN是单位矩阵,上式可以写成:
Figure BDA0001601181190000085
在高斯色噪声情况下,例如噪声为方向性干扰时,空域滤波器可以表示成:
Figure BDA0001601181190000086
其中,diag(·)表示只保留对角线的元素。
想通过上述式子得到滤波器,还必须要知道ΛST,C和噪声的统计特性。这里,δ2和RTN噪声特性是通过在带噪语音信号的静音区估计的。而ΛST,C是分别通过对RSX和RTX进行特征值分解得到。其中,RSX和RTX又通过使用协方差减法得到:
RTX=RTY-RTN,
RSX=RSY-RSN,
接下来,我们定义
Figure BDA0001601181190000087
(K远远大于N)是带噪语音张量整体。考虑到语音信号的短时平稳特性,我们定义Y nΡ(:,n-C:n+C,:),其中,C=(N-1)/2,表示我们每次在时间点n是对一个语音张量块进行处理的,而不是对整体的带噪语音张量块进行处理。
因此,易知:
Figure BDA0001601181190000091
Figure BDA0001601181190000092
类似地,我们可以估计出来频域滤波器
Figure BDA0001601181190000093
和时域滤波器
Figure BDA0001601181190000094
求解出频域滤波器
Figure BDA0001601181190000095
时域滤波器
Figure BDA0001601181190000096
和空域滤波器
Figure BDA0001601181190000097
后,
Figure BDA0001601181190000098
我们可以得到增强后的语音信号,然后对上述得到的信号应为
Figure BDA0001601181190000099
进行逆短时傅立叶变换及叠接相加,从而恢复出期望的干净语音信号。为了进一步提高该方法的性能,可以在系统后端加上波束形成器进一步进行处理。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (3)

1.一种应用于麦克风阵列的语音增强方法,其特征在于,包括:
步骤一、将接收到的麦克风阵列多路语音数据信号表示成张量形式,利用时间、频率和通道三个物理量把信号建模成一个三阶张量;
步骤二、采用张量分解方法建立多模滤波器,通过时域、频域和空域三个滤波器分别对带噪的多路语音数据信号进行迭代滤波,恢复出期望的干净的多路语音数据信号;
所述步骤一中利用时间、频率和通道三个物理量把信号建模成一个三阶张量的步骤具体包括基于复数张量表示的联合时域-频域-空域滤波模型;
利用接收到的时空频三维信息对带噪语音信号采用三维滤波模型进行滤波处理;所述三维滤波模型是在帧内-帧间滤波器基础模型上进行扩展延伸的,所述基础模型在时域上表示如下:
Figure FDA0003404789180000011
其中,sj(t),j=1,…,J表示在t时刻的第j个目标信号,cj(t)=[c1j(t),...,cIj(t)]T是指j个信号源分别经过I个麦克风接收记录的信号,aj(t,τ)=[a1j(t,τ),…,aIj(t,τ)]T表示第j个目标源对I个麦克风的声脉冲响应;
为了应用语音信号的短时频域的稀疏性,对上式做短时傅里叶变换,得到:
cj(n,f)=aj(n,f)sj(n,f).
其中,n∈{0,...,N-1}表示帧数,f∈{0,...,F-1}表示频率点,每个时间点n对应着一帧信号cj(n,:),此处的f表示一个数值变量,一帧信号中包含有多个频率点数值;cj(n,f)=[c1j(n,f),...,cIj(n,f)]T、aj(n,f)=[a1j(n,f),...,aIj(n,f)]T和sj(n,f)分别对应着cj(t)=[c1j(t),...,cIj(t)]T、aj(t,τ)=[a1j(t,τ),…,aIj(t,τ)]T和sj(t)的短时傅里叶变换;当考虑到帧内信息和子带间的信息时,我们得到:
Figure FDA0003404789180000012
其中,aj(n′,f′,f)表示从频率点f到频率点f′的子带间滤波器,此滤波器利用到了频率维度的信息;n′是语音第n帧相邻的帧数,此参数的引入利用到了帧间的信息;基于子带滤波近似理论,上式可以化简为:
Figure FDA0003404789180000021
仅考虑只有一个信号源的情况,即J=1的情况下,把上述文字及公式中的信号源系数j省略;c(n,f)在综合考虑到帧间,频率间,通道间的信息后可以被重新排列成三阶张量的形式;c(n,f)是复张量的一个管纤维,原始的干净的语音数据信号用张量X(f,n,:)=c(n,f);
假设原始的干净的多路语音数据信号用张量
Figure FDA0003404789180000022
表示,当其叠加上干扰噪声
Figure FDA0003404789180000023
时,会得到带噪的多路语音数据信号Y,表示如下:
Figure FDA0003404789180000024
也就是:
Figure FDA0003404789180000025
其中,F表示频率点个数,与物理量频率对应;N表示分段语音的帧数,与物理量时间对应;I表示麦克风数目,与物理量通道对应;Y(f,n,i)表示第i个麦克风接收通道中的第n帧的第f个元素;因此在这个模型中,XN都是三阶张量, 这里的噪声是高斯白噪声和/或色噪声;
所述步骤二具体包括:用多模滤波器估计原始干净的多路语音数据信号X
Figure FDA0003404789180000026
其中{Hf,Ht,Hs}表示基矩阵,是各个模的重要成份组成,分别代表了频域滤波器、时域滤波器和空域滤波器,×k表示mode-k张量积,k=1,2,3;具体地,
Figure FDA0003404789180000027
表示观测张量mode-1纤维Y(:,n,i)的基矩阵,
Figure FDA0003404789180000028
表示观测张量mode-2纤维Y(f,:,i)的基矩阵,
Figure FDA0003404789180000029
表示观测张量mode-3纤维Y(f,n,:)的基矩阵。
2.根据权利要求1所述的应用于麦克风阵列的语音增强方法,其特征在于,步骤二进一步包括:优化多模滤波器:将多路语音数据信号作为是不可分隔的张量整体,根据最小化均方误差准则,选择最小化目标估计信号
Figure FDA00034047891800000210
与原始的干净的多路语音数据信号X之间的均方误差对多模滤波器进行优化:
minimize||X-Y×1Hf×2Ht×3Hs||2,
分别定义平均语音失真为:
Jasd=E(||X-X×1Hf×2Ht×3Hs||2),
定义平均残留噪声为:
Janr=E(||N×1Hf×2Ht×3Hs||2),
其中,E(·)表示期望,三个滤波器可以通过下式得到,
f,Ht,Hs)=argmin(Jasd+λ·Janr);
上述目标函数表示最终的目标是最小化语音失真和残留噪声的线性组合,即最好的保留目标语音信号信息并将信号失真程度降到最小,λ是均衡残留噪声和语音失真的折衷因子;该目标函数是一个非线性最优化问题,但涉及到的{Hf,Ht,Hs}是相互耦合在一起的;
在张量计算中,采用分块坐标下降算法,
在第m次迭代中,分别得到:
Figure FDA0003404789180000031
Figure FDA0003404789180000032
Figure FDA0003404789180000033
这里,需要注意考虑到语音信号的短时平稳特性,在滤波器的计算过程中,分别对张量块进行处理的,此时待处理的带噪语音信号张量块定义为YΡ(:,n-C:n+C,:),其中,n是帧数,C=(N-1)/2;利用张量理论分析估计求得三个滤波器;
通过{Hf,Ht,Hs}分别对带噪语音信号进行频域-时域-空域的滤波处理,进而得到估计的干净的多路语音数据信号,即是
Figure FDA0003404789180000034
原始干净的多路语音数据信号可以通过对上述得到的信号
Figure FDA0003404789180000035
I进行逆短时傅立叶变换及叠接相加后,从而恢复出期望的干净的多路语音数据信号。
3.根据权利要求1-2任一所述的应用于麦克风阵列的语音增强方法,其特征在于,该方法还包括:步骤三、采用延迟-求和波束形成器对步骤二得到的多路语音数据信号进行进一步进行处理。
CN201810225373.7A 2018-03-19 2018-03-19 应用于麦克风阵列的语音增强方法 Active CN108447498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810225373.7A CN108447498B (zh) 2018-03-19 2018-03-19 应用于麦克风阵列的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810225373.7A CN108447498B (zh) 2018-03-19 2018-03-19 应用于麦克风阵列的语音增强方法

Publications (2)

Publication Number Publication Date
CN108447498A CN108447498A (zh) 2018-08-24
CN108447498B true CN108447498B (zh) 2022-04-19

Family

ID=63195218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810225373.7A Active CN108447498B (zh) 2018-03-19 2018-03-19 应用于麦克风阵列的语音增强方法

Country Status (1)

Country Link
CN (1) CN108447498B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110875045A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音识别方法、智能设备和智能电视
CN110956951A (zh) * 2019-12-23 2020-04-03 苏州思必驰信息科技有限公司 一种语音增强采集配件、方法、系统、设备及存储介质
CN111696568B (zh) * 2020-06-16 2022-09-30 中国科学技术大学 一种半监督瞬态噪声抑制方法
CN111739551A (zh) * 2020-06-24 2020-10-02 广东工业大学 一种基于低秩与稀疏张量分解的多通道心肺音去噪系统
CN113808607A (zh) * 2021-03-05 2021-12-17 北京沃东天骏信息技术有限公司 基于神经网络的语音增强方法、装置及电子设备
CN114167982A (zh) * 2021-11-24 2022-03-11 哈尔滨工业大学(深圳) 一种基于张量空频耦合滤波的脑机接口系统
CN115881151B (zh) * 2023-01-04 2023-05-12 广州市森锐科技股份有限公司 一种基于高拍仪的双向拾音消噪方法、装置、设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2495128B (en) * 2011-09-30 2018-04-04 Skype Processing signals
CN103117059B (zh) * 2012-12-27 2015-05-06 内蒙古科技大学 一种基于张量分解的语音信号特征提取方法
WO2015157013A1 (en) * 2014-04-11 2015-10-15 Analog Devices, Inc. Apparatus, systems and methods for providing blind source separation services

Also Published As

Publication number Publication date
CN108447498A (zh) 2018-08-24

Similar Documents

Publication Publication Date Title
CN108447498B (zh) 应用于麦克风阵列的语音增强方法
KR101934636B1 (ko) 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치
JP5227393B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
WO2020121545A1 (ja) 信号処理装置、信号処理方法、およびプログラム
JP2007526511A (ja) 周波数領域で多重経路多チャネル混合信号のブラインド分離のための方法及びその装置
WO2014065342A1 (en) Method for transforming input signal
JP4977062B2 (ja) 残響除去装置とその方法と、そのプログラムと記録媒体
CN105580074B (zh) 信号处理系统和方法
KR102410850B1 (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
EP3440671A1 (en) Audio source parameterization
CN110998723A (zh) 使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序
Qi et al. Exploring deep hybrid tensor-to-vector network architectures for regression based speech enhancement
Şimşekli et al. Non-negative tensor factorization models for Bayesian audio processing
Rombouts et al. QRD-based unconstrained optimal filtering for acoustic noise reduction
JP5881454B2 (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
Giacobello et al. Speech dereverberation based on convex optimization algorithms for group sparse linear prediction
CN101322183A (zh) 信号失真消除装置、方法、程序及记录该程序的记录介质
Badeau et al. Fast adaptive esprit algorithm
Yoshioka et al. Dereverberation by using time-variant nature of speech production system
JP2010049083A (ja) 音響信号強調装置とその方法と、プログラムと記録媒体
JP6910609B2 (ja) 信号解析装置、方法、及びプログラム
JP2020030373A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
Carbajal et al. Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise: Supporting Document

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant