CN105792074A - 一种语音信号处理方法和装置 - Google Patents

一种语音信号处理方法和装置 Download PDF

Info

Publication number
CN105792074A
CN105792074A CN201610108588.1A CN201610108588A CN105792074A CN 105792074 A CN105792074 A CN 105792074A CN 201610108588 A CN201610108588 A CN 201610108588A CN 105792074 A CN105792074 A CN 105792074A
Authority
CN
China
Prior art keywords
signal
frequency domain
noise
omega
domain sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610108588.1A
Other languages
English (en)
Other versions
CN105792074B (zh
Inventor
陈景东
杰卡布·贝内斯特
李昌磊
黄公平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201610108588.1A priority Critical patent/CN105792074B/zh
Publication of CN105792074A publication Critical patent/CN105792074A/zh
Application granted granted Critical
Publication of CN105792074B publication Critical patent/CN105792074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供了一种语音信号处理方法和装置,所述方法包括:获取传感器阵列中各个传感器采集到的带噪语音信号,带噪语音信号为时域信号;应用短时傅里叶变换将采集到的带噪语音信号由时域信号分解成频域子带信号;通过与各个频域子带信号的空间维度相关的波束形成器,对得到的频域子带信号进行滤波处理,得到降噪后的语音信号。通过本发明,可以通过简单的操作,就可以从带有噪声、干扰和混响的麦克风输出信号中提取有用的语音信号。

Description

一种语音信号处理方法和装置
技术领域
本发明涉及信号处理领域,具体而言,涉及一种语音信号处理方法和装置。
背景技术
目前,语音信号处理被广泛的应用在波达方向估计、声源定位、语音降噪、声源分离、混响抑制、远场拾音、3维音频等问题。相关处理方法与技术在包括声学监控、智能手机、智能电视、平板电脑、助听器、机器人等领域。如何抑制麦克风传输的语音信号中的噪声是当前语音信号处理领域的热点。
相关技术中提出基于正则参数的超指向性波束形成方法对语音信号中的噪声进行抑制。基于正则参数的超指向性波束形成方法是通过引入和调节正则参数(RegularizationParameter)可以在指向性和白噪声增益之间获得一个折中,或者通过假设每个传感器的误差(传感器的增益、相位和位置误差)服从某种概率分布,从而推导出一种鲁棒性较好的波束形成器,从而对语音信号中的噪声进行抑制。
但在实际系统中如何找到一个最优的正则参数是一个很难的问题;而且,在实际系统中通过假设每个传感器的误差服从某种概率分布推导出的超指向波束形成器在对语音信号中的噪声进行抑制时,这些先验信息往往难以获得。
发明内容
有鉴于此,本发明实施例的目的在于提供一种语音信号处理方法和装置,以通过简单的操作,就可以提高对语音信号中的噪声抑制能力。
第一方面,本发明实施例提供了一种语音信号处理方法,包括:
获取传感器阵列中各个传感器采集到的带噪语音信号,所述带噪语音信号为时域信号;
应用短时傅里叶变换将采集到的所述带噪语音信号由时域信号分解成频域子带信号;
通过与各个所述频域子带信号的空间维度相关的波束形成器,对得到的所述频域子带信号进行滤波处理,得到降噪后的所述语音信号。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,应用短时傅里叶变换将获取到的所述带噪语音信号由时域信号分解成频域子带信号包括:
所述传感器采集到的带噪语音信号表示为:
ym(k)=xm(k)+vm(k);
所述频域子带信号表示为:
Ym(ω)=Xm(ω)+Vm(ω);
其中,ym(k)表示第m个传感器采集到的带噪语音信号,xm(k)表示第m个传感器接收到的纯净语音信号,vm(k)表示第m个传感器接收到的加性噪声信号,m∈[1,2,3…M],M表示传感器阵列中传感器的数量,Ym(ω)、Xm(ω)和Vm(ω)分别表示ym(k)、xm(k)和vm(k)的短时傅里叶变换。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,通过与各个所述频域子带信号的空间维度相关的波束形成器,对得到的所述频域子带信号进行滤波处理,得到降噪后的所述语音信号,包括:
根据阵列结构、阵元数目、给定频率和主波束预期的指向参数,构造所述语音信号的归一化相关矩阵,并根据阵列结构、阵元数目、给定的频率和各向同性噪声场的假设,构造噪声信号的归一化相关矩阵;
对所述语音信号和所述噪声信号的归一化相关矩阵进行联合对角化分解,得到基于子空间的超指向波束形成器,其中,所述超指向波束形成器与各个所述频域子带信号的空间维度相关;
通过得到的所述波束形成器对得到的所述频域子带信号进行滤波处理,得到降噪后的所述语音信号。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,对所述语音信号和所述噪声信号的归一化相关矩阵进行联合对角化分解,得到基于子空间的超指向波束形成器,包括:
对语音信号的归一化相关矩阵和噪声信号的归一化相关矩阵进行联合对角化分解,得到满秩分解矩阵B(ω)=[b1(ω)b2(ω).....bM(ω)];
从所述满秩分解矩阵中,取前N个特征向量进行线性组合,得到如下公式表示波束形成器hN(ω):
hN(ω)=B1:N(ω)а1:N(ω),
其中,B1:N(ω)表示满秩分解矩阵中的前N个特征向量,a1:N(ω)表示一个长度为N的列向量;
在约束期望信号不失真的情况下极大化波束形成器的白噪声增益,得到基于子空间的超指向波束形成器hf N(ω):
h f N ( ω ) = P B 1 : N ( ω ) d ( ω ) d H ( ω ) P B 1 : N ( ω ) d ( ω ) ;
其中,PB1:N(ω)=B1:N(ω)[BH 1:N(ω)B1:N(ω)]-1BH 1:N(ω)。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,通过得到的所述波束形成器对得到的所述频域子带信号进行滤波处理,得到降噪后的所述语音信号,包括:
对得到的所述频域观测信号进行滤波处理,得到滤波信号;
利用短时傅里叶逆变换以及重叠相加或重叠保存方法对得到的所述滤波信号进行逆变换,得到降噪后的所述语音信号,其中,降噪后的所述语音信号为期望纯净信号的时域估计值。
第二方面,本发明实施例提供了一种语音信号处理装置,包括:
信号获取模块,用于获取传感器阵列中各个传感器采集到的带噪语音信号,所述带噪语音信号为时域信号;
计算模块,用于应用短时傅里叶变换将采集到的所述带噪语音信号由时域信号分解成频域子带信号;
滤波模块,用于通过与各个所述频域子带信号的空间维度相关的波束形成器,对得到的所述频域子带信号进行滤波处理,得到降噪后的所述语音信号。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,在所述计算模块中,所述传感器采集到的带噪语音信号表示为:
ym(k)=xm(k)+vm(k);
所述频域子带信号表示为:
Ym(ω)=Xm(ω)+Vm(ω);
其中,ym(k)表示第m个传感器采集到的带噪语音信号,xm(k)表示第m个传感器接收到的纯净语音信号,vm(k)表示第m个传感器接收到的加性噪声信号,m∈[1,2,3…M],M表示传感器阵列中传感器的数量,Ym(ω)、Xm(ω)和Vm(ω)分别表示ym(k)、xm(k)和vm(k)的短时傅里叶变换。
结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,所述滤波模块,包括:
构造单元,用于根据阵列结构、阵元数目、给定频率和主波束预期的指向参数,构造所述语音信号的归一化相关矩阵,并根据阵列结构、阵元数目、给定的频率和各向同性噪声场的假设,构造噪声信号的归一化相关矩阵;
计算单元,用于对所述语音信号和所述噪声信号的归一化相关矩阵进行联合对角化分解,得到基于子空间的超指向波束形成器,其中,所述超指向波束形成器与各个所述频域子带信号的空间维度相关;
处理单元,用于通过得到的所述波束形成器对得到的所述频域子带信号进行滤波处理,得到降噪后的所述语音信号。
结合第二方面,本发明实施例提供了第二方面的第三种可能的实施方式,其中,所述计算单元,包括:
联合对角化分解子单元,用于对语音信号的归一化相关矩阵和噪声信号的归一化相关矩阵进行联合对角化分解,得到满秩分解矩阵B(ω)=[b1(ω)b2(ω).....bM(ω)];
处理子单元,用于从所述满秩分解矩阵中,取前N个特征向量进行线性组合,得到如下公式表示波束形成器hN(ω):
hN(ω)=B1:N(ω)а1:N(ω),
其中,B1:N(ω)表示满秩分解矩阵中的前N个特征向量,a1:N(ω)表示一个长度为N的列向量;
超指向波束形成器形成子单元,用于在约束期望信号不失真的情况下极大化波束形成器的白噪声增益,得到基于子空间的超指向波束形成器hf N(ω): h f N ( ω ) = P B 1 : N ( ω ) d ( ω ) d H ( ω ) P B 1 : N ( ω ) d ( ω ) ;
其中,PB1:N(ω)=B1:N(ω)[BH 1:N(ω)B1:N(ω)]-1BH 1:N(ω)。
结合第二方面,本发明实施例提供了第二方面的第四种可能的实施方式,其中,所述处理单元,包括:
滤波子单元,用于对得到的所述频域观测信号进行滤波处理,得到滤波信号;
合成子单元,用于利用短时傅里叶逆变换以及重叠相加或重叠保存方法对得到的所述滤波信号进行逆变换,得到降噪后的所述语音信号,其中,降噪后的所述语音信号为期望纯净信号的时域估计值。
本发明实施例提供的一种语音信号处理方法和装置,通过先对传感器阵列中获取的带噪语音信号进行短时傅里叶变换,得到频域子带信号,然后通过与各个频域子带信号的空间维度相关的波束形成器对得到的频域子带信号进行滤波处理,得到降噪后的语音信号,所述子空间的超指向波束形成器具有良好的鲁棒性和较高的指向性,相对于现有的基于正则参数的超指向性波束形成方法虽然也可以通过调整正则参数来提高超指向性波束形成的鲁棒性,但最佳的正则参数值很难找到,其它假设传感器误差的方法在现实中难以实现,因为很难获取传感器误差的先验知识。而本提案中的方法通过合理的选择子空间维数N即可在较高的指向性和良好的鲁棒性之间获得较好的折中,因此,在实际应用中,我们可以根据预期的指向性和白噪声增益来确定子空间维数N的值,系统实现很容易、也方便,可以通过简单的操作,就可以从带有噪声、干扰和混响的麦克风输出信号中提取有用的语音信号。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例1所提供的一种语音信号处理方法的流程图;
图2示出了本发明实施例2所提供的一种语音信号处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到相关技术中,在基于正则参数的超指向性波束形成方法中,在实际系统中如何找到一个最优的正则参数是一个很难的问题;而且,在实际系统中通过假设每个传感器的误差服从某种概率分布推导出的超指向波束形成器在对语音信号中的噪声进行抑制时,这些先验信息往往难以获得。基于此,本发明实施例提供了一种语音信号处理方法和装置,下面通过实施例进行描述。
实施例1
本实施例提供了一种语音信号处理方法,本发明实施例的执行主体为语音信号处理服务器,通过先对传感器阵列中获取的语音信号进行短时傅里叶变换,得到频域子带信号,然后通过与各个频域子带信号的空间维度相关的波束形成器对得到的频域子带信号进行滤波处理,得到降噪后的语音信号。
其中,语音信号处理服务器可以使用现有的任何型号的计算终端,这里不再一一赘述。
参见图1,本实施例提出的语音信号处理方法,包括以下步骤:
步骤100、获取传感器阵列中各个传感器采集到的带噪语音信号,带噪语音信号为时域信号。
步骤102、应用短时傅里叶变换将采集到的带噪语音信号由时域信号分解成频域子带信号。
其中,传感器采集到的带噪语音信号表示为:
ym(k)=xm(k)+vm(k);
频域子带信号表示为:
Ym(ω)=Xm(ω)+Vm(ω);
其中,ym(k)表示第m个传感器采集到的带噪语音信号,xm(k)表示第m个传感器接收到的纯净语音信号,vm(k)表示第m个传感器接收到的加性噪声信号,m∈[1,2,3…M],M表示传感器阵列中传感器的数量,Ym(ω)、Xm(ω)和Vm(ω)分别表示ym(k)、xm(k)和vm(k)的短时傅里叶变换。
为了提高算法的处理速度和效率以及简化问题的描述,将时域信号转换到频域处理(注意,本发明中的方法、算法、结论同样适合时域的情况)。对传感器接收到的信号进行短时傅里叶变换,则可以得到频域子带信号Ym(ω)(为了数学表达式的简化,我们在下面的推到中省略掉代表时间帧的参数),为了描述问题的方便,我们将Ym(ω)=Xm(ω)+Vm(ω)写成如下的向量形式:
y(ω)=[Y1(ω)Y2(ω)…YM(ω)]T
=x(ω)+v(ω)
=d(ω,θ)X1(ω)+v(ω);
其中,d(ω,θ)=[1e-jwδcosθ/c…e-j(M-1)wδcosθ/c]T
j为虚数单位,ω=2πf为角频率,f为频率,δ为均匀线形阵列相邻两阵元的间距,θ为波达方向,c为空气中声传播的速度,d(ω,θ)为信号的延时矢量(其形式同波束形成中的导向矢量相同)。对于均匀线性阵列,波束形成器在端射方向(即θ=0°)上可取得最高增益,故本发明实施例中只讨论信号入射方向为端射方向的固定波束形成器,记d(ω)=d(ω,0),当然,所提出的算法和技术同样适用于其它入射方向。假设有一组复权值H* m(ω),m=1,2,...,M,波束形成器的输出则是对阵列的输出进行加权求和:
Z ( ω ) = Σ m = 1 M H * m ( ω ) Y m ( ω ) = h H ( ω ) y ( ω )
其中,上标H表示共轭转置,Z(ω)是期望信号X1(ω)的一个估计。
步骤104、通过与各个频域子带信号的空间维度相关的波束形成器,对得到的频域子带信号进行滤波处理,得到降噪后的语音信号。
具体地,步骤104包括以下步骤(1)至步骤(3):
(1)根据阵列结构、阵元数目、给定频率和主波束预期的指向参数,构造语音信号的归一化相关矩阵,并根据阵列结构、阵元数目、给定的频率和各向同性噪声场的假设,构造噪声信号的归一化相关矩阵;
(2)对语音信号和噪声信号的归一化相关矩阵进行联合对角化分解,得到基于子空间的超指向波束形成器,其中,超指向波束形成器与各个所述频域子带信号的空间维度相关;
(3)通过得到的波束形成器对得到的频域子带信号进行滤波处理,得到降噪后的语音信号。
在步骤1中,阵列结构是指实际采集系统阵列是何种形状,如均匀线阵、非均匀线阵或圆阵等;阵元数目是指实际采集系统所使用的传感器个数;给定频率是指上述的频率f;主波束预期的指向参数就是指上述的波达方向θ。
具体地,步骤2具体包括以下步骤(21)至步骤(23):
(21)对语音信号的归一化相关矩阵和噪声信号的归一化相关矩阵进行联合对角化分解,得到满秩分解矩阵
B(ω)=[b1(ω)b2(ω).....bM(ω)];
(22)从满秩分解矩阵中,取前N个特征向量进行线性组合,得到如下公式表示波束形成器hN(ω):
hN(ω)=B1:N(ω)а1:N(ω),
其中,B1:N(ω)表示满秩分解矩阵中的前N个特征向量,а1:N(ω)表示一个长度为N的列向量;
(23)在约束期望信号不失真的情况下极大化波束形成器的白噪声增益,得到基于子空间的超指向波束形成器hf N(ω):
h f N ( ω ) = P B 1 : N ( ω ) d ( ω ) d H ( ω ) P B 1 : N ( ω ) d ( ω ) ;
其中,PB1:N(ω)=B1:N(ω)[BH 1:N(ω)B1:N(ω)]-1BH 1:N(ω)。
在步骤21中,构造语音信号和噪声信号的归一化相关矩阵为:Гx(ω)=d(ω)dH(ω)和Гv(ω)=Гd(ω)。
在步骤22中,超指向波束形成器的推导假设噪声场为各向同性,在这种情况下,噪声信号的归一化相关矩阵为:[Гv(ω)]ij=[Гd(ω)]ij,由于Гd(ω)和Гx(ω)是埃尔米特矩阵,因此可以联合对角化:
BH(ω)Гx(ω)B(ω)=Λ(ω)和BH(ω)Гd(ω)B(ω)=IM
其中,IM是M×M的对角阵,Гd(ω)表示已知的各向同性噪声场的归一化相关矩阵,Λ(ω)是M×M的对角阵。
在步骤23中,波束形成器hN(ω)所对应的白噪声增益W[hN(ω)]为:
相应的指向性因子D[hN(ω)]为:
在步骤13中,在约束期望信号不失真的情况下极大化W[hN(ω)],相应的波束形成滤波器就是基于子空间的超指向波束形成器,即:服从hH N(ω)d(ω)=1,求解该问题,可以得到基于子空间的超指向波束形成器的表达式:
h f N ( ω ) = P B 1 : N ( ω ) d ( ω ) d H ( ω ) P B 1 : N ( ω ) d ( ω ) ;
当N=1时,得到这正是传统的超指向波束形成器。当N=M时,得到这是经典的延迟求和波束形成器。可以推导如下的关系式:
M2≥D[hf 1(ω)]≥D[hf 2(ω)]≥…≥D[hf M(ω)]和
M=W[hf M(ω)]≥W[hf M-1(ω)]≥…≥W[hf 1(ω)]。
因此,当子空间的维度N取不同的值时,可以得到不同的波束形成器,它们在超增益和最优的白噪声增益之间取得不同的折中。
步骤3具体包括以下步骤(31)至(32):
(31)对得到的频域观测信号进行滤波处理,得到滤波信号;
(32)利用短时傅里叶逆变换以及重叠相加或重叠保存方法对得到的滤波信号进行逆变换,得到降噪后的语音信号,其中,降噪后的语音信号为期望纯净信号的时域估计值。
本实施例提供的一种语音信号处理方法,通过先对传感器阵列中获取的带噪语音信号进行短时傅里叶变换,得到频域子带信号,然后通过与各个频域子带信号的空间维度相关的波束形成器对得到的频域子带信号进行滤波处理,得到降噪后的语音信号,所述子空间的超指向波束形成器具有良好的鲁棒性和较高的指向性,相对于现有的基于正则参数的超指向性波束形成方法虽然也可以通过调整正则参数来提高超指向性波束形成的鲁棒性,但最佳的正则参数值很难找到,其它假设传感器误差的方法在现实中难以实现,因为很难获取传感器误差的先验知识。而本提案中的方法通过合理的选择子空间维数N即可在较高的指向性和良好的鲁棒性之间获得较好的折中,因此,在实际应用中,我们可以根据预期的指向性和白噪声增益来确定子空间维数N的值,系统实现很容易、也方便,可以通过简单的操作,就可以从带有噪声、干扰和混响的麦克风输出信号中提取有用的语音信号。
实施例2
参见图2,本实施例提供一种语音信号处理装置,包括:
信号获取模块200,用于获取传感器阵列中各个传感器采集到的带噪语音信号,带噪语音信号为时域信号;
计算模块202,用于应用短时傅里叶变换将采集到的带噪语音信号由时域信号分解成频域子带信号;
滤波模块204,用于通过与各个频域子带信号的空间维度相关的波束形成器,对得到的频域子带信号进行滤波处理,得到降噪后的语音信号。
具体地,在计算模块202中,传感器采集到的带噪语音信号表示为:
ym(k)=xm(k)+vm(k);
频域子带信号表示为:
Ym(ω)=Xm(ω)+Vm(ω);
其中,ym(k)表示第m个传感器采集到的带噪语音信号,xm(k)表示第m个传感器接收到的纯净语音信号,vm(k)表示第m个传感器接收到的加性噪声信号,m∈[1,2,3…M],M表示传感器阵列中传感器的数量,Ym(ω)、Xm(ω)和Vm(ω)分别表示ym(k)、xm(k)和vm(k)的短时傅里叶变换。
具体地,滤波模块204,包括:
构造单元,用于根据阵列结构、阵元数目、给定频率和主波束预期的指向参数,构造语音信号的归一化相关矩阵,并根据阵列结构、阵元数目、给定的频率和各向同性噪声场的假设,构造噪声信号的归一化相关矩阵;
计算单元,用于对语音信号和噪声信号的归一化相关矩阵进行联合对角化分解,得到基于子空间的超指向波束形成器,其中,超指向波束形成器与各个频域子带信号的空间维度相关;
处理单元,用于通过得到的波束形成器对得到的频域子带信号进行滤波处理,得到降噪后的语音信号。
进一步地,计算单元,包括:
联合对角化分解子单元,用于对语音信号的归一化相关矩阵和噪声信号的归一化相关矩阵进行联合对角化分解,得到满秩分解矩阵B(ω)=[b1(ω)b2(ω).....bM(ω)];
处理子单元,用于从满秩分解矩阵中,取前N个特征向量进行线性组合,得到如下公式表示波束形成器hN(ω):
hN(ω)=B1:N(ω)а1:N(ω),
其中,B1:N(ω)表示满秩分解矩阵中的前N个特征向量,a1:N(ω)表示一个长度为N的列向量;
超指向波束形成器形成子单元,用于在约束期望信号不失真的情况下极大化波束形成器的白噪声增益,得到基于子空间的超指向波束形成器hf N(ω): h f N ( ω ) = P B 1 : N ( ω ) d ( ω ) d H ( ω ) P B 1 : N ( ω ) d ( ω ) ;
其中,PB1:N(ω)=B1:N(ω)[BH 1:N(ω)B1:N(ω)]-1BH 1:N(ω)。
进一步地,处理单元,包括:
滤波子单元,用于对得到的频域观测信号进行滤波处理,得到滤波信号;
合成子单元,用于利用短时傅里叶逆变换以及重叠相加或重叠保存方法对得到的滤波信号进行逆变换,得到降噪后的语音信号,其中,降噪后的语音信号为期望纯净信号的时域估计值。
本实施例提供的一种语音信号处理装置,通过先对传感器阵列中获取的带噪语音信号进行短时傅里叶变换,得到频域子带信号,然后通过与各个频域子带信号的空间维度相关的波束形成器对得到的频域子带信号进行滤波处理,得到降噪后的语音信号,所述子空间的超指向波束形成器具有良好的鲁棒性和较高的指向性,相对于现有的基于正则参数的超指向性波束形成方法虽然也可以通过调整正则参数来提高超指向性波束形成的鲁棒性,但最佳的正则参数值很难找到,其它假设传感器误差的方法在现实中难以实现,因为很难获取传感器误差的先验知识。而本提案中的方法通过合理的选择子空间维数N即可在较高的指向性和良好的鲁棒性之间获得较好的折中,因此,在实际应用中,我们可以根据预期的指向性和白噪声增益来确定子空间维数N的值,系统实现很容易、也方便,可以通过简单的操作,就可以从带有噪声、干扰和混响的麦克风输出信号中提取有用的语音信号。
本发明实施例所提供的进行语音信号处理方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种语音信号处理方法,其特征在于,包括:
获取传感器阵列中各个传感器采集到的带噪语音信号,所述带噪语音信号为时域信号;
应用短时傅里叶变换将采集到的所述带噪语音信号由时域信号分解成频域子带信号;
通过与各个所述频域子带信号的空间维度相关的波束形成器,对得到的所述频域子带信号进行滤波处理,得到降噪后的所述语音信号。
2.根据权利要求1所述的方法,其特征在于,应用短时傅里叶变换将获取到的所述带噪语音信号由时域信号分解成频域子带信号包括:
所述传感器采集到的带噪语音信号表示为:
ym(k)=xm(k)+vm(k);
所述频域子带信号表示为:
Ym(ω)=Xm(ω)+Vm(ω);
其中,ym(k)表示第m个传感器采集到的带噪语音信号,xm(k)表示第m个传感器接收到的纯净语音信号,vm(k)表示第m个传感器接收到的加性噪声信号,m∈[1,2,3…M],M表示传感器阵列中传感器的数量,Ym(ω)、Xm(ω)和Vm(ω)分别表示ym(k)、xm(k)和vm(k)的短时傅里叶变换。
3.根据权利要求2所述的方法,其特征在于,通过与各个所述频域子带信号的空间维度相关的波束形成器,对得到的所述频域子带信号进行滤波处理,得到降噪后的所述语音信号,包括:
根据阵列结构、阵元数目、给定频率和主波束预期的指向参数,构造所述语音信号的归一化相关矩阵,并根据阵列结构、阵元数目、给定的频率和各向同性噪声场的假设,构造噪声信号的归一化相关矩阵;
对所述语音信号和所述噪声信号的归一化相关矩阵进行联合对角化分解,得到基于子空间的超指向波束形成器,其中,所述超指向波束形成器与各个所述频域子带信号的空间维度相关;
通过得到的所述波束形成器对得到的所述频域子带信号进行滤波处理,得到降噪后的所述语音信号。
4.根据权利要求3所述的方法,其特征在于,对所述语音信号和所述噪声信号的归一化相关矩阵进行联合对角化分解,得到基于子空间的超指向波束形成器,包括:
对语音信号的归一化相关矩阵和噪声信号的归一化相关矩阵进行联合对角化分解,得到满秩分解矩阵B(ω)=[b1(ω)b2(ω).....bM(ω)];
从所述满秩分解矩阵中,取前N个特征向量进行线性组合,得到如下公式表示波束形成器hN(ω):
hN(ω)=B1:N(ω)а1:N(ω),
其中,B1:N(ω)表示满秩分解矩阵中的前N个特征向量,a1:N(ω)表示一个长度为N的列向量;
在约束期望信号不失真的情况下极大化波束形成器的白噪声增益,得到基于子空间的超指向波束形成器hf N(ω):
h f N ( ω ) = P B 1 : N ( ω ) d ( ω ) d H ( ω ) P B 1 : N ( ω ) d ( ω ) ;
其中,PB1:N(ω)=B1:N(ω)[BH 1:N(ω)B1:N(ω)]-1BH 1:N(ω)。
5.根据权利要求4所述的方法,其特征在于,通过得到的所述波束形成器对得到的所述频域子带信号进行滤波处理,得到降噪后的所述语音信号,包括:
对得到的所述频域观测信号进行滤波处理,得到滤波信号;
利用短时傅里叶逆变换以及重叠相加或重叠保存方法对得到的所述滤波信号进行逆变换,得到降噪后的所述语音信号,其中,降噪后的所述语音信号为期望纯净信号的时域估计值。
6.一种语音信号处理装置,其特征在于,包括:
信号获取模块,用于获取传感器阵列中各个传感器采集到的带噪语音信号,所述带噪语音信号为时域信号;
计算模块,用于应用短时傅里叶变换将采集到的所述带噪语音信号由时域信号分解成频域子带信号;
滤波模块,用于通过与各个所述频域子带信号的空间维度相关的波束形成器,对得到的所述频域子带信号进行滤波处理,得到降噪后的所述语音信号。
7.根据权利要求6所述的装置,其特征在于,在所述计算模块中,所述传感器采集到的带噪语音信号表示为:
ym(k)=xm(k)+vm(k);
所述频域子带信号表示为:
Ym(ω)=Xm(ω)+Vm(ω);
其中,ym(k)表示第m个传感器采集到的带噪语音信号,xm(k)表示第m个传感器接收到的纯净语音信号,vm(k)表示第m个传感器接收到的加性噪声信号,m∈[1,2,3…M],M表示传感器阵列中传感器的数量,Ym(ω)、Xm(ω)和Vm(ω)分别表示ym(k)、xm(k)和vm(k)的短时傅里叶变换。
8.根据权利要求7所述的装置,其特征在于,所述滤波模块,包括:
构造单元,用于根据阵列结构、阵元数目、给定频率和主波束预期的指向参数,构造所述语音信号的归一化相关矩阵,并根据阵列结构、阵元数目、给定的频率和各向同性噪声场的假设,构造噪声信号的归一化相关矩阵;
计算单元,用于对所述语音信号和所述噪声信号的归一化相关矩阵进行联合对角化分解,得到基于子空间的超指向波束形成器,其中,所述超指向波束形成器与各个所述频域子带信号的空间维度相关;
处理单元,用于通过得到的所述波束形成器对得到的所述频域子带信号进行滤波处理,得到降噪后的所述语音信号。
9.根据权利要求8所述的装置,其特征在于,所述计算单元,包括:
联合对角化分解子单元,用于对语音信号的归一化相关矩阵和噪声信号的归一化相关矩阵进行联合对角化分解,得到满秩分解矩阵B(ω)=[b1(ω)b2(ω).....bM(ω)];
处理子单元,用于从所述满秩分解矩阵中,取前N个特征向量进行线性组合,得到如下公式表示波束形成器hN(ω):
hN(ω)=B1:N(ω)а1:N(ω),
其中,B1:N(ω)表示满秩分解矩阵中的前N个特征向量,a1:N(ω)表示一个长度为N的列向量;
超指向波束形成器形成子单元,用于在约束期望信号不失真的情况下极大化波束形成器的白噪声增益,得到基于子空间的超指向波束形成器hf N(ω): h f N ( ω ) = P B 1 : N ( ω ) d ( ω ) d H ( ω ) P B 1 : N ( ω ) d ( ω ) ;
其中,PB1:N(ω)=B1:N(ω)[BH 1:N(ω)B1:N(ω)]-1BH 1:N(ω)。
10.根据权利要求9所述的装置,其特征在于,所述处理单元,包括:
滤波子单元,用于对得到的所述频域观测信号进行滤波处理,得到滤波信号;
合成子单元,用于利用短时傅里叶逆变换以及重叠相加或重叠保存方法对得到的所述滤波信号进行逆变换,得到降噪后的所述语音信号,其中,降噪后的所述语音信号为期望纯净信号的时域估计值。
CN201610108588.1A 2016-02-26 2016-02-26 一种语音信号处理方法和装置 Active CN105792074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610108588.1A CN105792074B (zh) 2016-02-26 2016-02-26 一种语音信号处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610108588.1A CN105792074B (zh) 2016-02-26 2016-02-26 一种语音信号处理方法和装置

Publications (2)

Publication Number Publication Date
CN105792074A true CN105792074A (zh) 2016-07-20
CN105792074B CN105792074B (zh) 2019-02-05

Family

ID=56403077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610108588.1A Active CN105792074B (zh) 2016-02-26 2016-02-26 一种语音信号处理方法和装置

Country Status (1)

Country Link
CN (1) CN105792074B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106251877A (zh) * 2016-08-11 2016-12-21 珠海全志科技股份有限公司 语音声源方向估计方法及装置
CN108899044A (zh) * 2018-07-27 2018-11-27 苏州思必驰信息科技有限公司 语音信号处理方法及装置
CN110430316A (zh) * 2019-06-25 2019-11-08 努比亚技术有限公司 一种语音降噪方法、移动终端及计算机可读存储介质
CN110517701A (zh) * 2019-07-25 2019-11-29 华南理工大学 一种麦克风阵列语音增强方法及实现装置
CN110767247A (zh) * 2019-10-29 2020-02-07 支付宝(杭州)信息技术有限公司 语音信号处理方法、声音采集装置和电子设备
CN110956951A (zh) * 2019-12-23 2020-04-03 苏州思必驰信息科技有限公司 一种语音增强采集配件、方法、系统、设备及存储介质
CN111489760A (zh) * 2020-04-01 2020-08-04 腾讯科技(深圳)有限公司 语音信号去混响处理方法、装置、计算机设备和存储介质
CN113096682A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 基于掩码时域解码器的实时语音降噪方法和装置
CN113362848A (zh) * 2021-06-08 2021-09-07 北京小米移动软件有限公司 音频信号处理方法、装置及存储介质
CN114120965A (zh) * 2021-12-08 2022-03-01 思必驰科技股份有限公司 音频处理方法、电子设备和存储介质
CN114220450A (zh) * 2021-11-18 2022-03-22 中国航空工业集团公司沈阳飞机设计研究所 一种空基指控环境强噪音抑制方法
WO2022105571A1 (zh) * 2020-11-17 2022-05-27 深圳壹账通智能科技有限公司 语音增强方法、装置、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101778322A (zh) * 2009-12-07 2010-07-14 中国科学院自动化研究所 基于多模型和听觉特性的麦克风阵列后滤波语音增强方法
WO2011079716A1 (zh) * 2009-12-28 2011-07-07 歌尔声学股份有限公司 一种使用麦克风阵列的降噪控制方法和装置
CN104754471A (zh) * 2013-12-30 2015-07-01 华为技术有限公司 基于麦克风阵列的声场处理方法和电子设备
CN104936091A (zh) * 2015-05-14 2015-09-23 科大讯飞股份有限公司 基于圆形麦克风阵列的智能交互方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101778322A (zh) * 2009-12-07 2010-07-14 中国科学院自动化研究所 基于多模型和听觉特性的麦克风阵列后滤波语音增强方法
WO2011079716A1 (zh) * 2009-12-28 2011-07-07 歌尔声学股份有限公司 一种使用麦克风阵列的降噪控制方法和装置
CN104754471A (zh) * 2013-12-30 2015-07-01 华为技术有限公司 基于麦克风阵列的声场处理方法和电子设备
CN104936091A (zh) * 2015-05-14 2015-09-23 科大讯飞股份有限公司 基于圆形麦克风阵列的智能交互方法及系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106251877A (zh) * 2016-08-11 2016-12-21 珠海全志科技股份有限公司 语音声源方向估计方法及装置
CN106251877B (zh) * 2016-08-11 2019-09-06 珠海全志科技股份有限公司 语音声源方向估计方法及装置
CN108899044A (zh) * 2018-07-27 2018-11-27 苏州思必驰信息科技有限公司 语音信号处理方法及装置
CN110430316A (zh) * 2019-06-25 2019-11-08 努比亚技术有限公司 一种语音降噪方法、移动终端及计算机可读存储介质
CN110517701A (zh) * 2019-07-25 2019-11-29 华南理工大学 一种麦克风阵列语音增强方法及实现装置
CN110517701B (zh) * 2019-07-25 2021-09-21 华南理工大学 一种麦克风阵列语音增强方法及实现装置
CN110767247B (zh) * 2019-10-29 2021-02-19 支付宝(杭州)信息技术有限公司 语音信号处理方法、声音采集装置和电子设备
CN110767247A (zh) * 2019-10-29 2020-02-07 支付宝(杭州)信息技术有限公司 语音信号处理方法、声音采集装置和电子设备
CN110956951A (zh) * 2019-12-23 2020-04-03 苏州思必驰信息科技有限公司 一种语音增强采集配件、方法、系统、设备及存储介质
CN111489760A (zh) * 2020-04-01 2020-08-04 腾讯科技(深圳)有限公司 语音信号去混响处理方法、装置、计算机设备和存储介质
CN111489760B (zh) * 2020-04-01 2023-05-16 腾讯科技(深圳)有限公司 语音信号去混响处理方法、装置、计算机设备和存储介质
WO2022105571A1 (zh) * 2020-11-17 2022-05-27 深圳壹账通智能科技有限公司 语音增强方法、装置、设备及计算机可读存储介质
CN113096682A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 基于掩码时域解码器的实时语音降噪方法和装置
CN113096682B (zh) * 2021-03-20 2023-08-29 杭州知存智能科技有限公司 基于掩码时域解码器的实时语音降噪方法和装置
CN113362848A (zh) * 2021-06-08 2021-09-07 北京小米移动软件有限公司 音频信号处理方法、装置及存储介质
CN114220450A (zh) * 2021-11-18 2022-03-22 中国航空工业集团公司沈阳飞机设计研究所 一种空基指控环境强噪音抑制方法
CN114120965A (zh) * 2021-12-08 2022-03-01 思必驰科技股份有限公司 音频处理方法、电子设备和存储介质

Also Published As

Publication number Publication date
CN105792074B (zh) 2019-02-05

Similar Documents

Publication Publication Date Title
CN105792074A (zh) 一种语音信号处理方法和装置
CN109102822B (zh) 一种基于固定波束形成的滤波方法及装置
Kumar et al. Near-field acoustic source localization and beamforming in spherical harmonics domain
US20040175006A1 (en) Microphone array, method and apparatus for forming constant directivity beams using the same, and method and apparatus for estimating acoustic source direction using the same
CN111624553B (zh) 声源定位方法及系统、电子设备及存储介质
CN103308889A (zh) 复杂环境下被动声源二维doa估计方法
CN102147458B (zh) 一种针对宽带声源的波达方向估计方法及其装置
CN109616136A (zh) 一种自适应波束形成方法、装置及系统
CN107369460B (zh) 基于声学矢量传感器空间锐化技术的语音增强装置及方法
CN110534126B (zh) 一种基于固定波束形成的声源定位和语音增强方法及系统
CN105976822B (zh) 基于参数化超增益波束形成器的音频信号提取方法及装置
CN104166120B (zh) 一种声矢量圆阵稳健宽带mvdr方位估计方法
CN101995574A (zh) 一种近场聚焦波束形成定位法
CN104931928B (zh) 一种信号源定位方法及装置
CN113299307B (zh) 麦克风阵列信号处理方法、系统、计算机设备及存储介质
CN104766093A (zh) 一种基于麦克风阵列的声目标分类方法
CN108717495A (zh) 多波束波束成形的方法、装置及电子设备
CN104811867A (zh) 基于阵列虚拟扩展的麦克风阵列空域滤波方法
CN112951261A (zh) 声源定位方法、装置及语音设备
Kim et al. Efficient online target speech extraction using DOA-constrained independent component analysis of stereo data for robust speech recognition
CN113491137B (zh) 具有分数阶的灵活差分麦克风阵列
Tourbabin et al. Enhanced robot audition by dynamic acoustic sensing in moving humanoids
CN115866483A (zh) 一种音频信号的波束形成方法及设备
CN101645701B (zh) 一种基于滤波器组的时延估计方法及其系统
US11902755B2 (en) Linear differential directional microphone array

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant