CN101960516A

CN101960516A - 语音增强

Info

Publication number: CN101960516A
Application number: CN200880106533.0A
Authority: CN
Inventors: C·菲利普·布朗
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2007-09-12
Filing date: 2008-09-10
Publication date: 2011-01-26
Anticipated expiration: 2028-09-10
Also published as: EP2191467B1; JP2012110049A; ATE514163T1; US20100179808A1; CN101960516B; EP2191467A1; US8891778B2; JP5507596B2; WO2009035615A1; JP2010539792A

Abstract

一种用于增强语音的方法，包括：提取音频信号的中心通道；使中心通道的谱变平；以及将变平的语音通道与音频信号混合，从而增强音频信号中的任何语音。还公开了一种用于从具有多个通道的音频信号提取声音的中心通道的方法，用于使音频信号的谱变平的方法，以及用于检测音频信号中的语音的方法。还公开了一种语音增强器，包括：中心通道提取器；平谱器；语音置信度生成器；以及混合器，用于与具有所检测的语音的置信度成比例地混合变平的语音通道与原始音频信号，从而增强音频信号中的任何语音。

Description

语音增强

发明内容

这里描述了如下方法和装置：该方法和装置用于从具有多个通道的音频信号提取声音的中心通道，用于使音频信号的谱变平，用于检测音频信号中的语音，以及用于增强语音。用于从具有多个通道的音频信号提取声音的中心通道的方法可包括：将(1)该音频信号的第一通道减去候选中心通道的比例α与(2)该音频信号的第二通道的共轭减去该候选中心通道的比例α相乘；近似最小化α；以及通过将该候选中心通道乘以近似最小化的α，产生所提取的中心通道。

用于使音频信号的谱变平的方法可包括：将假定的语音通道分成感知频带；确定该感知频带中的哪个具有最大的能量；以及增加具有较少能量的感知频带的增益，从而使音频信号中的任何语音的谱变平。增加可包括将具有较少能量的感知频带的增益增加直至最大。

用于检测音频信号中的语音的方法可包括：测量音频信号的候选中心通道中的谱波动；测量减去候选中心通道的音频信号的谱波动；以及比较谱波动，从而检测音频信号中的语音。

用于增强语音的方法可包括：提取音频信号的中心通道；使中心通道的谱变平；以及将变平的语音通道与该音频信号混合，从而增强该音频信号中的任何语音。该方法还可包括生成检测中心通道中的语音的置信度，并且混合可包括与具有所检测的语音的置信度成比例地混合变平的语音通道与音频信号。置信度可从最低可能的概率到最高可能的概率变化，并且生成可包括进一步将生成的置信度限制到高于最低可能的概率并且低于最高可能的概率的值。提取可包括使用上述方法提取音频信号的中心通道。变平可包括使用上述方法使中心通道的谱变平。生成可包括使用上述方法生成检测中心通道中的语音的置信度。

提取可包括使用上述方法提取音频信号的中心通道；变平可包括使用上述方法使中心通道的谱变平；并且生成可包括使用上述方法生成检测中心通道中的语音的置信度。

这里教授了一种计算机可读存储介质以及计算机系统，其中该计算机可读存储介质中设置有用于执行任何上述方法的计算机程序，该计算机系统包括CPU、存储介质以及耦合CPU和存储介质的总线。

附图说明

图1是根据本发明的一个实施例的语音增强器的功能框图。

图2示出了具有1ERB(Equivalent Rectangular Bandwidth，等效矩形带宽)的间距从而导致共40个频带的适当滤波器集合。

图3描述了根据本发明的一个实施例的混合过程。

图4示出了根据本发明的一个实施例的计算机系统。

具体实施方式

图1是根据本发明的一个实施例的语音增强器1的功能框图。语音增强器1包括输入信号17、离散傅里叶变换器10a、10b、中心通道提取器11、平谱器12、声音活动检测器13、可变增益放大器15a、15c，反离散傅里叶变换器18a、18b以及输出信号18。输入信号17分别包括左右通道17a、17b，并且输出信号18类似地分别包括左右通道18a、18b。

相应的离散傅里叶变换器18接收输入信号17的左右通道17a、17b作为输入，并且产生变换19a、19b作为输出。中心频道提取器11接收变换19并且产生假想中心通道C 20作为输出。平谱器12接收假想中心通道C 20作为输入，并且产生整形的中心通道24作为输出，同时声音活动检测器13接收同一输入C 20，并且一方面产生用于可变增益放大器14a和14c的控制信号22以及另一方面产生用于可变增益放大器14b的控制信号21作为输出。

放大器14a分别接收左通道变换19a和声音活动检测器13的输出控制信号22作为输入和控制信号。同样，放大器14c分别接收右通道变换19b和声音活动检测器输出控制信号22作为输入和控制信号。放大器14b接收平谱器12的经谱整形的中心通道24和输出声音活动检测器控制信号21作为输入和控制信号。

混合器15a接收从放大器14输出的、经增益调整的左变换23a以及经增益调整的、经谱整形的中心通道25，并且产生信号26a作为输出。类似地，混合器15b接收来自放大器14c的、经增益调整的右变换23b以及经增益调整的、经谱整形的中心通道25，并且产生信号26b作为输出。

反变换器18a、18b接收相应的信号26a、26b，并且产生相应推出的左右通道信号L′18a、R′18b。

以下更详细地描述语音增强器1的操作。依次(首先大致概括，然后更详细地)描述根据一个实施例的中心通道提取、平谱、声音活动检测以及混合的过程。

中心通道提取

假设如下：

(1)感兴趣的信号17包含语音。

(2)在多通道信号(即，左和右，或者立体声)的情况下，该语音是中心平坦的(center panned)。

(3)真正平坦的中心包括源左和右信号的比例α。。

(4)减去该比例的结果是一对正交信号

根据这些假设进行操作，中心通道提取器11从立体声信号17提取中心平坦的内容C 20。对于中心平坦的内容，左右通道二者的相同区域包含该中心平坦的内容。通过从左右通道二者移除相同的部分来提取该中心平坦的内容。

可针对剩余左右信号(在多块的帧上或者使用随着新块输入连续地更新的方法)计算LR＊＝0(其中＊表示共轭)，并且调整比例α直至该量足够接近零。

平谱

听觉滤波器将假定的语音通道中的语音分成感知频带。确定每个数据块具有最大能量的频带。然后改变该块的语音通道的谱形状，以补偿剩余频带中较低的能量。使谱变平：具有较低能量的频带使其增益增加直至某个最大值。在一个实施例中，所有频带可共享最大增益。在替选实施例中，每个频带可具有其自己的最大增益。(在所有频带具有相同能量的退化情况下，则谱已经是平的。可认为谱整形没有发生，或者可认为用相同功能实现了谱整形。)

平谱发生而与通道内容无关。可处理非语音，但是稍后在系统中不使用该非语音。与语音相比，非语音具有非常不同的谱，因此针对非语音的变平一般与针对语音的不同。

声音活动检测器

一旦假设的语音被隔离到单个通道，则针对语音内容对该语音进行分析。它包含语音吗？内容独立于平谱而被分析。语音内容通过测量相邻的数据帧中的谱波动而被确定。(每帧可包括许多数据块，但是在48kHZ采样速率，帧通常是两个、四个或者八个块。)

在从立体声提取语音通道的情况下，剩余的立体声信号可帮助语音分析。该概念更普遍地应用于任何多通道源中的相邻通道。

混合

当认为存在语音时，将变平的语音通道以某一比例与原始信号混合，该比例与语音通道实际包含语音的置信度有关。一般而言，当置信度高时，使用较多变平的语音通道。当置信度低时，使用较少变平的语音通道。

依次更详细地描述根据一个实施例的中心通道提取、平谱、声音活动检测以及混合的过程。

从2通道源提取假想中心和周围通道

使用语音增强，期望仅对中心平坦的音频进行提取、处理以及再插入。在立体声混合中，语音通常是中心平坦的。

现在描述从2通道混合中提取中心平坦的音频(假想中心通道)。数学证明构成第一部分。第二部分将该证明应用于真实的立体声信号，以推出假想中心。

当从原始立体声减去假想中心时，剩下具有正交通道的立体声信号。类似的方法从周围平坦的音频推出假想周围通道。

中心通道提取-数学证明

给定某一两通道信号，可将通道分成左(L)和右(R)。左右通道均包含独有的信息以及公共的信息。可将公共的信息表示为C(中心平坦的)，并且将独有的信息分别表示为L和R(仅左和仅右)。

L＝L+C

R＝R+C (1)

“独有”意味着L和R彼此正交：

LR*＝0 (2)

如果将L和R分为实部和虚部，则

L_rR_r+L_iR_i＝0 (3)

其中L_r是L的实部，L_i是L的虚部，并且对于R类似。

现在假设通过从L和R减去中心平坦的C而从非正交对(L和R)产生正交对(L和R)。

L＝L-C (4)

R＝R-C (5)

现在令C＝αC，其中C是假设的中心频道，并且α是比例因子：

L＝L-αC (6)

R＝R-αC (7)

将方程(6)和(7)代入方程(3)：

L_rR_r+L_iR_i＝(L_r-αC_r)(R_r-αC_r)+(L_i-αC_i)(R_i-αC_i)

＝L_rR_r-αC_r(L_r+R_r)+α²C_r ²+L_iR_i-αC_i(L_i+R_i)+α²C_i ²

＝α²[C_r ²+C_i ²]+α[-C_r(L_r+R_r)-C_i(L_i+R_i)]+[L_rR_r+L_iR_i]

＝0

(8)

方程(8)是二次方程形式：

α²X+αY+Z＝0 (9)

其中通过以下得到根：

α = \frac{- Y &PlusMinus; \sqrt{Y^{2} - 4 XZ}}{2 X} - - - (10)

现在令方程(6)和(7)中假设的C如下：

C＝L+R (11)

分为实部和虚部：

C_r＝L_r+R_r (12)

C_i＝L_i+R_i (13)

然后在二次方程(9)中：

X＝C_r ²+C_i ²＝(L_r+R_r)²+(L_i+R_i)² (14)

Y＝-C_r(L_r+R_r)-C_i(L_i+R_i)＝-(L_r+R_r)²-(L_i+R_i)²＝-X (15)

Z＝L_rR_r+L_iR_i (16)

将方程(14)、(15)和(16)代入方程(10)，并且解出α：

α = \frac{- Y &PlusMinus; \sqrt{Y^{2} - 4 XZ}}{2 X} = \frac{X &PlusMinus; \sqrt{X^{2} - 4 XZ}}{2 X} = \frac{1 &PlusMinus; \sqrt{1 - 4 \frac{Z}{X}}}{2}

= \frac{1 &PlusMinus; \sqrt{1 - 4 - \frac{L_{r} R_{r} + L_{i} R_{i}}{{(L_{r} + R_{r})}^{2} + {(L_{i} + R_{i})}^{2}}}}{2} = \frac{1}{2} \times [1 &PlusMinus; \sqrt{\frac{{(L_{r} - R_{r})}^{2} + {(L_{i} - R_{i})}^{2}}{{(L_{r} + R_{r})}^{2} + {(L_{i} + R_{i})}^{2}}}] - - - (17)

选择α的解的负根，并且将α限制到{0，0.5}的范围，避免与周围平坦的信息混淆(尽管该值对本发明不是关键的)。假想中心通道方程然后变为：

C = αC = α (L + R)

= α [(L_{r} + R_{r}) + \sqrt{- 1} (L_{i} + R_{i})] - - - (18)

其中

α = \min {\max {0, \frac{1}{2} \times [1 - \sqrt{\frac{{(L_{r} - R_{r})}^{2} + {(L_{i} - R_{i})}^{2}}{{(L_{r} + R_{r})}^{2} + {(L_{i} + R_{i})}^{2}}}]}, 0.5} - - - (19)

(min{}和max{}函数将α限制到{0，0.5}的范围，尽管该值对本发明不是关键的。)

可以类似地推出假想周围通道为：

S = βS = β (L - R)

= β [(L_{r} - R_{r}) + \sqrt{- 1} (L_{i} - R_{i})] - - - (20)

β = \min {\max {0, \frac{1}{2} \times [1 - \sqrt{\frac{{(L_{r} + R_{r})}^{2} + {(L_{i} + R_{i})}^{2}}{{(L_{r} - R_{r})}^{2} + {(L_{i} - R_{i})}^{2}}}]}, 0.5} - - - (21)

其中S是原始立体声对(L，R)中的周围平坦的音频，并且S被假设为(L-R)。再次，选择β的解的负根，并且将β限制到{0，0.5}的范围，避免与中心平坦的信息混淆(尽管该值对本发明不是关键的)。

现在推出了C和S，它们可以从原始立体声对(L和R)中被移除，以从原始的两个通道得到四个通道。

L′＝L-C-S (22)

R′＝R-C+S (23)

其中L′是推出的左，C是推出的中心，R′是推出的右，并且S是推出的周围通道。

中心通道提取-应用

如上所声明的那样，对于语音增强方法，主要关注是中心频道的提取。在该部分中，将上述技术应用于音频信号的复杂频域表示。

假想中心频道提取中的第一步骤是在音频样本块上进行DFT，并获得所得到的变换系数。DFT的块大小取决于采样速率。例如，在48kHZ的采样速率，具有N＝512个样本的块大小将是可接受的。开窗函数w[n](诸如汉明窗)对变换应用之前的样本块进行加权：

w [n] = 0.5 (1 - \cos (\frac{2 πn}{N - 1}))

0≤n＜N (24)

其中n是整数，并且N是块中的样本数。

方程(25)计算DFT系数为：

X_{m} [k, c] = Σ_{n = 0}^{N - 1} x [mN + n, c] w [n] e^{\frac{- j 2 πkn}{N}}, \begin{matrix} 0 \leq k < N \\ 1 \leq c \leq 3 \end{matrix} - - - (25)

其中x[n，c]是块m的通道c中的样本数n，j是虚数单位(j²＝-1)，并且X_m[k，c]是针对块m中的样本的通道c中的变换系数k。注意通道数是三：左、右、和假想中心(在x[n，c]的情况下，仅左和右)。在以下方程中，左通道被指定为c＝1，假想中心为c＝2(还未推出)，并且右通道为c＝3。另外，快速傅里叶变换(FFT)可以高效地实现DFT。

逐频谱单元(frequency bin)地得到左和右的和与差。对实部和虚部进行分组和平方。然后在计算α之前在块之间对每个频谱单元进行平滑。平滑减少了在频谱单元中的功率在数据块之间改变过快时出现的听觉赝像。平滑可通过例如漏积分器(leaky integrator)、非线性平滑器、线性但多极低通平滑器或者更精细的平滑器来完成。

B_m(k)d_iff＝(Re{X_m[k，1]}-Re{X_m[k，3]})²+(Im{X_m[k，1]}-Im{X_m[k，3]})²(26a)

B_m(k)_sum＝(Re{X_m[k，1]}+Re{X_m[k，3]})²+(Im{X_m[k，1]}+Im{X_m[k，3]})²(26b)

B_temp＝λ₁B_m-1(k)_diff+(1-λ₁)B_m(k)_diff

B_m(k)_diff＝B_temp 0＜＜λ₁＜1 (26c)

B_temp＝λ₁B_m-1(k)_sum+(1-λ₁)B_m(k)_sum

B_m(k)_diff＝B_temp 0＜＜λ₁＜1 (26d)

其中Re{}是实部，Im{}是虚部，并且λ₁是漏积分器系数。漏积分器具有低通滤波效果，并且λ₁的典型值是0.9。然后使用方程(19)推出块m的提取系数α：

α_{m} (k) = \min {\max {0, \frac{1}{2} \times [1 - \sqrt{\frac{E_{m} {(k)}_{diff}}{E_{m} {(k)}_{sum}}}]}, 0.5} - - - (27)

然后使用方程(18)推出块m的假象中心通道：

X_m[k，2]＝α_m(k)(X_m[k，1]+X_m[k，3]) (28)

平谱

随后是本发明的平谱的实施例的描述。假设主要是语音的单个通道，通过离散傅里叶变换(DFT)或者相关变换将语音信号变换到频域。然后通过对变换频谱单元进行平方将幅值谱变换为功率谱。

然后可能在临界的或者听觉滤波器的标度上将频谱单元分组成频带。将语音信号划分为临界频带模仿人类听觉系统(特别是耳蜗)。这些滤波器呈现了近似圆形指数形状，并且在等效矩形带宽(ERB)标度上均匀地被隔开。ERB标度仅是在心理声学中使用的测量，其近似听觉滤波器的带宽和间距。图2示出了具有1ERB的间距从而导致共40个频带的适当滤波器集合。将音频数据分段还有助于消除在每个频谱单元基础上工作时可能发生的听觉赝像。然后，相对于时间对临界频带的功率进行平滑，也就是说，跨越相邻的块进行平滑。

得到经平滑的临界频带中的最大功率，并且针对剩余(非最大)频带计算相应的增益，以使得它们的功率更接近最大功率。增益补偿类似于基膜(basilar membrane)的压缩(非线性)特性。这些增益被限制到最大值以避免饱和。为了将这些增益施加于原始信号，它们必须被变换回到DFT格式。因此，每个频带的功率增益首先被变换回到频谱单元功率增益，然后每个频谱单元的功率增益通过取每个频谱单元的平方根而被转换为幅值增益。原始信号变换频谱单元然后可以乘以算出的每个频谱单元的幅值增益。经谱变平的信号然后被从频域变换回到时域。在假想中心的情况下，其在被返回到时域之前首先与原始信号混合。图3描述了该过程。

上述平谱系统没有考虑输入信号的特性。如果非语音信号被变平，则音质中感知的变化会很严重。为了避免非语音信号的处理，上述方法可以与声音活动检测器13耦合。当声音活动检测器13指示存在语音时，使用变平的语音。

假设已经如上所述地将要变平的信号转换到频域。为了简单起见，省略了以上使用的通道标记。DFT系数被转换为功率，并且然后从DFT域转换到临界频带。

C_{m} [p] = Σ_{k = 0}^{N - 1} H [k, p] {| X_{m} [k] |}^{2}

(29)

0≤p＜P

其中H[k，p]是P个临界带通滤波器。

然后在块之间对每个频带中的功率进行平滑，类似于发生在大脑皮层的时间积分。平滑可通过例如漏积分器、非线性平滑器、线性但多极低通平滑器或者更精细的平滑器来完成。这种平滑还有助于消除可能引起增益在块之间波动过快从而引起可听见的泵送(pumping)的瞬时行为。然后得到峰值功率。

E_m[p]＝λ₂E_m-1[p]+(1-λ₂)C_m[p] 0＜＜λ₂＜1 (30a)

E_{\max} = \max_{p} {E_{m} [p]} - - - (30 b)

其中E_m[p]是平滑的、临界频带的功率，λ₂是漏积分器系数，并且E_max是峰值功率。漏积分器有低通滤波的效果，另外，λ₂的典型值是0.9。

接下来得到每个频带的功率增益，其中限制了最大增益以避免过补偿：

G_{m} [p] = \min {{(\frac{E_{\max}}{E [p]})}^{γ}, G_{\max}} - - - (31 a)

0＜γ＜1 (31b)

其中G_m[p]是要施加于每个频带的功率增益，G_max是允许的最大功率增益，并且γ确定谱的平整(leveling)度。实际上，γ接近一。如果指定了执行处理的系统以及对增益量的任何其它全局限制，则G_max取决于动态范围(或者净空(headroom))。G_max的典型值是20dB。

每个频带的功率增益接下来被转换为每个频谱单元的功率，并且取平方根来获得每个频谱单元的幅值增益：

Y_{m} [k] = Σ_{p = 0}^{P - 1} {[G_{m} [p] H [k, p]]}^{1 / 2}

(32)

0≤k＜K

其中Y_m[k]是每个频谱单元的幅值增益。

接下来基于声音活动检测器输出21、22修改幅值增益。接下来描述根据本发明的一个实施例的声音活动检测的方法。

声音活动检测

谱通量测量信号的功率谱改变的速度，比较相邻的音频帧之间的功率谱。(帧是多个音频数据块。)谱通量指示音频分类中的声音活动检测或者语音/非语音确定。通常，使用额外的指示器，并且集中(pool)结果来判决音频是否确实是语音。

一般而言，语音的谱通量稍微高于音乐的谱通量，也就是说，与语音谱相比，音乐谱在帧之间倾向于更稳定。

在立体声的情况下，当提取了假想中心通道时，DFT系数首先被分为中心和侧边音频(原始立体声减去假想中心)。这与传统的中间/侧边(mid/side)立体声处理的不同之处在于中间/侧边处理通常是(L+R)/2、(L-R)/2；而中心/侧边处理是C、L+R-2C。

信号如上所述地被转换到频域，DFT系数被转换为功率并且然后从DFT域被转换到临界频带域。然后使用临界频带功率计算中心和侧边二者的谱通量：

{\tilde{X}}_{m} [p] = Σ_{k = 0}^{N - 1} {[H [k, p] {| X_{m} [k, 2] |}^{2}]}^{1 / 2}

(33a)

0≤p＜P

{\tilde{S}}_{m} [p] = Σ_{k = 0}^{N - 1} {[H [k, p] {| X_{m} [k, 1] + X_{m} [k, 3] - 2 X_{m} [k, 2] |}^{2}]}^{1 / 2} - - - (33 b)

0≤p＜P

其中是假想中心的临界频带型式，是剩余信号(左右之和减去中心)的临界频带型式，并且H[k，p]是如之前所述的P个临界带通滤波器。

根据之前的2J个数据块产生两个帧缓冲器(用于中心和侧边的幅值)：

{\overset{&OverBar;}{X}}_{new} (m, p) = \frac{1}{J} Σ_{l = m}^{m - J} {\tilde{X}}_{l} [p] - - - (34 a)

{\overset{&OverBar;}{X}}_{old} (m, p) = \frac{1}{J} Σ_{l = m - J - 1}^{m - 2 J} {\tilde{X}}_{l} [p] - - - (34 b)

{\overset{&OverBar;}{S}}_{new} (m, p) = \frac{1}{J} Σ_{l = m}^{m - J} {\tilde{S}}_{l} [p] - - - (34 c)

{\overset{&OverBar;}{S}}_{old} (m, p) = \frac{1}{J} Σ_{l = m - J - 1}^{m - 2 J} {\tilde{S}}_{l} [p] - - - (34 d)

下一步骤根据当前和之前的帧的平均功率计算中心通道的权重W。这是在限定的频带范围上完成的：

W (m) = Σ_{p = P_{start}}^{P_{end}} \frac{{| {\overset{&OverBar;}{X}}_{new} (m, p) |}^{2} + {| {\overset{&OverBar;}{X}}_{old} (m, p) |}^{2}}{P_{end} - P_{start}}, 1 \leq P_{start} < P_{end} \leq P - - - (35)

频带的范围限于语音的主要带宽(近似100-8000Hz)。然后计算中心和侧边二者的未加权的谱通量：

F_{X} (m) = Σ_{p = P_{start}}^{P_{end}} {| {\overset{&OverBar;}{X}}_{new} (m, p) - {\overset{&OverBar;}{X}}_{old} (m, p) |}^{2} - - - (36 a)

F_{S} (m) = Σ_{p = P_{start}}^{P_{end}} {| {\overset{&OverBar;}{S}}_{new} (m, p) - {\overset{&OverBar;}{S}}_{old} (m, p) |}^{2} - - - (36 b)

其中F_x(m)是中心的未加权的谱通量，并且F_s(m)是侧边的未加权的谱通量。

然后如下计算谱通量的偏置估计：

如果

并且W(m)＞W_min (37a)

F_{Tot} (m) = \frac{F_{X} (m) - F_{S} (m)}{2 L \times W (m)} - - - (37 b)

否则，

F_Tot(m)＝0 (37c)

其中F_Tot(m)是总通量估计，并且W_min是允许的最小权重。W_min取决于动态范围，但是典型值将是W_min＝-60dB。

通过用简单1阶IIR(Infinite Impulse Response，无限脉冲响应)低通滤波器对F_Tot(m)的值进行低通滤波，计算谱通量的最终的、经平滑的值。该滤波器取决于信号的采样速率和块大小，但是在一个实施例中，对于fs＝48kHz，可以通过具有0.025＊fs的标准化截止的一阶低通滤波器来定义，其中fs是数字系统的采样速率。

F_Tot(m)然后被夹在0≤F_Tot(m)≤1的范围：

F_Tot(m)＝min{max{0.0，F_Tot(m)}，1.0} (38)

(根据该实施例，min{}和max{}函数将F_Tot(m)限制到{0，1}的范围。)

混合

基于声音活动检测器的输出，将变平的中心通道与原始音频信号混合。

将用于平谱的每个频谱单元的幅值增益Y_m[k](如上所示)施加于假想中心通道X_m[k，2](如上所推出的那样)：

X_temp＝Y_m[k]X_m[k，2]

X_m[k，2]＝X_temp (39)

当声音活动检测器13检测到语音时，令F_Tot(t)＝1；当其检测到非语音时，令F_Tot(m)＝0。0和1之间的值是可能的，在该情况下声音活动检测器13对语音的存在做出软判决。

对于左通道，

X_temp＝(1-F_Tot(m))X_m[k，1]+F_Tot(m)X_m[k，2]

X_m[k，1]＝X_temp

0≤F_Tot(m)≤1 (40a)

类似地，对于右通道，

X_temp＝(1-F_Tot(m))X_m[k，3]+F_Tot(m)X_m[k，2]

X_m[k，3]＝X_temp

0≤F_Tot(m)≤1 (40b)

实际上，F_Tot可被限于更窄的值范围。例如，0.1≤F_Tot(m)≤0.9保留了最终混合中变平的信号和原始信号两者中的小量。

然后将每个频谱单元的幅值增益施加于原始输入信号，该原始输入信号然后经由反DFT而被转换回到时域：

\hat{x} [mN + n, c] = \frac{1}{N} Σ_{k = 0}^{N - 1} X_{m} [k, c] e^{\frac{j 2 πkn}{N}}

0≤n＜N

c＝1，3 (41)

其中

是原始立体声输入信号x的增强型式。

图4示出了根据本发明的一个实施例的计算机4。计算机4包括存储器41、CPU 42以及总线43。总线43通信地耦合存储器41和CPU 42。存储器41存储用于执行任何上述方法的计算机程序。

已经描述了本发明的多个实施例。然而，本领域的普通技术人员应理解，如何不同地修改所述实施例而不背离本发明的精神和范围。例如，尽管描述中包括离散傅里叶变换，但是本领域的普通技术人员应理解，从时域变换到频域的各种可替选方法，反之亦然。

现有技术

Schaub，A.和P.Straub，P.，“Spectral sharpening for speech enhancementnoise reduction”，Proc.ICASSP 1991，多伦多，加拿大，1991年5月，第993-996页。

Sondhi，M.，“New methods of pitch extraction，Audio andElectroacoustics”，IEEE Transactions，1968年6月，第16卷，第2期，第262-266页。

Villchur，E.，“Signal Processing to Improve Speech Intelligibility for theHearing Imparied”，第99次Audio Engineering Society Convention，1995年9月。

Thomas，I.和Niederjohn，R.，“Preprocessing of Speech for AddedIntelligibility in High Ambient Noise”，第34次Audio Engineering SocietyConvention，1968年3月。

Moore，B.等人，“A Model for the Prediction of Thresholds，Loudness，andPartial Loudness”，J.Audio Eng.Soc.，第45卷，第4章，1997年4月。Moore，B.和Oxenham，A.，“Psychoacoustic consequences of compression inthe peripheral auditory system”，The Journal of the Acoustical Society ofAmerica，2002年12月，第112卷，第6期，第2962-2966页。

现有技术-平谱

美国专利

US 6732073 B1 Spectral enhancement of acoustic signals to provideimproved recognition of speech

US 06993480 B1 Voice intelligibility enhancement system

US 2006/0206320 A1 Apparatus and method for noise reduction and

speech enhancement with microphones and loudspeakers

US 07191122 Speech compression system and method

US 2007/0094017 Frequency domain format enhancement

国际专利

WO 2004/013840 A1 Digital Signal Processing Techniques For ImprovingAudio Clarity And Intelligibility

WO 2003/015082 Sound Intelligibility Enhancement Using APsychoacoustic Model And An Oversampled Filterbank

论文

Sallberg，B.等人；“Analog Circuit Implementation for SpeechEnhancement Purposes Signals”；Systems and Computers，2004。

Conference Record of the Thirty-Eighth Asilomar Conference。

Magotra，N.和Sirivara，S.；“Real-time digital speech processing strategiesfor the hearing impaired”；Acoustics，Speech，and Signal Processing，1997.ICASSP-97.，1997，第1211-1214页，第2卷。

Walker，G.，Byrne，D.和Dillon，H.；“The effects of multichannelcompression/expansion amplification on the intelligibility of nonsensesyllables in noise”；The Journal of the Acoustical Society of America，1984年9月，第76卷，第3期，第746-757页。

现有技术-中心提取

AdobeAudition具有声音/乐器提取功能

http://www.adobeforums.com/cig-bin/webx/.3bc3a3e5

Winamp的“center cut”

http://www.hydrogenaudio.org/forums/lofiversion/index.php/t17450.html

现有技术-谱通量

Vinton，M.和Robinson C；“Automated Speech/Other Discrimination forLoudness Monitoring”，第118次AES Convention，2005。

Scheirer E.和Slaney M.，“Construction and evaluation of a robustmultifeature speech/music discriminator”，IEEE Transactions onAcoustics，Speech，and Signal Processing(ICASSP′97)，1997，第1331-1334页。

Claims

1.一种用于从具有多个通道的音频信号提取声音的中心通道的方法，所述方法包括：

将(1)所述音频信号的第一通道减去候选中心通道的比例α与(2)所述音频信号的第二通道的共轭减去所述候选中心通道的所述比例α相乘；

近似最小化α；以及

通过将所述候选中心通道乘以近似最小化的α，产生所提取的中心通道。

2.一种用于使音频信号的谱变平的方法，所述方法包括：

将假定的语音通道分成感知频带；

确定所述感知频带中的哪个具有最大的能量；以及

增加具有较少能量的感知频带的增益，从而使所述音频信号中的任何语音的谱变平。

3.如权利要求2所述的方法，其中所述增加包括：

将具有较少能量的感知频带的增益增加，直到最大。

4.一种用于检测音频信号中的语音的方法，所述方法包括：

测量所述音频信号的候选中心通道中的谱波动；

测量所述音频信号减去所述候选中心通道的谱波动；以及

比较所述谱波动，从而检测所述音频信号中的语音。

5.一种用于增强语音的方法，所述方法包括：

提取音频信号的中心通道；

使所述中心通道的谱变平；以及

将变平的语音通道与所述音频信号混合，从而增强所述音频信号中的任何语音。

6.如权利要求5所述的方法，还包括：

生成检测所述中心通道中的语音的置信度；并且其中所述混合包括

与具有所检测的语音的置信度成比例地混合所述变平的语音通道与所述音频信号。

7.如权利要求6所述的方法，其中：

所述置信度从最低可能的概率到最高可能的概率变化，并且

所述生成包括

进一步将生成的置信度限制到高于所述最低可能的概率并且低于所述最高可能的概率的值。

8.如权利要求5所述的方法，其中所述提取包括：

使用权利要求1所述的方法，提取音频信号的中心通道。

9.如权利要求5所述的方法，其中所述变平包括：

使用权利要求2所述的方法，使所述中心通道的谱变平。

10.如权利要求5所述的方法，其中所述生成包括：

使用权利要求3所述的方法，生成检测所述中心通道中的语音的置信度。

11.如权利要求5所述的方法，其中所述提取包括：

使用权利要求1所述的方法，提取音频信号的中心通道；其中所述变平包括：

使用权利要求2所述的方法，使所述中心通道的谱变平；以及

其中所述生成包括：

12.一种计算机可读存储介质，其中设置了用于执行权利要求1-11中任一权利要求所述的方法的计算机程序。

13.一种计算机系统，包括：

CPU；

权利要求12所述的存储介质；以及

耦合所述CPU和所述存储介质的总线。

14.一种语音增强器，包括：

中心通道提取器，用于提取音频信号的中心通道；

平谱器，用于使所述中心通道的谱变平；

语音置信度生成器，用于生成检测所述中心通道中的语音的置信度；以及

混合器，用于与具有所检测的语音的置信度成比例地混合变平的语音通道与原始音频信号，从而增强所述音频信号中的任何语音。