CN103903632A

CN103903632A - 一种多声源环境下的基于听觉中枢系统的语音分离方法

Info

Publication number: CN103903632A
Application number: CN201410130892.7A
Authority: CN
Inventors: 罗元; 张毅; 胡章芳; 童开国; 徐晓东
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2014-04-02
Filing date: 2014-04-02
Publication date: 2014-07-02

Abstract

本发明请求保护一种多声源环境下基于听觉中枢系统的语音分离方法，涉及到数字信号处理领域。本发明解决了绝大多数的语音识别方法都只能在低噪声和单声源的环境下使用的局限性，为了能够在多声源的噪声环境下进行语音识别需要首先实现语音分离，本发明基于听觉中枢系统的语音分离方法，外周听见模型完成对语音信号的多频谱分析，重合神经元包括通用突触模型和通用细胞模型，完成对ITD和ILD的信息整合，并且在脑下丘细胞模型中完成语音的分离，实验表明该方法具有较好的鲁棒性。

Description

一种多声源环境下的基于听觉中枢系统的语音分离方法

技术领域

本发明属于人工智能领域，具体涉及多声源环境下基于听觉中枢系统的语音分离方法。

背景技术

当前，多声源环境下语音分离的技术大概有以下三种：计算听觉场景分析、独立变量分析以及基于听觉中枢系统的语音分离。

独立分量分析的实现要先对语音信号的混合方式以及统计特征进行一种理性化的设想：时域情况下混合的语音信号必须满足标准对齐，初始语音信号必须满足统计相互独立并且最多有且只有一个是高斯信号，多个混合的语音信号必须比初始的语音信号数目要多，显然在现实环境中上述要求很难全部符合。

由于独立分量分析出现假设这些问题难以满足，因此发展了能够不会受到这些限制的计算听觉场景分析的语音信号分离技术。该方法将语音分离过程归纳为将语音信号分量进行规则性的组织：把混合语音流中出自同一个声源的语音信号分量组织到同一语音分流中。这种方法主要是利用谐波的计算听觉场景分析系统能够获得良好的语音分离结果，然而在进行特征提取与线索组织的阶段很复杂，在计算机处理时难以实现。本发明利用人耳听觉特性实现在多声源环境下的语音分离，具有很强的实际意义。

在过去的二十五年，对听觉中枢系统的结构和功能的研究已经有了长足的进步，研究表明脑下丘在听觉信息的感知过程中起到了非常关键的作用。脑下丘是来自背侧耳蜗核的纵向听觉分离信息与来自上橄榄核的横向听觉定位信息最先整合的部位，在声音从外耳向上传递到大脑的过程中，脑下丘是最主要的处理站，它被看作是从不同的脑干区域中提取声音分离特征的一个枢纽。在这里，把从语音信号中提取出来的包括双耳时间差以及双耳水平差在内的各个特征信息都加以整合处理。

经过生物学家研究表明，在脑下丘中存在的代表不同声音频谱的神经细胞排列：有些细胞对应低频段的窄波段，有些细胞对应高频段的宽波段，而还有些细胞只响应频谱凹槽，进而用于在垂直平面上声音分离。

脑下丘的神经组织中的一个特别重要的特点是在物理上使用多层解剖结构对声音信号依照频率进行分解，每一层的神经细胞只对特定的频率分量进行响应，这种解剖特征被称之为频率解剖特征。这种特征使得多频段声音输入在脑下丘中进行了空间隔离。此外，脑下丘还针对声源的位置用不同的神经细胞代表不同的声源。这样，来自同一声源或者具有同样频率特征的声音就很容易被重新组合和提取出来。嘈杂的多声源环境下，有意义的语音信号就被分离提取出来重新生成信号流。

脑下丘在语音分离中有着非常关键的作用，如图1所示，脑下丘会控制内耳神经的听觉纤毛响应阈值，低频段（<1.5kHz）的语音信号（在这个频段范围内双耳时间差（ITD）对语音分离更有效率）会经过内侧上橄榄（Medial superiorolive,MSO）的中区传递给脑下丘；高频段（>1.5kHz）的语音信号（在这个频段范围内双耳水平差（ILD）对语音分离更有效率）则可以同时经过内侧上橄榄（MSO）和外侧上橄榄（Lateral superior olive,LSO）的中区传递给脑下丘，最后不同区域的信号分别输入脑下丘。

综上所述，脑下丘对多声源的噪声输入能够有效地进行声音特征提取和分离，如果能够建立一个以脑下丘为核心的听觉中枢系统模型，就能实现在多声源环境下基于听觉中枢系统的语音分离问题。

基于以上的研究结果，本发明首先建立了外周听觉模型实现对语音信号进行多频谱分析，接着建立重合神经元模型提取语音信号的特征，最后对脑下丘中的起始神经细胞(Onset Cell)进行建模并且完成语音的分离。这种神经细胞通过对不同声源的不同位置加以区别，并且通过重合神经元模型提取语音信号的特征，来实现同一声源被重新组合和提取出来，实现语音分离。

发明内容

针对以上现有技术中的不足，本发明的目的在于提供一种实现了在多声源环境下基于听觉中枢系统的语音分离问题，提高了分离的精度，扩大了语音分离的范围的语音分离方法。本发明的技术方案如下：一种多声源环境下的基于听觉中枢系统的语音分离方法，其包括以下步骤：

101、在Matlab平台上建立一个模拟听觉中枢系统的语音分离模型，其中所述语音分离模型包括听觉外周模型和语音提取模型，所述听觉外周模型用于根据N路语音信号的频率进行区分成低频段信号、高频段信号，所述语音提取模型用于对低频段信号、高频段信号的特征参数信息进行提取；所述语音提取模型包括同侧的内侧上橄榄模型MSO、同侧的外侧上橄榄模型LSOi、异侧的外侧上橄榄模型LSOc，然后低频段信号传输给同侧的内侧上橄榄模型MSO，将高频段信号分别传输给MSO、LSOi和LSOc，所述听觉外周模型对语音信号进行预加重、加窗以及分帧预处理，获得各个语音信号语音帧上的时域信号x(n)；

102、将步骤101得到的时域信号x(n)通过离散的Fourier变换获得对应的线性频谱

其中：e是自然对数的底数，j是虚数单位。n表示语音信号的个数，N表示离散傅里叶变换的次数。0≤n,k≤N-1，并将线性频谱

利用Gammatone滤波器组获取Mel频谱；

103、将步骤102获得的Mel频谱求对数能量获得对数频谱

其中：0≤m<M,H_m(k)表示在语音信号频谱范围内布置的带通滤波器组，并采用离散余弦变换得到Gammatone系数c(n)，所述Gammatone系数c(n)加上差分倒谱参数为语音信号的特征参数V；

104、建立重合神经元模型，所述重合神经元模型用于对语音信号的双耳时间差ITD和双耳水平差ILD进行空间定位，所述重合神经元模型包括通用突触模型和细胞体模型，所述通用突触模型包括内毛细胞中神经递质的数量q(t)、渗透率k(t)，裂隙中神经递质的数量c(t)，再生库中神经递质的数量w(t)以及神经发放的概率p(t);所述细胞体模型采用LIF模型，然后将步骤103中的特征参数V输入重合神经元模型完成语音信号的双耳时间差ITD和双耳水平差ILD信息的加权映射；

105、建立听觉外周反演模型，所述听觉外周反演模型用于对语音信号进行分离；将步骤104中得到的语音信号的双耳时间差ITD和双耳水平差ILD信息的加权映射信息传输给听觉外周反演模型的脑下丘Onset神经细胞模型完成语音信号的分离。

进一步的，步骤102中的Gammatone滤波器的函数表达式为

式中，n表示滤波器的阶数，根据滤波特性选取n=4；θ代表Gammatone滤波器的起始相位；当t<0时，u(t)=0,当t>0时，u(t)=1；b=b₁.ERB(f₀)，ERB(f₀)代表Gammatone滤波器的等效矩阵带宽，并且它和Gammatone滤波器中心频率f₀关系：ERB(f₀)=2.47+0.108f₀。

进一步的，步骤103中的差分倒谱参数为

n表示初始语音信号的个数，c与d是某帧语音信号的参数，c与d是某帧语音信号的参数，k是常数2。

进一步的，步骤104中的LIF模型包括一个电阻R以及一个与之并联的被外来电流I(t)驱动的电容C，驱动电流由两部分组成，I(t)=I_C+I_R。

本发明的优点及有益效果如下：

本发明利用提出的方法在Matlab平台上进行仿真设计和验证。结果表明在两个声源以及两个声源另加一个噪声的情况下，分离后的目标语音信号和原始的语音信号的平均相似度可以达到0.97以上，实现了在多声源环境下基于听觉中枢系统的语音分离问题，提高了分离的精度，扩大了语音分离的范围，能够实现在多声源和高噪声的环境下实现语音识别，并且采用本文所提的方法可以提高语音目标语音信号的信噪比。综上可得，本文提出的利用听觉中枢系统的模型对于多声源环境下的语音分离具有很高的鲁棒性。

附图说明

图1为MSO和LSO对语音信号的频谱分析；

图2是多声源环境下基于听觉中枢系统的语音分离模型结构图；

图3是特征频率f和基底膜位置响应x的关系曲线；

图4是Gammatone函数在相异的中心频率的时域波形；

图5是Gammatone滤波器频域波形；

图6是内毛细胞的通用突触模型结构图；

图7是LIF模型的结构示意图；

图8是脑下丘的Onset细胞模型。

具体实施方式

下面结合附图给出一个非限定性的实施例对本发明作进一步的阐述。

如图2是本文给出的多声源环境下基于听觉中枢系统的语音分离原理结构图。多路语音信号先经过外周听觉模型，根据频率的不同而被划分为不同的频率通道；然后再经过上橄榄复合体进行语音信息提取；最后利用脑下丘细胞模型将多声源分离成单个的语音信号。

声学研究表明双耳的外耳道对不同频率的信号具有不同的频率响应。位于耳蜗内部的基底膜是听觉中枢系统处理的重要环节。

基底膜具有频率分解的作用，不同频率的语音信号将激发基底膜不同位置产生不同振动。各类语音信号在基底膜上的运动特性以及不同频率情况下非生理状态的基底膜空间振动，获得f与x的对应关系如式（1）所示：

f/Hz=A[10^a[(L-x)/mm]-k] （1）

式中，L代表基底膜的长度，f代表语音信号的特征频率，x代表特征频率f的位置距离基底膜底端的距离，其余的都为常数。人耳的基底膜长度约为35mm，当L取这个值时，x和f有如图3所示的关系。

由图3可得，基底膜位置和特征频率的关系表现为指数关系，另外特征频率最高的部位出现在基底膜的底部位置，特征频率最低的部位出现在基底膜的顶部位置。

Gammatone滤波器一般通过因果冲击响应函数，即Gammatone函数来表达它的滤波的特性，一般Gammatone函数的时域表达如式（2）所示：

g (t) = \frac{t^{n - 1} \cos (2 π f_{0} + θ)}{E^{2 πbt}} u (t) - - - (2)

式中，n表示滤波器的阶数，根据人耳的基底膜的滤波特性在这里选取n=4；θ代表Gammatone滤波器的起始相位；当t<0时，u(t)=0,当t>0时，u(t)=1；b=b₁.ERB(f₀)，ERB(f₀)代表Gammatone滤波器的等效矩阵带宽，并且它和Gammatone滤波器中心频率f₀有式（3）关系：

ERB(f₀)=2.47+0.108f₀ （3）

式中，为了使Gammatone函数能够与生理数据一致，所以选择b₁=1.019。

根据（2）式知Gammatone函数是一个冲击响应函数，为了获得该函数的频率响应特征，把（2）式进行Fourier变换。4阶的Gammatone函数在不同的中心频率f₀下分别得到不同的时域波形如图4所示，与之相对的幅度频率响应如图5所示。

Gammatone函数的时域特征、听觉中枢系统的对语音信号的冲激响应数据特征与人的双耳基底膜的尖锐频率选择特征是相同的^[48]。

构建外周听觉模型时，一般忽略不影响Gammatone滤波器性能的初始相位θ和增益Bⁿ这两项，并且在此令2πf₀=ω₀，2πB=b，所以可以将表达式（2）化简为：

g(t)=t^n-1e^-btcos(ω0t)u(t) （4）

对式子（4）进行拉普拉斯变化，得到4阶s域（连续域）Gammatone函数传递函数：

G (s) = \frac{[6 (- B^{4} - {4 B}^{3} s - {6 B}^{2} s^{2} - {4 Bs}^{3} - s^{4} + {6 B}^{2} w^{2} + {12 Bsw}^{2} + {6 s}^{2} w^{2} - w^{4})]}{{(B^{2} + 2 Bs + s^{2} + w^{2})}^{4}} - - - (5)

将式（5）进行部分分式展开，再用冲激响应不变法将模拟滤波器转换为数字滤波器，即由连续的s域到离散的z域，得到对应的z域传递函数G(z)。

由G(z)可得4阶的Gammatone滤波器是由4个二阶的z域传递函数加以级联而获得。

Gammatone提取和计算特征参数过程有如下五个步骤：

①由于初始语音信号s(n)经过预加重、加窗以及分帧等预处理之后，因此获得各个语音帧上的时域信号x(n)。

②把时域信号x(n)通过离散的傅里叶变换获得它的频谱X(k)，转换公式如下式所示：

X (k) = Σ_{n = 0}^{N - 1} x (n) e^{- j 2 πnk / N} - - - (6)

其中：0≤n,k≤N-1

③求能量谱。通常把线性频谱X(k)利用Gammatone滤波器组获取Mel频谱。其中Gammatone滤波器组表示在语音信号频谱范围内布置的一定数量的带通滤波器组H_m(k)，0≤m<M，M表示滤波器个数，每个滤波器都具有人耳基底膜的滤波性质，Gammatone滤波器组在ERB尺度上通常是均匀分布；线性频率情况下，在m取值较小时，相邻的中心频率之间的带宽都很小，随着m的增大，相邻的中心频率之间的带宽逐渐增大，这种特点与人耳对不同频率的语音具有不同的感知能力是相同的。

④把Gammatone滤波器组输出的Mel频谱求对数能量，获取对数频谱S(m)，从线性频谱X(k)至对数频谱S(m)总的传递函数如式（7）所示：

S (m) = \ln (Σ_{k = 0}^{N - 1} {| X (k) |}^{2} H_{m} (k)) - - - (7)

其中：0≤m<M

⑤把S(m)利用离散余弦变换转换至倒频谱域内获取Gammatone系数c(n)，转换公式如式（8）所示：

c (n) = Σ_{m = 1}^{M - 1} S (m) \cos [\frac{π (m + 0.5) n}{M}] - - - (8)

其中：0≤m<M

语音参数的静态特性一般就是Gammatone提取的MFCC参数值，并且一般采用差分倒谱参数来表示人类统计中枢系统对语音信号更加敏锐的动态特性，计算公式如下：

d (n) = \frac{1}{\sqrt{Σ_{i = - k}^{k} i^{2}}} Σ_{i = - k}^{k} i * c (n + i) - - - (9)

式中，c与d是某帧语音信号的参数，k是一个常数，一般选择2，这种情况下差分倒谱参数就表示当前这一帧的前面2帧以及后面2帧参数的一个线性组合。

Gammatone获取的MFCC参数值以及一阶差分倒谱参数合并后一同组成语音信号的特征参数。

重合神经元模型模拟突触和细胞体模型的响应，完成对语音信息的提取与融合。

通用突触模型主要是模拟内毛细胞在语音分离中所起的作用，而内毛细胞的作用即为半波整流，而且把输入的语音信号转换成相应的电信号输送至听觉神经纤维。

如图6所示，以虚线为界，虚线右边代表内毛细胞的外部，左边则表示内毛细胞的里面部分，可以用下面3步来阐述其工作原理。

①当语音信号输入时，内毛细胞膜的渗透性会跟随瞬时声强的改变而发生改变，从自由传递池神经递质就开始向裂隙浸透。

②当内毛细胞外部和内部的神经递质的浓度达到相同时，部分神经递质从裂隙通过再生库又重新浸透到自由传递池，相当于降低了它损耗的速度。由于裂隙中的神经递质存在流失，最后内毛细胞内部的神经递质仍旧变少了。

③为了弥补裂隙中神经递质的泄漏，制造厂开始产生新的神经递质，一旦产生的神经递质和裂隙中泄漏出的神经递质数量能够动态平衡时，裂隙中神经递质的数量就代表了神经细胞尖脉冲的输出概率。

由图6可知，通用突触模型包括5个标准量分别是：内毛细胞中神经递质的数量，渗透性，裂隙中神经递质的数量，再生库中神经递质的数量以及神经发放的概率。

①内毛细胞中的神经递质的数量

内毛细胞中神经递质的数量q(t)与时间t的关系如式（10）所示：

\frac{dq (t)}{dt} = y (1 - q (t)) - k (t) q (t) + xw (t)) - - - (10)

内毛细胞中神经递质的数量随时间的变化率dq(t)/dt分别由制造厂补给内毛细胞的神经递质的数量y(1-q(t))、再生库返回到内毛细胞的神经递质数量xw(t)以及内毛细胞浸透到裂隙中的神经递质数量-k(t)q(t)共同维持。

②渗透率

细胞膜渗透率k(t)代表了由内毛细胞向裂隙传递神经递质的能力。神经细胞的渗透性会随着输入语音信号的瞬时声强的改变而改变，具体用式（11）表示：

k (t) = \{\begin{matrix} \frac{A + stim (t)}{A + B + stim (t)} g, A + stim (t) &GreaterEqual; 0 \\ 0, A + stim (t) < 0 \end{matrix} - - - (11)

式中，A,B,g都是细胞的参数，stim(t)是输入语音信号瞬时的幅度。从式（11）可以得出神经递质怎样随着输入语音信号瞬时幅度变化而改变从自由传递池到裂隙的传递，这是一个动态的过程。

③裂隙中神经递质的数量

裂隙中神经递质的数量c(t)和时间t的关系如式（12）所示：

\frac{dc (t)}{dt} = k (t) q (t) - lc (t) - rc (t) - - - (12)

裂隙中神经递质的数量随时间的变化率dc(t)/dt由从内毛细胞传递到裂隙中的数量k(t)q(t)、裂隙中流失的数量-lc(t)以及从裂隙中返回到再生库中的数量-rc(t)这三项来共同维持。

④再生库中神经递质的数量

再生库中神经递质的数量w(t)和时间t的关系如式（13）所示：

\frac{dw (t)}{dt} rc (t) - xw (t) - - - (13)

⑤神经发放的概率

后级神经传导纤维的神经发放的概率由间隙中最后余下的神经递质数量c(t)来决定，用比例因子h来描述这二者间的关系，如式（14）所示：

p(t)=hc(t)dt （14）

对于以上（12）（13）（14）中的3个微分方程，在自发式响应情况下，利用拉氏变换将其转换到s域，由此可得：

Q(s)-q(0)=y/s-yQ(s)+xW(s) （15）

C(s)-c(0)=kQ(s)-lC(s)-rC(s) （16）

W(s)-w(0)=rC(s)-xW(s) （17）

对上面（15）（16）（17）3个方程求解，可得：

\begin{matrix} Q (s) = \frac{(s + x) (s + l + r) y}{s [(s + x) (s + k + y) (s + l + r) - krx]} + \\ \frac{(s + x) (s + l + r) q (0) + x (s + l + r) w (0) + rxc (0)}{(s + x) (s + k + y) (s + l + r) - krx} \end{matrix} - - - (18)

\begin{matrix} C (s) = \frac{(s + x) ky}{s [(s + x) (s + k + y) (s + l + r) - krx]} + \\ \frac{(s + x) (s + l + r) c (0) + k (s + x) q (0) + kxw (0)}{(s + x) (s + k + y) (s + l + r) - krx} \end{matrix} - - - (19)

\begin{matrix} W (s) = \frac{ykr}{s [(s + x) (s + k + y) (s + l + r) - krx} + \\ \frac{(s + x) (s + l + r) w (0) (s + y + k) c (0) + krq (0)}{(s + x) (s + k + y) (s + l + r) - krx} \end{matrix} - - - (20)

式中，Q(s)、C(s)以及W(s)分别为q(t)，c(t)以及w(t)的拉氏变换，q(0)、c(0)以及w(0)分别是q(t)、c(t)以及w(t)的初始值，并且所求得解的前面表示系统零状态响应，后面表示和初值相关的响应。

由终值定理

获取外周听觉模型的稳态响应如式（21）、（22）以及（23）所示：

q (\infty) = \frac{y (l + r)}{kl + y (l + r)} - - - (21)

c (\infty) = \frac{ky}{kl + y (l + r)} - - - (22)

w (\infty) = \frac{kyr}{x (kl + y (l + r))} - - - (23)

最后能够求取：

q(∞)=0.6869,c(∞)=0.001,w(∞)=0.0994

以上求解的是没有输入语音信号激励的情况时模型内信息传递的分布情况。相对于静态模型情况，一旦有语音信号输入时，系统的各个状态系数就会随输入的语音信号的改变而引起改变。

系统输出量的变化主要由系统响应时间决定。接着通过s域的极点来决定系统响应时间，对以上3个式子分析，s=0是系统4个极点中的一个，由方程可得另外3个极点：

(s+x)(s+k+y)(s+l+r)-krx=0 （24）

整个模型的时间响应特征和稳定性特征取决于方程（24）的3个解。除此之外，还能利用修正y,l,x,k,r的取值来修正模型响应的速率。

求解方程（25）中可以获得其余极点的值即为：p₁，p₂和p₃，都为负数，可得该系统是稳定的。根据求出的极点可得系统的时间响应如下式：

c (t) = A_{1} e^{p_{1} l} + A_{2} e^{p_{2} l} + A_{3} e^{p_{3} l} + A_{4} - - - (25)

式中，

以及

都表示衰减式，A₄表示稳态响应。

递质分子通过突触间隙传递扩散到突触后神经元。递质浓度的衰减用一个Leaky integrate-and-fire（LIF）来模拟，突触后神经元的一定数量的递质分子可以改变它到特定离子的通透性，离子通道因此逐渐打开，接受甚至更多的离子，形成电流，电流向神经元的细胞体移动，形成一个逐渐增加的突触后电流。

如图7，右边虚线圆圈内部的基本电路中，电流I(t)给RC电路充电。电容的电压u(t)和阈值电压v相比较。如果在时间t_i时刻u(t)=v，则该电路会产生一个脉冲δ(t-t_i)。左边部分，一个突触前脉冲δ(t-t_j)被低通滤波，并且产生一个输入电流脉冲α(t-t_j)。

一般LIF模型包括一个电阻R以及一个与之并联的被外来电流I(t)驱动的电容C.驱动电流由两部分组成，I(t)=I_C+I_R，所以可得下式：

I (t) = \frac{u (t)}{R} + C \frac{du}{dt} - - - (26)

将上式乘以R并且令τ_m=RC，可得该式的标准式：

τ_{m} \frac{du}{dt} = - u (t) + RI (t) - - - (27)

式中，u为神经元的膜电位，τ_m为神经元的膜时间常量。

在ILF模型中，脉冲产生以发放时间t^(f)为标志，其中t^(f)用阈值标准式（28）来定义：

t^(f):u(^t(f))=v （28）

发放时间结束后，电位立即被重设为一个新值u_r，并且u_r<v，定义为（29）所示：

\lim_{t &RightArrow; t^{(f)}, t > t^{(f)}} u (t) = u_{r} - - - (29)

当t>t^(f)时，直到下一次的阈值跨越发生才会有（27）再次发生，但是如果膜电位从未超过阈值，那么阈值的条件将会降低到新的标准^[51]。

当脉冲发生之后，即t>t^(f)，脉冲电流为I(t)，那么u_r就充当对于式子（27）整合的初始条件。

u (t) = u_{r} \exp [- \frac{t - t^{(f)}}{τ_{m}}] + \frac{1}{C} {&Integral;}_{0}^{t - t^{(f)}} \exp [- \frac{s}{τ_{m}}] I (t - s) ds - - - (30)

上式阐述了t>t^(f)膜电位，并且直到下一个阈值跨越之前都是有效的。

以上的系统还需要一个外部的电流I(t)冲击来完成通用细胞模型的构建。在通用突触模型的框架中，每一个突触前脉冲产生一个突触后电流脉冲。更确切的说，如果突触前神经元j在t_j时刻发放了一个神经脉冲后，那么突触后神经元i就会在一段时间后接受到一个电流α(t-t_j)，到神经元的总输入电流i是所有电流脉冲的总和，如式（31）所示：

I_{i} (t) = \underset{j}{Σ} w_{ij} \underset{j}{Σ} α (t - t_{j}) - - - (31)

式中，参数w_ij是突触从神经元j到神经元i的效率测量。在模型中，突触后电流脉冲的幅度取决于膜电位u；每个突触前行动电位都会引起突触后膜的一定时间内的电导改变g(t-t_j)，因此式（31）中脉冲产生的突触后电流α(t-t_j)的公式如式（32）所示：

α(t-t_j)=-g(t-t_j)[u(t)-E_syn] （32）

式中，E_syn代表突触的逆转电位，取决于突触的类型，(u(t)-E_syn)通常是常量可以忽略其影响，并且以上所有的式子中，RC是一个常量，选取RC的值是1.6ms，C是被I(t)充电的电容，目的是为了体现突触后电流给细胞体充电的过程。

实现通用突触模型和通用细胞体模型之后，接下来要完成ITD和ILD信息的整合。

ITD的通路，异侧耳朵的脉冲序列的发射要经过变化的延迟线△t_i，表示延迟脉冲序列为S_CP(△t_i,f_j)，这里C代表异侧，f_j代表频率通道j。类似的，S_IP(△T,f_j)代表同侧耳朵的固定延迟脉冲序列带有一个固定的延迟时间△T.S_CP(△t_i,f_j)和S_IP(△T,f_j)接下来为了计算ITD被输入到ITD的重合模型，ITD重合模型计算的输出是一个新的脉冲序列，即为S_ITD((△T-△t_i),f_j)，脉冲S_ITD((△T-△t_i),f_j)，代表声音到达同侧耳朵比到达异侧耳朵早ITD=△T-△t_i秒。

ILD通路，检测到两侧声音等级用来计算等级差异并且相应的ILD细胞将释放一个脉冲，等级差异的计算公式是：

这里和

分别代表频道j的同侧和异侧声音等级，对于脉冲S_ILD(△p_j,f_j)，负的ILD值意味着声音等级将会是右耳的比左耳的低，正的ILD值正好相反。

由以上分析，为了将ITD和ILD的传递的语音信息提取并融合，建立了两个加权阵列：ITD_w和ILD_w，在所有的频率范围内，利用乘以一个二维的ITD/ILD的矩阵加权阵列计算出一个加权的ILD和ITD映射。

{ITD}_{w}^{j} = \frac{\underset{j}{Σ} (\max (f_{j} / 1200,1))}{\max (f_{j} / 1200,1)} - - - (33)

{ILD}_{w}^{j} = \frac{\max (\log (f_{j} / 1000,) 0)}{\underset{j}{Σ} (\max (\log (f_{j} / 1000), 0))} - - - (34)

这里j是频道指数。加权的ITD和ILD映射信息最终被融合到一起，也就是MSO和LSO的输出信息，最后被输入到脑下丘的神经细胞内进行语音信息的提取和分离。

本发明模拟脑下丘的Onset神经细胞模型对多声源的语音信号进行分离，

如图8是脑下丘的Onset神经细胞模型的结构原理图。

利用Onset神经细胞模型对多声源语音信号的分离时，要用到信号能量比，首先计算出神经细胞模型中语音信号的第i频率通道、第j时间帧能量以及相应的噪声信号能量

接着计算出信号能量比：

E_{i, j} = \frac{\underset{i}{Σ} S_{i, j (t 1)}^{2}}{\underset{i}{Σ} S_{i, j (t)}^{2} + \underset{i}{Σ} n_{i, j (t)}^{2}} - - - (35)

假设E_i,j＞0.5可得语音信号的能量大于噪声的能量，因此需要留下该语音信号代表主要地位的声音部分，相反，假设E_i,j＜0.5表明噪声能量代表主要地位则可以删掉。然后再利用Onset细胞模型获取的ITD以及ILD的值来构建掩蔽矩阵，实现语音信号的分离。本文采用二值掩蔽，对于第i通道、第j时间帧的掩蔽系数可以定义为：

其中f_c=1.5kHz，T^(τ)(i,j)以及T^(l)(i,j)代表是ITD以及ILD的阈值，τ_max(i,j)是第i频率通道、第j时间帧最大的时间延迟，L(i,j)是第i频率通道、第j时间帧的ILD值。

L (i, j) = 20 \lg \frac{\underset{i, j}{Σ} p_{l} {(i, j, t)}^{2}}{\underset{i, j}{Σ} p_{r} {(i, j, t)}^{2}} - - - (37)

式中，p_l(i,j,t)和p_r(i,j,t)分别为第i频率通道、第j时间帧的左耳以及右耳的信号发放概率。

对多声源的语音信号在每个频率通道以及每个时间帧上计算掩蔽系数，然后再获得掩蔽矩阵。矩阵中每个相同的元素1和所有每个相同的元素0为同一归属。

对于所有相同的元素1的矩阵中，语音信号的自相关函数的Fourier变换即为这个语音信号Fourier变换幅度的平方。假设把R_xx(τ)当做是x(t)的自相关函数，因此可以计算出x(t)的功率谱|X(w)|²如（38）式：

{| X (w) |}^{2} = {&Integral;}_{- \infty}^{\infty} R_{xx} (τ) \exp (- jwτ) dτ - - - (38)

式（38）可以把听觉中枢系统中的经过掩蔽后的每个语音信号的神经发放概率的短时幅度谱计算出来，然后加以迭代，该过程在每次迭代中，重新构造出语音信号相位的特征，从而降低重新建立信号的短时Fourier变换幅度和已知的初始语音信号的短时Fourier变换幅度之间的平方误差进一步获取语音信号的估算，然后将估算语音信号的Fourier变换幅度值与已知的初始的Fourier变换幅度值的平方差值最小，最后第i次迭代重新构造出的语音信号x(i)(n)可以表达为：

x^{(i)} (n) = \frac{Σ_{m = - \infty}^{\infty} w (mS - n) \frac{1}{2 π} {&Integral;}_{- π}^{π} {\hat{X}}^{i - 1} (m, n) e (jwτ) dw}{Σ_{m = - \infty}^{\infty} w^{2} (ms - n)} - - - (39)

上式，分析窗是w(mS-n)，窗移是S，因此能通过x⁽ⁱ⁾(n)计算出第i次迭代重新构造信号的短时Fourier变换X⁽ⁱ⁾(m,n)，并且根据式（39）计算其和初始设定的短时幅度X_d(m,n)相互间的差值。

Error = Σ_{m = - \infty}^{\infty} Σ_{n = 0}^{N - 1} {| | X^{(i)} (m, n) | - | X_{d} (m, n) | |}^{2} - - - (40)

如果该差值比给定的值小，于是迭代就结束，不然需要求得并且根据（39）完成下一次的迭代计算。

{\hat{X}}^{(i)} (m, n) = | X_{d} (m, n) | \frac{X^{i} (m, n)}{| X^{i} (m, n) |} - - - (41)

通过以上的计算，就能够获得语音信号在听觉中枢中每个传输通道的神经发放率p(t)，接下来需要通过听神经发放概率p(t)复原半波整流后的语音信号h(t)。

c (t) = \frac{p (t)}{hdt} - - - (42)

计算出c(t)以后，通过以下推理能够按顺序的计算出q(t)以及h(t)：

q(t)=y[1-q(t-1)]dt-lc(t-1)dt-c(t)-c(t-1)+q(t-1) （43）

h(t)=[c(t)-c(t-1)/dt+lc(t)+r(t)]q(t) （44）

通过半波整流后的语音信号用h(t)来代表，得到半波整流后的信号h(t)再次经过迭代就可以得出原始语音信号。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明方法权利要求所限定的范围。

Claims

1.一种多声源环境下的基于听觉中枢系统的语音分离方法，其特征在于包括以下步骤：

利用Gammatone滤波器组获取Mel频谱；

103、将步骤102获得的Mel频谱求对数能量获得对数频谱

2.根据权利要求1所述的多声源环境下的基于听觉中枢系统的语音分离方法，其特征在于：步骤102中的Gammatone滤波器的函数表达式为

3.根据权利要求1所述的多声源环境下的基于听觉中枢系统的语音分离方法，其特征在于：步骤103中的差分倒谱参数为

4.根据权利要求1所述的多声源环境下的基于听觉中枢系统的语音分离方法，其特征在于：步骤104中的LIF模型包括一个电阻R以及一个与之并联的被外来电流I(t)驱动的电容C，驱动电流由两部分组成。