CN103456312B - 一种基于计算听觉场景分析的单通道语音盲分离方法 - Google Patents

一种基于计算听觉场景分析的单通道语音盲分离方法 Download PDF

Info

Publication number
CN103456312B
CN103456312B CN201310384413.XA CN201310384413A CN103456312B CN 103456312 B CN103456312 B CN 103456312B CN 201310384413 A CN201310384413 A CN 201310384413A CN 103456312 B CN103456312 B CN 103456312B
Authority
CN
China
Prior art keywords
unit
audition
frequency
tau
stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310384413.XA
Other languages
English (en)
Other versions
CN103456312A (zh
Inventor
李鸿燕
贾海蓉
张雪英
任光龙
屈俊玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN201310384413.XA priority Critical patent/CN103456312B/zh
Publication of CN103456312A publication Critical patent/CN103456312A/zh
Application granted granted Critical
Publication of CN103456312B publication Critical patent/CN103456312B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种基于计算听觉场景分析的单通道语音盲分离方法,所述方法包括如下步骤:步骤一、对输入的混叠语音进行前端处理;步骤二、对经过步骤一处理的混叠语音进行听觉特征提取;步骤三、对经过步骤二处理的混叠语音基于谐波特性进行听觉分割;步骤四、对经过步骤三处理的混叠语音基于能量特征进行听觉重组;步骤五、对经过步骤四处理的混叠语音进行目标语音重构。本发明在噪声存在的情况下,可以很好地解决单通道混叠语音分离问题,分离的语音可以应用于语音识别的前端,在人工智能、语音通信,声音信号增强领域都将有着广阔的应用前景。

Description

一种基于计算听觉场景分析的单通道语音盲分离方法
技术领域
本发明涉及一种基于计算听觉场景分析的单通道语音盲分离方法,属于语音信号处理领域。
背景技术
语音信号处理是近年来信号处理中最引人注目的研究领域之一,在语音信号处理领域,一个重要的问题是如何从未知信号随机混合得到的混叠语音中分离出原始语音,混叠语音分离在噪声消除、语音合成、语音通信等方面有重要的研究意义和实用价值。由于混叠语音在时域和频域的重叠性,常用的语音增强方法难以实现语音分离。目前,混叠语音分离最常采用的方法是盲源分离方法即独立分量分析方法,但独立分量分析方法有一些假设条件,例如要求观测信号的个数大于或等于源信号的个数、假定没有噪声等,这些条件限制了盲源分离的应用,因此,盲源分离不能应用于源信号个数大于观测信号个数的单通道混叠语音分离问题,尤其是在噪声存在的情况下,盲源分离方法应用于混叠语音分离效果明显恶化。
人工智能领域的发展需要新一代计算机的人机接口能自如地用语言和人类交流。语音和人类的听觉系统是密切相关的,在研究语音信号本身的特性及其处理方法的同时,研究人类听觉系统感知语音信息的机理将能进一步促进语音信号处理的研究。事实上,人类听觉系统对语音信号的感知能力大大地超过了目前的信号处理水平,由于人的听觉系统是一个很强大的音频信号处理器,特别是在强噪声干扰下,人类能有选择地听取所需的内容,能够从杂乱的声音信号中分辨并跟踪其感兴趣的某一路目标信号,感知其相关信息,即所谓的“鸡尾酒会效应”。利用听觉感知的研究成果建立模型,并用计算机来实现它,使听觉场景分析应用到机器智能中,让机器具有智能的听觉,这就是计算听觉场景分析。用计算听觉场景分析方法进行混叠语音信号分离,不仅符合人的感知特性,而且不受盲源分离方法的那些假设条件限制。计算听觉场景分析从心理模型的角度,把听觉组织过程看作是一个具有层次性的加工过程,丰富了听觉组织的理论,听觉场景分析还用生态学的观点来分析听觉组织过程,从而增加了理论的外部效应,使之更加易于实际应用。计算听觉场景分析由于其不需要假设信号的统计特性和单通道条件下的可实现性,所以特别适合应用于噪声存在时的单通道混叠语音分离问题。
发明内容
本发明的目的是克服现有技术的缺点,解决如何从存在噪声的单通道混叠语音中分离出目标语音的方法,提出一种基于能量和谐波特性的计算听觉场景分析单通道混叠语音分离方法。
本发明提出一种基于计算听觉场景分析的单通道语音盲分离方法,其特征在于:
所述方法包括如下步骤:
步骤一、对输入的混叠语音进行前端处理;
步骤二、对经过步骤一处理的混叠语音进行听觉特征提取;
步骤三、对经过步骤二处理的混叠语音基于谐波特性进行听觉分割;
步骤四、对经过步骤三处理的混叠语音基于能量特征进行听觉重组;
步骤五、对经过步骤四处理的混叠语音进行目标语音重构。
进一步地,步骤一中:所述前端处理是将输入的混合时域信号转化成相应的时频域表示形式;根据人耳的感知机理,将输入混合声音信号通过128个信道的Gammatone滤波器组进行带通滤波,该滤波器的中心频率按照等距宽(Equivalent RectangularBandwidth,ERB)在80~5kHz之间准对数分布;将时频分解后的每一个Gammatone滤波器的输出送入Meddis内耳毛细胞模型;得到神经发放率;然后,在时域上对每个毛细胞的输出以帧长20ms,50%重叠为帧移进行分帧处理;将输入的混合语音信号分解成为一系列时频单元,即T-F单元;同时,为了高频部分的特征提取和听觉重组,对毛细胞输出进行半波整流和低通滤波,从而得到每个通道的包络特征。
进一步地,步骤二中:经过前端处理过程,混合语音信号在时域和频域上被分解成一系列的T-F单元,在每个T-F单元中,计算下列特征函数:自相关函数(AH)、包络自相关函数(AE)、主基音周期(P(m))、相邻信道互相关(CH)、相邻信道包络互相关(CE),式(4)、式(5)、式(6)、式(7、式(8)为其计算公式:
A H ( c , m , τ ) = 1 N c Σ n = 0 N c - 1 h ( c , mT - n ) h ( c , mT - n - τ ) (4)
A E ( c , m , τ ) = 1 N c Σ n = 0 N c - 1 h E ( c , mT - n ) h E ( c , mT - n - τ ) (5)
其中,c表示信道,m为时间帧,Nc是采样点数,h(c,·)表示神经发放率,时延τ∈[0,12.5ms],表示帧移,hE(c,·)为毛细胞输出包络;
P ( m ) = max τ { Σ c A H ( c , m , τ ) } , τ ∈ [ 2 ms , 12.5 ms ] (6)
C H ( c , m ) = Σ τ = 0 L - 1 A ^ H ( c , m , τ ) A ^ H ( c + 1 , m , τ ) (7)
C E ( c , m ) = Σ τ = 0 L - 1 A ^ E ( c , m , τ ) A ^ E ( c + 1 , m , τ ) (8)
其中,L=采样率×12.5ms,表示归一化的自相关函数,表示归一化的包络自相关函数。
进一步地,步骤三中:根据听觉特征提取的提取特征,混合语音信号经过听觉前端处理后的那些T-F单元,合并成对应的听觉片段;在时频域中,属于某一个声源的连续T-F单元的片段区域,定义为段,它是介于时频单元和语音听觉流的中间表示;
(1)类型″1″听觉片段
对于频率信道上的两个相邻T-F单元u(c,m),u(c+1,m),如果其相邻信道互相关(CH)满足式(9),则将这两个T-F单元都标记为″1″;
U lf ( c , m ) = 1 , C H > θ C , θ C = 0.985 0 , else (9)
将标记是″1″的那些相邻T-F单元合并到听觉片段中,从而得到类型″1″的听觉片段,segment(c,m)=1,c∈{clf},完成了混合语音信号低频部分的听觉分割;
(2)类型″2″听觉片段
对于频率通道上的两个相邻T-F单元,如果其相邻信道包络互相关CE满足式(10),则将这两个相邻T-F单元标记为″2″;
U hf ( c , m ) = 1 , C E > θ C , θ C = 0.985 0 , else (10)
对于不确定性时频单元,根据幅度调制现象和时域连续性这两个特性,将标记为″2″的相邻T-F单元合并到听觉片段中,从而得到类型″2″的听觉片段,segment(c,m)=2,c∈{chf},完成了高频区域连续T-F单元的听觉分割;
(3)对于不满足上述条件的那些T-F单元,不被合并到任何一个听觉片段中,并且将其标记为″0″,即为噪声片段。
进一步地,步骤四中:将上一阶段来自同一个声源的那些听觉片段分别重组到对应的目标语音流和干扰噪声流中,从而实现目标语音分离;
(1)T-F单元标记
对于类型″1″听觉片段中的T-F单元,利用该T-F单元的自相关函数和目标语音基音频率来刻画谐波关系,即周期性准则;如果片段″1″中的时频单元u(c,m)满足:
A H ( c , m , P ( m ) ) max τ { A H ( c , m , τ ) } > θ H (11)
则标记u(c,m)为目标语音信号主导,否则标记为噪声主导;这里,P(m)是第m帧上的目标基音周期;τ∈[2ms,12.5ms]表示基音周期范围;θH=0.85;
听觉片段″2″中主要对应非确定T-F单元,其滤波响应包络具有明显的幅度调制现象,这里采用幅度调制(AM)准则对其进行标记;如果片段″2″中的时频单元u(c,m)满足:
A E ( c , m , P ( m ) ) max τ { A E ( c , m , τ ) } > θ E (12)
则认为u(c,m)是由目标语音信号主导,否则将其标记为噪声干扰主导;其中,θH=0.7;
根据上述标记的T-F单元,将混合语音信号的所有听觉片段分别重组到对应的目标语音听觉流stream(c,m)=1和噪声干扰流stream(c,m)=0中,为下一阶段听觉流调整奠定基础;
(2)最终听觉流形成
对于目标语音信号中高频部分的那些T-F单元,为了估计其被噪声干扰的程度,需要计算混合信号在各个频率信道上的能量,通过对每一个信道上的信号提取时间包络,进而可得到混合信号在各个信道上的能量E(ci),ci∈[1,128];
具体步骤如下:
①在混合语音信号的低频范围内,根据得到的各个频率信道能量E(ci),ci∈[1,64],选择三个能量最大值,按从小到大排序为E0,E1,E2
②对高频范围内的T-F单元进行调整,如果某个频率信道上的能量满足
E(ci)>E0
(13)
则计算该频率信道上所有T-F单元的平均能量
E ′ ( c i ) = E ( c i ) N (14)
其中,N是该频率信道ci中时间帧的总数;
③对于该频率信道ci上的各个T-F单元求取能量值E(ci,m),如果满足下式:
E(ci,m)>E′(ci)
(15)
则认为该T-F单元由噪声干扰主导,将其从目标语音听觉流stream(c,m)=1中去除掉,并且合并到噪声干扰流stream(c,m)=0中;
④通过迭代重组将stream(c,m)=1周围的T-F单元合并到该听觉流,得到最
终的目标语音听觉流,即目标语音二值模。
进一步地,步骤五中:利用二值模和Gammatone滤波器结构来合成目标语音信号的时域波形图,从而实现语音信号的分离;目标语音重构的具体步骤如下:
(1)各个Gammatone滤波器信道的输出信号先进行时间反转,并将其结果再次送入Gammatone滤波器;
(2)由于滤波器频率信道间存在相位延迟,需要将上一阶段每个滤波输出的信号再一次时间反转,来消除滤波器本身的时延;
(3)利用每帧20ms,帧移10ms的分帧原则,采用升余弦函数作为窗函数,对各个滤波信道的输出信号分帧处理;
(4)以二值模为权值,即权值1和0,在频率轴上对T-F单元滤波响应进行加权求和,其输出结果即为重构后的目标语音信号。
人工智能领域的发展需要新一代计算机的人机接口能自如地用语言和人类交流。现有的技术难以应用于噪声存在时的单通道语音分离问题,本发明所提出的基于能量和谐波特性的计算听觉场景分析单通道混叠语音分离方法,在噪声存在的情况下,可以很好地解决单通道混叠语音分离问题,分离的语音可以应用于语音识别的前端,在人工智能、语音通信,声音信号增强领域都将有着广阔的应用前景。
附图说明
通过参照附图更详细地描述本发明的示例性实施例,本发明的以上和其它方面及优点将变得更加易于清楚,在附图中:
图1为本发明的一种基于计算听觉场景分析的单通道语音盲分离方法的原理模型示意图。
具体实施方式
在下文中,现在将参照附图更充分地描述本发明,在附图中示出了各种实施例。然而,本发明可以以许多不同的形式来实施,且不应该解释为局限于在此阐述的实施例。相反,提供这些实施例使得本公开将是彻底和完全的,并将本发明的范围充分地传达给本领域技术人员。
在下文中,将参照附图更详细地描述本发明的示例性实施例。
参考附图1,本发明采用的技术方案如下:
步骤一、对输入的混叠语音进行前端处理
前端处理是将输入的混合时域信号转化成相应的时频域表示形式。根据人耳的感知机理,将输入混合声音信号通过128个信道的Gammatone滤波器组进行带通滤波,Gammatone滤波器对于人耳基底膜在不同频率上的响应都能很好的模拟,是一种标准的听觉滤波模型,该滤波器的中心频率按照等距宽(Equivalent Rectangular Bandwidth,ERB)在80~5kHz之间准对数分布。将时频分解后的每一个Gammatone滤波器的输出送入Meddis内耳毛细胞模型,得到神经发放率。然后,在时域上对每个毛细胞的输出以帧长20ms,50%重叠为帧移进行分帧处理。将输入的混合语音信号分解成为一系列时频单元,即T-F单元。同时,为了高频部分的特征提取和听觉重组,对毛细胞输出进行半波整流和低通滤波,从而得到每个通道的包络特征。
步骤二、对经过步骤一处理的混叠语音进行听觉特征提取
经过前端处理过程,混合语音信号在时域和频域上被分解成一系列的T-F单元,在每个T-F单元中,计算下列特征函数:自相关函数(AH)、包络自相关函数(AE)、主基音周期(P(m))、相邻信道互相关(CH)、相邻信道包络互相关(CE),式(4)、式(5)、式(6)、式(7、式(8)为其计算公式。
A H ( c , m , τ ) = 1 N c Σ n = 0 N c - 1 h ( c , mT - n ) h ( c , mT - n - τ ) (4)
A E ( c , m , τ ) = 1 N c Σ n = 0 N c - 1 h E ( c , mT - n ) h E ( c , mT - n - τ ) (5)
其中,c表示信道,m为时间帧,Nc是采样点数,h(c,·)表示神经发放率,时延τ∈[0,12.5ms],表示帧移,hE(c,·)为毛细胞输出包络。
P ( m ) = max τ { Σ c A H ( c , m , τ ) } , τ ∈ [ 2 ms , 12.5 ms ] (6)
C H ( c , m ) = Σ τ = 0 L - 1 A ^ H ( c , m , τ ) A ^ H ( c + 1 , m , τ ) (7)
C E ( c , m ) = Σ τ = 0 L - 1 A ^ E ( c , m , τ ) A ^ E ( c + 1 , m , τ ) (8)
其中,L=采样率×12.5ms,表示归一化的自相关函数,表示归一化的包络自相关函数。
步骤三、对经过步骤二处理的混叠语音基于谐波特性进行听觉分割
根据听觉特征提取的提取特征,混合语音信号经过听觉前端处理后的那些T-F单元,可以合并成对应的听觉片段。在时频域中,属于某一个声源的连续T-F单元的片段区域,定义为段,它是介于时频单元和语音听觉流的中间表示。听觉分段的目的在于分辨出时频域中可以利用的那些连续T-F单元,并且,每个分段惟一的对应着某一个声源。
(1)类型″1″听觉片段
Gammatone听觉滤波器组中,由于相邻的带通频率之间表现出明显的重叠现象,从而多个邻近滤波器受到同一个谐波的激励,导致相邻信道的高度相关性。听觉滤波器相邻信道互相关(CH)程度越高,即其值越接近于1,表明这两个相邻信道来自于同一声源的可能性越大。因此,对于频率信道上的两个相邻T-F单元u(c,m),u(c+1,m),如果其相邻信道互相关(CH)满足式(9),则将这两个T-F单元都标记为″1″。
U lf ( c , m ) = 1 , C H > θ C , θ C = 0.985 0 , else (9)
另外,语音信号具有时域连续性,通常会持续一段时间(>50ms)。基于语音信号的这两个特性,可以成功的将标记是″1″的那些相邻T-F单元合并到听觉片段中,从而得到类型″1″的听觉片段,segment(c,m)=1,c∈{clf},完成了混合语音信号低频部分的听觉分割。
(2)类型″2″听觉片段
语音信号的高频范围(>1kHz)内,听觉滤波器的频率通带较宽,一个滤波器会同时响应多个谐波,以至于这些不确定谐波的滤波响应产生幅度调制(AM)现象,并且相邻通道的包络具有很强的通道互相关。相邻信道包络互相关程度越高,表明高频范围内的两个相邻信道来自于同一声源的可能性越大。因此,对于频率通道上的两个相邻T-F单元,如果其相邻信道包络互相关CE满足式(10),则将这两个相邻T-F单元标记为″2″。
U hf ( c , m ) = 1 , C E > θ C , θ C = 0.985 0 , else (10)
因此,对于不确定性时频单元,根据幅度调制现象和时域连续性这两个特性,可以成功的将标记为″2″的相邻T-F单元合并到听觉片段中,从而得到类型″2″的听觉片段,segment(c,m)=2,c∈{chf},完成了高频区域连续T-F单元的听觉分割。
(3)对于不满足上述条件的那些T-F单元,不被合并到任何一个听觉片段中,并且将其标记为″0″,即为噪声片段。
步骤四、对经过步骤三处理的混叠语音基于能量特征进行听觉重组
将上一阶段来自同一个声源的那些听觉片段分别重组到对应的目标语音流和干扰噪声流中,从而实现目标语音分离。
(1)T-F单元标记
对于类型″1″听觉片段中的T-F单元,利用该T-F单元的自相关函数和目标语音基音频率来刻画谐波关系,即周期性准则。如果片段″1″中的时频单元u(c,m)满足:
A H ( c , m , P ( m ) ) max τ { A H ( c , m , τ ) } > θ H (11)
则标记u(c,m)为目标语音信号主导,否则标记为噪声主导。这里,P(m)是第m帧上的目标基音周期;τ∈[2ms,12.5ms]表示基音周期范围。θH=0.85
听觉片段″2″中主要对应非确定T-F单元,其滤波响应包络具有明显的幅度调制现象,这里采用幅度调制(AM)准则对其进行标记。如果片段″2″中的时频单元u(c,m)满足:
A E ( c , m , P ( m ) ) max τ { A E ( c , m , τ ) } > θ E (12)
则认为u(c,m)是由目标语音信号主导,否则将其标记为噪声干扰主导。其中,θH=0.7。
根据上述标记的T-F单元,将混合语音信号的所有听觉片段分别重组到对应的目标语音听觉流stream(c,m)=1和噪声干扰流stream(c,m)=0中,为下一阶段听觉流调整奠定基础。
(2)最终听觉流形成
对于目标语音信号中高频部分的那些T-F单元,为了估计其被噪声干扰的程度,需要计算混合信号在各个频率信道上的能量,本发明通过对每一个信道上的信号提取时间包络,进而可得到混合信号在各个信道上的能量E(ci),ci∈[1,128]。
具体步骤如下:
①在混合语音信号的低频范围内(低于1kHz),根据得到的各个频率信道能量E(ci),ci∈[1,64],选择三个能量最大值,按从小到大排序为E0,E1,E2
②对高频范围内的T-F单元进行调整,如果某个频率信道上的能量满足
E(ci)>E0
(13)
则计算该频率信道上所有T-F单元的平均能量
E ′ ( c i ) = E ( c i ) N (14)
其中,N是该频率信道ci中时间帧的总数。
③对于该频率信道ci上的各个T-F单元求取能量值E(ci,m),如果满足下式:
E(ci,m)>E′(ci)
(15)
则认为该T-F单元由噪声干扰主导,将其从目标语音听觉流stream(c,m)=1中去除掉,并且合并到噪声干扰流stream(c,m)=0中。
④通过迭代重组将stream(c,m)=1周围的T-F单元合并到该听觉流,得到最终的目标语音听觉流,即目标语音二值模。
步骤五、对经过步骤四处理的混叠语音进行目标语音重构
利用二值模和Gammatone滤波器结构来合成目标语音信号的时域波形图,从而实现语音信号的分离。目标语音重构的具体步骤如下:
(1)各个Gammatone滤波器信道的输出信号先进行时间反转,并将其结果再次送入Gammatone滤波器。
(2)由于滤波器频率信道间存在相位延迟,需要将上一阶段每个滤波输出的信号再一次时间反转,来消除滤波器本身的时延。
(3)利用每帧20ms,帧移10ms的分帧原则,采用升余弦函数作为窗函数,对各个滤波信道的输出信号分帧处理。
(4)以二值模为权值(即权值1和0),在频率轴上对T-F单元滤波响应进行加权求和,其输出结果即为重构后的目标语音信号。
以上所述仅为本发明的实施例而已,并不用于限制本发明。本发明可以有各种合适的更改和变化。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于计算听觉场景分析的单通道语音盲分离方法,其特征在于:
所述方法包括如下步骤:
步骤一、对输入的混叠语音进行前端处理;所述前端处理是将输入的混合时域信号转化成相应的时频域表示形式;根据人耳的感知机理,将输入混合声音信号通过128个信道的Gammatone滤波器组进行带通滤波,该滤波器的中心频率按照等距宽(EquivalentRectangular Bandwidth,ERB)在80~5kHz之间准对数分布;将时频分解后的每一个Gammatone滤波器的输出送入Meddis内耳毛细胞模型;得到神经发放率;然后,在时域上对每个毛细胞的输出以帧长20ms,50%重叠为帧移进行分帧处理;将输入的混合语音信号分解成为一系列时频单元,即T-F单元;同时,为了高频部分的特征提取和听觉重组,对毛细胞输出进行半波整流和低通滤波,从而得到每个通道的包络特征;
步骤二、对经过步骤一处理的混叠语音进行听觉特征提取;经过前端处理过程,混合语音信号在时域和频域上被分解成一系列的T-F单元,在每个T-F单元中,计算下列特征函数:自相关函数(AH)、包络自相关函数(AE)、主基音周期(P(m))、相邻信道互相关(CH)、相邻信道包络互相关(CE),式(4)、式(5)、式(6)、式(7)、式(8)为其计算公式:
A H ( c , m , τ ) = 1 N c Σ n = 0 N c - 1 h ( c , m T - n ) h ( c , m T - n - τ ) - - - ( 4 )
A E ( c , m , τ ) = 1 N c Σ n = 0 N c - 1 h E ( c , m T - n ) h E ( c , m T - n - τ ) - - - ( 5 )
其中,c表示信道,m为时间帧,Nc是采样点数,h(c,·)表示神经发放率,时延τ∈[0,12.5ms],表示帧移,hE(c,·)为毛细胞输出包络,n表示某个采样点;
P ( m ) = m a x τ { Σ c A H ( c , m , τ ) } , τ ∈ [ 2 m s , 12.5 m s ] ( 6 )
C H ( c , m ) = Σ τ = 0 L - 1 A ^ H ( c , m , τ ) A ^ H ( c + 1 , m , τ ) - - - ( 7 )
C E ( c , m ) = Σ τ = 0 L - 1 A ^ E ( c , m , τ ) A ^ E ( c + 1 , m , τ ) - - - ( 8 )
其中,L=采样率×12.5ms,表示归一化的自相关函数,表示归一化的包络自相关函数;
步骤三、对经过步骤二处理的混叠语音基于谐波特性进行听觉分割;根据听觉特征提取的提取特征,混合语音信号经过听觉前端处理后的那些T-F单元,合并成对应的听觉片段;在时频域中,属于某一个声源的连续T-F单元的片段区域,定义为段,它是介于时频单元和语音听觉流的中间表示;
(1)类型″1″听觉片段
对于频率信道上的两个相邻T-F单元u(c,m),u(c+1,m),如果其相邻信道互相关(CH)满足式(9),则将这两个T-F单元都标记为″1″;
U l f ( c , m ) = 1 , C H > θ C θ C = 0.985 0 e l s e - - - ( 9 )
将标记是″1″的那些相邻T-F单元合并到听觉片段中,从而得到类型″1″的听觉片段,segment(c,m)=1,c∈{clf},其中clf表示低频通道集合,完成混合语音信号低频部分的听觉分割;
(2)类型″2″听觉片段
对于频率通道上的两个相邻T-F单元,如果其相邻信道包络互相关CE满足式(10),则将这两个相邻T-F单元标记为″2″;
U h f ( c , m ) = 1 , C E > θ C θ C = 0.985 0 e l s e - - - ( 10 )
对于不确定性时频单元,根据幅度调制现象和时域连续性这两个特性,将标记为″2″的相邻T-F单元合并到听觉片段中,从而得到类型″2″的听觉片段,segment(c,m)=2,c∈{chf},其中,chf表示高频通道集合,完成高频区域连续T-F单元的听觉分割;
(3)对于不满足上述条件的那些T-F单元,不被合并到任何一个听觉片段中,并且将其标记为″0″,即为噪声片段;
步骤四、对经过步骤三处理的混叠语音基于能量特征进行听觉重组;将上一阶段来自同一个声源的那些听觉片段分别重组到对应的目标语音流和干扰噪声流中,从而实现目标语音分离;
(1)T-F单元标记
对于类型″1″听觉片段中的T-F单元,利用该T-F单元的自相关函数和目标语音基音频率来刻画谐波关系,即周期性准则;如果片段″1″中的时频单元u(c,m)满足:
A H ( c , m , P ( m ) ) max τ { A H ( c , m , τ ) } > θ H - - - ( 11 )
则标记u(c,m)为目标语音信号主导,否则标记为噪声主导;这里,P(m)是第m帧上的目标基音周期;τ∈[2ms,12.5ms]表示基音周期范围;θH=0.85;
听觉片段″2″中主要对应非确定T-F单元,其滤波响应包络具有明显的幅度调制现象,这里采用幅度调制(AM)准则对其进行标记;如果片段″2″中的时频单元u(c,m)满足:
A E ( c , m , P ( m ) ) max τ { A E ( c , m , τ ) } > θ E - - - ( 12 )
则认为u(c,m)是由目标语音信号主导,否则将其标记为噪声干扰主导;其中,θE=0.7;
根据上述标记的T-F单元,将混合语音信号的所有听觉片段分别重组到对应的目标语音听觉流stream(c,m)=1和噪声干扰流stream(c,m)=0中,为下一阶段听觉流调整奠定基础;
(2)最终听觉流形成
对于目标语音信号中高频部分的那些T-F单元,为了估计其被噪声干扰的程度,需要计算混合信号在各个频率信道上的能量,通过对每一个信道上的信号提取时间包络,进而可得到混合信号在各个信道上的能量E(ci),ci∈[1,128];具体步骤如下:
①在混合语音信号的低频范围内,根据得到的各个频率信道能量E(ci),ci∈[1,64],选择三个能量最大值,按从小到大排序为E0,E1,E2
②对高频范围内的T-F单元进行调整,如果某个频率信道上的能量满足
E(ci)>E0
(13)
则计算该频率信道上所有T-F单元的平均能量
E ′ ( c i ) = E ( c i ) N - - - ( 14 )
其中,N是该频率信道ci中时间帧的总数;
③对于该频率信道ci上的各个T-F单元求取能量值E(ci,m),如果满足下式:
E(ci,m)>E′(ci)
(15)
则认为该T-F单元由噪声干扰主导,将其从目标语音听觉流stream(c,m)=1中去除掉,并且合并到噪声干扰流stream(c,m)=0中;
④通过迭代重组将stream(c,m)=1周围的T-F单元合并到该听觉流,得到最终的目标语音听觉流,即目标语音二值模;
步骤五、对经过步骤四处理的混叠语音进行目标语音重构;利用二值模和Gammatone滤波器结构来合成目标语音信号的时域波形图,从而实现语音信号的分离;目标语音重构的具体步骤如下:
(1)各个Gammatone滤波器信道的输出信号先进行时间反转,并将其结果再次送入Gammatone滤波器;
(2)由于滤波器频率信道间存在相位延迟,需要将上一阶段每个滤波输出的信号再一次时间反转,来消除滤波器本身的时延;
(3)利用每帧20ms,帧移10ms的分帧原则,采用升余弦函数作为窗函数,对各个滤波信道的输出信号分帧处理;
(4)以二值模为权值,即权值1和0,在频率轴上对T-F单元滤波响应进行加权求和,其输出结果即为重构后的目标语音信号。
CN201310384413.XA 2013-08-29 2013-08-29 一种基于计算听觉场景分析的单通道语音盲分离方法 Expired - Fee Related CN103456312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310384413.XA CN103456312B (zh) 2013-08-29 2013-08-29 一种基于计算听觉场景分析的单通道语音盲分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310384413.XA CN103456312B (zh) 2013-08-29 2013-08-29 一种基于计算听觉场景分析的单通道语音盲分离方法

Publications (2)

Publication Number Publication Date
CN103456312A CN103456312A (zh) 2013-12-18
CN103456312B true CN103456312B (zh) 2016-08-17

Family

ID=49738608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310384413.XA Expired - Fee Related CN103456312B (zh) 2013-08-29 2013-08-29 一种基于计算听觉场景分析的单通道语音盲分离方法

Country Status (1)

Country Link
CN (1) CN103456312B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096961B (zh) * 2014-05-06 2019-02-01 华为技术有限公司 语音分离方法和装置
CN104064197B (zh) * 2014-06-20 2017-05-17 哈尔滨工业大学深圳研究生院 一种基于语音帧间动态信息提高语音识别鲁棒性的方法
CN104064196B (zh) * 2014-06-20 2017-08-01 哈尔滨工业大学深圳研究生院 一种基于语音前端噪声消除的提高语音识别准确率的方法
CN105225672B (zh) * 2015-08-21 2019-02-22 胡旻波 融合基频信息的双麦克风定向噪音抑制的系统及方法
CN115719592A (zh) * 2016-08-15 2023-02-28 中兴通讯股份有限公司 一种语音信息处理方法和装置
CN106782565A (zh) * 2016-11-29 2017-05-31 重庆重智机器人研究院有限公司 一种声纹特征识别方法及系统
CN106847302B (zh) * 2017-02-17 2020-04-14 大连理工大学 基于卷积神经网络的单通道混合语音时域分离方法
CN108520756B (zh) * 2018-03-20 2020-09-01 北京时代拓灵科技有限公司 一种说话人语音分离的方法及装置
CN111048110A (zh) * 2018-10-15 2020-04-21 杭州网易云音乐科技有限公司 乐器识别方法、介质、装置和计算设备
CN110191387A (zh) * 2019-05-31 2019-08-30 深圳市荣盛智能装备有限公司 耳机的自动启动控制方法、装置、电子设备及存储介质
CN110398647B (zh) * 2019-06-26 2022-02-15 深圳供电局有限公司 变压器状态监测方法
CN111724806B (zh) * 2020-06-05 2022-09-06 太原理工大学 一种基于深度神经网络的双视角单通道语音分离方法
CN113393850B (zh) * 2021-05-25 2024-01-19 西北工业大学 一种用于端到端时域声源分离系统的参数化听觉滤波器组
CN114758665B (zh) * 2022-06-14 2022-09-02 深圳比特微电子科技有限公司 音频数据增强方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1909064A (zh) * 2006-08-22 2007-02-07 复旦大学 一种在线自然语音卷积混合信号的时域盲分离方法
CN102288285A (zh) * 2011-05-24 2011-12-21 南京航空航天大学 一种单通道振动信号的盲源分离方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007156300A (ja) * 2005-12-08 2007-06-21 Kobe Steel Ltd 音源分離装置、音源分離プログラム及び音源分離方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1909064A (zh) * 2006-08-22 2007-02-07 复旦大学 一种在线自然语音卷积混合信号的时域盲分离方法
CN102288285A (zh) * 2011-05-24 2011-12-21 南京航空航天大学 一种单通道振动信号的盲源分离方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于计算听觉场景分析的单声道;赵立恒;《中国科学技术大学博士毕业论文》;20120501;第17-29页、第45页,附图2-1 *

Also Published As

Publication number Publication date
CN103456312A (zh) 2013-12-18

Similar Documents

Publication Publication Date Title
CN103456312B (zh) 一种基于计算听觉场景分析的单通道语音盲分离方法
CN105845127B (zh) 语音识别方法及其系统
CN106782565A (zh) 一种声纹特征识别方法及系统
CN101430882B (zh) 一种抑制风噪声的方法及装置
CN111081268A (zh) 一种相位相关的共享深度卷积神经网络语音增强方法
CN104485114B (zh) 一种基于听觉感知特性的语音质量客观评估的方法
CN105225672B (zh) 融合基频信息的双麦克风定向噪音抑制的系统及方法
CN103325381A (zh) 一种基于模糊隶属函数的语音分离方法
CN105448303A (zh) 语音信号的处理方法和装置
CN109410976A (zh) 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
CN112017682B (zh) 一种单通道语音同时降噪和去混响系统
Hummersone A psychoacoustic engineering approach to machine sound source separation in reverberant environments
Yoo et al. Speech signal modification to increase intelligibility in noisy environments
CN102157156A (zh) 一种单通道语音增强的方法和系统
Roman et al. Pitch-based monaural segregation of reverberant speech
CN103903632A (zh) 一种多声源环境下的基于听觉中枢系统的语音分离方法
Kim et al. Signal separation for robust speech recognition based on phase difference information obtained in the frequency domain.
CN104078051A (zh) 一种人声提取方法、系统以及人声音频播放方法及装置
CN106531181A (zh) 一种基于谐波提取的欠定语音盲分离方法及装置
Shoba et al. Improving speech intelligibility in monaural segregation system by fusing voiced and unvoiced speech segments
Barros et al. Estimation of speech embedded in a reverberant and noisy environment by independent component analysis and wavelets
Shifas et al. A non-causal FFTNet architecture for speech enhancement
Zeremdini et al. A comparison of several computational auditory scene analysis (CASA) techniques for monaural speech segregation
CN105609099A (zh) 基于人耳听觉特性的语音识别预处理方法
CN110046655B (zh) 一种基于集成学习的音频场景识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160817

Termination date: 20200829