CN105359211A - 语音处理的清音/浊音判决 - Google Patents

语音处理的清音/浊音判决 Download PDF

Info

Publication number
CN105359211A
CN105359211A CN201480038204.2A CN201480038204A CN105359211A CN 105359211 A CN105359211 A CN 105359211A CN 201480038204 A CN201480038204 A CN 201480038204A CN 105359211 A CN105359211 A CN 105359211A
Authority
CN
China
Prior art keywords
parameter
sound
voiced
voiceless
voiceless sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480038204.2A
Other languages
English (en)
Other versions
CN105359211B (zh
Inventor
高扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201910358523.6A priority Critical patent/CN110097896B/zh
Publication of CN105359211A publication Critical patent/CN105359211A/zh
Application granted granted Critical
Publication of CN105359211B publication Critical patent/CN105359211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Abstract

根据本发明一实施例,一种语音处理方法包括确定清音/浊音参数,所述清音/浊音参数反应包括多个帧的语音信号的当前帧中的清音/浊音语音特性。确定平滑后的清音/浊音参数包括所述语音信号的所述当前帧之前的帧中的所述清音/浊音参数的信息。计算所述清音/浊音参数和所述平滑后的清音/浊音参数之间的差值。所述方法还包括生成清音/浊音判决点以便通过将所述计算得出的差值用作判决参数确定所述当前帧包括清音语音还是浊音语音。

Description

语音处理的清音/浊音判决
本发明要求2014年9月3日递交的发明名称为“语音处理的清音/浊音判决(Unvoiced/VoicedDecisionforSpeechProcessing)”的第14/476,547号美国专利申请的在先申请优先权,该在先申请是2013年9月9日递交的发明名称为“语音编码/带宽扩展/语音增强的改进的清音/浊音判决(ImprovedUnvoiced/VoicedDecisionforSpeechCoding/BandwidthExtension/SpeechEnhancement)”的第61/875,198号美国临时专利申请案的连续申请案,这两个在先申请均以引入的方式并入本文本中,如全文再现一般。
技术领域
本发明大体上涉及语音处理领域,尤其涉及用于语音处理的浊音/清音判决方法。
背景技术
语音编码是指一种降低语音文件的比特率的过程。语音编码是一种对包含语音的数字音频信号进行数据压缩的应用。语音编码通过音频信号处理技术使用特定语音参数估计来模拟语音信号,结合通用数据压缩算法以紧凑的比特流表示所得的模拟参数。语音编码的目的是为了通过减少每个样本的比特数来实现节省所需内存存储空间、传输带宽和传输功率的目的,使得已解码(已解压缩)语音在感知上与原始语音难以区分。
然而,语音编码器是有损编码器,即,已解码信号不同于原始信号。因此,语音编码的目标之一是为了使失真(或可感知损失)在给定比特率下最小化,或者使比特率最小化以达到给定的失真。
语音编码与其它形式的音频编码的不同之处在于语音是一种比大多数其它音频信号简单地多的信号,而且关于语音特性的统计信息更多。因此,与音频编码相关的一些听觉信息在语音编码上下文中可以是不必要的。在语音编码中,最重要的原则是用有限的传输数据保证语音的清晰度和“愉悦度”。
语音的清晰度,除了包括实际文字内容,还包括说话者身份、情绪、语调、音色,所有这些对于最佳清晰度都很重要。退化语音的愉悦度是一个较抽象概念,它是不同于清晰度的一个特性,因为退化语音有可能是完全清晰的,但是主观上另听众厌烦。
语音波形的冗余与不同类型的语音信号有关,例如浊音和清音语音信号。浊音,例如‘a’、‘b’,基本上是由于声带的振动而产生的,而且是振荡的。因此,在一个较短时间周期内,通过正弦等周期性信号的叠加可以很好地模拟它们。换言之,浊音语音信号基本上是周期性的。然而,这种周期性在语音片段的持续时间内可能是变化的,而且周期波的形状通常从一个片段到另一片段逐渐地变化。低比特率语音编码可以大大受益于研究这种周期性。浊音语音周期还被称为基音(pitch),基音预测通常被称为长期预测(LTP)。相比之下,清音,例如‘s’、‘sh’,更像噪声。这是因为清音语音信号更像一种随机噪声,并且具有更小的可预测性。
传统上,所有参数语音编码方法利用语音信号内在的冗余来减少发送的信息量以及在短的间隔内估计信号的语音样本的参数。这种冗余主要是由语音波形以准周期速率重复,以及语音信号的频谱包络变化缓慢造成的。
可以参考若干不同类型的语音信号,例如浊音和清音,考虑语音波形的冗余。尽管浊音语音信号基本上是周期性的,但是这种周期性在语音片段的持续时间内可能是变化的,而且周期性波的形状通常随着片段而逐渐地变化。低比特率语音编码可以大大受益于研究这种周期性。浊音语音周期还被称为基音,基音预测通常被称为长期预测(LTP)。至于清音语音,信号更像一种随机噪声,并且具有更小的可预测性。
在任一情况下,参数编码可以用于通过将语音信号的激励分量与频谱包络分量分离来减少语音片段的冗余。缓慢变化的频谱包络可以通过线性预测编码(LPC),也称为短期预测(STP)表示。低比特率语音编码还可以大大受益于研究此种短期预测。编码的优势来自于参数的缓慢变化。然而,这些参数与在几毫秒内保持的值明显不同是很少见的。相应地,在8kHz、12.8kHz或16kHz的采样速率下,语音编码算法采用的标称帧持续时间的范围在十到三十毫秒内。20毫秒的帧持续时间是最常见的选择。
在最近的著名标准,例如G.723.1、G.729、G.718、增强型全速率(EFR)、可选择模式声码器(SMV)、自适应多速率(AMR)、可变速率多模式宽带(VMR-WB),或自适应多速率宽带(AMR-WB)中,已经采用了码激励线性预测技术(“CELP”)。CELP通常理解为编码激励、长期预测和短期预测的技术组合。CELP主要利用人类声音特性或人类嗓音发声模型对语音信号进行编码。CELP语音编码在语音压缩领域是一种非常普遍的算法原理,尽管不同编解码器中的CELP细节可能会有很大不同。由于它的普遍性,CELP算法已经应用于ITU-T、MPEG、3GPP和3GPP2等各种标准中。CELP的变体包括代数CELP、广义CELP、低时延CELP和矢量和激励线性预测,以及其它。CELP是一类算法的通用术语,而不是指特定的编解码器。
CELP算法基于四个主要观点。第一,使用通过线性预测(LP)的用于语音生成的源滤波器模型。用于语音生成的源滤波器将语音模拟为声源,例如声带,和线性声滤波器,即声道(和辐射特性)的组合。在语音生成的源滤波器模型的实施方式中,声源或激励信号通常被模拟为浊音语音的周期性脉冲序列,或清音语音的白噪声。第二,将自适应和固定码本用作LP模型的输入(激励)。第三,在“感知加权域”的闭环中中执行搜索。第四,使用了矢量量化(VQ)。
发明内容
根据本发明一实施例,一种语音处理方法包括确定清音/浊音参数,所述清音/浊音参数反映包括多个帧的语音信号的当前帧中的清音/浊音语音特性。确定平滑后的清音/浊音参数,所述平滑后的清音/浊音参数包括所述语音信号的所述当前帧之前的帧中的清音/浊音参数的信息。计算所述清音/浊音参数和所述平滑后的清音/浊音参数之间的差值。所述方法还包括使用所述计算得出的差值作为判决参数来生成清音/浊音判决点,该清音/浊音判决点用于确定所述当前帧是否包括清音语音或浊音语音。
在一个可选的实施例中,一种语音处理装置包括处理器,以及存储由所述处理器执行的程序的计算机可读存储介质。所述程序包括执行以下操作的指令:确定清音/浊音参数,所述清音/浊音参数反映包括多个帧的语音信号的当前帧中的清音/浊音语音特征;以及确定平滑后的清音/浊音参数包括所述语音信号的所述当前帧之前的帧中的清音/浊音参数的信息。所述程序还包括执行以下操作的指令:计算所述清音/浊音参数和所述平滑后的清音/浊音参数之间的差值,以及使用所述计算得出的差值作为判决参数以生成清音/浊音判决点,该清音/浊音判决点用于确定所述当前帧是否包括清音语音或浊音语音。
在一个可选的实施例中,一种语音处理方法包括提供语音信号的多个帧,以及为当前帧从所述语音信号在时域中的第一能量包络中的第一频带确定第一参数和从所述语音信号在时域中的第二能量包络中的第二频带确定第二参数。从所述语音信号的先前帧中确定平滑后的第一参数和平滑后的第二参数。将所述第一参数与所述平滑后的第一参数进行比较,以及将所述第二参数与所述平滑后的第二参数进行比较。将所述比较结果作为判决参数以生成清音/浊音判决点,该清音/浊音判决点用于确定所述当前帧是否包括清音语音或浊音语音。
附图说明
为了更完整地理解本发明及其优点,现在参考下文结合附图进行的描述,其中:
图1示出了根据本发明实施例的低频带语音信号的时域能量评估;
图2示出了根据本发明实施例的高频带语音信号的时域能量评估;
图3示出了在使用实施本发明实施例的传统CELP编码器对原始语音进行编码期间执行的操作;
图4示出了在使用实施本发明实施例的传统CELP解码器对原始语音进行解码期间执行的操作;
图5示出了在实施本发明实施例时使用的传统CELP编码器;
图6示出了根据本发明实施例的对应于图5中的编码器的基础CELP解码器;
图7示出了用于构建CELP语音编码的编码激励码本或固定码本的噪声型候选矢量;
图8示出了用于构建CELP语音编码的编码激励码本或固定码本的脉冲型候选矢量;
图9示出了浊音语音的激励频谱的示例;
图10示出了清音语音的激励频谱的示例;
图11示出了背景噪声信号的激励频谱的示例;
图12A和12B示出了利用带宽扩展的频域编码/解码的示例,其中图12A示出了具有BWE边信息的编码器,而图12B示出了具有BWE的解码器;
图13A至13C描述了根据以上所述的各种实施例的语音处理操作;
图14示出了根据本发明实施例的通信系统10;以及
图15示出了可以用于实施本文公开的设备和方法的处理系统的方框图。
具体实施方式
在现代音频/语音数字信号通信系统中,数字信号在编码器处压缩,已压缩信息或比特流可以打包并且通过通信信道逐帧向解码器发送。解码器接收并解码已压缩信息以获得音频/语音数字信号。
为了更高效地对语音信号进行编码,可以将语音信号分类为不同类,而且以不同的方式对每类进行编码。例如,在G.718、VRM-WB或AMR-WB等一些标准中,将语音信号分类为UNVOICED、TRANSITION、GENERIC、VOICED和NOISE。
浊音语音信号是一种准周期性类型的信号,这种信号的能量在低频率区域比在高频率区域多。相比之下,清音语音信号是一种噪声型信号,这种信号的能量在高频率区域比在低频率区域多。清音/浊音分类或清音判决广泛用于语音信号编码、语音信号带宽扩展、语音信号增强和语音信号背景噪声降低(NR)领域。
在语音编码中,可以以不同方式对清音语音信号和浊音语音信号进行编码/解码。在语音信号带宽扩展中,可以以不同的方式控制清音语音信号和浊音语音信号的扩展高频带信号能量。在语音信号背景噪声降低中,用于清音语音信号和浊音语音信号的NR算法可能不同。所以,鲁棒性的清音判决对于上述各种应用来说很重要。
本发明实施例提高了在语音编码、带宽扩展和/或语音增强操作之前将音频信号分类为浊音信号或清音信号的精确性。因此,本发明实施例可以应用于语音信号编码、语音信号带宽扩展、语音信号增强和语音信号背景噪声降低。尤其是,本发明实施例可用于在带宽扩展方面改进ITU-TAMR-WB标准的语音编码器。
根据本发明实施例的语音信号特性的图解将通过图1和2示出,这些语音信号特性用于提高将音频信号分类为浊音信号或清音信号的精确性。在两种区域中估计语音信号:以下说明中的低频带和高频带。
图1示出了根据本发明实施例的低频带语音信号的时域能量评估。
低频带语音的时域能量包络1101是随时间平滑的能量包络并且包括由清音语音区域1103和浊音语音区域1104分离的第一背景噪声区域1102和第二背景噪声区域1105。浊音语音区域1104中的低频浊音语音信号的能量比清音语音区域1103中的低频清音语音信号的高。此外,低频清音语音信号的能量高于或接近于低频背景噪声信号的能量。
图2示出了根据本发明实施例的高频带语音信号的时域能量评估。
相比于图1,高频语音信号具有不同的特性。高频带语音信号1201的时域能量包络,其为随时间平滑的能量包络,包括由清音语音区域1203和浊音语音区域1204分离的第一背景噪声区域1202和第二背景噪声区域1205。高频浊音语音信号的能量比高频清音语音信号的低。高频清音语音信号的能量相比于高频背景噪声信号的高得多。然而,高频清音语音信号1203的时长比浊音语音1204的时长要相对短一些。
本发明实施例利用时域中不同频带的浊音和清音语音之间的特性的这种差别。例如,可以通过确定信号的能量高于对应的清音信号在低频带而不是高频带下的能量来确定当前帧中的信号是浊音信号。类似地,可以通过确定信号的能量低于对应浊音信号在低频带下的能量但是高于对应浊音信号在高频带下的能量来确定当前帧中的信号是清音信号。
传统上,使用两个主要参数来检测清音/浊音语音信号。一个参数表示信号周期,而另一个参数指示频谱倾斜,频谱倾斜是频率增加时强度下降的程度。
下面的公式(1)中提供了一个普遍的信号周期参数
P v o i c i n g 1 = &Sigma; n s w ( n ) &CenterDot; s w ( n - P i t c h ) ( &Sigma; n | s w ( n ) | 2 ) ( &Sigma; n | s w ( n - P i t c h ) | 2 ) = < s w ( n ) , s w ( n - P i t c h ) > | | s w ( n ) | | 2 | | s w ( n - P i t c h ) | | 2 - - - ( 1 )
在公式(1)中,sw(n)是加权语音信号,分子是一个相关性系数,而分母是一个能量归一化因子。周期参数还被称为“基音相关性”或“浊音”。下面的公式(2)中提供了另一浊音参数的示例。
P v o i c n g 2 = &Sigma; n | G p &CenterDot; e p ( n ) | 2 - &Sigma; n | G c &CenterDot; e c ( n ) | 2 &Sigma; n | G p &CenterDot; e p ( n ) | 2 + &Sigma; n | G c &CenterDot; e c ( n ) | 2 = | | G p &CenterDot; e p ( n ) | | 2 - | | G c &CenterDot; e c ( n ) | | 2 | | G p &CenterDot; e p ( n ) | | + | | G c &CenterDot; e c ( n ) | | 2 - - - ( 2 )
在公式(2)中,ep(n)和ec(n)是激励分量信号,并且将在下面进一步描述。在各种应用中,可以使用公式(1)和(2)的一些变体,但是它们仍然可以表示信号周期性。
下面的公式(3)中提供了最普遍的频谱倾斜参数。
P t i l t 1 = &Sigma; n s ( n ) &CenterDot; s ( n - 1 ) &Sigma; n | s ( n ) | 2 = < s ( n ) , s ( n - 1 ) > | | s w ( n ) | | 2 - - - ( 3 )
在公式(3)中,s(n)是语音信号。如果频域能量可获得,则可以如公式(4)所示描述频谱倾斜参数。
P t i l t 2 = E L B - E H B E L B + E H B - - - ( 4 )
在公式(4)中,ELB是低频带能量,而EHB是高频带能量。
可以反映频谱倾斜的另一参数被称为过零率(ZCR)。ZCR在帧或子帧上计算正/负信号变化速率。通常,当高频带能量相对于低频带能量高时,ZCR也高。否则,当高频带能量相对于低频带能量低时,ZCR也低。在实际应用中,可以使用公式(3)和(4)的一些变体,但是它们仍然可以表示频谱倾斜。
如先前所述,清音/浊音分类或清音判决广泛用于语音信号编码、语音信号带宽扩展(BWE)、语音信号增强和语音信号背景噪声降低(NR)领域。
在语音编码中,如将随后说明的那样,可以通过使用噪声型激励对清音语音信号进行编码,以及可以利用脉冲型激励对浊音语音信号进行编码。在语音信号带宽扩展中,清音语音信号的扩展高频带信号能量可能会增加,而浊音语音信号的扩展高频带信号能量可能会降低。在语音信号背景噪声降低(NR)中,用于清音语音信号的NR算法不那么激进,而用于浊音语音信号的NR算法较为激进。所以,鲁棒性的清音或浊音判决对于上述各种应用来说很重要。基于清音语音和浊音语音的特性,周期参数Pvoicing和频谱倾斜参数Ptilt或它们变体参数大多数都用于检测清音/浊音类别。然而,本发明的发明人发现周期参数Pvoicing和频谱倾斜参数Ptilt或它们变体参数的“绝对”值会受到语音信号记录设备、背景噪声水平和/或说话者的影响。这些影响难以预先确定,有可能导致非鲁棒性的清音/浊音语音检测。
本发明实施例描述一种改进的清音/浊音语音检测,它使用周期参数Pvoicing和频谱倾斜参数Ptilt或它们变体参数的“相对”值而不是“绝对”值。“相对”值受语音信号记录设备、背景噪声水平和/或说话者的影响比“绝对”值的少得多,从而导致清音/浊音语音检测的鲁棒性更好。
例如,一个组合清音参数的定义可以如下面的公式(5)所示。
Pc_unvoicing=(1-Pvoicing)·(1-Ptilt)·····(5)
公式(11)末尾处的多个点表明还可以添加其它参数。当Pc_unvoicing的“绝对”值变大时,其很可能是清音语音信号。可以如下面的公式(6)所示描述组合浊音参数。
Pc_voicing=Pvoicing·Ptilt·····(6)
公式(6)末尾处的多个点表明可以添加其它参数。当Pc_voicing的“绝对值”变大时,其有可能是浊音语音信号。在定义Pc_unvoicing或Pc_voicing的“相对”值之前,首先定义Pc_unvoicing或Pc_voicing的强平滑后的参数。例如,如下面的公式(7)中的不等式所述,针对当前帧的参数可以由前一帧参数平滑后得到。
在公式(7)中,Pc_unvoicing_sm是Pc_unvoicing的强平滑后的值。
类似地,可以使用下面的公式(8)中的不等式来确定平滑后的组合浊音参数Pc_voicing_sm
此处,在公式(8)中,Pc_voicing_sm是Pc_voicing的强平滑后的值。
浊音语音的统计特征不同于清音语音的统计特征,因此,在各种实施例中,可以确定决定上述不等式的参数(例如,0.9、0.99、7/8,255/256)并且在必要时根据实验进一步精细化。
可以如下所述的公式(9)和(10)所示定义Pc_unvoicing或Pc_voicing的“相对”值。
Pc_unvoicing_diff=Pc_unvoicing-Pc_unvoicing_sm(9)
Pc_unvoicing_diff是Pc_unvoicing的“相对”值;类似地,
Pc_voicing_diff=Pc_voicing-Pc_voicing_sm(10)
Pc_voicing_diff是Pc_voicing的“相对”值。
下面的不等式是采用清音检测的示例实施例。在该示例实施例中,将标记Unvoiced_flag设置为TURE指示语音信号是清音语音,而将标记Unvoiced_flag设置为FALSE指示语音信号不是清音语音。
下面的不等式是采用浊音检测的替代性示例实施例。在该示例实施例中,将Voiced_flag设置为TRUE指示语音信号是浊音语音,而将Voiced_flag设置为FALSE指示语音信号不是浊音语音。
在确定语音信号是来自VOICED类之后,随后可以利用CELP等时域编码方法对语音信号进行编码。本发明实施例还可以应用于在编码之前将UNVOICED信号重新分类为VOICED信号。
在各种实施例中,可以使用上述改进的清音/浊音检测算法来改进AMR-WB-BWE和NR。
图3示出了在使用实施本发明实施例的传统CELP编码器对原始语音进行编码期间执行的操作。
图3示出了传统初始CELP编码器,其中通常通过使用合成分析方法使合成语音102和原始语音101之间的加权误差109最小化,这意味着通过在一个闭环中感知优化已解码(合成)信号以执行编码(分析)。
所有语音编码器利用的基本原理是语音信号是高度相关的波形这一事实。作为说明,可以使用如下公式(11)所示的自回归(AR)模型表示语音。
X n = &Sigma; i = 1 L a i X n - 1 + e n - - - ( 11 )
在公式(11)中,每个样本被表示为前L个样本加白噪声的线性组合。加权系数a1、a2……aL被称为线性预测系数(LPC)。对于每个帧,选择加权系数a1、a2……aL,使得使用上述模型生成的频谱{X1、X2……XN}最匹配输入语音帧的频谱。
可选地,语音信号还可以通过谐波模型和噪声模型的组合表示。模型的谐波部分实际上是信号的周期性分量的傅里叶级数表示。一般而言,对于浊音信号,语音的谐波加噪声模型由谐波和噪声的混合而成。浊音语音中的谐波和噪声的比例取决于多个因素,包括说话者特征(例如,说话者的声音在哪个程度上是正常的还是像呼吸声);语音片段特征(例如,语音片段在哪个程度上是周期性的)以及频率。浊音语音的较高频率具有较高比例的噪声型分量。
线性预测模型和谐波噪声模型是用于对语音信号进行建模和编码的两个主要方法。线性预测模型尤其擅长对语音的频谱包络进行建模,而谐波噪声模型擅长对语音的精细结构进行建模。可以组合这两个方法以利用它们各自的优势。
如先前所指示,在进行CELP编码之前,例如以每秒8000个样本的速率,对到达手机麦克风的输入信号进行滤波和采样。随后,例如利用每个样本13个比特对每个样本进行量化。将采样的语音分段成20ms的片段或帧(例如,在160个样本的情况下)。
分析语音信号,并且提取它的LP模型、激励信号和基音。LP模型表示语音的频谱包络。它被转换到一组线谱频率(LSF)系数,其是线性预测参数的替代性表示,因为LSF系数具有良好的量化特性。可以对LSF系数进行标量量化,或者更高效地,可以使用预先训练的LSF矢量码本对它们进行矢量量化。
码激励包括含有码矢量的码本,这些码矢量具有全部独立选择的分量,使得每个码矢量可以具有近似‘白’频谱。对于输入语音的每个子帧而言,通过短期线性预测滤波器103和长期预测滤波器105对每个码矢量进行滤波,并且将输出与语音样本进行比较。在每个子帧处,选择输出与输入语音(最小化的误差)匹配最佳的码矢量来表示该子帧。
编码激励108通常包括脉冲型信号或噪声型信号,这些在数学上构建或保存在码本中。该码本可用于编码器和接收方解码器。编码激励108,其可以是随机或固定码本,可以是(隐式或显式)硬编码到编解码器的矢量量化字典。此种固定码本可以是代数码激励线性预测或可以显式存储。
码本中的码矢量乘以适当的增益调整以使能量等于输入语音的能量。相应地,编码激励108的输出在进入线性滤波器之前乘以增益Gc107。
短期线性预测滤波器103对码矢量的‘白’频谱进行整形以类似于输入语音的频谱。同样地,在时域中,短期线性预测滤波器103将短期相关性系数(与在先样本的相关性)并入白序列中。对激励进行整形的滤波器具有形式为1/A(z)的全极点模型(短期线性预测滤波器103),其中A(z)被称为预测滤波器并且可通过线性预测(例如,莱文森—德宾算法)获得。在一个或多个实施例中,可以使用全极点滤波器,因为它能很好地表现人类声道,而且很容易计算。
短期线性预测滤波器103可以通过分析原始信号101获得并且通过一组系数表示:
A ( z ) = &Sigma; i = 1 P 1 + a i &CenterDot; z - i , i = 1 , 2 , .... , P - - - ( 12 )
如先前所述,浊音语音的区域显示长周期性。这种周期,称为基音,被基音滤波器1/(B(z))引入到合成频谱中。长期预测滤波器105的输出取决于基音和基音增益。在一个或多个实施例中,可以从原始信号、残差信号或加权原始信号中估计该基音。在一个实施例中,可以使用如下公式(13)表示长期预测函数(B(z))。
B(z)=1-Gp·z-Pitch(13)
加权滤波器110与上述短期预测滤波器有关。可以如公式(14)所述表示其中一个典型的加权滤波器。
W ( z ) = A ( z / &alpha; ) 1 - &beta; &CenterDot; z - 1 - - - ( 14 )
其中β<α,0<β<1,0<α≤1。
在另一个实施例中,如下公式(15)中的一个实施例所示,可以通过使用带宽扩展从LPC滤波器中得出加权滤波器W(z)。
W ( z ) = A ( z / &gamma; 1 ) A ( z / &gamma; 2 ) - - - ( 15 )
在公式(15)中,γ1>γ2,它们是极点向原点移动的因子。
相应地,对于语音的每个帧,计算LPC和基音,并且更新滤波器。对于语音的每个子帧,选择产生‘最佳’滤波的输出的码矢量来表示子帧。增益对应的量化值必须传输给解码器以便进行适当的解码。LPC和基音值也必须进行量化并且每帧发送以便在解码器处重构滤波器。相应地,编码激励索引、量化增益索引、量化长期预测参数索引和量化短期预测参数索引也被传输至解码器。
图4示出了根据本发明实施例的在使用CELP解码器对原始语音进行解码期间执行的操作。
通过将接收到的码矢量通过对应的滤波器在解码器处重构语音信号。因此,除了后处理之外的每个块具有如图3的编码器所述的相同定义。
在接收方设备处接收和解开80已编码CELP比特流。对于每个接收到的子帧,使用接收到的编码激励索引、量化增益索引、量化长期预测参数索引和量化短期预测参数索引通过对应的解码器,例如,增益解码器81、长期预测解码器82和短期预测解码器83求出对应的参数。例如,可以从接收到的编码激励索引中确定激励脉冲的位置和幅度信号以及码激励402的代数码矢量。
参考图4,解码器是若干块的组合,该解码器包括编码激励201、长期预测203、短期预测205。初始解码器还包括合成语音206之后的后处理块207。后处理还可包括短期后处理和长期后处理。
图5示出了在实施本发明实施例中使用的传统CELP编码器。
图5示出了使用额外的自适应码本用于改进长期线性预测的基本CELP编码器。通过将自适应码本307和码激励308的贡献相加产生激励,码激励308可以是如先前所述的随机或固定码本。自适应码本中的条目包括激励的时延版本。这使得它有可能有效率地对周期性信号,例如浊音,进行编码。
参考图5,自适应码本307包括过去合成激励304或在基音周期内重复过去激励基音循环。当基音延迟很大或很长时,可以将它编码为整数值。当基音延迟很小或很短时,通常将它编码为更准确的分数值。使用基音的周期性信息以生成激励的自适应分量。这种激励分量随后由增益Gp305(还称为基音增益)调整。
长期预测对于浊音语音编码非常重要,因为浊音语音具有强的周期。浊音语音的相邻基音周期彼此相似,这意味着在数学上,下面激励表达中的基音增益Gp很高或接近于1。所得的激励在公式(16)中可以表示为各个激励的组合。
e(n)=Gp·ep(n)+Gc·ec(n)(16)
其中,ep(n)是索引为n的样本序列的一个子帧,来自于自适应码本307,其包括经过反馈回路(图5)的过去激励304。ep(n)可以自适应地低通滤波为低频率区域,该低频率区域的周期和谐波通常比高频率区域的多。ec(n)来自编码激励码本308(还称为固定码本),其是当前激励贡献。此外,例如通过使用高通滤波增强、基音增强、色散增强、共振峰增强和其它还可以增强ec(n)。
对于浊音语音,自适应码本307中的ep(n)的贡献可能是主导的,而且基音增益Gp305的值约为1。通常更新每个子帧的激励。典型的帧大小是20毫秒,而典型的子帧大小是5毫秒。
如图3所述,固定编码激励308在进入线性滤波器之间由增益Gc306调整。在通过短期线性预测滤波器303进行滤波之前将固定码本激励108和自适应码本307中的两个调整的激励分量相加在一起。量化这两个增益(Gp和Gc)并向解码器传输。相应地,向接收方音频设备传输编码激励索引、自适应码本索引、量化增益索引和量化短期预测参数索引。
在接收方设备处接收使用图5所示的设备进行编码的CELP比特流。图6示出了接收方设备的对应解码器。
图6示出了根据本发明实施例的对应于图5中的编码器的基本CELP解码器。图6包括接收来自主要解码器的合成语音407的后处理块408。该解码器类似于图2,除了自适应码本307。
对于接收到的每个子帧,使用接收到的编码激励索引、量化编码激励增益索引、量化基音索引、量化自适应码本增益索引和量化短期预测参数索引以通过对应的解码器,例如,增益解码器81、基音解码器84、自适应码本增益解码器85和短期预测解码器83求出对应的参数。
在各种实施例中,CELP解码器是若干块的组合并且包括编码激励402、自适应码本401、短期预测406和后处理器408。除了后处理,每个块具有如图5的编码器所述的相同定义。后处理还可包括短期后处理和长期后处理。
如前所述,CELP主要用于通过受益于具体人类声音特征或人类嗓音发声模型对语音信号进行编码。为了更高效地对语音信号进行编码,可以将语音信号分类为不同类,而且以不同的方式对每类进行编码。浊音/清音分类或清音判决可能是所有不同类的所有分类中的一种重要和基本分类。对于每类,经常使用LPC或STP滤波器来表示频谱包络。但是对LPC滤波器的激励可能是不同的。清音信号可以利用噪声型激励进行编码。另一方面,浊音信号可以利用脉冲型激励进行编码。
码激励块(参考图5中的标号308和图6中的402)示出了固定码本(FCB)的位置以便进行一般的CELP编码。从FCB中选择的码矢量由通常示为Gc306的增益调整。
图7示出了用于构建CELP语音编码的编码激励码本或固定码本的噪声型候选矢量。
包含噪声型矢量的FCB从感知质量的角度看可能是清音信号的最佳结构。这是因为自适应码本贡献或LTP贡献将会很小或不存在,而且主要的激励贡献取决于清音类信号的FCB分量。在这种情况下,如果使用脉冲型FCB,则输出合成语音信号会听起来很尖锐,因为从设计用于低比特率编码的脉冲型FCB中选择的码矢量中存在很多零。
参考图7,包括噪声型候选矢量的FCB结构用于构建编码激励。噪声型FCB501选择特定的噪声型码矢量502,其乘以503调整。
图8示出了用于构建CELP语音编码的编码激励码本或固定码本的脉冲型候选矢量。
从感知的角度看,浊音类信号的脉冲型FCB比噪声型FCB提供更好的质量。这是因为自适应码本贡献或LTP贡献将会主要用于高周期性浊音类语音,而且主要的激励贡献不依赖于浊音类信号的FCB分量。如果使用噪声型FCB,则输出合成语音信号可能听起来像噪声或周期性较少,因为它更难通过使用从设计用于低比特率编码的噪声型FCB中选择的码矢量得到良好的波形匹配。
参考图8,FCB结构可以包括用于构建编码激励的多个脉冲型候选矢量。。脉冲型码矢量602是从脉冲型FCB601中选择的并且乘以增益603。
图9示出了浊音语音的激励频谱的示例。在移除LPC频谱包络704之后,激励频谱702几乎是平的。低频带激励频谱701的谐波通常比高频带频谱703的多。理论上,理想化或非量化高频带激励频谱的能量级可能与低频带激励频谱的几乎相同。实际上,如果利用CELP技术对低频带和高频带都进行编码,则合成或量化高频带频谱的能量级可能比合成或量化低频带频谱的低,原因有两点。第一,闭环CELP编码更多地强调低频带而不是高频带。第二,低频带信号的波形匹配比高频带的容易,不仅因为高频带信号变化比较快而且还因为高频带信号具有更像噪声的特征。
在低比特率CELP编码,例如AMR-WB中,通常不对高频带进行编码,而是利用带宽扩展(BWE)技术在解码器中生成高频带。在这种情况下,高频带激励频谱可以简单地从低频带激励频谱复制而来,同时添加一些随机噪声。可以从低频带频谱能量包络预测或估计高频带频谱能量包络。适当地控制高频带信号能量在使用BWE时变得很重要。与清音语音信号不同,生成的高频带浊音语音信号的能量必须适当地减少以获得最佳的感知质量。
图10示出了清音语音的激励频谱的示例。
在清音语音的情况下,激励频谱802在移除LPC频谱包络804之后几乎是平的。低频带激励频谱801和高频带频谱803都是噪声型的。理论上,理想化或非量化高频带激励频谱的能量级可能与低频带激励频谱的几乎相同。实际上,如果利用CELP技术对低频带和高频带都进行编码,则合成或量化高频带频谱的能量级可能与合成或量化低频带频谱的相同或稍微较高,原因有两点。第一,闭环CELP编码更多地强调较高能量区域。第二,尽管低频带信号的波形匹配比高频带信号的容易,但是对于噪声型信号,很难获得良好的波形匹配。
类似于浊音语音编码,对于清音低比特率的CELP编码,例如AMR-WB,通常不对高频带进行编码,但是利用BWE技术在解码器中生成高频带。在这种情况下,清音高频带激励频谱可以简单地从清音低频带激励频谱复制而来,同时添加一些随机噪声。可以从低频带频谱能量包络预测或估计清音语音信号的高频带频谱能量包络。适当地控制清音高频带信号的能量在使用BWE时尤其重要。与浊音语音信号不同,生成的高频带清音语音信号的能量最好适当地增加以获得最佳的感知质量。
图11示出了背景噪声信号的激励频谱的示例。
激励频谱902在移除LPC频谱包络904之后几乎是平的。低频带激励频谱901,其通常是噪声型,作为高频带频谱903。理论上,背景噪声信号的理想化或非量化高频带激励频谱可能具有与低频带激励频谱几乎相同的能量级。实际上,如果利用CELP技术对低频带和高频带都进行编码,则背景噪声信号的合成或量化高频带频谱的能量级可能比合成或量化低频带频谱的低,原因有两点。第一,闭环CELP编码更多地强调比高频带的能量高的低频带。第二,低频带信号的波形匹配比高频带信号的容易。类似于语音编码,对于背景噪声信号的低比特速率CELP编码,通常不对高频带进行编码,但是利用BWE技术在解码器中生成高频带。在这种情况下,背景噪声信号的高频带激励频谱可以简单地从低频带激励频谱复制而来,同时添加一些随机噪声;可以从低频带频谱能量包络预测或估计背景噪声信号的高频带频谱能量包络。控制高频带背景噪声信号可能在使用BWE时不同于语音信号。与语音信号不同,生成的高频带背景噪声语音信号的能量最好随着时间的推移保持稳定以实现最佳感知质量。
图12A和12B示出了利用带宽扩展的频域编码/解码的示例。图12A示出了具有BWE边信息的编码器,而图12B示出了具有BWE的解码器。
首先参考图12A,通过使用低频带参数1002在频域中对低频带信号1001进行编码。量化低频带参数1002,并且通过比特流信道1003向接收方音频接入设备传输量化索引。通过使用高频带边参数1005使用少量比特对从音频信号1004中提取的高频带信号进行编码。通过比特流信道1006向接收方音频接入设备传输量化的高频带边参数(HB边信息索引)。
参考图12B,在解码器处,使用低频带比特流1007产生已解码的低频带信号1008。高频带边比特流1010用于解码和生成高频带边参数1011。在高频带边参数1011的帮助下从低频带信号1008生成高频带信号1012。最终音频信号1009通过组合低频带信号和高频带信号产生。频域BWE还需要对生成的高频带信号进行适当的能量控制。针对清音、浊音和噪声信号,可以设置不同的能量级。所以,语音信号的高质量分类同样需要频域BWE。
背景噪声降低算法的相关细节在下文进行描述。一般而言,因为清音语音信号是噪声型的,所以清音区中的背景噪声降低(NR)应该没有浊音区的激进,受益于噪声掩码处理影响。换言之,相同级的背景噪声在浊音区中比在清音区中更能听得见,使得NR应该在浊音区中比在清音区中激进。在此种情况下,需要高质量的清音/浊音判决。
一般而言,清音语音信号是噪声型信号,其没有周期性。此外,清音语音信号在高频率区域比在低频率区域具有更多的能量。相比之下,浊音语音信号具有相反的特征。例如,浊音语音信号是一种准周期性类型的信号,这种信号通常在低频率区域比在高频率区域具有更多的能量(同样参见图9和10)。
图13A至13C为使用上述语音处理的各种实施例的语音处理的示意图。
参考图13A,一种语音处理方法包括接收待处理的语音信号的多个帧(方框1310)。在各种实施例中,语音信号的多个帧可以在同一音频设备内生成,如麦克风等。在一个可选的实施例中,作为示例,可以在音频设备处接收语音信号。例如,随后可以对语音信号进行编码或解码。对于每个帧,确定反映当前帧中清音/浊音语音特征的清音/浊音参数(方框1312)。在各种实施例中,清音/浊音参数可包括周期参数、频谱倾斜参数,或其它变体。该方法还包括确定平滑后的清音参数,该平滑后的清音参数包括语音信号的先前帧中的清音/浊音参数的信息(方框1314)。获得清音/浊音参数和平滑后的清音/浊音参数之间的差值(方框1316)。可选地,可以获得清音/浊音参数和平滑后的清音/浊音参数之间的相对值(例如,比率)。当决定当前帧是否更适合处理为清音/浊音语音时,使用确定出的差值作为判决参数做出清音/浊音判决(方框1318)。
参考图13B,一种语音处理方法包括接收语音信号的多个帧(方框1320)。这里使用浊音参数来描述该实施例,但使用清音参数也同样适用。为每个帧确定组合浊音参数(方框1322)。在一个或多个实施例中,组合浊音参数可以是周期性参数和倾斜参数以及平滑的组合浊音参数。可以通过在语音信号的一个或多个先前帧上平滑处理组合浊音参数以获得平滑的组合浊音参数。将组合浊音参数与平滑的组合浊音参数进行比较(方框1324)。使用判决中的比较结果将当前帧分类为VOICED语音信号或UNVOICED语音信号(方框1326)。可以根据确定出的语音信号的分类来处理,例如,编码或解码,语音信号(方框1328)。
接着参考图13C,在另一示例实施例中,一种语音处理方法包括接收语音信号的多个帧(方框1330)。确定语音信号在时域中的第一能量包络(方框1332)。可以在第一频带,例如达到4000Hz等的低频带内确定第一能量包络。可以使用先前帧从第一能量包络确定平滑后的低频带能量。计算语音信号的低频带能量与平滑后的低频带能量的差值或第一比率(方框1334)。确定语音信号在时域中的第二能量包络(方框1336)。在第二频带内确定第二能量包络。第二频带不同于第一频带。例如,第二频带可能是高频带。在一个示例中,第二频带可能在4000Hz和8000Hz之间。基于语音信号的一个或多个先前帧计算平滑后的高频带能量。使用每帧的第二能量包络确定差值或第二比率(方框1338)。可以计算第二比率为当前帧中的语音信号的高频带能量与平滑后的高频带能量之间的比率。使用判决中的第一比率和第二比率将当前帧分类为VOICED语音信号或UNVOICED语音信号(方框1340)。根据确定出的语音信号的分类可以处理,例如,编码或解码,分类后的语音信号(方框1342)。
在一个或多个实施例中,当确定语音信号为UNVOICED语音信号时,使用噪声型激励对语音信号进行编码/解码,以及当确定语音信号为VOICED信号时,使用脉冲型激励对语音信号进行编码/解码。
在其它实施例中,当确定语音信号为UNVOICED信号时,在频域中对语音信号进行编码/解码,以及当确定语音信号为VOICED信号时,在时域中对语音信号进行编码/解码。
相应地,本发明实施例可用于改进语音编码、带宽扩展和/或语音增强的清音/浊音判决。
图14示出了根据本发明实施例的通信系统10。
通信系统10具有经由通信链路38和40耦合到网络36的音频接入设备7和8。在一个实施例中,音频接入设备7和8是基于IP的语音传输(VOIP)设备,以及网络36是广域网(WAN)、公共交换电话网络(PSTB)和/或互联网。在另一实施例中,通信链路38和40是有线和/或无线宽带连接。在另一个可选的实施例中,音频接入设备7和8是蜂窝或移动电话,链路38和40是无线移动电话信道,而且网络36表示移动电话网络。
音频接入设备7使用麦克风12将声音,例如音乐或人的声音转换为模拟音频输入信号28。麦克风接口16将模拟音频输入信号28转换成数字音频信号33以输入到编解码器20的编码器22中。根据本发明实施例,编码器22产生已编码音频信号TX以便经由网络接口26向网络26传输。编解码器20内的解码器24经由网络接口26接收来自网络36的已编码音频信号RX,并且将已编码音频信号RX转换成数字音频信号34。扬声器接口18将数字音频信号34转换成适用于驱动扬声器14的音频信号30。
在本发明实施例中,当音频接入设备7为VOIP设备时,音频接入设备7内的一些或所有部件在手机内实施。然而,在一些实施例中,麦克风12和扬声器14为单独的单元,而且麦克风接口16、扬声器接口18、编解码器20和网络接口26在个人计算机内实施。编解码器20可以由运行在计算机或专用处理器上的软件实施或由专用硬件,例如专用集成电路(ASIC)实施。麦克风接口16通过模数(A/D)转换器,以及位于手机和/或计算机内的其它接口电路实施。同样地,扬声器接口18通过数模转换器和位于手机和/或计算机内的其它接口电路实施。在其它实施例中,音频接入设备7可以通过本领域已知的其它方式实施和划分。
在本发明实施例中,当音频接入设备7为蜂窝或移动电话时,音频接入设备7内的元件在蜂窝手机内实施。编解码器20通过运行在手机内的处理器上的软件或通过专用硬件实施。在本发明的其它实施例中,音频接入设备可以在诸如端到端有线和无线数字通信系统,例如对讲机和无线手机,之类的其它设备中实施。在消费者音频设备等应用中,音频接入设备可包括只具有编码器22或解码器24的编解码器,例如,数字麦克风系统或音乐播放设备。在本发明的其它实施例中,编解码器20可以在没有麦克风12和扬声器14的情况下使用,例如在接入PSTN的蜂窝基站中使用。
本发明各种实施例中描述的用于改进清音/浊音分类的语音处理方法可以在,例如,编码器22或解码器24中实施。用于改进清音/浊音分类的语音处理方法可以在各种实施例中的硬件或软件中实施。例如,编码器22或解码器24可以是数字信号处理(DSP)芯片的一部分。
图15示出了处理系统的框图,该处理系统可以用来实现本文公开的设备和方法。特定设备可利用所示的所有组件或所述组件的一部分,且设备之间的集成程度可能不同。此外,设备可以包括部件的多个实例,例如多个处理单元、处理器、存储器、发射器、接收器等。处理系统可以包括配备一个或多个输入/输出设备,例如扬声器、麦克风、鼠标、触摸屏、按键、键盘、打印机、显示器等的处理单元。处理单元可以包括中央处理器(CPU)、存储器、大容量存储器设备、视频适配器以及连接至总线的I/O接口。
总线可以是任意类型的若干总线架构中的一个或多个,包括存储总线或存储控制器、外设总线、视频总线等等。CPU可包括任意类型的电子数据处理器。存储器可包括任何类型的系统存储器,例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步DRAM(SDRAM)、只读存储器(ROM)或其组合等等。在实施例中,存储器可包括在开机时使用的ROM以及执行程序时使用的程序和数据存储器的DRAM。
大容量存储器设备可包括任何类型的存储器设备,其用于存储数据、程序和其它信息,并使这些数据、程序和其它信息通过总线访问。大容量存储器设备可包括如下项中的一项或多项:固态磁盘、硬盘驱动器、磁盘驱动器、光盘驱动器等等。
显示卡以及I/O接口提供接口以将外部输入以及输出设备耦合到处理单元上。如所图示,输入以及输出设备的实例包含耦合到显示卡上的显示器以及耦合到I/O接口上的鼠标/键盘/打印机。其它设备可以耦合到处理单元上,并且可以利用额外的或较少的接口卡。例如,可使用如通用串行总线(USB)(未示出)等串行接口将接口提供给打印机。
处理单元还包含一个或多个网络接口,所述网络接口可以包括例如以太网电缆或其类似者等有线链路,和/或用以接入节点或不同网络的无线链路。网络接口允许处理单元经由网络与远程单元通信。举例来说,网络接口可以经由一个或多个发射器/发射天线以及一个或多个接收器/接收天线提供无线通信。在一个实施例中,处理单元耦合到局域网或广域网上以用于数据处理以及与远程设备通信,所述远程设备例如其它处理单元、因特网、远程存储设施或其类似者。
虽然已参考说明性实施例描述了本发明,但此描述并不意图限制本发明。所属领域的技术人员在参考该描述后,将会明白说明性实施例的各种修改和组合,以及本发明其他实施例。例如,上述各种实施例可以彼此组合。
虽然已详细地描述了本发明及其优点,但是应理解,可以在不脱离如所附权利要求书所界定的本发明的精神和范围的情况下对本发明做出各种改变、替代和更改。例如,上文所论述的许多特征和功能可以由软件、硬件、固件或其组合来实施。此外,本发明的范围并不局限于说明书中所述的过程、机器、制造、物质组分、构件、方法和步骤的具体实施例。所属领域的一般技术人员可从本发明中轻易地了解,可根据本发明使用现有的或即将开发出的,具有与本文所描述的相应实施例实质相同的功能,或能够取得与所述实施例实质相同的结果的过程、机器、制造、物质组分、构件、方法或步骤。相应地,所附权利要求范围包括这些流程、机器、制造、物质组分、构件、方法,及步骤。

Claims (21)

1.一种语音处理方法,其特征在于,所述方法包括:
确定清音/浊音参数,所述清音/浊音参数反映包括多个帧的语音信号的当前帧中的清音/浊音语音特性;
确定包括所述语音信号的所述当前帧之前的帧中的清音/浊音参数的信息的平滑后的清音/浊音参数;
计算所述清音/浊音参数和所述平滑后的清音/浊音参数之间的差值;以及
将所述计算得出的差值用作判决参数以生成清音/浊音判决点,所述清音/浊音判决点用于确定所述当前帧是否包括清音语音或浊音语音。
2.根据权利要求1所述的方法,其特征在于,所述清音/浊音参数是反映清音/浊音语音的至少两个特性的组合参数。
3.根据权利要求2所述的方法,其特征在于,所述组合参数是周期参数和频谱倾斜参数的运算结果。
4.根据权利要求1所述的方法,其特征在于,所述清音/浊音参数是反映清音语音特性的清音参数(Punvoicing),以及所述平滑后的清音/浊音参数是平滑后的清音参数(Punvoicing_sm)。
5.根据权利要求4所述的方法,其特征在于:当所述清音参数和所述平滑后的清音参数之间的差值大于0.1时,确定所述清音/浊音判决包括确定所述语音信号的所述当前帧是清音信号;当所述清音参数和所述平滑后的清音参数之间的差值小于0.05时,确定所述语音信号的所述当前帧不是清音语音。
6.根据权利要求5所述的方法,其特征在于,当所述清音参数和所述平滑后的清音参数之间的差值在0.05到0.1之间时,确定所述清音/浊音判决包括确定所述语音信号的所述当前帧与所述前一帧具有相同的语音类型。
7.根据权利要求4所述的方法,其特征在于,所述平滑后的清音参数从所述清音参数计算而来,如下所示。
8.根据权利要求1所述的方法,其特征在于,所述清音/浊音参数是反映浊音语音特性的浊音参数(Pvoicing),以及所述平滑后的清音/浊音参数是平滑后的浊音参数(Punvoicing_sm)。
9.根据权利要求8所述的方法,其特征在于:当所述浊音参数和所述平滑后的浊音参数之间的差值大于0.1时,确定所述清音/浊音判决包括确定所述语音信号的所述当前帧是浊音信号;以及当所述清音参数和所述平滑后的清音参数之间的差值小于0.05时,确定所述语音信号的所述当前帧不是浊音语音。
10.根据权利要求8所述的方法,其特征在于,所述平滑后的浊音参数从所述浊音参数计算而来,如下所示。
11.根据权利要求1至10中的任意权利要求所述的方法,其特征在于,确定反映当前帧中的清音/浊音语音特性的清音/浊音参数包括确定所述语音信号时域中的第一频带内的第一能量包络和所述语音信号时域中的不同的第二频带内的第二能量包络。
12.根据权利要求11所述的方法,其特征在于,所述第二频带比第一频带高。
13.一种语音处理装置,其特征在于,包括:
处理器;以及
存储由所述处理器执行的程序的计算机可读存储介质,所述程序包括执行以下操作的指令:
确定清音/浊音参数,所述清音/浊音参数反映包括多个帧的语音信号的当前帧中的清音/浊音语音特性,
确定包括所述语音信号的所述当前帧之前的帧中的清音/浊音参数的信息的平滑后的清音/浊音参数,
计算所述清音/浊音参数和所述平滑后的清音/浊音参数之间的差值;以及
将所述计算得出的差值用作判决参数以生成清音/浊音判决点,所述清音/浊音判决点用于确定所述当前帧是否包括清音语音或浊音语音。
14.根据权利要求13所述的装置,其特征在于,所述清音/浊音参数是反映周期参数和频谱倾斜参数的运算结果的组合参数。
15.根据权利要求13所述的装置,其特征在于:当所述清音/浊音参数和所述平滑后的清音/浊音参数之间的差值大于0.1时,确定所述清音/浊音判决包括确定所述语音信号的所述当前帧是清音/浊音信号;当所述清音/浊音参数和所述平滑后的清音/浊音参数之间的差值小于0.05时,确定所述语音信号的所述当前帧不是清音/浊音语音。
16.根据权利要求13所述的装置,其特征在于,所述清音/浊音参数是反映清音语音特性的清音参数,以及所述平滑后的清音/浊音参数是平滑后的清音参数。
17.根据权利要求13所述的装置,其特征在于,所述清音/浊音参数是反映浊音语音特性的浊音参数,以及所述平滑后的清音/浊音参数是平滑浊音参数。
18.根据权利要求13至17中的任意权利要求所述的装置,其特征在于,确定反映当前帧中的清音/浊音语音特征的清音/浊音参数包括确定所述语音信号时域中的第一频带内的第一能量包络和所述语音信号时域中不同的第二频带内的第二能量包络。
19.根据权利要求18所述的装置,其特征在于,所述第二频带比所述第一频带高。
20.一种语音处理方法,其特征在于,所述方法包括:
为语音信号的当前帧,从所述语音信号时域中的第一能量包络中的第一频带确定第一参数,以及从所述语音信号时域中的第二能量包络中的第二频带确定第二参数;
从所述语音信号的所述当前帧之前的帧,确定平滑后的第一参数和平滑后的第二参数;
将所述第一参数与所述平滑后的第一参数进行比较以及将所述第二参数与所述平滑后的第二参数进行比较;以及
将所述比较结果用作判决参数以生成清音/浊音判决点,所述清音/浊音判决点用于确定所述当前帧是否包括清音语音或浊音语音。
21.根据权利要求20所述的方法,其特征在于,所述第二频带比所述第一频带高。
CN201480038204.2A 2013-09-09 2014-09-05 语音处理的清音/浊音判决方法及装置 Active CN105359211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910358523.6A CN110097896B (zh) 2013-09-09 2014-09-05 语音处理的清浊音判决方法及装置

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361875198P 2013-09-09 2013-09-09
US61/875,198 2013-09-09
US14/476,547 2014-09-03
US14/476,547 US9570093B2 (en) 2013-09-09 2014-09-03 Unvoiced/voiced decision for speech processing
PCT/CN2014/086058 WO2015032351A1 (en) 2013-09-09 2014-09-05 Unvoiced/voiced decision for speech processing

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201910358523.6A Division CN110097896B (zh) 2013-09-09 2014-09-05 语音处理的清浊音判决方法及装置

Publications (2)

Publication Number Publication Date
CN105359211A true CN105359211A (zh) 2016-02-24
CN105359211B CN105359211B (zh) 2019-08-13

Family

ID=52626401

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910358523.6A Active CN110097896B (zh) 2013-09-09 2014-09-05 语音处理的清浊音判决方法及装置
CN201480038204.2A Active CN105359211B (zh) 2013-09-09 2014-09-05 语音处理的清音/浊音判决方法及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910358523.6A Active CN110097896B (zh) 2013-09-09 2014-09-05 语音处理的清浊音判决方法及装置

Country Status (16)

Country Link
US (4) US9570093B2 (zh)
EP (2) EP3352169B1 (zh)
JP (2) JP6291053B2 (zh)
KR (3) KR101774541B1 (zh)
CN (2) CN110097896B (zh)
AU (1) AU2014317525B2 (zh)
BR (1) BR112016004544B1 (zh)
CA (1) CA2918345C (zh)
ES (2) ES2908183T3 (zh)
HK (1) HK1216450A1 (zh)
MX (1) MX352154B (zh)
MY (1) MY185546A (zh)
RU (1) RU2636685C2 (zh)
SG (2) SG11201600074VA (zh)
WO (1) WO2015032351A1 (zh)
ZA (1) ZA201600234B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119094A (zh) * 2018-07-25 2019-01-01 苏州大学 一种利用声带建模反演的嗓音分类方法
CN112885380A (zh) * 2021-01-26 2021-06-01 腾讯音乐娱乐科技(深圳)有限公司 一种清浊音检测方法、装置、设备及介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9570093B2 (en) 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
US9972334B2 (en) 2015-09-10 2018-05-15 Qualcomm Incorporated Decoder audio classification
US20190139567A1 (en) * 2016-05-12 2019-05-09 Nuance Communications, Inc. Voice Activity Detection Feature Based on Modulation-Phase Differences
US10249305B2 (en) * 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
RU2668407C1 (ru) * 2017-11-07 2018-09-28 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи
CN108447506A (zh) * 2018-03-06 2018-08-24 深圳市沃特沃德股份有限公司 语音处理方法和语音处理装置
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
WO2021156375A1 (en) * 2020-02-04 2021-08-12 Gn Hearing A/S A method of detecting speech and speech detector for low signal-to-noise ratios

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
CN1470052A (zh) * 2000-10-18 2004-01-21 ��˹��ŵ�� 宽带语音编解码器中的高频增强层编码
US20050177364A1 (en) * 2002-10-11 2005-08-11 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
CN1703737A (zh) * 2002-10-11 2005-11-30 诺基亚有限公司 在自适应多速率宽带(amr-wb)和多模式可变比特率宽带(vmr-wb)编解码器之间互操作的方法
CN1909060A (zh) * 2005-08-01 2007-02-07 三星电子株式会社 提取浊音/清音分类信息的方法和设备
CN101261836A (zh) * 2008-04-25 2008-09-10 清华大学 基于过渡帧判决及处理的激励信号自然度提高方法
WO2008151408A1 (en) * 2007-06-14 2008-12-18 Voiceage Corporation Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711
CN101379551A (zh) * 2005-12-28 2009-03-04 沃伊斯亚吉公司 在语音编解码器中用于有效帧擦除隐蔽的方法和装置
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
US20110313778A1 (en) * 2006-06-21 2011-12-22 Samsung Electronics Co., Ltd Method and apparatus for adaptively encoding and decoding high frequency band
CN102664003A (zh) * 2012-04-24 2012-09-12 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
JPH06110489A (ja) * 1992-09-24 1994-04-22 Nitsuko Corp 音声信号処理装置及びその方法
JP3655652B2 (ja) * 1993-09-02 2005-06-02 シーメンス アクチエンゲゼルシヤフト 自動的通話方向切換のための方法および回路装置
JPH07212296A (ja) * 1994-01-17 1995-08-11 Japan Radio Co Ltd Vox制御通信装置
US5991725A (en) 1995-03-07 1999-11-23 Advanced Micro Devices, Inc. System and method for enhanced speech quality in voice storage and retrieval systems
WO1998001847A1 (en) * 1996-07-03 1998-01-15 British Telecommunications Public Limited Company Voice activity detector
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US6463407B2 (en) 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US6415029B1 (en) * 1999-05-24 2002-07-02 Motorola, Inc. Echo canceler and double-talk detector for use in a communications unit
JP3454214B2 (ja) * 1999-12-22 2003-10-06 三菱電機株式会社 パルス雑音除去装置およびこれを含む中波am音声放送受信機
JP3689616B2 (ja) * 2000-04-27 2005-08-31 シャープ株式会社 音声認識装置及び音声認識方法、音声認識システム、並びに、プログラム記録媒体
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US7171357B2 (en) * 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
US7519530B2 (en) * 2003-01-09 2009-04-14 Nokia Corporation Audio signal processing
US7698141B2 (en) * 2003-02-28 2010-04-13 Palo Alto Research Center Incorporated Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications
US7469209B2 (en) * 2003-08-14 2008-12-23 Dilithium Networks Pty Ltd. Method and apparatus for frame classification and rate determination in voice transcoders for telecommunications
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
JP2007149193A (ja) * 2005-11-25 2007-06-14 Toshiba Corp ディフェクト信号生成回路
JP2007292940A (ja) * 2006-04-24 2007-11-08 Toyota Motor Corp 音声識別装置及び音声識別方法
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
BRPI0717484B1 (pt) * 2006-10-20 2019-05-21 Dolby Laboratories Licensing Corporation Método e aparelho para processar um sinal de áudio
US7817286B2 (en) * 2006-12-22 2010-10-19 Hitachi Global Storage Technologies Netherlands B.V. Iteration method to improve the fly height measurement accuracy by optical interference method and theoretical pitch and roll effect
US7873114B2 (en) * 2007-03-29 2011-01-18 Motorola Mobility, Inc. Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
RU2441286C2 (ru) * 2007-06-22 2012-01-27 Войсэйдж Корпорейшн Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов
CN101221757B (zh) 2008-01-24 2012-02-29 中兴通讯股份有限公司 高频杂音处理方法及分析方法
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
US20110123121A1 (en) * 2009-10-13 2011-05-26 Sony Corporation Method and system for reducing blocking artefacts in compressed images and video signals
WO2011133924A1 (en) * 2010-04-22 2011-10-27 Qualcomm Incorporated Voice activity detection
TWI403304B (zh) * 2010-08-27 2013-08-01 Ind Tech Res Inst 隨身語能偵知方法及其裝置
CN102655480B (zh) 2011-03-03 2015-12-02 腾讯科技(深圳)有限公司 相似邮件处理系统和方法
US8909539B2 (en) 2011-12-07 2014-12-09 Gwangju Institute Of Science And Technology Method and device for extending bandwidth of speech signal
KR101352608B1 (ko) * 2011-12-07 2014-01-17 광주과학기술원 음성 신호의 대역폭 확장 방법 및 그 장치
US20130151125A1 (en) * 2011-12-08 2013-06-13 Scott K. Mann Apparatus and Method for Controlling Emissions in an Internal Combustion Engine
KR101398189B1 (ko) * 2012-03-27 2014-05-22 광주과학기술원 음성수신장치 및 음성수신방법
US8924209B2 (en) * 2012-09-12 2014-12-30 Zanavox Identifying spoken commands by templates of ordered voiced and unvoiced sound intervals
US9984706B2 (en) * 2013-08-01 2018-05-29 Verint Systems Ltd. Voice activity detection using a soft decision mechanism
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
CN1470052A (zh) * 2000-10-18 2004-01-21 ��˹��ŵ�� 宽带语音编解码器中的高频增强层编码
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
US20050177364A1 (en) * 2002-10-11 2005-08-11 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
CN1703737A (zh) * 2002-10-11 2005-11-30 诺基亚有限公司 在自适应多速率宽带(amr-wb)和多模式可变比特率宽带(vmr-wb)编解码器之间互操作的方法
CN1909060A (zh) * 2005-08-01 2007-02-07 三星电子株式会社 提取浊音/清音分类信息的方法和设备
CN101379551A (zh) * 2005-12-28 2009-03-04 沃伊斯亚吉公司 在语音编解码器中用于有效帧擦除隐蔽的方法和装置
US20110313778A1 (en) * 2006-06-21 2011-12-22 Samsung Electronics Co., Ltd Method and apparatus for adaptively encoding and decoding high frequency band
WO2008151408A1 (en) * 2007-06-14 2008-12-18 Voiceage Corporation Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711
CN101261836A (zh) * 2008-04-25 2008-09-10 清华大学 基于过渡帧判决及处理的激励信号自然度提高方法
CN102664003A (zh) * 2012-04-24 2012-09-12 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HENNING PUDER,ETC.: ""AN APPROACH TO AN OPTIMIZED VOICE-ACTIVITY DETECTOR FOR NOISY SPEECH SIGNALS"", 《SIGNAL PROCESSING》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119094A (zh) * 2018-07-25 2019-01-01 苏州大学 一种利用声带建模反演的嗓音分类方法
CN112885380A (zh) * 2021-01-26 2021-06-01 腾讯音乐娱乐科技(深圳)有限公司 一种清浊音检测方法、装置、设备及介质

Also Published As

Publication number Publication date
BR112016004544A2 (zh) 2017-08-01
KR101774541B1 (ko) 2017-09-04
US20170110145A1 (en) 2017-04-20
EP3005364A1 (en) 2016-04-13
JP6470857B2 (ja) 2019-02-13
JP2016527570A (ja) 2016-09-08
US20180322895A1 (en) 2018-11-08
ES2687249T3 (es) 2018-10-24
HK1216450A1 (zh) 2016-11-11
SG11201600074VA (en) 2016-02-26
KR20180095744A (ko) 2018-08-27
BR112016004544B1 (pt) 2022-07-12
EP3352169A1 (en) 2018-07-25
US20150073783A1 (en) 2015-03-12
US10347275B2 (en) 2019-07-09
CN110097896A (zh) 2019-08-06
RU2016106637A (ru) 2017-10-16
AU2014317525A1 (en) 2016-02-11
WO2015032351A1 (en) 2015-03-12
US9570093B2 (en) 2017-02-14
EP3005364B1 (en) 2018-07-11
MX2016002561A (es) 2016-06-17
US10043539B2 (en) 2018-08-07
KR20170102387A (ko) 2017-09-08
RU2636685C2 (ru) 2017-11-27
EP3005364A4 (en) 2016-06-01
ZA201600234B (en) 2017-08-30
JP2018077546A (ja) 2018-05-17
MY185546A (en) 2021-05-19
US11328739B2 (en) 2022-05-10
KR20160025029A (ko) 2016-03-07
SG10201701527SA (en) 2017-03-30
CN110097896B (zh) 2021-08-13
EP3352169B1 (en) 2021-12-08
ES2908183T3 (es) 2022-04-28
CA2918345C (en) 2021-11-23
MX352154B (es) 2017-11-10
AU2014317525B2 (en) 2017-05-04
CN105359211B (zh) 2019-08-13
US20200005812A1 (en) 2020-01-02
JP6291053B2 (ja) 2018-03-14
CA2918345A1 (en) 2015-03-12
KR102007972B1 (ko) 2019-08-06
KR101892662B1 (ko) 2018-08-28

Similar Documents

Publication Publication Date Title
US10249313B2 (en) Adaptive bandwidth extension and apparatus for the same
US9837092B2 (en) Classification between time-domain coding and frequency domain coding
US11328739B2 (en) Unvoiced voiced decision for speech processing cross reference to related applications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant